CN116095357B

CN116095357B - 虚拟主播的直播方法、装置及系统

Info

Publication number: CN116095357B
Application number: CN202310361605.2A
Authority: CN
Inventors: 王英; 张青辉
Original assignee: 4u Beijing Technology Co ltd
Current assignee: Shiyou Beijing Technology Co ltd
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-07-04
Anticipated expiration: 2043-04-07
Also published as: CN116095357A

Abstract

本公开提供了一种虚拟主播的直播方法、装置及系统，该方法包括：实时捕捉现实主播的面部动作数据和语音数据；对所述面部动作数据进行分析，得到所述现实主播的口型数据；对所述语音数据进行分析，得到与所述语音数据对应的文字内容以及语音特征，对所述文字内容进行处理，将处理后的所述文字内容转换为音素序列；基于所述音素序列和所述语音特征，对所述口型数据进行调整，并基于调整后的所述口型数据来生成用于直播的直播视频流，然后将所述直播视频流推流至终端设备。本公开解决了虚拟主播口型对不准的问题。

Description

虚拟主播的直播方法、装置及系统

技术领域

本公开涉及直播技术领域，具体而言，涉及一种虚拟主播的直播方法、装置及系统。

背景技术

虚拟主播是一种由人工智能（Artificial Intelligence，AI）技术生成的虚拟人物，可以在现实主播的控制下进行直播，也可以在AI算法的控制下进行直播，还可以在现实主播和AI算法的共同控制下进行直播。

在现实主播控制下进行直播时，传感器、摄像头、麦克风等设备会获取现实主播的动作信息和语音信息，然后实时应用到虚拟主播身上，从而使虚拟主播的动作和语音与现实主播保持一致。

虚拟主播的口型的对准通常是通过实时语音识别技术来实现的。该技术可以将现实主播的语音实时转换为文字，并根据文字的内容生成相应的口型动作，使虚拟主播看起来像在准确地模仿现实主播的说话动作。

尽管现有的语音识别技术已经相当成熟，但仍然难以完全准确地识别所有语音内容。此外，现有的口型动作生成算法也无法完全准确地捕捉到现实主播的口型特征。因此，虚拟主播的口型对准技术仍需进一步的改进和发展，以提高口型动作的准确度。

发明内容

本公开实施例提供了一种虚拟主播的直播方法、装置及系统，以至少解决虚拟主播口型对不准的技术问题。

根据本公开实施例的一个方面，提供了一种虚拟主播的直播方法，包括：实时捕捉现实主播的面部动作数据和语音数据，对所述面部动作数据进行分析，得到所述现实主播的口型数据；对所述语音数据进行分析，得到与所述语音数据对应的文字内容以及语音特征，并对所述文字内容进行处理，将处理后的所述文字内容转换为音素序列；基于所述音素序列和所述语音特征，对所述口型数据进行调整；基于调整后的所述口型数据来生成用于直播的直播视频流，并将所述直播视频流推流至终端设备。

根据本公开实施例的另一个方面，提供了一种虚拟主播的直播装置，包括：获取模块，被配置为实时获取现实主播的面部动作数据和语音数据；面部分析模块，被配置为对所述面部动作数据进行分析，得到所述现实主播的口型数据；语音分析模块，被配置为对所述语音数据进行分析，得到与所述语音数据对应的文字内容以及语音特征，并对所述文字内容进行处理，将处理后的所述文字内容转换为音素序列；调整模块，被配置为基于所述音素序列和所述语音特征，对所述口型数据进行调整；推流模块，被配置为基于调整后的所述口型数据来生成用于直播的直播视频流，并将所述直播视频流推流至终端设备。

根据本公开实施例的另一个方面，提供了一种虚拟主播的直播系统，包括：如上所述的虚拟主播的直播装置；终端设备，用于播放所述虚拟主播的直播装置推流的直播视频流。

在本公开实施例中，基于音素序列和语音特征，对口型数据进行调整，并基于调整后的口型数据来生成用于直播的直播视频流，从而解决了虚拟主播口型对不准的问题，具有提高虚拟主播的逼真度的有益效果。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是根据本申请实施例的一种虚拟主播的直播系统的架构示意图；

图2是根据本申请实施例的一种虚拟主播的直播方法的流程示意图；

图3是根据本申请实施例的另一种虚拟主播的直播方法的流程示意图；

图4是根据本申请实施例的对语音数据进行预处理的方法的流程示意图；

图5是根据本申请实施例的一种基于语音特征、文字内容和面部动作数据生成口型数据的方法的流程示意图；

图6是根据本申请实施例的一种计算嘴唇的张合程度的方法的流程示意图；

图7是根据本申请实施例的一种虚拟主播的直播装置的结构示意图；

图8是根据本申请实施例的一种电子设备的结构示意图。

其中，上述附图包括以下附图标记：

1001、CPU；1002、ROM；1003、RAM；1004、总线；1005、I/O接口；1006、输入部分；1007、输出部分；1008、存储部分；1009、通信部分；1010、驱动器；1011、可拆卸介质；100、虚拟主播的直播系统；101、第一终端设备；102、第二终端设备；103、第三终端设备；104、网络；105、服务器；106、动捕装置；1062、动捕头盔；1064、动捕服；1066、动捕手套；70、获取模块；72、面部分析模块；74、语音分析模块；76、调整模块；78、推流模块。

具体实施方式

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

实施例1

图1示出了根据本公开实施例的一种虚拟主播的直播系统的架构示意图，如图1所示，虚拟主播的直播系统100可以包括终端设备例如第一终端设备101、第二终端设备102、第三终端设备103中的一个或多个、网络104、服务器105和动捕装置106。

网络104用以在终端设备和服务器105之间、以及动捕装置106和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络、动捕装置和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络、动捕装置和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

动捕装置106用于实时采集现实主播的动捕数据和语音数据，并经网络104发送给服务器105。其中，动捕装置106可以包括动捕头盔1062、动捕服1064和动捕手套1066中的一个或多个。

动捕头盔1062设置有摄像头和麦克风，摄像头的拍摄速度高达60帧/秒，能够捕捉快速的唇部动作、眨眼动作，以及面部的抽动和抖动。此外，本实施例中的动捕头盔1062是开放式的结构，这样，空气能够在其中流通，从而使得佩带动捕头盔1062的人员能够在进行操作时更加舒适。动捕头盔1062可以连接专用的数据线，如果数据线长度不够，还可以通过连接增强型USB延长线延长。

动捕服1064可以由惯性传感器、控制盒、莱卡面料等组成。本实施例中的动捕服1064设置有17个传感器，能够同时追踪23个不同的身体环节的动作，追踪部位包括双脚、小腿、膝盖、腹部、双手、手肘以及肩膀等。本实施例中的动捕服1064通过这样的结构，能够满足运动捕捉和动画设计的严格需求，具有使用简单、穿戴舒适、数据质量高的有益效果。在其他的实施例中，动捕服1064上还可以通过放置可追踪标记来捕捉穿戴动捕服1064的人或其他物体的运动轨迹。例如，可以放置反光标记，通过红外相机等追踪装置来跟踪这些标记。

动捕手套1066由惯性传感器、弹性面料、手部动作捕捉系统等组成。本实施例中，动捕手套1066上设置有12颗高性能的九轴惯性传感器，姿态更新频率为120Hz，采集点数量为12个节点，静态精度为0.02度，动态精度为0.2度，解算频率为约1000Hz，数据延迟为30ms。

服务器105接收到动捕装置106采集的动捕数据和语音数据之后，执行本公开实施例所提供的虚拟主播的直播方法，生成直播视频流，并推送给终端设备。

本公开实施例所提供的虚拟主播的直播方法一般由服务器105执行，相应地，虚拟主播的直播装置一般设置于服务器105中。但本领域技术人员容易理解的是，本公开实施例所提供的虚拟主播的直播方法也可以由终端设备执行，为其他终端设备提供虚拟直播服务，相应的，虚拟主播的直播装置也可以设置于终端设备中，本示例性实施例中对此不做特殊限定。

在一些示例性实施例中，可以是用户通过终端设备上的应用程序进入直播间，服务器105通过本公开实施例所提供的虚拟主播的直播方法，生成直播视频流，并将直播视频流传输给终端设备等。

实施例2

本公开实施例提供了一种虚拟主播的直播方法，如图2所示，该方法包括：

步骤S202，实时捕捉现实主播的面部动作数据和语音数据，对所述面部动作数据进行分析，得到所述现实主播的口型数据。

例如，可以使用深度学习技术来识别现实主播的面部表情和口型，同时使用语音识别技术来转录语音数据。具体来说，在面部动作数据的捕捉方面，可以使用面部识别技术来捕捉现实主播的面部表情。这种技术可以使用摄像头来捕捉面部数据，并使用深度学习模型来识别面部表情，例如微笑、皱眉、眨眼等。对于语音数据的捕捉，可以使用麦克风或其他音频设备来捕捉现实主播的语音数据。

通过上述步骤，可以有助于实现实时的口型同步技术，使得虚拟主播的口型能够与现实主播的口型实时同步，进而增强虚拟主播的真实感和互动性，提高用户体验。

步骤S204，对所述语音数据进行分析，得到与所述语音数据对应的文字内容以及语音特征，并对所述文字内容进行处理，将处理后的所述文字内容转换为音素序列。

首先，对所述语音数据进行预处理。例如，对所述语音数据进行去噪处理，并对去噪处理后的所述语音数据进行分帧，得到多帧语音数据片。

接着，从预处理后的所述语音数据中提取所述语音特征。具体地，通过数字信号处理技术来分析预处理后的所述语音数据，以从预处理后的所述语音数据中提取出所述语音特征，其中，所述语音特征包括所述语音数据的频谱信息、频率信息和语速信息。例如，通过所述数字信号处理技术，对所述每帧语音数据片进行频域分析，得到所述每帧语音数据片的频谱信息和频率信息，并对所述每帧语音数据片进行时域分析，得到所述每帧语音数据片的语速信息。

然后，从预处理后的所述语音数据中提取出相应的文字内容。具体地，通过语音识别技术来分析预处理后的所述语音数据，以从预处理后的所述语音数据中提取出对应的所述文字内容，然后，将处理后的文字内容转换为音素序列。

本实施例通过预处理步骤可以减少语音数据中的噪音和干扰，提高后续处理的准确性和稳定性；通过分帧处理可以将连续的语音数据分成多个时间段，使得每个时间段可以被独立地处理；通过语音特征提取可以从每个时间段中提取出有用的特征信息，如频谱、频率和语速等；最后，通过语音识别技术可以将处理后的语音数据转换为文本，以便进行进一步将文本表示为连续的音素，方便后续处理。

步骤S206，基于所述音素序列和所述语音特征，对所述口型数据进行调整。

首先，进行时间对齐。针对每帧语音数据片，将所述每帧语音数据片的音素序列和所述每帧语音数据片的语音特征对应，计算所述每帧语音数据片的音素序列和所述每帧语音数据片的语音特征之间的距离，得到帧对齐误差；基于所述帧对齐误差，使用动态规划算法将所述每帧语音数据片的语音特征对齐到所述每帧语音数据片的音素序列中。

接着，计算口型参数, 并基于口型参数来调整口型数据。

针对每帧语音数据片，将音素序列中的每个音素与语音特征进行配对，得到所述每个音素对应的语音特征；基于所述每个音素对应的语音特征，计算所述每个音素对应的口型参数，其中，所述口型参数包括以下至少之一：嘴唇的形状、嘴唇的张合程度、舌头的位置、喉咙的位置、嘴唇的运动速度。

具体地，基于所述每个音素对应的语音特征中的频率信息，计算音高，并基于所述音高来确定所述嘴唇的张合程度，其中，所述音高越大，嘴唇张开的程度越大；基于所述每个音素对应的语音特征中的频谱信息，计算出所述频谱信息中的两个或多个峰值频率之间的能量分布，以确定所述舌头的位置；基于所述每个音素对应的语音特征中的频谱信息，计算出所述频谱信息中的共振峰的位置，并根据所述共振峰的位置计算出所述喉咙的位置；基于所述每个音素对应的语音特征中的语速信息，计算出所述嘴唇的运动速度；基于所述每个音素的发音特点，确定所述嘴唇的形状。然后，基于这些口型参数来调整口型数据。

本实施例通过时间对齐可以解决语音数据和音素序列之间的不匹配问题，从而实现更加精确的语音特征提取和口型数据生成；通过基于语音特征计算口型参数，可以更加准确地反映口腔的形状和运动状态，并且可以根据语音的音高、共振峰、语速等信息来生成相应的口型动画，从而增加口型的自然感和真实感；此外，口型数据的调整可以进一步优化口型动画的质量，使其更加匹配语音，提高口型与语音的一致性和连贯性。

步骤S208，基于调整后的所述口型数据来生成用于直播的直播视频流，并将所述直播视频流推流至终端设备。

例如，对调整后的所述口型数据进行三维渲染，得到与所述虚拟主播对应的脸部图像；将所述脸部图像与背景元素进行合成，生成用于直播的所述直播视频流，并将所述直播视频流推流至终端设备。

本实施例通过上述方法，解决了虚拟主播口型对不准的问题，从而提高了虚拟主播的口型的自然感和真实感，增强了用户体验。

实施例3

本公开实施例提供了另一种虚拟主播的直播方法，如图3所示，该方法包括以下步骤：

步骤S302，实时捕捉现实主播的面部动作数据和语音数据。

本步骤和实施例2中的步骤S202类似，此处不再赘述。

步骤S304，对所述语音数据进行预处理。

图4是根据本公开实施例的对所述语音数据进行预处理的方法的流程图，如图4所示，该方法包括以下步骤：

步骤S3042，对语音数据进行去噪。

由于录音环境的复杂性，语音数据中可能存在各种噪声，如背景噪声、麦克风噪声、空气噪声等。这些噪声会对语音数据的质量造成影响，因此需要对语音数据进行去噪处理。

具体地，将语音数据进行帧化处理，将每一帧的语音数据转换到频域上。计算每一帧的噪声谱，并将其与该帧的语音谱相减，得到该帧的降噪后的语音谱。然后，将降噪后的语音谱转换到时域上，并将每帧的语音数据拼接起来，得到降噪后的语音数据。

本实施例通过去噪处理，可以提高语音识别的准确性。语音数据中存在的噪声会干扰语音识别系统对语音数据的解析和理解，因此对语音数据进行去噪可以减少噪声的影响，提高语音识别的准确性。此外，还可以提高语音数据的可读性。去除噪声可以使得语音数据更加清晰，易于听懂，提高语音数据的可读性。最后，还能够增强语音数据的稳定性。去除噪声可以减少语音数据的波动和不稳定性，使得语音数据更加平滑和稳定。

步骤S3044，对语音数据进行分帧。

语音数据是一个连续的信号，本实施例中将其划分成若干个短时段，即分帧。分帧可以有效地保留语音数据的短时动态特征。在分帧时，帧长要足够短，以保留语音数据的短时动态特征，同时又要足够长，以保证每帧包含足够多的样本数据，以便进行频域分析。本实施例中，每帧的帧长可以为20-30毫秒。此外，帧移要足够小，以充分利用语音数据的信息，同时又要足够大，以避免相邻帧之间的重叠过多，导致分析结果出现混淆。本实施例中，帧移可以为10-15毫秒。

实际应用中，还需要根据具体情况进行调整。例如，在噪声比较大的环境中，可以适当增加帧长，以便更好地抑制噪声；而在要求实时性比较高的应用中，可以适当减小帧长和帧移，以提高响应速度。

本实施例，通过对语音数据进行分帧，可以保留语音数据的短时动态特征。分帧可以有效地保留语音数据的短时动态特征，这些短时动态特征在后续的语音识别和语音处理中非常重要。因此，分帧能够提高语音识别和处理的准确性和效率。此外，通过分帧还能够方便进行频域分析。将语音数据划分成若干个短时段后，可以对每一帧进行频域分析，得到语音数据的频域特征。

步骤S3046，进行加窗处理。

分帧后的语音数据还需要进行加窗处理，以消除信号的边界效应。通过加窗可以对语音数据进行平滑处理，减少语音数据之间的突变。

步骤S306，从预处理的语音数据中获取语音特征和文字内容。

首先，获取语音特征。对于每一帧语音数据片，采用快速傅里叶变换（FFT）进行频域分析，得到其频谱信息和频率信息。然后，对于每一帧语音数据片的频谱信息，采用逆变换进行时域分析，得到其语速信息。接着，进行特征提取。从每帧语音数据片的频谱信息、频率信息和语速信息中提取出一些有用的特征，如MFCC（Mel频率倒谱系数）、能量谱、基频、时长等。最后，进行特征处理。对于提取出的特征进行归一化、降维等处理。

同时，获取文字内容。具体地，将语音数据预处理成可输入到 ASR 模型中的格式，通常是将其转换成数字信号。选择适合的 ASR 模型，如基于深度学习的模型，例如卷积神经网络 (CNN)、循环神经网络 (RNN) 或变压器 (Transformer) 模型。这些模型通常使用端到端学习方法，直接将输入的语音数据映射到相应的文本输出。之后，将准备好的语音数据和相应的文本标记用于训练 ASR 模型。训练过程中，ASR模型将调整其内部参数，以最大程度地准确预测文本输出，再使用一组独立的测试数据评估ASR模型的性能，并根据评估结果进行ASR模型的调整。最后，使用经过训练的ASR模型对输入的现实主播的语音数据进行推理，以获取相应的文字内容。

然后，将文字内容转换为音素序列。音素是语言中最小的音位单位，是可以被听觉上区分的、具有独立意义的语音单位。在虚拟主播的直播过程中，将处理后的文字内容转换为音素序列的目的是为了便于后续的口型调整和虚拟主播的直播视频流生成。具体地可以包括如下步骤：1）进行分词处理：将识别出的文字内容按照词汇单位进行切割，以得到一个个词汇。2）去停用词：去除一些常用但在当前语境下无实际含义的词汇，例如“的”、“是”等。3）词性标注：为每个词汇赋予相应的词性标签，以便后续进行语法分析和口型调整。4）音素转换：将每个词汇转换为对应的音素，通常采用汉语拼音或国际音标等标准进行转换。这个过程中，需要考虑到不同的音素之间可能存在合并、分裂、调整等情况，以适应不同的发音习惯和语境。最终，通过上述步骤，可以将处理后的文字内容转换为与之对应的音素序列。

步骤S308，基于语音特征、文字内容和面部动作数据生成口型数据。

图5是根据本公开实施例的基于语音特征、文字内容和面部动作数据生成口型数据的方法的流程图，如图5所示，该方法包括以下步骤：

步骤S3082，计算口型参数。

基于所述音素序列和语音特征，计算每个音素对应的口型参数。对于每个音素，可以将其与对应的语音特征进行配对，并计算口型参数。例如，口型参数的计算方法可以如图6所示，包括如下步骤：

步骤S30820，计算嘴唇的张合程度。

通过语音特征中的频率信息计算嘴唇的张合程度。在发元音音素时，嘴唇的张合程度与发音音高呈正相关，即音高越高，嘴唇张开的程度越大。因此，可以通过语音特征中的频率信息，计算出对应音高的嘴唇张开程度。

步骤S30822，计算舌头的位置。

舌头位置主要影响元音的音色特征。通过语音特征中的频谱信息可以得到不同频率成分的能量强度分布，进而计算出舌头在口腔中的位置。例如，通过语音特征中的频谱信息，计算出峰值频率对应的位置，该位置即为舌头在口腔中的位置。或者，通过语音特征中的频谱信息，计算出两个或多个峰值频率之间的能量分布，进而计算出舌头的位置。

步骤S30824，计算喉咙的位置。

喉咙的位置主要影响元音的共振峰。通过语音特征中的频谱信息，可以计算出共振峰的位置，并据此计算出喉咙的位置。

步骤S30826，计算嘴唇的运动速度。

基于所述每个音素对应的语音特征中的语速信息，计算出所述嘴唇的运动速度。具体地，计算嘴唇的运动速度，可以通过分析每个音素对应的语音特征中的语速信息来实现。语速是指说话人说话的速度，通常是以每分钟发音的音素数来计算的。在音素级别上，可以通过计算相邻音素之间的时间差来获得语速信息。一般而言，人在发音时，需要在嘴唇、舌头和声带等肌肉协调运动，使空气从肺部流出，产生声音。在发音过程中，嘴唇的运动速度通常会受到语速的影响。例如，当以较慢的语速说话时，嘴唇运动速度可能会较慢，而当以较快的语速说话时，嘴唇运动速度可能会更快。

为了计算嘴唇的运动速度，可以使用语音信号处理技术来分析每个音素对应的语速信息。对每个音素的语音特征进行分析，以确定语速信息。例如，使用自动语音识别（ASR）系统，将语音数据转换为相应的文本，并提取出每个音素的时长。通过比较相邻音素的时长，可以计算出它们之间的时间差，从而获得语速信息。

一旦获得了语速信息，就可以通过将每个音素的语速信息与嘴唇运动的相关参数进行关联，来计算嘴唇的运动速度。这些相关参数可以包括嘴唇的张合程度、舌头的位置和声带的振动情况等。

步骤S30828，计算嘴唇的形状。

在确定每个音素对应的嘴唇的形状时，需要考虑音素的嘴唇形状，并结合相邻音素的影响进行确定。例如，对于圆唇元音，需要收紧成圆形；而对于不圆唇元音，需要放松成自然状态。此外，还要考虑音素的相邻音素。音素的嘴唇形状也可以受到相邻音素的影响。例如，对于连续的元音 /u/ 和 /i/，嘴唇需要从圆形收紧到自然状态。确定准确的口型形状可以使得虚拟主播的发音看起来更自然、准确，从而提高其质量和可信度。

步骤S3084，基于计算出的口型参数，对口型数据进行调整。

首先，通过摄像头采集现实主播的面部动作数据。可以使用计算机视觉技术，如面部识别和跟踪算法，从摄像头捕捉的视频流中提取出嘴部区域，进而获取嘴部的形态信息。然后，进行数据预处理和嘴型识别。将摄像头采集到的口型数据进行预处理，如噪声去除、平滑处理等。接着，可以使用机器学习技术，如深度学习模型，将嘴型数据与具体的嘴型形态进行匹配和识别，从而得到嘴型的具体信息，即得到口型数据。

然后，利用步骤S3082中计算出的口型参数，来对口型数据进行调整。在一些实施例中，可以采用以下公式计算基于语音的口型数据：

其中，F(t)表示在时间t时刻生成的基于语音的口型数据，N表示参与计算的音素个数；A_i表示第i个音素的幅值；t_i表示第i个音素的起始时间；σ表示第i个音素的标准差；D(t-t_i)表示第i个音素的时长；K_i(t-t_i)表示第i个音素的口型调整系数，用于模拟不同的口型调整方式；C_i表示发音者个体差异系数；P_i(t)表示第i个音素的谐波峰频率；G_i表示第i个音素的喉咙和口腔形态学特征系数，用于模拟不同的口腔和喉咙的形态的调整方式。

其中，口型调整系数是基于嘴唇的张合程度、嘴唇的形状、嘴唇的运动速度而确定的；喉咙和口腔形态学特征系数是基于舌头的位置、喉咙的位置而确定的。例如，可以采用以下公式计算口型调整系数和喉咙和口腔形态学特征系数：

其中，M表示用于生成口型调整系数的口型参数的个数，这里M为3，F_i(t)表示用于生成口型调整系数的口型参数，分别为嘴唇的张合程度、嘴唇的形状、嘴唇的运动速度，W_i(t)为用于生成口型调整系数的口型参数的权重；M’表示用于生成喉咙和口腔形态学特征系数的口型参数的个数，这里M'为2，F_i'(t)表示用于生成喉咙和口腔形态学特征系数的口型参数，分别为舌头的位置、喉咙的位置，W_i'(t)为用于生成喉咙和口腔形态学特征系数的口型参数的权重。

计算出基于语音的口腔数据之后，将基于语音的口腔数据和基于摄像头采集到的口型数据进行比对，基于比较结果，来修正基于摄像头采集到的口型数据，得到最终的口型数据。

通过上述计算方法可以对多种不同因素进行综合分析，生成更加精准的口型数据，从而提高口型合成的效果。具体来说，该公式中考虑了音素、前后文、语速、音高等多种因素，这些因素的综合作用可以更好地模拟真实的口型运动。因此，通过该公式生成的口型数据可以更好地反映语音的细节和表达情感，提高语音合成的自然度和可懂性。

步骤S310，生成直播视频流并推送至终端设备。

在口型数据调整完毕之后，可以使用动画技术将其应用于虚拟主播的嘴部。例如，将调整后的口型数据与虚拟主播的嘴部骨骼或表面网格进行关联。具体来说，可以使用骨骼动画或形变动画等技术来实现嘴型的实时变化。

在虚拟主播的嘴部动画及其他部位的动画生成完毕之后，就可以将其推送到终端设备上观看。服务器使用流传输协议（如RTMP）将生成的直播视频流推送到终端设备上。终端设备可以是电脑、手机、平板电脑等。在将视频流推送到终端设备之前，需要确保视频流的质量和稳定性。为此，可以使用流媒体服务器来管理视频流，并使用编解码器来优化视频编码。此外，还可以使用流量控制技术来控制视频流的传输速度，以确保视频质量和流畅性。

实施例4

本申请实施例提供了一种虚拟主播的直播装置，如图7所示，包括：获取模块70，面部分析模块72、语音分析模块74、调整模块76和推流模块78。

获取模块70，被配置为实时获取现实主播的面部动作数据和语音数据；面部分析模块72，被配置为对所述面部动作数据进行分析，得到所述现实主播的口型数据；语音分析模块74，被配置为对所述语音数据进行分析，得到与所述语音数据对应的文字内容以及语音特征，并对所述文字内容进行处理，将处理后的所述文字内容转换为音素序列；调整模块76，被配置为基于所述音素序列和所述语音特征，对所述口型数据进行调整；推流模块78，被配置为基于调整后的所述口型数据来生成用于直播的直播视频流，并将所述直播视频流推流至终端设备。

需要说明的是，上述实施例提供的虚拟主播的直播装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的虚拟主播的直播装置与虚拟主播的直播方法实施例属于同一构思，其具体实现过程详见方法实施例，此处不再赘述。

实施例5

图8示出了适于用来实现本公开实施例的电子设备的结构示意图。需要说明的是，图8示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，该电子设备包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的方法和装置中限定的各种功能。在一些实施例中，电子设备还可以包括AI( ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现上述方法实施例的各个步骤等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端设备，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种虚拟主播的直播方法，其特征在于，包括：

实时捕捉现实主播的面部动作数据和语音数据，对所述面部动作数据进行分析，得到所述现实主播的口型数据；

对所述语音数据进行分析，得到与所述语音数据对应的文字内容以及语音特征，对所述文字内容进行处理，将处理后的所述文字内容转换为音素序列；

基于所述音素序列和所述语音特征，对所述口型数据进行调整；

基于调整后的所述口型数据来生成用于直播的直播视频流，并将所述直播视频流推流至终端设备;

其中，基于所述音素序列和所述语音特征，对所述口型数据进行调整，包括：将所述音素序列中的每个音素与所述语音特征进行配对，得到所述每个音素对应的语音特征；基于所述每个音素对应的语音特征，计算所述每个音素对应的口型参数，其中，所述口型参数包括以下至少之一：嘴唇的形状、嘴唇的张合程度、舌头的位置、喉咙的位置、和嘴唇的运动速度；基于所述口型参数，对所述口型数据进行调整；

其中，所述口型数据是采用以下公式计算得到的：

；

2.根据权利要求1所述的方法，其特征在于，对所述语音数据进行分析，得到与所述语音数据对应的文字内容以及语音特征，包括：

对所述语音数据进行预处理，通过数字信号处理技术来分析预处理后的所述语音数据，以从预处理后的所述语音数据中提取出所述语音特征，其中，所述语音特征包括所述语音数据的频谱信息、频率信息和语速信息；

通过语音识别技术来分析预处理后的所述语音数据，以从预处理后的所述语音数据中提取出对应的所述文字内容。

3.根据权利要求2所述的方法，其特征在于，对所述语音数据进行预处理，通过数字信号处理技术来分析预处理后的所述语音数据，包括：

对所述语音数据进行去噪处理，并对去噪处理后的所述语音数据进行分帧，得到多帧语音数据片；

通过所述数字信号处理技术，对每帧语音数据片进行频域分析，得到所述每帧语音数据片的频谱信息和频率信息，并对所述每帧语音数据片进行时域分析，得到所述每帧语音数据片的语速信息。

4.根据权利要求3所述的方法，其特征在于，在对所述口型数据进行调整之前，所述方法还包括：

针对所述每帧语音数据片，将所述每帧语音数据片的音素序列和所述每帧语音数据片的语音特征对应，计算所述每帧语音数据片的音素序列和所述每帧语音数据片的语音特征之间的距离，得到帧对齐误差；

基于所述帧对齐误差，使用动态规划算法将所述每帧语音数据片的语音特征对齐到所述每帧语音数据片的音素序列中。

5.根据权利要求1所述的方法，其特征在于，基于所述每个音素对应的语音特征，计算所述每个音素对应的口型参数，包括：

基于所述每个音素对应的语音特征中的频率信息，计算音高，并基于所述音高来确定所述嘴唇的张合程度，其中，所述音高越大，嘴唇张开的程度越大；

基于所述每个音素对应的语音特征中的频谱信息，计算出所述频谱信息中的两个或多个峰值频率之间的能量分布，以确定所述舌头的位置；

基于所述每个音素对应的语音特征中的频谱信息，计算出所述频谱信息中的共振峰的位置，并根据所述共振峰的位置计算出所述喉咙的位置；

基于所述每个音素对应的语音特征中的语速信息，计算出所述嘴唇的运动速度；

基于所述每个音素的发音特点，确定所述嘴唇的形状。

6.根据权利要求1所述的方法，其特征在于，基于调整后的所述口型数据来生成用于直播的直播视频流，包括：

对调整后的所述口型数据进行三维渲染，得到与所述虚拟主播对应的脸部图像；

将所述脸部图像与背景元素进行合成，生成用于直播的所述直播视频流。

7.一种虚拟主播的直播装置，其特征在于，包括：

获取模块，被配置为实时获取现实主播的面部动作数据和语音数据；

面部分析模块，被配置为对所述面部动作数据进行分析，得到所述现实主播的口型数据；

语音分析模块，被配置为对所述语音数据进行分析，得到与所述语音数据对应的文字内容以及语音特征，对所述文字内容进行处理，将处理后的所述文字内容转换为音素序列；

调整模块，被配置为基于所述音素序列和所述语音特征，对所述口型数据进行调整；

推流模块，被配置为基于调整后的所述口型数据来生成用于直播的直播视频流，并将所述直播视频流推流至终端设备；

其中，所述调整模块还被配置为：将所述音素序列中的每个音素与所述语音特征进行配对，得到所述每个音素对应的语音特征；基于所述每个音素对应的语音特征，计算所述每个音素对应的口型参数，其中，所述口型参数包括以下至少之一：嘴唇的形状、嘴唇的张合程度、舌头的位置、喉咙的位置、和嘴唇的运动速度；基于所述口型参数，对所述口型数据进行调整；

其中，所述口型数据是采用以下公式计算得到的：

；

8.一种虚拟主播的直播系统，其特征在于，包括：

如权利要求7所述的虚拟主播的直播装置；

终端设备，用于播放所述虚拟主播的直播装置推流的直播视频流。

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至6中任一所述的虚拟主播的直播方法。