CN116416961A

CN116416961A - 基于虚拟主播的新闻稿播报方法、装置及存储介质

Info

Publication number: CN116416961A
Application number: CN202310121285.3A
Authority: CN
Inventors: 李森和
Original assignee: GUANGZHOU JIANHE NETWORK TECHNOLOGY CO LTD
Current assignee: GUANGZHOU JIANHE NETWORK TECHNOLOGY CO LTD
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-07-11

Abstract

本发明涉及基于虚拟主播的新闻稿播报方法，包括以下：获取目标新闻稿，所述目标新闻稿的文字包括中、英文以及数字；将所述目标新闻稿的文字转换成普通话语音得到输入语音；基于输入语音以及虚拟主播2d形象，结合唇形合成模型生成口型的动作，以使口型的动作与所述输入语音同步，所述口型包括朗读唇形以及牙齿；对生成的虚拟主播2d形象的口型的动作进行逐帧捕捉得到捕捉数据；将所述捕捉数据同步至所述虚拟主播2d形象对应的3d模型，以驱动所述3d模型的面部动作，并同步播放所述输入语音，完成新闻稿播报。本发明所提出的新闻稿播报方法能够系统合理地进行基于虚拟主播的新闻稿播报，能够很好地应用于网络节目中。

Description

基于虚拟主播的新闻稿播报方法、装置及存储介质

技术领域

本发明涉及新闻播报技术领域，尤其涉及基于虚拟主播的新闻稿播报方法、装置及存储介质。

背景技术

随着科技的进步，越来越多的事务都能够通过网络的方式得到解决。由于现在网络平台的多样性，相关网络节目数量非常多，这就会导致主播的数量有些跟不上。对于新闻类节目的主播来说，其主要工作是将新闻稿进行对应播报，可以考虑通过将生成的3D虚拟主播形象与新闻稿的语音同步的形式进行新闻稿播报，这样既能够兼顾新闻类节目的播放质量，也能够缓解主播人数不足的压力。

现有技术在针对基于虚拟主播的新闻稿播报的问题上仍处于摸索阶段，没有一个较为系统合理的方式方法，使得相关方案难以进一步推进。

发明内容

本发明的目的是为了至少解决现有技术的不足之一，提供基于虚拟主播的新闻稿播报方法、装置及存储介质。

为了实现上述目的，本发明采用以下的技术方案，

具体的，提出基于虚拟主播的新闻稿播报方法，包括以下：

获取目标新闻稿，所述目标新闻稿的文字包括中、英文以及数字；

将所述目标新闻稿的文字转换成普通话语音得到输入语音；

基于输入语音以及虚拟主播2d形象，结合唇形合成模型生成口型的动作，以使口型的动作与所述输入语音同步，所述口型包括朗读唇形以及牙齿；

对生成的虚拟主播2d形象的口型的动作进行逐帧捕捉得到捕捉数据；

将所述捕捉数据同步至所述虚拟主播2d形象对应的3d模型，以驱动所述3d模型的面部动作，并同步播放所述输入语音，完成新闻稿播报。

进一步，具体的，将所述目标新闻稿的文字转换成普通话语音得到输入语音，包括，

采集足够多的不同种类人群的中英文单人发言视频，直接使用阿里云的语音合成服务接口对所述中英文单人发言视频进行普通话语音转换得到输入语音。

进一步，具体的，基于输入语音以及虚拟主播2d形象，结合唇形合成模型生成口型的动作，以使口型的动作与所述输入语音同步，包括，

训练唇形同步判别器模型即lip-sync expert模型，作为生成器持续产生准确而逼真的唇部运动；

训练视觉质量鉴别器模型即Visual Quality Discriminator模型+GAN模型，作为衡量嘴型同步的视觉质量的总损失的鉴别器，令语音转口型的连续帧过渡自然并保留牙齿，并附带前后时间的相关性；

训练过程如下：

生成器首先提取5帧的面部嘴形图片+5帧的音频文件进行处理，如果不够5帧的就丢弃或者重新随机顺序获取够5帧；

生成器根据音频+唇形图片生成准备的预测结果，鉴别器判断预测结果跟真实唇形图片的损失，鉴别器通过后就更新生成器参数，在生成器训练期间口型同步鉴别器权重是冻结的,以使生成器注意口型同步；

训练到损失值低于设定值时，完成生成器和鉴别器两个模型的训练。

进一步，具体的，对生成的虚拟主播2d形象的口型的动作进行逐帧捕捉得到捕捉数据，包括，

使用人脸检测算法S3FD和mdiapipe的facemesh进行人脸关键点标注。

进一步，具体的，将所述捕捉数据同步至所述虚拟主播2d形象对应的3d模型，以驱动所述3d模型的面部动作，包括，

用first-order Motion模型对所述捕捉数据中抠出的每张人脸进行脸部表情迁移，把嘴巴关键点同步到虚拟主播3d形象进行动作驱动。

本发明还提出基于虚拟主播的新闻稿播报装置，包括：

目标新闻稿获取模块，用于获取目标新闻稿，所述目标新闻稿的文字包括中、英文以及数字；

输入语音转换模块，用于将所述目标新闻稿的文字转换成普通话语音得到输入语音；

口型生成模块，用于基于输入语音以及虚拟主播2d形象，结合唇形合成模型生成口型的动作，以使口型的动作与所述输入语音同步，所述口型包括朗读唇形以及牙齿；

动作捕捉模块，用于对生成的虚拟主播2d形象的口型的动作进行逐帧捕捉得到捕捉数据；

新闻稿播报模块，用于将所述捕捉数据同步至所述虚拟主播2d形象对应的3d模型，以驱动所述3d模型的面部动作，并同步播放所述输入语音，完成新闻稿播报。

本发明还提出一种计算机可读存储的介质，所述计算机可读存储的介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现所述基于虚拟主播的新闻稿播报方法的步骤。

本发明的有益效果为：

本发明提出基于虚拟主播的新闻稿播报方法，首先将目标新闻稿转化成一段普通话形式的输入语音，基于输入语音以及虚拟主播2d形象，结合唇形合成模型生成口型的动作，以使口型的动作与所述输入语音同步，然后将2d形象的相关数据迁移到对应的3d形象处，同时播放输入语音，就能够完成完成新闻稿的播报。本发明所提出的新闻稿播报方法能够系统合理地进行基于虚拟主播的新闻稿播报，能够很好地应用于网络节目中。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本公开的上述以及其他特征将更加明显，本公开附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1所示为本发明基于虚拟主播的新闻稿播报方法的流程图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。附图中各处使用的相同的附图标记指示相同或相似的部分。

参照图1，实施例1，本发明提出基于虚拟主播的新闻稿播报方法，包括以下：

将所述目标新闻稿的文字转换成普通话语音得到输入语音；

作为本发明的优选实施方式，具体的，将所述目标新闻稿的文字转换成普通话语音得到输入语音，包括，

作为本发明的优选实施方式，具体的，基于输入语音以及虚拟主播2d形象，结合唇形合成模型生成口型的动作，以使口型的动作与所述输入语音同步，包括，

训练过程如下：

在本优选实施方式中，lip-sync expert模型，是用来衡量图片唇形和语音之间的损失大小(音频vs唇形图片)

Visual Quality Discriminator模型，是用来判别衡量生成的口型图片和Groundtruth真实图片直接的损失大小(真实的唇形图片vs生成的唇形图片)

GAN模型是使用图片超分模型，把虚拟主播的面部皮肤和纹理都进行高清还原，使得生成出来的唇形能更好地匹配到虚拟主播头上。超分模型可以使用Real-ESRGAN，可以自定义训练自己的虚拟主播超分模型进行放大细节。

作为本发明的优选实施方式，具体的，对生成的虚拟主播2d形象的口型的动作进行逐帧捕捉得到捕捉数据，包括，

作为本发明的优选实施方式，具体的，将所述捕捉数据同步至所述虚拟主播2d形象对应的3d模型，以驱动所述3d模型的面部动作，包括，

在本优选实施方式中，first-order motion model(一阶运动模型)：一组自学习的关键点和局部仿射变换来建模复杂的运动。

给定一张源图片(包含一个主体)，给定一个驱动视频(包含一系列动作)，生成一段驱动视频，其中主角是源图片，动作是驱动视频中的动作。

整个方法模型由两个模块组成，分别是运动估计模块(the motion estimationmodule)和图像生成模块(the motion estimation module)。

运动估计模块(该模型通过自监督学习将目标物体的外观和运动信息进行分离，并进行特征表示)

输入：源图像+驱动视频

密集运动场表明每个关键点到源图像的映射关系

遮罩(occlusion mask)表明驱动图像的姿态是通过图像扭曲得到，还是通过impainting得到。从指定人物的图片中提取外观信息，结合先前获得的特征表示，进行视频合成

如何进行脸部表情迁移的：

根据语音生成合成的唇形结果图片后，把一连串的结果图片当作动作驱动视频，生成虚拟主播播报新闻的系列图片。

本发明还提出基于虚拟主播的新闻稿播报装置，包括：

本发明还提出一种计算机可读存储的介质，所述计算机可读存储的介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现以上中任一项所述基于虚拟主播的新闻稿播报方法的步骤。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例中的方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储的介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或系统、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。

尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本发明的预定范围。此外，上文以发明人可预见的实施例对本发明进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，都应属于本发明的保护范围。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.基于虚拟主播的新闻稿播报方法，其特征在于，包括以下：

将所述目标新闻稿的文字转换成普通话语音得到输入语音；

2.根据权利要求1所述的基于虚拟主播的新闻稿播报方法，其特征在于，具体的，将所述目标新闻稿的文字转换成普通话语音得到输入语音，包括，

3.根据权利要求1所述的基于虚拟主播的新闻稿播报方法，其特征在于，具体的，基于输入语音以及虚拟主播2d形象，结合唇形合成模型生成口型的动作，以使口型的动作与所述输入语音同步，包括，

训练过程如下：

4.根据权利要求1所述的基于虚拟主播的新闻稿播报方法，其特征在于，具体的，对生成的虚拟主播2d形象的口型的动作进行逐帧捕捉得到捕捉数据，包括，

5.根据权利要求4所述的基于虚拟主播的新闻稿播报方法，其特征在于，具体的，将所述捕捉数据同步至所述虚拟主播2d形象对应的3d模型，以驱动所述3d模型的面部动作，包括，

6.基于虚拟主播的新闻稿播报装置，其特征在于，包括：

7.一种计算机可读存储的介质，所述计算机可读存储的介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述方法的步骤。