CN112866586B

CN112866586B - 一种视频合成方法、装置、设备及存储介质

Info

Publication number: CN112866586B
Application number: CN202110003232.2A
Authority: CN
Inventors: 徐楠; 郝艳妮; 罗引; 张西娜; 孔庆超; 吴晓飞; 曲宝玉; 曹家; 王磊
Original assignee: Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Technology Co ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2023-03-07
Anticipated expiration: 2041-01-04
Also published as: CN112866586A

Abstract

本发明实施例公开了一种视频合成方法、装置、设备及存储介质。获取的待合成文本可以是任意语种的文本，待合成视频可以是用户选择的包括任意主播形象的视频片段，根据获取的待合成文本自动生成音频流，基于待合成视频中的无音视频流生成视频特征和唇部特征，并根据音频流生成音频特征和口型特征，基于口型特征和唇部特征确定口唇映射关系，根据口唇映射关系生成口唇一致的视频序列，进一步地，根据融合后的视频序列，生成目标合成视频，使整个目标合成视频中的人脸和唇部动作保持一致，并使目标合成视频中的主播唇动保持自然一致，并生成符合用户意愿的目标合成视频，提高用户观看体验。

Description

一种视频合成方法、装置、设备及存储介质

技术领域

本发明实施例涉及视频处理技术，尤其涉及一种视频合成方法、装置、设备及存储介质。

背景技术

AI合成主播是通过提取真人主播新闻播报视频中的声音、唇形、表情动作等特征，运用语音、唇形、表情合成以及深度学习等技术联合建模训练而成。该技术将所输入的中英文文本自动生成相应内容的音视频流，并确保视频中的音频和表情、唇动保持自然一致，展现与真人主播无异的信息传达效果。

目前，现有的AI合成主播已实现2D、3D虚拟主播。3D主播相较于2D主播，可以同时支持多机位多景深，360度任意角度呈现内容等能力，在应用空间上用于更多的可能性，为新闻节目多样化制作和呈现带来了更多选择。

在实现本发明的过程中，发明人发现现有技术中至少存在如下问题：

AI合成主播所生成的主播在播报新闻稿件时会出现语音内容与嘴唇不同步现象，生成的主播视频效果欠佳，影响用户体验。

发明内容

本发明实施例提供了一种视频合成方法、装置、设备及存储介质，以将生成的主播的语音和嘴唇同步，提高了用户体验的效果。

第一方面，本发明实施例提供了一种视频合成方法，包括：

获取待合成文本和待合成视频；

对所述待合成文本进行特征转换，生成所述待合成文本的音频流；

基于所述待合成视频中的无音视频流，生成视频内容特征和目标对象的唇部特征，并基于所述待合成文本的音频流，生成音频内容特征和所述音频内容特征对应的口型特征；

将所述口型特征和所述唇部特征进行特征映射，确定口唇映射关系；

基于所述口唇映射关系，融合所述音频特征和所述视频特征，生成融合后的视频序列，并根据所述融合后的视频序列，生成目标合成视频。

第二方面，本发明实施例还提供了一种视频合成装置，包括：

信息获取模块，用于获取待合成文本和待合成视频；

音频流生成模块，用于对所述待合成文本进行特征转换，生成所述待合成文本的音频流；

特征生成模块，用于基于所述待合成视频中的无音视频流，生成内容视频特征和目标对象的唇部特征，并基于所述待合成文本的音频流，生成音频内容特征和所述音频内容特征对应的口型特征；

口唇映射关系确定模块，用于将所述口型特征和所述唇部特征进行特征映射，确定口唇映射关系；

目标合成视频生成模块，用于基于所述口唇映射关系，融合所述音频特征和所述视频特征，生成融合后的视频序列，并根据所述融合后的视频序列，生成目标合成视频。

第三方面，本发明实施例还提供了一种视频合成设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面中任一项所述的视频合成方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，其中，所述计算机可执行指令在由计算机处理器执行时实现如第一方面任一项所述的视频合成方法。

本发明实施例的技术方案，获取的待合成文本可以是任意语种的文本，待合成视频可以是用户选择的包括任意主播形象的视频片段，根据获取的待合成文本自动生成音频流，基于待合成视频中的无音视频流生成视频内容特征和目标对象的唇部特征，并根据音频流生成音频内容特征和音频内容特征对应的口型特征，基于口型特征和唇部特征确定口唇映射关系，根据口唇映射关系生成口唇一致的视频序列，进一步地，根据融合后的视频序列，生成目标合成视频，使整个目标合成视频中的人脸和唇部动作保持一致，并使目标合成视频中的主播唇动保持自然一致，并生成符合用户意愿的目标合成视频，提高用户观看体验。

附图说明

图1为本发明实施例一提供的一种视频合成方法的流程示意图；

图2为本发明实施例一提供的生成视频序列的流程图；

图3为本发明实施例一提供的生成目标合成视频的流程图；

图4为本发明实施例二提供的一种视频合成方法的流程示意图；

图5为本发明实施例二提供的基于语音生成模型生成音频流的逻辑示意图；

图6为本发明实施例三提供的一种视频合成方法的流程示意图；

图7为本发明实施例三提供的视频编码模型的网络结构示意图；

图8为本发明实施例三提供的音视频同步子网络的网络结构示意图；

图9为本发明实施例四提供的一种视频合成方法的流程示意图；

图10为本发明实施例五提供的一种视频合成装置的结构示意图；

图11为本发明实施例六提供的一种视频合成设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种视频合成方法的流程示意图，本实施例可适用于基于待合成文本和待合成视频进行视频合成的情况，该方法可以由视频合成装置来执行，其中该系统可由软件和/或硬件实现，并一般集成在终端或服务器中。具体参见图1所示，该方法可以包括如下步骤：

S110、获取待合成文本和待合成视频。

其中，所述待合成文本指的是需要通过目标对象播放的文本文件。所述待合成文本可以是中文文本、英文文本或者基于其他语种编写的文本，所述待合成文本可以包括广告宣传内容、实事内容以及会议内容等。所述待合成视频可以是任意目标对象形象的视频片段，所述目标对象可以是真人主播、2D或3D卡通人物等，例如，待合成视频为央视主持人播放新闻联播的视频片段。

S120、对待合成文本进行特征转换，生成待合成文本的音频流。

可选地，可以将所述待合成文本输入至深度神经网络中，基于所述深度神经网络将待合成文本的文字信息转换为语音信息，得到待合成文本的音频流。

S130、基于待合成视频中的无音视频流，生成视频内容特征和目标对象的唇部特征，并基于待合成文本的音频流，生成音频内容特征和音频内容特征对应的口型特征。

其中，所述无音视频流指的是去除音频流的视频流。所述视频特征可以包括主播形象特征、主播服装特征、主播的视频背景特征、主播在视频中所处的位置特征等，所述唇部特征指的是主播进行语音播报时的口型特征。所述音频特征包括待合成文本中每个词语对应的音频特征，所述口型特征指的是主播对每个词语发音时对应的嘴部特征。

可选地，所述基于所述待合成视频中的无音视频流，生成视频内容特征和目标对象的唇部特征，包括：将所述待合成视频中的视频流和音频流分离，得到所述无音视频流；将所述无音视频流和所述待合成文本的音频流合并，生成初始融合视频；对所述初始融合视频进行视频编码，生成所述视频内容特征和所述目标对象的唇部特征。

可选地，所述基于所述待合成文本的音频流，生成音频特征和口型特征，包括：提取所述待合成文本的音频流的关键帧，将每一关键帧中音频特征参数进行采样率计算，得到位于各时间点处音频的时间步长；按照所述时间步长对所述待合成文本的音频流进行编码，得到所述音频特征和所述口型特征。

具体地，对初始融合视频中的人脸区域进行检测，确定初始融合视频中的人脸区域和人脸标记点；将人脸区域和人脸标记点输入至视频编码模型，基于所述视频编码模型对所述人脸区域和人脸标记点进行视频编码，生成所述视频内容特征和目标对象的唇部特征。其中，所述视频编码模型可以包括残差子网络和音视频同步子网络。

具体地，将待合成文本的音频流输入至残差网络中，基于所述残差网络提取关键帧，并抽取每一关键帧的12维音频特征参数，所述音频特征参数可以是梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，简称MFCC)；将每一关键帧中音频特征参数进行采样率计算，得到位于各时间点处的音频的时间步长；进一步基于预先训练好的卷积神经网络按照所述时间步长对待合成文本的音频流进行编码，得到所述音频特征和口型特征。

S140、将口型特征和唇部特征进行特征映射，确定口唇映射关系。

为了使口型特征与唇部特征同步，本实施例需要将口型特征和唇部特征进行特征映射，以使语音内容与视频中人脸唇部动作保持一致。可选地，所述将口型特征和唇部特征进行特征映射，确定口唇映射关系，包括：对所述口型特征和所述唇部特征进行非线性拟合，得到所述口型特征和所述唇部特征在各时刻的累计失效率；基于所述累计失效率和预设拟合参数，确定所述口唇映射关系。

具体地，口唇映射关系的计算公式为：

lip_feature＝[1-f(t)]×θ×mouth_feature (公式1)

其中，lip_feature是唇部特征，θ是拟合参数，mouth_feature是嘴部特征，f(t)是唇部特征和口型特征在t时刻的累计失效率，t是唇部特征的位置参数，k是唇部特征的形状参数，λ是唇部特征的尺寸参数。通过公式(1)和公式(2)，确定口唇映射关系。

S150、基于口唇映射关系，融合音频特征和所述视频特征，生成融合后的视频序列，并根据融合后的视频序列，生成目标合成视频。

可选地，所述基于所述口唇映射关系，融合所述音频特征和所述视频特征，生成融合后的视频序列，包括：将所述视频特征和所述唇部特征进行融合，生成融合后的视频特征，并将所述音频特征和口型特征进行融合，生成融合后的音频特征；基于所述口唇映射关系，将所述融合后的视频特征和所述融合后的音频特征进行融合，生成所述融合后的视频序列。

其中，所述融合后的视频特征为纯视频特征，所述融合后的音频特征为纯音频特征。具体地，可以基于时间戳将视频特征和唇部特征进行融合，并基于时间戳将音频特征和口型特征进行融合。进一步地，基于口唇映射关系，将融合后的视频特征和融合后的音频特征进行再次融合，生成融合后的视频序列。

其中，根据音频特征和口型特征生成融合后的音频特征的计算公式为：

blend_video_feature＝concat([video_feature，mouth_feature] (公式3)

其中，blend_video_feature是融合后的音频特征，video_features是音频特征，mouth_feature是口型特征，concat(*)是融合函数。

其中，根据视频特征和唇部特征生成融合后的视频特征的计算公式为：

blend_audio_feature＝concat([audio_feature，lip_feature] (公式4)

其中，blend_audio_feature是融合后的视频特征，audio_feature是视频特征，lip_feature是唇部特征，concat(*)是融合函数。

通过公式(3)和公式(4)确定融合后的视频特征和融合后的音频特征，进一步基于唇部特征和口型特征之间的口唇映射关系，对融合后的视频特征和所述融合后的音频特征进行融合，得到融合后的视频序列。

进一步地，所述根据所述融合后的视频序列，生成目标合成视频，包括：对所述融合后的视频序列进行解码，并按照预设帧率将解码后的视频序列进行合并，生成合并后的视频序列；根据获取的音频参数和所述合并后的视频序列，生成所述目标合成视频。其中，所述音频参数可以包括音色、音调、音量、语速等。

如图2所示为生成视频序列的流程图，如图3所示为生成目标合成视频的流程图。结合图2和图3，基于口唇映射关系对融合后的视频特征和所述融合后的音频特征进行融合，得到融合后的视频序列之后，对融合后的视频序列进行解码，得到解码后的视频序列。具体地，将融合后的视频序列输入至引入注意力机制的残差子网络，基于引入注意力机制的残差子网络进行解码，得到解码后的视频序列。其中，对融合后的视频序列进行解码，得到解码后的视频序列的计算公式为：

virtual_ahchor_video＝Decoder([blend_video_feature，blend_audio_feature] (公式5)

其中，virtual_anchor_video是解码后的视频序列，blend_video_feature是融合后的视频特征，blend_audio_feature是融合后的音频特征，Decoder(*)是解码函数。

进一步地，确定预设帧率，根据预设帧率将解码后的视频序列进行合并，得到合并后的视频序列；进一步地，基于获取的音频参数和合并后的视频序列，生成目标合成视频。根据用户选择的音频参数生成的个性化视频，且口唇一致。

本实施例提供的技术方案，获取的待合成文本可以是任意语种的文本，待合成视频可以是用户选择的包括任意主播形象的视频片段，根据获取的待合成文本自动生成音频流，基于待合成视频中的无音视频流生成视频特征和唇部特征，并根据音频流生成音频特征和口型特征，基于口型特征和唇部特征确定口唇映射关系，根据口唇映射关系生成口唇一致的视频序列，进一步地，根据融合后的视频序列，生成目标合成视频，使整个目标合成视频中的人脸和唇部动作保持一致，并使目标合成视频中的主播唇动保持自然一致，并生成符合用户意愿的目标合成视频，提高用户观看体验。

实施例二

图4为本发明实施例二提供的一种视频合成方法的流程示意图。本实施例的技术方案在上述实施例的基础上进行了细化，可选地，所述对所述待合成文本中进行特征转换，生成所述待合成文本的音频流，包括：将所述待合成文本输入至训练完成的语音生成模型，基于所述语音生成模型的编码器对所述待合成文本进行特征提取，得到所述待合成文本的独热向量；基于所述语音生成模型的解码器，将所述独热向量转换成语音信号；基于所述语音生成模型的序列生成子模型，将所述语音信号逆变换为时域波信号，将所述时域波信号作为所述待合成文本的音频流。在该方法实施例中未详尽描述的部分请参考上述实施例。具体参见图4所示，该方法可以包括如下步骤：

S210、获取待合成文本和待合成视频。

S220、将待合成文本输入至训练完成的语音生成模型，基于语音生成模型的编码器对待合成文本进行特征提取，得到待合成文本的独热向量。

其中，所述语音生成模块预先根据样本合成文本和样本合成文本对应的语音信号训练得到。如图5所示为基于语音生成模型生成音频流的逻辑示意图。结合图5具体的解释，语音生成模型的编码器获取待合成文本，将待合成文本转换成音素，将音素进行降维处理，得到低维度的音素，并对低维度的音素进行卷积处理，进一步基于双向长短期记忆网络对卷积处理后的音素进行特征提取，生成待合成文本的独热向量，将生成的独热向量发送至解码器。

S230、基于语音生成模型的解码器，将独热向量转换成语音信号。

可选地，所述基于所述语音生成模型的解码器，将所述独热向量转换成语音信号，包括：对所述独热向量进行前处理，得到前处理后的特征向量；基于所述解码器中的注意力机制，分别抓取所述特征向量和所述独热向量的局部信息，得到所述待合成文本中的关键特征；对所述关键特征进行线性投影，得到呈线性分布的语音信号。

结合图5具体的解释，语音生成模型将待合成文本输入至解码器，基于解码器的前处理模块对独热向量进行前处理，得到前处理后的特征向量；基于解码器中的注意力机制的对前处理后的特征向量和独热向量，对前处理后的特征线路和独热向量分别赋予不同的权重，分别抓取特征向量和独热向量的局部信息，得到待合成文本中的关键特征，达到优先考虑存在相关性的位置集合的目的。所述注意力机制包括位置敏感子网络和长短期记忆网络。进一步地，对关键特征进行线性投影，得到呈线性分布的语音信号和令牌，结束解码过程。通过在解码器中添加注意力机制提取关键特征，并对关键特征进行线性投影，可以提高语音信号的精度，有利于生成精准的音频流。

S240、基于语音生成模型的序列生成子模型，将语音信号逆变换为时域波信号，将时域波信号作为待合成文本的音频流。

可选地，所述基于所述语音生成模型的序列生成子模型，将所述语音信号逆变换为时域波信号，包括：对所述语音信号进行后处理，基于后处理后的语音信号和后处理前的语音信号，生成对应的梅尔声谱图；基于所述序列生成子模型，重构所述梅尔声谱图的相位信息，得到所述时域波信号。

结合图5具体的解释，通过前述步骤生成时域波信号后，将时域波信号发送至后处理模块，基于后处理模块对时域波信号进行后处理，生成所述语音信号对应的梅尔声谱图，进一步基于序列生成子模型，对梅尔声谱图进行重构，以交换梅尔声谱图的幅度和相位，得到时域波信号，并将所述时域波信号作为待合成文本的音频流。可选地，所述时域波信号可以包括音频特征和口型特征。通过对语音信号进行后处理，可以提取到更高精度的语音特征，进一步提高音频流的精度。

S250、基于待合成视频中的无音视频流，生成视频特征和唇部特征，并基于待合成文本的音频流，生成音频特征和口型特征。

S260、将口型特征和唇部特征进行特征映射，确定口唇映射关系。

S270、基于口唇映射关系，融合音频特征和所述视频特征，生成融合后的视频序列，并根据融合后的视频序列，生成目标合成视频。

本实施例提供的技术方案，通过基于语音生成模型的编码器对所述待合成文本进行特征提取，得到所述待合成文本的独热向量，在解码器中添加注意力机制提取关键特征，并对关键特征进行线性投影，可以提高语音信号的精度，有利于生成精准的音频流。通过对语音信号进行后处理，可以提取到更高精度的语音特征，进一步提高音频流的精度。

实施例三

图6为本发明实施例三提供的一种视频合成方法的流程示意图。本实施例的技术方案在上述实施例的基础上进行了细化。具体细化了生成所述视频特征和所述唇部特征过程。在该方法实施例中未详尽描述的部分请参考上述实施例。具体参见图6所示，该方法可以包括如下步骤：

S310、获取待合成文本和待合成视频。

S320、对待合成文本中进行特征转换，生成待合成文本的音频流。

S330、将待合成视频中的视频流和音频流分离，得到无音视频流，并将无音视频流和待合成文本的音频流合并，生成初始融合视频。

S340、抽取初次融合视频的关键帧，检测每一关键帧中的人脸区域和人脸标记点。

具体地，基于多任务卷积神经网络提取人脸区域和人脸标记点，所述多任务卷积神经网络包括快速生成候选窗口的P-Net卷积神经网络、进行高精度候选窗口过滤选择的R-Net卷积神经网络和生成最终边界框与人脸关键点的O-Net卷积神经网络。将初次融合视频的每个视频帧依次输入至P-Net网络、R-Net网络和O-Net网络，基于P-Net网络提取每个视频帧的候选窗口，基于R-Net网络过滤掉大部分非人脸候选窗口，得到人脸区域，基于O-Net网络提取每个视频帧中人脸的标记点，得到人脸标记点。

其中，所述人脸区域和人脸标记点的计算公式为：

Image_face_i，Marked_face_i＝MTCNN(image_i) (公式6)

其中，image_i是初次融合视频的第i帧图像，Image_face_i是第i帧图像的人脸区域，Marked_face_i是第i帧图像的人脸标记点。

S350、根据人脸区域和人脸标记点生成视频编码的输入数据，对视频编码的输入数据进行编码，得到视频内容特征和目标对象的唇部特征。

可选地，所述根据所述人脸区域和所述人脸标记点生成视频编码的输入数据，包括：基于所述抽取的关键帧对所述初次融合视频中的视频进行面部遮挡检测，确定所述关键帧的面部遮挡区域；根据各关键帧的人脸标记点和所述面部遮挡区域，生成各所述关键帧中包括面部遮挡区域的人脸图像；基于各所述关键帧中包括面部遮挡区域的人脸图像和所述人脸区域，生成所述视频编码的输入数据。

具体地，检测初次融合视频的视频中各像素点的像素值，以进行面部遮挡检测，确定关键帧的面部遮挡区域；进一步根据各关键帧的人脸标记点和面部遮挡区域，生成包括面部遮挡区域的人脸图像，并结合包括面部遮挡区域的人脸图像和人脸区域，生成视频编码的输入数据。

其中，生成包括面部遮挡区域的人脸图像的计算公式为：

Marked_image_i＝Image_face_i+Occulsion_area (公式7)

其中，Occulsion_area是面部遮挡区域，Image_face_i是第i帧图像的人脸区域，Marked_face_i是第i帧图像的遮挡的人脸标记点。

其中，生成视频编码的输入数据的计算公式为：

其中，n是视频时长，单位为秒，Marked_face_i是第i帧图像的遮挡的人脸标记点，Image_face_i是第i帧图像的人脸区域，video_dataset是视频编码的输入数据。

进一步地，所述对所述视频编码的输入数据进行编码，得到所述视频内容特征和目标对象的唇部特征，包括：将所述视频编码的输入数据输入至预先训练好的视频编码模型，基于所述视频编码模型分别对输入数据中的人脸数据和音频数据进行编码；将编码后的人脸数据和音频数据进行融合，生成所述视频内容特征和目标对象的唇部特征。

其中，所述基于所述视频编码模型分别对输入数据中的人脸数据和音频数据进行编码，包括：提取所述输入数据中的所述人脸数据和所述音频数据；所述人脸数据和所述音频数据输入至所述视频编码模型的音视频同步子网络和残差子网络，其中，所述残差子网络中的第一卷积层和第三卷积层的过滤器通道数为设置为5，所述音视频同步子网络引入层次等级制；基于所述音视频同步子网络和所述残差子网络，分别对所述人脸数据和所述音频数据进行编码，得到所述人脸数据的编码特征和所述音频数据的编码特征。

具体地，所述残差子网络包括池化卷积层、卷积层以及全连接层，将人脸数据和音频数据输入至残差子网络，依次基于池化卷积层、卷积层以及全连接层分别对人脸数据和音频数据进行特征提取，得到人脸特征和音频特征；所述音视频同步子网络引入层次等级制，基于音视频同步子网络各等级的卷积层，分别对人脸数据和音频数据进行特征提取，得到人脸特征和音频特征。

如图7所示为视频编码模型的网络结构示意图，如图8所示为音视频同步子网络的网络结构示意图。图7中的残差子网络包括池化卷积层(pool1 conv1、pool1 conv2)、卷积层(conv3、conv4)、池化卷积层(pool5 conv5)以及全连接层(fc6、fc7)，图8中的音视频同步子网络包括三个卷积层，第一卷积层的卷积核为1*1，第二卷积层的卷积核为3*3，第三卷积层的卷积核为1*1。以确定人脸数据的编码特征为例，结合图7和图8示例性地解释，将人脸数据输入至视频编码模型，基于残差子网络的池化卷积层(pool1 conv1、pool1 conv2)、卷积层(conv3、conv4)、池化卷积层(pool5 conv5)以及全连接层(fc6、fc7)对人脸数据进行特征提取，得到人脸数据的编码特征，第一卷积层和第三卷积层的过滤器通道数为5，即池化卷积层(pool1 conv1)和卷积层(conv3)的过滤器通道数为5；同时，将人脸数据输入至音视频同步子网络(H-ResNet)，该音视频同步子网络中的第二卷积层包括两个3*3的卷积核，通过卷积核为1*1的第一卷积层将人脸数据划分成3个子集，基于3*3的卷积核对第2个子集中的人脸特征进行特征提取，得到第2个子集对应的人脸特征，并基于另一个3*3的卷积核对第2个子集对应的人脸特征和第3子集中的人脸特征进行特征提取，得到第3个子集对应的人脸特征，进一步地，将第1子集中的人脸特征、第2个子集对应的人脸特征以及第3个子集对应的人脸特征进行合并，将合并后的人脸特征输入至卷积核为1*1的第三卷积层，得到人脸数据的编码特征。需要说明的是，确定音频数据的编码特征的原理与确定人脸数据的编码特征的原理一致，本实施例不做具体解释。

本实施例中，引入面部遮挡区域生成视频编码的输入数据，排除面部遮挡区域对人脸数据的编码特征的影响，有利于提高人脸数据的编码特征的准确度；同时，基于残差子网络和音视频同步子网络同步处理人脸数据，以及基于残差子网络和音视频同步子网络同步处理音频数据，可以进一步提高人脸数据的编码特征和音频数据的编码特征的准确度；另外，将残差子网络中的第一卷积层和第三卷积层的过滤器通道数设置为5，有利于合理提取有效特征，并在音视频同步子网络引入层次等级制，进一步提高人脸数据的编码特征和音频数据的编码特征的提取精度。

S360、基于待合成文本的音频流，生成音频特征和口型特征。

S370、将口型特征和唇部特征进行特征映射，确定口唇映射关系。

S380、基于口唇映射关系，融合音频特征和所述视频特征，生成融合后的视频序列，并根据融合后的视频序列，生成目标合成视频。

本实施例提供的技术方案，通过引入面部遮挡区域，并基于人脸标记点和人脸区域生成视频编码的输入数据，可以排除面部遮挡区域对人脸数据的编码特征的影响，有利于提高人脸数据的编码特征的准确度；基于残差子网络和音视频同步子网络同步处理人脸数据，以及基于残差子网络和音视频同步子网络同步处理音频数据，可以进一步提高人脸数据的编码特征和音频数据的编码特征的准确度；将残差子网络中的第一卷积层和第三卷积层的过滤器通道数设置为5，有利于合理提取有效特征，并在音视频同步子网络引入层次等级制，进一步提高人脸数据的编码特征和音频数据的编码特征的提取精度。

实施例四

图9为本发明实施例四提供的一种视频合成方法的流程示意图。本实施例细化了视频合成方法的整个过程。在该方法实施例中未详尽描述的部分请参考上述实施例。具体参见图9所示，该方法可以包括如下步骤：

S410、获取待合成文本和待合成视频。

S420、将待合成文本输入至训练完成的语音生成模型，基于语音生成模型的编码器对待合成文本进行特征提取，得到待合成文本的独热向量，基于语音生成模型的解码器，将独热向量转换成语音信号，基于语音生成模型的序列生成子模型，将语音信号逆变换为时域波信号，将时域波信号作为待合成文本的音频流。

可选地，所述基于语音生成模型的解码器，将独热向量转换成语音信号，包括：对所述独热向量进行前处理，得到前处理后的特征向量；基于所述解码器中的注意力机制，分别抓取所述特征向量和所述独热向量的局部信息，得到所述待合成文本中的关键特征；对所述关键特征进行线性投影，得到呈线性分布的语音信号。

具体地，所述基于所述语音生成模型的序列生成子模型，将所述语音信号逆变换为时域波信号，包括：对所述语音信号进行后处理，基于后处理后的语音信号和后处理前的语音信号，生成对应的梅尔声谱图；基于所述序列生成子模型，重构所述梅尔声谱图的相位信息，得到所述时域波信号。

S420、将待合成视频中的视频流和音频流分离，得到无音视频流，将无音视频流和待合成文本的音频流合并，生成初始融合视频，对初始融合视频进行视频编码，生成视频内容特征和目标对象的唇部特征。

可选地，所述对所述初始融合视频进行视频编码，生成所述视频特征和所述唇部特征，包括：抽取所述初次融合视频的关键帧，检测每一关键帧中的人脸区域和人脸标记点；根据所述人脸区域和所述人脸标记点生成视频编码的输入数据；对所述视频编码的输入数据进行编码，得到所述视频特征和唇部特征。

具体地，所述根据所述人脸区域和所述人脸标记点生成视频编码的输入数据，包括：基于所述抽取的关键帧对所述初次融合视频中的视频进行面部遮挡检测，确定所述关键帧的面部遮挡区域；根据各关键帧的人脸标记点和所述面部遮挡区域，生成各所述关键帧中包括面部遮挡区域的人脸图像；基于各所述关键帧中包括面部遮挡区域的人脸图像和所述人脸区域，生成所述视频编码的输入数据。

可选地，所述对所述视频编码的输入数据进行编码，得到所述视频特征和唇部特征，包括：将所述视频编码的输入数据输入至视频编码模型，基于所述视频编码模型对分别对输入数据中的人脸数据和音频数据进行编码；将编码后的人脸数据和音频数据进行融合，生成所述视频特征和唇部特征。

具体地，所述基于所述视频编码模型分别对输入数据中的人脸数据和音频数据进行编码，包括：提取所述输入数据中的所述人脸数据和所述音频数据；将所述人脸数据和所述音频数据输入至所述视频编码模型的音视频同步子网络和残差子网络，其中，所述残差子网络中的第一卷积层和第三卷积层的过滤器通道数设置为5，所述音视频同步子网络引入层次等级制；基于所述音视频同步子网络和所述残差子网络，分别对所述人脸数据和所述音频数据进行编码，得到所述人脸数据的编码特征和所述音频数据的编码特征。

S430、提取待合成文本的音频流的关键帧，将每一关键帧中音频特征参数进行采样率计算，得到位于各时间点处音频的时间步长，按照时间步长对待合成文本的音频流进行编码，得到音频特征和所述口型特征。

S440、对口型特征和所述唇部特征进行非线性拟合，得到口型特征和唇部特征在各时刻的累计失效率，基于累计失效率和预设拟合参数，确定口唇映射关系。

S450、将视频特征和唇部特征进行融合，生成融合后的视频特征，并将音频特征和口型特征进行融合，生成融合后的音频特征，基于口唇映射关系，将融合后的视频特征和融合后的音频特征进行融合，生成融合后的视频序列。

S460、对融合后的视频序列进行解码，并按照预设帧率将解码后的视频序列进行合并，生成合并后的视频序列，根据获取的音频参数和合并后的视频序列，生成目标合成视频。

本实施例提供的技术方案，获取的待合成文本可以是任意语种的文本，待合成视频可以是用户选择的包括任意主播形象的视频片段，通过基于语音生成模型的编码器对所述待合成文本进行特征提取，得到所述待合成文本的独热向量，在解码器中添加注意力机制提取关键特征，并对关键特征进行线性投影，可以提高语音信号的精度，有利于生成精准的音频流。通过对语音信号进行后处理，可以提取到更高精度的语音特征，进一步提高音频流的精度；通过引入面部遮挡区域，并基于人脸标记点和人脸区域生成视频编码的输入数据，可以排除面部遮挡区域对人脸数据的编码特征的影响，有利于提高人脸数据的编码特征的准确度；基于残差子网络和音视频同步子网络同步处理人脸数据，以及基于残差子网络和音视频同步子网络同步处理音频数据，可以进一步提高人脸数据的编码特征和音频数据的编码特征的准确度；将残差子网络中的第一卷积层和第三卷积层的过滤器通道数为5，有利于合理提取有效特征，并在音视频同步子网络引入层次等级制，进一步提高人脸数据的编码特征和音频数据的编码特征的提取精度；根据音频流生成音频特征和口型特征，进一步基于口型特征和唇部特征确定口唇映射关系，根据口唇映射关系生成口唇一致的视频序列；进一步根据融合后的视频序列，生成目标合成视频，使整个目标合成视频中的人脸和唇部动作保持一致，并使目标合成视频中的主播唇动保持自然一致，并生成符合用户意愿的目标合成视频，提高用户观看体验。

实施例五

图10为本发明实施例五提供的一种视频合成装置的结构示意图。参见图10所示，该装置包括：信息获取模块510、音频流生成模块520、特征生成模块530、口唇映射关系确定模块540以及目标合成视频生成模块550。

其中，信息获取模块510，用于获取待合成文本和待合成视频；

音频流生成模块520，用于对所述待合成文本进行特征转换，生成所述待合成文本的音频流；

特征生成模块530，用于基于所述待合成视频中的无音视频流，生成视频内容特征和目标对象的唇部特征，并基于所述待合成文本的音频流，生成音频内容特征和所述音频内容特征对应的口型特征；

口唇映射关系确定模块540，用于将所述口型特征和所述唇部特征进行特征映射，确定口唇映射关系；

目标合成视频生成模块550，用于基于所述口唇映射关系，融合所述音频特征和所述视频特征，生成融合后的视频序列，并根据所述融合后的视频序列，生成目标合成视频。

在上述各技术方案的基础上，音频流生成模块520还用于，将所述待合成文本输入至训练完成的语音生成模型，基于所述语音生成模型的编码器对所述待合成文本进行特征提取，得到所述待合成文本的独热向量；

基于所述语音生成模型的解码器，将所述独热向量转换成语音信号；

基于所述语音生成模型的序列生成子模型，将所述语音信号逆变换为时域波信号，将所述时域波信号作为所述待合成文本的音频流。

在上述各技术方案的基础上，音频流生成模块520还用于，对所述独热向量进行前处理，得到前处理后的特征向量；

基于所述解码器中的注意力机制，分别抓取所述特征向量和所述独热向量的局部信息，得到所述待合成文本中的关键特征；

对所述关键特征进行线性投影，得到呈线性分布的语音信号。

在上述各技术方案的基础上，音频流生成模块520还用于，对所述语音信号进行后处理，基于后处理后的语音信号和后处理前的语音信号，生成对应的梅尔声谱图；

基于所述序列生成子模型，重构所述梅尔声谱图的相位信息，得到所述时域波信号。

在上述各技术方案的基础上，特征生成模块530还用于，将所述待合成视频中的视频流和音频流分离，得到所述无音视频流；

将所述无音视频流和所述待合成文本的音频流合并，生成初始融合视频；

对所述初始融合视频进行视频编码，生成所述视频内容给特征和所述目标对象的唇部特征。

在上述各技术方案的基础上，特征生成模块530还用于，抽取所述初次融合视频的关键帧，检测每一关键帧中的人脸区域和人脸标记点；

根据所述人脸区域和所述人脸标记点生成视频编码的输入数据；

对所述视频编码的输入数据进行编码，得到所述视频特征和唇部特征。

在上述各技术方案的基础上，特征生成模块530还用于，基于所述抽取的关键帧对所述初次融合视频中的视频进行面部遮挡检测，确定所述关键帧的面部遮挡区域；

根据各关键帧的人脸标记点和所述面部遮挡区域，生成各所述关键帧中包括面部遮挡区域的人脸图像；

基于各所述关键帧中包括面部遮挡区域的人脸图像和所述人脸区域，生成所述视频编码的输入数据。

在上述各技术方案的基础上，特征生成模块530还用于，将所述视频编码的输入数据输入至预先训练好的视频编码模型，基于所述视频编码模型分别对输入数据中的人脸数据和音频数据进行编码；

将编码后的人脸数据和音频数据进行融合，生成所述视频内容特征和所述目标对象的唇部特征。

在上述各技术方案的基础上，特征生成模块530还用于，提取所述输入数据中的所述人脸数据和所述音频数据；

将所述人脸数据和所述音频数据输入至所述视频编码模型的音视频同步子网络和残差子网络，其中，所述残差子网络中的第一卷积层和第三卷积层的过滤器通道数设置为5，所述音视频同步子网络引入层次等级制；

基于所述音视频同步子网络和所述残差子网络，分别对所述人脸数据和所述音频数据进行编码，得到所述人脸数据的编码特征和所述音频数据的编码特征。

在上述各技术方案的基础上，特征生成模块530还用于，提取所述待合成文本的音频流的关键帧，将每一关键帧中音频特征参数进行采样率计算，得到位于各时间点处音频的时间步长；

按照所述时间步长对所述待合成文本的音频流进行编码，得到所述音频特征和所述口型特征。

在上述各技术方案的基础上，口唇映射关系确定模块540还用于，对所述口型特征和所述唇部特征进行非线性拟合，得到所述口型特征和所述唇部特征在各时刻的累计失效率；

基于所述累计失效率和预设拟合参数，确定所述口唇映射关系。

在上述各技术方案的基础上，目标合成视频生成模块550还用于，将所述视频特征和所述唇部特征进行融合，生成融合后的视频特征，并将所述音频特征和口型特征进行融合，生成融合后的音频特征；

基于所述口唇映射关系，将所述融合后的视频特征和所述融合后的音频特征进行融合，生成所述融合后的视频序列。

在上述各技术方案的基础上，目标合成视频生成模块550还用于，对所述融合后的视频序列进行解码，并按照预设帧率将解码后的视频序列进行合并，生成合并后的视频序列；

根据获取的音频参数和所述合并后的视频序列，生成所述目标合成视频。

实施例六

图11为本发明实施例六提供的一种视频合成设备的结构示意图。图11示出了适于用来实现本发明实施方式的示例性视频合成设备12的框图。图11显示的视频合成设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，视频合成设备12以通用计算设备的形式表现。视频合成设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

视频合成设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被视频合成设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存32。视频合成设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图11未显示，通常称为“硬盘驱动器”)。尽管图11中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如视频合成装置的信息获取模块510、音频流生成模块520、特征生成模块530、口唇映射关系确定模块540以及目标合成视频生成模块550)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(例如视频合成装置的信息获取模块510、音频流生成模块520、特征生成模块530、口唇映射关系确定模块540以及目标合成视频生成模块550)程序模块46的程序/实用工具44，可以存储在例如系统存储器28中，这样的程序模块46包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块46通常执行本发明所描述的实施例中的功能和/或方法。

视频合成设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该视频合成设备12交互的设备通信，和/或与使得该视频合成设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，视频合成设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与视频合成设备12的其它模块通信。应当明白，尽管图中未示出，可以结合视频合成设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种视频合成方法，该方法包括：

获取待合成文本和待合成视频；

基于所述待合成视频中的无音视频流，生成视频特征和唇部特征，并基于所述待合成文本的音频流，生成音频特征和口型特征；

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种视频合成方法。

当然，本领域技术人员可以理解，处理器还可以实现本发明任意实施例所提供的一种视频合成方法的技术方案。

实施例七

本发明实施例七还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的一种视频合成方法，该方法包括：

获取待合成文本和待合成视频；

当然，本发明实施例所提供的一种计算机可读存储介质，其上存储的计算机程序不限于如上的方法操作，还可以执行本发明任意实施例所提供的一种视频合成方法中的相关操作。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、系统或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在音频流、视频特征、唇部特征、音频特征、口型特征以及目标合成视频等，其中承载了计算机可读的程序代码。这种传播的音频流、视频特征、唇部特征、音频特征、口型特征以及目标合成视频等形式。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、系统或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

值得注意的是，上述视频合成装置的实施例中，所包括的各个模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频合成方法，其特征在于，包括：

获取待合成文本和待合成视频；

基于所述口唇映射关系，融合所述音频特征和所述视频特征，生成融合后的视频序列，并根据所述融合后的视频序列，生成目标合成视频；

其中，所述对所述待合成文本进行特征转换，生成所述待合成文本的音频流，包括：

将所述待合成文本输入至训练完成的语音生成模型，基于所述语音生成模型的编码器对所述待合成文本进行特征提取，得到所述待合成文本的独热向量；

2.根据权利要求1所述的方法，其特征在于，所述基于所述语音生成模型的解码器，将所述独热向量转换成语音信号，包括：

对所述独热向量进行前处理，得到前处理后的特征向量；

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述语音生成模型的序列生成子模型，将所述语音信号逆变换为时域波信号，包括：

对所述语音信号进行后处理，基于后处理后的语音信号和后处理前的语音信号，生成对应的梅尔声谱图；

4.根据权利要求1所述的方法，其特征在于，所述基于所述待合成视频中的无音视频流，生成视频内容特征和目标对象的唇部特征，包括：

将所述待合成视频中的视频流和音频流分离，得到所述无音视频流；

对所述初始融合视频进行视频编码，生成所述视频内容特征和所述目标对象的唇部特征。

5.根据权利要求4所述的方法，其特征在于，所述对所述初始融合视频进行视频编码，生成所述视频内容特征和所述目标对象的唇部特征，包括：

抽取所述初次融合视频的关键帧，检测每一关键帧中的人脸区域和人脸标记点；

6.根据权利要求5所述的方法，其特征在于，所述根据所述人脸区域和所述人脸标记点生成视频编码的输入数据，包括：

基于所述抽取的关键帧对所述初次融合视频中的视频进行面部遮挡检测，确定所述关键帧的面部遮挡区域；

7.根据权利要求5所述的方法，其特征在于，所述对所述视频编码的输入数据进行编码，得到所述视频内容特征和目标对象的唇部特征，包括：

将所述视频编码的输入数据输入至预先训练好的视频编码模型，基于所述视频编码模型分别对输入数据中的人脸数据和音频数据进行编码；

8.根据权利要求7所述的方法，其特征在于，所述基于所述视频编码模型分别对输入数据中的人脸数据和音频数据进行编码，包括：

提取所述输入数据中的所述人脸数据和所述音频数据；

9.根据权利要求1所述的方法，其特征在于，所述基于所述待合成文本的音频流，生成音频内容特征和所述音频内容特征对应的口型特征，包括：

提取所述待合成文本的音频流的关键帧，将每一关键帧中音频特征参数进行采样率计算，得到位于各时间点处音频的时间步长；

10.根据权利要求1所述的方法，其特征在于，所述将所述口型特征和所述唇部特征进行特征映射，确定口唇映射关系，包括：

对所述口型特征和所述唇部特征进行非线性拟合，得到所述口型特征和所述唇部特征在各时刻的累计失效率；

11.根据权利要求1所述的方法，其特征在于，所述基于所述口唇映射关系，融合所述音频特征和所述视频特征，生成融合后的视频序列，包括：

将所述视频特征和所述唇部特征进行融合，生成融合后的视频特征，并将所述音频特征和口型特征进行融合，生成融合后的音频特征；

12.根据权利要求1所述的方法，其特征在于，所述根据所述融合后的视频序列，生成目标合成视频，包括：

对所述融合后的视频序列进行解码，并按照预设帧率将解码后的视频序列进行合并，生成合并后的视频序列；

13.一种视频合成装置，其特征在于，包括：

信息获取模块，用于获取待合成文本和待合成视频；

特征生成模块，用于基于所述待合成视频中的无音视频流，生成视频特内容征和目标对象的唇部特征，并基于所述待合成文本的音频流，生成音频内容特征和所述音频内容特征对应的口型特征；

目标合成视频生成模块，用于基于所述口唇映射关系，融合所述音频特征和所述视频特征，生成融合后的视频序列，并根据所述融合后的视频序列，生成目标合成视频；

其中，所述音频流生成模块，还用于将所述待合成文本输入至训练完成的语音生成模型，基于所述语音生成模型的编码器对所述待合成文本进行特征提取，得到所述待合成文本的独热向量；

14.一种视频合成设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-12中任一项所述的视频合成方法。

15.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时实现如权利要求1-12中任一项所述的视频合成方法。