CN116248974A

CN116248974A - 一种视频语言转化的方法和系统

Info

Publication number: CN116248974A
Application number: CN202211718625.2A
Authority: CN
Inventors: 司马华鹏; 王培雨
Original assignee: Nanjing Silicon Intelligence Technology Co Ltd
Current assignee: Nanjing Silicon Intelligence Technology Co Ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-06-09

Abstract

本发明提出一种视频语言转化的方法，所述方法包括：获取第二语言的第一模型；确定获取第一语言的目标样本视频数据，通过所述样本视频数据对第一语言的所述第一模型进行微调训练，生成第二模型；根据待处理音频或文字和所述第二模型，生成与所述待处理音频或文字对应的目标嘴部数据；根据所述目标嘴部数据和待处理视频数据，输出所述第二语言目标视频数据。本发明还提出了相应的系统。本发明提供的方法及系统，解决了现有技术在更换视频语言时存在的音频与口型不匹配的问题，能够花费很小的成本通过音频重新生成嘴型，提高观赏体验。

Description

一种视频语言转化的方法和系统

技术领域

本发明涉及一种数据处理方法，尤其涉及一种视频语言转化的方法和系统。

背景技术

随着电影行业的飞速发展，存在大量电影进出口。因为中外存在语言不同的情况，在将外国电影引入国内或将国内电影在国外上映时，存在语言不通的情况。由于表达相同意思时，中外语言的口型不同，因此在播放与录像时所采用不同语言时，存在口型与播放的语音时间不对应的情况。

现有技术一般会采用将口型的变换时长与播放的语音总时长相同的技术手段模糊口型与语音不同的情况。但是实际上，这种方式依旧不能完全避免音频与口型不一致的情况。

有必要提供一种技术，能够根据音频修改人物嘴型、生成音频和嘴型一致的视频，从而能够极大地提高工作效率，降低视频制作成本，并让观众获得更好的观赏体验。

发明内容

本发明提供了一种视频语言转化的方法和系统，能够解决视频录制或电影拍摄后期无法根据语言不同调整调整视频内人物嘴型，使之与音频匹配的问题。

一方面，本发明提供了一种视频语言转化的方法，所述方法包括：

获取第二语言的第一模型；

确定获取第一语言的目标样本视频数据，通过所述样本视频数据对第一语言的所述第一模型进行微调训练，生成第二模型；

根据待处理音频或文字和所述第二模型，生成与所述待处理音频或文字对应的目标嘴部数据；

根据所述目标嘴部数据和待处理视频数据，输出所述第二语言目标视频数据；

其中，所述第一语言是待转换的语言；所述第二语言是转换后的语言。

可选地，获取第二语言的第一模型之前，包括：

获取用于基础模型训练的基础视频数据；

针对所述基础视频数据进行数据预处理；所述数据预处理包括提取音频特征和提取人脸数据，从而获得音频特征数据和嘴部特征数据；

通过所述音频特征数据和所述嘴部特征数据对所述基础模型进行基础训练，生成第二语言的第一模型。

可选地，所述基础视频数据要求所述基础视频数据完整露出嘴部，所述嘴部与所述基础视频数据的音频同步，所述基础视频分别率大于预设阈值。

可选地，所述提取音频特征是指能够提取到语义信息的特征。

可选地，，所述提取音频特征是指提取所述基础视频数据的语音识别特征作为数据预处理后的音频特征。

可选地，所述提取人脸数据，是指先截取视频中的人脸区域作为基础图片，然后对所述基础图片的嘴部区域进行处理作为嘴部特征数据。

可选地，所述通过所述音频特征数据和所述嘴部特征数据对所述基础模型进行基础训练，是指用所述音频特征数据和所述嘴部特征数据作为模型输入，用所述基础图片作为输出，对所述基础模型进行训练。

可选地，所述生成目标视频数据，是指根据所述目标嘴部数据修正待处理视频数据的相应部分，从而生成所述目标视频数据。

可选地，对所述样本视频数据进行数据预处理，获得第二音频特征数据和第二嘴部特征数据，通过所述第二音频特征数据和所述第二嘴部特征数据对所述第一模型进行微调训练。

可选地，针对所述目标嘴部数据进行融合处理。

另一方面，本发明提供了一种视频语言转化的系统，所述系统包括：

第一模型获取模块，用于获取第二语言的第一模型；

第二模型生成模块，用于确定获取第一语言的目标样本视频数据，通过所述样本视频数据对第一语言的所述第一模型进行微调训练，生成第二模型；

视频生成模块，用于根据待处理音频或文字和所述第二模型，生成与所述待处理音频或文字对应的目标嘴部数据；

视频输出模块，用于根据所述目标嘴部数据和待处理视频数据，输出所述第二语言目标视频数据；

上述技术方案中的优点或有益效果至少包括：

本发明是根据音频修改视频嘴部数据的技术，能够广泛应用于电影、短视频等场景。在视频拍摄完成后，花费很小的成本通过音频重新生成嘴型，避免口型与音频不匹配的技术问题。同样，本发明也能用于译制电影、方言电影等的配音制作，能够根据音频生成和配音相匹配的嘴型，提高观赏体验。

当前社会越来越涌现出了很多视频自媒体，其拍摄过程和电影类似，但是要求比电影更低的拍摄成本，更自由的拍摄环境，类似于电影，这也是该发明很好的应用场景。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明实施例一的一种视频语言转化的方法流程图。

图2为本发明实施例二的基于语音的口型生成流程图；

图3为本发明实施例三的基于语音的口型生成网络示意图；

图4为本发明实施例四的一种视频语言转化的系统的主要模块图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的构思或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

人类发音具有一定的特点，即特定的语音一般都对应特定的。人脸图像和音频的相互映射是语音驱动的人脸视频动画合成的核心，利用音频特征和人脸特征之间的联系，通过将音频数据作为输入，从而得到人脸(特别是口型)数据。在此过程中，通过神经网络模型提取音频数据中的语义信息，然后结合人脸信息生成目标口型图片。

基于语音生成口型的核心是根据音频特征生成对应的口型。这里的音频特征需要提取的是语义信息，而不是语音的响度、音色等信息。不同的人用不同的响度读相同的文字，应该具有相同的口型。不同人对于相同的语音应该具有相同的口型。此外，每个人的长相却有自己的特点，皮肤的颜色、牙齿的形状、嘴唇的大小等都有差异。要生成这些嘴唇就需要提供人脸信息，神经网络模型就能够根据不同的人脸信息生成相应的嘴唇信息。也就是说，在这个过程中语音特征提供了口型信息，人脸特征提供了嘴唇信息，口型信息和嘴唇信息形成了嘴部数据。

图1为本发明实施例一的一种视频语言转化的方法流程图，如图1所示，一种视频语言转化的方法包括：

S101、获取第二语言的第一模型。

通过视频数据大批量预处理生成的视频数据，对基础模型进行基础训练，生成第一模型。预处理的大量视频数据包括所述音频特征数据和所述嘴部特征。一个优选实施例是，预处理的大量视频数据用提取的音频特征和裁剪的mask图片作为模型输入，用裁剪的crop图片作为输出，对基础模型进行训练，训练完成的第一模型能用于后续的模型微调。

S102，确定获取第一语言的目标样本视频数据，通过所述样本视频数据对第一语言的所述第一模型进行微调训练，生成第二模型。

获取用于第一模型训练的样本视频数据，通过所述样本视频数据对所述第一模型进行微调训练，生成第二模型。基础模型、第一模型和第二模型微调模型具有相同的网络结构，相同的训练策略，相同的数据预处理方式，因此微调训练能够直接加载第一模型，有了大数据训练的第一模型，只需要大概一分钟的微调数据，就能获得准确的嘴型数据。大数据基础模型从零开始训练，用3小时以上的大数据训练，学习到了音频和口型对应的规律，也学习到了根据口型之外的特征生成口型图片的规律，这些特征包括皮肤纹理、牙齿形状、嘴唇形状等各种人脸特征。微调训练的时候直接加载基础模型，相当于开始训练的时候就已经掌握了通用规律，只需要在少量数据学习模特特有的特征就行了，由于训练数据少，因此只需要很少的训练时间。

也就是说，获得大数据基础训练后的第一模型，获得了基础参数，在实际应用的训练场景，就不需要大量训练视频。

一个优选实施例是，根据训练的经验，要想修改一个模特的口型，只需要这个模特的一分钟左右的视频作为样本视频数据，在第一模型上进行微调训练后，获得第二模型。这样就大大降低了模型使用的门槛。在实际的使用场景，正常情况训练20轮左右就能达到优异的效果。

另一个优选实施例是，对样本视频数据同样进行数据预处理，获得第二音频特征数据和第二嘴部特征数据，通过所述第二音频特征数据和所述第二嘴部特征数据对第一模型进行微调训练，获得第二模型。

S103，根据待处理音频或文字和所述第二模型，生成与所述待处理音频或文字对应的目标嘴部数据。

获得第二模型后，对口型错误的视频进行预处理操作，用预处理的音频信息作为第二模型的输入，就能获得对应音频的正确嘴型数据。

经过第二模型预测获得的正确嘴型图片，和原图可能会有微弱的色差。此时一个优选实施例是，采用opencv进行一些融合操作去除色差。

S104，根据所述目标嘴部数据和待处理视频数据，输出所述第二语言目标视频数据。

根据目标嘴型数据拼接回待处理视频数据，就完成了整个嘴型修正的工作。

换句话说，根据正确的嘴型数据形成的图片，替换错误视频的相应部位，就能输出和音频严格对应的正确视频数据。

实际上，在步骤S101之前，需要获取用于基础模型训练的基础视频数据；针对所述基础视频数据进行数据预处理；所述数据预处理包括提取音频特征和提取人脸数据，从而获得音频特征数据和嘴部特征数据；通过所述音频特征数据和所述嘴部特征数据对所述基础模型进行基础训练，生成第二语言的第一模型。

其中，本发明中，要获得良好的效果，需要先用大量数据训练一个基础模型，训练的效果和使用的数据直接相关。训练数据要达到一定的清晰度，最好达到720以上，这样模型预测的视频才能足够清晰；训练的使用的数据要漏出完整的嘴部区域，最好直面镜头，这样模型才能学到音频和口型的关系；使用的数据的口型要和语音准确对应，否则模型难以学到正确的口型。这些视频不限制人物，能够自己录制或者网上下载，电影、新闻、演讲等都是很好的素材。训练视频越多，训练的模型的准确率、泛化性越好，根据训练经验，至少需要3小时的训练视频，才能获得较为准确的效果。

基础模型采用大量视频数据进行训练，包含不同人、不同动作的说话视频，这让模型能够学到大量的脸型、环境、音色、音调、响度、语速等信息，大大增强了模型的泛化性。

针对所述基础视频数据进行数据预处理。

要完成上述的训练过程，需要先完成数据的预处理工作，主要包括音频特征的提取和人脸数据的提取。

音频特征的提取主要是获得音频特征数据。上述的原理性介绍提到要想获得准确的口型，需要通过音频特征提取到语义信息。而语音识别模型与语音语义密切相关，故此处采用语音识别模型提取音频特征是一个很好的选择。

一个优选实施方式是利用神经网络模型，例如音频预训练模型Audionet，提取音频特征。Audionet是一个用1万小时数据训练的语音识别模型，此处采用Audionet提取的中间特征作为本发明的音频特征。

人脸数据的提取主要是获得嘴部特征数据。一个优选实施例是先将基础视频数据转成图片，之后使用人脸检测模型dlib检测图片的人脸位置，截取出来整个脸部区域作为crop图片，然后对截取的图片的嘴部区域进行置零处理作为mask图片。

本发明实施例还提出了一种基于语音的嘴型生成方法，参考图2和图3，所述方法详细说明如下：

S201，获取mask图片。此处的输入图片去除嘴部区域，留下眼睛、耳朵、眉毛等信息，留下的图像信息能够给神经网络提供模特的一些特征信息，如皮肤纹理颜色、脸型、ID特征等。如前所述，语音特征提供了口型信息，人脸特征提供了嘴唇信息，口型信息和嘴唇信息形成了嘴部数据。

S202，获取音频特征。音频特征包含很多信息，比如响度、频率、音色、环境、混响、语速、音调等各种信息，基于语音的口型生成系统需要语音的语义信息，因为人类的口型和语义具有一一对应的关系，而和声音的响度、频率、音色、环境、混响、语速、音调等没有规律的对应关系。由于语音包含的信息太多，直接将原始语音作为输入，会大大加大网络的学习难度，造成难以收敛的问题。因此，一个优选地实施例是，使用一个预训练的语音识别模型提取语音的语义信息，该语音识别模型采用1万小时进行训练，具有很好的准确性和泛化性。

S203，将mask图片信息和语音特征信息分别送入E1图像卷积网络和E2音频卷积网络，此处的卷积网络能够进一步将图片和音频特征信息降维，更好的提取有用的特征信息，卷积操作之后将两种特征拼接到一起，之后将拼接的特征送入一种叫resnet的网络结构，这种结构每次卷积操作都将输入和卷积结果叠加在一起输出，能够缓解模型退化的问题，这样深度学习模型就能设计的更深更复杂。此处用了9层resnet网络结构对拼接的特征进行卷积处理，大批量的模型参数更好的融合两种特征，完成口型生成的任务。resnet之后是一个转置神经网络，该网络能够将提取的特征进行升维操作，还原成输入图片的维度，输出预测的图像，具体层数和输入卷积具有对应的关系。输入卷积、resnet网络、转置网络卷积统称为生成器。

S204，基于语音的口型生成网络的训练过程借鉴了一种GAN网络的训练思路，其主要含有两种网络生成器和判别器，生成器用于根据输入特征，生成接近于真实图片的图片，而判别器用于判别生成图片和真实图片的真假。简单来说生成器尽力生成以假乱真的图片，判别器尽力找出生成图片和真实图片的差异，进而激励生成器生成更加真实的图片。此处判别器采用了多层判别器，这是一个多尺度判别器，其分别在多个编码层计算损失，不同层的判别器的感受野不一样，大的感受野能学到更多的全局特征，小的感受野能学到更多的材质、纹理等细节特征。此处的多层判别器具有更强的学习能力。

S205，有了生成器和判别器之后，还需要设计损失函数计算损失，优化器以此对更新模型的参数，进行模型的拟合操作。本发明采用了L_per、L_gan、L_vgg三种损失函数：L_per是一种一阶损失函数，直接计算预测的图片和真实图片的差值，用来评价生成图片的准确程度；L_gan是一种平方差损失，其计算生成图片和真实图片提取特征后的平方差值，用来判定真实图片和生成图片；L_vgg损失也是一种一阶损失，其计算生成图片和真实图片的vgg特征的差值，vgg模型基于大批量图片训练，因此能够提取更有代表性的图片特征。

上述是基于语音的口型生成系统的核心，通过上述流程能够完成口型生成任务。

图4为本发明实施例四的一种视频语言转化的系统的主要模块图。如图4所示，本发明实施例还提出了一种视频语言转化的系统400，所述系统包括：

第一模型获取模块401，用于获取第二语言的第一模型；

第二模型生成模块402，用于确定获取第一语言的目标样本视频数据，通过所述样本视频数据对第一语言的所述第一模型进行微调训练，生成第二模型；

视频生成模块403，用于根据待处理音频或文字和所述第二模型，生成与所述待处理音频或文字对应的目标嘴部数据；

视频输出模块404，用于根据所述目标嘴部数据和待处理视频数据，输出所述第二语言目标视频数据；

本发明实施例提出的视频语言转化的系统中的各模块的其他功能可以参见上述方法中的对应描述，在此不再赘述。

本发明实施例还提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本发明实施例中提供的方法。

本发明实施例还提供了一种芯片，该芯片包括，包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本发明实施例提供的方法。

本发明实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行发明实施例提供的方法。

应理解的是，上述处理器可以是中央处理器(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(fieldprogrammablegate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(advanced RISC machines，ARM)架构的处理器。

进一步地，可选的，上述存储器可以包括只读存储器和随机存取存储器，还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(read-onlymemory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用。例如，静态随机存取存储器(stati cRAM，SRAM)、动态随机存取存储器(dynamic random access memory，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DRRAM)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

应理解的是，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频语言转化的方法，其特征在于，所述方法包括：

获取第二语言的第一模型；

2.根据权利要求1所述的方法，其特征在于，获取第二语言的第一模型之前，包括：

获取用于基础模型训练的基础视频数据；

3.根据权利要求1所述的方法，其特征在于，所述基础视频数据要求所述基础视频数据完整露出嘴部，所述嘴部与所述基础视频数据的音频同步，所述基础视频分别率大于预设阈值。

4.根据权利要求1所述的方法，其特征在于，所述提取音频特征是指能够提取到语义信息的特征。

5.根据权利要求1所述的方法，其特征在于，所述提取音频特征是指提取所述基础视频数据的语音识别特征作为数据预处理后的音频特征。

6.根据权利要求1所述的方法，其特征在于，所述提取人脸数据，是指先截取视频中的人脸区域作为基础图片，然后对所述基础图片的嘴部区域进行处理作为嘴部特征数据。

7.根据权利要求6所述的方法，其特征在于，所述通过所述音频特征数据和所述嘴部特征数据对所述基础模型进行基础训练，是指用所述音频特征数据和所述嘴部特征数据作为模型输入，用所述基础图片作为输出，对所述基础模型进行训练。

8.根据权利要求1所述的方法，其特征在于，所述生成目标视频数据，是指根据所述目标嘴部数据修正待处理视频数据的相应部分，从而生成所述目标视频数据。

9.根据权利要求1所述的方法，其特征在于，对所述样本视频数据进行数据预处理，获得第二音频特征数据和第二嘴部特征数据，通过所述第二音频特征数据和所述第二嘴部特征数据对所述第一模型进行微调训练。

10.根据权利要求1所述的方法，其特征在于，针对所述目标嘴部数据进行融合处理。

11.一种视频语言转化的系统，其特征在于，所述系统包括：

第一模型获取模块，用于获取第二语言的第一模型；