CN109119063A

CN109119063A - 视频配音生成方法、装置、设备及存储介质

Info

Publication number: CN109119063A
Application number: CN201811013623.7A
Authority: CN
Inventors: 俄万有
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2019-01-01
Anticipated expiration: 2038-08-31
Also published as: CN109119063B

Abstract

本申请公开了一种视频配音生成方法、装置、设备及存储介质，属于配音技术领域。所述方法包括：获取待配音视频；将待配音视频对应的原始配音文本转化为目标配音文本，目标配音文本与原始配音文本属于不同语种；对待配音视频的原始配音进行特征提取，得到原始配音的原始音频信号特征；将原始音频信号特征输入配音模型，得到目标配音状态和目标配音语料；根据目标配音文本、目标配音状态和目标配音语料生成目标配音。采用本申请实施例提供的视频配音方法，能够根据视频中的已有配音自动为视频生成其他语种的配音，无需配音人员朗读不同语种的对白，降低了视频配音的成本，并提高了为视频进行多语种配音的效率。

Description

视频配音生成方法、装置、设备及存储介质

技术领域

本申请实施例涉及配音技术领域，特别涉及一种视频配音生成方法、装置、设备及存储介质。

背景技术

随着网络自制节目的不断兴起，越来越多的用户开始将自制视频上传到互联网，供其他用户观看。且为了提高自制视频中对白的质量，用户通常会对自制视频进行后期配音。

相关技术中通常采用人工配音的方式为自制视频进行后期配音。人工配音过程中，配音人员需要根据实时视频画面朗读对白，保证视频与音频的同步性；并且，配音人员需要使用专业的配音设备，甚至在专业的配音工作室进行配音，以达到较好的配音效果。

采用人工配音方式进行配音的成本较高，且当需要为自制视频配置多语种配音时，配音人员需要分别朗读不同语种的对白，导致配音的效率较低。

发明内容

本申请实施例提供了一种视频配音生成方法、装置、设备及存储介质，可以解决相关技术中采用人工方式进行多语种配音时，配音流程复杂，且配音效率较低的问题。所述技术方案如下：

一方面，提供了一种视频配音生成方法，所述方法包括：

获取待配音视频；

将所述待配音视频对应的原始配音文本转化为目标配音文本，所述目标配音文本与所述原始配音文本属于不同语种；

对所述待配音视频的原始配音进行特征提取，得到所述原始配音的原始音频信号特征；

将所述原始音频信号特征输入配音模型，得到目标配音状态和目标配音语料；

根据所述目标配音文本、所述目标配音状态和所述目标配音语料生成目标配音。

另一方面，提供了一种视频配音生成装置，所述装置包括：

视频获取模块，用于获取待配音视频；

文本转化模块，用于将所述待配音视频对应的原始配音文本转化为目标配音文本，所述目标配音文本与所述原始配音文本属于不同语种；

特征提取模块，用于对所述待配音视频的原始配音进行特征提取，得到所述原始配音的原始音频信号特征；

模型输入模块，用于将所述原始音频信号特征输入配音模型，得到目标配音状态和目标配音语料；

配音生成模块，用于根据所述目标配音文本、所述目标配音状态和所述目标配音语料生成目标配音。

另一方面，提供了一种视频配音设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如上述方面所述的视频配音生成方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如上述方面所述的视频配音生成方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

对待配音视频进行配音时，首先将待配音视频对应的原始配音文本转化为不同语种的目标配音文本，然后对待配音视频的原始配音进行特征提取，得到原始配音的原始音频信号特征，从而基于预先训练的配音模型，得到原始配音对应的目标配音状态和目标配音语料，进而根据目标配音文本、目标配音状态和目标配音语料生成目标配音。采用本申请实施例提供的视频配音方法，能够根据视频中的已有配音自动为视频生成其他语种的配音，无需配音人员朗读不同语种的对白，降低了视频配音的成本，并简化了视频配音流程，提高了为视频进行多语种配音的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个实施例提供的实施环境的示意图；

图2示出了本申请一个实施例提供的视频配音生成方法的流程图；

图3示出了本申请一个实施例提供的视频配音生成方法的实施示意图；

图4是离线模型训练阶段以及在线配音阶段的原理示意图；

图5示出了本申请另一个实施例提供的视频配音生成方法的流程图；

图6是分离样本配音和样本背景音过程的原理示意图；

图7示出了本申请一个实施例提供的视频配音生成装置的框图；

图8示出了本申请一个实施例提供的视频配音设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为了方便理解，下面对本申请实施例中涉及的名词进行说明。

深层神经网络(Deep Neural Networks，DNN)：又称为多层神经网络或者多层感知机，是一种包含多个隐藏层的神经网络，DNN被广泛应用于语音识别领域，本申请实施例中的配音模型即基于DNN训练得到。

DNN内部的神经网络层可以分为输入层、隐藏层和输出层，其中，输入层位于第一层，输出层位于最后一层，隐藏层位于输入层和输出层之间，用于增强网络的表达能力。神经网络层之间全连接，即第i层的任意一个神经元与第i+1层的任意一个神经元相连。

循环神经网络(Recurrent Neural Network，RNN)：一种用于处理序列数据的神经网络，被广泛应用于语音识别领域，本申请实施例中用于分离配音和背景音的语音分离神经网络即基于RNN。不同于卷积神经网络中只能处理单个输入，导致前后输入被割裂，循环神经网络能够同时处理多个关联的输入(即序列数据)，从而充分考虑到前后输入的关联性。。

音频信号特征：用于指示音频信号的声学特征，本申请实施例中的音频信号特征指配音人声的声学特征，该音频信号特征可以包括如下至少一种：短时平均过零率、中时平均过零率、短时长度能量、中时长度能量、梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients，MFCC)、节奏、能量熵、短时平均幅度差、短时自相关函数、功率谱密度、基频、共振峰。

配音状态：指配音过程中的情感状态和语速状态。其中，情感状态可以包括如下至少一种：歌唱、哭泣、朗读、喜悦、哀伤、大喊和兴奋，语速状态可以包括如下至少一种：快速、正常、缓慢。本申请实施例并不对配音状态和语速状态的具体类型进行限定。

请参考图1，其示出了本申请一个实施例提供的实施环境的示意图。该实施环境中包括终端110和服务器120。

终端110是具有网络访问功能的电子设备，该电子设备可以是智能手机、平板电脑或个人计算机等等。图1中以终端110是个人计算机为例进行说明。

可选的，终端110中安装有具有自动配音功能的应用程序(比如视频编辑应用程序)，或者，关注有提供自动配音服务的社交账号(比如微信中的公众号)，或者，运行有依赖于其它应用程序的小程序(mini program)(比如微信中的小程序)。当需要对视频进行自动配音时，终端110即通过应用程序、社交账号或者小程序等上传待配音视频。

终端110与服务器120之间通过有线或无线网络相连。

服务器120是一台服务器、若干台服务器构成的服务器集群或云计算中心。在一种可能的实施方式中，服务器120是终端110中应用程序(具有自动配音功能)的后台服务器、社交账号(提供自动配音服务)的后台服务器或者小程序(提供自动配音服务)的后台服务器。

本申请实施例中，服务器120用于为视频进行多语种配音。可选的，服务器120预先训练有用户语音语料库和配音模型，该用户语音语料库中即包含提取自不同用户的用户音频信号特征，该配音模型即用于对原始配音进行配音状态识别，并基于原始配音从用户语音语料库中选取音色相似的语料。如图1所示，服务器120中包含用户语音语料库121和配音模型122。

在一种可能的应用场景下，如图1所示，当需要对视频进行多语种配音时，终端110将待配音视频发送至服务器120。服务器120接收到待配音视频后，首先对待配音视频中的原始配音进行特征提取，将提取到的音频信号特征输入配音模型122中，得到目标配音状态，并从用户语音语料库中121中获取目标配音语料。服务器120根据目标配音状态、目标配音语料和目标配音文本(与原始配音属于不同语种)最终合成目标配音，并将目标配音反馈给终端110，或者，将目标配音和待配音视频进行合成，将合成的目标语种的视频反馈给终端110。

在另一种可能的实施方式中，当终端110具有较强计算能力且训练由配音模型时，终端110可以在本端进行多语种配音，本实施例对此不做限定。

可选的，服务器120通过神经网络芯片实现视频配音生成功能。

可选地，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local AreaNetwork，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(WideArea Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-upLanguage，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(InternetProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

本申请各个实施例提供的视频配音生成方法可以由视频配音设备执行，该设备可以为图1中的终端110或服务器120。为了方便表述，下述各个实施例以视频配音生成方法由视频配音设备执行为例进行说明。

本申请实施例提供的视频配音生成方法可以用于为自制视频配音或者为影视作品进行多语种配音。下面结合不同的应用场景进行说明。

自制视频配音场景

当应用于自制视频配音场景时，可以将视频配音生成方法实现成为自动配音系统并安装在视频服务提供商的后台服务器中。当视频作者具有多语种配音权限时，将自制视频上传至后台服务器后，后台服务器可以提示视频作者选择配音的目标语种，并根据视频作者选择的目标语种，为自制视频生成目标语种的配音，并将不同语种的自制视频发布到视频网站上，供用户选择观看。借助该自动配音系统，视频服务提供商可以为优质视频作者提供多语种配音服务，进一步提高自制视频的点击量。

影视作品配音场景

当应用于影视作品配音场景时，可以将视频配音生成方法实现成为配音软件并安装在计算机中。配音过程中，用户首先利用专业配音工具，通过人工配音的方式为影视作品配上原始配音，然后将包含原始配音的影视作品导入配音软件，并选择需要转换的目标语种。终端根据目标语种以及原始配音，获取目标配音状态、目标配音语料和目标配音文本，从而根据上述内容生成目标配音，并将目标配音与影视作品进行合成，最终得到多语种影视作品。借助该配音软件，在没有多语种配音人员的情况下，也可以为影视作品配上不同语种的配音，方便不同语系的用户进行观看。

当然，上述视频配音生成方法还可以用于其它需要进行多语种配音的应用场景，本申请仅以上述两种场景进行示意性说明，但并不对此构成限定。

请参考图2，其示出了本申请一个实施例提供的视频配音生成方法的流程图。本实施例以该方法应用于视频配音设备来举例说明，该方法可以包括以下几个步骤：

步骤201，获取待配音视频。

其中，该待配音视频可以是自制视频，也可以是从互联网下载的网络视频。本申请实施例并不对待配音视频的来源进行限定。

本申请实施例中，待配音视频中包含原始配音，且该原始配音可以内嵌在视频文件中，也可以是独立于视频文件的音轨文件。

在一种可能的应用场景下，当视频配音设备为服务器时，服务器获取终端上传的待配音视频。

步骤202，将待配音视频对应的原始配音文本转化为目标配音文本，目标配音文本与原始配音文本属于不同语种。

可选的，为了确定需要将原始配音转化为何种语种，在获取待配音视频时，视频配音设备获取目标语种，该目标语种与原始配音所属的语种不同。

在一种可能的应用场景下，当视频配音设备是服务器时，终端上传待配音视频的同时，上传包含目标语种的配音转换请求。

可选的，本申请实施例中涉及的不同语种可以指不同类型的语言，该类型可以按照国家划分，比如，中文和英文属于不同语种，韩文和日文属于不同语种；或者，不同语种可以指同一类型语言下不同的方言，比如，四川方言和上海方言属于不同语种，英式英语和美式英语属于不同语种。

针对获取原始配音文本的方法，在一种可能的实施方式中，当待配音视频包含对应的配音文本(比如外挂字幕)时，视频配音设备直接将配音文本确定为原始配音文本；当待配音视频不包含对应的配音文本时，视频配音设备则通过语音识别技术将原始配音转化为原始配音文本。

针对将原始配音文本转化为目标配音文本的方式，在一种可能的实施方式中，视频配音设备通过翻译软件将原始配音文本转化为目标配音文本，并根据原始配音文件中各句配音的配音时长，对相应的目标配音文本进行调整，使得原始配音文件与目标配音文件的配音时长相近，从而避免后续出现目标配音与视频不同步的问题。

在其他可能的实施方式中，还可以通过人工翻译的方式将原始配音文本转换为目标配音文本，本实施例并不对此进行限定。

步骤203，对待配音视频的原始配音进行特征提取，得到原始配音的原始音频信号特征。

为了使最终生成的目标配音与原始配音具有相似的音色以及相似的配音状态(包括情感状态和语速状态)，视频配音设备对待配音视频的原始配音进行特征提取，从而得到原始配音的原始音频信号特征。

可选的，该原始音频信号特征包括如下至少一种：短时平均过零率、中时平均过零率、短时长度能量、中时长度能量、MFCC、节奏和能量熵。对原始配音进行特征提取可以采用MFCC、线性预测倒谱系数(Linear Prediction CepstrumCoefficient，LPCC)或感知线性预测(Perceptual Linear Predictive，PLP)等等。本申请实施例并不对音频信号特征提取的具体方式进行限定。

针对原始配音的提取方式，由于待配音视频中除了人声配音外，还包含背景音，因此在一种可能的实施方式中，视频配音设备获取待配音视频的混合音频信号，并过滤出其中的背景音，从而得到仅包含人声的原始配音。

步骤204，将原始音频信号特征输入配音模型，得到目标配音状态和目标配音语料。

在一种可能的实施方式中，视频配音设备预先将样本配音的样本音频信号特征以及用户语音的用户音频信号特征输入DNN，从而训练得到配音模型，该配音模型用于预测目标配音的配音状态以及配音语料。在进行多语种配音时，视频配音设备将提取到的原始音频信号特征输入该配音模型中，从而得到目标配音状态以及目标配音语料。

可选的，目标配音状态包含目标配音中每一句配音对应的配音状态，目标配音状态与原始配音的配音状态相同；目标配音语料中包含每一句配音所使用的配音语料，且目标配音语料的音色与原始配音的音色相似。

借助预先训练的配音模型，可以使最终生成的目标配音与原始配音保持相同的配音状态，并使得目标配音与原始配音保持相近的音色，在降低多语种配音难度的同时，提高了多语种配音的质量。

需要说明的是，上述步骤203至204与步骤202之间不存在严格的先后顺序，本实施例仅以步骤202在步骤203至204之前执行为例进行说明，并不对其执行时序构成限定。

步骤205，根据目标配音文本、目标配音状态和目标配音语料生成目标配音。

进一步的，根据转换得到的目标配音文本、目标配音状态以及目标配音语料，视频配音设备进行特征还原以及语音合成处理，最终生成目标配音。

可选的，视频配音设备对待配音视频的视频数据、目标配音以及原始背景音进行合成，从而生成目标语种的视频。

在一个示意性的例子中，如图3所示，视频作者通过终端110将自制视频上传至服务器120时，终端110显示多语种配音选择界面311。视频作者根据配音需求选择目标配音语种“英语”后，终端110即将自制视频“movie.mp4”以及目标语种“英语”上传至服务器120。服务器120通过对自制视频的原始配音进行一系列处理，得到目标配音文本(英语)、目标配音状态以及目标配音语料，并最终生成目标配音。视频服务器32将生成的目标配音反馈给终端110后，终端110即显示相应的配音成功提示界面312。

相较于相关技术中进行多语种配音时，需要配音人员朗读相应语种的对白，采用本申请实施例提供的视频配音生成方法能够实现自动化多语种配音，配音效率得到提高；并且，进行自动化多语种配音时不会受到配音人员自身状态以及水平的影响，进一步提高了多语种配置的质量。

综上所述，本申请实施例中，对待配音视频进行配音时，首先将待配音视频对应的原始配音文本转化为不同语种的目标配音文本，然后对待配音视频的原始配音进行特征提取，得到原始配音的原始音频信号特征，从而基于预先训练的配音模型，得到原始配音对应的目标配音状态和目标配音语料，进而根据目标配音文本、目标配音状态和目标配音语料生成目标配音。采用本申请实施例提供的视频配音方法，能够根据视频中的已有配音自动为视频生成其他语种的配音，无需配音人员朗读不同语种的对白，降低了视频配音的成本，并简化了视频配音流程，提高了为视频进行多语种配音的效率。

在一种可能的实施方式中，如图4所示，离线模型阶段，视频配音设备预先对训练用的样本视频数据41进行特征提取，得到样本视频数据41中样本配音的样本音频信号特征42，并对采集到的大量用户语音43进行特征提取，构建包含用户音频信号特征的用户语音语料库44，从而将样本音频信号特征42和用户语音语料库44输入DNN进行模型训练，得到配音模型45。在线配音阶段，视频配音设备对待配音视频46中的原始配音进行特征提取，得到原始配音的原始音频信号特征47，并将原始音频信号特征47输入配音模型45，进而对配音模型45输出的结果进行特征还原和语音合成，最终生成目标配音48。下面采用示意性的实施例进行说明。

请参考图5，其示出了本申请另一个实施例提供的视频配音生成方法的流程图。本实施例以该方法应用于视频配音设备来举例说明，该方法可以包括以下几个步骤：

步骤501，构建用户语音语料库，用户语音语料库包含从用户语音中提取的用户音频信号特征。

针对用户语音语料库的构建方式，在一种可能的实施方式中，视频配音设备获取各个用户输入的语音，从而对用户语音进行特征提取，从而得到不同用户语音的用户音频信号特征。其中，用户输入的语音可以是用户语音交互过程中采集到的语音。比如，该用户语音是用户使用视频客户端进行语音搜索时采集到的语音。本申请实施例并不对用户语音的来源进行限定。

由于采集到的用户语音中可能包含环境音，对后续特征提取造成影响，可选的，对于采集到的用户语音，视频配音设备通过人声提取算法，提取出不包含环境音的音频信号，进而对提取到的音频信号进行特征提取。

并且，视频配音设备可以采用与上述步骤203相似方式对用户语音进行特征提取，本实施例在此不再赘述。

根据特征提取得到的用户音频信号特征，视频配音设备构建用户语音语料库，该用户语音语料库中即包含各种类型的用户音频信号特征。并且，随着用户语音的不断积累，该用户语音语料库不断丰富，有利于为后续生成目标配音过程提供音色更加真实的配音语料。

步骤502，对样本视频中的样本配音进行特征提取，得到样本配音的样本音频信号特征。

与上述步骤203中提取原始音频信号特征相似的，视频配音设备对样本视频中的样本配音进行特征提取，从而得到样本配音的样本音频信号特征。可选的，为了提高训练出的配音模型的质量，视频配音设备选取不同语种、不同音色、不同情感状态的样本视频，以此提高样本视频的全面性。

由于样本视频中除了包含配音外，还可能包含背景音，比如背景音乐、背景噪声，而背景音会对样本音频信号特征提取的准确性造成影响，进而影响后续训练出的模型质量。为了提高后续特征提取的准确性，对样本视频中的样本配音进行特征提取之前，还可以包括如下步骤。

一、对样本视频的混合音频信号进行短时傅里叶变换，得到幅度谱和相位谱，混合音频信号包括样本配音和样本背景音。

可选的，视频配音设备首先从样本视频中提取出包含样本配音和样本背景音的混合音频信号，然后对混合音频信号进行短时傅里叶变换(Short-TimeFourier Transform，STFT)，将混合音频信号由时域信号转换为频域信号，得到混合音频信号的幅度谱(或称为振幅谱)和相位谱。不同于传统傅里叶变换只能观察到信号频域特性，短时傅里叶变换可以做到时频二维的联合观察。

示意性的，如图6所示，视频配音设备对混合音频信号61进行STFT，得到混合音频信号61的幅度谱62和相位谱63。

二、将幅度谱输入语音分离神经网络，得到预测幅度谱。

进一步的，视频配音设备将幅度谱输入语音分离神经网络，分离出样本配音以及样本背景音的幅度谱(即预测幅度谱)。

可选的，本实施例中的语音分离神经网络基于DNN，包括n层循环神经网络、全连接层和时频掩膜层。其中，全连接层用于将n层循环神经网络的输出整合为音频输出，而时频掩膜(Time Frequency Masking)层则用于将音频输出的幅度归一化，n≥1，n为整数。

利用语音分离神经网络进行语音分离时，语音分离神经网络的输入是STFT后的一帧幅度谱，输出则是两帧幅度谱(配音和背景音)并列成的一个向量。比如，输入的幅度谱的大小为512，则输出的预测幅度谱大小为1024，其中，前512是分离后的一帧配音振幅谱，后512是分离后的一帧背景音振幅谱。而在训练语音分离神经网络时，将样本纯净配音和样本纯净背景音作为监督数据，采用监督方式进行网络训练。

示意性的，如图6所示，视频配音设备将幅度谱62输入语音分离神经网络63。语音分离神经网络63首先通过三层RNN 631对幅度谱62进行处理，然后通过全连接层632对三层RNN 631的输出进行全连接，得到音频输出，再将音频输出输入时频掩膜层633进行语音分离，得到预测幅度谱64。

三、对预测幅度谱和相位谱进行逆短时傅里叶变换，得到样本配音和样本背景音。

进一步的，视频配音设备根据预测幅度谱和相位谱进行逆短时傅里叶变换(Inverse Short-Time Fourier Transform，ISTFT)，最终得到分离后的样本配音和样本背景音。

可选的，视频配音设备根据相对熵(Kullback–Leibler，KL)散度对配音-背景音效果进行评估。

示意性的，如图6所示，视频配音设备根据相位谱63和预测幅度谱64，得到两路信号，分别为样本配音65和样本背景音66。

通过上述步骤提取到样本配音后，视频配音设备进一步对样本配音进行特征提取，并根据提取到的特征和用户语音语料库进行模型训练。

需要说明的是，本申请实施例并不对上述步骤501和步骤502的执行时序进行限定。

步骤503，根据样本音频信号特征和用户语音语料库训练配音模型。

视频配音设备将提取到的样本音频信号特征和用户语音语料库输入DNN训练得到配音模型。

在一种可能的实施方式中，训练得到的配音模型中包含配音状态识别模型和配音语料识别模型，该配音状态识别模型用于识别各句配音的配音状态，配音语料识别模型用于从用户语音语料库选取音色相近的语音语料。

可选的，本步骤可以包括如下步骤。

一、获取样本音频信号特征对应的样本配音状态；根据样本音频信号特征和样本配音状态训练配音状态识别模型。

在一种可能的实施方式中，样本视频中每句样本配音中标注有样本配音状态，该样本配音状态可以通过人工标注。提取到各句样本配音的样本音频信号特征后，视频配音设备基于标注获取样本音频信号对应的样本配音状态。

由于不同配音状态下，配音的音频信号特征不同(比如，兴奋状态下，配音的短时长度能量较大，而哭泣状态下，配音的短时长度能量较小)，因此，基于样本音频信号特征和对应的样本配音状态，视频配音设备对构建的初始配音状态识别模型进行训练，最终训练得到配音状态识别模型。

二、根据样本音频信号特征和相似语料训练配音语料识别模型，相似语料属于用户语音语料库中获取相似语料，且相似语料的用户音频信号特征与样本音频信号特征的相似度大于阈值。

在一种可能的实施方式中，视频配音设备根据构建初始配音语料识别模型，并从用户语音语料库中获取与样本音频信号特征相似度大于阈值(比如90％)的相似语料，从而根据样本音频信号特征和相似语料对初始配音语料识别模型进行训练，得到最终的配音语料识别模型。

可选的，通过上述步骤训练得到配音状态识别模型和配音语料识别模型后，视频配音设备将测试样本输入上述模型，并采用人工评估的方式对模型输出进行评价，从而根据评价迭代训练模型参数，直至模型的输出达到预期效果，本实施例在此不再赘述。

通过上述步骤501至503，视频配音设备完成模型离线训练，后续在线使用过程中，即利用训练得到的模型进行多语种配音。

步骤504，获取待配音视频。

本步骤的实施方式可以参考上述步骤201，本实施例在此不再赘述。

步骤505，将待配音视频对应的原始配音文本转化为目标配音文本，目标配音文本与原始配音文本属于不同语种。

为了实现多语种配音的全自动化，本申请实施例通过基于神经网络的语音识别技术，将待配音视频中的原始配音转换为原始配音文本，从而根据目标语种，将原始配音文本翻译为目标配音文本。

在一种可能的实施方式中，由于部分待配音视频可能包含字幕，因此为了提高配音文本的转换效率，视频配音设备首先检测待配音视频是否包含字幕，并根据检测结果确定获取原始配音文本的方式。本步骤可以包括如下步骤。

一、若待配音视频包含字幕，则根据字幕生成原始配音文本，并将原始配音文本转化为目标配音文本。

可选的，当待配音视频包含字幕，且该字幕为内嵌字幕时，视频配音设备可以通过图像识别的方式，识别待配音视频中包含的字幕，从而生成原始配音文本；当待配音视频包含的字幕为外挂字幕时(比如.ssa文件)，视频配音设备可以通过解析外挂字幕生成原始配音文本。

进一步的，视频配音设备根据目标语种，并按照文本翻译需求，将原始配音文本转化为目标配音文本。

可选的，将原始配音文本转化为目标配音文本过程中，视频配音设备根据原始配音文本中各条原始配音文本对应的时间范围，调整对应目标配音文本的翻译长度，避免目标配音文本长度过长或过短，导致音视频不同步的问题。

二、若待配音视频不包含字幕，则将待配音视频输入语音识别神经网络，得到原始配音文本，并将原始配音文本转化为目标配音文本。

当待配音视频中不包含字幕时，视频配音设备将待配音视频输入语音识别神经网络，借助语音识别神经网络对原始配音进行语音识别，从而得到相应的原始配音文本，并进一步按照文本翻译需求，将原始配音文本转化为目标配音文本。

其中，视频配音设备可以采用成熟的语音识别神经网络进行语音识别，本申请实施例并不对此进行限定。

步骤506，对待配音视频的原始配音进行特征提取，得到原始配音的原始音频信号特征。

本步骤的实施方式可以参考上述步骤203，本实施例在此不再赘述。

步骤507，将原始音频信号特征输入配音模型，得到目标配音状态和目标配音语料。

与上述步骤503对应的，视频配音设备将原始音频信号特征输入配音状态识别模型，得到目标配音状态，其中，该目标配音状态与原始音频的配音状态相同，且不同的配音时段对应各自的目标配音状态。

比如，第10-13秒这一配音时段内对应的目标配音状态为兴奋且语速状态为快速，第16-20秒这一配音时段内对应的目标配音状态为哭泣且语速状态为中正常。

视频配音设备将原始音频信号特征输入配音语料识别模型，得到目标配音语料。其中，该目标配音语料的用户音频信号特征与原始音频的原始音频信号特征相似(即音色相似)，且不同的配音时段对应各自的目标配音语料。

比如，第10-13秒这一配音时段内是男生的配音，而第16-20秒这一配音时段内则是女生的配音，两者使用的配音语料不同。

步骤508，根据同一配音时段下的目标配音文本、目标配音状态和目标配音语料生成配音片段。

由于不同配音时段下的配音状态和配音语料不同，因此视频配音设备根据同一配音时段下的目标配音文本、目标配音状态和目标配音语料，生成各个配音时段各自对应的配音片段。

在一种可能的实施方式中，目标配音文本中包含各句配音对应的配音时段，目标配音状态中包含各个配音状态对应的配音时段，目标配音语料中各种配音语料对应的配音时段。配音合成时，视频配音设备获取同一配音时段对应的目标配音文本、目标配音状态和目标配音语料，进而生成配音片段。

步骤509，对不同配音时段下的配音片段进行拼接，生成目标配音。

进一步的，视频配音设备按照配音时段的先后顺序，对各个配音片段进行拼接，最终生成目标配音。

本实施例中，视频配音设备基于用户语音构建用户语音语料库，并根据样本配音的样本音频信号特征和用户语音语料库训练配音模型，提高了后续基于配音模型生成的多语种配音的真实性。

另外，通过对样本视频的混合音频信号进行配音背景音分离，降低样本视频中样本背景音对后续配音特征提取造成的影响，进一步提高了训练出的配音模型的质量。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图7，其示出了本申请一个实施例提供的视频配音生成装置的框图。该装置具有执行上述方法示例的功能，功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：

视频获取模块710，用于获取待配音视频；

文本转化模块720，用于将所述待配音视频对应的原始配音文本转化为目标配音文本，所述目标配音文本与所述原始配音文本属于不同语种；

特征提取模块730，用于对所述待配音视频的原始配音进行特征提取，得到所述原始配音的原始音频信号特征；

模型输入模块740，用于将所述原始音频信号特征输入配音模型，得到目标配音状态和目标配音语料；

配音生成模块750，用于根据所述目标配音文本、所述目标配音状态和所述目标配音语料生成目标配音。

可选的，所述装置还包括：

构建模块，用于构建用户语音语料库，所述用户语音语料库包含从用户语音中提取的用户音频信号特征；

样本特征提取模块，用于对样本视频中的样本配音进行特征提取，得到所述样本配音的样本音频信号特征；

训练模块，用于根据所述样本音频信号特征和所述用户语音语料库训练所述配音模型。

可选的，所述配音模型包括配音状态识别模型和配音语料识别模型；

所述训练模块，包括：

第一训练单元，用于获取所述样本音频信号特征对应的样本配音状态；根据所述样本音频信号特征和所述样本配音状态训练所述配音状态识别模型；

第二训练单元，用于根据所述样本音频信号特征和相似语料训练所述配音语料识别模型，所述相似语料属于所述用户语音语料库中获取相似语料，且所述相似语料的所述用户音频信号特征与所述样本音频信号特征的相似度大于阈值。

可选的，所述模型输入模块740，包括：

第一输入单元，用于将所述原始音频信号特征输入所述配音状态识别模型，得到所述目标配音状态；

第二输入单元，用于将所述原始音频信号特征输入所述配音语料识别模型，得到所述目标配音语料。

可选的，所述装置还包括：

变换模块，用于对所述样本视频的混合音频信号进行短时傅里叶变换，得到幅度谱和相位谱，所述混合音频信号包括所述样本配音和样本背景音；

分离模块，用于将所述幅度谱输入语音分离神经网络，得到预测幅度谱，所述语音分离神经网络包括n层循环神经网络、全连接层和时频掩膜层，所述全连接层用于将所述n层循环神经网络的输出整合为音频输出，所述时频掩膜层用于将所述音频输出的幅度归一化，n≥1，n为整数；

逆变换模块，用于对所述预测幅度谱和所述相位谱进行逆短时傅里叶变换，得到所述样本配音和所述样本背景音。

可选的，所述文本转化模块720，包括：

第一转化单元，用于若所述待配音视频包含字幕，则根据所述字幕生成所述原始配音文本，并将所述原始配音文本转化为所述目标配音文本；

或，

第二转化单元，用于若所述待配音视频不包含字幕，则将所述待配音视频输入语音识别神经网络，得到所述原始配音文本，并将所述原始配音文本转化为所述目标配音文本。

可选的，所述配音生成模块750，包括：

片段生成单元，用于根据同一配音时段下的所述目标配音文本、所述目标配音状态和所述目标配音语料生成配音片段；

拼接单元，用于对不同配音时段下的所述配音片段进行拼接，生成所述目标配音。

请参考图8，其示出了本申请一个实施例提供的视频配音设备的结构示意图。该视频配音设备可以实现成为图1所示实施环境中的服务器120，以实施上述实施例提供的视频配音生成方法。具体来讲：

所述视频配音设备1000包括中央处理单元(CPU)1001、包括随机存取存储器(RAM)1002和只读存储器(ROM)1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述视频配音设备1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1006，和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

所述基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。所述基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机可读介质为视频配音设备1000提供非易失性存储。也就是说，所述大容量存储设备1007可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。

根据本申请的各种实施例，所述视频配音设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即视频配音设备1000可以通过连接在所述系统总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统。

所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行，以实现上述视频配音方法中各个步骤的功能。

Claims

1.一种视频配音生成方法，其特征在于，所述方法包括：

获取待配音视频；

2.根据权利要求1所述的方法，其特征在于，所述获取待配音视频之前，所述方法还包括：

构建用户语音语料库，所述用户语音语料库包含从用户语音中提取的用户音频信号特征；

对样本视频中的样本配音进行特征提取，得到所述样本配音的样本音频信号特征；

根据所述样本音频信号特征和所述用户语音语料库训练所述配音模型。

3.根据权利要求2所述的方法，其特征在于，所述配音模型包括配音状态识别模型和配音语料识别模型；

所述根据所述样本音频信号特征和所述用户语音语料库训练所述配音模型，包括：

获取所述样本音频信号特征对应的样本配音状态；根据所述样本音频信号特征和所述样本配音状态训练所述配音状态识别模型；

根据所述样本音频信号特征和相似语料训练所述配音语料识别模型，所述相似语料属于所述用户语音语料库中获取相似语料，且所述相似语料的所述用户音频信号特征与所述样本音频信号特征的相似度大于阈值。

4.根据权利要求3所述的方法，其特征在于，所述将所述原始音频信号特征输入配音模型，得到目标配音状态和目标配音语料，包括：

将所述原始音频信号特征输入所述配音状态识别模型，得到所述目标配音状态；

将所述原始音频信号特征输入所述配音语料识别模型，得到所述目标配音语料。

5.根据权利要求2所述的方法，其特征在于，所述对样本视频中的样本配音进行特征提取，得到所述样本配音的样本音频信号特征之前，所述方法包括：

对所述样本视频的混合音频信号进行短时傅里叶变换，得到幅度谱和相位谱，所述混合音频信号包括所述样本配音和样本背景音；

将所述幅度谱输入语音分离神经网络，得到预测幅度谱，所述语音分离神经网络包括n层循环神经网络、全连接层和时频掩膜层，所述全连接层用于将所述n层循环神经网络的输出整合为音频输出，所述时频掩膜层用于将所述音频输出的幅度归一化，n≥1，n为整数；

对所述预测幅度谱和所述相位谱进行逆短时傅里叶变换，得到所述样本配音和所述样本背景音。

6.根据权利要求1至5任一所述的方法，其特征在于，所述将所述待配音视频对应的原始配音文本转化为目标配音文本，包括：

若所述待配音视频包含字幕，则根据所述字幕生成所述原始配音文本，并将所述原始配音文本转化为所述目标配音文本；

或，

若所述待配音视频不包含字幕，则将所述待配音视频输入语音识别神经网络，得到所述原始配音文本，并将所述原始配音文本转化为所述目标配音文本。

7.根据权利要求1至5任一所述的方法，其特征在于，所述根据所述目标配音文本、所述目标配音状态和所述目标配音语料生成目标配音，包括：

根据同一配音时段下的所述目标配音文本、所述目标配音状态和所述目标配音语料生成配音片段；

对不同配音时段下的所述配音片段进行拼接，生成所述目标配音。

8.一种视频配音生成装置，其特征在于，所述装置包括：

视频获取模块，用于获取待配音视频；

9.一种视频配音设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如权利要求1至7任一所述的视频配音生成方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如权利要求1至7任一所述的视频配音生成方法。