CN111916054B

CN111916054B - 基于唇形的语音生成方法、装置和系统及存储介质

Info

Publication number: CN111916054B
Application number: CN202010650146.6A
Authority: CN
Inventors: 刘博�; 李秀林
Original assignee: Beibei Qingdao Technology Co ltd
Current assignee: Beibei Qingdao Technology Co ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2024-04-26
Anticipated expiration: 2040-07-08
Also published as: CN111916054A

Abstract

本发明提供一种基于唇形的语音生成方法、装置和系统及存储介质。方法包括：获取包含唇形信息的实际图像序列；从实际图像序列的每个实际图像中分别提取唇部特征，以获得实际唇部特征序列；将实际唇部特征序列输入唇语识别网络，以获得实际中间表示序列，其中，实际中间表示序列是音子后验概率序列或音子序列；以及将实际中间表示序列输入目标语音生成网络，以获得目标发音人的目标语音，目标语音的内容与实际图像序列中的唇形信息表达的语音内容一致。上述方式无需将唇形信息转换成文本再基于文本进行语音合成，这样可以降低文本识别错误进一步传导带来的影响，同时可以使得生成的语音能够与唇形信息更好地匹配。

Description

基于唇形的语音生成方法、装置和系统及存储介质

技术领域

本发明涉及语音处理技术领域，具体地，涉及一种基于唇形的语音生成方法、装置和系统及存储介质。

背景技术

在语音处理技术领域，基于唇形的语音生成技术是比较重要的研究方向。在现有技术中，基于唇形的语音生成通过简单地将唇语识别与语音合成串联起来的方式实现。唇语识别技术，是对图像中的人连续的口型变化进行识别，识别出此人口型对应的发音，随后根据识别出的发音，计算出可能性最大的自然语言语句。语音合成技术，是将文本转换成声音的技术，通过文本处理、韵律预测、声学参数预测、声音生成等模块，输出文本对应的声音。

上述现有技术存在如下缺点：如果简单地将唇语识别与语音合成串联起来，一方面会造成唇语识别成文字时带来的错误被进一步传导，另一方面，也很难将合成的语音与唇部动作对应起来，造成将语音与唇部动作视频合成在一起时获得的视频效果不够真实生动。

发明内容

为了至少部分地解决现有技术中存在的问题，提供一种基于唇形的语音生成方法、装置和系统及存储介质。

根据本发明一个方面，提供一种基于唇形的语音生成方法，包括：获取包含唇形信息的实际图像序列；从所述实际图像序列的每个实际图像中分别提取唇部特征，以获得实际唇部特征序列；将所述实际唇部特征序列输入唇语识别网络，以获得实际中间表示序列，其中，所述实际中间表示序列是音子后验概率序列或音子序列；以及将所述实际中间表示序列输入目标语音生成网络，以获得目标发音人的目标语音，所述目标语音的内容与所述实际图像序列中的唇形信息表达的语音内容一致。

示例性地，所述将所述实际中间表示序列输入目标语音生成网络，以获得目标发音人的目标语音包括：将所述实际中间表示序列与音色配置参数一起输入所述目标语音生成网络，以获得所述目标语音，其中，所述音色配置参数是与所述目标发音人唯一相关的发音人嵌入向量。

示例性地，在所述将所述实际中间表示序列输入目标语音生成网络，以获得目标发音人的目标语音之前，所述语音生成方法还包括：基于音色配置参数从多个预设语音生成网络中选择所述目标语音生成网络，其中，所述音色配置参数是与所述目标语音生成网络唯一相关的标识信息。

示例性地，在所述将所述实际中间表示序列输入目标语音生成网络，以获得目标发音人的目标语音之前，所述语音生成方法还包括：接收用户输入信息；以及基于所述用户输入信息确定所述音色配置参数。

示例性地，所述实际中间表示序列是音子后验概率序列，所述语音生成方法还包括：获取包含唇形信息的样本图像序列和与所述样本图像序列相对应的标注音子序列，其中，所述标注音子序列中的音子与所述样本图像序列中的唇形信息表达的语音内容一致；从所述样本图像序列的每个样本图像中分别提取唇部特征，以获得样本唇部特征序列；将所述样本唇部特征序列输入音子识别网络，以获得样本音子序列，所述音子识别网络包括所述唇语识别网络和连接在所述唇语识别网络后面的输出层；以及将所述标注音子序列作为所述样本音子序列的期望值，对所述音子识别网络进行训练，以获得训练好的所述唇语识别网络。

示例性地，所述语音生成方法还包括：获取样本中间表示序列和与所述样本中间表示序列相对应的标注语音，其中，所述标注语音是所述目标发音人的语音；将所述样本中间表示序列输入所述目标语音生成网络，以获得所述目标发音人的样本语音；以及将所述标注语音作为所述样本语音的期望值，对所述目标语音生成网络进行训练，以获得训练好的所述目标语音生成网络。

示例性地，所述获取样本中间表示序列和与所述样本中间表示序列相对应的标注语音包括：获取包含唇形信息的样本图像序列和所述标注语音，其中，所述标注语音的内容与所述样本图像序列中的唇形信息表达的语音内容一致；从所述样本图像序列的每个样本图像中分别提取唇部特征，以获得样本唇部特征序列；将所述样本唇部特征序列输入所述唇部识别网络，以获得所述样本中间表示序列。

示例性地，所述获取样本中间表示序列和与所述样本中间表示序列相对应的标注语音包括：获取所述标注语音；以及将所述标注语音输入语音识别网络，以获得所述样本中间表示序列。

根据本发明另一方面，还提供一种基于唇形的语音生成装置，包括：获取模块，用于获取包含唇形信息的实际图像序列；特征提取模块，用于从所述实际图像序列的每个实际图像中分别提取唇部特征，以获得实际唇部特征序列；第一输入模块，用于将所述实际唇部特征序列输入唇语识别网络，以获得实际中间表示序列，其中，所述实际中间表示序列是音子后验概率序列或音子序列；以及第二输入模块，用于将所述实际中间表示序列输入目标语音生成网络，以获得目标发音人的目标语音，所述目标语音的内容与所述实际图像序列中的唇形信息表达的语音内容一致。

根据本发明另一方面，还提供一种基于唇形的语音生成系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述基于唇形的语音生成方法。

根据本发明另一方面，还提供一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述基于唇形的语音生成方法。

根据本发明实施例的基于唇形的语音生成方法、装置和系统及存储介质，可以基于包含唇形信息的实际图像序列生成目标发音人的目标语音，在此过程中，无需将唇形信息转换成文本再基于文本进行语音合成，而是可以通过中间表示序列，将唇语识别与语音生成技术进行有机结合，这样可以降低文本识别错误进一步传导带来的影响，同时可以使得生成的语音能够与唇形信息更好地匹配，这样在需要将语音与包含唇形信息的实际图像序列合成在一起生成新视频的情形下，能够获得更加生动逼真的视频效果。

在发明内容中引入了一系列简化形式的概念，这将在具体实施方式部分中进一步详细说明。本发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征，更不意味着试图确定所要求保护的技术方案的保护范围。

以下结合附图，详细说明本发明的优点和特征。

附图说明

本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施方式及其描述，用来解释本发明的原理。在附图中，

图1示出根据本发明一个实施例的基于唇形的语音生成方法的示意性流程图；

图2示出根据本发明一个实施例的基于唇形的语音生成方法的流程示意图；

图3示出了根据本发明一个实施例的基于唇形的语音生成装置的示意性框图；以及

图4示出了根据本发明一个实施例的基于唇形的语音生成系统的示意性框图。

具体实施方式

在下文的描述中，提供了大量的细节以便能够彻底地理解本发明。然而，本领域技术人员可以了解，如下描述仅示例性地示出了本发明的优选实施例，本发明可以无需一个或多个这样的细节而得以实施。此外，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行详细描述。

为了至少部分地解决上述技术问题，本发明实施例提供一种基于唇形的语音生成方法、装置和系统及存储介质。该基于唇形的语音生成技术不再需要中间文本的转换，而是通过中间表示序列将唇语识别与语音生成技术进行有机结合。

图1示出根据本发明一个实施例的基于唇形的语音生成方法100的示意性流程图。如图1所示，基于唇形的语音生成方法100包括步骤S110、S120、S130和S140。

在步骤S110，获取包含唇形信息的实际图像序列。

所述包含唇形信息的实际图像序列是指该实际图像序列中的每个图像包含特定人员的嘴唇部位。所述特定人员可以是任何人员，其比较优选的是同一人员，当然也可以是不同人员。即，实际图像序列中的任意两个图像中包含的嘴唇部位所属人员比较优选是同一人员，但也可以是两个不同人员。

示例性地，唇语识别网络和目标语音生成网络可以预先进行训练，并将训练好的网络应用于实际的语音生成中。为了区分，将在应用阶段实际进行语音生成的图像序列称为实际图像序列，相应地，此阶段涉及的图像、唇部特征、中间表示序列分别称为实际图像、实际唇部特征、实际中间表示序列；同时，将在训练阶段涉及的图像序列、图像、唇部特征、中间表示序列等分别称为样本图像序列、样本图像、样本唇部特征、样本中间表示序列等。因此，“实际”仅是用于区分的目的，并不具有特殊含义，即其并不限定图像序列等的来源、包含内容等。

实际图像序列可以是一段视频，其可以具有任何合适的来源。例如，基于唇形的语音生成方法可以由基于唇形的语音生成系统的处理器执行，基于唇形的语音生成系统可以包括处理器和存储器。可选地，基于唇形的语音生成系统还可以包括摄像头等其他装置。摄像头可以与处理器可通信地连接。实际图像序列可以由处理器从摄像头实时获取，即摄像头可以实时采集多个包含嘴唇部位的图像(这些图像组成图像序列或说视频片段)，并传输至处理器。实际图像序列还可以由处理器从相关联的存储器获得或者经由诸如互联网等的网络从其他设备获得。

在步骤S120，从实际图像序列的每个实际图像中分别提取唇部特征，以获得实际唇部特征序列。

示例性地，对于每个实际图像，可以对该实际图像进行唇部识别和定位，确定唇部所在的图像区域，随后，可以对该图像区域进行特征提取，例如提取其灰度特征、边缘特征等，进而获得该实际图像所对应的唇部特征。最终，可以获得实际图像序列所对应的实际唇部特征序列。

在步骤S130，将实际唇部特征序列输入唇语识别网络，以获得实际中间表示序列，其中，实际中间表示序列是音子后验概率序列或音子序列。

唇语识别网络可以采用任何合适的网络模型实现，例如其可以包括但不限于卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)等网络模型中的一种或多种的组合。

实际中间表示序列属于文本以外的信息表达形式。示例性地，实际中间表示序列可以是音子后验概率序列(Phonetic PosteriorGrams,PPGs)或者音子序列。音子也可以称为音素，本领域技术人员可以理解音子的含义，本文不做作赘述。音子后验概率序列是音子后验概率(PPG)的序列，音子后验概率是一个时间对类别的矩阵，表示对于一个话语的每个特定时间帧，每个音子类别的后验概率。音子后验概率序列可以是以实际图像序列的采样间隔为周期的一种数据序列，即针对每个实际图像均可以获得音子后验概率。音子序列可以是带有时间信息的音子序列，例如可以按照视频帧(图像序列可以视为多个视频帧组成的视频片段)划分，每个音子可以带有其所跨越的一个或多个视频帧的帧序号，从而可以获知从第几帧到第几帧属于该音子的发音时间。

在步骤S140，将实际中间表示序列输入目标语音生成网络，以获得目标发音人的目标语音，目标语音的内容与实际图像序列中的唇形信息表达的语音内容一致。

目标语音生成网络可以采用任何合适的网络模型实现，例如其可以包括但不限于卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)等网络模型中的一种或多种的组合。

目标语音生成网络可以基于实际中间表示序列生成对应的目标语音，目标语音具有目标发音人的音色，并且其内容与实际图像序列中的唇形信息表达的语音内容一致。并且，比较可取的是，目标语音与实际图像序列中的唇形信息表达的语音在时间上同步。与传统的语音合成网络不同，目标语音生成网络并不是采用传统的文本作为输入，而是采用中间表示序列作为输入，因此，其也无需进行文本的各项预处理，如分词、韵律预测、声学参数预测等。

生成的目标语音，可以独立使用，以用于分析实际图像序列中隐含的信息，也可以与原来的实际图像序列合成在一起获得新的视频形态，以实现恢复语音信息或者产生有趣的视频效果的目的。

通过上述方式，可以基于包含唇形信息的实际图像序列生成目标发音人的目标语音，在此过程中，无需将唇形信息转换成文本再基于文本进行语音合成，而是可以通过中间表示序列，将唇语识别与语音生成技术进行有机结合，这样可以降低文本识别错误进一步传导带来的影响，同时可以使得生成的语音能够与唇形信息更好地匹配，这样在需要将语音与包含唇形信息的实际图像序列合成在一起生成新视频的情形下，能够获得更加生动逼真的视频效果。

根据本发明实施例，将实际中间表示序列输入目标语音生成网络，以获得目标发音人的目标语音(步骤S140)可以包括：将实际中间表示序列与音色配置参数一起输入目标语音生成网络，以获得目标语音，其中，音色配置参数是与目标发音人唯一相关的发音人嵌入向量。

图2示出根据本发明一个实施例的基于唇形的语音生成方法的流程示意图。如图2所示，可以首先采集或读取包含唇形信息的图像序列(即实际图像序列)，随后提取每个实际图像的唇部特征，获得唇部特征序列(即实际唇部特征序列)。随后，可以将唇部特征序列输入唇语识别网络，获得中间表示序列(即实际中间表示序列)。随后，将中间表示序列和音色配置参数一起输入目标语音生成网络，获得目标语音。输入目标语音生成网络的音色配置参数可以是发音人嵌入向量(speaker embedding)。

发音人嵌入向量可以编码发音人的声音特征。在这种情况下，目标语音生成网络可以是通用网络模型，即与发音人无关的网络模型，通过将不同的发音人嵌入向量输入至该通用网络模型，可以输出对应的发音人的语音。通过上述方式，可以控制生成的目标语音的音色，实现不同的音色效果和艺术效果。

根据本发明实施例，在将实际中间表示序列输入目标语音生成网络，以获得目标发音人的目标语音(步骤S140)之前，语音生成方法100还可以包括：基于音色配置参数从多个预设语音生成网络中选择目标语音生成网络，其中，音色配置参数是与目标语音生成网络唯一相关的标识信息。

可选地，可以预先针对不同发音人训练获得不同的预设语音生成网络，即发音人与预设语音网络之间存在一一对应关系。每个预设语音生成网络可以具有自己的唯一相关的标识信息。例如，可以针对10个不同的发音人训练10个预设语音生成网络，并分别标识为“成熟男声”、“磁性男声”、“甜美女声”、“知性女声”等等，或者直接标识为“网络1”、“网络2”、“网络3”等等，只要能够区分即可。在实际应用时，音色配置参数可以是某一预设语音生成网络的标识信息，从而能够指定所需的预设语音生成网络。通过上述方式，可以控制生成的目标语音的音色，实现不同的音色效果和艺术效果。

上述通过音色配置参数选择不同目标发音人的语音的方案仅是示例而非限制。可选地，目标发音人可以是唯一的，即对于所有唇形信息，均针对其生成同一默认的目标发音人的语音，在这种情况下，可以无需音色配置参数。

根据本发明实施例，在将实际中间表示序列输入目标语音生成网络，以获得目标发音人的目标语音(步骤S140)之前，语音生成方法100还可以包括：接收用户输入信息；以及基于用户输入信息确定音色配置参数。

可选地，目标发音人可以由用户指定，即基于用户输入信息确定。可选地，目标发音人也可以由处理器自行选择，即处理器自行设置音色配置参数。处理器自行设置的方式可以采用任何合适的方式实现，例如处理器可以从预设的发音人嵌入向量或标识信息中随机选择某一发音人嵌入向量或标识信息作为所述音色配置参数，或者按照预设顺序依次从预设的发音人嵌入向量或标识信息中选择某一发音人嵌入向量或标识信息作为所述音色配置参数。例如，假设预设语音生成网络共有10个，并分别标识为“网络1”、“网络2”、“网络3”……“网络10”，处理器接收到一次语音生成任务，可以按照编号顺序依次调用这10个预设语音生成网络分别进行语音生成，获得针对同一实际图像序列的10份不同的语音结果。

基于唇形的语音生成系统还可以包括与处理器可通信连接的输入装置。输入装置可以包括但不限于键盘、鼠标、触摸屏、麦克风等中的一种或多种。用户输入信息可以包括但不限于文字信息、语音信息、手势信息等中的一种或多种。例如，基于唇形的语音生成系统还可以包括显示屏，系统可以将多个预设语音生成网络的标识信息显示在显示屏上，用户通过键盘和/或鼠标或在显示屏为触摸屏的情况下通过显示屏选中某一预设语音生成网络的标识信息，处理器即可基于用户输入信息确定用户指定的预设语音生成网络，进而确定目标语音生成网络。

在音色配置参数是发音人嵌入向量的情况下，预设语音生成网络的标识信息可以进一步与该预设语音生成网络的发音人嵌入向量一一对应。用户选中某个预设语音生成网络的标识信息，可以确定该预设语音生成网络的发音人嵌入向量，进而将该发音人嵌入向量与实际中间表示序列一起输入至目标语音生成网络(其为通用语音生成网络)，获得目标语音。在音色配置参数是标识信息的情况下，用户选中某个预设语音生成网络的标识信息，即可以直接基于该标识信息选择目标语音生成网络。进而将中间表示序列输入至该目标语音生成网络(其为专用语音生成网络)，获得目标语音。

根据本发明实施例，实际中间表示序列是音子后验概率序列，语音生成方法100还可以包括：获取包含唇形信息的样本图像序列和与样本图像序列相对应的标注音子序列，其中，标注音子序列中的音子与样本图像序列中的唇形信息表达的语音内容一致；从样本图像序列的每个样本图像中分别提取唇部特征，以获得样本唇部特征序列；将样本唇部特征序列输入音子识别网络，以获得样本音子序列，音子识别网络包括唇语识别网络和连接在唇语识别网络后面的输出层；以及将标注音子序列作为样本音子序列的期望值，对音子识别网络进行训练，以获得训练好的唇语识别网络。

语音生成方法100可以包括唇语识别网络的训练步骤。唇语识别网络的训练步骤可以在唇语识别网络的实际应用步骤之前执行，例如至少在将实际唇部特征序列输入唇语识别网络，以获得实际中间表示序列(步骤S130)之前执行。

在实际中间表示序列是音子后验概率序列的情况下，可以通过完整的音子识别网络来进行训练。音子识别网络包括唇语识别网络和连接在唇语识别网络后面的输出层，唇语识别网络输出音子后验概率序列，该音子后验概率序列随后输入至输出层，输出层可以包括例如softmax函数层。通过输出层分类，可以获得音子序列。

在训练步骤中，首先获取包含唇形信息的样本图像序列和相对应的标注音子序列。标注音子序列为标注数据(groundtruth)，本领域技术人员可以理解标注数据的含义，本文不做赘述。

随后，与实际图像序列的处理方式类似地，从样本图像序列的每个样本图像中分别提取唇部特征。随后，将样本唇部特征序列输入至音子识别网络。音子识别网络输出样本音子序列。样本音子序列是音子识别网络的预测值，标注音子序列则作为期望值，基于样本音子序列和标注音子序列计算音子识别网络的损失函数。随后，基于损失函数对音子识别网络进行不断优化，直至网络收敛。通过这种方式，可以获得训练好的音子识别网络，进而获得训练好的唇语识别网络。

在实际中间表示序列是音子序列的情况下，可以获取包含唇形信息的样本图像序列和与样本图像序列相对应的标注音子序列，随后，可以不再经由音子识别网络，而是直接将样本唇部特征序列输入至唇语识别网络，获得唇语识别网络输出的样本音子序列。随后将标注音子序列作为样本音子序列的期望值，对唇语识别网络进行训练，直至获得训练好的唇语识别网络。

在唇语识别网络的训练过程中，可以采用来源于多个不同发音人的样本图像序列进行训练，这样可以增加唇语识别网络的鲁棒性。

根据本发明实施例，语音生成方法100还可以包括：获取样本中间表示序列和与样本中间表示序列相对应的标注语音，其中，标注语音是目标发音人的语音；将样本中间表示序列输入目标语音生成网络，以获得目标发音人的样本语音；以及将标注语音作为样本语音的期望值，对目标语音生成网络进行训练，以获得训练好的目标语音生成网络。

语音生成方法100可以包括目标语音生成网络的训练步骤。目标语音生成网络的训练步骤可以在目标语音生成网络的实际应用步骤之前执行，例如至少在将实际中间表示序列输入目标语音生成网络，以获得目标发音人的目标语音(步骤S140)之前执行。在通过唇语识别网络获得样本中间表示序列，并进而基于该样本中间表示序列训练目标语音生成网络的实施例中，目标语音生成网络的训练步骤可以进一步在唇语识别网络训练好之后执行。

可选地，目标语音生成网络在训练时，可以以样本中间表示序列作为输入，获得对应的样本语音。随后，基于样本语音和标注语音(其为标注数据)计算目标语音生成网络的损失函数，并通过损失函数对目标语音生成网络进行优化，直至网络收敛，进而获得训练好的目标语音生成网络。

获得样本中间表示序列可以通过训练好的唇语识别网络，也可以通过其他任何合适的能够生成音子后验概率序列或音子序列的网络来实现。可以理解，样本中间表示序列与实际中间表示序列的表达形式是一致的，即实际中间表示序列是音子后验概率序列的情况下，样本中间表示序列也是音子后验概率序列，实际中间表示序列是音子序列的情况下，样本中间表示序列也是音子序列。

在一个实施例中，获取样本中间表示序列和与样本中间表示序列相对应的标注语音可以包括：获取包含唇形信息的样本图像序列和标注语音，其中，标注语音的内容与样本图像序列中的唇形信息表达的语音内容一致；从样本图像序列的每个样本图像中分别提取唇部特征，以获得样本唇部特征序列；将样本唇部特征序列输入唇部识别网络，以获得样本中间表示序列。

在本实施例中，可以首先训练好唇语识别网络。随后，可以基于包含唇形信息的样本图像序列和唇语识别网络获得样本中间表示序列，该基于包含唇形信息的样本图像序列和唇语识别网络获得样本中间表示序列的步骤可以参考上文关于实际中间表示序列的获得步骤的描述，此处不再赘述。目标语音生成网络的训练步骤采用的样本图像序列与唇语识别网络的训练步骤采用的样本图像序列可以相同，也可以不同。

这种训练方式基于样本图像序列获得样本中间表示序列，更贴近实际中间表示序列的获得方式，因此，训练获得的目标语音生成网络所生成的语音的准确度会比较高。

在一个实施例中，获取样本中间表示序列和与样本中间表示序列相对应的标注语音可以包括：获取标注语音；以及将标注语音输入语音识别网络，以获得样本中间表示序列。

有时候训练数据只有目标发音人的语音，而并没有其相关的包含唇形信息的图像，在这种情况下，同样可以进行训练。例如，可以将标注语音输入语音识别网络，以获得样本中间表示序列。上述语音识别网络可以采用任何合适的能够生成音子后验概率序列或音子序列的、现有的或将来可能出现的语音识别网络实现。通过这种方式，可以采用较少的训练数据(仅基于语音)即可以训练获得所需的目标语音生成网络，训练过程比较简单。

在有些视频当中，只有图像，没有声音，这种情况下，利用基于唇形的语音生成方法可以获得视频中的说话内容。另外，有些视频当中，虽然有声音，但不是用户最终想要的声音(例如包含背景噪声，或者音色不符合用户需求等)。在这种情况下，存在将带有口型动作的视频配上其他发音人声音的需求，以用于数据恢复或者娱乐创造等目的。根据本发明实施例的基于唇形的语音生成技术可以应用于快速识别唇形信息的领域，或者为缺少语音或音色不合适的视频进行配音等领域，其可以用于数据恢复、娱乐效果生成、辅助办案等。

根据本发明另一方面，提供一种基于唇形的语音生成装置。图3示出了根据本发明一个实施例的基于唇形的语音生成装置300的示意性框图。如图3所示，根据本发明实施例的基于唇形的语音生成装置300包括获取模块310、特征提取模块320、第一输入模块330和第二输入模块340。所述各个模块可分别执行上文中结合图1描述的基于唇形的语音生成方法100的各个步骤/功能。以下仅对该基于唇形的语音生成装置300的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

获取模块310用于获取包含唇形信息的实际图像序列。

特征提取模块320用于从所述实际图像序列的每个实际图像中分别提取唇部特征，以获得实际唇部特征序列。

第一输入模块330用于将所述实际唇部特征序列输入唇语识别网络，以获得实际中间表示序列，其中，所述实际中间表示序列是音子后验概率序列或音子序列。

第二输入模块340用于将所述实际中间表示序列输入目标语音生成网络，以获得目标发音人的目标语音，所述目标语音的内容与所述实际图像序列中的唇形信息表达的语音内容一致。

根据本发明另一方面，提供一种基于唇形的语音生成系统。图4示出了根据本发明一个实施例的基于唇形的语音生成系统400的示意性框图。基于唇形的语音生成系统400包括处理器410和存储器420。

所述存储器420存储用于实现根据本发明实施例的基于唇形的语音生成方法100中的相应步骤的计算机程序指令。

所述处理器410用于运行所述存储器420中存储的计算机程序指令，以执行根据本发明实施例的基于唇形的语音生成方法100的相应步骤。

在一个实施例中，所述计算机程序指令被所述处理器410运行时用于执行以下步骤：获取包含唇形信息的实际图像序列；从所述实际图像序列的每个实际图像中分别提取唇部特征，以获得实际唇部特征序列；将所述实际唇部特征序列输入唇语识别网络，以获得实际中间表示序列，其中，所述实际中间表示序列是音子后验概率序列或音子序列；以及将所述实际中间表示序列输入目标语音生成网络，以获得目标发音人的目标语音，所述目标语音的内容与所述实际图像序列中的唇形信息表达的语音内容一致。

根据本发明另一方面，提供一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的基于唇形的语音生成方法100的相应步骤，并且用于实现根据本发明实施例的基于唇形的语音生成装置300中的相应模块。

在一个实施例中，所述程序指令在运行时用于执行以下步骤：获取包含唇形信息的实际图像序列；从所述实际图像序列的每个实际图像中分别提取唇部特征，以获得实际唇部特征序列；将所述实际唇部特征序列输入唇语识别网络，以获得实际中间表示序列，其中，所述实际中间表示序列是音子后验概率序列或音子序列；以及将所述实际中间表示序列输入目标语音生成网络，以获得目标发音人的目标语音，所述目标语音的内容与所述实际图像序列中的唇形信息表达的语音内容一致。

所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于唇形的语音生成系统中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于唇形的语音生成方法，包括：

获取包含唇形信息的实际图像序列；

从所述实际图像序列的每个实际图像中分别提取唇部特征，以获得实际唇部特征序列；

将所述实际唇部特征序列输入唇语识别网络，以获得所述唇语识别网络输出的实际中间表示序列，其中，所述实际中间表示序列是音子后验概率序列；以及

将所述实际中间表示序列输入目标语音生成网络，以获得目标发音人的目标语音，所述目标语音的内容与所述实际图像序列中的唇形信息表达的语音内容一致；

所述语音生成方法还包括：

获取包含唇形信息的样本图像序列和与所述样本图像序列相对应的标注音子序列，其中，所述标注音子序列中的音子与所述样本图像序列中的唇形信息表达的语音内容一致；

从所述样本图像序列的每个样本图像中分别提取唇部特征，以获得样本唇部特征序列；

将所述样本唇部特征序列输入音子识别网络，以获得样本音子序列，所述音子识别网络包括所述唇语识别网络和连接在所述唇语识别网络后面的输出层；以及

将所述标注音子序列作为所述样本音子序列的期望值，对所述音子识别网络进行训练，以获得训练好的所述唇语识别网络；

所述语音生成方法还包括：

获取样本中间表示序列和与所述样本中间表示序列相对应的标注语音，其中，所述标注语音是所述目标发音人的语音；

将所述样本中间表示序列输入所述目标语音生成网络，以获得所述目标发音人的样本语音；以及

将所述标注语音作为所述样本语音的期望值，对所述目标语音生成网络进行训练，以获得训练好的所述目标语音生成网络。

2.根据权利要求1所述的基于唇形的语音生成方法，其中，所述将所述实际中间表示序列输入目标语音生成网络，以获得目标发音人的目标语音包括：

将所述实际中间表示序列与音色配置参数一起输入所述目标语音生成网络，以获得所述目标语音，其中，所述音色配置参数是与所述目标发音人唯一相关的发音人嵌入向量。

3.根据权利要求1所述的基于唇形的语音生成方法，其中，在所述将所述实际中间表示序列输入目标语音生成网络，以获得目标发音人的目标语音之前，所述语音生成方法还包括：

基于音色配置参数从多个预设语音生成网络中选择所述目标语音生成网络，其中，所述音色配置参数是与所述目标语音生成网络唯一相关的标识信息。

4. 根据权利要求2或3所述的基于唇形的语音生成方法，其中，在所述将所述实际中间表示序列输入目标语音生成网络，以获得目标发音人的目标语音之前，所述语音生成方法还包括：

接收用户输入信息；以及

基于所述用户输入信息确定所述音色配置参数。

5.根据权利要求1-3任一项所述的基于唇形的语音生成方法，其中，所述获取样本中间表示序列和与所述样本中间表示序列相对应的标注语音包括：

获取包含唇形信息的样本图像序列和所述标注语音，其中，所述标注语音的内容与所述样本图像序列中的唇形信息表达的语音内容一致；

将所述样本唇部特征序列输入所述唇语识别网络，以获得所述样本中间表示序列。

6. 根据权利要求1-3任一项所述的基于唇形的语音生成方法，其中，所述获取样本中间表示序列和与所述样本中间表示序列相对应的标注语音包括：

获取所述标注语音；以及

将所述标注语音输入语音识别网络，以获得所述样本中间表示序列。

7.一种基于唇形的语音生成装置，包括：

获取模块，用于获取包含唇形信息的实际图像序列；

特征提取模块，用于从所述实际图像序列的每个实际图像中分别提取唇部特征，以获得实际唇部特征序列；

第一输入模块，用于将所述实际唇部特征序列输入唇语识别网络，以获得所述唇语识别网络输出的实际中间表示序列，其中，所述实际中间表示序列是音子后验概率序列；以及

第二输入模块，用于将所述实际中间表示序列输入目标语音生成网络，以获得目标发音人的目标语音，所述目标语音的内容与所述实际图像序列中的唇形信息表达的语音内容一致；

第一样本获取模块，用于获取包含唇形信息的样本图像序列和与所述样本图像序列相对应的标注音子序列，其中，所述标注音子序列中的音子与所述样本图像序列中的唇形信息表达的语音内容一致；

样本特征提取模块，用于从所述样本图像序列的每个样本图像中分别提取唇部特征，以获得样本唇部特征序列；

第三输入模块，用于将所述样本唇部特征序列输入音子识别网络，以获得样本音子序列，所述音子识别网络包括所述唇语识别网络和连接在所述唇语识别网络后面的输出层；以及

第四输入模块，用于将所述标注音子序列作为所述样本音子序列的期望值，对所述音子识别网络进行训练，以获得训练好的所述唇语识别网络；

第二样本获取模块，用于获取样本中间表示序列和与所述样本中间表示序列相对应的标注语音，其中，所述标注语音是所述目标发音人的语音；

第五输入模块，用于将所述样本中间表示序列输入所述目标语音生成网络，以获得所述目标发音人的样本语音；以及

训练模块，用于将所述标注语音作为所述样本语音的期望值，对所述目标语音生成网络进行训练，以获得训练好的所述目标语音生成网络。

8.一种基于唇形的语音生成系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至6任一项所述的基于唇形的语音生成方法。

9.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行如权利要求1至6任一项所述的基于唇形的语音生成方法。