CN114255737A

CN114255737A - 语音生成方法、装置、电子设备

Info

Publication number: CN114255737A
Application number: CN202210183874.XA
Authority: CN
Inventors: 智鹏鹏; 陈昌滨
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-03-29
Anticipated expiration: 2042-02-28
Also published as: CN114255737B

Abstract

本公开提供一种语音生成方法、装置及电子设备，包括：根据目标视频的视频数据，确定视觉特征，并根据目标视频的音频数据，确定语音特征与语音特征的隐变量特征，根据视觉特征、语音特征、隐变量特征，确定目标视频的增益特征，并根据视觉特征、增益特征，确定目标视频的合成语音。本公开可以提高合成语音的生动性、自然性，以达到提升语音合成质量的效果。

Description

语音生成方法、装置、电子设备

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音生成方法、装置、电子设备。

背景技术

随着智能语音产品（例如，智能音箱、智能语音导航、智能语音助手等产品）的快速发展，对于语音合成质量的要求也越来越高。

然而，目前的语音合成技术大都仅根据语音数据本身所生成，导致所生成的合成语音往往存在着表达语气机械化、僵硬化等问题，合成质量较差。

发明内容

有鉴于此，本公开实施例提供一种具有较佳语音合成质量的语音生成方案，可以至少部分地解决上述问题。

根据本公开的一方面，提供一种语音生成方法，包括：根据目标视频的视频数据，确定视觉特征，并根据所述目标视频的音频数据，确定语音特征与所述语音特征的隐变量特征；根据所述视觉特征、所述语音特征、所述隐变量特征，确定所述目标视频的增益特征；根据所述视觉特征、所述增益特征，确定所述目标视频的合成语音。

根据本公开的另一方面，提供一种语音生成装置，包括：特征获取模块，用于根据目标视频的视频数据，确定视觉特征，并根据所述目标视频的音频数据，确定语音特征与所述语音特征的隐变量特征；特征拼接模块，用于根据所述视觉特征、所述语音特征、所述隐变量特征，确定所述目标视频的增益特征；语音生成模块，用于根据所述视觉特征、所述增益特征，确定所述目标视频的合成语音。

根据本公开的另一方面，提供一种电子设备，包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述的语音生成方法。

根据本公开的另一方面，提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行所述的语音生成方法。

本公开的一个或多个实施例所提供的语音生成方法、装置、电子设备及存储介质，通过融合目标视频的视觉特征、语音特征和语音特征的隐变量特征，可使得合成语音更为生动、自然，以提高语音合成质量。

附图说明

在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

图1为本公开示例性实施例的语音生成方法的流程示意图。

图2为本公开另一示例性实施例的语音生成方法的流程示意图。

图3为本公开示例性实施例的增益特征生成模型结构图。

图4为本公开另一示例性实施例的语音生成方法的流程示意图。

图5为本公开另一示例性实施例的语音生成方法的流程示意图。

图6为本公开示例性实施例的语音生成装置的结构框图。

图7为本公开示例性实施例的电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

随着智能语音产品的快速发展，对于语音合成质量的要求也越来越高。然而，当前的语音合成技术，并没有很好的利用到说话人的视觉线索，导致所合成的语音存在着说话语气僵硬、不够自然流畅等问题。

有鉴于此，本公开提出一种语音生成技术方案，可以改善上述现有技术中的种种技术问题。

以下将结合各附图详细描述本公开的各具体实施例。

图1为本公开示例性实施例的语音生成方法的处理流程图。如图所示，本实施例主要包括以下步骤：

步骤S102，根据目标视频的视频数据，确定视觉特征，并根据目标视频的音频数据，确定语音特征与语音特征的隐变量特征。

可选地，目标视频可为任意具有影像和声音的多媒体数据。

可选地，可识别目标视频的音频数据，获得每一个音频帧的语音特征和隐变量特征。

可选地，可识别视频数据中的目标对象，确定目标对象在每一个视频帧的表情特征。

可选地，可视频数据中的目标对象，提取每一个视频帧中目标对象的关键点定位信息。

于本实施例中，表情特征的关键点可至少包括：左眼关键点、右眼关键点、鼻子关键点，左嘴角关键点、右嘴角关键点。

也就是说，可根据这五个面部关键点的定位信息，来确定目标对象的表情特征。

于本实施例中，目标对象的关键点定位信息包括各个表情特征的关键点相对于目标对象的面部区域图像的二维坐标信息。

需说明的是，用于确定目标对象的表情特征的关键点并不限于上述五个，可根据实际需求进行任意调整。例如，目标对象的眉部关键点、上眼睑关键点、下眼睑关键点、上嘴唇关键点、下嘴唇关键点等，本公开对此不作限制。

可选地，可利用DCNN（Deep Convolutional Network Cascade for Facial PointDetection）神经网络，获得每一个视频帧中目标对象的关键点定位信息。

步骤S104，根据视觉特征、语音特征、隐变量特征，确定目标视频的增益特征。

于本实施例中，增益特征可包括增益频谱。

具体地，可根据每一个视频帧的表情特征与每一个音频帧的语音特征、隐变量特征，针对具有相同时间帧的表情特征、语音特征、隐变量特征执行拼接预测，获得各时间帧对应的各预测特征，并根据各时间帧对应的各预测特征，获得目标视频的增益频谱，其中，增益频谱中融合有目标视频的视觉特征与语音特征。

可选地，可依次将一个时间帧确定为当前时间帧，并根据上一时间帧的预测特征与当前时间帧的表情特征、语音特征、隐变量特征执行拼接预测，获得当前时间帧的预测特征，通过重复执行获得当前时间帧的预测特征的步骤，可以获得每一个时间帧的预测特征，并根据每一个时间帧的先后顺序，拼接每一个预测特征，可以获得目标视频的增益特征（例如，增益频谱）。

于本实施例中，每一个时间帧的预测特征可包括但不限于梅尔特征。

可选地，还可针对每一个时间帧的预测特征（例如梅尔特征）执行优化处理，以获得每一个时间帧的优化特征，再根据每一个时间帧的先后顺序拼接每一个优化特征，以获得优化的增益特征（例如增益频谱）。

步骤S106，根据视觉特征、增益特征，确定目标视频的合成语音。

可选地，可根据视觉特征，分离出增益特征中的增益语音特征，并转换增益语音特征，获得目标视频的合成语音。

综上所述，本实施例通过在语音合成技术中引入视觉特征，使得所生成的合成语音能够得到语音韵律情感的增益，而具有更佳地生动性和表达流畅性，从而有效提高语音合成质量。

此外，本实施例还引入了注意力机制，通过结合利用语音特征中的隐变量信息，以执行特征预测，此技术手段不仅可提升语音特征中的重要特征，以进一步提高增益特征预测结果的准确性，同时还可抑制语音特征中的不重要特征，以起到数据降维的功能，减少模型的计算量，从而提升语音合成的处理效率。

图2为本公开另一示例性实施例的语音生成方法的流程示意图。本实施例为上述步骤S102中语音特征和隐变量特征的具体获取方案。如图所示，本实施例主要包括以下步骤：

步骤S202，根据音频数据，获得包含多个音素的音素序列。

可选地，可针对音频数据执行文本转换处理，获得音频数据的文本序列，并针对文本序列中的每一个字符执行字音转换处理，获得每一个字符对应的至少一个音素，再根据文本序列中每一个字符的位置顺序，按序排列每一个字符对应的至少一个音素，确定包含多个音素的音素序列。

例如，可利用任何已知的音频转文字软件，针对目标视频的音频数据执行文本转换处理，生成对应的文本序列。

可选地，可针对文本序列执行文本正则（Text Normalization）处理，并识别文本正则处理后的文本序列，以确定文本序列中的每一个字符，从而提高字符识别的准确性。

可选地，可针对识别出的每一个字符执行字音转换处理（Grapheme-to-Phoneme），以获得每一个字符对应的至少一个音素。

例如，可拆分文本序列中的各个中文字符，且根据每一个中文字符的音节组成，获得构成每一个中文字符的一个音素或多个音素。

可选地，可按照声母部分、韵母部分、声调部分拆分中文字符，据以获得构成该中文字符的至少一个音素。

可选地，也按照声母部分和韵母部分进行拆分中文字符，并将中文字符的声调部分与韵母部分进行合并，据以获得构成该中文字符的至少一个音素。

于本实施例中，若文本序列中包含有中文字符，还可执行多音字分类（PolyphoneClassification）、韵律预测（Prosody Prediction）等处理，以提高字音转换处理的准确性。

可选地，可根据文本序列中每一个字符的位置顺序，按序排列每一个字符对应的至少一个音素，获得由多个音素所构成的音素序列。

于本实施例中，音素序列可为一维不定长序列。

步骤S204，针对音素序列执行编码处理，获得隐变量特征序列。

可选地，可利用编码器针对音素序列中的每一个音素执行编码处理，获得每一个音素的隐变量特征，并根据音素序列中每一个音素的位置顺序，按序排列每一个音素的隐变量特征，以获得音素序列对应的隐变量特征序列。

请参考图3，于本实施例中，编码器可包括嵌入层、卷积层、双向长短时记忆层。

具体地，编码器可包括依序排列的一层嵌入层（Embedding layer）、三层一维卷积层（Convolutional Layer）和一层双向长短时记忆层（Bi-directional LSTM layer）。

步骤S206，根据音素序列中的每一个音素的预设音素时长，确定音频帧数。

于本实施例中，可根据各音素的发音规则，生成各音素对应的各预设音素时长（例如各音素对应的各音频帧数），并通过将音素序列中的每一个音素转换为对应的预设音素时长，并累加各预设音素时长，从而确定音素序列对应的音频帧数。

步骤S208，根据音频帧数划分音素序列、隐变量特征序列，生成每一个音频帧的语音特征和隐变量特征。

可选地，可根据所确定的音频帧数，针对音素序列和隐变量特征序列分别执行分帧处理，以获取每一个音频帧对应的语音特征和隐变量特征。

综上所述，本实施例通过提取语音特征中的隐变量特征，可提升语音特征中的重要特征，有助于提高后续增益特征的预测质量，从而进一步提高语音合成的质量。

图4示出了本公开另一示例性实施例的语音生成方法的流程示意图。本实施例为上述步骤S104的具体实施方案。如图所示，本实施例主要包括以下步骤：

步骤S402，依次生成一个时间帧，以作为当前帧，并获取当前帧的表情特征、语音特征、隐变量特征。

可选地，可根据音频帧数，校准视频数据的视频帧数，以使视频数据的每一个视频帧与音频数据的每一个音频帧相互对齐。

具体地，可在执行步骤S402之前，针对音频数据的音频帧数和视频数据的视频帧数执行校准，以使二者相互对齐（例如，将音频数据的音频帧数与视频数据的视频帧数校准为相同帧数）。

由于本实施例的方法是生成合成语音，故可基于音频数据的音频帧数针对视频数据的视频帧数进行校准，以使视频帧数与音频帧数相同。但并不以此为限，亦可视频数据的视频帧数针对音频数据的音频帧数进行校准，以使二者相同。

可选地，可按序依次生成一个时间帧，例如第1帧、第2帧、第3帧，并依次类推，并将当前生成的时间帧确定为当前帧。

于本实施例中，可根据当前帧，每一个视频帧的表情特征、每一个音频帧的语音特征和隐变量特征，获取当前帧的表情特征、语音特征、隐变量特征。

例如，若当前帧为第t帧，则获取第t帧视频帧对应的表情特征以及第t帧音频帧对应的语音特征和隐变量特征。

步骤S404，根据上一时间帧的梅尔特征、当前帧的表情特征和隐变量特征，执行第一拼接预测，获得第一预测结果。

示例性地，如图3所示，可经由解码器中的预处理网络向长短时记忆层（以下简称LSTM层）输出第t-1帧（上一时间帧）的梅尔特征与第t帧（当前帧）的表情特征（例如，包含5个预设关键点的关键点定位信息），并经由注意力模型向LSTM层输出第t帧（当前帧）的隐变量特征，以供LSTM层根据第t-1帧的梅尔特征，第t帧的表情特征和隐变量特征，执行第t帧的第一拼接预测，获得第t帧的第一预测结果。

于本实施例中，解码器中的预处理网络可包括双层的线性层（Linear Lay），其中，第一层线性层用于将80维度的特征数据（例如梅尔特征）映射为256维度的特征数据，第二层线性层用于再次将256维度的特征数据映射为256维度的特征数据。

可选地，可在预处理网络的前端引入当前帧的表情特征，以供预处理网络同时将上一时间帧的梅尔特征与当前帧的表情特征映射为256维度，并输出至LSTM层。

可选地，也可在预处理网络的后端引入当前帧的表情特证，以供预处理网络单独将上一时间帧的梅尔特征映射为256维度，并将映射完成的上一时间帧的梅尔特征与未执行映射处理的当前帧的表情特征输出至LSTM层。

于本实施例中，解码器可包括两层LSTM层。

于本实施例中，注意力模型可例如为位置敏感注意力（position sensitiveattention）结构，其可包含由128个门控循环单元（GRU）所构成的循环神经网络（RNN），利用此注意力模型，可在提升语音特征中的重要特征（即隐变量特征）的同时，还抑制了语音特征中的不重要特征，因此，不仅可有助于提高增益特征预测结果的准确性，并可起到数据降维的功能，以减少模型的计算量，从而提高数据处理效率。

步骤S406，根据当前帧的第一预测结果和隐变量特征，执行第二拼接预测，获得当前帧的第二预测结果。

示例性地，参考图3，可供LSTM层根据其自身输出的第t帧（当前帧）的第一预测结果与注意力模型输出的第t帧（当前帧）的隐变量特征进行第二拼接预测，获得第t帧的第二预测结果。

步骤S408，根据当前帧的第二预测结果和语音特征，执行第三拼接预测，获得当前帧的梅尔特征。

示例性地，参考图3，可供第一线性投影层（Linear Projection层），根据第t帧（当前帧）的第二预测结果和第t帧的语音特征执行第三拼接预测，获得第t帧的梅尔特征。

于本实施例中，第一线性投影层所生成的当前帧（例如第t帧）的梅尔特征可输出至预处理网络中，以供执行下一时间帧（例如第t+1帧）的梅尔特征预测使用。

步骤S410，根据当前帧的梅尔特征执行残差预测，获得当前帧的优化特征。

具体地，可根据当前帧的梅尔特征执行残差预测，获得当前帧的残差预测结果，并基于残差预测结果，优化当前帧的梅尔特征，获得当前帧的优化特征。

示例性地，参考图3，可将第一线性投影层所生成的当前帧（例如第t帧）的梅尔特征输出至后处理网络中执行残差预测。

于本实施例中，后处理网络可包括依次连接的5层卷积层，其中，每一层卷积层的卷积核大小均为5，前4层卷积层的输出通道可设置为512个，最后1层卷积层的输出通道可设置为80个。

需说明的是，本步骤为可选步骤，亦即，可省略本步骤而由步骤S408直接执行步骤S412。

步骤S412，判断是否满足停止预测条件，若否，则返回步骤S402，若是，则进行不足S414。

可选地，可判断是否生成停止标签，若未生成，返回执行步骤S402，若生成了停止标签，则进行步骤S414。

可选地，可根据当前帧的第二预测结果和语音特征，执行停止预测，以生成停止标签。

示例性地，参考图3，可利用第二线性投影层（Linear Projection层），根据第t帧（当前帧）的第二预测结果和第t帧的语音特征执行停止预测，据以生成停止标签（stoptoken）。

步骤S414，根据各时间帧对应的各优化特征，获得目标视频的增益频谱。

可选地，可根据各时间帧的先后顺序，按序拼接各时间帧对应的各优化特征，据以获得目标视频的增益频谱。

可选地，当步骤S410被省略执行时，则可根据各时间帧的先后顺序，按序拼接各时间帧对应的各梅尔特征，以获得目标视频的增益频谱。

于本实施例中，目标视频的增益频谱例如为梅尔频谱（mel spectrogram）。

此外，本实施例的方法流程还包括初始化处理步骤，其可在获取第1帧的梅尔特征的步骤之前执行。

具体地，本实施例的初始化处理步骤可包括：提供解码器根据表情特征、语音特征、隐变量特征中每一个的初始值执行拼接预测，获得第0帧的梅尔特征（初始值），并将第0帧的梅尔特征输出至预处理网络，以供作为下一帧（第1帧）的梅尔特征预测使用。

于本实施例中，表情特征、语音特征、隐变量特征各自的初始值均可设置为0。

综上所述，本实施例通过逐帧拼接表情特征、语音特征、隐变量特征，可生成融合有视觉特征和声音特征的增益频谱，以有助于提高后续合成语音的质量。

图5示出了本公开另一示例性实施例的语音生成方法的流程示意图。本实施例为上述步骤S106的具体实施方案。如图所示，本实施例主要包括以下步骤：

步骤S502，分离增益特征中的视觉特征，获得目标视频的增益语音特征。

可选地，可根据每一个视频帧的表情特征（例如，包含5个预设关键点的关键点定位信息），针对增益频谱执行数据分离处理，以分离出增益频谱中的增益语音频谱。

步骤S504，转换增益语音特征，以获得合成语音。

可选地，可利用Griffin-Lim声码器或者神经网络声码器，将增益语音频谱转换为音频数据。

综上所述，本实施例通过分离增益特征中的视觉特征，可以获得添加有情绪信息的合成语音，从而提高合成语音的生动性和表达流畅性，以提升使用者的听觉感受。

借此，利用本公开各实施例所述的语音生成方法，通过将视频中的视觉特征（例如情绪信息）引入语音合成技术中，可以获得质量更高，更为生动的合成语音。

再者，本公开的语音生成方法，不仅可适用于各类智能语音产品中，例如智能音箱、智能语音助手、智能语音导航等产品，也可适用于在线授课、电影配音等场景，具有广泛的应用领域。

图6示出了本公开示例性实施例的语音生成装置的架构示意图。如图所示，本实施例的语音生成装置600主要包括：

特征获取模块602，用于根据目标视频的视频数据，确定视觉特征，并根据目标视频的音频数据，确定语音特征与语音特征的隐变量特征。

特征拼接模块604，用于根据视觉特征、语音特征、隐变量特征，确定目标视频的增益特征。

语音生成模块606，用于根据视觉特征、增益特征，确定目标视频的合成语音。

可选地，特征获取模块602还用于：识别音频数据，获得每一个音频帧的语音特征和隐变量特征；识别视频数据中的目标对象，确定目标对象在每一个视频帧中的表情特征。

可选地，特征获取模块602还用于：根据音频数据，获得包含多个音素的音素序列；针对音素序列执行编码处理，获得隐变量特征序列；根据音素序列中每一个音素的音素时长，确定音频帧数；根据音频帧数划分音素序列、隐变量特征序列，生成每一个音频帧的语音特征和隐变量特征。

可选地，特征获取模块602还用于：根据目标视频的音频数据执行文本转换处理，获得音频数据的文本序列；针对文本序列中的每一个字符执行字音转换处理，获得每一个字符对应的至少一个音素；根据文本序列中每一个字符的位置顺序，按序排列每一个字符对应的至少一个音素，确定包含多个音素的音素序列。

可选地，特征获取模块602还用于：利用编码器针对音素序列执行编码处理，获得音素序列的隐变量特征序列；其中，编码器包括嵌入层、卷积层、双向长短时记忆层。

可选地，特征获取模块602还用于：根据音频帧数，校准视频数据的视频帧数，以使视频数据的每一个视频帧与音频数据的每一个音频帧相互对齐。

可选地，特征获取模块602还用于：识别视频数据中的目标对象，提取每一个视频帧中目标对象的关键点定位信息；其中，表情特征的关键点至少包括：左眼关键点、右眼关键点、鼻部关键点，左嘴角关键点、右嘴角关键点。

可选地，特征拼接模块604还用于：针对具有相同时间帧的表情特征、语音特征、隐变量特征执行拼接预测，获得各时间帧对应的各预测特征；根据各时间帧对应的各预测特征，获得目标视频的增益频谱。

示例性地，预测特征包括梅尔特征。

可选地，特征拼接模块604还用于：重复执行获取当前帧的梅尔特征的步骤，以获得各时间帧对应的各梅尔特征；其中，获取当前帧的梅尔特征的步骤，包括：依次生成一个时间帧，以作为当前帧，并根据每一个视频帧的表情特征、每一个音频帧的语音特征和隐变量特征，获取当前帧的表情特征、语音特征、隐变量特征；根据上一时间帧的梅尔特征、当前帧的表情特征和隐变量特征，执行第一拼接预测，获得第一预测结果；根据当前帧的第一预测结果、当前帧的隐变量特征，执行第二拼接预测，获得当前帧的第二预测结果；根据当前帧的第二预测结果、当前帧的语音特征，执行第三拼接预测，获得当前帧的梅尔特征。

可选地，特征拼接模块604还用于：根据当前帧的梅尔特征执行残差预测，获得当前帧的残差预测结果；根据残差预测结果，优化当前帧的梅尔特征，获得当前帧的优化特征。

可选地，特征拼接模块604还用于：根据当前帧的第二预测结果、当前帧的语音特征，执行停止预测，生成停止标签；响应停止标签的生成结果，停止执行获取当前帧的梅尔特征的步骤。

可选地，语音生成模块606还用于：分离增益特征中的视觉特征，获得目标视频的增益语音特征；转换增益语音特征，以获得合成语音。

此外，本公开实施例的语音生成装置600还可用于实现前述各语音生成方法实施例中的其他步骤，并具有相应的方法步骤实施例的有益效果，在此不再赘述。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开各实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开各实施例的方法。

参考图7，现将描述可以作为本公开的服务器或客户端的电子设备700的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，电子设备700包括计算单元701，其可以根据存储在只读存储器（ROM）702中的计算机程序或者从存储单元708加载到随机访问存储器（RAM）703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出（I/O）接口705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706、输出单元707、存储单元708以及通信单元709。输入单元706可以是能向电子设备700输入信息的任何类型的设备，输入单元706可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元707可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元704可以包括但不限于磁盘、光盘。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理。例如，在一些实施例中，前述各实施例的语音生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。在一些实施例中，计算单元701可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行语音生成方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种语音生成方法，包括：

根据目标视频的视频数据，确定视觉特征，并根据所述目标视频的音频数据，确定语音特征与所述语音特征的隐变量特征；

根据所述视觉特征、所述语音特征、所述隐变量特征，确定所述目标视频的增益特征；

根据所述视觉特征、所述增益特征，确定所述目标视频的合成语音。

2.如权利要求1所述的语音生成方法，其中，所述根据目标视频的视频数据，确定视觉特征，并根据所述目标视频的音频数据，确定语音特征与所述语音特征的隐变量特征，包括：

识别所述音频数据，获得每一个音频帧的语音特征和隐变量特征；

识别所述视频数据中的目标对象，确定所述目标对象在每一个视频帧中的表情特征。

3.如权利要求2所述的语音生成方法，其中，所述根据所述音频数据，确定每一个音频帧的语音特征和隐变量特征，包括：

根据所述音频数据，获得包含多个音素的音素序列；

针对所述音素序列执行编码处理，获得隐变量特征序列；

根据所述音素序列中每一个音素的音素时长，确定音频帧数；

根据所述音频帧数划分所述音素序列、所述隐变量特征序列，生成每一个音频帧的语音特征和隐变量特征。

4.根据权利要求3所述的语音生成方法，其中，所述根据所述音频数据，获得包含多个音素数据的音素序列，包括：

根据所述音频数据执行文本转换处理，获得所述音频数据的文本序列；

针对所述文本序列中的每一个字符执行字音转换处理，获得每一个字符对应的至少一个音素；

根据所述文本序列中每一个字符的位置顺序，按序排列每一个字符对应的至少一个音素，确定包含多个音素的音素序列。

5.根据权利要求3或4所述的语音生成方法，其中，所述方法还包括：

利用编码器针对所述音素序列执行编码处理，获得所述音素序列的隐变量特征序列；

其中，所述编码器包括嵌入层、卷积层、双向长短时记忆层。

6.根据权利要求3所述的语音生成方法，其中，所述方法还包括：

根据所述音频帧数，校准所述视频数据的视频帧数，以使所述视频数据的每一个视频帧与所述音频数据的每一个音频帧相互对齐。

7.根据权利要求6所述的语音生成方法，其中，所述识别所述视频数据中的目标对象，确定所述目标对象在每一个视频帧中的表情特征，包括：

识别所述视频数据中的目标对象，提取每一个视频帧中目标对象的关键点定位信息；

其中，所述表情特征的关键点至少包括：左眼关键点、右眼关键点、鼻部关键点，左嘴角关键点、右嘴角关键点。

8.根据权利要求1至4、6、7中任一项所述的语音生成方法，其中，所述根据所述视觉特征、所述语音特征、所述隐变量特征，获取所述目标视频的增益特征，包括：

针对具有相同时间帧的表情特征、语音特征、隐变量特征执行拼接预测，获得各时间帧对应的各预测特征；

根据各时间帧对应的各预测特征，获得所述目标视频的增益频谱。

9.根据权利要求8所述的语音生成方法，其中，所述预测特征包括梅尔特征，且所述针对具有相同时间帧的表情特征、语音特征、隐变量特征执行拼接预测，获得各时间帧对应的各预测特征，包括：

重复执行获取当前帧的梅尔特征的步骤，以获得各时间帧对应的各梅尔特征；

其中，所述获取当前帧的梅尔特征的步骤，包括：

依次获取一个时间帧，以作为所述当前帧，并根据每一个视频帧的表情特征、每一个音频帧的语音特征和隐变量特征，获取所述当前帧的表情特征、语音特征、隐变量特征；

根据上一时间帧的梅尔特征、所述当前帧的表情特征和隐变量特征，执行第一拼接预测，获得第一预测结果；

根据所述当前帧的第一预测结果、所述当前帧的隐变量特征，执行第二拼接预测，获得所述当前帧的第二预测结果；

根据所述当前帧的第二预测结果、所述当前帧的语音特征，执行第三拼接预测，获得所述当前帧的梅尔特征。

10.如权利要求9所述的语音生成方法，其中，所述方法还包括：

根据所述当前帧的梅尔特征执行残差预测，获得所述当前帧的残差预测结果；

根据所述残差预测结果，优化所述当前帧的梅尔特征，获得所述当前帧的优化特征。

11.根据权利要求9所述的语音生成方法，其中，所述方法还包括：

根据所述当前帧的第二预测结果、所述当前帧的所述语音特征，执行停止预测，生成停止标签；

响应所述停止标签的生成结果，停止执行所述获取当前帧的梅尔特征的步骤。

12.根据权利要求1中任一项所述的语音生成方法，其中，所述根据所述视觉特征、所述增益特征，获取所述目标视频的合成语音，包括：

分离所述增益特征中的所述视觉特征，获得所述目标视频的增益语音特征；

转换所述增益语音特征，以获得所述合成语音。

13.一种语音生成装置，包括：

特征获取模块，用于根据目标视频的视频数据，确定视觉特征，并根据所述目标视频的音频数据，确定语音特征与所述语音特征的隐变量特征；

特征拼接模块，用于根据所述视觉特征、所述语音特征、所述隐变量特征，确定所述目标视频的增益特征；

语音生成模块，用于根据所述视觉特征、所述增益特征，确定所述目标视频的合成语音。

14.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-12中任一项所述的方法。