CN114267324A

CN114267324A - 语音生成方法、装置、设备和存储介质

Info

Publication number: CN114267324A
Application number: CN202111638832.2A
Authority: CN
Inventors: 崔洋洋; 余俊澎; 王星宇
Original assignee: Youmi Technology Shenzhen Co ltd
Current assignee: Youmi Technology Shenzhen Co ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-01

Abstract

本申请涉及一种语音生成方法、装置、设备和存储介质。该方法包括：基于第一用户的图像识别第一用户的状态，得到第一用户的状态特征；图像中包括用于呈现第一用户的图像内容；基于状态特征识别第一用户的情绪类型，并确定与该情绪类型匹配的应对情绪类型；获取与应对情绪类型对应的第二用户的应对声音特征及应对情绪特征；获取与状态特征匹配的应对文本内容，并提取应对文本内容的内容特征；融合内容特征、应对情绪特征及应对声音特征，得到融合特征；基于融合特征进行语音合成，生成第二用户在应对情绪类型下的、且用于表达应对文本内容的应对语音。本方案能够减少计算机资源的浪费。

Description

语音生成方法、装置、设备和存储介质

技术领域

本申请涉及计算机技术领域、更涉及语音处理技术领域，特别是涉及一种语音生成方法、装置、设备和存储介质。

背景技术

随着科学技术的飞速发展，各种先进技术应运而生，语音处理技术则是其中一项重要的先进技术。使用语音处理技术来赋予机器语音输出功能，是目前非常热门的使用场景。比如，家庭陪护机器人可以说话，从而与用户进行交流。

然后，传统方法中，机器在自动输出语音时，主要是按照预设声音来进行语音输出，不够灵活，具有一定的局限性，导致输出的语音不够准确，往往会没有效果。因而，生成不准确的、无效的语音在一定程度上属于对计算机资源的浪费，而且，由于生成的语音不够准确，通常就会需要进行多次语音输出，也会对计算机资源造成浪费。

发明内容

基于此，有必要针对上述技术问题，提供一种能够减少计算机资源浪费的语音生成方法、装置、计算机设备和存储介质。

一种语音生成方法，所述方法包括：

基于第一用户的图像识别所述第一用户的状态，得到所述第一用户的状态特征；所述图像中包括用于呈现所述第一用户的图像内容；

基于所述状态特征识别所述第一用户的情绪类型，并确定与所述情绪类型匹配的应对情绪类型；

获取与所述应对情绪类型对应的第二用户的应对声音特征；

获取与所述应对情绪类型对应的应对情绪特征；

获取与所述状态特征匹配的应对文本内容，并提取所述应对文本内容的内容特征；

融合所述内容特征、所述应对情绪特征及应对声音特征，得到融合特征；

基于所述融合特征进行语音合成，生成所述第二用户在所述应对情绪类型下的、且用于表达所述应对文本内容的应对语音。

一种语音生成装置，所述装置包括：

状态识别模块，用于基于第一用户的图像识别所述第一用户的状态，得到所述第一用户的状态特征；所述图像中包括用于呈现所述第一用户的图像内容；

应对情绪确定模块，用于基于所述状态特征识别所述第一用户的情绪类型，并确定与所述情绪类型匹配的应对情绪类型；

特征获取模块，用于获取与所述应对情绪类型对应的第二用户的应对声音特征；获取与所述应对情绪类型对应的应对情绪特征；获取与所述状态特征匹配的应对文本内容，并提取所述应对文本内容的内容特征；

特征融合模块，用于融合所述内容特征、所述应对情绪特征及应对声音特征，得到融合特征；

语音合成模块，用于基于所述融合特征进行语音合成，生成所述第二用户在所述应对情绪类型下的、且用于表达所述应对文本内容的应对语音。

在其中一个实施例中，所述应对情绪类型是从所述情绪库中确定的；所述情绪库中预先存储了情绪类型之间的应对关系；应对情绪确定模块还用于根据所述应对关系，从所述情绪库中查找用于应对所述第一用户的情绪类型的第二用户的情绪类型，得到应对情绪类型。

在其中一个实施例中，所述状态特征包括所述第一用户的表情特征；应对情绪确定模块还用于确定用于应对所述第一用户的情绪类型的多个候选情绪类型；获取在每个所述候选情绪类型下所述第二用户的表情特征；将所述第一用户的表情特征分别与每个候选情绪类型下所述第二用户的表情特征进行匹配；将匹配的第二用户的表情特征所属的候选情绪类型确定为应对情绪类型。

在其中一个实施例中，所述候选情绪类型是从情绪库中预先存储的第二用户的情绪类型中确定的；所述情绪库中还针对第二用户的每种情绪类型存储了对应的第二用户的表情特征和声音特征；特征获取模块还用于从所述情绪库中，获取针对每个候选情绪类型存储的对应的第二用户的表情特征；从所述情绪库中，获取针对所述应对情绪类型存储的对应的第二用户的声音特征，得到应对声音特征。

在其中一个实施例中，所述装置还包括：

特征提取模块，用于获取不同情绪类型下的第二用户的样本语音；基于每种情绪类型下第二用户的样本语音迭代训练语音特征提取模型，使得所述语音特征提取模型从所述样本语音中迭代地学习所述第二用户在每种情绪类型下的声音特性信息，以基于所述声音特性信息迭代更新在相应情绪类型下所述第二用户的声音特征编码信息；获取训练结束后每种情绪类型下所述第二用户的声音特征编码信息，得到所述第二用户在每种情绪类型下的声音特征。

在其中一个实施例中，所述状态特征包括所述第一用户的表情特征和声音特征；状态识别模块还用于获取采集的第一用户的图像；获取在采集所述图像时所述第一用户的声音数据；从所述图像中识别第一用户的表情状态，得到所述第一用户的表情特征；从所述声音数据中识别所述第一用户的声音状态，得到所述第一用户的声音特征。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请各实施例中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请各实施例中的步骤。

一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本申请各实施例中的步骤。

上述语音生成方法、装置、计算机设备、存储介质和计算机程序产品，基于第一用户的图像识别第一用户的状态，并基于识别到的状态特征识别第一用户的情绪类型。进而，确定与情绪类型匹配的应对情绪类型，并获取与应对情绪类型对应的第二用户的应对声音特征和应对情绪特征，以及根据第一用户的状态特征确定匹配的应对文本内容。融合文本内容的内容特征、应对情绪特征及应对声音特征，并基于融合后的融合特征进行语音合成，从而能够生成以第二用户在应对情绪类型下的声音表达应对文本内容的应对语音，相较于传统的以固定的预设声音来说预设的内容而言，能够自适应地生成用于更为准确地应对第一用户当前状态的应对语音，大大提高了灵活性，避免了局限，一定程度上减少了计算机资源的浪费。

附图说明

图1为一个实施例中语音生成方法的应用环境图；

图2为一个实施例中语音生成方法的流程示意图；

图3为一个实施例中语音生成方法的简示图；

图4为一个实施例中语音生成方法的原理示意图；

图5为另一个实施例中语音生成方法的流程示意图；

图6为一个实施例中语音生成装置的结构框图；

图7为另一个实施例中语音生成装置的结构框图；

图8为一个实施例中计算机设备的内部结构图；

图9为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的语音生成方法，可以应用于如图1所示的应用环境中。该应用场景中计算机设备102和数据库104通过网络进行通信。数据库104中预先存储了第二用户在各种情绪类型下的声音特征。计算机设备102会获取第一用户的图像，并基于第一用户的图像识别所述第一用户的状态，得到所述第一用户的状态特征。计算机设备102可以基于所述状态特征识别所述第一用户的情绪类型，并确定与所述情绪类型匹配的应对情绪类型。计算机设备102可以从数据库104中获取与所述应对情绪类型对应的第二用户的应对声音特征。计算机设备102可以获取与所述应对情绪类型对应的应对情绪特征；获取与所述状态特征匹配的应对文本内容，并提取所述应对文本内容的内容特征；融合所述内容特征、所述应对情绪特征及应对声音特征，得到融合特征。计算机设备102可以基于所述融合特征进行语音合成，生成所述第二用户在所述应对情绪类型下的、且用于表达所述应对文本内容的应对语音。

可以理解，计算机设备102可以是终端也可以是服务器，对此不做限定。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端可以是智能机器人。本申请对智能机器人的具体形态不做限定，可以是拟人形态的机器人，也可以是一个非拟人形态的终端设备，比如，各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等中的至少一种，只要能输出语音与用户进行交流即可。

在一个实施例中，如图2所示，提供了一种语音生成方法，本实施例以该方法应用于图1中的计算机设备进行举例说明，该计算机设备可以是终端或服务器。可以理解的是，该方法还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤202，基于第一用户的图像识别第一用户的状态，得到第一用户的状态特征。

可以理解，第一用户的图像中包括用于呈现第一用户的图像内容。即，第一用户的图像中显示有第一用户的影像，从而才能从中识别第一用户的状态。

第一用户的状态，是指第一用户在图像中呈现的状态，也即在采集第一图像时第一用户所处的状态。可以理解，从图像中识别的第一用户的状态可以包括表情状态和肢体状态等任何能够表达情绪的可视化状态。第一用户的状态特征，是用于表征第一用户的状态的特征。

具体地，计算机设备可以对第一用户的图像进行特征提取处理，并基于提取的图像特征识别第一用户的状态，得到第一用户的状态特征。

需要说明的是，第一用户的状态特征，可以是仅基于从图像中识别的第一用户的状态确定的。在其他实施例中，第一用户的状态特征，除了是基于图像中识别的第一用户的状态确定以外，还可以结合其他能够表达第一用户的情绪的数据来确定。比如，第一用户的声音也能表达其情绪，因此，还可以结合在第一用户的图像时第一用户的声音数据来确定第一用户的状态特征。因此，第一用户的状态特征可以包括第一用户的图像中的可视化状态特征和声音特征中的至少一种。对此不做限定。可以理解，可视化状态特征包括第一用户在图像中的表情特征和肢体特征等中的至少一种。

步骤204，基于状态特征识别第一用户的情绪类型，并确定与情绪类型匹配的应对情绪类型。

其中，第一用户的情绪类型，用于表征在采集第一用户的图像时，第一用户所处的情绪。应对情绪类型，是用于应对第一用户的情绪类型的情绪类型。比如，第一用户是孩子，孩子的情绪类型是“哭闹”，那么，应对情绪类型则可能是“平和”的情绪类型，以应对孩子哭闹的情绪。

具体地，计算机设备可以基于得到的第一用户的状态特征进行情绪识别处理，以识别第一用户的情绪类型。

在一个实施例中，计算机设备可以根据预先建立的情绪类型之间的应对关系，确定与该第一用户的情绪类型匹配的应对情绪类型。

在另一个实施例中，计算机设备也可以将识别出的第一用户的情绪类型输入至预先训练的情绪应对模型中，输出与第一用户的情绪类型匹配的应对情绪类型。可以理解，情绪应对模型，可以是预先基于样本情绪对进行迭代训练得到的、且能够预测应对情绪类型的机器学习模型。样本情绪对，是两个样本情绪类型，这两个样本情绪类型之间具有应对关系。

步骤206，获取与应对情绪类型对应的第二用户的应对声音特征；获取与应对情绪类型对应的应对情绪特征。

其中，第二用户是对第一用户的情绪进行应对的用户。第二用户可以是与第一用户具有亲密关系的用户，比如，对第一用户的亲人或朋友。可以理解，与第一用户具有亲密关系的用户往往对第一用户的情绪能够起到有效应对。第二用户也可以是对第一用户的情绪具有有效应对作用的其他身份的用户。比如，第二用户可以是第一用户的心理咨询师或其他身份的人员，对此不做限定。

在一个实施例中，用于应对第一用户的情绪的预设应对用户可以有多个，计算机设备可以基于第一用户的情绪类型，从多个预设应对用户中选择其中至少一个作为第二用户。即，第二用户也可以为一个或多个。比如，第一用户为孩子，其相应的预设应对用户可以有爸爸妈妈、爷爷奶奶以及兄弟姐妹等多人，在孩子哭泣的情况下，可以从中选择妈妈作为第二用户，以生成妈妈的话语来安抚孩子。

应对声音特征，是指在应对情绪类型下第二用户的声音特征。需要说明的是，本申请各实施例中的第二用户的声音特征，是能够反映情绪类型、且能够表征是第二用户的声音的特征。因而，应对声音特征，是能够反映应对情绪类型、且能够表征是第二用户的声音的特征。可以理解，第二用户在不同情绪类型下的声音特征不同。

具体地，预先存储了第二用户在多个情绪类型下的声音特征，计算机设备可以从中获取与应对情绪类型对应的第二用户的应对声音特征。计算机设备可以获取与应对情绪类型对应的应对情绪特征。应对情绪特征是能够表征应对情绪类型的特征编码数据。

可以理解，计算机设备可以对应对情绪类型进行特征编码生成应对情绪特征，也可以根据预先存储的情绪类型和情绪特征之间的对应关系，查找与应对情绪类型对应的应对情绪特征，对此不做限定。

步骤208，获取与状态特征匹配的应对文本内容，并提取应对文本内容的内容特征。

其中，与状态特征匹配的应对文本内容，是指用于应对第一用户的状态的文本内容。即，针对第一用户的状态需要进行应对，这种情况下，就需要一定的文本内容来进行应对。现举例说明，在孩子哭泣的情况下，父母就需要说一些话来应对孩子这种哭泣状态，比如，会说“哭泣是解决不了问题的”，那么，“哭泣是解决不了问题的”这句话语内容就是应对文本内容。

具体地，计算机设备可以直接获取与状态特征匹配的应对文本内容，也可以对状态特征分析后生成应对文本内容。计算机设备可以对应对文本内容进行特征提取，得到内容特征。可以理解，内容特征能够体现应对文本内容的语义。

在一个实施例中，文本数据库中预先存储了多个应对文本内容。计算机设备可以从中获取与状态特征匹配的应对文本内容。具体地，计算机设备可以根据预先存储的状态特征与应对文本内容之间的应对关系，从文本数据库中获取与状态特征相匹配的应对文本内容。

在另一个实施例中，计算机设备可以对状态特征进行分析，以生成应对文本内容。具体地，计算机设备可以将状态特征输入至预先训练的文本生成模型中，以基于文本生成模型输出与该状态特征匹配的应对文本内容。文本生成模型，是预先使用多组样本状态特征和样本应对文本作为训练数据，迭代训练得到的机器学习模型，用于预测出与状态特征相匹配的应对文本内容。

步骤210，融合内容特征、应对情绪特征及应对声音特征，得到融合特征。

具体地，计算机设备可以将内容特征、应对情绪特征和应对声音特征进行拼接融合，得到融合特征。可以理解，融合特征中能够体现应对时的情绪、要表达的文本内容的语义以及进行应对的第二用户的声音特征。

在一个实施例中，计算机设备可以将融合内容特征、应对情绪特征及应对声音特征直接进行拼接，从而得到融合特征。在另一个实施例中，计算机设备也可以将内容特征中部分指定字符用应对情绪特征和应对声音特征替换，从而将应对情绪特征和应对声音特征融合嵌入至内容特征中，形成融合特征。

步骤212，基于融合特征进行语音合成，生成第二用户在应对情绪类型下的、且用于表达应对文本内容的应对语音。

具体地，计算机设备可以将融合特征输入至语音合成网络中，以进行语音合成处理，生成在应对情绪类型下的第二用户的应对语音。可以理解，应对语音，能够体现应对情绪类型，且以第二用户的名义表达应对文本内容。即，应对语音是模拟第二用户在应对情绪类型的情绪下表达应对文本内容的模拟语音。

就比如，应对情绪类型是“平和”，应对文本内容是“哭泣是解决不了问题的”，那么，应对语音则表达的是模拟父亲的声音用平和的情绪来说“哭泣是解决不了问题的”这句话。

上述语音生成方法，基于第一用户的图像识别第一用户的状态，并基于识别到的状态特征识别第一用户的情绪类型。进而，确定与情绪类型匹配的应对情绪类型，并获取与应对情绪类型对应的第二用户的应对声音特征和应对情绪特征，以及根据第一用户的状态特征确定匹配的应对文本内容。融合文本内容的内容特征、应对情绪特征及应对声音特征，并基于融合后的融合特征进行语音合成，从而能够生成以第二用户在应对情绪类型下的声音表达应对文本内容的应对语音，相较于传统的以固定的预设声音来说预设的内容而言，能够自适应地生成用于更为准确地应对第一用户当前状态的应对语音，大大提高了灵活性，避免了局限，一定程度上减少了计算机资源的浪费。

在一个实施例中，步骤204中确定与情绪类型匹配的应对情绪类型包括：根据应对关系，从情绪库中查找用于应对第一用户的情绪类型的第二用户的情绪类型，得到应对情绪类型。

具体地，预先设置了情绪库，情绪库中预先存储了情绪类型之间的应对关系，计算机设备可以基于该应对关系，从情绪库中查找用于应对第一用户的情绪类型的第二用户的情绪类型，得到应对情绪类型。

比如，针对孩子的情绪类型a、b、c～n对应标记亲人的情绪类型A、B、C～N，举例说明，亲人的情绪类型A“平和”用于应对孩子的情绪类型a“哭泣”。在一个实施例中，情绪库中存储的情绪类型之间的应对关系，可以不随第二用户的不同而不同。即，情绪库中存储的是用于应对第一用户的情绪类型的各种情绪类型。

比如，孩子的情绪类型为“哭泣”时，用于应对“哭泣”的情绪类型可以为“平和”的情绪类型，至于第二用户是父亲还是母亲，都不影响应对情绪类型为“平和”。如果用于应对的预设应对用户为多个时，可以从中选取与第一用户的情绪类型最为匹配的预设应对用户作为第二用户。

在另一个实施例中，若预设应对用户为多个，情绪库中可以针对不同的预设应对用户，存储不同的情绪类型应对关系。即，不同的预设应对用户，针对第一用户的同一情绪类型可以用不同的情绪进行应对。比如，针对孩子哭泣，父亲的应对情绪类型可以为“严厉”，母亲的应对情绪类型可以为“平和”。因而，计算机设备可以先确定与第一用户的情绪类型最为匹配的预设应对用户作为第二用户，再根据针对该第二用户预设的情绪类型之间的应对关系，确定该第二用户对第一用户的情绪类型进行应对的应对情绪类型。

上述实施例中，预先在情绪库中存储了情绪类型之间的应对关系，基于情绪库能快速确定适合应对第一用户当前情绪的情绪类型，既提高了效率，又一定程度上提高了生成应对语音的准确性，进而减少了计算机资源的浪费。

图3为一个实施例中语音生成方法的简示图。从图3可知，在摄取第一用户的图像后，对该图像进行图像识别，基于识别到的第一用户的状态特征，从文本数据库中查找应对文本内容，并基于第一用户的状态特征确定第一用户的情绪类型，从而从情绪库中查找应对情绪类型以及在该应对情绪类型下第二用户的应对声音特征。将应对文本内容的内容特征、应对情绪类型的应对情绪特征以及第二用户的应对声音特征，输入至语音转换单元中进行融合，语音转换单元基于融合后的融合特征生成并输出带有情感的第二用户的应对语音。

可以理解，预先设置了文本数据库和情绪库，能够便捷、准确地确定应对文本和应对情绪以及第二用户的应对声音特征，从而，将这三者的特征进行融合后来合成第二用户的应对语音，大大提高了应对效率和应对准确性，进而节省了计算机资源。

在一个实施例中，第一用户的状态特征包括第一用户的表情特征。步骤204中确定与情绪类型匹配的应对情绪类型包括：确定用于应对第一用户的情绪类型的多个候选情绪类型；获取在每个候选情绪类型下第二用户的表情特征；将第一用户的表情特征分别与每个候选情绪类型下第二用户的表情特征进行匹配；将匹配的第二用户的表情特征所属的候选情绪类型确定为应对情绪类型。

具体地，用于应对第一用户的情绪类型的情绪类型为多个，计算机设备可以确定这多个情绪类型作为候选情绪类型。可以理解，不同情绪下用户的表情通常会不同，所以，计算机设备可以获取每个候选情绪类型下第二用户的表情特征，即，获取第二用户在每个候选情绪类型下的表情特征。计算机设备可以将从第一用户的图像中识别的第一用户的表情特征与每个候选情绪类型下第二用户的表情特征进行匹配，以确定与第一用户的表情特征匹配的第二用户的表情特征。计算机设备可以将匹配到的第二用户的表情特征所属的候选情绪类型确定为应对情绪类型。

上述实施例中，在确定应对情绪类型时，除了考虑第一用户的情绪类型以外，还结合了第一用户的表情特征，将第一用户的表情特征和第二用户的候选情绪类型下的表情特征进行进阶匹配，提高了确定的应对情绪类型的准确性。进而，提供了合成的应对语音的准确性，一定程度上减少了计算机资源的浪费。

在一个实施例中，获取在每个候选情绪类型下第二用户的表情特征包括：从情绪库中，获取针对每个候选情绪类型存储的对应的第二用户的表情特征。本实施例中，获取与应对情绪类型对应的第二用户的应对声音特征包括：从情绪库中，获取针对应对情绪类型存储的对应的第二用户的应对声音特征。

具体地，情绪库中预先存储了第二用户的情绪类型、以及第二用户的情绪类型与第一用户的情绪类型之间的应对关系，并针对第二用户的每种情绪类型存储了对应的第二用户的表情特征和声音特征。计算机设备可以根据情绪库中存储的应对关系，确定与第一用户的情绪类型对应的第二用户的情绪类型。在确定的第二用户的情绪类型为多个的情况下，计算机设备可以将确定的多个情绪类型作为候选情绪类型。进而，从情绪库中，获取针对每个候选情绪类型存储的对应的第二用户的表情特征。计算机设备可以将第一用户的表情特征分别与从情绪库中获取的每个候选情绪类型存储的对应的第二用户的表情特征进行匹配，将匹配的第二用户的表情特征所属的候选情绪类型确定为应对情绪类型。计算机设备则可以从情绪库中，获取针对应对情绪类型存储的对应的第二用户的声音特征，得到应对声音特征。

上述实施例中，在情绪库中，针对情绪类型预先存储了相应的第二用户的表情特征和声音特征，从而能够便捷且准确地确定应对情绪类型和应对声音特征，大大提高了效率。

在一个实施例中，在获取与应对情绪类型对应的第二用户的应对声音特征之前，该方法还包括获取第二用户在多种情绪类型下的声音特征的步骤，具体包括如下步骤：获取不同情绪类型下的第二用户的样本语音；基于每种情绪类型下第二用户的样本语音迭代训练语音特征提取模型，使得语音特征提取模型从样本语音中迭代地学习第二用户在每种情绪类型下的声音特性信息，以基于声音特性信息迭代更新在相应情绪类型下第二用户的声音特征编码信息；获取训练结束后每种情绪类型下第二用户的声音特征编码信息，得到第二用户在每种情绪类型下的声音特征。

具体地，预先可以让第二用户在不同情绪类型下发出相应的声音，从而得到第二用户在多种情绪类型下的样本语音。计算机设备中具有待训练的语音特征提取模型，其中含有初始化的第二用户的声音特征编码信息，可以理解，初始化的声音特征编码信息并不具备第二用户的实际声音特征，因此，可以基于每种情绪类型下第二用户的样本语音迭代训练语音特征提取模型，从而使得语音特征提取模型从样本语音中迭代地学习第二用户在每种情绪类型下的声音特性，以迭代更新在相应情绪类型下第二用户的声音特征编码信息。这样一来，在迭代训练结束后，就能得到每种情绪类型下最终的第二用户的声音特征编码信息。可以理解，训练结束后的第二用户声音特征编码信息充分学习到了第二用户说话时的声音特性，因而属于第二用户在每种情绪类型下准确的声音特征。

在一个实施例中，针对每种情绪类型下的样本语音，计算机设备在使用样本语音训练语音特征提取模型时，待训练的语音特征提取模型可以从样本语音中识别音素后验概率特征和基频参数特征，相当于学习声音特性，将音素后验概率特征和基频参数特征拼接，然后，将拼接的特征依次经过条件网络和上采样处理，生成第二用户在该情绪类型下最终的声音特征编码信息。

图4为一个实施例中语音生成方法的原理示意图。从图4可知，数据库中预先存储了每种情绪类型下第二用户的样本语音。可以理解，需要使用第二用户的声音特征来生成应对语音，所以，第二用户相当于目标说话人。可以通过语音特征提取模型对每种情绪类型下第二用户的样本语音进行特征提取，得到频谱参数特征和基频参数特征，并通过语音特征提取模型中的音素后验概率提取器基于频谱参数特征生成音素后验概率特征，再将音素后验概率特征和基频参数特征拼接后，经过条件网络进行上采样处理后，生成第二用户在各种情绪类型下的声音特征。进而，在确定与第一用户的情绪类型相匹配的应对情绪类型后，可以从基于样本语音提取的声音特征中，获取应对情绪类型下第二用户的应对声音特征。然后，将应对文本内容的内容特征、应对情绪类型对应的应对情绪特征、以及应对声音特征拼接生成融合特征，将融合特征输入至语音合成网络中进行语音合成，生成用于模拟第二用户在应对情绪类型下的语音波形信号。可以理解，将语音合成网络输出得到数据输入至声音解码器中进行解码，就能播放出模拟的第二用户在应对情绪类型下的应对语音。在模型训练过程中，可以固定条件网络等其他模型参数，仅迭代训练用于进行特征提取那部分网络的模型参数，以提高其学习声音特性的能力。

在另一个实施例中，可以预先针对音色表达维度初始化相应的嵌入式编码信息，在语音特征提取模型的训练过程中，计算机设备可以从样本语音中提取音色表达方面的特性信息，来迭代更新该嵌入式编码信息，以及从样本语音中提取音素后验概率特征和基频参数特征，并将音素后验概率特征、基频参数特征拼接以及表征音色表达特性的嵌入式编码信息拼接。然后，将拼接的特征依次经过条件网络和上采样处理，生成第二用户在该情绪类型下最终的声音特征编码信息。从而从音色表达、语言学内容以及韵律等多方面来提取第二用户的声音的特征，从而能够得到更为准确的声音特征，进而在后续语音合成处理阶段，能够合成更接近第二用户原声的应对语音。

在一个实施例中，状态特征包括第一用户的表情特征和声音特征。本实施例中，步骤202基于第一用户的图像识别第一用户的状态，得到第一用户的状态特征包括：获取采集的第一用户的图像；获取在采集图像时第一用户的声音数据；从图像中识别第一用户的表情状态，得到第一用户的表情特征；从声音数据中识别第一用户的声音状态，得到第一用户的声音特征。

可以理解，采集的图像和声音数据是发生在同一时间和同一空间的相对应的数据，能够准确体现第一用户在当时的状态。第一用户的表情和声音在一定程度上都能反映第一用户的情绪，因而，可以基于第一用户的表情特征和声音特征能够更为准确地识别第一用户的情绪类型。

在一个实施例中，计算机设备可以自身具备图像采集能力。即，计算机设备可以采集第一用户的图像，并在采集图像时采集第一用户的声音数据。

在另一个实施例中，计算机设备可以既具备图像采集能力又具备语音采集能力。比如，计算机设备可以是兼具图像采集和语音采集功能的陪护机器人。即，计算机设备可以既采集第一用户的图像，又在采集图像时一并采集第一用户的声音数据。

在其他实施例中，计算机设备也可以自身不具备图像采集和语音采集能力，而是基于已经采集到的图像和声音数据来执行本申请的方法，从而合成应对语音。对此不做限定。

可以理解，基于第一用户的表情和声音来共同确定第一用户的状态，提高了状态特征确定的准确性，因而，也提高了第一用户当前(即采集第一用户的图像时)的情绪类型的识别准确性，进而，最终提高了合成的应对语音的准确性。

如图5所示，在一个实施例中，提供了另一种语音生成方法，具体包括以下步骤：

步骤502，分别从第二用户在不同情绪类型下的样本语音和样本表情中，提取第二用户在不同情绪类型下的声音特征和表情特征。

步骤504，在情绪库中，对应存储第二用户的情绪类型、第二用户的表情特征和声音特征，以及存储第一用户的情绪类型和第二用户的情绪类型之间的应对关系。

可以理解，针对第二用户的每种情绪类型存储了对应的第二用户的表情特征和声音特征，以及存储了情绪类型之间的应对关系。

步骤506，获取采集的第一用户的图像、以及获取在采集所述图像时所述第一用户的声音数据；从所述图像中识别第一用户的表情状态，得到所述第一用户的表情特征；从所述声音数据中识别所述第一用户的声音状态，得到所述第一用户的声音特征。

步骤508，基于第一用户的表情特征和声音特征识别第一用户的情绪类型；根据情绪库中存储的第一用户的情绪类型和第二用户的情绪类型之间的应对关系，从情绪库中确定用于应对所述第一用户的情绪类型的多个候选情绪类型。

步骤510，根据情绪库中存储的第二用户的情绪类型、第二用户的表情特征和声音特征的对应关系，从情绪库中获取在每个候选情绪类型下所述第二用户的表情特征。

步骤512，将所述第一用户的表情特征分别与每个候选情绪类型下所述第二用户的表情特征进行匹配；将匹配的第二用户的表情特征所属的候选情绪类型确定为应对情绪类型。

步骤514，根据情绪库中存储的第二用户的情绪类型、第二用户的表情特征和声音特征的对应关系，从情绪库中获取针对所述应对情绪类型存储的对应的第二用户的声音特征，得到应对声音特征。

步骤516，对应对情绪类型进行特征编码，得到应对情绪特征；从文本数据库中获取与所述状态特征匹配的应对文本内容，并对应对文本内容进行特征编码，得到内容特征。

步骤518，将内容特征、应对情绪特征及应对声音特征进行拼接融合，得到融合特征。

步骤520，基于所述融合特征进行语音合成，生成所述第二用户在所述应对情绪类型下的、且用于表达所述应对文本内容的应对语音。

应该理解的是，虽然本申请各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，本申请各实施例的流程图的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

如图6所示，在一个实施例中，提供了一种语音生成装置，该装置包括：状态识别模块602、应对情绪确定模块604、特征获取模块606、特征融合模块608以及语音合成模块610；其中：

状态识别模块602，用于基于第一用户的图像识别第一用户的状态，得到第一用户的状态特征；图像中包括用于呈现第一用户的图像内容。

应对情绪确定模块604，用于基于状态特征识别第一用户的情绪类型，并确定与情绪类型匹配的应对情绪类型。

特征获取模块606，用于获取与应对情绪类型对应的第二用户的应对声音特征；获取与应对情绪类型对应的应对情绪特征；获取与状态特征匹配的应对文本内容，并提取应对文本内容的内容特征。

特征融合模块608，用于融合内容特征、应对情绪特征及应对声音特征，得到融合特征。

语音合成模块610，用于基于融合特征进行语音合成，生成第二用户在应对情绪类型下的、且用于表达应对文本内容的应对语音。

在其中一个实施例中，应对情绪类型是从情绪库中确定的；情绪库中预先存储了情绪类型之间的应对关系。应对情绪确定模块604还用于根据应对关系，从情绪库中查找用于应对第一用户的情绪类型的第二用户的情绪类型，得到应对情绪类型。

在其中一个实施例中，状态特征包括第一用户的表情特征。应对情绪确定模块604还用于确定用于应对第一用户的情绪类型的多个候选情绪类型；获取在每个候选情绪类型下第二用户的表情特征；将第一用户的表情特征分别与每个候选情绪类型下第二用户的表情特征进行匹配；将匹配的第二用户的表情特征所属的候选情绪类型确定为应对情绪类型。

在其中一个实施例中，候选情绪类型是从情绪库中预先存储的第二用户的情绪类型中确定的；情绪库中还针对第二用户的每种情绪类型存储了对应的第二用户的表情特征和声音特征。特征获取模块606还用于从情绪库中，获取针对每个候选情绪类型存储的对应的第二用户的表情特征；从情绪库中，获取针对应对情绪类型存储的对应的第二用户的声音特征，得到应对声音特征。

如图7所示，在其中一个实施例中，该装置还包括：

特征提取模块601，用于获取不同情绪类型下的第二用户的样本语音；基于每种情绪类型下第二用户的样本语音迭代训练语音特征提取模型，使得语音特征提取模型从样本语音中迭代地学习第二用户在每种情绪类型下的声音特性信息，以基于声音特性信息迭代更新在相应情绪类型下第二用户的声音特征编码信息；获取训练结束后每种情绪类型下第二用户的声音特征编码信息，得到第二用户在每种情绪类型下的声音特征。

在其中一个实施例中，状态特征包括第一用户的表情特征和声音特征。状态识别模块602还用于获取采集的第一用户的图像；获取在采集图像时第一用户的声音数据；从图像中识别第一用户的表情状态，得到第一用户的表情特征；从声音数据中识别第一用户的声音状态，得到第一用户的声音特征。

关于语音生成装置的具体限定可以参见上文中对于语音生成方法的限定，在此不再赘述。上述语音生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器。可以理解，服务器比如可以是家庭看护机器人进行数据分析的后端服务器。其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各个预设的情绪类型的第二用户的声音特征。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音生成方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。终端比如可以是家庭看护机器人。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音生成方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一些实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音生成方法，其特征在于，所述方法包括：

获取与所述应对情绪类型对应的第二用户的应对声音特征；

获取与所述应对情绪类型对应的应对情绪特征；

2.根据权利要求1所述的方法，其特征在于，所述应对情绪类型是从所述情绪库中确定的；所述情绪库中预先存储了情绪类型之间的应对关系；

所述确定与所述情绪类型匹配的应对情绪类型包括：

根据所述应对关系，从所述情绪库中查找用于应对所述第一用户的情绪类型的第二用户的情绪类型，得到应对情绪类型。

3.根据权利要求1所述的方法，其特征在于，所述状态特征包括所述第一用户的表情特征；所述确定与所述情绪类型匹配的应对情绪类型包括：

确定用于应对所述第一用户的情绪类型的多个候选情绪类型；

获取在每个所述候选情绪类型下所述第二用户的表情特征；

将所述第一用户的表情特征分别与每个候选情绪类型下所述第二用户的表情特征进行匹配；

将匹配的第二用户的表情特征所属的候选情绪类型确定为应对情绪类型。

4.根据权利要求3所述的方法，其特征在于，所述候选情绪类型是从情绪库中预先存储的第二用户的情绪类型中确定的；所述情绪库中还针对第二用户的每种情绪类型存储了对应的第二用户的表情特征和声音特征；所述获取在每个所述候选情绪类型下所述第二用户的表情特征包括：

从所述情绪库中，获取针对每个候选情绪类型存储的对应的第二用户的表情特征；

所述获取与所述应对情绪类型对应的第二用户的应对声音特征包括：

从所述情绪库中，获取针对所述应对情绪类型存储的对应的第二用户的声音特征，得到应对声音特征。

5.根据权利要求1所述的方法，其特征在于，在所述获取与所述应对情绪类型对应的第二用户的应对声音特征之前，所述方法还包括：

获取不同情绪类型下的第二用户的样本语音；

基于每种情绪类型下第二用户的样本语音迭代训练语音特征提取模型，使得所述语音特征提取模型从所述样本语音中迭代地学习所述第二用户在每种情绪类型下的声音特性，以迭代更新在相应情绪类型下所述第二用户的声音特征编码信息；

获取训练结束后每种情绪类型下所述第二用户的声音特征编码信息，得到所述第二用户在每种情绪类型下的声音特征。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述状态特征包括所述第一用户的表情特征和声音特征；所述基于第一用户的图像识别所述第一用户的状态，得到所述第一用户的状态特征包括：

获取采集的第一用户的图像；

获取在采集所述图像时所述第一用户的声音数据；

从所述图像中识别第一用户的表情状态，得到所述第一用户的表情特征；

从所述声音数据中识别所述第一用户的声音状态，得到所述第一用户的声音特征。

7.一种语音生成装置，其特征在于，所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。