CN114627898A

CN114627898A - 语音转换方法、装置、计算机设备、存储介质和程序产品

Info

Publication number: CN114627898A
Application number: CN202210203011.4A
Authority: CN
Inventors: 崔洋洋; 余俊澎
Original assignee: Youmi Technology Shenzhen Co ltd
Current assignee: Youmi Technology Shenzhen Co ltd
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2022-06-14

Abstract

本申请涉及一种语音转换方法、装置、计算机设备、存储介质和程序产品。该方法包括：获取送话方的身体语言和目标语音信息，该目标语音信息表示通过特定发声态发出的语音信息；根据身体语言，确定送话方发出目标语音信息时的情绪状态；通过情绪状态对应的情感语音声学模型，对目标语音信息进行语音转换处理，得到目标语音信息对应的情感语音信息，该情感语音信息表示携带情绪状态的语音。采用本方法能够使受话方正确理解送话方耳语表达的含义。

Description

语音转换方法、装置、计算机设备、存储介质和程序产品

技术领域

本申请涉及人工智能技术领域，特别是涉及一种语音转换方法、装置、计算机设备、存储介质和程序产品。

背景技术

随着通信技术的不断发展，在图书馆、医院或者会议室等禁止喧哗的环境下，送话方通常通过耳语与受话方进行交流，由于送话方发出耳语时声带不振动，导致受话方听不清楚耳语内容，对送话方和受话方造成较大的困扰。

相关技术中，将耳语输入到耳语处理单元中，对耳语进行相关处理，得到耳语对应的文本信息，再将该文本信息输出正常音量的机器人语音，使受话方可以听清楚送话方说出的耳语。

然而，相关技术输出的正常音量的机器人语音忽略了送话方情感的表达，会造成受话方无法理解或者理解错误送话方耳语表达的含义。

发明内容

基于此，有必要针对上述技术问题，提供一种能够使受话方正确理解送话方耳语表达的含义的语音转换方法、装置、计算机设备、存储介质和程序产品。

第一方面，本申请提供了一种语音转换方法，该方法包括：

获取送话方的身体语言和目标语音信息；目标语音信息表示通过特定发声态发出的语音信息；

根据身体语言，确定送话方发出目标语音信息时的情绪状态；

通过情绪状态对应的情感语音声学模型，对目标语音信息进行语音转换处理，得到目标语音信息对应的情感语音信息；情感语音信息表示携带情绪状态的语音。

在其中一个实施例中，身体语言包括肢体动作和面部表情；则根据身体语言，确定送话方发出目标语音信息时的情绪状态，包括：

获取送话方的面部图像和肢体关键点位置信息；

通过面部图像提取送话方的面部表情，通过肢体关键点位置信息确定送话方的肢体动作；

根据面部表情和肢体动作，确定送话方的情绪状态。

在其中一个实施例中，该方法还包括：

获取情绪状态对应的情绪标签；

将情绪标签与各情感语音声学模型中的标签进行匹配，将匹配成功的情感语音声学模型确定为情感语音声学模型。

在其中一个实施例中，对目标语音信息进行语音转换处理，得到目标语音信息对应的情感语音信息，包括：

对目标语音信息进行文本信息提取，得到目标语音信息的文本信息；

将文本信息输入至情感语音声学模型中，得到目标语音信息对应的情感语音信息。

在其中一个实施例中，对目标语音信息进行文本信息提取，得到目标语音信息的文本信息，包括：

提取目标语音信息中的关键词文本；

对关键词文本进行扩词处理，生成目标语音信息的文本信息。

在其中一个实施例中，对关键词文本进行扩词处理，生成目标语音信息的文本信息，包括：

对关键词文本进行检索分析，获得多个候选检索文本信息；

根据各候选检索文本信息中与关键词文本之间相似度最高的检索文本信息，对关键词文本进行词语融合处理，得到目标语音信息的文本信息。

在其中一个实施例中，情感语音声学模型的构建过程包括：

获取多个样本文本信息，以及各样本文本信息对应的携带不同情绪状态的样本情感语音信息；

对各样本文本信息进行文本分析处理，得到多个标注样本文本信息，对各样本情感语音信息进行参数提取，得到各样本情感语音信息的声学参数；

根据各标注样本文本信息和各样本情感语音信息的声学参数，训练初始情感语音声学模型，直至满足预设的收敛条件，确定初始情感语音声学模型收敛，得到情感语音声学模型。

在其中一个实施例中，收敛条件为初始情感语音声学模型输出的情感语音信息与对应样本情感语音信息之间的相似度大于预设相似度阈值。

第二方面，本申请还提供了一种语音转换装置，该装置包括：

第一获取模块，用于获取送话方的身体语言和目标语音信息；目标语音信息表示通过特定发声态发出的语音信息；

第一确定模块，用于根据身体语言，确定送话方发出目标语音信息时的情绪状态；

第一处理模块，用于通过情绪状态对应的情感语音声学模型，对目标语音信息进行语音转换处理，得到目标语音信息对应的情感语音信息；情感语音信息表示携带情绪状态的语音。

第三方面，本申请还提供了一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现第一方面中的所有方法实施例的内容。

第四方面，本申请还提供了一种计算机可读存储介质，计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现第一方面中的所有方法实施例的内容。

第五方面，本申请还提供了一种计算机程序产品，计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面中的所有方法实施例的内容。

上述语音转换方法、装置、计算机设备、存储介质和程序产品，该方法通过获取送话方的身体语言和目标语音信息，然后根据身体语言，确定送话方发出目标语音信息时的情绪状态，再通过情绪状态对应的情感语音声学模型，最后通过对目标语音信息进行语音转换处理，得到目标语音信息对应的情感语音信息。该方法中，目标语音信息是通过特定发声态发出的语音信息，如果不对目标语音信息进行处理，受话方无法理解目标语音信息的内容，通过送话方的身体语言能够准确地确定出送话方发出目标语音信息时的情绪状态，从多个情感语音声学模型中准确地选择送话方情绪状态对应的情感语音声学模型，对目标语音信息进行语音转换处理，相比于传统技术中将目标语音转化为机器人发出的语音，本方法能够使受话方听到的语音为带有情感的正常语音，能够使受话方正确理解送话方耳语表达的含义，提高了双方沟通的效率。

附图说明

图1为一个实施例中语音转换方法的应用环境图；

图2为一个实施例中语音转换方法的流程示意图；

图3为一个实施例中语音转换方法的流程示意图；

图4为一个实施例中语音转换方法的流程示意图；

图5为一个实施例中语音转换方法的流程示意图；

图6为一个实施例中语音转换方法的流程示意图；

图7为一个实施例中语音转换方法的流程示意图；

图8为一个实施例中语音转换方法的流程示意图；

图9为一个实施例中语音转换方法的流程示意图；

图10为一个实施例中语音转换方法的流程示意图；

图11为一个实施例中语音转换装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的语音转换方法，可以应用于如图1所示的应用环境中。该应用环境中包括计算机设备，其中，计算机设备可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。

在一个实施例中，如图2所示，提供了一种语音转换方法，以该方法应用于图1中的计算机设备为例进行说明，包括以下步骤：

S201，获取送话方的身体语言和目标语音信息；目标语音信息表示通过特定发声态发出的语音信息。

其中，身体语言是指在于他人交流沟通过程中，通过身体语言让他们了解到我们的真实想法，身体语言可以包括目光与面部表情、身体运动与触摸、姿势与外貌、身体间的空间距离等。上述特定声态是指发声时喉头的状态，包括声带的开闭、紧张或者松弛、是否震动以及气流通过情况等，特定声态可以包括耳语声、常态浊声、假声、嘎裂声和声带振动的轻声等。

具体的，计算机设备可以通过本身自带的视频摄像设备录制预设时间段内送话方的肢体和面部视频，根据该肢体和面部视频确定送话方的身体语言。例如，肢体动作可以为摆手、双手外推、搓手或者拽衣领、耸肩一个手托着下巴等，面部表情可以为嘴角向下、嘴唇紧绷、眉毛下垂和眉毛竖起等。同时，计算机设备可以通过本身自带的音频采集设备采集预设时间段内送话方的语音信息，将该语音信息确定为目标语音信息。例如，该语音信息可以是送话方通过耳语发出的耳语语音信息，也可以是送话方通过声带振动轻声发出的语音信息。

S202，根据身体语言，确定送话方发出目标语音信息时的情绪状态。

其中，情绪状态可以包括激动、感激、懊丧、悲痛、愤怒、欢喜、忧愁、烦乱和惊恐等。

可选的，计算机设备可以将与身体语言相似的历史身体语言对应的情绪状态作为送话方发出目标语音信息时的情绪状态，或者，身体语言与情绪状态之间具有映射关系，计算机设备可以根据身体语言和映射关系确定送话方发出目标语音信息时的情绪状态。本实施例对于根据身体语言确定送话方情绪状态的方式不做限定。

S203，通过情绪状态对应的情感语音声学模型，对目标语音信息进行语音转换处理，得到目标语音信息对应的情感语音信息；情感语音信息表示携带情绪状态的语音。

其中，每种情绪状态对应一种情感语音声学模型，当总共有N种情绪状态时，即对应N种情感语音声学模型。例如，欢喜情绪状态对应欢喜情感语音声学模型，惊恐情绪状态对应惊恐情感语音声学模型。

具体的，计算机设备可以将目标语音信息输入至情感语音声学模型中，将目标语音信息分割成互不重叠的帧的形式，并对该目标语音信息进行前置放大滤波，对滤波后的目标语音信息进行线性预测分析，根据帧的清音浊音类型进行增益调整，输出目标语音信息对应的带有情绪的情感语音信息。

上述语音转换方法中，该方法通过获取送话方的身体语言和目标语音信息，然后根据身体语言，确定送话方发出目标语音信息时的情绪状态，再通过情绪状态对应的情感语音声学模型，最后通过对目标语音信息进行语音转换处理，得到目标语音信息对应的情感语音信息。该方法中目标语音信息是通过特定发声态发出的语音信息，如果不对目标语音信息进行处理，受话方无法理解目标语音信息的内容，该方法通过送话方的身体语言能够准确地确定出送话方发出目标语音信息时的情绪状态，从多个情感语音声学模型中准确地选择送话方情绪状态对应的情感语音声学模型，对目标语音信息进行语音转换处理，相比于传统技术中将目标语音转化为机器人发出的语音，本方法能够使受话方听到的语音为带有情感的正常语音，能够使受话方正确理解送话方耳语表达的含义，提高了双方沟通的效率。

图3为本申请实施例提供的语音转换方法的流程示意图。本申请实施例涉及身体语言包括肢体动作和面部表情；则根据身体语言，确定送话方发出目标语音信息时的情绪状态的一种可选的实现方式。在图2所示实施例的基础上，如图3所示，上述S201可以包括如下步骤：

S301，获取送话方的面部图像和肢体关键点位置信息。

具体的，计算机设备可以通过边缘检测算子检测送话方的面部图像区域。其中，边缘检测算子可以为Sobel算子、Prewitt算子、Canny算子等。由于送话方的面部区域是区别点最大的区域，因此可以根据人脸关键点检测算法检测送话方的脸部关键点，根据人脸关键点确定送话方的脸部轮廓区域。其中，人脸关键点检测算法可以包括基于特征点分布模型(Point Distribution Model，PDM)算法、基于主动外观模型(Active AppearanceModels，AAM)算法或级联姿势回归(Cascaded Pose Regression,CPR)算法等。例如，人脸信息的关键点可以包括双眼间距、眼部宽度和嘴巴宽度等信息。同时，计算机设备可以根据开源计算机视觉库(Open Source Computer Vision Library，OpenCV)自带的特征分类器识别送话方的肢体关键点的位置信息。

S302，通过面部图像提取送话方的面部表情，通过肢体关键点位置信息确定送话方的肢体动作。

具体的，人体在不同情绪状态下的面部表情和肢体动作都是不一样的，计算机设备可以从送话方的连续图像序列中提取多个预设面部特征点的空间特征信息和肢体关键点位置特征信息，并获取特定面部感兴趣区域的变化特征以及肢体关键点位置的变化特征。例如，送话方的面部表情可以为嘴角向下、嘴唇紧绷、眉毛下垂或眉毛竖起等，送话方的肢体动作可以是摆手、双手外推、搓手或者拽衣领、耸肩或一个手托着下巴等。

S303，根据面部表情和肢体动作，确定送话方的情绪状态。

具体的，计算机设备可以基于多个预设面部特征点的空间特征信息搭建支持向量机(support vector machines，SVM)分类器，根据面部表情的分类结果确定送话方的情绪状态。例如，对于面部表情而言，当送话方的面部表情为嘴角向下时，表示的身体语言为痛苦悲伤或无可奈何；当送话方的面部表情为嘴唇紧绷时，表示的身体语言为愤怒、对抗或者决心已定；当送话方的面部表情为眉毛下垂时，表示的身体语言为无奈、遗憾或毫无兴趣；当送话方的面部表情为眉毛竖起时，表示的身体语言为气恼、愤怒或仇恨。同时，计算机设备可以基于多个肢体关键点位置特征信息搭建SVM分类器，根据肢体动作的分类结果确定送话方的情绪状态。例如，对于肢体动作而言，当送话方的肢体动作为摆手时，表示的身体语言为制止或者否定；当送话方的肢体动作为双手外推时，表示的身体语言为拒绝；当送话方的肢体动作为搓手或者拽衣领时，表示的身体语言为紧张；当送话方的肢体动作为耸肩时，表示的身体语言为不以为然或者无可奈何；当送话方的肢体动作为一个手托着下巴时，表示的身体语言为疑惑。

进一步的，可以理解的是，当面部表情的分类结果与肢体动作的分类结果一致时，将得到的情绪状态作为送话方的情绪状态；当面部表情的分类结果与肢体动作的分类结果不一致时，以面部表情的分类结果为准，将根据面部表情的分类结果得到的情绪状态作为送话方的情绪状态。

上述语音转换方法中，该方法通过获取送话方的面部图像和肢体关键点位置信息，然后通过面部图像提取送话方的面部表情，通过肢体关键点位置信息确定送话方的肢体动作，最后根据面部表情和肢体动作，确定送话方的情绪状态。该方法根据送话方的面部图像和肢体关键点位置信息分别确定送话方的情绪状态，再将两种情绪状态进行融合，从两个方面进行评价，相比于仅通过面部表情或者仅通过肢体关键点的方式，得到送话方的情绪状态更符合送话人的实际情绪状态，提高了情绪状态的准确性。

图4为本申请实施例提供的语音转换方法的流程示意图。本申请实施例涉及根据情绪状态确定情感语音声学模型的一种可选的实现方式。在图2所示实施例的基础上，如图4所示，上述方法还可以包括如下步骤：

S401，获取情绪状态对应的情绪标签。

具体的，不同的情绪状态对应不同的情绪标签，情绪状态与情绪标签之间为一一对应的映射关系。例如，情绪状态为激动时，对应的情绪标签为A；情绪状态为悲痛时，对应的情绪标签为B；情绪状态为欢喜时，对应的情绪标签为C。计算机设备根据身体语言确定送话方的情绪状态后，根据情绪状态与情绪标签之间的映射关系可以确定该情绪状态对应的情绪标签。

S402，将情绪标签与各情感语音声学模型中的标签进行匹配，将匹配成功的情感语音声学模型确定为情感语音声学模型。

具体的，不同的情感语音声学模型对应不同的标签，情感语音声学模型与标签之间也是一一对应的映射关系，该标签与情绪状态对应的标签是一致的。计算机设备可以将情绪标签与各情感语音声学模型中的标签都进行匹配，将匹配成功的情感语音声学模型作为情绪状态对应的情感语音声学模型。

上述语音转换方法中，该方法通过获取情绪状态对应的情绪标签，将情绪标签与各情感语音声学模型中的标签进行匹配，将匹配成功的情感语音声学模型确定为情感语音声学模型。该方法通过两个情绪标签的匹配过程，能够准确的获取情绪状态对应的情感语音声学模型。

图5为本申请实施例提供的语音转换方法的流程示意图。本申请实施例涉及对目标语音信息进行语音转换处理，得到目标语音信息对应的情感语音信息的一种可选的实现方式。在图2所示实施例的基础上，如图5所示，上述S203可以包括如下步骤：

S501，对目标语音信息进行文本信息提取，得到目标语音信息的文本信息。

可选的，计算机设备可以通过相应的文本提取算法对目标语音信息中的文本信息进行提取，得到该目标语音信息对应的文本信息，该文本提取算法可以为动态时间规整算法(Dynamic Time Warping，DTW)。可选的，计算机设备也可以将目标语音信息输入预设的神经网络模型中，通过神经网络模型的计算，输出该目标语音信息对应的文本信息。本实施例对于通过目标语音信息获取文本信息的方式不做限定。

进一步的，可以理解的是，在提取目标语音信息中的文本信息之前，可以将目标语音信息中的首尾两端的静音的语音信息切除，可以压缩语音信息文件的大小。

可选的，图6为本申请实施例提供的语音转换方法的流程示意图。本申请实施例涉及对目标语音信息进行文本信息提取，得到目标语音信息的文本信息的一种可选的实现方式。在图5所示实施例的基础上，如图6所示，上述S501可以包括如下步骤：

S601，提取目标语音信息中的关键词文本。

具体的，由于目标语音信息是通过特定声态发出的，在将目标语音信息转化为文本信息的过程中，目标语音信息对应的文本信息可能会有识别错误的情况，因此需要提取目标语音信息中的关键词文本信息。计算机设备可以在目标语音信息对应的目标文本中提取出关键字文本。例如，目标语音信息为“根据面部表情，确定送话方的情绪状态”时，关键词文本为“面部表情”、“送话方”和“情绪状态”。

S602，对关键词文本进行扩词处理，生成目标语音信息的文本信息。

可选的，计算机设备可以将关键词文本信息输入至预设的神经网络模型中，通过神经网络模型的计算，输出带有关键词的文本信息，或者，计算机设备可以查找与关键词文本信息相似度最高的文本，根据该文本对关键词文本进行扩充，得到目标语音信息对应的文本信息。本实施例对扩词处理的方式不做限定。

上述语音转换方法中，该方法通过提取目标语音信息中的关键词文本，对关键词文本进行扩词处理，生成目标语音信息的文本信息。该方法中目标语音信息由于是通过特定声态发出的，在将目标语音信息转为文本信息的过程中，可能会有一些词语不是很清楚，因此，需要先提取目标语音信息中的关键词文本，再将关键词文本进行扩词，使得到的目标语音信息的文本信息更接近目标语音信息的内容。

S502，将文本信息输入至情感语音声学模型中，得到目标语音信息对应的情感语音信息。

具体的，计算机设备将文本信息作为输入信息，将该文本信息输入至情感语音声学模型中，经过情感语音声学模型的计算，输出文本信息对应的带有情感的语音信息，将该语音信息作为目标语音信息对应的情感语音信息。

上述语音转换方法中，该方法通过对目标语音信息进行文本信息提取，得到目标语音信息的文本信息，然后将文本信息输入至情感语音声学模型中，得到目标语音信息对应的情感语音信息。该方法先提取目标语音信息中的文本信息，将目标语音信息的内容以文本的形式展现，再通过情感语音声学模型，将该文本信息以带有情感的语音信息输出，使得受话方在能听清楚目标语音信息的同时，也更加容易理解送话方的目标语音信息内容想要表达的含义。

可选的，图7为本申请实施例提供的语音转换方法的流程示意图。本申请实施例涉及对关键词文本进行扩词处理，生成目标语音信息的文本信息的一种可选的实现方式。在图5所示实施例的基础上，如图7所示，上述S502可以包括如下步骤：

S701，对关键词文本进行检索分析，获得多个候选检索文本信息。

具体的，计算机设备可以将所有的关键词文本输入至检索框中检索，当没有检索到候选检索文本信息或者检索到的候选文本信息较少时，减少关键词文本的数量，再次进行检索，直至得到关于关键词文本的多个候选检索文本信息。

S702，根据各候选检索文本信息中与关键词文本之间相似度最高的检索文本信息，对关键词文本进行词语融合处理，得到目标语音信息的文本信息。

可选的，计算机设备得到多个候选检索文本信息后，计算多个候选检索文本信息与关键词文本信息的相似度，或者，选择多个候选检索文本信息中的第一个作为与关键词文本相似度最高的检索文本信息，根据相似度最高的候选检索文本信息对关键词文本信息进行处理，对关键词文本信息进行填充，得到关键词文本信息对应的完整的文本信息，将该文本信息作为目标语音信息的文本信息。

上述语音转换方法中，对关键词文本进行检索分析，获得多个候选检索文本信息，根据各候选检索文本信息中与关键词文本之间相似度最高的检索文本信息，对关键词文本进行词语融合处理，得到目标语音信息的文本信息。该方法通过关键词文本相似度最高的文本信息对关键词文本信息融合处理，使得扩词后的文本信息更加接近目标语音信息对应的内容。

图8为本申请实施例提供的语音转换方法的流程示意图。本申请实施例涉及情感语音声学模型的构建过程的一种可选的实现方式。在图2所示实施例的基础上，如图8所示，该过程包括如下步骤：

S801，获取多个样本文本信息，以及各样本文本信息对应的携带不同情绪状态的样本情感语音信息。

具体的，不同的样本文本信息对应的情绪状态是不同的，根据不同的情绪发出携带不同情绪状态的样本情感语音信息。例如，样本文本信息的主题是关于快乐的享受生活，该样本文本信息对应的情绪状态是快乐；样本文本信息的主题是关于对于某个罪犯的谴责，该样本文本信息对应的情绪状态是愤怒。计算机设备可以从网页端获取到多个样本文本信息，同时也可以获取到样本文本信息对应的情绪状态的样本情感语音信息。

S802，对各样本文本信息进行文本分析处理，得到多个标注样本文本信息，对各样本情感语音信息进行参数提取，得到各样本情感语音信息的声学参数。

其中，声学参数是指声音的音色以及发出声音的频率。

具体的，计算机设备可以对多个样本文本信息进行标注，属于同一类情绪状态的样本文本信息归为一类，使用同一个标注去标注对应的样本文本信息。计算机设备可以通过相应的标注软件对各样本文本信息进行标注，也可以通过人工对各样本文本信息进行标注。可选的，计算机设备可以通过深度学习模型对各个样本情感语音信息中的音色和频率进行提取，或者，计算机设备也可以通过主成分分析算法(Principal ComponentAnalysis，PCA)对对各个样本情感语音信息中的音色和频率进行提取，将提取到的音色和频率作为各样本情感语音信息的声学参数。

S803，根据各标注样本文本信息和各样本情感语音信息的声学参数，训练初始情感语音声学模型，直至满足预设的收敛条件，确定初始情感语音声学模型收敛，得到情感语音声学模型。

具体的，将各标注样本文本信息和各样本情感语音信息的声学参数输入至初始情感语音声学模型中，采用随机梯度下降算法对初始情感语音声学模型各个层的参数进行优化更新，当损失函数收敛时，得到情感语音声学模型，将该情感语音声学模型作为该情绪状态下的情感语音声学模型。其中，收敛条件为初始情感语音声学模型输出的情感语音信息与对应样本情感语音信息之间的相似度大于预设相似度阈值，若相似度大于预设相似度阈值时，损失函数收敛；若相似度小于或者等于预设相似度阈值时，还没有达到收敛条件。

上述语音转换方法中，获取多个样本文本信息，以及各样本文本信息对应的携带不同情绪状态的样本情感语音信息，对各样本文本信息进行文本分析处理，得到多个标注样本文本信息，对各样本情感语音信息进行参数提取，得到各样本情感语音信息的声学参数，根据各标注样本文本信息和各样本情感语音信息的声学参数，训练初始情感语音声学模型，直至满足预设的收敛条件，确定初始情感语音声学模型收敛，得到更精确的情感语音声学模型。

在一个实施例中，为了便于本领域技术人员的理解，以下对语音转换方法进行详细介绍，如图9所示，该方法可以包括：

S901，获取送话方的面部图像和肢体关键点位置信息；

S902，通过面部图像提取送话方的面部表情，通过肢体关键点位置信息确定送话方的肢体动作；

S903，根据面部表情和肢体动作，确定送话方的情绪状态；

S904，获取情绪状态对应的情绪标签；

S905，将情绪标签与各情感语音声学模型中的标签进行匹配，将匹配成功的情感语音声学模型确定为情感语音声学模型；

S906，提取目标语音信息中的关键词文本；

S907，对关键词文本进行检索分析，获得多个候选检索文本信息；

S908，根据各候选检索文本信息中与关键词文本之间相似度最高的检索文本信息，对关键词文本进行词语融合处理，得到目标语音信息的文本信息；

S909，将文本信息输入至情感语音声学模型中，得到目标语音信息对应的情感语音信息。

需要说明的是，针对上述S901-S909中的描述可以参见上述实施例中相关的描述，且其效果类似，本实施例在此不再赘述。

进一步的，可以理解的是，图10表示语音转换方法的流程示意图，以耳语为例，获取耳语送话方的面部表情图像，对该图像进行预处理，提取该图像的特征，识别送话方说耳语时的情绪，根据该情绪在多个情感语音声学模型中选择与该情绪对应的情感语音声学模型。同时对获取的送话方的耳语进行处理，将耳语语音转为耳语关键词文本信息，再对该耳语文本信息进行分析，进行上下文相关标注，得到耳语文本信息，将耳语文本信息输入至情感语音声学模型中进行训练，得到耳语语音对应的情感语音信息。

上述语音转换方法中，该方法通过获取送话方的面部图像和肢体关键点位置信息，然后通过面部图像提取送话方的面部表情，通过肢体关键点位置信息确定送话方的肢体动作，再根据面部表情和肢体动作，确定送话方的情绪状态，获取情绪状态对应的情绪标签，将情绪标签与各情感语音声学模型中的标签进行匹配，最后将匹配成功的情感语音声学模型确定为情感语音声学模型，提取目标语音信息中的关键词文本，对关键词文本进行检索分析，获得多个候选检索文本信息，根据各候选检索文本信息中与关键词文本之间相似度最高的检索文本信息，对关键词文本进行词语融合处理，得到目标语音信息的文本信息，将文本信息输入至情感语音声学模型中，得到目标语音信息对应的情感语音信息。该方法通过送话方的身体语言能够准确地确定出送话方发出目标语音信息时的情绪状态，从多个情感语音声学模型中准确地选择送话方情绪状态对应的情感语音声学模型，对目标语音信息进行语音转换处理，相比于传统技术中将目标语音转化为机器人发出的语音，本方法能够使受话方听到的语音为带有情感的正常语音，能够使受话方正确理解送话方耳语表达的含义，提高了送话方与受话方双方沟通的效率。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的语音转换方法的语音转换装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音转换装置实施例中的具体限定可以参见上文中对于语音转换方法的限定，在此不再赘述。

在一个实施例中，如图11所示，提供了一种语音转换装置，包括：第一获取模块11、第一确定模块12和第一处理模块13，其中：

第一获取模块11，用于获取送话方的身体语言和目标语音信息；目标语音信息表示通过特定发声态发出的语音信息；

第一确定模块12，用于根据身体语言，确定送话方发出目标语音信息时的情绪状态；

第一处理模块13，用于通过情绪状态对应的情感语音声学模型，对目标语音信息进行语音转换处理，得到目标语音信息对应的情感语音信息；情感语音信息表示携带情绪状态的语音。

本实施例提供的语音转换装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

在一个实施例中，上述第一获取模块包括：获取单元、第一确定单元和第二确定单元，其中：

获取单元，用于获取送话方的面部图像和肢体关键点位置信息；

第一确定单元，用于通过面部图像提取送话方的面部表情，通过肢体关键点位置信息确定送话方的肢体动作；

第二确定单元，用于根据面部表情和肢体动作，确定送话方的情绪状态。

在一个实施例中，上述语音转换装置还包括：第二获取模块和匹配模块，其中：

第二获取模块，用于获取情绪状态对应的情绪标签；

匹配模块，用于将情绪标签与各情感语音声学模型中的标签进行匹配，将匹配成功的情感语音声学模型确定为情感语音声学模型。

在一个实施例中，上述第一处理模块包括：第三确定单元和第四确定单元，其中：

第三确定单元，用于对目标语音信息进行文本信息提取，得到目标语音信息的文本信息；

第四确定单元，用于将文本信息输入至情感语音声学模型中，得到目标语音信息对应的情感语音信息。

可选的，上述第三确定单元具体用于提取目标语音信息中的关键词文本；对关键词文本进行扩词处理，生成目标语音信息的文本信息。

可选的，上述第三确定单元具体用于对关键词文本进行检索分析，获得多个候选检索文本信息；根据各候选检索文本信息中与关键词文本之间相似度最高的检索文本信息，对关键词文本进行词语融合处理，得到目标语音信息的文本信息。

在一个实施例中，上述语音转换装置还包括：第三获取模块、第二处理模块和第二确定模块，其中：

第三获取模块，用于获取多个样本文本信息，以及各样本文本信息对应的携带不同情绪状态的样本情感语音信息；

第二处理模块，用于对各样本文本信息进行文本分析处理，得到多个标注样本文本信息，对各样本情感语音信息进行参数提取，得到各样本情感语音信息的声学参数；

第二确定单元，用于根据各标注样本文本信息和各样本情感语音信息的声学参数，训练初始情感语音声学模型，直至满足预设的收敛条件，确定初始情感语音声学模型收敛，得到情感语音声学模型。

可选的，该收敛条件为初始情感语音声学模型输出的情感语音信息与对应样本情感语音信息之间的相似度大于预设相似度阈值。

上述语音转换装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音转换数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音转换方法。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述方法步骤中的所有实施例。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法步骤中的所有实施例。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述方法步骤中的所有实施例。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种语音转换方法，其特征在于，所述方法包括：

获取送话方的身体语言和目标语音信息；所述目标语音信息表示通过特定发声态发出的语音信息；

根据所述身体语言，确定所述送话方发出所述目标语音信息时的情绪状态；

通过所述情绪状态对应的情感语音声学模型，对所述目标语音信息进行语音转换处理，得到所述目标语音信息对应的情感语音信息；所述情感语音信息表示携带所述情绪状态的语音。

2.根据权利要求1所述的方法，其特征在于，所述身体语言包括肢体动作和面部表情；则所述根据所述身体语言，确定所述送话方发出所述目标语音信息时的情绪状态，包括：

获取所述送话方的面部图像和肢体关键点位置信息；

通过所述面部图像提取所述送话方的面部表情，通过所述肢体关键点位置信息确定所述送话方的肢体动作；

根据所述面部表情和所述肢体动作，确定所述送话方的情绪状态。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

获取所述情绪状态对应的情绪标签；

将所述情绪标签与各情感语音声学模型中的标签进行匹配，将匹配成功的情感语音声学模型确定为所述情感语音声学模型。

4.根据权利要求1或2所述的方法，其特征在于，所述对所述目标语音信息进行语音转换处理，得到所述目标语音信息对应的情感语音信息，包括：

对所述目标语音信息进行文本信息提取，得到所述目标语音信息的文本信息；

将所述文本信息输入至所述情感语音声学模型中，得到所述目标语音信息对应的情感语音信息。

5.根据权利要求4所述的方法，其特征在于，所述对所述目标语音信息进行文本信息提取，得到所述目标语音信息的文本信息，包括：

提取所述目标语音信息中的关键词文本；

对所述关键词文本进行扩词处理，生成所述目标语音信息的文本信息。

6.根据权利要求5所述的方法，其特征在于，所述对所述关键词文本进行扩词处理，生成所述目标语音信息的文本信息，包括：

对所述关键词文本进行检索分析，获得多个候选检索文本信息；

根据各所述候选检索文本信息中与所述关键词文本之间相似度最高的检索文本信息，对所述关键词文本进行词语融合处理，得到所述目标语音信息的文本信息。

7.根据权利要求1或2所述的方法，其特征在于，所述情感语音声学模型的构建过程包括：

获取多个样本文本信息，以及各所述样本文本信息对应的携带不同情绪状态的样本情感语音信息；

对各所述样本文本信息进行文本分析处理，得到多个标注样本文本信息，对各所述样本情感语音信息进行参数提取，得到各所述样本情感语音信息的声学参数；

根据各所述标注样本文本信息和各所述样本情感语音信息的声学参数，训练初始情感语音声学模型，直至满足预设的收敛条件，确定所述初始情感语音声学模型收敛，得到所述情感语音声学模型。

8.根据权利要求7所述的方法，其特征在于，所述收敛条件为所述初始情感语音声学模型输出的情感语音信息与对应样本情感语音信息之间的相似度大于预设相似度阈值。

9.一种语音转换装置，其特征在于，所述装置包括：

第一获取模块，用于获取送话方的身体语言和目标语音信息；所述目标语音信息表示通过特定发声态发出的语音信息；

第一确定模块，用于根据所述身体语言，确定所述送话方发出所述目标语音信息时的情绪状态；

第一处理模块，用于通过所述情绪状态对应的情感语音声学模型，对所述目标语音信息进行语音转换处理，得到所述目标语音信息对应的情感语音信息；所述情感语音信息表示携带所述情绪状态的语音。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

12.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。