CN110211563B

CN110211563B - 面向情景及情感的中文语音合成方法、装置及存储介质

Info

Publication number: CN110211563B
Application number: CN201910531628.7A
Authority: CN
Inventors: 彭话易; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2024-05-24
Anticipated expiration: 2039-06-19
Also published as: WO2020253509A1; CN110211563A

Abstract

本发明属于人工智能技术领域，公开了一种面向情景及情感的中文语音合成方法、装置及存储介质，所述方法包括：获取输入语音；将所述输入语音输入情感分析模型，通过所述情感分析模型输出所述输入语音的情感状态；根据对话场景以及所述输入语音的情感状态确定合成语音的情感状态；根据所述合成语音的情感状态以及基于输入语音确定的待合成文本进行语音合成。本发明通过对输入语音进行情感状态分析，根据输入语音的情感状态获取合成语音的情感状态，在进行语音合成时，加入情感状态以及情景分析，使得合成语音的语气和情绪符合当前的交互场景，而不再是固定的语气和情绪，在人机交互过程中，输出的合成语音更像真人，增强用户体验。

Description

面向情景及情感的中文语音合成方法、装置及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种面向情景及情感的中文语音合成方法、装置及存储介质。

背景技术

随着计算机技术的快速发展，人们对语音合成系统的要求也越来越高，从最初的“能听明白”到如今的“希望和真人一样”。现有语音合成系统的技术方案主要有三种：参数合成技术、波形拼接技术以及基于深度学习的端到端型合成技术。其中，通过波形拼接合成的语音拥有非常高的音质，但是制作其所需的语音库是非常耗时耗力的，通常需要30小时以上的录音以及进行相关的切割标注工作。现有的端到端型语音合成技术也能够合成高音质以及拥有极为良好韵律的语音，且其所需的训练语音库通常只需要15个小时左右。与波形拼接技术相比，其合成速度稍微缓慢，并且其实现需要GPU，所以成本较为高昂。尽管现有的语音合成系统合成的语音在音质上良好，但是和真人相比，还是有所差距。而造成这种差距的最主要原因是同一个语音系统总是以同一种语气和同一种情感合成语音，但是人类在说话的时候，语气以及情绪是在不断变换的，它们是和说话的场景以及说话的内容息息相关的，当合成语音的语气和情绪不符合当前场景时，就算合成的语音音质很好，我们依然会觉得很假，因为这和我们的认知不符。例如，智能音箱现在已经广泛的存在于市场中，而语音合成系统则能够使智能音箱与人类进行交流，假设一位女生和智能音箱发生了如下对话：

女生：今天我要穿这件衣服，你觉得好看吗？(激动开心的语气)

智能音箱：我觉得非常好看。(非常平淡的固定语气)

上述这样的对话现在常常发生于人类与机器的智能交互当中，当人类以某种情绪发出对话时，语音合成系统却以其固定的语气和情绪合成语音进行反馈，这样的体验会让人类觉得合成的语音不像真人，使得人机交互难以很好地继续进行，也会影响机器使用的用户体验。

发明内容

本发明提供一种面向情景及情感的中文语音合成方法、装置及存储介质，以解决现有技术中总是以固定的语气和情绪合成语音导致人机交互难以很好地继续进行的问题。

为了实现上述目的，本发明的一个方面是提供一种面向情景及情感的中文语音合成方法，包括：获取输入语音；将所述输入语音输入情感分析模型，通过所述情感分析模型输出所述输入语音的情感状态；根据对话场景以及所述输入语音的情感状态确定合成语音的情感状态；根据所述合成语音的情感状态以及基于所述输入语音确定的待合成文本进行语音合成。

优选地，所述情感分析模型包括基于语音的情感识别模型，通过所述情感分析模型输出所述输入语音的情感状态的步骤包括：获取所述输入语音的声谱图和语音特征参数；将所述输入语音的声谱图输入所述情感识别模型中的经过训练得到的卷积循环神经网络中，通过所述卷积循环神经网络和第一全连接层输出第一特征向量；根据所述语音特征参数获取统计特征，输入所述情感识别模型中，通过所述情感识别模型中的三个第二全连接层输出第二特征向量；将所述第一特征向量与所述第二特征向量进行融合，得到融合特征向量；所述融合特征向量通过所述情感识别模型中的第三全连接层和归一化层输出所述输入语音的情感的第一概率向量；根据所述第一概率向量获取所述输入语音的情感状态。

优选地，所述情感分析模型包括基于文本的情感分类模型，通过所述情感分析模型输出所述输入语音的情感状态的步骤包括：通过语音识别将所述输入语音转化为待分类文本；提取所述待分类文本的文本特征向量；将所述文本特征向量输入所述情感分类模型中的深度神经网络分类器中；通过所述分类器获取所述输入语音的情感的第二概率向量；根据所述第二概率向量获取所述输入语音的情感状态。

优选地，所述情感分析模型包括基于语音的情感识别模型和基于文本的情感分类模型，通过所述情感分析模型输出所述输入语音的情感状态的步骤包括：通过所述情感识别模型获取所述输入语音的情感的第一概率向量，根据所述第一概率向量分别获取多种语音情感的第一置信度；通过所述情感分类模型获取所述输入语音的情感的第二概率向量，根据所述第二概率向量分别获取多种语音情感的第二置信度；将同一种语音情感的所述第一置信度与所述第二置信度相加，获取所述同一种语音情感的置信度，得到多种语音情感的置信度向量；选择所述置信度向量中最大置信度所对应的语音情感作为所述输入语音的情感状态。

优选地，根据对话场景以及所述输入语音的情感状态确定合成语音的情感状态的步骤包括：构建场景库，所述场景库包括多种对话场景以及每种对话场景所对应的情感状态；根据所述输入语音和待合成文本进行情景分析，获取所述待合成文本的对话场景；根据所述场景库获取所述待合成文本的对话场景对应的情感状态；根据所述对话场景对应的情感状态以及所述输入语音的情感状态确定合成语音的情感状态。

优选地，根据所述合成语音的情感状态以及待合成文本进行语音合成的步骤包括：通过波形拼接技术对待合成文本进行语气助词嵌入；通过端到端合成技术控制合成语音的语气和韵律；根据嵌入的语气助词、语气和韵律进行语音合成。

优选地，将所述输入语音输入情感分析模型的步骤之前，还包括：根据输入语音和待合成文本判断是否存在交互场景，若不存在交互场景，则设定所述合成语音的情感状态，不再对输入语音进行情感分析；若存在交互场景，则将所述输入语音输入情感分析模型中。

为了实现上述目的，本发明的另一个方面是提供一种电子装置，该电子装置包括：处理器；存储器，所述存储器中包括面向情景及情感的中文语音合成程序，所述中文语音合成程序被所述处理器执行时实现如下所述的中文语音合成方法的步骤：获取输入语音；将所述输入语音输入情感分析模型，通过所述情感分析模型输出所述输入语音的情感状态；根据对话场景以及所述输入语音的情感状态确定合成语音的情感状态；根据所述合成语音的情感状态以及基于所述输入语音确定的待合成文本进行语音合成。

优选地，所述情感分析模型包括基于语音的情感识别模型和/或基于文本的情感分类模型。

为了实现上述目的，本发明的再一个方面是提供一种计算机可读存储介质，所述计算机可读存储介质中包括面向情景及情感的中文语音合成程序，所述中文语音合成程序被处理器执行时，实现如上所述的中文语音合成方法的步骤。

相对于现有技术，本发明具有以下优点和有益效果：

本发明通过对输入语音进行情感状态分析，根据输入语音的情感状态获取合成语音的情感状态，在进行语音合成时，加入情感状态以及情景分析，使得合成语音的语气和情绪符合当前的交互场景，而不再是固定的语气和情绪，在人机交互过程中，输出的合成语音更像真人，增强用户体验。

附图说明

图1为本发明所述面向情景及情感的中文语音合成方法的流程示意图；

图2为本发明中情感识别模型的结构示意图；

图3为本发明中卷积循环神经网络的结构示意图；

图4为本发明中情感分类模型的结构示意图；

图5为本发明中面向情景及情感的中文语音合成程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式或其组合对所描述的实施例进行修正。因此，附图和描述在本质上是说明性的，仅仅用以解释本发明，而不是用于限制权利要求的保护范围。此外，在本说明书中，附图未按比例画出，并且相同的附图标记表示相同的部分。

图1为本发明所述面向情景及情感的中文语音合成方法的流程示意图，如图1所示，本发明所述面向情景及情感的中文语音合成方法，包括以下步骤：

步骤S1、获取输入语音，输入语音为待反馈的语音，例如，在人机交互系统中，对于智能音箱，输入语音就是用户的询问等，合成语音为智能音箱对用户的反馈，本发明即为根据用户的询问语音的情感状态，得出合成语音的情感状态，使得智能音箱的反馈具有特定的语气和情绪，符合用户输入语音的情绪；

步骤S2、将所述输入语音输入情感分析模型，通过所述情感分析模型输出所述输入语音的情感状态；

步骤S3、根据对话场景以及所述输入语音的情感状态确定合成语音的情感状态，在确定合成语音的情感状态时，增加对话场景的影响因素，使得人机交互得到的反馈不仅满足对用户情感上的反馈，且更加符合实际应用场景，避免出错，例如，对于一个推销场景，即使客户输入的语音表达的情感是不耐烦的，加入对话场景这一影响因素之后，得出合成语音的情感状态也应该是开心积极的，以良好的服务客户；

步骤S4、根据所述合成语音的情感状态以及基于所述输入语音确定的待合成文本进行语音合成，其中，待合成文本是在进行人机交互时，智能系统根据输入语音确定的待反馈文本。

本发明通过对输入的语音进行情感状态分析，获取合成语音的情感状态，在进行语音合成时，加入情感状态以及情景分析，使得合成语音的语气和情绪符合当前交互场景，在人机交互过程中，输出的合成语音更像真人。

优选地，将所述输入语音输入情感分析模型的步骤之前，所述中文语音合成方法还包括：根据输入语音和待合成文本判断是否存在交互场景，若不存在交互场景，则设定所述合成语音的情感状态或采用合成语音的默认情感状态，不再对输入语音进行情感分析；若存在交互场景，则进行下一步，将所述输入语音输入情感分析模型中，对输入语音进行情感状态分析。其中，设定的合成语音的情感状态可以是慷慨激昂的，也可以是平缓温和的，具体可以根据人机交互所起的作用或目的而设定。例如，对于智能问答系统，反馈的合成语音的默认情感状态为平缓温和的，若输入语音仅涉及到对某一问题的咨询，而不涉及交互场景，则根据输入语音确定待合成文本的内容即可，以平缓温和的情绪输出待合成文本即可满足用户需求。例如，用户询问“今天的北京气温是多少”，问答系统只需以默认的语气情绪回复“今天的北京气温为××摄氏度”即可，而不必对输入语音进行情感分析。

本发明的一个实施例中，所述情感分析模型包括基于语音的情感识别模型，图2为本发明中情感识别模型的结构示意图，如图2所示，所述情感识别模型分为三个部分，第一部分包括卷积循环神经网络(Convolutional Recurrent Neural Network，CRNN)部分和一层第一全连接层(fully connected layers，FC层)，输入的是声谱图，通过CRNN层和第一FC层输出一个第一特征向量；第二部分包括三个依次连接的第二FC层，第二部分的输入为语音特征参数(LLDs)，包括：基频，能量，过零率，梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient，MFCC)，线性预测倒谱系数(Linear Predictive CepstralCoefficient，LPCC)等特征，输出一个第二特征向量；第三部分包括一个第三FC层和归一化层，第三部分的输入为第一特征向量和第二特征向量的融合特征向量，输出为表征情感分类的概率向量。

图3为本发明中卷积循环神经网络的结构示意图，如图3所示，所述卷积循环神经网络包括：第一卷积层、第一池化层、第二卷积层、第二池化层、长短期记忆网络层(LongShort-Term Memory，LSTM)和第三池化层，其中，第三池化层包括三个池化模块，最小池化模块、平均池化模块和最大池化模块，每个池化模块均与LSTM层中的每个神经元连接。所述卷积循环神经网络采用情感语音数据集进行训练，所述情感语音数据集中包括多人共约15个小时的语音数据以及相应的情感标签。

本发明的一个实施例中，通过所述情感分析模型输出所述输入语音的情感状态的步骤，包括：获取所述输入语音的声谱图和语音特征参数；将所述输入语音的声谱图输入所述情感识别模型中的经过训练得到的卷积循环神经网络(CRNN)中，通过所述卷积循环神经网络和第一全连接层输出第一特征向量；根据所述语音特征参数获取统计特征(Highlevel Statistics Functions，HFS特征，对一段语音中的多帧语音进行特征统计，获取特征参数的平均值或最大值等)，输入所述情感识别模型中，通过所述情感识别模型中的三个第二全连接层输出第二特征向量；将所述第一特征向量与所述第二特征向量进行融合(concatenate)，得到融合特征向量；所述融合特征向量通过所述情感识别模型中的第三全连接层和归一化层输出所述输入语音的情感的第一概率向量；根据所述第一概率向量获取所述输入语音的情感状态。

本发明的一个实施例中，所述情感分析模型包括基于文本的情感分类模型，图4为本发明中情感分类模型的结构示意图，如图4所示，所述情感分类模型包括：特征提取层和分类器，其中，所述特征提取层用于提取输入文本的特征，将输入文本进行向量化表示，所述特征提取层包括输入层，用于输入待分类文本；嵌入层，用于将所述待分类文本转化为多个词向量，并根据多个词向量构建形成句向量，例如，可以采用开源BERT模型(Bidirectional Encoder Representations from Transformers)；所述分类器是LSTM神经网络构成，包括输入层、隐藏层和输出层，所述输入层包括256个输入节点，用于输入句向量，所述隐藏层包括128个隐藏节点，所述输出层采用softmax函数，输出情感标签以及概率。

本发明的一个实施例中，通过所述情感分析模型输出所述输入语音的情感状态的步骤，包括：通过语音识别将输入语音转化为待分类文本；提取所述待分类文本的文本特征向量；将所述文本特征向量输入所述情感分类模型中的深度神经网络分类器中；通过所述分类器获取所述输入语音的情感的第二概率向量；根据所述第二概率向量获取所述输入语音的情感状态。

本发明中，所述情感分析模型可以仅包括基于语音的情感识别模型和基于文本的情感分类模型中的一种，也可以两种均包括。优选地，所述情感分析模型既包括基于语音的情感分析模型，又包括基于文本的情感分类模型，通过两个模型分别得到表征语音情感的概率向量，根据两个模型的结果进行综合分析，提高情感分析的准确性。

优选地，通过所述情感分析模型输出所述输入语音的情感状态的步骤，包括：通过基于语音的情感识别模型获取所述输入语音的情感的第一概率向量，根据所述第一概率向量分别获取多种语音情感的第一置信度；通过基于文本的情感分类模型获取所述输入语音的情感的第二概率向量，根据所述第二概率向量分别获取多种语音情感的第二置信度；将同一种语音情感的所述第一置信度与所述第二置信度相加，获取所述同一种语音情感的置信度，得到多种语音情感的置信度向量；选择所述置信度向量中最大置信度所对应的语音情感作为所述输入语音的情感状态。例如，对于一段输入语音，可能具有的语音情感状态为开心、难过、不耐烦、兴奋、激动等，得到与上述情感状态对应的第一置信度分别为0.6、0.2、0.3、0.4、0.7，第二置信度分别为0.8、0.3、0.2、0.5、0.5，将对应的第一置信度和第二置信度分别相加得到各种语音情感的最终置信度分别为1.4、0.5、0.5、0.9、1.2，选择最大置信度1.4对应的情感状态(开心)作为输入语音的情感状态。

本发明的一个实施例中，对于同一输入语音，通过基于语音的情感识别模型和基于文本的情感分类模型得到两种结果，分别表征输入语音的各种情感状态的置信度，为两种模型得到的结果设定不同的权重值，基于不同的权重，将得到的置信度相加，预测最终的语音情感状态。例如，为情感识别模型设定权重值为0.6，为情感分类模型设定权重值为0.4，则若对于一段输入语音，可能具有的语音情感状态为开心、难过、不耐烦、兴奋、激动等，得到与上述情感状态对应的第一置信度分别为0.6、0.2、0.3、0.4、0.7，第二置信度分别为0.8、0.3、0.2、0.5、0.5，将对应的第一置信度和第二置信度基于设定的不同权重值分别相加得到各种语音情感的最终置信度分别为0.68、0.24、0.26、0.44、0.62，选择最大置信度0.68对应的情感状态(开心)作为输入语音的情感状态。

进一步地，置信度向量中最大置信度对应的语音情感有两种或两种以上时，从中随机选择其中的一种作为输入语音的情感状态。

需要理解的是，本发明中的“第一”、“第二”“第三”和“第四”等仅用于区分相同或类似的对象，并不表示先后次序或优选顺序等含义。

本发明的一个可选实施例中，根据对话场景以及所述输入语音的情感状态确定合成语音的情感状态，包括：

构建场景库，所述场景库包括多种对话场景以及每种对话场景所对应的情感状态，其中，对话场景以及对应的情感状态可以是人工标注，根据具体的情景结合人类认知进行标签标注，预先定义某些特定的对话场景下，合成语音所需要的情感状态，因为即使是对于同一种情感的输入语音的回复，在不同的对话场景下，所需要反馈的合成语音的情感状态也可能是不同的；

根据所述输入语音和待合成文本进行情景分析，获取所述待合成文本的对话场景，其中，待合成文本是在进行人机交互时，智能系统根据输入语音确定的待反馈文本；

根据所述场景库获取所述待合成文本的对话场景对应的情感状态；

根据所述对话场景对应的情感状态以及所述输入语音的情感状态确定合成语音的情感状态。

例如，对于一个推销场景，客户输入的语音表达的情感是不耐烦的，通过对待合成文本进行情景分析，结合对话场景，得出合成语音的情感状态应该是开心积极的，以良好的服务客户。通过增加对对话场景的分析，使得人机交互时得到的反馈更加符合真实的应用场景，增强用户体验。

本发明的一个可选实施例中，根据所述合成语音的情感状态以及待合成文本进行语音合成，包括：通过波形拼接技术对待合成文本进行语气助词嵌入；通过端到端合成技术控制合成语音的语气和韵律；根据嵌入的语气助词、语气和韵律进行语音合成，使得合成的语音能够表达出相应的语气和情绪。

本发明所述面向情景及情感的中文语音合成方法应用于电子装置，所述电子装置可以是电视机、智能手机、平板电脑、计算机等终端设备。

所述电子装置包括：处理器；存储器，用于存储面向情景及情感的中文语音合成程序，处理器执行所述面向情景及情感的中文语音合成程序，实现以下的面向情景及情感的中文语音合成方法的步骤：获取输入语音；将所述输入语音输入情感分析模型，通过所述情感分析模型输出所述输入语音的情感状态；根据对话场景以及所述输入语音的情感状态确定合成语音的情感状态；根据所述合成语音的情感状态以及基于所述输入语音确定的待合成文本进行语音合成。

所述电子装置还包括网络接口和通信总线等。其中，网络接口可以包括标准的有线接口、无线接口，通信总线用于实现各个组件之间的连接通信。

存储器包括至少一种类型的可读存储介质，可以是闪存、硬盘、光盘等非易失性存储介质，也可以是插接式硬盘等，且并不限于此，可以是以非暂时性方式存储指令或软件以及任何相关联的数据文件并向处理器提供指令或软件程序以使该处理器能够执行指令或软件程序的任何装置。本发明中，存储器存储的软件程序包括面向情景及情感的中文语音合成程序，并可以向处理器提供该中文语音合成程序，以使得处理器可以执行该中文语音合成程序，实现中文语音合成方法的步骤。

处理器可以是中央处理器、微处理器或其他数据处理芯片等，可以运行存储器中的存储程序，例如，本发明中面向情景及情感的中文语音合成程序。

所述电子装置还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子装置中处理的信息以及用于显示可视化的工作界面。

所述电子装置还可以包括用户接口，用户接口可以包括输入单元(比如键盘)、语音输出装置(比如音响、耳机)等。

在其他实施例中，面向情景及情感的中文语音合成程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器中，并由处理器执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。图5为本发明中面向情景及情感的中文语音合成程序的模块示意图，如图5所示，所述中文语音合成程序可以被分割为：获取模块1、情感分析模块2、情感确定模块3和语音合成模块4。上述模块所实现的功能或操作步骤均与上文类似，例如其中：

获取模块1，获取输入语音；

情感分析模块2，将所述输入语音输入情感分析模型，通过所述情感分析模型输出所述输入语音的情感状态；

情感确定模块3，根据对话场景以及所述输入语音的情感状态确定合成语音的情感状态；

语音合成模块4，根据所述合成语音的情感状态以及基于所述输入语音确定的待合成文本进行语音合成。

优选地，所述电子装置还包括判断模块，在将所述输入语音输入情感分析模型的步骤之前，根据输入语音和待合成文本判断是否存在交互场景，若不存在交互场景，则设定所述合成语音的情感状态或采用合成语音的默认情感状态，不再对输入语音进行情感分析；若存在交互场景，则进行下一步，将所述输入语音输入情感分析模型中，对输入语音进行情感状态分析。其中，设定的合成语音的情感状态可以是慷慨激昂的，也可以是平缓温和的，具体可以根据人机交互所起的作用或目的而设定。例如，对于智能问答系统，反馈的合成语音的默认情感状态为平缓温和的，若输入语音仅涉及到对某一问题的咨询，而不涉及交互场景，则根据输入语音确定待合成文本的内容即可，以平缓温和的情绪输出待合成文本即可满足用户需求。例如，用户询问“今天的北京气温是多少”，问答系统只需以默认的语气情绪回复“今天的北京气温为××摄氏度”即可，而不必对输入语音进行情感分析。

本发明的一个实施例中，所述情感分析模块包括：参数获取单元，获取所述输入语音的声谱图和语音特征参数；第一特征向量获取单元，将所述输入语音的声谱图输入所述情感识别模型中的经过训练得到的卷积循环神经网络(CRNN)中，通过所述卷积循环神经网络和第一全连接层输出第一特征向量；第二特征向量获取单元，根据所述语音特征参数获取HSF特征(对一段语音中的多帧语音进行特征统计，获取特征参数的平均值或最大值等)，输入所述情感识别模型中，通过所述情感识别模型中的三个第二全连接层输出第二特征向量；特征融合单元，将所述第一特征向量与所述第二特征向量进行融合(concatenate)，得到融合特征向量；第一概率向量获取单元，所述融合特征向量通过所述情感识别模型中的第三全连接层和归一化层输出所述输入语音的情感的第一概率向量；情感状态输出单元，根据所述第一概率向量获取所述输入语音的情感状态。

本发明的一个实施例中，所述情感分析模块包括：文本转化单元，通过语音识别将输入语音转化为待分类文本；特征提取单元，提取所述待分类文本的文本特征向量；输入单元，将所述文本特征向量输入所述情感分类模型中的深度神经网络分类器中；第二概率向量获取单元，通过所述分类器获取所述输入语音的情感的第二概率向量；情感状态输出单元，根据所述第二概率向量获取所述输入语音的情感状态。

优选地，所述情感分析模块包括：第一置信度获取单元，通过基于语音的情感识别模型获取所述输入语音的情感的第一概率向量，根据所述第一概率向量分别获取多种语音情感的第一置信度；第二置信度获取单元，通过基于文本的情感分类模型获取输入语音的情感的第二概率向量，根据所述第二概率向量分别获取多种语音情感的第二置信度；置信度向量获取单元，将同一种语音情感的第一置信度与第二置信度相加，获取所述同一种语音情感的置信度，得到多种语音情感的置信度向量；选择单元，选择所述置信度向量中最大置信度所对应的语音情感作为所述输入语音的情感状态。例如，对于一段输入语音，可能具有的语音情感状态为开心、难过、不耐烦、兴奋、激动等，得到与上述情感状态对应的第一置信度分别为0.6、0.2、0.3、0.4、0.7，第二置信度分别为0.8、0.3、0.2、0.5、0.5，将对应的第一置信度和第二置信度分别相加得到各种语音情感的最终置信度分别为1.4、0.5、0.5、0.9、1.2，选择最大置信度1.4对应的情感状态(开心)作为输入语音的情感状态。

本发明的一个可选实施例中，情感确定模块包括：

构建单元，构建场景库，所述场景库包括多种对话场景以及每种对话场景所对应的情感状态，其中，对话场景以及对应的情感状态可以是人工标注，根据具体的情景结合人类认知进行标签标注，预先定义某些特定的对话场景下，合成语音所需要的情感状态，因为即使是对于同一种情感的输入语音的回复，在不同的对话场景下，所需要反馈的合成语音的情感状态也可能是不同的；

情景分析单元，根据所述输入语音和待合成文本进行情景分析，获取所述待合成文本的对话场景；

查询单元，根据所述场景库获取所述待合成文本的对话场景对应的情感状态；

情感状态确定单元，根据所述对话场景对应的情感状态以及所述输入语音的情感状态确定合成语音的情感状态。

本发明的一个可选实施例中，语音合成模块包括：语气词嵌入单元，通过波形拼接技术对待合成文本进行语气助词嵌入；韵律控制单元，通过端到端合成技术控制合成语音的语气和韵律；语音合成单元，根据嵌入的语气助词、语气和韵律进行语音合成，使得合成的语音能够表达出相应的语气和情绪。

本发明的一个实施例中，计算机可读存储介质可以是任何包含或存储程序或指令的有形介质，其中的程序可以被执行，通过存储的程序指令相关的硬件实现相应的功能。例如，计算机可读存储介质可以是计算机磁盘、硬盘、随机存取存储器、只读存储器等。本发明并不限于此，可以是以非暂时性方式存储指令或软件以及任何相关数据文件或数据结构并且可提供给处理器以使处理器执行其中的程序或指令的任何装置。所述计算机可读存储介质中包括面向情景及情感的中文语音合成程序，所述面向情景及情感的中文语音合成程序被处理器执行时，实现如下的中文语音合成方法：

获取输入语音；

将所述输入语音输入情感分析模型，通过所述情感分析模型输出所述输入语音的情感状态；

根据对话场景以及所述输入语音的情感状态确定合成语音的情感状态；

根据所述合成语音的情感状态以及基于所述输入语音确定的待合成文本进行语音合成。

本发明之计算机可读存储介质的具体实施方式与上述面向情景及情感的中文语音合成方法、电子装置的具体实施方式大致相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种面向情景及情感的中文语音合成方法，应用于电子装置，其特征在于，包括：

获取输入语音；

根据所述合成语音的情感状态以及基于所述输入语音确定的待合成文本进行语音合成；其中包括：

通过波形拼接技术对待合成文本进行语气助词嵌入；

通过端到端合成技术控制合成语音的语气和韵律；

根据嵌入的语气助词、语气和韵律进行语音合成；

其中，所述情感分析模型包括基于语音的情感识别模型，通过所述情感分析模型输出所述输入语音的情感状态的步骤包括：

获取所述输入语音的声谱图和语音特征参数；

将所述输入语音的声谱图输入所述情感识别模型中的经过训练得到的卷积循环神经网络中，通过所述卷积循环神经网络和第一全连接层输出第一特征向量；

根据所述语音特征参数获取统计特征，输入所述情感识别模型中，通过所述情感识别模型中的三个第二全连接层输出第二特征向量；

将所述第一特征向量与所述第二特征向量进行融合，得到融合特征向量；

所述融合特征向量通过所述情感识别模型中的第三全连接层和归一化层输出所述输入语音的情感的第一概率向量；

根据所述第一概率向量获取所述输入语音的情感状态；

或者，所述情感分析模型包括基于文本的情感分类模型，通过所述情感分析模型输出所述输入语音的情感状态的步骤包括：

通过语音识别将所述输入语音转化为待分类文本；

提取所述待分类文本的文本特征向量；

将所述文本特征向量输入所述情感分类模型中的深度神经网络分类器中；

通过所述分类器获取所述输入语音的情感的第二概率向量；

根据所述第二概率向量获取所述输入语音的情感状态；

或者，所述情感分析模型包括基于语音的情感识别模型和基于文本的情感分类模型，通过所述情感分析模型输出所述输入语音的情感状态的步骤包括：

通过所述情感识别模型获取所述输入语音的情感的第一概率向量，根据所述第一概率向量分别获取多种语音情感的第一置信度；

通过所述情感分类模型获取所述输入语音的情感的第二概率向量，根据所述第二概率向量分别获取多种语音情感的第二置信度；

将同一种语音情感的所述第一置信度与所述第二置信度相加，获取所述同一种语音情感的置信度，得到多种语音情感的置信度向量；

选择所述置信度向量中最大置信度所对应的语音情感作为所述输入语音的情感状态。

2.根据权利要求1所述的面向情景及情感的中文语音合成方法，其特征在于，根据对话场景以及所述输入语音的情感状态确定合成语音的情感状态的步骤包括：

构建场景库，所述场景库包括多种对话场景以及每种对话场景所对应的情感状态；

根据所述输入语音和待合成文本进行情景分析，获取所述待合成文本的对话场景；

3.根据权利要求1所述的面向情景及情感的中文语音合成方法，其特征在于，将所述输入语音输入情感分析模型的步骤之前，还包括：

根据输入语音和待合成文本判断是否存在交互场景，若不存在交互场景，则设定所述合成语音的情感状态，不再对输入语音进行情感分析；若存在交互场景，则将所述输入语音输入情感分析模型中。

4.一种电子装置，其特征在于，该电子装置包括：

处理器；

存储器，所述存储器中包括面向情景及情感的中文语音合成程序，所述中文语音合成程序被所述处理器执行时实现如权利要求1至3中任一项所述的中文语音合成方法的步骤：

获取输入语音；

通过波形拼接技术对待合成文本进行语气助词嵌入；

通过端到端合成技术控制合成语音的语气和韵律；

根据嵌入的语气助词、语气和韵律进行语音合成。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括面向情景及情感的中文语音合成程序，所述中文语音合成程序被处理器执行时，实现如权利要求1至3中任一项所述的中文语音合成方法的步骤。