CN111312245B

CN111312245B - 一种语音应答方法、装置和存储介质

Info

Publication number: CN111312245B
Application number: CN202010098634.0A
Authority: CN
Inventors: 王超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2023-08-08
Anticipated expiration: 2040-02-18
Also published as: CN111312245A

Abstract

本申请实施例公开了一种语音应答方法、装置和存储介质，其中，本申请实施例可以获取用户输入的语音信息；提取所述语音信息的音频特征信息，并基于预设情感声学参数和所述音频特征信息，生成所述语音信息的情感声学特征信息；根据所述语音信息的音频特征信息，获取所述语音信息对应的文本信息，并提取所述文本信息的语义特征信息；根据所述情感声学特征信息和所述语义特征信息，获取所述语音信息的情感类型；基于所述情感类型，获取所述语音信息对应的应答内容。根据语音信息的情感类型，可以深度理解用户的需求，从而选择更合理的应答内容，可以安抚用户的情绪，提高用户体验。

Description

一种语音应答方法、装置和存储介质

技术领域

本申请涉及人工智能的技术领域，具体涉及一种语音应答方法、装置和存储介质。

背景技术

近年来，随着语音识别技术的发展，语音识别技术也被应用到多种场景，比如，智能语音客户服务系统，智能终端对话场景等。目前，可以应用语音识别(Automatic SpeechRecognition，ASR)技术，将用户输入的语音信息转化为文本信息，并通过自然语言处理(Natural Language Processing，NLP)技术，理解文本信息包含的领域信息和意图信息，根据文本信息包含的领域信息和意图关键词选择相应的应答内容。但是，这种应答方法对于用户的要求理解不够深入，应答内容过于死板，导致用户体验不佳。

发明内容

有鉴于此，本申请实施例提供了一种语音应答方法、装置和存储介质，可以安抚用户的情绪，提高用户的体验。

第一方面，本申请实施例提供了一种语音应答方法，包括：

获取用户输入的语音信息；

提取所述语音信息的音频特征信息，并基于预设情感声学参数和所述音频特征信息，生成所述语音信息的情感声学特征信息；

根据所述语音信息的音频特征信息，获取所述语音信息对应的文本信息，并提取所述文本信息的语义特征信息；

根据所述情感声学特征信息和所述语义特征信息，获取所述语音信息的情感类型；

基于所述情感类型，获取所述语音信息对应的应答内容。

在一实施例中，在所述根据所述情感声学特征信息和所述语义特征信息，获取所述语音信息的情感类型之前，还包括：

获取多张标注有真实情感类型的语音信息样本；

获取所述语音信息样本的声学特征信息和语义特征信息；

通过预设初始情感识别模型，对所述情感声学特征信息和所述语义特征信息进行融合，获取所述语音信息样本的情感类型预测值；

对比所述情感类型预测值与所述真实情感类型，确定预测结果；

采用损失函数对所述预设初始情感识别模型进行收敛，直至所述预测结果为预测正确，得到训练后的情感识别模型。

在一实施例中，所述根据所述情感声学特征信息和所述语义特征信息，获取所述语音信息的情感类型，包括：

根据所述训练后的情感识别模型，将所述语义特征信息和所述情感声学特征信息进行融合，得到所述语音信息的情感特征信息；

基于所述训练后的情感识别模型对所述情感特征信息进行全连接运算，得到情感类型对应的概率信息；

根据所述概率信息，确定所述语音信息的情感类型。

在一实施例中，所述基于预设情感声学参数和所述音频特征信息，生成所述语音信息的情感声学特征信息，包括：

根据所述音频特征信息，获取所述预设情感声学参数对应的目标声学参数；

将所述目标声学参数与所述预设情感声学参数进行比较，得到比较结果；

根据比较结果，生成所述语音信息的情感声学特征信息。

在一实施例中，所述提取所述语音信息的音频特征信息，包括：

对所述语音信息进行划分，得到音频帧；

提取所述音频帧进行特征提取，得到所述语音信息的音频特征信息。

在一实施例中，所述根据所述语音信息的音频特征信息，获取所述语音信息对应的文本信息，包括：

根据预设声学模型，获取所述音频特征信息对应的音素；

根据预设语言模型，对所述音素和预设字典进行比较与匹配，得到所述音素对应的文本单词；

提取所述文本单词之间的语义关联信息，根据所述关联信息，将所述文本单词组合得到文本信息。

在一实施例中，所述语义特征信息包括语义特征向量，所述提取所述文本信息的语义特征信息，包括：

对所述文本信息进行划分，得到至少一个文本片段；

预设语义特征提取模型内的预设字典，将所述文本片段映射为片段特征向量，其中所述语义特征提取模型是基于循环神经网络的模型；

根据所述片段特征向量及语义特征提取模型特征提取时刻的隐层状态，生成语义特征向量。

在一实施例中，所述根据所述片段特征向量及语义特征提取模型特征提取时刻的隐层状态，生成语义特征向量，包括：

确定所述语义特征提取模型中当前特征提取时刻的上一时刻，获取所述上一时刻的向前隐层状态，根据所述片段特征向量和向前隐层状态计算所述当前特征提取时刻的向前隐层状态；

确定所述当前特征提取时刻的下一时刻，获取所述下一时刻的向后隐层状态，根据所述片段特征向量和向后隐层状态计算当前特征提取时刻的向后隐层状态；

根据所述当前特征提取时刻的向前隐层状态和向后隐层状态，计算得到语义特征向量。

第二方面，本申请的实施例提供了一种语音应答装置，包括：

获取单元，用于获取用户输入的语音信息；

语音识别单元，用于提取所述语音信息的音频特征信息，并基于预设情感声学参数和所述音频特征信息，生成所述语音信息的情感声学特征信息；

语义识别单元，用于根据所述语音信息的音频特征信息，获取所述语音信息对应的文本信息，并提取所述文本信息的语义特征信息；

融合单元，用于根据所述情感声学特征信息和所述语义特征信息，获取所述语音信息的情感类型；

应答单元，用于基于所述情感类型，获取所述语音信息对应的应答内容。

第三方面，本申请的实施例提供的存储介质，其上存储有计算机程序，当计算机程序在计算机上运行时，使得计算机执行如本申请任一实施例提供的语音应答方法。

本申请实施例可以获取用户输入的语音信息；提取所述语音信息的音频特征信息，并基于预设情感声学参数和所述音频特征信息，生成所述语音信息的情感声学特征信息；根据所述语音信息的音频特征信息，获取所述语音信息对应的文本信息，并提取所述文本信息的语义特征信息；根据所述情感声学特征信息和所述语义特征信息，获取所述语音信息的情感类型；基于所述情感类型，获取所述语音信息对应的应答内容。根据语音信息的情感类型，可以深度理解用户的需求，从而选择更合理的应答内容，可以安抚用户的情绪，提高用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的语音应答系统的场景示意图；

图2a是本发明实施例提供的语音应答方法的第一种流程示意图；

图2b是本发明实施例提供的语音应答方法的第二种流程示意图；

图3是本发明实施例提供的语音应答装置的结构示意图；

图4是本发明实施例提供的计算机设备的结构示意图；

图5a是本发明实施例提供的第一种场景下的语音应答示意图；

图5b是本发明实施例提供的第二种场景下的语音应答示意图；

图5c是本发明实施例提供的长短时记忆网络节点示意图；

图5d是本申请实施例提供的双向长短时记忆网络示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明实施例提供一种语音应答方法、装置和存储介质。

本发明的涉及到人工智能技术和机器学习技术，其中，人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

其中，语音应答装置具体可以集成在网络设备，比如终端或服务器等设备中。其中，该终端可以为手机、平板电脑、笔记本电脑等设备，也为包括穿戴设备、智能音箱、智能盒子、智能电视等智能终端。该服务器可以是单台服务器，也可以是由多个服务器组成的服务器集群。

参考图1，本发明的实施例提供了一种语音应答系统，至少包括终端和服务器，终端与服务器通过网络链接。

上述图1的例子只是实现本发明实施例的一个系统架构实例，本发明实施例不限于上述图1所示的系统结构，基于该系统架构，提出本发明各个实施例。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

如图2a所示，提供了一种语音应答方法，该方法可以由终端或服务器来执行，本实施例以该方法由服务器来执行为例进行说明。该语音应答方法的具体流程如下:

101、获取用户输入的语音信息。

在一实施例中，终端可以通过信号采集设备(比如话筒)采集用户输入的语音信息，并将采集到的语音信息通过网络转发给服务器。其中，语音信息在计算机设备(包括终端和服务器)之间以音频文件的形式存储和传输。

在一实施例中，为了提升语音应答方法的通用性和可靠性，终端可以将获取到的语音信息，进行编码和封装得到音频文件，并将音频文件传递给服务器。服务器可以对音频文件进行解码得到，比如，步骤“获取用户输入的语音信息”，可以包括：

对音频文件进行解封装处理，得到音频数据流；

分别对所述音频数据流进行解码，得到音频帧序列。

服务器实际以音频帧序列的形式，获取到用户输入的语音信息。

102、提取所述语音信息的音频特征信息，并基于预设情感声学参数和所述音频特征信息，生成所述语音信息的情感声学特征信息。

其中，音频特征信息是用于表示声波特点的信息。该声波是指语音信息对应的声音信号，因为声音信号以波的形式传播，因此，也可以称为声波。

在一实施例中，提取所述语音信息的音频特征信息可以包括如下步骤：

对所述语音信息进行划分，得到音频帧；

在一实施例中，音频特征信息可以表现为MFCC(Mel-Frequency CepstralCoefficients，梅尔频率倒谱系数)向量，为了为了避免相邻两帧的变化过大，在对所述语音信息进行划分，得到音频帧之前，还要对音频帧进行预加重，然后将每帧音频帧带入汉明窗函数，得到每帧音频帧对应的短时分析窗，对于每个短时分析窗通过FFT(傅里叶变换)得到对应的频谱，然后将上面的频谱通过梅尔滤波器组过滤掉人类听不到的频率，得到梅尔频谱，从而将线形的自然频谱转换为体现人类听觉特性的梅尔频谱。在梅尔频谱上面进行倒谱分析(取对数，做逆变换，实际逆变换一般是通过离散余弦变换来实现，取离散余弦后的第2个到第13个系数作为梅尔频率倒谱系数)，得到梅尔频率倒谱系数。每帧的12个梅尔频率倒谱系数组合得到每帧音频帧的倒谱向量。在一实施例中，还可以根据梅尔倒谱系数计算帧间的动态变化特征，与每帧的梅尔倒谱系数共同组成倒谱向量。所有音频帧的倒谱向量就是上述语音信息的音频特征信息。

在一实施例中，可以采用决策树模型来提取声学特征信息。决策树模型可以基于预设情感声学参数和所述音频特征信息，生成所述语音信息的情感声学特征信息，具体可以包括如下步骤：

根据比较结果，生成所述语音信息的情感声学特征信息。

其中，情感声学特征是与情感有关的声学特征，其中，声学特征是语音的声波特点。声学特征主要分为，韵律类、音质类和清晰度类。韵律类需要包含平均基频、基频范围、重音突变特性、停顿连贯性、语速、重音频度和音强等；音质类需要包含呼吸声、明亮度和喉化度；清晰度可以分为正常、焦急、模糊和准确。

其中，预设情感声学参数是用于表示情感声学特征的预设参数。比如，可以与预先设定基质范围在x1Hz～x2Hz之间为中，x1Hz以下为低，x2Hz以上的为高。那么基频范围对应的情感声学特征为x1Hz和x2Hz。

其中，目标声学参数是用于表示输入决策树的音频特征信息中的声学特征的参数。其中，目标声学参数对应的声学特征，与待与其比较的情感声学特征参数对应的声学特征一致。

在一实施例中，决策树模型包括多个节点，每个父节点到它的子节点时都会进行一次计算，得到情感声学特征对应的目标声学参数，然后与其对应的情感声学特征参数进行比较，得到用于表示该比较结果的向量元素。直至比较完成所有的的预设情感声学特征参数，得到最终的情感声学特征信息(一般表现为声学特征向量的形式)。

在一实施例中，为了调整情感识别的结果，可以通过增加、删除决策树模型中不同的情感声学特征参数，或者增加、删除声学特征向量中的不同元素，对情感声学特征信息进行修改。

在另一实施例中，还可以用声音谱图作为音频特征信息，相应地可以用CRNN模型来提取声音频谱中的情感声学特征信息。其中，可以将语音信息分帧、加窗，再对每一帧做傅里叶变换(FFT)，最后把每一帧的结果沿另一个维度堆叠起来，得到类似于一幅图的二维信号形式，作为声音谱图。其中，CRNN(Convolutional Recurrent Neural Network，卷积递归神经网络)模型包括两个卷积层，对输入的声音谱图进行卷积运算，提取声学特征，为了减少计算量，还可以在每个卷积层之后设置一个下采样层。

其中，卷积层(Convolutional layer)主要用于对输入的图像(比如目标识别图像)进行特征提取，每个卷积层包括多个卷积核，其中，卷积层的卷积核大小可以根据实际应用而定，不同的卷积核具有不同的权重值，可以用于提取不同维度的声学特征，比如，平均基频、基频范围、停顿连贯性、语速、重音频度和音强呼吸声、明亮度和喉化度、清晰度正常、焦急、模糊和准确等。

可选地，为了提高模型的表达能力，还可以通过加入激活函数来加入非线性因素。

其中，下采样层用于进行下采样(pooling)操作，该下采样操作与卷积的操作基本相同，只不过下采样的卷积核为只取对应位置的最大值(max pooling)或平均值(averagepooling)等。

103、根据所述语音信息的音频特征信息，获取所述语音信息对应的文本信息，并提取所述文本信息的语义特征信息。

其中，根据音频特征信息，获取对应的文本信息的过程涉及到人工智能领域的ASR(Automatic Speech Recognition，语音识别)技术，该技术用于将语音信息中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。ASR是语音技术(SpeechTechnology)的关键技术之一。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

在一实施例中，根据所述语音信息的音频特征信息，获取所述语音信息对应的文本信息，具体可以包括如下步骤：

根据预设声学模型，获取所述音频特征信息对应的音素；

其中，音素是从音色的角度划分出来的最小的语音单位。

在一实施例中，可以采用隐马尔科夫模型(HMM)作为声学模型。隐马尔科夫模型(HMM)需要经过训练才可以使用。

在另一实施例中，还可以基于深度神经网络训练语言模型，提取特征输入语言模型，得到语音信息对应的文本信息。

在一实施例中，所述语义特征信息包括语义特征向量，提取所述文本信息的语义特征信息，可以包括如下步骤：

对所述文本信息进行划分，得到至少一个文本片段；

根据所述片段特征向量及所述语义特征提取模型特征提取时刻的隐层状态，生成语义特征向量。

其中，文本片段可以是具有词语含义的字符组，一个字符组可以包含一个或者多个字符。片段特征向量是用于表示一个文本片段的语义特征的向量，片段特征向量的每一个元素代表一个具有一定的语义和语法上解释的特征。所以，可以将片段特征向量的每一个元素称为一个词语特征。其中，片段特征向量的元素指的是片段特征向量每一维的数值。

文本信息可以通过预设词嵌入算法(比如Word2Vec等)转换为片段特征向量，其中word2vec(word to vector，词成向量法)可以根据给定的语料库，通过训练优化后的语义特征提取模型快速有效地将一个文本片段表达成向量形式。当语义特征提取模型接收到划分得到的文本片段时，可以根据语义特征提取模型内的预设字典将该文本片段转换为片段特征向量。其中，在该预设字典中每一个字都与一个向量一一对应。

所述语义特征提取模型内的字典可以作为语义特征提取模型的一部分保存在该语音应答装置的本地内存中，也可以通过网络与网络服务器通信以获得。

其中，所述语义特征向量是用于表示文本信息的完整语义特征的向量，既包含文本信息中的每个文本片段的语义特征信息，又包含各文本片段之间的关联信息。

比如，文本信息为一个句子，该文本信息划分得到的文本片段可以表现为词语，那么所述根据所述片段特征向量及语义特征提取模型特征提取时刻的隐层状态，生成语义特征向量可以理解为：根据词语特征向量，以及各词语之间的关联信息，生成句子的特征向量。

语义特征提取模型可以把多个片段特征向量转换成一个定长的语义特征向量c，这一过程可以通过循环神经网络(Recurrent Neural Network，RNN)来实现，比如长短期记忆网络(Long Short-Term Memory，LSTM)等等。

例如，语义特征提取过程使用了LSTM模型记忆的功能，通过文本信息中上下文的序列关系，将多个片段特征向量依次输入网络。对于LSTM模型，隐层状态来源与当前特征提取时刻的输入和上一时刻的隐层状态，而语义特征向量就是总结多个片段特征向量所对应的各个隐层状态。

在一些实施例中，为了使计算机对语言的处理进一步深入到语义理解的层面，可以使用双向长短时记忆网络，步骤“根据所述片段特征向量及所述语义特征提取模型特征提取时刻的隐层状态，生成语义特征向量”具体可以包括：

图5c是本申请实施例提供的长短时记忆网络节点示意图，如图5c所示，LSTM模型是由t时刻的输入x_t，细胞状态(cell state)C_t，临时细胞状态C_t’，隐层状态h_t，遗忘门f_t，记忆门i_t，输出门o_t组成。LSTM的计算过程可以概括为，通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递，而无用的信息被丢弃，并在每个时间步都会输出隐层状态，其中遗忘，记忆与输出由通过上个时刻的隐层状态和当前输入计算出来的遗忘门，记忆门，输出门来控制。

这种结构可以使之前输入的信息保存在网络中，并一直向前传递，输入门打开时新的输入才会改变网络中保存的历史状态，输出门打开时保存的历史状态会被访问到，并影响之后的输出，忘记门用于清空之前保存的历史信息。

在单向的长短时记忆网络中，f_t被称为遗忘门，可以选择需要被遗忘的信息，遗忘门的值由前一时刻的隐层状态和当前特征提取时刻的输入决定：

f_t＝σ(W_f[h_t-1，x_t]+b_f)

记忆门决定什么样的新信息被存放在细胞状态中，当输入前一时刻的隐层状态和当前特征提取时刻的输入后，记忆门能够输出记忆门的值以及临时细胞状态：

i_t＝σ(W_i[h_t-1，x_t]+b_i)

C_t’＝tanh(W_C[h_t-1，x_t]+b_C)

当前特征提取时刻的细胞状态可以由记忆门的值、遗忘门的值、临时细胞状态以及上一刻细胞状态决定：

C_t＝f_t*C_t-1+i_t*C_t’

o_t被称作输出门，决定了输出的值，它可以由前一时刻的隐层状态和当前特征提取时刻的输入词决定：

o_t＝σ(W_o[h_t-1，x_t]+b_o)

当前特征提取时刻的隐层状态可以由当前特征提取时刻的细胞状态和当前特征提取时刻的输入门值决定：

h_t＝o_t*tanhC_t

其中，W以及b是模型通过训练阶段与预测阶段习得的参数。

最终，可以得到隐层状态序列{h₀，h₁，...，h_n-1}。

向前的LSTM与向后的LSTM可以结合成BiLSTM，是本申请实施例提供的双向长短时记忆网络示意图，如图5d所示，BiLSTM包括两个LSTM，在图5d中，下方为向前的LSTM，上方为向后的LSTM，两个方向的LSTM之间互不影响。

例如，向前的LSTM将片段特征向量组依次正向输入得到向量{h_L0，h_L1，h_L2}，向后的LSTM将片段特征向量组依次反向输入得到向量{h_R0，h_R1，h_R2}，将其拼接得到{[h_L0，h_R2][h_L1，h_R1][h_L2，h_R0]}，即{h₀，h₁，h₂}。

(2.1)确定所述语义特征提取模型中当前特征提取时刻的上一时刻，获取所述上一时刻的向前隐层状态，根据所述片段特征向量和向前隐层状态计算所述当前特征提取时刻的向前隐层状态；

(2.2)确定所述当前特征提取时刻的下一时刻，获取所述下一时刻的向后隐层状态，根据所述片段特征向量和向后隐层状态计算当前特征提取时刻的向后隐层状态。

其中，在步骤2.1中，上一时刻的向前隐层状态是指上一次输入当前片段特征向量的时刻的的向前隐层状态，例如，在图5d中为下方的S₀；在步骤2.2中，下一时刻的向后隐层状态是指下一次输入当前片段特征向量的时刻的向后隐层状态，例如，在图5d中为上方的S₀。

将文本片段输入语义特征提取模型，语义特征提取模型会根据上一时刻向前的隐层状态计算当前特征提取时刻的向前隐层状态，然后根据下一时刻向后的隐层状态计算当前特征提取时刻向后的隐层状态。

若文本片段是首次输入语义特征提取模型，即当前语义特征提取模型没有上一时刻的向前隐层状态和下一时刻的向后隐层状态，则上一时刻的向前隐层状态为为预设向前隐层阈值0，该阈值常常为0；下一时刻的向后隐层状态为预设向后隐层阈值，该阈值可以由技术人员预先设定，除此之外，该阈值常常也为0。

(2.3)根据所述当前特征提取时刻的向前隐层状态和向后隐层状态，计算得到语义特征向量。

语义特征向量C可以是语义特征提取模型隐层状态h的联合，也可以是当前时刻输出的隐层状态，还可以是对所有隐层状态做某种变换，在此不做限定。

在另一实施例中，根据所述片段特征向量及所述语义特征提取模型特征提取时刻的隐层状态，生成语义特征向量，也可以通过卷积运算实现，具体可以采用CNN(Convolutional Neural Networks，卷积神经网络)、Res Net(ResidualNeuralNetwork，深度残差网络)、VGG(Visual Geometry Group，视觉几何组)Net(网络)等等包含卷积层的神经网络模型，卷积层的原理参见上面的实施例，不再赘述。

在一实施例中，可以通过增加、删除语义特征向量中不同的元素，来调整情感识别的结果。

104、根据所述情感声学特征信息和所述语义特征信息，获取所述语音信息的情感类型。

在一实施例中，在所述根据所述情感声学特征信息和所述语义特征信息，获取所述语音信息的情感类型之前，还需要训练神经网络模型，得到训练后的情感识别模型，具体可以包括如下步骤：

获取多个标注有真实情感类型的样本对，所述样本对包括语音信息样本，以及所述语音信息样本对应的文本信息样本；

提取所述语音信息样本的声学特征信息，并提取所述文本信息样本的语义特征信息；

其中，真实情感类型是预先标注的情感类型，情感类型预测值是情感识别模型计算得到情感类型对应的概率值。

其中，损失函数是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数，损失函数可以根据实际应用需求进行灵活设置，比如，损失函数J可以选为交叉熵，如下：

其中，C为情感类型的数量，为输出的情感类型为第k个的预测值，y_k的不同取值代表是真实情感类型与预测结果是否是同一情感类型。通过降低损失函数，进行不断训练，以调整优化权重参数，便可得到该训练后的情感识别模型。其中，情感类型预测值可以表现为情感类型对应的概率信息。

在一实施例中，可以用反向传播算法定义一个误差(往往是输出结果与预想结果之间的某个范数)，然后求出满足误差极小的权向量。如果把误差看成一个连续函数(泛函)的话，求对权向量各分量的偏导为0即可，但是实际上它是离散的，所以我们需要用迭代来求最小梯度。在迭代次数趋近无穷的时候，权向量等于某一解，也可以证明它满足李普希兹条件(就是带有完备范数和李普希兹常数的那个)，这种情形下我们叫做收敛。

在一实施例中，获取多个标注有真实情感类型的样本对，可以包括如下步骤：从语音数据集中提取大量的语音数据，采用ASR技术对语音数据进行识别得到对应的文本信息样本，将语音数据进行预加重、加窗处理、分帧等处理得到语音信息样本。将语音信息样本和对应的文本信息样本作为一个样本对，最终得到大量的样本对，然后给得到的样本对标注情感类型。其中，预加重、加窗处理、分帧和断点检测等处理的具体原理参见上面的实施例，不再赘述。

得到训练后的情感识别模型之后，可以用训练后的情感识别模型处理所述声学特征信息和所述语义特征信息，获取所述语音信息的情感类型，具体可以包括如下步骤：

根据所述概率信息，确定所述语音信息的情感类型。

在一实施例中，声学特征信息和语义特征信息可以表现为特征向量，每个特征向量包括多个元素，上述融合方式可以表现为：将声学特征向量和所述语义特征向量直接进行拼接，得到情感特征信息，当然也可以采用其他方式进行融合。

上述训练后的情感识别模型至少包括一个全连接层，该全连接层中包括softmax分类网络(内含softmax函数)，如果加权的角度来理解根据声学特征信息和所述语义特征信息，获取所述语音信息的情感类型的过程，具体可以包括：全连接层用于将权重矩阵与拼接得到的情感特征向量相乘再加上偏置，将拼接得到的特征向量中的元素映射为各个情感类型对应的分数；Softmax函数将各个情感类型对应的分数映射为K个(0，1)的实数，同时保证它们之和为1，这个实数就是情感类型对应的概率信息。其中，权重矩阵可以表现为每个元素的重要程度、对情感类型的影响程度。权重矩阵可以通过上述训练不断优化得到。

通过融合情感声学特征和语义特征，来识别语音信息包含的情感，可以提高情感识别的准确性。

105、基于所述情感类型，获取所述语音信息对应的应答内容。

为了提高情感识别的准确性，对于不同的语音应答场景，可以选用不同的模型来提取语义和声学特征，或者调整模型的参数，或者调整融合方式。

在一实施例中，参考图5a，在智能客服对话场景中，语音应答系统中包括客户使用的输入终端、客服人员使用的应答终端，以及服务器，其中，终端和服务器通过网络连接。其中，客户使用的输入终端具有信号采集设备，可以用于获取客户输入的语音信息。

在智能客服对话场景中，根据识别得到的情感类型，向客服人员推荐相应的应对话术。比如，如果识别到客户输入的语音信息为愤怒情感，将推荐给客服人员的应对话术为稳定客户情绪的语句；如果识别到客户输入的语音信息为惊奇情感，将推荐给客服人员的话术为引导客户进一步了解内容的语句；如果识别到客户输入的语音信息为平淡情感，将推荐给客服人员的话术为能引起客户兴趣的语句。其中，话术可以理解为预设的应对语句模板。不同情感类型对应的话术是预先设置好的，当识别到语音信息的情感类型，就可以根据情感类型，获取对应的话术，并向客服人员推荐。

在一实施例中，参考图5b，在智能音箱对话场景中，语音应答系统中包括智能音箱和服务器，其中，智能音箱和服务器通过网络连接。

在智能音箱对话场景中，采用ASR技术对用户输入的语音信息进行语音识别，得到文本信息，然后采用NLP技术识别文本信息的意图，同时识别语音信息的情感类型，并根据该情感类型和意图来确定智能音箱的应答内容。比如：用户对音箱说：“我要听歌”，智能音箱会检测该语音信息所包含的情感类型，如果是非常愤怒的情感，智能音箱将回复：“消消气吧，让我们来听一首暖心的歌曲《XX》”；如果是悲伤的情感，智能音箱将回复：“日子会越来越好，让我们来欣赏一首舒缓的歌曲《XX》”；如果是非常高兴，智能音箱将回复：“今天好高兴啊，让我们来听听XXX的相声！”

根据前面实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以智能音箱对话场景，且该语音应答装置具体集成在服务器中来进行说明。

参考图2b，本申请实施例还提供一种语音应答方法，具体流程可以如下：

201、服务器获取用户输入的语音信息。

智能音箱包括用于接收音频信号的设备，比如，话筒。智能音箱接收到语音信号之后，可以将语音信号进行编码和封装之后得到音频文件，通过网络传输给服务器。

服务器可以对音频文件进行解码和解封装，得到音频帧序列。

202、服务器提取所述语音信息的音频特征信息，并基于预设情感声学参数和所述音频特征信息，生成所述语音信息的情感声学特征信息。

服务器可以提取语音信息的梅尔倒谱向量，作为音频特征信息。并根据梅尔倒谱向量，提取出语音信息中与情感有关的声学特征，得到情感声学特征信息。

服务器还可以获取语音信息的声音谱图，作为音频特征信息，并将声音谱图输入CRNN模型，进行卷积运算，从而提取情感声学特征信息。

其中，具体的提取过程参见上面的实施例，不再赘述。

203、服务器根据所述语音信息的音频特征信息，获取所述语音信息对应的文本信息，并提取所述文本信息的语义特征信息。

服务器可以通过ASR技术获取语音信息对应的文本信息，并采用LSTM模型提取文本信息的语义特征信息，具体过程参见上面的实施例，不再赘述。

204、服务器根据所述训练后的情感识别模型，将所述语义特征信息和所述情感声学特征信息进行融合，得到所述语音信息的情感特征信息。

在一实施例中，所述语义特征信息可以表现为语义特征向量，所述情感声学特征信息可以表现为声学特征向量，可以将语义特征向量和所述声学特征向量进行拼接，得到情感特征向量，作为上述情感特征信息。

205、服务器基于所述训练后的情感识别模型对所述情感特征信息进行全连接运算，得到情感类型对应的概率信息。

其中，情感识别模型包括全连接层和softmax分类网络，全连接层用以对所述情感特征信息进行全连接运算，softmax分类网络包含softmax函数。

全连接层：可以将学到的特征映射到样本标记空间，其在整个卷积神经网络中主要起到“分类器”的作用，全连接层的每一个结点都与上一层(如卷积层中的下采样层)输出的所有结点相连，其中，全连接层的一个结点即称为全连接层中的一个神经元，全连接层中神经元的数量可以根据实际应用的需求而定，在本实施例中神经元的数量与情感类型的数量一致，全连接层的每个神经元输出一个情感类型对应的分数。与卷积层类似，可选的，在全连接层中，也可以通过加入激活函数来加入非线性因素，比如，可以加入激活函数sigmoid(S型函数)。

Softmax函数可以将各个情感类型对应的分数映射为K个(0，1)的实数，同时保证它们之和为1，这个实数就是情感类型对应的概率信息。

206、服务器根据所述概率信息，确定所述语音信息的情感类型。

从概率信息中确定数值最高的情感类型，作为所述语音信息的情感类型。

207、服务器基于所述情感类型，获取所述语音信息对应的应答内容。

服务器可以根据语音信息的的意图和情感类型，确定应答内容，并将应答内容返回给智能音箱。

例如，如图3所示，该语音应答装置可以包括获取单元301、语音识别单元302、语义识别单元303、融合单元304和应答单元305，如下：

(1)获取单元301，用于获取用户输入的语音信息。

(2)语音识别单元302，用于提取所述语音信息的音频特征信息，并基于预设情感声学参数和所述音频特征信息，生成所述语音信息的情感声学特征信息。

在一实施例中，所述语音识别单元302具体可以用于：

对所述语音信息进行划分，得到音频帧；

提取所述音频帧进行特征提取，得到所述语音信息的音频特征信息；

根据比较结果，生成所述语音信息的情感声学特征信息。

(3)语义识别单元303，用于根据所述语音信息的音频特征信息，获取所述语音信息对应的文本信息，并提取所述文本信息的语义特征信息。

在一实施例中，所述语义识别单元303具体可以用于：

根据预设声学模型，获取所述音频特征信息对应的音素；

提取所述文本单词之间的语义关联信息，根据所述关联信息，将所述文本单词组合得到文本信息；

对所述文本信息进行划分，得到至少一个文本片段；

(4)融合单元304，用于根据所述情感声学特征信息和所述语义特征信息，获取所述语音信息的情感类型。

在一实施例中，所述融合单元304具体可以用于：

根据训练后的情感识别模型，将所述语义特征信息和所述情感声学特征信息进行融合，得到所述语音信息的情感特征信息；

根据所述概率信息，确定所述语音信息的情感类型。

优选地，语义应答装置还包括训练单元306，具体可以用于：

(5)应答单元305，用于基于所述情感类型，获取所述语音信息对应的应答内容。

此外，本申请实施例还提供一种计算机设备。如图4所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监测。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取用户输入的语音信息；

基于所述情感类型，获取所述语音信息对应的应答内容。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本申请实施例根据语音信息的情感类型，可以深度理解用户的需求，从而选择合理的应答内容，可以安抚用户的情绪，提高用户体验。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例还提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种语音应答方法中的步骤。例如，该指令可以执行如下步骤：

获取用户输入的语音信息；

基于所述情感类型，获取所述语音信息对应的应答内容。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请实施例所提供的任一种语音应答方法中的步骤，因此，可以实现本申请实施例所提供的任一种语音应答方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种语音应答方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音应答方法，其特征在于，包括：

获取用户输入的语音信息；

提取所述语音信息的音频特征信息，并基于预设情感声学参数和所述音频特征信息，生成所述语音信息的情感声学特征信息；所述情感声学特征信息是与情感相关的声学特征；

基于所述情感类型，获取所述语音信息对应的应答内容；

其中，所述基于预设情感声学参数和所述音频特征信息，生成所述语音信息的情感声学特征信息，包括：根据所述音频特征信息，获取所述预设情感声学参数对应的目标声学参数；将所述目标声学参数与所述预设情感声学参数进行比较，得到比较结果；根据比较结果，生成所述语音信息的情感声学特征信息；

所述根据所述情感声学特征信息和所述语义特征信息，获取所述语音信息的情感类型，包括：根据情感识别模型，将所述语义特征信息和所述情感声学特征信息进行融合，得到所述语音信息的情感特征信息；基于所述情感识别模型对所述情感特征信息进行全连接运算，得到情感类型对应的概率信息；根据所述概率信息，确定所述语音信息的情感类型。

2.如权利要求1所述的语音应答方法，其特征在于，所述情感识别模型是通过如下的步骤训练的：

3.如权利要求1所述的语音应答方法，其特征在于，所述提取所述语音信息的音频特征信息，包括：

对所述语音信息进行划分，得到音频帧；

4.如权利要求3所述的语音应答方法，其特征在于，所述根据所述语音信息的音频特征信息，获取所述语音信息对应的文本信息，包括：

根据预设声学模型，获取所述音频特征信息对应的音素；

5.如权利要求4所述的语音应答方法，其特征在于，所述语义特征信息包括语义特征向量，所述提取所述文本信息的语义特征信息，包括：

对所述文本信息进行划分，得到至少一个文本片段；

6.如权利要求5所述的语音应答方法，其特征在于，所述根据所述片段特征向量及语义特征提取模型特征提取时刻的隐层状态，生成语义特征向量，包括：

7.一种语音应答装置，其特征在于，包括：

获取单元，用于获取用户输入的语音信息；

语音识别单元，用于提取所述语音信息的音频特征信息，并基于预设情感声学参数和所述音频特征信息，生成所述语音信息的情感声学特征信息，所述情感声学特征信息是与情感相关的声学特征；所述语音识别单元，具体用于根据所述音频特征信息，获取所述预设情感声学参数对应的目标声学参数；将所述目标声学参数与所述预设情感声学参数进行比较，得到比较结果；根据比较结果，生成所述语音信息的情感声学特征信息；

融合单元，用于根据所述情感声学特征信息和所述语义特征信息，获取所述语音信息的情感类型；所述融合单元，具体用于根据情感识别模型，将所述语义特征信息和所述情感声学特征信息进行融合，得到所述语音信息的情感特征信息；基于所述情感识别模型对所述情感特征信息进行全连接运算，得到情感类型对应的概率信息；根据所述概率信息，确定所述语音信息的情感类型；

8.一种存储介质，其上存储有计算机程序，其特征在于，当计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至6中任一项所述的方法。