CN108319666A

CN108319666A - 一种基于多模态舆情分析的供电服务评估方法

Info

Publication number: CN108319666A
Application number: CN201810055254.1A
Authority: CN
Inventors: 沈然; 王正国; 胡若云; 涂莹; 丁麒; 吴慧; 颜拥; 吕诗宁; 谷泓杰; 朱斌; 何韵
Original assignee: State Grid Zhejiang Electric Power Co Ltd; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2018-01-19
Filing date: 2018-01-19
Publication date: 2018-07-24
Anticipated expiration: 2038-01-19
Also published as: CN108319666B

Abstract

一种基于多模态舆情分析的供电服务评估方法，涉及一种供电服务评估方法。目前，客户诉求内容以文本数据为主，其信息量大且非结构化。本发明包括以下步骤：基于增减分量法和长短时记忆网络的方法进行语音特征情感识别；基于word2vec与LSTM方式进行文本诉求分类。本技术方案将语音进行特征抽取并结合文本特征能有效地提高模型的情感识别的精度；将文本进行分词与特征抽取后，通过结合语音的特征信息，可以使模型更好地挖掘到文本诉求中有用的信息，使用带注意机制的深度循环神经网络在不同时刻注意不同的关键词，使模型更好地捕捉上下文之间的语义关系，挖掘目标文本中的时序信息以及语义信息，从而提高文本分类的准确率。

Description

一种基于多模态舆情分析的供电服务评估方法

技术领域

本发明涉及一种供电服务评估方法，尤其涉及一种基于多模态舆情分析的供电服务评估方法。

背景技术

供电服务是电力供应过程中，电力企业为了满足客户获得和使用电力产品的各种相关需求而做出的服务。在电力企业供电服务的质量要求随着电力体制改革的推进而不断提高的背景下，改良供电服务评估方法势在必行。而针对用户的反馈建立一种更加有效、准确的分析模型对于改良供电服务评估方法则是一个很好的切入点。因为用户提交的文本反馈与语音反馈是企业了解客户、挖掘客户诉求并据此改进服务的重要渠道。其中，相对于客户诉求的文本数据而言，语音数据包含有多维度的情感信息，如语速、声调和音量等。这些多维度的情感信息使得语音数据更能反映出用户的真实情感。而客户诉求内容以文本数据为主，其具有信息量大和非结构化的特点。

现有的语言情感分析与识别系统以及文本诉求挖掘系统基于传统的机器学习算法，非常依赖于人工提取的特征，因此存在特征提取的瓶颈。而基于全连接神经网络的方法也存在参数太多、无法利用数据中时间序列信息等问题。与深度神经网络相比，循环神经网络有序贯记忆性，这种能力的重要性在语言理解显得尤为突出，因为语言理解需要首先理解语境，而在理论上，深度循环神经网络可以记住很长窗口的信息。其次，深度循环神经网络可以端到端训练，不依赖于人工提取的特征，适合处理非结构化的客户诉求内容。特别地，基于注意力机制的神经网络成为了最近神经网络研究的一个热点。和传统深度循环神经网络相比，通过基于word2vec与LSTM的神经网络，模型可以在不同地时刻注意到不同的关键词，从而模型可以更好地捕捉上下文间的语义关系，挖掘客户诉求文本中的时序信息以及语义信息，提高最终诉求类别的准确率。

语音信号的特征表达是提取音频信号中具有辨识性成分，例如MFCC特征,然后送入情感识别模块完成情感的判断。然而MFCC特征并没有考虑同一帧梅尔(Mel)滤波结果相邻系数之间的关系以及同一帧梅尔(Mel)滤波结果同一系数相邻帧之间的关系,这样可能会丢失语谱图中较多有用的信息。并且MFCC特征参数在语音识别中对于中、高频信号的识别精度不高。因此采用增减分量法计算MFCC、Mid-MFCC和IMFCC各阶倒谱分量对语音情感识别的贡献，提取3个特征参数贡献最高的几阶倒谱分量组成新的特征参数提高语音情感识别率显得尤为重要。针对客户诉求的文本分类任务，通常采用决策树、KNN(K-NearestNeighbor)算法、支持向量机等，但决策树存在忽略数据集中属性之间的相关性及过度拟合等问题；KNN算法输出的可解释性不强；支持向量机对缺失数据敏感、对非线性问题没有通用的解决方案等。

发明内容

本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进，提供一种基于多模态舆情分析的供电服务评估方法，以达到准确进行供电服务客户的语音情感分析与识别以及客户文本诉求的目的。为此，本发明采取以下技术方案。

一种基于多模态舆情分析的供电服务评估方法，包括以下步骤：

1)基于增减分量法和长短时记忆网络的方法进行语音特征情感识别，具体步骤包括：

11)对语音数据提取MFCC、IMFCC、Mid-MFCC语音特征；

12)采用增减分量法求出上述特征参数中倒谱分量对情感识别的贡献；将特征参数中对识别率贡献最高的几阶系数组合到一起，构成新的特征参数IMF-M-MFCC；

13)采用长短时记忆网络将输入的IMF-M-MFCC特征序列分类为相应的情感类别；将获得的IMF-M-MFCC特征序列进行输出，经过逐层传递，捕获整个序列中的语义信息，以及综合语音序列中上下文信息，最终将这些信息逐步保留并编码成针对语音情感的高层语义用于最终的语音情感识别；

2)基于word2vec与LSTM方式进行文本诉求分类，具体步骤包括：

21)对客户文本诉求数据进行预处理，包括:

211)处理文本编码格式问题，使用统一规范的编码，避免出现中英文乱码情况；

212)去除文本的无关信息，无关信息包括标点符号，网址和表情；对所有样本数据中的文本内容进行分词；

213)去除文本数据中的停用词，并将所有英文字母转换成小写；

22)基于文本语料库中的词频，选择出现频率最高的词或单词组合形成词典；对于高频次的单词进行抽样来减少训练样本的个数；

23)根据各词的词频建立哈夫曼树并生成节点所在的二进制码，该二进制码反映了对应节点在树中的位置；根据编码能够从根节点一步步找到对应的叶子节点；接着，初始化各非叶子节点的中间向量和叶子节点中的词向量；

24)训练中间向量和词向量，即回到语料库，逐句的读取一系列的词，用梯度下降算出梯度，再更新非叶子节点处向量的词与词向量的值；由于词典的大小导致网络将会拥有大规模的权重矩阵，因此训练过程中采用负采样，使训练样本仅更新一小部分权重，降低梯度下降过程中的计算量；

25)将得到的词向量作为后续LSTM网络的输入；LSTM处理短文本特征时对于由多个句子组成的客户诉求，先对文本进行分句，然后使用平均的情感值来表示该文本诉求的情感值；输入LSTM网络的则是句子中各个词汇对应的词向量；句子长度统一，不足的用零向量补齐；对于输入的词向量，用隐藏层状态h_i作为其在网络中的中间表示；每一层的LSTM单元中，由遗忘门决定遗忘信息；输入门决定单元中需要更新的值，创建新的候选值，输入门、遗忘门与新的候选值一起产生新的状态；最终，由输出门决定输出的值，得到该隐藏层的状态；

26)将LSTM最后一层隐藏层状态为当前输入句的表示，经过一层softmax，得到该句的情感值；重复上述步骤，将各个分句的情感值累加，取平均值作为诉求文本的情感值。

对于同一个用户，客户的语音和文本内容可能同时存在，本技术方案的模型可以扩展成多模态的情感分析和诉求挖掘任务模型。具体而言，由于文本内容中同样存在客户的情感信息，将语音进行特征抽取并结合文本特征能有效地提高模型的情感识别的精度。另一方面，由于语音序列中同样存在客户的诉求信息，将文本进行分词与特征抽取后，通过结合语音的特征信息，可以使模型更好地挖掘到文本诉求中有用的信息；本技术方案使用带注意机制的深度循环神经网络在不同时刻注意不同的关键词，使模型更好地捕捉上下文之间的语义关系，挖掘目标文本中的时序信息以及语义信息，从而提高文本分类的准确率。

作为优选技术手段：在步骤11)中，MFCC特征抽取包括步骤：

111)对原始语音信号进行预加重、分帧和加窗预处理操作，得到短时信号x(n)；

112)对短时信号x(n)进行傅立叶变换(DFT/FFT)，得到线性频谱X_a(k)；

113)对X_a(k)取模的平方，得到离散功率谱X(k)；

114)对X(k)用Mel滤波器组进行滤波，在对输出求对数能量m_i；

115)对m_i进行离散余弦变换(DCT)得到MFCC，此变换和简化为：

式中C_n表示的是MFCC的系数，L表示MFCC的阶数。

作为优选技术手段：在步骤12)中，采用增减分量法计算倒谱分量对情感识别的贡献的公式为：

其中，R(i)表示第i阶倒谱分量的平均贡献值，n为倒谱阶数，p(i,j)为从第i阶到第j阶倒谱系数特征的识别率。

作为优选技术手段：选取平均贡献最大的8阶MFCC倒谱分量、4阶Mid-MFCC倒谱分量和4阶IMFCC倒谱分量组成16阶混合特征。

作为优选技术手段：在步骤24)中，目标函数为：

L＝logG＝logΠ_w∈CΠ_{u∈Context(w)}g(u)；

这里，∏_{u∈Context(w)}g(u)表示对于一个给定样本(w,Context(w))希望最大化的量；g(u)定义为：

g(u)＝Π_{Z∈{u}∪NEG(u)}p(z|w)

其中NEG(u)表示处理词u时生成的负样本子集；条件概率

作为优选技术手段：在步骤22)中，选择出现频率最高的前20000个词或单词组合形成词典。

作为优选技术手段：在步骤25)中，每一层的LSTM单元中，由遗忘门

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

决定遗忘信息；输入门决定单元中需要更新的值，同时一个激活函数用以创建新的候选值：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

输入门、遗忘门与新的候选值一起产生新的状态：

最终，由输出门决定输出的值，h_t即为该隐藏层的状态：

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)。

有益效果：

本技术方案利用数据中时间序列信息，应对语音识别中对中、高频信号识别精度不高的问题，避免人工提取特征，提高模型的适用范围，考虑语义上下文以及大幅减少特征维度。

本发明所提出的方案能够获得一个针对供电服务客户的语音情感分析、识别，以及客户诉求的文本挖掘的基于多模态舆情分析的供电服务评估方法。模型可以分析语音数据中多维度的情感信息，如语速、声调和音量等。与文本数据相比，这些多维度的情感信息使得语音数据更能反映出用户的真实情感。而客户诉求内容以文本数据为主，其具有信息量大和非结构化的特点。

本发明的模型以端到端的方式训练，不依赖于人工提取的特征，适合处理非结构化的客户诉求内容。并且成功利用了数据中时间序列信息，对音频信号中的中、高频信号识别精度高，可以考虑语义上下文，大幅减少了特征维度。

附图说明

图1为本发明的流程图。

图2为本发明的基于增减分量法和长短时记忆网络的语音特征情感识别的流程图。

图3为本发明的深度循环神经网络的文本诉求分类的流程图。

图4为本发明的MFCC各阶分量在语音情感识别中的平均贡献图。

图5为本发明的循环神经网络RNN训练图。

图6为本发明的Google的word2vec示意图。

图7为本发明的LSTM的网络结构。

具体实施方式

以下结合说明书附图对本发明的技术方案做进一步的详细说明。

本发明包括以下步骤：

步骤1：基于增减分量法和长短时记忆网络的方法进行语音特征情感识别，流程如附图2所示，详细步骤如下：

步骤1.1：对语音数据提取MFCC、IMFCC、Mid-MFCC语音特征，其中MFCC特征抽取包括：

1)对原始语音信号进行预加重、分帧和加窗等预处理操作，得到短时信号x(n)

2)对短时信号x(n)进行傅立叶变换(DFT/FFT)，得到线性频谱X_a(k)

3)对X_a(k)取模的平方，得到离散功率谱X(k)

4)对X(k)用Mel滤波器组进行滤波，在对输出求对数能量m_i

5)对m_i进行离散余弦变换(DCT)得到MFCC，此变换和简化为：

式中C_n表示的是MFCC的系数，L表示MFCC的阶数。而IMFCC特征的提取与MFCC的区别在于运用的滤波器组的结构不同，与MFCC相比在高频上获得了较高的分辨率。同理，Mid-MFCC特征抽取与其他的区别也是在于滤波器组的结构，其针对的则是中频上的高分辨率。

步骤1.2：采用增减分量法求出上述特征参数中倒谱分量对情感识别的贡献，具体公式为：

其中，R(i)表示第i阶倒谱分量的平均贡献值，n为倒谱阶数，p(i,j)为从第i阶到第j阶倒谱系数特征的识别率。并选取平均贡献最大的8阶MFCC倒谱分量、4阶Mid-MFCC倒谱分量和4阶IMFCC倒谱分量组成16阶混合特征，也就是说将特征参数中对识别率贡献最高的几阶系数组合到一起，构成新的特征参数IMF-M-MFCC，其中各阶分量的平均贡献如附图4所示；

步骤1.3：采用长短时记忆网络(LSTM，Long Short Term Memory)将输入的IMF-M-MFCC特征序列分类为相应的情感类别。将获得的IMF-M-MFCC特征序列进行输出，经过逐层传递，捕获整个序列中的语义信息，以及综合语音序列中上下文信息，最终将这些信息逐步保留并编码成针对语音情感的高层语义用于最终的语音情感识别；

步骤2：基于深度循环神经网络的文本诉求分类，流程图附图1右半部分，具体方法如下：

步骤2.1：对客户文本诉求数据进行预处理，包括:

1)处理文本编码格式问题，使用统一规范的编码，避免出现中英文乱码等情况；

2)对文本进行去除标点符号，网址和表情等无关信息，可采用正则表达式；对所有样本数据中的文本内容进行分词(Text segment)；

3)去除文本数据中的停用词，并将所有英文字母转换成小写；

步骤2.2：基于文本语料库中的词频，选择出现频率最高的前20000个词或单词组合(wordpairs)形成词典；对于高频次的单词进行抽样来减少训练样本的个数；

步骤2.3：根据各词的词频建立哈夫曼树(Huffman Tree)并生成节点所在的二进制码，该二进制码反映了节点在树中的位置。根据编码能够从根节点一步步找到对应的叶子节点；接着，初始化各非叶子节点的中间向量和叶子节点中的词向量；

步骤2.4：训练中间向量和词向量，即回到语料库，逐句的读取一系列的词，用梯度下降算出梯度，再更新非叶子节点处向量的词与词向量的值；由于词典的大小导致网络将会拥有大规模的权重矩阵，因此训练过程中可采用负采样(negative sampling)使训练样本仅更新一小部分权重，降低梯度下降过程中的计算量；目标函数是：

G＝Π_w∈CΠ_{u∈Context(w)}g(u) (0.3)

g(u)＝Π_{Z∈{u}∪NEG(u)}p(z|w) (0.4)

其中NEG(u)表示处理词u时生成的负样本子集；条件概率因此，最终的目标函数为：

L＝logG＝logΠ_w∈CΠ_{u∈Context(w)}g(u) (0.5)

附图6是Google的word2vec模型示意图，左侧是算法的第一个模型CBOW(Continuous Bag-of-Words Model)是在原始的NNLM模型中进行改造：1.移除前向反馈神经网络中非线性的hidden layer，直接将中间层的embedding layer与输出层的softmaxlayer连接；2.忽略上下文环境的序列信息：输入的所有词向量均汇总到同一个embeddinglayer；3.将future words纳入上下文环境；CBOW模型等价于一个词袋模型的向量乘以一个embedding矩阵，从而得到一个连续的embedding向量。附图6右侧所示的Skip-gram模型则与CBOW模型相反，CBOW模型是从context对target word的预测中学习到词向量的表达，而Skip-gram则是从target word对context的预测中学习到word vector，其本质是计算输入word的input vector与目标word的output vector之间的余弦相似度，并进行softmax归一化。

步骤2.5：前述步骤得到的词向量(word embedding)矩阵作为后续LSTM网络的输入；通常情况下LSTM处理短文本特征，对于由多个句子组成的客户诉求，可以先对文本进行分句，然后使用平均的情感值来表示该文本诉求的情感值；输入LSTM网络的则是句子中各个词汇对应的词向量；需要注意的是句子长度是统一的，不足的用零向量补齐；对于输入的词向量，用隐藏层状态h_i作为其在网络中的中间表示；每一层的LSTM单元中，由遗忘门(forget gate)

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (0.6)

决定遗忘信息；输入门(input gate)决定单元中需要更新的值，同时一个激活函数用以创建新的后选值：

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (0.7)

输入门、遗忘门与新的候选值一起产生新的状态：

最终，由输出门(output gate)决定输出的值，h_t即为该隐藏层的状态：

o_t＝σ(W_o·[h_t-1,x_t]+b_o) (0.10)

h_t＝o_t*tanh(C_t) (0.11)

步骤2.6：将LSTM最后一层隐藏层状态h_n作为当前输入句的表示，经过一层softmax，得到该句的情感值；重复上述步骤，将各个分句的情感值累加，取平均值作为诉求文本的情感值。LSTM结构如附图7所示。

以上图1-7所示的一种基于多模态舆情分析的供电服务评估方法是本发明的具体实施例，已经体现出本发明实质性特点和进步，可根据实际的使用需要，在本发明的启示下，对其进行形状、结构等方面的等同修改，均在本方案的保护范围之列。

Claims

1.一种基于多模态舆情分析的供电服务评估方法，其特征在于包括以下步骤：

11)对语音数据提取MFCC、IMFCC、Mid-MFCC语音特征；

2)基于word2vec与LSTM方式进行文本诉求分类，具体步骤包括：

21)对客户文本诉求数据进行预处理，包括:

2.根据权利要求1所述的一种基于多模态舆情分析的供电服务评估方法，其特征在于：在步骤11)中，MFCC特征抽取包括步骤：

113)对X_a(k)取模的平方，得到离散功率谱X(k)；

114)对X(k)用Mel滤波器组进行滤波，在对输出求对数能量m_i；

115)对m_i进行离散余弦变换(DCT)得到MFCC，此变换和简化为：

式中C_n表示的是MFCC的系数，L表示MFCC的阶数。

3.根据权利要求2所述的一种基于多模态舆情分析的供电服务评估方法，其特征在于：在步骤12)中，采用增减分量法计算倒谱分量对情感识别的贡献的公式为：

4.根据权利要求3所述的一种基于多模态舆情分析的供电服务评估方法，其特征在于：选取平均贡献最大的8阶MFCC倒谱分量、4阶Mid-MFCC倒谱分量和4阶IMFCC倒谱分量组成16阶混合特征。

5.根据权利要求1所述的一种基于多模态舆情分析的供电服务评估方法，其特征在于：在步骤24)中，目标函数为：

L＝log G＝logΠ_w∈CΠ_{u∈Context(w)}g(u)；

其中∏_{u∈Context(w)}g(u)表示对于一个给定样本(w,Context(w))希望最大化的量；g(u)定义为：

g(u)＝Π_{Z∈{u}∪NEG(u)}p(z|w)

其中NEG(u)表示处理词u时生成的负样本子集；条件概率

6.根据权利要求1所述的一种基于多模态舆情分析的供电服务评估方法，其特征在于：在步骤22)中，选择出现频率最高的前20000个词或单词组合形成词典。

7.根据权利要求1所述的一种基于多模态舆情分析的供电服务评估方法，其特征在于：在步骤25)中，每一层的LSTM单元中，由遗忘门f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

输入门、遗忘门与新的候选值一起产生新的状态：

最终，由输出门决定输出的值，h_t即为该隐藏层的状态：

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)。