CN110930995B

CN110930995B - 一种应用于电力行业的语音识别模型

Info

Publication number: CN110930995B
Application number: CN201911170047.1A
Authority: CN
Inventors: 曾时博; 洪丹轲; 黄昱; 胡飞飞; 刘丽; 舒然; 范俊成; 梁寿愚; 王科; 张坤; 方文崇
Original assignee: China Southern Power Grid Co Ltd
Current assignee: China Southern Power Grid Co Ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2022-02-11
Anticipated expiration: 2039-11-26
Also published as: CN110930995A

Abstract

本发明涉及人工智能客服及智能语音分析技术领域，具体公开了一种应用于电力行业的语音识别模型，包括：预处理语音数据；语音数据包含电力行业特有语音和带有地域特征的语音数据(例如方言)；分别提取语音特征；将语音特征进行训练；得到适用于电力行业的语音识别模型。语音识别效率更高，能识别不同地域人员的语音，不需要人工干预，大大减少了人力成本。

Description

一种应用于电力行业的语音识别模型

技术领域

本发明涉及语音识别技术领域，特别是涉及一种应用于电力行业的语音识别模型。

背景技术

随着近年来电力行业应用的不断发展，智能电网领域发展迅猛，中国电网已经形成了一个跨越巨大时空的跨区跨省特高压交直流混联大电网。电力调度乃至客服领域需要高效协同，共同应对电网大的冲击、扰动、连锁故障。

传统的电力调度交互方式在大型电网事故处理时存在因多个电话同时呼叫造成信息堵塞，造成严重后果，各级间调度信息相互隔离，形成信息孤岛，不能满足高效协同的要求。随着网络和人工智能技术的发展与兴起，基于人工智能技术的多级协同平台是解决这一问题的有效方案。其中语音识别在电网调度中的应用是关键技术之一，将各级调度机构的调度语音进行识别转换成文字之后在平台上共享，可以有效解决信息闭塞的问题，大大的提高了电网故障的排除效率，有利于迅速处理电网事故。并且，该技术还可用于查找调度日志语音记录、电网调度控制系统交互、智能客服等领域，大大减轻了调度员的压力，提高指挥效率。

在语音识别技术领域，常用的基于隐马尔科夫模型(hidden Markov Model，HMM)、高斯混合模型(Gaussian mixture model，GMM)及其扩展，有力的推动了语音识别模型的发展。随着人工智能、深度学习等技术的发展，在语音识别领域出现了循环神经网络(RNN)，长短期记忆(LSTM)网络等结构，大大的提高了语音识别的准确率。但是模型存在训练难度大，不能很好的适应特定的领域的问题。

发明内容

本发明要解决的技术问题是克服现有的缺陷，提供一种基于人工智能的应用于电力行业的语音识别模型，语音识别模型的训练难度低，融合了地域信息，能识别不同地区调度员的语音，能够适应多种特定的领域(例如电力行业)。

为解决上述问题，本发明实例提供了一种应用于电力行业的语音识别模型，包括以下形成步骤：

步骤一，对语音信号进行数据增强和数据迁移来增加训练数据，所述语音信号为地域信息的语音信号和电力行业通用语音信号；

步骤二，对所述地域信息的语音信号和所述电力行业通用语音信号进行预处理后再通过卷积神经网络进行特征提取，分别得到地域语音信息特征和通用语音信息特征；对应公式表示如下：

Z_local＝W_local*x_local+b_local

Z_voice＝W_voice*x_voice+b_voice

其中Z_local表示通过卷积神经网络后的地域语音信息特征，W_local表示地域语音信息特征的权重，x_local表示地域语音信息卷积神经网络全连接层的输出， b_local表示地域语音信息特征的偏置；其中Z_voice表示通过卷积神经网络后的通用语音信息特征，W_voice表示通用语音信息特征的权重，x_voice表示通用语音信息的卷积神经网络全连接层的输出，b_voice表示通用语音信息特征的偏置；

步骤三，所述地域语音信息特征和所述通用语音信息特征通过激活函数进行特征融合，得到融合特征；对应公式表示如下：

y_local＝softmax(Z_local)

y_voice＝softmax(Z_voice)

y_function＝ρy_voice+γy_local

y_local表示地域语音信息特征经过激活函数softmax后的输出，y_voice表示通用语音信息特征经过激活函数softmax后的输出，y_function表示融合后的融合特征，ρ、γ表示融合的权重；

步骤四，对所述融合特征通过长短期记忆网络进行学习训练，长短期记忆网络使用的损失函数公式如下：

其中，f_lose为损失函数，A为学习的权重，β为学习偏置，G()为高斯函数，σ为正态分布的标准差，x为语音序列。

优选的，步骤一中所述数据增强包括对所述语音数据进行时域调整、频域覆盖以及时域覆盖。

优选的，步骤一中所述数据增强包括对所述语音信号依次进行预加重、分帧、加窗以及快速傅立叶变换处理，其中，快速傅立叶变换处理的函数如下：

其中X(I)表示快速傅里叶变换后的数据，x(i)为采样的模拟信号，i、I 分别代表不同间隔的时序，w为常数。

优选的，步骤二中的所述特征提取包括：先将所述语音数据经过梅尔滤波器组进行降维处理，再取对数，以得到所述语音预处理数据。

优选的，所述语音特征向量包括梅尔频率倒谱系数，将得到的语音特征向量的能量谱通过快速傅里叶变换得到语谱图。

优选的，所述语谱图和地域语音信息输入至卷积神经网络(CNN)进行训练和识别，分别得到地域特征和语音特征。

优选的，所述步骤三中特征融合采用加法规则，将所述地域信息和语音信息加权之后相加，即得到融合特征。所述卷积神经网络连接有注意力机制的长短期记忆网络(LSTM),所述融合特征输入所述有注意力机制的长短期记忆网络后形成所述语音识别模型。

与现有技术相比，本发明实例的有益效果是：采用数据增强方法来增加训练数据，增加地域信息更加适用于电力行业不同区域调度人员口音不同的情况，以此增强语音识别模型的鲁棒性，且本发明的特征提取方式可以有效的提取出语音特征向量,使得语音特征向量训练得到的语音识别模型的后验概率更准确，此外,本发明还采用了注意力机制的长短期记忆网络来增强语音识别模型的学习能力。

附图说明

图1为本发明的应用于电力行业的语音识别模型的形成步骤的整体流程图；

图2为本发明的应用于电力行业的语音识别模型的形成步骤中的数据预处理的具体流程框图；

图3为本发明的应用于电力行业的语音识别模型的形成步骤中的模型结构框图；

图4为本发明的应用于电力行业的语音识别模型的形成步骤中的卷积神经网络框图；

图5为本发明的应用于电力行业的语音识别模型的形成步骤中的特征融合结构框图。

图6为本发明的应用于电力行业的语音识别模型的形成步骤中的注意力机制的长短期记忆网络结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中模型方案进行完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种应用于电力行业的语音识别模型，该语音识别模型的形成步骤为：

步骤一，对语音信号进行数据增强和数据迁移来增加训练数据，所述语音信号为地域信息的语音信号和电力行业通用语音信号；在本发明实施例中所述数据增强采用时间维度上的尺度变换(Time Stretch)(具体包括时域调整、频域覆盖以及时域覆盖)和音调调整(Pitch Shift)的方法，数据迁移则使用多个领域的语音数据来增加数据量，达到增强模型的泛化能力；

步骤二，对语音信号进行预处理，通过预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组滤波、取对数等方式处理得到滤波器组(FILTER BANK) 特征，滤波器组特征包括电力行业通用语音信号的滤波器组特征以及地域信息的语音信号的滤波器组特征，具体过程如图2所示；

在本发明实施例中采用获取滤波器组(FILTER BANK)特征的方法，相比其他常用的方法，计算量更小，特征相关性更高，并且可以降低错误率；步骤二中涉及到的部分函数公式如下:

加窗函数：

其中W为窗函数；N为语音序列的长度取样；n为取样的的序列；θ为常数，取值为0.46；

滤波器组(FILTER BANK)特征公式如下：

magnitude＝sqrt(R^2+E^2)；

其中magnitude为得到的语音特征向量，R为实时输入的语音序列，E为频率图像。

梅尔滤波公式如下：

b为语音特征向量(即magnitude)；j为语音序列采样的值；f为语音序列的频率；M为得到的能量谱；

将能量谱进行快速傅里叶变换得到语谱图并将语谱图输入给卷积神经网络进行训练和识别，卷积神经网络将语谱图当作有特定模式的图像进行识别。卷积神经网络的网络结构如图4所示。这样能有效避免了语音信号在频域和时域两个维度的信息损失，并且语音特征向量在训练过程中比传统算法更快，实现了30％～50％的效率提升。

步骤三，如图5所示，通过卷积神经网络得到的地域特征向量和语音特征量经过激活函数softmax压缩至【0，1】范围，再将压缩后的向量加权相加得到融合特征。对应公式表示如下：

Z_local＝W_local*x_local+b_local

Z_voice＝W_voice*x_voice+b_voice

y_local＝softmax(Z_local)

y_voice＝softmax(Z_voice)

y_function＝ρy_voice+γy_local

其中Z_local表示通过卷积神经网络后的地域信息特征，W_local表示地域信息特征的权重，x_local表示地域信息卷积神经网络全连接层的输出，b_local表示地域信息特征的偏置；其中Z_voice表示通过卷积神经网络后的语音信息特征，W_voice表示语音信息特征的权重，x_voice表示语音信息的卷积神经网络全连接层的输出，b_voice表示语音信息特征的偏置；y_local表示地域信息特征经过激活函数 softmax后的输出，y_voice表示语音信息特征经过激活函数softmax后的输出， y_function表示融合后的融合特征，ρ，γ表示融合的权重。

步骤四，在特征融合后使用注意力机制的长短期记忆网络作为语音识别模型的输出结构，有效的提升了网络的鲁棒性，利用注意力机制的长短期记忆网络学习输入特征与文本标注之间对齐的能力，得到的性能优于传统的长短期记忆网络。利用注意力机制的长短期记忆网络的多任务学习框架对不同时刻的特征向量进行加权，从而加强鲁棒性。注意力机制的长短期记忆网络模型如下：

e_t＝Attend(x_t，s_t-1，α_t-1)，

其中x为输入特征，α为权值，t、l为每一帧；exp为指数函数；

对所述语音特征向量进行训练得到语音识别模型，语音识别模型使用新的损失函数，损失函数公式如下：

其中，f_lose为损失函数；A为学习的权重；β为学习偏置；G()为高斯函数；σ为正态分布的标准差；

使用本发明所述损失函数，相比传统的神经网络损失函数，模型更容易收敛，更好的评估预测值与真实值之间的距离。

通过测试数据的实际测试，相比于传统的语音识别算法，本发明的语音识别模型将原来的识别准确率从70％提升至81％，并且能有效的识别不同地域的调度员或客户的语音,能更好的适用于电力行业，达到更好的准确性。

综上所述，本发明实例中的应用于电力行业的语音识别模型，首先通过对电力行业特有的语音信号进行数据增强和数据迁移，得到更多的训练数据。并且加入了地域信息，增加了信息量，再通过对训练数据进行预处理和提取特征得到语音特征向量和地域信息特征，将两重特征进行特征融合打到了更丰富的语义信息，增加识别率。并在最后加上有注意力机制的长短期记忆网络，加强模型的鲁棒性，使其能够更好的适应电力行业的要求。以此减少了人力成本，提高了电力行业的调度效率，并且该模型还可用于客服的交互，也有很好的效果。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种应用于电力行业的语音识别模型，其特征在于，包括以下形成步骤：

Z_local＝W_local*x_local+b_local

Z_voice＝W_voice*x_voice+b_voice

其中Z_local表示通过卷积神经网络后的地域语音信息特征，W_local表示地域语音信息特征的权重，x_local表示地域语音信息卷积神经网络全连接层的输出，b_local表示地域语音信息特征的偏置；其中Z_voice表示通过卷积神经网络后的通用语音信息特征，W_voice表示通用语音信息特征的权重，x_voice表示通用语音信息的卷积神经网络全连接层的输出，b_voice表示通用语音信息特征的偏置；

y_local＝softmax(Z_local)

y_voice＝softmax(Z_voice)

y_function＝ρy_voice+γy_local

2.根据权利要求1所述的应用于电力行业的语音识别模型，其特征在于，步骤一中所述数据增强包括对所述语音信号进行时域调整、频域覆盖以及时域覆盖。

3.根据权利要求2所述的应用于电力行业的语音识别模型，其特征在于，步骤二中所述预处理包括对所述语音信号依次进行预加重、分帧、加窗以及快速傅立叶变换处理。

4.根据权利要求3所述的应用于电力行业的语音识别模型，其特征在于，步骤二中的所述预处理还包括：将所述语音信号的地域信息的语音信号和电力行业通用语音信号分别经过梅尔滤波器组进行降维处理，再取对数得到滤波器组(FILTER BANK)特征，并依据电力行业通用语音信号的滤波器组特征转换成语谱图。

5.根据权利要求4所述的应用于电力行业的语音识别模型，其特征在于，所述语谱图和地域信息的语音信号的滤波器组特征输入至卷积神经网络(CNN)进行训练和特征提取，分别得到地域信息特征和语音信息特征。

6.根据权利要求5所述应用于电力行业的语音识别模型，其特征在于，对所述地域信息特征和语音信息特征进行特征融合形成所述融合特征。

7.根据权利要求6所述应用于电力行业的语音识别模型，其特征在于，将所述融合特征输入至有注意力机制的长短期记忆网络，进行特征的学习。