CN110689880A

CN110689880A - 一种应用于电力调度领域的语音识别方法及装置

Info

Publication number: CN110689880A
Application number: CN201911002395.8A
Authority: CN
Inventors: 鄢发齐; 汪旸; 王春明; 程迪; 陈钟钟; 刘志成; 徐浩; 董向明; 孙涛; 吴怡菲; 曲亮; 金勇�
Original assignee: WUHAN FENGHUO PUTIAN IT Co Ltd; STATE GRID CENTER CHINA GRID Co Ltd
Current assignee: WUHAN FENGHUO PUTIAN IT Co Ltd; STATE GRID CENTER CHINA GRID Co Ltd; Central China Grid Co Ltd
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-01-14

Abstract

本发明实施例提供一种应用于电力调度领域的语音识别方法及装置。包括：将待识别语音的功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络，得到新的特征；将新的特征、功率归一化倒谱系数特征和说话人特征进行拼接，得到混合特征；将混合特征输入至预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络，得到词序列集合针对待识别语音特征的后验概率；根据后验概率结合语言模型对待识别语音进行解码，得到识别出的词序列。在电力调度领域提出基于上述三个网络的语音识别声学模型多网络混合训练方法，使得能够通过训练好的模型对待识别语音进行识别，降低调度员的工作强度并缩短其重复性工作的时间。

Description

一种应用于电力调度领域的语音识别方法及装置

技术领域

本发明涉及电力调度技术领域，尤其涉及一种应用于电力调度领域的语音识别方法及装置。

背景技术

各级电网调控中心是电网运行的组织、指挥、指导和协调机构，调控中心的调度员作为电网运行的直接指挥者，坚守在电网运行工作的第一线。随着全国联网规模的不断扩大和电压等级的不断提高，电网在设备数量、互联模式、耦合特性、复杂程度等方面已全面超越传统超高压交流电网，电网面临来自自然、人为、内在因素影响的问题也更为突出，并且，由于调控中心的调度员人数众多，因此调控中心不可避免地会出现较多噪音，这就造成调度员调度电网的工作量、复杂度和工作压力日益增大。目前调度运行工作中常规的事务性、例行性、程式化工作占据了调度员大量的时间和精力，使其无法专注于电网运行监视、风险分析和事故处理这些直接关系到电网安全稳定运行的核心任务。

因此，急需充分挖掘调度规程、故障预案、调度日志等电网运行文本的基础上，形成电力特有的语音识别声学模型，并通过有效且符合电力调度特征的训练方法对模型进行训练，使得能够通过训练好的模型对电力调度领域中的语音进行识别，降低调度员的工作强度，并缩短调度员重复性工作的时间。

发明内容

针对现有技术存在的问题，本发明实施例提供一种应用于电力调度领域的语音识别方法及装置。

第一方面，本发明实施例提供一种应用于电力调度领域的语音识别方法，包括：

获取电力调度领域的待识别语音的功率归一化倒谱系数特征和说话人特征；

将所述功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络，得到新的特征；

将所述新的特征、所述功率归一化倒谱系数特征和所述说话人特征进行拼接，得到混合特征；

将所述混合特征输入至所述预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络，得到词序列集合针对所述待识别语音特征的后验概率；

根据所述后验概率结合语言模型对所述待识别语音进行解码，得到识别出的词序列；

其中，所述预设神经网络模型是根据电力调度领域的多个语音样本进行训练后得到的；

所述语言模型是根据电力调度领域的文本采用N-GRAM模型训练后得到的。

进一步地，所述卷积神经网络中包括若干个卷积层，所述时间延迟神经网络中包括若干个时间延迟层，所述双向长短期记忆循环神经网络中包括若干个长短期记忆循环层。

进一步地，将所述功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络，之前还包括：

获取电力调度领域的多个语音样本；

通过所述多个语音样本对所述预设神经网络模型进行训练。

进一步地，获取电力调度领域的多个语音样本，包括：

获取电力调度领域的文本材料；

对获取到的文本材料进行去重操作；

通过多人对去重操作后的文本材料进行阅读录音，得到多声音频率段的电力调度领域的多个语音样本。

进一步地，通过所述多个语音样本对所述预设神经网络模型进行训练，包括：

对于任意一个语音样本，将所述语音样本的功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络，得到新的特征；

将所述新的特征、所述功率归一化倒谱系数特征和所述语音样本的说话人特征进行拼接，得到混合特征；

将所述混合特征输入至所述预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络，得到词序列集合针对所述语音样本特征的后验概率；

根据所述后验概率结合语言模型对所述语音样本进行解码，得到识别出的词序列；

将所述识别出的词序列与所述语音样本输入至损失函数，根据所述损失函数的输出结果对所述预设神经网络模型进行前向反馈或判定所述预设神经网络模型训练完成。

第二方面，本发明实施例提供一种应用于电力调度领域的语音识别装置，包括：

特征获取模块，用于获取电力调度领域的待识别语音的功率归一化倒谱系数特征和说话人特征；

第一输入模块，用于将所述功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络，得到新的特征；

拼接模块，用于将所述新的特征、所述功率归一化倒谱系数特征和所述说话人特征进行拼接，得到混合特征；

第二输入模块，用于将所述混合特征输入至所述预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络，得到词序列集合针对所述待识别语音特征的后验概率；

识别模块，用于根据所述后验概率结合语言模型对所述待识别语音进行解码，得到识别出的词序列；

进一步地，还包括：

语音样本获取模块，用于获取电力调度领域的多个语音样本；

训练模块，用于通过所述多个语音样本对所述预设神经网络模型进行训练。

进一步地，语音样本获取模块，包括：

文本材料获取单元，用于获取电力调度领域的文本材料；

去重单元，用于对获取到的文本材料进行去重操作；

语音样本获取单元，用于通过多人对去重操作后的文本材料进行阅读录音，得到多声音频率段的电力调度领域的多个语音样本。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种应用于电力调度领域的语音识别方法及装置，首次在电力调度领域，提出了基于CNN、BLSTM、TDNN这三个神经网络的语音识别声学模型多网络混合训练方法，在提取特征阶段，选用功率归一化倒谱系数PNCC特征，能够在语音存在噪音的情况下也能很好地进行语音识别，在此基础上使用基于CNN获取时域和频域两个维度的关键信息，通过交替引入TDNN和BLSTM，构建完备的语音识别声学模型多网络混合训练体系，使得能够通过训练好的模型对电力调度领域中的语音进行识别，从而降低调度员的工作强度，并缩短了调度员重复性工作的时间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种应用于电力调度领域的语音识别方法流程图；

图2为本发明实施例提供的预设神经网络模型的结构示意图；

图3为本发明实施例提供的双向长短期记忆循环神经网络的结构示意图；

图4为本发明实施例提供的一种应用于电力调度领域的语音识别装置的结构示意图；

图5为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种应用于电力调度领域的语音识别方法流程图，如图1所述，该方法包括：

步骤101，获取电力调度领域的待识别语音的功率归一化倒谱系数特征和说话人特征。

步骤102，将所述功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络，得到新的特征；

步骤103，将所述新的特征、所述功率归一化倒谱系数特征和所述说话人特征进行拼接，得到混合特征；

步骤104，将所述混合特征输入至所述预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络，得到词序列集合针对所述待识别语音特征的后验概率；

步骤105，根据所述后验概率结合语言模型对所述待识别语音进行解码，得到识别出的词序列；

具体地，首先结合附图对本发明实施例中的预设神经网络模型的结构进行说明。图2为本发明实施例提供的预设神经网络模型的结构示意图，如图2所示，模型包括：

卷积神经网络(ConvolutionalNeural Networks，CNN)、若干组依次交替设置的双向长短期记忆循环神经网络(Bi-directional Long Short-Term Memory，BLSTM)和时间延迟神经网络(Time DelayNeuralNetwork，TDNN)。

其中时间延迟及双向长短期记忆循环神经网络是基础模型，本发明实施例提供的预设神经网络模型在声学模型层面把卷积神经网络作为一个特征提取模块放置在基础模型时间延迟及双向长短期记忆循环神经网络之前。

时间延迟及双向长短期记忆循环神经网络的输入端衔接上前端卷积神经网络，卷积神经网络提取出来的鲁棒性特征会和原有的特征进行拼接，一起作为后端时间延迟及双向长短期记忆循环神经网络的输入特征，图3为本发明实施例提供的双向长短期记忆循环神经网络的结构示意图，如图3所示，这个网络构成了一个无环图，可以看出输出是同时考虑了前后的因素得到的，因此输出结果更具有鲁棒性。

使用该模型进行语音识别的步骤如下：

首先，获取电力调度领域的待识别语音，并通过滤波器提取待识别语音的功率归一化倒谱系数(power-normalized cepstral coefficients，PNCC)特征和说话人特征。

然后，将待识别语音的功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络中，将卷积神经网络的输出作为新的特征。

随后，将得到的新的特征、待识别语音的功率归一化倒谱系数特征和说话人特征进行拼接，得到混合特征。

然后，将混合特征输入至预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络，得到最后一个双向长短期记忆循环神经网络输出的词序列集合针对待识别语音特征的后验概率。

最后，根据得到的后验概率结合语言模型对待识别语音进行解码，得到识别出的词序列。

需要说明的是，语言模型通过如下步骤得到：

首先，将电力调度领域的文本作为训练语料，对训练语料进行tokenization或切分，然后，采用N-GRAM算法结合进行训练语料，估计语言模型参数，从而得到语言模型。

需要说明的是，语言模型采用N-GRAM算法能够得到一份关于词频的统计文件，在对待识别语音进行解码时，基于该统计文件生成带权重的有限状态转换器(weightedfinite-state transducer，WFST)，然后结合预设神经网络模型得到的后验概率在WFST中找出最优的词序列。

本发明实施例提供的方法，首次在电力调度领域，提出了基于CNN、BLSTM、TDNN这三个神经网络的语音识别声学模型多网络混合训练方法，在提取特征阶段，选用功率归一化倒谱系数PNCC特征，能够在语音存在噪音的情况下也能很好地进行语音识别，在此基础上使用基于CNN获取时域和频域两个维度的关键信息，通过交替引入TDNN和BLSTM，构建完备的语音识别声学模型多网络混合训练体系，使得能够通过训练好的模型对电力调度领域中的语音进行识别，从而降低调度员的工作强度，缩短了调度员重复性工作的时间。

基于上述任一实施例，所述卷积神经网络中包括若干个卷积层，所述时间延迟神经网络中包括若干个时间延迟层，所述双向长短期记忆循环神经网络中包括若干个长短期记忆循环层。

需要说明的是，卷积神经网络中卷积层的个数、时间延迟神经网络中时间延迟层的个数以及双向长短期记忆循环神经网络中长短期记忆循环层的个数均可根据实际情况进行选定，而作为优选，卷积层的个数为2，长短期记忆循环层的个数为1。

基于上述任一实施例，将所述功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络，之前还包括：获取电力调度领域的多个语音样本；通过所述多个语音样本对所述预设神经网络模型进行训练。

具体地，将功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络之前，还需对预设神经网络模型进行训练，具体训练过程如下：

首先，获取电力调度领域的多个语音样本，在此基础上，通过滤波器提取每个语音样本的功率归一化倒谱系数特征和说话人特征。

基于上述任一实施例，获取电力调度领域的多个语音样本，包括：获取电力调度领域的文本材料；对获取到的文本材料进行去重操作；通过多人对去重操作后的文本材料进行阅读录音，得到多声音频率段的电力调度领域的多个语音样本。

具体地，获取电力调度领域的文本材料，然后进行文本去重操作，通过寻找50人以上团队进行录音阅读，获取多声音频率段的电力调度领域的多个语音样本。

基于上述任一实施例，通过所述多个语音样本对所述预设神经网络模型进行训练，包括：对于任意一个语音样本，将所述语音样本的功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络，得到新的特征；将所述新的特征、所述功率归一化倒谱系数特征和所述语音样本的说话人特征进行拼接，得到混合特征；将所述混合特征输入至所述预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络，得到词序列集合针对所述语音样本特征的后验概率；根据所述后验概率结合语言模型对所述语音样本进行解码，得到识别出的词序列；将所述识别出的词序列与所述语音样本输入至损失函数，根据所述损失函数的输出结果对所述预设神经网络模型进行前向反馈或判定所述预设神经网络模型训练完成。

具体地，在获取到多个语音样本之后，对于任意一个语音样本，首先，将该语音样本的功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络，得到新的特征；然后，将新的特征、功率归一化倒谱系数特征和该语音样本的说话人特征进行拼接，得到混合特征；随后，将混合特征输入至预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络，得到词序列集合针对该语音样本特征的后验概率；然后，根据后验概率结合语言模型对所述语音样本进行解码，得到识别出的词序列；最后，将识别出的词序列与该语音样本输入至损失函数，需要说明的是，损失函数可以为交叉熵损失函数，得到损失函数的输出结果之后，本次训练过程结束，再利用前向反馈更新预设神经网络模型中的参数，之后再进行下一次训练。在训练的过程中，若针对某个语音样本得到的损失函数的输出结果小于某一特定阈值，则预设神经网络模型训练完成。需要说明的是，特定阈值可根据实际情况具体选定，本发明实施例对此不作具体限定。

基于上述任一实施例，图4为本发明实施例提供的一种应用于电力调度领域的语音识别装置的结构示意图，如图4所示，该装置包括：

特征获取模块401，用于获取电力调度领域的待识别语音的功率归一化倒谱系数特征和说话人特征；第一输入模块402，用于将所述功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络，得到新的特征；拼接模块403，用于将所述新的特征、所述功率归一化倒谱系数特征和所述说话人特征进行拼接，得到混合特征；第二输入模块404，用于将所述混合特征输入至所述预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络，得到词序列集合针对所述待识别语音特征的后验概率；识别模块405，用于根据所述后验概率结合语言模型对所述待识别语音进行解码，得到识别出的词序列；其中，所述预设神经网络模型是根据电力调度领域的多个语音样本进行训练后得到的；所述语言模型是根据电力调度领域的文本采用N-GRAM模型训练后得到的。

具体地，本发明实施例提供的装置具体用于执行上述方法实施例，本发明实施例对此不再进行赘述。本发明实施例提供的装置，首次在电力调度领域，提出了基于CNN、BLSTM、TDNN这三个神经网络的语音识别声学模型多网络混合训练方法，在提取特征阶段，选用功率归一化倒谱系数PNCC特征，能够在语音存在噪音的情况下也能很好地进行语音识别，在此基础上使用基于CNN获取时域和频域两个维度的关键信息，通过交替引入TDNN和BLSTM，构建完备的语音识别声学模型多网络混合训练体系，使得能够通过训练好的模型对电力调度领域中的语音进行识别，从而降低调度员的工作强度，缩短了调度员重复性工作的时间。

基于上述任一实施例，还包括：语音样本获取模块，用于获取电力调度领域的多个语音样本；训练模块，用于通过所述多个语音样本对所述预设神经网络模型进行训练。

基于上述任一实施例，语音样本获取模块，包括：文本材料获取单元，用于获取电力调度领域的文本材料；去重单元，用于对获取到的文本材料进行去重操作；语音样本获取单元，用于通过多人对去重操作后的文本材料进行阅读录音，得到多声音频率段的电力调度领域的多个语音样本。

图5为本发明实施例提供的一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储在存储器503上并可在处理器501上运行的计算机程序，以执行上述各实施例提供的方法，例如包括：获取待识别语音的功率归一化倒谱系数特征和说话人特征；将所述功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络，得到新的特征；将所述新的特征、所述功率归一化倒谱系数特征和所述说话人特征进行拼接，得到混合特征；将所述混合特征输入至所述预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络，得到词序列集合针对所述待识别语音特征的后验概率；根据所述后验概率结合语言模型对所述待识别语音进行解码，得到识别出的词序列；其中，所述预设神经网络模型是根据电力调度领域的多个语音样本进行训练后得到的；所述语言模型是根据电力调度领域的文本采用N-GRAM模型训练后得到的。

此外，上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：获取待识别语音的功率归一化倒谱系数特征和说话人特征；将所述功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络，得到新的特征；将所述新的特征、所述功率归一化倒谱系数特征和所述说话人特征进行拼接，得到混合特征；将所述混合特征输入至所述预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络，得到词序列集合针对所述待识别语音特征的后验概率；根据所述后验概率结合语言模型对所述待识别语音进行解码，得到识别出的词序列；其中，所述预设神经网络模型是根据电力调度领域的多个语音样本进行训练后得到的；所述语言模型是根据电力调度领域的文本采用N-GRAM模型训练后得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种应用于电力调度领域的语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述卷积神经网络中包括若干个卷积层，所述时间延迟神经网络中包括若干个时间延迟层，所述双向长短期记忆循环神经网络中包括若干个长短期记忆循环层。

3.根据权利要求1所述的方法，其特征在于，将所述功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络，之前还包括：

获取电力调度领域的多个语音样本；

通过所述多个语音样本对所述预设神经网络模型进行训练。

4.根据权利要求3所述的方法，其特征在于，获取电力调度领域的多个语音样本，包括：

获取电力调度领域的文本材料；

对获取到的文本材料进行去重操作；

5.根据权利要求3所述的方法，其特征在于，通过所述多个语音样本对所述预设神经网络模型进行训练，包括：

6.一种应用于电力调度领域的语音识别装置，其特征在于，包括：

其中，所述预设神经网络模型是根据多个电力调度领域的语音样本进行训练后得到的；

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求7所述的装置，其特征在于，语音样本获取模块，包括：

文本材料获取单元，用于获取电力调度领域的文本材料；

去重单元，用于对获取到的文本材料进行去重操作；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。