CN113823275A

CN113823275A - 一种用于电网调度的语音识别方法及系统

Info

Publication number: CN113823275A
Application number: CN202111043064.6A
Authority: CN
Inventors: 朱明增; 莫梓樱; 覃秋勤; 吕鸣; 刘小兰; 陈极万; 韩竞; 李和峰; 蒋志儒; 覃景涛; 黄金; 卢迎; 韦晓明; 李梅; 周素君; 梁维; 罗晨怡
Original assignee: Guanxi Power Grid Corp Hezhou Power Supply Bureau
Current assignee: Guanxi Power Grid Corp Hezhou Power Supply Bureau; Hezhou Power Supply Bureau of Guangxi Power Grid Co Ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-12-21
Also published as: WO2023036017A1

Abstract

本发明公开了一种用于电网调度的语音识别方法及系统，其方法包括：获取电网调度中的原始语音信号；对原始语音信号进行降噪预处理过程；对降噪预处理的原始语音信号进行快速傅里叶变换FFT；利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取；将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN‑LSTM的算法，利用该算法进行声学模型训练经特征提取后的原始语音信号；利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。本发明实施例中所涉及的方法及系统，提高电力电网作业人员的作业效率，降低风险发生率。

Description

一种用于电网调度的语音识别方法及系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种用于电网调度的语音识别方法及系统。

背景技术

当今社会各行各业的发展都离不开电力系统的支持，随着用电量的不断增加，在电网调度方面，工作人员的工作量也随着增大。而在现有的电网调控系统中，目前还没有较好的措施对调度员因语音通话产生的人因失误来加以记录和防范，为了避免因为电网调度工作人员发生口误这样的工作失误，而造成电网危险事故的产生。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种用于电网调度的语音识别方法及系统，减少工作失误和危险事故的产生。

为了解决上述技术问题，本发明实施例提供了一种用于电网调度的语音识别方法，所述方法包括：

获取电网调度中的原始语音信号；

对原始语音信号进行降噪预处理过程；

对降噪预处理的原始语音信号进行快速傅里叶变换FFT；

利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取；

将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法，利用该算法进行声学模型训练经特征提取后的原始语音信号；

利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。

所述对原始语音信号进行降噪预处理过程包括：

对原始语音信号进行信号滤波处理；

对滤波处理后的原始语音信号进行平滑处理；

对平滑处理后的原始语音信号进行分帧加窗处理；

对分帧加窗处理后的原始语音信号进行端点检测处理。

所述对降噪预处理的原始语音信号进行快速傅里叶变换FFT包括：

通过公式进行FFT变换；

式中，ω表示频率，t表示时间，e^-jωt表示复变函数，x(t)表示一个连续信号，X(ω)表示经过傅里叶变换得到的离散信号。

所述利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取包括：

将线性频谱映射到基于听觉感知的梅尔Mel非线性频谱；

转换到倒谱上以此求取到Mel频率倒谱系数；

通过公式变换得到梅尔频率。

所述利用该算法进行声学模型训练经特征提取后的原始语音信号包括：

将LSTM置于神经网络的底层次用于记录长时间段的数据特征；

将DNN置于神经网络的深层次用于提取数据内部中更深层的特征。

所述将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法包括：

S21、语音信号特征序列A＝{a₁,a₂,a₃...,a_n}通过预处理模块得到，其中a_n表示第n帧提取到的特征，将特征序列A作为组合神经网络的输入；

S22、建立组合神经网络DNN-LSTM，然后输入语音数据进行训练；

S23、将特征序列A输入到DNN-LSTM中，这里每一个特征a_n被神经网络计算后，再利用为softmax层的激活函数得到因素后验概率；

S24、利用前向传播算法计算从1～t时刻，通过这样的方式得到前缀概率；

S25、前向传播算法完成后，进行后向计算从t～n时刻，通过这样的方式得到后缀概率；

S26、利用步骤S24和步骤S25的结果，计算出t时刻所有正确预测的概率；

S27、反向传播，最大化目标函数，得到条件概率最高的输出。

相应的，本发明实施例还提供了一种用于电网调度的语音识别系统，所述系统包括：

采集模块，用于获取电网调度中的原始语音信号；

降噪预处理模块，用于对原始语音信号进行降噪预处理过程；

FFT模块，用于对降噪预处理的原始语音信号进行快速傅里叶变换FFT；

特征提取模块，用于利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取；

声学模块处理模块，用于将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法，利用该算法进行声学模型训练经特征提取后的原始语音信号；

语音识别输出模块，用于利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。

所述降噪预处理模块对原始语音信号进行信号滤波处理；对滤波处理后的原始语音信号进行平滑处理；对平滑处理后的原始语音信号进行分帧加窗处理；对分帧加窗处理后的原始语音信号进行端点检测处理。

所述特征提取模块将线性频谱映射到基于听觉感知的梅尔Mel非线性频谱；转换到倒谱上以此求取到Mel频率倒谱系数；通过公式变换得到梅尔频率。

所述声学模块处理模块将LSTM置于神经网络的底层次用于记录长时间段的数据特征；将DNN置于神经网络的深层次用于提取数据内部中更深层的特征。

在本发明实施例中基于用于电网调度的语音识别方法及系统，当调度员进行命令下达过程时，智能语音识别系统将采集调度员指令并使之与指令库中高度规范化的指令进行匹配，计算出匹配结果并判断其是否有误。若匹配正确，将执行指令；若匹配错误将会发出警报信号以提醒调度员进行修正操作，从而提高电力电网作业人员的作业效率，降低风险发生率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的用于电网调度的语音识别方法流程图；

图2是本发明实施例中的将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法流程；

图3是本发明实施例中的语音识别过程的方法示意图；

图4是本发明实施例中的用于电网调度的语音识别系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

具体的，图1示出了本发明实施例中的用于电网调度的语音识别方法流程图，该方法包括：

S101、获取电网调度中的原始语音信号；

S102、对原始语音信号进行降噪预处理过程；

语音预处理模块主要分为信号处理与特征提取两部分，信号处理是为了去除原始语音信号中的噪声，所述对原始语音信号进行降噪预处理过程包括：

对原始语音信号进行信号滤波处理；

对滤波处理后的原始语音信号进行平滑处理；

对平滑处理后的原始语音信号进行分帧加窗处理；

对分帧加窗处理后的原始语音信号进行端点检测处理。

S103、对降噪预处理的原始语音信号进行快速傅里叶变换FFT；

现有的方法中基本上都是使用经过信号处理的数据直接进行特征提取，本发明提出了在进行特征提取之前加入频域转换，再将转换之后的数据进行特征提取识别。其中，频域转换这里使用的是快速傅里叶变换(FFT)，通过下面的公式进行FFT变换：

S104、利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取；

需要说明的是，利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取整个的特征采集过程中涉及到取绝对值过程，Mel滤波处理过程，离散余弦变换DCT处理过程，动态特征提取MFCC处理过程。

所述利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取包括：将线性频谱映射到基于听觉感知的梅尔Mel非线性频谱；转换到倒谱上以此求取到Mel频率倒谱系数；通过公式变换得到梅尔频率。

通过上述的频域转换后，利用梅尔频率倒谱系数(MFCC)对得到的数据进行特征提取，MFCC这种方法对语音信号具有较强的识别能力。MFCC进行特征提取的过程是：首先，将线性频谱映射到基于听觉感知的梅尔(Mel)非线性频谱；其次，转换到倒谱上以此求取到Mel频率倒谱系数；最后，通过下面的公式变换，将频率变为梅尔频率：

S105、将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法，利用该算法进行声学模型训练经特征提取后的原始语音信号；

所述利用该算法进行声学模型训练经特征提取后的原始语音信号包括：将LSTM置于神经网络的底层次用于记录长时间段的数据特征；将DNN置于神经网络的深层次用于提取数据内部中更深层的特征。

图2示出了本发明实施例中的将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法流程图，包括：

S106、利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。

图3示出了本发明实施例中的语音识别过程的方法示意图，语音识别模型模块中，本发明实施例提出将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法，利用该算法进行声学模型训练。相比于现有方法，该算法结合了DNN和LSTM各自的优势，使用LSTM的作用是将其置于神经网络的底层次，用于记录长时间段的数据特征；使用DNN的作用是将其置于神经网络的深层次，用于提取数据内部中更深层的特征，将二者相结合进而提升识别的准确率。然后利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。

相应的，图4示出了本发明实施例中的用于电网调度的语音识别系统，所述系统包括：

采集模块，用于获取电网调度中的原始语音信号；

需要说明的是，该降噪预处理模块对原始语音信号进行信号滤波处理；对滤波处理后的原始语音信号进行平滑处理；对平滑处理后的原始语音信号进行分帧加窗处理；对分帧加窗处理后的原始语音信号进行端点检测处理。

需要说明的是，该特征提取模块将线性频谱映射到基于听觉感知的梅尔Mel非线性频谱；转换到倒谱上以此求取到Mel频率倒谱系数；通过公式变换得到梅尔频率。

需要说明的是，该声学模块处理模块将LSTM置于神经网络的底层次用于记录长时间段的数据特征；将DNN置于神经网络的深层次用于提取数据内部中更深层的特征。

在本发明实施例中基于用于电网调度的语音识别方法及系统，将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法，利用该算法进行声学模型训练。相比于现有方法，该算法结合了DNN和LSTM各自的优势，使用LSTM的作用是将其置于神经网络的底层次，用于记录长时间段的数据特征；使用DNN的作用是将其置于神经网络的深层次，用于提取数据内部中更深层的特征，将二者相结合进而提升识别的准确率，然后利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。当调度员进行命令下达过程时，智能语音识别系统将采集调度员指令并使之与指令库中高度规范化的指令进行匹配，计算出匹配结果并判断其是否有误。若匹配正确，将执行指令；若匹配错误将会发出警报信号以提醒调度员进行修正操作，从而提高电力电网作业人员的作业效率，降低风险发生率。

以上对本发明实施例所进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种用于电网调度的语音识别方法，其特征在于，所述方法包括：

获取电网调度中的原始语音信号；

对原始语音信号进行降噪预处理过程；

对降噪预处理的原始语音信号进行快速傅里叶变换FFT；

2.如权利要求1所述的用于电网调度的语音识别方法，其特征在于，所述对原始语音信号进行降噪预处理过程包括：

对原始语音信号进行信号滤波处理；

对滤波处理后的原始语音信号进行平滑处理；

对平滑处理后的原始语音信号进行分帧加窗处理；

对分帧加窗处理后的原始语音信号进行端点检测处理。

3.如权利要求2所述的用于电网调度的语音识别方法，其特征在于，所述对降噪预处理的原始语音信号进行快速傅里叶变换FFT包括：

通过公式进行FFT变换；

4.如权利要求3所述的用于电网调度的语音识别方法，其特征在于，所述利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取包括：

将线性频谱映射到基于听觉感知的梅尔Mel非线性频谱；

转换到倒谱上以此求取到Mel频率倒谱系数；

通过公式变换得到梅尔频率。

5.如权利要求4所述的用于电网调度的语音识别方法，其特征在于，所述利用该算法进行声学模型训练经特征提取后的原始语音信号包括：

将LSTM置于神经网络的底层次用于记录长时间段的数据特征；

6.如权利要求5所述的用于电网调度的语音识别方法，其特征在于，所述将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法包括：

7.一种用于电网调度的语音识别系统，其特征在于，所述系统包括：

采集模块，用于获取电网调度中的原始语音信号；

8.如权利要求7所述的用于电网调度的语音识别系统，其特征在于，所述降噪预处理模块对原始语音信号进行信号滤波处理；对滤波处理后的原始语音信号进行平滑处理；对平滑处理后的原始语音信号进行分帧加窗处理；对分帧加窗处理后的原始语音信号进行端点检测处理。

9.如权利要求8所述的用于电网调度的语音识别系统，其特征在于，所述特征提取模块将线性频谱映射到基于听觉感知的梅尔Mel非线性频谱；转换到倒谱上以此求取到Mel频率倒谱系数；通过公式变换得到梅尔频率。

10.如权利要求9所述的用于电网调度的语音识别系统，其特征在于，所述声学模块处理模块将LSTM置于神经网络的底层次用于记录长时间段的数据特征；将DNN置于神经网络的深层次用于提取数据内部中更深层的特征。