CN113823275A - 一种用于电网调度的语音识别方法及系统 - Google Patents
一种用于电网调度的语音识别方法及系统 Download PDFInfo
- Publication number
- CN113823275A CN113823275A CN202111043064.6A CN202111043064A CN113823275A CN 113823275 A CN113823275 A CN 113823275A CN 202111043064 A CN202111043064 A CN 202111043064A CN 113823275 A CN113823275 A CN 113823275A
- Authority
- CN
- China
- Prior art keywords
- neural network
- voice signal
- original voice
- lstm
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013528 artificial neural network Methods 0.000 claims abstract description 63
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000007781 pre-processing Methods 0.000 claims abstract description 25
- 230000009467 reduction Effects 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000013135 deep learning Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 38
- 238000001228 spectrum Methods 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 13
- 238000009432 framing Methods 0.000 claims description 12
- 238000009499 grossing Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 230000008447 perception Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims description 3
- 238000012937 correction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E40/00—Technologies for an efficient electrical power generation, transmission or distribution
- Y02E40/70—Smart grids as climate change mitigation technology in the energy generation sector
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Biophysics (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Public Health (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Telephonic Communication Services (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开了一种用于电网调度的语音识别方法及系统,其方法包括:获取电网调度中的原始语音信号;对原始语音信号进行降噪预处理过程;对降噪预处理的原始语音信号进行快速傅里叶变换FFT;利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取;将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN‑LSTM的算法,利用该算法进行声学模型训练经特征提取后的原始语音信号;利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。本发明实施例中所涉及的方法及系统,提高电力电网作业人员的作业效率,降低风险发生率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于电网调度的语音识别方法及系统。
背景技术
当今社会各行各业的发展都离不开电力系统的支持,随着用电量的不断增加,在电网调度方面,工作人员的工作量也随着增大。而在现有的电网调控系统中,目前还没有较好的措施对调度员因语音通话产生的人因失误来加以记录和防范,为了避免因为电网调度工作人员发生口误这样的工作失误,而造成电网危险事故的产生。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种用于电网调度的语音识别方法及系统,减少工作失误和危险事故的产生。
为了解决上述技术问题,本发明实施例提供了一种用于电网调度的语音识别方法,所述方法包括:
获取电网调度中的原始语音信号;
对原始语音信号进行降噪预处理过程;
对降噪预处理的原始语音信号进行快速傅里叶变换FFT;
利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取;
将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法,利用该算法进行声学模型训练经特征提取后的原始语音信号;
利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。
所述对原始语音信号进行降噪预处理过程包括:
对原始语音信号进行信号滤波处理;
对滤波处理后的原始语音信号进行平滑处理;
对平滑处理后的原始语音信号进行分帧加窗处理;
对分帧加窗处理后的原始语音信号进行端点检测处理。
所述对降噪预处理的原始语音信号进行快速傅里叶变换FFT包括:
通过公式进行FFT变换;
式中,ω表示频率,t表示时间,e-jωt表示复变函数,x(t)表示一个连续信号,X(ω)表示经过傅里叶变换得到的离散信号。
所述利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取包括:
将线性频谱映射到基于听觉感知的梅尔Mel非线性频谱;
转换到倒谱上以此求取到Mel频率倒谱系数;
通过公式变换得到梅尔频率。
所述利用该算法进行声学模型训练经特征提取后的原始语音信号包括:
将LSTM置于神经网络的底层次用于记录长时间段的数据特征;
将DNN置于神经网络的深层次用于提取数据内部中更深层的特征。
所述将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法包括:
S21、语音信号特征序列A={a1,a2,a3...,an}通过预处理模块得到,其中an表示第n帧提取到的特征,将特征序列A作为组合神经网络的输入;
S22、建立组合神经网络DNN-LSTM,然后输入语音数据进行训练;
S23、将特征序列A输入到DNN-LSTM中,这里每一个特征an被神经网络计算后,再利用为softmax层的激活函数得到因素后验概率;
S24、利用前向传播算法计算从1~t时刻,通过这样的方式得到前缀概率;
S25、前向传播算法完成后,进行后向计算从t~n时刻,通过这样的方式得到后缀概率;
S26、利用步骤S24和步骤S25的结果,计算出t时刻所有正确预测的概率;
S27、反向传播,最大化目标函数,得到条件概率最高的输出。
相应的,本发明实施例还提供了一种用于电网调度的语音识别系统,所述系统包括:
采集模块,用于获取电网调度中的原始语音信号;
降噪预处理模块,用于对原始语音信号进行降噪预处理过程;
FFT模块,用于对降噪预处理的原始语音信号进行快速傅里叶变换FFT;
特征提取模块,用于利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取;
声学模块处理模块,用于将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法,利用该算法进行声学模型训练经特征提取后的原始语音信号;
语音识别输出模块,用于利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。
所述降噪预处理模块对原始语音信号进行信号滤波处理;对滤波处理后的原始语音信号进行平滑处理;对平滑处理后的原始语音信号进行分帧加窗处理;对分帧加窗处理后的原始语音信号进行端点检测处理。
所述特征提取模块将线性频谱映射到基于听觉感知的梅尔Mel非线性频谱;转换到倒谱上以此求取到Mel频率倒谱系数;通过公式变换得到梅尔频率。
所述声学模块处理模块将LSTM置于神经网络的底层次用于记录长时间段的数据特征;将DNN置于神经网络的深层次用于提取数据内部中更深层的特征。
在本发明实施例中基于用于电网调度的语音识别方法及系统,当调度员进行命令下达过程时,智能语音识别系统将采集调度员指令并使之与指令库中高度规范化的指令进行匹配,计算出匹配结果并判断其是否有误。若匹配正确,将执行指令;若匹配错误将会发出警报信号以提醒调度员进行修正操作,从而提高电力电网作业人员的作业效率,降低风险发生率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中的用于电网调度的语音识别方法流程图;
图2是本发明实施例中的将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法流程;
图3是本发明实施例中的语音识别过程的方法示意图;
图4是本发明实施例中的用于电网调度的语音识别系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
具体的,图1示出了本发明实施例中的用于电网调度的语音识别方法流程图,该方法包括:
S101、获取电网调度中的原始语音信号;
S102、对原始语音信号进行降噪预处理过程;
语音预处理模块主要分为信号处理与特征提取两部分,信号处理是为了去除原始语音信号中的噪声,所述对原始语音信号进行降噪预处理过程包括:
对原始语音信号进行信号滤波处理;
对滤波处理后的原始语音信号进行平滑处理;
对平滑处理后的原始语音信号进行分帧加窗处理;
对分帧加窗处理后的原始语音信号进行端点检测处理。
S103、对降噪预处理的原始语音信号进行快速傅里叶变换FFT;
现有的方法中基本上都是使用经过信号处理的数据直接进行特征提取,本发明提出了在进行特征提取之前加入频域转换,再将转换之后的数据进行特征提取识别。其中,频域转换这里使用的是快速傅里叶变换(FFT),通过下面的公式进行FFT变换:
式中,ω表示频率,t表示时间,e-jωt表示复变函数,x(t)表示一个连续信号,X(ω)表示经过傅里叶变换得到的离散信号。
S104、利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取;
需要说明的是,利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取整个的特征采集过程中涉及到取绝对值过程,Mel滤波处理过程,离散余弦变换DCT处理过程,动态特征提取MFCC处理过程。
所述利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取包括:将线性频谱映射到基于听觉感知的梅尔Mel非线性频谱;转换到倒谱上以此求取到Mel频率倒谱系数;通过公式变换得到梅尔频率。
通过上述的频域转换后,利用梅尔频率倒谱系数(MFCC)对得到的数据进行特征提取,MFCC这种方法对语音信号具有较强的识别能力。MFCC进行特征提取的过程是:首先,将线性频谱映射到基于听觉感知的梅尔(Mel)非线性频谱;其次,转换到倒谱上以此求取到Mel频率倒谱系数;最后,通过下面的公式变换,将频率变为梅尔频率:
S105、将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法,利用该算法进行声学模型训练经特征提取后的原始语音信号;
所述利用该算法进行声学模型训练经特征提取后的原始语音信号包括:将LSTM置于神经网络的底层次用于记录长时间段的数据特征;将DNN置于神经网络的深层次用于提取数据内部中更深层的特征。
图2示出了本发明实施例中的将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法流程图,包括:
S21、语音信号特征序列A={a1,a2,a3...,an}通过预处理模块得到,其中an表示第n帧提取到的特征,将特征序列A作为组合神经网络的输入;
S22、建立组合神经网络DNN-LSTM,然后输入语音数据进行训练;
S23、将特征序列A输入到DNN-LSTM中,这里每一个特征an被神经网络计算后,再利用为softmax层的激活函数得到因素后验概率;
S24、利用前向传播算法计算从1~t时刻,通过这样的方式得到前缀概率;
S25、前向传播算法完成后,进行后向计算从t~n时刻,通过这样的方式得到后缀概率;
S26、利用步骤S24和步骤S25的结果,计算出t时刻所有正确预测的概率;
S27、反向传播,最大化目标函数,得到条件概率最高的输出。
S106、利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。
图3示出了本发明实施例中的语音识别过程的方法示意图,语音识别模型模块中,本发明实施例提出将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法,利用该算法进行声学模型训练。相比于现有方法,该算法结合了DNN和LSTM各自的优势,使用LSTM的作用是将其置于神经网络的底层次,用于记录长时间段的数据特征;使用DNN的作用是将其置于神经网络的深层次,用于提取数据内部中更深层的特征,将二者相结合进而提升识别的准确率。然后利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。
相应的,图4示出了本发明实施例中的用于电网调度的语音识别系统,所述系统包括:
采集模块,用于获取电网调度中的原始语音信号;
降噪预处理模块,用于对原始语音信号进行降噪预处理过程;
FFT模块,用于对降噪预处理的原始语音信号进行快速傅里叶变换FFT;
特征提取模块,用于利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取;
声学模块处理模块,用于将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法,利用该算法进行声学模型训练经特征提取后的原始语音信号;
语音识别输出模块,用于利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。
需要说明的是,该降噪预处理模块对原始语音信号进行信号滤波处理;对滤波处理后的原始语音信号进行平滑处理;对平滑处理后的原始语音信号进行分帧加窗处理;对分帧加窗处理后的原始语音信号进行端点检测处理。
需要说明的是,该特征提取模块将线性频谱映射到基于听觉感知的梅尔Mel非线性频谱;转换到倒谱上以此求取到Mel频率倒谱系数;通过公式变换得到梅尔频率。
需要说明的是,该声学模块处理模块将LSTM置于神经网络的底层次用于记录长时间段的数据特征;将DNN置于神经网络的深层次用于提取数据内部中更深层的特征。
在本发明实施例中基于用于电网调度的语音识别方法及系统,将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法,利用该算法进行声学模型训练。相比于现有方法,该算法结合了DNN和LSTM各自的优势,使用LSTM的作用是将其置于神经网络的底层次,用于记录长时间段的数据特征;使用DNN的作用是将其置于神经网络的深层次,用于提取数据内部中更深层的特征,将二者相结合进而提升识别的准确率,然后利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。当调度员进行命令下达过程时,智能语音识别系统将采集调度员指令并使之与指令库中高度规范化的指令进行匹配,计算出匹配结果并判断其是否有误。若匹配正确,将执行指令;若匹配错误将会发出警报信号以提醒调度员进行修正操作,从而提高电力电网作业人员的作业效率,降低风险发生率。
以上对本发明实施例所进行了详细介绍,本文中应采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种用于电网调度的语音识别方法,其特征在于,所述方法包括:
获取电网调度中的原始语音信号;
对原始语音信号进行降噪预处理过程;
对降噪预处理的原始语音信号进行快速傅里叶变换FFT;
利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取;
将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法,利用该算法进行声学模型训练经特征提取后的原始语音信号;
利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。
2.如权利要求1所述的用于电网调度的语音识别方法,其特征在于,所述对原始语音信号进行降噪预处理过程包括:
对原始语音信号进行信号滤波处理;
对滤波处理后的原始语音信号进行平滑处理;
对平滑处理后的原始语音信号进行分帧加窗处理;
对分帧加窗处理后的原始语音信号进行端点检测处理。
4.如权利要求3所述的用于电网调度的语音识别方法,其特征在于,所述利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取包括:
将线性频谱映射到基于听觉感知的梅尔Mel非线性频谱;
转换到倒谱上以此求取到Mel频率倒谱系数;
通过公式变换得到梅尔频率。
5.如权利要求4所述的用于电网调度的语音识别方法,其特征在于,所述利用该算法进行声学模型训练经特征提取后的原始语音信号包括:
将LSTM置于神经网络的底层次用于记录长时间段的数据特征;
将DNN置于神经网络的深层次用于提取数据内部中更深层的特征。
6.如权利要求5所述的用于电网调度的语音识别方法,其特征在于,所述将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法包括:
S21、语音信号特征序列A={a1,a2,a3...,an}通过预处理模块得到,其中an表示第n帧提取到的特征,将特征序列A作为组合神经网络的输入;
S22、建立组合神经网络DNN-LSTM,然后输入语音数据进行训练;
S23、将特征序列A输入到DNN-LSTM中,这里每一个特征an被神经网络计算后,再利用为softmax层的激活函数得到因素后验概率;
S24、利用前向传播算法计算从1~t时刻,通过这样的方式得到前缀概率;
S25、前向传播算法完成后,进行后向计算从t~n时刻,通过这样的方式得到后缀概率;
S26、利用步骤S24和步骤S25的结果,计算出t时刻所有正确预测的概率;
S27、反向传播,最大化目标函数,得到条件概率最高的输出。
7.一种用于电网调度的语音识别系统,其特征在于,所述系统包括:
采集模块,用于获取电网调度中的原始语音信号;
降噪预处理模块,用于对原始语音信号进行降噪预处理过程;
FFT模块,用于对降噪预处理的原始语音信号进行快速傅里叶变换FFT;
特征提取模块,用于利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取;
声学模块处理模块,用于将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法,利用该算法进行声学模型训练经特征提取后的原始语音信号;
语音识别输出模块,用于利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。
8.如权利要求7所述的用于电网调度的语音识别系统,其特征在于,所述降噪预处理模块对原始语音信号进行信号滤波处理;对滤波处理后的原始语音信号进行平滑处理;对平滑处理后的原始语音信号进行分帧加窗处理;对分帧加窗处理后的原始语音信号进行端点检测处理。
9.如权利要求8所述的用于电网调度的语音识别系统,其特征在于,所述特征提取模块将线性频谱映射到基于听觉感知的梅尔Mel非线性频谱;转换到倒谱上以此求取到Mel频率倒谱系数;通过公式变换得到梅尔频率。
10.如权利要求9所述的用于电网调度的语音识别系统,其特征在于,所述声学模块处理模块将LSTM置于神经网络的底层次用于记录长时间段的数据特征;将DNN置于神经网络的深层次用于提取数据内部中更深层的特征。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111043064.6A CN113823275A (zh) | 2021-09-07 | 2021-09-07 | 一种用于电网调度的语音识别方法及系统 |
PCT/CN2022/115883 WO2023036017A1 (zh) | 2021-09-07 | 2022-08-30 | 一种用于电网调度的语音识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111043064.6A CN113823275A (zh) | 2021-09-07 | 2021-09-07 | 一种用于电网调度的语音识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113823275A true CN113823275A (zh) | 2021-12-21 |
Family
ID=78921940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111043064.6A Pending CN113823275A (zh) | 2021-09-07 | 2021-09-07 | 一种用于电网调度的语音识别方法及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113823275A (zh) |
WO (1) | WO2023036017A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023036017A1 (zh) * | 2021-09-07 | 2023-03-16 | 广西电网有限责任公司贺州供电局 | 一种用于电网调度的语音识别方法及系统 |
CN118427772A (zh) * | 2024-04-26 | 2024-08-02 | 中国矿业大学 | 基于ppg信号和多尺度融合的心率测量方法及装置 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116701625B (zh) * | 2023-05-29 | 2024-05-10 | 中国南方电网有限责任公司 | 电力调度语句处理方法、装置、设备及介质 |
CN117012185A (zh) * | 2023-06-20 | 2023-11-07 | 国网山东省电力公司泗水县供电公司 | 基于知识图谱的电网调度方法及系统 |
CN116778913B (zh) * | 2023-08-25 | 2023-10-20 | 澳克多普有限公司 | 一种增强噪声鲁棒性的语音识别方法和系统 |
CN117909665A (zh) * | 2024-03-18 | 2024-04-19 | 青岛哈尔滨工程大学创新发展中心 | 基于傅里叶滤波的船舶运动包络预报数据处理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109360554A (zh) * | 2018-12-10 | 2019-02-19 | 广东潮庭集团有限公司 | 一种基于语深度神经网络的语言识别方法 |
CN111477220A (zh) * | 2020-04-15 | 2020-07-31 | 南京邮电大学 | 一种面向家居口语环境的神经网络语音识别方法及系统 |
CN112397054A (zh) * | 2020-12-17 | 2021-02-23 | 北京中电飞华通信有限公司 | 一种电力调度语音识别方法 |
US20210193161A1 (en) * | 2016-02-02 | 2021-06-24 | Nippon Telegraph And Telephpne Corporation | Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112259080B (zh) * | 2020-10-20 | 2021-06-22 | 北京讯众通信技术股份有限公司 | 一种基于神经网络模型的语音识别方法 |
CN112927682B (zh) * | 2021-04-16 | 2024-04-16 | 西安交通大学 | 一种基于深度神经网络声学模型的语音识别方法及系统 |
CN113160798B (zh) * | 2021-04-28 | 2024-04-16 | 厦门大学 | 一种中文民航空中交通管制语音识别方法及系统 |
CN113823275A (zh) * | 2021-09-07 | 2021-12-21 | 广西电网有限责任公司贺州供电局 | 一种用于电网调度的语音识别方法及系统 |
-
2021
- 2021-09-07 CN CN202111043064.6A patent/CN113823275A/zh active Pending
-
2022
- 2022-08-30 WO PCT/CN2022/115883 patent/WO2023036017A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210193161A1 (en) * | 2016-02-02 | 2021-06-24 | Nippon Telegraph And Telephpne Corporation | Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program |
CN109360554A (zh) * | 2018-12-10 | 2019-02-19 | 广东潮庭集团有限公司 | 一种基于语深度神经网络的语言识别方法 |
CN111477220A (zh) * | 2020-04-15 | 2020-07-31 | 南京邮电大学 | 一种面向家居口语环境的神经网络语音识别方法及系统 |
CN112397054A (zh) * | 2020-12-17 | 2021-02-23 | 北京中电飞华通信有限公司 | 一种电力调度语音识别方法 |
Non-Patent Citations (1)
Title |
---|
程铭: "《基于语音识别的家居设备控制系统研究与实现》", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》, no. 03, pages 7 - 15 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023036017A1 (zh) * | 2021-09-07 | 2023-03-16 | 广西电网有限责任公司贺州供电局 | 一种用于电网调度的语音识别方法及系统 |
CN118427772A (zh) * | 2024-04-26 | 2024-08-02 | 中国矿业大学 | 基于ppg信号和多尺度融合的心率测量方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2023036017A1 (zh) | 2023-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113823275A (zh) | 一种用于电网调度的语音识别方法及系统 | |
CN108597496B (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
CN112800782B (zh) | 融合文本语义特征的语音翻译方法、系统、设备 | |
CN103117059B (zh) | 一种基于张量分解的语音信号特征提取方法 | |
DE102019113534B4 (de) | Verfahren und System zur Zeitdomänen-Merkmalsextraktion für die automatische Spracherkennung | |
CN105118501A (zh) | 语音识别的方法及系统 | |
CN102543073B (zh) | 一种沪语语音识别信息处理方法 | |
CN105632486A (zh) | 一种智能硬件的语音唤醒方法和装置 | |
EP3739582B1 (en) | Voice detection | |
CN109192200B (zh) | 一种语音识别方法 | |
CN113506562A (zh) | 基于声学特征与文本情感特征融合的端到端语音合成方法及系统 | |
CN102945673A (zh) | 一种语音指令范围动态变化的连续语音识别方法 | |
CN111667818A (zh) | 一种训练唤醒模型的方法及装置 | |
CN113823264A (zh) | 语音识别方法、装置、计算机可读存储介质及计算机设备 | |
CN111816197B (zh) | 音频编码方法、装置、电子设备和存储介质 | |
CN113077806B (zh) | 音频处理方法及装置、模型训练方法及装置、介质和设备 | |
CN115098765A (zh) | 基于深度学习的信息推送方法、装置、设备及存储介质 | |
WO2024055752A1 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
CN111508475B (zh) | 一种机器人唤醒的语音关键词识别方法、装置及存储介质 | |
CN110751953A (zh) | 一种用于模切机的智能语音交互系统 | |
CN113782044B (zh) | 一种语音增强方法及装置 | |
CN117059068A (zh) | 语音处理方法、装置、存储介质及计算机设备 | |
CN113782042B (zh) | 语音合成方法、声码器的训练方法、装置、设备及介质 | |
CN102148030A (zh) | 一种语音识别的端点检测方法 | |
CN117198311A (zh) | 一种基于语音降噪的声控方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |