CN113823275A - 一种用于电网调度的语音识别方法及系统 - Google Patents

一种用于电网调度的语音识别方法及系统 Download PDF

Info

Publication number
CN113823275A
CN113823275A CN202111043064.6A CN202111043064A CN113823275A CN 113823275 A CN113823275 A CN 113823275A CN 202111043064 A CN202111043064 A CN 202111043064A CN 113823275 A CN113823275 A CN 113823275A
Authority
CN
China
Prior art keywords
neural network
voice signal
original voice
lstm
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111043064.6A
Other languages
English (en)
Inventor
朱明增
莫梓樱
覃秋勤
吕鸣
刘小兰
陈极万
韩竞
李和峰
蒋志儒
覃景涛
黄金
卢迎
韦晓明
李梅
周素君
梁维
罗晨怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guanxi Power Grid Corp Hezhou Power Supply Bureau
Hezhou Power Supply Bureau of Guangxi Power Grid Co Ltd
Original Assignee
Guanxi Power Grid Corp Hezhou Power Supply Bureau
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guanxi Power Grid Corp Hezhou Power Supply Bureau filed Critical Guanxi Power Grid Corp Hezhou Power Supply Bureau
Priority to CN202111043064.6A priority Critical patent/CN113823275A/zh
Publication of CN113823275A publication Critical patent/CN113823275A/zh
Priority to PCT/CN2022/115883 priority patent/WO2023036017A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Biophysics (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Public Health (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明公开了一种用于电网调度的语音识别方法及系统,其方法包括:获取电网调度中的原始语音信号;对原始语音信号进行降噪预处理过程;对降噪预处理的原始语音信号进行快速傅里叶变换FFT;利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取;将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN‑LSTM的算法,利用该算法进行声学模型训练经特征提取后的原始语音信号;利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。本发明实施例中所涉及的方法及系统,提高电力电网作业人员的作业效率,降低风险发生率。

Description

一种用于电网调度的语音识别方法及系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于电网调度的语音识别方法及系统。
背景技术
当今社会各行各业的发展都离不开电力系统的支持,随着用电量的不断增加,在电网调度方面,工作人员的工作量也随着增大。而在现有的电网调控系统中,目前还没有较好的措施对调度员因语音通话产生的人因失误来加以记录和防范,为了避免因为电网调度工作人员发生口误这样的工作失误,而造成电网危险事故的产生。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种用于电网调度的语音识别方法及系统,减少工作失误和危险事故的产生。
为了解决上述技术问题,本发明实施例提供了一种用于电网调度的语音识别方法,所述方法包括:
获取电网调度中的原始语音信号;
对原始语音信号进行降噪预处理过程;
对降噪预处理的原始语音信号进行快速傅里叶变换FFT;
利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取;
将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法,利用该算法进行声学模型训练经特征提取后的原始语音信号;
利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。
所述对原始语音信号进行降噪预处理过程包括:
对原始语音信号进行信号滤波处理;
对滤波处理后的原始语音信号进行平滑处理;
对平滑处理后的原始语音信号进行分帧加窗处理;
对分帧加窗处理后的原始语音信号进行端点检测处理。
所述对降噪预处理的原始语音信号进行快速傅里叶变换FFT包括:
通过公式进行FFT变换;
Figure BDA0003250169670000021
式中,ω表示频率,t表示时间,e-jωt表示复变函数,x(t)表示一个连续信号,X(ω)表示经过傅里叶变换得到的离散信号。
所述利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取包括:
将线性频谱映射到基于听觉感知的梅尔Mel非线性频谱;
转换到倒谱上以此求取到Mel频率倒谱系数;
通过公式变换得到梅尔频率。
所述利用该算法进行声学模型训练经特征提取后的原始语音信号包括:
将LSTM置于神经网络的底层次用于记录长时间段的数据特征;
将DNN置于神经网络的深层次用于提取数据内部中更深层的特征。
所述将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法包括:
S21、语音信号特征序列A={a1,a2,a3...,an}通过预处理模块得到,其中an表示第n帧提取到的特征,将特征序列A作为组合神经网络的输入;
S22、建立组合神经网络DNN-LSTM,然后输入语音数据进行训练;
S23、将特征序列A输入到DNN-LSTM中,这里每一个特征an被神经网络计算后,再利用为softmax层的激活函数得到因素后验概率;
S24、利用前向传播算法计算从1~t时刻,通过这样的方式得到前缀概率;
S25、前向传播算法完成后,进行后向计算从t~n时刻,通过这样的方式得到后缀概率;
S26、利用步骤S24和步骤S25的结果,计算出t时刻所有正确预测的概率;
S27、反向传播,最大化目标函数,得到条件概率最高的输出。
相应的,本发明实施例还提供了一种用于电网调度的语音识别系统,所述系统包括:
采集模块,用于获取电网调度中的原始语音信号;
降噪预处理模块,用于对原始语音信号进行降噪预处理过程;
FFT模块,用于对降噪预处理的原始语音信号进行快速傅里叶变换FFT;
特征提取模块,用于利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取;
声学模块处理模块,用于将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法,利用该算法进行声学模型训练经特征提取后的原始语音信号;
语音识别输出模块,用于利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。
所述降噪预处理模块对原始语音信号进行信号滤波处理;对滤波处理后的原始语音信号进行平滑处理;对平滑处理后的原始语音信号进行分帧加窗处理;对分帧加窗处理后的原始语音信号进行端点检测处理。
所述特征提取模块将线性频谱映射到基于听觉感知的梅尔Mel非线性频谱;转换到倒谱上以此求取到Mel频率倒谱系数;通过公式变换得到梅尔频率。
所述声学模块处理模块将LSTM置于神经网络的底层次用于记录长时间段的数据特征;将DNN置于神经网络的深层次用于提取数据内部中更深层的特征。
在本发明实施例中基于用于电网调度的语音识别方法及系统,当调度员进行命令下达过程时,智能语音识别系统将采集调度员指令并使之与指令库中高度规范化的指令进行匹配,计算出匹配结果并判断其是否有误。若匹配正确,将执行指令;若匹配错误将会发出警报信号以提醒调度员进行修正操作,从而提高电力电网作业人员的作业效率,降低风险发生率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中的用于电网调度的语音识别方法流程图;
图2是本发明实施例中的将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法流程;
图3是本发明实施例中的语音识别过程的方法示意图;
图4是本发明实施例中的用于电网调度的语音识别系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
具体的,图1示出了本发明实施例中的用于电网调度的语音识别方法流程图,该方法包括:
S101、获取电网调度中的原始语音信号;
S102、对原始语音信号进行降噪预处理过程;
语音预处理模块主要分为信号处理与特征提取两部分,信号处理是为了去除原始语音信号中的噪声,所述对原始语音信号进行降噪预处理过程包括:
对原始语音信号进行信号滤波处理;
对滤波处理后的原始语音信号进行平滑处理;
对平滑处理后的原始语音信号进行分帧加窗处理;
对分帧加窗处理后的原始语音信号进行端点检测处理。
S103、对降噪预处理的原始语音信号进行快速傅里叶变换FFT;
现有的方法中基本上都是使用经过信号处理的数据直接进行特征提取,本发明提出了在进行特征提取之前加入频域转换,再将转换之后的数据进行特征提取识别。其中,频域转换这里使用的是快速傅里叶变换(FFT),通过下面的公式进行FFT变换:
Figure BDA0003250169670000051
式中,ω表示频率,t表示时间,e-jωt表示复变函数,x(t)表示一个连续信号,X(ω)表示经过傅里叶变换得到的离散信号。
S104、利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取;
需要说明的是,利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取整个的特征采集过程中涉及到取绝对值过程,Mel滤波处理过程,离散余弦变换DCT处理过程,动态特征提取MFCC处理过程。
所述利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取包括:将线性频谱映射到基于听觉感知的梅尔Mel非线性频谱;转换到倒谱上以此求取到Mel频率倒谱系数;通过公式变换得到梅尔频率。
通过上述的频域转换后,利用梅尔频率倒谱系数(MFCC)对得到的数据进行特征提取,MFCC这种方法对语音信号具有较强的识别能力。MFCC进行特征提取的过程是:首先,将线性频谱映射到基于听觉感知的梅尔(Mel)非线性频谱;其次,转换到倒谱上以此求取到Mel频率倒谱系数;最后,通过下面的公式变换,将频率变为梅尔频率:
Figure BDA0003250169670000052
S105、将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法,利用该算法进行声学模型训练经特征提取后的原始语音信号;
所述利用该算法进行声学模型训练经特征提取后的原始语音信号包括:将LSTM置于神经网络的底层次用于记录长时间段的数据特征;将DNN置于神经网络的深层次用于提取数据内部中更深层的特征。
图2示出了本发明实施例中的将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法流程图,包括:
S21、语音信号特征序列A={a1,a2,a3...,an}通过预处理模块得到,其中an表示第n帧提取到的特征,将特征序列A作为组合神经网络的输入;
S22、建立组合神经网络DNN-LSTM,然后输入语音数据进行训练;
S23、将特征序列A输入到DNN-LSTM中,这里每一个特征an被神经网络计算后,再利用为softmax层的激活函数得到因素后验概率;
S24、利用前向传播算法计算从1~t时刻,通过这样的方式得到前缀概率;
S25、前向传播算法完成后,进行后向计算从t~n时刻,通过这样的方式得到后缀概率;
S26、利用步骤S24和步骤S25的结果,计算出t时刻所有正确预测的概率;
S27、反向传播,最大化目标函数,得到条件概率最高的输出。
S106、利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。
图3示出了本发明实施例中的语音识别过程的方法示意图,语音识别模型模块中,本发明实施例提出将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法,利用该算法进行声学模型训练。相比于现有方法,该算法结合了DNN和LSTM各自的优势,使用LSTM的作用是将其置于神经网络的底层次,用于记录长时间段的数据特征;使用DNN的作用是将其置于神经网络的深层次,用于提取数据内部中更深层的特征,将二者相结合进而提升识别的准确率。然后利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。
相应的,图4示出了本发明实施例中的用于电网调度的语音识别系统,所述系统包括:
采集模块,用于获取电网调度中的原始语音信号;
降噪预处理模块,用于对原始语音信号进行降噪预处理过程;
FFT模块,用于对降噪预处理的原始语音信号进行快速傅里叶变换FFT;
特征提取模块,用于利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取;
声学模块处理模块,用于将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法,利用该算法进行声学模型训练经特征提取后的原始语音信号;
语音识别输出模块,用于利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。
需要说明的是,该降噪预处理模块对原始语音信号进行信号滤波处理;对滤波处理后的原始语音信号进行平滑处理;对平滑处理后的原始语音信号进行分帧加窗处理;对分帧加窗处理后的原始语音信号进行端点检测处理。
需要说明的是,该特征提取模块将线性频谱映射到基于听觉感知的梅尔Mel非线性频谱;转换到倒谱上以此求取到Mel频率倒谱系数;通过公式变换得到梅尔频率。
需要说明的是,该声学模块处理模块将LSTM置于神经网络的底层次用于记录长时间段的数据特征;将DNN置于神经网络的深层次用于提取数据内部中更深层的特征。
在本发明实施例中基于用于电网调度的语音识别方法及系统,将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法,利用该算法进行声学模型训练。相比于现有方法,该算法结合了DNN和LSTM各自的优势,使用LSTM的作用是将其置于神经网络的底层次,用于记录长时间段的数据特征;使用DNN的作用是将其置于神经网络的深层次,用于提取数据内部中更深层的特征,将二者相结合进而提升识别的准确率,然后利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。当调度员进行命令下达过程时,智能语音识别系统将采集调度员指令并使之与指令库中高度规范化的指令进行匹配,计算出匹配结果并判断其是否有误。若匹配正确,将执行指令;若匹配错误将会发出警报信号以提醒调度员进行修正操作,从而提高电力电网作业人员的作业效率,降低风险发生率。
以上对本发明实施例所进行了详细介绍,本文中应采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种用于电网调度的语音识别方法,其特征在于,所述方法包括:
获取电网调度中的原始语音信号;
对原始语音信号进行降噪预处理过程;
对降噪预处理的原始语音信号进行快速傅里叶变换FFT;
利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取;
将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法,利用该算法进行声学模型训练经特征提取后的原始语音信号;
利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。
2.如权利要求1所述的用于电网调度的语音识别方法,其特征在于,所述对原始语音信号进行降噪预处理过程包括:
对原始语音信号进行信号滤波处理;
对滤波处理后的原始语音信号进行平滑处理;
对平滑处理后的原始语音信号进行分帧加窗处理;
对分帧加窗处理后的原始语音信号进行端点检测处理。
3.如权利要求2所述的用于电网调度的语音识别方法,其特征在于,所述对降噪预处理的原始语音信号进行快速傅里叶变换FFT包括:
通过公式进行FFT变换;
Figure FDA0003250169660000011
式中,ω表示频率,t表示时间,e-jωt表示复变函数,x(t)表示一个连续信号,X(ω)表示经过傅里叶变换得到的离散信号。
4.如权利要求3所述的用于电网调度的语音识别方法,其特征在于,所述利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取包括:
将线性频谱映射到基于听觉感知的梅尔Mel非线性频谱;
转换到倒谱上以此求取到Mel频率倒谱系数;
通过公式变换得到梅尔频率。
5.如权利要求4所述的用于电网调度的语音识别方法,其特征在于,所述利用该算法进行声学模型训练经特征提取后的原始语音信号包括:
将LSTM置于神经网络的底层次用于记录长时间段的数据特征;
将DNN置于神经网络的深层次用于提取数据内部中更深层的特征。
6.如权利要求5所述的用于电网调度的语音识别方法,其特征在于,所述将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法包括:
S21、语音信号特征序列A={a1,a2,a3...,an}通过预处理模块得到,其中an表示第n帧提取到的特征,将特征序列A作为组合神经网络的输入;
S22、建立组合神经网络DNN-LSTM,然后输入语音数据进行训练;
S23、将特征序列A输入到DNN-LSTM中,这里每一个特征an被神经网络计算后,再利用为softmax层的激活函数得到因素后验概率;
S24、利用前向传播算法计算从1~t时刻,通过这样的方式得到前缀概率;
S25、前向传播算法完成后,进行后向计算从t~n时刻,通过这样的方式得到后缀概率;
S26、利用步骤S24和步骤S25的结果,计算出t时刻所有正确预测的概率;
S27、反向传播,最大化目标函数,得到条件概率最高的输出。
7.一种用于电网调度的语音识别系统,其特征在于,所述系统包括:
采集模块,用于获取电网调度中的原始语音信号;
降噪预处理模块,用于对原始语音信号进行降噪预处理过程;
FFT模块,用于对降噪预处理的原始语音信号进行快速傅里叶变换FFT;
特征提取模块,用于利用梅尔频率倒谱系数MFCC对进行FFT变换的原始语音信号进行特征提取;
声学模块处理模块,用于将深度学习神经网络DNN和长短期记忆神经网络LSTM相结合的组合神经网络DNN-LSTM的算法,利用该算法进行声学模型训练经特征提取后的原始语音信号;
语音识别输出模块,用于利用解码器对声学模型输出结果、语音模型以及字典寻找出最佳文本输出结果。
8.如权利要求7所述的用于电网调度的语音识别系统,其特征在于,所述降噪预处理模块对原始语音信号进行信号滤波处理;对滤波处理后的原始语音信号进行平滑处理;对平滑处理后的原始语音信号进行分帧加窗处理;对分帧加窗处理后的原始语音信号进行端点检测处理。
9.如权利要求8所述的用于电网调度的语音识别系统,其特征在于,所述特征提取模块将线性频谱映射到基于听觉感知的梅尔Mel非线性频谱;转换到倒谱上以此求取到Mel频率倒谱系数;通过公式变换得到梅尔频率。
10.如权利要求9所述的用于电网调度的语音识别系统,其特征在于,所述声学模块处理模块将LSTM置于神经网络的底层次用于记录长时间段的数据特征;将DNN置于神经网络的深层次用于提取数据内部中更深层的特征。
CN202111043064.6A 2021-09-07 2021-09-07 一种用于电网调度的语音识别方法及系统 Pending CN113823275A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111043064.6A CN113823275A (zh) 2021-09-07 2021-09-07 一种用于电网调度的语音识别方法及系统
PCT/CN2022/115883 WO2023036017A1 (zh) 2021-09-07 2022-08-30 一种用于电网调度的语音识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111043064.6A CN113823275A (zh) 2021-09-07 2021-09-07 一种用于电网调度的语音识别方法及系统

Publications (1)

Publication Number Publication Date
CN113823275A true CN113823275A (zh) 2021-12-21

Family

ID=78921940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111043064.6A Pending CN113823275A (zh) 2021-09-07 2021-09-07 一种用于电网调度的语音识别方法及系统

Country Status (2)

Country Link
CN (1) CN113823275A (zh)
WO (1) WO2023036017A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023036017A1 (zh) * 2021-09-07 2023-03-16 广西电网有限责任公司贺州供电局 一种用于电网调度的语音识别方法及系统
CN118427772A (zh) * 2024-04-26 2024-08-02 中国矿业大学 基于ppg信号和多尺度融合的心率测量方法及装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701625B (zh) * 2023-05-29 2024-05-10 中国南方电网有限责任公司 电力调度语句处理方法、装置、设备及介质
CN117012185A (zh) * 2023-06-20 2023-11-07 国网山东省电力公司泗水县供电公司 基于知识图谱的电网调度方法及系统
CN116778913B (zh) * 2023-08-25 2023-10-20 澳克多普有限公司 一种增强噪声鲁棒性的语音识别方法和系统
CN117909665A (zh) * 2024-03-18 2024-04-19 青岛哈尔滨工程大学创新发展中心 基于傅里叶滤波的船舶运动包络预报数据处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109360554A (zh) * 2018-12-10 2019-02-19 广东潮庭集团有限公司 一种基于语深度神经网络的语言识别方法
CN111477220A (zh) * 2020-04-15 2020-07-31 南京邮电大学 一种面向家居口语环境的神经网络语音识别方法及系统
CN112397054A (zh) * 2020-12-17 2021-02-23 北京中电飞华通信有限公司 一种电力调度语音识别方法
US20210193161A1 (en) * 2016-02-02 2021-06-24 Nippon Telegraph And Telephpne Corporation Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259080B (zh) * 2020-10-20 2021-06-22 北京讯众通信技术股份有限公司 一种基于神经网络模型的语音识别方法
CN112927682B (zh) * 2021-04-16 2024-04-16 西安交通大学 一种基于深度神经网络声学模型的语音识别方法及系统
CN113160798B (zh) * 2021-04-28 2024-04-16 厦门大学 一种中文民航空中交通管制语音识别方法及系统
CN113823275A (zh) * 2021-09-07 2021-12-21 广西电网有限责任公司贺州供电局 一种用于电网调度的语音识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210193161A1 (en) * 2016-02-02 2021-06-24 Nippon Telegraph And Telephpne Corporation Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program
CN109360554A (zh) * 2018-12-10 2019-02-19 广东潮庭集团有限公司 一种基于语深度神经网络的语言识别方法
CN111477220A (zh) * 2020-04-15 2020-07-31 南京邮电大学 一种面向家居口语环境的神经网络语音识别方法及系统
CN112397054A (zh) * 2020-12-17 2021-02-23 北京中电飞华通信有限公司 一种电力调度语音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
程铭: "《基于语音识别的家居设备控制系统研究与实现》", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》, no. 03, pages 7 - 15 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023036017A1 (zh) * 2021-09-07 2023-03-16 广西电网有限责任公司贺州供电局 一种用于电网调度的语音识别方法及系统
CN118427772A (zh) * 2024-04-26 2024-08-02 中国矿业大学 基于ppg信号和多尺度融合的心率测量方法及装置

Also Published As

Publication number Publication date
WO2023036017A1 (zh) 2023-03-16

Similar Documents

Publication Publication Date Title
CN113823275A (zh) 一种用于电网调度的语音识别方法及系统
CN108597496B (zh) 一种基于生成式对抗网络的语音生成方法及装置
CN112800782B (zh) 融合文本语义特征的语音翻译方法、系统、设备
CN103117059B (zh) 一种基于张量分解的语音信号特征提取方法
DE102019113534B4 (de) Verfahren und System zur Zeitdomänen-Merkmalsextraktion für die automatische Spracherkennung
CN105118501A (zh) 语音识别的方法及系统
CN102543073B (zh) 一种沪语语音识别信息处理方法
CN105632486A (zh) 一种智能硬件的语音唤醒方法和装置
EP3739582B1 (en) Voice detection
CN109192200B (zh) 一种语音识别方法
CN113506562A (zh) 基于声学特征与文本情感特征融合的端到端语音合成方法及系统
CN102945673A (zh) 一种语音指令范围动态变化的连续语音识别方法
CN111667818A (zh) 一种训练唤醒模型的方法及装置
CN113823264A (zh) 语音识别方法、装置、计算机可读存储介质及计算机设备
CN111816197B (zh) 音频编码方法、装置、电子设备和存储介质
CN113077806B (zh) 音频处理方法及装置、模型训练方法及装置、介质和设备
CN115098765A (zh) 基于深度学习的信息推送方法、装置、设备及存储介质
WO2024055752A1 (zh) 语音合成模型的训练方法、语音合成方法和相关装置
CN111508475B (zh) 一种机器人唤醒的语音关键词识别方法、装置及存储介质
CN110751953A (zh) 一种用于模切机的智能语音交互系统
CN113782044B (zh) 一种语音增强方法及装置
CN117059068A (zh) 语音处理方法、装置、存储介质及计算机设备
CN113782042B (zh) 语音合成方法、声码器的训练方法、装置、设备及介质
CN102148030A (zh) 一种语音识别的端点检测方法
CN117198311A (zh) 一种基于语音降噪的声控方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination