CN110689880A - 一种应用于电力调度领域的语音识别方法及装置 - Google Patents

一种应用于电力调度领域的语音识别方法及装置 Download PDF

Info

Publication number
CN110689880A
CN110689880A CN201911002395.8A CN201911002395A CN110689880A CN 110689880 A CN110689880 A CN 110689880A CN 201911002395 A CN201911002395 A CN 201911002395A CN 110689880 A CN110689880 A CN 110689880A
Authority
CN
China
Prior art keywords
neural network
features
voice
recognized
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911002395.8A
Other languages
English (en)
Inventor
鄢发齐
汪旸
王春明
程迪
陈钟钟
刘志成
徐浩
董向明
孙涛
吴怡菲
曲亮
金勇�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN FENGHUO PUTIAN IT Co Ltd
STATE GRID CENTER CHINA GRID Co Ltd
Central China Grid Co Ltd
Original Assignee
WUHAN FENGHUO PUTIAN IT Co Ltd
STATE GRID CENTER CHINA GRID Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN FENGHUO PUTIAN IT Co Ltd, STATE GRID CENTER CHINA GRID Co Ltd filed Critical WUHAN FENGHUO PUTIAN IT Co Ltd
Priority to CN201911002395.8A priority Critical patent/CN110689880A/zh
Publication of CN110689880A publication Critical patent/CN110689880A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

本发明实施例提供一种应用于电力调度领域的语音识别方法及装置。包括:将待识别语音的功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络,得到新的特征;将新的特征、功率归一化倒谱系数特征和说话人特征进行拼接,得到混合特征;将混合特征输入至预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络,得到词序列集合针对待识别语音特征的后验概率;根据后验概率结合语言模型对待识别语音进行解码,得到识别出的词序列。在电力调度领域提出基于上述三个网络的语音识别声学模型多网络混合训练方法,使得能够通过训练好的模型对待识别语音进行识别,降低调度员的工作强度并缩短其重复性工作的时间。

Description

一种应用于电力调度领域的语音识别方法及装置
技术领域
本发明涉及电力调度技术领域,尤其涉及一种应用于电力调度领域的语音识别方法及装置。
背景技术
各级电网调控中心是电网运行的组织、指挥、指导和协调机构,调控中心的调度员作为电网运行的直接指挥者,坚守在电网运行工作的第一线。随着全国联网规模的不断扩大和电压等级的不断提高,电网在设备数量、互联模式、耦合特性、复杂程度等方面已全面超越传统超高压交流电网,电网面临来自自然、人为、内在因素影响的问题也更为突出,并且,由于调控中心的调度员人数众多,因此调控中心不可避免地会出现较多噪音,这就造成调度员调度电网的工作量、复杂度和工作压力日益增大。目前调度运行工作中常规的事务性、例行性、程式化工作占据了调度员大量的时间和精力,使其无法专注于电网运行监视、风险分析和事故处理这些直接关系到电网安全稳定运行的核心任务。
因此,急需充分挖掘调度规程、故障预案、调度日志等电网运行文本的基础上,形成电力特有的语音识别声学模型,并通过有效且符合电力调度特征的训练方法对模型进行训练,使得能够通过训练好的模型对电力调度领域中的语音进行识别,降低调度员的工作强度,并缩短调度员重复性工作的时间。
发明内容
针对现有技术存在的问题,本发明实施例提供一种应用于电力调度领域的语音识别方法及装置。
第一方面,本发明实施例提供一种应用于电力调度领域的语音识别方法,包括:
获取电力调度领域的待识别语音的功率归一化倒谱系数特征和说话人特征;
将所述功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络,得到新的特征;
将所述新的特征、所述功率归一化倒谱系数特征和所述说话人特征进行拼接,得到混合特征;
将所述混合特征输入至所述预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络,得到词序列集合针对所述待识别语音特征的后验概率;
根据所述后验概率结合语言模型对所述待识别语音进行解码,得到识别出的词序列;
其中,所述预设神经网络模型是根据电力调度领域的多个语音样本进行训练后得到的;
所述语言模型是根据电力调度领域的文本采用N-GRAM模型训练后得到的。
进一步地,所述卷积神经网络中包括若干个卷积层,所述时间延迟神经网络中包括若干个时间延迟层,所述双向长短期记忆循环神经网络中包括若干个长短期记忆循环层。
进一步地,将所述功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络,之前还包括:
获取电力调度领域的多个语音样本;
通过所述多个语音样本对所述预设神经网络模型进行训练。
进一步地,获取电力调度领域的多个语音样本,包括:
获取电力调度领域的文本材料;
对获取到的文本材料进行去重操作;
通过多人对去重操作后的文本材料进行阅读录音,得到多声音频率段的电力调度领域的多个语音样本。
进一步地,通过所述多个语音样本对所述预设神经网络模型进行训练,包括:
对于任意一个语音样本,将所述语音样本的功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络,得到新的特征;
将所述新的特征、所述功率归一化倒谱系数特征和所述语音样本的说话人特征进行拼接,得到混合特征;
将所述混合特征输入至所述预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络,得到词序列集合针对所述语音样本特征的后验概率;
根据所述后验概率结合语言模型对所述语音样本进行解码,得到识别出的词序列;
将所述识别出的词序列与所述语音样本输入至损失函数,根据所述损失函数的输出结果对所述预设神经网络模型进行前向反馈或判定所述预设神经网络模型训练完成。
第二方面,本发明实施例提供一种应用于电力调度领域的语音识别装置,包括:
特征获取模块,用于获取电力调度领域的待识别语音的功率归一化倒谱系数特征和说话人特征;
第一输入模块,用于将所述功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络,得到新的特征;
拼接模块,用于将所述新的特征、所述功率归一化倒谱系数特征和所述说话人特征进行拼接,得到混合特征;
第二输入模块,用于将所述混合特征输入至所述预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络,得到词序列集合针对所述待识别语音特征的后验概率;
识别模块,用于根据所述后验概率结合语言模型对所述待识别语音进行解码,得到识别出的词序列;
其中,所述预设神经网络模型是根据电力调度领域的多个语音样本进行训练后得到的;
所述语言模型是根据电力调度领域的文本采用N-GRAM模型训练后得到的。
进一步地,还包括:
语音样本获取模块,用于获取电力调度领域的多个语音样本;
训练模块,用于通过所述多个语音样本对所述预设神经网络模型进行训练。
进一步地,语音样本获取模块,包括:
文本材料获取单元,用于获取电力调度领域的文本材料;
去重单元,用于对获取到的文本材料进行去重操作;
语音样本获取单元,用于通过多人对去重操作后的文本材料进行阅读录音,得到多声音频率段的电力调度领域的多个语音样本。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的一种应用于电力调度领域的语音识别方法及装置,首次在电力调度领域,提出了基于CNN、BLSTM、TDNN这三个神经网络的语音识别声学模型多网络混合训练方法,在提取特征阶段,选用功率归一化倒谱系数PNCC特征,能够在语音存在噪音的情况下也能很好地进行语音识别,在此基础上使用基于CNN获取时域和频域两个维度的关键信息,通过交替引入TDNN和BLSTM,构建完备的语音识别声学模型多网络混合训练体系,使得能够通过训练好的模型对电力调度领域中的语音进行识别,从而降低调度员的工作强度,并缩短了调度员重复性工作的时间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种应用于电力调度领域的语音识别方法流程图;
图2为本发明实施例提供的预设神经网络模型的结构示意图;
图3为本发明实施例提供的双向长短期记忆循环神经网络的结构示意图;
图4为本发明实施例提供的一种应用于电力调度领域的语音识别装置的结构示意图;
图5为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种应用于电力调度领域的语音识别方法流程图,如图1所述,该方法包括:
步骤101,获取电力调度领域的待识别语音的功率归一化倒谱系数特征和说话人特征。
步骤102,将所述功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络,得到新的特征;
步骤103,将所述新的特征、所述功率归一化倒谱系数特征和所述说话人特征进行拼接,得到混合特征;
步骤104,将所述混合特征输入至所述预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络,得到词序列集合针对所述待识别语音特征的后验概率;
步骤105,根据所述后验概率结合语言模型对所述待识别语音进行解码,得到识别出的词序列;
其中,所述预设神经网络模型是根据电力调度领域的多个语音样本进行训练后得到的;
所述语言模型是根据电力调度领域的文本采用N-GRAM模型训练后得到的。
具体地,首先结合附图对本发明实施例中的预设神经网络模型的结构进行说明。图2为本发明实施例提供的预设神经网络模型的结构示意图,如图2所示,模型包括:
卷积神经网络(ConvolutionalNeural Networks,CNN)、若干组依次交替设置的双向长短期记忆循环神经网络(Bi-directional Long Short-Term Memory,BLSTM)和时间延迟神经网络(Time DelayNeuralNetwork,TDNN)。
其中时间延迟及双向长短期记忆循环神经网络是基础模型,本发明实施例提供的预设神经网络模型在声学模型层面把卷积神经网络作为一个特征提取模块放置在基础模型时间延迟及双向长短期记忆循环神经网络之前。
时间延迟及双向长短期记忆循环神经网络的输入端衔接上前端卷积神经网络,卷积神经网络提取出来的鲁棒性特征会和原有的特征进行拼接,一起作为后端时间延迟及双向长短期记忆循环神经网络的输入特征,图3为本发明实施例提供的双向长短期记忆循环神经网络的结构示意图,如图3所示,这个网络构成了一个无环图,可以看出输出是同时考虑了前后的因素得到的,因此输出结果更具有鲁棒性。
使用该模型进行语音识别的步骤如下:
首先,获取电力调度领域的待识别语音,并通过滤波器提取待识别语音的功率归一化倒谱系数(power-normalized cepstral coefficients,PNCC)特征和说话人特征。
然后,将待识别语音的功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络中,将卷积神经网络的输出作为新的特征。
随后,将得到的新的特征、待识别语音的功率归一化倒谱系数特征和说话人特征进行拼接,得到混合特征。
然后,将混合特征输入至预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络,得到最后一个双向长短期记忆循环神经网络输出的词序列集合针对待识别语音特征的后验概率。
最后,根据得到的后验概率结合语言模型对待识别语音进行解码,得到识别出的词序列。
需要说明的是,语言模型通过如下步骤得到:
首先,将电力调度领域的文本作为训练语料,对训练语料进行tokenization或切分,然后,采用N-GRAM算法结合进行训练语料,估计语言模型参数,从而得到语言模型。
需要说明的是,语言模型采用N-GRAM算法能够得到一份关于词频的统计文件,在对待识别语音进行解码时,基于该统计文件生成带权重的有限状态转换器(weightedfinite-state transducer,WFST),然后结合预设神经网络模型得到的后验概率在WFST中找出最优的词序列。
本发明实施例提供的方法,首次在电力调度领域,提出了基于CNN、BLSTM、TDNN这三个神经网络的语音识别声学模型多网络混合训练方法,在提取特征阶段,选用功率归一化倒谱系数PNCC特征,能够在语音存在噪音的情况下也能很好地进行语音识别,在此基础上使用基于CNN获取时域和频域两个维度的关键信息,通过交替引入TDNN和BLSTM,构建完备的语音识别声学模型多网络混合训练体系,使得能够通过训练好的模型对电力调度领域中的语音进行识别,从而降低调度员的工作强度,缩短了调度员重复性工作的时间。
基于上述任一实施例,所述卷积神经网络中包括若干个卷积层,所述时间延迟神经网络中包括若干个时间延迟层,所述双向长短期记忆循环神经网络中包括若干个长短期记忆循环层。
需要说明的是,卷积神经网络中卷积层的个数、时间延迟神经网络中时间延迟层的个数以及双向长短期记忆循环神经网络中长短期记忆循环层的个数均可根据实际情况进行选定,而作为优选,卷积层的个数为2,长短期记忆循环层的个数为1。
基于上述任一实施例,将所述功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络,之前还包括:获取电力调度领域的多个语音样本;通过所述多个语音样本对所述预设神经网络模型进行训练。
具体地,将功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络之前,还需对预设神经网络模型进行训练,具体训练过程如下:
首先,获取电力调度领域的多个语音样本,在此基础上,通过滤波器提取每个语音样本的功率归一化倒谱系数特征和说话人特征。
基于上述任一实施例,获取电力调度领域的多个语音样本,包括:获取电力调度领域的文本材料;对获取到的文本材料进行去重操作;通过多人对去重操作后的文本材料进行阅读录音,得到多声音频率段的电力调度领域的多个语音样本。
具体地,获取电力调度领域的文本材料,然后进行文本去重操作,通过寻找50人以上团队进行录音阅读,获取多声音频率段的电力调度领域的多个语音样本。
基于上述任一实施例,通过所述多个语音样本对所述预设神经网络模型进行训练,包括:对于任意一个语音样本,将所述语音样本的功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络,得到新的特征;将所述新的特征、所述功率归一化倒谱系数特征和所述语音样本的说话人特征进行拼接,得到混合特征;将所述混合特征输入至所述预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络,得到词序列集合针对所述语音样本特征的后验概率;根据所述后验概率结合语言模型对所述语音样本进行解码,得到识别出的词序列;将所述识别出的词序列与所述语音样本输入至损失函数,根据所述损失函数的输出结果对所述预设神经网络模型进行前向反馈或判定所述预设神经网络模型训练完成。
具体地,在获取到多个语音样本之后,对于任意一个语音样本,首先,将该语音样本的功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络,得到新的特征;然后,将新的特征、功率归一化倒谱系数特征和该语音样本的说话人特征进行拼接,得到混合特征;随后,将混合特征输入至预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络,得到词序列集合针对该语音样本特征的后验概率;然后,根据后验概率结合语言模型对所述语音样本进行解码,得到识别出的词序列;最后,将识别出的词序列与该语音样本输入至损失函数,需要说明的是,损失函数可以为交叉熵损失函数,得到损失函数的输出结果之后,本次训练过程结束,再利用前向反馈更新预设神经网络模型中的参数,之后再进行下一次训练。在训练的过程中,若针对某个语音样本得到的损失函数的输出结果小于某一特定阈值,则预设神经网络模型训练完成。需要说明的是,特定阈值可根据实际情况具体选定,本发明实施例对此不作具体限定。
基于上述任一实施例,图4为本发明实施例提供的一种应用于电力调度领域的语音识别装置的结构示意图,如图4所示,该装置包括:
特征获取模块401,用于获取电力调度领域的待识别语音的功率归一化倒谱系数特征和说话人特征;第一输入模块402,用于将所述功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络,得到新的特征;拼接模块403,用于将所述新的特征、所述功率归一化倒谱系数特征和所述说话人特征进行拼接,得到混合特征;第二输入模块404,用于将所述混合特征输入至所述预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络,得到词序列集合针对所述待识别语音特征的后验概率;识别模块405,用于根据所述后验概率结合语言模型对所述待识别语音进行解码,得到识别出的词序列;其中,所述预设神经网络模型是根据电力调度领域的多个语音样本进行训练后得到的;所述语言模型是根据电力调度领域的文本采用N-GRAM模型训练后得到的。
具体地,本发明实施例提供的装置具体用于执行上述方法实施例,本发明实施例对此不再进行赘述。本发明实施例提供的装置,首次在电力调度领域,提出了基于CNN、BLSTM、TDNN这三个神经网络的语音识别声学模型多网络混合训练方法,在提取特征阶段,选用功率归一化倒谱系数PNCC特征,能够在语音存在噪音的情况下也能很好地进行语音识别,在此基础上使用基于CNN获取时域和频域两个维度的关键信息,通过交替引入TDNN和BLSTM,构建完备的语音识别声学模型多网络混合训练体系,使得能够通过训练好的模型对电力调度领域中的语音进行识别,从而降低调度员的工作强度,缩短了调度员重复性工作的时间。
基于上述任一实施例,还包括:语音样本获取模块,用于获取电力调度领域的多个语音样本;训练模块,用于通过所述多个语音样本对所述预设神经网络模型进行训练。
基于上述任一实施例,语音样本获取模块,包括:文本材料获取单元,用于获取电力调度领域的文本材料;去重单元,用于对获取到的文本材料进行去重操作;语音样本获取单元,用于通过多人对去重操作后的文本材料进行阅读录音,得到多声音频率段的电力调度领域的多个语音样本。
图5为本发明实施例提供的一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储在存储器503上并可在处理器501上运行的计算机程序,以执行上述各实施例提供的方法,例如包括:获取待识别语音的功率归一化倒谱系数特征和说话人特征;将所述功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络,得到新的特征;将所述新的特征、所述功率归一化倒谱系数特征和所述说话人特征进行拼接,得到混合特征;将所述混合特征输入至所述预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络,得到词序列集合针对所述待识别语音特征的后验概率;根据所述后验概率结合语言模型对所述待识别语音进行解码,得到识别出的词序列;其中,所述预设神经网络模型是根据电力调度领域的多个语音样本进行训练后得到的;所述语言模型是根据电力调度领域的文本采用N-GRAM模型训练后得到的。
此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:获取待识别语音的功率归一化倒谱系数特征和说话人特征;将所述功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络,得到新的特征;将所述新的特征、所述功率归一化倒谱系数特征和所述说话人特征进行拼接,得到混合特征;将所述混合特征输入至所述预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络,得到词序列集合针对所述待识别语音特征的后验概率;根据所述后验概率结合语言模型对所述待识别语音进行解码,得到识别出的词序列;其中,所述预设神经网络模型是根据电力调度领域的多个语音样本进行训练后得到的;所述语言模型是根据电力调度领域的文本采用N-GRAM模型训练后得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种应用于电力调度领域的语音识别方法,其特征在于,包括:
获取电力调度领域的待识别语音的功率归一化倒谱系数特征和说话人特征;
将所述功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络,得到新的特征;
将所述新的特征、所述功率归一化倒谱系数特征和所述说话人特征进行拼接,得到混合特征;
将所述混合特征输入至所述预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络,得到词序列集合针对所述待识别语音特征的后验概率;
根据所述后验概率结合语言模型对所述待识别语音进行解码,得到识别出的词序列;
其中,所述预设神经网络模型是根据电力调度领域的多个语音样本进行训练后得到的;
所述语言模型是根据电力调度领域的文本采用N-GRAM模型训练后得到的。
2.根据权利要求1所述的方法,其特征在于,所述卷积神经网络中包括若干个卷积层,所述时间延迟神经网络中包括若干个时间延迟层,所述双向长短期记忆循环神经网络中包括若干个长短期记忆循环层。
3.根据权利要求1所述的方法,其特征在于,将所述功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络,之前还包括:
获取电力调度领域的多个语音样本;
通过所述多个语音样本对所述预设神经网络模型进行训练。
4.根据权利要求3所述的方法,其特征在于,获取电力调度领域的多个语音样本,包括:
获取电力调度领域的文本材料;
对获取到的文本材料进行去重操作;
通过多人对去重操作后的文本材料进行阅读录音,得到多声音频率段的电力调度领域的多个语音样本。
5.根据权利要求3所述的方法,其特征在于,通过所述多个语音样本对所述预设神经网络模型进行训练,包括:
对于任意一个语音样本,将所述语音样本的功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络,得到新的特征;
将所述新的特征、所述功率归一化倒谱系数特征和所述语音样本的说话人特征进行拼接,得到混合特征;
将所述混合特征输入至所述预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络,得到词序列集合针对所述语音样本特征的后验概率;
根据所述后验概率结合语言模型对所述语音样本进行解码,得到识别出的词序列;
将所述识别出的词序列与所述语音样本输入至损失函数,根据所述损失函数的输出结果对所述预设神经网络模型进行前向反馈或判定所述预设神经网络模型训练完成。
6.一种应用于电力调度领域的语音识别装置,其特征在于,包括:
特征获取模块,用于获取电力调度领域的待识别语音的功率归一化倒谱系数特征和说话人特征;
第一输入模块,用于将所述功率归一化倒谱系数特征输入至预设神经网络模型中的卷积神经网络,得到新的特征;
拼接模块,用于将所述新的特征、所述功率归一化倒谱系数特征和所述说话人特征进行拼接,得到混合特征;
第二输入模块,用于将所述混合特征输入至所述预设神经网络模型中的若干组交替设置的时间延迟神经网络和双向长短期记忆循环神经网络,得到词序列集合针对所述待识别语音特征的后验概率;
识别模块,用于根据所述后验概率结合语言模型对所述待识别语音进行解码,得到识别出的词序列;
其中,所述预设神经网络模型是根据多个电力调度领域的语音样本进行训练后得到的;
所述语言模型是根据电力调度领域的文本采用N-GRAM模型训练后得到的。
7.根据权利要求6所述的装置,其特征在于,还包括:
语音样本获取模块,用于获取电力调度领域的多个语音样本;
训练模块,用于通过所述多个语音样本对所述预设神经网络模型进行训练。
8.根据权利要求7所述的装置,其特征在于,语音样本获取模块,包括:
文本材料获取单元,用于获取电力调度领域的文本材料;
去重单元,用于对获取到的文本材料进行去重操作;
语音样本获取单元,用于通过多人对去重操作后的文本材料进行阅读录音,得到多声音频率段的电力调度领域的多个语音样本。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN201911002395.8A 2019-10-21 2019-10-21 一种应用于电力调度领域的语音识别方法及装置 Pending CN110689880A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911002395.8A CN110689880A (zh) 2019-10-21 2019-10-21 一种应用于电力调度领域的语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911002395.8A CN110689880A (zh) 2019-10-21 2019-10-21 一种应用于电力调度领域的语音识别方法及装置

Publications (1)

Publication Number Publication Date
CN110689880A true CN110689880A (zh) 2020-01-14

Family

ID=69113494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911002395.8A Pending CN110689880A (zh) 2019-10-21 2019-10-21 一种应用于电力调度领域的语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN110689880A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784189A (zh) * 2020-07-16 2020-10-16 国网河北省电力有限公司邯郸供电分公司 一种电力通信调度智能指挥平台
CN112397054A (zh) * 2020-12-17 2021-02-23 北京中电飞华通信有限公司 一种电力调度语音识别方法
CN112420025A (zh) * 2020-11-09 2021-02-26 国网山东省电力公司临沂供电公司 一种用于电力调度的智能语音识别转化方法及系统
CN112420042A (zh) * 2020-11-19 2021-02-26 国网北京市电力公司 电力系统的控制方法及装置
CN113140213A (zh) * 2021-04-15 2021-07-20 国网上海市电力公司 一种ai语音功能在配电自动化主站中的应用方法
CN113327596A (zh) * 2021-06-17 2021-08-31 北京百度网讯科技有限公司 语音识别模型的训练方法、语音识别方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120077527A (ko) * 2010-12-30 2012-07-10 부산대학교 산학협력단 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법
CN105681920A (zh) * 2015-12-30 2016-06-15 深圳市鹰硕音频科技有限公司 一种具有语音识别功能的网络教学方法及系统
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
US20170301347A1 (en) * 2016-04-13 2017-10-19 Malaspina Labs (Barbados), Inc. Phonotactic-Based Speech Recognition & Re-synthesis
CN108447475A (zh) * 2018-03-02 2018-08-24 国家电网公司华中分部 一种基于电力调度系统的语音识别模型的建立方法
CN109559737A (zh) * 2018-12-13 2019-04-02 朱明增 电力系统调度语音模型建立方法
CN109754790A (zh) * 2017-11-01 2019-05-14 中国科学院声学研究所 一种基于混合声学模型的语音识别系统及方法
US20190172480A1 (en) * 2017-12-05 2019-06-06 Synaptics Incorporated Voice activity detection systems and methods

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120077527A (ko) * 2010-12-30 2012-07-10 부산대학교 산학협력단 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
CN105681920A (zh) * 2015-12-30 2016-06-15 深圳市鹰硕音频科技有限公司 一种具有语音识别功能的网络教学方法及系统
US20170301347A1 (en) * 2016-04-13 2017-10-19 Malaspina Labs (Barbados), Inc. Phonotactic-Based Speech Recognition & Re-synthesis
CN109754790A (zh) * 2017-11-01 2019-05-14 中国科学院声学研究所 一种基于混合声学模型的语音识别系统及方法
US20190172480A1 (en) * 2017-12-05 2019-06-06 Synaptics Incorporated Voice activity detection systems and methods
CN108447475A (zh) * 2018-03-02 2018-08-24 国家电网公司华中分部 一种基于电力调度系统的语音识别模型的建立方法
CN109559737A (zh) * 2018-12-13 2019-04-02 朱明增 电力系统调度语音模型建立方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鄢发齐等: "基于隐马尔可夫模型的电力调度语音识别研究", 《武汉大学学报(工学版)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784189A (zh) * 2020-07-16 2020-10-16 国网河北省电力有限公司邯郸供电分公司 一种电力通信调度智能指挥平台
CN112420025A (zh) * 2020-11-09 2021-02-26 国网山东省电力公司临沂供电公司 一种用于电力调度的智能语音识别转化方法及系统
CN112420042A (zh) * 2020-11-19 2021-02-26 国网北京市电力公司 电力系统的控制方法及装置
CN112397054A (zh) * 2020-12-17 2021-02-23 北京中电飞华通信有限公司 一种电力调度语音识别方法
CN112397054B (zh) * 2020-12-17 2023-11-24 北京中电飞华通信有限公司 一种电力调度语音识别方法
CN113140213A (zh) * 2021-04-15 2021-07-20 国网上海市电力公司 一种ai语音功能在配电自动化主站中的应用方法
CN113327596A (zh) * 2021-06-17 2021-08-31 北京百度网讯科技有限公司 语音识别模型的训练方法、语音识别方法和装置

Similar Documents

Publication Publication Date Title
CN110689880A (zh) 一种应用于电力调度领域的语音识别方法及装置
CN108428446A (zh) 语音识别方法和装置
CN113962315A (zh) 模型预训练方法、装置、设备、存储介质以及程序产品
EP3489950A1 (en) Response sentence generation apparatus, method and program, and voice interaction system
CN110853649A (zh) 基于智能语音技术的标签提取方法、系统、设备及介质
CN111339278B (zh) 训练话术生成模型、生成应答话术的方法和装置
CN110853628A (zh) 一种模型训练方法、装置、电子设备及存储介质
CN110704590B (zh) 扩充训练样本的方法和装置
CN111259130B (zh) 用于在对话中提供答复语句的方法及装置
CN114218375A (zh) 基于图谱的对话引导方法、装置、设备及介质
CN112084317A (zh) 预训练语言模型的方法和装置
CN112016327A (zh) 基于多轮对话的智能结构化文本抽取方法、装置和电子设备
CN113140219A (zh) 调控指令生成方法、装置、电子设备及存储介质
CN114360557A (zh) 语音音色转换方法、模型训练方法、装置、设备和介质
CN112541068A (zh) 语音对话的意图识别方法、系统、设备及存储介质
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN106297769A (zh) 一种应用于语种识别的鉴别性特征提取方法
CN113793599A (zh) 语音识别模型的训练方法和语音识别方法及装置
CN111554270A (zh) 训练样本筛选方法及电子设备
CN111241843A (zh) 基于复合神经网络的语义关系推断系统和方法
CN106682642A (zh) 多面向语言行为识别方法及系统
CN116246632A (zh) 外呼话术指导方法及装置
CN115132170A (zh) 语种分类方法、装置及计算机可读存储介质
CN113889085A (zh) 语音识别方法、装置、设备、存储介质及程序产品
CN112908296A (zh) 一种方言识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200114

RJ01 Rejection of invention patent application after publication