CN112397054B

CN112397054B - 一种电力调度语音识别方法

Info

Publication number: CN112397054B
Application number: CN202011494795.8A
Authority: CN
Inventors: 欧清海; 李庭瑞; 涂珂; 罗睿; 李锐; 万思宇; 韩天宇; 韩东升
Original assignee: Beijing Zhongdian Feihua Communication Co Ltd
Current assignee: Beijing Zhongdian Feihua Communication Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2023-11-24
Anticipated expiration: 2040-12-17
Also published as: CN112397054A

Abstract

本发明提出一种电力调度语音识别方法，建立声学模型，用于将语音信号转换为音素；建立包括通用发音字典和电力调度领域词发音字典的发音字典；利用生成的类标签语料信息对语言模型进行训练，生产类标签语言模型；将待识别的语音信号进行能量谱的提取，通过26阶梅尔(Mel)滤波器，对对数功率谱进行反离散余弦变换，得到13维的梅尔频率倒谱系数(MFCC)特征；将提取的MFCC特征通过所述声学模型、发音字典、类标签语言模型构成的加权有限状态转换器(WFST)解码网络进行Lattice解码，求出待识别语音信号的文本信息。本发明的方法可以提升模型对电力调度语音的适应性，有效提高电力调度语音识别的准确率。

Description

一种电力调度语音识别方法

技术领域

本发明属于语音识别技术领域，尤其涉及一种电力调度语音识别方法。

背景技术

随着智能电网的高速发展，电力调度系统对语音识别的需求也在不断增加。与众多现有行业相同，电力调度指令有其特定的专业信息，例如，变电站名称、开关名称、线路名称等。然而在利用现有面向公共领域的语音识别技术进行语音识别时，专业信息很难被识别，使得电力调度语音的识别准确率不高，影响了电网系统中各项业务和服务的效率和成本。因此，研究面向电力调度的语音识别技术，实现针对智能电网的语音信息识别和处理是十分有必要的。

目前针对电力调度的语音识别的研究主要集中在声学模型。文献[1]研究了高斯混合-隐马尔可夫(GMM-HMM)声学模型在电力系统语音识别上的应用，在传统的(GMM-HMM)声学模型上加入了汉语声调模型、三音素模型；文献[2]研究了深度神经网络在电力调度应用，提出一种基于三音素模型的深度神经网络-隐马尔可夫(DNN-HMM)声学模型，提高了语音识别的准确率；文献[3]考虑了电力行业的专业术语，提出了一种可实时添加领域词的语言模型动态优化方法，提高了电力语音识别的准确性，但对于发音不准确的模糊匹配未进行充分设计。

通用语音识别系统在电力调度语音中识别率低，迫切需要一种适应电力调度语音特点的语音识别方法。同时，电力调度语音中存在专业词汇多、调度指令格式化、地点词汇繁多等特点。

文献[1]窦建中,罗深增,金勇,李群山,杨超,杨绪升.基于深度神经网络的电力调度语音识别研究及应用[J].湖北电力,2019,43(03):16-22.

文献[2]GuernazZineddine.电话和语音识别系统的语音增强[D].哈尔滨工业大学,2019.

文献[3]杨维,张才俊,马永波.一种语音识别中核心词快速模型优化方法[J].电子技术应用,2019,45(02):9-11.

文献[4]Hirsimaki,T.,J.Pylkkonen,and M.Kurimo."Importance of High-Order N-Gram Models in Morph-Based Speech Recognition."IEEE Transa ctions onAudio,Speech,and Language Processing 17.4(2009):724-732.

发明内容

为此，针对电力调度语音场景的需求以及电力调度语音的特点，本发明提出一种电力调度语音识别方法，该方法采用类标签方法对现有语言模型进行改进，以提升模型对电力调度语音的适应性，有效提高电力调度语音识别的准确率。

一种电力调度语音的识别方法，包括：

建立声学模型，用于将语音信号转换为音素；

建立包括通用发音字典和电力调度领域词发音字典的发音字典；

利用生成的类标签语料信息类对语言模型进行训练，生产类标签语言模型；

将待识别的语音信号进行能量谱的提取，通过26阶梅尔(Mel)滤波器，对对数功率谱进行反离散余弦变换，得到13维的梅尔频率倒谱系数(MFCC)特征；将提取的MFCC特征通过所述声学模型、发音字典、类标签语言模型构成的加权有限状态转换器(WFST)解码网络进行Lattice解码，求出待识别语音信号的文本信息。

进一步，所述通用发音字典由《现代汉语语法词典》经过单词到音素(G2P)转换得来。

优选地，生成所述电力调度领域词发音字典的步骤包括：

收集一定数量的电力调度领域的代表性样本文献作为训练文本信息；

采用基于通用字典的N-最短路径分词方法对训练文本信息进行分词处理；

采用最大化匹配算法得到候选字典；

候选字典经过规则优化得到电力调度领域词字典；

电力调度领域词字典经过单词到音素(G2P)转换，得到电力调度领域词发音字典。

优选地，所述规则优化用于删除错误的组合模式。

更优选地，所述规则包括删除候选字典中的同频子词串；删除以“的、是”单字开口或结尾的子词串；删除“数词+量词”的子词串。

进一步，对语言模型训练前需先对字典进行单词分类。

优选地，生成类标签语料信息包括：

选取一定比例的通用语料信息和电力调度领域的语料信息构成混合语料信息，用以训练类标签语言模型所需的类标签语料信息；

采用基于双字典的分词方法对所述混合语料信息进行分词，生成分词后语料信息；

采用基于分类字典、优化规则的类便签添加方法对分词后语料信息进行类标签的添加，得到类标签语料信息。

优选地，所述优化规则对以下三种情况进行优化：语料信息只得到通用分类字典中的类别，则连续检测两到三个分词后的语料信息，将其拼合后生成的语料信息在电力调度领域词分类字典中匹配类别，若匹配到，则拼合的语料信息将标注为电力调度领域词分类字典中的类别，若匹配不到，则标注为通用分类字典中的类别；语料信息只得到电力调度领域词分类字典中的类别，则将标注为电力调度领域词分类字典中的类别；语料信息同时匹配到两个分类字典中的类别，则检测语料信息的字粒度，字粒度小的语料信息的类标签为两个分类字典的加权值，字粒度大的语料信息的类标签为电力调度领域词分类字典中的类别。

优选地，类标签语言模型的训练包括：对类标签语料信息进行文本预处理；使用语言模型训练工具训练类标签语言模型。

优选地，类标签语言模型训练中使用线性插值平滑以及Kneser-Ney平滑算法。

优选地，声学模型采用深度神经网络-隐马尔可夫(DNN-HMM)声学模型，其包含5个状态的隐马尔可夫(HMM)模型、5个隐藏层的深度神经网络(DNN)模型，采用线性整流函数(ReLU)作为激活函数、最大互信息(MMI)准则作为声学模型的训练准则以及反向传播(BP)算法来训练DNN-HMM模型。

优选地，将待识别的语音信号进行能量谱的提取前需进行预加重、分帧和加汉明窗预处理。

进一步，WFST解码网络由深度神经网络-隐马尔可夫(DNN-HMM)声学模型的有限状态机H、与上下文有关的有限状态机C、通用字典和电力领域词字典构成的有限状态机L以及类标签语言模型的有限状态机G通过合并、确定化、最小化操作的HCLG网络构成。

附图说明

图1是本发明方法中发音字典构成示意图；

图2是本发明方法中电力调度领域词发音字典的生成过程流程图；

图3是本发明方法中生成类标签语料信息流程图；

图4是本发明中语音识别的流程图。

具体实施方式

下面结合附图，对实施例作详细说明。

现有的基于概率判别的N-gram语言模型因其计算简单、效率高，在工业界的语言模型中占据主流地位。但已有的N-gram的语言模型在电力调度领域应用存在以下两方面的问题：

一方面，字典是N-gram语言模型进行语料信息切分、训练的基础。传统的N-gram语言模型采用一种字典，电力调度领域的字典需要在通用字典的基础上，进行电力调度领域词汇添加和重复词汇删除等操作，字典的词汇量和词汇相似度增加，导致语音识别的准确率下降。

另一方面，N-gram语言模型在面对电力调度语音这种词汇类别区分性明显的语料信息时，可以采用基于词汇类别的分类语言模型，但分类语言模型为了增强词汇区分性、加快概率的计算速度，牺牲了语言模型的困惑度。

针对已有的N-gram语言模型在电力调度领域面临的问题，本发明提出一种电力调度语言识别的方法，该方法采用双字典的分词方法和词汇类别标记方法对已有的N-gram语言模型进行改进，提高电力调度语音识别的准确率。

双字典的分词方法是指在通用字典与电力调度领域词字典的基础上，采用双向最大匹配算法、匹配法相关歧义处理算法对文本信息进行分词。双字典的分词方法能够解决已有的语言模型无法适应多字典的情况，使分词系统能够兼容两种不同的字典，适用于语音识别在电力调度领域中的应用。基于双字典的分词方法无需更改原有的通用字典，在通用字典存在的前提下添加电力调度领域词汇字典就可针对语料信息进行准确的分词，从而降低语言模型的训练时间，提高分词的准确率。

类标签语言模型是指采用类标签语料信息训练的语言模型。类标签语料信息是在原始语料信息的基础上，在通用字典与电力调度领域词字典的匹配替换下，对分词后的语料信息添加类标签。类标签主要分为两种，通用分类字典中的名词、动词、形容词等以及电力调度领域词分类字典中的地点名、专用词汇、指令动作词等，其中电力调度领域词分类字典中的分类以电力调度语言特点为基准，针对名词、动词等进行细分。

类标签语言模型能够有效解决基于词汇类别的分类语言模型通过增强词汇区分性导致的语言模型困惑度降低的问题。类标签语言模型使已有的N-gram语言模型能够更好适应多字典、类别词汇，在不降低或少量降低语言模型困惑的情况下，提高语言模型的训练速度，提高语言模型在领域词汇类别明显的电力调度领域的语音识别的准确率。

电力调度语音识别的方法在进行语音识别前需要进行建立发音字典、训练语言模型和训练声学模型等预备工作。

声学模型将语音信号转换为音素。声学模型采用已有的深度神经网络-隐马尔可夫(DNN-HMM)声学模型，包含5个状态的隐马尔可夫(HMM)模型、5个隐藏层的深度神经网络(DNN)模型，采用线性整流函数(ReLU)作为激活函数、最大互信息(MMI)准则作为声学模型的训练准则以及反向传播(BP)算法来训练DNN-HMM模型。此外，在训练DNN-HMM模型之前需对样本进行预处理，采用的方法主要包括样本归一化和全局特征标准化。

发音字典由两部分构成，如图1所示，分别为通用发音字典和电力调度领域词发音字典。

通用发音字典由《现代汉语语法词典》经过单词到音素(G2P)转换得来。电力调度领域词发音字典的生成过程如图2所示。

电力调度领域词发音字典的生成过程分为以下几个步骤：

第一步，收集一定数量的电力调度领域的代表性样本文献作为训练文本信息。

第二步，采用基于通用字典的N-最短路径分词方法对训练文本信息进行分词处理。N-最短路径分词方法分为以下三个步骤。一，在通用字典找出训练文本信息中所有可能的词以及分词结果；二，把切分出来的词数最少的结果作为最终分词结果；三，将电力调度领域词拆分为N单元，使用确定性有限状态自动机识别出文本信息中出现的分词结果和词频，得到分词集。

第三步，采用最大化匹配算法得到候选字典。最大匹配算法在此处的作用是，在匹配中找出给定的分词集中，出现次数大于一次的所有最长组合模式，并将其加入候选字典中。

第四步，候选字典经过规则优化得到电力调度领域词字典。设定的优化规则主要用于删除错误的组合模式，提高电力调度领域字典的准确率。常用的几种规则如下：删除候选字典中的同频子词串；删除以“的、是”等单字开口或结尾的子词串；删除“数词+量词”的子词串等。

第五步，电力调度领域词字典经过单词到音素(G2P)转换，得到电力调度领域词发音字典。

最后，需要对语言模型训练。

训练语言模型前，需要对字典进行预处理，即单词分类。采用支持向量机(SVM)的文本分类算法，将通用字典中的词汇按照名词、动词、数量词、形容词等类别进行分类处理，形成通用分类字典；将电力调度领域字典中的词汇按照地点名、专业词汇、数量词、时间词等类别进行分类处理，形成电力调度领域词分类字典。单词分类后，还需将分类字典中词汇的类别信息映射到发音字典中。

在类标签语言模型中，词与词之间的组合概率可用公式表示为：

P(w_t+1|w_t)＝kP(C_t+1|C_t)P(w_tC_t)P(w_t+1|C_t+1) (1)

其中k表示词与电力领域词字典的权重；P(C_t+1|C_t)表示类别之间的概率，P(w_t|C_t)表示第t个词与类别之间的概率，P(w_t+1|C_t-1)表示第t+1个词与类别之间的概率。

类标签语言模型的训练分为生成类标签语料信息、训练类标签语言模型两个流程。

首先生成类标签语料信息，如图3所示。生成类标签语料信息的过程分为以下几个步骤：

第一步，选取一定比例的通用语料信息和电力调度领域的语料信息构成混合语料信息，用以训练类标签语言模型所需的类标签语料信息。

第二步，采用基于双字典(通用字典和电力调度领域词字典)的分词方法对第一步形成的混合语料信息进行分词，生成分词后语料信息。该方法使用双向最大匹配算法、匹配法相关歧义处理对文本信息进行分词。

第三步，采用基于分类字典(对字典进行单词分类后的字典，包括通用分类字典和电力调度领域词分类字典)、优化规则的类便签添加方法对分词后语料信息进行类标签的添加，得到类标签语料信息。该方法的具体过程是将分词后的语料信息分别在电力调度领域词分类字典、通用分类字典中匹配类别，将匹配到的类别在优化规则的约束下，得到最终的类标签语料信息。

优化规则主要对以下三种情况进行优化。一，语料信息只得到通用分类字典中的类别，则连续检测两到三个分词后的语料信息，将其拼合后生成的语料信息在电力调度领域词分类字典中匹配类别，若匹配到，则拼合的语料信息将标注为电力调度领域词分类字典中的类别，若匹配不到，则标注为通用分类字典中的类别；二，语料信息只得到电力调度领域词分类字典中的类别，则将标注为电力调度领域词分类字典中的类别；三，语料信息同时匹配到两个分类字典中的类别，则检测语料信息的字粒度，字粒度小的语料信息的类标签为两个分类字典的加权值，字粒度大的语料信息的类标签为电力调度领域词分类字典中的类别。

然后在类标签语料信息生成后进行类标签语言模型的训练，训练步骤如下所示：

第一步，文本预处理。类标签语料信息在进行类标签语言模型的训练前，需进行文本预处理，主要包括：根据标点符号进行分句；将阿拉伯数字替换为大写数字；删除空白行等。

第二步，使用语言模型训练工具训练类标签语言模型，在类标签语言模型训练的过程中用到了线性插值平滑以及Kneser-Ney平滑算法。

第三步，评价指标。困惑度(PPL)在语言模型中用于对比多个语言模型对测试样本的好坏程度，其基本思想是：给测试集的句子赋予较高概率值的语言模型较好。当语言模型训练完之后，对测试集中的句子进行测试，句子正确的概率越大，语言模型越好，困惑度越低。困惑度(PPL)的计算方法如下：

式中，W表示句子，T表示句子的长度，w₁表示第一个字词，w₂表示第二个字词，w_T表示第T个字词，P(w₁，w₂...w_T)表示字词w₁，w₂...w_T组成句子W的概率。

电力调度语音识别方法的识别过程，如图4所示。

(1)将待识别的语音信号进行预加重、分帧和加汉明窗等预处理后，送入特征提取模块，在特征提取模块中，对语音信号进行能量谱的提取、通过26阶梅尔(Mel)滤波器，对对数功率谱进行反离散余弦变换，得到13维的梅尔频率倒谱系数(MFCC)特征。13维的MFCC包括12维静态特征系数、1维能量系数。

(2)将提取的MFCC特征通过深度神经网络-隐马尔可夫(DNN-HMM)声学模型、发音字典、类标签语言模型构成的加权有限状态转换器(WFST)解码网络中进行Lattice解码，求出待识别语音信号的文本信息。

其中WFST解码网络由深度神经网络-隐马尔可夫(DNN-HMM)声学模型的有限状态机H、与上下文有关的有限状态机C、通用字典和电力领域词字典构成的有限状态机L以及类标签语言模型的有限状态机G通过合并、确定化、最小化操作的HCLG网络构成。

此实施例仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种电力调度语音识别方法，包括：

建立声学模型，用于将语音信号转换为音素；

利用生成的类标签语料信息对语言模型进行训练，生成类标签语言模型；所述生成类标签语料信息包括：

采用基于分类字典、优化规则的类标签添加方法对分词后语料信息进行类标签的添加，得到类标签语料信息；

所述优化规则对以下三种情况进行优化：语料信息只得到通用分类字典中的类别，则连续检测两到三个分词后的语料信息，将其拼合后生成的语料信息在电力调度领域词分类字典中匹配类别，若匹配到，则拼合的语料信息将标注为电力调度领域词分类字典中的类别，若匹配不到，则标注为通用分类字典中的类别；语料信息只得到电力调度领域词分类字典中的类别，则将标注为电力调度领域词分类字典中的类别；语料信息同时匹配到两个分类字典中的类别，则检测语料信息的字粒度，字粒度小的语料信息的类标签为两个分类字典的加权值，字粒度大的语料信息的类标签为电力调度领域词分类字典中的类别；

将待识别的语音信号进行能量谱的提取，通过26阶梅尔Mel滤波器，对对数功率谱进行反离散余弦变换，得到13维的梅尔频率倒谱系数MFCC特征；将提取的MFCC特征通过所述声学模型、发音字典、类标签语言模型构成的加权有限状态转换器WFST解码网络进行Lattice解码，求出待识别语音信号的文本信息。

2.根据权利要求1所述的一种电力调度语音识别方法，其特征在于：所述通用发音字典由《现代汉语语法词典》经过单词到音素G2P转换得来。

3.根据权利要求1所述的一种电力调度语音识别方法，其特征在于：生成所述电力调度领域词发音字典的步骤包括：

采用最大化匹配算法得到候选字典；

候选字典经过规则优化得到电力调度领域词字典；

电力调度领域词字典经过单词到音素G2P转换，得到电力调度领域词发音字典。

4.根据权利要求3所述的一种电力调度语音识别方法，其特征在于：所述规则优化用于删除错误的组合模式。

5.根据权利要求3或4所述的一种电力调度语音识别方法，其特征在于：所述规则包括删除候选字典中的同频子词串；删除以“的、是”单字开口或结尾的子词串；删除“数词+量词”的子词串。

6.根据权利要求1所述的一种电力调度语音识别方法，其特征在于：对语言模型训练前需先对字典进行单词分类。

7.根据权利要求1所述的一种电力调度语音识别方法，其特征在于：类标签语言模型的训练包括：对类标签语料信息进行文本预处理；使用语言模型训练工具训练类标签语言模型。

8.根据权利要求1或7所述的一种电力调度语音识别方法，其特征在于：类标签语言模型训练中使用线性插值平滑以及Kneser-Ney平滑算法。

9.根据权利要求1所述的一种电力调度语音识别方法，其特征在于：声学模型采用深度神经网络-隐马尔可夫DNN-HMM声学模型，其包含5个状态的隐马尔可夫HMM模型、5个隐藏层的深度神经网络DNN模型，采用线性整流函数ReLU作为激活函数、最大互信息MMI准则作为声学模型的训练准则以及反向传播BP算法来训练DNN-HMM模型。

10.根据权利要求1所述的一种电力调度语音识别方法，其特征在于：将待识别的语音信号进行能量谱的提取前需进行预加重、分帧和加汉明窗预处理。

11.根据权利要求1所述的一种电力调度语音识别方法，其特征在于：WFST解码网络由深度神经网络-隐马尔可夫DNN-HMM声学模型的有限状态机H、与上下文有关的有限状态机C、通用字典和电力领域词字典构成的有限状态机L以及类标签语言模型的有限状态机G通过合并、确定化、最小化操作的HCLG网络构成。