CN115312038A

CN115312038A - 一种基于通信调度指令的语音识别的智能系统及方法

Info

Publication number: CN115312038A
Application number: CN202210829783.9A
Authority: CN
Inventors: 胥泽龙; 秦瑾; 蒋永录; 赵玮
Original assignee: China Telecom Wanwei Information Technology Co Ltd
Current assignee: China Telecom Wanwei Information Technology Co Ltd
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-11-08

Abstract

本发明属于计算机领域中的语音识别技术，特别是一种基于通信调度指令的语音识别的智能系统及方法。本发明调度指令数据进行全生命周期管理。利用深度残差收缩网络DRSN‑CS对语音数据进行降噪或者冗余信息处理。在模型训练过程中使用开源词典结合自定义专业词典提升准确率。

Description

一种基于通信调度指令的语音识别的智能系统及方法

技术领域

本发明属于计算机领域中的语音识别技术，特别是一种基于通信调度指令的语音识别的智能系统及方法。

背景技术

通信智能调度工作具有专业性强、操作复杂、准确率要求高的特点。目前调度工作主要为操作人员对参与通信调度的下发指令的人员进行人为的身份判别后，操作人员按照指令进行操作。现有的通信智能调度工作过程主要是使用调度电话系统，通过指令员和操作员完成下令、记录、复诵、确认、操作、回令整个流程。该过程中指令内容为人工核对，在效率、准确率、安全性方面有待提高。

本发明在通信智能调度系统中通过声纹识别、语音识别，对调度人员语音信号的远程采集和处理，解析声纹信息确认调度员、操作员，将调度语音指令转化为文字进行存储。本发明对调度指令进行识别有效提高了语音识别的准确率和工作效率,并消除了人工操作误差,能够较好地满足通信智能调度过程中的语音识别的需要。

发明内容

本发明解决现有技术不足提供一种基于通信调度指令的语音识别的智能系统及方法，其特征在于包括如下步骤：

S01语音训练语料

训练语料由开源语音语料库、通信调度指令语音语料库两部分组成；

开源语音语料库；通信调度语料库收集的通信调度工作人员日常调度指令的语音数据，该语音数据包含通信行业专业术语名词，或者包含地方特征的语音数据，该语料来源于通讯调度命令日常用语，对比开源预料对专业名称的包含内容更加丰富；

S02特征提取

步骤S021:增加语音信号相较于低频分量的高频分量幅度，语音能量主要集中在低频，提高高频，有助于提高信噪比，去除声门激励、口鼻辐射、传播时高频衰减更大的影响，设n时刻的语音采样值为x(n)，经过预加重处理后的结果y(n)为：

y(n)＝x(n)-0.96*x(n-1)

步骤S022:对音频进行分帧，把声音切分成很多小的片段，帧与帧之间有一定的交叠，每一帧长度是25ms，帧移是10ms，两帧之间有25-10＝15ms的交叠；

步骤S023:在分帧之后，通常需要对每帧的信号进行加窗处理，其窗函数为：

这里0≤n≤N-1，N是窗的宽度；

步骤S024:对于每一帧的加窗信号，进行N点FFT变换，也称短时傅里叶变换(STFT)，N通常取256或512。

步骤S025:经过上面的步骤之后，在能量谱上应用Mel滤波器组，就能提取到FBank特征；

步骤S026:去均值减少训练集与测试集之间的不匹配，均衡频谱，提升信噪比；

S03声学模型训练

1)构建模型

构建声学模型，该模型包括：深度神经网络、隐马尔可夫模型；在该框架中，HMM用来描述语音信号的动态变化，用DNN的每个输出节点来估计连续密度HMM的某个状态的后验概率。该模型的整体输入是fbank特征，而后DNN对所有聚类后的状态的似然度进行建模，得到后验概率。再结合HMM对其进行解码；

2)训练模型

DNN-HMM模型的主要训练步骤如下:

⑨首先训练一个状态共享的三音素GMM-HMM汉语识别系统，使用决策树来决定如何共享状态，设训练完成的系统为gmm-hmm；

⑩用步骤1得到的gmm-hmm初始化一个新隐马尔可夫模型，并生成一个DNN-HMM模型,设该模型为dnn-hmm1；

11预训练dnn-hmm1系统中的深度神经网络，得到的深度神经网络为ptdnn；

12使用gmm-hmm系统对语音训练数据作排列，得到的数据设为align-raw；

13使用步骤4得到的数据对ptdnn的参数作微调，设得到的深度神经网络为dnn；

14利用dnn与dnn-hmm1和最大似然算法重新估计隐马尔可夫中的参数，设新得到的系统为dnn-hmm2；

15如果步骤6的精度不再提高则退出算法，否则使用dnn和dnn-hmm2产生新的语音训练数据的排列数据,然后回到步骤5；

16利用训练数据估计概率值。

S04声学模型

通过步骤S03：声学模型训练后，得到适用于通信调度指令语音的声学模型；

S05词典

开源词典DaCiDian，根据通信调度方向对开源字典的调整，尽可能多的覆盖通信调度相关的字词，抛弃不需要的字词，以提高检索效率和识别性能；

S06文本训练语料

将符合日常用语语法的句子纯文本数据，以及通信调用指令的句子整理为文本训练语料；

S07语言模型训练

1)构建模型

构建语言模型，采用链式法则表示，各个词的概率可以通过语料中统计计算得到。假设句子W是有词序列w1,w2,w3…wn组成，则可由条件概率相关公式表示为：

P(W)＝P(w1)*p(w2)*p(w3)***p(wn)

＝p(w1)*p(w2|w1)*p(w3|w1w2)***p(wn|w1w2w3…wn)

其中N-gram模型认为每个词的概率分布只依赖于前几个出现的词语，在N-gram模型中，每个词的概率分布只依赖于前面n－1个词；

2)训练模型

N-gram模型的主要训练步骤如下:

⑤获取原始文本训练语料；

⑥对上一步获取的原始语料进行分词，利用开源中文分词库jieba进行分词，在词库中自定义通讯调度专业名词进行辅助提高准确率；

⑦对上一步得到的分词结果进行词频统计，具体为采用Spark RDD编程进行原始语料的词频统计；

⑧对N-gram模型使用拉普拉斯平滑进行平滑处理，得到最终的N-gram模型，Laplace Smoothing算法，假设一段语句每个词表示为Wi,其中V表示语句中词的个数：

S08语言模型

通过步骤S08：语言模型训练后，得到N-gram模型；

S09待分析语音

输入一段通信调度指令语音数据；

S10语音预处理

通道之间共享阈值的深度残差收缩网络对语音数据进行降噪或者冗余信息处理。

DRSN-CS是深度残差学习(Deep Residual Network,ResNet)的改进，引入软阈值化，子网络中置阈值自动设置；

S11特征提取

该部分特征提取与特征提取S02相同；

S12解码搜索

步骤S121：输入参数为步骤S11中提取的语音的FBank特征，得到特征向量序列；

步骤S122：给定相关特征向量，通过深度神经网络DNN输出概率，作为发射概率，结合隐马尔可夫模型HMM和viterbi算法标记音素序列；

步骤S123：根据词典，生成字符串序列；

步骤S124：根据上一步得到的字符串序列，利用N-gram模型结合词典实现音字转换，对于多个转换结果使用维特比viterbi解码算法，采用动态规划的原理确定路径，给出最大概率的文字序列。

本发明中整个调度指令智能识别流程的保护。

1)本发明调度指令数据进行全生命周期管理。

2)语音预处理：利用深度残差收缩网络(Deep Residual Shrinkage Networkswith Channel-shared Thresholds，简称DRSN-CS)对语音数据进行降噪或者冗余信息处理。

3)语言模型：在模型训练过程中使用开源词典结合自定义专业词典提升准确率。

附图说明

图1为通信调度指令的语音识别整体流程结构图；

图2为提取语音的FBank特征示意图；

图3为模型层次结构图；

图4为开源词典示意图；

图5为DRSN-CS整体网络结构示意图；

图6为改进后的残差模块示意图；

图7为解码搜索示意图；

图8为输出分析整体逻辑如下图；

图9为通信调度指令语音识别流程图。

具体实施方式

a)整体流程概述

本发明包括以下部分：收集通信调度指令语音数据形成语料；预处理语音数据；语音数据包含通信行业专业名词语音；分别提取语音特征；对特征进行训练；得到适用于通信智能调度的语音识别模型。

通信调度指令的语音识别整体流程结构图如下：

针对流程图1中节点细化描述：

i.语音训练语料S01

训练语料由开源语音语料库、通信调度指令语音语料库两部分组成。

开源语音语料库(aidatatang_1505zh)；通信调度语料库收集的通信调度工作人员日常调度指令的语音数据，该语音数据包含通信行业专业术语名词，或者包含地方特征的语音数据(方言)。该语料来源于通讯调度命令日常用语(例如：合上开关、拉开刀闸)，对比开源预料对专业名称的包含内容更加丰富。

ii.特征提取S02

提取语音的FBank特征。具体过程如下图：

步骤S021:增加语音信号相较于低频分量的高频分量幅度，语音能量主要集中在低频，提高高频，有助于提高信噪比，去除声门激励、口鼻辐射、传播时高频衰减更大的影响。

设n时刻的语音采样值为x(n)，经过预加重处理后的结果y(n)为：

y(n)＝x(n)-0.96*x(n-1)

步骤S022:对音频进行分帧，把声音切分成很多小的片段，帧与帧之间有一定的交叠，如图3，每一帧长度是25ms，帧移是10ms，两帧之间有25-10＝15ms的交叠。

步骤S023:在分帧之后，通常需要对每帧的信号进行加窗处理。目的是让帧两端平滑地衰减，这样可以降低后续傅里叶变换后旁瓣的强度，取得更高质量的频谱。此处用：汉明(Hamming)窗，其窗函数为：

这里0≤n≤N-1，N是窗的宽度。

步骤S025:经过上面的步骤之后，在能量谱上应用Mel滤波器组，就能提取到FBank特征。

步骤S026:去均值减少训练集与测试集之间的不匹配，均衡频谱，提升信噪比。声学模型训练S03

1)构建模型

构建声学模型(DNN-HMM模型)，该模型包括：深度神经网络(Deep NeuralNetworks,DNN)、隐马尔可夫模型(Hidden Markov Model，HMM)。

在该框架中，HMM用来描述语音信号的动态变化，用DNN的每个输出节点来估计连续密度HMM的某个状态的后验概率。该模型的整体输入是fbank特征，而后DNN对所有聚类后的状态(如状态绑定后的三音素)的似然度进行建模，得到后验概率。再结合HMM对其进行解码。

模型层次结构说明：

2)训练模型

DNN-HMM模型的主要训练步骤如下:

17首先训练一个状态共享的三音素GMM-HMM汉语识别系统,使用决策树来决定如何共享状态。设训练完成的系统为gmm-hmm。

18用步骤1得到的gmm-hmm初始化一个新隐马尔可夫模型(包括转移概率,观测概率,隐马尔可夫模型的状态),并生成一个DNN-HMM模型,设该模型为dnn-hmm1。

19预训练dnn-hmm1系统中的深度神经网络,得到的深度神经网络为ptdnn。

20使用gmm-hmm系统对语音训练数据作排列(即求出训练数据对应哪个隐马尔可夫模型中的状态),得到的数据设为align-raw。

21使用步骤4得到的数据对ptdnn的参数作微调(可以使用随机梯度下降算法)。设得到的深度神经网络为dnn。

22利用dnn与dnn-hmm1和最大似然算法重新估计隐马尔可夫中的参数(转移概率,观测概率),设新得到的系统为dnn-hmm2。

23如果步骤6的精度不再提高则退出算法,否则使用dnn和dnn-hmm2产生新的语音训练数据的排列数据,然后回到步骤5。

24利用训练数据估计概率值。

iii.声学模型(AM)S04

通过步骤S03：声学模型训练后，得到适用于通信调度指令语音的声学模型(DNN-HMM模型)。

iv.词典(Lexicon)S05

开源词典DaCiDian。

通信调度词典就将通信调度指令所用到的字词统计，且标注拼音汇集形成一一对应的数据集，中文中就是拼音与汉字的对应，其目的是根据声学模型识别出来的音素，来找到对应的汉字(词)或者单词，用来在声学模型和语言模型建立桥梁，将两者联系起来。发音词典作用是规定了字词的发音规则，从音素得到单词。

根据通信调度方向对开源字典的调整，尽可能多的覆盖通信调度相关的字词，抛弃不需要的字词，以提高检索效率和识别性能。

词典例如如下图：

v.文本训练语料S06

将符合日常用语语法的句子(纯文本)数据，以及通信调用指令的句子整理为文本训练语料。

vi.语言模型训练S07

1)构建模型

构建语言模型(N-gram模型)，语音识别中的语言模型也用于处理文字序列，它是结合声学模型的输出，整个句子出现的概率等于各个词出现的概率乘积,将概率最大的文字序列作为语音识别结果。由于语言模型是表示某一文字序列发生的概率，一般采用链式法则表示，各个词的概率可以通过语料中统计计算得到。假设句子W是有词序列w1,w2,w3…wn组成，则可由条件概率相关公式表示为：

P(W)＝P(w1)*p(w2)*p(w3)***p(wn)

＝p(w1)*p(w2|w1)*p(w3|w1w2)***p(wn|w1w2w3…wn)

其中N-gram模型认为每个词的概率分布只依赖于前几个出现的词语。在N-gram模型中，每个词的概率分布只依赖于前面n－1个词。

2)训练模型

N-gram模型的主要训练步骤如下:

⑨获取原始文本训练语料；

⑩对上一步获取的原始语料进行分词，利用开源中文分词库jieba进行分词，在词库中自定义通讯调度专业名词进行辅助提高准确率。例如：“坚持为人民服务的态度”，因为词库中有“人民”、“服务”、“态度”，分词结果为，“坚持、为、人民、服务、的、态度”；

11对上一步得到的分词结果进行词频统计，具体为采用Spark RDD编程进行原始语料的词频统计；

12对N-gram模型使用拉普拉斯平滑(Laplace Smoothing)进行平滑处理，得到最终的N-gram模型。Laplace Smoothing算法，假设一段语句每个词表示为Wi,其中V表示语句中词的个数：

vii.语言模型(LM)S08

通过步骤S08：语言模型训练后，得到N-gram模型。

viii.待分析语音S09

输入一段通信调度指令语音数据。

ix.语音预处理S10

在一个语音数据中，任何与当前模式识别任务无关的信息，都可以被认为是噪声或者冗余信息。这些噪声或者冗余信息很可能会对当前的模式识别任务造成不利的影响。对于任意的两个语音数据，它们的噪声或冗余含量经常是不同的。为处理上诉情况本发明使用：通道之间共享阈值的深度残差收缩网络(Deep Residual Shrinkage Networks withChannel-shared Thresholds，简称DRSN-CS)对语音数据进行降噪或者冗余信息处理。

DRSN-CS是深度残差学习(Deep Residual Network,ResNet)的改进，引入软阈值化，子网络中置阈值自动设置。

下图5为DRSN-CS整体网络结构，C表示特征图的通道数，W表示特征图的宽度，1表示特征图的高度始终为1。在Conv后的括号中，K表示卷积层中卷积核的个数。当K＝C时，输出特征图的通道数为C。当K＝2C时，输出特征图的通道数为2C。/2表示的是卷积核每次移动的步长为2，从而使得输出特征图的宽度减半。

下图6表示一种改进后的残差模块，名为“残差收缩模块-通道之间共享阈值(Residual Shrinkage Building Unit with Channel-shared thresholds，简称RSBU-CS)其中，M表示的是全连接层神经元的个数。M＝C表示神经元的个数与之前特征图的通道数相等，M＝1表示神经元的个数为1。Absolute表示对特征图中的每个元素取绝对值，Average表示求特征图内所有元素的平均值。

x.特征提取S11

该部分特征提取与图1中步骤：特征提取S02相同。

xi.解码搜索S12

该部分通过搜索解码和搜索算法(根据声学模型、词典和语言模型得到最佳文本输出)。具体步骤如下：

步骤S121：输入参数为图1中步骤S11中提取的语音的FBank特征，得到特征向量序列。

步骤S122：给定相关特征向量，通过深度神经网络(DNN)输出概率，作为发射概率，

结合隐马尔可夫模型(HMM)和viterbi算法标记音素序列。

步骤S123：根据词典，生成字符串序列。例如：kunming gong dian ju tong xinjifang

步骤S124：根据上一步得到的字符串序列，利用语言模型(N-gram模型)结合词典实现音字转换，对于多个转换结果使用维特比(viterbi)解码算法，采用动态规划的原理快地确定最合适的路径，给出最大概率的文字序列。

维特比(viterbi)算法剪枝优化步骤：

步骤1：初始化参数

δ₁(i)＝π_ib_i(o₁)，i＝1，2，...，N

ψ₁(i)＝0，i＝1，2，...，N

步骤2：递推，对t＝2，3，...，T；记录最大概率为δt(i)；记录概率最大路径的前一个状态j为ψt(i)。

步骤3：计算出终止状态，计算时刻T最大的δT(i)为P*，即为最可能隐藏状态序列出现的概率。计算时刻T最大的ψT(i)为i*T，即为时刻T最可能的隐藏状态。

步骤4：i*t为最优路径的回溯，对t＝T-1，T-2，...，1；I*为最优路径。

步骤S125：输出分析后的最佳文本。

文本输出S13

输出转换的文本数据。

本发明的有益效果为该解决方案极大的提高了实际现场运维效率，提高现场通信调度工作的安全性；减少调度程中的人为干预提高了效率；利用新技术提高语音识别的准确率。

b)通信调度指令语音识别流程如下：

步骤A1：通信调度工作人员A通过通信电话系统发出调度语音指令(例如：合上开关、拉开刀闸、将保护改跳闸、将保护停用)。

步骤A2：通信调度工作人员B接收语音指令。

步骤A3：语音识别系统获取语音指令，经过上述流程步骤S9->S10->S11->S04->S08->S12->S13，最后输出文本数据。

步骤A4：分析得到语音对应的调度文本指令，且存指令系统。

步骤A5：通信调度工作人员B接收语音指令后，与指令系统的调度文本指令进行确认，再进行具体操作。

Claims

1.一种基于通信调度指令的语音识别的智能系统及方法，其特征在于包括如下步骤：

S01语音训练语料

S02特征提取

y(n)＝x(n)-0.96*x(n-1)

这里0≤n≤N-1，N是窗的宽度；

步骤S024:对于每一帧的加窗信号，进行N点FFT变换，也称短时傅里叶变换(STFT)，N通常取256或512；

S03声学模型训练

1)构建模型

构建声学模型，该模型包括：深度神经网络、隐马尔可夫模型；在该框架中，HMM用来描述语音信号的动态变化，用DNN的每个输出节点来估计连续密度HMM的某个状态的后验概率，该模型的整体输入是fbank特征，而后DNN对所有聚类后的状态的似然度进行建模，得到后验概率，再结合HMM对其进行解码；

2)训练模型

DNN-HMM模型的主要训练步骤如下:

①首先训练一个状态共享的三音素GMM-HMM汉语识别系统，使用决策树来决定如何共享状态，设训练完成的系统为gmm-hmm；

②用步骤1得到的gmm-hmm初始化一个新隐马尔可夫模型，并生成一个DNN-HMM模型,设该模型为dnn-hmm1；

③预训练dnn-hmm1系统中的深度神经网络，得到的深度神经网络为ptdnn；

④使用gmm-hmm系统对语音训练数据作排列，得到的数据设为align-raw；

⑤使用步骤4得到的数据对ptdnn的参数作微调，设得到的深度神经网络为dnn；

⑥利用dnn与dnn-hmm1和最大似然算法重新估计隐马尔可夫中的参数，设新得到的系统为dnn-hmm2；

⑦如果步骤6的精度不再提高则退出算法，否则使用dnn和dnn-hmm2产生新的语音训练数据的排列数据,然后回到步骤5；

⑧利用训练数据估计概率值；

S04声学模型

S05词典

S06文本训练语料

S07语言模型训练

1)构建模型

构建语言模型，采用链式法则表示，各个词的概率可以通过语料中统计计算得到；假设句子W是有词序列w1,w2,w3…wn组成，则可由条件概率相关公式表示为：

P(W)＝P(w1)*p(w2)*p(w3)***p(wn)

＝p(w1)*p(w2|w1)*p(w3|w1w2)***p(wn|w1w2w3…wn)

2)训练模型

N-gram模型的主要训练步骤如下:

①获取原始文本训练语料；

②对上一步获取的原始语料进行分词，利用开源中文分词库jieba进行分词，在词库中自定义通讯调度专业名词进行辅助提高准确率；

③对上一步得到的分词结果进行词频统计，具体为采用Spark RDD编程进行原始语料的词频统计；

④对N-gram模型使用拉普拉斯平滑进行平滑处理，得到最终的N-gram模型，LaplaceSmoothing算法，假设一段语句每个词表示为Wi,其中V表示语句中词的个数：

S08语言模型

通过步骤S08：语言模型训练后，得到N-gram模型；

S09待分析语音

输入一段通信调度指令语音数据；

S10语音预处理

通道之间共享阈值的深度残差收缩网络对语音数据进行降噪或者冗余信息处理；

S11特征提取

该部分特征提取与特征提取S02相同；

S12解码搜索

步骤S123：根据词典，生成字符串序列；