CN114495969A

CN114495969A - 一种融合语音增强的语音识别方法

Info

Publication number: CN114495969A
Application number: CN202210064822.0A
Authority: CN
Inventors: 李华蓉; 宋南; 汤国强; 吴剑锋; 姚伟烈; 相若晨; 钱柏丞
Original assignee: Nanjing Fenghuo Tiandi Communication Technology Co ltd
Current assignee: Nanjing Fenghuo Tiandi Communication Technology Co ltd
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-05-13

Abstract

本发明公开了一种融合语音增强的语音识别方法，涉及语音识别技术领域，通过对实际环境中的干扰噪声强度进行分析，选择是否采用噪声模式来抑制待识别语音中的干扰噪声，然后送入识别模型进行语音到文本的识别。该种融合语音增强的语音识别方法，以深度神经网络来构建前端语音增强模块和后端的语音识别模块，同时采用“分而治之”的思想，实现不同的前端语音处理模式，包括理想模式和噪音模式，能根据实际环境选择对应的模式进行处理，进而降低外界干扰，提升语音识别的准确率。

Description

一种融合语音增强的语音识别方法

技术领域

本发明涉及语音识别技术领域，具体为一种融合语音增强的语音识别方法。

背景技术

语音交互是智能交互实现的重要方式，语音识别又是支撑语音交互的关键技术。现有的语音识别技术在实际应用中也取得了很好的识别效果，如语音转文字、语音助手、智能机器人等；但目前的语音识别算法很少考虑环境噪声对识别过程的影响，因而导致模型的鲁棒性较差，在实际环境的应用场景受限较大，只有在相对安静的条件下才能获得较准确的识别结果；主要由于用于模型训练的语音数据较为理想，而现实环境中产生的音频受各式各样的噪声影响，很大程度上降低了识别模型提取的声学特征的质量，从而降低语音识别的准确率。

为提升语音识别技术在实际应用环境中的鲁棒性，针对现有语音识别技术的不足，我们对此做出改进，提出一种融合语音增强的语音识别方法。

发明内容

为了解决上述技术问题，本发明提供了如下的技术方案：

本发明一种融合语音增强的语音识别方法，目的是融合语音增强前端技术，提供噪声模式，为实现更为精确的语音识别提供保障。实现精确的语音识别需要待识别语音拥有较高的质量，通过对实际环境中的干扰噪声强度进行分析，选择是否采用噪声模式来抑制待识别语音中的干扰噪声，然后送入识别模型进行语音到文本的识别，具体包括如下步骤：

S1、采用公开数据集和公开噪声数据作为模型训练数据，然后根据SNR的大小对语音数据和噪声数据进行混合，得到共N条带噪语音，模拟出近似于实际环境下的受干扰的语音，并按8∶2的比例划分为训练数据和测试数据；

S2、构建语音增强模型对S1建立的混合语音训练集和测试集进行语音增强，增强模型采用堆叠式双信号转换长短时记忆网络结构DTLN，由频域分离核心和时域分离核心两个分离核心串联组成，对混合语音进行频域和时域上的降噪处理，实现实时增强功能；

S3、混合语音首先通过第一阶段的频域分离核心，以训练集中第i条混合语音为例，输入为混合语音的时域信号xi(n)，n为语音数据的采样点数；先对xi(n)进行预加重处理，提升信号中高频成分的幅值信息；然后采用短时傅立叶变化对xi(n)进行时频转换为Xi(m,ω)·ejφi(m,ω)，其中Xi(m,ω)、φi(m,ω)分别为混合语音第m帧的幅度谱数据和相位数据，短时傅立叶变化变换过程中加汉明窗进行分帧，帧长和帧移分别设置为32ms、8ms，FFT点数取512；再将大小为[总帧数，256]的数据送入两层的长短时记忆网络用以提取时序相关的特征，每层长短时记忆网络神经元设置为128，得到大小为[总帧数，128]的特征向量；再经过一个全连接层和Sigmoid激活函数层得到大小为[总帧数，256]的时频掩码；最后与输入的幅度谱数据进行点乘获得频域降噪后的幅度谱；

S4、将S3获得的增强幅度谱数据送入第二阶段时域分离核心进行时域降噪，首先利用短时傅立叶逆变换将增强幅度谱转换回时域数据，相位采用混合相位φi(m,ω)；然后经过一个一维卷积层，卷积核设置为256，得到时域卷积特征[总帧数，256]；再对每帧数据进行单独归一化；然后经过与第一阶段相同设置的两个长短时记忆网络层+全连接层+Sigmoid激活函数层得到时域掩码，再与一维卷积输出结果相乘实现时域降噪；最后通过一个一维卷积网络还原数据为[总帧数，512]维度，通过重叠相加得到最终的增强语音yi(n)；

S5、采用最小二乘损失函数衡量目标语音与增强语音间的差距，依据误差进行过梯度反传来更新网络参数，至此实现语音增强模块功能；

S6、通过TDNN模型训练得到声学模型，在最终文本输出之前先进行标点符号预测和数字转换处理，最终实现输入语音输出自然可懂规范的文本。

作为本发明的一种优选技术方案，所述S1中训练数据和测试数据的采样率均设置为16kHz，且构建混合语音的公式为：

作为本发明的一种优选技术方案，所述S1中语音识别模块训练使用的语音特征是MFCC，其过程包括预加重，分帧，加窗，快速傅里叶变换，Mel滤波器组，对数运算和离散余弦变换处理。

作为本发明的一种优选技术方案，还包括语音识别模块声学模型部分，所使用的模型是在前馈神经网络的基础上，进一步引入能够在各个隐藏层之间加入不同前后帧信息的时延深度神经网络和链式模型。

作为本发明的一种优选技术方案，还包括语音识别模块语言模型与词典部分，首先创建一个新的发音词典，将实际业务场景中的词汇以及英文字母添加到识别器的现有发音词典中，通过将新词条目添加到词典中来手动创建新词典，如果没有新单词的发音，则可以使用字素到音素转换来自动生成发音，需要新词典里面的音素和原来识别器里面的音素是对应的，然后再生成语言模型。

作为本发明的一种优选技术方案，还包括语音识别解码部分，利用声学模型和构建好的WFST解码网络，输出最优状态序列的过程，最终目的是选择使得P(W|X)＝P(X|W)P(W)最大的W，所以解码本质上是一个搜索问题，并借助加权有限状态转换器(WFST)统一进行最优路径搜索。

作为本发明的一种优选技术方案，还包括标点符号与数字转换模块，标点添加模块是为了实现语音识别后文本的可读性，使用包含embedding层、双向的长短时记忆网络、最大值池化、条件随机场的网络结构，实现逗号、句号、问号、感叹号四种标点符号的添加；数字转换模块，将包含的中文数字转化为阿拉伯数字后的中文文本。

本发明的有益效果是：

该种融合语音增强的语音识别方法，以深度神经网络来构建前端语音增强模块和后端的语音识别模块，同时采用“分而治之”的思想，实现不同的前端语音处理模式，包括理想模式和噪音模式，能根据实际环境选择对应的模式进行处理，进而降低外界干扰，提升语音识别的准确率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明一种融合语音增强的语音识别方法的框架图；

图2是本发明一种融合语音增强的语音识别方法的基于DTLN语音增强前端结构图；

图3是本发明一种融合语音增强的语音识别方法的语音识别框架图；

图4是某混合语音增强前的时域波形图；

图5是某混合语音增强前的语谱图；

图6是某混合语音增强后的时域波形图；

图7是某混合语音增强后的语谱图；

图8是本发明一种融合语音增强的语音识别方法的语音到MFCC的实现形式示意图；

图9是本发明一种融合语音增强的语音识别方法的TDNN结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1

如图1和图3所示，本发明一种融合语音增强的语音识别方法，包括如下步骤：

S1、首先根据所测语音是否带噪选择理想模式或噪音模式，若为理想语音，则直接进入语音识别模块进行识别；若为带噪语音，则先送入语音增强模块进行去噪。如图4为训练数据中一段带噪的混合语音，时长为6秒左右，时域幅值归一化在[-1，1]间，其根据信噪比公式进行混合而成，图5则为对应的带噪语音语谱图。

S2、首先经过DTLN的频域分解核心，对时域信号进行STFT转换得到幅度谱Xi(m,ω)和相位谱φi(m,ω)，数据维度矩阵为[帧数，256]；然后将幅度谱矩阵数据依次送入2层LSTM+FC全连接层+Sigmoid激活函数层，数据维度变化依次为[帧数，128]→[帧数，128]→[帧数，256]→[帧数，256]，进而得到时频掩码值数据矩阵；再与幅度谱数据矩阵进行点乘获得频域降噪幅度谱数据[帧数，256]。具体的DTLN语音增强网络结构见图2。

S3、将S2所得增强幅度谱联合混合语音相位谱φi(m,ω)进行ISTFT，得到时域语音信号，其数据维度为[帧数，512]。再进入时域分解核心，依次通过一维卷积层+归一化层+2层LSTM+FC全连接层+Sigmoid激活函数层+一维卷积层，数据维度变化依次为[帧数，256]→[帧数，256]→[帧数，128]→[帧数，128]→[帧数，256]→[帧数，256]→[帧数，512]，获得频域、时域双信号增强的去噪语音，再通过重叠相加还原最后中增强时域信号。图6和图7分别为经过增强后的时域波形图和对应的语谱图。

S4、在语音识别模块的特征提取部分，预加重处理指将语音信号通过一个高通滤波器，来提升语音信号的高频部分，让信号的频谱变得平坦，使得在低频到高频的整个频带中，能用同样的信噪比求频谱，同时也是为了消除在发声过程中的声带和嘴唇效应，补偿语音信号受到发音系统所抑制的高频部分，并突出高频的共振峰。预加重后，需要将信号分成短时帧，但为了减少频谱泄漏，在信号切分为帧后，将窗口函数应用于每个帧。而信号在时域上的变换很难看出信号的特性，因此将它转换为频域上的能量分布来观察，使得不同的能量分布代表不同语音的特性。在乘上汉明窗后，每帧经过快速傅里叶变换能够得到在频谱上的能量分布，进而获得语音信号的功率谱。三角带通滤波器的主要目的是对频谱进行平滑化，消除谐波的作用，突显原先语音的共振峰，降低运算量。最后经离散余弦变换(DCT)得到模型训练所需的MFCC特征。语音到MFCC的实现形式如图8所示。

S5、在语音识别模块声学模型部分，从TDNN的网络结构可以看出，相邻节点之间的变化可能很小，而且包含了大量的重复信息，通过每隔几帧计算一帧的结果，使得训练和解码过程能够得到加速。同时利用选择合适的时间步长，不仅可以大幅减少运算量，还能不漏掉任何历史信息，进而在识别准确性和运算量之间取得平衡。TDNN的网络结构如图9所示。

S6、在语音识别模块语言模型与词典模块，词典即为发音字典，是音素与单词之间的映射，包含系统所能处理的单词的集合，并标明了其发音，通过发音字典得到声学模型的建模单元和语言模型建模单元间的映射关系，从而把声学模型和语言模型连接起来，组成一个搜索的状态空间用于解码器进行解码工作；语言模型根据声学模型的输出结果，结合词典给出概率最大的文字序列，采用n-gram来训练生成语言模型，其中n取值为3，即每个当前词的估计都和前面的3个词有关。

S7、在语音识别模块解码部分，根据生成的声学模型、语言模型以及词典等生成解码网络(HCLG图)，在识别阶段先进行一遍解码得到词图(Lattice)，再对词图剪枝(Prune)后做多遍解码，从而得到最佳匹配作为输出结果。

S8、在标点符号添加部分，构建词典，通过文本数据集建立文本词典vocab，该部分通过jieba分词工具进行分词，然后统计出常用词汇总到词典vocab中。在训练的时候，会通过程序对该词典进行char2id的操作，建立文本的char2id字典。根据预测标点的类型构建标点的词典，punctuation vocab词典内容包括：空格、逗号、句号、感叹号、问号。同样在训练时会对标点符号的词典进行char2id操作，建立标点符号的char2id的字典，该词典大小为5。数据采用长文本数据，通过jieba分词工具对文本数据进行分词，分词后，每一个词的后面都会有自己对应的label，这些label可能是空格，也可能是标点符号。在训练过程中，首先将数据批次送入模型当中，张量形状为[batch_size，seq_len]，通过embedding层将输入的词转换为相应维度的特征向量，一般是300维，embedding层输出[batch_size，seq_len，embedding_dim]，采用双向的长短期记忆网络能够更好的利用输入序列的上下文特征，同时LSTM能够很好的解决长序列训练过程中的梯度消失和梯度爆炸问题。输出张量形状为[batch_size，seq_len，hidden_size*2]，池化层能够有效的减小网络的尺寸，压缩特征，扩大感受野，增加网络的深度，输出张量形状为[batch_size，seq_len，maxpool_size]，经过全连接层将输出每一个词对应的5种label的概率值，输出的形状为[batch_size，seq_len，punc_vocab_size]，利用最大熵模型的思路去建立条件概率模型，解码出最终结果[batch_size，seq_len](解码之后会将三维张量变为二维，原因是CRF解码器直接将最大概率的标点id进行输出)。将分词之后的文本通过vocab的char2id映射成相应的id，并将id作为特征送入到网络模型当中进行训练，网络会根据输入的特征得出网络预测结果，最终通过网络中Linear层的输出与真实的label计算crf_log_likelihood，以此当作网络模型训练时候的Loss，然后通过梯度的反向传播，不断优化网络模型参数，使得网络模型中CRF解码器的输出crf_decoder_out越来越能够接近真实label。

S9、在数字转换部分，将“杠、横线、下划线、艾特”转化为对应的符号，即：-、—、_、@；基于“中文数字-阿拉伯数字”字典，将包含-、—、_、@的英文或数字串中的中文数字转化为阿拉伯数字；识别数值型中文数字并进入判断是否转化机制；将需要转化的数值型的中文数字转化为阿拉伯数字：整型：各个数位的权重分别与该数位的值相乘后求和，小数：整数部分和小数部分分别转换，整数部分按照整型数字的方法转化，小数部分基于“中文数字-阿拉伯数字”字典直接转化。

实施例2

本发明一种融合语音增强的语音识别方法的最终效果举例：

原始识别结果：拾年前二零壹零年七月十六日下午三点家住八栋的李四上街买了一条鱼。

转换后的识别结果：10年前，2010年7月16日下午三点，家住8栋的李四上街买了1条鱼。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合语音增强的语音识别方法，其特征在于，包括如下步骤：

S6、通过TDNN模型训练得到声学模型，在最终文本输出之前先进行标点符号预测和数字转换出处理，最终实现输入语音输出自然可懂规范的文本。

2.根据权利要求1所述的一种融合语音增强的语音识别方法，其特征在于，所述S1中训练数据和测试数据的采样率均设置为16kHz，且构建混合语音的公式为：

3.根据权利要求1所述的一种融合语音增强的语音识别方法，其特征在于，所述S1中语音识别模块训练使用的语音特征是MFCC，其过程包括预加重，分帧，加窗，快速傅里叶变换，Mel滤波器组，对数运算和离散余弦变换处理。

4.根据权利要求1所述的一种融合语音增强的语音识别方法，其特征在于，还包括语音识别模块声学模型部分，所使用的模型是在前馈神经网络的基础上，进一步引入能够在各个隐藏层之间加入不同前后帧信息的时延深度神经网络和链式模型。

5.根据权利要求1所述的一种融合语音增强的语音识别方法，其特征在于，还包括语音识别模块语言模型与词典部分，首先创建一个新的发音词典，将实际业务场景中的词汇以及英文字母添加到识别器的现有发音词典中，通过将新词条目添加到词典中来手动创建新词典，如果没有新单词的发音，则可以使用字素到音素转换来自动生成发音，需要新词典里面的音素和原来识别器里面的音素是对应的，然后再生成语言模型。

6.根据权利要求1所述的一种融合语音增强的语音识别方法，其特征在于，还包括语音识别解码部分，利用声学模型和构建好的WFST解码网络，输出最优状态序列的过程，最终目的是选择使得P(W|X)＝P(X|W)P(W)最大的W，所以解码本质上是一个搜索问题，并借助加权有限状态转换器统一进行最优路径搜索。

7.根据权利要求1所述的一种融合语音增强的语音识别方法，其特征在于，还包括标点符号与数字转换模块，标点添加模块是为了实现语音识别后文本的可读性，使用包含embedding层、双向的长短时记忆网络、最大值池化、条件随机场的网络结构，实现逗号、句号、问号、感叹号四种标点符号的添加；数字转换模块，将包含的中文数字转化为阿拉伯数字后的中文文本。