CN111681659A

CN111681659A - 一种应用于便携式设备的自动语音识别系统及其工作方法

Info

Publication number: CN111681659A
Application number: CN202010510245.4A
Authority: CN
Inventors: 徐鹏; 田勇; 张惟师; 罗海斌; 王鹏
Original assignee: Beijing Gaoyin Technology Co ltd
Current assignee: Beijing tulayan Technology Co.,Ltd.
Priority date: 2020-06-08
Filing date: 2020-06-08
Publication date: 2020-09-18

Abstract

本发明提供了一种应用于便携式设备的自动语音识别系统及其工作方法。该系统包括语音获取模块、前端降噪模块、预处理模块、语音识别模块、语言模型模块。本发明应用于中小语料集上，加入了自然语言处理技术，在模型训练时加入语言模型并且在得出文字结果后使用纠错技术对结果进行后处理，使得识别结果可读性大大提高。

Description

一种应用于便携式设备的自动语音识别系统及其工作方法

技术领域

本发明属于语音识别技术领域，尤其涉及一种应用于便携式设备的自动语音识别系统及其工作方法。

背景技术

语音作为最方便自然的交流方式，一直是人机交互的重要研究领域之一，而自动语音识别系统是此领域重要的一部分。此类系统主要将外界声音经过设备采集之后转化为音频，之后对音频进行一系列算法的处理，使其转化为人类能够看懂得文字信息使得人们可以阅读或者再经过计算及处理从而更快的获得有用的信息。

目前大公司的语音识别系统都是基于大量语料以及使用麦克风阵列方式来获得高质量的语音翻译结果。但存在以下问题：

1)语料标注需要耗费大量的人力物力财力，一般的公司或机构很难承担如此高昂的费用；

2)麦克风阵列对硬件要求较高而且费用也比较高昂，对于目前在人们生活中通常使用手机的情况下不能普遍适用；

3)语音翻译的文字结果往往可读性较差，不利于人类阅读以及后期机器的其他处理动作。

发明内容

为解决上述问题，本发明公开了一种应用于便携式设备的自动语音识别系统，包括语音获取模块、前端降噪模块、预处理模块、语音识别模块、语言模型模块；

语音获取模块：被配置为获取便携式设备的原始音频信号；

前端降噪模块：被配置为对输入的音频数据实时进行降噪处理，输出降噪后的音频；

预处理模块：被配置为利用语音增强技术对降噪后的音频进行语料集的扩展，并将语谱图作为输入进行音频特征提取，然后输出处理后的音频；

语音识别模块：被配置为使用深度学习技术识别处理后的音频，将其转化为文字概率矩阵；

进一步的，还包括文字后处理模块，被配置为对语言模型模块输出的文字序列进行纠错。

进一步的，进行纠错的具体方法为：使用句法依存关系找出文字序列中是否存在语法错误，当存在时则通过查询字典库找到相应的字或词进行替换，再使用语言模型模块判断句子完整性。

进一步的，语音增强技术包含数据扰动技术、SpecAugment技术。

进一步的，预处理模块对语料集进行扩展是将降噪后的音频的长度随机扩展为原来的1.1倍或者缩短为原来的0.9倍。

进一步的，前端降噪模块降噪的具体降噪过程为：

步骤一：便携式设备的原始音频信号输入到滤波器；

步骤二：对原始音频信号进行采样，截止频率36hz，960fft加半窗；

步骤三：采用平滑计算各个频带组能量；

步骤四：降采样，计算基音周期；

步骤五：计算基音周期的能量以及与原始音频信号的相关性，再经过正交变换求特征点；

步骤六：计算出第一次增益；

步骤七：根据计算出来的出处增益，对输入信号进行基音谐波滤波；

步骤八：根据重新量化后的原始音频信号计算出第二次增益。

步骤九：根据第一次增益以及第二次增益，求解出最后的输出。进一步的，预处理模块使用melfbank提取音频特征。

上述系统的工作方法，包括如下步骤：

步骤一：语音获取模块获取原始音频信号；

步骤二：前端降噪模块对获取的原始音频信号进行降噪处理，获得语料集；

步骤三：预处理模块降噪对初级语料集进行扩展，并将语谱图作为输入，提取音频特征，获得音频特征数据；

步骤四：语音识别模块利用音频特征数据进行文字识别，输出文字概率矩阵；

步骤五：预先训练过的语言模型模块根据接收的文字概率矩阵，选择出最大概率的词汇进行可读性增强，输出可读性增强后的文字序列。

进一步的，还包括步骤五：文字序列输入到文字后处理模块，由其依据句法依存关系确定文字序列中是否存在语法错误，如存在则进行替换操作。

进一步的，还包括预先训练语言模型模块的步骤，在训练过程中使用最小字错误率与交叉熵联合作为损失函数使语言模型模块进行收敛。

本发明的有益效果为：

1.手机端采集的音频噪音较多，本发明使用前端降噪技术对数据进行降噪，并将前端降噪与语音识别进行联调，从而提高识别的准确率。

2.目前的识别率高的语音识别系统都是基于大语料，成本很高，本发明在预处理模块中使用语音增强技术(数据扰动，SpecAugment等)扩增语料集，使得系统在中小语料集上仍具有较高的识别准确率。

3.由于采用字错率的方式作为评估手段，目前只基于语音识别技术的识别结果可读性较差。本发明加入了自然语言处理技术，在模型训练时加入语言模型并且在得出文字结果后使用纠错技术对结果进行后处理，使得识别结果可读性大大提高。

附图说明

图1为本发明所述系统示意图。

具体实施方式

本文所称的中小语料集一般指几十～几百小时左右量级，大语料音频数据集一般在上千小时以上的量级。

下面结合结合图1对本发明的具体实施方式作进一步详细的说明。

上述系统包括语音获取模块、前端降噪模块、预处理模块、语音识别模块、语言模型模块。优选还包括文件后处理模块。下面对各个模块的功能、工作方法进行说明。

一.语音获取模块

语音获取模块：被配置为获取原始音频信号。获取方式可以为：通过便携式设备自带的语音获取模块，如麦克风获取手机通话数据。所述便携式设备可以为手机、录音笔等具有语音输入功能的设备。

二.前端降噪模块

前端降噪模块：被配置为对输入的音频信号进行降噪处理，输出降噪后的音频。

本实施例是将经典信号处理与深度学习结合起来，创建一个小而快速的实时噪声抑制算法。具体步骤包括：

具体为：

步骤一：便携式设备的原始音频信号输入到滤波器；

步骤二：对原始音频信号进行采样，截止频率36hz，960FFT(快速傅里叶变换)加半窗；

步骤三：采用平滑计算各个频带组能量；

步骤四：降采样，计算基音周期；

步骤六：计算出第一次增益；

第一次增益是由原始音频能量与估计出的噪声计算的增益。

用每一帧的前面计算出的基音周期能量去乘以与原始信号的相关性系数得到的音频信号即为重新量化后的原始音频信号。第二次增益是重新量化后的原始音频信号能量与估计出的噪声计算的增益。

步骤九：根据第一次增益以及第二次增益，求解出最后的输出。具体技术原理为：计算的第二次增益是深度学习网络的目的，使得学习得到增益越小越好，这样一来对原始信号每一帧语音处理的时候，若是噪声就乘以第二个增益(是一个小值)，若不是噪声就乘以第一个增益，这样处理后的音频就起到了降噪的作用；

深度学习网络学习的目的就是使得增益越来越小，也就是求得的输出原始信号包含的噪声部分越来越小，也就达到了抑制噪声的目的。采用上述的计算方式，不需要昂贵的GPU就可以轻松运行，时延性小。此模块的输入为音频信号，输出为降噪后的音频信号。

三.预处理模块

被配置为：利用语音增强技术对降噪后的音频进行语料集的扩展，并将语谱图作为输入进行音频特征提取，然后输出处理后的音频。具体处理为：

语料方面：采用数据增强技术对中小语料集进行扩增，增加数据扰动性，此模块的输入为降噪后的音频，输出为经过数据增强后的语音音频特征。使用数据扰动技术，把原音频的长度随机扩展为原来的1.1倍或者缩短为原来的0.9倍从而达到扩展语料集的目的。

特征方面：传统语音识别系统的提取特征方式是在傅里叶变换后用各种类型的人工设计的滤波器，比如Log Mel-Filter Bank，造成在语音信号频域，尤其是高频区域的信息损失比较明显。另外，传统语音特征采用非常大的帧移来降低运算量，导致时域上的信息会有损失，当说话人语速较快的时候，这个问题表现得更为突出。本实施例将降噪后音频作为输入，使用melfbank提取音频特征，避免了频域和时域两个维度的信息损失，具有天然的优势。

四.语音识别模块

语音识别模块被配置为：使用深度学习技术将预处理模块的音频转化为文字。

此模块的输入为音频特征，输出为识别后的文字。训练时使用基于注意力机制的序列模型对语音特征进行提取，虽然现在系统优化的损失函数是序列级的损失函数，但是与目前评判标准字错误率(WER)关系不大，因此本实施例采取最小字错误率(MWER)与交叉熵联合作为损失函数，使语言模型更好地进行收敛。

损失函数的定义为：

其中

为原始交叉熵函数；

是所有数学期望和，其中

表示假设中的单词错误与真实标签序列y^*之比。

五.语言模型模块

语音识别模块：被配置为使用深度学习降噪技术预处理后的音频，将其转化为文字概率矩阵。

具体为：使用自然语言处理技术增强结果的可读性。此模块的输入为语音识别模块识别出的文字概率矩阵，输出为增强可读性后的文字序列。语言模型在训练时采用无监督方式，输入为当前的字(或词)，经过语言模型的计算下一个字(或词)，输出为预测下一个字(或词)的出现概率矩阵，接着使用迁移学习技术，将在大语料集上训练的语言模型的部分参数做为迁移学习数据加入到此系统中作为文字概率矩阵，结合在语音识别模块中的词概率选出下一个可能的最大概率词汇，从而提高句子的可读性与流畅性。

六.文字后处理模块

文字后处理模块：使用自然语言纠错技术纠正语法和字词错误。此模块的输入为上一个模块输出的最大概率的文字序列，输出为经过纠错后的语言文字序列。纠错方法为：使用句法依存关系找出文字序列中存在的语法错误，并且查询字典库找到相应的字(或词)进行替换，再使用语言模型判断句子完整性，总而达到句子纠正的目的。

下面对上述系统的具体工作流程进行介绍。

步骤一：语音获取模块获取原始音频信号；

以上所述的，仅为本发明的具体实施方式，但本发明的保护范围并不局限于上述实施例的限制，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述的权利要求的保护范围为准。

Claims

1.一种应用于便携式设备的自动语音识别系统，其特征在于，包括语音获取模块、前端降噪模块、预处理模块、语音识别模块、语言模型模块；

语音获取模块：被配置为获取便携式设备的原始音频信号；

语音识别模块：被配置为使用深度学习技术识别处理后的音频，将其转化为文字概率矩阵。

2.如权利要求1所述的应用于便携式设备的自动语音识别系统，其特征在于，还包括文字后处理模块，被配置为对语言模型模块输出的文字序列进行纠错。

3.如权利要求2所述的应用于便携式设备的自动语音识别系统，其特征在于，进行纠错的具体方法为：使用句法依存关系找出文字序列中是否存在语法错误，当存在时则通过查询字典库找到相应的字或词进行替换，再使用语言模型模块判断句子完整性。

4.如权利要求1所述的应用于便携式设备的自动语音识别系统，其特征在于，语音增强技术包含数据扰动技术、SpecAugment技术。

5.如权利要求2所述的应用于便携式设备的自动语音识别系统，其特征在于，预处理模块对语料集进行扩展是将降噪后的音频的长度随机扩展为原来的1.1倍或者缩短为原来的0.9倍。

6.如权利要求1所述的应用于便携式设备的自动语音识别系统，其特征在于，前端降噪模块降噪的具体降噪过程为：

步骤一：便携式设备的原始音频信号输入到滤波器；

步骤三：采用平滑计算各个频带组能量；

步骤四：降采样，计算基音周期；

步骤六：计算出第一次增益；

步骤八：根据重新量化后的原始音频信号计算出第二次增益；

步骤九：根据第一次增益以及第二次增益，求解出最后的输出。

7.如权利要求6所述的应用于便携式设备的自动语音识别系统，其特征在于，预处理模块使用melfbank提取音频特征。

8.如权利要求1～7任一项所述的应用于便携式设备的自动语音识别系统的工作方法，其特征在于，包括如下步骤：

步骤一：语音获取模块获取原始音频信号；

9.如权利要求8所述的工作方法，其特征在于，还包括步骤五：文字序列输入到文字后处理模块，由文字后处理模块依据句法依存关系确定文字序列中是否存在语法错误，如存在则进行替换操作。

10.如权利要求8所述的工作方法，其特征在于，还包括预先训练语言模型模块的步骤，在训练过程中使用最小字错误率与交叉熵联合作为损失函数使语言模型模块进行收敛。