CN111681649B

CN111681649B - 语音识别方法、交互系统及包括该系统的成绩管理系统

Info

Publication number: CN111681649B
Application number: CN202010451147.8A
Authority: CN
Inventors: 王练; 王花
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2023-05-02
Anticipated expiration: 2040-05-25
Also published as: CN111681649A

Abstract

本发明涉及语音交互技术领域，特别涉及一种语音识别方法、交互系统及包括该系统的成绩管理系统，所述方法包括：对获取的语音信号进行语音增强处理；对语音增强处理之后的语音信号进行去噪处理；提取去噪之后语音信号的语音信号；根据语音信号进行判断和处理；将处理后语音信号转换为文字数据，并将文字数据转换为计算机语言；本发明解决噪声对语音识别的影响，提出了小波去造与麦克风阵列相结合的方法，在噪声存在的情况下，提高目标语音的质量和清晰度，消除语音识别系统中待识别语音信号的噪声，提高语音命令识别率。

Description

语音识别方法、交互系统及包括该系统的成绩管理系统

技术领域

本发明涉及语音交互技术领域，特别涉及一种语音识别方法、交互系统及包括该系统的成绩管理系统。

背景技术

近年来，关于语音识别系统的研究越来越多。语音识别系统已经在许多领域得到了应用，比如在人机交互中的应用。许多人机交互系统都涉及语音命令识别。语音识别(ASR)是通过计算机程序构造的一系列算法将语音信号转换为文本序列的过程。也就是说，让机器理解人的语言，实现相应的意义，产生人的声音，最终实现人机语音交互。由于语音识别技术的进步，许多语音辅助或语音命令应用已经商业化。智能语音以其广阔的应用前景和巨大的商业价值成为竞争的制高点。亚马逊、苹果、谷歌等公司通过并购和自身发展，逐步开发语音识别系统。随着人工智能和机器学习的发展，语音识别技术得到了进一步的发展。

随着科技的不断发展，自动语音识别(ASR)技术也取得了重大突破。但是语音信号在不同的语音环境中不断受到各种噪声的干扰。噪音范围从叽叽喳喳的噪音到汽车噪音、交通噪音甚至白噪音。不同形式的噪声(如加性噪声、信道噪声、混响噪声)干扰语音信号，严重影响了语音信号的质量。而且，当一个语音信号被远处的麦克风捕捉到，例如，在会议室里，它通常包含混响、扩散噪声和无关的语音信号。这些组件对捕获语音信号的感知质量有害，并且在许多应用程序(如自动语音识别)中经常导致严重的性能下降。因此要增强任何有噪声的语音信号并将其转换为干净的语音，必须用大量的专业知识来处理噪声。在自然环境中，语音信号受到不同程度的噪声污染。在严重的情况下，语音会完全淹没在噪声中，无法分辨原始语义。因此，在对语音信号进行去噪的同时，考虑多种形式的噪声是一项艰巨的任务。

发明内容

为了提高目标语音的清晰度和质量、消除语音识别系统中待识别语音信号的噪音、提高语音命令识别率，本发明提出一种语音识别方法及语音交互系统，其中一种语音识别方法包括：

S1、对获取的语音信号进行语音增强处理；

S2、对语音增强处理之后的语音信号进行去噪处理；

S3、提取去噪之后语音信号的语音信号；

S4、根据语音信号进行判断和处理；

S5、将处理后语音信号转换为文字数据，并将文字数据转换为计算机语言。

进一步的，对获取的语音信号进行语音增强处理包括：

S11、构建校准滤波器并使用该滤波器对增益和相位不匹配的语音信号进行校正；

S12、通过对广义旁瓣相消器中阻塞矩阵的输出来调整权重，得到纯净的语音信号估计；

S13、利用后置滤波器来抑制语音信号的残留噪声。

进一步的，校准滤波器的构建过程包括：

利用自适应波速法的自适应噪声抵消原理消除干扰和噪声，即以噪声为处理对象将噪声抑制或进行非常大的衰减以提高接收信号的质量；

根据实际麦克风输出和理想麦克风输出的频谱均方误差，利用频域最小均方算法求出各麦克风通道的滤波器系数；

通过最小化目标函数更新和调整滤波器系数，使输出信号不断接近期望信号。

进一步的，对语音信号进行去噪处理包括：

S21、计算待处理的语音信号的小波变换；

S22、对小波变换得到的小波进行阈值化；

S23、对阈值化之后的小波进行小波逆变换，得到去噪后的语音信号。

进一步的，提取去噪之后语音信号的语音特征包括：

S31、通一个高通滤波器滤除语音信号中声带和嘴唇的效应；

S32、将语音信号分帧，即讲一段持续的语音信号分成多段语音信号；

S33、将分帧之后的语音信号进行加窗，即将该语音信号与一个窗函数相乘；

S34、将加窗之后的信号进行傅里叶变换，计算语音信号的功率谱；

S35、使用三角带通率比起对功率谱进行平滑；

S36、平滑后的数据经过余弦离散变换，得到梅尔频率倒谱系数，即语音特征。

进一步的，根据语音信号进行判断并处理包括：

除去语音信号中的冗余信息；

提取影响语音识别的关键信息和表达语言含义的特征信息；

利用最小单元字词识别方法，依照不同语言的语法的先后顺序识别字词；

按照语义分析，给关键信息划分段落，取出所识别出的字词并连接起来，得到处理后的信号。

本发明还提出一种语音交互系统，包括：

语音输入模块，用于采集语音输入数据；

语音增强模块，对语音输入模块获取的语音信号进行信号增强；

去噪模块，对预处理之后的语音信号进行去噪；

特征分类模块，提取去噪之后语音信号的语音特征；

分类模块，根据语音信号的语音特征对语音信号进行分类；

语音转化模块，将去噪后的语音信号转化为文字语言，再将文字语言转换为计算机语言；

语音输出模块，用于将服务器中的数据通过人声合成，转化为语音数据。

本发明解决噪声对语音识别的影响，提出了小波去造与麦克风阵列相结合的方法，在噪声存在的情况下，提高目标语音的质量和清晰度，消除语音识别系统中待识别语音信号的噪声，提高语音命令识别率。

附图说明

图1为本发明一种语音识别方法识别流程图；

图2为本发明一种语音识别方法中语音增强处理流程；

图3为本发明一种语音识别方法中去噪处理流程图；

图4为本发明一种语音识别方法中语音特征提取流程图；

图5为本发明一种语音交互系统结构示意图；

图6为本发明一种包括玉婷交互系统的成绩管理系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种语音识别方法，如图1，包括：

S1、对获取的语音信号进行语音增强处理；

S2、对语音增强处理之后的语音信号进行去噪处理；

S3、提取去噪之后语音信号的语音特征；

S4、根据语音信号进行判断和处理；

实施例1

本实施例对获取的语音信号进行语音增强处理进行进一步说明，该操作如图2，主要包括对原始语音信号中增益和相位不匹配的位置进行校正、调整滤波的权重系数消除噪音以及提高波束形成器的鲁棒性，该处理具体包括：

S13、利用后置滤波器来抑制语音信号的残留噪声，提高波束形成器的鲁棒性。

进一步的，构建校准滤波器的过程包括：

利用自适应波速法的自适应噪声抵消原理消除干扰和噪声，即以噪声为处理对象将噪声抑制或进行非常大的衰减以提高接收信号的质量，在此过程中，目标函数表示为：J(n)＝E[e²(n)]，其中e(n)为误差信号，E[]表示求期望；

自适应波束形成又包含LCMV结构跟GSC结构，本发明采用GSC结构，即广义旁瓣相消器，其中GSC结构主要由三部分构成：固定波束形成部分、阻塞矩阵部分和自适应波束形成部分。因为固定波束形成部分的输出中肯定会残留一部分其他方向的信号，那么可以通过对阻塞矩阵的输出进行权重调整来估计出固定波束形成部分残留的噪声，最后进行减法操作，便可以得到最终的纯净语音信号的估计，从而调整滤波的权重系数。

将步骤S12经过自适应波束形成的输出后接入一个后置滤波器可以有效地抑制部分残留噪声，如非相干噪声、散射噪声等。

实施例2

本发明具体对语音增强处理之后的语音信号进行去噪处理的过程进行进一步说明，本实施例采用小波变换进行去噪，如图3，具体步骤包括：

S21、计算待处理的语音信号的小波变换；

S22、对小波变换得到的小波进行阈值化；

本实施例步骤S21中才去世的小波变化的包括：

小波变换需要选择能支持支撑长度、消失矩、对称性、正则性以及相似性要求的小波基函数，本实施例选择支撑长度为5～9之间的小波以及sym小波系的小波基函数；

选择合适的分解尺度来分解层数，将信号跟噪声分解开，通常需要考虑支撑长度、消失矩等特性，因为支撑长度太长会产生边界问题，支撑长度太短消失矩太低，不利于信号能量的集中，一般情况下，消失矩越高，支撑长度也越长，因此在支撑长度和消失矩上，必须要折衷处理；本发明选择设置一个阈值，选尺度大于设置的阈值的信号进行小波变换，再将选取信号的低频部分在原信号尺度的一半上再进行小波变换，获取完成小波变换的信号。

步骤S22中对小波变换得到的小波进行阈值化，本领域常选择的阈值化方法包括定阈值估计、极值阈值估计、无偏似然估计以及启发式估计等。

实施例3

本实施例对步骤S3～S5进行进一步说明，如图4，该过程包括以下步骤：

S31、通一个高通滤波器滤除语音信号中声带和嘴唇的效应，即对语音信号进行预加重；

S35、使用三角带通滤波器对功率谱进行平滑；

根据语音特征判断语音信号的具体来源，该过程是将用户在输入语音过程中的其他杂音进行过滤，包括环境干扰声音以及同一段语音中出现的其他非目标用户的声音，该过程具体包括：

除去语音信号中的冗余信息；

提取影响语音识别的关键信息和表达语言含义的特征信息；

去除杂音之后，再根据获取的语音信号转换为文字，再将文字转换为计算机语言进行存储。

实施例4

本实施例提供一种语音交互系统，如图5，包括：

语音输入模块，用于采集语音输入数据；

语音增强模块，对语音输入模块获取的语音信号进行信号增强，语音增强模块包括校准滤波器、广义旁瓣相消器以及后置滤波器，滤波器的构建、功能以及工作原理见实施例1，此处不再赘述；

去噪模块，对语音增强之后的语音信号进行去噪，该模块包括用于计算待处理语音信号的小波变换的小波变换子模块、用于对小波变换得到的小波进行阈值化的阈值化子模块以及用于对阈值化之后的小波进行小波逆变换的小波逆变换子模块，小波变换子模块、阈值化子模块以及小波逆变换子模块的详细参数见实施例2；

特征分类模块，提取去噪之后语音信号的语音特征，该模块包括用于滤除语音信号中声带和嘴唇的效应的高通滤波器、用于对语音信号进行分帧的分帧子模块、用于对分帧之后的语音信号进行加窗的加窗子模块、用于计算加窗之后语音信号功率谱的功率谱计算子模块、对功率谱进行平滑的平滑子模块，此处平滑子模块选用三角带通滤波器，以及用于对平滑后的数据进行余弦离散变换的余弦离散变换模块，详细过程见实施例3；

分类模块，根据语音信号的语音特征对语音信号进行分类，即将用户在输入语音过程中的其他杂音进行过滤，该过程详见实施例3；

实施例5

将该发明具体应用于一款作业管理系统中，如图6，该系统原本采用文本输入的方式录入成绩，但是该方式比较浪费时间，因此本发明选择采用语音录入的方式，本发明可以作为该系统的一个子系统，为其提供语音交互功能。

其中语音输入模块、语音输出模块为移动终端上的麦克风等设备，采集的原始语音信号通过网络传输到指定的服务器，服务器中包括语音增强模块、去噪模块、特征分类模块、分类模块、语音转化模块，通过语音转化模块将获取的语音信号了转换为文字，再由文字转换为计算机语言，在进行输出时，经过服务器进行人声合成，将人声数据通过网络传输给移动终端，由移动终端的语音输出模块进行播放。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种语音识别方法，其特征在于，包括以下步骤：

S1、对获取的语音信号进行语音增强处理；

S2、对语音增强处理之后的语音信号进行去噪处理，即对原始语音信号中增益和相位不匹配的位置进行校正、调整滤波的权重系数消除噪音以及提高波束形成器的鲁棒性，该处理具体包括：

S13、利用后置滤波器来抑制语音信号的残留噪声，提高波束形成器的鲁棒性；

S3、提取去噪之后语音信号的语音信号；

S4、根据语音信号进行判断和处理，即包括：

除去语音信号中的冗余信息；

提取影响语音识别的关键信息和表达语言含义的特征信息；

按照语义分析，给关键信息划分段落，取出所识别出的字词并连接起来，得到处理后的信号；

2.根据权利要求1所述的一种语音识别方法，其特征在于，校准滤波器的构建过程包括：

3.根据权利要求1所述的一种语音识别方法，其特征在于，对语音信号进行去噪处理包括：

S21、计算待处理的语音信号的小波变换；

S22、对小波变换得到的小波进行阈值化；

4.根据权利要求3所述的一种语音识别方法，其特征在于，小波变换包括：

选择支撑长度为5~9之间的小波以及sym小波系的小波基函数；

设置阈值，选尺度大于设置的阈值的信号进行小波变换，再将选取信号的低频部分在原信号尺度的一半上再进行小波变换，获取完成小波变换的信号。

5.根据权利要求3所述的一种语音识别方法，其特征在于，对小波变换得到的小波进行阈值化的方法包括定阈值估计、极值阈值估计、无偏似然估计以及启发式估计。

6.根据权利要求1所述的一种语音识别方法，其特征在于，提取去噪之后语音信号的语音特征包括：

S31、通一个高通滤波器滤除语音信号中声带和嘴唇的效应；

S35、使用三角带通率比起对功率谱进行平滑；

7.一种语音交互系统，其特征在于，包括：

语音输入模块，用于采集语音输入数据；

去噪模块，对预处理之后的语音信号进行去噪，即对原始语音信号中增益和相位不匹配的位置进行校正、调整滤波的权重系数消除噪音以及提高波束形成器的鲁棒性，该处理具体包括：

特征分类模块，提取去噪之后语音信号的语音特征，包括除去语音信号中的冗余信息，提取影响语音识别的关键信息和表达语言含义的特征信息；

分类模块，根据语音信号的语音特征对语音信号进行分类，包括：利用最小单元字词识别方法，依照不同语言的语法的先后顺序识别字词；按照语义分析，给关键信息划分段落，取出所识别出的字词并连接起来，得到处理后的信号；

8.一种包括语音交互系统的成绩管理系统，其特征在于，包括权利要求7所述的语音交互系统，并且该系统的语音输入模块、语音输出模块设置在移动终端上，语音增强模块、预处理模块、去噪模块、特征分类模块、分类模块以及语音转化模块设置在成绩管理系统的服务器上，服务器上根据语音转化模块输出的计算机语言进行存储和相关操作。