CN109346096A

CN109346096A - 一种用于语音识别过程的回声消除方法及装置

Info

Publication number: CN109346096A
Application number: CN201811212919.1A
Authority: CN
Inventors: 饶竹; 饶竹一; 张云翔
Original assignee: Shenzhen Power Supply Co ltd
Current assignee: Shenzhen Power Supply Co ltd
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2019-02-15
Anticipated expiration: 2038-10-18
Also published as: CN109346096B

Abstract

本发明公开了一种用于语音识别过程的回声消除方法，包括以下步骤：麦克风用于接收近端用户声音和远端扬声器的声音，并形成第一模拟信号，第一模拟信号通过AD转换器将转换成数字信号，该数字信号经语音状态检测模块、滤波控制模块、自适应滤波器、回音消除模块、误差校准模块、残余回声截取模块以及第二非线性处理模块等模块多次回音消除处理之后，发送至扬声器。本发明能有效对麦克风采集的回声进行消除，从而能保证在进行语音识别时语音的准确性，从而提高语音识别的精准性，能有效解决现有技术中在数字域消除噪声的缺陷，提高回声消除的质量，从而能在无音腔进行高效隔离以及不降低提示音音量的情况下准确的进行语音识别。

Description

一种用于语音识别过程的回声消除方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种用于语音识别过程的回声消除方法及装置。

背景技术

语音识别是一门交叉学科，近二十年来，语音识别技术取得显著进步，开始从实验室走向市场，人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域，语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一，很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一，语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情，中国物联网校企联盟形象得把语音识别比做为“机器的听觉系统”。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术，语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用，例如在翼卡车联网中，只需按一键通客服人员口述即可设置目的地直接导航，安全、便捷。

现在的语音识别过程中，通过麦克风将用于的声音进行采集，从而进行分析判断并作出反馈，与用户进行交互，但是实际情况下麦克风除了收到用户的语音信息外，也收了音响播放出的声音或者语音提示。就需要将这些回声消除，再进行语音识别，从而保证语音识别的准确性，现有的技术中：一种情况是在静音的环境中进行语音识别，这种方法牺牲了用户的体验；另一种情况是对设备上的麦克进行非常好的声音隔离，这种方法对音响的音腔材料的隔音性能具有较高的要求，且对于低音也不会有好的效果，为此，我们提出了一种用于语音识别过程的回声消除方法来解决上述问题。

发明内容

本发明的目的解决现有技术中存在的问题，提出一种用于语音识别过程的回声消除方法及装置。

为了实现上述目的，本发明实施例提供一种用于语音识别过程的回声消除方法，包括以下步骤：

一种用于语音识别过程的回声消除方法，其特征在于，包括以下步骤：

S1麦克风用于接收近端用户声音和远端扬声器的声音，并形成第一模拟信号，AD转换器将所述第一模拟信号转换成数字信号并将其传送至语音状态检测模块和滤波控制模块；

S2所述语音状态检测模块对近端用户声音和远端扬声器的声音进行采样，并根据近端用户声音样本和远端扬声器声音样本的短时能量估计值确定当前语音识别的通话状态信息，所述NLMS控制器能根据通话状态信息对FIR滤波器进行系数配置，所述FIR滤波器对所述远端声音样本进行初步处理，处理后的远端样本信息传递回语音状态检测模块；

S3经过所述语音状态检测模块处理后的声音信号传递至滤波控制模块中与数字信号一起传递至自适应滤波器中，经过步长调整模块、系数调整模块和帧长调整模块的处理后再次传送回所述自适应滤波器中，并经过自适应滤波器传递至回音消除模块进行回音消除；

S4、经所述回音消除模块处理后的数字信号传递至误差校准模块，所述误差校准模块将其再次传递至自适应滤波器中，经过所述步长调整模块、系数调整模块和帧长调整模块的处理后再次经所述自适应滤波器传递回所述误差校准模块；

S5所述误差校准模块将经过处理后的数字信号传递至残余回声截取模块，所述残余回声截取模块将接收到数字信号传递至第二非线性处理模块中，所述第二非线性处理模块对残余回声信号进行非线性处理，进一步消除回声；

S6经S5处理后的声音数字信号传递至语音识别模块，所述语音识别模块对声音数字信号内的信息进行识别；

S7所述语音识别模块将识别得到的数字信息传递至通讯连接模块；

S8所述通讯连接模块将所述数字信息传递至功率放大器进行放大，放大后的数字信息经DA转换器将数字信号转换成第二模拟信号；

S9 DA转换器将第二模拟信号传传递至扬声器内，从而方便与用户进行交互。

其中，所述回音消除模块包括第一非线性处理模块，所述第一非线性处理模块用于对回音进行非线性处理。

其中，所述第一模拟信号和所述第二模拟信号均为电信号。

其中，所述第二非线性处理模块的非线性处理包括残留回声消除处理和非线性剪切处理。

其中，所述FIR滤波器包括缓冲区配置模块、打包时延配置模块和抽头配置模块；所述打包时延配置模块用于根据远端信号样本确定打包时延样本数；所述冲区配置模块用于在滑动窗 FIR 滤波器中设置缓冲区，在该缓冲区中填入需要进行滤波处理的远端信号样本；所述抽头配置模块用于根据除了语音压缩算法造成的打包时延之外的时延大小来配置滑动窗 FIR 滤波器的抽头数。

其中，所述语音状态检测模块包括采样处理模块和通话状态判断模块，且所述NLMS控制器位于语音状态检测模块内。其中，所述通讯连接模块采用多种通信方式，所述通信方式包括无线网络、3G网络或有线局域网。其中，所述第一非线性处理模块包括语音输出模块和静音处理模块；当语音状态检测器判断当前通话状态信息为近端模式时，语音输出模块对接收到的信号原样输出，当语音状态检测器判断当前通话状态信息为远端模式时，静音处理模块对接收到的信号进行静音处理。

本发明实施例还提供一种用于实现所述用于语音识别过程的回声消除方法的装置，所述装置包括依次连接的麦克风、AD转换器、滤波控制模块、回音消除模块、误差校准模块、残余回声截取模块、第二非线性处理模块、语音识别模块、通讯连接模块、功率放大器、DA转换器和扬声器；

还包括语音状态检测模块，所述语音状态检测模块分别与所述AD转换器和滤波控制模块连接，所述滤波控制模块还连接一自适应滤波器，所述自适应滤波器包括步长调整模块、系数调整模块和帧长调整模块；

所述语音状态检测模块还连接一NLMS控制器和一FIR滤波器。

本发明实施例方法能有效对麦克风采集的回声进行消除，从而能保证在进行语音识别时语音的准确性，从而提高语音识别的精准性，能有效解决现有技术中在数字域消除噪声的缺陷，提高回声消除的质量，从而能在无音腔进行高效隔离以及不降低提示音音量的情况下准确的进行语音识别。

附图说明

图1为本发明实施例中一种用于语音识别过程的回声消除方法的流程框图。

图2为本发明实施例中一种用于语音识别过程的回声消除方法的语音状态检测模块框图。

图3为本发明实施例中一种用于语音识别过程的回声消除方法的FIR滤波器框图。

图4为本发明实施例中一种用于语音识别过程的回声消除方法的回音消除模块框图。

图5为本发明实施例中一种用于语音识别过程的回声消除方法的第一非线性处理模块框图。

图中标记：

麦克风1，扬声器2，AD转换器3，语音状态检测模块4，滤波控制模块5，自适应滤波器6，步长调整模块7，系数调整模块8，帧长调整模块9，回音消除模块10，误差校准模块11，残余回声截取模块12，第二非线性处理模块13，语音识别模块14，通讯连接模块15，功率放大器16，DA转换器17，NLMS控制器18，FIR滤波器19，缓冲区配置模块191，打包延时配置模块192，抽头配置模块193，通话状态判断模块20，采样处理模块21，第一非线性处理模块22，语音输出模块221，静音处理模块222。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1-5，本发明实施例提供一种用于语音识别过程的回声消除方法，需说明的是，图1-5中箭头所示为语音信号的流向方向。

具体而言，本实施例所述方法包括以下步骤：

S1麦克风用于接收近端用户声音和远端扬声器的声音，从而方便接收用户的指示信息，并形成第一模拟信号，第一模拟信号通过AD转换器将转换成数字信号，AD转换器能将电信号转换成数字信号，从而方便进行处理或传输，能避免在传输过程中造成信号丢失，影响最终识别效果，并将其传送至语音状态检测模块和滤波控制模块中。

其中，所述语音状态检测模块包括采样处理模块、通话状态判断模块，且NLMS控制器（NLMS，Normalized Least Mean Square）位于所述语音状态检测模块内，所述采样处理模块对远端语音信号和近端语音信号根据设定的时间段进行采样处理，所述通话状态判断模块对所述采样处理模块中获得的近端语音信号的样本点的短时能量估计值大于设定时间段内的远端语音信号的短时能量估计值中最大值的设定倍数时，确定当前网络的通话状态为近端模式，否则，确定当前网络的通话状态为远端模式，所述NLMS控制器能根据实际情况更新系数并自动进行重新配置，从而提高处理的质量；

S2所述语音状态检测模块对近端用户声音和远端扬声器的声音进行采样，并根据近端用户声音样本和远端扬声器声音样本的短时能量估计值，确定当前语音识别的通话状态信息，从而将该通话状态信息传递给NLMS控制器，从而方便NLMS控制器能根据通话状态信息对FIR滤波器进行系数配置，从而方便对远端声音样本进行初步处理，处理后的远端样本信息传递回语音状态检测模块。

所述FIR滤波器包括缓冲区配置模块、打包时延配置模块和抽头配置模块；其中，所述打包时延配置模块用于根据远端信号样本确定打包时延样本数；所述冲区配置模块用于在滑动窗 FIR 滤波器中设置缓冲区，在该缓冲区中填入需要进行滤波处理的远端信号样本；所述抽头配置模块用于根据除了语音压缩算法造成的打包时延之外的时延大小来配置滑动窗 FIR 滤波器的抽头数，从而能有效提高处理的效率和质量，更好的对回声进行消除。

S3经过所述语音状态检测模块处理后的声音传递至滤波控制模块中，并与滤波控制模块中的数字信号一起传递至自适应滤波器中，经过步长调整模块、系数调整模块和帧长调整模块的处理后传送回所述自适应滤波器中，并经过自适应滤波器传递至回音消除模块，将回音进行再次消除；

其中，所述步长调整模块用于在检测到自适应滤波器的系数更新步长大于设置的系数更新步长的阈值时，减小更新的步长系数；所述系数调整模块用于在检测到自适应滤波器的系数更新大于设置的更新阈值时，减小更新的系数，从而有利于自动进行回声消除；

S4经回音消除模块处理后的数字信号传递至误差校准模块，所述误差校准模块将其再次传递至自适应滤波器中，再次经过所述步长调整模块、所述系数调整模块和所述帧长调整模块的处理后传送回所述自适应滤波器中，从而传递回所述误差校准模块。

其中，所述回音消除模块能够建立远端回声的语音模型，所述回音消除模块包括第一非线性处理模块，所述第一非线性处理模块包括语音输出模块和静音处理模块，当所述语音状态检测模块判断当前通话状态信息为近端模式时，所述语音输出模块对接收到的信号原样输出，当所述语音状态检测模块判断当前通话状态信息为远端模式时，所述静音处理模块对接收到的信号进行静音处理，从而方便第一非线性处理模块用于根据语音状态检测模块检测出的当前通话状态，对经过所述FIR 滤波器进行了滤波处理后的信号进行进一步的消除回声处理。

S5误差校准模块将经过处理后的数字信号传递至残余回声截取模块，所述残余回声截取模块对其再次进行回声消除，在将其传递至第二非线性处理模块中，所述第二非线性处理模块对残余回声信号进行非线性处理，进一步消除回声。

其中，所述非线性处理包括残留回声消除处理和非线性剪切处理，从而能更好的对回音进行消除，提高处理的质量。

S6经S5处理后的声音信号传递至所述语音识别模块，对数字信号内的信息进行识别，进行语音识别，从而方便根据用户信息指令进行操作，方便用于使用。

S7识别后的数字信息传递至通讯连接模块，从而方便根据数字信息内传递的信息进行操作，从而提高语音识别的操作质量，通讯连接模块采用多种通信方式，通信方式包括无线网络、3G网络或有线局域网，方便信息进行传递，并能有效保证传递的效率和质量，从而能够清晰准确根据信息进行反馈，方便进行交互，提高用户体验。

S8操作过后，将其反馈结果传递至功率放大器内，对其功率进行放大，从而方便DA转换器将数字信号转换成第二模拟信号，从而提高信息传递的质量。

S9将第二模拟信号传传递至扬声器内，从而方便与用户进行交互，所述第一模拟信号和第二模拟信号均为电信号，方便通过扬声器与用户进行交互，从而确保信息识别的准确性，提高操作的准确性。

本发明实施例方法使用时，用户通过语音对设备发出指令，麦克风接收用户发出的语音指令信息，麦克风同时还会接收到其他语音信息，例如周围的环境音以及设备自身发出的提示音等回音信息，麦克风接收到的语音指令信息和回音信息传递至AD转换器中，通过AD转换器将第一模拟信号转换成数字信号，转换好的数字信号专递给语音状态检测模块和滤波控制模块，语音状态检测模块能对近端用户声音和远端扬声器的声音进行采样，并能根据近端用户声音样本和远端扬声器声音样本的短时能量估计值，确定当前语音识别的通话状态信息，从而将该通话状态信息传递给NLMS控制器，从而方便NLMS控制器能根据通话状态信息对FIR滤波器进行系数配置，从而方便对远端声音样本进行初步处理，处理后的远端样本信息传递回语音状态检测模块，从而传递至滤波控制模块，滤波控制模块将样本信息和数字信息传递至回音消除模块和自适应滤波器中，经过自适应滤波器中的步长调整模块、系数调整模块和帧长调整模块进行处理后传递至误差校准模块，回音消除模块初步对根据样本模块进行回音消除并传递至误差校准模块中，在误差校准模块的处理对比后将数字信息传递至残余回音消除模块经第二非线性处理模块的处理除去回声，从而传递至语音识别模块内进行语音识别，识别完成后经过通讯连接模块进行传送信息，并将该功率放大器对信号进行放大，在经过DA转换器转换成电信号，从而方便扬声器进行传递。

所述语音状态检测模块还连接一NLMS控制器和一FIR滤波器。

需说明的是，对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅是本发明实施例的较佳实施例而已，并非对本发明实施例作任何形式上的限制。虽然本发明实施例已以较佳实施例揭露如上，然而并非用以限定本发明实施例。任何熟悉本领域的技术人员，在不脱离本发明实施例技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明实施例技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明实施例技术方案的内容，依据本发明实施例的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明实施例技术方案保护的范围内。

Claims

1.一种用于语音识别过程的回声消除方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种用于语音识别过程的回声消除方法，其特征在于，所述回音消除模块包括第一非线性处理模块，所述第一非线性处理模块用于对回音进行非线性处理。

3.根据权利要求1所述的一种用于语音识别过程的回声消除方法，其特征在于，所述第一模拟信号和所述第二模拟信号均为电信号。

4.根据权利要求1所述的一种用于语音识别过程的回声消除方法，其特征在于，所述第二非线性处理模块的非线性处理包括残留回声消除处理和非线性剪切处理。

5.根据权利要求1所述的一种用于语音识别过程的回声消除方法，其特征在于，所述FIR滤波器包括缓冲区配置模块、打包时延配置模块和抽头配置模块；所述打包时延配置模块用于根据远端信号样本确定打包时延样本数；所述冲区配置模块用于在滑动窗 FIR 滤波器中设置缓冲区，在该缓冲区中填入需要进行滤波处理的远端信号样本；所述抽头配置模块用于根据除了语音压缩算法造成的打包时延之外的时延大小来配置滑动窗 FIR 滤波器的抽头数。

6.根据权利要求1所述的一种用于语音识别过程的回声消除方法，其特征在于，所述语音状态检测模块包括采样处理模块和通话状态判断模块，且所述NLMS控制器位于语音状态检测模块内。

7.根据权利要求1所述的一种用于语音识别过程的回声消除方法，其特征在于，所述通讯连接模块采用多种通信方式，所述通信方式包括无线网络、3G网络或有线局域网。

8.根据权利要求3所述的一种用于语音识别过程的回声消除方法，其特征在于，所述第一非线性处理模块包括语音输出模块和静音处理模块；当语音状态检测器判断当前通话状态信息为近端模式时，语音输出模块对接收到的信号原样输出，当语音状态检测器判断当前通话状态信息为远端模式时，静音处理模块对接收到的信号进行静音处理。

9.一种用于实现权利要求1所述用于语音识别过程的回声消除方法的装置，其特征在于，包括依次连接的麦克风、AD转换器、滤波控制模块、回音消除模块、误差校准模块、残余回声截取模块、第二非线性处理模块、语音识别模块、通讯连接模块、功率放大器、DA转换器和扬声器；

所述语音状态检测模块还连接一NLMS控制器和一FIR滤波器。