CN109817209B

CN109817209B - 一种基于双麦克风阵列的智能语音交互系统

Info

Publication number: CN109817209B
Application number: CN201910038519.1A
Authority: CN
Inventors: 王艳芬; 杨汉丹; 王广新
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2020-09-25
Anticipated expiration: 2039-01-16
Also published as: CN109817209A

Abstract

本发明公开了一种基于双麦克风阵列的智能语音交互系统，包括声音采集模块、第一声音检测模块、第二声音检测模块、关键词语音识别模块、单通道降噪模块、延时估计模块、双麦语音增强模块；回声消除模块消除声音采集模块拾取扬声器播放出来的自噪声；输入包含两路信号，一路是声音采集模块拾取到的近端语音，另外一路是参考信号，为从云端获取并被扬声器播放的音频数据；只有满足第一声音检测模块和第二声音检测模块都检测到有声音的时候，才会被打开执行。本发明的计算量较小，对处理芯片的计算能力较低，因此能够在一些低廉的处理芯片上实施，大大降低了实现成本，所要求的麦克风个数极少，几何结构简单，更加有利于产品的外观设计。

Description

一种基于双麦克风阵列的智能语音交互系统

技术领域

本发明涉及智能语音交互技术领域，具体涉及一种基于双麦克风阵列的智能语音交互系统，主要应用于家居家电、穿戴设备等便携式产品中。

背景技术

随着人工智能的兴起，基于麦克风阵列远场拾音的智能语音交互技术也逐步成为了当前热门的技术之一。《基于圆形麦克风阵列的智能交互方法及系统》申请号：CN201510246315.9该方案包括：通过圆形麦克风阵列接收用户语音信号；对所述语音信号进行去噪处理，得到去噪后的语音信号；对去噪后的不同波束方向的语音信号进行预识别，并选择识别得分最高的语音信号的波束方向作为目标说话人方向，后续对在所述目标说话人方向上去噪后的语音信号进行语音识别，得到语音识别结果；根据所述语音识别结果执行操作。利用本发明，可以有效提高麦克风阵列波束输出的语音信号的信噪比，进而提高语音识别效果，使人机交互更智能。

现有的基于麦克风阵列的语音交互技术，大多是采用4麦、6麦、以及6+1等阵列方案，这类技术虽然能较好的实现远场的语音交互要求，但对设备的计算能力也有较高要求，制作实现的成本也较高。

发明内容

有鉴于此，本发明的目的在于仅采用2麦，尽可能的实现一定距离的远程拾音，满足对语音交互距离在3米内的用户需求，同时降低计算量和实现低成本，提出一种基于双麦克风阵列的智能语音交互系统。

本发明通过以下技术手段解决上述问题：

一种基于双麦克风阵列的智能语音交互系统，包括：

声音采集模块，用户拾取声音信号；

第一声音检测模块，用于对拾取的声音信号进行语音检测，当检测到有语音时，将信号送入下一模块；否则，将数据丢弃；

第二声音检测模块，用于对云端获取并被扬声器播放的音频数据进行语音检测，当检测到有语音时，将信号送入下一模块；否则，将数据丢弃；

回声消除模块，用于消除声音采集模块拾取扬声器播放出来的自噪声；输入包含两路信号，一路是声音采集模块拾取到的近端语音，另外一路是参考信号，参考信号为从云端获取并被扬声器播放的音频数据；只有满足第一声音检测模块和第二声音检测模块都检测到有声音的时候，才会被打开执行，否则处于直通状态；

关键词语音识别模块，用于接收从回声消除模块中流入的数据，进行关键词语音识别，根据识别结果控制单通道降噪模块和双麦语音增强模块的开关；

单通道降噪模块，用于当关键词语音识别模块识别到关键词后将被打开，接收第一声音检测模块中的输出，进行降噪处理；

延时估计模块，用于接收单通道降噪模块的输出信号，进行计算得到一个时延值，输入至双麦语音增强模块；

双麦语音增强模块，用于当关键词语音识别模块中检测识别到关键词后，将被打开，接收第一声音检测模块中的数据，进行语音增强处理，处理之后的数据将会被传送到云端；

云端，用于接收到本地传送的数据，进行对应的处理，返回本地处理结果，本地接收到处理结果后，通过扬声器播放出来，告知用户；

扬声器，用于播放云端处理后的音频数据。

进一步地，所述声音采集模块为双麦克风。

进一步地，第一声音检测模块和第二声音检测模块的语音检测处理包括如下步骤：

首先对数字音频信号进行分帧处理，计算每一帧的短时能量和短时过零率两个特征；根据这两个特征，利用双门限判决法估计得到语音检测结果；

进一步地，回声消除模块的回声消除处理包括如下步骤：

回声消除算法采用步长因子可变的NLMS算法，计算公式如下：

其中，x(n)是参考端信号(ref)，矢量形式可写成：

x(n)＝[x(n),x(n-1),........x(n-M+1)]^T

其中η是修正的步长常量，0<η<2，δ为一个较小的整数，一般取0.0001；w(n)是自适应滤波器系数，用于估计回声路径，y(n)是系统输出，d(n)是近端信号(near)，它包含了目标语音，以及由扬声器播放出来的干扰语音和环境噪声；e(n)是误差信号，它也是回声消除算法得到的最终输出结果。

进一步地，关键词语音识别模块的关键词语音识别是通过大量的语料，利用深度神经网络CNN网络训练生成的一个分类器。

进一步地，单通道降噪模块的降噪处理包括如下步骤：

采用谱减进行降噪处理，包括噪声分量估计和谱减降噪处理两部分；其中噪声的估计需要结合语音检测的结果进行处理；若当前帧判决为非语音帧时，则利用当前帧数据进行噪声估计更新，否则噪声分量值不变；若当前帧判决为语音帧时，则分别对两路数字信号的当前帧进行降噪处理；该步骤中用到的计算公式如下：

D(k,w)＝D(k-1,w)*coef+(1-coef)*|X(k,w)|² (4)----------------噪声估计更新

公式(4)为噪声估计更新公式，公式(5)为降噪处理公式；式中X(k,w)为当前帧信号进行短时傅立叶变化的频域表示，k表示为帧序号，w表示为频率分量；D(k,w)为当前帧估计得到的噪声功率，coef、α、β为平滑系数。

进一步地，延时估计模块的延时估计包括如下步骤：

延时估计采用基于广义互相关函数的估计算法；首先对输入的两路信号进行短时傅立叶变换，在频域计算两路信号的互相关值；为了抑制噪声和混响干扰，加入加权因子φ(w)；其中

X₂ ^*(w)为X₂(w)的共轭；对加权后的互相关值进行傅立叶逆变换，检测峰值的位置，进而得到两路信号的延时值。

进一步地，双麦语音增强模块的双麦语音增强包括如下步骤：

首先对信号进行数据对齐，即进行相应的延时处理；对齐后的两路信号可表示为：

y_i(m)＝x_i(m)+n_i(m) (6)

其中i小标表示信号通道编号；

对两路输入信号y₁(m)，y₂(m)经过一个加窗处理并且取FFT变化之后变换到了频域上，处理之后的信号是Y₁(w,k)，Y₂(w,k)；其中w表示角频率，k表示帧序号；

接下来，计算两路信号的自相关功率谱和互相关功率谱；计算公式如下：

其中，X_i(w,k),Y_i(w,k),N_i(w,k)分别表示x_i(m)，y_i(m)，n_i(m)的傅里叶变化；对计算得到的自相关功率谱和互相关功率谱做平滑处理，λ为平滑系数：

计算最后的增益系数：

与现有技术相比，本发明的有益效果至少包括：

本发明的计算量较小，对处理芯片的计算能力较低，因此能够在一些低廉的处理芯片上实施，大大降低了实现成本，能够满足3米范围内的语音交互需求。系统所要求的麦克风个数极少，几何结构简单，更加有利于产品的外观设计。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于双麦克风阵列的智能语音交互系统的结构示意图；

图2为本发明延迟估计模块的算法结构示意图；

图3为本发明双麦阵列语音增强模块的算法结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本发明的结构示意图如1所示，实线表示音频数字流，虚线表示控制信息或其他变量。实线矩形表示算法模块，虚线矩形表示需要满足某些条件才会被执行的模块。主要步骤包括：

1、声音采集模块1(mic)，麦克风拾取声音信号；

2、第一声音检测模块2(Voice Activity Detection VAD)对拾取的声音信号进行语音检测，当检测到有语音时，将信号送入下一模块。否则，将数据丢弃。

3、回声消除模块3(Acoustic Echo Cancellation AEC)，主要用于消除mic拾取扬声器播放出来的自噪声。AEC的输入包含两路信号，一路是麦克风拾取到的近端语音(near)，另外一路是参考信号(ref)，这里取系统从云端获取并被扬声器播放的音频数据。只有满足第一声音检测模块2、和第二声音检测模块8中的VAD都检测到有声音的时候，AEC才会被打开执行，否则AEC是处于直通状态，即数据从near端流入，不经任何处理，直接被模块输出。

4、关键词语音识别模块4(keyword spotting KWS)，接收从回声消除模块3中流入的数据，进行关键词语音识别，根据识别结果控制单通道降噪模块5、双麦语音增强模块7的开关。

5、单通道降噪模块5，当关键词语音识别模块4识别到关键词后，单通道降噪模块5将被打开，接收第一声音检测模块2中的输出，进行降噪处理。

6、延时估计模块6，这里采用的是基于广义互相关的方法(GCC)，该模块将会计算得到一个时延值；

7、双麦语音增强模块7，当关键词语音识别模块4中检测识别到关键词后，该模块将被打开，接收第一声音检测模块2中的数据，进行语音增强处理，处理之后的数据将会被传送到云端。

8、云端，接收到本地传送的数据，进行对应的处理，返回本地处理结果，本地接收到处理结果后，通过扬声器9播放出来，告知用户。

一、VAD语音检测处理

首先对数字音频信号进行分帧处理，计算每一帧的短时能量和短时过零率两个特征。根据这两个特征，利用双门限判决法估计得到语音检测结果。

二、AEC处理

回声消除算法采用步长因子可变的NLMS算法，计算公式如下：

其中，x(n)是参考端信号(ref)，矢量形式可写成：

x(n)＝[x(n),x(n-1),........x(n-M+1)]^T

其中η是修正的步长常量，0<η<2，δ为一个较小的整数，一般取0.0001。w(n)是自适应滤波器系数，用于估计回声路径，y(n)是系统输出，d(n)是近端信号(near)，它包含了目标语音，以及由扬声器播放出来的干扰语音和环境噪声。e(n)是误差信号，它也是回声消除算法得到的最终输出结果。

三、关键词语音识别

关键词语音识别是通过大量的语料，利用深度神经网络CNN网络训练生成的一个分类器。

四、降噪处理

这里采用谱减进行降噪处理，主要包括噪声分量估计和谱减降噪处理两部分。其中噪声的估计需要结合语音检测的结果进行处理。若当前帧判决为非语音帧时，则利用当前帧数据进行噪声估计更新，否则噪声分量值不变。若当前帧判决为语音帧时，则分别对两路数字信号的当前帧进行降噪处理。该步骤中用到的计算公式如下：

公式(4)为噪声估计更新公式，公式(5)为降噪处理公式。式中X(k,w)为当前帧信号进行短时傅立叶变化的频域表示，k表示为帧序号，w表示为频率分量。D(k,w)为当前帧估计得到的噪声功率，coef、α、β为平滑系数。

五、GCC延时估计

延时估计采用基于广义互相关函数的估计算法。算法框图如图2所示，首先对输入的两路信号进行短时傅立叶变换，在频域计算两路信号的互相关值。为了抑制噪声和混响干扰，加入加权因子φ(w)。其中

X₂ ^*(w)为X₂(w)的共轭。对加权后的互相关值进行傅立叶逆变换，检测峰值的位置，进而得到两路信号的延时值。

六、双麦语音增强

双麦语音增强算法模块的框图如图3。首先对信号进行数据对齐，即进行相应的延时处理。对齐后的两路信号可表示为：

y_i(m)＝x_i(m)+n_i(m) (6)

其中i小标表示信号通道编号。

对两路输入信号y₁(m)，y₂(m)经过一个加窗处理并且取FFT变化之后变换到了频域上，处理之后的信号是Y₁(w,k)，Y₂(w,k)。其中w表示角频率，k表示帧序号。

接下来，计算两路信号的自相关功率谱和互相关功率谱。计算公式如下：

其中，X_i(w,k),Y_i(w,k),N_i(w,k)分别表示x_i(m)，y_i(m)，n_i(m)的傅里叶变化。对计算得到的自相关功率谱和互相关功率谱做平滑处理，λ为平滑系数：

计算最后的增益系数：

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于双麦克风阵列的智能语音交互系统，其特征在于，包括：

声音采集模块，用户拾取声音信号，声音采集模块为双麦克风；

扬声器，用于播放云端处理后的音频数据；

双麦语音增强模块的双麦语音增强包括如下步骤：

y_i(m)＝x_i(m)+n_i(m) (6)

其中i小标表示信号通道编号；

计算最后的增益系数：

2.根据权利要求1所述的基于双麦克风阵列的智能语音交互系统，其特征在于，第一声音检测模块和第二声音检测模块的语音检测处理包括如下步骤：

3.根据权利要求1所述的基于双麦克风阵列的智能语音交互系统，其特征在于，回声消除模块的回声消除处理包括如下步骤：

回声消除算法采用步长因子可变的NLMS算法，计算公式如下：

其中，x(n)是参考端信号(ref)，矢量形式可写成：

x(n)＝[x(n),x(n-1),........x(n-M+1)]^T

4.根据权利要求1所述的基于双麦克风阵列的智能语音交互系统，其特征在于，关键词语音识别模块的关键词语音识别是通过大量的语料，利用深度神经网络CNN网络训练生成的一个分类器。

5.根据权利要求1所述的基于双麦克风阵列的智能语音交互系统，其特征在于，单通道降噪模块的降噪处理包括如下步骤：

D(k,w)＝D(k-1,w)*coef+(1-coef)*|X(k,w)|² (4)

6.根据权利要求1所述的基于双麦克风阵列的智能语音交互系统，其特征在于，延时估计模块的延时估计包括如下步骤：