CN108877827B

CN108877827B - 一种语音增强交互方法及系统、存储介质及电子设备

Info

Publication number: CN108877827B
Application number: CN201710338190.1A
Authority: CN
Inventors: 金剑; 张益萍
Original assignee: Fuzhou Rockchip Electronics Co Ltd
Current assignee: Rockchip Electronics Co Ltd
Priority date: 2017-05-15
Filing date: 2017-05-15
Publication date: 2021-04-20
Anticipated expiration: 2037-05-15
Also published as: CN108877827A

Abstract

本发明提供一种语音增强交互方法及系统、存储介质及电子设备，将环形麦克风阵列中各个麦克风的时域信号转换为各个麦克风的频域信号，并进行混响抑制和平稳噪声抑制；基于去除混响和平稳噪声的各个麦克风的频域信号进行唤醒方向声源定位，获取唤醒方向；在主方向和唤醒方向基于去除混响和平稳噪声的各个麦克风的频域信号，获取主方向波束时域信号和唤醒方向波束时域信号；对所述主方向波束时域信号进行语音识别；对所述唤醒方向波束时域信号进行唤醒词识别，若识别为唤醒词，则将主方向更改为所获取的唤醒方向。本发明的语音增强交互方法及系统、存储介质及电子设备有效地提高了语音交互的稳定性和可靠性。

Description

一种语音增强交互方法及系统、存储介质及电子设备

技术领域

本发明涉及语音处理的技术领域，特别是涉及一种语音增强交互方法及系统、存储介质及电子设备。

背景技术

随着信息科技的发展，人工智能技术越来越走进人们的生活当中。而在众多的人机交互中，语音交互是一种最自然且最符合人类行为的一种交互方式。语音识别技术的不断发展，也使得语音交互成为现实。在使用过程中，通常使用特定唤醒词触发语音交互系统。然而，在实际生活场景中，语音交互环境较为复杂，容易受到环境噪声、混响、人声干扰等影响，使得麦克风采集的语音信号信噪比较差，严重影响了语音交互的准确性。

现有技术中，采用各种语音增强方法来提高语音信噪比，其中包括单麦克风语音增强技术和麦克风阵列语音增强技术。单麦克风语音增强技术为比较传统的语音增强技术，包括谱减法、维纳滤波法等方法。麦克风阵列语音增强相比单麦克风语音增强技术，引入了声源信号的空间信息。现有语音增强麦克风阵列通常采用均匀线形阵列，并使用自适应波束形成语音增强方法，例如广义旁瓣相消器(GSC)，同时还需要声源定位功能来确定目标声源位置，以使得波束方向指向目标声源方向。现有声源定位方法通常采用时延估计方法，例如利用广义互相关方法(GCC)。

单麦克风语音增强技术算法复杂度小，但对非平稳噪声的抑制效果较差，且容易造成语音不同程度的失真。线形麦克风阵列语音增强方法由于其布局的局限性，对阵列法线方向的拾音效果较好，但对轴向拾音效果较差；同时，自适应波束形成虽然对噪声具有实时的跟踪性，但在噪声环境复杂且混响较大时，声源定位准确度难以保证，同时零陷方向的自适应跟踪准确度也难以保证，从而造成语音不同程度的失真。为了避免复杂环境下自适应波束的效果恶化，通常需要设计复杂的自适应算法以及复杂的声源定位方法，难以满足嵌入式系统的实时性应用需求。一般情况下，声源定位方法与自适应波束方法通常采用不同的设计方法，如GCC与GSC方法，两者几乎没有复用模块，从而造成更大的复杂度。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种语音增强交互方法及系统、存储介质及电子设备，在进行语音识别时，生成主方向和唤醒方向两路波束信号，并当干扰方向声源为唤醒词时将正在进行语音识别的主方向切换为唤醒方向，从而有效地提高了语音交互的稳定性和可靠性。

为实现上述目的及其他相关目的，本发明提供一种基于环形麦克风阵列的语音增强交互方法，包括以下步骤：将环形麦克风阵列中各个麦克风的时域信号转换为各个麦克风的频域信号；在频域对所述各个麦克风的频域信号进行混响抑制和平稳噪声抑制，得到去除混响和平稳噪声的各个麦克风的频域信号；基于所述去除混响和平稳噪声的各个麦克风的频域信号进行唤醒方向声源定位，获取唤醒方向；在主方向和唤醒方向基于所述去除混响和平稳噪声的各个麦克风的频域信号，获取主方向波束时域信号和唤醒方向波束时域信号；所述主方向为当前正在拾音的目标方向；对所述主方向波束时域信号进行语音识别；对所述唤醒方向波束时域信号进行唤醒词识别，若识别为唤醒词，则将主方向更改为所获取的唤醒方向，并基于更改后的主方向对应的主方向波束时域信号进行语音识别。

于本发明一实施例中，对环形麦克风阵列中各个麦克风的时域信号x_i(n)进行分帧加窗以及短时傅里叶变换，得到各个麦克风的频域信号X_i(k，l)，其中i表示第i个麦克风，n表示时域样点索引号，k表示频域样点索引号，l表示当前帧号，i取值为1～M的自然数，M为麦克风的个数。

于本发明一实施例中，对所述各个麦克风的频域信号X_i(k，l)进行混响抑制和平稳噪声抑制时，以交互空间的混响时间为先验知识，建立统计模型，进行后混响方差估计，同时采用最小值跟踪算法进行噪声估计；然后将估计得到的后混响方差和噪声方差作为输入，采用改进型最小均方误差方法计算语音增强增益G_i(k，l)，最后根据X′_i(k，l)＝X_i(k，l)×G_i(k，l)得到去除混响和平稳噪声的各个麦克风的频域信号X′_i(k，l)。

于本发明一实施例中，获取所述唤醒方向包括以下步骤：

设定扫描方向θ_j及扫描频段[Kl，Kh]，其中

Sn为扫描个数；

基于去除混响和平稳噪声的各个麦克风的频域信号X′_i(k，l)，在各个扫描方向θ_j的扫描频段上进行波束滤波，并计算各个扫描方向对应的扫描频段上波束滤波后的能量值

其中

为扫描方向θ_j对应的超增益固定波束滤波器；

计算各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和

其中L为一定时间片T所对应的帧数，L＝floor(T×Fs/N)，N为帧长，Fs为麦克风信号的采样率，floor()表示向下取整运算；

搜索各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和S(θ_j，l)中前三个能量大值对应的扫描方向；其中θ_m1、θ_m2和θ_m3分别表示能量第一大值、第二大值和第三大值所对应的扫描方向；

对前三个能量大值对应的扫描方向进行平滑，获取唤醒方向θ_W。

于本发明一实施例中，对前三个能量大值对应的扫描方向进行平滑，获取唤醒方向θ_W包括以下步骤：

根据

对θ_m1和θ_m2进行平滑操作，得到θ₁₂，其中θ_Δ为预设最大误差角；

根据

对θ₁₂和θ_m3进行平滑操作，得到唤醒方向θ_W，其中α为预设平滑系数。

于本发明一实施例中，获取主方向波束时域信号x_I(n，l)和唤醒方向波束时域信号x_W(n，l)时，包括以下步骤：

根据

对主方向上去除混响和平稳噪声的各个麦克风的频域信号X′_i(k，l)进行频域波束滤波，得到滤波后的主方向波束频域信号Y_I(k，l)；根据

对唤醒方向上去除混响和平稳噪声的各个麦克风的频域信号X′_i(k，l)进行频域波束滤波，得到滤波后的唤醒方向波束频域信号Y_W(k，l)；其中，

和

分别表示主方向θ_I和唤醒方向θ_W对应的超增益固定波束滤波器；

分别对主方向波束频域信号Y_I(k，l)和唤醒方向波束频域信号Y_W(k，l)进行短时反傅里叶变换，得到主方向波束时域信号x_I(n，l)和唤醒方向波束时域信号x_W(n，l)。

于本发明一实施例中，所述超增益固定波束滤波器的系数预先通过仿真计算获得，其中干扰噪声假设为散射噪声，白噪声的增益根据需求进行设定。

相应地，本发明还提供一种基于环形麦克风阵列的语音增强交互系统，包括转换模块、抑制模块、第一获取模块、第二获取模块和语音识别模块；

转换模块用于将环形麦克风阵列中各个麦克风的时域信号转换为各个麦克风的频域信号；

抑制模块用于在频域对所述各个麦克风的频域信号进行混响抑制和平稳噪声抑制，得到去除混响和平稳噪声的各个麦克风的频域信号；

第一获取模块用于基于所述去除混响和平稳噪声的各个麦克风的频域信号进行唤醒方向声源定位，获取唤醒方向；

第二获取模块用于在主方向和唤醒方向基于所述去除混响和平稳噪声的各个麦克风的频域信号，获取主方向波束时域信号和唤醒方向波束时域信号；所述主方向为当前正在拾音的目标方向；

语音识别模块用于对所述主方向波束时域信号进行语音识别；对所述唤醒方向波束时域信号进行唤醒词识别，若识别为唤醒词，则将主方向更改为所获取的唤醒方向，并基于更改后的主方向对应的主方向波束时域信号进行语音识别。

于本发明一实施例中，所述转换模块对环形麦克风阵列中各个麦克风的时域信号x_i(n)进行分帧加窗以及短时傅里叶变换，得到各个麦克风的频域信号X_i(k，l)，其中i表示第i个麦克风，n表示时域样点索引号，k表示频域样点索引号，l表示当前帧号，i取值为1～M的自然数，M为麦克风的个数。

于本发明一实施例中，所述抑制模块对所述各个麦克风的频域信号X_i(k，l)进行混响抑制和平稳噪声抑制时，以交互空间的混响时间为先验知识，建立统计模型，进行后混响方差估计，同时采用最小值跟踪算法进行噪声估计；然后将估计得到的后混响方差和噪声方差作为输入，采用改进型最小均方误差方法计算语音增强增益G_i(k，l)，最后根据X′_i(k，l)＝X_i(k，l)×G_i(k，l)得到去除混响和平稳噪声的各个麦克风的频域信号X′_i(k，l)。

于本发明一实施例中，所述第一获取模块执行以下操作：

设定扫描方向θ_j及扫描频段[Kl，Kh]，其中

Sn为扫描个数；

其中

为扫描方向θ_j对应的超增益固定波束滤波器；

根据

根据

于本发明一实施例中，所述第二获取模块执行以下操作：

根据

和

(k，i)分别表示主方向θ_I和唤醒方向θ_W对应的超增益固定波束滤波器；

同时，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项所述基于环形麦克风阵列的语音增强交互方法。

另外，本发明还提供一种电子设备，包括：处理器及存储器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行上述任一项所述基于环形麦克风阵列的语音增强交互方法。

如上所述，本发明的语音增强交互方法及系统、存储介质及电子设备，具有以下有益效果：

(1)通过设计主方向和唤醒方向两路波束信号来提高语音交互的稳定性，仅当干扰方向声源为唤醒词时才将正在进行语音识别的主方向切换为唤醒方向，避免了其他方向非唤醒词干扰；

(2)将波束形成与声源定位相结合，即波束形成和声源定位使用相同的波束滤波器进行波束扫描；

(3)在声源定位中，通过有效频段扫描以及根据扫描能量大小进行多方向平滑的方法提高了声源定位在混响等复杂环境下的鲁棒性和准确性；

(4)由于波束滤波器为预先离线计算获得，扫描频段设置为较窄的有效波束频段，故计算复杂度相对较小，在实际嵌入式系统中可以有效地进行实时处理。

附图说明

图1显示为本发明的基于环形麦克风阵列的语音增强交互方法的流程图；

图2显示为本发明的获取唤醒方向的流程图；

图3显示为本发明的基于环形麦克风阵列的语音增强交互系统的结构示意图；

图4显示为本发明的电子设备的结构示意图。

元件标号说明

1 转换模块

2 抑制模块

3 第一获取模块

4 第二获取模块

5 语音识别模块

41 处理器

42 存储器

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1所示，本发明的基于环形麦克风阵列的语音增强交互方法包括以下步骤：

步骤S1、将环形麦克风阵列中各个麦克风的时域信号转换为各个麦克风的频域信号。

设麦克风信号的采样率为Fs，环形麦克风阵列中包含的麦克风个数为M个，麦克风的时域信号为x_i(n)，麦克风的频域信号为X_i(k，l)，其中下标索引i表示第i个麦克风，n表示时域样点索引号，k表示频域样点索引号，l表示当前帧号，i取值为1～M的自然数。

具体地，对环形麦克风阵列中各个麦克风的时域信号x_i(n)进行分帧加窗以及短时傅里叶变换，得到各个麦克风的频域信号X_i(k，l)。其中，帧长N的设置通常与采样率Fs有关。例如，当采样率Fs为16000Hz时，可选择帧长N为512点，帧间移动为128点，窗型可选择旁瓣较小的汉明窗。

需要说明的是，对于本领域技术人员而言，分帧加窗以及短时傅里叶变换均为成熟的现有技术，故在此不再赘述。

步骤S2、在频域对各个麦克风的频域信号进行混响抑制和平稳噪声抑制，得到去除混响和平稳噪声的各个麦克风的频域信号。

本发明采用谱增强方法进行混响抑制和平稳噪声抑制。具体地，以交互空间的混响时间为先验知识，建立统计模型，进行后混响方差估计，同时采用最小值跟踪算法进行噪声估计；然后将估计得到的后混响方差和噪声方差作为输入，采用改进型最小均方误差(MMSE)方法计算语音增强增益G_i(k，l)，最后根据X′_i(k，l)＝X_i(k，l)×G_i(k，l)去除混响和平稳噪声。其中，X′_i(k，l)表示去除混响和平稳噪声的各个麦克风的频域信号。

其中，交互空间可以为客厅、卧室、展厅等等。不同的交互空间都有一个混响时间，就是各种墙壁反射等等，表象就是就是指声音传到人耳朵后，还有余音多长时间。算法具体实现时，通常将混响时间设置成一个能囊括生活中大多数交互空间的一个经验值，如0.5秒。

需要说明的是，谱增强方法降噪和去混响仅为本发明所采用的一种方法，但并不限定为该方法。凡是能够实现混响去除和噪声平稳的方法均在本发明的保护范围之列。

步骤S3、基于去除混响和平稳噪声的各个麦克风的频域信号进行唤醒方向声源定位，获取唤醒方向。

具体地，对可能出现的唤醒方向进行搜索扫描，即以一定的分辨率对360度方向进行波束扫描，并分别计算扫描方向特定频段的波束能量，然后根据扫描方向波束能量的大小来确定声源方向。

如图2所示，步骤S3包括以下步骤：

31)设定扫描方向θ_j及扫描频段[Kl，Kh]。

其中，根据精度和复杂度要求可设定扫描方向的个数，例如，设定扫描个数Sn为18，采用均匀扫描，则扫描方向表示为

j表示扫描方向索引。扫描频段可根据超增益固定波束滤波器波束效果较好的频段进行设计，如在300Hz到3500Hz频段内进行。

合理设计频段范围不仅可以提高定位精度，同时可以减少复杂度。频段起始频率Fl和终止频率Fh对应的频域索引Kl和Kh的计算方法如下所示，

Kl＝floor(Fl/Fs×N)

Kh＝floor(Fh/Fs×N)

其中floor()表示向下取整运算。

32)基于去除混响和平稳噪声的各个麦克风的频域信号，在各个扫描方向的扫描频段上进行波束滤波，并计算各个扫描方向的扫描频段上波束滤波后的能量值。

其中，各扫描方向上的波束形成方法采用超增益固定波束形成方法。各方向的超增益固定波束滤波器系数预先通过仿真计算获得，其中干扰噪声假设为散射噪声，白噪声增益的设置可根据需求进行设定。在实际计算过程中，将各方向的超增益固定波束滤波器系数存入文件，在算法进行初始化时可一次性读入内存。

具体地，在内存中读取扫描方向θ_j对应的超增益固定波束滤波器

基于去除混响和平稳噪声的各个麦克风的频域信号，对Kl和Kh频段进行波束滤波，并计算各个扫描方向对应的扫描频段上波束滤波后的能量值

33)计算各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和。

具体地，一定时间片即一定帧数内，时间片T大小的选择可根据声源移动的响应速度来设计，也就是假设声源不会发生大角度移动的时间范围。例如，设置T＝0.5秒，即假设0.5秒内声源不会发生大角度移动。该时间片所对应的帧数L＝floor(T×Fs/N)，进而各个扫描方向时间片内的波束频段能量和为

34)搜索各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和S(θ_j，l)中前三个能量大值对应的扫描方向。

具体地，采用θ_m1、θ_m2和θ_m3分别表示能量第一大值、第二大值和第三大值所对应的扫描方向。

35)对前三个能量大值对应的扫描方向进行平滑，获取唤醒方向。

其中，θ_Δ为预设最大误差角，当θ_m1、θ_m2和θ_m3彼此间的夹角小于θ_Δ时，进行平滑，否则不进行平滑。

具体地，包括以下步骤：

a、根据

对θ_m1和θ_m2进行平滑操作，得到θ₁₂；

b、根据

对θ₁₂和θ_m3进行平滑操作，得到唤醒方向θ_W，其中α为预设平滑系数，取值0到1之间，一般取靠近1，如0.94。

步骤S4、在主方向和唤醒方向基于去除混响和平稳噪声的各个麦克风的频域信号，获取主方向波束时域信号和唤醒方向波束时域信号；其中主方向为当前正在拾音的目标方向。

本发明采用的波束形成方法为超增益固定波束形成方法，与获取唤醒方向时采用的波束形成方法相同，不同的只是针对的频段不同。各方向的超增益固定波束滤波器系数预先通过仿真计算获得，其中干扰噪声假设为散射噪声，白噪声增益的设置可根据需求进行设定。

对于环形阵列来说，其方向的分辨率可根据环形麦克风的个数以及设计的固定波束宽度来决定。例如，当麦克风阵列中麦克风的个数为6个时，可选择每10度角设计一个超增益固定波束滤波器，这样360度需要设计36个超增益固定波束滤波器系数。设计好的超增益固定波束滤波器系数用W_θ(k，i)表示，其中θ表示超增益固定波束滤波器对应的目标方向。在实际计算过程中，将各方向的超增益固定波束滤波器系数存入文件，在算法进行初始化时可一次性读入内存。

具体地，主方向和唤醒方向分别用θ_I和θ_W表示，主方向和唤醒方向对应的超增益固定波束滤波器分别用

和

表示，则根据

对主方向上去除混响和平稳噪声的各个麦克风的频域信号进行频域波束滤波，得到主方向波束频域信号Y_I(k，l)；根据

对唤醒方向上去除混响和平稳噪声的各个麦克风的频域信号进行频域波束滤波，得到唤醒方向波束频域信号Y_W(k，l)；最后分别将主方向波束频域信号Y_I(k，l)和唤醒方向波束频域信号Y_W(k，l)进行短时反傅里叶变换，从而得到主方向波束时域信号x_I(n，l)和唤醒方向波束时域信号x_W(n，l)。

其中，主方向为当前正在拾音的目标方向，即上一个唤醒方向或初始化方向。

步骤S5、对各个麦克风的主方向波束时域信号进行语音识别；对各个麦克风的唤醒方向波束时域信号进行唤醒词识别，若识别为唤醒词，则将主方向更改为所获取的唤醒方向，并基于更改后的主方向上各个麦克风的的波束时域信号进行语音识别。

具体地，对各个麦克风的唤醒方向波束时域信号进行唤醒词识别时，采用现有常见的唤醒词识别技术，其输出为唤醒词存在标志Flag。当输出存在唤醒词即Flag为1时，则将主方向替换为当前唤醒方向；当输出存在唤醒词即Flag不为1时，则不变更主方向。具体算法如下式所示：

如图3所示，本发明的基于环形麦克风阵列的语音增强交互系统包括转换模块1、抑制模块2、第一获取模块3、第二获取模块4和语音识别模块5。

转换模块1用于将环形麦克风阵列中各个麦克风的时域信号转换为各个麦克风的频域信号。

抑制模块2与转换模块1相连，用于在频域对各个麦克风的频域信号进行混响抑制和平稳噪声抑制，得到去除混响和平稳噪声的各个麦克风的频域信号。

第一获取模块3与抑制模块2相连，用于基于去除混响和平稳噪声的各个麦克风的频域信号进行唤醒方向声源定位，获取唤醒方向。

如图2所示，第一获取模块3执行以下操作：

31)设定扫描方向θ_j及扫描频段[Kl，Kh]。

Kl＝floor(Fl/Fs×N)

Kh＝floor((Fh/Fs×N)

其中floor()表示向下取整运算。

(k，i)，基于去除混响和平稳噪声的各个麦克风的频域信号，对Kl和Kh频段进行波束滤波，并计算各个扫描方向对应的扫描频段上波束滤波后的能量值

具体地，包括以下步骤：

a、根据

对θ_m1和θ_m2进行平滑操作，得到θ₁₂；

b、根据

第二获取模块4和抑制模块2和第一获取模块3相连，用于在主方向和唤醒方向基于去除混响和平稳噪声的各个麦克风的频域信号，获取主方向波束时域信号和唤醒方向波束时域信号；其中主方向为当前正在拾音的目标方向。

和

表示，则根据

语音识别模块5与第二获取模块4相连，用于对各个麦克风的主方向波束时域信号进行语音识别；对各个麦克风的唤醒方向波束时域信号进行唤醒词识别，若识别为唤醒词，则将主方向更改为所获取的唤醒方向，并基于更改后的主方向上各个麦克风的的波束时域信号进行语音识别。

同时，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述基于环形麦克风阵列的语音增强交互方法。

其中，计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

如图4所示，本发明还的电子设备包括处理器41及存储器42；

存储器42用于存储计算机程序.

处理器41用于执行存储器42存储的计算机程序，以使所述电子设备执行上述基于环形麦克风阵列的语音增强交互方法。

综上所述，本发明的语音增强交互方法及系统、存储介质及电子设备通过设计主方向和唤醒方向两路波束信号来提高语音交互的稳定性，仅当干扰方向声源为唤醒词时才将正在进行语音识别的主方向切换为唤醒方向；将波束形成与声源定位相结合，即波束形成和声源定位使用相同的波束滤波器进行波束扫描；在声源定位中，通过有效频段扫描以及根据扫描能量大小进行多方向平滑的方法提高了声源定位在混响等复杂环境下的鲁棒性和准确性；由于波束滤波器为预先离线计算获得，扫描频段设置为较窄的有效波束频段，故计算复杂度相对较小，在实际嵌入式系统中可以有效地进行实时处理。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于环形麦克风阵列的语音增强交互方法，其特征在于：包括以下步骤：

将环形麦克风阵列中各个麦克风的时域信号转换为各个麦克风的频域信号；

在频域对所述各个麦克风的频域信号进行混响抑制和平稳噪声抑制，得到去除混响和平稳噪声的各个麦克风的频域信号；

基于所述去除混响和平稳噪声的各个麦克风的频域信号进行唤醒方向声源定位，获取唤醒方向；

在主方向和唤醒方向基于所述去除混响和平稳噪声的各个麦克风的频域信号，获取主方向波束时域信号和唤醒方向波束时域信号；所述主方向为当前正在拾音的目标方向；

对所述主方向波束时域信号进行语音识别；对所述唤醒方向波束时域信号进行唤醒词识别，若识别为唤醒词，则将主方向更改为所获取的唤醒方向，并基于更改后的主方向对应的主方向波束时域信号进行语音识别；

对环形麦克风阵列中各个麦克风的时域信号x_i(n)进行分帧加窗以及短时傅里叶变换，得到各个麦克风的频域信号X_i(k,l)，其中i表示第i个麦克风，n表示时域样点索引号，k表示频域样点索引号，l表示当前帧号，i取值为1～M的自然数，M为麦克风的个数；

获取所述唤醒方向包括以下步骤：

设定扫描方向θ_j及扫描频段[Kl,Kh]，其中

Sn为扫描个数；

基于去除混响和平稳噪声的各个麦克风的频域信号X′_i(k,l)，在各个扫描方向θ_j的扫描频段上进行波束滤波，并计算各个扫描方向对应的扫描频段上波束滤波后的能量值

其中

为扫描方向θ_j对应的超增益固定波束滤波器；

搜索各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和S(θ_j,l)中前三个能量大值对应的扫描方向；其中θ_m1、θ_m2和θ_m3分别表示能量第一大值、第二大值和第三大值所对应的扫描方向；

2.根据权利要求1所述的基于环形麦克风阵列的语音增强交互方法，其特征在于：对所述各个麦克风的频域信号X_i(k,l)进行混响抑制和平稳噪声抑制时，以交互空间的混响时间为先验知识，建立统计模型，进行后混响方差估计，同时采用最小值跟踪算法进行噪声估计；然后将估计得到的后混响方差和噪声方差作为输入，采用改进型最小均方误差方法计算语音增强增益G_i(k,l)，最后根据X′_i(k,l)＝X_i(k,l)×G_i(k,l)得到去除混响和平稳噪声的各个麦克风的频域信号X′_i(k,l)。

3.根据权利要求1所述的基于环形麦克风阵列的语音增强交互方法，其特征在于：对前三个能量大值对应的扫描方向进行平滑，获取唤醒方向θ_W包括以下步骤：

根据

根据

4.根据权利要求1所述的基于环形麦克风阵列的语音增强交互方法，其特征在于：获取主方向波束时域信号x_I(n,l)和唤醒方向波束时域信号x_W(n,l)时，包括以下步骤：

根据

对主方向上去除混响和平稳噪声的各个麦克风的频域信号X′_i(k,l)进行频域波束滤波，得到滤波后的主方向波束频域信号Y_I(k,l)；根据

对唤醒方向上去除混响和平稳噪声的各个麦克风的频域信号X′_i(k,l)进行频域波束滤波，得到滤波后的唤醒方向波束频域信号Y_W(k,l)；其中，

和

分别对主方向波束频域信号Y_I(k,l)和唤醒方向波束频域信号Y_W(k,l)进行短时反傅里叶变换，得到主方向波束时域信号x_I(n,l)和唤醒方向波束时域信号x_W(n,l)。

5.根据权利要求1或4所述的基于环形麦克风阵列的语音增强交互方法，其特征在于：所述超增益固定波束滤波器的系数预先通过仿真计算获得，其中干扰噪声假设为散射噪声，白噪声的增益根据需求进行设定。

6.一种基于环形麦克风阵列的语音增强交互系统，其特征在于：包括转换模块、抑制模块、第一获取模块、第二获取模块和语音识别模块；

语音识别模块用于对所述主方向波束时域信号进行语音识别；对所述唤醒方向波束时域信号进行唤醒词识别，若识别为唤醒词，则将主方向更改为所获取的唤醒方向，并基于更改后的主方向对应的主方向波束时域信号进行语音识别；

所述转换模块对环形麦克风阵列中各个麦克风的时域信号x_i(n)进行分帧加窗以及短时傅里叶变换，得到各个麦克风的频域信号X_i(k,l)，其中i表示第i个麦克风，n表示时域样点索引号，k表示频域样点索引号，l表示当前帧号，i取值为1～M的自然数，M为麦克风的个数；

所述第一获取模块执行以下操作：

设定扫描方向θ_j及扫描频段[Kl,Kh]，其中

Sn为扫描个数；

其中

为扫描方向θ_j对应的超增益固定波束滤波器；

7.根据权利要求6所述的基于环形麦克风阵列的语音增强交互系统，其特征在于：所述抑制模块对所述各个麦克风的频域信号X_i(k,l)进行混响抑制和平稳噪声抑制时，以交互空间的混响时间为先验知识，建立统计模型，进行后混响方差估计，同时采用最小值跟踪算法进行噪声估计；然后将估计得到的后混响方差和噪声方差作为输入，采用改进型最小均方误差方法计算语音增强增益G_i(k,l)，最后根据X′_i(k,l)＝X_i(k,l)×G_i(k,l)得到去除混响和平稳噪声的各个麦克风的频域信号X′_i(k,l)。

8.根据权利要求6所述的基于环形麦克风阵列的语音增强交互系统，其特征在于：对前三个能量大值对应的扫描方向进行平滑，获取唤醒方向θ_W包括以下步骤：

根据

根据

9.根据权利要求6所述的基于环形麦克风阵列的语音增强交互系统，其特征在于：所述第二获取模块执行以下操作：

根据

和

10.根据权利要求6或9所述的基于环形麦克风阵列的语音增强交互系统，其特征在于：所述超增益固定波束滤波器的系数预先通过仿真计算获得，其中干扰噪声假设为散射噪声，白噪声的增益根据需求进行设定。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至5中任一项所述基于环形麦克风阵列的语音增强交互方法。

12.一种电子设备，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行如权利要求1至5中任一项所述基于环形麦克风阵列的语音增强交互方法。