CN110111805A

CN110111805A - 远场语音交互中的自动增益控制方法、装置及可读存储介质

Info

Publication number: CN110111805A
Application number: CN201910358510.9A
Authority: CN
Inventors: 陈日林; 陈孝良; 冯大航
Original assignee: BEIJING WISDOM TECHNOLOGY Co Ltd
Current assignee: BEIJING WISDOM TECHNOLOGY Co Ltd; Beijing SoundAI Technology Co Ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-08-09
Anticipated expiration: 2039-04-29
Also published as: JP7333972B2; US20220215855A1; WO2020220625A1; CN110111805B; JP2022530903A

Abstract

本公开提供了一种远场语音交互中的自动增益控制方法、装置及可读存储介质，包括：区分远场语音信号中的目标信号和非目标信号；对所述目标信号和所述非目标信号分别计算增益，并得到当前帧远场语音信号相对于上一帧的增益改变量；当所述增益改变量大于预定阈值时，更新增益表；将当前帧的所述远场语音信号按照当前所述增益表处理，获取放大后的语音信号。本公开在对远场语音信号进行增益时，能够有效提高目标信号，减少非目标信号的增益。

Description

远场语音交互中的自动增益控制方法、装置及可读存储介质

技术领域

本公开涉及语音识别领域，尤其涉及一种远场语音交互中的自动增益控制方法、装置及可读存储介质。

背景技术

随着人工智能技术的发展，语音是识别技术也随之不断进步，语音识别技术已经运用于多个领域，例如语音助手、智能电视、智能音箱等。但是，语音识别技术的基础是如何获取优质的目标信号，即指令发出者的语音信号，优质的目标信号有利于提高对语音信号的语义识别的准确的。语音信号根据声源与麦克风阵列距离的远近，可以分为近场语音(near-fieldaudio)信号和远场语音(far-field audio)信号，而对于远场语音信号的识别存在诸多难点，例如，获取远场语音信号后如何进行增益。

AGC(Automatic Gain Control自动增益控制)用于根据语音信号的不同对语音信号的不同部分进行增益。但是已有的AGC方法大多是针对近场语音信号的增益，通过使用一个固定的增益因子来进行增益。因此，需要一种新的AGC方法来对远场语音信号进行增益，能够有效增益目标信号，减少对非目标信号的增益。

发明内容

(一)要解决的技术问题

本公开提供了一种远场语音交互中的自动增益控制方法，以至少部分解决以上所提出的技术问题。

(二)技术方案

根据本公开的一个方面，提供了一种远场语音交互中的自动增益控制方法，包括：

区分远场语音信号中的目标信号和非目标信号；

对所述目标信号和所述非目标信号分别计算增益，并得到当前帧的远场语音信号相对于上一帧的增益改变量；

当所述增益改变量大于预定阈值时，更新增益表；

识别将当前帧的所述远场语音信号，按照当前所述增益表进行处理，获取放大后的语音信号。

进一步的，区分远场语音信号中的目标信号和非目标信号包括：

对判断不同时间段的远场语音信号进行为人声信号的概率，根据概率判断结果区分目标信号和非目标信号，其中所述目标信号为人声信号，所述非目标信号为环境噪声信号；和/或

由每一路麦克风信号能量相对于整体信号能量所占的比例，获取每一帧该路麦克风采集的信号中目标信号与非目标信号的判断结果，其中所述目标信号为目标语音信号，所述非目标信号为干扰语音信号和/或干扰非语音信号；和/或

获取通过声学回声消除计算过程中的双讲判断结果判断目标信号与非目标信号，其中所述目标信号为近端语音信号，所述非目标信号为远端语音信号。

进一步的，所述判断不同时间段的远场语音信号进行为人声信号的概率，根据概率判断结果区分目标信号和非目标信号包括：

计算得到当前时间段的远场语音信号的概率密度p，并与预设的人声阈值比较，当所述概率密度p大于所述人声阈值，则判定为人声信号，否则判定为环境噪声信号。

进一步的，所述由每一路麦克风信号能量相对于整体信号能量所占的比例，获取每一帧该路麦克风采集的信号中目标信号与非目标信号的判断结果包括：

获取麦克风信号处理广义旁瓣对消器中的每一帧信号的状态值active_on，若所述状态值active_on＝1，则判定为目标语音信号；若所述状态值active_on＝0，则判定为干扰语音信号和/或干扰非语音信号。

进一步的，所述通过声学回声消除计算过程中的双讲判断结果判断目标信号与非目标信号包括：

获取麦克风采集的远场语音信号声学回声消除计算过程中每一帧信号的双讲判断结果double_talk，若所述double_talk＝1，则判定为近端语音信号；若所述double_talk＝0，则判定为远端语音信号。

进一步的，对所述目标信号和所述非目标信号分别进行增益处理，并得到每一帧远场语音信号相对于上一帧的增益改变量包括：

根据所述目标信号和所述非目标信号的判断结果，计算当前帧的增益，若为目标信号，则用于计算增益表的增益表计算参量gain取最大增益值，若为非目标信号则所述增益表计算参量gain取最小增益值，并获取当前帧的增益与前一帧增益之间的差值作为增益改变量。进一步的，包括：

获取当前帧的增益gain_cur(t)＝α*gain_cur(t-1)+(1-α)*gain，

Δgain＝gain_cur(、t)-gain_cur(、t-1)，

其中，t为帧数，α为平滑系数，gain_cur(t-1)为前一帧的增益，Δgain为增益改变量，gain为用于计算增益表的增益表计算参量，若当前远场语音信号为目标语音，gain＝gain_max；若当前远场语音信号为非目标语音，gain＝gain_min；其中gain_max为最大增益值，gain_min为最小增益值。

进一步的，所述最大增益值大于1，所述最小增益值为1或小于1。

进一步的，当所述增益改变量大于预定阈值时，更新增益表包括：

设定一预定阈值，若当前帧的增益与前一帧增益的差值大于该预定阈值时，所述增益表根据能量进行计算更新，再将前一帧增益值设置为当前帧增益。

进一步的，增益改变量Δgain＞a时，更新增益表，更新增益表后，令gain_cur(t-1)＝gain_cur(t)，其中，a为预定阈值，gain_cur(t)为当前帧增益，gain_cur(t-1)为前一帧的增益。

根据本公开的另一个方面，提供了一种远场语音交互中的自动增益控制装置，其中，包括依次连接的：

判断单元，用于区分远场语音信号中的目标信号和非目标信号；

增益计算单元，用于对所述目标信号和所述非目标信号分别计算增益，并得到当前帧的远场语音信号相对于上一帧的增益改变量；

增益表更新单元，用于当所述增益改变量大于预定阈值时，更新增益表；

放大处理单元，用于识别将当前帧的所述远场语音信号，按照当前所述增益表进行处理，获取放大后的语音信号。

进一步的，所述判断单元包括：

第一判断单元，用于通过对判断不同时间段的远场语音信号进行为人声信号的概率，根据概率判断结果区分目标信号和非目标信号，其中所述目标信号为人声信号，所述非目标信号为环境噪声信号；和/或

第二判断单元，用于通过由每一路麦克风信号能量相对于整体信号能量所占的比例，获取每一帧该路麦克风采集的信号中目标信号与非目标信号的判断结果，其中所述目标信号为目标语音信号，所述非目标信号为干扰语音信号和/或干扰非语音信号；和/或

第三判断单元，用于通过获取通过声学回声消除计算过程中的双讲判断结果判断目标信号与非目标信号，其中所述目标信号为近端语音信号，所述非目标信号为远端语音信号。

进一步的，第一判断单元计算得到当前时间段的远场语音信号的概率密度p，并与预设的人声阈值比较，当所述概率密度p大于所述人声阈值，则判定为人声信号，否则判定为环境噪声信号。

进一步的，第二判断单元获取麦克风信号处理广义旁瓣对消器中的每一帧信号的状态值active_on，若所述状态值active_on＝1，则判定为目标语音信号；若所述状态值active_on＝0，则判定为干扰语音信号和/或干扰非语音信号。

进一步的，第三判断单元获取麦克风采集的远场语音信号声学回声消除计算过程中每一帧信号的双讲判断结果double_talk，若所述double_talk＝1，则判定为近端语音信号；若所述double_talk＝0，则判定为远端语音信号。

进一步的，所述增益计算单元根据所述目标信号和所述非目标信号的判断结果，计算当前帧的增益，若为目标信号，则用于计算增益表的增益表计算参量取最大增益值，若为非目标信号则所述增益表计算参量取最小增益值，并获取当前帧的增益与前一帧增益之间的差值作为增益改变量。

进一步的，增益表更新单元包括一预定阈值，若当前帧的增益与前一帧增益的差值大于该预定阈值时，所述增益表根据能量进行计算更新，再将前一帧增益值设置为当前帧增益。

根据本公开的再一个方面，提供了一种可读存储介质，其中存储有可执行指令，所述可执行指令在由一个或多个处理器执行时，使所述一个或多个处理器执行如前所述的自动增益控制方法。

(三)有益效果

从上述技术方案可以看出，本公开远场语音交互中的自动增益控制方法至少具有以下有益效果其中之一：

(1)通过对远场语音信号进行增益时对目标信号与非目标信号区别增益，能够有效提高目标信号，减少非目标信号的增益，解决了现有增益控制方法只能针对语音信号的增益整体增益，不能针对远场语音信号中的目标信号和非目标信号的区别增益的问题；

(2)通过判断时域语音信号为人声信号的概率，区分出人声信号和非人声信号，使得人声信号被大幅增益，非人声信号未被增大，提升了后期语音识别准确性，尤其能够避免干扰信号混入造成的识别语音多字等现象；

(3)通过麦克风信号能量所占的比例，判断是否对该路麦克风的信号进行增益，由此所采集的远场语音信号中，目标信号被大幅增益，提升后期语义识别准确性；

(4)通过对AEC后的远场语音信号进行判断，如果没有人声残留，则不进行增益，后期语义识别，可以判断为无语音指令下达，有助于提高语义识别准确性，区别近端语音与远端语音的增益，提升语音信号质量。

附图说明

图1为本公开第一实施例远场语音交互中的自动增益控制方法的流程图。

图2为本公开第二实施例远场语音交互中的自动增益控制方法的算法流程图。

图3为本公开第三实施例远场语音交互中的自动增益控制方法的算法流程图。

图4为本公开第四实施例远场语音交互中的自动增益控制方法的算法流程图。

图5为本公开第五实施例远场语音交互中的自动增益控制装置的框图。

具体实施方式

针对现有增益控制方法只能针对语音信号的增益整体增益，不能针对远场语音信号中的目标信号和非目标信号的区别增益的问题，本公开提供了一种远场语音交互中的自动增益控制方法，在对远场语音信号进行增益时，能够有效提高目标信号，减少非目标信号的增益，其中，目标信号为指令发出者的语音信号，非目标信号包括但不限于扬声器自身播放的音频信号，环境中存在的语音信号，环境中的非语音信号。

在描述问题的解决方案之前，先定义一些特定词汇的定义是有帮助的。

AGC Automatic Gain Control自动增益控制

AEC Acoustic Echo Cancellation声学回声消除

GSC Generalized Sidelobe Cancellation广义旁瓣对消器

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

本公开某些实施例于后方将参照所附附图做更全面性地描述，其中一些但并非全部的实施例将被示出。实际上，本公开的各种实施例可以由许多不同形式实现，而不应被解释为限于此处所阐述的实施例；相对地，提供这些实施例使得本公开满足适用的法律要求。

在本公开的一个示例性实施例中，提供了一种远场语音交互中的自动增益控制方法，图1为本公开第一实施例远场语音交互中的自动增益控制方法的流程图。如图1所示，本公开的远场语音交互中的自动增益控制方法，包括：

区分远场语音信号中的目标信号和非目标信号；其中，目标信号为指令发出者的语音信号，非目标信号包括但不限于扬声器自身播放的音频信号，环境中存在的语音信号，环境中的非语音信号。

获取目标信号和非目标信号的判断结果后，需要对所述目标信号和所述非目标信号分别进行计算增益，当判断当前为目标信号时，计算增益表的增益表计算参量取最大增益值，该最大增益值大于1；当判断当前为非目标信号时，计算增益表的增益表计算参量取最小增益值，该最小增益值为1或小于1。

计算当前帧的增益后，求取当前帧远场语音信号相对于上一帧的增益改变量。为了防止采集的信号存在波动导致频繁更新增益表的情况，设定一预定阈值与所述增益改变量进行比较。只有当所述增益改变量大于预定阈值时，更新增益表；否则采用旧的增益表。

将当前帧的所述远场语音信号按照当前所述增益表处理，获取放大后的语音信号由此，在对远场语音信号进行增益时，能够有效放大目标信号，减少非目标信号的增益，该种对目标信号与非目标信号进行区别的增益方法，能够提升语音信号质量。

在本公开的第二个示例性实施例中，提供了一种远场语音交互中的自动增益控制方法，根据语音概率更新增益。不同时间范围内的远场语音信号可以分为人声信号和环境噪声信号，其中，该种场景下对目标信号与非目标信号进行了简化，假设采集信号中仅包含指令者的讲话声及环境噪声，即采用人声信号为目标信号，环境噪声信号为非目标信号。对于此类远场语音信号，可以对不同时间段的语音信号进行概率判断，利用语音存在概率对不同能量的增益表进行更新操作。

具体地，判断方法包括，通过判断某一时间段内的远场语音信号为人声信号的概率密度是否大于人声阈值，该人声阈值为一预设值，当采集的信号为人声时概率密度较大，否则概率密度较小，因此根据经验设置一临界值作为人声阈值。如果大于人声阈值，则对该时间段内的语音信号进行最大增益；如果小于或等于人声阈值，则对该时间段内的语音信号减小最大增益。

图2为本公开第二实施例远场语音交互中的自动增益控制方法的算法流程图。如图2所示，本公开远场语音交互中的自动增益控制方法包括：

S101，对不同时间段的远场语音信号进行概率密度计算，所述概率密度包括所述远场语音信号为人声信号的概率和/或所述远场语音信号为非人声信号的概率；

S102，判断某一时间段内的远场语音信号为人声信号的概率是否大于预设的人声阈值p_th，如果大于人声阈值，则对该时间段内的语音信号进行最大增益；如果小于或等于人声阈值p_th，则对该时间段内的语音信号进行最小增益；

S103，进行增益平滑，判断增益改变量是否满足大于预定阈值，若满足则更新增益表，否则采用原增益表；

S104，将当前帧的所述远场语音信号按照当前所述增益表进行处理，获取放大后的语音信号。

具体地，所述步骤S101包括：计算得到当前信号的概率密度p。

所述步骤S102包括：

当所述概率密度p＞p_th时，gain＝gain_max，当p＜p_th时，gain＝gain_min，此时当前的增益gain_cur(t)＝α*gain_cur(t-1)+(1-α)*gain；

其中，t为帧数，p_th为人声阈值，gain_max为最大增益值，gain_min为最小增益值，α为平滑系数，其取值为一个经验值，gain_cur(t-1)为前一帧的增益。

所述步骤S103包括：

增益改变量Δgain＝gain_cur(t)-gain_cur(t-1)，当Δgain＞a，此时更新增益表，更新增益表后，令gain_cur(t-1)＝gain_cur(t)，其中，Δgain为增益改变量，a为预定的改变阈值。增益表根据能量进行计算，得到不同能量对应的增益。

本实施例中，通过判断时间段内远场语音信号是否为人声信号的概率，区分出人声信号和非人声信号，使得人声信号被大幅增益，而非人声信号未被增大，提升了后期语音识别准确性，特别是避免了干扰信号混入造成的识别语音多字等现象。

在本公开的第三个示例性实施例中，提供了一种远场语音交互中的自动增益控制方法，根据目标与干扰判断结果更新增益。远场语音信号使用麦克风阵列进行采集，在麦克风信号阵列信号处理中需要对靠近指令者的目标语音信号和距离指令者较远的干扰信号进行区别，此时目标信号为靠近指令者的目标语音信号，而非目标指令为距离指令者较远的干扰语音。区分不同时刻的信号是干扰信号还是目标信号，利用其判断结果，可以实现对目标信号增益提升，而干扰信号(包括语音信号或者非语音信号)的增益减小。

具体地，通过麦克风信号能量相对于整体信号能量所占的比例，判断是否对该路麦克风的信号进行增益。对于远场信号，信号的能量具有方向性，越靠近传播方向，麦克风采集信号所占的能量比例约大，此时采集的信号更接近用户的语音指令，增益该信号有助于后期的语义识别；远离传播方向，麦克风采集信号所占能量比例较小，此时信号中的噪声较多，可以不进行增益。

图3为本公开第三实施例远场语音交互中的自动增益控制方法的算法流程图。如图3所示，本实施例远场语音交互中的自动增益控制方法包括：

S201，获取麦克风信号处理广义旁瓣对消器GSC中的每一帧目标语音与非目标语音的判断结果；

S202，根据所述判断结果，若当前为目标语音信号主导，则对所述麦克风信号进行最大增益；若当前为非目标语音信号主导，则对所述麦克风信号进行最小增益；

S203，进行增益平滑，判断增益改变量是否满足大于预定阈值，若满足则更新增益表，否则采用原增益表；

S204，将当前帧的所述远场语音信号按照当前所述增益表进行处理，获取放大后的语音信号。

具体地，所述步骤S201包括，在麦克风信号处理GSC中，会得到每一帧信号为目标语音与非目标语音的状态值active_on，该状态值active_on代表一路麦克风信号能量相对于于整体信号能量重要程度，其取值为1或者0。当active_on＝1时，表示当前目标语音主导，当active_on＝0时，表示当前非目标语音主导，即干扰信号主导，干扰信号包括干扰语音信号和干扰非语音信号。

所述步骤S202包括，当active_on＝1时，gain＝gain_max，当active_on＝0时，gain＝gain_min，此时当前的增益gain_cur(t)＝α*gain_cur(t-1)+(1-α)*gain。其中，t为帧数，gain_max为最大增益值，gain_min为最小增益值，α为平滑系数，其取值为一个经验值，gain_cur(t-1)为前一帧的增益。

所述步骤S203包括，令Δgain＝gain_cur(t)-gain_cur(t-1)，当Δgain＞a，此时更新增益表，更新增益表后，gain_cur(t-1)＝gain_cur(t)，其中，Δgain为增益改变量，a为预定的改变阈值。增益表根据能量进行计算，得到不同能量对应的增益。

本实施例中，通过一路麦克风信号能量于整体信号能量的比例，判断该路信号是否重要。如果重要，则增益大于1，如果不重要，则增益为1或小于1。由此所采集的远场语音信号中，目标信号被大幅增益，提升后期语义识别准确性。

在本公开的第四个示例性实施例中，提供了一种远场语音交互中的自动增益控制方法，根据双讲(double-talk)结果更新增益。在本实施例中，音箱在播放音乐的同时，用户发出指令，对于此时采集到的远场语音信号需要进行AEC(Acoustic Echo Cancellation，声学回声消除)。通过利用回声消除AEC中的double-talk判断结果，所述double-talk判断结果可以用于区分近端语音信号与远端语音信号，其中，近端语音信号指距离指令者较近的语音信号，而远端语音信号指远离指令者的信号。当判断为double-talk时，当前麦克风信号包含近端语音，此时增大增益，而非double-talk时当前麦克风信号不包含近端语音，只是扬声器播放的远端语音，增益取较小值。

图4为本公开第四实施例远场语音交互中的自动增益控制方法的算法流程图。如图4所示，本实施例远场语音交互中的自动增益控制方法包括：

S301，获取AEC计算过程中的双讲判断结果，通过该双讲判断结果确定当前信号为近端语音信号主导或远端语音信号主导；

S302，若当前为近端语音信号主导，则对所述麦克风信号进行最大增益；若当前为远端语音信号主导，则对所述麦克风信号进行最小增益；

S303，进行增益平滑，判断增益改变量是否满足大于预定阈值，若满足则更新增益表，否则采用原增益表；

S304，将当前帧的所述远场语音信号按照当前所述增益表进行处理，获取放大后的语音信号。

具体地，所述步骤S301包括，获取AEC计算过程中的双讲判断结果，double_talk＝1或者0，当double_talk＝1时，表示当前麦克风信号包含近端语音，当double_talk＝0时，表示当前麦克风信号不包含近端语音，只是扬声器播放的远端语音；

所述步骤S302包括，当double_talk＝1时，表示当前近端语音主导，gain＝gain_max，当double_talk＝0时，表示当前远端语音主导，gain＝gain_min，此时当前的增益gain_cur(t)＝α*gain_cur(t-1)+(1-α)*gain。其中，t为帧数，gain_max为最大增益值，gain_min为最小增益值，α为平滑系数，其取值为一个经验值，gain_cur(t-1)为前一帧的增益。

所述步骤S303包括，令Δgain＝gain_cur(t)-gain_cur(t-1)，当Δgain＞a，此时更新增益表，更新增益表后，gain_cur(t-1)＝gain_cur(t)，其中，Δgain为增益改变量，a为预定的改变阈值。增益表根据能量进行计算，得到不同能量对应的增益。

本实施例中，通过对AEC后的远场语音信号进行判断，判断AEC后信号中是否还有人声残留。AGC在AEC后进行，如果没有人声残留，则不进行增益，后期语义识别，可以判断为无语音指令下达，有助于提高语义识别准确性。本实施例的方法能够区分出指令者发出的语音信号与环境背景中的语音信号，并区别增益，提升语音信号质量。

需要说明的是，上述三种实施例的不同增益更新方式，根据需要可以灵活组合，选取其中的某一项，两项或者三项组合得到不同的增益更新。

本发明第五实施例提供了一种远场语音交互中的自动增益控制装置，包括依次连接的：

其中，所述判断单元包括：

其中，第一判断单元计算得到当前时间段的远场语音信号的概率密度p，并与预设的人声阈值比较，当所述概率密度p大于所述人声阈值，则判定为人声信号，否则判定为环境噪声信号。

第二判断单元获取麦克风信号处理广义旁瓣对消器中的每一帧信号的状态值active_on，若所述状态值active_on＝1，则判定为目标语音信号；若所述状态值active_on＝0，则判定为干扰语音信号和/或干扰非语音信号。

第三判断单元获取麦克风采集的远场语音信号声学回声消除计算过程中每一帧信号的双讲判断结果double_talk，若所述double_talk＝1，则判定为近端语音信号；若所述double_talk＝0，则判定为远端语音信号。

需要说明的是，上述三种实施例的不同判断单元，根据需要可以灵活组合。

所述增益计算单元根据所述目标信号和所述非目标信号的判断结果，计算当前帧的增益，若为目标信号，则用于计算增益表的增益表计算参量gain取最大增益值，若为非目标信号则所述增益表计算参量gain取最小增益值，并获取当前帧的增益与前一帧增益之间的差值作为增益改变量，所述最大增益值大于1，所述最小增益值为1或小于1。

增益表更新单元包括一预定阈值，若当前帧的增益与前一帧增益的差值大于该预定阈值时，所述增益表根据能量进行计算更新，再将前一帧增益值设置为当前帧增益。

本发明第五实施例提供了一种可读存储介质，其中，其可执行指令，所述可执行指令在由一个或多个处理器执行时，可以使所述一个或多个处理器采用如第一实施例至第四实施例所述的自动增益控制方法。

其中，所述存储器可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器还可以包括上述种类的存储器的组合。

至此，已经结合附图对本公开实施例进行了详细描述。需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

此外，除非特别描述或必须依序发生的步骤，上述步骤的顺序并无限制于以上所列，且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本公开也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本公开的内容，并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。

本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的相关设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且，在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。

类似地，应当理解，为了精简本公开并帮助理解各个公开方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，公开方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的单独实施例。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种远场语音交互中的自动增益控制方法，包括：

区分远场语音信号中的目标信号和非目标信号；

当所述增益改变量大于预定阈值时，更新增益表；

将当前帧的所述远场语音信号，按照当前所述增益表进行处理，获取放大后的语音信号。

2.根据权利要求1所述的自动增益控制方法，其中，区分远场语音信号中的目标信号和非目标信号包括：

判断不同时间段的远场语音信号进行为人声信号的概率，根据概率判断结果区分目标信号和非目标信号，其中所述目标信号为人声信号，所述非目标信号为环境噪声信号；和/或

通过声学回声消除计算过程中的双讲判断结果判断目标信号与非目标信号，其中所述目标信号为近端语音信号，所述非目标信号为远端语音信号。

3.根据权利要求2所述的自动增益控制方法，其中，所述判断不同时间段的远场语音信号进行为人声信号的概率，根据概率判断结果区分目标信号和非目标信号包括：

4.根据权利要求2所述的自动增益控制方法，其中，所述由每一路麦克风信号能量相对于整体信号能量所占的比例，获取每一帧该路麦克风采集的信号中目标信号与非目标信号的判断结果包括：

5.根据权利要求2所述的自动增益控制方法，其中，所述通过声学回声消除计算过程中的双讲判断结果判断目标信号与非目标信号包括：

6.根据权利要求1所述的自动增益控制方法，其中，对所述目标信号和所述非目标信号分别进行增益处理，并得到每一帧远场语音信号相对于上一帧的增益改变量包括：

根据所述目标信号和所述非目标信号的判断结果，计算当前帧的增益，若为目标信号，则用于计算增益表的增益表计算参量gain取最大增益值，若为非目标信号则所述增益表计算参量gain取最小增益值，并获取当前帧的增益与前一帧增益之间的差值作为增益改变量。

7.根据权利要求6所述的自动增益控制方法，包括：

获取当前帧的增益gain_cur(t)＝α*gain_cur(t-1)+(1-α)*gain，

Δgain＝gain_cur(t)-gain_cur(t-1)，

其中，t为帧数，αα为平滑系数，gain_cur(t-1)为前一帧的增益，Δgain为增益改变量，gain为用于计算增益表的增益表计算参量，若当前远场语音信号为目标语音，gain＝gain_max；若当前远场语音信号为非目标语音，gain＝gain_min；其中gain_max为最大增益值，gain_min为最小增益值。

8.根据权利要求6或7所述的自动增益控制方法，其中，所述最大增益值大于1，所述最小增益值为1或小于1。

9.根据权利要求1所述的自动增益控制方法，其中，当所述增益改变量大于预定阈值时，更新增益表包括：

10.根据权利要求9所述的自动增益控制方法，其中，包括：

当增益改变量Δgain＞a时，更新增益表，更新增益表后，令gain_cur(t-1)＝gain_cur(t)，其中，a为预定阈值，gain_cur(t)为当前帧增益，gain_cur(t-1)为前一帧的增益。

11.一种远场语音交互中的自动增益控制装置，其中，包括依次连接的：

12.根据权利要求11所述的自动增益控制装置，其中，所述判断单元包括：

13.根据权利要求12所述的自动增益控制装置，其中，第一判断单元计算得到当前时间段的远场语音信号的概率密度p，并与预设的人声阈值比较，当所述概率密度p大于所述人声阈值，则判定为人声信号，否则判定为环境噪声信号。

14.根据权利要求12所述的自动增益控制装置，其中，第二判断单元获取麦克风信号处理广义旁瓣对消器中的每一帧信号的状态值active_on，若所述状态值active_on＝1，则判定为目标语音信号；若所述状态值active_on＝0，则判定为干扰语音信号和/或干扰非语音信号。

15.根据权利要求12所述的自动增益控制装置，其中，第三判断单元获取麦克风采集的远场语音信号声学回声消除计算过程中每一帧信号的双讲判断结果double_talk，若所述double_talk＝1，则判定为近端语音信号；若所述double_talk＝0，则判定为远端语音信号。

16.根据权利要求11所述的自动增益控制装置，其中，所述增益计算单元根据所述目标信号和所述非目标信号的判断结果，计算当前帧的增益，若为目标信号，则用于计算增益表的增益表计算参量取最大增益值，若为非目标信号则所述增益表计算参量取最小增益值，并获取当前帧的增益与前一帧增益之间的差值作为增益改变量。

17.根据权利要求11所述的自动增益控制装置，其中，增益表更新单元包括一预定阈值，若当前帧的增益与前一帧增益的差值大于该预定阈值时，所述增益表根据能量进行计算更新，再将前一帧增益值设置为当前帧增益。

18.一种可读存储介质，其中存储有可执行指令，所述可执行指令在由一个或多个处理器执行时，使所述一个或多个处理器执行如权利要求1-10任一项所述的方法。