CN114613381A

CN114613381A - 终端设备、终端设备插件、片上系统和相关方法

Info

Publication number: CN114613381A
Application number: CN202011404544.6A
Authority: CN
Inventors: 吴泽先
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2022-06-10

Abstract

本公开实施例提供了一种终端设备、终端设备插件、片上系统和相关方法。该终端设备包括：第一传声器；第二传声器；波束成形器，用于将第一信号和第二信号之间的时延补齐后进行叠加，成为波束成形信号，所述第一信号是所述第一传声器接收到的信号，所述第二信号是所述第二传声器接收到的信号；频点部分处理单元，用于将所述第一信号和所述第二信号分成频域中的频点部分，对各频点部分进行处理，以增强所述波束成形信号中的语音。本公开提高了具有传声器阵列的终端设备的语音增强效果。

Description

终端设备、终端设备插件、片上系统和相关方法

技术领域

本公开涉及电子领域，更具体而言，涉及一种终端设备、终端设备插件、片上系统和相关方法。

背景技术

自动语音识别(ASR)是将人的语音识别为文本的技术，广泛用于机器人对话、智能家居、音箱、声控应用(APP)等领域。例如，对于音箱来说，一般要求用户说出特定词，音箱识别出特定词之后开始工作。再例如，对于智能家居中的智能冰箱来说，智能冰箱识别出用户说出的“打开冰箱”、“关上冰箱”等指令，执行相应动作。近年来，上述诸如音箱、智能家居等的终端设备经常采用传声器阵列来收集用户的声音，识别出唤醒该终端设备工作的语音。常见的传声器阵列是双传声器阵列。为了增强语音的识别效果，需要语音增强。一种典型的语音增强算法是波束成形。最为广泛的波束成形算法是延迟求和。即，对两个传声器采集到的语音信号进行时延补齐，然后将补齐后信号进行叠加。由于双传声器阵列的波束成形的语音增强效果有限，通常在上述波束成形之后加上一个后置滤波。

传统意义上的后置滤波是通过假设信号与噪声不相关，然后进行信号与噪声的功率谱估计，从而在波束成形信号上实现维纳滤波。这种算法对假设的要求比较高。在智能终端设备的实际使用环境中，信号与噪声通常存在很强的相关性，延迟求和波束成形后并没有消除相干噪声，因而增强效果很差。

发明内容

有鉴于此，本公开旨在提高双传声器终端设备的语音增强效果。

为了达到这个目的，根据本公开的一方面，本公开提供一种终端设备，包括：

第一传声器；

第二传声器；

波束成形器，用于将第一信号和第二信号之间的时延补齐后进行叠加，成为波束成形信号，所述第一信号是所述第一传声器接收到的信号，所述第二信号是所述第二传声器接收到的信号；

频点部分处理单元，用于将所述第一信号和所述第二信号分成频域中的频点部分，对各频点部分进行处理，以增强所述波束成形信号中的语音。

可选地，所述对各频点部分进行处理包括：

确定所述第一信号和所述第二信号在频点的修正后相位差；确定所述修正后相位差是否满足第一预定条件；如果不满足第一预定条件，将该频点部分进行抑制。

可选地，所述第一预定条件包括：所述修正后相位差小于第一阈值；所述抑制包括：滤除该频点部分。

可选地，所述第一预定条件包括：所述修正后相位差小于第一阈值；所述抑制包括：如果所述修正后相位差在所述第一阈值和第二阈值之间，则将所述频点部分衰减预定比率；如果所述修正后相位差大于第二阈值之间，则将所述频点部分滤除，其中，所述第二阈值大于所述第一阈值。

可选地，所述确定所述第一信号和所述第二信号在频点的修正后相位差，包括：

确定所述第一信号和所述第二信号的相位角的差；

确定所述第一信号和所述第二信号的时延；

用所述相位角的差减去该频点的角频率与所述时延的积，得到所述修正后相位差。

可选地，所述确定所述第一信号和所述第二信号的相位角的差，包括：

根据所述第一信号和所述第二信号变换到频域后的实部和虚部，分别确定所述第一信号的相位角和所述第二信号的相位角；

将所述第一信号的相位角和所述第二信号的相位角相减，得到所述相位角的差。

可选地，所述确定所述第一信号和所述第二信号的时延，包括：

获取候选时延集合；

针对候选时延集合中的候选时延，用所述相位角的差减去该频点的角频率与所述候选时延的积，得到候选修正后相位差，如果确定频点的所述候选修正后相位差不满足第二预定条件，将所述波束成形信号的该频点部分进行抑制，并将抑制后的波束成形信号输入先验语音识别模型，由所述先验语音识别模型输出识别出特定词的概率；

将候选时延集合中所述先验语音识别模型输出概率最大的候选时延，作为确定的时延。

可选地，该终端设备还包括：识别单元，用于对所述频点部分处理单元输出的信号进行语音识别。

可选地，该终端设备还包括：处理器，用于根据语音识别结果，执行相应动作。

可选地，所述终端设备包括音箱，所述相应动作包括开启所述音箱。

根据本公开的一方面，提供了一种终端设备，包括：

基准传声器，接收到第一信号；

多个其它传声器，分别接收到第二信号；

波束成形器，用于将各第二信号相比于第一信号的时延补齐，将各时延补齐后的第二信号与第一信号叠加，成为波束成形信号；

频点部分处理单元，用于将所述第一信号和第二信号分成频域中的频点部分，对各频点部分进行处理，以增强所述波束成形信号中的语音。

可选地，所述对各频点部分进行处理包括：

确定所述第一信号和各第二信号在频点的修正后相位差；确定确定的各修正后相位差的平均值是否满足第一预定条件；如果不满足第一预定条件，将该频点部分进行抑制。

根据本公开的一方面，提供了一种终端设备插件，用于插接在具有第一传声器、第二传声器和波束成形器的终端设备，所述波束成形器用于将第一信号和第二信号之间的时延补齐后进行叠加，成为波束成形信号，所述第一信号是所述第一传声器接收到的信号，所述第二信号是所述第二传声器接收到的信号，所述终端设备插件包括：

根据本公开的一方面，提供了一种终端设备插件，用于插接在具有基准传声器、多个其它传声器和波束成形器的终端设备，所述基准传声器接收到第一信号，所述多个其它传声器分别接收到第二信号，所述波束成形器将各第二信号相比于第一信号的时延补齐，将各时延补齐后的第二信号与第一信号叠加，成为波束成形信号，所述终端设备插件包括：频点部分处理单元，用于将所述第一信号和所述第二信号分成频域中的频点部分，对各频点部分进行处理，以增强所述波束成形信号中的语音。

根据本公开的一方面，提供了一种片上系统，与终端设备的第一传声器和第二传声器的输入及终端设备的波束成形器的输出连接，所述波束成形器用于将第一信号和第二信号之间的时延补齐后进行叠加，成为波束成形信号，所述第一信号是所述第一传声器接收到的信号，所述第二信号是所述第二传声器接收到的信号，所述片上系统包括：频点部分处理单元，用于将所述第一信号和所述第二信号分成频域中的频点部分，对各频点部分进行处理，以增强所述波束成形信号中的语音。

可选地，所述对各频点部分进行处理包括：确定所述第一信号和所述第二信号在频点的修正后相位差；确定所述修正后相位差是否满足第一预定条件；如果不满足第一预定条件，将该频点部分进行抑制。

可选地，该片上系统还包括：识别单元，用于对所述频点部分处理单元输出的信号进行语音识别。

根据本公开的一方面，提供了一种片上系统，与终端设备的基准传声器和多个其它传声器的输入及终端设备的波束成形器的输出连接，所述基准传声器接收到第一信号，所述多个其它传声器分别接收到第二信号，所述波束成形器将各第二信号相比于第一信号的时延补齐，将各时延补齐后的第二信号与第一信号叠加，成为波束成形信号，所述片上系统包括：频点部分处理单元，用于将所述第一信号和第二信号分成频域中的频点部分，对各频点部分进行处理，以增强所述波束成形信号中的语音。

可选地，所述对各频点部分进行处理包括：确定所述第一信号和各第二信号在频点的修正后相位差；确定确定的各修正后相位差的平均值是否满足第一预定条件；如果不满足第一预定条件，将该频点部分进行抑制。

根据本公开的一方面，提供了一种终端设备音频处理方法，其中，所述终端设备具有第一传声器和第二传声器，所述方法包括：

将第一信号和第二信号之间的时延补齐后进行叠加，成为波束成形信号，所述第一信号是所述第一传声器接收到的信号，所述第二信号是所述第二传声器接收到的信号；

将所述第一信号和所述第二信号分成频域中的频点部分；

对各频点部分进行处理，以增强所述波束成形信号中的语音。

可选地，所述对各频点部分进行处理，包括：

确定所述第一信号和所述第二信号在频点的修正后相位差；

确定所述修正后相位差是否满足第一预定条件；

如果不满足第一预定条件，将该频点部分进行抑制。

根据本公开的一方面，提供了一种终端设备音频处理方法，其中，所述终端设备具有基准传声器和多个其它传声器，所述基准传声器接收到第一信号，所述多个其它传声器分别接收到第二信号，所述方法包括：

将各第二信号相比于第一信号的时延补齐，将各时延补齐后的第二信号与第一信号叠加，成为波束成形信号；

将所述第一信号和第二信号分成频域中的频点部分；

本公开实施例采用时频掩蔽方法，即将传声器接收到的信号的频域划分成各个频点部分，对各频点部分分别处理。如果在该频点声源信号占主导，则将信号的该频点的部分保留。如果在该频点噪声占主导，则抑制信号的该频点的部分。这样分频点地保留或者抑制，相比于整个信号一起保留或抑制，能更精细地抑制噪声的影响，有助于提高语音增强效果。

附图说明

通过参考以下附图对本公开实施例的描述，本公开的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1A是根据本公开一个实施例的双传声器阵列终端设备的外观图；

图1B是根据本公开一个实施例的多传声器阵列终端设备的外观图；

图2A是根据本公开一个实施例的双传声器阵列终端设备的结构图；

图2B是根据本公开一个实施例的双传声器阵列终端设备的结构图；

图3是根据本公开一个实施例的在不同信噪比下的修正后相位差的概率密度函数曲线；

图4是示出了采用不同滤波策略时多个试验的终端设备唤醒率的表格；

图5是根据本公开一个实施例的双传声器阵列终端设备音频处理方法的流程图；

图6是根据本公开一个实施例的多传声器阵列终端设备音频处理方法的流程图。

具体实施方式

以下基于实施例对本公开进行描述，但是本公开并不仅仅限于这些实施例。在下文对本公开的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本公开。为了避免混淆本公开的实质，公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。

在本文中使用以下术语。

音箱：播放声音的箱体。在箱体上一般具有扬声器孔，声音从扬声器孔向外部播放。

传声器：将声音信号转换成电信号的能量转换器件。

唤醒：当识别出用户说出预定词或任何词后，使终端设备进入工作状态或启动某种功能。

唤醒率：当用户说出预定词或任何词后，终端设备能够正确识别到该预定词或任何词，使终端设备进入工作状态或启动某种功能的概率。它可以通过在试验中由用户说出若干次预定词或任何词，用终端设备正确识别出预定词的次数除以用户说出的总次数确定。

唤醒词：上述用户说出的、使终端设备进入工作状态或启动某种功能的预定词。例如，唤醒词为“hello,XX”或“请打开音箱”，当音箱识别出用户说出这些唤醒词后，开始工作或启动某项功能。

传声器阵列：在终端设备上部署的多个传声器组成的阵列，用于分别接收用户的声音信号(这些声音信号中可能含有用户说出的唤醒词)，用于后续处理，从而在后续处理中识别出用户是否说出了唤醒词或任何词，决定是否对终端设备唤醒。

波束成形：源于自适应天线的一个概念。接收端的信号处理，可以通过对多天线阵元接收到的各路信号进行处理合成，形成所需的理想信号。从天线方向图(pattern)视角来看，这样做相当于形成了规定指向上的波束。在多个规定指向上形成波束，就形成了多个方向的波束成形。

延迟求和：双传声器阵列的一种波束成形方式，即对两个传声器采集到的语音信号进行时延补齐，然后将补齐后信号进行叠加。

滤波：由于波束成形的语音增强效果有限，通常需要在波束成形之后进行滤波，从而进一步减少波束成形信号中的噪声，进一步增强语音。

时频掩蔽：将时域的语音信号转换为频域后，频域的语音信号可以分成一个个频点上的频点部分。每个频点部分中可能是声源信号占主导，也可能是噪声占主导。时域掩蔽就是指将频域的语音信号中那些噪声占主导的部分抑制，从而提高语音增强效果。

终端设备插件：安插在通用终端设备上，使终端设备具有某种特殊功能的附接设备。

片上系统：指的是在单个芯片上集成的一个完整的系统，其上对所有或部分必要的电子电路进行包分组。所谓完整的系统一般包括中央处理器(CPU)、存储器、以及外围电路等。对于语音处理来说，其可能还包括波束成形器、滤波单元等。

双传声器阵列终端设备实施例

图1A以音箱为例示出了双传声器阵列终端设备的外观图。本领域技术人员应当理解，该终端设备除了音箱之外，还可以是智能家居终端(如响应于人说出的控制语音进行空调各种调节动作的智能空调、响应于人说出的控制语音进行冰箱各种调节动作的智能冰箱、响应于人说出的语音命令而进行频道和声音大小调节的电视遥控器、响应于人说出的语音而自动响铃的智能门铃、响应于人说出的语音而验证开门的智能锁)、车载终端(如智能车机)、会议终端等。另外，本公开除了体现为终端设备外，还可以体现为片上系统(芯片)或插件，片上系统(芯片)或插件起到增强语音的作用，其插入上述通用音箱、智能家居终端、车载终端、会议终端等后，使上述通用音箱、智能家居终端、车载终端、会议终端等的语音增强，识别用户语音准确率更高。

如图1A所示，在音箱100的外表面设置有第一传声器111、第二传声器112，形成双传声器阵列。第一传声器111和第二传声器112用于分别接收声音信号(该声音信号包括声源信号传播到第一传声器111和第二传声器112处的信号和噪声信号)，从而转换成各自的电信号，以便音箱100对各电信号进行后续处理。另外，音箱100表面可能具有扬声器孔阵列(未示)。终端设备100被激活工作后播放的声音通过扬声器孔阵列输出。注意，上述第一传声器111和第二传声器112接收的声音信号仅用于终端设备100的唤醒(即使终端设备100开始工作)，终端设备100开始工作后播放的声音可能来源于内置的磁盘、或蓝牙传输的声音文件，并不一定是由第一传声器111、第二传声器112接收的声音。

如图2A所示，终端设备100内部还可以包括波束成形器120、滤波单元130、识别单元140和处理器150。

波束成形在音频处理领域是指对多个传声器接收到的信号合成处理，从而达到语音增强的作用。一种合成处理的方法是将信号之间的时延补齐后叠加。波束成形器130将第一信号和第二信号之间的时延补齐后进行叠加，成为波束成形信号。第一信号是所述第一传声器111接收到的信号，所述第二信号是所述第二传声器112接收到的信号。声源信号传播到第一传声器111的时间等于声源到第一传声器111的距离除以声速。声源信号传播到第二传声器112的时间等于声源到第二传声器112的距离除以声速。因此，声源信号传播到第一传声器111和第二传声器112的时延就等于声源到第一传声器111的距离与声源到第二传声器112的距离的差除以声速。在确定时延后，假设第二信号比第一信号晚，将第一信号延迟该确定的时延，得到第一延迟信号。将第一延迟信号与第二信号叠加，这样就相当于得到的信号的幅值大约提高到原来的2倍。这样，声源信号的幅度相当于得到了增强，起到了语音增强的作用。

由于波束成形的语音增强效果有限，通常需要在波束成形之后进行滤波，从而进一步减少波束成形信号中的噪声，进一步增强语音。传统意义上的滤波是通过假设信号与噪声不相关，然后进行信号与噪声的功率谱估计，从而在双传声器波束成形输出信号上实现维纳滤波。这种算法对假设的要求比较高，适合于信号与噪声不相关的环境。在智能终端设备的实际使用环境中，信号与噪声通常存在很强的相关性。通过上述方法滤波，语音增强效果很差。为了解决上述问题，本公开实施例改进滤波方案，在已求出准确的传播延时基础上，通过构建时延与波束成形输出信号的每个频点相位差的关系，以此为判断标准实现语音信号的二值时频掩蔽，从而实现语音增强。

将时域的语音信号转换为频域后，频域的语音信号可以分成一个个频点上的信号部分，即频点部分。每个频点部分中可能是声源信号占主导，也可能是噪声占主导。对于噪声占主导的那部分频点部分，可以进行抑制，例如直接滤除，或者按一定比例衰减。这样针对一个个频点抑制噪声多的频点部分的方式，相对于滤掉整个信号的方式，更容易提高有用信号的幅度，抑制噪声的幅度，从而增强波束成形信号中的语音。上述过程就是时域掩蔽，其通过频点部分处理单元130实现。

频点部分处理单元130在对各频点部分进行处理时，针对所述第一信号和所述第二信号在频域中的每个频点，确定所述第一信号和所述第二信号在该频点的修正后相位差。相位差一般是指两个信号在频域上的相位的差。但实际上两个信号是由同一声源信号传播到两个不同传声器造成的，声源信号到达两个传声器有时延，需要用时延修正频域上的相位相减造成的影响。修正该影响后的相位差叫做修正后相位差。

假设第一传声器111和第二传声器112的时延差为

只需要对其中一个传声器的信号进行时延(下面对第二传声器112的第二信号进行时延)，再将第一信号和第二信号进行求和取平均，即

其中z(t)为双传声器的波束成形输出信号，y₁(t)为第一信号，y₂(t)为第二信号。

对第一传声器111采集到的第一信号y₁(t)和第二传声器112采集到的第二信号y₂(t)进行傅里叶变换，即(省略衰减系数α)

Y₁(t,w)＝S(t,w)+N₁(t,w) (1-2)

其中，Y₁(t,w)是第一信号y₁(t)傅里叶变换到频域的频域信号，S(t,w)是声源信号变换到频域的结果。由于忽略声源信号传播到第一传声器111的衰减，即α＝1，声源信号传播到第一传声器111时仍然是S(t,w)，t代表时间帧，w代表角频率，w＝2πf，f是频点的频率，N₁(t,w)是在第一传声器111处的噪声信号的频域表示。Y₂(t,w)是第二信号y₂(t)傅里叶变换到频域的频域信号。由于相位的影响，声源信号传播到第二传声器112的相位比传播到第一传声器111的相位差了时延差为

因此声源信号传播到第二传声器112的信号变成

N₂(t,w)是在第二传声器112处的噪声信号的频域表示。

这样，可以确定第一信号和所述第二信号在该频点的修正后相位差θ(t,w)如下：

∠Y₁(t,w)是上述频域信号Y₁(t,w)的相位角，它可以根据Y₁(t,w)的实部和虚部确定。设Y₁(t,w)＝a+jb，Y₁(t,w)的相位角∠Y₁(t,w)等于arctan(b/a)。∠Y₂(t,w)是上述频域信号Y₂(t,w)的相位角，它可以根据Y₂(t,w)的实部和虚部确定。设Y₂(t,w)＝a+jb，Y₁(t,w)的相位角∠Y₂(t,w)等于arctan(b/a)。∠Y₁(t,w)-∠Y₂(t,w)是未经时延修正时的第一信号和第二信号的相位角的差。然而，信号到达第一传声器111和第二传声器112时是有时延的，因此单独进行相位差相减，并没有考虑到时延的影响。在公式1-4中，用所述相位角的差∠Y₁(t,w)-∠Y₂(t,w)减去该频点的角频率w与所述时延

的积，得到所述修正后相位差。w＝2πf，f是频点的频率。确定时延

的方法在下文中描述。

在没有噪声干扰的情况下，θ(t,w)应该为0，这是因为没有噪声干扰的情况下，第一信号和第二信号的相位角的差∠Y₁(t,w)-∠Y₂(t,w)应该正好是时延造成的，因此相位角的差∠Y₁(t,w)-∠Y₂(t,w)减掉时延的影响后正好为0。实际中，由于噪声的存在，θ(t,w)不为0，而是满足某种规律。利用θ(t,w)的数值，就可以评估在每个频点是声源信号占主导，还是噪声占主导。

在F.Mustiere,R.Nakagawa,K.Wojcicki,I.Merks和T.Zhang的"Dual-microphonephase-difference-based SNR estimation with applications to speechenhancement,"2016IEEE International Workshop on Acoustic Signal Enhancement(IWAENC),Xi'an,2016,pp.1-5,doi:10.1109/IWAENC.2016.7602935中，可以得到双传声器场景下，修正后相位差的概率密度函数为：

其中，θ即θ(t,w)，p_θ(θ)是θ的概率密度函数，参数g＝SNR/(1+SNR)，SNR代表信噪比。图3中示出了信噪比为20、10、0、-10、-20的情况下的p_θ(θ)随θ变化的曲线，其中全实线曲线代表信噪比为20的情况下p_θ(θ)随θ变化的曲线，由×连成的曲线代表信噪比为10的情况下p_θ(θ)随θ变化的曲线，由·连成的曲线代表信噪比为0的情况下p_θ(θ)随θ变化的曲线，由*连成的曲线代表信噪比为-10的情况下p_θ(θ)随θ变化的曲线，由+连成的曲线代表信噪比为-20的情况下p_θ(θ)随θ变化的曲线。随着SNR的提高，概率密度函数越来越集中，即在中心点0处的概率越大，斜率越陡。这说明频点信噪比越高，其对应的θ越可能处于0附近。当SNR＝0时，P_θ(|θ|≤u|u＝1)＝0.6538，这意味着满足此信噪比的每个频点的相位差修正值θ有0.6538的概率在[-1，1]以内；固定u(u为正数)不变，随着信噪比增大，θ落在这个区间的概率也随之增大；固定信噪比不变，随着u的增大，θ落在这个区间的概率也随之增大。

综合整个频域区间来看，高信噪比频点的θ会集中分布在0附近，而低信噪比的频点的θ会越容易远离0。因此，滤波单元130对于频域信号的某个频点，当固定上述u时，如果满足第一预定条件，则说明该频点的信噪比较大，该频点上声源信号占主导，就可以将波束成形信号的该频点的部分保留。所述第一预定条件可以是，所述修正后相位差的绝对值小于第一阈值，即|θ(t,w)|<u，其中u为第一阈值。u的常见取值可以是1等。如果不满足该第一预定条件，则说明该频点的信噪比较小，该频点上噪声占主导，就可以将波束成形信号的该频点的部分进行抑制。抑制的含义是衰减或完全滤除。在一个实施例中，如果满足第一预定条件，就可以将该频点部分完全滤除。在另一个实施例中，如果满足第一预定条件，还可以针对不同情况分别进行抑制。可以在修正后相位差超过第一阈值不算太多的情况下，认为该频点部分的噪声还可以适当忍受，即进行部分衰减，只有当超过第一阈值很多的情况下，进行完全滤除。可以设置第二阈值r，例如取值为π。如果所述修正后相位差在所述第一阈值u和第二阈值r之间，则将所述频点部分衰减预定比率(例如50％)；如果所述修正后相位差大于第二阈值r，则将所述频点部分完全滤除。

该第一预定条件除了|θ(t,w)|<u之外，也可以是非对称的预定条件，例如-u₁<θ(t,w)<u₂，u₁和u₂为正数。

当采用|θ(t,w)|<u时，h(t,w)为频域滤波系数，u为第一阈值，本公开实施例相当于提出了下列时频域滤波系数选择方案：

针对波束成形信号的频域变换后信号Z(t,w)的每个频点的部分，分别按照上述公式1-6计算出其相应的h(t,w)，即可以得到时频掩蔽后置滤波算法的增强信号X(t,w)，即如下公式：

即

X(t,w)＝h(t,w)Z(t,w) (1-7)

将X(t,w)进行反傅里叶变换，变换回时域，即得到了本公开实施例语音增强后的语音信号。

从上文中，可以看到第一阈值u的选取决定了本公开实施例的效果，其可以根据实际情况选取。当环境信噪比比较大，声源的方位的估计比较准确时，可以选择较小的第一阈值u，使得语音增强效果进一步提升。当环境信噪比比较小时，可以选择较大的第一阈值u，保证不会因为错误的方位估计而导致信号的频点被错误分类。

上述讨论建立在第一信号和所述第二信号之间的时延

已知的情况下。但实际上，时延并不容易准确估计，因此，本公开实施例提出一种基于先验语音模型和二值时频掩蔽滤波算法的时延估计方案。

下面讨论上述第一信号和所述第二信号之间的时延

的确定过程。

首先，获取候选时延集合。候选时延即第一信号和所述第二信号之间的时延的可能取值的离散点。表面上，候选时延的取值的可能是无限的，但实际上是有限的。其原因是，如上所述，声源信号传播到第一传声器111和第二传声器112的时延就等于声源到第一传声器111的距离与声源到第二传声器112的距离的差除以声速，而根据三角形两边之差小于第三边的原理，声源到第一传声器111的距离与声源到第二传声器112的距离的差不大于第一传声器111和第二传声器112的距离。因此，时延的最大值是第一传声器111和第二传声器112的距离除以声速。由于第一传声器111和第二传声器112之间的距离一般比较小，而作为时延与采样频率的乘积的时延对应采样点数只能是整数，因此，可以先用第一传声器111和第二传声器112的距离除以声速这个时延最大值乘以该频点的采样频率，得到最大时延点数(使用点数必须是整数，因此，如果乘以采样频率的乘积不是整数，应该取整，得到最大时延点数)。然后，不大于该最大时延点数的所有正整数都有可能是要取的时延点数。例如，最大时延点数是10，则1，2，3……10都是有可能要取的时延点数。将这些不大于所述最大时延点数的正整数换算回相应的时延，即各自除以采样频率，得到的时延作为候选时延集合中的候选时延。

然后，针对候选时延集合中的每个候选时延，重复如上所述的二值时频掩蔽滤波的过程。即，针对候选时延集合中的每个候选时延，用所述第一信号和所述第二信号在该频点的修正后相位差减去该频点的角频率与所述候选时延的积，得到候选修正后相位差。然后，判定所述候选修正后相位差是否满足第二预定条件。所述第二预定条件可以是，所述候选修正后相位差的绝对值小于第三阈值，即|θ(t,w)|<w，其中w是第三阈值。w的值例如为1。如果满足第二预定条件，将所述波束成形信号的该频点的部分保留。如果不满足第二预定条件，将所述波束成形信号的该频点部分抑制。如上所述，一种抑制可以是完全滤除，另一种抑制可以是设置一个比w大的第四阈值v。如果w≦|θ(t,w)|<v，则进行部分衰减(例如衰减掉50％)；如果|θ(t,w)|≥v，则将其完全滤除。这样，完成了时频掩蔽滤波。然后，将完成了时频掩蔽滤波的信号输入一个事先训练的先验语音识别模型，由所述先验语音识别模型输出识别出特定词的概率，即唤醒率。

可以让上述选取的第三阈值w小于选取的第一阈值u。这是因为，第三阈值w仅仅是为了筛选出合适时延，并不是最终的频点分类，此时采用过高的第三阈值w不利于筛选的效率。但第一阈值u是用于最终的频点分类和滤除，太小的第一阈值u容易导致信号的频点被错误分类。

所述先验语音识别模型是这样一个预定训练好的语音识别模型，它可以采用混合高斯模型等。可以采用纯净唤醒词样本集合训练该语音识别模型。纯净唤醒词即传声器接收到的只有声源发出的唤醒词语音信号，没有噪声信号。将不含有噪声的用户说出的唤醒词的声音信号样本输入语音识别模型，由语音识别模型给出语音识别出的文本，再与已知该声音信号样本对应的文本进行比对。如果一致，则认为正确唤醒。如果不一致，则认为未正确唤醒。整个集合中所有样本输入该语音识别模型后，语音识别模型正确唤醒的次数占所有样本的个数的比率就是唤醒率。如果该唤醒率高于预定唤醒率阈值(例如95％)，则认为该先验语音识别模型训练成功。将任何一个带有用户语音的信号输入该模型，就能得出识别出的文本是否是特定词的概率，即唤醒率。由于对候选时延集合中每个候选时延都得到一个相应的唤醒率，最后就可以找到一个唤醒率最大的候选时延，作为确定的时延。基于先验语音模型找到的时延更加准确，能够提升本公开实施例的语音增强效果。本公开实施例提出了一种基于先验语音模型与改进的后置滤波算法的声源估计方案，从而保证语音增强性能。

图4是示出了采用不同滤波策略时多个试验的终端设备唤醒率的表格。当进入第一传声器111和第二传声器112的信号是纯声源信号，没有任何噪声，且终端设备不做任何附加的音频处理时，在5个试验中，识别单元140的唤醒率分别是57％、75.8％、83.6％、90.8％，平均唤醒率为76.8％；当进入第一传声器111和第二传声器112的信号是掺杂有噪声的声源信号，且终端设备除了不做任何附加的音频处理时，在5个试验中，识别单元140的唤醒率分别是9.6％、10.6％、15.4％、33.4％，平均唤醒率为17.3％；当进入第一传声器111和第二传声器112的信号是掺杂有噪声的声源信号，且终端设备对第一和第二传声器111和112接收的信号进行延迟求和(DS)的波束成形算法，以及传统广义互相关(GCC)算法求时延时，识别单元140的唤醒率分别是14.0％、11.4％、15.8％、30.4％，平均唤醒率为17.9％；当进入第一传声器111和第二传声器112的信号是掺杂有噪声的声源信号，且终端设备对第一和第二传声器111和112接收的信号进行延迟求和(DS)的波束成形算法，以及利用上述先验语音识别模型求时延时，识别单元140的唤醒率分别是18.2％、18.6％、18.6％、40.0％，平均唤醒率为23.9％；当进入第一传声器111和第二传声器112的信号是掺杂有噪声的声源信号，且终端设备对第一和第二传声器111和112接收的信号进行延迟求和(DS)的波束成形算法，以及传统的广义互相关(GCC)算法求时延，并利用本公开实施例的时频掩蔽方法进行后置滤波(PF)时，识别单元140的唤醒率分别是13.6％、13.4％、16.4％、30.6％，平均唤醒率为18.5％；当进入第一传声器111和第二传声器112的信号是掺杂有噪声的声源信号，且终端设备对第一和第二传声器111和112接收的信号进行延迟求和(DS)的波束成形算法，以及本公开实施例的先验语音识别模型求时延，并利用本公开实施例的时频掩蔽方法进行后置滤波(PF)时，识别单元140的唤醒率分别是46.8％、31.6％、76.2％、89.6％，平均唤醒率为57.6％。

从图4中明显可看出，用先验语音识别模型估计时延，使得不论是延迟求和(DS)算法还是延迟求和(DS)+后置滤波算法(PF)处理后的数据的唤醒率都提升，这表示其时延估计相较广义互相关算法(GC)准确。在加上后置滤波(PF)后，延迟求和(DS)+后置滤波(PF)+先验语音识别模型的唤醒率相较延迟求和(DS)+先验语音识别模型显著提升，反映了时频掩蔽后置滤波(PF)算法的性能优势。

识别单元140对所述滤波单元130输出的信号进行语音识别。识别单元140中可以采用一个语音识别模型。它是一个机器学习模型，其可以预先通过以下方式训练：事先构造声音信号样本集，其中的每个声音信号样本预先已知对应有一个用户说出的词标签；将声音信号样本集中的每个声音信号样本输入该机器学习模型，由所述机器学习模型识别该样本中用户说出的词，如识别的词与词标签一致，则确定成功；如果所述声音信号样本集中由该机器学习模型确定成功的比率超过预定比率(例如95％)，认为所述机器学习模型训练成功；否则，调整机器学习模型中的系数，直到所述声音信号样本集中由所述机器学习模型确定成功的比率超过预定比率。在模型训练成功后，将所述滤波单元130输出的信号输入识别单元140，得到识别出的文本。

当识别单元140识别出文本后，可以向用户反馈该文本，让用户确认该识别结果是否准确。可以通过语音播放的方式向用户反馈，例如合成语音后通过扬声器播放“您是想做XX操作吗？”如果终端设备具有屏幕，也可以将文本显示在屏幕上。如果用户认可识别结果，则按照该识别结果，使处理器140执行相应动作。如果用户不认可识别结果，则重新说出其需要终端设备做的动作的语音。终端设备按照前述过程再次识别，再次向用户反馈确认，直到用户确认无误为止。这种确认的方式可以提高终端设备执行动作的准确性。

另外，当识别单元140识别出文本后，也可以不每次都向用户反馈该文本，让用户确认。识别单元140识别文本时，会伴随产生一个该文本的置信度。当所述置信度高于预定置信度阈值时，就可以不向用户反馈该文本确认，而是直接让处理器140执行相应动作。这种方式可以兼顾终端设备执行动作的准确性和效率。

然后，处理器140根据识别单元140识别出的文本，执行相应动作。当终端设备是音箱时，相应动作可以是唤醒音箱，使音箱开始工作(例如播放音乐)。当终端设备是智能家居终端时，相应动作是完成智能家居终端的某项控制，例如对于智能空调来说，相应动作是开启空调，调节温度到某一数值，调节风向等。当终端设备是车载终端时，相应动作是对车载终端的某项控制，例如显示到目的地的导航等。当终端设备是会议终端时，相应动作是对会议参数、功能的设置，例如调大某人的麦克风等。

综上所述，在智能终端设备的场景下，由于传声器间过于接近，噪声相关性很强，运用传统的维纳后置滤波效果很差，因此本公开实施例构建基于时延的二值时频掩蔽系数，对不同信噪比的频点进行不同处理，提高了智能终端设备对特定词汇的唤醒率。此外，为了解决信号增强时，时延估计不准的问题，本公开实施例基于实际智能设备场景提出了新的时延估计算法，提高了时延估计准确率。

另外，本公开实施例还提出了一种终端设备插件(未示)，它具有本公开实施例进行后置频点部分处理所需的频点部分处理单元130，它可以插入一个具有第一传声器111、第二传声器112和波束成形器120的通用终端设备100中，帮助通用终端设备100提高语音增强效果。由于滤波单元130、第一传声器111、第二传声器112和波束成形器120的详细结构和原理在上文中已经描述，因此不再赘述。另外，识别单元140可以包含在该终端设备插件中。

上述终端设备插件可以体现为片上系统的形式，即以芯片的形式存在。可以将芯片组装在一个通用终端设备100中，以帮助通用终端设备100提高语音增强效果。上述片上系统可以与终端设备100的第一传声器111和第二传声器112的输入及终端设备100的波束成形器120的输出连接。与终端设备100的第一传声器111和第二传声器112的输入连接，是为了获取第一信号和第二信号，以得到第一信号和第二信号在各频点的修正后相位差。与波束成形器120的输出连接，是为了将波束成形器120输出的信号进行时频掩蔽处理，即将第一信号和第二信号在该频点的修正后相位差不满足第一预定条件时的频点部分进行抑制。

另外，本公开的时频掩蔽方案还可以用于多传声器(不止二个传声器)阵列的终端设备。如图1B所示的六传声器音箱，其具有基准传声器113和多个(图1B中为5个)其它传声器114。基准传声器113接收到第一信号。第一信号中包括声源信号传播到基准传声器113处形成的信号和噪声信号。多个其它传声器114分别接收到第二信号。第二信号中包括声源信号传播到相应其它传声器114处形成的信号和噪声信号。

如图2B所示，音箱100还可以包括波束成形器120、频点部分处理单元130、识别单元140、处理器150。图2B的波束成形器120与图2A的波束成形器120的区别在于，由于图2B具有多个其它传声器114，分别接收到一个第二信号，每个第二信号相比于第一信号有一个可能不同的时延，因此，波束成形器120需要将各第二信号相比于第一信号的时延补齐，然后将各时延补齐后的第二信号与第一信号叠加，从而得到波束成形信号，而图2A的波束成形器120只需要将一个第二信号相比于第一信号的时延补齐，进行叠加。

图2B的频点部分处理单元130用于将所述第一信号和第二信号分成频域中的频点部分，对各频点部分进行处理，以增强所述波束程序信号中的语音。它与图2A的频点部分处理单元130的区别在于，由于图2A的实施例中，只有一个第二信号，所以与第一信号只有一个修正后相位差，但图2B的实施例中，有多个第二信号，所以与第一信号有多个相位差，因此判定是否满足第一预定条件时，要判定各修正后相位差的平均值是否满足第一预定条件。除此之外的其它部分与图2A的频点部分处理单元130一致，可以参照图2A的频点部分处理单元130的描述。

另外，图2B的识别单元140、处理器150也分别与图2A的识别单元140、处理器150一致，可以参照图2A的识别单元140、处理器150的相关描述。

另外，本公开实施例还提出了一种终端设备插件(未示)，它具有本公开实施例进行后置频点部分处理所需的频点部分处理单元130，它可以插入一个具有基准传声器113、多个其它传声器114、和波束成形器120的通用终端设备100中，帮助通用终端设备100提高语音增强效果。由于频点部分处理单元130、基准传声器113、多个其它传声器114、和波束成形器120的详细结构和原理在上文中已经描述，因此不再赘述。另外，识别单元140可以包含在该终端设备插件中。

上述终端设备插件可以体现为片上系统的形式，即以芯片的形式存在。可以将芯片组装在一个通用终端设备100中，以帮助通用终端设备100提高语音增强效果。上述片上系统可以与终端设备100的基准传声器113、多个其它传声器114的输入及终端设备100的波束成形器120的输出连接。与终端设备100的基准传声器113、多个其它传声器114的输入连接，是为了获取第一信号和第二信号，以得到第一信号和第二信号在各频点的修正后相位差。与波束成形器120的输出连接，是为了将波束成形器120输出的信号进行时频掩蔽处理，即将第一信号和第二信号在该频点的修正后相位差不满足第一预定条件时波束成形信号的频点部分进行抑制。

如图5所示，根据本公开的一个实施例，还提供了一种双传声器阵列终端设备音频处理方法，它由终端设备100执行。所述终端设备100具有第一传声器111和第二传声器112。所述方法包括：

步骤510、将第一信号和第二信号之间的时延补齐后进行叠加，成为波束成形信号，所述第一信号是所述第一传声器111接收到的信号，所述第二信号是所述第二传声器112接收到的信号；

步骤520、将所述第一信号和所述第二信号分成频域中的频点部分；

步骤530、对各频点部分进行处理，以增强所述波束程序信号中的语音。

该方法的实现细节在如上关于图2A的实施例中已描述，可以参考图2A的实施例，故不赘述。

如图6所示，根据本公开的一个实施例，还提供了一种多传声器阵列终端设备音频处理方法，它由终端设备100执行。其中，所述终端设备100具有基准传声器113和多个其它传声器114，所述基准传声器113接收到第一信号，所述多个其它传声器114分别接收到第二信号，所述方法包括：

步骤610、将各第二信号相比于第一信号的时延补齐，将各时延补齐后的第二信号与第一信号叠加，成为波束成形信号；

步骤620、将所述第一信号和第二信号分成频域中的频点部分；

步骤630、对各频点部分进行处理，以增强所述波束程序信号中的语音。

可选地，步骤630包括：确定所述第一信号和各第二信号在频点的修正后相位差；确定确定的各修正后相位差的平均值是否满足第一预定条件；如果不满足第一预定条件，将该频点部分进行抑制。

该方法的实现细节在如上关于图2B的实施例中已描述，可以参考图2B的实施例，故不赘述。

本公开的商业价值

本公开实施例基于先验语音模型与改进的后置频点部分处理算法，提出一种应用于智能设备的传声器语音增强方案，相比于传统技术，大大提高了语音增强效果，使得智能终端设备的唤醒率提高30％-50％，具有良好的市场前景。

应该理解，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

应该理解，上述对本说明书特定实施例进行了描述。其它实施例在权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

应该理解，本文用单数形式描述或者在附图中仅显示一个的元件并不代表将该元件的数量限于一个。此外，本文中被描述或示出为分开的模块或元件可被组合为单个模块或元件，且本文中被描述或示出为单个的模块或元件可被拆分为多个模块或元件。

还应理解，本文采用的术语和表述方式只是用于描述，本说明书的一个或多个实施例并不应局限于这些术语和表述。使用这些术语和表述并不意味着排除任何示意和描述(或其中部分)的等效特征，应认识到可能存在的各种修改也应包含在权利要求范围内。其他修改、变化和替换也可能存在。相应的，权利要求应视为覆盖所有这些等效物。

Claims

1.一种终端设备，包括：

第一传声器；

第二传声器；

2.根据权利要求1所述的终端设备，其中，所述对各频点部分进行处理包括：

3.根据权利要求2所述的终端设备，其中，所述第一预定条件包括：所述修正后相位差小于第一阈值；所述抑制包括：滤除该频点部分。

4.根据权利要求2所述的终端设备，其中，所述第一预定条件包括：所述修正后相位差小于第一阈值；所述抑制包括：如果所述修正后相位差在所述第一阈值和第二阈值之间，则将所述频点部分衰减预定比率；如果所述修正后相位差大于第二阈值之间，则将所述频点部分滤除，其中，所述第二阈值大于所述第一阈值。

5.根据权利要求2所述的终端设备，其中，所述确定所述第一信号和所述第二信号在频点的修正后相位差，包括：

确定所述第一信号和所述第二信号的相位角的差；

确定所述第一信号和所述第二信号的时延；

6.根据权利要求5所述的终端设备，其中，所述确定所述第一信号和所述第二信号的相位角的差，包括：

7.根据权利要求5所述的终端设备，其中，所述确定所述第一信号和所述第二信号的时延，包括：

获取候选时延集合；

8.根据权利要求1所述的终端设备，还包括：识别单元，用于对所述频点部分处理单元输出的信号进行语音识别。

9.根据权利要求8所述的终端设备，还包括：处理器，用于根据语音识别结果，执行相应动作。

10.根据权利要求9所述的终端设备，其中，所述终端设备包括音箱，所述相应动作包括开启所述音箱。

11.一种终端设备，包括：

基准传声器，接收到第一信号；

多个其它传声器，分别接收到第二信号；

12.根据权利要求11所述的终端设备，其中，所述对各频点部分进行处理包括：

13.一种终端设备插件，用于插接在具有第一传声器、第二传声器和波束成形器的终端设备，所述波束成形器用于将第一信号和第二信号之间的时延补齐后进行叠加，成为波束成形信号，所述第一信号是所述第一传声器接收到的信号，所述第二信号是所述第二传声器接收到的信号，所述终端设备插件包括：

14.一种终端设备插件，用于插接在具有基准传声器、多个其它传声器和波束成形器的终端设备，所述基准传声器接收到第一信号，所述多个其它传声器分别接收到第二信号，所述波束成形器将各第二信号相比于第一信号的时延补齐，将各时延补齐后的第二信号与第一信号叠加，成为波束成形信号，所述终端设备插件包括：

15.一种片上系统，与终端设备的第一传声器和第二传声器的输入及终端设备的波束成形器的输出连接，所述波束成形器用于将第一信号和第二信号之间的时延补齐后进行叠加，成为波束成形信号，所述第一信号是所述第一传声器接收到的信号，所述第二信号是所述第二传声器接收到的信号，所述片上系统包括：

16.根据权利要求15所述的片上系统，其中，所述对各频点部分进行处理包括：

17.根据权利要求15所述的片上系统，还包括：识别单元，用于对所述频点部分处理单元输出的信号进行语音识别。

18.一种片上系统，与终端设备的基准传声器和多个其它传声器的输入及终端设备的波束成形器的输出连接，所述基准传声器接收到第一信号，所述多个其它传声器分别接收到第二信号，所述波束成形器将各第二信号相比于第一信号的时延补齐，将各时延补齐后的第二信号与第一信号叠加，成为波束成形信号，所述片上系统包括：

19.根据权利要求18所述的片上系统，其中，所述对各频点部分进行处理包括：

20.一种终端设备音频处理方法，其中，所述终端设备具有第一传声器和第二传声器，所述方法包括：

将所述第一信号和所述第二信号分成频域中的频点部分；

21.根据权利要求20所述的方法，其中，所述对各频点部分进行处理，包括：

确定所述第一信号和所述第二信号在频点的修正后相位差；

确定所述修正后相位差是否满足第一预定条件；

如果不满足第一预定条件，将该频点部分进行抑制。

22.一种终端设备音频处理方法，其中，所述终端设备具有基准传声器和多个其它传声器，所述基准传声器接收到第一信号，所述多个其它传声器分别接收到第二信号，所述方法包括：

将所述第一信号和第二信号分成频域中的频点部分；

23.根据权利要求22所述的方法，其中，所述对各频点部分进行处理包括：