CN108597533A

CN108597533A - 一种增强智能终端的语音输入信号的方法和系统

Info

Publication number: CN108597533A
Application number: CN201810316048.1A
Authority: CN
Inventors: 代金良
Original assignee: Individual
Current assignee: Beijing Sinwt Science & Technology Co ltd
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2018-09-28
Anticipated expiration: 2038-04-10
Also published as: CN108597533B

Abstract

本发明公开了一种增强智能终端的语音输入信号的方法和系统。该方法包括：步骤一，获取智能终端上原生麦克风采集的第一语音信号及第一语音信号的第一系统延迟和智能终端外部麦克风采集的第二语音信号及第二语音信号的第二系统延迟；步骤二，基于第一系统延迟和第二系统延迟，计算修正的系统延迟，并基于修正的系统延迟确定修正的第一语音信号和第二语音信号；步骤三，对修正的第一语音信号和修正的第二语音信号进行语音信号增强，获得增强的语音信号。采用本发明的方法和系统，能有效屏蔽室外环境中干扰噪声强烈的问题，大大改善室外直播或通话时的音频质量，提升用户体验。

Description

一种增强智能终端的语音输入信号的方法和系统

技术领域

本发明涉及语音处理技术领域，尤其涉及一种增强智能终端的语音输入信号的方法和系统。

背景技术

目前的智能终端，例如手机，都是在底部设置一颗麦克风以对用户的声音进行拾音。这种方式的最大缺点是受限于单通道信号增强算法的性能，无法有效屏蔽周围的环境噪声，从而影响用户的通话体验。近年来也有厂商尝试在手机上放置两颗麦克风以采用双通道语音增强的技术，但两颗麦克风位置都是在手机底部，相互位置非常靠近，双通道语音增强的效果也会大打折扣。

而目前很多手机的应用场景，例如视频的移动直播等场景对手机的语音增强技术提出了较高的要求。视频直播是一种广受人们欢迎的业务模式，但是通常是在室内、使用特制的麦克风作为声音输入的装备进行直播，尽管手机摄像头或者手机直播客户端均已支持直播业务的需求，但受限于手机现有麦克风不具备抵抗户外环境噪声的能力，所以随时随地的移动直播无法像室内直播那么流行。即使存在这种应用场景，因为户外的环境噪声往往非常大，会严重影响观看者的观看体验。

此外，手机用户在使用免提通话也需要有效屏蔽环境噪声对通话质量的影响。

因此，目前的智能终端，尤其是体积较小的智能终端，例如手机无法在嘈杂的环境下实现高效的定向采音。

发明内容

为了解决现有技术中智能终端高效定向采音的问题，提出了增强智能终端的语音输入信号的方法和系统。

根据本发明的一个方面，提供了一种增强智能终端的语音输入信号的方法，所述方法包括：

步骤一，获取智能终端上原生麦克风采集的第一语音信号及所述第一语音信号的第一系统延迟和所述智能终端外部麦克风采集的第二语音信号及所述第二语音信号的第二系统延迟；

步骤二，基于所述第一系统延迟和所述第二系统延迟，计算修正的系统延迟，并基于所述修正的系统延迟确定修正的第一语音信号和第二语音信号；

步骤三，对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强，获得增强的语音信号。

其中，所述步骤一包括通过下述方式中至少一种获取所述第一系统延迟和所述第二系统延迟：

方式一，所述智能终端上原生扬声器播放一设定语音信号，分别获取所述原生麦克风采集的所述第一语音信号和所述外部麦克风采集的所述第二语音信号；

获取所述原生扬声器与所述原生麦克风之间的第一距离和所述原生扬声器与所述外部麦克风之间的第二距离；

确定所述第一系统延迟为所述设定语音信号与所述第一语音信号之间的延迟减去所述第一距离产生的所述设定语音信号的延迟；

确定所述第二系统延迟为所述设定语音信号与所述第二语音信号之间的延迟减去所述第二距离产生的所述设定语音信号的延迟；

方式二，获取预存的原生麦克风采集的语音信号的系统延迟，将该系统延迟作为所述第一系统延迟；

获取预存的外部麦克风采集的语音信号的系统延迟，将该系统延迟作为所述第二系统延迟。

其中，所述步骤二包括通过下述方式计算修正的系统延迟：

修正的系统延迟＝C₁*第一系统延迟+C₂*第二系统延迟，

其中C₁+C₂＝1，0≤C₁≤1，0≤C₂≤1。

其中，所述步骤三包括：

基于所述修正的第一语音信号和所述修正的第二语音信号，获取声源方向，并基于所述声源方向，对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强。

其中，所述步骤三还包括：

基于所述修正的第一语音信号和所述修正的第二语音信号，使用波达方向估计法获取所述声源方向；

基于所述声源方向，通过波束成形算法对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强。

根据本发明的另一方面，还提供了一种增强智能终端的语音输入信号的系统，所述系统包括：

获取模块，用于获取智能终端上原生麦克风采集的第一语音信号及所述第一语音信号的第一系统延迟和所述智能终端外部麦克风采集的第二语音信号及所述第二语音信号的第二系统延迟；

修正模块，用于基于所述第一系统延迟和所述第二系统延迟，计算修正的系统延迟，并基于所述修正的系统延迟确定修正的第一语音信号和第二语音信号；

增强模块，用于对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强，获得增强的语音信号。

其中，所述获取模块还用于通过下述方式中至少一种获取所述第一系统延迟和所述第二系统延迟：

其中，所述修正模块还用于基于下述公式修正系统延迟：

修正的系统延迟＝C₁*第一系统延迟+C₂*第二系统延迟，

其中C₁+C₂＝1，0≤C₁≤1，0≤C₂≤1。

其中，所述增强模块用于：

其中，所述增强模块还用于：

本发明主要提供一种基于现有的智能设备(如手机、PAD等)扩展麦克风阵列的方法和装置，扩展后的智能设备可以使用基于麦克风阵列的波束成形技术来实现定向拾音的功能，从而能够有效降低环境噪声带来的干扰。具体地，本发明的方法和装置，通过声源定向和波束成形算法，获得强指向性拾音的效果，只有在指向范围内的声源才会进行拾音，这样就能有效屏蔽室外环境中干扰噪声强烈的问题，大大改善室外直播或通话时的音频质量，提升用户体验。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明的增强语音输入信号的方法的流程图；

图2是根据本发明的包括有原生麦克风和外部麦克风的智能终端的示意图；

图3是根据本发明的增强语音输入信号的系统的模块图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

本发明提供了一种增强智能终端的语音信号的方法，所述方法包括：

步骤101，获取智能终端上原生麦克风采集的第一语音信号及第一语音信号的第一系统延迟和智能终端外部麦克风采集的第二语音信号及第二语音信号的第二系统延迟；

步骤102，基于第一系统延迟和第二系统延迟，计算修正的系统延迟，并基于修正的系统延迟确定修正的第一语音信号和第二语音信号；

步骤103，对修正的第一语音信号和修正的第二语音信号进行语音信号增强，获得增强的语音信号。

这里，原生麦克风是指集成在智能终端上的麦克风，外部麦克风是设置在智能终端外部且通过连接设备(例如USB接口、音频接口)或无线连接(例如蓝牙连接)与智能终端相连接的麦克风。外部麦克风可以仅由一个麦克风组成，也可以是由多个(如两个)麦克风组成的麦克风阵列。

系统延迟是指运行在操作系统之上的应用层程序通过操作系统的API或者更低层的驱动接口从声卡或者其他数据接口读取麦克风采集的声音信号，相对于声音信号在物理世界中实际发生的时间的延迟。因为外部麦克风和原生麦克风可能是从两个不同的数据接口读入数据的，所以两者的系统延迟可能不同，因此就需要对两种不同的系统延迟进行修正，使其相等。这是因为后面进行处理时，需要外部麦克风采集的信号和原生麦克风采集的信号之间不存在系统延迟。

需要说明的是，外部麦克风可以包括一个麦克风或者多个麦克风。后续计算系统延迟、估计声源方向和信号增强对于一个麦克风或多个麦克风的操作来说，实质的方法都是相同的。计算系统延迟时，一个或多个外部麦克风都是通过一个接口与智能终端进行数据通信，所以系统延迟在几个外部麦克风之间是相同的。估计声源方向和信号增强时，当外部麦克风包括一个麦克风或多个麦克风时，只影响构成麦克风阵列的构型，因此，估计声源方向和使用波束成形进行信号增强时，只是算法细节可能不同，但是基础算法没有变化。

步骤101包括通过下述方式获取所述第一系统延迟和所述第二系统延迟：

所述智能终端上原生扬声器播放一设定语音信号，分别获取所述原生麦克风采集的所述第一语音信号和所述外部麦克风采集的所述第二语音信号；

确定所述第二系统延迟为所述设定语音信号与所述第二语音信号之间的延迟减去所述第二距离产生的所述设定语音信号的延迟。

以计算原生麦克风的系统延迟例，在开始时，通过智能设备原生扬声器播放一段声音(如标准正弦波或者双音多频信号)，然后读取原生麦克风采集到的扬声器播放的声音，通过互相关法计算扬声器播放的原始信号和麦克风采集到的声音信号之间的延迟。另外，对于给定智能设备机型来说，其原生扬声器和原生麦克风之间的位置是已知的，声音信号从扬声器到麦克风的理论传输时间可以计算出来，从通过互相关法计算出的声音延迟中减去声音信号从扬声器到麦克风的理论传输时间导致的延迟即可得到原生麦克风的系统延迟。计算外部麦克风的系统延迟的方法类似。另外，在计算播放的设定语音信号与原生麦克风采集的语音信号以及播放的设定语音信号与外部麦克风采集的语音信号时，除采用互相关算法外，也可以采用其他的时延计算方法，在此不再赘述。

具体地，计算系统延迟时，可以采用下述公式计算：系统延迟＝估计出的总延迟-麦克风与扬声器之间距离/声速。因此，

第一系统延迟＝设定语音信号与第一语音信号的延迟-第一距离/声速；

第二系统延迟＝设定语音信号与第二语音信号的延迟-第二距离/声速。

需要说明的是，本发明实施例中，通过连接设备与智能终端相连接的外部麦克风与原生扬声器之间的距离是固定的，即保证使用时外部麦克风与原生扬声器之间的距离固定，即在使用过程中，上述第二距离是固定的。

另外，即使外部麦克风有两个或多个，但是由一套时钟控制，所以该两个或多个麦克风的系统延迟是一样的，任意选择(或者固定指定)该麦克风阵列中一个麦克风计算系统延迟即可，其余麦克风的系统延迟与选择的麦克风的系统延迟相同。从多个外部麦克风中选择一个麦克风的方法可以采用下述中之一：

方式一，可以固定采用多个外部麦克风中的某一个麦克风，如从左数第n个，n为麦克风序号。因为麦克风的位置是固定的，所以一旦选定某一个麦克风，如图2所示，选择外部麦克风M1，根据预先获取的，例如存储至云端或者内存中的手机机型的尺寸信息，可以得到下图中原生麦克风M0和扬声器S之间的距离，也可以得到选择的麦克风与原生麦克风之间的距离。该距离可以通过预先测量的方式获得，或者利用外部麦克风部件的长度和原生麦克风在手机上的位置通过计算的方法获得，这种计算可以采用几何方法进行，不再赘述。然后，通过几何方法即可得到选择的麦克风M1与扬声器S之间的距离，这个距离就是所述的第二距离，这个第二距离同样可以预先存储至云端或者内存中，从而无需每次都重新计算。

方式二，随机选择一个麦克风，预先把每个麦克风与原生麦克风的距离存储至云端或者手机内存中，随机选择某个麦克风后，根据所选择的麦克风的序号即可得到预存的该麦克风与原生麦克风之间的距离，进而结合原生麦克风和扬声器之间的距离，即可得到第二距离。

另外，还可以通过下述方法，即静态配置的方法得到系统延迟：获取预存的原生麦克风采集的语音信号的系统延迟，将该系统延迟作为第一系统延迟；获取预存的外部麦克风采集的语音信号的系统延迟，将该系统延迟作为第二系统延迟。

在智能设备机型已知的条件下，通过实测的办法获得该机型上原生麦克风采集的声音信号的系统延迟和该机型上本发明所述的外部麦克风采集的声音信号的系统延迟，把两者的延迟数据或者延迟差数据保存在某个位置(如机身存储器中、APP中或者云端)，在计算需要时从以上位置读取该数据，用作该机型的系统延迟数据。

步骤102包括通过下述方式计算修正的系统延迟：修正的系统延迟＝C₁*第一系统延迟+C₂*第二系统延迟，其中C₁+C₂＝1，0≤C₁≤1，0≤C₂≤1。

这里的对第一系统延迟和第二系统延迟进行修正，是指将第一系统延迟和第二系统延迟修正为相等的值。修正时，可以对延迟较小的声音信号加入额外的延迟(较大的系统延迟与较小的系统延迟的差值)，也可以对延迟较大的信号减去一定的延迟(该方式可以通过数学方法实现，但是从物理意义的角度，不可能让未来的事情提前发生，即在物理上是不可实现的。)，以使第一系统延迟与第二系统延迟相等，如上面的公式所描述的。例如，实际操作时，可以以第一系统延迟和第二系统延迟中较大的一个作为修正后的系统延迟，对两者中较小的一个加上一个额外的延迟值，从而使其中较小的系统修正后等于该较大的系统延迟。例如，第一系统延迟大于第二系统延迟，则在这种情况下，C₁＝1，C₂＝0。

在计算得到修正的系统延迟后，基于计算修正的系统延迟的方式，计算修正的第一语音信号和第二语音信号。其计算方法示例如下：

原生麦克风采集的第一语音信号为(x_t,x_t+1,x_t+2,x_t+3,x_t+4,x_t+5,x_t+6,x_t+7)，其中t表示时间，其第一系统延迟为2；

外部麦克风采集的第二语音信号为(y_t,y_t+1,y_t+2,y_t+3,y_t+4,y_t+5,y_t+6,y_t+7)，其中t表示时间，其第二系统延迟为3。

其中第二语音信号的系统延迟，即第二系统延迟较大，选择第二系统延迟为修正的系统延迟，即将第一系统延迟修正为3。因此，修正的第二语音信号即为原第二语音信号；修正的第一语音信号为原第一语音信号加上一个时间点的系统延迟，即为(x_t-1,x_t,x_t+1,x_t+2,x_t+3,x_t+4,x_t+5,x_t+6)。步骤103包括：基于所述修正的第一语音信号和所述修正的第二语音信号，获取声源方向，并基于所述声源方向，对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强。

因此，修正的第一语音信号是(x_t-1,x_t,x_t+1,x_t+2,x_t+3,x_t+4,x_t+5,x_t+6)，修正的第二语音信号是(y_t,y_t+1,y_t+2,y_t+3,y_t+4,y_t+5,y_t+6,y_t+7)(即为原第二语音信号)。

步骤103包括：基于所述修正的第一语音信号和所述修正的第二语音信号，获取声源方向，并基于所述声源方向，对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强。

这里，在获得声源方向后，基于该声源方向进行语音信号增强，可以获得更好的增强效果。

步骤103还包括：基于所述修正的第一语音信号和所述修正的第二语音信号，使用波达方向估计法获取声源方向；基于所述声源方向，通过波束成形算法对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强。

下面详细描述根据本发明的具体实施例。

步骤1，获取原生麦克风采集的第一语音信号(x_t,x_t+1,x_t+2,x_t+3,x_t+4,x_t+5,x_t+6,x_t+7)及其第一系统延迟2，以及外部麦克风采集的第二语音信号为(y_t,y_t+1,y_t+2,y_t+3,y_t+4,y_t+5,y_t+6,y_t+7)及其第二系统延迟3。

步骤2，选择第二系统延迟为修正的系统延迟，因此，修正的第一语音信号是(x_t-1,x_t,x_t+1,x_t+2,x_t+3,x_t+4,x_t+5,x_t+6)，修正的第二语音信号是(y_t,y_t+1,y_t+2,y_t+3,y_t+4,y_t+5,y_t+6,y_t+7)。

步骤3，基于修正的第一语音信号和第二语音信号采用波达方向估计法，获取声源方向。

步骤4，基于上述声源方向，通过波束成形算法对上述修正的第一语音信号和修正的第二语音信号进行语音信号增强，其中的波束成形算法可以采用延迟相加算法、最小方差畸变法(MVDR算法)、线性约束最小方差法(LCMV算法)等。

本发明还提供了一种增强智能终端的语音信号的系统，如图3所示，所述系统包括：

获取模块301，用于获取智能终端上原生麦克风采集的第一语音信号及所述第一语音信号的第一系统延迟和所述智能终端外部麦克风采集的第二语音信号及所述第二语音信号的第二系统延迟；

修正模块302，用于基于所述第一系统延迟和所述第二系统延迟，计算修正的系统延迟，并基于所述修正的系统延迟确定修正的第一语音信号和第二语音信号；

增强模块303，用于对所述修正的第一语音信号和所述修正的第二语音信号进行语音信号增强，获得增强的语音信号。

其中，所述获取模块301还用于通过下述方式中至少一种获取所述第一系统延迟和所述第二系统延迟：

其中，所述修正模块302还用于基于下述公式修正系统延迟：

修正的系统延迟＝C₁*第一系统延迟+C₂*第二系统延迟，

其中C₁+C₂＝1，0≤C₁≤1，0≤C₂≤1。

其中，所述增强模块303用于：

其中，所述增强模块303还用于：

上面描述的内容可以单独地或者以各种方式组合起来实施，而这些变型方式都在本发明的保护范围之内。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案而非限制，仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种增强智能终端的语音输入信号的方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述步骤一包括通过下述方式中至少一种获取所述第一系统延迟和所述第二系统延迟：

3.如权利要求1所述的方法，其特征在于，所述步骤二包括通过下述方式计算修正的系统延迟：

修正的系统延迟＝C₁*第一系统延迟+C₂*第二系统延迟，

其中C₁+C₂＝1，0≤C₁≤1，0≤C₂≤1。

4.如权利要求1所述的方法，其特征在于，所述步骤三包括：

5.如权利要求4所述的方法，其特征在于，所述步骤三还包括：

6.一种增强智能终端的语音输入信号的系统，其特征在于，所述系统包括：

7.如权利要求6所述的方法，其特征在于，所述获取模块还用于通过下述方式中至少一种获取所述第一系统延迟和所述第二系统延迟：

8.如权利要求6所述的方法，其特征在于，所述修正模块还用于基于下述公式修正系统延迟：

修正的系统延迟＝C₁*第一系统延迟+C₂*第二系统延迟，

其中C₁+C₂＝1，0≤C₁≤1，0≤C₂≤1。

9.如权利要求6所述的方法，其特征在于，所述增强模块用于：

10.如权利要求9所述的方法，其特征在于，所述增强模块还用于：