CN112133299B

CN112133299B - 一种声音信号的处理方法、装置及设备

Info

Publication number: CN112133299B
Application number: CN201910554013.6A
Authority: CN
Inventors: 杨晓霞; 刘溪
Original assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Current assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2021-08-27
Anticipated expiration: 2039-06-25
Also published as: CN112133299A

Abstract

本发明实施例公开了一种声音信号的处理方法、装置及设备，方法包括：统计预设时间段内来自于声源方向的声音信号的帧数量；根据该帧数量，确定当前帧声音信号对应的增益值；利用增益值对当前帧声音信号进行增益处理；声源方向可以理解为与设备进行交互的用户所在的方向，非声源方向产生的声音信号可以理解为干扰信号，本方案中，如果统计得到的帧数量较小，表示当前帧之前的一段时间内存在干扰信号，干扰信号是有连续性的，可以认为当前帧也存在干扰信号，这种情况下，当前帧声音信号对应的增益值较小，利用该增益值对当前帧声音信号进行增益处理，也就是对当前帧声音信号进行抑制，这样，减少了干扰信号的影响。

Description

一种声音信号的处理方法、装置及设备

技术领域

本发明涉及声音处理技术领域，特别是指一种声音信号的处理方法、装置及设备。

背景技术

一些场景中，用户可以与电子设备进行语音交互，比如，用户可以向车载设备、智能家居设备等发送语音指令，这些设备可以解析并执行该语音指令。

但是环境中通常存在干扰信号，降低设备解析语音指令的准确性。比如，车载环境中，主驾驶员向车载设备发送语音指令，另外副驾驶员还在与主驾驶员进行交谈，这种情况下，副驾驶员方向的声音信号会对车载设备产生干扰。

发明内容

有鉴于此，本发明的目的在于提出一种声音信号的处理方法、装置及设备，以降低干扰信号的影响。

基于上述目的，本发明提供了一种声音信号的处理方法，包括：

统计预设时间段内来自于声源方向的声音信号的帧数量；

根据统计得到的帧数量，确定当前帧声音信号对应的增益值；

利用所述增益值，对所述当前帧声音信号进行增益处理。

可选的，所述方法还包括：

计算当前帧声音信号在波束形成后指向每个预设方向的信号频谱；

根据所述信号频谱以及确定的声源方向，确定所述当前帧声音信号对应的抑制值；

利用所述抑制值对所述当前帧声音信号进行抑制处理，得到抑制后的当前帧声音信号；

所述利用所述增益值，对所述当前帧声音信号进行增益处理，包括：

利用所述增益值，对所述抑制后的当前帧声音信号进行增益处理。

可选的，所述根据所述信号频谱以及确定的声源方向，确定所述当前帧声音信号对应的抑制值，包括：

针对所述当前帧声音信号的每个频点，计算该频点指向所述声源方向的信号频谱与该频点指向各预设方向的信号频谱之和的比值，作为第一比值；

计算所述当前帧声音信号的各频点指向所述声源方向的信号频谱之和与所述各频点指向各预设方向的信号频谱之和的比值，作为第二比值；

计算所述第一比值和所述第二比值的乘积，作为所述当前帧声音信号的该频点对应的抑制值；

所述利用所述抑制值对所述当前帧声音信号进行抑制处理，得到抑制后的当前帧声音信号，包括：

分别计算所述当前帧声音信号的每个频点对应的抑制值与该频点指向声源方向的信号频谱的乘积，作为抑制后的当前帧声音信号的频谱。

利用如下算式，计算所述当前帧声音信号对应的抑制值：

其中，i表示帧序号，j表示频点的序号，第i帧为当前帧，

表示第i帧第j个频点指向声源方向的信号频谱，

分别表示第i帧第j个频点指向n个预设方向的信号频谱，n为大于1的正整数。声源方向可以为n个预设方向中的一个方向，也就是说，

可以为

中的一个。

利用如下算式，计算抑制后的当前帧声音信号：

可选的，所述根据统计得到的帧数量，确定当前帧声音信号对应的增益值，包括：

计算所述帧数量与所述预设时间段内声音信号帧的总数量的比值，作为第三比值；

根据预先设定的比值与增益值的对应关系，确定所述第三比值对应的增益值，作为当前帧声音信号对应的增益值。

可选的，所述根据预先设定的比值与增益值的对应关系，确定所述第三比值对应的增益值，作为当前帧声音信号对应的增益值，包括：

若第三比值不小于80％，则当前帧声音信号对应的增益值为1；

若第三比值小于80％且不小于30％，则当前帧声音信号对应的增益值为所述当前帧声音信号的上一帧声音信号对应的增益值；

若第三比值小于30％，则当前帧声音信号对应的增益值为所述当前帧声音信号的上一帧声音信号对应的增益值与确定的平滑因子的乘积。

可选的，所述平滑因子的确定方式包括：

计算所述当前帧声音信号的上一帧声音信号对应的增益值与预设值的比值，作为第四比值，所述预设值为小于1；

确定所述第四比值对应的平滑因子。

基于上述目的，本发明提供了一种声音信号的处理装置，包括：

统计模块，用于统计预设时间段内来自于声源方向的声音信号的帧数量；

第一确定模块，用于根据统计得到的帧数量，确定当前帧声音信号对应的增益值；

增益模块，用于利用所述增益值，对所述当前帧声音信号进行增益处理。

可选的，所述装置还包括：

计算模块，用于计算当前帧声音信号在波束形成后指向每个预设方向的信号频谱；

第二确定模块，用于根据所述信号频谱以及确定的声源方向，确定所述当前帧声音信号对应的抑制值；

抑制模块，用于利用所述抑制值对所述当前帧声音信号进行抑制处理，得到抑制后的当前帧声音信号；

所述增益模块，具体用于：

可选的，所述第二确定模块，具体用于：

所述抑制模块，具体用于：

可选的，所述第二确定模块，具体用于：

利用如下算式，计算所述当前帧声音信号对应的抑制值：

其中，i表示帧序号，j表示频点的序号，第i帧为当前帧，

表示第i帧第j个频点指向声源方向的信号频谱，

分别表示第i帧第j个频点指向n个预设方向的信号频谱，n为大于1的正整数；

所述抑制模块，具体用于：

利用如下算式，计算抑制后的当前帧声音信号：

可选的，所述第一确定模块，包括：

计算子模块，用于计算所述帧数量与所述预设时间段内声音信号帧的总数量的比值，作为第三比值；

确定子模块，用于根据预先设定的比值与增益值的对应关系，确定所述第三比值对应的增益值，作为当前帧声音信号对应的增益值。

可选的，所述确定子模块，具体用于：

可选的，所述装置还包括：

第三确定模块，用于利用如下方式确定所述平滑因子：

计算所述当前帧声音信号的上一帧声音信号对应的增益值与预设值的比值，作为第四比值，所述预设值为小于1；确定所述第四比值对应的平滑因子。

基于上述目的，本发明提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意一种声音信号的处理方法。

本发明所示实施例中，声源方向可以理解为与设备进行交互的用户所在的方向，非声源方向产生的声音信号可以理解为干扰信号，本方案中根据一段时间内来自于声源方向的声音信号的帧数量，确定当前帧声音信号对应的增益值，如果统计得到的数量较小，表示当前帧之前的一段时间内存在干扰信号，干扰信号是有连续性的，可以认为当前帧也存在干扰信号，这种情况下，当前帧声音信号对应的增益值较小，利用该增益值对当前帧声音信号进行增益处理，也就是对当前帧声音信号进行抑制，这样，减少了干扰信号的影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的声音信号的处理方法的第一种流程示意图；

图2为本发明实施例提供的一种抑制处理流程示意图；

图3为本发明实施例提供的声音信号的处理方法的第二种流程示意图；

图4为本发明实施例提供的一种具体实施方式的示意图；

图5为本发明实施例提供的一种声音信号的处理装置的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

为了解决上述技术问题，本发明实施例提供了一种声音信号的处理方法、装置及设备，该方法及装置可以应用于各种电子设备，比如车载设备，或者智能家居设备，或者声音采集设备等，具体不做限定。下面首先对发明实施例提供的声音信号的处理方法进行介绍。

图1为本发明实施例提供的声音信号的处理方法的第一种流程示意图，包括：

S101：统计预设时间段内来自于声源方向的声音信号的帧数量。

举例来说，执行本方案的电子设备(执行主体，以下简称为本电子设备)可以与用户进行语音交互，或者说进行对话，在对话过程中，声源方向即为用户所在的方向。一种情况下，一次对话过程中可以确定一次声源方向，并认为对话过程中的声源方向不变。

一种实施方式中，本电子设备可以针对获取到的每帧声音信号，判断该帧声音信号是否来自于声源方向，并将判断结果保存至预设缓存中；这样，对当前帧声音信号进行处理时，可以根据预设缓存中保存的判断结果，统计预设时间段内来自于声源方向的声音信号的帧数量。

该预设时间段可以包括当前帧及其之前的一段时间；或者，该预设时间段可以为当前帧之前的一段时间；换句话说，该预设时间段可以包括当前帧所属时刻，或者该预设时间段与当前帧所属时刻间隔较小，这样，该预设时间段内采集的声音信号与当前帧声音信号之间存在连续性。

举例来说，本电子设备中可以内置声音采集模块，通过该声音采集模块采集多路声音信号；或者，本电子设备可以与其他声音采集设备通信连接，获取该声音采集设备采集的多路声音信号。该声音采集模块或者声音采集设备可以为麦克风阵列，麦克风阵列可以采集得到多路声音信号(一个麦克风可以采集得到一路声音信号)，该麦克风阵列可以为圆形的阵列、或者线性的阵列等等，麦克风阵列的具体阵列形状不做限定。

以对当前帧声音信号的处理过程为例进行说明，当前帧声音信号为多路声音信号，可以通过DOA(Direction of Arrival，声源方向到达)估计的方式，来对当前帧声音信号进行声源定位。判断定位结果与上述内容中确定的声源方向(用户所在的方向)是否相同，也就是判断当前帧声音信号是否来自于声源方向。如果判断结果为是，则可以设置flag＝1，如果判断结果为否，则可以设置flag＝0，flag表示标记位，将flag保存至预设缓存中。预设缓存可以为一个长度为L的Buffer(缓存区)，其中，L表示Buffer对应的声音信号的帧数量，换句话说，Buffer中存储L帧声音信号的flag。举例来说，Buffer中可以保存帧序号为[i，i-1，i-2……i-L+1]的声音信号的flag值，i可以认为是当前帧声音信号的帧序号。

这个例子中，可以统计Buffer中flag＝1的帧数量，也就是统计包括当前帧在内的L帧声音信号(当前帧信号及其之前的L-1帧声音信号)中，来自于声源方向的声音信号的帧数量。

S102：根据统计得到的帧数量，确定当前帧声音信号对应的增益值。

举例来说，S101中统计得到的帧数量越大，则S102中确定的增益值越大，S101中统计得到的帧数量越小，则S102中确定的增益值越小。可以预先设定帧数量与增益值之间的对应关系，根据该对应关系确定S101中统计得到的帧数量对应的增益值，作为当前帧声音信号对应的增益值。

一种实施方式中，S102可以包括：计算所述帧数量与所述预设时间段内声音信号帧的总数量的比值，作为第三比值；根据预先设定的比值与增益值的对应关系，确定所述第三比值对应的增益值，作为当前帧声音信号对应的增益值。

本实施方式中，第三比值越大，则当前帧声音信号对应的增益值越大，第三比值越小，则当前帧声音信号对应的增益值越小。延续上述例子，统计Buffer中flag＝1的帧数量，第三比值＝帧数量/L。

上述“比值与增益值的对应关系”可以根据实际情况进行设定，一种实施方式中，该对应关系可以包括：若第三比值不小于80％，则当前帧声音信号对应的增益值为1；若第三比值小于80％且不小于30％，则当前帧声音信号对应的增益值为所述当前帧声音信号的上一帧声音信号对应的增益值；若第三比值小于30％，则当前帧声音信号对应的增益值为所述当前帧声音信号的上一帧声音信号对应的增益值与确定的平滑因子的乘积。

本实施方式中，该对应关系还可以表示为：

其中，

表示当前帧声音信号对应的增益值，

表示当前帧的上一帧声音信号对应的增益值，ρ表示第三比值，α表示平滑因子。

举例来说，一种实施方式中，α可以为预设值，或者，另一种实施方式中，可以采用如下方式确定平滑因子α：计算所述当前帧声音信号的上一帧声音信号对应的增益值与预设值的比值，作为第四比值，所述预设值为小于1；确定所述第四比值对应的平滑因子。

本实施方式中，可以预先设定比值与平滑因子α的对应关系，举例来说，该对应关系可以表示为：

g_min表示上述预设值，g_min根据实际情况进行设定，比如可以为0.3，或者也可以为其他小于0.5的数值，或者也可以为小于1的数值，

表示上述第四比值。

g_min可以理解为最小的增益值。

本实施方式中，确定增益值的过程中引入平滑因子，也就是在增益过程中进行平滑处理，这样使得各帧声音信号之间保持连续性，减少了失真的情况。

S103：利用该增益值，对当前帧声音信号进行增益处理。

一种实施方式中，可以直接对当前帧声音信号进行增益处理。

另一种实施方式中，可以先对当前帧声音信号进行语音增强处理，然后再利用该增益值，对语音增强处理后的当前帧声音信号进行增益处理。比如，可以对当前帧声音信号进行回声抑制、噪声抑制等处理，或者，也可以利用波束成形算法，对当前帧声音信号进行语音增强处理。

作为一种实施方式，可以计算当前帧声音信号在波束形成后指向每个预设方向的信号频谱；根据所述信号频谱以及确定的声源方向，确定所述当前帧声音信号对应的抑制值；利用所述抑制值对所述当前帧声音信号进行抑制处理，得到抑制后的当前帧声音信号；这种实施方式中，S103可以包括：利用所述增益值，对所述抑制后的当前帧声音信号进行增益处理。

如上所述，声源方向可以理解为用户所在的方向，本实施方式中的“预设方向”可以理解为预先设定的用户可能在的方向。比如，车载场景中，声源方向可能为主驾方向(主驾驶员所在方向)，也可能为副驾方向(副驾驶员所在方向)，这种情况下，预设方向可以包括主驾方向和副驾方向。

举例来说，可以利用固定波束成形算法，计算当前帧声音信号在波束形成后指向每个预设方向的信号频谱；计算指向声源方向的信号频谱与指向各预设方向的信号频谱之和的比值，将该比值作为抑制值。

应用本实施方式对当前帧声音信号进行抑制处理，抑制声音信号中的干扰信号，也可以理解为一种语音增强处理方式。

一种实施方式中，根据所述信号频谱以及确定的声源方向，确定所述当前帧声音信号对应的抑制值，可以包括：

计算所述第一比值和所述第二比值的乘积，作为所述当前帧声音信号的该频点对应的抑制值。

本实施方式中，可以利用如下算式，计算当前帧声音信号对应的抑制值：

其中，i表示帧序号，j表示频点的序号，第i帧为当前帧，

表示第i帧第j个频点指向声源方向的信号频谱，

可以为

中的一个。

本实施方式中，利用所述抑制值对所述当前帧声音信号进行抑制处理，得到抑制后的当前帧声音信号，可以包括：分别计算所述当前帧声音信号的每个频点对应的抑制值与该频点指向声源方向的信号频谱的乘积，作为抑制后的当前帧声音信号的频谱。

可以利用如下算式，计算抑制后的当前帧声音信号：

上述算式中存在n个预设方向，以车载场景为例来说，可以存在两个预设方向，一个方向为主驾驶员所在方向，以下简称为主驾方向，另一个方向可以为副驾驶员所在方向，以下简称为副驾方向。假设通过两路麦克风采集到两路声音信号，这两路声音信号的第i帧第j个频点处的信号频谱分别为r¹ _i，_j和r² _i，j，将r¹ _i，j和r² _i，j分别做指向主驾方向的固定波束形成和指向副驾方向的固定波束形成，得到指向主驾方向的信号频谱s_i,j ^driver和指向副驾方向的信号频谱s_i,j ^co-driver，可以利用如下算式计算当前帧声音信号对应的抑制值：

上式中，“desired direction”表示期望方向，也就是上述内容中所说的声源方向，“driver direction”表示主驾方向，“co-driver direction”表示副驾方向，“if thedesired direction is driver direction”表示“如果声源方向为主驾方向”，“if thedesired direction is co-driver direction”表示“如果声源方向为副驾方向”。

然后，可以利用如下算式，计算抑制后的当前帧声音信号：

上式中，“if the desired direction is driver direction”表示“如果声源方向为主驾方向”，“if the desired direction is co-driver direction”表示“如果声源方向为副驾方向”。

参考图2，以两路麦克风为例来说，对这两路麦克风采集的两路声音信号分别做指向主驾方向的fixed BF(固定波束成形)和指向副驾方向的fixed BF，假设指向主驾方向的fixed BF后输出的信号频谱为s_i,j ^driver，指向副驾方向的fixed BF后输出的信号频谱为s_i,j ^co-driver。利用计算得到的抑制值

对输出的这两种信号频谱进行抑制处理，得到抑制后的当前帧声音信号

该抑制值能够抑制频谱中非声源方向的声音信号，非声源方向产生的声音信号可以理解为干扰信号，因此，应用本实施方式可以起到对干扰信号的抑制作用。

利用上述得到的增益值

对抑制后的当前帧声音信号

进行增益处理，得到处理结果：

应用本发明所示实施例，第一方面，声源方向可以理解为与设备进行交互的用户所在的方向，非声源方向产生的声音信号可以理解为干扰信号，本方案中，根据一段时间内来自于声源方向的声音信号的帧数量，确定当前帧声音信号对应的增益值，如果统计得到的数量较小，表示当前帧之前的一段时间内存在干扰信号，干扰信号是有连续性的，可以认为当前帧也存在干扰信号，这种情况下，当前帧声音信号对应的增益值较小，利用该增益值对当前帧声音信号进行增益处理，也就是对当前帧声音信号进行抑制，这样，减少了干扰信号的影响。第二方面，根据当前帧声音信号在波束形成后指向每个预设方向的信号频谱以及确定的声源方向，确定当前帧声音信号对应的抑制值，利用该抑制值对当前帧声音信号进行抑制处理，这样可以起到对干扰信号的抑制作用，进一步减少了干扰信号的影响。第三方面，确定增益值的过程中引入平滑因子，也就是在增益过程中进行平滑处理，这样使得各帧声音信号之间保持连续性，减少了失真的情况。

图3为本发明实施例提供的声音信号的处理方法的第二种流程示意图，包括：

S301：统计预设时间段内来自于声源方向的声音信号的帧数量；计算该帧数量与该预设时间段内声音信号帧的总数量的比值，作为第三比值；根据预先设定的比值与增益值的对应关系，确定第三比值对应的增益值，作为当前帧声音信号对应的增益值。

这个例子中，可以统计Buffer中flag＝1的帧数量，也就是统计包括当前帧在内的L帧声音信号(当前帧信号及其之前的L-1帧声音信号)中，来自于声源方向的声音信号的帧数量。然后计算第三比值＝帧数量/L。

本实施方式中，该对应关系还可以表示为：

其中，

表示当前帧声音信号对应的增益值，

表示上述第四比值。

g_min可以理解为最小的增益值。

S302：计算当前帧声音信号在波束形成后指向每个预设方向的信号频谱；根据该信号频谱以及确定的声源方向，确定当前帧声音信号对应的抑制值；利用该抑制值对当前帧声音信号进行抑制处理，得到抑制后的当前帧声音信号。

S301可以理解为对当前帧声音信号进行MBF(multi-beamforming，多波束固定成形)处理。举例来说，可以利用固定波束成形算法，计算当前帧声音信号在波束形成后指向每个预设方向的信号频谱。

一种实施方式中，可以针对所述当前帧声音信号的每个频点，计算该频点指向所述声源方向的信号频谱与该频点指向各预设方向的信号频谱之和的比值，作为第一比值；计算所述当前帧声音信号的各频点指向所述声源方向的信号频谱之和与所述各频点指向各预设方向的信号频谱之和的比值，作为第二比值；计算所述第一比值和所述第二比值的乘积，作为所述当前帧声音信号的该频点对应的抑制值。

其中，i表示帧序号，j表示频点的序号，第i帧为当前帧，

表示第i帧第j个频点指向声源方向的信号频谱，

可以为

中的一个。

本实施方式中，可以分别计算所述当前帧声音信号的每个频点对应的抑制值与该频点指向声源方向的信号频谱的乘积，作为抑制后的当前帧声音信号的频谱。

可以利用如下算式，计算抑制后的当前帧声音信号：

然后，可以利用如下算式，计算抑制后的当前帧声音信号：

S301与S302的执行顺序不做限定。

S303：利用该增益值，对抑制后的当前帧声音信号进行增益处理。

利用上述得到的增益值

对抑制后的当前帧声音信号

进行增益处理，得到处理结果：

下面参考图4介绍一种具体的实施方式：

车载设备可以包括声源定位模块、多波束成形模块和增益模块，其中：

声源定位模块，用于基于麦克风阵列采集的多路声音信号确定声源方向。

举例来说，车载设备可以与用户进行语音交互，或者说进行对话，在对话过程中，声源方向即为用户所在的方向，声源方向可以为主驾方向或者副驾方向。一种情况下，一次对话过程中可以确定一次声源方向，并认为对话过程中的声源方向不变。

举例来说，声源定位模块可以采用DOA估计的方式，对麦克风阵列采集的多路声音信号进行解析，从而确定声源方向；或者声源定位模块可以先对多路声音信号进行语音增强处理，再采用DOA估计的方式，对语音增强处理后的多路声音信号进行解析，从而确定声源方向。声源定位模块确定声源方向的具体方式不做限定。

声源定位模块可以针对获取到的每帧声音信号，判断该帧声音信号是否来自于声源方向，并将判断结果保存至预设缓存中。

以对当前帧声音信号的处理过程为例进行说明，当前帧声音信号为多路声音信号，声源定位模块可以通过DOA估计的方式，来对当前帧声音信号进行声源定位。判断定位结果与上述内容中确定的声源方向(用户所在的方向)是否相同，也就是判断当前帧声音信号是否来自于声源方向。如果判断结果为是，则可以设置flag＝1，如果判断结果为否，则可以设置flag＝0，将flag保存至预设缓存中。预设缓存可以为一个长度为L的Buffer，举例来说，Buffer中可以保存帧序号为[i，i-1，i-2……i-L+1]的声音信号的flag值，i可以认为是当前帧声音信号的帧序号。

多波束成形模块，用于对每帧声音信号进行抑制处理。

比如，参考图2，以两路麦克风为例来说，多波束成形模块对这两路麦克风采集的两路声音信号分别做指向主驾方向的fixed BF(固定波束成形)和指向副驾方向的fixedBF，假设指向主驾方向的fixed BF后输出的信号频谱为s_i,j ^driver，指向副驾方向的fixed BF后输出的信号频谱为s_i,j ^co-driver。

多波束成形模块可以利用如下算式，计算每帧声音信号对应的抑制值g_i,j ^MFB：

上式中，“desired direction”表示期望方向，也就是声源定位模块确定出的声源方向，“driver direction”表示主驾方向，“co-driver direction”表示副驾方向，“if thedesired direction is driver direction”表示“如果声源方向为主驾方向”，“if thedesired direction is co-driver direction”表示“如果声源方向为副驾方向”。

多波束成形模块可以利用如下算式，计算抑制后的声音信号：

增益模块，用于统计预设时间段内来自于声源方向的声音信号的帧数量；根据统计得到的帧数量，确定当前帧声音信号对应的增益值；利用所述增益值，对所述当前帧声音信号进行增益处理。

举例来说，增益模块可以统计Buffer中flag＝1的帧数量，也就是统计包括当前帧在内的L帧声音信号(当前帧信号及其之前的L-1帧声音信号)中，来自于声源方向的声音信号的帧数量，然后，计算ρ＝帧数量/L。

然后利用如下算式，确定当前帧声音信号对应的增益值

其中，

表示当前帧的上一帧声音信号对应的增益值α表示平滑因子。

可以预先设定比值与平滑因子α的对应关系，举例来说，该对应关系可以表示为：

g_min为小于1的数值，或者也可以为小于0.5的数值，g_min根据实际情况进行设定，比如可以为0.3，

g_min可以理解为最小的增益值。

利用上述得到的增益值

对抑制后的当前帧声音信号

进行增益处理，得到处理结果：

一些车载场景中存在两个麦克风，这种车载场景可以称为双麦车载场景，在这种场景中如果采用现有的波束形成算法对声音信号进行语音增强处理，干扰信号的影响较强。

应用本实施方式可以减少干扰信号的影响，比如，如果主驾驶员在与车载设备的对话过程中，声源定位模块确定声源方向为主驾方向，则应用本实施方式可以对来自副驾方向的声音信号进行抑制，减少了干扰信号的影响。而且对声音信号进行平滑处理，这样使得各帧声音信号之间保持连续性，减少了失真的情况。

与上述方法实施例相对应，本发明例还提供了一种声音信号的处理装置，如图5所示，包括：

统计模块501，用于统计预设时间段内来自于声源方向的声音信号的帧数量；

第一确定模块502，用于根据统计得到的帧数量，确定当前帧声音信号对应的增益值；

增益模块503，用于利用所述增益值，对所述当前帧声音信号进行增益处理。

作为一种实施方式，所述装置还包括：计算模块、第二确定模块和抑制模块(图中未示出)，其中，

增益模块503具体用于：

作为一种实施方式，第二确定模块，具体用于：

所述抑制模块，具体用于：

作为一种实施方式，所述第二确定模块，具体用于：

利用如下算式，计算所述当前帧声音信号对应的抑制值：

其中，i表示帧序号，j表示频点的序号，第i帧为当前帧，

表示第i帧第j个频点指向声源方向的信号频谱，

所述抑制模块，具体用于：

利用如下算式，计算抑制后的当前帧声音信号：

作为一种实施方式，第一确定模块502可以包括：计算子模块和确定子模块(图中未示出)，其中，

作为一种实施方式，所述确定子模块，具体用于：

作为一种实施方式，所述装置还包括：

第三确定模块(图中未示出)，用于利用如下方式确定所述平滑因子：

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

本发明实施例还提供一种电子设备，如图6所示，包括存储器602、处理器601及存储在存储器602上并可在处理器601上运行的计算机程序，处理器601执行所述程序时实现上述任一种声音信号的处理方法。

本发明实施例还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述任一种声音信号的处理方法。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种声音信号的处理方法，其特征在于，包括：

统计预设时间段内来自于声源方向的声音信号的帧数量；

利用所述增益值，对所述当前帧声音信号进行增益处理；

所述根据统计得到的帧数量，确定当前帧声音信号对应的增益值，包括：计算所述帧数量与所述预设时间段内声音信号帧的总数量的比值，作为第三比值，根据预先设定的比值与增益值的对应关系，确定所述第三比值对应的增益值，作为当前帧声音信号对应的增益值。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述信号频谱以及确定的声源方向，确定所述当前帧声音信号对应的抑制值，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述信号频谱以及确定的声源方向，确定所述当前帧声音信号对应的抑制值，包括：

利用如下算式，计算所述当前帧声音信号对应的抑制值：

其中，i表示帧序号，j表示频点的序号，第i帧为当前帧，

表示第i帧第j个频点指向声源方向的信号频谱，

利用如下算式，计算抑制后的当前帧声音信号：

5.根据权利要求1所述的方法，其特征在于，所述根据预先设定的比值与增益值的对应关系，确定所述第三比值对应的增益值，作为当前帧声音信号对应的增益值，包括：

6.根据权利要求5所述的方法，其特征在于，所述平滑因子的确定

方式包括：

确定所述第四比值对应的平滑因子。

7.一种声音信号的处理装置，其特征在于，包括：

第一确定模块，用于根据统计得到的帧数量，确定当前帧声音信号对应的增益值；所述第一确定模块包括计算子模块和确定子模块，所述计算子模块用于计算所述帧数量与所述预设时间段内声音信号帧的总数量的比值，作为第三比值，所述确定子模块用于根据预先设定的比值与增益值的对应关系，确定所述第三比值对应的增益值，作为当前帧声音信号对应的增益值；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

所述增益模块，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述第二确定模块，具体用于：

所述抑制模块，具体用于：

10.根据权利要求8所述的装置，其特征在于，所述第二确定模块，具体用于：

利用如下算式，计算所述当前帧声音信号对应的抑制值：

其中，i表示帧序号，j表示频点的序号，第i帧为当前帧，

表示第i帧第j个频点指向声源方向的信号频谱，

所述抑制模块，具体用于：

利用如下算式，计算抑制后的当前帧声音信号：

11.根据权利要求7所述的装置，其特征在于，所述确定子模块，具体用于：

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

第三确定模块，用于利用如下方式确定所述平滑因子：

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任意一项所述的方法。