CN106558315B

CN106558315B - 异质麦克风自动增益校准方法及系统

Info

Publication number: CN106558315B
Application number: CN201611094622.0A
Authority: CN
Inventors: 蔡钢林
Original assignee: Shenzhen Sahara Data Technology Co Ltd
Current assignee: Shenzhen Sahara Data Technology Co Ltd
Priority date: 2016-12-02
Filing date: 2016-12-02
Publication date: 2019-10-11
Anticipated expiration: 2036-12-02
Also published as: CN106558315A

Abstract

本发明提出一种异质麦克风自动增益校准方法和系统，其方法包括：获取麦克风信号，对所述信号进行信道噪音估算，计算噪音抑制控制因子并对所述信号修正，获得第一目标信号；对所述第一目标信号进行混响估算，计算混响控制因子并对所述第一目标信号修正，获得第二目标信号；对所述第二目标信号进行增益控制，获得第三目标信号。本发明可以有效抑制信道噪声而不对目标信号造成过分扭曲，同时对谐波结构进行修复，避免信号失真；同时可以自适应估算混响时间，保证混响抑制的准确性；采用各个频带分别计算幅度增益的方法，准确恢复各个频带信号，避免同比例扩大但是信号在各个频带分辨率并无改善的缺点。

Description

异质麦克风自动增益校准方法及系统

技术领域

本发明涉及到噪音控制领域，特别是涉及到一种异质麦克风自动增益校准方法及系统。

背景技术

麦克风语音采集系统通过传感器感知声压信号并转为数字信号，实现采集环境中声音信号的目的。不同的麦克风根据具体的应用有着不同的敏感性，比如有些应用麦克风与声源存在一定距离，需要麦克风有着较高的敏感性，才能保证信号不丢失，带来的不利影响是会放大系统噪声；如果降低麦克风的敏感性，固然系统噪声不至于太大，然而目标信号也同时会存在损失的缺陷。不同的智能终端会根据实际应用的特点，对这二者做一个折中平衡。整体而言，不同的智能终端所内置的麦克风存在的系统噪声大小、不同的频率段增益值各有不同，对同一信号采集存在差异性，即“异质性”。

近年来随着互联网技术、智能硬件的蓬勃发展，语音识别、声纹识别、声源检测等语音智能交互技术开始从实验室走向用户。这些声信号处理技术主要基于一定的数据库，通过机器学习技术进行建模，实现智能交互的目的。然而，在实际应用中，语音等音频信号存在数据来源的多样性特点，即所谓的“异质性”，会造成训练模型与实际应用的适配，影响智能交互的准确性。

异质性主要由三个主要原因造成：

(1)声信号采集设备，即麦克风，存在的信道噪声，并且不同智能终端信道噪声在能量大小、频率分布上各有不同；

(2)不同的麦克风采集设备在各个频带增益存在不同；

(3)由于麦克风与目标声源距离的变化，造成信号采集上的差异。

发明内容

本发明的主要目的为提供一种异质麦克风自动增益校准方法，解决声音信号的异质性。

本发明提出一种异质麦克风自动增益校准方法，包括以下步骤：

对信号进行信道噪音估算，计算噪音抑制控制因子并对所述信号修正，获得第一目标信号；

对所述第一目标信号进行混响估算，计算混响控制因子并对所述第一目标信号修正，获得第二目标信号；

对所述第二目标信号进行增益控制，获得第三目标信号。

优选地，所述对信号进行信道噪音估算，计算噪音抑制控制因子并对所述信号修正，获得第一目标信号的步骤包括：

假设信号由目标信号和信道噪音组成，对信号做傅里叶变换；

对所有频率k，初始化噪音功率谱设定为λ_V(0,k)＝0，目标信号功率谱设定为λ_X(0,k)＝0，先验信噪比ε(0,k)＝0，后验信噪比为γ(0,k)＝0；

设置平滑因子，更新噪音功率谱密度；

根据更新后的噪音功率谱密度和目标信号功率谱计算先验信噪比，根据更新后的噪音功率谱密度和信号功率谱密度计算后验信噪比；

根据先验信噪比和后验信噪比计算噪音抑制控制因子；

修正噪音抑制控制因子并对所述信号修正，获得第一目标信号；

根据第一目标信号计算新的目标信号功率谱。

优选地，所述噪音抑制控制因子可由以下公式获得：

其中，G(l,k)为噪音抑制控制因子，γ(l，k)为后验信噪比，ε(l，k)为先验信噪比，l为时间帧变量，k为频率变量。

优选地，所述对所述第一目标信号进行混响估算，计算混响控制因子并对所述第一目标信号修正，获得第二目标信号的步骤包括：

计算所述第一目标信号各个频率的混响衰减因子；

将第一目标信号分解为直达分量和混响分量，更新混响分量功率谱密度和直达分量功率谱密度；

根据更新后的混响分量功率谱密度和直达分量功率谱密度计算混响权重因子；

计算混响控制因子，获得第二目标信号。

优选地，所述混响分量功率谱密度是由以下公式获得：

λ_X,Late(l,k)＝αexp(-2χ(k)N_e)λ_X,Late(l-1,k)+(1-α)λ(l,k)

其中，λ_X，Late(l,k)为更新后的混响分量功率谱密度，

α为平滑因子，

N_e为傅里叶变换窗长，

λ_X，Late(l-1,k)为未更新的混响分量功率谱密度，

χ(k)为频率为k的混响衰减因子，

λ(l,k)为时间为l，频率为k的信号功率谱密度。

优选地，所述混响权重因子是由以下公式获得：

其中，为先验混响权重因子，为后验混响权重因子，λ_X,D(l-1,k)为更新前的混响分量功率谱密度，λ_X，Late(l,k)为更新后的混响分量功率谱密度，为第一目标信号。

优选地，所述混响控制因子是由以下公式获得：

其中，G_D(l,k)为混响控制因子，ρ为安全门限。

优选地，所述对所述第二目标信号进行增益控制，获得第三目标信号的步骤包括：

设定所述第二目标信号指定时间前所有时间帧假设为静音帧，计算各个频带能量的平均值；

计算静音帧各个频带能量变化的方差；

计算静音帧各帧总能量，并追踪最大值；

计算目标声源活动频带数量指数；

判断目标声源信号的存在，若不存在，则将第二目标信号输出，再经傅立叶逆变化生成第三目标信号；若存在，缓冲设定时长数据，并计算缓冲区内各帧能量值；

判断缓冲区内能量最大值是否大于当前最大值，若否，则将第二目标信号输出，再经傅立叶逆变化生成第三目标信号；若是，则计算各频带增益控制因子，并对第二目标信号进行校准，将校准后的信号经傅立叶逆变化生成第三目标信号。

优选地，所述目标声源活动频带数量指数可由以下公式获得：

其中，Λ(l,k)为频率为k的目标声源活动频带数量指数，

Λ(l)为目标声源活动频带数量指数总数，

为第二目标信号，

为第二目标信号各个频带能量的平均值，

υ_D(k)为静音帧各个频带能量变化的方差，

k为频率，K为最大频率。

优选地，所述增益控制因子及校准后的第二目标信号可由以下公式获得：

其中，μ(l,k)为增益控制因子，

X_F(l,k)为校准后的第二目标信号，

Δ(k)为频带相关增益控制自适应因子，

η_max为能量最大值，

S_D(l)为静音帧各帧总能量，

为第二目标信号。

优选地，所述频带相关增益控制自适应因子Δ(k)可由以下公式获得：

其中，k为频率，K为最大频率。

本发明还提出了一种异质麦克风自动增益校准系统，包括：

噪音控制模块，用于获取麦克风信号，对所述信号进行信道噪音估算，计算噪音抑制控制因子并对所述信号修正，获得第一目标信号；

混响控制模块，用于对所述第一目标信号进行混响估算，计算混响控制因子并对所述第一目标信号修正，获得第二目标信号；

增益控制模块，用于对所述第二目标信号进行增益控制，获得第三目标信号。

本发明提出一种异质麦克风自动增益校准方法和系统，其方法包括：对信号进行信道噪音估算，计算噪音抑制控制因子并对所述信号修正，获得第一目标信号；对所述第一目标信号进行混响估算，计算混响控制因子并对所述第一目标信号修正，获得第二目标信号；对所述第二目标信号进行增益控制，获得第三目标信号。本发明可以有效抑制信道噪声而不对目标信号造成过分扭曲，同时对谐波结构进行修复，避免信号失真；同时可以自适应估算混响时间，保证混响抑制的准确性；采用各个频带分别计算幅度增益的方法，准确恢复各个频带信号，避免同比例扩大但是信号在各个频带分辨率并无改善的缺点。

附图说明

图1为本发明一种异质麦克风自动增益校准方法实施例的流程示意图；

图2为本发明一种异质麦克风自动增益校准方法实施例的信道噪声控制流程图；

图3为本发明一种异质麦克风自动增益校准方法实施例的混响控制流程图；

图4为本发明一种异质麦克风自动增益校准方法实施例的频带独立自适应控制流程图；

图5为本发明一种异质麦克风自动增益校准系统实施例的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明提出一种异质麦克风自动增益校准方法，包括以下步骤：

S10、获取麦克风信号，对所述信号进行信道噪音估算，计算噪音抑制控制因子并对所述信号修正，获得第一目标信号；

S20、对所述第一目标信号进行混响估算，计算混响控制因子并对所述第一目标信号修正，获得第二目标信号；

S30、对所述第二目标信号进行增益控制，获得第三目标信号。

信道噪声有着平稳性的特点，即能量分布随时间变化的信道噪声功率谱密度保持不变。本发明正是依据该特点设计相关增益函数。S10具体步骤如下所示：

(1)假设麦克风采集信号为y(t)＝x(t)+v(t)，其中x(t)为目标语音信号，v(t)为信道噪声。首先对时域信号做傅里叶变换至频谱域：

其中，w(t)为长度512的汉宁窗，l为时间帧坐标，k为频率坐标。

(2)对所有频率k，初始化噪音功率谱估算为λ_V(0,k)＝0，目标信号功率谱估算为λ_X(0,k)＝0，先验信噪比ε(0,k)＝0，后验信噪比为γ(0,k)＝0。

(3)对所有频率，更新噪音功率谱估算为：

λ_V(l,k)＝αλ_V(l-1,k)+(1-α)|Y(l,k)|² (2)

其中，α为平滑因子，取值范围为0到1之间，本项发明平滑因子设定为0.95。

(4)对所有频率k，计算先验信噪比和后验信噪比：

(5)对所有频率k，计算信道噪声抑制控制因子：

该控制因子和现有的基于维纳滤波理论的控制因子相比，考虑了目标信号与信道噪声的相位差异，噪声抑制效果更好。

(6)修正控制因子与目标信号估算。噪声抑制控制因子大于1不会起到抑制信道噪声的效果。为了避免公式(4)所导致G(l,k)大于1的情况。本项发明设定了一个阈值以修正控制因子，第一目标信号估算如下：

本实施例中阈值设定为σ＝0.98。

此步骤可获得扣除信道噪音之后的信号，即第一目标信号。

(7)更新目标信号功率谱估算：

其中步骤(7)所输出的目标信号功率谱返回至步骤(3)用以迭代估算下一帧先验信噪比和后验信噪比估算。步骤(6)输出目标语音信号，用以下一阶段混响抑制等相关处理。

本步骤数据流程图如图3所示。信道噪声抑制模块输出信号可以分解为直达信号和混响分量之和，即步骤S20旨在估算混响分量，并通过一个自适应控制因子进行抑制，详述如下：

(1)初始化直达分量与混响分量功率谱密度，即λ_X,D(0,k)＝0和λ_X,Late(0,k)＝0。

(2)计算各个频率混响衰减因子：

其中f_s为采样率。

(3)更新混响分量功率谱密度估算：

λ_X,Late(l,k)＝αexp(-2χ(k)N_e)λ_X,Late(l-1,k)+(1-α)λ(l,k) (8)

其中α为平滑因子和上一模块设置相同，N_e为傅里叶变换窗长，本项发明窗长为512。

(4)计算混响权重因子，混响权重因子用以控制混响分量：

(5)计算混响控制因子：

其中，ρ为安全门限，本项发明设置为ρ＝0.1。

(6)计算目标信号直达分量：

目标信号直达分量即为第二目标信号。

(7)更新目标新直达分量功率谱密度：

其中步骤(6)输出结果用以下一模块输入，步骤(7)计算结果用以混响权重因子计算。

如图4所示，步骤S30以混响抑制模块输出目标信号直达分量估算作为输入，计算各个频带的增益控制因子，避免目标声源远距离情况下能量过低。详细过程如下所述：

(1)假定麦克风采集信号的前1秒没有目标信号，即前1秒所有时间帧假设为静音帧，计算各个频带能量的平均值：

L为前1秒数据帧长，假设采样率为16KHz，本项发明采用的帧长为512，帧移256，则L＝62。

(2)计算静音帧各个频带能量变化的方差：

该方差用以判断是否有目标声源出现。

(3)计算静音帧各帧总能量，并追踪最大值：

η_max＝max{S_D(l)|l＝1,2,...,L} (15)

(4)目标声源活动检测，判断是否有目标声源。计算目标声源活动频带数

量指数如下：

如果Λ(l)大于K/2，则认为出现目标声源转移至步骤(5)否则跳转至步骤(7)。

(5)如果存在目标声源信号，缓冲0.5秒数据，并计算缓冲区内各帧能量值

其中，Θ代表缓冲区内时间坐标集合。

(6)对比缓冲区内各帧能量与当前能量最大值

(6a)如果缓冲区内能量最大值大于当前最大值η_max，即更新最大值估算η_max＝S_D,max(l),l∈Θ

(6b)否则计算各频带增益控制因子，并做目标信号频谱校准：

其中，X_F(l,k)为校准后的目标信号频谱，Δ(k)为频带相关增益控制自适应因子，本项发明基于麦克风采集设备更容易损失能量的特点，高频采用更高的增益值，定义如下：

(7)傅里叶逆变换并输出时域信号，逆变换如下所示：

其中x_F(t)即为经过自适应增益控制的时域输出信号，即第三目标信号。

如图5所示，本发明还提出了一种异质麦克风自动增益校准系统，包括：

本公开可在设备、系统、方法和/或计算机程序产品中体现。所述计算机程序产品可包括计算机可读存储媒介(或介质)，其上具有计算机可读程序指令，用于致使处理器进行本公开的方面。

计算机可读存储媒介可为可保持和存储指令供指令执行装置使用的有形装置。计算机可读存储媒介可例如为但不限于电子存储装置、磁性存储装置、光学存储装置、电磁存储装置、半导体存储装置，或前述各项的任何合适组合。计算机可读存储媒介的较具体实例的非详尽列表包括以下各项：便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、静态随机存取存储器(SRAM)、便携式压缩光盘只读存储器(CD-ROM)、数字多功能磁盘(DVD)、存储棒、软磁盘、例如上面记录有指令的穿孔卡片或凹槽中的凸起结构等机械编码的装置，以及前述各项的任何合适组合。如本文所使用，并不将计算机可读存储媒介解释为暂时性信号本身，例如无线电波或其它自由传播的电磁波、传播穿过波导管或其它传输介质的电磁波(例如，穿过光纤缆线的光脉冲)，或穿过电线传输的电信号。

可将本文所描述的计算机可读程序指令从计算机可读存储媒介下载到相应的计算/处理装置，或经由例如因特网、局域网、广域网和/或无线网络等网络下载到外部计算机或外部存储装置。所述网络可包括铜传输缆线、光学传输光纤、无线传输、路由器、防火墙、交换器、网关计算机和/或边缘服务器。每一计算/处理装置中的网络适配卡或网络接口接收来自网络的计算机可读程序指令，并转发所述计算机可读程序指令，以供存储在相应计算/处理装置内的计算机可读存储媒介中。

用于进行本公开的操作的计算机可读程序指令可为汇编程序指令、指令集架构(ISA)指令、机器指令、机器相关指令、微码、固件指令、状态设置数据，或以一个或多个编程语言的任何组合编写的任何源代码或目标代码，所述编程语言包括以目标为导向的编程语言，例如Smalltalk、C++等；以及常规程序编程语言，例如“C”编程语言或类似的编程语言。计算机可读程序指令可完全在用户的计算机上、部分地在用户的计算机上、作为独立软件封装、部分地在用户的计算机上和部分地在遥远计算机上或完全在遥远计算机或服务器上执行。在后者场景中，遥远计算机可通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或可进行到外部计算机的连接(例如，使用因特网服务提供商通过因特网)。在一些实施方案中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以个人化电子电路，以便执行本公开的方面。

本文根据本公开的实施方案，参考方法、设备(系统)以及计算机程序产品的流程图说明和/或框图来描述本公开的方面。将理解，流程图说明和/或框图中的每个框，以及流程图说明和/或框图中的框的组合可由计算机可读程序指令实施。

可将这些计算机可读程序指令提供给生产机器的通用计算机、专用计算机或其它可编程数据处理设备的处理器，使得经由所述计算机或其它可编程数据处理设备执行的指令创建用于实施流程图和/或框图框中所指定的功能/动作的构件。这些计算机可读程序指令也可存储在计算机可读存储媒介中，其可指导计算机、可编程数据处理设备和/或其它装置以特定方式起作用，使得里面存储有指令的计算机可读存储媒介包括制品，所述制品包括实施流程图和/或框图框中所指定的功能/动作的方面的指令。

计算机可读程序指令也可加载到计算机、其它可编程数据处理设备或其它装置上，以致使一系列操作步骤在计算机、其它可编程设备或其它装置上执行，以产生计算机实施的过程，使得在计算机、其它可编程设备或其它装置上执行的指令实施流程图和/或框图框中所指定的功能/动作。

图中的流程图和框图示出了根据本公开各种实施方案的系统、方法和计算机程序产品的可能实施方式的架构、功能性和操作。在这点上，流程图或框图中的每一框可表示指令的模块、片段或部分，其包括用于实施指定逻辑功能的一个或多个可执行指令。在一些替代实施方式中，框中所述的功能可以与图中所述的次序不同的次序发生。举例来说，连续示出的两个框事实上可大体上同时执行，或所述框可有时以反向次序执行，取决于所涉及的功能性。还将注意，框图和/或流程图说明的每一框，以及框图和/或流程图说明中的框的组合，可由执行指定功能或动作或进行专用硬件和计算机指令的组合的基于专用硬件的系统来实施。

虽然前述内容是针对本公开的实施方案，但在不脱离本公开的基本范围的情况下，设想本公开的其它和另外的实施方案，且本公开的范围由所附权利要求书决定。

Claims

1.一种异质麦克风自动增益校准方法，其特征在于，包括以下步骤：

获取麦克风信号，对所述信号进行信道噪音估算，计算噪音抑制控制因子并对所述信号修正，获得第一目标信号；

对所述第二目标信号进行增益控制，获得第三目标信号。

2.根据权利要求1所述的异质麦克风自动增益校准方法，其特征在于，所述对信号进行信道噪音估算，计算噪音抑制控制因子并对所述信号修正，获得第一目标信号的步骤包括：

对所有频率k，初始化噪音功率谱设定为λ_V(0，k)＝0，目标信号功率谱设定为λ_X(0，k)＝0，先验信噪比ε(0，k)＝0，后验信噪比为γ(0，k)＝0；

设置平滑因子，更新噪音功率谱密度；

根据先验信噪比和后验信噪比计算噪音抑制控制因子；

根据第一目标信号计算新的目标信号功率谱。

3.根据权利要求2所述的异质麦克风自动增益校准方法，其特征在于，所述噪音抑制控制因子可由以下公式获得：

其中，G(l，k)为噪音抑制控制因子，γ(l，k)为后验信噪比，ε(l，k)为先验信噪比，l为时间帧变量，k为频率变量。

4.根据权利要求1所述的异质麦克风自动增益校准方法，其特征在于，所述对所述第一目标信号进行混响估算，计算混响控制因子并对所述第一目标信号修正，获得第二目标信号的步骤包括：

计算所述第一目标信号各个频率的混响衰减因子；

计算混响控制因子，获得第二目标信号。

5.根据权利要求4所述的异质麦克风自动增益校准方法，其特征在于，所述混响分量功率谱密度是由以下公式获得：

λ_X，Late(l，k)＝αexp(-2χ(k)N_e)λ_X，Late(l-1，k)+(1-α)λ(l，k)

其中，λ_X，Late(l，k)为更新后的混响分量功率谱密度，

α为平滑因子，

N_e为傅里叶变换窗长，

λ_X，Late(l-1，k)为未更新的混响分量功率谱密度，

χ(k)为频率为k的混响衰减因子，

λ(l，k)为时间为l，频率为k的信号功率谱密度。

6.根据权利要求5所述的异质麦克风自动增益校准方法，其特征在于，所述混响权重因子是由以下公式获得：

其中，为先验混响权重因子，为后验混响权重因子，λ_X，D(l-1，k)为更新前的混响分量功率谱密度，λ_X，Late(l，k)为更新后的混响分量功率谱密度，为第一目标信号。

7.根据权利要求6所述的异质麦克风自动增益校准方法，其特征在于，所述混响控制因子是由以下公式获得：

其中，G_D(l，k)为混响控制因子，ρ为安全门限。

8.根据权利要求1所述的异质麦克风自动增益校准方法，其特征在于，所述对所述第二目标信号进行增益控制，获得第三目标信号的步骤包括：

计算静音帧各个频带能量变化的方差；

计算静音帧各帧总能量，并追踪最大值；

计算目标声源活动频带数量指数；

9.根据权利要求8所述的异质麦克风自动增益校准方法，其特征在于，所述目标声源活动频带数量指数可由以下公式获得：

其中，Λ(l，k)为频率为k的目标声源活动频带数量指数，

Λ(l)为目标声源活动频带数量指数总数，

为第二目标信号，

为第二目标信号各个频带能量的平均值，

υ_D(k)为静音帧各个频带能量变化的方差，

k为频率，K为最大频率。

10.根据权利要求8所述的异质麦克风自动增益校准方法，其特征在于，所述增益控制因子及校准后的第二目标信号可由以下公式获得：

其中，μ(l，k)为增益控制因子，

X_F(l，k)为校准后的第二目标信号，

Δ(k)为频带相关增益控制自适应因子，

η_max为能量最大值，

S_D(l)为静音帧各帧总能量，

为第二目标信号。

11.根据权利要求10所述的异质麦克风自动增益校准方法，其特征在于，所述频带相关增益控制自适应因子Δ(k)可由以下公式获得：

其中，k为频率，K为最大频率。

12.一种异质麦克风自动增益校准系统，其特征在于，包括：