CN105931649A

CN105931649A - 基于频谱分析的超低时延音频处理方法与系统

Info

Publication number: CN105931649A
Application number: CN201610194961.XA
Authority: CN
Inventors: 梁维谦; 马桂林; 薛行栋; 朴志刚
Original assignee: Ostar Technology (xiamen) Co Ltd Hearing
Current assignee: Ostar Technology (xiamen) Co Ltd Hearing
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2016-09-07

Abstract

本发明涉及音频信号处理领域，涉及基于频谱分析的超低时延音频处理方法及系统。该方法包括步骤1对输入的时域音频信号进行分帧和短时频域变换；步骤2对短时频域变换后的音频信号经频域功能函数进行分析处理，得出各个时频单元的增益；步骤3对所述各个时频单元的增益进行优化；步骤4将优化后的增益作为合成线性相位的FIR滤波器的频响特征，通过频率抽样设计法计算得到FIR滤波器系数；步骤5，将FIR滤波器系数作用到FIR滤波器中，通过将步骤1的时域音频信号直接进行FIR滤波器滤波得到期望输出的音频信号。该系统包括短时频域变换模块，信号处理模块，平滑滤波模块，滤波器系数计算模块和滤波器应用模块，本发明能降低实时信号处理的群时延。

Description

基于频谱分析的超低时延音频处理方法与系统

技术领域

本发明涉及音频信号处理领域，尤其针对数字助听器的实时声音信号处理功能，提供超低时延的频谱分析方法及处理系统。

背景技术

目前在语音/音频信号处理领域，基于频谱分析的信号处理是极为常见做法。例如，均衡器，降噪，频谱搬移，反馈信号消除等最长见技术均是在频谱分析的基础上完成的。为了精确的分析频域信号特性，我们需要较高的频谱分辨率，但是越高的频谱分辨率会带来更高的信号群延时。

群延时在电话，手机，耳机，助听器和人工电子耳蜗等音频设备中至关重要，引入额外的信号通路延时可能对这些设备的性能和可用性造成重大的影响。在数字助听器中，佩戴者自己说话的声信号会通过气导、骨导及助听器放大传输到佩戴者的耳膜或锤骨。其中，通过助听器的声信号会延迟数毫秒。当声通道信号与放大信号叠加时，因不同频率的相位变化率不同，会造成某些频段声音的抵消，某些频段声音的放大。这个叫做梳状滤波效应。梳状滤波效应会变化助听器本身的原始频响，而这个影响会随着延时增大变得更加明显^【7】。另一方面，系统延时本身也会影响助听器的听感——若延时5ms，用户便可以感知到声延时^【1】；若延时10ms，用户会对自己发出的声音产生听感上的混淆；15ms以上的延时会降低语音辨析度^【2】。因此，系统延时越小越好，而在助听器中系统延时最大不可超过10ms,不然会对患者使用带来反面影响。

在音频处理中，一般我们会通过快速傅里叶变换(FFT)频域分析法实现多频带处理。根据FFT得出的频谱信号，进行一系列的频域信号处理，得出处理后的频谱数据。再使用快速傅里叶逆变换(IFFT)重叠相加合成还原相应时域输出信号，如图1所示。

此时，系统群延时包括A/D转换延时，信号处理延时，以及算法处理带来的延时，表示为：

D_group＝D_AD＋D_p＋D_win (1)

其中D_AD是A/D转换器把采集到的数据存入FIFO缓存所产生的延时，D_p是处理一帧信号所产生的延时，D_win是因系统窗结构引起的延时，属于算法延时。不同的系统根据需求会引用不同窗函数，甚至选择不同的系统结构。窗不仅可以处理帧与帧之间信号处理上的不连续性，同时也可以提高频谱分析特性^【2】。

在实时信号处理系统中，信号采样时间与信号处理时间均等于一帧信号长度，即：

D_p＝R/fs(2)

---------------------------------------------

D_AD＝R/fs (3)

式(2)，(3)中R是一帧信号的长度，fs是采样率。

这样，式(1)可被简化成：

D_group＝2R/fs＋D_win (4)

WOLA(Weighted Overlap Add)^【11】是助听器领域使用最广使用的时频分析方法，其系统框图如图2所示。时域输入信号为x(n,r)，时域输出信号为y(n,r)。其中n代表输入帧，r代表帧内采样点。时域输入信号x(n,r)经过WOLA分析模块运算得出频域信号X(n,k)，k是频域子带序号。处理模块通过频域输入信号X(n,k) 计算期望增益G(n,k)。处理模块包括助听器系统包含的所有频域处理算法，如WDRC，降噪，反馈抑制等。G(n,k)为所有算法输出增益整合后的值。频域输入信号X(n,k)应用期望增益G(n,k)后得出频域输出信号Y(n,k)，Y(n,k)通过WOLA合成模块转换为时域输出信号y(n,r)。

WOLA分析(WOLA-Analysis)的处理过程如图3所示，输入序列x(n,r)，存到长度为La的输入缓冲，与长度为La的分析窗Wa加权处理；将加权后的序列分成若干组，每组长度为N，然后将各组序列累加，再进行循环位移；最后通过快速傅里叶变换得到频域输入信号X(n,k)。

WOLA综合是WOLA分析的逆过程，如图4所示。其中，Ws是长度为Ls的合成窗；由图3和图4可知，分析窗和合成窗的长度分别为La和Ls，因此WOLA系统的窗延时为

D_win＝((La+Ls)/2-R)/fs (5)

从而可以得出WOLA群延时

目前助听器行业普遍采用16kHz采样，32个子带(K＝32，N＝64)的信号处理系统。因WOLA窗长度限制，参照优选窗配置表^【12】，选一对32子带的窗选项，即：La＝128,Ls＝64,N＝64,R＝16，代入到式(6)，可计算对应群延时

然而，助听器若想采用更高的频率分辨率，比如，采用N＝128，那对应的系统群延时会达到约14ms。这已经超过了助听器延时不能超过10ms的经验限制。

根据1961年Eberhard Zwicker发布的声学临界带宽模型(Bark scale criticalband)^【13】，人耳蜗低频段临界带宽范围在80Hz至160Hz之间。换句话说，一个16KHz采样率的助听器系统，若要达到人耳听觉系统的频率分辨率，那至少需要100个线性频带(N＝200)。

总而言之，系统群延时影响了助听器等实时音频系统的实时性与准确性，也限制了频率分辨率的提高，而如何能够提供一种降低实时音频系统群延时的方法成为了本领域技术人员迫切解决的问题。

发明内容

解决上述技术问题，本发明提出了一种基于频谱分析的超低时延音频处理方法及系统，可以大幅度降低实时信号处理的群时延。

为了达到上述目的，本发明所采用的技术方案是，一种基于频谱分析的超低时延音频处理方法，如图5所示，包括以下步骤：

步骤1，对输入的时域音频信号进行分帧和短时频域变换；

步骤2，对短时频域变换后的音频信号，经频域功能函数进行分析处理，得出各个时频单元的增益；

步骤3，对所述各个时频单元的增益进行优化，以降低音质失真；

步骤4，将优化后的增益作为合成线性相位的FIR滤波器的频响特征，通过频率抽样设计法计算得到FIR滤波器系数；

步骤5，将FIR滤波器系数作用到FIR滤波器中，通过将步骤1的时域音频信号直接进行FIR滤波器滤波得到期望输出的音频信号。

进一步的，所述步骤1中的短时频域变换为加权重叠相加分析(Weighted OverlapAdd Analysis,WOLA-a)。

进一步的，所述步骤2中的分析处理是根据具体算法功能的需求计算相应的增益，具体算法功能包含宽动态范围压缩算法，频谱降噪算法等任意频域声音信号处理算法。

进一步的，所述步骤3中的优化包括，采用加重移动平均模型(WeightedMovingAverage Method)^【4】，如式(7)所示：

其中k为子带序号；M为平滑的长度，在这里选为奇数；a为平滑向量。

进一步的，所述步骤4中的合成线性相位的FIR滤波器，具体包括：

使用频率抽样设计法设计FIR滤波器，把步骤3所得的增益值当作理想的频率响应，同时确保线性相位，如式(8)～(9)所示:

当N为偶数时,

当N为奇数时,

式中N为WOLA-a处理时FFT的点数；

将上述的滤波器的频率响应H(k)进行傅里叶逆变换(IFFT)得滤波器的系数h(n)，滤波器的长度为n＝N。

更进一步的，因本发明的输入信号是直接通过FIR滤波器滤波得出期望的输出信号，并没有通过窗函的分析或合成，这样本发明的群延时公式变化为：

其中，D_Filter是FIR滤波过程所产生的延时，其延时时长为：

其中，n为滤波器介数。

因n＝N，可以得出本发明的群延时公式：

本发明通过使用自适应FIR滤波器实现信号处理。通过式(6)减去式(12)可得出本发明相对传统WOLA信号处理系统的延时差异公式，如式(13)。

在WOLA滤波器组的参数设置当中，分析窗，合成窗和FFT的点数必须满足La≥Ls≥N≥2R；同时，La，Ls，N，R之间要满足倍数关系^【11】。另外,在OnsemiConductor公司提供的最优化的WOLA配置^【12】中，分析窗至少为帧长的4倍，即La≥4R；合成窗至少为帧长的2倍，即Ls≥2R。上述条件通过式(13)可得出：

因此，我们可以得出结论：本发明一种基于频谱分析的超低时延音频处理方法相对WOLA系统至少减少了1帧长度的群延时。

相应的，本发明还公开了一种基于频谱分析的超低时延音频处理系统，包括：

短时频域变换模块，用于将输入的时域音频信号进行分帧并变换到频域；

信号处理模块，用于对所述的短时频域变换后的音频信号，计算系统所需的增益；

平滑滤波模块，用于对所述的各个时频单元的增益进行平滑，以降低音质失真；

滤波器系数计算模块，用于对所述的平滑后的增益使用频率抽样设计法，计算滤波器的系数；

滤波器应用模块，用于将输入的时域音频信号通过所述的合成滤波器得到最终的时域音频信号输出。

本发明通过采用上述技术方案，与现有技术相比，具有如下优点：本发明提出的基于频谱分析的超低时延音频处理方法有效降低了算法延时，从而大幅度降低实时信号处理的群时延，并没有产生信号失真或谐波过大等不良效应。

本发明提出的基于频谱分析的超低时延音频处理系统，同样降低了理论系统延时，提高了产品的性能。

附图说明

图1信号频域处理系统框图。

图2 WOLA滤波器组处理系统框图。

图3 WOLA滤波器组处理系统流程图。

图4 WOLA分析处理系统框图。

图5 WOLA合成处理系统框图。

图6是本发明实施例的WDRC处理系统框图。

图7是本发明实施例的WDRC输入输出曲线图。

图8为算法延时对比图。

图9为原始输入时幅图。

图10为WOLA合成方式输出时幅图。

图11为FIR滤波方式输出时幅图。

图12为原始输入时频图。

图13为WOLA合成方式输出时频图。

图14为FIR滤波方式输出时频图。

具体实施方式

现结合附图和具体实施方式对本发明进一步说明。

作为一个具体的实施例，本发明采用基于超低时延FIR合成滤波器的宽动态范围压缩(WDRC)方法，如图6所示，主要包括如下步骤：

步骤1，输入缓冲更新与短时频域变换：即对输入的时域音频信号进行分帧和短时频域变换；

步骤2，频域信号处理：对短时频域变换后的音频信号，经频域功能函数进行分析处理，得出各个时频单元的增益；具体包含通道划分及通道能量估计、平滑处理、通道压缩增益计算、子带增益计算；

步骤3，增益平滑：对所述各个时频单元的增益进行优化，以降低音质失真；

步骤4，滤波器系数计算：将优化后的增益作为合成线性相位的FIR滤波器的频响特征，通过频率抽样设计法计算得到FIR滤波器系数；

步骤5，FIR滤波器滤波：将FIR滤波器系数作用到FIR滤波器中，通过将步骤1的时域音频信号直接进行FIR滤波器滤波得到期望输出的音频信号。

缓冲区的输入信号经过短时频域变换分成若干个子带(或说成频带)。将几个子带进行组合分成数个独立的频率区域，这些频率区域叫做通道。通道划分及通道能量估计要根据人耳对频率的感知特性进行能量与声压级的计算^【9】。WDRC的目的是根据每个通道的输入声压级，把输出声压级压缩至目标增益。目标增益是目标公式根据患者听损，及患者的其他信息(听损类型，性别，年龄，耳腔结构等)计算得出的^【7】。通常，PC端的验配软件会通过目标曲线预先计算出WDRC所需的阈值，压缩比等信息，存入助听器芯片中方便调用。增益还原步骤是将通道增益还原成子带的增益。增益平滑步骤通过对各子带的压缩增益进行平滑，以降低由于子带间的压缩增益偏差过大引起的吉布斯失真现象^【8】。滤波器系数计算步骤通过平滑后的增益做为频率响应，使用频率抽样设计法计算FIR滤波器系数。FIR滤波器滤波是将滤波器系数作用在FIR滤波器上，实时更新，再将输入信号通过滤波器滤波，得到声音压缩效果。

在本发明优选实施例中，采样率为16kHz，采样精度为16bit，信号以帧为单位进行处理，帧长是2ms，即每帧的采样点数R＝32。时频变换方法采用加权重叠相加分析(WOLA-a)，其中，La＝256，Ls＝128，N＝128，选择偶型变换。对应的时频变换后的频域子带数K＝64。将第n帧信号x(n,r)通过时频变换后得到第n帧的频域信号X(n,k)。其中k∈[0,K-1]，表示子带数。

进一步的，因X(n,k)＝a(n,k)+b(n,k)×i，X(n,k)可分为实部和虚部，分别为 a(n,k)、b(n,k)。

图6中示出的基于超低时延FIR合成滤波器的宽动态范围压缩(WDRC)实现方法实施例包括：

以下将上述步骤1至步骤5进一步展开，步骤1展开为步骤S1和步骤S2，步骤2展开为步骤S3至S5，步骤3展开为步骤S6，步骤4展开为步骤S7和步骤S8，步骤5展开为步骤S9。

步骤S1，图6中的短时频域变换模块采用加权重叠相加分析(WOLA-a)，对经麦克风采集、模数变换后的时域信号x(n,r)进行时频变化得到频域信号X(n,k)；

步骤S2，图6中的通道能量计算模块与子带增益计算模块采用人耳模型ERB(equivalent rectangular bandwidth)频标^【5】，进行通道分割与子带还原。其通道分割点的设定分别为：187.5Hz、562.5Hz、1062.5Hz、2062.5Hz、3737.5Hz、8000Hz。这样我们就可以将0～187.5Hz频段所包含的子带都划到通道1里来，将187.5～562.5Hz频段所包含的子带都划到通道2里来，对于其他通道数的情况，依次类推。其次，通过均方根公式计算通道能量P_RMS，并转换为声压级(Sound Pressure Level,SPL，单位为dB SPL)。因不同的麦克风有不同的输入灵敏度，因此，此时得出的声压级P_RMS需要与麦克风灵敏度Sen_mic结合才是助听器接收到的实际的声信号声压级。其具体步骤如下：假设通道M内有K个子带，而通道1～m-1共有M个子带，则通道m的能量均方根P_RMS(m)为：

声压级的定义为将待测声压有效值p(e)与参考声压p(ref)的比值取常用对数，再乘以20，即：其中参考声压p(ref)一般取空气参考声压，为2×10^-5帕。所以，通道m的声压级SPL(m)：

SPL(m)＝20log₁₀(P_RMS(m))+Sen_mic+94 (16)

其中，Sen_mic为麦克风灵敏度，94为转换到dB域上的参考声压。

步骤S3，频域信号处理部分中的平滑处理采用压缩释放公式进行，如式(17)所示，得出平滑后的输入声压级Y_SPL(m)：

其中α为跟踪时间(Attack Time)系数，β为释放时间(Release Time)系数。其取值方法为其中R为一帧的采样点数，fs为采样率，τ为时间常数。在本次优选实例中跟踪时间常数为12ms；当通道的中心频率小于500Hz时释放时间常数为125ms，大于500时为70ms。

步骤S4，通道压缩增益计算模块根据Y_SPL(n,m)和设置好的输入/输出函数关系曲线计算压缩增益。输入/输出函数关系曲线如图7所示，

压缩比定义为

通道压缩增益可以通过压缩比，输入拐点得出。因声压级处于对数域，所以该通道的经过动态范围压缩处理后的增益的计算要用如下公式计算：

其中LTh为WDRC输入拐点，m为通道数。在本发明的优选实例中，压缩比设定为CR＝3:1；输入拐点设定为LTh＝45dB SPL。

步骤S5，子带增益计算模块对所述的各个通道的增益还原成各个时频单元的增益，也就是使通道内的子带增益等于该通道的增益。

步骤S6，图6中增益平滑模块将步骤5所述的各个时频单元的增益通过式(7)提到的加重移动平均方法进行平滑，以进一步降低音质失真。在优选实例中使用5点平滑，即M＝5，对应的平滑向量a如式(20)所示。

a＝[0.07,0.25,0.36,0.25,0.07] (20)

步骤S7，所述的合成线性相位的FIR滤波器，使用频率抽样设计法设计FIR滤波器，把步骤6所得的增益值当作理想的频率响应进行计算。其中，增益值均为实数。为了保证信号连续性，滤波器要确保线性相位，具体公式如式(21)：

步骤S8，将H(k)进行IFFT得到滤波器系数h(n)。上述的步骤7与步骤8属于图6中的滤波器系数计算模块。

步骤S9，对用图6中FIR滤波器模块，将步骤8所述的滤波器系数h(n)应用到FIR滤波器中，对输入的时域信号进行滤波，得到期望的输出信号。

为了表述本发明提出的基于频谱分析的超低时延音频处理系统有更小的群延时，通过式(11)计算本发明的FIR滤波延时：

通过式(5)计算利用WOLA合成方式的窗延时：

D_win＝((256+128)/2-32)/fs＝160/fs (23)

图8为通过仿真输入单位冲击信号测试系统延时的结果。仿真过程没有加入A/D采样与系统处理时间，因此，图形上只包含算法部分带来的延时(即窗延时或滤波器延时)。图8(上)为输入单位冲击信号，其冲击点在第100个采样点。图8(中)为通过WOLA合成得出的输出信号，其冲击点在第260点。图8(下)为本发明——通过FIR滤波得出的输出信号，其冲击点在第163点与164点之间。也就是说，采用WOLA合成方式的系统延时为160个采样点，采用时变FIR滤波方式的系统延时为63.5个采样点，这与式(22)，式(23)计算得出的结果相吻合。

同样的，可以通过式(6)与式(12)分别计算使用WOLA合成方式的系统群延时以及使用FIR滤波方式的系统群延时

------------------

由此可见，传统的WOLA系统若采用64子带的频率分辨率，在16KHz采样率下系统延时达到了14ms，显然是不可接受的。然而，本发明提出的基于频谱分析的超低时延音频处理方法在同样采样率与频率分辨率下只产生了8ms的系统延时，在助听器可接受的延时时长范围内。

再者，通过扫频信号对WDRC压缩效果进行测试。测试音频输入声压级为94dBSPL，扫频频率从0Hz到8000Hz；通道的压缩比均设为3，压缩拐点设在45dB。图9为归一化的扫频输入信号的时域图。参考声压设定为94，因此，归一化后的0dB代表系统中94dB SPL。图10，图11分别为通过WOLA合成得出的时域信号与本发明提出的通过时变FIR滤波得出的时域输出信号。参照图9，图10和图11可知，扫频频率经过子带分割点与同道分割点时均产生了对应的能量抖动。图12，图13和图14是对应图9，图10和图11的时频图。图13和图14与图12比较可知，两种方法均在频域上产生了一定量的谐波，WOLA合成方式产生的谐波比FIR滤波方式产生的谐波较多一些。

总之，本发明提出的基于频谱分析的超低时延音频处理方法有效降低了算法延时60.31％，降低了理论系统延时42.86％，并没有产生信号失真或谐波过大等不良效应。

相应的，本实施例还公开了一种基于频谱分析的超低时延音频处理系统，包括：

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

参考文献：

[1]Moir J.(1976)On differential time delay.J Audio Eng Soc,24(9):752。

[2]Stone MA,Moore BCJ.(2003)Tolerable hearing aid delays.III.Effectson speech production and perception of across-frequency variation indelay.Ear&Hear,24(2):175-83。

[3]Oppenheim,Alan V.；Schafer,Ronald W.(1975).Digital signalprocessing.Englewood Cliffs,N.J.:Prentice-Hall.ISBN 0-13-214635-5。

[4]"Weighted Moving Averages:The Basics".Investopedia。

[5]Smith,Julius O.；Abel,Jonathan S.(10May 2007)."EquivalentRectangular Bandwidth".Bark and ERB Bilinear Transforms.Center for ComputerResearch in Music and Acoustics(CCRMA),Stanford University,USA.Retrieved20January 2013。

[7]Harvey Dillon,(2012).“Hearing Aids”.Thieme Medical Publishers Inc；2.ISBN:1604068108。

[8]Hewitt,Edwin；Hewitt,Robert E.(1979)."The Gibbs-Wilbrahamphenomenon:An episode in Fourier analysis".Archive for History of ExactSciences 21(2):129-160.doi:10.1007/BF00330404.Retrieved 16September2011.Available on-line at:National Chiao Tung University:Open Course Ware:Hewitt&Hewitt,1979。

[9]James M.Kates.Digital Hearing Aids[B].San Diego,CA 92123:PluralPublishing INC.2008,263-290。

[10]Zwicker,E.(1961),"Subdivision of the audible frequency range intocritical bands,"The Journal ofthe Acoustical Society of America,Volume 33,Issue 2,pp.248-248(1961)。

[11]Brennan,Robert,Schneider,Todd,“A Flexible Filterbank Structurefor Extensive Signal Manipulations in Digital Hearing Aids”.Circuits andSystems,1998.ISCAS'98。

[12]"Reference Manual：HEAR Configurable Accelerator",ONSemiconductor,(November 2009)。

[13]Julius O.Smith III and Jonathan S.Abel."The Bark FrequencyScale",CCRMA.Stanford.edu。

Claims

1.一种基于频谱分析的超低时延音频处理方法，其特征在于：包括以下步骤：

步骤1，对输入的时域音频信号进行分帧和短时频域变换；

2.根据权利要求1所述的一种基于频谱分析的超低时延音频处理方法，其特征在于：所述步骤1中的短时频域变换为加权重叠相加分析。

3.根据权利要求1所述的一种基于频谱分析的超低时延音频处理方法，其特征在于：所述步骤2中的分析处理是根据具体算法功能的需求计算相应的增益。

4.根据权利要求1所述的一种基于频谱分析的超低时延音频处理方法，其特征在于：所述步骤3中的优化包括采用加重移动平均模型，如式(7)所示：

5.根据权利要求1所述的一种基于频谱分析的超低时延音频处理方法，其特征在于：所述步骤4中的合成线性相位的FIR滤波器，具体包括：