CN113409817B

CN113409817B - 一种基于声纹技术的音频信号实时追踪比对方法

Info

Publication number: CN113409817B
Application number: CN202110704405.3A
Authority: CN
Inventors: 许国法
Original assignee: Zhejiang Songhui Technology Co ltd
Current assignee: Zhejiang Songhui Technology Co ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2022-05-13
Anticipated expiration: 2041-06-24
Also published as: CN113409817A

Abstract

本发明属于信号处理领域，公开了一种基于声纹技术的音频信号实时追踪比对方法。首先获取源声纹和目标声纹向量置入相应矩阵缓存；然后计算源声纹与目标声纹的欧式距离，得到欧式距离矩阵Dxs；判断上次延迟时间、Dxs最小值对应延迟时间、Dxs行算数平均数最小值对应延迟时间；分别计算延迟时间对应相似度，通过相似度进行延迟时间二次判定；对于延迟时间相似与不相似状态跃变，引入延迟处理机制；通过输出延迟时间对齐源音频与目标音频；计算相应通道在线指标；如此重复循环动态跟踪源音频与目标音频。本发明基于声纹技术,利用倒谱分析，在环境干扰较大时，播出信号和空收信号能持续动态对齐，计算出播出信号和空收信号的延迟量。

Description

一种基于声纹技术的音频信号实时追踪比对方法

技术领域

本发明属于信号处理领域，尤其涉及一种基于声纹技术的音频信号实时追踪比对方法。

背景技术

在广播转播台的安全播出监测中，为了客观分析和度量发射机的性能指标，需要对送入发射机的播出信号（以下简称播出信号）和发射后播出空收回传信号（以下简称空收信号）进行对比。

广播信号，特别是中波信号极易受到天气、环境等影响和干扰，诸如太阳黑子活动、大气层变化的影响，空收信号与播出信号差异较大。因此，播出信号和空收信号对齐一直是难题，传统采用音频包络对比和能量值比对的方法，在一定程度内可以实现信号的动态对齐，但是随着干扰的增大，极易造成对齐同步丢失。

发明内容

本发明目的在于提供一种基于声纹技术的音频信号实时追踪比对方法,以解决当环境干扰较大时，播出信号和空收信号对齐同步丢失的技术问题。

为解决上述技术问题，本发明的一种基于声纹技术的音频信号实时追踪比对方法的具体技术方案如下：

一种基于声纹技术的音频信号实时追踪比对方法，包括如下步骤：

P1：计算声纹，定义播出音频为源音频，空收音频为目标音频，对播出音频和空收音频进行预处理，分别获取源声纹和目标声纹向量，并置入相应矩阵缓存；

P2：计算向量距离，以目标声纹为轴，按最小步进以秒为单位分别计算源声纹与目标声纹的欧式距离，计算得到欧式距离矩阵Dxs；

P3：初步判定延时时间，通过欧式距离矩阵Dxs，判断上次延迟时间t_last、Dxs最小值对应延迟时间t_min、Dxs行算数平均数最小值对应延迟时间t_line；

P4：细化判定延迟时间，分别计算t_last、t_min 、t_line对应相似度，通过相似度进行延迟时间二次判定；

P5：跃变判定，对于延迟时间相似与不相似状态跃变，引入延迟处理机制；若发生相似到不相似状态跃变，或者不相似到相似状态跃变，则定义sim_min下限阈值和sim_max上限阈值，分别对应两个状态的跃变，如果n次均低于sim_min下限阈值或高于sim_max上限阈值，表示状态跃变成功；

P6：对齐音频，通过输出延迟时间对齐源音频与目标音频；

P7：计算源音频与目标音频相应通道在线指标；

P8：重复P1- P7，循环动态跟踪源音频与目标音频。

进一步地，所述预处理包括如下步骤：

S1：预加重，补偿高频部分；

S2：分帧，多个采样点划分为帧；

S3：加窗，使用汉明窗用于平滑信号，减弱FFT以后旁瓣大小以及频谱泄露；

S4：快速傅里叶变换，将时域特征转换为频域上分布；

S5：幅度谱平方，转换为功率谱；

S6：梅尔带通滤波器滤波，对频谱进行平滑化，消除谐波，突显共振峰；

S7：对数功率，加上一帧的对数能量；

S8：离散余弦变换，把梅尔滤波器的对数能量进行离散余弦变换，取低频部分，得出L阶的MFCC系数；

S9：动态差分提取，语音的动态特性用静态特征的差分谱来描述；

S10：计算声纹，MFCC系数与一阶差分、二阶差分叠加为最终声纹。

进一步地，所述P1是对比方法的起点，对源音频进行预处理，音频采样频率为16Khz，hop=500，1秒MFCC特征信息输出{13*32}矩阵，MFCC特征信息、Deltas一阶微分系数、Delta-Deltas二阶加速度系数三组向量叠加{39*32}，并以20s为分析时隙，输出{39*640}矩阵；同样对目标音频进行预处理，获取到39维目标声纹特征向量，输出{39*640}矩阵。

进一步地，所述P2的欧式距离矩阵Dxs，从目的音频中间n/2秒处，逐秒顺序计算与源音频的欧式距离，计算秒数n/2；设置目标音频步进为1，对应音频偏移Rate/hop，重复上述计算，得到下一组；直至目标音频步进到矩阵最后一秒为止，最终生成对角线矩阵Dxs。

进一步地，所述P3初步判定延时时间，对上次延迟时间t_last、Dxs最小值对应延迟时间t_min、Dxs行算数平均数最小值对应延迟时间t_line判定，如果三者对应延时一致，则无需进行二次细化判定，如计算延时超出阈值，则判定为不相似音频。

进一步地，所述P4细化判定延迟时间，把上次延迟时间t_last、Dxs最小值对应延迟时间t_min、Dxs行算数平均数最小值对应延迟时间t_line代入到音频波形中，分别计算经过延时对齐的音频的余弦相似度，若相似度大于规范值，则选择余弦相似度最高值对应延时，如均小于规范值，则二次判定为不相似。

进一步地，所述P6对齐音频，若源音频与目标音频波形相似，则输出延迟时间，并对齐源音频与目标音频；使用对齐后的波形，计算音频通道在线指标。

本发明的一种基于声纹技术的音频信号实时追踪比对方法具有以下优点：

本发明基于声纹技术,利用倒谱分析，在环境干扰较大时，播出信号和空收信号能持续动态对齐，计算出播出信号和空收信号的延迟量。

附图说明

图1为本发明的倒谱分析流程框图；

图2为本发明的基于声纹技术的音频信号实时追踪比对方法流程图；

图3为本发明基于声纹技术的音频信号实时追踪比对方法具体应用流程图。

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种基于声纹技术的音频信号实时追踪比对方法做进一步详细的描述。

本发明基于声纹技术为基础。根据语音生成的理论模型，语音信号是由激励信号和信道冲激响应信号卷积产生的，而解卷就是把卷积信号的各种分量分开。发明方法采用声纹向量技术，本质是非参数解卷（又叫同态解卷积），也就是倒谱分析。

梅尔倒谱系数（Mel-scale Frequency Cepstral Coefficients，简称MFCC），MFCC特征提取包含梅尔声谱图、倒谱分析两个关键步骤。

梅尔声谱图首先对时域信号进行傅里叶变换转换到频域，然后使用梅尔频率刻度的滤波器组对应频域信号进行切分，最后每个频率段对应一个数值。

梅尔刻度是一种基于人耳对等距的音高(pitch)变化的听觉特性，与频率关系为：

，其中m为梅尔刻度，f为频率。

频谱由频谱包络和频谱细节，倒谱分析目的是从频谱中分离得到频谱包络，声音频域的包络是辨别声音的重要信息，用于作为语音特征。倒谱分析首先对梅尔声谱图取log，然后做离散余弦变换DCT，保留前13个系数就得到了MFCC特征值。

MFCC获取一帧语音上的能量谱包络，为提高语音识别力，提升对噪声的鲁棒性，提高抗干扰能力，加入语音信号的动态信息，一阶差分deltas和二阶差分deltas-deltas表示微分系数和加速度系数。其中，

，t为帧序列，N为帧的大小。

首先对语音信号进行预处理，如图1所示，为本发明的预处理流程，用来获取播出信号和空收信号的声纹。主要包含以下步骤：

S1：预加重，补偿高频部分；

S2：分帧，多个采样点划分为帧；

S4：快速傅里叶变换，将时域特征转换为频域上分布；

S5:幅度谱平方，转换为功率谱；

S6:梅尔带通滤波器滤波，对频谱进行平滑化，消除谐波，突显共振峰；

S7:对数功率，音量也是语音的重要特征，加上一帧的对数能量；

S8:离散余弦变换，把梅尔滤波器的对数能量进行离散余弦变换，取低频部分，得出L阶的MFCC系数；

S9:动态差分提取（包括一阶差分和二阶差分），语音的动态特性用静态特征的差分谱来描述,提高系统的识别性能；

S10:声纹，MFCC与一阶、二阶差分叠加为最终声纹。

其中，S1预加重，设定

高通滤波器，

=0.97。实施中使用公式

。

S2分帧，音频监测中，采样频率为16KHz，帧长度为512采样点，帧时间为512/16000×1000=32ms。

S3加汉明窗，实施中使用公式

，其中，N为帧的大小。

S4-S5快速傅里叶变化，实现时域信号转化到频域分析，过程包括转换为幅度谱，然后平方转换到功率谱。

S6梅尔滤波，采用的滤波器为三角滤波器。音频采样率为16KHz，最低频率为0Hz， fmax=8KHz滤波器个数为26，帧大小为512，则傅里叶变换点数为512。利用

，换算Mel频率，最低Mel频率为0，最高Mel频率为2840.02，中心频率距离为：(2840.02-0)/(26+1)=105.19，得到Mel滤波器组的中心频率：[0，105.19， 210.38，...，2840.02]，最后计算实际频率组对应的FFT点下标组：[0,2,4,7,10,13, 16，...，256]。

S8离散余弦变换，把每个滤波器的对数能量带入离散余弦变换，取L阶MFCC系数，本方法L=13。

S9 动态差分提取声纹向量为MFCC向量叠加一阶差分系数、二阶差分系数，获取39维向量，即N维声纹向量=（N/3 MFCC系数+ N/3 一阶差分参数+ N/3 二阶差分参数），N=39。

如图2所示，为本发明的音频信号动态追踪对比方法，主要包含以下步骤：

P1计算声纹，定义播出音频为源音频，空收音频为目标音频，按照预处理的算法分别获取源声纹和目标声纹向量，并置入相应矩阵缓存；

P2计算向量距离，以目标声纹为轴，按最小步进以秒为单位分别计算源声纹与目标声纹的欧式距离，计算得到欧式距离矩阵Dxs；

P3初步判定延时时间，通过欧式距离矩阵Dxs，判断上次延迟时间t_last、Dxs最小值对应延迟时间t_min、Dxs行算数平均数最小值对应延迟时间t_line；

P4 细化判定延迟时间，分别计算t_last、t_min 、t_line对应相似度，通过相似度进行延迟时间二次判定；

P5 跃变判定，对于延迟时间相似与不相似状态跃变，为了提升系统稳定性，引入延迟处理机制；

P6对齐音频，通过输出延迟时间对齐源音频与目标音频；

P7 计算音频与目标音频通道在线指标。以此循环动态跟踪。

其中，P1是对比方法的起点，对源音频进行预处理，音频采样频率为16Khz，hop=500，1秒MFCC特征信息输出{13*32}矩阵，MFCC特征信息、Deltas一阶微分系数、Delta-Deltas二阶加速度系数三组向量叠加{39*32}，并以20s为分析时隙，输出{39*640}矩阵。同样对目标音频进行预处理，获取到39维目标声纹特征向量，输出{39*640}矩阵。

P2中欧式距离矩阵Dxs，考虑到目的音频滞后于源音频，从目的音频中间n/2秒处，逐秒顺序计算与源音频的欧几里得距离，注意目标音频不可能超前与源音频，计算秒数n/2。设置目标音频步进为1，对应音频偏移Rate/hop，重复上述计算，得到下一组。直至目标音频步进到矩阵最后一秒为止，最终生成对角线矩阵Dxs。

P3初步判定延时时间，对上次延迟时间t_last、Dxs最小值对应延迟时间t_min、Dxs行算数平均数最小值对应延迟时间t_line判定，如果三者对应延时一致，则无需进行二次细化判定，如计算延时超出阈值，则判定为不相似音频。

P4细化判定延迟时间，把三项延迟时间代入到音频波形中，分别计算经过延时对齐的音频的余弦相似度，若相似度大于规范值，则选择余弦相似度最高值对应延时，如均小于规范值，则二次判定为不相似。

P5跃变判定，若发生相似到不相似状态跃变，或者不相似到相似状态跃变，则定义sim_min下限阈值和sim_max上限阈值，分别对应两个状态的跃变，如n次均低于或高于阈值，表示状态跃变成功。

P6对齐音频，若源音频与目标音频波形相似，则输出延迟时间，并对齐源音频与目标音频。使用对齐后的波形，计算音频通道在线指标。

以此循环，实现在线动态的实时追踪比对。

如图3所示，本发明专利已经在新昌转播台投入实际应用，用以对浙江之声、中国之声和中国经济三个频率中波广播的播出信号进行实时监测，同时监测通道的指标情况。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims

1.一种基于声纹技术的音频信号实时追踪比对方法，其特征在于，包括如下步骤：

P6：对齐音频，通过输出延迟时间对齐源音频与目标音频；

P7：计算源音频与目标音频相应通道在线指标；

P8：重复P1- P7，循环动态跟踪源音频与目标音频。

2.根据权利要求1所述的基于声纹技术的音频信号实时追踪比对方法，其特征在于，所述预处理包括如下步骤：

S1：预加重，补偿高频部分；

S2：分帧，多个采样点划分为帧；

S4：快速傅里叶变换，将时域特征转换为频域上分布；

S5：幅度谱平方，转换为功率谱；

S7：对数功率，加上一帧的对数能量；

3.根据权利要求2所述的基于声纹技术的音频信号实时追踪比对方法，其特征在于，所述P1是对比方法的起点，对源音频进行预处理，音频采样频率为16Khz，hop=500，1秒MFCC特征信息输出{13*32}矩阵，MFCC特征信息、Deltas一阶微分系数、Delta-Deltas二阶加速度系数三组向量叠加{39*32}，并以20s为分析时隙，输出{39*640}矩阵；同样对目标音频进行预处理，获取到39维目标声纹特征向量，输出{39*640}矩阵。

4.根据权利要求1所述的基于声纹技术的音频信号实时追踪比对方法，其特征在于，所述P2的欧式距离矩阵Dxs，从目的音频中间n/2秒处，逐秒顺序计算与源音频的欧式距离，计算秒数n/2；设置目标音频步进为1，对应音频偏移Rate/hop，重复上述计算，得到下一组；直至目标音频步进到矩阵最后一秒为止，最终生成对角线矩阵Dxs。

5.根据权利要求1所述的基于声纹技术的音频信号实时追踪比对方法，其特征在于，所述P3初步判定延时时间，对上次延迟时间t_last、Dxs最小值对应延迟时间t_min、Dxs行算数平均数最小值对应延迟时间t_line判定，如果三者对应延时一致，则无需进行二次细化判定，如计算延时超出阈值，则判定为不相似音频。

6.根据权利要求5所述的基于声纹技术的音频信号实时追踪比对方法，其特征在于，所述P4细化判定延迟时间，把上次延迟时间t_last、Dxs最小值对应延迟时间t_min、Dxs行算数平均数最小值对应延迟时间t_line代入到音频波形中，分别计算经过延时对齐的音频的余弦相似度，若相似度大于规范值，则选择余弦相似度最高值对应延时，如果均小于规范值，则二次判定为不相似。

7.根据权利要求1所述的基于声纹技术的音频信号实时追踪比对方法，其特征在于，所述P6对齐音频，若源音频与目标音频波形相似，则输出延迟时间，并对齐源音频与目标音频；使用对齐后的波形，计算音频通道在线指标。