CN107274911A

CN107274911A - 一种基于声音特征的相似度分析方法

Info

Publication number: CN107274911A
Application number: CN201710305251.4A
Authority: CN
Inventors: 龙华; 张琳; 邵玉斌; 杜庆治
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2017-05-03
Filing date: 2017-05-03
Publication date: 2017-10-20

Abstract

本发明涉及一种基于声音特征的相似度分析方法，属于音频信号处理技术领域。本发明为比对两个待测音频的相似性，进行音频相似度比对是以物理特征中的幅度、过零率作为基本参数，对比了三种物理特征参数算法：波形比较、包络比较和过零率比较。通过相关函数进行相似度值的计算；设定相似性阈值；相似度值与相似阈值进行比对，进行相似性判定。本发明可用于音频信号的相似度比对，可以应用在广播电视信号的监测方面。与现有技术相比，本发明算法简单，理论清晰，技术容易实现。

Description

一种基于声音特征的相似度分析方法

技术领域

本发明涉及一种基于声音特征的相似度分析方法，属于音频信号处理技术领域。

背景技术

对广播音频进行安全、快速和有效的监测是目前亟待解决的问题，而目前已有的大多数针对音频内容的研究主要是音频分类、音频检索、语音识别等方面，用于这些研究的算法复杂度高，在实际的音频相似度比对时，这些算法往往很难具体实现和应用。现有的基于内容的音频研究主要是音频分类、音频检索、语音识别等方面，其算法复杂度高，理论复杂，在实际应用中很难具体实现。

发明内容

本发明要解决的技术问题是提供一种基于声音特征的相似度分析方法，分别通过提取波形、包络、过零率等特征参数进行音频信号相似度的计算，并对计算的结果进行相似性判定。

本发明的技术方案是：一种基于声音特征的相似度分析方法。该方法包括以下步骤：

(1)音频采集：音频采集是通过麦克风接收待测音频，此过程需要把模拟信号转化为数字信号，设置麦克风接收音频的声道数，同时设置采样率、量化精度，为了无失真恢复原连续信号，采样率需要满足奈奎斯特采样定理；

(2)预处理：预处理过程包括：滤波处理、预加重处理、加窗分帧；

(3)数据写入WAV文件：把预处理后的序列写入WAV文件，此步骤可以通过编写MATLAB程序来实现；

(4)读取WAV文件数据：读取WAV文件中的数据值，此步骤可以通过编写MATLAB程序来实现；

(5)特征参数提取：从待测音频序列中提取特征参数，波形序列、包络序列、过零率序列；

(6)音频比对：待测音频的三种特征序列分别通过相关函数来计算相似度值；

(7)相似性阈值设定：设定相似性的阈值，用来判定待测音频的相似性；

(8)相似度判定：相似度计算结果和设定的阈值进行比较，大于等于相似度阈值，判定两个待测音频相似，否则，判定为不相似；

上述的一种基于声音特征的相似度分析方法，步骤(1)中音频采集，在通过麦克风接收测试音频时，需要设置接收声道数，接收语音信号时，设置为单声道，接收音乐信号时，设置为双声道。采样率满足奈奎斯特采样定理，采样率f_s≥2f_h，f_h为信号最高频率，接收声道数设置为单声道，采样率设置为44.1KHz，量化精度为16bit；

上述的一种基于声音特征的相似度分析方法，步骤(2)中预处理包括以下步骤：

(1)滤波处理：滤波处理的目的有两个：抑制输入信号各频率分量中频率超出f_s/2的所有分量(f_s为采样频率)，以防混叠干扰；(2)抑制50Hz的电源工频干扰。这样，滤波器必须是一个带通滤波器，设其上、下截止频率分别是f_H和f_L，通常取f_H＝3400Hz，f_L＝60～100Hz；

(2)预加重处理：预加重处理的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。预加重一般是在语音信号数字化之后，在参数分析之前在计算机里用具有6dB/倍频程的提升高频特性的预加重数字滤波器来实现。一般是一阶的数字滤波器，即H(Z)＝1-uZ^-1，其中，u值接近于1，典型值为0.94；

(3)加窗分帧：音频序列是时间轴上的一维信号，为了能够对其进行信号分析，需要假设音频信号在毫秒级别的短时间处于稳定状态，因此在此基础上对音频信号进行加窗分帧操作。对音频信号加窗分帧处理可采用连续分段的方法，但为了使帧与帧之间平滑过渡保持其连续性，一般会采用交叠分段的方法。分帧是用可移动的有限长度窗口进行加权的方法来实现的，也就是用一定的窗函数w(n)来乘s(n)，从而形成加窗的音频信号s_w(n)＝s(n)×w(n)；

上述的一种基于声音特征的相似度分析方法，步骤(5)中特征参数提取包括以下步骤：

(1)波形序列提取：音频信号的波形是含有较丰富频率分布的不规则波形，包含音频信号的所有时域特征，比较两个音频信号的时域波形，可以完整的比较音频信号在时域的所有细节特征，因此可以利用波形幅度值来计算相似度。音频信号是时间和幅度都连续变化的一维模拟信号，要想在计算机中对它进行处理，就要先进行采样和量化，将它变成时间和幅度都是离散的数字信号。t是定义在时间轴上的连续变量，n为代表序列点的整数值，采样就是利用采样脉冲序列p(t)从连续信号f(t)中“抽取”一系列离散样值，得到采样信号f_s(t)。采样信号f_s(t)经过量化的预处理过程得到数字信号f(n)。设T_s为采样周期，待测音频信号的最高频率为f_h，满足采样定理，1/T_s≥2f_h。待测音频的比较时长均相同，设为T，假设两个待测音频时域函数为x₁(t)和x₂(t)，t是定义在时间轴上的连续变量，令N＝T×(1/T_S)，把T_s归一化为1，这样，x₁(nT_s)和x₂(nT_s)可简记为x₁(n)和x₂(n)，然后x₁(n)和x₂(n)的幅度再经过量化，即得到要提取的波形序列x₁’(n)和x₂’(n)；

(2)包络序列提取：信号包络是反映波形幅度变化的曲线，可以描述该信号的局部最大值的变化情况。音频信号的时域波形可以比较音频信号所有细节成分，包络是比较信号波形的轮廓。假设两个待测音频时域函数为x₁(t)和x₂(t)，t是定义在时间轴上的连续变量，通过波形提取方法，可以获得音频波形序列x₁’(n)和x₂’(n)。经过包络提取流程：音频波形序列x₁’(n)和x₂’(n)、取绝对值|x₁’(n)|和|x₂’(n)|、低通滤波、减去直流分量，最后得到待测音频信号包络序列x₁”(n)和x₂”(n)；

(3)过零率序列提取：过零率是音频信号时域分析中一种简单特征，指信号通过零值的次数，对于连续音频信号，可以观察时域波形通过时间轴的情况。对于离散信号，过零次数是信号采样值符号变化的次数。假设两个待测音频时域函数为x₁(t)和x₂(t)，t是定义在时间轴上的连续变量，通过波形提取方法，可以获得波形序列x₁’(n)和x₂’(n)，通过式和计算算x₁’(n)和x₂’(n)的过零率，式中，L_eff是序列x₁’(n)和x₂’(n)在已设定时间段内计算过零率值的序列长度，每50ms计算序列过零率值，sgn为符号函数，Z₁、Z₂分别是序列x₁’(n)和x₂’(n)在L_eff长度下的过零率值，通过上述过程得到过零率序列x₁”’(n)和x₂”’(n)。

上述的一种基于声音特征的相似度分析方法，步骤(6)中音频比对包括以下步骤：

(1)若提取的音频特征参数为波形序列，音频比对是通过互相关函数计算波形序列的相似程度，互相关函数的定义：

(2)若提取的音频特征参数为包络序列，音频比对是通过互相关函数计算包络序列的相似程度，互相关函数的定义：

(3)若提取的音频特征参数为过零率序列，音频比对是通过互相关函数计算过零率序列的相似程度，互相关函数的定义：

上述的一种基于声音特征的相似度分析方法，步骤(7)中相似性阈值设定：以互相关函数的峰值即最大互相关系数来确定比对音频是否相似。在波形序列比对算法中，设定阈值为60％，在包络和过零率序列比对算法中，设定阈值为80％；

上述的一种基于声音特征的相似度分析方法，步骤(8)中相似度判定：波形序列值的互相关函数峰值大于等于60％判定为相似，小于60％，判定为不相似，在包络和过零率序列比对算法中，互相关函数峰值大于等于80％判定为相似，小于80％，判定为不相似。

本发明的有益效果是：本发明可用于音频信号的相似度比对，可以应用在广播电视信号的监测方面。与现有技术相比，本发明算法简单，理论清晰，技术容易实现。

附图说明

图1是本发明相似度比较流程图；

图2是本发明音频信号波形序列提取流程图；

图3是本发明音频信号包络序列提取流程图；

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

一种基于声音特征的相似度分析方法，具体步骤为：

(1)音频采集：音频采集是通过麦克风接收待测音频，并把模拟信号转化为数字信号；

(2)特征参数提取：从待测音频序列中提取特征参数，包括波形序列、包络序列、过零率序列；

(3)音频比对：待测音频的三种特征序列分别通过相关函数来计算相似度值；

(4)相似性阈值设定：设定相似性的阈值，用来判定待测音频的相似性。

(5)相似度判定：相似度计算结果和设定的阈值进行比较，大于等于相似性阈值，判定两个待测音频相似，否则，判定为不相似。

所述音频采集在通过麦克风接收待测音频时，需要设置接收声道数；当接收语音信号时，设置为单声道，接收音乐信号时，设置为双声道；采样率满足奈奎斯特采样定理，采样率f_s≥2f_h，f_h为信号最高频率。接收声道数设置为单声道，采样率设置为44.1KHz，量化精度为16bit；

所述特征参数提取包括以下步骤：

(1)波形序列提取：音频信号的波形是含有较丰富频率分布的不规则波形，包含音频信号的所有时域特征，比较两个音频信号的时域波形，可以完整的比较音频信号在时域的所有细节特征，因此可以利用波形幅度值来计算相似度。音频信号是时间和幅度都连续变化的一维模拟信号，要想在计算机中对它进行处理，就要先进行采样和量化，将它变成时间和幅度都是离散的数字信号。对音频信号进行采样和量化，将音频信号变成时间和幅度都是离散的数字信号；t是定义在时间轴上的连续变量，n为代表序列点的整数值，采样为利用采样脉冲序列p(t)从连续信号f(t)中抽取一系列离散样值，得到采样信号f_s(t)，采样信号f_s(t)经过量化的预处理过程得到数字信号f(n)；设T_s为采样周期，待测音频信号的最高频率为f_h，满足采样定理，1/T_s≥2f_h；待测音频的比较时长相同，设为T，假设两个待测音频时域函数为x₁(t)和x₂(t)，t是定义在时间轴上的连续变量；

令N＝T×(1/T_S)，将T_s归一化为1，x₁(nT_s)和x₂(nT_s)记为x₁(n)和x₂(n)，然后x₁(n)和x₂(n)的幅度再经过量化，即得到要提取的波形序列x₁’(n)和x₂’(n)；

(2)包络序列提取：信号包络是反映波形幅度变化的曲线，可以描述该信号的局部最大值的变化情况。音频信号的时域波形可以比较音频信号所有细节成分，包络是比较信号波形的轮廓。假设两个待测音频时域函数为x₁(t)和x₂(t)，t是定义在时间轴上的连续变量，通过波形提取方法，获得音频波形序列x₁’(n)和x₂’(n)；经过包络提取流程：音频波形序列x₁’(n)和x₂’(n)、取绝对值|x₁’(n)|和|x₂’(n)|、低通滤波、减去直流分量，最后得到待测音频信号包络序列x₁”(n)和x₂”(n)；

(3)过零率序列提取：过零率是音频信号时域分析中一种简单特征，指信号通过零值的次数，对于连续音频信号，可以观察时域波形通过时间轴的情况。对于离散信号，过零次数是信号采样值符号变化的次数。假设两个待测音频时域函数为x₁(t)和x₂(t)，t是定义在时间轴上的连续变量，通过波形提取方法，获得波形序列x₁’(n)和x₂’(n)，

通过式(1)和(2)计算x₁’(n)和x₂’(n)的过零率

式中，L_eff是序列x₁’(n)和x₂’(n)在已设定时间段内计算过零率值的序列长度，sgn为符号函数，Z₁、Z₂分别是序列x₁’(n)和x₂’(n)在L_eff长度下的过零率值，得到过零率序列x₁”’(n)和x₂”’(n)；

所述音频比对包括以下步骤：

所述相似性阈值设定为以互相关函数的峰值即最大互相关系数来确定比对音频是否相似，在波形序列值比对算法中，设定阈值为60％，在包络和过零率序列比对算法中，设定阈值为80％。

所述相似度判定为：

波形序列值的互相关函数峰值大于等于60％判定为相似，小于60％判定为不相似；在包络和过零率序列比对算法中，互相关函数峰值大于等于80％判定为相似，小于80％，判定为不相似。

实施例1：本发明的音频相似度分析包括以下步骤：

(2)在通过麦克风接收测试音频时，需要设置接收声道数，接收语音信号时，设置为单声道，接收音乐信号时，设置为双声道。采样率满足奈奎斯特采样定理，采样率f_s≥2f_h，f_h为信号最高频率，

将接收声道数设置为单声道，采样率设置为44.1KHz，量化精度为16bit。

(3)预处理：预处理过程包括：滤波处理、预加重处理、加窗分帧；

(4)滤波处理的目的有两个：抑制输入信号各频率分量中频率超出f_s/2的所有分量(f_s为采样频率)，以防混叠干扰；(2)抑制50Hz的电源工频干扰。这样，滤波器必须是一个带通滤波器，设其上、下截止频率分别是f_H和f_L。通常取f_H＝3400Hz，f_L＝60～100Hz；

(5)预加重处理：预加重处理的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。预加重一般是在语音信号数字化之后，在参数分析之前在计算机里用具有6dB/倍频程的提升高频特性的预加重数字滤波器来实现。一般是一阶的数字滤波器，即H(Z)＝1-uZ^-1，其中，u值接近于1，典型值为0.94；

(6)加窗分帧：音频序列是时间轴上的一维信号，为了能够对其进行信号分析，需要假设音频信号在毫秒级别的短时间处于稳定状态，因此在此基础上对音频信号进行加窗分帧操作。对音频信号加窗分帧处理可采用连续分段的方法，但为了使帧与帧之间平滑过渡保持其连续性，一般会采用交叠分段的方法。分帧是用可移动的有限长度窗口进行加权的方法来实现的，也就是用一定的窗函数w(n)来乘s(n)，从而形成加窗的音频信号s_w(n)＝s(n)×w(n)。

(7)数据写入WAV文件：把预处理后的序列写入WAV文件，此步骤可以通过编写MATLAB程序来实现；

(8)读取WAV文件数据：读取WAV文件中的数据值，此步骤可以通过编写MATLAB程序来实现；

(9)特征参数提取：从待测音频序列中提取特征参数，波形序列、包络序列、过零率序列；

(10)波形序列提取：音频信号的波形是含有较丰富频率分布的不规则波形，包含音频信号的所有时域特征，比较两个音频信号的时域波形，可以完整的比较音频信号在时域的所有细节特征，因此可以利用波形幅度值来计算相似度。音频信号是时间和幅度都连续变化的一维模拟信号，要想在计算机中对它进行处理，就要先进行采样和量化，将它变成时间和幅度都是离散的数字信号。t是定义在时间轴上的连续变量，n为代表序列点的整数值，采样就是利用采样脉冲序列p(t)从连续信号f(t)中“抽取”一系列离散样值，得到采样信号f_s(t)。采样信号f_s(t)经过量化的预处理过程得到数字信号f(n)。设T_s为采样周期，待测音频信号的最高频率为f_h，满足采样定理，1/T_s≥2f_h。待测音频的比较时长均相同，设为T，假设两个待测音频时域函数为x₁(t)和x₂(t)，t是定义在时间轴上的连续变量，令N＝T×(1/T_S)，把T_s归一化为1，这样，x₁(nT_s)和x₂(nT_s)可简记为x₁(n)和x₂(n)，然后x₁(n)和x₂(n)的幅度再经过量化，即得到要提取的波形序列x₁’(n)和x₂’(n)；

(11)包络序列提取，信号包络是反映波形幅度变化的曲线，可以描述该信号的局部最大值的变化情况。音频信号的时域波形可以比较音频信号所有细节成分，包络是比较信号波形的轮廓。假设两个待测音频时域函数为x₁(t)和x₂(t)，t是定义在时间轴上的连续变量，通过波形提取方法，可以获得音频波形序列x₁’(n)和x₂’(n)。经过包络提取流程：音频波形序列x₁’(n)和x₂’(n)、取绝对值|x₁’(n)|和|x₂’(n)|、低通滤波、减去直流分量，最后得到待测音频信号包络序列x₁”(n)和x₂”(n)；

(12)过零率序列提取，过零率是音频信号时域分析中一种简单特征，指信号通过零值的次数，对于连续音频信号，可以观察时域波形通过时间轴的情况。对于离散信号，过零次数是信号采样值符号变化的次数。假设两个待测音频时域函数为x₁(t)和x₂(t)，t是定义在时间轴上的连续变量，通过波形提取方法，可以获得波形序列x₁’(n)和x₂’(n)，通过式和计算x₁’(n)和x₂’(n)的过零率，式中，L_eff是序列x₁’(n)和x₂’(n)在已设定时间段内计算过零率值的序列长度，sgn为符号函数，Z₁、Z₂分别是序列x₁’(n)和x₂’(n)在L_eff长度下的过零率值，通过上述过程得到过零率序列x₁”’(n)和x₂”’(n)。

(13)音频比对：待测音频的三种特征序列分别通过相关函数来计算相似度值；分别计算R(m)得出对应的相关值，步骤如下：

(a)若提取的音频特征参数为波形序列，音频比对是通过互相关函数计算波形序列的相似程度，互相关函数的定义：

(b)若提取的音频特征参数为包络序列，音频比对是通过互相关函数计算包络序列的相似程度，互相关函数的定义：

(c)若提取的音频特征参数为过零率序列，音频比对是通过互相关函数计算过零率序列的相似程度，互相关函数的定义：

(14)相似性阈值设定：设定相似性的阈值，用来判定待测音频的相似性。以互相关函数的峰值即最大互相关系数来确定比对音频是否相似。在波形序列比对算法中，设定阈值为60％，在包络和过零率序列比对算法中，设定阈值为80％。

(15)相似度判定：相似度计算结果和设定的阈值进行比较，大于等于相似度阈值，判定两个待测音频相似，否则，判定为不相似；波形序列值的互相关函数峰值大于等于60％判定为相似，小于60％，判定为不相似，在包络和过零率序列比对算法中，互相关函数峰值大于等于80％判定为相似，小于80％，判定为不相似。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于声音特征的相似度分析方法，其特征在于具体步骤为：

2.根据权利要求1所述的基于声音特征的相似度分析方法，其特征在于：所述音频采集在通过麦克风接收待测音频时，需要设置接收声道数；当接收语音信号时，设置为单声道，接收音乐信号时，设置为双声道；采样率满足奈奎斯特采样定理，采样率f_s≥2f_h，f_h为信号最高频率。

3.根据权利要求1所述的基于声音特征的相似度分析方法，其特征在于：所述特征参数提取包括以下步骤：

(1)波形序列提取：对音频信号进行采样和量化，将音频信号变成时间和幅度都是离散的数字信号；t是定义在时间轴上的连续变量，n为代表序列点的整数值，采样为利用采样脉冲序列p(t)从连续信号f(t)中抽取一系列离散样值，得到采样信号f_s(t)，采样信号f_s(t)经过量化的预处理过程得到数字信号f(n)；设T_s为采样周期，待测音频信号的最高频率为f_h，满足采样定理，1/T_s≥2f_h；待测音频的比较时长相同，设为T，假设两个待测音频时域函数为x₁(t)和x₂(t)，t是定义在时间轴上的连续变量；

(2)包络序列提取：假设两个待测音频时域函数为x₁(t)和x₂(t)，t是定义在时间轴上的连续变量，通过波形提取方法，获得音频波形序列x₁’(n)和x₂’(n)；经过包络提取流程：音频波形序列x₁’(n)和x₂’(n)、取绝对值|x₁’(n)|和|x₂’(n)|、低通滤波、减去直流分量，最后得到待测音频信号包络序列x₁”(n)和x₂”(n)；

(3)过零率序列提取：假设两个待测音频时域函数为x₁(t)和x₂(t)，t是定义在时间轴上的连续变量，通过波形提取方法，获得波形序列x₁’(n)和x₂’(n)，

通过式(1)和(2)计算x₁’(n)和x₂’(n)的过零率

式中，L_eff是序列x₁’(n)和x₂’(n)在已设定时间段内计算过零率值的序列长度，sgn为符号函数，Z₁、Z₂分别是序列x₁’(n)和x₂’(n)在L_eff长度下的过零率值，得到过零率序列x₁”’(n)和x₂”’(n)。

4.根据权利要求1所述的基于声音特征的相似度分析方法，其特征在于：所述音频比对包括以下步骤：

5.根据权利要求1所述的基于声音特征的相似度分析方法，其特征在于：所述相似性阈值设定为以互相关函数的峰值即最大互相关系数来确定比对音频是否相似，在波形序列值比对算法中，设定阈值为60％，在包络和过零率序列比对算法中，设定阈值为80％。

6.根据权利要求1所述的基于声音特征的相似度分析方法，其特征在于：所述相似度判定为：