CN108665903B

CN108665903B - 一种音频信号相似程度的自动检测方法及其系统

Info

Publication number: CN108665903B
Application number: CN201810445754.6A
Authority: CN
Inventors: 李伟; 吴益明; 陈轲
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2021-04-30
Anticipated expiration: 2038-05-11
Also published as: CN108665903A

Abstract

本发明公开了一种音频信号相似程度的自动检测方法及其系统，包括：获取待检测的两段音频信号；对其进行频域分析并找出所有频域能量局部峰值位置；连接频域能量局部峰值，组成音高轨迹；根据频域能量局部峰值位置，计算每个音频帧的显著值，得到显著平均值；根据显著平均值计算音高轨迹的有声部分判断的阈值；去除显著平均值超出所述阈值的部分，得到两段音频信号的主旋律序列；求出两段主旋律的相似性矩阵；并应用动态规划局部规整算法做二值化处理，得到二值矩阵；进而判断两段输入音频信号的相似程度。采用本发明的方法或系统，提升了音频信号相似程度检测效率，解决了音频传播中的抄袭问题，对于数字音频的版权管理问题予以了准确全面的保护。

Description

一种音频信号相似程度的自动检测方法及其系统

技术领域

本发明涉及音乐抄袭检测领域，特别是一种音频信号相似程度的自动检测方法及其系统。

背景技术

随着互联网以及软件开发技术的高速发展，音乐传播的代价以及音乐编写的门槛变得越来越低，音频相似性比较成了一个重要的研究课题。在音乐信息检索的研究中，音乐相似性计算是其中一个关键的课题，它研究如何以计算方式衡量两段不同音频的内容上的相似性。音乐之间的“相似性”的定义通常包含着很大的主观成分，然而其中也存在着一些可以量化的切入点，比如旋律走向的相似程度，在音乐抄袭的判断标准中，存在两种说法，一种是8小节以上的雷同便视为抄袭；另一种是相似音乐不超过4小节不算抄袭。无论是哪一种说法，抄袭检测主要依赖的技术无疑是音乐相似性的计算技术。音乐相似性计算中，基于片段的检索(Query-by-example)的目标是查询音频数据库中的音频以找出所有包含查询片段(query clip)的音频。这个问题在不同的应用场合下，有不同的功能要求。在音频识别(Audio identification)问题中，要求检索系统在给定查询片段之后，返回包含该片段的名称或作曲家信息等。在一些场合，音频识别问题还要求得出查询片段在原音频中的匹配位置。

在涉及到相似性计算方面的领域，有很多现有的方法，例如交叉相关(cross-correlation)，弗罗贝尼乌斯范数(Frobenius norm)，欧几里得距离(Euclideandistance)，以及点积等。例如现有技术中用于音乐抄袭检测算法：基于动态时间规整(Dynamic Time Warping)的算法，对于动态规整算法的距离度量，通常采用的距离量度有欧几里得距离、余弦距离与相关度等。然而，大量文献指出，诸如Chroma向量等与声调有关的向量并不适合放在欧几里得空间中度量。动态时间规整算法，就是把两段不同长度的音频进行时间上的“对齐”，例如，在语音识别中，不同人对于同一段话(或者说字母)的发音时间必然长短不一，但把该声音记录下来以后，它的信号肯定是很相似的，只是在时间上未对齐，所以动态时间调整的目的是用一个函数拉长或者缩短其中一个信号，使得它们之间的误差达到最小。在音乐相似度计算中，相似的音乐在时间长短、旋律走向上必然存在一些误差，但是如果说两首音乐是存在极大相似度的，那么这两者间的相似信号必然存在很大的交集，因此，动态时间规整算法被大量地运用于音乐相似度计算之中，只要定义好音乐序列的距离计算方式，便可以根据动态规划计算累加距离，得到相似程度，对抄袭做出相关的判定。动态规划算法已经给出了音频的相似性。由于其应对时长变化的灵活性，大部分翻唱作品检测算法都采用了基于动态规划算法的相似性计算方式，如最小编辑距离与动态时间规整等。

然而，现有技术的主要问题是对于音乐抄袭的判断效果并不全面。音乐抄袭更多只需要在音乐的局部进行计算，动态时间规整算法计算从(0，0)到(Am,Bm)之间的相似距离并不能很好地表现两段音乐某个局部之间的相似度差异，因此在乱序的局部相似的音乐中，该方法并不能很好地显示出显著的相似度差异，如果要使用局部的截取进行处理，那么无疑增加了时间的开销，在快速判断抄袭的技术需求下并不能作为首要选择。同时，对于序列距离的定义多种多样，这种基于线性比较的方法在相似度计算中不存在明显的梯度，换言之，相似度的拟合并不该是一条简单增长的曲线，距离的定义一定程度上影响了判断效果。

发明内容

本发明的目的是提供了一种音频信号相似程度的自动检测方法及其系统，能对音频中的短时相似片段进行抄袭检测，准确地体现出两段音乐的局部相似度差异，对数字音频的版权管理问题予以更好的保护。

为实现上述目的，本发明提供了如下方案：

一种音频信号相似程度的自动检测方法，包括：

获取待检测的两段音频信号；

对所述两段音频信号进行频域分析后，找出所有的频域能量峰值位置；

连接相邻音频帧的所述频域能量峰值，组成音高轨迹；

根据所述的频域能量峰值位置，计算所述音频信号中每个音频帧的显著值，得到所述音频信号轨迹的显著平均值；

根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值；

去除所述音频信号轨迹显著平均值超出所述阈值的部分，得到所述两段音频信号的主旋律序列；

求出所述两段主旋律的相似性矩阵；

对所述相似性矩阵应用动态规划局部规整算法做二值化处理，得到二值矩阵；

根据所述二值矩阵来判断所述两段输入音频信号的相似程度。

可选的，所述对所述两段音频信号进行频域分析后，找出所有的频域能量峰值位置，具体包括：

对输入的音频信号进行等响滤波处理后，采用公式：

l＝0，1，...and k＝0，1，...，N-1

对滤波后的音频信号进行短时傅里叶变换，并对结果取模得到所述输入音频信号的频域幅度值；

其中，x(n)是音频信号的时间序列,w(n)是窗函数，l是帧号，M是窗的长度，N表示快速傅里叶变换长度，H是滑窗的步长；

从所述频域能量值|x_l(k)|中，使用峰值提取算法找出所有幅度局部峰值位置p_i。

可选的，根据所述的频域幅度峰值位置，计算所述音频信号中每个音频帧对应频域的显著值，得到所述音频信号轨迹的显著平均值，具体包括：

采用公式

根据所述能量峰值位置计算显著性函数，并得到所述音频信号轨迹的显著平均值；

其中，β是能量压缩参数，

是能量阈值函数，

是权值函数，

为频率，

为能量，能量阈值函数

定义为：

其中，

是该频谱帧中频率能量的最高值，γ代表

与

所允许的能量差值，单位为dB；权值函数

定义了当所述能量峰值位置p_i被视为第h个泛音时被赋予的权值，具体定义为：

其中，

指

对应的音高类与b的音高，

是调整权值的参数。

可选的，所述根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值，具体包括：

采用公式

计算所述音高轨迹的有声部分判断的阈值；

其中，

为所述音频信号轨迹的显著平均值，

为方差。

可选的，所述去除所述音频信号轨迹显著平均值超出所述阈值的部分，得到所述两段音频信号的主旋律序列，具体包括：判断所述显著值平均值是否高于或等于所述阈值，如果是，则将对应的音频信号轨迹视为主旋律区域的音高轨迹，予以保留；如果否，进一步判断所述显著值平均值是否包含颤音的轨迹以及方差是否超过40，如果是，则保留对应的音高轨迹，如果否，则将对应的音频信号轨迹视为非旋律区域的音高轨迹，做去除处理。

可选的，所述求出所述两段主旋律的相似性矩阵，具体包括：

采用公式

求得所述两段主旋律序列的相似性矩阵；

其中，

与

代表特征向量序列的第i帧与第j帧向量，‘·’表示点积，

是将向量

向右平移t个位置的函数；函数OTI返回使

与

最相似(即向量相关最大化)的

的移调距离。

可选的，对所述相似性矩阵应用动态规划局部规整算法做二值化处理，得到二值矩阵，具体包括：

根据所述相似性矩阵，建立一个大小为(n+1)×(m+1)的新的二值矩阵；其值以递归形式如下定义：

其中4≤i≤n+1，4≤j≤m+1，除此之外的位置初始化为零,δ()是一个惩罚函数，定义如下：

可选的，所述根据所述二值矩阵来判断所述两段输入音频信号的相似程度，具体包括：

从所述二值矩阵中找出所有大于预先设定的相似阈值的局部峰值；从所述局部峰值位置开始跟踪递归累加的路径，直到到达值为零的点；将所述路径跟踪的起止点的距离视为相似区域的边界；若所述某两条路径的起点重合，则保留终点的值较大的路径；所述路径的起点位置对应相似部分在两段音频中的起始时间，所述路径的终点位置对应相似部分的终止时间，所述路径终点的值即为所属路径对应相似部分的相似程度。

一种音频信号相似程度的自动检测系统，包括：

音频信号获取模块，用于获取待检测的两段音频信号；

频域分析处理模块，用于对所述两段音频信号进行频域分析后，找出所有的频域能量峰值位置；

音高轨迹获取模块，用于连接相邻音频帧的所述频域能量峰值，组成音高轨迹；

显著平均值计算模块，用于根据所述的频域能量峰值位置，计算所述音频信号中每个音频帧的显著值，得到所述音频信号轨迹的显著平均值；

阈值获取模块，用于根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值；

主旋律序列获取模块，用于去除所述音频信号轨迹显著平均值超出所述阈值的部分，得到所述两段音频信号的主旋律序列；

相似性矩阵获取模块，用于求出所述两段主旋律的相似性矩阵；

二值矩阵获取模块，用于对所述相似性矩阵应用动态规划局部规整算法做二值化处理，得到二值矩阵；

相似程度判断模块，用于根据所述二值矩阵来判断所述两段输入音频信号的相似程度。

可选的，所述频域分析处理模块，具体包括：

频域分析单元，用于对输入的音频信号进行等响滤波处理后，采用公式：

l＝0，1，...and k＝0，1，...，N-1

对滤波后的音频信号进行短时傅里叶变换，得到所述输入音频信号的频域能量值；

其中，x(n)是音频信号的时间序列,w(n)是窗函数，I是帧号，M是窗的长度，N表示快速傅里叶变换长度，H是滑窗的步长；

能量峰值位置获取单元，从所述频域能量值|x_l(k)|中找出所有能量峰值位置p_i。

可选的，所述显著平均值计算模块，具体包括：

能量阈值函数获取单元，用于采用公式

得到能量阈值函数

其中，

是该频谱帧中频率能量的最高值，γ代表

与

所允许的能量差值，单位为dB；

权值函数获取单元，用于采用公式

得到权值函数

表示当所述能量峰值位置p_i被视为第h个泛音时被赋予的权值；其中，

指

对应的音高类与b的音高，

是调整权值的参数；

显著性函数计算单元，用于采用公式

得到显著性函数；其中，β是能量压缩参数，

是能量阈值函数，

是权值函数，

为频率，

为能量。

可选的，所述主旋律序列获取模块，具体包括：判断单元，用于判断所述显著值平均值是否高于或等于所述阈值，如果是，则将对应的音频信号轨迹视为主旋律区域的音高轨迹，予以保留；如果否，进一步判断所述显著值平均值是否包含颤音的轨迹以及方差是否超过40，如果是，则保留对应的音高轨迹，如果否，则将对应的音频信号轨迹视为非旋律区域的音高轨迹，做去除处理。

可选的，所述相似性矩阵获取模块，具体包括：

相似性矩阵获取单元，用于对所述求出所述两段主旋律的相似性矩阵，

采用公式

求得所述两段主旋律序列的相似性矩阵；

其中，

与

代表特征向量序列的第i帧与第j帧向量，‘·’表示点积，

是将向量

向右平移t个位置的函数；函数OTI返回使

与

最相似(即向量相关最大化)的

的移调距离。

可选的，所述二值矩阵获取模块，具体包括：

惩罚函数获取单元，用于采用公式

得到惩罚函数δ(a,b)；

二值矩阵获取单元，用于根据所述相似性矩阵，建立一个大小为(n+1)×(m+1)的新的二值矩阵；其值以递归形式如下定义：

其中4≤i≤n+1，4≤j≤m+1，除此之外的位置初始化为零。

可选的，所述相似程度判断模块，具体包括：

相似程度判断单元，从所述二值矩阵中找出所有大于预先设定的相似阈值的局部峰值；从所述局部峰值位置开始跟踪递归累加的路径，直到到达值为零的点；将所述路径跟踪的起止点的距离视为相似区域的边界；若所述某两条路径的起点重合，则保留终点的值较大的路径；所述路径的起点位置对应相似部分在两段音频中的起始时间，所述路径的终点位置对应相似部分的终止时间，所述路径终点的值即为所属路径对应相似部分的相似程度。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种音频信号相似程度的自动检测方法及其系统，通过主旋律线的抽象化，局部的音高变化带来的影响被大大消除，同时主旋律表示的序列长度也大大减小，提升了相似程度的检测效率；利用二值相似性矩阵的方式度量距离，解决了检测相似区域边界的困难，将矩阵值“量化”为仅仅两个取值，能清楚地显示出相似区域的边界，提高了计算的便捷性。本发明的相似程度的自动检测方法所采用的主旋律抽象化方法、二值相似性矩阵的定义方式以及对于动态规整算法的运用，对音频中的短时相似片段进行抄袭检测，解决了音频传播中的抄袭问题，对于数字音频的版权管理问题予以了更好的保护。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种音频信号相似程度的自动检测方法流程图；

图2为本发明实施例一种音频信号相似程度的自动检测系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例一种音频信号相似程度的自动检测方法流程图。如图1所示，本实施例提供的一种音频信号相似程度的自动检测方法，包括：

步骤101：获取待检测的两段音频信号。

步骤102：对所述两段音频信号进行频域分析后，找出所有的频域能量峰值位置。

步骤103：连接相邻音频帧的所述频域能量峰值，组成音高轨迹。

步骤104：根据所述的频域能量峰值位置，计算所述音频信号中每个音频帧的显著值，得到所述音频信号轨迹的显著平均值。

步骤105：根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值。

步骤106：去除所述音频信号轨迹显著平均值超出所述阈值的部分，得到所述两段音频信号的主旋律序列。

步骤107：求出所述两段主旋律的相似性矩阵。

步骤108：对所述相似性矩阵应用动态规划局部规整算法做二值化处理，得到二值矩阵。

步骤109：根据所述二值矩阵来判断所述两段输入音频信号的相似程度。

所述对对所述两段音频信号进行频域分析后，找出所有的频域能量峰值位置，具体包括：

对输入的音频信号进行等响滤波处理，采用公式：

l＝0，1，...and k＝0，1，...，N-1

其中，x(n)是音频信号的时间序列,w(n)是窗函数，I是帧号，M是窗的长度，N表示快速傅里叶变化的长度，H是滑窗的步长；

从所述频域能量值|x_l(k)|中找出所有能量峰值位置p_i。

所述根据所述的频域能量峰值位置，计算所述音频信号中每个音频帧的显著值，得到所述音频信号轨迹的显著平均值，具体包括：

采用公式

其中，β是能量压缩参数，

是能量阈值函数，

是权值函数，

为频率，

为能量，能量阈值函数

定义为：

其中，

是该频谱帧中频率能量的最高值，γ代表

与

所允许的能量差值，单位为dB；权值函数

其中，

指

对应的音高类与b的音高，

是调整权值的参数。

所述根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值，具体包括：

采用公式

计算所述音高轨迹的有声部分判断的阈值；

其中，

为所述音频信号轨迹的显著平均值，

为方差。

所述去除所述音频信号轨迹显著平均值超出所述阈值的部分，得到所述两段音频信号的主旋律序列，具体包括：判断所述显著值平均值是否高于或等于所述阈值，如果是，则将对应的音频信号轨迹视为主旋律区域的音高轨迹，予以保留；如果否，进一步判断所述显著值平均值是否包含颤音的轨迹以及方差是否超过40，如果是，则保留对应的音高轨迹，如果否，则将对应的音频信号轨迹视为非旋律区域的音高轨迹，做去除处理；具体的，记每个帧存在的所有音高轨迹的音高平均值为

为了去除所谓“八度误差”，执行以下步骤：

步骤A，使用窗长为5秒，步长为1帧的滑窗对

进行均值顺滑；

步骤B，找到互为八度关系的音高轨迹，去除离

较远的轨迹；

步骤C，重新计算

重复步骤A和B；

步骤D，去除距离

大于一个八度的音高轨迹。

步骤E，将步骤C和D重复3-6次。

上述的步骤去除了与主旋律音高差距八度以上的音高轨迹。

经上述步骤后，在任意时间点若仍存在两个以上的音高轨迹，则选择显著值平均值最高的轨迹作为主旋律轨迹，其余轨迹被去除。

该步骤完成后，剩下的音高轨迹即为主旋律轨迹，为了比较相似性，我们将抽象主旋律序列，而只留下主旋律的整体进行，抽象化方法将每个频率值映射到一个音高类(pitch class)，并且使用直方图的形式获得音高的分布。

在本发明的算法中，每个音高被映射到一个八度以内的36个音高类，每个音高类覆盖了1/3个半音。通过这个过程可以得到一个36维向量的序列，每个向量代表了在大约半秒的时间内主旋律音高的分布

所述求出所述两段主旋律的相似性矩阵，具体包括：

采用公式

求得所述两段主旋律序列的相似性矩阵；

其中，

与

代表特征向量序列的第i帧与第j帧向量，‘·’表示点积，

是将向量

向右平移t个位置的函数；OTI指的是向量

移调n个音高单位后，

与

最相似，μ₊与μ_-是常数，分别是当某一对向量相似或不相似时的奖励或惩罚值，μ₊取正值，μ_-取负值。这两个常数的相对取值对于算法的性能具有决定性的影响。μ₊的值可定为1.0。μ_-的取值是绝对值接近μ₊的负值，如-0.9。

对所述相似性矩阵应用动态规划局部规整算法做二值化处理，得到二值矩阵，具体包括：

所述根据所述二值矩阵来判断所述两段输入音频信号的相似程度，具体包括：

其中，实验显示，C₁取值为0.7，C₂取值为0.5时算法的性能较好；在这个过程中，可能存在两条路径发生重合的情况。若两条路径在某一点完全重合，则从该点到零点(累加起始点)的累加路径必定完全重合。因此，可以通过以下规则合并重合路径：若两条路径的起点重合，则保留终点的值较大的路径。

图2为本发明实施例一种音频信号相似程度的自动检测系统结构示意图。如图2所示，本发明实施例提供的一种音频信号相似程度的自动检测系统，包括：

音频信号获取模块201，用于获取待检测的两段音频信号.

频域分析处理模块202，用于对所述两段音频信号进行频域分析后，找出所有的频域能量峰值位置。

音高轨迹获取模块203，用于连接相邻音频帧的所述频域能量峰值，组成音高轨迹。

显著平均值计算模块204，用于根据所述的频域能量峰值位置，计算所述音频信号中每个音频帧的显著值，得到所述音频信号轨迹的显著平均值。

阈值获取模块205，用于根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值。

主旋律序列获取模块206，用于去除所述音频信号轨迹显著平均值超出所述阈值的部分，得到所述两段音频信号的主旋律序列。

相似性矩阵获取模块207，用于求出所述两段主旋律的相似性矩阵。

二值矩阵获取模块208，用于对所述相似性矩阵应用动态规划局部规整算法做二值化处理，得到二值矩阵。

相似程度判断模块209，用于根据所述二值矩阵来判断所述两段输入音频信号的相似程度。

所述频域分析处理模块202，具体包括：

频域分析单元，用于对输入的音频信号进行等响滤波处理，采用公式：

l＝0，1，...and k＝0，1，...，N-1

所述显著平均值计算模块204，具体包括：

能量阈值函数获取单元，用于采用公式

得到能量阈值函数

其中，

是该频谱帧中频率能量的最高值，γ代表

与

所允许的能量差值，单位为dB；

权值函数获取单元，用于采用公式

得到权值函数

指

对应的音高类与b的音高，

是调整权值的参数；

显著性函数计算单元，用于采用公式

得到显著性函数；其中，β是能量压缩参数，

是能量阈值函数，

是权值函数，

为频率，

为能量。

所述主旋律序列获取模块206，具体包括：判断单元，用于判断所述显著值平均值是否高于或等于所述阈值，如果是，则将对应的音频信号轨迹视为主旋律区域的音高轨迹，予以保留；如果否，进一步判断所述显著值平均值是否包含颤音的轨迹以及方差是否超过40，如果是，则保留对应的音高轨迹，如果否，则将对应的音频信号轨迹视为非旋律区域的音高轨迹，做去除处理。

所述相似性矩阵获取模块207，具体包括：

采用公式

求得所述两段主旋律序列的相似性矩阵；

其中，

与

代表特征向量序列的第i帧与第j帧向量，‘·’表示点积，

是将向量

向右平移t个位置的函数；OTI指的是向量

移调n个音高单位后，

与

最相似。

所述二值矩阵获取模块208，具体包括：

惩罚函数获取单元，用于采用公式

得到惩罚函数δ(a,b)；

其中4≤i≤n+1，4≤j≤m+1，除此之外的位置初始化为零。

所述相似程度判断模块209，具体包括：

通过本发明的方法和系统，在特征提取上，将频谱上的波形区分成以1/3个半音为梯度的，合计36个音高类的主旋律向量，同时利用去除八度的方式提高了主旋律提取中可能存在的识别不准的问题，36个音高类也提高了识别的准确度；在抽象表示上，本方法利用二值相似性矩阵，将每一帧的音高类向量两两比较，矩阵上的每一个值表示了两个向量经过平移之后的相似性比较结果，详细的比较的方式在文中有介绍，这种抽象表示适用于我们的特征提取，因此也是本方法特有的地方，将前面的提取参数整合到动态规划规整算法的计算上，将原本算法中比较的参数替换成我们在特征提取和抽象表示后的关于二值相似性矩阵的计算，该矩阵能够精准地表示每一个音频帧之间的相似性，在动态规划规整算法的运作下，能够极大地提高我们对于两段音频相似性比较的准确度，在音频拉伸、剪切、交换位置等各种干扰因素下，该方法仍能够检测到相似性，特征提取到抽象表示减小了音频中需要运算的信息，化大量信息为扼要的主旋律信息和相似性信息，在计算上也存在很大的高效性。

主旋律信息结构单纯，但不同作品之间主旋律仍然可能存在细节差异——除了节奏快慢变化与移调之外，诸如八度变化、以及滑音、颤音的存在，都可能带来两个版本的主旋律之间的不同，因此该主旋律表示仍然不适合直接进行比较。为了去除这些细节上的变化，而只留下主旋律的整体进行，即抽象化，通过主旋律线的抽象化，局部的音高变化带来的影响被大大消除了；同时主旋律表示的序列长度也大大减小，带来了计算效率的提升。

对于动态规整算法的距离度量，通常采用的距离量度有欧几里得距离、余弦距离与相关度等。然而，多个文献指出，诸如Chroma向量等与声调有关的向量并不适合放在欧几里得空间中度量。因此，利用二值相似性矩阵的方式度量距离，在度量方式上是一个进步，同时二值解决了检测相似区域边界的困难，将矩阵值“量化”为仅仅两个取值，这样就能清楚地显示出相域的边界，提高了计算的方便性；为了对本发明的算法的性能进行评价实验，我们准备了CFD，MED，QUO三个数据集(名称与内容无关)，个数据集的整体再现率与虚警率如表1所示。

对数据集“CFD”与“MED”数据集的实验结果显示，该算法能基本完整地

表1：相似片段检测实验结果

Dataset	Recall	Falsealarm
			CFD	84.30％	2.92％
MED	79.60％	2.30％
			QUO	63.09％	15.71％

还原大部分的相似部分，并避免了虚警。总体上，算法仍能检测到大部分相似部分的存在，因此在抄袭检测算法的效能上，本发明拥有更高的实用性。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频信号相似程度的自动检测方法，其特征在于，包括：

获取待检测的两段音频信号；

连接相邻音频帧的所述频域能量峰值，组成音高轨迹；

去除所述音频信号轨迹显著平均值超出所述阈值的部分，得到所述两段音频信号的主旋律序列；在任意时间点若仍存在两个以上的音高轨迹，则选择显著值平均值最高的轨迹作为主旋律轨迹，其余轨迹被去除，剩下的音高轨迹即为主旋律轨迹，为了比较相似性，将抽象主旋律序列，而只留下主旋律的整体进行，抽象化方法将每个频率值映射到一个音高类，并且使用直方图的形式获得音高的分布，每个音高被映射到一个八度以内的36个音高类，每个音高类覆盖了1/3个半音，通过这个过程可以得到一个36维向量的序列，每个向量代表了在大约半秒的时间内主旋律音高的分布；

求出所述两段主旋律的相似性矩阵；

对所述相似性矩阵应用动态规划局部规整算法做二值化处理，得到二值矩阵；将前面的提取参数整合到动态规划规整算法的计算上，将原本算法中比较的参数替换成在特征提取和抽象表示后的关于二值相似性矩阵的计算，该矩阵能够精准地表示每一个音频帧之间的相似性；

2.根据权利要求1所述的方法，其特征在于，所述对所述两段音频信号进行频域分析后，找出所有的频域能量峰值位置，具体包括：

对输入的音频信号进行等响滤波处理后，采用公式：

l＝0，1，...and k＝0，1，...，N-1

其中，x(n)是音频信号的时间序列，w(n)是窗函数，l是帧号，M是窗的长度，N表示快速傅里叶变换长度，H是滑窗的步长；

3.根据权利要求1所述的方法，其特征在于，根据所述的频域幅度峰值位置，计算所述音频信号中每个音频帧对应频域的显著值，得到所述音频信号轨迹的显著平均值，具体包括：

采用公式

其中，β是能量压缩参数，

是能量阈值函数，

是权值函数，

为频率，

为能量，能量阈值函数

定义为：

其中，

是该频谱帧中频率能量的最高值，γ代表

与

所允许的能量差值，单位为dB；权值函数

其中，

指

对应的音高类与b的音高，

是调整权值的参数。

4.根据权利要求1所述的方法，其特征在于，所述根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值，具体包括：

采用公式

计算所述音高轨迹的有声部分判断的阈值；

其中，

为所述音频信号轨迹的显著平均值，

为方差。

5.根据权利要求1所述的方法，其特征在于，所述去除所述音频信号轨迹显著平均值超出所述阈值的部分，得到所述两段音频信号的主旋律序列，具体包括：判断所述显著值平均值是否高于或等于所述阈值，如果是，则将对应的音频信号轨迹视为主旋律区域的音高轨迹，予以保留；如果否，进一步判断所述显著值平均值是否包含颤音的轨迹以及方差是否超过40，如果是，则保留对应的音高轨迹，如果否，则将对应的音频信号轨迹视为非旋律区域的音高轨迹，做去除处理。

6.根据权利要求1所述的方法，其特征在于，所述求出所述两段主旋律的相似性矩阵，具体包括：

采用公式

求得所述两段主旋律序列的相似性矩阵；

其中，

与

代表特征向量序列的第i帧与第j帧向量，‘·’表示点积，

是将向量

向右平移t个位置的函数；函数OTI返回使

与

最相似(即向量相关最大化)的

的移调距离。

7.根据权利要求1所述的方法，其特征在于，对所述相似性矩阵应用动态规划局部规整算法做二值化处理，得到二值矩阵，具体包括：

其中4≤i≤n+1，4≤j≤m+1，除此之外的位置初始化为零，δ()是一个惩罚函数，定义如下：

8.根据权利要求1所述的方法，其特征在于，所述根据所述二值矩阵来判断所述两段输入音频信号的相似程度，具体包括：

从所述二值矩阵中找出所有大于预先设定的相似阈值的局部峰值；从所述局部峰值位置开始跟踪递归累加的路径，直到到达值为零的点；将所述路径跟踪的起止点的距离视为相似区域的边界；若某两条路径的起点重合，则保留终点的值较大的路径；所述路径的起点位置对应相似部分在两段音频中的起始时间，所述路径的终点位置对应相似部分的终止时间，所述路径终点的值即为所属路径对应相似部分的相似程度。

9.一种音频信号相似程度的自动检测系统，其特征在于，包括：

音频信号获取模块，用于获取待检测的两段音频信号；

主旋律序列获取模块，用于去除所述音频信号轨迹显著平均值超出所述阈值的部分，得到所述两段音频信号的主旋律序列；在任意时间点若仍存在两个以上的音高轨迹，则选择显著值平均值最高的轨迹作为主旋律轨迹，其余轨迹被去除，剩下的音高轨迹即为主旋律轨迹，为了比较相似性，将抽象主旋律序列，而只留下主旋律的整体进行，抽象化方法将每个频率值映射到一个音高类，并且使用直方图的形式获得音高的分布，每个音高被映射到一个八度以内的36个音高类，每个音高类覆盖了1/3个半音，通过这个过程可以得到一个36维向量的序列，每个向量代表了在大约半秒的时间内主旋律音高的分布；

二值矩阵获取模块，用于对所述相似性矩阵应用动态规划局部规整算法做二值化处理，得到二值矩阵；将前面的提取参数整合到动态规划规整算法的计算上，将原本算法中比较的参数替换成在特征提取和抽象表示后的关于二值相似性矩阵的计算，该矩阵能够精准地表示每一个音频帧之间的相似性；

10.根据权利要求9所述的系统，其特征在于，所述频域分析处理模块，具体包括：

l＝0，1，...and k＝0，1，...，N-1

其中，x(n)是音频信号的时间序列，w(n)是窗函数，I是帧号，M是窗的长度，N表示快速傅里叶变换长度，H是滑窗的步长；

11.根据权利要求9所述的系统，其特征在于，所述显著平均值计算模块，具体包括：

能量阈值函数获取单元，用于采用公式

得到能量阈值函数

其中，

是该频谱帧中频率能量的最高值，γ代表

与

所允许的能量差值，单位为dB；

权值函数获取单元，用于采用公式

得到权值函数

指

对应的音高类与b的音高，

是调整权值的参数；

显著性函数计算单元，用于采用公式

得到显著性函数；其中，β是能量压缩参数，

是能量阈值函数，

是权值函数，

为频率，

为能量。

12.根据权利要求9所述的系统，其特征在于，所述主旋律序列获取模块，具体包括：判断单元，用于判断所述显著值平均值是否高于或等于所述阈值，如果是，则将对应的音频信号轨迹视为主旋律区域的音高轨迹，予以保留；如果否，进一步判断所述显著值平均值是否包含颤音的轨迹以及方差是否超过40，如果是，则保留对应的音高轨迹，如果否，则将对应的音频信号轨迹视为非旋律区域的音高轨迹，做去除处理。

13.根据权利要求9所述的系统，其特征在于，所述相似性矩阵获取模块，具体包括：

采用公式

求得所述两段主旋律序列的相似性矩阵；

其中，

与

代表特征向量序列的第i帧与第j帧向量，‘·’表示点积，

是将向量

向右平移t个位置的函数；函数OTI返回使

与

最相似(即向量相关最大化)的

的移调距离。

14.根据权利要求9所述的系统，其特征在于，所述二值矩阵获取模块，具体包括：

惩罚函数获取单元，用于采用公式

得到惩罚函数δ(a，b)；

其中4≤i≤n+1，4≤j≤m+1，除此之外的位置初始化为零。

15.根据权利要求9所述的系统，其特征在于，所述相似程度判断模块，具体包括：

相似程度判断单元，从所述二值矩阵中找出所有大于预先设定的相似阈值的局部峰值；从所述局部峰值位置开始跟踪递归累加的路径，直到到达值为零的点；将所述路径跟踪的起止点的距离视为相似区域的边界；若某两条路径的起点重合，则保留终点的值较大的路径；所述路径的起点位置对应相似部分在两段音频中的起始时间，所述路径的终点位置对应相似部分的终止时间，所述路径终点的值即为所属路径对应相似部分的相似程度。