CN108665903B - 一种音频信号相似程度的自动检测方法及其系统 - Google Patents
一种音频信号相似程度的自动检测方法及其系统 Download PDFInfo
- Publication number
- CN108665903B CN108665903B CN201810445754.6A CN201810445754A CN108665903B CN 108665903 B CN108665903 B CN 108665903B CN 201810445754 A CN201810445754 A CN 201810445754A CN 108665903 B CN108665903 B CN 108665903B
- Authority
- CN
- China
- Prior art keywords
- value
- audio signal
- similarity
- pitch
- track
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 136
- 238000001514 detection method Methods 0.000 title claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims abstract description 96
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 38
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 9
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Computer Hardware Design (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Technology Law (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明公开了一种音频信号相似程度的自动检测方法及其系统,包括:获取待检测的两段音频信号;对其进行频域分析并找出所有频域能量局部峰值位置;连接频域能量局部峰值,组成音高轨迹;根据频域能量局部峰值位置,计算每个音频帧的显著值,得到显著平均值;根据显著平均值计算音高轨迹的有声部分判断的阈值;去除显著平均值超出所述阈值的部分,得到两段音频信号的主旋律序列;求出两段主旋律的相似性矩阵;并应用动态规划局部规整算法做二值化处理,得到二值矩阵;进而判断两段输入音频信号的相似程度。采用本发明的方法或系统,提升了音频信号相似程度检测效率,解决了音频传播中的抄袭问题,对于数字音频的版权管理问题予以了准确全面的保护。
Description
技术领域
本发明涉及音乐抄袭检测领域,特别是一种音频信号相似程度的自动检测方法及其系统。
背景技术
随着互联网以及软件开发技术的高速发展,音乐传播的代价以及音乐编写的门槛变得越来越低,音频相似性比较成了一个重要的研究课题。在音乐信息检索的研究中,音乐相似性计算是其中一个关键的课题,它研究如何以计算方式衡量两段不同音频的内容上的相似性。音乐之间的“相似性”的定义通常包含着很大的主观成分,然而其中也存在着一些可以量化的切入点,比如旋律走向的相似程度,在音乐抄袭的判断标准中,存在两种说法,一种是8小节以上的雷同便视为抄袭;另一种是相似音乐不超过4小节不算抄袭。无论是哪一种说法,抄袭检测主要依赖的技术无疑是音乐相似性的计算技术。音乐相似性计算中,基于片段的检索(Query-by-example)的目标是查询音频数据库中的音频以找出所有包含查询片段(query clip)的音频。这个问题在不同的应用场合下,有不同的功能要求。在音频识别(Audio identification)问题中,要求检索系统在给定查询片段之后,返回包含该片段的名称或作曲家信息等。在一些场合,音频识别问题还要求得出查询片段在原音频中的匹配位置。
在涉及到相似性计算方面的领域,有很多现有的方法,例如交叉相关(cross-correlation),弗罗贝尼乌斯范数(Frobenius norm),欧几里得距离(Euclideandistance),以及点积等。例如现有技术中用于音乐抄袭检测算法:基于动态时间规整(Dynamic Time Warping)的算法,对于动态规整算法的距离度量,通常采用的距离量度有欧几里得距离、余弦距离与相关度等。然而,大量文献指出,诸如Chroma向量等与声调有关的向量并不适合放在欧几里得空间中度量。动态时间规整算法,就是把两段不同长度的音频进行时间上的“对齐”,例如,在语音识别中,不同人对于同一段话(或者说字母)的发音时间必然长短不一,但把该声音记录下来以后,它的信号肯定是很相似的,只是在时间上未对齐,所以动态时间调整的目的是用一个函数拉长或者缩短其中一个信号,使得它们之间的误差达到最小。在音乐相似度计算中,相似的音乐在时间长短、旋律走向上必然存在一些误差,但是如果说两首音乐是存在极大相似度的,那么这两者间的相似信号必然存在很大的交集,因此,动态时间规整算法被大量地运用于音乐相似度计算之中,只要定义好音乐序列的距离计算方式,便可以根据动态规划计算累加距离,得到相似程度,对抄袭做出相关的判定。动态规划算法已经给出了音频的相似性。由于其应对时长变化的灵活性,大部分翻唱作品检测算法都采用了基于动态规划算法的相似性计算方式,如最小编辑距离与动态时间规整等。
然而,现有技术的主要问题是对于音乐抄袭的判断效果并不全面。音乐抄袭更多只需要在音乐的局部进行计算,动态时间规整算法计算从(0,0)到(Am,Bm)之间的相似距离并不能很好地表现两段音乐某个局部之间的相似度差异,因此在乱序的局部相似的音乐中,该方法并不能很好地显示出显著的相似度差异,如果要使用局部的截取进行处理,那么无疑增加了时间的开销,在快速判断抄袭的技术需求下并不能作为首要选择。同时,对于序列距离的定义多种多样,这种基于线性比较的方法在相似度计算中不存在明显的梯度,换言之,相似度的拟合并不该是一条简单增长的曲线,距离的定义一定程度上影响了判断效果。
发明内容
本发明的目的是提供了一种音频信号相似程度的自动检测方法及其系统,能对音频中的短时相似片段进行抄袭检测,准确地体现出两段音乐的局部相似度差异,对数字音频的版权管理问题予以更好的保护。
为实现上述目的,本发明提供了如下方案:
一种音频信号相似程度的自动检测方法,包括:
获取待检测的两段音频信号;
对所述两段音频信号进行频域分析后,找出所有的频域能量峰值位置;
连接相邻音频帧的所述频域能量峰值,组成音高轨迹;
根据所述的频域能量峰值位置,计算所述音频信号中每个音频帧的显著值,得到所述音频信号轨迹的显著平均值;
根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值;
去除所述音频信号轨迹显著平均值超出所述阈值的部分,得到所述两段音频信号的主旋律序列;
求出所述两段主旋律的相似性矩阵;
对所述相似性矩阵应用动态规划局部规整算法做二值化处理,得到二值矩阵;
根据所述二值矩阵来判断所述两段输入音频信号的相似程度。
可选的,所述对所述两段音频信号进行频域分析后,找出所有的频域能量峰值位置,具体包括:
对输入的音频信号进行等响滤波处理后,采用公式:
l=0,1,...and k=0,1,...,N-1
对滤波后的音频信号进行短时傅里叶变换,并对结果取模得到所述输入音频信号的频域幅度值;
其中,x(n)是音频信号的时间序列,w(n)是窗函数,l是帧号,M是窗的长度,N表示快速傅里叶变换长度,H是滑窗的步长;
从所述频域能量值|xl(k)|中,使用峰值提取算法找出所有幅度局部峰值位置pi。
可选的,根据所述的频域幅度峰值位置,计算所述音频信号中每个音频帧对应频域的显著值,得到所述音频信号轨迹的显著平均值,具体包括:
采用公式
根据所述能量峰值位置计算显著性函数,并得到所述音频信号轨迹的显著平均值;
可选的,所述根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值,具体包括:
采用公式
计算所述音高轨迹的有声部分判断的阈值;
可选的,所述去除所述音频信号轨迹显著平均值超出所述阈值的部分,得到所述两段音频信号的主旋律序列,具体包括:判断所述显著值平均值是否高于或等于所述阈值,如果是,则将对应的音频信号轨迹视为主旋律区域的音高轨迹,予以保留;如果否,进一步判断所述显著值平均值是否包含颤音的轨迹以及方差是否超过40,如果是,则保留对应的音高轨迹,如果否,则将对应的音频信号轨迹视为非旋律区域的音高轨迹,做去除处理。
可选的,所述求出所述两段主旋律的相似性矩阵,具体包括:
采用公式
求得所述两段主旋律序列的相似性矩阵;
可选的,对所述相似性矩阵应用动态规划局部规整算法做二值化处理,得到二值矩阵,具体包括:
根据所述相似性矩阵,建立一个大小为(n+1)×(m+1)的新的二值矩阵;其值以递归形式如下定义:
其中4≤i≤n+1,4≤j≤m+1,除此之外的位置初始化为零,δ()是一个惩罚函数,定义如下:
可选的,所述根据所述二值矩阵来判断所述两段输入音频信号的相似程度,具体包括:
从所述二值矩阵中找出所有大于预先设定的相似阈值的局部峰值;从所述局部峰值位置开始跟踪递归累加的路径,直到到达值为零的点;将所述路径跟踪的起止点的距离视为相似区域的边界;若所述某两条路径的起点重合,则保留终点的值较大的路径;所述路径的起点位置对应相似部分在两段音频中的起始时间,所述路径的终点位置对应相似部分的终止时间,所述路径终点的值即为所属路径对应相似部分的相似程度。
一种音频信号相似程度的自动检测系统,包括:
音频信号获取模块,用于获取待检测的两段音频信号;
频域分析处理模块,用于对所述两段音频信号进行频域分析后,找出所有的频域能量峰值位置;
音高轨迹获取模块,用于连接相邻音频帧的所述频域能量峰值,组成音高轨迹;
显著平均值计算模块,用于根据所述的频域能量峰值位置,计算所述音频信号中每个音频帧的显著值,得到所述音频信号轨迹的显著平均值;
阈值获取模块,用于根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值;
主旋律序列获取模块,用于去除所述音频信号轨迹显著平均值超出所述阈值的部分,得到所述两段音频信号的主旋律序列;
相似性矩阵获取模块,用于求出所述两段主旋律的相似性矩阵;
二值矩阵获取模块,用于对所述相似性矩阵应用动态规划局部规整算法做二值化处理,得到二值矩阵;
相似程度判断模块,用于根据所述二值矩阵来判断所述两段输入音频信号的相似程度。
可选的,所述频域分析处理模块,具体包括:
频域分析单元,用于对输入的音频信号进行等响滤波处理后,采用公式:
l=0,1,...and k=0,1,...,N-1
对滤波后的音频信号进行短时傅里叶变换,得到所述输入音频信号的频域能量值;
其中,x(n)是音频信号的时间序列,w(n)是窗函数,I是帧号,M是窗的长度,N表示快速傅里叶变换长度,H是滑窗的步长;
能量峰值位置获取单元,从所述频域能量值|xl(k)|中找出所有能量峰值位置pi。
可选的,所述显著平均值计算模块,具体包括:
能量阈值函数获取单元,用于采用公式
权值函数获取单元,用于采用公式
显著性函数计算单元,用于采用公式
可选的,所述主旋律序列获取模块,具体包括:判断单元,用于判断所述显著值平均值是否高于或等于所述阈值,如果是,则将对应的音频信号轨迹视为主旋律区域的音高轨迹,予以保留;如果否,进一步判断所述显著值平均值是否包含颤音的轨迹以及方差是否超过40,如果是,则保留对应的音高轨迹,如果否,则将对应的音频信号轨迹视为非旋律区域的音高轨迹,做去除处理。
可选的,所述相似性矩阵获取模块,具体包括:
相似性矩阵获取单元,用于对所述求出所述两段主旋律的相似性矩阵,
采用公式
求得所述两段主旋律序列的相似性矩阵;
可选的,所述二值矩阵获取模块,具体包括:
惩罚函数获取单元,用于采用公式
得到惩罚函数δ(a,b);
二值矩阵获取单元,用于根据所述相似性矩阵,建立一个大小为(n+1)×(m+1)的新的二值矩阵;其值以递归形式如下定义:
其中4≤i≤n+1,4≤j≤m+1,除此之外的位置初始化为零。
可选的,所述相似程度判断模块,具体包括:
相似程度判断单元,从所述二值矩阵中找出所有大于预先设定的相似阈值的局部峰值;从所述局部峰值位置开始跟踪递归累加的路径,直到到达值为零的点;将所述路径跟踪的起止点的距离视为相似区域的边界;若所述某两条路径的起点重合,则保留终点的值较大的路径;所述路径的起点位置对应相似部分在两段音频中的起始时间,所述路径的终点位置对应相似部分的终止时间,所述路径终点的值即为所属路径对应相似部分的相似程度。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种音频信号相似程度的自动检测方法及其系统,通过主旋律线的抽象化,局部的音高变化带来的影响被大大消除,同时主旋律表示的序列长度也大大减小,提升了相似程度的检测效率;利用二值相似性矩阵的方式度量距离,解决了检测相似区域边界的困难,将矩阵值“量化”为仅仅两个取值,能清楚地显示出相似区域的边界,提高了计算的便捷性。本发明的相似程度的自动检测方法所采用的主旋律抽象化方法、二值相似性矩阵的定义方式以及对于动态规整算法的运用,对音频中的短时相似片段进行抄袭检测,解决了音频传播中的抄袭问题,对于数字音频的版权管理问题予以了更好的保护。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种音频信号相似程度的自动检测方法流程图;
图2为本发明实施例一种音频信号相似程度的自动检测系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供了一种音频信号相似程度的自动检测方法及其系统,能对音频中的短时相似片段进行抄袭检测,准确地体现出两段音乐的局部相似度差异,对数字音频的版权管理问题予以更好的保护。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例一种音频信号相似程度的自动检测方法流程图。如图1所示,本实施例提供的一种音频信号相似程度的自动检测方法,包括:
步骤101:获取待检测的两段音频信号。
步骤102:对所述两段音频信号进行频域分析后,找出所有的频域能量峰值位置。
步骤103:连接相邻音频帧的所述频域能量峰值,组成音高轨迹。
步骤104:根据所述的频域能量峰值位置,计算所述音频信号中每个音频帧的显著值,得到所述音频信号轨迹的显著平均值。
步骤105:根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值。
步骤106:去除所述音频信号轨迹显著平均值超出所述阈值的部分,得到所述两段音频信号的主旋律序列。
步骤107:求出所述两段主旋律的相似性矩阵。
步骤108:对所述相似性矩阵应用动态规划局部规整算法做二值化处理,得到二值矩阵。
步骤109:根据所述二值矩阵来判断所述两段输入音频信号的相似程度。
所述对对所述两段音频信号进行频域分析后,找出所有的频域能量峰值位置,具体包括:
对输入的音频信号进行等响滤波处理,采用公式:
l=0,1,...and k=0,1,...,N-1
对滤波后的音频信号进行短时傅里叶变换,得到所述输入音频信号的频域能量值;
其中,x(n)是音频信号的时间序列,w(n)是窗函数,I是帧号,M是窗的长度,N表示快速傅里叶变化的长度,H是滑窗的步长;
从所述频域能量值|xl(k)|中找出所有能量峰值位置pi。
所述根据所述的频域能量峰值位置,计算所述音频信号中每个音频帧的显著值,得到所述音频信号轨迹的显著平均值,具体包括:
采用公式
根据所述能量峰值位置计算显著性函数,并得到所述音频信号轨迹的显著平均值;
所述根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值,具体包括:
采用公式
计算所述音高轨迹的有声部分判断的阈值;
所述去除所述音频信号轨迹显著平均值超出所述阈值的部分,得到所述两段音频信号的主旋律序列,具体包括:判断所述显著值平均值是否高于或等于所述阈值,如果是,则将对应的音频信号轨迹视为主旋律区域的音高轨迹,予以保留;如果否,进一步判断所述显著值平均值是否包含颤音的轨迹以及方差是否超过40,如果是,则保留对应的音高轨迹,如果否,则将对应的音频信号轨迹视为非旋律区域的音高轨迹,做去除处理;具体的,记每个帧存在的所有音高轨迹的音高平均值为为了去除所谓“八度误差”,执行以下步骤:
步骤E,将步骤C和D重复3-6次。
上述的步骤去除了与主旋律音高差距八度以上的音高轨迹。
经上述步骤后,在任意时间点若仍存在两个以上的音高轨迹,则选择显著值平均值最高的轨迹作为主旋律轨迹,其余轨迹被去除。
该步骤完成后,剩下的音高轨迹即为主旋律轨迹,为了比较相似性,我们将抽象主旋律序列,而只留下主旋律的整体进行,抽象化方法将每个频率值映射到一个音高类(pitch class),并且使用直方图的形式获得音高的分布。
在本发明的算法中,每个音高被映射到一个八度以内的36个音高类,每个音高类覆盖了1/3个半音。通过这个过程可以得到一个36维向量的序列,每个向量代表了在大约半秒的时间内主旋律音高的分布
所述求出所述两段主旋律的相似性矩阵,具体包括:
采用公式
求得所述两段主旋律序列的相似性矩阵;
其中,与代表特征向量序列的第i帧与第j帧向量,‘·’表示点积,是将向量向右平移t个位置的函数;OTI指的是向量移调n个音高单位后,与最相似,μ+与μ-是常数,分别是当某一对向量相似或不相似时的奖励或惩罚值,μ+取正值,μ-取负值。这两个常数的相对取值对于算法的性能具有决定性的影响。μ+的值可定为1.0。μ-的取值是绝对值接近μ+的负值,如-0.9。
对所述相似性矩阵应用动态规划局部规整算法做二值化处理,得到二值矩阵,具体包括:
根据所述相似性矩阵,建立一个大小为(n+1)×(m+1)的新的二值矩阵;其值以递归形式如下定义:
其中4≤i≤n+1,4≤j≤m+1,除此之外的位置初始化为零,δ()是一个惩罚函数,定义如下:
所述根据所述二值矩阵来判断所述两段输入音频信号的相似程度,具体包括:
从所述二值矩阵中找出所有大于预先设定的相似阈值的局部峰值;从所述局部峰值位置开始跟踪递归累加的路径,直到到达值为零的点;将所述路径跟踪的起止点的距离视为相似区域的边界;若所述某两条路径的起点重合,则保留终点的值较大的路径;所述路径的起点位置对应相似部分在两段音频中的起始时间,所述路径的终点位置对应相似部分的终止时间,所述路径终点的值即为所属路径对应相似部分的相似程度。
其中,实验显示,C1取值为0.7,C2取值为0.5时算法的性能较好;在这个过程中,可能存在两条路径发生重合的情况。若两条路径在某一点完全重合,则从该点到零点(累加起始点)的累加路径必定完全重合。因此,可以通过以下规则合并重合路径:若两条路径的起点重合,则保留终点的值较大的路径。
图2为本发明实施例一种音频信号相似程度的自动检测系统结构示意图。如图2所示,本发明实施例提供的一种音频信号相似程度的自动检测系统,包括:
音频信号获取模块201,用于获取待检测的两段音频信号.
频域分析处理模块202,用于对所述两段音频信号进行频域分析后,找出所有的频域能量峰值位置。
音高轨迹获取模块203,用于连接相邻音频帧的所述频域能量峰值,组成音高轨迹。
显著平均值计算模块204,用于根据所述的频域能量峰值位置,计算所述音频信号中每个音频帧的显著值,得到所述音频信号轨迹的显著平均值。
阈值获取模块205,用于根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值。
主旋律序列获取模块206,用于去除所述音频信号轨迹显著平均值超出所述阈值的部分,得到所述两段音频信号的主旋律序列。
相似性矩阵获取模块207,用于求出所述两段主旋律的相似性矩阵。
二值矩阵获取模块208,用于对所述相似性矩阵应用动态规划局部规整算法做二值化处理,得到二值矩阵。
相似程度判断模块209,用于根据所述二值矩阵来判断所述两段输入音频信号的相似程度。
所述频域分析处理模块202,具体包括:
频域分析单元,用于对输入的音频信号进行等响滤波处理,采用公式:
l=0,1,...and k=0,1,...,N-1
对滤波后的音频信号进行短时傅里叶变换,得到所述输入音频信号的频域能量值;
其中,x(n)是音频信号的时间序列,w(n)是窗函数,I是帧号,M是窗的长度,N表示快速傅里叶变化的长度,H是滑窗的步长;
能量峰值位置获取单元,从所述频域能量值|xl(k)|中找出所有能量峰值位置pi。
所述显著平均值计算模块204,具体包括:
能量阈值函数获取单元,用于采用公式
权值函数获取单元,用于采用公式
显著性函数计算单元,用于采用公式
所述主旋律序列获取模块206,具体包括:判断单元,用于判断所述显著值平均值是否高于或等于所述阈值,如果是,则将对应的音频信号轨迹视为主旋律区域的音高轨迹,予以保留;如果否,进一步判断所述显著值平均值是否包含颤音的轨迹以及方差是否超过40,如果是,则保留对应的音高轨迹,如果否,则将对应的音频信号轨迹视为非旋律区域的音高轨迹,做去除处理。
所述相似性矩阵获取模块207,具体包括:
相似性矩阵获取单元,用于对所述求出所述两段主旋律的相似性矩阵,
采用公式
求得所述两段主旋律序列的相似性矩阵;
所述二值矩阵获取模块208,具体包括:
惩罚函数获取单元,用于采用公式
得到惩罚函数δ(a,b);
二值矩阵获取单元,用于根据所述相似性矩阵,建立一个大小为(n+1)×(m+1)的新的二值矩阵;其值以递归形式如下定义:
其中4≤i≤n+1,4≤j≤m+1,除此之外的位置初始化为零。
所述相似程度判断模块209,具体包括:
相似程度判断单元,从所述二值矩阵中找出所有大于预先设定的相似阈值的局部峰值;从所述局部峰值位置开始跟踪递归累加的路径,直到到达值为零的点;将所述路径跟踪的起止点的距离视为相似区域的边界;若所述某两条路径的起点重合,则保留终点的值较大的路径;所述路径的起点位置对应相似部分在两段音频中的起始时间,所述路径的终点位置对应相似部分的终止时间,所述路径终点的值即为所属路径对应相似部分的相似程度。
通过本发明的方法和系统,在特征提取上,将频谱上的波形区分成以1/3个半音为梯度的,合计36个音高类的主旋律向量,同时利用去除八度的方式提高了主旋律提取中可能存在的识别不准的问题,36个音高类也提高了识别的准确度;在抽象表示上,本方法利用二值相似性矩阵,将每一帧的音高类向量两两比较,矩阵上的每一个值表示了两个向量经过平移之后的相似性比较结果,详细的比较的方式在文中有介绍,这种抽象表示适用于我们的特征提取,因此也是本方法特有的地方,将前面的提取参数整合到动态规划规整算法的计算上,将原本算法中比较的参数替换成我们在特征提取和抽象表示后的关于二值相似性矩阵的计算,该矩阵能够精准地表示每一个音频帧之间的相似性,在动态规划规整算法的运作下,能够极大地提高我们对于两段音频相似性比较的准确度,在音频拉伸、剪切、交换位置等各种干扰因素下,该方法仍能够检测到相似性,特征提取到抽象表示减小了音频中需要运算的信息,化大量信息为扼要的主旋律信息和相似性信息,在计算上也存在很大的高效性。
主旋律信息结构单纯,但不同作品之间主旋律仍然可能存在细节差异——除了节奏快慢变化与移调之外,诸如八度变化、以及滑音、颤音的存在,都可能带来两个版本的主旋律之间的不同,因此该主旋律表示仍然不适合直接进行比较。为了去除这些细节上的变化,而只留下主旋律的整体进行,即抽象化,通过主旋律线的抽象化,局部的音高变化带来的影响被大大消除了;同时主旋律表示的序列长度也大大减小,带来了计算效率的提升。
对于动态规整算法的距离度量,通常采用的距离量度有欧几里得距离、余弦距离与相关度等。然而,多个文献指出,诸如Chroma向量等与声调有关的向量并不适合放在欧几里得空间中度量。因此,利用二值相似性矩阵的方式度量距离,在度量方式上是一个进步,同时二值解决了检测相似区域边界的困难,将矩阵值“量化”为仅仅两个取值,这样就能清楚地显示出相域的边界,提高了计算的方便性;为了对本发明的算法的性能进行评价实验,我们准备了CFD,MED,QUO三个数据集(名称与内容无关),个数据集的整体再现率与虚警率如表1所示。
对数据集“CFD”与“MED”数据集的实验结果显示,该算法能基本完整地
表1:相似片段检测实验结果
Dataset | Recall | Falsealarm |
CFD | 84.30% | 2.92% |
MED | 79.60% | 2.30% |
QUO | 63.09% | 15.71% |
还原大部分的相似部分,并避免了虚警。总体上,算法仍能检测到大部分相似部分的存在,因此在抄袭检测算法的效能上,本发明拥有更高的实用性。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (15)
1.一种音频信号相似程度的自动检测方法,其特征在于,包括:
获取待检测的两段音频信号;
对所述两段音频信号进行频域分析后,找出所有的频域能量峰值位置;
连接相邻音频帧的所述频域能量峰值,组成音高轨迹;
根据所述的频域能量峰值位置,计算所述音频信号中每个音频帧的显著值,得到所述音频信号轨迹的显著平均值;
根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值;
去除所述音频信号轨迹显著平均值超出所述阈值的部分,得到所述两段音频信号的主旋律序列;在任意时间点若仍存在两个以上的音高轨迹,则选择显著值平均值最高的轨迹作为主旋律轨迹,其余轨迹被去除,剩下的音高轨迹即为主旋律轨迹,为了比较相似性,将抽象主旋律序列,而只留下主旋律的整体进行,抽象化方法将每个频率值映射到一个音高类,并且使用直方图的形式获得音高的分布,每个音高被映射到一个八度以内的36个音高类,每个音高类覆盖了1/3个半音,通过这个过程可以得到一个36维向量的序列,每个向量代表了在大约半秒的时间内主旋律音高的分布;
求出所述两段主旋律的相似性矩阵;
对所述相似性矩阵应用动态规划局部规整算法做二值化处理,得到二值矩阵;将前面的提取参数整合到动态规划规整算法的计算上,将原本算法中比较的参数替换成在特征提取和抽象表示后的关于二值相似性矩阵的计算,该矩阵能够精准地表示每一个音频帧之间的相似性;
根据所述二值矩阵来判断所述两段输入音频信号的相似程度。
5.根据权利要求1所述的方法,其特征在于,所述去除所述音频信号轨迹显著平均值超出所述阈值的部分,得到所述两段音频信号的主旋律序列,具体包括:判断所述显著值平均值是否高于或等于所述阈值,如果是,则将对应的音频信号轨迹视为主旋律区域的音高轨迹,予以保留;如果否,进一步判断所述显著值平均值是否包含颤音的轨迹以及方差是否超过40,如果是,则保留对应的音高轨迹,如果否,则将对应的音频信号轨迹视为非旋律区域的音高轨迹,做去除处理。
8.根据权利要求1所述的方法,其特征在于,所述根据所述二值矩阵来判断所述两段输入音频信号的相似程度,具体包括:
从所述二值矩阵中找出所有大于预先设定的相似阈值的局部峰值;从所述局部峰值位置开始跟踪递归累加的路径,直到到达值为零的点;将所述路径跟踪的起止点的距离视为相似区域的边界;若某两条路径的起点重合,则保留终点的值较大的路径;所述路径的起点位置对应相似部分在两段音频中的起始时间,所述路径的终点位置对应相似部分的终止时间,所述路径终点的值即为所属路径对应相似部分的相似程度。
9.一种音频信号相似程度的自动检测系统,其特征在于,包括:
音频信号获取模块,用于获取待检测的两段音频信号;
频域分析处理模块,用于对所述两段音频信号进行频域分析后,找出所有的频域能量峰值位置;
音高轨迹获取模块,用于连接相邻音频帧的所述频域能量峰值,组成音高轨迹;
显著平均值计算模块,用于根据所述的频域能量峰值位置,计算所述音频信号中每个音频帧的显著值,得到所述音频信号轨迹的显著平均值;
阈值获取模块,用于根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值;
主旋律序列获取模块,用于去除所述音频信号轨迹显著平均值超出所述阈值的部分,得到所述两段音频信号的主旋律序列;在任意时间点若仍存在两个以上的音高轨迹,则选择显著值平均值最高的轨迹作为主旋律轨迹,其余轨迹被去除,剩下的音高轨迹即为主旋律轨迹,为了比较相似性,将抽象主旋律序列,而只留下主旋律的整体进行,抽象化方法将每个频率值映射到一个音高类,并且使用直方图的形式获得音高的分布,每个音高被映射到一个八度以内的36个音高类,每个音高类覆盖了1/3个半音,通过这个过程可以得到一个36维向量的序列,每个向量代表了在大约半秒的时间内主旋律音高的分布;
相似性矩阵获取模块,用于求出所述两段主旋律的相似性矩阵;
二值矩阵获取模块,用于对所述相似性矩阵应用动态规划局部规整算法做二值化处理,得到二值矩阵;将前面的提取参数整合到动态规划规整算法的计算上,将原本算法中比较的参数替换成在特征提取和抽象表示后的关于二值相似性矩阵的计算,该矩阵能够精准地表示每一个音频帧之间的相似性;
相似程度判断模块,用于根据所述二值矩阵来判断所述两段输入音频信号的相似程度。
12.根据权利要求9所述的系统,其特征在于,所述主旋律序列获取模块,具体包括:判断单元,用于判断所述显著值平均值是否高于或等于所述阈值,如果是,则将对应的音频信号轨迹视为主旋律区域的音高轨迹,予以保留;如果否,进一步判断所述显著值平均值是否包含颤音的轨迹以及方差是否超过40,如果是,则保留对应的音高轨迹,如果否,则将对应的音频信号轨迹视为非旋律区域的音高轨迹,做去除处理。
15.根据权利要求9所述的系统,其特征在于,所述相似程度判断模块,具体包括:
相似程度判断单元,从所述二值矩阵中找出所有大于预先设定的相似阈值的局部峰值;从所述局部峰值位置开始跟踪递归累加的路径,直到到达值为零的点;将所述路径跟踪的起止点的距离视为相似区域的边界;若某两条路径的起点重合,则保留终点的值较大的路径;所述路径的起点位置对应相似部分在两段音频中的起始时间,所述路径的终点位置对应相似部分的终止时间,所述路径终点的值即为所属路径对应相似部分的相似程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810445754.6A CN108665903B (zh) | 2018-05-11 | 2018-05-11 | 一种音频信号相似程度的自动检测方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810445754.6A CN108665903B (zh) | 2018-05-11 | 2018-05-11 | 一种音频信号相似程度的自动检测方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108665903A CN108665903A (zh) | 2018-10-16 |
CN108665903B true CN108665903B (zh) | 2021-04-30 |
Family
ID=63779037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810445754.6A Active CN108665903B (zh) | 2018-05-11 | 2018-05-11 | 一种音频信号相似程度的自动检测方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108665903B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109087669B (zh) * | 2018-10-23 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 音频相似度检测方法、装置、存储介质及计算机设备 |
CN109841232B (zh) * | 2018-12-30 | 2023-04-07 | 瑞声科技(新加坡)有限公司 | 音乐信号中音符位置的提取方法和装置及存储介质 |
CN109829265B (zh) * | 2019-01-30 | 2020-12-18 | 杭州拾贝知识产权服务有限公司 | 一种音频作品的侵权取证方法和系统 |
CN110310661B (zh) * | 2019-07-03 | 2021-06-11 | 云南康木信科技有限责任公司 | 一种两路实时广播音频延时和相似度的计算方法 |
CN110910899B (zh) * | 2019-11-27 | 2022-04-08 | 杭州联汇科技股份有限公司 | 一种实时音频信号一致性对比检测方法 |
CN111179914B (zh) * | 2019-12-04 | 2022-12-16 | 华南理工大学 | 一种基于改进动态时间规整算法的语音样本筛选方法 |
CN111241335A (zh) * | 2020-01-07 | 2020-06-05 | 厦门快商通科技股份有限公司 | 音频广告检测方法、系统、移动终端及存储介质 |
CN111161756B (zh) * | 2020-02-13 | 2022-05-31 | 北京天泽智云科技有限公司 | 风机叶片扫风声音信号中异常哨声轮廓的提取及识别方法 |
CN111785296B (zh) * | 2020-05-26 | 2022-06-10 | 浙江大学 | 基于重复旋律的音乐分段边界识别方法 |
CN115116472A (zh) * | 2021-03-23 | 2022-09-27 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置、设备及存储介质 |
CN115273891B (zh) * | 2022-07-13 | 2024-04-19 | 上海海洋大学 | 一种基于相似度检测的音频自动剪错方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1545120A1 (en) * | 1999-11-15 | 2005-06-22 | Seiko Epson Corporation | Image processing |
CN101271457A (zh) * | 2007-03-21 | 2008-09-24 | 中国科学院自动化研究所 | 一种基于旋律的音乐检索方法及装置 |
JP2011081324A (ja) * | 2009-10-09 | 2011-04-21 | National Institute Of Advanced Industrial Science & Technology | ピッチ・クラスター・マップを用いた音声認識方法 |
CN103871426A (zh) * | 2012-12-13 | 2014-06-18 | 上海八方视界网络科技有限公司 | 对比用户音频与原唱音频相似度的方法及其系统 |
CN104091598A (zh) * | 2013-04-18 | 2014-10-08 | 腾讯科技(深圳)有限公司 | 一种音频文件的相似计算方法及装置 |
CN106649559A (zh) * | 2016-11-09 | 2017-05-10 | 腾讯音乐娱乐(深圳)有限公司 | 音频推荐方法及装置 |
CN106919662A (zh) * | 2017-02-14 | 2017-07-04 | 复旦大学 | 一种音乐识别方法及系统 |
-
2018
- 2018-05-11 CN CN201810445754.6A patent/CN108665903B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1545120A1 (en) * | 1999-11-15 | 2005-06-22 | Seiko Epson Corporation | Image processing |
CN101271457A (zh) * | 2007-03-21 | 2008-09-24 | 中国科学院自动化研究所 | 一种基于旋律的音乐检索方法及装置 |
JP2011081324A (ja) * | 2009-10-09 | 2011-04-21 | National Institute Of Advanced Industrial Science & Technology | ピッチ・クラスター・マップを用いた音声認識方法 |
CN103871426A (zh) * | 2012-12-13 | 2014-06-18 | 上海八方视界网络科技有限公司 | 对比用户音频与原唱音频相似度的方法及其系统 |
CN104091598A (zh) * | 2013-04-18 | 2014-10-08 | 腾讯科技(深圳)有限公司 | 一种音频文件的相似计算方法及装置 |
CN106649559A (zh) * | 2016-11-09 | 2017-05-10 | 腾讯音乐娱乐(深圳)有限公司 | 音频推荐方法及装置 |
CN106919662A (zh) * | 2017-02-14 | 2017-07-04 | 复旦大学 | 一种音乐识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
多版本音乐识别技术研究;龚子健;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215(第2期);正文第四章,图4-1 * |
歌曲主旋律提取研究;方旭怡;《光中国优秀硕士学位论文全文数据库 信息科技辑》;20180315(第3期);正文第2.4.3节,图2-6 * |
Also Published As
Publication number | Publication date |
---|---|
CN108665903A (zh) | 2018-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108665903B (zh) | 一种音频信号相似程度的自动检测方法及其系统 | |
Malekesmaeili et al. | A local fingerprinting approach for audio copy detection | |
Ramalingam et al. | Gaussian mixture modeling of short-time Fourier transform features for audio fingerprinting | |
US10089994B1 (en) | Acoustic fingerprint extraction and matching | |
Seo et al. | Audio fingerprinting based on normalized spectral subband moments | |
Xie et al. | Copy-move detection of digital audio based on multi-feature decision | |
Liu et al. | Fast copy-move detection of digital audio | |
Casey et al. | Fast recognition of remixed music audio | |
US9122753B2 (en) | Method and apparatus for retrieving a song by hummed query | |
CN102436806A (zh) | 一种基于相似度的音频拷贝检测的方法 | |
CN104221079A (zh) | 利用频谱特性进行声音分析的改进的梅尔滤波器组结构 | |
Ustubioglu et al. | Detection of audio copy-move-forgery with novel feature matching on Mel spectrogram | |
Ustubioglu et al. | Robust copy-move detection in digital audio forensics based on pitch and modified discrete cosine transform | |
Yan et al. | Exposing speech transsplicing forgery with noise level inconsistency | |
Hossain et al. | Emovoice: Finding my mood from my voice signal | |
Seo | An asymmetric matching method for a robust binary audio fingerprinting | |
Birla | A robust unsupervised pattern discovery and clustering of speech signals | |
Ghaemmaghami et al. | Speaker attribution of australian broadcast news data | |
Seo et al. | Higher-order moments for musical genre classification | |
Jensen | Rhythm-based segmentation of popular chinese music | |
Rosenzweig et al. | Detecting Stable Regions in Frequency Trajectories for Tonal Analysis of Traditional Georgian Vocal Music. | |
You et al. | Music Identification System Using MPEG‐7 Audio Signature Descriptors | |
Ulutas et al. | Localization of Forgery on Audio Clips Using GLCM Features and Mel Spectograms | |
Rouniyar et al. | Channel response based multi-feature audio splicing forgery detection and localization | |
Patil et al. | Content-based audio classification and retrieval: A novel approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |