CN108665903B - 一种音频信号相似程度的自动检测方法及其系统 - Google Patents

一种音频信号相似程度的自动检测方法及其系统 Download PDF

Info

Publication number
CN108665903B
CN108665903B CN201810445754.6A CN201810445754A CN108665903B CN 108665903 B CN108665903 B CN 108665903B CN 201810445754 A CN201810445754 A CN 201810445754A CN 108665903 B CN108665903 B CN 108665903B
Authority
CN
China
Prior art keywords
value
audio signal
similarity
pitch
track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810445754.6A
Other languages
English (en)
Other versions
CN108665903A (zh
Inventor
李伟
吴益明
陈轲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201810445754.6A priority Critical patent/CN108665903B/zh
Publication of CN108665903A publication Critical patent/CN108665903A/zh
Application granted granted Critical
Publication of CN108665903B publication Critical patent/CN108665903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Technology Law (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开了一种音频信号相似程度的自动检测方法及其系统,包括:获取待检测的两段音频信号;对其进行频域分析并找出所有频域能量局部峰值位置;连接频域能量局部峰值,组成音高轨迹;根据频域能量局部峰值位置,计算每个音频帧的显著值,得到显著平均值;根据显著平均值计算音高轨迹的有声部分判断的阈值;去除显著平均值超出所述阈值的部分,得到两段音频信号的主旋律序列;求出两段主旋律的相似性矩阵;并应用动态规划局部规整算法做二值化处理,得到二值矩阵;进而判断两段输入音频信号的相似程度。采用本发明的方法或系统,提升了音频信号相似程度检测效率,解决了音频传播中的抄袭问题,对于数字音频的版权管理问题予以了准确全面的保护。

Description

一种音频信号相似程度的自动检测方法及其系统
技术领域
本发明涉及音乐抄袭检测领域,特别是一种音频信号相似程度的自动检测方法及其系统。
背景技术
随着互联网以及软件开发技术的高速发展,音乐传播的代价以及音乐编写的门槛变得越来越低,音频相似性比较成了一个重要的研究课题。在音乐信息检索的研究中,音乐相似性计算是其中一个关键的课题,它研究如何以计算方式衡量两段不同音频的内容上的相似性。音乐之间的“相似性”的定义通常包含着很大的主观成分,然而其中也存在着一些可以量化的切入点,比如旋律走向的相似程度,在音乐抄袭的判断标准中,存在两种说法,一种是8小节以上的雷同便视为抄袭;另一种是相似音乐不超过4小节不算抄袭。无论是哪一种说法,抄袭检测主要依赖的技术无疑是音乐相似性的计算技术。音乐相似性计算中,基于片段的检索(Query-by-example)的目标是查询音频数据库中的音频以找出所有包含查询片段(query clip)的音频。这个问题在不同的应用场合下,有不同的功能要求。在音频识别(Audio identification)问题中,要求检索系统在给定查询片段之后,返回包含该片段的名称或作曲家信息等。在一些场合,音频识别问题还要求得出查询片段在原音频中的匹配位置。
在涉及到相似性计算方面的领域,有很多现有的方法,例如交叉相关(cross-correlation),弗罗贝尼乌斯范数(Frobenius norm),欧几里得距离(Euclideandistance),以及点积等。例如现有技术中用于音乐抄袭检测算法:基于动态时间规整(Dynamic Time Warping)的算法,对于动态规整算法的距离度量,通常采用的距离量度有欧几里得距离、余弦距离与相关度等。然而,大量文献指出,诸如Chroma向量等与声调有关的向量并不适合放在欧几里得空间中度量。动态时间规整算法,就是把两段不同长度的音频进行时间上的“对齐”,例如,在语音识别中,不同人对于同一段话(或者说字母)的发音时间必然长短不一,但把该声音记录下来以后,它的信号肯定是很相似的,只是在时间上未对齐,所以动态时间调整的目的是用一个函数拉长或者缩短其中一个信号,使得它们之间的误差达到最小。在音乐相似度计算中,相似的音乐在时间长短、旋律走向上必然存在一些误差,但是如果说两首音乐是存在极大相似度的,那么这两者间的相似信号必然存在很大的交集,因此,动态时间规整算法被大量地运用于音乐相似度计算之中,只要定义好音乐序列的距离计算方式,便可以根据动态规划计算累加距离,得到相似程度,对抄袭做出相关的判定。动态规划算法已经给出了音频的相似性。由于其应对时长变化的灵活性,大部分翻唱作品检测算法都采用了基于动态规划算法的相似性计算方式,如最小编辑距离与动态时间规整等。
然而,现有技术的主要问题是对于音乐抄袭的判断效果并不全面。音乐抄袭更多只需要在音乐的局部进行计算,动态时间规整算法计算从(0,0)到(Am,Bm)之间的相似距离并不能很好地表现两段音乐某个局部之间的相似度差异,因此在乱序的局部相似的音乐中,该方法并不能很好地显示出显著的相似度差异,如果要使用局部的截取进行处理,那么无疑增加了时间的开销,在快速判断抄袭的技术需求下并不能作为首要选择。同时,对于序列距离的定义多种多样,这种基于线性比较的方法在相似度计算中不存在明显的梯度,换言之,相似度的拟合并不该是一条简单增长的曲线,距离的定义一定程度上影响了判断效果。
发明内容
本发明的目的是提供了一种音频信号相似程度的自动检测方法及其系统,能对音频中的短时相似片段进行抄袭检测,准确地体现出两段音乐的局部相似度差异,对数字音频的版权管理问题予以更好的保护。
为实现上述目的,本发明提供了如下方案:
一种音频信号相似程度的自动检测方法,包括:
获取待检测的两段音频信号;
对所述两段音频信号进行频域分析后,找出所有的频域能量峰值位置;
连接相邻音频帧的所述频域能量峰值,组成音高轨迹;
根据所述的频域能量峰值位置,计算所述音频信号中每个音频帧的显著值,得到所述音频信号轨迹的显著平均值;
根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值;
去除所述音频信号轨迹显著平均值超出所述阈值的部分,得到所述两段音频信号的主旋律序列;
求出所述两段主旋律的相似性矩阵;
对所述相似性矩阵应用动态规划局部规整算法做二值化处理,得到二值矩阵;
根据所述二值矩阵来判断所述两段输入音频信号的相似程度。
可选的,所述对所述两段音频信号进行频域分析后,找出所有的频域能量峰值位置,具体包括:
对输入的音频信号进行等响滤波处理后,采用公式:
Figure BDA0001657133160000031
l=0,1,...and k=0,1,...,N-1
对滤波后的音频信号进行短时傅里叶变换,并对结果取模得到所述输入音频信号的频域幅度值;
其中,x(n)是音频信号的时间序列,w(n)是窗函数,l是帧号,M是窗的长度,N表示快速傅里叶变换长度,H是滑窗的步长;
从所述频域能量值|xl(k)|中,使用峰值提取算法找出所有幅度局部峰值位置pi
可选的,根据所述的频域幅度峰值位置,计算所述音频信号中每个音频帧对应频域的显著值,得到所述音频信号轨迹的显著平均值,具体包括:
采用公式
Figure BDA0001657133160000041
根据所述能量峰值位置计算显著性函数,并得到所述音频信号轨迹的显著平均值;
其中,β是能量压缩参数,
Figure BDA0001657133160000042
是能量阈值函数,
Figure BDA0001657133160000043
是权值函数,
Figure BDA0001657133160000044
为频率,
Figure BDA0001657133160000045
为能量,能量阈值函数
Figure BDA0001657133160000046
定义为:
Figure BDA0001657133160000047
其中,
Figure BDA0001657133160000048
是该频谱帧中频率能量的最高值,γ代表
Figure BDA0001657133160000049
Figure BDA00016571331600000410
所允许的能量差值,单位为dB;权值函数
Figure BDA00016571331600000411
定义了当所述能量峰值位置pi被视为第h个泛音时被赋予的权值,具体定义为:
Figure BDA00016571331600000412
其中,
Figure BDA00016571331600000413
Figure BDA00016571331600000414
对应的音高类与b的音高,
Figure BDA00016571331600000415
是调整权值的参数。
可选的,所述根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值,具体包括:
采用公式
Figure BDA00016571331600000416
计算所述音高轨迹的有声部分判断的阈值;
其中,
Figure BDA00016571331600000417
为所述音频信号轨迹的显著平均值,
Figure BDA00016571331600000418
为方差。
可选的,所述去除所述音频信号轨迹显著平均值超出所述阈值的部分,得到所述两段音频信号的主旋律序列,具体包括:判断所述显著值平均值是否高于或等于所述阈值,如果是,则将对应的音频信号轨迹视为主旋律区域的音高轨迹,予以保留;如果否,进一步判断所述显著值平均值是否包含颤音的轨迹以及方差是否超过40,如果是,则保留对应的音高轨迹,如果否,则将对应的音频信号轨迹视为非旋律区域的音高轨迹,做去除处理。
可选的,所述求出所述两段主旋律的相似性矩阵,具体包括:
采用公式
Figure BDA0001657133160000051
Figure BDA0001657133160000052
求得所述两段主旋律序列的相似性矩阵;
其中,
Figure BDA0001657133160000053
Figure BDA0001657133160000054
代表特征向量序列的第i帧与第j帧向量,‘·’表示点积,
Figure BDA0001657133160000055
是将向量
Figure BDA0001657133160000056
向右平移t个位置的函数;函数OTI返回使
Figure BDA0001657133160000057
Figure BDA0001657133160000058
最相似(即向量相关最大化)的
Figure BDA0001657133160000059
的移调距离。
可选的,对所述相似性矩阵应用动态规划局部规整算法做二值化处理,得到二值矩阵,具体包括:
根据所述相似性矩阵,建立一个大小为(n+1)×(m+1)的新的二值矩阵;其值以递归形式如下定义:
Figure BDA00016571331600000510
其中4≤i≤n+1,4≤j≤m+1,除此之外的位置初始化为零,δ()是一个惩罚函数,定义如下:
Figure BDA00016571331600000511
可选的,所述根据所述二值矩阵来判断所述两段输入音频信号的相似程度,具体包括:
从所述二值矩阵中找出所有大于预先设定的相似阈值的局部峰值;从所述局部峰值位置开始跟踪递归累加的路径,直到到达值为零的点;将所述路径跟踪的起止点的距离视为相似区域的边界;若所述某两条路径的起点重合,则保留终点的值较大的路径;所述路径的起点位置对应相似部分在两段音频中的起始时间,所述路径的终点位置对应相似部分的终止时间,所述路径终点的值即为所属路径对应相似部分的相似程度。
一种音频信号相似程度的自动检测系统,包括:
音频信号获取模块,用于获取待检测的两段音频信号;
频域分析处理模块,用于对所述两段音频信号进行频域分析后,找出所有的频域能量峰值位置;
音高轨迹获取模块,用于连接相邻音频帧的所述频域能量峰值,组成音高轨迹;
显著平均值计算模块,用于根据所述的频域能量峰值位置,计算所述音频信号中每个音频帧的显著值,得到所述音频信号轨迹的显著平均值;
阈值获取模块,用于根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值;
主旋律序列获取模块,用于去除所述音频信号轨迹显著平均值超出所述阈值的部分,得到所述两段音频信号的主旋律序列;
相似性矩阵获取模块,用于求出所述两段主旋律的相似性矩阵;
二值矩阵获取模块,用于对所述相似性矩阵应用动态规划局部规整算法做二值化处理,得到二值矩阵;
相似程度判断模块,用于根据所述二值矩阵来判断所述两段输入音频信号的相似程度。
可选的,所述频域分析处理模块,具体包括:
频域分析单元,用于对输入的音频信号进行等响滤波处理后,采用公式:
Figure BDA0001657133160000071
l=0,1,...and k=0,1,...,N-1
对滤波后的音频信号进行短时傅里叶变换,得到所述输入音频信号的频域能量值;
其中,x(n)是音频信号的时间序列,w(n)是窗函数,I是帧号,M是窗的长度,N表示快速傅里叶变换长度,H是滑窗的步长;
能量峰值位置获取单元,从所述频域能量值|xl(k)|中找出所有能量峰值位置pi
可选的,所述显著平均值计算模块,具体包括:
能量阈值函数获取单元,用于采用公式
Figure BDA0001657133160000072
得到能量阈值函数
Figure BDA0001657133160000073
其中,
Figure BDA0001657133160000074
是该频谱帧中频率能量的最高值,γ代表
Figure BDA0001657133160000075
Figure BDA0001657133160000076
所允许的能量差值,单位为dB;
权值函数获取单元,用于采用公式
Figure BDA0001657133160000077
得到权值函数
Figure BDA0001657133160000078
表示当所述能量峰值位置pi被视为第h个泛音时被赋予的权值;其中,
Figure BDA0001657133160000079
Figure BDA00016571331600000710
对应的音高类与b的音高,
Figure BDA00016571331600000711
是调整权值的参数;
显著性函数计算单元,用于采用公式
Figure BDA0001657133160000081
得到显著性函数;其中,β是能量压缩参数,
Figure BDA0001657133160000082
是能量阈值函数,
Figure BDA0001657133160000083
是权值函数,
Figure BDA0001657133160000084
为频率,
Figure BDA0001657133160000085
为能量。
可选的,所述主旋律序列获取模块,具体包括:判断单元,用于判断所述显著值平均值是否高于或等于所述阈值,如果是,则将对应的音频信号轨迹视为主旋律区域的音高轨迹,予以保留;如果否,进一步判断所述显著值平均值是否包含颤音的轨迹以及方差是否超过40,如果是,则保留对应的音高轨迹,如果否,则将对应的音频信号轨迹视为非旋律区域的音高轨迹,做去除处理。
可选的,所述相似性矩阵获取模块,具体包括:
相似性矩阵获取单元,用于对所述求出所述两段主旋律的相似性矩阵,
采用公式
Figure BDA0001657133160000086
Figure BDA0001657133160000087
求得所述两段主旋律序列的相似性矩阵;
其中,
Figure BDA0001657133160000088
Figure BDA0001657133160000089
代表特征向量序列的第i帧与第j帧向量,‘·’表示点积,
Figure BDA00016571331600000810
是将向量
Figure BDA00016571331600000811
向右平移t个位置的函数;函数OTI返回使
Figure BDA00016571331600000812
Figure BDA00016571331600000813
最相似(即向量相关最大化)的
Figure BDA00016571331600000814
的移调距离。
可选的,所述二值矩阵获取模块,具体包括:
惩罚函数获取单元,用于采用公式
Figure BDA0001657133160000091
得到惩罚函数δ(a,b);
二值矩阵获取单元,用于根据所述相似性矩阵,建立一个大小为(n+1)×(m+1)的新的二值矩阵;其值以递归形式如下定义:
Figure BDA0001657133160000092
其中4≤i≤n+1,4≤j≤m+1,除此之外的位置初始化为零。
可选的,所述相似程度判断模块,具体包括:
相似程度判断单元,从所述二值矩阵中找出所有大于预先设定的相似阈值的局部峰值;从所述局部峰值位置开始跟踪递归累加的路径,直到到达值为零的点;将所述路径跟踪的起止点的距离视为相似区域的边界;若所述某两条路径的起点重合,则保留终点的值较大的路径;所述路径的起点位置对应相似部分在两段音频中的起始时间,所述路径的终点位置对应相似部分的终止时间,所述路径终点的值即为所属路径对应相似部分的相似程度。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种音频信号相似程度的自动检测方法及其系统,通过主旋律线的抽象化,局部的音高变化带来的影响被大大消除,同时主旋律表示的序列长度也大大减小,提升了相似程度的检测效率;利用二值相似性矩阵的方式度量距离,解决了检测相似区域边界的困难,将矩阵值“量化”为仅仅两个取值,能清楚地显示出相似区域的边界,提高了计算的便捷性。本发明的相似程度的自动检测方法所采用的主旋律抽象化方法、二值相似性矩阵的定义方式以及对于动态规整算法的运用,对音频中的短时相似片段进行抄袭检测,解决了音频传播中的抄袭问题,对于数字音频的版权管理问题予以了更好的保护。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种音频信号相似程度的自动检测方法流程图;
图2为本发明实施例一种音频信号相似程度的自动检测系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供了一种音频信号相似程度的自动检测方法及其系统,能对音频中的短时相似片段进行抄袭检测,准确地体现出两段音乐的局部相似度差异,对数字音频的版权管理问题予以更好的保护。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例一种音频信号相似程度的自动检测方法流程图。如图1所示,本实施例提供的一种音频信号相似程度的自动检测方法,包括:
步骤101:获取待检测的两段音频信号。
步骤102:对所述两段音频信号进行频域分析后,找出所有的频域能量峰值位置。
步骤103:连接相邻音频帧的所述频域能量峰值,组成音高轨迹。
步骤104:根据所述的频域能量峰值位置,计算所述音频信号中每个音频帧的显著值,得到所述音频信号轨迹的显著平均值。
步骤105:根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值。
步骤106:去除所述音频信号轨迹显著平均值超出所述阈值的部分,得到所述两段音频信号的主旋律序列。
步骤107:求出所述两段主旋律的相似性矩阵。
步骤108:对所述相似性矩阵应用动态规划局部规整算法做二值化处理,得到二值矩阵。
步骤109:根据所述二值矩阵来判断所述两段输入音频信号的相似程度。
所述对对所述两段音频信号进行频域分析后,找出所有的频域能量峰值位置,具体包括:
对输入的音频信号进行等响滤波处理,采用公式:
Figure BDA0001657133160000111
l=0,1,...and k=0,1,...,N-1
对滤波后的音频信号进行短时傅里叶变换,得到所述输入音频信号的频域能量值;
其中,x(n)是音频信号的时间序列,w(n)是窗函数,I是帧号,M是窗的长度,N表示快速傅里叶变化的长度,H是滑窗的步长;
从所述频域能量值|xl(k)|中找出所有能量峰值位置pi
所述根据所述的频域能量峰值位置,计算所述音频信号中每个音频帧的显著值,得到所述音频信号轨迹的显著平均值,具体包括:
采用公式
Figure BDA0001657133160000112
根据所述能量峰值位置计算显著性函数,并得到所述音频信号轨迹的显著平均值;
其中,β是能量压缩参数,
Figure BDA0001657133160000121
是能量阈值函数,
Figure BDA0001657133160000122
是权值函数,
Figure BDA0001657133160000123
为频率,
Figure BDA0001657133160000124
为能量,能量阈值函数
Figure BDA0001657133160000125
定义为:
Figure BDA0001657133160000126
其中,
Figure BDA0001657133160000127
是该频谱帧中频率能量的最高值,γ代表
Figure BDA0001657133160000128
Figure BDA0001657133160000129
所允许的能量差值,单位为dB;权值函数
Figure BDA00016571331600001210
定义了当所述能量峰值位置pi被视为第h个泛音时被赋予的权值,具体定义为:
Figure BDA00016571331600001211
其中,
Figure BDA00016571331600001212
Figure BDA00016571331600001213
对应的音高类与b的音高,
Figure BDA00016571331600001214
是调整权值的参数。
所述根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值,具体包括:
采用公式
Figure BDA00016571331600001215
计算所述音高轨迹的有声部分判断的阈值;
其中,
Figure BDA00016571331600001216
为所述音频信号轨迹的显著平均值,
Figure BDA00016571331600001217
为方差。
所述去除所述音频信号轨迹显著平均值超出所述阈值的部分,得到所述两段音频信号的主旋律序列,具体包括:判断所述显著值平均值是否高于或等于所述阈值,如果是,则将对应的音频信号轨迹视为主旋律区域的音高轨迹,予以保留;如果否,进一步判断所述显著值平均值是否包含颤音的轨迹以及方差是否超过40,如果是,则保留对应的音高轨迹,如果否,则将对应的音频信号轨迹视为非旋律区域的音高轨迹,做去除处理;具体的,记每个帧存在的所有音高轨迹的音高平均值为
Figure BDA00016571331600001218
为了去除所谓“八度误差”,执行以下步骤:
步骤A,使用窗长为5秒,步长为1帧的滑窗对
Figure BDA00016571331600001219
进行均值顺滑;
步骤B,找到互为八度关系的音高轨迹,去除离
Figure BDA00016571331600001220
较远的轨迹;
步骤C,重新计算
Figure BDA0001657133160000131
重复步骤A和B;
步骤D,去除距离
Figure BDA0001657133160000132
大于一个八度的音高轨迹。
步骤E,将步骤C和D重复3-6次。
上述的步骤去除了与主旋律音高差距八度以上的音高轨迹。
经上述步骤后,在任意时间点若仍存在两个以上的音高轨迹,则选择显著值平均值最高的轨迹作为主旋律轨迹,其余轨迹被去除。
该步骤完成后,剩下的音高轨迹即为主旋律轨迹,为了比较相似性,我们将抽象主旋律序列,而只留下主旋律的整体进行,抽象化方法将每个频率值映射到一个音高类(pitch class),并且使用直方图的形式获得音高的分布。
在本发明的算法中,每个音高被映射到一个八度以内的36个音高类,每个音高类覆盖了1/3个半音。通过这个过程可以得到一个36维向量的序列,每个向量代表了在大约半秒的时间内主旋律音高的分布
所述求出所述两段主旋律的相似性矩阵,具体包括:
采用公式
Figure BDA0001657133160000133
Figure BDA0001657133160000134
求得所述两段主旋律序列的相似性矩阵;
其中,
Figure BDA0001657133160000135
Figure BDA0001657133160000136
代表特征向量序列的第i帧与第j帧向量,‘·’表示点积,
Figure BDA0001657133160000137
是将向量
Figure BDA0001657133160000138
向右平移t个位置的函数;OTI指的是向量
Figure BDA0001657133160000139
移调n个音高单位后,
Figure BDA00016571331600001310
Figure BDA00016571331600001311
最相似,μ+与μ-是常数,分别是当某一对向量相似或不相似时的奖励或惩罚值,μ+取正值,μ-取负值。这两个常数的相对取值对于算法的性能具有决定性的影响。μ+的值可定为1.0。μ-的取值是绝对值接近μ+的负值,如-0.9。
对所述相似性矩阵应用动态规划局部规整算法做二值化处理,得到二值矩阵,具体包括:
根据所述相似性矩阵,建立一个大小为(n+1)×(m+1)的新的二值矩阵;其值以递归形式如下定义:
Figure BDA0001657133160000141
其中4≤i≤n+1,4≤j≤m+1,除此之外的位置初始化为零,δ()是一个惩罚函数,定义如下:
Figure BDA0001657133160000142
所述根据所述二值矩阵来判断所述两段输入音频信号的相似程度,具体包括:
从所述二值矩阵中找出所有大于预先设定的相似阈值的局部峰值;从所述局部峰值位置开始跟踪递归累加的路径,直到到达值为零的点;将所述路径跟踪的起止点的距离视为相似区域的边界;若所述某两条路径的起点重合,则保留终点的值较大的路径;所述路径的起点位置对应相似部分在两段音频中的起始时间,所述路径的终点位置对应相似部分的终止时间,所述路径终点的值即为所属路径对应相似部分的相似程度。
其中,实验显示,C1取值为0.7,C2取值为0.5时算法的性能较好;在这个过程中,可能存在两条路径发生重合的情况。若两条路径在某一点完全重合,则从该点到零点(累加起始点)的累加路径必定完全重合。因此,可以通过以下规则合并重合路径:若两条路径的起点重合,则保留终点的值较大的路径。
图2为本发明实施例一种音频信号相似程度的自动检测系统结构示意图。如图2所示,本发明实施例提供的一种音频信号相似程度的自动检测系统,包括:
音频信号获取模块201,用于获取待检测的两段音频信号.
频域分析处理模块202,用于对所述两段音频信号进行频域分析后,找出所有的频域能量峰值位置。
音高轨迹获取模块203,用于连接相邻音频帧的所述频域能量峰值,组成音高轨迹。
显著平均值计算模块204,用于根据所述的频域能量峰值位置,计算所述音频信号中每个音频帧的显著值,得到所述音频信号轨迹的显著平均值。
阈值获取模块205,用于根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值。
主旋律序列获取模块206,用于去除所述音频信号轨迹显著平均值超出所述阈值的部分,得到所述两段音频信号的主旋律序列。
相似性矩阵获取模块207,用于求出所述两段主旋律的相似性矩阵。
二值矩阵获取模块208,用于对所述相似性矩阵应用动态规划局部规整算法做二值化处理,得到二值矩阵。
相似程度判断模块209,用于根据所述二值矩阵来判断所述两段输入音频信号的相似程度。
所述频域分析处理模块202,具体包括:
频域分析单元,用于对输入的音频信号进行等响滤波处理,采用公式:
Figure BDA0001657133160000151
l=0,1,...and k=0,1,...,N-1
对滤波后的音频信号进行短时傅里叶变换,得到所述输入音频信号的频域能量值;
其中,x(n)是音频信号的时间序列,w(n)是窗函数,I是帧号,M是窗的长度,N表示快速傅里叶变化的长度,H是滑窗的步长;
能量峰值位置获取单元,从所述频域能量值|xl(k)|中找出所有能量峰值位置pi
所述显著平均值计算模块204,具体包括:
能量阈值函数获取单元,用于采用公式
Figure BDA0001657133160000161
得到能量阈值函数
Figure BDA0001657133160000162
其中,
Figure BDA0001657133160000163
是该频谱帧中频率能量的最高值,γ代表
Figure BDA0001657133160000164
Figure BDA0001657133160000165
所允许的能量差值,单位为dB;
权值函数获取单元,用于采用公式
Figure BDA0001657133160000166
得到权值函数
Figure BDA0001657133160000167
表示当所述能量峰值位置pi被视为第h个泛音时被赋予的权值;其中,
Figure BDA0001657133160000168
Figure BDA0001657133160000169
对应的音高类与b的音高,
Figure BDA00016571331600001610
是调整权值的参数;
显著性函数计算单元,用于采用公式
Figure BDA00016571331600001611
得到显著性函数;其中,β是能量压缩参数,
Figure BDA00016571331600001612
是能量阈值函数,
Figure BDA00016571331600001613
是权值函数,
Figure BDA00016571331600001614
为频率,
Figure BDA00016571331600001615
为能量。
所述主旋律序列获取模块206,具体包括:判断单元,用于判断所述显著值平均值是否高于或等于所述阈值,如果是,则将对应的音频信号轨迹视为主旋律区域的音高轨迹,予以保留;如果否,进一步判断所述显著值平均值是否包含颤音的轨迹以及方差是否超过40,如果是,则保留对应的音高轨迹,如果否,则将对应的音频信号轨迹视为非旋律区域的音高轨迹,做去除处理。
所述相似性矩阵获取模块207,具体包括:
相似性矩阵获取单元,用于对所述求出所述两段主旋律的相似性矩阵,
采用公式
Figure BDA0001657133160000171
Figure BDA0001657133160000172
求得所述两段主旋律序列的相似性矩阵;
其中,
Figure BDA0001657133160000173
Figure BDA0001657133160000174
代表特征向量序列的第i帧与第j帧向量,‘·’表示点积,
Figure BDA0001657133160000175
是将向量
Figure BDA0001657133160000176
向右平移t个位置的函数;OTI指的是向量
Figure BDA0001657133160000177
移调n个音高单位后,
Figure BDA0001657133160000178
Figure BDA0001657133160000179
最相似。
所述二值矩阵获取模块208,具体包括:
惩罚函数获取单元,用于采用公式
Figure BDA00016571331600001710
得到惩罚函数δ(a,b);
二值矩阵获取单元,用于根据所述相似性矩阵,建立一个大小为(n+1)×(m+1)的新的二值矩阵;其值以递归形式如下定义:
Figure BDA00016571331600001711
其中4≤i≤n+1,4≤j≤m+1,除此之外的位置初始化为零。
所述相似程度判断模块209,具体包括:
相似程度判断单元,从所述二值矩阵中找出所有大于预先设定的相似阈值的局部峰值;从所述局部峰值位置开始跟踪递归累加的路径,直到到达值为零的点;将所述路径跟踪的起止点的距离视为相似区域的边界;若所述某两条路径的起点重合,则保留终点的值较大的路径;所述路径的起点位置对应相似部分在两段音频中的起始时间,所述路径的终点位置对应相似部分的终止时间,所述路径终点的值即为所属路径对应相似部分的相似程度。
通过本发明的方法和系统,在特征提取上,将频谱上的波形区分成以1/3个半音为梯度的,合计36个音高类的主旋律向量,同时利用去除八度的方式提高了主旋律提取中可能存在的识别不准的问题,36个音高类也提高了识别的准确度;在抽象表示上,本方法利用二值相似性矩阵,将每一帧的音高类向量两两比较,矩阵上的每一个值表示了两个向量经过平移之后的相似性比较结果,详细的比较的方式在文中有介绍,这种抽象表示适用于我们的特征提取,因此也是本方法特有的地方,将前面的提取参数整合到动态规划规整算法的计算上,将原本算法中比较的参数替换成我们在特征提取和抽象表示后的关于二值相似性矩阵的计算,该矩阵能够精准地表示每一个音频帧之间的相似性,在动态规划规整算法的运作下,能够极大地提高我们对于两段音频相似性比较的准确度,在音频拉伸、剪切、交换位置等各种干扰因素下,该方法仍能够检测到相似性,特征提取到抽象表示减小了音频中需要运算的信息,化大量信息为扼要的主旋律信息和相似性信息,在计算上也存在很大的高效性。
主旋律信息结构单纯,但不同作品之间主旋律仍然可能存在细节差异——除了节奏快慢变化与移调之外,诸如八度变化、以及滑音、颤音的存在,都可能带来两个版本的主旋律之间的不同,因此该主旋律表示仍然不适合直接进行比较。为了去除这些细节上的变化,而只留下主旋律的整体进行,即抽象化,通过主旋律线的抽象化,局部的音高变化带来的影响被大大消除了;同时主旋律表示的序列长度也大大减小,带来了计算效率的提升。
对于动态规整算法的距离度量,通常采用的距离量度有欧几里得距离、余弦距离与相关度等。然而,多个文献指出,诸如Chroma向量等与声调有关的向量并不适合放在欧几里得空间中度量。因此,利用二值相似性矩阵的方式度量距离,在度量方式上是一个进步,同时二值解决了检测相似区域边界的困难,将矩阵值“量化”为仅仅两个取值,这样就能清楚地显示出相域的边界,提高了计算的方便性;为了对本发明的算法的性能进行评价实验,我们准备了CFD,MED,QUO三个数据集(名称与内容无关),个数据集的整体再现率与虚警率如表1所示。
对数据集“CFD”与“MED”数据集的实验结果显示,该算法能基本完整地
表1:相似片段检测实验结果
Dataset Recall Falsealarm
CFD 84.30% 2.92%
MED 79.60% 2.30%
QUO 63.09% 15.71%
还原大部分的相似部分,并避免了虚警。总体上,算法仍能检测到大部分相似部分的存在,因此在抄袭检测算法的效能上,本发明拥有更高的实用性。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种音频信号相似程度的自动检测方法,其特征在于,包括:
获取待检测的两段音频信号;
对所述两段音频信号进行频域分析后,找出所有的频域能量峰值位置;
连接相邻音频帧的所述频域能量峰值,组成音高轨迹;
根据所述的频域能量峰值位置,计算所述音频信号中每个音频帧的显著值,得到所述音频信号轨迹的显著平均值;
根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值;
去除所述音频信号轨迹显著平均值超出所述阈值的部分,得到所述两段音频信号的主旋律序列;在任意时间点若仍存在两个以上的音高轨迹,则选择显著值平均值最高的轨迹作为主旋律轨迹,其余轨迹被去除,剩下的音高轨迹即为主旋律轨迹,为了比较相似性,将抽象主旋律序列,而只留下主旋律的整体进行,抽象化方法将每个频率值映射到一个音高类,并且使用直方图的形式获得音高的分布,每个音高被映射到一个八度以内的36个音高类,每个音高类覆盖了1/3个半音,通过这个过程可以得到一个36维向量的序列,每个向量代表了在大约半秒的时间内主旋律音高的分布;
求出所述两段主旋律的相似性矩阵;
对所述相似性矩阵应用动态规划局部规整算法做二值化处理,得到二值矩阵;将前面的提取参数整合到动态规划规整算法的计算上,将原本算法中比较的参数替换成在特征提取和抽象表示后的关于二值相似性矩阵的计算,该矩阵能够精准地表示每一个音频帧之间的相似性;
根据所述二值矩阵来判断所述两段输入音频信号的相似程度。
2.根据权利要求1所述的方法,其特征在于,所述对所述两段音频信号进行频域分析后,找出所有的频域能量峰值位置,具体包括:
对输入的音频信号进行等响滤波处理后,采用公式:
Figure FDA0002807187060000011
l=0,1,...and k=0,1,...,N-1
对滤波后的音频信号进行短时傅里叶变换,并对结果取模得到所述输入音频信号的频域幅度值;
其中,x(n)是音频信号的时间序列,w(n)是窗函数,l是帧号,M是窗的长度,N表示快速傅里叶变换长度,H是滑窗的步长;
从所述频域能量值|xl(k)|中,使用峰值提取算法找出所有幅度局部峰值位置pi
3.根据权利要求1所述的方法,其特征在于,根据所述的频域幅度峰值位置,计算所述音频信号中每个音频帧对应频域的显著值,得到所述音频信号轨迹的显著平均值,具体包括:
采用公式
Figure FDA0002807187060000021
根据所述能量峰值位置计算显著性函数,并得到所述音频信号轨迹的显著平均值;
其中,β是能量压缩参数,
Figure FDA0002807187060000022
是能量阈值函数,
Figure FDA0002807187060000023
是权值函数,
Figure FDA0002807187060000024
为频率,
Figure FDA0002807187060000025
为能量,能量阈值函数
Figure FDA0002807187060000026
定义为:
Figure FDA0002807187060000027
其中,
Figure FDA0002807187060000028
是该频谱帧中频率能量的最高值,γ代表
Figure FDA0002807187060000029
Figure FDA00028071870600000210
所允许的能量差值,单位为dB;权值函数
Figure FDA00028071870600000211
定义了当所述能量峰值位置pi被视为第h个泛音时被赋予的权值,具体定义为:
Figure FDA00028071870600000212
其中,
Figure FDA00028071870600000213
Figure FDA00028071870600000214
对应的音高类与b的音高,
Figure FDA00028071870600000215
是调整权值的参数。
4.根据权利要求1所述的方法,其特征在于,所述根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值,具体包括:
采用公式
Figure FDA00028071870600000216
计算所述音高轨迹的有声部分判断的阈值;
其中,
Figure FDA00028071870600000217
为所述音频信号轨迹的显著平均值,
Figure FDA00028071870600000218
为方差。
5.根据权利要求1所述的方法,其特征在于,所述去除所述音频信号轨迹显著平均值超出所述阈值的部分,得到所述两段音频信号的主旋律序列,具体包括:判断所述显著值平均值是否高于或等于所述阈值,如果是,则将对应的音频信号轨迹视为主旋律区域的音高轨迹,予以保留;如果否,进一步判断所述显著值平均值是否包含颤音的轨迹以及方差是否超过40,如果是,则保留对应的音高轨迹,如果否,则将对应的音频信号轨迹视为非旋律区域的音高轨迹,做去除处理。
6.根据权利要求1所述的方法,其特征在于,所述求出所述两段主旋律的相似性矩阵,具体包括:
采用公式
Figure FDA0002807187060000031
Figure FDA0002807187060000032
求得所述两段主旋律序列的相似性矩阵;
其中,
Figure FDA0002807187060000033
Figure FDA0002807187060000034
代表特征向量序列的第i帧与第j帧向量,‘·’表示点积,
Figure FDA0002807187060000035
是将向量
Figure FDA0002807187060000036
向右平移t个位置的函数;函数OTI返回使
Figure FDA0002807187060000037
Figure FDA0002807187060000038
最相似(即向量相关最大化)的
Figure FDA0002807187060000039
的移调距离。
7.根据权利要求1所述的方法,其特征在于,对所述相似性矩阵应用动态规划局部规整算法做二值化处理,得到二值矩阵,具体包括:
根据所述相似性矩阵,建立一个大小为(n+1)×(m+1)的新的二值矩阵;其值以递归形式如下定义:
Figure FDA00028071870600000310
其中4≤i≤n+1,4≤j≤m+1,除此之外的位置初始化为零,δ()是一个惩罚函数,定义如下:
Figure FDA00028071870600000311
8.根据权利要求1所述的方法,其特征在于,所述根据所述二值矩阵来判断所述两段输入音频信号的相似程度,具体包括:
从所述二值矩阵中找出所有大于预先设定的相似阈值的局部峰值;从所述局部峰值位置开始跟踪递归累加的路径,直到到达值为零的点;将所述路径跟踪的起止点的距离视为相似区域的边界;若某两条路径的起点重合,则保留终点的值较大的路径;所述路径的起点位置对应相似部分在两段音频中的起始时间,所述路径的终点位置对应相似部分的终止时间,所述路径终点的值即为所属路径对应相似部分的相似程度。
9.一种音频信号相似程度的自动检测系统,其特征在于,包括:
音频信号获取模块,用于获取待检测的两段音频信号;
频域分析处理模块,用于对所述两段音频信号进行频域分析后,找出所有的频域能量峰值位置;
音高轨迹获取模块,用于连接相邻音频帧的所述频域能量峰值,组成音高轨迹;
显著平均值计算模块,用于根据所述的频域能量峰值位置,计算所述音频信号中每个音频帧的显著值,得到所述音频信号轨迹的显著平均值;
阈值获取模块,用于根据所述音频信号轨迹的显著平均值计算所述音高轨迹的有声部分判断的阈值;
主旋律序列获取模块,用于去除所述音频信号轨迹显著平均值超出所述阈值的部分,得到所述两段音频信号的主旋律序列;在任意时间点若仍存在两个以上的音高轨迹,则选择显著值平均值最高的轨迹作为主旋律轨迹,其余轨迹被去除,剩下的音高轨迹即为主旋律轨迹,为了比较相似性,将抽象主旋律序列,而只留下主旋律的整体进行,抽象化方法将每个频率值映射到一个音高类,并且使用直方图的形式获得音高的分布,每个音高被映射到一个八度以内的36个音高类,每个音高类覆盖了1/3个半音,通过这个过程可以得到一个36维向量的序列,每个向量代表了在大约半秒的时间内主旋律音高的分布;
相似性矩阵获取模块,用于求出所述两段主旋律的相似性矩阵;
二值矩阵获取模块,用于对所述相似性矩阵应用动态规划局部规整算法做二值化处理,得到二值矩阵;将前面的提取参数整合到动态规划规整算法的计算上,将原本算法中比较的参数替换成在特征提取和抽象表示后的关于二值相似性矩阵的计算,该矩阵能够精准地表示每一个音频帧之间的相似性;
相似程度判断模块,用于根据所述二值矩阵来判断所述两段输入音频信号的相似程度。
10.根据权利要求9所述的系统,其特征在于,所述频域分析处理模块,具体包括:
频域分析单元,用于对输入的音频信号进行等响滤波处理后,采用公式:
Figure FDA0002807187060000041
l=0,1,...and k=0,1,...,N-1
对滤波后的音频信号进行短时傅里叶变换,得到所述输入音频信号的频域能量值;
其中,x(n)是音频信号的时间序列,w(n)是窗函数,I是帧号,M是窗的长度,N表示快速傅里叶变换长度,H是滑窗的步长;
能量峰值位置获取单元,从所述频域能量值|xl(k)|中找出所有能量峰值位置pi
11.根据权利要求9所述的系统,其特征在于,所述显著平均值计算模块,具体包括:
能量阈值函数获取单元,用于采用公式
Figure FDA0002807187060000051
得到能量阈值函数
Figure FDA0002807187060000052
其中,
Figure FDA0002807187060000053
是该频谱帧中频率能量的最高值,γ代表
Figure FDA0002807187060000054
Figure FDA0002807187060000055
所允许的能量差值,单位为dB;
权值函数获取单元,用于采用公式
Figure FDA0002807187060000056
得到权值函数
Figure FDA0002807187060000057
表示当所述能量峰值位置pi被视为第h个泛音时被赋予的权值;其中,
Figure FDA0002807187060000058
Figure FDA0002807187060000059
对应的音高类与b的音高,
Figure FDA00028071870600000510
是调整权值的参数;
显著性函数计算单元,用于采用公式
Figure FDA00028071870600000511
得到显著性函数;其中,β是能量压缩参数,
Figure FDA00028071870600000512
是能量阈值函数,
Figure FDA00028071870600000513
是权值函数,
Figure FDA00028071870600000514
为频率,
Figure FDA00028071870600000515
为能量。
12.根据权利要求9所述的系统,其特征在于,所述主旋律序列获取模块,具体包括:判断单元,用于判断所述显著值平均值是否高于或等于所述阈值,如果是,则将对应的音频信号轨迹视为主旋律区域的音高轨迹,予以保留;如果否,进一步判断所述显著值平均值是否包含颤音的轨迹以及方差是否超过40,如果是,则保留对应的音高轨迹,如果否,则将对应的音频信号轨迹视为非旋律区域的音高轨迹,做去除处理。
13.根据权利要求9所述的系统,其特征在于,所述相似性矩阵获取模块,具体包括:
相似性矩阵获取单元,用于对所述求出所述两段主旋律的相似性矩阵,
采用公式
Figure FDA0002807187060000061
Figure FDA0002807187060000062
求得所述两段主旋律序列的相似性矩阵;
其中,
Figure FDA0002807187060000063
Figure FDA0002807187060000064
代表特征向量序列的第i帧与第j帧向量,‘·’表示点积,
Figure FDA0002807187060000065
是将向量
Figure FDA0002807187060000066
向右平移t个位置的函数;函数OTI返回使
Figure FDA0002807187060000067
Figure FDA0002807187060000068
最相似(即向量相关最大化)的
Figure FDA0002807187060000069
的移调距离。
14.根据权利要求9所述的系统,其特征在于,所述二值矩阵获取模块,具体包括:
惩罚函数获取单元,用于采用公式
Figure FDA00028071870600000610
得到惩罚函数δ(a,b);
二值矩阵获取单元,用于根据所述相似性矩阵,建立一个大小为(n+1)×(m+1)的新的二值矩阵;其值以递归形式如下定义:
Figure FDA00028071870600000611
其中4≤i≤n+1,4≤j≤m+1,除此之外的位置初始化为零。
15.根据权利要求9所述的系统,其特征在于,所述相似程度判断模块,具体包括:
相似程度判断单元,从所述二值矩阵中找出所有大于预先设定的相似阈值的局部峰值;从所述局部峰值位置开始跟踪递归累加的路径,直到到达值为零的点;将所述路径跟踪的起止点的距离视为相似区域的边界;若某两条路径的起点重合,则保留终点的值较大的路径;所述路径的起点位置对应相似部分在两段音频中的起始时间,所述路径的终点位置对应相似部分的终止时间,所述路径终点的值即为所属路径对应相似部分的相似程度。
CN201810445754.6A 2018-05-11 2018-05-11 一种音频信号相似程度的自动检测方法及其系统 Active CN108665903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810445754.6A CN108665903B (zh) 2018-05-11 2018-05-11 一种音频信号相似程度的自动检测方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810445754.6A CN108665903B (zh) 2018-05-11 2018-05-11 一种音频信号相似程度的自动检测方法及其系统

Publications (2)

Publication Number Publication Date
CN108665903A CN108665903A (zh) 2018-10-16
CN108665903B true CN108665903B (zh) 2021-04-30

Family

ID=63779037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810445754.6A Active CN108665903B (zh) 2018-05-11 2018-05-11 一种音频信号相似程度的自动检测方法及其系统

Country Status (1)

Country Link
CN (1) CN108665903B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087669B (zh) * 2018-10-23 2021-03-02 腾讯科技(深圳)有限公司 音频相似度检测方法、装置、存储介质及计算机设备
CN109841232B (zh) * 2018-12-30 2023-04-07 瑞声科技(新加坡)有限公司 音乐信号中音符位置的提取方法和装置及存储介质
CN109829265B (zh) * 2019-01-30 2020-12-18 杭州拾贝知识产权服务有限公司 一种音频作品的侵权取证方法和系统
CN110310661B (zh) * 2019-07-03 2021-06-11 云南康木信科技有限责任公司 一种两路实时广播音频延时和相似度的计算方法
CN110910899B (zh) * 2019-11-27 2022-04-08 杭州联汇科技股份有限公司 一种实时音频信号一致性对比检测方法
CN111179914B (zh) * 2019-12-04 2022-12-16 华南理工大学 一种基于改进动态时间规整算法的语音样本筛选方法
CN111241335A (zh) * 2020-01-07 2020-06-05 厦门快商通科技股份有限公司 音频广告检测方法、系统、移动终端及存储介质
CN111161756B (zh) * 2020-02-13 2022-05-31 北京天泽智云科技有限公司 风机叶片扫风声音信号中异常哨声轮廓的提取及识别方法
CN111785296B (zh) * 2020-05-26 2022-06-10 浙江大学 基于重复旋律的音乐分段边界识别方法
CN115116472A (zh) * 2021-03-23 2022-09-27 北京达佳互联信息技术有限公司 音频识别方法、装置、设备及存储介质
CN115273891B (zh) * 2022-07-13 2024-04-19 上海海洋大学 一种基于相似度检测的音频自动剪错方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1545120A1 (en) * 1999-11-15 2005-06-22 Seiko Epson Corporation Image processing
CN101271457A (zh) * 2007-03-21 2008-09-24 中国科学院自动化研究所 一种基于旋律的音乐检索方法及装置
JP2011081324A (ja) * 2009-10-09 2011-04-21 National Institute Of Advanced Industrial Science & Technology ピッチ・クラスター・マップを用いた音声認識方法
CN103871426A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 对比用户音频与原唱音频相似度的方法及其系统
CN104091598A (zh) * 2013-04-18 2014-10-08 腾讯科技(深圳)有限公司 一种音频文件的相似计算方法及装置
CN106649559A (zh) * 2016-11-09 2017-05-10 腾讯音乐娱乐(深圳)有限公司 音频推荐方法及装置
CN106919662A (zh) * 2017-02-14 2017-07-04 复旦大学 一种音乐识别方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1545120A1 (en) * 1999-11-15 2005-06-22 Seiko Epson Corporation Image processing
CN101271457A (zh) * 2007-03-21 2008-09-24 中国科学院自动化研究所 一种基于旋律的音乐检索方法及装置
JP2011081324A (ja) * 2009-10-09 2011-04-21 National Institute Of Advanced Industrial Science & Technology ピッチ・クラスター・マップを用いた音声認識方法
CN103871426A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 对比用户音频与原唱音频相似度的方法及其系统
CN104091598A (zh) * 2013-04-18 2014-10-08 腾讯科技(深圳)有限公司 一种音频文件的相似计算方法及装置
CN106649559A (zh) * 2016-11-09 2017-05-10 腾讯音乐娱乐(深圳)有限公司 音频推荐方法及装置
CN106919662A (zh) * 2017-02-14 2017-07-04 复旦大学 一种音乐识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
多版本音乐识别技术研究;龚子健;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215(第2期);正文第四章,图4-1 *
歌曲主旋律提取研究;方旭怡;《光中国优秀硕士学位论文全文数据库 信息科技辑》;20180315(第3期);正文第2.4.3节,图2-6 *

Also Published As

Publication number Publication date
CN108665903A (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
CN108665903B (zh) 一种音频信号相似程度的自动检测方法及其系统
Malekesmaeili et al. A local fingerprinting approach for audio copy detection
Ramalingam et al. Gaussian mixture modeling of short-time Fourier transform features for audio fingerprinting
US10089994B1 (en) Acoustic fingerprint extraction and matching
Seo et al. Audio fingerprinting based on normalized spectral subband moments
Xie et al. Copy-move detection of digital audio based on multi-feature decision
Liu et al. Fast copy-move detection of digital audio
Casey et al. Fast recognition of remixed music audio
US9122753B2 (en) Method and apparatus for retrieving a song by hummed query
CN102436806A (zh) 一种基于相似度的音频拷贝检测的方法
CN104221079A (zh) 利用频谱特性进行声音分析的改进的梅尔滤波器组结构
Ustubioglu et al. Detection of audio copy-move-forgery with novel feature matching on Mel spectrogram
Ustubioglu et al. Robust copy-move detection in digital audio forensics based on pitch and modified discrete cosine transform
Yan et al. Exposing speech transsplicing forgery with noise level inconsistency
Hossain et al. Emovoice: Finding my mood from my voice signal
Seo An asymmetric matching method for a robust binary audio fingerprinting
Birla A robust unsupervised pattern discovery and clustering of speech signals
Ghaemmaghami et al. Speaker attribution of australian broadcast news data
Seo et al. Higher-order moments for musical genre classification
Jensen Rhythm-based segmentation of popular chinese music
Rosenzweig et al. Detecting Stable Regions in Frequency Trajectories for Tonal Analysis of Traditional Georgian Vocal Music.
You et al. Music Identification System Using MPEG‐7 Audio Signature Descriptors
Ulutas et al. Localization of Forgery on Audio Clips Using GLCM Features and Mel Spectograms
Rouniyar et al. Channel response based multi-feature audio splicing forgery detection and localization
Patil et al. Content-based audio classification and retrieval: A novel approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant