CN111382303B - 一种基于指纹权重的音频样例检索方法 - Google Patents

一种基于指纹权重的音频样例检索方法 Download PDF

Info

Publication number
CN111382303B
CN111382303B CN201811619718.3A CN201811619718A CN111382303B CN 111382303 B CN111382303 B CN 111382303B CN 201811619718 A CN201811619718 A CN 201811619718A CN 111382303 B CN111382303 B CN 111382303B
Authority
CN
China
Prior art keywords
audio
frame
fingerprint
value
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811619718.3A
Other languages
English (en)
Other versions
CN111382303A (zh
Inventor
李超
张学帅
邹学强
刘建
王中华
胡琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, National Computer Network and Information Security Management Center filed Critical Institute of Acoustics CAS
Priority to CN201811619718.3A priority Critical patent/CN111382303B/zh
Publication of CN111382303A publication Critical patent/CN111382303A/zh
Application granted granted Critical
Publication of CN111382303B publication Critical patent/CN111382303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及一种基于指纹权重的音频样例检索方法,该方法具体包括:获取待检音频的二进制音频指纹序列值,在预先建立的哈希表中进行查找;查找出对应的模板音频的二进制音频指纹序列值;计算待检音频和模板音频之间指纹序列差异数D、模板音频与待检音频之间允许指纹序列差异数的阈值Reject;如果D<Reject,则认为待检音频与模板音频相似;如果D>Reject,则认为待检音频存在错误。

Description

一种基于指纹权重的音频样例检索方法
技术领域
本发明属于音频检索技术领域,具体涉及一种基于指纹权重的音频样例检索方法。
背景技术
音频样例检索是指从音频数据库中检索出与用户提交查询样例具有相似内容的音频信息并反馈给用户。其核心内容包括两部分:特征提取和特征检索。其中,音频特征提取比较关键,只有选取了合适的音频特征,才能继续后面的检索方法设计。在大多数的音频样例检索方法中,大部分都是通过音频指纹实现的。其中,音频指纹,可以理解为音频信号的独一无二标识,是通过提取算法,针对音频提取特定特征而形成的序列。因此,一段音频指纹就是一段音频内容的概括,并且能够唯一的表达这段音频信号。在音频指纹提取方面,有很多大量的提取算法。其中Haitsma等人提出了一阶相邻能量差的方法。该方法通过对音频信号进行短时傅里叶变化,然后利用相邻音频帧的一阶能量差是否大于零来形成音频指纹,接着将音频指纹转换成32位比特关键字序列,形成哈希表并构建索引来进行样例检索。除此之外,还有很多其他科研机构提出的音频指纹算法。
在上述现有的算法中,一阶相邻能量差的方法由于指纹内容简单、容易实现、复杂度小、检索效率高等优点被广泛使用。但是,在实际应用中用户获取的音频片段容易遭受环境噪声和传输噪声的干扰,或有的应用场景中要求进行匹配的语音样例很短或者样例中噪声的存在可能会导致音频指纹间误码率超过阈值而导致无法命中。另外,由于静音帧的指纹容易出现不稳定性,在音频模板比较短时,很容易出现音频的误检和漏检。
目前,传统的检索匹配算法是采用预设的比特误差率(Bit Error,BER),即比较两个音频片段数字音频指纹间的相似度来决定候选结果,其计算方法如下:
其中,F(n,m)和F'(n,m)分别代表查询音频和待检音频第n帧音频指纹的第m位的值,N为总帧数,M为指纹的位数,通常BER一般预设为0.35。当比对误差低于预设的门限时,则表明找到了目标音频文件。
但是,该比对方法并没有考虑到在一段音频片段中不同的指纹片段在音频中出现的错误概率并不相同。例如,在静音段中,音频指纹容易出现较高的误码率。在正常连续说话的语音段中,音频指纹则会有较低的误码率。因此,在短时音频模板匹配时,上面对所有帧差异比特(bit)数相加的方法,会导致大量的虚警存在。
发明内容
本发明的目的在于,为解决现有的检索方法存在上述缺陷,本发明提出了一种基于指纹权重的音频样例检索方法,在检索时,针对不同帧的音频指纹,根据其一阶差分能量的大小设置不同的指纹权重,充分利用了各个音频帧差分能量不同,出现错误的概率不同的特点,提高了算法对噪声、频谱缺失等应用环境下的鲁棒性。
为了实现上述目的,本发明提供了一种基于指纹权重的音频样例检索方法,克服了传统音频检索在短时模板、语音帧或频谱缺失时,性能明显下降的问题;该方法考虑到在一段音频片段中,不同的指纹片段在音频中出现错误的概率并不相同,充分利用了各个音频帧差分能量不同而错误概率不同的特点,提高了算法对噪声、频谱缺失等应用环境的鲁棒性。该方法具体包括:
获取待检音频的二进制音频指纹序列值,在预先建立的哈希表中进行查找;查找出对应的模板音频的二进制音频指纹序列值;
计算待检音频和模板音频之间指纹序列差异数D、模板音频与待检音频之间允许指纹序列差异数的阈值Reject;如果D<Reject,则认为待检音频与模板音频相似;如果D>Reject,则认为待检音频存在错误。
作为上述方法的改进之一,所述哈希表的预先建立的步骤具体包括:
步骤1)获取音频样例的音频指纹;
步骤2)获取音频样例的音频指纹权重;
步骤3)根据步骤1)中获取的音频指纹的二进制音频指纹序列值,以二进制音频指纹序列值为关键字建立哈希表。
作为上述方法的改进之一,所述步骤1)具体包括:
步骤1-1)将音频样例的音频信号降低到适合人耳特性的音频信号,获得第一音频信号;
步骤1-2)将步骤1-1)获得的第一音频信号,以每0.064秒为一帧,对其进行分帧,获得多帧音频,根据公式(2),对每一帧音频用相同的汉明窗长度进行加权,加权方式如公式(3),以获得每一帧音频的加权后的第n个音频样点的值x(n);
其中,N为汉明窗长度,即每一帧音频的样点数;x'(n)为原始的第n个音频样点的值;w(n)为第n个音频样点的权重值;x(n)为加权后的第n个音频样点的值;
步骤1-3)针对步骤1-2)获得的每一帧音频的第n个音频样点的值x(n),采用一阶FIR高通滤波器,根据公式(4),进行预加重,获得预加重后的输出信号的值y(n);
y(n)=x(n)-ax(n-1) (4)
其中,a为预加重系数,0.9<a<1.0;x(n-1)为加权后的第n-1个音频样点的值;
步骤1-4)采用快速傅里叶算法,对步骤1-3)中的输出信号的值y(n),利用公式(5),进行离散傅立叶变换,获得音频帧经傅里叶变化后的频点值X(k);
其中,X(k)为音频帧经傅里叶变化后的频点值;N'为傅里叶变化采取的音频点数;k为频点编号;j为虚数;
步骤1-5)在频域,针对步骤1-4)中的X(k),在梅尔域进行子带划分,一共分成M个子带,根据公式(6),获得第m子带的起始频率f(m):
其中,Fmin为映射下限;Fmax为映射上限;M为子带个数;
步骤1-6)利用公式(7),计算第m子带所包含的能量e(m);假设第m子带的起始频率为f(m),第m+1子带的终止频率为f(m+1);
其中,音频帧经离散傅里叶变化后的频点值X(k)的绝对值的平方为第m子带所包含的能量e(m);
步骤1-7)假定第i帧音频信号的第m子带的能量为eim,其对应的二进制音频指纹序列值为tim,则音频指纹的每个比特定义为:
其中,sim为第i帧音频信号的第m子带与第i-1帧音频信号的第m+1子带之间的一阶相邻能量差;tim为第i帧音频信号第m子带的二进制音频指纹序列值;
根据获得的tim,获得第i帧音频信号的音频指纹。
作为上述方法的改进之一,所述步骤2)具体包括:
步骤2-1)假设步骤1)获得的音频指纹的一阶能量序列值为:
(S1,S2,S3...Si...SN) (10)
其中:SN为第N帧音频的各个子带的一阶相邻能量差的值的向量,每个Si包括上述步骤1-7)中的(Si1,Si2,Si3,Si4...Sim);
步骤2-2)针对步骤1-7)中的sim,根据公式(11),计算第i帧音频信号的总能量差值ESi
再根据公式(12),得到第i帧音频信号的总能量差序列:
(ES1,ES2,ES3,ES4,ESi...ESN) (12)
步骤2-3)利用步骤2-2)中的第i帧音频信号的总能量差值,根据公式(13),获得第i帧音频信号的音频指纹所占的权重pweighti
其中,pweighti为第i帧音频信号的音频指纹的权重;ESi为第i帧音频信号的总能量差值;ESi+1为第i+1帧音频信号的总能量差值。
作为上述方法的改进之一,所述计算待检音频与模板音频之间指纹序列差异数D具体包括:
其中,t(i,m)为待检音频第i帧音频指纹序列中第m位的二进制音频指纹序列值;t'(i,m)为模板音频第i帧音频指纹序列中第m位的二进制音频指纹序列值;M为子带数,R为模板音频与待检音频之间应比较的帧音频指纹总数。
作为上述方法的改进之一,所述计算模板音频与待检音频之间允许指纹序列差异数的阈值Reject具体包括:
其中,R表示模板音频与待检音频之间应比较的帧音频指纹总数,T表示预先设置好的比例值。
本发明的优点在于:
根据上述音频指纹提取描述可知,原始音频指纹的每个序列值为0或者为1,是根据Sim值的大小是否大于0来进行确定的。此时,Sim的能量大小并没有进行充分利用。另外,在一段音频中的能量值低或者静音段区域,tim取0或者取1也很不稳定,所以,针对不同音频帧的音频指纹设置不同的权重,能有效的提升音频检索算法的查准率和查全率。特别是,在2s时,准确率提升16%。
附图说明
图1是本发明的一种基于指纹权重的音频样例检索方法的流程图;
图2是本发明的方法的实验一中两种方法查准率的比较示意图;
图3是本发明的方法的实验一中两种方法查全率的比较示意图;
图4是本发明的方法的实验二中两种方法查准率的比较示意图;
图5是本发明的方法的实验二中两种方法查全率的比较示意图。
具体实施方式
现结合附图对本发明作进一步的描述。
如图1所示,本发明提供了一种基于指纹权重的音频样例检索方法,克服了传统音频检索在短时模板、语音帧或频谱缺失时,性能明显下降的问题;该方法考虑到在一段音频片段中,不同的指纹片段在音频中出现错误的概率并不相同,充分利用了各个音频帧差分能量不同而错误概率不同的特点,提高了算法对噪声、频谱缺失等应用环境的鲁棒性。该方法具体包括:
步骤1)获取音频样例的音频指纹;其中,所述步骤1)具体包括:
通过对音频样例的音频信号进行频域变换和特征分析,通过频域特征,保留与音频听觉相关的重要信息,提取二进制音频指纹序列值,形成音频指纹。具体地,
步骤1-1)将音频样例的音频信号降低到适合人耳特性的音频信号,获得第一音频信号;一般来说,人耳能听见的声音频率在20-20000HZ之间,但是人耳对频率为4KHz左右的声音最敏感,所以为了满足人耳特性和降低程序的计算复杂度,通常把音频降采样到5KHz;
步骤1-2)将步骤1-1)获得的第一音频信号,以每0.064秒为一帧,对其进行分帧,获得多帧音频,帧与帧之间保持50%的重叠率,根据公式(2),对每一帧音频用相同的汉明窗长度进行加权,加权方式如公式(3),以获得每一帧音频的加权后的第n个音频样点的值x(n);
其中,N为汉明窗长度,即每一帧音频的样点数;x'(n)为原始的第n个音频样点的值;w(n)为第n个音频样点的权重值;x(n)为加权后的第n个音频样点的值;
步骤1-3)针对步骤1-2)获得的每一帧音频的第n个音频样点的值x(n),采用一阶FIR高通滤波器,根据公式(4),进行预加重,获得预加重后的输出信号的值y(n);
y(n)=x(n)-ax(n-1) (4)
其中,a为预加重系数,通常可以取值0.9<a<1.0;x(n-1)为加权后的第n-1个音频样点的值;
步骤1-4)采用快速傅里叶算法,对步骤1-3)中的输出信号的值y(n),利用公式(5),进行离散傅立叶变换,获得音频帧经傅里叶变化后的频点值X(k);
其中,X(k)为音频帧经傅里叶变化后的频点值;N'为傅里叶变化采取的音频点数;k为频点编号;j为虚数,即j2=-1;
步骤1-5)在频域,针对步骤1-4)中的X(k),在梅尔域进行子带划分,一共分成M个子带,根据公式(6),获得第m子带的起始频率f(m),即第m-1子带的终止频率f(m):
其中,Fmin为映射下限,此处为300HZ;Fmax为映射上限,此处为2000HZ;M为子带个数,此处为33;
步骤1-6)利用公式(7),计算第m子带所包含的能量e(m);假设第m子带的起始频率为f(m),第m+1子带的终止频率为f(m+1);
其中,音频帧经离散傅里叶变化后的频点值X(k)的绝对值的平方为第m子带所包含的能量e(m);
步骤1-7)假定第i帧音频信号的第m子带的能量为eim,其对应的二进制音频指纹序列值为tim,则音频指纹的每个比特定义为:
其中,sim为第i帧音频信号的第m子带与第i-1帧音频信号的第m+1子带之间的一阶相邻能量差;tim为第i帧音频信号第m子带的二进制音频指纹序列值;
根据获得的tim,获得第i帧音频信号的音频指纹。
步骤2)获取音频样例的音频指纹权重;其中,所述步骤2)具体包括:
针对相邻字带之间的一阶相邻能量差,求取每一帧音频的指纹权重。具体的,
步骤2-1)假设步骤1)获得的音频指纹的一阶能量序列值为:
(S1,S2,S3...Si...SN) (10)
其中:SN为第N帧音频的各个子带的一阶相邻能量差的值的向量,每个Si包括上述步骤1-7)中的(Si1,Si2,Si3,Si4...Sim);
步骤2-2)针对步骤1-7)中的sim,根据公式(11),计算第i帧音频信号的总能量差值ESi
再根据公式(12),得到第i帧音频信号的总能量差序列值:
(ES1,ES2,ES3,ES4,ESi...ESN) (12)
步骤2-3)利用步骤2-2)中的第i帧音频信号的总能量差值,根据公式(13),获得第i帧音频信号的音频指纹所占的权重pweighti
其中,pweighti为第i帧音频信号的音频指纹的权重;ESi为第i帧音频信号的总能量差值;ESi+1为第i+1帧音频信号的总能量差值。
步骤3)根据步骤1)中获取的音频指纹的二进制音频指纹序列值,以二进制音频指纹序列值为关键字建立哈希表;其中,所述步骤3)具体包括:
根据音频样例的音频指纹的二进制音频指纹序列值,建立哈希表,作为索引机构,用于储存音频指纹。具体的,所述步骤1)中每帧音频信号的音频指纹均由32位二进制序列值表示,记为key,也就是,所述步骤1)中每帧音频信号的音频指纹均对应一个key值,因此,在进行建立索引机构时,可以选用哈希表来存放音频指纹,即按照key值作为关键字,建立哈希表。若存在多帧音频信号的音频指纹对应的key值相等,则通过在哈希表表项后添加链表来存放,每个链表节点保存一些必要信息:音频帧所在音频文件的标志,音频帧在音频文件中的位置信息,音频指纹权重信息。
步骤4)获取待检音频的音频指纹,根据待检音频的二进制音频指纹序列值,查找步骤3)中建立的哈希表;查找出待检音频的二进制音频指纹序列值对应的模板音频的音频指纹序列值;具体地,根据步骤1)的提取步骤,提取待检音频的音频指纹,根据待检音频的音频指纹中的二进制音频指纹序列值,查找步骤3)建立的哈希表,查找出该二进制音频指纹序列值对应的模板音频的音频指纹序列值;
步骤5)获取待检音频和模板音频之间指纹序列差异数D、模板音频与待检音频之间允许指纹序列差异数的阈值Reject;比较D与Reject大小,输出比较结果;具体包括:
步骤5-1)根据按公式(14),获得待检音频与模板音频之间指纹序列差异数D:
其中,t(i,m)为待检音频第i帧音频指纹序列中第m位的二进制音频指纹序列值。t'(i,m)为模板音频第i帧音频指纹序列中第m位的二进制音频指纹序列值;M为子带数,即一共多少个子带,一般取值为33,R为模板音频与待检音频之间应比较的帧音频指纹总数。
步骤5-2)根据公式(15),获得模板音频与待检音频之间允许指纹序列差异数的阈值Reject;
其中,R表示模板音频与待检音频之间应比较的帧音频指纹总数,T表示预先设置好的比例值,一般取0.35;
步骤5-3)比较待检音频和模板音频之间指纹序列差异数D、模板音频与待检音频之间允许指纹序列差异数的阈值Reject;输出比较结果;
如果D<Reject,则认为待检音频与模板音频相似;如果D>Reject,则认为待检音频存在错误。
如图2所示,针对不同信噪比下新方法和原方法查准率的比较,可以发现随着信噪比的降低,查准率有着明显的提升。
如图3所示,针对不同信噪比下新方法和原方法查全率的比较,可以发现随着信噪比的降低,查全率也有不同程度的提升。
如图4所示,针对不同匹配长度下新方法和原方法查准率的比较,可以看到在音频片段较短时,查准率比原方法提升16%。
如图5所示,针对不同匹配长度下新方法和原方法查全率的比较,可以发现随着匹配长度的增加,查全率也有不同程度的提升。
实验性能验证:
为了对算法结果进行有效的评价,采用了两组实验来对算法进行性能评价。性能指标分别采用查准率和查全率来进行比较
查全率=(检索出的正确音频/集合中待检出的音频总数)*100% (16)
查准率=(检索出的正确音频/检索出的音频总数)*100% (17)
实验采用的数据集来源于互联网,主要包括网络上的音乐、评书、节目访谈和广告等。为了比较在不同环境下的检索性能,测试主要采用不同信噪比下的音乐和互联网实时节目进行性能比较。在音乐数据集上,因为频带能量在各个频带上基本都有能量值,静音片段比较少,声音比较连续,检索的难度相对较小,实验能获得比较好的效果。而互联网访谈节目本身噪声波动比较大,静音和杂音占的比重呈现随机性,进行音频检索时,难度更大。本文实验分别在不同信噪比的音乐数据集和互联网实时节目中进行检索,以验证改进后的检索性能。
数据集1包含2 000个短音频文件,每个音频文件长度在2s~1min之间,为来自于互联网采集的广告声和机器客服声音,总大小为400MB,总时长7h,音频文件编码为8k16bit的PCM格式。
数据集2包含6 000个音频文件,来自于互联网采集的真实数据,内容主要包括网剧、广告、机器录音、音乐、移动客服录音等,总大小为20GB,总时长为364h,音频文件编码为8k16bit的PCM格式。该数据集包含数据集1的390个音频变种文件,变种类型包括语音帧缺失、频谱不完整、时域拉伸等情况。
数据集3包含13 723个文件,主要内容为音乐,总大小为50.9GB,总时长为949h。音频文件编码为8k16bit的PCM格式。
数据集4:针对数据集3人为添加白噪声,形成信噪比为20db的测试集。
数据集5:针对数据集3人为添加白噪声,形成信噪比为10db的测试集。
数据集6:针对数据集3人为添加白噪声,形成信噪比为5db的测试集。
数据集7:针对数据试集3人为添加白噪声,形成信噪比为0db的测试集。
数据集8:针对数据集3人为添加白噪声,形成信噪比为-5db的测试集。
数据集9:从测数据3中随机选取1 000条语音文件,从其中的随机位置截取2s的长
实验一:
采用数据集9为模板数据,分别利用数据集3、4、5、6、7、8为测试数据进行检索。提取帧长为0.4s、帧移为0.026s的音频文件作为声学特征参数,则在不同信噪比的数据集上的查准率和查全率分别如附图2和3所示
实验二:
为了验证实时在线数据的短模板音频的比对性能,采用数据集1为音频模板,编写针对数据集2的程序,依次截取需要匹配时长的音频片段进行模板匹配。如果有设定匹配长度的音频片段比对成功,则表明该音频文件为需要检出的结果文件。提取帧长为0.4s、帧移为0.026s的音频片段作为声学特征参数,通过设定2秒至9秒不同的匹配长度来进行检索实验,在数据集2上的查准率和查全率分别如图4和5所示。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种基于指纹权重的音频样例检索方法,其特征在于,该方法具体包括:
获取待检音频的二进制音频指纹序列值,在预先建立的哈希表中进行查找;查找出对应的模板音频的二进制音频指纹序列值;
计算待检音频和模板音频之间指纹序列差异数D、模板音频与待检音频之间允许指纹序列差异数的阈值Reject;如果D<Reject,则认为待检音频与模板音频相似;如果D>Reject,则认为待检音频存在错误;
所述哈希表的预先建立的步骤具体包括:
步骤1)获取音频样例的音频指纹;
步骤2)获取音频样例的音频指纹权重;
步骤3)根据步骤1)中获取的音频指纹的二进制音频指纹序列值,以二进制音频指纹序列值为关键字建立哈希表;
所述步骤1)具体包括:
步骤1-1)将音频样例的音频信号降低到适合人耳特性的音频信号,获得第一音频信号;
步骤1-2)将步骤1-1)获得的第一音频信号,以每0.064秒为一帧,对其进行分帧,获得多帧音频,根据公式(2),对每一帧音频用相同的汉明窗长度进行加权,加权方式如公式(3),以获得每一帧音频的加权后的第n个音频样点的值x(n);
其中,N为汉明窗长度,即每一帧音频的样点数;x'(n)为原始的第n个音频样点的值;w(n)为第n个音频样点的权重值;x(n)为加权后的第n个音频样点的值;
步骤1-3)针对步骤1-2)获得的每一帧音频的第n个音频样点的值x(n),采用一阶FIR高通滤波器,根据公式(4),进行预加重,获得预加重后的输出信号的值y(n);
y(n)=x(n)-ax(n-1) (4)
其中,a为预加重系数,0.9<a<1.0;x(n-1)为加权后的第n-1个音频样点的值;
步骤1-4)采用快速傅里叶算法,对步骤1-3)中的输出信号的值y(n),利用公式(5),进行离散傅立叶变换,获得音频帧经傅里叶变化后的频点值X(k);
其中,X(k)为音频帧经傅里叶变化后的频点值;N'为傅里叶变化采取的音频点数;k为频点编号;j为虚数;
步骤1-5)在频域,针对步骤1-4)中的X(k),在梅尔域进行子带划分,一共分成M个子带,根据公式(6),获得第m子带的起始频率f(m):
其中,Fmin为映射下限;Fmax为映射上限;M为子带个数;
步骤1-6)利用公式(7),计算第m子带所包含的能量e(m);假设第m子带的起始频率为f(m),第m+1子带的终止频率为f(m+1);
其中,音频帧经离散傅里叶变化后的频点值X(k)的绝对值的平方为第m子带所包含的能量e(m);
步骤1-7)假定第i帧音频信号的第m子带的能量为eim,其对应的二进制音频指纹序列值为tim,则音频指纹的每个比特定义为:
其中,sim为第i帧音频信号的第m子带与第i-1帧音频信号的第m+1子带之间的一阶相邻能量差;tim为第i帧音频信号第m子带的二进制音频指纹序列值;
根据获得的tim,获得第i帧音频信号的音频指纹。
2.根据权利要求1所述的基于指纹权重的音频样例检索方法,其特征在于,所述步骤2)具体包括:
步骤2-1)假设步骤1)获得的音频指纹的一阶能量序列值为:
(S1,S2,S3...Si...SN)(10)
其中:SN为第N帧音频的各个子带的一阶相邻能量差的值的向量,每个Si包括上述步骤1-7)中的(Si1,Si2,Si3,Si4...Sim);
步骤2-2)针对步骤1-7)中的sim,根据公式(11),计算第i帧音频信号的总能量差值ESi
再根据公式(12),得到第i帧音频信号的总能量差序列:
(ES1,ES2,ES3,ES4,ESi...ESN) (12)
步骤2-3)利用步骤2-2)中的第i帧音频信号的总能量差值,根据公式(13),获得第i帧音频信号的音频指纹所占的权重pweighti
其中,pweighti为第i帧音频信号的音频指纹的权重;ESi为第i帧音频信号的总能量差值;ESi+1为第i+1帧音频信号的总能量差值。
3.根据权利要求1所述的基于指纹权重的音频样例检索方法,其特征在于,所述计算待检音频与模板音频之间指纹序列差异数D具体包括:
其中,t(i,m)为待检音频第i帧音频指纹序列中第m位的二进制音频指纹序列值;t'(i,m)为模板音频第i帧音频指纹序列中第m位的二进制音频指纹序列值;M为子带数,R为模板音频与待检音频之间应比较的帧音频指纹总数。
4.根据权利要求1所述的基于指纹权重的音频样例检索方法,其特征在于,所述计算模板音频与待检音频之间允许指纹序列差异数的阈值Reject具体包括:
其中,R表示模板音频与待检音频之间应比较的帧音频指纹总数,T表示预先设置好的比例值。
CN201811619718.3A 2018-12-28 2018-12-28 一种基于指纹权重的音频样例检索方法 Active CN111382303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811619718.3A CN111382303B (zh) 2018-12-28 2018-12-28 一种基于指纹权重的音频样例检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811619718.3A CN111382303B (zh) 2018-12-28 2018-12-28 一种基于指纹权重的音频样例检索方法

Publications (2)

Publication Number Publication Date
CN111382303A CN111382303A (zh) 2020-07-07
CN111382303B true CN111382303B (zh) 2023-11-28

Family

ID=71220242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811619718.3A Active CN111382303B (zh) 2018-12-28 2018-12-28 一种基于指纹权重的音频样例检索方法

Country Status (1)

Country Link
CN (1) CN111382303B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157967A (zh) * 2021-04-19 2021-07-23 中国科学院声学研究所 一种音频检索方法及装置
CN117877525A (zh) * 2024-03-13 2024-04-12 广州汇智通信技术有限公司 一种基于可变粒度特征的音频检索方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918663A (zh) * 2017-11-22 2018-04-17 腾讯科技(深圳)有限公司 音频文件检索方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918663A (zh) * 2017-11-22 2018-04-17 腾讯科技(深圳)有限公司 音频文件检索方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张学帅等.中国科技论文.2018,第13卷(第20期),第2296-2297页. *

Also Published As

Publication number Publication date
CN111382303A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
US10497378B2 (en) Systems and methods for recognizing sound and music signals in high noise and distortion
US11869261B2 (en) Robust audio identification with interference cancellation
US9092518B2 (en) Automatic identification of repeated material in audio signals
JP5362178B2 (ja) オーディオ信号からの特徴的な指紋の抽出とマッチング
CN111640411B (zh) 音频合成方法、装置及计算机可读存储介质
CN111382303B (zh) 一种基于指纹权重的音频样例检索方法
US20130266147A1 (en) System and method for identification of highly-variable vocalizations
CN111382302B (zh) 一种基于变速模板的音频样例检索方法
CN105741853A (zh) 一种基于共振峰频率的数字语音感知哈希方法
Bellettini et al. Reliable automatic recognition for pitch-shifted audio
Khemiri et al. A generic audio identification system for radio broadcast monitoring based on data-driven segmentation
KR101002731B1 (ko) 오디오 데이터의 특징 벡터 추출방법과 그 방법이 기록된컴퓨터 판독 가능한 기록매체 및 이를 이용한 오디오데이터의 매칭 방법
Yin et al. Robust online music identification using spectral entropy in the compressed domain
Suga et al. Real-time background music monitoring based on content-based retrieval
CN117807564A (zh) 音频数据的侵权识别方法、装置、设备及介质
CN117612567A (zh) 基于语音情感识别的家宽装维满意度推理方法及系统
CN117457005A (zh) 一种基于动量对比学习的声纹识别方法和设备
CN117079676A (zh) 音频重复片段检测方法、装置、设备及可读存储介质
KR20100056430A (ko) 오디오 데이터의 특징 벡터 추출방법 및 이를 이용한 오디오 데이터의 매칭 방법
Negi Evaluation of Audio Based Searching for Indian Traditional Music
Arora et al. Comparison and Implementation of Audio based Searching for Indian Classical Music

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant