CN104900239A - 一种基于沃尔什-哈达码变换的音频实时比对方法 - Google Patents

一种基于沃尔什-哈达码变换的音频实时比对方法 Download PDF

Info

Publication number
CN104900239A
CN104900239A CN201510244437.4A CN201510244437A CN104900239A CN 104900239 A CN104900239 A CN 104900239A CN 201510244437 A CN201510244437 A CN 201510244437A CN 104900239 A CN104900239 A CN 104900239A
Authority
CN
China
Prior art keywords
audio
frame
audio frequency
distance
walsh
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510244437.4A
Other languages
English (en)
Other versions
CN104900239B (zh
Inventor
甘涛
何艳敏
黄晓革
兰刚
周南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
Beijing Infomedia Digital Technology Co ltd
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Infomedia Digital Technology Co ltd, University of Electronic Science and Technology of China filed Critical Beijing Infomedia Digital Technology Co ltd
Priority to CN201510244437.4A priority Critical patent/CN104900239B/zh
Publication of CN104900239A publication Critical patent/CN104900239A/zh
Application granted granted Critical
Publication of CN104900239B publication Critical patent/CN104900239B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明属于数字音频处理技术领域,具体为一种基于沃尔什-哈达码变换的音频实时比对方法,包括步骤S1特征提取:对待比对的两个音频,分别进行预处理、读取音频帧、沃尔什-哈达码变换、计算音频帧特征、生成音频特征:将各音频帧的特征矢量fi排列成一矩阵F=[f1,f2,f3,...,fM];步骤S2特征匹配:设待比对的两个音频信号的特征矩阵F和的对应列特征矢量进行比较,将待比对两个音频的所有帧的距离进行平均,将该平均值作为两音频信号的距离;步骤S3相似度判定。本发明具有较高的比对容错性,在音频受到噪声干扰,或进行了音效处理的等情况下均能实现正确的比对;同时,该方法算法简单、处理快速,能够广泛应用于广播电台的节目监播、广告监测和管理等。

Description

一种基于沃尔什-哈达码变换的音频实时比对方法
技术领域
本发明属于数字音频处理技术领域,涉及一种对两音频信号进行比较的方法,具体为一种基于沃尔什-哈达码变换的音频实时比对方法,该方法可应用于广播音频的实时比对。
背景技术
当前,音频广播已成为最为普及的大众宣传和娱乐媒体。广播电台的节目播出及媒体资源管理等都涉及到音频比对方面的需求,即对两个音频进行比较,判断二者是否相同或相似。例如在节目监播中,需要对实际发射播出的音频信号进行在线实时接收和查询,涉及到将接听到的音频流与欲播出的原音频进行比对,从而判断整个开环播出通路是否正常;又如在广告统计管理中,也需要对每日播出记录与原广告音频进行比对查找,统计各广告实际播出的时间和次数,从而判断广告播出是否存在漏播、多播或错播等情况。
音频比对一般包括音频提取特征和特征匹配两个环节。特征提取是用代表原始信号的结构化数据来表达音频信号。常用的音频特征主要可以分为两大类:声学级特征和语义级特征。声学特征是音频信号本身的特征(如时频域特征),是其它类型音频特征的基础。常用的声学特征主要包括梅尔倒谱系数(MFCC)、基音频率、短时能量、过零率、LPC等等;语义级特征则是对音频的概念级描述,它是在声学级特征的基础上,通过模型化处理,抽取出来的更高级的感知特征,如音乐的旋律、音色和叙事感情等等。在提取特征之后,特征匹配环节则是通过计算提取的两音频特征之间的距离来判断两音频是否相同或相似。该过程相对简单,常用的特征距离有标准欧几里德距离、曼哈顿距离、汉明距离等等。
传统的音频比对方法针对普通音频的比对,一般不太适用于广播音频,其原因主要有如下两个方面:一方面,在比对容错性上,众多音频特征皆以准确描述音频为目标,追求高的内容辨识度,故音频的细微变化,均能反应在特征上。这样,如果音频受到噪声干扰,或经过一些常规音效处理,如均衡(EQ)调节,再将处理后的音频与原音频进行比较,传统比对方法往往判定两音频不相似甚至完全不同,而噪声干扰、音效处理等在广播中是很常见的。如在广播监测中,我们需要将播出原音频与接听到的音频进行比对,而接听到的音频并非如原音频一般纯净,常常含有噪声;又如为了达到更好的播出主观收听效果,在广播发射前,通常使用音频均衡器来对播出音频的频谱进行调节。这些处理,使得被处理音频相对于原音频发生了较大的变化。在这种情况下,传统的比对方法往往不能适用,因为广播音频比对需要判定播出的音频内容本身是否相同,而非听觉效果上是否一致,即某音频即使在受到一定噪声干扰、频谱调节等处理后,算法仍应该判定该音频与其原音频是相似的(或互为相似音频)。虽然文献中也出现了对音频变化不敏感的比对方法,如基于Philips音频指纹的比对方法,但这些方法中,处理前后两音频间的距离与真正完全不同的两音频间的距离相差不大,故判别上容易混淆,尤其是在强噪声干扰或音频处理的变化幅度较大时,会出现判别错误;另一方面,在比对的计算效率上,现有方法的计算复杂度相对较高,比对所需的时间相对较长,不利于实时处理。
发明内容
本发明的目的在于针对背景技术存在的问题,采用新的音频提取特征和特征匹配方法,提供一种适合广播音频的比对方法。
本发明采用技术方案为:一种基于沃尔什-哈达码变换的音频实时比对方法,包括以下步骤:
S1.特征提取:对待比对的两个音频,分别进行以下操作:
S11.预处理:将音频从原采样频率下采样到fs=4000Hz,将下采样后的数据按固定长度划分为各音频帧,相邻帧间有重叠,其中帧长L取为2的整数次方,即L=2m(m为整数);将每一帧数据排列成一列矢量,并将矢量中各元素除以列矢量中元素绝对值的最大值进行归一化,将归一化处理后的帧数据保存在数据矩阵A中;设总的音频帧数目为M,则A=[a1,a2,a3,...,aM],其中A的每一列ai表示第i帧的数据;
S12.读取音频帧:取一帧音频ai;设定初始值为0的帧计数器,每取一音频帧,帧计数器加1;
S13.沃尔什-哈达码(Walsh-Hadamard)变换:对音频帧ai的数据进行加窗处理,设xi代表加窗后第i帧的帧数据,对xi进行沃尔什-哈达码变换,得到变换后的数据yi
y i = 1 L H L x i - - - ( 1 )
其中,HL为相应的L阶变换矩阵;
S14.计算音频帧特征:设fi代表第i帧的音频帧特征,其维数(或特征个数)设定为Z,fi k代表fi的第k个元素,对k=1,2,3,...,Z的每个k计算
f i k = Σ j = b k - 1 b k ( y i j × y i j ) - - - ( 2 )
其中代表yi的第j个元素;br(r=0,1,2,...,Z)为划分帧特征矢量fi的第r个分界点位置下标,其计算公式为
其中代表向下取整运算;
S15.若帧计数器的当前计数值小于M,则转至步骤S12;
S16.生成音频特征:将各音频帧的特征矢量fi排列成一矩阵F=[f1,f2,f3,...,fM],该矩阵即为当前音频信号的特征矩阵;
S2.特征匹配:
设待比对的两个音频信号的特征矩阵分别为F和将两矩阵的对应列(帧)特征矢量进行以下比较:
S21.设fi分别表示第一个和第二个音频的第i帧特征矢量,计算参数μi
μ i = Σ k = 1 Z bool ( a i k b i k > T μ ) - - - ( 4 )
其中代表fi k二者中值较大者,代表fi k二者中值较小者,Tμ(100≤Tμ≤140)为设定某阈值,bool(·)为二值函数,其定义为
S22.对i从1到M,计算第i帧的距离di
d i = &mu; i ( 1 - < f i , f i &OverBar; > | | f i | | 2 &CenterDot; | | f i &OverBar; | | 2 ) - - - ( 6 )
其中运算符<·,·>为矢量的内积,||·||2为矢量的2范数,即矢量各元素平方和再开方;
S23.将待比对两个音频的所有帧的距离进行平均,将该平均值作为两音频信号的距离;
S3.相似度判定:将求得的待比对两个音频信号距离除以单位距离得到相对距离比,若该距离比小于设定的阈值Td(0.2≤Td≤0.5),则判定两个音频信号相似,否则不相似。
本发明的有益效果:本发明提供一种音频实时比对方法,该方法具有较高的比对容错性,在音频受到噪声干扰,或进行了音效处理的等情况下均能实现正确的比对;同时,该方法算法简单、处理快速,能够广泛应用于广播电台的节目监播、广告监测和管理等。
附图说明:
图1为EQ处理均衡器设置图。其中,(a)为流行风格均衡器设置、(b)为摇滚风格均衡器设置、(c)为经典风格均衡器设置。
图2为特征提取过程流程图。
图3为音频比对流程图。
具体实施方式
仿真实验共选择了16个音频作为测试音频。其中前6个音频为未经处理的原广播音频,均为单声道,48k采样率,包含广告、乐曲和歌曲各两个,其具体信息如表1描述;后10个音频对歌曲1作均衡(EQ)、压缩、加噪等处理得到的音频,其音频具体信息如表2描述,EQ处理的均衡器设置如图1所示。
表1原测试音频信息
音频命名 内容来源 时长(秒)
广告1 蓝光整合广告 16.056
广告2 宝中旅游大理广告 16.488
乐曲1 出埃及记 30.000
乐曲2 英雄的黎明 30.000
歌曲1 最炫民族风 30.000
歌曲2 小苹果 30.000
表2歌曲1处理后的各音频信息
本实施例以“歌曲1”与对其加入高斯白噪声(信噪比为-5db)处理后的“歌曲1-SNR-5”这对音频为例,对其进行比对,具体步骤如下:
S1.特征提取:对待比对的两个音频,分别进行如下操作:
S11.预处理:将音频从原采样频率下采样到fs=4000Hz,将下采样后的数据按256个采样点的长度等分为各音频帧,相邻帧间有半帧长度的重叠,总的音频帧数目M为935;将每一帧数据排列成一列矢量,并将矢量中各元素除以列矢量中元素绝对值的最大值进行归一化,将归一化处理后的帧数据保存在数据矩阵A中;设,则A=[a1,a2,a3,...,a935],其中A的每一列ai表示第i帧的数据;
S12.读取音频帧:取一帧音频ai;设定初始值为0的帧计数器,每取一音频帧,帧计数器加1;
S13.沃尔什-哈达码(Walsh-Hadamard)变换:对音频帧ai的数据进行加汉明窗处理,设xi代表加窗后第i帧的帧数据,对xi进行哈达码变换,得到变换后的数据yi
y i = 1 256 H 256 x i - - - ( 1 )
其中,H256为256阶哈达码矩阵,可由如下的递推关系得到:最低阶(2阶)的哈达玛矩阵为
H 2 = 1 1 1 - 1
由此可得到其他阶次为2的整次幂的高阶哈达玛矩阵
H 2 N = H N H N H N - H N
式中,N=2n,n为正整数。
S14.计算音频帧特征:设fi代表第i帧的音频帧特征,其维数(或特征个数)设定为Z=10,fi k代表fi的第k个元素,对k=1,2,3,...,10的每个k计算
f i k = &Sigma; j = b k - 1 b k ( y i j &times; y i j ) - - - ( 2 )
其中代表yi的第j个元素;br(r=0,1,2,...,10)为划分帧特征矢量fi的第r个分界点位置下标,其计算公式为
其中代表向下取整运算,得到br(r=0,1,2,...,10)的值分别为3,5,7,10,15,22,31,44,63,90,128,因br的计算与音频数据无关,可在特征提取之前进行以加快处理速度;
S15.若帧计数器的当前计数值小于935,则转至步骤S12;
S16.生成音频特征:将各音频帧的特征矢量fi排列成一矩阵F=[f1,f2,f3,...,fM],该矩阵即为当前音频信号的特征矩阵;
S2.特征匹配:
设待比对的两个音频信号的特征矩阵分别为F和将两矩阵的对应列(帧)特征矢量进行如下比较:
S21.设fi分别表示第一个和第二个音频的第i帧特征矢量,计算参数μi
&mu; i = &Sigma; k = 1 10 bool ( a i k b i k > T &mu; ) - - - ( 4 )
其中代表fi k二者中值较大者,代表fi k二者中值较小者,阈值Tμ为设定为120,bool(·)为二值函数,其定义为
以第100帧为例进行说明,当i=100时,f100=(182.45,445.22,480.57,555.50,504.40,295.46,212.75,132.95,129.11,336.79); f &OverBar; 100 = ( 293.30,777.31,828.91,1187.27,484.78 , 202.28,105.56,187.96,181.53,590.05 ) ; 计算得到μ100=0;
S22.对i从1到935,计算第i帧的距离di
d i = &mu; i ( 1 - < f i , f i &OverBar; > | | f i | | 2 &CenterDot; | | f i &OverBar; | | 2 ) - - - ( 6 )
其中运算符<·,·>为矢量的内积,||·||2为矢量的2范数,即矢量各元素平方和再开方;当i=100时,得到第100帧的距离d100=0;
S23.将待比对两个音频的所有帧的距离进行平均,得到平均值0.0002136,作为两音频信号的距离;
S3.相似度判定:将求得的两个音频信号距离除以单位距离0.117706,得到相对距离比0.001815,由于该距离比小于设定的阈值Td=0.2,故判定两个音频信号相似。
下面分别从比对效果和比对速度两方面来进行性能评估,将本发明方法与传统基于MFCC音频特征、基于Philips音频指纹的两种比对方法进行比较。基于MFCC音频特征的比对方法是提取MFCC特征,然后用欧式距离来进行特征匹配,基于Philips音频指纹的比对方法是提取Philips音频指纹特征,然后用汉明距离来进行特征匹配。
1.比对效果
1)不同音频间的比对
在原始的测试音频中,将歌曲1与其他5个音频进行比对,其得到的距离结果如表3所示。在本发明方法、MFCC方法和Philips方法的结果中,都以歌曲1与乐曲1的比对距离作为单位距离进行计算。
表3歌曲1与其他不同音频之间的比对距离
比对音频 MFCC方法 Philips方法 本发明方法
歌曲1与乐曲1 1.000000 1.000000 1.000000
歌曲1与乐曲2 1.938763 1.015305 1.145779
歌曲1与广告1 0.885661 0.993323 1.330869
歌曲1与广告2 1.146706 1.007327 1.694943
歌曲1与歌曲2 0.706841 1.011026 0.881314
可以看到,在不同音频间进行比对时,三种方法差别不大,距离均在1左右。本发明方法得到的距离值都大于设定的阈值Td=0.2,故正确判定测试音频对的音频均互不相似。
2)相似音频间的比对
将歌曲1分别与其经过EQ、压缩和加噪处理后的各音频进行比对,得到的距离结果如表4所示。
表4歌曲1与其相似音频之间的比对距离
比对音频 MFCC方法 Philips方法 本发明方法
歌曲1与歌曲1-pop 0.16660 0.14068 0.000285
歌曲1与歌曲1-rock 0.25647 0.27612 0.000391
歌曲1与歌曲1-classical 0.22612 0.36417 0.000000
歌曲1与歌曲1-转32MP3 2.48960 0.13995 0.000000
歌曲1与歌曲1-转64MP3 0.06516 0.08195 0.000000
歌曲1与歌曲1转128MP3 0.00105 0.02538 0.000000
歌曲1与歌曲1-转256MP3 0.00002 0.00412 0.000000
歌曲1与歌曲1-SNR-5 1.13558 0.59127 0.001815
歌曲1与歌曲1-SNR0 0.92927 0.42379 0.003278
歌曲1与歌曲1-SNR5 0.70901 0.26895 0.000000
可以看到,在相似音频间进行比对时,即使在音频经过一定处理后,本发明方法得到的距离值都远小于设定的阈值Td=0.2,因而正确判定测试音频对的音频均互为相似音频;另外,对比表3的结果我们看到,本发明方法得到的相似音频间的距离都远小于不同音频间的距离,这意味着本发明方法对相似音频具有很高的音频识别性能。相对而言,MFCC和Philips方法得到的距离更接近于1,即不容易区分相似音频和不同音频。特别地,在对歌曲1与歌曲1-转32MP3音频的比对中,由于压缩失真较大,MFCC方法的距离已经超过1,Philips方法的距离也超过0.1,而本发明方法距离几乎为0;同样,在被强噪声污染的情况下,如当SNR=0(噪声强度等于信号强度)或SNR=-5(噪声强度超过信号强度)时,MFCC方法和Philips两方法都基本失效,而本发明方法仍然能比对正确。
2.比对速度
下面对本发明方案的运行速度进行评估。测试的程序均是由MATLAB编写,测试机器为Intel(R)i3处理器,主频为2.53GHz,内存为4GB。测试结果如表5所示。
表5音频比对时间(单位:秒)
比对音频 MFCC方法 Philips方法 本发明方法
歌曲1-SNR-5 21.64 3.15 1.28
可以看到,本发明方法的比对速度明显快于MFCC和Philips方法,耗时约为MFCC的5.91%,约为Philips的40.63%。对30秒时长的音频数据,本发明方法用1.28秒完成比对,其处理的实时速度比(音频总时间/处理时间)达23.44倍,因而程序能够对不断输入的音频流实时地进行比对;另外本次测试仿真程序采用MATLAB编写,如将程序改用C语言编写,其处理速度还能进一步提高。综上所述,本发明方法完全能够满足实时应用的需求。

Claims (3)

1.一种基于沃尔什-哈达码变换的音频实时比对方法,包括以下步骤:
S1.特征提取:对待比对的两个音频,分别进行以下操作:
S11.预处理:将音频从原采样频率下采样到fs=4000Hz,将下采样后的数据按固定长度划分为各音频帧,相邻帧间有重叠,其中帧长L取为2的整数次方,即L=2m、m为整数;将每一帧数据排列成一列矢量,并将矢量中各元素除以列矢量中元素绝对值的最大值进行归一化,将归一化处理后的帧数据保存在数据矩阵A中;设总的音频帧数目为M,则A=[a1,a2,a3,...,aM],其中A的每一列ai表示第i帧的数据;
S12.读取音频帧:取一帧音频ai;设定初始值为0的帧计数器,每取一音频帧,帧计数器加1;
S13.沃尔什-哈达码变换:对音频帧ai的数据进行加窗处理,设xi代表加窗后第i帧的帧数据,对xi进行沃尔什-哈达码变换,得到变换后的数据yi
y i = 1 L H L x i ,
其中,HL为相应的L阶变换矩阵;
S14.计算音频帧特征:设fi代表第i帧的音频帧特征,其维数设定为Z,fi k代表fi的第k个元素,对k=1,2,3,…,Z的每个k计算
f i k = &Sigma; j = b k - 1 b k ( y i j &times; y i j ) ,
其中代表yi的第j个元素;br、r=0,1,2,…,Z为划分帧特征矢量fi的第r个分界点位置下标,其计算公式为
其中代表向下取整运算;
S15.若帧计数器的当前计数值小于M,则转至步骤S12;
S16.生成音频特征:将各音频帧的特征矢量fi排列成一矩阵F=[f1,f2,f3,...,fM],该矩阵即为当前音频信号的特征矩阵;
S2.特征匹配:
设待比对的两个音频信号的特征矩阵分别为F和将两矩阵的对应列特征矢量进行以下比较:
S21.设fi分别表示第一个和第二个音频的第i帧特征矢量,计算参数μi
&mu; i = &Sigma; k = 1 Z bool ( a i k b i k > T &mu; ) ,
其中代表二者中值较大者,代表二者中值较小者,Tμ为设定阈值,bool(·)为二值函数,其定义为
S22.对i从1到M,计算第i帧的距离di
d i = &mu; i ( 1 - < f i , f &OverBar; i > | | f i | | 2 &CenterDot; | | f &OverBar; i | | 2 ) ,
其中运算符<·,·>为矢量的内积,||·||2为矢量的2范数,即矢量各元素平方和再开方;
S23.将待比对两个音频的所有帧的距离进行平均,将该平均值作为两音频信号的距离;
S3.相似度判定:将求得的待比对两个音频信号距离除以单位距离得到相对距离比,若该距离比小于设定的阈值Td,则判定两个音频信号相似,否则不相似。
2.按权利要求1所述基于沃尔什-哈达码变换的音频实时比对方法,其特征在于,所述阈值Tμ取值范围为:100≤Tμ≤140。
3.按权利要求1所述基于沃尔什-哈达码变换的音频实时比对方法,其特征在于,所述阈值Td取值范围为:0.2≤Td≤0.5。
CN201510244437.4A 2015-05-14 2015-05-14 一种基于沃尔什-哈达码变换的音频实时比对方法 Expired - Fee Related CN104900239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510244437.4A CN104900239B (zh) 2015-05-14 2015-05-14 一种基于沃尔什-哈达码变换的音频实时比对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510244437.4A CN104900239B (zh) 2015-05-14 2015-05-14 一种基于沃尔什-哈达码变换的音频实时比对方法

Publications (2)

Publication Number Publication Date
CN104900239A true CN104900239A (zh) 2015-09-09
CN104900239B CN104900239B (zh) 2018-08-21

Family

ID=54032868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510244437.4A Expired - Fee Related CN104900239B (zh) 2015-05-14 2015-05-14 一种基于沃尔什-哈达码变换的音频实时比对方法

Country Status (1)

Country Link
CN (1) CN104900239B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087669A (zh) * 2018-10-23 2018-12-25 腾讯科技(深圳)有限公司 音频相似度检测方法、装置、存储介质及计算机设备
CN110310661A (zh) * 2019-07-03 2019-10-08 云南康木信科技有限责任公司 一种两路实时广播音频延时和相似度的计算方法
CN110534121A (zh) * 2019-08-21 2019-12-03 中国传媒大学 一种基于频域特征的音频内容一致性的监测方法及系统
CN110910899A (zh) * 2019-11-27 2020-03-24 杭州联汇科技股份有限公司 一种实时音频信号一致性对比检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003088534A1 (en) * 2002-04-05 2003-10-23 International Business Machines Corporation Feature-based audio content identification
CN101221760A (zh) * 2008-01-30 2008-07-16 中国科学院计算技术研究所 一种音频匹配方法及系统
CN102262644A (zh) * 2010-05-25 2011-11-30 索尼公司 搜索装置、搜索方法以及程序
WO2013028351A2 (en) * 2011-08-19 2013-02-28 Dolby Laboratories Licensing Corporation Measuring content coherence and measuring similarity
CN103021440A (zh) * 2012-11-22 2013-04-03 腾讯科技(深圳)有限公司 一种音频流媒体的跟踪方法及系统
CN103324691A (zh) * 2013-06-03 2013-09-25 河海大学 一种基于M-tree的音频检索方法
CN104464726A (zh) * 2014-12-30 2015-03-25 北京奇艺世纪科技有限公司 一种相似音频的确定方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003088534A1 (en) * 2002-04-05 2003-10-23 International Business Machines Corporation Feature-based audio content identification
CN101221760A (zh) * 2008-01-30 2008-07-16 中国科学院计算技术研究所 一种音频匹配方法及系统
CN102262644A (zh) * 2010-05-25 2011-11-30 索尼公司 搜索装置、搜索方法以及程序
WO2013028351A2 (en) * 2011-08-19 2013-02-28 Dolby Laboratories Licensing Corporation Measuring content coherence and measuring similarity
CN103021440A (zh) * 2012-11-22 2013-04-03 腾讯科技(深圳)有限公司 一种音频流媒体的跟踪方法及系统
CN103324691A (zh) * 2013-06-03 2013-09-25 河海大学 一种基于M-tree的音频检索方法
CN104464726A (zh) * 2014-12-30 2015-03-25 北京奇艺世纪科技有限公司 一种相似音频的确定方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
孙明等: "Walsh-Hadamard变换的含噪语音信号自适应滤波", 《佛山科学技术学院学报》 *
张扬: "基于内容的相似音视频检测及广告检测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
郭兴吉等: "基于特征的音频比对技术", 《河北师范大学学报(自然科学版)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087669A (zh) * 2018-10-23 2018-12-25 腾讯科技(深圳)有限公司 音频相似度检测方法、装置、存储介质及计算机设备
CN110310661A (zh) * 2019-07-03 2019-10-08 云南康木信科技有限责任公司 一种两路实时广播音频延时和相似度的计算方法
CN110310661B (zh) * 2019-07-03 2021-06-11 云南康木信科技有限责任公司 一种两路实时广播音频延时和相似度的计算方法
CN110534121A (zh) * 2019-08-21 2019-12-03 中国传媒大学 一种基于频域特征的音频内容一致性的监测方法及系统
CN110534121B (zh) * 2019-08-21 2021-09-03 中国传媒大学 一种基于频域特征的音频内容一致性的监测方法及系统
CN110910899A (zh) * 2019-11-27 2020-03-24 杭州联汇科技股份有限公司 一种实时音频信号一致性对比检测方法
CN110910899B (zh) * 2019-11-27 2022-04-08 杭州联汇科技股份有限公司 一种实时音频信号一致性对比检测方法

Also Published As

Publication number Publication date
CN104900239B (zh) 2018-08-21

Similar Documents

Publication Publication Date Title
CN104900238B (zh) 一种基于感知滤波的音频实时比对方法
CN104992713B (zh) 一种快速广播音频比对方法
CN102016994B (zh) 用于处理音频信号的设备及其方法
CN103582913B (zh) 有效内容分类及响度估计
Schädler et al. Separable spectro-temporal Gabor filter bank features: Reducing the complexity of robust features for automatic speech recognition
US9552845B2 (en) Automatic generation of metadata for audio dominance effects
EP3785453B1 (en) Blind detection of binauralized stereo content
CN111341319B (zh) 一种基于局部纹理特征的音频场景识别方法及系统
CN104900239A (zh) 一种基于沃尔什-哈达码变换的音频实时比对方法
CN106023986B (zh) 一种基于声效模式检测的语音识别方法
Stern et al. Features based on auditory physiology and perception
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
Kumar et al. Music Source Activity Detection and Separation Using Deep Attractor Network.
May et al. Computational speech segregation based on an auditory-inspired modulation analysis
CN108806725A (zh) 语音区分方法、装置、计算机设备及存储介质
Li et al. A si-sdr loss function based monaural source separation
Fan et al. Deep attention fusion feature for speech separation with end-to-end post-filter method
Li et al. Speech enhancement algorithm based on sound source localization and scene matching for binaural digital hearing aids
Liu et al. Learnable nonlinear compression for robust speaker verification
Prasanna Kumar et al. Single-channel speech separation using empirical mode decomposition and multi pitch information with estimation of number of speakers
Krijnders et al. Tone-fit and MFCC scene classification compared to human recognition
Ma Intelligent tools for multitrack frequency and dynamics processing
CN104715761A (zh) 一种音频有效数据检测方法和系统
US11929091B2 (en) Blind detection of binauralized stereo content
CN116230012B (zh) 一种基于元数据对比学习预训练的两阶段异音检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20151231

Address after: 611731 Chengdu province high tech Zone (West) West source Avenue, No. 2006

Applicant after: University of Electronic Science and Technology of China

Address before: 611731 Chengdu province high tech Zone (West) West source Avenue, No. 2006

Applicant before: University of Electronic Science and Technology of China

Applicant before: BEIJING INFOMEDIA DIGITAL TECHNOLOGY CO., LTD.

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180821

Termination date: 20210514

CF01 Termination of patent right due to non-payment of annual fee