CN109558509A - 一种广播音频中广告检索的方法和装置 - Google Patents
一种广播音频中广告检索的方法和装置 Download PDFInfo
- Publication number
- CN109558509A CN109558509A CN201810724513.5A CN201810724513A CN109558509A CN 109558509 A CN109558509 A CN 109558509A CN 201810724513 A CN201810724513 A CN 201810724513A CN 109558509 A CN109558509 A CN 109558509A
- Authority
- CN
- China
- Prior art keywords
- audio
- fingerprint
- frequency
- sub
- frequency fingerprint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本发明公开一种广播音频中广告检索的方法,包括:获取待检测音频和模板音频,将待检测音频和模板音频转化为相同格式;对模板音频进行音频指纹提取获得第一音频指纹并存储到数据库中,第一音频指纹包括第一子指纹;对待检测音频进行音频指纹提取获得第二音频指纹,第二音频指纹包括第二子指纹,选择连续出现至少三次的第二子指纹作为候选子指纹;根据候选子指纹在数据库中检索,判断候选子指纹是否存在于数据库中;若是,计算与候选子指纹对应的第二音频指纹与第一音频指纹的差异度系数,根据差异度系数与预设阈值的关系判断待检测音频与模板音频的关系。本发明提出一种新的机制选取候选子指纹,降低算法复杂度,减少检索次数,缩短了检索时间。
Description
技术领域
本发明涉及音频检索技术领域,特别是指一种广播音频中广告检索的方法和装置。
背景技术
视频包含了音频的属性内容,因此对音频特征的研究具有更广泛的应用意义。广播电台的音频内容监播,一直都是媒体监管工作的重要部分。广播每天都会产生众多的音频数据,如何对这些数据进行高效准确的检测,是本研究算法的重点和难点。本发明要解决的问题——在广播音频中查找广告样例音频并定位该条广告的具体时间位置,这是一个典型的音频样例检索应用。
荷兰的Philips研究院利用音频中频谱子带间的关系构建Philips音频指纹,对所有可能的Philips指纹建立一张快速查找表LUT(lookup table),然后将快速查找表中的每个指纹与音频指纹库中的子指纹建立关联。当需要检索音频时,对待检索音频提取一个指纹块,根据指纹块中的子指纹在快速查找表中定位到包含该子指纹的所有音频中,再进行精确相似匹配,最后确定相似值,根据相似程度返回检索结果。为了提高检索效率,Philips检索算法采用候选子指纹策略进行索引,候选子指纹要求没有比特误差或比特误差很小。候选子指纹的确立是通过比较相邻两帧频谱对应的频带能量差的大小来决定,如果能量差的差值较大,则认为该频带产生的子指纹的位是可靠的、鲁棒的,所以Philips 检索算法根据频带能量差的差距来确定子指纹中各个位的可靠权重,权重总和较高的子指纹可以作为候选子指纹,同时对该子指纹可靠性低的位进行变动后再检索,来保证检索的召回率。
以上方法已经被应用到广告监测中,但仍存在很多不足,如指纹计算量大。特别是候选子指纹选取机制要求没有比特误差或是比特误差很小,这句话在实际操作中很难量化。通过仿真实验观察,在指纹比对过程中保持不变的子指纹和对应位的能量差值大小并没有显著关系。如果要求没有比特误差,将能量差门限设置过高,会出现在连续很长的音频指纹里都找不到符合要求的子指纹,不能选取到候选子指纹。而若要求比特误差很小,对子指纹可靠性低的位进行变动后再检索,会出现很多个候选子指纹,导致检索次数增加,在当前海量音频的背景下这种方法的监测速度尤其慢。
发明内容
有鉴于此,本发明实施例的目的在于提出一种广播音频中广告检索的方法和装置,保证检索精确性在一定范围内的同时提高检索速度。
基于上述目的本发明实施例提供一种广播音频中广告检索的方法,包括:
获取待检测音频和模板音频,将所述待检测音频和所述模板音频转化为相同格式;
对所述模板音频进行音频指纹提取获得第一音频指纹,将所述第一音频指纹存储到数据库中;所述第一音频指纹包括多条按顺序存储的第一子指纹;
对所述待检测音频进行音频指纹提取获得第二音频指纹,所述第二音频指纹包括多条按顺序存储的第二子指纹,选择连续出现至少三次的所述第二子指纹作为候选子指纹;
根据所述候选子指纹在所述数据库中检索,判断所述候选子指纹是否存在于所述数据库中;若是,则计算与所述候选子指纹对应的所述第二音频指纹与所述第一音频指纹的差异度系数,根据所述差异度系数与预设阈值的关系判断所述待检测音频与所述模板音频的关系。
可选的,所述对所述模板音频进行音频指纹提取获得第一音频指纹包括对所述模板音频进行提取Philips音频指纹获得所述第一音频指纹;对所述待检测音频进行音频指纹提取获得第二音频指纹包括对所述待检测音频进行提取 Philips音频指纹获得所述第二音频指纹。
可选的,所述音频指纹提取包括:
对音频加汉明窗做分帧处理,得到多个单帧音频片段;
对每个所述的单帧音频片段进行快速傅里叶变换,获取音频频谱信号;
将每个所述的音频频谱信号中300-2000HZ的频段划分为至少M+1个不重叠的子频段,并针对M+1个所述的子频段分别计算能量值,计算公式如下:
其中,E(n,m)表示第n帧音频频谱信号在第m个子频段的能量,|Xn(i)|表示第n帧音频频谱信号,f(m)~f(m+1)表示子频段m的范围,M为整数且14 ≤M≤32;
计算当前帧相邻两个子频段的能量差并和前一帧相同位置的两个子频段的能量差进行比较,获取包含M位比特的音频指纹,其中获取音频指纹的具体计算公式如下:
其中,F(n,m)表示第n帧音频指纹的第m个比特。
可选的,所述对所述模板音频进行音频指纹提取获得第一音频指纹,将所述第一音频指纹存储到数据库中,包括:
在所述数据库中创建模板音频指纹表和子指纹表;
将所述第一音频指纹存储到所述模板音频指纹表中;
将所述第一音频指纹中包含的每一条所述子指纹及每一条所述子指纹在所述第一音频指纹中对应的位置存储到所述子指纹表中。
可选的,所述将所述第一音频指纹中包含的每一条所述子指纹及每一条所述子指纹在所述第一音频指纹中对应的位置存储到所述子指纹表中,包括:判断所述子指纹是否存在于所述子指纹表中;若不存在,在所述子指纹表中存储所述子指纹、所述子指纹在所述第一音频指纹中的位置信息及所述子指纹对应的所述模板音频的名称信息;反之,存储所述子指纹在所述第一音频指纹中的位置信息以及所述子指纹对应的所述模板音频的名称信息。
可选的,所述根据所述候选子指纹在所述数据库中检索,判断所述候选子指纹是否存在于所述数据库中包括:根据所述候选子指纹在所述子指纹表中检索,判断所述候选子指纹是否存在于所述子指纹表中。
可选的,所述计算与所述候选子指纹对应的所述第二音频指纹与所述第一音频指纹的差异度系数,包括:
获取所述子指纹表中所述候选子指纹对应的所述模板音频的名称信息及所述子指纹在所述第一音频指纹中的位置信息,根据所述候选子指纹对应的所述模板音频的名称信息在所述模板音频指纹表中读取所述第一音频指纹,根据所述候选子指纹的位置将所述第一音频指纹与所述第二音频指纹的位置对齐后计算差异度系数。
可选的,所述差异度系数的计算公式如下:
其中,BER表示比特出错比值,N表示所述第一音频指纹中子指纹的个数;M表示每条所述子指纹的比特位数,M为整数且M∈[14,32];S表示所述第一音频指纹与所述第二音频指纹之间的汉明距离。
可选的,所述根据所述差异度系数与预设阈值的关系判断所述待检测音频与所述模板音频的关系,包括:
将所述差异度系数与预设阈值比较,若所述差异度系数小于等于所述预设阈值,则所述待检测音频与所述模板音频匹配;反之,不匹配。
本发明实施例还提供一种广播音频中广告检索的装置,包括:
格式转化模块,用于获取待检测音频和模板音频,将所述待检测音频和所述模板音频转化为相同格式;
第一音频指纹提取模块,用于对所述模板音频进行音频指纹提取获得第一音频指纹,将所述第一音频指纹存储到数据库中;所述第一音频指纹包括多条按顺序存储的第一子指纹;
第二音频指纹提取模块,用于对所述待检测音频进行音频指纹提取获得第二音频指纹,所述第二音频指纹包括多条按顺序存储的第二子指纹,选择连续出现至少三次的所述第二子指纹作为候选子指纹;
判断模块,用于根据所述候选子指纹在所述数据库中检索,判断所述候选子指纹是否存在于所述数据库中;若是,则计算与所述候选子指纹对应的所述第二音频指纹与所述第一音频指纹的差异度系数,根据所述差异度系数与预设阈值的关系判断所述待检测音频与所述模板音频的关系。
从上面所述可以看出,本发明实施例提供的广播音频中广告检索的方法和装置,提出一种新的机制选取候选子指纹;同时简化了现有技术中Philips指纹提取算法,增加相邻帧之间的时间间隔,并减少候选子指纹位数,缩短了指纹提取时间;该方法选取机制简单易量化,算法复杂度低,并且减少了检索次数,缩短了检索时间,在广播广告监测的应用中取得了良好的检索效果。
附图说明
图1为本发明实施例所述广播音频中广告检索的方法的整体框架图;
图2为本发明实施例所述广播音频中广告检索的方法的流程图;
图3为本发明实施例所述音频指纹提取的流程图;
图4为本发明实施例候选子指纹在数据库中检索的示意图;
图5为本发明实施例所述广播音频中广告检索的装置结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
附图1为本发明实施例广播音频中广告检索的方法的整体框架图,附图2 为本发明实施例广播音频中广告检索的方法的流程图。在本发明的一个实施例中,本发明提供了一种广播音频中广告检索的方法,包括:
S101,获取待检测音频和模板音频,将所述待检测音频和所述模板音频转化为相同格式。首先,对获取到的待检测音频和模板音频进行预处理,转换成统一的音频格式,以便于检测。
S102,对所述模板音频进行音频指纹提取获得第一音频指纹,将所述第一音频指纹存储到数据库中;所述第一音频指纹包括多条按顺序存储的第一子指纹。
S103,对所述待检测音频进行音频指纹提取获得第二音频指纹,所述第二音频指纹包括多条按顺序存储的第二子指纹,选择连续出现至少三次的所述第二子指纹作为候选子指纹。
发明人发现在一段音频指纹中会有一些子指纹连续保持不变,这些点受抗噪性能极强,并对分帧切割时间点保持一定健壮性,将之称为音频固定性点。利用极短时间内Philips音频指纹具有的音频连续性,这个连续性是指在一段音频里会出现一些音频指纹连续相等的片段,而这些片段会在音频指纹的计算中保持指纹的健壮性,不易受到时间切割的误差大小影响,会在下次计算中仍极大概率的保有这些指纹的现象。将这些子指纹备选为候选子指纹,只对这些子指纹在数据库中进行搜索。这种候选子指纹选取机制简单易量化,算法复杂度低,并且减少了检索次数,缩短了检索时间。发明人经过仔细研究,选择第二音频指纹中连续出现至少3次的第二子指纹作为所述候选子指纹,生成候选子指纹组。具体的,将得到的待检测音频指纹中连续3或4个及以上的第二子指纹提取出来,选为侯选子指纹。
S104,根据所述候选子指纹在所述数据库中检索,判断所述候选子指纹是否存在于所述数据库中;若是,则计算与所述候选子指纹对应的所述第二音频指纹与所述第一音频指纹的差异度系数,根据所述差异度系数与预设阈值的关系判断所述待检测音频与所述模板音频的关系。
可选的,待检测音频为待检测广播音频,模板音频为广告模板音频。上述实施例所述广播音频中广告检索的方法可用于在广播音频中对广告音频进行检测。
可选的,所述对所述模板音频进行音频指纹提取获得第一音频指纹包括对所述模板音频进行提取Philips音频指纹获得所述第一音频指纹;对所述待检测音频进行音频指纹提取获得第二音频指纹包括对所述待检测音频进行提取 Philips音频指纹获得所述第二音频指纹。
在本发明的另一个实施例中,步骤S102与S103中,音频指纹提取的步骤进一步包括:
S201,对获取到的广告模板音频以及待检测音频分别加汉明(Hanning) 窗做分帧处理,得到多个单帧音频片段。
作为一个具体的实施例,对每隔t、长度为T的音频片段加Hanning窗做分帧处理。这里,相邻帧间有重叠,t的取值范围为10~25ms,T的取值范围为0.30s~0.64s。
S202,对每个所述的单帧音频片段进行快速傅里叶变换,获取音频频谱信号。对分帧后的单帧音频片段进行快速傅里叶变换,将原始时域数字信号信息转换为对应的频谱信息,获取帧频谱。
S203,将每个所述的音频频谱信号中300-2000HZ的频段划分为至少M+1 个不重叠的子频段,并针对该M+1个所述的子频段分别计算能量值,计算公式如下:
其中,E(n,m)表示第n帧音频频谱信号在第m个子频段的能量,|Xn(i)|表示第n帧音频频谱信号,f(m)~f(m+1)表示子频段m的范围,M为整数且14 ≤M≤32。
为了通过频谱能量差获取M位指纹,计算划分得到的前M+1个不重叠频带能量。人类听觉系统只对300-2000HZ的声音敏感,因此只计算这个区间的相关频域特征。人类听觉系统遵循Bark Scale定律,因此频带的划分按对数间隔选取。若将300-2000HZ的频段划分为33个不重叠的子频带,这里33个频带通过频谱能量差能获取32位音频指纹。300Hz~1000Hz是语音的主要音区频率,也是音频能量的主要集中区域,因此可适当减少音频指纹位数,即只计算33个频带的部分能量。在本发明一个具体的实施例中,只计算前17个频带的能量;此外,也可以将300-2000HZ的频段划分为17个不重叠的子频带,计算该17个频带的能量,此时可以获取16位音频指纹。发明人发现,可允许的指纹位数M的范围是14~32。当M=16时,所有可能的音频指纹从全0到全1有216=65536种,即使数据库的子指纹表中存取了所有可能的音频指纹,最多存储6万多条数据,尚在可承受范围内。当M为14或15时,数据量更小。而M为17或18时,数据量也可以接受。
S204,计算当前帧相邻两个子频段的能量差并和前一帧相同位置的两个子频段的能量差进行比较,大于0时为1,小于等于0时为0,获取包含M位比特的音频指纹,其中获取音频指纹的具体计算公式如下:
其中,F(n,m)表示第n帧音频指纹的第m个比特。根据F(n,m)得到音频指纹各个比特的值,最终得到了包含M位比特的音频指纹,所述音频指纹即M位0、1数列所对应的二进制数。对于广告模板音频,则将该M位的数列作为哈希值存储到数据库中。
在本发明的另一个实施例中,步骤S102进一步包括:
S301,在所述数据库中创建模板音频指纹表和子指纹表。
S302,将所述第一音频指纹存储到所述模板音频指纹表中;模板音频指纹表用于存储各个模板音频的相关信息,包括各个模板音频的第一音频指纹、对应的广告模板名称代码信息。
S303,将所述第一音频指纹中包含的每一条所述子指纹及每一条所述子指纹在所述第一音频指纹中对应的位置存储到所述子指纹表中。存储时,判断所述子指纹是否存在于所述子指纹表中;若不存在,在所述子指纹表中存储所述子指纹、所述子指纹在所述第一音频指纹中的位置信息及所述子指纹对应的所述模板音频的名称信息;反之,存储所述子指纹在所述第一音频指纹中的位置信息以及所述子指纹对应的所述模板音频的名称信息。
在本发明的另一个实施例中,S104进一步包括:
根据所述候选子指纹在所述子指纹表中检索,判断所述候选子指纹是否存在于所述子指纹表中。若存在,获取所述子指纹表中所述候选子指纹对应的所述模板音频的名称信息及所述子指纹在所述第一音频指纹中的位置信息,根据所述候选子指纹对应的所述模板音频的名称信息在所述模板音频指纹表中读取所述第一音频指纹,根据所述候选子指纹的位置将所述第一音频指纹与所述第二音频指纹的位置对齐后计算差异度系数。
在另一个实施例中,所述差异度系数计算公式如下:
其中,BER(bit error rate)表示比特出错比例,N表示所述第一音频指纹的子指纹个数;M表示每条子指纹的比特位数,这里M取值范围为14~32。S 表示对应的所述广告模板音频的所述第一音频指纹与所述侯选子指纹对应的所述第二音乐指纹的汉明距离。
可选的,将所述差异度系数与预设的阈值比较,若所述差异度系数小于等于预设阈值,则所述第二音频指纹与所述第一音频指纹匹配,即该带检测音频包含了所述第一音频指纹对应的广告;反之,不匹配。具体公式如下:
当BER小于等于设定阈值λ,判定该待检测音频即为该广告模板音频;否则,判定不是。这里阈值λ取值范围为0.200~0.450,具体设定值根据音频噪音情况选取。
采用上述方法对所有的候选子指纹进行检索,直至搜索完所有的侯选子指纹。
下面结合一个具体实例来进一步说明本发明的技术方案,其中待检测音频为两段某广播电台已播出音频,有4个广告模板。详细音频信息如表1所示。
表1.实例测试音频的信息
检测步骤如下:
步骤401,对待检测音频和广告模板音频进行预处理。
音频存在多种格式和采样率,为了便于后续处理,这里将待检测音频和广告模板音频都转换成采样率8KHz,格式为PCM编码的wav文件。
步骤402,对广告模板音频进行音频指纹提取并存入数据库中。
首先对广告模板音频提取音频指纹,具体为:
A.加窗分帧:对每隔20ms、长度为0.64s的广告模板音频加汉宁窗做分帧处理。
B.傅里叶变换:对分帧后的单帧音频片段进行傅里叶变换(FFT)。
C.划分频带:将300-2000HZ的频段划分为33个不重叠的频带,其中频带的划分按对数间隔选取。这里只计算前17个不重叠频带能量,得到16位指纹。
D.能量计算:对不同帧的不同频带分别计算频带的能量值,第n帧音频在第m频带的能量:其中|Xn(i)|为傅里叶变换后得到的第 n帧音频频谱信号,f(m)~f(m+1)为频带m的范围。
E.确定比特位:即获取最终音频指纹,E(n,m)表示第n帧音频在第m频带的能量,F(n,m)表示第n帧音频的子指纹的第m个比特。
然后,将上述得到的第一音频指纹存入数据库的指纹表中,再将各子指纹存入数据库的子指纹表中,具体为:先在子指纹表中搜索是否存在该子指纹,若不存在,在表中新建存入该子指纹序列、广告代码和子指纹在广告音频指纹中的位置索引;若存在,则在表中该子指纹对应的项中插入本条广告代码和子指纹在第一音频指纹中的位置索引。
步骤403:对待检测音频提取第二音频指纹并计算候选子指纹。
对待检测音频提取第二音频指纹:该过程和步骤302中A-E步骤的提取指纹过程一样,故不复述。
计算候选子指纹:将音频指纹中连续出现4次及以上的中间位置的子指纹选为候选子指纹。
步骤404:候选子指纹在数据库的子指纹表中搜索,在数据库的指纹表中找到对应第一音频指纹,并进行相应的匹配计算。
参照附图4所示,候选子指纹在数据库的子指纹表中搜索。若不存在,则对下一个候选子指纹进行搜索;若子指纹表中存在该候选子指纹,读取后面对应的内容。对应的内容为记载的该子指纹所在的广告名称代码和位置索引。计算对应的广告模板的第一音频指纹与该侯选子指纹对应的待检测音频片段的第二音频指纹的差异度系数,其计算公式为其中S为对应的广告模板的第二音频指纹与该侯选子指纹对应的待检测音频片段的第一音频指纹的汉明距离,N为广告音频的第一音频指纹中子指纹个数。这里取λ=0.375,当BER小于等于λ,判定该待检测音频片段即为该广告模板音频;否则,判定不是。
步骤305:输出结果
本发明实施例还公开了一种广播音频中广告检索的装置,参照附图5所示,包括:
格式转化模块11,用于获取待检测音频和模板音频,将所述待检测音频和所述模板音频转化为相同格式。
第一音频指纹提取模块12,用于对所述模板音频进行音频指纹提取获得第一音频指纹,将所述第一音频指纹存储到数据库中;所述第一音频指纹包括多条按顺序存储的第一子指纹。所述对所述模板音频进行音频指纹提取获得第一音频指纹包括对所述模板音频进行提取Philips音频指纹获得所述第一音频指纹。
第二音频指纹提取模块13,用于对所述待检测音频进行音频指纹提取获得第二音频指纹,所述第二音频指纹包括多条按顺序存储的第二子指纹,选择连续出现至少三次的所述第二子指纹作为候选子指纹。对所述待检测音频进行音频指纹提取获得第二音频指纹包括对所述待检测音频进行提取Philips音频指纹获得所述第二音频指纹。
判断模块14,用于根据所述候选子指纹在所述数据库中检索,判断所述候选子指纹是否存在于所述数据库中;若是,则计算与所述候选子指纹对应的所述第二音频指纹与所述第一音频指纹的差异度系数,根据所述差异度系数与预设阈值的关系判断所述待检测音频与所述模板音频的关系。
第一音频指纹提取模块12与第二音频指纹提取模块13中,所述音频指纹提取包括:
对音频加汉明窗做分帧处理,得到多个单帧音频片段;
对每个所述的单帧音频片段进行快速傅里叶变换,获取音频频谱信号;
将每个所述的音频频谱信号中300-2000HZ的频段划分为至少M+1个不重叠的子频段,并针对M+1个所述的子频段分别计算能量值,计算公式如下:
其中,E(n,m)表示第n帧音频频谱信号在第m个子频段的能量,|Xn(i)|表示第n帧音频频谱信号,f(m)~f(m+1)表示子频段m的范围,M为整数且14 ≤M≤32;
计算当前帧相邻两个子频段的能量差并和前一帧相同位置的两个子频段的能量差进行比较,获取包含M位比特的音频指纹,其中获取音频指纹的具体计算公式如下:
其中,F(n,m)表示第n帧音频指纹的第m个比特。
可选的,第一音频指纹提取模块12还用于实现:
在所述数据库中创建模板音频指纹表和子指纹表;
将所述第一音频指纹存储到所述模板音频指纹表中;
将所述第一音频指纹中包含的每一条所述子指纹及每一条所述子指纹在所述第一音频指纹中对应的位置存储到所述子指纹表中。
可选的,第一音频指纹提取模块12还用于实现:
判断所述子指纹是否存在于所述子指纹表中;若不存在,在所述子指纹表中存储所述子指纹、所述子指纹在所述第一音频指纹中的位置信息及所述子指纹对应的所述模板音频的名称信息;反之,存储所述子指纹在所述第一音频指纹中的位置信息以及所述子指纹对应的所述模板音频的名称信息。
可选的,判断模块14用于实现:根据所述候选子指纹在所述子指纹表中检索,判断所述候选子指纹是否存在于所述子指纹表中。获取所述子指纹表中所述候选子指纹对应的所述模板音频的名称信息及所述子指纹在所述第一音频指纹中的位置信息,根据所述候选子指纹对应的所述模板音频的名称信息在所述模板音频指纹表中读取所述第一音频指纹,根据所述候选子指纹的位置将所述第一音频指纹与所述第二音频指纹的位置对齐后计算差异度系数。
其中,所述差异度系数的计算公式如下:
其中,BER表示比特出错比值,N表示所述第一音频指纹中子指纹的个数;M表示每条所述子指纹的比特位数,M为整数且M∈[14,32];S表示所述第一音频指纹与所述第二音频指纹之间的汉明距离。
将所述差异度系数与预设阈值比较,若所述差异度系数小于等于所述预设阈值,则所述待检测音频与所述模板音频匹配;反之,不匹配。
本发明实施例所述的广播音频中广告检索的方法和装置,提出一种新的机制选取候选子指纹;同时简化了现有技术中Philips指纹提取算法,增加相邻帧之间的时间间隔,并减少候选子指纹位数,缩短了指纹提取时间;该方法选取机制简单易量化,算法复杂度低,并且减少了检索次数,缩短了检索时间,在广播广告监测的应用中取得了良好的检索效果。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源 /接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种广播音频中广告检索的方法,其特征在于,包括:
获取待检测音频和模板音频,将所述待检测音频和所述模板音频转化为相同格式;
对所述模板音频进行音频指纹提取获得第一音频指纹,将所述第一音频指纹存储到数据库中;所述第一音频指纹包括多条按顺序存储的第一子指纹;
对所述待检测音频进行音频指纹提取获得第二音频指纹,所述第二音频指纹包括多条按顺序存储的第二子指纹,选择连续出现至少三次的所述第二子指纹作为候选子指纹;
根据所述候选子指纹在所述数据库中检索,判断所述候选子指纹是否存在于所述数据库中;若是,则计算与所述候选子指纹对应的所述第二音频指纹与所述第一音频指纹的差异度系数,根据所述差异度系数与预设阈值的关系判断所述待检测音频与所述模板音频的关系。
2.根据权利要求1所述的广播音频中广告检索的方法,其特征在于,所述对所述模板音频进行音频指纹提取获得第一音频指纹包括对所述模板音频进行提取Philips音频指纹获得所述第一音频指纹;对所述待检测音频进行音频指纹提取获得第二音频指纹包括对所述待检测音频进行提取Philips音频指纹获得所述第二音频指纹。
3.根据权利要求2所述的广播音频中广告检索的方法,其特征在于,所述音频指纹提取包括:
对音频加汉明窗做分帧处理,得到多个单帧音频片段;
对每个所述的单帧音频片段进行快速傅里叶变换,获取音频频谱信号;
将每个所述的音频频谱信号中300-2000HZ的频段划分为至少M+1个不重叠的子频段,并针对M+1个所述的子频段分别计算能量值,计算公式如下:
其中,E(n,m)表示第n帧音频频谱信号在第m个子频段的能量,|Xn(i)|表示第n帧音频频谱信号,f(m)~f(m+1)表示子频段m的范围,M为整数且14≤M≤32;
计算当前帧相邻两个子频段的能量差并和前一帧相同位置的两个子频段的能量差进行比较,获取包含M位比特的音频指纹,其中获取音频指纹的具体计算公式如下:
其中,F(n,m)表示第n帧音频指纹的第m个比特。
4.根据权利要求1所述的广播音频中广告检索的方法,其特征在于,所述对所述模板音频进行音频指纹提取获得第一音频指纹,将所述第一音频指纹存储到数据库中,包括:
在所述数据库中创建模板音频指纹表和子指纹表;
将所述第一音频指纹存储到所述模板音频指纹表中;
将所述第一音频指纹中包含的每一条所述子指纹及每一条所述子指纹在所述第一音频指纹中对应的位置存储到所述子指纹表中。
5.根据权利要求4所述的广播音频中广告检索的方法,其特征在于,所述将所述第一音频指纹中包含的每一条所述子指纹及每一条所述子指纹在所述第一音频指纹中对应的位置存储到所述子指纹表中,包括:
判断所述子指纹是否存在于所述子指纹表中;若不存在,在所述子指纹表中存储所述子指纹、所述子指纹在所述第一音频指纹中的位置信息及所述子指纹对应的所述模板音频的名称信息;反之,存储所述子指纹在所述第一音频指纹中的位置信息以及所述子指纹对应的所述模板音频的名称信息。
6.根据权利要求5所述的广播音频中广告检索的方法,其特征在于,所述根据所述候选子指纹在所述数据库中检索,判断所述候选子指纹是否存在于所述数据库中包括:根据所述候选子指纹在所述子指纹表中检索,判断所述候选子指纹是否存在于所述子指纹表中。
7.根据权利要求6所述的广播音频中广告检索的方法,其特征在于,所述计算与所述候选子指纹对应的所述第二音频指纹与所述第一音频指纹的差异度系数,包括:
获取所述子指纹表中所述候选子指纹对应的所述模板音频的名称信息及所述子指纹在所述第一音频指纹中的位置信息,根据所述候选子指纹对应的所述模板音频的名称信息在所述模板音频指纹表中读取所述第一音频指纹,根据所述候选子指纹的位置将所述第一音频指纹与所述第二音频指纹的位置对齐后计算差异度系数。
8.根据权利要求7所述的广播音频中广告检索的方法,其特征在于,所述差异度系数的计算公式如下:
其中,BER表示比特出错比值,N表示所述第一音频指纹中子指纹的个数;M表示每条所述子指纹的比特位数,M为整数且M∈[14,32];S表示所述第一音频指纹与所述第二音频指纹之间的汉明距离。
9.根据权利要求8所述的广播音频中广告检索的方法,其特征在于,所述根据所述差异度系数与预设阈值的关系判断所述待检测音频与所述模板音频的关系,包括:
将所述差异度系数与预设阈值比较,若所述差异度系数小于等于所述预设阈值,则所述待检测音频与所述模板音频匹配;反之,不匹配。
10.一种广播音频中广告检索的装置,其特征在于,包括:
格式转化模块,用于获取待检测音频和模板音频,将所述待检测音频和所述模板音频转化为相同格式;
第一音频指纹提取模块,用于对所述模板音频进行音频指纹提取获得第一音频指纹,将所述第一音频指纹存储到数据库中;所述第一音频指纹包括多条按顺序存储的第一子指纹;
第二音频指纹提取模块,用于对所述待检测音频进行音频指纹提取获得第二音频指纹,所述第二音频指纹包括多条按顺序存储的第二子指纹,选择连续出现至少三次的所述第二子指纹作为候选子指纹;
判断模块,用于根据所述候选子指纹在所述数据库中检索,判断所述候选子指纹是否存在于所述数据库中;若是,则计算与所述候选子指纹对应的所述第二音频指纹与所述第一音频指纹的差异度系数,根据所述差异度系数与预设阈值的关系判断所述待检测音频与所述模板音频的关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810724513.5A CN109558509B (zh) | 2018-07-04 | 2018-07-04 | 一种广播音频中广告检索的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810724513.5A CN109558509B (zh) | 2018-07-04 | 2018-07-04 | 一种广播音频中广告检索的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109558509A true CN109558509A (zh) | 2019-04-02 |
CN109558509B CN109558509B (zh) | 2021-10-15 |
Family
ID=65864546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810724513.5A Active CN109558509B (zh) | 2018-07-04 | 2018-07-04 | 一种广播音频中广告检索的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109558509B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380382A (zh) * | 2020-11-23 | 2021-02-19 | 北京达佳互联信息技术有限公司 | 一种音频分类方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799605A (zh) * | 2012-05-02 | 2012-11-28 | 天脉聚源(北京)传媒科技有限公司 | 一种广告监播方法和系统 |
CN103294696A (zh) * | 2012-02-27 | 2013-09-11 | 盛乐信息技术(上海)有限公司 | 音视频内容检索方法及系统 |
CN105868397A (zh) * | 2016-04-19 | 2016-08-17 | 腾讯科技(深圳)有限公司 | 一种歌曲确定方法和装置 |
WO2017222569A1 (en) * | 2016-06-22 | 2017-12-28 | Gracenote, Inc. | Matching audio fingerprints |
-
2018
- 2018-07-04 CN CN201810724513.5A patent/CN109558509B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294696A (zh) * | 2012-02-27 | 2013-09-11 | 盛乐信息技术(上海)有限公司 | 音视频内容检索方法及系统 |
CN102799605A (zh) * | 2012-05-02 | 2012-11-28 | 天脉聚源(北京)传媒科技有限公司 | 一种广告监播方法和系统 |
CN105868397A (zh) * | 2016-04-19 | 2016-08-17 | 腾讯科技(深圳)有限公司 | 一种歌曲确定方法和装置 |
WO2017222569A1 (en) * | 2016-06-22 | 2017-12-28 | Gracenote, Inc. | Matching audio fingerprints |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380382A (zh) * | 2020-11-23 | 2021-02-19 | 北京达佳互联信息技术有限公司 | 一种音频分类方法、装置及存储介质 |
CN112380382B (zh) * | 2020-11-23 | 2024-03-12 | 北京达佳互联信息技术有限公司 | 一种音频分类方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109558509B (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100776495B1 (ko) | 오디오 데이터베이스에서의 검색 방법 | |
CN1121681C (zh) | 语言处理 | |
US20120150890A1 (en) | Method of searching for multimedia contents and apparatus therefor | |
US11024288B2 (en) | Methods and apparatus to segment audio and determine audio segment similarities | |
TWI480855B (zh) | 聲音訊號之特徵指紋擷取與匹配 | |
EP2791935B1 (en) | Low complexity repetition detection in media data | |
CN102959624B (zh) | 用于音频媒体识别的系统和方法 | |
CN103531205A (zh) | 基于深层神经网络特征映射的非对称语音转换方法 | |
CN101663708A (zh) | 用于按照索引信息搜索音频指纹的系统和方法 | |
KR20170140188A (ko) | 오디오 컨텐츠 인식 방법 및 장치 | |
CN111640411B (zh) | 音频合成方法、装置及计算机可读存储介质 | |
CN102789779A (zh) | 一种语音识别系统及其识别方法 | |
CN110472097A (zh) | 乐曲自动分类方法、装置、计算机设备和存储介质 | |
CN105975568A (zh) | 一种音频处理方法及装置 | |
CN107293306A (zh) | 一种基于输出的客观语音质量的评估方法 | |
CN106098081B (zh) | 声音文件的音质识别方法及装置 | |
US20130266147A1 (en) | System and method for identification of highly-variable vocalizations | |
US10522160B2 (en) | Methods and apparatus to identify a source of speech captured at a wearable electronic device | |
US20020128835A1 (en) | Voice recognition system and standard pattern preparation system as well as voice recognition method and standard pattern preparation method | |
CN109558509A (zh) | 一种广播音频中广告检索的方法和装置 | |
CN105721090B (zh) | 一种非法调频广播电台的检测和识别方法 | |
CN102214219B (zh) | 音视频内容检索系统及其方法 | |
Cheng et al. | METRIC-SEQDAC: A hybrid approach for audio segmentation | |
CN111382303B (zh) | 一种基于指纹权重的音频样例检索方法 | |
CN103294696A (zh) | 音视频内容检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |