CN109712642A - 一种精准快速的广告播出监测方法 - Google Patents
一种精准快速的广告播出监测方法 Download PDFInfo
- Publication number
- CN109712642A CN109712642A CN201811504368.6A CN201811504368A CN109712642A CN 109712642 A CN109712642 A CN 109712642A CN 201811504368 A CN201811504368 A CN 201811504368A CN 109712642 A CN109712642 A CN 109712642A
- Authority
- CN
- China
- Prior art keywords
- advertisement
- frame
- head
- tail
- slow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Signal Processing For Digital Recording And Reproducing (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明属于数字音频处理技术领域,提供一种精准快速的广告播出监测方法,可应用于广播电台的广告监播;本发明执行广告头位置检测和尾位置检测两个步骤,在头位置检测中,采用低复杂度的,对误差不敏感的直线拟合方法,结合音频指纹和梅尔频率倒谱系数两种特征,实现头位置的快速定位,在尾位置检测中,采用帧特征比对和长短两次动态时间规整方法分别对广告和慢录音频的对齐和非对齐情况进行处理,并在此期间对检测到的头位置进行进一步精确定位,最后通过清理合并检测项,实现了对跨越相邻两慢录块的广告的正确检测;本发明处理快速精确,并对时间伸缩具有鲁棒性,能够广泛应用于广播电台的广告监测和管理中。
Description
技术领域
本发明属于数字音频处理技术领域,涉及音频特征匹配方法,具体提供一种精准快速的广告播出监测方法,可应用于广播电台的广告监播。
背景技术
当前,音频广播已成为最为普及的大众宣传和娱乐媒体,众多商家也借助这个平台,在广播中播放相应产品的广告。在电台广告业务中,电台和商家都非常关注每一条要求播出的广告是否准点播出。不仅如此,广告播出的完整性,也是一个重要的指标。对此,广播电台自身通常需要对广告进行监播,监测每日播出的每条广告播放的开始时间和结束时间,并判定广告是否正常完整的播出。在当前自动化广播系统中,这个广告监播工作可由计算机软件来完成。
广告监播软件的一种实现思路是将广告库中的每一条广告逐一地在已播出的音频记录(慢录)文件中检索,确定是否播出,若播出再确定播出的开始和结束位置及判定播出是否完整。要在慢录中检测广告,一种常规的做法是用相同算法提取慢录和待检测广告的音频特征(或指纹),然后从慢录起点开始取出和广告长度相同的片段,并将其与广告进行特征比对,比对不成功则将起始点向后移动一帧,取出下一个片段重新比对,直至慢录文件结尾。这种方法的一个最大问题是比对次数过多,造成检测时间过长;另外,该方法假设广告和慢录音频片段是对齐的,但若两个相同音频的其中一个在时间尺度上有一定程度的伸缩,哪怕伸缩量非常微小,比对也将失败;另一种做法是应用快速音乐检索中的音频指纹技术来检索慢录中的广告,虽然这类方法可以解决检测速度的问题,但现有技术很难对广告的实际播出位置进行准确的检测,尤其是在广告未完整播出时,该类技术无法准确给出广告播出的真实结束位置。另一方面,电台通常需要统计一天的广告播出情况,在这种情况下,慢录文件就有24小时的时长,若直接整体处理,音频指纹中的时间偏移量将超出数据表示范围而导致算法失败,因此需要对慢录数据进行分块处理,但这样带来的新问题是当广告跨越相邻两块时,容易产生漏检或多检的错误。
总之,当前广告监播软件还没有很好地同时解决检测速度、检测播出位置(开始和结束时间)的准确性以及分块处理中对跨慢录块的广告的漏检或多检问题。
发明内容
本发明的目的在于针对背景技术存在的问题,采用新的检索方法,提供一种高性能的音频播出监测方法。为实现该目的,本发明采用的技术方案如下:
一种精准快速的广告播出监测方法,包括特征提取和广告检测两个阶段,包括以下步骤:
特征提取阶段:
S1.构建慢录指纹哈希表:设置慢录指纹哈希表的初始状态为空,将用于监播的慢录音频分割为时长为SecPerBlk(单位为秒)的块,并从1开始,按时间先后顺序对分割后的块进行编号,设SegID表示块编号,则对第一个慢录块SegID=1,第二个慢录块SegID=2,以此类推,对最后一个慢录块SegID=NB,其中NB为慢录块的总数目,对每一个慢录块,作如下处理:
S11.音频数据转化:将原始慢录音频转化为采样率为8KHz的单声道音频;
S12.提取Shazam指纹:对单声道音频分帧后进行傅里叶变换,寻找傅里叶频谱的峰值点,将一对峰值点的信息形成一个形式为(f1 L,ΔfL,ΔtL)的指纹单元,其中,f1 L为该峰值点对的第一个峰值点的频率,ΔfL为第一个与第二峰值点的频率差,ΔtL为第一个与第二峰值点所对应的帧数差;
S13.计算哈希表项:对每一个指纹单元(f1 L,ΔfL,ΔtL),计算哈希键hash_key_L和哈希值hash_value_L:
hash_key_L=f1 L×4096+ΔfL×64+ΔtL
其中,SegID为当前慢录音频块的编号,为第一个峰值点所对应的帧编号,对应于该峰值点相对于当前慢录音频块开始位置的时长;
S14.对每一个指纹,将内容为hash_value_L的表项添加到存储位置hash_key_L所对应的链表中;
S2.提取慢录帧特征:设置初始为空的慢录帧特征,对每一个慢录块,作如下处理:
S21.音频数据转化:将原始慢录音频转化为采样率为4KHz的单声道音频;将转换后的数据按固定长度H划分为各音频帧,相邻帧间有重叠,重叠长度为1/2帧;
S22.生成梅尔频率倒谱系数(MFCC)特征:对每一个音频帧提取13维的MFCC数据;
S23.将慢录音频的总帧数作为第一个数据元素加入到慢录帧特征中;
S24.将各音频帧的MFCC数据作为一个数据元素依次加入到慢录帧特征中;
S3.构建广告指纹集:设置初始为空的广告指纹集,对待检测的广告音频作如下处理:
S31.音频数据转化:将原始广告音频转化为采样率为8KHz的单声道音频;
S32.提取Shazam指纹:按照步骤S12,得到广告指纹的每个特征单元(f1 A,ΔfA,ΔtA)和其中,f1 A为对应峰值点对的第一个峰值点的频率,ΔfA为第一个与第二峰值点的频率差,ΔtA为第一个与第二峰值点所对应的帧数差,为第一个峰值点所对应的帧编号,对应于该峰值点相对于当前广告文件开始位置的时长;
S33.计算广告指纹元素:对每一个特征单元(f1 A,ΔfA,ΔtA),计算哈希键hash_key_A
hash_key_A=f1 A×4096+ΔfA×64+ΔtA
S34.指纹二元组去重:对得到的所有指纹二元组项若存在两项二元组的值完全相同,则去掉其中一项,即仅保留值不同的指纹二元组项;
S35.将去重后的所有广告指纹二元组加入到广告指纹集中;
S4.提取广告帧特征:设置初始为空的广告帧特征,对待检测的广告音频作如下处理:
S41.音频数据转化:将原始广告音频转化为采样率为4KHz的单声道音频;将转换后的数据按固定长度H划分为各音频帧,相邻帧间有重叠,重叠长度为1/2帧;
S42.生成梅尔频率倒谱系数(MFCC)特征:按照步骤S22,对每一个音频帧提取13维MFCC数据;
S43.将广告音频的总帧数作为第一个数据元素加入到广告帧特征中;
S44.将各音频帧的MFCC数据作为一个数据元素依次加入到广告帧特征中;
广告检测阶段:
S1.加载特征提取阶段生成的慢录指纹哈希表、慢录帧特征、广告指纹集和广告帧特征,设Flog和Fad分别表示从慢录帧特征和广告帧特征中读到的慢录和广告的音频总帧数,初始设置NB个空的“帧编号对”集合Qi、i=1,2,...NB,其集合元素的形式设定为(广告帧编号-慢录帧编号)二元组;
S2.寻找匹配指纹对:对广告指纹集中的每一个二元组项作:
S21.在慢录指纹哈希表中,找到位置hash_key_A所对应的链表;
S22.对链表的每一项作:
S221.取出当前链表项的hash_value_L,计算其对应慢录块编号SegID’和第一个峰值点所对应的帧编号
其中,为向下取整运算;
S222.将帧编号对添加到第SegID'个帧编号对集合QSegID'中;
S3.寻找拟合直线:
S31.初始设置直线计数器Nl=0,i=1,编号数组A和截距数组B均为空;
S32.设置初始为空的点集合P,将Qi中的每个“帧编号对”元素视为平面上的一个点(x,y)加入到P中,其中和分别对应于横坐标x和纵坐标y,将P中的所有点标记为“新”点;
S33.若P中包含的点个数小于设定的点数阈值TW(8≤TW≤12),则转到步骤S38,否则,从P中任选两个点组成一点对,设P中共有J个点对,设置点对编号j的初值为1;
S34.取第j个点对,若该点对的两点均为“新”点,则计算这两点所确定的直线l的斜率k,否则转到步骤S37;
S35.若k-1的绝对值大于设定的斜率偏差阈值Tk(0.1≤Tk≤0.2),则转到步骤S37,否则,统计P中与l的距离不大于的点的个数W;
S36.若W小于TW,则转到步骤S37,否则,令Nl=Nl+1,令编号数组A第Nl个元素A[Nl]=i,截距数组B第Nl个元素B[Nl]=b,其中b为直线l在纵坐标轴上的截距,再将P中与l的距离小于的所有点标记为“旧”点;
S37.更新j=j+1,并进行判断,若j≤J,则转到步骤S34,否则转到步骤S38;
S38.更新i=i+1,并进行判断,若i≤NB,则转到步骤S32,否则转到步骤S39;
S39.若Nl=0,则结束检测,输出广告未播出,否则执行步骤S4;
S4.确定广告头位置:定义长度为Nl的广告头的时间位置数组Head_s(单位为秒)和帧位置数组Head_f(单位为帧),对满足1≤m≤Nl的每一个m作:
S41.计算头的时间位置:
Head_s[m]=(A[m]-1)×SecPerBlk+B[m]×SecPerframe
其中,SecPerframe为提取慢录音频指纹时,一个音频帧的时长(单位为秒);
S42.计算头的帧位置:
Head_f[m]=Head_s[m]×U
其中,U为提取慢录帧特征时,1秒钟对应的帧数;
S43.精确帧位置:定义一个长度为U帧的滑动窗,滑动窗在慢录帧特征的[Head_f[m]-U,Head_f[m]+U]区间内逐帧向后滑动,每次滑动,取滑动窗内的慢录帧特征片段和广告帧特征的前U帧片段,计算两个特征片段的所有对应帧数据的欧式距离、并求和,当滑动到最后位置时,找到所有帧距离和的最小者,记为并将Head_f[m]更新为所对应的慢录特征片段起始点的帧编号;
S44.标记时间伸缩性:定义长度为Nl的时间伸缩性标记数组scale,设置scale的所有元素初值均为1,若小于设定的帧距离阈值Td(0.2≤Td≤0.5),则令scale[m]=0;
S45.更新头时间位置:
Head_s[m]=Head_f[m]/U;
S5.广告尾比对:定义长度为Nl的广告尾的时间位置数组Tail_s(单位为秒)和帧位置数组Tail_f(单位为帧),设plog和pad分别表示慢录和广告的比对点位置,作如下操作:
S51.设置Tail_f的所有元素初值均为0,循环变量m的初值为1;
S52.确定初始比对位置:若Head_f[m]+Fad≤Flog,则令plog=Head_f[m]+Fad且pad=Fad,否则令plog=Flog且pad=Flog-Head_f[m];
S53.将广告的初始比对位置保存在变量pad0中,即令pad0=pad;
S54.对慢录帧特征的第plog帧和广告帧特征的第pad帧,计算两帧数据的欧式距离,若该距离小于Td,则令Tail_f[m]=plog,并转到步骤S56,否则转到步骤S55;
S55更新plog=plog-1且pad=pad-1,并进行判断,若pad0-pad≤3×U且pad≥1,则转到步骤S54,否则转到步骤S56;
S56.更新m=m+1,并进行判断,若m≤Nl,则转到步骤S52,否则转到步骤S6;
S6.两次动态时间规整(DTW)匹配:设startlog和startad分别表示待匹配的慢录和广告特征片段的起始点,lenlog和lenad分别表示待匹配的慢录和广告特征片段的帧长度,作如下操作:
S61.设置循环变量m的初值为1;
S62.若Tail_f[m]≠0,则转到步骤S69,否则转到步骤S63;
S63.设置匹配开始点:令startad=1,
S64.若scale[m]=0,转到步骤S67,否则转到步骤S65;
S65.短DTW匹配:令其中,运算min(a,b)为取a和b中的较小者,用动态时间规整算法,对当前设定的慢录和广告特征片段进行匹配;
S66.更新startlog=dtw1+1,其中,dtw1为步骤S65检测出的慢录匹配片段结束点的帧编号;
S67.长DTW匹配:令lenad=Fad-startad+1,用动态时间规整算法,对当前设定的慢录和广告特征片段进行匹配;
S68.更新Tail_f[m]=dtw2,其中,dtw2为步骤S67检测出的慢录匹配片段结束点的帧编号;
S69.更新m=m+1,并进行判断,若m≤Nl,则转到步骤S62,否则转到步骤S7;
S7.清理检测项:
S71.初始设置循环变量v1=1,m=2,作如下迭代操作:
S711.若Head_f[m-1]+Lad>Head_f[m]+U/2,则转到步骤S712,否则令v1=v1+1,且更新Head_s[v1]和Tail_f[v1]:
Head_s[v1]=Head_s[m]
Tail_f[v1]=Tail_f[m]
S712.更新m=m+1,并进行判断,若m≤Nl,则转到步骤S711,否则转到步骤S72;
S72.初始设置循环变量v2=1,m=2,作如下迭代操作:
S721.若B[m]<0且|Tail_f[m]-B[m]-Fad|<U/2,其中,|·|为取绝对值运算,则令Tail_f[m-1]=Tail_f[m-1]-B[m],否则,令v2=v2+1且更新Head_s[v2]和Tail_f[v2]:
Head_s[v2]=Head_s[m]
Tail_f[v2]=Tail_f[m]
S722.更新m=m+1,并进行判断,若m≤v1,则转到步骤S721,否则转到步骤S8;
S8.确定广告尾位置:对满足1≤m≤v2的每一个m计算
Tail_s[m]=Tail_f[m]/U;
S9.输出广告播出信息:对满足1≤m≤v2的每一个m作:
S91.输出检测到广告的第m次播出的开始时间Head_s[m]和结束时间Tail_s[m];
S92.输出检测到广告的第m次播出的完整性:
若|Tail_s[m]-Head_s[m]-Fad/U|≤0.5,则输出广告播出完整,否则输出广告播出不完整。
本发明的有益效果在于:
本发明提供一种精准快速的广告播出监测方法,该方法执行广告头位置检测和尾位置检测两个步骤,在头位置检测中,采用低复杂度的,对误差不敏感的直线拟合方法,结合音频指纹和梅尔频率倒谱系数两种特征,实现头位置的快速定位,在尾位置检测中,采用帧特征比对和长短两次动态时间规整方法分别对广告和慢录音频的对齐和非对齐情况进行处理,并在此期间对检测到的头位置进行进一步精确定位,最后通过清理合并检测项,实现了对跨越相邻两慢录块的广告的正确检测。该方法处理快速精确,并对时间伸缩具有鲁棒性,能够广泛应用于广播电台的广告监测和管理中。
附图说明:
图1为本发明实施例方法的流程示意图,其中包含特征提取(左边)和广告检测(右边)两个阶段,广告检测阶段包含了广告头检测和广告尾检测两个步骤。
图2为本发明广告检测阶段的步骤S3(寻找拟合直线)的流程示意图。
图3为本发明在广告检测阶段的步骤S3中,实施例的第87个慢录音频块(即i=87)的点集合P的部分视图;其中,检测到的拟合直线斜率k=1,截距b=7939,该直线对应于广告在当天时段的第1次播出,其开始时间为07:17:40。
图4为本发明在广告检测阶段的步骤S3中,实施例的第108个慢录音频块(即i=108)的点集合P的部分视图;其中,(a)检测到的拟合直线斜率k=1,截距b=916,该直线对应于广告在当天时段的第2次播出,其开始时间为08:59:46;(b)检测到的拟合直线斜率k=1,截距b=1415,该直线对应于广告在当天时段的第3次播出,其开始时间为09:00:03。
具体实施方式
下面结合附图和实施例对本发明做进一步详细说明。
本实施例提供一种精准快速的广告播出监测方法,其流程示意图如图1所示,包括特征提取和广告检测两个阶段;仿真实验使用电台某日的24小时的慢录音频和一个时长为15.85秒的广告音频。
本实施例中广告播出监测方法,具体步骤如下:
特征提取阶段:
S1.构建慢录指纹哈希表:设置慢录指纹哈希表的初始状态为空,将用于监播的慢录音频为一天24小时的音频,将其分割为时长为SecPerBlk=302.4秒的块,则慢录块的总数目NB=286,从1开始,按时间先后顺序对分割后的块进行编号,设SegID表示块编号,则对第一个慢录块SegID=1,第二个慢录块SegID=2,以此类推,对最后一个慢录块SegID=286,对每一个慢录块,作如下处理:
S11.音频数据转化:将原始慢录音频转化为采样率为8KHz的单声道音频;
S12.提取Shazam指纹:对单声道音频分帧后进行傅里叶变换,寻找傅里叶频谱的峰值点,将一对峰值点的信息形成一个形式为(f1 L,ΔfL,ΔtL)的指纹单元,其中,f1 L为该峰值点对的第一个峰值点的频率,ΔfL为第一个与第二峰值点的频率差,ΔtL为第一个与第二峰值点所对应的帧数差;
S13.计算哈希表项:对每一个指纹单元(f1 L,ΔfL,ΔtL),计算哈希键hash_key_L和哈希值hash_value_L:
hash_key_L=f1 L×4096+ΔfL×64+ΔtL
其中,SegID为当前慢录音频块的编号,为第一个峰值点所对应的帧编号,对应于该峰值点相对于当前慢录音频块开始位置的时长;
S14.对每一个指纹,将内容为hash_value_L的表项添加到存储位置hash_key_L所对应的链表中;
S2.提取慢录帧特征:设置初始为空的慢录帧特征,对每一个慢录块,作如下处理:
S21.音频数据转化:将原始慢录音频转化为采样率为4KHz的单声道音频;将转换后的数据按固定长度H=96个采样点划分为各音频帧,相邻帧间有重叠,重叠长度为1/2帧;
S22.生成梅尔频率倒谱系数(MFCC)特征:对每一个音频帧提取13维的MFCC数据;
S23.测试的慢录音频的总帧数为7200000帧,故将7200000作为第一个数据元素加入到慢录帧特征中;
S24.将各音频帧的MFCC数据作为一个数据元素依次加入到慢录帧特征中;
S3.构建广告指纹集:设置初始为空的广告指纹集,对待检测的广告音频作如下处理:
S31.音频数据转化:将原始广告音频转化为采样率为8KHz的单声道音频;
S32.提取Shazam指纹:按照步骤S12,得到广告指纹的每个特征单元(f1 A,ΔfA,ΔtA)和其中,f1 A为对应峰值点对的第一个峰值点的频率,ΔfA为第一个与第二峰值点的频率差,ΔtA为第一个与第二峰值点所对应的帧数差,为第一个峰值点所对应的帧编号,对应于该峰值点相对于当前广告文件开始位置的时长;
S33.计算广告指纹元素:对每一个特征单元(f1 A,ΔfA,ΔtA),计算哈希键hash_key_A
hash_key_A=f1 A×4096+ΔfA×64+ΔtA
本实施中,广告的第一个特征单元为(18,6,4),故对应的hash_key_A=74116;
S34.指纹二元组去重:对得到的所有指纹二元组项若存在两项二元组的值完全相同,则去掉其中一项,即仅保留值不同的指纹二元组项;
S35.将去重后的所有广告指纹二元组加入到广告指纹集中;
本实施中,提取的原始指纹项有1282,去掉重复后,得到1068,将这1068个指纹二元组加入到广告指纹集中,其中第一个特征单元(hash_key_A=74116)对应的故第一个指纹二元组项为(74116,3);
S4.提取广告帧特征:设置初始为空的广告帧特征,对待检测的广告音频作如下处理:
S41.音频数据转化:将原始广告音频转化为采样率为4KHz的单声道音频;将转换后的数据按固定长度H=96划分为各音频帧,相邻帧间有重叠,重叠长度为1/2帧;
S42.生成梅尔频率倒谱系数(MFCC)特征:按照步骤S22,对每一个音频帧提取13维MFCC数据;
S43.测试的广告音频的总帧数为1321帧,故将1321作为第一个数据元素加入到广告帧特征中;
S44.将各音频帧的MFCC数据作为一个数据元素依次加入到广告帧特征中;
广告检测阶段:
S1.加载特征提取阶段生成的慢录指纹哈希表、慢录帧特征、广告指纹集和广告帧特征,设Flog和Fad分别表示从慢录帧特征和广告帧特征中读到的慢录和广告的音频总帧数,有Flog=7200000,Fad=1321,初始设置NB=286个空的“帧编号对”集合Qi、i=1,2,...286,其集合元素的形式设定为(广告帧编号-慢录帧编号)二元组;
S2.寻找匹配指纹对:对广告指纹集中的每一个二元组项作:
S21.在慢录指纹哈希表中,找到位置hash_key_A所对应的链表;
S22.对链表的每一项作:
S221.取出当前链表项的hash_value_L,计算其对应慢录块编号SegID’和第一个峰值点所对应的帧编号
其中,为向下取整运算;
S222.将帧编号对添加到第SegID'个帧编号对集合QSegID'中;
对第一个指纹二元组项(74116,3),在慢录指纹哈希表中,找到位置74116所对应的链表,共有28个链表项,其中第一项的hash_value_L=892878,故计算
故将帧编号对(3,8142)添加到第54个帧编号对集合Q54中;
S3.寻找拟合直线:
该步骤的算法流程如图2所示。
S31.初始设置直线计数器Nl=0,i=1,编号数组A和截距数组B均为空;
S32.设置初始为空的点集合P,Q1中共有27个“帧编号对”元素将其每个元素视为平面上的一个点(x,y)加入到P中,其中和分别对应于横坐标x和纵坐标y,对将P中的27个点均标记为“新”点;
S33.设置TW=8,因为27>TW,故从P中任选两个点组成一点对,P中共有J=351个点对,设置点对编号j的初值为1;
S34.取第1个点对,(10,11)与(16,3124),该点对的两点均为“新”点,则计算这两点所确定的直线l的斜率k=518.8;
S35.设定斜率偏差阈值Tk=0.1,因k-1的绝对值大于Tk,则转到步骤S37;之后j逐渐递增,直到j=327,找到点对(87,2006)与(102,2020),形成的直线l的斜率k=0.9333,因k-1的绝对值小于Tk,则统计P中与l的距离不大于的点的个数W=2;
S36.因W小于TW=8,则转到步骤S37;之后j和i都逐渐递增,直到当i=87,在Q87中找到直线斜率k=1的直线(如图3所示),此时P中与l的距离不大于的点的个数W=38,更新Nl=0+1=1,令编号数组A第1个元素A[1]=87,因直线l在纵坐标轴上的截距b为7939,则截距数组B第1个元素B[1]=7939,再将P中与l的距离小于的所有点标记为“旧”点;
S37.更新j=j+1,并进行判断,若j≤J,则转到步骤S34,否则转到步骤S38;
S38.更新i=i+1,并进行判断,若i≤NB=286,则转到步骤S32,否则转到步骤S39;
S39.若Nl=0,则结束检测,输出广告未播出,否则执行步骤S4;
程序到此,Nl=25,即找到了25条拟合直线,则执行步骤S4;
S4.确定广告头位置:定义长度为25的广告头的时间位置数组Head_s(单位为秒)和帧位置数组Head_f(单位为帧),对满足1≤m≤25的每一个m作:
S41.计算头的时间位置:
Head_s[m]=(A[m]-1)×SecPerBlk+B[m]×SecPerframe
其中,慢录块的时长SecPerBlk为302.4秒,在提取慢录音频指纹时,一个音频帧的时长SecPerframe为0.032秒,则当m=1时,第一个检测到的头时间位置为
Head_s[1]=(87-1)*302.4+7939*0.032=26226.048秒;
S42.计算头的帧位置:
Head_f[m]=Head_s[m]×U
在提取慢录帧特征时,1秒钟对应的帧数U为83.333帧,则Head_f[1]=2188371;
S43.精确帧位置:定义一个长度为U帧的滑动窗,滑动窗在慢录帧特征的[Head_f[m]-U,Head_f[m]+U]区间内逐帧向后滑动,每次滑动,取滑动窗内的慢录帧特征片段和广告帧特征的前U帧片段,计算两个特征片段的所有对应帧数据的欧式距离、并求和,当滑动到最后位置时,找到所有帧距离和的最小者,记为并将Head_f[m]更新为所对应的慢录特征片段起始点的帧编号;当m=1时,Head_f[1]被更新为所对应的慢录特征片段起始点的帧编号2188370;
S44.标记时间伸缩性:定义长度为25的时间伸缩性标记数组scale,设置scale的所有元素初值均为1,若小于设定的帧距离阈值Td=0.35,则令scale[m]=0;当m=1时,因则令scale[1]=0;
S45.更新头时间位置:
Head_s[m]=Head_f[m]/U;
当m=1时,Head_s[1]=2188370/83.333=26260.545;
S5.广告尾比对:定义长度为25的广告尾的时间位置数组Tail_s(单位为秒)和帧位置数组Tail_f(单位为帧),设plog和pad分别表示慢录和广告的比对点位置,作如下操作:
S51.设置Tail_f的所有元素初值均为0,循环变量m的初值为1;
S52.确定初始比对位置:若Head_f[m]+Fad≤Flog,则令plog=Head_f[m]+Fad且pad=Fad,否则令plog=Flog且pad=Flog-Head_f[m];
当m=1时,因Head_f[1]+Fad≤Flog,则令plog=2188370+1321=2189691,pad=1321;
S53.将广告的初始比对位置保存在变量pad0中,即令pad0=pad;
S54.对慢录帧特征的第plog帧和广告帧特征的第pad帧,计算两帧数据的欧式距离,若该距离小于Td,则令Tail_f[m]=plog,并转到步骤S56,否则转到步骤S55;
当m=1时,初始两帧距离为0.035,因其值小于Td,则令Tail_f[1]=2189691,并转到步骤S56;
S55更新plog=plog-1且pad=pad-1,并进行判断,若pad0-pad≤3×U且pad≥1,则转到步骤S54,否则转到步骤S56;
S56.更新m=m+1,并进行判断,若m≤Nl,则转到步骤S52,否则转到步骤S6;
S6.两次动态时间规整(DTW)匹配:设startlog和startad分别表示待匹配的慢录和广告特征片段的起始点,lenlog和lenad分别表示待匹配的慢录和广告特征片段的帧长度,作如下操作:
S61.设置循环变量m的初值为1;
S62.若Tail_f[m]≠0,则转到步骤S69,否则转到步骤S63;
当m=1时,因Tail_f[1]=2189691≠0,故转到步骤S69;当m=2时,因Tail_f[2]=0,故转到步骤S63;
S63.设置匹配开始点:令startad=1,
当m=2时,
S64.若scale[m]=0,转到步骤S67,否则转到步骤S65;
当m=2时,因scale[2]=0,转到步骤S67;
S65.短DTW匹配:令其中,运算min(a,b)为取a和b中的较小者,用动态时间规整算法,对当前设定的慢录和广告特征片段进行匹配;
S66.更新startlog=dtw1+1,其中,dtw1为步骤S65检测出的慢录匹配片段结束点的帧编号;
S67.长DTW匹配:令lenad=Fad-startad+1,用动态时间规整算法,对当前设定的慢录和广告特征片段进行匹配;
当m=2时,有lenad=Fad-startad+1=1321,
S68.更新Tail_f[m]=dtw2,其中,dtw2为步骤S67检测出的慢录匹配片段结束点的帧编号;
当m=2时,得到dtw2=2700158,则更新Tail_f[2]=dtw2=2700158;
S69.更新m=m+1,并进行判断,若m≤Nl,则转到步骤S62,否则转到步骤S7;
S7.清理检测项:
S71.初始设置循环变量v1=1,m=2,作如下迭代操作:
S711.若Head_f[m-1]+Lad>Head_f[m]+U/2,则转到步骤S712,否则令v1=v1+1,且更新Head_s[v1]和Tail_f[v1]:
Head_s[v1]=Head_s[m]
Tail_f[v1]=Tail_f[m]
S712.更新m=m+1,并进行判断,若m≤Nl,则转到步骤S711,否则转到步骤S72;
在此步骤中,m从2变到25,步骤S711的条件均未满足,最终迭代结束,v1=25;对第一个检测位置有:Head_s[1]=26260.545,Tail_f[1]=2189691;
S72.初始设置循环变量v2=1,m=2,作如下迭代操作:
S721.若B[m]<0且|Tail_f[m]-B[m]-Fad|<U/2,其中,|·|为取绝对值运算,则令Tail_f[m-1]=Tail_f[m-1]-B[m],否则,令v2=v2+1且更新Head_s[v2]和Tail_f[v2]:
Head_s[v2]=Head_s[m]
Tail_f[v2]=Tail_f[m]
S722.更新m=m+1,并进行判断,若m≤v1,则转到步骤S721,否则转到步骤S8;
在此步骤中,m从2变到25,步骤S721的条件均未满足,最终迭代结束,v2=25;对第一个检测位置有:Head_s[1]=26260.545,Tail_f[1]=2189691;
S8.确定广告尾位置:对满足1≤m≤25的每一个m计算
Tail_s[m]=Tail_f[m]/U;
对第一个检测位置有:Tail_s[1]=Tail_f[1]/U=2189691/83.333=26276.397;
S9.输出广告播出信息:对满足1≤m≤25的每一个m作:
S91.输出检测到广告的第m次播出的开始时间Head_s[m]和结束时间Tail_s[m];
当m=1时,检测出广告第一次播出的开始时间Head_s[1]=26260.545秒(即在当天的07:17:40时刻开始播放),结束时间Tail_s[m]=26276.397秒(即在当天的07:17:56时刻结束播放);
S92.输出检测到广告的第m次播出的完整性:
若|Tail_s[m]-Head_s[m]-Fad/U|≤0.5,则输出广告播出完整,否则输出广告播出不完整。对广告的第一次播出,因|26276.397-26260.440-1321/83.333|=0.105≤0.5,故该次播出完整。
下面分别从检测精度和速度两方面来进行性能评估。
1.检测精度
对测试的广告,本发明方法的检测结果如表1所示。表中“人工定位”表示用人工的方式记录广告的播出时间。可以看到,该广告在全天的25次播出均完整地检测到,且检测出的播出时间与人工标记的时间平均偏差小于1秒。
表1广告检测结果
2.检测速度
本发明方法的程序是由C++编写的,测试机器为Intel(R)i7处理器,主频为2.4GHz,内存为16GB。程序执行时间如表2所示。可见,广告检测是快速的,仅用0.51秒即完成在24小时慢录中的检测。另外,对长慢录音频的特征提取比较耗时,但这个操作只需进行一次,且可以提前完成,慢录特征一旦被提取出来,就可用来检测所有待查广告了。
表2特征提取和广告检测时间(单位:秒)
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (4)
1.一种精准快速的广告播出监测方法,包括特征提取和广告检测两个阶段,包括以下步骤:
特征提取阶段:
S1.构建慢录指纹哈希表:设置初始状态为空的慢录指纹哈希表,将用于监播的慢录音频分割为NB个慢录块,每个慢录块的时长为SecPerBlk,并按时间先后顺序对分割后的块进行编号,设SegID表示块编号;对每一个慢录块,作如下处理:
S11.音频数据转化:将原始慢录音频转化为采样率为8KHz的单声道音频;
S12.提取Shazam指纹:对单声道音频分帧后进行傅里叶变换,寻找傅里叶频谱的峰值点,将一对峰值点的信息形成一个形式为(f1 L,ΔfL,ΔtL)的指纹单元,其中,f1 L为第一个峰值点的频率,ΔfL为第一个与第二峰值点的频率差,ΔtL为第一个与第二峰值点所对应的帧数差;
S13.计算哈希表项:对每一个指纹单元(f1 L,ΔfL,ΔtL),计算哈希键hash_key_L和哈希值hash_value_L:
hash_key_L=f1 L×4096+ΔfL×64+ΔtL
其中,为第一个峰值点所对应的帧编号;
S14.对每一个指纹单元,将内容为hash_value_L的表项添加到存储位置hash_key_L所对应的链表中;
S2.提取慢录帧特征:设置初始为空的慢录帧特征,对每一个慢录块,作如下处理:
S21.音频数据转化:将原始慢录音频转化为采样率为4KHz的单声道音频;将转换后的数据按固定长度H划分为各音频帧,相邻帧间有重叠,重叠长度为1/2帧;
S22.生成梅尔频率倒谱系数(MFCC)特征:对每一个音频帧提取13维的MFCC数据;
S23.将慢录音频的总帧数作为第一个数据元素加入到慢录帧特征中;
S24.将各音频帧的MFCC数据作为一个数据元素依次加入到慢录帧特征中;
S3.构建广告指纹集:设置初始为空的广告指纹集,对待检测的广告音频作如下处理:
S31.音频数据转化:将原始广告音频转化为采样率为8KHz的单声道音频;
S32.提取Shazam指纹:按照步骤S12,得到广告的每个指纹单元(f1 A,ΔfA,ΔtA)和其中,f1 A为第一个峰值点的频率,ΔfA为第一个与第二峰值点的频率差,ΔtA为第一个与第二峰值点所对应的帧数差,为第一个峰值点所对应的帧编号;
S33.计算广告指纹元素:对每一个指纹单元(f1 A,ΔfA,ΔtA),计算哈希键hash_key_A
hash_key_A=f1 A×4096+ΔfA×64+ΔtA
S34.指纹二元组去重:对得到的所有指纹二元组项若存在两项二元组的值完全相同,则去掉其中一项;
S35.将去重后的所有广告指纹二元组加入到广告指纹集中;
S4.提取广告帧特征:设置初始为空的广告帧特征,对待检测的广告音频作如下处理:
S41.音频数据转化:将原始广告音频转化为采样率为4KHz的单声道音频;将转换后的数据按固定长度H划分为各音频帧,相邻帧间有重叠,重叠长度为1/2帧;
S42.生成梅尔频率倒谱系数(MFCC)特征:按照步骤S22,对每一个音频帧提取13维MFCC数据;
S43.将广告音频的总帧数作为第一个数据元素加入到广告帧特征中;
S44.将各音频帧的MFCC数据作为一个数据元素依次加入到广告帧特征中;
广告检测阶段:
S1.加载特征提取阶段生成的慢录指纹哈希表、慢录帧特征、广告指纹集和广告帧特征,设Flog和Fad分别表示从慢录帧特征和广告帧特征中读到的慢录和广告的音频总帧数,初始设置NB个空的“帧编号对”集合Qi、i=1,2,...NB,其集合元素的形式设定为(广告帧编号-慢录帧编号)二元组;
S2.寻找匹配指纹对:对广告指纹集中的每一个二元组项作:
S21.在慢录指纹哈希表中,找到位置hash_key_A所对应的链表;
S22.对链表的每一项作:
S221.取出当前链表项的hash_value_L,计算其对应慢录块编号SegID’和第一个峰值点所对应的帧编号
其中,为向下取整运算;
S222.将帧编号对添加到第SegID'个帧编号对集合QSegID'中;
S3.寻找拟合直线:
S31.初始设置直线计数器Nl=0,i=1,编号数组A和截距数组B均为空;
S32.设置初始为空的点集合P,将Qi中的每个“帧编号对”元素视为平面上的一个点(x,y)加入到P中,其中和分别对应于横坐标x和纵坐标y,将P中的所有点标记为“新”点;
S33.若P中包含的点个数小于设定的点数阈值TW,则转到步骤S38,否则,从P中任选两个点组成一点对,设P中共有J个点对,设置点对编号j的初值为1;
S34.取第j个点对,若该点对的两点均为“新”点,则计算这两点所确定的直线l的斜率k,否则转到步骤S37;
S35.若k-1的绝对值大于设定的斜率偏差阈值Tk,则转到步骤S37,否则,统计P中与直线l的距离不大于的点的个数W;
S36.若W小于TW,则转到步骤S37,否则,令Nl=Nl+1,令编号数组A第Nl个元素A[Nl]=i,截距数组B第Nl个元素B[Nl]=b,其中,b为直线l在纵坐标轴上的截距,再将P中与直线l的距离小于的所有点标记为“旧”点;
S37.更新j=j+1,并进行判断,若j≤J,则转到步骤S34,否则转到步骤S38;
S38.更新i=i+1,并进行判断,若i≤NB,则转到步骤S32,否则转到步骤S39;
S39.若Nl=0,则结束检测,输出广告未播出,否则执行步骤S4;
S4.确定广告头位置:定义长度为Nl的广告头的时间位置数组Head_s(单位为秒)和帧位置数组Head_f(单位为帧),对满足1≤m≤Nl的每一个m作:
S41.计算头的时间位置:
Head_s[m]=(A[m]-1)×SecPerBlk+B[m]×SecPerframe
其中,SecPerframe为提取慢录音频指纹时,一个音频帧的时长;
S42.计算头的帧位置:
Head_f[m]=Head_s[m]×U
其中,U为提取慢录帧特征时,1秒钟对应的帧数;
S43.精确帧位置:定义一个长度为U帧的滑动窗,滑动窗在慢录帧特征的[Head_f[m]-U,Head_f[m]+U]区间内逐帧向后滑动,每次滑动,取滑动窗内的慢录帧特征片段和广告帧特征的前U帧片段,计算两个特征片段的所有对应帧数据的欧式距离、并求和,当滑动到最后位置时,找到所有帧距离和的最小者、记为并将Head_f[m]更新为所对应的慢录特征片段起始点的帧编号;
S44.标记时间伸缩性:定义长度为Nl的时间伸缩性标记数组scale,设置scale的所有元素初值均为1,若小于设定的帧距离阈值Td,则令scale[m]=0;
S45.更新头时间位置:
Head_s[m]=Head_f[m]/U;
S5.广告尾比对:定义长度为Nl的广告尾的时间位置数组Tail_s(单位为秒)和帧位置数组Tail_f(单位为帧),设plog和pad分别表示慢录和广告的比对点位置,作如下操作:
S51.设置Tail_f的所有元素初值均为0,循环变量m的初值为1;
S52.确定初始比对位置:若Head_f[m]+Fad≤Flog,则令plog=Head_f[m]+Fad且pad=Fad,否则令plog=Flog且pad=Flog-Head_f[m];
S53.将广告的初始比对位置保存在变量pad0中,即令pad0=pad;
S54.对慢录帧特征的第plog帧和广告帧特征的第pad帧,计算两帧数据的欧式距离,若该距离小于Td,则令Tail_f[m]=plog,并转到步骤S56,否则转到步骤S55;
S55更新plog=plog-1且pad=pad-1,并进行判断,若pad0-pad≤3×U且pad≥1,则转到步骤S54,否则转到步骤S56;
S56.更新m=m+1,并进行判断,若m≤Nl,则转到步骤S52,否则转到步骤S6;
S6.两次动态时间规整(DTW)匹配:设startlog和startad分别表示待匹配的慢录和广告特征片段的起始点,lenlog和lenad分别表示待匹配的慢录和广告特征片段的帧长度,作如下操作:
S61.设置循环变量m的初值为1;
S62.若Tail_f[m]≠0,则转到步骤S69,否则转到步骤S63;
S63.设置匹配开始点:令startad=1,
S64.若scale[m]=0,转到步骤S67,否则转到步骤S65;
S65.短DTW匹配:令其中,运算min(a,b)为取a和b中的较小者,用动态时间规整算法,对当前设定的慢录和广告特征片段进行匹配;
S66.更新startlog=dtw1+1,其中,dtw1为步骤S65检测出的慢录匹配片段结束点的帧编号;
S67.长DTW匹配:令用动态时间规整算法,对当前设定的慢录和广告特征片段进行匹配;
S68.更新Tail_f[m]=dtw2,其中,dtw2为步骤S67检测出的慢录匹配片段结束点的帧编号;
S69.更新m=m+1,并进行判断,若m≤Nl,则转到步骤S62,否则转到步骤S7;
S7.清理检测项:
S71.初始设置循环变量v1=1,m=2,作如下迭代操作:
S711.若Head_f[m-1]+Lad>Head_f[m]+U/2,则转到步骤S712,否则令v1=v1+1,且更新Head_s[v1]和Tail_f[v1]:
Head_s[v1]=Head_s[m]
Tail_f[v1]=Tail_f[m]
S712.更新m=m+1,并进行判断,若m≤Nl,则转到步骤S711,否则转到步骤S72;
S72.初始设置循环变量v2=1,m=2,作如下迭代操作:
S721.若B[m]<0且|Tail_f[m]-B[m]-Fad|<U/2,其中,|·|为取绝对值运算,则令Tail_f[m-1]=Tail_f[m-1]-B[m],否则,令v2=v2+1且更新Head_s[v2]和Tail_f[v2]:
Head_s[v2]=Head_s[m]
Tail_f[v2]=Tail_f[m]
S722.更新m=m+1,并进行判断,若m≤v1,则转到步骤S721,否则转到步骤S8;
S8.确定广告尾位置:对满足1≤m≤v2的每一个m计算
Tail_s[m]=Tail_f[m]/U;
S9.输出广告播出信息:对满足1≤m≤v2的每一个m作:
S91.输出检测到广告的第m次播出的开始时间Head_s[m]和结束时间Tail_s[m];
S92.输出检测到广告的第m次播出的完整性:
若|Tail_s[m]-Head_s[m]-Fad/U|≤0.5,则输出广告播出完整,否则输出广告播出不完整。
2.按权利要求1所述精准快速的广告播出监测方法,其特征在于,所述点数阈值TW的取值范围为:8≤TW≤12。
3.按权利要求1所述精准快速的广告播出监测方法,其特征在于,所述斜率偏差阈值Tk的取值范围为:0.1≤Tk≤0.2。
4.按权利要求1所述精准快速的广告播出监测方法,其特征在于,所述帧距离阈值Td的取值范围为:0.2≤Td≤0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811504368.6A CN109712642B (zh) | 2018-12-10 | 2018-12-10 | 一种精准快速的广告播出监测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811504368.6A CN109712642B (zh) | 2018-12-10 | 2018-12-10 | 一种精准快速的广告播出监测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109712642A true CN109712642A (zh) | 2019-05-03 |
CN109712642B CN109712642B (zh) | 2020-12-29 |
Family
ID=66255621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811504368.6A Active CN109712642B (zh) | 2018-12-10 | 2018-12-10 | 一种精准快速的广告播出监测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109712642B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110830836A (zh) * | 2019-11-18 | 2020-02-21 | 电子科技大学 | 一种视频广告播出监测方法 |
CN111522906A (zh) * | 2020-04-22 | 2020-08-11 | 电子科技大学 | 一种基于问答模式的金融事件主体抽取方法 |
CN111737515A (zh) * | 2020-07-22 | 2020-10-02 | 深圳市声扬科技有限公司 | 音频指纹提取方法、装置、计算机设备和可读存储介质 |
CN112437340A (zh) * | 2020-11-13 | 2021-03-02 | 广东省广播电视局 | 一种音视频中确定有无变种长广告的方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101158967A (zh) * | 2007-11-16 | 2008-04-09 | 北京交通大学 | 一种基于分层匹配的快速音频广告识别方法 |
CN101221622A (zh) * | 2008-01-30 | 2008-07-16 | 中国科学院计算技术研究所 | 一种广告检测识别方法及系统 |
CN102460470A (zh) * | 2009-06-11 | 2012-05-16 | 杜比实验室特许公司 | 基于指纹的内容识别趋势分析 |
CN104317967A (zh) * | 2014-11-17 | 2015-01-28 | 北京航空航天大学 | 一种基于音频指纹的两层广告音频检索方法 |
CN104992713A (zh) * | 2015-05-14 | 2015-10-21 | 电子科技大学 | 一种快速广播音频比对方法 |
US20170264969A1 (en) * | 2016-03-09 | 2017-09-14 | Silveredge Technologies Pvt. Ltd. | Method and system for supervised and unsupervised detection of television advertisements |
CN107851104A (zh) * | 2015-04-23 | 2018-03-27 | 索伦森媒体有限公司 | 自动内容辨识指纹序列匹配 |
-
2018
- 2018-12-10 CN CN201811504368.6A patent/CN109712642B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101158967A (zh) * | 2007-11-16 | 2008-04-09 | 北京交通大学 | 一种基于分层匹配的快速音频广告识别方法 |
CN101221622A (zh) * | 2008-01-30 | 2008-07-16 | 中国科学院计算技术研究所 | 一种广告检测识别方法及系统 |
CN102460470A (zh) * | 2009-06-11 | 2012-05-16 | 杜比实验室特许公司 | 基于指纹的内容识别趋势分析 |
CN104317967A (zh) * | 2014-11-17 | 2015-01-28 | 北京航空航天大学 | 一种基于音频指纹的两层广告音频检索方法 |
CN107851104A (zh) * | 2015-04-23 | 2018-03-27 | 索伦森媒体有限公司 | 自动内容辨识指纹序列匹配 |
CN104992713A (zh) * | 2015-05-14 | 2015-10-21 | 电子科技大学 | 一种快速广播音频比对方法 |
US20170264969A1 (en) * | 2016-03-09 | 2017-09-14 | Silveredge Technologies Pvt. Ltd. | Method and system for supervised and unsupervised detection of television advertisements |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110830836A (zh) * | 2019-11-18 | 2020-02-21 | 电子科技大学 | 一种视频广告播出监测方法 |
CN110830836B (zh) * | 2019-11-18 | 2020-10-27 | 电子科技大学 | 一种视频广告播出监测方法 |
CN111522906A (zh) * | 2020-04-22 | 2020-08-11 | 电子科技大学 | 一种基于问答模式的金融事件主体抽取方法 |
CN111522906B (zh) * | 2020-04-22 | 2023-03-28 | 电子科技大学 | 一种基于问答模式的金融事件主体抽取方法 |
CN111737515A (zh) * | 2020-07-22 | 2020-10-02 | 深圳市声扬科技有限公司 | 音频指纹提取方法、装置、计算机设备和可读存储介质 |
CN112437340A (zh) * | 2020-11-13 | 2021-03-02 | 广东省广播电视局 | 一种音视频中确定有无变种长广告的方法及系统 |
CN112437340B (zh) * | 2020-11-13 | 2023-02-21 | 广东省广播电视局 | 一种音视频中确定有无变种长广告的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109712642B (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109712642A (zh) | 一种精准快速的广告播出监测方法 | |
CN102799605B (zh) | 一种广告监播方法和系统 | |
CN101821734B (zh) | 时基媒体之间的匹配的检测和分类 | |
US8918316B2 (en) | Content identification system | |
JP5150266B2 (ja) | オーディオ信号において繰り返されるマテリアルの自動識別 | |
CN1998168B (zh) | 用于广播源辨识的方法与装置 | |
CN102959624B (zh) | 用于音频媒体识别的系统和方法 | |
US6990453B2 (en) | System and methods for recognizing sound and music signals in high noise and distortion | |
CN101452696B (zh) | 信号处理装置、信号处理方法和程序 | |
US9756368B2 (en) | Methods and apparatus to identify media using hash keys | |
US20140214190A1 (en) | Method and System for Content Sampling and Identification | |
US20080154401A1 (en) | Method and System For Content Sampling and Identification | |
JP2010530100A (ja) | 複数の検索の組み合わせを使用して、オーディオ/ビデオの指紋検索精度を改善する方法及び装置 | |
US20120114167A1 (en) | Repeat clip identification in video data | |
Casey et al. | Song Intersection by Approximate Nearest Neighbor Search. | |
CN108268530B (zh) | 一种歌词的配乐生成方法和相关装置 | |
CN101159834A (zh) | 一种重复性视频音频节目片段的检测方法和系统 | |
US7647128B2 (en) | Methods, computer-readable media, and data structures for building an authoritative database of digital audio identifier elements and identifying media items | |
CN101221760A (zh) | 一种音频匹配方法及系统 | |
CN108447501A (zh) | 一种云存储环境下基于音频字的盗版视频检测方法与系统 | |
CN102436806A (zh) | 一种基于相似度的音频拷贝检测的方法 | |
CN101980197A (zh) | 一种基于长时结构声纹的多层滤波音频检索方法和装置 | |
US20060242198A1 (en) | Methods, computer-readable media, and data structures for building an authoritative database of digital audio identifier elements and identifying media items | |
CN111339865A (zh) | 一种基于自监督学习的音乐合成视频mv的方法 | |
Shao et al. | Automatically generating summaries for musical video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |