CN109712642A

CN109712642A - 一种精准快速的广告播出监测方法

Info

Publication number: CN109712642A
Application number: CN201811504368.6A
Authority: CN
Inventors: 甘涛; 何艳敏; 罗瑜
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2019-05-03
Anticipated expiration: 2038-12-10
Also published as: CN109712642B

Abstract

本发明属于数字音频处理技术领域，提供一种精准快速的广告播出监测方法，可应用于广播电台的广告监播；本发明执行广告头位置检测和尾位置检测两个步骤，在头位置检测中，采用低复杂度的，对误差不敏感的直线拟合方法，结合音频指纹和梅尔频率倒谱系数两种特征，实现头位置的快速定位，在尾位置检测中，采用帧特征比对和长短两次动态时间规整方法分别对广告和慢录音频的对齐和非对齐情况进行处理，并在此期间对检测到的头位置进行进一步精确定位，最后通过清理合并检测项，实现了对跨越相邻两慢录块的广告的正确检测；本发明处理快速精确，并对时间伸缩具有鲁棒性，能够广泛应用于广播电台的广告监测和管理中。

Description

一种精准快速的广告播出监测方法

技术领域

本发明属于数字音频处理技术领域，涉及音频特征匹配方法，具体提供一种精准快速的广告播出监测方法，可应用于广播电台的广告监播。

背景技术

当前，音频广播已成为最为普及的大众宣传和娱乐媒体，众多商家也借助这个平台，在广播中播放相应产品的广告。在电台广告业务中，电台和商家都非常关注每一条要求播出的广告是否准点播出。不仅如此，广告播出的完整性，也是一个重要的指标。对此，广播电台自身通常需要对广告进行监播，监测每日播出的每条广告播放的开始时间和结束时间，并判定广告是否正常完整的播出。在当前自动化广播系统中，这个广告监播工作可由计算机软件来完成。

广告监播软件的一种实现思路是将广告库中的每一条广告逐一地在已播出的音频记录(慢录)文件中检索，确定是否播出，若播出再确定播出的开始和结束位置及判定播出是否完整。要在慢录中检测广告，一种常规的做法是用相同算法提取慢录和待检测广告的音频特征(或指纹)，然后从慢录起点开始取出和广告长度相同的片段，并将其与广告进行特征比对，比对不成功则将起始点向后移动一帧，取出下一个片段重新比对，直至慢录文件结尾。这种方法的一个最大问题是比对次数过多，造成检测时间过长；另外，该方法假设广告和慢录音频片段是对齐的，但若两个相同音频的其中一个在时间尺度上有一定程度的伸缩，哪怕伸缩量非常微小，比对也将失败；另一种做法是应用快速音乐检索中的音频指纹技术来检索慢录中的广告，虽然这类方法可以解决检测速度的问题，但现有技术很难对广告的实际播出位置进行准确的检测，尤其是在广告未完整播出时，该类技术无法准确给出广告播出的真实结束位置。另一方面，电台通常需要统计一天的广告播出情况，在这种情况下，慢录文件就有24小时的时长，若直接整体处理，音频指纹中的时间偏移量将超出数据表示范围而导致算法失败，因此需要对慢录数据进行分块处理，但这样带来的新问题是当广告跨越相邻两块时，容易产生漏检或多检的错误。

总之，当前广告监播软件还没有很好地同时解决检测速度、检测播出位置(开始和结束时间)的准确性以及分块处理中对跨慢录块的广告的漏检或多检问题。

发明内容

本发明的目的在于针对背景技术存在的问题，采用新的检索方法，提供一种高性能的音频播出监测方法。为实现该目的，本发明采用的技术方案如下：

一种精准快速的广告播出监测方法，包括特征提取和广告检测两个阶段，包括以下步骤：

特征提取阶段：

S1.构建慢录指纹哈希表：设置慢录指纹哈希表的初始状态为空，将用于监播的慢录音频分割为时长为SecPerBlk(单位为秒)的块，并从1开始，按时间先后顺序对分割后的块进行编号，设SegID表示块编号，则对第一个慢录块SegID＝1，第二个慢录块SegID＝2，以此类推，对最后一个慢录块SegID＝N_B，其中N_B为慢录块的总数目，对每一个慢录块，作如下处理：

S11.音频数据转化：将原始慢录音频转化为采样率为8KHz的单声道音频；

S12.提取Shazam指纹：对单声道音频分帧后进行傅里叶变换，寻找傅里叶频谱的峰值点，将一对峰值点的信息形成一个形式为(f₁ ^L,Δf^L,Δt^L)的指纹单元，其中，f₁ ^L为该峰值点对的第一个峰值点的频率，Δf^L为第一个与第二峰值点的频率差，Δt^L为第一个与第二峰值点所对应的帧数差；

S13.计算哈希表项：对每一个指纹单元(f₁ ^L,Δf^L,Δt^L)，计算哈希键hash_key_L和哈希值hash_value_L：

hash_key_L＝f₁ ^L×4096+Δf^L×64+Δt^L

其中，SegID为当前慢录音频块的编号，为第一个峰值点所对应的帧编号，对应于该峰值点相对于当前慢录音频块开始位置的时长；

S14.对每一个指纹，将内容为hash_value_L的表项添加到存储位置hash_key_L所对应的链表中；

S2.提取慢录帧特征：设置初始为空的慢录帧特征，对每一个慢录块，作如下处理：

S21.音频数据转化：将原始慢录音频转化为采样率为4KHz的单声道音频；将转换后的数据按固定长度H划分为各音频帧，相邻帧间有重叠，重叠长度为1/2帧；

S22.生成梅尔频率倒谱系数(MFCC)特征：对每一个音频帧提取13维的MFCC数据；

S23.将慢录音频的总帧数作为第一个数据元素加入到慢录帧特征中；

S24.将各音频帧的MFCC数据作为一个数据元素依次加入到慢录帧特征中；

S3.构建广告指纹集：设置初始为空的广告指纹集，对待检测的广告音频作如下处理：

S31.音频数据转化：将原始广告音频转化为采样率为8KHz的单声道音频；

S32.提取Shazam指纹：按照步骤S12，得到广告指纹的每个特征单元(f₁ ^A,Δf^A,Δt^A)和其中，f₁ ^A为对应峰值点对的第一个峰值点的频率，Δf^A为第一个与第二峰值点的频率差，Δt^A为第一个与第二峰值点所对应的帧数差，为第一个峰值点所对应的帧编号，对应于该峰值点相对于当前广告文件开始位置的时长；

S33.计算广告指纹元素：对每一个特征单元(f₁ ^A,Δf^A,Δt^A)，计算哈希键hash_key_A

hash_key_A＝f₁ ^A×4096+Δf^A×64+Δt^A

S34.指纹二元组去重：对得到的所有指纹二元组项若存在两项二元组的值完全相同，则去掉其中一项，即仅保留值不同的指纹二元组项；

S35.将去重后的所有广告指纹二元组加入到广告指纹集中；

S4.提取广告帧特征：设置初始为空的广告帧特征，对待检测的广告音频作如下处理：

S41.音频数据转化：将原始广告音频转化为采样率为4KHz的单声道音频；将转换后的数据按固定长度H划分为各音频帧，相邻帧间有重叠，重叠长度为1/2帧；

S42.生成梅尔频率倒谱系数(MFCC)特征：按照步骤S22，对每一个音频帧提取13维MFCC数据；

S43.将广告音频的总帧数作为第一个数据元素加入到广告帧特征中；

S44.将各音频帧的MFCC数据作为一个数据元素依次加入到广告帧特征中；

广告检测阶段：

S1.加载特征提取阶段生成的慢录指纹哈希表、慢录帧特征、广告指纹集和广告帧特征，设F_log和F_ad分别表示从慢录帧特征和广告帧特征中读到的慢录和广告的音频总帧数，初始设置N_B个空的“帧编号对”集合Q_i、i＝1,2,...N_B，其集合元素的形式设定为(广告帧编号-慢录帧编号)二元组；

S2.寻找匹配指纹对：对广告指纹集中的每一个二元组项作：

S21.在慢录指纹哈希表中，找到位置hash_key_A所对应的链表；

S22.对链表的每一项作：

S221.取出当前链表项的hash_value_L，计算其对应慢录块编号SegID’和第一个峰值点所对应的帧编号

其中，为向下取整运算；

S222.将帧编号对添加到第SegID'个帧编号对集合Q_SegID'中；

S3.寻找拟合直线：

S31.初始设置直线计数器N_l＝0，i＝1，编号数组A和截距数组B均为空；

S32.设置初始为空的点集合P，将Q_i中的每个“帧编号对”元素视为平面上的一个点(x,y)加入到P中，其中和分别对应于横坐标x和纵坐标y，将P中的所有点标记为“新”点；

S33.若P中包含的点个数小于设定的点数阈值T_W(8≤T_W≤12)，则转到步骤S38，否则，从P中任选两个点组成一点对，设P中共有J个点对，设置点对编号j的初值为1；

S34.取第j个点对，若该点对的两点均为“新”点，则计算这两点所确定的直线l的斜率k，否则转到步骤S37；

S35.若k-1的绝对值大于设定的斜率偏差阈值T_k(0.1≤T_k≤0.2)，则转到步骤S37，否则，统计P中与l的距离不大于的点的个数W；

S36.若W小于T_W，则转到步骤S37，否则，令N_l＝N_l+1，令编号数组A第N_l个元素A[N_l]＝i，截距数组B第N_l个元素B[N_l]＝b，其中b为直线l在纵坐标轴上的截距，再将P中与l的距离小于的所有点标记为“旧”点；

S37.更新j＝j+1,并进行判断，若j≤J，则转到步骤S34，否则转到步骤S38；

S38.更新i＝i+1,并进行判断，若i≤N_B，则转到步骤S32，否则转到步骤S39；

S39.若N_l＝0，则结束检测，输出广告未播出，否则执行步骤S4；

S4.确定广告头位置：定义长度为N_l的广告头的时间位置数组Head_s(单位为秒)和帧位置数组Head_f(单位为帧)，对满足1≤m≤N_l的每一个m作：

S41.计算头的时间位置：

Head_s[m]＝(A[m]-1)×SecPerBlk+B[m]×SecPerframe

其中，SecPerframe为提取慢录音频指纹时，一个音频帧的时长(单位为秒)；

S42.计算头的帧位置：

Head_f[m]＝Head_s[m]×U

其中，U为提取慢录帧特征时，1秒钟对应的帧数；

S43.精确帧位置：定义一个长度为U帧的滑动窗，滑动窗在慢录帧特征的[Head_f[m]-U，Head_f[m]+U]区间内逐帧向后滑动，每次滑动，取滑动窗内的慢录帧特征片段和广告帧特征的前U帧片段，计算两个特征片段的所有对应帧数据的欧式距离、并求和，当滑动到最后位置时，找到所有帧距离和的最小者，记为并将Head_f[m]更新为所对应的慢录特征片段起始点的帧编号；

S44.标记时间伸缩性：定义长度为N_l的时间伸缩性标记数组scale,设置scale的所有元素初值均为1，若小于设定的帧距离阈值T_d(0.2≤T_d≤0.5)，则令scale[m]＝0；

S45.更新头时间位置：

Head_s[m]＝Head_f[m]/U；

S5.广告尾比对：定义长度为N_l的广告尾的时间位置数组Tail_s(单位为秒)和帧位置数组Tail_f(单位为帧),设p_log和p_ad分别表示慢录和广告的比对点位置,作如下操作：

S51.设置Tail_f的所有元素初值均为0，循环变量m的初值为1；

S52.确定初始比对位置：若Head_f[m]+F_ad≤F_log，则令p_log＝Head_f[m]+F_ad且p_ad＝F_ad，否则令p_log＝F_log且p_ad＝F_log-Head_f[m]；

S53.将广告的初始比对位置保存在变量p_ad0中，即令p_ad0＝p_ad；

S54.对慢录帧特征的第p_log帧和广告帧特征的第p_ad帧，计算两帧数据的欧式距离，若该距离小于T_d，则令Tail_f[m]＝p_log，并转到步骤S56，否则转到步骤S55；

S55更新p_log＝p_log-1且p_ad＝p_ad-1，并进行判断，若p_ad0-p_ad≤3×U且p_ad≥1，则转到步骤S54，否则转到步骤S56；

S56.更新m＝m+1，并进行判断，若m≤N_l，则转到步骤S52，否则转到步骤S6；

S6.两次动态时间规整(DTW)匹配：设start_log和start_ad分别表示待匹配的慢录和广告特征片段的起始点，len_log和len_ad分别表示待匹配的慢录和广告特征片段的帧长度，作如下操作：

S61.设置循环变量m的初值为1；

S62.若Tail_f[m]≠0，则转到步骤S69，否则转到步骤S63；

S63.设置匹配开始点：令start_ad＝1，

S64.若scale[m]＝0，转到步骤S67，否则转到步骤S65；

S65.短DTW匹配：令其中，运算min(a,b)为取a和b中的较小者，用动态时间规整算法，对当前设定的慢录和广告特征片段进行匹配；

S66.更新start_log＝dtw₁+1，其中，dtw₁为步骤S65检测出的慢录匹配片段结束点的帧编号；

S67.长DTW匹配：令len_ad＝F_ad-start_ad+1，用动态时间规整算法，对当前设定的慢录和广告特征片段进行匹配；

S68.更新Tail_f[m]＝dtw₂，其中，dtw₂为步骤S67检测出的慢录匹配片段结束点的帧编号；

S69.更新m＝m+1，并进行判断，若m≤N_l，则转到步骤S62，否则转到步骤S7；

S7.清理检测项：

S71.初始设置循环变量v₁＝1，m＝2，作如下迭代操作：

S711.若Head_f[m-1]+L_ad＞Head_f[m]+U/2，则转到步骤S712，否则令v₁＝v₁+1，且更新Head_s[v₁]和Tail_f[v₁]：

Head_s[v₁]＝Head_s[m]

Tail_f[v₁]＝Tail_f[m]

S712.更新m＝m+1，并进行判断，若m≤N_l，则转到步骤S711，否则转到步骤S72；

S72.初始设置循环变量v₂＝1，m＝2，作如下迭代操作：

S721.若B[m]＜0且|Tail_f[m]-B[m]-F_ad|＜U/2，其中，|·|为取绝对值运算，则令Tail_f[m-1]＝Tail_f[m-1]-B[m]，否则，令v₂＝v₂+1且更新Head_s[v₂]和Tail_f[v₂]：

Head_s[v₂]＝Head_s[m]

Tail_f[v₂]＝Tail_f[m]

S722.更新m＝m+1，并进行判断，若m≤v₁，则转到步骤S721，否则转到步骤S8；

S8.确定广告尾位置：对满足1≤m≤v₂的每一个m计算

Tail_s[m]＝Tail_f[m]/U；

S9.输出广告播出信息：对满足1≤m≤v₂的每一个m作：

S91.输出检测到广告的第m次播出的开始时间Head_s[m]和结束时间Tail_s[m]；

S92.输出检测到广告的第m次播出的完整性：

若|Tail_s[m]-Head_s[m]-F_ad/U|≤0.5，则输出广告播出完整，否则输出广告播出不完整。

本发明的有益效果在于：

本发明提供一种精准快速的广告播出监测方法，该方法执行广告头位置检测和尾位置检测两个步骤，在头位置检测中，采用低复杂度的，对误差不敏感的直线拟合方法，结合音频指纹和梅尔频率倒谱系数两种特征，实现头位置的快速定位，在尾位置检测中，采用帧特征比对和长短两次动态时间规整方法分别对广告和慢录音频的对齐和非对齐情况进行处理，并在此期间对检测到的头位置进行进一步精确定位，最后通过清理合并检测项，实现了对跨越相邻两慢录块的广告的正确检测。该方法处理快速精确，并对时间伸缩具有鲁棒性，能够广泛应用于广播电台的广告监测和管理中。

附图说明：

图1为本发明实施例方法的流程示意图，其中包含特征提取(左边)和广告检测(右边)两个阶段，广告检测阶段包含了广告头检测和广告尾检测两个步骤。

图2为本发明广告检测阶段的步骤S3(寻找拟合直线)的流程示意图。

图3为本发明在广告检测阶段的步骤S3中，实施例的第87个慢录音频块(即i＝87)的点集合P的部分视图；其中，检测到的拟合直线斜率k＝1，截距b＝7939，该直线对应于广告在当天时段的第1次播出，其开始时间为07:17:40。

图4为本发明在广告检测阶段的步骤S3中，实施例的第108个慢录音频块(即i＝108)的点集合P的部分视图；其中，(a)检测到的拟合直线斜率k＝1，截距b＝916，该直线对应于广告在当天时段的第2次播出，其开始时间为08:59:46；(b)检测到的拟合直线斜率k＝1，截距b＝1415，该直线对应于广告在当天时段的第3次播出，其开始时间为09:00:03。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

本实施例提供一种精准快速的广告播出监测方法，其流程示意图如图1所示，包括特征提取和广告检测两个阶段；仿真实验使用电台某日的24小时的慢录音频和一个时长为15.85秒的广告音频。

本实施例中广告播出监测方法，具体步骤如下：

特征提取阶段：

S1.构建慢录指纹哈希表：设置慢录指纹哈希表的初始状态为空，将用于监播的慢录音频为一天24小时的音频，将其分割为时长为SecPerBlk＝302.4秒的块，则慢录块的总数目N_B＝286，从1开始，按时间先后顺序对分割后的块进行编号，设SegID表示块编号，则对第一个慢录块SegID＝1，第二个慢录块SegID＝2，以此类推，对最后一个慢录块SegID＝286，对每一个慢录块，作如下处理：

hash_key_L＝f₁ ^L×4096+Δf^L×64+Δt^L

S21.音频数据转化：将原始慢录音频转化为采样率为4KHz的单声道音频；将转换后的数据按固定长度H＝96个采样点划分为各音频帧，相邻帧间有重叠，重叠长度为1/2帧；

S23.测试的慢录音频的总帧数为7200000帧，故将7200000作为第一个数据元素加入到慢录帧特征中；

hash_key_A＝f₁ ^A×4096+Δf^A×64+Δt^A

本实施中，广告的第一个特征单元为(18，6，4)，故对应的hash_key_A＝74116；

S35.将去重后的所有广告指纹二元组加入到广告指纹集中；

本实施中，提取的原始指纹项有1282，去掉重复后，得到1068，将这1068个指纹二元组加入到广告指纹集中，其中第一个特征单元(hash_key_A＝74116)对应的故第一个指纹二元组项为(74116，3)；

S41.音频数据转化：将原始广告音频转化为采样率为4KHz的单声道音频；将转换后的数据按固定长度H＝96划分为各音频帧，相邻帧间有重叠，重叠长度为1/2帧；

S43.测试的广告音频的总帧数为1321帧，故将1321作为第一个数据元素加入到广告帧特征中；

广告检测阶段：

S1.加载特征提取阶段生成的慢录指纹哈希表、慢录帧特征、广告指纹集和广告帧特征，设F_log和F_ad分别表示从慢录帧特征和广告帧特征中读到的慢录和广告的音频总帧数，有F_log＝7200000，F_ad＝1321，初始设置N_B＝286个空的“帧编号对”集合Q_i、i＝1,2,...286，其集合元素的形式设定为(广告帧编号-慢录帧编号)二元组；

S2.寻找匹配指纹对：对广告指纹集中的每一个二元组项作：

S21.在慢录指纹哈希表中，找到位置hash_key_A所对应的链表；

S22.对链表的每一项作：

其中，为向下取整运算；

S222.将帧编号对添加到第SegID'个帧编号对集合Q_SegID'中；

对第一个指纹二元组项(74116，3)，在慢录指纹哈希表中，找到位置74116所对应的链表，共有28个链表项，其中第一项的hash_value_L＝892878，故计算

故将帧编号对(3,8142)添加到第54个帧编号对集合Q₅₄中；

S3.寻找拟合直线：

该步骤的算法流程如图2所示。

S32.设置初始为空的点集合P，Q₁中共有27个“帧编号对”元素将其每个元素视为平面上的一个点(x,y)加入到P中，其中和分别对应于横坐标x和纵坐标y，对将P中的27个点均标记为“新”点；

S33.设置T_W＝8，因为27＞T_W，故从P中任选两个点组成一点对，P中共有J＝351个点对，设置点对编号j的初值为1；

S34.取第1个点对，(10,11)与(16,3124)，该点对的两点均为“新”点，则计算这两点所确定的直线l的斜率k＝518.8；

S35.设定斜率偏差阈值T_k＝0.1，因k-1的绝对值大于T_k，则转到步骤S37；之后j逐渐递增，直到j＝327，找到点对(87,2006)与(102,2020)，形成的直线l的斜率k＝0.9333，因k-1的绝对值小于T_k，则统计P中与l的距离不大于的点的个数W＝2；

S36.因W小于T_W＝8，则转到步骤S37；之后j和i都逐渐递增，直到当i＝87,在Q₈₇中找到直线斜率k＝1的直线(如图3所示)，此时P中与l的距离不大于的点的个数W＝38，更新N_l＝0+1＝1，令编号数组A第1个元素A[1]＝87，因直线l在纵坐标轴上的截距b为7939，则截距数组B第1个元素B[1]＝7939，再将P中与l的距离小于的所有点标记为“旧”点；

S38.更新i＝i+1,并进行判断，若i≤N_B＝286，则转到步骤S32，否则转到步骤S39；

程序到此，N_l＝25，即找到了25条拟合直线，则执行步骤S4；

S4.确定广告头位置：定义长度为25的广告头的时间位置数组Head_s(单位为秒)和帧位置数组Head_f(单位为帧)，对满足1≤m≤25的每一个m作：

S41.计算头的时间位置：

Head_s[m]＝(A[m]-1)×SecPerBlk+B[m]×SecPerframe

其中，慢录块的时长SecPerBlk为302.4秒，在提取慢录音频指纹时，一个音频帧的时长SecPerframe为0.032秒，则当m＝1时,第一个检测到的头时间位置为

Head_s[1]＝(87-1)*302.4+7939*0.032＝26226.048秒；

S42.计算头的帧位置：

Head_f[m]＝Head_s[m]×U

在提取慢录帧特征时，1秒钟对应的帧数U为83.333帧，则Head_f[1]＝2188371；

S43.精确帧位置：定义一个长度为U帧的滑动窗，滑动窗在慢录帧特征的[Head_f[m]-U，Head_f[m]+U]区间内逐帧向后滑动，每次滑动，取滑动窗内的慢录帧特征片段和广告帧特征的前U帧片段，计算两个特征片段的所有对应帧数据的欧式距离、并求和，当滑动到最后位置时，找到所有帧距离和的最小者，记为并将Head_f[m]更新为所对应的慢录特征片段起始点的帧编号；当m＝1时，Head_f[1]被更新为所对应的慢录特征片段起始点的帧编号2188370；

S44.标记时间伸缩性：定义长度为25的时间伸缩性标记数组scale,设置scale的所有元素初值均为1，若小于设定的帧距离阈值T_d＝0.35，则令scale[m]＝0；当m＝1时，因则令scale[1]＝0；

S45.更新头时间位置：

Head_s[m]＝Head_f[m]/U；

当m＝1时，Head_s[1]＝2188370/83.333＝26260.545；

S5.广告尾比对：定义长度为25的广告尾的时间位置数组Tail_s(单位为秒)和帧位置数组Tail_f(单位为帧),设p_log和p_ad分别表示慢录和广告的比对点位置,作如下操作：

S51.设置Tail_f的所有元素初值均为0，循环变量m的初值为1；

当m＝1时，因Head_f[1]+F_ad≤F_log，则令p_log＝2188370+1321＝2189691，p_ad＝1321；

当m＝1时，初始两帧距离为0.035，因其值小于T_d，则令Tail_f[1]＝2189691，并转到步骤S56；

S61.设置循环变量m的初值为1；

S62.若Tail_f[m]≠0，则转到步骤S69，否则转到步骤S63；

当m＝1时，因Tail_f[1]＝2189691≠0，故转到步骤S69；当m＝2时，因Tail_f[2]＝0，故转到步骤S63；

S63.设置匹配开始点：令start_ad＝1，

当m＝2时，

S64.若scale[m]＝0，转到步骤S67，否则转到步骤S65；

当m＝2时，因scale[2]＝0，转到步骤S67；

当m＝2时，有len_ad＝F_ad-start_ad+1＝1321，

当m＝2时，得到dtw₂＝2700158，则更新Tail_f[2]＝dtw₂＝2700158；

S7.清理检测项：

S71.初始设置循环变量v₁＝1，m＝2，作如下迭代操作：

Head_s[v₁]＝Head_s[m]

Tail_f[v₁]＝Tail_f[m]

在此步骤中，m从2变到25，步骤S711的条件均未满足，最终迭代结束，v₁＝25；对第一个检测位置有：Head_s[1]＝26260.545，Tail_f[1]＝2189691；

S72.初始设置循环变量v₂＝1，m＝2，作如下迭代操作：

Head_s[v₂]＝Head_s[m]

Tail_f[v₂]＝Tail_f[m]

在此步骤中，m从2变到25，步骤S721的条件均未满足，最终迭代结束，v₂＝25；对第一个检测位置有：Head_s[1]＝26260.545，Tail_f[1]＝2189691；

S8.确定广告尾位置：对满足1≤m≤25的每一个m计算

Tail_s[m]＝Tail_f[m]/U；

对第一个检测位置有：Tail_s[1]＝Tail_f[1]/U＝2189691/83.333＝26276.397；

S9.输出广告播出信息：对满足1≤m≤25的每一个m作：

当m＝1时，检测出广告第一次播出的开始时间Head_s[1]＝26260.545秒(即在当天的07:17:40时刻开始播放)，结束时间Tail_s[m]＝26276.397秒(即在当天的07:17:56时刻结束播放)；

S92.输出检测到广告的第m次播出的完整性：

若|Tail_s[m]-Head_s[m]-F_ad/U|≤0.5，则输出广告播出完整，否则输出广告播出不完整。对广告的第一次播出，因|26276.397-26260.440-1321/83.333|＝0.105≤0.5，故该次播出完整。

下面分别从检测精度和速度两方面来进行性能评估。

1.检测精度

对测试的广告，本发明方法的检测结果如表1所示。表中“人工定位”表示用人工的方式记录广告的播出时间。可以看到，该广告在全天的25次播出均完整地检测到，且检测出的播出时间与人工标记的时间平均偏差小于1秒。

表1广告检测结果

2.检测速度

本发明方法的程序是由C++编写的，测试机器为Intel(R)i7处理器，主频为2.4GHz，内存为16GB。程序执行时间如表2所示。可见，广告检测是快速的，仅用0.51秒即完成在24小时慢录中的检测。另外，对长慢录音频的特征提取比较耗时，但这个操作只需进行一次，且可以提前完成，慢录特征一旦被提取出来，就可用来检测所有待查广告了。

表2特征提取和广告检测时间(单位：秒)

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种精准快速的广告播出监测方法，包括特征提取和广告检测两个阶段，包括以下步骤：

特征提取阶段：

S1.构建慢录指纹哈希表：设置初始状态为空的慢录指纹哈希表，将用于监播的慢录音频分割为N_B个慢录块，每个慢录块的时长为SecPerBlk，并按时间先后顺序对分割后的块进行编号，设SegID表示块编号；对每一个慢录块，作如下处理：

S12.提取Shazam指纹：对单声道音频分帧后进行傅里叶变换，寻找傅里叶频谱的峰值点，将一对峰值点的信息形成一个形式为(f₁ ^L,Δf^L,Δt^L)的指纹单元，其中，f₁ ^L为第一个峰值点的频率，Δf^L为第一个与第二峰值点的频率差，Δt^L为第一个与第二峰值点所对应的帧数差；

hash_key_L＝f₁ ^L×4096+Δf^L×64+Δt^L

其中，为第一个峰值点所对应的帧编号；

S14.对每一个指纹单元，将内容为hash_value_L的表项添加到存储位置hash_key_L所对应的链表中；

S32.提取Shazam指纹：按照步骤S12，得到广告的每个指纹单元(f₁ ^A,Δf^A,Δt^A)和其中，f₁ ^A为第一个峰值点的频率，Δf^A为第一个与第二峰值点的频率差，Δt^A为第一个与第二峰值点所对应的帧数差，为第一个峰值点所对应的帧编号；

S33.计算广告指纹元素：对每一个指纹单元(f₁ ^A,Δf^A,Δt^A)，计算哈希键hash_key_A

hash_key_A＝f₁ ^A×4096+Δf^A×64+Δt^A

S34.指纹二元组去重：对得到的所有指纹二元组项若存在两项二元组的值完全相同，则去掉其中一项；

S35.将去重后的所有广告指纹二元组加入到广告指纹集中；

广告检测阶段：

S2.寻找匹配指纹对：对广告指纹集中的每一个二元组项作：

S21.在慢录指纹哈希表中，找到位置hash_key_A所对应的链表；

S22.对链表的每一项作：

其中，为向下取整运算；

S222.将帧编号对添加到第SegID'个帧编号对集合Q_SegID'中；

S3.寻找拟合直线：

S33.若P中包含的点个数小于设定的点数阈值T_W，则转到步骤S38，否则，从P中任选两个点组成一点对，设P中共有J个点对，设置点对编号j的初值为1；

S35.若k-1的绝对值大于设定的斜率偏差阈值T_k，则转到步骤S37，否则，统计P中与直线l的距离不大于的点的个数W；

S36.若W小于T_W，则转到步骤S37，否则，令N_l＝N_l+1，令编号数组A第N_l个元素A[N_l]＝i，截距数组B第N_l个元素B[N_l]＝b，其中，b为直线l在纵坐标轴上的截距，再将P中与直线l的距离小于的所有点标记为“旧”点；

S41.计算头的时间位置：

Head_s[m]＝(A[m]-1)×SecPerBlk+B[m]×SecPerframe

其中，SecPerframe为提取慢录音频指纹时，一个音频帧的时长；

S42.计算头的帧位置：

Head_f[m]＝Head_s[m]×U

其中，U为提取慢录帧特征时，1秒钟对应的帧数；

S43.精确帧位置：定义一个长度为U帧的滑动窗，滑动窗在慢录帧特征的[Head_f[m]-U，Head_f[m]+U]区间内逐帧向后滑动，每次滑动，取滑动窗内的慢录帧特征片段和广告帧特征的前U帧片段，计算两个特征片段的所有对应帧数据的欧式距离、并求和，当滑动到最后位置时，找到所有帧距离和的最小者、记为并将Head_f[m]更新为所对应的慢录特征片段起始点的帧编号；

S44.标记时间伸缩性：定义长度为N_l的时间伸缩性标记数组scale,设置scale的所有元素初值均为1，若小于设定的帧距离阈值T_d，则令scale[m]＝0；

S45.更新头时间位置：

Head_s[m]＝Head_f[m]/U；

S5.广告尾比对：定义长度为N_l的广告尾的时间位置数组Tail_s(单位为秒)和帧位置数组Tail_f(单位为帧)，设p_log和p_ad分别表示慢录和广告的比对点位置，作如下操作：

S51.设置Tail_f的所有元素初值均为0，循环变量m的初值为1；

S61.设置循环变量m的初值为1；

S62.若Tail_f[m]≠0，则转到步骤S69，否则转到步骤S63；

S63.设置匹配开始点：令start_ad＝1，

S64.若scale[m]＝0，转到步骤S67，否则转到步骤S65；

S66.更新start_lo_g＝dtw₁+1，其中，dtw₁为步骤S65检测出的慢录匹配片段结束点的帧编号；

S67.长DTW匹配：令用动态时间规整算法，对当前设定的慢录和广告特征片段进行匹配；

S7.清理检测项：

S71.初始设置循环变量v₁＝1，m＝2，作如下迭代操作：

Head_s[v₁]＝Head_s[m]

Tail_f[v₁]＝Tail_f[m]

S72.初始设置循环变量v₂＝1，m＝2，作如下迭代操作：

Head_s[v₂]＝Head_s[m]

Tail_f[v₂]＝Tail_f[m]

S8.确定广告尾位置：对满足1≤m≤v₂的每一个m计算

Tail_s[m]＝Tail_f[m]/U；

S9.输出广告播出信息：对满足1≤m≤v₂的每一个m作：

S92.输出检测到广告的第m次播出的完整性：

2.按权利要求1所述精准快速的广告播出监测方法，其特征在于，所述点数阈值T_W的取值范围为：8≤T_W≤12。

3.按权利要求1所述精准快速的广告播出监测方法，其特征在于，所述斜率偏差阈值T_k的取值范围为：0.1≤T_k≤0.2。

4.按权利要求1所述精准快速的广告播出监测方法，其特征在于，所述帧距离阈值T_d的取值范围为：0.2≤T_d≤0.5。