CN101221622A

CN101221622A - 一种广告检测识别方法及系统

Info

Publication number: CN101221622A
Application number: CNA2008100571623A
Authority: CN
Inventors: 赵丹; 王向东; 钱跃良; 刘群; 林守勋
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2008-01-30
Filing date: 2008-01-30
Publication date: 2008-07-16
Anticipated expiration: 2028-01-30
Also published as: CN100580693C

Abstract

本发明提供一种广告检测识别方法，包括：对待检测的广播电视节目数据进行预处理，得到所述数据音频流的短时能量包络；根据音频的短时能量特征，将所得到的短时能量包络切分为能量包络单元，得到待检测的广播电视节目数据的能量包络单元图；利用跳单元的策略和基于能量包络单元的相似性度量方法，对所述待检测的广播电视节目数据的能量包络单元图与已知广告的能量包络单元图进行比较，根据比较结果实现对广告的检测识别。本发明以音频特征取代视频特征、音视频特征结合等进行广告检测，具有计算复杂度低，检测效率高的优点；通过将待测数据与已知广告的音频特征进行比较，可以实现对特定广告的识别；本发明还具有应用范围广的优点。

Description

一种广告检测识别方法及系统

技术领域

本发明涉及广告检测和识别领域，特别是涉及一种基于音频检索的广告检测识别方法及系统。

背景技术

近年来广告自动检测在日常生活中扮演了越来越重要的角色，从而吸引了越来越多学者的注意。例如，从电视终端用户来看，在录制节目时自动滤掉广告，将会大大提高用户舒适度和效率；对于刊登广告者和公司而言，自动检测特定的广告将能有效地验证广告公司履行合同情况；对于社会公共机构而言，广告自动检测能够帮助检测违规广告。

目前已有很多广告自动检测方法。早期的学者主要运用基于规则的方法，例如借助于电视台的台标，黑帧/静音帧和音量差异来检测和定位广告。然而，现在这些方法都已经不再适用。一方面是因为目前很多电视台在插播广告的时候不隐去台标，另一方面现在电视台插播广告的时候也很少再插入黑帧。现有的广告检测方法还可采用基于镜头切分与分类的方法。在这种方法中，需要首先提取电视节目的音、视频特征，然后利用统计模型，例如SVM和HMM，对每个镜头进行分类，将镜头分为广告或普通的电视节目。但这种方法也存在不足，随着广告与电视技术的发展，广告越来越趋向于节目化，广告和电视节目之间的差异也越来越不明显。因此，采用此类方法在广告检测的准确率上明显偏低。

除了上述的广告自动检测方法外，现有技术中还存在着多种类型的检测方法。综合而言，可将现有的广告自动检测方法分为基于视频的广告自动检测方法，基于视频、音频的广告自动检测方法，以及将音频、视频、文本相结合的广告自动检测方法。但是现有技术中的上述各类方法，都存在着检测所需数据量大，计算量非常大，速度比较慢，很难实现实时性能的缺陷。此外，现有技术中的各类方法只能从音视频片断中区分广告与节目，而无法识别出特定的广告，这也限制了广告自动检测方法的应用范围。

发明内容

本发明的目的是克服现有方法在进行广告检测时所需数据量大，计算速度慢，无法满足实时要求的缺陷，从而提供一种具有较高检测效率，能够对广告进行实时检测的方法。

本发明的又一个目的是克服现有方法无法对特定广告进行识别的缺陷，从而提供一种能够识别特定广告的广告识别方法。

为了实现上述目的，本发明提供了一种广告检测识别方法，包括以下步骤：

步骤1)、对待检测的广播电视节目数据进行预处理，得到所述数据音频流的短时能量包络；

步骤2)、根据音频的短时能量特征，将步骤1)所得到的短时能量包络切分为能量包络单元，得到所述待检测的广播电视节目数据的能量包络单元图；

步骤3)、利用跳单元的策略和基于能量包络单元的相似性度量方法，对步骤2)得到的所述待检测的广播电视节目数据的能量包络单元图与已知广告的能量包络单元图进行比较，根据比较结果实现对广告的检测识别。

上述技术方案中，还包括：

步骤4)、采用基于KL2距离的方法对步骤3)所得到的广告检测识别结果进行验证。

上述技术方案中，所述预处理包括：

步骤1-1)、从所述待检测的广播电视节目数据中分离出音频流；

步骤1-2)、对所述的音频流中的音频信号按照一定的时间间隔分为多个帧；

步骤1-3)、对所得到的音频流进行短时能量特征提取；

步骤1-4)、将帧按照每一帧的短时平均能量形成短时能量包络。

上述技术方案中，所述的将短时能量包络切分为能量包络单元包括以下步骤：

步骤2-1)、对短时能量包络中的能量均值进行平滑，得到各个帧的短时能量值；

步骤2-2)、采用检测函数对各个帧的短时能量值进行检测，得到一个检测结果，所述的检测函数将一个帧与其后续的N个帧分别进行比较，取最大的比较结果作为该检测函数的值；

步骤2-3)、将步骤2-2)所得到的各个帧的检测函数结果与两个预先设定的阈值进行比较，根据比较结果，计算帧被检测为切分点的概率；

步骤2-4)、根据步骤2-3)所得到的切分点概率，确定短时能量包络中的切分点，根据所述的切分点将所述的短时能量包络切分为能量包络单元。

上述技术方案中，在所述的步骤2-3)中，所述的帧被检测为切分点的概率的计算公式为：

P (i) = \{\begin{matrix} 1, & d_{i} &GreaterEqual; T_{2} \\ \frac{d_{i} - T_{1}}{T_{2} - T_{1}}, & T_{1} \leq d_{i} \leq T_{2} \\ 0, & d_{i} \leq T_{1} \end{matrix}

其中，T₁为所述的两个预先设定的阈值中的第一阈值，T₂为所述的两个预先设定的阈值中的第二阈值，d_i为所述检测函数的值。

上述技术方案中，在所述的步骤2-4)中，所述的切分点为所述的切分点概率为非0的帧。

上述技术方案中，所述的步骤3)包括：

步骤3-1)、在待检测广播电视节目数据的能量包络单元图上，选择每个能量包络单元的起始点作为匹配操作的起始点；

步骤3-2)、将已知广告以及待检测广播电视节目数据分别用由切分点位置和切分点概率组成的数对的形式表示；

步骤3-3)、将待检测广播电视节目数据的数对依次与每个已知广告的数对进行比较，得到匹配点以及对应的匹配概率；

步骤3-4)、采用相似性度量函数对步骤3-3)所得到的匹配点以及对应的广告进行计算，得到两者的相似值；

步骤3-5)、将步骤3-4)所得到的相似值与一个预先设定的第四阈值进行比较，若所述的相似值大于该阈值，则认为与步骤3-3)所得到的匹配点相对应的音频片段和与匹配点相对应的广告匹配。

上述技术方案中，在所述的步骤3-3)中，所述的将待检测广播电视节目数据的数对依次与每个已知广告的数对进行比较包括：

在已知广告的能量包络单元中存在一个切分点u_i，而在待检测广播电视节目数据中存在一个切分点v_j，当满足条件|u_i-v_j|＜T，认为u_i为匹配点；其中，所述T是一个预先定义的第三阈值。

上述技术方案中，所述匹配点对应的匹配概率p′为切分点u_i的切分点概率和切分点v_j的切分点概率中的较小值。

上述技术方案中，所述的步骤3-4)包括：

步骤3-4-1)、对所述的匹配点以及对应广告中的相应切分点，计算召回率R与精确率S；

步骤3-4-2)、根据所得到的召回率R与精确率S计算相似性度量函数的值。

上述技术方案中，所述的召回率的计算公式为：

R (U, V) = Σ_{k} p_{k}^{'} / Σ_{i = 1}^{m} p_{m}

其中，U表示已知广告；V表示待检测广播电视节目数据中的一个片段；p表示所述已知广告的能量包络单元中的切分点概率，p′表示匹配点的匹配概率。

上述技术方案中，所述的精确率的计算公式为：

P (U, V) = Σ_{k} p_{k}^{'} / Σ_{i = 1}^{n} q_{n}

其中，U表示已知广告；V表示待检测广播电视节目数据中的一个片段；q表示所述待检测广播电视节目数据中的一个片段的切分点概率，p′表示匹配点的匹配概率。

上述技术方案中，所述相似性度量函数的计算公式为：

S (U, V) = \frac{2 R (U, V) P (U, V)}{R (U, V) + P (U, V)}

上述技术方案中，所述的步骤4)包括：

步骤4-1)、对步骤3)所得到的广告检测识别结果提取MFCC特征；

步骤4-2)、为所述广告检测识别结果的MFCC特征与对应已知广告的MFCC特征分别建立高斯模型，在所建立的高斯模型中分别计算均值和方差；

步骤4-3)、根据步骤4-2)计算所得的均值和方差，计算初检测结果与对应广告间的KL2距离；

步骤4-4)、将步骤4-3)计算得到的KL2距离值与一个预先设定的第五阈值进行比较，若所述的KL2距离值小于或等于该阈值，则认为步骤3)所得到的检测识别结果与对应已知广告是同一个广告，即初检测结果正确，否则，认为步骤3)所得到的检测识别结果为误报。

本发明还提供了一种采用所述的广告检测识别方法的广告检测识别系统，包括：预处理模块、能量包络单元切分模块、音频检索模块以及广告音频特征库；其中，

所述的预处理模块用于对待检测的广播电视节目数据进行预处理，得到所述数据音频流的短时能量包络；

所述的能量包络单元切分模块用于根据音频的短时能量特征，将短时能量包络切分为能量包络单元；

所述的音频检索模块用于对所得到的所述待检测的广播电视节目数据的能量包络单元图与已知广告的能量包络单元图进行比较，根据比较结果实现对广告的检测识别；

所述的广告音频特征库用于存储已知广告的包含能量包络单元图以及MFCC特征在内的特征信息。

上述技术方案中，还包括一个后处理模块，所述的后处理模块的作用是对所述音频检索模块的结果提取MFCC系数后，结合对应广告的MFCC系数进行KL2距离计算，以验证初步检测的结果是否正确。

上述技术方案中，还包括一个结果评测模块，所述的结果评测模块的作用是对检测结果的正确性以及检测时间进行评测。

上述技术方案中，所述的广告音频特征库由广告库中的已知广告经过预处理和能量包络单元切分得到。

本发明的优点在于：

1、本发明的广告检测识别方法以音频特征取代视频特征、音视频特征结合等进行广告检测，具有计算复杂度低，检测效率高的优点。

2、本发明的广告检测识别方法通过将待测数据与已知广告的音频特征进行比较，可以实现对特定广告的识别。

3、本发明的广告检测识别方法基于音频特征进行识别，除了可以用于传统的电视广告检测外，还可以对广播中的广告进行检测，具有应用范围广的优点。

4、本发明的广告检测识别方法在检测过程中采用了初检测与再检测的实现步骤，具有准确率高的优点。

5、本发明的广告检测识别方法在检测过程中采用了跳单元的策略，极大的提高了检测效率。

附图说明

以下，结合附图来详细说明本发明的实施例，其中：

图1为在本发明的实施例中一个待检测广播电视节目数据在预处理后得到的短时能量包络图；

图2为在本发明的实施例中一个已知的广告A在预处理后得到的短时能量包络图；

图3为在本发明的实施例中一个已知的广告B在预处理后得到的短时能量包络图；

图4为本发明的实施例中一个待检测广播电视节目数据进行短时能量切分后得到的能量包络单元图；

图5为本发明的实施例中一个已知的广告A进行短时能量切分后得到的能量包络单元图；

图6为本发明的实施例中一个已知的广告B进行短时能量切分后得到的能量包络单元图；

图7为本发明的广告检测识别系统的组成示意图；

图8为本发明的广告检测识别系统中的广告音频特征库的生成过程图；

图9为本发明的广告检测识别方法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的说明。

与现有技术中的广告自动检测方法相比，本发明所公开的方法在总体思路上有着很大的差别。本发明以电视节目中的音频信息为基础，对电视节目片断中的广告进行快速检测，而没有像现有技术中的相关方法那样采用电视节目片断中的视频信息。结合图9，下面对本发明方法的具体实施步骤结合一个实例进行详细说明。

步骤10、对广告库中的数据，以及待检测的广播电视节目数据分别进行预处理。在预处理过程中，从广告库数据或待检测的广播电视节目数据中分离出音频流，然后将音频信号按照一定的时间间隔分为多个帧，然后对音频流进行短时能量的特征提取，根据每一帧的短时平均能量形成短时能量包络。一段特定的数据经过预处理后，可以得到相应的短时能量包络图。在一个实施例中，音频信号每25ms作为一帧，每帧的帧移为10ms。

在本发明中所涉及的广告库是由技术人员所采集的各类广告的集合，广告库中广告的完整性对最终广告自动检测准确率的高低有直接的影响。因此，在采用本发明的方法对广告进行检测时应当尽可能地完善广告库中的内容。

待检测的广播电视节目数据是用户从广播或电视上截取的一段数据，在该数据中应当包含有广告以及普通电视节目。本发明的目的就是要从数据中将广告区分出来。

为了方便理解，在一个实施例中，选择一个待检测的广播电视节目数据，该数据在经过预处理后得到的短时能量包络图如图1所示，在该图中，横轴表示时间，纵轴表示相应点的短时能量值。而在对应的广告库中，为了说明的方便，假设广告库中只有两个广告，分别用广告A和广告B表示。图2是广告A在预处理后得到的短时能量包络图，图3是广告B在预处理后得到的短时能量包络图。虽然在本实施例中，广告库中只有两个广告，但本领域的普通技术人员应当理解，在实际应用中，一个广告库中的广告数量要远高于两个。

步骤20、根据音频的短时能量特征，将步骤10所得到的短时能量包络图切分为不同的能量包络单元，形成能量包络单元图。

在本发明中，为了更快更精确地切分出能量包络单元，采用了一种与音乐处理中的ONSET检测法相类似的方法。在该方法中，包括以下步骤：

步骤21、对短时能量包络图中的能量均值进行平滑；平滑的具体方法是：将每一帧的能量值改为以该帧为中心，包含该帧前若干帧、该帧后若干帧的一些帧内的能量值的均值。一个参考值是当前帧及其前5帧、后5帧，共11帧。

步骤22、采用一个检测函数对平滑后的各个帧的短时能量值进行检测，得到一个检测结果。所述的检测函数如公式(1)所示，

d_{i} = \max_{j = 1, . . ., 10} (E_{i + j} / E_{i}) - - - (1)

从上述公式可以看出，在该检测函数中，将一个帧与其后续的十个帧分别进行比较，取最大的比较结果作为该检测函数的值。其中的d_i就是第i帧的检测函数的值，E_i就是第i帧的短时能量值。

步骤23、将步骤22所得到的各个帧的检测函数结果与两个预先设定的阈值进行比较，根据比较结果，计算帧被检测为切分点的概率。其中，所述的两个预先设定的阈值分别被称为第一阈值、第二阈值，用T₁表示第一阈值，用T₂表示第二阈值。本实施例中可选用的一组参考值是T₁＝1.5，T₂＝2。所要计算的概率用P(i)表示，概率的计算如公式(2)所示：

P (i) = \{\begin{matrix} 1, & d_{i} &GreaterEqual; T_{2} \\ \frac{d_{i} - T_{1}}{T_{2} - T_{1}}, & T_{1} \leq d_{i} \leq T_{2} \\ 0, & d_{i} \leq T_{1} \end{matrix} - - - (2)

步骤24、根据步骤23所得到的切分点概率，确定短时能量包络图中的切分点，其中，P(i)非0值的帧将被记录为能量包络的切分点。根据切分点就可以得到能量包络单元。应当指出的是，由本步骤所得到的各个能量包络单元长度并不一致。

以步骤10中所描述的实施例为例，在经过本步骤的上述操作后，分别得到以下结果：待检测的广播电视节目数据的能量包络图在进行切分后，所得到的能量包络单元图如图4所示，在该图中，用垂线表示了各个切分点。而广告库中的广告A在切分后所得到的能量包络单元图如图5所示；广告B在切分后所得到的能量包络单元图如图6所示。如图8所示，广告库中的各个广告经过步骤10的预处理操作以及本步骤的能量包络切分后，可以得到一个广告音频特征库，该特征库中包含了各个广告的能量包络单元信息。在本实施例中，假设广告库中的数据没有相应的能量包络单元信息，因此需要对广告库中的数据进行预处理与能量包络切分。但在实际应用中，在对广告库中的数据做过一次预处理与能量包络切分后所得到的广告音频特征库可以进行存储，在下次进行检测时，直接使用该广告音频特征库中单元信息(包括位置信息和相应的概率)即可。此外，广告音频特征库通常还包括MFCC特征，该特征通过一个特征提取步骤得到。

步骤30、利用跳单元的策略和基于能量包络单元的相似性度量方法对步骤20得到的能量包络单元图进行音频检索，进而实现广告的初检测。本步骤的具体实现步骤如下。

步骤31、在广告库中广告的能量包络单元图和待检测广播电视节目数据的能量包络单元图上，选择每个能量包络单元的起始点作为音频检测过程中进行匹配操作的点。

由于在本发明中，所检测的广告的位置可以用能量包络单元的起始点表示，因此在本步骤中直接用能量包络单元的起始点作为进行匹配操作的点。从能量包络单元的划分可以知道，每个能量包络单元至少包含一个帧，通常包含多个帧。因此，在每个能量包络单元中选择一个点作为进行匹配操作的点，可以避免现有技术中常见的固定步长匹配所带来的数量过大、广告起始点不精确的缺陷，有助于提高广告检索效率。

步骤32、将广告库中的每个广告以及待检测广播电视节目数据分别用切分点和概率对的形式表示。例如，用U表示一个广告，它的表示形式为U＝(u₁，p₁)，(u₂，p₂)，...，(u_m，p_m)，其中，u₁，u₂，...，u_m为切分点的位置，p₁，p₂，...，p_m表示通过公式(2)计算得到的切分点概率。同样的，对于待检测广播电视节目数据，也可以用数对的形式表示，用V表示该数据，则它的表示形式为V＝(v₁，q₁)，(v₂，q₂)，...，(v_n，q_n)，其中，v_i，q_i分别表示切分点位置和每个切分点的概率。这种数对的表示形式实质上是能量包络单元图的另一种表达形式。

步骤33、将待检测数据的数对依次与广告库中的每个广告的数对进行比较，得到匹配点以及对应的匹配概率。在比较时，在广告库中的广告的能量包络单元中存在一个切分点u_i，而在待检测数据的存在一个切分点v_j，假设满足以下条件：|u_i-v_j|＜T，则认为u_i为匹配点，并且该点的匹配概率为p_i’＝min(p_i，q_j)，其中T是一个预先定义的阈值，称为第三阈值，在本实施例中，第三阈值的一个参考值为5。由于在一个待检测数据中，可能包含有多个广告，因此，待检测数据与一个广告匹配过程中得到相应的匹配点后，仍然要与广告库中的其它广告进行匹配操作，查询是否还存在其它的匹配点，直到广告库中的所有广告都进行了相应的匹配操作。

步骤34、采用相似性度量函数对步骤33所得到的匹配点以及对应的广告计算，得到两者的相似值。

在前一步骤中，得到匹配点以及相应的匹配概率后，还需要在本步骤中利用相似性度量函数对匹配点所代表的音频片段是否就是对应的广告进行判断。仿照常用的召回率函数和精确率函数，本步骤中定义了两个相似性度量函数，其计算公式如下：

R (U, V) = Σ_{k} p_{k}^{'} / Σ_{i = 1}^{m} p_{m} - - - (3)

P (U, V) = Σ_{k} p_{k}^{'} / Σ_{i = 1}^{n} q_{n} - - - (4)

上述两个公式的含义是：将广告U看作一个标准答案，比较片段V中的切分点的位置是否与U中相同，并计算总体的符合的比率。召回率R表示两片段中位置一致的正确的切分点的个数占U中切分点总数的比例，而精确率P表示两片段中位置一致的正确的切分点的个数占V中切分点总数的比例。从公式中可以看出，由于没有直接采用正确的个数，而是采用正确的概率来衡量，所以R和P值将很少受到小概率值的影响，从而减少了由于检测函数值贴近阈值的边界切分点而引起的错误匹配。因此，这两个相似性度量函数比召回率和精确率更为可信。

在得到上述的两个相似性度量函数后，仿照现有技术中常见的用于综合召回率和精确率的F值的定义方式引进相似值S，其定义如下：

S (U, V) = \frac{2 R (U, V) P (U, V)}{R (U, V) + P (U, V)} - - - (5)

从上述相似性度量函数的定义可以看出，时间复杂度取决于R和P的计算量，约为O(m+n)。相对于现在流行的相似性度量函数，例如时间复杂度为O(mn)的基于频谱或者对数倒频谱的DTW距离度量方法，本发明中所采用的短时能量特征更为简单，并且取得了更低的时间复杂度。

步骤35、将步骤34所得到的相似值S与一个预先设定的阈值进行比较，若所述的相似值S大于该阈值，则认为与步骤33所得到的匹配点相对应的音频片段和与匹配点相对应的广告匹配。在本步骤中所涉及的阈值被称为第四阈值。

仍以前述步骤中的实施例为例，图4中的待检测的广播电视节目数据的能量包络单元图与图6中的广告B的能量包络单元图相匹配，因此，可以得出待检测的广播电视节目数据包含广告B的结论。

步骤40、采用基于KL2距离的后处理方法对步骤30的初检测结果进行验证，以降低检测过程中可能存在的误报现象。

在步骤30对待检测数据进行初步检测后，由于在初检测中只是利用了能量包络单元的位置信息，而在实际应用中，有少数不同音频段的能量包络单元却具有相似位置信息，因而会导致误匹配。在本步骤中，为了减少上述误匹配现象的发生，还可以对初检测的结果进行再次检测，具体实现步骤如下：

步骤41、对步骤30检测得到的结果以及对应广告的能量包络单元分别提取MFCC(Mel-Frequency Cepstrum Coefficients，梅尔频率倒谱系数)特征。对MFCC特征的提取属于成熟的现有技术，在本发明中，提取该特征只要提取每一帧的前12维MFCC系数即可。在本实施例中，假设不存在包含有广告的能量包络单元图以及MFCC系数的广告音频特征库，因此在本步骤中还需要对广告的能量包络单元提取MFCC特征，但在实际使用中，对于具有广告音频特征库的情况，则在本步骤中可以不对广告的能量包络单元提取MFCC特征，直接采用对应广告的MFCC特征即可。

步骤42、将初检测结果的MFCC特征与对应广告的MFCC特征分别建立高斯模型，在所建立的高斯模型中分别计算均值和方差。

步骤43、根据步骤42计算所得的均值和方差，计算初检测结果与对应广告间的KL2距离。给定两个随机变量X和Y，分别用来表示初检测结果和对应广告，两者间的KL2距离计算公式如下：

KL 2 (X, Y) = \frac{σ_{X}^{2}}{σ_{Y}^{2}} + \frac{σ_{Y}^{2}}{σ_{X}^{2}} + {(\overset{&OverBar;}{X} - \overset{&OverBar;}{Y})}^{2} (\frac{1}{σ_{X}^{2}} + \frac{1}{σ_{Y}^{2}}) - - - (6)

其中，和分别为向量X和Y的均值，σ_X ²和σ_Y ²分别为向量X和Y的协方差矩阵的对角向量。当X和Y都服从高斯分布时，KL2距离可以很好的表征两者之间的差异。

步骤44、根据步骤43计算得到的KL2距离值与一个预先设定的第五阈值进行比较，若KL2距离值小于或等于该阈值，则认为初检测结果与对应广告是同一个广告，即初检测结果正确，否则，认为初检测结果为误报。由于再次检测中所采用的KL2距离是基于对数倒频谱特征的，因此能够消除很多由于单元匹配而引起的误报。本步骤中所涉及的第五阈值在本实施例中的参考值为1，但并不局限于上述值，通常的范围在0.6～1.2之间。

与前述步骤中采用短时能量特征进行检测的过程相比，在本步骤中，根据MFCC特征建立高斯模型，以及根据高斯模型计算KL2距离的过程较为复杂，所耗费的时间也较长。但由于在本步骤中只对初检测后的结果进行再检测，因此极大地缩小了再检测的范围，使得整个检测过程所耗费的时间与现有技术相比有较大的降低。表1中是在一个实施例中，对广告自动检测的评测结果。从评测结果中可以看到，采用本发明的方法每处理一个小时的节目片段需要用大约8分钟，适合于广告实时检测的需要。在广告检测的精确率上也有很大的提高。

片段	实际广告个数	召回率	精确率	处理时间(s)
片段	实际广告个数	召回率	精确率	处理时间(s)	片段1	18	100％	94.7％	474.687
片段2	24	91.7％	100％	441.14	片段1	18	100％	94.7％	474.687
片段2	24	91.7％	100％	441.14	片段3	28	100％	100％	456.671
片段4	55	96.4％	98.1％	452.937	片段3	28	100％	100％	456.671
片段4	55	96.4％	98.1％	452.937	片段5	30	96.7％	100％	432.5
总计	155	96.8％	98.7％	2257.935	片段5	30	96.7％	100％	432.5

表1

根据本发明的广告检测识别方法，可以生成相应的广告检测识别系统。如图7所示，在该系统中包括预处理模块、能量包络单元切分模块、音频检索模块以及广告音频特征库。其中，

预处理模块还包括音频流分离单元、特征提取单元。所述的音频流分离单元用于对待检测数据进行音频流的分离。特征提取单元对分离得到的音频流进行短时能量的特征提取，生成相应的短时能量包络。

能量包络单元切分模块用于根据音频的短时能量特征，将短时能量包络切分为能量包络单元；

音频检索模块用于对所得到的所述待检测的广播电视节目数据的能量包络单元图与已知广告的能量包络单元图进行比较，根据比较结果实现对广告的检测识别；

广告音频特征库用于存储已知广告的能量包络单元图和MFCC特征。广告音频特征库由广告库中的已知广告经过预处理、能量包络单元切分、特征提取得到。

本发明的广告检测识别系统还包括一个后处理模块，所述的后处理模块的作用是对所述音频检索模块的结果以及对应的广告提取MFCC系数后，进行KL2距离计算，以再次检测初步检测的结果是否正确。

本发明的广告检测识别系统还包括一个结果评测模块，所述的结果评测模块的作用是对检测结果的准确性以及检测时间进行评测。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种广告检测识别方法，包括以下步骤：

2.根据权利要求1所述的广告检测识别方法，其特征在于，还包括：

3.根据权利要求1或2所述的广告检测识别方法，其特征在于，所述预处理包括：

步骤1-3)、对所得到的音频流进行短时能量特征提取；

4.根据权利要求1或2所述的广告检测识别方法，其特征在于，所述的将短时能量包络切分为能量包络单元包括以下步骤：

5.根据权利要求4所述的广告检测识别方法，其特征在于，在所述的步骤2-3)中，所述的帧被检测为切分点的概率的计算公式为：

P (i) = \{\begin{matrix} 1, & d_{i} &GreaterEqual; T_{2} \\ \frac{d_{i} - T_{1}}{T_{2} - T_{1}}, & T_{1} \leq d_{i} \leq T_{2} \\ 0, & d_{i} \leq T_{1} \end{matrix}

6.根据权利要求5所述的广告检测识别方法，其特征在于，在所述的步骤2-4)中，所述的切分点为所述的切分点概率为非0的帧。

7.根据权利要求1或2所述的广告检测识别方法，其特征在于，所述的步骤3)包括：

步骤3-1)、在待检测广播电视节目数据的能量包络单元图上，依次选择每个能量包络单元的起始点作为匹配操作的起始点；

8.根据权利要求7所述的广告检测识别方法，其特征在于，在所述的步骤3-3)中，所述的将待检测广播电视节目数据的数对依次与每个已知广告的数对进行比较包括：

9.根据权利要求8所述的广告检测识别方法，其特征在于，所述匹配点对应的匹配概率为切分点u_i的切分点概率和切分点v_j的切分点概率中的较小值。

10.根据权利要求7所述的广告检测识别方法，其特征在于，所述的步骤3-4)包括：

11.根据权利要求10所述的广告检测识别方法，其特征在于，所述的召回率的计算公式为：

R (U, V) = Σ_{k} p_{k}^{'} / Σ_{i = 1}^{m} p_{m}

12.根据权利要求10所述的广告检测识别方法，其特征在于，所述的精确率的计算公式为：

P (U, V) = Σ_{k} p_{k}^{'} / Σ_{i = 1}^{n} q_{n}

13.根据权利要求10所述的广告检测识别方法，其特征在于，所述相似性度量函数的计算公式为：

S (U, V) = \frac{2 R (U, V) P (U, V)}{R (U, V) + P (U, V)}

14.根据权利要求2所述的广告检测识别方法，其特征在于，所述的步骤4)包括：

步骤4-1)、对步骤3)所得到的广告检测识别结果以及对应的已知广告的能量包络单元分别提取梅尔频率倒谱系数特征；

步骤4-2)、为所述广告检测识别结果的梅尔频率倒谱系数特征与对应已知广告的梅尔频率倒谱系数特征分别建立高斯模型，在所建立的高斯模型中分别计算均值和方差；

15.一种广告检测识别系统，包括：预处理模块、能量包络单元切分模块、音频检索模块以及广告音频特征库；其中，

所述的广告音频特征库用于存储已知广告的包含能量包络单元图以及梅尔频率倒谱系数特征在内的特征信息。

16.根据权利要求15所述的广告检测识别系统，其特征在于，还包括一个后处理模块，所述的后处理模块的作用是对所述音频检索模块的结果提取梅尔频率倒谱系数后，结合对应广告的梅尔频率倒谱系数进行KL2距离计算，以验证初步检测的结果是否正确。

17.根据权利要求15或16所述的广告检测识别系统，其特征在于，还包括一个结果评测模块，所述的结果评测模块的作用是对检测结果的准确性以及检测时间进行评测。

18.根据权利要求15所述的广告检测识别系统，其特征在于，所述的广告音频特征库由广告库中的已知广告经过预处理、特征提取和能量包络单元切分得到。