CN111488487A

CN111488487A - 一种面向全媒体数据的广告检测方法及检测系统

Info

Publication number: CN111488487A
Application number: CN202010202165.2A
Authority: CN
Inventors: 闫连山; 姚涛
Original assignee: Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University
Current assignee: Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-08-04
Anticipated expiration: 2040-03-20
Also published as: CN111488487B

Abstract

本发明公开了一种面向全媒体数据的广告检测方法及检测系统：对收集视频数据进行离线训练，将视频数据分为广告样本集和非广告样本集；分别提取广告和非广告样本集中所有视频的语音、视频帧及其CNN特征；通过训练卷积神经网络，得到基于视频帧组的预测模型、基于帧内文字的预测模型、基于广告语的预测模型；将上述三个模型进行集成，得到最终预测结果；再利用根据离线训练得到的预测结果对在线播放视频进行在线检测，如果预测是广告则剪辑该镜头，并对广告的曝光信息进行统计，本发明能有效而高效地检测视频中的广告，提升广告检测的准确率和效率。

Description

一种面向全媒体数据的广告检测方法及检测系统

技术领域

本发明涉及广告检测技术领域，具体而言是一种面向全媒体数据的广告检测方法及检测系统。

背景技术

随着计算机技术和信息技术的快速发展，网络视频和电视节目等视频资源在人们的生活中有着不可替代的作用。同时，作为商业信息的传播媒介，视频广告在信息交互中占有重要的作用。对于广告投放商而言，他们希望广告播出后能尽快得到广告的曝光数据信息，例如曝光时间、时长等，并根据这些统计信息来确定广告投放的收益。但面对海量视频数据,依靠人工不仅很难实时对广告内容进行检测，而且会造成大量人力物力资源损耗。对于普通观众而言，他们对视频中的广告没兴趣，希望可以自动的快速定位视频广告段以直接跳过广告，只观看的正常视频节目。因此，如何利用现代信息技术快速而准确的检测和过滤广告视频成为一个亟待解决的问题。

大部分现存的广告检测算法一般只利用一个模态的信息，例如语音、视频帧内的文字等，忽视了各模态信息的互补的特点，造成检测的准确率不高。

发明内容

为解决现有技术中的问题，本发明提供一种面向全媒体数据的广告检测方法和检测系统，利用集成学习算法将各个模态的预测结果进行融合，提升了广告检测的准确率。

为实现上述目的，本发明是通过以下技术方案实现的：

本发明提供一种面向全媒体数据的广告检测方法，其特殊之处在于：通过对收集的视频数据进行离线训练，根据离线训练得到的预测结果对在线播放视频进行在线检测，其中离线训练的过程包括以下步骤：

(1)视频数据分类：收集视频数据，并剪辑视频中出现的广告，将视频数据分为广告样本集和非广告样本集；

(2)数据分割：分别提取广告样本集中所有样本的视频帧

及其语音和非广告样本集中所有样本的视频帧

及其语音，其中

和

构成视频帧集

；

(3)提取视频帧集

中所有样本的CNN特征，并利用得到的CNN特征计算任意相邻两帧间相似度，与预先设定的阈值q比较，如果相似度小于q则认为发生镜头切换，则判定该处为镜头切换时间点，并按镜头切换位置对应的镜头切换时间点，对视频帧集中所有样本和语音进行分组形成视频帧组及其对应语音，分组后的视频帧组表示为

，其中

表示

分组后的结果，

表示

分组后的结果；

(4)将

中所有视频帧作为正样本，将

中所有视频帧作为负样本，将正样本、负样本依次输入到卷积神经网络进行网络参数的训练，得到基于视频帧组的预测模型，将

中每组视频帧组中每帧的预测结果求平均值，得到视频帧组的预测结果；

(5)分别提取

中所有视频帧组的文本

,

中所有视频帧组的文本

,并将

作为正样本，将

作为负样本，依次输入卷积神经网络，训练网络参数，卷积神经网络可以从

、

中的文本学习到相关文字的语义信息，得基于帧内文字的预测模型，所述文字语义信息包括典型的广告词、词间的关联及语义信息；

(6)利用卷积神经网络模型将广告和非广告样本集中所有视频帧组对应的语音转换为文本

、

，并利用预训练模型BERT（Bidirectional Encoder Representations fromTransformers）得到转换文本的特征矩阵

、

，分别将

、

作为正、负样本，输入卷积神经网络训练得到基于广告语的预测模型；

(7)分别将基于视频帧组、帧内文字和广告语的预测模型的预测结果进行集成学习得到视频数据对应镜头是否为广告的预测结果，也就是视频帧组的预测结果；

在线检测的过程包括以下步骤：

(1)提取播放视频的语音、视频帧及其CNN特征；

(2)利用播放视频的CNN特征计算播放视频相邻两帧的相似度，并与设定的阈值比较，如果相邻两帧相似度小于设定的阈值则判定为镜头切换时间点，并以镜头切换时间点对视频帧和语音进行分组构成视频帧组及其对应的语音；

(3)将每视频帧组的所有视频帧依次输入离线训练过程的基于视频帧的预测模型，并融合每组视频帧的每帧预测结果得到视频帧组的预测结果；

(4)提取每组视频帧中的文字,训练一个卷积神经网络得到基于帧内文字的预测模型，此处训练依赖于离线训练过程的基于帧内文字的预测模型，得到预测结果；

(5)将每组视频帧对应的语音转换为文字，并输入预训练模型BERT，得到所有视频帧组对应语音的特征矩阵，训练一个卷积神经网络得到基于广告语的预测模型，此处训练依赖于离线训练过程的基于广告语的预测模型，得到预测结果；

(6)利用离线训练得到的集成学习模型将基于视频帧组、帧内文字和广告语的预测结果集成输出最终预测结果；

(7)如果判定某镜头为广告，则定位其在原始视频的起始和终止位置，并根据定位结果对原始视频中的广告进行剪辑，并统计广告的曝光信息。

进一步的，包括所述离线训练过程步骤（3）中卷积神经网络CNN特征为在ImageNet数据集上训练的AlexNet网络，提取的特征表示为

，其中

表示所有视频帧的数量，

表示第

个视频帧的CNN特征，所述的相似度计算用下式计算

其中

表示第

个视频帧和第

个视频帧的相似度。

进一步的，包括所述离线训练的步骤(4)中卷积神经网络进行网络参数的训练，生成基于视频帧组的预测模型，具体包括以下步骤：

（1）首先将

中所有视频帧缩放到224×224，设定期望误差

和最大迭代次数

；

（2）将所有视频帧分为

组；

（3）将一组视频帧依次输入卷积神经网络，直至所有帧都输入完毕，其中每个视频帧输入网络包括以下步骤：

（31）视频帧经过一系列卷积层处理，在卷积层使用3×3×3的卷积核，步长设置为1，通过卷积层的处理可以有效地提取视频帧中图像块的特征，增强特征的语义表达能力；

（32）在池化层采用最大池化法，其窗口为2×2，步长设置为2；

（33）卷积层和池化层配合，组成多个卷积组，逐层提取特征，经过5组卷积池化的处理后,在图像中提取出了4096维度的特征；

（34）之后是两个有4096个通道的全连接层；

（35）最后一层为有2个通道的全连接层，其输出为预测结果；

（36）求预测结果与目标值之间的误差；

（4）将损失函数中的误差传回网络中，依次求得全连接层，池化层，卷积层的误差，根据求得误差使用梯度下降更新各层权重值；

（5）返回步骤（3），直至所有组都训练完毕；

（6）当误差小于

或迭代次数大于

时，结束训练，否则返回步骤（2）。

进一步的，包括所述离线训练过程步骤(5)中提取所有样本视频帧中的文字包括：

判断视频帧中文本的朝向；

进行视频帧的预处理，包括角度矫正、位置矫正，二值化，锐化和去噪处理；

对视频帧进行水平投影，找到每一行的上界限和下界限，进行行切割；

对切割出来的每一行，进行垂直投影，找到每一个字符的左右边界，进行单个字符的切割，找到图像中的文字区域；

对每一行进行分割，然后再对每一行文本进行列分割，得到每个字符；

将字符送入预训练好的文字提取网络CRNN（卷积循环神经网络）进行字符识别，得到结果，具体包括：

将图像被缩放为32×W×3的大小；

经过卷积层之后，输出1×(W/4)×512大小的特征；

将得到的特征作为循环层的输入，此时把这个特征作为一个序列，序列长度设为T=W/4，每个1×512的特征被认为是一帧数据，共T帧；

循环层输出为T×N（N为数据集里的字符数），每一帧对应一个1×N的特征；

对得到的特征进行softmax处理，然后将处理后的数据译为后验概率最大的序列；

最后对该预测序列做后处理，合并重复的字符，得到最终的文本输出。

进一步的，包括所述离线训练过程步骤(5)中基于文本的卷积神经网络，训练网络参数，得到基于帧内文字的预测模型，具体包括以下步骤：

将得到的文本进行预处理，中文文本分类需要分词，除掉一些高频词汇和低频词汇，去掉一些无意义的符号等，建立词汇表以及单词索引，将训练文本用单词索引号表示；

生成的索引号输入数据首先通过一个嵌入层（embedding layer），将词向量化为较小的固定维度的特征向量；

然后通过一个卷积层（convolution layer），提取不同的基于统计语言模型的n-gram特征；

最大池化层对卷积后得到的若干个一维向量取最大值，然后拼接在一块，作为本层的输出值；

在池化层后拼接一个2通道的全连接层，将池化后的数据按深度方向拼接成一个向量后提供给全连接层，再经softmax激活后输出，即为基于帧内文字的预测结果。

进一步的，所述离线训练的步骤（6）中基于广告语的预测模型中将语音转换成文本是利用预训练的深度卷积神经网络模型，先对语音进行傅里叶变换，再将时间和频率作为图像的两个维度构成的语谱图作为深度卷积神经网络的输入，深度卷积神经网络包括多个卷积子网络，每个卷积子网络包括多个卷积层和一个池化层以增强卷积神经网络的表达能力，并配置多层这样的卷积子网络，以保证卷积神经网络可以很好地表达语音的长时相关性，实现对整句语音进行建模，输出层为全连接层，其直接与最终的识别结果，比如音节或者汉字相对应。

进一步的，包括所述离线训练过程步骤(6)训练卷积神经网络得到基于广告语的预测模型，具体过程包括：

将

、

依次输入预训练模型BERT，得到所有视频帧组对应语音的特征矩阵

、

；

将特征矩阵依次输入最后一层为2通道全连接层的卷积神经网络，训练其网络参数，直至收敛，得到基于广告语的预测模型。

进一步的，包括所述在线检测过程步骤（6）中如果是广告则进行剪辑，包括：

如果判定某镜头为广告，则定位广告的起始和终止位置；

根据定位结果对视频中的广告进行剪辑。

进一步的，所述在线检测过程步骤(6)中统计曝光信息，包括统计所有广告的播放时间、播放次数、播放长度等信息。

本发明提供一种面向全媒体数据的广告检测系统，其特殊之处在于，所述的广告检测系统包括：

视频数据分割模块：将所述视频数据进行分流，分为视频帧数据和音频数据；

基于视频帧组的检测模块：对所述的视频帧数据进行广告预测，并融合每组视频帧得到视频帧组的预测结果；

基于帧内文字的检测模块：对所述的视频帧数据中出现的文本进行广告预测；

基于广告语的检测模块：对所述的音频数据转换为文本后，进行广告预测；

集成模块：将基于视频帧组的检测模块、基于帧内文字的广告检测模块、基于语音的广告检测模块的预测结果进行融合得到视频广告检测结果；

统计模块：将视频广告检测结果进行统计分析，得到广告数据的分析报告。

与现有技术相比，本发明的有益之处在于：

对广播电视台和网络收集的海量视频，通过智能学习的方式快速而准确的检测和过滤广告视频，统计广告和非广告信息，实时对广告内容进行检测，在广告播出后能尽快得到广告的曝光数据信息，例如曝光时间、时长等，有利于广告商快速确定广告投放的收益，对于普通观众，可以自动的快速定位视频广告段以直接跳过广告，只观看的正常视频节目。本发明利用集成学习算法将各个模态的预测结果进行融合，提升了广告检测的准确率。

附图说明

图1为离线训练过程的流程图。

图2为在线检测过程的流程图。

图3为广告检测系统的方框图。

具体实施方式

为了加深对本发明的理解，下面将结合附图对本发明的技术方案进行详细、完整地描述，显然，所描述的实施例仅用于解释本发明，并非旨在限定本发明的保护范围。

实施例1

本发明面向全媒体数据的广告检测方法，包括两步：离线训练过程和在线检测过程；其中离线训练过程如图1所示，包括以下步骤：

(1)从广播电视台和网络上收集视频数据，剪辑视频中的出现的广告，并将训练样本集分为广告和非广告样本集。

(2)利用视频数据分割模块，将广告和非广告样本集的样本进行分流，分为视频帧数据

和音频数据，其中

为广告本集中所有样本的视频帧，

为非广告样本集中所有样本的视频帧。

(3)利用在ImageNet数据集上训练好的卷积神经网络AlexNet提取视频帧训练集

中所有样本的CNN特征表示为

，其中

表示所有视频帧的数量，

表示第

个视频帧的CNN特征，用下式计算任意相邻两帧的相似度

其中

表示第

个视频帧和第

个视频帧的相似度；

设定阈值q=0.7，如果

<q则认为镜头在第

帧处发生了切换，并以此为分界点对视频进行分组，并按镜头切换位置对视频帧进行分组，分组后的样本表示为

，其中

表示

的分组后的结果，

表示

分组后的结果。

(4)基于帧内文字的广告检测模块包括文本提取模块和预测模块，首先将

中所有视频帧作为正样本，将

中所有视频帧作为负样本，训练一个卷积神经网络的网络参数，卷积神经网络可以很好提取样本的纹理和局部信息，学习到广告和非广告图像的一些特征，具体步骤如下：

①首先将

中所有视频帧缩放到224×224，设定期望误差

=0.001，

②将上述视频帧均分为

组；

③然后将其中一组视频帧依次输入CNN网络，直至所有帧都输入完毕，其中每个视频帧输入网络包括以下步骤：

（a）视频帧经过一系列卷积层处理，在卷积层使用3×3×3的卷积核，步长设置为1个像素，卷积层可以有效的抓住视频帧中图像块的特征，增强特征的语义表达能力；

（b）紧接着池化层采用max-pooling，其窗口为2×2，步长设置为2；

（c）卷积层和池化层配合，组成多个卷积组，逐层提取特征；

（d）之后是两个有4096个通道的全连接层（fully-connected layers）；

（e）最后一层网络通过softmax激活函数，输出对此视频帧是否为广告的预测；

④求预测结果与目标值之间的误差；

⑤将损失函数中的误差传回网络中，依次求得全连接层，池化层，卷积层的误差，根据求得误差使用梯度下降更新各层的权重值，返回步骤③，直至所有组视频都训练完毕；

⑥当误差大于期望值

时，返回步骤②，当误差小于或等于

时，结束训练。

(5)利用基于视频帧组的广告检测模块，将

中每组视频帧组中每帧的预测结果求平均值，得到视频帧组的预测结果。

(6)分别提取

中所有视频帧组的文本

，

所有视频帧组的文本

，包括以下步骤：判断视频帧中文本的朝向，进行视频帧的预处理，包括角度矫正、位置矫正，二值化，锐化和去噪处理；对视频帧进行水平投影，找到每一行的上界限和下界限，进行行切割；对切割出来的每一行，进行垂直投影，找到每一个字符的左右边界，进行单个字符的切割，找到图像中的文字区域；对每一行进行分割，然后再对每一行文本进行列分割，得到每个字符；将字符图像缩放为32×32×3的大小；经卷积层之后，输出1×8×512大小的特征；将得到的特征作为循环层的输入。此时我们把这个特征作为一个序列，序列长度设为T=8，每个1×512的特征被认为是一帧数据，共8帧；循环层输出为8×N（N为数据集里的字符数），每一帧对应一个1×N的特征；对得到的特征进行softmax处理，将其译为后验概率最大的序列；最后对该预测序列做后处理，合并重复的字符，得到最终的文本输出。

(7)将

作为正样本，将

作为负样本，依次输入一个卷积神经网络，训练网络参数，卷积神经网络可以从

、

中的文本学习到典型的广告词、词间的关联及语义信息等，得到基于帧内文字的预测模型，具体包括以下步骤：

生成的索引号首先通过一个嵌入层（embedding layer），将词向量化为较小的固定维度的特征向量；

将池化后的数据按深度方向拼接成一个向量后提供给全连接层，再经softmax激活后输出最终结果。

(8)分别提取

、

中所有视频帧组对应原始视频的语音，并利用一个深度网络模型将所有视频帧组的语音转换为文本

、

，包括多个卷积子网络，每个卷积子网络包括多个卷积层和一个池化层，将每句语音转换为文本的步骤包括：

先对每帧语音进行傅里叶变换，再将时间和频率作为图像的两个维度构成的语谱图直接作为卷积神经网络的输入；

配置每个卷积层使用3×3的卷积核，并在多个卷积层之后再加上池化层，以增强卷积神经网络的表达能力；

配置多层这样的卷积子网络，以保证卷积神经网络可以很好地表达语音的长时相关性，实现对整句语音进行建模；

输出单元直接与最终的识别结果比如音节或者汉字相对应。

(9) 将

、

中的文本依次输入预训练模型BERT，得到其特征矩阵

、

，并分别将

、

作为正、负样本，训练一个最后一层为2通道全连接层的卷积神经网络，得到基于广告语的预测模型。

(10)利用集成模块分别将基于视频帧组、帧内文字和广告语的预测结果进行线性叠加，得到视频帧组的预测结果，如果结果大于0.5则判定该视频组为广告，否则不是广告。

在线检测过程如图2所示，包括以下步骤：

(1)提取播放视频的视频帧，并提取每帧的CNN特征，利用CNN特征计算相邻两帧的相似度，并与设定的阈值q比较，如果小于q则为视频组的分割点，将视频帧分割为视频帧组，依次判断每个视频帧组是否为广告。

为更清楚明白的叙述本实施例，本实施例以“亮甲”广告视频的一个镜头为例，其对应的广告语为“灰指甲，认亮甲，快好亮甲”，图像画面含有“药品包装盒、乐泰集团快好药业的商标、电话：4001-011-011、台标”等，文字含有“乐泰集团、快好药业、亮甲、电话：4001-011-011、广告”等，详细说明本发明的在线检测的实施过程。

(2)提取每组视频帧中的文字：“乐泰集团、快好药业、亮甲、电话：4001-011-011、广告”，并将每组视频帧对应的原始视频中的语音转换为文字：“灰指甲，认亮甲，快好亮甲”。

(3)将所有视频帧组的所有视频帧依次输入训练好的视频帧的预测模型，由于卷积神经网络含有多个卷积层，可以抓取到广告视频帧中常用的商标信息、包装信息等，所以网络以很大的概率预测视频帧组为广告，例如0.7。

(4)将视频帧中提取的文字“乐泰集团、快好药业、亮甲、电话：4001-011-011、广告”输入训练好的基于帧内文字预测模型，由于文字中含有广告视频帧中常含有的文字“广告”、“电话”、“集团”、“药业”、知名品牌“亮甲”等，所以模型以很大的概率预测视频组为广告，例如0.98。

(5)语音转换的文本“灰指甲，认亮甲，快好亮甲”输入基于广告语的预测模型，如果训练网络时用到含有“亮甲”的广告数据，则以很大的概率判定为广告,例如0.8；如果训练网络时没用含有“亮甲”的广告数据，则以判定为广告的概率不大，例如0.3。

(6)利用集成模块，计算最终预测结果。即使训练数据中没有“亮甲”的广告，由于基于视频帧组的预测模型和基于帧内文字的预测模型以很高的概率判定视频帧组为广告，最终会以大概率判定视频组为广告。

(7)如果判定某镜头为广告，则定位其在原始视频的起始和终止位置，根据定位结果对原始视频中的广告进行剪辑，并统计每个广告的播放时间、播放次数、播放长度等广告的曝光信息。

对于本领域技术人员而言，显然本发明专利不限于上述示范性实施例的细节，而且在不背离本发明专利的精神或基本特征的情况下，能够以其他的具体形式实现本发明专利。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明专利的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种面向全媒体数据的广告检测方法，其特征在于：通过对收集的视频数据进行离线训练，根据离线训练得到的预测结果对在线播放视频进行在线检测；

其中，离线训练的过程为：

（1）对收集的视频数据进行剪辑得到广告样本集和非广告样本集；分别提取广告样本集和非广告样本集中所有视频的语音、视频帧及其CNN特征；

（2）利用CNN特征计算任意相邻两帧的相似度，如果相邻两帧相似度小于预先设定的阈值则判定该处为镜头切换时间点，并以镜头切换时间点对所有广告样本集和非广告样本集中视频的视频帧和语音进行分组形成视频帧组及其对应的语音；

（3）将广告样本集和非广告样本集中视频的视频帧组分别作为正、负样本，把正、负样本输入卷积神经网络对卷积神经网络进行训练，并对每个视频帧组中视频帧的预测结果进行融合，得到基于视频帧组的预测模型；提取每个视频帧组中所有视频帧中出现的文字，对卷积神经网络进行训练得到基于帧内文字的预测模型；将每个视频帧组对应的语音转换为文本，并利用预训练模型BERT得到转换文本的特征矩阵，把特征矩阵输入卷积神经网络对卷积神经网络进行训练得到基于广告语的预测模型；

（4）分别将基于视频帧组、帧内文字和广告语的预测模型的预测结果进行集成学习，得到视频数据对应镜头是否为广告的预测结果；

在线检测的过程为：

(1)提取播放视频的语音、视频帧及其CNN特征；

(3)将每视频帧组的所有视频帧依次输入离线训练得到的基于视频帧组的预测模型，并融合每组视频帧的每帧预测结果得到视频帧组的预测结果；

(4)提取每组视频帧组中的文字输入基于帧内文字的预测模型，提取与每组视频帧组对应的语音转换为文字的特征矩阵输入基于广告语的预测模型，分别得到预测结果；

(5)将步骤(3)和步骤(4)得到的预测结果，利用离线训练得到的集成学习模型将基于视频帧、帧内文字和广告语的预测结果集成输出最终预测结果；

(6)根据步骤(5)的预测结果判定播放视频中某镜头是否为广告，如果为广告，则定位其在作为原始视频的播放视频的起始和终止位置，并根据定位结果对原始视频中的广告进行剪辑，并统计广告的曝光信息。

2.根据权利要求1所述的一种面向全媒体数据的广告检测方法，其特征在于，所述离线训练的步骤（1）中CNN特征为将视频帧输入在ImageNet数据集上训练的AlexNet网络得到的，提取的CNN特征表示为

，其中

表示所有视频帧的数量，

表示第

个视频帧的CNN特征，离线训练的步骤（2）中所述的相似度计算用下式计算：

其中

表示第

个视频帧和第

个视频帧的相似度。

3.根据权利要求1所述的一种面向全媒体数据的广告检测方法，其特征在于，所述离线训练的步骤（3）中基于视频帧组的预测模型的生成，其训练过程具体包括以下步骤：

（1）将所有视频帧缩放到224×224，设定期望误差

和最大迭代次数

；

（2）将所有视频帧分为

组；

（3）将一组视频帧依次输入卷积神经网络，直至所有帧全部输入完毕，其中每个视频帧输入网络包括以下步骤：

（34）之后是两个有4096个通道的全连接层；

（36）求预测结果与目标值之间的误差；

（5）返回步骤（3），直至所有组都训练完毕；

（6）当误差小于

或迭代次数大于

时，结束训练，否则返回步骤（2）。

4.根据权利要求1所述的一种面向全媒体数据的广告检测方法，其特征在于，所述离线训练的步骤(3)中每个视频帧组中出现的文字提取方法为：

判断视频帧中文本的朝向；

将字符送入预训练好的文字提取网络CRNN进行字符识别，得到结果，具体包括：

将图像被缩放为32×W×3的大小；

经过卷积层之后，输出1×(W/4)×512大小的特征；

循环层输出为T×N,N为数据集里的字符数，每一帧对应一个1×N的特征；

5.根据权利要求4所述的一种面向全媒体数据的广告检测方法，其特征在于，所述离线训练的步骤（3）中基于帧内文字的预测模型的生成是基于文本的卷积神经网络，训练网络参数得到，具体包括以下步骤：

生成的索引号输入数据首先通过一个嵌入层，将词向量化为较小的固定维度的特征向量；

然后通过一个卷积层，提取不同的基于统计语言模型的n-gram特征；

6.根据权利要求1所述的一种面向全媒体数据的广告检测方法，其特征在于，所述离线训练的步骤（3）中基于广告语的预测模型中将语音转换成文本是利用预训练的深度卷积神经网络模型，先对语音进行傅里叶变换，再将时间和频率作为图像的两个维度构成的语谱图作为深度卷积神经网络的输入，深度卷积神经网络包括多个卷积子网络，每个卷积子网络包括多个卷积层和一个池化层以增强卷积神经网络的表达能力，并配置多层卷积子网络，以保证深度卷积神经网络表达语音的长时相关性，实现对整句语音进行建模，输出层为全连接层，其直接与最终的识别结果相对应。

7.根据权利要求6所述的一种面向全媒体数据的广告检测方法，其特征在于，所述离线训练的步骤（3）基于广告语的预测模型中的卷积神经网络，是一个最后一层为2通道全连接层的卷积神经网络。

8.根据权利要求1所述的一种面向全媒体数据的广告检测方法，其特征在于，所述在线检测的步骤（6）中如果是广告则进行剪辑，包括：

如果判定为某镜头为广告，则定位广告的起始和终止位置；

根据定位结果对视频中的广告进行剪辑。

9.根据权利要求1所述的一种面向全媒体数据的广告检测方法，其特征在于，所述在线检测的步骤(6)中统计广告的曝光信息，包括统计所有广告的播放时间、播放次数、播放长度等信息。

10.一种面向全媒体数据的广告检测系统，其特征在于，所述的广告检测系统包括：

基于视频帧组的检测模块：对所述的视频帧进行广告预测，并融合每组视频帧得到视频帧组的预测结果；

基于帧内文字的检测模块：对所述的视频帧组中出现的文本进行广告预测；

集成模块：将基于视频帧组的检测模块、基于帧内文字的检测模块、基于语音的检测模块的预测结果进行融合得到视频广告检测结果；