CN111488487A - 一种面向全媒体数据的广告检测方法及检测系统 - Google Patents

一种面向全媒体数据的广告检测方法及检测系统 Download PDF

Info

Publication number
CN111488487A
CN111488487A CN202010202165.2A CN202010202165A CN111488487A CN 111488487 A CN111488487 A CN 111488487A CN 202010202165 A CN202010202165 A CN 202010202165A CN 111488487 A CN111488487 A CN 111488487A
Authority
CN
China
Prior art keywords
video
advertisement
video frame
prediction
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010202165.2A
Other languages
English (en)
Other versions
CN111488487B (zh
Inventor
闫连山
姚涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University
Original Assignee
Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University filed Critical Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University
Priority to CN202010202165.2A priority Critical patent/CN111488487B/zh
Publication of CN111488487A publication Critical patent/CN111488487A/zh
Application granted granted Critical
Publication of CN111488487B publication Critical patent/CN111488487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向全媒体数据的广告检测方法及检测系统:对收集视频数据进行离线训练,将视频数据分为广告样本集和非广告样本集;分别提取广告和非广告样本集中所有视频的语音、视频帧及其CNN特征;通过训练卷积神经网络,得到基于视频帧组的预测模型、基于帧内文字的预测模型、基于广告语的预测模型;将上述三个模型进行集成,得到最终预测结果;再利用根据离线训练得到的预测结果对在线播放视频进行在线检测,如果预测是广告则剪辑该镜头,并对广告的曝光信息进行统计,本发明能有效而高效地检测视频中的广告,提升广告检测的准确率和效率。

Description

一种面向全媒体数据的广告检测方法及检测系统
技术领域
本发明涉及广告检测技术领域,具体而言是一种面向全媒体数据的广告检测方法及检测系统。
背景技术
随着计算机技术和信息技术的快速发展,网络视频和电视节目等视频资源在人们的生活中有着不可替代的作用。同时,作为商业信息的传播媒介,视频广告在信息交互中占有重要的作用。对于广告投放商而言,他们希望广告播出后能尽快得到广告的曝光数据信息,例如曝光时间、时长等,并根据这些统计信息来确定广告投放的收益。但面对海量视频数据,依靠人工不仅很难实时对广告内容进行检测,而且会造成大量人力物力资源损耗。对于普通观众而言,他们对视频中的广告没兴趣,希望可以自动的快速定位视频广告段以直接跳过广告,只观看的正常视频节目。因此,如何利用现代信息技术快速而准确的检测和过滤广告视频成为一个亟待解决的问题。
大部分现存的广告检测算法一般只利用一个模态的信息,例如语音、视频帧内的文字等,忽视了各模态信息的互补的特点,造成检测的准确率不高。
发明内容
为解决现有技术中的问题,本发明提供一种面向全媒体数据的广告检测方法和检测系统,利用集成学习算法将各个模态的预测结果进行融合,提升了广告检测的准确率。
为实现上述目的,本发明是通过以下技术方案实现的:
本发明提供一种面向全媒体数据的广告检测方法,其特殊之处在于:通过对收集的视频数据进行离线训练,根据离线训练得到的预测结果对在线播放视频进行在线检测,其中离线训练的过程包括以下步骤:
(1)视频数据分类:收集视频数据,并剪辑视频中出现的广告,将视频数据分为广告样本集和非广告样本集;
(2)数据分割:分别提取广告样本集中所有样本的视频帧
Figure 179186DEST_PATH_IMAGE002
及其语音和非广告样本集中所有样本的视频帧
Figure 444951DEST_PATH_IMAGE004
及其语音,其中
Figure 942929DEST_PATH_IMAGE002
Figure 714576DEST_PATH_IMAGE005
构成视频帧集
Figure 602897DEST_PATH_IMAGE007
(3)提取视频帧集
Figure 485403DEST_PATH_IMAGE009
中所有样本的CNN特征,并利用得到的CNN特征计算任意相邻两帧间相似度,与预先设定的阈值q比较,如果相似度小于q则认为发生镜头切换,则判定该处为镜头切换时间点,并按镜头切换位置对应的镜头切换时间点,对视频帧集中所有样本和语音进行分组形成视频帧组及其对应语音,分组后的视频帧组表示为
Figure 837887DEST_PATH_IMAGE011
,其中
Figure 468850DEST_PATH_IMAGE013
表示
Figure 906785DEST_PATH_IMAGE014
分组后的结果,
Figure 265085DEST_PATH_IMAGE016
表示
Figure 737655DEST_PATH_IMAGE017
分组后的结果;
(4)将
Figure 851104DEST_PATH_IMAGE018
中所有视频帧作为正样本,将
Figure 963286DEST_PATH_IMAGE017
中所有视频帧作为负样本,将正样本、负样本依次输入到卷积神经网络进行网络参数的训练,得到基于视频帧组的预测模型,将
Figure 187593DEST_PATH_IMAGE020
中每组视频帧组中每帧的预测结果求平均值,得到视频帧组的预测结果;
(5)分别提取
Figure 249090DEST_PATH_IMAGE021
中所有视频帧组的文本
Figure 471124DEST_PATH_IMAGE023
,
Figure 883651DEST_PATH_IMAGE016
中所有视频帧组的文本
Figure 911650DEST_PATH_IMAGE025
,并将
Figure 781648DEST_PATH_IMAGE026
作为正样本,将
Figure 971321DEST_PATH_IMAGE027
作为负样本,依次输入卷积神经网络,训练网络参数,卷积神经网络可以从
Figure 808827DEST_PATH_IMAGE028
Figure 374938DEST_PATH_IMAGE029
中的文本学习到相关文字的语义信息,得基于帧内文字的预测模型,所述文字语义信息包括典型的广告词、词间的关联及语义信息;
(6)利用卷积神经网络模型将广告和非广告样本集中所有视频帧组对应的语音转换为文本
Figure 676606DEST_PATH_IMAGE031
Figure 224131DEST_PATH_IMAGE033
,并利用预训练模型BERT(Bidirectional Encoder Representations fromTransformers)得到转换文本的特征矩阵
Figure 611250DEST_PATH_IMAGE035
Figure 981051DEST_PATH_IMAGE037
,分别将
Figure 809330DEST_PATH_IMAGE035
Figure 606385DEST_PATH_IMAGE037
作为正、负样本,输入卷积神经网络训练得到基于广告语的预测模型;
(7)分别将基于视频帧组、帧内文字和广告语的预测模型的预测结果进行集成学习得到视频数据对应镜头是否为广告的预测结果,也就是视频帧组的预测结果;
在线检测的过程包括以下步骤:
(1)提取播放视频的语音、视频帧及其CNN特征;
(2)利用播放视频的CNN特征计算播放视频相邻两帧的相似度,并与设定的阈值比较,如果相邻两帧相似度小于设定的阈值则判定为镜头切换时间点,并以镜头切换时间点对视频帧和语音进行分组构成视频帧组及其对应的语音;
(3)将每视频帧组的所有视频帧依次输入离线训练过程的基于视频帧的预测模型,并融合每组视频帧的每帧预测结果得到视频帧组的预测结果;
(4)提取每组视频帧中的文字,训练一个卷积神经网络得到基于帧内文字的预测模型,此处训练依赖于离线训练过程的基于帧内文字的预测模型,得到预测结果;
(5)将每组视频帧对应的语音转换为文字,并输入预训练模型BERT,得到所有视频帧组对应语音的特征矩阵,训练一个卷积神经网络得到基于广告语的预测模型,此处训练依赖于离线训练过程的基于广告语的预测模型,得到预测结果;
(6)利用离线训练得到的集成学习模型将基于视频帧组、帧内文字和广告语的预测结果集成输出最终预测结果;
(7)如果判定某镜头为广告,则定位其在原始视频的起始和终止位置,并根据定位结果对原始视频中的广告进行剪辑,并统计广告的曝光信息。
进一步的,包括所述离线训练过程步骤(3)中卷积神经网络CNN特征为在ImageNet数据集上训练的AlexNet网络,提取的特征表示为
Figure 215221DEST_PATH_IMAGE039
,其中
Figure 65410DEST_PATH_IMAGE041
表示所有视频帧的数量,
Figure 76091DEST_PATH_IMAGE043
表示第
Figure 981730DEST_PATH_IMAGE045
个视频帧的CNN特征,所述的相似度计算用下式计算
Figure 77862DEST_PATH_IMAGE047
其中
Figure 789466DEST_PATH_IMAGE049
表示第
Figure 841605DEST_PATH_IMAGE051
个视频帧和第
Figure 980462DEST_PATH_IMAGE053
个视频帧的相似度。
进一步的,包括所述离线训练的步骤(4)中卷积神经网络进行网络参数的训练,生成基于视频帧组的预测模型,具体包括以下步骤:
(1)首先将
Figure 563890DEST_PATH_IMAGE055
中所有视频帧缩放到224×224,设定期望误差
Figure 813606DEST_PATH_IMAGE057
和最大迭代次数
Figure 736562DEST_PATH_IMAGE059
(2)将所有视频帧分为
Figure 46321DEST_PATH_IMAGE061
组;
(3)将一组视频帧依次输入卷积神经网络,直至所有帧都输入完毕,其中每个视频帧输入网络包括以下步骤:
(31)视频帧经过一系列卷积层处理,在卷积层使用3×3×3的卷积核,步长设置为1,通过卷积层的处理可以有效地提取视频帧中图像块的特征,增强特征的语义表达能力;
(32)在池化层采用最大池化法,其窗口为2×2,步长设置为2;
(33)卷积层和池化层配合,组成多个卷积组,逐层提取特征,经过5组卷积池化的处理后,在图像中提取出了4096维度的特征;
(34)之后是两个有4096个通道的全连接层;
(35)最后一层为有2个通道的全连接层,其输出为预测结果;
(36)求预测结果与目标值之间的误差;
(4)将损失函数中的误差传回网络中,依次求得全连接层,池化层,卷积层的误差,根据求得误差使用梯度下降更新各层权重值;
(5)返回步骤(3),直至所有组都训练完毕;
(6)当误差小于
Figure 805461DEST_PATH_IMAGE057
或迭代次数大于
Figure 858867DEST_PATH_IMAGE062
时,结束训练,否则返回步骤(2)。
进一步的,包括所述离线训练过程步骤(5)中提取所有样本视频帧中的文字包括:
判断视频帧中文本的朝向;
进行视频帧的预处理,包括角度矫正、位置矫正,二值化,锐化和去噪处理;
对视频帧进行水平投影,找到每一行的上界限和下界限,进行行切割;
对切割出来的每一行,进行垂直投影,找到每一个字符的左右边界,进行单个字符的切割,找到图像中的文字区域;
对每一行进行分割,然后再对每一行文本进行列分割,得到每个字符;
将字符送入预训练好的文字提取网络CRNN(卷积循环神经网络)进行字符识别,得到结果,具体包括:
将图像被缩放为32×W×3的大小;
经过卷积层之后,输出1×(W/4)×512大小的特征;
将得到的特征作为循环层的输入,此时把这个特征作为一个序列,序列长度设为T=W/4,每个1×512的特征被认为是一帧数据,共T帧;
循环层输出为T×N(N为数据集里的字符数),每一帧对应一个1×N的特征;
对得到的特征进行softmax处理,然后将处理后的数据译为后验概率最大的序列;
最后对该预测序列做后处理,合并重复的字符,得到最终的文本输出。
进一步的,包括所述离线训练过程步骤(5)中基于文本的卷积神经网络,训练网络参数,得到基于帧内文字的预测模型,具体包括以下步骤:
将得到的文本进行预处理,中文文本分类需要分词,除掉一些高频词汇和低频词汇,去掉一些无意义的符号等,建立词汇表以及单词索引,将训练文本用单词索引号表示;
生成的索引号输入数据首先通过一个嵌入层(embedding layer),将词向量化为较小的固定维度的特征向量;
然后通过一个卷积层(convolution layer),提取不同的基于统计语言模型的n-gram特征;
最大池化层对卷积后得到的若干个一维向量取最大值,然后拼接在一块,作为本层的输出值;
在池化层后拼接一个2通道的全连接层,将池化后的数据按深度方向拼接成一个向量后提供给全连接层,再经softmax激活后输出,即为基于帧内文字的预测结果。
进一步的,所述离线训练的步骤(6)中基于广告语的预测模型中将语音转换成文本是利用预训练的深度卷积神经网络模型,先对语音进行傅里叶变换,再将时间和频率作为图像的两个维度构成的语谱图作为深度卷积神经网络的输入,深度卷积神经网络包括多个卷积子网络,每个卷积子网络包括多个卷积层和一个池化层以增强卷积神经网络的表达能力,并配置多层这样的卷积子网络,以保证卷积神经网络可以很好地表达语音的长时相关性,实现对整句语音进行建模,输出层为全连接层,其直接与最终的识别结果,比如音节或者汉字相对应。
进一步的,包括所述离线训练过程步骤(6)训练卷积神经网络得到基于广告语的预测模型,具体过程包括:
Figure 698647DEST_PATH_IMAGE064
Figure 116990DEST_PATH_IMAGE066
依次输入预训练模型BERT,得到所有视频帧组对应语音的特征矩阵
Figure 409432DEST_PATH_IMAGE068
Figure 453480DEST_PATH_IMAGE070
将特征矩阵依次输入最后一层为2通道全连接层的卷积神经网络,训练其网络参数,直至收敛,得到基于广告语的预测模型。
进一步的,包括所述在线检测过程步骤(6)中如果是广告则进行剪辑,包括:
如果判定某镜头为广告,则定位广告的起始和终止位置;
根据定位结果对视频中的广告进行剪辑。
进一步的,所述在线检测过程步骤(6)中统计曝光信息,包括统计所有广告的播放时间、播放次数、播放长度等信息。
本发明提供一种面向全媒体数据的广告检测系统,其特殊之处在于,所述的广告检测系统包括:
视频数据分割模块:将所述视频数据进行分流,分为视频帧数据和音频数据;
基于视频帧组的检测模块:对所述的视频帧数据进行广告预测,并融合每组视频帧得到视频帧组的预测结果;
基于帧内文字的检测模块:对所述的视频帧数据中出现的文本进行广告预测;
基于广告语的检测模块:对所述的音频数据转换为文本后,进行广告预测;
集成模块:将基于视频帧组的检测模块、基于帧内文字的广告检测模块、基于语音的广告检测模块的预测结果进行融合得到视频广告检测结果;
统计模块:将视频广告检测结果进行统计分析,得到广告数据的分析报告。
与现有技术相比,本发明的有益之处在于:
对广播电视台和网络收集的海量视频,通过智能学习的方式快速而准确的检测和过滤广告视频,统计广告和非广告信息,实时对广告内容进行检测,在广告播出后能尽快得到广告的曝光数据信息,例如曝光时间、时长等,有利于广告商快速确定广告投放的收益,对于普通观众,可以自动的快速定位视频广告段以直接跳过广告,只观看的正常视频节目。本发明利用集成学习算法将各个模态的预测结果进行融合,提升了广告检测的准确率。
附图说明
图1为离线训练过程的流程图。
图2为在线检测过程的流程图。
图3为广告检测系统的方框图。
具体实施方式
为了加深对本发明的理解,下面将结合附图对本发明的技术方案进行详细、完整地描述,显然,所描述的实施例仅用于解释本发明,并非旨在限定本发明的保护范围。
实施例1
本发明面向全媒体数据的广告检测方法,包括两步:离线训练过程和在线检测过程;其中离线训练过程如图1所示,包括以下步骤:
(1)从广播电视台和网络上收集视频数据,剪辑视频中的出现的广告,并将训练样本集分为广告和非广告样本集。
(2)利用视频数据分割模块,将广告和非广告样本集的样本进行分流,分为视频帧数据
Figure 147766DEST_PATH_IMAGE072
和音频数据,其中
Figure 799327DEST_PATH_IMAGE074
为广告本集中所有样本的视频帧,
Figure 782327DEST_PATH_IMAGE076
为非广告样本集中所有样本的视频帧。
(3)利用在ImageNet数据集上训练好的卷积神经网络AlexNet提取视频帧训练集
Figure 177536DEST_PATH_IMAGE078
中所有样本的CNN特征表示为
Figure 414745DEST_PATH_IMAGE080
,其中
Figure 502787DEST_PATH_IMAGE082
表示所有视频帧的数量,
Figure 769820DEST_PATH_IMAGE084
表示第
Figure 906403DEST_PATH_IMAGE086
个视频帧的CNN特征,用下式计算任意相邻两帧的相似度
Figure 309703DEST_PATH_IMAGE088
其中
Figure 568646DEST_PATH_IMAGE090
表示第
Figure 509926DEST_PATH_IMAGE092
个视频帧和第
Figure 246938DEST_PATH_IMAGE094
个视频帧的相似度;
设定阈值q=0.7,如果
Figure 708006DEST_PATH_IMAGE095
<q则认为镜头在第
Figure 137850DEST_PATH_IMAGE094
帧处发生了切换,并以此为分界点对视频进行分组,并按镜头切换位置对视频帧进行分组,分组后的样本表示为
Figure 113896DEST_PATH_IMAGE097
,其中
Figure 343015DEST_PATH_IMAGE099
表示
Figure 986486DEST_PATH_IMAGE100
的分组后的结果,
Figure 259335DEST_PATH_IMAGE102
表示
Figure 988257DEST_PATH_IMAGE103
分组后的结果。
(4)基于帧内文字的广告检测模块包括文本提取模块和预测模块,首先将
Figure 254022DEST_PATH_IMAGE100
中所有视频帧作为正样本,将
Figure 751999DEST_PATH_IMAGE103
中所有视频帧作为负样本,训练一个卷积神经网络的网络参数,卷积神经网络可以很好提取样本的纹理和局部信息,学习到广告和非广告图像的一些特征,具体步骤如下:
①首先将
Figure 258067DEST_PATH_IMAGE104
中所有视频帧缩放到224×224,设定期望误差
Figure DEST_PATH_IMAGE106
=0.001,
②将上述视频帧均分为
Figure DEST_PATH_IMAGE108
组;
③然后将其中一组视频帧依次输入CNN网络,直至所有帧都输入完毕,其中每个视频帧输入网络包括以下步骤:
(a)视频帧经过一系列卷积层处理,在卷积层使用3×3×3的卷积核,步长设置为1个像素,卷积层可以有效的抓住视频帧中图像块的特征,增强特征的语义表达能力;
(b)紧接着池化层采用max-pooling,其窗口为2×2,步长设置为2;
(c)卷积层和池化层配合,组成多个卷积组,逐层提取特征;
(d)之后是两个有4096个通道的全连接层(fully-connected layers);
(e)最后一层网络通过softmax激活函数,输出对此视频帧是否为广告的预测;
④求预测结果与目标值之间的误差;
⑤将损失函数中的误差传回网络中,依次求得全连接层,池化层,卷积层的误差,根据求得误差使用梯度下降更新各层的权重值,返回步骤③,直至所有组视频都训练完毕;
⑥当误差大于期望值
Figure 100383DEST_PATH_IMAGE109
时,返回步骤②,当误差小于或等于
Figure 982889DEST_PATH_IMAGE110
时,结束训练。
(5)利用基于视频帧组的广告检测模块,将
Figure DEST_PATH_IMAGE112
中每组视频帧组中每帧的预测结果求平均值,得到视频帧组的预测结果。
(6)分别提取
Figure DEST_PATH_IMAGE114
中所有视频帧组的文本
Figure DEST_PATH_IMAGE116
Figure DEST_PATH_IMAGE118
所有视频帧组的文本
Figure DEST_PATH_IMAGE120
,包括以下步骤:判断视频帧中文本的朝向,进行视频帧的预处理,包括角度矫正、位置矫正,二值化,锐化和去噪处理;对视频帧进行水平投影,找到每一行的上界限和下界限,进行行切割;对切割出来的每一行,进行垂直投影,找到每一个字符的左右边界,进行单个字符的切割,找到图像中的文字区域;对每一行进行分割,然后再对每一行文本进行列分割,得到每个字符;将字符图像缩放为32×32×3的大小;经卷积层之后,输出1×8×512大小的特征;将得到的特征作为循环层的输入。此时我们把这个特征作为一个序列,序列长度设为T=8,每个1×512的特征被认为是一帧数据,共8帧;循环层输出为8×N(N为数据集里的字符数),每一帧对应一个1×N的特征;对得到的特征进行softmax处理,将其译为后验概率最大的序列;最后对该预测序列做后处理,合并重复的字符,得到最终的文本输出。
(7)将
Figure DEST_PATH_IMAGE122
作为正样本,将
Figure 397690DEST_PATH_IMAGE123
作为负样本,依次输入一个卷积神经网络,训练网络参数,卷积神经网络可以从
Figure 340238DEST_PATH_IMAGE122
Figure 778172DEST_PATH_IMAGE123
中的文本学习到典型的广告词、词间的关联及语义信息等,得到基于帧内文字的预测模型,具体包括以下步骤:
将得到的文本进行预处理,中文文本分类需要分词,除掉一些高频词汇和低频词汇,去掉一些无意义的符号等,建立词汇表以及单词索引,将训练文本用单词索引号表示;
生成的索引号首先通过一个嵌入层(embedding layer),将词向量化为较小的固定维度的特征向量;
然后通过一个卷积层(convolution layer),提取不同的基于统计语言模型的n-gram特征;
最大池化层对卷积后得到的若干个一维向量取最大值,然后拼接在一块,作为本层的输出值;
将池化后的数据按深度方向拼接成一个向量后提供给全连接层,再经softmax激活后输出最终结果。
(8)分别提取
Figure DEST_PATH_IMAGE125
Figure DEST_PATH_IMAGE127
中所有视频帧组对应原始视频的语音,并利用一个深度网络模型将所有视频帧组的语音转换为文本
Figure DEST_PATH_IMAGE129
Figure DEST_PATH_IMAGE131
,包括多个卷积子网络,每个卷积子网络包括多个卷积层和一个池化层,将每句语音转换为文本的步骤包括:
先对每帧语音进行傅里叶变换,再将时间和频率作为图像的两个维度构成的语谱图直接作为卷积神经网络的输入;
配置每个卷积层使用3×3的卷积核,并在多个卷积层之后再加上池化层,以增强卷积神经网络的表达能力;
配置多层这样的卷积子网络,以保证卷积神经网络可以很好地表达语音的长时相关性,实现对整句语音进行建模;
输出单元直接与最终的识别结果比如音节或者汉字相对应。
(9) 将
Figure DEST_PATH_IMAGE133
Figure 824888DEST_PATH_IMAGE134
中的文本依次输入预训练模型BERT,得到其特征矩阵
Figure DEST_PATH_IMAGE136
Figure DEST_PATH_IMAGE138
,并分别将
Figure 484408DEST_PATH_IMAGE136
Figure 269962DEST_PATH_IMAGE138
作为正、负样本,训练一个最后一层为2通道全连接层的卷积神经网络,得到基于广告语的预测模型。
(10)利用集成模块分别将基于视频帧组、帧内文字和广告语的预测结果进行线性叠加,得到视频帧组的预测结果,如果结果大于0.5则判定该视频组为广告,否则不是广告。
在线检测过程如图2所示,包括以下步骤:
(1)提取播放视频的视频帧,并提取每帧的CNN特征,利用CNN特征计算相邻两帧的相似度,并与设定的阈值q比较,如果小于q则为视频组的分割点,将视频帧分割为视频帧组,依次判断每个视频帧组是否为广告。
为更清楚明白的叙述本实施例,本实施例以“亮甲”广告视频的一个镜头为例,其对应的广告语为“灰指甲,认亮甲,快好亮甲”,图像画面含有“药品包装盒、乐泰集团快好药业的商标、电话:4001-011-011、台标”等,文字含有“乐泰集团、快好药业、亮甲、电话:4001-011-011、广告”等,详细说明本发明的在线检测的实施过程。
(2)提取每组视频帧中的文字:“乐泰集团、快好药业、亮甲、电话:4001-011-011、广告”,并将每组视频帧对应的原始视频中的语音转换为文字:“灰指甲,认亮甲,快好亮甲”。
(3)将所有视频帧组的所有视频帧依次输入训练好的视频帧的预测模型,由于卷积神经网络含有多个卷积层,可以抓取到广告视频帧中常用的商标信息、包装信息等,所以网络以很大的概率预测视频帧组为广告,例如0.7。
(4)将视频帧中提取的文字“乐泰集团、快好药业、亮甲、电话:4001-011-011、广告”输入训练好的基于帧内文字预测模型,由于文字中含有广告视频帧中常含有的文字“广告”、“电话”、“集团”、“药业”、知名品牌“亮甲”等,所以模型以很大的概率预测视频组为广告,例如0.98。
(5)语音转换的文本“灰指甲,认亮甲,快好亮甲”输入基于广告语的预测模型,如果训练网络时用到含有“亮甲”的广告数据,则以很大的概率判定为广告,例如0.8;如果训练网络时没用含有“亮甲”的广告数据,则以判定为广告的概率不大,例如0.3。
(6)利用集成模块,计算最终预测结果。即使训练数据中没有“亮甲”的广告,由于基于视频帧组的预测模型和基于帧内文字的预测模型以很高的概率判定视频帧组为广告,最终会以大概率判定视频组为广告。
(7)如果判定某镜头为广告,则定位其在原始视频的起始和终止位置,根据定位结果对原始视频中的广告进行剪辑,并统计每个广告的播放时间、播放次数、播放长度等广告的曝光信息。
对于本领域技术人员而言,显然本发明专利不限于上述示范性实施例的细节,而且在不背离本发明专利的精神或基本特征的情况下,能够以其他的具体形式实现本发明专利。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明专利的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (10)

1.一种面向全媒体数据的广告检测方法,其特征在于:通过对收集的视频数据进行离线训练,根据离线训练得到的预测结果对在线播放视频进行在线检测;
其中,离线训练的过程为:
(1)对收集的视频数据进行剪辑得到广告样本集和非广告样本集;分别提取广告样本集和非广告样本集中所有视频的语音、视频帧及其CNN特征;
(2)利用CNN特征计算任意相邻两帧的相似度,如果相邻两帧相似度小于预先设定的阈值则判定该处为镜头切换时间点,并以镜头切换时间点对所有广告样本集和非广告样本集中视频的视频帧和语音进行分组形成视频帧组及其对应的语音;
(3)将广告样本集和非广告样本集中视频的视频帧组分别作为正、负样本,把正、负样本输入卷积神经网络对卷积神经网络进行训练,并对每个视频帧组中视频帧的预测结果进行融合,得到基于视频帧组的预测模型;提取每个视频帧组中所有视频帧中出现的文字,对卷积神经网络进行训练得到基于帧内文字的预测模型;将每个视频帧组对应的语音转换为文本,并利用预训练模型BERT得到转换文本的特征矩阵,把特征矩阵输入卷积神经网络对卷积神经网络进行训练得到基于广告语的预测模型;
(4)分别将基于视频帧组、帧内文字和广告语的预测模型的预测结果进行集成学习,得到视频数据对应镜头是否为广告的预测结果;
在线检测的过程为:
(1)提取播放视频的语音、视频帧及其CNN特征;
(2)利用播放视频的CNN特征计算播放视频相邻两帧的相似度,并与设定的阈值比较,如果相邻两帧相似度小于设定的阈值则判定为镜头切换时间点,并以镜头切换时间点对视频帧和语音进行分组构成视频帧组及其对应的语音;
(3)将每视频帧组的所有视频帧依次输入离线训练得到的基于视频帧组的预测模型,并融合每组视频帧的每帧预测结果得到视频帧组的预测结果;
(4)提取每组视频帧组中的文字输入基于帧内文字的预测模型,提取与每组视频帧组对应的语音转换为文字的特征矩阵输入基于广告语的预测模型,分别得到预测结果;
(5)将步骤(3)和步骤(4)得到的预测结果,利用离线训练得到的集成学习模型将基于视频帧、帧内文字和广告语的预测结果集成输出最终预测结果;
(6)根据步骤(5)的预测结果判定播放视频中某镜头是否为广告,如果为广告,则定位其在作为原始视频的播放视频的起始和终止位置,并根据定位结果对原始视频中的广告进行剪辑,并统计广告的曝光信息。
2.根据权利要求1所述的一种面向全媒体数据的广告检测方法,其特征在于,所述离线训练的步骤(1)中CNN特征为将视频帧输入在ImageNet数据集上训练的AlexNet网络得到的,提取的CNN特征表示为
Figure DEST_PATH_IMAGE001
,其中
Figure 983074DEST_PATH_IMAGE002
表示所有视频帧的数量,
Figure DEST_PATH_IMAGE003
表示第
Figure 463997DEST_PATH_IMAGE004
个视频帧的CNN特征,离线训练的步骤(2)中所述的相似度计算用下式计算:
Figure DEST_PATH_IMAGE005
其中
Figure 306051DEST_PATH_IMAGE006
表示第
Figure DEST_PATH_IMAGE007
个视频帧和第
Figure 701260DEST_PATH_IMAGE008
个视频帧的相似度。
3.根据权利要求1所述的一种面向全媒体数据的广告检测方法,其特征在于,所述离线训练的步骤(3)中基于视频帧组的预测模型的生成,其训练过程具体包括以下步骤:
(1)将所有视频帧缩放到224×224,设定期望误差
Figure DEST_PATH_IMAGE009
和最大迭代次数
Figure 577949DEST_PATH_IMAGE010
(2)将所有视频帧分为
Figure DEST_PATH_IMAGE011
组;
(3)将一组视频帧依次输入卷积神经网络,直至所有帧全部输入完毕,其中每个视频帧输入网络包括以下步骤:
(31)视频帧经过一系列卷积层处理,在卷积层使用3×3×3的卷积核,步长设置为1,通过卷积层的处理可以有效地提取视频帧中图像块的特征,增强特征的语义表达能力;
(32)在池化层采用最大池化法,其窗口为2×2,步长设置为2;
(33)卷积层和池化层配合,组成多个卷积组,逐层提取特征,经过5组卷积池化的处理后,在图像中提取出了4096维度的特征;
(34)之后是两个有4096个通道的全连接层;
(35)最后一层为有2个通道的全连接层,其输出为预测结果;
(36)求预测结果与目标值之间的误差;
(4)将损失函数中的误差传回网络中,依次求得全连接层,池化层,卷积层的误差,根据求得误差使用梯度下降更新各层权重值;
(5)返回步骤(3),直至所有组都训练完毕;
(6)当误差小于
Figure 462728DEST_PATH_IMAGE012
或迭代次数大于
Figure DEST_PATH_IMAGE013
时,结束训练,否则返回步骤(2)。
4.根据权利要求1所述的一种面向全媒体数据的广告检测方法,其特征在于,所述离线训练的步骤(3)中每个视频帧组中出现的文字提取方法为:
判断视频帧中文本的朝向;
进行视频帧的预处理,包括角度矫正、位置矫正,二值化,锐化和去噪处理;
对视频帧进行水平投影,找到每一行的上界限和下界限,进行行切割;
对切割出来的每一行,进行垂直投影,找到每一个字符的左右边界,进行单个字符的切割,找到图像中的文字区域;
对每一行进行分割,然后再对每一行文本进行列分割,得到每个字符;
将字符送入预训练好的文字提取网络CRNN进行字符识别,得到结果,具体包括:
将图像被缩放为32×W×3的大小;
经过卷积层之后,输出1×(W/4)×512大小的特征;
将得到的特征作为循环层的输入,此时把这个特征作为一个序列,序列长度设为T=W/4,每个1×512的特征被认为是一帧数据,共T帧;
循环层输出为T×N,N为数据集里的字符数,每一帧对应一个1×N的特征;
对得到的特征进行softmax处理,然后将处理后的数据译为后验概率最大的序列;
最后对该预测序列做后处理,合并重复的字符,得到最终的文本输出。
5.根据权利要求4所述的一种面向全媒体数据的广告检测方法,其特征在于,所述离线训练的步骤(3)中基于帧内文字的预测模型的生成是基于文本的卷积神经网络,训练网络参数得到,具体包括以下步骤:
将得到的文本进行预处理,中文文本分类需要分词,除掉一些高频词汇和低频词汇,去掉一些无意义的符号等,建立词汇表以及单词索引,将训练文本用单词索引号表示;
生成的索引号输入数据首先通过一个嵌入层,将词向量化为较小的固定维度的特征向量;
然后通过一个卷积层,提取不同的基于统计语言模型的n-gram特征;
最大池化层对卷积后得到的若干个一维向量取最大值,然后拼接在一块,作为本层的输出值;
在池化层后拼接一个2通道的全连接层,将池化后的数据按深度方向拼接成一个向量后提供给全连接层,再经softmax激活后输出,即为基于帧内文字的预测结果。
6.根据权利要求1所述的一种面向全媒体数据的广告检测方法,其特征在于,所述离线训练的步骤(3)中基于广告语的预测模型中将语音转换成文本是利用预训练的深度卷积神经网络模型,先对语音进行傅里叶变换,再将时间和频率作为图像的两个维度构成的语谱图作为深度卷积神经网络的输入,深度卷积神经网络包括多个卷积子网络,每个卷积子网络包括多个卷积层和一个池化层以增强卷积神经网络的表达能力,并配置多层卷积子网络,以保证深度卷积神经网络表达语音的长时相关性,实现对整句语音进行建模,输出层为全连接层,其直接与最终的识别结果相对应。
7.根据权利要求6所述的一种面向全媒体数据的广告检测方法,其特征在于,所述离线训练的步骤(3)基于广告语的预测模型中的卷积神经网络,是一个最后一层为2通道全连接层的卷积神经网络。
8.根据权利要求1所述的一种面向全媒体数据的广告检测方法,其特征在于,所述在线检测的步骤(6)中如果是广告则进行剪辑,包括:
如果判定为某镜头为广告,则定位广告的起始和终止位置;
根据定位结果对视频中的广告进行剪辑。
9.根据权利要求1所述的一种面向全媒体数据的广告检测方法,其特征在于,所述在线检测的步骤(6)中统计广告的曝光信息,包括统计所有广告的播放时间、播放次数、播放长度等信息。
10.一种面向全媒体数据的广告检测系统,其特征在于,所述的广告检测系统包括:
视频数据分割模块:将所述视频数据进行分流,分为视频帧数据和音频数据;
基于视频帧组的检测模块:对所述的视频帧进行广告预测,并融合每组视频帧得到视频帧组的预测结果;
基于帧内文字的检测模块:对所述的视频帧组中出现的文本进行广告预测;
基于广告语的检测模块:对所述的音频数据转换为文本后,进行广告预测;
集成模块:将基于视频帧组的检测模块、基于帧内文字的检测模块、基于语音的检测模块的预测结果进行融合得到视频广告检测结果;
统计模块:将视频广告检测结果进行统计分析,得到广告数据的分析报告。
CN202010202165.2A 2020-03-20 2020-03-20 一种面向全媒体数据的广告检测方法及检测系统 Active CN111488487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010202165.2A CN111488487B (zh) 2020-03-20 2020-03-20 一种面向全媒体数据的广告检测方法及检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010202165.2A CN111488487B (zh) 2020-03-20 2020-03-20 一种面向全媒体数据的广告检测方法及检测系统

Publications (2)

Publication Number Publication Date
CN111488487A true CN111488487A (zh) 2020-08-04
CN111488487B CN111488487B (zh) 2022-03-01

Family

ID=71798352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010202165.2A Active CN111488487B (zh) 2020-03-20 2020-03-20 一种面向全媒体数据的广告检测方法及检测系统

Country Status (1)

Country Link
CN (1) CN111488487B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112291589A (zh) * 2020-10-29 2021-01-29 腾讯科技(深圳)有限公司 视频文件的结构检测方法、装置
CN113949881A (zh) * 2021-11-15 2022-01-18 赵茜茜 一种基于智慧城市数据的业务处理方法及系统
CN114979691A (zh) * 2022-05-23 2022-08-30 上海影谱科技有限公司 一种体育赛事转播权益广告统计分析方法及系统
WO2022201151A1 (en) * 2021-03-21 2022-09-29 Mirage Dynamics Ltd System and method for measuring advertisements exposure in 3d computer games
CN117194818A (zh) * 2023-11-08 2023-12-08 北京信立方科技发展股份有限公司 基于视频的图文网页生成方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040125877A1 (en) * 2000-07-17 2004-07-01 Shin-Fu Chang Method and system for indexing and content-based adaptive streaming of digital video content
CN103605991A (zh) * 2013-10-28 2014-02-26 复旦大学 一种视频广告的自动检测方法
CN108540833A (zh) * 2018-04-16 2018-09-14 北京交通大学 一种基于镜头的电视广告识别方法
CN109977779A (zh) * 2019-02-26 2019-07-05 北京交通大学 对视频创意中插入的广告进行识别的方法
CN110458591A (zh) * 2019-06-14 2019-11-15 深圳壹账通智能科技有限公司 广告信息检测方法、装置及计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040125877A1 (en) * 2000-07-17 2004-07-01 Shin-Fu Chang Method and system for indexing and content-based adaptive streaming of digital video content
CN103605991A (zh) * 2013-10-28 2014-02-26 复旦大学 一种视频广告的自动检测方法
CN108540833A (zh) * 2018-04-16 2018-09-14 北京交通大学 一种基于镜头的电视广告识别方法
CN109977779A (zh) * 2019-02-26 2019-07-05 北京交通大学 对视频创意中插入的广告进行识别的方法
CN110458591A (zh) * 2019-06-14 2019-11-15 深圳壹账通智能科技有限公司 广告信息检测方法、装置及计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NAN LIU: "MULTI-MODAL CHARACTERISTICS ANALYSIS AND FUSION", 《IEEE ICME2010》 *
张玉珍等: "基于音频和文本融合的广告单元分割", 《南京理工大学学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112291589A (zh) * 2020-10-29 2021-01-29 腾讯科技(深圳)有限公司 视频文件的结构检测方法、装置
CN112291589B (zh) * 2020-10-29 2023-09-22 腾讯科技(深圳)有限公司 视频文件的结构检测方法、装置
WO2022201151A1 (en) * 2021-03-21 2022-09-29 Mirage Dynamics Ltd System and method for measuring advertisements exposure in 3d computer games
CN113949881A (zh) * 2021-11-15 2022-01-18 赵茜茜 一种基于智慧城市数据的业务处理方法及系统
CN113949881B (zh) * 2021-11-15 2023-10-03 山东瑞瀚网络科技有限公司 一种基于智慧城市数据的业务处理方法及系统
CN114979691A (zh) * 2022-05-23 2022-08-30 上海影谱科技有限公司 一种体育赛事转播权益广告统计分析方法及系统
CN114979691B (zh) * 2022-05-23 2023-07-28 上海影谱科技有限公司 一种体育赛事转播权益广告统计分析方法及系统
CN117194818A (zh) * 2023-11-08 2023-12-08 北京信立方科技发展股份有限公司 基于视频的图文网页生成方法及装置
CN117194818B (zh) * 2023-11-08 2024-01-16 北京信立方科技发展股份有限公司 基于视频的图文网页生成方法及装置

Also Published As

Publication number Publication date
CN111488487B (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN111488487B (zh) 一种面向全媒体数据的广告检测方法及检测系统
Yang et al. LRW-1000: A naturally-distributed large-scale benchmark for lip reading in the wild
Chung et al. Lip reading in profile
Shi et al. American sign language fingerspelling recognition in the wild
CN110020437B (zh) 一种视频和弹幕相结合的情感分析及可视化方法
Chung et al. Lip reading in the wild
US10304458B1 (en) Systems and methods for transcribing videos using speaker identification
CN106878632A (zh) 一种视频数据的处理方法和装置
Stappen et al. Muse 2020 challenge and workshop: Multimodal sentiment analysis, emotion-target engagement and trustworthiness detection in real-life media: Emotional car reviews in-the-wild
CN112733654B (zh) 一种视频拆条的方法和装置
CN112001184B (zh) 面向视频弹幕的用户情感差异区域检测方法和系统
CN111160134A (zh) 一种以人为主体的视频景别分析方法和装置
CN112183334A (zh) 一种基于多模态特征融合的视频深度关系分析方法
CN113766314A (zh) 视频切分方法、装置、设备、系统及存储介质
CN112633241A (zh) 一种基于多特征融合和随机森林模型的新闻故事分割方法
CN113221900A (zh) 一种基于密集连接卷积网络的多模态视频中文字幕识别方法
CN113936236A (zh) 一种基于多模态特征的视频实体关系及交互识别方法
CN116049557A (zh) 一种基于多模态预训练模型的教育资源推荐方法
CN115346261A (zh) 基于改进ConvMixer网络和动态焦点损失的视听情感分类方法
CN114051154A (zh) 一种新闻视频拆条方法和系统
WO2024139300A1 (zh) 视频文字处理方法、装置、电子设备及存储介质
Xiao et al. Lip reading in Cantonese
Stappen et al. MuSe 2020--The First International Multimodal Sentiment Analysis in Real-life Media Challenge and Workshop
CN115439614A (zh) 虚拟形象的生成方法、装置、电子设备和存储介质
CN115965810A (zh) 一种基于多模态一致性的短视频谣言检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200804

Assignee: Aidian (Shandong) Technology Co.,Ltd.

Assignor: Yantai new generation information technology research institute of Southwest Jiaotong University

Contract record no.: X2024980007866

Denomination of invention: An Advertising Detection Method and Detection System for Full Media Data

Granted publication date: 20220301

License type: Common License

Record date: 20240628