CN112995710A - 视频中广告牌自动提取方法、系统及存储介质 - Google Patents

视频中广告牌自动提取方法、系统及存储介质 Download PDF

Info

Publication number
CN112995710A
CN112995710A CN202110153640.6A CN202110153640A CN112995710A CN 112995710 A CN112995710 A CN 112995710A CN 202110153640 A CN202110153640 A CN 202110153640A CN 112995710 A CN112995710 A CN 112995710A
Authority
CN
China
Prior art keywords
billboard
frame
video
classification information
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110153640.6A
Other languages
English (en)
Other versions
CN112995710B (zh
Inventor
王丹丹
张平安
赵文勇
赵学华
韩丽屏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Information Technology
Original Assignee
Shenzhen Institute of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Information Technology filed Critical Shenzhen Institute of Information Technology
Priority to CN202110153640.6A priority Critical patent/CN112995710B/zh
Publication of CN112995710A publication Critical patent/CN112995710A/zh
Application granted granted Critical
Publication of CN112995710B publication Critical patent/CN112995710B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data

Abstract

本发明提供了一种视频中广告牌自动提取方法、系统及存储介质,该方法包括以下步骤:基于预先设定的广告牌分类信息提取视频样本中的视频关键帧;采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌;在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段;根据分类信息对检测到的广告牌进行分类管理,并将检测到的广告牌呈现给用户。相对于现有技术,本发明提高了视频中广告牌提取的精度和速度。

Description

视频中广告牌自动提取方法、系统及存储介质
技术领域
本发明涉及互联网系统控制技术领域,尤其涉及一种视频中广告牌自动提取方法、系统及存储介质。
背景技术
随着移动互联网的发展,人们普遍开始从网络上搜索观看视频资源,尤其随着短视频应用的发展,涌现出海量的视频内容,广大网民也越来越习惯通过观看短视频来获取信息。在多数视频中,除了主要人物和道具影响到视频观看者的观看体验外,还存在许多不影响观看的背景信息,例如电视屏幕,开会时的办公桌,光滑的墙壁、大厦的外立面等。将这些识别出来作为自动广告牌,既不用户体验,又具有重要的商业价值。
然而,在现有技术例如专利号为CN107493488A的专利文献中,识别和提取广告牌的速度低,并且精确度不高。
发明内容
本发明的主要目的在于提供一种视频中广告牌自动提取方法、系统及存储介质,旨在提高视频中广告牌提取的精度和速度。
为了达到上述目的,本发明提出一种视频中广告牌自动提取方法,所述方法包括以下步骤:
基于预先设定的广告牌分类信息提取视频样本中的视频关键帧;
采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌;
在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段;
根据分类信息对检测到的广告牌进行分类管理,并将检测到的广告牌呈现给用户。
本发明进一步的技术方案是,所述基于预先设定的广告牌分类信息提取视频样本中的视频关键帧的步骤包括:
基于预先设定的广告牌分类信息采用均匀采样方式提取视频样本中的视频关键帧。
本发明进一步的技术方案是,所述采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌的步骤中,主干网络采用ResNet50,特征融合部分采用特征金字塔网络。
本发明进一步的技术方案是,所述采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌的步骤中采样的损失函数为:
Figure 100002_DEST_PATH_IMAGE001
其中,
Figure 428707DEST_PATH_IMAGE002
Figure 100002_DEST_PATH_IMAGE003
为正负样本分配的权重,
Figure 991188DEST_PATH_IMAGE004
Figure 849553DEST_PATH_IMAGE005
,p为正样本的概率,
Figure 448025DEST_PATH_IMAGE006
Figure 590293DEST_PATH_IMAGE007
为调节难易样本的权重,
Figure 255499DEST_PATH_IMAGE008
本发明进一步的技术方案是,所述在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段的步骤之前包括:
根据当前帧的检测结果判断对应的广告牌是否是所需类别;
若是,则判断对应的广告牌是所需类别的置信度是否大于预设阈值;
判断连续几帧是否均符合预设条件,其中,所述预设条件为当前帧的检测结果是所需类别,且置信度大于预设阈值;
若是,则判断连续性是否大于预设阈值;
若是,则执行所述在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段的步骤。
本发明进一步的技术方案是,所述在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段的步骤包括:
在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,用分类、视频ID、起始时间和结束时间四个字段标记广告牌,得到各类广告牌的片段。
为实现上述目的,本发明还提出一种视频中广告牌自动提取系统,所述系统包括存储器、处理器以及存储在所述处理器上的视频中广告牌自动提取程序,所述视频中广告牌自动提取程序被处理器调用时执行以下步骤:
基于预先设定的广告牌分类信息提取视频样本中的视频关键帧;
采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌;
在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段;
根据分类信息对检测到的广告牌进行分类管理,并将检测到的广告牌呈现给用户。
本发明进一步的技术方案是,所述视频中广告牌自动提取程序被处理器调用时还执行以下步骤:
基于预先设定的广告牌分类信息采用每秒五帧的均匀采样方式提取视频样本中的视频关键帧。
本发明进一步的技术方案是,所述采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌的步骤中,主干网络采用ResNet50,特征融合部分采用特征金字塔网络。
为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有视频中广告牌自动提取程序,所述视频中广告牌自动提取程序被处理器调用时执行如上所述的方法的步骤。
本发明视频中广告牌自动提取方法、系统及存储介质的有益效果是:本发明通过上述技术方案,基于预先设定的广告牌分类信息提取视频样本中的视频关键帧;采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌;在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段;根据分类信息对检测到的广告牌进行分类管理,并将检测到的广告牌呈现给用户,提高了视频中广告牌提取的精度和速度。
附图说明
图1是本发明视频中广告牌自动提取方法第一实施例的流程示意图;
图2是本发明视频中广告牌自动提取方法采用RetinaNet卷积神经网络的框架图;
图3是本发明视频中广告牌自动提取方法第二实施例的流程示意图;
图4是为了提高检测中小目标准确度的特征金字塔网络示意图。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
为了填补大规模自动提取广告牌技术的空白,本发明提出一种视频中广告牌自动提取方法,该方法可应用于视频广告插入、广告后植入、商品植入等多种场合,可以对互联网中海量的视频进行自动分析及提取可插入广告的区域,并按可插入区域的类型分好类,统计出每一类覆盖的视频数量及时长,满足不同客户的诉求,具有良好的商业价值和应用前景。
本发明所采用的技术方案主要是首先调研用户的需求,将用户希望插入广告的区域分为:屏幕、墙面、桌面、大厦外立面等四类广告牌。其次要对所有视频进行扫描,提取关键帧后,使用 RetinaNet卷积神经网络检测出上述四类广告牌,并根据每一帧的检测结果判断属于某一个类别以及帧的连续性,得到各类“广告牌”的片段,根据分类信息通过分类管理将信息汇总呈现给用户。
具体地,请参照图1,本发明视频中广告牌自动提取方法第一实施例包括以下步骤:
步骤S10,基于预先设定的广告牌分类信息提取视频样本中的视频关键帧。
本实施例中,根据预先调研的广告牌分类,使用统一的物体检测方案,将各类广告牌纳入检测框架,可以极大地提高检测速度,其中,将用户希望插入广告的区域例如可以分为屏幕、墙面、桌面、大厦外立面等四类广告牌。
本实施例中,视频可以是预先存储在视频库中的视频,也可以是实时拍摄的视频。在提取视频关键帧时,采用均匀采样的方式提取视频关键帧。考虑到视频库的大部分视频帧率为25赫兹或者30赫兹,所以使用一秒5帧的均匀采样方式进行关键帧提取。
步骤S20,采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌。
请参照图2,本实施例在进行广告牌检测时,采用深度学习技术中的物体检测算法RetinaNet进行处理。这是由于RetinaNet是一种一阶段的物体检测算法,同时解决了正负样本不平衡的问题,在保证检测精度的前提下极大地提高了检测速度。
步骤S30,在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段。
本实施例在关键帧通过RetinaNet检测网络之后,可以得到每一帧的检测结果。通过简单的后续处理即可得到连续片段。主要的衡量规则包括:
(1)当前帧的检测结果是否是所需类别,置信度是否大于预设阈值
(2)当连续几帧均符合条件时,判断连续性是否大于预设阈值;
当上述两个条件都满足时,该片段即为所需的广告牌,用分类、该视频ID、起始时间、结束时间四个字段来标记。
步骤S40,根据分类信息对检测到的广告牌进行分类管理,并将检测到的广告牌呈现给用户。
本实施例将提取出来的各分类广告牌,根据不同的分类,用广告牌管理系统管理起来,广告主可以知道自己感兴趣的每个分类下的视频数、片段时长有多少,看是否与自己的需求匹配。
本实施例通过上述技术方案,基于预先设定的广告牌分类信息提取视频样本中的视频关键帧;采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌;在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段;根据分类信息对检测到的广告牌进行分类管理,并将检测到的广告牌呈现给用户,提高了视频中广告牌提取的精度和速度。
进一步的,请参照图3,基于图1所示的第一实施例提出本发明第二实施例。
本实施例与图1所示的第一实施例的区别在于,上述步骤S10,基于预先设定的广告牌分类信息提取视频样本中的视频关键帧的步骤包括:
步骤S101,基于预先设定的广告牌分类信息采用均匀采样方式提取视频样本中的视频关键帧。
本实施例中,根据预先调研的广告牌分类,使用统一的物体检测方案,将各类广告牌纳入检测框架,可以极大地提高检测速度,其中,将用户希望插入广告的区域例如可以分为屏幕、墙面、桌面、大厦外立面等四类广告牌。
本实施例在提取视频关键帧时,采用均匀采样的方式提取视频关键帧。考虑到视频库的大部分视频帧率为25赫兹或者30赫兹,所以使用一秒5帧的均匀采样方式进行关键帧提取。
本实施例通过基于预先设定的广告牌分类信息采用均匀采样方式提取视频样本中的视频关键帧,采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌;在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段;根据分类信息对检测到的广告牌进行分类管理,并将检测到的广告牌呈现给用户,能进一步提高视频中广告牌提取的精度和速度。
基于图1所示的第一实施例或者图3所示的第二实施例,提出本发明第三实施例。
本实施例中,所述采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌的步骤中,主干网络采用ResNet50,特征融合部分采用特征金字塔网络。
所述采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌的步骤中采样的损失函数为:
Figure 788111DEST_PATH_IMAGE009
其中,
Figure 659115DEST_PATH_IMAGE010
Figure 531256DEST_PATH_IMAGE011
为正负样本分配的权重,
Figure 101784DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
,p为正样本的概率,
Figure 465900DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
为调节难易样本的权重,
Figure 107972DEST_PATH_IMAGE016
在进行广告牌检测时,采用深度学习技术中的物体检测算法RetinaNet进行处理。这是由于RetinaNet是一种一阶段的物体检测算法,同时解决了正负样本不平衡的问题,在保证检测精度的前提下极大地提高了检测速度。
如图4所示,主干网络选用ResNet50,特征融合部分选用FPN(特征金字塔网络),该结构解决了多尺度检测问题,引入了特征金字塔网络,尤其提高了中小目标的检测准确率。
损失函数部分采用Focal Loss函数,解决了训练过程中正负样本不平衡的问题,提高了网络的收敛速度和检测精度。
Focal Loss函数在交叉熵损失函数的基础之上,引入了参数
Figure 959253DEST_PATH_IMAGE017
Figure 857939DEST_PATH_IMAGE018
,控制了每个样本回传的梯度大小。当简单样本通过网络时,概率
Figure 178193DEST_PATH_IMAGE019
较大,通过FL函数调节,可以减小回传梯度,使得简单样本对网络的调整变小;当困难样本通过网络时,概率
Figure 781213DEST_PATH_IMAGE019
较小,通过FL函数调节,可以增大回传梯度,使得困难样本对网络的调整变大。这样一来,网络侧重于学习困难样本,解决了正负样本不平衡的问题,提高了网络检测精度。
本实施例通过上述技术方案,基于预先设定的广告牌分类信息提取视频样本中的视频关键帧;采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌,其中,主干网络采用ResNet50,特征融合部分采用特征金字塔网络,损失函数部分采用Focal Loss函数;在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段;根据分类信息对检测到的广告牌进行分类管理,并将检测到的广告牌呈现给用户,解决了训练过程中正负样本不平衡的问题,提高了网络的收敛速度和检测精度,从而进一步提高了视频中广告牌提取的精度和速度。
基于图1所示的第一实施例,提出本发明视频中广告牌自动提取方法第四实施例,本实施例与图1所示的第一实施例的区别在于,上述步骤S30,在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段的步骤之前包括:
根据当前帧的检测结果判断对应的广告牌是否是所需类别;
若是,则判断对应的广告牌是所需类别的置信度是否大于预设阈值;
判断连续几帧是否均符合预设条件1,其中,所述预设条件为当前帧的检测结果是所需类别,且置信度大于预设阈值;
若是,则判断连续性是否大于预设阈值;
若是,则执行所述在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段的步骤。
其中,所述在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段的步骤包括:
在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,用分类、视频ID、起始时间和结束时间四个字段标记广告牌,得到各类广告牌的片段。
具体地,本实施例在关键帧通过RetinaNet检测网络之后,可以得到每一帧的检测结果。通过简单的后续处理即可得到连续片段。主要的衡量规则包括:
(1)当前帧的检测结果是否是所需类别,置信度是否大于预设阈值
(2)当连续几帧均符合条件时,判断连续性是否大于预设阈值
当上述两个条件都满足时,该片段即为所需的广告牌,用分类、该视频ID、起始时间、结束时间四个字段来标记。
本发明视频中广告牌自动提取方法的有益效果是:本发明通过上述技术方案,基于预先设定的广告牌分类信息提取视频样本中的视频关键帧;采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌;在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段;根据分类信息对检测到的广告牌进行分类管理,并将检测到的广告牌呈现给用户,提高了视频中广告牌提取的精度和速度。
为实现上述目的,本发明还提出一种视频中广告牌自动提取系统,该系统包括存储器、处理器以及存储在所述处理器上的视频中广告牌自动提取程序,所述视频中广告牌自动提取程序被处理器调用时执行以下步骤:
基于预先设定的广告牌分类信息提取视频样本中的视频关键帧;
采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌;
在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段;
根据分类信息对检测到的广告牌进行分类管理,并将检测到的广告牌呈现给用户。
进一步地,所述系统包括存储器、处理器以及存储在所述处理器上的视频中广告牌自动提取程序,所述视频中广告牌自动提取程序被处理器调用时还执行以下步骤:
基于预先设定的广告牌分类信息采用每秒五帧的均匀采样方式提取视频样本中的视频关键帧。
更进一步地,所述采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌的步骤中,主干网络采用ResNet50,特征融合部分采用特征金字塔网络。
本发明视频中广告牌自动提取系统的有益效果是:本发明通过上述技术方案,基于预先设定的广告牌分类信息提取视频样本中的视频关键帧;采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌;在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段;根据分类信息对检测到的广告牌进行分类管理,并将检测到的广告牌呈现给用户,提高了视频中广告牌提取的精度和速度。
为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有视频中广告牌自动提取程序,所述视频中广告牌自动提取程序被处理器调用时执行如上所述的方法的步骤,这里不再赘述。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种视频中广告牌自动提取方法,其特征在于,所述方法包括以下步骤:
基于预先设定的广告牌分类信息提取视频样本中的视频关键帧;
采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌;
在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段;
根据分类信息对检测到的广告牌进行分类管理,并将检测到的广告牌呈现给用户。
2.根据权利要求1所述的视频中广告牌自动提取方法,其特征在于,所述基于预先设定的广告牌分类信息提取视频样本中的视频关键帧的步骤包括:
基于预先设定的广告牌分类信息采用均匀采样方式提取视频样本中的视频关键帧。
3.根据权利要求2所述的视频中广告牌自动提取方法,其特征在于,所述采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌的步骤中,主干网络采用ResNet50,特征融合部分采用特征金字塔网络。
4.根据权利要求3所述的视频中广告牌自动提取方法,其特征在于,所述采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌的步骤中采样的损失函数为:
Figure DEST_PATH_IMAGE001
其中,
Figure 904771DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
为正负样本分配的权重,
Figure 36675DEST_PATH_IMAGE004
Figure 109804DEST_PATH_IMAGE005
,p为正样本的概率,
Figure 391881DEST_PATH_IMAGE006
Figure 483334DEST_PATH_IMAGE007
为调节难易样本的权重,
Figure 832145DEST_PATH_IMAGE008
5.根据权利要求1所述的视频中广告牌自动提取方法,其特征在于,所述在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段的步骤之前包括:
根据当前帧的检测结果判断对应的广告牌是否是所需类别;
若是,则判断对应的广告牌是所需类别的置信度是否大于预设阈值;
判断连续几帧是否均符合预设条件,其中,所述预设条件为当前帧的检测结果是所需类别,且置信度大于预设阈值;
若是,则判断连续性是否大于预设阈值;
若是,则执行所述在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段的步骤。
6.根据权利要求5所述的视频中广告牌自动提取方法,其特征在于,所述在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段的步骤包括:
在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,用分类、视频ID、起始时间和结束时间四个字段标记广告牌,得到各类广告牌的片段。
7.一种视频中广告牌自动提取系统,其特征在于,所述系统包括存储器、处理器以及存储在所述处理器上的视频中广告牌自动提取程序,所述视频中广告牌自动提取程序被处理器调用时执行以下步骤:
基于预先设定的广告牌分类信息提取视频样本中的视频关键帧;
采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌;
在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时,得到各类广告牌的片段;
根据分类信息对检测到的广告牌进行分类管理,并将检测到的广告牌呈现给用户。
8.根据权利要求7所述的视频中广告牌自动提取系统,其特征在于,所述视频中广告牌自动提取程序被处理器调用时还执行以下步骤:
基于预先设定的广告牌分类信息采用每秒五帧的均匀采样方式提取视频样本中的视频关键帧。
9.根据权利要求8所述的视频中广告牌自动提取系统,其特征在于,所述采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌的步骤中,主干网络采用ResNet50,特征融合部分采用特征金字塔网络。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有视频中广告牌自动提取程序,所述视频中广告牌自动提取程序被处理器调用时执行如权利要求1至6任意一项所述的方法的步骤。
CN202110153640.6A 2021-02-04 2021-02-04 视频中广告牌自动提取方法、系统及存储介质 Active CN112995710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110153640.6A CN112995710B (zh) 2021-02-04 2021-02-04 视频中广告牌自动提取方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110153640.6A CN112995710B (zh) 2021-02-04 2021-02-04 视频中广告牌自动提取方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN112995710A true CN112995710A (zh) 2021-06-18
CN112995710B CN112995710B (zh) 2021-11-30

Family

ID=76346765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110153640.6A Active CN112995710B (zh) 2021-02-04 2021-02-04 视频中广告牌自动提取方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN112995710B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158525A1 (en) * 2010-12-20 2012-06-21 Yahoo! Inc. Automatic classification of display ads using ad images and landing pages
CN110516671A (zh) * 2019-08-27 2019-11-29 腾讯科技(深圳)有限公司 神经网络模型的训练方法、图像检测方法及装置
CN111597901A (zh) * 2020-04-16 2020-08-28 浙江工业大学 非法广告牌监控方法
CN112270331A (zh) * 2020-11-04 2021-01-26 哈尔滨理工大学 一种基于yolov5改进的广告牌检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158525A1 (en) * 2010-12-20 2012-06-21 Yahoo! Inc. Automatic classification of display ads using ad images and landing pages
CN110516671A (zh) * 2019-08-27 2019-11-29 腾讯科技(深圳)有限公司 神经网络模型的训练方法、图像检测方法及装置
CN111597901A (zh) * 2020-04-16 2020-08-28 浙江工业大学 非法广告牌监控方法
CN112270331A (zh) * 2020-11-04 2021-01-26 哈尔滨理工大学 一种基于yolov5改进的广告牌检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
舒莲卿: "《基于内容的视频动态广告植入研究》", 《信息与电脑》 *

Also Published As

Publication number Publication date
CN112995710B (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
US10075742B2 (en) System for social media tag extraction
US9271035B2 (en) Detecting key roles and their relationships from video
US20090274364A1 (en) Apparatus and methods for detecting adult videos
CN101692269B (zh) 一种处理视频节目的方法和装置
CN110909205A (zh) 一种视频封面确定方法、装置、电子设备及可读存储介质
CN108509611B (zh) 用于推送信息的方法和装置
CN106792005B (zh) 一种基于音视频结合的内容检测方法
WO2020259510A1 (zh) 信息植入区域的检测方法、装置、电子设备及存储介质
CN109408672B (zh) 一种文章生成方法、装置、服务器及存储介质
CN101668176A (zh) 一种基于人际社交图的多媒体内容点播与分享方法
CN111046172B (zh) 一种舆情分析方法、装置、设备和存储介质
CN110049377B (zh) 表情包生成方法、装置、电子设备及计算机可读存储介质
CN109922334A (zh) 一种视频质量的识别方法及系统
CN107205172A (zh) 一种基于视频内容发起搜索的方法及装置
CN110610500A (zh) 基于动态语义特征的新闻视频自适应拆条方法
CN111601179A (zh) 基于视频内容的网络广告推广方法
CN111724199A (zh) 基于行人主动感知的智慧社区广告精准投放方法及装置
CN112822539B (zh) 信息显示方法、装置、服务器及存储介质
CN112995710B (zh) 视频中广告牌自动提取方法、系统及存储介质
CN110147481B (zh) 媒体内容推送方法、装置及存储介质
CN103530301A (zh) 虚拟社群建立系统及方法
CN112055258B (zh) 加载直播画面的时延测试方法、装置、电子设备及存储介质
CN116416436A (zh) 基于神经网络的影音视频特征提取方法及处理系统
CN114584824A (zh) 数据处理方法、系统、电子设备、服务端及客户端设备
CN113515670A (zh) 影视资源状态识别方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant