CN112995710A

CN112995710A - 视频中广告牌自动提取方法、系统及存储介质

Info

Publication number: CN112995710A
Application number: CN202110153640.6A
Authority: CN
Inventors: 王丹丹; 张平安; 赵文勇; 赵学华; 韩丽屏
Original assignee: Shenzhen Institute of Information Technology
Current assignee: Shenzhen Institute of Information Technology
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-06-18
Anticipated expiration: 2041-02-04
Also published as: CN112995710B

Abstract

本发明提供了一种视频中广告牌自动提取方法、系统及存储介质，该方法包括以下步骤：基于预先设定的广告牌分类信息提取视频样本中的视频关键帧；采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌；在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时，得到各类广告牌的片段；根据分类信息对检测到的广告牌进行分类管理，并将检测到的广告牌呈现给用户。相对于现有技术，本发明提高了视频中广告牌提取的精度和速度。

Description

视频中广告牌自动提取方法、系统及存储介质

技术领域

本发明涉及互联网系统控制技术领域，尤其涉及一种视频中广告牌自动提取方法、系统及存储介质。

背景技术

随着移动互联网的发展，人们普遍开始从网络上搜索观看视频资源，尤其随着短视频应用的发展，涌现出海量的视频内容，广大网民也越来越习惯通过观看短视频来获取信息。在多数视频中，除了主要人物和道具影响到视频观看者的观看体验外，还存在许多不影响观看的背景信息，例如电视屏幕，开会时的办公桌，光滑的墙壁、大厦的外立面等。将这些识别出来作为自动广告牌，既不用户体验，又具有重要的商业价值。

然而，在现有技术例如专利号为CN107493488A的专利文献中，识别和提取广告牌的速度低，并且精确度不高。

发明内容

本发明的主要目的在于提供一种视频中广告牌自动提取方法、系统及存储介质，旨在提高视频中广告牌提取的精度和速度。

为了达到上述目的，本发明提出一种视频中广告牌自动提取方法，所述方法包括以下步骤：

基于预先设定的广告牌分类信息提取视频样本中的视频关键帧；

采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌；

在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时，得到各类广告牌的片段；

根据分类信息对检测到的广告牌进行分类管理，并将检测到的广告牌呈现给用户。

本发明进一步的技术方案是，所述基于预先设定的广告牌分类信息提取视频样本中的视频关键帧的步骤包括：

基于预先设定的广告牌分类信息采用均匀采样方式提取视频样本中的视频关键帧。

本发明进一步的技术方案是，所述采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌的步骤中，主干网络采用ResNet50，特征融合部分采用特征金字塔网络。

本发明进一步的技术方案是，所述采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌的步骤中采样的损失函数为：

其中，

，

为正负样本分配的权重，

，

，p为正样本的概率，

，

为调节难易样本的权重，

。

本发明进一步的技术方案是，所述在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时，得到各类广告牌的片段的步骤之前包括：

根据当前帧的检测结果判断对应的广告牌是否是所需类别；

若是，则判断对应的广告牌是所需类别的置信度是否大于预设阈值；

判断连续几帧是否均符合预设条件，其中，所述预设条件为当前帧的检测结果是所需类别，且置信度大于预设阈值；

若是，则判断连续性是否大于预设阈值；

若是，则执行所述在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时，得到各类广告牌的片段的步骤。

本发明进一步的技术方案是，所述在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时，得到各类广告牌的片段的步骤包括：

在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时，用分类、视频ID、起始时间和结束时间四个字段标记广告牌，得到各类广告牌的片段。

为实现上述目的，本发明还提出一种视频中广告牌自动提取系统，所述系统包括存储器、处理器以及存储在所述处理器上的视频中广告牌自动提取程序，所述视频中广告牌自动提取程序被处理器调用时执行以下步骤：

本发明进一步的技术方案是，所述视频中广告牌自动提取程序被处理器调用时还执行以下步骤：

基于预先设定的广告牌分类信息采用每秒五帧的均匀采样方式提取视频样本中的视频关键帧。

为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有视频中广告牌自动提取程序，所述视频中广告牌自动提取程序被处理器调用时执行如上所述的方法的步骤。

本发明视频中广告牌自动提取方法、系统及存储介质的有益效果是：本发明通过上述技术方案，基于预先设定的广告牌分类信息提取视频样本中的视频关键帧；采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌；在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时，得到各类广告牌的片段；根据分类信息对检测到的广告牌进行分类管理，并将检测到的广告牌呈现给用户，提高了视频中广告牌提取的精度和速度。

附图说明

图1是本发明视频中广告牌自动提取方法第一实施例的流程示意图；

图2是本发明视频中广告牌自动提取方法采用RetinaNet卷积神经网络的框架图；

图3是本发明视频中广告牌自动提取方法第二实施例的流程示意图；

图4是为了提高检测中小目标准确度的特征金字塔网络示意图。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

为了填补大规模自动提取广告牌技术的空白，本发明提出一种视频中广告牌自动提取方法，该方法可应用于视频广告插入、广告后植入、商品植入等多种场合，可以对互联网中海量的视频进行自动分析及提取可插入广告的区域，并按可插入区域的类型分好类，统计出每一类覆盖的视频数量及时长，满足不同客户的诉求，具有良好的商业价值和应用前景。

本发明所采用的技术方案主要是首先调研用户的需求，将用户希望插入广告的区域分为：屏幕、墙面、桌面、大厦外立面等四类广告牌。其次要对所有视频进行扫描，提取关键帧后，使用 RetinaNet卷积神经网络检测出上述四类广告牌，并根据每一帧的检测结果判断属于某一个类别以及帧的连续性，得到各类“广告牌”的片段，根据分类信息通过分类管理将信息汇总呈现给用户。

具体地，请参照图1，本发明视频中广告牌自动提取方法第一实施例包括以下步骤：

步骤S10，基于预先设定的广告牌分类信息提取视频样本中的视频关键帧。

本实施例中，根据预先调研的广告牌分类，使用统一的物体检测方案，将各类广告牌纳入检测框架，可以极大地提高检测速度，其中，将用户希望插入广告的区域例如可以分为屏幕、墙面、桌面、大厦外立面等四类广告牌。

本实施例中，视频可以是预先存储在视频库中的视频，也可以是实时拍摄的视频。在提取视频关键帧时，采用均匀采样的方式提取视频关键帧。考虑到视频库的大部分视频帧率为25赫兹或者30赫兹，所以使用一秒5帧的均匀采样方式进行关键帧提取。

步骤S20，采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌。

请参照图2，本实施例在进行广告牌检测时，采用深度学习技术中的物体检测算法RetinaNet进行处理。这是由于RetinaNet是一种一阶段的物体检测算法，同时解决了正负样本不平衡的问题，在保证检测精度的前提下极大地提高了检测速度。

步骤S30，在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时，得到各类广告牌的片段。

本实施例在关键帧通过RetinaNet检测网络之后，可以得到每一帧的检测结果。通过简单的后续处理即可得到连续片段。主要的衡量规则包括：

（1）当前帧的检测结果是否是所需类别，置信度是否大于预设阈值

（2）当连续几帧均符合条件时，判断连续性是否大于预设阈值；

当上述两个条件都满足时，该片段即为所需的广告牌，用分类、该视频ID、起始时间、结束时间四个字段来标记。

步骤S40，根据分类信息对检测到的广告牌进行分类管理，并将检测到的广告牌呈现给用户。

本实施例将提取出来的各分类广告牌，根据不同的分类，用广告牌管理系统管理起来，广告主可以知道自己感兴趣的每个分类下的视频数、片段时长有多少，看是否与自己的需求匹配。

本实施例通过上述技术方案，基于预先设定的广告牌分类信息提取视频样本中的视频关键帧；采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌；在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时，得到各类广告牌的片段；根据分类信息对检测到的广告牌进行分类管理，并将检测到的广告牌呈现给用户，提高了视频中广告牌提取的精度和速度。

进一步的，请参照图3，基于图1所示的第一实施例提出本发明第二实施例。

本实施例与图1所示的第一实施例的区别在于，上述步骤S10，基于预先设定的广告牌分类信息提取视频样本中的视频关键帧的步骤包括：

步骤S101，基于预先设定的广告牌分类信息采用均匀采样方式提取视频样本中的视频关键帧。

本实施例在提取视频关键帧时，采用均匀采样的方式提取视频关键帧。考虑到视频库的大部分视频帧率为25赫兹或者30赫兹，所以使用一秒5帧的均匀采样方式进行关键帧提取。

本实施例通过基于预先设定的广告牌分类信息采用均匀采样方式提取视频样本中的视频关键帧，采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌；在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时，得到各类广告牌的片段；根据分类信息对检测到的广告牌进行分类管理，并将检测到的广告牌呈现给用户，能进一步提高视频中广告牌提取的精度和速度。

基于图1所示的第一实施例或者图3所示的第二实施例，提出本发明第三实施例。

本实施例中，所述采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌的步骤中，主干网络采用ResNet50，特征融合部分采用特征金字塔网络。

所述采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌的步骤中采样的损失函数为：

其中，

，

为正负样本分配的权重，

，

，p为正样本的概率，

，

为调节难易样本的权重，

。

在进行广告牌检测时，采用深度学习技术中的物体检测算法RetinaNet进行处理。这是由于RetinaNet是一种一阶段的物体检测算法，同时解决了正负样本不平衡的问题，在保证检测精度的前提下极大地提高了检测速度。

如图4所示，主干网络选用ResNet50，特征融合部分选用FPN（特征金字塔网络），该结构解决了多尺度检测问题，引入了特征金字塔网络，尤其提高了中小目标的检测准确率。

损失函数部分采用Focal Loss函数，解决了训练过程中正负样本不平衡的问题，提高了网络的收敛速度和检测精度。

Focal Loss函数在交叉熵损失函数的基础之上，引入了参数

和

，控制了每个样本回传的梯度大小。当简单样本通过网络时，概率

较大，通过FL函数调节，可以减小回传梯度，使得简单样本对网络的调整变小；当困难样本通过网络时，概率

较小，通过FL函数调节，可以增大回传梯度，使得困难样本对网络的调整变大。这样一来，网络侧重于学习困难样本，解决了正负样本不平衡的问题，提高了网络检测精度。

本实施例通过上述技术方案，基于预先设定的广告牌分类信息提取视频样本中的视频关键帧；采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌，其中，主干网络采用ResNet50，特征融合部分采用特征金字塔网络，损失函数部分采用Focal Loss函数；在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时，得到各类广告牌的片段；根据分类信息对检测到的广告牌进行分类管理，并将检测到的广告牌呈现给用户，解决了训练过程中正负样本不平衡的问题，提高了网络的收敛速度和检测精度，从而进一步提高了视频中广告牌提取的精度和速度。

基于图1所示的第一实施例，提出本发明视频中广告牌自动提取方法第四实施例，本实施例与图1所示的第一实施例的区别在于，上述步骤S30，在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时，得到各类广告牌的片段的步骤之前包括：

根据当前帧的检测结果判断对应的广告牌是否是所需类别；

判断连续几帧是否均符合预设条件1，其中，所述预设条件为当前帧的检测结果是所需类别，且置信度大于预设阈值；

若是，则判断连续性是否大于预设阈值；

其中，所述在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时，得到各类广告牌的片段的步骤包括：

具体地，本实施例在关键帧通过RetinaNet检测网络之后，可以得到每一帧的检测结果。通过简单的后续处理即可得到连续片段。主要的衡量规则包括：

（2）当连续几帧均符合条件时，判断连续性是否大于预设阈值

本发明视频中广告牌自动提取方法的有益效果是：本发明通过上述技术方案，基于预先设定的广告牌分类信息提取视频样本中的视频关键帧；采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌；在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时，得到各类广告牌的片段；根据分类信息对检测到的广告牌进行分类管理，并将检测到的广告牌呈现给用户，提高了视频中广告牌提取的精度和速度。

为实现上述目的，本发明还提出一种视频中广告牌自动提取系统，该系统包括存储器、处理器以及存储在所述处理器上的视频中广告牌自动提取程序，所述视频中广告牌自动提取程序被处理器调用时执行以下步骤：

进一步地，所述系统包括存储器、处理器以及存储在所述处理器上的视频中广告牌自动提取程序，所述视频中广告牌自动提取程序被处理器调用时还执行以下步骤：

更进一步地，所述采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌的步骤中，主干网络采用ResNet50，特征融合部分采用特征金字塔网络。

本发明视频中广告牌自动提取系统的有益效果是：本发明通过上述技术方案，基于预先设定的广告牌分类信息提取视频样本中的视频关键帧；采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌；在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时，得到各类广告牌的片段；根据分类信息对检测到的广告牌进行分类管理，并将检测到的广告牌呈现给用户，提高了视频中广告牌提取的精度和速度。

为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有视频中广告牌自动提取程序，所述视频中广告牌自动提取程序被处理器调用时执行如上所述的方法的步骤，这里不再赘述。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频中广告牌自动提取方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的视频中广告牌自动提取方法，其特征在于，所述基于预先设定的广告牌分类信息提取视频样本中的视频关键帧的步骤包括：

3.根据权利要求2所述的视频中广告牌自动提取方法，其特征在于，所述采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌的步骤中，主干网络采用ResNet50，特征融合部分采用特征金字塔网络。

4.根据权利要求3所述的视频中广告牌自动提取方法，其特征在于，所述采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌的步骤中采样的损失函数为：

其中，

，

为正负样本分配的权重，

，

，p为正样本的概率，

，

为调节难易样本的权重，

。

5.根据权利要求1所述的视频中广告牌自动提取方法，其特征在于，所述在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时，得到各类广告牌的片段的步骤之前包括：

根据当前帧的检测结果判断对应的广告牌是否是所需类别；

若是，则判断连续性是否大于预设阈值；

6.根据权利要求5所述的视频中广告牌自动提取方法，其特征在于，所述在每一帧的检测结果对应的广告牌的类别以及帧的连续性均满足预设条件时，得到各类广告牌的片段的步骤包括：

7.一种视频中广告牌自动提取系统，其特征在于，所述系统包括存储器、处理器以及存储在所述处理器上的视频中广告牌自动提取程序，所述视频中广告牌自动提取程序被处理器调用时执行以下步骤：

8.根据权利要求7所述的视频中广告牌自动提取系统，其特征在于，所述视频中广告牌自动提取程序被处理器调用时还执行以下步骤：

9.根据权利要求8所述的视频中广告牌自动提取系统，其特征在于，所述采用RetinaNet卷积神经网络检测所述关键帧中与所述广告牌分类信息相对应的广告牌的步骤中，主干网络采用ResNet50，特征融合部分采用特征金字塔网络。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有视频中广告牌自动提取程序，所述视频中广告牌自动提取程序被处理器调用时执行如权利要求1至6任意一项所述的方法的步骤。