CN112287800A

CN112287800A - 一种无样本条件下的广告视频识别方法及系统

Info

Publication number: CN112287800A
Application number: CN202011148770.2A
Authority: CN
Inventors: 王方圆; 王欣盛; 王鲜叶
Original assignee: Beijing Zhongke Mosi Technology Co ltd
Current assignee: Beijing Zhongke Mosi Technology Co ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-01-29

Abstract

本发明实施例提供一种无样本条件下的广告视频识别方法及系统，该方法包括：获取目标视频中的若干关键帧图像；对于任一关键帧图像，将任一关键帧图像对应的预设候选区域输入到标识分类模型中，获取每一预设候选区域的分类结果，并根据每一预设候选区域的分类结果获取任一关键帧图像的分类结果；根据所有关键帧图像的分类结果，识别目标视频中包含的广告片段。本发明实施例能够快速准确的识别出目标视频中的广告片段，不需要进行人工标记，大大提高了广告视频的识别效率。

Description

一种无样本条件下的广告视频识别方法及系统

技术领域

本发明涉及视频场景识别技术领域，尤其涉及一种无样本条件下的广告视频识别方法及系统。

背景技术

广告视频的检测与识别是电视内容监测的重要内容，基于样本模板的音视频比对方法，可以快速定位出样本广告在电视中的播出频道、播出位置、播出时段、播出时长等统计信息，在此基础上人工补全完成的广告编目是后期查询检索、统计编报等工作的基础。

实际应用中广告编目的成本仍然较高，主要原因在于：一，新广告发现需要人工编目建立；二，广告作为一种时效性很强的节目形式，每天电视台播出的广告具有一定的更新率，而新出现的广告由于没有样本模板是无法进行比对分析的，需要人工编目创建样本模板；三，周期性广告编目大量依靠人工。

广告的时效性决定了如果不是每天都进行例行编目，而是间隔一定周期，比如在一周编一天或一个月编一天的情况下，样本至少是一周或一个月之前的模板，仍在播出的比例大幅减少，大量广告需要人工进行编目补齐。

解决上述行业问题比较理想的技术方案是机器能够自动识别出电视播出节目内容中哪些时段是广告节目并进行时段切分，结合图像文字识别、语音识别、语义理解等技术，自动获得广告的名称、类型等高级属性。

然而，由于视频广告题材、类型、内容多种多样，在无样本条件下需要人工进行样本标记，效率低且工作量大。

发明内容

本发明实施例提供一种无样本条件下的广告视频识别方法及系统，用以解决现有技术中在无样本条件下广告视频识别效率低的缺陷，实现无样本条件下的广告视频的自动识别。

本发明实施例提供一种无样本条件下的广告视频识别方法，包括：

获取目标视频中的若干关键帧图像；

对于任一关键帧图像，将所述任一关键帧图像对应的预设候选区域输入到标识分类模型中，获取每一预设候选区域的分类结果，并根据每一预设候选区域的分类结果获取所述任一关键帧图像的分类结果，所述分类结果为包含广告字样和不包含广告字样；

根据所有关键帧图像的分类结果，识别所述目标视频中包含的广告片段。

根据本发明一个实施例的无样本条件下的广告视频识别方法，所述根据所有关键帧图像的分类结果，识别所述目标视频中包含的广告片段，之前还包括：

根据所有关键帧图像的分类结果，对于所有关键帧图像组成的序列进行平滑处理，获取平滑后关键帧图像对应的分类结果；

并将平滑后关键帧图像对应的分类结果重新作为所述关键帧图像的分类结果。

根据本发明一个实施例的无样本条件下的广告视频识别方法，所述根据所有关键帧图像的分类结果，识别所述目标视频中包含的广告片段，具体包括：

根据所有关键帧图像的分类结果，获取所述广告片段对应的起始关键帧和所述广告片段对应的结束关键帧；

获取所述广告片段对应的起始关键帧在所述目标视频中的起始位置；

获取所述广告片段对应的结束关键帧在所述目标视频中的结束位置；

根据所述起始位置和所述结束位置，识别所述目标视频中的广告片段。

根据本发明一个实施例的无样本条件下的广告视频识别方法，所述预设候选区域包括所述任一关键帧图像的右上角区域、左上角区域、右下角区域、左下角区域和中间区域中的一种或多种。

根据本发明一个实施例的无样本条件下的广告视频识别方法，所述标识分类模型为优化后的ResNet网络，优化后的ResNet网络为在ResNet网络的卷积层、池化层和拼接层后面分别插入一个SE块，并在全连接层后面插入一个Focal Loss损失函数。

根据本发明一个实施例的无样本条件下的广告视频识别方法，所述获取目标视频中的若干关键帧图像，具体包括：

从所述目标视频的原始图像帧中，均匀抽取若干关键帧图像。

本发明实施例还提供一种无样本条件下的广告视频识别系统，包括：

关键帧图像模块，用于获取目标视频中的若干关键帧图像；

分类模块，用于对于任一关键帧图像，将所述任一关键帧图像对应的预设候选区域输入到标识分类模型中，获取每一预设候选区域的分类结果，并根据每一预设候选区域的分类结果获取所述任一关键帧图像的分类结果，所述分类结果为包含广告字样和不包含广告字样；

识别模块，用于根据所有关键帧图像的分类结果，识别所述目标视频中包含的广告片段。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述无样本条件下的广告视频识别方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述无样本条件下的广告视频识别方法的步骤。

本发明实施例提供的一种无样本条件下的广告视频识别方法及系统，能够快速准确的识别出目标视频中的广告片段，不需要进行人工标记，大大提高了广告视频的识别效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种无样本条件下的广告视频识别方法的流程图；

图2为本发明实施例中预设候选区域的选取示意图；

图3为本发明实施例中利用ResNet网络对预设候选区域进行识别的示意图；

图4为本发明实施例提供的一种无样本条件下的广告视频识别系统的结构示意图；

图5为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

通过观察，本发明发现很多电视频道实际播出广告内容时，为了与正常节目区分，画面内容中会出现“广告”字样的标识，可以作为视频广告识别的一项显著性特征，如果能够有效识别出那些电视画面含有“广告”标识，就可以在没有广告样本的情况下实现广告视频的检测与识别。

“广告”标识可以采用传统的目标检测与识别的技术框架解决，通常包括两个步骤，一是检测，检测标识在图像中出现的范围，解决目标在哪里的问题；二是识别，对特定范围的目标进行识别，解决目标是什么的问题。本发明发现，“广告”标识在画面中出现的位置具有一定的规律，通常出现在右上角、左上角的位置，也有少部分出现在右侧边框中心区域或左侧边框中心区域。基于此发现，本发明提出一种采用分类方法解决“广告”标识检测识别的方法与系统，较目标检测框架技术更为简单明了。

图1为本发明实施例提供的一种无样本条件下的广告视频识别方法的流程图，如图1所示，该方法包括：

S1，获取目标视频中的若干关键帧图像；

视频可以看做是由许多帧图像组成的，在进行广告视频识别时，为了减少计算量，通过抽取目标视频中的关键帧，利用抽取到的关键帧图像代表该目标视频。

S2，对于任一关键帧图像，将所述任一关键帧图像对应的预设候选区域输入到标识分类模型中，获取每一预设候选区域的分类结果，并根据每一预设候选区域的分类结果获取所述任一关键帧图像的分类结果，所述分类结果为包含广告字样和不包含广告字样；

然后对抽取到的每一关键帧图像都进行分类，得到每个关键帧是否包含广告字样。以其中任意一个关键帧图像为例进行说明，选取出该关键帧图像的预设候选区域，预设候选区域为该关键帧图像中经常出现广告字样的区域。

将每个预设候选区域分别输入到标识分类模型中，得到每个预设候选区域的分类结果，即可以得到每个预设候选区域是否包含广告字样，只要有一个预设候选区域包括广告字样，就说明该关键帧图像中包含广告字样。

按照相同的方法判断出每个关键帧图像中是否包含广告字样。

S3，根据所有关键帧图像的分类结果，识别所述目标视频中包含的广告片段。

根据所有关键帧图像的分类结果，去识别目标视频中是否包含广告片段，具体可以是：按照播放顺序，最开始出现包含广告字样的关键帧图像作为起始点，最后出现包含广告字样的关键帧图像作为结束点，根据起始点和结束点确定广告片段。

还可以是：按照播放顺序，选取一段连续包含广告字样的关键帧图像，将这段连续的关键帧图像中的第一幅关键帧图像作为起始点，将这段连续的关键帧图像中的最后一幅关键帧图像作为结束点，根据起始点和结束点确定广告片段。

本发明实施例提供的一种无样本条件下的广告视频识别方法，能够快速准确的识别出目标视频中的广告片段，不需要进行人工标记，大大提高了广告视频的识别效率。

在上述实施例的基础上，优选地，所述根据所有关键帧图像的分类结果，识别所述目标视频中包含的广告片段，之前还包括：

具体地，本发明实施例中对所有关键帧图像组成的序列进行平滑处理，进行平滑处理的目的其实是对最初每个关键帧图像的分类结果进行优化，例如，如果在连续的60帧关键帧图像中，这些关键帧图像中都包含广告字样，只有其中一个关键帧图像的分类结果为不包含广告字样，显然，该关键帧图像的分类结果识别错误的可能性很高，因此，通过平滑处理，那么通过平滑处理后该关键帧图像的分类结果就为包含广告字样。

在上述实施例的基础上，优选地，所述根据所有关键帧图像的分类结果，识别所述目标视频中包含的广告片段，具体包括：

具体地，根据所有关键帧图像的分类结果，确定广告片段的起始关键帧和结束关键帧，由于起始关键帧和结束关键帧都是抽取出来的图像，与原始的目标视频之间是存在一定的对应关系的，因此，通过该对应关系，找到目标视频中广告片段的起始位置和结束位置，从而确定了该目标视频中广告片段的位置。

在上述实施例的基础上，优选地，所述预设候选区域包括所述任一关键帧图像的右上角区域、左上角区域、右下角区域、左下角区域和中间区域中的一种或多种。

具体地，本发明实施例中的预设候选区域可以是该关键帧图像的右上角区域、左上角区域、右下角区域、左下角区域和中间区域。

在上述实施例的基础上，优选地，所述标识分类模型为优化后的ResNet网络，优化后的ResNet网络为在ResNet网络的卷积层、池化层和拼接层后面分别插入一个SE块，并在全连接层后面插入一个Focal Loss损失函数。

具体地，该标识分类模型的基本架构是ResNet网络，在ResNet网络网络的基础上，通过在卷积层、池化层和拼接层的后面分别插入一个SE块，SE块即为Squeeze Excitation，根据描述器激活一系列激活输出的值，认作是各个通道的重要性。

然后在全连接层的后面插入一个Focal Loss损失函数，将Focal Loss损失函数应用到训练中，得到预先训练的“广告”字样标识分类模型。

在上述实施例的基础上，优选地，所述获取目标视频中的若干关键帧图像，具体包括：

具体地，本发明实施例中是均匀从目标图像的原始图像帧中，抽取出关键帧图像。

本发明的目的在于，对于给定的电视视频，自动检测出含有“广告”字样标识的视频片段，本发明又一实施例提供一种无样本条件下的广告视频识别方法，该方法包括如下步骤：

步骤1，按照均匀抽取的方式抽取目标视频中的关键图像帧序列，此处关键图像帧序列中包含的就是关键帧图像；

标准PAL制电视视频帧率为25帧/秒，在此帧率下相邻视频帧内容可能会非常相似，为了减少处理的时间消耗，并能够保证结果的时间精度，本发明采用跳帧的方式从视频帧序列中均匀抽取视频帧进行处理，具体可每秒抽取一帧图像。

步骤2，对于关键图像帧序列中的每一张关键帧图像依次选取一组特定图像区域，作为“广告”字样标识可能出现的预设候选区域；

步骤2.1，对于关键图像帧序列中的每一张图像，依次选择图像的长和宽的三等分点连接，分为九个均匀大小的矩形。对于上述九个均匀大小的矩形，选取位置在右上角的矩形图像块，得到有“广告”字样标识的矩形图像区域，此处的矩形图像区域即为预设候选区域，图2为本发明实施例中预设候选区域的选取示意图，如图2所示；

步骤2.2，对于有“广告”字样标识的矩形图像区域选择长和宽的中等分点连接，分为四个均匀大小的矩形，同时，在中间位置处选取一个面积与上述矩形相同的矩形，按照中间、左上角、左下角、右上角、右下角的顺序检索矩形图像区域，识别每个矩形图像区域中是否包含广告字样。

步骤3，利用预先训练完成的“广告”字样标识分类模型，依次对图像的一组预设候选区域进行分类预测；

类似于其他基于深度学习的分类网络，首先预先训练完成“广告”字样标识分类模型，然后依次对图像的一组预设候选区域进行分类预测。该步骤进一步包括以下步骤：

步骤3.1，得到预先训练完成的“广告”字样标识分类模型；

步骤3.1.1，将“广告”字样标识的预设候选区域输入到设定好的ResNet网络结构中，ResNet网络结构由五个阶段构成，每个阶段的卷积操作用来提取“广告”字样标识的候选图像区域的特征，如图3中的二维卷积模块所示；

步骤3.1.2，将卷积操作提取的特征通过Squeeze Excitation获得每个特征通道在特征表达中的重要性，然后根据这个重要性去提升对“广告”字样标识有用的特征并抑制对“广告”字样标识作用不大的特征，得到每个阶段的特征向量，图3为本发明实施例中利用ResNet网络对预设候选区域进行识别的示意图，如图3所示，其中，阴影区域为ResNet网络结构；

步骤3.1.3，将上述每个阶段的特征向量进行平均池化(Average Pooling)，然后把特征向量保存下来，得到当前阶段的特征向量，按照设定好的网络结构，把每次经过卷积操作、Squeeze Excitation操作和平均池化后的特征向量保存下来；

步骤3.1.4，把保存下来的不同阶段中的特征向量拼接，得到“广告”字样标识的候选图像区域的特征向量，将损失函数Focal Loss应用到训练中得到预先训练的“广告”字样标识分类模型。

步骤3.2，依次对图像的一组预设候选区域进行分类预测，将测试数据经过步骤3.1.1，步骤3.1.2，步骤3.1.3之后，同样把保存下来的不同特征提取阶段的特征向量拼接，得到图像的一组预设候选区域的特征向量，将上述特征向量输入到步骤3.1中预训练好的模型中，输出分类结果。其中，在测试数据上“广告”字样标识的召回率为95％。表1为采用本发明办法在测试数据上的测试结果示意表，如表1所示。

表1

测试数据数据类别	数据量	召回率
			“广告”字样标识	775个	95％
非“广告”字样标识	1335个	98％

步骤4，基于图像帧序列的“广告”字样标识预测结果，在时序上进行后处理融合；

步骤4.1，对基于图像帧序列的“广告”字样标识预测结果进行平滑处理，针对小于3帧的连续帧，如果属于“广告”字样标识类别，并且前后60帧为连续非“广告”字样标识类别，将此处连续帧的类别更改为非“广告”字样标识类别。

步骤4.2，基于步骤4.1中平滑之后的图像帧序列“广告”字样标识预测结果，从图像帧序列的开始位置按照图像帧序列找到有“广告”字样标识的帧，上述帧是广告视频片段的起始帧，以60帧为一个前进单位，查看当前帧之后的第60帧是否有“广告”字样标识，如果第60帧有“广告”字样标识，则继续按照此策略前进，

否则，以1帧为一个回退单位逐帧回退，直到找到有“广告”字样标识的帧，上述帧是广告视频片段的结束帧。保存起始帧与结束帧的位置。

以当前结束帧为图像帧序列的开始位置，重复上述操作。具体的前进单位和回退单位可根据具体应用进行调整。

步骤5，对于视频中预测包含“广告”字样标识的片段判定为广告视频片段。

按照步骤4中保存的起始帧和结束帧的位置，找到步骤4中后处理融合之后的图像帧序列中对应的位置，此段帧序列是包含“广告”字样标识的片段，判定此片段为广告视频片段。

本发明实施例的基本特征主要有以下三个方面：一是本发明实施例发现并公开了一种可用于广告视频识别的广告播出规律，即电视台为了提升观众体验，会在播出的广告视频的特定位置标记“广告”字样；二是本发明实施例公开了一种无样本条件下的广告视频识别方法与系统，即基于对“广告”字样的检测与识别，实现标有此标识的广告视频的快速准确识别；三是本发明实施例公开并应用了一种图像“广告”字样标记分类的方法，即一种基于ResNet、Focal Loss与Squeeze Excitation的图像分类训练模型与预测方法，并通过实施测试了方法的有效性。实施例证明，本发明所提方法，能够有效解决在样本缺失场景下的电视视频广告的自动发现问题，大幅提升广告编目效率。

本发明能够有效解决无样本条件下的部分广告视频识别的问题。本发明虽然主要针对广告视频识别领域，但对于其他相似领域亦具有借鉴意义。

图4为本发明实施例提供的一种无样本条件下的广告视频识别系统的结构示意图，如图4所示，该系统包括：

关键帧图像模块401用于获取目标视频中的若干关键帧图像；

分类模块402用于对于任一关键帧图像，将所述任一关键帧图像对应的预设候选区域输入到标识分类模型中，获取每一预设候选区域的分类结果，并根据每一预设候选区域的分类结果获取所述任一关键帧图像的分类结果，所述分类结果为包含广告字样和不包含广告字样；

识别模块403用于根据所有关键帧图像的分类结果，识别所述目标视频中包含的广告片段。

本实施例为与上述方法相对应的系统实施例，详情请参考上述方法实施例，本系统实施例在此不再赘述。

本发明实施例所提出的无样本条件下的广告视频识别方法及系统，首先抽取关键帧图像，仅利用视频中的图像信息进行判定；然后按照一定启发式规则在图像中选取一组预设候选区域利用训练好的深度学习模型进行“广告”字样标识检测与识别；最后在时间序列上后处理处理后输出视频级的判定结果。

本发明实施例表明：

(1)为了提高广告播出的用户友好性，在播出广告主体内容的同时，在特定区域标记“广告”字样，已经成为电视广告播出的一种普遍现象；

(2)对视频中的“广告”字样标识的进行检测识别，是实现无样本条件下广告视频识别的一种简单且有效的方式；

(3)利用“广告”字样标识检测识别实现无样本广告识别，能够有效提升在样本模板缺失情况下的广告编目效率。

图5为本发明实施例提供的一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行一种无样本条件下的广告视频识别方法，该方法包括：

获取目标视频中的若干关键帧图像；

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的一种无样本条件下的广告视频识别方法，该方法包括：

获取目标视频中的若干关键帧图像；

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的一种无样本条件下的广告视频识别方法，该方法包括：

获取目标视频中的若干关键帧图像；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种无样本条件下的广告视频识别方法，其特征在于，包括：

获取目标视频中的若干关键帧图像；

2.根据权利要求1所述的无样本条件下的广告视频识别方法，其特征在于，所述根据所有关键帧图像的分类结果，识别所述目标视频中包含的广告片段，之前还包括：

3.根据权利要求1所述的无样本条件下的广告视频识别方法，其特征在于，所述根据所有关键帧图像的分类结果，识别所述目标视频中包含的广告片段，具体包括：

4.根据权利要求1至3任一所述的无样本条件下的广告视频识别方法，其特征在于，所述预设候选区域包括所述任一关键帧图像的右上角区域、左上角区域、右下角区域、左下角区域和中间区域中的一种或多种。

5.根据权利要求1至3任一所述的无样本条件下的广告视频识别方法，其特征在于，所述标识分类模型为优化后的ResNet网络，优化后的ResNet网络为在ResNet网络的卷积层、池化层和拼接层后面分别插入一个SE块，并在全连接层后面插入一个FocalLoss损失函数。

6.根据权利要求1至3任一所述的无样本条件下的广告视频识别方法，其特征在于，所述获取目标视频中的若干关键帧图像，具体包括：

7.一种无样本条件下的广告视频识别系统，其特征在于，包括：

关键帧图像模块，用于获取目标视频中的若干关键帧图像；

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述无样本条件下的广告视频识别方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述无样本条件下的广告视频识别方法的步骤。