CN113191205A

CN113191205A - 一种识别视频中特殊场景、物体、人物和噪声因素的方法

Info

Publication number: CN113191205A
Application number: CN202110375570.9A
Authority: CN
Inventors: 李扬曦; 缪亚男; 王佩
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2021-04-03
Filing date: 2021-04-03
Publication date: 2021-07-30

Abstract

本发明公开了一种识别视频中特殊场景、物体、人物和噪声因素的方法，涉及图像识别领域，主要针对场景的视频进行分析的方法。本发明包括以下步骤：对待检测视频抽取关键帧；将关键帧进行粗分类，再进行细分类；粗分类算法和细分类均采用的是经典的图像分类算法ResNet50作为backbone，softmax作为损失函数进行训练并预测，预测时输出分数最高的标签作为输出标签；将分类的结果进行融合，判断是否是目标视频。使用本发明方法可以快速进行视频的识别，保证检测精度的同时提高检测速度。

Description

一种识别视频中特殊场景、物体、人物和噪声因素的方法

技术领域

本发明涉及图像识别领域，具体涉及一种识别视频中特殊场景、物体、人物和噪声因素的方法。

背景技术

现有的目标视频识别主要是通过传统机器学习方法+人工二次审核，目前的传统识别方案主要通过模板算子，比如Hog算子，Sift算子提取图像中的特征，然后用机器学习进行特征学习，设置较低的阈值，确保有较高的召回率。对于召回的图像进行人工二次审核。

该方案具有以下几个不足：一是用传统的模板算子提取特征不够鲁棒性，应对多样化的图片导致识别效果不好，二是传统的模板算子运行速度是比较慢的，无法高效地处理视频。

发明内容

有鉴于此，为解决背景技术中提及的现有技术中存在的缺陷，高效处理视频，本发明提供了一种识别视频中特殊场景、物体、人物和噪声因素的方法。

为了实现上述目的，本发明采用如下技术方案：

一种识别视频中特殊场景、物体、人物和噪声因素的方法，包括以下步骤：

对待检测视频抽取关键帧；

将所述关键帧进行粗分类，再进行细分类；所述粗分类和细分类均采用的是经典的图像分类算法ResNet50作为backbone，softmax作为损失函数进行训练并预测，预测时输出分数最高的标签作为输出标签；

将分类的结果进行融合，判断是否为目标视频。

进一步地，所述关键帧定义为与目标视频有关的帧。

进一步地，所述关键帧的抽取具体为对所有帧按照平均帧间差分强度进行排序，选择平均帧间差分强度最高的若干张图片作为视频的关键帧。

进一步地，所述分类的结果进行融合具体如下：

所述粗分类的结果和所述细分类的结果并行作为前置算子结果输入到策略模型中。

策略模型采用的是xgboost模型，xgboost模型输入的是粗分类和细分类模型在视频关键帧上分数，因为视频关键帧长短不一，每个关键帧都有一个粗分类和细分类，这里从中均匀取N(默认100)关键帧的粗分类和细分类分数，即为两个100维向量，然后进行拼接，则输入xgboost模型的大小是200维的向量，xgboost模型输出的结果是2分类，即分类1正常，分类2目标视频。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种识别视频中特殊场景、物体、人物和噪声因素的方法，具有准确高速识别视频中是否存在特殊场景的技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种识别视频中特殊场景、物体、人物和噪声因素的方法，包括以下步骤：

对待检测视频抽取关键帧；

将关键帧进行粗分类，再进行细分类；粗分类和细分类均采用的是经典的图像分类算法ResNet50作为backbone，softmax作为损失函数进行训练并预测，预测时输出分数最高的标签作为输出标签；

将分类的结果进行融合，判断是否为目标视频。

其中，关键帧定义为与目标视频有关的帧。

其中，关键帧的抽取具体为对所有帧按照平均帧间差分强度进行排序，选择平均帧间差分强度最高的若干张图片作为视频的关键帧。

其中，分类的结果进行融合具体如下：

粗分类的结果和细分类的结果并行作为前置算子结果输入到策略模型中。

在本实施例中，算法分为三部分：

1)粗分类算法识别视频中的噪声因素

在实际识别目标视频中，发现一些质量不好的视频(比如模糊，失真等)，会对视频的识别造成较大的影响；先对一些影响目标视频识别或者容易误识别为目标视频的视频进行粗筛选，因为分类数较少，所以分类准确率也会相对较高。粗分类算法用的是经典的图像分类算法ResNet50作为backbone， softmax作为损失函数进行训练，预测的时候输出分数top-1高的标签作为输出标签。

2)细分类算法识别目标视频

一个视频判断为目标视频是因为视频中的内容包含目标因素，而目标因素是包含多个层次因素，比如场景、活动、物品、人物等，所以本发明设计一个多层次细分类算法。通过多个层次多个维度去判断图像是否包含目标视频的因素。细分类算法和粗分类算法一样用的是经典的图像分类算法 ResNet50作为backbone，softmax作为损失函数进行训练，不一样的是分类的类别数和训练数据不一样，预测的时候输出分数top-1高的标签作为输出标签。

3)分类结果融合

粗分类和细分类既可以并行，目标视频检测识别作为前置算子结果输入到策略模型中；也可以简单对两者的结果进行合并，取出粗分类的类别分数，然后和细分类的top-1类别分数相乘，因为粗分类如果类别分数较低，该视频为噪声视频的可能性比较大。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种识别视频中特殊场景、物体、人物和噪声因素的方法，其特征在于，包括以下步骤：

对待检测视频抽取关键帧；

将分类的结果进行融合，判断是否为目标视频。

2.根据权利要求1所述的一种识别视频中特殊场景、物体、人物和噪声因素的方法，其特征在于，所述损失函数的计算公式如下：

3.根据权利要求1所述的一种识别视频中特殊场景、物体、人物和噪声因素的方法，其特征在于，所述关键帧定义为与目标视频有关的帧。

4.根据权利要求1所述的一种识别视频中特殊场景、物体、人物和噪声因素的方法，其特征在于，所述关键帧的抽取具体为对所有帧按照平均帧间差分强度进行排序，选择平均帧间差分强度最高的若干张图片作为视频的关键帧。

5.根据权利要求1所述的一种识别视频中特殊场景、物体、人物和噪声因素的方法，其特征在于，所述分类的结果进行融合具体如下：

所述粗分类的结果、所述细分类的结果作为前置算子结果输入到策略模型中，得到融合结果。