CN113191205A - 一种识别视频中特殊场景、物体、人物和噪声因素的方法 - Google Patents

一种识别视频中特殊场景、物体、人物和噪声因素的方法 Download PDF

Info

Publication number
CN113191205A
CN113191205A CN202110375570.9A CN202110375570A CN113191205A CN 113191205 A CN113191205 A CN 113191205A CN 202110375570 A CN202110375570 A CN 202110375570A CN 113191205 A CN113191205 A CN 113191205A
Authority
CN
China
Prior art keywords
video
classification
key frames
result
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110375570.9A
Other languages
English (en)
Inventor
李扬曦
缪亚男
王佩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN202110375570.9A priority Critical patent/CN113191205A/zh
Publication of CN113191205A publication Critical patent/CN113191205A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种识别视频中特殊场景、物体、人物和噪声因素的方法,涉及图像识别领域,主要针对场景的视频进行分析的方法。本发明包括以下步骤:对待检测视频抽取关键帧;将关键帧进行粗分类,再进行细分类;粗分类算法和细分类均采用的是经典的图像分类算法ResNet50作为backbone,softmax作为损失函数进行训练并预测,预测时输出分数最高的标签作为输出标签;将分类的结果进行融合,判断是否是目标视频。使用本发明方法可以快速进行视频的识别,保证检测精度的同时提高检测速度。

Description

一种识别视频中特殊场景、物体、人物和噪声因素的方法
技术领域
本发明涉及图像识别领域,具体涉及一种识别视频中特殊场景、物体、人物和噪声因素的方法。
背景技术
现有的目标视频识别主要是通过传统机器学习方法+人工二次审核,目前的传统识别方案主要通过模板算子,比如Hog算子,Sift算子提取图像中的特征,然后用机器学习进行特征学习,设置较低的阈值,确保有较高的召回率。对于召回的图像进行人工二次审核。
该方案具有以下几个不足:一是用传统的模板算子提取特征不够鲁棒性,应对多样化的图片导致识别效果不好,二是传统的模板算子运行速度是比较慢的,无法高效地处理视频。
发明内容
有鉴于此,为解决背景技术中提及的现有技术中存在的缺陷,高效处理视频,本发明提供了一种识别视频中特殊场景、物体、人物和噪声因素的方法。
为了实现上述目的,本发明采用如下技术方案:
一种识别视频中特殊场景、物体、人物和噪声因素的方法,包括以下步骤:
对待检测视频抽取关键帧;
将所述关键帧进行粗分类,再进行细分类;所述粗分类和细分类均采用的是经典的图像分类算法ResNet50作为backbone,softmax作为损失函数进行训练并预测,预测时输出分数最高的标签作为输出标签;
将分类的结果进行融合,判断是否为目标视频。
进一步地,所述关键帧定义为与目标视频有关的帧。
进一步地,所述关键帧的抽取具体为对所有帧按照平均帧间差分强度进行排序,选择平均帧间差分强度最高的若干张图片作为视频的关键帧。
进一步地,所述分类的结果进行融合具体如下:
所述粗分类的结果和所述细分类的结果并行作为前置算子结果输入到策略模型中。
策略模型采用的是xgboost模型,xgboost模型输入的是粗分类和细分类模型在视频关键帧上分数,因为视频关键帧长短不一,每个关键帧都有一个粗分类和细分类,这里从中均匀取N(默认100)关键帧的粗分类和细分类分数,即为两个100维向量,然后进行拼接,则输入xgboost模型的大小是200维的向量,xgboost模型输出的结果是2分类,即分类1正常,分类2目标视频。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种识别视频中特殊场景、物体、人物和噪声因素的方法,具有准确高速识别视频中是否存在特殊场景的技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种识别视频中特殊场景、物体、人物和噪声因素的方法,包括以下步骤:
对待检测视频抽取关键帧;
将关键帧进行粗分类,再进行细分类;粗分类和细分类均采用的是经典的图像分类算法ResNet50作为backbone,softmax作为损失函数进行训练并预测,预测时输出分数最高的标签作为输出标签;
将分类的结果进行融合,判断是否为目标视频。
其中,关键帧定义为与目标视频有关的帧。
其中,关键帧的抽取具体为对所有帧按照平均帧间差分强度进行排序,选择平均帧间差分强度最高的若干张图片作为视频的关键帧。
其中,分类的结果进行融合具体如下:
粗分类的结果和细分类的结果并行作为前置算子结果输入到策略模型中。
策略模型采用的是xgboost模型,xgboost模型输入的是粗分类和细分类模型在视频关键帧上分数,因为视频关键帧长短不一,每个关键帧都有一个粗分类和细分类,这里从中均匀取N(默认100)关键帧的粗分类和细分类分数,即为两个100维向量,然后进行拼接,则输入xgboost模型的大小是200维的向量,xgboost模型输出的结果是2分类,即分类1正常,分类2目标视频。
在本实施例中,算法分为三部分:
1)粗分类算法识别视频中的噪声因素
在实际识别目标视频中,发现一些质量不好的视频(比如模糊,失真等),会对视频的识别造成较大的影响;先对一些影响目标视频识别或者容易误识别为目标视频的视频进行粗筛选,因为分类数较少,所以分类准确率也会相对较高。粗分类算法用的是经典的图像分类算法ResNet50作为backbone, softmax作为损失函数进行训练,预测的时候输出分数top-1高的标签作为输出标签。
2)细分类算法识别目标视频
一个视频判断为目标视频是因为视频中的内容包含目标因素,而目标因素是包含多个层次因素,比如场景、活动、物品、人物等,所以本发明设计一个多层次细分类算法。通过多个层次多个维度去判断图像是否包含目标视频的因素。细分类算法和粗分类算法一样用的是经典的图像分类算法 ResNet50作为backbone,softmax作为损失函数进行训练,不一样的是分类的类别数和训练数据不一样,预测的时候输出分数top-1高的标签作为输出标签。
3)分类结果融合
粗分类和细分类既可以并行,目标视频检测识别作为前置算子结果输入到策略模型中;也可以简单对两者的结果进行合并,取出粗分类的类别分数,然后和细分类的top-1类别分数相乘,因为粗分类如果类别分数较低,该视频为噪声视频的可能性比较大。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (5)

1.一种识别视频中特殊场景、物体、人物和噪声因素的方法,其特征在于,包括以下步骤:
对待检测视频抽取关键帧;
将所述关键帧进行粗分类,再进行细分类;所述粗分类和细分类均采用的是经典的图像分类算法ResNet50作为backbone,softmax作为损失函数进行训练并预测,预测时输出分数最高的标签作为输出标签;
将分类的结果进行融合,判断是否为目标视频。
2.根据权利要求1所述的一种识别视频中特殊场景、物体、人物和噪声因素的方法,其特征在于,所述损失函数的计算公式如下:
Figure RE-FSB0000194330440000011
3.根据权利要求1所述的一种识别视频中特殊场景、物体、人物和噪声因素的方法,其特征在于,所述关键帧定义为与目标视频有关的帧。
4.根据权利要求1所述的一种识别视频中特殊场景、物体、人物和噪声因素的方法,其特征在于,所述关键帧的抽取具体为对所有帧按照平均帧间差分强度进行排序,选择平均帧间差分强度最高的若干张图片作为视频的关键帧。
5.根据权利要求1所述的一种识别视频中特殊场景、物体、人物和噪声因素的方法,其特征在于,所述分类的结果进行融合具体如下:
所述粗分类的结果、所述细分类的结果作为前置算子结果输入到策略模型中,得到融合结果。
CN202110375570.9A 2021-04-03 2021-04-03 一种识别视频中特殊场景、物体、人物和噪声因素的方法 Pending CN113191205A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110375570.9A CN113191205A (zh) 2021-04-03 2021-04-03 一种识别视频中特殊场景、物体、人物和噪声因素的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110375570.9A CN113191205A (zh) 2021-04-03 2021-04-03 一种识别视频中特殊场景、物体、人物和噪声因素的方法

Publications (1)

Publication Number Publication Date
CN113191205A true CN113191205A (zh) 2021-07-30

Family

ID=76974928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110375570.9A Pending CN113191205A (zh) 2021-04-03 2021-04-03 一种识别视频中特殊场景、物体、人物和噪声因素的方法

Country Status (1)

Country Link
CN (1) CN113191205A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491720A (zh) * 2017-04-01 2017-12-19 江苏移动信息系统集成有限公司 一种基于改进型卷积神经网络的车型识别方法
CN108875803A (zh) * 2018-05-30 2018-11-23 长安大学 一种基于视频图像的危化品运输车辆检测与识别方法
CN110059675A (zh) * 2019-06-21 2019-07-26 南京擎盾信息科技有限公司 一种机器人识别道路交通执法行为并提供规范化辅助的方法
CN110414344A (zh) * 2019-06-25 2019-11-05 深圳大学 一种基于视频的人物分类方法、智能终端及存储介质
CN110929802A (zh) * 2019-12-03 2020-03-27 北京迈格威科技有限公司 基于信息熵的细分类识别模型训练、图像识别方法及装置
CN111783649A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 视频类型检测方法、装置、电子设备与存储介质
CN112241470A (zh) * 2020-09-24 2021-01-19 北京影谱科技股份有限公司 一种视频分类方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491720A (zh) * 2017-04-01 2017-12-19 江苏移动信息系统集成有限公司 一种基于改进型卷积神经网络的车型识别方法
CN108875803A (zh) * 2018-05-30 2018-11-23 长安大学 一种基于视频图像的危化品运输车辆检测与识别方法
CN110059675A (zh) * 2019-06-21 2019-07-26 南京擎盾信息科技有限公司 一种机器人识别道路交通执法行为并提供规范化辅助的方法
CN110414344A (zh) * 2019-06-25 2019-11-05 深圳大学 一种基于视频的人物分类方法、智能终端及存储介质
CN110929802A (zh) * 2019-12-03 2020-03-27 北京迈格威科技有限公司 基于信息熵的细分类识别模型训练、图像识别方法及装置
CN111783649A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 视频类型检测方法、装置、电子设备与存储介质
CN112241470A (zh) * 2020-09-24 2021-01-19 北京影谱科技股份有限公司 一种视频分类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
随煜而安: "python实现视频关键帧提取(基于帧间差分)", 《CSDN》 *

Similar Documents

Publication Publication Date Title
CN108562589B (zh) 一种对磁路材料表面缺陷进行检测的方法
CN111401372B (zh) 一种扫描文档图文信息提取与鉴别的方法
Raghunandan et al. Riesz fractional based model for enhancing license plate detection and recognition
JP5588987B2 (ja) 画像及び映像ocrのためのテキストの位置決め
Ghimire et al. A robust face detection method based on skin color and edges
CN102332096B (zh) 一种视频字幕文本提取和识别的方法
EP1600889A1 (en) Apparatus and method for extracting character(s) from image
CN102915438B (zh) 一种视频字幕的提取方法及装置
CN114757900B (zh) 基于人工智能的纺织品缺陷类型识别方法
CN107609549A (zh) 一种自然场景下证件图像的文本检测方法
CN115082683A (zh) 一种基于图像处理的注塑缺陷检测方法
CN111191573A (zh) 一种基于眨眼规律识别的驾驶员疲劳检测方法
Jamil et al. Edge-based features for localization of artificial Urdu text in video images
CN113191216B (zh) 基于姿态识别和c3d网络的多人实时动作识别方法和系统
CN114419008A (zh) 一种图像质量评估方法及系统
CN111046866B (zh) 一种结合ctpn和svm的人民币冠字号区域检测方法
Zhang et al. A novel approach for binarization of overlay text
CN113191205A (zh) 一种识别视频中特殊场景、物体、人物和噪声因素的方法
CN109558875A (zh) 基于图像自动识别的方法、装置、终端及存储介质
KR20040033767A (ko) 한국어 이미지 문자인식기능을 통한 뉴스 동영상의뉴스제목 자동추출방법
Zhuge et al. Robust video text detection with morphological filtering enhanced MSER
CN114038046A (zh) 基于识别向量和融合特征的人脸图像质量分类方法
Yang et al. Text detection in video images using adaptive edge detection and stroke width verification
Kwak et al. Video caption image enhancement for an efficient character recognition
CN108846442A (zh) 一种基于决策树的打电话手势视觉检测算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Li Yangxi

Inventor after: Miao Yanan

Inventor after: Wang Pei

Inventor after: Liu Kedong

Inventor after: Peng Chengwei

Inventor after: Ma Lu

Inventor before: Li Yangxi

Inventor before: Miao Yanan

Inventor before: Wang Pei

CB03 Change of inventor or designer information