CN113076882A - 一种基于深度学习的特定标志检测方法 - Google Patents

一种基于深度学习的特定标志检测方法 Download PDF

Info

Publication number
CN113076882A
CN113076882A CN202110375641.5A CN202110375641A CN113076882A CN 113076882 A CN113076882 A CN 113076882A CN 202110375641 A CN202110375641 A CN 202110375641A CN 113076882 A CN113076882 A CN 113076882A
Authority
CN
China
Prior art keywords
specific mark
video
detection
deep learning
key frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110375641.5A
Other languages
English (en)
Inventor
缪亚男
李扬曦
王佩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN202110375641.5A priority Critical patent/CN113076882A/zh
Publication of CN113076882A publication Critical patent/CN113076882A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的特定标志检测方法,具体包括:输入一段待检测视频;对所述待检测视频进行关键帧抽取,得到关键帧图像;对所述关键图像进行特定标志检测;根据特定标志检测结果对检测网络进行优化。通过本发明可以达到适用范围广、准确率高以及检测速度快的效果。

Description

一种基于深度学习的特定标志检测方法
技术领域
本发明涉及视频检测技术领域,更具体的说是涉及一种基于深度学习的特定标志检测方法。
背景技术
随着互联网技术发展,随着互联网在不断地发展,人们获取信息的需求除了海量的图片和文字,蕴含信息量更大的视频也成为人们获取信息的重要途径,随着出现在互联网上的视频也会越来越多,如何制止网络敏感视频的蔓延,是社会各界普遍关注的问题。而分辨一个视频是否是敏感视频的很重要的因素是特定标志,敏感视频中的特定标志可以用来标识该视频内容的重要信息,对检测敏感视频有非常重要的作用,由于视频包含的信息量远远大于图像,对识别视频中特定标志方法的准确率和效率有更高的要求,因此,本发明主要是通过对视频中图像的特定标志进行检测,并且提出一系列优化的方法,进而有效地帮助我们判定视频是否是敏感视频。
目前,现有技术实现方案有两种:一种是开发纯人工审核系统,人工对待审视频逐一审核,找到敏感现频。另一种对现有特定标志检测方案主要是用传统的一些特征比如HOG,对图像进行滑窗操作,提取每张图像的特征,然后通过特征模板匹配来确定该标志是否是特定标志。
但是,面对海量的视频,纯人工审核系统识别准确率较低、审核成本高。且现有的特定标志检测方案还存在几个不足:一是通过人工设计的特定标志检测特征往往在面对海量数据时没有很好的普适性,二是基于模板匹配的方法,准确率以及效率并不高。
因此,提供一种基于深度学习的特定标志检测方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于深度学习的特定标志检测方法。
为了实现上述目的,本发明采用如下技术方案:
一种基于深度学习的特定标志检测方法,包括:
S100:输入一段待检测视频;
S200:对所述待检测视频进行关键帧抽取,得到关键帧图像;
S300:对所述关键帧图像进行特定标志检测。
优选的,所述步骤S200,具体步骤包括:
S210:对所述待检测视频进行转码;
S220:对转码视频进行关键帧抽取,得到关键帧图像。
优选的,所述步骤S300,具体步骤包括:
S310:将所述关键帧图像送入到FasterRCNN检测网络框架中,并提取所述FasterRCNN检测网络框架中关键帧图像的图像特征信息;
S320:根据所述图像特征信息产生若干的候选框;
S330:将每个所述候选框连接一个回归器以及分类器;
S340:根据所述回归器定位所述候选框位置;
S350:根据所述分类器判断所述候选框是否包含特定标志。
优选的,还包括对所述FasterRCNN检测网络进行网络优化:针对特定标志较小的视频进行网络优化以及针对特定标志尺度、姿态变化的视频进行网络优化。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于深度学习的特定标志检测方法,具有以下有益效果:
1、本发明能对线上视频中的特定标志进行有效地检测,具有较高的准确率;
2、由于采用FPN、DCN以及输入图像的保持形变,尤其在一些包含比较小的logo上有很好的检测能力;
3、本发明应用范围较广,可以迁移到其他特定台标,特定旗帜等物体的检测中;
4、本发明具有很快的检测速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的检测方法流程示意图;
图2附图为本实施例提供的关键帧抽取方法流程示意图;
图3附图为本实施例提供的特定标志检测方法流程示意图;
图4附图为本实施例提供的检测网络优化方法[1]流程示意图;
图5附图为本实施例提供的检测网络优化方法[2]流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1所示,本发明实施例公开了一种基于深度学习的特定标志检测方法,包括:
S100:输入一段待检测视频;
S200:对所述待检测视频进行关键帧抽取,得到关键帧图像;
S300:对所述关键帧图像进行特定标志检测。
如图2所示,在一个具体的实施例中,步骤S200,具体步骤包括:
S210:对待检测视频进行转码:
S220:对转码视频进行关键帧抽取,得到关键帧图像。
如图3所示,在一个具体的实施例中,步骤S300,具体步骤包括:
S310:将所述关键帧图像送入到FasterRCNN检测网络框架中,并提取所述FasterRCNN检测网络框架中关键帧图像的图像特征信息;
S320:根据所述图像特征信息产生若干的候选框;
S330:将每个所述候选框连接一个回归器以及分类器;
S340:根据所述回归器定位所述候选框位置;
S350:根据所述分类器判断所述候选框是否包含特定标志。
具体的,通过ResNet50提取关键帧图像的图像特征信息,其中,图像特征信息包括图像中丰富的语义信息,然后用候选区域产生网络(RPN,Region Proposa Network)产生一定数量的候选框,将每个框接一个回归器和分类器,根据回归器定位候选框位置,根据分类器判断候选框是否包含特定标志。
更具体的,分类器采用的是二分类器,通过二分类器来判断候选框是否包含特定标志可以进一步提高了收敛速度和分类准确率。
在一个具体的实施例中,还包括对FasterRCNN检测网络进行网络优化:针对特定标志较小的视频进行网络优化以及针对特定标志尺度、姿态变化的视频进行网络优化。
具体的,对于特定标志较小的关键帧图像,不利于网络检测,因此增加FPN(FPN指的是利用常规CNN模型来高效提取图片中各维度特征的方法),使FPN作为提取器:
更具体的,如图4所示,以ResNet50为例,选择、conv3、conv4、conv5层的最后一个残差层特征作为FPN特征,记为{C2,C3,C4,C5},其中,conv为向量卷积运算,convN均N维矩阵卷积运算,C5经过1x1卷积,得到M5特征,M5经过上采样,再加上C4经过1x1卷积后的特征,得到M4,这个过程做两次,分别得到M3和M2,M层经过3x3卷积,得到最终的P2、P3、P4、P5层特征,所有M层的通道数都设计成一样d=256。
以上方法有益效果为:既利用了顶层较强的语义特征,有利于分类,又利用了底层的高分辨率信息,有利于定位,因此,对一些较小的特定标志有明显效果。
具体的,对于特定标志检测过程中目标尺度、姿态进行变化,影响检测效果,普通为3x3卷积,卷积操作的位置都固定的,也就意味着感受野也是固定的,但实际上目标不一定是固定的,因此,引入offset,使进行卷积的像素不再区限于3x3区域,把注意力聚焦到训练目标,因为在实际情况下,检测目标不一定都是3x3这样规则形状,从而可以达到更好的学习不规则的目标的效果。
以上方法有益效果为:通过引入offset,可以使网络在提取特征时更多的把注意力聚焦到和训练目标有关的位置上,可以更好的覆盖不同尺寸和形状的目标,并且offset在监督信息的指导下进行学习,使并按标志检测更加灵活。
更具体的,如图5所示,将可变形卷积引入了offset,可变形卷积的结构可以分为上下两个部分,上面那部分是基于输入的特征图生成offset,而下面那部分是基于特征图和offset通过可变形卷积获得输出特征图。卷积操作的位置会在监督信息的指导下进行选择,更好地适应目标的各种尺寸、形状。
以上方法有益效果为:使用可变形卷积DCN提取特征会更加丰富且更能集中到目标本身。
更具体的,在进行测试时候,一般将关键帧图像处理到指定大小(512*512),再输入到特定标志检测网络,该预处理方法会导致图像中产生较大的形变,从而在实际使用中导致漏招;所以本发明,提出将图像的长边resize到指定大小512,并且保持长宽比不变,这样的图像不一定是512*512,同时用黑色像素填充空白部分,这样确保输入到特定标志检测网络中不会产生形变,在实际应用中发现有较为明显的召回小logo的能力。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于深度学习的特定标志检测方法,具有以下有益效果:
1、本发明能对线上视频中的特定标志进行有效地检测,具有较高的准确率;
2、由于采用FPN、DCN以及输入图像的保持刑变,尤其在一些包含比较小的logo上有很好的检测能力;
3、本发明应用范围较广,可以迁移到其他特定台标,特定旗帜等物体的检测中;
4、本发明具有很快的检测速度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (4)

1.一种基于深度学习的特定标志检测方法,其特征在于,包括:
S100:输入一段待检测视频;
S200:对所述待检测视频进行关键帧抽取,得到关键帧图像;
S300:对所述关键帧图像进行特定标志检测。
2.根据权利要求1所述的一种基于深度学习的特定标志检测方法,其特征在于,所述步骤S200,具体步骤包括:
S210:对所述待检测视频进行转码;
S220:对转码视频进行关键帧抽取,得到关键帧图像。
3.根据权利要求1所述的一种基于深度学习的特定标志检测方法,其特征在于,所述步骤S300,具体步骤包括:
S310:将所述关键帧图像送入到FasterRCNN检测网络框架中,并提取所述FasterRCNN检测网络框架中关键帧图像的图像特征信息;
S320:根据所述图像特征信息产生若干的候选框;
S330:将每个所述候选框连接一个回归器以及分类器;
S340:根据所述回归器定位所述候选框位置;
S350:根据所述分类器判断所述候选框是否包含特定标志。
4.根据权利要求3所述的一种基于深度学习的特定标志检测方法,其特征在于,还包括对所述FasterRCNN检测网络进行网络优化:针对特定标志较小的视频进行网络优化以及针对特定标志尺度、姿态变化的视频进行网络优化。
CN202110375641.5A 2021-04-03 2021-04-03 一种基于深度学习的特定标志检测方法 Pending CN113076882A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110375641.5A CN113076882A (zh) 2021-04-03 2021-04-03 一种基于深度学习的特定标志检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110375641.5A CN113076882A (zh) 2021-04-03 2021-04-03 一种基于深度学习的特定标志检测方法

Publications (1)

Publication Number Publication Date
CN113076882A true CN113076882A (zh) 2021-07-06

Family

ID=76615450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110375641.5A Pending CN113076882A (zh) 2021-04-03 2021-04-03 一种基于深度学习的特定标志检测方法

Country Status (1)

Country Link
CN (1) CN113076882A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316001A (zh) * 2017-05-31 2017-11-03 天津大学 一种自动驾驶场景中小且密集的交通标志检测方法
CN110610510A (zh) * 2019-08-29 2019-12-24 Oppo广东移动通信有限公司 目标跟踪方法、装置、电子设备及存储介质
CN111368703A (zh) * 2020-02-29 2020-07-03 上海电力大学 一种基于fpn的台标检测与识别的方法
CN111507398A (zh) * 2020-04-16 2020-08-07 浙江华云信息科技有限公司 基于目标检测的变电站金属仪器锈蚀识别方法
CN111552837A (zh) * 2020-05-08 2020-08-18 深圳市英威诺科技有限公司 基于深度学习的动物视频标签自动生成方法、终端及介质
CN111767878A (zh) * 2020-07-03 2020-10-13 中国科学院自动化研究所 嵌入式设备中基于深度学习的交通标志检测方法及系统
CN111783639A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 图像检测方法、装置、电子设备及可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316001A (zh) * 2017-05-31 2017-11-03 天津大学 一种自动驾驶场景中小且密集的交通标志检测方法
CN110610510A (zh) * 2019-08-29 2019-12-24 Oppo广东移动通信有限公司 目标跟踪方法、装置、电子设备及存储介质
CN111368703A (zh) * 2020-02-29 2020-07-03 上海电力大学 一种基于fpn的台标检测与识别的方法
CN111507398A (zh) * 2020-04-16 2020-08-07 浙江华云信息科技有限公司 基于目标检测的变电站金属仪器锈蚀识别方法
CN111552837A (zh) * 2020-05-08 2020-08-18 深圳市英威诺科技有限公司 基于深度学习的动物视频标签自动生成方法、终端及介质
CN111783639A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 图像检测方法、装置、电子设备及可读存储介质
CN111767878A (zh) * 2020-07-03 2020-10-13 中国科学院自动化研究所 嵌入式设备中基于深度学习的交通标志检测方法及系统

Similar Documents

Publication Publication Date Title
CN111860348A (zh) 基于深度学习的弱监督电力图纸ocr识别方法
WO2023083280A1 (zh) 一种场景文本识别方法和装置
CN111401372A (zh) 一种扫描文档图文信息提取与鉴别的方法
CN110598698B (zh) 基于自适应区域建议网络的自然场景文本检测方法和系统
US20240161449A1 (en) Apparatus and methods for converting lineless talbes into lined tables using generative adversarial networks
CN113191216B (zh) 基于姿态识别和c3d网络的多人实时动作识别方法和系统
CN113297420A (zh) 视频图像处理方法、装置、存储介质及电子设备
CN111931769A (zh) 结合rpa及ai的发票处理、装置、计算设备及存储介质
CN115082776A (zh) 一种基于图像识别的电能表自动检测系统及方法
CN115810197A (zh) 一种多模态电力表单识别方法及装置
CN106682670B (zh) 一种台标识别方法及系统
CN114463770A (zh) 一种用于普遍试卷题目的智能切题方法
CN114821620A (zh) 基于行文本框纵向合并的文本内容提取识别方法
CN113743318A (zh) 基于行列分割的表格结构识别方法、存储介质和电子装置
CN113657162A (zh) 一种基于深度学习的票据ocr识别方法
CN110969163B (zh) 一种检测图像中文本信息的方法
Darma et al. Segmentation of balinese script on lontar manuscripts using projection profile
CN113076882A (zh) 一种基于深度学习的特定标志检测方法
CN112184533A (zh) 一种基于sift特征点匹配的水印同步方法
CN116630604A (zh) 一种垃圾图像分类方法及系统
CN116958980A (zh) 一种实时场景文本检测方法
CN110956174A (zh) 一种器件编号的识别方法
CN115909493A (zh) 一种面向课堂实录视频的教师不当手势检测方法及系统
CN111813996B (zh) 基于单帧和连续多帧抽样并行的视频搜索方法
CN116704518A (zh) 一种文本识别方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Miao Yanan

Inventor after: Li Yangxi

Inventor after: Wang Pei

Inventor after: Liu Kedong

Inventor after: Peng Chengwei

Inventor after: Ma Huan

Inventor before: Miao Yanan

Inventor before: Li Yangxi

Inventor before: Wang Pei

CB03 Change of inventor or designer information