CN112381043A - 一种旗帜检测方法 - Google Patents

一种旗帜检测方法 Download PDF

Info

Publication number
CN112381043A
CN112381043A CN202011363051.2A CN202011363051A CN112381043A CN 112381043 A CN112381043 A CN 112381043A CN 202011363051 A CN202011363051 A CN 202011363051A CN 112381043 A CN112381043 A CN 112381043A
Authority
CN
China
Prior art keywords
flag
frame
data set
video
video frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011363051.2A
Other languages
English (en)
Inventor
徐杨
崔本飞
冯夫健
黄翰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202011363051.2A priority Critical patent/CN112381043A/zh
Publication of CN112381043A publication Critical patent/CN112381043A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于物体检测领域,公开一种旗帜检测方法,提出一种混合解决方案,包括:利用多种有效的数据增强方法对原旗帜数据集进行增强;在第一检测分支中采用结合Optical Flow和GMM方法进行目标检测;在第二检测分支中,将扩充后的数据集的视频帧输入作为Darknet‑53骨干网络的输入,以提取多缩放视频帧的特征图层,再采用样本选择算法进行正负样本的选择,然后训练yolov3深度神经网络模型和目标检测;合并两个检测分支的检测结果以检测摄像头的视频流中是否存在旗帜。本发明具有准确率高、低漏检率、低误检率和实时性的优点。

Description

一种旗帜检测方法
技术领域
本发明属于物体检测领域,涉及一种旗帜检测方法。
背景技术
目前对不法信息的手段主要依靠人力识别,面对越来越庞大的数据量,人工检查显得十分乏力。因此,如何借助计算机技术实现自动、智能的网络非法信息检索意义重大。
旗帜作为标志的一种,因其能简单又丰富的表达意义、情感和指令动作被广泛地应用于信息的传递与表达,常出现在游行、集会等复杂场景中。但由于旗帜的非刚性特点,使得旗帜在局部形变、部分遮挡和光照强度剧烈变化等条件下无法识别。因此,当前国内外对于旗帜检测的研究并不是很多,但也有研究人员提出了一些对于旗帜识别值得参考的研究方法。Hart E.(详见文献:Hart E,Cha S H,Tappert C C.Interactive FlagIdentification Using Image Retrieval Techniques.[C]International Conferenceon Imaging Science,Systems and Technology,Cisst'04,June 21-24,2004,Las Vegas,Nevada,Usa.2004:441-445.)等人提出一种交互式的旗帜识别系统,需要用户手动从照片中裁剪出旗帜,使用基于颜色的最近邻分类器产生候选排序列表给用户做出最终的决定,手动裁剪旗帜图像的质量极大地影响识别效果。Jetley S.(详见文献:Jetley S,Vaze A,Belhe S.Automatic flag recognition using texture based color analysis andgradient features[C]IEEE Second International Conference on Image InformationProcessing.IEEE,2013:464-469)等人提出一种基于颜色和它们的相对位置来区分旗帜的方法,该方法在光照强度剧烈变化的环境下对分类准确率影响很大。Ahmed K.(Ahmed K,Rahman M Z,Shameemmhossain M.Flag Identification Using Support Vector Machine[J].Juniv Edu,2013)等人提出一种基于颜色占比的SVM旗帜识别系统,该系统可以识别最大45度角以内的旗帜图像,但对于复杂场景与多个目标的图像无法识别。可见,对于旗帜识别的研究,国内外研究者主要采用的是基于传统的浅层机器学习算法模型,这些模型被证明都存在各自的局限性,无法适用情况复杂的场景,而且用来训练模型的样本,需要大量的人工裁剪及标注工作。
此外,由于旗帜的质地柔软轻薄的特点,使得旗帜非常容易发生形变,而且游行和集会的复杂环境容易造成旗帜的部分折叠和遮挡,也容易带来光照强度的剧烈变化,并且在图片中,由于亮度,分辨率低,背景,旗帜的形状变化以及的影响变化导致旗帜检测面临较大的挑战。在这种情况下,现有技术对旗帜进行识别存在一定的困难,容易出现漏检和误检。
因此,研究出一种准确率高,能抗复杂环境的影响,误检率低,提高检测效率的旗帜检测方法是专业人员亟待解决的问题。
发明内容
针对现有技术的不足,本发明提供一种旗帜检测方法。
本发明采用如下技术方案实现:
一种旗帜检测方法,包括以下步骤:
步骤S1:收集和拍摄大量旗帜视频数据,并将视频转换成视频帧;
步骤S2:将采集到的视频帧进行尺寸标准化和标注,以形成原旗帜数据集;
步骤S3:利用多种有效的数据增强方法对原旗帜数据集进行增强;
步骤S4:在第一检测分支中,使用Optical Flow和GMM方法以获取增强数据集中视频帧的RoIs,并将RoIs和视频帧输入到ResNet网络中进行训练,得到训练好的第一检测分支网络模型;
步骤S5:在第二检测分支中,将增强数据集中的视频帧输入特征提取网络,进行视频帧特征提取;
步骤S6:对增强数据集采用样本选择算法来计算预选的边框与真实的边框的交集和并集的比值,将比值与计算阈值进行比较,以确定正负样本;
步骤S7:将步骤S5提取得到的特征输入到yolov3深度神经网络模型中进行训练,得到训练好的第二检测分支网络模型;
步骤S8:使用训练好的检测分支网络模型检测摄像头的视频流中是否存在旗帜。
优选地,步骤S1包括:
步骤S101:分析旗帜出现的场景;
步骤S102:通过手工拍摄和网络爬虫,对包含旗帜场景的目标旗帜进行数据采集得到旗帜视频;
步骤S103:使用ffmpeg软件工具将旗帜视频转换为视频帧;
步骤S104:将不包含目标旗帜或模糊难以辨认的视频帧删除,以形成数据集。
优选地,步骤S2包括:
步骤S201:将所有目标旗帜视频帧标准化为统一416x416的尺寸;
步骤S202:使用labelImg标注工具对标准化后的目标旗帜视频帧进行候选框的标注,以生成voc数据格式的标注文件;
步骤S203:将数据集根据视频的数量按7:3的比例划分为训练数据集和测试数据集。
优选地,步骤S3包括:
步骤S301:对步骤S2所得数据集中所有视频帧进行尺寸缩放,对应的voc数据格式的标注文件里的候选框位置和视频帧大小信息做相应的转换,并将得到的新的视频帧和标注文件加入新的数据集中;
步骤S302:对步骤S2所得数据集中所有视频帧进行平移,对应的voc数据格式的标注文件里的候选框位置信息做相应的转换,并将得到的新的视频帧和标注文件加入新的数据集中;
步骤S303:对步骤S2所得数据集中所有视频帧进行翻转,对应的voc数据格式的标注文件里的候选框位置信息做相应的转换,并将得到的新的视频帧和标注文件加入新的数据集中;
步骤S304:对步骤S2所得数据集中所有视频帧进行高斯噪声,对应的voc数据格式的标注文件不需要修改,并将得到的数据加入新的数据集中;
步骤S305:对步骤S2所得数据集中所有视频帧进行旋转,对应的voc数据格式的标注文件里的候选框位置信息做相应的转换,并将得到的新的视频帧和标注文件加入新的数据集中;
步骤S306:对步骤S2所得数据集中所有视频帧进行仿射变换,对应的voc数据格式的标注文件里的候选框位置和视频帧大小信息做相应的转换,并将得到的新的视频帧和标注文件加入新的数据集中。
优选地,步骤S4包括:
步骤S401:利用高斯混合模型GMM获取视频帧中的前景;
步骤S402:利用光流Optical Flow法来获取视频帧中运动特征;
步骤S403:将获取的前景和运动特征结合在一起得到视频帧中的感兴趣区域ROIs;
步骤S404:将ROIs和视频帧输入到ResNet网络进行训练。
优选地,步骤S5包括:
步骤S501:采用Darknet-53作为特征提取网络;
步骤S502:设置特征提取网络的第82层的特征图大小为13x13,分辨率低但感受野大,用于检测图像中较大的目标;
步骤S503:设置特征提取网络的第94层的特征图大小为26x126,分辨率中等,但感受野中等,用于检测图像中大小适中的目标;
步骤S504:设置特征提取网络的第106层的特征图大小为52x52,分辨率高但感受野小,用于检测图像中较小的目标。
优选地,步骤S6包括:
预选的边框与真实的边框的交集和并集的比值Dg的计算公式如下:
Figure BDA0002804556930000051
其中:ROIcg表示预选的边框,ROIg表示真实的边框,area表示计算面积;
使用交并集比值Dg与计算阈值tg比较,其中,
如果Dg≥tg,则预选的边框为正样本;
如果Dg<tg,则预选的边框为负样本;
计算阈值tg的计算公式如下:
计算交并集比值Dg的平均值:
mg=Mean(Dg)
计算交并集比值Dg的标准方差:
vg=Std(Dg)
计算阈值tg
tg=mg+vg
优选地,步骤S7包括:
步骤S701:通过kmeans聚类算法,设置yolov3的anchor boxes;
步骤S702:将yolov3深度神经网络模型的loss函数设置为:
Figure BDA0002804556930000061
其中,
Figure BDA0002804556930000062
表示第i个目标的bounding box预测值;(xi,yi,wi,hi)表示第i个目标的ground truth标定值;
Figure BDA0002804556930000063
表示该网格包含第i个目标的概率乘上预测边框与标定值的交并值;Ci表示该网格包含第i个目标的预测边框与标定值的交并值;
Figure BDA0002804556930000064
表示预测为第i个种类的概率;pi(c)表示第i个种类的概率;
Figure BDA0002804556930000065
表示有目标落在网格i和第j个bounding box中;
Figure BDA0002804556930000066
表示有目标落在网格i中;λcoord为坐标预测误差权重;λnoobj为目标测误差权重;S为网格个数;B为bounding box个数;c为旗帜的类别;classes为旗帜的类别集合;
步骤S703:把λcoord设置为5,λnoobj设置为0.5。
优选地,步骤S701包括:
A、计算每个标注框与每个聚类中心的距离d,将标注框分配给距离最近的聚类中心:
d=1-IOU[(xj,yj,wj,hj),(xi,yi,wi,hi)],j∈{1,2,...,N},i∈{1,2,...,k}
其中:(xj,yj,wj,hj)为标注框相对于原图的坐标,(xj,yj)为标注框的中心点,(wj,hj)为标注框的宽和高;N为所有标注框的个数;(xi,yi,wi,hi)为聚类中心;k为聚类中心个数。
B、所有标注框分配完毕后,对每个簇重新计算聚类中心,计算方式为:
Figure BDA0002804556930000067
Figure BDA0002804556930000068
其中:Ni是第i个簇的标注框个数;
重复A、B,直到聚类中心改变量很小。
优选地,步骤S8包括:
步骤S801:从视频流中读取视频帧作为两个检测分支网络模型的输入;
步骤S802:使用训练好的两个分支网络模型对输入的视频帧进行检测,并将两个检测结果合并以得到目标旗帜在视频帧中的位置坐标和置信度并框出旗帜。
本发明包括以下有益效果:
1、创新性提出一种混合解决方案,本发明具有准确率高、低漏检率、低误检率和实时性的优点。
2、通过使用多种有效数据增强方法扩充训练数据,能有效降低模型的漏检率和误检率。
3、通过使用正负样本选择算法,将预选框与标定框的交并值与计算阈值进行比较,以确定正负样本,能够使模型更好学习到主要特征,提高检测的准确率。
4、通过kmeans聚类算法,重新计算和设定模型的anchor box参数,使网络模型对旗帜目标检测更具针对性,提高模型的检出率。
5、通过提取骨干网络中的高中低三个特征图层,作为检测网络的输入,能使网络模型能有效地识别图片中的大目标、小目标和大小适中的目标。
6、提出的混合解决方法,能够有效降低由于亮度、分辨率低、背景、旗帜的形状变化带来的影响。
附图说明
图1为本发明一个实施例中的旗帜检测方法流程图;
图2为本发明一个实施例中的混合网络结构示意图;
图3为本发明一个实施例中的正负样本选择算法的流程图。
具体实施方式
下面结合说明书附图来说明本发明的具体实施方式。
一种旗帜检测方法,如图1所示,基于一种混合网络结构实现,包括:利用多种有效的数据增强方法对原旗帜数据集进行增强,基于混合网络结构进行检测,在第一检测分支中采用结合Optical Flow和GMM方法进行目标检测。在第二检测分支中,将扩充后的数据集的视频帧输入作为Darknet-53骨干网络的输入,以提取多缩放视频帧的特征图层,再采用样本选择算法进行正负样本的选择,然后训练yolov3深度神经网络模型和目标检测。合并两个检测分支的检测结果以检测摄像头的视频流中是否存在旗帜。
在一个实施例中,混合网络结构如图2所示,第一检测分支通过高斯混合模型提取前景候选对象及光流法处理视频帧提取运动特征结合在一起得到图像中包含旗帜的感兴趣区域(RoIs),并将RoIs和视频帧输入ResNet网络进行训练,得到第一检测分支网络模型。高斯混合模型是一种无监督的算法,利用训练数据对背景建模,以获得图像的前景,但数据集缺乏单纯的背景图像,因此背景建模不够准确。为了解决高斯混合模型这一缺点,使用光流法来捕获视频中旗帜飘动的有关特征,光流法会检测连续视频帧中的运动对象,因此即使是微小的运动也能捕获到,从而最大程度地减少漏检。
第二检测分支利用Darknet-53获取视频帧特征,进行正负样本选择,训练yolov3神经网络模型训练,得到第二检测分支网络模型。当经过足够的数据训练后,yolov3能够提取和学习复杂而抽象的特征,以适应光强度的变化、旗帜的大小、形状和方向的变化、图像质量和噪声带来的影响。
一种旗帜检测方法,包括以下步骤:
步骤S1:收集和拍摄大量的旗帜的视频数据,并将视频转换成视频帧。
在一个实施例中,步骤S1包括:
步骤S101:分析目标出现的场景。旗帜可能会出现在衣服、帽子、手提袋、墙上、车上、飘在空中。
步骤S102:通过手工拍摄和网络爬虫,对包含上述场景的目标旗帜进行数据采集得到旗帜视频。
步骤S103:使用ffmpeg软件工具将旗帜视频转换为视频帧。
步骤S104:将上述得到的视频帧中不包含目标旗帜或模糊难以辨认的视频帧删除,以形成数据集。
步骤S2:将采集到的视频帧进行尺寸标准化和标注,以形成数据集。
在一个实施例中,步骤S2包括:
步骤S201:将所有目标旗帜视频帧标准化为统一416x416的尺寸;
步骤S202:使用labelImg标注工具对标准化后的目标旗帜视频帧进行候选框的标注,以生成voc数据格式的标注文件;
步骤S203:将数据集根据视频的数量按7:3的比例划分为训练数据集和测试数据集。
步骤S3:利用多种有效的数据增强方法对原旗帜数据集进行增强。
在一个实施例中,步骤S3包括:
步骤S301:对步骤S2所得数据集中所有视频帧进行尺寸缩放,对应的voc数据格式的标注文件里的候选框位置和视频帧大小信息做相应的转换,并将得到的新的视频帧和标注文件加入新的数据集中。
步骤S302:对步骤S2所得数据集中所有视频帧进行平移,对应的voc数据格式的标注文件里的候选框位置信息做相应的转换,并将得到的新的视频帧和标注文件加入新的数据集中。
步骤S303:对步骤S2所得数据集中所有视频帧进行翻转,对应的voc数据格式的标注文件里的候选框位置信息做相应的转换,并将得到的新的视频帧和标注文件加入新的数据集中。
步骤S304:对步骤S2所得数据集中所有视频帧进行高斯噪声,对应的voc数据格式的标注文件不需要修改,并将得到的数据加入新的数据集中。
步骤S305:对步骤S2所得数据集中所有视频帧进行旋转,对应的voc数据格式的标注文件里的候选框位置信息做相应的转换,并将得到的新的视频帧和标注文件加入新的数据集中。
步骤S306:对步骤S2所得数据集中所有视频帧进行仿射变换,对应的voc数据格式的标注文件里的候选框位置和视频帧大小信息做相应的转换,并将得到的新的视频帧和标注文件加入新的数据集中。
步骤S4:在第一检测分支中,使用Optical Flow和GMM方法以获取视频帧中的感兴趣区域RoIs,并将RoIs和视频帧输入到ResNet网络中进行训练,得到第一检测分支网络模型。
在一个实施例中,步骤S4包括:
步骤S401:利用高斯混合模型(GMM)获取视频帧中的前景。
步骤S402:利用光流(Optical Flow)法来获取视频帧中运动特征。
步骤S403:将获取的前景和运动特征结合在一起得到视频帧中的感兴趣区域(ROIs)。
步骤S404:将ROIs和视频帧输入到ResNet网络进行训练。
步骤S5:在第二检测分支中,将数据集中的视频帧输入特征提取网络,进行视频帧特征提取。
在一个实施例中,步骤S5包括:
步骤S501:采用Darknet-53作为特征提取网络。
步骤S502:特征提取网络的第82层的特征图,其大小为13x13,分辨率低但感受野大,用于检测图像中较大的目标。
步骤S503:特征提取网络的第94层的特征图,其大小为26x126,分辨率中等,但感受野中等,用于检测图像中大小适中的目标。
步骤S504:特征提取网络的第106层的特征图,其大小为52x52,分辨率高但感受野小,用于检测图像中较小的目标。
步骤S6:对增强的数据集采用样本选择算法来计算预选的边框与真实的边框的交集和并集的比值(IOU),将比值与计算阈值进行比较,以确定正负样本。
在一个实施例中,如图3所示,步骤S6包括:
预选的边框与真实的边框的交集和并集的比值Dg的计算公式如下:
Figure BDA0002804556930000111
其中,ROIcg表示预选的边框,ROIg表示真实的边框,area表示计算面积。
使用交并集比值Dg与计算阈值tg比较,其中,
如果Dg≥tg,则预选的边框为正样本;
如果Dg<tg,则预选的边框为负样本;
计算阈值tg的计算公式如下:
计算交并集比值Dg的平均值:
mg=Mean(Dg)
计算交并集比值Dg的标准方差:
vg=Std(Dg)
计算阈值tg
tg=mg+vg
步骤S7:将提取得到的特征输入到yolov3深度神经网络模型中进行训练,得到第二检测分支网络模型。
在一个实施例中,步骤S7包括:
步骤S701:通过kmeans聚类算法,设置yolov3的anchor boxes,包括:
A、计算每个标注框与每个聚类中心的距离d,将标注框分配给距离最近的聚类中心:
d=1-IOU[(xj,yj,wj,hj),(xi,yi,wi,hi)],j∈{1,2,...,N},i∈{1,2,...,k}
其中:(xj,yj,wj,hj)为标注框相对于原图的坐标,(xj,yj)为标注框的中心点,(wj,hj)为标注框的宽和高;N为所有标注框的个数。(xi,yi,wi,hi)为聚类中心;k为聚类中心个数。
B、所有标注框分配完毕后,对每个簇重新计算聚类中心,计算方式为:
Figure BDA0002804556930000121
Figure BDA0002804556930000122
其中:Ni是第i个族的标注框个数。
重复A、B,直到聚类中心改变量很小。
聚类得到的如下anchor boxes,对目标检测更具针对性:
(39,70)、(50,83)、(51,107)、(52,214)、(70,123)、(75,86)、(197,309)、(241,298)、(262,391)。
步骤S702:将yolov3深度神经网络模型的loss函数设置为:
Figure BDA0002804556930000131
其中:
Figure BDA0002804556930000132
表示第i个目标的bounding box预测值;(xi,yi,wi,hi)表示第i个目标的ground truth标定值;
Figure BDA0002804556930000133
表示该网格包含第i个目标的概率乘上预测边框与标定值的交并值;Ci表示该网格包含第i个目标的预测边框与标定值的交并值;
Figure BDA0002804556930000134
表示预测为第i个种类的概率;pi(c)表示第i个种类的概率;
Figure BDA0002804556930000135
表示有目标落在网格i和第j个bounding box中;
Figure BDA0002804556930000136
表示有目标落在网格i中;λcoord为坐标预测误差权重;λnoobj为目标测误差权重;S为网格个数;B为bounding box个数;c为旗帜的类别;classes为旗帜的类别集合。
步骤S703:把λcoord设置为5,λnoobj设置为0.5。
步骤S8:使用训练好的检测分支网络模型检测摄像头的视频流中是否存在旗帜。
在一个实施例中,步骤S8包括:
步骤S801:从视频流中读取视频帧作为两个检测分支网络模型的输入;
步骤S802:使用训练好的两个检测分支网络模型对输入的视频帧进行检测,并将两个检测结果合并得到目标旗帜在视频帧中的位置坐标和置信度并框出旗帜。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有的等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (10)

1.一种旗帜检测方法,其特征在于,包括以下步骤:
步骤S1:收集和拍摄大量旗帜视频数据,并将视频转换成视频帧;
步骤S2:将采集到的视频帧进行尺寸标准化和标注,以形成原旗帜数据集;
步骤S3:利用多种有效的数据增强方法对原旗帜数据集进行增强;
步骤S4:在第一检测分支中,使用Optical Flow和GMM方法以获取增强数据集中视频帧的RoIs,并将RoIs和视频帧输入到ResNet网络中进行训练,得到训练好的第一检测分支网络模型;
步骤S5:在第二检测分支中,将增强数据集中的视频帧输入特征提取网络,进行视频帧特征提取;
步骤S6:对增强数据集采用样本选择算法来计算预选的边框与真实的边框的交集和并集的比值,将比值与计算阈值进行比较,以确定正负样本;
步骤S7:将步骤S5提取得到的特征输入到yolov3深度神经网络模型中进行训练,得到训练好的第二检测分支网络模型;
步骤S8:使用训练好的检测分支网络模型检测摄像头的视频流中是否存在旗帜。
2.根据权利要求1所述的旗帜检测方法,其特征在于,步骤S1包括:
步骤S101:分析旗帜出现的场景;
步骤S102:通过手工拍摄和网络爬虫,对包含旗帜场景的目标旗帜进行数据采集得到旗帜视频;
步骤S103:使用ffmpeg软件工具将旗帜视频转换为视频帧;
步骤S104:将不包含目标旗帜或模糊难以辨认的视频帧删除,以形成数据集。
3.根据权利要求1所述的旗帜检测方法,其特征在于,步骤S2包括:
步骤S201:将所有目标旗帜视频帧标准化为统一416x416的尺寸;
步骤S202:使用labelImg标注工具对标准化后的目标旗帜视频帧进行候选框的标注,以生成voc数据格式的标注文件;
步骤S203:将数据集根据视频的数量按7:3的比例划分为训练数据集和测试数据集。
4.根据权利要求1所述的旗帜检测方法,其特征在于,步骤S3包括:
步骤S301:对步骤S2所得数据集中所有视频帧进行尺寸缩放,对应的voc数据格式的标注文件里的候选框位置和视频帧大小信息做相应的转换,并将得到的新的视频帧和标注文件加入新的数据集中;
步骤S302:对步骤S2所得数据集中所有视频帧进行平移,对应的voc数据格式的标注文件里的候选框位置信息做相应的转换,并将得到的新的视频帧和标注文件加入新的数据集中;
步骤S303:对步骤S2所得数据集中所有视频帧进行翻转,对应的voc数据格式的标注文件里的候选框位置信息做相应的转换,并将得到的新的视频帧和标注文件加入新的数据集中;
步骤S304:对步骤S2所得数据集中所有视频帧进行高斯噪声,对应的voc数据格式的标注文件不需要修改,并将得到的数据加入新的数据集中;
步骤S305:对步骤S2所得数据集中所有视频帧进行旋转,对应的voc数据格式的标注文件里的候选框位置信息做相应的转换,并将得到的新的视频帧和标注文件加入新的数据集中;
步骤S306:对步骤S2所得数据集中所有视频帧进行仿射变换,对应的voc数据格式的标注文件里的候选框位置和视频帧大小信息做相应的转换,并将得到的新的视频帧和标注文件加入新的数据集中。
5.根据权利要求1所述的旗帜检测方法,其特征在于,步骤S4包括:
步骤S401:利用高斯混合模型GMM获取视频帧中的前景;
步骤S402:利用光流Optical Flow法来获取视频帧中运动特征;
步骤S403:将获取的前景和运动特征结合在一起得到视频帧中的感兴趣区域ROIs;
步骤S404:将ROIs和视频帧输入到ResNet网络进行训练。
6.根据权利要求1所述的旗帜检测方法,其特征在于,步骤S5包括:
步骤S501:采用Darknet-53作为特征提取网络;
步骤S502:设置特征提取网络的第82层的特征图大小为13x13,分辨率低但感受野大,用于检测图像中较大的目标;
步骤S503:设置特征提取网络的第94层的特征图大小为26x126,分辨率中等,但感受野中等,用于检测图像中大小适中的目标;
步骤S504:设置特征提取网络的第106层的特征图大小为52x52,分辨率高但感受野小,用于检测图像中较小的目标。
7.根据权利要求1所述的旗帜检测方法,其特征在于,步骤S6包括:
预选的边框与真实的边框的交集和并集的比值Dg的计算公式如下:
Figure FDA0002804556920000031
其中:ROIcg表示预选的边框,ROIg表示真实的边框,area表示计算面积;
使用交并集比值Dg与计算阈值tg比较,其中,
如果Dg≥tg,则预选的边框为正样本;
如果Dg<tg,则预选的边框为负样本;
计算阈值tg的计算公式如下:
计算交并集比值Dg的平均值:
mg=Mean(Dg)
计算交并集比值Dg的标准方差:
vg=Std(Dg)
计算阈值tg
tg=mg+vg
8.根据权利要求1所述的旗帜检测方法,其特征在于,步骤S7包括:
步骤S701:通过kmeans聚类算法,设置yolov3的anchor boxes;
步骤S702:将yolov3深度神经网络模型的loss函数设置为:
Figure FDA0002804556920000041
其中,
Figure FDA0002804556920000042
表示第i个目标的bounding box预测值;(xi,yi,wi,hi)表示第i个目标的ground truth标定值;
Figure FDA0002804556920000043
表示该网格包含第i个目标的概率乘上预测边框与标定值的交并值;Ci表示该网格包含第i个目标的预测边框与标定值的交并值;
Figure FDA0002804556920000044
表示预测为第i个种类的概率;pi(c)表示第i个种类的概率;
Figure FDA0002804556920000045
表示有目标落在网格i和第j个boundingbox中;
Figure FDA0002804556920000046
表示有目标落在网格i中;λcoord为坐标预测误差权重;λnoobj为目标测误差权重;S为网格个数;B为bounding box个数;c为旗帜的类别;classes为旗帜的类别集合;
步骤S703:把λcoord设置为5,λnoobj设置为0.5。
9.根据权利要求8所述的旗帜检测方法,其特征在于,步骤S701包括:
A、计算每个标注框与每个聚类中心的距离d,将标注框分配给距离最近的聚类中心:
d=1-IOU[(xj,yj,wj,hj),(xi,yi,wi,hi)],j∈{1,2,...,N},i∈{1,2,...,k}
其中:(xj,yj,wj,hj)为标注框相对于原图的坐标,(xj,yj)为标注框的中心点,(wj,hj)为标注框的宽和高;N为所有标注框的个数;(xi,yi,wi,hi)为聚类中心;k为聚类中心个数。
B、所有标注框分配完毕后,对每个簇重新计算聚类中心,计算方式为:
Figure FDA0002804556920000051
Figure FDA0002804556920000052
其中:Ni是第i个簇的标注框个数;
重复A、B,直到聚类中心改变量很小。
10.根据权利要求1所述的旗帜检测方法,其特征在于,步骤S8包括:
步骤S801:从视频流中读取视频帧作为两个检测分支网络模型的输入;
步骤S802:使用训练好的两个分支网络模型对输入的视频帧进行检测,并将两个检测结果合并以得到目标旗帜在视频帧中的位置坐标和置信度并框出旗帜。
CN202011363051.2A 2020-11-27 2020-11-27 一种旗帜检测方法 Pending CN112381043A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011363051.2A CN112381043A (zh) 2020-11-27 2020-11-27 一种旗帜检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011363051.2A CN112381043A (zh) 2020-11-27 2020-11-27 一种旗帜检测方法

Publications (1)

Publication Number Publication Date
CN112381043A true CN112381043A (zh) 2021-02-19

Family

ID=74588816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011363051.2A Pending CN112381043A (zh) 2020-11-27 2020-11-27 一种旗帜检测方法

Country Status (1)

Country Link
CN (1) CN112381043A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807328A (zh) * 2021-11-18 2021-12-17 济南和普威视光电技术有限公司 一种基于算法融合的目标检测方法、设备及介质
CN114220053A (zh) * 2021-12-15 2022-03-22 北京建筑大学 一种基于车辆特征匹配的无人机视频车辆检索方法
CN114429577A (zh) * 2022-01-27 2022-05-03 西安交通大学 一种基于高置信标注策略的旗帜检测方法及系统及设备
CN114626445A (zh) * 2022-02-28 2022-06-14 四川省水利科学研究院 基于光流网络与高斯背景建模的大坝白蚁视频识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852179A (zh) * 2019-10-17 2020-02-28 天津大学 基于视频监控平台的可疑人员入侵的检测方法
CN111222574A (zh) * 2020-01-07 2020-06-02 西北工业大学 基于多模型决策级融合的舰船与民船目标检测与分类方法
CN111553929A (zh) * 2020-05-12 2020-08-18 重庆邮电大学 基于融合网络的手机屏幕缺陷分割方法、装置及设备
CN111626128A (zh) * 2020-04-27 2020-09-04 江苏大学 一种基于改进YOLOv3的果园环境下行人检测方法
CN111986156A (zh) * 2020-07-20 2020-11-24 华南理工大学 一种斧状利器检测方法、系统、装置和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852179A (zh) * 2019-10-17 2020-02-28 天津大学 基于视频监控平台的可疑人员入侵的检测方法
CN111222574A (zh) * 2020-01-07 2020-06-02 西北工业大学 基于多模型决策级融合的舰船与民船目标检测与分类方法
CN111626128A (zh) * 2020-04-27 2020-09-04 江苏大学 一种基于改进YOLOv3的果园环境下行人检测方法
CN111553929A (zh) * 2020-05-12 2020-08-18 重庆邮电大学 基于融合网络的手机屏幕缺陷分割方法、装置及设备
CN111986156A (zh) * 2020-07-20 2020-11-24 华南理工大学 一种斧状利器检测方法、系统、装置和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈俊周 等: "一种动态场景下的视频前景目标分割方法", 《电子科技大学学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807328A (zh) * 2021-11-18 2021-12-17 济南和普威视光电技术有限公司 一种基于算法融合的目标检测方法、设备及介质
CN113807328B (zh) * 2021-11-18 2022-03-18 济南和普威视光电技术有限公司 一种基于算法融合的目标检测方法、设备及介质
CN114220053A (zh) * 2021-12-15 2022-03-22 北京建筑大学 一种基于车辆特征匹配的无人机视频车辆检索方法
CN114429577A (zh) * 2022-01-27 2022-05-03 西安交通大学 一种基于高置信标注策略的旗帜检测方法及系统及设备
CN114429577B (zh) * 2022-01-27 2024-03-08 西安交通大学 一种基于高置信标注策略的旗帜检测方法及系统及设备
CN114626445A (zh) * 2022-02-28 2022-06-14 四川省水利科学研究院 基于光流网络与高斯背景建模的大坝白蚁视频识别方法
CN114626445B (zh) * 2022-02-28 2024-04-09 四川省水利科学研究院 基于光流网络与高斯背景建模的大坝白蚁视频识别方法

Similar Documents

Publication Publication Date Title
CN112381043A (zh) 一种旗帜检测方法
CN111783590A (zh) 一种基于度量学习的多类别小目标检测方法
Peng et al. Drone-based vacant parking space detection
CN107273832B (zh) 基于积分通道特征与卷积神经网络的车牌识别方法及系统
CN104978567B (zh) 基于场景分类的车辆检测方法
CN107808376B (zh) 一种基于深度学习的举手检测方法
CN111783576A (zh) 基于改进型YOLOv3网络和特征融合的行人重识别方法
Lyu et al. Small object recognition algorithm of grain pests based on SSD feature fusion
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
CN111275010A (zh) 一种基于计算机视觉的行人重识别方法
CN111967313A (zh) 一种深度学习目标检测算法辅助的无人机图像标注方法
CN114820655A (zh) 可靠区域作为注意力机制监督的弱监督建筑物分割方法
CN113221956A (zh) 基于改进的多尺度深度模型的目标识别方法及装置
Yang et al. C-RPNs: Promoting object detection in real world via a cascade structure of Region Proposal Networks
CN111461076A (zh) 帧差法与神经网络结合的烟雾检测方法和检测系统
CN109615610B (zh) 一种基于YOLO v2-tiny的医用创可贴瑕疵检测方法
CN109446938B (zh) 一种基于多序列双投影的黑烟车检测方法
CN117351499B (zh) 一种分合指示状态识别方法、系统、计算机设备和介质
CN114120220A (zh) 一种基于计算机视觉的目标检测方法和装置
Gerhardt et al. Neural network-based traffic sign recognition in 360° images for semi-automatic road maintenance inventory
CN113673534A (zh) 一种基于Faster RCNN的RGB-D图像果实检测方法
CN112949634A (zh) 一种铁路接触网鸟窝检测方法
CN112364687A (zh) 一种基于改进的Faster R-CNN加油站静电标志识别方法及系统
Brissman et al. Predicting signed distance functions for visual instance segmentation
CN116912670A (zh) 基于改进yolo模型的深海鱼类识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210219

RJ01 Rejection of invention patent application after publication