CN112381043A

CN112381043A - 一种旗帜检测方法

Info

Publication number: CN112381043A
Application number: CN202011363051.2A
Authority: CN
Inventors: 徐杨; 崔本飞; 冯夫健; 黄翰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-02-19

Abstract

本发明属于物体检测领域，公开一种旗帜检测方法，提出一种混合解决方案，包括：利用多种有效的数据增强方法对原旗帜数据集进行增强；在第一检测分支中采用结合Optical Flow和GMM方法进行目标检测；在第二检测分支中，将扩充后的数据集的视频帧输入作为Darknet‑53骨干网络的输入，以提取多缩放视频帧的特征图层，再采用样本选择算法进行正负样本的选择，然后训练yolov3深度神经网络模型和目标检测；合并两个检测分支的检测结果以检测摄像头的视频流中是否存在旗帜。本发明具有准确率高、低漏检率、低误检率和实时性的优点。

Description

一种旗帜检测方法

技术领域

本发明属于物体检测领域，涉及一种旗帜检测方法。

背景技术

目前对不法信息的手段主要依靠人力识别，面对越来越庞大的数据量，人工检查显得十分乏力。因此，如何借助计算机技术实现自动、智能的网络非法信息检索意义重大。

旗帜作为标志的一种，因其能简单又丰富的表达意义、情感和指令动作被广泛地应用于信息的传递与表达，常出现在游行、集会等复杂场景中。但由于旗帜的非刚性特点，使得旗帜在局部形变、部分遮挡和光照强度剧烈变化等条件下无法识别。因此，当前国内外对于旗帜检测的研究并不是很多，但也有研究人员提出了一些对于旗帜识别值得参考的研究方法。Hart E.(详见文献：Hart E,Cha S H,Tappert C C.Interactive FlagIdentification Using Image Retrieval Techniques.[C]International Conferenceon Imaging Science,Systems and Technology,Cisst'04,June 21-24,2004,Las Vegas,Nevada,Usa.2004:441-445.)等人提出一种交互式的旗帜识别系统，需要用户手动从照片中裁剪出旗帜，使用基于颜色的最近邻分类器产生候选排序列表给用户做出最终的决定，手动裁剪旗帜图像的质量极大地影响识别效果。Jetley S.(详见文献：Jetley S,Vaze A,Belhe S.Automatic flag recognition using texture based color analysis andgradient features[C]IEEE Second International Conference on Image InformationProcessing.IEEE,2013:464-469)等人提出一种基于颜色和它们的相对位置来区分旗帜的方法，该方法在光照强度剧烈变化的环境下对分类准确率影响很大。Ahmed K.(Ahmed K,Rahman M Z,Shameemmhossain M.Flag Identification Using Support Vector Machine[J].Juniv Edu,2013)等人提出一种基于颜色占比的SVM旗帜识别系统，该系统可以识别最大45度角以内的旗帜图像，但对于复杂场景与多个目标的图像无法识别。可见，对于旗帜识别的研究，国内外研究者主要采用的是基于传统的浅层机器学习算法模型，这些模型被证明都存在各自的局限性，无法适用情况复杂的场景，而且用来训练模型的样本，需要大量的人工裁剪及标注工作。

此外，由于旗帜的质地柔软轻薄的特点，使得旗帜非常容易发生形变，而且游行和集会的复杂环境容易造成旗帜的部分折叠和遮挡，也容易带来光照强度的剧烈变化，并且在图片中，由于亮度，分辨率低，背景，旗帜的形状变化以及的影响变化导致旗帜检测面临较大的挑战。在这种情况下，现有技术对旗帜进行识别存在一定的困难，容易出现漏检和误检。

因此，研究出一种准确率高，能抗复杂环境的影响，误检率低，提高检测效率的旗帜检测方法是专业人员亟待解决的问题。

发明内容

针对现有技术的不足，本发明提供一种旗帜检测方法。

本发明采用如下技术方案实现：

一种旗帜检测方法，包括以下步骤：

步骤S1：收集和拍摄大量旗帜视频数据，并将视频转换成视频帧；

步骤S2：将采集到的视频帧进行尺寸标准化和标注，以形成原旗帜数据集；

步骤S3：利用多种有效的数据增强方法对原旗帜数据集进行增强；

步骤S4：在第一检测分支中，使用Optical Flow和GMM方法以获取增强数据集中视频帧的RoIs，并将RoIs和视频帧输入到ResNet网络中进行训练，得到训练好的第一检测分支网络模型；

步骤S5：在第二检测分支中，将增强数据集中的视频帧输入特征提取网络，进行视频帧特征提取；

步骤S6：对增强数据集采用样本选择算法来计算预选的边框与真实的边框的交集和并集的比值，将比值与计算阈值进行比较，以确定正负样本；

步骤S7：将步骤S5提取得到的特征输入到yolov3深度神经网络模型中进行训练，得到训练好的第二检测分支网络模型；

步骤S8：使用训练好的检测分支网络模型检测摄像头的视频流中是否存在旗帜。

优选地，步骤S1包括：

步骤S101：分析旗帜出现的场景；

步骤S102：通过手工拍摄和网络爬虫，对包含旗帜场景的目标旗帜进行数据采集得到旗帜视频；

步骤S103：使用ffmpeg软件工具将旗帜视频转换为视频帧；

步骤S104：将不包含目标旗帜或模糊难以辨认的视频帧删除，以形成数据集。

优选地，步骤S2包括：

步骤S201：将所有目标旗帜视频帧标准化为统一416x416的尺寸；

步骤S202：使用labelImg标注工具对标准化后的目标旗帜视频帧进行候选框的标注，以生成voc数据格式的标注文件；

步骤S203：将数据集根据视频的数量按7:3的比例划分为训练数据集和测试数据集。

优选地，步骤S3包括：

步骤S301：对步骤S2所得数据集中所有视频帧进行尺寸缩放，对应的voc数据格式的标注文件里的候选框位置和视频帧大小信息做相应的转换，并将得到的新的视频帧和标注文件加入新的数据集中；

步骤S302：对步骤S2所得数据集中所有视频帧进行平移，对应的voc数据格式的标注文件里的候选框位置信息做相应的转换，并将得到的新的视频帧和标注文件加入新的数据集中；

步骤S303：对步骤S2所得数据集中所有视频帧进行翻转，对应的voc数据格式的标注文件里的候选框位置信息做相应的转换，并将得到的新的视频帧和标注文件加入新的数据集中；

步骤S304：对步骤S2所得数据集中所有视频帧进行高斯噪声，对应的voc数据格式的标注文件不需要修改，并将得到的数据加入新的数据集中；

步骤S305：对步骤S2所得数据集中所有视频帧进行旋转，对应的voc数据格式的标注文件里的候选框位置信息做相应的转换，并将得到的新的视频帧和标注文件加入新的数据集中；

步骤S306：对步骤S2所得数据集中所有视频帧进行仿射变换，对应的voc数据格式的标注文件里的候选框位置和视频帧大小信息做相应的转换，并将得到的新的视频帧和标注文件加入新的数据集中。

优选地，步骤S4包括：

步骤S401：利用高斯混合模型GMM获取视频帧中的前景；

步骤S402：利用光流Optical Flow法来获取视频帧中运动特征；

步骤S403：将获取的前景和运动特征结合在一起得到视频帧中的感兴趣区域ROIs；

步骤S404：将ROIs和视频帧输入到ResNet网络进行训练。

优选地，步骤S5包括：

步骤S501：采用Darknet-53作为特征提取网络；

步骤S502：设置特征提取网络的第82层的特征图大小为13x13，分辨率低但感受野大，用于检测图像中较大的目标；

步骤S503：设置特征提取网络的第94层的特征图大小为26x126，分辨率中等，但感受野中等，用于检测图像中大小适中的目标；

步骤S504：设置特征提取网络的第106层的特征图大小为52x52，分辨率高但感受野小，用于检测图像中较小的目标。

优选地，步骤S6包括：

预选的边框与真实的边框的交集和并集的比值D_g的计算公式如下：

其中：ROI_cg表示预选的边框，ROI_g表示真实的边框，area表示计算面积；

使用交并集比值D_g与计算阈值t_g比较，其中，

如果D_g≥t_g，则预选的边框为正样本；

如果D_g＜t_g，则预选的边框为负样本；

计算阈值t_g的计算公式如下：

计算交并集比值D_g的平均值：

m_g＝Mean(D_g)

计算交并集比值D_g的标准方差：

v_g＝Std(D_g)

计算阈值t_g：

t_g＝m_g+v_g

优选地，步骤S7包括：

步骤S701：通过kmeans聚类算法，设置yolov3的anchor boxes；

步骤S702：将yolov3深度神经网络模型的loss函数设置为：

其中，

表示第i个目标的bounding box预测值；(x_i,y_i,w_i,h_i)表示第i个目标的ground truth标定值；

表示该网格包含第i个目标的概率乘上预测边框与标定值的交并值；C_i表示该网格包含第i个目标的预测边框与标定值的交并值；

表示预测为第i个种类的概率；p_i(c)表示第i个种类的概率；

表示有目标落在网格i和第j个bounding box中；

表示有目标落在网格i中；λ_coord为坐标预测误差权重；λ_noobj为目标测误差权重；S为网格个数；B为bounding box个数；c为旗帜的类别；classes为旗帜的类别集合；

步骤S703：把λ_coord设置为5，λ_noobj设置为0.5。

优选地，步骤S701包括：

A、计算每个标注框与每个聚类中心的距离d，将标注框分配给距离最近的聚类中心：

d＝1-IOU[(x_j,y_j,w_j,h_j),(x_i,y_i,w_i,h_i)]，j∈{1,2,...,N},i∈{1,2,...,k}

其中：(x_j,y_j,w_j,h_j)为标注框相对于原图的坐标，(x_j,y_j)为标注框的中心点，(w_j,h_j)为标注框的宽和高；N为所有标注框的个数；(x_i,y_i,w_i,h_i)为聚类中心；k为聚类中心个数。

B、所有标注框分配完毕后，对每个簇重新计算聚类中心，计算方式为：

其中：N_i是第i个簇的标注框个数；

重复A、B，直到聚类中心改变量很小。

优选地，步骤S8包括：

步骤S801：从视频流中读取视频帧作为两个检测分支网络模型的输入；

步骤S802：使用训练好的两个分支网络模型对输入的视频帧进行检测，并将两个检测结果合并以得到目标旗帜在视频帧中的位置坐标和置信度并框出旗帜。

本发明包括以下有益效果：

1、创新性提出一种混合解决方案，本发明具有准确率高、低漏检率、低误检率和实时性的优点。

2、通过使用多种有效数据增强方法扩充训练数据，能有效降低模型的漏检率和误检率。

3、通过使用正负样本选择算法，将预选框与标定框的交并值与计算阈值进行比较，以确定正负样本，能够使模型更好学习到主要特征，提高检测的准确率。

4、通过kmeans聚类算法，重新计算和设定模型的anchor box参数，使网络模型对旗帜目标检测更具针对性，提高模型的检出率。

5、通过提取骨干网络中的高中低三个特征图层，作为检测网络的输入，能使网络模型能有效地识别图片中的大目标、小目标和大小适中的目标。

6、提出的混合解决方法，能够有效降低由于亮度、分辨率低、背景、旗帜的形状变化带来的影响。

附图说明

图1为本发明一个实施例中的旗帜检测方法流程图；

图2为本发明一个实施例中的混合网络结构示意图；

图3为本发明一个实施例中的正负样本选择算法的流程图。

具体实施方式

下面结合说明书附图来说明本发明的具体实施方式。

一种旗帜检测方法，如图1所示，基于一种混合网络结构实现，包括：利用多种有效的数据增强方法对原旗帜数据集进行增强，基于混合网络结构进行检测，在第一检测分支中采用结合Optical Flow和GMM方法进行目标检测。在第二检测分支中，将扩充后的数据集的视频帧输入作为Darknet-53骨干网络的输入，以提取多缩放视频帧的特征图层，再采用样本选择算法进行正负样本的选择，然后训练yolov3深度神经网络模型和目标检测。合并两个检测分支的检测结果以检测摄像头的视频流中是否存在旗帜。

在一个实施例中，混合网络结构如图2所示，第一检测分支通过高斯混合模型提取前景候选对象及光流法处理视频帧提取运动特征结合在一起得到图像中包含旗帜的感兴趣区域(RoIs),并将RoIs和视频帧输入ResNet网络进行训练，得到第一检测分支网络模型。高斯混合模型是一种无监督的算法，利用训练数据对背景建模，以获得图像的前景，但数据集缺乏单纯的背景图像，因此背景建模不够准确。为了解决高斯混合模型这一缺点，使用光流法来捕获视频中旗帜飘动的有关特征，光流法会检测连续视频帧中的运动对象，因此即使是微小的运动也能捕获到，从而最大程度地减少漏检。

第二检测分支利用Darknet-53获取视频帧特征，进行正负样本选择，训练yolov3神经网络模型训练，得到第二检测分支网络模型。当经过足够的数据训练后，yolov3能够提取和学习复杂而抽象的特征，以适应光强度的变化、旗帜的大小、形状和方向的变化、图像质量和噪声带来的影响。

一种旗帜检测方法，包括以下步骤：

步骤S1：收集和拍摄大量的旗帜的视频数据，并将视频转换成视频帧。

在一个实施例中，步骤S1包括：

步骤S101：分析目标出现的场景。旗帜可能会出现在衣服、帽子、手提袋、墙上、车上、飘在空中。

步骤S102：通过手工拍摄和网络爬虫，对包含上述场景的目标旗帜进行数据采集得到旗帜视频。

步骤S103：使用ffmpeg软件工具将旗帜视频转换为视频帧。

步骤S104：将上述得到的视频帧中不包含目标旗帜或模糊难以辨认的视频帧删除，以形成数据集。

步骤S2：将采集到的视频帧进行尺寸标准化和标注，以形成数据集。

在一个实施例中，步骤S2包括：

步骤S3：利用多种有效的数据增强方法对原旗帜数据集进行增强。

在一个实施例中，步骤S3包括：

步骤S301：对步骤S2所得数据集中所有视频帧进行尺寸缩放，对应的voc数据格式的标注文件里的候选框位置和视频帧大小信息做相应的转换，并将得到的新的视频帧和标注文件加入新的数据集中。

步骤S302：对步骤S2所得数据集中所有视频帧进行平移，对应的voc数据格式的标注文件里的候选框位置信息做相应的转换，并将得到的新的视频帧和标注文件加入新的数据集中。

步骤S303：对步骤S2所得数据集中所有视频帧进行翻转，对应的voc数据格式的标注文件里的候选框位置信息做相应的转换，并将得到的新的视频帧和标注文件加入新的数据集中。

步骤S304：对步骤S2所得数据集中所有视频帧进行高斯噪声，对应的voc数据格式的标注文件不需要修改，并将得到的数据加入新的数据集中。

步骤S305：对步骤S2所得数据集中所有视频帧进行旋转，对应的voc数据格式的标注文件里的候选框位置信息做相应的转换，并将得到的新的视频帧和标注文件加入新的数据集中。

步骤S4：在第一检测分支中，使用Optical Flow和GMM方法以获取视频帧中的感兴趣区域RoIs，并将RoIs和视频帧输入到ResNet网络中进行训练，得到第一检测分支网络模型。

在一个实施例中，步骤S4包括：

步骤S401：利用高斯混合模型(GMM)获取视频帧中的前景。

步骤S402：利用光流(Optical Flow)法来获取视频帧中运动特征。

步骤S403：将获取的前景和运动特征结合在一起得到视频帧中的感兴趣区域(ROIs)。

步骤S404：将ROIs和视频帧输入到ResNet网络进行训练。

步骤S5：在第二检测分支中，将数据集中的视频帧输入特征提取网络，进行视频帧特征提取。

在一个实施例中，步骤S5包括：

步骤S501：采用Darknet-53作为特征提取网络。

步骤S502：特征提取网络的第82层的特征图，其大小为13x13，分辨率低但感受野大，用于检测图像中较大的目标。

步骤S503：特征提取网络的第94层的特征图，其大小为26x126，分辨率中等，但感受野中等，用于检测图像中大小适中的目标。

步骤S504：特征提取网络的第106层的特征图，其大小为52x52，分辨率高但感受野小，用于检测图像中较小的目标。

步骤S6：对增强的数据集采用样本选择算法来计算预选的边框与真实的边框的交集和并集的比值(IOU)，将比值与计算阈值进行比较，以确定正负样本。

在一个实施例中，如图3所示，步骤S6包括：

其中，ROI_cg表示预选的边框，ROI_g表示真实的边框，area表示计算面积。

使用交并集比值D_g与计算阈值t_g比较，其中，

如果D_g≥t_g，则预选的边框为正样本；

如果D_g＜t_g，则预选的边框为负样本；

计算阈值t_g的计算公式如下：

计算交并集比值D_g的平均值：

m_g＝Mean(D_g)

计算交并集比值D_g的标准方差：

v_g＝Std(D_g)

计算阈值t_g：

t_g＝m_g+v_g

步骤S7：将提取得到的特征输入到yolov3深度神经网络模型中进行训练，得到第二检测分支网络模型。

在一个实施例中，步骤S7包括：

步骤S701：通过kmeans聚类算法，设置yolov3的anchor boxes，包括：

其中：(x_j,y_j,w_j,h_j)为标注框相对于原图的坐标，(x_j,y_j)为标注框的中心点，(w_j,h_j)为标注框的宽和高；N为所有标注框的个数。(x_i,y_i,w_i,h_i)为聚类中心；k为聚类中心个数。

其中：N_i是第i个族的标注框个数。

重复A、B，直到聚类中心改变量很小。

聚类得到的如下anchor boxes，对目标检测更具针对性：

(39,70)、(50,83)、(51,107)、(52,214)、(70,123)、(75,86)、(197,309)、(241,298)、(262,391)。

步骤S702：将yolov3深度神经网络模型的loss函数设置为：

其中：

表示预测为第i个种类的概率；p_i(c)表示第i个种类的概率；

表示有目标落在网格i和第j个bounding box中；

表示有目标落在网格i中；λ_coord为坐标预测误差权重；λ_noobj为目标测误差权重；S为网格个数；B为bounding box个数；c为旗帜的类别；classes为旗帜的类别集合。

步骤S703：把λ_coord设置为5，λ_noobj设置为0.5。

在一个实施例中，步骤S8包括：

步骤S802：使用训练好的两个检测分支网络模型对输入的视频帧进行检测，并将两个检测结果合并得到目标旗帜在视频帧中的位置坐标和置信度并框出旗帜。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有的等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种旗帜检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的旗帜检测方法，其特征在于，步骤S1包括：

步骤S101：分析旗帜出现的场景；

步骤S103：使用ffmpeg软件工具将旗帜视频转换为视频帧；

3.根据权利要求1所述的旗帜检测方法，其特征在于，步骤S2包括：

4.根据权利要求1所述的旗帜检测方法，其特征在于，步骤S3包括：

5.根据权利要求1所述的旗帜检测方法，其特征在于，步骤S4包括：

步骤S401：利用高斯混合模型GMM获取视频帧中的前景；

步骤S402：利用光流Optical Flow法来获取视频帧中运动特征；

步骤S404：将ROIs和视频帧输入到ResNet网络进行训练。

6.根据权利要求1所述的旗帜检测方法，其特征在于，步骤S5包括：

步骤S501：采用Darknet-53作为特征提取网络；

7.根据权利要求1所述的旗帜检测方法，其特征在于，步骤S6包括：

使用交并集比值D_g与计算阈值t_g比较，其中，

如果D_g≥t_g，则预选的边框为正样本；

如果D_g＜t_g，则预选的边框为负样本；

计算阈值t_g的计算公式如下：

计算交并集比值D_g的平均值：

m_g＝Mean(D_g)

计算交并集比值D_g的标准方差：

v_g＝Std(D_g)

计算阈值t_g：

t_g＝m_g+v_g。

8.根据权利要求1所述的旗帜检测方法，其特征在于，步骤S7包括：

步骤S701：通过kmeans聚类算法，设置yolov3的anchor boxes；

步骤S702：将yolov3深度神经网络模型的loss函数设置为：

其中，

表示预测为第i个种类的概率；p_i(c)表示第i个种类的概率；

表示有目标落在网格i和第j个boundingbox中；

步骤S703：把λ_coord设置为5，λ_noobj设置为0.5。

9.根据权利要求8所述的旗帜检测方法，其特征在于，步骤S701包括：

其中：N_i是第i个簇的标注框个数；

重复A、B，直到聚类中心改变量很小。

10.根据权利要求1所述的旗帜检测方法，其特征在于，步骤S8包括：