CN113095235B

CN113095235B - 一种基于弱监督判别机制的图像目标检测方法、系统及装置

Info

Publication number: CN113095235B
Application number: CN202110405637.9A
Authority: CN
Inventors: 乔学明; 尹明立; 朱伟义; 郑鹏飞; 孙海峰; 孟平; 汤耀; 王超; 宫宝凝; 刘振华; 翟明远; 吕琳; 代勤瑞; 李晓芳; 朱东杰
Original assignee: State Grid Corp of China SGCC; Weihai Power Supply Co of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Weihai Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2023-10-27
Anticipated expiration: 2041-04-15
Also published as: CN113095235A

Abstract

一种基于弱监督判别机制的图像目标检测方法、系统及装置，涉及图像目标检测方法、系统及装置。为了解决现有的图像目标检测方法中同一类图片的数据少会导致分类不足问题，本发明所述方法利用目标检测网络模型对待检测的图像进行检测；首先将图像输入到特征提取网络提取特征；然后，将提取的特征送到CCN网络进行处理；所述CCN网络包括三个平行的卷积网络，三个平行的卷积网络分别记为网络A、网络B和网络C，每个卷积网络均包括4个卷积层、一个单级SPP层和一个FC层，FC层即全连接层；将网络A中FC层的输出传入到网络B的spp层，同时将网络B中FC层的输出传入到网络A的spp层；网络C的FC层之后设有一个1×1卷积层。主要用于图像目标的检测。

Description

一种基于弱监督判别机制的图像目标检测方法、系统及装置

技术领域

本发明涉及图像目标检测方法、系统及装置。

背景技术

在当今信息发达的网络时代，本发明每天会看到各种各样的图片，图像分类、目标检测、分割目前是计算机视觉领域的三大任务。高效快速地对所需要的信息图片目标进行检测将有利于本发明学习和工作的效率。图像分类任务关心整体，给出的是整张图片的内容描述，而检测则关注特定的物体目标，要求同时获得这一目标的类别信息和位置信息。相比分类，检测给出的是对图片前景和背景的理解，本发明需要从背景中分离出感兴趣的目标，并确定这一目标的描述(类别和位置)，因此检测模型的输出是一个列表，列表的每一项使用一个数组给出检出目标的类别和位置(常用矩形检测框的坐标表示)。目标检测需要同时解决定位和识别的问题，传统的目标检测方法主要有基于候选区域的方法、基于端到端的方法等，这些方法一般分为三个步骤，首先利用不同尺寸的滑动窗口框住图中的某一部分作为候选区域，其次提取候选区域相关的视觉特征，比如人脸检测常用的Harr特征，行人检测和普通目标检测常用的HOG特征等，最后利用分类器进行识别。

但是这些方法存在着明显的缺点，需要大量的手动注释对象进行训练或微调，同时训练需要大量的数据集，然而通常情况下同一类图片的数据是比较稀少的，则会导致训练数据分类不足的问题。

发明内容

本发明是为了解决现有的图像目标检测方法中同一类图片的数据少会导致分类不足问题。

一种基于弱监督判别机制的图像目标检测方法，包括以下步骤：

针对于待检测的图像，利用目标检测网络模型进行检测；所述的目标检测网络模型处理过程包括以下步骤：

首先，将图像输入到特征提取网络提取特征；

然后，将提取的特征送到CCN网络进行处理；所述CCN网络包括三个平行的卷积网络，三个平行的卷积网络分别记为网络A、网络B和网络C，每个卷积网络均包括4个卷积层、一个单级SPP层和一个FC层，FC层即全连接层；

网络A和网络B的FC层激活函数分别采用sigmoid和softmax；将网络A中FC层的输出传入到网络B的spp层，同时将网络B中FC层的输出传入到网络A的spp层；网络C的FC层激活函数采用sigmoid激活方式，并且FC层之后设有一个1×1卷积层；对于网络C，第i个图像、第j类得分概率为目标总数为T；

进一步地，所述的目标检测网络模型是预先训练好的，训练过程包括以下步骤：

S1、将训练集中的图像输入到特征提取网络中提取图像特征；

S2、将提取的特征送到CCN网络进行处理；

S3、对于给定的图像，对图像目标进行边框框选，并进行目标边框细化，目标边框细化的具体包括以下步骤：

四一、首先给出图像候选目标，给定一个图像实例I⁽ⁱ⁾，其候选目标标签为

Y′＝[y₁,...,y_c,...,y_C]^T∈(0,1)^C，c∈{1,...,C}

C为图像实例I⁽ⁱ⁾候选目标数量，y_c表示某个候选目标的标签，Y′表示图像的标签；

四二、将整个候选目标进行边框框选，使用σ(y_i,R)表示候选目标y_i与附近区域R之间的相关性；

其中，S(y_i)和S(R)分别表示y_i和R的像素面积；

如果σ(y_i,R)＞λ，则将R划入对应目标框之中；对于目标y_i，逐步扩大附近区域，直至相关性小于阈值λ，停止；最终得到候选目标y_i边框区域IoU(i)；

S4、根据步骤S2网络C得到的特征以及S3得到的目标边框进行目标聚类，具体过程包括以下步骤：

五一、在每次聚类之前，首先根据区域置信度阈值δ_out对目标进行过滤，不到δ_out的提案被直接否决；

五二、然后进行聚类，聚类过程包括两个主要阶段，即类间聚类和类内聚类：

五二一、对于类间聚类，随机给出聚类个数c，对每个类分别制作一组建议包围框C^j，C^j＝max{IOU(i₁),IOU(i₂),...,IOU(i_k)}，k为该目标类目标个数；

给定图像中存在c个类，生成c类间簇，每个类间簇含具有相同类别和区域得分至少高于δ_score的目标，然后利用目标边界框进行类内聚类；

五二二、对于每一次类间聚类，迭代执行类内聚类m次，在每次迭代中，对于每个类，区域最大的C^j对应的目标中心被设置为该类的质心，记为k_j，j＝1,2,...,c；计算所述图像上所有目标到每个类质心的距离，针对图像上每个目标，利用网络C的确定每个目标的特征，根据目标的特征进行如下计算：

其中，fig_p、表示目标p的中心、质心k_j对应的目标特征；

然后将dis_j从小到大排序，确定目标p属于dis_j最小所对应的类；

完成一次类内聚类迭代之后，图像会新生成c个类，但是目标和对应的IoU(i)是不变的；在下一次类内聚类迭代中，将更新后区域最大的C^j对应的目标中心设置为质心，再次重复计算该图像上所有目标到每个类质心的距离dis；进行m次迭代，从而完成类内聚类；

五二三、更新δ_out并进行下一次类间聚类：创建一个用于保存特定类中实例集群的成员数集合Z，μ_Z和σ_Z分别表示Z的均值和标准差，将集合Z中的每个数据点z减去标准差得到o＝z-σ_z；然后将o与均值行比较，如果o小于μ_Z，则将数据点z作为Y的成员，Y＝{z|z∈Z,o＜μ_Z,o＝z-σ_z}；集合Y是一个用于存储实例集群的成员数集合；

然后，计算集合Y的均值μ_Y和标准差δ_Y；通过计算μ_Y和δ_Y的平均值来计算离群点阈值其中int表示取整；如果Y中的实例集群的成员数小于或等于δ_out，则将其视为离群点集群并被丢弃；

S5、利用训练集对模型进行训练。

进一步地，S5利用训练集对模型进行训练的过程中，使用二元交叉熵损失函数来训练网络A、B和C；整个网络的损失函数是网络A、B和C的损失函数之和。

进一步地，在将训练集中的图像输入到特征提取网络中提取图像特征之前，需要对特征提取网络进行预训练，对特征提取网络进行预训练的过程中，将训练集中的部分图像输入到CNN中预训练CNN。

进一步地，S3中对图像目标进行边框框选的过程是利用神经网络实现的。

进一步地，对图像目标进行边框框选使用的神经网络为循环神经网络RNN。

进一步地，所述的特征提取网络采用CNN网络；

进一步地，所述的特征提取网络采用VGG16；

一种基于弱监督判别机制的图像目标检测系统，所述系统用于执行一种基于弱监督判别机制的图像目标检测方法。

一种基于弱监督判别机制的图像目标检测装置，所述装置用于存储和/或运行一种基于弱监督判别机制的图像目标检测系统。

有益效果：

因此此本发明是基于弱监督判别机制进行图形目标表检测，可以有效解决训练数据分类不足的问题。弱监督学习是已知数据和其一一对应的弱标签，训练一个智能算法，将输入数据映射到一组更强的标签的过程。标签的强弱指的是标签蕴含的信息量的多少，比如相对于分割的标签来说，分类的标签就是弱标签，如果本发明知道一幅图，告诉你图上有物体，然后需要把物体在哪里，物体和背景的分界在哪里找出来，那么这就是一个已知若标签，去学习强标签的弱监督学习问题。利用本发明可以很好的解决现有的图像目标检测方法中同一类图片的数据少会导致分类不足问题，即使数据较少，本发明依然可以取得很好的分类效果。

附图说明

图1为目标检测网络模型网络结构示意图；

图2为目标检测网络模型网络训练的过程示意图。

具体实施方式

具体实施方式一：结合图1和图2说明本实施方式，

本实施方式为一种基于弱监督判别机制的图像目标检测方法，包括以下步骤：

步骤一、使用爬虫算法采集各种类型的图像数据，包括：单目标图像、多目标图像、各类专业领域图像等。

步骤二、图像预处理及模型初始化，具体包括以下步骤：

图像预处理过程中将图像处理为目标检测网络模型可以识别的格式类型；

目标检测网络模型初始化的过程包括以下步骤：

二一、将收集的部分图像(1/4)输入到CNN中，预训练CNN，这里的CNN可以采用任何预先训练好的CNN，作为特征提取网络提取特征；本实施方式中采用VGG16。

二二、预训练好CNN之后，将全部收集图像输入到CNN中提取图像特征；

步骤三、将提取的特征送到CCN网络进行处理；

如图1所示，所述CCN网络包括三个平行的卷积网络，三个平行的卷积网络分别记为网络A、网络B和网络C，每个卷积网络均包括4个卷积层、一个单级SPP层和一个FC层，FC层即全连接层；

网络A和网络B的FC层激活函数分别采用sigmoid和softmax；因此网络A和网络B学习到图像的特征是不一样的；将网络A中FC层的输出传入到网络B的spp层，同时将网络B中FC层的输出传入到网络A的spp层，这种方式可以使得网络A和B提取的特征更加充分；最后网络A、网络B的FC层输出到损失函数计算；

网络C的FC层激活函数采用sigmoid激活方式，并且FC层之后设有一个1×1卷积层，1×1卷积层接收FC层的输出后，可以保持信道数不变；对于网络C，第i个图像、第j类得分概率为目标总数为T；

网络C的输出与步骤四的目标边框用于后续的聚类；

步骤四、目标边框细化：

对于给定的图像，利用神经网络对图像目标进行边框框选，本实施方式循环神经网络RNN进行行边框框选；具体包括以下步骤：

Y′＝[y₁,...,y_c,...,y_C]^T∈(0,1)^C，c∈{1,...,C}

C为图像实例I⁽ⁱ⁾候选目标数量，y_c表示某个候选目标的标签，Y′表示图像的标签。

四二、将整个候选目标进行边框框选，为了利用目标附近区域中的有效信息，引入相关性系数的概念来描述候选目标与其附近区域之间的紧密性。本发明使用σ(y_i,R)表示候选目标y_i与附近区域R(候选目标边框外围的区域)之间的相关性；相关性系数σ(y_i,R)如下：

其中S(y_i)和S(R)分别表示y_i和R的像素面积；

如果相关性大于给定阈值λ，即σ(y_i,R)＞λ，则将R划入对应目标框之中；对于目标y_i，逐步扩大附近区域，直至相关性小于阈值λ，停止；最终得到候选目标y_i边框区域IoU(i)；这里的边框区域IoU并非现有技术中的交并比IoU。

步骤五、自然图像可能包含同一类别的许多实例，所以需要在给定的图像中对对象实例目标进行聚类；根据步骤三网络C得到的图像特征以及步骤四得到的目标边框进行目标聚类，具体过程包括以下步骤：

五一、在每次聚类之前，首先根据区域置信度阈值δ_out对目标进行过滤，不到δ_out的提案被直接否决；这种初始阈值的过滤可以有效地降低下一个聚类步骤的计算成本；第一次聚类时δ_out随机赋值，第二次之后的聚类δ_out使用更新值；

于是给定图像中存在c个类，则生成c类间簇，每个类间簇含具有相同类别和区域得分至少高于δ_score的目标，然后利用目标边界框进行类内聚类；

实际上类间聚类执行n次迭代，每次迭代过程中迭代执行类内聚类；

五二二、对于每一次类间聚类，迭代执行类内聚类m次，取决于该特定类别的图像中呈现的实例数量。在每次迭代中，对于每个类，区域最大的C^j对应的目标中心被设置为该类的质心，记为k_j，j＝1,2,...,c；计算所述图像上所有目标到每个类质心的距离，针对图像上每个目标，利用网络C的确定每个目标的特征(网络C输出)，根据目标的特征进行如下计算：

其中，fig_p、表示目标p的中心、质心k_j对应的目标特征(网络C输出)；

完成一次类内聚类迭代之后，图像会新生成c个类，但是目标和对应的IoU(i)是不变的；在下一次类内聚类迭代中，将更新后区域最大的C^j对应的目标中心设置为质心，再次重复计算该图像上所有目标到每个类质心的距离dis；进行m次迭代，从而完成类内聚类。

循环迭代m次完成类间聚类，当完成了m次类间聚类时已经完成了nm次类内聚。

对整体模型进行训练，在训练过程中，使用二元交叉熵(BCE)损失函数来训练网络A、B和C：根据网络C可以得到第i个图像的预测向量p_i＝[p_i1,...,p_i2]；在网络C中，本发明采用BCE损失函数作为训练分类分支，在检测分支中采用最小熵损失来学习具有最小随机性的区域；本实施方式中采用动量0.9和重量衰减5×10^-4的SGD对目标检测器进行优化；以学习率10^-3为前30次迭代，然后以学习率10^-4为其余40次迭代。除了损失函数之外，所有三个网络A、B和C的整个训练设置都是相同的，因为它是一个端到端的网络。整个网络的损失函数定义如下：

LOSS＝L_A+L_B+L_C

其中，LOSS是模型整体的损失函数，LA、LB和LC分别是网络A、B和C的损失函数；在概率分布中，S是离散状态的数目，s是单个状态。

模型训练好之后，针对于待检测的图像，利用目标检测网络模型进行检测，最终完成图像目标的检测。

具体实施方式二：

本实施方式为一种基于弱监督判别机制的图像目标检测系统，所述系统用于执行所述的一种基于弱监督判别机制的图像目标检测方法。

具体实施方式三：

本实施方式为一种基于弱监督判别机制的图像目标检测装置，所述装置用于存储和/或运行一种基于弱监督判别机制的图像目标检测系统。

本实施方式所述系统包括但不限于存储介质、PC机、工作站、移动设备等。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于弱监督判别机制的图像目标检测方法，其特征在于，包括以下步骤：

首先，将图像输入到特征提取网络提取特征；

所述的目标检测网络模型是预先训练好的，训练过程包括以下步骤：

S2、将提取的特征送到CCN网络进行处理；

Y′＝[y₁,...,y_c,...,y_C]^T∈(0,1)^C，c∈{1,...,C}

其中，S(y_i)和S(R)分别表示y_i和R的像素面积；

其中，fig_p、fig_kj表示目标p的中心、质心k_j对应的目标特征；

S5、利用训练集对模型进行训练。

2.根据权利要求1所述的一种基于弱监督判别机制的图像目标检测方法，其特征在于，S5利用训练集对模型进行训练的过程中，使用二元交叉熵损失函数来训练网络A、B和C；整个网络的损失函数是网络A、B和C的损失函数之和。

3.根据权利要求2所述的一种基于弱监督判别机制的图像目标检测方法，其特征在于，在将训练集中的图像输入到特征提取网络中提取图像特征之前，需要对特征提取网络进行预训练，对特征提取网络进行预训练的过程中，将训练集中的部分图像输入到CNN中预训练CNN。

4.根据权利要求2所述的一种基于弱监督判别机制的图像目标检测方法，其特征在于，S3中对图像目标进行边框框选的过程是利用神经网络实现的。

5.根据权利要求4所述的一种基于弱监督判别机制的图像目标检测方法，其特征在于，对图像目标进行边框框选使用的神经网络为循环神经网络RNN。

6.根据权利要求1至5之一所述的一种基于弱监督判别机制的图像目标检测方法，其特征在于，所述的特征提取网络采用CNN网络。

7.根据权利要求6所述的一种基于弱监督判别机制的图像目标检测方法，其特征在于，所述的特征提取网络采用VGG16。

8.一种基于弱监督判别机制的图像目标检测系统，其特征在于，所述系统用于执行权利要求1至7之一所述的一种基于弱监督判别机制的图像目标检测方法。

9.一种基于弱监督判别机制的图像目标检测装置，其特征在于，所述装置用于存储和/或运行权利要求8所述的一种基于弱监督判别机制的图像目标检测系统。