CN111339839B

CN111339839B - 一种密集型目标检测计量方法

Info

Publication number: CN111339839B
Application number: CN202010085239.9A
Authority: CN
Inventors: 孙永海; 卢炬康; 周敏仪
Original assignee: Guangzhou Zhongju Intelligent Technology Co ltd
Current assignee: Guangzhou Zhongju Intelligent Technology Co ltd
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2023-10-03
Anticipated expiration: 2040-02-10
Also published as: CN111339839A

Abstract

本发明涉及图像识别技术领域，其目的在于提供一种密集型目标检测计量方法。本发明包括以下步骤：将待检测的原始图像输入密集型目标检测模型；密集型目标检测模型对原始图像中的目标区域进行定位，然后输出目标区域的边界框；根据目标区域的边界框，对原始图像进行剪裁，得到目标图像及目标图像的定位信息，并将目标图像输入分类模型；分类模型对目标图像进行图像分类，得到目标图像的类别信息；将目标图像的定位信息及其类别信息整合，过滤目标图像中的冗余图像，得到密集型目标的定位信息和类别信息。本发明所需训练样本减少，采集成本降低，同时可实现快速迭代更新。

Description

一种密集型目标检测计量方法

技术领域

本发明涉及图像识别技术领域，特别是涉及一种密集型目标检测计量方法。

背景技术

密集型目标检测任务，相较于一般目标检测任务，难点在于图像中物体数量非常庞大，少则几十，多则几百。物体紧紧依靠在一起，需要对一般目标检测方法进行特定的调整。以全景货架识别为例，全景货架识别为拍摄多层(4层及以上，高在2.5m及以下)货架，利用深度学习方法识别货架上的商品类别和定位。在全景货架场景下，前排货物将近100+个商品紧密分布在一起，同时还是同类商品、相同颜色紧密连在一起。在这种场景下，使用摄像头拍摄出来的图像，会有商品成像面积过小、密度大、尺寸不一、类别数不胜数的情况，大大增加识别难度。

目前，密集型目标检测任务，主要还是使用目标检测识别方法，由于密集型目标有数量繁多，密度大、成像面积小的特性，一般都会加上业务限制，比如：在全景货架中，有的是只使用一个摄像头，先识别每排货架区域，再识别货架区域里面的商品；在人流检测中，增设多个摄像头，拍摄每个独立区域，进而识别每个区域的行人。然而，现有技术中，通常使用一般的目标检测训练方法，在检测目标更新时，需要大量训练样本重新对检测模型进行训练，采集成本高，同时不利于快速迭代更新。

发明内容

为了解决现有技术存在的上述问题，本发明提供了一种密集型目标检测计量方法。

本发明采用的技术方案是：

一种密集型目标检测计量方法，包括以下步骤：

将待检测的原始图像输入密集型目标检测模型；

密集型目标检测模型对原始图像中的目标区域进行定位，然后输出目标区域的边界框；

根据目标区域的边界框，对原始图像进行剪裁，得到目标图像及目标图像的定位信息，并将目标图像输入分类模型；

分类模型对目标图像进行图像分类，得到目标图像的类别信息；

将目标图像的定位信息及其类别信息整合，过滤目标图像中的冗余图像，得到密集型目标的定位信息和类别信息。

优选地，所述密集型目标检测模型的训练步骤如下：

向分类网络输入训练数据集，然后对分类网络进行训练，得到分类模型；

对RetinaNet目标检测模型进行调整，然后将分类模型组合到调整后的RetinaNet目标检测模型中；

向调整后的RetinaNet目标检测模型输入不紧密分布的目标检测数据，然后对调整后的RetinaNet目标检测模型进行训练，得到RetinaNet基础模型；

向RetinaNet基础模型输入密集型目标检测数据，然后对RetinaNet基础模型进行训练，得到密集型目标检测模型。

进一步优选地，分类网络为ResNet-50分类网络，训练数据集为ImageNet数据集。

进一步优选地，向调整后的RetinaNet目标检测模型输入不紧密分布的目标检测数据、向RetinaNet基础模型输入密集型目标检测数据后，均对目标检测数据进行数据增强处理。

进一步优选地，对RetinaNet目标检测模型进行调整的步骤如下：

使用RetinaNet基础网络生成特征图P3-特征图P7；

RetinaNet目标检测模型根据特征图P3-特征图P7生成对应的候选框(x₁,y₁,w₁,h₁)，其中，(x₁,y₁)为候选框的像素坐标，h₁为候选框的高，w₁为候选框的宽；

将特征图P3-特征图P4生成的候选框设置为第一候选框组，将特征图P5-特征图P7生成的候选框设置为第二候选框组；

将预测模块分为对第一候选框组进行坐标预测的第一预测模块和对第二候选框组进行坐标预测的第二预测模块；

预测模块对特征图P3-特征图P4生成的候选框进行预测的步骤如下：

通过预测模块对特征图P3-特征图P7生成的候选框进行预测(即直接进行卷积操作)，得到特征图P3-特征图P4对应的候选框为目标类别的置信度得分s及其预测定位信息box(x₂,y₂,w₂,h₂)；

通过物体框转换公式得到最终的物体框(x,y,w,h)，将所有的物体框定义为集合B，其中每个物体框均有置信度s及定位信息(x,y,w,h)，其中，物体框转换公式如下：

进一步优选地，利用Soft-NMS算法过滤目标图像中的冗余图像，其具体步骤如下：

选取集合B中置信度s最大的物体框，并将其定义为物体框M，然后将物体框M从集合B中剔除；

遍历集合B中其余的物体框，选取任一物体框b_i，物体框b_i的预测定位信息为box_i、置信度为s_i；

计算物体框b_i与物体框M之间的iou值，如果物体框b_i与物体框M之间的iou值大于阈值N_t，则通过置信度调整公式降低物体框b_i的置信度s_i，否则不改变物体框b_i的置信度s_i；重复该步骤，直到选取的物体框的最高置信度为s_i小于最高得分阈值N_s时停止；其中，置信度调整公式如下：

其中，s_i为物体框为目标类别的置信度得分，M为物体框集合B中置信度s最大的候选框，b_i为候选框集合中遍历出来的任一物体框，iou(M，b_i)为M与b_i之间的iou值，N_t为iou阈值。

进一步优选地，所述分类模型的训练步骤如下：

选取单目标数据集和负样本数据集；

向Inception-V3分类网络输入单目标数据集和负样本数据集，然后对Inception-V3分类网络进行训练，得到分类模型。

优选地，单目标数据集包括多个在不同背景、不同光线环境、不同拍摄角度、不同拍摄距离下拍摄的单个物体的数据。

本发明的有益效果是：

1)所需训练样本减少，采集成本降低，同时可实现快速迭代更新。由于分别通过密集型目标检测模型对原始图像进行定位，通过分类模型对原始图像进行分类，其中密集型目标检测模块能够对大部分物体(无论新旧)进行有效检测定位，故无需新增检测模块训练数据，而对于新增的待识别物体，只需要另外采集新增单品数据，并更新分类模型即可。因而相比于一般的目标检测方法，本发明对新样本采集数量大大下降，采集成本也随之下降，能够跟上市场更新速度。

2)识别精度提高，可达到商用标准。具体地，密集型目标检测模型在训练过程中，先对RetinaNet目标检测模型进行调整，然后采用了先输入不紧密分布的目标检测数据进行训练，然后输入密集型目标检测数据进行训练的迁移学习的训练方法，可使得密集型目标检测模型对小目标的识别能力更强，达到较高检测精度，同时可在原有的速度、仅需一个摄像头的基础上，识别视野更大的场景密集目标。

附图说明

图1是本发明中一种密集型目标检测计量方法的流程图；

图2是本发明中ResNet-50分类网络的结构图；

图3是本发明中调整后的RetinaNet结构图。

具体实施方式

下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是，对于这些实施例方式的说明虽然是用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解，尽管本文可能使用术语第一、第二等等来描述各种单元，但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元，同时不脱离本发明的示例实施例的范围。

应当理解，在本文中若将单元称作与另一个单元“连接”、“相连”或“耦合”时，它可以与另一个单元直相连接或耦合，或中间单元可以存在。相対地，在本文中若将单元称作与另一个单元“直接相连”或“直接耦合”时，表示不存在中间单元。另外，应当以类似方式来解释用于描述单元之间的关系的其他单词(例如，“在……之间”对“直接在……之间”,“相邻”对“直接相邻”等等)。

应当理解，还应当注意到在一些备选实施例中，所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。

应当理解，在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统，以避免用不必要的细节来使得示例不清楚。在其他实例中，可以不以不必要的细节来示出众所周知的过程、结构和技术，以避免使得示例实施例不清楚。

实施例1：

本实施例提供一种密集型目标检测计量方法，如图1所示，包括以下步骤：

将待检测的原始图像输入密集型目标检测模型；需要说明的是，待检测的原始图像可以但不仅限于为货架上的商品图像。

本实施例将一般的目标检测方法分为密集型目标检测和物体分类两个步骤，实现了模块的分离和功能解耦。在实施过程中，密集型检测模型只负责对密集型目标中的目标图像进行定位，分类模型只负责对目标图像进行图像分类，然后整合这两个模块的输出结果，即可得到密集型目标的定位信息和类别信息。

本实施例中，所述密集型目标检测模型的训练步骤如下：

具体地，将分类模型组合到调整后的RetinaNet目标检测模型中，即为，将ResNet-50模型中的conv1-conv5卷积层作为调整后的RetinaNet目标检测模型中的基础网络，将conv5卷积层的输出输入到下一层结构中。

向调整后的RetinaNet目标检测模型输入不紧密分布的目标检测数据，然后对调整后的RetinaNet目标检测模型进行训练5轮，得到RetinaNet基础模型；

其中，不紧密分布的目标检测数据为单图物体数的易样本，其不紧密连通、数量为4-5个、物体之间有一定间距且物体成像面积较大，选取数量大于8000张。

向RetinaNet基础模型输入密集型目标检测数据，然后对RetinaNet基础模型进行训练20轮，得到密集型目标检测模型。

其中，密集型目标检测数据为单图物体数的难样本。其单图物体数量达100+、物体之间没有间距、紧密连通且物体成像面积很小，选取数量大于1000张。

需要说明的是，密集型目标检测模型的训练过程中，采用先输入不紧密分布的目标检测数据进行训练，然后输入密集型目标检测数据进行训练的迁移学习的训练方法，而一般的训练方法则是直接训练密集型目标检测数据，本实施例相比一般训练方法而言，可使得密集型目标检测模型对小目标的识别能力更强。

具体地，分类网络为ResNet-50分类网络，训练数据集为ImageNet数据集。具体地，ResNet-50分类网络的结构图如图2所示，向ResNet-50分类网络输入训练数据集，然后对ResNet-50分类网络进行训练20轮，得到ResNet-50分类模型；ImageNet数据集和ResNet-50分类网络是最流行的用作大规模分布式深度学习基准的训练数据集和深度神经网络之一。ImageNet数据集中有图像以及类别信息，具体地，ImageNet数据集是一个用于视觉对象识别软件研究的大型可视化数据库，超过1400万的图像URL被ImageNet数据集手动注释，以指示图片中的对象；在至少一百万个图像中，还提供了边界框。

进一步地，向调整后的RetinaNet目标检测模型输入不紧密分布的目标检测数据、向RetinaNet基础模型输入密集型目标检测数据后，均对目标检测数据进行数据增强处理。

具体地，数据增强处理的实现方法如下：对输入的目标检测数据中的图像进行旋转、水平翻转、裁剪处理。数据增强处理可提高模型泛化能力及特征抽取能力。

现有技术中，通常采用以下方式获取候选框的坐标：

RetinaNet目标检测模型可根据候选框和人为标注的物体框进行比对，计算候选框的iou(Intersection over Union，iou，交并比)，iou的计算公式如下：

iou＝(a与b的相交面积)/(a面积+b面积–a与b的相交面积)，

其中，a为特征图生成的候选框、b为人为标注的物体框；iou>0.5的候选框为正样本，iou<0.4的候选框为负样本。据以上计算过程，可得到正负样本。

RetinaNet目标检测模型中产生所有的正样本都会进行回归，预测偏移，最终得到候选框的坐标。

但由于单一的预测模块对应于多种尺寸的候选框，无法较好地预测其区域坐标，为了缓和候选框的尺寸跨度较大，预测模块对密集型目标定位不准确的问题，本实施例做出以下改进：

对RetinaNet目标检测模型进行调整的步骤如下：

使用RetinaNet基础网络生成特征图P3-特征图P7；

RetinaNet目标检测模型根据特征图P3-特征图P7生成对应的候选框(x₁,y₁,w₁,h₁)；具体地，RetinaNet目标检测模型可根据尺度和宽高比对特征图P3-特征图P7中的每个特征点生成相应的候选框。

其中，(x₁,y₁)为候选框的像素坐标，h₁为候选框的高，w₁为候选框的宽。

具体地，特征图P3-特征图P7中w₁和h₁的设定值如下：

特征图	w₁	h₁
			特征图P3	16*(2^0.5)	16*(2^-0.5)
特征图P4	32*(2^0.5)	32*(2^-0.5)
			特征图P5	64*(2^0.5)	64*(2^-0.5)
特征图P6	128*(2^0.5)	128*(2^-0.5)
			特征图P7	256*(2^0.5)	256*(2^-0.5)

调整后的RetinaNet结构图如图3所示。

本实施例通过将特征图P3-特征图P7划分为不同的候选框组，并将预测模块划分为两个分支(即，第一预测模块和第二预测模块)，可对第一预测模块和第二预测模块在合适尺寸范围内的候选框进行训练，避免候选框的尺寸跨度较大的问题，预测精度更高。经验证表明，使用该方法后，预测模块对密集型目标定位更加准确，误识别率更低，大大减少了大尺度物体被划分成多个物体、以及多个小尺度物体被合成一个物体的情况。

进一步地，利用Soft-NMS算法过滤目标图像中的冗余图像，即利用Soft-NMS算法过滤物体框中的冗余物体框，其具体步骤如下：

计算物体框b_i与物体框M之间的iou值，如果物体框b_i与物体框M之间的iou值大于阈值N_t(设定N_t＝0.3)，则通过置信度调整公式降低物体框b_i的置信度s_i，否则不改变物体框b_i的置信度s_i；重复该步骤，直到选取的物体框的最高置信度为s_i小于最高得分阈值N_s(设定为N_s＝0.001)时停止；其中，置信度调整公式如下：

具体地，A、B两个物体框之间的iou(A,B)计算公式如下：

iou(A,B)＝Δarea/(areaA+areaB-Δarea)，

其中，A为特征图生成的候选框、B为人为标注的物体框，Δarea为特征图生成的候选框与人为标注的物体框之间的相交面积。

需要说明的是，现有技术通常采用NMS算法过滤目标图像中的冗余图像，其在任一候选框和分值si最高的特征图的候选框的iou(Intersection over Union，iou，交并比)大于阈值时，删除该分值si最高的特征图的候选框对应的目标图像，容易在密集依靠且相同类别的两个目标图像之间出现大量的误识别框，从而影响对目标图像定位信息的识别率。而本实施例中，通过利用Soft-NMS算法过滤目标图像中的冗余图像，可保留下更多置信度较高的候选框，而存在于两个物体之间的候选框框则会减小置信度，最终会被过滤掉。

本实施例中，所述分类模型的训练步骤如下：

选取单目标数据集和负样本数据集；需要说明的是，本步骤加入了负样本数据集以解决背景误差识别的问题，应当理解的是，因为不同场景出现的背景分布不同，所以负样本需要针对不同的场景和模型改变。

向Inception-V3分类网络输入单目标数据集和负样本数据集，然后对Inception-V3分类网络进行训练8轮，得到分类模型。

具体地，单目标数据集包括多个在不同背景、不同光线环境、不同拍摄角度、不同拍摄距离下拍摄的单个物体的数据。力求样本多样性。

本实施例能够很好的弥补一般目标检测方法的缺陷，优势如下：

1)所需训练样本减少，采集成本下降，同时可实现快速迭代更新。由于分别通过密集型目标检测模型对原始图像进行定位，通过分类模型对原始图像进行分类，其中密集型目标检测模块能够对大部分物体(无论新旧)进行有效检测定位，故无需新增检测模块训练数据，而对于新增的待识别物体，只需要另外采集新增单品数据，并更新分类模型即可。因而相比于一般的目标检测方法，本实施例对新样本采集数量大大下降，采集成本也随之下降，能够跟上市场更新速度。

以上所描述的多个实施例仅仅是示意性的，若涉及到作为分离部件说明的单元，其可以是或者也可以不是物理上分开的；若涉及到作为单元显示的部件，其可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

最后应说明的是，本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种密集型目标检测计量方法，其特征在于：包括以下步骤：

将待检测的原始图像输入密集型目标检测模型；

将目标图像的定位信息及其类别信息整合，过滤目标图像中的冗余图像，得到密集型目标的定位信息和类别信息；

所述密集型目标检测模型的训练步骤如下：

向RetinaNet基础模型输入密集型目标检测数据，然后对RetinaNet基础模型进行训练，得到密集型目标检测模型；

向调整后的RetinaNet目标检测模型输入不紧密分布的目标检测数据、向RetinaNet基础模型输入密集型目标检测数据后，均对目标检测数据进行数据增强处理；

对RetinaNet目标检测模型进行调整的步骤如下：

使用RetinaNet基础网络生成特征图P3-特征图P7；

RetinaNet目标检测模型根据特征图P3-特征图P7生成对应的候选框，其中，/>为候选框的像素坐标，/>为候选框的高，/>为候选框的宽；

通过预测模块对特征图P3-特征图P7生成的候选框进行预测，即直接进行卷积操作，得到特征图P3-特征图P4对应的候选框为目标类别的置信度得分s及其预测定位信息box ；

通过物体框转换公式得到最终的物体框，将所有的物体框定义为集合B，其中每个物体框均有置信度s及定位信息/>，其中，物体框转换公式如下：

；

利用Soft-NMS算法过滤目标图像中的冗余图像，其具体步骤如下：

遍历集合B中其余的物体框，选取任一物体框b _i，物体框b _i的预测定位信息为box _i、置信度为s _i；

计算物体框b _i与物体框M之间的iou值，如果物体框b _i与物体框M之间的iou值大于阈值N _t，则通过置信度调整公式降低物体框b _i的置信度s _i，否则不改变物体框b _i的置信度s _i；重复该步骤，直到选取的物体框的最高置信度为s _i小于最高得分阈值N _s时停止；其中，置信度调整公式如下：

其中，s _i为物体框为目标类别的置信度得分，M为物体框集合B中置信度s最大的候选框，b _i为候选框集合中遍历出来的任一物体框，iou（M，b _i ）为M与b _i之间的iou值，N _t为iou阈值；

A、B两个物体框之间的计算公式如下：

，

其中，A为特征图生成的候选框、B为人为标注的物体框，为特征图生成的候选框与人为标注的物体框之间的相交面积。

2.根据权利要求1所述的一种密集型目标检测计量方法，其特征在于：分类网络为ResNet-50分类网络，训练数据集为ImageNet数据集。

3.根据权利要求1所述的一种密集型目标检测计量方法，其特征在于：所述分类模型的训练步骤如下：

选取单目标数据集和负样本数据集；

4.根据权利要求3所述的一种密集型目标检测计量方法，其特征在于：单目标数据集包括多个在不同背景、不同光线环境、不同拍摄角度、不同拍摄距离下拍摄的单个物体的数据。