CN111339839B - 一种密集型目标检测计量方法 - Google Patents
一种密集型目标检测计量方法 Download PDFInfo
- Publication number
- CN111339839B CN111339839B CN202010085239.9A CN202010085239A CN111339839B CN 111339839 B CN111339839 B CN 111339839B CN 202010085239 A CN202010085239 A CN 202010085239A CN 111339839 B CN111339839 B CN 111339839B
- Authority
- CN
- China
- Prior art keywords
- target
- target detection
- frame
- candidate
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000013145 classification model Methods 0.000 claims abstract description 27
- 238000001914 filtration Methods 0.000 claims abstract description 5
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像识别技术领域,其目的在于提供一种密集型目标检测计量方法。本发明包括以下步骤:将待检测的原始图像输入密集型目标检测模型;密集型目标检测模型对原始图像中的目标区域进行定位,然后输出目标区域的边界框;根据目标区域的边界框,对原始图像进行剪裁,得到目标图像及目标图像的定位信息,并将目标图像输入分类模型;分类模型对目标图像进行图像分类,得到目标图像的类别信息;将目标图像的定位信息及其类别信息整合,过滤目标图像中的冗余图像,得到密集型目标的定位信息和类别信息。本发明所需训练样本减少,采集成本降低,同时可实现快速迭代更新。
Description
技术领域
本发明涉及图像识别技术领域,特别是涉及一种密集型目标检测计量方法。
背景技术
密集型目标检测任务,相较于一般目标检测任务,难点在于图像中物体数量非常庞大,少则几十,多则几百。物体紧紧依靠在一起,需要对一般目标检测方法进行特定的调整。以全景货架识别为例,全景货架识别为拍摄多层(4层及以上,高在2.5m及以下)货架,利用深度学习方法识别货架上的商品类别和定位。在全景货架场景下,前排货物将近100+个商品紧密分布在一起,同时还是同类商品、相同颜色紧密连在一起。在这种场景下,使用摄像头拍摄出来的图像,会有商品成像面积过小、密度大、尺寸不一、类别数不胜数的情况,大大增加识别难度。
目前,密集型目标检测任务,主要还是使用目标检测识别方法,由于密集型目标有数量繁多,密度大、成像面积小的特性,一般都会加上业务限制,比如:在全景货架中,有的是只使用一个摄像头,先识别每排货架区域,再识别货架区域里面的商品;在人流检测中,增设多个摄像头,拍摄每个独立区域,进而识别每个区域的行人。然而,现有技术中,通常使用一般的目标检测训练方法,在检测目标更新时,需要大量训练样本重新对检测模型进行训练,采集成本高,同时不利于快速迭代更新。
发明内容
为了解决现有技术存在的上述问题,本发明提供了一种密集型目标检测计量方法。
本发明采用的技术方案是:
一种密集型目标检测计量方法,包括以下步骤:
将待检测的原始图像输入密集型目标检测模型;
密集型目标检测模型对原始图像中的目标区域进行定位,然后输出目标区域的边界框;
根据目标区域的边界框,对原始图像进行剪裁,得到目标图像及目标图像的定位信息,并将目标图像输入分类模型;
分类模型对目标图像进行图像分类,得到目标图像的类别信息;
将目标图像的定位信息及其类别信息整合,过滤目标图像中的冗余图像,得到密集型目标的定位信息和类别信息。
优选地,所述密集型目标检测模型的训练步骤如下:
向分类网络输入训练数据集,然后对分类网络进行训练,得到分类模型;
对RetinaNet目标检测模型进行调整,然后将分类模型组合到调整后的RetinaNet目标检测模型中;
向调整后的RetinaNet目标检测模型输入不紧密分布的目标检测数据,然后对调整后的RetinaNet目标检测模型进行训练,得到RetinaNet基础模型;
向RetinaNet基础模型输入密集型目标检测数据,然后对RetinaNet基础模型进行训练,得到密集型目标检测模型。
进一步优选地,分类网络为ResNet-50分类网络,训练数据集为ImageNet数据集。
进一步优选地,向调整后的RetinaNet目标检测模型输入不紧密分布的目标检测数据、向RetinaNet基础模型输入密集型目标检测数据后,均对目标检测数据进行数据增强处理。
进一步优选地,对RetinaNet目标检测模型进行调整的步骤如下:
使用RetinaNet基础网络生成特征图P3-特征图P7;
RetinaNet目标检测模型根据特征图P3-特征图P7生成对应的候选框(x1,y1,w1,h1),其中,(x1,y1)为候选框的像素坐标,h1为候选框的高,w1为候选框的宽;
将特征图P3-特征图P4生成的候选框设置为第一候选框组,将特征图P5-特征图P7生成的候选框设置为第二候选框组;
将预测模块分为对第一候选框组进行坐标预测的第一预测模块和对第二候选框组进行坐标预测的第二预测模块;
预测模块对特征图P3-特征图P4生成的候选框进行预测的步骤如下:
通过预测模块对特征图P3-特征图P7生成的候选框进行预测(即直接进行卷积操作),得到特征图P3-特征图P4对应的候选框为目标类别的置信度得分s及其预测定位信息box(x2,y2,w2,h2);
通过物体框转换公式得到最终的物体框(x,y,w,h),将所有的物体框定义为集合B,其中每个物体框均有置信度s及定位信息(x,y,w,h),其中,物体框转换公式如下:
进一步优选地,利用Soft-NMS算法过滤目标图像中的冗余图像,其具体步骤如下:
选取集合B中置信度s最大的物体框,并将其定义为物体框M,然后将物体框M从集合B中剔除;
遍历集合B中其余的物体框,选取任一物体框bi,物体框bi的预测定位信息为boxi、置信度为si;
计算物体框bi与物体框M之间的iou值,如果物体框bi与物体框M之间的iou值大于阈值Nt,则通过置信度调整公式降低物体框bi的置信度si,否则不改变物体框bi的置信度si;重复该步骤,直到选取的物体框的最高置信度为si小于最高得分阈值Ns时停止;其中,置信度调整公式如下:
其中,si为物体框为目标类别的置信度得分,M为物体框集合B中置信度s最大的候选框,bi为候选框集合中遍历出来的任一物体框,iou(M,bi)为M与bi之间的iou值,Nt为iou阈值。
进一步优选地,所述分类模型的训练步骤如下:
选取单目标数据集和负样本数据集;
向Inception-V3分类网络输入单目标数据集和负样本数据集,然后对Inception-V3分类网络进行训练,得到分类模型。
优选地,单目标数据集包括多个在不同背景、不同光线环境、不同拍摄角度、不同拍摄距离下拍摄的单个物体的数据。
本发明的有益效果是:
1)所需训练样本减少,采集成本降低,同时可实现快速迭代更新。由于分别通过密集型目标检测模型对原始图像进行定位,通过分类模型对原始图像进行分类,其中密集型目标检测模块能够对大部分物体(无论新旧)进行有效检测定位,故无需新增检测模块训练数据,而对于新增的待识别物体,只需要另外采集新增单品数据,并更新分类模型即可。因而相比于一般的目标检测方法,本发明对新样本采集数量大大下降,采集成本也随之下降,能够跟上市场更新速度。
2)识别精度提高,可达到商用标准。具体地,密集型目标检测模型在训练过程中,先对RetinaNet目标检测模型进行调整,然后采用了先输入不紧密分布的目标检测数据进行训练,然后输入密集型目标检测数据进行训练的迁移学习的训练方法,可使得密集型目标检测模型对小目标的识别能力更强,达到较高检测精度,同时可在原有的速度、仅需一个摄像头的基础上,识别视野更大的场景密集目标。
附图说明
图1是本发明中一种密集型目标检测计量方法的流程图;
图2是本发明中ResNet-50分类网络的结构图;
图3是本发明中调整后的RetinaNet结构图。
具体实施方式
下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是,对于这些实施例方式的说明虽然是用于帮助理解本发明,但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而,可用很多备选的形式来体现本发明,并且不应当理解为本发明限制在本文阐述的实施例中。
应当理解,尽管本文可能使用术语第一、第二等等来描述各种单元,但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元,同时不脱离本发明的示例实施例的范围。
应当理解,在本文中若将单元称作与另一个单元“连接”、“相连”或“耦合”时,它可以与另一个单元直相连接或耦合,或中间单元可以存在。相対地,在本文中若将单元称作与另一个单元“直接相连”或“直接耦合”时,表示不存在中间单元。另外,应当以类似方式来解释用于描述单元之间的关系的其他单词(例如,“在……之间”对“直接在……之间”,“相邻”对“直接相邻”等等)。
应当理解,还应当注意到在一些备选实施例中,所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。
应当理解,在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统,以避免用不必要的细节来使得示例不清楚。在其他实例中,可以不以不必要的细节来示出众所周知的过程、结构和技术,以避免使得示例实施例不清楚。
实施例1:
本实施例提供一种密集型目标检测计量方法,如图1所示,包括以下步骤:
将待检测的原始图像输入密集型目标检测模型;需要说明的是,待检测的原始图像可以但不仅限于为货架上的商品图像。
密集型目标检测模型对原始图像中的目标区域进行定位,然后输出目标区域的边界框;
根据目标区域的边界框,对原始图像进行剪裁,得到目标图像及目标图像的定位信息,并将目标图像输入分类模型;
分类模型对目标图像进行图像分类,得到目标图像的类别信息;
将目标图像的定位信息及其类别信息整合,过滤目标图像中的冗余图像,得到密集型目标的定位信息和类别信息。
本实施例将一般的目标检测方法分为密集型目标检测和物体分类两个步骤,实现了模块的分离和功能解耦。在实施过程中,密集型检测模型只负责对密集型目标中的目标图像进行定位,分类模型只负责对目标图像进行图像分类,然后整合这两个模块的输出结果,即可得到密集型目标的定位信息和类别信息。
本实施例中,所述密集型目标检测模型的训练步骤如下:
向分类网络输入训练数据集,然后对分类网络进行训练,得到分类模型;
对RetinaNet目标检测模型进行调整,然后将分类模型组合到调整后的RetinaNet目标检测模型中;
具体地,将分类模型组合到调整后的RetinaNet目标检测模型中,即为,将ResNet-50模型中的conv1-conv5卷积层作为调整后的RetinaNet目标检测模型中的基础网络,将conv5卷积层的输出输入到下一层结构中。
向调整后的RetinaNet目标检测模型输入不紧密分布的目标检测数据,然后对调整后的RetinaNet目标检测模型进行训练5轮,得到RetinaNet基础模型;
其中,不紧密分布的目标检测数据为单图物体数的易样本,其不紧密连通、数量为4-5个、物体之间有一定间距且物体成像面积较大,选取数量大于8000张。
向RetinaNet基础模型输入密集型目标检测数据,然后对RetinaNet基础模型进行训练20轮,得到密集型目标检测模型。
其中,密集型目标检测数据为单图物体数的难样本。其单图物体数量达100+、物体之间没有间距、紧密连通且物体成像面积很小,选取数量大于1000张。
需要说明的是,密集型目标检测模型的训练过程中,采用先输入不紧密分布的目标检测数据进行训练,然后输入密集型目标检测数据进行训练的迁移学习的训练方法,而一般的训练方法则是直接训练密集型目标检测数据,本实施例相比一般训练方法而言,可使得密集型目标检测模型对小目标的识别能力更强。
具体地,分类网络为ResNet-50分类网络,训练数据集为ImageNet数据集。具体地,ResNet-50分类网络的结构图如图2所示,向ResNet-50分类网络输入训练数据集,然后对ResNet-50分类网络进行训练20轮,得到ResNet-50分类模型;ImageNet数据集和ResNet-50分类网络是最流行的用作大规模分布式深度学习基准的训练数据集和深度神经网络之一。ImageNet数据集中有图像以及类别信息,具体地,ImageNet数据集是一个用于视觉对象识别软件研究的大型可视化数据库,超过1400万的图像URL被ImageNet数据集手动注释,以指示图片中的对象;在至少一百万个图像中,还提供了边界框。
进一步地,向调整后的RetinaNet目标检测模型输入不紧密分布的目标检测数据、向RetinaNet基础模型输入密集型目标检测数据后,均对目标检测数据进行数据增强处理。
具体地,数据增强处理的实现方法如下:对输入的目标检测数据中的图像进行旋转、水平翻转、裁剪处理。数据增强处理可提高模型泛化能力及特征抽取能力。
现有技术中,通常采用以下方式获取候选框的坐标:
RetinaNet目标检测模型可根据候选框和人为标注的物体框进行比对,计算候选框的iou(Intersection over Union,iou,交并比),iou的计算公式如下:
iou=(a与b的相交面积)/(a面积+b面积–a与b的相交面积),
其中,a为特征图生成的候选框、b为人为标注的物体框;iou>0.5的候选框为正样本,iou<0.4的候选框为负样本。据以上计算过程,可得到正负样本。
RetinaNet目标检测模型中产生所有的正样本都会进行回归,预测偏移,最终得到候选框的坐标。
但由于单一的预测模块对应于多种尺寸的候选框,无法较好地预测其区域坐标,为了缓和候选框的尺寸跨度较大,预测模块对密集型目标定位不准确的问题,本实施例做出以下改进:
对RetinaNet目标检测模型进行调整的步骤如下:
使用RetinaNet基础网络生成特征图P3-特征图P7;
RetinaNet目标检测模型根据特征图P3-特征图P7生成对应的候选框(x1,y1,w1,h1);具体地,RetinaNet目标检测模型可根据尺度和宽高比对特征图P3-特征图P7中的每个特征点生成相应的候选框。
其中,(x1,y1)为候选框的像素坐标,h1为候选框的高,w1为候选框的宽。
具体地,特征图P3-特征图P7中w1和h1的设定值如下:
特征图 | w1 | h1 |
特征图P3 | 16*(2^0.5) | 16*(2^-0.5) |
特征图P4 | 32*(2^0.5) | 32*(2^-0.5) |
特征图P5 | 64*(2^0.5) | 64*(2^-0.5) |
特征图P6 | 128*(2^0.5) | 128*(2^-0.5) |
特征图P7 | 256*(2^0.5) | 256*(2^-0.5) |
将特征图P3-特征图P4生成的候选框设置为第一候选框组,将特征图P5-特征图P7生成的候选框设置为第二候选框组;
将预测模块分为对第一候选框组进行坐标预测的第一预测模块和对第二候选框组进行坐标预测的第二预测模块;
预测模块对特征图P3-特征图P4生成的候选框进行预测的步骤如下:
通过预测模块对特征图P3-特征图P7生成的候选框进行预测(即直接进行卷积操作),得到特征图P3-特征图P4对应的候选框为目标类别的置信度得分s及其预测定位信息box(x2,y2,w2,h2);
通过物体框转换公式得到最终的物体框(x,y,w,h),将所有的物体框定义为集合B,其中每个物体框均有置信度s及定位信息(x,y,w,h),其中,物体框转换公式如下:
调整后的RetinaNet结构图如图3所示。
本实施例通过将特征图P3-特征图P7划分为不同的候选框组,并将预测模块划分为两个分支(即,第一预测模块和第二预测模块),可对第一预测模块和第二预测模块在合适尺寸范围内的候选框进行训练,避免候选框的尺寸跨度较大的问题,预测精度更高。经验证表明,使用该方法后,预测模块对密集型目标定位更加准确,误识别率更低,大大减少了大尺度物体被划分成多个物体、以及多个小尺度物体被合成一个物体的情况。
进一步地,利用Soft-NMS算法过滤目标图像中的冗余图像,即利用Soft-NMS算法过滤物体框中的冗余物体框,其具体步骤如下:
选取集合B中置信度s最大的物体框,并将其定义为物体框M,然后将物体框M从集合B中剔除;
遍历集合B中其余的物体框,选取任一物体框bi,物体框bi的预测定位信息为boxi、置信度为si;
计算物体框bi与物体框M之间的iou值,如果物体框bi与物体框M之间的iou值大于阈值Nt(设定Nt=0.3),则通过置信度调整公式降低物体框bi的置信度si,否则不改变物体框bi的置信度si;重复该步骤,直到选取的物体框的最高置信度为si小于最高得分阈值Ns(设定为Ns=0.001)时停止;其中,置信度调整公式如下:
其中,si为物体框为目标类别的置信度得分,M为物体框集合B中置信度s最大的候选框,bi为候选框集合中遍历出来的任一物体框,iou(M,bi)为M与bi之间的iou值,Nt为iou阈值。
具体地,A、B两个物体框之间的iou(A,B)计算公式如下:
iou(A,B)=Δarea/(areaA+areaB-Δarea),
其中,A为特征图生成的候选框、B为人为标注的物体框,Δarea为特征图生成的候选框与人为标注的物体框之间的相交面积。
需要说明的是,现有技术通常采用NMS算法过滤目标图像中的冗余图像,其在任一候选框和分值si最高的特征图的候选框的iou(Intersection over Union,iou,交并比)大于阈值时,删除该分值si最高的特征图的候选框对应的目标图像,容易在密集依靠且相同类别的两个目标图像之间出现大量的误识别框,从而影响对目标图像定位信息的识别率。而本实施例中,通过利用Soft-NMS算法过滤目标图像中的冗余图像,可保留下更多置信度较高的候选框,而存在于两个物体之间的候选框框则会减小置信度,最终会被过滤掉。
本实施例中,所述分类模型的训练步骤如下:
选取单目标数据集和负样本数据集;需要说明的是,本步骤加入了负样本数据集以解决背景误差识别的问题,应当理解的是,因为不同场景出现的背景分布不同,所以负样本需要针对不同的场景和模型改变。
向Inception-V3分类网络输入单目标数据集和负样本数据集,然后对Inception-V3分类网络进行训练8轮,得到分类模型。
具体地,单目标数据集包括多个在不同背景、不同光线环境、不同拍摄角度、不同拍摄距离下拍摄的单个物体的数据。力求样本多样性。
本实施例能够很好的弥补一般目标检测方法的缺陷,优势如下:
1)所需训练样本减少,采集成本下降,同时可实现快速迭代更新。由于分别通过密集型目标检测模型对原始图像进行定位,通过分类模型对原始图像进行分类,其中密集型目标检测模块能够对大部分物体(无论新旧)进行有效检测定位,故无需新增检测模块训练数据,而对于新增的待识别物体,只需要另外采集新增单品数据,并更新分类模型即可。因而相比于一般的目标检测方法,本实施例对新样本采集数量大大下降,采集成本也随之下降,能够跟上市场更新速度。
2)识别精度提高,可达到商用标准。具体地,密集型目标检测模型在训练过程中,先对RetinaNet目标检测模型进行调整,然后采用了先输入不紧密分布的目标检测数据进行训练,然后输入密集型目标检测数据进行训练的迁移学习的训练方法,可使得密集型目标检测模型对小目标的识别能力更强,达到较高检测精度,同时可在原有的速度、仅需一个摄像头的基础上,识别视野更大的场景密集目标。
以上所描述的多个实施例仅仅是示意性的,若涉及到作为分离部件说明的单元,其可以是或者也可以不是物理上分开的;若涉及到作为单元显示的部件,其可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
最后应说明的是,本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。
Claims (4)
1.一种密集型目标检测计量方法,其特征在于:包括以下步骤:
将待检测的原始图像输入密集型目标检测模型;
密集型目标检测模型对原始图像中的目标区域进行定位,然后输出目标区域的边界框;
根据目标区域的边界框,对原始图像进行剪裁,得到目标图像及目标图像的定位信息,并将目标图像输入分类模型;
分类模型对目标图像进行图像分类,得到目标图像的类别信息;
将目标图像的定位信息及其类别信息整合,过滤目标图像中的冗余图像,得到密集型目标的定位信息和类别信息;
所述密集型目标检测模型的训练步骤如下:
向分类网络输入训练数据集,然后对分类网络进行训练,得到分类模型;
对RetinaNet目标检测模型进行调整,然后将分类模型组合到调整后的RetinaNet目标检测模型中;
向调整后的RetinaNet目标检测模型输入不紧密分布的目标检测数据,然后对调整后的RetinaNet目标检测模型进行训练,得到RetinaNet基础模型;
向RetinaNet基础模型输入密集型目标检测数据,然后对RetinaNet基础模型进行训练,得到密集型目标检测模型;
向调整后的RetinaNet目标检测模型输入不紧密分布的目标检测数据、向RetinaNet基础模型输入密集型目标检测数据后,均对目标检测数据进行数据增强处理;
对RetinaNet目标检测模型进行调整的步骤如下:
使用RetinaNet基础网络生成特征图P3-特征图P7;
RetinaNet目标检测模型根据特征图P3-特征图P7生成对应的候选框,其中,/>为候选框的像素坐标,/>为候选框的高,/>为候选框的宽;
将特征图P3-特征图P4生成的候选框设置为第一候选框组,将特征图P5-特征图P7生成的候选框设置为第二候选框组;
将预测模块分为对第一候选框组进行坐标预测的第一预测模块和对第二候选框组进行坐标预测的第二预测模块;
预测模块对特征图P3-特征图P4生成的候选框进行预测的步骤如下:
通过预测模块对特征图P3-特征图P7生成的候选框进行预测,即直接进行卷积操作,得到特征图P3-特征图P4对应的候选框为目标类别的置信度得分s及其预测定位信息box ;
通过物体框转换公式得到最终的物体框,将所有的物体框定义为集合B,其中每个物体框均有置信度s及定位信息/>,其中,物体框转换公式如下:
;
利用Soft-NMS算法过滤目标图像中的冗余图像,其具体步骤如下:
选取集合B中置信度s最大的物体框,并将其定义为物体框M,然后将物体框M从集合B中剔除;
遍历集合B中其余的物体框,选取任一物体框b i,物体框b i的预测定位信息为box i、置信度为s i;
计算物体框b i与物体框M之间的iou值,如果物体框b i与物体框M之间的iou值大于阈值N t,则通过置信度调整公式降低物体框b i的置信度s i,否则不改变物体框b i的置信度s i;重复该步骤,直到选取的物体框的最高置信度为s i小于最高得分阈值N s时停止;其中,置信度调整公式如下:
其中,s i为物体框为目标类别的置信度得分,M为物体框集合B中置信度s最大的候选框,b i为候选框集合中遍历出来的任一物体框,iou(M,b i )为M与b i之间的iou值,N t为iou阈值;
A、B两个物体框之间的计算公式如下:
,
其中,A为特征图生成的候选框、B为人为标注的物体框,为特征图生成的候选框与人为标注的物体框之间的相交面积。
2.根据权利要求1所述的一种密集型目标检测计量方法,其特征在于:分类网络为ResNet-50分类网络,训练数据集为ImageNet数据集。
3.根据权利要求1所述的一种密集型目标检测计量方法,其特征在于:所述分类模型的训练步骤如下:
选取单目标数据集和负样本数据集;
向Inception-V3分类网络输入单目标数据集和负样本数据集,然后对Inception-V3分类网络进行训练,得到分类模型。
4.根据权利要求3所述的一种密集型目标检测计量方法,其特征在于:单目标数据集包括多个在不同背景、不同光线环境、不同拍摄角度、不同拍摄距离下拍摄的单个物体的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010085239.9A CN111339839B (zh) | 2020-02-10 | 2020-02-10 | 一种密集型目标检测计量方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010085239.9A CN111339839B (zh) | 2020-02-10 | 2020-02-10 | 一种密集型目标检测计量方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339839A CN111339839A (zh) | 2020-06-26 |
CN111339839B true CN111339839B (zh) | 2023-10-03 |
Family
ID=71181539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010085239.9A Active CN111339839B (zh) | 2020-02-10 | 2020-02-10 | 一种密集型目标检测计量方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339839B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111815654A (zh) * | 2020-07-14 | 2020-10-23 | 北京字节跳动网络技术有限公司 | 用于处理图像的方法、装置、设备和计算机可读介质 |
CN111950391A (zh) * | 2020-07-23 | 2020-11-17 | 中国农业科学院农业信息研究所 | 果树芽体的识别方法及装置 |
CN112348778B (zh) * | 2020-10-21 | 2023-10-27 | 深圳市优必选科技股份有限公司 | 一种物体识别方法、装置、终端设备及存储介质 |
CN112699925A (zh) * | 2020-12-23 | 2021-04-23 | 国网安徽省电力有限公司检修分公司 | 一种变电站表计图像分类方法 |
CN113096108A (zh) * | 2021-04-21 | 2021-07-09 | 安徽声讯信息技术有限公司 | 一种用于接口测试的精准对接方法 |
CN113436259A (zh) * | 2021-06-23 | 2021-09-24 | 国网智能科技股份有限公司 | 基于深度学习的变电站设备实时定位方法及系统 |
CN113657236A (zh) * | 2021-08-10 | 2021-11-16 | 支付宝(杭州)信息技术有限公司 | 无人货柜上新后的取出商品识别方法和装置 |
CN113791078B (zh) * | 2021-09-02 | 2023-06-13 | 中国农业机械化科学研究院 | 一种玉米种子内部裂纹批量检测方法及装置 |
CN114898201B (zh) * | 2022-07-11 | 2022-10-28 | 浙江大华技术股份有限公司 | 一种目标检测方法、装置、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344864A (zh) * | 2018-08-24 | 2019-02-15 | 北京陌上花科技有限公司 | 用于密集物体的图像处理方法及装置 |
CN110414464A (zh) * | 2019-08-05 | 2019-11-05 | 北京深醒科技有限公司 | 一种小尺度密集行人检测方法 |
CN110689056A (zh) * | 2019-09-10 | 2020-01-14 | Oppo广东移动通信有限公司 | 一种分类方法及装置、设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8818932B2 (en) * | 2011-02-14 | 2014-08-26 | Decisive Analytics Corporation | Method and apparatus for creating a predictive model |
-
2020
- 2020-02-10 CN CN202010085239.9A patent/CN111339839B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344864A (zh) * | 2018-08-24 | 2019-02-15 | 北京陌上花科技有限公司 | 用于密集物体的图像处理方法及装置 |
CN110414464A (zh) * | 2019-08-05 | 2019-11-05 | 北京深醒科技有限公司 | 一种小尺度密集行人检测方法 |
CN110689056A (zh) * | 2019-09-10 | 2020-01-14 | Oppo广东移动通信有限公司 | 一种分类方法及装置、设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
刘照邦等."基于深度神经网络的货架商品识别方法".《包装工程》.2020,第41卷(第1期),第149-155页. * |
罗承成等."基于多示例学习的超市农产品图像识别".《计算机应用》.2012,第32卷(第6期),第1560-1566页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111339839A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339839B (zh) | 一种密集型目标检测计量方法 | |
CN111460926B (zh) | 一种融合多目标跟踪线索的视频行人检测方法 | |
CN110348445B (zh) | 一种融合空洞卷积和边缘信息的实例分割方法 | |
CN109684922B (zh) | 一种基于卷积神经网络的多模型对成品菜的识别方法 | |
CN107506763B (zh) | 一种基于卷积神经网络的多尺度车牌精准定位方法 | |
CN113065558A (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN111160249A (zh) | 基于跨尺度特征融合的光学遥感图像多类目标检测方法 | |
CN104700099B (zh) | 识别交通标志的方法和装置 | |
CN109583483B (zh) | 一种基于卷积神经网络的目标检测方法和系统 | |
CN112836640B (zh) | 一种单摄像头多目标行人跟踪方法 | |
CN109903331B (zh) | 一种基于rgb-d相机的卷积神经网络目标检测方法 | |
CN108334881B (zh) | 一种基于深度学习的车牌识别方法 | |
CN106971185B (zh) | 一种基于全卷积网络的车牌定位方法及装置 | |
CN113627228B (zh) | 一种基于关键点回归与多尺度特征融合的车道线检测方法 | |
CN103679187B (zh) | 图像识别方法和系统 | |
CN108960404B (zh) | 一种基于图像的人群计数方法及设备 | |
CN111967313B (zh) | 一种深度学习目标检测算法辅助的无人机图像标注方法 | |
CN109766873B (zh) | 一种混合可变形卷积的行人再识别方法 | |
CN108268871A (zh) | 一种基于卷积神经网络的端到端的车牌识别方法和系统 | |
CN112862849B (zh) | 一种基于图像分割和全卷积神经网络的田间稻穗计数方法 | |
CN110544202B (zh) | 一种基于模板匹配与特征聚类的视差图像拼接方法及系统 | |
CN114973317A (zh) | 一种基于多尺度邻接交互特征的行人重识别方法 | |
CN115331183A (zh) | 改进YOLOv5s的红外目标检测方法 | |
CN110929649B (zh) | 一种面向小目标检测的网络和困难样本挖掘方法 | |
CN108133235A (zh) | 一种基于神经网络多尺度特征图的行人检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |