CN112801971A - 一种基于把目标视为点改进的目标检测方法 - Google Patents

一种基于把目标视为点改进的目标检测方法 Download PDF

Info

Publication number
CN112801971A
CN112801971A CN202110092920.0A CN202110092920A CN112801971A CN 112801971 A CN112801971 A CN 112801971A CN 202110092920 A CN202110092920 A CN 202110092920A CN 112801971 A CN112801971 A CN 112801971A
Authority
CN
China
Prior art keywords
target
network
bounding box
map
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110092920.0A
Other languages
English (en)
Other versions
CN112801971B (zh
Inventor
杨新武
彭雪峰
斯迪文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110092920.0A priority Critical patent/CN112801971B/zh
Publication of CN112801971A publication Critical patent/CN112801971A/zh
Application granted granted Critical
Publication of CN112801971B publication Critical patent/CN112801971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于把目标视为点改进的目标检测方法,该方法直接将任意尺度多目标的图像作为网络的输入,使用损失函数计算训练的损失值,通过优化损失值,反向传播更新模型参数,训练网络模型直至该模型收敛。在训练过程中选取预测的中心点热度图中的前N个点,计算对应包围框与真值包围框之间的相似度,来完成权重计算,赋予网络特征图对应的权重,告诉网络应该注意哪些点。通过在公开的数据集PascalVOC2007和2012上进行测试,体现了该网络模型具有较强的目标检测能力,证明了本发明能在保证在提高网络精度的同时,缓解中心点发散,减少冗余检测框,不影响网络的推理速度,不花费额外的计算量的情况下完成检测任务。

Description

一种基于把目标视为点改进的目标检测方法
技术领域
本发明涉及深度学习、计算机视觉和医学图像领域,特别涉及一种基于把目标视为点改进的目标检测方法。
背景技术
目在计算机视觉领域内,有图像分类、目标检测、实例分割以及语义分割四大基本任务。其中,目标检测驱动着实例分割、姿态估计和行为识别等任务。目前基于深度学习的目标检测方法很受欢迎,它们有着简洁、高效和端到端等优点。这些方法大体上可分为二阶段检测器和一阶段检测器。其中一阶段检测器又可以分为anchor-based和anchor-free两类,前者在检测中使用了anchor,而后者则没有使用。
大多数的二阶段检测器都使用轴对齐的紧紧包围物体的包围框来表示物体。因此,目标检测任务转化成了一个对潜在包含物体的包围框进行分类的问题,同时计算每个包围框对应的偏移量。除此以外,二阶段检测器也会使用非极大值抑制算法来消除冗余的边界框,这进一步增加了检测时间。
二阶段检测器把检测过程分为了两个阶段:第一个阶段用来产生建议区域;第二个阶段用来对建议区域进行预测。在第一个阶段,检测器会尝试寻找可能包含物体的区域作为建议区域;第二个阶段深度学习网络会对这些区域进行分类并且进行适当的调整。
一阶段检测器直接对特征图上每个位置进行类别预测,而不用产生包围框和分类这种级联的步骤。一阶段检测器通常是在图像上滑动一系列复杂的且可能包围物体的框,这些框就称作anchor,然后做一次框的回归和分类任务。
总体来说,二阶段检测器有着更好的效果,但是一阶段检测器有更快的检测速度。
近来,研究者开始使用一个或多个关键点来表示物体,这种方法使用关键点来预测物体位置和物体的尺寸,其中最有代表性的就是把目标视为点方法,它是一种端到端的一阶段的检测器,在计算量比二阶段减少很多的情况下,可以取得State-of-the-art效果。
本发明的创新点与现有技术的区别
目标检测是计算机视觉中的基础任务之一。基于深度学习技术的目标检测技术从两阶段发展到一阶段,大大提升了检测速度,再从anchor-based发展到anchor-free,使得检测过程更加简洁高效。目前最具代表性的一阶段检测方法是把目标视为点,其使用中心点去预测物体位置和大小,有着不输于二阶段检测器的准确率且速度却远高于二阶段检测器。但是这种方法中一个目标往往有多个预测出的中心点,造成预测中心点的发散,进而导致一个目标存在多个冗余的包围框;并且在训练阶段,该方法对于中心点和包围框的尺寸分别训练,而在预测时需要将二者联合,这就造成了训练与预测不一致的情况。为了解决这些问题,本文提出一种基于把目标视为点方法的一阶段检测器的包围框注意力单元。本方法在网络训练的过程中通过加入对中心点以及对应的包围框的比较,对对应的中心点施加包围框注意力权重,让网络更关注于预测过程中的中心点以及对应包围框都更准确的部分,以此来提高中心点预测的准确程度。本方法缓解了中心点预测发散的问题,减少了冗余的包围框。同时本方法保持了原有方法的简洁高效的特点,在提升网络效果的同时,没有增加额外的计算量。在PascalVOC数据集上进行了对比实验,本发明的mAP在原方法上提升了1.2%。
发明内容
为了解决当前把目标视为点方法中训练与测试两个阶段不一致,以及最终预测结果中心点发散,并且有很多冗余框的情况。
本发明采用的技术方案为一种基于把目标视为点的改进的端到端的图像目标检测方法,该方法将原始图像作为把目标视为点网络的输入,经过网络的计算,输出为图像中目标的包围框的坐标。这是一种端到端的图像目标检测方法,方法包括计算相似度,训练模型,目标检测三个过程,具体如下:
步骤S1,计算相似度过程:
步骤S1.1,选取训练过程中,生成的中心点热度图中的前N个点
步骤S1.2,选取热度图中前N个点对应的,包围框尺寸图中的点,作为中心点热度图中前N个点的包围框尺寸
步骤S1.3,计算选好的包围框与真值包围框之间的相似度
步骤S1.4,将相似度作为权重加在特征图上
步骤S2,模型训练过程:
步骤S2.1,将原始图像样本输入把目标视为点卷积神经网络,经过网络映射,输出为与中心点热度图,每个位置对应的包围框尺寸图,偏移量图;
步骤S2.2,通过步骤1计算对应的相似度,并且赋予中心点热度图注意力权重;
步骤S2.3,计算中心点热度图和真值热度图,包围框尺寸图和真值包围框尺寸图,偏移量图和真值偏移量图之间的损失,将其作为网络模型的优化目标,优化上述目标视为点模型;
步骤S2.3重复步骤S1.1至步骤S1.2,直至上述把目标视为点模型收敛;
步骤S3,目标检测过程:
步骤S3.1,加载把目标视为点网络训练好的参数,并将原始图像样本作为该网络的输入,通过该网络的计算,获取其对应的中心点热度图,包围框尺寸图以及偏移量图,选取前100个中心点以及对应的包围框尺寸,作为最后的检测结果。尽量保证网络能够分割不同尺寸的病灶区域。
所述步骤S2.2中,利用Adam优化算法训练输入真实图像的卷积神经网络,实现图像目标的精确快速检测。
在计算预测的包围框和真值框之间的相似度时,考虑中心点的坐标,包围框的面积作为相似度的计算维度,公式为:
Figure BDA0002913353780000031
Figure BDA0002913353780000032
公式中Agi代表真值框的面积,(xgi,ygi)代表真值框的中心点坐标,cgi代表真值框的类别;Apn代表预测的第n个包围框的面积,(xpn,ypn)代表预测包围框对应的中心点坐标,cpn表示对应预测框的类别。
本发明构建了一种基于把目标视为点的端到端的图像目标检测模型,使用自然图像训练该模型,使得该模型具有很好的扩展性以及适用性。该网络使用原图像作为输入,并且在训练过程中使用自定义包围框注意力机制,告诉网络应该关注的地方。通过这种方法,解决了训练过程与测试过程不一致的问题,并且有效的解决了预测的中心点发散和会预测许多冗余的包围框的情况。本方法在PascalVOC2007和PascalVOC2012训练集上进行训练,并且在多个网络结构上进行了验证。
附图说明
图1为本发明所涉及的包围框注意力单元结构图;
图2为本发明所涉及的网络整体结构图;
图3为本发明所涉及的原方法与本方法结果对比图;
图4为本发明所涉及的原方法与本方法结果对比图;
具体实施方式
为使本发明的目的,技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明做近一步的详细说明。
相似度计算过程以及如何将权重赋予在中心点热度图上,如图1所示;
步骤S1,计算相似度过程:
步骤S1.1,选取训练过程中,当每一次迭代生成了目前的中心点预测图时,选择中心点预测图中的前N个点,N的大小由具体的检测任务来决定;
步骤S1.2,选取热度图中前N个点对应的包围框尺寸图中的点,作为中心点热度图中前N个点的包围框尺寸
步骤S1.3,计算每一个选择的预测出的包围框与真实包围框之间的相似度,每一个预测的包围框分别与所有同类别的真实包围框计算相似度,并在得到的所有结果中,选取最大的结果作为该中心点的对应权重。
步骤S1.4,将计算好的相似度,按照类别的对应中心点的位置存储在张量中,该张量与中心点预测图的形状一致,然后将相似度张量与预测中心点张量相加,完成对中心点张量的赋值。
步骤S2,模型训练过程:
步骤S2.1,将原始图像样本输入到把目标视为点卷积神经网络中,该网络整体结构如图2所示,经过网络计算,输出中心点热度图,与中心点热度图每个位置对应的包围框尺寸图,偏移量图;
步骤S2.2,通过步骤1计算对应的相似度,并且赋予中心点热度图注意力权重;
步骤S2.3,计算中心点热度图和真值热度图,包围框尺寸图和真值包围框尺寸图,偏移量图和真值偏移量图之间的损失,将其作为网络模型的优化目标,优化上述目标视为点模型;
步骤S2.3重复步骤S1.1至步骤S1.2,直至上述把目标视为点模型收敛;
步骤S3,目标检测过程:
步骤S3.1,加载把目标视为点网络训练好的参数,并将原始图像样本作为该网络的输入,通过该网络的计算,获取其对应的中心点热度图,包围框尺寸图以及偏移量图,选取前100个中心点以及对应的包围框尺寸,作为最后的检测结果。尽量保证网络能够分割不同尺寸的病灶区域。
所述步骤S2.2中,利用Adam优化算法训练输入真实图像的卷积神经网络,实现图像目标的精确快速检测。
实验数据集采用目标检测方向的公开数据集,PASCAL VOC数据集。PASCALVOC挑战赛(The PASCALVisual Objects Classes)是一个世界级的计算机视觉挑战赛,PASCA全称:Pattern Analysis,Statical Modeling and Computational Learning,是一个由欧盟资助的网络组织。该数据集由自然图像组成,总共有20个类别,分别是:人,鸟,猫,牛,狗,马,绵羊,飞机,自行车,船,巴士,汽车,摩托车,火车,瓶子,椅子,餐桌,盆栽,沙发,电视/显示器。数据集由train/val/test三部分组成。
对于检测任务,VOC2007中包含9963张标注过的图片,由train,val,test三部分组成,分别对应于训练集、验证集和测试集,共标注出24640个物体。其中test数据集的label已经公布。VOC2012的trainval/test包含08-11年的所有对应图片,trainval有11540张图片共27450个物体。通常在实际使用中,会把VOC2007和VOC2012合起来一起使用。
本文使用VOC2007和VOC2012中的训练集和验证集,并在VOC2007的测试集上进行测试。共计16551张训练图片,4962张测试图片,20个类别。测试计算平均精度(mAP)时取IOU阈值为0.5。
模型检测效率最高时训练使用的超参数如下表X所示:
参数 含义 数值
batch_size 每次送入的图片 20
epoch_size 总共训练次数 70
Optimizer 选用的优化器 Adam
learning_rate 学习率 0.000781
gpu_memory_fraction GPU分配效率 0.9
实验结果如下:
原方法(mAP) 本方法(mAP)
Resnet-18 70.19 70.62
Resnet-101 75.95 76.04
DLA-34 77.95 78.81
本发明方法构建了基于把目标视为点的神经网络的目标检测模型,通过在训练过程中添加包围框注意力机制,告诉网络应当注意哪些地方来进行训练。在测试过程中,本发明可以保持原有的检测速度,在此基础上,提升检测结果,减少中心点发散,检测出过多冗余框的情况。由于这一特性,该方法可被广泛应用到日常检测实时任务中。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的包含范围应该以权力书的保护范围为准。

Claims (4)

1.一种基于把目标视为点改进的目标检测方法,其特征在于:该方法包括计算相似度,训练模型,目标检测三个过程,具体如下;
步骤S1,计算相似度过程:
步骤S1.1,选取训练过程中,生成的中心点热度图中的前N个点
步骤S1.2,选取热度图中前N个点对应的,包围框尺寸图中的点,作为中心点热度图中前N个点的包围框尺寸
步骤S1.3,计算选好的包围框与真值包围框之间的相似度
步骤S1.4,将相似度作为权重加在特征图上
步骤S2,模型训练过程:
步骤S2.1,将原始图像样本输入把目标视为点卷积神经网络,经过网络映射,输出为与中心点热度图,每个位置对应的包围框尺寸图,偏移量图;
步骤S2.2,通过步骤1计算对应的相似度,并且赋予中心点热度图注意力权重;
步骤S2.3,计算中心点热度图和真值热度图,包围框尺寸图和真值包围框尺寸图,偏移量图和真值偏移量图之间的损失,将其作为网络模型的优化目标,优化上述目标视为点模型;
步骤S2.3重复步骤S1.1至步骤S1.2,直至上述把目标视为点模型收敛;
步骤S3,目标检测过程:
加载把目标视为点网络训练好的参数,并将原始图像样本作为该网络的输入,通过该网络的计算,获取其对应的中心点热度图,包围框尺寸图以及偏移量图,选取前100个中心点以及对应的包围框尺寸,作为最后的检测结果。
2.根据权利要求1所述的一种基于把目标视为点改进的目标检测方法,其特征在于,在计算预测的包围框和真值框之间的相似度时,考虑中心点的坐标,包围框的面积作为相似度的计算维度,公式为:
Figure FDA0002913353770000011
公式中Agi代表真值框的面积,(xgi,ygi)代表真值框的中心点坐标,cgi代表真值框的类别;Apn代表预测的第n个包围框的面积,(xpn,ypn)代表预测包围框对应的中心点坐标,cpn表示对应预测框的类别。
3.根据权利要求1所述的一种基于把目标视为点改进的目标检测方法,其特征在于,可以保证在提高网络精度的同时,不影响网络的推理速度,不花费额外的计算量。
4.根据权利要求1所述的一种基于把目标视为点改进的目标检测方法,其特征在于,所述步骤S2.2中,利用Adam优化算法训练输入图像的卷积神经网络,实现多目标图像的精确快速检测。
CN202110092920.0A 2021-01-25 2021-01-25 一种基于把目标视为点改进的目标检测方法 Active CN112801971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110092920.0A CN112801971B (zh) 2021-01-25 2021-01-25 一种基于把目标视为点改进的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110092920.0A CN112801971B (zh) 2021-01-25 2021-01-25 一种基于把目标视为点改进的目标检测方法

Publications (2)

Publication Number Publication Date
CN112801971A true CN112801971A (zh) 2021-05-14
CN112801971B CN112801971B (zh) 2024-04-16

Family

ID=75811498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110092920.0A Active CN112801971B (zh) 2021-01-25 2021-01-25 一种基于把目标视为点改进的目标检测方法

Country Status (1)

Country Link
CN (1) CN112801971B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115496911A (zh) * 2022-11-14 2022-12-20 腾讯科技(深圳)有限公司 一种目标点检测方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829893A (zh) * 2019-01-03 2019-05-31 武汉精测电子集团股份有限公司 一种基于注意力机制的缺陷目标检测方法
WO2020173036A1 (zh) * 2019-02-26 2020-09-03 博众精工科技股份有限公司 基于深度学习的定位方法和系统
CN111950586A (zh) * 2020-07-01 2020-11-17 银江股份有限公司 一种引入双向注意力的目标检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829893A (zh) * 2019-01-03 2019-05-31 武汉精测电子集团股份有限公司 一种基于注意力机制的缺陷目标检测方法
WO2020173036A1 (zh) * 2019-02-26 2020-09-03 博众精工科技股份有限公司 基于深度学习的定位方法和系统
CN111950586A (zh) * 2020-07-01 2020-11-17 银江股份有限公司 一种引入双向注意力的目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周幸;陈立福;: "基于双注意力机制的遥感图像目标检测", 计算机与现代化, no. 08, 15 August 2020 (2020-08-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115496911A (zh) * 2022-11-14 2022-12-20 腾讯科技(深圳)有限公司 一种目标点检测方法、装置、设备及存储介质
CN115496911B (zh) * 2022-11-14 2023-03-24 腾讯科技(深圳)有限公司 一种目标点检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112801971B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
CA3088899C (en) Systems and methods for preparing data for use by machine learning algorithms
US20200104717A1 (en) Systems and methods for neural network pruning with accuracy preservation
WO2021143396A1 (zh) 利用文本分类模型进行分类预测的方法及装置
US6523015B1 (en) Robust modeling
CN112507996B (zh) 一种主样本注意力机制的人脸检测方法
CN108446741B (zh) 机器学习超参数重要性评估方法、系统及存储介质
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
US20230048405A1 (en) Neural network optimization method and apparatus
CN107784288A (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
Vadimovich et al. Self-adjusted evolutionary algorithms based approach for automated design of fuzzy logic systems
Ibragimovich et al. Effective recognition of pollen grains based on parametric adaptation of the image identification model
Orriols et al. Class imbalance problem in UCS classifier system: Fitness adaptation
Oliinyk et al. Using parallel random search to train fuzzy neural networks
Wang et al. Patient admission prediction using a pruned fuzzy min–max neural network with rule extraction
CN112801971A (zh) 一种基于把目标视为点改进的目标检测方法
CN114004383A (zh) 时间序列预测模型的训练方法、时间序列预测方法及装置
Alkhairi et al. Classification Analysis of Back propagation-Optimized CNN Performance in Image Processing
US20210248293A1 (en) Optimization device and optimization method
JP7259935B2 (ja) 情報処理システム、情報処理方法およびプログラム
CN115423091A (zh) 一种条件对抗神经网络训练方法、场景生成方法和系统
KR20220052844A (ko) 뉴럴 네트워크의 제공
CN114529063A (zh) 一种基于机器学习的金融领域数据预测方法、设备及介质
Kuvayskova et al. Forecasting the Technical State of an Object Based on the Composition of Machine Learning Methods
Ivanov Prototype sample selection based on minimization of the complete cross validation functional
US11928562B2 (en) Framework for providing improved predictive model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant