CN112085164A - 一种基于无锚框网络的区域推荐网络提取方法 - Google Patents
一种基于无锚框网络的区域推荐网络提取方法 Download PDFInfo
- Publication number
- CN112085164A CN112085164A CN202010904907.6A CN202010904907A CN112085164A CN 112085164 A CN112085164 A CN 112085164A CN 202010904907 A CN202010904907 A CN 202010904907A CN 112085164 A CN112085164 A CN 112085164A
- Authority
- CN
- China
- Prior art keywords
- network
- frame
- prediction
- anchor
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 15
- 238000001514 detection method Methods 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000013501 data transformation Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 abstract description 4
- 239000000835 fiber Substances 0.000 abstract 1
- 230000006870 function Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Abstract
本发明公开了基于无锚框网络的区域推荐网络提取方法,利用FCOS网络来为双阶段网络做区域推荐网络,利用FCOS的分类网络来区分网络提取到的预选框为正例还是负例,并且从为正例与负例的预选框中选择出一部分作为下一阶段的训练框,正例与负例的数量应保持一致,保证正负样本的平衡。在下一个阶段的回归中对筛选出来的正例做出具体的分类,并且网络在预选框的基础上做回归,得到最终的预测框。
Description
技术领域
本发明属于目标监测网络领域,涉及一种基于无锚框网络的区域推荐网络提取方法。
背景技术
近年来深度学习技术的迅速发展和机器学习技术的成熟使得计算机视觉领域的许多问题都取得了突破性的进展,并且深刻地改变着人们的生活。目标检测问题是被广泛讨论的一个问题,其应用面非常广泛,在无人驾驶,监控录像等方面发挥着重要的作用,以往的目标检测网络主要分成双阶段和单阶段的网络,单阶段的网络推理速度较快,而精度较低,双阶段的网络推理速度慢而精度较高,目前目标检测技术的准确度与速度还并未达到能够满足人们需求的地步,算法依然有很大的改进余地。目前目标检测的过程一般分为特征提取,特征处理,预选区域的产生,分类与回归以及最终对预测框地筛选,其中预选区域的产生依然存在着很大的改良空间。以往预选区域的产生有几种方式,从最初的使用无监督学习到后来训练另一个检测网络作为区域提取网络。近几年涌现了许多无锚框的目标检测网络,相比从前主流的有锚框检测网络,无锚框的检测网络的优势在于不用调整锚框的参数,二阶段网络的区域提取网络一方面需要找到含有目标的预选框,另一方面需要对选择出来的预选框进行分类,区分其中是否有需要检测的目标,这种需求利用无锚框的检测网络正好能够满足,因此利用无锚框的网络作为双阶段网络的区域推荐网络非常合适。基于以上理由,利用FCOS作为区域推荐网络能够有效地提高网络的精度。
发明内容
为解决上述问题,本发明的技术方案为一种基于无锚框网络的区域推荐网络提取方法,包括以下步骤:
S10,数据预处理:对目标检测网络的输入数据进行数据清理、数据集成、数据规约和数据变换;
S20,特征提取:特征提取网络包括由卷积神经网络,对于目标检测采用ResNet神经网络,ResNet神经网络最终输出为使用金字塔特征将ResNet中卷积步长为8,16,32,64,128的特征做组合,作为目标检测网络的特征图;
S30,选取锚框:将上述步骤得到的特征传入到无锚框的预测网络,预测网络在特征图的每一个位置产生分类得分以及回归得分,分类得分即特征点对应感受野大小映射回原图中与特征点对应位置处含有某类检测目标的概率,而回归得分则用于产生预测框;
S40,上一步骤中预测网络为一个不用锚框即可进行预测的网络,而本步骤的网络进行预测框的预测时依靠锚框作为其回归起点,通过锚框得到预选框,在S30中得到锚框之后输入到下一个预测网络,在这个网络中利用特征图对每一个位置得到分类得分以及回归得分;
S50,对图片进行前向传递之后,对其进行反向传播让网络学习到有效参数,网络的损失函数定义为无锚框的预测网络与有锚框的预测网络的分类损失与回归损失之和,分类损失函数记为Focal loss,无锚框的预测网络的回归损失为IOU loss,有锚框的预测网络的回归损失为L1 loss。
优选地,所述选取锚框包括以下步骤:
将特征点的位置作为预测框中的一个点,分类得分为一个H*W*C的张量,其中H为当前特征图的高度,W为当前特征图的宽度,C为分类的类别数,其中最后一个类别为背景类,将分类输出中C维度中最高的得分作为当前特征点的分类类别,若分类类别为背景,则将其设定为负例;预测得分则代表该点与预测框的四条边的距离,之后从特征点的位置与特征点与预测框距离得到预测框的左上角点与右下角点的坐标;
将预测得到的预测框作为下一个阶段的锚框,按照分类得分对所有锚框进行排序,同一类的锚框放在一起,从中选取128个作为正样本,再从负例中选取128个作为负样本,将这256个样本送入到下一个预测网络中。
优选地,所述通过锚框得到预选框包括以下步骤:
回归得分与对应位置的特征相乘后得到锚框与预测框之间的偏移量,分别是位置的偏移量以及尺寸的偏移量,预测的输出即为预测框;
预测框的数量可达一万以上,这些预测框并不会作为网络最终的预测框,而是再通过非极大值抑制之后再将其输出。
本发明的有益效果如下:本发明针对双阶段的目标检测问题,提出了利用无锚框的预测网络来为有锚框的预测网络提供锚框作为预选框,提高了网络最终的检测精度。
附图说明
图1为本发明方法具体实施例的基于无锚框网络的区域推荐网络提取方法的步骤流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参见图1,为本发明实施例的基于无锚框网络的区域推荐网络提取方法的步骤流程图,包括以下步骤:
S10,数据预处理:对目标检测网络的输入数据进行数据清理、数据集成、数据规约和数据变换;
S20,特征提取:特征提取网络包括由卷积神经网络,对于目标检测采用ResNet神经网络,ResNet神经网络最终输出为使用金字塔特征将ResNet中卷积步长为8,16,32,64,128的特征做组合,作为目标检测网络的特征图;
S30,选取锚框:将上述步骤得到的特征传入到无锚框的预测网络,预测网络在特征图的每一个位置产生分类得分以及回归得分,分类得分即特征点对应感受野大小映射回原图中与特征点对应位置处含有某类检测目标的概率,而回归得分则用于产生预测框;
S40,上一步骤中预测网络为一个不用锚框即可进行预测的网络,而本步骤的网络进行预测框的预测时依靠锚框作为其回归起点,通过锚框得到预选框,在S30中得到锚框之后输入到下一个预测网络,在这个网络中利用特征图对每一个位置得到分类得分以及回归得分;
S50,对图片进行前向传递之后,对其进行反向传播让网络学习到有效参数,网络的损失函数定义为无锚框的预测网络与有锚框的预测网络的分类损失与回归损失之和,分类损失函数记为Focal loss,无锚框的预测网络的回归损失为IOU loss,有锚框的预测网络的回归损失为L1 loss。
具体实施例中,S10,首先将标注的类别进行扩充,加入背景类,之后将图片输入到特征提取网络,将卷积步长为8,16,32的特征进行特征组合,组成金字塔特征。这些特征首先经过1x1的卷积改变特征的通道数,将所有特征的通道数都改变为256维,步长为32的特征全部进行保留,一方面对其进行上采样,一方面对其进行下采样,下采样的结果作为卷积为64的特征,对卷积步长4的特征再次进行下采样,得到步长为128的特征。卷积步长为32的特征进行上采样的结果在长采样之后特征图的尺寸变为两倍,与卷积步长为16的特征进行叠加,卷积步长为16的特征也进行上采样,与卷积步长为8的特征进行叠加。最终将这5层特征组合到一起作为一张图片的特征;
S20、S30,将这些特征输入到无锚框的检测网络与有锚框的检测网络,特征图进入无锚框的检测网络之后,检测网络分为两个分支,分类分支以及回归分支,在分类分支中对输入的特征进行卷积操作,卷积的输出是一个H×W×C的张量,其中H为特征图的高度,W为特征图的宽度,C为分类的类别数,这个张量内的元素为不同位置的特征点的不同类别的分类得分,从这些得分中选择得分最高的那个作为该位置的分类结果。而在回归分支中同样会对输入的特征进行卷积,卷积的输出为HxWx4的张量,代表每一个位置的特征点上距离其对应预测框的四条边的距离。根据分类得分筛选为正例的特征点,将分类类别不为背景的作为正例,分类类别为背景的作为负例,从正例与负例中个选取128个,将其对应的预测框作为下一个阶段的锚框。值得一提的是,无锚框的网络需要进行预训练,否则将无法得到比较好的分类与回归结果。
S40,将提取到的特征输入到有锚框的预测网络,有锚框的预测网络也包含两个分支,分别是分类分支与回归分支,分类分支中将输入的特征利用卷积变成尺寸为H×W×C的张量,其中H为特征图的高度,W为特征图的宽度,C为分类的类别数,这个张量内的元素为不同位置的特征点的不同类别的分类得分,从这些得分中选择得分最高的那个作为该位置的分类结果。回归分支也同样会对输入的特征进行卷积操作,其输出张量为HxWx4的张量,代表锚框与预测框之间的位置差与尺寸差。根据公式
GX=Aw·dx(A)+Ax
Gy=Ah·dy(A)+Ay
Gw=Aw·exp(dw(A))
Gh=Ah·exp(dh(A))
得到预测框的位置与大小,其中(Gx,Gy,Gw,Gh)为预测框的位置以及大小,(Ax,Ay,Aw,Ah)为锚框的位置以及大小,(dx(A),dy(A),dw(A),dh(A))为预选框与预测框的偏移量;
S50,在得到预测框后,对于网络的训练阶段与预测阶段会有计算损失与进行后处理(NMS)两种操作。在训练阶段,计算损失之后对网络进行反向传播使得网络参数更新,让网络拥有更好的性能。在测试阶段则不计算损失,只有前向传递的过程,网络最后的阶段是对所有的预测框做NMS操作,即将所有预测框按照分类得分从高到低进行排序,选择得分最高的框,设定阈值为0.5,这个阈值为一个需要调整的参数,具体如何选择依问题不同而不同,若其他框与最高得分框的交并比高于阈值,则将那些框筛除,重复以上过程直到没有了可以被筛除的框为止,将那些预测框作为最终的预测框。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于无锚框网络的区域推荐网络提取方法,其特征在于,包括以下步骤:
S10,数据预处理:对目标检测网络的输入数据进行数据清理、数据集成、数据规约和数据变换;
S20,特征提取:特征提取网络包括由卷积神经网络,对于目标检测采用ResNet神经网络,ResNet神经网络最终输出为使用金字塔特征将ResNet中卷积步长为8,16,32,64,128的特征做组合,作为目标检测网络的特征图;
S30,选取锚框:将上述步骤得到的特征传入到无锚框的预测网络,预测网络在特征图的每一个位置产生分类得分以及回归得分,分类得分即特征点对应感受野大小映射回原图中与特征点对应位置处含有某类检测目标的概率,而回归得分则用于产生预测框;
S40,上一步骤中预测网络为一个不用锚框即可进行预测的网络,而本步骤的网络进行预测框的预测时依靠锚框作为其回归起点,通过锚框得到预选框,在S30中得到锚框之后输入到下一个预测网络,在这个网络中利用特征图对每一个位置得到分类得分以及回归得分;
S50,对图片进行前向传递之后,对其进行反向传播让网络学习到有效参数,网络的损失函数定义为无锚框的预测网络与有锚框的预测网络的分类损失与回归损失之和,分类损失函数记为Focalloss,无锚框的预测网络的回归损失为IOUloss,有锚框的预测网络的回归损失为L1 loss。
2.根据权利要求1所述的方法,其特征在于,所述选取锚框包括以下步骤:
将特征点的位置作为预测框中的一个点,分类得分为一个H*W*C的张量,其中H为当前特征图的高度,W为当前特征图的宽度,C为分类的类别数,其中最后一个类别为背景类,将分类输出中C维度中最高的得分作为当前特征点的分类类别,若分类类别为背景,则将其设定为负例;预测得分则代表该点与预测框的四条边的距离,之后从特征点的位置与特征点与预测框距离得到预测框的左上角点与右下角点的坐标;
将预测得到的预测框作为下一个阶段的锚框,按照分类得分对所有锚框进行排序,同一类的锚框放在一起,从中选取128个作为正样本,再从负例中选取128个作为负样本,将这256个样本送入到下一个预测网络中。
3.根据权利要求1所述的方法,其特征在于,所述通过锚框得到预选框包括以下步骤:
回归得分与对应位置的特征相乘后得到锚框与预测框之间的偏移量,分别是位置的偏移量以及尺寸的偏移量,预测的输出即为预测框;
预测框的数量可达一万以上,这些预测框并不会作为网络最终的预测框,而是再通过非极大值抑制之后再将其输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010904907.6A CN112085164A (zh) | 2020-09-01 | 2020-09-01 | 一种基于无锚框网络的区域推荐网络提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010904907.6A CN112085164A (zh) | 2020-09-01 | 2020-09-01 | 一种基于无锚框网络的区域推荐网络提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112085164A true CN112085164A (zh) | 2020-12-15 |
Family
ID=73732913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010904907.6A Pending CN112085164A (zh) | 2020-09-01 | 2020-09-01 | 一种基于无锚框网络的区域推荐网络提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112085164A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112614133A (zh) * | 2021-03-05 | 2021-04-06 | 北京小白世纪网络科技有限公司 | 一种无锚点框的三维肺结节检测模型训练方法及装置 |
CN113065400A (zh) * | 2021-03-04 | 2021-07-02 | 国网河北省电力有限公司 | 基于无锚框两阶段网络检测发票印章的方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019028725A1 (en) * | 2017-08-10 | 2019-02-14 | Intel Corporation | CONVOLUTIVE NEURAL NETWORK STRUCTURE USING INVERTED CONNECTIONS AND OBJECTIVITY ANTERIORITIES TO DETECT AN OBJECT |
CN111192291A (zh) * | 2019-12-06 | 2020-05-22 | 东南大学 | 一种基于级联回归与孪生网络的目标跟踪方法 |
-
2020
- 2020-09-01 CN CN202010904907.6A patent/CN112085164A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019028725A1 (en) * | 2017-08-10 | 2019-02-14 | Intel Corporation | CONVOLUTIVE NEURAL NETWORK STRUCTURE USING INVERTED CONNECTIONS AND OBJECTIVITY ANTERIORITIES TO DETECT AN OBJECT |
CN111192291A (zh) * | 2019-12-06 | 2020-05-22 | 东南大学 | 一种基于级联回归与孪生网络的目标跟踪方法 |
Non-Patent Citations (1)
Title |
---|
张立亮;滕国伟;范涛;李聪;: "旋转人脸检测算法", 计算机应用与软件, no. 12, 12 December 2019 (2019-12-12) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065400A (zh) * | 2021-03-04 | 2021-07-02 | 国网河北省电力有限公司 | 基于无锚框两阶段网络检测发票印章的方法及装置 |
CN112614133A (zh) * | 2021-03-05 | 2021-04-06 | 北京小白世纪网络科技有限公司 | 一种无锚点框的三维肺结节检测模型训练方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276765B (zh) | 基于多任务学习深度神经网络的图像全景分割方法 | |
CN110321923B (zh) | 不同尺度感受野特征层融合的目标检测方法、系统及介质 | |
CN108830285B (zh) | 一种基于Faster-RCNN的加强学习的目标检测方法 | |
US20190228268A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN111079674B (zh) | 一种基于全局和局部信息融合的目标检测方法 | |
KR20200094622A (ko) | 뉴럴 네트워크 학습에 이용될 오토 라벨링된 이미지 중에서 라벨 검수를 위한 샘플 이미지를 획득하는 방법 및 이를 이용한 샘플 이미지 획득 장치 | |
CN111723829B (zh) | 一种基于注意力掩模融合的全卷积目标检测方法 | |
CN112734775A (zh) | 图像标注、图像语义分割、模型训练方法及装置 | |
CN110929848B (zh) | 基于多挑战感知学习模型的训练、跟踪方法 | |
CN109165658B (zh) | 一种基于Faster-RCNN的强负样本水下目标检测方法 | |
CN112016601A (zh) | 基于知识图谱增强小样本视觉分类的网络模型构建方法 | |
CN114580541A (zh) | 一种基于时空域双通道火灾视频烟雾识别方法 | |
CN112085164A (zh) | 一种基于无锚框网络的区域推荐网络提取方法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN112529025A (zh) | 一种数据处理方法及装置 | |
CN115761888A (zh) | 基于nl-c3d模型的塔吊操作人员异常行为检测方法 | |
CN115861956A (zh) | 一种基于解耦头部的Yolov3道路垃圾检测方法 | |
CN116091763A (zh) | 苹果叶部病害图像语义分割系统及分割方法、设备和介质 | |
CN115019342A (zh) | 一种基于类关系推理的濒危动物目标检测方法 | |
CN113971797A (zh) | 一种基于动作行为特征的危险驾驶行为识别方法及系统 | |
CN109815911B (zh) | 基于深度融合网络的视频运动物体检测系统、方法及终端 | |
CN111062380A (zh) | 一种基于rfcn算法改进的目标检测方法 | |
CN111626409B (zh) | 一种图像质量检测的数据生成方法 | |
CN109753999A (zh) | 针对任意视角汽车图片的细粒度车型识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |