CN110428002A - 一种目标检测方法及目标检测网络 - Google Patents
一种目标检测方法及目标检测网络 Download PDFInfo
- Publication number
- CN110428002A CN110428002A CN201910702231.XA CN201910702231A CN110428002A CN 110428002 A CN110428002 A CN 110428002A CN 201910702231 A CN201910702231 A CN 201910702231A CN 110428002 A CN110428002 A CN 110428002A
- Authority
- CN
- China
- Prior art keywords
- frame
- target
- size
- anchor
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 141
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 9
- 239000000463 material Substances 0.000 claims description 220
- 238000012549 training Methods 0.000 claims description 28
- 230000009467 reduction Effects 0.000 claims description 12
- 238000013461 design Methods 0.000 claims description 11
- 230000015572 biosynthetic process Effects 0.000 claims description 10
- 238000003786 synthesis reaction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 abstract description 103
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000012360 testing method Methods 0.000 description 8
- 230000004069 differentiation Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种目标检测方法及目标检测网络,涉及基于深度神经网络识别图像的深度学习领域,本发明所提供的方法对网络结构、特征图以及损失函数分别作出了改进,兼顾准确性和效率。
Description
【技术领域】
本发明涉及基于深度神经网络识别图像的深度学习领域,具体涉及一种目标检测方法及目标检测网络。
【背景技术】
现有技术中,基于深度学习的目标检测网络结构主要有两种:一种为双步网络(two-step network),以Faster-RCNN为代表;另一种为单步网络(one-step network),以YOLO、SSD为代表。双步网络首先利用区域提取网络(RPN),提取目标框,然后利用分类网络判定目标种类,其优点为检测性能优异,缺点是计算复杂度高,难以做到实时计算。单步网络则利用单个网络同时实现目标框选和类别判定,可以实现快速检测,但缺点是与双步网络相比性能不佳。
因此,现有技术中的目标检测网络难以兼顾准确性和效率,存在顾此失彼的尴尬境地。单步网络检测速度优异,但性能较差;双步网络性能较好,但时效性较差。有鉴于此,有必要对现有的目标检测网络进行改进,以解决上述技术问题
【发明内容】
为解决前述问题,本发明提供了一种目标检测方法,兼顾准确性和效率。
为了达到上述目的,本发明采用如下技术方案:一种目标检测方法,包括如下步骤:
准备目标检测训练集,所述目标检测训练集中包括若干素材图像;
建立目标检测网络,包括:建立网络结构,设计特征图以及建立损失函数;
利用所述训练素材图像作为素材,训练目标检测网络;
利用训练好的目标检测网络进行目标检测。
进一步地,所述网络结构包括若干卷积层,对每个卷积层进行卷积运算后输出的张量的二维层为特征层,特征层中包括素材图像中目标的位置信息,设计特征图包括:所述特征层设置若干网格,所述网格内设置若干个锚点,以每个锚点为中心,周围设置若干锚框,所述锚框为根据特征层中的位置信息所形成的目标框提供参照,所述锚框的个数为素材图像上目标的尺寸聚类后的尺寸的数量,所述锚框的尺寸为素材图像上目标的尺寸聚类后的尺寸的数值。
更进一步地,所述网格的数量为第一基准值的平方,所述第一基准值为素材图像的尺寸与素材图像中目标的尺寸的比值,当目标具有多个时,所述第一基准值为素材图像的尺寸与素材图像中目标的期望尺寸的比值。
更进一步地,:所述目标检测网络预测特征层中素材图像中的目标的位置信息时,形成预测框,所述锚框与所述预测框的关系为:
其中,bx表示预测框的绝对中心点横坐标,by表示预测框的绝对中心点纵坐标,bw表示预测框宽度,bh表示预测框高度,tx表示预测框对于锚框在中心点横坐标上的偏移,ty表示预测框对于锚框在中心点纵坐标上的偏移,tw表示预测框对于锚框在宽度上的偏移,th表示预测框对于锚框在高度上的偏移,xi表示锚点i的绝对横坐标,yi表示锚点i的绝对纵坐标,wj表示锚点i所对应的锚框j的宽度,hj表示锚点i所对应的锚框j的高度,G为素材图像中影响域的尺寸,所述影响域的尺寸为素材图像的尺寸与第一基准值的比值。
作为优选,所述网络结构包括若干卷积层,所述建立网络结构包括:对尺寸大于第二基准值的卷积层进行卷积操作,对尺寸小于第二基准值的卷积层进行反卷积操作,使各卷积层尺寸统一为基准第二基准值,将统一尺寸后的各卷积层级联形成综合特征层,对综合特征层进行卷积运算,降低综合特征层的通道数,所述第二基准值为素材图像的尺寸与素材图像中目标的尺寸的比值,当目标具有多个时,所述第二基准值为素材图像的尺寸与素材图像中目标的期望尺寸的比值。
作为优选,所述网络结构包括若干卷积层,所述建立网络结构包括:对尺寸大于第一基准值的卷积层进行卷积操作,对尺寸小于第一基准值的卷积层进行反卷积操作,使各卷积层尺寸统一为基准第一基准值,将统一尺寸后的各卷积层级联形成综合特征层,对综合特征层进行卷积运算,降低综合特征层的通道数,降低后的通道数为B×(4+C),其中,B为锚点的数目乘以每个锚点周围的锚框的数目,C为特征层中目标类别的数量。
作为优选,所述网络结构包括若干卷积层,对每个卷积层进行卷积运算后输出的张量的二维层为特征层,特征层中包括素材图像中目标的位置信息,所述目标检测网络预测特征层中素材图像中的目标的位置信息时,形成预测框所述建立损失函数中,所述损失函数为:
所述损失函数用以计算输出结果与真实值的差别,其中,与真实目标的目标框的交并比大于0.5的预测框为结果目标框,N为结果目标框的数量,与真实目标的目标框的交并比小于0.4的预测框为背景框,M为背景框的数量;为目标框定位损失函数,i∈obj为在结果目标框内的点,i∈noobj为在背景框内的点,为背景框损失函数,kxi为真实目标的目标框的中心点横坐标,kyi为真实目标的目标框的中心点纵坐标,kwi为真实目标的目标框的宽度,khi真实目标的目标框的高度,为结果目标框的中心点横坐标,为结果目标框的中心点纵坐标,为结果目标框的宽度,为结果目标框的高度,Lcls(ci,pci)为分类损失函数,ci为目标真实类别,pci为检测网络将真实目标判断为相应类别的概率,λobj为结果目标框的位置权重,λnoobj为背景框的位置权重;
与真实目标的目标框的交并比介于0.4与0.5之间的预测框不参与损失函数计算。
所述损失函数中,
其中,γ1∈(1,2),为目标框位置指数权重,γ2∈(-∞,2],为背景框位置指数权重,λw、λh>0为背景框尺寸缩放因子,αci∈(0,1)为目标真实类别ci权重,λc为种类指数权重。
本发明所提供的方法具有如下有益效果:
本发明通过新型的网络结构、优化特征图与锚框设计、建立损失函数等手段,实现了检测性能和检测效率的兼顾,可以保证检测实时性的同时提升了目标检测性能,在公开数据集上取得了优异效果。本发明提出的目标检测网络在接受的图片输入大小为512×512时(非该尺寸图片可通过补零或拉伸的方式调整为512×512),可实现21.4fps的检测速率,在VOC 2007数据集上达到82.9%的mAP,在VOC 2012数据集上达到80.6%的mAP,达到了目标检测的领先水平,较好地兼顾了检测性能和检测效率。
此外,本发明还提供了一种目标检测网络,包括:网络结构、特征图以及损失函数,用以对素材图像以及待检测图像进行识别。
进一步地,所述网络结构包括若干卷积层,对每个卷积层进行卷积运算后输出的张量的二维层为特征层,特征层中包括素材图像中目标的位置信息,所述特征层设有若干网格,所述网格内具有若干个锚点,以每个锚点为中心,周围设有若干锚框,所述锚框为根据特征层中的位置信息所形成的目标框提供参照,所述锚框的个数为素材图像上目标的尺寸聚类后的尺寸的数量,所述锚框的尺寸为素材图像上目标的尺寸聚类后的尺寸的数值。
更进一步地,所述网格的数量为第一基准值的平方,所述第一基准值为素材图像的尺寸与素材图像中目标的尺寸的比值,当目标具有多个时,所述第一基准值为素材图像的尺寸与素材图像中目标的期望尺寸的比值。
更进一步地,所述目标检测网络预测特征层中素材图像中的目标的位置信息时,所述锚框与所述预测框的关系为:
其中,bx表示预测框的绝对中心点横坐标,by表示预测框的绝对中心点纵坐标,bw表示预测框宽度,bh表示预测框高度,tx表示预测框对于锚框在中心点横坐标上的偏移,ty表示预测框对于锚框在中心点纵坐标上的偏移,tw表示预测框对于锚框在宽度上的偏移,th表示预测框对于锚框在高度上的偏移,xi表示锚点i的绝对横坐标,yi表示锚点i的绝对纵坐标,wj表示锚点i所对应的锚框j的宽度,hj表示锚点i所对应的锚框j的高度,G为素材图像中影响域的尺寸,所述影响域的尺寸为素材图像的尺寸与第一基准值的比值。
作为优选,所述网络结构包括若干卷积层,对尺寸大于第二基准值的卷积层进行卷积操作,对尺寸小于第二基准值的卷积层进行反卷积操作,使各卷积层尺寸统一为第二基准值,将统一尺寸后的各卷积层级联形成综合特征层,对综合特征层进行卷积运算,降低综合特征层的通道数,所述第二基准值为素材图像的尺寸与素材图像中目标的尺寸的比值,当目标具有多个时,所述第二基准值为素材图像的尺寸与素材图像中目标的期望尺寸的比值。
作为优选,所述网络结构包括若干卷积层,对尺寸大于第一基准值的卷积层进行卷积操作,对尺寸小于第一基准值的卷积层进行反卷积操作,使各卷积层尺寸统一为第一基准值,将统一尺寸后的各卷积层级联形成综合特征层,对综合特征层进行卷积运算,降低综合特征层的通道数,降低后的通道数为B×(4+C),其中,B为锚点的数目乘以每个锚点周围的锚框的数目,C为特征层中目标类别的数量。
作为优选,所述网络结构包括若干卷积层,对每个卷积层进行卷积运算后输出的张量的二维层为特征层,特征层中包括素材图像中目标的位置信息,所述目标检测网络预测特征层中素材图像中的目标的位置信息时,形成预测框,所述损失函数用以计算输出结果与真实值差别,所述损失函数为:
其中,与真实目标的目标框的交并比大于0.5的预测框为结果目标框,N为结果目标框的数量,与真实目标的目标框的交并比小于0.4的预测框为背景框,M为背景框的数量;为目标框定位损失函数,i∈obj为在结果目标框内的点,i∈noobj为在背景框内的点,为背景框损失函数,kxi为真实目标的目标框的中心点横坐标,kyi为真实目标的目标框的中心点纵坐标,kwi为真实目标的目标框的宽度,khi真实目标的目标框的高度,为结果目标框的中心点横坐标,为结果目标框的中心点纵坐标,为结果目标框的宽度,为结果目标框的高度,Lcls(ci,pci)为分类损失函数,ci为目标真实类别,pci为检测网络将真实目标判断为相应类别的概率,λobj为结果目标框的位置权重,λnoobj为背景框的位置权重;
与真实目标的目标框的交并比介于0.4与0.5之间的预测框不参与损失函数计算。
所述损失函数中,
其中,γ1∈(1,2),为目标框位置指数权重,γ2∈(-∞,2],为背景框位置指数权重,λw、λh>0为背景框尺寸缩放因子,αci∈(0,1)为目标真实类别ci权重,λc为种类指数权重。
本发明所提供的目标检测网络与前述目标检测方法的有益效果推理过程相似,在此不再赘述。
本发明的这些特点和优点将会在下面的具体实施方式以及附图中进行详细的揭露。本发明最佳的实施方式或手段将结合附图来详尽表现,但并非是对本发明技术方案的限制。另外,在每个下文和附图中出现的这些特征、要素和组件是具有多个,并且为了表示方便而标记了不同的符号或数字,但均表示相同或相似构造或功能的部件。
【附图说明】
下面结合附图对本发明作进一步说明:
图1为本发明实施例一的流程图;
图2为本发明实施例一中网络结构的示意图;
图3为本发明实施例一中特征层与锚框设计示意图;
图4为本发明实施例一中锚框与预测框位置关系示意图。
【具体实施方式】
下面结合本发明实施例的附图对本发明实施例的技术方案进行解释和说明,但下述实施例仅为本发明的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其他实施例,都属于本发明的保护范围。
在本说明书中引用的“一个实施例”或“实例”或“例子”意指结合实施例本身描述的特定特征、结构或特性可被包括在本专利公开的至少一个实施例中。短语“在一个实施例中”在说明书中的各位置的出现不必都是指同一个实施例。
实施例一:
如图1至图4所示,本实施例提供一种目标检测方法,包括如下步骤:
步骤S1:准备目标检测训练集,目标检测训练集中包括若干素材图像;
步骤S2:建立目标检测网络,包括:建立网络结构,设计特征图以及建立损失函数;
网络结构包括若干卷积层,建立网络结构包括:对尺寸大于第一基准值S的卷积层进行卷积操作,对尺寸小于第一基准值S的卷积层进行反卷积操作,使各卷积层尺寸统一为第一基准值S,再将尺寸统一为第一基准值S后的各卷积层级联形成综合特征层,后对综合特征层进行卷积运算,以降低综合特征层的通道数。在本实施例中,第一基准值S为素材图像的尺寸与素材图像中目标的尺寸的比值,当素材图像中目标具有多个时,第一基准值S为素材图像的尺寸与素材图像中目标的期望尺寸的比值,在其他实施例中,第一基准值S也可以人为设置,在此不做限定。本实施例所提供的网络结构,通过对各个卷积层的级联,实现了对多种尺度的适应,提升了目标检测性能。
对每个卷积层进行卷积运算后输出的张量的二维层为特征层,特征层中包括素材图像中目标的位置信息,设计特征图包括:特征层设置若干网格。由于第一基准值S为素材图像的尺寸与素材图像中目标的尺寸的比值,当素材图像中目标具有多个时,第一基准值S为素材图像的尺寸与素材图像中目标的期望尺寸的比值,因此,设置网格的数量为第一基准值S的平方。特征层中的每一个网格即为一个元素,而每个元素则对应素材图像中G×G大小的影响域,影响域的尺寸G为素材图像的尺寸与第一基准值S的比值。
网格内设置若干个锚点,锚点的个数由人为设置。与现有技术所采用的单个锚点相比,设置多个锚点有助于提取目标检测精度,减少定位误差。
以每个锚点为中心,周围设置若干锚框,所述锚框为根据特征层中的位置信息所形成的目标框提供参照,每个锚点周围的锚框的个数为素材图像上目标的尺寸聚类后的尺寸的数量,锚框的尺寸为素材图像上目标的尺寸聚类后的尺寸的数值。举例而言,素材图像上目标的尺寸经过聚类后有四种,那么,每个锚点周围的锚框的数量即为4,每个锚框的尺寸则分别为聚类后的4种尺寸的数值。若初始设置为每个网格内具有9锚点,则特征层中的一个元素对应B=4*9个锚框,特征层中的全部元素共对应S2B=S2·4*9个锚框。选择合适的锚框可以加快目标检测网络的训练速度,锚框大小越接近真实目标大小,目标检测网络越容易收敛。
在前面的论述中,已经对网络结构中的卷积层进行了尺寸统一、级联形成综合特征层,并对综合特征层进行卷积运算,以降低综合特征层的通道数。在本实施例中,降低后的通道数为B×(4+C),其中,B为锚点的数目乘以每个锚点周围的锚框的数目,C为特征层中目标类别的数量。
参见图4,所述目标检测网络预测特征层中素材图像中的目标的位置信息时,锚框与预测框的关系为:
式中,tanh()为双曲正切函数,其中,bx表示预测框的绝对中心点横坐标,by表示预测框的绝对中心点纵坐标,bw表示预测框宽度,bh表示预测框高度,tx表示预测框对于锚框在中心点横坐标上的偏移,ty表示预测框对于锚框在中心点纵坐标上的偏移,tw表示预测框对于锚框在宽度上的偏移,th表示预测框对于锚框在高度上的偏移,xi表示锚点i的绝对横坐标,yi表示锚点i的绝对纵坐标,wj表示锚点i所对应的锚框j的宽度,hj表示锚点i所对应的锚框j的高度,G为素材图像中影响域的尺寸。利用偏移量来表示预测框的位置,而不直接采用预测框的绝对位置表示预测框的位置,一方面因为偏移值的数值可正可负,均值接近0,网络结构更容易收敛;另一方面是因为偏移值更能反映出尺寸变动对小目标影响更大的特点。
在本实施例中所建立的损失函数为:
损失函数用以计算输出结果与真实值的差别,其中,与真实目标的目标框的交并比大于0.5的预测框为结果目标框,N为结果目标框的数量,与真实目标的目标框的交并比小于0.4的预测框为背景框,M为背景框的数量;为目标框定位损失函数,i∈obj为在结果目标框内的点,i∈noobj为在背景框内的点,为背景框损失函数,kxi为真实目标的目标框的中心点横坐标,kyi为真实目标的目标框的中心点纵坐标,kwi为真实目标的目标框的宽度,khi真实目标的目标框的高度,为结果目标框的中心点横坐标,为结果目标框的中心点纵坐标,为结果目标框的宽度,为结果目标框的高度,Lcls(ci,pci)为分类损失函数,ci为目标真实类别,pci为检测网络将真实目标判断为相应类别的概率,λobj为结果目标框的位置权重,λnoobj为背景框的位置权重;
与真实目标的目标框的交并比介于0.4与0.5之间的预测框不参与损失函数计算。
将背景框大小计入损失函数,目的是尽可能压缩背景框的大小,即使类别判断错误,仍可因尺寸过小而在检测结果中被滤除,从而降低虚警率。
在损失函数中,
其中,γ1∈(1,2),为目标框位置指数权重,γ2∈(-∞,2],为背景框位置指数权重,λw、λh>0为背景框尺寸缩放因子,αci∈(0,1)为目标真实类别ci权重,λc为种类指数权重。
在本实施例中,目标框位置指数权重γ1和背景框位置指数权重γ2均为1.5,背景框尺寸缩放因子λw、λh设为2,目标真实类别ci权重αci在重要种类或训练样本较少的种类时可适当选取较大的数,如0.75,对于非重要种类,可以适当选取较小的数,比如0.25;种类指数权重λc设为2。
步骤S3:利用所述训练素材图像作为素材,训练目标检测网络;
网络训练过程中,采用求解器对进行计算,求解器可采用带动量的随机梯度下降法或Adam方法,训练的迭代次数根据训练集大小而定,在本实施例中,优选采用30epoch(将训练集完整迭代1次视为1个epoch)。
步骤S4:利用训练好的目标检测网络进行目标检测。
本实施例通过新型的网络结构、优化特征图与锚框设计、建立损失函数等手段,实现了检测性能和检测效率的兼顾,可以保证检测实时性的同时提升了目标检测性能,在公开数据集上取得了优异效果。本实施例所提供的目标检测网络在接受的图片输入大小为512×512时(非该尺寸图片可通过补零或拉伸的方式调整为512×512),可实现21.4fps的检测速率,在VOC 2007数据集上达到82.9%的mAP,在VOC 2012数据集上达到80.6%的mAP,达到了目标检测的领先水平,较好地兼顾了检测性能和检测效率。表1给出了本实施例与其他目标检测网络在PASCAL数据集上的性能对比。
表1.本实施例与其他目标检测网络在PASCAL数据集上的性能对比
实施例二:
本实施例提供一种目标检测方法,与实施例一不同的是,本实施例仅对建立网络结构进行改进:
网络结构包括若干卷积层,对尺寸大于第二基准值S’的卷积层进行卷积操作,对尺寸小于第二基准值S’的卷积层进行反卷积操作,使各卷积层尺寸统一为第二基准值S’,再将尺寸统一为第二基准值S’后的各卷积层级联形成综合特征层,后对综合特征层进行卷积运算,以降低综合特征层的通道数。在本实施例中,第二基准值S’为素材图像的尺寸与素材图像中目标的尺寸的比值,当素材图像中目标具有多个时,第二基准值S’为素材图像的尺寸与素材图像中目标的期望尺寸的比值,在其他实施例中,第二基准值S’也可以人为设置,在此不做限定。
作为与实施例一的区分,本实施例中采用第二基准值S’来表示与实施例一中的第一基准值S物理含义相同的物理量。
在本实施例中,降低后的通道数可以为现有技术中锚点的数目乘以每个锚点周围单个锚框的数目,也可以人为设置,在此不做限定。
本实施例所提供的网络结构,通过对各个卷积层的级联,实现了对多种尺度的适应,提升了目标检测性能。
实施例三:
本实施例提供一种目标检测方法,与实施例一不同的是,本实施例仅对设计特征图进行改进:
网络结构包括若干卷积层,对每个卷积层进行卷积运算后输出的张量的二维层为特征层,特征层中包括素材图像中目标的位置信息,特征层设置若干网格。由于第一基准值S为素材图像的尺寸与素材图像中目标的尺寸的比值,当素材图像中目标具有多个时,第一基准值S为素材图像的尺寸与素材图像中目标的期望尺寸的比值,因此,设置网格的数量为第一基准值S的平方。特征层中的每一个网格即为一个元素,而每个元素则对应素材图像中G×G大小的影响域,影响域的尺寸G为素材图像的尺寸与第一基准值S的比值。
网格内设置若干个锚点,锚点的个数由人为设置。与现有技术所采用的单个锚点相比,设置多个锚点有助于提取目标检测精度,减少定位误差。
以每个锚点为中心,周围设置若干锚框,所述锚框为根据特征层中的位置信息所形成的目标框提供参照,每个锚点周围的锚框的个数为素材图像上目标的尺寸聚类后的尺寸的数量,锚框的尺寸为素材图像上目标的尺寸聚类后的尺寸的数值。举例而言,素材图像上目标的尺寸经过聚类后有四种,那么,每个锚点周围的锚框的数量即为4,每个锚框的尺寸则分别为聚类后的4种尺寸的数值。若初始设置为每个网格内具有9锚点,则特征层中的一个元素对应B=4*9个锚框,特征层中的全部元素共对应S2B=S2·4*9个锚框。选择合适的锚框可以加快目标检测网络的训练速度,锚框大小越接近真实目标大小,目标检测网络越容易收敛。
参见图4,所述目标检测网络预测特征层中素材图像中的目标的位置信息时,锚框与预测框的关系为:
式中,tanh()为双曲正切函数,其中,bx表示预测框的绝对中心点横坐标,by表示预测框的绝对中心点纵坐标,bw表示预测框宽度,bh表示预测框高度,tx表示预测框对于锚框在中心点横坐标上的偏移,ty表示预测框对于锚框在中心点纵坐标上的偏移,tw表示预测框对于锚框在宽度上的偏移,th表示预测框对于锚框在高度上的偏移,xi表示锚点i的绝对横坐标,yi表示锚点i的绝对纵坐标,wj表示锚点i所对应的锚框j的宽度,hj表示锚点i所对应的锚框j的高度,G为素材图像中影响域的尺寸。利用偏移量来表示预测框的位置,而不直接采用预测框的绝对位置表示预测框的位置,一方面因为偏移值的数值可正可负,均值接近0,网络结构更容易收敛;另一方面是因为偏移值更能反映出尺寸变动对小目标影响更大的特点。
实施例四:
本实施例提供一种目标检测方法,与实施例一不同的是,本实施例仅对建立损失函数进行改进:
在本实施例中所建立的损失函数为:
损失函数用以计算输出结果与真实值的差别,其中,与真实目标的目标框的交并比大于0.5的预测框为结果目标框,N为结果目标框的数量,与真实目标的目标框的交并比小于0.4的预测框为背景框,M为背景框的数量;为目标框定位损失函数,i∈obj为在结果目标框内的点,i∈noobj为在背景框内的点,为背景框损失函数,kxi为真实目标的目标框的中心点横坐标,kyi为真实目标的目标框的中心点纵坐标,kwi为真实目标的目标框的宽度,khi真实目标的目标框的高度,为结果目标框的中心点横坐标,为结果目标框的中心点纵坐标,为结果目标框的宽度,为结果目标框的高度,Lcls(ci,pci)为分类损失函数,ci为目标真实类别,pci为检测网络将真实目标判断为相应类别的概率,λobj为结果目标框的位置权重,λnoobj为背景框的位置权重;
与真实目标的目标框的交并比介于0.4与0.5之间的预测框不参与损失函数计算。
将背景框大小计入损失函数,目的是尽可能压缩背景框的大小,即使类别判断错误,仍可因尺寸过小而在检测结果中被滤除,从而降低虚警率。
在损失函数中,
其中,γ1∈(1,2),为目标框位置指数权重,γ2∈(-∞,2],为背景框位置指数权重,λw、λh>0为背景框尺寸缩放因子,αci∈(0,1)为目标真实类别ci权重,λc为种类指数权重。
在本实施例中,目标框位置指数权重γ1和背景框位置指数权重γ2均为1.5,背景框尺寸缩放因子λw、λh设为2,目标真实类别ci权重αci在重要种类或训练样本较少的种类时可适当选取较大的数,如0.75,对于非重要种类,可以适当选取较小的数,比如0.25;种类指数权重λc设为2。
实施例五:
本实施例提供一种目标检测方法,与实施例一不同的是,本实施例对建立网络结构和设计特征图进行改进:
网络结构包括若干卷积层,对尺寸大于第一基准值S的卷积层进行卷积操作,对尺寸小于第一基准值S的卷积层进行反卷积操作,使各卷积层尺寸统一为第一基准值S,再将尺寸统一为第一基准值S后的各卷积层级联形成综合特征层,后对综合特征层进行卷积运算,以降低综合特征层的通道数。在本实施例中,第一基准值S为素材图像的尺寸与素材图像中目标的尺寸的比值,当素材图像中目标具有多个时,第一基准值S为素材图像的尺寸与素材图像中目标的期望尺寸的比值,在其他实施例中,第一基准值S也可以人为设置,在此不做限定。本实施例所提供的网络结构,通过对各个卷积层的级联,实现了对多种尺度的适应,提升了目标检测性能。
对每个卷积层进行卷积运算后输出的张量的二维层为特征层,特征层中包括素材图像中目标的位置信息,设计特征图包括:特征层设置若干网格。由于第一基准值S为素材图像的尺寸与素材图像中目标的尺寸的比值,当素材图像中目标具有多个时,第一基准值S为素材图像的尺寸与素材图像中目标的期望尺寸的比值,因此,设置网格的数量为第一基准值S的平方。特征层中的每一个网格即为一个元素,而每个元素则对应素材图像中G×G大小的影响域,影响域的尺寸G为素材图像的尺寸与第一基准值S的比值。
网格内设置若干个锚点,锚点的个数由人为设置。与现有技术所采用的单个锚点相比,设置多个锚点有助于提取目标检测精度,减少定位误差。
以每个锚点为中心,周围设置若干锚框,所述锚框为根据特征层中的位置信息所形成的目标框提供参照,每个锚点周围的锚框的个数为素材图像上目标的尺寸聚类后的尺寸的数量,锚框的尺寸为素材图像上目标的尺寸聚类后的尺寸的数值。举例而言,素材图像上目标的尺寸经过聚类后有四种,那么,每个锚点周围的锚框的数量即为4,每个锚框的尺寸则分别为聚类后的4种尺寸的数值。若初始设置为每个网格内具有9锚点,则特征层中的一个元素对应B=4*9个锚框,特征层中的全部元素共对应S2B=S2·4*9个锚框。选择合适的锚框可以加快目标检测网络的训练速度,锚框大小越接近真实目标大小,目标检测网络越容易收敛。
在前面的论述中,已经对网络结构中的卷积层进行了尺寸统一、级联形成综合特征层,并对综合特征层进行卷积运算,以降低综合特征层的通道数。在本实施例中,降低后的通道数为B×(4+C),其中,B为锚点的数目乘以每个锚点周围的锚框的数目,C为特征层中目标类别的数量。
参见图4,所述目标检测网络预测特征层中素材图像中的目标的位置信息时,锚框与预测框的关系为:
式中,tanh()为双曲正切函数,其中,bx表示预测框的绝对中心点横坐标,by表示预测框的绝对中心点纵坐标,bw表示预测框宽度,bh表示预测框高度,tx表示预测框对于锚框在中心点横坐标上的偏移,ty表示预测框对于锚框在中心点纵坐标上的偏移,tw表示预测框对于锚框在宽度上的偏移,th表示预测框对于锚框在高度上的偏移,xi表示锚点i的绝对横坐标,yi表示锚点i的绝对纵坐标,wj表示锚点i所对应的锚框j的宽度,hj表示锚点i所对应的锚框j的高度,G为素材图像中影响域的尺寸。利用偏移量来表示预测框的位置,而不直接采用预测框的绝对位置表示预测框的位置,一方面因为偏移值的数值可正可负,均值接近0,网络结构更容易收敛;另一方面是因为偏移值更能反映出尺寸变动对小目标影响更大的特点。
实施例六:
本实施例提供一种目标检测方法,与实施例一不同的是,本实施例对设计特征图和建立损失函数进行改进:
网络结构包括若干卷积层,对每个卷积层进行卷积运算后输出的张量的二维层为特征层,特征层中包括素材图像中目标的位置信息,特征层设置若干网格。由于第一基准值S为素材图像的尺寸与素材图像中目标的尺寸的比值,当素材图像中目标具有多个时,第一基准值S为素材图像的尺寸与素材图像中目标的期望尺寸的比值,因此,设置网格的数量为第一基准值S的平方。特征层中的每一个网格即为一个元素,而每个元素则对应素材图像中G×G大小的影响域,影响域的尺寸G为素材图像的尺寸与第一基准值S的比值。
网格内设置若干个锚点,锚点的个数由人为设置。与现有技术所采用的单个锚点相比,设置多个锚点有助于提取目标检测精度,减少定位误差。
以每个锚点为中心,周围设置若干锚框,所述锚框为根据特征层中的位置信息所形成的目标框提供参照,每个锚点周围的锚框的个数为素材图像上目标的尺寸聚类后的尺寸的数量,锚框的尺寸为素材图像上目标的尺寸聚类后的尺寸的数值。举例而言,素材图像上目标的尺寸经过聚类后有四种,那么,每个锚点周围的锚框的数量即为4,每个锚框的尺寸则分别为聚类后的4种尺寸的数值。若初始设置为每个网格内具有9锚点,则特征层中的一个元素对应B=4*9个锚框,特征层中的全部元素共对应S2B=S2·4*9个锚框。选择合适的锚框可以加快目标检测网络的训练速度,锚框大小越接近真实目标大小,目标检测网络越容易收敛。
参见图4,所述目标检测网络预测特征层中素材图像中的目标的位置信息时,锚框与预测框的关系为:
式中,tanh()为双曲正切函数,其中,bx表示预测框的绝对中心点横坐标,by表示预测框的绝对中心点纵坐标,bw表示预测框宽度,bh表示预测框高度,tx表示预测框对于锚框在中心点横坐标上的偏移,ty表示预测框对于锚框在中心点纵坐标上的偏移,tw表示预测框对于锚框在宽度上的偏移,th表示预测框对于锚框在高度上的偏移,xi表示锚点i的绝对横坐标,yi表示锚点i的绝对纵坐标,wj表示锚点i所对应的锚框j的宽度,hj表示锚点i所对应的锚框j的高度,G为素材图像中影响域的尺寸。利用偏移量来表示预测框的位置,而不直接采用预测框的绝对位置表示预测框的位置,一方面因为偏移值的数值可正可负,均值接近0,网络结构更容易收敛;另一方面是因为偏移值更能反映出尺寸变动对小目标影响更大的特点。
在本实施例中所建立的损失函数为:
损失函数用以计算输出结果与真实值的差别,其中,与真实目标的目标框的交并比大于0.5的预测框为结果目标框,N为结果目标框的数量,与真实目标的目标框的交并比小于0.4的预测框为背景框,M为背景框的数量;为目标框定位损失函数,i∈obj为在结果目标框内的点,i∈noobj为在背景框内的点,为背景框损失函数,kxi为真实目标的目标框的中心点横坐标,kyi为真实目标的目标框的中心点纵坐标,kwi为真实目标的目标框的宽度,khi真实目标的目标框的高度,为结果目标框的中心点横坐标,为结果目标框的中心点纵坐标,为结果目标框的宽度,为结果目标框的高度,Lcls(ci,pci)为分类损失函数,ci为目标真实类别,pci为检测网络将真实目标判断为相应类别的概率,λobj为结果目标框的位置权重,λnoobj为背景框的位置权重;
与真实目标的目标框的交并比介于0.4与0.5之间的预测框不参与损失函数计算。
将背景框大小计入损失函数,目的是尽可能压缩背景框的大小,即使类别判断错误,仍可因尺寸过小而在检测结果中被滤除,从而降低虚警率。
在损失函数中,
其中,γ1∈(1,2),为目标框位置指数权重,γ2∈(-∞,2],为背景框位置指数权重,λw、λh>0为背景框尺寸缩放因子,αci∈(0,1)为目标真实类别ci权重,λc为种类指数权重。
在本实施例中,目标框位置指数权重γ1和背景框位置指数权重γ2均为1.5,背景框尺寸缩放因子λw、λh设为2,目标真实类别ci权重αci在重要种类或训练样本较少的种类时可适当选取较大的数,如0.75,对于非重要种类,可以适当选取较小的数,比如0.25;种类指数权重λc设为2。
实施例七:
本实施例提供一种目标检测方法,与实施例一不同的是,本实施例在实施例二的基础上对建立损失函数进行改进,也就是说,本实施例是对建立网络结构和建立损失函数进行改进:
对尺寸大于第二基准值S’的卷积层进行卷积操作,对尺寸小于第二基准值S’的卷积层进行反卷积操作,使各卷积层尺寸统一为第二基准值S’,再将尺寸统一为第二基准值S’后的各卷积层级联形成综合特征层,后对综合特征层进行卷积运算,以降低综合特征层的通道数。在本实施例中,第二基准值S’为素材图像的尺寸与素材图像中目标的尺寸的比值,当素材图像中目标具有多个时,第二基准值S’为素材图像的尺寸与素材图像中目标的期望尺寸的比值,在其他实施例中,第二基准值S’也可以人为设置,在此不做限定。
作为与实施例一的区分,本实施例中采用第二基准值S’来表示与实施例一中的第一基准值S物理含义相同的物理量。
在本实施例中,降低后的通道数可以为现有技术中锚点的数目乘以每个锚点周围单个锚框的数目,也可以人为设置,在此不做限定。
本实施例所提供的网络结构,通过对各个卷积层的级联,实现了对多种尺度的适应,提升了目标检测性能。
在本实施例中所建立的损失函数为:
损失函数用以计算输出结果与真实值的差别,其中,与真实目标的目标框的交并比大于0.5的预测框为结果目标框,N为结果目标框的数量,与真实目标的目标框的交并比小于0.4的预测框为背景框,M为背景框的数量;为目标框定位损失函数,i∈obj为在结果目标框内的点,i∈noobj为在背景框内的点,为背景框损失函数,kxi为真实目标的目标框的中心点横坐标,kyi为真实目标的目标框的中心点纵坐标,kwi为真实目标的目标框的宽度,khi真实目标的目标框的高度,为结果目标框的中心点横坐标,为结果目标框的中心点纵坐标,为结果目标框的宽度,为结果目标框的高度,Lc1s(ci,pci)为分类损失函数,ci为目标真实类别,pci为检测网络将真实目标判断为相应类别的概率,λobj为结果目标框的位置权重,λnoobj为背景框的位置权重;
与真实目标的目标框的交并比介于0.4与0.5之间的预测框不参与损失函数计算。
将背景框大小计入损失函数,目的是尽可能压缩背景框的大小,即使类别判断错误,仍可因尺寸过小而在检测结果中被滤除,从而降低虚警率。
在损失函数中,
其中,γ1∈(1,2),为目标框位置指数权重,γ2∈(-∞,2],为背景框位置指数权重,λw、λh>0为背景框尺寸缩放因子,αci∈(0,1)为目标真实类别ci权重,λc为种类指数权重。
在本实施例中,目标框位置指数权重γ1和背景框位置指数权重γ2均为1.5,背景框尺寸缩放因子λw、λh设为2,目标真实类别ci权重αci在重要种类或训练样本较少的种类时可适当选取较大的数,如0.75,对于非重要种类,可以适当选取较小的数,比如0.25;种类指数权重λc设为2。
实施例八:
本实施例提供一种目标检测网络,包括:网络结构、特征图以及损失函数,用以对素材图像以及待检测图像进行识别。
网络结构包括若干卷积层,对尺寸大于第一基准值S的卷积层进行卷积操作,对尺寸小于第一基准值S的卷积层进行反卷积操作,使各卷积层尺寸统一为第一基准值S,再将尺寸统一为第一基准值S后的各卷积层级联形成综合特征层,后对综合特征层进行卷积运算,以降低综合特征层的通道数。在本实施例中,第一基准值S为素材图像的尺寸与素材图像中目标的尺寸的比值,当素材图像中目标具有多个时,第一基准值S为素材图像的尺寸与素材图像中目标的期望尺寸的比值,在其他实施例中,第一基准值S也可以人为设置,在此不做限定。本实施例所提供的网络结构,通过对各个卷积层的级联,实现了对多种尺度的适应,提升了目标检测性能。
对每个卷积层进行卷积运算后输出的张量的二维层为特征层,特征层中包括素材图像中目标的位置信息,特征层设置若干网格。由于第一基准值S为素材图像的尺寸与素材图像中目标的尺寸的比值,当素材图像中目标具有多个时,第一基准值S为素材图像的尺寸与素材图像中目标的期望尺寸的比值,因此,设置网格的数量为第一基准值S的平方。特征层中的每一个网格即为一个元素,而每个元素则对应素材图像中G×G大小的影响域,影响域的尺寸G为素材图像的尺寸与第一基准值S的比值。
网格内设置若干个锚点,锚点的个数由人为设置。与现有技术所采用的单个锚点相比,设置多个锚点有助于提取目标检测精度,减少定位误差。
以每个锚点为中心,周围设有若干锚框,所述锚框为根据特征层中的位置信息所形成的目标框提供参照,每个锚点周围的锚框的个数为素材图像上目标的尺寸聚类后的尺寸的数量,锚框的尺寸为素材图像上目标的尺寸聚类后的尺寸的数值。举例而言,素材图像上目标的尺寸经过聚类后有四种,那么,每个锚点周围的锚框的数量即为4,每个锚框的尺寸则分别为聚类后的4种尺寸的数值。若初始设置为每个网格内具有9锚点,则特征层中的一个元素对应B=4*9个锚框,特征层中的全部元素共对应S2B=S2·4*9个锚框。选择合适的锚框可以加快目标检测网络的训练速度,锚框大小越接近真实目标大小,目标检测网络越容易收敛。
在前面的论述中,已经对网络结构中的卷积层进行了尺寸统一、级联形成综合特征层,并对综合特征层进行卷积运算,以降低综合特征层的通道数。在本实施例中,降低后的通道数为B×(4+C),其中,B为锚点的数目乘以每个锚点周围的锚框的数目,C为特征层中目标类别的数量。
所述目标检测网络预测特征层中素材图像中的目标的位置信息时,锚框与预测框的关系为:
式中,tanh()为双曲正切函数,其中,bx表示预测框的绝对中心点横坐标,by表示预测框的绝对中心点纵坐标,bw表示预测框宽度,bh表示预测框高度,tx表示预测框对于锚框在中心点横坐标上的偏移,ty表示预测框对于锚框在中心点纵坐标上的偏移,tw表示预测框对于锚框在宽度上的偏移,th表示预测框对于锚框在高度上的偏移,xi表示锚点i的绝对横坐标,yi表示锚点i的绝对纵坐标,wj表示锚点i所对应的锚框j的宽度,hj表示锚点i所对应的锚框j的高度,G为素材图像中影响域的尺寸。利用偏移量来表示预测框的位置,而不直接采用预测框的绝对位置表示预测框的位置,一方面因为偏移值的数值可正可负,均值接近0,网络结构更容易收敛;另一方面是因为偏移值更能反映出尺寸变动对小目标影响更大的特点。
在本实施例中所建立的损失函数为:
损失函数用以计算输出结果与真实值的差别,其中,与真实目标的目标框的交并比大于0.5的预测框为结果目标框,N为结果目标框的数量,与真实目标的目标框的交并比小于0.4的预测框为背景框,M为背景框的数量;为目标框定位损失函数,i∈obj为在结果目标框内的点,i∈noobj为在背景框内的点,为背景框损失函数,kxi为真实目标的目标框的中心点横坐标,kyi为真实目标的目标框的中心点纵坐标,kwi为真实目标的目标框的宽度,khi真实目标的目标框的高度,为结果目标框的中心点横坐标,为结果目标框的中心点纵坐标,为结果目标框的宽度,为结果目标框的高度,Lcls(ci,pci)为分类损失函数,ci为目标真实类别,pci为检测网络将真实目标判断为相应类别的概率,λobj为结果目标框的位置权重,λnoobj为背景框的位置权重;
与真实目标的目标框的交并比介于0.4与0.5之间的预测框不参与损失函数计算。
将背景框大小计入损失函数,目的是尽可能压缩背景框的大小,即使类别判断错误,仍可因尺寸过小而在检测结果中被滤除,从而降低虚警率。
在损失函数中,
其中,γ1∈(1,2),为目标框位置指数权重,γ2∈(-∞,2],为背景框位置指数权重,λw、λh>0为背景框尺寸缩放因子,αci∈(0,1)为目标真实类别ci权重,λc为种类指数权重。
在本实施例中,目标框位置指数权重γ1和背景框位置指数权重γ2均为1.5,背景框尺寸缩放因子λw、λh设为2,目标真实类别ci权重αci在重要种类或训练样本较少的种类时可适当选取较大的数,如0.75,对于非重要种类,可以适当选取较小的数,比如0.25;种类指数权重λc设为2。
本实施例所提供的目标检测网络与实施例一所提供的目标检测方法的有益效果推理过程相似,在此不再赘述。
实施例九
本实施例提供一种目标检测网络,与实施例八不同的是,本实施例仅对网络结构进行改进:
网络结构包括若干卷积层,对尺寸大于第二基准值S’的卷积层进行卷积操作,对尺寸小于第二基准值S’的卷积层进行反卷积操作,使各卷积层尺寸统一为第二基准值S’,再将尺寸统一为第二基准值S’后的各卷积层级联形成综合特征层,后对综合特征层进行卷积运算,以降低综合特征层的通道数。在本实施例中,第二基准值S’为素材图像的尺寸与素材图像中目标的尺寸的比值,当素材图像中目标具有多个时,第二基准值S’为素材图像的尺寸与素材图像中目标的期望尺寸的比值,在其他实施例中,第二基准值S’也可以人为设置,在此不做限定。
作为与实施例八的区分,本实施例中采用第二基准值S’来表示与实施例八中的第一基准值S物理含义相同的物理量。
在本实施例中,降低后的通道数可以为现有技术中锚点的数目乘以每个锚点周围单个锚框的数目,也可以人为设置,在此不做限定。
实施例十:
本实施例提供一种目标检测网络,与实施例八不同的是,本实施例仅对特征图进行改进:
网络结构包括若干卷积层,对每个卷积层进行卷积运算后输出的张量的二维层为特征层,特征层中包括素材图像中目标的位置信息,特征层设置若干网格。由于第一基准值S为素材图像的尺寸与素材图像中目标的尺寸的比值,当素材图像中目标具有多个时,第一基准值S为素材图像的尺寸与素材图像中目标的期望尺寸的比值,因此,设置网格的数量为第一基准值S的平方。特征层中的每一个网格即为一个元素,而每个元素则对应素材图像中G×G大小的影响域,影响域的尺寸G为素材图像的尺寸与第一基准值S的比值。
网格内设置若干个锚点,锚点的个数由人为设置。与现有技术所采用的单个锚点相比,设置多个锚点有助于提取目标检测精度,减少定位误差。
以每个锚点为中心,周围设有若干锚框,所述锚框为根据特征层中的位置信息所形成的目标框提供参照,每个锚点周围的锚框的个数为素材图像上目标的尺寸聚类后的尺寸的数量,锚框的尺寸为素材图像上目标的尺寸聚类后的尺寸的数值。举例而言,素材图像上目标的尺寸经过聚类后有四种,那么,每个锚点周围的锚框的数量即为4,每个锚框的尺寸则分别为聚类后的4种尺寸的数值。若初始设置为每个网格内具有9锚点,则特征层中的一个元素对应B=4*9个锚框,特征层中的全部元素共对应S2B=S2·4*9个锚框。选择合适的锚框可以加快目标检测网络的训练速度,锚框大小越接近真实目标大小,目标检测网络越容易收敛。
所述目标检测网络预测特征层中素材图像中的目标的位置信息时,锚框与预测框的关系为:
式中,tanh()为双曲正切函数,其中,bx表示预测框的绝对中心点横坐标,by表示预测框的绝对中心点纵坐标,bw表示预测框宽度,bh表示预测框高度,tx表示预测框对于锚框在中心点横坐标上的偏移,ty表示预测框对于锚框在中心点纵坐标上的偏移,tw表示预测框对于锚框在宽度上的偏移,th表示预测框对于锚框在高度上的偏移,xi表示锚点i的绝对横坐标,yi表示锚点i的绝对纵坐标,wj表示锚点i所对应的锚框j的宽度,hj表示锚点i所对应的锚框j的高度,G为素材图像中影响域的尺寸。利用偏移量来表示预测框的位置,而不直接采用预测框的绝对位置表示预测框的位置,一方面因为偏移值的数值可正可负,均值接近0,网络结构更容易收敛;另一方面是因为偏移值更能反映出尺寸变动对小目标影响更大的特点。
实施例十一:
本实施例提供一种目标检测网络,与实施例八不同的是,本实施例仅对损失函数进行改进:
在本实施例中的损失函数为:
损失函数用以计算输出结果与真实值的差别,其中,与真实目标的目标框的交并比大于0.5的预测框为结果目标框,N为结果目标框的数量,与真实目标的目标框的交并比小于0.4的预测框为背景框,M为背景框的数量;为目标框定位损失函数,i∈obj为在结果目标框内的点,i∈noobj为在背景框内的点,为背景框损失函数,kxi为真实目标的目标框的中心点横坐标,kyi为真实目标的目标框的中心点纵坐标,kwi为真实目标的目标框的宽度,khi真实目标的目标框的高度,为结果目标框的中心点横坐标,为结果目标框的中心点纵坐标,为结果目标框的宽度,为结果目标框的高度,Lcls(ci,pci)为分类损失函数,ci为目标真实类别,pci为检测网络将真实目标判断为相应类别的概率,λobj为结果目标框的位置权重,λnoobj为背景框的位置权重;
与真实目标的目标框的交并比介于0.4与0.5之间的预测框不参与损失函数计算。
将背景框大小计入损失函数,目的是尽可能压缩背景框的大小,即使类别判断错误,仍可因尺寸过小而在检测结果中被滤除,从而降低虚警率。
在损失函数中,
其中,γ1∈(1,2),为目标框位置指数权重,γ2∈(-∞,2],为背景框位置指数权重,λw、λh>0为背景框尺寸缩放因子,αci∈(0,1)为目标真实类别ci权重,λc为种类指数权重。
在本实施例中,目标框位置指数权重γ1和背景框位置指数权重γ2均为1.5,背景框尺寸缩放因子λw、λh设为2,目标真实类别ci权重αci在重要种类或训练样本较少的种类时可适当选取较大的数,如0.75,对于非重要种类,可以适当选取较小的数,比如0.25;种类指数权重λc设为2。
实施例十二:
本实施例提供一种目标检测网络,与实施例八不同的是,本实施例对网络结构和特征图进行改进:
网络结构包括若干卷积层,对尺寸大于第一基准值S的卷积层进行卷积操作,对尺寸小于第一基准值S的卷积层进行反卷积操作,使各卷积层尺寸统一为第一基准值S,再将尺寸统一为第一基准值S后的各卷积层级联形成综合特征层,后对综合特征层进行卷积运算,以降低综合特征层的通道数。在本实施例中,第一基准值S为素材图像的尺寸与素材图像中目标的尺寸的比值,当素材图像中目标具有多个时,第一基准值S为素材图像的尺寸与素材图像中目标的期望尺寸的比值,在其他实施例中,第一基准值S也可以人为设置,在此不做限定。本实施例所提供的网络结构,通过对各个卷积层的级联,实现了对多种尺度的适应,提升了目标检测性能。
对每个卷积层进行卷积运算后输出的张量的二维层为特征层,特征层中包括素材图像中目标的位置信息,特征层设置若干网格。由于第一基准值S为素材图像的尺寸与素材图像中目标的尺寸的比值,当素材图像中目标具有多个时,第一基准值S为素材图像的尺寸与素材图像中目标的期望尺寸的比值,因此,设置网格的数量为第一基准值S的平方。特征层中的每一个网格即为一个元素,而每个元素则对应素材图像中G×G大小的影响域,影响域的尺寸G为素材图像的尺寸与第一基准值S的比值。
网格内设置若干个锚点,锚点的个数由人为设置。与现有技术所采用的单个锚点相比,设置多个锚点有助于提取目标检测精度,减少定位误差。
以每个锚点为中心,周围设有若干锚框,所述锚框为根据特征层中的位置信息所形成的目标框提供参照,每个锚点周围的锚框的个数为素材图像上目标的尺寸聚类后的尺寸的数量,锚框的尺寸为素材图像上目标的尺寸聚类后的尺寸的数值。举例而言,素材图像上目标的尺寸经过聚类后有四种,那么,每个锚点周围的锚框的数量即为4,每个锚框的尺寸则分别为聚类后的4种尺寸的数值。若初始设置为每个网格内具有9锚点,则特征层中的一个元素对应B=4*9个锚框,特征层中的全部元素共对应S2B=S2·4*9个锚框。选择合适的锚框可以加快目标检测网络的训练速度,锚框大小越接近真实目标大小,目标检测网络越容易收敛。
在前面的论述中,已经对网络结构中的卷积层进行了尺寸统一、级联形成综合特征层,并对综合特征层进行卷积运算,以降低综合特征层的通道数。在本实施例中,降低后的通道数为B×(4+C),其中,B为锚点的数目乘以每个锚点周围的锚框的数目,C为特征层中目标类别的数量。
所述目标检测网络预测特征层中素材图像中的目标的位置信息时,锚框与预测框的关系为:
式中,tanh()为双曲正切函数,其中,bx表示预测框的绝对中心点横坐标,by表示预测框的绝对中心点纵坐标,bw表示预测框宽度,bh表示预测框高度,tx表示预测框对于锚框在中心点横坐标上的偏移,ty表示预测框对于锚框在中心点纵坐标上的偏移,tw表示预测框对于锚框在宽度上的偏移,th表示预测框对于锚框在高度上的偏移,xi表示锚点i的绝对横坐标,yi表示锚点i的绝对纵坐标,wj表示锚点i所对应的锚框j的宽度,hj表示锚点i所对应的锚框j的高度,G为素材图像中影响域的尺寸。利用偏移量来表示预测框的位置,而不直接采用预测框的绝对位置表示预测框的位置,一方面因为偏移值的数值可正可负,均值接近0,网络结构更容易收敛;另一方面是因为偏移值更能反映出尺寸变动对小目标影响更大的特点。
实施例十三:
本实施例提供一种目标检测网络,与实施例八不同的是,本实施例对特征图和损失函数进行改进:
网络结构包括若干卷积层,对每个卷积层进行卷积运算后输出的张量的二维层为特征层,特征层中包括素材图像中目标的位置信息,特征层设置若干网格。由于第一基准值S为素材图像的尺寸与素材图像中目标的尺寸的比值,当素材图像中目标具有多个时,第一基准值S为素材图像的尺寸与素材图像中目标的期望尺寸的比值,因此,设置网格的数量为第一基准值S的平方。特征层中的每一个网格即为一个元素,而每个元素则对应素材图像中G×G大小的影响域,影响域的尺寸G为素材图像的尺寸与第一基准值S的比值。
网格内设置若干个锚点,锚点的个数由人为设置。与现有技术所采用的单个锚点相比,设置多个锚点有助于提取目标检测精度,减少定位误差。
以每个锚点为中心,周围设有若干锚框,所述锚框为根据特征层中的位置信息所形成的目标框提供参照,每个锚点周围的锚框的个数为素材图像上目标的尺寸聚类后的尺寸的数量,锚框的尺寸为素材图像上目标的尺寸聚类后的尺寸的数值。举例而言,素材图像上目标的尺寸经过聚类后有四种,那么,每个锚点周围的锚框的数量即为4,每个锚框的尺寸则分别为聚类后的4种尺寸的数值。若初始设置为每个网格内具有9锚点,则特征层中的一个元素对应B=4*9个锚框,特征层中的全部元素共对应S2B=S2·4*9个锚框。选择合适的锚框可以加快目标检测网络的训练速度,锚框大小越接近真实目标大小,目标检测网络越容易收敛。
所述目标检测网络预测特征层中素材图像中的目标的位置信息时,锚框与预测框的关系为:
式中,tanh()为双曲正切函数,其中,bx表示预测框的绝对中心点横坐标,by表示预测框的绝对中心点纵坐标,bw表示预测框宽度,bh表示预测框高度,tx表示预测框对于锚框在中心点横坐标上的偏移,ty表示预测框对于锚框在中心点纵坐标上的偏移,tw表示预测框对于锚框在宽度上的偏移,th表示预测框对于锚框在高度上的偏移,xi表示锚点i的绝对横坐标,yi表示锚点i的绝对纵坐标,wj表示锚点i所对应的锚框j的宽度,hj表示锚点i所对应的锚框j的高度,G为素材图像中影响域的尺寸。利用偏移量来表示预测框的位置,而不直接采用预测框的绝对位置表示预测框的位置,一方面因为偏移值的数值可正可负,均值接近0,网络结构更容易收敛;另一方面是因为偏移值更能反映出尺寸变动对小目标影响更大的特点。
在本实施例中所建立的损失函数为:
损失函数用以计算输出结果与真实值的差别,其中,与真实目标的目标框的交并比大于0.5的预测框为结果目标框,N为结果目标框的数量,与真实目标的目标框的交并比小于0.4的预测框为背景框,M为背景框的数量;为目标框定位损失函数,i∈obj为在结果目标框内的点,i∈noobj为在背景框内的点,为背景框损失函数,kxi为真实目标的目标框的中心点横坐标,kyi为真实目标的目标框的中心点纵坐标,kwi为真实目标的目标框的宽度,khi真实目标的目标框的高度,为结果目标框的中心点横坐标,为结果目标框的中心点纵坐标,为结果目标框的宽度,为结果目标框的高度,Lcls(ci,pci)为分类损失函数,ci为目标真实类别,pci为检测网络将真实目标判断为相应类别的概率,λobj为结果目标框的位置权重,λnoobj为背景框的位置权重;
与真实目标的目标框的交并比介于0.4与0.5之间的预测框不参与损失函数计算。
将背景框大小计入损失函数,目的是尽可能压缩背景框的大小,即使类别判断错误,仍可因尺寸过小而在检测结果中被滤除,从而降低虚警率。
在损失函数中,
其中,γ1∈(1,2),为目标框位置指数权重,γ2∈(-∞,2],为背景框位置指数权重,λw、λh>0为背景框尺寸缩放因子,αci∈(0,1)为目标真实类别ci权重,λc为种类指数权重。
在本实施例中,目标框位置指数权重γ1和背景框位置指数权重γ2均为1.5,背景框尺寸缩放因子λw、λh设为2,目标真实类别ci权重αci在重要种类或训练样本较少的种类时可适当选取较大的数,如0.75,对于非重要种类,可以适当选取较小的数,比如0.25;种类指数权重λc设为2。
实施例十四:
本实施例提供一种目标检测网络,与实施例八不同的是,本实施例在实施例九的基础上对损失函数进行改进,也就是说,本实施例是对网络结构和损失函数进行改进:
网络结构包括若干卷积层,对尺寸大于第二基准值S’的卷积层进行卷积操作,对尺寸小于第二基准值S’的卷积层进行反卷积操作,使各卷积层尺寸统一为第二基准值S’,再将尺寸统一为第二基准值S’后的各卷积层级联形成综合特征层,后对综合特征层进行卷积运算,以降低综合特征层的通道数。在本实施例中,第二基准值S’为素材图像的尺寸与素材图像中目标的尺寸的比值,当素材图像中目标具有多个时,第二基准值S’为素材图像的尺寸与素材图像中目标的期望尺寸的比值,在其他实施例中,第二基准值S’也可以人为设置,在此不做限定。
作为与实施例八的区分,本实施例中采用第二基准值S’来表示与实施例八中的第一基准值S物理含义相同的物理量。
在本实施例中,降低后的通道数可以为现有技术中锚点的数目乘以每个锚点周围单个锚框的数目,也可以人为设置,在此不做限定。
在本实施例中的损失函数为:
损失函数用以计算输出结果与真实值的差别,其中,与真实目标的目标框的交并比大于0.5的预测框为结果目标框,N为结果目标框的数量,与真实目标的目标框的交并比小于0.4的预测框为背景框,M为背景框的数量;为目标框定位损失函数,i∈obj为在结果目标框内的点,i∈noobj为在背景框内的点,为背景框损失函数,kxi为真实目标的目标框的中心点横坐标,kyi为真实目标的目标框的中心点纵坐标,kwi为真实目标的目标框的宽度,khi真实目标的目标框的高度,为结果目标框的中心点横坐标,为结果目标框的中心点纵坐标,为结果目标框的宽度,为结果目标框的高度,Lcls(ci,pci)为分类损失函数,ci为目标真实类别,pci为检测网络将真实目标判断为相应类别的概率,λobj为结果目标框的位置权重,λnoobj为背景框的位置权重;
与真实目标的目标框的交并比介于0.4与0.5之间的预测框不参与损失函数计算。
将背景框大小计入损失函数,目的是尽可能压缩背景框的大小,即使类别判断错误,仍可因尺寸过小而在检测结果中被滤除,从而降低虚警率。
在损失函数中,
其中,γ1∈(1,2),为目标框位置指数权重,γ2∈(-∞,2],为背景框位置指数权重,λw、λh>0为背景框尺寸缩放因子,αci∈(0,1)为目标真实类别ci权重,λc为种类指数权重。
在本实施例中,目标框位置指数权重γ1和背景框位置指数权重γ2均为1.5,背景框尺寸缩放因子λw、λh设为2,目标真实类别ci权重αci在重要种类或训练样本较少的种类时可适当选取较大的数,如0.75,对于非重要种类,可以适当选取较小的数,比如0.25;种类指数权重λc设为2。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,熟悉该本领域的技术人员应该明白本发明包括但不限于附图和上面具体实施方式中描述的内容。任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。
Claims (14)
1.一种目标检测方法,其特征在于,所述方法包括如下步骤:
准备目标检测训练集,所述目标检测训练集中包括若干素材图像;
建立目标检测网络,包括:建立网络结构,设计特征图以及建立损失函数;
利用所述训练素材图像作为素材,训练目标检测网络;
利用训练好的目标检测网络进行目标检测。
2.根据权利要求1所述的目标检测方法,其特征在于:所述网络结构包括若干卷积层,对每个卷积层进行卷积运算后输出的张量的二维层为特征层,特征层中包括素材图像中目标的位置信息,设计特征图包括:所述特征层设置若干网格,所述网格内设置若干个锚点,以每个锚点为中心,周围设置若干锚框,所述锚框为根据特征层中的位置信息所形成的目标框提供参照,所述锚框的个数为素材图像上目标的尺寸聚类后的尺寸的数量,所述锚框的尺寸为素材图像上目标的尺寸聚类后的尺寸的数值。
3.根据权利要求2所述的目标检测方法,其特征在于:所述网格的数量为第一基准值的平方,所述第一基准值为素材图像的尺寸与素材图像中目标的尺寸的比值,当目标具有多个时,所述第一基准值为素材图像的尺寸与素材图像中目标的期望尺寸的比值。
4.根据权利要求3所述的目标检测方法,其特征在于:所述目标检测网络预测特征层中素材图像中的目标的位置信息时,形成预测框,所述锚框与所述预测框的关系为:
其中,bx表示预测框的绝对中心点横坐标,by表示预测框的绝对中心点纵坐标,bw表示预测框宽度,bh表示预测框高度,tx表示预测框对于锚框在中心点横坐标上的偏移,ty表示预测框对于锚框在中心点纵坐标上的偏移,tw表示预测框对于锚框在宽度上的偏移,th表示预测框对于锚框在高度上的偏移,xi表示锚点i的绝对横坐标,yi表示锚点i的绝对纵坐标,wj表示锚点i所对应的锚框j的宽度,hj表示锚点i所对应的锚框j的高度,G为素材图像中影响域的尺寸,所述影响域的尺寸为素材图像的尺寸与第一基准值的比值。
5.根据权利要求1所述的目标检测方法,其特征在于:所述网络结构包括若干卷积层,所述建立网络结构包括:对尺寸大于第二基准值的卷积层进行卷积操作,对尺寸小于第二基准值的卷积层进行反卷积操作,使各卷积层尺寸统一为基准第二基准值,将统一尺寸后的各卷积层级联形成综合特征层,对综合特征层进行卷积运算,降低综合特征层的通道数,所述第二基准值为素材图像的尺寸与素材图像中目标的尺寸的比值,当目标具有多个时,所述第二基准值为素材图像的尺寸与素材图像中目标的期望尺寸的比值。
6.根据权利要求3所述的目标检测方法,其特征在于:所述网络结构包括若干卷积层,所述建立网络结构包括:对尺寸大于第一基准值的卷积层进行卷积操作,对尺寸小于第一基准值的卷积层进行反卷积操作,使各卷积层尺寸统一为基准第一基准值,将统一尺寸后的各卷积层级联形成综合特征层,对综合特征层进行卷积运算,降低综合特征层的通道数,降低后的通道数为B×(4+C),其中,B为锚点的数目乘以每个锚点周围的锚框的数目,C为特征层中目标类别的数量。
7.根据权利要求1所述的目标检测方法,其特征在于:所述网络结构包括若干卷积层,对每个卷积层进行卷积运算后输出的张量的二维层为特征层,特征层中包括素材图像中目标的位置信息,所述目标检测网络预测特征层中素材图像中的目标的位置信息时,形成预测框,所述建立损失函数中,所述损失函数为:
所述损失函数用以计算输出结果与真实值的差别,其中,与真实目标的目标框的交并比大于0.5的预测框为结果目标框,N为结果目标框的数量,与真实目标的目标框的交并比小于0.4的预测框为背景框,M为背景框的数量;为目标框定位损失函数,i∈obj为在结果目标框内的点,i∈noobj为在背景框内的点,为背景框损失函数,kxi为真实目标的目标框的中心点横坐标,kyi为真实目标的目标框的中心点纵坐标,kwi为真实目标的目标框的宽度,khi真实目标的目标框的高度,为结果目标框的中心点横坐标,为结果目标框的中心点纵坐标,为结果目标框的宽度,为结果目标框的高度,Lcls(ci,pci)为分类损失函数,ci为目标真实类别,pci为检测网络将真实目标判断为相应类别的概率,λobj为结果目标框的位置权重,λnoobj为背景框的位置权重;
与真实目标的目标框的交并比介于0.4与0.5之间的预测框不参与损失函数计算,
所述损失函数中,
其中,γ1∈(1,2),为目标框位置指数权重,γ2∈(-∞,2],为背景框位置指数权重,λw、λh>0为背景框尺寸缩放因子,αci∈(0,1)为目标真实类别ci权重,λc为种类指数权重。
8.一种目标检测网络,其特征在于,所述目标检测网络包括:网络结构、特征图以及损失函数,用以对素材图像以及待检测图像进行识别。
9.根据权利要求8所述的目标检测网络,其特征在于:所述网络结构包括若干卷积层,对每个卷积层进行卷积运算后输出的张量的二维层为特征层,特征层中包括素材图像中目标的位置信息,所述特征层设有若干网格,所述网格内具有若干个锚点,以每个锚点为中心,周围设有若干锚框,所述锚框为根据特征层中的位置信息所形成的目标框提供参照,所述锚框的个数为素材图像上目标的尺寸聚类后的尺寸的数量,所述锚框的尺寸为素材图像上目标的尺寸聚类后的尺寸的数值。
10.根据权利要求9所述的目标检测网络,其特征在于:所述网格的数量为第一基准值的平方,所述第一基准值为素材图像的尺寸与素材图像中目标的尺寸的比值,当目标具有多个时,所述第一基准值为素材图像的尺寸与素材图像中目标的期望尺寸的比值。
11.根据权利要求10所述的目标检测网络,其特征在于:所述目标检测网络预测特征层中素材图像中的目标的位置信息时,所述锚框与所述预测框的关系为:
其中,bx表示预测框的绝对中心点横坐标,by表示预测框的绝对中心点纵坐标,bw表示预测框宽度,bh表示预测框高度,tx表示预测框对于锚框在中心点横坐标上的偏移,ty表示预测框对于锚框在中心点纵坐标上的偏移,tw表示预测框对于锚框在宽度上的偏移,th表示预测框对于锚框在高度上的偏移,xi表示锚点i的绝对横坐标,yi表示锚点i的绝对纵坐标,wj表示锚点i所对应的锚框j的宽度,hj表示锚点i所对应的锚框j的高度,G为素材图像中影响域的尺寸,所述影响域的尺寸为素材图像的尺寸与第一基准值的比值。
12.根据权利要求8所述的目标检测网络,其特征在于:所述网络结构包括若干卷积层,对尺寸大于第二基准值的卷积层进行卷积操作,对尺寸小于第二基准值的卷积层进行反卷积操作,使各卷积层尺寸统一为第二基准值,将统一尺寸后的各卷积层级联形成综合特征层,对综合特征层进行卷积运算,降低综合特征层的通道数,所述第二基准值为素材图像的尺寸与素材图像中目标的尺寸的比值,当目标具有多个时,所述第二基准值为素材图像的尺寸与素材图像中目标的期望尺寸的比值。
13.根据权利要求10所述的目标检测网络,其特征在于:所述网络结构包括若干卷积层,对尺寸大于第一基准值的卷积层进行卷积操作,对尺寸小于第一基准值的卷积层进行反卷积操作,使各卷积层尺寸统一为第一基准值,将统一尺寸后的各卷积层级联形成综合特征层,对综合特征层进行卷积运算,降低综合特征层的通道数,降低后的通道数为B×(4+C),其中,B为锚点的数目乘以每个锚点周围的锚框的数目,C为特征层中目标类别的数量。
14.根据权利要求8所述的目标检测网络,其特征在于:所述网络结构包括若干卷积层,对每个卷积层进行卷积运算后输出的张量的二维层为特征层,特征层中包括素材图像中目标的位置信息,所述目标检测网络预测特征层中素材图像中的目标的位置信息时,形成预测框,所述损失函数用以计算输出结果与真实值差别,所述损失函数为:
其中,与真实目标的目标框的交并比大于0.5的预测框为结果目标框,N为结果目标框的数量,与真实目标的目标框的交并比小于0.4的预测框为背景框,M为背景框的数量;为目标框定位损失函数,i∈obj为在结果目标框内的点,i∈noobj为在背景框内的点,为背景框损失函数,kxi为真实目标的目标框的中心点横坐标,kyi为真实目标的目标框的中心点纵坐标,kwi为真实目标的目标框的宽度,khi真实目标的目标框的高度,为结果目标框的中心点横坐标,为结果目标框的中心点纵坐标,为结果目标框的宽度,为结果目标框的高度,Lcls(ci,pci)为分类损失函数,ci为目标真实类别,pci为检测网络将真实目标判断为相应类别的概率,λobj为结果目标框的位置权重,λnoobj为背景框的位置权重;
与真实目标的目标框的交并比介于0.4与0.5之间的预测框不参与损失函数计算,
所述损失函数中,
其中,γ1∈(1,2),为目标框位置指数权重,γ2∈(-∞,2],为背景框位置指数权重,λw、λh>0为背景框尺寸缩放因子,αci∈(0,1)为目标真实类别ci权重,λc为种类指数权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910702231.XA CN110428002A (zh) | 2019-07-31 | 2019-07-31 | 一种目标检测方法及目标检测网络 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910702231.XA CN110428002A (zh) | 2019-07-31 | 2019-07-31 | 一种目标检测方法及目标检测网络 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110428002A true CN110428002A (zh) | 2019-11-08 |
Family
ID=68411863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910702231.XA Pending CN110428002A (zh) | 2019-07-31 | 2019-07-31 | 一种目标检测方法及目标检测网络 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110428002A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111653103A (zh) * | 2020-05-07 | 2020-09-11 | 浙江大华技术股份有限公司 | 一种目标对象的识别方法及装置 |
CN111818449A (zh) * | 2020-06-15 | 2020-10-23 | 华南师范大学 | 一种基于改进的人工神经网络的可见光室内定位方法 |
CN112163541A (zh) * | 2020-10-09 | 2021-01-01 | 上海云绅智能科技有限公司 | 一种3d目标检测方法、装置、电子设备和存储介质 |
CN114359742A (zh) * | 2022-03-21 | 2022-04-15 | 济南大学 | 一种优化小目标检测的加权损失函数计算方法 |
CN114694021A (zh) * | 2022-03-11 | 2022-07-01 | 北京市遥感信息研究所 | 面向大尺寸遥感影像的物体检测识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109583512A (zh) * | 2018-12-14 | 2019-04-05 | 北京旷视科技有限公司 | 图像处理方法、装置及系统 |
CN109815886A (zh) * | 2019-01-21 | 2019-05-28 | 南京邮电大学 | 一种基于改进YOLOv3的行人和车辆检测方法及系统 |
-
2019
- 2019-07-31 CN CN201910702231.XA patent/CN110428002A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109583512A (zh) * | 2018-12-14 | 2019-04-05 | 北京旷视科技有限公司 | 图像处理方法、装置及系统 |
CN109815886A (zh) * | 2019-01-21 | 2019-05-28 | 南京邮电大学 | 一种基于改进YOLOv3的行人和车辆检测方法及系统 |
Non-Patent Citations (2)
Title |
---|
JOSEPH REDMON等: "YOLO9000:Better, Faster, Stronger", 《ARXIV:1612.08242V1》 * |
JOSEPH REDMON等: "YOLOv3: An Incremental Improvement", 《ARXIV:1804.02767V1》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111653103A (zh) * | 2020-05-07 | 2020-09-11 | 浙江大华技术股份有限公司 | 一种目标对象的识别方法及装置 |
CN111818449A (zh) * | 2020-06-15 | 2020-10-23 | 华南师范大学 | 一种基于改进的人工神经网络的可见光室内定位方法 |
CN111818449B (zh) * | 2020-06-15 | 2022-04-15 | 华南师范大学 | 一种基于改进的人工神经网络的可见光室内定位方法 |
CN112163541A (zh) * | 2020-10-09 | 2021-01-01 | 上海云绅智能科技有限公司 | 一种3d目标检测方法、装置、电子设备和存储介质 |
CN114694021A (zh) * | 2022-03-11 | 2022-07-01 | 北京市遥感信息研究所 | 面向大尺寸遥感影像的物体检测识别方法 |
CN114694021B (zh) * | 2022-03-11 | 2024-06-21 | 北京市遥感信息研究所 | 面向大尺寸遥感影像的物体检测识别方法 |
CN114359742A (zh) * | 2022-03-21 | 2022-04-15 | 济南大学 | 一种优化小目标检测的加权损失函数计算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110428002A (zh) | 一种目标检测方法及目标检测网络 | |
CN107145908B (zh) | 一种基于r-fcn的小目标检测方法 | |
CN106874956B (zh) | 图像分类卷积神经网络结构的构建方法 | |
CN106778604B (zh) | 基于匹配卷积神经网络的行人再识别方法 | |
CN110188720A (zh) | 一种基于卷积神经网络的目标检测方法及系统 | |
CN105488528B (zh) | 基于改进自适应遗传算法的神经网络图像分类方法 | |
CN110210621A (zh) | 一种基于残差网络改进的目标检测方法 | |
CN108717568A (zh) | 一种基于三维卷积神经网络的图像特征提取与训练方法 | |
CN109711474A (zh) | 一种基于深度学习的铝材表面缺陷检测算法 | |
CN108961675A (zh) | 基于卷积神经网络的跌倒检测方法 | |
CN109829893A (zh) | 一种基于注意力机制的缺陷目标检测方法 | |
CN110660052A (zh) | 一种基于深度学习的热轧带钢表面缺陷检测方法 | |
CN106683091A (zh) | 一种基于深度卷积神经网络的目标分类及姿态检测方法 | |
CN110991435A (zh) | 一种基于深度学习的快递运单关键信息定位方法和装置 | |
CN104504389B (zh) | 一种基于卷积神经网络的卫星云量计算方法 | |
CN109635511A (zh) | 一种基于条件生成对抗网络的高层居住区强排方案生成设计方法 | |
CN110223323A (zh) | 基于深度特征自适应相关滤波的目标跟踪方法 | |
CN107292319A (zh) | 一种基于可变形卷积层的特征图像提取的方法及装置 | |
CN107665498A (zh) | 基于典型示例挖掘的全卷积网络飞机检测方法 | |
CN110097178A (zh) | 一种基于熵注意的神经网络模型压缩与加速方法 | |
CN109902715A (zh) | 一种基于上下文聚合网络的红外弱小目标检测方法 | |
CN107316066A (zh) | 基于多通路卷积神经网络的图像分类方法及系统 | |
CN110163836A (zh) | 基于深度学习用于高空巡检下的挖掘机检测方法 | |
CN108304820A (zh) | 一种人脸检测方法、装置及终端设备 | |
CN109711401A (zh) | 一种基于Faster Rcnn的自然场景图像中的文本检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191108 |