CN110852314B - 一种基于相机投影模型的物品检测网络方法 - Google Patents

一种基于相机投影模型的物品检测网络方法 Download PDF

Info

Publication number
CN110852314B
CN110852314B CN202010045445.7A CN202010045445A CN110852314B CN 110852314 B CN110852314 B CN 110852314B CN 202010045445 A CN202010045445 A CN 202010045445A CN 110852314 B CN110852314 B CN 110852314B
Authority
CN
China
Prior art keywords
network
image
anchor frame
output
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010045445.7A
Other languages
English (en)
Other versions
CN110852314A (zh
Inventor
肖刚
王逸飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Gosun Guard Security Service Technology Co ltd
Original Assignee
Jiangxi Gosun Guard Security Service Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Gosun Guard Security Service Technology Co ltd filed Critical Jiangxi Gosun Guard Security Service Technology Co ltd
Priority to CN202010045445.7A priority Critical patent/CN110852314B/zh
Publication of CN110852314A publication Critical patent/CN110852314A/zh
Application granted granted Critical
Publication of CN110852314B publication Critical patent/CN110852314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于相机投影模型的物品检测网络方法,包括:输入图像,设计并计算输入图像的锚框:主干网络:将图像输入到主干网络,经过多个特征层后输出;设计Razor模块;先对Ground truth进行编码,再进行预测;负样本筛选;训练遴选样本,设计损失函数,进行训练,得到训练模型;模型的运用;当训练完毕,用得到的函数参数,进行模型推导,对得到的每一个锚框的估计,得到该锚框下存在目标的概率
Figure 148857DEST_PATH_IMAGE001
,并反推求出在实际图像中的真实位置。本发明提出的物品检测网络方法,在大幅减少运算量的同时,使网络仍然保留了准确检测的性能。在自动驾驶和监控这两个非常依赖相机投影模型的行业中,都已证明了其高效的特点,取得了非常好的效果。

Description

一种基于相机投影模型的物品检测网络方法
技术领域
本发明涉及网络物品检测领域,更具体地,涉及一种基于相机投影模型的物品检测网络方法及系统。
背景技术
卷积神经网络(CNN),作为图像识别与检测非常流行的载体,已经获得了非常大的成功,基于这个技术,已经衍生出了非常多的应用网络,VGG,ResNet,DenseNet,Yolo 等OneStage 网络。但这些用于识别的端到端(End to End) 网络有非常多的实际问题:第一,这些网络需要极大的运算量,导致无法实际的落地。不能落地包括两个层面,一个是巨大的运算量导致更高的GPU的使用,从而提高了部署成本,第二个层面,是巨大的运算量使得计算难以达到实时,为了达成实时运算,往往需要部署更多的计算设备,在提高成本的同时,造成资源的浪费。第二,直接使用这些经典网络的简化网络模型,并不能够很好的达到网络的性能。第三,一些性能还不错的网络,并没有针对相机的投影模型进行网络设计,而是更偏向于基于图像本身的网络设计,这样的设计更通用,但并不高效。
发明内容
为了克服现有技术的不足,本发明提出一种基于相机投影模型的物品检测网络方法,使用该物品检测网络,能够在减少运算量的同时,保留网络的准确检测性,提高网络在实际应用中的并发数和帧数,进而减少了在硬件设备上的开销。
为了实现上述目的,本发明的技术方案为:
一种基于相机投影模型的物品检测网络方法,包括以下步骤:
S1、输入图像,设计并计算输入图像的锚框;
S2、主干网络:将图像输入到主干网络,经过多个特征层后输出;
S3、Razor模块:为了配合步骤S1所设计的锚框,网络设计上,设计Razor模块;设到输入层的网络尺寸表示为
Figure 721547DEST_PATH_IMAGE001
,其中n表示输入图像的数量,h表示主干网络特征层的高度,
Figure 878859DEST_PATH_IMAGE002
表示主干网络特征层的宽度,
Figure 564180DEST_PATH_IMAGE003
表示主干网络特征层的通道数;网络通过两次transpose和一次reshape变换输出为
Figure 199561DEST_PATH_IMAGE004
;则锚框和输出的网络结构达成一致,再次经过预设个数卷积操作,便能对Ground truth的结果进行预测;
S4、预测:先对Ground truth进行编码,再进行预测;
S5、样本选择,指负样本筛选;依赖于两个部分:一个是Ground Truth被指派到锚框,另一个是指派到目标的锚框,达到足够的宽度维度上的交并比IOU(intersection overunion);两者有一个不满足,便被认为是负样本;
S6、训练遴选样本:为了提高训练质量,设计了样本遴选机制;在训练时,算法推导出的预测中,选择与Ground Truth 判断差距最大的样本为训练目标;
S7、设计损失函数,进行训练,得到训练模型;
S8、模型的运用;当训练完毕,用得到的函数参数,进行模型推导,对得到的每一个锚框进行估计,得到该锚框下存在目标的概率
Figure 152473DEST_PATH_IMAGE005
,当概率
Figure 480687DEST_PATH_IMAGE005
达到设定阈值,则将推理出来的offset结果,通过反函数,求出在实际图像中的真实位置。
优选的,所述步骤S1计算锚框的方式为:锚框用
Figure 355102DEST_PATH_IMAGE006
表示,
Figure 59752DEST_PATH_IMAGE007
表示锚框中心点在图像中横纵坐标的位置,
Figure 867171DEST_PATH_IMAGE008
表示在这个位置所延伸的宽度和高度;
反函数公式
Figure 867751DEST_PATH_IMAGE009
是指每一个输出层的特征图的宽度分量的分辨率;
Figure 26200DEST_PATH_IMAGE010
是指输出层的每一个像素的编号,
Figure 268962DEST_PATH_IMAGE011
Figure 196467DEST_PATH_IMAGE012
是指从输入图像到该输出层的分辨率,输出层每一个像素所代表的原图的像素的尺寸;
Figure 132062DEST_PATH_IMAGE013
,表示框总是从整个从图像顶部到底部的范围。
优选的,所述通过两次transpose和一次reshape变换具体方式为:首先通过第一次transpose,将矩阵转换为
Figure 1974DEST_PATH_IMAGE014
,然后将矩阵进行reshape,转化为
Figure 782848DEST_PATH_IMAGE015
,最后经过transpose,将矩阵转化为
Figure 299280DEST_PATH_IMAGE004
优选的,所述步骤S4先对Ground truth进行编码再进行预测的具体过程为:
对Ground Truth进行编码的方式如下:如同步骤S1的锚框设计,将每一个Groundtruth指派到相对应的输出层作为学习目标,对它的位置
Figure 874618DEST_PATH_IMAGE016
,先转化为
Figure 476500DEST_PATH_IMAGE017
,然后指派输出层的每一个锚框的偏移量,及宽高的比例
Figure 61065DEST_PATH_IMAGE018
,这使得每一个合适的Ground Truth,对应到一个与之对应的锚框,进行相对坐标的估计,使得网络在训练时可以实现收敛。
优选的,预测的过程为:给定一组图片和相对应的Ground Truth编码,对输入的图片进行数字化处理,进行卷积(Convolution)、池化(Pooling), 连接(Concatenation)操作后,得到相应的数值输出;
这些输出,通过机器学习流行的反向传播算法,优化整个计算过程和计算权重,得到最终的权重结果;
得到最终的权重结果后,会对得到的数值进行解码,利用编码函数的反函数得到预测的、用于实际使用的数值;
其中预测的结果分为2个部分:第一、一个锚框包含样本的概率;第二、基于这个锚框得到的预测框位置;实际使用过程中,如果概率低于某一个特定的置信值,将不采信该锚框下的预测是准确的,即放弃该锚框的输出。反之,将会获得该锚框的输出,并将方框的位置记录下来。
优选的,由于存在多个尺度的输出问题,采用贪婪非极大值抑制 (Greedy Non-Maximum Suppression)的方法对锚框进行筛选,对于信任度最高的锚框优先选择,对那些与该锚框输出相同,且有预设的交并比IOU的锚框的输出,进行过滤;最终得到预测的结果。
优选的,所述步骤S7设计损失函数的具体过程为:在损失函数的设计上,采取了较为通用的方法;对类别的估计上,采用了通用的softmax cross entropy loss,Softmax的定义为:
Figure 697583DEST_PATH_IMAGE019
损失函数则定义为
Figure 476446DEST_PATH_IMAGE020
在对回归框的估计上,采取了通用的Smooth L1 Loss,定义为
Figure 565624DEST_PATH_IMAGE021
总体的损失函数定义为
Figure 485039DEST_PATH_IMAGE022
上述各参数的含义为:
Figure 976063DEST_PATH_IMAGE023
表示某一个特定的锚框,其框内目标为第i类的概率值的推理结果,
Figure 424362DEST_PATH_IMAGE024
表示自然常数,
Figure 767881DEST_PATH_IMAGE025
表示损失函数,
Figure 694248DEST_PATH_IMAGE026
表示输出置信度所设计的损失函数,
Figure 774200DEST_PATH_IMAGE027
表示输出相对于编码后的Ground Truth 的位置框信息所设计的损失函数(因所有的Ground Truth 的数据都进行了编码,转换成相对于锚框的偏移数据,因此起名offset),
Figure 127821DEST_PATH_IMAGE028
表示侧重参数,会在训练过程中控制网络学习的侧重点,必须大于0,
Figure 926013DEST_PATH_IMAGE029
,其中
Figure 390492DEST_PATH_IMAGE030
会使网络侧重位置的回归学习。
Figure 856108DEST_PATH_IMAGE031
则使网络侧重置信度的学习。
Figure 646210DEST_PATH_IMAGE028
=1 时,网络则没有侧重,兼顾学习;
Figure 167583DEST_PATH_IMAGE032
对目标类别推理的推理数值表示对一次类别置信度,每一个类别所量化的结果;
Figure 435754DEST_PATH_IMAGE033
表示对每一个锚框,所包含的Ground Truth信息的类别编码,比如:如果有2个类,猫和非猫,分别用0,1来进行编码,如果一个锚框存在一个猫,那么该编码就会是
Figure 490297DEST_PATH_IMAGE034
Figure 185721DEST_PATH_IMAGE035
表示网络中预测位置的数据的输出。
在绝大多数的训练场景
Figure 958505DEST_PATH_IMAGE036
优选的,所述步骤S1进行锚框设计前还包括:对需要检测的图像进行数学统计,确认需要检测的目标在图像上的最小尺寸,最大尺寸和需要检测的目标在图像上的分布情况,并由此设计相关网络输入尺寸;
根据设计好的输入尺寸,计算最小检测尺寸和输入尺寸之间的比例关系,决定网络的输出层;一般地,网络需要至少3层不同尺寸的卷积层作为铺垫,从第4层开始作为首个输出层;首个输出层在原图上的检测尺寸的输出大小为
Figure 30366DEST_PATH_IMAGE037
,
Figure 939416DEST_PATH_IMAGE038
为层数,
Figure 71320DEST_PATH_IMAGE039
为原图和输入图像的比例。
优选的,设计的相关网络输入尺寸由当时的运算资源而定,其设计标准为:需要检测目标越大的,网络输入尺寸设计得越小,需要检测目标越小的,网络的输入尺寸越大。
具体理由如下:对于检测目标而言,如果目标越大,则在图片上的面积也就越大,因此,需要在卷积网络的最后几层进行输出。(此时特征图像Feature Map将会在空间尺度上,即,长,宽,被压缩的比较小)。这样,一个锚框所代表的原图上的图像尺寸就更大。在主干网络不变的情况下。预测大的目标则需要的计算相对较少(为当前特征图的长
Figure 800242DEST_PATH_IMAGE040
Figure 442838DEST_PATH_IMAGE040
通道数
Figure 206395DEST_PATH_IMAGE040
运算核维度
Figure 243621DEST_PATH_IMAGE040
运算核通道数)。
由此可知,决定一个检测网络运算量的最直接与图像本身相关的参数为图像及其特征图的长和宽。
那么,越到后层,特征图越小,则相应的检测计算也就越小,而越后层,检测的目标也就越大。反之,越前层,特征图越大,相应的检测计算也就越大。检测目标也就越小。
根据算法的这个特性,本发明可以制定好所需的检测范围,检测目标的大小。然后定制化算法,提高算法的执行效率。
与现有技术相比,本发明的有益效果是:本发明针对以上技术背景所提到的问题,结合相机模型对网络进行特别的设计,并加以创新。所设计的网络,在大幅减少运算量的同时,使网络仍然保留了准确检测的性能,从而提高了网络在实际应用中的并发数和帧数,从而减少了在硬件设备上的开销,网络在设计上可以通过参数的调整,来自适应检测范围,从而达到更轻量化的部署,甚至可以直接部署在摄像头芯片中。在自动驾驶和监控这两个非常依赖相机投影模型的行业中,都已证明了其高效的特点,取得了非常好的效果。
值得注意的是,该发明是针对相机投影模型的特点和实际引用场景来进行设计的,也就是说,其不同于通用的图像检测任务,该发明针对的是相机前方是否存在检测标的问题,而非单纯的标记出所有存在的目标的任务。这与通常算法的检测任务在根本上是不同,是一个通用功能的特化。举例来说,通常在自动驾驶环境中,我们对挡在车辆行进道路上的车辆行人后方的情况并不感兴趣。我们需要知道,相机正前方是否存在相关目标。同理,对于一些监控信息来说,我们对场景中是否存在可疑的行人感兴趣,对场景中真实的目标数量并不感兴趣。
附图说明
图1为本发明模型结构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步描述。
一种基于相机投影模型的物品检测网络设计方法,包括以下步骤:
步骤1:对需要检测的数据进行数学统计,确认需要检测的目标在图像上的最小尺寸,最大尺寸和要检测的目标在图像上的分布情况,并由此设计相关的网络输入尺寸。(输入尺寸由当时的运算资源而定,一般地,检测目标越大的,网络输入尺寸可以设计得越小,检测目标越小的,网络的输入尺寸越大)
步骤2:根据设计好的输入尺寸,计算最小检测尺寸和输入尺寸之间的比例关系,决定网络的输出层。一般地,网络需要至少3层不同尺寸的卷积层作为铺垫,从第4层开始作为首个输出层。一般地,首个输出层在原图上的检测尺寸其输出大小为
Figure 990997DEST_PATH_IMAGE037
,
Figure 404661DEST_PATH_IMAGE038
为层数,
Figure 22724DEST_PATH_IMAGE039
为原图和输入图像的比例。
步骤3:计算锚框。锚框在设计中,用
Figure 230851DEST_PATH_IMAGE006
表示,
Figure 199944DEST_PATH_IMAGE007
表示锚框中心点在图像中横纵坐标的位置,
Figure 417299DEST_PATH_IMAGE008
表示在这个位置所延伸的宽度和高度。特别的,可以公式化为
Figure 656913DEST_PATH_IMAGE041
;
Figure 35941DEST_PATH_IMAGE042
是指每一个输出层的特征图的宽度分量的分辨率。
Figure 492331DEST_PATH_IMAGE010
是指输出层的每一个像素的编号,
Figure 247797DEST_PATH_IMAGE011
Figure 106032DEST_PATH_IMAGE012
是指从输入图像到该输出层的分辨率,输出层每一个像素所代表的原图的像素的尺寸。
Figure 921541DEST_PATH_IMAGE043
,表示框总是从整个从图像顶部到底部的范围。
步骤4:主干网络。主干网络设计不是本发明的核心,可以采用任何合适的主干网络,在本发明实验的网络上,采取的是类似VGG的结构,但网络输入尺寸、卷积核大小都有不同。同样的,可以采用其他公开或自定义的网络结构。
步骤5:Razor模块。为了配合步骤3所设计的锚框,网络设计上,我们设计Razor模块。假设我们到输入层的网络尺寸表示为
Figure 599647DEST_PATH_IMAGE044
, 网络通过两次transpose和一次reshape变换为
Figure 158804DEST_PATH_IMAGE004
, 具体方式为:首先通过第一次transpose,将矩阵转换为
Figure 638589DEST_PATH_IMAGE014
, 然后将矩阵进行reshape, 转化为
Figure 625000DEST_PATH_IMAGE015
, 最后经过transpose,将矩阵转化为
Figure 55981DEST_PATH_IMAGE004
, 经过这些操作。锚框和输出的网络结构达成一致,再次经过几个自定义的常规卷积操作,便可以对Ground truth的结果进行预测。
步骤6:对Ground truth进行编码。如果直接对Ground Truth 进行预测,会导致设计的网络在训练时无法收敛。因此,为了达到目的,我们必须对Ground Truth进行编码。编码方式如下:如同步骤3的锚框设计,将每一个Ground truth指派到相对应的输出层作为学习目标,对它的位置
Figure 153250DEST_PATH_IMAGE016
,先转化为
Figure 720498DEST_PATH_IMAGE017
以指派的输出层的每一个锚框的偏移量,及宽高的比例
Figure 877810DEST_PATH_IMAGE018
,这使得每一个合适的Ground Truth, 对应到一个与之对应的锚框,进行相对坐标的估计,使得网络在训练时可以实现收敛。
步骤7:负样本筛选。负样本的筛选,依赖于两个部分。一个是Ground Truth 是否被指派到锚框,另一个是有指派到目标的锚框,是否有达到足够的宽度维度上的IOU(intersection over union)。两者有一个不满足需求,便被认为是负样本。
步骤8:训练遴选样本。为了提高训练质量,我们设计了样本遴选机制。在训练时,算法推导出的预测中,选择与Ground Truth 判断差距最大的有限选择为训练目标。(比如,Ground Truth 在一个锚框被编码进了一个目标,且符合步骤7的筛选条件,但在实际算法推导时,退改目标可能产生0.1 或0.9的概率分布,认为它存在该目标。那么,我们会更倾向于选择0.1的目标作为训练,因为它产生了更大的错误,更需要进行优化。)
步骤9:在损失函数的设计上,采用了通用的softmax cross entropy loss,Softmax的定义为:
Figure 796087DEST_PATH_IMAGE019
损失函数则定义为
Figure 198512DEST_PATH_IMAGE020
在对回归框的估计上,采取了通用的Smooth L1 Loss,定义为
Figure 885845DEST_PATH_IMAGE021
总体的损失函数定义为
Figure 214058DEST_PATH_IMAGE022
上述各参数的含义为:
Figure 354053DEST_PATH_IMAGE023
表示某一个特定的锚框,其框内目标为第i类的概率值的推理结果,
Figure 793124DEST_PATH_IMAGE024
表示自然常数,
Figure 69385DEST_PATH_IMAGE025
表示损失函数,
Figure 568499DEST_PATH_IMAGE026
表示输出置信度设计的损失函数,
Figure 195790DEST_PATH_IMAGE027
表示输出相对于编码后的Ground Truth 的位置框信息所设计的损失函数(因所有的Ground Truth 的数据都进行了编码,转换成相对于锚框的偏移数据,因此起名offset),
Figure 438552DEST_PATH_IMAGE028
表示侧重参数,会在训练过程中控制网络学习的侧重点,必须大于0,
Figure 613661DEST_PATH_IMAGE029
,其中
Figure 18098DEST_PATH_IMAGE030
会使网络侧重位置的回归学习。
Figure 867105DEST_PATH_IMAGE031
则使网络侧重置信度的学习。
Figure 913558DEST_PATH_IMAGE028
=1 时,网络则没有侧重,兼顾学习;
Figure 695570DEST_PATH_IMAGE032
对目标类别推理的推理数值表示
Figure 536487DEST_PATH_IMAGE045
,。
Figure 872790DEST_PATH_IMAGE033
表示对每一个锚框,所包含的Ground Truth信息的类别编码,比如:如果有2个类,猫和非猫,分别用0,1来进行编码,如果一个锚框存在一个猫,那么该编码就会是
Figure 457355DEST_PATH_IMAGE034
Figure 329759DEST_PATH_IMAGE035
表示网络中预测位置的数据的输出。
在绝大多数的训练场景
Figure 341577DEST_PATH_IMAGE036
步骤10:目标图像检测。当训练完毕,可以用得到的函数参数,进行模型推导,对得到的每一个锚框的估计,可以得到该锚框下存在目标的概率
Figure 696335DEST_PATH_IMAGE005
, 当概率
Figure 819012DEST_PATH_IMAGE005
达到一定阈值,我们可以将推理出来的offset结果,通过步骤6的反函数,求出在实际图像中的真实位置。
如图1,模型结构示意图。
连接预测与样本选择损失函数的虚线箭头表示了,这个流程只在训练环节存在,在检测环节,该模块不工作。主干网络有多个特征层,用于提取输入图像的特征,不是所有的特征层都会被用作最后的预测。
该发明针对的是以上的情况,不同于通用的目标检测。
本实施方式在两个场景中对算法进行了测试。
该算法,在1080Ti的显卡上,运行速度可以达到13ms,远低于现在任何实际开放的公开网络模型。参见效果数据如下表:测试环境为NVIDIA TITANX 显示卡,模型在没有细节优化的情况下,有着更快的推理速度。比主流的目标检测算法,提高了大约180%的效率。
Figure 310036DEST_PATH_IMAGE046
该算法,在CITYSCAPE数据集上,https://www.cityscapes-dataset.com/,测试场景Stuart, 达到了95% recall的成绩。该场景下包括了所有行人和车辆的检测任务。在本公司的同源的监控数据下,达到了98%的准确估计。
在本例中,对所有打算应用此算法的相机进行数学统计,发现设计的最小检测的目标在前端拍摄相机下的最小宽度为80像素,最大检测宽度1500像素左右,相对于相机分辨率
Figure 793888DEST_PATH_IMAGE047
。根据设计,输入网络设计为
Figure 391267DEST_PATH_IMAGE048
,还对输入相机进行了一定的裁剪,以保证图像在缩放时不会引起失真扭曲。得到
Figure 583214DEST_PATH_IMAGE049
的分辨的裁剪图像。如果将图像缩放至
Figure 928745DEST_PATH_IMAGE048
的尺寸,原最小尺寸转换后大约21像素,原最大尺寸转换后约 400像素(每一次卷积、池化的操作,相当于对原像素信息进行融合,后一层的像素代表前一层2x2的像素区域。而本实例在给出预测前,采用3x3 的卷积操作。因此,其检测时的尺寸范围为
Figure 547945DEST_PATH_IMAGE050
Figure 346137DEST_PATH_IMAGE051
为层数。因此,在第四层的检测目标为
Figure 843239DEST_PATH_IMAGE052
=24。由于本实例将应用IOU的比对策略,并以50%作为筛选标准,所以目标检下界
Figure 43276DEST_PATH_IMAGE053
,上界为
Figure 833378DEST_PATH_IMAGE054
因此可以推得该网络在第四层检测时满足于设定的最小检测尺寸,在第八层满足于设定的最大检测尺寸)。根据卷积神经网络的卷积、池化的特点和目标匹配方案50%的IOU的尺度,可以得到,在卷积神经网络的第四层,就可以进行目标的检测,同时在每一次池化操作前,都可以进行相对应的目标检测操作。直到第八层。因此,本实例设计了一个有8个经过池化卷积神经主干网络,其中第4-8层会用作输出。
本实例按照每一个特征图在输出特征层的分辨率设计锚框。每一个在特征图宽度的维度上设计一个锚框。这个锚框为整个图像的高度,宽度为每一个像素位置。从而我们也可以得到锚框的大概个数 64+32+16+8+4 + 2 = 126个。
在对一个GroundTruth目标进行编码的时候,首先将目标的长、宽作相对于全图的长、宽的归一化。然后将目标从左上(xmin, ymin), (xmax, ymax) 两个点表示一个方框的方式,转化为(center_x, center_y, width, height)的表示方式。然后针对这种表示方式,对符合配对规则的目标,作如下的编码:
Figure 118866DEST_PATH_IMAGE055
Figure 652615DEST_PATH_IMAGE056
Figure 707159DEST_PATH_IMAGE057
Figure 668162DEST_PATH_IMAGE058
在完成对每一个锚框的对Ground Truth 的编码后,用卷积神经网络,并使用反向传播算法(Back Propagation)对网络进行训练。训练的损失函数如上面所介绍的一样,通过Razor 模块对特征进行整理,接入一定的卷积操作得到最后的输出数值。这些数值的结果传入损失函数,得到的误差将会利用反向传播算法实现对网络的训练。
训练完毕后,如果输入一张
Figure 207990DEST_PATH_IMAGE059
的图像,则首先会对图像进行裁剪成为
Figure 545430DEST_PATH_IMAGE049
的图像,然后在对图像进行缩放,达到图像的输入尺寸,然后放入网络。网络最终会输出基于这张图片和训练权重的结果。首先对所有符合置信度的目标,利用编码的反函数,计算出这些预测目标框的尺寸。然后对这些结果进行筛选(比如采用NMS(非极大值抑制)算法),挑选出最合适的目标作为预测结果。
本发明的实施方式针对以上技术背景所提到的问题,结合相机模型对网络进行特别的设计,并加以创新。所设计的网络,在大幅减少运算量的同时,使网络仍然保留了准确检测的性能,从而提高了网络在实际应用中的并发数和帧数,从而减少了在硬件设备上的开销,网络在设计上可以通过参数的调整,来自适应检测范围,从而达到更轻量化的部署,甚至可以直接部署在摄像头芯片中。在自动驾驶和监控这两个非常依赖相机投影模型的行业中,都已证明了其高效的特点,取得了非常好的效果。
值得注意的是,该发明是针对相机投影模型的特点和实际引用场景来进行设计的,也就是说,其不同于通用的图像检测任务,该发明针对的是相机前方是否存在检测标的问题,而非单纯的标记出所有存在的目标的任务。这与通常算法的检测任务在根本上是不同,是一个通用功能的特化。举例来说,通常,在自动驾驶环境中,我们对挡在车辆行进道路上的车辆行人后方的情况并不感兴趣。我们需要知道,相机正前方是否存在相关目标。同理,对于一些监控信息来说,我们对场景中是否存在可疑的行人感兴趣,对场景中真实的目标数量并不感兴趣。
以上所述的本发明的实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神原则之内所作出的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。

Claims (9)

1.一种基于相机投影模型的物品检测网络方法,其特征在于,包括:
S1、输入图像,设计并计算输入图像的锚框;
S2、主干网络:将图像输入到主干网络,经过多个特征层后输出;
S3、Razor模块:为了配合步骤S1所设计的锚框,网络设计上,设计Razor模块;设到输入层的网络尺寸表示为
Figure 742550DEST_PATH_IMAGE001
,其中n表示输入图像的数量,h表示主干网络特征层的高度,
Figure 597374DEST_PATH_IMAGE002
表示主干网络特征层的宽度,
Figure 829641DEST_PATH_IMAGE003
表示主干网络特征层的通道数;网络通过两次transpose和一次reshape变换输出为
Figure 428112DEST_PATH_IMAGE004
;则锚框和输出的网络结构达成一致,再次经过预设个数卷积操作,便能对Ground truth的结果进行预测;
S4、预测:先对Ground truth进行编码,再进行预测;
S5、样本选择,指负样本筛选;依赖于两个部分:一个是Ground Truth 被指派到锚框,另一个是指派到目标的锚框,达到足够的宽度维度上的交并比IOU;两者有一个不满足,便被认为是负样本;
S6、训练遴选样本:为了提高训练质量,设计了样本遴选机制;在训练时,算法推导出的预测中,选择与Ground Truth 判断差距最大的样本为训练目标;
S7、设计损失函数,进行训练,得到训练模型;
S8、模型的运用;当训练完毕,用得到的函数参数,进行模型推导,对得到的每一个锚框进行估计,得到该锚框下存在目标的概率
Figure 445747DEST_PATH_IMAGE005
,当概率
Figure 720739DEST_PATH_IMAGE005
达到设定阈值,则将推理出来的offset结果,通过反函数,求出在实际图像中的真实位置。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1计算锚框的方式为:锚框用
Figure 191035DEST_PATH_IMAGE006
表示,
Figure 845395DEST_PATH_IMAGE007
表示锚框中心点在图像中横纵坐标的位置,
Figure 717536DEST_PATH_IMAGE008
表示在这个位置所延伸的宽度和高度;
反函数公式
Figure 914162DEST_PATH_IMAGE009
是指每一个输出层的特征图的宽度分量的分辨率;
Figure 855442DEST_PATH_IMAGE010
是指输出层的每一个像素的编号,
Figure 795716DEST_PATH_IMAGE011
Figure 771631DEST_PATH_IMAGE012
是指从输入图像映射到该输出层的分辨率,输出层每一个像素所代表的原图的像素的尺寸;
Figure 404738DEST_PATH_IMAGE013
,表示框总是从整个从图像顶部到底部的范围。
3.根据权利要求2所述的方法,其特征在于,所述通过两次transpose和一次reshape变换具体方式为:首先通过第一次transpose,将矩阵转换为
Figure 849626DEST_PATH_IMAGE014
,然后将矩阵进行reshape,转化为
Figure 577279DEST_PATH_IMAGE015
,最后经过transpose,将矩阵转化为
Figure 689592DEST_PATH_IMAGE004
4.根据权利要求3所述的方法,其特征在于,所述步骤S4先对Ground truth进行编码再进行预测的具体过程为:
对Ground Truth进行编码的方式如下:如同步骤S1的锚框设计,将每一个Groundtruth指派到相对应的输出层作为学习目标,对它的位置
Figure 228020DEST_PATH_IMAGE016
,先转化为
Figure 400683DEST_PATH_IMAGE017
,然后指派输出层的每一个锚框的偏移量,及宽高的比例
Figure 682760DEST_PATH_IMAGE018
,这使得每一个合适的Ground Truth,对应到一个与之对应的锚框,进行相对坐标的估计,使网络在训练时能实现收敛。
5.根据权利要求4所述的方法,其特征在于,预测的过程为:给定一组图片和相对应的Ground Truth编码,对输入的图片进行数字化处理,进行卷积、池化, 连接操作后,得到相应的数值输出;
数值输出后通过机器学习流行的反向传播算法,优化整个计算过程和计算权重,得到最终的权重结果;
得到最终的权重结果后,会对得到的数值进行解码,利用编码函数的反函数得到预测的、用于实际使用的数值;
其中预测的结果分为2个部分:第一、一个锚框包含样本的概率;第二、基于这个锚框得到的预测框位置;实际使用过程中,如果概率低于某一个特定的置信值,将不采信该锚框下的预测是准确的,即放弃该锚框的输出;反之,将会获得该锚框的输出,并将方框的位置记录下来。
6.根据权利要求5所述的方法,其特征在于,由于存在多个尺度的输出问题,采用贪婪非极大值抑制的方法对锚框进行筛选,对于信任度最高的锚框优先选择,对那些与该锚框输出相同,且有预设的交并比IOU的锚框的输出,进行过滤;最终得到预测的结果。
7.根据权利要求6所述的方法,其特征在于,所述步骤S7设计损失函数的具体过程为:在损失函数的设计上,采取了较为通用的方法;对类别的估计上,采用了通用的softmaxcross entropy loss,Softmax的定义为:
Figure 383999DEST_PATH_IMAGE019
损失函数则定义为
Figure 608176DEST_PATH_IMAGE020
在对回归框的估计上,采取了通用的Smooth L1 Loss,定义为
Figure 762077DEST_PATH_IMAGE021
总体的损失函数定义为
Figure 97112DEST_PATH_IMAGE022
上述各参数的含义为:
Figure 652858DEST_PATH_IMAGE023
表示某一个特定的锚框,其框内目标为第i类的概率值的推理结果,
Figure 533090DEST_PATH_IMAGE024
表示自然常数,
Figure 423554DEST_PATH_IMAGE025
表示损失函数,
Figure 781854DEST_PATH_IMAGE026
表示输出置信度所设计的损失函数,
Figure 444304DEST_PATH_IMAGE027
表示输出相对于编码后的Ground Truth 的位置框信息所设计的损失函数,
Figure 495437DEST_PATH_IMAGE028
表示侧重参数,
Figure 873198DEST_PATH_IMAGE029
Figure 300768DEST_PATH_IMAGE030
对目标类别推理的推理数值表示,
Figure 565527DEST_PATH_IMAGE031
表示对每一个锚框,所包含的Ground Truth信息的类别编码,
Figure 302408DEST_PATH_IMAGE032
表示网络中预测位置的数据的输出。
8.根据权利要求7所述的方法,其特征在于,所述步骤S1进行锚框设计前还包括:对需要检测的图像进行数学统计,确认需要检测的目标在图像上的最小尺寸,最大尺寸和需要检测的目标在图像上的分布情况,并由此设计相关网络输入尺寸;
根据设计好的输入尺寸,计算最小检测尺寸和输入尺寸之间的比例关系,决定网络的输出层;网络需要至少3层不同尺寸的卷积层作为铺垫,从第4层开始作为首个输出层;首个输出层在原图上的检测尺寸的输出大小为
Figure 918197DEST_PATH_IMAGE033
,
Figure 398726DEST_PATH_IMAGE034
为层数,
Figure 783571DEST_PATH_IMAGE035
为原图和输入图像的比例。
9.根据权利要求7所述的方法,其特征在于,设计的相关网络输入尺寸由当时的运算资源而定,其设计标准为:需要检测目标越大的,网络输入尺寸设计得越小,需要检测目标越小的,网络的输入尺寸越大。
CN202010045445.7A 2020-01-16 2020-01-16 一种基于相机投影模型的物品检测网络方法 Active CN110852314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010045445.7A CN110852314B (zh) 2020-01-16 2020-01-16 一种基于相机投影模型的物品检测网络方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010045445.7A CN110852314B (zh) 2020-01-16 2020-01-16 一种基于相机投影模型的物品检测网络方法

Publications (2)

Publication Number Publication Date
CN110852314A CN110852314A (zh) 2020-02-28
CN110852314B true CN110852314B (zh) 2020-05-22

Family

ID=69610813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010045445.7A Active CN110852314B (zh) 2020-01-16 2020-01-16 一种基于相机投影模型的物品检测网络方法

Country Status (1)

Country Link
CN (1) CN110852314B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695403B (zh) * 2020-04-19 2024-03-22 东风汽车股份有限公司 一种基于深度感知卷积神经网络的2d与3d图像同步检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647573A (zh) * 2018-04-04 2018-10-12 杭州电子科技大学 一种基于深度学习的军事目标识别方法
CN109003267A (zh) * 2017-08-09 2018-12-14 深圳科亚医疗科技有限公司 从3d图像自动检测目标对象的计算机实现方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197152B (zh) * 2019-05-28 2022-08-26 南京邮电大学 一种用于自动驾驶系统的道路目标识别方法
CN110633731B (zh) * 2019-08-13 2022-02-25 杭州电子科技大学 一种基于交错感知卷积的单阶段无锚框目标检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109003267A (zh) * 2017-08-09 2018-12-14 深圳科亚医疗科技有限公司 从3d图像自动检测目标对象的计算机实现方法和系统
CN108647573A (zh) * 2018-04-04 2018-10-12 杭州电子科技大学 一种基于深度学习的军事目标识别方法

Also Published As

Publication number Publication date
CN110852314A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
CN111292264A (zh) 一种基于深度学习的图像高动态范围重建方法
CN113468967B (zh) 基于注意力机制的车道线检测方法、装置、设备及介质
CN111126472A (zh) 一种基于ssd改进的目标检测方法
CN113052006B (zh) 一种基于卷积神经网络的图像目标检测方法,系统及可读存储介质
CN114037938B (zh) 一种基于NFL-Net的低照度目标检测方法
JP7463186B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN115063648A (zh) 一种绝缘子缺陷检测模型构建方法及系统
CN113052170A (zh) 一种无约束场景下的小目标车牌识别方法
CN111784693A (zh) 一种图像质量评估方法、装置、电子设备及存储介质
CN115937022A (zh) 一种基于迭代残差学习的少样本图像修复方法
CN116469007A (zh) 森林火灾识别方法
CN110852314B (zh) 一种基于相机投影模型的物品检测网络方法
CN113888509A (zh) 一种图像清晰度的评价方法、装置、设备及存储介质
CN112597995A (zh) 车牌检测模型训练方法、装置、设备及介质
CN116403200A (zh) 基于硬件加速的车牌实时识别系统
CN115661188A (zh) 一种边缘计算平台下的道路全景目标检测跟踪方法
CN114387484B (zh) 一种基于yolov4改进的口罩佩戴检测方法及系统
CN116091823A (zh) 一种基于快速分组残差模块的单特征无锚框目标检测方法
Zhao et al. End-to-end retinex-based illumination attention low-light enhancement network for autonomous driving at night
CN114565764A (zh) 基于舰船实例分割的港口全景感知系统
CN117291809B (zh) 一种基于深度学习的集成电路图像拼接方法及系统
CN110189272B (zh) 用于处理图像的方法、装置、设备和存储介质
CN117593222A (zh) 一种渐进式像素级调整的低光照图像增强方法
CN116110010A (zh) 一种基于建议框生成增强算法的高速公路遮挡行人检测方法
CN117671452A (zh) 轻量化上采样yolox的断栅检测模型构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An object detection network method based on camera projection model

Effective date of registration: 20210604

Granted publication date: 20200522

Pledgee: Bank of Communications Ltd. Jiangxi branch

Pledgor: JIANGXI GOSUN GUARD SECURITY SERVICE TECHNOLOGY Co.,Ltd.

Registration number: Y2021980004423

PE01 Entry into force of the registration of the contract for pledge of patent right