CN117078919A - 检测框的外扩方法及装置 - Google Patents
检测框的外扩方法及装置 Download PDFInfo
- Publication number
- CN117078919A CN117078919A CN202311146778.9A CN202311146778A CN117078919A CN 117078919 A CN117078919 A CN 117078919A CN 202311146778 A CN202311146778 A CN 202311146778A CN 117078919 A CN117078919 A CN 117078919A
- Authority
- CN
- China
- Prior art keywords
- target
- detection frame
- coordinate value
- offset parameter
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 269
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims description 47
- 238000004590 computer program Methods 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 5
- 238000000844 transformation Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 239000000758 substrate Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000002372 labelling Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000005012 migration Effects 0.000 description 5
- 238000013508 migration Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种检测框的外扩方法及装置,包括:获取待扩展的检测框,检测框是在原始图像中检测出的框;将检测框输入目标回归网络,通过目标回归网络对检测框进行前向回归,得到目标回归网络输出的多个偏移参数,每个偏移参数与检测框的外扩方向一一对应,每个偏移参数表示在与该偏移参数对应外扩方向上检测框需要外扩的比例;通过多个偏移参数对检测框进行外扩得到目标检测框。通过本发明,解决了对检测框进行外扩时效率较低的问题,进而达到了提高对检测框进行外扩的效率的效果。
Description
技术领域
本发明实施例涉及通信领域,具体而言,涉及一种检测框的外扩方法及装置。
背景技术
在相关领域中,通过检测框标识出图像中感兴趣的区域是图像识别的重要部分。例如,安防领域中各种智能的基础是基于目标的检测框,针对于不同业务,对于检测框的完整性要求也不相同。
基础检测模型开发完毕后,当需要模型某个检测框进一步将检测区域外扩时,一种方法是定义一个新的检测类型,经过标注人员反标注训练数据后,重新训练检测模型。当在检测基础数据量较大时,人工成本消耗巨大,开发周期很长,不利于快速迭代产品。当新定义框和原数据中已经标注的检测框存在重叠时,也不利于检测模型多标签联合训练。除此之外针对不同场景,依据先验知识手工调整参数对检测框大小进行调整扩张,严重损害了方案的通用性,换一个场景需要调整一套参数,费时费力。
针对上述问题,目前尚未存在有效的解决方法。
发明内容
本发明实施例提供了一种检测框的外扩方法及装置,以至少解决相关技术中对检测框进行外扩时效率较低的问题。
根据本发明的一个实施例,提供了一种检测框的外扩方法,包括:获取待扩展的检测框,其中,所述检测框是在原始图像中检测出的框;将所述检测框输入目标回归网络,通过所述目标回归网络对所述检测框进行前向回归,得到所述目标回归网络输出的多个偏移参数,其中,每个所述偏移参数与检测框的外扩方向一一对应,每个所述偏移参数表示在与该偏移参数对应外扩方向上所述检测框需要外扩的比例;通过所述多个偏移参数对所述检测框进行外扩得到目标检测框。
在一个示例性实施例中,所述通过所述多个偏移参数对所述检测框进行外扩得到目标检测框,包括:在所述多个偏移参数中筛选出大于或等于预设阈值的目标偏移参数,其中,所述目标偏移参数表示所述检测框在目标外扩方向上需要外扩的比例;根据所述目标偏移参数,将所述检测框在所述目标外扩方向上进行外扩,得到所述目标检测框。
在一个示例性实施例中,根据所述目标偏移参数,将所述检测框在所述目标外扩方向上进行外扩,包括:获取所述检测框在所述目标外扩方向上的第一目标坐标值;通过所述第一目标坐标值和所述目标偏移参数,将所述检测框在所述目标外扩方向上进行外扩,得到所述目标检测框。
在一个示例性实施例中,通过所述第一目标坐标值和所述目标偏移参数,将所述检测框在所述目标外扩方向上进行外扩,包括:将所述第一目标坐标值与所述目标偏移参数的乘积确定为目标偏移参数;在所述原始图像上将所述目标检测框的所述目标外扩方向外扩所述目标偏移参数,得到所述目标检测框。
在一个示例性实施例中,在所述原始图像上将所述目标检测框的所述目标外扩方向外扩所述目标偏移参数,得到所述目标检测框,包括:在所述目标外扩方向为所述检测框的左侧的情况下,将所述检测框的左侧的坐标值确定为所述第一目标坐标值;将所述第一目标坐标值与所述目标偏移参数的差确定为第二目标值;在所述原始图像上确定所述第二目标坐标值,并将所述第二目标坐标值确定为所述目标检测框左侧的坐标值;在所述目标外扩方向为所述检测框的右侧的情况下,将所述检测框的右侧的坐标值确定为所述第一目标坐标值;将所述第一目标坐标值与所述目标偏移参数的和确定为第三目标值;在所述原始图像上确定所述第三目标坐标值,并将所述第三目标坐标值确定为所述目标检测框右侧的坐标值;在所述目标外扩方向为所述检测框的上方的情况下,将所述检测框的上方的坐标值确定为所述第一目标坐标值;将所述第一目标坐标值与所述目标偏移参数的差确定为第四目标值;在所述原始图像上确定所述第四目标坐标值,并将所述第四目标坐标值确定为所述目标检测框上方的坐标值;在所述目标外扩方向为所述检测框的下方的情况下,将所述检测框的下方的坐标值确定为所述第一目标坐标值;将所述第一目标坐标值与所述目标偏移参数的和确定为第五目标值;在所述原始图像上确定所述第五目标坐标值,并将所述第五目标坐标值确定为所述目标检测框下方的坐标值。
在一个示例性实施例中,在所述将所述检测框输入目标回归网络之前,所述方法还包括:获取训练样本集合,其中,所述训练样本集合中包括多个样本检测框;使用所述训练样本集合对初始回归网络模型进行迭代训练,得到所述目标回归网络。
在一个示例性实施例中,使用所述训练样本集合对初始回归网络模型进行迭代训练,得到所述目标回归网络,包括:对所述样本检测框进行两次不同的变换,得到第一样本检测框和第二样本检测框;将所述第一样本检测框输入所述初始回归网络的第一神经网络,得到第一预估偏移参数;将所述第二样本检测框输入所述初始回归网络的第二神经网络,得到第二预估偏移参数;在所述第一预估偏移参数与所述第二预估偏移参数满足预设收敛条件的情况下,得到所述目标回归网络。
根据本发明的另一个实施例,提供了一种检测框的外扩装置,包括:获取模块,用于获取待扩展的检测框,其中,所述检测框是在原始图像中检测出的框;回归模块,用于将所述检测框输入目标回归网络,通过所述目标回归网络对所述检测框进行前向回归,得到所述目标回归网络输出的多个偏移参数,其中,每个所述偏移参数与检测框的外扩方向一一对应,每个所述偏移参数表示在与该偏移参数对应外扩方向上所述检测框需要外扩的比例;外扩模块,用于通过所述多个偏移参数对所述检测框进行外扩得到目标检测框。
根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述任一项中所述的方法的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,通过将待扩展的检测框输入目标回归网络,通过目标回归网络对检测框进行前向回归,得到目标回归网络输出的多个偏移参数,每个偏移参数与检测框的外扩方向一一对应,每个偏移参数表示在与该偏移参数对应外扩方向上检测框需要外扩的比例,通过多个偏移参数对检测框进行外扩得到目标检测框。可以解决对检测框进行外扩时效率较低的问题,达到提高对检测框进行外扩的效率的效果。
附图说明
图1是根据本发明实施例的检测框的外扩方法的移动终端的硬件结构框图;
图2是根据本发明实施例的检测框的外扩方法的流程图;
图3是根据本发明实施例的检测框的坐标示意图;
图4是根据本发明实施例的算法流程图;
图5是根据本发明实施例的检测框的外扩装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明的实施例。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种检测框的外扩方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的检测框的外扩方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述移动终端的检测框的外扩方法,图2是根据本发明实施例的检测框的外扩方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取待扩展的检测框,其中,所述检测框是在原始图像中检测出的框;
上述检测框可以是目标检测模型对原始图像中的目标对象进行识别得到的检测框,通过检测框可以将原始图像中的目标对象框起来。例如,
以对人体的头肩检测为例,当某些功能使用包含头肩时,目标检测模型输出的检测框只会包含人头和肩膀信息。而在其他后续功能需要手臂时,目标检测模型输出的检测框中没有手臂,需要对检测框进行外扩,在头肩框基础上将手臂信息框进去,以使外扩得到的检测框中包括手臂信息。
步骤S204,将所述检测框输入目标回归网络,通过所述目标回归网络对所述检测框进行前向回归,得到所述目标回归网络输出的多个偏移参数,其中,每个所述偏移参数与检测框的外扩方向一一对应,每个所述偏移参数表示在与该偏移参数对应外扩方向上所述检测框需要外扩的比例;
其中,上述目标回归网络可以是基础的特征提取backbone为Resnet18,可以在耗时、设备算力允许下选择回归网络,该网络不限制在满足耗时需求下可以任意替换。根据待扩展的检测框的类型确定出需要外扩的具体方向。可选的,以规则四边形,外扩方向为:上、下、左、右,因此,网络在特征提取backbone后连接的全连接层为回归层,每个方向回归一个值,最后输出维度为4维,此外对于旋转检测框、多边形检测框可以参照修改,增加对应维度。
目标回归网络的训练过程包括:
获取训练样本集合,其中,所述训练样本集合中包括多个样本检测框;使用所述训练样本集合对初始回归网络模型进行迭代训练,得到所述目标回归网络。
具体地,对所述样本检测框进行两次不同的变换,得到第一样本检测框和第二样本检测框;将所述第一样本检测框输入所述初始回归网络的第一神经网络,得到第一预估偏移参数;将所述第二样本检测框输入所述初始回归网络的第二神经网络,得到第二预估偏移参数;在所述第一预估偏移参数与所述第二预估偏移参数满足预设收敛条件的情况下,得到所述目标回归网络。
举例来说,为了快速进行模型开发和增强泛化能力,回归网络的backbone可选的使用对比学习等无监督方法进行学习训练,后续可使用少量数据进行模型迁移训练,既可以达到较好的精度。
可选的,使用BYOL无监督对比学习方法,该方法主要的优势在于训练时,可以不使用负样本,使用两个神经网络分别为target(第一神经网络)和online(第二神经网络),两个网络结构相同,可选的都为resnet18,但是有不同的参数,target网络使用EMA(指数滑动平均)进行更新,避免两个网络参数一致,导致online网络训练坍塌。
训练样本集合中的样本检测框可以使用包含头肩的检测框。具体地,可以获取一批素材,该素材应涵盖检测框内目标对象的任意状态,例如对目标对象拍摄的不同角度图片,从不同角度的图片中检测出的目标对象的检测框、是否需要遮挡扩张预测等,保证素材的多样性,增强模块的泛化能力。以头肩检测为例,可以包含正常角度摄像机下头肩包含手图片,例如相机安装2.5m-6m下的图片,覆盖目标正、侧、背等不同角度,对于姿态维度,应该涵盖手臂向各个方向延伸的图片,其他维度可以根据项目需求进行扩充,最终获取一个完整性回归训练集。
训练过程中,同一个检测框可以经过两次不同的变换,得到第一样本检测框和第二样本检测框,第一样本检测框和第二样本检测框分别送入到target网络和online网络中进行特征表示学习,对两个网络的输出进行L2正则化约束,损失函数如下:
其中,Rtarget是target网络输出的第一预估偏移参数,Ronline是第二神经网络输出的第二预估偏移参数。经过多次迭代后,网络收敛(L2小于或等于预设的收敛阈值),取出online网络中backbone为特征提取网络,并固化参数,后续微调训练不进行更新,得到目标回归网络。
迁移训练时,无需人工标注。网络训练时,随机对完整性素材进行偏移,偏移比例依据需求进行确定,偏移比例即为网络训练的真值。可选的,可以设置偏移回归值区间为0%-25%,为了降低模型训练难度,设定偏移上限为25%,即在宽、高维度,最大可修正比例为50%,单边扩张比例最大为25%。随机偏移后,偏移量占偏移后图像宽高的比例为训练的真值,偏移后图像为训练图片。损失函数,可选的,选择L2损失。
步骤S206,通过所述多个偏移参数对所述检测框进行外扩得到目标检测框。
作为一个可选的实施方式,所述通过所述多个偏移参数对所述检测框进行外扩得到目标检测框,包括:在所述多个偏移参数中筛选出大于或等于预设阈值的目标偏移参数,其中,所述目标偏移参数表示所述检测框在目标外扩方向上需要外扩的比例;根据所述目标偏移参数,将所述检测框在所述目标外扩方向上进行外扩,得到所述目标检测框。
上述预设阈值可以根据实际情况而定,例如10%、12%等,在本实施例中以10%为例,假设,检测框为规则四边形,外扩方向为:上、下、左、右,通过目标回归网络可以得到检测框在上、下、左、右四个方向上的偏移参数,在四个方向上的偏移参数中筛选出大于或等于10%的偏移参数作为目标偏移参数,在目标参数对应的目标方向上对检测框进行外扩。
如图3中所示,(x1,y1)是检测框左上角的坐标,(x2,y2)是检测框右下角的坐标,可以通过检测框左上角的坐标(x1,y1)和右下角的坐标(x2,y2)对检测框进行外扩。
具体地,获取所述检测框在所述目标外扩方向上的第一目标坐标值;通过所述第一目标坐标值和所述目标偏移参数,将所述检测框在所述目标外扩方向上进行外扩,得到所述目标检测框。将所述第一目标坐标值与所述目标偏移参数的乘积确定为目标偏移参数;在所述原始图像上将所述目标检测框的所述目标外扩方向外扩所述目标偏移参数,得到所述目标检测框。
举例来说,在所述目标外扩方向为所述检测框的左侧的情况下,将所述检测框的左侧的坐标值确定为所述第一目标坐标值;将所述第一目标坐标值与所述目标偏移参数的差确定为第二目标值;在所述原始图像上确定所述第二目标坐标值,并将所述第二目标坐标值确定为所述目标检测框左侧的坐标值;
在所述目标外扩方向为所述检测框的右侧的情况下,将所述检测框的右侧的坐标值确定为所述第一目标坐标值;将所述第一目标坐标值与所述目标偏移参数的和确定为第三目标值;在所述原始图像上确定所述第三目标坐标值,并将所述第三目标坐标值确定为所述目标检测框右侧的坐标值;
在所述目标外扩方向为所述检测框的上方的情况下,将所述检测框的上方的坐标值确定为所述第一目标坐标值;将所述第一目标坐标值与所述目标偏移参数的差确定为第四目标值;在所述原始图像上确定所述第四目标坐标值,并将所述第四目标坐标值确定为所述目标检测框上方的坐标值;
在所述目标外扩方向为所述检测框的下方的情况下,将所述检测框的下方的坐标值确定为所述第一目标坐标值;将所述第一目标坐标值与所述目标偏移参数的和确定为第五目标值;在所述原始图像上确定所述第五目标坐标值,并将所述第五目标坐标值确定为所述目标检测框下方的坐标值。
举例来说,假设训练好的网络经过前向计算后回归出4个偏移参数{j、k、m、n}4个值即为原始输入头肩框的调整比例值,首先进行偏移参数过滤,去除掉不在偏移区间的值,可选的偏移区间为0%-25%,当存在符合编译区间的预测值时,对输入的检测框的坐标进行外扩偏移,设待外扩的检测框为左上坐标(x1、y1),右下坐标(x2,y2),通过以下偏移公式得到目标检测框的左上坐标(x1’、y1’)和右下坐标(x2’、y2’):
x1′=x1×(1-j)
y′ 1=y1×(1-n)
x2′=x2×(1+k)
y2′=y2×(1+m)
需注意的是,外扩后的目标检测框的坐标是不能超出原始图像的坐标的,此外,因为标注原因,每个框可能在标注时就存在一定偏移,设定3%的容错率,低于3%的不进行扩框。
如图4所示是算法流程图,包括以下步骤:
通过目前检测模型对原始图像中的目标对象进行识别,得到目标对象的检测框,确定出完整框的具体要求,筛选出不满足完整性的检测框。
依据检测框的类型确定出需要扩张的具体方向。在方案耗时、设备算力允许下选择回归网络,为增强泛化能力,回归网络的backbone可选的使用对比学习等无监督方法进行学习训练,为后续模型迁移做准备。
准备完整性模块调优素材,依据完整框具体要求,获取一批素材,该素材应涵盖方案应用的所需要的目标对象的状态,例如涵盖目标对象的不同角度图片、是否需要遮挡扩张预测等,保证素材的多样性,增强模块的泛化能力。
依据回归网络,获取网络的特征提取backbone进行无监督对比学习,为增强场景适应能力,可以加入原始图像中对目标对象得到的检测框进行对应训练。模型收敛后,完整性回归网络固定住backbone参数进行任务迁移训练。
迁移训练时,使用完整性调优素材,网络训练时,随机对完整性素材进行偏移,偏移比例依据项目需求进行确定,改偏移比例即为网络训练的真值。
完整性预测模块训练完毕后,输入待外扩的检测框,输出调整比例值,进行检测框的扩张,需注意的是,扩张坐标是不能超出原图坐标的。
可选地,上述步骤的执行主体可以是后台处理器,或者其他的具备类似处理能力的设备,还可以是至少集成有图像获取设备以及数据处理设备的机器,其中,图像获取设备可以包括摄像头等图形采集模块,数据处理设备可以包括计算机、手机等终端,但不限于此。
当需要开发完整性更高的检测框时,目前方案主要是反标注整个数据集,训练出一个新的检测网络,或者是依据经验参数,针对不同场景设置一组超参数进行检测框外扩。这两种方案,都需要大量的人工成本,开发周期长,但是产品的泛化能力还很弱,一旦换了场景,就要重新调参。
本申请从项目本身出发,无需对现有训练数据进行反标注,只需要进行定义好需要外扩的检测框,获取较少的外扩后的完整框,就能完成一个即插即用的检测框外扩模块,该模块是对目标检测框进行操作,因此对场景变换不敏感,整个方案泛化能力强,此外使用了无监督学习方法进一步增强模型泛化能力,对整个方案进行降本增效。
不改变方案中检测模块,只需后期定义好须外扩类别的目标框,获取到对应完整的目标框数据后,就可以获得一个自适应目标检测框外扩模块。方案切换使用场景时,不使用先验知识进行人为的设置超参数,由自适应目标检测框外扩模块输出需外扩框的比例。
定义框完整性训练策略,训练数据生成方法,无需人工标注,算法随机偏移生成训练图片和训练真值,无标注成本进行监督学习,极大降低算法实现成本,为增强方案的泛化能力,使用无监督对比学习方式进行模型训练。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种检测框的外扩装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本发明实施例的检测框的外扩装置的结构框图,如图5所示,该装置包括:获取模块52,用于获取待扩展的检测框,其中,所述检测框是在原始图像中检测出的框;回归模块54,用于将所述检测框输入目标回归网络,通过所述目标回归网络对所述检测框进行前向回归,得到所述目标回归网络输出的多个偏移参数,其中,每个所述偏移参数与检测框的外扩方向一一对应,每个所述偏移参数表示在与该偏移参数对应外扩方向上所述检测框需要外扩的比例;外扩模块56,用于通过所述多个偏移参数对所述检测框进行外扩得到目标检测框。
在一个示例性实施例中,上述装置还用于在所述多个偏移参数中筛选出大于或等于预设阈值的目标偏移参数,其中,所述目标偏移参数表示所述检测框在目标外扩方向上需要外扩的比例;根据所述目标偏移参数,将所述检测框在所述目标外扩方向上进行外扩,得到所述目标检测框。
在一个示例性实施例中,上述装置还用于获取所述检测框在所述目标外扩方向上的第一目标坐标值;通过所述第一目标坐标值和所述目标偏移参数,将所述检测框在所述目标外扩方向上进行外扩,得到所述目标检测框。
在一个示例性实施例中,上述装置还用于将所述第一目标坐标值与所述目标偏移参数的乘积确定为目标偏移参数;在所述原始图像上将所述目标检测框的所述目标外扩方向外扩所述目标偏移参数,得到所述目标检测框。
在一个示例性实施例中,上述装置还用于在所述目标外扩方向为所述检测框的左侧的情况下,将所述检测框的左侧的坐标值确定为所述第一目标坐标值;将所述第一目标坐标值与所述目标偏移参数的差确定为第二目标值;在所述原始图像上确定所述第二目标坐标值,并将所述第二目标坐标值确定为所述目标检测框左侧的坐标值;在所述目标外扩方向为所述检测框的右侧的情况下,将所述检测框的右侧的坐标值确定为所述第一目标坐标值;将所述第一目标坐标值与所述目标偏移参数的和确定为第三目标值;在所述原始图像上确定所述第三目标坐标值,并将所述第三目标坐标值确定为所述目标检测框右侧的坐标值;在所述目标外扩方向为所述检测框的上方的情况下,将所述检测框的上方的坐标值确定为所述第一目标坐标值;将所述第一目标坐标值与所述目标偏移参数的差确定为第四目标值;在所述原始图像上确定所述第四目标坐标值,并将所述第四目标坐标值确定为所述目标检测框上方的坐标值;在所述目标外扩方向为所述检测框的下方的情况下,将所述检测框的下方的坐标值确定为所述第一目标坐标值;将所述第一目标坐标值与所述目标偏移参数的和确定为第五目标值;在所述原始图像上确定所述第五目标坐标值,并将所述第五目标坐标值确定为所述目标检测框下方的坐标值。
在一个示例性实施例中,上述装置还用于在所述将所述检测框输入目标回归网络之前,获取训练样本集合,其中,所述训练样本集合中包括多个样本检测框;使用所述训练样本集合对初始回归网络模型进行迭代训练,得到所述目标回归网络。
在一个示例性实施例中,上述装置还用于对所述样本检测框进行两次不同的变换,得到第一样本检测框和第二样本检测框;将所述第一样本检测框输入所述初始回归网络的第一神经网络,得到第一预估偏移参数;将所述第二样本检测框输入所述初始回归网络的第二神经网络,得到第二预估偏移参数;在所述第一预估偏移参数与所述第二预估偏移参数满足预设收敛条件的情况下,得到所述目标回归网络。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述任一项中所述的方法的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种检测框的外扩方法,其特征在于,包括:
获取待扩展的检测框,其中,所述检测框是对原始图像中的目标对象进行检测得到的框;
将所述检测框输入目标回归网络,通过所述目标回归网络对所述检测框进行前向回归,得到所述目标回归网络输出的多个偏移参数,其中,每个所述偏移参数与检测框的外扩方向一一对应,每个所述偏移参数表示在与该偏移参数对应外扩方向上所述检测框需要外扩的比例;
通过所述多个偏移参数对所述检测框进行外扩得到目标检测框。
2.根据权利要求1所述的方法,其特征在于,所述通过所述多个偏移参数对所述检测框进行外扩得到目标检测框,包括:
在所述多个偏移参数中筛选出大于或等于预设阈值的目标偏移参数,其中,所述目标偏移参数表示所述检测框在目标外扩方向上需要外扩的比例;
根据所述目标偏移参数,将所述检测框在所述目标外扩方向上进行外扩,得到所述目标检测框。
3.根据权利要求2所述的方法,其特征在于,根据所述目标偏移参数,将所述检测框在所述目标外扩方向上进行外扩,包括:
获取所述检测框在所述目标外扩方向上的第一目标坐标值;
通过所述第一目标坐标值和所述目标偏移参数,将所述检测框在所述目标外扩方向上进行外扩,得到所述目标检测框。
4.根据权利要求3所述的方法,其特征在于,通过所述第一目标坐标值和所述目标偏移参数,将所述检测框在所述目标外扩方向上进行外扩,包括:
将所述第一目标坐标值与所述目标偏移参数的乘积确定为目标偏移参数;
在所述原始图像上将所述目标检测框的所述目标外扩方向外扩所述目标偏移参数,得到所述目标检测框。
5.根据权利要求4所述的方法,其特征在于,在所述原始图像上将所述目标检测框的所述目标外扩方向外扩所述目标偏移参数,得到所述目标检测框,包括:
在所述目标外扩方向为所述检测框的左侧的情况下,将所述检测框的左侧的坐标值确定为所述第一目标坐标值;将所述第一目标坐标值与所述目标偏移参数的差确定为第二目标值;在所述原始图像上确定所述第二目标坐标值,并将所述第二目标坐标值确定为所述目标检测框左侧的坐标值;
在所述目标外扩方向为所述检测框的右侧的情况下,将所述检测框的右侧的坐标值确定为所述第一目标坐标值;将所述第一目标坐标值与所述目标偏移参数的和确定为第三目标值;在所述原始图像上确定所述第三目标坐标值,并将所述第三目标坐标值确定为所述目标检测框右侧的坐标值;
在所述目标外扩方向为所述检测框的上方的情况下,将所述检测框的上方的坐标值确定为所述第一目标坐标值;将所述第一目标坐标值与所述目标偏移参数的差确定为第四目标值;在所述原始图像上确定所述第四目标坐标值,并将所述第四目标坐标值确定为所述目标检测框上方的坐标值;
在所述目标外扩方向为所述检测框的下方的情况下,将所述检测框的下方的坐标值确定为所述第一目标坐标值;将所述第一目标坐标值与所述目标偏移参数的和确定为第五目标值;在所述原始图像上确定所述第五目标坐标值,并将所述第五目标坐标值确定为所述目标检测框下方的坐标值。
6.根据权利要求1至5中任一项所述的方法,其特征在于,在所述将所述检测框输入目标回归网络之前,所述方法还包括:
获取训练样本集合,其中,所述训练样本集合中包括多个样本检测框;
使用所述训练样本集合对初始回归网络模型进行迭代训练,得到所述目标回归网络。
7.根据权利要求6所述的方法,其特征在于,使用所述训练样本集合对初始回归网络模型进行迭代训练,得到所述目标回归网络,包括:
对所述样本检测框进行两次不同的变换,得到第一样本检测框和第二样本检测框;
将所述第一样本检测框输入所述初始回归网络的第一神经网络,得到第一预估偏移参数;
将所述第二样本检测框输入所述初始回归网络的第二神经网络,得到第二预估偏移参数;
在所述第一预估偏移参数与所述第二预估偏移参数满足预设收敛条件的情况下,得到所述目标回归网络。
8.一种检测框的外扩装置,其特征在于,包括:
获取模块,用于获取待扩展的检测框,其中,所述检测框是在原始图像中检测出的框;
回归模块,用于将所述检测框输入目标回归网络,通过所述目标回归网络对所述检测框进行前向回归,得到所述目标回归网络输出的多个偏移参数,其中,每个所述偏移参数与检测框的外扩方向一一对应,每个所述偏移参数表示在与该偏移参数对应外扩方向上所述检测框需要外扩的比例;
外扩模块,用于通过所述多个偏移参数对所述检测框进行外扩得到目标检测框。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至7任一项中所述的方法的步骤。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311146778.9A CN117078919A (zh) | 2023-09-06 | 2023-09-06 | 检测框的外扩方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311146778.9A CN117078919A (zh) | 2023-09-06 | 2023-09-06 | 检测框的外扩方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117078919A true CN117078919A (zh) | 2023-11-17 |
Family
ID=88702315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311146778.9A Pending CN117078919A (zh) | 2023-09-06 | 2023-09-06 | 检测框的外扩方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117078919A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117935225A (zh) * | 2024-03-13 | 2024-04-26 | 安徽蔚来智驾科技有限公司 | 交通信号灯的遮挡识别方法、智能设备及存储介质 |
-
2023
- 2023-09-06 CN CN202311146778.9A patent/CN117078919A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117935225A (zh) * | 2024-03-13 | 2024-04-26 | 安徽蔚来智驾科技有限公司 | 交通信号灯的遮挡识别方法、智能设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10726599B2 (en) | Realistic augmentation of images and videos with graphics | |
JP2022534337A (ja) | ビデオターゲット追跡方法と装置、コンピュータ装置、プログラム | |
JP5985622B2 (ja) | オプティカルフローを決定するためのコンテンツ適応型システム、方法、及び装置 | |
CN111476710B (zh) | 基于移动平台的视频换脸方法及系统 | |
CN110648397A (zh) | 场景地图生成方法、装置、存储介质及电子设备 | |
AU2019477545B2 (en) | Methods for handling occlusion in augmented reality applications using memory and device tracking and related apparatus | |
WO2021051868A1 (zh) | 目标的定位方法及装置、计算机设备、计算机存储介质 | |
CA3137297C (en) | Adaptive convolutions in neural networks | |
CN103049891B (zh) | 基于自适应窗口选择的视频图像去模糊方法 | |
CN117078919A (zh) | 检测框的外扩方法及装置 | |
CN109410316A (zh) | 物体的三维重建的方法、跟踪方法、相关装置及存储介质 | |
CN112380955B (zh) | 动作的识别方法及装置 | |
CN111241924A (zh) | 基于尺度估计的人脸检测及对齐方法、装置、存储介质 | |
CN114445651A (zh) | 一种语义分割模型的训练集构建方法、装置及电子设备 | |
CN113505799A (zh) | 显著性检测方法及其模型的训练方法和装置、设备、介质 | |
CN112819937B (zh) | 一种自适应多对象光场三维重建方法、装置及设备 | |
CN117095300B (zh) | 建筑图像处理方法、装置、计算机设备和存储介质 | |
CN112446845A (zh) | 地图构建方法、装置、slam系统以及存储介质 | |
CN109493279B (zh) | 一种大规模无人机图像并行拼接方法 | |
CN108810319A (zh) | 图像处理装置和图像处理方法 | |
CN111310772A (zh) | 用于双目视觉slam的点线特征选取方法及系统 | |
CN108898045B (zh) | 基于深度学习的手势识别的多标签图像预处理方法 | |
CN110059742A (zh) | 基于深度学习的安全护具穿戴识别方法及设备 | |
CN109785435A (zh) | 一种墙体重建方法及装置 | |
CN115019057A (zh) | 图像特征提取模型确定方法及装置、图像识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |