CN112699808B - 密集目标检测方法、电子设备及相关产品 - Google Patents
密集目标检测方法、电子设备及相关产品 Download PDFInfo
- Publication number
- CN112699808B CN112699808B CN202011634385.9A CN202011634385A CN112699808B CN 112699808 B CN112699808 B CN 112699808B CN 202011634385 A CN202011634385 A CN 202011634385A CN 112699808 B CN112699808 B CN 112699808B
- Authority
- CN
- China
- Prior art keywords
- network
- image
- frame information
- candidate frame
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 125
- 238000003062 neural network model Methods 0.000 claims abstract description 93
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000012216 screening Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 230000001629 suppression Effects 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 65
- 230000006870 function Effects 0.000 claims description 57
- 238000012545 processing Methods 0.000 claims description 37
- 238000013507 mapping Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 13
- 238000007670 refining Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 description 45
- 238000013441 quality evaluation Methods 0.000 description 29
- 238000009826 distribution Methods 0.000 description 21
- 238000005457 optimization Methods 0.000 description 11
- 230000003044 adaptive effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 239000006096 absorbing agent Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000006233 lamp black Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种密集目标检测方法、电子设备及相关产品,所述方法包括:获取待处理图像;对所述待处理图像进行预处理,得到第一图像;将所述第一图像输入到预设神经网络模型中,得到第一候选框信息,所述预设神经网络模型包括主干网、分类与回归子网络以及中心点检测网络,所述主干网用于获取图像的特征图,所述分类与回归子网络用于获取特征图的候选框信息;所述中心点检测网络用于获取图像的中心点特征图,对获取的回归框信息进行重排,获取重排后的候选框信息,所述第一候选框信息为重排后的候选框信息;采用非极大值抑制方式对第一候选框信息进行筛选,得到第二候选框信息。采用本申请实施例可以提升密集目标检测精度。
Description
技术领域
本申请涉及图像处理技术领域,具体涉及一种密集目标检测方法、电子设备及相关产品。
背景技术
目标检测作为计算机视觉中最基本的任务,主要解决目标的分类与定位问题,广泛应用于智能驾驶、安防监控、智慧城市、人机交互等方面。而密集目标检测是将背景多变、目标数量及尺度变化多样、目标特征不明显等复杂场景中的目标与背景分离,在目标检测领域中极具挑战性。同时,在遥感目标检测、人群计数和质量检测等领域的应用需求也在不断增加。
尽管基于深度学习的目标检测方法已取得了突破性的进展,如使用更深更宽的主干网络、融入多尺度的特征、引入注意力模型等方法都构建了强大的目标检测器,提升了目标检测的精度和速度。但是针对数据分布不均、目标类别和数目众多、目标尺度和变化较大的密集场景下的目标检测方法,依然存在误检和漏检的问题。因此很多研究者提出使用数据增强、增加模型输入分辨率、使用多网络级联以及多尺度融合上下文信息等方法提升密集目标的检测性能。虽然这些方法很大程度提升了密集目标的检测精度,但是仍然存在边界框定位不准的问题,而且密集目标检测的整体精度不高,因此,如何提升密集目标检测精度的问题亟待解决。
发明内容
本申请实施例提供了一种密集目标检测方法及相关产品,能够提升密集目标检测精度。
第一方面,本申请实施例提供一种密集目标检测方法,应用于电子设备,所述方法包括:
获取待处理图像;
对所述待处理图像进行预处理,得到第一图像;
将所述第一图像输入到预设神经网络模型中,得到第一候选框信息,所述预设神经网络模型包括主干网、分类与回归子网络以及中心点检测网络,所述主干网用于获取图像的特征图,所述分类与回归子网络用于获取特征图的候选框信息;所述中心点检测网络用于获取图像的中心点特征图,对获取的回归框信息进行重排,以获取重排后的候选框信息,所述第一候选框信息为重排后的候选框信息;
采用非极大值抑制方式对重排后的候选框信息进行筛选,得到第二候选框信息。
第二方面,本申请实施例提供一种密集目标检测装置,应用于电子设备,所述装置包括:获取单元、处理单元、运算单元和筛选单元,其中,
所述获取单元,用于获取待处理图像;
所述处理单元,用于对所述待处理图像进行预处理,得到第一图像;
所述运算单元,用于将所述第一图像输入到预设神经网络模型中,得到第一候选框信息,所述预设神经网络模型包括主干网、分类与回归子网络以及中心点检测网络,所述主干网用于获取图像的特征图,所述分类与回归子网络用于获取特征图的候选框信息;所述中心点检测网络用于获取图像的中心点特征图,对获取的回归框信息进行重排,以获取重排后的候选框信息,所述第一候选框信息为重排后的候选框信息;
所述筛选单元,用于采用非极大值抑制方式对所述第一候选框信息进行筛选,得到第二候选框信息。
第三方面,本申请实施例提供了一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
实施本申请实施例,具备如下有益效果:
可以看出,本申请实施例中所描述的密集目标检测方法、电子设备及相关产品,应用于电子设备,获取待处理图像,对待处理图像进行预处理,得到第一图像,将第一图像输入到预设神经网络模型中,得到第一候选框信息,预设神经网络模型包括主干网、分类与回归子网络以及中心点检测网络,主干网用于获取图像的特征图,分类与回归子网络用于获取特征图的候选框信息;中心点检测网络用于获取图像的中心点特征图,对获取的回归框信息进行重排,以获取重排后的候选框信息,第一候选框信息为重排后的候选框信息,采用非极大值抑制方式对第一候选框信息进行筛选,得到第二候选框信息,能够提升密集目标检测精度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A是本申请实施例提供的一种电子设备的结构示意图;
图1B是本申请实施例提供的一种密集目标检测方法的流程示意图;
图1C是本申请实施例提供的另一种密集目标检测方法的流程示意图;
图2是本申请实施例提供的另一种密集目标检测方法的流程示意图;
图3是本申请实施例提供的另一种电子设备的结构示意图;
图4是本申请实施例提供的一种密集目标检测装置的功能单元组成框图。
具体实施方式
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是在一个可能地示例中还包括没有列出的步骤或单元,或在一个可能地示例中还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例所涉及到的电子设备可以是包括各种图像处理信功能的手持设备、智能机器人、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(UserEquipment,UE),移动台(MobileStation,MS),终端设备(terminal device)等等,电子设备还可以为服务器或者智能家居设备。
本申请实施例中,智能家居设备可以为以下至少一种:冰箱、洗衣机、电饭煲、智能窗帘、智能灯、智能床、智能垃圾桶、微波炉、烤箱、蒸箱、空调、油烟机、服务器、智能门、智能窗户、窗门衣柜、智能音箱、智能家居、智能椅、智能晾衣架、智能淋浴、饮水机、净水器、空气净化器、门铃、监控系统、智能车库、电视机、投影仪、智能餐桌、智能沙发、按摩椅、跑步机等等,当然,还可以包括其他设备。
如图1A所示,图1A是本申请实施例提供的一种电子设备的结构示意图。该电子设备包括处理器、存储器、信号处理器、收发器、显示屏、扬声器、麦克风、随机存取存储器(Random Access Memory,RAM)、摄像头、传感器和网络模块等等。其中,存储器、信号处理器DSP、扬声器、麦克风、RAM、摄像头、传感器、网络模块与处理器连接,收发器与信号处理器连接。
其中,处理器是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器内的软体程序和/或模块,以及调用存储在存储器内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控,处理器可以为中央处理器(Central Processing Unit/Processor,CPU)、图形处理器(GraphicsProcessing Unit,GPU)或者网络处理器(Neural-network Processing Unit,NPU)。
进一步地,处理器可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器中。
其中,存储器用于存储软体程序和/或模块,处理器通过运行存储在存储器的软件程序和/或模块,从而执行电子设备的各种功能应用以及目标检测。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的软体程序等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,传感器包括以下至少一种:光感传感器、陀螺仪、红外接近传感器、振动检测传感器,压力传感器等等。其中,光感传感器,也称为环境光传感器,用于检测环境光亮度。光线传感器可以包括光敏元件和模数转换器。其中,光敏元件用于将采集的光信号转换为电信号,模数转换器用于将上述电信号转换为数字信号。可选的,光线传感器还可以包括信号放大器,信号放大器可以将光敏元件转换的电信号进行放大后输出至模数转换器。上述光敏元件可以包括光电二极管、光电三极管、光敏电阻、硅光电池中的至少一种。
其中,该摄像头可以是可见光摄像头(一般视角摄像头、广角摄像头)、也可以是红外摄像头,还可以为双摄像头(具备测距功能),在此不作限定。
网络模块可以为以下至少一种:蓝牙模块、无线保真(wireless fidelity,Wi-Fi)等等,在此不做限定。
基于上述图1A所描述的电子设备,能够执行如下密集目标检测方法,具体步骤如下:
获取待处理图像;
对所述待处理图像进行预处理,得到第一图像;
将所述第一图像输入到预设神经网络模型中,得到第一候选框信息,所述预设神经网络模型包括主干网、分类与回归子网络以及中心点检测网络,所述主干网用于获取图像的特征图,所述分类与回归子网络用于获取特征图的候选框信息;所述中心点检测网络用于获取图像的中心点特征图,对获取的回归框信息进行重排,以获取重排后的候选框信息,所述第一候选框信息为重排后的候选框信息;
采用非极大值抑制方式对所述第一候选框信息进行筛选,得到第二候选框信息。
可以看出,本申请实施例中所描述的电子设备,获取待处理图像,对待处理图像进行预处理,得到第一图像,将第一图像输入到预设神经网络模型中,得到第一候选框信息,预设神经网络模型包括主干网、分类与回归子网络以及中心点检测网络,主干网用于获取图像的特征图,分类与回归子网络用于获取特征图的候选框信息;中心点检测网络用于获取图像的中心点特征图,对获取的回归框信息进行重排,以获取重排后的候选框信息,第一候选框信息为重排后的候选框信息,采用非极大值抑制方式对第一候选框信息进行筛选,得到第二候选框信息,能够提升密集目标检测精度。
可选地,在所述获取待处理图像之前,所述方法还包括:
获取初始神经网络模型,所述初始神经网络模型包括所述主干网、所述中心点检测网络和所述分类与回归子网络;
获取样本图像;
采用基于中心点反馈的自适应mosaic增强方式通过所述主干网和所述中心点检测网络对所述样本图像进行训练,得到训练结果;
通过所述分类与回归子网络对所述训练结果进行提炼,得到提炼结果;
通过所述中心点检测网络对所述训练结果的候选框进行重排,得到更新后的候选框;
通过所述更新后的候选框和所述提炼结果调节所述初始神经网络模型的模型参数;
将模型参数符合预设要求的所述初始神经网络模型作为所述预设神经网络模型。
因此,基于上述本申请实施例,针对密集目标检测中出现的数据分布不均、密集目标定位不准的问题,本申请实施例,提出了一种基于中心点监督和反馈的密集目标检测方法,提出了基于中心点反馈的自适应mosaic增强方法,使得训练时数据的分布尽可能的均匀;然后使用改进的分类和回归子网络对分类和回归定位进行第一次提炼,随后使用基于中心点监督的方法对候选框重排,进一步提升目标定位的准确性。该专利方法不仅实现了密集目标的精确定位,而且提升了密集目标的检测精度和性能。
请参阅图1B,图1B是本申请实施例提供的一种密集目标检测方法的流程示意图,如图所示,应用于如图1A所示的电子设备,本目标检测方法包括:
101、获取待处理图像。
其中,待处理图像可以为包括目标的图像,目标可以为以下至少一种:人、车辆、车牌、猫、狗或者其他物体,在此不作限定。
102、对所述待处理图像进行预处理,得到第一图像。
具体实现中,电子设备可以对待处理图像进行预处理,预处理可以为以下至少一种:图像增强、旋转、缩放、镜像、裁剪等等,在此不作限定。
具体地,电子设备可以收集不同摄像头下不同状态下的图像,统一图片尺寸,并通过缩放、镜像以及裁剪等方式对数据增强处理,进而,可以得到第一图像。即在数据预处理阶段,可以将图像归一化到同一尺度大小,然后,为提高网络模型的识别能力和泛化能力,可以采取图像镜像、随机裁剪以及缩放等方法进行增强。
103、将所述第一图像输入到预设神经网络模型中,得到第一候选框信息,所述预设神经网络模型包括主干网、分类与回归子网络以及中心点检测网络,所述主干网用于获取图像的特征图,所述分类与回归子网络用于获取特征图的候选框信息;所述中心点检测网络用于获取图像的中心点特征图,对获取的回归框信息进行重排,以获取重排后的候选框信息,所述第一候选框信息为重排后的候选框信息。
具体实现中,电子设备可以使用得到模型通过测试网络对图像中的目标进行检测,得到目标框坐标、分类置信度等信息,测试网络也可以为神经网络模型,其能够用于实现目标提取,第一候选框信息可以为以下至少一种:坐标、置信度等等,在此不作限定。预设神经网络模型可以为以下至少一种:卷积神经网络模型、脉冲神经网络模型、全连接神经网络模型、循环神经网络模型等等,在此不作限定。主干网可以为yolov4剪枝后的网络。主干网用于获取图像的特征图,分类与回归子网络用于获取特征图的候选框信息,中心点检测网络用于获取图像的中心点特征图,对获取的回归框信息进行重排,以获取重排后的候选框信息,第一候选框信息为重排后的候选框信息。
104、采用非极大值抑制方式对所述第一候选框信息进行筛选,得到第二候选框信息。
具体实现中,电子设备可以通过非极大值抑制等后处理方式对第一候选框进行筛选,得到最终的候选框的类别和位置信息,第二候选框信息可以为以下至少一种:坐标、置信度等等,在此不作限定。
基于上述本申请实施例,电子设备可以基于中心点监督和反馈的密集目标检测方法,在yolov4剪枝后的网络为主干的基础上,提出了基于中心点反馈的自适应mosaic增强方法,使得训练时数据的分布尽可能的均匀;然后,使用改进的分类和回归子网络对分类和回归定位进行第一次提炼,随后使用基于中心点监督的方法对候选框重排,最后通过改进的多任务损失函数,实现密集目标的分类和回归。总体训练网络结构图如图1C所示,以下主要介绍基于中心点反馈的自适应mosaic增强方法、分类和回归子网络改进方法、基于中心点监督的检测框重排策略以及改进的损失函数。
可选地,在步骤101,获取待处理图像之前,还可以包括如下步骤:
A1、获取初始神经网络模型,所述初始神经网络模型包括所述主干网、所述中心点检测网络和所述分类与回归子网络;
A2、获取样本图像;
A3、采用基于中心点反馈的自适应mosaic增强方式通过所述主干网和所述中心点检测网络对所述样本图像进行训练,得到训练结果;
A4、通过所述分类与回归子网络对所述训练结果进行提炼,得到提炼结果;
A5、通过所述中心点检测网络对所述训练结果的候选框进行重排,得到更新后的候选框;
A6、通过所述更新后的候选框和所述提炼结果调节所述初始神经网络模型的模型参数;
A7、将模型参数符合预设要求的所述初始神经网络模型作为所述预设神经网络模型。
具体实现中,初始神经网络模型可以为以下至少一种:卷积神经网络模型、脉冲神经网络模型、全连接神经网络模型、循环神经网络模型等等,在此不作限定,预设要求可以由用户自行设置或者系统默认,例如,模型参数满足收敛条件。如图1C所示,电子设备可以获取初始神经网络模型,该初始神经网络模型包括主干网、中心点检测网络和分类与回归子网络,还可以获取样本图像,采用基于中心点反馈的自适应mosaic增强方式通过主干网和中心点检测网络对样本图像进行训练,得到训练结果,还可以通过分类与回归子网络对训练结果进行提炼,得到提炼结果,通过中心点检测网络对训练结果的候选框进行重排,得到更新后的候选框,并通过更新后的候选框和提炼结果调节初始神经网络模型的模型参数,最后,将模型参数符合预设要求的初始神经网络模型作为预设神经网络模型。
在执行步骤A5的过程中,电子设备可以基于中心点监督的检测框重排策略。即可以通过多尺度特征融合提取中心点的特征映射图,根据提取的中心点对通过目标检测器检测到的候选框进行重排。在训练时增加检测的候选框与检测的中心点接近的候选框的得分,优先更新候选框得分高的候选框,然后在更新相对准确的候选框。其中重排策略的公式为:
其中,和/>分别表示更新后的候选框,更新前的候选框以及预测中心点的网络得分,d(cj,bi)表示中心点cj和bi中左上点(xbi,ybi)位置的距离,/>和/>为框bi的宽和高,λ为调节参数。
可选地,上述步骤A3,采用基于中心点反馈的自适应mosaic增强方式通过所述主干网和所述中心点检测网络对所述样本图像进行训练,得到训练结果,可以包括如下步骤:
A31、通过所述主干网获取所述样本图像的标记框,得到P个标记框,所述P为正整数;
A32、通过所述中心点检测网络确定所述P个标记框中所有标记框的中心点之间的平均距离;
A33、以所述P个标记框中每一标记框的中心点为中心、所述平均距离为直径的圆形区域中数量最小且大于第一预设值的区域的中心数量;
A34、以所述中心数量对应的中心点为圆心、所述平均距离为直径对预测点进行区域划分,并记所有区域点数大于或等于第二预设值的区域为密集区域集;
A35、确定所述密集区域集中所有点的损失与基于中心点监督的损失函数的占比;
A36、在所述占比大于第三预设值时,则使用所述样本图像继续训练;
A37、在所述占比小于或等于所述第三预设值时,则采用mosaic对所述样本图像进行拼接增强,再基于拼接增强后的所述样本图像进行训练。
其中,第一预设值、第二预设值和第三预设值均可以由用户自行设置或者系统默认。
具体实现中,电子设备可以通过主干网获取样本图像的标记框,得到P个标记框,P为正整数,还可以通过中心点检测网络确定P个标记框中所有标记框的中心点之间的平均距离,进而,以P个标记框中每一标记框的中心点为中心、平均距离为直径的圆形区域中数量最小且大于第一预设值的区域的中心数量。进一步地,电子设备可以以中心数量对应的中心点为圆心、平均距离为直径对预测点进行区域划分,并记所有区域点数大于或等于第二预设值的区域为密集区域集,还可以确定密集区域集中所有点的损失与基于中心点监督的损失函数的占比,在占比大于第三预设值时,则使用样本图像继续训练,在占比小于或等于第三预设值时,则采用mosaic对样本图像进行拼接增强,再基于拼接增强后的所述样本图像进行训练,进而,可以得到训练结果。
具体地,电子设备可以基于中心点反馈的自适应mosaic增强方法。首先,电子设备可以计算出所有标记框中心点之间的平均距离d,以标记框中心点为中心,d/2为半径的圆区域中点数量最小且大于(第一预设值可以为1)的区域中点的数目N;然后,根据中心点检测到的结果,分别以检测到的中心点为圆心,d/2为半径对预测点进行区域划分,记所有区域点数大于等于N(第二预设值可以为N)的区域为密集区域集D,则密集区域损失为D中所有点的损失Lden。因此,可得到密集区域的损失占比为:
其中,基于中心点监督的损失函数为:
若δ为第三预设值,则电子设备可以使用原始图像继续训练,否则选择mosaic对图像进行拼接增强,然后投入训练。
进一步地,可选地,上述步骤A4,通过所述分类与回归子网络对所述训练结果进行提炼,得到提炼结果,可以包括如下步骤:
A41、对检测器得到回归子网络中得到的特征向量进行DCN处理,得到处理结果;
A42、将所述处理结果融合至所述回归子网络和所述检测器的分类子网络;
A43、获取所述回归子网络和所述分类子网络的预测结果;
A44、将所述预测结果映射到所述样本图像的特征图上,并对每个投影点的特征进行DCN,得到边界框;
A45、对所述边界框进行卷积和回归处理,得到目标偏移量;
A46、基于所述目标偏移量与最初的特征进行卷积,得到新的候选框;
A47、基于所述预测到的候选框和所述新的候选框确定所述分类与回归子网络的损失函数。
具体实现中,检测器可以包括分类子网络和回归子网络。电子设备可以对检测器得到回归子网络中得到的特征向量进行DCN处理,得到处理结果,将处理结果融合至回归子网络和检测器的分类子网络,获取回归子网络和分类子网络的预测结果,将预测结果映射到样本图像的特征图上,并对每个投影点的特征进行DCN,得到边界框,对边界框进行卷积和回归处理,得到目标偏移量基于目标偏移量与最初的特征进行卷积,得到新的候选框,基于预测到的候选框和新的候选框确定分类与回归子网络的损失函数。
本申请实施例中,电子设备可以对分类和回归子网络改进。在以yolov4剪枝后的网络作为主干网的基础上,对检测器的回归子网络中得到的特征向量进行可变卷积模块(Deformable Convolution Network,DCN)处理,以改变感受野的范围;然后,分别与分类和回归子网络结合,对分类和回归的预测结果进一步提炼。根据预测到的候选框的位置信息(x,y,w,h),可以分别计算出检测框的边界位置坐标、中心点坐标和各边中心点坐标,共取9个坐标点(x,y),(x+w/2,y),(x+w,y),(x,y+h/2),(x,y+w),(x+w/2,y+h/2),(x+w/2,y+h),(x+w,y+h/2),(x+w,y+h)。然后,映射到特征图上并对每个投影点的特征通过DCN处理获取一个边界框,即对此ROI区域添加位偏移量,最后,经过卷积和回归处理得到候选框的偏移量,从而与最初获取的特征进行卷积得到新的候选框。同时,在分类子网络中,目标类别的分类准确率综合了分类精度和候选框的置信度。分类与回归子网络的损失函数包含新的分类损失、提炼前的回归损失和提炼后的回归损失三个部分。即其损失函数的公式为:
Ldet=Lcls+Lreg1+Lreg2
其中,Lreg1=Lciou(bpro1,bgt),Lreg2=Lciou(bpro2,bgt),bpro1,bpro2,bgt分别表示第一次候选框的位置、第二次候选框的位置以及标记框的位置信息,Lciou表示使用CIoU损失函数。
可选地,上述并步骤A6,通过所述更新后的候选框和所述提炼结果调节所述初始神经网络模型的模型参数,可以包括如下步骤:
A61、获取所述初始神经网络模型的目标损失函数,所述损失函数由所述主干网的损失函数和所述分类与回归子网络的损失函数构成;
A62、通过所述更新后的候选框、所述提炼结果和所述目标损失函数调节所述初始神经网络模型的模型参数。
其中,本申请实施例中,设计了一个新的损失函数,其主要综合了改进后分类和回归子网络的损失函数,并额外添加点级损失函数,用于监督候选框的回归。设α1,α2为调节参数,则整体的损失函数,即目标损失函数Lall为:
Lall=α1Ldet+α2Lp
具体地,电子设备可以获取初始神经网络模型的目标损失函数,该损失函数由主干网的损失函数和分类与回归子网络的损失函数构成,通过更新后的候选框、提炼结果(候选框)和目标损失函数调节初始神经网络模型的模型参数。
基于上述本申请实施例,其一,为解决数据集中数据分布不均的问题,提出了中心点反馈的自适应mosaic增强方法,具体地,可以根据迭代时中心点的检测结果反馈下一次迭代数据的选择,主要通过计算密集区域损失占比,若低于设定的阈值δ,则在下次迭代时选择mosaic增强后的图像,否则使用正常图像。便于以平衡的方式训练目标检测器;其二,为了解决密集场景下目标的精确定位和识别问题,在分类和回归子网络中候选框回归位置添加可变卷积,扩大特征的感受野,用于对候选框和分类结果进行精炼,以增加候选框特征定位和识别精度;其三,为解决密集场景目标定位不准问题,使用中心点监督的方法对候选框重排,首先更新重排后得分概率高的类别的概率(如大目标和稀疏目标),然后更新稍微精确的困难样本的概率(如小目标和密集目标),从而,在训练中更加关注密集区域的检测定位。
在一个可能地示例中,在样本图像为人脸图像时,上述步骤A2,获取样本图像,可以包括如下步骤:
A21、获取参考图像;
A22、对所述参考图像进行图像质量评价,得到人脸图像质量评价值;
A23、在所述人脸图像质量评价值大于预设图像质量评价值时,将所述参考图像作为所述样本图像。
其中,本申请实施例中,预设图像质量评价值可以预先保存在电子设备,其可以由用户自行设置或者系统默认。参考图像可以为人脸图像。
具体实现中,电子设备可以获取参考图像,并且可以采用至少一个图像质量评价指标对参考图像进行图像质量评价,得到人脸图像质量评价值,图像质量评价指标可以为以下至少一种:人脸偏差度、人脸完整度、清晰度、特征点分布密度、平均梯度、信息熵、信噪比等等,在此不作限定。再者,电子设备可以在人脸图像评价值大于预设图像质量评价值时,将其作为样本图像。其中,人脸偏差度为图像中人脸角度与正脸的人脸角度之间的偏差度,人脸完整度为图像中人脸的面积与完整人脸面积之间的比值。
在一个可能地示例中,上述步骤A22,对所述参考图像进行图像质量评价,得到人脸图像质量评价值,可以包括如下步骤:
A221、获取参考图像的目标人脸偏差度、所述参考图像的目标人脸完整度、所述参考图像的目标特征点分布密度和目标信息熵;
A222、在所述目标人脸偏差度大于预设偏差度且所述目标人脸完整度大于预设完整度时,按照预设的人脸偏差度与第一参考评价值之间的映射关系,确定所述目标人脸偏差度对应的目标第一参考评价值;
A223、按照预设的人脸完整度与第二参考评价值之间的映射关系,确定所述目标人脸完整度对应的目标第二参考评价值;
A224、按照预设的特征点分布密度与权值对之间的映射关系,确定所述目标特征点分布密度对应的目标权值对,所述目标权值对包括目标第一权值和目标第二权值,所述目标第一权值为所述第一参考评价值对应的权值,所述目标第二权值为所述第二参考评价值对应的权值;
A225、依据所述目标第一权值、所述目标第二权值、所述目标第一参考评价值和所述目标第二参考评价值进行加权运算,得到第一参考评价值;
A226、按照预设的特征点分布密度与图像质量评价值之间的映射关系,确定所述目标特征点分布密度对应的第一图像质量评价值;
A227、按照预设的信息熵与图像质量偏差值之间的映射关系,确定所述目标信息熵对应的目标图像质量偏差值;
A228、获取所述参考图像的第一拍摄参数;
A229、按照预设的拍摄参数与优化系数之间的映射关系,确定所述第一拍摄参数对应的目标优化系数;
A230、依据所述目标优化系数、所述目标图像质量偏差值对所述第一图像质量评价值进行调整,得到第二参考评价值;
A231、获取所述参考图像对应的目标环境参数;
A232、按照预设的环境参数与权重系数对之间的映射关系,确定所述目标环境参数对应的目标权重系数对,所述目标权重系数对包括目标第一权重系数和目标第二权重系数,所述目标第一权重系数为所述第一参考评价值对应的权重系数,所述目标第二权重系数为所述第二参考评价值对应的权重系数;
A233、依据所述目标第一权重系数、所述目标第二权重系数、所述第一参考评价值和所述第二参考评价值进行加权运算,得到所述参考图像的人脸图像质量评价值。
其中,本申请实施例中,预设偏差度、预设完整度均可以由用户自行设置或者系统默认,两者只有均处于一定范围才可能被人脸识别成功。电子设备中可以预先存储预设的人脸偏差度与第一参考评价值之间的映射关系、预设的人脸完整度与第二参考评价值之间的映射关系、预设的特征点分布密度与权值对之间的映射关系,该权值对可以包括第一权值和第二权值,第一权值与第二权值之和为1,第一权值为第一参考评价值对应的权值,第二权值为第二参考评价值对应的权值。电子设备中还可以预先存储预设的特征点分布密度与图像质量评价值之间的映射关系、预设的信息熵与图像质量偏差值之间的映射关系、预设的拍摄参数与优化系数之间的映射关系以及预设的环境参数与权重系数对之间的映射关系。其中,权重系数对可以包括第一权重系数和第二权重系数,第一权重系数为第一参考评价值对应的权重系数,第二权重系数为第二参考评价值对应的权重系数,第一权重系数与第二权重系数之和为1。
其中,图像质量评价值的取值范围可以为0~1,或者,也可以为0~100。图像质量偏差值可以为正实数,例如,0~1,或者,也可以大于1。优化系数的取值范围可以为-1~1之间,例如,优化系数可以为-0.1~0.1。本申请实施例中,拍摄参数可以为以下至少一种:曝光时长、拍摄模式、感光度ISO、白平衡参数、焦距、焦点、感兴趣区域等等,在此不做限定。环境参数可以为以下至少一种:环境亮度、环境温度、环境湿度、天气、大气压、磁场干扰强度等等,在此不作限定。
具体实现中,以参考图像为例,参考图像为人脸图像集中的任一人脸图像,电子设备可以获取参考图像的目标人脸偏差度、参考图像的目标人脸完整度、参考图像的目标特征点分布密度和目标信息熵,其中,目标特征点分布密度可以为参考图像的特征点总数与该参考图像的面积之间的比值。
进而,在目标人脸偏差度大于预设偏差度且目标人脸完整度大于预设完整度时,电子设备可以按照预设的人脸偏差度与第一参考评价值之间的映射关系,确定目标人脸偏差度对应的目标第一参考评价值,还可以按照预设的人脸完整度与第二参考评价值之间的映射关系,确定目标人脸完整度对应的目标第二参考评价值,以及按照预设的特征点分布密度与权值对之间的映射关系,确定目标特征点分布密度对应的目标权值对,目标权值对包括目标第一权值和目标第二权值,目标第一权值为第一参考评价值对应的权值,目标第二权值为第二参考评价值对应的权值,接着,可以依据目标第一权值、目标第二权值、目标第一参考评价值和目标第二参考评价值进行加权运算,得到第一参考评价值,具体计算公式如下:
第一参考评价值=目标第一参考评价值*目标第一权值+目标第二参考评价值*目标第二权值
进而,可以从人脸角度以及人脸完整度方面,整体评价图像的质量。
进一步地,电子设备可以按照预设的特征点分布密度与图像质量评价值之间的映射关系,确定目标特征点分布密度对应的第一图像质量评价值,以及按照预设的信息熵与图像质量偏差值之间的映射关系,确定目标信息熵对应的目标图像质量偏差值。电子设备可以按照预设的信息熵与图像质量偏差值之间的映射关系,确定目标信息熵对应的目标图像质量偏差值,由于在生成图像的时候,由于外部(天气、光线、角度、抖动等)或者内部(系统、GPU)原因,产生一些噪声,这些噪声对图像质量会带来一些影响,因此,可以对图像质量进行一定程度调节,以保证对图像质量进行客观评价。
进一步地,电子设备还可以获取目标人脸图像的第一拍摄参数,按照预设的拍摄参数与优化系数之间的映射关系,确定第一拍摄参数对应的目标优化系数,拍摄的参数设置也可能对图像质量评价带来一定的影响,因此,需要确定拍摄参数对图像质量的影响成分,最后,依据目标优化系数、目标图像质量偏差值对第一图像质量评价值进行调整,得到第二参考评价值,其中,第二参考评价值可以按照如下公式得到:
在图像质量评价值为百分制的情况下,具体计算公式如下:
第二参考评价值=(第一图像质量评价值+目标图像质量偏差值)*(1+目标优化系数)
在图像质量评价值为百分比的情况下,具体计算公式如下:
第二参考评价值=第一图像质量评价值*(1+目标图像质量偏差值)*(1+目标优化系数)
进一步地,电子设备可以获取参考图像对应的目标环境参数,且按照预设的环境参数与权重系数对之间的映射关系,确定目标环境参数对应的目标权重系数对,目标权重系数对包括目标第一权重系数和目标第二权重系数,目标第一权重系数为第一参考评价值对应的权重系数,目标第二权重系数为第二参考评价值对应的权重系数,进而,可以依据目标第一权重系数、目标第二权重系数、第一参考评价值和第二参考评价值进行加权运算,得到参考图像的人脸图像质量评价值,具体计算公式如下:
参考图像的人脸图像质量评价值=第一参考评价值*目标第一权重系数+第二参考评价值*目标第二权重系数
如此,可以结合内部、外部环境因素、拍摄设置因素以及人脸角度以及完整度等影响,对图像质量进行客观评价,有助于提升人脸图像质量评价精准度。
可以看出,本申请实施例中所描述的密集目标检测方法,应用于电子设备,获取待处理图像,对待处理图像进行预处理,得到第一图像,将第一图像输入到预设神经网络模型中,得到第一候选框信息,预设神经网络模型包括主干网、分类与回归子网络以及中心点检测网络,主干网用于获取图像的特征图,分类与回归子网络用于获取特征图的候选框信息;中心点检测网络用于获取图像的中心点特征图,对获取的回归框信息进行重排,以获取重排后的候选框信息,第一候选框信息为重排后的候选框信息,采用非极大值抑制方式对第一候选框信息进行筛选,得到第二候选框信息,能够提升密集目标检测精度。
与上述图1B所示的实施例一致地,请参阅图2,图2是本申请实施例提供的一种密集目标检测方法的流程示意图,应用于如图1A所示的电子设备,本目标检测方法包括:
201、获取初始神经网络模型,所述初始神经网络模型包括所述主干网、中心点检测网络和所述分类与回归子网络。
202、获取样本图像。
203、采用基于中心点反馈的自适应mosaic增强方式通过所述主干网和所述中心点检测网络对所述样本图像进行训练,得到训练结果。
204、通过所述分类与回归子网络对所述训练结果进行提炼,得到提炼结果。
205、通过所述中心点检测网络对所述训练结果的候选框进行重排,得到更新后的候选框。
206、通过所述更新后的候选框和所述提炼结果调节所述初始神经网络模型的模型参数。
207、将模型参数符合预设要求的所述初始神经网络模型作为预设神经网络模型。
208、获取待处理图像。
209、对所述待处理图像进行预处理,得到第一图像。
210、将所述第一图像输入到预设神经网络模型中,得到第一候选框信息,所述预设神经网络模型包括主干网、分类与回归子网络以及中心点检测网络,所述主干网用于获取图像的特征图,所述分类与回归子网络用于获取特征图的候选框信息;所述中心点检测网络用于获取图像的中心点特征图,对获取的回归框信息进行重排,以获取重排后的候选框信息,所述第一候选框信息为重排后的候选框信息。
211、采用非极大值抑制方式对所述第一候选框信息进行筛选,得到第二候选框信息。
其中,上述步骤201-步骤211的具体描述可以参照上述图1B所描述的密集目标检测方法的相应步骤,在此不再赘述。
可以看出,本申请实施例中所描述的密集目标检测方法,应用于电子设备,针对密集目标检测中出现的数据分布不均、密集目标定位不准的问题,本申请实施例,提出了一种基于中心点监督和反馈的密集目标检测方法,提出了基于中心点反馈的自适应mosaic增强方法,使得训练时数据的分布尽可能的均匀;然后使用改进的分类和回归子网络对分类和回归定位进行第一次提炼,随后使用基于中心点监督的方法对候选框重排,进一步提升目标定位的准确性。该专利方法不仅实现了密集目标的精确定位,而且提升了密集目标的检测精度和性能。
与上述实施例一致地,请参阅图3,图3是本申请实施例提供的一种电子设备的结构示意图,如图所示,该包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,本申请实施例中,上述程序包括用于执行以下步骤的指令:
获取待处理图像;
对所述待处理图像进行预处理,得到第一图像;
将所述第一图像输入到预设神经网络模型中,得到第一候选框信息,所述预设神经网络模型包括主干网、分类与回归子网络以及中心点检测网络,所述主干网用于获取图像的特征图,所述分类与回归子网络用于获取特征图的候选框信息;所述中心点检测网络用于获取图像的中心点特征图,对获取的回归框信息进行重排,以获取重排后的候选框信息,所述第一候选框信息为重排后的候选框信息;
采用非极大值抑制方式对所述第一候选框信息进行筛选,得到第二候选框信息。
可以看出,本申请实施例中所描述的电子设备,获取待处理图像,对待处理图像进行预处理,得到第一图像,将第一图像输入到预设神经网络模型中,得到第一候选框信息,预设神经网络模型包括主干网、分类与回归子网络以及中心点检测网络,主干网用于获取图像的特征图,分类与回归子网络用于获取特征图的候选框信息;中心点检测网络用于获取图像的中心点特征图,对获取的回归框信息进行重排,以获取重排后的候选框信息,第一候选框信息为重排后的候选框信息,采用非极大值抑制方式对第一候选框信息进行筛选,得到第二候选框信息,能够提升密集目标检测精度。
可选地,在所述获取待处理图像之前,上述程序还包括用于执行以下步骤的指令:
获取初始神经网络模型,所述初始神经网络模型包括所述主干网、所述中心点检测网络和所述分类与回归子网络;
获取样本图像;
采用基于中心点反馈的自适应mosaic增强方式通过所述主干网和所述中心点检测网络对所述样本图像进行训练,得到训练结果;
通过所述分类与回归子网络对所述训练结果进行提炼,得到提炼结果;
通过所述中心点检测网络对所述训练结果的候选框进行重排,得到更新后的候选框;
通过所述更新后的候选框和所述提炼结果调节所述初始神经网络模型的模型参数;
将模型参数符合预设要求的所述初始神经网络模型作为所述预设神经网络模型。
可选地,在所述采用基于中心点反馈的自适应mosaic增强方式通过所述主干网和所述中心点检测网络对所述样本图像进行训练,得到训练结果方面,上述程序包括用于执行以下步骤的指令:
通过所述主干网获取所述样本图像的标记框,得到P个标记框,所述P为正整数;
通过所述中心点检测网络确定所述P个标记框中所有标记框的中心点之间的平均距离;
以所述P个标记框中每一标记框的中心点为中心、所述平均距离为直径的圆形区域中数量最小且大于第一预设值的区域的中心数量;
以所述中心数量对应的中心点为圆心、所述平均距离为直径对预测点进行区域划分,并记所有区域点数大于或等于第二预设值的区域为密集区域集;
确定所述密集区域集中所有点的损失与基于中心点监督的损失函数的占比;
在所述占比大于第三预设值时,则使用所述样本图像继续训练;
在所述占比小于或等于所述第三预设值时,则采用mosaic对所述样本图像进行拼接增强,再基于拼接增强后的所述样本图像进行训练。
可选地,在所述通过所述分类与回归子网络对所述训练结果进行提炼,得到提炼结果方面,上述程序包括用于执行以下步骤的指令:
对检测器得到回归子网络中得到的特征向量进行DCN处理,得到处理结果;
将所述处理结果融合至所述回归子网络和所述检测器的分类子网络;
获取所述回归子网络和所述分类子网络的预测结果;
将所述预测结果映射到所述样本图像的特征图上,并对每个投影点的特征进行DCN,得到边界框;
对所述边界框进行卷积和回归处理,得到目标偏移量;
基于所述目标偏移量与最初的特征进行卷积,得到新的候选框。
可选地,在所述通过所述更新后的候选框和所述提炼结果调节所述初始神经网络模型的模型参数方面,上述程序包括用于执行以下步骤的指令:
获取所述初始神经网络模型的目标损失函数,所述损失函数由所述主干网的损失函数和所述分类与回归子网络的损失函数,和中心点检测网络的损失函数构成;
通过所述更新后的候选框、所述提炼结果和所述目标损失函数调节所述初始神经网络模型的模型参数。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图4是本申请实施例中所涉及的密集目标检测装置400的功能单元组成框图,该装置400,应用于电子设备,所述装置400包括:获取单元401、处理单元402、运算单元403和筛选单元404,其中,
所述获取单元401,用于获取待处理图像;
所述处理单元402,用于对所述待处理图像进行预处理,得到第一图像;
所述运算单元403,用于将所述第一图像输入到预设神经网络模型中,得到第一候选框信息,所述预设神经网络模型包括主干网、分类与回归子网络以及中心点检测网络,所述主干网用于获取图像的特征图,所述分类与回归子网络用于获取特征图的候选框信息;所述中心点检测网络用于获取图像的中心点特征图,对获取的回归框信息进行重排,以获取重排后的候选框信息,所述第一候选框信息为重排后的候选框信息;
所述筛选单元404,用于采用非极大值抑制方式对所述第一候选框信息进行筛选,得到第二候选框信息。
可以看出,本申请实施例中所描述的密集目标检测装置,应用于电子设备,获取待处理图像,对待处理图像进行预处理,得到第一图像,将第一图像输入到预设神经网络模型中,得到第一候选框信息,预设神经网络模型包括主干网、分类与回归子网络以及中心点检测网络,主干网用于获取图像的特征图,分类与回归子网络用于获取特征图的候选框信息;中心点检测网络用于获取图像的中心点特征图,对获取的回归框信息进行重排,以获取重排后的候选框信息,第一候选框信息为重排后的候选框信息,采用非极大值抑制方式对第一候选框信息进行筛选,得到第二候选框信息,能够提升密集目标检测精度。
可选地,在所述获取待处理图像之前,所述装置400还具体用于:
获取初始神经网络模型,所述初始神经网络模型包括所述主干网、所述中心点检测网络和所述分类与回归子网络;
获取样本图像;
采用基于中心点反馈的自适应mosaic增强方式通过所述主干网和所述中心点检测网络对所述样本图像进行训练,得到训练结果;
通过所述分类与回归子网络对所述训练结果进行提炼,得到提炼结果;
通过所述中心点检测网络对所述训练结果的候选框进行重排,得到更新后的候选框;
通过所述更新后的候选框和所述提炼结果调节所述初始神经网络模型的模型参数;
将模型参数符合预设要求的所述初始神经网络模型作为所述预设神经网络模型。
可选地,在所述采用基于中心点反馈的自适应mosaic增强方式通过所述主干网和所述中心点检测网络对所述样本图像进行训练,得到训练结果方面,所述装置400具体用于:
通过所述主干网获取所述样本图像的标记框,得到P个标记框,所述P为正整数;
通过所述中心点检测网络确定所述P个标记框中所有标记框的中心点之间的平均距离;
以所述P个标记框中每一标记框的中心点为中心、所述平均距离为直径的圆形区域中数量最小且大于第一预设值的区域的中心数量;
以所述中心数量对应的中心点为圆心、所述平均距离为直径对预测点进行区域划分,并记所有区域点数大于或等于第二预设值的区域为密集区域集;
确定所述密集区域集中所有点的损失与基于中心点监督的损失函数的占比;
在所述占比大于第三预设值时,则使用所述样本图像继续训练;
在所述占比小于或等于所述第三预设值时,则采用mosaic对所述样本图像进行拼接增强,再基于拼接增强后的所述样本图像进行训练。
可选地,所述通过所述分类与回归子网络对所述训练结果进行提炼,得到提炼结果,所述装置400具体用于:
对检测器得到回归子网络中得到的特征向量进行DCN处理,得到处理结果;
将所述处理结果融合至所述回归子网络和所述检测器的分类子网络;
获取所述回归子网络和所述分类子网络的预测结果;
将所述预测结果映射到所述样本图像的特征图上,并对每个投影点的特征进行DCN,得到边界框;
对所述边界框进行卷积和回归处理,得到目标偏移量;
基于所述目标偏移量与最初的特征进行卷积,得到新的候选框。
可选地,在所述通过所述更新后的候选框和所述提炼结果调节所述初始神经网络模型的模型参数方面,所述装置400具体用于:
获取所述初始神经网络模型的目标损失函数,所述损失函数由所述主干网的损失函数和所述分类与回归子网络的损失函数构成;
通过所述更新后的候选框、所述提炼结果和所述目标损失函数调节所述初始神经网络模型的模型参数。
可以理解的是,本实施例的密集目标检测装置的各程序模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (6)
1.一种密集目标检测方法,其特征在于,应用于电子设备,所述方法包括:
获取待处理图像;
对所述待处理图像进行预处理,得到第一图像;
将所述第一图像输入到预设神经网络模型中,得到第一候选框信息,所述预设神经网络模型包括主干网、分类与回归子网络以及中心点检测网络,所述主干网用于获取图像的特征图,所述分类与回归子网络用于获取特征图的候选框信息;所述中心点检测网络用于获取图像的中心点特征图,对获取的回归框信息进行重排,以获取重排后的候选框信息,所述第一候选框信息为重排后的候选框信息;
采用非极大值抑制方式对所述第一候选框信息进行筛选,得到第二候选框信息;
其中,在所述获取待处理图像之前,所述方法还包括:
获取初始神经网络模型,所述初始神经网络模型包括所述主干网、所述中心点检测网络和所述分类与回归子网络;
获取样本图像;
采用基于中心点反馈的自适应mosaic增强方式通过所述主干网和所述中心点检测网络对所述样本图像进行训练,得到训练结果;
通过所述分类与回归子网络对所述训练结果进行提炼,得到提炼结果;
通过所述中心点检测网络对所述训练结果的候选框进行重排,得到更新后的候选框;
通过所述更新后的候选框和所述提炼结果调节所述初始神经网络模型的模型参数;
将模型参数符合预设要求的所述初始神经网络模型作为所述预设神经网络模型;
其中,所述采用基于中心点反馈的自适应mosaic增强方式通过所述主干网和所述中心点检测网络对所述样本图像进行训练,得到训练结果,包括:
通过所述主干网获取所述样本图像的标记框,得到P个标记框,所述P为正整数;
通过所述中心点检测网络确定所述P个标记框中所有标记框的中心点之间的平均距离;
以所述P个标记框中每一标记框的中心点为中心、所述平均距离为直径的圆形区域中数量最小且大于第一预设值的区域的中心数量;
以所述中心数量对应的中心点为圆心、所述平均距离为直径对预测点进行区域划分,并记所有区域点数大于或等于第二预设值的区域为密集区域集;
确定所述密集区域集中所有点的损失与基于中心点监督的损失函数的占比;
在所述占比大于第三预设值时,则使用所述样本图像继续训练;
在所述占比小于或等于所述第三预设值时,则采用mosaic对所述样本图像进行拼接增强,再基于拼接增强后的所述样本图像进行训练。
2.根据权利要求1所述的方法,其特征在于,所述通过所述分类与回归子网络对所述训练结果进行提炼,得到提炼结果,包括:
对检测器得到回归子网络中得到的特征向量进行DCN处理,得到处理结果;
将所述处理结果融合至所述回归子网络和所述检测器的分类子网络;
获取所述回归子网络和所述分类子网络的预测结果;
将所述预测结果映射到所述样本图像的特征图上,并对每个投影点的特征进行DCN,得到边界框;
对所述边界框进行卷积和回归处理,得到目标偏移量;
基于所述目标偏移量与最初的特征进行卷积,得到新的候选框。
3.根据权利要求1所述的方法,其特征在于,所述通过所述更新后的候选框和所述提炼结果调节所述初始神经网络模型的模型参数,包括:
获取所述初始神经网络模型的目标损失函数,所述损失函数由所述主干网的损失函数和所述分类与回归子网络的损失函数,以及中心点检测网络的损失函数构成;
通过所述更新后的候选框、所述提炼结果和所述目标损失函数调节所述初始神经网络模型的模型参数。
4.一种密集目标检测装置,其特征在于,应用于电子设备,所述装置包括:获取单元、处理单元、运算单元和筛选单元,其中,
所述获取单元,用于获取待处理图像;
所述处理单元,用于对所述待处理图像进行预处理,得到第一图像;
所述运算单元,用于将所述第一图像输入到预设神经网络模型中,得到第一候选框信息,所述预设神经网络模型包括主干网、分类与回归子网络以及中心点检测网络,所述主干网用于获取图像的特征图,所述分类与回归子网络用于获取特征图的候选框信息;所述中心点检测网络用于获取图像的中心点特征图,对获取的回归框信息进行重排,以获取重排后的候选框信息,所述第一候选框信息为重排后的候选框信息;
所述筛选单元,用于采用非极大值抑制方式对所述第一候选框信息进行筛选,得到第二候选框信息;
其中,在所述获取待处理图像之前,所述装置还具体用于:
获取初始神经网络模型,所述初始神经网络模型包括所述主干网、所述中心点检测网络和所述分类与回归子网络;
获取样本图像;
采用基于中心点反馈的自适应mosaic增强方式通过所述主干网和所述中心点检测网络对所述样本图像进行训练,得到训练结果;
通过所述分类与回归子网络对所述训练结果进行提炼,得到提炼结果;
通过所述中心点检测网络对所述训练结果的候选框进行重排,得到更新后的候选框;
通过所述更新后的候选框和所述提炼结果调节所述初始神经网络模型的模型参数;
将模型参数符合预设要求的所述初始神经网络模型作为所述预设神经网络模型;
其中,在所述采用基于中心点反馈的自适应mosaic增强方式通过所述主干网和所述中心点检测网络对所述样本图像进行训练,得到训练结果方面,所述装置具体用于:
通过所述主干网获取所述样本图像的标记框,得到P个标记框,所述P为正整数;
通过所述中心点检测网络确定所述P个标记框中所有标记框的中心点之间的平均距离;
以所述P个标记框中每一标记框的中心点为中心、所述平均距离为直径的圆形区域中数量最小且大于第一预设值的区域的中心数量;
以所述中心数量对应的中心点为圆心、所述平均距离为直径对预测点进行区域划分,并记所有区域点数大于或等于第二预设值的区域为密集区域集;
确定所述密集区域集中所有点的损失与基于中心点监督的损失函数的占比;
在所述占比大于第三预设值时,则使用所述样本图像继续训练;
在所述占比小于或等于所述第三预设值时,则采用mosaic对所述样本图像进行拼接增强,再基于拼接增强后的所述样本图像进行训练。
5.一种电子设备,其特征在于,包括处理器、存储器,所述存储器用于存储一个或多个程序,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-3任一项所述的方法中的步骤的指令。
6.一种计算机可读存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-3任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011634385.9A CN112699808B (zh) | 2020-12-31 | 2020-12-31 | 密集目标检测方法、电子设备及相关产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011634385.9A CN112699808B (zh) | 2020-12-31 | 2020-12-31 | 密集目标检测方法、电子设备及相关产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112699808A CN112699808A (zh) | 2021-04-23 |
CN112699808B true CN112699808B (zh) | 2024-06-07 |
Family
ID=75513632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011634385.9A Active CN112699808B (zh) | 2020-12-31 | 2020-12-31 | 密集目标检测方法、电子设备及相关产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112699808B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159193B (zh) * | 2021-04-26 | 2024-05-21 | 京东科技信息技术有限公司 | 模型训练方法、图像识别方法、存储介质及程序产品 |
CN113221754A (zh) * | 2021-05-14 | 2021-08-06 | 深圳前海百递网络有限公司 | 快递单图像检测方法、装置、计算机设备和存储介质 |
CN113408369A (zh) * | 2021-05-31 | 2021-09-17 | 广州忘平信息科技有限公司 | 基于卷积神经网络的客流检测方法、系统、装置和介质 |
CN113673652A (zh) * | 2021-08-12 | 2021-11-19 | 维沃软件技术有限公司 | 二维码的显示方法、装置和电子设备 |
CN116051548B (zh) * | 2023-03-14 | 2023-08-11 | 中国铁塔股份有限公司 | 一种定位方法及装置 |
CN116342849B (zh) * | 2023-05-26 | 2023-09-08 | 南京铖联激光科技有限公司 | 在三维网格上生成牙模倒凹区域的方法 |
CN116758029B (zh) * | 2023-06-15 | 2024-07-26 | 广东灵顿智链信息技术有限公司 | 基于机器视觉的擦窗机移动控制方法及系统 |
CN117710334A (zh) * | 2023-12-15 | 2024-03-15 | 中科南京智能技术研究院 | 图像物体检测方法、装置、介质和设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108427912A (zh) * | 2018-02-05 | 2018-08-21 | 西安电子科技大学 | 基于稠密目标特征学习的光学遥感图像目标检测方法 |
CN109409517A (zh) * | 2018-09-30 | 2019-03-01 | 北京字节跳动网络技术有限公司 | 物体检测网络的训练方法和装置 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
CN110909591A (zh) * | 2019-09-29 | 2020-03-24 | 浙江大学 | 用编码向量的行人图像检测自适应非极大值抑制处理方法 |
CN110929692A (zh) * | 2019-12-11 | 2020-03-27 | 中国科学院长春光学精密机械与物理研究所 | 一种基于多传感器信息融合的三维目标检测方法及装置 |
CN111126287A (zh) * | 2019-12-25 | 2020-05-08 | 武汉大学 | 一种遥感影像密集目标深度学习检测方法 |
CN111260614A (zh) * | 2020-01-13 | 2020-06-09 | 华南理工大学 | 一种基于极限学习机的卷积神经网络布匹瑕疵检测方法 |
WO2020134528A1 (zh) * | 2018-12-29 | 2020-07-02 | 深圳云天励飞技术有限公司 | 目标检测方法及相关产品 |
CN111444973A (zh) * | 2020-03-31 | 2020-07-24 | 西安交通大学 | 一种无人零售购物台商品检测方法 |
CN111626989A (zh) * | 2020-05-06 | 2020-09-04 | 杭州迪英加科技有限公司 | 针对缺失标注的病理图像的高精度检测网络训练方法 |
CN111860336A (zh) * | 2020-07-21 | 2020-10-30 | 西北工业大学 | 基于位置感知的高分辨遥感图像倾斜船舶目标检测方法 |
CN112084866A (zh) * | 2020-08-07 | 2020-12-15 | 浙江工业大学 | 一种基于改进YOLO v4算法的目标检测方法 |
-
2020
- 2020-12-31 CN CN202011634385.9A patent/CN112699808B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
CN108427912A (zh) * | 2018-02-05 | 2018-08-21 | 西安电子科技大学 | 基于稠密目标特征学习的光学遥感图像目标检测方法 |
CN109409517A (zh) * | 2018-09-30 | 2019-03-01 | 北京字节跳动网络技术有限公司 | 物体检测网络的训练方法和装置 |
WO2020134528A1 (zh) * | 2018-12-29 | 2020-07-02 | 深圳云天励飞技术有限公司 | 目标检测方法及相关产品 |
CN110909591A (zh) * | 2019-09-29 | 2020-03-24 | 浙江大学 | 用编码向量的行人图像检测自适应非极大值抑制处理方法 |
CN110929692A (zh) * | 2019-12-11 | 2020-03-27 | 中国科学院长春光学精密机械与物理研究所 | 一种基于多传感器信息融合的三维目标检测方法及装置 |
CN111126287A (zh) * | 2019-12-25 | 2020-05-08 | 武汉大学 | 一种遥感影像密集目标深度学习检测方法 |
CN111260614A (zh) * | 2020-01-13 | 2020-06-09 | 华南理工大学 | 一种基于极限学习机的卷积神经网络布匹瑕疵检测方法 |
CN111444973A (zh) * | 2020-03-31 | 2020-07-24 | 西安交通大学 | 一种无人零售购物台商品检测方法 |
CN111626989A (zh) * | 2020-05-06 | 2020-09-04 | 杭州迪英加科技有限公司 | 针对缺失标注的病理图像的高精度检测网络训练方法 |
CN111860336A (zh) * | 2020-07-21 | 2020-10-30 | 西北工业大学 | 基于位置感知的高分辨遥感图像倾斜船舶目标检测方法 |
CN112084866A (zh) * | 2020-08-07 | 2020-12-15 | 浙江工业大学 | 一种基于改进YOLO v4算法的目标检测方法 |
Non-Patent Citations (4)
Title |
---|
"Underwater Dense Targets Detection and Classification based on YOLOv3";Tingchao Shi 等;2019 IEEE International Conference on Robotics and Biomimetics (ROBIO);20200120;全文 * |
基于卷积神经网络的SAR舰船检测算法;戴文鑫;;现代计算机;20200325(第09期);全文 * |
基于快速卷积神经网络的果园果实检测试验研究;张磊;姜军生;李昕昱;宋健;解福祥;;中国农机化学报;20201015(第10期);全文 * |
基于改进锚候选框的甚高速区域卷积神经网络的端到端地铁行人检测;盛智勇;揭真;曲洪权;田青;;科学技术与工程;20180808(第22期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112699808A (zh) | 2021-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112699808B (zh) | 密集目标检测方法、电子设备及相关产品 | |
US11443498B2 (en) | Target object recognition method and apparatus, storage medium, and electronic device | |
CN105745687B (zh) | 情景感知移动目标检测 | |
KR101964397B1 (ko) | 정보처리장치 및 정보처리방법 | |
CN103020992B (zh) | 一种基于运动颜色关联的视频图像显著性检测方法 | |
KR100612858B1 (ko) | 로봇을 이용하여 사람을 추적하는 방법 및 장치 | |
KR101414670B1 (ko) | 온라인 랜덤 포레스트 및 파티클 필터를 이용한 열 영상에서의 객체 추적 방법 | |
US20140314271A1 (en) | Systems and Methods for Pedestrian Detection in Images | |
CN112767443A (zh) | 目标跟踪方法、电子设备及相关产品 | |
CN104463240B (zh) | 一种仪表定位方法及装置 | |
CN111930336A (zh) | 音频设备的音量调节方法、设备及存储介质 | |
CN115311186A (zh) | 一种红外与可见光图像跨尺度注意力对抗融合方法及终端 | |
CN108875750A (zh) | 物体检测方法、装置和系统及存储介质 | |
CN103295221A (zh) | 模拟复眼视觉机制和偏振成像的水面目标运动检测方法 | |
CN108197669A (zh) | 卷积神经网络的特征训练方法及装置 | |
WO2024060978A1 (zh) | 关键点检测模型训练及虚拟角色驱动的方法和装置 | |
CN114897728A (zh) | 图像增强方法、装置、终端设备以及存储介质 | |
CN112766281A (zh) | 车辆重识别方法、电子设备及相关产品 | |
CN110443179B (zh) | 离岗检测方法、装置以及存储介质 | |
CN116977674A (zh) | 图像匹配方法、相关设备、存储介质及程序产品 | |
KR102299250B1 (ko) | 복합 영상 데이터를 이용한 입출력 인원 계수 장치 및 방법 | |
CN112990429A (zh) | 机器学习方法、电子设备及相关产品 | |
CN108230312A (zh) | 一种图像分析方法、设备和计算机可读存储介质 | |
CN112183287A (zh) | 一种移动机器人在复杂背景下的人数统计方法 | |
WO2022227916A1 (zh) | 图像处理方法、图像处理器、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |