CN116935366B - 一种目标检测方法、装置、电子设备及存储介质 - Google Patents
一种目标检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116935366B CN116935366B CN202311189417.2A CN202311189417A CN116935366B CN 116935366 B CN116935366 B CN 116935366B CN 202311189417 A CN202311189417 A CN 202311189417A CN 116935366 B CN116935366 B CN 116935366B
- Authority
- CN
- China
- Prior art keywords
- frame
- target
- sample
- result
- detection model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 301
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims description 100
- 230000004044 response Effects 0.000 claims description 56
- 230000015654 memory Effects 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 14
- 230000004913 activation Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000009432 framing Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011664 nicotinic acid Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种目标检测方法、装置、电子设备及存储介质。该方法包括:对于待进行目标检测的目标场景,获取通过事件相机针对所述目标场景采集得到的事件数据,并基于所述事件数据,确定事件帧;获取已训练完成的目标检测模型,其中,所述目标检测模型至少包括目标检测器,所述目标检测器包括物体定位头、物体置信度头和坐标框回归头;将所述事件帧输入至所述目标检测模型中,并基于所述目标检测模型输出的目标分数结果和坐标框定位结果,确定所述目标场景的目标检测结果。本发明实施例的技术方案,实现了无需非常完备的数据集也可以对所有目标进行检测,且目标检测的精准度较高。
Description
技术领域
本发明实施例涉及图像处理技术领域,尤其涉及一种目标检测方法、装置、电子设备及存储介质。
背景技术
目标检测在很多领域有着广泛的应用。而在很多场景下,不仅需要对特定类别进行检测,还需要对其它未知物体进行检测,例如在自动驾驶的场景下,不仅需要检测出路面上常见的人和车,还需要能及时对路面上的其它生物,如猫、狗等做出及时的反应,以防止发生碰撞。
然而,现有的目标检测技术通常只关注于对固定类别的物体进行检测和定位,且目标检测的精准度不高,叩待解决。
发明内容
本发明实施例提供了一种目标检测方法、装置、电子设备及存储介质,实现了无需非常完备的数据集也可以对所有目标进行检测,且目标检测的精准度较高。
根据本发明的一方面,提供了一种目标检测方法,可以包括:
对于待进行目标检测的目标场景,获取通过事件相机针对目标场景采集得到的事件数据,并基于事件数据,确定事件帧;
获取已训练完成的目标检测模型,其中,目标检测模型至少包括目标检测器,目标检测器包括物体定位头、物体置信度头和坐标框回归头;
将事件帧输入至目标检测模型中,并基于目标检测模型输出的目标分数结果和坐标框定位结果,确定目标场景的目标检测结果。
根据本发明的另一方面,提供了一种目标检测装置,可以包括:
事件帧确定模块,用于对于待进行目标检测的目标场景,获取通过事件相机针对目标场景采集得到的事件数据,并基于事件数据,确定事件帧;
目标检测模型获取模块,用于获取已训练完成的目标检测模型,其中,目标检测模型至少包括目标检测器,目标检测器包括物体定位头、物体置信度头和坐标框回归头;
目标检测结果确定模块,用于将事件帧输入至目标检测模型中,并基于目标检测模型输出的目标分数结果和坐标框定位结果,确定目标场景的目标检测结果。
根据本发明的另一方面,提供了一种电子设备,可以包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行时实现本发明任意实施例所提供的目标检测方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令用于使处理器执行时实现本发明任意实施例所提供的目标检测方法。
本发明实施例的技术方案,对于待进行目标检测的目标场景,获取通过事件相机针对目标场景采集得到的事件数据,并基于事件数据,确定事件帧;获取已训练完成的目标检测模型,其中,目标检测模型至少包括目标检测器,目标检测器包括物体定位头、物体置信度头和坐标框回归头;将事件帧输入至目标检测模型中,并基于目标检测模型输出的目标分数结果和坐标框定位结果,确定目标场景的目标检测结果。上述技术方案,通过物体定位头、物体置信度头和坐标框回归头防止只能对固定类别的目标物体进行检测或定位的局限,实现了无需非常完备的数据集也可以对所有目标进行检测,且可以通过物体定位头和物体置信度头,以使目标检测的精准度较高。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或是重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例提供的一种目标检测方法的流程图;
图2是根据本发明实施例提供的另一种目标检测方法的流程图;
图3是根据本发明实施例提供的一种目标检测方法中目标检测器的示意图;
图4是根据本发明实施例提供的又一种目标检测方法的流程图;
图5是根据本发明实施例提供的又一种目标检测方法中确定事件帧的示意图;
图6是根据本发明实施例提供的又一种目标检测方法中事件帧的示例图;
图7是根据本发明实施例提供的再一种目标检测方法的流程图;
图8是根据本发明实施例提供的再一种目标检测方法中一正负样本框的示例图;
图9是根据本发明实施例提供的再一种目标检测方法中另一正负样本框的示例图;
图10是根据本发明实施例提供的再一种目标检测方法中一可选示例的流程图;
图11是根据本发明实施例提供的再一种目标检测方法中目标检测的结果图;
图12是根据本发明实施例提供的一种目标检测装置的结构框图;
图13是实现本发明实施例的目标检测方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。“目标”、“原始”等的情况类似,在此不再赘述。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1是本发明实施例中提供的一种目标检测方法的流程图。本实施例可适用于目标检测的情况。该方法可以由本发明实施例提供的目标检测装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在电子设备上,该电子设备可以是各种用户终端或服务器。
参见图1,本发明实施例的方法具体包括如下步骤:
S110、对于待进行目标检测的目标场景,获取通过事件相机针对目标场景采集得到的事件数据,并基于事件数据,确定事件帧。
其中,目标场景是待进行目标检测的场景,例如路面等与自动驾驶相关的场景等等。事件数据是事件相机针对目标场景采集得到的与事件相关的数据,事件数据例如可以是事件流。事件帧是基于事件数据得到的能够表征事件产生情况的图像帧。
需要注意的是,事件相机是一种仿生传感器,其与传统的帧相机不同,其不是以固定的速率捕捉图像,而是异步地测量目标场景内每个像素的亮度变化,从而根据目标场景内每个像素的亮度变化情况输出一系列事件,因此,事件相机具有高时间分辨率、高动态范围以及低功耗的优势,从而可以避免光学相机低动态范围和高功耗的缺陷,以及避免了传统光学相机在恶劣天气和功耗上的性能表现不足,以使得到的事件帧更加契合目标场景。在本发明实施例中,事件数据可以是事件相机针对预设时间段内的目标场景采集得到的一系列事件,例如,事件数据可以是针对目标场景在0.1秒内采集得到的一系列事件,在本发明实施例中,对预设时间段的时间长度不做具体的限定。
在本发明实施例中,例如可以对事件数据进行建帧处理得到事件帧等等,在本发明实施例中,对基于事件数据,确定事件帧的方式不做具体的限定。
S120、获取已训练完成的目标检测模型,其中,目标检测模型至少包括目标检测器,目标检测器包括物体定位头、物体置信度头和坐标框回归头。
其中,目标检测模型是用于检测目标场景中是否存在目标的模型。目标例如可以是人、车辆、猫或狗等等物体,在本发明实施例中,由于目标检测模型可以对所有目标都进行检查,因此可以对目标的种类不作具体的限定。目标检测器(Detector)是目标检测模型中用于根据特征进行目标检测的检测器。物体定位头是用于确定目标定位的准确度分数的检测头(Head)。物体置信度头是用于确定目标定位的置信度的检测头。坐标框回归头是用于确定针对目标的坐标框进行定位的结果的检测头。
在本发明实施例中,可以预先采用数据集对目标检测模型进行训练,得到已训练完成的目标检测模型,为了验证目标检测模型对于高速开放世界进行目标检测的效果,在得到已训练完成的目标检测模型之后,还可以对目标检测模型进行测试,例如可以采用事件相机目标检测数据集GEN4对目标检测模型进行测试;例如可以以数据集中包括人和车的样本对目标检测模型进行训练,将其余样本作为开集样本对目标检测模型进行测试。在本发明实施例中,对训练和测试目标检测模型的方式不作具体的限定,对数据集的获取方式不做具体的限定。
需要注意的是,在本发明实施例中,对物体定位头、物体置信度头和坐标框回归头的具体结构和参数不做具体的限定。
在本发明实施例中,采用物体定位头、物体置信度头和坐标框回归头实现开放世界目标检测,打破了对固定类别的物体进行检测或定位的局限,能够对广泛的物体进行检测,具有普适性和高精度,从而避免了对固定类别物体的过拟合,提高了对多类别物体的识别能力。
S130、将事件帧输入至目标检测模型中,并基于目标检测模型输出的目标分数结果和坐标框定位结果,确定目标场景的目标检测结果。
其中,目标分数结果是能够表征对定位的坐标框中的目标是否是真正的目标的评分的分数结果,例如在目标分数结果中的坐标框对应的分数为0.99的情况下,则说明定位的坐标框中的目标大概率是真正的目标,在目标分数结果中的分数为0.1的情况下,则说明定位的坐标框中的目标大概率是并非是真正需求检测的目标。坐标框定位结果是能够表征定位得到的目标所位于的区域所在的坐标框的结果;坐标框定位结果例如可以包括定位得到的目标的坐标。
在本发明实施例中,可以将事件帧输入至目标检测模型中,目标检测模型可以输出目标分数结果和坐标框定位结果;目标分数结果和坐标框定位结果并不能直接作为目标检测结果,但是可以基于目标分数结果和坐标框定位结果,确定目标场景的目标检测结果,该目标检测结果是对目标场景内的目标进行检测的结果,目标检测结果可以是以图片的形式表示,还可以以其他的形式表示,在此不做具体的限定。
在本发明实施例中,目标分数结果可以是根据物体定位头和物体置信度头分别输出的结果确定得到的,坐标框定位结果可以是坐标框回归头输出的结果。
本发明实施例的技术方案,对于待进行目标检测的目标场景,获取通过事件相机针对目标场景采集得到的事件数据,并基于事件数据,确定事件帧;获取已训练完成的目标检测模型,其中,目标检测模型至少包括目标检测器,目标检测器包括物体定位头、物体置信度头和坐标框回归头;将事件帧输入至目标检测模型中,并基于目标检测模型输出的目标分数结果和坐标框定位结果,确定目标场景的目标检测结果。上述技术方案,通过物体定位头、物体置信度头和坐标框回归头防止只能对固定类别的目标物体进行检测或定位的局限,实现了无需非常完备的数据集也可以对所有目标进行检测,且可以通过物体定位头和物体置信度头,以使目标检测的精准度较高。
图2是本发明实施例中提供的另一种目标检测方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中,可选的,目标检测模型还包括特征提取网络和长短时记忆网络;将事件帧输入至目标检测模型中,并基于目标检测模型输出的目标分数结果和坐标框定位结果,确定目标场景的目标检测结果,包括:将事件帧输入到特征提取网络中,得到第一特征图;将第一特征图和历史特征图输入至长短时记忆网络中,得到目标特征图;将目标特征图输入至目标检测器中,得到目标分数结果和坐标框定位结果;基于目标分数结果和坐标框定位结果,确定目标场景的目标检测结果;其中,事件数据于当前时段采集得到,历史特征图是长短时记忆网络输出的与第一历史数据对应的特征图,第一历史数据是通过事件相机于当前时段的历史时段针对目标场景采集得到的。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。
参见图2,本实施例的方法具体可以包括如下步骤:
S210、对于待进行目标检测的目标场景,获取通过事件相机针对目标场景采集得到的事件数据,并基于事件数据,确定事件帧,其中,事件数据于当前时段采集得到。
其中,当前时段是当前对应的预设时间段,当前时段例如可以是当前时间对应的0.1秒的时间段,在本发明实施例中,对当前时段的时段长度不做具体的限定。
S220、获取已训练完成的目标检测模型,其中,目标检测模型至少包括目标检测器,目标检测器包括物体定位头、物体置信度头和坐标框回归头,目标检测模型还包括特征提取网络和长短时记忆网络。
其中,特征提取网络是可以对事件帧中的特征进行提取的网络;特征提取网络例如可以是深度残差网络(Deep residual network,ResNet),也可以是其他网络,在本发明实施例中,对特征提取网络的类型不做具体的限定。
S230、将事件帧输入到特征提取网络中,得到第一特征图。
在本发明实施例中,可以将事件帧输入到特征提取网络中,从而利用特征提取网络对事件帧进行特征提取,得到第一特征图,该第一特征图即为特征提取网络对事件帧进行特征提取后得到的特征图。
S240、将第一特征图和历史特征图输入至长短时记忆网络中,得到目标特征图,其中,历史特征图是长短时记忆网络输出的与第一历史数据对应的特征图,第一历史数据是通过事件相机于当前时段的历史时段针对目标场景采集得到的。
其中,第一历史数据是事件相机针对目标场景在历史时段采集得到的与事件相关的数据。历史时段可以是当前时段的上一时段,还可以是当前时段之前的多个时段。
在本发明实施例中,长短时记忆网络(Long Short Term Memory,LSTM)可以将第一特征图与前向特征进行融合,该前向特征即为历史特征图。具体的,可以通过事件相机于当前时段的历史时段针对目标场景采集得到第一历史数据;基于第一历史数据,确定第一历史数据对应的事件帧;将第一历史数据对应的事件帧输入到特征提取网络中,并将特征提取网络的输出结果作为长短时记忆网络的输入数据之一输入到长短时记忆网络中,得到历史特征图;将第一特征图和历史特征图输入至长短时记忆网络中,以使长短时记忆网络将第一特征图与历史特征图进行融合,得到目标特征图,该目标特征图即为长短时记忆网络将第一特征图与历史特征图进行融合后得到的特征图。
在本发明实施例中,目标检测模型还可以包括特征提取器,特征提取器包括至少一个卷积层;目标特征图可以输入至特征提取器中,根据特征提取器的输出结果更新目标特征图。
S250、将目标特征图输入至目标检测器中,得到目标分数结果和坐标框定位结果。
在本发明实施例中,可以将目标特征图输入至目标检测器中,以使目标检测器对目标特征图进行处理,得到目标分数结果和坐标框定位结果。
S260、基于目标分数结果和坐标框定位结果,确定目标场景的目标检测结果。
本发明实施例的技术方案,目标检测模型还包括特征提取网络和长短时记忆网络;将事件帧输入到特征提取网络中,得到第一特征图;将第一特征图和历史特征图输入至长短时记忆网络中,得到目标特征图;将目标特征图输入至目标检测器中,得到目标分数结果和坐标框定位结果;基于目标分数结果和坐标框定位结果,确定目标场景的目标检测结果;其中,事件数据于当前时段采集得到,历史特征图是长短时记忆网络输出的与第一历史数据对应的特征图,第一历史数据是通过事件相机于当前时段的历史时段针对目标场景采集得到的。上述技术方案,通过目标检测模型中的特征提取网络和长短时记忆网络,可以得到准确度更高的目标特征图。
一种可选的技术方案,将目标特征图输入至目标检测器中,得到目标分数结果和坐标框定位结果,包括:将目标特征图输入至物体定位头中,得到目标定位分数结果;将目标特征图输入至物体置信度头中,得到目标置信度结果;根据目标定位分数结果和目标置信度结果,确定目标分数结果;将目标特征图输入至坐标框回归头中,得到坐标框定位结果。
其中,目标定位分数结果(Location)是表征目标定位的准确度分数的结果。目标置信度结果(Objectness)是用于表征目标定位的置信度的结果。
在本发明实施例中,物体定位头、物体置信度头和坐标框回归头分别可以包括一个卷积层用于调整期对应的输入数据的通道数,物体定位头、物体置信度头和坐标框回归头分别包括的一个卷积层的结构和/或参数不同。
在本发明实施例中,目标定位分数结果和目标置信度结果可以用于评估坐标框定位结果(Regression)中的坐标框是否包含目标,因此可以根据目标定位分数结果和目标置信度结果共同对坐标框中是否包含目标进行判断,得到更能表征定位的坐标框中的目标是否是真正的目标的准确度更高的目标分数结果(Object score);例如,目标定位分数结果中针对坐标框定位结果中某坐标框的分数为0.9,目标置信度结果中针对坐标框定位结果中某坐标框的置信度为0.8,根据目标定位分数结果和目标置信度结果,确定目标分数结果为0.72。在本发明实施例中,对根据目标定位分数结果和目标置信度结果,确定目标分数结果的方式不做具体的限定。
在本发明实施例中,目标检测器还可以包括卷积正则激活组合网络(CBL),卷积正则激活组合网络可以包括卷积层(Conv)、正则化层(Batch Normalization,BN)和例如采用ReLu激活函数的激活层;在将目标特征图输入至物体定位头中,得到目标定位分数结果之前,可以将目标特征图输入至卷积层中,并将卷积层的输出结果输入至正则化层中;将正则化层的输出结果输入至激活层中,得到卷积正则激活组合网络的输出结果;根据卷积正则激活组合网络的输出结果更新目标特征图。
示例性的,参见图3,目标检测器还可以包括三个卷积正则激活组合网络,每个卷积正则激活组合网络分别可以包括卷积层、正则化层和激活层;可以将目标特征图输入至第一个卷积正则激活组合网络中,并将第一个卷积正则激活组合网络的输出结果输入至第二个卷积正则激活组合网络中;将第二个卷积正则激活组合网络的输出结果输入至第三个卷积正则激活组合网络中,得到三个卷积正则激活组合网络的输出结果;根据三个卷积正则激活组合网络的输出结果更新目标特征图;将目标特征图输入至物体定位头的卷积层中,得到目标定位分数结果;将目标特征图输入至物体置信度头的卷积层中,得到目标置信度结果;对目标定位分数结果和目标置信度结果进行相乘融合,得到目标分数结果;将目标特征图输入至坐标框回归头的卷积层中,得到坐标框定位结果;将目标分数结果和坐标框定位结果作为目标检测模型的输出结果。
本发明实施例的技术方案,通过根据目标定位分数结果和目标置信度结果,确定目标分数结果,可以提高得到的目标定位分数结果的准确度。
图4是本发明实施例中提供的又一种目标检测方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中,可选的,获取通过事件相机针对目标场景采集得到的事件数据,并基于事件数据,确定事件帧,包括:获取通过事件相机于当前时段针对目标场景采集得到的事件数据;根据事件数据和历史帧,确定事件帧;其中,历史帧基于第二历史数据确定,第二历史数据通过事件相机于当前时段的历史时段针对目标场景采集得到。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。
参见图4,本实施例的方法具体可以包括如下步骤:
S310、对于待进行目标检测的目标场景,获取通过事件相机于当前时段针对目标场景采集得到的事件数据。
S320、根据事件数据和历史帧,确定事件帧,其中,历史帧基于第二历史数据确定,第二历史数据通过事件相机于当前时段的历史时段针对目标场景采集得到。
其中,第二历史数据是事件相机针对目标场景在历史时段采集得到的与事件相关的数据。历史帧是基于第二历史数据确定的第二历史数据对应的事件帧。历史时段可以是当前时段的上一时段,还可以是当前时段之前的多个时段。
在本发明实施例中,对根据事件数据和历史帧,确定事件帧的方式不做具体的限定。
S330、获取已训练完成的目标检测模型,其中,目标检测模型至少包括目标检测器,目标检测器包括物体定位头、物体置信度头和坐标框回归头。
S340、将事件帧输入至目标检测模型中,并基于目标检测模型输出的目标分数结果和坐标框定位结果,确定目标场景的目标检测结果。
本发明实施例的技术方案,获取通过事件相机于当前时段针对目标场景采集得到的事件数据;根据事件数据和历史帧,确定事件帧;其中,历史帧基于第二历史数据确定,第二历史数据通过事件相机于当前时段的历史时段针对目标场景采集得到。上述技术方案,通过根据事件数据和历史帧,确定事件帧,可以增加得到的事件帧的准确性。
一种可选的技术方案,根据事件数据和历史帧,确定事件帧,包括:对事件数据进行建帧处理,得到初始帧;针对初始帧中的每个像素点,确定像素点的事件点响应的目标响应情况;在目标响应情况为无响应的情况下,确定在历史帧中与将像素点对应的对应点的事件点响应的历史响应情况;在历史响应情况为存在响应的情况下,将对应点的事件点响应叠加在像素点处,并根据叠加结果更新初始帧;将初始帧作为事件帧。
其中,对应点是历史帧中与初始帧的像素点对应的点;对应点在历史帧中的位置可以与像素点在初始帧中的位置对应,例如对应点在历史帧中的位置可以与像素点在初始帧中的位置相同。初始帧是对事件数据进行建帧处理得到的图像帧。
需要注意的是,事件相机输出的事件数据可以包括事件产生的坐标、时间和极性,但是由于事件的异步稀疏特性,需要对事件进行建帧操作,以得到初始帧,例如可以是将事件数据中的事件点叠加至一个形状为(2,H,W)的图像帧上,以得到初始帧。其中,2为事件的正负极性;H为初始帧的高度;W为初始帧的宽度。
需要注意的是,在高速目标检测的场景中,采集得到的事件数据以及对事件数据进行建帧处理的时间间隔通常设置的较短,进而会导致当前时段内的事件数据中事件点较少,即通过建帧操作生成的初始帧中的信息也会很少,进而会影响到目标检测模型的预测结果。为了解决上述问题,在本发明实施例中,可以针对初始帧中的每个像素点,确定像素点的事件点响应的目标响应情况,该目标相应情况可以表征像素点是否存在事件点响应;在目标响应情况为无响应的情况下,即说明像素点不存在事件点响应,可以确定在历史帧中与将像素点对应的对应点的事件点响应的历史响应情况,该目标相应情况可以表征对应点是否存在事件点响应;在历史响应情况为存在响应的情况下,即说明对应点不存在事件点响应,将对应点的事件点响应叠加在像素点处,并根据叠加结果更新初始帧;将初始帧作为事件帧。
示例性的,参见图5,时段的事件帧可以由/>时段内的事件点叠加产生。具体的,在对事件数据进行建帧处理得到/>时段的初始帧后,可以逐像素的扫描初始帧中是否存在像素点没有事件点响应;针对没有事件点响应的像素点,可以查找/>时段的上一时段/>产生的历史帧中与像素点对应的对应点上有无事件点响应,该历史帧由/>时段内的事件点叠加产生;在历史帧中与像素点对应的对应点上有事件点响应,则将事件点响应引入叠加在/>时段的初始帧中;若在历史帧中与像素点对应的对应点上无事件点响应,则不叠加。
示例性的,参见图6,图6中的左边一列的四张图像对应事件计数(EVENT COUNT),右边一列的四张图像对应本发明实施例,从图6中可以看出,发明实施例的技术方案,相较于现有的例如事件计数等事件帧建帧方案,可以在相同的时段内产生质量更高的事件帧。
本发明实施例的技术方案,针对初始帧中的每个像素点,确定像素点的事件点响应的目标响应情况;在目标响应情况为无响应的情况下,确定在历史帧中与将像素点对应的对应点的事件点响应的历史响应情况;在历史响应情况为存在响应的情况下,将对应点的事件点响应叠加在像素点处,并根据叠加结果更新初始帧;将初始帧作为事件帧。上述技术方案得到事件帧,可以不仅依靠于对当前时段采集得到的事件数据进行建帧处理,还依靠在历史时间采集得到第二历史数据确定得到的历史帧,从而可以在相同时段内生成更高质量的事件帧,解决了在高速场景下事件点稀疏导致的事件帧质量差的问题,进而有效提升后续目标检测精度和检测实时性,且硬件实施友好。
图7是本发明实施例中提供的再一种目标检测方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中,可选的,目标检测模型通过如下步骤训练得到:获取包含至少一个样本物体的训练帧以及至少一个样本物体的定位框标签;将训练帧以及定位框标签作为一组训练样本;基于多组训练样本对原始检测模型进行训练,得到目标检测模型,其中,原始检测模型的模型结构与目标检测模型的模型结构相同。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。
参见图7,本实施例的方法具体可以包括如下步骤:
S410、获取包含至少一个样本物体的训练帧以及至少一个样本物体的定位框标签。
其中,样本物体是训练帧中需求检测的物体。训练帧是用于训练原始检测模型的图像帧。定位框标签是能够反映训练帧中的至少一个包含样本物体的定位框的位置和大小的标签。
S420、将训练帧以及定位框标签作为一组训练样本。
其中,训练样本是用于训练得到目标检测模型的样本数据,一组训练样本可以包括一个训练帧和其对应的至少一个样本物体的定位框标签。
S430、基于多组训练样本对原始检测模型进行训练,得到目标检测模型,其中,原始检测模型的模型结构与目标检测模型的模型结构相同。
其中,原始检测模型是为待进行训练的能够进行目标检测的模型。
在本发明实施例中,可以基于多组训练样本对原始检测模型进行训练,得到目标检测模型;还可以基于多组训练样本中的部分训练样本对原始检测模型进行训练,得到目标检测模型,再将多组训练样本中的其余的训练样本用于评估得到的目标检测模型。
在本发明实施例中,对基于多组训练样本对原始检测模型进行训练,得到目标检测模型的方式不做具体的限定。
S440、对于待进行目标检测的目标场景,获取通过事件相机针对目标场景采集得到的事件数据,并基于事件数据,确定事件帧。
S450、获取已训练完成的目标检测模型,其中,目标检测模型至少包括目标检测器,目标检测器包括物体定位头、物体置信度头和坐标框回归头。
S460、将事件帧输入至目标检测模型中,并基于目标检测模型输出的目标分数结果和坐标框定位结果,确定目标场景的目标检测结果。
本发明实施例的技术方案,目标检测模型通过如下步骤训练得到:获取包含至少一个样本物体的训练帧以及至少一个样本物体的定位框标签;将训练帧以及定位框标签作为一组训练样本;基于多组训练样本对原始检测模型进行训练,得到目标检测模型,其中,原始检测模型的模型结构与目标检测模型的模型结构相同。上述技术方案,通过基于多组训练样本对原始检测模型进行训练,得到目标检测模型,可以提高目标检测模型检测的准确率。
一种可选的技术方案,基于多组训练样本对原始检测模型进行训练,得到目标检测模型,包括:针对多组训练样本中的每组训练样本,将训练样本中的训练帧输入至原始检测模型中,得到样本定位分数结果、样本置信度结果和样本坐标框结果;基于训练样本中的定位框标签,从样本坐标框结果中的各样本坐标框中确定出正样本框;根据各样本坐标框中的除正样本框外的其他样本框与正样本框的重合度,从样本坐标框结果中的各样本坐标框中确定出负样本框;基于样本定位分数结果、样本置信度结果、样本坐标框结果、定位框标签、所在正样本框和负样本框,调整原始检测模型的参数,并根据调整结果更新原始检测模型;在基于多组训练样本对原始检测模型训练完成的情况下,将训练完成的原始检测模型作为目标检测模型。
其中,样本定位分数结果是表征样本物体定位的准确度分数的结果。样本置信度结果是用于表征样本物体定位的置信度的结果。样本坐标框结果是能够表征定位得到的样本物体所位于的区域所在的坐标框的结果。样本坐标框是样本坐标框结果中表征识别得到的样本物体的坐标框。
在本发明实施例中,可以针对多组训练样本中的每组训练样本,将训练样本中的训练帧输入至原始检测模型的物体定位头中,得到样本定位分数结果;将训练帧输入至原始检测模型的物体置信度头中,得到样本置信度结果;将目标特征图输入至原始检测模型的坐标框回归头中,得到样本坐标框结果。
在本发明实施例中,可以基于训练样本中的定位框标签,从样本坐标框结果中的各样本坐标框中确定出正样本框,例如可以将定位框标签中的定位框与样本坐标框结果中的各样本坐标框进行比对匹配,将各样本坐标框中与定位框标签中的定位框匹配的样本坐标框作为正样本框。
需要注意的是,在训练能够进行开放世界目标检测的目标检测模型的过程中,由于定位框标签中的定位框并不一定完全覆盖训练帧中所有的样本物体,若定义负样本框为不与定位框标签中的定位框重合的样本坐标框,则可能会导致训练原始检测模型的过程中对包含目标的样本坐标框进行惩罚,进而降低训练得到的目标检测模型的泛化性能。为了解决上述问题,在本发明实施例中,可以根据各样本坐标框中的除正样本框外的其他样本框和与定位框标签中的定位框匹配的正样本框的重合度,从样本坐标框结果中的各样本坐标框中确定出负样本框,例如考虑到样本坐标框与正样本框存在重合或重合度较大的情况下,样本坐标框可能不是独立存在的样本物体,因此可以将与正样本框存在重合或重合度较大的样本坐标框作为负样本框,将与正样本框不存在重合或重合度较小的样本坐标框不作为负样本框。
示例性的,参见图8,若不采用本发明实施中的根据各样本坐标框中的除正样本框外的其他样本框与正样本框的重合度,从样本坐标框结果中的各样本坐标框中确定出负样本框的方案,则可能会导致将含有样本物体的样本坐标框也作为负样本框;参见图9,若采用本发明实施中的根据各样本坐标框中的除正样本框外的其他样本框与正样本框的重合度,从样本坐标框结果中的各样本坐标框中确定出负样本框方案,可以避免将含有样本物体的样本坐标框也作为负样本框。
在本发明实施例中,还可以将与正样本框存在重合或重合度较大,和/或,样本坐标框的尺寸与定位框标签中的定位框的尺寸差别较大的样本坐标框,作为负样本框。
示例性的,可以只有在调整原始检测模型中的物体置信度头的参数时使用负样本框。具体的,可以基于样本定位分数结果、样本置信度结果、样本坐标框结果和定位框标签,调整原始检测模型中的物体定位头和坐标框回归头的参数,并根据调整结果更新原始检测模型,例如可以根据样本坐标框结果和定位框标签,分别确定样本坐标框结果中各样本坐标框和其对应的定位框标签中的定位框的交并比(IoU)大小,基于交并比大小调整物体定位头的参数;基于样本定位分数结果、样本置信度结果、样本坐标框结果、定位框标签、所在正样本框和负样本框,调整原始检测模型中的物体置信度头的参数,并根据调整结果更新原始检测模型;还可以基于样本定位分数结果、样本置信度结果、样本坐标框结果、定位框标签、所在正样本框、负样本框和对原始检测模型中的物体定位头、物体置信度头和坐标框回归头的调整结果,调整原始检测模型中的特征提取网络和长短时记忆网络,并根据调整结果更新原始检测模型。
在本发明实施例中,对基于样本定位分数结果、样本置信度结果、样本坐标框结果、定位框标签、所在正样本框和负样本框,调整原始检测模型的参数,并根据调整结果更新原始检测模型的方式不做具体的限定。
在本发明实施例中,通过基于样本定位分数结果、样本置信度结果、样本坐标框结果、定位框标签、所在正样本框和负样本框,调整原始检测模型的参数,可以防止原始检测模型在训练时对于含有样本物体的样本坐标框进行惩罚,从而提高了训练得到的目标检测模型的泛化性能。
为了更好的理解上述本发明实施例的技术方案,在此提供一种可选示例。示例性的,参见图10,目标检测模型包括依次耦接的目标检测器、ResNet网络和长短时记忆网络;可以将事件帧输入到ResNet网络中,得到第一特征图;将第一特征图输入至长短时记忆网络中,以使长短时记忆网络基于记忆的历史特征图,确定得到目标特征图;将目标特征图输入至目标检测器中,得到目标检测模型的输出结果。
在本发明实施例中,例如可以采用GEN4对本发明实施例的目标检测方法和现有他主流目标检测方法Recurrent Vision Transformers(RVT)进行开放世界目标检测的实验测试,测试中使用的定量结果可以采用平均召回率(Average Recall,AR)和接收者操作特征曲线下与坐标轴围成的面积(Area Under Curve,AUC),且上述实验测试可以在RTX3090等单张图形处理器(graphics processing unit,GPU)上进行,本发明实施例的目标检测方法和RVT的实验测试结果如下表1和图11所示,图11中左边一列的四张图像对应RVT,右边一列的四张图像对应本发明实施例,从表1和图11中可以看出,本发明实施例的目标检测方法的技术方案相较于RVT在高速开放世界下目标检测精度更高切成像质量更佳。
表1 GEN4开放世界目标检测实验结果
方法 | AUC | AR10 | AR100 | AR300 | AR1000 |
RVT | 12.5 | 5.7 | 10.8 | 21.2 | 35.9 |
本方案 | 20.9 | 13.3 | 20.1 | 30.9 | 42.5 |
图12为本发明实施例提供的目标检测装置的结构框图,该装置用于执行上述任意实施例所提供的目标检测方法。该装置与上述各实施例的目标检测方法属于同一个发明构思,在目标检测装置的实施例中未详尽描述的细节内容,可以参考上述目标检测方法的实施例。参见图12,该装置具体可包括:事件帧确定模块510、目标检测模型获取模块520和目标检测结果确定模块530。
其中,事件帧确定模块510,用于对于待进行目标检测的目标场景,获取通过事件相机针对目标场景采集得到的事件数据,并基于事件数据,确定事件帧;
目标检测模型获取模块520,用于获取已训练完成的目标检测模型,其中,目标检测模型至少包括目标检测器,目标检测器包括物体定位头、物体置信度头和坐标框回归头;
目标检测结果确定模块530,用于将事件帧输入至目标检测模型中,并基于目标检测模型输出的目标分数结果和坐标框定位结果,确定目标场景的目标检测结果。
可选的,目标检测模型还包括特征提取网络和长短时记忆网络;
目标检测结果确定模块530,可以包括:
第一特征图得到单元,用于将事件帧输入到特征提取网络中,得到第一特征图;
目标特征图得到单元,用于将第一特征图和历史特征图输入至长短时记忆网络中,得到目标特征图;
坐标框定位结果得到单元,用于将目标特征图输入至目标检测器中,得到目标分数结果和坐标框定位结果;
目标检测结果确定单元,用于基于目标分数结果和坐标框定位结果,确定目标场景的目标检测结果;
其中,事件数据于当前时段采集得到,历史特征图是长短时记忆网络输出的与第一历史数据对应的特征图,第一历史数据是通过事件相机于当前时段的历史时段针对目标场景采集得到的。
可选的,在上述装置的基础上,坐标框定位结果得到单元,可以包括:
目标定位分数结果得到子单元,用于将目标特征图输入至物体定位头中,得到目标定位分数结果;
目标置信度结果得到子单元,用于将目标特征图输入至物体置信度头中,得到目标置信度结果;
目标分数结果确定子单元,用于根据目标定位分数结果和目标置信度结果,确定目标分数结果;
坐标框定位结果得到子单元,用于将目标特征图输入至坐标框回归头中,得到坐标框定位结果。
可选的,事件帧确定模块510,可以包括:
事件数据获取单元,用于获取通过事件相机于当前时段针对目标场景采集得到的事件数据;
事件帧确定单元,用于根据事件数据和历史帧,确定事件帧;
其中,历史帧基于第二历史数据确定,第二历史数据通过事件相机于当前时段的历史时段针对目标场景采集得到。
可选的,在上述装置的基础上,事件帧确定单元,可以包括:
初始帧得到子单元,用于对事件数据进行建帧处理,得到初始帧;
目标响应情况确定针对初始帧中的每个像素点,确定像素点的事件点响应的目标响应情况;
历史响应情况确定子单元,用于在目标响应情况为无响应的情况下,确定在历史帧中与将像素点对应的对应点的事件点响应的历史响应情况;
初始帧更新子单元,用于在历史响应情况为存在响应的情况下,将对应点的事件点响应叠加在像素点处,并根据叠加结果更新初始帧;
事件帧作为子单元,用于将初始帧作为事件帧。
可选的,目标检测装置,还可以包括如下模块训练得到目标检测模型:
定位框标签获取模块,用于获取包含至少一个样本物体的训练帧以及至少一个样本物体的定位框标签;
训练样本作为模块,用于将训练帧以及定位框标签作为一组训练样本;
目标检测模型得到模块,用于基于多组训练样本对原始检测模型进行训练,得到目标检测模型,其中,原始检测模型的模型结构与目标检测模型的模型结构相同。
可选的,在上述装置的基础上,目标检测模型得到模块,可以包括:
样本坐标框结果得到单元,用于针对多组训练样本中的每组训练样本,将训练样本中的训练帧输入至原始检测模型中,得到样本定位分数结果、样本置信度结果和样本坐标框结果;
正样本框确定单元,用于基于训练样本中的定位框标签,从样本坐标框结果中的各样本坐标框中确定出正样本框;
负样本框确定单元,用于根据各样本坐标框中的除正样本框外的其他样本框与正样本框的重合度,从样本坐标框结果中的各样本坐标框中确定出负样本框;
原始检测模型更新单元,用于基于样本定位分数结果、样本置信度结果、样本坐标框结果、定位框标签、所在正样本框和负样本框,调整原始检测模型的参数,并根据调整结果更新原始检测模型;
目标检测模型作为单元,用于在基于多组训练样本对原始检测模型训练完成的情况下,将训练完成的原始检测模型作为目标检测模型。
本发明实施例提供的目标检测装置,通过事件帧确定模块对于待进行目标检测的目标场景,获取通过事件相机针对目标场景采集得到的事件数据,并基于事件数据,确定事件帧;通过目标检测模型获取模块获取已训练完成的目标检测模型,其中,目标检测模型至少包括目标检测器,目标检测器包括物体定位头、物体置信度头和坐标框回归头;通过目标检测结果确定模块将事件帧输入至目标检测模型中,并基于目标检测模型输出的目标分数结果和坐标框定位结果,确定目标场景的目标检测结果。上述装置,通过物体定位头、物体置信度头和坐标框回归头防止只能对固定类别的目标物体进行检测或定位的局限,实现了无需非常完备的数据集也可以对所有目标进行检测,且可以通过物体定位头和物体置信度头,以使目标检测的精准度较高。
本发明实施例所提供的目标检测装置可执行本发明任意实施例所提供的目标检测方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述目标检测装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
图13示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图13所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如目标检测方法。
在一些实施例中,目标检测方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的目标检测方法的一个或多个步骤。备选地,在其他实施例中,处理器11可通过其他任何适当的方式(例如,借助于固件)而被配置为执行目标检测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、以及至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、以及该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或是其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行并且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (8)
1.一种目标检测方法,其特征在于,包括:
对于待进行目标检测的目标场景,获取通过事件相机针对所述目标场景采集得到的事件数据,并基于所述事件数据,确定事件帧;
获取已训练完成的目标检测模型,其中,所述目标检测模型至少包括目标检测器,所述目标检测器包括物体定位头、物体置信度头和坐标框回归头;
将所述事件帧输入至所述目标检测模型中,并基于所述目标检测模型输出的目标分数结果和坐标框定位结果,确定所述目标场景的目标检测结果;
所述目标检测模型通过如下步骤训练得到:
获取包含至少一个样本物体的训练帧以及所述至少一个样本物体的定位框标签;
将所述训练帧以及所述定位框标签作为一组训练样本;
基于多组所述训练样本对原始检测模型进行训练,得到所述目标检测模型,其中,所述原始检测模型的模型结构与所述目标检测模型的模型结构相同;
所述基于多组所述训练样本对原始检测模型进行训练,得到所述目标检测模型,包括:
针对多组所述训练样本中的每组训练样本,将所述训练样本中的训练帧输入至原始检测模型中,得到样本定位分数结果、样本置信度结果和样本坐标框结果;
基于所述训练样本中的定位框标签,从所述样本坐标框结果中的各样本坐标框中确定出正样本框;
根据所述各样本坐标框中的除所述正样本框外的其他样本框与所述正样本框的重合度,从所述样本坐标框结果中的各样本坐标框中确定出负样本框;
基于所述样本定位分数结果、所述样本置信度结果、所述样本坐标框结果、所述定位框标签、所述正样本框和所述负样本框,调整所述原始检测模型的参数,并根据调整结果更新所述原始检测模型;
在基于多组所述训练样本对所述原始检测模型训练完成的情况下,将训练完成的所述原始检测模型作为所述目标检测模型;
所述根据所述各样本坐标框中的除所述正样本框外的其他样本框与所述正样本框的重合度,从所述样本坐标框结果中的各样本坐标框中确定出负样本框,包括:
根据所述各样本坐标框中的除所述正样本框外的其他样本框与所述正样本框的重合度,将与所述正样本框存在重合或重合度大于设定阈值的所述各样本坐标框中的除所述正样本框外的其他样本框作为负样本框。
2.根据权利要求1所述的方法,其特征在于,所述目标检测模型还包括特征提取网络和长短时记忆网络;
所述将所述事件帧输入至所述目标检测模型中,并基于所述目标检测模型输出的目标分数结果和坐标框定位结果,确定所述目标场景的目标检测结果,包括:
将所述事件帧输入到所述特征提取网络中,得到第一特征图;
将所述第一特征图和历史特征图输入至所述长短时记忆网络中,得到目标特征图;
将所述目标特征图输入至所述目标检测器中,得到目标分数结果和坐标框定位结果;
基于所述目标分数结果和所述坐标框定位结果,确定所述目标场景的目标检测结果;
其中,所述事件数据于当前时段采集得到,所述历史特征图是所述长短时记忆网络输出的与第一历史数据对应的特征图,所述第一历史数据是通过所述事件相机于所述当前时段的历史时段针对所述目标场景采集得到的。
3.根据权利要求2所述的方法,其特征在于,所述将所述目标特征图输入至所述目标检测器中,得到目标分数结果和坐标框定位结果,包括:
将所述目标特征图输入至所述物体定位头中,得到目标定位分数结果;
将所述目标特征图输入至所述物体置信度头中,得到目标置信度结果;
根据所述目标定位分数结果和所述目标置信度结果,确定目标分数结果;
将所述目标特征图输入至所述坐标框回归头中,得到坐标框定位结果。
4.根据权利要求1所述的方法,其特征在于,所述获取通过事件相机针对所述目标场景采集得到的事件数据,并基于所述事件数据,确定事件帧,包括:
获取通过事件相机于当前时段针对所述目标场景采集得到的事件数据;
根据所述事件数据和历史帧,确定事件帧;
其中,所述历史帧基于第二历史数据确定,所述第二历史数据通过所述事件相机于所述当前时段的历史时段针对所述目标场景采集得到。
5.根据权利要求4所述的方法,其特征在于,所述根据所述事件数据和历史帧,确定事件帧,包括:
对所述事件数据进行建帧处理,得到初始帧;
针对所述初始帧中的每个像素点,确定所述像素点的事件点响应的目标响应情况;
在所述目标响应情况为无响应的情况下,确定在历史帧中与将所述像素点对应的对应点的事件点响应的历史响应情况;
在所述历史响应情况为存在响应的情况下,将所述对应点的事件点响应叠加在所述像素点处,并根据叠加结果更新所述初始帧;
将所述初始帧作为事件帧。
6.一种目标检测装置,其特征在于,包括:
事件帧确定模块,用于对于待进行目标检测的目标场景,获取通过事件相机针对所述目标场景采集得到的事件数据,并基于所述事件数据,确定事件帧;
目标检测模型获取模块,用于获取已训练完成的目标检测模型,其中,所述目标检测模型至少包括目标检测器,所述目标检测器包括物体定位头、物体置信度头和坐标框回归头;
目标检测结果确定模块,用于将所述事件帧输入至所述目标检测模型中,并基于所述目标检测模型输出的目标分数结果和坐标框定位结果,确定所述目标场景的目标检测结果;
所述目标检测装置,还包括如下模块训练得到目标检测模型:
定位框标签获取模块,用于获取包含至少一个样本物体的训练帧以及至少一个样本物体的定位框标签;
训练样本作为模块,用于将训练帧以及定位框标签作为一组训练样本;
目标检测模型得到模块,用于基于多组训练样本对原始检测模型进行训练,得到目标检测模型,其中,原始检测模型的模型结构与目标检测模型的模型结构相同;
所述目标检测模型得到模块,包括:
样本坐标框结果得到单元,用于针对多组训练样本中的每组训练样本,将训练样本中的训练帧输入至原始检测模型中,得到样本定位分数结果、样本置信度结果和样本坐标框结果;
正样本框确定单元,用于基于训练样本中的定位框标签,从样本坐标框结果中的各样本坐标框中确定出正样本框;
负样本框确定单元,用于根据各样本坐标框中的除正样本框外的其他样本框与正样本框的重合度,从样本坐标框结果中的各样本坐标框中确定出负样本框;
原始检测模型更新单元,用于基于样本定位分数结果、样本置信度结果、样本坐标框结果、定位框标签、所述正样本框和负样本框,调整原始检测模型的参数,并根据调整结果更新原始检测模型;
目标检测模型作为单元,用于在基于多组训练样本对原始检测模型训练完成的情况下,将训练完成的原始检测模型作为目标检测模型;
所述根据所述各样本坐标框中的除所述正样本框外的其他样本框与所述正样本框的重合度,从所述样本坐标框结果中的各样本坐标框中确定出负样本框,包括:
根据所述各样本坐标框中的除所述正样本框外的其他样本框与所述正样本框的重合度,将与所述正样本框存在重合或重合度大于设定阈值的所述各样本坐标框中的除所述正样本框外的其他样本框作为负样本框。
7.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-5中任一项所述的目标检测方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现如权利要求1-5中任一所述的目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311189417.2A CN116935366B (zh) | 2023-09-15 | 2023-09-15 | 一种目标检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311189417.2A CN116935366B (zh) | 2023-09-15 | 2023-09-15 | 一种目标检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116935366A CN116935366A (zh) | 2023-10-24 |
CN116935366B true CN116935366B (zh) | 2024-02-20 |
Family
ID=88377453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311189417.2A Active CN116935366B (zh) | 2023-09-15 | 2023-09-15 | 一种目标检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116935366B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052787A (zh) * | 2020-09-03 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 基于人工智能的目标检测方法、装置及电子设备 |
CN112836652A (zh) * | 2021-02-05 | 2021-05-25 | 浙江工业大学 | 一种基于事件相机的多阶段人体姿态估计方法 |
CN113128392A (zh) * | 2021-04-15 | 2021-07-16 | 中国科学院上海高等研究院 | 基于仿生图像传感器的异步目标检测方法、系统、终端及介质 |
CN114332880A (zh) * | 2021-12-27 | 2022-04-12 | 南京三百云信息科技有限公司 | 一种文本检测方法、装置、设备及存储介质 |
CN115641518A (zh) * | 2022-10-09 | 2023-01-24 | 山东巍然智能科技有限公司 | 一种无人机用视图感知网络模型及目标检测方法 |
WO2023029824A1 (zh) * | 2021-08-30 | 2023-03-09 | 京东方科技集团股份有限公司 | 一种目标检测的优化方法及设备 |
CN116229101A (zh) * | 2023-03-03 | 2023-06-06 | 厦门大学 | 一种基于少样本学习的开放世界目标检测方法 |
-
2023
- 2023-09-15 CN CN202311189417.2A patent/CN116935366B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052787A (zh) * | 2020-09-03 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 基于人工智能的目标检测方法、装置及电子设备 |
CN112836652A (zh) * | 2021-02-05 | 2021-05-25 | 浙江工业大学 | 一种基于事件相机的多阶段人体姿态估计方法 |
CN113128392A (zh) * | 2021-04-15 | 2021-07-16 | 中国科学院上海高等研究院 | 基于仿生图像传感器的异步目标检测方法、系统、终端及介质 |
WO2023029824A1 (zh) * | 2021-08-30 | 2023-03-09 | 京东方科技集团股份有限公司 | 一种目标检测的优化方法及设备 |
CN114332880A (zh) * | 2021-12-27 | 2022-04-12 | 南京三百云信息科技有限公司 | 一种文本检测方法、装置、设备及存储介质 |
CN115641518A (zh) * | 2022-10-09 | 2023-01-24 | 山东巍然智能科技有限公司 | 一种无人机用视图感知网络模型及目标检测方法 |
CN116229101A (zh) * | 2023-03-03 | 2023-06-06 | 厦门大学 | 一种基于少样本学习的开放世界目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116935366A (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112597837B (zh) | 图像检测方法、装置、设备、存储介质和计算机程序产品 | |
CN113033537A (zh) | 用于训练模型的方法、装置、设备、介质和程序产品 | |
CN113436100B (zh) | 用于修复视频的方法、装置、设备、介质和产品 | |
CN113642431A (zh) | 目标检测模型的训练方法及装置、电子设备和存储介质 | |
CN112613387A (zh) | 一种基于YOLOv3的交通标志检测方法 | |
CN111950345B (zh) | 摄像头的识别方法、装置、电子设备和存储介质 | |
CN113643260A (zh) | 用于检测图像质量的方法、装置、设备、介质和产品 | |
CN113378857A (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN114359932B (zh) | 文本检测方法、文本识别方法及装置 | |
CN115331132A (zh) | 一种汽车零件的检测方法、装置、电子设备和存储介质 | |
CN116309963B (zh) | 一种图像的批量标注方法、装置、电子设备及存储介质 | |
CN116935366B (zh) | 一种目标检测方法、装置、电子设备及存储介质 | |
CN114429631B (zh) | 三维对象检测方法、装置、设备以及存储介质 | |
CN114445711B (zh) | 图像检测方法、装置、电子设备和存储介质 | |
CN114120180A (zh) | 一种时序提名的生成方法、装置、设备及介质 | |
CN113139463A (zh) | 用于训练模型的方法、装置、设备、介质和程序产品 | |
CN116883648B (zh) | 一种异物检测方法、装置、电子设备及存储介质 | |
CN113361524B (zh) | 图像处理方法及装置 | |
CN114299522B (zh) | 图像识别方法装置、设备和存储介质 | |
CN115049895B (zh) | 一种图像属性识别方法、属性识别模型训练方法及装置 | |
CN114037865B (zh) | 图像处理方法、装置、设备、存储介质和程序产品 | |
CN116597213A (zh) | 目标检测方法、训练方法、装置、电子设备以及存储介质 | |
CN118587641A (zh) | 基于机器视觉的同行人确定方法、装置、设备及介质 | |
CN114792377A (zh) | 目标检测方法、装置及电子设备 | |
CN118038402A (zh) | 一种红绿灯检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 406, No.1, Yichuang street, Zhongxin Guangzhou Knowledge City, Huangpu District, Guangzhou, Guangdong 510000 Applicant after: Southern Power Grid Digital Grid Research Institute Co.,Ltd. Address before: Room 406, No.1, Yichuang street, Zhongxin Guangzhou Knowledge City, Huangpu District, Guangzhou, Guangdong 510000 Applicant before: Southern Power Grid Digital Grid Research Institute Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |