CN117115423A - 面向目标跟踪的多模融合目标检测方法、装置和电子设备 - Google Patents

面向目标跟踪的多模融合目标检测方法、装置和电子设备 Download PDF

Info

Publication number
CN117115423A
CN117115423A CN202310991540.XA CN202310991540A CN117115423A CN 117115423 A CN117115423 A CN 117115423A CN 202310991540 A CN202310991540 A CN 202310991540A CN 117115423 A CN117115423 A CN 117115423A
Authority
CN
China
Prior art keywords
detection frame
frame information
initial
target
initial detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310991540.XA
Other languages
English (en)
Inventor
郭燕杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Zhongxing Electronics Co ltd
Zhongxing Intelligent System Technology Co ltd
Vimicro Corp
Original Assignee
Guangdong Zhongxing Electronics Co ltd
Zhongxing Intelligent System Technology Co ltd
Vimicro Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Zhongxing Electronics Co ltd, Zhongxing Intelligent System Technology Co ltd, Vimicro Corp filed Critical Guangdong Zhongxing Electronics Co ltd
Priority to CN202310991540.XA priority Critical patent/CN117115423A/zh
Publication of CN117115423A publication Critical patent/CN117115423A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本公开的实施例公开了面向目标跟踪的多模融合目标检测方法、装置和电子设备。该方法的一具体实施方式包括:获取待检测图像;将待检测图像输入至预设初始检测框信息生成模型,得到第一初始检测框信息集合;对第一初始检测框信息集合进行目标重叠度检测;将高度重叠区域内的各个第一初始检测框信息确定为第二初始检测框信息集合;对第二初始检测框信息集合进行聚类处理,得到第一检测框信息集;将高度重叠区域外的各个第一初始检测框信息确定为第三初始检测框信息集合;对第三初始检测框信息集合进行抑制处理,得到第二检测框信息集;生成检测框信息。该实施方式提升了生成的检测框信息准确率,减少了计算机算力资源的浪费。

Description

面向目标跟踪的多模融合目标检测方法、装置和电子设备
技术领域
本公开的实施例涉及计算机技术领域,具体涉及面向目标跟踪的多模融合目标检测方法、装置和电子设备。
背景技术
检测框信息是指在图像目标检测中用于表示包含物体的矩形框位置和置信度的信息。目前,在确定检测框信息时,通常采用的方式为:基于置信度阈值的方法生成检测框信息。
然而,当采用上述方式生成检测框信息时,经常会存在如下技术问题:
第一,通过基于置信度阈值的方法生成检测框信息,当图像中各个物体比较密集,生成的各个初始检测框信息对应的检测框存在较多的重叠,且只有一个检测框的置信度大于阈值时,基于置信度阈值的方法可能只能选择高度重叠区域中的一个检测框对应的检测框信息作为最终结果,而将高度重叠区域中其余各个物品对应的其他的检测框信息去除。导致生成的检测框信息准确率较低,需要重新检测,浪费计算机算力资源。
第二,通过基于置信度阈值的方法生成检测框信息时,当图像中一个物品存在多个重叠的检测框且检测框的置信度都高于阈值时,那么所有的检测框信息都会被保留作为最终结果,导致无法确定与目标物体对应的唯一的检测框信息。同时多余的检测框内可能会包含背景或其他非目标物品,导致生成的检测框信息准确率较低。需要重新检测,浪费计算机算力资源。
该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了面向目标跟踪的多模融合目标检测方法、装置、电子设备和计算机可读介质,来解决以上背景技术部分提到的技术问题中的一项或多项。
第一方面,本公开的一些实施例提供了一种面向目标跟踪的多模融合目标检测方法,该方法包括:获取待检测图像;将上述待检测图像输入至预设初始检测框信息生成模型,得到第一初始检测框信息集合,其中,上述第一初始检测框信息集合中的第一初始检测框信息包括边界框坐标信息与目标存在概率值;对上述第一初始检测框信息集合进行目标重叠度检测,得到目标重叠度检测结果;响应于确定目标重叠度检测结果表征存在高度重叠区域,将高度重叠区域内的各个第一初始检测框信息确定为第二初始检测框信息集合;对上述第二初始检测框信息集合进行聚类处理,得到各个初始检测框信息簇;将上述各个初始检测框信息簇中的每个初始检测框信息簇中满足第一预设条件的初始检测框信息确定为第一检测框信息,得到第一检测框信息集;响应于确定目标重叠度检测结果表征存在高度重叠区域,将高度重叠区域外的各个第一初始检测框信息确定为第三初始检测框信息集合;对上述第三初始检测框信息集合进行抑制处理,以生成第二检测框信息,得到第二检测框信息集;基于上述第一检测框信息集与上述第二检测框信息集,生成检测框信息。
第二方面,本公开的一些实施例提供了一种面向目标跟踪的多模融合目标检测装置,装置包括:获取单元,被配置成获取待检测图像;输入单元,被配置成将上述待检测图像输入至预设初始检测框信息生成模型,得到第一初始检测框信息集合,其中,上述第一初始检测框信息集合中的第一初始检测框信息包括边界框坐标信息与目标存在概率值;检测单元,被配置成对上述第一初始检测框信息集合进行目标重叠度检测,得到目标重叠度检测结果;第一确定单元,被配置成响应于确定目标重叠度检测结果表征存在高度重叠区域,将高度重叠区域内的各个第一初始检测框信息确定为第二初始检测框信息集合;第一处理单元,被配置成对上述第二初始检测框信息集合进行聚类处理,得到各个初始检测框信息簇;第二确定单元,被配置成将上述各个初始检测框信息簇中的每个初始检测框信息簇中满足第一预设条件的初始检测框信息确定为第一检测框信息,得到第一检测框信息集;第三确定单元,被配置成响应于确定目标重叠度检测结果表征存在高度重叠区域,将高度重叠区域外的各个第一初始检测框信息确定为第三初始检测框信息集合;第二处理单元,被配置成对上述第三初始检测框信息集合进行抑制处理,以生成第二检测框信息,得到第二检测框信息集;生成单元,被配置成基于上述第一检测框信息集与上述第二检测框信息集,生成检测框信息。
第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。
本公开的上述各个实施例中具有如下有益效果:通过本公开的一些实施例的面向目标跟踪的多模融合目标检测方法,提高了生成的检测框信息准确率,减少了计算机算力资源的浪费。具体来说,造成生成的检测框信息准确率较低,浪费计算机资源的原因在于:通过基于置信度阈值的方法生成检测框信息,当图像中各个物体比较密集,生成的各个初始检测框信息对应的检测框存在较多的重叠,且只有一个检测框的置信度大于阈值时,基于置信度阈值的方法可能只能选择高度重叠区域中的一个检测框对应的检测框信息作为最终结果,而将高度重叠区域中其余各个物品对应的其他的检测框信息去除。导致生成的检测框信息准确率较低,需要重新检测,浪费计算机算力资源。基于此,本公开的一些实施例的面向目标跟踪的多模融合目标检测方法,首先,获取待检测图像。然后,将上述待检测图像输入至预设初始检测框信息生成模型,得到第一初始检测框信息集合,其中,上述第一初始检测框信息集合中的第一初始检测框信息包括边界框坐标信息与目标存在概率值。由此,可以得到用于生成目标重叠度检测结果的第一初始检测框信息集合。接着,对上述第一初始检测框信息集合进行目标重叠度检测,得到目标重叠度检测结果。由此,可以得到用于表征存在高度重叠区域的目标重叠度检测结果。然后,响应于确定目标重叠度检测结果表征存在高度重叠区域,将高度重叠区域内的各个第一初始检测框信息确定为第二初始检测框信息集合。由此,可以得到表示高度重叠区域所包含的各个第一初始检测框信息的第二初始检测框信息集合。接着,对上述第二初始检测框信息集合进行聚类处理,得到各个初始检测框信息簇。由此,可以得到各个初始检测框信息簇,每个初始检测框信息簇所包含距离特征相近的各个第二初始检测框信息。然后,将上述各个初始检测框信息簇中的每个初始检测框信息簇中满足第一预设条件的初始检测框信息确定为第一检测框信息,得到第一检测框信息集。由此,可以得到表示高度重叠区域内的各个物品对应的各个检测框信息的第一检测框信息集。接着,响应于确定目标重叠度检测结果表征存在高度重叠区域,将高度重叠区域外的各个第一初始检测框信息确定为第三初始检测框信息集合。由此,可以得到用于生成高度重叠区域外的区域包含的各个检测框信息的第三初始检测框信息集合。然后对上述第三初始检测框信息集合进行抑制处理,以生成第二检测框信息,得到第二检测框信息集。由此,可以在物品存在稀疏的区域对目标存在概率值较高的各个重叠检测框的检测框信息进行抑制,生成对应各个目标物体的各个检测框信息。最后,基于上述第一检测框信息集与上述第二检测框信息集,生成检测框信息。也因为采用了对高度重叠区域内的各个检测框信息进行了聚类处理,得到各个初始检测框信息簇,在各个聚类簇的基础上生成第一检测框信息集。上述第一检测框信息集中的第一检测框信息表示在高度重叠区域内,各个不同的聚类簇中对应物品的目标存在概率值较高的检测框信息。当图像中存在的各个物体比较密集的区域时,对密集区域内各个检测框信息进行聚类处理后,生成对应各个物体的各个目标存在概率值比较高的检测框信息,减少了只针对密集区域内一个物体生成检测框信息的概率。从而,提升了生成的检测框信息准确率,减少了重新检测与生成检测框信息的次数,减少了计算机算力资源的浪费。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的面向目标跟踪的多模融合目标检测方法的一些实施例的流程图;
图2是根据本公开的面向目标跟踪的多模融合目标检测装置的一些实施例的结构示意图;
图3是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本公开。
图1示出了根据本公开的面向目标跟踪的多模融合目标检测方法的一些实施例的流程100。该面向目标跟踪的多模融合目标检测方法,包括以下步骤:
步骤101,获取待检测图像。
在一些实施例中,面向目标跟踪的多模融合目标检测方法的执行主体(例如计算设备)可以通过有线连接方式或者无线连接方式获取待检测图像。实践中,上述执行主体可以获取摄像头所采集的图像作为待检测图像。
需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
步骤102,将待检测图像输入至预设初始检测框信息生成模型,得到第一初始检测框信息集合。
在一些实施例中,上述执行主体可以将上述待检测图像输入至预设初始检测框信息生成模型,得到第一初始检测框信息集合。其中,上述第一初始检测框信息集合中的第一初始检测框信息可以表示检测图像中的包含物品对应的目标存在概率值较高的检测框对应的检测框位置信息与目标存在概率值。上述检测框可以为目标检测中用于表示物体位置和大小的有向矩形框。上述第一初始检测框信息集合中的第一初始检测框信息包括边界框坐标信息与目标存在概率值。上述目标存在概率值可以为物体在检测框内的置信度。上述初始检测框信息生成模型包括初始特征捕获网络与检测框信息生成网络。上述初始特征捕获网络可以为卷积神经网络(Convolutional Neural Network,CNN)。上述检测框信息生成网络可以为YOLOv5卷积神经网络(You Only Look Once version 5,YOLOv5)。
在一些实施例的一些可选的实现方式中,上述执行主体可以通过以下步骤将上述待检测图像输入至预设初始检测框信息生成模型,得到第一初始检测框信息集合:
第一步,将上述待检测图像输入至上述初始特征捕获网络的输入层,得到对应上述待检测图像的初始图像数据,其中,上述初始特征捕获网络包括上述输入层、第一初始特征捕获层、第二初始特征转换层与第三初始特征增强层。
第二步,将上述初始图像数据输入至上述第一初始特征捕获层,得到特征捕获信息。其中,上述第一初始特征捕获层可以是以初始图像数据为输入数据,以特征捕获信息为输出数据的神经网络的层。例如,上述特征捕获信息可以为特征图信息。上述第一初始特征捕获层可以为卷积层。
第三步,将上述第一特征捕获信息输入至第二初始特征转换层,得到非线性特征捕获信息。其中,上述第二初始特征转换层可以是以第一特征捕获信息为输入数据,以非线性特征捕获信息为输出数据的神经网络的层。例如,上述第二初始特征转换层可以为激活函数层。上述非线性特征捕获信息可以为激活函数处理后的非线性特征图信息。
第四步,将上述非线性特征捕获信息输入至第三初始特征增强层,得到特征增强信息。其中,上述第三初始特征增强层可以是以非线性特征捕获信息为输入数据,以特征增强信息为输出数据的神经网络的层。例如,上述第三初始特征增强层可以为池化层。上述特征增强信息可以是将非线性特征图信息进行降维、特征增强后的非线性特征图信息。
第五步,将上述特征增强信息输入至检测框信息生成网络的初始检测框信息生成层,得到初始检测框信息集。其中,上述检测框信息生成网络包括上述初始检测框信息生成层、初始检测框信息分类层、初始检测框信息回归层与输出层。上述初始检测框信息生成层可以是以特征增强信息为输入数据,以初始检测框信息集为输出数据的神经网络的层。上述初始检测框信息集中的初始检测框信息可以是用于表示各个边界框坐标的信息。例如,上述初始检测框信息生成层可以为区域生成网络(Region Proposal Networks,RPN)层。
第六步,将上述初始检测框信息集与上述特征增强信息输入至上述初始检测框信息分类层,得到目标存在概率信息。其中,上述初始检测框信息分类层可以是以初始检测框信息集为输入数据,以目标存在概率信息为输出数据的神经网络的层。例如,上述初始检测框信息分类层可以为全连接层。上述目标存在概率信息可以是表示检测框内存在物品的置信度的信息。
第七步,将上述初始检测框信息集与上述特征增强信息输入至上述初始检测框信息回归层,得到检测框信息集。其中,上述初始检测框信息回归层可以是以上述初始检测框信息集与上述特征增强信息为输入数据,以检测框信息集为输出数据的神经网络的层。例如,上述初始检测框信息回归层可以是神经网络回归(Quantile RegressionNeuralNetwork,QRNN)层。上述检测框信息集中的检测框信息可以是将初始检测框信息的边界框坐标通过神经网络回归层处理后,得到的更准确的初始检测框信息。
第八步,将上述检测框信息集与上述目标存在概率信息输入至上述输出层,得到第一初始检测框信息集合。
步骤103,对第一初始检测框信息集合进行目标重叠度检测,得到目标重叠度检测结果。
在一些实施例中,上述执行主体可以对上述第一初始检测框信息集合进行目标重叠度检测,得到目标重叠度检测结果。
在一些实施例的一些可选的实现方式中,上述执行主体可以通过以下步骤对上述第一初始检测框信息集合进行目标重叠度检测,得到目标重叠度检测结果:
第一步,将上述第一初始检测框信息集合中每个第一初始检测框信息包括的边界框坐标信息确定为目标坐标信息,得到目标坐标信息集合。其中,上述边界框坐标信息可以为边界框四个顶点的坐标。例如,边界框的左下角坐标可以为(x1=1,y1=1),右上角坐标可以为(x2=2,y2=4),左上角坐标可以为(x3=1,y3=4),右下角坐标可以为(x4=2,y4=1)。上述x1,y1表示左下角坐标的横坐标与纵坐标。上述x2,y2表示右上角坐标的横坐标与纵坐标。上述x3,y3表示左上角坐标的横坐标与纵坐标。上述x4,y4表示右下角坐标的横坐标与纵坐标。
第二步,对于上述第一初始检测框信息集合中的每个第一初始检测框信息执行以下步骤:
第一子步骤,将对应上述第一初始检测框信息的目标坐标信息确定为当前目标坐标信息。
第二子步骤,将目标坐标信息集合中除当前目标坐标信息以外的各个目标坐标信息确定为待处理目标坐标信息集合。
第三子步骤,基于上述当前目标坐标信息与上述待处理目标坐标信息集合,生成对应上述第一初始检测框信息的各个重叠面积。实践中,上述执行主体可以将当前目标坐标信息对应的检测框分别与上述待处理目标坐标信息集合中的每个待处理目标坐标信息对应的检测框进行求解重叠的交集面积,然后将求解得到的各个交集面积确定为对应上述第一初始检测框信息的各个重叠面积。作为示例,对应上述第一初始检测框信息的当前目标坐标信息可以为A信息,上述A信息可以为{左下角坐标可以为(x1=1,y1=1),右上角坐标可以为(x2=2,y2=4),左上角坐标可以为(x3=1,y3=4),右下角坐标可以为(x4=2,y4=1)}。待处理目标坐标信息集合可以为{B信息,C信息},上述{B信息,C信息}可以为{{左上角坐标可以为(3,4),右下角坐标可以为(4,1),左下角坐标可以为(3,1),右上角坐标可以为(4,4)},{左上角坐标可以为(1,4),右下角坐标可以为(3,1),左下角坐标可以为(1,1),右上角坐标可以为(3,4)}}。判断当前目标坐标信息(A信息)对应的检测框与待处理目标坐标信息(B信息)对应的检测框是否相交,由于不满足min(2,4)-max(1,3)>=0且min(4,4)-max(1,1)>=0,则当前目标坐标信息(A信息)对应的检测框与待处理目标坐标信息(B信息)对应的检测框不相交,则当前目标坐标信息(A信息)对应的检测框与待处理目标坐标信息(B信息)对应的检测框的重叠面积为0。判断当前目标坐标信息(A信息)对应的检测框与待处理目标坐标信息(C信息)对应的检测框是否相交,由于满足min(2,4)-max(1,1)>=0且min(4,4)-max(1,1)>=0,则当前目标坐标信息(A信息)对应的检测框与待处理目标坐标信息(C信息)对应的检测框相交,则当前目标坐标信息(A信息)对应的检测框与待处理目标坐标信息(C信息)对应的检测框的重叠面积可以为(min(2,3)-max(1,1))*((min(4,4)-max(1,1))=3。对应上述第一初始检测框信息的各个重叠面积可以为0与3。
第四子步骤,响应于确定上述各个重叠面积中存在满足第二预设条件的重叠面积,将满足第二预设条件的至少一个重叠面积确定为初始目标重叠面积集合。其中,上述第二预设条件可以为重叠面积大于第一预设阈值。
第三步,响应于确定存在至少一个初始目标重叠面积集合,将表征存在高度重叠区域的信息确定为目标重叠度检测结果。其中,上述高度重叠区域可以为包含各个第一检测框的区域。上述各个第一检测框可以为上述至少一个初始目标重叠面积集合对应的各个检测框。上述检测框可以为目标检测中用于表示物体位置和大小的有向矩形框。实践中,上述执行主体可以通过以下步骤确定上述高度重叠区域。首先,上述执行主体可以将上述各个初始目标重叠面积集合的并集确定为目标重叠面积集合。然后,上述执行主体可以将上述目标重叠面积集合中每个目标重叠面积对应的各个第一初始检测框信息确定为各个目标检测框信息,得到目标检测框信息集合。接着,上述执行主体可以将上述目标检测框信息集合中每个目标检测框信息中的边界框坐标信息确定为目标边界框坐标信息,得到各个目标边界框坐标信息。再然后,上述执行主体可以将上述各个目标边界框坐标信息对应的各个坐标确定为坐标集合。然后,上述执行主体可以将上述坐标集合中的最小横坐标确定为高度重叠区域的左下顶点横坐标。上述执行主体可以将上述坐标集合中的最小横坐标确定为高度重叠区域的左上顶点横坐标。上述执行主体可以将上述坐标集合中的最小纵坐标确定为高度重叠区域的左下顶点纵坐标。上述执行主体可以将上述坐标集合中的最大纵坐标确定为高度重叠区域的左上顶点纵坐标。上述执行主体可以将上述坐标集合中的最大横坐标确定为高度重叠区域的右下顶点横坐标。上述执行主体可以将上述坐标集合中的最大横坐标确定为高度重叠区域的右上顶点横坐标。上述执行主体可以将上述坐标集合中的最小纵坐标确定为高度重叠区域的右下顶点纵坐标。上述执行主体可以将上述坐标集合中的最大纵坐标确定为高度重叠区域的右上顶点纵坐标。最后,上述执行主体可以将以上述各个顶点坐标为顶点的矩形区域确定为高度重叠区域。作为示例,上述坐标集合可以为{(1,1),(1,4),(2,4),(2,1),(1,1),(1,4),(3,1),(3,4)}。上述高度重叠区域的左下顶点横坐标可以为1,上述高度重叠区域的左下顶点纵坐标可以为1,高度重叠区域的左下顶点坐标可以为(1,1)。上述高度重叠区域的左上顶点横坐标可以为1,上述高度重叠区域的左上顶点纵坐标可以为4,高度重叠区域的左上顶点坐标可以为(1,4)。上述高度重叠区域的右下顶点横坐标可以为3,上述高度重叠区域的右下顶点纵坐标可以为1,高度重叠区域的左下顶点坐标可以为(3,1)。上述高度重叠区域的右上顶点横坐标可以为3,上述高度重叠区域的右上顶点纵坐标可以为4,高度重叠区域的左下顶点坐标可以为(3,4)。上述高度重叠区域可以为以{(1,1),(1,4),(3,1),(3,4)}为顶点坐标的矩形区域。
步骤104,响应于确定目标重叠度检测结果表征存在高度重叠区域,将高度重叠区域内的各个第一初始检测框信息确定为第二初始检测框信息集合。
在一些实施例中,上述执行主体可以响应于确定目标重叠度检测结果表征存在高度重叠区域,将高度重叠区域内的各个第一初始检测框信息确定为第二初始检测框信息集合。
步骤105,对第二初始检测框信息集合进行聚类处理,得到各个初始检测框信息簇。
在一些实施例中,上述执行主体可以对上述第二初始检测框信息集合进行聚类处理,得到各个初始检测框信息簇。
在一些实施例的一些可选的实现方式中,上述执行主体可以通过以下步骤对上述第二初始检测框信息集合进行聚类处理,得到各个初始检测框信息簇:
第一步,在上述第二初始检测框信息集合中选择预设数量个第二初始检测框信息作为各个初始化聚类中心。实践中,上述执行主体可以随机地选择预设数量个第二初始检测框信息作为各个初始化聚类中心。其中,上述预设数量可以为10。
第二步,将上述各个初始化聚类中心中的每个初始化聚类中心加入至对应上述初始化聚类中心的预设信息簇,以生成目标预设信息簇,得到各个目标预设信息簇。其中,上述预设信息簇可以为对应初始化聚类中心的信息集合。实践中,上述执行主体可以将初始化聚类中心加入至对应上述初始化聚类中心的预设信息簇之后的预设信息簇确定为目标预设信息簇。
第三步,将上述各个初始化聚类中心中的每个初始化聚类中心对应的检测框中心坐标确定为第一中心坐标,得到第一中心坐标集合。
第四步,将所选择的预设数量个第二初始检测框信息从上述第二初始检测框信息集合中删除,以对第二初始检测框信息集合进行更新。
第五步,将更新后的第二初始检测框信息集合确定为待分配初始检测框信息集合。
第六步,对上述待分配初始检测框信息集合中每个待分配初始检测框信息,执行以下处理步骤:
子步骤一,将上述待分配初始检测框信息对应的检测框中心坐标确定为第二中心坐标。
子步骤二,基于上述第二中心坐标与上述第一中心坐标集合,确定上述待分配初始检测框信息与上述各个初始化聚类中心中每个初始化聚类中心的距离,得到距离集合。实践中,上述执行主体可以将第二中心坐标与第一中心坐标集合中的每个第一中心坐标的距离确定为对应待分配初始检测框信息与对应初始化聚类中心的距离。然后,上述执行主体可以将各个确定的距离确定为距离集合。上述距离可以为欧式距离。例如,上述第二中心坐标可以为(2,2),上述第一中心坐标可以为(4,2),则上述对应待分配初始检测框信息与对应初始化聚类中心的欧式距离可以为2。
子步骤三,将满足第一预设筛选条件的距离确定为目标距离。上述第一预设筛选条件可以为距离集合中最小的距离。
子步骤四,确定对应上述目标距离的初始化聚类中心所在的目标预设信息簇。实践中,上述执行主体可以将对应上述目标距离的初始化聚类中心所在的预设信息簇确定为目标预设信息簇。
子步骤五,将上述待分配初始检测框信息加入至所确定的目标预设信息簇,以对目标预设信息簇进行更新。
第七步,将各个更新后的目标预设信息簇确定为各个初始检测框信息簇。
步骤106,将各个初始检测框信息簇中的每个初始检测框信息簇中满足第一预设条件的初始检测框信息确定为第一检测框信息,得到第一检测框信息集。
在一些实施例中,上述执行主体可以将上述各个初始检测框信息簇中的每个初始检测框信息簇中满足第一预设条件的初始检测框信息确定为第一检测框信息,得到第一检测框信息集。其中,上述第一预设条件可以为初始检测框信息的目标存在概率值最大。
步骤107,响应于确定目标重叠度检测结果表征存在高度重叠区域,将高度重叠区域外的各个第一初始检测框信息确定为第三初始检测框信息集合。
在一些实施例中,上述执行主体可以响应于确定目标重叠度检测结果表征存在高度重叠区域,将高度重叠区域外的各个第一初始检测框信息确定为第三初始检测框信息集合。
步骤108,对第三初始检测框信息集合进行抑制处理,以生成第二检测框信息,得到第二检测框信息集。
在一些实施例中,上述执行主体可以对上述第三初始检测框信息集合进行抑制处理,以生成第二检测框信息,得到第二检测框信息集。
在一些实施例的一些可选的实现方式中,上述执行主体可以通过以下步骤对上述第三初始检测框信息集合进行抑制处理,以生成第二检测框信息,得到第二检测框信息集:
第一步,将上述第三初始检测框信息集合中每个第三初始检测框信息中的目标存在概率值确定为置信值,得到置信值集合。
第二步,对上述置信值集合,执行以下抑制处理步骤:
子步骤一,响应于确定上述置信值集合中存在满足第二预设筛选条件的置信值,将满足第二预设筛选条件的置信值确定为第一目标置信值。其中,上述第二预设筛选条件可以为置信值最大。
子步骤二,将对应第一目标置信值的第三初始检测框信息确定为第二检测框信息。
子步骤三,将上述第二检测框信息中的边界框坐标信息确定为第一目标边界框坐标信息。
子步骤四,将第一目标置信值从置信值集合中删除,以对置信值集合进行更新。
子步骤五,将更新后的置信值集合确定为第一置信值集合。
子步骤六,将上述第一置信值集合中的每个第一置信值对应的第三初始检测框信息中的边界框坐标信息确定为第二目标边界框坐标信息,得到第二目标边界框坐标信息集合。
子步骤七,基于上述第一目标边界框坐标信息与上述第二目标边界框坐标信息集合,生成重叠度集合。实践中,对第二目标边界框坐标信息集合中每个第二目标边界框坐标信息,上述执行主体可以根据第一目标边界框坐标信息与各个第二目标边界框坐标信息,生成第一目标边界框坐标信息与各个第二目标边界框坐标信息的各个边界框交集面积与各个边界框并集面积。然后,上述执行主体可以将各个边界框交集面积与对应的各个边界框并集面积的面积比值确定为各个重叠度,得到重叠度集合。作为示例,上述第一目标边界框坐标信息可以表示为{左下角坐标可以为(1,1),右上角坐标可以为(2,4),左上角坐标可以为(1,4),右下角坐标可以为(2,1)},上述第二目标边界框坐标信息集合可以为{(左下角坐标可以为(1,1),右上角坐标可以为(3,4),左上角坐标可以为(1,4),右下角坐标可以为(3,1)}。交集面积可以为3。并集面积可以为9。则重叠度可以为1/3。重叠度集合可以为{1/3}。
子步骤八,响应于确定上述重叠度集合中存在满足第三预设筛选条件的重叠度,将至少一个满足第三预设筛选条件的重叠度确定为目标重叠度集合。上述第三预设筛选条件可以为重叠度大于第二预设阈值。上述第二预设阈值可以为1/6。
子步骤九,将上述目标重叠度集合中每个目标重叠度对应的各个置信值确定为各个第二目标置信值,得到第二目标置信值集合。
子步骤十,将上述第二目标置信值集合对应的各个置信值从上述更新后的置信值集合中删除,以对置信值集合再次更新。
第三步,响应于确定再次更新后的置信值集合不为空集,对再次更新后的置信值集合,再次执行上述抑制处理步骤。
第四步,响应于确定再次更新后的置信值集合为空集,将所确定的各个第二检测框信息确定为第二检测框信息集。
上述技术方案及其相关内容作为本公开的实施例的一个发明点,解决了背景技术提及的技术问题二“通过基于置信度阈值的方法生成检测框信息时,当图像中一个物品存在多个重叠的检测框且检测框的置信度都高于阈值时,那么所有的检测框信息都会被保留作为最终结果,导致无法确定与目标物体对应的唯一的检测框信息。同时多余的检测框内可能会包含背景或其他非目标物品,导致生成的检测框信息准确率较低。需要重新检测,浪费计算机算力资源”。导致生成的检测框信息准确率较低,浪费计算机算力资源因素往往如下:通过基于置信度阈值的方法生成检测框信息时,当图像中一个物品存在多个重叠的检测框且检测框的置信度都高于阈值时,那么所有的检测框信息都会被保留作为最终结果,导致无法确定与目标物体对应的唯一的检测框信息。同时多余的检测框内可能会包含背景或其他非目标物品,导致生成的检测框信息准确率较低。需要重新检测,浪费计算机算力资源。如果解决了上述因素,就能达到提高生成的检测框信息准确率,减少计算机算力资源的浪费。为了达到这一效果,本公开通过以下步骤,第一步,将上述第三初始检测框信息集合中每个第三初始检测框信息中的目标存在概率值确定为置信值,得到置信值集合。由此,可以得到用于确定第二检测框信息的置信值集合。第二步,对上述置信值集合,执行以下抑制处理步骤:子步骤一,响应于确定上述置信值集合中存在满足第二预设筛选条件的置信值,将满足第二预设筛选条件的置信值确定为第一目标置信值。子步骤二,将对应第一目标置信值的第三初始检测框信息确定为第二检测框信息。由此,可以确定对应上述第一目标置信值的第二检测框信息。子步骤三,将上述第二检测框信息中的边界框坐标信息确定为第一目标边界框坐标信息。子步骤四,将第一目标置信值从置信值集合中删除,以对置信值集合进行更新。由此,可以将已经确认第二检测框信息的第一目标置信值从置信值集合中删除,避免生成重复的检测信息。子步骤五,将更新后的置信值集合确定为第一置信值集合。由此,可以得到用于生成第二目标边界框坐标信息集合的第一置信值集合。子步骤六,将上述第一置信值集合中的每个第一置信值对应的第三初始检测框信息中的边界框坐标信息确定为第二目标边界框坐标信息,得到第二目标边界框坐标信息集合。由此,可以得到用于生成重叠度集合的第二目标边界框坐标信息集合。子步骤七,基于上述第一目标边界框坐标信息与上述第二目标边界框坐标信息集合,生成重叠度集合。子步骤八,响应于确定上述重叠度集合中存在满足第三预设筛选条件的重叠度,将至少一个满足第三预设筛选条件的重叠度确定为目标重叠度集合。由此,可以得到表征重叠度较高的目标重叠度集合。子步骤九,将上述目标重叠度集合中每个目标重叠度对应的各个置信值确定为各个第二目标置信值,得到第二目标置信值集合。子步骤十,将上述第二目标置信值集合对应的各个置信值从上述更新后的置信值集合中删除,以对置信值集合再次进行更新。由此,可以将表征重叠度较高的目标重叠度集合对应的置信值从上述更新后的置信值集合中删除,以将重叠度较高的第三初始检测框信息进行抑制且不在进行确认保留。第三步,响应于确定再次进行更新后的置信值集合不为空集,对再次进行更新后的置信值集合,再次执行上述抑制处理步骤。第四步,响应于确定再次进行更新后的置信值集合为空集,将所确定的各个第二检测框信息确定为第二检测框信息集。由此,可以得到表征高度重叠区域外的检测框信息即第二检测框信息集。也因为采用了不断的根据抑制处理后的置信值集合,生成各个第二检测框信息,当图像中的一个物品存在多个重叠的检测框且检测框的目标存在概率值即置信值都较高时,抑制处理会将置信值最高的第三初始检测框信息作为第二检测框信息保留,然后将与置信值最高的第三初始检测框重叠度较高的其他各个第三初始检测框信息进行抑制且不再进行确认保留。从而使得图像中的各个物品能够有唯一对应的检测框信息即第二检测框信息集,提高了生成的检测框信息准确率。进而,减少了重新检测与生成检测框信息的次数。减少了计算机算力资源的浪费。
步骤109,基于第一检测框信息集与第二检测框信息集,生成检测框信息。
在一些实施例中,上述执行主体可以基于上述第一检测框信息集与上述第二检测框信息集,生成检测框信息。实践中,上述执行主体可以将上述第一检测框信息集与上述第二检测框信息集确定为检测框信息。
可选地,在上述对上述第一初始检测框信息集合进行目标重叠度检测,得到目标重叠度检测结果之后,上述方法还包括:
第一步,响应于确定目标重叠度检测结果表征不存在高度重叠区域,对上述第一初始检测框信息集合进行抑制处理,以生成第三检测框信息,得到第三检测框信息集。上述第三检测框信息集中的第三目标检测框信息可以表示检测图像不存在高度重叠区域时所包含物品的检测框的检测框位置信息与目标存在概率值。
可选地,在上述基于上述第一检测框信息集与上述第二检测框信息集,生成检测框信息之后,上述方法还包括:
第一步,将上述检测框信息中的各个检测框的边界框坐标信息确定为边界框坐标信息集合。
第二步,基于上述边界框坐标信息集合,确定检测框在上述待检测图像中的各个像素点。实践中,首先,上述执行主体可以确定边界框坐标信息中的各个顶点在待检测图像中的坐标信息。然后可以利用线性插值算法根据边界框坐标信息中的各个顶点在待检测图像中的坐标信息确定检测框在上述待检测图像中的各个像素点。
第三步,将上述各个像素点的像素值更新为预设数值,以对上述待检测图像中的各个像素点进行更新。其中,上述预设数值可以为(255,0,0)。
第四步,将各个像素点更新后的待检测图像确定为检测框显示图像。
本公开的上述各个实施例中具有如下有益效果:通过本公开的一些实施例的面向目标跟踪的多模融合目标检测方法,提高了生成的检测框信息准确率,减少了计算机算力资源的浪费。具体来说,造成生成的检测框信息准确率较低,浪费计算机资源的原因在于:通过基于置信度阈值的方法生成检测框信息,当图像中各个物体比较密集,生成的各个初始检测框信息对应的检测框存在较多的重叠,且只有一个检测框的置信度大于阈值时,基于置信度阈值的方法可能只能选择高度重叠区域中的一个检测框对应的检测框信息作为最终结果,而将高度重叠区域中其余各个物品对应的其他的检测框信息去除。导致生成的检测框信息准确率较低,需要重新检测,浪费计算机算力资源。基于此,本公开的一些实施例的面向目标跟踪的多模融合目标检测方法,首先,获取待检测图像。然后,将上述待检测图像输入至预设初始检测框信息生成模型,得到第一初始检测框信息集合,其中,上述第一初始检测框信息集合中的第一初始检测框信息包括边界框坐标信息与目标存在概率值。由此,可以得到用于生成目标重叠度检测结果的第一初始检测框信息集合。接着,对上述第一初始检测框信息集合进行目标重叠度检测,得到目标重叠度检测结果。由此,可以得到用于表征存在高度重叠区域的目标重叠度检测结果。然后,响应于确定目标重叠度检测结果表征存在高度重叠区域,将高度重叠区域内的各个第一初始检测框信息确定为第二初始检测框信息集合。由此,可以得到表示高度重叠区域所包含的各个第一初始检测框信息的第二初始检测框信息集合。接着,对上述第二初始检测框信息集合进行聚类处理,得到各个初始检测框信息簇。由此,可以得到各个初始检测框信息簇,每个初始检测框信息簇所包含距离特征相近的各个第二初始检测框信息。然后,将上述各个初始检测框信息簇中的每个初始检测框信息簇中满足第一预设条件的初始检测框信息确定为第一检测框信息,得到第一检测框信息集。由此,可以得到表示高度重叠区域内的各个物品对应的各个检测框信息的第一检测框信息集。接着,响应于确定目标重叠度检测结果表征存在高度重叠区域,将高度重叠区域外的各个第一初始检测框信息确定为第三初始检测框信息集合。由此,可以得到用于生成高度重叠区域外的区域包含的各个检测框信息的第三初始检测框信息集合。然后对上述第三初始检测框信息集合进行抑制处理,以生成第二检测框信息,得到第二检测框信息集。由此,可以在物品存在稀疏的区域对目标存在概率值较高的各个重叠检测框的检测框信息进行抑制,生成对应各个目标物体的各个检测框信息。最后,基于上述第一检测框信息集与上述第二检测框信息集,生成检测框信息。也因为采用了对高度重叠区域内的各个检测框信息进行了聚类处理,得到各个初始检测框信息簇,在各个聚类簇的基础上生成第一检测框信息集。上述第一检测框信息集中的第一检测框信息表示在高度重叠区域内,各个不同的聚类簇中对应物品的目标存在概率值较高的检测框信息。当图像中存在的各个物体比较密集的区域时,对密集区域内各个检测框信息进行聚类处理后,生成对应各个物体的各个目标存在概率值比较高的检测框信息,减少了只针对密集区域内一个物体生成检测框信息的概率。从而,提升了生成的检测框信息准确率,减少了重新检测与生成检测框信息的次数,减少了计算机算力资源的浪费。
进一步参考图2,作为对各图所示方法的实现,本公开提供了一种面向目标跟踪的多模融合目标检测装置的一些实施例,这些装置实施例与图1所示的那些方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图2所示,一些实施例的面向目标跟踪的多模融合目标检测装置200包括:获取单元201、输入单元202、检测单元203、第一确定单元204、第一处理单元205、第二确定单元206、第三确定单元207、第二处理单元208和生成单元209。其中,获取单元201被配置成获取待检测图像;输入单元202被配置成将上述待检测图像输入至预设初始检测框信息生成模型,得到第一初始检测框信息集合,其中,上述第一初始检测框信息集合中的第一初始检测框信息包括边界框坐标信息与目标存在概率值;检测单元203被配置成对上述第一初始检测框信息集合进行目标重叠度检测,得到目标重叠度检测结果;第一确定单元204被配置成响应于确定目标重叠度检测结果表征存在高度重叠区域,将高度重叠区域内的各个第一初始检测框信息确定为第二初始检测框信息集合;第一处理单元205被配置成对上述第二初始检测框信息集合进行聚类处理,得到各个初始检测框信息簇;第二确定单元206被配置成将上述各个初始检测框信息簇中的每个初始检测框信息簇中满足第一预设条件的初始检测框信息确定为第一检测框信息,得到第一检测框信息集;第三确定单元207被配置成响应于确定目标重叠度检测结果表征存在高度重叠区域,将高度重叠区域外的各个第一初始检测框信息确定为第三初始检测框信息集合;第二处理单元208被配置成对上述第三初始检测框信息集合进行抑制处理,以生成第二检测框信息,得到第二检测框信息集;生成单元209被配置成基于上述第一检测框信息集与上述第二检测框信息集,生成检测框信息。
可以理解的是,该装置200中记载的诸单元与参考图1述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置200及其中包含的单元,在此不再赘述。
下面参考图3,其示出了适于用来实现本公开的一些实施例的电子设备300的结构示意图。图3示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图3所示,电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图3中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从ROM 302被安装。在该计算机程序被处理装置301执行时,执行本公开的一些实施例的方法中限定的功能。
需要说明的是,本公开的一些实施例中记载的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取待检测图像;将上述待检测图像输入至预设初始检测框信息生成模型,得到第一初始检测框信息集合,其中,上述第一初始检测框信息集合中的第一初始检测框信息包括边界框坐标信息与目标存在概率值;对上述第一初始检测框信息集合进行目标重叠度检测,得到目标重叠度检测结果;响应于确定目标重叠度检测结果表征存在高度重叠区域,将高度重叠区域内的各个第一初始检测框信息确定为第二初始检测框信息集合;对上述第二初始检测框信息集合进行聚类处理,得到各个初始检测框信息簇;将上述各个初始检测框信息簇中的每个初始检测框信息簇中满足第一预设条件的初始检测框信息确定为第一检测框信息,得到第一检测框信息集;响应于确定目标重叠度检测结果表征存在高度重叠区域,将高度重叠区域外的各个第一初始检测框信息确定为第三初始检测框信息集合;对上述第三初始检测框信息集合进行抑制处理,以生成第二检测框信息,得到第二检测框信息集;基于上述第一检测框信息集与上述第二检测框信息集,生成检测框信息。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、输入单元、检测单元、第一确定单元、第一处理单元、第二确定单元、第三确定单元、第二处理单元和生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取待检测图像的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (9)

1.一种面向目标跟踪的多模融合目标检测方法,包括:
获取待检测图像;
将所述待检测图像输入至预设初始检测框信息生成模型,得到第一初始检测框信息集合,其中,所述第一初始检测框信息集合中的第一初始检测框信息包括边界框坐标信息与目标存在概率值;
对所述第一初始检测框信息集合进行目标重叠度检测,得到目标重叠度检测结果;
响应于确定目标重叠度检测结果表征存在高度重叠区域,将高度重叠区域内的各个第一初始检测框信息确定为第二初始检测框信息集合;
对所述第二初始检测框信息集合进行聚类处理,得到各个初始检测框信息簇;
将所述各个初始检测框信息簇中的每个初始检测框信息簇中满足第一预设条件的初始检测框信息确定为第一检测框信息,得到第一检测框信息集;
响应于确定目标重叠度检测结果表征存在高度重叠区域,将高度重叠区域外的各个第一初始检测框信息确定为第三初始检测框信息集合;
对所述第三初始检测框信息集合进行抑制处理,以生成第二检测框信息,得到第二检测框信息集;
基于所述第一检测框信息集与所述第二检测框信息集,生成检测框信息。
2.根据权利要求1所述的方法,其中,在所述对所述第一初始检测框信息集合进行目标重叠度检测,得到目标重叠度检测结果之后,所述方法还包括:
响应于确定目标重叠度检测结果表征不存在高度重叠区域,对所述第一初始检测框信息集合进行抑制处理,以生成第三检测框信息,得到第三检测框信息集。
3.根据权利要求1所述的方法,其中,所述初始检测框信息生成模型包括初始特征捕获网络与检测框信息生成网络;以及
所述将所述待检测图像输入至预设初始检测框信息生成模型,得到第一初始检测框信息集合,包括:
将所述待检测图像输入至所述初始特征捕获网络的输入层,得到对应所述待检测图像的初始图像数据,其中,所述初始特征捕获网络包括所述输入层、第一初始特征捕获层、第二初始特征转换层与第三初始特征增强层;
将所述初始图像数据输入至所述第一初始特征捕获层,得到特征捕获信息;
将所述第一特征捕获信息输入至第二初始特征转换层,得到非线性特征捕获信息;
将所述非线性特征捕获信息输入至第三初始特征增强层,得到特征增强信息;
将所述特征增强信息输入至检测框信息生成网络的初始检测框信息生成层,得到初始检测框信息集,其中,所述检测框信息生成网络包括所述初始检测框信息生成层、初始检测框信息分类层、初始检测框信息回归层与输出层;
将所述初始检测框信息集与所述特征增强信息输入至所述初始检测框信息分类层,得到目标存在概率信息;
将所述初始检测框信息集与所述特征增强信息输入至所述初始检测框信息回归层,得到检测框信息集;
将所述检测框信息集与所述目标存在概率信息输入至所述输出层,得到第一初始检测框信息集合。
4.根据权利要求1所述的方法,其中,所述对所述第一初始检测框信息集合进行目标重叠度检测,得到目标重叠度检测结果,包括:
将所述第一初始检测框信息集合中每个第一初始检测框信息包括的边界框坐标信息确定为目标坐标信息,得到目标坐标信息集合;
对所述第一初始检测框信息集合中的每个第一初始检测框信息执行以下步骤:
将对应所述第一初始检测框信息的目标坐标信息确定为当前目标坐标信息;
将目标坐标信息集合中除当前目标坐标信息以外的各个目标坐标信息确定为待处理目标坐标信息集合;
基于所述当前目标坐标信息与所述待处理目标坐标信息集合,生成对应所述第一初始检测框信息的各个重叠面积;
响应于确定所述各个重叠面积中存在满足第二预设条件的重叠面积,将满足第二预设条件的至少一个重叠面积确定为初始目标重叠面积集合;
响应于确定存在至少一个初始目标重叠面积集合,将表征存在高度重叠区域的信息确定为目标重叠度检测结果。
5.根据权利要求4所述的方法,其中,所述对所述第二初始检测框信息集合进行聚类处理,得到各个初始检测框信息簇,包括:
在所述第二初始检测框信息集合中选择预设数量个第二初始检测框信息作为各个初始化聚类中心;
将所述各个初始化聚类中心中的每个初始化聚类中心加入至对应所述初始化聚类中心的预设信息簇,以生成目标预设信息簇,得到各个目标预设信息簇;
将所述各个初始化聚类中心中的每个初始化聚类中心对应的检测框中心坐标确定为第一中心坐标,得到第一中心坐标集合;
将所选择的预设数量个第二初始检测框信息从所述第二初始检测框信息集合中删除,以对第二初始检测框信息集合进行更新;
将更新后的第二初始检测框信息集合确定为待分配初始检测框信息集合;
对所述待分配初始检测框信息集合中每个待分配初始检测框信息,执行以下处理步骤:
将所述待分配初始检测框信息对应的检测框中心坐标确定为第二中心坐标;
基于所述第二中心坐标与所述第一中心坐标集合,确定所述待分配初始检测框信息与所述各个初始化聚类中心中每个初始化聚类中心的距离,得到距离集合;
将满足第一预设筛选条件的距离确定为目标距离;
确定对应所述目标距离的初始化聚类中心所在的目标预设信息簇;
将所述待分配初始检测框信息加入至所确定的目标预设信息簇,以对目标预设信息簇进行更新;
将各个更新后的目标预设信息簇确定为各个初始检测框信息簇。
6.根据权利要求1所述的方法,其中,在所述基于所述第一检测框信息集与所述第二检测框信息集,生成检测框信息之后,所述方法还包括:
将所述检测框信息中的各个检测框的边界框坐标信息确定为边界框坐标信息集合;
基于所述边界框坐标信息集合,确定检测框在所述待检测图像中的各个像素点;
将所述各个像素点的像素值更新为预设数值,以对所述待检测图像中的各个像素点进行更新;
将各个像素点更新后的待检测图像确定为检测框显示图像。
7.一种面向目标跟踪的多模融合目标检测装置,包括:
获取单元,被配置成获取待检测图像;
输入单元,被配置成将所述待检测图像输入至预设初始检测框信息生成模型,得到第一初始检测框信息集合,其中,所述第一初始检测框信息集合中的第一初始检测框信息包括边界框坐标信息与目标存在概率值;
检测单元,被配置成对所述第一初始检测框信息集合进行目标重叠度检测,得到目标重叠度检测结果;
第一确定单元,被配置成响应于确定目标重叠度检测结果表征存在高度重叠区域,将高度重叠区域内的各个第一初始检测框信息确定为第二初始检测框信息集合;
第一处理单元,被配置成对所述第二初始检测框信息集合进行聚类处理,得到各个初始检测框信息簇;
第二确定单元,被配置成将所述各个初始检测框信息簇中的每个初始检测框信息簇中满足第一预设条件的初始检测框信息确定为第一检测框信息,得到第一检测框信息集;
第三确定单元,被配置成响应于确定目标重叠度检测结果表征存在高度重叠区域,将高度重叠区域外的各个第一初始检测框信息确定为第三初始检测框信息集合;
第二处理单元,被配置成对所述第三初始检测框信息集合进行抑制处理,以生成第二检测框信息,得到第二检测框信息集;
生成单元,被配置成基于所述第一检测框信息集与所述第二检测框信息集,生成检测框信息。
8.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至6中任一所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1至6中任一所述的方法。
CN202310991540.XA 2023-08-08 2023-08-08 面向目标跟踪的多模融合目标检测方法、装置和电子设备 Pending CN117115423A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310991540.XA CN117115423A (zh) 2023-08-08 2023-08-08 面向目标跟踪的多模融合目标检测方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310991540.XA CN117115423A (zh) 2023-08-08 2023-08-08 面向目标跟踪的多模融合目标检测方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN117115423A true CN117115423A (zh) 2023-11-24

Family

ID=88811967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310991540.XA Pending CN117115423A (zh) 2023-08-08 2023-08-08 面向目标跟踪的多模融合目标检测方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN117115423A (zh)

Similar Documents

Publication Publication Date Title
CN110276346B (zh) 目标区域识别模型训练方法、装置和计算机可读存储介质
CN112668588B (zh) 车位信息生成方法、装置、设备和计算机可读介质
CN112150490B (zh) 图像检测方法、装置、电子设备和计算机可读介质
CN111598902B (zh) 图像分割方法、装置、电子设备及计算机可读介质
CN109118456B (zh) 图像处理方法和装置
CN111783777B (zh) 图像处理方法、装置、电子设备和计算机可读介质
CN112528995B (zh) 用于训练目标检测模型的方法、目标检测方法及装置
CN112418232B (zh) 图像分割方法、装置、可读介质及电子设备
CN112712036A (zh) 交通标志识别方法、装置、电子设备及计算机存储介质
CN111461968A (zh) 图片处理方法、装置、电子设备和计算机可读介质
CN112150491B (zh) 图像检测方法、装置、电子设备和计算机可读介质
CN111783889B (zh) 图像识别方法、装置、电子设备和计算机可读介质
CN111862351A (zh) 定位模型优化方法、定位方法和定位设备
CN110852242A (zh) 基于多尺度网络的水印识别方法、装置、设备及存储介质
CN116311155A (zh) 障碍物信息生成方法、装置、电子设备和计算机可读介质
CN117115423A (zh) 面向目标跟踪的多模融合目标检测方法、装置和电子设备
CN111680754B (zh) 图像分类方法、装置、电子设备及计算机可读存储介质
CN111784709B (zh) 图像处理方法、装置、电子设备和计算机可读介质
CN111340813B (zh) 图像实例分割方法、装置、电子设备及存储介质
CN110796144B (zh) 车牌检测方法、装置、设备及存储介质
CN113642510A (zh) 目标检测方法、装置、设备和计算机可读介质
CN110633595B (zh) 一种利用双线性插值的目标检测方法和装置
CN111784710B (zh) 图像处理方法、装置、电子设备和介质
CN113808050B (zh) 3d点云的去噪方法、装置、设备及存储介质
CN114359673B (zh) 基于度量学习的小样本烟雾检测方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination