CN113947600A - 一种数字孪生宏观场景的多目标检测方法及装置 - Google Patents

一种数字孪生宏观场景的多目标检测方法及装置 Download PDF

Info

Publication number
CN113947600A
CN113947600A CN202111558760.0A CN202111558760A CN113947600A CN 113947600 A CN113947600 A CN 113947600A CN 202111558760 A CN202111558760 A CN 202111558760A CN 113947600 A CN113947600 A CN 113947600A
Authority
CN
China
Prior art keywords
network
convolution
target detection
feature
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111558760.0A
Other languages
English (en)
Inventor
徐雪松
田志平
陈晓红
刘飞香
梁伟
唐加乐
闫月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202111558760.0A priority Critical patent/CN113947600A/zh
Publication of CN113947600A publication Critical patent/CN113947600A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection

Abstract

本申请提供了一种数字孪生宏观场景的多目标检测方法及装置,其中,该方法包括:获取混合神经网络模型,其包括深度可分离卷积网络、目标检测网络和多人姿态估计网络;将待检测图像输入深度可分离卷积网络,并通过该网络提取待检测图像的特征图;将其输入目标检测网络,通过该网络将位于浅层和深层的多个预设卷积图进行预处理和特征融合,得到目标特征图,并预测多类型小目标的特征图,基于预测的特征图从数字孪生宏观场景中检测多个静态小目标;将目标特征图输入多人姿态估计网络,通过该网络进行远距离人体姿态估计,并消除冗余姿态估计,从而从数字孪生宏观场景中检测多人姿态。本申请实施例可以提升数字孪生宏观场景下的目标检测准确率和精度。

Description

一种数字孪生宏观场景的多目标检测方法及装置
技术领域
本申请涉及数字孪生宏观场景目标检测技术领域,尤其是涉及一种数字孪生宏观场景的多目标检测方法及装置。
背景技术
随着网络物理系统(CPS)的多项技术进步,工业4.0革命带来了一个名为数字孪生(DT)的新兴概念,这表明它有潜力打破智能制造中物理空间和网络空间之间的壁垒。然而,在数字孪生中,根据实时结构和环境参数的动态变化来分析和估计它们仍然是困难的,尤其是当在现代制造环境中面对来自具有复杂背景的大规模场景的多个小物体的检测任务时。
首先,在实际的制造场景中,由于场地的空间维度不同,摄像机通常安装在车间更远更高的地方,为DT捕捉所有目标的结构和环境信息。图像中的物体约为10到30个像素,可以看作是典型的多类型小目标检测问题。
其次,需要对人体目标精准检测。操作者的行为具有高度的自主性和不确定性。由于摄像头角度和距离的不同,操作员的全身特征通常不可用。传统的基于人体骨架关键点的算法容易导致现有的虚拟实体模型难以客观描述物理对象。
最后,需要消除环境干扰并保证实时性。由于在复杂的生产环境中,受环境光照、烟尘等变化等因素的差异,很难快速区分背景和目标,给目标检测、特征提取和数字建模带来诸多困难。因此,必须提高算法对复杂环境目标检测的鲁棒性。同时,对于数字孪生系统来说,需要在可接受的时间范围内实现物理目标与数字信息的映射和交互。因此,必须提高物理场景目标检测的实时性,这是数字孪生领域数字特征信息提取的一大挑战。
综上,在目标检测算法领域,当前的算法在复杂场景中应用仍存在一些的局限性。如何对多类型小目标和人体姿态识别,确保数字孪生领域中宏观复杂场景下的目标检测准确率和精度是亟需突破的技术问题。
发明内容
有鉴于此,本申请的目的在于提供一种数字孪生宏观场景的多目标检测方法及装置,以提升数字孪生宏观场景下的目标检测准确率和精度。
第一方面,本申请实施例提供了一种数字孪生宏观场景的多目标检测方法,应用于边缘设备,所述多目标检测方法包括:
获取混合神经网络模型,所述混合神经网络模型包括深度可分离卷积网络、目标检测网络和多人姿态估计网络;
将待检测图像输入所述深度可分离卷积网络中,并通过所述深度可分离卷积网络提取所述待检测图像的特征图;
将所述待检测图像的特征图输入所述目标检测网络中,通过所述目标检测网络将位于浅层和深层的多个预设卷积图进行预处理和特征融合,得到目标特征图,并预测多类型小目标的特征图,基于所述多类型小目标的特征图从数字孪生宏观场景中检测多个静态小目标;
将所述目标特征图输入所述多人姿态估计网络中,通过所述多人姿态估计网络进行远距离人体姿态估计,并消除冗余姿态估计,从而从数字孪生宏观场景中检测多人姿态。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述深度可分离卷积网络为MobileNetv3中的深度可分离卷积网络,所述目标检测网络为YOLOv4中去除CSPDarknet53后的剩余部分,所述多人姿态估计网络为AlphaPose。
结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,通过所述多人姿态估计网络进行远距离人体姿态估计,并消除冗余姿态估计,包括:
通过所述多人姿态估计网络中的空间变换网络检测数字孪生宏观场景中的多个人体候选框;
针对每个人体候选框,基于所述人体候选框进行单人姿态估计,得到所述人体候选框对应的人体姿态;
将所述人体姿态映射回原始的图像坐标,以调整所述人体候选框;
执行参数姿势NMS以消除冗余姿势估计。
结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,通过所述目标检测网络将位于浅层和深层的多个预设卷积图进行预处理,包括:
通过所述目标检测网络缩小位于浅层的Conv4-4卷积图的尺寸,并用关键信息扩展所述位于浅层的Conv4-4卷积图的感知域;
压缩位于深层的Conv5-4卷积图和Conv9卷积图中的特征通道;
基于线性函数和Sigmoid函数,构造压缩后的卷积图中的每个所述特征通道的激活函数;
对每个所述特征通道重新分配权重,所述特征通道对应的重新分配的权重为所述特征通道的原始权重和相应的压缩后的卷积图的通道式乘积。
结合第一方面,本申请实施例提供了第一方面的第四种可能的实施方式,其中,通过所述目标检测网络将位于浅层和深层的多个预设卷积图进行特征融合,得到目标特征图,包括:
通过所述目标检测网络将位于浅层的Conv4-4卷积图以及位于深层的Conv5-4卷积图和Conv9卷积图进行特征融合,得到通道数量和特征图尺寸均相同的Conv4-4卷积图、Conv5-4卷积图和Conv9卷积图;
将通道数量和特征图尺寸均相同的Conv4-4卷积图、Conv5-4卷积图和Conv9卷积图拼接成目标特征图。
结合第一方面,本申请实施例提供了第一方面的第五种可能的实施方式,其中,预测多类型小目标的特征图,基于所述多类型小目标的特征图从数字孪生宏观场景中检测多个静态小目标,包括:
基于所述待检测图像的10*10的特征图预测第一种类型的小目标的特征图;
基于所述待检测图像的10*10的特征图的上采样,生成20*20的特征图,并将生成的20*20的特征图与来自所述深度可分离卷积网络先前卷积的20*20的特征图进行结合来预测第二种类型的小目标的特征图;
基于生成的20*20的特征图的上采样,生成30*30的特征图,并将生成的30*30的特征图与来自所述深度可分离卷积网络先前卷积的30*30的特征图进行结合来预测第三种类型的小目标的特征图;
基于预测到的多类型小目标的特征图从数字孪生宏观场景中检测多个静态小目标。
结合第一方面,本申请实施例提供了第一方面的第六种可能的实施方式,其中,将待检测图像输入所述深度可分离卷积网络中,并通过所述深度可分离卷积网络提取所述待检测图像的特征图,包括:
将待检测图像的分辨率调整为416*416,输入所述深度可分离卷积网络中,并通过所述深度可分离卷积网络转换为10*10*1024的特征图。
第二方面,本申请实施例还提供一种数字孪生宏观场景的多目标检测装置,应用于边缘设备,所述多目标检测装置包括:
模型获取模块,用于获取混合神经网络模型,所述混合神经网络模型包括深度可分离卷积网络、目标检测网络和多人姿态估计网络;
特征提取模块,用于将待检测图像输入所述深度可分离卷积网络中,并通过所述深度可分离卷积网络提取所述待检测图像的特征图;
目标检测模块,用于将所述待检测图像的特征图输入所述目标检测网络中,通过所述目标检测网络将位于浅层和深层的多个预设卷积图进行预处理和特征融合,得到目标特征图,并预测多类型小目标的特征图,基于所述多类型小目标的特征图从数字孪生宏观场景中检测多个静态小目标;
姿态估计模块,用于将所述目标特征图输入所述多人姿态估计网络中,通过所述多人姿态估计网络进行远距离人体姿态估计,并消除冗余姿态估计,从而从数字孪生宏观场景中检测多人姿态。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
本申请实施例提供的一种数字孪生宏观场景的多目标检测方法,该方法应用于边缘设备,首先,获取混合神经网络模型,所述混合神经网络模型包括深度可分离卷积网络、目标检测网络和多人姿态估计网络;其次,将待检测图像输入所述深度可分离卷积网络中,并通过所述深度可分离卷积网络提取所述待检测图像的特征图,可以有效降低计算成本;再次,将所述待检测图像的特征图输入所述目标检测网络中,通过所述目标检测网络将位于浅层和深层的多个预设卷积图进行预处理和特征融合,得到目标特征图,可以实现来自浅层的细节特征和来自深层的语义特征的特征融合;并预测多类型小目标的特征图,基于所述多类型小目标的特征图从数字孪生宏观场景中检测多个静态小目标;最后,将所述目标特征图输入所述多人姿态估计网络中,通过所述多人姿态估计网络进行远距离人体姿态估计,并消除冗余姿态估计,从而从数字孪生宏观场景中检测多人姿态。本申请实施例融合了来自浅层和深层的优势,进一步细化,突出来自复杂大规模场景的骨架特征,从而有利于数字孪生中的静态小目标检测和远距离姿态识别,可以提升数字孪生宏观场景下的目标检测准确率和精度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种数字孪生宏观场景的多目标检测方法的流程图;
图2示出了本申请实施例所提供的混合神经网络模型的示意图;
图3示出了本申请实施例所提供的一种数字孪生宏观场景的多目标检测装置的结构示意图;
图4示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种数字孪生宏观场景的多目标检测方法进行详细介绍。
请参照图1,图1为本申请实施例所提供的一种数字孪生宏观场景的多目标检测方法的流程图,所述多目标检测方法应用于边缘设备上,可以实时对图像进行处理。如图1所示,所述多目标检测方法可以包括以下步骤:
S101、获取混合神经网络模型,所述混合神经网络模型包括深度可分离卷积网络、目标检测网络和多人姿态估计网络;
S102、将待检测图像输入所述深度可分离卷积网络中,并通过所述深度可分离卷积网络提取所述待检测图像的特征图;
S103、将所述待检测图像的特征图输入所述目标检测网络中,通过所述目标检测网络将位于浅层和深层的多个预设卷积图进行预处理和特征融合,得到目标特征图,并预测多类型小目标的特征图,基于所述多类型小目标的特征图从数字孪生宏观场景中检测多个静态小目标;
S104、将所述目标特征图输入所述多人姿态估计网络中,通过所述多人姿态估计网络进行远距离人体姿态估计,并消除冗余姿态估计,从而从数字孪生宏观场景中检测多人姿态。
步骤S101中,如图2所示,所述混合神经网络模型包括深度可分离卷积网络、目标检测网络和多人姿态估计网络。其中,所述深度可分离卷积网络为MobileNetv3中的深度可分离卷积网络,所述目标检测网络为YOLOv4中去除CSPDarknet53后的剩余部分,所述多人姿态估计网络为AlphaPose。MobileNetv3中的深度可分离卷积网络与YOLOv4中去除CSPDarknet53后的剩余部分集成在一起,可以称为YOLOv4-M3。
步骤S102中,将待检测图像images的分辨率调整为416*416,输入所述深度可分离卷积网络中,并通过所述深度可分离卷积网络转换为10*10*1024的特征图。
步骤S103中,如图2所示,将10*10*1024的特征图输入所述目标检测网络中,然后分成两个支路,一个支路将位于浅层和深层的多个预设卷积图进行预处理和特征融合,得到目标特征图;另一个支路预测多类型小目标的特征图,基于所述多类型小目标的特征图从数字孪生宏观场景中检测多个静态小目标。
在一种可能的实施方式中,通过所述目标检测网络将位于浅层和深层的多个预设卷积图进行预处理,可以包括以下子步骤:
S1、通过所述目标检测网络缩小位于浅层的Conv4-4卷积图的尺寸,并用关键信息扩展所述位于浅层的Conv4-4卷积图的感知域;
S2、压缩位于深层的Conv5-4卷积图和Conv9卷积图中的特征通道;
S3、基于线性函数和Sigmoid函数,构造压缩后的卷积图中的每个所述特征通道的激活函数;
S4、对每个所述特征通道重新分配权重,所述特征通道对应的重新分配的权重为所述特征通道的原始权重和相应的压缩后的卷积图的通道式乘积。
步骤S1中,缩小位于浅层的Conv4-4卷积图的尺寸,并用关键信息扩展所述位于浅层的Conv4-4卷积图的感知域。其中,关键信息指的是操作员和工作设备的识别信息,从深度可分离卷积网络中提取的图像特征中获得。在步骤S1的过程中,扩张卷积被用于下采样。
步骤S2中,压缩位于深层的Conv5-4卷积图和Conv9卷积图中的特征通道,以减少参数数量,进一步提高实时检测性能。
步骤S3中,基于线性函数和Sigmoid函数,构造压缩后的卷积图中的每个所述特征通道的激活函数,使用线性函数和Sigmoid函数改进每个通道中使用的激活功能。
步骤S1-S3可以实现对位于浅层的Conv4-4卷积图以及位于深层的Conv5-4卷积图和Conv9卷积图进行预处理。
在一种可能的实施方式中,通过所述目标检测网络将位于浅层和深层的多个预设卷积图进行特征融合,得到目标特征图,可以包括以下子步骤:
S4、通过所述目标检测网络将位于浅层的Conv4-4卷积图以及位于深层的Conv5-4卷积图和Conv9卷积图进行特征融合,得到通道数量和特征图尺寸均相同的Conv4-4卷积图、Conv5-4卷积图和Conv9卷积图;
S5、将通道数量和特征图尺寸均相同的Conv4-4卷积图、Conv5-4卷积图和Conv9卷 积图拼接成目标特征图
Figure DEST_PATH_IMAGE002
上述步骤S4和S5可以将位于浅层的Conv4-4卷积图以及位于深层的Conv5-4卷积图和Conv9卷积图进行特征融合,从而实现来自浅层的细节特征和来自深层的语义特征的特征融合。
在一种可能的实施方式中,预测多类型小目标的特征图,基于所述多类型小目标的特征图从数字孪生宏观场景中检测多个静态小目标,可以包括以下子步骤:
S6、基于所述待检测图像的10*10的特征图预测第一种类型的小目标的特征图
Figure DEST_PATH_IMAGE004
S7、基于所述待检测图像的10*10的特征图的上采样,生成20*20的特征图,并将生 成的20*20的特征图与来自所述深度可分离卷积网络先前卷积的20*20的特征图进行结合 来预测第二种类型的小目标的特征图
Figure DEST_PATH_IMAGE006
S8、基于生成的20*20的特征图的上采样,生成30*30的特征图,并将生成的30*30 的特征图与来自所述深度可分离卷积网络先前卷积的30*30的特征图进行结合来预测第三 种类型的小目标的特征图
Figure DEST_PATH_IMAGE008
S9、基于预测到的多类型小目标的特征图
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE014
从数字孪生宏观场景 中检测多个静态小目标(例如设备和产品)。
步骤S6-S9可以通过预测到的多类型小目标的特征图
Figure DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE018
Figure 851544DEST_PATH_IMAGE008
,检测多 个静态小目标(例如设备和产品),可以提升数字孪生宏观场景下的静态小目标检测准确率 和精度。
步骤S104中,将所述目标特征图
Figure 768684DEST_PATH_IMAGE002
输入所述多人姿态估计网络中,首先进行远 距离人体姿态估计,然后消除冗余姿态估计,从而从数字孪生宏观场景中检测多人姿态。
具体地,通过所述多人姿态估计网络进行远距离人体姿态估计,并消除冗余姿态估计,可以包括如下子步骤:
S10、通过所述多人姿态估计网络中的空间变换网络检测数字孪生宏观场景中的多个人体候选框;
S20、针对每个人体候选框,基于所述人体候选框进行单人姿态估计,得到所述人体候选框对应的人体姿态;
S30、将所述人体姿态映射回原始的图像坐标,以调整所述人体候选框;
S40、执行参数姿势NMS以消除冗余姿势估计。
步骤S10中,通过所述多人姿态估计网络进行STN(空间变换网络)的处理,具体地,通过所述多人姿态估计网络中的空间变换网络检测数字孪生宏观场景中的多个人体候选框。
步骤S20中,通过所述多人姿态估计网络进行SPPE(单人姿态估计)的处理,具体地,基于每个所述人体候选框进行单人姿态估计,得到所述人体候选框对应的人体姿态。
步骤S30中,通过所述多人姿态估计网络进行SDTN(空间逆变换网络)的处理,具体地,将所述人体姿态映射回原始的图像坐标,以调整所述人体候选框,增加其精准性。
步骤S40中,执行参数姿势NMS以消除冗余姿势估计,输出实际场景中操作工人的姿态识别的结果。
步骤S10-S40通过STN、SPPE和SDTN的处理,以及执行参数姿势NMS以消除冗余姿势估计,可以提升数字孪生宏观场景下的动态人体姿态检测准确率和精度。
本申请实施例提供的一种数字孪生宏观场景的多目标检测方法,该方法应用于边缘设备,首先,获取混合神经网络模型,所述混合神经网络模型包括深度可分离卷积网络、目标检测网络和多人姿态估计网络;其次,将待检测图像输入所述深度可分离卷积网络中,并通过所述深度可分离卷积网络提取所述待检测图像的特征图,可以有效降低计算成本;再次,将所述待检测图像的特征图输入所述目标检测网络中,通过所述目标检测网络将位于浅层和深层的多个预设卷积图进行预处理和特征融合,得到目标特征图,可以实现来自浅层的细节特征和来自深层的语义特征的特征融合;并预测多类型小目标的特征图,基于所述多类型小目标的特征图从数字孪生宏观场景中检测多个静态小目标;最后,将所述目标特征图输入所述多人姿态估计网络中,通过所述多人姿态估计网络进行远距离人体姿态估计,并消除冗余姿态估计,从而从数字孪生宏观场景中检测多人姿态。本申请实施例融合了来自浅层和深层的优势,进一步细化,突出来自复杂大规模场景的骨架特征,从而有利于数字孪生中的静态小目标检测和远距离姿态识别,可以提升数字孪生宏观场景下的目标检测准确率和精度。
基于相同的技术构思,本申请实施例还提供一种数字孪生宏观场景的多目标检测装置、电子设备、以及计算机存储介质等,具体可参见以下实施例。
请参照图3,图3为本申请实施例所提供的一种数字孪生宏观场景的多目标检测装置的结构示意图,所述多目标检测装置应用于边缘设备上,可以实时对图像进行处理。如图3所示,所述多目标检测装置可以包括:
模型获取模块10,用于获取混合神经网络模型,所述混合神经网络模型包括深度可分离卷积网络、目标检测网络和多人姿态估计网络;
特征提取模块20,用于将待检测图像输入所述深度可分离卷积网络中,并通过所述深度可分离卷积网络提取所述待检测图像的特征图;
目标检测模块30,用于将所述待检测图像的特征图输入所述目标检测网络中,通过所述目标检测网络将位于浅层和深层的多个预设卷积图进行预处理和特征融合,得到目标特征图,并预测多类型小目标的特征图,基于所述多类型小目标的特征图从数字孪生宏观场景中检测多个静态小目标;
姿态估计模块40,用于将所述目标特征图输入所述多人姿态估计网络中,通过所述多人姿态估计网络进行远距离人体姿态估计,并消除冗余姿态估计,从而从数字孪生宏观场景中检测多人姿态。
在一种可能的实施方式中,所述深度可分离卷积网络为MobileNetv3中的深度可分离卷积网络,所述目标检测网络为YOLOv4中去除CSPDarknet53后的剩余部分,所述多人姿态估计网络为AlphaPose。
在一种可能的实施方式中,姿态估计模块40可以包括:
候选框检测单元,用于通过所述多人姿态估计网络中的空间变换网络检测数字孪生宏观场景中的多个人体候选框;
单人姿态估计单元,用于针对每个人体候选框,基于所述人体候选框进行单人姿态估计,得到所述人体候选框对应的人体姿态;
人体候选框调整单元,用于将所述人体姿态映射回原始的图像坐标,以调整所述人体候选框;
冗余姿势估计消除单元,用于执行参数姿势NMS以消除冗余姿势估计。
在一种可能的实施方式中,目标检测模块30可以包括预处理单元,预处理单元具体用于:
通过所述目标检测网络缩小位于浅层的Conv4-4卷积图的尺寸,并用关键信息扩展所述位于浅层的Conv4-4卷积图的感知域;
压缩位于深层的Conv5-4卷积图和Conv9卷积图中的特征通道;
基于线性函数和Sigmoid函数,构造压缩后的卷积图中的每个所述特征通道的激活函数;
对每个所述特征通道重新分配权重,所述特征通道对应的重新分配的权重为所述特征通道的原始权重和相应的压缩后的卷积图的通道式乘积。
在一种可能的实施方式中,目标检测模块30还可以包括特征融合单元,特征融合单元具体用于:
通过所述目标检测网络将位于浅层的Conv4-4卷积图以及位于深层的Conv5-4卷积图和Conv9卷积图进行特征融合,得到通道数量和特征图尺寸均相同的Conv4-4卷积图、Conv5-4卷积图和Conv9卷积图;
将通道数量和特征图尺寸均相同的Conv4-4卷积图、Conv5-4卷积图和Conv9卷积图拼接成目标特征图。
在一种可能的实施方式中,目标检测模块30还可以包括静态小目标检测单元,静态小目标检测单元具体用于:
基于所述待检测图像的10*10的特征图预测第一种类型的小目标的特征图;
基于所述待检测图像的10*10的特征图的上采样,生成20*20的特征图,并将生成的20*20的特征图与来自所述深度可分离卷积网络先前卷积的20*20的特征图进行结合来预测第二种类型的小目标的特征图;
基于生成的20*20的特征图的上采样,生成30*30的特征图,并将生成的30*30的特征图与来自所述深度可分离卷积网络先前卷积的30*30的特征图进行结合来预测第三种类型的小目标的特征图;
基于预测到的多类型小目标的特征图从数字孪生宏观场景中检测多个静态小目标。
在一种可能的实施方式中,特征提取模块20具体用于:将待检测图像的分辨率调整为416*416,输入所述深度可分离卷积网络中,并通过所述深度可分离卷积网络转换为10*10*1024的特征图。
本申请实施例公开了一种电子设备,如图4所示,包括:处理器401、存储器402和总线403,所述存储器402存储有所述处理器401可执行的机器可读指令,当电子设备运行时,所述处理器401与所述存储器402之间通过总线403通信。所述机器可读指令被所述处理器401执行时执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
本申请实施例所提供的一种数字孪生宏观场景的多目标检测方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种数字孪生宏观场景的多目标检测方法,其特征在于,应用于边缘设备,所述多目标检测方法包括:
获取混合神经网络模型,所述混合神经网络模型包括深度可分离卷积网络、目标检测网络和多人姿态估计网络;
将待检测图像输入所述深度可分离卷积网络中,并通过所述深度可分离卷积网络提取所述待检测图像的特征图;
将所述待检测图像的特征图输入所述目标检测网络中,通过所述目标检测网络将位于浅层和深层的多个预设卷积图进行预处理和特征融合,得到目标特征图,并预测多类型小目标的特征图,基于所述多类型小目标的特征图从数字孪生宏观场景中检测多个静态小目标;
将所述目标特征图输入所述多人姿态估计网络中,通过所述多人姿态估计网络进行远距离人体姿态估计,并消除冗余姿态估计,从而从数字孪生宏观场景中检测多人姿态。
2.根据权利要求1所述的多目标检测方法,其特征在于,所述深度可分离卷积网络为MobileNetv3中的深度可分离卷积网络,所述目标检测网络为YOLOv4中去除CSPDarknet53后的剩余部分,所述多人姿态估计网络为AlphaPose。
3.根据权利要求1所述的多目标检测方法,其特征在于,通过所述多人姿态估计网络进行远距离人体姿态估计,并消除冗余姿态估计,包括:
通过所述多人姿态估计网络中的空间变换网络检测数字孪生宏观场景中的多个人体候选框;
针对每个人体候选框,基于所述人体候选框进行单人姿态估计,得到所述人体候选框对应的人体姿态;
将所述人体姿态映射回原始的图像坐标,以调整所述人体候选框;
执行参数姿势NMS以消除冗余姿势估计。
4.根据权利要求1所述的多目标检测方法,其特征在于,通过所述目标检测网络将位于浅层和深层的多个预设卷积图进行预处理,包括:
通过所述目标检测网络缩小位于浅层的Conv4-4卷积图的尺寸,并用关键信息扩展所述位于浅层的Conv4-4卷积图的感知域;
压缩位于深层的Conv5-4卷积图和Conv9卷积图中的特征通道;
基于线性函数和Sigmoid函数,构造压缩后的卷积图中的每个所述特征通道的激活函数;
对每个所述特征通道重新分配权重,所述特征通道对应的重新分配的权重为所述特征通道的原始权重和相应的压缩后的卷积图的通道式乘积。
5.根据权利要求1所述的多目标检测方法,其特征在于,通过所述目标检测网络将位于浅层和深层的多个预设卷积图进行特征融合,得到目标特征图,包括:
通过所述目标检测网络将位于浅层的Conv4-4卷积图以及位于深层的Conv5-4卷积图和Conv9卷积图进行特征融合,得到通道数量和特征图尺寸均相同的Conv4-4卷积图、Conv5-4卷积图和Conv9卷积图;
将通道数量和特征图尺寸均相同的Conv4-4卷积图、Conv5-4卷积图和Conv9卷积图拼接成目标特征图。
6.根据权利要求1所述的多目标检测方法,其特征在于,预测多类型小目标的特征图,基于所述多类型小目标的特征图从数字孪生宏观场景中检测多个静态小目标,包括:
基于所述待检测图像的10*10的特征图预测第一种类型的小目标的特征图;
基于所述待检测图像的10*10的特征图的上采样,生成20*20的特征图,并将生成的20*20的特征图与来自所述深度可分离卷积网络先前卷积的20*20的特征图进行结合来预测第二种类型的小目标的特征图;
基于生成的20*20的特征图的上采样,生成30*30的特征图,并将生成的30*30的特征图与来自所述深度可分离卷积网络先前卷积的30*30的特征图进行结合来预测第三种类型的小目标的特征图;
基于预测到的多类型小目标的特征图从数字孪生宏观场景中检测多个静态小目标。
7.根据权利要求1所述的多目标检测方法,其特征在于,将待检测图像输入所述深度可分离卷积网络中,并通过所述深度可分离卷积网络提取所述待检测图像的特征图,包括:
将待检测图像的分辨率调整为416*416,输入所述深度可分离卷积网络中,并通过所述深度可分离卷积网络转换为10*10*1024的特征图。
8.一种数字孪生宏观场景的多目标检测装置,其特征在于,应用于边缘设备,所述多目标检测装置包括:
模型获取模块,用于获取混合神经网络模型,所述混合神经网络模型包括深度可分离卷积网络、目标检测网络和多人姿态估计网络;
特征提取模块,用于将待检测图像输入所述深度可分离卷积网络中,并通过所述深度可分离卷积网络提取所述待检测图像的特征图;
目标检测模块,用于将所述待检测图像的特征图输入所述目标检测网络中,通过所述目标检测网络将位于浅层和深层的多个预设卷积图进行预处理和特征融合,得到目标特征图,并预测多类型小目标的特征图,基于所述多类型小目标的特征图从数字孪生宏观场景中检测多个静态小目标;
姿态估计模块,用于将所述目标特征图输入所述多人姿态估计网络中,通过所述多人姿态估计网络进行远距离人体姿态估计,并消除冗余姿态估计,从而从数字孪生宏观场景中检测多人姿态。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至7任一所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述方法的步骤。
CN202111558760.0A 2021-12-20 2021-12-20 一种数字孪生宏观场景的多目标检测方法及装置 Pending CN113947600A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111558760.0A CN113947600A (zh) 2021-12-20 2021-12-20 一种数字孪生宏观场景的多目标检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111558760.0A CN113947600A (zh) 2021-12-20 2021-12-20 一种数字孪生宏观场景的多目标检测方法及装置

Publications (1)

Publication Number Publication Date
CN113947600A true CN113947600A (zh) 2022-01-18

Family

ID=79339380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111558760.0A Pending CN113947600A (zh) 2021-12-20 2021-12-20 一种数字孪生宏观场景的多目标检测方法及装置

Country Status (1)

Country Link
CN (1) CN113947600A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460726A (zh) * 2018-03-26 2018-08-28 厦门大学 一种基于增强递归残差网络的磁共振图像超分辨重建方法
CN109522966A (zh) * 2018-11-28 2019-03-26 中山大学 一种基于密集连接卷积神经网络的目标检测方法
CN110163108A (zh) * 2019-04-23 2019-08-23 杭州电子科技大学 基于双路径特征融合网络的鲁棒声呐目标检测方法
CN110532873A (zh) * 2019-07-24 2019-12-03 西安交通大学 一种联合人体检测与姿态估计的深度网络学习方法
CN111898539A (zh) * 2020-07-30 2020-11-06 国汽(北京)智能网联汽车研究院有限公司 一种多目标检测方法、装置、系统、设备及可读存储介质
CN112949673A (zh) * 2019-12-11 2021-06-11 四川大学 一种基于全局注意力的特征融合目标检测与识别方法
US20210264632A1 (en) * 2020-02-21 2021-08-26 Google Llc Real-time stereo matching using a hierarchical iterative refinement network
CN113657318A (zh) * 2021-08-23 2021-11-16 平安科技(深圳)有限公司 基于人工智能的宠物分类方法、装置、设备及存储介质
CN113673439A (zh) * 2021-08-23 2021-11-19 平安科技(深圳)有限公司 基于人工智能的宠物狗识别方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460726A (zh) * 2018-03-26 2018-08-28 厦门大学 一种基于增强递归残差网络的磁共振图像超分辨重建方法
CN109522966A (zh) * 2018-11-28 2019-03-26 中山大学 一种基于密集连接卷积神经网络的目标检测方法
CN110163108A (zh) * 2019-04-23 2019-08-23 杭州电子科技大学 基于双路径特征融合网络的鲁棒声呐目标检测方法
CN110532873A (zh) * 2019-07-24 2019-12-03 西安交通大学 一种联合人体检测与姿态估计的深度网络学习方法
CN112949673A (zh) * 2019-12-11 2021-06-11 四川大学 一种基于全局注意力的特征融合目标检测与识别方法
US20210264632A1 (en) * 2020-02-21 2021-08-26 Google Llc Real-time stereo matching using a hierarchical iterative refinement network
CN111898539A (zh) * 2020-07-30 2020-11-06 国汽(北京)智能网联汽车研究院有限公司 一种多目标检测方法、装置、系统、设备及可读存储介质
CN113657318A (zh) * 2021-08-23 2021-11-16 平安科技(深圳)有限公司 基于人工智能的宠物分类方法、装置、设备及存储介质
CN113673439A (zh) * 2021-08-23 2021-11-19 平安科技(深圳)有限公司 基于人工智能的宠物狗识别方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑浦等: "复杂背景下的小目标检测算法", 《浙江大学学报(工学版)》 *

Similar Documents

Publication Publication Date Title
CN109670474B (zh) 一种基于视频的人体姿态估计方法、装置及设备
CN110135455B (zh) 影像匹配方法、装置及计算机可读存储介质
US9251582B2 (en) Methods and systems for enhanced automated visual inspection of a physical asset
US11222471B2 (en) Implementing three-dimensional augmented reality in smart glasses based on two-dimensional data
JP5075924B2 (ja) 識別器学習画像生成プログラム、方法、及びシステム
CN109241844B (zh) 三维物体的姿态估计方法、装置、设备及存储介质
CN110176024B (zh) 在视频中对目标进行检测的方法、装置、设备和存储介质
JP7419080B2 (ja) コンピュータシステムおよびプログラム
JP2018170003A (ja) ビデオ中のイベントの検出装置、方法及び画像処理装置
JP2007072620A (ja) 画像認識装置及びその方法
CN111738045B (zh) 一种图像检测方法、装置、电子设备及存储介质
JP2014003520A (ja) 画像処理装置及びそれを備えた撮像装置、画像処理方法、並びに画像処理プログラム
CN114119864A (zh) 一种基于三维重建与点云匹配的定位方法和装置
CN112396053A (zh) 一种基于级联神经网络的环视鱼眼图像目标检测方法
CN112906794A (zh) 一种目标检测方法、装置、存储介质及终端
CN113592940A (zh) 基于图像确定目标物位置的方法及装置
CA3136990A1 (en) PRINCIPAL POINT DETECTION METHOD OF A HUMAN BODY, APPARATUS, COMPUTER DEVICE AND STORAGE MEDIA
TW201436552A (zh) 用於使用至少一較高訊框率之影像流而增加影像流之訊框率之方法及裝置
WO2021105871A1 (en) An automatic 3d image reconstruction process from real-world 2d images
KR100691855B1 (ko) 영상정보의 특징 추출장치 및 그 방법
JP7178803B2 (ja) 情報処理装置、情報処理装置の制御方法およびプログラム
CN108109164B (zh) 一种信息处理方法及电子设备
CN112013820B (zh) 一种面向无人机机载平台部署的实时目标检测方法及装置
CN113947600A (zh) 一种数字孪生宏观场景的多目标检测方法及装置
JP4714050B2 (ja) 3次元形状モデル生成システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination