CN114926895A - 一种基于上下文实例解耦的多人姿态估计方法与装置 - Google Patents

一种基于上下文实例解耦的多人姿态估计方法与装置 Download PDF

Info

Publication number
CN114926895A
CN114926895A CN202210339901.8A CN202210339901A CN114926895A CN 114926895 A CN114926895 A CN 114926895A CN 202210339901 A CN202210339901 A CN 202210339901A CN 114926895 A CN114926895 A CN 114926895A
Authority
CN
China
Prior art keywords
person
instance
feature
decoupling
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210339901.8A
Other languages
English (en)
Inventor
张史梁
王东凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202210339901.8A priority Critical patent/CN114926895A/zh
Publication of CN114926895A publication Critical patent/CN114926895A/zh
Priority to US18/088,981 priority patent/US20230360256A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及深度学习及姿态估计技术领域,更为具体来说,本申请涉及一种基于上下文实例解耦的多人姿态估计方法与装置。所述方法包括:获取预设数目个包含多人的图像;将所述包含多人的图像作为训练样本输入基于上下文实例解耦的多人姿态估计模型中进行训练;采用训练好的基于上下文实例解耦的多人姿态估计模型对目标图像进行姿态估计;其中,所述基于上下文实例解耦的多人姿态估计模型设置有实例信息抽象模块、全局特征解耦模块和热图估计模块。本申请所述方法与装置能够在更大范围内探索上下文线索,从而对空间检测错误具有鲁棒性,且在精度和效率上均优。

Description

一种基于上下文实例解耦的多人姿态估计方法与装置
技术领域
本申请涉及深度学习及姿态估计技术领域,更为具体来说,本申请涉及一种基于上下文实例解耦的多人姿态估计方法与装置。
背景技术
多人姿态估计(MPPE)技术是检测图像中的所有人并为每个人定位出关键点的技术。作为人类活动理解、人机交互、人类句法分析等的重要步骤,MPPE越来越受到人们的关注。
当前常用的多人姿态估计方法有自顶向下估计方法、自底向上估计方法和单阶段回归方法。然而,这些方法存在边界框裁剪错误,关键点组装错误,及远距离回归等问题,达不到较好的鲁棒性。
发明内容
基于上述技术问题,本发明旨在基于上下文实例解耦(CID)出目标图像中的多人姿态,即采用训练好的基于上下文实例解耦的多人姿态估计模型对目标图像进行姿态估计,其中,所述基于上下文实例解耦的多人姿态估计模型设置有实例信息抽象模块、全局特征解耦模块和热图估计模块。
本发明第一方面提供了一种基于上下文实例解耦的多人姿态估计方法,所述方法包括:
获取预设数目个包含多人的图像;
将所述包含多人的图像作为训练样本输入基于上下文实例解耦的多人姿态估计模型中进行训练;
采用训练好的基于上下文实例解耦的多人姿态估计模型对目标图像进行姿态估计;
其中,所述基于上下文实例解耦的多人姿态估计模型设置有实例信息抽象模块、全局特征解耦模块和热图估计模块。
在本发明的一些实施例中,所述基于上下文实例解耦的多人姿态估计模型还包括骨干网络,采用训练好的基于上下文实例解耦的多人姿态估计模型对目标图像进行姿态估计,包括:
将所述目标图像输入所述骨干网络,得到全局特征图,其中,所述目标图像包括多个人,所述全局特征图包含所有人的三维特征;
将所述全局特征图分别输入实例信息抽象模块和全局特征解耦模块;
通过实例信息抽象模块得到目标图像中每个人的实例特征;
将所述每个人的实例特征输入全局特征解耦模块,全局特征解耦模块基于所述全局特征图和所述每个人的实例特征解耦出实例特征感知图;
将所述实例特征感知图输入热图估计模块,得到所述目标图像中每个人的每个关键点的概率分布。
在本发明的一些实施例中,所述通过实例信息抽象模块得到目标图像中每个人的实例特征,包括:
将所述全局特征图输入热图模块;
提取每个人的中心点坐标;
根据所述每个人的中心点坐标在所述全局特征图中相应位置进行采样,得到目标图像中每个人的实例特征。
在本发明的一些实施例中,所述得到目标图像中每个人的实例特征之前,还包括:将每个人的中心点特征做基于空间注意力或通道注意力的重新校准。
在本发明的一些实施例中,所述全局特征解耦模块基于所述全局特征图和所述每个人的实例特征解耦出实例特征感知图,包括:
基于所述每个人的实例特征与所述全局特征图的映射关系,从空间维度重新校准每个人的实例特征,得到第一实例特征感知图;
基于所述每个人的实例特征与所述全局特征图的映射关系,从通道维度重新校准每个人的实例特征,得到第二实例特征感知图;
融合所述第一实例感知图和所述第二实例特征感知图得到实例特征感知图。
在本发明的一些实施例中,基于所述每个人的实例特征与所述全局特征图的映射关系,从空间维度重新校准每个人的实例特征,得到第一实例特征感知图,包括:
将所述全局特征图中的每个人生成一个空间掩码,以代表每个人的前景特征的权重;
增加所述前景特征的权重,重新校准所述每个人的实例特征中的空间位置,得到第一实例特征感知图。
在本发明的一些实施例中,基于所述每个人的实例特征与所述全局特征图的映射关系,从通道维度重新校准每个人的实例特征,得到第二实例特征感知图,包括:对所述全局特征图在通道维度上基于人物特征重新加权,生成第二实例特征感知图。
在本发明的一些实施例中,融合所述第一实例感知图和所述第二实例特征感知图得到实例特征感知图,包括:将所述第一实例特征感知图和所述第二实例特征感知图做加权和得到所述实例特征感知图。
在本发明的一些实施例中,将所述实例特征感知图输入热图估计模块,得到所述目标图像中每个人的每个关键点的概率分布,包括:
将所述实例特征感知图输入热图估计模块,得到所述目标图像中每个人对应的热图;
其中,所述目标图像中每个人对应的热图包含每个关键点的概率分布。
在本发明的另一些实施例中,基于上下文实例解耦的多人姿态估计模型中进行训练包括通过预设损失函数训练基于上下文实例解耦的多人姿态估计模型,所述预设损失函数为:
Figure BDA0003578777050000041
其中,
Figure BDA0003578777050000042
表示实例信息抽象模块的损失,
Figure BDA0003578777050000043
表示全局特征解耦模块的损失,λ表示权重。
本发明第二方面提供了一种基于上下文实例解耦的多人姿态估计装置,所述装置包括:
获取模块,用于获取预设数目个包含多人的图像;
训练模块,用于将所述包含多人的图像作为训练样本输入基于上下文实例解耦的多人姿态估计模型中进行训练;
姿态估计模块,用于采用训练好的基于上下文实例解耦的多人姿态估计模型对目标图像进行姿态估计;
其中,所述基于上下文实例解耦的多人姿态估计模型设置有实例信息抽象模块、全局特征解耦模块和热图估计模块。
本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取预设数目个包含多人的图像;
将所述包含多人的图像作为训练样本输入基于上下文实例解耦的多人姿态估计模型中进行训练;
采用训练好的基于上下文实例解耦的多人姿态估计模型对目标图像进行姿态估计;
其中,所述基于上下文实例解耦的多人姿态估计模型设置有实例信息抽象模块、全局特征解耦模块和热图估计模块。
本发明第四方面提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取预设数目个包含多人的图像;
将所述包含多人的图像作为训练样本输入基于上下文实例解耦的多人姿态估计模型中进行训练;
采用训练好的基于上下文实例解耦的多人姿态估计模型对目标图像进行姿态估计;
其中,所述基于上下文实例解耦的多人姿态估计模型设置有实例信息抽象模块、全局特征解耦模块和热图估计模块。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
本申请实施例中提供的技术方案,采用训练好的基于上下文实例解耦的多人姿态估计模型对目标图像进行姿态估计,在基于上下文实例解耦的多人姿态估计模型中设置有骨干网络、实例信息抽象模块、全局特征解耦模块和热图估计模块。将包括多个人的目标图像输入骨干网络,得到全局特征图,其中,所述全局特征图包含所有人的三维特征,将所述全局特征图分别输入实例信息抽象模块和全局特征解耦模块,通过实例信息抽象模块得到目标图像中每个人的实例特征,将所述每个人的实例特征输入全局特征解耦模块,全局特征解耦模块基于所述全局特征图和所述每个人的实例特征解耦出实例特征感知图,将所述实例特征感知图输入热图估计模块,得到所述目标图像中每个人的每个关键点的概率分布,能够在更大范围内探索上下文线索,从而对空间检测错误具有鲁棒性,并减轻了关键点分组的挑战,还避免了单阶段回归方法面临的长距离回归的困难。实验表明,本申请实施例中提供的技术方案在效率和准确性方面都优于其它估计方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请一示例性实施例中的基于上下文实例解耦的多人姿态估计方法步骤示意图;
图2示出了本申请一示例性实施例中的基于上下文实例解耦的多人姿态估计方法工作过程示意图;
图3示出了本申请一示例性实施例中的提取目标图像中每个人中心点示意图;
图4示出了本申请一示例性实施例中采用公式(9)的损失函数进行训练后的效果示意图;
图5示出了本申请与其他估计方法比较示意图;
图6示出了本申请实验中的基于上下文实例解耦的多人姿态估计方法与RoIAlign方法比较示意图;
图7示出了本申请实验中的COCO、CrowdPose和OCHuman三种姿态估计方法比较示意图;
图8示出了本申请一示例性实施例中的基于上下文实例解耦的多人姿态估计装置结构示意图;
图9示出了本申请一示例性实施例所提供的一种计算机设备的结构示意图;
图10示出了本申请一示例性实施例所提供的一种存储介质的示意图。
具体实施方式
以下,将参照附图来描述本申请的实施例。但是应该理解的是,这些描述只是示例性的,而并非要限制本申请的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本申请的概念。对于本领域技术人员来说显而易见的是,本申请可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本申请发生混淆,对于本领域公知的一些技术特征未进行描述。
应予以注意的是,这里所使用的术语仅是为了描述具体实施例,而非意图限制根据本申请的示例性实施例。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或附加一个或多个其他特征、整体、步骤、操作、元件、组件和/或它们的组合。
现在,将参照附图更详细地描述根据本申请的示例性实施例。然而,这些示例性实施例可以多种不同的形式来实施,并且不应当被解释为只限于这里所阐述的实施例。附图并非是按比例绘制的,其中为了清楚表达的目的,可能放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
下面结合说明书附图1-10给出几个实施例来描述根据本申请的示例性实施方式。需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
目前,常用的多人姿态估计(MPPE)方法有自顶向下估计方法、自底向上估计方法和单阶段回归方法。然而,自顶向下估计方法存在边界框裁剪错误,自底向上估计方法存在关键点定位错误,单阶段回归方法存在远距离回归等问题,这些方法均达不到较好的鲁棒性与实时性。又考虑到精确而高效的MPPE是实现对海量视频中人信息智能采集与感知的重要技术,因而MPPE也是数字视网膜架构中的重要技术问题。
因此,在本申请一些示例性实施例中,着重面向数字视网膜架构,提供了一种基于上下文实例解耦的多人姿态估计方法,如图1所示,所述方法包括:S1、获取预设数目个包含多人的图像;S2、将所述包含多人的图像作为训练样本输入基于上下文实例解耦的多人姿态估计模型中进行训练;S3、采用训练好的基于上下文实例解耦的多人姿态估计模型对目标图像进行姿态估计;其中,所述基于上下文实例解耦的多人姿态估计模型设置有实例信息抽象模块、全局特征解耦模块和热图估计模块。所述基于上下文实例解耦的多人姿态估计方法可以应用于数字视网膜架构中进行人信息的智能采集与感知,优于自顶向下估计方法、自底向上估计方法和单阶段回归方法,因为这些方法均达不到较好的鲁棒性与实时性,不满足当前智慧城市与数字视网膜技术的需求。
图2示意出了本方法的工作过程,如图2所示,基于上下文实例解耦的多人姿态估计模型包括骨干网络、实例信息抽象模块、全局特征解耦模块和热图估计模块,而实例信息抽象模块与热图估计模块均封装有热图模块。例如,我们输入一幅包含多人的图像,将这幅图像输入所述基于上下文实例解耦的多人姿态估计模型后,该图像依次经过骨干网络、实例信息抽象模块、全局特征解耦模块和热图估计模块,最后输出热图,即目标图像中每个人的每个关键点的概率分布,也就是输入图像的估计结果。
在一种具体的实现方式中,基于上下文实例解耦的多人姿态估计模型还包括骨干网络,采用训练好的基于上下文实例解耦的多人姿态估计模型对目标图像进行姿态估计,包括:将目标图像输入骨干网络,得到全局特征图,其中,目标图像包括多个人,全局特征图包含所有人的三维特征;将全局特征图分别输入实例信息抽象模块和全局特征解耦模块;通过实例信息抽象模块得到目标图像中每个人的实例特征;将每个人的实例特征输入全局特征解耦模块,全局特征解耦模块基于全局特征图和每个人的实例特征解耦出实例特征感知图;将实例特征感知图输入热图估计模块,得到所述目标图像中每个人的每个关键点的概率分布。
可见,本申请的估计方法目标是估计出目标图像中每个人的姿势关键点的位置,可用公式(1)表示:
Figure BDA0003578777050000101
其中,MPPE表示多人姿态估计,I表示目标图像,
Figure BDA0003578777050000102
表示目标图像中第i个人的第j个姿势关键点,而m和n分别表示目标像中共有的人数和每个人具备的关键点数。例如,COCO姿态估计选用n等于17,而CrowdPose方法选用n等于14。
本申请在实例信息抽象模块与热图估计模块中均设置有热图模块,是为了用其定位关键点,且最后将解耦出的全局特征图转换为热图,指示每个关键点的概率分布图,得到我们的姿态估计结果。热图模块的工作方法可由公式(2)表示:
Figure BDA0003578777050000103
其中,HM表示热图模块,I表示目标图像,F表示目标图像经过骨干网络的处理得到的全局特征图,
Figure BDA0003578777050000104
表示n通道热图。若我们想利用公式(2)中得到的结果进行反编码,可用公式(3)表示:
Figure BDA0003578777050000111
本申请提出的基于上下文实例解耦是将多人特征映射解耦为一组实例感知特征映射,其中每个映射代表特定人的线索,并保留上下文线索以推断他/她的关键点。在一种具体的实现方式中,所述通过实例信息抽象模块得到目标图像中每个人的实例特征,包括:将所述全局特征图输入热图模块;提取每个人的中心点坐标;根据所述每个人的中心点坐标在所述全局特征图中相应位置进行采样,得到目标图像中每个人的实例特征。当然可以理解的是,在得到目标图像中每个人的实例感知特征图之前,还包括:将每个人的中心点特征做基于空间注意力或通道注意力的重新校准。提取每个人的中心点特征,如图3所示。该实现方式的工作过程或者说实例信息抽象模块的工作过程可用公式(4)表示:
Figure BDA0003578777050000112
其中,f(i)表示目标图像中第i个人的实例感知特征,是一个一维的特征,全局特征图包含所有人的三维特征可表示为H*W*C,则这里的一维特征大小为C,这里目的是有效地分离实例,同时保留丰富的上下文线索以为后续估计关键点位置。IIA表示实例信息抽象模块,F表示全局特征图。
在一种具体的实现方式中,全局特征解耦模块基于全局特征图和每个人的实例特征解耦出实例特征感知图,包括:基于每个人的实例特征与全局特征图的映射关系,从空间维度重新校准每个人的实例特征,得到第一实例特征感知图;基于每个人的实例特征与全局特征图的映射关系,从通道维度重新校准每个人的实例特征,得到第二实例特征感知图;融合第一实例感知图和第二实例特征感知图得到实例特征感知图。基于每个人的实例特征与全局特征图的映射关系,从空间维度重新校准每个人的实例特征,得到第一实例特征感知图,包括:将全局特征图中的每个人生成一个空间掩码,以代表每个人的前景特征的权重;增加前景特征的权重,重新校准每个人的实例特征中的空间位置,得到第一实例特征感知图。基于每个人的实例特征与全局特征图的映射关系,从通道维度重新校准每个人的实例特征,得到第二实例特征感知图包括:对全局特征图在通道维度上基于人物特征重新加权,生成第二实例特征感知图。融合第一实例感知图和第二实例特征感知图得到实例特征感知图,包括:将第一实例特征感知图和第二实例特征感知图做加权和得到实例特征感知图。该实现方式的工作过程或者说全局特征解耦模块的工作过程可用公式(5)表示:
Figure BDA0003578777050000121
另外需要说明的是,基于上下文实例解耦的多人姿态估计模型中进行训练包括通过预设损失函数训练基于上下文实例解耦的多人姿态估计模型,所述预设损失函数用公式(6)表示:
Figure BDA0003578777050000122
其中,
Figure BDA0003578777050000123
表示实例信息抽象模块的损失,
Figure BDA0003578777050000124
表示全局特征解耦模块的损失,λ表示权重。
需要说明的是,回归方法基于人物中心点的特征生成关键点坐标,本申请也选用中心点作为关键点,也就是通过热图模块定位人物中心点,最后再使模型输出热图,即得到目标图像中每个人的每个关键点的概率分布。通过热图模块定位人物中心点可用公式(7)表示:
Figure BDA0003578777050000131
其中,C表示中心点对应的热图,如图2所示,热图也称作热力图,表明每个像素都是人的中心。可以将C输入到公式(2)中进行反编码定位即确定中心点位置。将每个人的中心点特征作为代表性特征重新标注在全局特征上,可以用公式(8)表示:
Figure BDA0003578777050000132
需要解释的是,在姿态估计方法的实际应用中,我们期望它具有很强的辨别能力,能够有效区分视觉上相似的人。换言之,如果两个相邻或重叠的人具有相似的外观,他们的特征可能相似,从而导致人解耦失败的案例。为了增强人物特征的辨别力,在一种优选的训练方式中,本申请对IIA进行了对比损失训练,以确保每个f(i)的分辨力。给定一组人物特征{f(i)},我们通过最小化第i个人物特征和其他特征的相似性来约束第i个人物特征,可用公式(9)表示:
Figure BDA0003578777050000133
其中,
Figure BDA0003578777050000134
表示第i个人的标准化特征,τ表示温度系数,优选设置为0.05。
在本申请的一些实施例中,将全局特征图中的每个人生成一个空间掩码,以代表每个人的前景特征的权重;增加前景特征的权重,重新校准全局特征图中的空间位置,得到第一实例特征感知图可用公式(10)表示:
Figure BDA0003578777050000141
其中,M表示空间掩码,也可称为前景遮罩,
Figure BDA0003578777050000142
表示实例感知特征图。生成空间掩码时会考虑图像中第i个人的空间位置I(i)(xi,yi),生成相对协方差图,再计算实例特征与每个空间位置上特征的内积。空间掩码的生成会产生一个指示像素级特征相似性的映射,可用公式(11)表示:
Figure BDA0003578777050000143
其中,
Figure BDA0003578777050000144
Figure BDA0003578777050000145
用于指示像素级特征的相似性,Sigmoid表示激活函数。实验证明,增加前景特征的权重,增强了人物特征的辨别力,使对来自相似外貌的相邻人物的遮挡和干扰更具鲁棒性,实例感知特征图可以更好地关注每个人的前景,并确保生成可靠的关键点热图。
通道在编码上下文中起着重要作用,每个通道都可以重新编码为特征检测器。因此,在一种具体的实现方式中,解耦出不同的通道,包括:对全局特征图在通道维度上基于人物特征重新加权,并生成第二实例特征感知图,可用公式(12)表示:
Figure BDA0003578777050000146
其中,
Figure BDA0003578777050000147
表示重新校准结果,
Figure BDA0003578777050000148
表示乘积,f(i)可以看作是保留的第i个人的线索的人物特征。公式不会将一个人解耦到特征图的特定通道中,但会确保不同的人显示不同的通道分布。当然为了达到更好的效果,可按照公式(9)进一步训练解耦通道的能力,在保留上下文实例的情况下,进一步加强通道重新校准的性能。
融合所述不同空间位置和通道得到全局特征图可以用公式(13)来表示:
Figure BDA0003578777050000151
其中,ReLU表示激活函数,Conv表示卷积。
图4示意了采用公式(9)的损失函数进行训练好模型,再识别目标图像,结果更优。与依赖关键点分组的自底向上方法相比,本申请端到端的训练特性和对检测错误的鲁棒性,显示出更好的性能和效率。图5也示意出几种不同的姿态估计方法的比较。如图5所示,(a)为自顶而下的估计方法,用于检测人体边界框并对每个边界框执行姿势估计。(b)为自底向上的估计方法,首先检测身体关键点,然后将它们分成相应的人。(c)为单阶段回归方法,该方法根据人的特征回归姿势关键点坐标。很明显,本申请所述估计方法对遮挡具有很强的鲁棒性,且与自顶向下和自底向上的估计方法相比,本方法具有端到端的可训练性,对检测错误更具鲁棒性,并减轻了关键点分组的挑战。它还避免了单阶段回归方法面临的长距离回归的困难。实验表明,本申请提出的基于上下文实例解耦的多人姿态估计方法在效率和准确性方面都优于其它估计方法。
在本申请的一些实施例中,为了实现更好的训练结果,训练基于上下文实例解耦的多人姿态估计模型时还采用地面真实热图。对采用公式(6)所述的预设损失函数进行具体训练时采用真实坐标生成的高斯热图,可以精准定位关键点,具体过程可用公式(14)至公式(17)表示:
Figure BDA0003578777050000152
Figure BDA0003578777050000161
Figure BDA0003578777050000162
Figure BDA0003578777050000163
其中,
Figure BDA0003578777050000164
表示地面真实热图,x,yj表示第个关键点的空间坐标,α和β表示超参数,α优选为2,β优选为4,通过这些公式,测量每个人对应的热图和地面真相之间的差异,以不断调整个别参数。
下面对本申请进行的实验进行简单的说明,实验目的是对本申请所提出的方法进行评价,我们采用广泛使用的多人姿势估计基准上进行评估。所有实验都是在Pytorh上进行的,我们采用HRNet-W32作为所有实验的骨干网络,并遵循上述基于上下文实例解耦的多人姿态估计模型的大部分配置。在IIA中设置m等于30,公式(6)中的λ设置为4。训练过程将每个图像的大小调整为512*512,并将所有层的学习率设置为0.001。我们在COCO上训练了35个时期的模型。对于CrowdPose,我们训练了300个阶段的模型,并在第200、260个阶段将学习率除以10。批量大小设置为20,Ohuman,CrowdPose和COCO为40。表1示意出了空间和通道重新校准对比,如表1所示,Spatial表示空间,Chennel表示通道,这种损失有助于通道重新校准,将性能从64.9%提高到65.3%。空间再校准对比损失达到64.6%,这表明重新校准方法可以有效地分离人员。融合通道和空间重新校准在有对比丢失和无对比丢失的情况下始终获得最佳性能。我们得出结论,学习有辨别力的人且联合考虑空间解耦和通道解耦对于解耦目标图像中的“人”非常重要。
表1空间和通道重新校准对比
Figure BDA0003578777050000171
不仅如此,考虑到通道维数太小很难对大量人的线索进行编码,而通道维数太大会增加存储和计算成本,本实现测试了从8到64的不同嵌入维度,并报告了它们的性能,如表2所示。这表明维度越小,性能越低。设置太大的维度(例如64)将不再显著提高性能。我们将嵌入维度设置为32,作为准确性和计算成本之间的合理权衡。
表2通道的不同嵌入维度对比
Figure BDA0003578777050000172
图6显示了基于上下文实例解耦的多人姿态估计方法与RoIAlign的比较,从全局特征映射中针对不同的人数生成实例特征的时间成本来比较。如图6所示,RoIAlign+输出大小为14×14的特征图,然后将其上采样为56×56,RoIAlign*直接输出56×56大小的特征图,很明显,本申请的所述方法的估计效率远远高于RoIAlign+和RoIAlign*。
不仅如此,对几种方法的内存消耗进行了比较,如表3所示。在这些比较工作中,HrHRNeT遵循自底向上的流程,DEKR和FCPose属于单阶段回归方法,因此其三者比较,HrHRNet更有效。但本申请的上下文实例解耦方法(CID)总体表现优于HrHRNet。与两种单阶段回归方法相比,我们的方法消耗了较大的内存但实现了更快的推理速度和更好的准确率。
表3几种方法的内存消耗对比
Figure BDA0003578777050000181
另外,表4、表5和表6也列出了其它估计方法在各种参数的比较。
表4本申请与COCO的比较
Figure BDA0003578777050000182
表5本申请与CrowdPose的比较
Figure BDA0003578777050000191
表6本申请与OCHuman的比较
Figure BDA0003578777050000192
表4至表6中的自顶向下方法、自底向上方法和单阶段回归方法。从表4中可以看出,与自顶向下的方法相比,CID获得了更好的性能,比Mask R-CNN高出5.8%。这表明我们的解耦策略优于边界框的裁剪。CID也比许多自底向上的方法更好。从表5和表6中也能看出CID具有更大的优势。另外,图7示意出了COCO、CrowdPose和OCHuman三种姿态估计方法比较示意图,可以观察到,本申请的方法即使在严重遮挡和人员重叠等具有挑战性的情况下也能获得可靠和准确的姿势估计,可应用于智慧城市当中的实际场景处理,如数字视网膜技术中的行人感知与分析。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
在本申请的一些实施例中,还提供了一种面向数字视网膜架构的基于上下文实例解耦的多人姿态估计装置,如图8所示,所述装置包括:
获取模块801,用于获取预设数目个包含多人的图像;
训练模块802,用于将所述包含多人的图像作为训练样本输入基于上下文实例解耦的多人姿态估计模型中进行训练;
姿态估计模块803,用于采用训练好的基于上下文实例解耦的多人姿态估计模型对目标图像进行姿态估计;
其中,所述基于上下文实例解耦的多人姿态估计模型设置有实例信息抽象模块、全局特征解耦模块和热图估计模块。可以理解的是,所述装置的各模块设置与现有数字视网膜架构相融合,因此所述装置能应用于数字视网膜架构中进行人信息的智能采集与感知,且感知效果精准。
还需要强调的是,本申请实施例中提供的系统可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
下面请参考图9,其示出了本申请的一些实施方式所提供的一种计算机设备的示意图。如图9所示,所述计算机设备2包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的基于上下文实例解耦的多人姿态估计方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述基于上下文实例解耦的多人姿态估计方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施方式还提供一种与前述实施方式所提供的基于上下文实例解耦的多人姿态估计方法对应的计算机可读存储介质,请参考图10,图10示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的基于上下文实例解耦的多人姿态估计方法。
另外,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的空分复用光网络中量子密钥分发信道分配方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任意实施方式所提供的基于上下文实例解耦的多人姿态估计方法的步骤,包括:获取预设数目个包含多人的图像;将所述包含多人的图像作为训练样本输入基于上下文实例解耦的多人姿态估计模型中进行训练;采用训练好的基于上下文实例解耦的多人姿态估计模型对目标图像进行姿态估计;其中,所述基于上下文实例解耦的多人姿态估计模型设置有实例信息抽象模块、全局特征解耦模块和热图估计模块。
需要说明的是:在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (13)

1.一种基于上下文实例解耦的多人姿态估计方法,其特征在于,所述方法包括:
获取预设数目个包含多人的图像;
将所述包含多人的图像作为训练样本输入基于上下文实例解耦的多人姿态估计模型中进行训练;
采用训练好的基于上下文实例解耦的多人姿态估计模型对目标图像进行姿态估计;
其中,所述基于上下文实例解耦的多人姿态估计模型设置有实例信息抽象模块、全局特征解耦模块和热图估计模块。
2.根据权利要求1所述的基于上下文实例解耦的多人姿态估计方法,其特征在于,所述基于上下文实例解耦的多人姿态估计模型还包括骨干网络,采用训练好的基于上下文实例解耦的多人姿态估计模型对目标图像进行姿态估计,包括:
将所述目标图像输入所述骨干网络,得到全局特征图,其中,所述目标图像包括多个人,所述全局特征图包含所有人的三维特征;
将所述全局特征图分别输入实例信息抽象模块和全局特征解耦模块;
通过实例信息抽象模块得到目标图像中每个人的实例特征;
将所述每个人的实例特征输入全局特征解耦模块,全局特征解耦模块基于所述全局特征图和所述每个人的实例特征解耦出实例特征感知图;
将所述实例特征感知图输入热图估计模块,得到所述目标图像中每个人的每个关键点的概率分布。
3.根据权利要求2所述的基于上下文实例解耦的多人姿态估计方法,其特征在于,所述通过实例信息抽象模块得到目标图像中每个人的实例特征,包括:
将所述全局特征图输入热图模块;
提取每个人的中心点坐标;
根据所述每个人的中心点坐标在所述全局特征图中相应位置进行采样,得到目标图像中每个人的实例特征。
4.根据权利要求3所述的基于上下文实例解耦的多人姿态估计方法,其特征在于,所述得到目标图像中每个人的实例特征之前,还包括:将每个人的中心点特征做基于空间注意力或通道注意力的重新校准。
5.根据权利要求2所述的基于上下文实例解耦的多人姿态估计方法,其特征在于,所述全局特征解耦模块基于所述全局特征图和所述每个人的实例特征解耦出实例特征感知图,包括:
基于所述每个人的实例特征与所述全局特征图的映射关系,从空间维度重新校准每个人的实例特征,得到第一实例特征感知图;
基于所述每个人的实例特征与所述全局特征图的映射关系,从通道维度重新校准每个人的实例特征,得到第二实例特征感知图;
融合所述第一实例感知图和所述第二实例特征感知图得到实例特征感知图。
6.根据权利要求5所述的基于上下文实例解耦的多人姿态估计方法,其特征在于,基于所述每个人的实例特征与所述全局特征图的映射关系,从空间维度重新校准每个人的实例特征,得到第一实例特征感知图,包括:
将所述全局特征图中的每个人生成一个空间掩码,以代表每个人的前景特征的权重;
增加所述前景特征的权重,重新校准所述每个人的实例特征中的空间位置,得到第一实例特征感知图。
7.根据权利要求6所述的基于上下文实例解耦的多人姿态估计方法,其特征在于,解耦出不同的通道,包括:对所述全局特征图在通道维度上基于人物特征重新加权,生成第二实例特征感知图。
8.根据权利要求7所述的基于上下文实例解耦的多人姿态估计方法,其特征在于,所述融合所述第一实例感知图和所述第二实例特征感知图得到实例特征感知图,包括:将所述第一实例特征感知图和所述第二实例特征感知图做加权和得到所述实例特征感知图。
9.根据权利要求2所述的基于上下文实例解耦的多人姿态估计方法,其特征在于,将所述实例特征感知图输入热图估计模块,得到所述目标图像中每个人的每个关键点的概率分布,包括:
将所述实例特征感知图输入热图估计模块,得到所述目标图像中每个人对应的热图;
其中,所述目标图像中每个人对应的热图包含每个关键点的概率分布。
10.根据权利要求1所述的基于上下文实例解耦的多人姿态估计方法,其特征在于,基于上下文实例解耦的多人姿态估计模型中进行训练包括通过预设损失函数训练基于上下文实例解耦的多人姿态估计模型,所述预设损失函数为:
Figure FDA0003578777040000031
其中,
Figure FDA0003578777040000032
表示实例信息抽象模块的损失,
Figure FDA0003578777040000033
表示全局特征解耦模块的损失,λ表示权重。
11.一种基于上下文实例解耦的多人姿态估计装置,其特征在于,所述装置包括:
获取模块,用于获取预设数目个包含多人的图像;
训练模块,用于将所述包含多人的图像作为训练样本输入基于上下文实例解耦的多人姿态估计模型中进行训练;
姿态估计模块,用于采用训练好的基于上下文实例解耦的多人姿态估计模型对目标图像进行姿态估计;
其中,所述基于上下文实例解耦的多人姿态估计模型设置有实例信息抽象模块、全局特征解耦模块和热图估计模块。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-10任一所述方法的步骤。
13.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-10任一所述方法的步骤。
CN202210339901.8A 2022-04-01 2022-04-01 一种基于上下文实例解耦的多人姿态估计方法与装置 Pending CN114926895A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210339901.8A CN114926895A (zh) 2022-04-01 2022-04-01 一种基于上下文实例解耦的多人姿态估计方法与装置
US18/088,981 US20230360256A1 (en) 2022-04-01 2022-12-27 Contextual instance decoupling-based multi-person pose estimation method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210339901.8A CN114926895A (zh) 2022-04-01 2022-04-01 一种基于上下文实例解耦的多人姿态估计方法与装置

Publications (1)

Publication Number Publication Date
CN114926895A true CN114926895A (zh) 2022-08-19

Family

ID=82805388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210339901.8A Pending CN114926895A (zh) 2022-04-01 2022-04-01 一种基于上下文实例解耦的多人姿态估计方法与装置

Country Status (2)

Country Link
US (1) US20230360256A1 (zh)
CN (1) CN114926895A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117671397B (zh) * 2023-12-08 2024-06-04 广东技术师范大学 基于双任务学习和位姿图优化的视觉重定位方法及系统
CN117708726B (zh) * 2024-02-05 2024-04-16 成都浩孚科技有限公司 网络模型解耦的开集合类别训练方法、装置及其存储介质

Also Published As

Publication number Publication date
US20230360256A1 (en) 2023-11-09

Similar Documents

Publication Publication Date Title
CN110516620B (zh) 目标跟踪方法、装置、存储介质及电子设备
Wang et al. Transvpr: Transformer-based place recognition with multi-level attention aggregation
Tu et al. ORSI salient object detection via multiscale joint region and boundary model
Rahman et al. Notice of violation of IEEE publication principles: Recent advances in 3D object detection in the era of deep neural networks: A survey
CN109948526B (zh) 图像处理方法及装置、检测设备及存储介质
Mei et al. Closing loops without places
Lee et al. Familiarity based unified visual attention model for fast and robust object recognition
CN114926895A (zh) 一种基于上下文实例解耦的多人姿态估计方法与装置
Bai et al. Domain adaptation for remote sensing image semantic segmentation: An integrated approach of contrastive learning and adversarial learning
US20230298307A1 (en) System for three-dimensional geometric guided student-teacher feature matching (3dg-stfm)
CN110222780A (zh) 物体检测方法、装置、设备和存储介质
CN115171149B (zh) 基于单目rgb图像回归的实时人体2d/3d骨骼关键点识别方法
US20230334893A1 (en) Method for optimizing human body posture recognition model, device and computer-readable storage medium
WO2021098802A1 (en) Object detection device, method, and systerm
KR20220004009A (ko) 키 포인트 검출 방법, 장치, 전자 기기 및 저장 매체
Kim et al. Multiple-clothing detection and fashion landmark estimation using a single-stage detector
CN113892113A (zh) 一种人体姿态估计方法及装置
Shi et al. An improved lightweight deep neural network with knowledge distillation for local feature extraction and visual localization using images and LiDAR point clouds
Yu et al. Traffic sign detection based on visual co-saliency in complex scenes
CN116597336A (zh) 视频处理方法、电子设备、存储介质及计算机程序产品
Zhang et al. Out-of-region keypoint localization for 6D pose estimation
Alcantarilla et al. Visibility learning in large-scale urban environment
CN114764870A (zh) 对象定位模型处理、对象定位方法、装置及计算机设备
CN111914809B (zh) 目标对象定位方法、图像处理方法、装置和计算机设备
Xu et al. Representative feature alignment for adaptive object detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination