CN115830640B - 一种人体姿态识别和模型训练方法、装置、设备和介质 - Google Patents

一种人体姿态识别和模型训练方法、装置、设备和介质 Download PDF

Info

Publication number
CN115830640B
CN115830640B CN202211675426.8A CN202211675426A CN115830640B CN 115830640 B CN115830640 B CN 115830640B CN 202211675426 A CN202211675426 A CN 202211675426A CN 115830640 B CN115830640 B CN 115830640B
Authority
CN
China
Prior art keywords
main part
constraint
gesture
human body
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211675426.8A
Other languages
English (en)
Other versions
CN115830640A (zh
Inventor
陈毅
郭紫垣
赵亚飞
范锡睿
张世昌
王志强
杜宗财
张伟伟
孙权
刘倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202211675426.8A priority Critical patent/CN115830640B/zh
Publication of CN115830640A publication Critical patent/CN115830640A/zh
Application granted granted Critical
Publication of CN115830640B publication Critical patent/CN115830640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本公开提供了一种人体姿态识别和模型训练方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及数字人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等技术领域。具体实现方案为:从人体图像中,分别获取至少两个部位的部位区域图像;分别采用每个部位对应的部位特征提取模型,从对应的部位区域图像中,提取部位特征;将主部位的部位区域图像对应的主部位特征和至少一个约束部位的部位区域图像对应的约束部位特征,共同输入所述主部位对应的姿态识别模型中,以输出所述主部位对应的姿态数据。本公开提高了人体姿态识别的精度和准确性,提高了人体姿态识别模型的实用性能。

Description

一种人体姿态识别和模型训练方法、装置、设备和介质
技术领域
本公开涉及人工智能技术领域,尤其涉及数字人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等技术领域,具体涉及一种人体姿态识别和模型训练方法、装置、设备和介质。
背景技术
人体驱动技术,是指基于真实人体图像或视频,结合虚拟人像,生成具有相同动作的虚拟人像的图像或视频。因此,需要从真实人体图像中识别人体姿态数据,再以人体姿态数据来驱动生成虚拟人像的动作图像。
对于识别人体姿态数据这一环节,可基于单帧图像,利用深度学习技术,分别学习图像中人体的身体图像和手部图像,确定身体姿态数据和手部姿态数据,进而结合两者,以重建完成三维人体动作捕捉。
发明内容
本公开提供了一种人体姿态识别和模型训练方法、装置、设备和介质。
根据本公开的一方面,提供了一种人体姿态识别方法,该方法包括:
从人体图像中,分别获取至少两个部位的部位区域图像;其中,所述部位包括一个主部位和至少一个约束部位;其中,所述主部位和所述约束部位为人体中的不同部位;
分别采用每个部位对应的部位特征提取模型,从对应的部位区域图像中,提取部位特征;
将主部位的部位区域图像对应的主部位特征和至少一个约束部位的部位区域图像对应的约束部位特征,共同输入所述主部位的对应的姿态识别模型中,以输出所述主部位对应的姿态数据。
根据本公开的另一方面,提供了一种人体姿态识别模型的训练方法,该方法包括:
将作为训练样本的主部位的部位区域图像和至少一个约束部位的部位区域图像,分别输入对应的初始部位特征提取模型,以提取出主部位特征和至少一个约束部位特征;
将所述主部位特征和所述至少一个约束部位特征,共同输入所述主部位的初始姿态识别模型中,以输出主部位的预测姿态数据;
基于多目标损失函数,确定所述主部位的预测姿态数据和作为训练样本的标签姿态数据之间的损失;
根据所述损失对所述主部位的初始姿态识别模型和初始部位特征提取模型,进行训练。
根据本公开的另一方面,提供了一种人体姿态识别装置,该装置包括:
区域图像获取模块,用于从人体图像中,分别获取至少两个部位的部位区域图像;其中,所述部位包括一个主部位和至少一个约束部位;其中,所述主部位和所述约束部位为人体中的不同部位;
特征获取模块,用于分别采用每个部位对应的部位特征提取模型,从对应的部位区域图像中,提取部位特征;
第一姿态数据获取模块,用于将主部位的部位区域图像对应的主部位特征和至少一个约束部位的部位区域图像对应的约束部位特征,共同输入所述主部位对应的姿态识别模型中,以输出所述主部位对应的姿态数据。
根据本公开的另一方面,提供了一种人体姿态识别模型的训练装置,该装置包括:
特征提取模块,用于将作为训练样本的主部位的部位区域图像和至少一个约束部位的部位区域图像,分别输入对应的初始部位特征提取模型,以提取出主部位特征和至少一个约束部位特征;
预测模块,用于将所述主部位特征和所述至少一个约束部位特征,共同输入所述主部位的初始姿态识别模型中,以输出主部位的预测姿态数据;
损失确定模块,用于基于多目标损失函数,确定所述主部位的预测姿态数据和作为训练样本的标签姿态数据之间的损失;
训练模块,用于根据所述损失对所述主部位的初始姿态识别模型和初始部位特征提取模型,进行训练。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器,所述处理器包括主机和至少一个异构设备;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任一实施例所述的人体姿态识别方法或者执行本公开任一实施例所述的人体姿态识别模型的训练方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开任一实施例所述的人体姿态识别方法或者执行本公开任一实施例所述的人体姿态识别模型的训练方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开任一实施例所述的人体姿态识别方法或者执行本公开任一实施例所述的人体姿态识别模型的训练方法。
本公开实施例可以提高人体姿态识别的精度和准确性,提高人体姿态识别模型的实用性能。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例提供的一种人体姿态识别方法的示意图;
图2是根据本公开实施例公开的另一种人体姿态识别方法的示意图;
图3是根据本公开实施例公开的一种人体姿态识别模型的训练方法的示意图;
图4是根据本公开实施例公开的另一种人体姿态识别模型的训练方法的示意图;
图5a是根据本公开实施例公开的一种人体姿态识别方法的应用示意图;
图5b是根据本公开实施例公开的一种手部姿态数据获取方法的示意图;
图6是本公开实施例公开的一种人体姿态识别装置的示意图;
图7是本公开实施例公开的一种人体姿态识别模型的训练装置的示意图;
图8是用来实现本公开实施例的人体姿态识别方法或人体姿态识别模型的训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开实施例提供的一种人体姿态识别方法的示意图,本公开实施例可适用于对人体图像进行人体姿态识别的情况,通常,识别到的人体姿态数据,可用于驱动虚拟人像动作等多种用途。对于人体姿态识别,本公开实施例更关注于人体的各身体部分之间的约束,对姿态识别模型进行改进。该方法可由一种人体姿态识别装置来执行,该装置可采用硬件和/或软件的方式来实现,可配置于电子设备中。参考图1,该方法具体包括如下:
S101、从人体图像中,分别获取至少两个部位的部位区域图像。其中,所述部位包括一个主部位和至少一个约束部位;其中,所述主部位和所述约束部位为人体中的不同部位。
人体图像是指能够真实反映人的各身体部位的图像。可以理解的是,人体图像可以是通过相机等图像采集设备对人体进行图像采集,得到的图像,也可以是通过绘画等方式得到的,能够反映人的身体部位的虚拟人物的图像。示例性的,人体图像可以是图片,也可以是视频中的一帧图像。部位是指人的整个躯体中的某一部分。示例性的,部位可以是手部、脚部、头部和躯干等,躯干可以是胳膊和腿等四肢部位,也可以是除手部、脚部和头部之外的整个身体部位。示例性的,获取至少两个部位的部位区域图,为手部的部位区域图像和躯干的部位区域图像。
部位区域图像是指人体图像中,一个部位的图像。在本公开中,可以设置感兴趣框(ROI框),用于从人体图像中划分出部位区域图像,其中,通过一个ROI框能够获取一个部位的部位区域图像。ROI框的数量为至少两个,也就是部位区域图像的数量为至少两个。
S102、分别采用每个部位对应的部位特征提取模型,从对应的部位区域图像中,提取部位特征。
其中,所述部位包括一个主部位和至少一个约束部位。本公开实施例中,会利用几个部位之间的关系,对某个部位的姿态识别结果进行优化限定。待优化限定的部位,可称为主部位。其他部位,特别是与主部位有连接,或者对主部位的姿态有约束作用的部位可称为约束部位。约束部位的数量可以为一个或多个。例如,主部位可以是躯干部位,约束部位是手部。
部位特征提取模型用于对部位区域图像进行特征提取,可选是用于从图像中提取特征的模型。不同的部位对应不同的部位特征提取模型。将部位区域图像输入至部位特征提取模型中,得到的输出结果为部位特征。部位特征可以是用于描述部位区域图像的特征向量。在本公开中,部位特征可以通过1024维的特征向量进行表示。
具体的,对于每个部位的部位区域图像,将部位区域图像输入至部位对应的部位特征提取模型中,得到部位特征。可以理解的是,一个部位区域图像,对应有一个部位特征。
S103、将主部位的部位区域图像对应的主部位特征和至少一个约束部位的部位区域图像对应的约束部位特征,共同输入所述主部位对应的姿态识别模型中,以输出所述主部位对应的姿态数据;
主部位是指需要进行姿态识别的部位。主部位的数量为一个。主部位可以根据实际情况进行确定。示例性的,主部位可以是躯干,也可以是头部。主部位特征是指从主部位的部位区域图像中,提取到的部位特征。约束部位是指在对主部位进行姿态识别时,具有约束作用的部位。约束部位的数量为至少一个。主部位和约束部位为人体中的不同部位,且优选是具有躯体连接关系,或具有躯体位置约束关系的不同部位。具体的,在获取的至少两个部位中,可以将主部位外的部位确定为约束部位。示例性的,获取的至少两个部位为躯干、手部和脚部,主部位为躯干,约束部位为手部和脚部。约束作用可以理解为,在对主部位进行姿态识别时,能够通过约束部位,排除违背客观事实的姿态识别结果,例如,手部的手腕不可能与躯干的手腕是相反的朝向。约束部位特征是指从约束部位的部位区域图像中,提取到的部位特征。
姿态识别模型用于对部位的姿态进行识别。不同部位的姿态识别模型不同,示例性的,部位为躯干时,对应的姿态识别模型为躯干的姿态识别模型;部位为头部时,对应的姿态识别模型为头部的姿态识别模型。主部位的姿态识别模型用于识别主部位的姿态,也就是主部位对应的姿态识别模型。对于主部位的姿态识别模型,输入数据为主部位的主部位特征和至少一个约束部位的约束特征,输出数据为主部位的姿态数据。姿态数据用于描述部位的姿态。在本公开中,姿态数据可以以关节角度的形式进行描述。示例性的,关节角度可以是躯干各关键点位之间的相对角度和相对距离,例如手腕处的角度,也就是手掌与前臂之间的角度。主部位的姿态数据用于描述主部位的姿态。示例性的,主部位为躯干,在主部位中可以包括21个关键点,则主部位的姿态数据为全部或部分关键点之间的相对角度和相对距离。
具体的,在获取的至少两个部位的中,确定一个部位为主部位,其余部位为约束部位。从主部位的部位区域图像中提取的部位特征,确定为主部位特征,从约束部位的部位区域图像中提取的部位特征,确定为约束部位特征。将主部位特征和至少一个约束部位的约束部位特征,共同输入至主部位对应的姿态识别模型中,得到的输出为主部位对应的姿态数据。
在一种可实现方式中,从人体图像中,获取躯干和手部两个部位的部位区域图像。采用躯干对应的部位特征提取模型,从躯干的部位区域图像中提取部位特征。采用手部对应的部位特征提取模型,从手部的部位区域图像中提取部位特征。
主部位为躯干,约束部位为手部。从躯干的部位区域图像中提取的部位特征,确定为主部位特征,从手部的部位区域图像中提取的部位特征,确定为约束部位特征。将主部位特征和约束部位的约束部位特征,共同输入至躯干的姿态识别模型中,得到的输出为躯干对应的姿态数据。
通过将手部的部位特征和躯干的部位特征,共同输入至躯干对应的姿态识别模型中,能够用手部的部位特征对躯干对应的姿态数据进行约束,提高躯干对应的姿态数据的准确性,避免在躯干对应的姿态数据中,出现描述手腕翻折和手腕反转等情况的姿态数据。
在相关技术中,基于单帧图片的三维人体驱动技术通常是以人体参数化模型SMPL(Skinned Multi-Person Linear)模型作为基础参数模型,利用深度学习技术,学习图片上的躯干和手部信息获得对应的SMPL参数,进而结合两者完成三维人体动作捕捉。也就是,手部信息提取模型和躯干信息提取模型,分别训练,并分别用于信息提取,而后再结合,形成完整人体图像。整合躯干和手部参数的环节,目前常用的是基于人体动力学的手腕转换和手指复制方式。存在的缺陷在于:躯干和手部各自的模型参数,在重建的过程中是割裂的,重建的模型参数是在三维坐标系下的,但是没有建立躯干和手部之间的关联。这导致重建出的全身网络在躯干和手部接合处——手腕上,会存在各种各样的重建错误,如手腕翻折,手腕反转等。
本公开实施例的技术方案,从人体图像中,获取至少两个部位的部位区域图像,并提取部位特征,将主部位的主部位特征和至少一个约束部位的约束部位特征,共同输入主部位对应的姿态识别模型中,使得在得到主部位对应的姿态数据的过程中,建立了主部位特征和约束部位特征之间的关联,提高了主部位对应的姿态数据的精度和准确性,从而提高了人体姿态识别的精度和准确性,提高了人体姿态识别模型的实用性能。
图2是根据本公开实施例公开的另一种人体姿态识别方法的示意图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。其中,在上述实施例的基础上,主部位的部位区域图像对应的主部位特征和至少一个约束部位的部位区域图像对应的约束部位特征,共同输入所述主部位对应的姿态识别模型中,以输出所述主部位对应的姿态数据之后,还包括:将所述约束部位的非连接点姿态数据,与所述主部位对应的姿态数据进行融合,以获取人体姿态数据;其中,所述约束部位和所述主部位对应的姿态数据中分别包括连接点姿态数据和非连接点姿态数据,且主部位中的连接点和约束部位中的连接点相同,所述约束部位对应的连接点姿态数据被所述主部位对应的连接点姿态数据覆盖;所述连接点为主部位和约束部位之间有直接的连接关系的点,所述非连接点为主部位和约束部位之间没有直接的连接关系的点。参考图2,该方法具体包括如下:
S201、从人体图像中,分别获取至少两个部位的部位区域图像。
S202、分别采用每个部位对应的部位特征提取模型,从对应的部位区域图像中,提取部位特征。
S203、将主部位的部位区域图像对应的主部位特征和至少一个约束部位的部位区域图像对应的约束部位特征,共同输入所述主部位对应的姿态识别模型中,以输出所述主部位对应的姿态数据。
S204、将所述约束部位的非连接点姿态数据,与所述主部位对应的姿态数据进行融合,以获取人体姿态数据;其中,所述约束部位和所述主部位对应的姿态数据中分别包括连接点姿态数据和非连接点姿态数据,且主部位中的连接点和约束部位中的连接点相同,所述约束部位对应的连接点姿态数据被所述主部位对应的连接点姿态数据覆盖;所述连接点为主部位和约束部位之间有直接的连接关系的点,所述非连接点为主部位和约束部位之间没有直接的连接关系的点。
连接点是指用于连接主部位和约束部位的关键点,也可以理解为,主部位和约束部位之间有连接关系的点。相应的,主部位中的连接点和约束部位中的连接点相同,也就是,在主部位和约束部位中具有重复的部分,通过重复的部分建立了主部位和约束部位之间的连接关系。示例性的,主部位为躯干,约束部位为手部,连接点为手腕点,也就是用于连接手部和躯干之间关节点;主部位为躯干,约束部位为脚部,连接点为脚踝点,也就是用于连接脚部和躯干之间的关节点。非连接点是指主部位和约束部位中除连接点之外的关键点,也就是主部位和约束部位之间没有连接关系的点。非连接点仅在主部位或者约束部位中出现,通过非连接点,无法建立主部位和约束部位之间的连接关系。
连接点姿态数据是指在连接点处用于描述部位姿态的数据,可以以关节角度的形式进行描述。非连接点姿态数据是指在非连接点处用于描述部位姿态的数据,可以以关节角度的形式进行描述。在约束部位的姿态数据中包括连接点姿态数据和非连接点姿态数据。在主部位的姿态数据中包括连接点姿态数据和非连接点姿态数据。
人体姿态数据是指用于描述人体完整姿态的姿态数据,可以理解的是,将主部位姿态数据和约束部位的姿态数据融合后,得到的姿态数据为人体姿态数据。
具体的,将约束部位的非连接点姿态数据,与主部位的姿态数据进行融合,也就是,将约束部位的非连接点姿态数据添加至主部位的姿态数据中,同时,将主部位的连接点姿态数据替换约束部位中连接点姿态数据,最终得到人体姿态数据。由于主部位的连接点姿态数据,是基于主部位和约束部位的共同特征进行识别确定的,所以通常比约束部位中识别到的该连接点姿态数据更为准确。
在另一种可实施方式中,将所述约束部位的非连接点姿态数据,与所述主部位对应的姿态数据进行融合之前,还包括:将约束部位的部位区域图像对应的约束部位特征,输入所述约束部位对应的姿态识别模型中,以输出所述约束部位对应的姿态数据;或,从约束部位对应的姿态识别模型中,获取所述约束部位对应的姿态数据;其中,所述约束部位对应的姿态识别模型与所述主部位对应的姿态识别模型并行运行。
约束部位对应的姿态识别模型用于识别约束部位的姿态。不同约束部位对应的姿态识别模型不同。约束部位对应的姿态识别模型的输入数据为约束部位的约束部位特征,输出数据为约束部位对应的姿态数据。约束部位对应的姿态数据可以是关节角度的形式。示例性的,约束部位为手部,手部具有连接点手腕点,以及非连接点20个关节点,得到的约束部位对应的姿态数据为21个关节角度。
约束部位对应的姿态识别模型与所述主部位对应的姿态识别模型并行运行,也就是约束部位对应的姿态识别模型与所述主部位对应的姿态识别模型可以同时运行。约束部位对应的姿态识别模型具有与主部位对应的姿态识别模型相同原理。也可以理解为,约束部位对应的姿态识别模型与主部位对应的姿态识别模型具有相同输入数据。
具体的,从约束部位对应的姿态识别模型中,获取所述约束部位对应的姿态数据包括:将主部位的主部位特征和至少一个约束部位的约束部位特征,共同输入所述约束部位对应的姿态识别模型中,以输出所述约束部位对应的姿态数据。
具体的,约束部位对应的姿态识别模型的输入数据还可以是主部位的主部位特征和至少一个约束部位的约束部位特征,输出数据为约束部位对应的姿态数据。
通过将主部位的主部位特征和至少一个约束部位的约束部位特征同时输入至约束部位对应的姿态识别模型,实现了通过主部位特征对约束部位特征的约束,能够提高约束部位对应的姿态数据的精度和准确性。
通过两种方式获取约束部位对应的姿态数据,提高了获取约束部位对应的姿态数据的灵活性,同时,通过并行的约束部位对应的姿态识别模型,获取约束部位对应的姿态数据,提高了获取约束部位对应的姿态数据的效率。
本公开实施例的技术方案,将约束部位的非连接点姿态数据与主部位对应的姿态数据进行融合,得到了人体姿态数据,实现了对人体姿态的识别,通过主部位的连接点姿态数据覆盖约束部位中的连接点姿态数据,能够保留主部位的连接点姿态数据,由于主部位的连接点姿态数据受约束部位特征约束,增加了人体姿态数据中连接点姿态数据的准确性。
图3是根据本公开实施例公开的一种人体姿态识别模型的训练方法的示意图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。其中,在上述实施例的基础上,各初始部位特征提取模型和所述主部位的初始姿态识别模型进行联合训练。
联合训练是指将各初始部位特征提取模型和主部位的初始姿态识别模型作为一个整体进行训练。也可以理解为,各初始部位特征提取模型的模型参数和主部位的初始姿态识别模型的模型参数在训练过程中,相互影响,共同调节。
具体的,人体姿态识别模型的训练方法包括:将作为训练样本的主部位的部位区域图像和至少一个约束部位的部位区域图像,分别输入对应的初始部位特征提取模型,以提取出主部位特征和至少一个约束部位特征;将所述主部位特征和所述至少一个约束部位特征,共同输入所述主部位的初始姿态识别模型中,以输出主部位的预测姿态数据;基于多目标损失函数,确定所述主部位的预测姿态数据和作为训练样本的标签姿态数据之间的损失;根据所述损失对所述主部位的初始姿态识别模型和初始部位特征提取模型,进行训练。参考图3,该方法具体包括如下:
S301、将作为训练样本的主部位的部位区域图像和至少一个约束部位的部位区域图像,分别输入对应的初始部位特征提取模型,以提取出主部位特征和至少一个约束部位特征。
训练样本用于对初始部位特征提取模型和主部位的初始姿态识别模型进行训练。训练样本至少包括主部位的部位区域图像和至少一个约束部位的部位区域图像。其中,在一个训练样本中,主部位的部位区域图像和至少一个约束部位的部位区域图像为同一人体图像中的部位区域图像。不同人体图像中的部位区域图像对应不同的训练样本。
具体的,将作为训练样本的主部位的部位区域图像,输入至主部位对应的初始部位特征提取模型中,进行部位特征提取,得到主部位特征。将作为训练样本的至少一个约束部位的部位区域图像,输入至各约束部位对应的初始部位特征提取模型中,进行部位特征提取,得到至少一个约束部位的约束部位特征。
S302、将所述主部位特征和所述至少一个约束部位特征,共同输入所述主部位的初始姿态识别模型中,以输出主部位的预测姿态数据。
预测姿态数据是指根据训练样本得到的姿态数据。主部位的预测姿态数据是指根据训练样本得到的主部位的姿态数据。
具体的,将主部位特征和至少一个约束部位特征作为输入数据,输入至主部位的初始姿态识别模型中,得到的输出数据为主部位的预测姿态数据。
S303、基于多目标损失函数,确定所述主部位的预测姿态数据和作为训练样本的标签姿态数据之间的损失。
多目标损失函数是指损失函数包括基于多个目标分别确定损失关系,再结合各损失关系,对模型参数进行优化。在本公开实施例中,获取至少两个部位,相应的,多目标损失函数中包括至少两个损失函数,一个部位对应多目标损失函数中的一个损失函数。训练样本的标签姿态数据是指根据训练样本,预先设置的描述部位的姿态数据。损失用于描述主部位的预测姿态数据和作为训练样本的标签姿态数据之间的差距。例如,对于多个损失目标,可以包括对躯干中主要关键点的损失目标,还可以包括对躯干中与手部连接的手腕点的损失目标。
具体的,根据主部位的预测姿态数据和作为训练样本的标签姿态数据,利用多目标损失函数,计算主部位的预测姿态数据和作为训练样本的标签姿态数据之间的损失。
S304、根据所述损失对所述主部位的初始姿态识别模型和初始部位特征提取模型,进行训练。
具体的,根据主部位的预测姿态数据和作为训练样本的标签姿态数据之间的损失,对主部位的初始姿态识别模型中的模型参数、主部位对应的初始部位特征提取模型中的模型参数和至少一个约束部位对应的初始部位特征提取模型中的模型参数进行调整,以减少主部位的预测姿态数据和作为训练样本的标签姿态数据之间的损失。
示例性的,主部位为躯干,约束部位为手部。根据躯干的预测姿态数据和作为训练样本的标签姿态数据之间的损失,对躯干的初始姿态识别模型、躯干对应的初始部位特征提取模型和手部对应的初始部位特征提取模型,进行训练,对躯干的初始姿态识别模型的模型参数、躯干的初始部位特征提取模型的模型参数和手部的初始部位特征提取模型的模型参数,进行调整,以减少躯干的预测姿态数据和作为训练样本的标签姿态数据之间的损失。
在另一种可实施方式中,根据所述损失对所述主部位的初始姿态识别模型和初始部位特征提取模型,进行训练包括:根据所述损失,对所述主部位的初始姿态识别模型中的模型参数,以及主部位的初始特征提取模型中的模型参数进行调整,并保持约束部位的初始特征提取模型中的模型参数不变。
主部位的初始特征提取模型是指主部位对应的初始部位特征提取模型。约束部位的初始特征提取模型是指约束部位对应的初始部位特征提取模型。约束部位的初始特征提取模型的数量为至少一个。
具体的,根据损失,在对主部位的初始姿态识别模型和初始部位特征提取模型进行训练时,保持约束部位的初始特征提取模型中的模型参数不变,仅调整主部位的初始特征提取模型中的模型参数和主部位的初始姿态识别模型中的模型参数。
在训练过程中,如果主部位相对于约束部位的面积或关键点数量,占据主导地位,则由于主部位占据主导地位,为保证主部位的初始特征提取模型和主部位的初始姿态识别模型的准确性,基于损失进行优化时,会弱化约束部位的初始特征提取模型的参数,则会导致约束部位的初始特征提取模型的准确性降低,因此,通过保持约束部位的初始特征提取模型的模型参数,能够在提高主部位的初始特征提取模型和主部位的初始姿态识别模型的准确性的同时,保证约束部位的初始特征提取模型的准确性。即可认为,在训练过程中,对于主部位所涉及的模型参数,以动态数据流的形式进行训练,对于约束部位的初始特征提取模型参数,以静态数据流的形式存在。优选的,可以采用预先训练好的约束部位的初始特征提取模型。
本公开实施例的技术方案,将主部位的部位区域图像、约束部位的部位区域图像和标签姿态数据作为训练样本,对主部位的初始姿态识别模型和初始部位特征提取模型进行训练,通过多目标损失函数,确定主部位的预测姿态数据和作为样本的标签姿态数据之间的损失,实现了主部位的初始姿态识别模型和初始部位特征提取模型的联合训练,建立了主部位的初始姿态识别模型和初始部位特征提取模型之间的联系,提高了模型训练结果的准确性。
图4是根据本公开实施例公开的另一种人体姿态识别模型的训练方法的示意图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。其中,在上述实施例的基础上,所述多目标损失函数包括至少一个约束部位损失函数,则基于所述约束部位损失函数,确定所述主部位的预测姿态数据和作为训练样本的标签姿态数据之间的损失包括:基于所述约束部位损失函数,确定所述主部位的预测姿态数据中第一关键点姿态与作为训练样本的标签姿态数据中第二关键点姿态之间的损失;其中,所述主部位中的第一关键点与所述约束部位中第二关键点之间为具有人体关联的关键点。参考图4,该方法具体包括如下:
S401、将作为训练样本的主部位的部位区域图像和至少一个约束部位的部位区域图像,分别输入对应的初始部位特征提取模型,以提取出主部位特征和至少一个约束部位特征。
S402、将所述主部位特征和所述至少一个约束部位特征,共同输入所述主部位的初始姿态识别模型中,以输出主部位的预测姿态数据。
S403、基于多目标损失函数,确定所述主部位的预测姿态数据和作为训练样本的标签姿态数据之间的损失。所述多目标损失函数包括至少一个约束部位损失函数。
约束部位损失函数是指根据约束部位对应的姿态数据确定的损失函数。针对不同约束部位,对应的约束部位损失函数不同,在本公开实施例中,约束部位损失函数的数量为至少一个,相应的,多目标损失函数包括至少一个约束部位损失函数。
具体的,根据约束部位损失函数,计算主部位的预测姿态数据和作为训练样本的标签姿态数据之间的差距,将计算结果作为主部位的预测姿态数据和作为训练样本的标签姿态数据之间的损失。
在一种可实施方式中,基于多目标损失函数,确定所述主部位的预测姿态数据和作为训练样本的标签姿态数据之间的损失包括:基于所述约束部位损失函数确定所述主部位的预测姿态数据中第一关键点姿态,与作为训练样本的标签姿态数据中第二关键点姿态之间的损失;其中,所述主部位中的第一关键点与所述约束部位中第二关键点之间为具有人体关联的关键点。
关键点是指在部位区域图像中用于确定部位姿态的点,也可以理解为,用于确定部位姿态的关节点。第一关键点是指在主部位中用于确定主部位姿态的关键点。第一关键点的数量为至少一个。第二关键点是指在约束部位中用于确定约束部位姿态的关键点。第二关键点的数量为至少一个。主部位中的第一关键点,与约束部位中第二关键点之间为具有人体关联的关键点,也可以理解为,第一关键点和第二关键点可以通过人体中的同一部位进行连接,或者在姿态上有必然的约束关系。
示例性的,第一关键点为躯干中的手腕点;所述第二关键点为手部中的大拇指根部点、手部中的小拇指根部点、以及手部中的食指根部点中的至少一个。其中,手腕点、手部中的大拇指根部点、手部中的小拇指根部点、以及手部中的食指根部点,可以通过手掌进行连接。则当大拇指根部点、小拇指根部点、以及食指根部点的角度位置确定时,通常手腕点的角度也只能在一定角度内,而不可能超出人体骨骼关系的限制范围。可以取约束部位中的部分关键点,对主部位进行约束计算,可降低计算量。
第一关键点姿态用于描述主部位中关键点处的关节角度。第二关键点姿态用于描述约束部位中关键点处的关节角度。
具体的,将主部位的预测姿态数据中第一关键点姿态,与作为训练样本的标签姿态数据中第二关键点姿态,输入至约束部位损失函数中,可以确定主部位的预测姿态数据中第一关键点姿态,与作为训练样本的标签姿态数据中第二关键点姿态之间的损失。例如,若手腕点的角度,与大拇指根部点、小拇指根部点、以及食指根部点的角度,计算角度差异;若角度差异大于预设范围值,超出人体极限,则必然表明是错误结果,应优化模型参数。所以可将角度差异的相关数据作为损失。
S404、根据所述损失对所述主部位的初始姿态识别模型和初始部位特征提取模型,进行训练。
本公开实施例的技术方案,多目标损失函数包括至少一个约束部位损失函数,可以针对不同的约束部位损失函数,确定主部位的预测姿态数据中第一关键点姿态,与作为训练样本的标签姿态数据中第二关键点姿态之间的损失,增加了多目标损失函数的灵活性和实用性。
图5a是根据本公开实施例公开的一种人体姿态识别方法的应用示意图,该方法具体如下:
从人体图像中,分别获取躯干和手部两个部位的部位区域图像。
将躯干的部位区域图像输入至躯干对应的部位特征提取模型body_feature中,得到躯干的部位特征。
将手部的部位区域图像输入至手部的部位特征提取模型hand_feature中,得到手部的部位特征。
将手部的部位特征和躯干的部位特征,共同输入至躯干对应的姿态识别模型contact_feature中,得到躯干对应的姿态数据。
将手部对应的部位特征输入至手部对应的姿态识别模型local_hand_poses中,得到手部对应的姿态数据。
将手部对应的姿态数据和躯干对应的姿态数据进行融合得到人体姿态数据whole_pose。
具体的,融合过程可以是将躯干对应的姿态数据中手腕点的姿态数据替换手部对应的姿态数据中手腕点的姿态数据,将手部对应的姿态数据中除手腕点的姿态数据之外的姿态数据直接添加进躯干对应的姿态数据中。
在一种并行执行方式中,图5b是根据本公开实施例公开的一种手部姿态数据获取方法的示意图。该方法具体如下:
从人体图像中,分别获取躯干和手部两个部位的部位区域图像。
将躯干的部位区域图像输入至躯干对应的部位特征提取模型body_feature中,得到躯干的部位特征。
将手部的部位区域图像输入至手部对应的部位特征提取模型hand_feature中,得到手部的部位特征。
将手部的部位特征和躯干的部位特征,共同输入至手部对应的姿态识别模型contact_feature中,得到手部对应的姿态数据。
将躯干的部位特征输入至躯干对应的姿态模型body_poses中,得到躯干对应的姿态数据。
将手部对应的姿态数据和躯干对应的姿态数据进行融合得到融合后的手部的姿态数据hand_pose。
具体的,融合过程可以是将躯干的姿态数据中手腕点的姿态数据替换手部的姿态数据中手腕点的姿态数据,得到融合后的手部姿态数据。
在另一种可执行方式中,图5a所示的方法中的手部对应的姿态数据,可以通过图5b所示的方法,得到的融合后的手部姿态数据,进行代替。
具体的,可以将人体图像,首先通过图5b所示的方法,获取融合后的手部姿态数据,并将其代替图5a所示的方法中,local_hand_poses的输出,与图5a中contact_poses的输出进行融合,获取人体姿态数据。
同时,也可以将图5b中hand_feature的输出,代替图5a中hand_feature的输出。图5b中的模型,即可以作为并行的约束部位姿态识别模型,该识别方式,做变换应用场景,则实际上是将手部作为主部位,将躯干作为约束部位,以躯干来约束手部姿态的识别,最终能够属于较为精准的手部姿态数据。可用于专门需要手部姿态数据识别的应用场景。
本公开实施例的技术方案,从人体图像中,获取至少两个部位的部位区域图像,并提取部位特征,将主部位的主部位特征和至少一个约束部位的约束部位特征,共同输入主部位对应的姿态识别模型中,使得在得到主部位对应的姿态数据的过程中,建立了主部位特征和约束部位特征之间的关联,提高了主部位对应的姿态数据的精度和准确性,从而提高了人体姿态识别的精度和准确性,提高了人体姿态识别模型的实用性能。
作为上述各人体姿态识别方法的实现,本公开还提供了一种实施上述各人体姿态识别方法的执行装置的可选实施例。
图6是本公开实施例中的一种人体姿态识别装置的示意图。如图6所示的一种人体姿态识别装置600,包括:区域图像获取模块601、特征获取模块602和第一姿态数据获取模块603。
其中,区域图像获取模块601,用于从人体图像中,分别获取至少两个部位的部位区域图像;其中,所述部位包括一个主部位和至少一个约束部位;其中,所述主部位和所述约束部位为人体中的不同部位;
特征获取模块602,用于分别采用每个部位对应的部位特征提取模型,从对应的部位区域图像中,提取部位特征;
第一姿态数据获取模块603,用于将主部位的部位区域图像对应的主部位特征和至少一个约束部位的部位区域图像对应的约束部位特征,共同输入所述主部位对应的姿态识别模型中,以输出所述主部位对应的姿态数据。
本公开实施例的技术方案,从人体图像中,获取至少两个部位的部位区域图像,并提取部位特征,将主部位的主部位特征和至少一个约束部位的约束部位特征,共同输入主部位对应的姿态识别模型中,使得在得到主部位对应的姿态数据的过程中,建立了主部位特征和约束部位特征之间的关联,提高了主部位对应的姿态数据的精度和准确性,从而提高了人体姿态识别的精度和准确性,提高了人体姿态识别模型的实用性能。
可选的,所述主部位为躯干,所述约束部位为手部。
可选的,该装置,还包括:
姿态数据融合模块,用于将主部位的部位区域图像对应的主部位特征和至少一个约束部位的部位区域图像对应的约束部位特征,共同输入所述主部位对应的姿态识别模型中,以输出所述主部位对应的姿态数据之后,将所述约束部位的非连接点姿态数据,与所述主部位对应的姿态数据进行融合,以获取人体姿态数据;其中,所述约束部位和所述主部位对应的姿态数据中分别包括连接点姿态数据和非连接点姿态数据,且主部位中的连接点和约束部位中的连接点相同,所述约束部位对应的连接点姿态数据被所述主部位对应的连接点姿态数据覆盖;所述连接点为主部位和约束部位之间有直接的连接关系的点,所述非连接点为主部位和约束部位之间没有直接的连接关系的点。
可选的,所述连接点为手腕点。
可选的,该装置,还包括:
第二姿态数据获取模块,用于将所述约束部位的非连接点姿态数据,与所述主部位对应的姿态数据进行融合之前,将约束部位的部位区域图像对应的约束部位特征,输入所述约束部位对应的姿态识别模型中,以输出所述约束部位对应的姿态数据;或
从约束部位对应的姿态识别模型中,获取所述约束部位对应的姿态数据;其中,所述约束部位对应的姿态识别模型与所述主部位对应的姿态识别模型并行运行。
可选的,约束特征获取模块具体用于:
将主部位的主部位特征和至少一个约束部位的约束部位特征,共同输入所述约束部位对应的姿态识别模型中,以输出所述约束部位对应的姿态数据。
上述人体姿态识别装置可执行本公开任意实施例所提供的人体姿态识别方法,具备执行人体姿态识别方法相应的功能模块和有益效果。
作为上述各人体姿态识别模型的训练方法的实现,本公开还提供了一种实施上述各人体姿态识别模型的训练方法的执行装置的可选实施例。
图7是本公开实施例中的一种人体姿态识别模型的训练装置的示意图。如图7所示的一种人体姿态识别模型的训练装置700,包括:特征提取模块701、预测模块702、损失确定模块703和训练模块704。
其中,特征提取模块701,用于将作为训练样本的主部位的部位区域图像和至少一个约束部位的部位区域图像,分别输入对应的初始部位特征提取模型,以提取出主部位特征和至少一个约束部位特征;
预测模块702,用于将所述主部位特征和所述至少一个约束部位特征,共同输入所述主部位的初始姿态识别模型中,以输出主部位的预测姿态数据;
损失确定模块703,用于基于多目标损失函数,确定所述主部位的预测姿态数据和作为训练样本的标签姿态数据之间的损失;
训练模块704,用于根据所述损失对所述主部位的初始姿态识别模型和初始部位特征提取模型,进行训练。
本公开实施例的技术方案,将主部位的部位区域图像、约束部位的部位区域图像和标签姿态数据作为训练样本,对主部位的初始姿态识别模型和初始部位特征提取模型进行训练,通过多目标损失函数,确定主部位的预测姿态数据和作为样本的标签姿态数据之间的损失,实现了主部位的初始姿态识别模型和初始部位特征提取模型的联合训练,建立了主部位的初始姿态识别模型和初始部位特征提取模型之间的联系,提高了模型训练结果的准确性。
可选的,训练单元具体用于:
根据所述损失,对所述主部位的初始姿态识别模型中的模型参数,以及主部位的初始特征提取模型中的模型参数进行调整,并保持约束部位的初始特征提取模型中的模型参数不变。
可选的,所述多目标损失函数包括至少一个约束部位损失函数,则损失确定模块703具体用于:
基于所述约束部位损失函数,确定所述主部位的预测姿态数据中第一关键点姿态与作为训练样本的标签姿态数据中第二关键点姿态之间的损失;其中,所述主部位中的第一关键点与所述约束部位中第二关键点之间为具有人体关联的关键点。
可选的,所述第一关键点为躯干中的手腕点;所述第二关键点为手部中的大拇指根部点、手部中的小拇指根部点、以及手部中的食指根部点中的至少一个。
可选的,所述主部位为躯干,所述约束部位为手部。
上述人体姿态识别模型的训练装置可执行本公开任意实施例所提供的人体姿态识别模型的训练方法,具备执行人体姿态识别模型的训练方法相应的功能模块和有益效果。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如人体姿态识别方法或人体姿态识别模型的训练方法。例如,在一些实施例中,人体姿态识别方法或人体姿态识别模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的人体姿态识别方法或人体姿态识别模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行人体姿态识别方法或人体姿态识别模型的训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提供的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (18)

1.一种人体姿态识别方法,包括:
从人体图像中,分别获取至少两个部位的部位区域图像;其中,所述部位包括一个主部位和至少一个约束部位;其中,所述主部位和所述约束部位为人体中的不同部位;其中,所述部位包括手部、脚部、头部和躯干;
分别采用每个部位对应的部位特征提取模型,从对应的部位区域图像中,提取部位特征;
将主部位的部位区域图像对应的主部位特征和至少一个约束部位的部位区域图像对应的约束部位特征,共同输入所述主部位对应的姿态识别模型中,以输出所述主部位对应的姿态数据;其中,所述姿态数据以关节角度的形式描述,所述关节角度是指所述部位各关键点之间的相对角度和相对距离;
将所述约束部位的非连接点姿态数据,与所述主部位对应的姿态数据进行融合,以获取人体姿态数据;其中,所述约束部位和所述主部位对应的姿态数据中分别包括连接点姿态数据和非连接点姿态数据,且主部位中的连接点和约束部位中的连接点相同,所述约束部位对应的连接点姿态数据被所述主部位对应的连接点姿态数据覆盖;所述连接点为主部位和约束部位之间有直接的连接关系的点,所述非连接点为主部位和约束部位之间没有直接的连接关系的点。
2.根据权利要求1所述的方法,其中,所述主部位为躯干,所述约束部位为手部。
3.根据权利要求1所述的方法,其中,所述连接点为手腕点。
4. 根据权利要求1所述的方法,将所述约束部位的非连接点姿态数据,与所述主部位对应的姿态数据进行融合之前,还包括:
将约束部位的部位区域图像对应的约束部位特征,输入所述约束部位对应的姿态识别模型中,以输出所述约束部位对应的姿态数据;或
从约束部位对应的姿态识别模型中,获取所述约束部位对应的姿态数据;其中,所述约束部位对应的姿态识别模型与所述主部位对应的姿态识别模型并行运行。
5.根据权利要求4所述的方法,其中,从约束部位对应的姿态识别模型中,获取所述约束部位对应的姿态数据包括:
将主部位的主部位特征和至少一个约束部位的约束部位特征,共同输入所述约束部位对应的姿态识别模型中,以输出所述约束部位对应的姿态数据。
6.一种人体姿态识别模型的训练方法,包括:
将作为训练样本的主部位的部位区域图像和至少一个约束部位的部位区域图像,分别输入对应的初始部位特征提取模型,以提取出主部位特征和至少一个约束部位特征;
将所述主部位特征和所述至少一个约束部位特征,共同输入所述主部位的初始姿态识别模型中,以输出主部位的预测姿态数据;
基于多目标损失函数,确定所述主部位的预测姿态数据和作为训练样本的标签姿态数据之间的损失,包括:基于所述约束部位损失函数,确定所述主部位的预测姿态数据中第一关键点姿态与作为训练样本的标签姿态数据中第二关键点姿态之间的损失;其中,所述主部位中的第一关键点与所述约束部位中第二关键点之间为具有人体关联的关键点;其中,所述多目标损失函数包括至少一个约束部位损失函数;
根据所述损失对所述主部位的初始姿态识别模型和初始部位特征提取模型,进行训练;
其中,所述根据所述损失对所述主部位的初始姿态识别模型和初始部位特征提取模型,进行训练包括:
根据所述损失,对所述主部位的初始姿态识别模型中的模型参数,以及所述主部位的初始特征提取模型中的模型参数进行调整,并保持所述约束部位的初始特征提取模型中的模型参数不变;其中,所述主部位的初始特征提取模型是指主部位对应的初始部位特征提取模型;所述约束部位的初始特征提取模型是指约束部位对应的初始部位特征提取模型。
7.根据权利要求6所述的方法,其中,所述第一关键点为躯干中的手腕点;所述第二关键点为手部中的大拇指根部点、手部中的小拇指根部点、以及手部中的食指根部点中的至少一个。
8.根据权利要求6所述的方法,其中,所述主部位为躯干,所述约束部位为手部。
9.一种人体姿态识别装置,包括:
区域图像获取模块,用于从人体图像中,分别获取至少两个部位的部位区域图像;其中,所述部位包括一个主部位和至少一个约束部位;其中,所述主部位和所述约束部位为人体中的不同部位;其中,所述部位包括手部、脚部、头部和躯干;
特征获取模块,用于分别采用每个部位对应的部位特征提取模型,从对应的部位区域图像中,提取部位特征;
第一姿态数据获取模块,用于将主部位的部位区域图像对应的主部位特征和至少一个约束部位的部位区域图像对应的约束部位特征,共同输入所述主部位对应的姿态识别模型中,以输出所述主部位对应的姿态数据;其中,所述姿态数据以关节角度的形式描述,所述关节角度是指所述部位各关键点之间的相对角度和相对距离;
姿态数据融合模块,用于将主部位的部位区域图像对应的主部位特征和至少一个约束部位的部位区域图像对应的约束部位特征,共同输入所述主部位对应的姿态识别模型中,以输出所述主部位对应的姿态数据之后,将所述约束部位的非连接点姿态数据,与所述主部位对应的姿态数据进行融合,以获取人体姿态数据;其中,所述约束部位和所述主部位对应的姿态数据中分别包括连接点姿态数据和非连接点姿态数据,且主部位中的连接点和约束部位中的连接点相同,所述约束部位对应的连接点姿态数据被所述主部位对应的连接点姿态数据覆盖;所述连接点为主部位和约束部位之间有直接的连接关系的点,所述非连接点为主部位和约束部位之间没有直接的连接关系的点。
10.根据权利要求9所述的装置,其中,所述主部位为躯干,所述约束部位为手部。
11.根据权利要求9所述的装置,其中,所述连接点为手腕点。
12. 根据权利要求9所述的装置,还包括:
第二姿态数据获取模块,用于将所述约束部位的非连接点姿态数据,与所述主部位对应的姿态数据进行融合之前, 将约束部位的部位区域图像对应的约束部位特征,输入所述约束部位对应的姿态识别模型中,以输出所述约束部位对应的姿态数据;或
约束特征获取模块,用于从约束部位对应的姿态识别模型中,获取所述约束部位对应的姿态数据;其中,所述约束部位的姿态识别模型与所述主部位的姿态识别模型并行运行。
13.根据权利要求12所述的装置,其中,约束特征获取模块具体用于:
将主部位的主部位特征和至少一个约束部位的约束部位特征,共同输入所述约束部位对应的姿态识别模型中,以输出所述约束部位对应的姿态数据。
14.一种人体姿态识别模型的训练装置,包括:
特征提取模块,用于将作为训练样本的主部位的部位区域图像和至少一个约束部位的部位区域图像,分别输入对应的初始部位特征提取模型,以提取出主部位特征和至少一个约束部位特征;
预测模块,用于将所述主部位特征和所述至少一个约束部位特征,共同输入所述主部位的初始姿态识别模型中,以输出主部位的预测姿态数据;
损失确定模块,用于基于多目标损失函数,确定所述主部位的预测姿态数据和作为训练样本的标签姿态数据之间的损失,具体用于:基于所述约束部位损失函数,确定所述主部位的预测姿态数据中第一关键点姿态与作为训练样本的标签姿态数据中第二关键点姿态之间的损失;其中,所述主部位中的第一关键点与所述约束部位中第二关键点之间为具有人体关联的关键点;所述多目标损失函数包括至少一个约束部位损失函数;
训练模块,用于根据所述损失对所述主部位的初始姿态识别模型和初始部位特征提取模型,进行训练;
其中,所述训练模块具体用于:
根据所述损失,对所述主部位的初始姿态识别模型中的模型参数,以及所述主部位的初始特征提取模型中的模型参数进行调整,并保持所述约束部位的初始特征提取模型中的模型参数不变;其中,所述主部位的初始特征提取模型是指主部位对应的初始部位特征提取模型;所述约束部位的初始特征提取模型是指约束部位对应的初始部位特征提取模型。
15.根据权利要求14所述的装置,其中,所述第一关键点为躯干中的手腕点;所述第二关键点为手部中的大拇指根部点、手部中的小拇指根部点、以及手部中的食指根部点中的至少一个。
16.根据权利要求14所述的装置,其中,所述主部位为躯干,所述约束部位为手部。
17. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的人体姿态识别方法或者执行权利要求6-8中任一项所述的人体姿态识别模型的训练方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的人体姿态识别方法或者根据权利要求6-8中任一项所述的人体姿态识别模型的训练方法。
CN202211675426.8A 2022-12-26 2022-12-26 一种人体姿态识别和模型训练方法、装置、设备和介质 Active CN115830640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211675426.8A CN115830640B (zh) 2022-12-26 2022-12-26 一种人体姿态识别和模型训练方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211675426.8A CN115830640B (zh) 2022-12-26 2022-12-26 一种人体姿态识别和模型训练方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN115830640A CN115830640A (zh) 2023-03-21
CN115830640B true CN115830640B (zh) 2024-03-05

Family

ID=85518300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211675426.8A Active CN115830640B (zh) 2022-12-26 2022-12-26 一种人体姿态识别和模型训练方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN115830640B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020633A (zh) * 2019-04-12 2019-07-16 腾讯科技(深圳)有限公司 姿态识别模型的训练方法、图像识别方法及装置
CN111523485A (zh) * 2020-04-24 2020-08-11 浙江商汤科技开发有限公司 位姿识别方法及装置、电子设备和存储介质
CN114120436A (zh) * 2020-08-31 2022-03-01 华为云计算技术有限公司 动作识别模型的训练方法、动作识别方法及相关装置
CN114677572A (zh) * 2022-04-08 2022-06-28 北京百度网讯科技有限公司 对象描述参数的生成方法、深度学习模型的训练方法
CN114712835A (zh) * 2022-03-25 2022-07-08 中国地质大学(武汉) 一种基于双目人体位姿识别的辅助训练系统
WO2022188327A1 (zh) * 2021-03-09 2022-09-15 北京百度网讯科技有限公司 定位图获取模型的训练方法和装置
CN115116128A (zh) * 2022-05-27 2022-09-27 南方科技大学 一种自约束优化的人体姿态估计方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020633A (zh) * 2019-04-12 2019-07-16 腾讯科技(深圳)有限公司 姿态识别模型的训练方法、图像识别方法及装置
CN111523485A (zh) * 2020-04-24 2020-08-11 浙江商汤科技开发有限公司 位姿识别方法及装置、电子设备和存储介质
CN114120436A (zh) * 2020-08-31 2022-03-01 华为云计算技术有限公司 动作识别模型的训练方法、动作识别方法及相关装置
WO2022188327A1 (zh) * 2021-03-09 2022-09-15 北京百度网讯科技有限公司 定位图获取模型的训练方法和装置
CN114712835A (zh) * 2022-03-25 2022-07-08 中国地质大学(武汉) 一种基于双目人体位姿识别的辅助训练系统
CN114677572A (zh) * 2022-04-08 2022-06-28 北京百度网讯科技有限公司 对象描述参数的生成方法、深度学习模型的训练方法
CN115116128A (zh) * 2022-05-27 2022-09-27 南方科技大学 一种自约束优化的人体姿态估计方法及系统

Also Published As

Publication number Publication date
CN115830640A (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN110163059B (zh) 多人姿态识别方法、装置及电子设备
CN113658309B (zh) 三维重建方法、装置、设备以及存储介质
CN112581573B (zh) 虚拟形象驱动方法、装置、设备、介质和程序产品
CN113378770A (zh) 手势识别方法、装置、设备、存储介质以及程序产品
CN113361363A (zh) 人脸图像识别模型的训练方法、装置、设备及存储介质
CN116309983B (zh) 虚拟人物模型的训练方法、生成方法、装置和电子设备
CN114677572B (zh) 对象描述参数的生成方法、深度学习模型的训练方法
CN112580666A (zh) 图像特征的提取方法、训练方法、装置、电子设备及介质
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN116092120B (zh) 基于图像的动作确定方法、装置、电子设备及存储介质
CN115393488B (zh) 虚拟人物表情的驱动方法、装置、电子设备和存储介质
CN115830640B (zh) 一种人体姿态识别和模型训练方法、装置、设备和介质
CN114972910B (zh) 图文识别模型的训练方法、装置、电子设备及存储介质
CN114220163B (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN116167426A (zh) 人脸关键点定位模型的训练方法及人脸关键点定位方法
CN115222895A (zh) 图像生成方法、装置、设备以及存储介质
CN113325950B (zh) 功能控制方法、装置、设备以及存储介质
CN112200169B (zh) 用于训练模型的方法、装置、设备以及存储介质
CN113781653A (zh) 对象模型生成方法、装置、电子设备及存储介质
CN113378773B (zh) 手势识别方法、装置、设备、存储介质以及程序产品
CN114863473B (zh) 一种人体关键点检测方法、装置、设备及存储介质
CN116452741B (zh) 对象重建方法、对象重建模型的训练方法、装置及设备
CN116433826B (zh) 虚拟形象驱动方法、装置、设备和介质
CN117912085B (zh) 模型训练方法、人脸关键点定位方法、装置、设备及介质
US20230122373A1 (en) Method for training depth estimation model, electronic device, and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant