CN112330730B - 图像处理方法、装置、设备及存储介质 - Google Patents
图像处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112330730B CN112330730B CN202011363609.7A CN202011363609A CN112330730B CN 112330730 B CN112330730 B CN 112330730B CN 202011363609 A CN202011363609 A CN 202011363609A CN 112330730 B CN112330730 B CN 112330730B
- Authority
- CN
- China
- Prior art keywords
- human body
- body key
- coordinates
- key point
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 35
- 238000010586 diagram Methods 0.000 claims abstract description 126
- 238000001514 detection method Methods 0.000 claims abstract description 97
- 238000012545 processing Methods 0.000 claims abstract description 90
- 230000009471 action Effects 0.000 claims abstract description 62
- 238000012549 training Methods 0.000 claims description 98
- 238000013528 artificial neural network Methods 0.000 claims description 94
- 238000000034 method Methods 0.000 claims description 66
- 238000000605 extraction Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 21
- 230000000694 effects Effects 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000003190 augmentative effect Effects 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 14
- 230000006399 behavior Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000003238 somatosensory effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 210000000707 wrist Anatomy 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 210000003423 ankle Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000001513 elbow Anatomy 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000003739 neck Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000003049 pelvic bone Anatomy 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 210000002832 shoulder Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
- G06V10/14—Optical characteristics of the device performing the acquisition or on the illumination arrangements
- G06V10/143—Sensing or illuminating at different wavelengths
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了图像处理方法、装置、设备及存储介质,涉及计算机技术领域中的计算机视觉、增强现实和深度学习技术。具体实现方案为:通过检测模型确定待检测图像中目标人物的人体关键点的3D热力分布图和3D位置偏移量,基于人体关键点的3D热力分布图确定人体关键点的预测3D坐标,然后根据人体关键点的3D位置偏移量对预测3D坐标进行修正,能够得到精准地人体关键点3D坐标,实现人体关键点的精准检测,基于精准的人体关键点的3D坐标,能够精准地识别出目标人物的姿势或动作,并根据目标人物的姿势或动作进行相应的处理,提高了目标人物姿势或动作的识别精准度,能够准确识别出目标人物的意图,提高与目标人物的交互效果。
Description
技术领域
本申请涉及计算机技术领域中的计算机视觉、增强现实和深度学习技术,尤其涉及一种图像处理方法、装置、设备及存储介质。
背景技术
随着人机交互应用的普及,准确地获取人体关键点成为关键性技术之一,例如在体感游戏、人体行为分析、虚拟人物形象(avatar)驱动等领域,人体的3D人体关键点准确获取甚为重要。
现有技术中,为了部署简单,通常采用单个普通摄像头获取彩色图像数据,基于深度学习模型检测获得人体的3D人体关键点,具体是通过识别RGB图像的特征来识别人体的3D人体关键点,但是现有这种识别方式往往误差较大,识别不够准确,影响基于3D人体关键点识别人体姿势或动作的准确度,导致对用户做出的姿势或动作的意图识别不准确,影响与用户的人机交互的效果。
发明内容
本申请提供了一种图像处理方法、装置、设备及存储介质。
根据本申请的一方面,提供了一种图像处理方法,包括:响应于对待检测图像中目标人物的人体关键点的检测指令,将所述待检测图像输入检测模型,确定所述人体关键点的3D热力分布图和3D位置偏移量,所述检测模型为根据训练集对神经网络训练得到的;根据所述3D热力分布图确定所述人体关键点的预测3D坐标;根据所述3D位置偏移量,对所述人体关键点的预测3D坐标进行修正,得到所述人体关键点最终的3D坐标;根据所述人体关键点最终的3D坐标,识别所述目标人物的姿势或动作,并根据所述目标人物的姿势或动作进行相应的处理。
根据本申请的另一方面,提供了一种图像处理方法,包括:将训练集中的样本图像输入神经网络,确定所述样本图像中人物对象的人体关键点的3D热力分布图和3D位置偏移量的预测值;根据所述人体关键点的3D热力分布图确定所述人体关键点的3D坐标的预测值;根据所述样本图像的标签数据,以及所述人体关键点的3D坐标的预测值和3D位置偏移量的预测值,计算所述神经网络的损失值;根据所述神经网络的损失值,更新所述神经网络的参数。
根据本申请的另一方面,提供了一种图像处理装置,包括:检测模型模块,用于响应于对待检测图像中目标人物的人体关键点的检测指令,将所述待检测图像输入检测模型,确定所述人体关键点的3D热力分布图和3D位置偏移量,所述检测模型为根据训练集对神经网络训练得到的;3D坐标预测模块,用于根据所述3D热力分布图确定所述人体关键点的预测3D坐标;3D坐标修正模块,用于根据所述3D位置偏移量,对所述人体关键点的预测3D坐标进行修正,得到所述人体关键点最终的3D坐标;识别应用模块,用于根据所述人体关键点最终的3D坐标,识别所述目标人物的姿势或动作,并根据所述目标人物的姿势或动作进行相应的处理。
根据本申请的另一方面,提供了一种图像处理装置,包括:神经网络模块,用于将训练集中的样本图像输入所述神经网络,确定所述样本图像中人物对象的人体关键点的3D热力分布图和3D位置偏移量的预测值;3D坐标确定模块,用于根据所述人体关键点的3D热力分布图确定所述人体关键点的3D坐标的预测值;损失确定模块,用于根据所述样本图像的标签数据,以及所述人体关键点的3D坐标的预测值和3D位置偏移量的预测值,计算所述神经网络的损失值;参数更新模块,用于根据所述神经网络的损失值,更新所述神经网络的参数。
根据本申请的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一方面所述的方法。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述任一方面所述的方法。
根据本申请的另一方面,提供了一种计算机程序产品,所述程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行上述任一方面所述的方法。
根据本申请的技术提高了人物姿势或动作识别的准确度。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例的图像处理场景图;
图2是本申请第一实施例提供的图像处理方法流程图;
图3是本申请第二实施例提供的人体关键点检测的流程示意图;
图4是本申请第二实施例提供的另一人体关键点检测的流程示意图;
图5是本申请第二实施例提供的图像处理方法流程图;
图6是本申请第三实施例提供的图像处理方法流程图;
图7是本申请第四实施例提供的图像处理方法流程图;
图8是本申请第五实施例提供的图像处理装置示意图;
图9是本申请第七实施例提供的图像处理装置示意图;
图10是本申请第八实施例提供的图像处理装置示意图;
图11是用来实现本申请实施例的图像处理方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请提供一种图像处理方法、装置、设备及存储介质,应用于计算机技术领域中的计算机视觉、增强现实和深度学习技术,以达到提高人物姿势或者动作识别的准确度,提高人机交互的效果。
本申请实施例提供的图像处理方法,至少应用于体感游戏、人体行为分析、虚拟人物形象(avatar)驱动等领域,具体可以应用于健身监督或指导、智能教育、直播特效、3D体感游戏等产品。
一种可能的应用场景中,如图1所示,通过预先设置的摄像头采集包含目标对象的完整身体的2D图像,并将2D图像传输到进行图像处理的电子设备。电子设备将用户的2D图像作为待检测的图像输入预先训练好的检测模型,通过检测模型确定该图像中用户的人体关键点的3D热力分布图和3D位置偏移量;然后根据3D热力分布图确定人体关键点的预测3D坐标;根据3D位置偏移量,对人体关键点的预测3D坐标进行修正,得到人体关键点最终的3D坐标。在确定采集的2D图像中用户的人体关键点的3D坐标之后,基于用户的人体关键点的3D坐标,识别出用户的姿势或动作。电子设备基于预设规则确定用户的姿势或动作对应的交互信息,并基于交互信息对用户做出响应。
其中,该电子设备可以是用于执行图像处理方法的设备,应用于不同的技术领域和应用场景时,可以是不同的设备。例如体感游戏机,人体行为分析设备,用于智能教学的监控设备等。用于采集用户图像的摄像头采用普通的单目摄像头即可,可以降低成本。
例如,当应用于体感游戏领域时,用户通过在体感游戏设备摄像头的拍摄范围内做出规定姿势或动作与体感游戏设备进行交互。体感游戏设备基于摄像头采集到的包含用户完整身体的2D图像,将用户的2D图像作为待检测图像,输入检测模型,通过检测模型确定并输出2D图像中用户的人体关键点的3D热力分布图和3D位置偏移量;根据3D热力分布图确定人体关键点的预测3D坐标;根据3D位置偏移量,对人体关键点的预测3D坐标进行修正,得到人体关键点最终的3D坐标;然后根据人体关键点最终的3D坐标,可以识别出采集的2D图像中该用户的姿势或动作。在体感游戏中,在识别出用户的姿势或动作之后,可以确定用户的姿势或动作对应的指令信息,根据用户的姿势或动作对应的指令信息,对用户进行游戏响应。
例如,当应用于智能教学场景时,可以通过预先设置在教室中的摄像头实时地采集教学时教师的人体图像,形成录制的视频数据。监控系统可以通过本申请实施例提供的图像处理方法,对视频数据中的一帧或者多帧图像进行图像处理,检测出图像中教师的人体关键点的3D坐标,并基于教师的人体关键点的3D坐标识别出教师的姿势或动作,通过对一帧或多帧图像中教师的姿势或动作进行分析,来判断教师是否做出不符合要求的行为。如果确定教师在教学中有不符合要求的行为,及时上报。
图2是本申请第一实施例提供的图像处理方法流程图。如图2所示,该方法具体步骤如下:
步骤S101、响应于对待检测图像中目标人物的人体关键点的检测指令,将待检测图像输入检测模型,确定人体关键点的3D热力分布图和3D位置偏移量,检测模型为根据训练集对神经网络训练得到的。
其中,响应于对待检测图像中目标人物的人体关键点的检测指令,将待检测图像输入检测模型,可以是用户向电子设备输入待检测图像并发出开始检测的指令,或者也可以是在待检测图像准备好后触发开始检测。
本实施例中,待检测的图像可以是2D图像,可以是普通单目摄像头拍摄的图像或者其他方式获得的2D图像。
检测模型是根据训练集预先训练好的神经网络模型。该检测模型中采用多个2D卷积核,对输入的2D图像进行图像处理,最终输出2D图像中目标人物的人体关键点在给定的三维空间中的3D热力分布图和3D位置偏移量。
由于获取3D热力分布图过程中,对2D图像进行了特征提取、变换等一系列处理,会导致人体关键点的坐标发生偏移。本实施例中,在获取人体关键点的3D热力分布图的同时,确定人体关键点的3D位置偏移量。
步骤S102、根据3D热力分布图确定人体关键点的预测3D坐标。
其中,3D热力分布图为人体关键点位于三维空间中各个位置点的概率分布。其中三维空间是给定范围的三维空间,例如给定范围可以是64×64×64,那么三维空间是一个64×64×64的三维空间。
在确定人体关键点在给定的三维空间中的3D热力分布图之后,可以根据3D热力分布图确定人体关键点最有可能处于的位置点,将该位置点的3D坐标作为人体关键点的预测3D坐标。
步骤S103、根据3D位置偏移量,对人体关键点的预测3D坐标进行修正,得到人体关键点最终的3D坐标。
在根据3D热力分布图确定人体关键点的预测3D坐标之后,根据3D位置偏移量对预测3D坐标进行修正,得到人体关键点最终的3D坐标。
步骤S104、根据人体关键点最终的3D坐标,识别目标人物的姿势或动作,并根据目标人物的姿势或动作进行相应的处理。
在检测出人体关键点的3D坐标之后,根据人体关键点最终的3D坐标,可以识别目标人物的姿势或动作。
在不同的应用场景中,目标人物的姿势或动作对应的交互信息不同。结合具体应用场景,确定目标人物的姿势或动作对应的交互信息,并基于目标人物的姿势或动作对应的交互信息做出相应的处理,针对目标人物的姿势或动作做出响应。
本申请实施例通过检测模型根据输入的待检测图像,确定待检测图像中目标人物的人体关键点的3D热力分布图和3D位置偏移量,基于人体关键点的3D热力分布图确定人体关键点的预测3D坐标,根据人体关键点的3D位置偏移量对预测3D坐标进行修正,能够得到精准地人体关键点3D坐标,实现人体关键点的精准检测,基于精准的人体关键点的3D坐标,能够精准地识别出目标人物的姿势或动作,并根据目标人物的姿势或动作进行相应的处理,提高了目标人物姿势或动作的识别精准度,能够准确识别出目标人物的意图,提高与目标人物的交互效果。
图3是本申请第二实施例提供的人体关键点检测的流程示意图;图4是本申请第二实施例提供的另一人体关键点检测的流程示意图;图5是本申请第二实施例提供的图像处理方法流程图。在上述第一实施例的基础上,本实施例中,结合检测模型的结构,对图像处理方法进行详细地说明。
如图3所示,人体关键点的检测的整体流程包括:将待检测的2D图像输入检测模型,检测模型具有两个分支的输出,一个分支的输出为2D图像中目标人物的N个人体关键点的3D热力分布图,基于每个3D热力分布图可以确定对应人体关键点的预测3D坐标(x′,y′,z′);另一个分支的输出为N个人体关键点的3D位置偏移量(xoffset,yoffset,zoffset);然后通过人体关键点的3D位置偏移量(xoffset,yoffset,zoffset)对人体关键点的预测3D坐标(x,y,z)进行修正,得到N个人体关键点的3D坐标(x,y,z),完成人体关键点的检测。其中N为预设的人体关键点个数,例如N可以是16或21等,此处不做具体限定。
下面结合检测模型的结构,对人体关键点的检测的整体流程进行较为详细地说明。如图4所示,本实施例中人体关键点的检测模型包括特征提取网络,3D热力分布图处理网络,3D位置偏移量处理网络。本实施例中以16个人体关键点为例,进行示例性地说明,当人体关键点发生变化时,当前的模型整体框架不变,其中的特征图的分辨率可能会发生变化。
其中,特征提取网络用于提取待检测图像中的人体关键点特征,输出第一人体关键点特征图和预设分辨率的中间结果特征图。特征提取网络可以采用ResNet、VGG(VisualGeometry Group Network)等能够提取图像特征的神经网络实现,此处不做具体限定。其中预设分辨率可以根据实际应用场景和3D热力分布图所在的三维空间的给定范围和人体关键点个数进行设定,例如,3D热力分布图所在的三维空间的给定范围可以是64×64×64,人体关键点个数是16,预设分辨率可以是2048×64×64或者1024×64×64等。图4中以特征提取网络为ResNet,输出的第一人体关键点特征图的分辨率为512×8×8,中间结果特征图的分辨率为2048×64×64为例进行示例性地说明。
3D热力分布图处理网络包括至少一个反卷积网络(如图4中所示的3个反卷积层)和一个1×1的卷积层,将第一人体关键点特征图经过至少一个反卷积层,增大第一人体关键点特征图的分辨率,得到第三人体关键点特征图;经过一个1x1的卷积层对第三人体关键点特征图中的人体关键点特征再次进行特征提取,得到第二人体关键点特征图。第二人体关键点特征图经过变换处理,得到指定维度的3D热力分布图。其中,反卷积层的个数可以根据实际应用场景进行设置,本实施例中可以用3个反卷积层。变换处理可以通过reshape函数实现,将第二人体关键点特征图对应的矩阵变换成特定维数矩阵的3D热力分布图。图4中以包括3个反卷积层,变换处理采用reshape函数,将经过3个反卷积层和一个1x1的卷积层处理后输出的1024×64×64的第二人体关键点特征图,reshape成16×64×64×64,得到16个人体关键点的3D热力分布图。
3D位置偏移量处理网络用于将特征提取网络的预设分辨率的中间结果特征图和3D热力分布图处理网络的第二人体关键点特征图连接后输入一个卷积层,通过该卷积层比对中间结果特征图和第二人体关键点特征图,确定人体关键点的3D位置偏移量。图4中以将2048×64×64的中间结果特征图与1024×64×64的第二人体关键点特征图连接后,输入卷积层,得到16个人体关键点的3D位置偏移量。
下面结合图5,对图像处理方法的流程进行较为详细地说明。如图5所示,图像处理方法具体步骤如下:
步骤S201、响应于对待检测图像中目标人物的人体关键点的检测指令,提取待检测图像中人体关键点特征,得到第一人体关键点特征图和预设分辨率的中间结果特征图。
其中,响应于对待检测图像中目标人物的人体关键点的检测指令,将待检测图像输入检测模型,可以是用户向电子设备输入待检测图像并发出开始检测的指令,或者也可以是在待检测图像准备好后触发开始检测。
本实施例中,待检测的图像可以是2D图像,可以是普通单目摄像头拍摄的图像或者其他方式获得的2D图像。
待检测图像输入检测模型后,首先通过特征提取网络提取待检测图像中人体关键点特征,得到第一人体关键点特征图。该步骤中,用于提取待检测图像中人体关键点特征,得到第一人体关键点特征图的特征提取网络,可以采用ResNet、VGG(Visual GeometryGroup Network)等能够提取图像特征的神经网络实现,此处不做具体限定。
另外,该步骤中还需要获取提取第一人体关键点特征图的过程中的预设分辨率的中间结果,作为中间结果特征图,该中间结果特征图用于后续确定人体关键点的3D位置偏移量。
步骤S202、增大第一人体关键点特征图的分辨率,得到指定分辨率的第二人体关键点特征图。
本实施例中,该步骤具体可以采用如下方式实现:将第一人体关键点特征图经过至少一个反卷积层,增大第一人体关键点特征图的分辨率,得到第三人体关键点特征图;经过一个1x1的卷积层对第三人体关键点特征图中的人体关键点特征进行特征提取,得到第二人体关键点特征图。
在得到第一人体关键点特征图之后,通常第一人体关键点特征图的分辨率较小。为了提高人体关键点的预测3D坐标的准确性,增大第一人体关键点特征图的分辨率,得到第三人体关键点特征图,并经过一个1x1的卷积层对第三人体关键点特征图中的人体关键点特征再次进行特征提取,得到第二人体关键点特征图,可以增大特征图的分辨率,并强化其中的人体关键点特征,对图像的特征有一个更好的融合,根据第二人体关键点特征图确定的人体关键点的3D热力分布图,提高基于人体关键点的3D热力分布图确定的预测3D坐标的准确性。
其中,指定分辨率大于第一人体关键点特征图的分辨率,可以根据实际应用场景中3D热力分布图所在的三维空间的给定范围和人体关键点个数进行设定,例如,3D热力分布图所在的三维空间的给定范围可以是64×64×64,人体关键点个数是16,指定分辨率可以是(16×64)×64×64,也即是1024×64×64。
其中,反卷积层的个数可以根据实际应用场景进行设置,例如可以用3个反卷积层。
步骤S203、对第二人体关键点特征图进行变换处理,得到3D热力分布图。
在得到指定分辨率的第二人体关键点特征图之后,通过对第二人体关键点特征图进行变换处理,得到各个人体关键点的3D热力分布图。
其中,变换处理可以通过reshape函数实现,将第二人体关键点特征图对应的矩阵变换成特定维数矩阵的3D热力分布图。
例如,如图4中所示,可以将1024×64×64的第二人体关键点特征图,reshape成16×64×64×64,得到16个人体关键点的3D热力分布图。
步骤S204、通过比对中间结果特征图和第二人体关键点特征图,确定人体关键点的3D位置偏移量。
由于获取3D热力分布图过程中,对2D图像进行了特征提取、变换等一系列处理,会导致人体关键点的坐标发生偏移。本实施例中,在获取人体关键点的3D热力分布图的同时,确定人体关键点的3D位置偏移量。
该步骤具体可以采用如下方式实现:
将中间结果特征图和第二人体关键点特征图连接后输入卷积层,通过卷积层比对中间结果特征图和第二人体关键点特征图,确定人体关键点的3D位置偏移量。这样,通过从特征提取网络拿到人体关键点特征提取阶段的高分辨率的中间结果特征图,与用于直接生成各人体关键点的3D热力分布图的高分辨率的第二人体关键点特征图进行比对,可以准确地确定从特征提取开始到确定人体关键点的3D热力分布图期间对特征图所做的处理引起的人体关键点的3D位置偏移量,提高人体关键点的3D位置偏移量的准确性,基于该3D位置偏移量对人体关键点的预测3D坐标进行修正,得到的人体关键点的3D坐标更加准确。
本实施例中,通过上述步骤S201-S204,响应于对待检测图像中目标人物的人体关键点的检测指令,将待检测图像输入检测模型,确定待检测图像中目标人物的人体关键点的3D热力分布图和3D位置偏移量。检测模型是根据训练集预先训练好的神经网络模型。该检测模型中采用多个2D卷积核,对输入的2D图像进行图像处理,最终输出2D图像中目标人物的人体关键点在给定的三维空间中的3D热力分布图和3D位置偏移量。其中检测模型的具体训练过程可以采用第三实施例提供的方法流程实现,参见第三实施例,此处不再赘述。
步骤S205、根据3D热力分布图确定人体关键点的预测3D坐标。
其中,3D热力分布图为人体关键点位于三维空间中各个位置点的概率分布。其中三维空间是给定范围的三维空间,例如给定范围可以是64×64×64,那么三维空间是一个64×64×64的三维空间。
在确定人体关键点在给定的三维空间中的3D热力分布图之后,可以根据3D热力分布图确定人体关键点最有可能处于的位置点,将该位置点的3D坐标作为人体关键点的预测3D坐标。
该步骤具体可以采用如下方式实现:
利用softargmax方法确定概率分布的极大值,以及极大值对应的位置点的3D坐标;将极大值对应的位置点的3D坐标确定为人体关键点的3D坐标。
可选地,在确定人体关键点的3D坐标之前,可以先将每个人体关键点的3D热力分布图进行归一化处理,使得3D热力分布图中每个值都映射到(0,1)之间,这样每一个归一化后的3D立体热力分布图表示该人体关键点为在一个给定三维空间中的高斯分布,其中每一个3D热力分布图的大小根据给定三维空间的大小确定。然后基于归一化后的3D热力分布图,利用softargmax方法确定高斯分布的极大值,以及极大值对应的位置点的3D坐标;将极大值对应的位置点的3D坐标确定为人体关键点的3D坐标。通过softargmax方法寻找极值所在位置的方法是可微的,得到的人体关键点的3D坐标更加准确。
可选地,可以通过softmax函数将将每个人体关键点的3D热力分布图进行归一化处理,或者还可以采用其他的归一化方法实现。
步骤S206、根据3D位置偏移量,对人体关键点的预测3D坐标进行修正,得到人体关键点最终的3D坐标。
在确定人体关键点的预测3D坐标和3D位置偏移量转换,可以根据以下公式一,对人体关键点的预测3D坐标进行修正,得到人体关键点最终的3D坐标:
Pfinal=Poutput+ΔP 公式一
其中,Poutput表示根据人体关键点的3D热力分布图确定的人体关键点的预测3D坐标,ΔP表示每个人体关键点坐标值对应的偏移量,Pfinal表示修正后人体关键点最终的3D坐标。
步骤S207、根据人体关键点最终的3D坐标,识别目标人物的姿势或动作,并根据目标人物的姿势或动作进行相应的处理。
在检测出人体关键点的3D坐标之后,根据人体关键点最终的3D坐标,可以识别目标人物的姿势或动作。
在不同的应用场景中,目标人物的姿势或动作对应的交互信息不同。结合具体应用场景,确定目标人物的姿势或动作对应的交互信息,并基于目标人物的姿势或动作对应的交互信息做出相应的处理,针对目标人物的姿势或动作做出响应。
本申请实施例中,通过提取待检测图像中人体关键点特征,得到第一人体关键点特征图和预设分辨率的中间结果特征图;增大第一人体关键点特征图的分辨率,得到指定分辨率的第二人体关键点特征图;对第二人体关键点特征图进行变换处理,得到3D热力分布图;根据3D热力分布图确定人体关键点的预测3D坐标;通过比对中间结果特征图和第二人体关键点特征图,确定人体关键点的3D位置偏移量,能够准确地确定人体关键点的预测3D坐标和3D位置偏移量;进一步地,人体关键点的3D热力分布图为人体关键点位于三维空间中各个位置点的概率分布,利用softargmax方法确定概率分布的极大值,以及极大值对应的位置点的3D坐标;将极大值对应的位置点的3D坐标确定为人体关键点的3D坐标,提高预测3D坐标的准确性,提高了人体关键点3D坐标的精准度,基于精准地人体关键点的3D坐标,能够精准地识别出目标人物的姿势或动作,并根据目标人物的姿势或动作进行相应的处理,提高了目标人物姿势或动作的识别精准度,能够准确识别出目标人物的意图,提高与目标人物的交互效果。
图6是本申请第三实施例提供的图像处理方法流程图。本实施例中重点对人体关键点的检测模型的训练方法进行详细地说明。如图6所示,该图像处理方法通过循环执行如下步骤,对神经网络进行训练,训练好的神经网络作为最终的人体关键点的检测模型:
步骤S301、将训练集中的样本图像输入神经网络,确定样本图像中人物对象的人体关键点的3D热力分布图和3D位置偏移量的预测值。
其中,训练集包括样本图像及样本图像对应的标签数据。其中,样本图像的标签数据包括预先标注好的样本图像中人物对象的人体关键点的3D坐标和3D位置偏移量。
在对神经网络训练过程中,每次训练时,将样本图像输入神经网络,确定样本图像中人物对象的人体关键点的3D热力分布图和3D位置偏移量的预测值。
步骤S302、根据人体关键点的3D热力分布图确定人体关键点的3D坐标的预测值。
其中,3D热力分布图为人体关键点位于三维空间中各个位置点的概率分布。其中三维空间是给定范围的三维空间,例如给定范围可以是64×64×64,那么三维空间是一个64×64×64的三维空间。
在确定人体关键点在给定的三维空间中的3D热力分布图之后,可以根据3D热力分布图确定人体关键点最有可能处于的位置点,将该位置点的3D坐标作为人体关键点的3D坐标的预测值。
步骤S303、根据样本图像的标签数据,以及人体关键点的3D坐标的预测值和3D位置偏移量的预测值,计算神经网络的损失值。
在确定样本图像中人物对象的人体关键点的3D坐标的预测值和3D位置偏移量的预测值之后,根据样本图像的标签数据中标注的该样本图像中人物对象的人体关键点的3D坐标和3D位置偏移量,计算3D坐标和3D位置偏移量的综合损失值,得到神经网络的损失值。
步骤S304、根据神经网络的损失值,更新神经网络的参数。
在计算得到当前神经网络的损失值之后,神经网络的损失值,更新神经网络的参数。
在更新神经网络的参数之后,通过测试集测试神经网络是否收敛;如果神经网络收敛,则训练结束,将训练好的神经网络作为人体关键点检测模型;如果神经网络不收敛,则继续对神经网络进行训练,直至神经网络收敛。
在应用于具体的应用场景时,该人体关键点检测模型用于确定待检测图像中目标人物的人体关键点的3D热力分布图和3D位置偏移量。根据确定的目标人物的人体关键点的3D热力分布图和3D位置偏移量,可以确定人体关键点的精准的3D坐标,根据人体关键点的精准的3D坐标能够识别目标人物的姿势或动作,并根据目标人物的姿势或动作进行相应的处理,从而实现对应应用场景的具体功能。
本申请实施例通过利于预先获取到训练集对人体关键点的检测模型进行训练,训练得到的检测模型能够准确地检测出输入图像中人物对象的人体关键点的3D热力分布图和3D位置偏移量,从而能够确定精准的人体关键点的3D坐标。
图7是本申请第四实施例提供的图像处理方法流程图。在上述第三实施例的基础上,本实施例中,结合检测模型的结构,对图像处理方法进行详细地说明。本实施例中神经网络的机构与上述第二实施例中图4所示,此次不再赘述。
如图7所示,该方法具体步骤如下:
步骤S401、获取训练集,训练集包括多条训练数据,每条训练数据包括样本图像及样本图像的标签数据,样本图像的标签数据包括:样本图像中人物对象的人体关键点的3D坐标和3D位置偏移量。
本实施例中,该步骤具体可以采用如下方式实现:获取样本图像,以及预先标注的样本图像中人物对象的人体关键点的真实3D坐标和类型;对人体关键点的真实3D坐标进行数据增强,确定人体关键点的3D坐标的样本值;计算人体关键点的3D坐标的样本值相对于真实3D坐标的3D位置偏移量;根据人体关键点的3D坐标的样本值,预先标注的人体关键点的类型,以及人体关键点的3D坐标的样本值相对于真实3D坐标的3D位置偏移量,生成样本图像的标签数据,样本图像及其标签数据构成一条训练数据。其中,人体关键点的类型包括眼睛、下巴、鼻子、颈部、肩膀、手腕、手肘、脚腕、膝盖等,此处不再一一列举。
本实施例中,可以获取用于检测人体关键点的数据集,作为原始数据集,该原始数据集包括:样本图像,以及预先标注的样本图像中人物对象的人体关键点的真实2D坐标(x,y)和类型。然后基于原始数据集,对样本图像的标签数据进行重新标注,得到本申请实施例所需的训练集。
首先,原始数据集中样本图像中人物对象的人体关键点的真实2D坐标(x,y)是样本图像中人体关键点的像素坐标。本实施例中z轴表示以某个人体关键点为z轴0点,各人体关键点相对于z轴0点的深度距离。该深度距离的单位可以是米等。其中,作为z轴0点的人体关键点可以根据实际应用场景预先指定,例如可以是位于人体中间部位的盆骨关键点等,指定后在模型训练和模型应用过程中将不在发生变化。
根据样本图像的深度信息,根据作为z轴0点的人体关键点的深度信息,确定其他人体关键点相对于作为z轴0点的人体关键点的深度距离,作为人体关键点的z轴坐标,得到样本图像中人物对象的人体关键点的真实3D坐标(x,y,z)。
然后,对原始数据集中的样本图像中人物对象的人体关键点的真实3D坐标进行数据增强,确定人体关键点的3D坐标的样本值;并确定前面数据增强的过程导致的3D坐标的3D位置偏移量。根据人体关键点的3D坐标的样本值,预先标注的人体关键点的类型,以及人体关键点的3D坐标的样本值相对于真实3D坐标的3D位置偏移量,生成样本图像的标签数据,样本图像及其标签数据构成一条训练数据。这样,可以得到能够应用于本申请实施例的训练集,神经网络的训练提供丰富的训练数据,提高训练集中样本的多样性。
例如,样本图像A中人体关键点B的真实3D坐标为(x1,y1,z1),对样本图像A的真实3D坐标进行数据增大,获得人体关键点B对应的3D坐标的样本值(x2,y2,z2),是将A中的关键点B坐标增加了误差,可以确定对应的3D位置偏移量为(x2-x1,y2-x1,z2-z1)。
示例性地,对人体关键点的真实3D坐标进行以下至少一种数据增强处理:将人体关键点中对称的人体关键点的真实3D坐标进行交换;按照预设规则,对人体关键点的真实3D坐标增加误差值;将第一人物对象的人体关键点的真实3D坐标作为第二人物对象的对应人体关键点的3D坐标的样本值,其中,第一人物对象和第二人物对象为同一样本图片中的人物对象。
其中,人体关键点中对称的人体关键点,可以是在人体中左右对称的位置的人体关键点,例如左手腕和右手腕的人体关键点等。
通过按照预设规则对人体关键点的真实3D坐标增加误差值,可以对样本图像中人物对象的每个人体关键点的坐标值增加一些误差,来模拟预测误差。其中,增加误差的预设规则可以根据实际应用场景需要进行设置,例如,所有人体关键点随机增加误差;或者,不同类型的人体关键点可以设定不同的误差范围,在误差范围内随机增加误差值,等。
第一人物和第二人物可以是样本图像中邻近的两个人物对象,将第一人物对象的人体关键点的真实3D坐标作为第二人物对象的对应人体关键点的3D坐标的样本值,可以将人物的某些人体关键点坐标移位到邻近的其他人物对象的对应的人体关键点上,模拟预测中人体关键点错位的情况。
另外,对于不同的人体关键点的坐标,采用的数据增强处理的组合可以不同,以提高得到的训练集中样本数据的多样性。
一种可选的实施方式中,获取样本图像,以及预先标注的样本图像的真实3D坐标和类型之后,还包括:将样本图像中人物对象的人体关键点的3D位置偏移量置为0;根据预先标注的样本图像中人物对象的人体关键点的真实3D坐标和类型,以及置为0的3D位置偏移量,生成样本图像的标签数据,样本图像及其标签数据构成一条训练数据。这样,通过将样本图像中人体关键点的3D位置偏移量置为0,生成对应的训练数据,作为训练集的一部分,能够增加训练集中样本数据的多样性。
在获取到训练集之后,通过循环执行如下步骤S402-S405,对神经网络进行训练,训练好的神经网络作为最终的人体关键点的检测模型:
步骤S402、将训练集中的样本图像输入神经网络,确定样本图像中人物对象的人体关键点的3D热力分布图和3D位置偏移量的预测值。
本实施例中,该步骤具体可以采用如下方式实现:提取样本图像中的人体关键点特征,得到第一人体关键点特征图和预设分辨率的中间结果特征图;增大第一人体关键点特征图的分辨率,得到指定分辨率的第二人体关键点特征图;对第二人体关键点特征图进行变换处理,得到3D热力分布图;通过比对中间结果特征图和第二人体关键点特征图,确定人体关键点的3D位置偏移量的预测值。
进一步地,增大第一人体关键点特征图的分辨率,得到指定分辨率的第二人体关键点特征图,包括:将第一人体关键点特征图经过至少一个反卷积层,增大第一人体关键点特征图的分辨率,得到第三人体关键点特征图;经过一个1x1的卷积层对第三人体关键点特征图中的人体关键点特征进行特征提取,得到第二人体关键点特征图。
进一步地,通过比对中间结果特征图和第二人体关键点特征图,确定人体关键点的3D位置偏移量的预测值,包括:将中间结果特征图和第二人体关键点特征图连接后输入卷积层,通过卷积层比对中间结果特征图和第二人体关键点特征图,确定人体关键点的3D位置偏移量的预测值。
该步骤中,将样本图像输入神经网络确定样本图像中人物对象的人体关键点的3D热力分布图和3D位置偏移量的预测值的具体实现方式,与上述第二实施例中,通过步骤S201-S204,将待检测图像输入检测模型,确定待检测图像中目标人物的人体关键点的3D热力分布图和3D位置偏移量的具体实现方式一致,此处不再赘述。
步骤S403、根据人体关键点的3D热力分布图确定人体关键点的3D坐标的预测值。
该步骤可以采用上述步骤S205类似的方式实现,此处不再赘述。
步骤S404、根据样本图像的标签数据,以及人体关键点的3D坐标的预测值和3D位置偏移量的预测值,计算神经网络的损失值。
在确定样本图像中人物对象的人体关键点的3D坐标的预测值和3D位置偏移量的预测值之后,根据样本图像的标签数据中标注的该样本图像中人物对象的人体关键点的3D坐标和3D位置偏移量,继续3D坐标和3D位置偏移量的综合损失值,得到神经网络的损失值。
本实施例中,该步骤具体可以采用如下方式实现:
根据样本图像的标签数据,以及样本图像中人物对象的人体关键点的3D坐标的预测值和3D位置偏移量的预测值,分别计算3D坐标损失和3D位置偏移量损失;根据3D坐标损失和3D位置偏移量损失,确定神经网络的损失值。
可选地,计算3D坐标损失,可以通过计算样本图像中人物对象的人体关键点的3D坐标的预测值与标签数据中的真实3D坐标的L1损失值得到。
示例性地,计算3D坐标损失可以通过以下公式二得到:
Losscoord=||Coordpred-Coordgt||1 公式二
其中,Coordpred表示人体关键点的3D坐标的预测值,Coordgt表示标签数据中人体关键点的3D坐标,也即人体关键点的3D坐标的真实值,Losscoord表示3D坐标的预测值与真实值之间的L1损失值,也即3D坐标损失。
可选地,计算3D位置偏移量损失,可以通过计算样本图像中人物对象的人体关键点的3D位置偏移量的预测值与标签数据中的3D位置偏移量的L2损失值得到。
示例性地,计算3D位置偏移量损失可以通过以下公式三得到:
LossΔ=||Opred-Ogt||2 公式三
其中,Opred表示人体关键点的3D位置偏移量的预测值,Ogt表示标签数据中人体关键点的3D位置偏移量,也即人体关键点的3D位置偏移量的真实值,LossΔ表示3D位置偏移量的预测值与真实值之间的L2损失值,也即3D位置偏移量损失。
进一步地,根据3D坐标损失和3D位置偏移量损失,确定神经网络的损失值Loss,可以根据以下公式四确定:
Loss=Losscoord+LossΔ 公式四
其中,Loss表示神经网络的损失值,Losscoord表示3D坐标损失,LossΔ表示3D位置偏移量损失。
步骤S405、根据神经网络的损失值,更新神经网络的参数。
在计算得到当前神经网络的损失值之后,神经网络的损失值,更新神经网络的参数。
在更新神经网络的参数之后,通过测试集测试神经网络是否收敛;如果神经网络收敛,则训练结束,执行步骤S406,将训练好的神经网络作为人体关键点检测模型。如果神经网络不收敛,则继续对神经网络进行训练,直至神经网络收敛。
步骤S406、将训练好的神经网络作为人体关键点的检测模型。
本实施例训练得到的人体关键点的检测模型。在应用于具体的应用场景时,该人体关键点检测模型用于确定待检测图像中目标人物的人体关键点的3D坐标。根据确定的目标人物的人体关键点的3D坐标,能够识别目标人物的姿势或动作,并根据目标人物的姿势或动作进行相应的处理,从而实现对应应用场景的具体功能。
步骤S407、利用检测模型,确定待检测图像中目标人物的人体关键点的3D坐标。
该步骤的具体可以采用与上述第二实施例中步骤S201-S206相同的方式实现,此处不再赘述。
步骤S408、根据目标人物的人体关键点的3D坐标,识别目标人物的姿势或动作,并根据目标人物的姿势或动作进行相应的处理。
在检测出人体关键点的3D坐标之后,根据人体关键点最终的3D坐标,可以识别目标人物的姿势或动作。
在不同的应用场景中,目标人物的姿势或动作对应的交互信息不同。结合具体应用场景,确定目标人物的姿势或动作对应的交互信息,并基于目标人物的姿势或动作对应的交互信息做出相应的处理,针对目标人物的姿势或动作做出响应。
本申请实施例基于原始数据集,根据样本图像的深度信息确定样本图像中人物对象的人体关键点的真实3D坐标;并通过对样本图像中人物对象的人体关键点的真实3D坐标进行数据增强处理,确定人体关键点的3D坐标的样本值;并确定前面数据增强的过程导致的3D坐标的3D位置偏移量,得到样本图像的新的标签数据,样本图像及其新的标签数据构成一条训练数据,可以得到能够应用于本申请实施例的训练集,神经网络的训练提供丰富的训练数据,提高训练集中样本的多样性;在训练过程中,通过综合计算人体关键点的3D坐标和3D位置偏移量的损失值来监督模型训练,能够提高训练得到的检测模型对人体关键点的3D坐标的检测精度,从而提高图像中目标人物的姿势或动作的识别准确度。
图8是本申请第五实施例提供的图像处理装置示意图。本申请实施例提供的图像处理装置可以执行图像处理方法实施例提供的处理流程。如图8所示,该图像处理装置50包括:检测模型模块501,3D坐标预测模块502,3D坐标修正模块503和识别应用模块504。
具体地,检测模型模块501,用于响应于对待检测图像中目标人物的人体关键点的检测指令,将待检测图像输入检测模型,确定人体关键点的3D热力分布图和3D位置偏移量,检测模型为根据训练集对神经网络训练得到的。
3D坐标预测模块502,用于根据3D热力分布图确定人体关键点的预测3D坐标。
3D坐标修正模块503,用于根据3D位置偏移量,对人体关键点的预测3D坐标进行修正,得到人体关键点最终的3D坐标。
识别应用模块504,用于根据人体关键点最终的3D坐标,识别目标人物的姿势或动作,并根据目标人物的姿势或动作进行相应的处理。
本申请实施例提供的装置可以具体用于执行上述第一实施例提供的方法实施例,具体功能此处不再赘述。
本申请实施例通过检测模型根据输入的待检测图像,确定待检测图像中目标人物的人体关键点的3D热力分布图和3D位置偏移量,基于人体关键点的3D热力分布图确定人体关键点的预测3D坐标,然后根据人体关键点的3D位置偏移量对预测3D坐标进行修正,能够得到精准地人体关键点3D坐标,实现人体关键点的精准检测,基于精准的人体关键点的3D坐标,能够精准地识别出目标人物的姿势或动作,并根据目标人物的姿势或动作进行相应的处理,提高了目标人物姿势或动作的识别精准度,能够准确识别出目标人物的意图,提高与目标人物的交互效果。
在上述第五实施例的基础上,本申请第六实施例中,3D热力分布图为人体关键点位于三维空间中各个位置点的概率分布。
3D坐标预测模块还用于:利用softargmax方法确定概率分布的极大值,以及极大值对应的位置点的3D坐标;将极大值对应的位置点的3D坐标确定为人体关键点的3D坐标。
一种可选的实施方式中,检测模型模块还用于:提取待检测图像中人体关键点特征,得到第一人体关键点特征图和预设分辨率的中间结果特征图;增大第一人体关键点特征图的分辨率,得到指定分辨率的第二人体关键点特征图;对第二人体关键点特征图进行变换处理,得到3D热力分布图;通过比对中间结果特征图和第二人体关键点特征图,确定人体关键点的3D位置偏移量。
一种可选的实施方式中,检测模型模块还用于:将第一人体关键点特征图经过至少一个反卷积层,增大第一人体关键点特征图的分辨率,得到第三人体关键点特征图;经过一个1x1的卷积层对第三人体关键点特征图中的人体关键点特征进行特征提取,得到第二人体关键点特征图。
一种可选的实施方式中,检测模型模块还用于:将中间结果特征图和第二人体关键点特征图连接后输入卷积层,通过卷积层比对中间结果特征图和第二人体关键点特征图,确定人体关键点的3D位置偏移量。
本申请实施例提供的装置可以具体用于执行上述第二实施例提供的方法实施例,具体功能此处不再赘述。
本申请实施例中,通过提取待检测图像中人体关键点特征,得到第一人体关键点特征图和预设分辨率的中间结果特征图;增大第一人体关键点特征图的分辨率,得到指定分辨率的第二人体关键点特征图;对第二人体关键点特征图进行变换处理,得到3D热力分布图;根据3D热力分布图确定人体关键点的预测3D坐标;通过比对中间结果特征图和第二人体关键点特征图,确定人体关键点的3D位置偏移量,能够准确地确定人体关键点的预测3D坐标和3D位置偏移量;进一步地,人体关键点的3D热力分布图为人体关键点位于三维空间中各个位置点的概率分布,利用softargmax方法确定概率分布的极大值,以及极大值对应的位置点的3D坐标;将极大值对应的位置点的3D坐标确定为人体关键点的3D坐标,提高预测3D坐标的准确性,提高了人体关键点3D坐标的精准度,基于精准地人体关键点的3D坐标,能够精准地识别出目标人物的姿势或动作,并根据目标人物的姿势或动作进行相应的处理,提高了目标人物姿势或动作的识别精准度,能够准确识别出目标人物的意图,提高与目标人物的交互效果。
图9是本申请第七实施例提供的图像处理装置示意图。本申请实施例提供的图像处理装置可以执行图像处理方法实施例提供的处理流程。如图9所示,该图像处理装置60包括:神经网络模块601,3D坐标确定模块602,损失确定模块603和参数更新模块604。
具体地,神经网络模块601,用于将训练集中的样本图像输入神经网络,确定样本图像中人物对象的人体关键点的3D热力分布图和3D位置偏移量的预测值。
3D坐标确定模块602,用于根据人体关键点的3D热力分布图确定人体关键点的3D坐标的预测值。
损失确定模块603,用于根据样本图像的标签数据,以及人体关键点的3D坐标的预测值和3D位置偏移量的预测值,计算神经网络的损失值。
参数更新模块604,用于根据神经网络的损失值,更新神经网络的参数。
本申请实施例提供的装置可以具体用于执行上述第三实施例提供的方法实施例,具体功能此处不再赘述。
本申请实施例通过利于预先获取到训练集对人体关键点的检测模型进行训练,训练得到的检测模型能够准确地检测出输入图像中人物对象的人体关键点的预测3D坐标和3D位置偏移量,从而能够确定精准的人体关键点的3D坐标。
图10是本申请第八实施例提供的图像处理装置示意图。在上述第七实施例的基础上,本实施例中,如图10所示,该图像处理装置60还包括:模型应用模块605。模型应用模块605用于:将训练好的神经网络作为人体关键点的检测模型,利用检测模型,确定待检测图像中目标人物的人体关键点的3D坐标;根据目标人物的人体关键点的3D坐标,识别目标人物的姿势或动作,并根据目标人物的姿势或动作进行相应的处理。
一种可选的实施方式中,如图10所示,该图像处理装置60还包括:训练集处理模块606。训练集处理模块606用于:获取训练集,训练集包括多条训练数据,每条训练数据包括样本图像及样本图像的标签数据,样本图像的标签数据包括:样本图像中人物对象的人体关键点的3D坐标和3D位置偏移量。
一种可选的实施方式中,训练集处理模块还用于:获取样本图像,以及预先标注的样本图像中人物对象的人体关键点的真实3D坐标和类型;对人体关键点的真实3D坐标进行数据增强,确定人体关键点的3D坐标的样本值;计算人体关键点的3D坐标的样本值相对于真实3D坐标的3D位置偏移量;根据人体关键点的3D坐标的样本值,预先标注的人体关键点的类型,以及人体关键点的3D坐标的样本值相对于真实3D坐标的3D位置偏移量,生成样本图像的标签数据,样本图像及其标签数据构成一条训练数据。
一种可选的实施方式中,训练集处理模块还用于:对人体关键点的真实3D坐标进行以下至少一种数据增强处理:将人体关键点中对称的人体关键点的真实3D坐标进行交换;按照预设规则,对人体关键点的真实3D坐标增加误差值;将第一人物对象的人体关键点的真实3D坐标作为第二人物对象的对应人体关键点的3D坐标的样本值,其中,第一人物对象和第二人物对象为同一样本图片中的人物对象。
一种可选的实施方式中,训练集处理模块还用于:获取样本图像,以及预先标注的样本图像中人物对象的人体关键点的真实3D坐标和类型之后,将样本图像中人物对象的人体关键点的3D位置偏移量置为0;根据预先标注的样本图像中人物对象的人体关键点的真实3D坐标和类型,以及置为0的3D位置偏移量,生成样本图像的标签数据,样本图像及其标签数据构成一条训练数据。
一种可选的实施方式中,损失确定模块还用于:根据样本图像的标签数据,以及人体关键点的3D坐标的预测值和3D位置偏移量的预测值,分别计算3D坐标损失和3D位置偏移量损失;根据3D坐标损失和3D位置偏移量损失,确定神经网络的损失值。
一种可选的实施方式中,神经网络模块还用于:提取样本图像中的人体关键点特征,得到第一人体关键点特征图和预设分辨率的中间结果特征图;增大第一人体关键点特征图的分辨率,得到指定分辨率的第二人体关键点特征图;对第二人体关键点特征图进行变换处理,得到3D热力分布图;通过比对中间结果特征图和第二人体关键点特征图,确定人体关键点的3D位置偏移量的预测值。
一种可选的实施方式中,神经网络模块还用于:将第一人体关键点特征图经过至少一个反卷积层,增大第一人体关键点特征图的分辨率,得到第三人体关键点特征图;经过一个1x1的卷积层对第三人体关键点特征图中的人体关键点特征进行特征提取,得到第二人体关键点特征图。
一种可选的实施方式中,神经网络模块还用于:将中间结果特征图和第二人体关键点特征图连接后输入卷积层,通过卷积层比对中间结果特征图和第二人体关键点特征图,确定人体关键点的3D位置偏移量的预测值。
本申请实施例提供的装置可以具体用于执行上述第四实施例提供的方法实施例,具体功能此处不再赘述。
本申请实施例基于原始数据集,根据样本图像的深度信息确定样本图像中人物对象的人体关键点的真实3D坐标;并通过对样本图像中人物对象的人体关键点的真实3D坐标进行数据增强处理,确定人体关键点的3D坐标的样本值;并确定前面数据增强的过程导致的3D坐标的3D位置偏移量,得到样本图像的新的标签数据,样本图像及其新的标签数据构成一条训练数据,可以得到能够应用于本申请实施例的训练集,神经网络的训练提供丰富的训练数据,提高训练集中样本的多样性;在训练过程中,通过综合计算人体关键点的3D坐标和3D位置偏移量的损失值来监督模型训练,能够提高训练得到的检测模型对人体关键点的3D坐标的检测精度,从而提高图像中目标人物的姿势或动作的识别准确度。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
根据本申请的实施例,本申请还提供了一种计算机程序产品,程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
如图11所示,是根据本申请实施例的图像处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图11所示,该电子设备包括:一个或多个处理器Y01、存储器Y02,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图11中以一个处理器Y01为例。
存储器Y02即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的图像处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的图像处理方法。
存储器Y02作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的图像处理方法对应的程序指令/模块(例如,附图8所示的检测模型模块501,3D坐标预测模块502,3D坐标修正模块503和识别应用模块504)。处理器Y01通过运行存储在存储器Y02中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的图像处理方法。
存储器Y02可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据图像处理电子设备的使用所创建的数据等。此外,存储器Y02可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器Y02可选包括相对于处理器Y01远程设置的存储器,这些远程存储器可以通过网络连接至图像处理电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
图像处理方法的电子设备还可以包括:输入装置Y03和输出装置Y04。处理器Y01、存储器Y02、输入装置Y03和输出装置Y04可以通过总线或者其他方式连接,图11中以通过总线连接为例。
输入装置Y03可接收输入的数字或字符信息,以及产生与图像处理电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置Y04可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算机程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算机程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (29)
1.一种图像处理方法,包括:
响应于对待检测图像中目标人物的人体关键点的检测指令,将所述待检测图像输入检测模型,确定所述人体关键点的3D热力分布图和3D位置偏移量,所述检测模型为根据训练集对神经网络训练得到的;
根据所述3D热力分布图确定所述人体关键点的预测3D坐标;
根据所述3D位置偏移量,对所述人体关键点的预测3D坐标进行修正,得到所述人体关键点最终的3D坐标;
根据所述人体关键点最终的3D坐标,识别所述目标人物的姿势或动作,并根据所述目标人物的姿势或动作进行相应的处理;
其中,所述将所述待检测图像输入检测模型,确定所述人体关键点的3D热力分布图和3D位置偏移量,包括:
提取所述待检测图像中人体关键点特征,得到第一人体关键点特征图和预设分辨率的中间结果特征图;
增大所述第一人体关键点特征图的分辨率,得到指定分辨率的第二人体关键点特征图,其中,所述预设分辨率高于所述指定分辨率;
对所述第二人体关键点特征图进行变换处理,得到所述3D热力分布图;
通过比对所述中间结果特征图和所述第二人体关键点特征图,确定所述人体关键点的3D位置偏移量。
2.根据权利要求1所述的方法,其中,所述3D热力分布图为所述人体关键点位于三维空间中各个位置点的概率分布,
所述根据所述3D热力分布图确定所述人体关键点的预测3D坐标,包括:
利用softargmax方法确定所述概率分布的极大值,以及所述极大值对应的位置点的3D坐标;
将所述极大值对应的位置点的3D坐标确定为所述人体关键点的3D坐标。
3.根据权利要求1所述的方法,其中,所述增大所述第一人体关键点特征图的分辨率,得到指定分辨率的第二人体关键点特征图,包括:
将所述第一人体关键点特征图经过至少一个反卷积层,增大所述第一人体关键点特征图的分辨率,得到第三人体关键点特征图;
经过一个1x1的卷积层对所述第三人体关键点特征图中的人体关键点特征进行特征提取,得到所述第二人体关键点特征图。
4.根据权利要求1所述的方法,其中,所述通过比对所述中间结果特征图和所述第二人体关键点特征图,确定所述人体关键点的3D位置偏移量,包括:
将所述中间结果特征图和所述第二人体关键点特征图连接后输入卷积层,通过所述卷积层比对所述中间结果特征图和所述第二人体关键点特征图,确定所述人体关键点的3D位置偏移量。
5.一种图像处理方法,包括:
将训练集中的样本图像输入神经网络,确定所述样本图像中人物对象的人体关键点的3D热力分布图和3D位置偏移量的预测值;
根据所述人体关键点的3D热力分布图确定所述人体关键点的3D坐标的预测值;
根据所述样本图像的标签数据,以及所述人体关键点的3D坐标的预测值和3D位置偏移量的预测值,计算所述神经网络的损失值;
根据所述神经网络的损失值,更新所述神经网络的参数;
其中,所述将训练集中的样本图像输入神经网络,确定所述样本图像中人物对象的人体关键点的3D热力分布图和3D位置偏移量的预测值,包括:
提取所述样本图像中的人体关键点特征,得到第一人体关键点特征图和预设分辨率的中间结果特征图;
增大所述第一人体关键点特征图的分辨率,得到指定分辨率的第二人体关键点特征图,其中,所述预设分辨率高于所述指定分辨率;
对所述第二人体关键点特征图进行变换处理,得到所述3D热力分布图;
通过比对所述中间结果特征图和所述第二人体关键点特征图,确定所述人体关键点的3D位置偏移量。
6.根据权利要求5所述的方法,其中,所述根据所述神经网络的损失值,更新所述神经网络的参数之后,还包括:
将训练好的神经网络作为人体关键点的检测模型,利用所述检测模型,确定待检测图像中目标人物的人体关键点的3D坐标;
根据所述目标人物的人体关键点的3D坐标,识别所述目标人物的姿势或动作,并根据所述目标人物的姿势或动作进行相应的处理。
7.根据权利要求5所述的方法,其中,所述将训练集中的样本图像输入神经网络,确定所述样本图像中人物对象的人体关键点的3D热力分布图和3D位置偏移量的预测值之前,还包括:
获取所述训练集,所述训练集包括多条训练数据,每条训练数据包括样本图像及所述样本图像的标签数据,所述样本图像的标签数据包括:所述样本图像中人物对象的人体关键点的3D坐标和3D位置偏移量。
8.根据权利要求7所述的方法,其中,所述获取所述训练集,包括:
获取样本图像,以及预先标注的所述样本图像中人物对象的人体关键点的真实3D坐标和类型;
对所述人体关键点的真实3D坐标进行数据增强,确定所述人体关键点的3D坐标的样本值;
计算所述人体关键点的3D坐标的样本值相对于所述真实3D坐标的3D位置偏移量;
根据所述人体关键点的3D坐标的样本值,预先标注的所述人体关键点的类型,以及所述人体关键点的3D坐标的样本值相对于所述真实3D坐标的3D位置偏移量,生成所述样本图像的标签数据,所述样本图像及其标签数据构成一条训练数据。
9.根据权利要求8所述的方法,其中,对所述人体关键点的真实3D坐标进行以下至少一种数据增强处理:
将所述人体关键点中对称的人体关键点的真实3D坐标进行交换;
按照预设规则,对所述人体关键点的真实3D坐标增加误差值;
将第一人物对象的人体关键点的真实3D坐标作为第二人物对象的对应人体关键点的3D坐标的样本值,其中,所述第一人物对象和第二人物对象为同一所述样本图片中的人物对象。
10.根据权利要求8所述的方法,其中,所述获取样本图像,以及预先标注的所述样本图像中人物对象的人体关键点的真实3D坐标和类型之后,还包括:
将所述样本图像中人物对象的人体关键点的3D位置偏移量置为0;
根据所述预先标注的所述样本图像中人物对象的人体关键点的真实3D坐标和类型,以及置为0的3D位置偏移量,生成所述样本图像的标签数据,所述样本图像及其标签数据构成一条训练数据。
11.根据权利要求5-10中任一项所述的方法,其中,所述根据所述样本图像的标签数据,以及所述人体关键点的3D坐标的预测值和3D位置偏移量的预测值,计算所述神经网络的损失值,包括:
根据所述样本图像的标签数据,以及所述人体关键点的3D坐标的预测值和3D位置偏移量的预测值,分别计算3D坐标损失和3D位置偏移量损失;
根据3D坐标损失和3D位置偏移量损失,确定所述神经网络的损失值。
12.根据权利要求5所述的方法,其中,所述增大所述第一人体关键点特征图的分辨率,得到指定分辨率的第二人体关键点特征图,包括:
将所述第一人体关键点特征图经过至少一个反卷积层,增大所述第一人体关键点特征图的分辨率,得到第三人体关键点特征图;
经过一个1x1的卷积层对所述第三人体关键点特征图中的人体关键点特征进行特征提取,得到所述第二人体关键点特征图。
13.根据权利要求5所述的方法,其中,所述通过比对所述中间结果特征图和所述第二人体关键点特征图,确定所述人体关键点的3D位置偏移量的预测值,包括:
将所述中间结果特征图和所述第二人体关键点特征图连接后输入卷积层,通过所述卷积层比对所述中间结果特征图和所述第二人体关键点特征图,确定所述人体关键点的3D位置偏移量的预测值。
14.一种图像处理装置,包括:
检测模型模块,用于响应于对待检测图像中目标人物的人体关键点的检测指令,将所述待检测图像输入检测模型,确定所述人体关键点的3D热力分布图和3D位置偏移量,所述检测模型为根据训练集对神经网络训练得到的;
3D坐标预测模块,用于根据所述3D热力分布图确定所述人体关键点的预测3D坐标;
3D坐标修正模块,用于根据所述3D位置偏移量,对所述人体关键点的预测3D坐标进行修正,得到所述人体关键点最终的3D坐标;
识别应用模块,用于根据所述人体关键点最终的3D坐标,识别所述目标人物的姿势或动作,并根据所述目标人物的姿势或动作进行相应的处理;
其中,所述检测模型模块还用于:提取所述待检测图像中人体关键点特征,得到第一人体关键点特征图和预设分辨率的中间结果特征图;
增大所述第一人体关键点特征图的分辨率,得到指定分辨率的第二人体关键点特征图,其中,所述预设分辨率高于所述指定分辨率;
对所述第二人体关键点特征图进行变换处理,得到所述3D热力分布图;
通过比对所述中间结果特征图和所述第二人体关键点特征图,确定所述人体关键点的3D位置偏移量。
15.根据权利要求14所述的装置,其中,所述3D热力分布图为所述人体关键点位于三维空间中各个位置点的概率分布,
所述3D坐标预测模块还用于:
利用softargmax方法确定所述概率分布的极大值,以及所述极大值对应的位置点的3D坐标;
将所述极大值对应的位置点的3D坐标确定为所述人体关键点的3D坐标。
16.根据权利要求14所述的装置,其中,所述检测模型模块还用于:
将所述第一人体关键点特征图经过至少一个反卷积层,增大所述第一人体关键点特征图的分辨率,得到第三人体关键点特征图;
经过一个1x1的卷积层对所述第三人体关键点特征图中的人体关键点特征进行特征提取,得到所述第二人体关键点特征图。
17.根据权利要求14所述的装置,其中,所述检测模型模块还用于:
将所述中间结果特征图和所述第二人体关键点特征图连接后输入卷积层,通过所述卷积层比对所述中间结果特征图和所述第二人体关键点特征图,确定所述人体关键点的3D位置偏移量。
18.一种图像处理装置,包括:
神经网络模块,用于将训练集中的样本图像输入所述神经网络,确定所述样本图像中人物对象的人体关键点的3D热力分布图和3D位置偏移量的预测值;
3D坐标确定模块,用于根据所述人体关键点的3D热力分布图确定所述人体关键点的3D坐标的预测值;
损失确定模块,用于根据所述样本图像的标签数据,以及所述人体关键点的3D坐标的预测值和3D位置偏移量的预测值,计算所述神经网络的损失值;
参数更新模块,用于根据所述神经网络的损失值,更新所述神经网络的参数;
其中,所述神经网络模块还用于提取所述样本图像中的人体关键点特征,得到第一人体关键点特征图和预设分辨率的中间结果特征图;
增大所述第一人体关键点特征图的分辨率,得到指定分辨率的第二人体关键点特征图,其中,所述预设分辨率高于所述指定分辨率;
对所述第二人体关键点特征图进行变换处理,得到所述3D热力分布图;
通过比对所述中间结果特征图和所述第二人体关键点特征图,确定所述人体关键点的3D位置偏移量。
19.根据权利要求18所述的装置,还包括:模型应用模块,所述模型应用模块用于:
将训练好的神经网络作为人体关键点的检测模型,利用所述检测模型,确定待检测图像中目标人物的人体关键点的3D坐标;
根据所述目标人物的人体关键点的3D坐标,识别所述目标人物的姿势或动作,并根据所述目标人物的姿势或动作进行相应的处理。
20.根据权利要求18所述的装置,还包括:训练集处理模块,用于:
获取所述训练集,所述训练集包括多条训练数据,每条训练数据包括样本图像及所述样本图像的标签数据,所述样本图像的标签数据包括:所述样本图像中人物对象的人体关键点的3D坐标和3D位置偏移量。
21.根据权利要求20所述的装置,其中,所述训练集处理模块还用于:
获取样本图像,以及预先标注的所述样本图像中人物对象的人体关键点的真实3D坐标和类型;
对所述人体关键点的真实3D坐标进行数据增强,确定所述人体关键点的3D坐标的样本值;
计算所述人体关键点的3D坐标的样本值相对于所述真实3D坐标的3D位置偏移量;
根据所述人体关键点的3D坐标的样本值,预先标注的所述人体关键点的类型,以及所述人体关键点的3D坐标的样本值相对于所述真实3D坐标的3D位置偏移量,生成所述样本图像的标签数据,所述样本图像及其标签数据构成一条训练数据。
22.根据权利要求21所述的装置,其中,所述训练集处理模块还用于:
对所述人体关键点的真实3D坐标进行以下至少一种数据增强处理:
将所述人体关键点中对称的人体关键点的真实3D坐标进行交换;
按照预设规则,对所述人体关键点的真实3D坐标增加误差值;
将第一人物对象的人体关键点的真实3D坐标作为第二人物对象的对应人体关键点的3D坐标的样本值,其中,所述第一人物对象和第二人物对象为同一所述样本图片中的人物对象。
23.根据权利要求21所述的装置,其中,所述训练集处理模块还用于:
获取样本图像,以及预先标注的所述样本图像中人物对象的人体关键点的真实3D坐标和类型之后,将所述样本图像中人物对象的人体关键点的3D位置偏移量置为0;
根据所述预先标注的所述样本图像中人物对象的人体关键点的真实3D坐标和类型,以及置为0的3D位置偏移量,生成所述样本图像的标签数据,所述样本图像及其标签数据构成一条训练数据。
24.根据权利要求18-19中任一项所述的装置,其中,所述损失确定模块还用于:
根据所述样本图像的标签数据,以及所述人体关键点的3D坐标的预测值和3D位置偏移量的预测值,分别计算3D坐标损失和3D位置偏移量损失;
根据3D坐标损失和3D位置偏移量损失,确定所述神经网络的损失值。
25.根据权利要求18所述的装置,其中,所述神经网络模块还用于:
将所述第一人体关键点特征图经过至少一个反卷积层,增大所述第一人体关键点特征图的分辨率,得到第三人体关键点特征图;
经过一个1x1的卷积层对所述第三人体关键点特征图中的人体关键点特征进行特征提取,得到所述第二人体关键点特征图。
26.根据权利要求18所述的装置,其中,所述神经网络模块还用于:
将所述中间结果特征图和所述第二人体关键点特征图连接后输入卷积层,通过所述卷积层比对所述中间结果特征图和所述第二人体关键点特征图,确定所述人体关键点的3D位置偏移量的预测值。
27.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4或者5-13中任一项所述的方法。
28.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-4或者5-13中任一项所述的方法。
29.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-4或者5-13中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011363609.7A CN112330730B (zh) | 2020-11-27 | 2020-11-27 | 图像处理方法、装置、设备及存储介质 |
US17/514,125 US20220051004A1 (en) | 2020-11-27 | 2021-10-29 | Image processing method, apparatus, device and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011363609.7A CN112330730B (zh) | 2020-11-27 | 2020-11-27 | 图像处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112330730A CN112330730A (zh) | 2021-02-05 |
CN112330730B true CN112330730B (zh) | 2024-02-20 |
Family
ID=74307913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011363609.7A Active CN112330730B (zh) | 2020-11-27 | 2020-11-27 | 图像处理方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220051004A1 (zh) |
CN (1) | CN112330730B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113327320A (zh) * | 2021-06-30 | 2021-08-31 | 北京字跳网络技术有限公司 | 三维模型重建方法、装置、设备及计算机可读存储介质 |
CN114898457B (zh) * | 2022-04-11 | 2024-06-28 | 厦门瑞为信息技术有限公司 | 一种基于手部关键点和transformer的动态手势识别方法和系统 |
CN115578433B (zh) * | 2022-09-30 | 2023-09-01 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN115578451B (zh) * | 2022-09-30 | 2024-01-23 | 北京百度网讯科技有限公司 | 图像处理方法、图像处理模型的训练方法和装置 |
CN115830196B (zh) * | 2022-12-09 | 2024-04-05 | 支付宝(杭州)信息技术有限公司 | 虚拟形象处理方法及装置 |
CN115953706B (zh) * | 2023-01-09 | 2024-04-26 | 支付宝(杭州)信息技术有限公司 | 虚拟形象处理方法及装置 |
CN117609748A (zh) * | 2024-01-17 | 2024-02-27 | 沈阳知友网络科技有限公司 | 一种医学图像关键点检测模型推理效果评估的系统及方法 |
CN117893696B (zh) * | 2024-03-15 | 2024-05-28 | 之江实验室 | 一种三维人体数据生成方法、装置、存储介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299685A (zh) * | 2018-09-14 | 2019-02-01 | 北京航空航天大学青岛研究院 | 用于人体关节3d坐标估计的推断网络及其方法 |
CN109961472A (zh) * | 2017-12-25 | 2019-07-02 | 北京京东尚科信息技术有限公司 | 3d热力图生成的方法、系统、存储介质及电子设备 |
CN111523468A (zh) * | 2020-04-23 | 2020-08-11 | 北京百度网讯科技有限公司 | 人体关键点识别方法和装置 |
CN111832612A (zh) * | 2020-06-03 | 2020-10-27 | 北京百度网讯科技有限公司 | 动物识别模型的训练方法、装置、设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4946730B2 (ja) * | 2007-08-27 | 2012-06-06 | ソニー株式会社 | 顔画像処理装置及び顔画像処理方法、並びにコンピュータ・プログラム |
CN102385695A (zh) * | 2010-09-01 | 2012-03-21 | 索尼公司 | 人体三维姿势识别方法和装置 |
US11055989B2 (en) * | 2017-08-31 | 2021-07-06 | Nec Corporation | Viewpoint invariant object recognition by synthesization and domain adaptation |
US10796403B2 (en) * | 2017-09-14 | 2020-10-06 | The Regents Of The University Of Colorado, A Body Corporate | Thermal-depth fusion imaging |
WO2019226051A1 (en) * | 2018-05-25 | 2019-11-28 | Kepler Vision Technologies B.V. | Monitoring and analyzing body language with machine learning, using artificial intelligence systems for improving interaction between humans, and humans and robots |
CN112686084B (zh) * | 2019-10-18 | 2024-09-24 | 宏达国际电子股份有限公司 | 图像标注系统 |
-
2020
- 2020-11-27 CN CN202011363609.7A patent/CN112330730B/zh active Active
-
2021
- 2021-10-29 US US17/514,125 patent/US20220051004A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961472A (zh) * | 2017-12-25 | 2019-07-02 | 北京京东尚科信息技术有限公司 | 3d热力图生成的方法、系统、存储介质及电子设备 |
CN109299685A (zh) * | 2018-09-14 | 2019-02-01 | 北京航空航天大学青岛研究院 | 用于人体关节3d坐标估计的推断网络及其方法 |
CN111523468A (zh) * | 2020-04-23 | 2020-08-11 | 北京百度网讯科技有限公司 | 人体关键点识别方法和装置 |
CN111832612A (zh) * | 2020-06-03 | 2020-10-27 | 北京百度网讯科技有限公司 | 动物识别模型的训练方法、装置、设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
"Action Machine: Rethinking Action Recognition in Trimmed Videos";Junjie Huang etc.;《arXiv:1812.05770v1[cs.CV]》;第1-4节,图2-3和图6-9 * |
"Dense 3D Regression for Hand Pose Estimation";Chengde Wan etc.;《arXiv:1711.08996v1[cs.CV]》;全文 * |
"基于回归关节点偏移量与热力图的多人姿态估计算法";范冬艳等;《智能计算机与应用》;第10卷(第7期);第137-140页 * |
"基于深度学习的人脸3D关键点检测方法研究";冯龙飞;《中国优秀硕士学位论文全文数据库 信息科技辑》(第12期);论文第2.2节 * |
Also Published As
Publication number | Publication date |
---|---|
US20220051004A1 (en) | 2022-02-17 |
CN112330730A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112330730B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN111488824B (zh) | 运动提示方法、装置、电子设备和存储介质 | |
CN112270669B (zh) | 人体3d关键点检测方法、模型训练方法及相关装置 | |
CN112652016B (zh) | 点云预测模型的生成方法、位姿估计方法及其装置 | |
CN107103613B (zh) | 一种三维手势姿态估计方法 | |
CN111259751B (zh) | 基于视频的人体行为识别方法、装置、设备及存储介质 | |
CN111986178A (zh) | 产品缺陷检测方法、装置、电子设备和存储介质 | |
CN111291885A (zh) | 近红外图像的生成方法、生成网络的训练方法和装置 | |
JP2021103555A (ja) | 画像検出方法、装置、電子設備、記憶媒体、及びプログラム | |
CN111783622A (zh) | 人脸表情识别的方法、装置、设备和计算机可读存储介质 | |
CN113537374B (zh) | 一种对抗样本生成方法 | |
CN111783621A (zh) | 人脸表情识别及模型训练的方法、装置、设备及存储介质 | |
CN111767853A (zh) | 车道线检测方法和装置 | |
CN107256082B (zh) | 一种基于网络一体化和双目视觉技术的投掷物弹道轨迹测算系统 | |
CN111611903A (zh) | 动作识别模型的训练方法、使用方法、装置、设备和介质 | |
CN112241716B (zh) | 训练样本的生成方法和装置 | |
CN111652103B (zh) | 室内定位方法、装置、设备以及存储介质 | |
CN111709461A (zh) | 动物识别模型的训练方法、装置、设备及存储介质 | |
CN111866493B (zh) | 基于头戴显示设备的图像校正方法、装置及设备 | |
CN116844133A (zh) | 目标检测方法、装置、电子设备和介质 | |
CN111260722A (zh) | 车辆定位方法、设备及存储介质 | |
CN114419564B (zh) | 车辆位姿检测方法、装置、设备、介质及自动驾驶车辆 | |
CN116092120A (zh) | 基于图像的动作确定方法、装置、电子设备及存储介质 | |
CN114021480A (zh) | 模型优化方法、设备和存储介质 | |
CN112560678A (zh) | 表情识别方法、装置、设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |