CN112307940A - 模型训练方法、人体姿态检测方法、装置、设备及介质 - Google Patents

模型训练方法、人体姿态检测方法、装置、设备及介质 Download PDF

Info

Publication number
CN112307940A
CN112307940A CN202011176560.4A CN202011176560A CN112307940A CN 112307940 A CN112307940 A CN 112307940A CN 202011176560 A CN202011176560 A CN 202011176560A CN 112307940 A CN112307940 A CN 112307940A
Authority
CN
China
Prior art keywords
heat map
current
dimensional
loss function
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011176560.4A
Other languages
English (en)
Inventor
贾森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
You Peninsula Beijing Information Technology Co ltd
Original Assignee
You Peninsula Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by You Peninsula Beijing Information Technology Co ltd filed Critical You Peninsula Beijing Information Technology Co ltd
Priority to CN202011176560.4A priority Critical patent/CN112307940A/zh
Publication of CN112307940A publication Critical patent/CN112307940A/zh
Priority to EP21885118.6A priority patent/EP4206976A1/en
Priority to JP2023523270A priority patent/JP2023545199A/ja
Priority to PCT/CN2021/126275 priority patent/WO2022089391A1/zh
Priority to US18/248,353 priority patent/US20230377190A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/02Non-photorealistic rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了模型训练方法、人体姿态检测方法、装置、设备及介质,该训练方法包括:将当前迭代下对应的图像训练样本输入至当前的姿态检测网络模型,并根据图像训练样本的数据形式,得到当前迭代下对应的第一损失函数;根据获得的相机参数对姿态检测网络模型的当前输出结果进行重投影处理,并基于重投影处理结果得到当前迭代下对应的第二损失函数;基于通过第一损失函数及第二损失函数形成的拟合损失函数,对姿态检测网络模型进行反向传播,得到用于下一迭代的姿态检测网络模型。利用该方法,降低了训练样本的采集难度,保证了网络训练的易实现性,同时,在图像域上完成整个模型训练,更有利于模型训练的稳定和快速收敛。

Description

模型训练方法、人体姿态检测方法、装置、设备及介质
技术领域
本发明实施例涉及空间位置检测技术领域,尤其涉及模型训练方法、人体姿态检测方法、装置、设备及介质。
背景技术
随着人工智能技术的快速发展,人工神经网络得到了广泛的应用。人工神经网络又称神经网络,是一种模拟大脑神经突触联接的结构进行信息处理的模型。在三维空间位置检测领域,利用神经网络技术可以构建用于人体三维姿态检测的姿态估计神经网络模型。
对于人体三维姿态的检测,已经成为计算机视觉领域中一类重要的问题,该类技术可认为是计算机理解人类行为的基础。其在人机交互、影视特效、互动娱乐等领域有广泛的应用前景。一般的,人体姿态检测相当于从包含人体的图像中检测出人体关键点,并获得各人体关键点的三维空间位置坐标
但是现有所采用进行人体三维姿态检测的姿态检测神经网络模型存在下述问题:1)由于目前业内缺乏有效的自然场景三维人体标注手段,导致目前缺乏高质量的无约束场景标注数据;2)模型具备收敛困难的问题。从而导致基于现有姿态检测神经网络模型无法实现自然场景下人体三维姿态的精准检测。
发明内容
本发明实施例提供了模型训练方法、人体姿态检测方法、装置、设备及介质,实现了人体姿态检测所需网络模型的有效训练,保证了人体姿态检测结果的精准度。
第一方面,本发明实施例提供了一种模型训练方法,该方法包括:
将当前迭代下对应的图像训练样本输入至当前的姿态检测网络模型,并根据所述图像训练样本的数据形式,得到所述当前迭代下对应的第一损失函数;
根据获得的相机参数对所述姿态检测网络模型的当前输出结果进行重投影处理,并基于重投影处理结果得到所述当前迭代下对应的第二损失函数;
基于通过所述第一损失函数及所述第二损失函数形成的拟合损失函数,对所述姿态检测网络模型进行反向传播,得到用于下一迭代的姿态检测网络模型,进入下一迭代直至满足迭代结束条件,以实现对姿态检测网络模型的训练。
第二方面,本发明实施例提供了一种人体姿态检测方法,该方法包括:
获取待检测的人物实景图像;
将所述人物实景图像输入至预设姿态检测网络模型中,其中,所述预设姿态检测网络模型采用上述第一方面实施例所提供的方法训练得到;
根据所述预设姿态检测网络模型的输出结果,对所述人物实景图像的人物进行人体姿态检测,获得所述人物各关键点的三维空间位置坐标。
第三方面,本发明实施例提供了一种模型训练装置,该装置包括:
第一信息确定模块,用于将当前迭代下对应的图像训练样本输入至当前的姿态检测网络模型,并根据所述图像训练样本的数据形式,得到所述当前迭代下对应的第一损失函数;
第二信息确定模块,用于根据获得的相机参数对所述姿态检测网络模型的当前输出结果进行重投影处理,并基于重投影处理结果得到所述当前迭代下对应的第二损失函数;
模型训练模块,用于基于通过所述第一损失函数及所述第二损失函数形成的拟合损失函数,对所述姿态检测网络模型进行反向传播,得到用于下一迭代的姿态检测网络模型,进入下一迭代直至满足迭代结束条件,以实现对姿态检测网络模型的训练。
第四方面,本发明实施例提供了一种人体姿态检测装置,该装置包括:
信息获取模块,用于获取待检测的人物实景图像;
信息输入模块,用于将所述人物实景图像输入至预设姿态检测网络模型中,其中,所述预设姿态检测网络模型采用本发明实施例提供的训练方法训练得到;
信息确定模块,用于根据所述预设姿态检测网络模型的输出结果,对所述人物实景图像的人物进行人体姿态检测,获得所述人物各关键点的三维空间位置坐标。
第五方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例提供的方法。
第六方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的方法。
本发明实施例中提供的模型训练方法、人体姿态检测方法、装置、设备及介质,该模型训练方法中首先将图像训练样本输入至当前的姿态检测网络模型,并根据图像训练样本的数据形式,来得到当前迭代下的第一损失函数;以及根据获得的相机参数对姿态检测网络模型的当前输出结果进行重投影处理,并基于重投影处理结果得到当前迭代下对应的第二损失函数;最终,基于第一损失函数与第二损失函数形成的拟合损失函数,对姿态检测网络模型进行反向传播,以此完成当前迭代下的模型训练。上述技术方案,对作为图像训练样本不具备特定限定,仅需要二维标注的自然场景图像或者带有二维标注及三维标注的约束场景图像即可进行模型训练,降低了训练样本的采集难度,减小了训练数据和实际应用场景间的领域差异,保证了网络训练的易实现性;同时,相比于传统的在坐标域下的重投影处理,上述方案简单有效的实现了在图像域上的重投影,在图像域上完成整个模型训练,更有利于模型训练的稳定和快速收敛。采用上述方式训练的模型进行人体姿态检测时,能够更加准确地检测出人物图像中人物各关键点的三维空间坐标,有效提升了人体三维姿态检测的准确率。
附图说明
图1为本发明实施例提供的一种模型训练方法的流程示意图;
图2给出了本发明实施例二提供的一种模型训练方法的流程示意图;
图2a给出了本实施例通过对姿态检测网络模型进行训练的结构示意图;
图3为本发明实施例三提供的一种人体姿态检测方法的流程示意图;
图4为本发明实施例四提供的一种模型训练装置的结构框图;
图5为本发明实施例五提供的一种人体姿态检测装置的结构框图;
图6为本发明实施例提供的一种计算机设备的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
图1为本发明实施例提供的一种模型训练方法的流程示意图,该方法可以由模型训练装置执行,其中该装置可由软件和/或硬件实现,一般可集成在计算机设备中。
需要说明的是,在进行人体姿态检测现有所采用的神经网络模型中,常见的两种网络模型分别是:坐标回归网络模型和热图回归网络模型,对于坐标回归网络模型,该模型结构通常由卷积网络输入前端和全连接网络输出后端组成,通过该网络模型进行的人体姿态检测,可以直接输出人体关键点的三维坐标,但是该种网络模型的缺陷在于收敛困难,还存在不好获取自然场景下的三维标注数据的问题;对于热图回归网络模型,该类模型结果通常只有全卷积网络构成,输出结果为人体关键点的坐标热度图,后续还需要解析热度图得到关键点的三维坐标,该种网络模型的缺陷在于对训练样本的要求较高,很难利用无约束场景下的二维标注数据,同样也存在不好获取自然场景下的三维标注数据的问题,使得该网络很难应用到实际场景中去。鉴于此,本发明实施例提供了一种模型训练方法,利用了热图回归网络的网络结构,并且通过在图像域的重投影以及易采集的图像训练样本,能够有效解决上述现有网络模型训练中所存在的问题。
具体的,如图1所示,本实施例一提供的模型训练方法包括:
S101、将当前迭代下对应的图像训练样本输入至当前的姿态检测网络模型,并根据所述图像训练样本的数据形式,得到所述当前迭代下对应的第一损失函数。
在本实施例中,图像训练样本为预先采集的“样本图像-坐标标注”数据对,其中的样本图像具体可以是通过单目摄像头捕获的包含人物的单目图像,其中的坐标标注可以是样本图像中所包含人物的关键点坐标,该关键点坐标可以是关键点在样本图像中的二维平面坐标;当样本图像为在约束场景下采集的特定图像时,该关键点坐标还可以是关键点在该约束场景下所具备的三维空间坐标。
可以知道的是,单目摄像头是常见的图像采集设备,其具备应用广泛、易于获取的特点,本实施例图像训练样本中的样本图像仅通过该单目摄像头就可以被采集,更好的体现了本实施例训练所需数据的易于构建、易于采集的特点。
同时,所述当前迭代具体可理解为实现模型训练过程中的其中一次迭代操作,本实施例可以认为,模型的迭代训练中,每次迭代下进行模型训练的操作步骤相同。
具体的,本步骤可以在进入当前迭代后,选择一个参与模型训练的图像训练样本,该图像训练样本可以从预先采集的训练样本集中选定。之后,可以将选定的图像训练样本输入当前迭代下需要训练的姿态检测网络模型,其中,本实施例所采用的姿态检测网络模型可优选为采用全卷积网络结构构建的热图回归网络模型;姿态检测网络模型可以对输入的图像训练样本进行处理,同时可以根据该图像训练样本的数据形式,来获得该当前迭代下进行模型训练所需的第一损失函数。
可以知道的是,本实施例中的图像训练样本的数据形式可优选为:自然场景样本图像- 关键点二维坐标的标注形式、或者约束场景样本图像-关键点二维坐标以及关键点三维坐标的标注形式。即,一种是,样本图像在自然场景下采集,且所对应的标注为关键点二维坐标;另一种是,样本图像在约束场景下采集,而所对应的标注为关键点二维标注以及关键点三维坐标。
具备不同的数据形式的图像训练样本所包含的数据信息存在不同,本实施例可以通过图像训练样本所包含的数据信息来决定采用什么样的第一损失函数进行后续的训练。示例性的,当图像训练样本中只包含关键点二维坐标时,只能考虑采用关键点二维坐标对应的数据信息来与网络模型的输出结果相结合形成第一损失函数,通过此时获得的第一损失函数参与反向学习时,可以保证姿态检测网络模型能够有效的学习到自然场景下具备的图像特征。
又如,当图像训练样本中还包含有关键点三维坐标时,则可以考虑通过关键点二维坐标以及关键点三维坐标对应的数据信息来与网络模型的输出结果相结合形成第一损失函数。通过此时获得的第一损失函数参与模型的反向学习时,可以保证姿态检测网络模型能够有效的学习到准确的三维姿态预测能力。
S102、根据获得的相机参数对所述姿态检测网络模型的当前输出结果进行重投影处理,并基于重投影处理结果得到所述当前迭代下对应的第二损失函数。
在本实施例中,对于姿态检测网络模型的训练,优选采用多损失函数相结合,达到特性全面训练的效果。因此,在上述S101确定第一损失函数后,本实施例还需要通过S102进行第二损失函数的确定。
需要说明的是,通过该姿态检测网络模型对图像训练样本进行处理后,可以获得到当前输出结果,该当前输出结果中包括每个关键点确定三维空间坐标分别所需的热度图组,本步骤可以通过图像训练样本中样本图像采集所依据的相机参数,将当前输出结果重投影在二维空间下,由此获得关键点在二维空间下可以具备的热度图组。
本步骤中对当前输出结果重投影处理后的重投影处理结果可以与该图像训练样本中样本图像在二维空间下对应标准热度值组相结合,获得当前迭代下的第二损失函数。其中,对于样本图像在二维空间下对应标准热度值组,假设图像训练样本的数据形式为关键点三维坐标的标注,则可先进行关键点三维坐标的重投影再进行热图转换获得;假设图像训练样本的数据形式为关键点二维坐标的标注,则可直接进行关键点二维坐标的热图转换。
S103、基于通过所述第一损失函数及所述第二损失函数形成的拟合损失函数,对所述姿态检测网络模型进行反向传播,得到用于下一迭代的姿态检测网络模型,将下一迭代作为新的当前迭代返回S101,直至满足迭代结束条件。
在本实施例中,可以直接对第一损失函数以及第二损失函数进行整合,形成拟合损失函数,优选的,本实施例可以采用的整合方式为将拟合损失函数确定为所述第一损失函数与所述第二损失函数之和。
在神经网络模型的训练过程中,反向传播方法可以使网络权值(又称滤波器)不断更新调整,直至网络的输出与目标趋于一致,是一种有效计算梯度的方法。本发明实施例中,在确定了当前迭代下对应的拟合损失函数后,利用该拟合损失函数对当前所采用的姿态检测网络模型进行反向传播,就可以得到网络权值调整后的姿态检测网络模型,而该调整后的姿态检测网络模型可用于下一迭代中模型的训练。本发明实施例对具体的反向传播过程不做限定,可根据具体情况进行设置。
可以知道的是,执行上述S101至S103之后,相当于完成了一次迭代下的模型训练,此时可进一步判定当前迭代后是否已经满足迭代结束条件,如果不满足迭代结束条件,则可以将下一迭代作为新的当前迭代,再次返回执行上述S101,若满足迭代结束条件,则相当于完成了模型训练,可以结束本实施例提供的模型训练方法;其中,迭代结束条件可以是:如样本集中的图像训练样本均已参与了模型训练,又或者,当前迭代下训练后的网络模型与上一迭代下训练后的网络模型的网络权值的变化处于一个合理的误差范围内。
本发明实施例一提供的一种模型训练方法,对作为图像训练样本不具备特定限定,仅需要二维标注的自然场景图像或者带有二维标注及三维标注的约束场景图像即可进行模型训练,降低了训练样本的采集难度,减小了训练数据和实际应用场景间的领域差异,保证了网络训练的易实现性;同时,相比于传统的在坐标域下的重投影处理,上述方案简单有效的实现了在图像域上的重投影,在图像域上完成整个模型训练,更有利于模型训练的稳定和快速收敛。采用上述方式训练的模型进行人体姿态检测时,能够更加准确地检测出人物图像中人物各关键点的三维空间坐标,有效提升了人体三维姿态检测的准确率。
实施例二
图2给出了本发明实施例二提供的一种模型训练方法的流程示意图,本实施例二以上述实施例为基础进行优化,在本实施例中,进一步将根据所述图像训练样本的数据形式,得到所述当前迭代下对应的第一损失函数优化为:当所述图像训练样本的数据形式为自然场景样本图像-关键点二维坐标的标注形式时,从所述姿态检测网络模型的当前输出结果中提取第一当前概率热度图;获取预先确定的第一标准概率热度图,并根据所述第一标准概率热度图与所述第一当前概率热度图,得到所述当前迭代下对应的第一损失函数;其中,所述第一标准概率热度图通过对所述图像训练样本中关键点二维坐标的转化确定。
或者,将根据所述图像训练样本的数据形式,得到所述当前迭代下对应的第一损失函数具体化为:当所述图像训练样本的数据形式为约束场景样本图像-关键点二维坐标以及关键点三维坐标的标注形式时,获得所述姿态检测网络模型输出的当前热度图集合,其中,当前热度图集合包含一张第二当前概率热度图以及当前三维坐标热度图组;获取预先确定的标准热度图集合,并根据所述标准热度图集合与所述当前热度图集合,得到所述当前迭代下对应的第一损失函数;其中,所述标准热度图集合通过对所述图像训练样本中关键点三维坐标的转化确定,所述标准热度图集合包含一张第二标准概率热度图及标准三维坐标热度图组。
同时,本实施例进一步将根据获得的相机参数对所述姿态检测网络模型的当前输出结果进行重投影处理具体化为:获取包含在所述图像训练样本中的相机参数,或者,获取所述姿态检测网络模型的一个输出分支对应所述图像训练样本输出的相机参数;从所述姿态检测网络模型的当前输出结果中提取当前三维横坐标热度图以及当前三维纵坐标热度图;根据所述相机参数、当前三维横坐标热度图以及当前三维纵坐标热度图,结合设定的重投影公式,确定所述图像训练样本中关键点的当前二维横坐标热度图以及当前二维纵坐标热度图;将所述当前二维横坐标热度图以及当前二维纵坐标热度图形成的当前二维横坐标热度图组作为重投影处理结果。
在上述优化的基础上,本实施例二进一步将基于重投影处理结果得到所述当前迭代下对应的第二损失函数具体优化为获得预先确定的标准二维坐标热度图组,其中,所述标准二维坐标热度图组通过对所述图像训练样本中关键点二维坐标或关键点三维坐标的转化确定,包含标准二维横坐标热度图以及标准二维纵坐标热度图;确定所述标准二维坐标热度图组所对应数据与所述当前二维横坐标热度图组所对应数据的第四差值表达式;将基于所述第四差值表达式所形成欧几里得范数的第四平方表达式确定为所述当前迭代下对应的第二损失函数。
如图2所示,本发明实施例二提供的一种模型训练方法,具体包括如下操作:
S201、将当前迭代下对应的图像训练样本输入至当前的姿态检测网络模型。
S202、确定所述图像训练样本的数据形式。
本实施例可以通过图像训练样本实际包含的数据信息来确定该图像训练样本的数据形式,如,假设包含样本图像、关键点二维坐标以及关键点三维坐标的数据信息,则可认为图像训练样本的数据形式是具备约束场景样本图像-关键点二维坐标以及关键点三维坐标的标注形式,又如,仅包含样本图像以及关键点二维坐标的数据信息,则数据形式可认为是自然场景样本图像-关键点二维坐标的标注形式。
本实施例下述S203和S204给出了数据形式为自然场景样本图像-关键点二维坐标的标注形式时,第一损失函数的确定过程。
S203、当所述数据形式为自然场景样本图像-关键点二维坐标的标注形式时,从所述姿态检测网络模型的当前输出结果中提取第一当前概率热度图。
在本实施例中,无论图像训练样本的数据形式如何,通过姿态检测网络模型后获得的当前输出结果均为每个关键点对应的热度图集合,而所对应的该热度图集合中实际包括了该关键点的概率热度图,以及表示三维空间坐标的三维坐标热度图组。本步骤可以从已获得的姿态检测网络模型的当前输出结果中提取出每个关键点对应的概率热度图,并优选记为第一当前概率热度图。
S204、获取预先确定的第一标准概率热度图,并根据所述第一标准概率热度图与所述第一当前概率热度图,得到所述当前迭代下对应的第一损失函数。
在本实施例中,所述第一标准概率热度图具体可理解为该图像训练样本中样本图像真正具备的概率热度图,该第一标准概率热度图可以通过对所述图像训练样本中关键点二维坐标的转化确定。示例性的,在已知关键点的二维坐标后,可通过处于坐标域中的该二维坐标,获得处于图像域中的概率热度图。
需要说明的是,模型训练中损失函数的形成往往依赖于模型所输出结果与所标注真实结果的结果比对,本步骤可以通过将第一标准概率热度图与所述第一当前概率热度图所对应数据之间的比对,来获得该当前迭代下对应的第一损失函数。
进一步地,本实施例进一步将根据所述第一标准概率热度图与所述第一当前概率热度图,得到所述当前迭代下对应的第一损失函数具体化为:确定所述第一标准概率热度图所对应数据与所述第一当前概率热度图所对应数据的第一差值表达式;将基于所述第一差值表达式所形成欧几里得范数的第一平方表达式确定为所述当前迭代下对应的第一损失函数。
在本实施例中,对于每一张热度图而言,可理解为一个所包含各像素点分别具备相应数据值的图矩阵,本实施例可以将图矩阵看作一个热度图所对应的数据,由此,所述第一标准概率热度图所对应数据与所述第一当前概率热度图所对应数据的第一差值表达式可以看做第一标准概率热度图所对应图矩阵与第一当前概率热度图所对应图矩阵的矩阵差。
示例性的,假设
Figure RE-GDA0002829443060000061
表示第一标准概率热度图的图矩阵,h1表示第一当前概率热度图的图矩阵,则第一差值表达式可采用
Figure RE-GDA0002829443060000062
表示,而
Figure RE-GDA0002829443060000063
则表示第一差值表达式形成的欧几里得范数,本实施例优选将
Figure RE-GDA0002829443060000064
的平方,即
Figure RE-GDA0002829443060000065
看作第一平方表达式,该第一平方表达式则可看作当前迭代下对应的第一损失函数,因此,该第一损失函数可表示为:
Figure RE-GDA0002829443060000066
本实施例下述S205和S206给出了数据形式为约束场景样本图像-关键点二维坐标以及关键点三维坐标的标注形式时,第一损失函数的确定过程。
S205、当所述数据形式为约束场景样本图像-关键点二维坐标以及关键点三维坐标的标注形式时,获得所述姿态检测网络模型输出的当前热度图集合。
在本实施例中,姿态检测网络模型对图像训练样本进行处理后所获得的当前输出结果实际包含了对应每个关键点的热度图集合,本实施例记载热度图集合为当前热度图集合。且为便于区分,本步骤将对应关键点的当前热度图集合中包含的概率热度图记为第二当前概率热度图;将包含的三维坐标热度图组记为当前三维坐标热度图组。
S206、获取预先确定的标准热度图集合,并根据所述标准热度图集合与所述当前热度图集合,得到所述当前迭代下对应的第一损失函数。
在本实施例中,所述标准热度图集合具体可理解为该图像训练样本中样本图像真正具备的热度图集合,该标准热度图集合可以通过对该图像训练样本中包括的关键点二维坐标以及关键点三维坐标的转化确定,示例性的,在已知关键点的二维坐标后,可以通过处于坐标域中的该二维坐标,确定处于图像域中的概率热度图,同时,在已知关键点的三维坐标后,可通过处于坐标域中的该三维坐标,获得处于图像域中的三维坐标的三个坐标方向分别对应的坐标热度图,三个坐标方向的坐标热度图构成了三维坐标热度图组。
本实施例将上述获得的概率热度图记为第二标注概率热度图,以及将三维坐标热度图组记为标准三维坐标热度图组。此外,可以知道的是,在已知三维坐标热度图组后,还可以通过重投影的方式获得该图像训练样本的二维坐标热度图组。
同样的,图像训练样本在上述数据形式下,对应当前迭代所确定的第一损失函数,同样需要基于图像训练样本的真实结果与所输出结果的结果比对。示例性的,本步骤可以通过将第二标准概率热度图、标准三维坐标热度图组所对应数据分别与第二当前概率热度图及当前三维坐标热度图组所对应数据之间的比对,来获得该当前迭代下对应的第一损失函数。
进一步地,本实施例还可以进一步将根据所述第一标准概率热度图与所述第一当前概率热度图,得到所述当前迭代下对应的第一损失函数具体化为:确定所述第二标准概率热度图所对应数据与所述第二当前概率热度图所对应数据的第二差值表达式;确定所述标准三维坐标热度图组所对应数据与所述当前三维坐标热度图组所对应数据的第三差值表达式;基于所述第二差值表达式形成欧几里得范数的第二平方表达式,并基于所述第三差值表达式形成欧几里得范数的第三平方表达式;将所述第二平方表达式与所述第三平方表达式相加,构成所述当前迭代下对应的第一损失函数。
同样的,本步骤中第二标准概率热度图、第二当前概率热度图的所对应数据均为图矩阵,且标准三维坐标热度图组以及当前三维坐标热度图组的所对应数据分别可以由三个图矩阵构成。
示例性的,假设
Figure RE-GDA0002829443060000071
表示第二标准概率热度图的图矩阵,h2表示第二当前概率图的图矩阵,则第二差值表达式可采用
Figure RE-GDA0002829443060000072
表示,假设
Figure RE-GDA0002829443060000073
表示标准三维坐标热度图组的图矩阵集合,P3d表示当前三维坐标热度图组的图矩阵集合,则第三差值表达式可以采用
Figure RE-GDA0002829443060000074
表示,同时,基于所述第二差值表达式形成欧几里得范数的第二平方表达式可以采用
Figure RE-GDA0002829443060000075
表示;基于所述第三差值表达式形成欧几里得范数的第三平方表达式可以采用
Figure RE-GDA0002829443060000076
表示;最终,可以将第一损失函数采用
Figure RE-GDA0002829443060000077
表示。
本实施例下述S207至S210给出了对当前输出结果进行重投影处理的实现过程。
S207、获取包含在所述图像训练样本中的相机参数,或者,获取所述姿态检测网络模型的一个输出分支对应所述图像训练样本输出的相机参数。
在本实施例中,样本图像的相机参数可以直接包含在所形成的图像训练样本中,此时,本步骤可以直接获取图像训练样本中包含的相机参数;此外,该相机参数可能并不直接存在于图像训练样本中,但可以从姿态检测网络模型中另外开启一个输出分支,从该输出分支中获取模型处理后提取出的相机参数。
S208、从所述姿态检测网络模型的当前输出结果中提取当前三维横坐标热度图以及当前三维纵坐标热度图。
接上述描述,可以知道姿态检测网络模型处于样本图像后的当前输出结果中包含了关键点对应的概率热度图以及三维坐标热度图组。本实施例可认为当前输出结果的三维坐标热度图组中包含了当前三维横坐标热度图以及当前三维纵坐标热度图。由此可以通过本步骤获得当前输出结果中包括的当前三维横坐标热度图以及当前三维纵坐标热度图。
S209、根据所述相机参数、当前三维横坐标热度图以及当前三维纵坐标热度图,结合设定的重投影公式,确定所述图像训练样本中关键点的当前二维横坐标热度图以及当前二维纵坐标热度图。
在本实施例中,所述相机参数包括焦距参数fx以及fy和主光轴参数cx以及cy;当前三维横坐标热度图可以采用相应的图矩阵P3d(x)表示;当前三维横坐标热度图可以采用相应的图矩阵P3d(y)表示;
所述重投影公式可以表示为:
P2d(x)=fx·P3d(x)+cx;P2d(y)=fy·P3d(y)+cy
其中,P2d(x)和P2d(y)分别表示为所述图像训练样本中相应关键点的当前二维横坐标热度图以及当前二维纵坐标热度图。
S210、将所述当前二维横坐标热度图以及当前二维纵坐标热度图形成的当前二维横坐标热度图组作为重投影处理结果。
可以知道的是,本步骤可以将上述基于前二维横坐标热度图以及当前二维纵坐标热度图形成的当前二维横坐标热度图组看作重投影处理的重投影处理结果。
本实施例下述S211至S213具体给出了第二损失函数的确定过程。
S211、获得预先确定的标准二维坐标热度图组。
在本实施例中,通过上述描述,可以知道所述标准二维坐标热度图组通过对所述图像训练样本中关键点二维坐标的转化确定,且标准二维坐标热度图组中包含了标准二维横坐标热度图以及标准二维纵坐标热度图。
S212、确定所述标准二维坐标热度图组所对应数据与所述当前二维横坐标热度图组所对应数据的第四差值表达式。
在本实施例中,所述标准二维坐标热度图组所对应数据相当于该标准二维坐标热度图组的图矩阵
Figure RE-GDA0002829443060000081
表示,当前二维横坐标热度图组相当于该标准当前二维坐标热度图组的图矩阵 P2d表示,由此,
Figure RE-GDA0002829443060000082
可以看作第四差值表达式。
S213、将基于所述第四差值表达式所形成欧几里得范数的第四平方表达式确定为所述当前迭代下对应的第二损失函数。
在本实施例中,基于所述第四差值表达式所形成欧几里得范数的第四平方表达式可以采用
Figure RE-GDA0002829443060000083
表示;最终,可以将第二损失函数采用
Figure RE-GDA0002829443060000084
表示。
S214、基于通过所述第一损失函数及所述第二损失函数形成的拟合损失函数,对所述姿态检测网络模型进行反向传播,得到用于下一迭代的姿态检测网络模型,将下一迭代作为新的当前迭代返回S201,直至满足迭代结束条件。
在本实施例中,拟合损失函数的可以采用Loss=Loss1+Loss2的形式表示。
为便于更好的理解本实施例所提供模型训练方法的实现,图2a给出了本实施例通过对姿态检测网络模型进行训练的结构示意图,如图2a所示,具体给出了待输入的图像样本图像 21、姿态检测网络模型22、第一热度图组23(包括概率热度图以及三维坐标热度图组)、相机参数24以及第二热度图组25。
可以看出,第一热度图组23主要由网络模型的核心输出分支输出,用于人体关键点的三维空间坐标确定,如图2a所示,通过人体关键点的三维空间坐标,可以确定人体轮廓图。同时可以看出,第二热度图组25主要基于网络模型的另一输出分支输出的相机参数24与第一热度图组23相结合进行的重投影处理获得。
图2a所给出的模型训练示意图中,所采用的图像训练样本主要通过单目摄像头采集;同时,主要通过第一热度图组23以及样本图像对应的标注数据(关键点二维坐标或关键点三维坐标)来确定第一损失函数Loss1;以及通过第二热度图组25以及样本图像对应的标注数据 (关键点二维坐标或关键点三维坐标)来确定第二损失函数Loss2。通过该示例可以看出,本实施例所提供模型训练方法具备训练样本易采集,此外,由于仅在图像域进行训练,该训练方法还具备训练稳定且收敛速度快的特点。
本发明实施例二提供的一种模型训练方法,具体化了第一损失函数的确定过程以及第二损失函数的确定过程。利用本实施例提供的方法,相当于对姿态检测网络模型设定了两个用于训练学习的损失函数,而且考虑通过姿态检测网络模型输出的概率热度图、三维坐标热度图组以及二维坐标热度图组与标准概率热度图、标准三维坐标热度图组以及标准二维坐标热度图组的比对,实现两个损失函数的确定。该方法的实现能够同时利用可简单采集到的图像数据作为样本图像,结合重投影进行半监督训练,具备良好的泛化性,并且只采用图像域下的全卷积结构,保证训练过程完全在图像域进行,使得训练过程中规避了梯度消失或梯度爆炸的训练影响因素,实现了训练稳定且收敛速度快的目的。同时,采用上述方式训练的模型进行人体姿态检测时,能够更加准确地检测出人物图像中人物各关键点的三维空间坐标,有效提升了人体三维姿态检测的准确率。
实施例三
图3为本发明实施例三提供的一种人体姿态检测方法的流程示意图,该方法可以由人体姿态检测装置执行,其中,该装置可以由软件和/或硬件实现,一般可集成在计算机设备中。如图3所示,该方法包括:
S301、获取待检测的人物实景图像。
示例性的,该人物实景图像可以通过常规的图像捕获设备获得,图像捕获设备可以是手机、带摄像头的笔记本或平板等。在具备人体姿态检测需求时,可以通过本步骤先获取待检测的人物实景图像。
S302、将所述人物实景图像输入至预设姿态检测网络模型中。
其中,所述预设姿态检测网络模型采用本发明实施例提供的任意一种模型训练方法训练得到。
S303、根据所述预设姿态检测网络模型的输出结果,对所述人物实景图像的人物进行人体姿态检测,获得所述人物各关键点的三维空间位置坐标。
示例性的,通过姿态检测网络模型处理后的输出结果为各关键点对应的热度图组,对于每个关键点而言,可以通过获取的热度图组,通过对热度图组中各热度图的解析来得到相应的三维空间位置坐标。
本发明实施例三提供的一种人体姿态检测方法,采用了通过本实施例上述所提供模型训练的方法训练得到的姿态检测网络模型来获得人体姿态检测所需的热度图组,通过该姿态检测网络模型得到的热度图组,能够更加准确地检测出人物图像中人物各关键点的三维空间坐标,有效提升了人体三维姿态检测的准确率。
作为本发明实施例三的一个可选实施例,本可选实施例在上述实施例的基础上进一步优化输出结果包括各关键点的概率热度图以及三维坐标热度图组,相应的,本可选实施例进一步将根据所述预设姿态检测网络模型的输出结果,对所述人物实景图像的人物进行人体姿态检测,获得所述人物各关键点的三维空间位置坐标优化为:针对每个关键点,从所述概率热度图中确定最大概率值对应的概率坐标点,并获得所述概率坐标点的当前位置坐标;在所述三维坐标图组包括的三维横坐标热度图、三维纵坐标热度图以及三维竖坐标热度图中查找所述当前位置坐标处于对应的热度值;基于各所述热度值构成所述关键点的三维空间位置坐标。
本可选实施例给出了关键点的三维空间位置坐标确定的具体实现,可以看出,通过姿态检测网络模型,对应每个待确定三维空间位置坐标的关键点,都可以获得相应的热度图组,该热度图组中包括了关键点的概率热度图,概率热度图展示了关键点处于各坐标时所具备的概率值,还包括了关键点的三维坐标热度图组,该三维坐标热度图组中包括了三维横坐标热度图、三维纵坐标热度图以及三维竖坐标热度图,各坐标热度图中分别展示了关键点在该坐标方向上可能具备的坐标值。
具体的,从关键点的概率热度图中可以确定出一个最大概率值,该最大概率值在该概率热度图上对应一个概率坐标点,最大概率值表示了关键点处于基于该概率坐标点所确定三维空间位置的概率最大,在给出的三维坐标热度图组中,可以从各坐标热度图中查找该概率坐标点处所对应的热度值,并将所确定的热度值作为相应坐标方向上的坐标值,由此可以采用确定出的3个坐标值构成关键点的三维空间位置坐标。
示例性的,假设从概率热度图中确定出的概率坐标点为(x1,y1),则可以在三维横坐标热度图、三维纵坐标热度图以及三维竖坐标热度图中分别找到坐标值为(x1,y1)的点,并可以获取到各热度图中该点所对应的目标热度值,最终基于3个目标热度值,就获得关键点的三维空间位置坐标。
作为本实施例的另一个可选实施例,该人体姿态检测方法还优化增加了基于所述人物实景图像中人物各关键点的三维空间位置坐标,将所述人物实景图像转换为相应的人物卡通图像。
本可选实施例给出了所确定各关键点的三维空间位置坐标可以用于人物实景图像到人物卡通图像的转换,相当于给出了人体三维姿态检测的一个实际应用场景。具体的,可以在确定出人物实景图像中关键点的三维空间位置坐标后,在一个基准人物卡通图像中,对各关键点现有的原始三维空间位置坐标进行调整,使得各关键点具备上述已确定出的三维空间位置坐标,由此相当于实现基准人物卡通图像中人体位姿的调整,从而形成对应人体实景图像的人物卡通图像。
实施例四
图4为本发明实施例四提供的一种模型训练装置的结构框图,该装置可由软件和/或硬件实现,一般可集成在计算机设备中,可通过执行模型训练方法来进行模型训练。如图4所示,该装置包括:第一信息确定模块41、第二信息确定模块42以及模型训练模块43。
其中,第一信息确定模块41,用于将当前迭代下对应的图像训练样本输入至当前的姿态检测网络模型,并根据所述图像训练样本的数据形式,得到所述当前迭代下对应的第一损失函数;
第二信息确定模块42,用于根据获得的相机参数对所述姿态检测网络模型的当前输出结果进行重投影处理,并基于重投影处理结果得到所述当前迭代下对应的第二损失函数;
模型训练模块43,用于基于通过所述第一损失函数及所述第二损失函数形成的拟合损失函数,对所述姿态检测网络模型进行反向传播,得到用于下一迭代的姿态检测网络模型,进入下一迭代直至满足迭代结束条件,以实现对姿态检测网络模型的训练。
本发明实施例四提供的一种模型训练装置,对作为图像训练样本不具备特定限定,仅需要二维标注的自然场景图像或者带有二维标注及三维标注的约束场景图像即可进行模型训练,降低了训练样本的采集难度,减小了训练数据和实际应用场景间的领域差异,保证了网络训练的易实现性;同时,相比于传统的在坐标域下的重投影处理,上述方案简单有效的实现了在图像域上的重投影,在图像域上完成整个模型训练,更有利于模型训练的稳定和快速收敛。采用上述方式训练的模型进行人体姿态检测时,能够更加准确地检测出人物图像中人物各关键点的三维空间坐标,有效提升了人体三维姿态检测的准确率。
进一步地,所述姿态检测网络模型为采用全卷积网络结构构建的热图回归网络模型;
图像训练样本的数据形式为:自然场景样本图像-关键点二维坐标的标注形式、或者约束场景样本图像-关键点二维坐标以及关键点三维坐标的标注形式。
进一步地,第一信息确定模块41具体可以包括:
信息输入单元,用于将当前迭代下对应的图像训练样本输入至当前的姿态检测网络模型;
第一执行单元,用于当所述图像训练样本的数据形式为自然场景样本图像-关键点二维坐标的标注形式时,从所述姿态检测网络模型的当前输出结果中提取第一当前概率热度图;获取预先确定的第一标准概率热度图,并根据所述第一标准概率热度图与所述第一当前概率热度图,得到所述当前迭代下对应的第一损失函数,其中,所述第一标准概率热度图通过对所述图像训练样本中关键点二维坐标的转化确定。
第二执行单元,用于当所述图像训练样本的数据形式为约束场景样本图像-关键点二维坐标以及关键点三维坐标的标注形式时,获得所述姿态检测网络模型输出的当前热度图集合,其中,当前热度图集合包含一张第二当前概率热度图以及当前三维坐标热度图组;获取预先确定的标准热度图集合,并根据所述标准热度图集合与所述当前热度图集合,得到所述当前迭代下对应的第一损失函数;其中,所述标准热度图集合通过对所述图像训练样本中关键点三维坐标的转化确定,所述标准热度图集合包含一张第二标准概率热度图及标准三维坐标热度图组。
进一步地,第一执行单元实现根据所述第一标准概率热度图与所述第一当前概率热度图,得到所述当前迭代下对应的第一损失函数的具体步骤可以包括:
确定所述第一标准概率热度图所对应数据与所述第一当前概率热度图所对应数据的第一差值表达式;将基于所述第一差值表达式所形成欧几里得范数的第一平方表达式确定为所述当前迭代下对应的第一损失函数。
进一步地,第二执行单元实现根据所述标准热度图集合与所述当前热度图集合,得到所述当前迭代下对应的第一损失函数的具体包括可以包括:
确定所述第二标准概率热度图所对应数据与所述第二当前概率热度图所对应数据的第二差值表达式;确定所述标准三维坐标热度图组所对应数据与所述当前三维坐标热度图组所对应数据的第三差值表达式;基于所述第二差值表达式形成欧几里得范数的第二平方表达式,并基于所述第三差值表达式形成欧几里得范数的第三平方表达式;将所述第二平方表达式与所述第三平方表达式相加,构成所述当前迭代下对应的第一损失函数。
进一步地,第二信息确定模块42实现根据获得的相机参数对所述姿态检测网络模型的当前输出结果进行重投影处理的具体步骤可以包括:
获取包含在所述图像训练样本中的相机参数,或者,获取所述姿态检测网络模型的一个输出分支对应所述图像训练样本输出的相机参数;从所述姿态检测网络模型的当前输出结果中提取当前三维横坐标热度图以及当前三维纵坐标热度图;根据所述相机参数、当前三维横坐标热度图以及当前三维纵坐标热度图,结合设定的重投影公式,确定所述图像训练样本中关键点的当前二维横坐标热度图以及当前二维纵坐标热度图;将所述当前二维横坐标热度图以及当前二维纵坐标热度图形成的当前二维横坐标热度图组作为重投影处理结果。
进一步地,第二信息确定模块42实现基于重投影处理结果得到所述当前迭代下对应的第二损失函数的具体步骤包括:
获得预先确定的标准二维坐标热度图组,其中,所述标准二维坐标热度图组通过对所述图像训练样本中关键点二维坐标或关键点三维坐标的转化确定,包含标准二维横坐标热度图以及标准二维纵坐标热度图;确定所述标准二维坐标热度图组所对应数据与所述当前二维横坐标热度图组所对应数据的第四差值表达式;将基于所述第四差值表达式所形成欧几里得范数的第四平方表达式确定为所述当前迭代下对应的第二损失函数。
进一步地,所述拟合损失函数为所述第一损失函数与所述第二损失函数之和。
进一步地,所述图像训练样本中的样本图像为通过单目摄像头捕获的单目图像。
实施例五
图5为本发明实施例五提供的一种人体姿态检测装置的结构框图,该装置可以由软件和/ 或硬件实现,一般集成在计算机设备中,可通过执行人体姿态检测方法来实现人体关键点的三维空间位置确定。如图5所示,该装置包括:信息获取模块51、信息输入模块52以及信息确定模块53。
其中,信息获取模块51,用于获取待检测的人物实景图像;
信息输入模块52,用于将所述人物实景图像输入至预设姿态检测网络模型中,其中,所述预设姿态检测网络模型采用本发明实施例提供的模型训练方法训练得到;
信息确定模块53,用于根据所述预设姿态检测网络模型的输出结果,对所述人物实景图像的人物进行人体姿态检测,获得所述人物各关键点的三维空间位置坐标。
本实施例提供的一种人体姿态检测装置,采用了通过本实施例上述所提供模型训练的方法训练得到的姿态检测网络模型来获得人体姿态检测所需的热度图组,通过该姿态检测网络模型得到的热度图组,能够更加准确地检测出人物图像中人物各关键点的三维空间坐标,有效提升了人体三维姿态检测的准确率。
进一步地,所述所述输出结果中包括各关键点的概率热度图以及三维坐标热度图组;
相应的,信息确定模块53具体用于:
针对每个关键点,从所述概率热度图中确定最大概率值对应的概率坐标点,并获得所述概率坐标点的当前位置坐标;
在所述三维坐标图组包括的三维横坐标热度图、三维纵坐标热度图以及三维竖坐标热度图中查找所述当前位置坐标处于对应的热度值;
基于各所述热度值构成所述关键点的三维空间位置坐标。
进一步地,该装置还包括了:
图像转换模块,用于基于所述人物实景图像中人物各关键点的三维空间位置坐标,将所述人物实景图像转换为相应的人物卡通图像。
实施例六
图6为本发明实施例提供的一种计算机设备的结构框图,本发明实施例六提供了一种计算机设备,该计算机设备中可集成本发明实施例提供的模型训练装置和/或人体姿态检测装置。
具体的,如图6所示,计算机设备700包括存储器701、处理器702及存储在存储器701 上并可在处理器702上运行的计算机程序,所述处理器702执行所述计算机程序时实现本发明实施例提供的模型训练方法和/或人体姿态检测方法。
同时,本发明实施例六还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例提供的模型训练方法和/或人体姿态检测方法。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
上述实施例中提供的模型训练装置、人体姿态检测装置、存储介质以及计算机设备可执行本发明相应实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明相应实施例所提供的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (17)

1.一种模型训练方法,其特征在于,包括:
将当前迭代下对应的图像训练样本输入至当前的姿态检测网络模型,并根据所述图像训练样本的数据形式,得到所述当前迭代下对应的第一损失函数;
根据获得的相机参数对所述姿态检测网络模型的当前输出结果进行重投影处理,并基于重投影处理结果得到所述当前迭代下对应的第二损失函数;
基于通过所述第一损失函数及所述第二损失函数形成的拟合损失函数,对所述姿态检测网络模型进行反向传播,得到用于下一迭代的姿态检测网络模型,进入下一迭代直至满足迭代结束条件,以实现对姿态检测网络模型的训练。
2.根据权利要求1所述的方法,其特征在于,所述姿态检测网络模型为采用全卷积网络结构构建的热图回归网络模型;
图像训练样本的数据形式为:自然场景样本图像-关键点二维坐标的标注形式、或者约束场景样本图像-关键点二维坐标以及关键点三维坐标的标注形式。
3.根据权利要求2所述的方法,其特征在于,所述根据所述图像训练样本的数据形式,得到所述当前迭代下对应的第一损失函数,包括:
当所述图像训练样本的数据形式为自然场景样本图像-关键点二维坐标的标注形式时,从所述姿态检测网络模型的当前输出结果中提取第一当前概率热度图;
获取预先确定的第一标准概率热度图,并根据所述第一标准概率热度图与所述第一当前概率热度图,得到所述当前迭代下对应的第一损失函数;
其中,所述第一标准概率热度图通过对所述图像训练样本中关键点二维坐标的转化确定。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一标准概率热度图与所述第一当前概率热度图,得到所述当前迭代下对应的第一损失函数,包括:
确定所述第一标准概率热度图所对应数据与所述第一当前概率热度图所对应数据的第一差值表达式;
将基于所述第一差值表达式所形成欧几里得范数的第一平方表达式确定为所述当前迭代下对应的第一损失函数。
5.根据权利要求2所述的方法,其特征在于,所述根据所述图像训练样本的数据形式,得到所述当前迭代下对应的第一损失函数,包括:
当所述图像训练样本的数据形式为约束场景样本图像-关键点二维坐标以及关键点三维坐标的标注形式时,获得所述姿态检测网络模型输出的当前热度图集合,其中,当前热度图集合包含一张第二当前概率热度图以及当前三维坐标热度图组;
获取预先确定的标准热度图集合,并根据所述标准热度图集合与所述当前热度图集合,得到所述当前迭代下对应的第一损失函数;
其中,所述标准热度图集合通过对所述图像训练样本中关键点三维坐标的转化确定,所述标准热度图集合包含一张第二标准概率热度图及标准三维坐标热度图组。
6.根据权利要求5所述的方法,其特征在于,所述根据所述标准热度图集合与所述当前热度图集合,得到所述当前迭代下对应的第一损失函数,包括:
确定所述第二标准概率热度图所对应数据与所述第二当前概率热度图所对应数据的第二差值表达式;
确定所述标准三维坐标热度图组所对应数据与所述当前三维坐标热度图组所对应数据的第三差值表达式;
基于所述第二差值表达式形成欧几里得范数的第二平方表达式,并基于所述第三差值表达式形成欧几里得范数的第三平方表达式;
将所述第二平方表达式与所述第三平方表达式相加,构成所述当前迭代下对应的第一损失函数。
7.根据权利要求1所述的方法,其特征在于,所述根据获得的相机参数对所述姿态检测网络模型的当前输出结果进行重投影处理,包括:
获取包含在所述图像训练样本中的相机参数,或者,获取所述姿态检测网络模型的一个输出分支对应所述图像训练样本输出的相机参数;
从所述姿态检测网络模型的当前输出结果中提取当前三维横坐标热度图以及当前三维纵坐标热度图;
根据所述相机参数、当前三维横坐标热度图以及当前三维纵坐标热度图,结合设定的重投影公式,确定所述图像训练样本中关键点的当前二维横坐标热度图以及当前二维纵坐标热度图;
将所述当前二维横坐标热度图以及当前二维纵坐标热度图形成的当前二维横坐标热度图组作为重投影处理结果。
8.根据权利要求7所述的方法,其特征在于,所述基于重投影处理结果得到所述当前迭代下对应的第二损失函数,包括:
获得预先确定的标准二维坐标热度图组,其中,所述标准二维坐标热度图组通过对所述图像训练样本中关键点二维坐标或关键点三维坐标的转化确定,包含标准二维横坐标热度图以及标准二维纵坐标热度图;
确定所述标准二维坐标热度图组所对应数据与所述当前二维横坐标热度图组所对应数据的第四差值表达式;
将基于所述第四差值表达式所形成欧几里得范数的第四平方表达式确定为所述当前迭代下对应的第二损失函数。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述拟合损失函数为所述第一损失函数与所述第二损失函数之和。
10.根据权利要求1-8任一项所述的方法,其特征在于,所述图像训练样本中的样本图像为通过单目摄像头捕获的单目图像。
11.一种人体姿态检测方法,其特征在于,包括:
获取待检测的人物实景图像;
将所述人物实景图像输入至预设姿态检测网络模型中,其中,所述预设姿态检测网络模型采用权利要求1-10任一项所述的方法训练得到;
根据所述预设姿态检测网络模型的输出结果,对所述人物实景图像的人物进行人体姿态检测,获得所述人物各关键点的三维空间位置坐标。
12.根据权利要求11所述的方法,其特征在于,所述输出结果中包括各关键点的概率热度图以及三维坐标热度图组;
所述根据所述预设姿态检测网络模型的输出结果,对所述人物实景图像的人物进行人体姿态检测,获得所述人物各关键点的三维空间位置坐标,包括:
针对每个关键点,从所述概率热度图中确定最大概率值对应的概率坐标点,并获得所述概率坐标点的当前位置坐标;
在所述三维坐标图组包括的三维横坐标热度图、三维纵坐标热度图以及三维竖坐标热度图中查找所述当前位置坐标处于对应的热度值;
基于各所述热度值构成所述关键点的三维空间位置坐标。
13.根据权利要求11或12所述的方法,其特征在于,还包括:
基于所述人物实景图像中人物各关键点的三维空间位置坐标,将所述人物实景图像转换为相应的人物卡通图像。
14.一种模型训练装置,其特征在于,包括:
第一信息确定模块,用于将当前迭代下对应的图像训练样本输入至当前的姿态检测网络模型,并根据所述图像训练样本的数据形式,得到所述当前迭代下对应的第一损失函数;
第二信息确定模块,用于根据获得的相机参数对所述姿态检测网络模型的当前输出结果进行重投影处理,并基于重投影处理结果得到所述当前迭代下对应的第二损失函数;
模型训练模块,用于基于通过所述第一损失函数及所述第二损失函数形成的拟合损失函数,对所述姿态检测网络模型进行反向传播,得到用于下一迭代的姿态检测网络模型,进入下一迭代直至满足迭代结束条件,以实现对姿态检测网络模型的训练。
15.一种人体姿态检测装置,其特征在于,包括:
信息获取模块,用于获取待检测的人物实景图像;
信息输入模块,用于将所述人物实景图像输入至预设姿态检测网络模型中,其中,所述预设姿态检测网络模型采用权利要求1-10任一项所述的方法训练得到;
信息确定模块,用于根据所述预设姿态检测网络模型的输出结果,对所述人物实景图像的人物进行人体姿态检测,获得所述人物各关键点的三维空间位置坐标。
16.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-13任一项所述的方法。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-11中任一所述的方法。
CN202011176560.4A 2020-10-28 2020-10-28 模型训练方法、人体姿态检测方法、装置、设备及介质 Pending CN112307940A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202011176560.4A CN112307940A (zh) 2020-10-28 2020-10-28 模型训练方法、人体姿态检测方法、装置、设备及介质
EP21885118.6A EP4206976A1 (en) 2020-10-28 2021-10-26 Model training method and apparatus, body posture detection method and apparatus, and device and storage medium
JP2023523270A JP2023545199A (ja) 2020-10-28 2021-10-26 モデル訓練方法、人体姿勢検出方法、装置、デバイスおよび記憶媒体
PCT/CN2021/126275 WO2022089391A1 (zh) 2020-10-28 2021-10-26 模型训练方法、人体姿态检测方法、装置、设备及存储介质
US18/248,353 US20230377190A1 (en) 2020-10-28 2021-10-26 Method and device for training models, method and device for detecting body postures, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011176560.4A CN112307940A (zh) 2020-10-28 2020-10-28 模型训练方法、人体姿态检测方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN112307940A true CN112307940A (zh) 2021-02-02

Family

ID=74330870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011176560.4A Pending CN112307940A (zh) 2020-10-28 2020-10-28 模型训练方法、人体姿态检测方法、装置、设备及介质

Country Status (5)

Country Link
US (1) US20230377190A1 (zh)
EP (1) EP4206976A1 (zh)
JP (1) JP2023545199A (zh)
CN (1) CN112307940A (zh)
WO (1) WO2022089391A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966574A (zh) * 2021-02-22 2021-06-15 厦门艾地运动科技有限公司 人体三维关键点预测方法、装置及电子设备
CN113673357A (zh) * 2021-07-27 2021-11-19 浙江大华技术股份有限公司 停车场寻车方法、设备及存储介质
WO2022089391A1 (zh) * 2020-10-28 2022-05-05 百果园技术(新加坡)有限公司 模型训练方法、人体姿态检测方法、装置、设备及存储介质
CN114565784A (zh) * 2022-03-15 2022-05-31 平安科技(深圳)有限公司 基于聚类算法的行人异常行为检测方法及装置、存储介质
CN115019136A (zh) * 2022-08-05 2022-09-06 山东圣点世纪科技有限公司 抗边界点漂移的目标关键点检测模型训练方法及检测方法
CN115120837A (zh) * 2022-06-27 2022-09-30 慕思健康睡眠股份有限公司 基于深度学习的睡眠环境调节方法、系统、装置及介质
CN115331265A (zh) * 2022-10-17 2022-11-11 广州趣丸网络科技有限公司 姿态检测模型的训练方法和数字人的驱动方法、装置
WO2023061195A1 (zh) * 2021-10-15 2023-04-20 腾讯科技(深圳)有限公司 图像获取模型的训练方法、图像检测方法、装置及设备

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115512341B (zh) * 2022-09-15 2023-10-27 粤丰科盈智能投资(广东)有限公司 基于高斯分布拟合的目标检测方法、装置及计算机介质
CN116152853A (zh) * 2022-11-30 2023-05-23 珠海视熙科技有限公司 一种坐姿检测方法、装置、智能台灯及存储介质
CN115563571B (zh) * 2022-12-07 2023-04-07 中国西安卫星测控中心 一种基于深度神经网络的定姿回归模型的构建方法
CN115958609B (zh) * 2023-03-16 2023-07-14 山东卓朗检测股份有限公司 基于智能机器人自动控制系统的指令数据安全预警方法
CN116309591B (zh) * 2023-05-19 2023-08-25 杭州健培科技有限公司 一种医学影像3d关键点检测方法、模型训练方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180174046A1 (en) * 2016-12-15 2018-06-21 Beijing Kuangshi Technology Co., Ltd. Target detection method and device, neural network training method and device
CN108875833A (zh) * 2018-06-22 2018-11-23 北京智能管家科技有限公司 神经网络的训练方法、人脸识别方法及装置
CN108898628A (zh) * 2018-06-21 2018-11-27 北京纵目安驰智能科技有限公司 基于单目的车辆三维目标姿态估计方法、系统、终端和存储介质
CN109063301A (zh) * 2018-07-24 2018-12-21 杭州师范大学 一种基于热力图的单幅图像室内物体姿态估计方法
CN109859296A (zh) * 2019-02-01 2019-06-07 腾讯科技(深圳)有限公司 Smpl参数预测模型的训练方法、服务器及存储介质
CN110020633A (zh) * 2019-04-12 2019-07-16 腾讯科技(深圳)有限公司 姿态识别模型的训练方法、图像识别方法及装置
CN111311729A (zh) * 2020-01-18 2020-06-19 西安电子科技大学 一种基于双向投影网络的自然场景三维人体姿态重建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307940A (zh) * 2020-10-28 2021-02-02 有半岛(北京)信息科技有限公司 模型训练方法、人体姿态检测方法、装置、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180174046A1 (en) * 2016-12-15 2018-06-21 Beijing Kuangshi Technology Co., Ltd. Target detection method and device, neural network training method and device
CN108898628A (zh) * 2018-06-21 2018-11-27 北京纵目安驰智能科技有限公司 基于单目的车辆三维目标姿态估计方法、系统、终端和存储介质
CN108875833A (zh) * 2018-06-22 2018-11-23 北京智能管家科技有限公司 神经网络的训练方法、人脸识别方法及装置
CN109063301A (zh) * 2018-07-24 2018-12-21 杭州师范大学 一种基于热力图的单幅图像室内物体姿态估计方法
CN109859296A (zh) * 2019-02-01 2019-06-07 腾讯科技(深圳)有限公司 Smpl参数预测模型的训练方法、服务器及存储介质
CN110020633A (zh) * 2019-04-12 2019-07-16 腾讯科技(深圳)有限公司 姿态识别模型的训练方法、图像识别方法及装置
CN111311729A (zh) * 2020-01-18 2020-06-19 西安电子科技大学 一种基于双向投影网络的自然场景三维人体姿态重建方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022089391A1 (zh) * 2020-10-28 2022-05-05 百果园技术(新加坡)有限公司 模型训练方法、人体姿态检测方法、装置、设备及存储介质
CN112966574A (zh) * 2021-02-22 2021-06-15 厦门艾地运动科技有限公司 人体三维关键点预测方法、装置及电子设备
CN113673357A (zh) * 2021-07-27 2021-11-19 浙江大华技术股份有限公司 停车场寻车方法、设备及存储介质
WO2023061195A1 (zh) * 2021-10-15 2023-04-20 腾讯科技(深圳)有限公司 图像获取模型的训练方法、图像检测方法、装置及设备
CN114565784A (zh) * 2022-03-15 2022-05-31 平安科技(深圳)有限公司 基于聚类算法的行人异常行为检测方法及装置、存储介质
CN115120837A (zh) * 2022-06-27 2022-09-30 慕思健康睡眠股份有限公司 基于深度学习的睡眠环境调节方法、系统、装置及介质
CN115019136A (zh) * 2022-08-05 2022-09-06 山东圣点世纪科技有限公司 抗边界点漂移的目标关键点检测模型训练方法及检测方法
CN115331265A (zh) * 2022-10-17 2022-11-11 广州趣丸网络科技有限公司 姿态检测模型的训练方法和数字人的驱动方法、装置

Also Published As

Publication number Publication date
WO2022089391A1 (zh) 2022-05-05
US20230377190A1 (en) 2023-11-23
WO2022089391A9 (zh) 2022-10-20
EP4206976A1 (en) 2023-07-05
JP2023545199A (ja) 2023-10-26

Similar Documents

Publication Publication Date Title
CN112307940A (zh) 模型训练方法、人体姿态检测方法、装置、设备及介质
US20220044352A1 (en) Cross-domain image translation
CN110246181B (zh) 基于锚点的姿态估计模型训练方法、姿态估计方法和系统
CN110969648B (zh) 一种基于点云序列数据的3d目标跟踪方法及系统
CN111784776B (zh) 视觉定位方法及装置、计算机可读介质和电子设备
CN111368733B (zh) 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端
CN115661246A (zh) 一种基于自监督学习的姿态估计方法
CN104463962B (zh) 基于gps信息视频的三维场景重建方法
Zhang Innovation of English teaching model based on machine learning neural network and image super resolution
Feng Mask RCNN-based single shot multibox detector for gesture recognition in physical education
CN112669452B (zh) 一种基于卷积神经网络多分支结构的物体定位方法
CN111582449B (zh) 一种目标域检测网络的训练方法、装置、设备及存储介质
CN110849380B (zh) 一种基于协同vslam的地图对齐方法及系统
CN112270748A (zh) 基于图像的三维重建方法及装置
Wang et al. 3D object detection algorithm for panoramic images with multi-scale convolutional neural network
CN110135474A (zh) 一种基于深度学习的倾斜航空影像匹配方法和系统
WO2019047607A1 (zh) 一种端到端自动驾驶系统的数据处理方法及装置
Wang et al. An Improved Convolutional Neural Network‐Based Scene Image Recognition Method
Lin et al. 6D object pose estimation with pairwise compatible geometric features
CN116993924B (zh) 三维场景建模方法及装置、存储介质、计算机设备
CN114781642B (zh) 一种跨媒体对应知识的生成方法和装置
WO2023240583A1 (zh) 一种跨媒体对应知识的生成方法和装置
CN117011629A (zh) 目标检测模型的训练方法、装置、设备及存储介质
CN118071807A (zh) 单目深度估计方法、装置、计算机设备和存储介质
Zhang et al. Vehicle-Road Multi-View Interactive Data Fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination