CN116912948B - 一种数字人的训练方法、系统及驱动系统 - Google Patents

一种数字人的训练方法、系统及驱动系统 Download PDF

Info

Publication number
CN116912948B
CN116912948B CN202311166705.6A CN202311166705A CN116912948B CN 116912948 B CN116912948 B CN 116912948B CN 202311166705 A CN202311166705 A CN 202311166705A CN 116912948 B CN116912948 B CN 116912948B
Authority
CN
China
Prior art keywords
data
human body
estimation
optimization
body posture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311166705.6A
Other languages
English (en)
Other versions
CN116912948A (zh
Inventor
司马华鹏
姜皓
范宏伟
屈奇勋
李佳斌
栾锦泰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Silicon Intelligence Technology Co Ltd
Original Assignee
Nanjing Silicon Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Silicon Intelligence Technology Co Ltd filed Critical Nanjing Silicon Intelligence Technology Co Ltd
Priority to CN202311166705.6A priority Critical patent/CN116912948B/zh
Publication of CN116912948A publication Critical patent/CN116912948A/zh
Application granted granted Critical
Publication of CN116912948B publication Critical patent/CN116912948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本申请提供一种数字人的训练方法、系统及驱动系统。所述方法通过提取训练数据中的人体姿态估计数据,并将人体姿态估计数据输入至优化姿态估计网络以得到人体姿态优化数据。根据优化姿态估计网络的损失函数,计算人体姿态优化数据中的位置优化数据与加速度优化数据的生成损失,以最小化位置估计数据、加速度估计数据与真实值的误差。以驱动优化姿态估计网络更新网络参数,以得到基于优化姿态估计网络的最优驱动模型。通过最小化位置估计数据、加速度估计数据与真实值的误差,降低因训练数据中样本任务身体各部位遮挡引起的抖动,以提高识别人体姿态数据的准确度。

Description

一种数字人的训练方法、系统及驱动系统
技术领域
本申请涉及数字人技术领域,尤其涉及一种数字人的训练方法、系统及驱动系统。
背景技术
在数字人的训练以及驱动过程中,可以通过图像采集装置采集驱动目标的运动视频,并根据运动视频中目标执行的动作驱动数字人执行相同的动作。
在运动视频中,可以提取目标的表情姿态信息、身体动作信息、手势动作信息以及身体根位置信息,并对上述信息进行时空融合,以获得目标的姿态估计信息。姿态估计信息可以为目标身体对应的关键点的三维旋转角度。进而根据姿态估计信息驱动数字人执行相同的动作。
但在以运动视频驱动数字人时,运动视频中目标身体的各个部位存在遮挡现象,因此目标的多个部位在训练样本中的分布不均匀,容易导致部分关键点位置出现估计偏差。此外,由于各个部位之间的遮挡,容易在训练过程中产生抖动,导致姿态估计结果准确率降低。
发明内容
本申请提供一种数字人的训练方法、系统及驱动系统,以解决因训练数字人的过程中容易产生抖动,导致姿态估计结果准确率降低的问题。
第一方面,本申请提供一种数字人的训练方法,所述方法包括:
获取训练数据,以及从所述训练数据中提取人体姿态估计数据;所述训练数据为带有姿态标签的图像数据,所述图像数据中包括单个样本人物图像,不同图像数据中的样本人物的姿态动作不同;
将所述人体姿态估计数据中的位置估计数据、速度估计数据以及加速度估计数据输入至优化姿态估计网络,得到人体姿态优化数据;
根据优化姿态估计网络的损失函数,计算所述人体姿态优化数据中的位置优化数据与加速度优化数据的生成损失,以最小化所述位置估计数据、加速度估计数据与真实值的误差;
根据所述损失函数,驱动所述优化姿态估计网络更新网络参数,以得到基于优化姿态估计网络的最优驱动模型。
在一些可行的实施例中,获取训练数据时,所述方法还包括:
获取所述样本人物图像在所述训练数据中占用的图像比例;
若所述图像比例小于图像比例阈值,则对所述样本人物图像执行裁剪操作,以增加所述样本人物图像的图像比例。
在一些可行的实施例中,所述方法还包括:
调用人体关键点定义模型;
根据所述人体关键点定义模型,在所述样本人物图像上标记人体关键点。
在一些可行的实施例中,提取人体姿态估计数据时,所述方法包括:
将所述训练数据输入至姿态估计网络,以得到人体姿态估计数据;所述姿态估计网络包括多个沿时间轴的残差连接的全连接层;其中,所述人体姿态估计数据由当前帧的训练数据结合当前帧的前一帧的估计结果得到。
在一些可行的实施例中,所述方法还包括:
采集驱动视频,所述驱动视频的驱动帧图像中包括单一驱动人物图像;
根据所述人体关键点定义模型,在所述单一驱动人物图像上标记人体关键点;
将标记有人体关键的单一驱动人物图像输入至姿态估计网络,得到人体姿态估计数据;
将所述人体姿态估计数据输入至最优驱动模型,以驱动数字人执行所述单一驱动人物的动作。
在一些可行的实施例中,所述优化姿态估计网络包括第一分支层、第二分支层以及第三分支层;所述第一分支层、第二分支层以及第三分支层为相互平行的分支层;所述第一分支层用于计算人体姿态优化数据中的位置优化数据;所述第二分支层用于计算人体姿态优化数据中的速度优化数据;所述第三分支层用于计算人体姿态优化数据中的加速度优化数据;所述第一分支层、第二分支层以及第三分支层输出的数据分别由全连接层输出后,进入线性融合层进行特征融合,以得到人体姿态优化数据。
在一些可行的实施例中,将所述人体姿态估计数据中的位置估计数据、速度估计数据以及加速度估计数据输入至优化姿态估计网络,得到人体姿态优化数据,还包括:
定义所述人体姿态估计数据的训练分布、非平衡训练分布、平衡测试分布、均匀分布与其各自对应的标签条件分布,以及建立关联关系;
估计所述均匀分布对应的标签条件分布,以计算训练分布对应的标签条件分布的最大似然损失;
根据所述最大似然损失得到平衡均方误差损失函数,以提高所述人体姿态估计数据样本的平衡性。
在一些可行的实施例中,根据优化姿态估计网络的损失函数,计算所述人体姿态优化数据中的位置优化数据与加速度优化数据的生成损失,包括:
根据所述位置估计数据对应的真实值与位置估计数据建立位置优化目标值;
以及,根据所述加速度估计数据对应的真实值与加速度估计数据建立加速度优化目标值;
组合所述位置优化目标值与所述加速度优化目标值,得到优化姿态估计网络的损失函数的目标值,以建立优化姿态估计网络的损失函数。
第二方面,本申请提供一种数字人的训练系统,包括:预处理模块、训练模块以及控制模块;
所述预处理模块用于获取训练数据,以及从所述训练数据中提取人体姿态估计数据;所述训练数据为图像数据,所述图像数据中包括单个样本人物图像,不同图像数据中的样本人物的姿态动作不同;
所述训练模块用于将所述人体姿态估计数据中的位置估计数据、速度估计数据以及加速度估计数据输入至优化姿态估计网络,得到人体姿态优化数据;
所述控制模块用于计算所述人体姿态优化数据的位置优化数据与加速度优化数据的损失函数;
所述控制模块还用于根据所述损失函数,驱动所述优化姿态估计网络更新网络参数,以得到基于优化姿态估计网络的最优驱动模型。
第三方面,本申请提供一种数字人的驱动系统,包括:可与用户设备通信的服务器;所述服务器包括由上述方法实施例中的方法训练得到的最优驱动模型;所述服务器被配置为:
接收所述用户设备发送的驱动视频,所述驱动视频的驱动帧图像中包括单一驱动人物图像;
根据所述人体关键点定义模型,在所述单一驱动人物图像上标记人体关键点;
将标记有人体关键的单一驱动人物图像输入至姿态估计网络,得到人体姿态估计数据;
将所述人体姿态估计数据输入至最优驱动模型,以得到人体姿态优化数据;
将所述人体姿态优化数据回传至所述用户设备,以驱动所述用户设备中的数字人执行所述单一驱动人物的动作,
或,根据所述人体姿态优化数据驱动服务器中的数字人执行所述单一驱动人物的动作,并将所述服务器中的数字人数据回传至所述用户设备,以在所述用户设备中显示。
由上述技术内容可知,本申请提供一种数字人训练方法、系统及驱动系统。所述方法通过提取训练数据中的人体姿态估计数据,并将人体姿态估计数据输入至优化姿态估计网络以得到人体姿态优化数据。根据优化姿态估计网络的损失函数,计算人体姿态优化数据中的位置优化数据与加速度优化数据的生成损失,以最小化位置估计数据、加速度估计数据与真实值的误差。以驱动优化姿态估计网络更新网络参数,以得到基于优化姿态估计网络的最优驱动模型。通过最小化位置估计数据、加速度估计数据与真实值的误差,降低因训练数据中样本任务身体各部位遮挡引起的抖动,以提高识别人体姿态数据的准确度。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的数字人训练方法流程示意图;
图2为本申请实施例提供的人体关键点标记示意图;
图3为本申请实施例提供的基础姿态估计网络示意图;
图4为本申请实施例提供的优化姿态估计网络示意图。
具体实施方式
下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。
数字人可以模仿人的行为执行对应动作,在单目视觉识别场景中,可以通过包含人的肢体动作的样本数据训练数字人模型。数字人模型应用时,通过人的肢体动作、表情驱动数字人模型输出数字人,输出的数字人执行与人相同的肢体动作、表情。
训练数字人模型的过程中,应尽量采用执行不同动作的样本人物作为训练样本,以丰富样本,提升数字人模型训练效果。但在一些实施例中,训练样本中的样本不平衡,样本人物执行动作的种类较为单一,影响数字人模型的训练效果。
此外,在训练数字人模型时,需要采集样本人物的人体关键点,以更好的识别样本人物身体各部位在执行不同的动作时所处的位置。而在训练样本中,样本人物在执行不同的动作时,身体各部位之间存在遮挡现象,使得人体关键点识别准确率降低,导致人体姿态估计结果存在抖动,进而导致模型训练效果较差。
基于上述问题,如图1所示,本申请提供一种数字人的训练方法,所述方法包括:
S100:获取训练数据,以及从所述训练数据中提取人体姿态估计数据;
所述训练数据为带有姿态标签的图像数据,所述图像数据中包括单个样本人物图像,不同图像数据中的样本人物的姿态动作不同。通过执行多种动作的样本人物可以提高样本丰富度,以提高模型训练的准确率。
在一些实施例中,提取人体姿态估计数据包括从训练数据中提取人体关键点以及人体关键点对应的三维旋转欧拉角。根据训练数据定义人体关键点时会存在位置误差,所述位置误差为三维向量,三维向量的三个维度误差的结合则可以用角度误差表示,即三维旋转欧拉角会随位置误差存在误差。
为了便于训练数字人模型,训练数据可以为二维彩色RGB图像数据,其分辨率则不低于512像素*512像素以保证图像数据质量。训练数据可以为多个单一图像数据的集合,也可以在一段视频中通过抽帧方式获取。图像数据中的样本人物比例越大,则更有利于提供训练特征以用于模型训练,因此还可以根据图像数据中的样本人物比例,对训练数据执行预处理。即所述方法获取训练数据时,还包括:
获取所述样本人物图像在所述训练数据中占用的图像比例;
若所述图像比例小于图像比例阈值,则对所述样本人物图像执行裁剪操作,以增加所述样本人物图像的图像比例。
在一些实施例中,可以在训练数据中通过计算样本人物图像占用的像素个数与图像数据的像素个数以计算样本人物图像占用的图像比例。为了使得训练数据提供训练特征的效果更好,可以设置图像比例阈值以对数据进行筛选。在样本人物图像的图像比例小于图像比例阈值时,可以通过裁剪样本人物以外的图像数据,以使得样本人物的图像比例大于图像比例阈值,进而更好的提供训练特征。
在样本人物的图像比例符合图像比例阈值的基础上,如图2所示,可以结合人体关键点定义模型定义人体关键点。即所述方法在定义人体关键点时,还包括:
调用人体关键点定义模型;
根据所述人体关键点定义模型,在所述样本人物图像上标记人体关键点。
人体关键点定义模型可以采用现有模型,例如SMPL模型(Skinned Multi—PersonLinear Model)。在一些实施例中,也可以采用自定义的关键点定义模型,以适应于多种应用场景。以SMPL模型为例,可以在训练数据的样本人物图像上定义22个人体关键点,所述人体关键点包括:骨盆、左胯、右胯、第一脊柱、左膝、右膝、第二脊柱、左脚踝、右脚踝、第三脊柱、左脚趾、右脚趾、脖子、左锁骨、右锁骨、下颌、左肩、右肩、左肘、右肘、左手腕,右手腕。
基于上述人体关键点,可以建立坐标系以使得人体关键点包括人体关键点坐标,在训练数据连续时,通过计算人体关键点的坐标变化还可以计算人体关键点的速度、加速度等运动特征。进而便于根据人体关键点坐标对位置误差、角度误差进行优化。
位置误差与角度误差会在姿态估计时产生长期抖动,导致误差值在一定范围内波动,难以通过普通的滤波手段去除。因此需要对位置误差与三维旋转欧拉角误差进行优化,以降低因位置误差与三维旋转欧拉角误差估计不准导致的长期抖动现象。
在对位置误差与三维旋转欧拉角误差进行优化之前,可以基于包括人体关键点坐标的训练数据获取样本人物的人体姿态估计数据。所述方法提取人体姿态估计数据时,不包括:
将所述训练数据输入至姿态估计网络,以得到人体姿态估计数据;所述姿态估计网络包括多个沿时间轴的残差连接的全连接层;其中,所述人体姿态估计数据由当前帧的训练数据结合当前帧的前一帧的估计结果得到。
如图3所示,姿态估计网络是一种基础平滑网络模型,可用于基于人体关键点获取包括三维旋转欧拉角基础估计值的人体姿态估计数据,以用于后续优化。所述人体姿态估计数据中包括三维旋转欧拉角的估计值,三维旋转欧拉角的估计值由人体关键点位置数据、速度数据、加速度数据的估计值确定。所述估计值均可以用于后续的优化,以在估计值的基础上得到降低抖动影响的优化值。
S200:将所述人体姿态估计数据中的位置估计数据、速度估计数据以及加速度估计数据输入至优化姿态估计网络,得到人体姿态优化数据;
如图4所示,在一些实施例中,所述优化姿态估计网络包括第一分支层、第二分支层以及第三分支层;所述第一分支层、第二分支层以及第三分支层为相互平行的分支层;所述第一分支层用于计算人体姿态优化数据中的位置优化数据;所述第二分支层用于计算人体姿态优化数据中的速度优化数据;所述第三分支层用于计算人体姿态优化数据中的加速度优化数据;所述第一分支层、第二分支层以及第三分支层输出的数据分别由全连接层输出后,进入线性融合层进行特征融合,以得到人体姿态优化数据。
优化姿态估计网络为一种运动优化平滑网络,优化网络的顶层作为基础分支,用于改进位置信息。基于动作叠加原理,优化网络中还提供两个分支,分别用于改进速度信息和加速度信息。位置估计数据、速度估计数据、加速度估计数据可以组成人体关键点的三维向量,并共同决定三维旋转欧拉角的估计值。因此可以基于对位置估计数据、速度估计数据、加速度估计数据的优化对三维旋转欧拉角进行优化,以降低长期抖动的影响。
三个维度的估计值,对应于优化姿态估计网络的三个分支。将人体姿态估计数据输入至优化姿态估计网络可以用公式表示为:
其中,,/>为通过优化改进的人体姿态估计结果;/>表示人体关键点的三维旋转欧拉角;/>为输入的图像帧数;/>,/>为定义的人体关键点个数,/>为输出的维数,在三维人体姿态估计问题中,/>,/>为基于基础平滑网络计算人体姿态估计算法输出的关键点欧拉角估计值。
输入人体姿态估计数据的优化姿态估计网络的每一层的输出可以通过如下公式计算:
其中,l表示网络的第l层;为非线性激活函数,非线性激活函数可以选用LeakeyReLU激活函数,非线性激活函数也可以根据预期训练效果进行调整;/>和/>分别是在第t帧学习的权重和偏置,并且在不同第i轴间共享。此外,通过采用滑动窗口的方式,设定滑动窗/>,则可以基于当前帧,结合/>帧的计算结果,实时更新当前帧的姿态估计值。
速度估计数据与加速度估计数据从物理意义上考虑,分别为位置估计数据的一阶运动信息和二阶运动信息,可用于提高优化姿态估计网络的收敛速度,以提高模型训练效率。基于输入,可以通过速度及加速度公式计算通道/>中每个轴的速度和加速度:
其中,速度、加速度均为某一帧对应的瞬时值,为了获得长期的时间信息,则可以采用速度及加速度公式改进速度和加速度。并通过在优化姿态估计网络的三个分支的顶部执行线性融合层,以聚合不同运动阶数的信息得到最终的姿态估计结果。
S300:根据优化姿态估计网络的损失函数,计算所述人体姿态优化数据中的位置优化数据与加速度优化数据的生成损失,以最小化所述位置估计数据、加速度估计数据与真实值的误差;
在一些实施例中,通过对位置数据与加速度数据进行优化,以提高三维旋转欧拉角的估计准确值。所述根据优化姿态估计网络的损失函数,计算所述人体姿态优化数据中的位置优化数据与加速度优化数据的生成损失,包括:
根据所述位置估计数据对应的真实值与位置估计数据建立位置优化目标值;
以及,根据所述加速度估计数据对应的真实值与加速度估计数据建立加速度优化目标值;
组合所述位置优化目标值与所述加速度优化目标值,得到优化姿态估计网络的损失函数的目标值,以建立优化姿态估计网络的损失函数。
在所述实施例中,可以采用如下损失函数分别对位置数据和加速度数据进行优化:
其中,是根据预测的姿态/>计算的加速度,/>是加速度的真实值。/>为位置数据的损失函数,/>为加速度数据的损失函数。分别基于位置数据和加速度数据构建损失函数,可以对位置数据和加速度数据进行优化,以减轻因训练数据中的样本人物身体各部位遮挡导致的长期抖动问题。可以理解的是,每次训练都会根据损失函数计算生成损失,以判断当前模型的训练效果。
S400:根据所述损失函数,驱动所述优化姿态估计网络更新网络参数,以得到基于优化姿态估计网络的最优驱动模型。
和/>组合起来作为优化姿态估计网络学习的目标值,在根据损失函数计算得到的生成损失未达到目标值时,则可调整优化姿态估计网络的训练参数,进行迭代训练,以得到最优训练模型。
需要说明的是,训练样本中人体关键点出现的频率不同,容易导致样本不平衡进而使得模型训练效果不佳,因此还需要建立用于平衡样本的损失函数,以对样本的平衡性进行优化,提升模型的训练效果。在一些实施例中,用于平衡样本的训练方法还包括:
定义所述人体姿态估计数据的训练分布、非平衡训练分布、平衡测试分布、均匀分布与其各自对应的标签条件分布,以及建立关联关系;
估计所述均匀分布对应的标签条件分布,以计算训练分布对应的标签条件分布的最大似然损失;
根据所述最大似然损失得到平衡均方误差损失函数,以提高所述人体姿态估计数据样本的平衡性。
在平衡样本的过程中,可以预先定义分布数据,例如定义为训练分布,为非平衡训练分布,/>为平衡测试分布,/>为均匀分布。其中,和/>拥有相同的标签条件分布/>。/>和/>之间的关系可以通过分布数据关系公式表达:
如所述分布数据关系公式所示,可以通过最小化的NLL(negativelog-likelihood,负对数似然)损失的方式估计/>。并通过回归器根据期望表达公式直接估计期望的/>
根据所述分布数据关系公式,以及期望表达公式,在模型的训练过程中可以预先预测,即当前的训练集标注人体关键点条件下,人体关键点的三维旋转欧拉角的估计值。并将/>按照分布数据关系公式转换为/>,进而通过计算最大似然损失更新/>。在模型的推断过程中,直接通过回归器输出预测值/>,其转换后的条件概率的最大似然损失函数即为用于平衡样本的平衡均方误差损失函数。
基于回归器的预测值和先验训练标签分布/>,平衡均方误差损失可以通过平衡均方误差损失函数公式表示为:
其中,隐藏了一个常数项/>。平衡均方差损失由两部分组成,第一部分与标准均方误差损失相同,第二部分是需要进行一个积分运算的平衡项。当训练标签分布/>为均匀分布时,新的平衡项等于一个常数,因此,标准均方差损失可以看做平衡均方差损失的一个特例。
如平衡均方误差损失函数所示,可以利用平衡均方误差的方法消除训练集和测试集之间的样本分布分不匹配性,以缓解因部分人体关键点出现频率低导致训练样本不平衡,影响模型准确性的问题。
通过位置损失函数、加速度损失函数、平衡均方误差损失函数迭代得到的模型,可应用于根据驱动人物生成执行与驱动人物相同动作的数字人。在一些实施例中,还包括:
采集驱动视频,所述驱动视频的驱动帧图像中包括单一驱动人物图像;
根据所述人体关键点定义模型,在所述单一驱动人物图像上标记人体关键点;
将标记有人体关键的单一驱动人物图像输入至姿态估计网络,得到人体姿态估计数据;
将所述人体姿态估计数据输入至最优驱动模型,以驱动数字人执行所述单一驱动人物的动作。
在一些实施例中,可以通过摄像头持续采集驱动人物的动作,摄像头的视频分辨率为720P,帧率为30帧/秒。采集到驱动视频后,对通过抽帧操作得到的图像数据中的驱动人物进行关键点标记。并将带有关键点标记的图像数据输入至训练好的模型中的姿态估计网络,以得到人体姿态估计数据。又将人体姿态估计数据输入至训练好的模型中的优化姿态估计网络,以消除抖动,并由训练好的模型输出数字人。所述数字人可与驱动人物执行相同的动作。
在一些实施例中,本申请提供一种数字人的训练系统,其特征在于,包括:预处理模块、训练模块以及控制模块;
所述预处理模块用于获取训练数据,以及从所述训练数据中提取人体姿态估计数据;所述训练数据为图像数据,所述图像数据中包括单个样本人物图像,不同图像数据中的样本人物的姿态动作不同;
所述训练模块用于将所述人体姿态估计数据中的位置估计数据、速度估计数据以及加速度估计数据输入至优化姿态估计网络,得到人体姿态优化数据;
所述控制模块用于计算所述人体姿态优化数据的位置优化数据与加速度优化数据的损失函数;
所述控制模块还用于根据所述损失函数,驱动所述优化姿态估计网络更新网络参数,以得到基于优化姿态估计网络的最优驱动模型。
在一些实施例中,本申请提供一种数字人的驱动系统,包括:可与用户设备通信的服务器;所述服务器包括由方法类实施例中所述的方法训练得到的最优驱动模型;所述服务器被配置为:
接收所述用户设备发送的驱动视频,所述驱动视频的驱动帧图像中包括单一驱动人物图像;
根据所述人体关键点定义模型,在所述单一驱动人物图像上标记人体关键点;
将标记有人体关键的单一驱动人物图像输入至姿态估计网络,得到人体姿态估计数据;
将所述人体姿态估计数据输入至最优驱动模型,以得到人体姿态优化数据;
将所述人体姿态优化数据回传至所述用户设备,以驱动所述用户设备中的数字人执行所述单一驱动人物的动作,
或,根据所述人体姿态优化数据驱动服务器中的数字人执行所述单一驱动人物的动作,并将所述服务器中的数字人数据回传至所述用户设备,以在所述用户设备中显示。
由上述技术内容可知,本申请提供一种数字人训练方法、系统及驱动系统。所述方法通过提取训练数据中的人体姿态估计数据,并将人体姿态估计数据输入至优化姿态估计网络以得到人体姿态优化数据。根据优化姿态估计网络的损失函数,计算人体姿态优化数据中的位置优化数据与加速度优化数据的生成损失,以最小化位置估计数据、加速度估计数据与真实值的误差。以驱动优化姿态估计网络更新网络参数,以得到基于优化姿态估计网络的最优驱动模型。通过最小化位置估计数据、加速度估计数据与真实值的误差,降低因训练数据中样本任务身体各部位遮挡引起的抖动,以提高识别人体姿态数据的准确度。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims (8)

1.一种数字人的训练方法,其特征在于,包括:
获取训练数据,以及从所述训练数据中提取人体姿态估计数据;所述训练数据为带有姿态标签的图像数据,所述图像数据中包括单个样本人物图像,不同图像数据中的样本人物的姿态动作不同;
将所述人体姿态估计数据中的位置估计数据、速度估计数据以及加速度估计数据输入至优化姿态估计网络,得到人体姿态优化数据,所述人体姿态估计数据输入至优化姿态估计网络时经过样本平衡处理;其中,所述优化姿态估计网络包括第一分支层、第二分支层以及第三分支层;所述第一分支层、第二分支层以及第三分支层为相互平行的分支层;所述第一分支层用于计算人体姿态优化数据中的位置优化数据;所述第二分支层用于计算人体姿态优化数据中的速度优化数据;所述第三分支层用于计算人体姿态优化数据中的加速度优化数据;所述第一分支层、第二分支层以及第三分支层输出的数据分别由全连接层输出后,进入线性融合层进行特征融合,以得到人体姿态优化数据;其中,所述人体姿态估计数据输入至优化姿态估计网络用公式表示为:
其中,,/>为通过优化改进的人体姿态估计结果;/>表示人体关键点的三维旋转欧拉角;/>为输入的图像帧数;/>,/>为定义的人体关键点个数,/>为输出的维数,在三维人体姿态估计问题中,/>,/>为基于基础平滑网络计算人体姿态估计算法输出的关键点欧拉角估计值;
其中,所述优化姿态估计网络的分支层的输出用公式表示为:
其中,l表示网络的第l层;为非线性激活函数;/>和/>分别是在第t帧学习的权重和偏置;/>为滑动窗;
其中,平衡处理所述人体姿态估计数据的步骤包括:
定义为训练分布,/>为非平衡训练分布,/>为平衡测试分布,/>为均匀分布;/>,/>,/>之间的关系可以通过分布数据关系公式表示为:
通过期望表达公式预测人体关键点的三位旋转欧拉角的估计值,所述期望表达公式为:
其中,为训练的优化姿态估计网络的参数,/>为人体关键点的三位旋转欧拉角的估计值,/>为三位旋转欧拉角的估计值符合的高斯分布的方差矩阵;
基于分布数据关系公式,以及平衡均方误差损失公式,计算平衡均方误差损失;所述平衡均方误差损失用于平衡所述人体姿态估计数据;所述平衡均方误差损失由转换为/>后对应的条件概率的最大似然损失确定;所述平衡均方误差损失公式为:
根据优化姿态估计网络的损失函数,计算所述人体姿态优化数据中的位置优化数据与加速度优化数据的生成损失,以最小化所述位置估计数据、加速度估计数据与真实值的误差;
根据所述损失函数,驱动所述优化姿态估计网络更新网络参数,以得到基于优化姿态估计网络的最优驱动模型。
2.根据权利要求1所述的数字人的训练方法,其特征在于,所述获取训练数据时,还包括:
获取所述样本人物图像在所述训练数据中占用的图像比例;
若所述图像比例小于图像比例阈值,则对所述样本人物图像执行裁剪操作,以增加所述样本人物图像的图像比例。
3.根据权利要求2所述的数字人的训练方法,其特征在于,还包括:
调用人体关键点定义模型;
根据所述人体关键点定义模型,在所述样本人物图像上标记人体关键点。
4.根据权利要求3所述的数字人的训练方法,其特征在于,所述提取人体姿态估计数据时,包括:
将所述训练数据输入至姿态估计网络,以得到人体姿态估计数据;所述姿态估计网络包括多个沿时间轴的残差连接的全连接层;其中,所述人体姿态估计数据由当前帧的训练数据结合当前帧的前一帧的估计结果得到。
5.根据权利要求4所述的数字人的训练方法,其特征在于,还包括:
采集驱动视频,所述驱动视频的驱动帧图像中包括单一驱动人物图像;
根据所述人体关键点定义模型,在所述单一驱动人物图像上标记人体关键点;
将标记有人体关键的单一驱动人物图像输入至姿态估计网络,得到人体姿态估计数据;
将所述人体姿态估计数据输入至最优驱动模型,以驱动数字人执行所述单一驱动人物的动作。
6.根据权利要求1所述的数字人的训练方法,其特征在于,根据优化姿态估计网络的损失函数,计算所述人体姿态优化数据中的位置优化数据与加速度优化数据的生成损失,包括:
根据所述位置估计数据对应的真实值与位置估计数据建立位置优化目标值;
以及,根据所述加速度估计数据对应的真实值与加速度估计数据建立加速度优化目标值;
组合所述位置优化目标值与所述加速度优化目标值,得到优化姿态估计网络的损失函数的目标值,以建立优化姿态估计网络的损失函数。
7.一种数字人的训练系统,其特征在于,包括:预处理模块、训练模块以及控制模块;
所述预处理模块用于获取训练数据,以及从所述训练数据中提取人体姿态估计数据;所述训练数据为图像数据,所述图像数据中包括单个样本人物图像,不同图像数据中的样本人物的姿态动作不同;
所述训练模块用于将所述人体姿态估计数据中的位置估计数据、速度估计数据以及加速度估计数据输入至优化姿态估计网络,得到人体姿态优化数据,所述人体姿态估计数据输入至优化姿态估计网络时经过样本平衡处理;其中,所述优化姿态估计网络包括第一分支层、第二分支层以及第三分支层;所述第一分支层、第二分支层以及第三分支层为相互平行的分支层;所述第一分支层用于计算人体姿态优化数据中的位置优化数据;所述第二分支层用于计算人体姿态优化数据中的速度优化数据;所述第三分支层用于计算人体姿态优化数据中的加速度优化数据;所述第一分支层、第二分支层以及第三分支层输出的数据分别由全连接层输出后,进入线性融合层进行特征融合,以得到人体姿态优化数据;其中,所述人体姿态估计数据输入至优化姿态估计网络用公式表示为:
其中,,/>为通过优化改进的人体姿态估计结果;/>表示人体关键点的三维旋转欧拉角;/>为输入的图像帧数;/>,/>为定义的人体关键点个数,/>为输出的维数,在三维人体姿态估计问题中,/>,/>为基于基础平滑网络计算人体姿态估计算法输出的关键点欧拉角估计值;
其中,所述优化姿态估计网络的分支层的输出用公式表示为:
其中,l表示网络的第l层;为非线性激活函数;/>和/>分别是在第t帧学习的权重和偏置;/>为滑动窗;
其中,平衡处理所述人体姿态估计数据的步骤包括:
定义为训练分布,/>为非平衡训练分布,/>为平衡测试分布,/>为均匀分布;/>,/>,/>之间的关系可以通过分布数据关系公式表示为:
通过期望表达公式预测人体关键点的三位旋转欧拉角的估计值,所述期望表达公式为:
其中,为训练的优化姿态估计网络的参数,/>为人体关键点的三位旋转欧拉角的估计值,/>为三位旋转欧拉角的估计值符合的高斯分布的方差矩阵;
基于分布数据关系公式,以及平衡均方误差损失公式,计算平衡均方误差损失;所述平衡均方误差损失用于平衡所述人体姿态估计数据;所述平衡均方误差损失由转换为/>后对应的条件概率的最大似然损失确定;所述平衡均方误差损失公式为:
所述控制模块用于计算所述人体姿态优化数据的位置优化数据与加速度优化数据的损失函数;
所述控制模块还用于根据所述损失函数,驱动所述优化姿态估计网络更新网络参数,以得到基于优化姿态估计网络的最优驱动模型。
8.一种数字人的驱动系统,其特征在于,包括:可与用户设备通信的服务器;所述服务器包括由权利要求1-6中任一项的方法训练得到的最优驱动模型;所述服务器被配置为:
接收所述用户设备发送的驱动视频,所述驱动视频的驱动帧图像中包括单一驱动人物图像;
根据人体关键点定义模型,在所述单一驱动人物图像上标记人体关键点;
将标记有人体关键的单一驱动人物图像输入至姿态估计网络,得到人体姿态估计数据;
将所述人体姿态估计数据输入至最优驱动模型,以得到人体姿态优化数据;
将所述人体姿态优化数据回传至所述用户设备,以驱动所述用户设备中的数字人执行所述单一驱动人物的动作,
或,根据所述人体姿态优化数据驱动服务器中的数字人执行所述单一驱动人物的动作,并将所述服务器中的数字人数据回传至所述用户设备,以在所述用户设备中显示。
CN202311166705.6A 2023-09-12 2023-09-12 一种数字人的训练方法、系统及驱动系统 Active CN116912948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311166705.6A CN116912948B (zh) 2023-09-12 2023-09-12 一种数字人的训练方法、系统及驱动系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311166705.6A CN116912948B (zh) 2023-09-12 2023-09-12 一种数字人的训练方法、系统及驱动系统

Publications (2)

Publication Number Publication Date
CN116912948A CN116912948A (zh) 2023-10-20
CN116912948B true CN116912948B (zh) 2023-12-01

Family

ID=88358662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311166705.6A Active CN116912948B (zh) 2023-09-12 2023-09-12 一种数字人的训练方法、系统及驱动系统

Country Status (1)

Country Link
CN (1) CN116912948B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015006517A2 (en) * 2013-07-10 2015-01-15 Rice Daniel M Extensions to the generalized reduced error logistic regression method
WO2019098002A1 (ja) * 2017-11-20 2019-05-23 ソニー株式会社 情報処理装置、情報処理方法、プログラム、及び移動体
US10510002B1 (en) * 2019-02-14 2019-12-17 Capital One Services, Llc Stochastic gradient boosting for deep neural networks
CN111354043A (zh) * 2020-02-21 2020-06-30 集美大学 一种基于多传感器融合的三维姿态估计方法及装置
WO2021132005A1 (ja) * 2019-12-25 2021-07-01 パナソニックIpマネジメント株式会社 情報処理方法、情報処理システム、及び、制御装置
CN113158459A (zh) * 2021-04-20 2021-07-23 浙江工业大学 一种基于视觉和惯性信息融合的人体姿态估计方法
US11521373B1 (en) * 2019-03-22 2022-12-06 Bertec Corporation System for estimating a three dimensional pose of one or more persons in a scene
CN115565203A (zh) * 2022-09-30 2023-01-03 华中科技大学 一种跨模态弱监督的三维人体姿态估计方法及系统
US11688139B1 (en) * 2019-03-22 2023-06-27 Bertec Corporation System for estimating a three dimensional pose of one or more persons in a scene

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015006517A2 (en) * 2013-07-10 2015-01-15 Rice Daniel M Extensions to the generalized reduced error logistic regression method
WO2019098002A1 (ja) * 2017-11-20 2019-05-23 ソニー株式会社 情報処理装置、情報処理方法、プログラム、及び移動体
US10510002B1 (en) * 2019-02-14 2019-12-17 Capital One Services, Llc Stochastic gradient boosting for deep neural networks
US11521373B1 (en) * 2019-03-22 2022-12-06 Bertec Corporation System for estimating a three dimensional pose of one or more persons in a scene
US11688139B1 (en) * 2019-03-22 2023-06-27 Bertec Corporation System for estimating a three dimensional pose of one or more persons in a scene
WO2021132005A1 (ja) * 2019-12-25 2021-07-01 パナソニックIpマネジメント株式会社 情報処理方法、情報処理システム、及び、制御装置
CN111354043A (zh) * 2020-02-21 2020-06-30 集美大学 一种基于多传感器融合的三维姿态估计方法及装置
CN113158459A (zh) * 2021-04-20 2021-07-23 浙江工业大学 一种基于视觉和惯性信息融合的人体姿态估计方法
CN115565203A (zh) * 2022-09-30 2023-01-03 华中科技大学 一种跨模态弱监督的三维人体姿态估计方法及系统

Also Published As

Publication number Publication date
CN116912948A (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN108460338B (zh) 人体姿态估计方法和装置、电子设备、存储介质、程序
CN108205655B (zh) 一种关键点预测方法、装置、电子设备及存储介质
CN108198601B (zh) 运动评分方法、装置、设备及存储介质
CN109522850B (zh) 一种基于小样本学习的动作相似度评估方法
CN111156984A (zh) 一种面向动态场景的单目视觉惯性slam方法
CN111723691B (zh) 一种三维人脸识别方法、装置、电子设备及存储介质
CN111062328B (zh) 一种图像处理方法、装置及智能机器人
WO2021051526A1 (zh) 多视图3d人体姿态估计方法及相关装置
CN110688929A (zh) 一种人体骨架关节点定位方法及装置
US20230077356A1 (en) Method, apparatus, electronic device, and storage medium for processing image
CN112488067B (zh) 人脸姿态估计方法、装置、电子设备和存储介质
WO2021217937A1 (zh) 姿态识别模型的训练方法及设备、姿态识别方法及其设备
CN112419419A (zh) 用于人体姿势和形状估计的系统和方法
CN111680544B (zh) 人脸识别方法、装置、系统、设备及介质
CN111368768A (zh) 一种基于人体关键点的员工手势指引检测方法
CN114005149A (zh) 一种目标角度检测模型的训练方法及装置
CN115984930A (zh) 微表情识别方法、装置、微表情识别模型的训练方法
Amrutha et al. Human Body Pose Estimation and Applications
CN111784660B (zh) 一种用于人脸图像的正脸程度的分析方法和系统
CN116912948B (zh) 一种数字人的训练方法、系统及驱动系统
CN112597847A (zh) 人脸姿态估计方法、装置、电子设备和存储介质
CN116012942A (zh) 手语教学方法、装置、设备及存储介质
CN113947801B (zh) 人脸识别方法、装置和电子设备
CN115205737A (zh) 基于Transformer模型的运动实时计数方法和系统
CN113239849B (zh) 健身动作质量评估方法、系统、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant