CN116778527A - 人体模型构建方法、装置、设备及存储介质 - Google Patents

人体模型构建方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116778527A
CN116778527A CN202310624942.6A CN202310624942A CN116778527A CN 116778527 A CN116778527 A CN 116778527A CN 202310624942 A CN202310624942 A CN 202310624942A CN 116778527 A CN116778527 A CN 116778527A
Authority
CN
China
Prior art keywords
human body
video
network
aggregation
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310624942.6A
Other languages
English (en)
Inventor
郑喜民
吴楚翘
舒畅
陈又新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310624942.6A priority Critical patent/CN116778527A/zh
Publication of CN116778527A publication Critical patent/CN116778527A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及数字医疗领域的人工智能技术,揭露了一种人体模型构建方法,包括:基于预构建的卷积神经网络及注意力机制的特征聚合网络构建原始人体模型生成网络,对人体视频训练集合中的视频进行序列分帧处理,得到视频帧序列集合,利用视频帧序列集合对原始人体模型生成网络进行模型训练,得到标准人体模型生成网络,获取目标病患的人体动作视频,利用标准人体模型生成网络对人体动作视频进行人体模型构建,得到目标病患的病患人体模型。本发明还涉及区块链技术,所述病患人体模型可存储在区块链的节点中。本发明还提出一种人体模型构建装置、电子设备以及可读存储介质。本发明可以构建轻量化的人体模型生成网络来进行人体建模。

Description

人体模型构建方法、装置、设备及存储介质
技术领域
本发明涉及数字医疗及人工智能技术领域,尤其涉及一种人体模型构建方法、装置、电子设备及可读存储介质。
背景技术
随着计算力和数据量的大幅度提升,人工智能技术获得进一步的发展,应用人工智能解决医疗领域问题已成为了热点,例如,通过人工智能构建患者的身体模型,从而辅助医生问诊。
现有技术中,主要使用SMPL(Skinned Multi-Person Linear Model)模型进行人体模型的估计,SMPL模型的估计已经从单目图片的人体估计发展到单目视频的人体估计。为了捕捉时序信息,目前的视频估计方法多数采用较为复杂的结构,主要包括VIBE和基于该结构改进的TCMR结构,MAED框架等,会存在以下缺陷:VIBE和基于该结构改进的TCMR结构均是使用GRU结构的网络进行时序信息的建模,MAED框架则采用了基于Transformer的结构进行改进,这些时序信息捕捉的结构较为复杂,会使得模型占用较多内存空间,模型结构不够轻量化。
发明内容
本发明提供一种人体模型构建方法、装置、电子设备及可读存储介质,其主要目的在于可以构建轻量化的人体模型生成网络来进行人体建模。
为实现上述目的,本发明提供的一种人体模型构建方法,包括:
基于注意力机制构建特征聚合网络,基于预构建的卷积神经网络及所述特征聚合网络构建原始人体模型生成网络;
获取人体视频训练集合,对所述人体视频训练集合中的视频进行序列分帧处理,得到视频帧序列集合;
利用所述视频帧序列集合对所述原始人体模型生成网络进行模型训练,得到标准人体模型生成网络;
获取目标病患的人体动作视频,利用所述标准人体模型生成网络对所述人体动作视频进行人体模型构建,得到所述目标病患的病患人体模型。
可选地,所述基于注意力机制构建特征聚合网络,包括:
将预构建的共享全连接层作为特征压缩层,在所述特征压缩层后串联三个全连接层及激活层,得到所述特征聚合网络。
可选地,所述基于预构建的卷积神经网络及所述特征聚合网络构建原始人体模型生成网络,包括:
将所述预构建的卷积神经网络作为特征提取层;
将三个所述特征聚合网络进行并联,并在并联的网络后串联一个所述特征聚合网络,得到特征聚合层;
将所述特征聚合层拼接在所述特征提取层后,并在所述特征聚合层后连接一个特征回归层,汇总拼接完成的特征提取层、特征聚合层级特征回归层得到原始人体模型生成网络。
可选地,所述对所述人体视频训练集合中的视频进行序列分帧处理,得到视频帧序列集合,包括:
遍历所述人体视频训练集合中的视频,按照预设的分割阈值将每一个视频分割为前序视频帧及后序视频帧;
汇总每个视频的全部视频帧、前序视频帧及后序视频帧得到所述视频帧序列集合。
可选地,所述利用所述视频帧序列集合对所述原始人体模型生成网络进行模型训练,得到标准人体模型生成网络,包括:
利用所述原始人体模型生成网络中的特征提取层提取所述人体视频训练集合中每个视频的全部视频帧的静态特征,并按照所述预设的分割阈值得到前序视频帧对应的静态特征及后序视频帧对应的静态特征;
利用所述特征聚合层中三个并联的特征聚合网络分别对所述全部视频帧的静态特征、所述前序视频帧对应的静态特征及后序视频帧对应的静态特征进行特征聚合,得到三个原始聚合特征;
利用所述特征聚合层中最后串联的特征聚合网络对三个所述原始聚合特征进行特征聚合,得到标准聚合特征;
利用所述原始人体模型生成网络中的特征回归层对所述标准聚合特征进行特征回归,得到预测人体模型参数集合,基于所述预测人体模型参数集合计算模型损失值,在所述模型损失值不满足预设的损失阈值时,调整原始人体模型生成网络中的网络参数并返回所述利用所述特征聚合层中三个并联的特征聚合网络分别对所述全部视频帧的静态特征、所述前序视频帧对应的静态特征及后序视频帧对应的静态特征进行特征聚合的步骤,直至所述模型损失值满足预设的损失阈值时,停止训练,得到标准人体模型生成网络。
可选地,所述利用所述原始人体模型生成网络中的特征回归层对所述标准聚合特征进行特征回归,得到预测人体模型参数集合,包括:
利用所述特征回归层中的线性回归器对所述标准聚合特征进行线性回归,得到预测人体动作参数;
利用所述预测人体动作参数及预构建的网格函数输出身体网格,利用所述线性回归器对所述身体网格的顶点进行线性回归,得到关键点集合及关键点对应的预测人体三维坐标,将所述预测人体三维坐标映射成预测人体二维坐标,汇总所述预测人体动作参数、所述预测人体三维坐标及预测人体二维坐标得到所述预测人体模型参数集合。
可选地,通过下述损失函数计算模型损失值:
L=L3D+2D+SMPL
其中,L表示模型损失值,L3d表示人体三维坐标的损失,L2D表示人体二维坐标的损失,LSMPL表示人体动作参数的损失;K表示关键点集合中关键点的总数,表示第k个关键点的预测人体三维坐标,/>表示第k个关键点的预测人体二维坐标,/>是指第k个关键点的真实人体三维坐标,/>是指第k个关键点的真实人体二维坐标;/>表示预测人体动作参数中的预测姿态参数,/>表示预测人体动作参数中的预测形状参数,/>分别表示训练集合中的真实姿态参数和真实形状参数。
为了解决上述问题,本发明还提供一种人体模型构建装置,所述装置包括:
模型构建模块,用于基于注意力机制构建特征聚合网络,基于预构建的卷积神经网络及所述特征聚合网络构建原始人体模型生成网络;
序列分帧模块,用于获取人体视频训练集合,对所述人体视频训练集合中的视频进行序列分帧处理,得到视频帧序列集合;
模型训练模块,用于利用所述视频帧序列集合对所述原始人体模型生成网络进行模型训练,得到标准人体模型生成网络;
人体模型生成模块,用于获取目标病患的人体动作视频,利用所述标准人体模型生成网络对所述人体动作视频进行人体模型构建,得到所述目标病患的病患人体模型。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个计算机程序;及
处理器,执行所述存储器中存储的计算机程序以实现上述所述的人体模型构建方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的人体模型构建方法。
本发明通过注意力机制构建特征聚合网络,基于预构建的卷积神经网络及特征聚合网络构建原始人体模型生成网络,由于使用注意力机制来进行特征的提取(即捕捉时序信息),可以提高对视频中人体建模的准确性。同时由于整体结构全部基于卷积神经网络来进行构建,模型结构更加轻量化,降低了对内存空间的占用,可以在保证精度的同时使模型更加轻量化。因此本发明提出的人体模型构建方法、装置、电子设备及计算机可读存储介质,可以构建轻量化的人体模型生成网络来进行人体建模。
附图说明
图1为本发明一实施例提供的人体模型构建方法的流程示意图;
图2为本发明一实施例提供的人体模型构建装置的功能模块图;
图3为本发明一实施例提供的实现所述人体模型构建方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供一种人体模型构建方法。所述人体模型构建方法的执行主体包括但不限于服务端、终端等能够被配置为执行本发明实施例提供的该方法的电子设备中的至少一种。换言之,所述人体模型构建方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的人体模型构建方法的流程示意图。在本实施例中,所述人体模型构建方法包括以下步骤S1-S5:
S1、基于注意力机制构建特征聚合网络,基于预构建的卷积神经网络及所述特征聚合网络构建原始人体模型生成网络。
本发明实施例中,所述注意力机制(attention)是指在深度学习领域,神经网络模型往往需要接收和处理大量的数据,然而在特定的某个时刻,往往只有少部分的某些数据是重要的,通过注意力机制(attention)让模型更加关注重要数据模型从而提高模型的准确率。
详细地,所述基于注意力机制构建特征聚合网络,包括:
将预构建的共享全连接层作为特征压缩层,在所述特征压缩层后串联三个全连接层及激活层,得到所述特征聚合网络。
本发明一可选实施例中,对于输入所述特征聚合网络的帧特征向量(以2048维为例),特征压缩层将2048维压缩为256维以降低计算复杂度,压缩后的特征聚合后经过三个全连接层和激活层(使用softmax激活函数),计算得到attention权重值,利用所述attention权重值对输入的帧特征向量进行加权得到聚合后的特征向量。通过注意力机制可以更加关注主要信息,提高模型识别的效果。
本发明实施例中,所述预构建的卷积神经网络可以为SPIN中预训练的ResNet-50网络。
具体地,所述基于预构建的卷积神经网络及所述特征聚合网络构建原始人体模型生成网络,包括:
将所述预构建的卷积神经网络作为特征提取层;
将三个所述特征聚合网络进行并联,并在并联的网络后串联一个所述特征聚合网络,得到特征聚合层;
将所述特征聚合层拼接在所述特征提取层后,并在所述特征聚合层后连接一个特征回归层,汇总拼接完成的特征提取层、特征聚合层级特征回归层得到原始人体模型生成网络。
本发明一可选实施例中,所述原始人体模型生成网络吸收了TCMR框架的思想,同时舍弃了GRU作为时序特征的提取器,使用ResNet-50网络进行特征提取,并结合attention结构的特征聚合网络完成整体网络的构建,由于使用全CNN的架构,舍弃了更为复杂的GRU结构,使模型更加轻量化,提高模型使用的效果。
S2、获取人体视频训练集合,对所述人体视频训练集合中的视频进行序列分帧处理,得到视频帧序列集合。
本发明实施例中,所述人体视频训练集合可以为开源数据集MPI-INF-3DHP(包含8个个体,每个个体16个视频序列,大多为室内环境采集,包含3d关节点,SMPL参数)、Human3.6M(使用了7个个体,每个个体15个动作序列,受控环境下采集,包含3d关节点,SMPL参数)、3DPW(60个视频序列,室内室外均有,包含3d关节点,SMPL参数)等。
详细地,所述对所述人体视频训练集合中的视频进行序列分帧处理,得到视频帧序列集合,包括:
遍历所述人体视频训练集合中的视频,按照预设的分割阈值将每一个视频分割为前序视频帧及后序视频帧;
汇总每个视频的全部视频帧、前序视频帧及后序视频帧得到所述视频帧序列集合。
本发明实施例中,由于原始人体模型生成网络中并联了三个聚合网络,通过将每个视频划分为前序视频帧及后序视频帧,并利用三个聚合网络分别每个视频的全部视频帧、前序视频帧及后序视频,可以更准确的对特征进行权重计算。
S3、利用所述视频帧序列集合对所述原始人体模型生成网络进行模型训练,得到标准人体模型生成网络。
详细地,所述利用所述视频帧序列集合对所述原始人体模型生成网络进行模型训练,得到标准人体模型生成网络,包括:
利用所述原始人体模型生成网络中的特征提取层提取所述人体视频训练集合中每个视频的全部视频帧的静态特征,并按照所述预设的分割阈值得到前序视频帧对应的静态特征及后序视频帧对应的静态特征;
利用所述特征聚合层中三个并联的特征聚合网络分别对所述全部视频帧的静态特征、所述前序视频帧对应的静态特征及后序视频帧对应的静态特征进行特征聚合,得到三个原始聚合特征;
利用所述特征聚合层中最后串联的特征聚合网络对三个所述原始聚合特征进行特征聚合,得到标准聚合特征;
利用所述原始人体模型生成网络中的特征回归层对所述标准聚合特征进行特征回归,得到预测人体模型参数集合,基于所述预测人体模型参数集合计算模型损失值,在所述模型损失值不满足预设的损失阈值时,调整原始人体模型生成网络中的网络参数并返回所述利用所述特征聚合层中三个并联的特征聚合网络分别对所述全部视频帧的静态特征、所述前序视频帧对应的静态特征及后序视频帧对应的静态特征进行特征聚合的步骤,直至所述模型损失值满足预设的损失阈值时,停止训练,得到标准人体模型生成网络。
本发明一可选实施例中,通过使用ResNet-50网络提取每个视频的静态特征其中/>其中/>表示特征维度,Xt表示第t帧的静态特征,T表示视频的总帧数。例如,一个视频有16帧,平均分为前序视频帧及后续视频帧,使用三个integration模块分别聚合16帧中全部视频帧,前序视频帧和后序视频帧的静态特征。
详细地,所述利用所述特征聚合层中最后串联的特征聚合网络对三个所述原始聚合特征进行特征聚合,得到标准聚合特征,包括:
利用所述特征聚合层中最后串联的特征聚合网络中的共享全连接层对三个所述原始聚合特征进行特征压缩,并利用共享全连接层后三个串联的全连接层及激活层进行权重计算,得到三个特征权重;
利用三个所述特征权重和对应的原始聚合特征进行加权计算,得到所述标准聚合特征。
进一步地,所述利用所述原始人体模型生成网络中的特征回归层对所述标准聚合特征进行特征回归,得到预测人体模型参数集合,包括:
利用所述特征回归层中的线性回归器对所述标准聚合特征进行线性回归,得到预测人体动作参数;
利用所述预测人体动作参数及预构建的网格函数输出身体网格,利用所述线性回归器对所述身体网格的顶点进行线性回归,得到关键点集合及关键点对应的预测人体三维坐标,将所述预测人体三维坐标映射成预测人体二维坐标,汇总所述预测人体动作参数、所述预测人体三维坐标及预测人体二维坐标得到所述预测人体模型参数集合。
本发明一可选实施例中,所述预测人体动作参数用来定义人体形状和动作包括姿态参数θ及形状参数β,其中,形状参数β由10个标量值的形状向量组成,每个标量值都可以解释为人体对象沿某个方向(如更高或更短)的膨胀/收缩量,姿态参数θ由24x3标量值的姿势向量组成,用于保持关节相对于其参数的相对旋转。同时通过网格函数M(θ,β)输出身体网格,包含6890个顶点,最后通过线性回归器输出K个关键点的预测三维坐标并映射成预测二维坐标。
本发明一可选实施例中,通过下述损失函数计算模型损失值:
L=L3D+2D+SMPL
其中,L表示模型损失值,L3D表示人体三维坐标的损失,L2D表示人体二维坐标的损失,LSMPL表示人体动作参数的损失;K表示关键点集合中关键点的总数,表示第k个关键点的预测人体三维坐标,/>表示第k个关键点的预测人体二维坐标,/>是指第k个关键点的真实人体三维坐标,/>是指第k个关键点的真实人体二维坐标;/>表示预测人体动作参数中的预测姿态参数,/>表示预测人体动作参数中的预测形状参数,/>分别表示训练集合中的真实姿态参数和真实形状参数。
S4、获取目标病患的人体动作视频,利用所述标准人体模型生成网络对所述人体动作视频进行人体模型构建,得到所述目标病患的病患人体模型。
本发明实施例中,在医疗领域的线上问诊过程中,病患会告知线上医生具体地不适部位,可以通过拍摄视频来辅助医生问诊,通过所述标准人体模型生成网络来对目标病患的人体动作视频进行人体建模,得到病患人体模型,可以减少因衣物遮挡、体型差异等因素导致的问诊部位识别错误,提高了线上辅诊的准确率。
本发明通过注意力机制构建特征聚合网络,基于预构建的卷积神经网络及特征聚合网络构建原始人体模型生成网络,由于使用注意力机制来进行特征的提取(即捕捉时序信息),可以提高对视频中人体建模的准确性。同时由于整体结构全部基于卷积神经网络来进行构建,模型结构更加轻量化,降低了对内存空间的占用,可以在保证精度的同时使模型更加轻量化。因此本发明提出的人体模型构建方法,可以构建轻量化的人体模型生成网络来进行人体建模。
如图2所示,是本发明一实施例提供的人体模型构建装置的功能模块图。
本发明所述人体模型构建装置100可以安装于电子设备中。根据实现的功能,所述人体模型构建装置100可以包括模型构建模块101、序列分帧模块102、模型训练模块103及人体模型生成模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述模型构建模块,用于基于注意力机制构建特征聚合网络,基于预构建的卷积神经网络及所述特征聚合网络构建原始人体模型生成网络;
所述序列分帧模块,用于获取人体视频训练集合,对所述人体视频训练集合中的视频进行序列分帧处理,得到视频帧序列集合;
所述模型训练模块,用于利用所述视频帧序列集合对所述原始人体模型生成网络进行模型训练,得到标准人体模型生成网络;
所述人体模型生成模块,用于获取目标病患的人体动作视频,利用所述标准人体模型生成网络对所述人体动作视频进行人体模型构建,得到所述目标病患的病患人体模型。
详细地,所述人体模型构建装置100各模块的具体实施方式如下:
步骤一、基于注意力机制构建特征聚合网络,基于预构建的卷积神经网络及所述特征聚合网络构建原始人体模型生成网络。
本发明实施例中,所述注意力机制(attention)是指在深度学习领域,神经网络模型往往需要接收和处理大量的数据,然而在特定的某个时刻,往往只有少部分的某些数据是重要的,通过注意力机制(attention)让模型更加关注重要数据模型从而提高模型的准确率。
详细地,所述基于注意力机制构建特征聚合网络,包括:
将预构建的共享全连接层作为特征压缩层,在所述特征压缩层后串联三个全连接层及激活层,得到所述特征聚合网络。
本发明一可选实施例中,对于输入所述特征聚合网络的帧特征向量(以2048维为例),特征压缩层将2048维压缩为256维以降低计算复杂度,压缩后的特征聚合后经过三个全连接层和激活层(使用softmax激活函数),计算得到attention权重值,利用所述attention权重值对输入的帧特征向量进行加权得到聚合后的特征向量。通过注意力机制可以更加关注主要信息,提高模型识别的效果。
本发明实施例中,所述预构建的卷积神经网络可以为SPIN中预训练的ResNet-50网络。
具体地,所述基于预构建的卷积神经网络及所述特征聚合网络构建原始人体模型生成网络,包括:
将所述预构建的卷积神经网络作为特征提取层;
将三个所述特征聚合网络进行并联,并在并联的网络后串联一个所述特征聚合网络,得到特征聚合层;
将所述特征聚合层拼接在所述特征提取层后,并在所述特征聚合层后连接一个特征回归层,汇总拼接完成的特征提取层、特征聚合层级特征回归层得到原始人体模型生成网络。
本发明一可选实施例中,所述原始人体模型生成网络吸收了TCMR框架的思想,同时舍弃了GRU作为时序特征的提取器,使用ResNet-50网络进行特征提取,并结合attention结构的特征聚合网络完成整体网络的构建,由于使用全CNN的架构,舍弃了更为复杂的GRU结构,使模型更加轻量化,提高模型使用的效果。
步骤二、获取人体视频训练集合,对所述人体视频训练集合中的视频进行序列分帧处理,得到视频帧序列集合。
本发明实施例中,所述人体视频训练集合可以为开源数据集MPI-INF-3DHP(包含8个个体,每个个体16个视频序列,大多为室内环境采集,包含3d关节点,SMPL参数)、Human3.6M(使用了7个个体,每个个体15个动作序列,受控环境下采集,包含3d关节点,SMPL参数)、3DPW(60个视频序列,室内室外均有,包含3d关节点,SMPL参数)等。
详细地,所述对所述人体视频训练集合中的视频进行序列分帧处理,得到视频帧序列集合,包括:
遍历所述人体视频训练集合中的视频,按照预设的分割阈值将每一个视频分割为前序视频帧及后序视频帧;
汇总每个视频的全部视频帧、前序视频帧及后序视频帧得到所述视频帧序列集合。
本发明实施例中,由于原始人体模型生成网络中并联了三个聚合网络,通过将每个视频划分为前序视频帧及后序视频帧,并利用三个聚合网络分别每个视频的全部视频帧、前序视频帧及后序视频,可以更准确的对特征进行权重计算。
步骤三、利用所述视频帧序列集合对所述原始人体模型生成网络进行模型训练,得到标准人体模型生成网络。
详细地,所述利用所述视频帧序列集合对所述原始人体模型生成网络进行模型训练,得到标准人体模型生成网络,包括:
利用所述原始人体模型生成网络中的特征提取层提取所述人体视频训练集合中每个视频的全部视频帧的静态特征,并按照所述预设的分割阈值得到前序视频帧对应的静态特征及后序视频帧对应的静态特征;
利用所述特征聚合层中三个并联的特征聚合网络分别对所述全部视频帧的静态特征、所述前序视频帧对应的静态特征及后序视频帧对应的静态特征进行特征聚合,得到三个原始聚合特征;
利用所述特征聚合层中最后串联的特征聚合网络对三个所述原始聚合特征进行特征聚合,得到标准聚合特征;
利用所述原始人体模型生成网络中的特征回归层对所述标准聚合特征进行特征回归,得到预测人体模型参数集合,基于所述预测人体模型参数集合计算模型损失值,在所述模型损失值不满足预设的损失阈值时,调整原始人体模型生成网络中的网络参数并返回所述利用所述特征聚合层中三个并联的特征聚合网络分别对所述全部视频帧的静态特征、所述前序视频帧对应的静态特征及后序视频帧对应的静态特征进行特征聚合的步骤,直至所述模型损失值满足预设的损失阈值时,停止训练,得到标准人体模型生成网络。
本发明一可选实施例中,通过使用ResNet-50网络提取每个视频的静态特征其中/>其中/>表示特征维度,Xt表示第t帧的静态特征,T表示视频的总帧数。例如,一个视频有16帧,平均分为前序视频帧及后续视频帧,使用三个integration模块分别聚合16帧中全部视频帧,前序视频帧和后序视频帧的静态特征。
详细地,所述利用所述特征聚合层中最后串联的特征聚合网络对三个所述原始聚合特征进行特征聚合,得到标准聚合特征,包括:
利用所述特征聚合层中最后串联的特征聚合网络中的共享全连接层对三个所述原始聚合特征进行特征压缩,并利用共享全连接层后三个串联的全连接层及激活层进行权重计算,得到三个特征权重;
利用三个所述特征权重和对应的原始聚合特征进行加权计算,得到所述标准聚合特征。
进一步地,所述利用所述原始人体模型生成网络中的特征回归层对所述标准聚合特征进行特征回归,得到预测人体模型参数集合,包括:
利用所述特征回归层中的线性回归器对所述标准聚合特征进行线性回归,得到预测人体动作参数;
利用所述预测人体动作参数及预构建的网格函数输出身体网格,利用所述线性回归器对所述身体网格的顶点进行线性回归,得到关键点集合及关键点对应的预测人体三维坐标,将所述预测人体三维坐标映射成预测人体二维坐标,汇总所述预测人体动作参数、所述预测人体三维坐标及预测人体二维坐标得到所述预测人体模型参数集合。
本发明一可选实施例中,所述预测人体动作参数用来定义人体形状和动作包括姿态参数θ及形状参数β,其中,形状参数β由10个标量值的形状向量组成,每个标量值都可以解释为人体对象沿某个方向(如更高或更短)的膨胀/收缩量,姿态参数θ由24x3标量值的姿势向量组成,用于保持关节相对于其参数的相对旋转。同时通过网格函数M(θ,β)输出身体网格,包含6890个顶点,最后通过线性回归器输出K个关键点的预测三维坐标并映射成预测二维坐标。
本发明一可选实施例中,通过下述损失函数计算模型损失值:
L=L3D+2D+SMPL
其中,L表示模型损失值,L3d表示人体三维坐标的损失,L2D表示人体二维坐标的损失,LSMPL表示人体动作参数的损失;K表示关键点集合中关键点的总数,表示第k个关键点的预测人体三维坐标,/>表示第k个关键点的预测人体二维坐标,/>是指第k个关键点的真实人体三维坐标,/>是指第k个关键点的真实人体二维坐标;/>表示预测人体动作参数中的预测姿态参数,/>表示预测人体动作参数中的预测形状参数,/>分别表示训练集合中的真实姿态参数和真实形状参数。
步骤四、获取目标病患的人体动作视频,利用所述标准人体模型生成网络对所述人体动作视频进行人体模型构建,得到所述目标病患的病患人体模型。
本发明实施例中,在医疗领域的线上问诊过程中,病患会告知线上医生具体地不适部位,可以通过拍摄视频来辅助医生问诊,通过所述标准人体模型生成网络来对目标病患的人体动作视频进行人体建模,得到病患人体模型,可以减少因衣物遮挡、体型差异等因素导致的问诊部位识别错误,提高了线上辅诊的准确率。
本发明通过注意力机制构建特征聚合网络,基于预构建的卷积神经网络及特征聚合网络构建原始人体模型生成网络,由于使用注意力机制来进行特征的提取(即捕捉时序信息),可以提高对视频中人体建模的准确性。同时由于整体结构全部基于卷积神经网络来进行构建,模型结构更加轻量化,降低了对内存空间的占用,可以在保证精度的同时使模型更加轻量化。因此本发明提出的人体模型构建装置,可以构建轻量化的人体模型生成网络来进行人体建模。
如图3所示,是本发明一实施例提供的实现所述人体模型构建方法的电子设备的结构示意图。
所述电子设备可以包括处理器10、存储器11、通信接口12和总线13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如人体模型构建程序。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如人体模型构建程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing Unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如人体模型构建程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述通信接口12用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
所述总线13可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该总线13可以分为地址总线、数据总线、控制总线等。所述总线13被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
可选地,该电子设备还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备中的所述存储器11存储的人体模型构建程序是多个指令的组合,在所述处理器10中运行时,可以实现:
基于注意力机制构建特征聚合网络,基于预构建的卷积神经网络及所述特征聚合网络构建原始人体模型生成网络;
获取人体视频训练集合,对所述人体视频训练集合中的视频进行序列分帧处理,得到视频帧序列集合;
利用所述视频帧序列集合对所述原始人体模型生成网络进行模型训练,得到标准人体模型生成网络;
获取目标病患的人体动作视频,利用所述标准人体模型生成网络对所述人体动作视频进行人体模型构建,得到所述目标病患的病患人体模型。
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
基于注意力机制构建特征聚合网络,基于预构建的卷积神经网络及所述特征聚合网络构建原始人体模型生成网络;
获取人体视频训练集合,对所述人体视频训练集合中的视频进行序列分帧处理,得到视频帧序列集合;
利用所述视频帧序列集合对所述原始人体模型生成网络进行模型训练,得到标准人体模型生成网络;
获取目标病患的人体动作视频,利用所述标准人体模型生成网络对所述人体动作视频进行人体模型构建,得到所述目标病患的病患人体模型。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种人体模型构建方法,其特征在于,所述方法包括:
基于注意力机制构建特征聚合网络,基于预构建的卷积神经网络及所述特征聚合网络构建原始人体模型生成网络;
获取人体视频训练集合,对所述人体视频训练集合中的视频进行序列分帧处理,得到视频帧序列集合;
利用所述视频帧序列集合对所述原始人体模型生成网络进行模型训练,得到标准人体模型生成网络;
获取目标病患的人体动作视频,利用所述标准人体模型生成网络对所述人体动作视频进行人体模型构建,得到所述目标病患的病患人体模型。
2.如权利要求1所述的人体模型构建方法,其特征在于,所述基于注意力机制构建特征聚合网络,包括:
将预构建的共享全连接层作为特征压缩层,在所述特征压缩层后串联三个全连接层及激活层,得到所述特征聚合网络。
3.如权利要求1所述的人体模型构建方法,其特征在于,所述基于预构建的卷积神经网络及所述特征聚合网络构建原始人体模型生成网络,包括:
将所述预构建的卷积神经网络作为特征提取层;
将三个所述特征聚合网络进行并联,并在并联的网络后串联一个所述特征聚合网络,得到特征聚合层;
将所述特征聚合层拼接在所述特征提取层后,并在所述特征聚合层后连接一个特征回归层,汇总拼接完成的特征提取层、特征聚合层级特征回归层得到原始人体模型生成网络。
4.如权利要求3中所述的人体模型构建方法,其特征在于,所述对所述人体视频训练集合中的视频进行序列分帧处理,得到视频帧序列集合,包括:
遍历所述人体视频训练集合中的视频,按照预设的分割阈值将每一个视频分割为前序视频帧及后序视频帧;
汇总每个视频的全部视频帧、前序视频帧及后序视频帧得到所述视频帧序列集合。
5.如权利要求4所述的人体模型构建方法,其特征在于,所述利用所述视频帧序列集合对所述原始人体模型生成网络进行模型训练,得到标准人体模型生成网络,包括:
利用所述原始人体模型生成网络中的特征提取层提取所述人体视频训练集合中每个视频的全部视频帧的静态特征,并按照所述预设的分割阈值得到前序视频帧对应的静态特征及后序视频帧对应的静态特征;
利用所述特征聚合层中三个并联的特征聚合网络分别对所述全部视频帧的静态特征、所述前序视频帧对应的静态特征及后序视频帧对应的静态特征进行特征聚合,得到三个原始聚合特征;
利用所述特征聚合层中最后串联的特征聚合网络对三个所述原始聚合特征进行特征聚合,得到标准聚合特征;
利用所述原始人体模型生成网络中的特征回归层对所述标准聚合特征进行特征回归,得到预测人体模型参数集合,基于所述预测人体模型参数集合计算模型损失值,在所述模型损失值不满足预设的损失阈值时,调整原始人体模型生成网络中的网络参数并返回所述利用所述特征聚合层中三个并联的特征聚合网络分别对所述全部视频帧的静态特征、所述前序视频帧对应的静态特征及后序视频帧对应的静态特征进行特征聚合的步骤,直至所述模型损失值满足预设的损失阈值时,停止训练,得到标准人体模型生成网络。
6.如权利要求5所述的人体模型构建方法,其特征在于,所述利用所述原始人体模型生成网络中的特征回归层对所述标准聚合特征进行特征回归,得到预测人体模型参数集合,包括:
利用所述特征回归层中的线性回归器对所述标准聚合特征进行线性回归,得到预测人体动作参数;
利用所述预测人体动作参数及预构建的网格函数输出身体网格,利用所述线性回归器对所述身体网格的顶点进行线性回归,得到关键点集合及关键点对应的预测人体三维坐标,将所述预测人体三维坐标映射成预测人体二维坐标,汇总所述预测人体动作参数、所述预测人体三维坐标及预测人体二维坐标得到所述预测人体模型参数集合。
7.如权利要求6所述的人体模型构建方法,其特征在于,通过下述损失函数计算模型损失值:
L=L3D+L2D+LSMPL
其中,L表示模型损失值,L3D表示人体三维坐标的损失,L2D表示人体二维坐标的损失,LSMPL表示人体动作参数的损失;K表示关键点集合中关键点的总数,表示第k个关键点的预测人体三维坐标,/>表示第k个关键点的预测人体二维坐标,/>是指第k个关键点的真实人体三维坐标,/>是指第k个关键点的真实人体二维坐标;/>表示预测人体动作参数中的预测姿态参数,/>表示预测人体动作参数中的预测形状参数,/>分别表示训练集合中的真实姿态参数和真实形状参数。
8.一种人体模型构建装置,其特征在于,所述装置包括:
模型构建模块,用于基于注意力机制构建特征聚合网络,基于预构建的卷积神经网络及所述特征聚合网络构建原始人体模型生成网络;
序列分帧模块,用于获取人体视频训练集合,对所述人体视频训练集合中的视频进行序列分帧处理,得到视频帧序列集合;
模型训练模块,用于利用所述视频帧序列集合对所述原始人体模型生成网络进行模型训练,得到标准人体模型生成网络;
人体模型生成模块,用于获取目标病患的人体动作视频,利用所述标准人体模型生成网络对所述人体动作视频进行人体模型构建,得到所述目标病患的病患人体模型。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的人体模型构建方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的人体模型构建方法。
CN202310624942.6A 2023-05-30 2023-05-30 人体模型构建方法、装置、设备及存储介质 Pending CN116778527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310624942.6A CN116778527A (zh) 2023-05-30 2023-05-30 人体模型构建方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310624942.6A CN116778527A (zh) 2023-05-30 2023-05-30 人体模型构建方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116778527A true CN116778527A (zh) 2023-09-19

Family

ID=88009108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310624942.6A Pending CN116778527A (zh) 2023-05-30 2023-05-30 人体模型构建方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116778527A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117218297A (zh) * 2023-09-29 2023-12-12 北京百度网讯科技有限公司 人体重建参数生成方法、装置、设备和介质
CN117854666A (zh) * 2024-03-07 2024-04-09 之江实验室 一种三维人体康复数据集构建方法及装置
CN117854666B (zh) * 2024-03-07 2024-06-04 之江实验室 一种三维人体康复数据集构建方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117218297A (zh) * 2023-09-29 2023-12-12 北京百度网讯科技有限公司 人体重建参数生成方法、装置、设备和介质
CN117854666A (zh) * 2024-03-07 2024-04-09 之江实验室 一种三维人体康复数据集构建方法及装置
CN117854666B (zh) * 2024-03-07 2024-06-04 之江实验室 一种三维人体康复数据集构建方法及装置

Similar Documents

Publication Publication Date Title
CN112446919B (zh) 物体位姿估计方法、装置、电子设备及计算机存储介质
US20210158023A1 (en) System and Method for Generating Image Landmarks
WO2020107847A1 (zh) 基于骨骼点的跌倒检测方法及其跌倒检测装置
CN113435365B (zh) 人脸图像迁移方法及装置
CN109409262A (zh) 图像处理方法、图像处理装置、计算机可读存储介质
CN111950700A (zh) 一种神经网络的优化方法及相关设备
CN113821668A (zh) 数据分类识别方法、装置、设备及可读存储介质
CN116778527A (zh) 人体模型构建方法、装置、设备及存储介质
CN114022841A (zh) 人员监控识别方法、装置、电子设备及可读存储介质
CN113822114A (zh) 一种图像处理方法、相关设备及计算机可读存储介质
CN112528265A (zh) 基于在线会议的身份识别方法、装置、设备及介质
CN116705304A (zh) 基于图像文本的多模态任务处理方法、装置、设备及介质
CN116383766A (zh) 基于多模态数据的辅诊方法、装置、设备及存储介质
CN113869218B (zh) 人脸活体检测方法、装置、电子设备及可读存储介质
CN113627394B (zh) 人脸提取方法、装置、电子设备及可读存储介质
CN113255456B (zh) 非主动活体检测方法、装置、电子设备及存储介质
CN112541436B (zh) 专注度分析方法、装置、电子设备及计算机存储介质
CN111539420A (zh) 基于注意力感知特征的全景图像显著性预测方法及系统
CN113761965A (zh) 动作捕捉方法、装置、电子设备和存储介质
CN114627535B (zh) 基于双目摄像头的坐标匹配方法、装置、设备及介质
CN113705690B (zh) 正脸定位方法、装置、电子设备及计算机可读存储介质
CN116434316B (zh) 基于x86工控主板的身份识别方法、装置、设备及介质
CN113240796B (zh) 视觉任务处理方法及装置、计算机可读介质和电子设备
CN113239876B (zh) 大角度人脸识别模型训练方法
CN116664444A (zh) 基于图像的自编码器训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination