CN117290733B - 姿态样本生成方法、模型训练方法、设备及可读存储介质 - Google Patents
姿态样本生成方法、模型训练方法、设备及可读存储介质 Download PDFInfo
- Publication number
- CN117290733B CN117290733B CN202311587127.3A CN202311587127A CN117290733B CN 117290733 B CN117290733 B CN 117290733B CN 202311587127 A CN202311587127 A CN 202311587127A CN 117290733 B CN117290733 B CN 117290733B
- Authority
- CN
- China
- Prior art keywords
- sample
- gesture
- potential
- distribution
- reconstructed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000009826 distribution Methods 0.000 claims abstract description 75
- 239000013598 vector Substances 0.000 claims abstract description 64
- 238000000547 structure data Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 210000003423 ankle Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000005309 stochastic process Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种姿态样本生成方法、模型训练方法、设备及可读存储介质。该方法包括获取初始姿态样本以及条件变量,条件变量是与姿态相关的信息变量;将初始姿态样本与条件变量进行结合得到输入样本;将输入样本输入至样本生成网络的编码器获取其对应第一潜在向量在潜在空间中的分布参数;基于分布参数获取第二潜在向量;将第二潜在向量和条件变量输入至样本生成网络的解码器获取重构姿态样本。通过上述方式,本申请能够解决样本不足导致模型训练程度不足的技术问题。
Description
技术领域
本申请涉及姿态样本生成方法,特别是涉及一种姿态样本生成方法、姿态估计模型训练方法、电子设备及计算机可读存储介质。
背景技术
在姿态估计领域,通常姿态估计方法需要依照大量的标记样本进行训练,这使得当样本较少甚至没有样本时,或是待识别的姿态内容较为复杂多变时,模型对于姿态估计的准确性往往不能满足目标需求。
发明内容
本申请主要目的是提供一种姿态样本生成方法、姿态估计模型训练方法、电子设备及计算机可读存储介质,能够解决样本不足导致模型训练程度不足的技术问题。
为解决上述技术问题,本申请采用的第一个技术方案是:提供一种姿态样本生成方法。该方法应用于样本生成网络,该样本生成网络包括编码器和解码器。该方法包括获取初始姿态样本以及条件变量,条件变量是与姿态相关的信息变量;将初始姿态样本与条件变量进行结合得到输入样本;将输入样本输入至样本生成网络的编码器获取其对应第一潜在向量在潜在空间中的分布参数;基于分布参数获取第二潜在向量;将第二潜在向量和条件变量输入至样本生成网络的解码器获取重构姿态样本。
为解决上述技术问题,本申请采用的第二个技术方案是:提供一种姿态估计模型训练方法。该方法包括获取重构姿态样本,该重构姿态样本基于第一个技术方案中所述的方法得到,将重构姿态样本输出至姿态估计模型中进行训练,以获取最终的姿态估计模型。
为解决上述技术问题,本申请采用的第三个技术方案是:提供一种电子设备。该电子设备包括存储器和处理器,存储器用于存储程序数据,程序数据能够被处理器执行,以实现如第一个技术方案中所述的方法。
为解决上述技术问题,本申请采用的第四个技术方案是:提供一种计算机可读存储介质。该计算机可读存储介质存储有程序数据,能够被处理器执行,以实现如第一个技术方案中所述的方法。
本申请的有益效果是:本方法应用于一样本生成网络,该网络包括有编码器以及解码器,首先获取初始姿态样本以及条件变量输入至样本生成网络中可以得到该初始姿态样本对应的第一潜在向量在潜在空间中的分布参数。根据分布参数可以获取第二潜在向量,而后依照第二潜在向量和条件变量通过解码器获取到不同于初始姿态样本的重构姿态样本。通过加入条件变量,使得能够获取更多能够满足对应条件变量的姿态样本,从而满足目标训练要求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请姿态样本生成方法第一实施例的流程示意图;
图2是本申请姿态样本生成方法第二实施例的流程示意图;
图3是本申请姿态样本生成方法第三实施例的流程示意图;
图4是本申请姿态样本生成方法第四实施例的流程示意图;
图5是本申请姿态样本生成方法第五实施例的流程示意图;
图6是本申请姿态估计模型训练方法一实施例的流程示意图;
图7是本申请电子设备一实施例的结构示意图;
图8是本申请计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参照图1,图1为本申请姿态样本生成方法第一实施例的流程示意图。该方法应用于样本生成网络,样本生成网络包括编码器和解码器。其包括以下步骤:
S11:获取初始姿态样本以及条件变量,条件变量是与姿态相关的信息变量。
收集初始姿态样本,初始姿态样本可以是人体姿态样本,也可以是其他目标对象的姿态样本。条件变量是与姿态相关的信息变量,可以是任何与生成的姿态相关的信息,比如性别、年龄、体型等等。
在将数据送入编码器之前,还需要对数据进行预处理,如果样本为图像,则需要对其进行归一化处理,使得像素值在0-1之间;如果样本为文本,需将其转化为词向量。条件变量的预处理,如果条件变量不是连续的数据,则对其进行独热编码,如果条件变量是一个连续的数值,则对其进行归一化或标准化。
S12:将初始姿态样本与条件变量进行结合得到输入样本。
在获取样本和变量之后,将样本和变量一通送入样本生成网络。通常会将样本与条件变量进行拼接形成输入样本后再将其送入样本生成网络。如对于样本为图像,条件变量为标签类的非连续数据,会将条件变量的独热编码扩容为与图像相同的尺寸,而后将其与图像在通道维度上进行拼接。引入条件变量,使得模型能够学习到条件变量相关信息。
S13:将输入样本输入至样本生成网络的编码器获取其对应第一潜在向量在潜在空间中的分布参数。
在本实施例中,样本生成网络可以是变分自编码器。假设输入的样本为人体姿态图像,其编码器会将输入的人体姿态图像转化为一个潜在向量,其解码器则会将潜在向量重新转化为人体姿态图像。在输入样本输入至样本生成网络中的编码器后,编码器会输出输入样本对应的第一潜在向量在潜在空间中的分布参数。例如,假设潜在向量服从高斯分布,则根据输入样本计算得到的就是高斯分布的两个分布参数,均值和方差。
S14:基于分布参数获取第二潜在向量。
已知了样本的分布参数,利用重参数化技巧,重新采样得到新的第二潜在向量。
S15:将第二潜在向量和条件变量输入至样本生成网络的解码器获取重构姿态样本。
样本生成网络的解码器根据第二潜在向量和条件变量来重构出姿态样本。
在本实施例中,本方法应用于一样本生成网络,该网络包括有编码器以及解码器,首先获取初始姿态样本以及条件变量输入至样本生成网络中可以得到该初始姿态样本对应的第一潜在向量在潜在空间中的分布参数。根据分布参数可以获取第二潜在向量,而后依照第二潜在向量和条件变量通过解码器获取到不同于初始姿态样本的重构姿态样本。通过加入条件变量,使得能够获取更多能够满足对应条件变量的姿态样本,从而满足目标训练要求。本方法将将条件变量与编码器、解码器以及潜在空间的分布进行了有效的结合,使得模型在处理输入样本和生成样本时,可以充分考虑到条件变量的信息。这种整合能力使得生成的样本更加符合指定的条件。
训练样本生成网络的损失函数包括重构损失、KL散度以及超参数,超参数用于调整重构损失和KL散度之间的权重。
样本生成网络的训练过程可以是,首先编码器接收到训练用的输入数据x和条件信息c(如标签或其他类型的辅助信息),然后输出两个向量:均值向量(mu)和标准差向量(sigma)。这两个向量定义了潜在空间的分布(假设为正态分布)。这可以通过以下公式表示:mu,sigma=encoder(x,c)。编码器的目标是捕获输入数据x在给定条件信息c下的所有必要信息,并编码到潜在空间中。而后从潜在空间中进行采样,从这个分布中采样以得到潜在向量z。这通常通过重参数化技巧来实现,以便我们可以将随机过程转化为确定性过程,从而可以用反向传播进行训练。这可以通过以下公式表示:z = mu + sigma * epsilon。其中,epsilon是从标准正态分布中采样的随机噪声。从编码器得到的潜在向量z和条件信息c,它包含了输入数据x的所有必要信息,可以将其传递给解码器以重构原始数据。这可以通过以下公式表示:x_reconstructed = decoder(z, c)。解码器的目标是使用潜在向量z和条件信息c来尽可能地重构原始输入数据x。在训练过程中,我们首先将输入数据x和条件信息c传入编码器得到潜在空间分布,然后从这个分布中采样得到潜在向量z,最后将z和c输入解码器得到重构的数据x_reconstructed。通过比较x和x_reconstructed来计算重构损失,同时计算KL散度来度量潜在空间分布与预设分布(如标准正态分布)之间的差异。这两部分结合起来形成了整体的损失函数,然后通过反向传播和优化算法(如Adam)来更新模型的参数。重构损失可以是任意一种能够计算二者之间差距的函数,如果重构损失利用均方误差计算,则样本生成网络的损失函数公式可以是:loss = MSE(x, x_reconstructed) +β * KL(mu, sigma)。其中,β是一个超参数,用于控制重构损失和KL散度之间的权重。通过多轮的迭代,该样本生成网络可以学会有效地编码输入数据到潜在空间,并从潜在空间解码出原始数据,从而达到数据的生成和变换的目的。训练完成的样本生成网络则开始用于重构姿态样本的生成。
参照图2,图2为本申请姿态样本生成方法第二实施例的流程示意图。该方法是对上述实施例的进一步扩展,其包括以下步骤:
S21:获取第一潜在向量在潜在空间中的分布范围。
S22:响应于分布范围小于预设阈值,增大超参数以增大分布范围;响应于分布范围大于预设阈值,减小超参数以减小分布范围。
在样本生成网络的训练过程中,在训练过程中,通常会监控一些关键指标,以便及时调整网络模型的参数。例如,会关注网络模型的重构误差、KL散度,以及它们的加权和(即损失函数)。此外,还可以通过观察生成的样本来判断潜在空间的分布是否符合预期。在本实施例中,样本生成网络为β-VAE。在β-VAE中,β参数控制了重构误差和KL散度之间的权衡。通过调整β参数,可以改变潜在空间的分布。例如,如果发现潜在空间的分布过于集中,那么可以通过增大β参数,强制网络模型将潜在变量的分布展宽,从而使潜在空间的分布更加广泛。如果发现潜在空间中的分布过于宽松,可以减小β参数,使得潜在空间中的分布更加集中。通过上述方式对损失函数进行调整,在重构误差和潜在空间分布之间进行有效的权衡,使得模型在追求良好重构效果的同时,也能保持潜在空间的结构性质。这种稳定性使得模型的训练过程更加稳定,生成的样本也更加逼真。
参照图3,图3为本申请姿态样本生成方法第三实施例的流程示意图。该方法是对步骤12的进一步扩展,其包括以下步骤:
S31:基于条件变量获取条件变量向量。
S32:将初始姿态样本与条件变量向量在预设维度上拼接得到输入样本。
如果条件变量是连续的(例如关键点的坐标),那么我们可以直接将它们作为一个向量使用。如果条件变量是离散的(例如姿态的标签),那么我们需要将它们转换成一个独热编码向量。
将处理好的初始姿态样本与条件变量向量在预设的指定维度上进行拼接得到用于输入的样本。
在一实施例中,假设初始姿态样本为图像,条件变量为关键点坐标,包括但不限于头,颈部,肩膀,手肘,手腕,胸部,腰部,膝盖,脚踝等,其应用步骤如下:
选择关键点检测算法:选择一个可靠的关键点检测算法来从输入图像中提取关键点坐标。可以选择OpenPose, PoseNet等已有的关键点检测算法。这些算法可以为每个输入图像输出一个关键点的坐标列表。
执行关键点检测:对于训练集中的每一张图像,使用你选择的关键点检测算法来提取关键点。
格式化关键点数据:将每张图像的关键点坐标整理为一个向量。
归一化关键点数据:由于关键点的原始坐标可能具有很大的差异,因此需要对它们进行归一化处理。通常,可以通过减去均值然后除以标准差的方式来实现归一化。这一步的目标是使得关键点数据在各个维度上的分布更均匀,更符合标准正态分布。
准备条件变量:将归一化后的关键点坐标作为条件变量,准备用于训练网络模型。每张图像对应一个条件变量。
在模型中引入条件变量:修改模型的编码器和解码器,使它们都能接受条件变量作为输入。具体来说,可以将条件变量和原始数据(或潜在变量)拼接在一起,然后送入网络模型。
训练过程中,条件变量会和初始姿态样本一通进行损失的计算,训练完成之后,还可以利用新的条件变量(训练未使用过的关键点坐标)来生成新的姿态样本,观察是否满足要求。
参照图4,图4为本申请姿态样本生成方法第四实施例的流程示意图。该方法是对步骤14的进一步扩展,其包括以下步骤:
S41:获取采样噪声。
S42:基于所述分布参数以及所述采样噪声生成所述第二潜在向量。
获取初始姿态样本的分布参数后,从标准正态分布中随机采样噪声,根据分布参数以及噪声生成第二潜在向量。
参照图5,图5为本申请姿态样本生成方法第五实施例的流程示意图。本实施例中,输入样本和重构姿态样本为图像,编码器和解码器包括图神经网络,图神经网络用于获取图形结构数据,该方法是对上述实施例步骤S13-S15的进一步扩展,其包括以下步骤:
S51:将输入样本输入至样本生成网络的编码器获取其对应第一潜在向量在潜在空间中的第一分布参数以及与图形结构数据信息对应的第二分布参数。
由于输出的样本为图形结构数据,相较于单纯的图像,其还具有节点和边的信息,即图形结构数据信息。因此在编码器中,不仅可以得到第一潜在向量在潜在空间中的第一分布参数,还可以得到关于节点信息和边信息的第二分布参数。
S52:基于第一分布参数以及第二分布参数进行噪声采样生成第二潜在向量。
S53:利用解码器基于第二潜在向量和条件变量获取重构图形结构数据。
S54:基于重构图形结构数据获取重构姿态样本。
获取第二潜在向量的方式与上述实施例类似,只是在本实施例中,解码器解码潜在向量后输出的是重构图形结构数据,需要进一步再依照重构图形结构数据生成重构姿态样本。
在一实施例中,本申请中的样本生成网络还包括判别器,以对生成的重构姿态样本进行真假判别。样本生成网络的编码器和解码器作为生成器生成重构姿态样本,判别器对生成的姿态样本进行真假判别,二者共同训练,提高样本生成网络的样本生成性能。
基于图神经网络的具体相关步骤可以包括:
数据表示:如果初始姿态样本为图像,则原始的图像将需要转换成图形结构的数据,以表示人体的关节和连接。每个人体关节可以看作是一个节点,关节间的连接看作是边。这一步骤也可以直接在编码器中完成。
创建图形卷积编码器:在编码器部分,使用图卷积神经网络(GCN)来代替原始的CNN。GCN 可以从图结构数据中获取节点和边的信息。利用图形结构信息,可以学习到更具区分性的特征表示。
设计潜在空间分布:与原先不同,我们不仅需要处理潜在向量的分布,还需要处理节点和边的分布。可以使用多元正态分布来建模这种复杂的潜在空间分布。同时,为了在节点之间引入更多的相关性,也可以考虑使用图卷积网络来参数化协方差矩阵。
创建图形卷积解码器:解码器部分也需要进行更改,将潜在向量解码为图形结构的数据,再将图形结构数据转换为人体姿态图像。
定义损失函数:损失函数应包括重构损失、KL散度损失,以及可能的对抗性损失。在这种情况下,重构损失可能需要特别设计,以处理图结构的数据。例如,可以基于图形编辑距离定义重构损失,以考虑节点和边的匹配问题。
训练过程大致保持不变,但在训练过程中可能需要一些特定的优化策略,以处理图形结构数据的特性。例如,可以使用基于图的批处理策略,以同时处理不同大小的图。
在本实施例中,图神经网络能够更好地处理图形结构的数据,适用于表示和处理人体关节和连接的信息。这使得模型能够更好地学习人体姿态的结构信息,进而生成更逼真的姿态。对应于图形结构数据,引入了更复杂的潜在空间分布,如混合高斯分布或使用正态化流来建模更复杂的分布。这有助于模型更好地捕捉和表示数据的复杂性,提高了模型的表现力。采用了对抗训练的方式,使得生成的姿态图像更加逼真。
参照图6,图6为本申请姿态估计模型训练方法一实施例的流程示意图。其包括以下步骤:
S61:获取重构姿态样本。
重构姿态样本基于上述姿态样本生成方法利用样本生成网络得到。
S62:将重构姿态样本输入至姿态估计模型中进行训练,以获取最终的姿态估计模型。
用上述姿态样本生成方法利用初始姿态样本生成不同于初始姿态样本的重构姿态样本,使得姿态估计模型能够利用更多的姿态样本进行训练学习,提高模型性能。
如图7所示,图7为本申请电子设备第一实施例的结构示意图。
该电子设备包括处理器110、存储器120。
处理器110控制电子设备的操作,处理器110还可以称为CPU(Central ProcessingUnit,中央处理单元)。处理器110可能是一种集成电路芯片,具有信号序列的处理能力。处理器110还可以是通用处理器、数字信号序列处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器120存储处理器110工作所需要的指令和程序数据。
处理器110用于执行指令以实现本申请姿态样本生成方法和/或姿态估计模型训练方法中的任一实施例及可能的组合所提供的方法。
如图8所示,图8为本申请计算机可读存储介质一实施例的结构示意图。
本申请可读存储介质一实施例包括存储器210,存储器210存储有程序数据,该程序数据被执行时实现本申请姿态样本生成方法和/或姿态估计模型训练方法中的任一实施例及可能的组合所提供的方法。
存储器210可以包括U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等可以存储程序指令的介质,或者也可以为存储有该程序指令的服务器,该服务器可将存储的程序指令发送给其他设备运行,或者也可以自运行该存储的程序指令。
综上所述,本方法应用于一样本生成网络,该网络包括有编码器以及解码器,首先获取初始姿态样本以及条件变量输入至样本生成网络中可以得到该初始姿态样本对应的第一潜在向量在潜在空间中的分布参数。根据分布参数可以获取第二潜在向量,而后依照第二潜在向量和条件变量通过解码器获取到不同于初始姿态样本的重构姿态样本。通过加入条件变量,使得能够获取更多能够满足该条件变量的姿态样本,从而满足目标训练要求。
在本申请所提供的几个实施方式中,应该理解到,所揭露的方法以及设备,可以通过其它的方式实现。例如,以上所描述的设备实施方式仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述其他实施方式中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (9)
1.一种姿态样本生成方法,其特征在于,应用于样本生成网络,所述样本生成网络包括编码器和解码器,所述方法包括:
获取初始姿态样本以及条件变量,所述条件变量是与姿态相关的信息变量;
将所述初始姿态样本与所述条件变量进行结合得到输入样本;
将所述输入样本输入至所述样本生成网络的编码器获取其对应第一潜在向量在潜在空间中的分布参数;
基于所述分布参数获取第二潜在向量;
将所述第二潜在向量和所述条件变量输入至所述样本生成网络的解码器获取重构姿态样本;
其中,所述初始姿态样本为图像,所述编码器和所述解码器均包括图神经网络,用于获取图形结构数据,以表示人体的关节和连接,所述将所述输入样本输入至所述样本生成网络的编码器获取其对应第一潜在向量在潜在空间中的分布参数,包括:
将所述输入样本输入至所述样本生成网络的编码器获取其对应第一潜在向量在潜在空间中的第一分布参数以及与图形结构数据信息对应的第二分布参数;
所述基于所述分布参数获取第二潜在向量,包括:
基于所述第一分布参数以及所述第二分布参数进行噪声采样生成所述第二潜在向量;
所述将所述第二潜在向量和所述条件变量输入至所述样本生成网络的解码器获取重构姿态样本,包括:
利用所述解码器基于所述第二潜在向量和所述条件变量获取重构图形结构数据;
基于所述重构图形结构数据获取所述重构姿态样本。
2.根据权利要求1所述的方法,其特征在于,训练所述样本生成网络的损失函数包括重构损失、KL散度以及超参数,所述超参数用于调整所述重构损失和所述KL散度之间的权重。
3.根据权利要求2所述的方法,其特征在于,所述超参数的调整方法,包括:
获取所述第一潜在向量在所述潜在空间中的分布范围;
响应于所述分布范围小于预设阈值,增大所述超参数以增大所述分布范围;
响应于所述分布范围大于所述预设阈值,减小所述超参数以减小所述分布范围。
4.根据权利要求2所述的方法,其特征在于,所述将所述初始姿态样本与所述条件变量进行结合得到输入样本,包括:
基于所述条件变量获取条件变量向量;
将所述初始姿态样本与所述条件变量向量在预设维度上拼接得到输入样本。
5.根据权利要求1所述的方法,其特征在于,基于所述分布参数获取第二潜在向量,包括:
获取采样噪声;
基于所述分布参数以及所述采样噪声生成所述第二潜在向量。
6.根据权利要求1所述的方法,其特征在于,所述样本生成网络还包括判别器,以对生成的所述重构姿态样本进行真假判别。
7.一种姿态估计模型训练方法,其特征在于,所述方法包括:
获取重构姿态样本,所述重构姿态样本基于权利要求1-6中任一项所述的姿态样本生成方法得到;
将所述重构姿态样本输入至姿态估计模型中进行训练,以获取最终的姿态估计模型。
8.一种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储程序数据,所述程序数据能够被所述处理器执行,以实现如权利要求1-7任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,存储有程序数据,能够被处理器执行,以实现如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311587127.3A CN117290733B (zh) | 2023-11-27 | 2023-11-27 | 姿态样本生成方法、模型训练方法、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311587127.3A CN117290733B (zh) | 2023-11-27 | 2023-11-27 | 姿态样本生成方法、模型训练方法、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117290733A CN117290733A (zh) | 2023-12-26 |
CN117290733B true CN117290733B (zh) | 2024-03-12 |
Family
ID=89239425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311587127.3A Active CN117290733B (zh) | 2023-11-27 | 2023-11-27 | 姿态样本生成方法、模型训练方法、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117290733B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118330472B (zh) * | 2024-06-14 | 2024-08-23 | 南通乐创新能源有限公司 | 一种电池运行数据增强方法、设备、介质及产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680623A (zh) * | 2020-06-05 | 2020-09-18 | 北京百度网讯科技有限公司 | 姿态转换方法及装置、电子设备、存储介质 |
CN114399829A (zh) * | 2022-03-25 | 2022-04-26 | 浙江壹体科技有限公司 | 基于生成式对抗网络的姿态迁移方法、电子设备及介质 |
CN114662666A (zh) * | 2022-03-28 | 2022-06-24 | 天津科技大学 | 基于β-GVAE的解耦合方法、系统和相关设备 |
CN114693557A (zh) * | 2022-03-31 | 2022-07-01 | 华南理工大学 | 基于姿态引导的行人视频修复方法、系统、设备和介质 |
CN115082300A (zh) * | 2022-07-22 | 2022-09-20 | 中国科学技术大学 | 图像生成模型的训练方法、图像生成方法及装置 |
KR20220148053A (ko) * | 2021-04-28 | 2022-11-04 | 계명대학교 산학협력단 | 그래프 합성곱 신경망을 이용한 다중 객체 추적 장치 및 방법 |
CN116416677A (zh) * | 2022-12-23 | 2023-07-11 | 中国科学院自动化研究所 | 自监督人体姿态转换方法及系统、可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11893498B2 (en) * | 2018-09-18 | 2024-02-06 | Insilico Medicine Ip Limited | Subset conditioning using variational autoencoder with a learnable tensor train induced prior |
US11648480B2 (en) * | 2020-04-06 | 2023-05-16 | Electronic Arts Inc. | Enhanced pose generation based on generative modeling |
US20210397945A1 (en) * | 2020-06-18 | 2021-12-23 | Nvidia Corporation | Deep hierarchical variational autoencoder |
US20220108183A1 (en) * | 2020-10-01 | 2022-04-07 | Salesforce.Com, Inc. | Momentum contrastive autoencoder |
-
2023
- 2023-11-27 CN CN202311587127.3A patent/CN117290733B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680623A (zh) * | 2020-06-05 | 2020-09-18 | 北京百度网讯科技有限公司 | 姿态转换方法及装置、电子设备、存储介质 |
KR20220148053A (ko) * | 2021-04-28 | 2022-11-04 | 계명대학교 산학협력단 | 그래프 합성곱 신경망을 이용한 다중 객체 추적 장치 및 방법 |
CN114399829A (zh) * | 2022-03-25 | 2022-04-26 | 浙江壹体科技有限公司 | 基于生成式对抗网络的姿态迁移方法、电子设备及介质 |
CN114662666A (zh) * | 2022-03-28 | 2022-06-24 | 天津科技大学 | 基于β-GVAE的解耦合方法、系统和相关设备 |
CN114693557A (zh) * | 2022-03-31 | 2022-07-01 | 华南理工大学 | 基于姿态引导的行人视频修复方法、系统、设备和介质 |
CN115082300A (zh) * | 2022-07-22 | 2022-09-20 | 中国科学技术大学 | 图像生成模型的训练方法、图像生成方法及装置 |
CN116416677A (zh) * | 2022-12-23 | 2023-07-11 | 中国科学院自动化研究所 | 自监督人体姿态转换方法及系统、可读存储介质 |
Non-Patent Citations (3)
Title |
---|
Kento Terauchi等."Pose Sequence Generation with a GCN and an Initial Pose Generator".《ACPR 2021: Pattern Recognition》.2022,全文. * |
Xiaoyu Bie等."HiT-DVAE: Human Motion Generation via Hierarchical Transformer Dynamical VAE".《arXiv:2204.01565v1》.2022,全文. * |
林通等."基于双流卷积神经网络和生成式对抗网络的行人重识别算法".《信息技术与网络安全》.2020,第39卷(第6期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN117290733A (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Stackgan++: Realistic image synthesis with stacked generative adversarial networks | |
Zreik et al. | Deep learning analysis of coronary arteries in cardiac CT angiography for detection of patients requiring invasive coronary angiography | |
CN117290733B (zh) | 姿态样本生成方法、模型训练方法、设备及可读存储介质 | |
US8861815B2 (en) | Systems and methods for modeling and processing functional magnetic resonance image data using full-brain vector auto-regressive model | |
CN111539467A (zh) | 基于生成对抗网络为医疗影像数据集做数据增广的gan网络架构及方法 | |
JP7038857B2 (ja) | 医用画像変換 | |
Mahapatra et al. | Medical image classification using generalized zero shot learning | |
Samigulina | Development of decision support systems based on intellectual technology of artificial immune systems. | |
Schomaker | Shrinkage averaging estimation | |
KR20180117009A (ko) | 초음파 영상 을 보완 및 증강 출력 해주기 위한 인공지능적인 방법 | |
Zhang et al. | A sparse annotation strategy based on attention-guided active learning for 3D medical image segmentation | |
CN117974693B (zh) | 图像分割方法、装置、计算机设备和存储介质 | |
Segato et al. | Data augmentation of 3D brain environment using deep convolutional refined auto-encoding alpha GAN | |
Rahman et al. | Brain tumor segmentation using UNet-context encoding network | |
Gautam et al. | Generative replay-based continual zero-shot learning | |
Wei et al. | Past is important: Improved image captioning by looking back in time | |
Lima Neto et al. | Regression model for interval-valued variables based on copulas | |
Liu et al. | Learning shape and texture progression for young child face aging | |
Shankar et al. | Progressive fusion for multimodal integration | |
Liu et al. | Multi-grained Radiology Report Generation with Sentence-level Image-language Contrastive Learning | |
CN116721176B (zh) | 一种基于clip监督的文本到人脸图像生成方法及装置 | |
Gonzalez Duque et al. | Spatio-temporal consistency and negative label transfer for 3D freehand US segmentation | |
Miller et al. | Discriminative regularization for latent variable models with applications to electrocardiography | |
CN112529772B (zh) | 一种零样本设置下的无监督图像转换方法 | |
US11915401B2 (en) | Apriori guidance network for multitask medical image synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |