CN116978057A - 图像中人体姿态迁移方法、装置、计算机设备和存储介质 - Google Patents

图像中人体姿态迁移方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN116978057A
CN116978057A CN202211741579.8A CN202211741579A CN116978057A CN 116978057 A CN116978057 A CN 116978057A CN 202211741579 A CN202211741579 A CN 202211741579A CN 116978057 A CN116978057 A CN 116978057A
Authority
CN
China
Prior art keywords
feature
order
target
image
human body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211741579.8A
Other languages
English (en)
Inventor
宋奕兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211741579.8A priority Critical patent/CN116978057A/zh
Publication of CN116978057A publication Critical patent/CN116978057A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本申请涉及一种图像中人体姿态迁移方法、装置、计算机设备、存储介质和计算机程序产品。所述方法通过先对源人体姿势图像进行特征编码处理,得到源图像编码特征,并对目标人体图像进行特征编码处理,得到目标图像编码特征;而后通过全局注意力机制对源图像编码特征和目标图像编码特征进行全局特征融合处理,得到全局特征融合结果;通过卷积对全局特征融合结果进行局部特征融合处理,得到目标特征融合结果;即先通过全局注意力机制实现全局特征的匹配,然后利用卷积来进行局部细微动作的匹配,从而提高特征融合的效果。最后基于目标特征融合结果进行特征迁移,得到融合源人体姿势图像中人体姿势的目标人体图像,保证人体姿态迁移的准确性。

Description

图像中人体姿态迁移方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种图像中人体姿态迁移方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机技术与人工智能技术的发展,出现了计算机视觉(Computer Vision,CV)技术。计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。而人体姿态迁移就是计算机视觉所研究的一个目标,主要用于将目标视频中人的运动,迁移至静态图像的人中,做出同样的动作。
目前一般可以通过三维方法来实现人体姿态迁移,即引入高密度的人体姿态信息,以及参数化的身体网格作为限制条件,来实现像素级别的匹配。虽然这种方法旨在把两张图像校准到同样一个三维模型进行像素级的匹配,但是其校准效果并不好。且因为图像中的背景干扰十分严重,还存在局部的人体被遮挡的情况,因此人体姿态迁移的准确性较差。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高人体姿态迁移准确性的图像中人体姿态迁移方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种图像中人体姿态迁移方法。所述方法包括:
对源人体姿势图像进行特征编码处理,得到源图像编码特征,并对目标人体图像进行特征编码处理,得到目标图像编码特征;
通过全局注意力机制对所述源图像编码特征和所述目标图像编码特征进行全局特征融合处理,得到全局特征融合结果;
通过卷积对所述全局特征融合结果进行局部特征融合处理,得到目标特征融合结果;
基于所述目标特征融合结果对所述目标人体图像进行特征迁移,得到融合所述源人体姿势图像中人体姿势的目标人体图像。
第二方面,本申请还提供了一种图像中人体姿态迁移装置。所述装置包括:
特征编码模块,用于对源人体姿势图像进行特征编码处理,得到源图像编码特征,并对目标人体图像进行特征编码处理,得到目标图像编码特征;
全局特征融合模块,用于通过全局注意力机制对所述源图像编码特征和所述目标图像编码特征进行全局特征融合处理,得到全局特征融合结果;
局部特征融合模块,用于通过卷积对所述全局特征融合结果进行局部特征融合处理,得到目标特征融合结果;
姿态迁移模块,用于基于所述目标特征融合结果对所述目标人体图像进行特征迁移,得到融合所述源人体姿势图像中人体姿势的目标人体图像。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
对源人体姿势图像进行特征编码处理,得到源图像编码特征,并对目标人体图像进行特征编码处理,得到目标图像编码特征;
通过全局注意力机制对所述源图像编码特征和所述目标图像编码特征进行全局特征融合处理,得到全局特征融合结果;
通过卷积对所述全局特征融合结果进行局部特征融合处理,得到目标特征融合结果;
基于所述目标特征融合结果对所述目标人体图像进行特征迁移,得到融合所述源人体姿势图像中人体姿势的目标人体图像。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
对源人体姿势图像进行特征编码处理,得到源图像编码特征,并对目标人体图像进行特征编码处理,得到目标图像编码特征;
通过全局注意力机制对所述源图像编码特征和所述目标图像编码特征进行全局特征融合处理,得到全局特征融合结果;
通过卷积对所述全局特征融合结果进行局部特征融合处理,得到目标特征融合结果;
基于所述目标特征融合结果对所述目标人体图像进行特征迁移,得到融合所述源人体姿势图像中人体姿势的目标人体图像。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
对源人体姿势图像进行特征编码处理,得到源图像编码特征,并对目标人体图像进行特征编码处理,得到目标图像编码特征;
通过全局注意力机制对所述源图像编码特征和所述目标图像编码特征进行全局特征融合处理,得到全局特征融合结果;
通过卷积对所述全局特征融合结果进行局部特征融合处理,得到目标特征融合结果;
基于所述目标特征融合结果对所述目标人体图像进行特征迁移,得到融合所述源人体姿势图像中人体姿势的目标人体图像。
上述图像中人体姿态迁移方法、装置、计算机设备、存储介质和计算机程序产品,通过先对源人体姿势图像进行特征编码处理,得到源图像编码特征,并对目标人体图像进行特征编码处理,得到目标图像编码特征;分别提取出源人体姿势图像和目标人体图像的特征,而后通过全局注意力机制对源图像编码特征和目标图像编码特征进行全局特征融合处理,得到全局特征融合结果;通过卷积对全局特征融合结果进行局部特征融合处理,得到目标特征融合结果;即在特征融合的过程中先通过全局注意力机制实现全局特征的匹配,然后利用卷积来进行局部细微动作的匹配,从而提高特征融合的效果。最后基于目标特征融合结果对目标人体图像进行特征迁移,得到融合源人体姿势图像中人体姿势的目标人体图像,来保证人体姿态迁移的准确性。本申请通过基于全局注意力机制来实现全局特征的匹配融合,并结合卷积的方法来实现局部特征的匹配融合,以此实现全局和局部共同的匹配方案,能有效达到提升姿态迁移准确性的效果。
附图说明
图1为一个实施例中图像中人体姿态迁移方法的应用环境图;
图2为一个实施例中图像中人体姿态迁移方法的流程示意图;
图3为一个实施例中源人体姿势图像的示意图;
图4为一个实施例中对源人体姿势图像进行姿态转移的结果示意图;
图5为一个实施例中转换器的结构示意图;
图6为一个实施例中三阶编码器和三阶解码器的结构示意图;
图7为一个实施例中第一阶编码器模块和融合模块的结构示意图;
图8为一个实施例中姿态迁移效果的对比示意图;
图9为另一个实施例中图像中人体姿态迁移方法的流程示意图;
图10为一个实施例中图像中人体姿态迁移装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请涉及人工智能(Artificial Intelligence,AI)技术,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。而本申请具体涉及了计算机视觉领域和机器学习(Machine Learning,ML)领域。
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。而机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的图像中人体姿态迁移方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。当用户需要将某一张人体姿势图像中的人体姿势迁移到另外一张图像,让另外一张图像上的人体也作出相同的姿势动作时,可以通过本申请的图像中人体姿态迁移方法来实现对人体动作姿态的迁移处理,首先用户通过终端102向服务器104提供源人体姿势图像和目标人体图像,而后服务器104对源人体姿势图像进行特征编码处理,得到源图像编码特征,并对目标人体图像进行特征编码处理,得到目标图像编码特征;通过全局注意力机制对源图像编码特征和目标图像编码特征进行全局特征融合处理,得到全局特征融合结果;通过卷积对全局特征融合结果进行局部特征融合处理,得到目标特征融合结果;基于目标特征融合结果对目标人体图像进行特征迁移,得到融合源人体姿势图像中人体姿势的目标人体图像。其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种图像中人体姿态迁移方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤201,对源人体姿势图像进行特征编码处理,得到源图像编码特征,并对目标人体图像进行特征编码处理,得到目标图像编码特征。
其中,源人体姿势图像是指存在原始人体动作姿势的图像,图像中的人体做出的动作就是本申请方法所需要迁移的目标对象。在一个具体的实施例中,如图3所示,源人体姿势图像可以使用骨架(skeleton)图像的形式来进行表达。目标人体图像则是需要迁移入动作的目标对象,其具体可以为一个做出任意动作的人体。在一个实施例中,如图4所示,第一行为源人体姿势图像进,第一列为目标人体图像,在迁移入源人体姿势图像的动作后,融合源人体姿势图像中人体姿势的目标人体图像如图中(a)-(f)所示。特征编码处理是指对特征向量编码的过程,本申请的方案中是指通过编码器(encoder)模型从源人体姿势图像和目标人体图像中提取特征,构成特征向量的过程。特征编码处理所编码得到的源图像编码特征即为可以代表源人体姿势图像的特征向量。而目标图像编码特征则是可以代表目标人体图像的特征向量。在其中一个实施例中,本申请的编码器模型具体可以为转换器(Transformer)模型的编码器。通过编码器的多头注意力机制可以有效地提取出图像中的特征,构建图像编码特征向量。
具体地,当终端102方的用户需要进行图像中人体姿态迁移的相关处理时,可以提交包含目标姿势的源人体姿势图像以及目标人体的目标人体图像至服务器104,由服务器104来将源人体姿势图像中的姿势迁移到目标人体图像中,使得目标人体做出目标姿势。而服务器104在得到源人体姿势图像和目标人体图像后。首先通过训练完成的特征编码器模型来分别提取源人体姿势图像和目标人体图像中的图像特征,得到与源人体姿势图像对应的源图像编码特征、以及与目标人体图像对应的目标图像编码特征。其中,用于处理源人体姿势图像和目标人体图像的特征编码器模型结构相同,但是由不同的模型训练数据训练得到。在其中一个具体的实施例中,本申请的特征编码器模型由转换器模型中的编码器实现,其结构可以参照图5中左半部分所示,由多头注意力、求和与归一化以及前馈等过程组合而成,可以有效地实现对图像的编码处理,得到源图像编码特征和目标图像编码特征。
步骤203,通过全局注意力机制对源图像编码特征和目标图像编码特征进行全局特征融合处理,得到全局特征融合结果。
其中,注意力机制(Attention Mechanism)源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。上述机制通常被称为注意力机制。人类视网膜不同的部位具有不同程度的信息处理能力,即敏锐度(Acuity),只有视网膜中央凹部位具有最强的敏锐度。为了合理利用有限的视觉信息处理资源,人类需要选择视觉区域中的特定部分,然后集中关注它。注意力机制主要有两个方面:决定需要关注输入的哪部分;分配有限的信息处理资源给重要的部分。本申请的方案中主要通过注意力机制来实现对源图像编码特征和目标图像编码特征的全局特征融合,即主要集中处理从整体上融合源图像编码特征和目标图像编码特征。特征融合处理的处理过程又称为特征解码过程,主要用于对同一模式抽取不同的特征向量进行优化组合处理,本申请的方案中特征融合的过程主要用于将编码得到的源图像编码特征和目标图像编码特征进行合并,从而得到可用于进行人体姿态迁移的特征向量。
具体地,本申请的方案中,在实现了对源人体姿势图像和目标人体图像的编码处理后,接着便可以进行特征融合的处理,而本申请的特征融合处理主要包括两部分的处理过程,其一是通过注意力机制的全局特征融合处理过程,这一过程可以由注意力机制来对源图像编码特征和目标图像编码特征进行全局特征融合处理,得到融合特征。而后再由卷积实现局部特征的融合,完成整个特征融合的过程,保证特征处理的有效性。在其中一个实施例中,本申请的特征解码器模型由转换器模型中的解码器实现,其结构可以参照图5中由半部分所示,由多头注意力、求和与归一化以及前馈等过程组合而成,第一个实现多头注意力机制的多头注意力器采用了掩膜操作(masked)可以有效地实现对图像的解码处理,完成源图像编码特征和目标图像编码特征的全局融合处理。
步骤205,通过卷积对全局特征融合结果进行局部特征融合处理,得到目标特征融合结果。
其中,卷积处理具体是指通过卷积神经网络来对全局特征融合结果在进行一次特征融合处理,因为卷积神经网络会进行区域的分块,找到每一区域最有代表的特征,即局部感受眼,因此本申请通过卷积的局部感受眼来完成对局部特征的融合处理,来进行细微姿势动作的匹配。
具体地,本申请的方案中,在进行特征融合的处理,而本申请的特征融合处理主要包括两部分的处理过程,除了通过注意力机制的全局特征融合处理过程外,还包含了由卷积实现局部特征的融合的过程。在局部特征融合时,可以通过将全局特征融合结果输入到训练完成的卷积层,通过卷积层的卷积处理来完成局部特征的融合。在其中一个实施例中,本申请的特征编码过程和特征解码过程具体可以分阶段完成,在特征编码过程中分阶段提取编码特征,而不同阶段直接则包含卷积处理的过程。对于特征解码的过程同样也是分阶段进行特征融合,同时在每一个阶段中插入编码处理的过程。
步骤207,基于目标特征融合结果对目标人体图像进行特征迁移,得到融合源人体姿势图像中人体姿势的目标人体图像。
其中,特征迁移是指通过目标特征融合结果,将源人体姿势图像中的姿势动作移植到目标人体图像上,以对目标人体图像的人体姿势进行变形,得到融合源人体姿势图像中人体姿势的目标人体图像。
具体地,在通过特征编码以及特征融合处理后,所得到的目标特征融合结果中已经包含了基于注意力机制所融合的全局特征,还有从卷积角度所融合的局部特征。因此,可以通过目标特征融合结果来实现针对目标人体图像的特征迁移,通过特征迁移处理可以对目标人体图像的人体姿势进行变形(warping)处理,从而得到融合源人体姿势图像中人体姿势的目标人体图像,在一个实施例中,除了对目标人体图像的人体姿势进行变形的分支外,还可以包含基于目标特征融合结果得到的生成(generation)分支,用于对变形分支进行补充,得到更优的目标人体图像。
上述图像中人体姿态迁移方法,通过先对源人体姿势图像进行特征编码处理,得到源图像编码特征,并对目标人体图像进行特征编码处理,得到目标图像编码特征;分别提取出源人体姿势图像和目标人体图像的特征,而后通过全局注意力机制对源图像编码特征和目标图像编码特征进行全局特征融合处理,得到全局特征融合结果;通过卷积对全局特征融合结果进行局部特征融合处理,得到目标特征融合结果;即在特征融合的过程中先通过全局注意力机制实现全局特征的匹配,然后利用卷积来进行局部细微动作的匹配,从而提高特征融合的效果。最后基于目标特征融合结果对目标人体图像进行特征迁移,得到融合源人体姿势图像中人体姿势的目标人体图像,来保证人体姿态迁移的准确性。本申请通过基于全局注意力机制来实现全局特征的匹配融合,并结合卷积的方法来实现局部特征的匹配融合,以此实现全局和局部共同的匹配方案,能有效达到提升姿态迁移准确性的效果。
在一个实施例中,步骤201包括:对源人体姿势图像进行分阶段特征编码处理和各阶段间的卷积处理,得到各阶源图像编码特征,并对目标人体图像进行分阶段特征编码处理和各阶段间的卷积处理,得到各阶目标图像编码特征。步骤203包括:通过全局注意力机制对各阶源图像编码特征和各阶目标图像编码特征依次进行全局特征融合处理,得到各阶段全局特征融合结果.步骤205包括:通过卷积对各阶段全局特征融合结果依次进行局部特征融合处理,得到目标特征融合结果。
具体地,分阶段具体是指通过多个编码器,来在不同阶段内进行相应的图像编码特征提取操作,每个阶段都包含有若干个编码器结构,当前阶段的编码结果则是下一阶段的编码输入。而各阶段间的卷积处理,则是在每个编码器的每阶段之间,采用卷积的方式来对编码器处理得到的图像编码特征进行图像块削减以及通道数上升的处理,从而保证编码处理的有效性。在编码器分阶段处理的基础上,相应的解码器也要进行分阶段的特征融合处理,即需要通过全局注意力机制对各阶源图像编码特征和各阶目标图像编码特征依次进行全局特征融合处理,得到各阶段全局特征融合结果,通过卷积对各阶段全局特征融合结果依次进行局部特征融合处理,得到目标特征融合结果。而在特征融合处理的过程中,首先进行最后一阶段的全局特征融合,而后进行相应的局部特征融合,局部特征融合后再进行上一阶段的全局特征融合,直到所有的全局特征和局部特征都融合完毕,所得到的即为目标特征融合结果。本实施例中,通过分阶段地进行源图像编码特征和目标图像编码特征的特征提取,以及分阶段地特征融合处理,可以有效地保证数据降维的效果,从而保证特征提取的有效性。
在一个实施例中,源图像编码特征至少包括一阶源图像编码特征、二阶源图像编码特征以及三阶源图像编码特征;步骤201中的对源人体姿势图像进行分阶段特征编码处理和各阶段间的卷积处理,得到各阶源图像编码特征包括:对源人体姿势图像进行特征编码处理,得到一阶源图像编码特征;对一阶源图像编码特征进行卷积处理以及特征编码处理,得到二阶源图像编码特征;对二阶源图像编码特征进行卷积处理以及特征编码处理,得到三阶源图像编码特征。
具体地,分阶段具体可以分为三个阶段,首先在第一阶段直接对源人体姿势图像进行特征编码处理,来得到第一次降维之后的一阶源图像编码特征。而后在第二阶段处理时,则需要先对一阶源图像编码特征进行一次卷积处理,从而实现第一次的图像块削减以及通道数上升,而后通过第二次的特征编码处理来得到二阶源图像编码特征,即包含了通过卷积层对一阶源图像编码特征进行通道数上升处理,得到二阶图像块特征;以及通过转换器模型中的编码器来对二阶图像块特征进行特征编码处理,得到二阶源图像编码特征的过程。而在第三阶段的处理中,则是直接对二阶源图像编码特征进行卷积处理以及特征编码处理,得到三阶源图像编码特征。即在另外的实施例中,除了分三阶段进行特征提取处理外,还可以通过四阶段以及五阶段等更多阶段的处理来实现特征编码以及特征融合。但通过实验,综合模型运行效率、特征提取以及特征融合的效果,选择分三个阶段来进行特征提取以及特征融合。同理,对目标人体图像进行特征提取的处理也可分为三个阶段,具体过程可以参照本实施例中。本实施例中,通过分个阶段来进行源图像编码特征的特征提取,可以有效地保证数据降维的效果,从而保证特征提取的有效性。
在一个实施例中,源图像编码特征包括一阶源图像编码特征、二阶源图像编码特征以及三阶源图像编码特征,目标图像编码特征包括一阶目标图像编码特征、二阶目标图像编码特征以及三阶目标图像编码特征。
通过全局注意力机制对各阶源图像编码特征和各阶目标图像编码特征依次进行全局特征融合处理,得到各阶段全局特征融合结果包括:通过全局注意力机制对三阶源图像编码特征和三阶目标图像编码特征进行全局特征融合处理,得到三阶全局融合特征和三阶流场;基于三阶融合特征以及二阶源图像编码特征构建三阶源图像融合特征,三阶融合特征通过卷积对三阶全局融合特征进行局部特征融合处理得到;通过全局注意力机制,对三阶流场、三阶源图像融合特征以及二阶目标图像编码特征进行特征融合处理,得到二阶全局融合特征和二阶流场;基于二阶融合特征以及一阶源图像编码特征构建二阶源图像融合特征,二阶融合特征通过卷积对二阶全局融合特征进行局部特征融合处理得到;通过全局注意力机制,对二阶流场、二阶源图像融合特征以及一阶目标图像编码特征进行特征融合处理,得到全局特征融合结果和一阶流场。
通过卷积对各阶段全局特征融合结果依次进行局部特征融合处理,得到目标特征融合结果包括:通过卷积对全局特征融合结果进行局部特征融合处理,得到目标特征融合结果。
步骤207包括:基于目标特征融合结果以及一阶流场对目标人体图像进行特征迁移,得到融合源人体姿势图像中人体姿势的目标人体图像。
其中,流场(flow field)是本申请中用于对源特征进行变形处理的模块,其通过编码器模块输出,编码器模块具体可以包含两个分支,其一是变形(warping)分支,用于生成流场。其二是生成分支,用于基于源特征的全局信息来生成新的内容,用于对变形分支进行补充。
具体地,本申请中分三阶的特征编码处理以及特征融合处理的具体流程可以参照图6所示,在特征编码阶段可以包含三阶的图像特征提取处理以及与之对应的三阶图像特征融合处理。而在进行特征提取时,首先通过全局注意力机制对三阶源图像编码特征和三阶目标图像编码特征进行全局特征融合处理,在这个过程中,分别通过解码器模块的两个分支得到三阶全局融合特征以及三阶流场f3。而后在进行二阶特征融合之前,先对三阶全局融合特征进行一次卷积的局部特征融合处理,得到三阶融合特征,而后则可基于三阶融合特征以及二阶源图像编码特征来构建三阶源图像融合特征,实现三阶特征融合。而对于二阶特征融合的过程,三阶特征融合过程中生成的三阶流场、三阶源图像融合特征以及原始输入的二阶目标图像编码特征为二阶解码器模块的输入,在二阶解码器模块中,通过全局注意力机制,对三阶流场、三阶源图像融合特征以及二阶目标图像编码特征进行全局特征融合处理,得到二阶全局融合特征和二阶流场f2,再通过卷积对二阶全局融合特征进行局部特征融合处理,得到二阶融合特征。如图所示,二阶段特征融合处理时最后输出的结果为二阶融合特征和二阶流场f2。同理,对于一阶图像特征融合的过程,需要先基于二阶融合特征以及一阶源图像编码特征构建二阶源图像融合特征,再通过全局注意力机制,对二阶流场、二阶源图像融合特征以及一阶目标图像编码特征进行特征融合处理,得到全局特征融合结果和一阶流场f1,通过卷积对全局特征融合结果进行局部特征融合处理,得到目标特征融合结果。在最终的特征迁移阶段,对目标特征融合结果进行卷积处理,可以得到掩膜输出,而结合目标特征融合结果以及一阶流场即可对目标人体图像进行特征迁移,得到融合源人体姿势图像中人体姿势的目标人体图像。其中三个阶级的特征融合阶段分别包含了12、4、2个编码器块。本实施例中,通过三阶的图像编码特征融合处理,可以有效地实现人体姿态迁移过程中的特征融合处理,保证姿态迁移的准确性。
在一个实施例中,二阶全局融合特征包括二阶特征生成结果和二阶特征变形结果。通过全局注意力机制,对三阶流场、三阶源图像融合特征以及二阶目标图像编码特征进行特征融合处理,得到二阶全局融合特征和二阶流场包括:基于三阶融合特征构建二阶查询向量,基于二阶目标图像编码特征构建二阶键向量和二阶值向量;对二阶查询向量、二阶键向量以及二阶值向量进行多头注意力处理以及卷积处理,得到二阶特征生成结果;对二阶查询向量、二阶键向量以及二阶值向量进行多头注意力处理以及卷积处理,并融合三阶流场得到二阶流场,基于二阶流场对二阶目标图像编码特征进行变形处理,得到二阶特征变形结果。通过卷积对二阶全局融合特征进行局部特征融合处理,得到二阶融合特征包括:对二阶特征生成结果以及二阶特征变形结果进行特征融合处理,得到二阶融合特征。
具体地,对于二阶融合特征以及二阶流场的构建过程,首先进行注意力机制的处理,基于上一阶得到的三阶融合特征构建二阶查询向量,而后与二阶目标图像编码特征构建二阶键向量和二阶值向量。变形分支的处理过程如图7中下半部分的左边所示,首先基于二阶查询向量、二阶键向量以及二阶值向量进行多头注意力处理,而后将结果输入到卷积层中进行卷积处理,得到的结果融合三阶流场,得到了二阶流场,再通过二阶流场来对二阶目标图像编码特征进行变形处理,即可得到相应的二阶特征变形结果。而生成分支则可以参照图7中下半部分的右边所示,通过先直接对二阶查询向量、二阶键向量以及二阶值向量进行多头注意力处理以及卷积处理,得到二阶特征生成结果。最后级联两个分支的结果数据,并通过卷积层进行降维,再通过多层感知机和残差连接的处理,即可得到所需的二阶融合特征。而对于一阶特征融合的过程,其过程与本实施例中二阶特征融合过程类似,因此不再赘述。本实施例中,通过变形分支和生成分支的结合,可以有效地实现人体姿态迁移过程中的特征融合处理,保证姿态迁移的准确性。
在一个实施例中,对二阶查询向量、二阶键向量以及二阶值向量进行多头注意力处理以及卷积处理,并融合三阶流场得到二阶流场,基于二阶流场对二阶目标图像编码特征进行变形处理,得到二阶特征变形结果包括:基于二阶查询向量、二阶键向量以及二阶值向量进行多头注意力处理,得到二阶注意力特征;对二阶注意力特征进行卷积处理,并结合三阶流场得到二阶流场;通过二阶流场对二阶源图像融合特征进行变形处理,得到二阶特征变形结果。
具体地,对于二阶特征变形结果的计算过程,可以先直接基于二阶查询向量、二阶键向量以及二阶值向量进行多头注意力处理,得到二阶注意力特征,而后对二阶注意力特征进行卷积处理,并结合三阶流场预测相应的二阶流场,在这个过程中,具体可以以残差的方式,逐步的对二阶流场进行完善,最后,通过完善的二阶流场对二阶源图像融合特征进行变形处理,得到二阶特征变形结果。其各个过程对应的计算公式具体如下所示:
对于构建二阶查询向量、二阶键向量以及二阶值向量的过程,其涉及公式为K=WK(Si),V=WV(Si),其中/>为三阶融合特征,Si为第i阶的目标图像编码特征,即代表从自注意力中可学习的映射层提取出相应的查询向量、键向量以及值向量,二阶计算过程,此处具体为/>K=WK(S2),V=WV(S2)。而对于二阶流场的计算为;
fl=Conv(Multi-Head Cross-Attention(Q,K,V))
fl=UP(fi+1)+fl,ifl=1and i>1,
其中,上式代表了通过多头注意力机制对二阶查询向量、二阶键向量以及二阶值向量进行处理后,再结合卷积进行处理。下式则表示的是融合三阶流场得到二阶流场的过程,其中UP()为上采样的处理过程。
最后基于二阶流场对二阶目标图像编码特征进行变形处理,得到二阶特征变形结果的过程的公式则是即通过二阶流场对二阶目标图像编码特征进行变形处理,得到二阶特征变形结果/>同理对于二阶生成的分支,其多头注意力阶段的公式与变形阶段相同,都是/>K=WK(Si),V=WV(Si)。而生成过程则是即通过卷积对多头注意力机制处理后的对二阶查询向量、二阶键向量以及二阶值向量进行处理,得到二阶特征生成结果/>生成支路主要用于产生新的内容,基于源特征的全局信息。因此,生成支路可以对变形支路进行有效补充。尤其是流场不准确或者在源特征中没有明确的参照对象的时候吗,从而有效保证特征融合的效果。本实施例中,通过多头注意力和卷积处理来进行二阶目标图像编码特征的变形处理,可以有效地实现人体姿态迁移过程中的特征融合处理,保证姿态迁移的准确性。
在一个实施例中对二阶特征生成结果以及二阶特征变形结果进行特征融合处理,得到二阶融合特征包括:对二阶特征生成结果以及二阶特征变形结果进行级联处理,得到二阶特征级联结果;对二阶特征级联结果进行卷积处理,得到二阶特征降维结果;对二阶特征降维结果进行多层感知机处理以及残差连接处理,得到二阶融合特征。
其中,级联指多个对象之间的映射关系,本申请中通过级联来融合二阶特征生成结果以及二阶特征变形结果这两个特征。多层感知机又叫多层感知器,是指是在单层神经网络基础上引入一个或多个隐藏层的网络,使神经网络有多个网络层,因而得名多层感知机。隐藏层位于输入层和输出层之间。用于将输入的多个数据集映射到单一的输出的数据集上,本申请中用于辅助进行二阶特征生成结果以及二阶特征变形结果的融合。残差连接处理则是指通过残差网络来实现特征融合的处理,残差网络的特点是容易优化,并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题。
具体地,本申请的方案中,在得到二阶特征生成结果以及二阶特征变形结果后,为了更有效地实现对特征的融合,可以先通过一次级联处理,来初步地将两个特征进行组合。而后对二阶特征级联结果进行卷积处理,对二阶特征级联结果进行降维,得到二阶特征降维结果。最后对二阶特征降维结果进行多层感知机处理以及残差连接处理,来实现两个特征的完整融合,得到所需的二阶融合特征,对于一阶融合特征的计算处理过程也同样可以参照本实施例,先分别计算出一阶特征生成结果以及一阶特征变形结果,再融合得到相应的一阶融合特征。对于特征融合的过程,其满足以下公式:
其中,上式为级联以及卷积过程的计算公式,而下式则是多层感知机处理以及残差连接处理的计算过程,MLP即为多层感知机,LN代表了残差网络。本实施例中,通过多层感知机和残差连接来进行生成分支和变形分支的特征融合处理,可以有效地实现人体姿态迁移过程中的特征融合处理,保证姿态迁移的准确性。
在一个实施例中,基于目标特征融合结果以及一阶流场对目标人体图像进行特征迁移,得到融合源人体姿势图像中人体姿势的目标人体图像包括:基于目标特征融合结果融合目标人体图像,构建目标变形特征;基于目标特征融合结果构建目标生成特征以及目标掩码特征;通过目标掩码特征合并目标变形特征以及目标生成特征,得到融合源人体姿势图像中人体姿势的目标人体图像。
具体地,对于最后的姿态迁移处理过程,其同样可以包括生成分支以及变形分支,通过两者的组合来实现姿态迁移处理,同时在结合过程中还需要结合掩码特征。对于变形分支的处理过程,需要基于目标特征融合结果融合目标人体图像,构建目标变形特征。此外,还需要基于目标特征融合结果,同时生成目标生成特征以及目标掩码特征。而后基于目标掩码特征来实现对目标变形特征以及目标生成特征的融合,即可得到融合源人体姿势图像中人体姿势的目标人体图像。本实施例中,通过构建目标生成特征、目标掩码特征以及目标变形特征,最后结合三个分支的数据来实现对人体姿势迁移的处理,可以有效保证人体姿势迁移的准确性。
在一个实施例中,基于目标特征融合结果以及一阶流场融合目标人体图像,构建目标变形特征包括:对目标特征融合结果进行卷积处理,并融合一阶流场得到目标流场;通过目标流场对目标人体图像进行变形处理,得到目标变形特征。
具体地,对于目标特征融合结果对目标人体图像进行特征迁移处理的过程,可以参照图7中上半部分所示。对于生成分支,先对目标特征融合结果进行卷积处理,再融合一阶流场得到目标流场。而后与上述生成过程类似,通过目标流场对目标人体图像进行变形处理,得到目标变形特征。其目标流场计算过程符合以下公式:
ff=Conv(Ode)+UP(f1)
上式中,Ode是目标特征融合结果,而f1则表示一阶流场,而对于目标生成特征以及目标掩码特征的生成过程则符合以下公式:
Mf=Sigmoid(Conv(Ode))
If=Tanh(Conv(Ode))
即分别通过两个激活函数来对卷积处理后的目标特征融合结果进行处理,即可得到所需的目标生成特征If以及目标掩码特征Mf。而最后通过目标掩码特征合并目标变形特征以及目标生成特征,得到融合源人体姿势图像中人体姿势的目标人体图像的过程则符合以下公式:
Iout=Mf⊙Warp(Is,ff)+(1-Mf)⊙If
其中,Is为输入的目标人体图像,Iout为融合源人体姿势图像中人体姿势的目标人体图像。结合掩码来进行透明度指定(Alpha Blend)的处理,可以有效地实现人体姿态迁移。本实施例中,通过构建目标流场,可以有效地计算出目标变形特征,从而保证人体姿势迁移的准确性。
在一个实施例中,方法还包括:获取原始动作视频以及目标静态图像;抽取原始动作视频中的视频帧构建源人体姿势图像集;通过上述任意一项的人体姿态迁移方法,将源人体姿势图像集中源人体姿势图像的姿态迁移至目标静态图像,构建目标动作图像集。
具体地,本申请的方案可以应用于一个视频内动作姿态迁移的场景,当用户需要将原始动作视频内的姿势动作迁移到目标静态图像的人物上时,可以通过本申请的技术方案来实现迁移处理。由于本申请的处理对象为姿势图片,因此可以先抽取原始动作视频中的视频帧构建源人体姿势图像集。对于抽取过程,具体可以通过基于运动分析的关键帧抽取方法,从原始动作视频中抽取视频帧,而后对这些视频帧进行骨架识别的处理,得到各帧骨架图像,构建出源人体姿势图像集。而后针对源人体姿势图像集中的每张图片,都可以通过上述的方法来进行一次的人体姿态迁移处理,在将源人体姿势图像集中源人体姿势图像的姿态迁移至目标静态图像,从而构建目标动作图像集,而目标动作图像集中包含了,在目标静态图像的人物基础上,融合原始动作视频中各个姿势动作的人体动作图片。在一个实施例中,通过本申请方案与其他模型来进行人体姿态迁移的效果对比图可以参照图8所示,如图所示,本申请的方案相对于现有技术姿态迁移效果较好,且得到的图像不容易失真变形。本实施例中,可以有效地在目标静态图像上迁移原始动作视频内的动作姿势,保证人体姿态驱动的良好效果。
本申请还提供一种应用场景,该应用场景应用上述的图像中人体姿态迁移方法。具体地,该图像中人体姿态迁移方法在该应用场景的应用如下:
当用户在看到一段视频后,很想将视频中的姿势动作迁移到自己身上,来确定自己做出相应的动作是什么效果,此时,可以将从视频中提取出图像帧作为源人体姿势图像,而后将用户自己的图像作为目标人体图像上传,来实现针对图像中的动作迁移处理。在处理过程中,首先需要通过编码器网络来实现针对两张图像中特征的提取处理,而特征提取具体可以为分阶提取,即分为三阶来依次进行特征提取的处理操作。首先对源人体姿势图像进行特征编码处理,得到一阶源图像编码特征;对一阶源图像编码特征进行卷积处理以及特征编码处理,得到二阶源图像编码特征;对二阶源图像编码特征进行卷积处理以及特征编码处理,得到三阶源图像编码特征。而后则是图像解码,也就是图像特征融合的处理过程,这个过程中,需要通过全局注意力机制对三阶源图像编码特征和三阶目标图像编码特征进行全局特征融合处理,得到三阶融合特征和三阶流场;基于三阶融合特征以及二阶源图像编码特征构建三阶源图像融合特征;通过全局注意力机制,对三阶流场、三阶源图像融合特征以及二阶目标图像编码特征进行特征融合处理,得到二阶全局融合特征,通过卷积对二阶全局融合特征进行局部特征融合处理,得到二阶融合特征和二阶流场;基于二阶融合特征以及一阶源图像编码特征构建二阶源图像融合特征;通过全局注意力机制,对二阶流场、二阶源图像融合特征以及一阶目标图像编码特征进行特征融合处理,得到全局特征融合结果,通过卷积对全局特征融合结果进行局部特征融合处理,得到目标特征融合结果以及一阶流场。最后基于目标特征融合结果以及一阶流场对目标人体图像进行特征迁移,得到融合源人体姿势图像中人体姿势的目标人体图像。其中,对于二阶特征的融合过程,可以基于三阶融合特征构建二阶查询向量,基于二阶目标图像编码特征构建二阶键向量和二阶值向量;对二阶查询向量、二阶键向量以及二阶值向量进行多头注意力处理以及卷积处理,得到二阶特征生成结果;对二阶查询向量、二阶键向量以及二阶值向量进行多头注意力处理以及卷积处理,并融合三阶流场得到二阶流场,基于二阶流场对二阶目标图像编码特征进行变形处理,得到二阶特征变形结果;对二阶特征生成结果以及二阶特征变形结果进行特征融合处理,得到二阶融合特征。对于其中的变形分支处理过程,则是先基于二阶查询向量、二阶键向量以及二阶值向量进行多头注意力处理,得到二阶注意力特征;对二阶注意力特征进行卷积处理,并结合三阶流场得到二阶流场;通过二阶流场对二阶源图像融合特征进行变形处理,得到二阶特征变形结果。对于变形分支和生成分支的融合过程,可以先对二阶特征生成结果以及二阶特征变形结果进行级联处理,得到二阶特征级联结果;对二阶特征级联结果进行卷积处理,得到二阶特征降维结果;对二阶特征降维结果进行多层感知机处理以及残差连接处理,得到二阶融合特征。对于最终的姿态迁移过程,需要先基于目标特征融合结果以及一阶流场融合目标人体图像,构建目标变形特征;基于目标特征融合结果构建目标生成特征以及目标掩码特征;通过目标掩码特征合并目标变形特征以及目标生成特征,得到融合源人体姿势图像中人体姿势的目标人体图像。最终,输出融合源人体姿势图像中人体姿势的目标人体图像给到用户。
在一个具体的实施例中,图像姿态迁移处理的过程可以参照图9所示,包括了:步骤902,对源人体姿势图像进行特征编码处理,得到一阶源图像编码特征。步骤904,对一阶源图像编码特征进行卷积处理以及特征编码处理,得到二阶源图像编码特征。步骤906,对二阶源图像编码特征进行卷积处理以及特征编码处理,得到三阶源图像编码特征。步骤908,通过全局注意力机制对三阶源图像编码特征和三阶目标图像编码特征进行全局特征融合处理,得到三阶全局融合特征和三阶流场,通过卷积对三阶全局融合特征进行局部特征融合处理得到三阶融合特征。步骤910,基于三阶融合特征以及二阶源图像编码特征构建三阶源图像融合特征。步骤912,通过全局注意力机制,对三阶流场、三阶源图像融合特征以及二阶目标图像编码特征进行特征融合处理,得到二阶全局融合特征和二阶流场,通过卷积对二阶全局融合特征进行局部特征融合处理,得到二阶融合特征。步骤914,基于二阶融合特征以及一阶源图像编码特征构建二阶源图像融合特征。步骤916,通过全局注意力机制,对二阶流场、二阶源图像融合特征以及一阶目标图像编码特征进行特征融合处理,得到全局特征融合结果以及一阶流场,通过卷积对全局特征融合结果进行局部特征融合处理,得到目标特征融合结果。步骤918,基于目标特征融合结果以及一阶流场融合目标人体图像,构建目标变形特征。步骤920,基于目标特征融合结果构建目标生成特征以及目标掩码特征。步骤922,通过目标掩码特征合并目标变形特征以及目标生成特征,得到融合源人体姿势图像中人体姿势的目标人体图像。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的图像中人体姿态迁移方法的图像中人体姿态迁移装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个图像中人体姿态迁移装置实施例中的具体限定可以参见上文中对于图像中人体姿态迁移方法的限定,在此不再赘述。
在一个实施例中,如图10所示,提供了一种图像中人体姿态迁移装置,包括:
特征编码模块1001,用于对源人体姿势图像进行特征编码处理,得到源图像编码特征,并对目标人体图像进行特征编码处理,得到目标图像编码特征。
全局特征融合模块1003,用于通过全局注意力机制对源图像编码特征和目标图像编码特征进行全局特征融合处理,得到全局特征融合结果。
局部特征融合模块1005,用于通过卷积对全局特征融合结果进行局部特征融合处理,得到目标特征融合结果。
姿态迁移模块1007,用于基于目标特征融合结果对目标人体图像进行特征迁移,得到融合源人体姿势图像中人体姿势的目标人体图像。
在一个实施例中,特征编码模块1001具体用于:对源人体姿势图像进行分阶段特征编码处理和各阶段间的卷积处理,得到各阶源图像编码特征,并对目标人体图像进行分阶段特征编码处理和各阶段间的卷积处理,得到各阶目标图像编码特征。全局特征融合模块1003具体用于:通过全局注意力机制对各阶源图像编码特征和各阶目标图像编码特征依次进行全局特征融合处理,得到各阶段全局特征融合结果。局部特征融合模块1005具体用于:通过卷积对各阶段全局特征融合结果依次进行局部特征融合处理,得到目标特征融合结果。
在一个实施例中,源图像编码特征至少包括一阶源图像编码特征、二阶源图像编码特征以及三阶源图像编码特征。特征编码模块1001具体用于:对源人体姿势图像进行特征编码处理,得到一阶源图像编码特征;对一阶源图像编码特征进行卷积处理以及特征编码处理,得到二阶源图像编码特征;对二阶源图像编码特征进行卷积处理以及特征编码处理,得到三阶源图像编码特征。
在一个实施例中,特征编码模块1001具体用于:通过卷积层对一阶源图像编码特征进行通道数上升处理,得到二阶图像块特征;通过转换器模型对二阶图像块特征进行特征编码处理,得到二阶源图像编码特征。
在一个实施例中,源图像编码特征包括一阶源图像编码特征、二阶源图像编码特征以及三阶源图像编码特征,目标图像编码特征包括一阶目标图像编码特征、二阶目标图像编码特征以及三阶目标图像编码特征。全局特征融合模块1003具体用于:通过全局注意力机制对三阶源图像编码特征和三阶目标图像编码特征进行全局特征融合处理,得到三阶全局融合特征和三阶流场;基于三阶融合特征以及二阶源图像编码特征构建三阶源图像融合特征,三阶融合特征通过卷积对三阶全局融合特征进行局部特征融合处理得到;通过全局注意力机制,对三阶流场、三阶源图像融合特征以及二阶目标图像编码特征进行特征融合处理,得到二阶全局融合特征和二阶流场;基于二阶融合特征以及一阶源图像编码特征构建二阶源图像融合特征,二阶融合特征通过卷积对二阶全局融合特征进行局部特征融合处理得到;通过全局注意力机制,对二阶流场、二阶源图像融合特征以及一阶目标图像编码特征进行特征融合处理,得到全局特征融合结果和一阶流场。局部特征融合模块1005具体用于:通过卷积对全局特征融合结果进行局部特征融合处理,得到目标特征融合结果。姿态迁移模块1007具体用于:基于目标特征融合结果以及一阶流场对目标人体图像进行特征迁移,得到融合源人体姿势图像中人体姿势的目标人体图像。
在一个实施例中,二阶全局融合特征包括二阶特征生成结果和二阶特征变形结果。全局特征融合模块1003具体用于:基于三阶融合特征构建二阶查询向量,基于二阶目标图像编码特征构建二阶键向量和二阶值向量;对二阶查询向量、二阶键向量以及二阶值向量进行多头注意力处理以及卷积处理,得到二阶特征生成结果;对二阶查询向量、二阶键向量以及二阶值向量进行多头注意力处理以及卷积处理,并融合三阶流场得到二阶流场,基于二阶流场对二阶目标图像编码特征进行变形处理,得到二阶特征变形结果。局部特征融合模块1005具体用于:通过卷积对二阶特征生成结果以及二阶特征变形结果进行特征融合处理,得到二阶融合特征。
在一个实施例中,全局特征融合模块1003具体用于:基于二阶查询向量、二阶键向量以及二阶值向量进行多头注意力处理,得到二阶注意力特征;对二阶注意力特征进行卷积处理,并结合三阶流场得到二阶流场;通过二阶流场对二阶源图像融合特征进行变形处理,得到二阶特征变形结果。
在一个实施例中,全局特征融合模块1003具体用于:对二阶特征生成结果以及二阶特征变形结果进行级联处理,得到二阶特征级联结果;对二阶特征级联结果进行卷积处理,得到二阶特征降维结果;对二阶特征降维结果进行多层感知机处理以及残差连接处理,得到二阶融合特征。
在一个实施例中,姿态迁移模块1007具体用于:基于目标特征融合结果以及一阶流场融合目标人体图像,构建目标变形特征;基于目标特征融合结果构建目标生成特征以及目标掩码特征;通过目标掩码特征合并目标变形特征以及目标生成特征,得到融合源人体姿势图像中人体姿势的目标人体图像。
在一个实施例中,姿态迁移模块1007具体用于:对目标特征融合结果进行卷积处理,并融合一阶流场得到目标流场;通过目标流场对目标人体图像进行变形处理,得到目标变形特征。
在一个实施例中,装置还用于:获取原始动作视频以及目标静态图像;抽取原始动作视频中的视频帧构建源人体姿势图像集;将源人体姿势图像集中源人体姿势图像的姿态迁移至目标静态图像,构建目标动作图像集。
上述图像中人体姿态迁移装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储人体姿态迁移相关数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像中人体姿态迁移方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (15)

1.一种图像中人体姿态迁移方法,其特征在于,所述方法包括:
对源人体姿势图像进行特征编码处理,得到源图像编码特征,并对目标人体图像进行特征编码处理,得到目标图像编码特征;
通过全局注意力机制对所述源图像编码特征和所述目标图像编码特征进行全局特征融合处理,得到全局特征融合结果;
通过卷积对所述全局特征融合结果进行局部特征融合处理,得到目标特征融合结果;
基于所述目标特征融合结果对所述目标人体图像进行特征迁移,得到融合所述源人体姿势图像中人体姿势的目标人体图像。
2.根据权利要求1所述的方法,其特征在于,所述对源人体姿势图像进行特征编码处理,得到源图像编码特征,并对目标人体图像进行特征编码处理,得到目标图像编码特征包括:
对源人体姿势图像进行分阶段特征编码处理和各阶段间的卷积处理,得到各阶源图像编码特征,并对目标人体图像进行分阶段特征编码处理和各阶段间的卷积处理,得到各阶目标图像编码特征;
所述通过全局注意力机制对所述源图像编码特征和所述目标图像编码特征进行全局特征融合处理,得到全局特征融合结果包括:
通过全局注意力机制对所述各阶源图像编码特征和所述各阶目标图像编码特征依次进行全局特征融合处理,得到各阶段全局特征融合结果;
所述通过卷积对所述全局特征融合结果进行局部特征融合处理,得到目标特征融合结果包括:
通过卷积对所述各阶段全局特征融合结果依次进行局部特征融合处理,得到目标特征融合结果。
3.根据权利要求2所述的方法,其特征在于,所述源图像编码特征至少包括一阶源图像编码特征、二阶源图像编码特征以及三阶源图像编码特征;
所述对源人体姿势图像进行分阶段特征编码处理和各阶段间的卷积处理,得到各阶源图像编码特征包括:
对源人体姿势图像进行特征编码处理,得到一阶源图像编码特征;
对所述一阶源图像编码特征进行卷积处理以及特征编码处理,得到二阶源图像编码特征;
对所述二阶源图像编码特征进行卷积处理以及特征编码处理,得到三阶源图像编码特征。
4.根据权利要求3所述的方法,其特征在于,所述对所述一阶源图像编码特征进行卷积处理以及特征编码处理,得到二阶源图像编码特征包括:
通过卷积层对所述一阶源图像编码特征进行通道数上升处理,得到二阶图像块特征;
通过转换器模型对所述二阶图像块特征进行特征编码处理,得到二阶源图像编码特征。
5.根据权利要求2所述的方法,其特征在于,所述各阶源图像编码特征包括一阶源图像编码特征、二阶源图像编码特征以及三阶源图像编码特征,所述各阶目标图像编码特征包括一阶目标图像编码特征、二阶目标图像编码特征以及三阶目标图像编码特征;
所述通过全局注意力机制对所述各阶源图像编码特征和所述各阶目标图像编码特征依次进行全局特征融合处理,得到各阶段全局特征融合结果包括:
通过全局注意力机制对所述三阶源图像编码特征和所述三阶目标图像编码特征进行全局特征融合处理,得到三阶全局融合特征和三阶流场;
基于所述三阶融合特征以及二阶源图像编码特征构建三阶源图像融合特征,所述三阶融合特征通过卷积对所述三阶全局融合特征进行局部特征融合处理得到;
通过全局注意力机制,对所述三阶流场、所述三阶源图像融合特征以及二阶目标图像编码特征进行特征融合处理,得到二阶全局融合特征和二阶流场;
基于二阶融合特征以及一阶源图像编码特征构建二阶源图像融合特征,所述二阶融合特征通过卷积对所述二阶全局融合特征进行局部特征融合处理得到;
通过全局注意力机制,对所述二阶流场、所述二阶源图像融合特征以及一阶目标图像编码特征进行特征融合处理,得到全局特征融合结果和一阶流场;
所述通过卷积对所述各阶段全局特征融合结果依次进行局部特征融合处理,得到目标特征融合结果包括:
通过卷积对所述全局特征融合结果进行局部特征融合处理,得到目标特征融合结果;
所述基于所述目标特征融合结果对所述目标人体图像进行特征迁移,得到融合所述源人体姿势图像中人体姿势的目标人体图像包括:
基于所述目标特征融合结果以及所述一阶流场对所述目标人体图像进行特征迁移,得到融合所述源人体姿势图像中人体姿势的目标人体图像。
6.根据权利要求5所述的方法,其特征在于,所述二阶全局融合特征包括二阶特征生成结果和二阶特征变形结果;
所述通过全局注意力机制,对所述三阶流场、所述三阶源图像融合特征以及二阶目标图像编码特征进行特征融合处理,得到二阶全局融合特征和二阶流场包括:
基于所述三阶融合特征构建二阶查询向量,基于所述二阶目标图像编码特征构建二阶键向量和二阶值向量;
对所述二阶查询向量、所述二阶键向量以及所述二阶值向量进行多头注意力处理以及卷积处理,得到所述二阶特征生成结果;
对所述二阶查询向量、所述二阶键向量以及所述二阶值向量进行多头注意力处理以及卷积处理,并融合所述三阶流场得到二阶流场,基于所述二阶流场对所述二阶目标图像编码特征进行变形处理,得到所述二阶特征变形结果;
所述通过卷积对所述二阶全局融合特征进行局部特征融合处理得到包括:
通过卷积对所述二阶特征生成结果以及所述二阶特征变形结果进行特征融合处理,得到所述二阶融合特征。
7.根据权利要求6所述的方法,其特征在于,所述对所述二阶查询向量、所述二阶键向量以及所述二阶值向量进行多头注意力处理以及卷积处理,并融合所述三阶流场得到二阶流场,基于所述二阶流场对所述二阶目标图像编码特征进行变形处理,得到二阶特征变形结果包括:
基于二阶查询向量、所述二阶键向量以及所述二阶值向量进行多头注意力处理,得到二阶注意力特征;
对所述二阶注意力特征进行卷积处理,并结合所述三阶流场得到二阶流场;
通过所述二阶流场对所述二阶源图像融合特征进行变形处理,得到二阶特征变形结果。
8.根据权利要求6所述的方法,其特征在于,所述通过卷积对所述二阶特征生成结果以及所述二阶特征变形结果进行特征融合处理,得到二阶融合特征包括:
对所述二阶特征生成结果以及所述二阶特征变形结果进行级联处理,得到二阶特征级联结果;
对所述二阶特征级联结果进行卷积处理,得到二阶特征降维结果;
对所述二阶特征降维结果进行多层感知机处理以及残差连接处理,得到二阶融合特征。
9.根据权利要求5所述的方法,其特征在于,所述基于所述目标特征融合结果以及所述一阶流场对所述目标人体图像进行特征迁移,得到融合所述源人体姿势图像中人体姿势的目标人体图像包括:
基于所述目标特征融合结果以及所述一阶流场融合所述目标人体图像,构建目标变形特征;
基于所述目标特征融合结果构建目标生成特征以及目标掩码特征;
通过所述目标掩码特征合并所述目标变形特征以及所述目标生成特征,得到融合所述源人体姿势图像中人体姿势的目标人体图像。
10.根据权利要求9所述的方法,其特征在于,所述基于所述目标特征融合结果以及所述一阶流场融合所述目标人体图像,构建目标变形特征包括:
对所述目标特征融合结果进行卷积处理,并融合所述一阶流场得到目标流场;
通过所述目标流场对所述目标人体图像进行变形处理,得到目标变形特征。
11.根据权利要求1至10中任意一项所述的方法,其特征在于,所述方法还包括:
获取原始动作视频以及目标静态图像;
抽取所述原始动作视频中的视频帧构建源人体姿势图像集;
通过如权利要求1至10中任意一项所述的人体姿态迁移方法,将所述源人体姿势图像集中源人体姿势图像的姿态迁移至所述目标静态图像,构建目标动作图像集。
12.一种图像中人体姿态迁移装置,其特征在于,所述装置包括:
特征编码模块,用于对源人体姿势图像进行特征编码处理,得到源图像编码特征,并对目标人体图像进行特征编码处理,得到目标图像编码特征;
全局特征融合模块,用于通过全局注意力机制对所述源图像编码特征和所述目标图像编码特征进行全局特征融合处理,得到全局特征融合结果;
局部特征融合模块,用于通过卷积对所述全局特征融合结果进行局部特征融合处理,得到目标特征融合结果;
姿态迁移模块,用于基于所述目标特征融合结果对所述目标人体图像进行特征迁移,得到融合所述源人体姿势图像中人体姿势的目标人体图像。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
CN202211741579.8A 2022-12-30 2022-12-30 图像中人体姿态迁移方法、装置、计算机设备和存储介质 Pending CN116978057A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211741579.8A CN116978057A (zh) 2022-12-30 2022-12-30 图像中人体姿态迁移方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211741579.8A CN116978057A (zh) 2022-12-30 2022-12-30 图像中人体姿态迁移方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN116978057A true CN116978057A (zh) 2023-10-31

Family

ID=88475476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211741579.8A Pending CN116978057A (zh) 2022-12-30 2022-12-30 图像中人体姿态迁移方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN116978057A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117576248A (zh) * 2024-01-17 2024-02-20 腾讯科技(深圳)有限公司 基于姿态引导的图像生成方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117576248A (zh) * 2024-01-17 2024-02-20 腾讯科技(深圳)有限公司 基于姿态引导的图像生成方法和装置
CN117576248B (zh) * 2024-01-17 2024-05-24 腾讯科技(深圳)有限公司 基于姿态引导的图像生成方法和装置

Similar Documents

Publication Publication Date Title
CN111047548B (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
CN110728219B (zh) 基于多列多尺度图卷积神经网络的3d人脸生成方法
Zhang et al. Progressive hard-mining network for monocular depth estimation
CN116721334B (zh) 图像生成模型的训练方法、装置、设备及存储介质
Liu et al. Cross-attentional spatio-temporal semantic graph networks for video question answering
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
JP2023545189A (ja) 画像処理方法、装置、及び電子機器
CN112132770A (zh) 图像修复的方法、装置、计算机可读介质及电子设备
CN112686830B (zh) 基于图像分解的单一深度图的超分辨率方法
CN116385667B (zh) 三维模型的重建方法、纹理重构模型的训练方法以及装置
CN116958324A (zh) 图像生成模型的训练方法、装置、设备及存储介质
CN117972138B (zh) 预训练模型的训练方法、装置和计算机设备
Xu et al. AutoSegNet: An automated neural network for image segmentation
CN116681810A (zh) 虚拟对象动作生成方法、装置、计算机设备和存储介质
CN117576312A (zh) 手部模型构建方法、装置以及计算机设备
Zhang et al. Spatial-information guided adaptive context-aware network for efficient RGB-D semantic segmentation
CN116978057A (zh) 图像中人体姿态迁移方法、装置、计算机设备和存储介质
Li et al. Mapping new realities: Ground truth image creation with pix2pix image-to-image translation
CN118229632A (zh) 显示屏缺陷检测方法、模型训练方法、装置、设备及介质
CN113962192B (zh) 汉字字体生成模型的生成方法、汉字字体生成方法及装置
CN113538254A (zh) 图像恢复方法、装置、电子设备及计算机可读存储介质
Jiang et al. Tcgan: Semantic-aware and structure-preserved gans with individual vision transformer for fast arbitrary one-shot image generation
CN113592971A (zh) 一种虚拟人体图像生成方法、系统、设备及介质
CN118097082B (zh) 虚拟对象图像生成方法、装置、计算机设备和存储介质
CN118229781B (zh) 显示屏异物检测方法、模型训练方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication