CN110427864B - 一种图像处理方法、装置及电子设备 - Google Patents
一种图像处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN110427864B CN110427864B CN201910689979.0A CN201910689979A CN110427864B CN 110427864 B CN110427864 B CN 110427864B CN 201910689979 A CN201910689979 A CN 201910689979A CN 110427864 B CN110427864 B CN 110427864B
- Authority
- CN
- China
- Prior art keywords
- human body
- body image
- image data
- information
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请实施例提供了一种图像处理方法、装置及电子设备,其中,该方法应用于人工智能领域的计算机视觉技术、机器学习技术,该方法包括:获取第一人体图像数据的特征信息,所述第一人体图像数据的特征信息包括人脸特征信息和人体姿态信息;利用所述人脸特征信息和所述人体姿态信息对生成对抗网络模型进行训练,得到人物形态预测模型;将第二人体图像数据的特征信息输入所述人物形态预测模型,以生成预测的人体图像。采用本申请,可以提高预测的人体图像的图片质量。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像处理方法、装置及电子设备。
背景技术
目前,在使用生成对抗网络(Generative Adversarial Networks,GAN)模型生成人脸的方式中,绝大多数是运用人脸特征信息来进行人脸或人体上半身图像的预测。例如,在深度视频肖像deep video portrait中,使用了3D头部渲染结果图作为输入以产生目标图像,然而,采用上述方式,使得生成的人体图像中的人的身体部分和脸部部分不协调,进而导致图片质量较低。
发明内容
本申请实施例提供了一种图像处理方法、装置及电子设备,可以使得生成的人体图像中的人的身体部分和脸部部分更加协调,进而提高预测的人体图像的图片质量。
第一方面,本申请实施例提供了一种图像处理方法,包括:
获取第一人体图像数据的特征信息,所述第一人体图像数据的特征信息包括人脸特征信息和人体姿态信息;
利用所述人脸特征信息和所述人体姿态信息对生成对抗网络模型进行训练,得到人物形态预测模型;
将第二人体图像数据的特征信息输入所述人物形态预测模型,以生成预测的人体图像。
第二方面,本申请实施例提供了一种图像处理装置,包括:
获取单元,用于获取第一人体图像数据的特征信息,所述第一人体图像数据的特征信息包括人脸特征信息和人体姿态信息;
训练单元,用于利用所述人脸特征信息和所述人体姿态信息对生成对抗网络模型进行训练,得到人物形态预测模型;
处理单元,用于将第二人体图像数据的特征信息输入所述人物形态预测模型,以生成预测的人体图像。
第三方面,本申请实施例提供了一种电子设备,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述的图像处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被执行时实现上述的图像处理方法。
综上所述,电子设备能够利用获取的第一人体图像数据的特征信息对生成对抗网络模型进行训练,得到人物形态预测模型,并可以将第二人体图像数据的特征信息输入该人物形态预测模型,以生成预测的人体图像,使得生成的人体图像中的人的身体部分和脸部部分更加协调,进而提高了预测的人体图像的图片质量。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的一种深度姿态模型的网络框架示意图;
图1b是本申请实施例提供的一种深度姿态模型的ROI Align部分的示意图;
图1c是本申请实施例提供的一种生成网络的结构示意图;
图2是本申请实施例提供的一种图像处理方法的流程示意图;
图2a是本申请实施例提供的一种包含人体姿态信息的图像的示意图;
图3是本申请实施例提供的一种图像处理装置的流程示意图;
图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的虚拟主播、虚拟新闻播报员、虚拟游戏解说员等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
其中,计算机视觉(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄像机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图像处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通过包括图像处理、图像识别、图像语义理解、图像检测、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术等技术,还包括常见的人脸识别技术。
其中,机器学习(Machine Learning,ML)作为一种实现人工智能的方法,它是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。深度学习作为一种实现机器学习的技术,不仅使得机器学习可以能够实现众多的应用,并且也扩展了人工智能的领域范围。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能领域的计算机视觉技术、机器学习技术,能够利用人物形态预测模型得到更加稳定的人体图像,进而可以应用于虚拟主播、虚拟游戏解说人员、虚拟游戏解说员等等商业场景。相较于现有技术单一采用人脸或人体上半身图像进行人体图像预测,采用本申请实施例能够使得生成的人体图像中的人的身体部分和脸部部分更加协调,提高了人体图像稳定性,进而提高了图片质量。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了解决现有技术的问题,本申请实施例提出了一种图像处理方案的构想:首先,获取第一人体图像数据的特征信息,所述第一人体图像数据的特征信息包括人脸特征信息和人体姿态信息。其中,人脸特征信息可以包括表情、嘴型等等。人体姿态信息可以包括人体姿势,如手部姿势、腿部姿势等等。其次,利用所述人脸特征信息和所述人体姿态信息对生成对抗网络模型进行训练,得到人物形态预测模型。最后,将第二人体图像数据的特征信息输入所述人物形态预测模型,以生成预测的人体图像。采用上述方式,使得生成的人体图像中的人的身体部分和脸部部分更加协调,提高了人体图像稳定性,进而提高了图片质量。
本申请实施例中,该第一人体图像数据可以与该第二人体图像数据相同或不同。该第二人体图像数据的特征信息可以包括人脸特征信息和人体姿态信息中的至少一种或两种。
在一个实施例中,第一人体图像数据的特征信息的获取方式可以分为两种:一种从指定路径加载,一种实时生成,如实时生成人体姿态信息。其中,后者可以采用深度姿态模型来执行。
在一个实施例中,参见图1a,该深度姿态模型的网络框架可以与Mask R-CNN类似,具体而言可以是在Mask R-CNN的基础上进行框架修改,比如对于网络框架中的ROI Align部分有明显的修改。由图1b所示的深度姿态模型的ROI Align部分执行的步骤可以看出,具体修改的地方在于ROI Align后分成了两类网络,一个是关键点预测网络(如图1b所示的Keypoint-Based网络),一个是姿态预测网络(如图1b所示的DensePose网络)。其中,关键点预测网络是指用于预测关键点数据,如人体关键点数据的网络。该人体关键点数据包括但不限于眼睛、鼻子、耳朵、肩膀、头发、嘴巴等人体关键部位的位置。而姿态预测网络是指用于预测姿态数据,如人体身体部分提示信息或身体移动信息的网络。在人体图像生成过程中,利用深度姿态模型帮助我们获取更加准确有效的人体姿态信息以用于训练生成对抗网络模型,可以得到更加稳定的图片预测效果。
在一个实施例中,前述生成对抗网络模型,又可称为生成式对抗网络模型,可以包括生成网络(即generator网络,简称G网络)和判别网络(即discriminator网络,简称D网络)。生成对抗网络模型作为深度学习模型,主要通过这两个网络进行对抗训练以达到均衡。其中,生成网络是用于生成图像的网络,可以理解为图像生成器。判别网络是用于判别输入图像是否为真实图像的网络,可以理解为图像判别器。在一个实施例中,生成对抗模型可以类似于Pix2PixHD模型,生成网络是一个类似于编码-解码encoder-decoder的模型架构,而判别网络选用的是patch GAN里面的判别网络的处理方式。生成网络可以包括第一局部增强生成器、全局生成器和第二局部增强生成器。例如,参见图1c,该第一局部增强生成器为最左边的G2,全局生成器为中间的G1,第二局部增强器为最右边的G2。此处,该第一局部增强生成器和第二局部增强生成器还可以分别为一个局部增强生成器的前半部分和后半部分。在一个实施例中,为了获取更高分辨率的图像,还可以继续增加局部增强器。
本申请实施例提出的图像处理方案,在人体图像预测,如视频流图像预测上,对身体部位稳定性有很大程度的加强,使得身体的抖动性能够跟人脸的嘴型和表情进行有效地协调,这对于之后的其它生成对抗网络模型有借鉴意义。该图像处理方案可以延伸运用到多个场景,比如针对人物形态预测模型给定局部身体提示信息,从而生成视频流图像,进而可以运用在虚拟游戏解说人员、虚拟新闻播报员等商业场景,从而极大程度地降低人工成本。
请参阅图2,为本申请实施例提供的一种图像处理方法的流程示意图。该方法可以应用于电子设备。该电子设备可以为终端或服务器。终端包括但不限于笔记本电脑、台式电脑等智能终端。服务器可以一个服务器或服务器集群。其中,该方法可以包括以下步骤S201-S203:
S201、获取第一人体图像数据的特征信息,所述第一人体图像数据的特征信息包括人脸特征信息和人体姿态信息。
本申请实施例中,电子设备可以从指定路径(如指定链接地址)获取该第一人体图像数据的特征信息,或还可以实时推断出该第一人体图像数据的特征信息,如实时推断出人体姿态信息。对于第二种方式,需对训练数据集,即第一人体图像数据进行姿势densepose化处理。即,将真实的人全身或上半身图转换成如图2a所示的densepose效果。下面将对第二种方式进行详细介绍。
在一个实施例中,所述获取第一人体图像数据的特征信息,可以包括:利用深度姿态模型对第一人体图像数据进行姿态估计,得到所述第一人体图像数据的人体姿态信息。其中,第一人体图像数据的人体姿态信息可以包括第一人体图像数据的关键点数据。或第一人体图像数据可以包括第一人体图像数据的关键点数据和第一人体图像数据的姿态数据。
在一个实施例中,所述利用深度姿态模型对第一人体图像数据进行姿态估计,得到所述第一人体图像数据的人体姿态信息,包括:将所述第一人体图像数据输入所述深度姿态模型中的姿态预测网络,得到所述第一人体图像数据的姿态数据;将所述姿态数据作为所述第一人体图像数据的人体姿态信息。例如,参见图1b,由深度姿态模型中的特征金字塔网络(Feature Pyramid network,FPN)对第一人体图像数据进行处理,得到第一处理数据;将该第一处理数据传输至ROI Align模块,由ROI Align模块对该第一处理数据进行处理,得到第二处理数据,将第二处理数据传输至姿态预测网络进行处理,得到该第一人体图像数据的姿态数据。
在一个实施例中,所述利用深度姿态模型对第一人体图像数据进行姿态估计,得到所述第一人体图像数据的人体姿态信息,包括:将第一人体图像数据输入深度姿态模型中的关键点预测网络,得到所述第一人体图像数据的关键点数据;将所述第一人体图像数据输入所述深度姿态模型中的姿态预测网络,得到所述第一人体图像数据的姿态数据。例如,参见图1b,由深度姿态模型中的FPN对第一人体图像数据进行处理,得到第一处理数据;将该第一处理数据传输至ROI Align模块,由ROI Align模块对该第一处理数据进行处理,得到第二处理数据,将第二处理数据传输至姿态预测网络进行处理,得到该第一人体图像数据的姿态数据,并将第二处理数据传输至关键点预测网络进行处理,得到该第一人体图像数据的关键点数据。
S202、利用所述人脸特征信息和所述人体姿态信息对生成对抗网络模型进行训练,得到人物形态预测模型。
本申请实施例通过将人脸特征信息和人体姿态信息绑定在一起用于生成对抗网络模型的训练,可以帮助人物形态预测模型更加准确的获取全局的姿态信息。
在一个实施例中,所述利用所述人脸特征信息和所述人体姿态信息对生成对抗网络模型进行训练,得到人物形态预测模型,包括:将所述人脸特征信息和所述人体姿态信息输入所述生成网络,得到待判别图像;将所述待判别图像输入所述判别网络进行判别,以实现对所述生成对抗网络模型的训练;将训练后的生成对抗网络模型作为人物形态预测模型。例如,可以将该人脸特征信息和该人体姿态信息输入如图1c所示的生成网络,从而得到高分辨率的待判别图像。
S203、将第二人体图像数据的特征信息输入所述人物形态预测模型,以生成预测的人体图像。
其中,所述第二人体图像数据的特征信息包括人脸特征信息和人体姿态信息中的一种或两种。该第二人体图像数据也可以为静态图片或视频帧图片(或为视频流图像)。该预测的人体图像也可以为静态图片或视频帧图片。
在一个实施例中,电子设备可以将人脸特征信息输入该人物形态预测模型,生成预测的第一人体图像。该第一人体图像包括该人脸特征信息以及与该人脸特征信息匹配的至少一个人体姿态信息。或,该第一人体图像包括为该人脸特征信息的人脸图像以及为该至少一个人体姿态信息的人体姿态图像。例如,人脸特征信息为失落的表情,通过该人物形态预测模型得到的第一人体图像,可以包括为失落的表情的人脸图像以及为塌着肩膀手臂下垂的姿势的人体姿态图像。
在一个实施例中,该人脸特征信息可以为源图像包括的人脸特征信息。电子设备可以将该人脸特征信息以及目标人脸图像(或为包括该目标人脸图像的图像)输入该人物形态预测模型,生成预测的第一人体图像。该第一人体图像可以包括为该人脸特征信息的人脸图像以及为对应匹配的人体姿态信息的人体姿态图像。例如,人脸特征信息为用户A的人脸图像包括的失落的表情特征,目标人脸图像为用户B的人脸图像,通过该人物形态预测模型得到的第一人体图像,可以包括为失落的表情的用户B的人脸图像以及为塌着肩膀手臂下垂的姿势的人体姿态图像。
在一个实施例中,电子设备可以将人体姿态信息输入该人物形态预测模型,生成预测的第二人体图像。该第二人体图像包括该人体姿态信息以及与该人体姿态信息匹配的人脸特征信息。或,该第二人体图像包括为该人体姿态信息的人体姿态图像以及为该匹配的人脸特征信息的人脸图像。例如,人体姿态信息为塌着肩膀手臂下垂的姿势,此时通过该人物形态预测模型得到的第二人体图像,可以包括为塌着肩膀手臂下垂的姿势的人体姿态图像以及为失落的表情的人脸图像。
在一个实施例中,电子设备还可以将人脸特征信息和人体姿态信息输入该人物形态预测模型,得到包括该第三人体图像。该第三人体图像可以包括人脸特征信息和人体姿态信息。或,该第三人体图像还可以包括为该人脸特征信息的人脸图像以及为该人体姿态信息的人体姿态图像。例如,人脸特征信息为失落的表情,人体姿态信息为塌着肩膀手臂下垂的姿势,通过该人物形态预测模型得到的第三人体图像,可以包括为塌着肩膀手臂下垂的姿势的人体姿态图像以及为失落的表情的人脸图像。
在一个实施例中,将第二人体图像数据的特征信息输入所述人物形态预测模型,以生成预测的人体图像,包括:将第二人体图像数据的特征信息输入所述人物形态预测模型中的生成网络,得到预测的人体图像。该方式由生成网络根据该第二人体图像数据的特征信息进行推断操作,以得到更加稳定并且高质量的图景。
在一个实施例中,所述人物形态预测模型中的生成网络包括第一局部增强生成器、全局生成器和第二局部增强生成器,所述将第二人体图像数据的特征信息输入所述人物形态预测模型中的生成网络,得到预测的人体图像,包括:将第二人体图像数据的特征信息输入所述第一局部增强生成器,生成第一特征映射;将所述第二人体图像数据的特征信息输入所述全局生成器,生成第二特征映射;将所述第一特征映射和所述第二特征映射的元素和输入所述第二局部增强生成器进行分辨率增强处理,得到预测的人体图像。例如,如图1c所示,可将第二人体图像数据的特征信息,经由G1和G2进行处理,得到高分辨的人体图像,有效地提升了预测的人体图像的质量。
可见,图2所示的实施例中,电子设备可以获取第一人体图像数据的特征信息,并利用该第一人体图像数据的特征信息包括的人脸特征信息和该人体姿态信息对生成对抗网络模型进行训练,得到人物形态预测模型;电子设备可以将第二人体图像数据的特征信息输入该人物形态预测模型,以生成预测的人体图像,使得生成的人体图像中的人的身体部分和脸部部分更加协调,进而提高了图片质量。
基于上述方法实施例的描述,在一个实施例中,本申请实施例还提供了一种如图3所示的图像处理装置的结构示意图。如图3所示,本申请实施例中的图像处理装置可包括:
获取单元301,用于获取第一人体图像数据的特征信息,所述第一人体图像数据的特征信息包括人脸特征信息和人体姿态信息;
训练单元302,用于利用所述人脸特征信息和所述人体姿态信息对生成对抗网络模型进行训练,得到人物形态预测模型;
处理单元303,用于将第二人体图像数据的特征信息输入所述人物形态预测模型,以生成预测的人体图像。
在一个实施例中,获取单元301,可以具体用于利用深度姿态模型对第一人体图像数据进行姿态估计,得到所述第一人体图像数据的人体姿态信息。
在一个实施例中,获取单元301利用深度姿态模型对第一人体图像数据进行姿态估计,得到所述第一人体图像数据的人体姿态信息,具体为将所述第一人体图像数据输入所述深度姿态模型中的姿态预测网络,得到所述第一人体图像数据的姿态数据;将所述姿态数据作为所述第一人体图像数据的人体姿态信息。
在一个实施例中,获取单元301利用深度姿态模型对第一人体图像数据进行姿态估计,得到所述第一人体图像数据的人体姿态信息,具体为将第一人体图像数据输入深度姿态模型中的关键点预测网络,得到所述第一人体图像数据的关键点数据;将所述第一人体图像数据输入所述深度姿态模型中的姿态预测网络,得到所述第一人体图像数据的姿态数据;将所述关键点数据和所述姿态数据作为所述第一人体图像数据的人体姿态信息。
在一个实施例中,所述生成对抗网络模型包括生成网络和判别网络,训练单元302,可具体用于将所述人脸特征信息和所述人体姿态信息输入所述生成网络,得到待判别图像;将所述待判别图像输入所述判别网络进行判别,以实现对所述生成对抗网络模型的训练;将训练后的生成对抗网络模型作为人物形态预测模型。
在一个实施例中,处理单元303,可具体用于将第二人体图像数据的特征信息输入所述人物形态预测模型中的生成网络,得到预测的人体图像。
在一个实施例中,所述人物形态预测模型中的生成网络包括第一局部增强生成器、全局生成器和第二局部增强生成器,所述处理单元303将第二人体图像数据的特征信息输入所述人物形态预测模型中的生成网络,得到预测的人体图像,具体为将第二人体图像数据的特征信息输入所述第一局部增强生成器,生成第一特征映射;将所述第二人体图像数据的特征信息输入所述全局生成器,生成第二特征映射;将所述第一特征映射和所述第二特征映射的元素和输入所述第二局部增强生成器进行分辨率增强处理,得到预测的人体图像。
在一个实施例中,所述第二人体图像数据的特征信息包括人脸特征信息和人体姿态信息中的一种或两种。
可见,图3所示的实施例中,电子设备可以获取第一人体图像数据的特征信息,并利用该第一人体图像数据的特征信息包括的人脸特征信息和该人体姿态信息对生成对抗网络模型进行训练,得到人物形态预测模型;电子设备可以将第二人体图像数据的特征信息输入该人物形态预测模型,以生成预测的人体图像,使得生成的人体图像中的人的身体部分和脸部部分更加协调,进而提高了图片质量。
请参阅图4,是本申请实施例提供的一种电子设备的结构示意图。如图4所示的本实施例中的电子设备可以包括:一个或多个处理器401;一个或多个输入设备402,一个或多个输出设备403和存储器404。上述处理器401、输入设备402、输出设备403和存储器404通过总线或其他方式连接。存储器404用于存储计算机程序,所述计算机程序包括程序指令,处理器401用于执行所述存储器404存储的程序指令。
在一个实施例中,该处理器401可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器,即微处理器或者任何常规的处理器。该存储器404可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。因此,在此对于处理器401和存储器404不作限定。
在本申请实施例中,由处理器401加载并执行计算机存储介质中存放的一条或一条以上指令,以实现上述相应实施例中的方法的相应步骤;具体实现中,计算机存储介质中的至少一条指令由处理器401加载并执行如下步骤:
获取第一人体图像数据的特征信息,所述第一人体图像数据的特征信息包括人脸特征信息和人体姿态信息;
利用所述人脸特征信息和所述人体姿态信息对生成对抗网络模型进行训练,得到人物形态预测模型;
将第二人体图像数据的特征信息输入所述人物形态预测模型,以生成预测的人体图像。
在一个实施例中,该至少一条指令由处理器401加载并具体用于执行:
利用深度姿态模型对第一人体图像数据进行姿态估计,得到所述第一人体图像数据的人体姿态信息。
在一个实施例中,该至少一条指令由处理器401加载并具体用于执行:
将所述第一人体图像数据输入所述深度姿态模型中的姿态预测网络,得到所述第一人体图像数据的姿态数据;
将所述姿态数据作为所述第一人体图像数据的人体姿态信息。
在一个实施例中,该至少一条指令由处理器401加载并具体用于执行:
将第一人体图像数据输入深度姿态模型中的关键点预测网络,得到所述第一人体图像数据的关键点数据;
将所述第一人体图像数据输入所述深度姿态模型中的姿态预测网络,得到所述第一人体图像数据的姿态数据;
将所述关键点数据和所述姿态数据作为所述第一人体图像数据的人体姿态信息。
在一个实施例中,所述生成对抗网络模型包括生成网络和判别网络,该至少一条指令由处理器401加载并具体用于执行:
将所述人脸特征信息和所述人体姿态信息输入所述生成网络,得到待判别图像;
将所述待判别图像输入所述判别网络进行判别,以实现对所述生成对抗网络模型的训练;
将训练后的生成对抗网络模型作为人物形态预测模型。
在一个实施例中,该至少一条指令由处理器401加载并具体用于执行:
将第二人体图像数据的特征信息输入所述人物形态预测模型中的生成网络,得到预测的人体图像。
在一个实施例中,所述人物形态预测模型中的生成网络包括第一局部增强生成器、全局生成器和第二局部增强生成器,该至少一条指令由处理器401加载并具体用于执行:
将第二人体图像数据的特征信息输入所述第一局部增强生成器,生成第一特征映射;
将所述第二人体图像数据的特征信息输入所述全局生成器,生成第二特征映射;
将所述第一特征映射和所述第二特征映射的元素和输入所述第二局部增强生成器进行分辨率增强处理,得到预测的人体图像。
在一个实施例中,所述第二人体图像数据的特征信息包括人脸特征信息和人体姿态信息中的一种或两种。
需要说明的是,上述描述的电子设备和单元的具体工作过程,可以参考前述各个实施例中的相关描述,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请的部分实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于本申请所涵盖的范围。
Claims (11)
1.一种图像处理方法,其特征在于,包括:
获取第一人体图像数据的特征信息,所述第一人体图像数据的特征信息包括人脸特征信息和人体姿态信息,所述人体姿态信息包括关键点数据以及姿态数据;
利用所述人脸特征信息和所述人体姿态信息对生成对抗网络模型进行训练,得到人物形态预测模型;
将第二人体图像数据的特征信息输入所述人物形态预测模型,以生成预测的人体图像;
其中,所述将第二人体图像数据的特征信息输入所述人物形态预测模型,以生成预测的人体图像,包括:
将第二人体图像数据的人脸特征信息输入所述人物形态预测模型,生成预测的第一人体图像,所述第一人体图像包括该人脸特征信息以及与该人脸特征信息匹配的至少一个人体姿态信息;或者,
将第二人体图像数据的人体姿态信息输入所述人物形态预测模型,生成预测的第二人体图像,所述第二人体图像包括该人体姿态信息以及与该人体姿态信息匹配的人脸特征信息。
2.根据权利要求1所述的方法,其特征在于,所述获取第一人体图像数据的特征信息,包括:
利用深度姿态模型对第一人体图像数据进行姿态估计,得到所述第一人体图像数据的人体姿态信息。
3.根据权利要求2所述的方法,其特征在于,所述利用深度姿态模型对第一人体图像数据进行姿态估计,得到所述第一人体图像数据的人体姿态信息,包括:
将所述第一人体图像数据输入所述深度姿态模型中的姿态预测网络,得到所述第一人体图像数据的姿态数据;
将所述姿态数据作为所述第一人体图像数据的人体姿态信息。
4.根据权利要求2所述的方法,其特征在于,所述利用深度姿态模型对第一人体图像数据进行姿态估计,得到所述第一人体图像数据的人体姿态信息,包括:
将第一人体图像数据输入深度姿态模型中的关键点预测网络,得到所述第一人体图像数据的关键点数据;
将所述第一人体图像数据输入所述深度姿态模型中的姿态预测网络,得到所述第一人体图像数据的姿态数据;
将所述关键点数据和所述姿态数据作为所述第一人体图像数据的人体姿态信息。
5.根据权利要求1所述的方法,其特征在于,所述生成对抗网络模型包括生成网络和判别网络,所述利用所述人脸特征信息和所述人体姿态信息对生成对抗网络模型进行训练,得到人物形态预测模型,包括:
将所述人脸特征信息和所述人体姿态信息输入所述生成网络,得到待判别图像;
将所述待判别图像输入所述判别网络进行判别,以实现对所述生成对抗网络模型的训练;
将训练后的生成对抗网络模型作为人物形态预测模型。
6.根据权利要求1所述的方法,其特征在于,将第二人体图像数据的特征信息输入所述人物形态预测模型,以生成预测的人体图像,包括:
将第二人体图像数据的特征信息输入所述人物形态预测模型中的生成网络,得到预测的人体图像。
7.根据权利要求6所述的方法,其特征在于,所述人物形态预测模型中的生成网络包括第一局部增强生成器、全局生成器和第二局部增强生成器,所述将第二人体图像数据的特征信息输入所述人物形态预测模型中的生成网络,得到预测的人体图像,包括:
将第二人体图像数据的特征信息输入所述第一局部增强生成器,生成第一特征映射;
将所述第二人体图像数据的特征信息输入所述全局生成器,生成第二特征映射;
将所述第一特征映射和所述第二特征映射的元素和输入所述第二局部增强生成器进行分辨率增强处理,得到预测的人体图像。
8.根据权利要求1所述的方法,其特征在于,所述第二人体图像数据的特征信息包括人脸特征信息和人体姿态信息中的一种或两种。
9.一种图像处理装置,其特征在于,包括:
获取单元,用于获取第一人体图像数据的特征信息,所述第一人体图像数据的特征信息包括人脸特征信息和人体姿态信息,所述人体姿态信息包括关键点数据以及姿态数据;
训练单元,用于利用所述人脸特征信息和所述人体姿态信息对生成对抗网络模型进行训练,得到人物形态预测模型;
处理单元,用于将第二人体图像数据的特征信息输入所述人物形态预测模型,以生成预测的人体图像;
其中,所述处理单元,具体用于:
将第二人体图像数据的人脸特征信息输入所述人物形态预测模型,生成预测的第一人体图像,所述第一人体图像包括该人脸特征信息以及与该人脸特征信息匹配的至少一个人体姿态信息;或者,
将第二人体图像数据的人体姿态信息输入所述人物形态预测模型,生成预测的第二人体图像,所述第二人体图像包括该人体姿态信息以及与该人体姿态信息匹配的人脸特征信息。
10.一种电子设备,其特征在于,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-8任一项所述的图像处理方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行,用以执行权利要求1~8中任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910689979.0A CN110427864B (zh) | 2019-07-29 | 2019-07-29 | 一种图像处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910689979.0A CN110427864B (zh) | 2019-07-29 | 2019-07-29 | 一种图像处理方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110427864A CN110427864A (zh) | 2019-11-08 |
CN110427864B true CN110427864B (zh) | 2023-04-21 |
Family
ID=68412980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910689979.0A Active CN110427864B (zh) | 2019-07-29 | 2019-07-29 | 一种图像处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427864B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340964B (zh) * | 2020-03-05 | 2023-03-24 | 长春中国光学科学技术馆 | 一种基于迁移学习的3d模型图像的构建方法 |
CN111918071A (zh) * | 2020-06-29 | 2020-11-10 | 北京大学 | 数据压缩的方法、装置、设备及存储介质 |
CN112785524B (zh) * | 2021-01-22 | 2024-05-24 | 北京百度网讯科技有限公司 | 一种人物图像的修复方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622591A (zh) * | 2012-01-12 | 2012-08-01 | 北京理工大学 | 3d人体姿态捕捉模仿系统 |
CN108256459A (zh) * | 2018-01-10 | 2018-07-06 | 北京博睿视科技有限责任公司 | 基于多摄像机融合的安检门人脸识别和人脸自动建库算法 |
CN108985257A (zh) * | 2018-08-03 | 2018-12-11 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN109740511A (zh) * | 2018-12-29 | 2019-05-10 | 广州华多网络科技有限公司 | 一种人脸表情匹配方法、装置、设备及存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10860841B2 (en) * | 2016-12-29 | 2020-12-08 | Samsung Electronics Co., Ltd. | Facial expression image processing method and apparatus |
CN107292813B (zh) * | 2017-05-17 | 2019-10-22 | 浙江大学 | 一种基于生成对抗网络的多姿态人脸生成方法 |
CN108230239A (zh) * | 2017-12-25 | 2018-06-29 | 中国科学院自动化研究所 | 人脸表情图像合成装置 |
CN108334816B (zh) * | 2018-01-15 | 2021-11-23 | 桂林电子科技大学 | 基于轮廓对称约束生成式对抗网络的多姿态人脸识别方法 |
CN108171770B (zh) * | 2018-01-18 | 2021-04-06 | 中科视拓(北京)科技有限公司 | 一种基于生成式对抗网络的人脸表情编辑方法 |
CN109331455A (zh) * | 2018-11-19 | 2019-02-15 | Oppo广东移动通信有限公司 | 人体姿态的动作纠错方法、装置、存储介质及终端 |
CN109635745A (zh) * | 2018-12-13 | 2019-04-16 | 广东工业大学 | 一种基于生成对抗网络模型生成多角度人脸图像的方法 |
CN109829959B (zh) * | 2018-12-25 | 2021-01-08 | 中国科学院自动化研究所 | 基于人脸解析的表情编辑方法及装置 |
CN109961507B (zh) * | 2019-03-22 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 一种人脸图像生成方法、装置、设备及存储介质 |
CN110021051B (zh) * | 2019-04-01 | 2020-12-15 | 浙江大学 | 一种基于生成对抗网络通过文本指导的人物图像生成方法 |
-
2019
- 2019-07-29 CN CN201910689979.0A patent/CN110427864B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622591A (zh) * | 2012-01-12 | 2012-08-01 | 北京理工大学 | 3d人体姿态捕捉模仿系统 |
CN108256459A (zh) * | 2018-01-10 | 2018-07-06 | 北京博睿视科技有限责任公司 | 基于多摄像机融合的安检门人脸识别和人脸自动建库算法 |
CN108985257A (zh) * | 2018-08-03 | 2018-12-11 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN109740511A (zh) * | 2018-12-29 | 2019-05-10 | 广州华多网络科技有限公司 | 一种人脸表情匹配方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
王珊 等.三维人脸表情获取及重建技术综述.《系统仿真学报》.2018,第30卷(第7期),2423-2444. * |
Also Published As
Publication number | Publication date |
---|---|
CN110427864A (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | SaliencyGAN: Deep learning semisupervised salient object detection in the fog of IoT | |
Zhang et al. | Uncertainty inspired RGB-D saliency detection | |
CN111754596B (zh) | 编辑模型生成、人脸图像编辑方法、装置、设备及介质 | |
CN110427864B (zh) | 一种图像处理方法、装置及电子设备 | |
JP2022503647A (ja) | クロスドメイン画像変換 | |
CN107066583A (zh) | 一种基于紧凑双线性融合的图文跨模态情感分类方法 | |
CN114339409B (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
CN111598168B (zh) | 图像分类方法、装置、计算机设备及介质 | |
CN113821668A (zh) | 数据分类识别方法、装置、设备及可读存储介质 | |
Song et al. | Unpaired person image generation with semantic parsing transformation | |
CN113822254B (zh) | 一种模型训练方法及相关装置 | |
Li et al. | Global co-occurrence feature learning and active coordinate system conversion for skeleton-based action recognition | |
CN110457523A (zh) | 封面图片的选取方法、模型的训练方法、装置及介质 | |
CN113822114A (zh) | 一种图像处理方法、相关设备及计算机可读存储介质 | |
CN116578738B (zh) | 一种基于图注意力和生成对抗网络的图文检索方法和装置 | |
Usman et al. | Skeleton-based motion prediction: A survey | |
CN115392216A (zh) | 一种虚拟形象生成方法、装置、电子设备及存储介质 | |
Saif et al. | Aggressive action estimation: a comprehensive review on neural network based human segmentation and action recognition | |
Wang et al. | Convolution-Based Design for Real-Time Pose Recognition and Character Animation Generation | |
CN113824989A (zh) | 一种视频处理方法、装置和计算机可读存储介质 | |
Nguyen et al. | Facial Landmark Detection with Learnable Connectivity Graph Convolutional Network | |
Mu | Pose Estimation-Assisted Dance Tracking System Based on Convolutional Neural Network | |
Li et al. | Text-driven Face Image Generation and Manipulation via Multi-level Residual Mapper. | |
Lyu et al. | A multi-branch attention and alignment network for person re-identification | |
CN117635897B (zh) | 三维对象的姿态补全方法、装置、设备、存储介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |