CN111260545B - 生成图像的方法和装置 - Google Patents
生成图像的方法和装置 Download PDFInfo
- Publication number
- CN111260545B CN111260545B CN202010065590.1A CN202010065590A CN111260545B CN 111260545 B CN111260545 B CN 111260545B CN 202010065590 A CN202010065590 A CN 202010065590A CN 111260545 B CN111260545 B CN 111260545B
- Authority
- CN
- China
- Prior art keywords
- image
- user
- face
- input
- countermeasure network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 124
- 230000004044 response Effects 0.000 claims abstract description 35
- 230000003993 interaction Effects 0.000 claims abstract description 17
- 238000006243 chemical reaction Methods 0.000 claims description 70
- 230000008569 process Effects 0.000 claims description 33
- 230000011218 segmentation Effects 0.000 claims description 24
- 230000005856 abnormality Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 15
- 230000000694 effects Effects 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013461 design Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 8
- 230000002452 interceptive effect Effects 0.000 claims description 7
- 238000009877 rendering Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000001815 facial effect Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000010422 painting Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010428 oil painting Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/2621—Cameras specially adapted for the electronic generation of special effects during image pickup, e.g. digital cameras, camcorders, video cameras having integrated special effects capability
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0007—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/23—Reliability checks, e.g. acknowledgments or fault reporting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/631—Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/64—Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20172—Image enhancement details
- G06T2207/20182—Noise reduction or smoothing in the temporal domain; Spatio-temporal filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
Abstract
本公开实施例公开了生成图像的方法和装置。方法包括:接收用户在交互场景中输入的包括人脸的第一图像;向用户呈现第一图像;在后台将第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像;其中,生成式对抗网络将基于输入的图像生成的人脸属性信息作为约束;响应于在后台得到生成式对抗网络输出的第二图像,向用户呈现第二图像。该方法可以提高生成式对抗网络基于输入的第一图像生成第二图像的准确率和效率,减少误生成图像的概率。
Description
技术领域
本公开涉及计算机技术领域,具体涉及图像转换技术领域,尤其涉及生成图像的方法和装置。
背景技术
目前市场上有很多数字娱乐产品,其中的自拍特效玩法,比如将人脸变为小孩的人脸,换一种风格的人脸等,具有很大的趣味性,受到人们的喜爱。
目前大多数应用提供的服务是采用人脸模板来生成不同风格的人脸,即根据识别到的用户的五官和脸型,选择不同风格的素材库中与识别到的用户的五官和脸型最类似的素材进行拼装,从而将人脸进行二次元转换,得到不同风格的人脸。
发明内容
本公开实施例提供了生成图像的方法和装置。
第一方面,本公开实施例提供了一种生成图像的方法,包括:一种生成人脸图像的方法,包括:接收用户输入的包括人脸的第一图像;向用户呈现第一图像;在后台将第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像;其中,生成式对抗网络将基于输入的图像生成的人脸属性信息作为约束;响应于在后台得到生成式对抗网络输出的第二图像,向用户呈现第二图像。
在一些实施例中,在接收用户输入的包括人脸的第一图像之前,方法还包括:在交互场景中,接收变换人脸的指示;向用户呈现输入人脸图像的信息。
在一些实施例中,向用户呈现输入人脸图像的信息包括:向用户呈现人脸自动拍摄界面;以及接收用户输入的包括人脸的第一图像包括:响应于监测到用户在自动拍摄界面输入人脸,触发自动拍照功能,得到第一图像。
在一些实施例中,向用户呈现人脸自动拍摄界面包括以下至少一项:向用户呈现具有预设风格的边框和/或拍照要求的自动拍摄界面;响应于在拍摄界面未检测到人脸,向用户呈现未检测到人脸的提示信息。
在一些实施例中,向用户呈现人脸自动拍摄界面还包括:响应于在拍摄界面检测到人脸,向用户呈现自动拍照倒计时;响应于自动拍照倒计时结束,拍照所检测到的人脸;响应于用户在自动拍照倒计时时间段内未输入人脸,结束倒计时并向用户呈现未识别到脸部的提示信息。
在一些实施例中,向用户呈现第一图像包括:在向用户呈现第一图像预设时间后,在所呈现的第一图像上设置蒙层,并在交互场景中显示人脸变换进度提示信息。
在一些实施例中,预设风格的边框与人脸变换进度提示信息的设计风格相同或相近。
在一些实施例中,将第一图像输入预先训练的生成式对抗网络包括:对第一图像进行不同程度的高斯模糊,将不同程度的高斯模糊后的第一图像输入预先训练的生成式对抗网络;或检测第一图像的纹理特征参数值是否大于纹理阈值,若是,对第一图像进行不同程度的高斯模糊,将不同程度的高斯模糊后的第一图像输入预先训练的生成式对抗网络。
在一些实施例中,生成式对抗网络将基于输入的图像生成的人脸属性信息作为约束包括:生成式对抗网络将基于输入的图像生成的多通道人脸图像作为输入;其中,多通道人脸图像包括输入的图像的RGB三通道图像和输入的图像的以下至少一项图像:人脸关键点的以下两项图像之一:二值图一通道图像或RGB三通道图像;人脸语义分割结果的以下两项图像之一:二值图一通道图像或RGB三通道图像;以及头发的二值图一通道图像。
在一些实施例中,方法还包括:在向用户呈现第二图像预定时间后,同时向用户呈现第一图像和第二图像。
在一些实施例中,方法还包括:向用户呈现人脸风格转换选项;接收用户对转换选项的选择;向用户呈现转换过程图像;响应于在后台生成与转换前的第二图像具有不同风格的新的第二图像,向用户呈现新的第二图像。
在一些实施例中,向用户呈现人脸风格转换选项包括:向用户呈现骰子按钮和动态的点击的手的图像;接收用户对转换选项的选择包括:接收用户对骰子按钮的点击;向用户呈现转换过程图像包括:向用户呈现动态的摇骰子图像。
在一些实施例中,向用户呈现新的第二图像包括:以向下擦除特效向用户呈现新的第二图像。
在一些实施例中,方法还包括:在展示转换选项后预定时间内,未接收到用户对保存选项或转换选项的选择操作,返回至向用户呈现输入人脸图像的信息。
在一些实施例中,在后台将第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像包括:在后台将第一图像输入位于云端服务器的预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像;以及方法还包括:响应于在后台将第一图像输入位于云端服务器的预先训练的生成式对抗网络时检测到网络异常,向用户呈现提示网络异常、请重试的信息,并在呈现提示网络异常、请重试的信息预设时长后,返回至向用户呈现输入人脸图像的信息。
在一些实施例中,方法还包括以下至少一项:响应于在后台将第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像的时间长度超出预置的时间长度,向用户呈现提示生成失败、请重试的信息,并在向用户呈现提示生成失败、请重试的信息的时长满足设定时长时,返回至向用户呈现输入人脸图像的信息;响应于在后台将第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像的过程中出现异常,向用户呈现提示生成失败、请重试的信息,并在向用户呈现提示生成失败、请重试的信息的时长满足设定时长时,返回至向用户呈现输入人脸图像的信息;响应于用户切换至其它应用并从其它应用返回,返回至向用户呈现输入人脸图像的信息。
第二方面,本公开实施例提供了一种生成人脸图像的装置,包括:第一图像输入单元,被配置成接收用户输入的包括人脸的第一图像;第一图像呈现单元,被配置成向用户呈现第一图像;第二图像输出单元,被配置成在后台将第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像;其中,生成式对抗网络将基于输入的图像生成的人脸属性信息作为约束;第二图像呈现单元,被配置成响应于在后台得到生成式对抗网络输出的第二图像,向用户呈现第二图像。
在一些实施例中,第一图像呈现单元进一步被配置成:在向用户呈现第一图像预设时间后,在所呈现的第一图像上设置蒙层,并在交互场景中显示人脸变换进度提示信息。
在一些实施例中,第二图像输出单元进一步被配置成:对第一图像进行不同程度的高斯模糊,将不同程度的高斯模糊后的第一图像输入预先训练的生成式对抗网络;或检测第一图像的纹理特征参数值是否大于纹理阈值,若是,对第一图像进行不同程度的高斯模糊,将不同程度的高斯模糊后的第一图像输入预先训练的生成式对抗网络。
在一些实施例中,第二图像输出单元中所采用的生成式对抗网络将基于输入的图像生成的人脸属性信息作为约束包括:生成式对抗网络将基于输入的图像生成的多通道人脸图像作为输入;其中,多通道人脸图像包括输入的图像的RGB三通道图像和输入的图像的以下至少一项图像:人脸关键点的以下两项图像之一:二值图一通道图像或RGB三通道图像;人脸语义分割结果的以下两项图像之一:二值图一通道图像或RGB三通道图像;以及头发的二值图一通道图像。
在一些实施例中,装置还包括:转换选项呈现单元,被配置成向用户呈现人脸风格转换选项;用户选择接收单元,被配置成接收用户对转换选项的选择;过程图像呈现单元,被配置成向用户呈现转换过程图像;第二图像更新单元,被配置成响应于在后台生成与转换前的第二图像具有不同风格的新的第二图像,向用户呈现新的第二图像。
在一些实施例中,转换选项呈现单元进一步被配置成:向用户呈现骰子按钮和动态的点击的手的图像;用户选择接收单元进一步被配置成:接收用户对骰子按钮的点击;过程图像呈现单元进一步被配置成:向用户呈现动态的摇骰子图像。
在一些实施例中,第二图像更新单元进一步被配置成:以向下擦除特效向用户呈现新的第二图像。
在一些实施例中,装置还包括:信息呈现返回单元,被配置成在展示转换选项后预定时间内,未接收到用户对保存选项或转换选项的选择操作,返回至向用户呈现输入人脸图像的信息。
第三方面,本公开实施例提供了一种电子设备/终端/服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上任一所述的生成图像的方法。
第四方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一所述的生成图像的方法。
本公开实施例提供的生成图像的方法和装置,首先接收用户输入的包括人脸的第一图像;之后,向用户呈现第一图像;之后,在后台将第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像;其中,生成式对抗网络将基于输入的图像生成的人脸属性信息作为约束;最后,响应于在后台得到生成式对抗网络输出的第二图像,向用户呈现第二图像。在这一过程中,由于采用了人脸属性信息作为生成式对抗网络的约束,可以提高生成式对抗网络基于输入的第一图像生成第二图像的准确率和效率,减少误生成图像的概率,使得生成的第二图像更富有针对性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开可以应用于其中的示例性系统架构图;
图2是根据本公开实施例的生成图像的方法的一个实施例的流程示意图;
图3是根据本公开实施例的生成图像的方法的一个示例性应用场景;
图4是根据本公开实施例的生成图像的方法的又一个实施例的流程示意图;
图5是本公开的生成图像的装置的一个实施例的示例性结构图;
图6是适于用来实现本公开实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。本领域技术人员还将理解的是,虽然本文中可使用用语“第一”、“第二”等来描述图像,但是这些图像不应被这些用语限制。这些用语仅用于将一个图像与其它图像区分开。
图1示出了可以应用本公开的生成图像的方法或生成图像的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如短视频应用、浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是支持浏览器应用的各种电子设备,包括但不限于平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103提供支持的后台服务器。后台服务器可以对接收到的请求等数据进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
在实践中,本公开实施例所提供的生成图像的方法可以由终端设备101、102、103和/或服务器105、106执行,生成图像的装置也可以设置于终端设备101、102、103和/或服务器105、106中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,图2示出了根据本公开的生成图像的方法的一个实施例的流程200。该生成图像的方法包括以下步骤:
步骤201,接收用户输入的包括人脸的第一图像。
在本实施例中,生成图像的方法的执行主体(例如图1所示的终端或服务器)可以获取用户在交互场景中从本地或远程相册、数据库输入的包括人脸的第一图像,也可以经由本地或远程的拍照服务获取包括人脸的第一图像。
在本实施例的一些可选实现方式中,在接收用户输入的包括人脸的第一图像之前,生成人脸图像的方法还包括:在交互场景中,接收变换人脸的指示;向用户呈现输入人脸图像的信息。
在本实现方式中,上述执行主体所接收的变换人脸的指示,可以为用户输入的变换人脸的指示,例如用户对变换人脸的选项的选择等;也可以为由用户的出现触发的变换人脸的指示,例如上述执行主体在提供人脸变换服务模式下,若检测到用户的人脸,则认为接收到变换人脸的指示。
上述执行主体在接受到变换人脸的指示之后,可以向用户呈现输入人脸图像的信息。例如向用户呈现提示用户从本地或云端相册或数据库输入人脸图像的信息,或向用户呈现调用本地或远程的拍照服务输入人脸图像的信息。
在一个具体的示例中,向用户呈现输入人脸图像的信息可以包括:向用户呈现人脸自动拍摄界面;以及接收用户输入的包括人脸的第一图像包括:响应于监测到用户在自动拍摄界面输入人脸,触发自动拍照功能,得到第一图像。由此,可以根据执行主体接收的变换人脸的指示,快速获取第一图像。进一步地,在触发自动拍照功能时,还可以向用户呈现闪光灯的声光效果,从而提高用户的注意力,提高自动拍照的效率。
其中,在向用户呈现人脸自动拍摄界面时,上述执行主体可以向用户呈现具有预设风格的边框和/或拍照要求的自动拍摄界面,从而提高拍摄的趣味性和/或人机交互效率;备选地或附加地,上述执行主体可以响应于在拍摄界面未检测到人脸,向用户呈现未检测到人脸的提示信息,从而提醒用户输入人脸,提高人机交互效率。
在本实施例的一些可选实现方式中,向用户呈现人脸自动拍摄界面还包括:响应于在拍摄界面检测到人脸,向用户呈现自动拍照倒计时;响应于用户在自动拍照倒计时时间段内持续输入人脸,在自动拍照倒计时结束时拍照所检测到的人脸;以及响应于用户在自动拍照倒计时时间段内未输入人脸,结束倒计时并向用户呈现未识别到脸部的提示信息。
在本实现方式中,上述执行主体在拍摄界面检测到人脸后,可以向用户呈现自动拍照倒计时。若用户在自动拍照倒计时时间段内持续输入人脸,也即上述执行主体在自动拍照倒计时时间段内均检测到人脸,则上述执行主体可以在自动拍照倒计时结束时,拍照所检测到的人脸。若用户在自动拍照倒计时时间段内未输入人脸,也即上述执行主体在自动拍照倒计时时间段内未检测到人脸,则上述执行主体结束倒计时并向用户呈现未识别到脸部的提示信息。
本实现方式中的向用户呈现人脸自动拍摄界面的方式,可以在自动拍照倒计时的时间段内监测人脸是否存在,若用户的人脸一直存在,则在自动拍照倒计时结束时拍照,并在未监测到人脸时及时提醒用户,提高了自动拍摄人脸的效率。
步骤202,向用户呈现第一图像。
在本实施例中,生成图像的方法的执行主体可以采用现有技术或未来发展的技术中的呈现方式向用户呈现第一图像,本申请对此不作限定。例如,上述执行主体可以在显示屏上向用户呈现第一图像,或采用普通投影技术或全息投影技术向用户呈现第一图像。
在本实施例的一些可选实现方式中,向用户呈现第一图像可以包括:在向用户呈现第一图像预设时间后,在所呈现的第一图像上设置蒙层,并在交互场景中显示人脸变换进度提示信息。
在本实现方式中,通过在向用户呈现第一图像预设时间(例如3秒)后,可以在所呈现的第一图像上设置蒙层,并在交互场景中显示人脸变换进度提示信息,已提醒用户正在对第一图像进行人脸变换,使得用户可以直观的看到人脸变换进度,提高人机交互效率。
在本实施例的一些可选实现方式中,预设风格的边框与人脸变换进度提示信息的设计风格相同或相近。
在本实现方式中,通过设置预设风格的边框与人脸进度提示信息的设计风格相同或相近,可以向用户呈现前后一致的观感,提高用户的认可度。这里的设计风格相近,是指设计风格的相似度大于预设的相似度阈值,或者设计风格为在预设的风格排序列表中相邻的风格。
步骤203,在后台将第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像。
在本实施例中,上述执行主体可以在后台将第一图像输入预先训练的生成式对抗网络,以得到生成式对抗网络输出的第二图像;其中,生成式对抗网络将基于输入的图像生成的人脸属性信息作为约束。
预先训练的生成式对抗网络,是指以生成式对抗网络(GAN,GenerativeAdversarial Networks)为基础发展而成的深度学习模型。例如,生成式对抗网络GAN、循环一致生成式对抗网络CycleGan、人脸高精度属性编辑模型AttGAN、星型生成式对抗网络StarGAN、空间变换器生成式对抗网络STGAN、对偶学习的生成对抗网络DualGAN、DiscoGAN等。
该预先训练的生成式对抗网络,通常包括生成器G(generator)和鉴别器(Discriminator)。有两个数据域分别为X,Y。G负责将X域中的数据模仿成真实数据并把它们藏在真实数据中,而D负责将伪造数据和真实数据分开。经过二者的博弈以后,G的伪造技术越来越厉害,D的鉴别技术也越来越厉害。直到D再也分不出数据是真实的还是G生成的数据的时候,对抗的过程达到一个动态的平衡。
训练生成式对抗网络需要两个损失函数:生成器的重建损失函数和判别器的判别损失函数。其中,重建损失函数用于确定生成的图片与原图是否尽可能的相似;判别损失函数用于将生成的假图片和原始真图片输入至判别器中,得到公式为0,1的二分类的损失。
生成器由编码器、转换器和解码器构成。编码器采用卷积神经网络从输入的图象中提取特征。例如,将图像压缩成256个64*64的特征向量。转换器通过组合图像的不相近特征,将图像在DA域中的特征向量转换为DB域中的特征向量。例如,可以使用6层Reset模块,每个Reset模块是一个由两个卷积层构成的神经网络层,从而达到在转换时同时保留原始图像特征的目标。解码器利用反卷积层(decovolution)完成从特征向量中还原出低级特征的工作,最后得到生成图像。
鉴别器将一张图像作为输入,并尝试预测其为原始图像或是生成器的输出图像。鉴别器本身属于卷积网络,需要从图像中提取特征,再通过添加产生一维输出的卷积层来确定提取的特征是否属于特定类别。
在这里,预先训练的生成式对抗网络基于输入的图像生成的人脸属性信息作为约束。这里的人脸属性信息,是表征人脸特征的一系列生物特性信息,具有很强的自身稳定性和个体差异性,标识了人的身份。人脸属性信息可以包括性别、肤色、年龄、表情等。
生成式对抗网络在将基于输入的图像(例如应用生成式对抗网络时输入的第一图像或训练生成式对抗网络时输入的第一图像样本)生成的人脸属性信息作为约束时,可以采用现有技术或未来发展的技术中的用于机器学习网络的约束的方法来实现,本申请对此不做限定。
在本申请的一个具体的示例中,上述基于输入的图像生成的人脸属性信息,可以作为生成式对抗网络中的生成器网络的任意一层或多层的输入,与该层网络原有的输入联合作为输入,从而在机器学习中改善引入约束的生成器网络的输出图像与人脸属性信息的关联性。
在本申请的另一个具体的示例中,上述基于输入的图像生成的人脸属性信息,采用面部标志特征来定义一致性损失,指导在生成式对抗网络中训练鉴别器。首先,生成器基于输入的第一图像生成一张粗糙的第二图像。随后,生成式对抗网络根据生成的第二图像,生成一个预训练回归量(regressor)来预测面部界标landmark,对面部的关键点进行标记。最后,通过局部和全局两种鉴别器,细化在第二图像中对应第一图像的人脸特征。在这个阶段,强调了landmark的一致性,因此最后的生成结果逼真且有辨识度。
本领域技术人员可以理解的是,生成式对抗网络可以在训练和应用阶段,将基于输入的图像生成的人脸属性信息作为约束。其中,在训练该生成式对抗网络时,输入的图像可以为输入的第一图像样本。生成式对抗网络提取输入的第一图像样本的人脸属性信息,并将人脸属性信息作为生成式对抗网络的约束,得到输出的生成的图像。在应用该生成式对抗网络时,输入的图像可以为输入的第一图像。生成式对抗网络提取输入的第一图像的人脸属性信息,并将第一图像的人脸属性信息作为生成式对抗网络的约束,得到输出的第二图像。
输入上述生成式对抗网络的第一图像,可以为包括人脸的图像。生成式对抗网络输出的第二图像,可以为风格或性别不同于第一图像且包括人脸的图像。
具体地,生成式对抗网络将基于输入的图像生成的人脸属性信息作为约束包括:生成式对抗网络将基于输入的图像生成的人脸关键点和/或人脸语义分割结果作为约束。
上述执行主体可以采用人脸关键点提取技术,提取输入的图像的人脸关键点,并将人脸关键点作为生成式对抗网络生成输出的图像时的约束。备选地或附加地,上述执行主体可以采用人脸语义分割技术,将人脸语义分割结果作为生成式对抗网络生成输出的图像时的约束。
采用基于输入的图像生成的人脸关键点和/或人脸语义分割结果作为约束,可以使得生成器可以将输入的图像的五官和输出的图像的五官联系起来,从而不会在其它部位误生成人脸特征,使得输入的图像可以为包括人脸的更大的图像,而不局限于只输入人脸图像,并且提高了输出的图像的准确度和质量。
在本实施例的一些可选实现方式中,将第一图像输入预先训练的生成式对抗网络包括:对第一图像进行不同程度的高斯模糊,将不同程度的高斯模糊后的第一图像输入预先训练的生成式对抗网络。
在本实现方式中,高斯模糊(Gaussian Blur),也叫高斯平滑,可以减少图像噪声以及降低细节层次,增强图像在不同比例大小下的图像效果(参见尺度空间表示以及尺度空间实现)。从数学的角度来看,图像的高斯模糊过程就是图像与正态分布做卷积。由于正态分布又称为高斯分布,所以这项技术又称为高斯模糊。
通过采用不同程度的高斯模糊后的第一图像作为生成式对抗网络的输入,可以得到不同清晰度的第二图像,从而可以在不同清晰度的第二图像的基础上,确定所需的清晰的第二图像。
备选地或附加地,将第一图像输入预先训练的生成式对抗网络包括:检测第一图像的纹理特征参数值是否大于纹理阈值,若是,对第一图像进行不同程度的高斯模糊,将不同程度的高斯模糊后的第一图像输入预先训练的生成式对抗网络。
在这里,图像的纹理特征参数值是指用于表征图像的纹理特征的参数值。例如,纹理的粗细度、密度及方向性等。当检测到第一图像的纹理特征参数值大于纹理阈值时,表明第一图像的纹理复杂。通常,基于纹理复杂的图像生成的图像内容较乱。因此,可以对第一图像进行不同程度的高斯模糊,从而对于不同程度的高斯模糊后的第一图像,分别生成第二图像,从而得到不同清晰度的第二图像。之后,可以在不同清晰度的第二图像的基础上,确定所需的清晰的第二图像,从而提高生成的图像的质量。
上述的预先训练的生成式对抗网络,可以采用爬虫从网络爬取图像样本或直接获取图像样本数据集,这些图像中的每张图像都包括人脸;之后,可以直接将爬取或获取的图像样本直接作为训练生成式对抗网络的图像样本;或者,将爬取的包括人脸的图像作为初始图像样本,对初始图像样本进行进一步的数据处理,得到符合图像样本要求的筛选后的图像,并将筛选后的图像作为训练生成式对抗网络的图像样本。
预先训练的生成式对抗网络,由于训练数据需要风格一致且包含不同性别、不同角度、不同面部大小的图像样本,因此可以对初始图像样本进行数据增强,从而增加训练的数据量,提高生成式对抗网络的泛化能力,并且增加噪声数据,提升生成式对抗网络的鲁棒性。数据增强可以包括如旋转、平移、翻折、翻转、缩放和不同程度的高斯模糊等操作。
在本实施例的一些可选实现方式中,生成式对抗网络将基于输入的图像生成的人脸属性信息作为约束包括:生成式对抗网络将基于输入的图像生成的多通道人脸图像作为输入;其中,多通道人脸图像包括输入的图像的RGB三通道图像和输入的图像的以下至少一项图像:人脸关键点的以下两项图像之一:二值图一通道图像或RGB三通道图像;人脸语义分割结果的以下两项图像之一:二值图一通道图像或RGB三通道图像;以及头发的二值图一通道图像。
在本实现方式的一些具体的示例中,基于第一图像,可以采用现有技术或未来发展的技术中的提取人脸关键点的技术来获取第一图像的人脸关键点图像。本申请对此不做限定。例如,可以采用主动形状模型(ASM,Active Shape Model)、主动外观模型(AMM,ActiveAppearance Model,)、级联形状回归模型Cascaded Shape Regression(CSR)、或者人脸对齐算法(DAN,Deep Alignment Network)等进行人脸关键点提取。之后,可以在人脸关键点图像的基础上,得到人脸关键点的RGB三通道图像或人脸关键点的二值图一通道图像。
基于第一图像,可以采用现有技术或未来发展的技术中的语义分割技术来获取第一图像的人脸语义分割结果,本申请对此不做限定。在一些具体的示例中,分割人脸语义的技术可以采用全卷积神经网络FCN(Fully Convolutional Networks for SemanticSegmentation)、语义分割网络(SegNet,Semantic Segmentation)、空洞卷积(DilatedConvolutions)、语义分割(DeepLab(v1、v2、V3等))、图像分割模型(RefineNet)、金字塔场景解析网络(PSPNet)等来基于第一图像获取第一图像的人脸语义分割结果。语义分割是目标检测的扩展,其输出是目标按类别区分的彩色掩码,可以对目标实现更精准的定位,并且不受目标的复杂形状所影响。之后,可以在人脸语义分割结果的基础上,得到人脸语义分割结果的RGB三通道图像或人脸关键点的二值图一通道图像。
基于第一图像,可以采用现有技术或未来发展的技术中的头发分割技术的技术来获取第一图像的头发的二值图一通道图像,本申请对此不做限定。例如,可以采用分割头发的技术先获取头发的分割结果,再将头发分割结果转换为头发的二值图一通道图像,头发分割结果的每个像素点由二值图一通道表示。
本领域技术人员可以理解的是,预先训练生成式对抗网络所采用的多通道人脸图像样本,与应用该生成式对抗网络时输入的多通道人脸图像相适应,以便得到训练完成的、适合应用时输入的多通道人脸图像的生成式对抗网络。
本实现方式中的生成人脸图像的方法,将多通道人脸图像输入预先训练的生成式对抗网络,输入的图像细节更为丰富,可以提高预先训练的生成式对抗网络输出的第二图像的准确性和质量。
步骤204,响应于在后台得到生成式对抗网络输出的第二图像,向用户呈现第二图像。
在本实施例中,上述执行主体可以将预先训练的生成式对抗网络输出的第二图像向用户呈现。
在一个具体的示例中,第一图像为真实的人脸图像;第二图像为卡通图像。这里的卡通图像可以为壁画、油画、地毯等的草图、底图,也可以为漫画、讽刺画、幽默画等。
在本实施例的一些可选的实现方式中,上述方法还可以包括:在向用户呈现第二图像预定时间后,同时向用户呈现第一图像和第二图像。
在本实现方式中,上述执行主体可以在向用户呈现第二图像预定时间后,同时向用户呈现第一图像和第二图像。例如,上述执行主体可以在屏幕中左上和右下的位置分别展示第一图像和第二图像。或者以分屏的方式展示第一图像和第二图像。以便用户对比查看第一图像和第二图像,提高交互效率。
本公开上述实施例的生成图像的方法,由于在生成式对抗网络基于第一图像生成第二图像的过程中,采用了第一图像的人脸属性信息作为生成式对抗网络的约束,可以提高生成式对抗网络基于输入的第一图像生成第二图像的质量、准确率和效率,减少误生成图像的概率,使得生成的第二图像更富有针对性。
以下结合图3,描述本公开的生成图像的方法的示例性应用场景。
如图3所示,图3示出了根据本公开的生成图像的方法的一个示例性应用场景。
如图3所示,生成图像的方法300运行于电子设备310中,可以包括:
首先,接收用户输入的包括人脸的第一图像301;
其次,向用户呈现第一图像301;
再次,在后台将第一图像301输入预先训练的生成式对抗网络302,得到生成式对抗网络输出的第二图像303;其中,生成式对抗网络302将基于输入的图像生成的人脸属性信息304作为约束305;
最后,响应于在后台得到生成式对抗网络输出的第二图像303,向用户呈现第二图像303。
应当理解,上述图3中所示出的生成图像的方法的应用场景,仅为对于生成图像的方法的示例性描述,并不代表对该方法的限定。例如,上述图3中示出的各个步骤,可以进一步采用更为细节的实现方法。也可以在上述图3的基础上,进一步增加其它生成图像的步骤。
进一步参考图4,图4示出了根据本公开的生成人脸图像的方法的又一个实施例的示意性流程图。
如图4所示,本实施例的生成人脸图像的方法400,可以包括以下步骤:
步骤401,接收用户输入的包括人脸的第一图像。
在本实施例中,生成图像的方法的执行主体(例如图1所示的终端或服务器)可以获取用户在交互场景中从本地或远程相册、数据库输入的包括人脸的第一图像,也可以经由本地或远程的拍照服务获取包括人脸的第一图像。
步骤402,向用户呈现第一图像。
在本实施例中,生成图像的方法的执行主体可以采用现有技术或未来发展的技术中的呈现方式向用户呈现第一图像,本申请对此不作限定。例如,上述执行主体可以在显示屏上向用户呈现第一图像,或采用普通投影技术或全息投影技术向用户呈现第一图像。
步骤403,在后台将第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像。
在本实施例中,上述执行主体可以在后台将第一图像输入预先训练的生成式对抗网络,以得到生成式对抗网络输出的第二图像;其中,生成式对抗网络将基于输入的图像生成的人脸属性信息作为约束。
预先训练的生成式对抗网络,是指以生成式对抗网络(GAN,GenerativeAdversarial Networks)为基础发展而成的深度学习模型。例如,生成式对抗网络GAN、循环一致生成式对抗网络CycleGan、人脸高精度属性编辑模型AttGAN、星型生成式对抗网络StarGAN、空间变换器生成式对抗网络STGAN、对偶学习的生成对抗网络DualGAN、DiscoGAN等。
步骤404,响应于在后台得到生成式对抗网络输出的第二图像,向用户呈现第二图像。
在本实施例中,上述执行主体可以将预先训练的生成式对抗网络输出的第二图像向用户呈现。
在一个具体的示例中,第一图像为真实的人脸图像;第二图像为卡通图像。这里的卡通图像可以为壁画、油画、地毯等的草图、底图,也可以为漫画、讽刺画、幽默画等。
本领域技术人员可以理解,上述的步骤401至步骤404,与图2中所示的实施例中的步骤201至步骤204相对应。由此,上文针对图2中所示的实施例中的步骤201至步骤204描述的操作和特征同样适用于步骤401至步骤404,在此不再赘述。
步骤405,向用户呈现人脸风格转换选项。
在本实现方式中,上述执行主体在向用户呈现第二图像时或在向用户呈现第二图像之后,可以向用户呈现人脸风格转换选项,以便用户选择风格转换选项,从而转换生成的第二图像的风格。例如,可以向用户呈现可以转动的风格转换选项的滚轮,以便用户转动滚轮并选中自己喜欢的风格。
本实施例的一些可选的实现方式中,向用户呈现人脸风格转换选项可以包括:向用户呈现骰子按钮和动态的点击的手的图像。这样可以引导接收用户对骰子按钮的点击来进行人脸风格的转换。
步骤406,接收用户对转换选项的选择。
在本实施例中,接收用户对转换选项的选择,也即上述执行主体接收到用户对转换选项的选择。
步骤407,向用户呈现转换过程图像。
在本实施例中,上述执行主体在接收用户对转换选项的选择后,在后台生成与转换前的第二图像具有不同风格的新的第二图像,并向用户呈现转换过程图像。这里的转换过程图像,是指可以体现转换过程的图像,例如转换进度条、动态转换图像等。
在后台生成与上一次生成的第二图像不同的第二图像时,可以采用对第一图像的部分内容进行修改的方式获得不同风格的新的第二图像。例如,可以修改第一图像的背景的亮度、对比度等参数,并将修改后的第一图像输入预先训练的生成式对抗网络,以得到新的第二图像。
在本实施例的一些可选实现方式中,在上述的向用户呈现骰子按钮和动态的点击的手的图像之后,用户可以点击骰子按钮,上述执行主体可以向用户呈现动态的摇骰子图像。这样可以直观的引导用户点击骰子来转换人脸风格,以及直观地向用户呈现点击骰子后的交互过程,从而提高人机交互的效率。
步骤408,响应于在后台生成与转换前的第二图像具有不同风格的新的第二图像,向用户呈现新的第二图像。
在本实施例中,上述执行主体若在后台生成了转换风格后的第二图像,可以将转换风格后的第二图像作为新的第二图像,并向用户呈现新的第二图像。
在向用户呈现新的第二图像时,可以采用一些特效来呈现新的第二图像。例如,可以以向下擦除特效、点状消隐特效、或旋转消隐特效等特效向用户呈现新的第二图像,从而直观的体现第二图像的变化过程。
在本实施例的一些可选实现方式中,上述的生成人脸图像的方法还包括:在展示转换选项后预定时间内,未接收到用户对保存选项或转换选项的选择操作,返回至向用户呈现输入人脸图像的信息。
在本实现方式中,若在展示转换选项后预定时间内,未接收到用户对保存选项或转换选项的选择操作,则表示用户对当前的第二图像并不满意并且不想基于再基于之前的第一图像来转换风格,此时执行主体返回至向用户呈现输入人脸图像的信息。这样,无需用户的操作,上述执行主体即可提醒用户输入新的包括人脸的第一图像,以便进行下一次的生成人脸图像,提高了生成人脸图像的方法的智能性和人机交互效率。
在本实施例的一些可选实现方式中,上述的执行主体在后台将第一图像输入位于云端服务器的预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像,响应于在后台将第一图像输入位于云端服务器的预先训练的生成式对抗网络时检测到网络异常,向用户呈现提示网络异常、请重试的信息,并在呈现提示网络异常、请重试的信息预设时长后,返回至向用户呈现输入人脸图像的信息。
在本实现方式中,上述执行主体在网络异常时,可以提醒用户网络异常、请重试,并在间隔预设时长后,重新返回至向用户呈现输入人脸图像的信息,如此无需用户的操作,即可提醒用户输入新的包括人脸的第一图像,以便进行下一次的生成人脸图像,提高了生成人脸图像的方法的智能性和人机交互效率。
在本实施例的一些可选实现方式中,生成人脸图像的方法还包括以下至少一项:响应于在后台将第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像的时间长度超出预置的时间长度时间,向用户呈现提示生成失败、请重试的信息;响应于在后台将第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像的过程中出现异常,向用户呈现提示生成失败、请重试的信息;响应于用户切换至其它应用并从其它应用返回,返回至向用户呈现输入人脸图像的信息。
在本实现方式中,上述执行主体在生成第二图像的时间长度超出预置的时间长度或生成第二图像的过程中出现了异常时,向用户呈现提示生成失败、请重试的信息,并在向用户呈现提示生成失败、请重试的信息的时长满足设定时长时,返回至所述向用户呈现输入人脸图像的信息。这样,可以直观的提示用户重试,提高交互效率。
此外,在用户切换至其它应用并从其它应用返回时,上述执行主体返回至向用户呈现输入人脸图像的信息,如此无需用户的操作,即可提醒用户输入新的包括人脸的第一图像,以便进行下一次的生成人脸图像,提高了生成人脸图像的方法的智能性和人机交互效率。
本公开上述实施例的生成图像的方法,与上述图2中所示的实施例中的方法相比,可以在图2所示的实施例的基础上,向用户呈现人脸向用户呈现人脸风格转换选项,之后接收用户对转换选项的选择,之后向用户呈现转换过程图像,最后响应于在后台生成与第二图像具有不同风格的新的第二图像,向用户呈现新的第二图像,从而可以在用户对生成的二次元人像不满意时,无需重新拍摄,点击按钮即可重新成二次元形象。一张原图,可生成不同类型的二次元形象,提高了生成符合用户需要的第二图像的效率。
作为对上述各图所示方法的实现,本公开实施例提供了一种生成图像的装置的一个实施例,该装置实施例与图2-图4中所示的方法实施例相对应,该装置具体可以应用于上述图1所示的终端或服务器中。
如图5所示,本实施例的生成图像的装置500可以包括:第一图像输入单元501,被配置成接收用户输入的包括人脸的第一图像;第一图像呈现单元502,被配置成向用户呈现第一图像;第二图像输出单元503,被配置成在后台将第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像;其中,生成式对抗网络将基于输入的图像生成的人脸属性信息作为约束;第二图像呈现单元504,被配置成响应于在后台得到生成式对抗网络输出的第二图像,向用户呈现第二图像。
在一些实施例中,装置还包括(图中未示出):指示接收单元,被配置成在交互场景中,接收变换人脸的指示;信息呈现单元,被配置成向用户呈现输入人脸图像的信息。
在一些实施例中,上述向用户呈现输入人脸图像的信息包括:向用户呈现人脸自动拍摄界面;以及接收用户输入的包括人脸的第一图像包括:响应于监测到用户在自动拍摄界面输入人脸,触发自动拍照功能,得到第一图像。
在一些实施例中,上述向用户呈现人脸自动拍摄界面包括以下至少一项:向用户呈现具有预设风格的边框和/或拍照要求的自动拍摄界面;响应于在拍摄界面未检测到人脸,向用户呈现未检测到人脸的提示信息。
在一些实施例中,上述向用户呈现人脸自动拍摄界面还包括:响应于在拍摄界面检测到人脸,向用户呈现自动拍照倒计时;响应于自动拍照倒计时结束,拍照所检测到的人脸;响应于用户在自动拍照倒计时时间段内未输入人脸,结束倒计时并向用户呈现未识别到脸部的提示信息。
在一些实施例中,第一图像呈现单元进一步被配置成:在向用户呈现第一图像预设时间后,在所呈现的第一图像上设置蒙层,并在交互场景中显示人脸变换进度提示信息。
在一些实施例中,预设风格的边框与人脸变换进度提示信息的设计风格相同或相近。
在一些实施例中,第二图像输出单元进一步被配置成:对第一图像进行不同程度的高斯模糊,将不同程度的高斯模糊后的第一图像输入预先训练的生成式对抗网络;或检测第一图像的纹理特征参数值是否大于纹理阈值,若是,对第一图像进行不同程度的高斯模糊,将不同程度的高斯模糊后的第一图像输入预先训练的生成式对抗网络。
在一些实施例中,第二图像输出单元中所采用的生成式对抗网络将基于输入的图像生成的人脸属性信息作为约束包括:生成式对抗网络将基于输入的图像生成的多通道人脸图像作为输入;其中,多通道人脸图像包括输入的图像的RGB三通道图像和输入的图像的以下至少一项图像:人脸关键点的以下两项图像之一:二值图一通道图像或RGB三通道图像;人脸语义分割结果的以下两项图像之一:二值图一通道图像或RGB三通道图像;以及头发的二值图一通道图像。
在一些实施例中,装置还包括(图中未示出):图像同时呈现单元,被配置成在向用户呈现第二图像预定时间后,同时向用户呈现第一图像和第二图像。
在一些实施例中,装置还包括(图中未示出):转换选项呈现单元,被配置成向用户呈现人脸风格转换选项;用户选择接收单元,被配置成接收用户对转换选项的选择;过程图像呈现单元,被配置成向用户呈现转换过程图像;第二图像更新单元,被配置成响应于在后台生成与转换前的第二图像具有不同风格的新的第二图像,向用户呈现新的第二图像。
在一些实施例中,转换选项呈现单元进一步被配置成:向用户呈现骰子按钮和动态的点击的手的图像;用户选择接收单元进一步被配置成:接收用户对骰子按钮的点击;过程图像呈现单元进一步被配置成:向用户呈现动态的摇骰子图像。
在一些实施例中,第二图像更新单元进一步被配置成:以向下擦除特效向用户呈现新的第二图像。
在一些实施例中,装置还包括(图中未示出):信息呈现返回单元,被配置成在展示转换选项后预定时间内,未接收到用户对保存选项或转换选项的选择操作,返回至向用户呈现输入人脸图像的信息。
在一些实施例中,上述在后台将第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像包括:在后台将第一图像输入位于云端服务器的预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像;以及上述装置还包括:信息呈现返回单元,被配置成响应于在后台将第一图像输入位于云端服务器的预先训练的生成式对抗网络时检测到网络异常,向用户呈现提示网络异常、请重试的信息,并在呈现提示网络异常、请重试的信息预设时长后,返回至向用户呈现输入人脸图像的信息。
在一些实施例中,上述的信息呈现返回单元进一步被配置成:响应于在后台将第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像的时间长度超出预置的时间长度,向用户呈现提示生成失败、请重试的信息,并在向用户呈现提示生成失败、请重试的信息的时长满足设定时长时,返回至向用户呈现输入人脸图像的信息;以及响应于在后台将第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像的过程中出现异常,向用户呈现提示生成失败、请重试的信息,并在向用户呈现提示生成失败、请重试的信息的时长满足设定时长时,返回至向用户呈现输入人脸图像的信息;响应于用户切换至其它应用并从其它应用返回,返回至向用户呈现输入人脸图像的信息。
应当理解,装置500中记载的各个单元与参考图2-图4描述的方法中记载的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于装置500及其中包含的各个单元,在此不再赘述。
下面参考图6,其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器或终端设备)600的结构示意图。本公开的实施例中的终端设备可以包括但不限于诸如笔记本电脑、台式计算机等。图6示出的终端设备/服务器仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:接收用户输入的包括人脸的第一图像;向用户呈现第一图像;在后台将第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像;其中,生成式对抗网络将基于输入的图像生成的人脸属性信息作为约束;响应于在后台得到生成式对抗网络输出的第二图像,向用户呈现第二图像。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一图像输入单元、第一图像呈现单元、第二图像输出单元和第二图像呈现单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一图像输入单元还可以被描述为“接收用户输入的包括人脸的第一图像的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (26)
1.一种生成人脸图像的方法,包括:
接收用户输入的包括人脸的第一图像;
向用户呈现所述第一图像;
在后台将所述第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像;其中,所述生成式对抗网络将基于输入的图像生成的人脸属性信息作为约束;所述将所述第一图像输入预先训练的生成式对抗网络包括:对所述第一图像进行不同程度的高斯模糊,将不同程度的高斯模糊后的第一图像输入预先训练的生成式对抗网络;
响应于在后台得到生成式对抗网络输出的第二图像,向用户呈现所述第二图像。
2.根据权利要求1所述的方法,其中,在所述接收用户输入的包括人脸的第一图像之前,所述方法还包括:在交互场景中,接收变换人脸的指示;
向用户呈现输入人脸图像的信息。
3.根据权利要求2所述的方法,其中,向用户呈现输入人脸图像的信息包括:向用户呈现人脸自动拍摄界面;以及
所述接收用户输入的包括人脸的第一图像包括:响应于监测到用户在自动拍摄界面输入人脸,触发自动拍照功能,得到所述第一图像。
4.根据权利要求3所述的方法,其中,所述向用户呈现人脸自动拍摄界面包括以下至少一项:
向用户呈现具有预设风格的边框和/或拍照要求的自动拍摄界面;
响应于在拍摄界面未检测到人脸,向用户呈现未检测到人脸的提示信息。
5.根据权利要求3所述的方法,其中,所述向用户呈现人脸自动拍摄界面还包括:
响应于在拍摄界面检测到人脸,向用户呈现自动拍照倒计时;
响应于自动拍照倒计时结束,拍照所检测到的人脸;
响应于用户在自动拍照倒计时时间段内未输入人脸,结束倒计时并向用户呈现未识别到脸部的提示信息。
6.根据权利要求4所述的方法,其中,所述向用户呈现所述第一图像包括:在向用户呈现所述第一图像预设时间后,在所呈现的所述第一图像上设置蒙层,并在交互场景中显示人脸变换进度提示信息。
7.根据权利要求6所述的方法,其中,所述预设风格的边框与所述人脸变换进度提示信息的设计风格相同或相近。
8.根据权利要求1所述的方法,其中,所述将所述第一图像输入预先训练的生成式对抗网络包括:
检测所述第一图像的纹理特征参数值是否大于纹理阈值,若是,对所述第一图像进行不同程度的高斯模糊,将不同程度的高斯模糊后的第一图像输入预先训练的生成式对抗网络。
9.根据权利要求1或8所述的方法,其中,所述生成式对抗网络将基于输入的图像生成的人脸属性信息作为约束包括:所述生成式对抗网络将基于输入的图像生成的多通道人脸图像作为输入;其中,所述多通道人脸图像包括输入的图像的RGB三通道图像和输入的图像的以下至少一项图像:
人脸关键点的以下两项图像之一:二值图一通道图像或RGB三通道图像;
人脸语义分割结果的以下两项图像之一:二值图一通道图像或RGB三通道图像;以及
头发的二值图一通道图像。
10.根据权利要求1所述的方法,其中,所述方法还包括:
在向用户呈现所述第二图像预定时间后,同时向用户呈现所述第一图像和所述第二图像。
11.根据权利要求2所述的方法,其中,所述方法还包括:
向用户呈现人脸风格转换选项;
接收用户对转换选项的选择;
向用户呈现转换过程图像;
响应于在后台生成与转换前的第二图像具有不同风格的新的第二图像,向用户呈现新的第二图像。
12.根据权利要求11所述的方法,其中,所述向用户呈现人脸风格转换选项包括:向用户呈现骰子按钮和动态的点击的手的图像;
所述接收用户对转换选项的选择包括:接收用户对骰子按钮的点击;
所述向用户呈现转换过程图像包括:向用户呈现动态的摇骰子图像。
13.根据权利要求11所述的方法,其中,所述向用户呈现新的第二图像包括:以向下擦除特效向用户呈现新的第二图像。
14.根据权利要求11所述的方法,其中,所述方法还包括:
在展示转换选项后预定时间内,未接收到用户对保存选项或所述转换选项的选择操作,返回至所述向用户呈现输入人脸图像的信息。
15.根据权利要求1所述的方法,其中,所述在后台将所述第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像包括:在后台将所述第一图像输入位于云端服务器的预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像;以及
所述方法还包括:响应于在后台将所述第一图像输入位于云端服务器的预先训练的生成式对抗网络时检测到网络异常,向用户呈现提示网络异常、请重试的信息,并在呈现提示网络异常、请重试的信息预设时长后,返回至所述向用户呈现输入人脸图像的信息。
16.根据权利要求1所述的方法,其中,所述方法还包括以下至少一项:
响应于在后台将所述第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像的时间长度超出预置的时间长度,向用户呈现提示生成失败、请重试的信息,并在向用户呈现提示生成失败、请重试的信息的时长满足设定时长时,返回至所述向用户呈现输入人脸图像的信息;
响应于在后台将所述第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像的过程中出现异常,向用户呈现提示生成失败、请重试的信息,并在向用户呈现提示生成失败、请重试的信息的时长满足设定时长时,返回至所述向用户呈现输入人脸图像的信息;
响应于用户切换至其它应用并从其它应用返回,返回至所述向用户呈现输入人脸图像的信息。
17.一种生成人脸图像的装置,包括:
第一图像输入单元,被配置成接收用户输入的包括人脸的第一图像;
第一图像呈现单元,被配置成向用户呈现所述第一图像;
第二图像输出单元,被配置成在后台将所述第一图像输入预先训练的生成式对抗网络,得到生成式对抗网络输出的第二图像;其中,所述生成式对抗网络将基于输入的图像生成的人脸属性信息作为约束;所述第二图像输出单元进一步被配置成:对所述第一图像进行不同程度的高斯模糊,将不同程度的高斯模糊后的第一图像输入预先训练的生成式对抗网络;
第二图像呈现单元,被配置成响应于在后台得到生成式对抗网络输出的第二图像,向用户呈现所述第二图像。
18.根据权利要求17所述的装置,其中,所述第一图像呈现单元进一步被配置成:在向用户呈现所述第一图像预设时间后,在所呈现的所述第一图像上设置蒙层,并在交互场景中显示人脸变换进度提示信息。
19.根据权利要求17所述的装置,其中,所述第二图像输出单元进一步被配置成:
检测所述第一图像的纹理特征参数值是否大于纹理阈值,若是,对所述第一图像进行不同程度的高斯模糊,将不同程度的高斯模糊后的第一图像输入预先训练的生成式对抗网络。
20.根据权利要求17或19所述的装置,其中,所述第二图像输出单元中所采用的所述生成式对抗网络将基于输入的图像生成的人脸属性信息作为约束包括:所述生成式对抗网络将基于输入的图像生成的多通道人脸图像作为输入;其中,所述多通道人脸图像包括输入的图像的RGB三通道图像和输入的图像的以下至少一项图像:
人脸关键点的以下两项图像之一:二值图一通道图像或RGB三通道图像;
人脸语义分割结果的以下两项图像之一:二值图一通道图像或RGB三通道图像;以及
头发的二值图一通道图像。
21.根据权利要求17所述的装置,其中,所述装置还包括:
转换选项呈现单元,被配置成向用户呈现人脸风格转换选项;
用户选择接收单元,被配置成接收用户对转换选项的选择;
过程图像呈现单元,被配置成向用户呈现转换过程图像;
第二图像更新单元,被配置成响应于在后台生成与转换前的第二图像具有不同风格的新的第二图像,向用户呈现新的第二图像。
22.根据权利要求21所述的装置,其中,所述转换选项呈现单元进一步被配置成:向用户呈现骰子按钮和动态的点击的手的图像;
所述用户选择接收单元进一步被配置成:接收用户对骰子按钮的点击;
所述过程图像呈现单元进一步被配置成:向用户呈现动态的摇骰子图像。
23.根据权利要求21所述的装置,其中,所述第二图像更新单元进一步被配置成:以向下擦除特效向用户呈现新的第二图像。
24.根据权利要求21所述的装置,其中,所述装置还包括:
信息呈现返回单元,被配置成在展示转换选项后预定时间内,未接收到用户对保存选项或所述转换选项的选择操作,返回至所述向用户呈现输入人脸图像的信息。
25.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-16中任一所述的方法。
26.一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-16中任一所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010065590.1A CN111260545B (zh) | 2020-01-20 | 2020-01-20 | 生成图像的方法和装置 |
US17/025,255 US11463631B2 (en) | 2020-01-20 | 2020-09-18 | Method and apparatus for generating face image |
JP2020157447A JP7084457B2 (ja) | 2020-01-20 | 2020-09-18 | 画像の生成方法、生成装置、電子機器、コンピュータ可読媒体およびコンピュータプログラム |
KR1020200123809A KR102451198B1 (ko) | 2020-01-20 | 2020-09-24 | 이미지 생성 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010065590.1A CN111260545B (zh) | 2020-01-20 | 2020-01-20 | 生成图像的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111260545A CN111260545A (zh) | 2020-06-09 |
CN111260545B true CN111260545B (zh) | 2023-06-20 |
Family
ID=70948037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010065590.1A Active CN111260545B (zh) | 2020-01-20 | 2020-01-20 | 生成图像的方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11463631B2 (zh) |
JP (1) | JP7084457B2 (zh) |
KR (1) | KR102451198B1 (zh) |
CN (1) | CN111260545B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6693684B2 (ja) * | 2018-03-29 | 2020-05-13 | 三菱電機株式会社 | 異常検査装置および異常検査方法 |
CN111738910A (zh) * | 2020-06-12 | 2020-10-02 | 北京百度网讯科技有限公司 | 一种图像处理方法、装置、电子设备和存储介质 |
CN111833242A (zh) * | 2020-07-17 | 2020-10-27 | 北京字节跳动网络技术有限公司 | 人脸变换方法、装置、电子设备和计算机可读介质 |
CN111915526B (zh) * | 2020-08-05 | 2024-05-31 | 湖北工业大学 | 一种基于亮度注意力机制低照度图像增强算法的摄影方法 |
US11425121B2 (en) * | 2020-12-15 | 2022-08-23 | International Business Machines Corporation | Generating an evaluation-mask for multi-factor authentication |
CN114693694A (zh) * | 2020-12-25 | 2022-07-01 | 日本电气株式会社 | 图像处理的方法、设备和计算机可读存储介质 |
US11651525B2 (en) * | 2020-12-31 | 2023-05-16 | Accenture Global Solutions Limited | Utilizing machine learning models for inserting user-generated content into media content |
CN113762015A (zh) * | 2021-01-05 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种图像处理方法和装置 |
CN113379750A (zh) * | 2021-06-22 | 2021-09-10 | 北京百度网讯科技有限公司 | 语义分割模型的半监督学习方法、相关装置及产品 |
CN113780084B (zh) * | 2021-08-11 | 2024-05-31 | 上海藤核智能科技有限公司 | 基于生成式对抗网络的人脸数据扩增方法、电子设备和存储介质 |
US11908071B2 (en) * | 2021-10-07 | 2024-02-20 | Google Llc | Systems and methods for reconstructing body shape and pose |
CN113870422B (zh) * | 2021-11-30 | 2022-02-08 | 华中科技大学 | 一种点云重建方法、装置、设备及介质 |
CN114387160B (zh) * | 2022-03-23 | 2022-06-24 | 北京大甜绵白糖科技有限公司 | 训练方法、图像的处理方法、装置、电子设备及存储介质 |
CN115439375B (zh) * | 2022-11-02 | 2023-03-24 | 国仪量子(合肥)技术有限公司 | 图像去模糊模型的训练方法和装置以及应用方法和装置 |
CN116137023B (zh) * | 2023-04-20 | 2023-06-20 | 中国民用航空飞行学院 | 基于背景建模和细节增强的低照度图像增强方法 |
CN117057981B (zh) * | 2023-10-10 | 2024-04-26 | 广州方图科技有限公司 | 一种图像处理方法、装置、电子设备及存储介质 |
CN117649695B (zh) * | 2024-01-30 | 2024-04-12 | 深圳市宗匠科技有限公司 | 一种人脸图像生成方法、装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491771A (zh) * | 2017-09-21 | 2017-12-19 | 百度在线网络技术(北京)有限公司 | 人脸检测方法和装置 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5060233B2 (ja) * | 2007-09-25 | 2012-10-31 | 富士フイルム株式会社 | 撮像装置およびその自動撮影方法 |
US8457367B1 (en) * | 2012-06-26 | 2013-06-04 | Google Inc. | Facial recognition |
FR3057403B1 (fr) * | 2016-10-10 | 2019-10-18 | Citel | Composant integrant une varistance thermoprotegee et un eclateur en serie |
CN106951867B (zh) * | 2017-03-22 | 2019-08-23 | 成都擎天树科技有限公司 | 基于卷积神经网络的人脸识别方法、装置、系统及设备 |
KR102370063B1 (ko) * | 2017-03-28 | 2022-03-04 | 삼성전자주식회사 | 얼굴 인증 방법 및 장치 |
US10552977B1 (en) * | 2017-04-18 | 2020-02-04 | Twitter, Inc. | Fast face-morphing using neural networks |
CN107577985B (zh) * | 2017-07-18 | 2019-10-15 | 南京邮电大学 | 基于循环生成对抗网络的人脸头像卡通化的实现方法 |
AU2017101166A4 (en) * | 2017-08-25 | 2017-11-02 | Lai, Haodong MR | A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks |
US10482337B2 (en) | 2017-09-29 | 2019-11-19 | Infineon Technologies Ag | Accelerating convolutional neural network computation throughput |
JP2019148980A (ja) | 2018-02-27 | 2019-09-05 | 株式会社サムスン日本研究所 | 画像変換装置及び画像変換方法 |
CN108537152B (zh) * | 2018-03-27 | 2022-01-25 | 百度在线网络技术(北京)有限公司 | 用于检测活体的方法和装置 |
CN108564127B (zh) * | 2018-04-19 | 2022-02-18 | 腾讯科技(深圳)有限公司 | 图像转换方法、装置、计算机设备及存储介质 |
CN108550176A (zh) * | 2018-04-19 | 2018-09-18 | 咪咕动漫有限公司 | 图像处理方法、设备及存储介质 |
US10607065B2 (en) * | 2018-05-03 | 2020-03-31 | Adobe Inc. | Generation of parameterized avatars |
JP7010774B2 (ja) | 2018-06-26 | 2022-01-26 | トヨタ自動車株式会社 | 中間工程状態推定方法 |
JP7022668B2 (ja) | 2018-09-04 | 2022-02-18 | 藤森工業株式会社 | 粘着剤層付き光学フィルムの製造方法 |
KR102503939B1 (ko) * | 2018-09-28 | 2023-02-28 | 한국전자통신연구원 | 얼굴 이미지 비식별화 장치 및 방법 |
CN109800732B (zh) * | 2019-01-30 | 2021-01-15 | 北京字节跳动网络技术有限公司 | 用于生成漫画头像生成模型的方法和装置 |
CN110070483B (zh) * | 2019-03-26 | 2023-10-20 | 中山大学 | 一种基于生成式对抗网络的人像卡通化方法 |
US20210019541A1 (en) * | 2019-07-18 | 2021-01-21 | Qualcomm Incorporated | Technologies for transferring visual attributes to images |
CN110503601A (zh) * | 2019-08-28 | 2019-11-26 | 上海交通大学 | 基于对抗网络的人脸生成图片替换方法及系统 |
CN110648294B (zh) * | 2019-09-19 | 2022-08-30 | 北京百度网讯科技有限公司 | 图像修复方法、装置及电子设备 |
CN110706303B (zh) | 2019-10-15 | 2021-05-11 | 西南交通大学 | 基于GANs的人脸图像生成方法 |
US11385526B2 (en) * | 2019-11-15 | 2022-07-12 | Samsung Electronics Co., Ltd. | Method of processing image based on artificial intelligence and image processing device performing the same |
-
2020
- 2020-01-20 CN CN202010065590.1A patent/CN111260545B/zh active Active
- 2020-09-18 JP JP2020157447A patent/JP7084457B2/ja active Active
- 2020-09-18 US US17/025,255 patent/US11463631B2/en active Active
- 2020-09-24 KR KR1020200123809A patent/KR102451198B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491771A (zh) * | 2017-09-21 | 2017-12-19 | 百度在线网络技术(北京)有限公司 | 人脸检测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US11463631B2 (en) | 2022-10-04 |
KR20210094451A (ko) | 2021-07-29 |
KR102451198B1 (ko) | 2022-10-05 |
JP7084457B2 (ja) | 2022-06-14 |
US20210227152A1 (en) | 2021-07-22 |
CN111260545A (zh) | 2020-06-09 |
JP2021114279A (ja) | 2021-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111260545B (zh) | 生成图像的方法和装置 | |
US10665030B1 (en) | Visualizing natural language through 3D scenes in augmented reality | |
CN111275784B (zh) | 生成图像的方法和装置 | |
CN114155543B (zh) | 神经网络训练方法、文档图像理解方法、装置和设备 | |
US11775254B2 (en) | Analyzing graphical user interfaces to facilitate automatic interaction | |
JP2020528705A (ja) | 認知的洞察を使用したビデオ・シーンの移動 | |
US10705892B2 (en) | Automatically generating conversational services from a computing application | |
CN110447232A (zh) | 用于确定用户情绪的电子设备及其控制方法 | |
CN110516096A (zh) | 合成感知数字图像搜索 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN109345637B (zh) | 基于增强现实的互动方法及装置 | |
US20230072759A1 (en) | Method and apparatus for obtaining virtual image, computer device, computer-readable storage medium, and computer program product | |
US11954536B2 (en) | Data engine | |
US20200118315A1 (en) | Image editor for merging images with generative adversarial networks | |
CN113727039B (zh) | 视频生成方法、装置、电子设备及存储介质 | |
US10957017B1 (en) | Synthetic image detector | |
CN115909170A (zh) | 深度视频理解方法、装置、设备及可读存储介质 | |
CN113761281B (zh) | 虚拟资源处理方法、装置、介质及电子设备 | |
US10126821B2 (en) | Information processing method and information processing device | |
KR102503854B1 (ko) | 영상 처리 방법 및 장치 | |
US20240171534A1 (en) | Multimedia messaging apparatuses and methods for sending multimedia messages | |
CN118152609A (zh) | 图像生成方法、装置、计算机设备 | |
CN116052142A (zh) | 信息识别方法及装置 | |
CN116774876A (zh) | 页面显示方法、装置、计算机设备和存储介质 | |
KR20230160105A (ko) | 캐릭터ip를 활용한 실시간 화상채팅 랜더링 기술 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |