CN116959480A - 图像的生成、模型训练方法、装置、电子设备及存储介质 - Google Patents
图像的生成、模型训练方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116959480A CN116959480A CN202310417012.3A CN202310417012A CN116959480A CN 116959480 A CN116959480 A CN 116959480A CN 202310417012 A CN202310417012 A CN 202310417012A CN 116959480 A CN116959480 A CN 116959480A
- Authority
- CN
- China
- Prior art keywords
- image
- sub
- target
- generation model
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 156
- 238000012549 training Methods 0.000 title claims abstract description 120
- 238000003860 storage Methods 0.000 title claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 110
- 238000009877 rendering Methods 0.000 claims abstract description 67
- 239000002131 composite material Substances 0.000 claims abstract description 64
- 238000005520 cutting process Methods 0.000 claims abstract description 6
- 238000005516 engineering process Methods 0.000 claims description 45
- 238000010586 diagram Methods 0.000 claims description 27
- 238000001514 detection method Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 19
- 230000014509 gene expression Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 12
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 210000000214 mouth Anatomy 0.000 abstract description 114
- 230000036548 skin texture Effects 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 44
- 230000000694 effects Effects 0.000 description 20
- 230000008569 process Effects 0.000 description 20
- 238000013473 artificial intelligence Methods 0.000 description 15
- 241000282414 Homo sapiens Species 0.000 description 14
- 238000005457 optimization Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 11
- 230000009471 action Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 7
- 239000000463 material Substances 0.000 description 7
- 230000003993 interaction Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000008447 perception Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 230000008485 antagonism Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000011960 computer-aided design Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43072—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44016—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/47205—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请公开了一种图像的生成、模型训练方法、装置、电子设备及存储介质。获取目标对象的第一原始图像和用于驱动目标对象动作的目标音频数据,基于目标音频数据,得到目标对象对应的第一渲染图像。从第一渲染图像中裁剪出包括嘴部区域的图像内容的第一子图,将第一子图覆盖拼接到第一原始图像中,得到第一合成图像,通过图像生成模型对第一合成图像进行优化,得到目标图像。在第一合成图像中,第一原始图像的部分能够提供真实且丰富的图像细节,图像生成模型可以基于这些细节信息,优化第一子图中的口腔和皮肤纹理,从而使得目标图像中嘴部区域的图像内容更为准确,可有效提高生成图像的质量。本申请的技术方案可广泛应用于图像处理技术领域。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及一种图像的生成、模型训练方法、装置、电子设备及存储介质。
背景技术
当前,随着人工智能的普及和高速发展,相关应用已经逐步融入到人们的生活中,为人们提供了各式各样的服务。例如,数字人(虚拟人)服务可以采用计算机视觉或计算机图形学的技术手段,生成人物图像,使用者可以设定需要输出的音频数据,通过算法驱动数字人的面部,进行表情以及口型的动作变化,从而呈现出数字人说话的效果。
相关技术中,基于音频数据驱动数字人的面部动作,通常采用的方式是对数字人的嘴部区域进行遮盖,提取音频数据的音频特征来生成目标口型的图像,应用到数字人的面部得到完整的图像内容。但是,这种方式由音频数据直接得出嘴部区域的图像,一方面可能导致嘴部区域和整体的图像不协调,另一方面,受到音频数据特征表征能力的影响,可能存在生成的口型和音频数据关联性较差的问题,容易出现音画不同步的现象。
综上,相关技术中存在的技术问题有待得到改善。
发明内容
本申请实施例提供了一种图像的生成、模型训练方法、装置、电子设备及存储介质,能够使图像中嘴部区域的图像内容更为协调、准确,可有效提高生成图像的质量。
一方面,本申请实施例提供了一种图像的生成方法,所述方法包括:
获取目标对象的第一原始图像和用于驱动所述目标对象动作的目标音频数据;
根据所述目标音频数据,确定所述目标对象对应的第一渲染图像;
从所述第一渲染图像中裁剪得到第一子图,并将所述第一子图拼接到所述第一原始图像中,得到第一合成图像;其中,所述第一子图包括所述目标对象的嘴部区域的图像内容;
将所述第一合成图像输入到图像生成模型中,通过所述图像生成模型对所述第一合成图像进行处理,得到目标图像。
另一方面,本申请实施例还提供了一种图像生成模型的训练方法,所述方法包括:
获取样本对象的第二原始图像和所述样本对象对应的第二渲染图像;其中,所述第二原始图像为所述样本对象在输出第二音频数据时的真实图像,所述第二渲染图像为根据所述第二音频数据得到的样本对象对应的渲染图像;
从所述第二渲染图像中裁剪得到第四子图,并将所述第四子图拼接到所述第二原始图像中,得到第二合成图像;其中,所述第四子图包括所述样本对象的嘴部区域的图像内容;
将所述第二合成图像输入到图像生成模型中,通过所述图像生成模型对所述第二合成图像进行处理,得到预测图像;
根据所述第二原始图像和所述预测图像,确定训练的第一损失值;
根据所述第一损失值,对所述图像生成模型的参数进行更新,得到训练好的图像生成模型。
另一方面,本申请实施例还提供了一种图像的生成装置,包括:
第一获取模块,用于获取目标对象的第一原始图像和用于驱动所述目标对象动作的目标音频数据;
渲染模块,用于根据所述目标音频数据,确定所述目标对象对应的第一渲染图像;
第一合成模块,用于从所述第一渲染图像中裁剪得到第一子图,并将所述第一子图拼接到所述第一原始图像中,得到第一合成图像;其中,所述第一子图包括所述目标对象的嘴部区域的图像内容;
第一处理模块,用于将所述第一合成图像输入到图像生成模型中,通过所述图像生成模型对所述第一合成图像进行处理,得到目标图像。
进一步,上述的第一获取模块具体用于:
获取第一对象的第一音频数据,将所述第一音频数据确定为目标音频数据;
或者,获取第一对象输入的文本信息,根据所述文本信息生成目标音频数据。
进一步,上述的渲染模块具体用于:
提取所述目标音频数据的音素信息;
根据所述音素信息,确定所述目标对象对应的表情参数;
根据所述表情参数,通过渲染组件对所述目标对象对应的模型进行渲染,根据渲染后的模型得到第一渲染图像。
进一步,上述的第一合成模块具体用于:
通过关键点检测技术,确定所述第一渲染图像和所述第一原始图像中的目标区域;其中,所述目标区域包括所述目标对象的嘴部区域;
对所述第一渲染图像的目标区域进行裁剪,得到所述第一子图;
将所述第一子图覆盖到所述第一原始图像的目标区域中,得到第一合成图像。
进一步,上述的第一合成模块具体用于:
对所述第一子图进行膨胀操作,以在所述第一子图的至少部分边缘处生成扩张像素带,得到第二子图;其中,所述扩张像素带中的各个像素点的像素值相同,且所述扩张像素带中的各个像素点和所述目标对象的皮肤像素点的像素值不同;将所述第二子图拼接到所述第一原始图像中,得到第一合成图像;
或者,对所述第一子图进行插值操作,得到第三子图;将所述第三子图拼接到所述第一原始图像中,得到第一合成图像。
进一步,上述的第一处理模块具体用于:
对所述第一合成图像进行卷积处理和下采样处理,得到所述第一合成图像对应的第一特征图;
对所述第一特征图进行上采样处理和卷积处理,得到所述第一合成图像对应的第二特征图;
根据所述第二特征图,得到目标图像。
进一步,上述的第一处理模块具体用于:
对所述第一特征图进行卷积处理和自注意力处理,得到第三特征图;
对所述第三特征图进行上采样处理和卷积处理,得到所述第二特征图。
另一方面,本申请实施例还提供了一种图像生成模型的训练装置,包括:
第二获取模块,用于获取样本对象的第二原始图像和所述样本对象对应的第二渲染图像;其中,所述第二原始图像为所述样本对象在输出第二音频数据时的真实图像,所述第二渲染图像为根据所述第二音频数据得到的渲染图像;
第二合成模块,用于从所述第二渲染图像中裁剪得到第四子图,并将所述第四子图拼接到所述第二原始图像中,得到第二合成图像;其中,所述第四子图包括所述样本对象的嘴部区域的图像内容;
第二处理模块,用于将所述二合成图像输入到图像生成模型中,通过所述图像生成模型对所述第二合成图像进行处理,得到预测图像;
计算模块,用于根据所述第二原始图像和所述预测图像,确定训练的第一损失值;
更新模块,用于根据所述第一损失值,对所述图像生成模型的参数进行更新,得到训练好的图像生成模型。
进一步,上述的图像生成模型的训练装置还包括第二计算模块,所述第二计算模块具体用于:
获取所述第二原始图像的区域标签;其中,所述区域标签用于标识所述第二原始图像中的关键区域,所述关键区域包括所述样本对象的嘴部区域;
所述根据所述第二原始图像和所述预测图像,确定训练的第一损失值,包括:
根据所述第二原始图像和所述预测图像中对应位置的像素点的像素值,确定第二损失值;
根据所述第二原始图像的关键区域和所述预测图像中对应位置的像素点的像素值,确定第三损失值;
根据所述第二损失值和所述第三损失值,确定训练的第一损失值。
进一步,所述图像生成模型包括生成网络和对抗网络,上述的计算模块和更新模块具体用于:
通过所述对抗网络对所述第二原始图像和所述预测图像进行鉴别,得到鉴别结果;
检测当前所述图像生成模型所处的训练阶段;
当所述图像生成模型处于所述对抗网络的训练阶段时,根据所述鉴别结果和真实结果的偏离度,确定所述第一损失值,并通过所述第一损失值对所述对抗网络的参数进行更新;或者,当所述图像生成模型处于所述生成网络的训练阶段时,根据所述鉴别结果和所述真实结果的吻合度,确定所述第一损失值,并通过所述第一损失值对所述生成网络的参数进行更新。
进一步,上述的图像生成模型的训练装置还包括第三获取模块,所述第三获取模块具体用于:
获取所述第二原始图像的区域标签;其中,所述区域标签用于标识所述第二原始图像中的关键区域,所述关键区域包括所述样本对象的嘴部区域;
上述的计算模块和更新模块具体用于:
通过所述对抗网络对所述第二原始图像和所述预测图像进行鉴别,得到鉴别结果,包括:
将所述第二原始图像和所述预测图像输入到所述对抗网络进行鉴别,得到第一鉴别结果;
或者,根据所述区域标签,从所述第二原始图像中裁剪得到第五子图,以及从所述预测图像中裁剪得到第六子图;将所述第五子图和所述第六子图输入到所述对抗网络进行鉴别,得到第二鉴别结果。
另一方面,本申请实施例还提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的图像的生成方法或者实现上述的图像生成模型的训练方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现上述的图像的生成方法或者实现上述的图像生成模型的训练方法。
另一方面,本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行实现上述的图像的生成方法或者实现上述的图像生成模型的训练方法。
本申请实施例至少包括以下有益效果:本申请提供一种图像的生成、模型训练方法、装置、电子设备及存储介质,其中,该图像的生成方法获取目标对象的第一原始图像和用于驱动目标对象动作的目标音频数据,基于目标音频数据,得到目标对象对应的第一渲染图像。第一渲染图像为整体的渲染图,嘴部区域的图像内容和图像整体的协调性较好,而且,基于目标音频数据生成的第一渲染图像,其嘴部区域的口型和音频数据关联性更强,能够减少音画不同步的现象。然后,从第一渲染图像中裁剪出包括嘴部区域的图像内容的第一子图,将第一子图覆盖拼接到第一原始图像中,得到第一合成图像,接着,通过图像生成模型对第一合成图像进行优化,得到目标图像。在第一合成图像中,第一原始图像的部分能够提供真实且丰富的图像细节,图像生成模型可以基于这些细节信息,优化第一子图中的口腔和皮肤纹理,改善第一子图存在的细节缺失、真实性较差的问题,从而使得目标图像中嘴部区域的图像内容更为准确,可有效提高生成图像的质量。该图像生成模型的训练方法能够训练出用于优化合成图像的图像生成模型,以使得图像生成模型输出的图像结果更真实。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例提供的一种图像的生成方法的实施环境示意图;
图2为本申请实施例提供的一种图像的生成方法的流程示意图;
图3为本申请实施例提供的一种目标对象的第一原始图像的示意图;
图4为本申请实施例提供的一种目标对象对应的第一渲染图像的示意图;
图5为本申请实施例提供的一种根据第一渲染图像和第一原始图像得到第一合成图像的示意图;
图6为本申请实施例提供的一种使用图像生成模型对第一合成图像进行优化处理的示意图;
图7为本申请实施例提供的一种通过关键点检测技术确定目标区域的示意图;
图8为本申请实施例提供的一种对第一子图中的部分边缘进行膨胀处理的示意图;
图9为相关技术中的一种UNet模型的结构示意图;
图10为本申请实施例提供的一种图像生成模型的结构示意图;
图11为本申请实施例提供的一种图像生成模型的训练方法的流程示意图;
图12为本申请实施例提供的一种训练数据示意图;
图13为本申请实施例提供的一种图像的生成方法的具体实现流程示意图;
图14为本申请实施例提供的一种图像的生成装置的结构示意图;
图15为本申请实施例提供的一种图像生成模型的训练装置的结构示意图;
图16为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在对本申请实施例进行详细说明之前,首先对本申请实施例中涉及的部分名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)数字人(Digital Human/Meta Human),也叫虚拟人,是运用数字技术创造出来的、与人类形象接近的数字化人物形象。数字人的本体存在于电子设备中,通过显示设备呈现出来,让人类能通过眼睛看见。它具备人类的外观和行为模式,数字人具有人类身体的外观形体结构,表现出来的行为模式是与人类相仿的,数字人的影像通常是呈现出某种人类的活动。
2)CG,Computer Graphics的英文缩写,是通过计算机软件所绘制的一切图形的总称,随着以计算机为主要工具进行视觉设计和生产的一系列相关产业的形成,国际上习惯将利用计算机技术进行视觉设计和生产的领域通称为CG。它既包括技术也包括艺术,几乎囊括了当今电脑时代中所有的视觉艺术创作活动,如平面印刷品的设计、网页设计、三维动画、影视特效、多媒体技术、以计算机辅助设计为主的建筑设计及工业造型设计等。
3)3DMM(3D Morphable Models),三维可变形人脸模型,是一个通用的三维人脸模型,用固定的点数来表示人脸。它的核心思想就是人脸可以在三维空间中进行一一匹配,并且可以由其他许多幅人脸正交基加权线性相加而来。
4)人工智能(Artificial Intelligence,AI),是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
5)机器学习(Machine Learning,ML),是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,机器学习(深度学习)通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
6)区块链(Blockchain),是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。区块链可以包括公有链、联盟链以及私有链,其中,公有链是指任何人均可以随时进入到区块链网络中读取数据、发送数据或竞争记账的区块链;联盟链是指若干组织或机构共同参与管理的区块链;私有链是指存在一定的中心化控制的区块链,私有链的账本的写入权由某个组织或机构控制,数据的访问和使用有严格的权限管理。
7)对抗生成网络(GAN,Generative Adversarial Networks),也叫生成式对抗网络。是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块:生成网络(Generative Model)和判别网络(DiscriminativeModel)的互相博弈学习产生相当好的输出。
本申请实施例中所提供的图像的生成方法、图像生成模型的训练方法,主要涉及人工智能领域内的图像及视频处理应用。具体地,本申请实施例中提供的图像的生成方法、图像生成模型的训练方法,可以采用图像处理技术、机器学习/深度学习技术处理相关的数据。该图像的生成方法、图像生成模型的训练方法可以在各类应用场景中被执行,以图像的生成方法为例:
例如,在影视作品的应用场景中,可能会出现部分特技镜头依靠真实的演员无法完成的情况。此时,可以事先在其他环境下对演员进行拍摄,得到一组视频材料。然后,从视频材料中选择符合剧本所需的表情和动作,通过转换生成数字成像的人物模型,再通过CG渲染出虚拟的演员形象,即可构建得到数字人。针对特技镜头的拍摄部分,可以由替身演员完成。在替身演员进行肢体动作的拍摄后,可以通过CG技术对得到的图像进行脸部替代,从而得到数字人执行某些特技动作的图像(视频)数据。对于声音部分,可以通过本申请实施例中提供的图像的生成方法对数字人的图像数据进行处理,优化其面部显示的内容,得到音画同步的视频内容,完成影片的制作。
例如,在虚拟现实的应用场景中,可以提供给参与者搭建数字人的功能。每个人都可以拥有自己对应的数字人,共同打造一个元宇宙。在虚拟宇宙里,可以进行各种沉浸式体验,例如观赏虚拟偶像的音乐会、体验身临其境的游戏内容等等活动。其中,个人驱动的数字人,可以通过本申请实施例中的方法生成其对应的图像(视频)数据,显示在各个交互场景中。
例如,在公共服务的应用场景中,以虚拟讲解员为代表的数字人应用存在广阔的前景,比如说在景区中,可以配置基于数字人技术实现的虚拟导游,为游客提供个性化的游览路线推荐、景点文物讲解等服务。再比如说,可以基于数字人技术搭建虚拟主播、虚拟客服,配置在各类服务型问答场所中,将人们从枯燥的工作中解脱出来。这些场景下的数字人,也可以基于本申请实施例中提供的图像生成方法生成其对应的图像(视频)数据供浏览获取资讯。
当然,需要说明的是,以上的应用场景仅起到示例性的作用,并不意味着对本申请实施例中图像的生成方法的实际应用形成限制。本领域技术人员可以理解,在不同应用场景中,都可以利用本申请实施例中提供的图像的生成方法、图像生成模型的训练方法执行指定的任务。
当前,随着人工智能的普及和高速发展,相关应用已经逐步融入到人们的生活中,为人们提供了各式各样的服务。例如,数字人(虚拟人)服务可以采用计算机视觉或计算机图形学的技术手段,生成人物图像,使用者可以设定需要输出的音频数据,通过算法驱动数字人的面部,进行表情以及口型的动作变化,从而呈现出数字人说话的效果。
相关技术中,基于音频数据驱动数字人的面部动作,通常采用的方式是对数字人的嘴部区域进行遮盖,提取音频数据的音频特征来生成目标口型的图像,应用到数字人的面部得到完整的图像内容。但是,这种方式由音频数据直接得出嘴部区域的图像,一方面可能导致嘴部区域和整体的图像不协调,另一方面,受到音频数据特征表征能力的影响,可能存在生成的口型和音频数据关联性较差的问题,容易出现音画不同步的现象。
有鉴于此,本申请实施例中,提供一种图像的生成、模型训练方法、装置、电子设备及存储介质,其中,该图像的生成方法获取目标对象的第一原始图像和用于驱动目标对象动作的目标音频数据,基于目标音频数据,得到目标对象对应的第一渲染图像。第一渲染图像为整体的渲染图,嘴部区域的图像内容和图像整体的协调性较好,而且,基于目标音频数据生成的第一渲染图像,其嘴部区域的口型和音频数据关联性更强,能够减少音画不同步的现象。然后,从第一渲染图像中裁剪出包括嘴部区域的图像内容的第一子图,将第一子图覆盖拼接到第一原始图像中,得到第一合成图像,接着,通过图像生成模型对第一合成图像进行优化,得到目标图像。在第一合成图像中,第一原始图像的部分能够提供真实且丰富的图像细节,图像生成模型可以基于这些细节信息,优化第一子图中的口腔和皮肤纹理,改善第一子图存在的细节缺失、真实性较差的问题,从而使得目标图像中嘴部区域的图像内容更为准确,可有效提高生成图像的质量。该图像生成模型的训练方法能够训练出用于优化合成图像的图像生成模型,以使得图像生成模型输出的图像结果更真实。
下面结合附图,对本申请实施例的具体实施方式进行详细说明。
参照图1,图1示出了本申请实施例中提供的一种图像的生成方法的实施环境示意图。在该实施环境中,主要涉及的软硬件主体包括终端设备110、后台服务器120。
具体地,终端设备110中,可以安装有相关的图像处理应用程序,后台服务器120为该图像处理应用程序的后台服务器。终端设备110、后台服务器120之间通信连接。本申请实施例中提供的图像的生成方法,可以单独在终端设备110侧或者单独在后台服务器120侧执行,也可以通过终端设备110和后台服务器120之间的数据交互来执行。
例如,在一些实施例中,该图像的生成方法可以单独在终端设备110侧执行。比如说,终端设备110可以获取目标对象的第一原始图像以及用于驱动目标对象动作的目标音频数据,基于该目标音频数据,可以确定目标对象对应的第一渲染图像。然后对第一渲染图像进行裁剪得到第一子图,并对第一原始图像和第一子图进行拼接,得到第一合成图像。最后,利用图像生成模型,对第一合成图像进行优化,即可得到目标图像。其中,基于目标音频数据生成目标对象对应的第一渲染图像的功能,以及采用图像生成模型对第一合成图像进行优化的功能,可以由终端设备110侧的图像处理应用程序实现,也可以由终端设备110侧的其他的应用程序实现。换句话说,本申请实施例中,在终端设备110侧实现该图像的生成方法时,既可以是由一个应用程序实现的,也可以是由多个应用程序协同处理实现的,本申请对此不作限制。
本申请实施例中的图像的生成方法,单独在后台服务器120侧执行的流程和单独在终端设备110侧执行的流程类似,在此不作赘述。
在一些实施例中,该图像的生成方法可以基于终端设备110和后台服务器120之间的交互来执行。比如说,在后台服务器120处,可以预先建立起目标对象的三维模型,并且可以获取目标对象的一些第一原始图像,终端设备110可以获取用于驱动目标对象动作的目标音频数据,然后将目标音频数据发生到后台服务器120。后台服务器120接收到目标音频数据后,基于该目标音频数据,可以确定目标对象对应的第一渲染图像。接着,后台服务器120可以对第一渲染图像进行裁剪得到第一子图,并对第一原始图像和第一子图进行拼接,得到第一合成图像。最后,后台服务器120利用图像生成模型,对第一合成图像进行优化,即可得到目标图像,并且可以将目标图像传回到终端设备110。可以理解的是,在该实施例中,大部分数据处理的流程在后台服务器120侧执行,终端设备110只需提供简单的数据交互和图像展示服务即可,能够有效减轻终端设备110侧的数据处理压力,有利于降低方法实现的硬件成本。
其中,以上实施例的终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表以及车载终端等,但并不局限于此。
后台服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
另外,后台服务器120还可以是区块链网络中的一个节点服务器。
终端设备110和后台服务器120之间可以通过无线网络或有线网络建立通信连接。该无线网络或有线网络使用标准通信技术和/或协议,网络可以设置为因特网,也可以是其它任何网络,例如包括但不限于局域网(Local Area Network,LAN)、城域网(MetropolitanArea Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。并且,上述的这些软硬件主体之间,既可以采用相同的通信连接方式,也可以采用不同的通信连接方式,本申请对此不作具体限制。
当然,可以理解的是,图1中的实施环境只是本申请实施例中提供的图像的生成方法一些可选的应用场景,实际的应用并不固定为图1所示出的软硬件环境。本申请实施例提供的方法可应用于各种技术领域,例如购物、游戏、社交、云技术、人工智能、智慧交通、辅助驾驶等领域,本申请对此不作具体限制。
并且,需要补充说明的是,在本申请的各个具体实施方式中,当涉及到需要根据对象的信息、对象的行为数据、对象的历史数据以及对象的位置信息等与对象身份或特性相关的数据进行相关处理时,都会先获得对象的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关国家和地区的相关法律法规和标准。此外,当本申请实施例需要获取对象的敏感信息时,会通过弹窗或者跳转到确认页面等方式获得对象的单独许可或者单独同意,在明确获得对象的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的对象相关数据。
参照图2,图2为本申请实施例提供的一种图像的生成方法的流程示意图,该图像的生成方法可以由终端设备单独执行,也可以由终端设备与后台服务器配合执行,该图像的生成方法包括但不限于以下步骤210至步骤240。
步骤210、获取目标对象的第一原始图像和用于驱动目标对象动作的目标音频数据;
本步骤中,目标对象指的是数字人,即需要通过音频数据驱动的对象。本申请实施例中,在对目标对象进行驱动时,需要获取其原始图像,记为第一原始图像。此处,第一原始图像指的是已有的目标对象的图像素材,为了使得最终生成的目标图像质量更好,第一原始图像中涉及人物部分的图像内容应当具备较高的真实性,即需要和真实人物的图像尽可能接近。
可以理解的是,一般来说,数字人可以是基于真实的人物建模得到的,因此,在一些实施例中,可以获取目标对象建模时参考的人物所对应的真实图像,作为目标对象的第一原始图像。当然,在另一些实施例中,目标对象也可以是完全虚拟的,即在现实中不存在与之对应的真实人物。此时,可以采集对目标对象进行建模时所设计使用的部分2D人物面部图像,由人工挑选出一些精度、真实度较高的图像素材作为第一原始图像。
需要说明的是,本申请实施例中,获取的第一原始图像,应当至少包括目标对象的脸部区域的图像内容。在一些实施例中,可以是获取目标对象脖子至头顶部分的正面图像作为第一原始图像,在另一些实施例中,也可以将目标对象的全身像或者上半身像作为第一原始图像,本申请对此不作限制。具体地,参照图3,图3示出了一种目标对象的第一原始图像的示意图,在图3中,目标对象的表情内容整体比较协调,且纹理细节相对来说更为丰富,具体较好的真实性,能够提供真实且丰富的图像细节信息。
本步骤中,除了获取第一原始图像外,还获取用于驱动目标对象动作的音频数据,记为目标音频数据。此处,目标音频数据主要用于设定目标对象需要输出的音频内容,本申请实施例中,图像的生成方法所要生成的目标图像,即为目标对象在输出目标音频数据时,所对应的图像内容。可以理解的是,人物在说话时,主要产生动作的区域为嘴部区域,因此,目标音频数据能够在一定程度上限定目标对象的嘴部动作,也即目标对象的嘴部动作通过目标音频数据来驱动。
当然,需要说明的是,目标音频数据影响的可能不仅仅包括目标对象的嘴部动作,在一些实施例中,目标音频数据可能对目标对象的脸部区域的图像内容均有一定影响,故而本申请实施例中,并不限定目标音频数据驱动目标对象动作的区域范围,其除了可以包括目标对象的嘴部区域外,还可以包括脸部的其他区域。本申请实施例中,重点关注如何生成目标对象在说出目标音频数据时嘴部区域对应的图像内容,使得生成的目标图像的图像内容更为真实可靠,提高目标音频数据和嘴部口型的一致性,减少出现音画不同步的现象。
本申请实施例中,对于获取的目标音频数据的内容和长短不作限制,例如其可以是至少一个单词,或者可以是一段话语。特别地,当目标音频数据为一段话语时,对该话语中各个单词之间的停顿时长不做限定。并且,本申请实施例中,对目标音频数据所对应语音的音色、强度和噪声条件,以及目标音频数据所对应语言的语种同样不作限制。
需要说明的是,本申请实施例中,对目标音频数据的获取途径不作限制。例如,在一些实施例中,目标对象可以是由其他对象驱动的,将此处的其他对象记为第一对象,第一对象可以是真实的人物。这种情况下,可以从第一对象处获取目标音频数据,比如说可以通过相关的音频采集设备从第一对象处采集得到目标音频数据。在另一些实施例中,目标对象可以是由计算机设备驱动的,比如说计算机设备可以自动生成需要目标对象播报的目标音频数据。这种情况下,目标音频数据可以通过计算机端口或者网络通讯传输的方式来获取。
步骤220、根据目标音频数据,确定目标对象对应的第一渲染图像;
本步骤中,基于获取的目标音频数据,可以确定出目标对象对应的渲染图像,本申请实施例中,将其记为第一渲染图像。此处,第一渲染图像指的是对目标对象对应的模型进行渲染后,基于渲染的模型提取得到的图像数据。可以理解的是,在构建数字人对应的模型时,可以是二维模型,也可以是三维模型,比如说可以是3DMM模型。而本申请实施例中,主要用到的图像均为2D图像,因此,在目标对象对应的模型为二维模型时,对目标对象对应的模型进行渲染后,可直接获取得到第一渲染图像;当目标对象对应的模型为三维模型时,对目标对象对应的模型进行渲染后,可以提取该模型正面的人物图像作为第一渲染图像。
本步骤中,根据目标音频数据,对目标对象对应的模型进行渲染,其具体的实现方式可以存在多种,本申请对此不作限制。例如,在一些实施例中,可以通过相应的音频驱动组件,输入目标音频数据,将目标音频数据转换为驱动数字人面部各个位置点的权重系数,通过对应关系得到具体的数值,基于这些数值实现数字人面部的建模,从而得到目标对象对应的模型。比如说,该音频驱动组件可以选择Unity或者FACEGOOD组件等,数字人建模所选用的模型可以是blendshape模型,本申请对此不作限制。
参照图4,图4示出了本申请实施例中得到的一种目标对象对应的第一渲染图像。一般来说,在对模型进行渲染时,多采用确定脸部各个位置点对应的位置后,通过蒙皮技术实现表情渲染的方式。这种方式对确定目标对象的口型较为可靠,即得到的第一渲染图像中,人物的口型基本和目标音频数据是对应的。但是,由于建模时一般选取的位置点分布在嘴部区域的四周,难以对口腔内的位置点进行建模,因此,模型渲染后,只能得到嘴部区域的口型,无法渲染出口腔内部的内容。故而,参照图4,基于渲染的模型提取得到的第一渲染图像,在整体的面部上协调性较好,嘴部区域的图像内容和图像整体的融合度较高,且嘴部区域的口型和目标音频数据关联性更强,能够减少音画不同步的现象。但是,第一渲染图像在嘴部区域内部缺少关键的真实纹理信息,例如口腔的图像内容、皮肤细节纹理等。因此,本申请实施例中,得到的第一渲染图像并不能作为目标图像,需要对其进行进一步优化,以补充其缺失的嘴部区域的图像内容,提高生成图像的质量。
类似地,本申请实施例中,基于目标音频数据确定的第一渲染图像,应当至少包括目标对象的脸部区域的图像内容。在一些实施例中,第一渲染图像可以包括目标对象脖子至头顶部分的正面图像,在另一些实施例中,第一渲染图像也可以包括目标对象的全身像或者上半身像,本申请对此不作限制。
步骤230、从第一渲染图像中裁剪得到第一子图,并将第一子图拼接到第一原始图像中,得到第一合成图像;其中,第一子图包括目标对象的嘴部区域的图像内容;
本步骤中,在对第一渲染图像进行优化处理时,可以从其中裁剪得到一个子图,本申请实施例中,将其记为第一子图。此处的第一子图,应当至少包括目标对象的嘴部区域的图像内容,在裁剪得到第一子图后,可以将第一子图拼接到第一原始图像中,将拼接后的第一子图和第一原始图像记为第一合成图像。
具体地,本申请实施例中,对第一渲染图像进行裁剪得到第一子图,并拼接第一子图和第一原始图像得到第一合成图像的目的是为了构造合适的待处理图像。此处,可以理解的是,对于第一合成图像来说,其第一子图的部分包括有目标对象的嘴部区域的图像内容,因而其口型和目标音频数据关联性更强,能够减少音画不同步的现象。但是,第一子图中,嘴部区域内部缺少包含真实纹理信息的图像细节,需要对其进行优化处理。第一合成图像中还包括有第一原始图像的内容,第一原始图像中的图像内容具备较高的真实性,能够提供真实且丰富的图像细节,因而可以帮助优化第一子图中嘴部区域的图像内容。
参照图5,图5示出了一种根据第一渲染图像和第一原始图像得到第一合成图像的示意图。具体地,参照图5,本申请实施例中,在从第一渲染图像510内裁剪第一子图520时,由于限定了第一子图520中需要包括目标对象的嘴部区域的图像内容,因此,在一些实施例中,可以直接截取第一渲染图像510中的人物面部的下半区域的图像内容作为第一子图520。例如,在图5中,截取了第一渲染子图510内从鼻子中部以下到脖子区域的图像内容作为第一子图520。当然,可以理解的是,本申请实施例中,对具体裁剪的第一子图520所包含的其他内容不作限定,并且,对第一子图520的形状和大小同样不作限定。比如说,在另一些实施例中,也可以只裁剪出目标对象的嘴部区域的图像内容作为第一子图520;或者说,可以从第一渲染图像510中目标对象的眼部区域向下,将到下巴区域为止的图像内容作为第一子图520。
在得到第一子图520后,可以对第一子图520和第一原始图像530进行拼接,参照图5,所谓拼接,即将第一子图520覆盖到第一原始图像530中对应的位置,以第一子图520取代第一原始图像530中原来的图像内容。可以理解的是,第一原始图像530为已有的目标对象的图像素材,其真实性较好,但是和目标音频数据可能存在口型不对应的问题。本申请实施例中,以第一子图520取代第一原始图像530中对应位置的图像内容,可以覆盖掉第一原始图像530中嘴部区域的图像内容,从而使得得到的第一合成图像540中,嘴部区域的图像内容口型和目标音频数据尽可能保持一致,减少音画不同步的现象。
需要说明的是,本申请实施例中,对于第一渲染图像和第一原始图像,为了方便第一子图的拼接合成,可以事先对两者的图像大小进行归一化处理,即将二者调整为统一或者接近的大小。当然,由于第一渲染图像和第一原始图像所包含的图像内容可能存在差异,因此,在对二者进行归一化处理时,可以首先确定出第一渲染图像和第一原始图像中人物面部所对应的图像大小,然后基于人物面部的图像大小对二者进行归一化处理,方便使得第一子图可以和第一原始图像较好地实现拼接。
步骤240、将第一合成图像输入到图像生成模型中,通过图像生成模型对第一合成图像进行处理,得到目标图像。
本步骤中,在得到第一合成图像后,如前所述的,第一合成图像中嘴部区域内部缺少包含真实纹理信息的图像细节,需要对其进行优化处理,而且,在对第一子图和第一原始图像进行拼接时,可能二者拼接处也会存在缝隙或者不完全贴合的情况。因此,需要对第一合成图像进行进一步的调整。参照图6,本申请实施例中,可以使用图像生成模型对第一合成图像进行优化处理,从而得到目标图像。此处,图像生成模型的应用,其目标是为了生成尽可能贴近真实图像的目标图像,具体达成该目标的原理,将在后续模型训练部分进行详细介绍,在此不作赘述。
本步骤中,通过图像生成模型对第一合成图像进行处理,能够基于第一合成图像中的图像内容,生成协调性、真实性更好、同时纹理细节也较为丰富的目标图像。具体地,可以理解的是,目标图像是由目标音频数据驱动得到的目标对象的图像,因此,希望其口型部分的图像内容和目标音频数据的一致性较好。本申请实施例中,第一合成图像内嘴部区域的图像内容来源自第一渲染图像,第一渲染图像基于目标音频数据生成,其嘴部区域的口型和目标音频数据关联性很高,因此,能够使得得到的目标图像中嘴部区域的口型和目标音频数据保持较好的一致性,减少音画不同步的现象。
并且,针对第一合成图像中嘴部区域内部缺少包含真实纹理信息的图像细节的问题,采用图像生成模型对第一合成图像进行优化处理时,图像生成模型可以基于第一合成图像中第一原始图像部分的内容对嘴部区域的图像进行优化。可以理解的是,第一合成图像中,第一原始图像部分的内容能够提供真实且丰富的图像细节,图像生成模型可以基于这些细节信息,优化嘴部区域中的口腔和皮肤纹理,改善嘴部区域的图像内容存在的细节缺失、真实性较差的问题,从而使得目标图像中嘴部区域的图像内容更为准确,可有效提高生成图像的质量。
需要特别说明的是,本申请实施例中提供的图像的生成方法,在一些实施例中可以连续应用,生成多张图像数据组合作为视频数据。比如说,对于一段驱动目标对象动作的目标音频数据,可以对其进行切片,将其分为合适大小的多个目标音频数据。对于每个目标音频数据,均可以采用本申请实施例中提供的图像的生成方法中的步骤220确定其对应的第一渲染图像,并且可以基于本申请实施例中提供的图像的生成方法,生成每个目标音频数据对应的目标图像。接着,按照目标音频数据切片时所对应的顺序对得到的多个目标图像进行排序,即可组合得到视频数据。并且,对于各个目标音频数据,其对应的第一渲染图像在裁剪得到第一子图后,拼接时所使用的第一原始图像可以是相同的,也可以存在区别,本申请对此不作限制。
如前所述的,本申请实施例中,目标音频数据的获取方式可以有多种。具体地,在一种可能的实现方式中,目标音频数据通过以下步骤得到:
获取第一对象的第一音频数据,将第一音频数据确定为目标音频数据;
或者,获取第一对象输入的文本信息,根据文本信息生成目标音频数据。
本申请实施例中,在获取目标音频数据时,可以通过第一对象来获取。在一些情况下,目标音频数据可以直接由第一对象提供,即可以通过相关的音频采集设备,采集第一对象发出的音频数据,本申请实施例中,将其记为第一音频数据,然后可以直接将第一音频数据作为目标音频数据。在一些情况下,通过第一对象获取目标音频数据时,可以是提供给第一对象输入文本信息的交互渠道,此时,第一对象可以输入一些文本信息。当接收到目标对象输入的文本信息后,可以根据这些文本信息生成目标音频数据。具体地,基于文本信息生成音频数据,可以采用人工智能技术,如Audio LDM模型等,本申请实施例对此不作限制。
特别地,作为一种可选的实施方式,本申请实施例中,可以对目标音频数据进行一些适应性的处理,比如说在一些实施例中,可以对目标音频数据进行滤波去噪,减少其内含有的杂音部分,以方便后续基于目标音频数据确定目标对象对应的口型图像。在另一些实施例中,由于一般建模的数字人对应有性别特征,而第一对象可能和目标对象的性别存在差异。因此,可以对目标音频数据进行适当的拟声处理,调整为数字人对应性别的音调以及音色,以提高确定出目标对象对应口型图像的准确度和可靠性。
具体地,在一种可能的实现方式中,根据目标音频数据,确定目标对象对应的第一渲染图像,包括:
提取目标音频数据的音素信息;
根据音素信息,确定目标对象对应的表情参数;
根据表情参数,通过渲染组件对目标对象对应的模型进行渲染,根据渲染后的模型得到第一渲染图像。
本申请实施例中,在根据目标音频数据确定目标对象对应的第一渲染图像时,可以通过音素的方式来对目标对象进行模型的渲染,从而提取得到第一渲染图像。具体地,音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。每个音素对应一个特定的视素,即人物的口型。本申请实施例中,在获取得到目标音频数据后,首先,可以对目标音频数据进行分析提取,将目标音频数据转化为一个音素序列。当然,可以理解的是,目标音频数据的长度越长,内容越多,其包含的音素一般也就越多,音素序列也就越长。由于一个音素对应一个视素,因此,本申请实施例中,可以针对目标音频数据转换后得到的音素序列中的每个音素进行一次模型的渲染,提取得到一张对应的第一渲染图像。
具体地,对于不同语种的语言,其发音规则可能存在不同,因此不同的语种可以存在有不同的音素,对应嘴形的变化也可以有所不同。例如,对于中文来说,其对应的音素可以包括a、o、e、b、p、m、f等,对于英文来说,其对应的音素可以包括e、ε、ɑ、t、s等。本申请实施例中,在得到目标音频数据中的音素信息后,针对每一个音素信息,可以确定出目标对象模型对应的表情参数。在进行数字人的建模时,基于目标对象的表情参数和表情基准数据,即可以确定出对应的模型结构。因此,本申请实施例中,在得到表情参数后,可以通过渲染组件对目标对象对应的模型进行渲染,从而根据渲染后的模型提取得到第一渲染图像。
具体地,在一种可能的实现方式中,从第一渲染图像中裁剪得到第一子图,并将第一子图拼接到第一原始图像中,得到第一合成图像,包括:
通过关键点检测技术,确定第一渲染图像和第一原始图像中的目标区域;其中,目标区域包括目标对象的嘴部区域;
对第一渲染图像的目标区域进行裁剪,得到第一子图;
将第一子图覆盖到第一原始图像的目标区域中,得到第一合成图像。
本申请实施例中,在对第一渲染图像进行裁剪,得到第一子图以将其拼接到第一原始图像时,可以采用关键点检测技术。具体地,关键点检测技术指的是通过计算机视觉技术来准确地定位人脸中各个关键点的位置,诸如眼睛、嘴巴、鼻子等,这些关键点在人脸表情分析、面部情感识别、人脸识别等领域中都有广泛运用,是计算机视觉技术中的重要应用技术。本申请实施例中,对于使用的关键点检测技术具体涉及的面部关键点个数不作限定,例如,基础的面部关键点检测技术,存在有5个关键点,分别为人脸面部的左右两个嘴角,两个眼的中心和鼻子,随着技术的提升,当前也存在有21关键点、68关键点、256关键点甚至更多关键点的检测手段。可以理解的是,在进行关键点检测时,预设的关键点个数越多,检测精度相对来说也就越高,当然,数据计算量相对也较大,本申请实施例中,可以兼顾考虑精度和计算成本,综合考虑选取使用的关键点个数。
具体地,本申请实施例中,使用关键点检测技术来合成第一合成图像时,在确定好使用的关键点个数后,可以根据需求将部分关键点所包含的区域确定为目标区域,第一渲染图像中目标区域的图像内容,即为第一子图的图像内容。可以理解的是,目标区域至少应当包括目标对象的嘴部区域,本申请实施例中,对目标区域所包含的除目标对象嘴部区域以外的部分不作限制。例如,参照图7,图7示出了一种通过关键点检测技术确定目标区域的示意图,在图7中,以第一渲染图像为例,通过关键点检测技术,可以检测出第一渲染图像中目标对象面部的各个关键点,这些关键点一般对应有编号,每个编号用于表征该关键点对应的人脸位置,各个不同位置的关键点对应的编号不同。
本申请实施例中,可以事先挑选出符合目标区域要求的一些裁剪方式。比如说参照图7,可以根据关键点检测技术,检测出目标对象两侧脸颊的边缘位置以及鼻头的位置,如图7中,第一关键点710为目标对象的右侧脸颊的边缘位置,第二关键点720为目标对象的左侧脸颊的边缘位置,第三关键点730为目标对象的鼻头的位置,本申请实施例中,可以将第一关键点710与第三关键点730,以及第二关键点720与第三关键点730连线下方的区域确定为目标区域,从而可以从第一渲染图像中裁剪得到第一子图。以256关键点检测技术为例,可以选取编号为83、177、211的三个关键点,按照图7所示的方式确定出目标区域。
当然,需要说明的是,图7所示出的一种选取特殊关键点确定目标区域,以从第一渲染图像中裁剪第一子图的实施方式仅用于示例性的说明,并不意味着对本申请实施例中目标区域的范围进行限制,可以理解的是,在其他的一些实施例,也可以通过选取其他的特殊关键点,基于特殊关键点之间的连线确定目标区域。本申请实施例中,只需保证被选取的目标区域包括目标对象的嘴部区域即可,对具体的目标区域形状、大小不作限制。
类似地,可以通过上述方式,对第一原始图像进行关键点检测,基于事先选取的特殊关键点确定出目标区域,该过程和从第一渲染图像中确定目标区域的过程基本一致,本申请对此不作赘述。在确定出第一原始图像中的目标区域后,可以将裁剪得到的第一子图覆盖到第一原始图像中的目标区域内,从而得到第一合成图像。
可以理解的是,本申请实施例中,通过关键点检测技术确定目标区域,一方面能够方便第一子图的裁剪,确保该第一子图中包括目标对象的嘴部区域的图像内容,提高裁剪的效率和准确度。另一方面,通过关键点检测技术,能够同步在第一渲染图像和第一原始图像中确定出范围一致的目标区域,可以方便裁剪得到第一子图后,将第一子图拼接到第一原始图像中,使得第一子图和第一原始图像的图像重合度较好,提高得到第一合成图像的图像内容的协调性。
特别地,本申请实施例中,在实际应用中发现,由于第一渲染图像和第一原始图像本身的脸部动作可能存在差异,且图像大小难以做到完全统一,可能会存在裁剪得到的第一子图和第一原始图像的重合度较差的情况。例如,参照图5,常见地,可能会出现将第一子图拼接到第一原始图像时,无法完全覆盖到第一原始图像的脸颊以及脖子区域的图像内容的问题。这样,在覆盖后第一子图和第一原始图像的边缘部分可能存在较多细节纹理差异较大的情况,容易影响图像生成模型的优化处理。因此,本申请实施例中,需要考虑优化解决该部分的问题,具体地,在一种可能的实现方式中,将第一子图拼接到第一原始图像中,得到第一合成图像,包括:
对第一子图进行膨胀操作,以在第一子图的至少部分边缘处生成扩张像素带,得到第二子图;其中,扩张像素带中的各个像素点的像素值相同,且扩张像素带中的各个像素点和目标对象的皮肤像素点的像素值不同;将第二子图拼接到第一原始图像中,得到第一合成图像;
或者,对第一子图进行插值操作,得到第三子图;将第三子图拼接到第一原始图像中,得到第一合成图像。
本申请实施例中,如前所述的,当第一子图无法完全覆盖掉第一原始图像中边缘部分的图像内容时,可能导致在覆盖区域出现较多的纹理差异,影响后续的优化进程。因此,本申请实施例中,可以考虑尽可能使得第一子图较多地覆盖掉第一原始图像中边缘部分的图像内容。例如,在一些实施例中,参照图8,在得到第一子图后,可以对第一子图中的部分边缘处进行膨胀处理,得到的图像记为第二子图。膨胀处理是形态学处理的一种基本操作,可以将目标图像的边缘向外扩张。本申请实施例中,可以通过膨胀处理使得第一子图的部分边缘向外生成扩张像素带810。该扩张像素带810中的像素点的像素值相同,比如说可以采用黑色的像素点,以形成标志性的区分。并且,为了和第一原始图像以及第一子图形成差异,扩张像素带810的像素点的像素值应当和目标对象的皮肤像素点的像素值不同,防止出现扩张像素带810和图像内容混淆,干扰细节纹理的情况。
本申请实施例中,通过对第一子图进行膨胀操作,能够使得其部分边缘处生成扩张像素带,盖住之前可能未覆盖完全的第一原始图像的部分,这样得到第二子图后,通过第二子图覆盖到第一原始图像,得到第一合成图像,能够减少图像内纹理差异较大的部分,有利于提高后续图像生成模型优化的效果,提高生成的目标图像的质量。
可以理解的是,本申请实施例中,扩张像素带的生成位置可以根据拼接需要灵活设定。比如说,当第一子图包括目标对象的两侧脸颊的图像内容时,可以选择在第一子图的两侧生成扩张像素带;当第一子图包括目标对象的下巴(或者脖子)的图像内容时,可以选择在第一子图的两侧生成扩张像素带。并且,本申请实施例中,对扩张像素带的长度、条数以及宽度不作限制,可以根据需求灵活设定,以尽可能多的覆盖掉第一原始图像中边缘部分的图像内容为宜。
当然,本申请实施例中,也可以通过其他方式对第一子图进行处理,比如说,可以对第一子图进行插值操作,向其中插入一些像素值,从而对其进行放大处理,将此时得到的图像记为第三子图。第三子图在一定程度上也可以更多地覆盖掉第一原始图像中边缘部分的图像内容,达到减少第一合成图像中图像内容纹理差异的效果。
需要说明的是,本申请实施例中,在对第一子图和第一原始图像进行拼接时,如图5所示,在第一子图的上部区域,也存在和第一原始图像细节纹理差异较大的情况。但这部分属于拼接过程中难以规避的,而覆盖时没有覆盖完全导致的纹理差异,则可以通过上述实施例进行优化解决。因此,本申请实施例中的应用,目的在于减少而非完全杜绝纹理差异,以尽可能地提高目标对象的生成质量。
本申请实施例中,对于图像生成模型的模型选择,其可以采用相关技术中的任一种模型结构,本申请对此不作限制。例如,可以选用UNet模型或者VQGAN模型,其中,在选用VQGAN模型时,需要先对第一原始图像学习构造码书(codebook)。具体地,参照图9,图9示出了一种UNet模型的架构图,UNet模型为一种适用于处理图像数据的模型架构,其主要包括两个处理阶段,分别为编码阶段910和解码阶段920,在编码阶段910,对于输入的图像数据,对其进行卷积处理和下采样处理,得到多个不同尺度的特征图,越往下层,特征图的图像尺度越小;在解码阶段920,对编码阶段910得到的特征图进行上采样处理和卷积处理,一层层地还原特征图的图像尺度,最终得到和输入图像数据相同图像尺度的特征图,并基于该特征图输出图像处理的结果。
参照图9,图9示出的UNet模型中,在编码阶段910,一共处理了四层图像尺度的特征图,分别为第一层layer1、第二层layer2、第三层layer3和第四层layer4,每层的图像尺度依次缩小。在第一层layer1、第二层layer2、第三层layer3的图像尺度上,每层模型结构均包括两个第一处理层911和一个池化层912,其中,该第一处理层911可以包括一个卷积层、一个批量规范化层和一个激活层。具体地,卷积层由一组滤波器组成,滤波器本身可以视为数字矩阵,可选地,滤波器可以使用高斯滤波器。卷积层之后依次连接有批量规范化层和激活层。批量规范化层用于进行批规范化操作,不仅加快了模型的收敛速度,而且更重要的是在一定程度缓解了深层网络的“梯度弥散”难题,从而使得训练深层神经网络模型更加容易和稳定。激活层用于引入非线性特征,以应对更复杂数据的学习或模拟情况,提升模型的学习能力。可选地,激活层可以选用Sigmoid函数、Logistic函数、Relu线性修正单元等作为激活函数,本申请实施例中,对此不作限制。池化层912用于执行下采样操作,缩小特征图的图像尺度。
在解码阶段920,类似地,一共处理了四层图像尺度的特征图,分别为第四层layer4、第五层layer5、第六层layer6和第七层layer7,每层的图像尺度依次增大。在UNet模型中,一般第一层layer1和第五层layer5的图像尺度一致,第二层layer2和第六层layer6的图像尺度一致,第三层layer3和第七层layer7的图像尺度一致。在第四层layer4、第五层layer5、第六层layer6和第七层layer7的图像尺度上,每层模型结构均包括两个第二处理层921和一个上采样层922,其中,该第二处理层921的结构和作用和第一处理层911一致,在此不作赘述。上采样层922用于执行上采样操作,放大特征图的图像尺度。
需要说明的是,本申请实施例中,在应用UNet模型时,其模型中包含的结构可以根据需要灵活选取,比如说处理层的个数、处理层中各个组成层的个数,均可以适应性调整,本申请对此不作限制。
特别地,在UNet模型中,将较小图像尺度的特征图还原到较大图像尺度的特征图时,还进行了一个跳跃链接931的操作。参照图9,以从第五层layer5处理得到第六层layer6图像尺度的特征图的过程为例,通过第五层layer5中的上采样层922对特征图进行处理后,可以将特征图放大到第六层layer6的图像尺度。但是,并不直接将放大后的特征图作为模型第六层layer6的输入,而是从和第六层layer6处于相同图像尺度的第二层layer2获取特征图,对第五层layer5放大得到的特征图和第二层layer2获取得到的特征图进行融合,从而得到模型第六层layer6的输入。这样,在解码阶段920也能利用到编码阶段910提取得到的特征,可以提高特征图对输入信息的利用率。
具体地,在一种可能的实现方式中,对第一合成图像进行处理,得到目标图像,包括:
对第一合成图像进行卷积处理和下采样处理,得到第一合成图像对应的第一特征图;
对第一特征图进行上采样处理和卷积处理,得到第一合成图像对应的第二特征图;
根据第二特征图,得到目标图像。
本申请实施例中,可以选用前述所描述的UNet模型,在编码阶段,通过对第一合成图像进行卷积处理和下采样处理,可以得到第一合成图像对应的图像尺度依次缩小的特征图,本申请实施例中,将其记为第一特征图。在解码阶段,对第一特征图进行上采样处理和卷积处理,对第一特征图进行逐步的图像尺度还原,将该阶段得到的特征图记为第二特征图。
需要说明的是,本申请实施例中,对于编码阶段进行图像尺度缩小的次数,缩小的倍数不作限制,该阶段得到的各个特征图,统称为第一特征图,因此,各个第一特征图可以存在图像尺度不同的情况。类似地,在解码阶段,可以反向操作,放大第一特征图的图像尺度,得到第二特征图,并且可以对第二特征图进行多次图像尺度放大的操作,该阶段得到的各个特征图,统称为第二特征图。
本申请实施例中,在得到第二特征图后,可以根据第二特征图还原得到目标图像。此处,需要特别指出的是,相对于传统的UNet模型,本申请实施例中的应用,省去了跳跃链接的操作,即在对特征图进行图像尺度还原的过程中,不再融合编码阶段的特征图。原因在于,实际应用中发现,去除跳跃链接的操作,可以显著提升生成目标图像的质量和稳定性,能够减少细节的抖动。其原理在于,在模型的编码阶段,特征图中包含较多的第一渲染图像的纹理信息,而第一渲染图像的纹理信息和真实的纹理信息存在有较大差异,如果使用编码阶段的特征图,很容易将这部分纹理信息带入到生成的目标图像中,造成纹理的错乱,从而使得图像产生抖动,影响目标图像的质量。
具体地,在一种可能的实现方式中,对第一特征图进行上采样处理和卷积处理,得到第一合成图像对应的第二特征图,包括:
对第一特征图进行卷积处理和自注意力处理,得到第三特征图;
对第三特征图进行上采样处理和卷积处理,得到第二特征图。
请参照图10,图10示出了本申请实施例中提供一种图像生成模型的结构示意图。图10所示出的图像生成模型,基于UNet模型的结构搭建,省去了其中的跳跃链接的操作,模型中主要包括有ResBolck单元、Down单元、AttnBolck单元和Up单元,其中,ResBolck单元和图9中的第一处理层911、第二处理层921类似,Down单元和图9中的池化层912类似,Up单元和图9中的上采样层922类似,在此不作赘述。特别地,本申请实施例中的图像生成模型,还设置了AttnBolck单元,AttnBolck单元配置了自注意力机制,对于输入的特征图c,其宽度数据和高度数据分别为w和h,在AttnBolck单元内,对输入的特征图c分别乘以三个系数:Q、K和V,可以得到另外三个特征图。根据这些特征图,通过变换矩阵可以确定出每个特征图对应的相关性数值,再通过Softmax操作对相关性数值进行归一化,可以得到每个特征图对应的注意力权重,最终基于注意力权重对这些特征图进行加权,即可得到AttnBolck单元输出的特征图。自注意力机制能够帮助模型提高图像生成口型的清晰程度,从而提高目标图像的生成质量。
本申请实施例中,对于输入的第一合成图像,通过ResBolck单元进行卷积处理,以及通过Down单元进行下采样处理得到第一特征图后,可以通过ResBolck单元对第一特征图进行卷积处理,以及通过AttnBolck单元进行自注意力处理,将AttnBolck单元输出的特征图记为第三特征图。需要说明的是,本申请实施例中,可以继续对第三特征图进行连续的卷积处理和自注意力处理,得到的特征图统称为第三特征图,本申请对此具体的次数不作限定。接着,可以通过Up单元对第三特征图进行上采样处理,还原其图像尺度,并且继续通过ResBolck单元对第一特征图进行卷积处理,连续进行上采样处理和卷积处理,从而可以得到和输入的第一合成图像同一尺度的第二特征图。
参照图11,本申请实施例中,还提供一种图像生成模型的训练方法。图11为本申请实施例提供的一种图像生成模型的训练方法的流程示意图,类似地,该图像生成模型的训练方法可以由终端设备单独执行,也可以由终端设备与后台服务器配合执行,该图像生成模型的训练方法包括但不限于以下步骤1110至步骤1150。
步骤1110、获取样本对象的第二原始图像和样本对象对应的第二渲染图像;其中,第二原始图像为样本对象在输出第二音频数据时的真实图像,第二渲染图像为根据第二音频数据得到的样本对象对应的渲染图像;
步骤1120、从第二渲染图像中裁剪得到第四子图,并将第四子图拼接到第二原始图像中,得到第二合成图像;其中,第四子图包括样本对象的嘴部区域的图像内容;
步骤1130、将第二合成图像输入到图像生成模型中,通过图像生成模型对第二合成图像进行处理,得到预测图像;
步骤1140、根据第二原始图像和预测图像,确定训练的第一损失值;
步骤1150、根据第一损失值,对图像生成模型的参数进行更新,得到训练好的图像生成模型。
本申请实施例中,提供一种图像生成模型的训练方法,该训练方法能够训练出用于优化合成图像的图像生成模型,以使得图像生成模型输出的图像结果更真实,嘴部区域的图像内容更为协调、准确,可有效提高生成图像的质量。
具体地,本申请实施例中,在对图像生成模型进行训练时,可以获取批量的训练数据,组成训练数据集,该训练数据集中可以包括有多个样本对象的原始图像和样本对象对应的渲染图像,将该原始图像记为第二原始图像,渲染图像记为第二渲染图像。此处,样本对象可以是真实的人物图像,第二原始图像为样本对象在输出第二音频数据时的真实图像,第二渲染图像为根据第二音频数据得到的样本对象对应的渲染图像。本申请实施例中,第二音频数据可以是任意的一段音频数据,对其内容和长短不作限制,例如其可以是至少一个单词,或者可以是一段话语。第二渲染图像具体的获取手段和前述第一渲染图像类似,在此不作赘述。
在获取得到第二原始图像和第二渲染图像后,可以从第二渲染图像中裁剪得到一个子图,记为第四子图,第四子图中至少包括样本对象的嘴部区域的图像内容。然后,可以将第四子图拼接到第二原始图像中,得到的图像记为第二合成图像。具体地,裁剪第四子图以及拼接得到第二合成图像的过程可以参照前述的实施例实现,在此不作赘述。
具体地,对于各个第二合成图像,可以将其输入到图像生成模型中,提取其特征数据,并根据特征数据进行预测处理,得到图像生成模型输出的预测图像。得到预测图像后,可以根据预测图像和前述的第二原始图像评估图像生成模型预测的准确性,以对模型进行反向传播训练,更新其内部的相关参数。
具体地,对于机器学习模型来说,它预测的准确性可以通过损失函数(LossFunction)来衡量,损失函数是定义在单个训练数据上的,用于衡量一个训练数据的预测误差,具体是通过单个训练数据的标签和模型对该训练数据的预测结果确定该训练数据的损失值。而实际训练时,一个训练数据集有很多训练数据,因此一般采用代价函数(CostFunction)来衡量训练数据集的整体误差,代价函数是定义在整个训练数据集上的,用于计算所有训练数据的预测误差的平均值,能够更好地衡量出模型的预测效果。对于一般的机器学习模型来说,基于前述的代价函数,再加上衡量模型复杂度的正则项即可作为训练的目标函数,基于该目标函数便能求出整个训练数据集的损失值。常用的损失函数种类有很多,例如0-1损失函数、平方损失函数、绝对损失函数、对数损失函数、交叉熵损失函数等均可以作为机器学习模型的损失函数,在此不再一一阐述。本申请实施例中,可以从中任选一种损失函数来确定训练的损失值,也即第二原始图像和预测图像之间的损失值。基于训练的损失值,采用反向传播算法对模型的参数进行更新,迭代预设的轮次,或者在损失值小于预设的比较阈值时,可认为训练完成,得到训练好的图像生成模型。
可以理解的是,本申请实施例中训练的图像生成模型,基于第二合成图像生成预测图像,在训练过程中能够约束图像生成模型输出的预测图像向第二原始图像靠近,也即使得生成的预测图像更接近真实图像。而第二合成图像中,由于嘴部区域采用第四子图的图像内容,口腔和皮肤纹理存在缺失的问题,因此,图像生成模型能够优化输入图像中的口腔和皮肤纹理,改善存在的细节缺失、真实性较差的问题,从而使得输出图像中嘴部区域的图像内容更为准确,可有效提高生成图像的质量。
需要特别说明的是,本申请实施例中,在对第四子图进行拼接时,也可以选择样本对象其他的真实图像,即可以不采用样本对象输出第二音频数据时的真实图像作为拼接时的素材,仅作为验证真实性的标签数据。
具体地,在一种可能的实现方式中,方法还包括:
获取第二原始图像的区域标签;其中,区域标签用于标识第二原始图像中的关键区域,关键区域包括样本对象的嘴部区域;
根据第二原始图像和预测图像,确定训练的第一损失值,包括:
根据第二原始图像和预测图像中对应位置的像素点的像素值,确定第二损失值;
根据第二原始图像的关键区域和预测图像中对应位置的像素点的像素值,确定第三损失值;
根据第一损失值和第二损失值,确定训练的第一损失值。
本申请实施例中,在对图像生成模型进行训练时,为了提高其对输入图像嘴部区域的优化效果,可以特别对嘴部区域的预测进行损失值的叠加。具体地,参照图12,在构造训练数据时,输入模型的不仅仅可以包括第二原始图像1220和第二合成图像1210,可以进一步获取第二原始图像的一个标签,记为区域标签1230,将区域标签1230也输入到模型中。区域标签1230用于标识第二原始图像中的关键区域,其中,该关键区域应当至少包括样本对象的嘴部区域。当然,对于其他想要优化的区域,也可以将其囊括在关键区域中,例如还可以包括样本对象的眼部区域等,本申请对此不作限制。具体地,如图12中所示的,区域标签可以采用mask的方式,通过像素区分出关键区域和非关键区域,比如说关键区域的像素点的像素值可以为0,非关键区域的像素点的像素值可以为255。
在得到图像生成模型输出的预测图像时,可以根据第二原始图像和预测图像,计算两部分的损失值,其中,对于图像的整体部分,可以根据第二原始图像和预测图像中对应位置的像素点的像素值,确定一个损失值,将该损失值记为第二损失值。确定第二损失值的方式可以使用前述任一种损失函数,本申请对此不作限制。例如,可以使用L1(绝对误差)损失函数或者L2损失函数(平方损失函数),其中,L1损失函数的公式可以表示如下:
Lpix=||xr-xh||1
式中,Lpix为第二损失值,xr为图像生成模型输出的预测图像的像素值,xh为第二原始图像的像素值。此处,可以先计算各个像素点对应的损失值,再做平均得到第二损失值。
其次,对于关键区域的部分,可以额外计算一个损失值,例如可以根据第二原始图像的关键区域和预测图像中对应位置的像素点的像素值,确定出该损失值,记为第三损失值。类似地,第三损失值也可以采用和第二损失值相同的方式进行计算,或者使用其他的损失函数。本申请实施例中,还可以通过机器学习模型,根据第二原始图像的关键区域的像素点的像素值,计算出一个深度特征数据,并且根据预测图像中对应位置的像素点的像素值,计算另一个深度特征数据,基于深度特征数据,计算两者的损失值。具体公式可以表示为:
Lper=|φ(xr)-φ(xh)||1
式中,Lper为第三损失值,xr为图像生成模型输出的预测图像的像素值,xh为第二原始图像的像素值,φ()为计算深度特征数据的机器学习模型,本申请实施例中,对其结构不作限制,例如可以采用常见的VGG网络。
具体地,在一种可能的实现方式中,图像生成模型包括生成网络和对抗网络,根据第二原始图像和预测图像,确定训练的第一损失值;根据第一损失值,对图像生成模型的参数进行更新,得到训练好的图像生成模型,包括:
通过对抗网络对第二原始图像和预测图像进行鉴别,得到鉴别结果;
检测当前图像生成模型所处的训练阶段;
当图像生成模型处于对抗网络的训练阶段时,根据鉴别结果和真实结果的偏离度,确定第一损失值,并通过第一损失值对对抗网络的参数进行更新;或者,当图像生成模型处于生成网络的训练阶段时,根据鉴别结果和真实结果的吻合度,确定第一损失值,并通过第一损失值对生成网络的参数进行更新。
本申请实施例中,可以采用对抗生成网络的结构来搭建图像生成模型。在对抗生成网络中,一般包括生成网络和对抗网络,其中,生成网络用于基于输入数据,生成输出能够尽可能和测试集中的真样本接近的假样本;然后将测试集的真样本和生成网络生成的假样本一起输入到对抗网络中,由对抗网络判断样本的真假。通过对生成网络和对抗网络的参数进行更新,以完成该模型的训练。
具体地,本申请实施例中,将对抗生成网络应用在图像生成模型时,该生成网络用于根据输入的第二合成图像进行预测图像的生成,该对抗网络用于对生成网络的图像生成效果进行鉴别。该鉴别过程的目的是为了确定生成网络输入的预测图像和真实的第二原始图像的接近、相似程度,也即以假乱真的程度。因此,本申请实施例中,在通过对抗网络进行鉴别处理时,可以将生成网络抽取的预测图像和实际的第二原始图像一起输入到对抗网络中,让对抗网络鉴别后输出各个图像是生成网络生成的预测图像,还是实际的第二原始图像,从而得到对应的鉴别结果。当鉴别结果为第二原始图像时,可以确定其为真,反之,当鉴别结果为生成网络生成的预测图像时,可以确定其为假。此处,真和假的鉴别结果,对应的数据形式可以根据需要灵活设定,例如,在一些实施例中,鉴别结果的数据形式可以是数值,比如说数值0和数值1。当鉴别结果为数值0时,可以表示鉴别结果输出判定为假,当鉴别结果为数值1时,可以表示鉴别结果输出判定为真。
本申请实施例中,在对图像生成模型进行训练时,由于其中包括生成网络和对抗网络,故而可以采用交替循环的方式训练。具体地,在对其进行训练时,在对抗网络的训练阶段中,将保持生成网络的参数不变,主要更新对抗网络的参数,此时,前述的鉴别结果本身即可以反映出对抗网络的效果,鉴别结果和真实结果的吻合度越高,说明对抗网络的鉴别效果越好,鉴别结果和真实结果的偏离度越高,说明对抗网络的鉴别效果越差。因此,此时损失值与鉴别结果和真实结果的吻合度呈负相关,与鉴别结果和真实结果的偏离度呈正相关。为方便起见,可以直接根据鉴别结果和真实结果的偏离度,确定损失值。然后通过损失值对对抗网络的参数进行反向传播更新。
在生成网络的训练阶段中,将保持对抗网络的参数不变,主要更新生成网络的参数,此时,对抗网络的鉴别效果越好,即鉴别结果和真实结果的吻合度越高,说明生成网络抽取的预测图像越容易被识别出来,生成效果越差。因此,该阶段中可以通过鉴别结果和真实结果的吻合度,确定损失值,然后通过损失值对生成网络的参数进行反向传播更新。
综上,本申请实施例中,可以检测当前图像生成模型所处的训练阶段,通过对应的方式确定出训练生成网络和对抗网络过程中的损失值,从而进行参数更新。需要说明的是,本申请实施例中,生成网络和对抗网络训练阶段的个数,以及每个训练阶段中参数的迭代轮次,可以根据需要灵活设定,本申请对此不作限制。
具体地,在一种可能的实现方式中,方法还包括:
获取第二原始图像的区域标签;其中,区域标签用于标识第二原始图像中的关键区域,关键区域包括样本对象的嘴部区域;
通过对抗网络对第二原始图像和预测图像进行鉴别,得到鉴别结果,包括:
将第二原始图像和预测图像输入到对抗网络进行鉴别,得到第一鉴别结果;
或者,根据区域标签,从第二原始图像中裁剪得到第五子图,以及从预测图像中裁剪得到第六子图;将第五子图和第六子图输入到对抗网络进行鉴别,得到第二鉴别结果。
本申请实施例中,如前所述的,在对图像生成模型进行训练时,为了提高其对输入图像嘴部区域的优化效果,可以特别对嘴部区域的预测进行损失值的叠加。同理,在通过对抗生成网络进行训练时,也可以引入对输入图像嘴部区域的优化效果的判别。具体地,本申请实施例中,在对模型进行训练时,同样引入区域标签,通过区域标签标识出关键区域。然后,在通过对抗网络进行鉴别时,可以进行全局感知的鉴别,也可以进行局部感知的鉴别,或者综合考虑两者的鉴别情况计算损失值。
具体地,本申请实施例中,在进行全局感知的鉴别时,可以将第二原始图像和预测图像输入到对抗网络进行鉴别,由对抗网络判断完整图像的生成效果,将得到的鉴别结果即为第一鉴别结果。根据第一鉴别结果计算损失值时,其对应的损失函数可以表示为:
式中,表示根据第一鉴别结果计算得到的全局损失值,E表示分布概率,xr为图像生成模型输出的预测图像的像素值,Dg(xr)为针对预测图像全局感知得到的第一鉴别结果正确的概率,softplus=log(1+ex)。
在进行局部感知的鉴别时,可以根据区域标签,从第二原始图像中裁剪出关键区域,得到第五子图,以及从预测图像中裁剪出关键区域,得到第六子图。然后将第五子图和第六子图输入到对抗网络进行鉴别,由对抗网络判断包括嘴部区域的图像的生成效果,将得到的鉴别结果即为第二鉴别结果。根据第二鉴别结果计算损失值时,其对应的损失函数可以表示为:
式中,表示根据第二鉴别结果计算得到的局部损失值,E表示分布概率,xr为图像生成模型输出的预测图像的像素值,xh为第二原始图像的像素值,Dl(xh)为针对第五子图局部感知得到的第二鉴别结果正确的概率,Dl(xr)为针对第六子图局部感知得到的第二鉴别结果正确的概率。
下面,结合一些更为具体的实施例,对本申请中提供的图像的生成方法进行详细说明。
参照图13,本申请实施例中,在进行图像生成作业时,首先基于前述实施例中提供的图像生成模型的训练方法,训练得到图像生成模型。然后,可以建模一个数字人,得到其对应的基础模型,并且采集部分数字人的第一原始图像备用。当需要驱动该数字人时,可以获取用于驱动其动作的目标音频数据,基于目标音频数据对其对应的模型进行渲染,并根据渲染后的模型提取得到第一渲染图像。接着,可以对第一渲染图像进行裁剪,得到第一子图,并对第一子图和第一原始图像进行拼接,构造出待优化的第一合成图像。
得到第一合成图像后,可以将第一合成图像输入到训练好的图像生成模型,通过图像生成模型对第一合成图像进行优化处理。在第一合成图像中,第一原始图像的部分能够提供真实且丰富的图像细节,图像生成模型可以基于这些细节信息,优化第一子图中的口腔和皮肤纹理,改善第一子图存在的细节缺失、真实性较差的问题,从而使得目标图像中嘴部区域的图像内容更为准确,可有效提高生成图像的质量。
本申请实施例中,还提供一种图像的生成装置。参照图14,图14为本申请实施例提供的图像的生成装置的结构示意图,该图像的生成装置包括:
第一获取模块1410,用于获取目标对象的第一原始图像和用于驱动目标对象动作的目标音频数据;
渲染模块1420,用于根据目标音频数据,确定目标对象对应的第一渲染图像;
第一合成模块1430,用于从第一渲染图像中裁剪得到第一子图,并将第一子图拼接到第一原始图像中,得到第一合成图像;其中,第一子图包括目标对象的嘴部区域的图像内容;
第一处理模块1440,用于将第一合成图像输入到图像生成模型中,通过图像生成模型对第一合成图像进行处理,得到目标图像。
进一步,上述的第一获取模块具体用于:
获取第一对象的第一音频数据,将第一音频数据确定为目标音频数据;
或者,获取第一对象输入的文本信息,根据文本信息生成目标音频数据。
进一步,上述的渲染模块具体用于:
提取目标音频数据的音素信息;
根据音素信息,确定目标对象对应的表情参数;
根据表情参数,通过渲染组件对目标对象对应的模型进行渲染,根据渲染后的模型得到第一渲染图像。
进一步,上述的第一合成模块具体用于:
通过关键点检测技术,确定第一渲染图像和第一原始图像中的目标区域;其中,目标区域包括目标对象的嘴部区域;
对第一渲染图像的目标区域进行裁剪,得到第一子图;
将第一子图覆盖到第一原始图像的目标区域中,得到第一合成图像。
进一步,上述的第一合成模块具体用于:
对第一子图进行膨胀操作,以在第一子图的至少部分边缘处生成扩张像素带,得到第二子图;其中,扩张像素带中的各个像素点的像素值相同,且扩张像素带中的各个像素点和目标对象的皮肤像素点的像素值不同;将第二子图拼接到第一原始图像中,得到第一合成图像;
或者,对第一子图进行插值操作,得到第三子图;将第三子图拼接到第一原始图像中,得到第一合成图像。
进一步,上述的第一处理模块具体用于:
对第一合成图像进行卷积处理和下采样处理,得到第一合成图像对应的第一特征图;
对第一特征图进行上采样处理和卷积处理,得到第一合成图像对应的第二特征图;
根据第二特征图,得到目标图像。
进一步,上述的第一处理模块具体用于:
对第一特征图进行卷积处理和自注意力处理,得到第三特征图;
对第三特征图进行上采样处理和卷积处理,得到第二特征图。
可以理解的是,如图2所示的图像的生成方法实施例中的内容均适用于本图像的生成装置实施例中,本图像的生成装置实施例所具体实现的功能与如图2所示的图像的生成方法实施例相同,并且达到的有益效果与如图2所示的图像的生成方法实施例所达到的有益效果也相同。
本申请实施例中,还提供一种图像生成模型的训练装置。参照图15,图15为本申请实施例提供的图像生成模型的训练装置的结构示意图,该图像生成模型的训练装置包括:
第二获取模块1510,用于获取样本对象的第二原始图像和样本对象对应的第二渲染图像;其中,第二原始图像为样本对象在输出第二音频数据时的真实图像,第二渲染图像为根据第二音频数据得到的渲染图像;
第二合成模块1520,用于从第二渲染图像中裁剪得到第四子图,并将第四子图拼接到第二原始图像中,得到第二合成图像;其中,第四子图包括样本对象的嘴部区域的图像内容;
第二处理模块1530,用于将二合成图像输入到图像生成模型中,通过图像生成模型对第二合成图像进行处理,得到预测图像;
计算模块1540,用于根据第二原始图像和预测图像,确定训练的第一损失值;
更新模块1550,用于根据第一损失值,对图像生成模型的参数进行更新,得到训练好的图像生成模型。
进一步,上述的图像生成模型的训练装置还包括第二计算模块,第二计算模块具体用于:
获取第二原始图像的区域标签;其中,区域标签用于标识第二原始图像中的关键区域,关键区域包括样本对象的嘴部区域;
根据第二原始图像和预测图像,确定训练的第一损失值,包括:
根据第二原始图像和预测图像中对应位置的像素点的像素值,确定第二损失值;
根据第二原始图像的关键区域和预测图像中对应位置的像素点的像素值,确定第三损失值;
根据第二损失值和第三损失值,确定训练的第一损失值。
进一步,图像生成模型包括生成网络和对抗网络,上述的计算模块和更新模块具体用于:
通过对抗网络对第二原始图像和预测图像进行鉴别,得到鉴别结果;
检测当前图像生成模型所处的训练阶段;
当图像生成模型处于对抗网络的训练阶段时,根据鉴别结果和真实结果的偏离度,确定第一损失值,并通过第一损失值对对抗网络的参数进行更新;或者,当图像生成模型处于生成网络的训练阶段时,根据鉴别结果和真实结果的吻合度,确定第一损失值,并通过第一损失值对生成网络的参数进行更新。
进一步,上述的图像生成模型的训练装置还包括第三获取模块,第三获取模块具体用于:
获取第二原始图像的区域标签;其中,区域标签用于标识第二原始图像中的关键区域,关键区域包括样本对象的嘴部区域;
上述的计算模块和更新模块具体用于:
通过对抗网络对第二原始图像和预测图像进行鉴别,得到鉴别结果,包括:
将第二原始图像和预测图像输入到对抗网络进行鉴别,得到第一鉴别结果;
或者,根据区域标签,从第二原始图像中裁剪得到第五子图,以及从预测图像中裁剪得到第六子图;将第五子图和第六子图输入到对抗网络进行鉴别,得到第二鉴别结果。
可以理解的是,如图11所示的图像生成模型的训练方法实施例中的内容均适用于本图像生成模型的训练装置实施例中,本图像生成模型的训练装置实施例所具体实现的功能与如图11所示的图像生成模型的训练方法实施例相同,并且达到的有益效果与如图11所示的图像生成模型的训练方法实施例所达到的有益效果也相同。
参照图16,本申请实施例还公开了一种电子设备,包括:
至少一个处理器1610;
至少一个存储器1620,用于存储至少一个程序;
当至少一个程序被至少一个处理器1610执行,使得至少一个处理器1610实现如图2所示的图像的生成方法或者图11所示的图像生成模型的训练方法实施例。
可以理解的是,如图2所示的图像的生成方法或者图11所示的图像生成模型的训练方法实施例中的内容均适用于本电子设备实施例中,本电子设备实施例所具体实现的功能与如图2所示的图像的生成方法或者图11所示的图像生成模型的训练方法实施例相同,并且达到的有益效果与如图2所示的图像的生成方法或者图11所示的图像生成模型的训练方法实施例所达到的有益效果也相同。
本申请实施例还公开了一种计算机可读存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于实现如图2所示的图像的生成方法或者图11所示的图像生成模型的训练方法实施例。
可以理解的是,图2所示的图像的生成方法或者图11所示的图像生成模型的训练方法实施例中的内容均适用于本计算机可读存储介质实施例中,本计算机可读存储介质实施例所具体实现的功能与图2所示的图像的生成方法或者图11所示的图像生成模型的训练方法实施例相同,并且达到的有益效果与图2所示的图像的生成方法或者图11所示的图像生成模型的训练方法实施例所达到的有益效果也相同。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在上述的计算机可读存储介质中;图12所示的电子设备的处理器可以从上述的计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行图2所示的图像的生成方法或者图11所示的图像生成模型的训练方法实施例。
可以理解的是,图2所示的图像的生成方法或者图11所示的图像生成模型的训练方法实施例中的内容均适用于本计算机程序产品或计算机程序实施例中,本计算机程序产品或计算机程序实施例所具体实现的功能与图2所示的图像的生成方法或者图11所示的图像生成模型的训练方法实施例相同,并且达到的有益效果与图2所示的图像的生成方法或者图11所示的图像生成模型的训练方法实施例所达到的有益效果也相同。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外,在本申请的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本申请,但应当理解的是,除非另有相反说明,功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本申请的范围,本申请的范围由所附权利要求书及其等同方案的全部范围来决定。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施方式,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
以上是对本申请的较佳实施进行了具体说明,但本申请并不限于实施例,熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (16)
1.一种图像的生成方法,其特征在于,所述方法包括:
获取目标对象的第一原始图像和用于驱动所述目标对象动作的目标音频数据;
根据所述目标音频数据,确定所述目标对象对应的第一渲染图像;
从所述第一渲染图像中裁剪得到第一子图,并将所述第一子图拼接到所述第一原始图像中,得到第一合成图像;其中,所述第一子图包括所述目标对象的嘴部区域的图像内容;
将所述第一合成图像输入到图像生成模型中,通过所述图像生成模型对所述第一合成图像进行处理,得到目标图像。
2.根据权利要求1所述的图像的生成方法,其特征在于,所述目标音频数据通过以下步骤得到:
获取第一对象的第一音频数据,将所述第一音频数据确定为目标音频数据;
或者,获取第一对象输入的文本信息,根据所述文本信息生成目标音频数据。
3.根据权利要求1所述的图像的生成方法,其特征在于,所述根据所述目标音频数据,确定所述目标对象对应的第一渲染图像,包括:
提取所述目标音频数据的音素信息;
根据所述音素信息,确定所述目标对象对应的表情参数;
根据所述表情参数,通过渲染组件对所述目标对象对应的模型进行渲染,根据渲染后的模型得到第一渲染图像。
4.根据权利要求1所述的图像的生成方法,其特征在于,所述从所述第一渲染图像中裁剪得到第一子图,并将所述第一子图拼接到所述第一原始图像中,得到第一合成图像,包括:
通过关键点检测技术,确定所述第一渲染图像和所述第一原始图像中的目标区域;其中,所述目标区域包括所述目标对象的嘴部区域;
对所述第一渲染图像的目标区域进行裁剪,得到所述第一子图;
将所述第一子图覆盖到所述第一原始图像的目标区域中,得到第一合成图像。
5.根据权利要求1或者4所述的图像的生成方法,其特征在于,所述将所述第一子图拼接到所述第一原始图像中,得到第一合成图像,包括:
对所述第一子图进行膨胀操作,以在所述第一子图的至少部分边缘处生成扩张像素带,得到第二子图;其中,所述扩张像素带中的各个像素点的像素值相同,且所述扩张像素带中的各个像素点和所述目标对象的皮肤像素点的像素值不同;将所述第二子图拼接到所述第一原始图像中,得到第一合成图像;
或者,对所述第一子图进行插值操作,得到第三子图;将所述第三子图拼接到所述第一原始图像中,得到第一合成图像。
6.根据权利要求1所述的图像的生成方法,其特征在于,所述对所述第一合成图像进行处理,得到目标图像,包括:
对所述第一合成图像进行卷积处理和下采样处理,得到所述第一合成图像对应的第一特征图;
对所述第一特征图进行上采样处理和卷积处理,得到所述第一合成图像对应的第二特征图;
根据所述第二特征图,得到目标图像。
7.根据权利要求6所述的图像的生成方法,其特征在于,所述对所述第一特征图进行上采样处理和卷积处理,得到所述第一合成图像对应的第二特征图,包括:
对所述第一特征图进行卷积处理和自注意力处理,得到第三特征图;
对所述第三特征图进行上采样处理和卷积处理,得到所述第二特征图。
8.一种图像生成模型的训练方法,其特征在于,所述方法包括:
获取样本对象的第二原始图像和所述样本对象对应的第二渲染图像;其中,所述第二原始图像为所述样本对象在输出第二音频数据时的真实图像,所述第二渲染图像为根据所述第二音频数据得到的样本对象对应的渲染图像;
从所述第二渲染图像中裁剪得到第四子图,并将所述第四子图拼接到所述第二原始图像中,得到第二合成图像;其中,所述第四子图包括所述样本对象的嘴部区域的图像内容;
将所述第二合成图像输入到图像生成模型中,通过所述图像生成模型对所述第二合成图像进行处理,得到预测图像;
根据所述第二原始图像和所述预测图像,确定训练的第一损失值;
根据所述第一损失值,对所述图像生成模型的参数进行更新,得到训练好的图像生成模型。
9.根据权利要求8所述的图像生成模型的训练方法,其特征在于,所述方法还包括:
获取所述第二原始图像的区域标签;其中,所述区域标签用于标识所述第二原始图像中的关键区域,所述关键区域包括所述样本对象的嘴部区域;
所述根据所述第二原始图像和所述预测图像,确定训练的第一损失值,包括:
根据所述第二原始图像和所述预测图像中对应位置的像素点的像素值,确定第二损失值;
根据所述第二原始图像的关键区域和所述预测图像中对应位置的像素点的像素值,确定第三损失值;
根据所述第二损失值和所述第三损失值,确定训练的第一损失值。
10.根据权利要求8所述的图像生成模型的训练方法,其特征在于,所述图像生成模型包括生成网络和对抗网络,所述根据所述第二原始图像和所述预测图像,确定训练的第一损失值;根据所述第一损失值,对所述图像生成模型的参数进行更新,得到训练好的图像生成模型,包括:
通过所述对抗网络对所述第二原始图像和所述预测图像进行鉴别,得到鉴别结果;
检测当前所述图像生成模型所处的训练阶段;
当所述图像生成模型处于所述对抗网络的训练阶段时,根据所述鉴别结果和真实结果的偏离度,确定所述第一损失值,并通过所述第一损失值对所述对抗网络的参数进行更新;或者,当所述图像生成模型处于所述生成网络的训练阶段时,根据所述鉴别结果和所述真实结果的吻合度,确定所述第一损失值,并通过所述第一损失值对所述生成网络的参数进行更新。
11.根据权利要求10所述的图像生成模型的训练方法,其特征在于,所述方法还包括:
获取所述第二原始图像的区域标签;其中,所述区域标签用于标识所述第二原始图像中的关键区域,所述关键区域包括所述样本对象的嘴部区域;
通过所述对抗网络对所述第二原始图像和所述预测图像进行鉴别,得到鉴别结果,包括:
将所述第二原始图像和所述预测图像输入到所述对抗网络进行鉴别,得到第一鉴别结果;
或者,根据所述区域标签,从所述第二原始图像中裁剪得到第五子图,以及从所述预测图像中裁剪得到第六子图;将所述第五子图和所述第六子图输入到所述对抗网络进行鉴别,得到第二鉴别结果。
12.一种图像的生成装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标对象的第一原始图像和用于驱动所述目标对象动作的目标音频数据;
渲染模块,用于根据所述目标音频数据,确定所述目标对象对应的第一渲染图像;
第一合成模块,用于从所述第一渲染图像中裁剪得到第一子图,并将所述第一子图拼接到所述第一原始图像中,得到第一合成图像;其中,所述第一子图包括所述目标对象的嘴部区域的图像内容;
第一处理模块,用于将所述第一合成图像输入到图像生成模型中,通过所述图像生成模型对所述第一合成图像进行处理,得到目标图像。
13.一种图像生成模型的训练装置,其特征在于,所述装置包括:
第二获取模块,用于获取样本对象的第二原始图像和所述样本对象对应的第二渲染图像;其中,所述第二原始图像为所述样本对象在输出第二音频数据时的真实图像,所述第二渲染图像为根据所述第二音频数据得到的渲染图像;
第二合成模块,用于从所述第二渲染图像中裁剪得到第四子图,并将所述第四子图拼接到所述第二原始图像中,得到第二合成图像;其中,所述第四子图包括所述样本对象的嘴部区域的图像内容;
第二处理模块,用于将所述二合成图像输入到图像生成模型中,通过所述图像生成模型对所述第二合成图像进行处理,得到预测图像;
计算模块,用于根据所述第二原始图像和所述预测图像,确定训练的第一损失值;
更新模块,用于根据所述第一损失值,对所述图像生成模型的参数进行更新,得到训练好的图像生成模型。
14.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述的图像的生成方法或者实现权利要求8至11任意一项所述的图像生成模型的训练方法。
15.一种计算机可读存储介质,所述存储介质存储有程序,其特征在于,所述程序被处理器执行时实现权利要求1至7任意一项所述的图像的生成方法或者实现权利要求8至11任意一项所述的图像生成模型的训练方法。
16.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任意一项所述的图像的生成方法或者实现权利要求8至11任意一项所述的图像生成模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310417012.3A CN116959480A (zh) | 2023-04-11 | 2023-04-11 | 图像的生成、模型训练方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310417012.3A CN116959480A (zh) | 2023-04-11 | 2023-04-11 | 图像的生成、模型训练方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116959480A true CN116959480A (zh) | 2023-10-27 |
Family
ID=88460854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310417012.3A Pending CN116959480A (zh) | 2023-04-11 | 2023-04-11 | 图像的生成、模型训练方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116959480A (zh) |
-
2023
- 2023-04-11 CN CN202310417012.3A patent/CN116959480A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10867416B2 (en) | Harmonizing composite images using deep learning | |
US10657652B2 (en) | Image matting using deep learning | |
US20210350504A1 (en) | Aesthetics-guided image enhancement | |
CN113194348B (zh) | 一种虚拟人讲课视频生成方法、系统、装置及存储介质 | |
CN111325817A (zh) | 一种虚拟人物场景视频的生成方法、终端设备及介质 | |
CN113994384A (zh) | 使用机器学习的图像着色 | |
CN113228163B (zh) | 基于文本和音频的实时面部再现 | |
CN111553267B (zh) | 图像处理方法、图像处理模型训练方法及设备 | |
CN110795925B (zh) | 基于人工智能的图文排版方法、图文排版装置及电子设备 | |
CN111524207B (zh) | 基于人工智能的图像生成方法、装置、电子设备 | |
CN115565238B (zh) | 换脸模型的训练方法、装置、设备、存储介质和程序产品 | |
CN110796593A (zh) | 基于人工智能的图像处理方法、装置、介质及电子设备 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
US12118787B2 (en) | Localization of narrations in image data | |
CN110097615B (zh) | 一种联合风格化和去风格化的艺术字编辑方法和系统 | |
CN116634242A (zh) | 语音驱动的说话视频生成方法、系统、设备和存储介质 | |
US20220375223A1 (en) | Information generation method and apparatus | |
CN114187624A (zh) | 图像生成方法、装置、电子设备及存储介质 | |
CN117078790B (zh) | 图像生成方法、装置、计算机设备和存储介质 | |
CN111275778A (zh) | 人脸简笔画生成方法及装置 | |
Pande et al. | Development and deployment of a generative model-based framework for text to photorealistic image generation | |
CN118230081A (zh) | 图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
Shen et al. | Boosting consistency in story visualization with rich-contextual conditional diffusion models | |
CN116959480A (zh) | 图像的生成、模型训练方法、装置、电子设备及存储介质 | |
CN116994307A (zh) | 视频的生成方法、装置、设备、存储介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |