CN114445427A - 图像处理方法、装置、电子设备及存储介质 - Google Patents
图像处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114445427A CN114445427A CN202210108220.0A CN202210108220A CN114445427A CN 114445427 A CN114445427 A CN 114445427A CN 202210108220 A CN202210108220 A CN 202210108220A CN 114445427 A CN114445427 A CN 114445427A
- Authority
- CN
- China
- Prior art keywords
- processed
- image
- processing
- target object
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Processing (AREA)
Abstract
本公开涉及一种图像处理方法、装置、电子设备及存储介质,所述图像处理方法包括:获取待处理图像,其中,所述待处理图像包括目标对象;根据目标对象处理指令对所述待处理图像进行分割,得到所述目标对象的多个待处理区域;根据所述目标对象处理指令对多个所述待处理区域进行并行处理,得到每个所述待处理区域的处理结果;将多个所述待处理区域的处理结果和所述待处理图像进行融合,得到目标图像。由于目标对象的每个待处理区域被检测得到,并独立处理,最后再将处理结果返回至待处理图像中生成目标图像,因此各个待处理区域的处理过程相互无影响,提高了图像处理的效果和效率,改善了用户的使用体验。
Description
技术领域
本公开涉及图像处理技术领域,尤其涉及一种图像处理方法、装置、电子设备及存储介质。
背景技术
随着人工智能技术的不断发展,图像处理的种类越来越多,效果越来越好。例如,人脸图像的编辑处理是图像处理的一种常见形式,其能够对人脸图像中人脸的五官等进行编辑,从而达到滤镜、虚拟穿戴等效果。但是,相关技术中人脸图像中五官等各个位置的编辑会相互影响,进而降低了编辑效果和编辑效率,用户的使用体验较差。
发明内容
本公开提供一种图像处理方法、装置、设备及存储介质,以解决相关技术中的缺陷。
根据本公开实施例的第一方面,提供一种图像处理方法,包括:
获取待处理图像,其中,所述待处理图像包括目标对象;
根据目标对象处理指令对所述待处理图像进行分割,得到所述目标对象的多个待处理区域;
根据所述目标对象处理指令对多个所述待处理区域进行并行处理,得到每个所述待处理区域的处理结果;
将多个所述待处理区域的处理结果和所述待处理图像进行融合,得到目标图像。
在一个实施例中,所述目标对象包括人物;所述根据目标对象处理指令对所述待处理图像进行分割,得到所述目标对象的多个待处理区域,包括:
获取所述目标对象处理指令中的多个待处理部位,其中,所述待处理部位为所述人物的局部区域;
对所述待处理图像中所述人物的每个所述待处理部位进行检测,得到每个所述待处理部位的检测结果;
根据每个所述待处理部位的检测结果对所述待处理图像进行分割,得到多个所述待处理区域。
在一个实施例中,所述待处理部位的检测结果包括关键点和掩膜中的至少一项。
在一个实施例中,所述根据每个所述待处理部位的检测结果对所述待处理图像进行分割,得到多个所述待处理区域,包括:
根据每个所述待处理部位的检测结果,确定每个所述待处理部位的边界框,其中,所述边界框为包围所述待处理部位的最小矩形框;
根据每个所述边界框对所述待处理图像进行裁剪,并将每个所述边界框内的图像块作为对应的所述待处理部位的待处理区域。
在一个实施例中,所述根据所述目标对象处理指令对多个所述待处理区域进行并行处理,得到每个所述待处理区域的处理结果,包括:
根据所述目标对象处理指令中每个所述待处理部位的编辑内容,确定每个待处理部位对应的神经网络模型;
将每个所述待处理部位的所述待处理区域输入至所述待处理部位对应的神经网络模型中,每个所述神经网络模型输出对应的所述待处理区域的处理结果。
在一个实施例中,所述每个所述神经网络模型输出对应的所述待处理区域的处理结果,包括:
通过所述神经网络模型的编码单元对所述待处理区域进行编码,得到所述待处理区域的编码结果;
通过所述神经网络模型的编辑单元对所述编码结果进行编辑,得到所述编码结果的编辑结果;
通过所述神经网络模型的解码单元对所述编码结果的编辑结果进行解码,得到所述待处理区域的处理结果。
在一个实施例中,不同的所述待处理部位的编辑内容对应的风格类型相同或不同。
在一个实施例中,所述将多个所述待处理区域的处理结果和所述待处理图像进行融合,得到目标图像,包括:
根据每个所述待处理区域在所述待处理图像中的位置,将对应的所述待处理区域的处理结果融合至所述待处理图像,得到所述目标图像。
在一个实施例中,所述根据每个所述待处理区域在所述待处理图像中的位置,将对应的所述待处理区域的处理结果融合至所述待处理图像,得到所述目标图像,包括:
根据每个所述待处理区域在所述待处理图像中的位置,确定每个所述待处理区域的掩膜;
对每个所述掩膜进行边缘模糊化处理,得到每个所述掩膜的模糊化结果;
根据所述掩膜的模糊化结果,将对应的所述待处理区域的处理结果融合至所述待处理图像,得到目标图像。
根据本公开实施例的第二方面,提供一种图像处理装置,包括:
获取模块,用于获取待处理图像,其中,所述待处理图像包括目标对象;
分割模块,用于根据目标对象处理指令对所述待处理图像进行分割,得到所述目标对象的多个待处理区域;
处理模块,用于根据所述目标对象处理指令对多个所述待处理区域进行并行处理,得到每个所述待处理区域的处理结果;
融合模块,用于将多个所述待处理区域的处理结果和所述待处理图像进行融合,得到目标图像。
在一个实施例中,所述目标对象包括人物;所述分割模块具体用于:
获取所述目标对象处理指令中的多个待处理部位,其中,所述待处理部位为所述人物的局部区域;
对所述待处理图像中所述人脸的每个所述待处理部位进行检测,得到每个所述待处理部位的检测结果;
根据每个所述待处理部位的检测结果对所述待处理图像进行分割,得到多个所述待处理区域。
在一个实施例中,所述待处理部位的检测结果包括关键点和掩膜中的至少一项。
在一个实施例中,所述分割模块用于根据每个所述待处理部位的检测结果对所述待处理图像进行分割,得到多个所述待处理区域时,具体用于:
根据每个所述待处理部位的检测结果,确定每个所述待处理部位的边界框,其中,所述边界框为包围所述待处理部位的最小矩形框;
根据每个所述边界框对所述待处理图像进行裁剪,并将每个所述边界框内的图像块作为对应的所述待处理部位的待处理区域。
在一个实施例中,所述处理模块具体用于:
根据所述目标对象处理指令中每个所述待处理部位的编辑内容,确定每个待处理部位对应的神经网络模型;
将每个所述待处理部位的所述待处理区域输入至所述待处理部位对应的神经网络模型中,每个所述神经网络模型输出对应的所述待处理区域的处理结果。
在一个实施例中,所述处理模块用于控制每个所述神经网络模型输出对应的所述待处理区域的处理结果时,具体用于:
通过所述神经网络模型的编码单元对所述待处理区域进行编码,得到所述待处理区域的编码结果;
通过所述神经网络模型的编辑单元对所述编码结果进行编辑,得到所述编码结果的编辑结果;
通过所述神经网络模型的解码单元对所述编码结果的编辑结果进行解码,得到所述待处理区域的处理结果。
在一个实施例中,不同的所述待处理部位的编辑内容对应的风格类型相同或不同。
在一个实施例中,所述融合模块具体用于:
根据每个所述待处理区域在所述待处理图像中的位置,将对应的所述待处理区域的处理结果融合至所述待处理图像,得到所述目标图像。
在一个实施例中,所述融合模块用于根据每个所述待处理区域在所述待处理图像中的位置,将对应的所述待处理区域的处理结果融合至所述待处理图像,得到所述目标图像时,具体用于:
根据每个所述待处理区域在所述待处理图像中的位置,确定每个所述待处理区域的掩膜;
对每个所述掩膜进行边缘模糊化处理,得到每个所述掩膜的模糊化结果;
根据每个所述掩膜的模糊化结果,将对应的所述待处理区域的处理结果融合至所述待处理图像,得到目标图像。
根据本公开实施例的第三方面,提供一种电子设备,所述设备包括存储器、处理器,所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现第一方面所述的方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现第一方面所述的方法。
根据上述实施例可知,通过获取待处理图像,并根据目标对象处理指令对待处理图像进行检测,得到待处理图像中目标对象的至少一个待处理区域,然后根据目标对象处理指令对每个待处理区域进行处理,得到每个待处理区域的处理结果,最后根据每个待处理区域的待处理结果和待处理图像,确定目标图像。由于目标对象的每个待处理区域被检测得到,并独立处理,最后再将处理结果返回至待处理图像中生成目标图像,因此各个待处理区域的处理过程相互无影响,避免了每个待处理区域的处理过程均针对整个待处理图像进行而造成的效率低下和效果较差的问题,提高了图像处理的效果和效率,改善了用户的使用体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开一实施例示出的图像处理方法的流程图;
图2是本公开一实施例示出的检测待处理区域的一种方式的示意图;
图3是本公开一实施例示出的人脸编辑过程的流程图;
图4是本公开一实施例示出的图像处理装置的结构示意图;
图5是本公开一实施例示出的电子设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在人脸编辑的场景中,相关技术中的人脸编辑框架,大多只能一次性修改人脸的某个区域。如果需要编辑人脸多个区域,则需要多次使用不同的模型对图像进行一系列的修改,这样的编辑过程不仅需要耗费大量的计算资源,而且往往会在后续的编辑过程中对之前的编辑效果产生负面的影响。另外,现有的线性编辑过程所需的模型数量和和耗时,会随着需要编辑的区域增加而线性增加,且由于前序编辑模块的不确定性,编辑顺序的改变也会给编辑效果产生不可知的影响。
基于此,第一方面,本公开至少一个实施例提供了一种图像处理方法,请参照附图1,其示出了该方法的流程,包括步骤S101至步骤S103。
其中,该方法可以用于对待处理图像进行编辑处理等处理,且涉及到针对待处理图像中的多个待处理区域进行处理。例如,该方法可以用于对人脸图像、人体图像等人物图像进行编辑处理,即对人脸图像中五官或人体图像的四肢等各个待处理部位的待处理区域分别进行编辑处理。编辑处理例如包括对各个待处理部位的调大、调小、形状调整、增加配饰、进行卡通化处理等各种风格化处理等,而且不同的待处理部位的编辑内容的风格类型可以相同或不同。人脸编辑处理可以应用于人脸风格化、人脸美颜、人脸滤镜、人脸虚拟穿戴等场景,人体编辑处理可以用于虚拟整形、虚拟试穿等场景。
待处理图像可以为图像采集设备拍摄的图像,或图像采集设备所录制的视频中的一帧。可以理解的是,在图像采集设备所录制的视频中的每一帧都作为待处理图像被该方法进行处理的情况下,则可以完成对该视频的处理。
另外,该方法可以由终端设备或服务器等电子设备执行,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)手持设备、计算设备、车载设备、可穿戴设备等,该方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。或者,可以通过服务器执行该方法,服务器可以为本地服务器、云端服务器等。
在步骤S101中,获取待处理图像,其中,所述待处理图像包括目标对象。
其中,待处理图像可以为图像采集设备拍摄的图像,或图像采集设备所录制的视频中的一帧,其中的图像采集设备可以为手机、相机等具备图像采集功能的电子设备。目标对象指的是待处理图像中需要处理的对象,待处理图像中除目标对象之外的区域均为背景区域。例如目标对象可以为人脸图像中的人脸。
可以对图像采集设备拍摄的图像进行识别,若图像中包含目标对象(例如目标对象为人脸,则图像中包含人脸),则获取该图像作为待处理图像,若图像中不包含目标对象,则该图像不作为待处理图像;相对应的,可以对图像采集设备录制的视频进行识别,若某一帧图像中包含目标对象,则获取该帧图像作为待处理图像,若某一帧图像中不包含目标对象,则该帧图像不作为待处理图像。
在一个可能的场景中,用户使用手机录制视频,录制过程中画面内有时出现人脸,有时不出现人脸,则画面中存在人脸的图像帧被作为待处理图像进行处理,而画面中不存在人脸的图像帧不被作为待处理图像进行处理,从而既可以保证视频画面中的人脸被实时处理,又可以在视频画面中不存在人脸时降低负荷,节省能耗,并避免对视频画面进行误处理等。
待处理图像中的目标对象可以为一个,也可以为多个。在待处理图像中存在多个目标对象时,可以按照本实施例提供的方法依次对各个目标对象进行处理,或者按照本实施例提供的方法同时对各个目标对象进行处理。
在步骤S102中,根据目标对象处理指令对所述待处理图像进行分割,得到所述目标对象的多个待处理区域。
其中,目标对象处理指令可以根据用户的操作生成,例如用户可以对执行该图像处理方法的终端的触摸屏进行触摸操作生成目标对象的处理指令,或者用户可以对执行该图像方法的终端的鼠标、键盘进行操作生成目标对象的处理指令。在一个可能的实施例中,目标对象包括人物(人脸或人体等),可以通过上述操作选择或输入待处理部位以及编辑内容,而生成包括待处理部位和编辑内容的目标对象处理指令,其中,待处理部位可以为人物的局部区域,例如人脸的眼睛、鼻子、嘴巴、眉毛和脸部轮廓等,编辑内容可以为针对待处理部位的具体调整方式,例如将待处理部位的尺寸调大、调小、形状调整、增加配饰、进行卡通等各种风格化处理等,例如将眼睛调大,将嘴巴调小,在眼睛上增加墨镜等。而且不同的待处理部位的编辑内容的风格类型可以相同或不同,例如人脸的眼镜、鼻子、嘴巴、眉毛和脸部轮廓的编辑内容可以均为卡通风格化处理,或者人脸的鼻子、嘴巴、眉毛和脸部轮廓的编辑内容均为美颜风格化处理,而人脸的眼睛的编辑内容为在眼睛上增加墨镜。
其中,待处理区域为目标对象的局部区域,例如为包括待处理部位的局部区域。待处理区域的形状可以相同,例如都为矩形,也可以不同,例如分别根据其所包括的待处理部位而决定。待处理区域可以用待处理图像中的坐标进行表示,例如矩形的待处理区域可以使用左上角和右下角两个点的坐标进行表示。
可选的,本步骤中可以分别分割得到每个待处理项目对应的待处理区域。
在步骤S103中,根据所述目标对象处理指令对多个所述待处理区域进行并行处理,得到每个所述待处理区域的处理结果。
本步骤中,对多个待处理区域进行并行处理,即分别独立处理每个待处理区域,因此处理每个待处理区域时均不引起待处理图像的其他区域发生变化。每个待处理区域是对待处理图像进行分割得到的,因此针对每个待处理区域进行分别处理,可以大大减少待处理区域增加所带来的计算耗时线性增加的问题。
可选的,对某个待处理区域进行处理时,可以根据所述目标对象处理指令中所述待处理部位的编辑内容,对所述待处理部位的待处理区域进行编辑,得到所述待处理区域的处理结果。即根据该待处理区域内所包括的待处理部位,以及具体的编辑内容进行编辑。编辑内容可根据实际的风格化需求来确定,例如,对人脸图像的嘴巴所在的待处理区域进行处理时,由于编辑内容为调小嘴巴,则对待处理区域内的嘴巴进行调小处理。
本步骤利用原子化编辑思想,可以将不同的待处理区域的处理要求解耦开,即不同待处理区域的处理效果不会互相影响,能够保证处理效果稳定性。在一个可能的实施例中,可以预先为每个待处理部位的每个编辑内容构建相应的原子化处理模型,然后在本步骤中处理每个待处理区域时,均按照其包括的待处理部位以及对应的编辑内容选择相应的原子化处理模型,再利用该原子化处理模型对待处理区域进行处理,则高效简单,且不同待处理区域的处理过程相互无影响,再者不同原子化模型可以自由组合,只需要少量的模型就可以组合出大量的目标对象处理效果,例如人脸编辑效果等。
在步骤S104中,将多个所述待处理区域的处理结果和所述待处理图像进行融合,得到目标图像。
本步骤使用待处理区域的处理结果覆盖待处理区域的原画面,形成目标图像,从而完成了对待处理图像的各个待处理区域的处理。例如目标对象为人脸的情况下,各个待处理区域为眼睛所在的待处理区域、嘴巴所在的待处理区域,则在得到眼睛所在的待处理区域的处理结果,以及嘴巴所在的待处理区域的待处理结果后,可以将眼睛所在的待处理区域的处理结果覆盖于眼睛所在的待处理区域的原画面之上,将将嘴巴所在的待处理区域的处理结果覆盖于嘴巴所在的待处理区域的原画面之上,从而得到目标图像,即完成各个调整项目的调整处理后的图像。
可选的,根据每个所述待处理区域在所述待处理图像中的位置,将对应的所述待处理区域的处理结果融合至所述待处理图像,得到所述目标图像。待处理区域在待处理图像中的位置,在步骤S101中分割待处理区域的过程中得到。
根据上述实施例可知,通过获取待处理图像,并根据目标对象处理指令对待处理图像进行分割,得到待处理图像中目标对象的多个待处理区域,然后根据目标对象处理指令对多个待处理区域进行并行处理,得到每个待处理区域的处理结果,最后将多个待处理区域的待处理结果和待处理图像进行融合,得到目标图像。由于目标对象的多个待处理区域被分割得到,并独立处理,最后再将处理结果返回至待处理图像中生成目标图像,因此各个待处理区域的处理过程相互无影响,避免了每个待处理区域的处理过程均针对整个待处理图像进行而造成的效率低下和效果较差的问题,提高了图像处理的效果和效率,改善了用户的使用体验。
本公开的一些实施例中,所述目标对象包括人物。可以按照如图2所示的方式根据目标对象处理指令对所述待处理图像进行分割,得到所述目标对象的多个待处理区域,包括步骤S201和步骤S202。
在步骤S201中,获取所述目标对象处理指令中的多个待处理部位,其中,所述待处理部位为所述人物的局部区域。
其中,根据步骤S102中对目标对象处理指令的介绍可知,目标对象处理指令中携带有至少一个待处理部位,例如目标对象为人脸时,目标对象处理指令中携带有眼睛、鼻子和嘴巴三个待处理部位。因此可以直接从目标对象处理指令中获取到其携带的多个待处理部位。
在步骤S202中,对所述待处理图像中所述目标对象的待处理项目进行检测,得到每个所述待处理部位的检测结果。
其中,待处理部位的检测结果可以为关键点和掩膜中的至少一项。例如,人脸的待处理部位可以为眼睛、眉毛、鼻子、嘴巴、耳朵和人脸轮廓等,这些部位的检测结果可以为关键点,也可以为掩膜;人体的待处理部位可以为头部、四肢等,这些部位的检测结果可以为关键点,也可以为掩膜。
若依次对目标对象的至少一个待处理项目中的每个待处理项目进行检测,则可以输出当前需要检测的待处理项目的检测结果;若同时对目标对象中的至少一个待处理项目中的每个待处理项目进行检测,则可以同时输出每个待处理项目的检测结果。
可以采用预先训练的掩膜检测神经网络对待处理图像中目标对象的多个待处理部位进行检测,检测结果为待处理部位的掩膜,例如可以以掩膜所包含的像素在待处理图像中的坐标来表示掩膜的位置。以目标对象为人脸为例,可以检测得到眼睛的掩膜、鼻子的掩膜、嘴巴的掩膜等等。
可以采用预先训练的关键点检测神经网络对待处理图像中目标对象的多个待处理部位进行检测,检测结果为待处理部位的关键点,例如关键点可以以其在待处理图像上的位置坐标进行表示,也就是说,本步骤所提取的关键点的信息是关键点在待处理图像上的坐标信息。以目标对象为人脸为例,可以检测得到眼睛的若干关键点、鼻子的若干关键点、嘴巴的若干关键点等等。
在步骤S203中,根据每个所述待处理部位的检测结果对所述待处理图像进行分割,得到多个所述待处理区域。
示例性的,可以先根据每个所述待处理部位的检测结果,确定每个所述待处理部位的边界框,其中,所述边界框为包围所述待处理部位的最小矩形框;然后根据每个所述边界框对所述待处理图像进行裁剪,并将每个所述边界框内的图像块作为对应的所述待处理部位的待处理区域。
在一个可能的实施例中,待处理部位的检测结果为待处理部位的掩膜,则可以直接将能够包含完整掩膜的最小矩形框作为边界框。
在一个可能的实施例中,待处理部位的检测结果为待处理部位的关键点,则可以按照下述方式确定检测框,首先根据待处理部位的全部关键点确定这些关键点的中心点,然后取上下左右四个方向边界的关键点,然后将中心点至最左侧的关键点的连线延长预设倍数(例如延长0.5倍)所达到的点确定为边界框的左侧边界,将中心点至最右侧的关键点的连线延长预设倍数(例如延长0.5倍)所达到的点确定为边界框的右侧边界,将中心点至最上侧的关键点的连线延长预设倍数(例如延长0.5倍)所达到的点确定为边界框的上侧边界,将中心点至最下侧的关键点的连线延长预设倍数(例如延长0.5倍)所达到的点确定为边界框的下侧边界,最后根据上下左右四个边界点确定边界框。需要注意的是,上述上、下、左、右各个方向指的是待处理图像上的上下左右方向,即待处理图像的左侧边所在直线为上下方向的直线,待处理图像的上侧边所在直线为左右方向的直线。
本实施例中,通过对目标对象处理指令中携带的待处理部位进行检测,并依据检测结果对待处理图像进行裁减,得到多个待处理部位的待处理区域,方便快捷,且较为准确,既保证了每个待处理部位能够被分割,又避免待处理区域携带较多背景(即除待处理部位之外的画面)。
本公开的一些实施例中,可以按照下述方式根据所述目标对象处理指令中所述待处理部位的编辑内容,对所述待处理部位的待处理区域进行处理,得到所述待处理区域的处理结果:首先,根据所述目标对象处理指令中每个所述待处理部位的编辑内容,确定每个待处理部位对应的神经网络模型;然后,将每个所述待处理部位的所述待处理区域输入至所述待处理部位对应的神经网络模型中,每个所述神经网络模型输出对应的所述待处理区域的处理结果。
其中,待处理部位对应的神经网络模型,可以为待处理部位的编辑内容的原子化处理模型。原子化处理模型例如为图像生成网络模型,图像生成网络模型可以对各待处理部位进行风格化等编辑处理。
神经网络模型对待处理区域的处理可以分为下述三个步骤:
第一步:通过所述神经网络模型的编码单元可以先对所述待处理区域进行编码,得到所述待处理区域的编码结果。其中,编码单元可以由多层深度卷积网络及下采样层构成。例如,可以将256*256*3的待处理区域编码为4*4*512的编码结果。
第二步:通过所述神经网络模型的编辑单元对所述编码结果进行编辑,得到所述编码结果的编辑结果。其中,编辑单元可以由多层深度卷积网络和跳层链接结构构成,可以对图片的编码结果进行编辑。
第三步:通过所述神经网络模型的解码单元对所述编码结果的编辑结果进行解码,得到所述待处理区域的处理结果。其中,解码单元有多层深度卷积网络和上采样层构成,可以将经过编辑单元编辑后的编码结果解码为256*256*3的图像化处理结果。
在一个可能的场景中,目标对象为人脸图像中的人脸,目标对象处理指令中的待处理部位为嘴巴和眼睛,且嘴巴的编辑内容为调小,眼睛的编辑内容为佩戴虚拟眼镜。则可以将嘴巴的待处理区域输入至嘴巴对应的神经网络模型中,该神经网络模型的编码单元将尺寸为256*256的R(红色)、G(绿色)、B(蓝色)三通道的待处理区域编码为尺寸4*4的512通道的特征图,该神经网络模型的编辑单元对特征图进行调小方式的编辑,得到特征图的编辑结果,该神经网络模型的解码单元对特征图的编辑结果进行解码,得到尺寸为256*256的R(红色)、G(绿色)、B(蓝色)三通道的嘴巴区域的处理结果;可以将眼睛的待处理区域输入至眼睛对应的神经网络模型中,该神经网络模型的编码单元将尺寸为256*256的R(红色)、G(绿色)、B(蓝色)三通道的待处理区域编码为尺寸4*4的512通道的特征图,该神经网络模型的编辑单元对特征图进行佩戴眼睛方式的编辑,得到特征图的编辑结果,该神经网络模型的解码单元对特征图的编辑结果进行解码,得到尺寸为256*256的R(红色)、G(绿色)、B(蓝色)三通道的眼睛区域的处理结果。
本实施例中,通过神经网络模型对待处理区域进行处理,自动化强,标准化强,处理结果较为规范准确,而且运算效率较高。
本公开的一些实施例中,可以按照下述方式根据每个所述待处理区域在所述待处理图像中的位置,将对应的所述待处理区域的处理结果融合至所述待处理图像,得到所述目标图像:首先,根据每个所述待处理区域在所述待处理图像中的位置,确定对应的所述待处理区域的掩膜;接下来,对每个所述掩膜进行边缘模糊化处理,得到每个所述掩膜的模糊化结果;最后,根据所述掩膜的模糊化结果,将对应的所述待处理区域的处理结果融合至所述待处理图像,得到目标图像。
其中,可以采用羽化操作或图像腐蚀操作等完成掩膜的模糊化处理;可以利用拉普拉斯融合方式和/或泊松融合方式将所述待处理区域的处理结果融合至所述待处理图像。
本实施例中,通过掩膜找到待处理区域的原子化处理结果应该反贴的区域,且通过对掩膜进行边缘模糊化处理能够使待处理区域的处理结果更容易融入待处理图像中,而且使用拉普拉斯融合方式和/或泊松融合方式能够使融合效果较为自然,真实感较强。
请参照附图3,其示例性的示出了利用本申请提供的图像处理方法进行人脸编辑的完成流程,该流程包括步骤1至步骤3。
首先执行步骤1:将人脸图像的原图输入人脸分割模块进行分割,得到眼睛区域(eye)、眼眉区域(eyebrow)、嘴巴区域(mouth)、头发区域(hair)和脸部轮廓区域(face)。具体的,人脸分割模块可以先检测人脸图像的原图,得到眼睛、眼眉、嘴巴、头发和脸部轮廓的掩膜(mask)和/或关键点,然后对每个掩膜和/或关键点组(即眼睛的所有关键点组成的关键点组、眼眉的所有关键点组成的关键点组、嘴巴的所有关键点组成的关键点组、头发的所有关键点组成的关键点组、脸部轮廓的所有关键点组成的关键点组)求取能够包含完整掩膜和/或关键点组的最小矩形框,最后使用每个区域的最小矩形框对人脸的各个区域进行裁减,得到眼睛区域、眼眉区域、嘴巴区域、头发区域和脸部轮廓区域。
然后执行步骤2:然后将眼睛区域、眼眉区域、嘴巴区域、头发区域和脸部轮廓区域分别输入至各自对应的原子化模型中,每个原子化模型输出对应区域的处理结果。例如将眼睛区域输入至模型1,模型1输出眼睛区域的处理结果(style eye),将眼眉区域输入至模型2,模型2输出眼眉区域的处理结果(style eyebrow),将嘴巴区域输入至模型3,模型3输出嘴巴区域的处理结果(style mouth),将头发区域输入至模型4,模型4输出头发区域的处理结果(style hair),将脸部轮廓区域输入至模型5,模型5输出脸部轮廓区域的处理结果(style face)。具体过程可以参照附图4,首先输入眼睛区域、眼眉区域、嘴巴区域、头发区域和脸部轮廓区域等人脸区域至对应的人脸区域编码器,人脸区域编码器由多层深度卷积网络及下采样层构成,可以将256*256*3的图片编码为4*4*512的编码;然后将编码输入至人脸信息处理模块,人脸信息处理模块由多层深度卷积网络和跳层链接结构构成,可以对图片的编码进行处理;最后将上述处理结果输入至人脸编辑区域解码器,人脸编辑区域解码器有多层深度卷积网络和上采样层构成,可以将经过人脸信息处理模块处理后的编码解码为256*256*3的编辑后图片,并输出处理之后的人脸区域。
最后执行步骤3:人脸融合模块利用掩膜找到原子化结果应该反贴的区域,使用羽化操作让原子化结果的边缘更易融入原始人脸图片,然后使用拉普拉斯融合和泊松融合将原子化编辑结果融入人脸图像的原图,完成编辑过程,得到最终的目标图像(output)。
本实施例利用人脸关键点、掩膜和人脸分割算法,将人脸需编辑区域分割开,然后选择不同区域所需的编辑效果,将所需编辑的区域输入对应区域的原子化模型,得到编辑后的区域效果,最后,利用融合算法和图像修复算法将编辑后区域与原始人脸进行融合,完成编辑过程。利用原子化编辑思想,可以将不同区域的编辑要求解耦开,即对于不同区域的编辑效果不会互相影响,能够保证编辑效果稳定性;利用人脸分区域输入的方式,大大减少编辑区域增加所带来的计算耗时线性增加的问题;不同原子化模型可以自由组合,只需要少量的模型就可以组合出大量的人脸编辑效果。
根据本公开实施例的第二方面,提供一种图像处理装置,请参照附图4,所述装置包括:
获取模块401,用于获取待处理图像,其中,所述待处理图像包括目标对象;
分割模块402,用于根据目标对象处理指令对所述待处理图像进行分割,得到所述目标对象的多个待处理区域;
处理模块403,用于根据所述目标对象处理指令对多个所述待处理区域进行并行处理,得到每个所述待处理区域的处理结果;
融合模块404,用于将多个所述待处理区域的处理结果和所述待处理图像进行融合,得到目标图像。
在本公开的一些实施例中,所述目标对象包括人物;所述分割模块具体用于:
获取所述目标对象处理指令中的多个待处理部位,其中,所述待处理部位为所述人物的局部区域;
对所述待处理图像中所述人脸的每个所述待处理部位进行检测,得到每个所述待处理部位的检测结果;
根据每个所述待处理部位的检测结果对所述待处理图像进行分割,得到多个所述待处理区域。
在本公开的一些实施例中,所述待处理部位的检测结果包括关键点和掩膜中的至少一项。
在本公开的一些实施例中,所述分割模块用于根据每个所述待处理部位的检测结果对所述待处理图像进行分割,得到多个所述待处理区域时,具体用于:
根据每个所述待处理部位的检测结果,确定每个所述待处理部位的边界框,其中,所述边界框为包围所述待处理部位的最小矩形框;
根据每个所述边界框对所述待处理图像进行裁剪,并将每个所述边界框内的图像块作为对应的所述待处理部位的待处理区域。
在本公开的一些实施例中,所述处理模块具体用于:
根据所述目标对象处理指令中每个所述待处理部位的编辑内容,确定每个待处理部位对应的神经网络模型;
将每个所述待处理部位的所述待处理区域输入至所述待处理部位对应的神经网络模型中,每个所述神经网络模型输出对应的所述待处理区域的处理结果。
在本公开的一些实施例中,所述处理模块用于控制每个所述神经网络模型输出对应的所述待处理区域的处理结果时,具体用于:
通过所述神经网络模型的编码单元对所述待处理区域进行编码,得到所述待处理区域的编码结果;
通过所述神经网络模型的编辑单元对所述编码结果进行编辑,得到所述编码结果的编辑结果;
通过所述神经网络模型的解码单元对所述编码结果的编辑结果进行解码,得到所述待处理区域的处理结果。
在本公开的一些实施例中,不同的所述待处理部位的编辑内容对应的风格类型相同或不同。
在本公开的一些实施例中,所述融合模块具体用于:
根据每个所述待处理区域在所述待处理图像中的位置,将对应的所述待处理区域的处理结果融合至所述待处理图像,得到所述目标图像。
在本公开的一些实施例中,所述融合模块用于根据每个所述待处理区域在所述待处理图像中的位置,将对应的所述待处理区域的处理结果融合至所述待处理图像,得到所述目标图像时,具体用于:
根据每个所述待处理区域在所述待处理图像中的位置,确定每个所述待处理区域的掩膜;
对每个所述掩膜进行边缘模糊化处理,得到每个所述掩膜的模糊化结果;
根据每个所述掩膜的模糊化结果,将对应的所述待处理区域的处理结果融合至所述待处理图像,得到目标图像。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在第三方面有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
第三方面,本公开至少一个实施例提供了一种设备,请参照附图5,其示出了该设备的结构,所述设备包括存储器、处理器,所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时基于第一方面任一项所述的方法对图像进行处理。
第四方面,本公开至少一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现第一方面任一项所述的方法。
本公开涉及增强现实领域,通过获取现实环境中的目标对象的图像信息,进而借助各类视觉相关算法实现对目标对象的相关特征、状态及属性进行检测或识别处理,从而得到与具体应用匹配的虚拟与现实相结合的AR效果。示例性的,目标对象可涉及与人体相关的脸部、肢体、手势、动作等,或者与物体相关的标识物、标志物,或者与场馆或场所相关的沙盘、展示区域或展示物品等。视觉相关算法可涉及视觉定位、SLAM、三维重建、图像注册、背景分割、对象的关键点提取及跟踪、对象的位姿或深度检测等。具体应用不仅可以涉及跟真实场景或物品相关的导览、导航、讲解、重建、虚拟效果叠加展示等交互场景,还可以涉及与人相关的特效处理,比如妆容美化、肢体美化、特效展示、虚拟模型展示等交互场景。可通过卷积神经网络,实现对目标对象的相关特征、状态及属性进行检测或识别处理。上述卷积神经网络是基于深度学习框架进行模型训练而得到的网络模型。
在本公开中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (12)
1.一种图像处理方法,其特征在于,包括:
获取待处理图像,其中,所述待处理图像包括目标对象;
根据目标对象处理指令对所述待处理图像进行分割,得到所述目标对象的多个待处理区域;
根据所述目标对象处理指令对多个所述待处理区域进行并行处理,得到每个所述待处理区域的处理结果;
将多个所述待处理区域的处理结果和所述待处理图像进行融合,得到目标图像。
2.根据权利要求1所述的图像处理方法,其特征在于,所述目标对象包括人物;所述根据目标对象处理指令对所述待处理图像进行分割,得到所述目标对象的多个待处理区域,包括:
获取所述目标对象处理指令中的多个待处理部位,其中,所述待处理部位为所述人物的局部区域;
对所述待处理图像中所述人物的每个所述待处理部位进行检测,得到每个所述待处理部位的检测结果;
根据每个所述待处理部位的检测结果对所述待处理图像进行分割,得到多个所述待处理区域。
3.根据权利要求2所述的图像处理方法,其特征在于,所述待处理部位的检测结果包括关键点和掩膜中的至少一项。
4.根据权利要求2或3所述的图像处理方法,其特征在于,所述根据每个所述待处理部位的检测结果对所述待处理图像进行分割,得到多个所述待处理区域,包括:
根据每个所述待处理部位的检测结果,确定每个所述待处理部位的边界框,其中,所述边界框为包围所述待处理部位的最小矩形框;
根据每个所述边界框对所述待处理图像进行裁剪,并将每个所述边界框内的图像块作为对应的所述待处理部位的待处理区域。
5.根据权利要求1至4任一项所述的图像处理方法,其特征在于,所述根据所述目标对象处理指令对多个所述待处理区域进行并行处理,得到每个所述待处理区域的处理结果,包括:
根据所述目标对象处理指令中每个所述待处理部位的编辑内容,确定每个待处理部位对应的神经网络模型;
将每个所述待处理部位的所述待处理区域输入至所述待处理部位对应的神经网络模型中,每个所述神经网络模型输出对应的所述待处理区域的处理结果。
6.根据权利要求5所述的图像处理方法,其特征在于,每个所述神经网络模型输出对应的所述待处理区域的处理结果,包括:
通过所述神经网络模型的编码单元对所述待处理区域进行编码,得到所述待处理区域的编码结果;
通过所述神经网络模型的编辑单元对所述编码结果进行编辑,得到所述编码结果的编辑结果;
通过所述神经网络模型的解码单元对所述编码结果的编辑结果进行解码,得到所述待处理区域的处理结果。
7.根据权利要求5所述的图像处理方法,其特征在于,不同的所述待处理部位的编辑内容对应的风格类型相同或不同。
8.根据权利要求1至7任一项所述的图像处理方法,其特征在于,所述将多个所述待处理区域的处理结果和所述待处理图像进行融合,得到目标图像,包括:
根据每个所述待处理区域在所述待处理图像中的位置,将对应的所述待处理区域的处理结果融合至所述待处理图像,得到所述目标图像。
9.根据权利要求8所述的图像处理方法,其特征在于,所述根据每个所述待处理区域在所述待处理图像中的位置,将对应的所述待处理区域的处理结果融合至所述待处理图像,得到所述目标图像,包括:
根据每个所述待处理区域在所述待处理图像中的位置,确定每个所述待处理区域的掩膜;
对每个所述掩膜进行边缘模糊化处理,得到每个所述掩膜的模糊化结果;
根据每个所述掩膜的模糊化结果,将对应的所述待处理区域的处理结果融合至所述待处理图像,得到目标图像。
10.一种图像处理装置,其特征在于,包括:
获取模块,用于获取待处理图像,其中,所述待处理图像包括目标对象;
分割模块,用于根据目标对象处理指令对所述待处理图像进行分割,得到所述目标对象的多个待处理区域;
处理模块,用于根据所述目标对象处理指令对多个所述待处理区域进行并行处理,得到每个所述待处理区域的处理结果;
融合模块,用于将多个所述待处理区域的处理结果和所述待处理图像进行融合,得到目标图像。
11.一种电子设备,其特征在于,所述设备包括存储器、处理器,所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现权利要求1至9任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至9任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210108220.0A CN114445427A (zh) | 2022-01-28 | 2022-01-28 | 图像处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210108220.0A CN114445427A (zh) | 2022-01-28 | 2022-01-28 | 图像处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114445427A true CN114445427A (zh) | 2022-05-06 |
Family
ID=81371203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210108220.0A Pending CN114445427A (zh) | 2022-01-28 | 2022-01-28 | 图像处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114445427A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115601811A (zh) * | 2022-10-17 | 2023-01-13 | 北京京东拓先科技有限公司(Cn) | 面部痤疮的检测方法和装置 |
-
2022
- 2022-01-28 CN CN202210108220.0A patent/CN114445427A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115601811A (zh) * | 2022-10-17 | 2023-01-13 | 北京京东拓先科技有限公司(Cn) | 面部痤疮的检测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110515452B (zh) | 图像处理方法、装置、存储介质和计算机设备 | |
CN111243093B (zh) | 三维人脸网格的生成方法、装置、设备及存储介质 | |
CN111583097A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN108876886B (zh) | 图像处理方法、装置和计算机设备 | |
Fyffe et al. | Multi‐view stereo on consistent face topology | |
CN111008927B (zh) | 一种人脸替换方法、存储介质及终端设备 | |
US11482041B2 (en) | Identity obfuscation in images utilizing synthesized faces | |
CN113012282A (zh) | 三维人体重建方法、装置、设备及存储介质 | |
CN113657357B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN113570684A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
Wenninger et al. | Realistic virtual humans from smartphone videos | |
CN111127309B (zh) | 肖像风格迁移模型训练方法、肖像风格迁移方法以及装置 | |
CN110660076A (zh) | 一种人脸交换方法 | |
Reinert et al. | Animated 3D creatures from single-view video by skeletal sketching. | |
CN113808005A (zh) | 一种基于视频驱动的人脸姿态迁移方法及装置 | |
CN111028318A (zh) | 一种虚拟人脸合成方法、系统、装置和存储介质 | |
CN114445427A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN110675413B (zh) | 三维人脸模型构建方法、装置、计算机设备及存储介质 | |
CN115546011A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
Hu et al. | HVTR++: Image and Pose Driven Human Avatars using Hybrid Volumetric-Textural Rendering | |
CN112561784B (zh) | 图像合成方法、装置、电子设备及存储介质 | |
KR20090050910A (ko) | 디지털 만화책 제작 방법 및 장치 | |
CN114494556A (zh) | 一种特效渲染方法、装置、设备及存储介质 | |
Diaz et al. | Region dependent mesh refinement for volumetric video workflows | |
CN117274504B (zh) | 智能名片的制作方法、智能销售系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |