CN112766079A - 一种基于内容风格分离的无监督图像到图像翻译方法 - Google Patents
一种基于内容风格分离的无监督图像到图像翻译方法 Download PDFInfo
- Publication number
- CN112766079A CN112766079A CN202011640875.XA CN202011640875A CN112766079A CN 112766079 A CN112766079 A CN 112766079A CN 202011640875 A CN202011640875 A CN 202011640875A CN 112766079 A CN112766079 A CN 112766079A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- style
- information
- characteristic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013519 translation Methods 0.000 title claims abstract description 30
- 238000000926 separation method Methods 0.000 title claims abstract description 18
- 230000000007 visual effect Effects 0.000 claims abstract description 25
- 230000004044 response Effects 0.000 claims abstract description 14
- 230000004927 fusion Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 238000007499 fusion processing Methods 0.000 claims description 4
- BWJYPABMMFBINC-UHFFFAOYSA-N n-[2-(4-azido-3-iodophenyl)ethyl]-4-[[2-(3,4-dihydroxyphenyl)-2-hydroxyethyl]amino]pentanamide Chemical compound C=1C=C(O)C(O)=CC=1C(O)CNC(C)CCC(=O)NCCC1=CC=C(N=[N+]=[N-])C(I)=C1 BWJYPABMMFBINC-UHFFFAOYSA-N 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 241000282326 Felis catus Species 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本公开的实施例公开了无监督图像到图像的翻译方法。该方法的一具体实施方式包括:获取初始图像,将初始图像缩放到特定尺寸;通过编码器对初始图像进行空间特征提取,得到特征信息;将特征信息输入至内容风格分离模块,得到内容特征信息和风格特征信息;响应于获取到参考图像,生成参考图像的参考风格特征信息,响应于未获取到参考图像,则将参考风格特征信息设置为与风格特征信息形状一致的高斯噪声;将内容特征信息与参考风格特征信息,输入至生成器,得到将初始图像翻译成参考图像风格的目标图像;将目标图像缩放到与初始图像相匹配的尺寸,得到最终目标图像。该实施方式可以应用于多种不同的高级视觉任务,提升了整个系统的可扩展性。
Description
技术领域
本公开的实施例涉及计算机视觉和图像处理技术领域,具体涉及无监督图像到图像的翻译方法。
背景技术
图像到图像的翻译由于可以学习不同视觉域之间的映射而受到广泛关注。在现在社交媒体或聊天软件中,许多将聊天的对象转换成可爱的动物,并且聊天的过程中转换之后的动物表情与原对象保持一致。或者更换聊天背景的风格,同时保持背景的空间结构信息。或者在增强现实应用的虚实结合的场景中需要将虚拟场景与真实场景进行互换等,都是图像到图像的典型应用。Pix2pix(pixels to pixels,像素点到像素点转换工具)是第一个使用条件生成对抗网络来进行图像到图像的翻译。并在此基础上,一系列的探索应用图像到图像转换技术处理其他计算机视觉任务。如图像超分辨率、图像着色、风格迁移和其他低层级的图像任务。
为了减少实际应用中成对训练数据的缺乏,Zhu等人使用一致性约束并提出了循环生成对抗网络(简称:CycleGAN),其中引入额外的生成器将目标域的图像映射到源域的图像,完成无监督的图像到图像的翻译任务。通过架设源域的图像与目标域的图像共享一个共同的内容空间,Liu等人在UNIT(UNsupervised Image-to-image Translationnetworks,无监督图像到图像翻译网络)中提出了一种基于对抗生成网络与变分自编码器的无监督图像到图像翻译的方法。基于这两个方法,许多工作将注意力机制应用到了该任务上。
一些工作将图像到图像翻译的任务由一对一扩展到一对多。通过假设一个图像可以分解为领域无关的内容编码和领域相关的风格编码,CIIT(Conditional Iage-to-ImageTranslation,条件语言与图像翻译),EG-UNIT(Exemplar Guided Unsupervised Image-to-image Translation with semantic consistency,语义一致性的范例引导无监督图像到图像的翻译),MUNIT(Multimodal UNsupervised Image-to-image Translationnetworks,多模态无监督图像到图像翻译网络)以及DRIT(DiveRse Image-to-imageTranslation via disentangled representations,基于非纠缠表示的图像到图像的多样性翻译)等方法在两个图像域之间学习一对多的映射。其他方法在图像翻译的过程中加入额外的约束来提高图像中风格和内容解耦的效果。然而,上述方法通过两个独立的编码器来分别提取图像的内容特征信息和风格特征信息,而不是利用一个统一的框架。因此,这一类方法的缺点在于:1、不能保证内容的特征有效地关注到图像中有意义的物体上。2、风格特征往往关注于整张图像的外观,无法有效提取出不同物体的不同风格。
针对上述的这两个缺点,一些研究通过引入高级视觉任务来作为额外的约束。例如Wu等人提出使用物体关键点检测来约束图像的内容特征。Shen等人在图像到图像翻译的方法中加入图像中物体的检测技术,来分别提取一张图像中不同物体的内容信息和风格信息。Roy等人在方法中加入图像场景的语义解析,来确保内容特征学习到与图像语义相关的特征。这一类方法的缺点在于需要针对特定的高级视觉任务来设计不同的网络架构,如果新的数据上不能提供对应的高级视觉信息,同一个方法难以扩展到多个图像到图像翻译的任务中去。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了无监督图像到图像的翻译方法,来解决以上背景技术部分提到的技术问题中的一项或多项。
根据上述实际需求和技术难题,本发明的目的在于:提出一个统一框架来实现不同场景下的图像到图像翻译的方法,通过在特征空间中衡量特征信息与高级视觉任务的相关性来分离图像的内容特征信息与风格特征信息。通过组合初始图像的内容特征信息与参考图像的参考风格特征信息来生成翻译之后的目标图像。本方法的训练数据不需要成对的数据,仅使用两个不同类别的图像集合即可完成训练。同时,本方法通过提出一种特征融合方法,有效降低水滴现象对生成图像的影响,得到更好的图像生成质量。
本公开的上述各个实施例具有如下有益效果:发明了一种统一架构来提取图像的内容特征信息与风格特征信息,并且能应用于多种不同的高级视觉任务,十分灵活,提升了整个系统的可扩展性。发明了一种新型的图像内容特征与风格特征的分离模块。通过计算在特征空间中衡量提取的图像空间特征与高级视觉任务的相关性。其中提取相关度大于等于预定阈值的部分作为内容特征信息,提取相关度小于预定阈值的部分为风格特征信息。有利于保证内容特征信息稳定关注在图像中有效的物体上。同时使得风格特征信息包含图像中的不同物体。通过在生成器中使用归一化的特征融合方法,对现有方法修改幅度小。可以方便快速地扩展到其他方法中去。有效降低水滴现象对生成图像的影响,能够使得方法更加稳健地生成结果,得到更好质量的目标图像。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的一些实施例的无监督图像到图像的翻译方法的一些实施例的流程图;
图2是根据本公开的无监督图像到图像的翻译方法的一些实施例的流程图;
图3是根据本公开的一些实施例的无监督图像到图像的翻译方法的一个应用场景的示意图;
图4是根据本公开的一些实施例的无监督图像到图像的翻译方法的另一个应用场景的示意图;
图5是根据本公开的一些实施例的无监督图像到图像的翻译方法的再一个应用场景的示意图;
图6是根据本公开的一些实施例的无监督图像到图像的翻译方法的另一个应用场景的示意图;
图7是根据本公开的一些实施例的无监督图像到图像的翻译方法的再一个应用场景的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
下面将参考附图并结合实施例来详细说明本公开。
图1是根据本公开的一些实施例的无监督图像到图像的翻译方法的一些实施例的流程图。
参阅图1本发明的基于内容风格分离的无监督图像到图像翻译方法的基本操作是输入一张初始图像。如图3所示,以视频聊天中将人像转换成猫的头像为例,如果需要指定风格的图片,需要再输入一张参考图像(指定毛色、品种的猫),如图6所示,输出与参考图像风格一致的目标图像,如图7所示。
继续参考图2,示出了根据本公开的无监督图像到图像的翻译方法的一些实施例的流程200。该无监督图像到图像的翻译方法,包括以下步骤:
步骤201,在测试过程中,获取初始图像,将初始图像缩放到特定尺寸。
在一些实施例中,无监督图像到图像的翻译方法的执行主体可以获取初始图像,将初始图像缩放到特定尺寸。其中,初始图像可以是来自预定类别的图像。
作为示例,预定类别的图像可以是图的前景是同一种物体(猫,男人等),或者图像内容都是同一种画风(夏季,仿真场景等)的图像。
步骤202,通过编码器对初始图像进行空间特征提取,得到特征信息。
在一些实施例中,执行主体可以通过编码器对初始图像进行空间特征提取,得到特征信息。其中,特征信息的表现形式为四维张量。其中,编码器是用于分离内容特征信息和风格特征信息的编码器。其中,编码器提取的初始图像的空间特征信息被用于高层的视觉任务。
作为示例,高层的视觉任务可以是图像分类,目标关键点检测,或图像语义分割等。四维张量中不同维度的信息分别代表着:批量、通道、高度和宽度。该四维张量可以进一步完成初始图像对应的高级视觉任务,如图5所示。
首先,对于输入图像,该统一结构的编码器可以完成图像内容特征信息与风格特征信息的分离,同时完成对应的高级视觉任务。编码器的计算方式如下:
c,s,H=E(F(x))。
其中,C表示内容特征信息。S表示风格特征信息。H表示高级视觉任务。E表示特征分离模块。F( )表示特征提取器。F(x)表示特征提取器对初始图像进行提取得到的特征信息。X表示初始图像。
该编码器的重要意义在于,首先,可以只通过一个特征提取器来进行高级视觉任务的特征提取,提取得到的特征信息如图4所示。该特征信息能够应用于多种不同的高级视觉任务,十分灵活,提升了整个系统在不同数据上的可扩展性。其次,可以将内容特征信息与风格特征信息的分类和高级视觉任务通过多任务学习的方式来自适应地优化内容特征学习与风格特征学习。确保内容特征有效关注在图像中于高级视觉相关的物体上,提升目标图像的准确性。风格特征信息也会包含更多图像中不同物体的风格,而不是局限于图片的整体风格,提升目标图像的丰富度。
步骤203,将特征信息输入至内容风格分离模块,得到内容特征信息和风格特征信息。
在一些实施例中,执行主体可以将特征信息输入至内容风格分离模块,得到内容特征信息和风格特征信息。其中,内容特征信息表现形式为四维张量,风格特征信息表现形式为二维张量。内容风格分离模块用于分离内容特征信息与风格特征信息。内容风格分离模块是具有选择、压缩和提取功能的模块。
作为示例,将提取的特征输入到具有选择、压缩、提取功能的模块,进行内容风格的分离。在通道维度上进行特征与高级视觉任务的相关性计算,将相关性大于等于预定阈值的部分分离得到内容特征信息,将相关性小于预定阈值的部分分离得到图像对应的风格特征信息。
在一些实施例的一些可选的实现方式中,内容风格分离模块包括内容特征提取模块和风格特征提取模块,其中:
内容特征提取模块,用于提取初始图像的空间特征中的不同通道中的信息与高级视觉任务的相关性,将对应相关度大于等于预定阈值的部分提取出来作为内容特征信息。
风格特征提取模块,用于提取初始图像的空间特征中的不同通道中的信息与高级视觉任务的相关性,将对应相关度低于预定阈值的部分提取出来,并通过池化层处理,作为风格特征信息。
作为示例,通过特征提取器对输入图像进行高级视觉任务的特征提取,在人脸图像转换成猫脸图像的任务中,高级视觉任务的示意如图5所示,脸部不同种类的语义可以辅助图像内容特征信息与风格特征信息的生成。具体地,基于高级视觉特征,首先通过自适应的平均池化来对提取的特征的不同通道之间的特征信息。为了更加准确地描述不同通道的特征信息与高级视觉任务之间的相关性。将上一步得到的通道间的特征信息通过一个多层感知机进行非线性映射,得到特征中每个通道与高级视觉任务的相关性列表,列表中每个元素代表对应通道与高级视觉任务的相关性系数。进一步,对该列表进行降序排序,排好序的列表中越靠前的元素对应的特征,有着与高级任务更好的相关性。因此,内容特征信息与风格特征信息的分离计算方式如下:
其中,I表示内容特征信息与风格特征信息的分离计算方式中的索引信息。index_of_descent_sort( )表示降序排列的元素索引。Φ1表示多层感知机。X表示初始图像。F(x)表示特征提取器对初始图像进行提取得到的特征信息。Ψ( )表示自适应平均池化。Ic表示内容特征信息的索引信息。c表示内容特征信息。a表示特征信息的通道维度的数目。r表示提取比例。r的取值范围为r∈(0,1)。c表示内容特征信息。S表示风格特征信息。表示以Ic为索引的特征信息。Φ2表示由三个卷积层与平均池化层组成的卷积神经网络。表示以I\IC为索引的特征信息。I\IC表示将I中排除IC后的索引信息。
步骤204,响应于获取到参考图像,基于参考图像、编码器和内容风格分离模块,生成参考图像的参考风格特征信息,响应于未获取到参考图像,则将参考风格特征信息设置为与风格特征信息形状一致的高斯噪声。
在一些实施例中,执行主体可以响应于获取到参考图像,基于参考图像、编码器和内容风格分离模块,生成参考图像的参考风格特征信息。响应于未获取到参考图像,则将参考风格特征信息设置为与风格特征信息形状一致的高斯噪声。
在一些实施例的一些可选的实现方式中,参考图像是与初始图片的类别不同的图像;以及响应于未获取到参考图像,则将参考风格特征信息设置为与风格特征信息形状一致的高斯噪声,可以包括以下步骤:
响应于未获取到参考图像,对应的参考图像的参考风格信息被设置为与初始图像的风格特征信息相匹配形状的张量,其中,张量中的每个元素为来自均值为0,方差为1的高斯噪声。
作为示例,响应于未获取到参考图像的情况下,风格特征信息设置为:
其中,S表示风格特征信息。m表示特征元素。mij表示第i行,第j列的特征元素。b表示批量的大小。c表示超参数。c的取值可以为8。N(0,1)表示均值为0方差为1的高斯分布。具体而言,对于未获取到参考图像的应用场景,本发明会随机产生一种风格特征信息,进而产生出一种随机的目标图像。
步骤205,将内容特征信息与参考风格特征信息,输入至生成器,得到将初始图像翻译成参考图像风格的目标图像。
在一些实施例中,执行主体可以将内容特征信息与参考风格特征信息,输入至生成器,得到将初始图像翻译成参考图像风格的目标图像。
在一些实施例的一些可选的实现方式中,生成器包括特征融合模块和带有特征融合功能的图像生成器,其中,特征融合模块是利用风格特征信息指导内容特征信息生成的模块,其中:
特征融合模块,用于对风格特征信息进行非线性映射,并进行特征融合,得到特征融合后的风格特征信息,其中,特征融合后的风格特征信息用于调整内容特征信息的均值和方差,融合风格特征信息与内容特征信息。
特征融合模块包括的计算方式如下:
其中,σ()表示Sigmoid归一化函数。z表示特征信息对应的特征值。σ(z)表示对z归一化后的特征信息对应的特征值。exp()表示以自然常数为底的指数函数。-z表示特征信息对应的特征值的负数。exp(-z)表示以自然常数为底的-Z的指数函数。NAIN表示特征融合处理得到的特征信息对应的特征值。γ表示在多层感知机中习得的特征尺度信息对应的特征值。β表示在多层感知机中习得的特征偏移信息对应的特征值。NAIN(z,γ,β)表示z、γ、β经过特征融合处理得到的特征信息对应的特征值。σ(γ)表示对γ归一化后的特征信息对应的特征值。σ(z)表示对z归一化后的特征信息对应的特征值。μ(z)表示z的均值。σ(β)表示对β进行归一化后的特征信息对应的特征值。
带有特征融合功能的图像生成器,用于与特征融合模块相结合,融合内容特征信息与风格特征信息,并进一步经过多次卷积和上采样,生成翻译后的目标图像。
作为示例,在具体实施中,水滴现象经常发生在生成的图像中,影响图像的生成质量。本发明中提出使用归一化的特征融合方法来解决水滴现象,提高生成的图像质量。水滴现象可以很好地被特征融合模块所解决,图像的风格特征信息可以很好地指导生成器来重建高质量的图片。
步骤206,将目标图像缩放到与初始图像相匹配的尺寸,得到最终目标图像。
在一些实施例中,执行主体可以将目标图像缩放到与初始图像相匹配的尺寸,得到最终目标图像。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (6)
1.一种无监督图像到图像的翻译方法,包括:
在测试过程中,获取初始图像,将初始图像缩放到特定尺寸;
通过编码器对初始图像进行空间特征提取,得到特征信息,其中,特征信息的表现形式为四维张量;
将特征信息输入至内容风格分离模块,得到内容特征信息和风格特征信息,其中,内容特征信息表现形式为四维张量,风格特征信息表现形式为二维张量;
响应于获取到参考图像,基于参考图像、编码器和内容风格分离模块,生成参考图像的参考风格特征信息,响应于未获取到参考图像,则将参考风格特征信息设置为与风格特征信息形状一致的高斯噪声;
将内容特征信息与参考风格特征信息,输入至生成器,得到将初始图像翻译成参考图像风格的目标图像;
将目标图像缩放到与初始图像相匹配的尺寸,得到最终目标图像。
2.根据权利要求1所述的方法,其中,初始图像是来自预定类别的图像。
3.根据权利要求2所述的方法,其中,编码器是用于分离内容特征信息和风格特征信息的编码器,其中,编码器提取的初始图像的空间特征信息被用于高级视觉任务。
4.根据权利要求3所述的方法,其中,内容风格分离模块用于分离内容特征信息与风格特征信息,其中,内容风格分离模块是具有选择、压缩和提取功能的模块,内容风格分离模块包括内容特征提取模块和风格特征提取模块,其中:
内容特征提取模块,用于提取初始图像的空间特征中的不同通道中的信息与高级视觉任务的相关性,将对应相关度大于等于预定阈值的部分提取出来作为内容特征信息;
风格特征提取模块,用于提取初始图像的空间特征中的不同通道中的信息与高级视觉任务的相关性,将对应相关度低于预定阈值的部分提取出来,并通过池化层处理,作为风格特征信息。
5.根据权利要求4所述的方法,其中,参考图像是与初始图片的类别不同的图像;以及
响应于未获取到参考图像,则将参考风格特征信息设置为与风格特征信息形状一致的高斯噪声,包括:
响应于未获取到参考图像,对应的参考图像的参考风格信息被设置为与初始图像的风格特征信息相匹配形状的张量,其中,张量中的每个元素为来自均值为0,方差为1的高斯噪声。
6.根据权利要求5所述的方法,其中,生成器包括特征融合模块和带有特征融合功能的图像生成器,其中,特征融合模块是利用风格特征信息指导内容特征信息生成的模块,其中:
特征融合模块,用于对风格特征信息进行非线性映射,并进行归一化,得到归一化后的风格特征信息,其中,归一化后的风格特征信息用于调整内容特征信息的均值和方差,融合风格特征信息与内容特征信息;
特征融合模块包括的计算方式如下:
其中,σ()表示Sigmoid归一化函数,z表示特征信息对应的特征值,σ(z)表示对z归一化后的特征信息对应的特征值,exp()表示以自然常数为底的指数函数,-Z表示特征信息对应的特征值的负数,exp(-z)表示以自然常数为底的-z的指数函数,NAIN表示特征融合处理得到的特征信息对应的特征值,γ表示在多层感知机中习得的特征尺度信息对应的特征值,β表示在多层感知机中习得的特征偏移信息对应的特征值,NAIN(z,γ,β)表示z、γ、β经过特征融合处理得到的特征信息对应的特征值,σ(γ)表示对γ归一化后的特征信息对应的特征值,σ(z)表示对z归一化后的特征信息对应的特征值,μ(z)表示z的均值,σ(β)表示对β进行归一化后的特征信息对应的特征值;
带有特征融合功能的图像生成器,用于与特征融合模块相结合,融合内容特征信息与风格特征信息,并进一步经过多次卷积和上采样,生成翻译后的目标图像。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011640875.XA CN112766079B (zh) | 2020-12-31 | 2020-12-31 | 一种基于内容风格分离的无监督图像到图像翻译方法 |
US17/565,252 US12014475B2 (en) | 2020-12-31 | 2021-12-29 | Unsupervised image-to-image translation method based on style-content separation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011640875.XA CN112766079B (zh) | 2020-12-31 | 2020-12-31 | 一种基于内容风格分离的无监督图像到图像翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112766079A true CN112766079A (zh) | 2021-05-07 |
CN112766079B CN112766079B (zh) | 2023-05-26 |
Family
ID=75698489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011640875.XA Active CN112766079B (zh) | 2020-12-31 | 2020-12-31 | 一种基于内容风格分离的无监督图像到图像翻译方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US12014475B2 (zh) |
CN (1) | CN112766079B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255813A (zh) * | 2021-06-02 | 2021-08-13 | 北京理工大学 | 一种基于特征融合的多风格图像生成方法 |
CN113537401A (zh) * | 2021-08-13 | 2021-10-22 | 哈尔滨工程大学 | 一种基于改进的生成对抗网络的水下图像翻译方法 |
CN113936143A (zh) * | 2021-09-10 | 2022-01-14 | 北京建筑大学 | 基于注意力机制和生成对抗网络的图像识别泛化方法 |
CN115936972A (zh) * | 2022-09-27 | 2023-04-07 | 阿里巴巴(中国)有限公司 | 图像生成方法、遥感图像风格迁移方法以及装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11749021B2 (en) * | 2019-05-27 | 2023-09-05 | Nec Corporation | Retrieval device, control method, and non-transitory storage medium |
CN115082300B (zh) * | 2022-07-22 | 2022-12-30 | 中国科学技术大学 | 图像生成模型的训练方法、图像生成方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767328A (zh) * | 2017-10-13 | 2018-03-06 | 上海交通大学 | 基于少量样本生成的任意风格和内容的迁移方法和系统 |
CN110222722A (zh) * | 2019-05-14 | 2019-09-10 | 华南理工大学 | 交互式图像风格化处理方法、系统、计算设备及存储介质 |
CN110310221A (zh) * | 2019-06-14 | 2019-10-08 | 大连理工大学 | 一种基于生成对抗网络的多域图像风格迁移方法 |
CN110992252A (zh) * | 2019-11-29 | 2020-04-10 | 北京航空航天大学合肥创新研究院 | 一种基于潜变量特征生成的图像多风格转化方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10872399B2 (en) * | 2018-02-02 | 2020-12-22 | Nvidia Corporation | Photorealistic image stylization using a neural network model |
US11145042B2 (en) * | 2019-11-12 | 2021-10-12 | Palo Alto Research Center Incorporated | Using convolutional neural network style transfer to automate graphic design creation |
-
2020
- 2020-12-31 CN CN202011640875.XA patent/CN112766079B/zh active Active
-
2021
- 2021-12-29 US US17/565,252 patent/US12014475B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767328A (zh) * | 2017-10-13 | 2018-03-06 | 上海交通大学 | 基于少量样本生成的任意风格和内容的迁移方法和系统 |
CN110222722A (zh) * | 2019-05-14 | 2019-09-10 | 华南理工大学 | 交互式图像风格化处理方法、系统、计算设备及存储介质 |
CN110310221A (zh) * | 2019-06-14 | 2019-10-08 | 大连理工大学 | 一种基于生成对抗网络的多域图像风格迁移方法 |
CN110992252A (zh) * | 2019-11-29 | 2020-04-10 | 北京航空航天大学合肥创新研究院 | 一种基于潜变量特征生成的图像多风格转化方法 |
Non-Patent Citations (2)
Title |
---|
CHONG CAO 等: "Makeup Removal via Bidirectional Tunable De-Makeup Network", 《IEEE TRANSACTIONS ON MULTIMEDIA》, vol. 21, no. 11, 30 November 2019 (2019-11-30), XP011752247, DOI: 10.1109/TMM.2019.2911457 * |
聂锦燃;魏蛟龙;唐祖平;: "基于变分自编码器的无监督文本风格转换", vol. 34, no. 7 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255813A (zh) * | 2021-06-02 | 2021-08-13 | 北京理工大学 | 一种基于特征融合的多风格图像生成方法 |
CN113255813B (zh) * | 2021-06-02 | 2022-12-02 | 北京理工大学 | 一种基于特征融合的多风格图像生成方法 |
CN113537401A (zh) * | 2021-08-13 | 2021-10-22 | 哈尔滨工程大学 | 一种基于改进的生成对抗网络的水下图像翻译方法 |
CN113537401B (zh) * | 2021-08-13 | 2022-08-02 | 哈尔滨工程大学 | 一种基于改进的生成对抗网络的水下图像翻译方法 |
CN113936143A (zh) * | 2021-09-10 | 2022-01-14 | 北京建筑大学 | 基于注意力机制和生成对抗网络的图像识别泛化方法 |
CN113936143B (zh) * | 2021-09-10 | 2022-07-01 | 北京建筑大学 | 基于注意力机制和生成对抗网络的图像识别泛化方法 |
CN115936972A (zh) * | 2022-09-27 | 2023-04-07 | 阿里巴巴(中国)有限公司 | 图像生成方法、遥感图像风格迁移方法以及装置 |
CN115936972B (zh) * | 2022-09-27 | 2024-03-22 | 阿里巴巴(中国)有限公司 | 图像生成方法、遥感图像风格迁移方法以及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112766079B (zh) | 2023-05-26 |
US20220207649A1 (en) | 2022-06-30 |
US12014475B2 (en) | 2024-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Arevalo et al. | Gated multimodal networks | |
CN112766079A (zh) | 一种基于内容风格分离的无监督图像到图像翻译方法 | |
Kaur et al. | Comparative analysis on cross-modal information retrieval: A review | |
CN111191078B (zh) | 基于视频信息处理模型的视频信息处理方法及装置 | |
CN110750959B (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
JP7193252B2 (ja) | 画像の領域のキャプション付加 | |
CN106650813B (zh) | 一种基于深度残差网络和lstm的图像理解方法 | |
CN111324769B (zh) | 视频信息处理模型的训练方法、视频信息处理方法及装置 | |
Karayev et al. | Recognizing image style | |
CN113661487A (zh) | 使用机器训练词条频率加权因子的产生密集嵌入向量的编码器 | |
CN110704601A (zh) | 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 | |
CN112164067A (zh) | 一种基于多模态子空间聚类的医学图像分割方法及装置 | |
Huang et al. | A study on computer vision for facial emotion recognition | |
Halvardsson et al. | Interpretation of swedish sign language using convolutional neural networks and transfer learning | |
CN113283336A (zh) | 一种文本识别方法与系统 | |
CN115115745A (zh) | 自主创作型的数字艺术的生成方法、系统、存储介质及电子设备 | |
Khayyat et al. | A deep learning based prediction of arabic manuscripts handwriting style. | |
Bența et al. | Towards real-life facial expression recognition systems | |
CN113536015A (zh) | 一种基于深度辨识度迁移的跨模态检索方法 | |
Lei et al. | Learning and generation of personal handwriting style Chinese font | |
Di et al. | FDNet: An end-to-end fusion decomposition network for infrared and visible images | |
Pakulich et al. | Age recognition from facial images using convolutional neural networks | |
CN112560712B (zh) | 基于时间增强图卷积网络的行为识别方法、装置及介质 | |
Guo et al. | Capturing temporal structures for video captioning by spatio-temporal contexts and channel attention mechanism | |
CN113610080B (zh) | 基于跨模态感知的敏感图像识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |