CN113989174B - 图像融合方法和图像融合模型的训练方法、装置 - Google Patents
图像融合方法和图像融合模型的训练方法、装置 Download PDFInfo
- Publication number
- CN113989174B CN113989174B CN202111279602.1A CN202111279602A CN113989174B CN 113989174 B CN113989174 B CN 113989174B CN 202111279602 A CN202111279602 A CN 202111279602A CN 113989174 B CN113989174 B CN 113989174B
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- network
- decoding
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 165
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 title claims abstract description 50
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 31
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 238000007499 fusion processing Methods 0.000 claims abstract description 16
- 238000010606 normalization Methods 0.000 claims description 58
- 238000011176 pooling Methods 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 35
- 238000010586 diagram Methods 0.000 claims description 26
- 230000009466 transformation Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000004590 computer program Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Studio Circuits (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本公开提供了一种图像融合方法和图像融合模型的训练方法、装置、电子设备和存储介质,涉及人工智能领域,具体涉及计算机视觉和深度学习技术领域。该图像融合方法包括:对通过拼接前景图像和北京图像得到的拼接图像进行编码,得到特征图;以及通过以下方式解码特征图,得到融合图像:采用注意力机制对特征图进行加权处理,得到加权后特征图;基于加权后特征图的特征统计数据,对特征图进行融合处理,得到融合后特征;以及对融合后特征进行解码,获得融合图像。
Description
技术领域
本公开涉及人工智能领域,具体涉及计算机视觉和深度学习技术领域,更具体地涉及一种图像融合方法和图像融合模型的训练方法、装置、电子设备和存储介质。
背景技术
随着电子技术的发展,对图像进行融合的技术得到更广泛的应用。例如,在视频制作场景或视频通话场景中,为了提高用户体验,常常会存在需要将用户图像与预定的背景图像进行融合的需求。以期通过图像融合,使得用户图像与背景图像更为贴合,以给予用户身临其境的感觉。
发明内容
提供了一种提高融合效果和图像融合方法、图像融合模型的训练方法、装置、电子设备和存储介质。
本公开的一个方面提供了一种图像融合方法,包括:对通过拼接前景图像和背景图像得到的拼接图像进行编码,得到特征图;通过以下方式解码特征图,得到融合图像:采用注意力机制对特征图进行加权处理,得到加权后特征图;基于加权后特征图的特征统计数据,对特征图进行融合处理,得到融合后特征;以及对融合后特征进行解码,获得融合图像。
本公开的另一个方面提供了一种图像融合模型的训练方法,其中,图像融合模型包括编码网络和解码网络,解码网络包括加权子网络、融合子网络和解码子网络;该训练方法包括:将图像对中拼接前景图像和背景图像得到的拼接图像输入编码网络,得到特征图;通过以下方式解码特征图,得到预测融合图像:将特征图输入加权子网络进行加权处理,得到加权后特征图;基于加权后特征图的特征统计数据,采用融合子网络对特征图进行融合处理,得到融合后特征;将融合后特征输入解码子网络,得到预测融合图像;以及基于预测融合图像和图像对中的真实融合图像之间的差异,对图像融合模型进行训练。
本公开的另一个方面提供了一种图像融合装置,包括:第一编码模块,用于对通过拼接前景图像和背景图像得到的拼接图像进行编码,得到特征图;第一解码模块,用于解码特征图,得到融合图像;第一解码模块包括:第一加权子模块,用于采用注意力机制对特征图进行加权处理,得到加权后特征图;第一融合子模块,用于基于加权后特征图的特征统计数据,对特征图进行融合处理,得到融合后特征;以及第一解码子模块,用于对融合后特征进行解码,获得融合图像。
本公开的另一个方面提供了一种图像融合模型的训练装置,其中,图像融合模型包括编码网络和解码网络,解码网络包括加权子网络、融合子网络和解码子网络;该训练装置包括:第二编码模块,用于将图像对中拼接前景图像和背景图像得到的拼接图像输入编码网络,得到特征图;第二解码模块,用于解码特征图,得到预测融合图像;以及模型训练模块,用于基于预测融合图像和图像对中的真实融合图像之间的差异,对图像融合模型进行训练;第二解码模块包括:第二加权子模块,用于将特征图输入加权子网络进行加权处理,得到加权后特征图;第二融合子模块,用于基于加权后特征图的特征统计数据,采用融合子网络对特征图进行融合处理,得到融合后特征;第二解码子模块,用于将融合后特征输入解码子网络,得到预测融合图像。
本公开的另一个方面提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的图像融合方法和/或图像融合模型的训练方法。
根据本公开的另一个方面提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的图像融合方法和/或图像融合模型的训练方法。
根据本公开的另一个方面提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开提供的图像融合方法和/或图像融合模型的训练方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的图像融合方法和图像融合模型的训练方法、装置的应用场景示意图;
图2是根据本公开实施例的图像融合方法的流程示意图;
图3是根据本公开实施例的采用注意力机制对特征图进行加权处理的原理示意图;
图4是根据本公开实施例的对特征图进行融合的原理示意图;
图5是根据本公开实施例的图像融合方法的原理示意图;
图6是根据本公开实施例的图像融合模型的训练方法的流程示意图;
图7是根据本公开实施例的得到作为样本数据的图像对的原理示意图;
图8是根据本公开实施例的图像融合装置的结构框图;
图9是根据本公开实施例的图像融合模型的训练装置的结构框图;以及
图10是用来实施本公开实施例的图像融合方法和/或图像融合模型的训练方法的电子设备的结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开提供了一种图像融合方法,该方法包括编码阶段和解码阶段。在编码阶段中,对通过拼接前景图像和背景图像得到的拼接图像进行编码,得到特征图。在解码阶段中,通过以下方式解码特征图,得到融合图像:采用注意力机制对特征图进行加权处理,得到加权后特征图;基于加权后特征图的特征统计数据,对特征图进行融合处理,得到融合后特征;以及对融合后特征进行解码,获得融合图像。
以下将结合图1对本公开提供的方法和装置的应用场景进行描述。
图1是根据本公开实施例的图像融合方法和图像融合模型的训练方法、装置的应用场景图。
如图1所示,该实施例的应用场景100可以包括电子设备110,该电子设备110可以为具有处理功能的任意电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。
该电子设备110例如可以对输入的图像120和图像130进行处理,以将图像130中的前景图像与作为背景的图像120进行融合,得到融合后图像130。例如,该电子设备110可以先从图像130中截取出前景图像,并将前景图像拼接到图像120中,得到拼接图像。随后采用融合方法来对拼接图像进行处理,以弱化前景图像与图像120之间色调的差异,从而得到融合图像140。
例如,电子设备110可以采用图像融合模型来对拼接图像进行处理,具体可以将拼接图像输入图像融合模型,由图像融合模型输出融合图像140,从而实现对图像的端到端融合。
根据本公开的实施例,如图1所示,该应用场景100还可以包括服务器150。电子设备110可以通过网络与服务器150通信连接,该网络可以包括无线或有线通信链路。
示例性地,服务器150可以用于训练图像融合模型,并响应于电子设备110发送的模型获取请求,将训练好的图像融合模型160发送给电子设备110,便于电子设备110来融合拼接图像中的前景图像和背景图像。在一实施例中,电子设备110还可以通过网络将拼接图像发送给服务器150,由服务器根据训练好的图像融合模型对获得的拼接图像进行处理。
根据本公开的实施例,如图1所示,该应用场景100还可以包括数据库170,该数据库170可以维护有海量的图像对,图像对由拼接图像和融合图像构成。服务器150可以访问该数据库170,并从数据库170中抽取部分图像对,以对图像融合模型进行训练。
需要说明的是,本公开所提供的图像融合方法可以由电子设备110或服务器150执行。相应地,本公开所提供的图像融合装置可以设置于电子设备110或服务器150中。本公开提供的图像融合模型的训练方法可以由服务器150或者与服务器150通信连接的其他服务器执行。相应地,本公开所提供的图像融合模型的训练装置可以设置在服务器150中或者设置在与服务器150通信连接的其他服务器中。
应该理解,图1中的电子设备、服务器和数据库的数目和类型仅仅是示意性的。根据实现需要,可以具有任意数目和类型的终端设备、服务器和数据库。
以下将通过图2~图5对本公开提供的图像融合方法进行详细描述。
图2是根据本公开实施例的图像融合方法的流程示意图。
如图2所示,该实施例的图像融合方法200可以包括操作S210~操作S240。
在操作S210,对通过拼接前景图像和背景图像得到的拼接图像进行编码,得到特征图。
根据本公开的实施例,前景图像例如可以是从实时采集的画面中截取的目标对象的图像。例如,在视频制作场景或视频通话场景中,前景图像可以为用户头像。背景图像可以为作为背景的任意一张图像,例如,该背景图像可以为夕阳图像、海滩图像等。通过将前景图像以图层形式覆盖至背景图像的目标区域,可以得到拼接图像。
根据本公开的实施例,可以采用卷积网络来对拼接图像进行编码。例如可以将拼接图像输入卷积网络,经由卷积网络处理后输出特征图。可以理解的是,可以采用任意的图像特征提取网络来对拼接图像进行编码,本公开对此不做限定。
在得到特征图后,可以采用S220~操作S240来对特征图进行解码,得到融合图像。
在操作S220,采用注意力机制对特征图进行加权处理,得到加权后特征图。
在操作S230,基于加权后特征图的特征统计数据,对特征图进行融合处理,得到融合后特征。
根据本公开的实施例,可以采用预定的加权权重,对特征图中各特征点的特征进行加权,从而得到加权后特征图。例如,可以设定拼接图像中前景图像所在区域中,边缘区域的加权权重较大,中间区域的加权权重较小。如此,在基于加权后特征图的特征统计数据对特征图进行融合处理时,可以使得前景图像所在区域中,在自远离至靠近背景图像与前景图像之间的分界线的方向,特征点的特征逐渐更为接近背景图像的特征。从而可以弱化前景图像与背景图像之间的色调的差异。
根据本公开的实施例,可以设置注意力神经网络,通过训练地方式来学习到特征图中各特征点的加权权重,并根据该学习到的加权权重对特征图进行加权处理。
根据本公开的实施例,加权后特征图的特征统计数据例如可以包括特征均值和/或特征方差等数据。操作S230可以采用该特征统计数据对特征图中各特征点的特征进行调整,从而实现对特征图的融合处理。其中,特征均值例如可以为某一通道中,各特征点的特征值的平均值。
例如,可以调整特征图中各特征点的特征,使得特征图中各特征点的特征与特征图中特征的均值之间的差值,与加权后特征图中各特征点的特征与加权后特征图的特征均值之间的差值相等。可以理解的是,该调整特征图的方法仅作为示例以利于理解本公开,本公开对此不做限定。
例如,特征均值还可以为加权后特征图中,每个特征点包括的多个通道的特征值的均值。如此,可以使得统计数据可以更好的反映加权后特征图中各个特征点的特征,利于对特征图进行逐特征点的特征调制。从而可以使得融合后特征能够更好的保留各特征点的特征。
在操作S240,对融合后特征进行解码,获得融合图像。
根据本公开的实施例,可以采用反卷积(deconvolution)网络来对拼接图像进行编码。例如可以将融合后特征输入反卷积网络,经由反卷积网络处理后输出融合图像。可以理解的是,可以采用任意的图像解码网络来对融合后特征进行编码,本公开对此不做限定。
本公开实施例在对图像解码之前,通过采用注意力机制来对特征图进行加权处理,并基于加权后特征图的特征统计数据来对特征图进行融合,可以使得前景图像的不同区域具有与背景图像不同的程度的融合,并因此利于提高得到的融合图像的真实性。该图像融合方法例如可以应用于图像特效的生成场景或视频拍摄、视频通话等场景,便于提高图像处理的趣味性和实用性,提高用户粘性。
图3是根据本公开实施例的采用注意力机制对特征图进行加权处理的原理示意图。
根据本公开的实施例,例如可以采用空间注意力机制来对特征图进行加权处理。如此,可以使得注意力机制聚焦于特征图中需要重点调整的有效信息,从而使得加权后特征图能够更好的体现调整需求,提高融合图像中背景图像的真实性。
示例性地,在采用注意力机制对特征图进行加权处理时,可以先对特征图进行逐特征点的池化操作,得到池化后特征。然后对池化后特征进行卷积运算,获得针对特征图的权重图。最后采用该权重图对特征图进行加权处理,得到加权后特征图。
在一实施例中,池化操作可以采用平均池化(Average Pooling,AvePool)方法来实现,以此得到统计的平均信息。具体可以对特征图中每个特征点的C个通道的特征求平均,并用该平均值表示该每个特征点的特征。
在一实施例中,池化操作可以采用最大池化(Max Pooling,MaxPool)方法来实现,以此得到特征图中的显著特征。具体可以是采用特征图中每个特征点C个通道的特征中的最大特征来表示该每个特征点的特征。
在一实施例中,可以结合最大池化方法和平均池化方法来实现池化操作。具体地,可以先对特征图进行逐特征点的最大池化操作,得到第一池化特征。同时,对特征图进行逐特征点的平均池化操作,得到第二池化特征。最后,基于第一池化特征和第二池化特征,得到池化后特征。例如,可以将第一池化特征和第二池化特征的加权和作为池化特征。计算加权和时的权重可以根据实际需求进行设定,本公开对此不做限定。例如,还可以直接将第一池化特征和第二池化特征相加,得到池化后特征。通过该方式,池化后特征不仅可以在一定程度上体现统计的平均信息,还可以在一定程度上体现特征图中的显著信息。因此,可以提高池化后特征的表达能力,便于提高得到的权重图的精度。
在一实施例中,对池化后特征进行的卷积运算,可以采用卷积核大于预定尺寸的卷积神经网络来执行。其中,预定尺寸可以根据实际需求进行设定。例如,卷积神经网络的卷积核的尺寸可以为7*7或更大的尺寸,以此使得卷积运算后的特征具有更大的感受野,可以表达更多的信息。但该卷积核的尺寸也不宜过大,以保证较高的计算效率。该卷积神经网络中卷积层的个数、各卷积层中卷积核的大小可以根据实际需求进行设定,本公开对此不做限定。
如图3所示,在实施例300中,设定特征图301的尺寸为L*H*C,其中,L为特征图301的长度,H为特征图301的高度,C为特征图301的通道数。该特征图301经由最大池化层MaxPool 310处理后,可以得到第一池化特征。该第一池化特征的尺寸为L*H。该特征图301经由平均池化层AvePool 320处理后,可以得到第二池化特征。该第二池化特征的尺寸同样为L*H。将该第一池化特征和第二池化特征经由融合层330相加,可以得到池化后特征302。该池化后特征302的尺寸同样为L*H。
池化后特征302经由卷积神经网络Conv 340进行卷积运算,卷积神经网络Conv340输出的特征经由Sigmoid层350进行归一化,可以得到针对特征图的权重图。该权重图和特征图301经由融合层360点乘,可以得到加权后特征图303。例如,可以将权重图与特征图301的每个通道的尺寸为L*H特征点乘,可以得到尺寸为L*H*C的加权后特征图303。
例如,卷积神经网络Conv 340例如可以包括两个卷积层,每个卷积层中卷积核的尺寸为7*7。可以理解的是,该卷积神经网络的结构仅作为示例以利于理解本公开,本公开对此不做限定。
通过上述实施例的对特征图进行加权处理的原理,可以使得注意力机制学习到特征图中的哪些区域重要性更高,利于提高对特征图进行融合的精度,提高融合图像的真实性和用户体验。
图4是根据本公开实施例的对特征图进行融合的原理示意图。
根据本公开的实施例,在对图像进行融合时,例如还可以参考前景图像的掩膜图像,以此为特征图的融合提供指导信息,便于特征图的融合过程对需要调整色调的区域进行特征调整。从而可以在一定程度上提高融合精度和融合效率。
根据本公开的实施例,可以通过将背景图像的颜色融入到前景图像,来实现对拼接图像中前景图像与背景图像的融合。在将背景图像的颜色融入到前景图像时,可以先对前景图像进行归一化处理,从而得到不含任何颜色信息的白化特征。随后采用背景区域中的特征统计数据来对白化特征进行复原操作。
例如,在考虑掩膜图像的情况下,如图4所示,该实施例400可以基于针对前景图像的掩膜图像401,对特征图402进行逐特征点的归一化处理,得到归一化特征图403。同时基于加权后特征图中各个特征点的特征统计数据,对归一化特征图403进行反归一化处理,得到融合后特征406。
其中,在对特征图进行归一化处理时,可以先根据掩膜图像401,确定特征图402中需要调整特征的区域,该区域例如可以包括尺寸为L*H*C的特征图402中的填充区域。归一化处理的过程例如可以先将掩膜图像映射至L*H尺寸,随后将该映射后的掩膜图像与特征图402中每个通道的尺寸为L*H的特征点乘,从而得到仅需调整的区域内的特征为非零值的特征。随后,计算该点乘得到的特征中每个特征点的C个特征的均值和方差,并将该C个特征的值分别减去均值后再除以方差,得到每个特征点的归一化后的C个特征,完成对该每个特征点的特征的归一化处理。通过对特征图中的所有特征点进行归一化处理后,可以得到尺寸为L*H*C的归一化特征图。
类似地,如图4所示,加权后特征图404的尺寸同样为L*H*C,通过对该加权后特征图404中的每个特征点进行前述的归一化处理,可以得到加权后特征图404中每个特征点的C个特征的均值和方差405。则L*H个特征点的均值和方差可以构成尺寸为L*H的均值图和尺寸为L*H的方差图。该实施例400可以将该均值图和方差图作为特征统计数据。随后可以对归一化特征图403中每个通道的尺寸为L*H的特征与均值图点乘,并将点乘得到的特征图中每个通道的特征与均值图相加,得到融合后特征406,从而完成对归一化特征图403的反归一化处理。通过上述方式得到的特征统计数据,可以保留每个特征点的特征,便于对特征图进行局部融合操作。
可以理解的是,上述对特征图进行融合的原理仅作为示例以利于理解本公开,根据实际需求,可以采用任意原理来实现对特征图的融合,本公开对此不做限定。
图5是根据本公开实施例的图像融合方法的原理示意图。
根据本公开的实施例,在对融合后特征进行解码时,还可以考虑原始的特征图。如此,可以使得解码得到的融合图像能够尽量保留拼接图像中的细节,便于提高融合图像的分辨率和真实性。
例如,在解码时,可以先将特征图与融合后特征进行拼接,随后对该将拼接后的特征进行解码,得到融合图像。
根据本公开的实施例,在对拼接图像进行编码时,例如可以采用级联的N级编码网络,以对拼接图像的特征进行逐级的降采样,从而依次从拼接图像中提取到不同感受野的特征图。
例如,如图5所示,该实施例500中,级联的N级编码网络可以包括编码网络511~编码网络516,将拼接图像501输入该级联的N级编码网络中的第1级编码网络511,则可以经由N级编码网络中的第i级编码网络输出第i个特征图,从而总共提取到N个特征图。
相应地,对特征图进行解码时,也应采用级联的N级解码网络。如图5所示,该实施例500中,级联的N级解码网络可以包括解码网络521~编码网络526。该实施例可以将第i个特征图输入级联的N级解码网络中的第(N-i+1)级解码网络,并基于N级解码网络中的第N级解码网络526输出的特征得到融合图像503。
根据本公开的实施例,如图5所示,每级解码网络中,都应包括有对特征图进行加权和融合的网络(如图5中各解码网络的填充部分)。例如,以第(N-i+1)级解码网络为例,N级解码网络中的每级解码网络可以包括有加权子网络、融合子网络和解码子网络。其中,加权子网络用于采用注意力机制对第i级编码网络输出的第i个特征图进行加权处理,得到加权后特征图。融合子网络用于基于加权子网络输出的加权后特征图的特征统计数据,对第i个特征图进行融合处理,得到融合后特征。解码子网络用于对融合子网络输出的融合后特征进行解码,解码得到的数据与第(i+1)个特征图可以同时输入第(N-i)级解码网络中。以此类推,可以将第N级解码网络输出的特征经由1*1conv处理后,得到融合图像。其中,N为大于1的整数,且i=1、2、......、N。
根据本公开的实施例,如图5所示,该实施例在对融合后特征进行解码时,还参考了前景图像的掩膜图像502。具体地,在每级解码网络中的融合子网络对特征进行融合处理时,可以将特征图与掩膜图像502进行点乘,并对点乘得到的特征进行归一化处理。需要说明的是,为了便于特征之间的点乘或相加等运算,在该每级解码网络中,还可以包括有用于对特征进行降维或升维的卷积层或池化层,以使得进行点乘或相加运算的两个特征具有相同的高度和宽度。
在一实施例中,级联的N级编码网络和级联的N级解码网络可以构成类似U-Net的网络架构,与相关技术中的U-Net相比,该实施例的网络架构的区别在于,每级解码网络包括有加权子网络和融合子网络,且每级解码网络的输入还包括有掩膜图像。
通过该实施例的图像融合方法,可以实现图像融合的端到端处理,同时仅采用较少的数据即可完成网络的训练。因此,可以在保证融合效果的基础上降低融合成本。同时,可以提高用户体验和用户粘性,可以适用于各种图像融合场景。
基于本公开提供的图像融合方法,本公开还提供了一种图像融合模型的训练方法。以下将结合图6对该训练方法进行详细描述。
图6是根据本公开实施例的图像融合模型的训练方法的流程示意图。
如图6所示,该实施例的图像融合模型的训练方法600可以包括操作S610~操作S650。其中,图像融合模型包括有编码网络和解码网络,且解码网络包括有加权子网络、融合子网络和解码子网络。
在操作S610,将图像对中拼接前景图像和背景图像得到的拼接图像输入编码网络,得到特征图。
根据本公开的实施例,图像对中包括有拼接图像和真实融合图像。例如,拼接图像可以通过对真实融合图像中目标对象的图像进行色域变换后得到。在该操作S610中,编码网络可以采用与前文描述的操作S210中的方法类似的方法得到特征图,在此不再赘述。
在操作S620,将特征图输入加权子网络进行加权处理,得到加权后特征图。例如,在该操作S620中,加权子网络可以采用与前文描述的操作S220中的方法类似的方法得到加权后特征图,在此不再赘述。
在操作S630,基于加权后特征图的特征统计数据,采用融合子网络对特征图进行融合处理,得到融合后特征。例如,在该操作S630中,融合子网络可以采用与前文描述的操作S230中的方法类似的方法得到融合后特征,在此不再赘述。
在操作S640,将融合后特征输入解码子网络,得到预测融合图像。例如,在该操作S640中,解码子网络可以采用与前文描述的操作S240中的方法类似的方法得到融合图像,在此不再赘述。
该操作S620~操作S640依次执行,以实现对特征图的解码,得到融合图像。
在操作S650,基于预测融合图像和图像对中的真实融合图像之间的差异,对图像融合模型进行训练。
根据本公开的实施例,可以根据预测融合图像和真实融合图像之间的差异,计算预定损失函数的取值,从而得到图像融合模型的损失。随后采用反向传播算法等来调整图像融合模型中的网络参数,以使模型的损失最小化,实现对图像融合模型的训练。其中,预定损失函数可以根据实际需求进行设定,例如可以为L1 Loss函数,本公开对此不做限定。
在一实施例中,前述的融合子网络例如可以包括归一化层和反归一化层。相应地,在对特征图进行融合处理时,可以先将前景图像的掩膜图像和特征图输入归一化层,以使得归一化层基于针对前景图像的掩膜图像,对特征图进行逐特征点的归一化处理,得到归一化特征图。需要说明的是,在采用级联的N级编码网络和级联的N级解码网络时,若该融合子网络属于第一级解码网络,则特征图即为第N级编码网络输出的第N个特征图。若该融合子网络属于除第一级解码网络外的第j级解码网络,则特征图可以由第(N-j+1)级编码网络输出的第(N-j+1)个特征图与第(j-1)级解码网络输出的特征图相加得到。其中,j=2、3、...、N。在得到归一化特征图后,可以将归一化特征图和加权后特征图输入反归一化层,以使得反归一化层基于加权后特征图中各个特征点的特征统计数据,对归一化特征图进行反归一化处理,得到融合后特征。
根据本公开的实施例,编码网络包括级联的N级编码网络,且解码网络包括级联的N级解码网络,N级解码网络中的每级解码网络均包括加权子网络、融合子网络和解码子网络。上述将图像对中通过拼接前景图像和背景图像得到的拼接图像输入编码网络,得到特征图的操作,可以将拼接图像输入N级编码网络中的第i级编码网络,得到第i个特征图。上述解码特征图,得到融合图像时,可以将第i个特征图输入级联的N级解码网络中的第(N-i+1)级解码网络,得到由N级解码网络中的第N级解码网络输出的预测融合图像,其中,N为大于1的整数,且i=1、2、......、N。
根据本公开的实施例,该图像融合模型的训练方法例如还可以包括有生成作为样本数据的图像对的操作。以下将结合图7,对该操作进行详细描述。
图7是根据本公开实施例的得到作为样本数据的图像对的原理示意图。
如图7所示,在该实施例700中,在得到作为样本数据的图像对时,可以先从预定图像701中裁剪目标区域的图像,得到原始前景图像702。随后对原始前景图像702进行颜色直方图变换,得到变换后前景图像703。接下来使用变换后前景图像703替换预定图像701中目标区域的图像,得到拼接图像704。如此,可以将该预定图像701作为真实融合图像,与拼接图像构成作为样本数据的图像对。
示例性地,目标区域可以为目标对象所在的区域。在进行图像融合时需要考虑掩膜图像的情况下,如图7所示,该实施例还可以根据目标区域的位置,生成前景图像对应的掩膜图像705。具体可以通过将目标区域的图像中各像素点的像素值赋值为白色的像素值,将除目标区域外其他区域中各像素点的像素值赋值为黑色的像素值,从而得到掩膜图像705。
其中,预定图像可以为预定开源数据集中的任一图像。预定开源数据集例如可以为MS COCO(Microsoft Common Objects in Context)。该数据集是一个大型的、丰富的物体检测、分割数据集。该数据集中提供有80个类别的目标对象的图像,且提供有分割目标对象得到的掩膜图像。由于该数据集中的掩膜图像都是人工标注得到的,因此可以保证数据的质量。
其中,该实施例将变换后前景图像贴回原预定图像,可以营造一种把两张图混在一起的假象。该实施例之所以将变换后前景图像贴回原预定图像,而非贴到无关的图像上,是为了尽量保持原预定图像的内容结构,从而使得图像融合模型仅需学习如何融合背景图像和前景图像,而无需关注图像内容是否破坏。因此,可以在一定程度上降低图像融合模型的训练难度。
在一实施例中,还可以采用多个不同的颜色直方图来对原始前景图像进行颜色变换,从而得到多个不同颜色的变换后前景图像。将该不同颜色的变换后前景图像分别替换预定图像中目标区域的图像后,即可得到多个拼接图像。该多个拼接图像分别与预定图像组合,可以得到作为样本数据的多个图像对。如此,可以提高样本数据的丰富性,便于提高训练得到的图像融合模型的精度。
基于本公开提供的图像融合方法,本公开还提供了一种图像融合装置。以下将结合图8对该装置进行详细描述。
图8是根据本公开实施例的图像融合装置的结构框图。
如图8所示,该实施例的图像融合装置800可以包括第一编码模块810和第一解码模块820。第一解码模块820可以包括第一加权子模块821、第一融合子模块822和第一解码子模块823。
第一编码模块810用于对通过拼接前景图像和背景图像得到的拼接图像进行编码,得到特征图。在一实施例中,第一编码模块810可以用于执行前文描述的操作S210,在此不再赘述。
第一解码模块820用于解码特征图,得到融合图像。具体地:第一加权子模块821用于采用注意力机制对特征图进行加权处理,得到加权后特征图。第一融合子模块822用于基于加权后特征图的特征统计数据,对特征图进行融合处理,得到融合后特征。第一解码子模块823用于对融合后特征进行解码,获得融合图像。在一实施例中,第一加权子模块821、第一融合子模块822和第一解码子模块823可以分别用于执行前文描述的操作S220~操作S240,在此不再赘述。
根据本公开的实施例,上述第一加权子模块821可以包括池化单元、卷积单元和加权单元。池化单元用于对特征图进行逐特征点的池化操作,得到池化后特征。卷积单元用于对池化后特征进行卷积运算,获得针对特征图的权重图。加权单元用于采用权重图对特征图进行加权处理,得到加权后特征图。
根据本公开的实施例,上述池化单元可以包括第一池化子单元、第二池化子单元和特征获得子单元。第一池化子单元用于对特征图进行逐特征点的最大池化操作,得到第一池化特征。第二池化子单元用于对特征图进行逐特征点的平均池化操作,得到第二池化特征。特征获得子单元用于基于第一池化特征和第二池化特征,得到池化后特征。
根据本公开的实施例,上述卷积单元用于采用卷积核大于预定尺寸的卷积神经网络对池化后特征进行卷积运算,获得针对特征图的权重图。
根据本公开的实施例,上述第一融合子模块可以包括第一归一化单元和第一反归一化单元。第一归一化单元用于基于针对前景图像的掩膜图像,对特征图进行逐特征点的归一化处理,得到归一化特征图。第一反归一化单元用于基于加权后特征图中各个特征点的特征统计数据,对归一化特征图进行反归一化处理,得到融合后特征。
根据本公开的实施例,上述第一解码子模块用于对特征图与融合后特征拼接后的特征进行解码,得到融合图像。
根据本公开的实施例,上述第一编码模块810具体可以用于将拼接图像输入级联的N级编码网络中的第1级编码网络,得到由N级编码网络中的第i级编码网络输出的第i个特征图。上述第一解码模块820具体用于将第i个特征图输入级联的N级解码网络中的第(N-i+1)级解码网络,得到基于N级解码网络中第N级解码网络的输出得到的融合图像。其中,第(N-i+1)级解码网络包括加权子网络、融合子网络和解码子网络。其中,加权子网络用于采用注意力机制对第i个特征图进行加权处理。融合子网络用于对第i个特征图进行融合处理。解码子网络用于对融合子网络输出的融合后特征进行解码。其中,N为大于1的整数,且i=1、2、...、N。
基于本公开提供的图像融合模型的训练方法,本公开还提供了一种图像融合模型的训练装置。以下将结合图9对该装置进行详细描述。
图9是根据本公开实施例的图像融合模型的训练装置的结构框图。
如图9所示,该实施例的图像融合模型的训练装置900可以包括第二编码模块910、第二解码模块920和模型训练模块930。其中,第二解码模块920可以包括第二加权子模块921、第二融合子模块922和第二解码子模块923。其中,图像融合模型可以包括编码网络和解码网络,解码网络可以包括加权子网络、融合子网络和编码子网络。
第二编码模块910用于将图像对中拼接前景图像和背景图像得到的拼接图像输入编码网络,得到特征图。在一实施例中,该第二编码模块910可以用于执行前文描述的操作S610,在此不再赘述。
第二解码模块920用于解码特征图,得到预测融合图像。具体地,第二加权子模块921用于将特征图输入加权子网络进行加权处理,得到加权后特征图。第二融合子模块922用于基于加权后特征图的特征统计数据,采用融合子网络对特征图进行融合处理,得到融合后特征。第二解码子模块923用于将融合后特征输入解码子网络,得到预测融合图像。在一实施例中,第二加权子模块921、第二融合子模块922和第二解码子模块923可以分别用于执行前文描述的操作S620~操作S640,在此不再赘述。
模型训练模块930用于基于预测融合图像和图像对中的真实融合图像之间的差异,对图像融合模型进行训练。在一实施例中,模型训练模块930可以用于执行前文描述的操作S650,在此不再赘述。
根据本公开的实施例,融合子网络包括归一化层和反归一化层。上述第二融合子模块922可以包括第二归一化单元和第二反归一化单元。第二归一化单元用于将前景图像的掩膜图像和特征图输入归一化层,以使归一化层基于针对前景图像的掩膜图像,对特征图进行逐特征点的归一化处理,得到归一化特征图。第二反归一化单元用于将归一化特征图和加权后特征图输入反归一化层,以使反归一化层基于加权后特征图中各个特征点的特征统计数据,对归一化特征图进行反归一化处理,得到融合后特征。
根据本公开的实施例,上述编码网络包括级联的N级编码网络,且解码网络包括级联的N级解码网络,N级解码网络中的每级解码网络均包括加权子网络、融合子网络和解码子网络。上述第二编码模块910具体用于将拼接图像输入N级编码网络中的第i级编码网络,得到第i个特征图。上述第二解码模块920具体用于将第i个特征图输入级联的N级解码网络中的第(N-i+1)级解码网络,得到基于N级解码网络中第N级解码网络的输出得到的预测融合图像。其中,N为大于1的整数,且i=1、2、...、N。且第(N-i+1)级解码网络包括前述的加权子网络、融合子网络和解码子网络。
根据本公开的实施例,上述图像融合模型的训练装置900还包括裁剪模块、变换模块、拼接模块和图像对构成模块。裁剪模块用于从预定图像中裁剪目标区域的图像,得到原始前景图像。变换模块用于对原始前景图像进行颜色直方图变换,得到变换后前景图像。拼接模块用于使用变换后前景图像替换预定图像中目标区域的图像,得到拼接图像。图像对构成模块用于以预定图像作为真实融合图像,构成包括真实融合图像和拼接图像的图像对。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取、收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图10示出了可以用来实施本公开实施例的图像融合方法和/或图像融合模型的训练方法的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如图像融合方法和/或图像融合模型的训练方法。例如,在一些实施例中,图像融合方法和/或图像融合模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的图像融合方法和/或图像融合模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像融合方法和/或图像融合模型的训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中,服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(″Virtual Private Server″,或简称″VPS″)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (20)
1.一种图像融合方法,包括:
对通过拼接前景图像和背景图像得到的拼接图像进行编码,得到特征图;以及
通过以下方式解码所述特征图,得到融合图像:
采用注意力机制对所述特征图进行加权处理,得到加权后特征图;
基于所述加权后特征图的特征统计数据,对所述特征图进行融合处理,得到融合后特征,包括:将掩膜图像映射至与所述特征图相同的尺寸,得到映射后掩膜图像;将所述映射后掩膜图像与所述特征图中每个通道的特征点乘,得到点乘后特征图;以及基于所述点乘后特征图中每个特征点的特征的均值和方差,对所述每个特征点的特征的归一化处理,得到归一化特征图;基于所述加权后特征图中各个特征点的特征统计数据,对所述归一化特征图进行反归一化处理,得到所述融合后特征;以及
对所述融合后特征进行解码,获得融合图像。
2.根据权利要求1所述的方法,其中,所述采用注意力机制对所述特征图进行加权处理,得到加权后特征图包括:
对所述特征图进行逐特征点的池化操作,得到池化后特征;
对所述池化后特征进行卷积运算,获得针对所述特征图的权重图;以及
采用所述权重图对所述特征图进行加权处理,得到所述加权后特征图。
3.根据权利要求2所述的方法,其中,对所述特征图进行逐特征点的池化操作,得到池化后特征包括:
对所述特征图进行逐特征点的最大池化操作,得到第一池化特征;
对所述特征图进行逐特征点的平均池化操作,得到第二池化特征;以及
基于所述第一池化特征和所述第二池化特征,得到所述池化后特征。
4.根据权利要求2所述的方法,其中,对所述池化后特征进行卷积运算,获得针对所述特征图的权重图包括:
采用卷积核大于预定尺寸的卷积神经网络对所述池化后特征进行卷积运算,获得针对所述特征图的权重图。
5.根据权利要求1所述的方法,其中,对所述融合后特征进行解码,获得融合图像包括:
对所述特征图与所述融合后特征拼接后的特征进行解码,得到所述融合图像。
6.根据权利要求1所述的方法,其中:
所述对通过拼接前景图像和背景图像得到的拼接图像进行编码,得到特征图包括:将所述拼接图像输入级联的N级编码网络中的第1级编码网络,得到由所述N级编码网络中的第i级编码网络输出的第i个特征图;以及
解码所述特征图,得到融合图像还包括:将所述第i个特征图输入级联的N级解码网络中的第(N-i+1)级解码网络,得到基于所述N级解码网络中的第N级解码网络的输出得到的融合图像,
其中,所述第(N-i+1)级解码网络包括:
加权子网络,用于采用所述注意力机制对所述第i个特征图进行加权处理;
融合子网络,用于对所述第i个特征图进行融合处理;以及
解码子网络,用于对所述融合子网络输出的融合后特征进行解码,
其中,N为大于1的整数,且i=1、2、...、N。
7.一种图像融合模型的训练方法,其中,所述图像融合模型包括编码网络和解码网络,所述解码网络包括加权子网络、融合子网络和解码子网络;所述方法包括:
将图像对中拼接前景图像和背景图像得到的拼接图像输入所述编码网络,得到特征图;
通过以下方式解码所述特征图,得到预测融合图像:
将所述特征图输入加权子网络进行加权处理,得到加权后特征图;
基于所述加权后特征图的特征统计数据,采用所述融合子网络对所述特征图进行融合处理,得到融合后特征;
将所述融合后特征输入所述解码子网络,得到预测融合图像;以及
基于所述预测融合图像和所述图像对中的真实融合图像之间的差异,对所述图像融合模型进行训练;
其中,所述融合子网络包括归一化层和反归一化层;所述采用所述融合子网络对所述特征图进行融合处理,得到融合后特征包括:
将所述前景图像的掩膜图像和所述特征图输入所述归一化层,以使所述归一化层将所述掩膜图像映射至与所述特征图相同的尺寸,得到映射后掩膜图像;将所述映射后掩膜图像与所述特征图中每个通道的特征点乘,得到点乘后特征图;以及基于所述点乘后特征图中每个特征点的特征的均值和方差,对所述每个特征点的特征的归一化处理,得到归一化特征图;以及
将所述归一化特征图和所述加权后特征图输入所述反归一化层,以使所述反归一化层基于所述加权后特征图中各个特征点的特征统计数据,对所述归一化特征图进行反归一化处理,得到所述融合后特征。
8.根据权利要求7所述的方法,其中,所述编码网络包括级联的N级编码网络,且所述解码网络包括级联的N级解码网络,N级解码网络中的每级解码网络均包括所述加权子网络、融合子网络和解码子网络;
所述将图像对中通过拼接前景图像和背景图像得到的拼接图像输入所述编码网络,得到特征图:将所述拼接图像输入所述N级编码网络中的第i级编码网络,得到第i个特征图;以及
解码所述特征图,得到融合图像还包括:将所述第i个特征图输入级联的N级解码网络中的第(N-i+1)级解码网络,得到基于所述N级解码网络中第N级解码网络的输出得到的预测融合图像,
其中,N为大于1的整数,且i=1、2、...、N;所述第(N-i+1)级解码网络包括所述加权子网络、所述融合子网络和所述解码子网络。
9.根据权利要求7所述的方法,还包括:
从预定图像中裁剪目标区域的图像,得到原始前景图像;
对所述原始前景图像进行颜色直方图变换,得到变换后前景图像;
使用所述变换后前景图像替换所述预定图像中所述目标区域的图像,得到拼接图像;以及
以所述预定图像作为真实融合图像,构成包括所述真实融合图像和所述拼接图像的所述图像对。
10.一种图像融合装置,包括:
第一编码模块,用于对通过拼接前景图像和背景图像得到的拼接图像进行编码,得到特征图;
第一解码模块,用于解码所述特征图,得到融合图像;所述第一解码模块包括:
第一加权子模块,用于采用注意力机制对所述特征图进行加权处理,得到加权后特征图;
第一融合子模块,用于基于所述加权后特征图的特征统计数据,对所述特征图进行融合处理,得到融合后特征;以及
第一解码子模块,用于对所述融合后特征进行解码,获得融合图像;
其中,所述第一融合子模块包括:
第一归一化单元,用于将掩膜图像映射至与所述特征图相同的尺寸,得到映射后掩膜图像;将所述映射后掩膜图像与所述特征图中每个通道的特征点乘,得到点乘后特征图;以及基于所述点乘后特征图中每个特征点的特征的均值和方差,对所述每个特征点的特征的归一化处理,得到归一化特征图;
第一反归一化单元,用于基于所述加权后特征图中各个特征点的特征统计数据,对所述归一化特征图进行反归一化处理,得到所述融合后特征。
11.根据权利要求10所述的装置,其中,所述第一加权子模块包括:
池化单元,用于对所述特征图进行逐特征点的池化操作,得到池化后特征;
卷积单元,用于对所述池化后特征进行卷积运算,获得针对所述特征图的权重图;以及
加权单元,用于采用所述权重图对所述特征图进行加权处理,得到所述加权后特征图。
12.根据权利要求11所述的装置,其中,所述池化单元包括:
第一池化子单元,用于对所述特征图进行逐特征点的最大池化操作,得到第一池化特征;
第二池化子单元,用于对所述特征图进行逐特征点的平均池化操作,得到第二池化特征;以及
特征获得子单元,用于基于所述第一池化特征和所述第二池化特征,得到所述池化后特征。
13.根据权利要求11所述的装置,其中,所述卷积单元用于:
采用卷积核大于预定尺寸的卷积神经网络对所述池化后特征进行卷积运算,获得针对所述特征图的权重图。
14.根据权利要求10所述的装置,其中,所述第一解码子模块用于:
对所述特征图与所述融合后特征拼接后的特征进行解码,得到所述融合图像。
15.根据权利要求10所述的装置,其中:
所述第一编码模块用于:将所述拼接图像输入级联的N级编码网络中的第1级编码网络,得到由所述N级编码网络中的第i级编码网络输出的第i个特征图;
所述第一解码模块用于:将所述第i个特征图输入级联的N级解码网络中的第(N-i+1)级解码网络,得到基于所述N级解码网络中第N级解码网络的输出得到的融合图像,
其中,所述第(N-i+1)级解码网络包括:
加权子网络,用于采用所述注意力机制对所述第i个特征图进行加权处理;
融合子网络,用于对所述第i个特征图进行融合处理;以及
解码子网络,用于对所述融合子网络输出的融合后特征进行解码,
其中,N为大于1的整数,且i=1、2、...、N。
16.一种图像融合模型的训练装置,其中,所述图像融合模型包括编码网络和解码网络,所述解码网络包括加权子网络、融合子网络和解码子网络;所述装置包括:
第二编码模块,用于将图像对中拼接前景图像和背景图像得到的拼接图像输入所述编码网络,得到特征图;
第二解码模块,用于解码所述特征图,得到预测融合图像;所述第二解码模块包括:
第二加权子模块,用于将所述特征图输入加权子网络进行加权处理,得到加权后特征图;
第二融合子模块,用于基于所述加权后特征图的特征统计数据,采用所述融合子网络对所述特征图进行融合处理,得到融合后特征;
第二解码子模块,用于将所述融合后特征输入所述解码子网络,得到预测融合图像;以及
模型训练模块,用于基于所述预测融合图像和所述图像对中的真实融合图像之间的差异,对所述图像融合模型进行训练;
其中,所述融合子网络包括归一化层和反归一化层;所述第二融合子模块包括:
第二归一化单元,用于将所述前景图像的掩膜图像和所述特征图输入所述归一化层,以使所述归一化层将所述掩膜图像映射至与所述特征图相同的尺寸,得到映射后掩膜图像;将所述映射后掩膜图像与所述特征图中每个通道的特征点乘,得到点乘后特征图;以及基于所述点乘后特征图中每个特征点的特征的均值和方差,对所述每个特征点的特征的归一化处理,得到归一化特征图;以及
第二反归一化单元,用于将所述归一化特征图和所述加权后特征图输入所述反归一化层,以使所述反归一化层基于所述加权后特征图中各个特征点的特征统计数据,对所述归一化特征图进行反归一化处理,得到所述融合后特征。
17.根据权利要求16所述的装置,其中,所述编码网络包括级联的N级编码网络,且所述解码网络包括级联的N级解码网络,N级解码网络中的每级解码网络均包括所述加权子网络、融合子网络和解码子网络;
所述第二编码模块用于:将所述拼接图像输入所述N级编码网络中的第i级编码网络,得到第i个特征图;以及
所述第二解码模块用于:将所述第i个特征图输入级联的N级解码网络中的第(N-i+1)级解码网络,得到基于所述N级解码网络中第N级解码网络的输出得到的预测融合图像,
其中,N为大于1的整数,且i=1、2、...、N,所述第(N-i+1)级解码网络包括所述加权子网络、所述融合子网络和所述解码子网络。
18.根据权利要求16所述的装置,还包括:
裁剪模块,用于从预定图像中裁剪目标区域的图像,得到原始前景图像;
变换模块,用于对所述原始前景图像进行颜色直方图变换,得到变换后前景图像;
拼接模块,用于使用所述变换后前景图像替换所述预定图像中所述目标区域的图像,得到拼接图像;以及
图像对构成模块,用于以所述预定图像作为真实融合图像,构成包括所述真实融合图像和所述拼接图像的所述图像对。
19.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1~9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1~9中任一项所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111279602.1A CN113989174B (zh) | 2021-10-29 | 2021-10-29 | 图像融合方法和图像融合模型的训练方法、装置 |
JP2022168601A JP2023001926A (ja) | 2021-10-29 | 2022-10-20 | 画像融合方法及び装置、画像融合モデルのトレーニング方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム |
US17/974,073 US20230047748A1 (en) | 2021-10-29 | 2022-10-26 | Method of fusing image, and method of training image fusion model |
EP22204097.4A EP4120181A3 (en) | 2021-10-29 | 2022-10-27 | Method and apparatus of fusing image, and method of training image fusion model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111279602.1A CN113989174B (zh) | 2021-10-29 | 2021-10-29 | 图像融合方法和图像融合模型的训练方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113989174A CN113989174A (zh) | 2022-01-28 |
CN113989174B true CN113989174B (zh) | 2023-11-10 |
Family
ID=79745078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111279602.1A Active CN113989174B (zh) | 2021-10-29 | 2021-10-29 | 图像融合方法和图像融合模型的训练方法、装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230047748A1 (zh) |
EP (1) | EP4120181A3 (zh) |
JP (1) | JP2023001926A (zh) |
CN (1) | CN113989174B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114689030A (zh) * | 2022-06-01 | 2022-07-01 | 中国兵器装备集团自动化研究所有限公司 | 一种基于机载视觉的无人机辅助定位方法及系统 |
CN116128863B (zh) * | 2023-03-01 | 2023-09-12 | 北京医准智能科技有限公司 | 一种医学图像处理方法、装置及设备 |
CN118195887B (zh) * | 2024-03-06 | 2024-08-23 | 北京衔远有限公司 | 图片前景保持模型的训练方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418027A (zh) * | 2020-11-11 | 2021-02-26 | 青岛科技大学 | 一种改进U-Net网络的遥感影像道路提取方法 |
CN112465748A (zh) * | 2020-11-10 | 2021-03-09 | 西南科技大学 | 基于神经网络的裂缝识别方法、装置、设备及存储介质 |
CN112614061A (zh) * | 2020-12-08 | 2021-04-06 | 北京邮电大学 | 基于双路编解码器的低照度图像亮度增强及超分辨率方法 |
CN113256744A (zh) * | 2020-02-10 | 2021-08-13 | 武汉Tcl集团工业研究院有限公司 | 一种图像编码、解码方法及系统 |
CN113269792A (zh) * | 2021-05-07 | 2021-08-17 | 上海交通大学 | 一种图像后期和谐化处理方法、系统及终端 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10818014B2 (en) * | 2018-07-27 | 2020-10-27 | Adobe Inc. | Image object segmentation based on temporal information |
-
2021
- 2021-10-29 CN CN202111279602.1A patent/CN113989174B/zh active Active
-
2022
- 2022-10-20 JP JP2022168601A patent/JP2023001926A/ja active Pending
- 2022-10-26 US US17/974,073 patent/US20230047748A1/en not_active Abandoned
- 2022-10-27 EP EP22204097.4A patent/EP4120181A3/en not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113256744A (zh) * | 2020-02-10 | 2021-08-13 | 武汉Tcl集团工业研究院有限公司 | 一种图像编码、解码方法及系统 |
CN112465748A (zh) * | 2020-11-10 | 2021-03-09 | 西南科技大学 | 基于神经网络的裂缝识别方法、装置、设备及存储介质 |
CN112418027A (zh) * | 2020-11-11 | 2021-02-26 | 青岛科技大学 | 一种改进U-Net网络的遥感影像道路提取方法 |
CN112614061A (zh) * | 2020-12-08 | 2021-04-06 | 北京邮电大学 | 基于双路编解码器的低照度图像亮度增强及超分辨率方法 |
CN113269792A (zh) * | 2021-05-07 | 2021-08-17 | 上海交通大学 | 一种图像后期和谐化处理方法、系统及终端 |
Also Published As
Publication number | Publication date |
---|---|
EP4120181A2 (en) | 2023-01-18 |
JP2023001926A (ja) | 2023-01-06 |
US20230047748A1 (en) | 2023-02-16 |
CN113989174A (zh) | 2022-01-28 |
EP4120181A3 (en) | 2023-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113989174B (zh) | 图像融合方法和图像融合模型的训练方法、装置 | |
CN110163080B (zh) | 人脸关键点检测方法及装置、存储介质和电子设备 | |
CN113379627B (zh) | 图像增强模型的训练方法和对图像进行增强的方法 | |
JP7401606B2 (ja) | 仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器 | |
CN114792355B (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
CN113378911B (zh) | 图像分类模型训练、图像分类方法及相关装置 | |
CN113436105A (zh) | 模型训练和图像优化方法、装置、电子设备及存储介质 | |
CN117911588A (zh) | 虚拟对象脸部驱动及模型训练方法、装置、设备和介质 | |
CN113361535A (zh) | 图像分割模型训练、图像分割方法及相关装置 | |
CN113205495A (zh) | 图像质量评价及模型训练方法、装置、设备和存储介质 | |
CN114187318B (zh) | 图像分割的方法、装置、电子设备以及存储介质 | |
CN112348739B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN114037630A (zh) | 一种模型训练及图像去雾方法、装置、设备及存储介质 | |
CN116402914B (zh) | 用于确定风格化图像生成模型的方法、装置及产品 | |
CN114422718B (zh) | 一种视频转换方法、装置、电子设备及存储介质 | |
CN113344200B (zh) | 用于训练可分离卷积网络的方法、路侧设备及云控平台 | |
CN116363429A (zh) | 图像识别模型的训练方法、图像识别方法、装置及设备 | |
CN113887435A (zh) | 人脸图像处理方法、装置、设备、存储介质及程序产品 | |
CN114638919A (zh) | 虚拟形象的生成方法、电子设备、程序产品及用户终端 | |
CN116228895B (zh) | 视频生成方法、深度学习模型训练方法、装置以及设备 | |
CN114820349B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN115601620B (zh) | 特征融合方法、装置、电子设备及计算机可读存储介质 | |
CN114820908B (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
CN116030150B (zh) | 虚拟形象生成方法、装置、电子设备和介质 | |
CN113542620B (zh) | 一种特效处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |