CN111797855B - 图像处理、模型训练方法、装置、介质和设备 - Google Patents
图像处理、模型训练方法、装置、介质和设备 Download PDFInfo
- Publication number
- CN111797855B CN111797855B CN201910282040.2A CN201910282040A CN111797855B CN 111797855 B CN111797855 B CN 111797855B CN 201910282040 A CN201910282040 A CN 201910282040A CN 111797855 B CN111797855 B CN 111797855B
- Authority
- CN
- China
- Prior art keywords
- image
- sample
- category
- model
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 149
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012545 processing Methods 0.000 title claims description 51
- 238000006243 chemical reaction Methods 0.000 claims abstract description 96
- 238000003672 processing method Methods 0.000 claims abstract description 21
- 238000010586 diagram Methods 0.000 claims description 66
- 238000000605 extraction Methods 0.000 claims description 66
- 230000003287 optical effect Effects 0.000 claims description 59
- 239000011159 matrix material Substances 0.000 claims description 25
- 238000011176 pooling Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 10
- 230000006870 function Effects 0.000 description 31
- 230000008569 process Effects 0.000 description 15
- 238000010606 normalization Methods 0.000 description 13
- 230000004913 activation Effects 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 8
- 230000009471 action Effects 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 230000000295 complement effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000010428 oil painting Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种图像处理、模型训练方法、装置、介质和设备,所述图像处理方法包括:获取属于第一图像类别的待处理图像和属于第二图像类别的参考图像;对所述待处理图像进行编码,得到所述待处理图像对应的内容特征图;对所述参考图像进行编码,得到与所述第二图像类别对应的类别特征参数;通过所述类别特征参数对所述内容特征图进行类别转换得到中间图像;解码所述中间图像,以重构出与所述待处理图像对应、且属于所述第二图像类别的目标图像。本申请提供的方案提高了图像转换效果。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种图像处理、模型训练方法、装置、介质和设备。
背景技术
随着计算机技术的发展和图像处理技术的进步,基于图像的处理方式变得越来越多样。目前常用的图像处理技术如图像的特征转换处理,比如图像颜色特征转换、图像光影特征转换或者图像风格特征转换等。
然而,传统的图像处理过程中,主要是通过基于纹理合成的方式,将目标特征的图像纹理扩散到待处理图像的图像区域,来实现图像特征转换处理。但在采用该方式处理时容易出现误匹配的情况,从而导致图像处理的效果较差。
发明内容
基于此,有必要针对目前图像处理的效果较差的技术问题,提供一种图像处理、模型训练方法、装置、介质和设备。
一种图像处理方法,包括:
获取属于第一图像类别的待处理图像和属于第二图像类别的参考图像;
对所述待处理图像进行编码,得到所述待处理图像对应的内容特征图;
对所述参考图像进行编码,得到与所述第二图像类别对应的类别特征参数;
通过所述类别特征参数对所述内容特征图进行类别转换得到中间图像;
解码所述中间图像,以重构出与所述待处理图像对应、且属于所述第二图像类别的目标图像。
一种图像处理装置,包括:
获取模块,用于获取属于第一图像类别的待处理图像和属于第二图像类别的参考图像;
第一编码模块,用于对所述待处理图像进行编码,得到所述待处理图像对应的内容特征图;
第二编码模块,用于对所述参考图像进行编码,得到与所述第二图像类别对应的类别特征参数;
转换模块,用于通过所述类别特征参数对所述内容特征图进行类别转换得到中间图像;
解码模块,用于解码所述中间图像,以重构出与所述待处理图像对应、且属于所述第二图像类别的目标图像。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述图像处理方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述图像处理方法的步骤。
上述图像处理方法、装置、计算机可读存储介质和计算机设备,在意图将属于第一图像类别的待处理图像转换为属于第二图像类别的图像时,自动对待处理图像进行编码,得到能够表征待处理图像内容信息的内容特征图,并对参考图像进行编码,得到能够表征第二图像类别信息的类别特征参数,继而通过类别特征参数对内容特征图进行类别特征嵌入得到中间图像,此时解码中间图像即可重构出与待处理图像对应、且属于第二图像类别的目标图像。这样类别特征的嵌入通过能够表征图像类别信息的类别特征参数完成,避免了纹理扩散带来的图像失真,而且类别特征参数的作用对象是反映待处理图像内容信息的内容特征图,在待处理图像的内容本质上进行了类别特征嵌入,从而提高了由待处理图像转换得到的目标图像的转换效果。
一种模型训练方法,包括:
获取属于不同图像类别的第一样本和第二样本;
通过所述图像重构模型的编码结构对所述第一样本进行编码,得到与所述第一样本对应的内容特征图样本;
通过所述图像类别表达模型对所述第二样本进行编码,得到与所述第二样本所属的图像类别对应的类别特征参数样本;
通过所述图像重构模型的解码结构,解码由所述类别特征参数样本对所述内容特征图样本进行类别转换得到的中间样本,得到重构样本;
获取所述第一样本与所述重构样本的内容损耗;
获取所述第二样本与所述重构样本的类别特征损耗;
根据所述内容损耗和所述类别特征损耗调整所述图像类别表达模型并继续训练,直至满足训练停止条件时结束训练。
一种模型训练装置,包括:
获取模块,用于获取属于不同图像类别的第一样本和第二样本;
模型处理模块,用于通过所述图像重构模型的编码结构对所述第一样本进行编码,得到与所述第一样本对应的内容特征图样本;通过所述图像类别表达模型对所述第二样本进行编码,得到与所述第二样本所属的图像类别对应的类别特征参数样本;通过所述图像重构模型的解码结构,解码由所述类别特征参数样本对所述内容特征图样本进行类别转换得到的中间样本,得到重构样本;
所述获取模块还用于获取所述第一样本与所述重构样本的内容损耗;获取所述第二样本与所述重构样本的类别特征损耗;
模型训练模块,用于根据所述内容损耗和所述类别特征损耗调整所述图像类别表达模型并继续训练,直至满足训练停止条件时结束训练。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述模型训练方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述模型训练方法的步骤。
上述模型训练方法、装置、计算机可读存储介质和计算机设备,训练图像类别表达模型来提取一种图像类别的图像的类别特征,在训练时模型的输入图像的图像类别不受限制,也就是可以对任意图像类别的类别信息进行提取。这样提取的表征类别特征的数据即可对图像重构模型的编码结构提取的表征内容特征的数据进行处理,以嵌入类别特征信息,再通过图像重构模型的解码结构进行重构,即可重构出图像类别的转移的图像。这样训练出的图像类别表达模型与图像重构模型相辅相成,既可以实现任意图像类别的转换,而且类别特征参数的作用对象是反映内容信息的内容特征图,在内容本质上进行了类别特征嵌入,从而提高了图像类别转换的转换效果。
附图说明
图1为一个实施例中图像处理方法的应用环境图;
图2为一个实施例中图像处理方法的流程示意图;
图3为一个实施例中图像处理方法所应用的模型结构示意图;
图4为一个实施例中编码结构和解码结构中一个网络单元的结构示意图;
图5为一个实施例中模型训练方法的流程示意图;
图6为一个实施例中模型训练方法所应用的模型结构示意图;
图7为一个实施例中图像处理装置的结构框图;
图8为另一个实施例中图像处理装置的结构框图;
图9为一个实施例中模型训练装置的结构框图;
图10为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中图像处理方法的应用环境图。参照图1,该图像处理方法应用于图像处理系统。该图像处理系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以是手机、平板电脑或笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多于一个的服务器组成的服务器集群来实现。本申请实施例中的模型训练方法也可应用于图1所示的应用环境中。终端110和服务器120均可单独用于执行本申请实施例中提供的图像处理和/或模型训练方法。终端110和服务器120也可协同用于执行本申请实施例中提供的图像处理和/或模型训练方法。
如图2所示,在一个实施例中,提供了一种图像处理方法。本实施例主要以该方法应用于计算机设备来举例说明,该计算机设备具体可以是上述图1中的终端110或服务器120。参照图2,该图像处理方法具体包括如下步骤:
S202,获取属于第一图像类别的待处理图像和属于第二图像类别的参考图像。
其中,图像类别是图像所反映的图像特征所属的类别。图像特征具体可以是颜色特征、风格特征或者内容特征等。相应地,根据颜色特征分类得到的图像类别比如黑白图像类别或者彩色图像类别等;根据风格特征分类得到的图像类别比如素描图像类别或者油画图像类别等;根据内容特征分类得到的图像类别比如苹果图像类别或者橘子图像类别等。
待处理图像是待进行图像类别转换的图像。参考图像所属的图像类别是计算机设备意图将待处理图像转换至的图像类别。也就是说,计算机设备通过本申请提供的实施例将待处理图像的图像类别转换为参考图像的图像类别。比如,待处理图像为通过终端摄像头拍摄的标准模式下的照片,参考图像是梵高的油画图,那么本申请即是将拍摄的照片转换为油画风格。
具体地,计算机设备可以直接获取用户上传的属于某一图像类别的待处理图像,以及属于另一图像类别的参考图像;也可接受其他计算机设备传递的属于某一图像类别的待处理图像,以及属于另一图像类别的参考图像。
需要说明的是,在本申请所提供的实施例中,对待处理图像和参考图像各自所属的图像类别不做限定,只需要待处理图像和参考图像分别属于不同的图像类别即可。也就是说,通过本申请所提供的实施例,可以对任意一种图像类别下的图像,将该图像的图像类别转换成另一种不同的图像类别。
在一个实施例中,待处理图像可以是单独的一帧图像。比如,用户通过终端摄像头拍摄的一张照片,或者网络上的任意一张图片等。待处理图像也可以是多于一帧的图像。多于一帧的图像之间可以相互独立,也可以是时间连续的视频帧序列。比如,用户通过终端摄像头拍摄的一段视频,将该视频分割得到的一系列静态图像即可作为时间连续的视频帧序列;或者,将电影视频分割得到的一系列静态图像即可作为时间连续的视频帧序列等。
S204,对待处理图像进行编码,得到待处理图像对应的内容特征图。
其中,内容特征图是指能够对内容信息进行表征的数据。编码是信息从一种形式或格式转换为另一种形式的过程。对待处理图像进行编码则是对待处理图像所包括的特征信息通过另一种形式进行表达的过程。这里的特征信息具体可以是内容特征信息,另一种形式具体可以是特征图的形式,编码得到的特征图具体可以是内容特征图。
具体地,计算机设备在获取待处理图像后,对待处理图像进行表征内容的特征数据提取得到内容特征图。可以理解,内容特征图可以是对待处理图像的内容特性的高维表达,涵盖了该整个待处理图像的内容信息;内容特征图也可以是对待处理图像的特性的低维表达,也涵盖了该整个待处理图像的信息。
在一个实施例中,计算机设备可选择传统的编码函数对待处理图像进行编码。编码函数如SIFT(Scale Invariant Feature Transform,尺度不变特征变换)算法或HOG(Histogram of Oriented Gradient,方向梯度直方图)算法等。计算机设备也可以选择神经网络来对待处理图像进行编码。该用来进行编码的神经网络具体可以是卷积神经网络,如MobileNet、SqueezeNet或者ShuffleNet等。
可以理解,神经网络可包括多于一层的网络层,每层网络层对输入的图像进行线性或者非线性变化,得到特征图(Feature Map)作为运算结果。每个网络层接收前一层的运算结果,经过自身的运算,对下一层输出本层的运算结果。那么,当使用神经网络对图像进行编解码时,通常得到的输出即为特征图。不同的网络结构输出的特征图所表征的特征不同。
在一个实施例中,当待处理图像是时间连续的视频帧序列时,计算机设备可按照视频帧序列中各视频帧在时间上的先后顺序,依次对各视频帧进行编码,得到各视频帧各自对应的内容特征图。
S206,对参考图像进行编码,得到与第二图像类别对应的类别特征参数。
其中,类别特征参数是指能够对类别信息进行表征的数据。对参考图像进行编码则是参考图像所包括的特征信息通过另一种形式进行表达的过程。这里的特征信息具体可以是类别特征信息,另一种形式具体可以是特征图的形式,编码得到的特征图具体可以是类别特征图,该类别特征图中包含的数据即可以认为是反映类别特征的数据,也就是类别特征参数。
具体地,计算机设备在获取参考图像后,对参考图像进行表征类别的特征数据提取得到类别特征图。可以理解,类别特征图可以是对参考图像的类别特性的高维表达,涵盖了该整个参考图像的内容信息;类别特征图也可以是对参考图像的特性的低维表达,也涵盖了该整个参考图像的信息。
在一个实施例中,计算机设备可选择传统的编码函数对参考图像进行编码。编码函数如SIFT(Scale Invariant Feature Transform,尺度不变特征变换)算法或HOG(Histogram of Oriented Gradient,方向梯度直方图)算法等。计算机设备也可以选择神经网络来对参考图像进行编码。该用来进行编码的神经网络具体可以是卷积神经网络,如MobileNet、SqueezeNet或者ShuffleNet等。
S208,通过类别特征参数对内容特征图进行类别转换得到中间图像。
具体地,计算机设备可通过表征类别特征的类别特征参数对内容特征图进行运算,以将类别特征参数所表征的类别特征嵌入到内容特征图中,这样得到的中间图像既在内容特征上与待处理图像保持一致,又在类别特征上与参考图像保持一致。但这里的中间图像并非具象的、在图像渲染之后呈现具体图像内容的可视图像,中间图像也是一种抽象地表达特征的特征图。
在一个实施例中,当待处理图像是时间连续的视频帧序列时,计算机设备可通过类别特征参数对依次得到的各内容特征图进行类别转换,得到各视频帧各自对应的中间图像。也就是说,时间顺序在先的视频帧先被编码得到对应的内容特征图,从而先被类别特征参数进行类别转换得到对应的中间图像。
S210,解码中间图像,以重构出与待处理图像对应、且属于第二图像类别的目标图像。
其中,解码是编码的逆过程。解码将通过另一种形式进行表达的数据还原到原来的形式或者格式,重构出与原来图像的形式或格式相同的新图像。
具体地,计算机设备在得到中间图像后,对中间图像进行解码还原得到目标图像。由于中间图像既在内容特征上与待处理图像保持一致,又在类别特征上与参考图像保持一致,则目标图像与待处理图像对应、且属于第二图像类别。
在一个实施例中,计算机设备可选择传统的编码函数对参考图像进行编码。计算机设备也可以选择神经网络来对参考图像进行编码。该用来进行编码的神经网络具体可以是卷积神经网络,如MobileNet、SqueezeNet或者ShuffleNet等。
在一个实施例中,当待处理图像是时间连续的视频帧序列时,计算机设备可依次对得到的各中间图像进行解码,得到各视频帧各自对应的目标图像。这些目标图像按照其对应的视频帧的顺序排列,即为与输入的视频帧序列对应、且属于第二图像类别的目标图像序列。也就是说,时间顺序在先的视频帧先被编码得到对应的内容特征图,继而先被类别特征参数进行类别转换得到对应的中间图像,从而先被解码得到目标图像。
上述图像处理方法,在意图将属于第一图像类别的待处理图像转换为属于第二图像类别的图像时,自动对待处理图像进行编码,得到能够表征待处理图像内容信息的内容特征图,并对参考图像进行编码,得到能够表征第二图像类别信息的类别特征参数,继而通过类别特征参数对内容特征图进行类别特征嵌入得到中间图像,此时解码中间图像即可重构出与待处理图像对应、且属于第二图像类别的目标图像。这样类别特征的嵌入通过能够表征图像类别信息的类别特征参数完成,避免了纹理扩散带来的图像失真,而且类别特征参数的作用对象是反映待处理图像内容信息的内容特征图,在待处理图像的内容本质上进行了类别特征嵌入,从而提高了由待处理图像转换得到的目标图像的转换效果。
在一个实施例中,S204包括:将待处理图像输入图像重构模型,通过图像重构模型的编码结构对待处理图像进行编码,得到与待处理图像对应的内容特征图。S206包括:将参考图像输入图像类别表达模型,通过图像类别表达模型对参考图像进行编码,得到与第二图像类别对应的类别特征参数。S210包括:通过图像重构模型的解码结构对中间图像进行解码,重构出与待处理图像对应的、且属于第二图像类别的目标图像。
其中,图像重构是指将对图像进行特征提取后再基于提取的特征和/或增加的其他特征重构出图像的过程。在不增加其他特征时重构出的是原图像本身,在增加其他特征时重构出的是另外的图像。
图像重构模型是经过训练后具有图像重构能力的机器学习模型。机器学习英文全称为Machine Learning,简称ML。该机器学习模型可采用神经网络模型,支持向量机(Support Vector Machine,SVM)或者逻辑回归模型等。神经网络模型比如CNN(Convolutional Neural Networks,卷积神经网络)模型等。
在一个具体的实施例中,图像重构模型具体可以是包含Encoder-Decoder(编码器-解码器)结构的CNN模型。这样,计算机设备在将待处理图像输入图像重构模型后,先通过图像重构模型的编码结构对待处理图像进行编码,得到由编码结构所输出的、与待处理图像对应的内容特征图。
在一个实施例中,将待处理图像输入图像重构模型,通过图像重构模型的编码结构对待处理图像进行编码,得到与待处理图像对应的内容特征图,包括:将待处理图像输入图像重构模型;通过图像重构模型的编码结构对待处理图像进行卷积操作和下采样操作,得到与待处理图像对应的、且图像尺寸缩小后的内容特征图。
具体地,图像重构模型的编码结构中包括卷积层和池化层。其中,卷积层用于通过其包括的卷积核对输入其的数据进行卷积运算以进行特征提取。卷积核可以通俗地认为是滤波矩阵。卷积则是指对图像中不同数据窗口的数据和卷积核作内积的计算过程,又称为滤波,本质是提取图像的特征。池化层用于对输入其的数据进行下采样以降低参数尺寸和参数数量。参数尺寸和参数数量降低后,可以增强卷积核的感受野,并且对于一定的旋转变化具有较强的不变性表达能力,而且还可以提高模型运算速度。因此,图像重构模型的编码结构通过卷积层和池化层的运算,既可以从待处理图像中提取出特征,还可以加快运算速度,为后续的数据处理奠定基础。
在一个实施例中,通过图像重构模型的编码结构对待处理图像进行卷积操作和下采样操作,得到与待处理图像对应的、且图像尺寸缩小后的内容特征图,包括:通过图像重构模型的编码结构中多于一个的网络单元,依次对待处理图像进行处理;在每个网络单元中,对前一个网络单元的输出依次作逐点卷积操作、深度卷积操作和下采样操作;通过图像重构模型的编码结构中最后一个网络单元,输出与待处理图像对应的、且图像尺寸缩小后的内容特征图。
具体地,图像重构模型的编码结构可以包括多于一个的网络单元,每个网络单元可以包括多于一个的卷积层。其中,卷积层包括逐点卷积(PointWise Convolution)层和深度卷积(DepthWise Convolution)层。Depthwise Convolution的一个卷积核负责一个通道,一个通道只被一个卷积核卷积。PW卷积层的卷积核的尺寸为1*1*M,M为输入图像的特征通道数相同。PW卷积层的卷积运算会将输入图像在深度方向上进行加权组合,生成新的特征图,生成的特征图的数量与PW卷积层的卷积核的数量相同。DW卷积层的一个卷积核负责输入图像的一个特征通道,即输入图像的一个特征通道上的特征数据只被一个卷积核卷积。DW卷积层的卷积核数量与输入图像的特征通道数相同。
基于上述阐述可以理解,相较于常规卷积层的三维卷积操作,由于逐点卷积层和深度卷积层一个是1*1的卷积操作,另一个是二维卷积操作;基于相同的输入,在输出维度相同时,采用逐点卷积层联合深度卷积层时,明显要比采用常规的卷积层在网络参数会存在减少,从而在一定程度上加快了网络速度。
举例说明,图3示出了一个实施例中图像处理方法所应用的模型结构示意图。参考图3,在一个具体的实施例中,图像重构模型包括编码结构,该编码结构包括3个网络单元(Block),每个Block包括卷积层、归一化层、激活函数层和池化层。其中,各种类型的网络层可以是一层,也可以多于一层。当然,一个Block中也可以包括其他类型的网络层。计算机设备将待处理图像输入图像重构模型后,先经过图像重构模型的编码器的编码处理,输出待处理图像对应的内容特征图。
图4左图示出了一个实施例中编码结构中一个网络单元的结构示意图。参考图4左图,该网络单元(Block)包括:逐点卷积层(PointWise Convolution Layer)、批归一化层(Batch Normalization Layer)、Relu激活函数层(ReLU Layer)、深度卷积层(DepthWiseConvolution Layer)、批归一化层(Batch Normalization Layer)、Relu激活函数层(ReLULayer)和池化层(MaxPooling Layer)。在另外的实施例中,在深度卷积层的激活函数层后还可以继续连接一层逐点卷积层。
在本实施例中,图像重构模型的编码结构在对待处理图像进行编码时,先进行逐点卷积,再进行深度卷积,能够减少模型参数,加快模型运算速度。
在一个实施例中,将参考图像输入图像类别表达模型,通过图像类别表达模型对参考图像进行编码,得到与第二图像类别对应的类别特征参数,包括:将参考图像输入图像类别表达模型;通过图像类别表达模型对参考图像进行卷积操作和池化操作,得到表征第二图像类别的类别特征图;将类别特征图用作类别转换卷积核;类别特征图的特征值为类别特征参数、且为类别转换卷积核的卷积核参数。
其中,图像类别表达是指提取出能够表征图像类别的信息。图像类别表达模型是经过训练后具有图像类别表达能力的机器学习模型。
在一个具体的实施例中,图像类别表达模型具体可以是包含Encoder结构的CNN模型。这样,计算机设备在将参考图像输入图像类别表达模型后,可通过图像类别表达模型的编码结构对待参考图像进行编码,编码得到能反映参考图像所属图像类别的类别特征图。
可以理解的是,神经网络中网络层的输出通常情况下均为特征图(FeatureMap),只是不同的网络层提取的特征信息不同,那么输出的特征图所表征的特征也不同。在本实施例中,图像类别表达模型是训练得到的用于进行类别特征提取的模型,那么图像类别表达模型包括的网络层通过样本学会的提取类别特征,图像类别表达模型输出的特征图也即为反映类别特征的类别特征图。另外,由于特征图实质上为一组二维矩阵,卷积核实质上也可以认为是滤波矩阵。那么可以将类别特征图的特征值看为类别特征参数,从而将类别特征图用作类别转换卷积核,在采用类别特征图对其他特征图进行卷积运算时,将类别特征图所表征的类别特征嵌入到处理对象中去。
在一个具体的实施例中,图像类别表达模型的模型结构与图像重构模型的编码结构相同。但图像类别表达模型输出的特征图被用作对其他数据进行运算的运算子,图像重构模型的编码结构输出的特征图被用作被运算子作运算的对象。也就是说,实质上,图像类别表达模型和图像重构模型的编码结构的输出都是一个(组)二维矩阵(特征图),只是基于其所表征的不同的特征信息被用作不同的用途(作为运算子或者运算对象)。
在本实施例中,通过神经网络将输入的参考图像编码为卷积滤波子,该卷积滤波子表征了参考图像所属图像类别的类别特征,这样后续通过该卷积滤波子进行后续运算时,即可有效地将其表征的特性信息嵌入到处理对象中去,进行图像类别的迁移转换。
在一个实施例中,通过类别特征参数对内容特征图进行类别转换得到中间图像,包括:通过类别转换卷积核对内容特征图进行卷积操作,得到与待处理图像对应、且嵌入第二图像类别的类别特征的中间图像。
具体地,计算机设备在得到图像类别表达模型输出的表征图像类别信息的类别特征图后,将该类别特征图用作类别转换卷积核,对待处理图像对应的内容图像图进行卷积运算,以将类别特征图所表征的参考图像所属图像类别的类别特性嵌入到待处理图像对应的内容特征图中,这样得到的中间图像既在内容上与待处理图像保持一致,又在图像类别上转换为与参考图像一致,从而在特征层面上完成了图像类别的转换。
在本实施例中,在得到表征待处理图像的内容特征信息的内容特征图,以及表征参考图像的类别特征信息的类别特征图后,巧妙地将类别特征图用作卷积滤波子,对内容特征图进行卷积运算,这样可将两种特征图巧妙地结合起来,得到既在内容上与待处理图像保持一致,又在图像类别上转换为与参考图像一致的中间图像,在特征层面上完成了图像类别的转换,为在图像层面完成图像类别的转换奠定了基础。
继续参考图3,图像类别表达模型包括3个网络单元(Block),每个Block包括卷积层、归一化层、激活函数层和池化层。其中,各种类型的网络层可以是一层,也可以多于一层。当然,一个Block中也可以包括其他类型的网络层。计算机设备将参考图像输入图像重构模型后,输出参考图像对应的类别特征图。计算机设备可将该类别特征图用作进行类别转换的卷积核对图像重构模型的编码器输出的内容特征图进行卷积运算,得到中间图像。
在一个实施例中,通过图像重构模型的解码结构对待处理图像进行解码,重构出与待处理图像对应的、且属于第二图像类别的目标图像,包括:通过图像重构模型的解码结构对待处理图像进行上采样操作和卷积操作,重构出与待处理图像对应的、且属于第二图像类别的目标图像;目标图像与待处理图像的图像尺寸相同。
具体地,图像重构模型的解码结构中包括卷积层和反池化层。其中,反池化层用于对输入其的数据进行上采样以提高参数尺寸和参数数量。由于解码重构出的图像需要与待处理图像在图像尺寸上一致,而编码时对待处理图像进行了下采样,那么在解码过程中则需要对内容图像图进行上采样恢复图像尺寸。
在一个具体的实施例中,图像重构模型的解码结构也可以包括多于一个的网络单元,每个网络单元可以包括多于一个的卷积层。其中,卷积层包括逐点卷积(PointWiseConvolution)层和深度卷积(DepthWise Convolution)层。
继续参考图3,在一个具体的实施例中,图像重构模型包括解码结构,该解码结构包括3个网络单元(Block),每个Block包括卷积层、归一化层、激活函数层和池化层。其中,各种类型的网络层可以是一层,也可以多于一层。当然,一个Block中也可以包括其他类型的网络层。计算机设备将中间图像输入图像重构模型得解码结构进行解码处理,重构出与待处理图像在内容上一致、且与参考图像在图像类别上一致的目标图像。
图4右图示出了一个实施例中解码结构中一个网络单元的结构示意图。参考图4右图,该网络单元(Block)包括:反池化层(un MaxPooling Layer)、逐点卷积层(PointWiseConvolution Layer)、批归一化层(Batch Normalization Layer)、Relu激活函数层(ReLULayer)、深度卷积层(DepthWise Convolution Layer)、批归一化层(Batch NormalizationLayer)和Relu激活函数层(ReLU Layer)。在另外的实施例中,在深度卷积层的激活函数层后还可以继续连接一层逐点卷积层。
上述实施例中,图像重构模型的编码结构对待处理图像进行卷积运算和下采样来进行编码,一方面通过卷积运算提取特征信息,另一方面通过下采样降低图像尺寸,增强卷积核的感受野辅助卷积核进行特征提取,得到能够充分表征待处理图像的内容特征信息的内容特征图;而且图像重构模型的编码结构对中间图像进行上采样和卷积运算来进行解码,一方面通过卷积运算提取特征信息,另一方面通过上采样来恢复图像尺寸,得到与待处理图像在图像尺寸和内容上一致,且图像类别转为与参考图像一致的目标图像。
可以理解,前文中提及的图像重构模型是包括编码-解码结构的模型,其作用是重组图像,对图像的内容和位置具有很好的表达能力,对于图像的图像类别转换的防抖起到了重要作用。而且前文中提及的图像类别表达模型在训练时的模型输入为各种图像类别的图像,能够实现对任意图像类别的类别特征进行学习和提取,避免了需要对每一种风格都采用专门的模型进行学习。这样,图像重构模型与图像类别表达模型相辅相成,极大地提高了图像类别转换的效果。
如图5所示,一个实施例中,提供了一种模型训练方法。本实施例主要以该方法应用于计算机设备来举例说明,该计算机设备具体可以是上述图1中的终端110或服务器120。参考图5,该模型训练方法具体包括如下步骤:
S502,获取属于不同图像类别的第一样本和第二样本。
其中,第一样本是用作图像重构模型的训练输入的图像。第二样本是用作图像类别表达模型的训练输入的图像。
可以理解,本申请实施例中,通过图像重构模型和图像类别表达模型的联合,将输入图像重构模型的图像的图像类别,转换为输入图像类别表达模型的图像的图像类别。那么第一样本和第二样本只需要图像类别不同即可,不需要限定第一样本和第二样本具体所属的图像类别。那么,由此训练出的图像类别表达模型可以对任意图像类别的图像进行类别特征信息提取。
S504,通过图像重构模型的编码结构对第一样本进行编码,得到与第一样本对应的内容特征图样本。
具体地,计算机设备可将第一样本输入图像重构模型,通过图像重构模型的编码结构对第一样本进行卷积操作和下采样操作,得到与第一样本对应的、且图像尺寸缩小后的内容特征图样本。
其中,图像重构模型的编码结构可以包括多于一个的网络单元。每个网络单元可以包括卷积层、归一化层、激活函数层和池化层等网络层。各种类型的网络层可以是一层,也可以多于一层。卷积层包括逐点卷积层和深度卷积层。通常情况下,深度卷积层之前应当存在逐点卷积层,深度卷积层后也可存在逐点卷积层。
S506,通过图像类别表达模型对第二样本进行编码,得到与第二样本所属的图像类别对应的类别特征参数样本。
具体地,计算机设备可将第二样本输入图像类别表达模型,通过图像类别表达模型对第二样本进行卷积操作和下采样操作,得到与第二样本所属的图像类别对应的、且图像尺寸缩小后的类别特征图样本。该类别特征图样本所包括的特征值即为提取的表征类别特征的数据,也就是类别特征参数样本。
其中,图像类别表达模型也可以包括多于一个的网络单元。每个网络单元也可以包括卷积层、归一化层、激活函数层和池化层等网络层。而且各种类型的网络层可以是一层,也可以多于一层。卷积层包括逐点卷积层和深度卷积层。通常情况下,深度卷积层之前应当存在逐点卷积层,深度卷积层后也可存在逐点卷积层。
S508,通过图像重构模型的解码结构,解码由类别特征参数样本对内容特征图样本进行类别转换得到的中间样本,得到重构样本。
具体地,计算机设备在得到第一样本对应的内容特征图样本,以及与第二样本所属的图像类别对应的类别特征图样本后,可将类别特征图样本用作卷积核对内容特征图样本进行卷积运算得到中间样本,以嵌入类别特征信息。计算机设备则可继续将中间样本输入图像重构模型的解码结构,通过该解码结构对基于中间样本进行图像重构得到重构样本。
那么,可以理解模型训练的目的即在于调整模型的参数使得得到的重构样本在内容上与第一样本保持一致,在图像类别上与第二样本保持一致。
S510,获取第一样本与重构样本的内容损耗。
其中,内容损耗是指通过图像重构模型输出的重构样本与相应输入图像重构模型的第一样本之间在图像内容上的差异。具体地,计算机设备可采用训练完成的用于提取图像内容特征的神经网络模型分别提取重构样本与相应的第一样本的图像内容特征,再将两者的图像内容特征进行比较,得到两者之间的差异,根据该差异确定重构图像与相应的第一样本的内容损耗。
在一个实施例中,S510包括:将第一样本输入特征提取模型,得到特征提取模型的特征提取层输出的与第一样本对应的特征表达图;将重构样本输入特征提取模型,得到特征提取模型的特征提取层输出的与重构样本对应的特征表达图;根据第一样本对应的特征表达图和重构样本对应的特征表达图之间的差异,确定第一样本与重构样本的内容损耗。
其中,特征提取模型是事先训练好的用来对图像进行内容特征提取的神经网络模型。该特征提取模型具体可以采用VGG网络。由于VGG网络是在ImageNet数据库上预训练好的1000类分类网络,因而具有很强的语义表达能力,图像在图像类别转换前后的内容损失能够通过两者之间语义内容之间的差异性得到很好的衡量。
在一个具体的实施例中,内容损耗又称为内容损失函数,用来约束重构的图像类别转换后的重构样本与输入图像重构模型的第一样本在内容语义上的一致性。举例说明,假设输入图像重构模型的第一样本为x,输入图像类别表达模型的第二样本为y,图像重构模型基于y的图像类别对x进行重构得到的重构样本为z。预训练好的特征提取模型第l层网络层提取的特表达图为(三维特征矩阵),则x与z之间的内容损失定义为特征提取模型的网络层所提取的特征表达图的差异之和:
其中,表示两者特征表达图之间差值的二范数的平方和。特征提取模型具体可以是VGG网络,特征提取模型的第l层网络层具体可以是VGG的Relu3-3层。因为该层在VGG中是较高层,在特征表达能力和空间分辨率上有较好的折中,从而对输入的图像的噪声具有一定的抗干扰能力,又能够保证图像类别转换后的图像在空间位置上和原始的内容图片基本保持一致。
在本实施例中,通过约束图像重构模型的输入与输出之间在内容上的损耗,并将其作为训练图像类别表达模型的一个训练目标,可以使得训练出的图像类别表达模型和图像重构模型在联合进行图像类别转换时,能够保证图像类别转换前后的图像在内容上能够尽可能保持一致。
举例说明,图6示出了一个实施例中模型训练方法所应用的模型结构示意图。参考图6,在一个具体的实施例中,计算机设备将第一样本输入图像重构模型,通过图像重构模型的编码结构对第一样本进行编码得到内容特征图样本;计算机设备将第二样本输入图像类别表达模型,通过图像类别表达模型对第二样本进行编码得到类别特征图样本;计算机设备然后将类别特征图样本用作卷积核对内容特征图样本进行卷积运算得到中间样本;计算机设备再将中间样本输入图像重构模型的解码结构进行解码,重构出重构样本。计算机设备可再将第一样本和重构样本输入特征提取模型,获取特征提取模型的中间层输出的第一样本对应的特征表达图,重构样本对应的特征表达图;再基于这两者的特征表达图定义两者之间的内容损失函数。
S512,获取第二样本与重构样本的类别特征损耗。
其中,类别特征损耗是指通过图像重构模型输出的重构样本与相应输入图像类别表达模型的第二样本之间在图像类别上的差异。具体地,计算机设备可采用训练完成的用于提取图像特征的神经网络模型分别提取重构样本与相应的第二样本的图像特征,再将两者的图像特征进行比较,得到两者之间的差异,根据该差异确定重构图像与相应的第二样本的类别特征损耗。
在一个实施例中,S512包括:将第二样本输入特征提取模型,得到特征提取模型中多于一层的特征提取层输出的与第二样本对应的特征表达图;基于第二样本的特征表达图构造第二样本的类别特征矩阵;将重构样本输入特征提取模型,得到特征提取模型中多于一层的特征提取层输出的与重构样本对应的特征表达图;基于重构样本的特征表达图构造重构样本的类别特征矩阵;根据第二样本的类别特征矩阵和重构样本的类别特征矩阵之间的差异,确定第二样本与重构样本的类别特征损耗。
其中,特征提取模型是事先训练好的用来对图像进行特征提取的神经网络模型。该特征提取模型具体可以采用VGG网络。由于VGG网络是在ImageNet数据库上预训练好的1000类分类网络,因而具有很强的语义表达能力,图像在图像类别转换前后的内容损失能够通过两者之间语义内容之间的差异性得到很好的衡量。
在一个具体的实施例中,类别特征损耗又称为类别特征损失函数,用来约束重构的图像类别转换后的重构样本与输入图像类别表达模型的第二样本在图像类别上的一致性。在本实施例中,计算机设备可以在数学形式上将一帧图像的图像类别定义为其特征表达的相关矩阵。该相关矩阵的第i行第j列的值为:
其中,Gi,j(x)表示图像x在特征提取模型的第l层网络层提取的特征表达图Fl(x)的第i层特征图和与第j层特征图的相关系数,该相关系数用第i层和第j层特征图中对应特征点的特征值相乘后累加得到。假设特征提取模型的第l层网络层提取的特征表达图Fl(x)有Cl个通道,也就是Fl(x)包括Cl层特征图,则该相关矩阵的大小为Cl×Cl。假设Fl(x)的特征图的尺寸为M*N,则k的取值为[1,M*N]。
进一步地,图像x的相关矩阵即可作为图像x类别特征矩阵。假设输入图像重构模型的第一样本为x,输入图像类别表达模型的第二样本为y,图像重构模型基于y的图像类别对x进行重构得到的重构样本为z。则z与y之间的类别特征损失定义为:
其中,特征提取模型具体可以是VGG网络,特征提取模型的第l层网络层具体可以是VGG的Relu1-2,Relu2-2,Relu3-3和Relu4-3层。选取这四层的目的是希望得到的重构样本和第二样本在底层特征、中层特征以及高层特征上的图像类别都趋向一致性。
在本实施例中,通过约束图像重构模型的输出与图像类别表达模型的输入之间在类别特征上的损耗,并将其作为训练图像类别表达模型的一个训练目标,可以使得训练出的图像类别表达模型和图像重构模型在联合进行图像类别转换时,能够保证图像类别转换后的图像在图像类别上能够尽可能达到预期。
继续参考图6,计算机设备可将第二样本和重构样本输入特征提取模型,获取特征提取模型的中间层输出的第二样本对应的特征表达图,重构样本对应的特征表达图,再基于这两者的特征表达图定义两者之间的类别特征损失函数。
S514,根据内容损耗和类别特征损耗调整图像类别表达模型并继续训练,直至满足训练停止条件时结束训练。
具体地,计算机设备可以固定图像重构模型的模型参数,按照最小化联合损失函数(内容损耗与类别特征损耗之和)的方向,调整图像类别表达模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
此时的联合损失函数为:
L=Lcontent+Lstyle (4)
当然,计算机设备也可不固定图像重构模型的模型参数,按照最小化联合损失函数(内容损耗与类别特征损耗之和)的方向,同时调整图像重构模型和图像类别表达模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
在上述实施例中,训练图像类别表达模型来提取一种图像类别的图像的类别特征,在训练时模型的输入图像的图像类别不受限制,也就是可以对任意图像类别的类别信息进行提取。这样提取的表征类别特征的数据即可对图像重构模型的编码结构提取的表征内容特征的数据进行处理,以嵌入类别特征信息,再通过图像重构模型的解码结构进行重构,即可重构出图像类别的转移的图像。这样训练出的图像类别表达模型与图像重构模型相辅相成,既可以实现任意图像类别的转换,而且类别特征参数的作用对象是反映内容信息的内容特征图,在内容本质上进行了类别特征嵌入,从而提高了图像类别转换的转换效果。
在一个实施例中,第一样本包括时间连续的视频帧序列;重构样本包括与各视频帧对应的重构样本;该模型训练方法还包括:获取时间连续的视频帧序列中,时序靠前的视频帧变化至时序靠后的视频帧的光流信息;将时序靠前的视频帧所对应的重构样本,按光流信息进行变化得到与时序靠后的视频帧对应的预测重构样本;获取时序靠后的视频帧所对应的重构样本与预测重构样本之间的时间损耗。根据内容损耗和类别特征损耗调整图像类别表达模型并继续训练,直至满足训练停止条件时结束训练,包括:根据内容损耗、类别特征损耗和时间损耗调整图像类别表达模型和图像重构模型并继续训练,直至满足训练停止条件时结束训练。
需要说明的是,第一样本可以是单独的图像帧,也可以是时间连续且多于一个的视频帧。也就是说,本申请实施例中涉及的模型可以采用单独的图像帧进行训练,也可以采用连续的视频帧进行训练。当采用连续的视频帧进行模型训练时,对于相邻的视频帧,如果包含相同的内容,那么对应的图像类别转换之后得到的目标图像也要保持一致。若相邻的视频帧各自对应的目标图像之间不能够保证平滑一致性,那么很容易造成类别转换视频(目标图像组成的序列)的抖动,对于用户来说是不可接受的,此时则需要考虑到时序上的损耗。
其中,光流可表示图像中灰度模式的运动速度。图像中按照空间位置排列的所有光流组成光流场。光流场表征了图像中像素点的变化情况,可用来确定图像间相应像素点的运动信息。
时序靠前的视频帧,是指相邻的视频帧中时间戳较早的视频帧;时序靠后的视频帧,则是指相邻的视频帧中时间戳较晚的视频帧。比如时间连续的视频帧按时序排列依次为x1,x2和x3,则x1相对于x2和x3为时序靠前的视频帧;x2相对于x1为时序靠后的视频帧,x2相对于x3为时序靠前的视频帧。
时序靠前的视频帧变化至时序靠后的视频帧的光流信息,可由时序靠前的视频帧与时序靠后的视频帧之间的光流场表示。在本实施例中,用于计算光流信息的方式具体可以是根据光流约束方程得到的基于微分的光流算法、基于区域匹配的光流算法、基于能量的光流算法、基于相位的光流算法和神经动力学光流算法等中的任意一种。比如DeepMatching、Deep Flow或者Opencv自带的L-K算法等。
具体地,计算机设备可按照用于计算光流信息的方式计算时序靠前的视频帧变化至时序靠后的视频帧的光流信息,得到时序靠前的视频帧中的像素点相应的时序靠后的视频帧中相应的像素点的光流。时序靠前的视频帧中的像素点变化至时序靠后的视频帧中相应像素点的速度矢量形成的矢量场,即为时序靠前的视频帧变化至时序靠后的视频帧的光流场。
在一个实施例中,当时间连续的视频帧序列是多于两个且时间连续的视频帧序列时,计算机设备可计算时间连续的视频帧序列中相邻的两帧视频帧之间的光流信息,也可以计算时间连续的视频帧序列中不相邻的两帧视频帧之间的光流信息。比如,时间连续的视频帧序列按时序排列依次为x1,x2和x3,计算机设备可计算x1与x2之间的光流信息,x2与x3之间的光流信息;还可以计算x1与x3之间的光流信息。
在一个实施例中,计算机设备在按照用于计算光流信息的方式计算时序靠前的视频帧变化至时序靠后的视频帧的光流信息时,也可确定计算得到的光流信息的置信度。光流信息的置信度与光流信息一一对应,用于表示相应的光流信息的可信程度。光流信息的置信度越高,表示计算得到的光流信息的表征的图像中像素点的运动信息越准确。
在一个具体的实施例中,假设相邻的视频帧xt与xt+1之间的光流信息为W∈RH×W,其中H×W为视频帧的尺寸。光流信息对应的置信度为C∈RH×W,其中Ci,j={0,1}表示计算的视频帧xt中任一点(i,j)变化至视频帧xt+1中相应点的光流信息是可信的或者是不可信的。此时,可以将xt按照光流信息W变化得到xt',xt'即为通过光流信息计算得到的下一帧视频帧,而xt+1则是真实的下一帧视频帧。在计算的光流信息是可信的时,xt'与xt+1应当是相匹配的。同理可以将xt对应的图像类别转换后的目标图像zt按照光流信息W变化得到zt',此时zt'即为通过光流信息预测的zt的下一帧目标图像,而zt+1为真实的下一帧目标图像,即可约束zt'与zt+1之间的差异作为时间损耗(即时序损失函数):
其中,Ci,j是视频帧xt与视频帧xt+1之间每个点的光流信息的置信度值,zt′(i,j)是zt(i,j)中点(i,j)按照Ci,j预测得到的下一帧图像类别转换后的图像相应点的值,zt+1(i,j)是真实的下一帧图像类别转换后的图像中该相应点的值。
时序损失函数更形象的理解就是对于相邻视频帧高度可信的匹配点,其对应的图像类别转换后的图像中相应的点也应当是相匹配的。这样就使得相邻视频帧中相同对象之间的图像类别转换也是相同的,从而避免了图像类别转换之后得到的视频可能会存在的抖动问题。而且,进行光流计算的过程只需要在模型训练阶段用到,在模型使用阶段无需计算光流信息,而是直接将待转换的视频输入图像重构模型,将目标图像类别下的参考图像输入图像类别表达模型,就可以得到图像类别转换后的视频,满足视频图像类别转换的实时性要求。
此时的联合损失函数为:
L=Lcontent+Lstyle+Ltemporal (6)
计算机设备可以按照最小化联合损失函数(内容损耗、类别特征损耗和时间损耗之和)的方向,调整图像重构模型和/或图像类别表达模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
上述实施例中,在进行模型训练时,将时间损耗、类别特征损耗和内容损耗协同作为反馈调整依据来调整模型,以训练得到可联合用于图像处理的图像重构模型和图像类别表达模型。其中,在采用连续的视频帧进行训练时,按照时序靠前的视频帧变化至时序靠后的视频帧的光流信息,得到时序靠前的视频帧的图像类别转换图像预测的下一帧类别转化图像,从而得到时间损耗。该时间损耗反映了基于光流信息预测的下一帧类别转化图像和真实的类别转化图像在时间一致性上的损耗。训练后的模型在对视频进行图像类别转换时,会考虑视频的各视频帧之间的时间一致性,极大地减少了特征转换过程中引入的闪烁噪声,从而提高了对视频进行图像类别转换时的转换效果。
在一个实施例中,该模型训练方法还包括:获取图像样本;通过图像重构模型的编码结构对图像样本进行编码,得到与图像样本对应的内容特征图样本;通过图像重构模型的解码结构,解码图像样本对应的内容特征图样本,得到重构图像样本;获取图像样本与重构图像样本之间的重构损耗;根据重构损耗调整图像重构模型并继续训练,直至满足训练停止条件时结束训练。
具体地,在训练图像类别表达模型之前,可单独训练图像重构模型。在单独训练图像重构模型时,仅需要输入图像重构模型的输入数据即可。计算机设备可获取图像样本,通过图像重构模型的编码结构对图像样本进行编码,得到与图像样本对应的内容特征图样本,再通过图像重构模型的解码结构,解码图像样本对应的内容特征图样本,得到重构图像样本,根据图像样本与重构图像样本之间的差异构建重构损耗,按照最小化重构损耗的方向调整图像重构模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
在本实施例中,通过事先单独训练图像重构模型,使得图像重构模型能够具备一定的图像重构能力,为后续以图像重构模型为环境元件进行图像类别表达模型,以及联合训练图像重构模型和图像类别表达模型奠定基础。
综上所述,在模型训练过程中,不限定训练图像类别表达模型所使用的第二样本具体所属的图像类别,那么训练出的图像类别表达模型可以用于提取任意图像类别下的图像的类别特征。而且,联合训练图像重构模型和图像类别表达模型的训练目标结合了内容损失函数、类别特征损失函数和时序损失函数来,从而可以在图像内容、图像类别以及相邻视频帧间平滑性这三个层面保持一致性。另外,图像重构模型和图像类别表达模型中还采用了加速模块,降低了模型的参数量,并加快了模型的前馈速度,使得图像类别转换变得更加迅速高效。
可以理解,前述实施例中图像处理方法所涉及的图像重构模型和图像类别表达模型可以通过前述实施例中模型训练方法训练得到。
在一个具体的实施例中,联合模型训练方法和图像处理方法的流程包括四个阶段:
第一阶段,单独训练图像重构模型。
具体地,计算机设备可获取图像样本;通过图像重构模型的编码结构对图像样本进行编码,得到与图像样本对应的内容特征图样本;通过图像重构模型的解码结构,解码图像样本对应的内容特征图样本,得到重构图像样本;获取图像样本与重构图像样本之间的重构损耗;根据重构损耗调整图像重构模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
第二阶段,单独训练图像类别表达模型。
具体地,计算机设备可获取时间连续的视频帧序列作为第一样本,并获取与第一样本所属的图像类别不同的图像作为第二样本。通过图像重构模型的编码结构依次对第一样本中各视频帧进行编码,得到与第一样本中各视频帧各自相应的内容特征图样本;通过图像类别表达模型对第二样本进行编码,得到与第二样本所属的图像类别对应的类别特征参数样本;通过图像重构模型的解码结构,解码由类别特征参数样本对各内容特征图样本进行类别转换得到的、第一样本中各视频帧相应的中间样本,得到第一样本中各视频帧相应的重构样本。
计算机设备再获取第一样本中各视频帧与相应重构样本的内容损耗;获取第二样本与各重构样本的类别特征损耗;获取时间连续的视频帧序列中,时序靠前的视频帧变化至时序靠后的视频帧的光流信息;将时序靠前的视频帧所对应的重构样本,按光流信息进行变化得到与时序靠后的视频帧对应的预测重构样本;获取时序靠后的视频帧所对应的重构样本与预测重构样本之间的时间损耗;固定图像重构模型的模型参数,根据内容损耗、类别特征损耗和时间损耗调整图像类别表达模型的模型参数并继续训练,至满足训练停止条件时结束训练。
第三阶段,联合训练图像重构模型和图像类别表达模型。
具体地,该阶段的数据流向与第二阶段相同,只是在调整模型参数时,不再固定图像重构模型的模型参数,而是同时调整图像重构模型和图像类别表达模型的模型参数。
第四阶段,模型使用阶段。
具体地,计算机设备可获取属于第一图像类别的待处理图像和属于第二图像类别的参考图像;将待处理图像输入图像重构模型,通过图像重构模型的编码结构对待处理图像进行编码,得到与待处理图像对应的内容特征图;将参考图像输入图像类别表达模型,通过图像类别表达模型对参考图像进行编码,得到与第二图像类别对应的类别特征参数;通过类别特征参数对内容特征图进行类别转换得到中间图像;通过图像重构模型的解码结构对中间图像进行解码,重构出与待处理图像对应的、且属于第二图像类别的目标图像。
应该理解的是,虽然上述各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图7所示,在一个实施例中,提供了一种图像处理装置700。参照图7,该图像处理装置700包括:获取模块701、第一编码模块702、第二编码模块703、转换模块704和解码模块705。
获取模块701,用于获取属于第一图像类别的待处理图像和属于第二图像类别的参考图像。
第一编码模块702,用于对待处理图像进行编码,得到待处理图像对应的内容特征图。
第二编码模块703,用于对参考图像进行编码,得到与第二图像类别对应的类别特征参数。
转换模块704,用于通过类别特征参数对内容特征图进行类别转换得到中间图像。
解码模块705,用于解码中间图像,以重构出与待处理图像对应、且属于第二图像类别的目标图像。
在一个实施例中,第一编码模块702还用于将待处理图像输入图像重构模型,通过图像重构模型的编码结构对待处理图像进行编码,得到与待处理图像对应的内容特征图。第二编码模块703还用于将参考图像输入图像类别表达模型,通过图像类别表达模型对参考图像进行编码,得到与第二图像类别对应的类别特征参数。解码模块705还用于通过图像重构模型的解码结构对中间图像进行解码,重构出与待处理图像对应的、且属于第二图像类别的目标图像。
在一个实施例中,第一编码模块702还用于将待处理图像输入图像重构模型;通过图像重构模型的编码结构对待处理图像进行卷积操作和下采样操作,得到与待处理图像对应的、且图像尺寸缩小后的内容特征图。解码模块705还用于通过图像重构模型的解码结构对待处理图像进行上采样操作和卷积操作,重构出与待处理图像对应的、且属于第二图像类别的目标图像;目标图像与待处理图像的图像尺寸相同。
在一个实施例中,第一编码模块702还用于通过图像重构模型的编码结构中多于一个的网络单元,依次对待处理图像进行处理;在每个网络单元中,对前一个网络单元的输出依次作逐点卷积操作、深度卷积操作和下采样操作;通过图像重构模型的编码结构中最后一个网络单元,输出与待处理图像对应的、且图像尺寸缩小后的内容特征图。
在一个实施例中,第二编码模块703还用于将参考图像输入图像类别表达模型;通过图像类别表达模型对参考图像进行卷积操作和池化操作,得到表征第二图像类别的类别特征图;将类别特征图用作类别转换卷积核;类别特征图的特征值为类别特征参数、且为类别转换卷积核的卷积核参数。
在一个实施例中,转换模块704还用于通过类别转换卷积核对内容特征图进行卷积操作,得到与待处理图像对应、且嵌入第二图像类别的类别特征的中间图像。
如图8所示,在一个实施例中,图像处理装置700还包括训练模块706,用于获取属于第一图像类别的第一样本和属于第二图像类别的第二样本;通过图像重构模型的编码结构对第一样本进行编码,得到与第一样本对应的内容特征图样本;通过图像类别表达模型对第二样本进行编码,得到与第二样本所属的图像类别对应的类别特征参数样本;通过图像重构模型的解码结构,解码由类别特征参数样本对内容特征图样本进行类别转换得到的中间样本,得到重构样本;获取第一样本与重构样本的内容损耗;获取第二样本与重构样本的类别特征损耗;根据内容损耗和类别特征损耗调整图像类别表达模型并继续训练,直至满足训练停止条件时结束训练。
在一个实施例中,训练模块706还用于将第一样本输入特征提取模型,得到特征提取模型的特征提取层输出的与第一样本对应的特征表达图;将重构样本输入特征提取模型,得到特征提取模型的特征提取层输出的与重构样本对应的特征表达图;根据第一样本对应的特征表达图和重构样本对应的特征表达图之间的差异,确定第一样本与重构样本的内容损耗。
在一个实施例中,训练模块706还用于将第二样本输入特征提取模型,得到特征提取模型中多于一层的特征提取层输出的与第二样本对应的特征表达图;基于第二样本的特征表达图构造第二样本的类别特征矩阵;将重构样本输入特征提取模型,得到特征提取模型中多于一层的特征提取层输出的与重构样本对应的特征表达图;基于重构样本的特征表达图构造重构样本的类别特征矩阵;根据第二样本的类别特征矩阵和重构样本的类别特征矩阵之间的差异,确定第二样本与重构样本的类别特征损耗。
在一个实施例中,第一样本包括时间连续的视频帧序列;重构样本包括与各视频帧对应的重构样本。训练模块706还用于获取时间连续的视频帧序列中,时序靠前的视频帧变化至时序靠后的视频帧的光流信息;将时序靠前的视频帧所对应的重构样本,按光流信息进行变化得到与时序靠后的视频帧对应的预测重构样本;获取时序靠后的视频帧所对应的重构样本与预测重构样本之间的时间损耗;根据内容损耗、类别特征损耗和时间损耗调整图像类别表达模型和图像重构模型并继续训练,直至满足训练停止条件时结束训练。
在一个实施例中,训练模块706还用于获取图像样本;通过图像重构模型的编码结构对图像样本进行编码,得到与图像样本对应的内容特征图样本;通过图像重构模型的解码结构,解码图像样本对应的内容特征图样本,得到重构图像样本;获取图像样本与重构图像样本之间的重构损耗;根据重构损耗调整图像重构模型并继续训练,直至满足训练停止条件时结束训练。
在一个实施例中,待处理图像为时间连续的视频帧序列。第一编码模块702还用于按时间顺序依次对视频帧序列中的视频帧进行编码,得到各视频帧各自对应的内容特征图。转换模块704还用于通过类别特征参数依次对各内容特征图进行类别转换,得到各视频帧各自对应的中间图像。解码模块705还用于依次解码各中间图像,以重构出与视频帧序列对应、且属于第二图像类别的目标视频帧序列。
上述图像处理装置700,在意图将属于第一图像类别的待处理图像转换为属于第二图像类别的图像时,自动对待处理图像进行编码,得到能够表征待处理图像内容信息的内容特征图,并对参考图像进行编码,得到能够表征第二图像类别信息的类别特征参数,继而通过类别特征参数对内容特征图进行类别特征嵌入得到中间图像,此时解码中间图像即可重构出与待处理图像对应、且属于第二图像类别的目标图像。这样类别特征的嵌入通过能够表征图像类别信息的类别特征参数完成,避免了纹理扩散带来的图像失真,而且类别特征参数的作用对象是反映待处理图像内容信息的内容特征图,在待处理图像的内容本质上进行了类别特征嵌入,从而提高了由待处理图像转换得到的目标图像的转换效果。
如图9所示,在一个实施例中,提供了一种模型训练装置900。参照图9,该模型训练装置900包括:获取模块901、模型处理模块902和模型训练模块903。
获取模块901,用于获取属于不同图像类别的第一样本和第二样本;
模型处理模块902,用于通过图像重构模型的编码结构对第一样本进行编码,得到与第一样本对应的内容特征图样本;通过图像类别表达模型对第二样本进行编码,得到与第二样本所属的图像类别对应的类别特征参数样本;通过图像重构模型的解码结构,解码由类别特征参数样本对内容特征图样本进行类别转换得到的中间样本,得到重构样本;
获取模块901还用于获取第一样本与重构样本的内容损耗;获取第二样本与重构样本的类别特征损耗;
模型训练模块903,用于根据内容损耗和类别特征损耗调整图像类别表达模型并继续训练,直至满足训练停止条件时结束训练。
在一个实施例中,第一样本包括时间连续的视频帧序列;重构样本包括与各视频帧对应的重构样本。获取模块901还用于获取时间连续的视频帧序列中,时序靠前的视频帧变化至时序靠后的视频帧的光流信息;将时序靠前的视频帧所对应的重构样本,按光流信息进行变化得到与时序靠后的视频帧对应的预测重构样本;获取时序靠后的视频帧所对应的重构样本与预测重构样本之间的时间损耗。模型训练模块903还用于根据内容损耗、类别特征损耗和时间损耗调整图像类别表达模型和图像重构模型并继续训练,直至满足训练停止条件时结束训练。
上述模型训练装置900,训练图像类别表达模型来提取一种图像类别的图像的类别特征,在训练时模型的输入图像的图像类别不受限制,也就是可以对任意图像类别的类别信息进行提取。这样提取的表征类别特征的数据即可对图像重构模型的编码结构提取的表征内容特征的数据进行处理,以嵌入类别特征信息,再通过图像重构模型的解码结构进行重构,即可重构出图像类别的转移的图像。这样训练出的图像类别表达模型与图像重构模型相辅相成,既可以实现任意图像类别的转换,而且类别特征参数的作用对象是反映内容信息的内容特征图,在内容本质上进行了类别特征嵌入,从而提高了图像类别转换的转换效果。
图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图10所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现图像处理和/或模型训练方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行图像处理和/或模型训练方法。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的图像处理和/或模型训练装置可以实现为一种计算机程序的形式,计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该图像处理和/或模型训练装置的各个程序模块,比如,图7所示的获取模块701、第一编码模块702、第二编码模块703、转换模块704和解码模块705。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的图像处理和/或模型训练方法中的步骤。
例如,图10所示的计算机设备可以通过如图7所示的图像处理装置700中的获取模块701获取属于第一图像类别的待处理图像和属于第二图像类别的参考图像。通过第一编码模块702于对待处理图像进行编码,得到待处理图像对应的内容特征图。通过第二编码模块703对参考图像进行编码,得到与第二图像类别对应的类别特征参数。通过转换模块704通过类别特征参数对内容特征图进行类别转换得到中间图像。通过解码模块705解码中间图像,以重构出与待处理图像对应、且属于第二图像类别的目标图像。
再例如,图10所示的计算机设备可以通过如图9所示的获取模块901获取属于不同图像类别的第一样本和第二样本。通过模型处理模块902通过图像重构模型的编码结构对第一样本进行编码,得到与第一样本对应的内容特征图样本;通过图像类别表达模型对第二样本进行编码,得到与第二样本所属的图像类别对应的类别特征参数样本;通过图像重构模型的解码结构,解码由类别特征参数样本对内容特征图样本进行类别转换得到的中间样本,得到重构样本。通过获取模块901获取第一样本与重构样本的内容损耗;获取第二样本与重构样本的类别特征损耗。通过模型训练模块903根据内容损耗和类别特征损耗调整图像类别表达模型并继续训练,直至满足训练停止条件时结束训练。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述图像处理和/或模型训练方法的步骤。此处图像处理方法的步骤可以是上述各个实施例的图像处理和/或模型训练方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述图像处理和/或模型训练方法的步骤。此处图像处理方法的步骤可以是上述各个实施例的图像处理和/或模型训练方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (26)
1.一种图像处理方法,其特征在于,所述方法包括:
获取属于第一图像类别的待处理图像和属于第二图像类别的参考图像;
对所述待处理图像进行编码,得到所述待处理图像对应的内容特征图;
将所述参考图像输入图像类别表达模型;
通过所述图像类别表达模型对所述参考图像进行卷积操作和池化操作,得到表征所述第二图像类别的类别特征图;
将所述类别特征图用作类别转换卷积核;所述类别特征图的特征值为类别特征参数、且为所述类别转换卷积核的卷积核参数;
通过所述类别转换卷积核对所述内容特征图进行卷积操作,得到与所述待处理图像对应、且嵌入所述第二图像类别的类别特征的中间图像;
解码所述中间图像,以重构出与所述待处理图像对应、且属于所述第二图像类别的目标图像。
2.根据权利要求1所述的方法,其特征在于,所述对所述待处理图像进行编码,得到所述待处理图像对应的内容特征图,包括:
将所述待处理图像输入图像重构模型,通过所述图像重构模型的编码结构对所述待处理图像进行编码,得到与所述待处理图像对应的内容特征图;
所述解码所述中间图像,以重构出与所述待处理图像对应、且属于所述第二图像类别的目标图像,包括:
通过所述图像重构模型的解码结构对所述中间图像进行解码,重构出与所述待处理图像对应的、且属于所述第二图像类别的目标图像。
3.根据权利要求2所述的方法,其特征在于,所述将所述待处理图像输入图像重构模型,通过所述图像重构模型的编码结构对所述待处理图像进行编码,得到与所述待处理图像对应的内容特征图,包括:
将所述待处理图像输入图像重构模型;
通过所述图像重构模型的编码结构对所述待处理图像进行卷积操作和下采样操作,得到与所述待处理图像对应的、且图像尺寸缩小后的内容特征图;
所述通过所述图像重构模型的解码结构对所述中间图像进行解码,重构出与所述待处理图像对应的、且属于所述第二图像类别的目标图像,包括:
通过所述图像重构模型的解码结构对所述中间图像进行上采样操作和卷积操作,重构出与所述待处理图像对应的、且属于所述第二图像类别的目标图像;所述目标图像与所述待处理图像的图像尺寸相同。
4.根据权利要求3所述的方法,其特征在于,所述通过所述图像重构模型的编码结构对所述待处理图像进行卷积操作和下采样操作,得到与所述待处理图像对应的、且图像尺寸缩小后的内容特征图,包括:
通过所述图像重构模型的编码结构中多于一个的网络单元,依次对所述待处理图像进行处理;
在每个所述网络单元中,对前一个网络单元的输出依次作逐点卷积操作、深度卷积操作和下采样操作;
通过所述图像重构模型的编码结构中最后一个网络单元,输出与所述待处理图像对应的、且图像尺寸缩小后的内容特征图。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取属于不同图像类别的第一样本和第二样本;
通过所述图像重构模型的编码结构对所述第一样本进行编码,得到与所述第一样本对应的内容特征图样本;
通过所述图像类别表达模型对所述第二样本进行编码,得到与所述第二样本所属的图像类别对应的类别特征参数样本;
通过所述图像重构模型的解码结构,解码由所述类别特征参数样本对所述内容特征图样本进行类别转换得到的中间样本,得到重构样本;
获取所述第一样本与所述重构样本的内容损耗;
获取所述第二样本与所述重构样本的类别特征损耗;
根据所述内容损耗和所述类别特征损耗调整所述图像类别表达模型并继续训练,直至满足训练停止条件时结束训练。
6.根据权利要求5所述的方法,其特征在于,所述获取所述第一样本与所述重构样本的内容损耗,包括:
将所述第一样本输入特征提取模型,得到所述特征提取模型的特征提取层输出的与所述第一样本对应的特征表达图;
将所述重构样本输入所述特征提取模型,得到所述特征提取模型的特征提取层输出的与所述重构样本对应的特征表达图;
根据所述第一样本对应的特征表达图和所述重构样本对应的特征表达图之间的差异,确定所述第一样本与所述重构样本的内容损耗。
7.根据权利要求5所述的方法,其特征在于,所述获取所述第二样本与所述重构样本的类别特征损耗,包括:
将所述第二样本输入特征提取模型,得到所述特征提取模型中多于一层的特征提取层输出的与所述第二样本对应的特征表达图;
基于所述第二样本的特征表达图构造所述第二样本的类别特征矩阵;
将所述重构样本输入所述特征提取模型,得到所述特征提取模型中多于一层的特征提取层输出的与所述重构样本对应的特征表达图;
基于所述重构样本的特征表达图构造所述重构样本的类别特征矩阵;
根据所述第二样本的类别特征矩阵和所述重构样本的类别特征矩阵之间的差异,确定所述第二样本与所述重构样本的类别特征损耗。
8.根据权利要求5所述的方法,其特征在于,所述第一样本包括时间连续的视频帧序列;所述重构样本包括与各所述视频帧对应的重构样本;
所述方法还包括:
获取所述时间连续的视频帧序列中,时序靠前的视频帧变化至时序靠后的视频帧的光流信息;
将所述时序靠前的视频帧所对应的重构样本,按所述光流信息进行变化得到与所述时序靠后的视频帧对应的预测重构样本;
获取所述时序靠后的视频帧所对应的重构样本与所述预测重构样本之间的时间损耗;
所述根据所述内容损耗和所述类别特征损耗调整所述图像类别表达模型并继续训练,直至满足训练停止条件时结束训练,包括:
根据所述内容损耗、所述类别特征损耗和所述时间损耗调整所述图像类别表达模型和所述图像重构模型并继续训练,直至满足训练停止条件时结束训练。
9.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取图像样本;
通过所述图像重构模型的编码结构对所述图像样本进行编码,得到与所述图像样本对应的内容特征图样本;
通过所述图像重构模型的解码结构,解码所述图像样本对应的内容特征图样本,得到重构图像样本;
获取所述图像样本与所述重构图像样本之间的重构损耗;
根据重构损耗调整所述图像重构模型并继续训练,直至满足训练停止条件时结束训练。
10.根据权利要求1所述的方法,其特征在于,所述待处理图像为时间连续的视频帧序列;
所述对所述待处理图像进行编码,得到所述待处理图像对应的内容特征图,包括:
按时间顺序依次对所述视频帧序列中的视频帧进行编码,得到各所述视频帧各自对应的内容特征图;
所述通过所述类别特征参数对所述内容特征图进行类别转换得到中间图像,包括:
通过所述类别特征参数依次对各所述内容特征图进行类别转换,得到各所述视频帧各自对应的中间图像;
所述解码所述中间图像,以重构出与所述待处理图像对应、且属于所述第二图像类别的目标图像,包括:
依次解码各所述中间图像,以重构出与所述视频帧序列对应、且属于所述第二图像类别的目标视频帧序列。
11.一种模型训练方法,其特征在于,所述方法包括:
获取属于不同图像类别的第一样本和第二样本;
通过图像重构模型的编码结构对所述第一样本进行编码,得到与所述第一样本对应的内容特征图样本;
将所述第二样本输入图像类别表达模型,通过所述图像类别表达模型对所述第二样本进行卷积操作和池化操作,得到所述第二样本所属的图像类别对应的类别特征图样本;
将所述类别特征图样本用作卷积核,对所述内容特征图样本进行卷积操作,得到与所述第一样本对应、且嵌入所述第二样本的类别特征的中间样本,得到重构样本;所述类别特征图样本的特征值为类别特征参数样本、且为所述卷积核的卷积核参数;
获取所述第一样本与所述重构样本的内容损耗;
获取所述第二样本与所述重构样本的类别特征损耗;
根据所述内容损耗和所述类别特征损耗调整所述图像类别表达模型并继续训练,直至满足训练停止条件时结束训练。
12.根据权利要求11所述的方法,其特征在于,所述第一样本包括时间连续的视频帧序列;所述重构样本包括与各所述视频帧对应的重构样本;
所述方法还包括:
获取所述时间连续的视频帧序列中,时序靠前的视频帧变化至时序靠后的视频帧的光流信息;
将所述时序靠前的视频帧所对应的重构样本,按所述光流信息进行变化得到与所述时序靠后的视频帧对应的预测重构样本;
获取所述时序靠后的视频帧所对应的重构样本与所述预测重构样本之间的时间损耗;
所述根据所述内容损耗和所述类别特征损耗调整所述图像类别表达模型并继续训练,直至满足训练停止条件时结束训练,包括:
根据所述内容损耗、所述类别特征损耗和所述时间损耗调整所述图像类别表达模型和所述图像重构模型并继续训练,直至满足训练停止条件时结束训练。
13.一种图像处理装置,其特征在于,所述装置包括:
获取模块,用于获取属于第一图像类别的待处理图像和属于第二图像类别的参考图像;
第一编码模块,用于对所述待处理图像进行编码,得到所述待处理图像对应的内容特征图;
第二编码模块,用于将所述参考图像输入图像类别表达模型;通过所述图像类别表达模型对所述参考图像进行卷积操作和池化操作,得到表征所述第二图像类别的类别特征图;将所述类别特征图用作类别转换卷积核;所述类别特征图的特征值为类别特征参数、且为所述类别转换卷积核的卷积核参数;
转换模块,用于通过所述类别转换卷积核对所述内容特征图进行卷积操作,得到与所述待处理图像对应、且嵌入所述第二图像类别的类别特征的中间图像;
解码模块,用于解码所述中间图像,以重构出与所述待处理图像对应、且属于所述第二图像类别的目标图像。
14.根据权利要求13所述的装置,其特征在于:
所述第一编码模块还用于将所述待处理图像输入图像重构模型,通过所述图像重构模型的编码结构对所述待处理图像进行编码,得到与所述待处理图像对应的内容特征图;
所述解码模块还用于通过所述图像重构模型的解码结构对所述中间图像进行解码,重构出与所述待处理图像对应的、且属于所述第二图像类别的目标图像。
15.根据权利要求14所述的装置,其特征在于:
所述第一编码模块具体用于将所述待处理图像输入图像重构模型;通过所述图像重构模型的编码结构对所述待处理图像进行卷积操作和下采样操作,得到与所述待处理图像对应的、且图像尺寸缩小后的内容特征图;
所述解码模块具体用于通过所述图像重构模型的解码结构对所述中间图像进行上采样操作和卷积操作,重构出与所述待处理图像对应的、且属于所述第二图像类别的目标图像;所述目标图像与所述待处理图像的图像尺寸相同。
16.根据权利要求15所述的装置,其特征在于,所述第一编码模块具体用于:
通过所述图像重构模型的编码结构中多于一个的网络单元,依次对所述待处理图像进行处理;在每个所述网络单元中,对前一个网络单元的输出依次作逐点卷积操作、深度卷积操作和下采样操作;通过所述图像重构模型的编码结构中最后一个网络单元,输出与所述待处理图像对应的、且图像尺寸缩小后的内容特征图。
17.根据权利要求14所述的装置,其特征在于,所述装置还包括训练模块,用于:
获取属于不同图像类别的第一样本和第二样本;
通过所述图像重构模型的编码结构对所述第一样本进行编码,得到与所述第一样本对应的内容特征图样本;
通过所述图像类别表达模型对所述第二样本进行编码,得到与所述第二样本所属的图像类别对应的类别特征参数样本;
通过所述图像重构模型的解码结构,解码由所述类别特征参数样本对所述内容特征图样本进行类别转换得到的中间样本,得到重构样本;
获取所述第一样本与所述重构样本的内容损耗;
获取所述第二样本与所述重构样本的类别特征损耗;
根据所述内容损耗和所述类别特征损耗调整所述图像类别表达模型并继续训练,直至满足训练停止条件时结束训练。
18.根据权利要求17所述的装置,其特征在于,所述训练模块具体用于:
将所述第一样本输入特征提取模型,得到所述特征提取模型的特征提取层输出的与所述第一样本对应的特征表达图;
将所述重构样本输入所述特征提取模型,得到所述特征提取模型的特征提取层输出的与所述重构样本对应的特征表达图;
根据所述第一样本对应的特征表达图和所述重构样本对应的特征表达图之间的差异,确定所述第一样本与所述重构样本的内容损耗。
19.根据权利要求17所述的装置,其特征在于,所述训练模块具体用于:
将所述第二样本输入特征提取模型,得到所述特征提取模型中多于一层的特征提取层输出的与所述第二样本对应的特征表达图;
基于所述第二样本的特征表达图构造所述第二样本的类别特征矩阵;
将所述重构样本输入所述特征提取模型,得到所述特征提取模型中多于一层的特征提取层输出的与所述重构样本对应的特征表达图;
基于所述重构样本的特征表达图构造所述重构样本的类别特征矩阵;
根据所述第二样本的类别特征矩阵和所述重构样本的类别特征矩阵之间的差异,确定所述第二样本与所述重构样本的类别特征损耗。
20.根据权利要求17所述的装置,其特征在于,所述第一样本包括时间连续的视频帧序列;所述重构样本包括与各所述视频帧对应的重构样本;所述训练模块具体用于:
获取所述时间连续的视频帧序列中,时序靠前的视频帧变化至时序靠后的视频帧的光流信息;
将所述时序靠前的视频帧所对应的重构样本,按所述光流信息进行变化得到与所述时序靠后的视频帧对应的预测重构样本;
获取所述时序靠后的视频帧所对应的重构样本与所述预测重构样本之间的时间损耗;
根据所述内容损耗、所述类别特征损耗和所述时间损耗调整所述图像类别表达模型和所述图像重构模型并继续训练,直至满足训练停止条件时结束训练。
21.根据权利要求17所述的装置,其特征在于,所述训练模块还用于:
获取图像样本;
通过所述图像重构模型的编码结构对所述图像样本进行编码,得到与所述图像样本对应的内容特征图样本;
通过所述图像重构模型的解码结构,解码所述图像样本对应的内容特征图样本,得到重构图像样本;
获取所述图像样本与所述重构图像样本之间的重构损耗;
根据重构损耗调整所述图像重构模型并继续训练,直至满足训练停止条件时结束训练。
22.根据权利要求13所述的装置,其特征在于,所述待处理图像为时间连续的视频帧序列;
所述第一编码模块还用于按时间顺序依次对所述视频帧序列中的视频帧进行编码,得到各所述视频帧各自对应的内容特征图;
所述转换模块还用于通过所述类别特征参数依次对各所述内容特征图进行类别转换,得到各所述视频帧各自对应的中间图像;
所述解码模块还用于依次解码各所述中间图像,以重构出与所述视频帧序列对应、且属于所述第二图像类别的目标视频帧序列。
23.一种模型训练装置,其特征在于,所述装置包括:
获取模块,用于获取属于不同图像类别的第一样本和第二样本;
模型处理模块,用于通过图像重构模型的编码结构对所述第一样本进行编码,得到与所述第一样本对应的内容特征图样本;将所述第二样本输入图像类别表达模型,通过所述图像类别表达模型对所述第二样本进行卷积操作和池化操作,得到所述第二样本所属的图像类别对应的类别特征图样本;将所述类别特征图样本用作卷积核,对所述内容特征图样本进行卷积操作,得到与所述第一样本对应、且嵌入所述第二样本的类别特征的中间样本,得到重构样本;所述类别特征图样本的特征值为类别特征参数样本、且为所述卷积核的卷积核参数;
所述获取模块还用于获取所述第一样本与所述重构样本的内容损耗;获取所述第二样本与所述重构样本的类别特征损耗;
模型训练模块,用于根据所述内容损耗和所述类别特征损耗调整所述图像类别表达模型并继续训练,直至满足训练停止条件时结束训练。
24.根据权利要求23所述的装置,其特征在于,所述第一样本包括时间连续的视频帧序列;所述重构样本包括与各所述视频帧对应的重构样本;
所述获取模块还用于:获取所述时间连续的视频帧序列中,时序靠前的视频帧变化至时序靠后的视频帧的光流信息;将所述时序靠前的视频帧所对应的重构样本,按所述光流信息进行变化得到与所述时序靠后的视频帧对应的预测重构样本;获取所述时序靠后的视频帧所对应的重构样本与所述预测重构样本之间的时间损耗;
所述模型训练模块还用于:根据所述内容损耗、所述类别特征损耗和所述时间损耗调整所述图像类别表达模型和所述图像重构模型并继续训练,直至满足训练停止条件时结束训练。
25.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。
26.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910282040.2A CN111797855B (zh) | 2019-04-09 | 2019-04-09 | 图像处理、模型训练方法、装置、介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910282040.2A CN111797855B (zh) | 2019-04-09 | 2019-04-09 | 图像处理、模型训练方法、装置、介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111797855A CN111797855A (zh) | 2020-10-20 |
CN111797855B true CN111797855B (zh) | 2024-08-13 |
Family
ID=72805298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910282040.2A Active CN111797855B (zh) | 2019-04-09 | 2019-04-09 | 图像处理、模型训练方法、装置、介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797855B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112633425B (zh) * | 2021-03-11 | 2021-05-11 | 腾讯科技(深圳)有限公司 | 图像分类方法和装置 |
WO2022217725A1 (zh) * | 2021-04-17 | 2022-10-20 | 浙江大学 | 图像处理、网络训练、编码方法及装置、设备、存储介质 |
CN113379821B (zh) * | 2021-06-23 | 2022-10-11 | 武汉大学 | 一种基于深度学习的稳定单目视频深度估计方法 |
CN113610138A (zh) * | 2021-08-02 | 2021-11-05 | 典基网络科技(上海)有限公司 | 基于深度学习模型的图像分类识别方法、装置及存储介质 |
CN113780134B (zh) * | 2021-08-31 | 2023-05-02 | 昆明理工大学 | 一种基于ShuffleNetV2网络的运动想象脑电解码方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709532A (zh) * | 2017-01-25 | 2017-05-24 | 京东方科技集团股份有限公司 | 图像处理方法和装置 |
CN107767328A (zh) * | 2017-10-13 | 2018-03-06 | 上海交通大学 | 基于少量样本生成的任意风格和内容的迁移方法和系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017132830A1 (en) * | 2016-02-02 | 2017-08-10 | Xiaogang Wang | Methods and systems for cnn network adaption and object online tracking |
CN108304755B (zh) * | 2017-03-08 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 用于图像处理的神经网络模型的训练方法和装置 |
CN107948529B (zh) * | 2017-12-28 | 2020-11-06 | 麒麟合盛网络技术股份有限公司 | 图像处理方法及装置 |
CN109285112A (zh) * | 2018-09-25 | 2019-01-29 | 京东方科技集团股份有限公司 | 基于神经网络的图像处理方法、图像处理装置 |
CN109191382B (zh) * | 2018-10-18 | 2023-12-05 | 京东方科技集团股份有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
-
2019
- 2019-04-09 CN CN201910282040.2A patent/CN111797855B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709532A (zh) * | 2017-01-25 | 2017-05-24 | 京东方科技集团股份有限公司 | 图像处理方法和装置 |
CN107767328A (zh) * | 2017-10-13 | 2018-03-06 | 上海交通大学 | 基于少量样本生成的任意风格和内容的迁移方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111797855A (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797855B (zh) | 图像处理、模型训练方法、装置、介质和设备 | |
US10593021B1 (en) | Motion deblurring using neural network architectures | |
Lim et al. | DSLR: Deep stacked Laplacian restorer for low-light image enhancement | |
US11276231B2 (en) | Semantic deep face models | |
CN112598579B (zh) | 面向监控场景的图像超分辨率方法、装置及存储介质 | |
Wu et al. | Spatial-angular attention network for light field reconstruction | |
Nakanishi et al. | Neural multi-scale image compression | |
Nash et al. | Transframer: Arbitrary frame prediction with generative models | |
Yang et al. | Reference-guided deep super-resolution via manifold localized external compensation | |
US20230274400A1 (en) | Automatically removing moving objects from video streams | |
WO2023080921A1 (en) | Neural radiance field generative modeling of object classes from single two-dimensional views | |
Yu et al. | Luminance attentive networks for HDR image and panorama reconstruction | |
US20240161240A1 (en) | Harmonizing composite images utilizing a semantic-guided transformer neural network | |
Puthussery et al. | Wdrn: A wavelet decomposed relightnet for image relighting | |
CN112200817A (zh) | 基于图像的天空区域分割和特效处理方法、装置及设备 | |
CN113592965B (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
CN117274066B (zh) | 一种图像合成模型、方法、设备及存储介质 | |
Zhang et al. | Video extrapolation in space and time | |
Li et al. | Compnvs: Novel view synthesis with scene completion | |
CN108961161B (zh) | 一种图像数据处理方法、装置和计算机存储介质 | |
Boss et al. | Deep Dual Loss BRDF Parameter Estimation. | |
CN112802075B (zh) | 纹理生成模型的训练方法、图像处理方法及装置 | |
US20240144549A1 (en) | Neural synthesis of tileable textures | |
US20240161471A1 (en) | Radiant and volumetric latent space encoding for volumetric rendering | |
Banterle et al. | Unsupervised HDR Imaging: What Can Be Learned from a Single 8-bit Video? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40030062 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TG01 | Patent term adjustment |