CN112149802B - 一种语义结构一致的图像内容转换方法 - Google Patents

一种语义结构一致的图像内容转换方法 Download PDF

Info

Publication number
CN112149802B
CN112149802B CN202010979163.4A CN202010979163A CN112149802B CN 112149802 B CN112149802 B CN 112149802B CN 202010979163 A CN202010979163 A CN 202010979163A CN 112149802 B CN112149802 B CN 112149802B
Authority
CN
China
Prior art keywords
layer
representing
encoder
output
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010979163.4A
Other languages
English (en)
Other versions
CN112149802A (zh
Inventor
尹梦晓
林振峰
覃子轩
杨锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University
Original Assignee
Guangxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University filed Critical Guangxi University
Priority to CN202010979163.4A priority Critical patent/CN112149802B/zh
Publication of CN112149802A publication Critical patent/CN112149802A/zh
Application granted granted Critical
Publication of CN112149802B publication Critical patent/CN112149802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种语义结构一致的图像内容转换方法,包括步骤:1)收集训练数据,划分源图像和目标图像;2)对训练数据进行预处理,构建转换模型,包括编码器和生成器;3)使用编码器下采样经过预处理的源图像,获取潜在编码;4)使用生成器上采样潜在编码,上采样过程中通过动态感受野自适应融合多尺度信息,生成虚假的目标图像;5)构建判别器,使用虚假的目标图像,经过预处理的源图像和经过预处理的目标图像通过判别器构建损失函数;6)通过训练使损失函数收敛获取参数最优的转换模型,使用转换模型能够转换与训练集中源图像同类的图像。本发明提高了转换模型对图像信息的获取,同时改善了生成器的上采样方式,进一步提升了生成图像的质量。

Description

一种语义结构一致的图像内容转换方法
技术领域
本发明涉及深度学习和图像转换的技术领域,尤其是指一种语义结构一致的图像内容转换方法。
背景技术
计算机视觉领域在深度学习技术的推动下获得飞速发展,图像分类、目标检测和图像生成等方面的技术逐渐成熟,许多研究开始在实际生活中得到应用。在图像生成方面,图像转换能够更准确控制目标图像的生成,对图像的编辑更具有实际意义。而对于图像转换中如何生成高质量的目标图像仍是目前需要解决的问题。
目前多任务的图像转换模型主要分为监督学习和无监督学习,监督学习的转换模型需要成对的训练数据,这些数据中源图像和目标图像要求一一对应且语义结构要求一致,因此需要人为的对这些数据进行标记。由于成对数据存在精确的对应关系,因此监督学习通常能够获得较高质量的生成图像,但仍然存在生成图像模糊和存在伪影等问题。无监督学习的转换模型使用非成对数据,减少了人工标记的成本,但由于数据之间缺乏对应关系,因此需要更复杂的转换模型建立源图像和目标图像之间的关系。通常无监督的转换模型包含多个生成器或生成过程,通过逆向生成建立图像或特征的重构关系,并通过这样的关系优化目标图像的生成。总体而言,监督学习的转换模型利用成对数据的优势能在单一生成器或生成过程中生成相对较高质量的目标图像,简化了模型的训练。无监督学习的转换模型在复杂的生成过程中产生了多样化的结构,包括基于循环一致性约束的结构、基于共享潜在空间的结构和基于特征分离的结构等,这些结构不仅有效利用了非成对数据,其中一些结构还能够根据不同的条件生成多样化的目标图像,但复杂的结构导致了模型训练的困难。无论是监督学习还是无监督学习,转换模型对图像信息的提取仍然有限,导致了生成图像的质量较差。
为了提高图像信息处理的效率,在一些任务中出现了相应的图像信息处理模块,如多尺度信息提取模块和注意力机制模块等,这些模块增强了网络模型对图像信息的获取,提升了网络模型的能力,进一步推动了计算机视觉领域的发展。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种语义结构一致的图像内容转换方法,解决了由于转换模型获取图像信息的能力不足导致的生成图像质量较低和模糊等问题。本发明通过动态感受野自适应融合特征的多尺度信息,改善了转换模型中传统生成器以固定感受野生成图像的形式,同时增强了转换模型获取图像信息的能力,进一步提高了生成图像的质量。
为实现上述目的,本发明所提供的技术方案为:一种语义结构一致的图像内容转换方法,包括以下步骤:
1)收集训练数据,所述训练数据是指成对的图像,包括源图像和目标图像,源图像和目标图像一一对应,语义结构上保持一致;
2)对训练数据进行预处理,构建转换模型,包括编码器和生成器;
3)使用编码器下采样经过预处理的源图像,获取潜在编码;
4)使用生成器上采样潜在编码,上采样过程中通过动态感受野自适应融合多尺度信息,生成虚假的目标图像;
5)构建判别器,使用虚假的目标图像,经过预处理的源图像和经过预处理的目标图像通过判别器构建损失函数;
6)通过训练使损失函数收敛获取参数最优的转换模型,使用参数最优的转换模型能够转换与训练数据中源图像同类的图像。
在步骤2)中,所述预处理是指将训练数据的像素值映射到-1和1之间,同一种训练数据使用相同大小的分辨率;所述编码器是指由输入层和多个下采样网络层构成的神经网络;所述生成器是指由多个上采样网络层、特征处理模块和输出层构成的神经网络。
在步骤3)中,所述编码器包含输入层和下采样网络层,所述编码器将经过预处理的源图像下采样,处理方式为:
Figure BDA0002686908580000031
Figure BDA0002686908580000032
式中,IS表示经过预处理的源图像,
Figure BDA0002686908580000033
表示编码器中输入层使用的卷积,
Figure BDA0002686908580000034
表示编码器中输入层使用的激活函数,
Figure BDA0002686908580000035
表示编码器中输入层输出的特征,
Figure BDA0002686908580000036
表示编码器中第i层下采样网络层输出的特征,
Figure BDA0002686908580000037
表示编码器中第i-1层下采样网络层输出的特征,
Figure BDA0002686908580000038
表示编码器中第i层下采样网络层使用的卷积,
Figure BDA0002686908580000039
表示编码器中第i层下采样网络层使用的归一化方式,
Figure BDA00026869085800000310
表示编码器中第i层下采样网络层使用的激活函数,i∈{1,2,3,...,m},m表示编码器中总的下采样网络层数;
所述潜在编码是指经过预处理的源图像在编码器下采样后获得的张量。
在步骤4)中,所述生成器包含上采样网络层、特征处理模块和输出层,所述生成器将编码器输出的潜在编码上采样,并在上采样过程中通过动态感受野自适应融合多尺度信息,处理方式为:
Figure BDA00026869085800000311
Figure BDA0002686908580000041
式中,
Figure BDA0002686908580000042
表示编码器输出的潜在编码,
Figure BDA0002686908580000043
表示生成器中第i层上采样网络层输出的特征,FG i-1表示生成器中第i-1层上采样网络层输出的特征,
Figure BDA0002686908580000044
表示编码器中第(n-i+1)层上采样网络层输出的特征,⊙表示沿张量的维度进行拼接,
Figure BDA0002686908580000045
表示生成器中第i层上采样网络层使用的转置卷积,
Figure BDA0002686908580000046
表示生成器中第i层上采样网络层使用的归一化方式,
Figure BDA0002686908580000047
表示生成器中第i层上采样网络层使用的激活函数,i∈{1,2,3,...,n},n表示生成器中总的上采样网络层数,m表示编码器中总的下采样网络层数,dG表示生成器中的特征处理模块,
Figure BDA0002686908580000048
表示编码器中输入层输出的特征,
Figure BDA0002686908580000049
表示生成器中输出层使用的转置卷积,
Figure BDA00026869085800000410
表示生成器中输出层使用的激活函数,IF表示虚假的目标图像;其中,dG对特征的处理方式为:
Figure BDA00026869085800000411
Figure BDA00026869085800000412
式中,
Figure BDA00026869085800000413
表示生成器的上采样网络层中dG输入的特征,sd表示通过动态感受野自适应融合多尺度信息的模块,sd在dG中提取和融合多尺度信息,
Figure BDA00026869085800000414
表示dG中第j次特征处理使用的归一化方式,
Figure BDA00026869085800000415
表示dG中第j次特征处理使用的激活函数,
Figure BDA00026869085800000416
表示dG中第j次特征处理使用的卷积,
Figure BDA00026869085800000417
表示dG中第j次特征处理输出的特征,
Figure BDA00026869085800000418
表示dG中第j-1次特征处理输出的特征,j∈{1,2},
Figure BDA00026869085800000419
表示dG中的残差连接使用的激活函数,
Figure BDA00026869085800000420
表示dG输出的特征;其中,sd通过动态感受野自适应融合多尺度信息的方式包含以下步骤:
4.1)使用不同感受野的卷积获取多尺度信息:
Figure BDA0002686908580000051
式中,
Figure BDA0002686908580000052
表示sd输入的特征,
Figure BDA0002686908580000053
表示sd中第k个卷积分支使用感受野大小为c的卷积,
Figure BDA0002686908580000054
表示sd中第k个卷积分支使用的归一化方式,
Figure BDA0002686908580000055
表示sd中第k个卷积分支使用的激活函数,
Figure BDA0002686908580000056
表示sd中第k个卷积分支输出的特征,
Figure BDA0002686908580000057
包含
Figure BDA0002686908580000058
在感受野大小为c的卷积上获取的尺度信息,p表示sd中的卷积分支的数量,k∈{1,2,3,...,p},q表示sd中卷积分支中感受野的大小,c∈{1,3,5,...,q};
4.2)使用全局平均池化统计p个卷积分支输出特征的全局变化:
Figure BDA0002686908580000059
式中,GAP表示全局平均池化,
Figure BDA00026869085800000510
表示sd中第p个卷积分支以感受野大小为q的卷积获取的特征,Ws表示
Figure BDA00026869085800000511
全局变化的张量;
4.3)使用Ws计算自适应选择权重:
Figure BDA00026869085800000512
Figure BDA00026869085800000513
式中,ns表示对Ws进行降维使用的归一化方式,fs表示对Ws进行降维使用的激活函数,
Figure BDA00026869085800000514
表示计算sd中第k个卷积分支的选择权重时使用的卷积,fw表示计算选择权重使用的激活函数,
Figure BDA00026869085800000515
表示sd中第k个卷积分支的选择权重,
Figure BDA00026869085800000516
表示不同尺度信息融合的特征,
Figure BDA00026869085800000517
表示sd中第p个卷积分支的选择权重,通过
Figure BDA00026869085800000518
控制
Figure BDA00026869085800000519
中尺度信息的转换程度,使sd获得动态感受野。
在步骤5)中,所述判别器是由输入层、下采样网络层和输出层构成的神经网络,对输入图像的处理过程为:
Figure BDA00026869085800000520
Figure BDA0002686908580000061
Figure BDA0002686908580000062
式中,
Figure BDA0002686908580000063
Figure BDA0002686908580000064
表示判别器的两个输入图像,⊙表示沿张量的维度进行拼接,
Figure BDA0002686908580000065
表示判别器中输入层使用的卷积,
Figure BDA0002686908580000066
表示判别器中输入层使用的激活函数,
Figure BDA0002686908580000067
表示输入层输出的特征,
Figure BDA0002686908580000068
表示判别器中第i层网络层输出的特征,
Figure BDA0002686908580000069
表示判别器中第i-1层网络层输出的特征,
Figure BDA00026869085800000610
表示判别器中第i层网络层使用的归一化方式,
Figure BDA00026869085800000611
表示判别器中第i层网络层使用的激活函数,l表示判别器中的网络层数,
Figure BDA00026869085800000612
表示判别器中输出层使用的卷积,
Figure BDA00026869085800000613
表示判别器中输出层输出的特征;
根据经过预处理的源图像、经过预处理的真实目标图像和虚假的目标图像构建转换模型的损失函数和判别器的损失函数,分别表示为:
Figure BDA00026869085800000614
Figure BDA00026869085800000615
式中,LT表示转换模型的损失函数,LD表示判别器的损失函数,x表示经过预处理源图像,y表示经过预处理真实目标图像,T(x)表示虚假的目标图像,D(x,T(x))表示判别器对假样本的判断结果,D(x,y)表示判别器对真样本的判断结果,λ1=2,λ2=100,T表示转换模型,D表示判别器。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明在转换模型的生成器中实现了自适应多尺度信息融合,增强了转换模型对图像信息的获取。
2、本发明通过自适应多尺度信息融合使转换模型的生成器获得动态感受野,改善了转换模型的传统生成器以固定感受野生成图像的形式。
3、本发明对小样本数据也能生成高质量的目标图像。
4、本发明所提出的转换模型的生成器结构在图像生成领域中具有广泛的使用空间,在不同的转换模型中此生成器结构都能有效的获取更多图像信息,从而进一步提高生成图像的质量。
附图说明
图1为本发明使用的训练方式结构图。图中E表示编码器,G表示生成器,转换模型由E和G构成,D表示判别器,IS表示经过预处理源图像,IT表示经过预处理的真实目标图像,IF表示虚假的目标图像,“Fake”和“True”分别表示判别器对输入的数据的判断结果,以张量的形式表示。
图2为本发明训练方式的使用流程图。
图3为本发明预测方式的使用流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
参见图1至图3所示,本实施例所提供的语义结构一致的图像内容转换方法,包括以下步骤:
1)收集训练数据,划分源图像和目标图像,所述训练数据是指成对的图像,包括源图像和目标图像,源图像和目标图像一一对应,语义结构上保持一致。
2)对训练数据进行预处理,构建转换模型,包括编码器和生成器,所述预处理是指将训练数据的像素值映射到-1和1之间,同一种训练数据使用相同大小的分辨率;所述编码器是指由输入层和多个下采样网络层构成的神经网络;所述生成器是指由多个上采样网络层、特征处理模块和输出层构成的神经网络。
3)使用编码器下采样经过预处理的源图像,获取潜在编码,编码器包含输入层和下采样网络层,编码器将经过预处理的源图像下采样,处理方式为:
Figure BDA0002686908580000081
Figure BDA0002686908580000082
式中,IS表示经过预处理的源图像,
Figure BDA0002686908580000083
表示编码器中输入层使用的卷积,
Figure BDA0002686908580000084
表示编码器中输入层使用的激活函数,
Figure BDA0002686908580000085
表示编码器中输入层输出的特征,
Figure BDA0002686908580000086
表示编码器中第i层下采样网络层输出的特征,
Figure BDA0002686908580000087
表示编码器中第i-1层下采样网络层输出的特征,
Figure BDA0002686908580000088
表示编码器中第i层下采样网络层使用的卷积,
Figure BDA0002686908580000089
表示编码器中第i层下采样网络层使用的归一化方式,
Figure BDA00026869085800000810
表示编码器中第i层下采样网络层使用的激活函数,i∈{1,2,3,...,m},m表示编码器中总的下采样网络层数;所述潜在编码是指经过预处理的源图像在编码器下采样后获得的张量。
4)使用生成器上采样潜在编码,上采样过程中通过动态感受野自适应融合多尺度信息,生成虚假的目标图像,生成器包含上采样网络层、特征处理模块和输出层,生成器将编码器输出的潜在编码上采样,并在上采样过程中通过动态感受野自适应融合多尺度信息,处理方式为:
Figure BDA00026869085800000811
Figure BDA00026869085800000812
式中,
Figure BDA00026869085800000813
表示编码器输出的潜在编码,
Figure BDA00026869085800000814
表示生成器中第i层上采样网络层输出的特征,
Figure BDA00026869085800000815
表示生成器中第i-1层上采样网络层输出的特征,
Figure BDA00026869085800000816
表示编码器中第(n-i+1)层上采样网络层输出的特征,⊙表示沿张量的维度进行拼接,
Figure BDA00026869085800000817
表示生成器中第i层上采样网络层使用的转置卷积,
Figure BDA00026869085800000818
表示生成器中第i层上采样网络层使用的归一化方式,
Figure BDA00026869085800000819
表示生成器中第i层上采样网络层使用的激活函数,i∈{1,2,3,...,n},n表示生成器中总的上采样网络层数,m表示编码器中总的下采样网络层数,dG表示生成器中的特征处理模块,
Figure BDA0002686908580000091
表示编码器中输入层输出的特征,
Figure BDA0002686908580000092
表示生成器中输出层使用的转置卷积,
Figure BDA0002686908580000093
表示生成器中输出层使用的激活函数,IF表示虚假的目标图像,其中dG对特征的处理方式为:
Figure BDA0002686908580000094
Figure BDA0002686908580000095
式中,
Figure BDA0002686908580000096
表示生成器的上采样网络层中dG输入的特征,sd表示通过动态感受野自适应融合多尺度信息的模块,sd在dG中提取和融合多尺度信息,
Figure BDA0002686908580000097
表示dG中第j次特征处理使用的归一化方式,
Figure BDA0002686908580000098
表示dG中第j次特征处理使用的激活函数,
Figure BDA0002686908580000099
表示dG中第j次特征处理使用的卷积,
Figure BDA00026869085800000910
表示dG中第j次特征处理输出的特征,
Figure BDA00026869085800000911
表示dG中第j-1次特征处理输出的特征,j∈{1,2},
Figure BDA00026869085800000912
表示dG中的残差连接使用的激活函数,
Figure BDA00026869085800000913
表示dG输出的特征,其中sd通过动态感受野自适应融合多尺度信息的方式包含以下步骤:
4.1)使用不同感受野的卷积获取多尺度信息:
Figure BDA00026869085800000914
式中,
Figure BDA00026869085800000915
表示sd输入的特征,
Figure BDA00026869085800000916
表示sd中第k个卷积分支使用感受野大小为c的卷积,
Figure BDA00026869085800000917
表示sd中第k个卷积分支使用的归一化方式,
Figure BDA00026869085800000918
表示sd中第k个卷积分支使用的激活函数,
Figure BDA00026869085800000919
表示sd中第k个卷积分支输出的特征,
Figure BDA00026869085800000920
包含
Figure BDA00026869085800000921
在感受野大小为c的卷积上获取的尺度信息,p表示sd中的卷积分支的数量,k∈{1,2,3,...,p},q表示sd中卷积分支中感受野的大小,c∈{1,3,5,...,q}。
4.2)使用全局平均池化统计p个卷积分支输出特征的全局变化:
Figure BDA0002686908580000101
式中GAP表示全局平均池化,
Figure BDA0002686908580000102
表示sd中第p个卷积分支以感受野大小为q的卷积获取的特征,Ws表示
Figure BDA0002686908580000103
全局变化的张量。
4.3)使用Ws计算自适应选择权重:
Figure BDA0002686908580000104
Figure BDA0002686908580000105
式中,ns表示对Ws进行降维使用的归一化方式,fs表示对Ws进行降维使用的激活函数,
Figure BDA0002686908580000106
表示计算sd中第k个卷积分支的选择权重时使用的卷积,fw表示计算选择权重使用的激活函数,
Figure BDA0002686908580000107
表示sd中第k个卷积分支的选择权重,
Figure BDA0002686908580000108
表示不同尺度信息融合的特征,
Figure BDA0002686908580000109
表示sd中第p个卷积分支的选择权重,通过
Figure BDA00026869085800001010
控制
Figure BDA00026869085800001011
中尺度信息的转换程度,使sd获得动态感受野。
5)构建判别器,使用虚假的目标图像,经过预处理的源图像和经过预处理的目标图像通过判别器构建损失函数,所述判别器是由输入层、下采样网络层和输出层构成的神经网络,对输入图像的处理过程为:
Figure BDA00026869085800001012
Figure BDA00026869085800001013
Figure BDA00026869085800001014
式中,
Figure BDA00026869085800001015
Figure BDA00026869085800001016
表示判别器的两个输入图像,⊙表示沿张量的维度进行拼接,
Figure BDA00026869085800001017
表示判别器中输入层使用的卷积,
Figure BDA00026869085800001018
表示判别器中输入层使用的激活函数,
Figure BDA00026869085800001019
表示输入层输出的特征,
Figure BDA00026869085800001020
表示判别器中第i层网络层输出的特征,
Figure BDA00026869085800001021
表示判别器中第i-1层网络层输出的特征,
Figure BDA00026869085800001022
表示判别器中第i层网络层使用的归一化方式,
Figure BDA0002686908580000111
表示判别器中第i层网络层使用的激活函数,l表示判别器中的网络层数,
Figure BDA0002686908580000112
表示判别器中输出层使用的卷积,
Figure BDA0002686908580000113
表示判别器中输出层输出的特征。如图1所示,本发明的训练方式使用转换模型和判别器,其中转换模型由编码器和生成器构成,模型训练时需要根据经过预处理的源图像、根据经过预处理的真实目标图像和虚假的目标图像构建转换模型的损失函数和判别器的损失函数,分别表示为:
Figure BDA0002686908580000114
Figure BDA0002686908580000115
式中,LT表示转换模型的损失函数,LD表示判别器的损失函数,x表示经过预处理源图像,y表示经过预处理真实目标图像,T(x)表示虚假的目标图像,D(x,T(x))表示判别器对假样本的判断结果,D(x,y)表示判别器对真样本的判断结果,λ1=2,λ2=100,T表示转换模型,D表示判别器。
如图2所示,本发明的训练方式包含以下步骤:第一步对训练数据进行预处理;第二步编码器将经过预处理的源图像下采样提取潜在编码;第三步生成器将潜在编码上采样生成虚假的目标图像;第四步使用经过预处理的源图像,虚假的目标图像和经过预处理的真实目标图像计算转换模型的损失函数和判别器的损失函数,通过反向传播和梯度下降的方式优化转换模型;第五步通过损失函数的输出判断此函数是否收敛,当所有损失函数收敛时停止训练,获得转换模型的最优参数,否则继续使用成对数据训练转换模型。
实际应用中只使用训练过程中获得的最优转换模型,如图3所示,使用转换模型时仍需要对数据进行预处理,但此时只需要源图像,经过预处理的源图像依次由编码器下采样和生成器上采样后获得虚假的目标图像,最后需要对虚假的目标图像进行预处理的逆向操作,将虚假的目标图像的像素值映射至正常的视觉范围。
综上所述,在采用以上方案后,本发明将基于动态感受野的自适应多尺度信息融合的方式和生成器进行结合,有效提高了转换模型对图像信息的获取,同时改善了生成器的上采样方式,进一步提升了生成图像的质量,有效推动图像转换领域的发展,具有实际应用价值,值得推广。
以上所述实施例只为本发明之一般实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (4)

1.一种语义结构一致的图像内容转换方法,其特征在于,包括以下步骤:
1)收集训练数据,所述训练数据是指成对的图像,包括源图像和目标图像,源图像和目标图像一一对应,语义结构上保持一致;
2)对训练数据进行预处理,构建转换模型,包括编码器和生成器;
3)使用编码器下采样经过预处理的源图像,获取潜在编码;
4)使用生成器上采样潜在编码,上采样过程中通过动态感受野自适应融合多尺度信息,生成虚假的目标图像;其中,所述生成器包含上采样网络层、特征处理模块和输出层,所述生成器将编码器输出的潜在编码上采样,并在上采样过程中通过动态感受野自适应融合多尺度信息,处理方式为:
Figure FDA0003682925550000011
Figure FDA0003682925550000012
式中,
Figure FDA0003682925550000013
表示编码器输出的潜在编码,
Figure FDA0003682925550000014
表示生成器中第i层上采样网络层输出的特征,
Figure FDA0003682925550000015
表示生成器中第i-1层上采样网络层输出的特征,
Figure FDA0003682925550000016
表示编码器中第(n-i+1)层上采样网络层输出的特征,⊙表示沿张量的维度进行拼接,
Figure FDA0003682925550000017
表示生成器中第i层上采样网络层使用的转置卷积,
Figure FDA0003682925550000018
表示生成器中第i层上采样网络层使用的归一化方式,
Figure FDA0003682925550000019
表示生成器中第i层上采样网络层使用的激活函数,i∈{1,2,3,...,n},n表示生成器中总的上采样网络层数,m表示编码器中总的下采样网络层数,dG表示生成器中的特征处理模块,
Figure FDA00036829255500000110
表示编码器中输入层输出的特征,
Figure FDA00036829255500000111
表示生成器中输出层使用的转置卷积,
Figure FDA00036829255500000112
表示生成器中输出层使用的激活函数,IF表示虚假的目标图像;其中,dG对特征的处理方式为:
Figure FDA0003682925550000021
Figure FDA0003682925550000022
式中,
Figure FDA0003682925550000023
表示生成器的上采样网络层中dG输入的特征,sd表示通过动态感受野自适应融合多尺度信息的模块,sd在dG中提取和融合多尺度信息,
Figure FDA0003682925550000024
表示dG中第j次特征处理使用的归一化方式,
Figure FDA0003682925550000025
表示dG中第j次特征处理使用的激活函数,
Figure FDA0003682925550000026
表示dG中第j次特征处理使用的卷积,
Figure FDA0003682925550000027
表示dG中第j次特征处理输出的特征,
Figure FDA0003682925550000028
表示dG中第j-1次特征处理输出的特征,j∈{1,2},
Figure FDA0003682925550000029
表示dG中的残差连接使用的激活函数,
Figure FDA00036829255500000210
表示dG输出的特征;其中,sd通过动态感受野自适应融合多尺度信息的方式包含以下步骤:
4.1)使用不同感受野的卷积获取多尺度信息:
Figure FDA00036829255500000211
式中,
Figure FDA00036829255500000212
表示sd输入的特征,
Figure FDA00036829255500000213
表示sd中第k个卷积分支使用感受野大小为c的卷积,
Figure FDA00036829255500000214
表示sd中第k个卷积分支使用的归一化方式,
Figure FDA00036829255500000215
表示sd中第k个卷积分支使用的激活函数,
Figure FDA00036829255500000216
表示sd中第k个卷积分支输出的特征,
Figure FDA00036829255500000217
包含
Figure FDA00036829255500000218
在感受野大小为c的卷积上获取的尺度信息,p表示sd中的卷积分支的数量,k∈{1,2,3,...,p},q表示sd中卷积分支中感受野的大小,c∈{1,3,5,...,q};
4.2)使用全局平均池化统计p个卷积分支输出特征的全局变化:
Figure FDA00036829255500000219
式中,GAP表示全局平均池化,
Figure FDA00036829255500000220
表示sd中第p个卷积分支以感受野大小为q的卷积获取的特征,Ws表示
Figure FDA00036829255500000221
全局变化的张量;
4.3)使用Ws计算自适应选择权重:
Figure FDA0003682925550000031
Figure FDA0003682925550000032
式中,ns表示对Ws进行降维使用的归一化方式,fs表示对Ws进行降维使用的激活函数,
Figure FDA0003682925550000033
表示计算sd中第k个卷积分支的选择权重时使用的卷积,fw表示计算选择权重使用的激活函数,
Figure FDA0003682925550000034
表示sd中第k个卷积分支的选择权重,
Figure FDA0003682925550000035
表示不同尺度信息融合的特征,
Figure FDA0003682925550000036
表示sd中第p个卷积分支的选择权重,通过
Figure FDA0003682925550000037
控制
Figure FDA0003682925550000038
中尺度信息的转换程度,使sd获得动态感受野;
5)构建判别器,使用虚假的目标图像,经过预处理的源图像和经过预处理的目标图像通过判别器构建损失函数;
6)通过训练使损失函数收敛获取参数最优的转换模型,使用参数最优的转换模型能够转换与训练数据中源图像同类的图像。
2.根据权利要求1所述的一种语义结构一致的图像内容转换方法,其特征在于:在步骤2)中,所述预处理是指将训练数据的像素值映射到-1和1之间,同一种训练数据使用相同大小的分辨率;所述编码器是指由输入层和多个下采样网络层构成的神经网络;所述生成器是指由多个上采样网络层、特征处理模块和输出层构成的神经网络。
3.根据权利要求1所述的一种语义结构一致的图像内容转换方法,其特征在于:在步骤3)中,所述编码器包含输入层和下采样网络层,所述编码器将经过预处理的源图像下采样,处理方式为:
Figure FDA0003682925550000039
Figure FDA0003682925550000041
式中,IS表示经过预处理的源图像,
Figure FDA0003682925550000042
表示编码器中输入层使用的卷积,
Figure FDA0003682925550000043
表示编码器中输入层使用的激活函数,
Figure FDA0003682925550000044
表示编码器中输入层输出的特征,
Figure FDA0003682925550000045
表示编码器中第i层下采样网络层输出的特征,
Figure FDA0003682925550000046
表示编码器中第i-1层下采样网络层输出的特征,
Figure FDA0003682925550000047
表示编码器中第i层下采样网络层使用的卷积,
Figure FDA0003682925550000048
表示编码器中第i层下采样网络层使用的归一化方式,
Figure FDA0003682925550000049
表示编码器中第i层下采样网络层使用的激活函数,i∈{1,2,3,...,m},m表示编码器中总的下采样网络层数;
所述潜在编码是指经过预处理的源图像在编码器下采样后获得的张量。
4.根据权利要求1所述的一种语义结构一致的图像内容转换方法,其特征在于:在步骤5)中,所述判别器是由输入层、下采样网络层和输出层构成的神经网络,对输入图像的处理过程为:
Figure FDA00036829255500000410
Figure FDA00036829255500000411
Figure FDA00036829255500000412
式中,
Figure FDA00036829255500000413
Figure FDA00036829255500000414
表示判别器的两个输入图像,⊙表示沿张量的维度进行拼接,
Figure FDA00036829255500000415
表示判别器中输入层使用的卷积,
Figure FDA00036829255500000416
表示判别器中输入层使用的激活函数,
Figure FDA00036829255500000417
表示输入层输出的特征,
Figure FDA00036829255500000418
表示判别器中第i层网络层输出的特征,
Figure FDA00036829255500000419
表示判别器中第i-1层网络层输出的特征,
Figure FDA00036829255500000420
表示判别器中第i层网络层使用的归一化方式,
Figure FDA00036829255500000421
表示判别器中第i层网络层使用的激活函数,l表示判别器中的网络层数,
Figure FDA00036829255500000422
表示判别器中输出层使用的卷积,
Figure FDA00036829255500000423
表示判别器中输出层输出的特征;
根据经过预处理的源图像、经过预处理的真实目标图像和虚假的目标图像构建转换模型的损失函数和判别器的损失函数,分别表示为:
Figure FDA0003682925550000051
Figure FDA0003682925550000052
式中,LT表示转换模型的损失函数,LD表示判别器的损失函数,x表示经过预处理源图像,y表示经过预处理真实目标图像,T(x)表示虚假的目标图像,D(x,T(x))表示判别器对假样本的判断结果,D(x,y)表示判别器对真样本的判断结果,λ1=2,λ2=100,T表示转换模型,D表示判别器。
CN202010979163.4A 2020-09-17 2020-09-17 一种语义结构一致的图像内容转换方法 Active CN112149802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010979163.4A CN112149802B (zh) 2020-09-17 2020-09-17 一种语义结构一致的图像内容转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010979163.4A CN112149802B (zh) 2020-09-17 2020-09-17 一种语义结构一致的图像内容转换方法

Publications (2)

Publication Number Publication Date
CN112149802A CN112149802A (zh) 2020-12-29
CN112149802B true CN112149802B (zh) 2022-08-09

Family

ID=73892485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010979163.4A Active CN112149802B (zh) 2020-09-17 2020-09-17 一种语义结构一致的图像内容转换方法

Country Status (1)

Country Link
CN (1) CN112149802B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836746B (zh) * 2021-02-02 2022-09-09 中国科学技术大学 基于一致性图建模的语义对应方法
CN115841589A (zh) * 2022-11-08 2023-03-24 河南大学 一种基于生成式自我注意机制的无监督图像翻译方法
CN116823597B (zh) * 2023-08-02 2024-05-07 北京中科闻歌科技股份有限公司 一种图像生成系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110745A (zh) * 2019-03-29 2019-08-09 上海海事大学 基于生成对抗网络的半监督x光图像自动标注
CN111127447A (zh) * 2019-12-26 2020-05-08 河南工业大学 基于生成式对抗网络的血管分割网络及方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018125329A1 (en) * 2016-09-19 2018-07-05 The Trustees Of Columbia University In The City Of New York Systems and methods for ultrasound modulation of neurons
CN110660038B (zh) * 2019-09-09 2023-06-09 山东工商学院 一种基于生成对抗网络的多光谱图像与全色图像融合方法
CN110659727B (zh) * 2019-09-24 2022-05-13 中国科学技术大学 一种基于草图的图像生成方法
CN110705457B (zh) * 2019-09-29 2024-01-19 核工业北京地质研究院 一种遥感影像建筑物变化检测方法
CN110880165A (zh) * 2019-10-15 2020-03-13 杭州电子科技大学 一种基于轮廓和颜色特征融合编码的图像去雾方法
CN111160276B (zh) * 2019-12-31 2023-05-12 重庆大学 基于遥感影像的u型空洞全卷积分割网络识别模型
CN111476294B (zh) * 2020-04-07 2022-03-22 南昌航空大学 一种基于生成对抗网络的零样本图像识别方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110745A (zh) * 2019-03-29 2019-08-09 上海海事大学 基于生成对抗网络的半监督x光图像自动标注
CN111127447A (zh) * 2019-12-26 2020-05-08 河南工业大学 基于生成式对抗网络的血管分割网络及方法

Also Published As

Publication number Publication date
CN112149802A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN112149802B (zh) 一种语义结构一致的图像内容转换方法
CN114581560B (zh) 基于注意力机制的多尺度神经网络红外图像彩色化方法
CN116051549B (zh) 一种太阳能电池片缺陷分割方法、系统、介质及设备
CN114283120B (zh) 一种基于领域自适应的端到端多源异质遥感影像变化检测方法
CN111833277A (zh) 一种具有非配对多尺度混合编解码结构的海上图像去雾方法
CN110599502B (zh) 一种基于深度学习的皮肤病变分割方法
CN115546032B (zh) 一种基于特征融合与注意力机制的单帧图像超分辨率方法
CN113870160B (zh) 一种基于变换器神经网络的点云数据处理方法
CN115393289A (zh) 基于集成交叉伪标签的肿瘤图像半监督分割方法
CN113888399B (zh) 一种基于风格融合与域选结构的人脸年龄合成方法
CN113870327B (zh) 基于预测多层次变形场的医学图像配准方法
CN117291803B (zh) Pamgan轻量化面部超分辨率重建方法
CN117097876B (zh) 基于神经网络的事件相机图像重建方法
CN116933931A (zh) 一种云计算双流特征交互的电动汽车充电桩占用预测方法
CN116503499A (zh) 一种基于循环生成对抗网络的素描画生成方法及系统
CN116071582A (zh) 一种空间和通道加权和动态非对称卷积的物体识别方法
CN114764754B (zh) 一种基于几何感知先验引导的遮挡人脸修复方法
CN112785684B (zh) 一种基于局部信息加权机制的三维模型重建方法
CN116612343A (zh) 一种基于自监督学习的输电线路金具检测方法
Huang et al. Remote sensing data detection based on multiscale fusion and attention mechanism
CN115761377A (zh) 基于上下文注意力机制的吸烟者脑部磁共振影像分类方法
CN114529939A (zh) 基于毫米波雷达点云聚类和深度学习的行人识别方法
CN117152441B (zh) 一种基于跨尺度解码的生物图像实例分割方法
CN117593666B (zh) 一种极光图像的地磁台站数据预测方法及系统
CN113807233B (zh) 基于高次项参考曲面学习的点云特征提取方法、分类方法和分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant