CN111222515B - 一种基于上下文感知注意力的图像翻译方法 - Google Patents

一种基于上下文感知注意力的图像翻译方法 Download PDF

Info

Publication number
CN111222515B
CN111222515B CN202010008802.2A CN202010008802A CN111222515B CN 111222515 B CN111222515 B CN 111222515B CN 202010008802 A CN202010008802 A CN 202010008802A CN 111222515 B CN111222515 B CN 111222515B
Authority
CN
China
Prior art keywords
feature
image
matrix
feature vector
pooling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010008802.2A
Other languages
English (en)
Other versions
CN111222515A (zh
Inventor
白静
陈冉
刘敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Boshi Intellectual Property Service Co ltd
Original Assignee
North Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North Minzu University filed Critical North Minzu University
Priority to CN202010008802.2A priority Critical patent/CN111222515B/zh
Publication of CN111222515A publication Critical patent/CN111222515A/zh
Application granted granted Critical
Publication of CN111222515B publication Critical patent/CN111222515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于上下文感知注意力的图像翻译方法,包括步骤:S1、卷积神经网络从图像中提取语义特征,产生特征向量x;S2、对初始特征向量x进行三个卷积操作,构造出三个不同的嵌入特征空间ψ(x)、ξ(x)、ζ(x);S3、对特征空间ψ(x)进行平均池化,对特征空间ξ(x)进行最大池化,得到ψ(x)、ξ(x)各自空间的显著特征;S4、将特征空间ψ(x)、ξ(x)的显著特征进行矩阵计算,求出相关特征矩阵F;S5、将F和ζ(x)相乘得到非局部特征图y;S6、将特征向量x添加到非局部特征图y上,利用残差连接输出细化特征,从而得到上下文感知注意力特征向量O(x),捕获图像中需要关注的特定区域。本发明使得图像需要关注的相关区域进行翻译,不相关的区域维持原状,可以提高图像翻译的真实性。

Description

一种基于上下文感知注意力的图像翻译方法
技术领域
本发明涉及计算机图形学、计算机视觉与智能识别的技术领域,尤其是指一种基于上下文感知注意力的图像翻译方法。
背景技术
图像翻译是计算机视觉领域中一个长期存在且具有挑战性的问题,许多问题可以看作是图像翻译,如图像超分辨率、图像着色、图像修复和图像风格转换等各个方面。当前来看,一个理想的图像翻译网络应该具有上下文感知的能力,它不仅应该能够发现源域和目标域之间的差异,而且还能判断出在翻译过程中图像的哪些部分改变,哪些部分保持不变。现有的图像翻译工作无法满足当前这些需求。
发明内容
本发明的目的在于克服现有技术的缺点与不足,针对目前无监督的一对一图像翻译技术未能将翻译集中在图像内某个对象上的需求,提出了一种基于上下文感知注意力的图像翻译方法,通过上下文感知注意力特征向量捕获各种特征之间的相互影响,从而在无监督的图像到图像的翻译中自动关注特定场景中的某个对象,提高图像翻译性能。
为实现上述目的,本发明所提供的技术方案为:一种基于上下文感知注意力的图像翻译方法,包括以下步骤:
S1、通过卷积神经网络从图像中提取语义特征,产生特征向量x;
S2、对特征向量x同时进行三个卷积操作,从而构造出三个不同的嵌入特征空间ψ(x)、ξ(x)、ζ(x),使用三个不同的嵌入特征空间能够使网络动态学习特征之间的相关性;
S3、得到三个特征空间后,对特征空间ψ(x)进行平均池化操作,对特征空间ξ(x)进行最大池化操作,从而得到ψ(x)、ξ(x)各自空间中最具象征意义的特征,即显著特征,而ζ(x)特征空间保持不变;
S4、将特征空间ψ(x)、ξ(x)经过池化操作后得到的显著特征进行矩阵计算,求出相关特征矩阵F,相关特征矩阵F能够反映图像翻译任务中需要关注的特定区域;
S5、相关特征矩阵F和特征空间ζ(x)相乘得到非局部特征图y,目的是捕捉图像中每个位置的相关权重系数;
S6、将特征向量x添加到非局部特征图y上,利用残差连接输出细化特征,从而得到上下文感知注意力特征向量O(x),上下文感知注意力特征向量O(x)能够捕获图像中需要关注的特定区域,使得图像中需要关注的特定区域进行翻译,不相关的区域维持原状,从而提高图像翻译的效果和真实性。
在步骤S1中,所述语义特征是指能够识别图像中类别的显著性特征。
在步骤S1中,所述卷积神经网络将输入图像提取特征为w×h×c的特征向量x,其中,w为特征向量的宽度,h为特征向量的高度,c为特征向量的通道数。
在步骤S2中,对特征向量x进行三个卷积操作,卷积核的大小均为1×1×c,从而得到三个不同的嵌入特征空间ψ(x)、ξ(x)、ζ(x),其中,ψ(x)∈Rn×c,ξ(x)∈Rn×c和ζ(x)∈Rn×c,n=w×h,R为一个集合,w为特征向量的宽度,h为特征向量的高度,n为w和h的乘积,c为特征向量的通道数。
在步骤S3中,对特征空间ψ(x)进行平均池化,对特征空间ξ(x)进行最大池化,通过池化操作能够得到两个大小为1×c的全局特征矩阵,平均池化操作得到的全局特征矩阵包含c个平均特征,最大池化操作得到的全局特征矩阵包含c个显著特征,池化公式如下:
平均池化:A=(avePooling(ψ(x)))n,A∈R1×c
最大池化:M=(max Pooling(ξ(x)))n,M∈R1×c
其中,A和M均为矩阵,ψ(x)、ξ(x)为嵌入特征空间,avePlooling为平均池化,maxPlooling为最大池化,w为特征向量的宽度,h为特征向量的高度,n为w和h的乘积,c为特征向量的通道数。
在步骤S4中,通过对特征空间ψ(x)平均池化得到的全局特征矩阵进行转置,再与ξ(x)最大池化得到全局特征矩阵做矩阵相乘运算,最终得到一个c×c的相关特征矩阵F,相关特征矩阵F中的Fij元素反映了第i个平均特征与第j个显著特征的相关性,相关特征矩阵F的计算公式如下:
F=ATM,F∈Rc×c
其中,AT为平均池化矩阵的转置矩阵,M为最大池化得到的全局特征矩阵,R为一个集合,c为特征向量的通道数。
在步骤S5中,非局部特征图y是通过相关特征矩阵F乘以特征空间ζ(x)得到,该非局部特征图y能够捕捉图像中每个位置的相关权重系数,其计算公式如下:
y=ζ(x)F。
在步骤S6中,细化特征是将输入的特征向量x通过残差连接添加到非局部特征图y上,从而得到输入图像的上下文感知注意力特征向量O(x),O(x)的公式如下:
O(x)=λ·y+x,O(x)∈Rnxc,λ∈[0,1]
其中,λ为可训练的参数,R为一个集合,n为w和h的乘积,w为特征向量的宽度,h为特征向量的高度,c为特征向量的通道数;当λ初始化为0时,能够嵌入到任何预训练好的模型中,且不破坏其最初的网络结构;通过学习能够使非局部特征图y和特征向量x的权重进行自动调整。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明提出了通用、灵活,可用于图像翻译的上下文感知注意力特征向量,可以添加到现有的图像翻译框架中,显著提高图像翻译的效果和真实性。
2、本发明可以捕捉不同特征之间的相关性,使得图像中需要关注的特定区域进行翻译,不相关的区域维持原状。
3、本发明可以根据翻译任务的上下文自动区分相关区域和背景,只关注特定场景中的某个对象。
附图说明
图1为不同的网络在不同数据集上的比较结果。
图2为基于上下文感知注意力的图像翻译过程,输入为原始图像,输出的是翻译后的图像,第三层和第四层分别是在DualGan(对偶学习的生成式对抗网络)中可视化的细化特征图。
图3为上下文感知注意力架构。
图4为在UNet和ResNet网络中加入上下文感知注意力的架构。
图5为在不同数据集不同网络翻译后的效果对比图。
图6为将橘子图像翻译成苹果图像的放大局部图像。
图7为不同的网络在冬天转夏天数据集上的比较结果。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所提供的基于上下文感知注意力的图像翻译方法,通过上下文感知注意力特征向量捕获各种特征之间的相互影响,从而在无监督的图像到图像的翻译中自动关注特定场景中的某个对象,提高图像翻译性能,从而有效提升图像翻译结果的质量,且不会增加过多的计算代价。如图3所示的上下文感知注意力架构,卷积神经网络从图像中提取语义特征,产生特征向量x,将特征向量x送入上下文感知注意力架构,经过卷积和池化等操作后,得到细化特征图。
其包括以下步骤:
1)卷积神经网络从图像中提取语义特征,产生特征向量x。语义特征是指能够识别图像中类别的显著性特征,卷积神经网络将输入图像提取特征为w×h×c的特征向量x,其中w为特征向量的宽度,h为特征向量的高度,c为特征向量的通道数。
2)对特征向量x同时进行三个卷积操作,卷积核的大小均为1×1×c,从而得到三个不同的嵌入特征空间ψ(x),ξ(x),ζ(x),使用三个不同的嵌入特征空间可以使网络动态学习特征之间的相关性。对于三个不同的嵌入特征空间ψ(x),ξ(x),ζ(x)其中,ψ(x)∈Rn×c,ξ(x)∈Rn×c和ζ(x)∈Rn×c(n=w×h),其中R为一个集合,w为特征向量的宽度,h为特征向量的高度,n为w和h的乘积,c为特征向量的通道数。
3)得到三个特征空间后,对特征空间ψ(x)进行平均池化操作,对特征空间ξ(x)进行最大池化操作,从而可以得到ψ(x)、ξ(x)各自空间中最具象征意义的特征,即显著特征,ζ(x)特征空间保持不变。
对特征空间ψ(x)进行平均池化,对特征空间ξ(x)进行最大池化,通过池化操作可以得到两个大小为1×c的全局特征矩阵,平均池化操作得到的全局特征矩阵包含c个平均特征,最大池化操作得到的全局特征矩阵包含c个显著特征。池化公式如下:
平均池化:A=(avePooling(ψ(x)))n,A∈R1×c
最大池化:M=(max Pooling(ξ(x)))n,M∈R1×c
其中,A和M均为矩阵,ψ(x),ξ(x)为嵌入特征空间,avePlooling为平均池化,maxPlooling为最大池化,w为特征向量的宽度,h为特征向量的高度,n为w和h的乘积,c为特征向量的通道数。
4)将特征空间ψ(x),ξ(x)经过池化操作后得到的显著特征进行矩阵计算,求出相关特征矩阵F,相关特征矩阵F反映了图像翻译任务中需要关注的特定区域。
通过对特征空间ψ(x)平均池化得到的全局特征矩阵进行转置,再与ξ(x)最大池化得到全局特征矩阵做矩阵相乘运算,最终得到一个c×c的特征相关矩阵F。特征相关矩阵F中的Fij元素反映了第i个平均特征与第j个显著特征的相关性,F的计算公式如下:
F=ATM,F∈Rc×c
其中,AT为平均池化矩阵的转置矩阵,M为最大池化得到的全局特征矩阵,R为一个集合,c为特征向量的通道数。
5)相关特征矩阵F和特征空间ζ(x)相乘得到一个非局部特征图y,可以捕捉图像中每个位置的相关权重系数。y的计算公式如下:
y=ζ(x)F
6)将特征向量x添加到非局部特征图y上,利用残差连接输出细化特征,从而得到上下文感知注意力特征向量O(x),上下文感知注意力特征向量O(x)可以捕获图像中需要关注的特定区域,使得图像中需要关注的特定区域进行翻译,不相关的区域维持原状,可以提高图像翻译的效果和真实性。图1、图5和图7表示在不同网络下图像翻译的效果对比图,其中,W→S为Winter翻译成Summer,S→W为Summer翻译成Winter;H→Z为Horse翻译Zebra,Z→H为斑马翻译成马;A→O为Apple翻译成Orange,O→A为Orange翻译成Apple;DualGAN为对偶学习的生成式对抗网络;DualGAN+SA为对偶学习的生成式对抗网络添加上自注意力;DualGAN+FA为对偶学习的生成式对抗网络添加上下文感知注意力架构;cycleGAN为循环生成式对抗网络;cycleGAN+SA为循环生成式对抗网络添加上自注意力;Attention-guided为注意力下的效果图;cycleGAN+FA为循环生成式对抗网络添加上下文感知注意力架构;UNIT为为无监督的图像到图像翻译效果图(Unsupervised Image-to-Image Translation);UNIT+FA为在无监督的图像到图像翻译的基础上增加上下文感知注意力架构效果图。图6为将橘子图像翻译成苹果图像的放大局部图,其中,O→A为Orange翻译成Apple;Attention-guided为注意力下的效果图,cycleGAN+FA为循环生成式对抗网络添加上下文感知注意力架构,可以看到,上下文感知注意力特征向量捕获了特征之间的相互关系。
细化特征是将输入的特征向量x通过残差连接添加到非局部特征图y上,从而可以得到输入图像的上下文感知注意力特征向量O(x),增加上下文感知注意力特征向量O(x)后的可视化结果如图2所示。其中O(x)的公式如下:
O(x)=λ·y+x,O(x)∈Rnxc,λ∈[0,1]
其中,λ为可训练的参数,R为一个集合,w为特征向量的宽度,h为特征向量的高度,n为w和h的乘积,c为特征向量的通道数。当λ初始化为0时,可嵌入到任何预训练好的模型中,且不破坏其最初的网络结构;通过学习可以使非局部特征图y和特征向量x的权重进行自动调整。
实验配置:本文实验的硬件环境为Intel Core i7 2600k+GTX 1070 8G+8G RAM,软件环境为windows 7x64+CUDA 8.0+cuDNN 5.1+Pytorch+Python。
数据集:本文选择了冬天转夏天(winter2summer)、苹果变橘子(apple2orange)、马变斑马(horse2zebra)、白天变黑夜(day2night)数据集。数据集中的所有图像的分辨率都是256×256×3,且包含自然风景、动物和水果,并且具有复杂的背景。表1给出了本文选用数据集的基本信息。
表1数据集基本信息
Figure BDA0002356363450000081
在加入上下文感知注意力特征向量之前,现有的图像翻译网络无法区分翻译任务中的相关区域和无关区域,而在加入上下文感知注意力特征向量后,U-Net、ResNet网络能根据翻译的上下文只关注图像中的目标对象,从而有效提高图像翻译结果的质量,且不会增加过多的计算代价。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (1)

1.一种基于上下文感知注意力的图像翻译方法,其特征在于,包括以下步骤:
S1、通过卷积神经网络从图像中提取语义特征,产生特征向量x;所述语义特征是指能够识别图像中类别的显著性特征;所述卷积神经网络将输入图像提取特征为w×h×c的特征向量x,其中,w为特征向量的宽度,h为特征向量的高度,c为特征向量的通道数;
S2、对特征向量x进行三个卷积操作,卷积核的大小均为1×1×c,从而得到三个不同的嵌入特征空间ψ(x)、ξ(x)、ζ(x),其中,ψ(x)∈Rn×c,ξ(x)∈Rn×c和ζ(x)∈Rn×c,n=w×h,R为一个集合,w为特征向量的宽度,h为特征向量的高度,n为w和h的乘积,c为特征向量的通道数;使用三个不同的嵌入特征空间能够使网络动态学习特征之间的相关性;
S3、得到三个特征空间后,对特征空间ψ(x)进行平均池化操作,对特征空间ξ(x)进行最大池化操作,从而得到ψ(x)、ξ(x)各自空间中最具象征意义的特征,即显著特征,而ζ(x)特征空间保持不变,具体如下:
对特征空间ψ(x)进行平均池化,对特征空间ξ(x)进行最大池化,通过池化操作能够得到两个大小为1×c的全局特征矩阵,平均池化操作得到的全局特征矩阵包含c个平均特征,最大池化操作得到的全局特征矩阵包含c个显著特征,池化公式如下:
平均池化:A=(avePooling(ψ(x)))n,A∈R1×c
最大池化:M=(maxPooling(ξ(x)))n,M∈R1×c
其中,A和M均为矩阵,ψ(x)、ξ(x)为嵌入特征空间,avePlooling为平均池化,maxPlooling为最大池化,w为特征向量的宽度,h为特征向量的高度,n为w和h的乘积,c为特征向量的通道数;
S4、将特征空间ψ(x)、ξ(x)经过池化操作后得到的显著特征进行矩阵计算,求出相关特征矩阵F,相关特征矩阵F能够反映图像翻译任务中需要关注的特定区域,具体如下:
通过对特征空间ψ(x)平均池化得到的全局特征矩阵进行转置,再与ξ(x)最大池化得到全局特征矩阵做矩阵相乘运算,最终得到一个c×c的相关特征矩阵F,相关特征矩阵F中的Fij元素反映了第i个平均特征与第j个显著特征的相关性,相关特征矩阵F的计算公式如下:
F=ATM,F∈Rc×c
其中,AT为平均池化矩阵的转置矩阵,M为最大池化得到的全局特征矩阵,R为一个集合,c为特征向量的通道数;
S5、相关特征矩阵F和特征空间ζ(x)相乘得到非局部特征图y,目的是捕捉图像中每个位置的相关权重系数,具体如下:
非局部特征图y是通过相关特征矩阵F乘以特征空间ζ(x)得到,该非局部特征图y能够捕捉图像中每个位置的相关权重系数,其计算公式如下:
y=ζ(x)F;
S6、将特征向量x添加到非局部特征图y上,利用残差连接输出细化特征,从而得到上下文感知注意力特征向量O(x),上下文感知注意力特征向量O(x)能够捕获图像中需要关注的特定区域,使得图像中需要关注的特定区域进行翻译,不相关的区域维持原状,从而提高图像翻译的效果和真实性,具体如下:
细化特征是将输入的特征向量x通过残差连接添加到非局部特征图y上,从而得到输入图像的上下文感知注意力特征向量O(x),O(x)的公式如下:
O(x)=λ·y+x,O(x)∈Rnxc,λ∈[0,1]
其中,λ为可训练的参数,R为一个集合,n为w和h的乘积,w为特征向量的宽度,h为特征向量的高度,c为特征向量的通道数;当λ初始化为0时,能够嵌入到任何预训练好的模型中,且不破坏其最初的网络结构;通过学习能够使非局部特征图y和特征向量x的权重进行自动调整。
CN202010008802.2A 2020-01-06 2020-01-06 一种基于上下文感知注意力的图像翻译方法 Active CN111222515B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010008802.2A CN111222515B (zh) 2020-01-06 2020-01-06 一种基于上下文感知注意力的图像翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010008802.2A CN111222515B (zh) 2020-01-06 2020-01-06 一种基于上下文感知注意力的图像翻译方法

Publications (2)

Publication Number Publication Date
CN111222515A CN111222515A (zh) 2020-06-02
CN111222515B true CN111222515B (zh) 2023-04-07

Family

ID=70825928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010008802.2A Active CN111222515B (zh) 2020-01-06 2020-01-06 一种基于上下文感知注意力的图像翻译方法

Country Status (1)

Country Link
CN (1) CN111222515B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833273B (zh) * 2020-07-17 2021-08-13 华东师范大学 基于长距离依赖的语义边界增强方法
CN113537057B (zh) * 2021-07-14 2022-11-01 山西中医药大学 一种基于改进CycleGAN的面部穴位自动定位检测系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391709A (zh) * 2017-07-28 2017-11-24 深圳市唯特视科技有限公司 一种基于新型注意模型进行图像字幕生成的方法
CN109543667A (zh) * 2018-11-14 2019-03-29 北京工业大学 一种基于注意力机制的文本识别方法
ES2735151A1 (es) * 2018-06-12 2019-12-16 Railtech Sufetra S A Dispositivo de extraccion de elementos ferroviarios y procedimiento asociado al mismo
CN110598714A (zh) * 2019-08-19 2019-12-20 中国科学院深圳先进技术研究院 一种软骨图像分割方法、装置、可读存储介质及终端设备
CN110610129A (zh) * 2019-08-05 2019-12-24 华中科技大学 一种基于自注意力机制的深度学习人脸识别系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391709A (zh) * 2017-07-28 2017-11-24 深圳市唯特视科技有限公司 一种基于新型注意模型进行图像字幕生成的方法
ES2735151A1 (es) * 2018-06-12 2019-12-16 Railtech Sufetra S A Dispositivo de extraccion de elementos ferroviarios y procedimiento asociado al mismo
CN109543667A (zh) * 2018-11-14 2019-03-29 北京工业大学 一种基于注意力机制的文本识别方法
CN110610129A (zh) * 2019-08-05 2019-12-24 华中科技大学 一种基于自注意力机制的深度学习人脸识别系统及方法
CN110598714A (zh) * 2019-08-19 2019-12-20 中国科学院深圳先进技术研究院 一种软骨图像分割方法、装置、可读存储介质及终端设备

Also Published As

Publication number Publication date
CN111222515A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
Liu et al. Blind image super-resolution: A survey and beyond
Liu et al. Learning temporal dynamics for video super-resolution: A deep learning approach
CN108875935B (zh) 基于生成对抗网络的自然图像目标材质视觉特征映射方法
Zhao et al. Invertible image decolorization
CN113283444B (zh) 一种基于生成对抗网络的异源图像迁移方法
CN111222515B (zh) 一种基于上下文感知注意力的图像翻译方法
WO2021042774A1 (zh) 图像恢复方法、图像恢复网络训练方法、装置和存储介质
CN109191366B (zh) 基于人体姿态的多视角人体图像合成方法及装置
WO2023102224A1 (en) Data augmentation for multi-task learning for depth mapping and semantic segmentation
Li et al. HASIC-Net: Hybrid attentional convolutional neural network with structure information consistency for spectral super-resolution of RGB images
CN117173024B (zh) 一种基于整体注意力的矿井图像超分辨率重建系统及方法
CN111291669A (zh) 一种双通道俯角人脸融合校正gan网络及人脸融合校正方法
WO2021057091A1 (zh) 视点图像处理方法及相关设备
CN113239824B (zh) 一种基于3D-Ghost模块的多模态训练单模态测试的动态手势识别方法
CN116977631A (zh) 一种基于DeepLabV3+的街景语义分割方法
CN116453025A (zh) 一种缺帧环境下融合时空信息的排球比赛群体行为识别方法
CN116152926A (zh) 基于视觉和骨架信息融合的手语识别方法、装置及系统
CN116168070A (zh) 一种基于红外图像的单目深度估计方法及系统
TW202324308A (zh) 圖像編解碼方法和裝置
Uzpak et al. Style transfer for keypoint matching under adverse conditions
CN117593188B (zh) 一种基于无监督深度学习的超分辨率方法及相应设备
CN114758205B (zh) 用于3d人体姿态估计的多视角特征融合方法及系统
CN116740795B (zh) 基于注意力机制的表情识别方法、模型及模型训练方法
Bisherwal et al. A Novel Approach to Image Synthesis: Using Stack GAN to Enhance Cybersecurity Application of Generative AI
KR20230122974A (ko) 주의 알고리즘 기반의 단일/다중 소스 이미지를 활용 가능한 고선명도 얼굴 교체 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240604

Address after: 401320 Banan District, Banan District, Chongqing, No. 8-29, Yu Nan Road, No. 8-29

Patentee after: Chongqing Boshi Intellectual Property Service Co.,Ltd.

Country or region after: China

Address before: 750021 No. 204, Wenchang North Street, Xixia District, the Ningxia Hui Autonomous Region, Yinchuan

Patentee before: BEIFANG MINZU University

Country or region before: China