CN108492273A - 一种基于自注意力模型的图像生成方法 - Google Patents

一种基于自注意力模型的图像生成方法 Download PDF

Info

Publication number
CN108492273A
CN108492273A CN201810262631.9A CN201810262631A CN108492273A CN 108492273 A CN108492273 A CN 108492273A CN 201810262631 A CN201810262631 A CN 201810262631A CN 108492273 A CN108492273 A CN 108492273A
Authority
CN
China
Prior art keywords
attention
pixel
dimension
image
positions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810262631.9A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201810262631.9A priority Critical patent/CN108492273A/zh
Publication of CN108492273A publication Critical patent/CN108492273A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

本发明中提出的一种基于自注意力模型的图像生成方法,其主要内容包括:图像表示、自注意力模型、局部自注意力,其过程为,将输入像素和预测像素的三个颜色通道强度视为分类变量并进行编码,将宽度和通道的尺寸组合成一个三维张量,将位置的当前表示与其他位置的表示进行比较,从而获得对其他位置的注意力分布,为所有查询块并行计算自注意力,同时为所有位置并行计算前馈网络和层的归一化,使用一维局部注意力和二维局部注意力两个方案来选择查询块及其相关联的存储块邻域。本发明基于自注意力模型,显著增加了模型在实践中可以处理的图像的大小,能够有效地利用图像的二维特性,大大提高了生成图像的质量。

Description

一种基于自注意力模型的图像生成方法
技术领域
本发明涉及图像处理领域,尤其是涉及了一种基于自注意力模型的图像生成方法。
背景技术
图像处理和图像生成是计算机视觉领域的一个重要课题。如今,随着网络的普及和各式拍摄设备的发展,各种各样的图像的数量成指数增长。但是由于网络传输和拍摄设备的影响,人们获取的图片可能会出现不完整或模糊不清的问题,使得人们无法从图像中获取有效的信息。因此,通过各种图像修复和图像生成技术,可以快速识别和恢复图像,这在许多领域都有广泛的应用。如在医学工程领域,由于患者病变组织较暗,能见度偏低,医生难以分辨病变部位和正常部位,也难以对病变部位的程度进行判断,因此需要对较暗和模糊的图像进行清晰化增强处理;在军事工程领域,由于恶劣天气的影响,当远距离侦查敌情时获取的图像通常都较为模糊,因此也需要图像处理来突出有用信息;在安全防卫领域,也需要对监控摄像获取的嫌疑人物图像进行清晰化处理,帮助刑侦人员获取有效人物特征信息。然而,现有的图像生成技术仍然存在处理后的图片分辨率较低,计算成本较高的问题。
本发明提出了一种基于自注意力模型的图像生成方法,将输入像素和预测像素的三个颜色通道强度视为分类变量并进行编码,将宽度和通道的尺寸组合成一个三维张量,将位置的当前表示与其他位置的表示进行比较,从而获得对其他位置的注意力分布,为所有查询块并行计算自注意力,同时为所有位置并行计算前馈网络和层的归一化,使用一维局部注意力和二维局部注意力两个方案来选择查询块及其相关联的存储块邻域。本发明基于自注意力模型,显著增加了模型在实践中可以处理的图像的大小,能够有效地利用图像的二维特性,大大提高了生成图像的质量。
发明内容
针对图片分辨率较低、计算成本较高的问题,本发明的目的在于提供一种基于自注意力模型的图像生成方法,将输入像素和预测像素的三个颜色通道强度视为分类变量并进行编码,将宽度和通道的尺寸组合成一个三维张量,将位置的当前表示与其他位置的表示进行比较,从而获得对其他位置的注意力分布,为所有查询块并行计算自注意力,同时为所有位置并行计算前馈网络和层的归一化,使用一维局部注意力和二维局部注意力两个方案来选择查询块及其相关联的存储块邻域。
为解决上述问题,本发明提供一种基于自注意力模型的图像生成方法,其主要内容包括:
(一)图像表示;
(二)自注意力模型;
(三)局部自注意力。
其中,所述的图像表示,将输入像素和预测像素的RGB强度都视为分类变量;每个输入像素的三个颜色通道使用信道强度值为0-255的256维嵌入向量的信道专用集合进行编码;对于输出强度,共享一个单独的256维跨通道嵌入;对于宽度为w和高度为h的图像,将宽度和通道的尺寸组合成一个三维张量,其形状为[h,w·3,d]。
进一步地,所述的像素,对于每个像素表示,添加该像素的坐标的d维编码,编码由坐标的正弦和余弦函数组成,不同维度的不同频率表示为PE(pos,2i)=sin(pos/100002i/d)和PE(pos,2i+1)=cos(pos/100002i/d);
其中,pos和i分别是位置和维度;位置编码的每个维度对应于正弦曲线,并且波长形成从2π到10000·2π的几何级数;由于需要表示两个坐标,因此使用维度的d/2来对行数和维度的其他d/2进行编码以对列和颜色通道进行编码。
其中,所述的自注意力模型,每个自注意力层为每个位置计算一个新的d维表示,即每个像素的每个通道;为了重新计算给定位置的表示,首先将位置的当前表示与其他位置的表示进行比较,从而获得对其他位置的注意力分布,然后这个分布用于其他位置的表示对下一个表示的加权;
q′=layernorm(qa+dropout(W1ReLu(W2qa))) (2)
公式(1)和(2)描述了自注意力和全连接前馈层的计算结果。
进一步地,所述的全连接前馈层,W1和W2是前馈层的参数,并且在层中的所有位置上共享;除了多头注意力之外,前馈层的参数完整描述了在每个层中执行的所有操作,并独立于每个位置;
将像素的通道或位置的当前表示重新计算为查询q;其他位置(其表示将用于计算q的新表示)是m1,m2,…,它们一起构成存储矩阵M的列;M也可以包含q;首先分别用学习矩阵Wq和Wk线性变换q和M;
自注意力机制将q与存储器中每个像素的通道表示进行比较,得到点乘积,按进行缩放;将Softmax函数应用于所得的兼容性分数,将获得的矢量作为注意力分布在存储器中的像素通道上;在将另一线性变换Wv应用于存储器M之后,计算经转换的存储器的加权平均值,其由注意力分布加权;然后对所得到的矢量应用单层全连接前馈神经网络和修正线性激活,然后进行另一个线性变换;这些学习参数在所有位置共享,但层与层之间不同。
其中,所述的局部自注意力,存储器lm中包含的位置数或M的列数对自注意力机制的可扩展性具有巨大的影响,这在O(h·w·lm·d)中具有时间复杂性;
超分辨率模型的编码器在8×8像素的图像上运行,并且在计算上可以考虑所有192个位置;然而在实验中,解码器产生具有3072个位置的32×32像素图像,从而使所有位置不可用。
进一步地,所述的解码器,受卷积神经网络的启发,通过采用局部性的概念来解决位置不可用的问题,将存储矩阵M中的位置限制在查询位置周围的局部邻域中;然而,改变每个查询位置的这个邻域将禁止将大部分自注意力所需的计算打包成两个矩阵乘法:一个用于计算成对比较,另一个用于生成加权平均值;为了避免这种情况,将图像分割成查询块,并将其中的每一个与还包含查询块的较大内存块相关联;对于来自给定查询块的所有查询,该模型参与同一个存储矩阵,由存储块中的所有位置组成。
进一步地,所述的查询块,为所有查询块并行计算自注意力,同时为所有位置并行计算前馈网络和层的归一化;实验中,使用两种不同的方案来选择查询块及其相关联的存储块邻域,将联合像素分布的两个不同因子分解成条件分布;这两个方案分别为一维局部注意力和二维局部注意力。
进一步地,所述的一维局部注意力,首先用光栅扫描顺序的位置编码平滑输入张量;为了计算生成的线性化图像上的自注意力,将该长度划分为长度为lq的非重叠查询块Q,必要时用零填充;尽管在线性化图像中连续,但这些块在图像坐标空间中可能不连续;对于每个查询块,从与Q相同的位置构建存储块M,并且添加与之前生成的像素相对应的额外lm位置,这可能导致重叠的存储块。
进一步地,所述的二维局部注意力,在二维局部注意模型中,用位置编码将输入张量划分为原始图像空间中连续的矩形查询块;生成一个接一个的查询块图像,按照光栅扫描顺序对块进行排序;在每个块内,再次以光栅扫描顺序生成各个位置或像素通道;使用由高度和宽度lq=wq·hq指定的大小为lq的二维查询块,以及分别通过hm,wm和wm像素将查询块扩展到顶部、左侧和右侧的内存块。
附图说明
图1是本发明一种基于自注意力模型的图像生成方法的系统框架图。
图2是本发明一种基于自注意力模型的图像生成方法的自注意力模型。
图3是本发明一种基于自注意力模型的图像生成方法的一维局部注意力和二维局部注意力。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于自注意力模型的图像生成方法的系统框架图。主要包括图像表示,自注意力模型,局部自注意力。
图像表示,将输入像素和预测像素的RGB强度都视为分类变量;每个输入像素的三个颜色通道使用信道强度值为0-255的256维嵌入向量的信道专用集合进行编码;对于输出强度,共享一个单独的256维跨通道嵌入;对于宽度为w和高度为h的图像,将宽度和通道的尺寸组合成一个三维张量,其形状为[h,w·3,d]。
对于每个像素表示,添加该像素的坐标的d维编码,编码由坐标的正弦和余弦函数组成,不同维度的不同频率表示为PE(pos,2i)=sin(pos/100002i/d)和PE(pos,2i+1)=cos(pos/100002i/d);
其中,pos和i分别是位置和维度;位置编码的每个维度对应于正弦曲线,并且波长形成从2π到10000·2π的几何级数;由于需要表示两个坐标,因此使用维度的d/2来对行数和维度的其他d/2进行编码以对列和颜色通道进行编码。
局部自注意力,存储器lm中包含的位置数或M的列数对自注意力机制的可扩展性具有巨大的影响,这在O(h·w·lm·d)中具有时间复杂性;
超分辨率模型的编码器在8×8像素的图像上运行,并且在计算上可以考虑所有192个位置;然而在实验中,解码器产生具有3072个位置的32×32像素图像,从而使所有位置不可用。
受卷积神经网络的启发,通过采用局部性的概念来解决位置不可用的问题,将存储矩阵M中的位置限制在查询位置周围的局部邻域中;然而,改变每个查询位置的这个邻域将禁止将大部分自注意力所需的计算打包成两个矩阵乘法:一个用于计算成对比较,另一个用于生成加权平均值;为了避免这种情况,将图像分割成查询块,并将其中的每一个与还包含查询块的较大内存块相关联;对于来自给定查询块的所有查询,该模型参与同一个存储矩阵,由存储块中的所有位置组成。
图2是本发明一种基于自注意力模型的图像生成方法的自注意力模型。每个自注意力层为每个位置计算一个新的d维表示,即每个像素的每个通道;为了重新计算给定位置的表示,首先将位置的当前表示与其他位置的表示进行比较,从而获得对其他位置的注意力分布,然后这个分布用于其他位置的表示对下一个表示的加权;
q′=layernorm(qa+dropout(W1ReLu(W2qa))) (2)
公式(1)和(2)描述了自注意力和全连接前馈层的计算结果。
W1和W2是前馈层的参数,并且在层中的所有位置上共享;除了多头注意力之外,前馈层的参数完整描述了在每个层中执行的所有操作,并独立于每个位置;
将像素的通道或位置的当前表示重新计算为查询q;其他位置(其表示将用于计算q的新表示)是m1,m2,…,它们一起构成存储矩阵M的列;M也可以包含q;首先分别用学习矩阵Wq和Wk线性变换q和M;
自注意力机制将q与存储器中每个像素的通道表示进行比较,得到点乘积,按进行缩放;将Softmax函数应用于所得的兼容性分数,将获得的矢量作为注意力分布在存储器中的像素通道上;在将另一线性变换Wv应用于存储器M之后,计算经转换的存储器的加权平均值,其由注意力分布加权;然后对所得到的矢量应用单层全连接前馈神经网络和修正线性激活,然后进行另一个线性变换;这些学习参数在所有位置共享,但层与层之间不同。
图3是本发明一种基于自注意力模型的图像生成方法的一维局部注意力和二维局部注意力。为所有查询块并行计算自注意力,同时为所有位置并行计算前馈网络和层的归一化;实验中,使用两种不同的方案来选择查询块及其相关联的存储块邻域,将联合像素分布的两个不同因子分解成条件分布;这两个方案分别为一维局部注意力和二维局部注意力。
如左图所示,在一维局部注意模型中,首先用光栅扫描顺序的位置编码平滑输入张量;为了计算生成的线性化图像上的自注意力,将该长度划分为长度为lq的非重叠查询块Q,必要时用零填充;尽管在线性化图像中连续,但这些块在图像坐标空间中可能不连续;对于每个查询块,从与Q相同的位置构建存储块M,并且添加与之前生成的像素相对应的额外lm位置,这可能导致重叠的存储块。
如右图所示,在二维局部注意模型中,用位置编码将输入张量划分为原始图像空间中连续的矩形查询块;生成一个接一个的查询块图像,按照光栅扫描顺序对块进行排序;在每个块内,再次以光栅扫描顺序生成各个位置或像素通道;使用由高度和宽度lq=wq·hq指定的大小为lq的二维查询块,以及分别通过hm,wm和wm像素将查询块扩展到顶部、左侧和右侧的内存块。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种基于自注意力模型的图像生成方法,其特征在于,主要包括图像表示(一);自注意力模型(二);局部自注意力(三)。
2.基于权利要求书1所述的图像表示(一),其特征在于,将输入像素和预测像素的RGB强度都视为分类变量;每个输入像素的三个颜色通道使用信道强度值为0-255的256维嵌入向量的信道专用集合进行编码;对于输出强度,共享一个单独的256维跨通道嵌入;对于宽度为w和高度为h的图像,将宽度和通道的尺寸组合成一个三维张量,其形状为[h,w·3,d]。
3.基于权利要求书2所述的像素,其特征在于,对于每个像素表示,添加该像素的坐标的d维编码,编码由坐标的正弦和余弦函数组成,不同维度的不同频率表示为PE(pos,2i)=sin(pos/100002i/d)和PE(pos,2i+1)=cos(pos/100002i/d);
其中,pos和i分别是位置和维度;位置编码的每个维度对应于正弦曲线,并且波长形成从2π到10000·2π的几何级数;由于需要表示两个坐标,因此使用维度的d/2来对行数和维度的其他d/2进行编码以对列和颜色通道进行编码。
4.基于权利要求书1所述的自注意力模型(二),其特征在于,每个自注意力层为每个位置计算一个新的d维表示,即每个像素的每个通道;为了重新计算给定位置的表示,首先将位置的当前表示与其他位置的表示进行比较,从而获得对其他位置的注意力分布,然后这个分布用于其他位置的表示对下一个表示的加权;
q′=layernorm(qa+dropout(W1ReLu(W2qa))) (2)
公式(1)和(2)描述了自注意力和全连接前馈层的计算结果。
5.基于权利要求书4所述的全连接前馈层,其特征在于,W1和W2是前馈层的参数,并且在层中的所有位置上共享;除了多头注意力之外,前馈层的参数完整描述了在每个层中执行的所有操作,并独立于每个位置;
将像素的通道或位置的当前表示重新计算为查询q;其他位置(其表示将用于计算q的新表示)是m1,m2,…,它们一起构成存储矩阵M的列;M也可以包含q;首先分别用学习矩阵Wq和Wk线性变换q和M;
自注意力机制将q与存储器中每个像素的通道表示进行比较,得到点乘积,按进行缩放;将Softmax函数应用于所得的兼容性分数,将获得的矢量作为注意力分布在存储器中的像素通道上;在将另一线性变换Wv应用于存储器M之后,计算经转换的存储器的加权平均值,其由注意力分布加权;然后对所得到的矢量应用单层全连接前馈神经网络和修正线性激活,然后进行另一个线性变换;这些学习参数在所有位置共享,但层与层之间不同。
6.基于权利要求书1所述的局部自注意力(三),其特征在于,存储器lm中包含的位置数或M的列数对自注意力机制的可扩展性具有巨大的影响,这在O(h·w·lm·d)中具有时间复杂性;
超分辨率模型的编码器在8×8像素的图像上运行,并且在计算上可以考虑所有192个位置;然而在实验中,解码器产生具有3072个位置的32×32像素图像,从而使所有位置不可用。
7.基于权利要求书6所述的解码器,其特征在于,受卷积神经网络的启发,通过采用局部性的概念来解决位置不可用的问题,将存储矩阵M中的位置限制在查询位置周围的局部邻域中;然而,改变每个查询位置的这个邻域将禁止将大部分自注意力所需的计算打包成两个矩阵乘法:一个用于计算成对比较,另一个用于生成加权平均值;为了避免这种情况,将图像分割成查询块,并将其中的每一个与还包含查询块的较大内存块相关联;对于来自给定查询块的所有查询,该模型参与同一个存储矩阵,由存储块中的所有位置组成。
8.基于权利要求书7所述的查询块,其特征在于,为所有查询块并行计算自注意力,同时为所有位置并行计算前馈网络和层的归一化;实验中,使用两种不同的方案来选择查询块及其相关联的存储块邻域,将联合像素分布的两个不同因子分解成条件分布;这两个方案分别为一维局部注意力和二维局部注意力。
9.基于权利要求书8所述的一维局部注意力,其特征在于,首先用光栅扫描顺序的位置编码平滑输入张量;为了计算生成的线性化图像上的自注意力,将该长度划分为长度为lq的非重叠查询块Q,必要时用零填充;尽管在线性化图像中连续,但这些块在图像坐标空间中可能不连续;对于每个查询块,从与Q相同的位置构建存储块M,并且添加与之前生成的像素相对应的额外lm位置,这可能导致重叠的存储块。
10.基于权利要求书8所述的二维局部注意力,其特征在于,在二维局部注意模型中,用位置编码将输入张量划分为原始图像空间中连续的矩形查询块;生成一个接一个的查询块图像,按照光栅扫描顺序对块进行排序;在每个块内,再次以光栅扫描顺序生成各个位置或像素通道;使用由高度和宽度lq=wq·hq指定的大小为lq的二维查询块,以及分别通过hm,wm和wm像素将查询块扩展到顶部、左侧和右侧的内存块。
CN201810262631.9A 2018-03-28 2018-03-28 一种基于自注意力模型的图像生成方法 Withdrawn CN108492273A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810262631.9A CN108492273A (zh) 2018-03-28 2018-03-28 一种基于自注意力模型的图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810262631.9A CN108492273A (zh) 2018-03-28 2018-03-28 一种基于自注意力模型的图像生成方法

Publications (1)

Publication Number Publication Date
CN108492273A true CN108492273A (zh) 2018-09-04

Family

ID=63316450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810262631.9A Withdrawn CN108492273A (zh) 2018-03-28 2018-03-28 一种基于自注意力模型的图像生成方法

Country Status (1)

Country Link
CN (1) CN108492273A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147774A (zh) * 2018-09-19 2019-01-04 华南理工大学 一种改进的延时神经网络声学模型
CN109859106A (zh) * 2019-01-28 2019-06-07 桂林电子科技大学 一种基于自注意力的高阶融合网络的图像超分辨率重建方法
CN109977872A (zh) * 2019-03-27 2019-07-05 北京迈格威科技有限公司 动作检测方法、装置、电子设备及计算机可读存储介质
CN109978804A (zh) * 2019-03-08 2019-07-05 清华大学 基于深度学习的人眼视线矫正方法及系统
CN110033091A (zh) * 2018-12-13 2019-07-19 阿里巴巴集团控股有限公司 一种基于模型进行预测的方法和装置
CN110245709A (zh) * 2019-06-18 2019-09-17 西安电子科技大学 基于深度学习和自注意力的3d点云数据语义分割方法
CN110390340A (zh) * 2019-07-18 2019-10-29 暗物智能科技(广州)有限公司 特征编码模型、视觉关系检测模型的训练方法及检测方法
CN110459303A (zh) * 2019-06-27 2019-11-15 浙江工业大学 基于深度迁移的医疗影像异常检测装置
CN110888967A (zh) * 2018-09-11 2020-03-17 阿里巴巴集团控股有限公司 搜索方法、装置及设备
CN111738940A (zh) * 2020-06-02 2020-10-02 大连理工大学 一种基于自注意力机制模范生成对抗网络的人脸图像眼部补全方法
CN112771578A (zh) * 2018-09-27 2021-05-07 渊慧科技有限公司 使用细分缩放和深度上缩放的图像生成
CN113362402A (zh) * 2021-05-19 2021-09-07 上海壁仞智能科技有限公司 基于分解矩阵的图像处理方法及装置
CN113706388A (zh) * 2021-09-24 2021-11-26 上海壁仞智能科技有限公司 图像超分辨率重建方法及装置
CN113826119A (zh) * 2019-05-23 2021-12-21 谷歌有限责任公司 纯注意力的计算机视觉

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NIKI PARMAR: "Image Transformer", 《ARXIV:1802.05751V2》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110888967B (zh) * 2018-09-11 2023-04-28 阿里巴巴集团控股有限公司 搜索方法、装置及设备
CN110888967A (zh) * 2018-09-11 2020-03-17 阿里巴巴集团控股有限公司 搜索方法、装置及设备
CN109147774A (zh) * 2018-09-19 2019-01-04 华南理工大学 一种改进的延时神经网络声学模型
CN109147774B (zh) * 2018-09-19 2021-07-20 华南理工大学 一种改进的延时神经网络声学模型
CN112771578B (zh) * 2018-09-27 2024-05-24 渊慧科技有限公司 使用细分缩放和深度上缩放的图像生成
CN112771578A (zh) * 2018-09-27 2021-05-07 渊慧科技有限公司 使用细分缩放和深度上缩放的图像生成
CN110033091A (zh) * 2018-12-13 2019-07-19 阿里巴巴集团控股有限公司 一种基于模型进行预测的方法和装置
US11803752B2 (en) 2018-12-13 2023-10-31 Advanced New Technologies Co., Ltd. Separate deployment of machine learning model and associated embedding
CN109859106A (zh) * 2019-01-28 2019-06-07 桂林电子科技大学 一种基于自注意力的高阶融合网络的图像超分辨率重建方法
CN109978804A (zh) * 2019-03-08 2019-07-05 清华大学 基于深度学习的人眼视线矫正方法及系统
CN109978804B (zh) * 2019-03-08 2021-02-26 清华大学 基于深度学习的人眼视线矫正方法及系统
CN109977872A (zh) * 2019-03-27 2019-07-05 北京迈格威科技有限公司 动作检测方法、装置、电子设备及计算机可读存储介质
CN113826119A (zh) * 2019-05-23 2021-12-21 谷歌有限责任公司 纯注意力的计算机视觉
CN110245709A (zh) * 2019-06-18 2019-09-17 西安电子科技大学 基于深度学习和自注意力的3d点云数据语义分割方法
CN110245709B (zh) * 2019-06-18 2021-09-03 西安电子科技大学 基于深度学习和自注意力的3d点云数据语义分割方法
CN110459303A (zh) * 2019-06-27 2019-11-15 浙江工业大学 基于深度迁移的医疗影像异常检测装置
CN110390340A (zh) * 2019-07-18 2019-10-29 暗物智能科技(广州)有限公司 特征编码模型、视觉关系检测模型的训练方法及检测方法
CN111738940B (zh) * 2020-06-02 2022-04-12 大连理工大学 一种人脸图像眼部补全方法
CN111738940A (zh) * 2020-06-02 2020-10-02 大连理工大学 一种基于自注意力机制模范生成对抗网络的人脸图像眼部补全方法
CN113362402A (zh) * 2021-05-19 2021-09-07 上海壁仞智能科技有限公司 基于分解矩阵的图像处理方法及装置
CN113706388A (zh) * 2021-09-24 2021-11-26 上海壁仞智能科技有限公司 图像超分辨率重建方法及装置

Similar Documents

Publication Publication Date Title
CN108492273A (zh) 一种基于自注意力模型的图像生成方法
Lee et al. Local texture estimator for implicit representation function
US9836820B2 (en) Image upsampling using global and local constraints
Zhang et al. Learning multiple linear mappings for efficient single image super-resolution
US10991150B2 (en) View generation from a single image using fully convolutional neural networks
Yang et al. Implicit transformer network for screen content image continuous super-resolution
Liang et al. Unpaired medical image colorization using generative adversarial network
Xie et al. Dewarping document image by displacement flow estimation with fully convolutional network
Sheng et al. Cross-view recurrence-based self-supervised super-resolution of light field
CN111414856B (zh) 实现用户隐私保护的人脸图像生成方法及装置
Wang et al. Dual residual attention module network for single image super resolution
Wu et al. Color-to-grayscale conversion through weighted multiresolution channel fusion
Liu et al. Hallucinating color face image by learning graph representation in quaternion space
Zhang et al. Infrared and visible image fusion based on non‐subsampled shearlet transform, regional energy, and co‐occurrence filtering
Wang et al. Learning continuous depth representation via geometric spatial aggregator
Chen et al. Deep light field super-resolution using frequency domain analysis and semantic prior
Xiao et al. Self-feature learning: An efficient deep lightweight network for image super-resolution
CN113838134B (zh) 图像关键点检测方法、装置、终端和存储介质
Chen et al. Deep light field spatial super-resolution using heterogeneous imaging
Nguyen et al. Single image super-resolution via a dual interactive implicit neural network
Kim et al. Progressive Contextual Aggregation Empowered by Pixel-Wise Confidence Scoring for Image Inpainting
CN113935934A (zh) 图像处理方法、装置、电子设备和计算机可读存储介质
Liang et al. Biologically inspired framework for spatial and spectral velocity estimations
Pan et al. Super-resolution from a single image based on local self-similarity
CN113570531A (zh) 图像处理方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180904