CN108492273A - 一种基于自注意力模型的图像生成方法 - Google Patents
一种基于自注意力模型的图像生成方法 Download PDFInfo
- Publication number
- CN108492273A CN108492273A CN201810262631.9A CN201810262631A CN108492273A CN 108492273 A CN108492273 A CN 108492273A CN 201810262631 A CN201810262631 A CN 201810262631A CN 108492273 A CN108492273 A CN 108492273A
- Authority
- CN
- China
- Prior art keywords
- attention
- pixel
- dimension
- image
- positions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 238000010606 normalization Methods 0.000 claims abstract description 5
- 239000010410 layer Substances 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 238000002474 experimental method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000003780 insertion Methods 0.000 claims description 4
- 230000037431 insertion Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 244000309464 bull Species 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
Abstract
本发明中提出的一种基于自注意力模型的图像生成方法,其主要内容包括:图像表示、自注意力模型、局部自注意力,其过程为,将输入像素和预测像素的三个颜色通道强度视为分类变量并进行编码,将宽度和通道的尺寸组合成一个三维张量,将位置的当前表示与其他位置的表示进行比较,从而获得对其他位置的注意力分布,为所有查询块并行计算自注意力,同时为所有位置并行计算前馈网络和层的归一化,使用一维局部注意力和二维局部注意力两个方案来选择查询块及其相关联的存储块邻域。本发明基于自注意力模型,显著增加了模型在实践中可以处理的图像的大小,能够有效地利用图像的二维特性,大大提高了生成图像的质量。
Description
技术领域
本发明涉及图像处理领域,尤其是涉及了一种基于自注意力模型的图像生成方法。
背景技术
图像处理和图像生成是计算机视觉领域的一个重要课题。如今,随着网络的普及和各式拍摄设备的发展,各种各样的图像的数量成指数增长。但是由于网络传输和拍摄设备的影响,人们获取的图片可能会出现不完整或模糊不清的问题,使得人们无法从图像中获取有效的信息。因此,通过各种图像修复和图像生成技术,可以快速识别和恢复图像,这在许多领域都有广泛的应用。如在医学工程领域,由于患者病变组织较暗,能见度偏低,医生难以分辨病变部位和正常部位,也难以对病变部位的程度进行判断,因此需要对较暗和模糊的图像进行清晰化增强处理;在军事工程领域,由于恶劣天气的影响,当远距离侦查敌情时获取的图像通常都较为模糊,因此也需要图像处理来突出有用信息;在安全防卫领域,也需要对监控摄像获取的嫌疑人物图像进行清晰化处理,帮助刑侦人员获取有效人物特征信息。然而,现有的图像生成技术仍然存在处理后的图片分辨率较低,计算成本较高的问题。
本发明提出了一种基于自注意力模型的图像生成方法,将输入像素和预测像素的三个颜色通道强度视为分类变量并进行编码,将宽度和通道的尺寸组合成一个三维张量,将位置的当前表示与其他位置的表示进行比较,从而获得对其他位置的注意力分布,为所有查询块并行计算自注意力,同时为所有位置并行计算前馈网络和层的归一化,使用一维局部注意力和二维局部注意力两个方案来选择查询块及其相关联的存储块邻域。本发明基于自注意力模型,显著增加了模型在实践中可以处理的图像的大小,能够有效地利用图像的二维特性,大大提高了生成图像的质量。
发明内容
针对图片分辨率较低、计算成本较高的问题,本发明的目的在于提供一种基于自注意力模型的图像生成方法,将输入像素和预测像素的三个颜色通道强度视为分类变量并进行编码,将宽度和通道的尺寸组合成一个三维张量,将位置的当前表示与其他位置的表示进行比较,从而获得对其他位置的注意力分布,为所有查询块并行计算自注意力,同时为所有位置并行计算前馈网络和层的归一化,使用一维局部注意力和二维局部注意力两个方案来选择查询块及其相关联的存储块邻域。
为解决上述问题,本发明提供一种基于自注意力模型的图像生成方法,其主要内容包括:
(一)图像表示;
(二)自注意力模型;
(三)局部自注意力。
其中,所述的图像表示,将输入像素和预测像素的RGB强度都视为分类变量;每个输入像素的三个颜色通道使用信道强度值为0-255的256维嵌入向量的信道专用集合进行编码;对于输出强度,共享一个单独的256维跨通道嵌入;对于宽度为w和高度为h的图像,将宽度和通道的尺寸组合成一个三维张量,其形状为[h,w·3,d]。
进一步地,所述的像素,对于每个像素表示,添加该像素的坐标的d维编码,编码由坐标的正弦和余弦函数组成,不同维度的不同频率表示为PE(pos,2i)=sin(pos/100002i/d)和PE(pos,2i+1)=cos(pos/100002i/d);
其中,pos和i分别是位置和维度;位置编码的每个维度对应于正弦曲线,并且波长形成从2π到10000·2π的几何级数;由于需要表示两个坐标,因此使用维度的d/2来对行数和维度的其他d/2进行编码以对列和颜色通道进行编码。
其中,所述的自注意力模型,每个自注意力层为每个位置计算一个新的d维表示,即每个像素的每个通道;为了重新计算给定位置的表示,首先将位置的当前表示与其他位置的表示进行比较,从而获得对其他位置的注意力分布,然后这个分布用于其他位置的表示对下一个表示的加权;
q′=layernorm(qa+dropout(W1ReLu(W2qa))) (2)
公式(1)和(2)描述了自注意力和全连接前馈层的计算结果。
进一步地,所述的全连接前馈层,W1和W2是前馈层的参数,并且在层中的所有位置上共享;除了多头注意力之外,前馈层的参数完整描述了在每个层中执行的所有操作,并独立于每个位置;
将像素的通道或位置的当前表示重新计算为查询q;其他位置(其表示将用于计算q的新表示)是m1,m2,…,它们一起构成存储矩阵M的列;M也可以包含q;首先分别用学习矩阵Wq和Wk线性变换q和M;
自注意力机制将q与存储器中每个像素的通道表示进行比较,得到点乘积,按进行缩放;将Softmax函数应用于所得的兼容性分数,将获得的矢量作为注意力分布在存储器中的像素通道上;在将另一线性变换Wv应用于存储器M之后,计算经转换的存储器的加权平均值,其由注意力分布加权;然后对所得到的矢量应用单层全连接前馈神经网络和修正线性激活,然后进行另一个线性变换;这些学习参数在所有位置共享,但层与层之间不同。
其中,所述的局部自注意力,存储器lm中包含的位置数或M的列数对自注意力机制的可扩展性具有巨大的影响,这在O(h·w·lm·d)中具有时间复杂性;
超分辨率模型的编码器在8×8像素的图像上运行,并且在计算上可以考虑所有192个位置;然而在实验中,解码器产生具有3072个位置的32×32像素图像,从而使所有位置不可用。
进一步地,所述的解码器,受卷积神经网络的启发,通过采用局部性的概念来解决位置不可用的问题,将存储矩阵M中的位置限制在查询位置周围的局部邻域中;然而,改变每个查询位置的这个邻域将禁止将大部分自注意力所需的计算打包成两个矩阵乘法:一个用于计算成对比较,另一个用于生成加权平均值;为了避免这种情况,将图像分割成查询块,并将其中的每一个与还包含查询块的较大内存块相关联;对于来自给定查询块的所有查询,该模型参与同一个存储矩阵,由存储块中的所有位置组成。
进一步地,所述的查询块,为所有查询块并行计算自注意力,同时为所有位置并行计算前馈网络和层的归一化;实验中,使用两种不同的方案来选择查询块及其相关联的存储块邻域,将联合像素分布的两个不同因子分解成条件分布;这两个方案分别为一维局部注意力和二维局部注意力。
进一步地,所述的一维局部注意力,首先用光栅扫描顺序的位置编码平滑输入张量;为了计算生成的线性化图像上的自注意力,将该长度划分为长度为lq的非重叠查询块Q,必要时用零填充;尽管在线性化图像中连续,但这些块在图像坐标空间中可能不连续;对于每个查询块,从与Q相同的位置构建存储块M,并且添加与之前生成的像素相对应的额外lm位置,这可能导致重叠的存储块。
进一步地,所述的二维局部注意力,在二维局部注意模型中,用位置编码将输入张量划分为原始图像空间中连续的矩形查询块;生成一个接一个的查询块图像,按照光栅扫描顺序对块进行排序;在每个块内,再次以光栅扫描顺序生成各个位置或像素通道;使用由高度和宽度lq=wq·hq指定的大小为lq的二维查询块,以及分别通过hm,wm和wm像素将查询块扩展到顶部、左侧和右侧的内存块。
附图说明
图1是本发明一种基于自注意力模型的图像生成方法的系统框架图。
图2是本发明一种基于自注意力模型的图像生成方法的自注意力模型。
图3是本发明一种基于自注意力模型的图像生成方法的一维局部注意力和二维局部注意力。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于自注意力模型的图像生成方法的系统框架图。主要包括图像表示,自注意力模型,局部自注意力。
图像表示,将输入像素和预测像素的RGB强度都视为分类变量;每个输入像素的三个颜色通道使用信道强度值为0-255的256维嵌入向量的信道专用集合进行编码;对于输出强度,共享一个单独的256维跨通道嵌入;对于宽度为w和高度为h的图像,将宽度和通道的尺寸组合成一个三维张量,其形状为[h,w·3,d]。
对于每个像素表示,添加该像素的坐标的d维编码,编码由坐标的正弦和余弦函数组成,不同维度的不同频率表示为PE(pos,2i)=sin(pos/100002i/d)和PE(pos,2i+1)=cos(pos/100002i/d);
其中,pos和i分别是位置和维度;位置编码的每个维度对应于正弦曲线,并且波长形成从2π到10000·2π的几何级数;由于需要表示两个坐标,因此使用维度的d/2来对行数和维度的其他d/2进行编码以对列和颜色通道进行编码。
局部自注意力,存储器lm中包含的位置数或M的列数对自注意力机制的可扩展性具有巨大的影响,这在O(h·w·lm·d)中具有时间复杂性;
超分辨率模型的编码器在8×8像素的图像上运行,并且在计算上可以考虑所有192个位置;然而在实验中,解码器产生具有3072个位置的32×32像素图像,从而使所有位置不可用。
受卷积神经网络的启发,通过采用局部性的概念来解决位置不可用的问题,将存储矩阵M中的位置限制在查询位置周围的局部邻域中;然而,改变每个查询位置的这个邻域将禁止将大部分自注意力所需的计算打包成两个矩阵乘法:一个用于计算成对比较,另一个用于生成加权平均值;为了避免这种情况,将图像分割成查询块,并将其中的每一个与还包含查询块的较大内存块相关联;对于来自给定查询块的所有查询,该模型参与同一个存储矩阵,由存储块中的所有位置组成。
图2是本发明一种基于自注意力模型的图像生成方法的自注意力模型。每个自注意力层为每个位置计算一个新的d维表示,即每个像素的每个通道;为了重新计算给定位置的表示,首先将位置的当前表示与其他位置的表示进行比较,从而获得对其他位置的注意力分布,然后这个分布用于其他位置的表示对下一个表示的加权;
q′=layernorm(qa+dropout(W1ReLu(W2qa))) (2)
公式(1)和(2)描述了自注意力和全连接前馈层的计算结果。
W1和W2是前馈层的参数,并且在层中的所有位置上共享;除了多头注意力之外,前馈层的参数完整描述了在每个层中执行的所有操作,并独立于每个位置;
将像素的通道或位置的当前表示重新计算为查询q;其他位置(其表示将用于计算q的新表示)是m1,m2,…,它们一起构成存储矩阵M的列;M也可以包含q;首先分别用学习矩阵Wq和Wk线性变换q和M;
自注意力机制将q与存储器中每个像素的通道表示进行比较,得到点乘积,按进行缩放;将Softmax函数应用于所得的兼容性分数,将获得的矢量作为注意力分布在存储器中的像素通道上;在将另一线性变换Wv应用于存储器M之后,计算经转换的存储器的加权平均值,其由注意力分布加权;然后对所得到的矢量应用单层全连接前馈神经网络和修正线性激活,然后进行另一个线性变换;这些学习参数在所有位置共享,但层与层之间不同。
图3是本发明一种基于自注意力模型的图像生成方法的一维局部注意力和二维局部注意力。为所有查询块并行计算自注意力,同时为所有位置并行计算前馈网络和层的归一化;实验中,使用两种不同的方案来选择查询块及其相关联的存储块邻域,将联合像素分布的两个不同因子分解成条件分布;这两个方案分别为一维局部注意力和二维局部注意力。
如左图所示,在一维局部注意模型中,首先用光栅扫描顺序的位置编码平滑输入张量;为了计算生成的线性化图像上的自注意力,将该长度划分为长度为lq的非重叠查询块Q,必要时用零填充;尽管在线性化图像中连续,但这些块在图像坐标空间中可能不连续;对于每个查询块,从与Q相同的位置构建存储块M,并且添加与之前生成的像素相对应的额外lm位置,这可能导致重叠的存储块。
如右图所示,在二维局部注意模型中,用位置编码将输入张量划分为原始图像空间中连续的矩形查询块;生成一个接一个的查询块图像,按照光栅扫描顺序对块进行排序;在每个块内,再次以光栅扫描顺序生成各个位置或像素通道;使用由高度和宽度lq=wq·hq指定的大小为lq的二维查询块,以及分别通过hm,wm和wm像素将查询块扩展到顶部、左侧和右侧的内存块。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种基于自注意力模型的图像生成方法,其特征在于,主要包括图像表示(一);自注意力模型(二);局部自注意力(三)。
2.基于权利要求书1所述的图像表示(一),其特征在于,将输入像素和预测像素的RGB强度都视为分类变量;每个输入像素的三个颜色通道使用信道强度值为0-255的256维嵌入向量的信道专用集合进行编码;对于输出强度,共享一个单独的256维跨通道嵌入;对于宽度为w和高度为h的图像,将宽度和通道的尺寸组合成一个三维张量,其形状为[h,w·3,d]。
3.基于权利要求书2所述的像素,其特征在于,对于每个像素表示,添加该像素的坐标的d维编码,编码由坐标的正弦和余弦函数组成,不同维度的不同频率表示为PE(pos,2i)=sin(pos/100002i/d)和PE(pos,2i+1)=cos(pos/100002i/d);
其中,pos和i分别是位置和维度;位置编码的每个维度对应于正弦曲线,并且波长形成从2π到10000·2π的几何级数;由于需要表示两个坐标,因此使用维度的d/2来对行数和维度的其他d/2进行编码以对列和颜色通道进行编码。
4.基于权利要求书1所述的自注意力模型(二),其特征在于,每个自注意力层为每个位置计算一个新的d维表示,即每个像素的每个通道;为了重新计算给定位置的表示,首先将位置的当前表示与其他位置的表示进行比较,从而获得对其他位置的注意力分布,然后这个分布用于其他位置的表示对下一个表示的加权;
q′=layernorm(qa+dropout(W1ReLu(W2qa))) (2)
公式(1)和(2)描述了自注意力和全连接前馈层的计算结果。
5.基于权利要求书4所述的全连接前馈层,其特征在于,W1和W2是前馈层的参数,并且在层中的所有位置上共享;除了多头注意力之外,前馈层的参数完整描述了在每个层中执行的所有操作,并独立于每个位置;
将像素的通道或位置的当前表示重新计算为查询q;其他位置(其表示将用于计算q的新表示)是m1,m2,…,它们一起构成存储矩阵M的列;M也可以包含q;首先分别用学习矩阵Wq和Wk线性变换q和M;
自注意力机制将q与存储器中每个像素的通道表示进行比较,得到点乘积,按进行缩放;将Softmax函数应用于所得的兼容性分数,将获得的矢量作为注意力分布在存储器中的像素通道上;在将另一线性变换Wv应用于存储器M之后,计算经转换的存储器的加权平均值,其由注意力分布加权;然后对所得到的矢量应用单层全连接前馈神经网络和修正线性激活,然后进行另一个线性变换;这些学习参数在所有位置共享,但层与层之间不同。
6.基于权利要求书1所述的局部自注意力(三),其特征在于,存储器lm中包含的位置数或M的列数对自注意力机制的可扩展性具有巨大的影响,这在O(h·w·lm·d)中具有时间复杂性;
超分辨率模型的编码器在8×8像素的图像上运行,并且在计算上可以考虑所有192个位置;然而在实验中,解码器产生具有3072个位置的32×32像素图像,从而使所有位置不可用。
7.基于权利要求书6所述的解码器,其特征在于,受卷积神经网络的启发,通过采用局部性的概念来解决位置不可用的问题,将存储矩阵M中的位置限制在查询位置周围的局部邻域中;然而,改变每个查询位置的这个邻域将禁止将大部分自注意力所需的计算打包成两个矩阵乘法:一个用于计算成对比较,另一个用于生成加权平均值;为了避免这种情况,将图像分割成查询块,并将其中的每一个与还包含查询块的较大内存块相关联;对于来自给定查询块的所有查询,该模型参与同一个存储矩阵,由存储块中的所有位置组成。
8.基于权利要求书7所述的查询块,其特征在于,为所有查询块并行计算自注意力,同时为所有位置并行计算前馈网络和层的归一化;实验中,使用两种不同的方案来选择查询块及其相关联的存储块邻域,将联合像素分布的两个不同因子分解成条件分布;这两个方案分别为一维局部注意力和二维局部注意力。
9.基于权利要求书8所述的一维局部注意力,其特征在于,首先用光栅扫描顺序的位置编码平滑输入张量;为了计算生成的线性化图像上的自注意力,将该长度划分为长度为lq的非重叠查询块Q,必要时用零填充;尽管在线性化图像中连续,但这些块在图像坐标空间中可能不连续;对于每个查询块,从与Q相同的位置构建存储块M,并且添加与之前生成的像素相对应的额外lm位置,这可能导致重叠的存储块。
10.基于权利要求书8所述的二维局部注意力,其特征在于,在二维局部注意模型中,用位置编码将输入张量划分为原始图像空间中连续的矩形查询块;生成一个接一个的查询块图像,按照光栅扫描顺序对块进行排序;在每个块内,再次以光栅扫描顺序生成各个位置或像素通道;使用由高度和宽度lq=wq·hq指定的大小为lq的二维查询块,以及分别通过hm,wm和wm像素将查询块扩展到顶部、左侧和右侧的内存块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810262631.9A CN108492273A (zh) | 2018-03-28 | 2018-03-28 | 一种基于自注意力模型的图像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810262631.9A CN108492273A (zh) | 2018-03-28 | 2018-03-28 | 一种基于自注意力模型的图像生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108492273A true CN108492273A (zh) | 2018-09-04 |
Family
ID=63316450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810262631.9A Withdrawn CN108492273A (zh) | 2018-03-28 | 2018-03-28 | 一种基于自注意力模型的图像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108492273A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147774A (zh) * | 2018-09-19 | 2019-01-04 | 华南理工大学 | 一种改进的延时神经网络声学模型 |
CN109859106A (zh) * | 2019-01-28 | 2019-06-07 | 桂林电子科技大学 | 一种基于自注意力的高阶融合网络的图像超分辨率重建方法 |
CN109977872A (zh) * | 2019-03-27 | 2019-07-05 | 北京迈格威科技有限公司 | 动作检测方法、装置、电子设备及计算机可读存储介质 |
CN109978804A (zh) * | 2019-03-08 | 2019-07-05 | 清华大学 | 基于深度学习的人眼视线矫正方法及系统 |
CN110033091A (zh) * | 2018-12-13 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种基于模型进行预测的方法和装置 |
CN110245709A (zh) * | 2019-06-18 | 2019-09-17 | 西安电子科技大学 | 基于深度学习和自注意力的3d点云数据语义分割方法 |
CN110390340A (zh) * | 2019-07-18 | 2019-10-29 | 暗物智能科技(广州)有限公司 | 特征编码模型、视觉关系检测模型的训练方法及检测方法 |
CN110459303A (zh) * | 2019-06-27 | 2019-11-15 | 浙江工业大学 | 基于深度迁移的医疗影像异常检测装置 |
CN110888967A (zh) * | 2018-09-11 | 2020-03-17 | 阿里巴巴集团控股有限公司 | 搜索方法、装置及设备 |
CN111738940A (zh) * | 2020-06-02 | 2020-10-02 | 大连理工大学 | 一种基于自注意力机制模范生成对抗网络的人脸图像眼部补全方法 |
CN112771578A (zh) * | 2018-09-27 | 2021-05-07 | 渊慧科技有限公司 | 使用细分缩放和深度上缩放的图像生成 |
CN113362402A (zh) * | 2021-05-19 | 2021-09-07 | 上海壁仞智能科技有限公司 | 基于分解矩阵的图像处理方法及装置 |
CN113706388A (zh) * | 2021-09-24 | 2021-11-26 | 上海壁仞智能科技有限公司 | 图像超分辨率重建方法及装置 |
CN113826119A (zh) * | 2019-05-23 | 2021-12-21 | 谷歌有限责任公司 | 纯注意力的计算机视觉 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066973A (zh) * | 2017-04-17 | 2017-08-18 | 杭州电子科技大学 | 一种利用时空注意力模型的视频内容描述方法 |
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
-
2018
- 2018-03-28 CN CN201810262631.9A patent/CN108492273A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066973A (zh) * | 2017-04-17 | 2017-08-18 | 杭州电子科技大学 | 一种利用时空注意力模型的视频内容描述方法 |
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
Non-Patent Citations (1)
Title |
---|
NIKI PARMAR: "Image Transformer", 《ARXIV:1802.05751V2》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110888967B (zh) * | 2018-09-11 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 搜索方法、装置及设备 |
CN110888967A (zh) * | 2018-09-11 | 2020-03-17 | 阿里巴巴集团控股有限公司 | 搜索方法、装置及设备 |
CN109147774A (zh) * | 2018-09-19 | 2019-01-04 | 华南理工大学 | 一种改进的延时神经网络声学模型 |
CN109147774B (zh) * | 2018-09-19 | 2021-07-20 | 华南理工大学 | 一种改进的延时神经网络声学模型 |
CN112771578B (zh) * | 2018-09-27 | 2024-05-24 | 渊慧科技有限公司 | 使用细分缩放和深度上缩放的图像生成 |
CN112771578A (zh) * | 2018-09-27 | 2021-05-07 | 渊慧科技有限公司 | 使用细分缩放和深度上缩放的图像生成 |
CN110033091A (zh) * | 2018-12-13 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种基于模型进行预测的方法和装置 |
US11803752B2 (en) | 2018-12-13 | 2023-10-31 | Advanced New Technologies Co., Ltd. | Separate deployment of machine learning model and associated embedding |
CN109859106A (zh) * | 2019-01-28 | 2019-06-07 | 桂林电子科技大学 | 一种基于自注意力的高阶融合网络的图像超分辨率重建方法 |
CN109978804A (zh) * | 2019-03-08 | 2019-07-05 | 清华大学 | 基于深度学习的人眼视线矫正方法及系统 |
CN109978804B (zh) * | 2019-03-08 | 2021-02-26 | 清华大学 | 基于深度学习的人眼视线矫正方法及系统 |
CN109977872A (zh) * | 2019-03-27 | 2019-07-05 | 北京迈格威科技有限公司 | 动作检测方法、装置、电子设备及计算机可读存储介质 |
CN113826119A (zh) * | 2019-05-23 | 2021-12-21 | 谷歌有限责任公司 | 纯注意力的计算机视觉 |
CN110245709A (zh) * | 2019-06-18 | 2019-09-17 | 西安电子科技大学 | 基于深度学习和自注意力的3d点云数据语义分割方法 |
CN110245709B (zh) * | 2019-06-18 | 2021-09-03 | 西安电子科技大学 | 基于深度学习和自注意力的3d点云数据语义分割方法 |
CN110459303A (zh) * | 2019-06-27 | 2019-11-15 | 浙江工业大学 | 基于深度迁移的医疗影像异常检测装置 |
CN110390340A (zh) * | 2019-07-18 | 2019-10-29 | 暗物智能科技(广州)有限公司 | 特征编码模型、视觉关系检测模型的训练方法及检测方法 |
CN111738940B (zh) * | 2020-06-02 | 2022-04-12 | 大连理工大学 | 一种人脸图像眼部补全方法 |
CN111738940A (zh) * | 2020-06-02 | 2020-10-02 | 大连理工大学 | 一种基于自注意力机制模范生成对抗网络的人脸图像眼部补全方法 |
CN113362402A (zh) * | 2021-05-19 | 2021-09-07 | 上海壁仞智能科技有限公司 | 基于分解矩阵的图像处理方法及装置 |
CN113706388A (zh) * | 2021-09-24 | 2021-11-26 | 上海壁仞智能科技有限公司 | 图像超分辨率重建方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108492273A (zh) | 一种基于自注意力模型的图像生成方法 | |
Lee et al. | Local texture estimator for implicit representation function | |
US9836820B2 (en) | Image upsampling using global and local constraints | |
Zhang et al. | Learning multiple linear mappings for efficient single image super-resolution | |
US10991150B2 (en) | View generation from a single image using fully convolutional neural networks | |
Yang et al. | Implicit transformer network for screen content image continuous super-resolution | |
Liang et al. | Unpaired medical image colorization using generative adversarial network | |
Xie et al. | Dewarping document image by displacement flow estimation with fully convolutional network | |
Sheng et al. | Cross-view recurrence-based self-supervised super-resolution of light field | |
CN111414856B (zh) | 实现用户隐私保护的人脸图像生成方法及装置 | |
Wang et al. | Dual residual attention module network for single image super resolution | |
Wu et al. | Color-to-grayscale conversion through weighted multiresolution channel fusion | |
Liu et al. | Hallucinating color face image by learning graph representation in quaternion space | |
Zhang et al. | Infrared and visible image fusion based on non‐subsampled shearlet transform, regional energy, and co‐occurrence filtering | |
Wang et al. | Learning continuous depth representation via geometric spatial aggregator | |
Chen et al. | Deep light field super-resolution using frequency domain analysis and semantic prior | |
Xiao et al. | Self-feature learning: An efficient deep lightweight network for image super-resolution | |
CN113838134B (zh) | 图像关键点检测方法、装置、终端和存储介质 | |
Chen et al. | Deep light field spatial super-resolution using heterogeneous imaging | |
Nguyen et al. | Single image super-resolution via a dual interactive implicit neural network | |
Kim et al. | Progressive Contextual Aggregation Empowered by Pixel-Wise Confidence Scoring for Image Inpainting | |
CN113935934A (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
Liang et al. | Biologically inspired framework for spatial and spectral velocity estimations | |
Pan et al. | Super-resolution from a single image based on local self-similarity | |
CN113570531A (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180904 |