CN113378973B - 一种基于自注意力机制的图像分类方法 - Google Patents

一种基于自注意力机制的图像分类方法 Download PDF

Info

Publication number
CN113378973B
CN113378973B CN202110723547.4A CN202110723547A CN113378973B CN 113378973 B CN113378973 B CN 113378973B CN 202110723547 A CN202110723547 A CN 202110723547A CN 113378973 B CN113378973 B CN 113378973B
Authority
CN
China
Prior art keywords
vector
picture
model
self
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110723547.4A
Other languages
English (en)
Other versions
CN113378973A (zh
Inventor
杨木润
赵闯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Yayi Network Technology Co ltd
Original Assignee
Shenyang Yayi Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Yayi Network Technology Co ltd filed Critical Shenyang Yayi Network Technology Co ltd
Priority to CN202110723547.4A priority Critical patent/CN113378973B/zh
Publication of CN113378973A publication Critical patent/CN113378973A/zh
Application granted granted Critical
Publication of CN113378973B publication Critical patent/CN113378973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明提供一种基于自注意力机制的图像分类方法,步骤为:构建包含自注意力机制的Transformer模型,针对图像分类任务添加分类器单元;处理公开数据集ImageNet,调整原图片至合适大小;将调整后的图片划分成固定大小的子图,连接各子图后进行维度调整,得到图片嵌入向量;进行二维位置编码,得到二维位置编码向量,和图片嵌入向量连接,作为模型输入;将连接后向量送入Transformer模型,提取图片特征,最终解码时通过分类器单元将模型输出的向量转换成概率表示,完成图像分类。本发明通过自注意力机制的使用,能够有效地从图片中提取全局信息,即传统卷积神经网络所提取的图片特征,基于提取的特征能够有效地完成对图片的分类。

Description

一种基于自注意力机制的图像分类方法
技术领域
本发明涉及一种图像分类技术,具体为基于自注意力机制的图像分类方法。
背景技术
图像分类是一个模式分类问题,它的目标是将不同的图像,划分到不同的类别,实现最小的分类误差。它的典型方法就是提取图像的特征,基于特征对图像进行分类标签的分配。图像分类任务从传统的方法到基于深度学习的方法,经历了几十年的发展。目前的方法主要基于卷积神经网络结构来提取图像特征,并在基础网络之上采取了加深模型层数和深度,改进卷积方式等操作。方法的更迭使得基本的图像分类任务性能已经接近饱和,模型的复杂度也已经接近人工设计的极限。因此,需要更多的方法来突破当前的瓶颈,其中一个想法就是引入其他领域,如自然语言处理领域的研究成果,来对传统卷积网络进行一定的改进甚至是替代。
而在自然语言处理领域,注意力机制的引入使得人们能够更高效提取各个词之间的相关度,从而得到每个词基于整句话的相关度信息。这一提取信息的过程与对图像进行卷积操作有着相似的地方,都是对全局信息的提取,只是相比之下注意力机制无法提取到位置信息。于是,许多将卷积神经网络与注意力机制结合的思想也被激发出来,其核心是将图片或图片的表示视作自然语言处理中的词串,使用注意力机制提取他们之间的关注度。这样的方式就是在探究注意力机制对卷积神经网络描述图像能力的替代。目前这些将注意力机制引入卷积网络的操作,主要有:将卷积网络和注意力机制结合,如卷积的结果再进行自注意力计算;用注意力机制对卷积网络进行完全的替代。但是这些方法在大规模的数据上,仍然无法超越现有的基于卷积神经网络的图像分类模型。因此除了使用基础的注意力机制,如何将更复杂、高效的自然语言处理领域的模型移植到图像领域,便成为了新的问题。
针对上述问题,考虑到在机器翻译领域,结合了自注意力机制,基于编码器-解码器结构的Transformer模型已经成为了新的范式。并且,它也具有优越的计算效率和可扩展性,可以在预训练下处理多类任务。将它应用到图像任务可以将传统的特征提取过程转换成“词串”进行编码解码的过程,用不同于卷积的另一个角度对全局特征进行充分提取,并可以在大规模数据下拥有良好的表现。当然,通过对Transformer结构进行分析,在使用Transformer结构对图像进行特征提取时,也面临着以下问题:如何将图像转换成类似于句子的表示,如何引入图像的位置信息,以及如何针对特定图像分类任务进行模型修改。这些问题的存在,使得目前在图像领域对Transformer结构的应用还不成熟,仍需大量的实践探索。
发明内容
针对现有技术中注意力机制对卷积网络的替代还不明显,将Transformer模型的优势引入图像领域的尝试还不完善等不足,本发明要解决的技术问题是提供一种基于自注意力机制的图像分类方法,探索Transformer结构在图像分类任务上的应用。
为解决上述技术问题,本发明采用的技术方案是:
本发明提供一种基于自注意力机制的图像分类方法,包括以下步骤:
1)构建包含自注意力机制的Transformer模型,修改模型结构,并针对图像分类任务添加分类器单元;
2)处理公开数据级ImageNet,调整图片至合适大小;
3)将图片划分成固定大小的子图,连接各子图后进行维度调整,从而组成图片嵌入向量,代表图片对应的“词串”;
4)对调整后的图片使用sincos编码方式进行二维位置编码,得到二维位置编码向量,并将其和图片嵌入向量连接,作为模型的输入;
5)将连接完后的编码向量送入模型,提取图片特征,完成分类,进行参数调优,训练到收敛为止,最终解码时通过分类器单元将模型输出的向量转换成概率表示,完成图像分类。
步骤1)中,使用Transformer结构时,将解码器部分的自注意力计算都替换为与编码器部分相同,并将解码器部分初始输入替换为一个用于分类的向量CLS。同时进行位置编码计算时,采用的是二维位置编码,将其与图片嵌入向量和分类向量连接分别作为编码器解码器的输入。针对图像分类任务,在解码器的输出部分连接一个分类头。具体为:
101)编码器部分,由多头自注意力计算和前馈神经网络层FNN组成,用于图像各部分注意力的提取,多头自注意力的计算如下:
MultiHead(Q,K,V)=Concat(head1,…,headh)Wo
其中,Q、K、V为模型的输入向量,headi为第i个头的向量,W为翻译模型参数,Attention(.)为注意力机制函数,Concat(.)为向量连接函数。
前馈神经网络层FNN的计算如下:
FFN(x)=max(0,xW1+b1)W2+b2
其中,x为隐藏层向量,W1、W2、b1、b2为模型的参数,由模型自动学习得到;
102)解码器部分,由两次多头自注意力计算和两层前馈神经网络层FNN组成,编码器的初始输入替换成了一个新的用于图像分类的向量CLS;
103)使用分类头,即经过编码器-解码器输出的向量再经过前馈神经网络层FNN和softmax层进行分类。
步骤2)中,从公开数据集ImageNet中获取训练数据,将训练数据的图片调整成统一大小,如分辨率为384*384。
步骤3)中,将调整大小后的原图片划分成固定大小的子图片,每个子图片称作patch,再调整其维度至对于模型的输入大小合适,这样就得到了对每一个patch的编码,即得到了图片嵌入向量。具体为:
301)以输入(batch,3,384,384),每个patch分辨率为32*32为例,划分为子图片的过程的具体过程:首先,将每张图片切分成12*12个小块,即从(batch,3,32*12,32*12)到(batch,3,12*12,32*32),再将其转换成(batch,12*12,32*32*3),相当于分成了12*12个patch,每个patch的维度是32*32*3。这一过程的实现可通过以下计算:
x=rearrange(img,′b c(hp1)(w p2)→b(hw)(p1 p2 c)′,p1=p,p2=p)
其中,rearrange函数是einops库的算子,p是patch大小,c是通道数,b是batch数,h,w分别是图像的高和宽;
302)划分子图片后,得到图片的嵌入向量,还需对其维度进行调整。这里图片嵌入向量经过一层全连接层调整维度至1024,使之作为模型的输入不会过长。
步骤4)中,使用2维的sincos编码方式,编码公式为:
其中,PE为二维矩阵,行表示子图片,列表示位置向量;pos表示子图片在图片中的位置;dmodel表示位置向量的维度;i表示位置向量的位置。
二维的编码方式,即是将二维位置编码的一半维度用横向的sincos编码表示,另一半维度用纵向的sincos编码表示。编码完毕后,将位置编码向量与上一步的图像嵌入向量连接,即可得到模型的输入向量。
步骤5)中,得到图像嵌入向量和位置向量的连接结果后,将其送入编码器-解码器结构,提取特征到CLS向量,完成分类,重复此过程进行模型训练;训练结束后,模型只需经过一次解码即可输出对应输入图片的分类结果。
本发明具有以下有益效果及优点:
1.本发明通过自注意力机制的使用,能够有效地从图片中提取全局信息,即传统卷积神经网络所提取的图片特征,基于提取的特征能够有效地完成对图片的分类。
2.与此同时,本发明通过将图片拆分成子图后编码的方式,将图像转换成类似于句子的表示,并对图片进行二维位置编码引入位置信息,最后针对图像分类问题在模型中添加了分类头,从语言的角度来解决图像问题。
3.本发明成功地将基础的Transformer结构应用到了图像分类领域,为后续在其他图像任务上利用Transformer等自然语言处理领域的先进模型提供了更多的可能。
附图说明
图1为本发明方法中模型结构图示;
图2为本发明方法中多头注意力机制图示;
图3为本发明中图片划分过程的图示。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
本发明针对传统的图像分类方法主要基于卷积神经网络来提取特征这一现状,提出一种自注意力机制的图像分类方法,该方法成功地将自然语言处理任务中的Transformer模型引入了图像任务中,通过自注意力机制来提取图像的全局信息,构成图像特征,在达到有效的图像分类目的的同时,为后续的研究提供了更多的可能。
本发明提供一种基于自注意力机制的图像分类方法,采用的技术方案是:
1)构建包含自注意力机制的Transformer模型,修改模型结构,并针对图像分类任务添加分类器单元;
2)处理公开数据集ImageNet,调整原图片至合适大小;
3)将调整后的图片划分成固定大小的子图,连接各子图后进行维度调整,从而组成图片嵌入向量,代表图片对应的“词串”;
4)对调整后的图片使用sincos编码方式进行二维位置编码,得到二维位置编码向量,并将其和图片嵌入向量连接,作为模型的输入;
5)将图片嵌入向量、二维位置编码向量连接后送入Transformer模型,提取图片特征,进行参数调优,训练到收敛为止,最终解码时通过分类器单元将模型输出的向量转换成概率表示,完成图像分类。
步骤1)中,使用Transformer结构时,将解码器部分的自注意力计算都替换为与编码器部分相同,见图1中的多头注意力计算模块和编码解码注意力,它们实际的计算都是一致的,计算图示可见图2,只是它们的输入不同。还要将解码器部分的初始输入替换为一个用于分类的向量CLS。同时进行位置编码计算时,采用的是二维位置编码,将其与图片嵌入向量和分类向量连接分别作为编码器解码器的输入。另外,针对图像分类任务,需要在解码器的输出部分连接一个分类头。具体为:
101)编码器部分,如图1模型结构左侧所示,由多头自注意力计算和前馈神经网络层FNN组成,用于图像各部分注意力的提取,多头注意力的计算过程如图2所示,其中基于点乘的多头自注意力的具体计算公式如下:
MultiHead(Q,K,V)=Concat(head1,…,headh)Wo
其中,Q、K、V为模型的输入向量,headi为第i个头的向量,W为翻译模型参数,Attention(.)为注意力机制函数,Concat(.)为向量连接函数。
前馈神经网络层FNN的计算如下:
FFN(x)=max(0,xW1+b1)W2+b2
其中,x为隐藏层向量,W1、W2、b1、b2为模型的参数,由模型自动学习得到;
102)解码器部分,如图1模型结构右侧所示,由两次多头自注意力计算和两层前馈神经网络层FNN组成,这里的区别在于,编码器的初始输入替换成了一个新的用于图像分类的向量CLS。以图片类别为10类为例,则向量CLS经过分类头后的维度为10,此向量涵盖了图片中抽取到的全局信息,用于最终的分类;
103)使用分类头,如图1模型结构右上侧所示,即经过编码器-解码器输出的CLS向量再经过前馈神经网络层FNN和softmax层进行分类,此时向量每一维表示每一种分类的概率。
步骤2)中,从公开数据集ImageNet中获取训练数据,将训练数据的图片调整成统一大小,如分辨率为384*384。
步骤3)中,将调整大小后的原图片划分成固定大小的子图片,每个子图片称作patch,再调整其维度至对于模型的输入大小合适,这样就得到了对每一个patch的编码,即得到了图片嵌入向量。这一过程如图3所示,具体为:
301)以输入(batch,3,384,384),每个patch分辨率为32*32为例,划分为子图片的过程的具体过程:首先,将每张图片切分成12*12个小块,即从(batch,3,32*12,32*12)到(batch,3,12*12,32*32),再将其转换成(batch,12*12,32*32*3),相当于分成了12*12个patch,每个patch的维度是32*32*3。这一过程的实现可通过以下计算:
x=rearrange(img,′b c(hp1)(w p2)→b(hw)(p1 p2 c)′,p1=p,p2=p)
其中,rearrange函数是einops库的算子,p是patch大小,c是通道数,b是batch数,h,w分别是图像的高和宽。
302)划分子图片后,得到图片的嵌入向量,还需对其维度进行调整。这里图片嵌入向量经过一层全连接层调整维度至1024,使之作为模型的输入不会过长。
步骤4)中,使用2维的sincos编码方式,编码公式为:
其中,PE为二维矩阵,行表示子图片,列表示位置向量;pos表示子图片在图片中的位置;dmodel表示位置向量的维度;i表示位置向量的位置。
二维的编码方式,即是将二维位置编码的一半维度用横向的sincos编码表示,另一半维度用纵向的sincos编码表示。编码完毕后,将位置编码向量与上一步的图像嵌入向量连接,即可得到模型的输入向量。
步骤5)中,得到图像嵌入向量和位置向量的和后,将其送入编码器-解码器结构,提取特征到CLS向量,完成分类,重复此过程进行模型训练,此处使用交叉熵损失进行模型训练。训练结束后,向模型中输入处理完毕的图片,经过一次解码获得对应CLS向量,向量中数值最大的一维即图片对应的类别。
本发明提出了一种基于自注意力机制的图像分类方法,能够有效地从图片中提取全局信息,即传统卷积神经网络所提取的图片特征。基于提取的特征,模型能够有效地完成对图片的分类。这种方式通过将图片转换成类似词串向量的形式,用自然语言处理的视角去解决图像问题,验证了自注意力在提取图片特征时对卷积网络的替代能力。与此同时,通过大规模的预训练等手段,也能将如Transformer等自然语言处理领域的先进模型运用到更多图像任务上去,为未来图像领域的研究提供了新的方向。

Claims (5)

1.一种基于自注意力机制的图像分类方法,其特征在于包括以下步骤:
1)构建包含自注意力机制的Transformer模型,修改模型结构,并针对图像分类任务添加分类器单元;
2)处理公开数据集ImageNet,调整原图片至合适大小;
3)将调整后的图片划分成固定大小的子图,连接各子图后进行维度调整,从而组成图片嵌入向量,代表图片对应的“词串”;
4)对调整后的图片使用sincos编码方式进行二维位置编码,得到二维位置编码向量,并将其和图片嵌入向量连接,作为模型的输入;
5)将图片嵌入向量、二维位置编码向量连接后送入Transformer模型,提取图片特征,进行参数调优,训练到收敛为止,最终解码时通过分类器单元将模型输出的向量转换成概率表示,完成图像分类;
步骤1)中,使用Transformer模型结构时,将解码器部分的自注意力计算都替换为与编码器部分相同,并将解码器部分初始输入替换为一个用于分类的向量CLS;
同时进行位置编码计算时,采用二维位置编码,将其与图片嵌入向量和分类向量连接分别作为编码器解码器的输入;针对图像分类任务,在解码器的输出部分连接一个分类头,具体为:
101)编码器部分,由多头自注意力计算和前馈神经网络层FNN组成,用于图像各部分注意力的提取,多头自注意力的计算如下:
headi=Attention(QWi Q,KWi K,VWi V)
MultiHead(Q,K,V)=Concat(head1,…,headh)Wo
其中,Q、K、V为模型的输入向量,headi为第i个头的向量,W为翻译模型参数,Attention(.)为注意力机制函数,Concat(.)为向量连接函数;
前馈神经网络层FNN的计算如下:
FFN(x)=max(0,xW1+b1)W2+b2
其中,x为隐藏层向量,W1、W2、b1、b2为模型的参数,由模型自动学习得到;
102)解码器部分,由两次多头自注意力计算和两层前馈神经网络层FNN组成,解码器的初始输入替换成了一个新的用于图像分类的向量CLS;
103)使用分类头,经过编码器-解码器输出的向量再经过前馈神经网络层FNN和softmax层进行分类。
2.按权利要求1所述的基于自注意力机制的图像分类方法,其特征在于:步骤2)中,从公开数据集ImageNet中获取训练数据,将训练数据的图片调整成统一大小。
3.按权利要求1所述的基于自注意力机制的图像分类方法,其特征在于:步骤3)中,将调整大小后的原图片划分成固定大小的子图片,每个子图片称作patch,再调整其维度至对于模型的输入大小合适,得到对每一个patch的编码,即图片嵌入向量,具体为:
301)输入(batch,c,h,w),每个patch分辨率为p*p,划分为子图片的过程的具体过程:首先,将每张图片切分成(h/p)*(w/p)个小块,从(batch,c,p*(h/p),p*(w/p))到(batch,c,(h/p)*(w/p),p*p),再将其转换成(batch,(h/p)*(w/p),p*p*c),相当于分成了(h/p)*(w/p)个patch,每个patch的维度是p*p*c;这一过程的实现通过以下计算:
x=rearrange(img,′b c(h p1)(w p2)→b(h w)(p1 p2 c)′,p1=p,p2=p)
其中,rearrange函数是einops库的算子,p1、p2是patch大小,c是通道数,b是batch数,h,w分别是图像的高和宽;
302)划分子图片后,得到图片的嵌入向量,并对其维度进行调整,图片嵌入向量经过一层全连接层调整维度至所需长度,使之作为模型的输入不会过长。
4.按权利要求1所述的基于自注意力机制的图像分类方法,其特征在于:步骤4)中,使用2维的sincos编码方式,编码公式为:
其中,PE为二维矩阵,行表示子图片,列表示位置向量;pos表示子图片在图片中的位置;dmodel表示位置向量的维度;i表示位置向量的位置;
二维的编码方式,是将二维位置编码的一半维度用横向的sincos编码表示,另一半维度用纵向的sincos编码表示,编码完毕后,将位置编码向量与上一步的图像嵌入向量连接,即可得到模型的输入向量。
5.按权利要求1所述的基于自注意力机制的图像分类方法,其特征在于:步骤5)中,将图片嵌入向量、二维位置编码向量连接后得到输入向量,将其送入编码器-解码器结构,提取特征到CLS向量,将分类头得到的分类结果与真实结果对比,优化模型,重复此过程进行模型训练;训练结束后,模型经过一次解码即可输出对应输入图片的分类结果。
CN202110723547.4A 2021-06-29 2021-06-29 一种基于自注意力机制的图像分类方法 Active CN113378973B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110723547.4A CN113378973B (zh) 2021-06-29 2021-06-29 一种基于自注意力机制的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110723547.4A CN113378973B (zh) 2021-06-29 2021-06-29 一种基于自注意力机制的图像分类方法

Publications (2)

Publication Number Publication Date
CN113378973A CN113378973A (zh) 2021-09-10
CN113378973B true CN113378973B (zh) 2023-08-08

Family

ID=77579698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110723547.4A Active CN113378973B (zh) 2021-06-29 2021-06-29 一种基于自注意力机制的图像分类方法

Country Status (1)

Country Link
CN (1) CN113378973B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114066987B (zh) * 2022-01-12 2022-04-26 深圳佑驾创新科技有限公司 一种相机位姿估计方法、装置、设备及存储介质
CN114120048B (zh) * 2022-01-26 2022-05-13 中兴通讯股份有限公司 图像处理方法、电子设备及计算存储介质
CN114627012B (zh) * 2022-03-09 2024-04-19 上海应用技术大学 基于自动编码器的老照片复原方法
CN114782848B (zh) * 2022-03-10 2024-03-26 沈阳雅译网络技术有限公司 一种应用特征金字塔的图片字幕生成方法
CN115578387A (zh) * 2022-12-06 2023-01-06 中南大学 一种基于多模态的阿尔茨海默症医学图像分类方法及系统

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6081665A (en) * 1997-12-19 2000-06-27 Newmonics Inc. Method for efficient soft real-time execution of portable byte code computer programs
US10089556B1 (en) * 2017-06-12 2018-10-02 Konica Minolta Laboratory U.S.A., Inc. Self-attention deep neural network for action recognition in surveillance videos
WO2019101720A1 (en) * 2017-11-22 2019-05-31 Connaught Electronics Ltd. Methods for scene classification of an image in a driving support system
WO2020061008A1 (en) * 2018-09-18 2020-03-26 Google Llc Receptive-field-conforming convolution models for video coding
CN111046962A (zh) * 2019-12-16 2020-04-21 中国人民解放军战略支援部队信息工程大学 基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统
CN111160050A (zh) * 2019-12-20 2020-05-15 沈阳雅译网络技术有限公司 一种基于上下文记忆网络的篇章级神经机器翻译方法
CN111382582A (zh) * 2020-01-21 2020-07-07 沈阳雅译网络技术有限公司 一种基于非自回归的神经机器翻译解码加速方法
CN111428038A (zh) * 2020-03-26 2020-07-17 国网浙江杭州市萧山区供电有限公司 基于自注意力机制的电力投诉工单多标签文本分类方法
CN111899210A (zh) * 2020-03-26 2020-11-06 中国铁建电气化局集团第二工程有限公司 一种基于图像识别的电弧检测方法
WO2020233427A1 (zh) * 2019-05-17 2020-11-26 北京京东尚科信息技术有限公司 目标的特征的确定方法和装置
CN112215223A (zh) * 2020-10-16 2021-01-12 清华大学 基于多元注意力机制的多方向场景文字识别方法及系统
CN112508096A (zh) * 2020-12-08 2021-03-16 电子科技大学 一种基于几何自注意力机制的图像自动标注方法
WO2021051503A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备
WO2021051593A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN112598024A (zh) * 2020-12-03 2021-04-02 天津理工大学 一种基于深度多示例学习和自注意力的医学图像分类方法
CN112801280A (zh) * 2021-03-11 2021-05-14 东南大学 视觉深度自适应神经网络的一维卷积位置编码方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11087174B2 (en) * 2018-09-25 2021-08-10 Nec Corporation Deep group disentangled embedding and network weight generation for visual inspection
US20200104681A1 (en) * 2018-09-27 2020-04-02 Google Llc Neural Networks with Area Attention
US20200250398A1 (en) * 2019-02-01 2020-08-06 Owkin Inc. Systems and methods for image classification
US11120585B2 (en) * 2019-11-28 2021-09-14 Shanghai United Imaging Intelligence Co., Ltd. Systems and methods for image reconstruction

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6081665A (en) * 1997-12-19 2000-06-27 Newmonics Inc. Method for efficient soft real-time execution of portable byte code computer programs
US10089556B1 (en) * 2017-06-12 2018-10-02 Konica Minolta Laboratory U.S.A., Inc. Self-attention deep neural network for action recognition in surveillance videos
WO2019101720A1 (en) * 2017-11-22 2019-05-31 Connaught Electronics Ltd. Methods for scene classification of an image in a driving support system
WO2020061008A1 (en) * 2018-09-18 2020-03-26 Google Llc Receptive-field-conforming convolution models for video coding
WO2020233427A1 (zh) * 2019-05-17 2020-11-26 北京京东尚科信息技术有限公司 目标的特征的确定方法和装置
WO2021051593A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
WO2021051503A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备
CN111046962A (zh) * 2019-12-16 2020-04-21 中国人民解放军战略支援部队信息工程大学 基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统
CN111160050A (zh) * 2019-12-20 2020-05-15 沈阳雅译网络技术有限公司 一种基于上下文记忆网络的篇章级神经机器翻译方法
CN111382582A (zh) * 2020-01-21 2020-07-07 沈阳雅译网络技术有限公司 一种基于非自回归的神经机器翻译解码加速方法
CN111899210A (zh) * 2020-03-26 2020-11-06 中国铁建电气化局集团第二工程有限公司 一种基于图像识别的电弧检测方法
CN111428038A (zh) * 2020-03-26 2020-07-17 国网浙江杭州市萧山区供电有限公司 基于自注意力机制的电力投诉工单多标签文本分类方法
CN112215223A (zh) * 2020-10-16 2021-01-12 清华大学 基于多元注意力机制的多方向场景文字识别方法及系统
CN112598024A (zh) * 2020-12-03 2021-04-02 天津理工大学 一种基于深度多示例学习和自注意力的医学图像分类方法
CN112508096A (zh) * 2020-12-08 2021-03-16 电子科技大学 一种基于几何自注意力机制的图像自动标注方法
CN112801280A (zh) * 2021-03-11 2021-05-14 东南大学 视觉深度自适应神经网络的一维卷积位置编码方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE;Alexey Dosovitskiy;ICLR 2021;abstract、第1-3节、APPENDIX *

Also Published As

Publication number Publication date
CN113378973A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN113378973B (zh) 一种基于自注意力机制的图像分类方法
CN110765966B (zh) 一种面向手写文字的一阶段自动识别与翻译方法
Creswell et al. On denoising autoencoders trained to minimise binary cross-entropy
CN108121975B (zh) 一种联合原始数据和生成数据的人脸识别方法
CN112417134B (zh) 基于语音文本深度融合特征的摘要自动生成系统及方法
WO2022237027A1 (en) License plate classification method, license plate classification apparatus, and computer-readable storage medium
CN116486794A (zh) 一种中英混合语音识别方法
CN114332479A (zh) 一种目标检测模型的训练方法及相关装置
CN111667006A (zh) 一种基于AttGan模型生成家族字体的方法
CN115731453B (zh) 汉字点选式验证码识别方法及系统
CN116958700A (zh) 一种基于提示工程和对比学习的图像分类方法
CN115546236B (zh) 基于小波变换的图像分割方法及装置
CN115496134B (zh) 基于多模态特征融合的交通场景视频描述生成方法和装置
CN111552817A (zh) 一种电力科技成果知识图谱补全方法
CN114944002B (zh) 文本描述辅助的姿势感知的人脸表情识别方法
Chen et al. Multi-stage degradation homogenization for super-resolution of face images with extreme degradations
CN116341562A (zh) 一种基于Unilm语言模型的相似问题生成方法
CN114581920A (zh) 一种双分支多层次特征解码的分子图像识别方法
CN115270917A (zh) 一种两阶段处理多模态服装图像生成方法
CN114742075A (zh) 一种基于预训练的多模态机器翻译方法
CN115422329A (zh) 一种基于知识驱动的多路筛选融合对话生成方法
CN114782848B (zh) 一种应用特征金字塔的图片字幕生成方法
Forte et al. Interactive training and architecture for deep object selection
Wu et al. SketchScene: Scene Sketch To Image Generation With Diffusion Models
CN115496910B (zh) 基于全连接图编码及双重扩张残差的点云语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant