CN113378973A - 一种基于自注意力机制的图像分类方法 - Google Patents
一种基于自注意力机制的图像分类方法 Download PDFInfo
- Publication number
- CN113378973A CN113378973A CN202110723547.4A CN202110723547A CN113378973A CN 113378973 A CN113378973 A CN 113378973A CN 202110723547 A CN202110723547 A CN 202110723547A CN 113378973 A CN113378973 A CN 113378973A
- Authority
- CN
- China
- Prior art keywords
- vector
- picture
- model
- self
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000007246 mechanism Effects 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 108
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 238000013519 translation Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 8
- 239000000284 extract Substances 0.000 abstract description 6
- 238000003058 natural language processing Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
本发明提供一种基于自注意力机制的图像分类方法,步骤为:构建包含自注意力机制的Transformer模型,针对图像分类任务添加分类器单元;处理公开数据集ImageNet,调整原图片至合适大小;将调整后的图片划分成固定大小的子图,连接各子图后进行维度调整,得到图片嵌入向量;进行二维位置编码,得到二维位置编码向量,和图片嵌入向量连接,作为模型输入;将连接后向量送入Transformer模型,提取图片特征,最终解码时通过分类器单元将模型输出的向量转换成概率表示,完成图像分类。本发明通过自注意力机制的使用,能够有效地从图片中提取全局信息,即传统卷积神经网络所提取的图片特征,基于提取的特征能够有效地完成对图片的分类。
Description
技术领域
本发明涉及一种图像分类技术,具体为基于自注意力机制的图像分类方法。
背景技术
图像分类是一个模式分类问题,它的目标是将不同的图像,划分到不同的类别,实现最小的分类误差。它的典型方法就是提取图像的特征,基于特征对图像进行分类标签的分配。图像分类任务从传统的方法到基于深度学习的方法,经历了几十年的发展。目前的方法主要基于卷积神经网络结构来提取图像特征,并在基础网络之上采取了加深模型层数和深度,改进卷积方式等操作。方法的更迭使得基本的图像分类任务性能已经接近饱和,模型的复杂度也已经接近人工设计的极限。因此,需要更多的方法来突破当前的瓶颈,其中一个想法就是引入其他领域,如自然语言处理领域的研究成果,来对传统卷积网络进行一定的改进甚至是替代。
而在自然语言处理领域,注意力机制的引入使得人们能够更高效提取各个词之间的相关度,从而得到每个词基于整句话的相关度信息。这一提取信息的过程与对图像进行卷积操作有着相似的地方,都是对全局信息的提取,只是相比之下注意力机制无法提取到位置信息。于是,许多将卷积神经网络与注意力机制结合的思想也被激发出来,其核心是将图片或图片的表示视作自然语言处理中的词串,使用注意力机制提取他们之间的关注度。这样的方式就是在探究注意力机制对卷积神经网络描述图像能力的替代。目前这些将注意力机制引入卷积网络的操作,主要有:将卷积网络和注意力机制结合,如卷积的结果再进行自注意力计算;用注意力机制对卷积网络进行完全的替代。但是这些方法在大规模的数据上,仍然无法超越现有的基于卷积神经网络的图像分类模型。因此除了使用基础的注意力机制,如何将更复杂、高效的自然语言处理领域的模型移植到图像领域,便成为了新的问题。
针对上述问题,考虑到在机器翻译领域,结合了自注意力机制,基于编码器-解码器结构的Transformer模型已经成为了新的范式。并且,它也具有优越的计算效率和可扩展性,可以在预训练下处理多类任务。将它应用到图像任务可以将传统的特征提取过程转换成“词串”进行编码解码的过程,用不同于卷积的另一个角度对全局特征进行充分提取,并可以在大规模数据下拥有良好的表现。当然,通过对Transformer结构进行分析,在使用Transformer结构对图像进行特征提取时,也面临着以下问题:如何将图像转换成类似于句子的表示,如何引入图像的位置信息,以及如何针对特定图像分类任务进行模型修改。这些问题的存在,使得目前在图像领域对Transformer结构的应用还不成熟,仍需大量的实践探索。
发明内容
针对现有技术中注意力机制对卷积网络的替代还不明显,将Transformer模型的优势引入图像领域的尝试还不完善等不足,本发明要解决的技术问题是提供一种基于自注意力机制的图像分类方法,探索Transformer结构在图像分类任务上的应用。
为解决上述技术问题,本发明采用的技术方案是:
本发明提供一种基于自注意力机制的图像分类方法,包括以下步骤:
1)构建包含自注意力机制的Transformer模型,修改模型结构,并针对图像分类任务添加分类器单元;
2)处理公开数据级ImageNet,调整图片至合适大小;
3)将图片划分成固定大小的子图,连接各子图后进行维度调整,从而组成图片嵌入向量,代表图片对应的“词串”;
4)对调整后的图片使用sincos编码方式进行二维位置编码,得到二维位置编码向量,并将其和图片嵌入向量连接,作为模型的输入;
5)将连接完后的编码向量送入模型,提取图片特征,完成分类,进行参数调优,训练到收敛为止,最终解码时通过分类器单元将模型输出的向量转换成概率表示,完成图像分类。
步骤1)中,使用Transformer结构时,将解码器部分的自注意力计算都替换为与编码器部分相同,并将解码器部分初始输入替换为一个用于分类的向量CLS。同时进行位置编码计算时,采用的是二维位置编码,将其与图片嵌入向量和分类向量连接分别作为编码器解码器的输入。针对图像分类任务,在解码器的输出部分连接一个分类头。具体为:
101)编码器部分,由多头自注意力计算和前馈神经网络层FNN组成,用于图像各部分注意力的提取,多头自注意力的计算如下:
MultiHead(Q,K,V)=Concat(head1,…,headh)Wo
其中,Q、K、V为模型的输入向量,headi为第i个头的向量,W为翻译模型参数,Attention(.)为注意力机制函数,Concat(.)为向量连接函数。
前馈神经网络层FNN的计算如下:
FFN(x)=max(0,xW1+b1)W2+b2
其中,x为隐藏层向量,W1、W2、b1、b2为模型的参数,由模型自动学习得到;
102)解码器部分,由两次多头自注意力计算和两层前馈神经网络层FNN组成,编码器的初始输入替换成了一个新的用于图像分类的向量CLS;
103)使用分类头,即经过编码器-解码器输出的向量再经过前馈神经网络层FNN和softmax层进行分类。
步骤2)中,从公开数据集ImageNet中获取训练数据,将训练数据的图片调整成统一大小,如分辨率为384*384。
步骤3)中,将调整大小后的原图片划分成固定大小的子图片,每个子图片称作patch,再调整其维度至对于模型的输入大小合适,这样就得到了对每一个patch的编码,即得到了图片嵌入向量。具体为:
301)以输入(batch,3,384,384),每个patch分辨率为32*32为例,划分为子图片的过程的具体过程:首先,将每张图片切分成12*12个小块,即从(batch,3,32*12,32*12)到(batch,3,12*12,32*32),再将其转换成(batch,12*12,32*32*3),相当于分成了12*12个patch,每个patch的维度是32*32*3。这一过程的实现可通过以下计算:
x=rearrange(img,′b c(hp1)(w p2)→b(hw)(p1 p2 c)′,p1=p,p2=p)
其中,rearrange函数是einops库的算子,p是patch大小,c是通道数,b是batch数,h,w分别是图像的高和宽;
302)划分子图片后,得到图片的嵌入向量,还需对其维度进行调整。这里图片嵌入向量经过一层全连接层调整维度至1024,使之作为模型的输入不会过长。
步骤4)中,使用2维的sincos编码方式,编码公式为:
其中,PE为二维矩阵,行表示子图片,列表示位置向量;pos表示子图片在图片中的位置;dmodel表示位置向量的维度;i表示位置向量的位置。
二维的编码方式,即是将二维位置编码的一半维度用横向的sincos编码表示,另一半维度用纵向的sincos编码表示。编码完毕后,将位置编码向量与上一步的图像嵌入向量连接,即可得到模型的输入向量。
步骤5)中,得到图像嵌入向量和位置向量的连接结果后,将其送入编码器-解码器结构,提取特征到CLS向量,完成分类,重复此过程进行模型训练;训练结束后,模型只需经过一次解码即可输出对应输入图片的分类结果。
本发明具有以下有益效果及优点:
1.本发明通过自注意力机制的使用,能够有效地从图片中提取全局信息,即传统卷积神经网络所提取的图片特征,基于提取的特征能够有效地完成对图片的分类。
2.与此同时,本发明通过将图片拆分成子图后编码的方式,将图像转换成类似于句子的表示,并对图片进行二维位置编码引入位置信息,最后针对图像分类问题在模型中添加了分类头,从语言的角度来解决图像问题。
3.本发明成功地将基础的Transformer结构应用到了图像分类领域,为后续在其他图像任务上利用Transformer等自然语言处理领域的先进模型提供了更多的可能。
附图说明
图1为本发明方法中模型结构图示;
图2为本发明方法中多头注意力机制图示;
图3为本发明中图片划分过程的图示。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
本发明针对传统的图像分类方法主要基于卷积神经网络来提取特征这一现状,提出一种自注意力机制的图像分类方法,该方法成功地将自然语言处理任务中的Transformer模型引入了图像任务中,通过自注意力机制来提取图像的全局信息,构成图像特征,在达到有效的图像分类目的的同时,为后续的研究提供了更多的可能。
本发明提供一种基于自注意力机制的图像分类方法,采用的技术方案是:
1)构建包含自注意力机制的Transformer模型,修改模型结构,并针对图像分类任务添加分类器单元;
2)处理公开数据集ImageNet,调整原图片至合适大小;
3)将调整后的图片划分成固定大小的子图,连接各子图后进行维度调整,从而组成图片嵌入向量,代表图片对应的“词串”;
4)对调整后的图片使用sincos编码方式进行二维位置编码,得到二维位置编码向量,并将其和图片嵌入向量连接,作为模型的输入;
5)将图片嵌入向量、二维位置编码向量连接后送入Transformer模型,提取图片特征,进行参数调优,训练到收敛为止,最终解码时通过分类器单元将模型输出的向量转换成概率表示,完成图像分类。
步骤1)中,使用Transformer结构时,将解码器部分的自注意力计算都替换为与编码器部分相同,见图1中的多头注意力计算模块和编码解码注意力,它们实际的计算都是一致的,计算图示可见图2,只是它们的输入不同。还要将解码器部分的初始输入替换为一个用于分类的向量CLS。同时进行位置编码计算时,采用的是二维位置编码,将其与图片嵌入向量和分类向量连接分别作为编码器解码器的输入。另外,针对图像分类任务,需要在解码器的输出部分连接一个分类头。具体为:
101)编码器部分,如图1模型结构左侧所示,由多头自注意力计算和前馈神经网络层FNN组成,用于图像各部分注意力的提取,多头注意力的计算过程如图2所示,其中基于点乘的多头自注意力的具体计算公式如下:
MultiHead(Q,K,V)=Concat(head1,…,headh)Wo
其中,Q、K、V为模型的输入向量,headi为第i个头的向量,W为翻译模型参数,Attention(.)为注意力机制函数,Concat(.)为向量连接函数。
前馈神经网络层FNN的计算如下:
FFN(x)=max(0,xW1+b1)W2+b2
其中,x为隐藏层向量,W1、W2、b1、b2为模型的参数,由模型自动学习得到;
102)解码器部分,如图1模型结构右侧所示,由两次多头自注意力计算和两层前馈神经网络层FNN组成,这里的区别在于,编码器的初始输入替换成了一个新的用于图像分类的向量CLS。以图片类别为10类为例,则向量CLS经过分类头后的维度为10,此向量涵盖了图片中抽取到的全局信息,用于最终的分类;
103)使用分类头,如图1模型结构右上侧所示,即经过编码器-解码器输出的CLS向量再经过前馈神经网络层FNN和softmax层进行分类,此时向量每一维表示每一种分类的概率。
步骤2)中,从公开数据集ImageNet中获取训练数据,将训练数据的图片调整成统一大小,如分辨率为384*384。
步骤3)中,将调整大小后的原图片划分成固定大小的子图片,每个子图片称作patch,再调整其维度至对于模型的输入大小合适,这样就得到了对每一个patch的编码,即得到了图片嵌入向量。这一过程如图3所示,具体为:
301)以输入(batch,3,384,384),每个patch分辨率为32*32为例,划分为子图片的过程的具体过程:首先,将每张图片切分成12*12个小块,即从(batch,3,32*12,32*12)到(batch,3,12*12,32*32),再将其转换成(batch,12*12,32*32*3),相当于分成了12*12个patch,每个patch的维度是32*32*3。这一过程的实现可通过以下计算:
x=rearrange(img,′b c(hp1)(w p2)→b(hw)(p1 p2 c)′,p1=p,p2=p)
其中,rearrange函数是einops库的算子,p是patch大小,c是通道数,b是batch数,h,w分别是图像的高和宽。
302)划分子图片后,得到图片的嵌入向量,还需对其维度进行调整。这里图片嵌入向量经过一层全连接层调整维度至1024,使之作为模型的输入不会过长。
步骤4)中,使用2维的sincos编码方式,编码公式为:
其中,PE为二维矩阵,行表示子图片,列表示位置向量;pos表示子图片在图片中的位置;dmodel表示位置向量的维度;i表示位置向量的位置。
二维的编码方式,即是将二维位置编码的一半维度用横向的sincos编码表示,另一半维度用纵向的sincos编码表示。编码完毕后,将位置编码向量与上一步的图像嵌入向量连接,即可得到模型的输入向量。
步骤5)中,得到图像嵌入向量和位置向量的和后,将其送入编码器-解码器结构,提取特征到CLS向量,完成分类,重复此过程进行模型训练,此处使用交叉熵损失进行模型训练。训练结束后,向模型中输入处理完毕的图片,经过一次解码获得对应CLS向量,向量中数值最大的一维即图片对应的类别。
本发明提出了一种基于自注意力机制的图像分类方法,能够有效地从图片中提取全局信息,即传统卷积神经网络所提取的图片特征。基于提取的特征,模型能够有效地完成对图片的分类。这种方式通过将图片转换成类似词串向量的形式,用自然语言处理的视角去解决图像问题,验证了自注意力在提取图片特征时对卷积网络的替代能力。与此同时,通过大规模的预训练等手段,也能将如Transformer等自然语言处理领域的先进模型运用到更多图像任务上去,为未来图像领域的研究提供了新的方向。
Claims (6)
1.一种基于自注意力机制的图像分类方法,其特征在于包括以下步骤:
1)构建包含自注意力机制的Transformer模型,修改模型结构,并针对图像分类任务添加分类器单元;
2)处理公开数据集ImageNet,调整原图片至合适大小;
3)将调整后的图片划分成固定大小的子图,连接各子图后进行维度调整,从而组成图片嵌入向量,代表图片对应的“词串”;
4)对调整后的图片使用sincos编码方式进行二维位置编码,得到二维位置编码向量,并将其和图片嵌入向量连接,作为模型的输入;
5)将图片嵌入向量、二维位置编码向量连接后送入Transformer模型,提取图片特征,进行参数调优,训练到收敛为止,最终解码时通过分类器单元将模型输出的向量转换成概率表示,完成图像分类。
2.按权利要求1所述的基于自注意力机制的图像分类方法,其特征在于:步骤1)中,使用Transformer模型结构时,将解码器部分的自注意力计算都替换为与编码器部分相同,并将解码器部分初始输入替换为一个用于分类的向量CLS;
同时进行位置编码计算时,采用二维位置编码,将其与图片嵌入向量和分类向量连接分别作为编码器解码器的输入;针对图像分类任务,在解码器的输出部分连接一个分类头,具体为:
101)编码器部分,由多头自注意力计算和前馈神经网络层FNN组成,用于图像各部分注意力的提取,多头自注意力的计算如下:
headi=Attention(QWi Q,KWI K,VWI V)
MultiHead(Q,K,V)=Concat(head1,…,headh)Wo
其中,Q、K、V为模型的输入向量,headi为第i个头的向量,W为翻译模型参数,Attention(.)为注意力机制函数,Concat(.)为向量连接函数;
前馈神经网络层FNN的计算如下:
FFN(x)=max(0,xW1+b1)W2+b2
其中,x为隐藏层向量,W1、W2、b1、b2为模型的参数,由模型自动学习得到;
102)解码器部分,由两次多头自注意力计算和两层前馈神经网络层FNN组成,编码器的初始输入替换成了一个新的用于图像分类的向量CLS;
103)使用分类头,即经过编码器-解码器输出的向量再经过前馈神经网络层FNN和softmax层进行分类。
3.按权利要求1所述的基于自注意力机制的图像分类方法,其特征在于:步骤2)中,从公开数据集ImageNet中获取训练数据,将训练数据的图片调整成统一大小。
4.按权利要求1所述的基于自注意力机制的图像分类方法,其特征在于:步骤3)中,将调整大小后的原图片划分成固定大小的子图片,每个子图片称作patch,再调整其维度至对于模型的输入大小合适,得到对每一个patch的编码,即图片嵌入向量,具体为:
301)以输入(batch,c,h,w),每个patch分辨率为p*p为例,划分为子图片的过程的具体过程:首先,将每张图片切分成(h/p)*(w/p)个小块,即从(batch,c,p*(h/p),p*(w/p))到(batch,c,(h/p)*(w/p),p*p),再将其转换成(batch,(h/p)*(w/p),p*p*c),相当于分成了(h/p)*(w/p)个patch,每个patch的维度是p*p*c;这一过程的实现可通过以下计算:
x=rearrange(img,′b c(h p1)(w p2)→b(h w)(p1 p2 c)′,p1=p,p2=p)
其中,rearrange函数是einops库的算子,p1、p2是patch大小,c是通道数,b是batch数,h,w分别是图像的高和宽;
302)划分子图片后,得到图片的嵌入向量,并对其维度进行调整,图片嵌入向量经过一层全连接层调整维度至所需长度,使之作为模型的输入不会过长。
6.按权利要求1所述的基于自注意力机制的图像分类方法,其特征在于:步骤5)中,将图片嵌入向量、二维位置编码向量连接后得到输入向量,将其送入编码器-解码器结构,提取特征到CLS向量,将分类头得到的分类结果与真实结果对比,优化模型,重复此过程进行模型训练;训练结束后,模型经过一次解码即可输出对应输入图片的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110723547.4A CN113378973B (zh) | 2021-06-29 | 2021-06-29 | 一种基于自注意力机制的图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110723547.4A CN113378973B (zh) | 2021-06-29 | 2021-06-29 | 一种基于自注意力机制的图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113378973A true CN113378973A (zh) | 2021-09-10 |
CN113378973B CN113378973B (zh) | 2023-08-08 |
Family
ID=77579698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110723547.4A Active CN113378973B (zh) | 2021-06-29 | 2021-06-29 | 一种基于自注意力机制的图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378973B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114066987A (zh) * | 2022-01-12 | 2022-02-18 | 深圳佑驾创新科技有限公司 | 一种相机位姿估计方法、装置、设备及存储介质 |
CN114120048A (zh) * | 2022-01-26 | 2022-03-01 | 中兴通讯股份有限公司 | 图像处理方法、电子设备及计算存储介质 |
CN114170184A (zh) * | 2021-12-08 | 2022-03-11 | 四川启睿克科技有限公司 | 一种基于嵌入特征向量的产品图像异常检测方法及装置 |
CN114627012A (zh) * | 2022-03-09 | 2022-06-14 | 上海应用技术大学 | 基于自动编码器的老照片复原方法 |
CN114782848A (zh) * | 2022-03-10 | 2022-07-22 | 沈阳雅译网络技术有限公司 | 一种应用特征金字塔的图片字幕生成方法 |
CN115578387A (zh) * | 2022-12-06 | 2023-01-06 | 中南大学 | 一种基于多模态的阿尔茨海默症医学图像分类方法及系统 |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6081665A (en) * | 1997-12-19 | 2000-06-27 | Newmonics Inc. | Method for efficient soft real-time execution of portable byte code computer programs |
US10089556B1 (en) * | 2017-06-12 | 2018-10-02 | Konica Minolta Laboratory U.S.A., Inc. | Self-attention deep neural network for action recognition in surveillance videos |
WO2019101720A1 (en) * | 2017-11-22 | 2019-05-31 | Connaught Electronics Ltd. | Methods for scene classification of an image in a driving support system |
US20200097771A1 (en) * | 2018-09-25 | 2020-03-26 | Nec Laboratories America, Inc. | Deep group disentangled embedding and network weight generation for visual inspection |
WO2020061008A1 (en) * | 2018-09-18 | 2020-03-26 | Google Llc | Receptive-field-conforming convolution models for video coding |
US20200104681A1 (en) * | 2018-09-27 | 2020-04-02 | Google Llc | Neural Networks with Area Attention |
CN111046962A (zh) * | 2019-12-16 | 2020-04-21 | 中国人民解放军战略支援部队信息工程大学 | 基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统 |
CN111160050A (zh) * | 2019-12-20 | 2020-05-15 | 沈阳雅译网络技术有限公司 | 一种基于上下文记忆网络的篇章级神经机器翻译方法 |
CN111382582A (zh) * | 2020-01-21 | 2020-07-07 | 沈阳雅译网络技术有限公司 | 一种基于非自回归的神经机器翻译解码加速方法 |
CN111428038A (zh) * | 2020-03-26 | 2020-07-17 | 国网浙江杭州市萧山区供电有限公司 | 基于自注意力机制的电力投诉工单多标签文本分类方法 |
US20200250398A1 (en) * | 2019-02-01 | 2020-08-06 | Owkin Inc. | Systems and methods for image classification |
CN111899210A (zh) * | 2020-03-26 | 2020-11-06 | 中国铁建电气化局集团第二工程有限公司 | 一种基于图像识别的电弧检测方法 |
WO2020233427A1 (zh) * | 2019-05-17 | 2020-11-26 | 北京京东尚科信息技术有限公司 | 目标的特征的确定方法和装置 |
CN112215223A (zh) * | 2020-10-16 | 2021-01-12 | 清华大学 | 基于多元注意力机制的多方向场景文字识别方法及系统 |
CN112508096A (zh) * | 2020-12-08 | 2021-03-16 | 电子科技大学 | 一种基于几何自注意力机制的图像自动标注方法 |
WO2021051503A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
WO2021051593A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN112598024A (zh) * | 2020-12-03 | 2021-04-02 | 天津理工大学 | 一种基于深度多示例学习和自注意力的医学图像分类方法 |
CN112801280A (zh) * | 2021-03-11 | 2021-05-14 | 东南大学 | 视觉深度自适应神经网络的一维卷积位置编码方法 |
US20210166446A1 (en) * | 2019-11-28 | 2021-06-03 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for image reconstruction |
-
2021
- 2021-06-29 CN CN202110723547.4A patent/CN113378973B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6081665A (en) * | 1997-12-19 | 2000-06-27 | Newmonics Inc. | Method for efficient soft real-time execution of portable byte code computer programs |
US10089556B1 (en) * | 2017-06-12 | 2018-10-02 | Konica Minolta Laboratory U.S.A., Inc. | Self-attention deep neural network for action recognition in surveillance videos |
WO2019101720A1 (en) * | 2017-11-22 | 2019-05-31 | Connaught Electronics Ltd. | Methods for scene classification of an image in a driving support system |
WO2020061008A1 (en) * | 2018-09-18 | 2020-03-26 | Google Llc | Receptive-field-conforming convolution models for video coding |
US20200097771A1 (en) * | 2018-09-25 | 2020-03-26 | Nec Laboratories America, Inc. | Deep group disentangled embedding and network weight generation for visual inspection |
US20200104681A1 (en) * | 2018-09-27 | 2020-04-02 | Google Llc | Neural Networks with Area Attention |
US20200250398A1 (en) * | 2019-02-01 | 2020-08-06 | Owkin Inc. | Systems and methods for image classification |
WO2020233427A1 (zh) * | 2019-05-17 | 2020-11-26 | 北京京东尚科信息技术有限公司 | 目标的特征的确定方法和装置 |
WO2021051593A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
WO2021051503A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
US20210166446A1 (en) * | 2019-11-28 | 2021-06-03 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for image reconstruction |
CN111046962A (zh) * | 2019-12-16 | 2020-04-21 | 中国人民解放军战略支援部队信息工程大学 | 基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统 |
CN111160050A (zh) * | 2019-12-20 | 2020-05-15 | 沈阳雅译网络技术有限公司 | 一种基于上下文记忆网络的篇章级神经机器翻译方法 |
CN111382582A (zh) * | 2020-01-21 | 2020-07-07 | 沈阳雅译网络技术有限公司 | 一种基于非自回归的神经机器翻译解码加速方法 |
CN111899210A (zh) * | 2020-03-26 | 2020-11-06 | 中国铁建电气化局集团第二工程有限公司 | 一种基于图像识别的电弧检测方法 |
CN111428038A (zh) * | 2020-03-26 | 2020-07-17 | 国网浙江杭州市萧山区供电有限公司 | 基于自注意力机制的电力投诉工单多标签文本分类方法 |
CN112215223A (zh) * | 2020-10-16 | 2021-01-12 | 清华大学 | 基于多元注意力机制的多方向场景文字识别方法及系统 |
CN112598024A (zh) * | 2020-12-03 | 2021-04-02 | 天津理工大学 | 一种基于深度多示例学习和自注意力的医学图像分类方法 |
CN112508096A (zh) * | 2020-12-08 | 2021-03-16 | 电子科技大学 | 一种基于几何自注意力机制的图像自动标注方法 |
CN112801280A (zh) * | 2021-03-11 | 2021-05-14 | 东南大学 | 视觉深度自适应神经网络的一维卷积位置编码方法 |
Non-Patent Citations (5)
Title |
---|
ALEXEY DOSOVITSKIY: "AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE", ICLR 2021 * |
ASHISH VASWANI 等: "Attention Is All You Need", 31ST CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NIPS 2017) * |
NICOLAS CARION ET AL.: "End-to-End Object Detection with Transformers", ARXIV * |
何凯;冯旭;高圣楠;马希涛;: "基于多尺度特征融合与反复注意力机制的细粒度图像分类算法", 天津大学学报(自然科学与工程技术版) * |
宋宇鹏;边继龙;安翔;张锡英;: "基于注意力机制的DenseNet模型的树种识别应用", 实验室研究与探索 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114170184A (zh) * | 2021-12-08 | 2022-03-11 | 四川启睿克科技有限公司 | 一种基于嵌入特征向量的产品图像异常检测方法及装置 |
CN114066987A (zh) * | 2022-01-12 | 2022-02-18 | 深圳佑驾创新科技有限公司 | 一种相机位姿估计方法、装置、设备及存储介质 |
CN114120048A (zh) * | 2022-01-26 | 2022-03-01 | 中兴通讯股份有限公司 | 图像处理方法、电子设备及计算存储介质 |
CN114120048B (zh) * | 2022-01-26 | 2022-05-13 | 中兴通讯股份有限公司 | 图像处理方法、电子设备及计算存储介质 |
CN114627012A (zh) * | 2022-03-09 | 2022-06-14 | 上海应用技术大学 | 基于自动编码器的老照片复原方法 |
CN114627012B (zh) * | 2022-03-09 | 2024-04-19 | 上海应用技术大学 | 基于自动编码器的老照片复原方法 |
CN114782848A (zh) * | 2022-03-10 | 2022-07-22 | 沈阳雅译网络技术有限公司 | 一种应用特征金字塔的图片字幕生成方法 |
CN114782848B (zh) * | 2022-03-10 | 2024-03-26 | 沈阳雅译网络技术有限公司 | 一种应用特征金字塔的图片字幕生成方法 |
CN115578387A (zh) * | 2022-12-06 | 2023-01-06 | 中南大学 | 一种基于多模态的阿尔茨海默症医学图像分类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113378973B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378973B (zh) | 一种基于自注意力机制的图像分类方法 | |
CN109543745B (zh) | 基于条件对抗自编码网络的特征学习方法及图像识别方法 | |
CN111144448B (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
CN111798369B (zh) | 一种基于循环条件生成对抗网络的人脸衰老图像合成方法 | |
WO2022237027A1 (en) | License plate classification method, license plate classification apparatus, and computer-readable storage medium | |
CN114757864B (zh) | 一种基于多尺度特征解耦的多层级细粒度图像生成方法 | |
CN115311720A (zh) | 一种基于Transformer的deepfake生成方法 | |
CN112507800A (zh) | 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法 | |
CN117173219A (zh) | 一种基于可提示的分割模型的视频目标跟踪方法 | |
CN117314808A (zh) | 一种结合Transformer与CNN双编码器的红外与可见光图像融合方法 | |
Chen et al. | Multi-stage degradation homogenization for super-resolution of face images with extreme degradations | |
CN115546236B (zh) | 基于小波变换的图像分割方法及装置 | |
CN111552817A (zh) | 一种电力科技成果知识图谱补全方法 | |
CN111667006A (zh) | 一种基于AttGan模型生成家族字体的方法 | |
CN116403239A (zh) | 基于Transformer时空特征增强型的人体姿态估计方法 | |
CN114742075A (zh) | 一种基于预训练的多模态机器翻译方法 | |
Ren | The advance of generative model and variational autoencoder | |
Wu et al. | Sketchscene: Scene sketch to image generation with diffusion models | |
CN108305219A (zh) | 一种基于不相关稀疏字典的图像去噪方法 | |
Huang | ViT-r50 GAN: Vision transformers hybrid model based generative adversarial networks for image generation | |
CN114782848B (zh) | 一种应用特征金字塔的图片字幕生成方法 | |
Kim et al. | EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning | |
Turja et al. | Shapes2Toon: Generating Cartoon Characters from Simple Geometric Shapes | |
Luo et al. | Super-resolving tiny faces with face feature vectors | |
CN117710986B (zh) | 一种基于掩码的交互式增强图像文本识别的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A self attention based image classification method Granted publication date: 20230808 Pledgee: China Construction Bank Shenyang Hunnan sub branch Pledgor: SHENYANG YAYI NETWORK TECHNOLOGY CO.,LTD. Registration number: Y2024210000102 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |