CN111881957B - 基于信息导向注意力网络的图像识别方法、系统及装置 - Google Patents

基于信息导向注意力网络的图像识别方法、系统及装置 Download PDF

Info

Publication number
CN111881957B
CN111881957B CN202010683490.5A CN202010683490A CN111881957B CN 111881957 B CN111881957 B CN 111881957B CN 202010683490 A CN202010683490 A CN 202010683490A CN 111881957 B CN111881957 B CN 111881957B
Authority
CN
China
Prior art keywords
information
prototype
feature vector
image
attention network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010683490.5A
Other languages
English (en)
Other versions
CN111881957A (zh
Inventor
谭铁牛
王威
陈文弢
司晨阳
崔萌萌
廖志军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangxi Electric Power Co ltd
Institute of Automation of Chinese Academy of Science
Original Assignee
State Grid Jiangxi Electric Power Co ltd
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangxi Electric Power Co ltd, Institute of Automation of Chinese Academy of Science filed Critical State Grid Jiangxi Electric Power Co ltd
Priority to CN202010683490.5A priority Critical patent/CN111881957B/zh
Publication of CN111881957A publication Critical patent/CN111881957A/zh
Application granted granted Critical
Publication of CN111881957B publication Critical patent/CN111881957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于领域,具体涉及了一种基于信息导向注意力网络的图像识别方法,旨在解决的问题。本发明包括:获取输入图像,通过信息导向的注意力网络计算输入图像的特征向量,计算特征向量和信息导向的注意力网络中的原型表征之间的距离,选取特征向量距离最近的类别得到图像的分类结果。本发明解决了现有的图像识别技术中训练神经网络严重依赖数据规模的缺陷,通过将标注数据和未标注数据组织在一起并对他们之间的关系进行建模,可以抽取更具代表性的特征,解决了现有图像识别技术所用人工神经网络需要大量有标注的训练数据才能满足使用性能需求的缺陷。

Description

基于信息导向注意力网络的图像识别方法、系统及装置
技术领域
本发明属于计算机视觉和图像识别领域,具体涉及了一种基于信息导向注意力网络的图像识别方法、系统及装置。
背景技术
在大数据的推动下,深度学习技术在计算机视觉、自然语言处理等领域都有了突飞猛进的发展,然而,在自动驾驶等较难获取大量标注数据的领域,严重依赖数据规模的特点阻碍了深度学习在低数据任务上的应用。众所周知,人类是可以通过简单的举例说明快速学习新概念的,受这一事实的启发,现在的研究者们更多的关注小样本学习技术的发展。
我们提出了基于半监督学习的技术方案,可以充分利用未标注数据来进行小样本学习,通过图结构将标注数据和未标注数据组织在一起并对他们之间的关系进行建模,形成了信息导向注意力网络(Message-guided Attention Network,MAN)。基于学习到的关系,可以抽取更具代表性的特征,并借助于注意力机制促进图节点之间的信息传输,最后,通过计算预测对象和关系网络信息表征之间的欧氏距离进行分类。在miniImageNet和tieredImageNet数据集上的实验结果表明,MAN网络性能超过其他基于半监督学习的小样本学习方法。
发明内容
为了解决现有技术中的上述问题,即现有的图像识别技术中训练神经网络严重依赖数据规模的缺陷的问题,本发明提供了一种基于信息导向注意力网络的图像识别方法,所述图像识别方法包括:
步骤S10,获取输入图像;
步骤S20,通过预训练好的信息导向注意力网络,计算所述输入图像的第一特征向量;
步骤S30,计算所述第一特征向量和预训练好的信息导向注意力网络中第k类别的第一原型表征之间的距离d,当所述距离d取最小值时的第一原型表征为第k类别的第一原型表征时,所述输入图像归属于第k类别;
其中,所述信息导向注意力网络通过半监督小样本学习方式训练。
进一步地,所述信息导向注意力网络,其构建和训练方法为:
步骤B10,获取训练图像集,所述训练图像集包括有标注数据集S、无标注数据集R和查询集Q;
步骤B20,基于所述有标注数据集S和无标注数据集R,计算第二原型表征并构建原型网络;
步骤B30,基于所述查询集Q,计算与所述第二原型表征对应的第二特征向量;
步骤B40,计算所述第二特征向量在对应的第二原型表征的概率分布;
步骤B50,通过随机梯度下降法反复迭代调整学习参数fΦ使全局损失函数达到最小值,得到预训练好的信息导向注意力网络。
进一步地,步骤B20包括:
步骤B201,基于所述有标注数据集S和无标注数据集R,通过第一卷积神经网络CNN1获取第三特征向量v:{vi,vj……};
步骤B202,基于所述第三特征向量,构建第一关系矩阵W:
Figure BDA0002585524870000031
其中,Wij表示vi和vj属于同一个类别的概率;d(vi,v)=fψ(|vi-vj|),fψ为输出维度为1的第一多层感知机,σ为尺度参数;
步骤B203,通过K近邻算法保留第一关系矩阵W每一行的h个最大值,其余元素置0;
步骤B204,基于所述第一关系矩阵W,通过拉普拉斯算法获得归一化矩阵
Figure BDA0002585524870000032
Figure BDA0002585524870000033
其中,D为对角矩阵,其第n行的对角元素为所述第一关系矩阵W第n行元素的和;
步骤B205,基于所述有标注数据集S,通过第二卷积神经网络CNN2获取每一张图像的第四特征向量x:{x11,……,xij,……},对节点i处的第四特征向量{xij}取平均值获得节点t处的全局特征
Figure BDA0002585524870000034
Figure BDA0002585524870000035
步骤B206,将所述全局特征
Figure BDA0002585524870000036
与所述归一化矩阵
Figure BDA0002585524870000037
对应位置的元素
Figure BDA0002585524870000038
相乘,获得节点t处的信息表征
Figure BDA0002585524870000039
Figure BDA00025855248700000310
其中,N(t)为节点t处相邻节点的集合;
步骤B207,基于节点t处的第四特征向量xtj和所述节点t处的信息表征
Figure BDA00025855248700000311
通过线性相加的方法,计算空间位置j处的语义相关性得分αtj,节点t处的相关性得分αt:{αtj}为:
Figure BDA00025855248700000312
其中,
Figure BDA0002585524870000041
Figure BDA0002585524870000042
Figure BDA0002585524870000043
和Watt为三个变换矩阵,fθ为第二多层感知机;
步骤B208,基于所述相关性得分αtj,筛选所述第四特征向量{xtj},获得筛选后的全局特征
Figure BDA0002585524870000044
为:
Figure BDA0002585524870000045
步骤B209,将节点t处的全局特征
Figure BDA0002585524870000046
替换为所述筛选后全局特征
Figure BDA0002585524870000047
并将所述筛选后的全局
Figure BDA0002585524870000048
与所述归一化矩阵
Figure BDA0002585524870000049
对应位置的元素
Figure BDA00025855248700000410
相乘,获得筛选后的信息表征
Figure BDA00025855248700000411
Figure BDA00025855248700000412
步骤B210,基于所述全局特征
Figure BDA00025855248700000413
信息表征
Figure BDA00025855248700000414
筛选后的全局特征
Figure BDA00025855248700000415
和筛选后的信息表征
Figure BDA00025855248700000416
通过原型网络学习函数fΦ分别计算类别k的第二原型表征;
所述第二原型表征的通用表达为:
Figure BDA00025855248700000417
其中,所述(xi,yi)中xi指在支撑集中的第i个图像,yi为第i个图像的标签;
根据所述通用表达,计算第二原型表征:
Figure BDA00025855248700000418
Figure BDA00025855248700000419
Figure BDA00025855248700000420
Figure BDA0002585524870000051
基于所述第二原型表征构建所述原型网络。
进一步地,步骤B30包括:
通过步骤B201-B210的方法计算所述查询集Q的第二特征向量,所述第二特征向量包括查询图像全局特征
Figure BDA0002585524870000052
查询图像信息表征
Figure BDA0002585524870000053
筛选后查询图像全局特征
Figure BDA0002585524870000054
和筛选后查询图像信息表征
Figure BDA0002585524870000055
进一步地,所述概率分布为:
Figure BDA0002585524870000056
其中,x*表示样本集,y*为样本序号,fΦ为学习函数,d表示距离。
进一步地,所述全局损失函数为:
Figure BDA0002585524870000057
其中,J(x*)=-logpΦ(y*=k|x*)为交叉熵损失函数,β表示各个表征的权重系数。
进一步地,所述第一原型表征为
Figure BDA0002585524870000058
本发明的另一方面,提出了一种基于信息导向注意力网络的图像识别系统,所述识别系统包括图像获取模块100、特征提取模块200和归类模块300;
所述图像获取模块100,用于获取输入图像;
所述特征提取模块200,用于通过预训练好的信息导向注意力网络,计算所述输入图像的第一特征向量;
所述归类模块300,用于计算所述第一特征向量和预训练好的信息导向注意力网络中第h类别的第一原型表征之间的距离d,当所述距离d取最小值时的第一原型表征为第k类别的第一原型表征时,所述输入图像归属于第k类别;
其中,所述信息导向注意力网络通过半监督小样本学习方式训练。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于信息导向注意力网络的图像识别方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于信息导向注意力网络的图像识别方法。
本发明的有益效果:
(1)本发明基于信息导向注意力网络的图像识别方法,通过小样本和半监督式训练基于信息导向地注意力网络解决了现有的图像识别技术中训练神经网络严重依赖数据规模的缺陷。
(2)本发明基于信息导向注意力网络的图像识别方法,通过将标注数据和未标注数据组织在一起并对他们之间的关系进行建模,可以抽取更具代表性的特征,解决了现有图像识别技术所用人工神经网络需要大量有标注的训练数据才能满足使用性能需求的缺陷。
(3)本发明基于信息导向注意力网络的图像识别方法,解决了现有技术中通过小样本学习得到的图像识别网络识别效果不佳,辨识度低的问题,提高了图像识别的准确性,更好地提取图像的特征。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于信息导向注意力网络的图像识别方法的流程示意图;
图2是本发明基于信息导向注意力网络的图像识别方法实施例中信息导向注意力网络(MAN)模型示意图;
图3是本发明基于信息导向注意力网络的图像识别方法注意力机制的可视化结果示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供一种基于信息导向注意力网络的图像识别方法,本方法包括:
步骤S10,获取输入图像;
步骤S20,通过预训练好的信息导向注意力网络,计算所述输入图像的第一特征向量;
步骤S30,计算所述第一特征向量和预训练好的信息导向注意力网络中第k类别的第一原型表征之间的距离d,当所述距离d小于预设的第一阈值时,所述输入图像归属于第k类别;
其中,所述信息导向注意力网络通过半监督小样本学习方式训练。
Few-shot learning:小样本学习的目标是在只有少量标注数据的基础上,训练一个用以识别未见过类别的分类器。few-shot的训练集Ctrain中包含了很多的类别,每个类别中有多个样本。在训练阶段,会从训练集N个类别每类抽取K个样本
Figure BDA0002585524870000082
Figure BDA0002585524870000083
作为支撑集(support set),构建一个meta-task;再从训练集N个类别剩余数据中每类抽取T个的样本作为模型的查询集queryset,
Figure BDA0002585524870000081
即要求模型从N*K个数据中学会如何区分这N个类别,这样的任务被称为N-way K-shot问题。由于支撑集缺乏足够多的标注数据,训练一个能准确预测未知类别的模型是非常困难的,我们也采用半监督学习的方式利用未标注的数据来解决低数据任务。
半监督小样本学习训练集中包含了标注数据S和未标注数据R,半监督小样本学习的目的就是充分利用未标注数据R来对query set中的图片类别进行预测。
为了更清晰地对本发明的一种基于信息导向注意力网络的图像识别方法,如图1本发明基于信息导向注意力网络的图像识别方法的流程示意图所示,包括步骤S10-步骤S30;
步骤S10,获取输入图像;
步骤S20,通过预训练好的信息导向注意力网络,计算所述输入图像的第一特征向量;
所述信息导向注意力网络,其构建和训练方法为:
步骤B10,获取训练图像集,所述训练图像集包括有标注数据集S、无标注数据集R和查询集Q;
步骤B20,基于所述有标注数据集S和无标注数据集R,计算第二原型表征并构建原型网络;
原型网络是一个同类样本相距很近、不同类别相距较远一个矢量空间,每个类别的原型代表为这个类别样本特征的均值,样本分类问题被视为计算样本和每个类别原型表征的问题。
原型网络学习函数
Figure BDA0002585524870000091
通过公式(1)计算每个类别的原型表征:
Figure BDA0002585524870000092
从预测集取出样本x*,建立距离计算函数d,原型网络通过计算x*和各类别原型表征的距离分布判断类别归属,并通过最小化损失函数J优化函数f的参数
Figure BDA0002585524870000093
最小化损失函数J如公式(2)和(3)所示:
Figure BDA0002585524870000094
J(x*)=-logpΦ(y*=k|x*) (3)
原型网络的设计目的就是学习一个有效的函数
Figure BDA0002585524870000095
可以对类别进行准确的原型表征,并且确保在未知样本出现时,能与同类别的原型表征之间距离最小。
在本实施例中,将所述有标注数据集S和无标注数据集R作为支撑集(supportset)。
在本实施例中,如图2本发明基于信息导向注意力网络的图像识别方法实施例中信息导向注意力网络(MAN)模型示意图所示,步骤B20包括步骤B201-步骤B210;
步骤B201,基于所述有标注数据集S和无标注数据集R,通过第一卷积神经网络CNN1获取第三特征向量v:{vi,vj……};
步骤B202,基于所述第三特征向量,构建第一关系矩阵W如公式(4)所示:
Figure BDA0002585524870000101
其中,Wij表示vi和vj属于同一个类别的概率;d(vi,v)=fψ(|vi-vj|),fψ为输出维度为1的第一多层感知机,σ为尺度参数;通过矩阵W来构建图形结构
本实施例中,基于所述矩阵W来构建图形结构,表征标注数据及S和未标注数据集R之间的关系。
步骤B203,通过K近邻算法保留第一关系矩阵W每一行的h个最大值,其余元素置0;可以使W构建的图形结构更加紧凑。
步骤B204,基于所述第一关系矩阵W,通过拉普拉斯算法获得归一化矩阵
Figure BDA0002585524870000109
如公式(5)所示:
Figure BDA0002585524870000102
其中,D为对角矩阵,其第n行的对角元素为所述第一关系矩阵W第n行元素的和;
步骤B205,基于所述有标注数据集S,通过第二卷积神经网络CNN2获取每一张图像的第四特征向量x:{x11,……,xij,……},对节点i处的第四特征向量{xij}取平均值获得节点t处的全局特征
Figure BDA0002585524870000103
如公式(6)所示:
Figure BDA0002585524870000104
步骤B206,将所述全局特征
Figure BDA0002585524870000105
与所述归一化矩阵
Figure BDA0002585524870000106
对应位置的元素
Figure BDA0002585524870000107
相乘,获得节点t处的信息表征
Figure BDA0002585524870000108
如公式(7)所示:
Figure BDA0002585524870000111
其中,N(t)为节点t处相邻节点的集合;
Figure BDA0002585524870000112
经过图形结构信息传递,包含了有标注数据集S和无标注数据集R的信息表征,可以看作t节点的第四特征向量{xij}做基于注意力的类别相关性表征。
步骤B207,基于节点t处的第四特征向量xtj和所述节点t处的信息表征
Figure BDA0002585524870000113
通过线性相加的方法,计算空间位置j处的语义相关性得分αtj,节点t处的相关性得分αt:{αtj}如公式(8)所示:
Figure BDA0002585524870000114
其中,
Figure BDA0002585524870000115
Figure BDA0002585524870000116
Figure BDA0002585524870000117
和Watt为三个变换矩阵,fθ为第二多层感知机;
步骤B208,基于所述相关性得分αtj,筛选所述第四特征向量{xtj},获得筛选后的全局特征
Figure BDA0002585524870000118
如公式(9)所示:
Figure BDA0002585524870000119
步骤B209,将节点t处的全局特征
Figure BDA00025855248700001110
替换为所述筛选后全局特征
Figure BDA00025855248700001111
并将所述筛选后的全局
Figure BDA00025855248700001112
与所述归一化矩阵
Figure BDA00025855248700001113
对应位置的元素
Figure BDA00025855248700001114
相乘,获得筛选后的信息表征
Figure BDA00025855248700001115
如公式(10)所示:
Figure BDA00025855248700001116
步骤B210,基于所述全局特征
Figure BDA00025855248700001117
信息表征
Figure BDA00025855248700001118
筛选后的全局特征
Figure BDA0002585524870000121
和筛选后的信息表征
Figure BDA0002585524870000122
通过原型网络学习函数fΦ分别计算类别k的第二原型表征;
所述第二原型表征的通用表达如公式(11)所示:
Figure BDA0002585524870000123
其中,所述(xi,yi)中xi指在支撑集中的第i个图像,yi为第i个图像的标签;
根据所述通用表达,计算第二原型表征如公式(12)-(15)所示:
Figure BDA0002585524870000124
Figure BDA0002585524870000125
Figure BDA0002585524870000126
Figure BDA0002585524870000127
基于所述第二原型表征构建所述原型网络。
步骤B30,基于所述查询集Q,计算与所述第二原型表征对应的第二特征向量;
在一些优选的实施方式中,步骤B30包括:
通过步骤B201-B210的方法计算所述查询集Q的第二特征向量,所述第二特征向量包括查询图像全局特征
Figure BDA0002585524870000131
查询图像信息表征
Figure BDA0002585524870000132
筛选后查询图像全局特征
Figure BDA0002585524870000133
和筛选后查询图像信息表征
Figure BDA0002585524870000134
其中,第一、第二特征向量包含了图像的全局特征、信息表征、筛选后的全局特征和筛选后的信息表征,而第三、第四特征向量仅包含了训练图像集中图片的特征。
步骤B40,计算所述第二特征向量在对应的第二原型表征的概率分布;
在一些优选的实施方式中,概率分布如公式(16)所示:
Figure BDA0002585524870000135
其中,x*表示样本集,y*为样本序号,fΦ为学习函数,d表示距离。
步骤B50,通过随机梯度下降法反复迭代调整学习参数fΦ使全局损失函数达到最小值,得到预训练好的信息导向注意力网络。
所述全局损失函数如公式(17)所示:
Figure BDA0002585524870000136
其中,J(x*)=-logpΦ(y*=k|x*)为交叉熵损失函数,β表示各个表征的权重系数。
步骤S30,计算所述第一特征向量和预训练好的信息导向注意力网络中各类别的第一原型表征之间的距离d,当所述距离d取最小值时的第一原型表征为第k类别的第一原型表征时,所述输入图像归属于第k类别;
其中,所述信息导向注意力网络通过半监督小样本学习方式训练。在一些优选的实施方式中,所述第一原型表征为
Figure BDA0002585524870000141
Figure BDA0002585524870000142
接下来,借助实验结果来验证本发明的有效性。实验在两个个标准的公开数据库上进行,第一个为miniImageNet包括ILSVRC-12的100个类别、每个类别600张图片,我们采用64个类别作为训练集,16个类别作为交叉验证集、20个类别作为测试集。
tieredImageNet包括ILSVRC-12的608个类别、每个类别1281张图片,根据ImageNet数据集语义等级的划分,这些累呗又被分为34个更宽泛的类别,每个类别包括10~30个子类别,我们用20个类别作为训练集,6个类别作为交叉验证集、8个类别作为测试集。
对于支撑集N-way K-shot的采样方式,我们首先在训练集Ctrain中选取N个类别,从有标注数据S中每一类采用K张图片,再从未标注数据R中每一类采用M张图片。并且,我们从训练集Ctrain剩余类别中选取H个类别、每个类别M张图片作为干扰数据。这样一共有MN+MH张未标注图片。对于查询集,也是从N个类别中选择固定数量的图片。测试时候,从测试集Ctest选取图片的方式和以上保持一致。在本次实验中,对于5-way 1-shot(H=5,K=1)和5-way 5-shot(H=5,K=5)学习方式,均采用训练阶段H=5、M=5,测试阶段H=5,M=20。
表1展示了在miniImageNet数据集上,是否加入干扰数据对算法性能的影响,和其他算法相比,MAN在多种情况下均展现了优越性。表2展示了MAN算法在tieredImageNet的性能表现,两个数据集上和其他算法的对比说明我们信息导向注意力网络可以有效的提取语义信息、形成更准确的原型网络。
表1在miniImageNet数据库5-way 1/5-shot分类结果
Figure BDA0002585524870000151
表格2在tieredImageNet数据库5-way 1/5-shot分类结果
Figure BDA0002585524870000152
表格3在miniImageNet数据库5-way 1/5-shot消融实验结果(SS:半监督,MA:信息导引注意力机制,UE:非共享CNN编码器,MR:信息表征)
Figure BDA0002585524870000153
表3展示了全监督原型网络(supervised)、全监督与弱注意力网络(Supervised+softattention)、半监督信息导向注意力网络(SS+MA)、采用不同CNN编码器的半监督信息导向注意力网络(SS+MA+UE)以及该网络加入信息表征模块的表现(SS+MA+UE+MR),以上消融实验证明每一模块的有效性。
图3本发明基于信息导向注意力网络的图像识别方法注意力机制的可视化结果示意图展示了通过本发明提出的图像识别方法可精确识别出各种类别的图像。
本发明第二实施例的一种基于信息导向注意力网络的图像识别系统,其特征在于,所述识别系统包括图像获取模块100、特征提取模块200和归类模块300;
所述图像获取模块100,用于获取输入图像;
所述特征提取模块200,用于通过预训练好的信息导向注意力网络,计算所述输入图像的第一特征向量;
所述归类模块300,用于计算所述第一特征向量和预训练好的信息导向注意力网络中第h类别的第一原型表征之间的距离d,当所述距离d取最小值时的第一原型表征为第k类别的第一原型表征时,所述输入图像归属于第k类别;
其中,所述信息导向注意力网络通过半监督小样本学习方式训练。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的一种基于信息导向注意力网络的图像识别系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于信息导向注意力网络的图像识别方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于信息导向注意力网络的图像识别方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (8)

1.一种基于信息导向注意力网络的图像识别方法,其特征在于,所述识别方法包括:
步骤S10,获取输入图像;
步骤S20,通过预训练好的信息导向注意力网络,计算所述输入图像的第一特征向量;
步骤S30,计算所述第一特征向量和预训练好的信息导向注意力网络中各类别的第一原型表征之间的距离d,当所述距离d取最小值时的第一原型表征为第k类别的第一原型表征时,所述输入图像归属于第k类别;
其中,所述信息导向注意力网络通过半监督小样本学习方式训练;
所述信息导向注意力网络,其构建和训练方法为:
步骤B10,获取训练图像集,所述训练图像集包括有标注数据集S、无标注数据集R和查询集Q;
步骤B20,基于所述有标注数据集S和无标注数据集R,计算第二原型表征并构建原型网络;
步骤B30,基于所述查询集Q,计算与所述第二原型表征对应的第二特征向量;
步骤B40,计算所述第二特征向量在对应的第二原型表征的概率分布;
所述概率分布pΦ为:
Figure FDA0003785121620000011
其中,x*表示样本集,y*为样本标签,fΦ为学习函数,d表示距离,ck为第二原型表征的通用表达,k表示类别k;
步骤B50,通过随机梯度下降法反复迭代调整学习参数fΦ使全局损失函数达到最小值,得到预训练好的信息导向注意力网络。
2.根据权利要求1所述的基于信息导向注意力网络的图像识别方法,其特征在于,步骤B20包括:
步骤B201,基于所述有标注数据集S和无标注数据集R,通过第一卷积神经网络CNN1获取第三特征向量v:{vi,vj......};
步骤B202,基于所述第三特征向量,构建第一关系矩阵W:
Figure FDA0003785121620000021
其中,Wij表示vi和vj属于同一个类别的概率;d(vi,vj )=fψ(|vi-vj|),fψ为输出维度为1的第一多层感知机,σ为尺度参数;
步骤B203,通过K近邻算法保留第一关系矩阵W每一行的h个最大值,其余元素置0;
步骤B204,基于所述第一关系矩阵W,通过拉普拉斯算法获得归一化矩阵
Figure FDA0003785121620000022
Figure FDA0003785121620000023
其中,D为对角矩阵,其第n行的对角元素为所述第一关系矩阵W第n行元素的和;
步骤B205,基于所述有标注数据集S,通过第二卷积神经网络CNN2获取每一张图像的第四特征向量x:{x11,......,xij,......},对节点i处的第四特征向量{xij}取平均值获得节点t处的全局特征
Figure FDA00037851216200000210
Figure FDA0003785121620000024
步骤B206,将所述全局特征
Figure FDA0003785121620000025
与所述归一化矩阵
Figure FDA0003785121620000026
对应位置的元素
Figure FDA0003785121620000027
相乘,获得节点t处的信息表征
Figure FDA0003785121620000028
Figure FDA0003785121620000029
其中,N(t)为节点t处相邻节点的集合;
步骤B207,基于节点t处的第四特征向量xtj和所述节点t处的信息表征
Figure FDA0003785121620000031
通过线性相加的方法,计算空间位置j处的语义相关性得分αtj,节点t处的相关性得分αt:{αtj}为:
Figure FDA0003785121620000032
其中,
Figure FDA0003785121620000033
和Watt为三个变换矩阵,fθ为第二多层感知机;
步骤B208,基于所述相关性得分αtj,筛选所述第四特征向量{xtj},获得筛选后的全局特征
Figure FDA0003785121620000034
为:
Figure FDA0003785121620000035
步骤B209,将节点t处的全局特征
Figure FDA0003785121620000036
替换为所述筛选后全局特征
Figure FDA0003785121620000037
并将所述筛选后的全局
Figure FDA0003785121620000038
与所述归一化矩阵
Figure FDA0003785121620000039
对应位置的元素
Figure FDA00037851216200000310
相乘,获得筛选后的信息表征
Figure FDA00037851216200000311
Figure FDA00037851216200000312
步骤B210,基于所述全局特征
Figure FDA00037851216200000313
信息表征
Figure FDA00037851216200000314
筛选后的全局特征
Figure FDA00037851216200000315
和筛选后的信息表征
Figure FDA00037851216200000316
通过原型网络学习函数fΦ分别计算类别k的第二原型表征;
所述第二原型表征的通用表达为:
Figure FDA00037851216200000317
其中,所述(xi,yi)中xi指在支撑集中的第i个图像,yi为第i个图像的标签;
根据所述通用表达,计算第二原型表征:
Figure FDA0003785121620000041
Figure FDA0003785121620000042
Figure FDA0003785121620000043
Figure FDA0003785121620000044
基于所述第二原型表征构建所述原型网络。
3.根据权利要求2所述的基于信息导向注意力网络的图像识别方法,其特征在于,步骤B30包括:
通过步骤B201-B210的方法计算所述查询集Q的第二特征向量,所述第二特征向量包括查询图像全局特征
Figure FDA0003785121620000045
查询图像信息表征
Figure FDA0003785121620000046
筛选后查询图像全局特征
Figure FDA0003785121620000047
和筛选后查询图像信息表征
Figure FDA0003785121620000048
4.根据权利要求3所述的基于信息导向注意力网络的图像识别方法,其特征在于,所述全局损失函数为:
Figure FDA0003785121620000049
其中,J(x*)=-logpΦ(y*=k|x*)为交叉熵损失函数,β表示各个表征的权重系数。
5.根据权利要求2所述的基于信息导向注意力网络的图像识别方法,其特征在于,所述第一原型表征为
Figure FDA00037851216200000410
6.一种基于信息导向注意力网络的图像识别系统,其特征在于,所述识别系统包括图像获取模块100、特征提取模块200和归类模块300;
所述图像获取模块100,用于获取输入图像;
所述特征提取模块200,用于通过预训练好的信息导向注意力网络,计算所述输入图像的第一特征向量;
所述归类模块300,用于计算所述第一特征向量和预训练好的信息导向注意力网络中第h类别的第一原型表征之间的距离d,当所述距离d取最小值时的第一原型表征为第k类别的第一原型表征时,所述输入图像归属于第k类别;
其中,所述信息导向注意力网络通过半监督小样本学习方式训练;
所述信息导向注意力网络,其构建和训练方法为:
步骤B10,获取训练图像集,所述训练图像集包括有标注数据集S、无标注数据集R和查询集Q;
步骤B20,基于所述有标注数据集S和无标注数据集R,计算第二原型表征并构建原型网络;
步骤B30,基于所述查询集Q,计算与所述第二原型表征对应的第二特征向量;
步骤B40,计算所述第二特征向量在对应的第二原型表征的概率分布;
所述概率分布pΦ为:
Figure FDA0003785121620000051
其中,x*表示样本集,y*为样本标签,fΦ为学习函数,d表示距离,ck为第二原型表征的通用表达,k表示类别k;
步骤B50,通过随机梯度下降法反复迭代调整学习参数fΦ使全局损失函数达到最小值,得到预训练好的信息导向注意力网络。
7.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-5任一项所述的基于信息导向注意力网络的图像识别方法。
8.一种处理装置,包括处理器,适于执行各条程序;以及存储装置,适于存储多条程序;其特征在于,所述程序适于由处理器加载并执行以实现:权利要求1-5任一项所述的基于信息导向注意力网络的图像识别方法。
CN202010683490.5A 2020-07-15 2020-07-15 基于信息导向注意力网络的图像识别方法、系统及装置 Active CN111881957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010683490.5A CN111881957B (zh) 2020-07-15 2020-07-15 基于信息导向注意力网络的图像识别方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010683490.5A CN111881957B (zh) 2020-07-15 2020-07-15 基于信息导向注意力网络的图像识别方法、系统及装置

Publications (2)

Publication Number Publication Date
CN111881957A CN111881957A (zh) 2020-11-03
CN111881957B true CN111881957B (zh) 2022-09-23

Family

ID=73154792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010683490.5A Active CN111881957B (zh) 2020-07-15 2020-07-15 基于信息导向注意力网络的图像识别方法、系统及装置

Country Status (1)

Country Link
CN (1) CN111881957B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632350B (zh) * 2020-12-07 2023-12-05 肇庆学院 一种基于在线教育大数据的深度学习样本标注方法及系统
CN112989932A (zh) * 2021-02-05 2021-06-18 北京林业大学 基于改进原型网络的少样本森林火灾烟雾识别方法及装置
CN112950606B (zh) * 2021-03-15 2023-04-07 重庆邮电大学 一种基于小样本的手机屏幕缺陷分割方法
CN113408605B (zh) * 2021-06-16 2023-06-16 西安电子科技大学 基于小样本学习的高光谱图像半监督分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800811A (zh) * 2019-01-24 2019-05-24 吉林大学 一种基于深度学习的小样本图像识别方法
CN110020682A (zh) * 2019-03-29 2019-07-16 北京工商大学 一种基于小样本学习的注意力机制关系对比网络模型方法
CN111191718A (zh) * 2019-12-30 2020-05-22 西安电子科技大学 基于图注意力网络的小样本sar目标识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800811A (zh) * 2019-01-24 2019-05-24 吉林大学 一种基于深度学习的小样本图像识别方法
CN110020682A (zh) * 2019-03-29 2019-07-16 北京工商大学 一种基于小样本学习的注意力机制关系对比网络模型方法
CN111191718A (zh) * 2019-12-30 2020-05-22 西安电子科技大学 基于图注意力网络的小样本sar目标识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
An attention enhanced graph convolutional lstm network for skeleton-based action recognition;Chenyang Si等;《Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20191231;第1227-1236页 *
Attentive Graph Neural Networks for Few-Shot Learning;Hao Cheng等;《arXiv:2007.06878v1》;20200714;第1-13页 *
Attribute-Guided Attention for Referring Expression Generation and Comprehension;Jingyu Liu等;《IEEE TRANSACTIONS ON IMAGE PROCESSING》;20200331;第5244-5258页 *
基于原型网络的小样本图像识别方法;樊笛等;《计算机与现代化》;20200315(第03期);第107-111页 *

Also Published As

Publication number Publication date
CN111881957A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN111881957B (zh) 基于信息导向注意力网络的图像识别方法、系统及装置
JP5749279B2 (ja) アイテム関連付けのための結合埋込
CN113239214B (zh) 基于有监督对比的跨模态检索方法、系统及设备
CN110633366B (zh) 一种短文本分类方法、装置和存储介质
Bochinski et al. Deep active learning for in situ plankton classification
CN113190699A (zh) 一种基于类别级语义哈希的遥感图像检索方法及装置
CN111783754B (zh) 基于部位上下文的人体属性图像分类方法、系统和装置
KR102222564B1 (ko) 인공지능 기반의 유사 디자인 검색 장치
US11354567B2 (en) Systems and methods for classifying data sets using corresponding neural networks
Adnan et al. A survey and analysis on image annotation
CN115471739A (zh) 基于自监督对比学习的跨域遥感场景分类与检索方法
CN111950646A (zh) 电磁图像的层次化知识模型构建方法及目标识别方法
Tian et al. Automatic image annotation with real-world community contributed data set
CN116630694A (zh) 一种偏多标记图像的目标分类方法、系统及电子设备
Li et al. Do we really need more training data for object localization
US11875250B1 (en) Deep neural networks with semantically weighted loss functions
JP7214822B1 (ja) Cam基盤の弱教師あり学習物体探知装置及び方法
Mousavi et al. Collaborative learning of semi-supervised clustering and classification for labeling uncurated data
CN114913402A (zh) 一种深度学习模型的融合方法、装置
CN114627312A (zh) 零样本图像分类方法、系统、设备及存储介质
CN111723301B (zh) 基于层次化主题偏好语义矩阵的关注关系识别及标注方法
CN110633363B (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法
Satya Kumar et al. Improved content based image retrieval process based on deep convolutional neural network and salp swarm algorithm
Jiang et al. Learning from noisy labels with noise modeling network
Choudhury Automated Identification of Painters Over WikiArt Image Data Using Machine Learning Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant