CN112508096B - 一种基于几何自注意力机制的图像自动标注方法 - Google Patents

一种基于几何自注意力机制的图像自动标注方法 Download PDF

Info

Publication number
CN112508096B
CN112508096B CN202011421612.XA CN202011421612A CN112508096B CN 112508096 B CN112508096 B CN 112508096B CN 202011421612 A CN202011421612 A CN 202011421612A CN 112508096 B CN112508096 B CN 112508096B
Authority
CN
China
Prior art keywords
layer
output
image
geometric
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011421612.XA
Other languages
English (en)
Other versions
CN112508096A (zh
Inventor
纪禄平
王驰
沈聿林
杨凡
李�真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202011421612.XA priority Critical patent/CN112508096B/zh
Publication of CN112508096A publication Critical patent/CN112508096A/zh
Application granted granted Critical
Publication of CN112508096B publication Critical patent/CN112508096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于几何自注意力机制的图像自动标注方法,先通过Faster R‑CNN网络对图像进行目标检测,提取目标的外貌特征及几何特征;利用基于几何自注意力机制的编码器,显式编码目标几何位置信息;利用GLU门控单元控制几何自注意力机制模块的输出,进一步修正目标特征;以一种层级编码结构不断递进地融入几何位置信息,修正目标特征;利用Position‑LSTM模块编码句子单词位置信息;将Position‑LSTM模块的输出结果输入基于自注意力机制的解码器,并结合编码器最终编码结果进行层级解码,最终得到标注句子。

Description

一种基于几何自注意力机制的图像自动标注方法
技术领域
本发明属于图像标注技术领域,更为具体地讲,涉及一种基于几何自注意力机制的图像自动标注方法。
背景技术
图像标注(Image Caption)是基于计算机视觉和自然语言处理两个领域的相关研究,是一个十分具有挑战性的问题。它旨在研究如何自动地实现对给定图像生成一句准确、流畅的描述性文字,可以看作是一个Img2Seq问题。其流程可分为两部分:首先根据输入图像,识别图像中的物体及其之间的关系,形成中间结果;然后基于此中间结果自动生成一句描述性的文字。图像标注可以看作为模仿人类提取图像信息,并将其压缩提炼,最终形成描述性文字的能力。它不仅要解决图像中目标检测(Object Detection)的问题,还要更细粒度地去识别出不同物体之间的微妙联系,例如不仅要识别出狗,还要识别出狗在奔跑等;同时,还要使用生成器准确地表达出这些物体及其关系。因此,相对于传统的计算机视觉任务或者自然语言处理任务,图像描述任务更具有挑战性。
图像标注可以看作是一种从图像到文本的“翻译”,其技术可以大致分为两大类:一种是较为传统的机器学习图像标注技术,另一种是基于深度学习的图像标注技术。传统的基于模板的方法大多数都是通过预先生成固定的模板,这些模板内部留有空槽,然后通过填充这些空白来生成图像标注。例如,Kulkarni等人提出了一种基于四元组模板的方法来生成图像标注,其首先采用目标检测方法提取去图像中显著性物体的四元组信息,接着使用条件随机场进行联合推理,生成标注句子。但是,由于模板是预先固定的,无法生成可变长度的标注句子,并且生成的标注句子不太自然、流畅,丧失了灵活性。从图像检索的角度出发,早期的学者们提出了基于图像检索的标注算法。这是一种数据驱动的方法,它的思想主要是将图像和对应的句子映射到某个向量空间,然后在此特征空间基于向量相似性进行检索。但是,基于检索的方法过于依赖检索池中的数据。当数据较少或不够准确时,基于检索的方法效果会大打折扣。
除此之外,深度学习方法也是一大类被广泛应用在图像标注的技术方法。例如谷歌的Vinyals等人提出了NIC模型、Xu等人探究了Hard-Attention与Soft-Attention两种注意力机制的有效性、Anderson等人提出了一种自下而上与自上而下结合的注意力机制等。这些模型经过样本训练能获得不错的效果,但是他们都缺失了一个很重要的点,即图像中不同物体之间的几何位置关系。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于几何自注意力机制的图像自动标注方法,通过层级方式逐步修正图像中的目标物体的特征向量,从而生成更准确的图像标注句子。
为实现上述发明目的,本发明一种基于几何自注意力机制的图像自动标注方法,其特征在于,包括以下步骤:
(1)、图像采集
从MS COCO数据库中下载图像标注数据集,包括原始图像及其对应的标注句子;
(2)、图像预处理
(2.1)、对原始图像进行尺寸缩放及归一化处理;
(2.2)、将所有标注句子依次进行分词、转换为小写字母、统计词频并去除词频小于5次的单词;
(3)、构建储存字典
储存字典的结构以开始标志符“START”开始,以结束标志符“END”结束,在开始标志符和结束标志符直接依次储存筛选后的所有单词,其中,在储存过程中,“START”、“END”及所有单词均以词向量的形式存储;
(4)、利用Faster R-CNN模型进行目标检测和特征提取
将步骤(2.1)预处理后的图像输入到Faster R-CNN模型(Faster Region-Convolutional Neural Network),每张图像检测出N个目标物体的两种特征:外貌特征
Figure BDA0002822607760000021
和几何特征Xg∈RN×5,其中,dk表示XA的维度,Xg的每一行表示为:{(xmin,ymin),(xmax,ymax),area},(xmin,ymin),(xmax,ymax)表示目标物体边界框的左上、右下两个坐标,area表示目标物体边界框的面积;
(5)、特征维度变换
(5.1)、对几何特征Xg按照如下公式进行维度变换,将其由维度5映射到维度
Figure BDA0002822607760000031
得到几何特征
Figure BDA0002822607760000032
Figure BDA0002822607760000033
其中,dmodel表示标注模型中几何自注意力机制模块的维度,h表示标注模型中几何自注意力机制模块的head数,Embed(·)表示维度变换,ReLU(·)表示非线性激活函数;
(5.2)、对外貌特征XA进行线性变换,将其由维度dk映射到dmodel维度,得到外貌特征
Figure BDA0002822607760000034
(6)、搭建标注模型并训练
(6.1)、搭建标注模型
标注模型主要由编码单元和解码单元级联而成,其中,编码单元又由级联的多层编码器组成,在每一层的编码器中包括多个head组成的几何自注意力机制模块和门控单元GLU;解码单元同样由级联的多层解码器组成,在每一层解码器中包括多个head组成的几何自注意力机制模块和position-LSTM模块;
(6.2)、训练标注模型
(6.2.1)、标注模型逐层特征编码
(6.2.1.1)、在第一层编码器中,使用何自注意力机制模块对外貌特征
Figure BDA0002822607760000037
进行修正;
Figure BDA0002822607760000035
其中,λ1为常数,
Figure BDA0002822607760000036
分别表示第一层编码器中对应于的线性变换矩阵,softmax(·)表示激活函数,headi(1)表示第一层编码器中第i个head的输出,i=1,2,…,h;
(6.2.1.2)、按照步骤(6.2.1.1))所述方法,将i从1开始通过h次不同的线性变换,得到h个head的输出结果,最后按照如下公式将h个输出结果拼接,再进行一次线性变换:
At(1)=Concat(head1(1),head2(1),…,headh(1))W0(1)
其中,At(1)表示第一层几何自注意力机制模块的输出,Concat(·)表示拼接操作,W0(1)表示第一层的编码时对应的线性变换矩阵;
(6.2.1.3)、利用门控单元GLU(Gated Linear Unit)对At(1)进行门控输出;
将At(1)和特征
Figure BDA0002822607760000041
输入至GLU,然后应用门控输出g,得到第一层编码器的输出Xr(1);
Figure BDA0002822607760000042
其中,σ(·)表示sigmoid激活函数,⊙代表按元素的乘法,Wg(1)、Wi(1)和bg(1)、bi(1)分别表示第一层GLU单元线性变换矩阵及对应偏置;
(6.2.1.4)、从编码单元的第二层开始,按照步骤(6.2.1.1)~(6.2.1.3)所述方法进行逐层编码,直到最后一层编码器的输出,并作为最终的编码输出,记为Xr
(6.2.2)、标注模型逐层特征解码
(6.2.2.1)、在第一层的解码器中,从储存字典中选取开始标志符“START”的词向量w0以及外貌特征
Figure BDA0002822607760000043
的均值
Figure BDA0002822607760000044
拼接,vk表示第k个目标物体的外貌特征;拼接完成后输入到position-LSTM模块,并将position-LSTM模块的隐状态的输出作为第一层的解码器的输入,记为Q'(1);
Figure BDA0002822607760000045
(6.2.2.2)、将编码单元的最终输出Xr分别经过两个不同的线性变换,分别得到K'(1)和V'(1);再结合Q'(1)计算第一层中每个head的解码输出;
Figure BDA0002822607760000051
其中,λ2为常数;
(6.2.2.3)、按照步骤(6.2.2.2)所述方法,将i从1开始通过h次解码,得到h个head的解码输出,最后按照如下公式将h个解码输出进行拼接,再进行一次线性变换作为第一层解码器的输出:
Figure BDA0002822607760000052
其中,
Figure BDA0002822607760000053
表示第一层解码器的输出,Concat(·)表示拼接操作,
Figure BDA0002822607760000054
表示第一层解码对应的线性变换矩阵;
(6.2.2.4)、重复步骤(6.2.2.2)~(6.2.2.3)的操作,直至最后一层解码器的解码输出
Figure BDA0002822607760000055
(6.2.2.4)、将最后一层解码器的解码输出
Figure BDA0002822607760000056
输入至softmax输出层,通过如下公式得到t时刻单词在字典上的概率分布;
Figure BDA0002822607760000057
其中,Wp和bp分别表示softmax的学习权重与偏置;
(6.2.2.5)、取概率最大值对应的单词即为到t时刻的解码单词;
(6.2.2.6)、重复步骤(6.2.2.1)~(6.2.2.5),每重复一次解码出一个单词,直到解码出结束标志符“<END>”停止,从而得到训练完成的标注模型;
(7)、图像自动标注
按照步骤(2)~(4)中图像处理方法对待标注图像进行处理,然后再输入至训练完成的标注模型,从而直接输出待标注图像对应的标注语句。
本发明的发明目的是这样实现的:
本发明为一种基于几何自注意力机制的图像自动标注方法,先通过Faster R-CNN网络对图像进行目标检测,提取目标的外貌特征及几何特征;利用基于几何自注意力机制的编码器,显式编码目标几何位置信息;利用GLU门控单元控制几何自注意力机制模块的输出,进一步修正目标特征;以一种层级编码结构不断递进地融入几何位置信息,修正目标特征;利用Position-LSTM模块编码句子单词位置信息;将Position-LSTM模块的输出结果输入基于自注意力机制的解码器,并结合编码器最终编码结果进行层级解码,最终得到标注句子。
同时,本发明中基于几何自注意力机制的图像自动标注方法还具有以下有益效果:
(1)、使用Faster R-CNN网络对图像进行目标检测,能够捕捉图像中丰富的物体信息,实现了图像信息利用的最大化;
(2)、通过几何自注意力机制,显式地编码物体的位置关系并对物体外貌信息进行修正,捕捉了不同物体之间的位置关联性。与以往的图像标注技术相比,本发明能够生成位置敏感的标注句子,更准确地表达图像信息;
(3)、解码器端采用Position-LSTM模块对句子单词位置进行编码,不仅能很好地表示当前单词位置信息,还传递了当前时刻之前所有已解码单词的语义信息,实现了解码器端的位置敏感性。
附图说明
图1是本发明一种基于几何自注意力机制的图像自动标注方法流程图;
图2是图像预处理及目标特征提取流程图;
图3是传统自注意力机制与几何自注意力机制的流程对比图;
图4是图像标注模型的完整架构图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于几何自注意力机制图像自动标注技术的一种具体实施方式架构图。
在本实施例中,如图1所示,本发明是一种基于几何自注意力机制的图像自动标注方法,包括以下步骤:
S1、图像采集
从MS COCO数据库中下载图像标注数据集,包括原始图像及其对应的标注句子;
S2、图像预处理
S2.1、如图2所示,对原始图像先将图像尺寸缩放为224*224,再进行归一化处理;
S2.2、将所有标注句子依次进行分词、转换为小写字母、统计词频并去除词频小于5次的单词;
S3、构建储存字典
储存字典的结构以开始标志符“START”开始,以结束标志符“END”结束,在开始标志符和结束标志符直接依次储存筛选后的所有单词,其中,在储存过程中,“START”、“END”及所有单词均以词向量的形式存储;
S4、利用Faster R-CNN模型进行目标检测和特征提取
如图2所示,将步骤(2.1)预处理后的图像输入到Faster R-CNN模型(FasterRegion-Convolutional Neural Network),每张图像检测出N=36个目标物体的两种特征:外貌特征
Figure BDA0002822607760000071
和几何特征Xg∈RN×5,其中,dk表示XA的维度,本实施例中取值为2048,Xg的每一行表示为:{(xmin,ymin),(xmax,ymax),area},(xmin,ymin),(xmax,ymax)表示目标物体边界框的左上、右下两个坐标,area表示目标物体边界框的面积;
传统的图像标注方法在处理图像时,往往仅将图像中检测到物体的外貌特征保留下来。然而,本发明还采用了物体的几何位置信息(几何特征),从而弥补了图像标注模型的位置盲目性,此外,不同于以往基于自注意力机制的Transformer模型,本发明显式地加入了图像中目标物体的坐标信息和目标大小,如图3(a)所示,传统的自注意力机制可以看作是一种在给定“查询”和“键值对”之间的映射关系。这种机制仅仅将XA(外貌特征)作为输入,不能不能建模物体之间的位置关系,丧失了位置敏感性。图3(b)则展示了本发明提出的几何自注意力机制,这种机制还额外将Xg∈RN×5作为输入。
S5、特征维度变换
S5.1、对几何特征Xg按照如下公式进行维度变换,将其由维度5映射到维度
Figure BDA0002822607760000081
得到几何特征
Figure BDA0002822607760000082
Figure BDA0002822607760000083
其中,dmodel表示标注模型中几何自注意力机制模块的维度,本实施例中取值为512,h表示标注模型中几何自注意力机制模块的head数,本实施例中取值为8,Embed(·)表示维度变换,ReLU(·)表示非线性激活函数;
S5.2、对外貌特征XA进行线性变换,将其由维度dk映射到dmodel维度,得到外貌特征
Figure BDA0002822607760000084
S6、搭建标注模型并训练
S6.1、搭建标注模型
标注模型主要由编码单元和解码单元级联而成,其中,编码单元又由级联的L层编码器组成,本实施例中取值为3,在每一层的编码器中包括多个head组成的几何自注意力机制模块和门控单元GLU;解码单元同样由级联的L层解码器组成,在每一层解码器中包括多个head组成的几何自注意力机制模块和Position-LSTM模块;
在本实施例中,将几何自注意力修正模块与Position-LSTM模块相结合,形成了完整的几何自注意力图像标注模型,图4展示了该模型的完整架构。
在经过Faster R-CNN模型的预处理之后,得到外貌特征XA∈RN×2048与几何特征XG∈RN×5。然后将其输入堆叠了L层的编码器网络,其中每一层都包含了几何自注意力模块与GLU模块。经过解码后,得到修正后的图像特征Xr∈RN×2048。然后将其输入自注意力机制的解码器(同样由L层构成)。在解码器输入词向量之前,将词向量经过Position-LSTM模块进行位置编码,然后将其输出经过线性变换;同时将编码器的输出Xr经过两次线性变换,一并输入自注意力机制模块计算输出结果,最后可得到某个时刻输出的单词yt
在上述过程中,编码器端向自注意力机制中显式地加入了图像几何位置信息,得到了“位置敏感”的图像特征表达。这样一来,每个图像就不特征都与其他局部特征有了位置上的关联性,从而避免了盲目地“用词造句”(即在不知道“狗”与“椅子”位置相关性的情况下,推理“狗躺在椅子上”或是“狗躺在椅子下”);在解码器端,通过position-LSTM赋予了解码器感知句子中单词相对位置关系的能力,同样解决了解码器端的位置盲目性。并且,该模型可以无需人工干预,进行端到端的训练,具体训练过程如下。
S6.2、训练标注模型
S6.2.1、标注模型逐层特征编码
S6.2.1.1、在第一层编码器中,使用何自注意力机制模块对外貌特征
Figure BDA0002822607760000095
进行修正;
Figure BDA0002822607760000091
其中,λ1为常数,在本实施例中取
Figure BDA0002822607760000096
Wi 1(1)~Wi 4(1)、
Figure BDA0002822607760000097
分别表示第一层编码器中对应于的线性变换矩阵,softmax(·)表示激活函数,headi(1)表示第一层编码器中第i个head的输出,i=1,2,…,h;
S6.2.1.2、按照步骤S6.2.1.1所述方法,将i从1开始通过h次不同的线性变换,得到h个head的输出结果,最后按照如下公式将h个输出结果拼接,再进行一次线性变换:
At(1)=Concat(head1(1),head2(1),…,headh(1))W0(1)
其中,At(1)表示第一层几何自注意力机制模块的输出,Concat(·)表示拼接操作,W0(1)表示第一层的编码时对应的线性变换矩阵;
S6.2.1.3、利用门控单元GLU(Gated Linear Unit)对At(1)进行门控输出;
将At(1)和特征
Figure BDA0002822607760000093
输入至GLU,然后应用门控输出g,得到第一层编码器的输出Xr(1);
Figure BDA0002822607760000094
其中,σ(·)表示sigmoid激活函数,⊙代表按元素的乘法,Wg(1)、Wi(1)和bg(1)、bi(1)分别表示第一层线性变换矩阵及对应偏置;
S6.2.1.4、从编码单元的第二层开始,按照步骤S6.2.1.1~S6.2.1.3所述方法进行逐层编码,直到最后一层编码器的输出,并作为最终的编码输出,记为Xr
S6.2.2、标注模型逐层特征解码
在本实施例中,在利用Transformer进行解码时,句子被看作“词袋模型”,从而丧失了句子中单词相对位置关系。传统的方法是将正弦编码加到词向量上来表示单词的位置。本发明采用了长短期记忆网络(Long Short-Term Memory,LSTM)来进行位置编码,从而增强了解码器对于句子单词的位置感知。下面我们对解码的具体过程进行描述,具体为:
S6.2.2.1、在第一层的解码器中,从储存字典中选取开始标志符“START”的词向量w0以及外貌特征
Figure BDA0002822607760000101
的均值
Figure BDA0002822607760000102
拼接,vk表示第k个目标物体的外貌特征;拼接完成后输入到Position-LSTM模块,并将Position-LSTM模块的隐状态的输出作为第一层的解码器的输入,记为Q'(1);
Figure BDA0002822607760000103
在本实施例中,Position-LSTM模块出色地完成了以下两点:第一、显式地编码了当前时间步在整个句子中的相对位置关系,LSTM逐字地解析每一个单词,从而保留了每个单词在完整句子中的相对位置关系,同时使得解码器以一种“位置敏感”的方式自适应地关注图像中不同的区域;第二、其隐状态保存了0~t时刻中所有已解码单词的全部语义信息,形成了解码器的“记忆”:即其“记住”了图像中已经解码的部分区域;
S6.2.2.2、将编码单元的最终输出Xr分别经过两个不同的线性变换,分别得到K'(1)和V'(1);再结合Q'(1)计算第一层中每个head的解码输出;
Figure BDA0002822607760000104
其中,λ2为常数,在本实施例中取值为8;
S6.2.2.3、按照步骤S6.2.2.2所述方法,将i从1开始通过h=8次解码,得到h个head的解码输出,最后按照如下公式将h个解码输出进行拼接,再进行一次线性变换作为第一层解码器的输出:
Figure BDA0002822607760000105
其中,
Figure BDA0002822607760000111
表示第一层解码器的输出,Concat(·)表示拼接操作,
Figure BDA0002822607760000112
表示第一层解码对应的线性变换矩阵;
S6.2.2.4、重复步骤S6.2.2.2~S6.2.2.3的操作,直至最后一层解码器的解码输出
Figure BDA0002822607760000113
S6.2.2.4、将最后一层解码器的解码输出
Figure BDA0002822607760000114
输入至softmax输出层,通过如下公式得到t时刻单词在字典上的概率分布;
Figure BDA0002822607760000115
其中,Wp和bp分别表示softmax的学习权重与偏置;
S6.2.2.5、取概率最大值对应的单词即为到t时刻的解码单词;
S6.2.2.6、重复步骤S6.2.2.1~S6.2.2.5,每重复一次解码出一个单词,直到解码出结束标志符“<END>”停止,从而得到训练完成的标注模型;
S7、图像自动标注
按照步骤S2~S4中图像处理方法对待标注图像进行处理,然后再输入至训练完成的标注模型,从而直接输出待标注图像对应的标注语句。
为了验证本发明涉及的几何注意力机制图像标注模型的有效性与可靠性,我们在公开数据集MS COCO上,进行了模型训练以及测试,并与其他方法进行了对比。对比结果发现本发明在多个评价指标上均具有明显的优势,具体对比结果见表1。
Figure BDA0002822607760000116
表1
表1中的SCST、Up-down是基于卷积神经网络和循环神经网络的传统方法,而ORT和AoANet则是基于Transformer模型的深度学习方法。由图像标注评价指标的对比结果可见,在此数据集上本发明涉及的几何自注意力方法在所有指标上均占据领先地位;并且,与Up-down方法相比,本发明在Bleu@4和CIDER指标上分别有9.4%和8.7%的显著提升;与同样基于Transformer架构的ORT方法相比,本发明在Bleu@4和CIDER指标上分别有1.1%和2.2%的明显提升。由此可见,本发明所提出的几何自注意力机制图像自动标注技术是有效且可靠的,能够显著提升图像标注效果。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于几何自注意力机制的图像自动标注方法,其特征在于,包括以下步骤:
(1)、图像采集
从MS COCO数据库中下载图像标注数据集,包括原始图像及其对应的标注句子;
(2)、图像预处理
(2.1)、对原始图像进行尺寸缩放及归一化处理;
(2.2)、将所有标注句子依次进行分词、转换为小写字母、统计词频并去除词频小于5次的单词;
(3)、构建储存字典
储存字典的结构以开始标志符“START”开始,以结束标志符“END”结束,在开始标志符和结束标志符直接依次储存筛选后的所有单词,其中,在储存过程中,“START”、“END”及所有单词均以词向量的形式存储;
(4)、利用Faster R-CNN模型进行目标检测和特征提取
将步骤(2.1)预处理后的图像输入到Faster R-CNN模型(Faster Region-Convolutional Neural Network),每张图像检测出N个目标物体的两种特征:外貌特征
Figure FDA0003379666230000011
和几何特征Xg∈RN×5,其中,dk表示XA的维度,Xg的每一行表示为:{(xmin,ymin),(xmax,ymax),area},(xmin,ymin),(xmax,ymax)表示目标物体边界框的左上、右下两个坐标,area表示目标物体边界框的面积;
(5)、特征维度变换
(5.1)、对几何特征Xg按照如下公式进行维度变换,将其由维度5映射到维度
Figure FDA0003379666230000012
得到几何特征
Figure FDA0003379666230000013
Figure FDA0003379666230000014
其中,dmodel表示标注模型中几何自注意力机制模块的维度,h表示标注模型中几何自注意力机制模块的head数,Embed(·)表示维度变换,ReLU(·)表示非线性激活函数;
(5.2)、对外貌特征XA进行线性变换,将其由维度dk映射到dmodel维度,得到外貌特征
Figure FDA0003379666230000021
(6)、搭建标注模型并训练
(6.1)、搭建标注模型
标注模型主要由编码单元和解码单元级联而成,其中,编码单元又由级联的多层编码器组成,在每一层的编码器中包括多个head组成的几何自注意力机制模块和门控单元GLU;解码单元同样由级联的多层解码器组成,在每一层解码器中包括多个head组成的几何自注意力机制模块和position-LSTM模块;
(6.2)、训练标注模型
(6.2.1)、标注模型逐层特征编码
(6.2.1.1)、在第一层编码器中,使用几何自注意力机制模块对外貌特征
Figure FDA0003379666230000022
进行修正;
Figure FDA0003379666230000023
其中,λ1为常数,Wi 1(1)~Wi 4(1)、
Figure FDA0003379666230000024
分别表示第一层编码器中对应于的线性变换矩阵,softmax(·)表示激活函数,headi(1)表示第一层编码器中第i个head的输出,i=1,2,…,h;
(6.2.1.2)、按照步骤(6.2.1.1))所述方法,将i从1开始通过h次不同的线性变换,得到h个head的输出结果,最后按照如下公式将h个输出结果拼接,再进行一次线性变换:
At(1)=Concat(head1(1),head2(1),…,headh(1))W0(1)
其中,At(1)表示第一层几何自注意力机制模块的输出,Concat(·)表示拼接操作,W0(1)表示第一层的编码时对应的线性变换矩阵;
(6.2.1.3)、利用门控单元GLU(Gated Linear Unit)对At(1)进行门控输出;
将At(1)和特征
Figure FDA0003379666230000025
输入至GLU,然后应用门控输出g,得到第一层编码器的输出Xr(1);
Figure FDA0003379666230000031
其中,σ(·)表示sigmoid激活函数,⊙代表按元素的乘法,Wg(1)、Wi(1)和bg(1)、bi(1)分别表示第一层线性变换矩阵及对应偏置;
(6.2.1.4)、从编码单元的第二层开始,重复步骤(6.2.1.1)~(6.2.1.3)的操作,直至最后一层编码器的输出,并作为最终的编码输出,记为Xr
(6.2.2)、标注模型逐层特征解码
(6.2.2.1)、在第一层的解码器中,从储存字典中选取开始标志符“START”的词向量w0以及外貌特征
Figure FDA0003379666230000032
的均值
Figure FDA0003379666230000033
拼接,vk表示第k个目标物体的外貌特征;拼接完成后输入到position-LSTM模块,并将position-LSTM模块的隐状态的输出作为第一层的解码器的输入,记为Q'(1);
Figure FDA0003379666230000034
(6.2.2.2)、将编码单元的最终输出Xr分别经过两个不同的线性变换,分别得到K'(1)和V'(1);再结合Q'(1)计算第一层中每个head的解码输出;
Figure FDA0003379666230000035
其中,λ2为常数;
(6.2.2.3)、按照步骤(6.2.2.2)所述方法,将i从1开始通过h次解码,得到h个head的解码输出,最后按照如下公式将h个解码输出进行拼接,再进行一次线性变换作为第一层解码器的输出:
Figure FDA0003379666230000036
其中,
Figure FDA0003379666230000037
表示第一层解码器的输出,Concat(·)表示拼接操作,
Figure FDA0003379666230000038
表示第一层解码对应的线性变换矩阵;
(6.2.2.4)、重复步骤(6.2.2.2)~(6.2.2.3)的操作,直至最后一层解码器的解码输出
Figure FDA0003379666230000041
(6.2.2.4)、将最后一层解码器的解码输出
Figure FDA0003379666230000042
输入至softmax输出层,通过如下公式得到t时刻单词在字典上的概率分布;
Figure FDA0003379666230000043
其中,Wp和bp分别表示softmax的学习权重与偏置;
(6.2.2.5)、取概率最大值对应的单词即为到t时刻的解码单词;
(6.2.2.6)、重复步骤(6.2.2.1)~(6.2.2.5),每重复一次解码出一个单词,直到解码出结束标志符“<END>”停止,从而得到训练完成的标注模型;
(7)、图像自动标注
按照步骤(2)~(4)中图像处理方法对待标注图像进行处理,然后再输入至训练完成的标注模型,从而直接输出待标注图像对应的标注语句。
CN202011421612.XA 2020-12-08 2020-12-08 一种基于几何自注意力机制的图像自动标注方法 Active CN112508096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011421612.XA CN112508096B (zh) 2020-12-08 2020-12-08 一种基于几何自注意力机制的图像自动标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011421612.XA CN112508096B (zh) 2020-12-08 2020-12-08 一种基于几何自注意力机制的图像自动标注方法

Publications (2)

Publication Number Publication Date
CN112508096A CN112508096A (zh) 2021-03-16
CN112508096B true CN112508096B (zh) 2022-03-25

Family

ID=74971502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011421612.XA Active CN112508096B (zh) 2020-12-08 2020-12-08 一种基于几何自注意力机制的图像自动标注方法

Country Status (1)

Country Link
CN (1) CN112508096B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378973B (zh) * 2021-06-29 2023-08-08 沈阳雅译网络技术有限公司 一种基于自注意力机制的图像分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007070838A2 (en) * 2005-12-13 2007-06-21 Crossbeam Systems, Inc. Systems and methods for processing data flows
CN110168573A (zh) * 2016-11-18 2019-08-23 易享信息技术有限公司 用于图像标注的空间注意力模型
CN110347860A (zh) * 2019-07-01 2019-10-18 南京航空航天大学 基于卷积神经网络的深度图像描述方法
CN111275118A (zh) * 2020-01-22 2020-06-12 复旦大学 基于自我修正式标签生成网络的胸片多标签分类方法
CN111598041A (zh) * 2020-05-25 2020-08-28 青岛联合创智科技有限公司 一种用于物品查找的图像生成文本方法
CN111832501A (zh) * 2020-07-20 2020-10-27 中国人民解放军战略支援部队航天工程大学 一种面向卫星在轨应用的遥感影像文本智能描述方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723937A (zh) * 2019-03-21 2020-09-29 北京三星通信技术研究有限公司 多媒体数据的描述信息的生成方法、装置、设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007070838A2 (en) * 2005-12-13 2007-06-21 Crossbeam Systems, Inc. Systems and methods for processing data flows
CN110168573A (zh) * 2016-11-18 2019-08-23 易享信息技术有限公司 用于图像标注的空间注意力模型
CN110347860A (zh) * 2019-07-01 2019-10-18 南京航空航天大学 基于卷积神经网络的深度图像描述方法
CN111275118A (zh) * 2020-01-22 2020-06-12 复旦大学 基于自我修正式标签生成网络的胸片多标签分类方法
CN111598041A (zh) * 2020-05-25 2020-08-28 青岛联合创智科技有限公司 一种用于物品查找的图像生成文本方法
CN111832501A (zh) * 2020-07-20 2020-10-27 中国人民解放军战略支援部队航天工程大学 一种面向卫星在轨应用的遥感影像文本智能描述方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Predicting Multi-step Citywide Passenger Demands Using Attention-based Neural Networks》;Zhou X et al;《ACM》;20180202;全文 *
《基于上下文的视频理解关键技术研究》;郭大山;《中国博士学位论文全文数据库 信息科技辑》;20200615(第2020年第06期);全文 *

Also Published As

Publication number Publication date
CN112508096A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN112560503B (zh) 融合深度特征和时序模型的语义情感分析方法
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN110347857B (zh) 基于强化学习的遥感影像的语义标注方法
CN111949824A (zh) 基于语义对齐的视觉问答方法和系统、存储介质
CN111460883A (zh) 基于深度强化学习的视频行为自动描述方法
CN114996513A (zh) 基于跨模态提示学习的视频问答方法与系统
CN113392265A (zh) 多媒体处理方法、装置及设备
Khurram et al. Dense-captionnet: a sentence generation architecture for fine-grained description of image semantics
CN112508096B (zh) 一种基于几何自注意力机制的图像自动标注方法
CN117010500A (zh) 一种多源异构知识联合增强的视觉知识推理问答方法
CN115718815A (zh) 一种跨模态检索方法和系统
CN111651635A (zh) 一种基于自然语言描述的视频检索方法
CN114780775A (zh) 一种基于内容选择和引导机制的图像描述文本生成方法
CN112116074A (zh) 一种基于二维空间编码的图像描述方法
CN114511813B (zh) 视频语义描述方法及装置
CN115240713B (zh) 基于多模态特征和对比学习的语音情感识别方法及装置
CN114861601B (zh) 基于旋转式编码的事件联合抽取方法及存储介质
CN116311493A (zh) 一种基于编码解码架构的两阶段人-物交互检测方法
Bashmal et al. Language Integration in Remote Sensing: Tasks, datasets, and future directions
CN113792120B (zh) 图网络的构建方法及装置、阅读理解方法及装置
CN114266905A (zh) 基于Transformer结构的图像描述生成模型方法、装置和计算机设备
Li et al. Vision-Language Models in Remote Sensing: Current progress and future trends
CN113780350B (zh) 一种基于ViLBERT和BiLSTM的图像描述方法
CN113806551A (zh) 一种基于多文本结构数据的领域知识抽取方法
Chaoyang et al. Thangka Image Caption Generation Method Combining Multi-scale and Multi-level Aggregation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant