CN111737511A - 基于自适应局部概念嵌入的图像描述方法 - Google Patents

基于自适应局部概念嵌入的图像描述方法 Download PDF

Info

Publication number
CN111737511A
CN111737511A CN202010554218.7A CN202010554218A CN111737511A CN 111737511 A CN111737511 A CN 111737511A CN 202010554218 A CN202010554218 A CN 202010554218A CN 111737511 A CN111737511 A CN 111737511A
Authority
CN
China
Prior art keywords
concept
local
adaptive
image
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010554218.7A
Other languages
English (en)
Other versions
CN111737511B (zh
Inventor
王溢
王振宁
许金泉
曾尔曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanqiang Zhishi Xiamen Technology Co ltd
Original Assignee
Nanqiang Zhishi Xiamen Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanqiang Zhishi Xiamen Technology Co ltd filed Critical Nanqiang Zhishi Xiamen Technology Co ltd
Priority to CN202010554218.7A priority Critical patent/CN111737511B/zh
Publication of CN111737511A publication Critical patent/CN111737511A/zh
Application granted granted Critical
Publication of CN111737511B publication Critical patent/CN111737511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于自适应局部概念嵌入的图像描述方法,属于人工智能技术领域,包括如下步骤:步骤1,采用目标检测器提取待描述图像的若干个候选区及各候选区对应的特征;步骤2,将步骤1提取的特征输入训练好的神经网络,从而输出待描述图像的描述结果。此种方法针对传统基于注意力机制的图像描述方法没有显性建模局部区域与概念的关系的缺点,提出通过上下文机制,自适应生成视觉区域并由此生成视觉概念的方案,强化视觉到语言的连接,从而提高生成描述的准确性。

Description

基于自适应局部概念嵌入的图像描述方法
技术领域
本发明涉及人工智能领域中的图像自动描述,特别涉及一种基于图片用自然语言对图像客观内容进行描述的基于自适应局部概念嵌入的图像描述模型的研究方法。
背景技术
图像自动描述(Image Captioning)是近年来人工智能界提出的一个机器终极智能任务,它的任务是将于一张给定图像,用自然语言对图像客观内容进行描述。随着计算机视觉技术的发展,完成目标检测、识别、分割等任务已经不能满足人们的生产需求,对如何自动客观的对图像内容自动描述有迫切的需求。和目标检测及语义分割等任务不同,图像自动描述要将图像中的物体、属性、物体间的关系以及相应的场景等用自动语言进行整体而客观的描述,该任务是计算机视觉理解的重要方向之一,被视为人工智能的一个重要标志。
早先的图像自动描述主要采用基于模板的方法和基于检索的方法实现,直到近来受自然语言技术的启发,开始使用编码器-解码器框架,注意力机制以及以强化学习为基础的目标函数,该任务取得了极大的进展。
Xu等人[1]首次在图片描述任务中引入了注意力机制,用来将重要的视觉属性和场景嵌入到描述生成器中。继此之后,很多工作都对注意力机制提出了改进。例如,Chen[2]等人提出了空间和通道注意力机制,用以选择显著的区域以及显著的语义模式;Lu等人[3]提出了视觉哨兵的概念,用以决定下一步关注视觉信息还是文本信息,大大提高了模型的精确度;Anderson等人[4]先通过预训练好的目标检测器获取区域然后将此加入到模型用以生成图像字幕。但是这些方法都仅仅关注特定任务的上下文及视觉特征,并没有考虑到显性的建模视觉特征和概念之间的关系。
涉及的参考文献如下:
[1].Xu,K.;Ba,J.;Kiros,R.;Cho,K.;Courville,A.;Salakhudinov,R.;Zemel,R.;and Bengio,Y.2015.Show,attend and tell:Neural image caption generationwith visual attention.In ICML.
[2].Chen,L.;Zhang,H.;Xiao,J.;Nie,L.;Shao,J.;Liu,W.;and Chua,T.-S.2017b.Sca-cnn:Spatial and channel-wise attention in convolutional networksfor image captioning.In CVPR.
[3].Lu,J.;Xiong,C.;Parikh,D.;and Socher,R.2017.Knowing when to look:Adaptive attention via a visual sentinel for image captioning.In CVPR.
[4].Anderson,P.;He,X.;Buehler,C.;Teney,D.;Johnson,M.;Gould,S.;andZhang,L.2018.Bottom-up and top-down attention for image captioning and visualquestion answering.In CVPR.
发明内容
本发明的目的,在于提供一种基于自适应局部概念嵌入的图像描述方法,针对传统基于注意力机制的图像描述方法没有显性建模局部区域与概念的关系的缺点,提出通过上下文机制,自适应生成视觉区域并由此生成视觉概念的方案,强化视觉到语言的连接以及准确性。
为了达成上述目的,本发明的解决方案是:
一种基于自适应局部概念嵌入的图像描述方法,包括如下步骤:
步骤1,采用目标检测器提取待描述图像的若干个候选区及各候选区对应的特征;
步骤2,将步骤1提取的特征输入训练好的神经网络,从而输出待描述图像的描述结果;其中,神经网络的全局损失函数通过如下方法获得;
步骤A1,对训练集中的文本内容进行预处理,得到句子序列;对训练集中的图像,采用目标检测器提取若干个候选区,并提取各个候选区所对应的特征V={v1,v2...,vk},其中vi∈Rd,i=1,2,...,k,d为各个特征向量的维度;
步骤A2,将特征V送入自适应引导信号生成层,生成自适应引导信号;
步骤A3,采用注意力机制,利用自适应引导信号获取局部视觉特征,并由此得到局部概念;
步骤A4,通过向量裂解的方法将局部概念嵌入到生成模型中,获取当前输出词;
步骤A5,迭代生成整个句子,并定义生成句子的损失函数。
上述步骤1中,目标检测器的训练方法是:目标检测器采用Faster R-CNN框架,其骨架网络是深度卷积残差网络,首先采用端到端的方法在经典目标检测数据集PASCALVOC2007中进行训练,然后在多模态数据集Visual Genome上进一步训练微调网络参数。
上述步骤A1中,对训练集中的文本内容进行预处理,得到句子序列的具体过程是:首先对训练集中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,对于得到的若干单词,剔除数据集描述中出现次数小于阈值的单词,使用“<UNK>”进行替代;最后,句子的开头和结尾分别加入开始符“<BOS>”和结束符“<END>”。
上述步骤A2中,基于特征V生成自适应引导信号的相关公式如下:
Figure BDA0002543706000000031
Figure BDA0002543706000000032
Figure BDA0002543706000000033
其中,t为句子序列的第t个词,
Figure BDA0002543706000000034
为该自适应引导信号生成层的输入,且We为词向量矩阵,
Figure BDA0002543706000000035
是该层输出的引导信号,xt表示t时刻输入的词所对应的索引。
上述步骤A3的具体过程是:
首先根据如下公式:
Figure BDA0002543706000000036
Figure BDA0002543706000000037
其中,
Figure BDA0002543706000000038
Wv1∈Rk×d、Wh1∈Rk×d是需要学习的参数,I∈Rk为所有元素都是1的向量,Softmax函数为归一化指数函数;由此得到各个候选区的重要程度
Figure BDA0002543706000000039
用来获得当前模型关注到的局部视觉特征:
Figure BDA0002543706000000041
Figure BDA0002543706000000042
其中,
Figure BDA0002543706000000043
即得到的视觉概念,Wvc为实现预训练好的概念检测层,
Figure BDA0002543706000000044
即为模型关注到的视觉概念,σ为激活函数;
利用
Figure BDA0002543706000000045
修正自适应引导信号,如下:
Figure BDA0002543706000000046
其中[;]表示向量拼接,Wh为需要训练的参数矩阵;
然后进行如下迭代,直至得到最终的局部概念,过程如下:
Figure BDA0002543706000000047
Figure BDA0002543706000000048
Figure BDA0002543706000000049
Figure BDA00025437060000000410
其中,
Figure BDA00025437060000000411
Wv2∈Rk×d、Wh2∈Rk×d是需要学习的参数,I∈Rk为所有元素都是1的向量,Softmax函数为归一化指数函数。
上述步骤A4的具体过程是:
首先进行如下向量裂解:
Figure BDA00025437060000000412
Figure BDA00025437060000000413
其中,diag(.)表示向量对角化,xt表示t时刻输入的词所对应的索引,
Figure BDA00025437060000000414
Figure BDA00025437060000000415
是将局部概念进行裂解操作,此后将信息嵌入到输入词与隐含状态中;
以下为了嵌入局部概念的信息定义模块输入:
Figure BDA00025437060000000416
其中[.;.;.;.]表示向量拼接操作;
然后,将嵌入信息的输入通过映射,得到
Figure BDA0002543706000000051
it=σ(WiEi),ft=σ(WfEf)
ot=σ(WoEo),ct=σ(WcEc)
Figure BDA0002543706000000052
Figure BDA0002543706000000053
其中,Wi、Ei、Wf、Ef、Wo、Eo、Wc、Ec都是需要训练的参数矩阵;
最后,获得下一个词的概率分布:
Figure BDA0002543706000000054
其中Wy为待训练的参数矩阵,将隐含状态映射到词汇表。
上述步骤A5的具体过程是:
对于预测的句子Y=y1∶T而言,生成整个句子的概率由每个词的概率累乘得到,即:
Figure BDA0002543706000000055
其中T为句子长度;
通过监督学习和强化学习两个阶段对模型进行训练;在监督学习阶段,采用交叉熵,对于给定的目标句子
Figure BDA0002543706000000056
而言,其损失函数定义为:
Figure BDA0002543706000000057
在强化学习阶段,采用强化学习进行训练,其损失函数定义为:
Figure BDA0002543706000000058
其中
Figure BDA0002543706000000059
表示通过贪婪法抽样出的句子,而
Figure BDA00025437060000000510
表示通过蒙特卡洛方法抽样出的句子。
采用上述方案后,本发明具有以下突出优点:
(1)本发明显式建模了局部视觉区域到语义概念的关系,从而提供视觉到语言的准确连接,大大减少了图像描述任务间存在的语义鸿沟问题,极大提升了生成句子的准确性和全面性;
(2)本发明具有很强的迁移性,能够适用于任何一个基于注意力机制的图像描述模型,改进模型的性能;
(3)本发明改进的图像描述的完整性和准确性,其主要应用场景在于理解给定图片视觉概念,为其自动生成描述,在图像检索,盲人导航,医疗报告自动生成和早教领域存在大量的应用前景。
附图说明
图1是本发明基于自适应局部概念嵌入的图像自动描述方法的流程图;
其中,RAM为局部概念抽取模块,LCFM为局部概念裂解嵌入模块,Attention为注意力模块;
图2是不同的图像描述模型生成的句子对比图;
其中,UP-DOWN是一种名为自顶向下的基线方法的名称;
图3是局部概念嵌入时所使用的映射矩阵以列为单位求相似度并可视化的结果;
图4是本发明所采用的框架自适应选择的区域可视化及相应可视化出的区域映射出的语义概念;
图5是某一语义概念与视觉区域的对应关系可视化。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
本发明的目的是针对传统基于注意力机制的图像描述方法没有显性建模局部区域与概念的关系的缺点,提出通过上下文机制,自适应生成视觉区域并由此生成视觉概念的方案,强化视觉到语言的连接以及准确性,提供一种基于自适应局部概念嵌入的图像描述方法。具体的算法流程如图1所示。
本发明包括以下步骤:
1)对于图像库中的图像,首先使用卷积神经网络抽取相应的图像特征;
2)采用循环神经网络,将当前输入词和以及全局图像特征映射到隐含层输出,并以此作为引导信号;
3)采用注意力机制,使用上述的引导信号获得每个局部图像特征的权重,自适应获取局部视觉特征,并通过与训练好的概念提取器提取局部概念;
4)建立局部概念裂解模块,将局部概念嵌入到生成模型中,获取当前输出词;
5)迭代生成整个句子,并定义生成句子的损失函数。
具体的每个模块如下:
1、深度卷积特征抽取与描述数据预处理
对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,得到9487个单词,对数据集描述中出现次数小于五的单词进行了剔除,使用“<UNK>”进行替代,同时加入了开始符“<BOS>”和结束符“<END>”分别在描述句子的开头和结尾。
先使用预训练好的目标检测器提取36个固定的候选区,并使用残差深度卷积网络提出各个候选区相对应的特征V={v1,v2...,vk},其中vi∈Rd,i=1,2,...,k,d为各个特征向量的维度,k为36,d为2048。
2、自适应引导信号生成层
首先第一层是卷积循环网络,目的是生成自适应引导信号,从而为后文提取局部视觉特征提供引导,该层输入及过程定义如下:
Figure BDA0002543706000000071
Figure BDA0002543706000000072
Figure BDA0002543706000000073
其中,t为句子序列的第t个词,
Figure BDA0002543706000000074
为该自适应引导信号生成层的输入,且We为词向量矩阵,
Figure BDA0002543706000000075
是该层输出的引导信号,xt表示t时刻输入的词所对应的索引。
3、局部概念抽取
如图1所示,接下来是局部概念抽取层,本发明首先利用
Figure BDA0002543706000000076
作为引导,获取局部的视觉信息,并由此得到适应性局部概念,该过程推导如下:
Figure BDA0002543706000000077
Figure BDA0002543706000000081
其中,
Figure BDA0002543706000000082
Wv1∈Rk×d、Wh1∈Rk×d是需要学习的参数,I∈Rk为所有元素都是1的向量,Softmax函数为归一化指数函数。由此,便可以得到各个候选区的重要程度
Figure BDA0002543706000000083
用来获得当前模型关注到的局部视觉特征:
Figure BDA0002543706000000084
Figure BDA0002543706000000085
其中,
Figure BDA0002543706000000086
即得到的视觉概念,Wvc为实现预训练好的概念检测层,
Figure BDA0002543706000000087
即为模型关注到的视觉概念,σ为激活函数。得到的
Figure BDA0002543706000000088
可以很好地体现注意力机制的好坏,因此接下来使用该信息修正引导信号,来改进注意力层次,修正如下:
Figure BDA0002543706000000089
其中[;]表示向量拼接,Wh为需要训练的参数矩阵,此后过程同第一个过程,由此便可以得到最终的局部概念,过程如下:
Figure BDA00025437060000000810
Figure BDA00025437060000000811
Figure BDA00025437060000000812
Figure BDA00025437060000000813
其中,
Figure BDA00025437060000000814
Wv2∈Rk×d、Wh2∈Rk×d是需要学习的参数,I∈Rk为所有元素都是1的向量,Softmax函数为归一化指数函数。
4、局部概念裂解嵌入模块
通过上述过程得到了局部概念,接下来,通过向量裂解的方法将局部概念嵌入到模型中,从而有效地利用该信息生成图像描述,向量裂解过程如下:
Figure BDA00025437060000000815
Figure BDA0002543706000000091
其中diag(.)表示向量对角化,xt表示t时刻输入的词所对应的索引,
Figure BDA0002543706000000092
Figure BDA0002543706000000093
是将局部概念进行裂解操作,此后将信息嵌入到输入词与隐含状态中。接下来就嵌入了局部概念的信息定义模块输入:
Figure BDA0002543706000000094
其中[.;.;.;.]表示的是向量拼接操作。接下来,将嵌入信息的输入通过映射,得到
Figure BDA0002543706000000095
it=σ(WiEi),ft=σ(WfEf)
Figure BDA0002543706000000097
Figure BDA0002543706000000098
Figure BDA0002543706000000099
其中,Wi、Ei、Wf、Ef、Wo、Eo、Wc、Ec都是需要训练的参数矩阵,最后我们通过该信息获得下一个词的概率分布:
Figure BDA00025437060000000910
其中Wy为待训练的参数矩阵,将隐含状态映射到词汇表。
5、全局损失函数构建
对于预测的句子Y=y1∶T而言,生成整个句子的概率可以由每个词的概率累乘得到,即:
Figure BDA00025437060000000911
其中T为句子长度。本发明分两个阶段对模型进行训练,包括监督学习和强化学习。前者采用交叉熵,对于给定的目标句子
Figure BDA00025437060000000912
而言,其损失函数定义为:
Figure BDA00025437060000000913
后者采用强化学习进行训练,其损失函数定义为:
Figure BDA00025437060000000914
其中
Figure BDA0002543706000000101
表示通过贪婪法抽样出的句子,而
Figure BDA0002543706000000102
表示通过蒙特卡洛方法抽样出的句子。
具体实验结果如下:
为了验证提出的模型的可行性和先进性,我们在通用数据集MSCOCO进行模型的评估。其中和最新图像自动描述方法的量化比较如表1所示,我们可以看到在多种评估指标上所提出的模型性能都具有很高的优势。另外,我们通过可视化输入图像所生成的文本描述,示例给出的描述为英文,中文描述自动生成过程同理(如图2所示),可以看到由于我们的模型对局部视觉信息显示建模以后,其在图像描述上取得了很明显的改进。图3对W*a TW*a的部分可视化,该结果表明本发明方法很好地将局部概念嵌入到模型中。图4展示的是生成每个词时两个模块层关注到的视觉区域及该视觉区域生成的视觉概念,可以看出经过修正可以得到更为准确的视觉概念。图5将生成特定概念以后模型关注度最大的区域标注出来,该结果表明本发明的方法能够帮助克服语义鸿沟问题。图2至图4中描述和概念都以英文为例,但是该发明可以直接拓展到中文描述,机理相同。
表1本发明方法与当前最先进方法的比较
Model B-1 B-4 M R C S
LSM-A 78.6 35.5 27.3 56.8 118.3 20.8
GCN-LSTM 80.5 38.2 28.5 58.5 128.3 22.0
Stack-Cap 78.6 36.1 27.4 56.9 120.4 20.9
SGAE 80.8 38.4 28.4 58.6 127.8 22.1
Up-Down 79.8 36.3 27.7 56.9 120.1 21.4
本发明方法 80.6 39.0 28.6 58.8 128.3 22.3
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (7)

1.一种基于自适应局部概念嵌入的图像描述方法,其特征在于包括如下步骤:
步骤1,采用目标检测器提取待描述图像的若干个候选区及各候选区对应的特征;
步骤2,将步骤1提取的特征输入训练好的神经网络,从而输出待描述图像的描述结果;其中,神经网络的全局损失函数通过如下方法获得;
步骤A1,对训练集中的文本内容进行预处理,得到句子序列;对训练集中的图像,采用目标检测器提取若干个候选区,并提取各个候选区所对应的特征V={v1,v2…,vk},其中vi∈Rd,i=1,2,…,k,d为各个特征向量的维度;
步骤A2,将特征V送入自适应引导信号生成层,生成自适应引导信号;
步骤A3,采用注意力机制,利用自适应引导信号获取局部视觉特征,并由此得到局部概念;
步骤A4,通过向量裂解的方法将局部概念嵌入到生成模型中,获取当前输出词;
步骤A5,迭代生成整个句子,并定义生成句子的损失函数。
2.如权利要求1所述的基于自适应局部概念嵌入的图像描述方法,其特征在于:所述步骤1中,目标检测器的训练方法是:目标检测器采用Faster R-CNN框架,其骨架网络是深度卷积残差网络,首先采用端到端的方法在经典目标检测数据集PASCAL VOC2007中进行训练,然后在多模态数据集Visual Genome上进一步训练微调网络参数。
3.如权利要求1所述的基于自适应局部概念嵌入的图像描述方法,其特征在于:所述步骤A1中,对训练集中的文本内容进行预处理,得到句子序列的具体过程是:首先对训练集中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,对于得到的若干单词,剔除数据集描述中出现次数小于阈值的单词,使用“<UNK>”进行替代;最后,句子的开头和结尾分别加入开始符“<BOS>”和结束符“<END>”。
4.如权利要求1所述的基于自适应局部概念嵌入的图像描述方法,其特征在于:所述步骤A2中,基于特征V生成自适应引导信号的相关公式如下:
Figure FDA0002543705990000021
Figure FDA0002543705990000022
Figure FDA0002543705990000023
其中,t为句子序列的第t个词,
Figure FDA0002543705990000024
为该自适应引导信号生成层的输入,且We为词向量矩阵,
Figure FDA0002543705990000025
是该层输出的引导信号,xt表示t时刻输入的词所对应的索引。
5.如权利要求4所述的基于自适应局部概念嵌入的图像描述方法,其特征在于:所述步骤A3的具体过程是:
首先根据如下公式:
Figure FDA0002543705990000026
Figure FDA0002543705990000027
其中,
Figure FDA0002543705990000028
Wv1∈Rk×d、Wh1∈Rk×d是需要学习的参数,|∈Rk为所有元素都是1的向量,Softmax函数为归一化指数函数;由此得到各个候选区的重要程度
Figure FDA0002543705990000029
用来获得当前模型关注到的局部视觉特征:
Figure FDA00025437059900000210
Figure FDA00025437059900000211
其中,
Figure FDA00025437059900000212
即得到的视觉概念,Wvc为实现预训练好的概念检测层,
Figure FDA00025437059900000213
即为模型关注到的视觉概念,σ为激活函数;
利用
Figure FDA00025437059900000214
修正自适应引导信号,如下:
Figure FDA00025437059900000215
其中[;]表示向量拼接,Wh为需要训练的参数矩阵;
然后进行如下迭代,直至得到最终的局部概念,过程如下:
Figure FDA0002543705990000031
Figure FDA0002543705990000032
Figure FDA0002543705990000033
Figure FDA0002543705990000034
其中,
Figure FDA0002543705990000035
Wv2∈Rk×d、Wh2∈Rk×d是需要学习的参数,I∈Rk为所有元素都是1的向量,Softmax函数为归一化指数函数。
6.如权利要求5所述的基于自适应局部概念嵌入的图像描述方法,其特征在于:所述步骤A4的具体过程是:
首先进行如下向量裂解:
Figure FDA0002543705990000036
Figure FDA0002543705990000037
其中,diag(.)表示向量对角化,xt表示t时刻输入的词所对应的索引,
Figure FDA0002543705990000038
Figure FDA0002543705990000039
是将局部概念进行裂解操作,此后将信息嵌入到输入词与隐含状态中;
以下为了嵌入局部概念的信息定义模块输入:
Figure FDA00025437059900000310
其中[.;.;.;.]表示向量拼接操作;
然后,将嵌入信息的输入通过映射,得到
Figure FDA00025437059900000311
it=σ(WiEi),ft=σ(WfEf)
ot=σ(WoEo),
Figure FDA00025437059900000312
Figure FDA00025437059900000313
Figure FDA00025437059900000314
其中,Wi、Ei、Wf、Ef、Wo、Eo、Wc、Ec都是需要训练的参数矩阵;
最后,获得下一个词的概率分布:
Figure FDA00025437059900000315
其中Wy为待训练的参数矩阵,将隐含状态映射到词汇表。
7.如权利要求6所述的基于自适应局部概念嵌入的图像描述方法,其特征在于:所述步骤A5的具体过程是:
对于预测的句子Y=y1:T而言,生成整个句子的概率由每个词的概率累乘得到,即:
Figure FDA0002543705990000041
其中T为句子长度;
通过监督学习和强化学习两个阶段对模型进行训练;在监督学习阶段,采用交叉熵,对于给定的目标句子
Figure FDA0002543705990000042
而言,其损失函数定义为:
Figure FDA0002543705990000043
在强化学习阶段,采用强化学习进行训练,其损失函数定义为:
Figure FDA0002543705990000044
其中
Figure FDA0002543705990000045
表示通过贪婪法抽样出的句子,而
Figure FDA0002543705990000046
表示通过蒙特卡洛方法抽样出的句子。
CN202010554218.7A 2020-06-17 2020-06-17 基于自适应局部概念嵌入的图像描述方法 Active CN111737511B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010554218.7A CN111737511B (zh) 2020-06-17 2020-06-17 基于自适应局部概念嵌入的图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010554218.7A CN111737511B (zh) 2020-06-17 2020-06-17 基于自适应局部概念嵌入的图像描述方法

Publications (2)

Publication Number Publication Date
CN111737511A true CN111737511A (zh) 2020-10-02
CN111737511B CN111737511B (zh) 2022-06-07

Family

ID=72649581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010554218.7A Active CN111737511B (zh) 2020-06-17 2020-06-17 基于自适应局部概念嵌入的图像描述方法

Country Status (1)

Country Link
CN (1) CN111737511B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329794A (zh) * 2020-11-06 2021-02-05 北京工业大学 一种基于双重自注意力机制的图像描述方法
CN112819012A (zh) * 2021-01-29 2021-05-18 厦门大学 一种基于多源协同特征的图像描述生成方法
CN112819013A (zh) * 2021-01-29 2021-05-18 厦门大学 基于层内层间联合全局表示的图像描述方法
CN112861988A (zh) * 2021-03-04 2021-05-28 西南科技大学 一种基于注意力图神经网络的特征匹配方法
CN113139378A (zh) * 2021-03-18 2021-07-20 杭州电子科技大学 一种基于视觉嵌入和条件归一化的图像描述方法
CN113158791A (zh) * 2021-03-15 2021-07-23 上海交通大学 一种以人为中心的图像描述标注方法、系统、终端及介质
CN113283248A (zh) * 2021-04-29 2021-08-20 桂林电子科技大学 散点图描述的自然语言自动生成方法及装置
CN113837233A (zh) * 2021-08-30 2021-12-24 厦门大学 基于样本自适应语义引导的自注意力机制的图像描述方法
CN117423108A (zh) * 2023-09-28 2024-01-19 中国科学院自动化研究所 指令微调多模态大模型的图像细粒度描述方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2296197A1 (fr) * 1974-12-24 1976-07-23 Thomson Csf Procede et dispositif utilisant un effet thermo-optique dans une couche mince en phase smectique pour la reproduction d'images avec memoire
DE102008008707A1 (de) * 2008-02-11 2009-08-13 Deutsches Zentrum für Luft- und Raumfahrt e.V. Resampling von digitalen Bildern
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN109376610A (zh) * 2018-09-27 2019-02-22 南京邮电大学 视频监控中基于图像概念网络的行人不安全行为检测方法
CN110268712A (zh) * 2017-02-07 2019-09-20 皇家飞利浦有限公司 用于处理图像属性图的方法和装置
CN110598713A (zh) * 2019-08-06 2019-12-20 厦门大学 基于深度神经网络的智能图像自动描述方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2296197A1 (fr) * 1974-12-24 1976-07-23 Thomson Csf Procede et dispositif utilisant un effet thermo-optique dans une couche mince en phase smectique pour la reproduction d'images avec memoire
DE102008008707A1 (de) * 2008-02-11 2009-08-13 Deutsches Zentrum für Luft- und Raumfahrt e.V. Resampling von digitalen Bildern
CN110268712A (zh) * 2017-02-07 2019-09-20 皇家飞利浦有限公司 用于处理图像属性图的方法和装置
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN109376610A (zh) * 2018-09-27 2019-02-22 南京邮电大学 视频监控中基于图像概念网络的行人不安全行为检测方法
CN110598713A (zh) * 2019-08-06 2019-12-20 厦门大学 基于深度神经网络的智能图像自动描述方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329794A (zh) * 2020-11-06 2021-02-05 北京工业大学 一种基于双重自注意力机制的图像描述方法
CN112329794B (zh) * 2020-11-06 2024-03-12 北京工业大学 一种基于双重自注意力机制的图像描述方法
CN112819012B (zh) * 2021-01-29 2022-05-03 厦门大学 一种基于多源协同特征的图像描述生成方法
CN112819012A (zh) * 2021-01-29 2021-05-18 厦门大学 一种基于多源协同特征的图像描述生成方法
CN112819013A (zh) * 2021-01-29 2021-05-18 厦门大学 基于层内层间联合全局表示的图像描述方法
CN112861988A (zh) * 2021-03-04 2021-05-28 西南科技大学 一种基于注意力图神经网络的特征匹配方法
CN113158791A (zh) * 2021-03-15 2021-07-23 上海交通大学 一种以人为中心的图像描述标注方法、系统、终端及介质
CN113139378B (zh) * 2021-03-18 2022-02-18 杭州电子科技大学 一种基于视觉嵌入和条件归一化的图像描述方法
CN113139378A (zh) * 2021-03-18 2021-07-20 杭州电子科技大学 一种基于视觉嵌入和条件归一化的图像描述方法
CN113283248A (zh) * 2021-04-29 2021-08-20 桂林电子科技大学 散点图描述的自然语言自动生成方法及装置
CN113283248B (zh) * 2021-04-29 2022-06-21 桂林电子科技大学 散点图描述的自然语言自动生成方法及装置
CN113837233A (zh) * 2021-08-30 2021-12-24 厦门大学 基于样本自适应语义引导的自注意力机制的图像描述方法
CN113837233B (zh) * 2021-08-30 2023-11-17 厦门大学 基于样本自适应语义引导的自注意力机制的图像描述方法
CN117423108A (zh) * 2023-09-28 2024-01-19 中国科学院自动化研究所 指令微调多模态大模型的图像细粒度描述方法及系统
CN117423108B (zh) * 2023-09-28 2024-05-24 中国科学院自动化研究所 指令微调多模态大模型的图像细粒度描述方法及系统

Also Published As

Publication number Publication date
CN111737511B (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN111737511B (zh) 基于自适应局部概念嵌入的图像描述方法
CN112819013A (zh) 基于层内层间联合全局表示的图像描述方法
CN108985370B (zh) 图像标注语句自动生成方法
CN110705490B (zh) 视觉情感识别方法
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN115982350A (zh) 基于多模态Transformer的虚假新闻检测方法
CN113837233B (zh) 基于样本自适应语义引导的自注意力机制的图像描述方法
Wang et al. Recognizing handwritten mathematical expressions as LaTex sequences using a multiscale robust neural network
CN111680684A (zh) 一种基于深度学习的书脊文本识别方法、设备及存储介质
CN111723852A (zh) 针对目标检测网络的鲁棒训练方法
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
CN113780289A (zh) 图像识别方法及装置、存储介质和电子设备
CN110889276B (zh) 复数融合特征提取指针式抽取三元组信息的方法、系统及计算机介质
CN110750669B (zh) 一种图像字幕生成的方法及系统
CN112084788A (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN113837231B (zh) 一种基于混合样本与标签的数据增强的图像描述方法
CN112016493A (zh) 图像描述方法、装置、电子设备及存储介质
CN115982629A (zh) 一种基于语义引导的特征选择的图像描述方法
CN116484224A (zh) 一种多模态预训练模型的训练方法、装置、介质及设备
CN113221870B (zh) 一种用于移动终端的ocr识别方法、装置、存储介质及设备
CN112329803B (zh) 一种基于标准字形生成的自然场景文字识别方法
CN113569867A (zh) 一种图像处理方法、装置、计算机设备及存储介质
Mishra et al. Environment descriptor for the visually impaired

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant