CN112528989A - 一种图像语义细粒度的描述生成方法 - Google Patents

一种图像语义细粒度的描述生成方法 Download PDF

Info

Publication number
CN112528989A
CN112528989A CN202011387365.6A CN202011387365A CN112528989A CN 112528989 A CN112528989 A CN 112528989A CN 202011387365 A CN202011387365 A CN 202011387365A CN 112528989 A CN112528989 A CN 112528989A
Authority
CN
China
Prior art keywords
image
region
description
semantic
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011387365.6A
Other languages
English (en)
Other versions
CN112528989B (zh
Inventor
李红波
汤跃
吴渝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Kailing Technology Co ltd
Urumqi Bangbangjun Technology Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011387365.6A priority Critical patent/CN112528989B/zh
Publication of CN112528989A publication Critical patent/CN112528989A/zh
Application granted granted Critical
Publication of CN112528989B publication Critical patent/CN112528989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明请求保护一种图像语义细粒度的描述生成方法,属于计算机视觉和自然语言处理相融合的领域,解决了现有技术生成的图像语义描述粗糙不够精细的问题。该方法包括以下步骤:选取数据集和语料库,并对数据预处理;引入注意力机制的网络提取感兴趣区域特征,并根据感兴趣区域特征得到语义补充区域特征;将感兴趣区域特征输入到第一个长短时记忆网络,生成粗糙的图像语义描述;将已生成的图像语义描述输入到第二个长短时记忆网络,并根据语义补充区域特征对图像语义描述进行细化更新,获得图像语义细粒度的描述内容。该方法不仅提高了图像语义描述的精确度,还提高了图像语义描述的细粒度。

Description

一种图像语义细粒度的描述生成方法
技术领域
本发明属于计算机视觉和自然语言处理技术领域,特别是涉及一种图像语义细粒度的描述生成方法。
背景技术
在人工智能的时代背景下,运用计算机理解图像,获取图像语义描述是一项具有前景的研究。运用计算机语义化理解图像,不仅涉及到计算机视觉,也与自然语言处理息息相关,是一项融合计算机视觉技术与自然语言处理技术的综合任务。计算机对图像进行语义分析、理解和自动描述是极具潜力的应用。对图像语义描述技术的推广研究也将为相关领域带来更广阔的应用场景,如图像检索、安全辅助驾驶、为视觉障碍人士提供视觉辅助、智能服务机器人和幼儿教育等领域。
早期的图像描述方法是通过将从图像中提取的对象和属性填充到预定义的句子模板中;随着深度学习的发展,目前主流的方法是基于编码器-解码器的体系结构,其中使用卷积神经网络提取图像特征,使用循环神经网络生成图像描述内容。
当前图像语义描述模型对于内容复杂的图像,如图像中存在多义和不确定的事务、隐式和显式的信息、复杂场景、复杂的对象与对象的关系等,生成的描述难以完整地描述图像语义,描述内容过于简单。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种旨在针对当前图像描述难以完整地描述图像语义以及生成的描述内容过于简单的问题,图像语义细粒度的描述生成方法。本发明的技术方案如下:
一种图像语义细粒度的描述生成方法,其包括以下步骤:
步骤1:获取开源并且已经标注描述的图像数据集,根据数据集的大小,划分训练集、验证集和测试集;抓取网络上公开的文本数据,构建语料库;
步骤2:对步骤1的图像数据和文本数据进行绑定、筛选、转格式和向量化的预处理;
步骤3:引入注意力机制的网络模型对图像进行特征提取,引入注意力机制的网络模型自动选定图像中感兴趣的提议区域,并提取此区域的图像特征;
步骤4:根据步骤3提取出的感兴趣区域图像特征作为反馈,对全局特征进一步筛选,提取出语义补充区域的特征。
步骤5:将步骤3提取出的感兴趣区域的特征输入到第一个长短时记忆网络,生成粗糙的图像语义描述;
步骤6:将步骤4提取出的语义补充区域的特征和步骤5已生成的图像语义描述输入到第二个长短时记忆网络,LSTM根据补充区域的特征细化图像语义的描述,最终得到图像语义细粒度的描述。
进一步的,所述步骤1具体采用的数据集如下:
a:Flickr30k数据集,经过选取和切分,包含29000张训练图片,1000张验证图片,1000张测试图片;
b:抓取100多万条英文句子组成图像描述语料库。
进一步的,所述步骤2对步骤1的图像数据和文本数据进行预处理,具体包括步骤:
将图像数据调整为相同的尺寸;去除语料库的符号、数字和特殊字符,将所有的文本数据转换为预定义的json格式,设置最大的单词频率,将出现次数超过设置的单词频率的单词,添加到词典中;将出现次数低于设置的单词频率的单词,使用预设符号代替,构建出词典;根据词典的大小,通过Word2Vec编码方法对单词进行词向量化。
进一步的,所述步骤3引入注意力机制的网络模型对图像进行特征提取,引入注意力机制的网络模型自动选定图像中感兴趣的提议区域,并提取此区域的图像特征,具体包括:
使用Faster-RCNN网络提取图像感兴趣区域特征向量,输入的图像经过卷积神经网络CNN提取全局特征,再输入到区域提议网络RPN提取图像感兴趣区域特征,得到的图像感兴趣区域特征向量,每一维代表了图像特征,维度为 2048;对感兴趣区域进一步分组,将感兴趣区域设为集合B,将提取的物体特征结点信息设为集合N,将边界框设为R,构建特征信息图G={B,N,R},将构建的特征信息图和编码的词向量输入到图神经网络GNN,候选区域特征的特征向量为fi b,物体特征向量为fi n,边界框特征向量为fi r,在每个时间步骤t中,物体结点和相邻边界框的集合为Ni,物体结点和相邻边界框结点进行聚合:
Figure RE-GDA0002920859150000031
其中
Figure RE-GDA0002920859150000032
表示隐藏状态。
根据单词的词性,抽取不同语义层的特征信息,将名词词性的单词与B集合绑定,同时也要与N集合绑定,将动词词性的单词与集合R进行绑定,将特征信息fi和词向量vc在全连接层
Figure RE-GDA0002920859150000033
上绑定进行转换,转换后的信息表示为Ic
Figure RE-GDA0002920859150000034
进一步的,所述步骤4具体实现方法为:将步骤3提取的感兴趣区域特征作为输入,这些感兴趣区域特征经过双线性插值进行缩放,得到同样的维度,经过缩放后的特征为f,特征经过ReLu激活函数之后,生成逆向掩码mask:
Figure RE-GDA0002920859150000035
其中σ表示sigmoid激活函数。
逆向掩码mask结合全局特征fall,设置逆向权重ωre,提取出语义补充区域的特征fed
fed=ωre*mask*fall
进一步的,所述步骤5具体步骤包括:将步骤3提取出的感兴趣区域的特征向量和词向量绑定后的特征进行空间自适应平均池化:
Figure RE-GDA0002920859150000041
其中k表示区域提议网络处理后的区域个数,k的大小是14,vi表示区域提议网络提取的图像特征向量;
池化后输入第一个长短时记忆网络LSTM,LSTM进行更新,隐藏层的输入为:
ht=LSTM1(ht-1,it-1)
其中it-1表示生成的预测词序列,当t=0时,ht=0;
生成粗糙的图像语义描述为:
it=[f(I),ht-1]
将步骤c转换的内容输入第一个长短时记忆网络LSTM,经过第一个LSTM生成较为粗糙的图像语义描述,每一个时间步上t∈[0,T-1],LSTM更新为:
ht=LSTM1(IC)
其中T表示总的时间步。
进一步的,所述步骤6具体包括:将步骤5生成粗糙的图像语义描述内容需要作为输入,根据提取的边缘补充区域,并引入注意力机制,输入到第二个 LSTM网络中,第二个LSTM对已生成的粗糙句子进行细化,训练时引入注意力模型:
αt=s0ftmax(ωαAt+bα)
At=tanh(ωfed)
其中αt对应每个图像补充区域的注意力概率,At表示特征经过tanh激活函数的结果,ωα、bα和ωfα均为学习参数。
定义最小化交叉熵损失为:
Figure RE-GDA0002920859150000042
其中,Pθ(Yt|Y0:T-1)是LSTM给出的单词Yt的输出概率,Y0:T-1表示前一个时间步的单词。
本发明的优点及有益效果如下:
本发明与现有技术相比为图像语义描述工作提供了一个新的解决方案,方案效率高。一是将编码过程分为感兴趣提议区和边缘补充区;二是将解码过程分为两步,第一步根据感应趣提议区生成描述,第二步根据边缘补充区对第一步生成的描述进行细化补充。具体有以下良好的技术效果:
(1)将Fast R-CNN网络提取的感兴趣提议区进行分组,与词向量进行动态绑定,输入第一个解码器LSTM网络中,提高了图像语义描述生成的准确度
(2)将边缘补充区作为补充,第二个解码器LSTM网络对已生成的图像语义描述进行细化补充,从而提高了生成图像语义描述的细粒度。
附图说明
图1是本发明提供优选实施例的整体流程图;
图2为注意力机制的网络模型图;
图3为提取语义补充区域特征的流程图;
图4为图像语义生成结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图1所示,本发明按下述步骤进行图像语义细粒度的描述生成:
步骤1:寻找开源的并且已经标注描述的图像数据集,根据数据集的大小,进一步划分训练集、验证集和测试集;抓取网络上公开的文本数据,构建语料库。所述的数据集为Flickr30k数据集,经过选取和切分,包含29000张训练图片,1000张验证图片,1000张测试图片。从网上抓取100多万条公开英文句子组成图像描述语料库。
步骤2:对图像数据和文本数据进行预处理,将图像数据调整为相同的尺寸;去除语料库的符号、数字和特殊字符,将所有的文本数据转换为预定义的json 格式。设置最大的单词频率为20,将出现次数超过20的单词,添加到词典中;将出现次数低于20的单词,使用预设符号代替,构建出词典,词典大小为20000。根据词典的大小,通过Word2Vec编码方法对单词进行词向量化,词向量的维度是1024。
步骤3:如图2所示,使用Faster-RCNN网络提取图像感兴趣区域特征向量,输入的图像经过卷积神经网络CNN提取全局特征,再输入到区域提议网络RPN 提取图像感兴趣区域特征,得到的图像感兴趣区域特征向量,每一维代表了图像特征,维度为2048;对感兴趣区域进一步分组,将感兴趣区域设为集合B,将提取的物体特征结点信息设为集合N,将边界框设为R,构建特征信息图 G={B,N,R},将构建的特征信息图和编码的词向量输入到图神经网络GNN,候选区域特征的特征向量为fi b,物体特征向量为fi n,边界框特征向量为fi r,在每个时间步骤t中,物体结点和相邻边界框的集合为Ni,物体结点和相邻边界框结点进行聚合:
Figure RE-GDA0002920859150000061
其中
Figure RE-GDA0002920859150000062
表示隐藏状态。
根据单词的词性,抽取不同语义层的特征信息,将名词词性的单词与B集合绑定,同时也要与N集合绑定,将动词词性的单词与集合R进行绑定,将特征信息fi和词向量vc在全连接层
Figure RE-GDA0002920859150000063
上绑定进行转换,转换后的信息表示为Ic
Figure RE-GDA0002920859150000064
步骤4:如图3所示,将提取的感兴趣区域特征作为输入,这些多尺度特征经过双线性插值进行缩放,得到同样的维度,经过缩放后的特征为f,并生成逆向掩码mask
Figure RE-GDA0002920859150000071
其中σ表示sigmoid激活函数。
逆向掩码mask联合全局fall,设置逆向权重ωre,提取出边缘补充区域的特征fed
fed=ωre*mask*fall
步骤5:如图4所示,将步骤3提取出的感兴趣区域的特征向量和词向量绑定后的特征进行空间自适应平均池化:
Figure RE-GDA0002920859150000072
其中k表示区域提议网络处理后的区域个数,k的大小是14,vi表示区域提议网络提取的图像特征向量。
池化后喂入第一个长短时记忆网络LSTM,LSTM进行更新,隐藏层的输入为:
ht=LSTM1(ht-1,it-1)
其中it-1表示生成的预测词序列,当t=0时,ht=0。
生成粗糙的图像语义描述为:
it=[f(I),ht-1]
步骤6:将步骤5生成粗糙的图像语义描述内容需要作为输入,根据提取的边缘补充区域,并引入注意力机制,输入到第二个LSTM网络中,第二个LSTM 对已生成的粗糙句子进行细化。训练时引入注意力模型:
αt=softmax(ωαAt+bα)
At=tanh(ωfed)
其中αt对应每个图像补充区域的注意力概率,At表示特征经过tanh激活函数的结果,ωα,bα,ω均为学习参数。
定义最小化交叉熵损失为:
Figure RE-GDA0002920859150000081
其中,Pθ(Yt|Y0:T-1)是LSTM给出的单词Yt的输出概率,Y0:T-1表示前一个时间步的单词。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (7)

1.一种图像语义细粒度的描述生成方法,其特征在于,包括以下步骤:
步骤1:获取开源并且已经标注描述的图像数据集,根据数据集的大小,划分训练集、验证集和测试集;抓取网络上公开的文本数据,构建语料库;
步骤2:对步骤1的图像数据和文本数据进行绑定、筛选、转格式和向量化的预处理;
步骤3:引入注意力机制的网络模型对图像进行特征提取,引入注意力机制的网络模型自动选定图像中感兴趣的提议区域,并提取此区域的图像特征;
步骤4:根据步骤3提取出的感兴趣区域图像特征作为反馈,对全局特征进一步筛选,提取出语义补充区域的特征。
步骤5:将步骤3提取出的感兴趣区域的特征输入到第一个长短时记忆网络,生成粗糙的图像语义描述;
步骤6:将步骤4提取出的语义补充区域的特征和步骤5已生成的图像语义描述输入到第二个长短时记忆网络(LSTM),LSTM根据补充区域的特征细化图像语义的描述,最终得到图像语义细粒度的描述。经过训练,输入一张图片就能对图片进行理解,输出细粒度的图像描述。
2.根据权利要求1所述的一种图像语义细粒度的描述生成方法,其特征在于,所述步骤1具体采用的数据集如下:
a:Flickr30k数据集,经过选取和切分,包含29000张训练图片,1000张验证图片,1000张测试图片;
b:抓取100多万条英文句子组成图像描述语料库。
3.根据权利要求1所述的一种图像语义细粒度的描述生成方法,其特征在于,所述步骤2对步骤1的图像数据和文本数据进行预处理,具体包括步骤:
将图像数据调整为相同的尺寸;去除语料库的符号、数字和特殊字符,将所有的文本数据转换为预定义的json格式,设置最大的单词频率,将出现次数超过设置的单词频率的单词,添加到词典中;将出现次数低于设置的单词频率的单词,使用预设符号代替,构建出词典;根据词典的大小,通过Word2Vec编码方法对单词进行词向量化。
4.根据权利要求1所述的一种图像语义细粒度的描述生成方法,其特征在于,所述步骤3引入注意力机制的网络模型对图像进行特征提取,引入注意力机制的网络模型自动选定图像中感兴趣的提议区域,并提取此区域的图像特征,具体包括:
使用Faster-RCNN网络提取图像感兴趣区域特征向量,输入的图像经过卷积神经网络CNN提取全局特征,再输入到区域提议网络RPN提取图像感兴趣区域特征,得到的图像感兴趣区域特征向量,每一维代表了图像特征,维度为2048;对感兴趣区域进一步分组,将感兴趣区域设为集合B,将提取的物体特征结点信息设为集合N,将边界框设为R,构建特征信息图G={B,N,R},将构建的特征信息图和编码的词向量输入到图神经网络GNN,候选区域特征的特征向量为fi b,物体特征向量为fi n,边界框特征向量为fi r,在每个时间步骤t中,物体结点和相邻边界框的集合为Ni,物体结点和相邻边界框结点进行聚合:
Figure RE-FDA0002920859140000021
其中
Figure RE-FDA0002920859140000022
表示隐藏状态。
根据单词的词性,抽取不同语义层的特征信息,将名词词性的单词与B集合绑定,同时也要与N集合绑定,将动词词性的单词与集合R进行绑定,将特征信息fi和词向量vc在全连接层
Figure RE-FDA0002920859140000023
上绑定进行转换,转换后的信息表示为Ic
Figure RE-FDA0002920859140000024
5.根据权利要求4所述的一种图像语义细粒度的描述生成方法,其特征在于,所述步骤4具体实现方法为:将步骤3提取的感兴趣区域特征作为输入,这些感兴趣区域特征经过双线性插值进行缩放,得到同样的维度,经过缩放后的特征为f,特征经过ReLu激活函数之后,生成逆向掩码mask:
Figure RE-FDA0002920859140000025
其中σ表示sigmoid激活函数。
逆向掩码mask结合全局特征fall,设置逆向权重ωre,提取出语义补充区域的特征fed
fed=ωre*mask*fall
6.根据权利要求5所述的一种图像语义细粒度的描述生成方法,其特征在于,
所述步骤5具体步骤包括:将步骤3提取出的感兴趣区域的特征向量和词向量绑定后的特征进行空间自适应平均池化:
Figure RE-FDA0002920859140000031
其中k表示区域提议网络处理后的区域个数,k的大小是14,vi表示区域提议网络提取的图像特征向量;
池化后输入第一个长短时记忆网络LSTM,LSTM进行更新,隐藏层的输入为:
ht=LSTM1(ht-1,it-1)
其中it-1表示生成的预测词序列,当t=0时,ht=0;
生成粗糙的图像语义描述为:
it=[f(I),ht-1]
将步骤c转换的内容输入第一个长短时记忆网络LSTM,经过第一个LSTM生成较为粗糙的图像语义描述,每一个时间步上t∈[0,T-1],LSTM更新为:
ht=LSTM1(IC)
其中T表示总的时间步。
7.根据权利要求6所述的一种图像语义细粒度的描述生成方法,其特征在于,
所述步骤6具体包括:将步骤5生成粗糙的图像语义描述内容需要作为输入,根据提取的边缘补充区域,并引入注意力机制,输入到第二个LSTM网络中,第二个LSTM对已生成的粗糙句子进行细化,训练时引入注意力模型:
αt=softmax(ωαAt+bα)
At=tanh(ωfed)
其中αt对应每个图像补充区域的注意力概率,At表示特征经过tanh激活函数的结果,ωα、bα和ω均为学习参数。
定义最小化交叉熵损失为:
Figure RE-FDA0002920859140000041
其中,Pθ(Yt|Y0:T-1)是LSTM给出的单词Yt的输出概率,Y0:T-1表示前一个时间步的单词。
CN202011387365.6A 2020-12-01 2020-12-01 一种图像语义细粒度的描述生成方法 Active CN112528989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011387365.6A CN112528989B (zh) 2020-12-01 2020-12-01 一种图像语义细粒度的描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011387365.6A CN112528989B (zh) 2020-12-01 2020-12-01 一种图像语义细粒度的描述生成方法

Publications (2)

Publication Number Publication Date
CN112528989A true CN112528989A (zh) 2021-03-19
CN112528989B CN112528989B (zh) 2022-10-18

Family

ID=74996036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011387365.6A Active CN112528989B (zh) 2020-12-01 2020-12-01 一种图像语义细粒度的描述生成方法

Country Status (1)

Country Link
CN (1) CN112528989B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114037831A (zh) * 2021-07-20 2022-02-11 星汉智能科技股份有限公司 图像深度密集描述方法、系统及存储介质
CN114417891A (zh) * 2022-01-22 2022-04-29 平安科技(深圳)有限公司 基于粗糙语义的回复语句确定方法、装置及电子设备

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170147910A1 (en) * 2015-10-02 2017-05-25 Baidu Usa Llc Systems and methods for fast novel visual concept learning from sentence descriptions of images
CN107680109A (zh) * 2017-09-15 2018-02-09 盐城禅图智能科技有限公司 一种引用逆注意力与像素相似度学习的图像语义分割方法
WO2018094296A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Sentinel long short-term memory
CN109086357A (zh) * 2018-07-18 2018-12-25 深圳大学 基于变分自动编码器的情感分类方法、装置、设备及介质
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN110033008A (zh) * 2019-04-29 2019-07-19 同济大学 一种基于模态变换与文本归纳的图像描述生成方法
CN110168573A (zh) * 2016-11-18 2019-08-23 易享信息技术有限公司 用于图像标注的空间注意力模型
CN110188779A (zh) * 2019-06-03 2019-08-30 中国矿业大学 一种图像语义描述的生成方法
CN110390363A (zh) * 2019-07-29 2019-10-29 上海海事大学 一种图像描述方法
CN110458282A (zh) * 2019-08-06 2019-11-15 齐鲁工业大学 一种融合多角度多模态的图像描述生成方法及系统
CN110472642A (zh) * 2019-08-19 2019-11-19 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及系统
CN110674850A (zh) * 2019-09-03 2020-01-10 武汉大学 一种基于注意力机制的图像描述生成方法
WO2020081314A1 (en) * 2018-10-15 2020-04-23 Ancestry.Com Operations Inc. Image captioning with weakly-supervised attention penalty
CN111160467A (zh) * 2019-05-31 2020-05-15 北京理工大学 一种基于条件随机场和内部语义注意力的图像描述方法
CN111310676A (zh) * 2020-02-21 2020-06-19 重庆邮电大学 基于CNN-LSTM和attention的视频动作识别方法
CN111462282A (zh) * 2020-04-02 2020-07-28 哈尔滨工程大学 一种场景图生成方法
CN111612103A (zh) * 2020-06-23 2020-09-01 中国人民解放军国防科技大学 结合抽象语义表示的图像描述生成方法、系统及介质
CN111859005A (zh) * 2020-07-01 2020-10-30 江西理工大学 一种跨层多模型特征融合与基于卷积解码的图像描述方法

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170147910A1 (en) * 2015-10-02 2017-05-25 Baidu Usa Llc Systems and methods for fast novel visual concept learning from sentence descriptions of images
US20200117854A1 (en) * 2016-11-18 2020-04-16 Salesforce.Com, Inc. Adaptive Attention Model for Image Captioning
WO2018094296A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Sentinel long short-term memory
CN110168573A (zh) * 2016-11-18 2019-08-23 易享信息技术有限公司 用于图像标注的空间注意力模型
CN107680109A (zh) * 2017-09-15 2018-02-09 盐城禅图智能科技有限公司 一种引用逆注意力与像素相似度学习的图像语义分割方法
CN109086357A (zh) * 2018-07-18 2018-12-25 深圳大学 基于变分自动编码器的情感分类方法、装置、设备及介质
WO2020081314A1 (en) * 2018-10-15 2020-04-23 Ancestry.Com Operations Inc. Image captioning with weakly-supervised attention penalty
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN110033008A (zh) * 2019-04-29 2019-07-19 同济大学 一种基于模态变换与文本归纳的图像描述生成方法
CN111160467A (zh) * 2019-05-31 2020-05-15 北京理工大学 一种基于条件随机场和内部语义注意力的图像描述方法
CN110188779A (zh) * 2019-06-03 2019-08-30 中国矿业大学 一种图像语义描述的生成方法
CN110390363A (zh) * 2019-07-29 2019-10-29 上海海事大学 一种图像描述方法
CN110458282A (zh) * 2019-08-06 2019-11-15 齐鲁工业大学 一种融合多角度多模态的图像描述生成方法及系统
CN110472642A (zh) * 2019-08-19 2019-11-19 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及系统
CN110674850A (zh) * 2019-09-03 2020-01-10 武汉大学 一种基于注意力机制的图像描述生成方法
CN111310676A (zh) * 2020-02-21 2020-06-19 重庆邮电大学 基于CNN-LSTM和attention的视频动作识别方法
CN111462282A (zh) * 2020-04-02 2020-07-28 哈尔滨工程大学 一种场景图生成方法
CN111612103A (zh) * 2020-06-23 2020-09-01 中国人民解放军国防科技大学 结合抽象语义表示的图像描述生成方法、系统及介质
CN111859005A (zh) * 2020-07-01 2020-10-30 江西理工大学 一种跨层多模型特征融合与基于卷积解码的图像描述方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
HARTATIK等: "Captioning Image Using Convolutional Neural Network (CNN) and Long-Short Term Memory (LSTM)", 《IEEE》 *
LUN HUANG等: "Attention on Attention for Image Captioning", 《IEEE》 *
PENG, YUQING等: "Image caption model of double LSTM with scene factors", 《IMAGE AND VISION COMPUTING》 *
PETER ANDERSON等: "Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering", 《IEEE》 *
WANG, CHENG等: "Image captioning with deep bidirectional LSTMs and multi-task learning", 《ACM TRANSACTIONS ON MULTIMEDIA COMPUTING COMMUNICATIONS AND APPLICATIONS》 *
张家硕等: "基于双向注意力机制的图像描述生成", 《中文信息学报》 *
武文博等: "基于深度卷积与全局特征的图像密集字幕描述", 《信号处理》 *
汤跃: "基于深度学习的图像语义细粒度描述方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王俊豪等: "通过细粒度的语义特征与Transformer丰富图像描述", 《华东师范大学学报(自然科学版)》 *
赵小虎等: "基于全局-局部特征和自适应注意力机制的图像语义描述算法", 《浙江大学学报(工学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114037831A (zh) * 2021-07-20 2022-02-11 星汉智能科技股份有限公司 图像深度密集描述方法、系统及存储介质
CN114417891A (zh) * 2022-01-22 2022-04-29 平安科技(深圳)有限公司 基于粗糙语义的回复语句确定方法、装置及电子设备
CN114417891B (zh) * 2022-01-22 2023-05-09 平安科技(深圳)有限公司 基于粗糙语义的回复语句确定方法、装置及电子设备

Also Published As

Publication number Publication date
CN112528989B (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN110502749B (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
Xie et al. Attention-based dense LSTM for speech emotion recognition
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN109815485B (zh) 一种微博短文本情感极性识别的方法、装置及存储介质
Li et al. Vision-language intelligence: Tasks, representation learning, and large models
CN111581970B (zh) 一种网络语境的文本识别方法、装置及存储介质
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
CN111949824A (zh) 基于语义对齐的视觉问答方法和系统、存储介质
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
Agrawal et al. Image Caption Generator Using Attention Mechanism
CN113761377B (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
Toshevska et al. Exploration into deep learning text generation architectures for dense image captioning
CN113792143B (zh) 一种基于胶囊网络的多语言情感分类方法、装置、设备及存储介质
CN114417872A (zh) 一种合同文本命名实体识别方法及系统
Cho et al. Design of image generation system for DCGAN-based kids' book text
Rafi et al. A linear sub-structure with co-variance shift for image captioning
El-Gayar Automatic Generation of Image Caption Based on Semantic Relation using Deep Visual Attention Prediction
CN113129399A (zh) 纹样生成
Hammad et al. Characterizing the impact of using features extracted from pre-trained models on the quality of video captioning sequence-to-sequence models
Xie et al. Enhancing multimodal deep representation learning by fixed model reuse
CN111801673A (zh) 应用程序的介绍方法、移动终端及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230829

Address after: 200120 building C, No.888, Huanhu West 2nd Road, Lingang New District, Pudong New Area, Shanghai

Patentee after: Shanghai Kailing Technology Co.,Ltd.

Address before: 830000, Room 17A, Building 17, Block A, Times Square Community, No. 59 Guangming Road, Tianshan District, Urumqi, Xinjiang Uygur Autonomous Region BD00244

Patentee before: Urumqi Bangbangjun Technology Co.,Ltd.

Effective date of registration: 20230829

Address after: 830000, Room 17A, Building 17, Block A, Times Square Community, No. 59 Guangming Road, Tianshan District, Urumqi, Xinjiang Uygur Autonomous Region BD00244

Patentee after: Urumqi Bangbangjun Technology Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TR01 Transfer of patent right