CN111737511A - 基于自适应局部概念嵌入的图像描述方法 - Google Patents
基于自适应局部概念嵌入的图像描述方法 Download PDFInfo
- Publication number
- CN111737511A CN111737511A CN202010554218.7A CN202010554218A CN111737511A CN 111737511 A CN111737511 A CN 111737511A CN 202010554218 A CN202010554218 A CN 202010554218A CN 111737511 A CN111737511 A CN 111737511A
- Authority
- CN
- China
- Prior art keywords
- concept
- local
- adaptive
- image
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于自适应局部概念嵌入的图像描述方法,属于人工智能技术领域,包括如下步骤:步骤1,采用目标检测器提取待描述图像的若干个候选区及各候选区对应的特征;步骤2,将步骤1提取的特征输入训练好的神经网络,从而输出待描述图像的描述结果。此种方法针对传统基于注意力机制的图像描述方法没有显性建模局部区域与概念的关系的缺点,提出通过上下文机制,自适应生成视觉区域并由此生成视觉概念的方案,强化视觉到语言的连接,从而提高生成描述的准确性。
Description
技术领域
本发明涉及人工智能领域中的图像自动描述,特别涉及一种基于图片用自然语言对图像客观内容进行描述的基于自适应局部概念嵌入的图像描述模型的研究方法。
背景技术
图像自动描述(Image Captioning)是近年来人工智能界提出的一个机器终极智能任务,它的任务是将于一张给定图像,用自然语言对图像客观内容进行描述。随着计算机视觉技术的发展,完成目标检测、识别、分割等任务已经不能满足人们的生产需求,对如何自动客观的对图像内容自动描述有迫切的需求。和目标检测及语义分割等任务不同,图像自动描述要将图像中的物体、属性、物体间的关系以及相应的场景等用自动语言进行整体而客观的描述,该任务是计算机视觉理解的重要方向之一,被视为人工智能的一个重要标志。
早先的图像自动描述主要采用基于模板的方法和基于检索的方法实现,直到近来受自然语言技术的启发,开始使用编码器-解码器框架,注意力机制以及以强化学习为基础的目标函数,该任务取得了极大的进展。
Xu等人[1]首次在图片描述任务中引入了注意力机制,用来将重要的视觉属性和场景嵌入到描述生成器中。继此之后,很多工作都对注意力机制提出了改进。例如,Chen[2]等人提出了空间和通道注意力机制,用以选择显著的区域以及显著的语义模式;Lu等人[3]提出了视觉哨兵的概念,用以决定下一步关注视觉信息还是文本信息,大大提高了模型的精确度;Anderson等人[4]先通过预训练好的目标检测器获取区域然后将此加入到模型用以生成图像字幕。但是这些方法都仅仅关注特定任务的上下文及视觉特征,并没有考虑到显性的建模视觉特征和概念之间的关系。
涉及的参考文献如下:
[1].Xu,K.;Ba,J.;Kiros,R.;Cho,K.;Courville,A.;Salakhudinov,R.;Zemel,R.;and Bengio,Y.2015.Show,attend and tell:Neural image caption generationwith visual attention.In ICML.
[2].Chen,L.;Zhang,H.;Xiao,J.;Nie,L.;Shao,J.;Liu,W.;and Chua,T.-S.2017b.Sca-cnn:Spatial and channel-wise attention in convolutional networksfor image captioning.In CVPR.
[3].Lu,J.;Xiong,C.;Parikh,D.;and Socher,R.2017.Knowing when to look:Adaptive attention via a visual sentinel for image captioning.In CVPR.
[4].Anderson,P.;He,X.;Buehler,C.;Teney,D.;Johnson,M.;Gould,S.;andZhang,L.2018.Bottom-up and top-down attention for image captioning and visualquestion answering.In CVPR.
发明内容
本发明的目的,在于提供一种基于自适应局部概念嵌入的图像描述方法,针对传统基于注意力机制的图像描述方法没有显性建模局部区域与概念的关系的缺点,提出通过上下文机制,自适应生成视觉区域并由此生成视觉概念的方案,强化视觉到语言的连接以及准确性。
为了达成上述目的,本发明的解决方案是:
一种基于自适应局部概念嵌入的图像描述方法,包括如下步骤:
步骤1,采用目标检测器提取待描述图像的若干个候选区及各候选区对应的特征;
步骤2,将步骤1提取的特征输入训练好的神经网络,从而输出待描述图像的描述结果;其中,神经网络的全局损失函数通过如下方法获得;
步骤A1,对训练集中的文本内容进行预处理,得到句子序列;对训练集中的图像,采用目标检测器提取若干个候选区,并提取各个候选区所对应的特征V={v1,v2...,vk},其中vi∈Rd,i=1,2,...,k,d为各个特征向量的维度;
步骤A2,将特征V送入自适应引导信号生成层,生成自适应引导信号;
步骤A3,采用注意力机制,利用自适应引导信号获取局部视觉特征,并由此得到局部概念;
步骤A4,通过向量裂解的方法将局部概念嵌入到生成模型中,获取当前输出词;
步骤A5,迭代生成整个句子,并定义生成句子的损失函数。
上述步骤1中,目标检测器的训练方法是:目标检测器采用Faster R-CNN框架,其骨架网络是深度卷积残差网络,首先采用端到端的方法在经典目标检测数据集PASCALVOC2007中进行训练,然后在多模态数据集Visual Genome上进一步训练微调网络参数。
上述步骤A1中,对训练集中的文本内容进行预处理,得到句子序列的具体过程是:首先对训练集中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,对于得到的若干单词,剔除数据集描述中出现次数小于阈值的单词,使用“<UNK>”进行替代;最后,句子的开头和结尾分别加入开始符“<BOS>”和结束符“<END>”。
上述步骤A2中,基于特征V生成自适应引导信号的相关公式如下:
上述步骤A3的具体过程是:
首先根据如下公式:
其中[;]表示向量拼接,Wh为需要训练的参数矩阵;
然后进行如下迭代,直至得到最终的局部概念,过程如下:
上述步骤A4的具体过程是:
首先进行如下向量裂解:
以下为了嵌入局部概念的信息定义模块输入:
其中[.;.;.;.]表示向量拼接操作;
it=σ(WiEi),ft=σ(WfEf)
ot=σ(WoEo),ct=σ(WcEc)
其中,Wi、Ei、Wf、Ef、Wo、Eo、Wc、Ec都是需要训练的参数矩阵;
最后,获得下一个词的概率分布:
其中Wy为待训练的参数矩阵,将隐含状态映射到词汇表。
上述步骤A5的具体过程是:
对于预测的句子Y=y1∶T而言,生成整个句子的概率由每个词的概率累乘得到,即:
其中T为句子长度;
在强化学习阶段,采用强化学习进行训练,其损失函数定义为:
采用上述方案后,本发明具有以下突出优点:
(1)本发明显式建模了局部视觉区域到语义概念的关系,从而提供视觉到语言的准确连接,大大减少了图像描述任务间存在的语义鸿沟问题,极大提升了生成句子的准确性和全面性;
(2)本发明具有很强的迁移性,能够适用于任何一个基于注意力机制的图像描述模型,改进模型的性能;
(3)本发明改进的图像描述的完整性和准确性,其主要应用场景在于理解给定图片视觉概念,为其自动生成描述,在图像检索,盲人导航,医疗报告自动生成和早教领域存在大量的应用前景。
附图说明
图1是本发明基于自适应局部概念嵌入的图像自动描述方法的流程图;
其中,RAM为局部概念抽取模块,LCFM为局部概念裂解嵌入模块,Attention为注意力模块;
图2是不同的图像描述模型生成的句子对比图;
其中,UP-DOWN是一种名为自顶向下的基线方法的名称;
图3是局部概念嵌入时所使用的映射矩阵以列为单位求相似度并可视化的结果;
图4是本发明所采用的框架自适应选择的区域可视化及相应可视化出的区域映射出的语义概念;
图5是某一语义概念与视觉区域的对应关系可视化。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
本发明的目的是针对传统基于注意力机制的图像描述方法没有显性建模局部区域与概念的关系的缺点,提出通过上下文机制,自适应生成视觉区域并由此生成视觉概念的方案,强化视觉到语言的连接以及准确性,提供一种基于自适应局部概念嵌入的图像描述方法。具体的算法流程如图1所示。
本发明包括以下步骤:
1)对于图像库中的图像,首先使用卷积神经网络抽取相应的图像特征;
2)采用循环神经网络,将当前输入词和以及全局图像特征映射到隐含层输出,并以此作为引导信号;
3)采用注意力机制,使用上述的引导信号获得每个局部图像特征的权重,自适应获取局部视觉特征,并通过与训练好的概念提取器提取局部概念;
4)建立局部概念裂解模块,将局部概念嵌入到生成模型中,获取当前输出词;
5)迭代生成整个句子,并定义生成句子的损失函数。
具体的每个模块如下:
1、深度卷积特征抽取与描述数据预处理
对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,得到9487个单词,对数据集描述中出现次数小于五的单词进行了剔除,使用“<UNK>”进行替代,同时加入了开始符“<BOS>”和结束符“<END>”分别在描述句子的开头和结尾。
先使用预训练好的目标检测器提取36个固定的候选区,并使用残差深度卷积网络提出各个候选区相对应的特征V={v1,v2...,vk},其中vi∈Rd,i=1,2,...,k,d为各个特征向量的维度,k为36,d为2048。
2、自适应引导信号生成层
首先第一层是卷积循环网络,目的是生成自适应引导信号,从而为后文提取局部视觉特征提供引导,该层输入及过程定义如下:
3、局部概念抽取
其中,Wv1∈Rk×d、Wh1∈Rk×d是需要学习的参数,I∈Rk为所有元素都是1的向量,Softmax函数为归一化指数函数。由此,便可以得到各个候选区的重要程度用来获得当前模型关注到的局部视觉特征:
其中[;]表示向量拼接,Wh为需要训练的参数矩阵,此后过程同第一个过程,由此便可以得到最终的局部概念,过程如下:
4、局部概念裂解嵌入模块
通过上述过程得到了局部概念,接下来,通过向量裂解的方法将局部概念嵌入到模型中,从而有效地利用该信息生成图像描述,向量裂解过程如下:
it=σ(WiEi),ft=σ(WfEf)
其中,Wi、Ei、Wf、Ef、Wo、Eo、Wc、Ec都是需要训练的参数矩阵,最后我们通过该信息获得下一个词的概率分布:
其中Wy为待训练的参数矩阵,将隐含状态映射到词汇表。
5、全局损失函数构建
对于预测的句子Y=y1∶T而言,生成整个句子的概率可以由每个词的概率累乘得到,即:
后者采用强化学习进行训练,其损失函数定义为:
具体实验结果如下:
为了验证提出的模型的可行性和先进性,我们在通用数据集MSCOCO进行模型的评估。其中和最新图像自动描述方法的量化比较如表1所示,我们可以看到在多种评估指标上所提出的模型性能都具有很高的优势。另外,我们通过可视化输入图像所生成的文本描述,示例给出的描述为英文,中文描述自动生成过程同理(如图2所示),可以看到由于我们的模型对局部视觉信息显示建模以后,其在图像描述上取得了很明显的改进。图3对W*a TW*a的部分可视化,该结果表明本发明方法很好地将局部概念嵌入到模型中。图4展示的是生成每个词时两个模块层关注到的视觉区域及该视觉区域生成的视觉概念,可以看出经过修正可以得到更为准确的视觉概念。图5将生成特定概念以后模型关注度最大的区域标注出来,该结果表明本发明的方法能够帮助克服语义鸿沟问题。图2至图4中描述和概念都以英文为例,但是该发明可以直接拓展到中文描述,机理相同。
表1本发明方法与当前最先进方法的比较
Model | B-1 | B-4 | M | R | C | S |
LSM-A | 78.6 | 35.5 | 27.3 | 56.8 | 118.3 | 20.8 |
GCN-LSTM | 80.5 | 38.2 | 28.5 | 58.5 | 128.3 | 22.0 |
Stack-Cap | 78.6 | 36.1 | 27.4 | 56.9 | 120.4 | 20.9 |
SGAE | 80.8 | 38.4 | 28.4 | 58.6 | 127.8 | 22.1 |
Up-Down | 79.8 | 36.3 | 27.7 | 56.9 | 120.1 | 21.4 |
本发明方法 | 80.6 | 39.0 | 28.6 | 58.8 | 128.3 | 22.3 |
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (7)
1.一种基于自适应局部概念嵌入的图像描述方法,其特征在于包括如下步骤:
步骤1,采用目标检测器提取待描述图像的若干个候选区及各候选区对应的特征;
步骤2,将步骤1提取的特征输入训练好的神经网络,从而输出待描述图像的描述结果;其中,神经网络的全局损失函数通过如下方法获得;
步骤A1,对训练集中的文本内容进行预处理,得到句子序列;对训练集中的图像,采用目标检测器提取若干个候选区,并提取各个候选区所对应的特征V={v1,v2…,vk},其中vi∈Rd,i=1,2,…,k,d为各个特征向量的维度;
步骤A2,将特征V送入自适应引导信号生成层,生成自适应引导信号;
步骤A3,采用注意力机制,利用自适应引导信号获取局部视觉特征,并由此得到局部概念;
步骤A4,通过向量裂解的方法将局部概念嵌入到生成模型中,获取当前输出词;
步骤A5,迭代生成整个句子,并定义生成句子的损失函数。
2.如权利要求1所述的基于自适应局部概念嵌入的图像描述方法,其特征在于:所述步骤1中,目标检测器的训练方法是:目标检测器采用Faster R-CNN框架,其骨架网络是深度卷积残差网络,首先采用端到端的方法在经典目标检测数据集PASCAL VOC2007中进行训练,然后在多模态数据集Visual Genome上进一步训练微调网络参数。
3.如权利要求1所述的基于自适应局部概念嵌入的图像描述方法,其特征在于:所述步骤A1中,对训练集中的文本内容进行预处理,得到句子序列的具体过程是:首先对训练集中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,对于得到的若干单词,剔除数据集描述中出现次数小于阈值的单词,使用“<UNK>”进行替代;最后,句子的开头和结尾分别加入开始符“<BOS>”和结束符“<END>”。
5.如权利要求4所述的基于自适应局部概念嵌入的图像描述方法,其特征在于:所述步骤A3的具体过程是:
首先根据如下公式:
其中[;]表示向量拼接,Wh为需要训练的参数矩阵;
然后进行如下迭代,直至得到最终的局部概念,过程如下:
6.如权利要求5所述的基于自适应局部概念嵌入的图像描述方法,其特征在于:所述步骤A4的具体过程是:
首先进行如下向量裂解:
以下为了嵌入局部概念的信息定义模块输入:
其中[.;.;.;.]表示向量拼接操作;
it=σ(WiEi),ft=σ(WfEf)
其中,Wi、Ei、Wf、Ef、Wo、Eo、Wc、Ec都是需要训练的参数矩阵;
最后,获得下一个词的概率分布:
其中Wy为待训练的参数矩阵,将隐含状态映射到词汇表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010554218.7A CN111737511B (zh) | 2020-06-17 | 2020-06-17 | 基于自适应局部概念嵌入的图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010554218.7A CN111737511B (zh) | 2020-06-17 | 2020-06-17 | 基于自适应局部概念嵌入的图像描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111737511A true CN111737511A (zh) | 2020-10-02 |
CN111737511B CN111737511B (zh) | 2022-06-07 |
Family
ID=72649581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010554218.7A Active CN111737511B (zh) | 2020-06-17 | 2020-06-17 | 基于自适应局部概念嵌入的图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737511B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329794A (zh) * | 2020-11-06 | 2021-02-05 | 北京工业大学 | 一种基于双重自注意力机制的图像描述方法 |
CN112819012A (zh) * | 2021-01-29 | 2021-05-18 | 厦门大学 | 一种基于多源协同特征的图像描述生成方法 |
CN112819013A (zh) * | 2021-01-29 | 2021-05-18 | 厦门大学 | 基于层内层间联合全局表示的图像描述方法 |
CN112861988A (zh) * | 2021-03-04 | 2021-05-28 | 西南科技大学 | 一种基于注意力图神经网络的特征匹配方法 |
CN113139378A (zh) * | 2021-03-18 | 2021-07-20 | 杭州电子科技大学 | 一种基于视觉嵌入和条件归一化的图像描述方法 |
CN113158791A (zh) * | 2021-03-15 | 2021-07-23 | 上海交通大学 | 一种以人为中心的图像描述标注方法、系统、终端及介质 |
CN113283248A (zh) * | 2021-04-29 | 2021-08-20 | 桂林电子科技大学 | 散点图描述的自然语言自动生成方法及装置 |
CN113837233A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 基于样本自适应语义引导的自注意力机制的图像描述方法 |
CN117423108A (zh) * | 2023-09-28 | 2024-01-19 | 中国科学院自动化研究所 | 指令微调多模态大模型的图像细粒度描述方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2296197A1 (fr) * | 1974-12-24 | 1976-07-23 | Thomson Csf | Procede et dispositif utilisant un effet thermo-optique dans une couche mince en phase smectique pour la reproduction d'images avec memoire |
DE102008008707A1 (de) * | 2008-02-11 | 2009-08-13 | Deutsches Zentrum für Luft- und Raumfahrt e.V. | Resampling von digitalen Bildern |
CN107066973A (zh) * | 2017-04-17 | 2017-08-18 | 杭州电子科技大学 | 一种利用时空注意力模型的视频内容描述方法 |
CN109376610A (zh) * | 2018-09-27 | 2019-02-22 | 南京邮电大学 | 视频监控中基于图像概念网络的行人不安全行为检测方法 |
CN110268712A (zh) * | 2017-02-07 | 2019-09-20 | 皇家飞利浦有限公司 | 用于处理图像属性图的方法和装置 |
CN110598713A (zh) * | 2019-08-06 | 2019-12-20 | 厦门大学 | 基于深度神经网络的智能图像自动描述方法 |
-
2020
- 2020-06-17 CN CN202010554218.7A patent/CN111737511B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2296197A1 (fr) * | 1974-12-24 | 1976-07-23 | Thomson Csf | Procede et dispositif utilisant un effet thermo-optique dans une couche mince en phase smectique pour la reproduction d'images avec memoire |
DE102008008707A1 (de) * | 2008-02-11 | 2009-08-13 | Deutsches Zentrum für Luft- und Raumfahrt e.V. | Resampling von digitalen Bildern |
CN110268712A (zh) * | 2017-02-07 | 2019-09-20 | 皇家飞利浦有限公司 | 用于处理图像属性图的方法和装置 |
CN107066973A (zh) * | 2017-04-17 | 2017-08-18 | 杭州电子科技大学 | 一种利用时空注意力模型的视频内容描述方法 |
CN109376610A (zh) * | 2018-09-27 | 2019-02-22 | 南京邮电大学 | 视频监控中基于图像概念网络的行人不安全行为检测方法 |
CN110598713A (zh) * | 2019-08-06 | 2019-12-20 | 厦门大学 | 基于深度神经网络的智能图像自动描述方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329794A (zh) * | 2020-11-06 | 2021-02-05 | 北京工业大学 | 一种基于双重自注意力机制的图像描述方法 |
CN112329794B (zh) * | 2020-11-06 | 2024-03-12 | 北京工业大学 | 一种基于双重自注意力机制的图像描述方法 |
CN112819012B (zh) * | 2021-01-29 | 2022-05-03 | 厦门大学 | 一种基于多源协同特征的图像描述生成方法 |
CN112819012A (zh) * | 2021-01-29 | 2021-05-18 | 厦门大学 | 一种基于多源协同特征的图像描述生成方法 |
CN112819013A (zh) * | 2021-01-29 | 2021-05-18 | 厦门大学 | 基于层内层间联合全局表示的图像描述方法 |
CN112861988A (zh) * | 2021-03-04 | 2021-05-28 | 西南科技大学 | 一种基于注意力图神经网络的特征匹配方法 |
CN113158791A (zh) * | 2021-03-15 | 2021-07-23 | 上海交通大学 | 一种以人为中心的图像描述标注方法、系统、终端及介质 |
CN113139378B (zh) * | 2021-03-18 | 2022-02-18 | 杭州电子科技大学 | 一种基于视觉嵌入和条件归一化的图像描述方法 |
CN113139378A (zh) * | 2021-03-18 | 2021-07-20 | 杭州电子科技大学 | 一种基于视觉嵌入和条件归一化的图像描述方法 |
CN113283248A (zh) * | 2021-04-29 | 2021-08-20 | 桂林电子科技大学 | 散点图描述的自然语言自动生成方法及装置 |
CN113283248B (zh) * | 2021-04-29 | 2022-06-21 | 桂林电子科技大学 | 散点图描述的自然语言自动生成方法及装置 |
CN113837233A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 基于样本自适应语义引导的自注意力机制的图像描述方法 |
CN113837233B (zh) * | 2021-08-30 | 2023-11-17 | 厦门大学 | 基于样本自适应语义引导的自注意力机制的图像描述方法 |
CN117423108A (zh) * | 2023-09-28 | 2024-01-19 | 中国科学院自动化研究所 | 指令微调多模态大模型的图像细粒度描述方法及系统 |
CN117423108B (zh) * | 2023-09-28 | 2024-05-24 | 中国科学院自动化研究所 | 指令微调多模态大模型的图像细粒度描述方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111737511B (zh) | 2022-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737511B (zh) | 基于自适应局部概念嵌入的图像描述方法 | |
CN112819013A (zh) | 基于层内层间联合全局表示的图像描述方法 | |
CN108985370B (zh) | 图像标注语句自动生成方法 | |
CN110705490B (zh) | 视觉情感识别方法 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN115982350A (zh) | 基于多模态Transformer的虚假新闻检测方法 | |
CN113837233B (zh) | 基于样本自适应语义引导的自注意力机制的图像描述方法 | |
Wang et al. | Recognizing handwritten mathematical expressions as LaTex sequences using a multiscale robust neural network | |
CN111680684A (zh) | 一种基于深度学习的书脊文本识别方法、设备及存储介质 | |
CN111723852A (zh) | 针对目标检测网络的鲁棒训练方法 | |
CN112528989B (zh) | 一种图像语义细粒度的描述生成方法 | |
CN113780289A (zh) | 图像识别方法及装置、存储介质和电子设备 | |
CN110889276B (zh) | 复数融合特征提取指针式抽取三元组信息的方法、系统及计算机介质 | |
CN110750669B (zh) | 一种图像字幕生成的方法及系统 | |
CN112084788A (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
CN113837231B (zh) | 一种基于混合样本与标签的数据增强的图像描述方法 | |
CN112016493A (zh) | 图像描述方法、装置、电子设备及存储介质 | |
CN115982629A (zh) | 一种基于语义引导的特征选择的图像描述方法 | |
CN116484224A (zh) | 一种多模态预训练模型的训练方法、装置、介质及设备 | |
CN113221870B (zh) | 一种用于移动终端的ocr识别方法、装置、存储介质及设备 | |
CN112329803B (zh) | 一种基于标准字形生成的自然场景文字识别方法 | |
CN113569867A (zh) | 一种图像处理方法、装置、计算机设备及存储介质 | |
Mishra et al. | Environment descriptor for the visually impaired |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |