CN110046226B - 一种基于分布词向量cnn-rnn网络的图像描述方法 - Google Patents
一种基于分布词向量cnn-rnn网络的图像描述方法 Download PDFInfo
- Publication number
- CN110046226B CN110046226B CN201910306242.6A CN201910306242A CN110046226B CN 110046226 B CN110046226 B CN 110046226B CN 201910306242 A CN201910306242 A CN 201910306242A CN 110046226 B CN110046226 B CN 110046226B
- Authority
- CN
- China
- Prior art keywords
- cnn
- rnn
- network
- distributed
- subnet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于分布词向量CNN‑RNN网络的图像描述方法,其特征在于,包括如下步骤:1)分布表示词向量的生成;2)分布表示标签的生成;3)分布表示语义标签的生成;4)网络设计;5)生成图像的描述性语句。这种方法引入到原本的CNN‑RNN网络模型中使其可生成更精确的结果、使CNN子网提供给RNN子网更丰富的语义内容,使得整个CNN‑RNN网络模型依然能够保持结构化的优点,这种方法中低维稠密的分布表示可以轻松地嵌入海量词语构成完整的语义空间、视觉内容能够更好实现到语义空间的映射,基于分布表示词向量设计的监督信号能更准确的概括视觉内容和更充分的利用向量空间监督CNN优化方向。
Description
技术领域
本发明涉及智能图像处理技术领域,具体涉及一种基于分布词向量CNN-RNN网络的图像描述方法。
背景技术
在计算机视觉领域中,随着图像分类、目标检测、语义分割等基本视觉任务不断突破。人们的兴趣逐渐转向图像描述这个更复杂、更高级的视觉任务。图像描述的具体任务是生成图像中语义信息的描述性语句,因此,不仅仅需要识别和理解(指动作)图像中的相关内容,而且要以自然语言的形式对其描述。在盲人辅助系统、图像检索、智能交互系统等实际应用中,这种用图像生成对应自然语言描述的能力至关重要。
现今,图像描述研究工作主要基于CNN-RNN网络模型展开。CNN-RNN网络模型的网络结构由CNN子网和RNN子网组成,其中CNN(Convolutional Neural Network,简称CNN)指的一系列的卷积、池化、全连接等网络层构成的卷积神经网络;RNN(Recurrent NeuralNetwork,简称RNN)是循环神经网络,能以时间为单位展开的循环神经单元。由于RNN存在不足之处,一般可以使用其改进的LSTM(Long Short-Term Memory Networks,简称LSTM)、BLSTM(Bi-directional Long Short-term Memory,简称BLSTM)和GRU(Gated RecurrentUnit,简称GRU)等代替。在生成图像描述的网络中,CNN子网被用作编码器对图像进行编码生成固定长度的向量,再将这个向量供给RNN子网做解码实现语句的生成,这样的编码-解码模型可以端到端的训练。在近年的研究工作中主要的不同是CNN子网与RNN子网之间的连接方式,在不同的连接方式中存在一个规律:图像通过CNN子网完成内容嵌入,并由CNN子网最后一层的运算结果图像嵌入交给下一步工作使用。例如,Mao等人提出的网络呈并联结构,通过特征融合思路将图像嵌入与词嵌入融合共同完成语句构建;Vinyals等人提出的方式是将图像嵌入作为LSTM初始时刻的输入对单元进行激活从而获得LSTM单元隐含层初始状态h0和c0,t=1时刻才开始语句的预测;You等人提出的方式直接将图像嵌入作为LSTM单元初始状态的输入;Liu等人的工作中提出语义规范层实现结构化训练策略能够单独的网络中的两个子网,解决了训练困难、训练时间长以及训练时噪声对CNN的干扰等问题,同时引入显示语义的概念使得网络中两个子网的任务明确,但是采用独热表示的显示语义存在着明显的不足。图像描述中涉及的词汇个数成千上万,独热表示构成的语义空间十分有限,因此独热表示构成的语义空间忽略了大量语义无法满足图像描述任务的需求。
发明内容
本发明的目的是针对现有技术的不足,而提供一种基于分布词向量CNN-RNN网络的图像描述方法。这种方法引入到原本的CNN-RNN网络模型中使其可生成更精确的结果、使CNN子网提供给RNN子网更丰富的语义内容,使得整个CNN-RNN网络模型依然能够保持结构化的优点,这种方法中低维稠密的分布表示可以轻松地嵌入海量词语构成完整的语义空间、视觉内容能够更好实现到语义空间的映射,基于分布表示词向量设计的监督信号能更准确的概括视觉内容和更充分的利用向量空间监督CNN优化方向。
实现本发明目的的技术方案是:
一种基于分布词向量CNN-RNN网络的图像描述方法,与现有技术不同处在于,包括如下步骤:
1)分布表示词向量的生成:借助分布表示词向量生成工具Word2vec,生成训练集图像的自然语句形式标签Iseq-label中所包含词汇(w1,w2,w3,......)的分布表示词向量(p1,p2,p3,......),将所包含的词汇p与其对应分布式词向量w称为词表;
2)分布表示标签的生成:对整个训练集图像的自然语句形式标签进行转换操作,即图像I的自然语句形式标签Iseq-label以词为单位借助步骤1)中的词表逐一地用分布式词向量表示,并排列成分布表示标签矩阵这里n为语句词汇组成个数,k为词汇分布表示词向量的维度;
3)分布表示语义标签的生成:图像I的分布表示语义标签的生成是在步骤2)分布表示标签矩阵P基础上,将图像I组成的分布表示标签矩阵P中分布式词向量的顺序作调整得到分布表示语义标签,过程为:结合词向量对应的词语在整个训练集合出现频率即在训练集中词语出现的次数DF,频率由高到低排序,对于重复的词向量只取一次,每张图像的描述性语句长度是不同的但是其分布式语义要求固定长度的,借助现有技术并,依据频率优先和补零策略将最优的长度定为v,将语句排列成向量,于是可以得到分布式语义标签向量
4)网络设计:网络结构采用CNN-RNN网络模型,该模型包含CNN子网和RNN子网,其中CNN为卷积神经网络设有卷积、池化、全连接网络层;RNN为循环神经网络,能以时间为单位展开的人工神经单元,将CNN与RNN连接的网络结构称为CNN-RNN网络模型,并采用步骤2)生成的分布表示标签、步骤3)生成的分布表示语义标签监督网络的学习,CNN子网的监督信号为分布表示语义标签S,RNN子网的监督信号为分布表示标签矩阵P,CNN子网与RNN子网的连接是通过CNN子网末端输出层的语义预测向量作为RNN子网输入即生成条件实现语句序列的预测;
其中,I表示的是输入图像,CNN(·)是卷积神经网络的前向传播计算,是输入图像I经卷积神经网络CNN前向传播计算生成的结果,RNN子网将作为输入即生成条件生成语句序列RNN子网具体计算使用循环神经网络,在循环神经网络0时刻分布式语义预测作为输入激活循环神经网络从而获得隐含状态h0,t=1时刻将统一使用起始符号<start>作为输入经前向计算后输出层得到语句的第一个预测单词,t=2时刻循环神经网络将t=1时刻的输出作为输入经前向计算后输出层得到语句的第二个预测单词,同理循环计算可得t=3,4,……n的预测单词,其中n时刻是预测单词为结束符号<end>的时刻,具体计算定义如下:
xt=E×pt-1 (3)
ht=RNN(xt,ht-1) (4)
pt=W·ht+b (5)
这里RNN(·)是循环神经单元的前向传播计算,h是循环神经网络的隐含状态,其中h0分别是0时刻隐含状态,E是词嵌入矩阵,W、b分别是输出层的权重、偏置,t是循环神经网络的时刻取值为1,2,3......n。
步骤1)中所述生成工具Word2vec训练时候的语料库为整个训练集合的标签,将其以句子为单位进行训练,采用Skip-Gram模型,每个单词向量维度为50,于是每个单词对应有唯一的维度为50的分布式表示法。
步骤4)中所述监督网络的学习采用的损失函数为:CNN子网的损失函数其中S是图像的分布式语义标签,是对应的预测向量;RNN子网的损失函数其中P是图像的分布表示标签,是对应的预测向量,网络总损失函数计算公式定义如下:
训练过程分为两个训练阶段,在第一个训练阶段的时候,两个子网单独训练的,所以有对应的损失函数,CNN子网的训练将图像作为输入,图像的分布式语义标签S作为标签进行有监督训练,RNN子网的训练将图像的分布式语义标签S作为输入,监督信号是图像的分布表示标签P;在第二阶段联合训练使用的是网络总损失函数完成两个子网的初步训练后,通过联合训练来进一步提高性能,这时候RNN子网的输入直接使用CNN子网的预测向量
这种方法引入到原本的CNN-RNN网络模型中使其可生成更精确的结果、使CNN子网提供给RNN子网更丰富的语义内容,使得整个CNN-RNN网络模型依然能够保持结构化的优点,这种方法中低维稠密的分布表示可以轻松地嵌入海量词语构成完整的语义空间、视觉内容能够更好实现到语义空间的映射,基于分布表示词向量设计的监督信号能更准确的概括视觉内容和更充分的利用向量空间监督CNN优化方向。
附图说明
图1为实施例的方法流程示意图;
图2为实施例中生成分布表示标签、分布表示语义标签的过程示意图;
图3为实施例中生成分布表示标签、分布表示语义标签的算法流程图;
图4为实施例中的网络结构示意图。
具体实施方式
下面结合附图和实施例对本发明内容作进一步的说明,但不是对本发明的限定。
实施例:
参照图1,一种基于分布词向量CNN-RNN网络的图像描述方法,包括如下步骤:
1)分布表示词向量的生成:借助分布表示词向量生成工具Word2vec,生成训练集图像的自然语句形式标签Iseq-label中所包含词汇(w1,w2,w3,......)的分布表示词向量(p1,p2,p3,......),将所包含的词汇p与其对应分布式词向量w称为词表;
2)分布表示标签的生成:参照图2、图3,对整个训练集图像的自然语句形式标签进行转换操作,即图像I的自然语句形式标签Iseq-label以词为单位借助步骤1)中的词表逐一地用分布式词向量表示,并排列成分布表示标签矩阵这里n为语句词汇组成个数,k为词汇分布表示词向量的维度;
3)分布表示语义标签的生成:参照图2、图3,图像I的分布表示语义标签的生成是在步骤2)分布表示标签矩阵P基础上,将图像I组成的分布表示标签矩阵P中分布式词向量的顺序作调整得到分布表示语义标签,过程为:结合词向量对应的词语在整个训练集合出现频率即在训练集中词语出现的次数DF,频率由高到低排序,对于重复的词向量只取一次,每张图像的描述性语句长度是不同的但是其分布式语义要求固定长度的,借助现有技术并,依据频率优先和补零策略将最优的长度定为v,将语句排列成向量,于是可以得到分布式语义标签向量
4)网络设计:网络结构采用CNN-RNN网络模型,如图4所示,该模型包含CNN子网和RNN子网,其中CNN为卷积神经网络设有卷积、池化、全连接网络层;RNN为循环神经网络,能以时间为单位展开的人工神经单元,将CNN与RNN连接的网络结构称为CNN-RNN网络模型,并采用步骤2)生成的分布表示标签、步骤3)生成的分布表示语义标签监督网络的学习,CNN子网的监督信号为分布表示语义标签S,RNN子网的监督信号为分布表示标签矩阵P,CNN子网与RNN子网的连接是通过CNN子网末端输出层的语义预测向量作为RNN子网输入即生成条件实现语句序列的预测;
其中,I表示的是输入图像,CNN(·)是卷积神经网络的前向传播计算,是输入图像I经卷积神经网络CNN前向传播计算生成的结果,RNN子网将作为输入即生成条件生成语句序列RNN子网具体计算使用循环神经网络,在循环神经网络0时刻分布式语义预测作为输入激活循环神经网络从而获得隐含状态h0,t=1时刻将统一使用起始符号<start>作为输入经前向计算后输出层得到语句的第一个预测单词,t=2时刻循环神经网络将t=1时刻的输出作为输入经前向计算后输出层得到语句的第二个预测单词,同理循环计算可得t=3,4,……n的预测单词,其中n时刻是预测单词为结束符号<end>的时刻,具体计算定义如下:
xt=E×pt-1 (3)
ht=RNN(xt,ht-1) (4)
pt=W·ht+b (5)
这里RNN(·)是循环神经单元的前向传播计算,h是循环神经网络的隐含状态,其中h0分别是0时刻隐含状态,E是词嵌入矩阵,W、b分别是输出层的权重、偏置,t是循环神经网络的时刻取值为1,2,3......n。
步骤1)中所述生成工具Word2vec训练时候的语料库为整个训练集合的标签,将其以句子为单位进行训练,采用Skip-Gram模型,每个单词向量维度为50,于是每个单词对应有唯一的维度为50的分布式表示法。
步骤4)中所述监督网络的学习采用的损失函数为:CNN子网的损失函数其中S是图像的分布式语义标签,是对应的预测向量;RNN子网的损失函数其中P是图像的分布表示标签,是对应的预测向量,网络总损失函数计算公式定义如下:
Claims (3)
1.一种基于分布词向量CNN-RNN网络的图像描述方法,其特征在于,包括如下步骤:
1)分布表示词向量的生成:借助分布表示词向量生成工具Word2vec,生成训练集图像的自然语句形式标签Iseq-label中所包含词汇(w1,w2,w3,......)的分布表示词向量(p1,p2,p3,......),将所包含的词汇p与其对应分布式词向量w称为词表;
2)分布表示标签的生成:对整个训练集图像的自然语句形式标签进行转换操作,即图像I的自然语句形式标签Iseq-label以词为单位借助步骤1)中的词表逐一地用分布式词向量表示,并排列成分布表示标签矩阵这里n为语句词汇组成个数,k为词汇分布表示词向量的维度;
3)分布表示语义标签的生成:将图像I组成的分布表示标签矩阵P中分布式词向量的顺序作调整得到分布表示语义标签,过程为:结合词向量对应的词语在整个训练集合出现频率即在训练集中词语出现的次数DF,频率由高到低排序,对于重复的词向量只取一次,每张图像的描述性语句长度是不同的但是其分布式语义要求固定长度的,依据频率优先和补零策略将最优的长度定为v,将语句排列成向量,得到分布式语义标签向量
4)网络设计:网络结构采用CNN-RNN网络模型,该模型包含CNN子网和RNN子网,其中CNN为卷积神经网络设有卷积、池化、全连接网络层;RNN为循环神经网络,能以时间为单位展开的人工神经单元,将CNN与RNN连接的网络结构称为CNN-RNN网络模型,并采用步骤2)生成的分布表示标签、步骤3)生成的分布表示语义标签监督网络的学习,CNN子网的监督信号为分布表示语义标签S,RNN子网的监督信号为分布表示标签矩阵P,CNN子网与RNN子网的连接是通过CNN子网末端输出层的语义预测向量作为RNN子网输入即生成条件实现语句序列的预测;
其中,I表示的是输入图像,CNN(·)是卷积神经网络的前向传播计算,是输入图像I经卷积神经网络CNN前向传播计算生成的结果,RNN子网将作为输入即生成条件生成语句序列RNN子网具体计算使用循环神经网络,在循环神经网络0时刻分布式语义预测作为输入激活循环神经网络从而获得隐含状态h0,t=1时刻将统一使用起始符号<start>作为输入经前向计算后输出层得到语句的第一个预测单词,t=2时刻循环神经网络将t=1时刻的输出作为输入经前向计算后输出层得到语句的第二个预测单词,同理循环计算可得t=3,4,……n的预测单词,其中n时刻是预测单词为结束符号<end>的时刻,具体计算定义如下:
xt=E×pt-1 (3)
ht=RNN(xt,ht-1) (4)
pt=W·ht+b (5)
这里RNN(·)是循环神经单元的前向传播计算,h是循环神经网络的隐含状态,其中h0分别是0时刻隐含状态,E是词嵌入矩阵,W、b分别是输出层的权重、偏置,t是循环神经网络的时刻取值为1,2,3......n。
2.根据权利要求1所述的基于分布词向量CNN-RNN网络的图像描述方法,其特征在于,步骤1)中所述生成工具Word2vec训练时候的语料库为整个训练集合的标签,将其以句子为单位进行训练,采用Skip-Gram模型,每个单词向量维度为50,每个单词对应有唯一的维度为50的分布式表示法。
3.根据权利要求1所述的基于分布词向量CNN-RNN网络的图像描述方法,其特征在于,步骤4)中所述监督网络的学习采用的损失函数为:CNN子网的损失函数其中S是图像的分布式语义标签,是对应的预测向量;RNN子网的损失函数其中P是图像的分布表示标签,是对应的预测向量,网络总损失函数计算公式定义如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910306242.6A CN110046226B (zh) | 2019-04-17 | 2019-04-17 | 一种基于分布词向量cnn-rnn网络的图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910306242.6A CN110046226B (zh) | 2019-04-17 | 2019-04-17 | 一种基于分布词向量cnn-rnn网络的图像描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110046226A CN110046226A (zh) | 2019-07-23 |
CN110046226B true CN110046226B (zh) | 2021-09-24 |
Family
ID=67277401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910306242.6A Active CN110046226B (zh) | 2019-04-17 | 2019-04-17 | 一种基于分布词向量cnn-rnn网络的图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110046226B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532564B (zh) * | 2019-08-30 | 2023-05-12 | 中国人民解放军陆军工程大学 | 一种基于cnn和lstm混合模型的应用层协议在线识别方法 |
CN110826338B (zh) * | 2019-10-28 | 2022-06-17 | 桂林电子科技大学 | 一种单选择门与类间度量的细粒度语义相似识别的方法 |
CN110968299A (zh) * | 2019-11-20 | 2020-04-07 | 北京工业大学 | 一种基于手绘网页图像的前端工程化代码生成方法 |
CN110751721B (zh) * | 2019-12-24 | 2020-10-30 | 广东博智林机器人有限公司 | 家具布局图纸的生成方法和装置、计算机设备及存储介质 |
CN111190600B (zh) * | 2019-12-31 | 2023-09-19 | 中国银行股份有限公司 | 基于gru注意力模型的前端代码自动生成的方法及系统 |
CN111581961B (zh) * | 2020-05-06 | 2022-06-21 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN111860386B (zh) * | 2020-07-27 | 2022-04-08 | 山东大学 | 一种基于ConvLSTM卷积神经网络的视频语义分割方法 |
CN112488116B (zh) * | 2020-11-27 | 2024-02-02 | 杭州电子科技大学 | 基于多模态嵌入的场景理解语义生成方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105844239A (zh) * | 2016-03-23 | 2016-08-10 | 北京邮电大学 | 一种基于cnn和lstm的暴恐视频检测方法 |
CN106599198A (zh) * | 2016-12-14 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
CN107239801A (zh) * | 2017-06-28 | 2017-10-10 | 安徽大学 | 视频属性表示学习方法及视频文字描述自动生成方法 |
CN108009154A (zh) * | 2017-12-20 | 2018-05-08 | 哈尔滨理工大学 | 一种基于深度学习模型的图像中文描述方法 |
CN108090199A (zh) * | 2017-12-22 | 2018-05-29 | 浙江大学 | 一种大型图像集的语义信息提取和可视化方法 |
CN108830287A (zh) * | 2018-04-18 | 2018-11-16 | 哈尔滨理工大学 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
CN109447242A (zh) * | 2018-10-10 | 2019-03-08 | 复旦大学 | 基于迭代学习的图像描述重生成系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021364B (zh) * | 2016-05-10 | 2017-12-12 | 百度在线网络技术(北京)有限公司 | 图片搜索相关性预测模型的建立、图片搜索方法和装置 |
-
2019
- 2019-04-17 CN CN201910306242.6A patent/CN110046226B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105844239A (zh) * | 2016-03-23 | 2016-08-10 | 北京邮电大学 | 一种基于cnn和lstm的暴恐视频检测方法 |
CN106599198A (zh) * | 2016-12-14 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
CN107239801A (zh) * | 2017-06-28 | 2017-10-10 | 安徽大学 | 视频属性表示学习方法及视频文字描述自动生成方法 |
CN108009154A (zh) * | 2017-12-20 | 2018-05-08 | 哈尔滨理工大学 | 一种基于深度学习模型的图像中文描述方法 |
CN108090199A (zh) * | 2017-12-22 | 2018-05-29 | 浙江大学 | 一种大型图像集的语义信息提取和可视化方法 |
CN108830287A (zh) * | 2018-04-18 | 2018-11-16 | 哈尔滨理工大学 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
CN109447242A (zh) * | 2018-10-10 | 2019-03-08 | 复旦大学 | 基于迭代学习的图像描述重生成系统及方法 |
Non-Patent Citations (1)
Title |
---|
标签增强的中文看图造句;蓝玮毓 等;《计算机学报》;20190131;第42卷(第1期);第136-148页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110046226A (zh) | 2019-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110046226B (zh) | 一种基于分布词向量cnn-rnn网络的图像描述方法 | |
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN109657239B (zh) | 基于注意力机制和语言模型学习的中文命名实体识别方法 | |
CN109902183B (zh) | 一种基于多样图注意力机制的知识图谱嵌入方法 | |
CN108829677B (zh) | 一种基于多模态注意力的图像标题自动生成方法 | |
CN106845411B (zh) | 一种基于深度学习和概率图模型的视频描述生成方法 | |
CN111159454A (zh) | 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统 | |
CN112288091A (zh) | 基于多模态知识图谱的知识推理方法 | |
CN110609891A (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
Wang et al. | Cost-effective object detection: Active sample mining with switchable selection criteria | |
CN110457661B (zh) | 自然语言生成方法、装置、设备及存储介质 | |
CN110807566A (zh) | 人工智能模型评测方法、装置、设备及存储介质 | |
CN111464881B (zh) | 基于自优化机制的全卷积视频描述生成方法 | |
CN112861995A (zh) | 基于模型无关元学习的无监督少样本图像分类方法、系统及存储介质 | |
CN114186084B (zh) | 在线多模态哈希检索方法、系统、存储介质及设备 | |
Degadwala et al. | Image captioning using inception V3 transfer learning model | |
CN114863407B (zh) | 一种基于视觉语言深度融合的多任务冷启动目标检测方法 | |
CN113282721B (zh) | 基于网络结构搜索的视觉问答方法 | |
CN111651993A (zh) | 融合局部-全局字符级关联特征的中文命名实体识别方法 | |
CN114090780A (zh) | 一种基于提示学习的快速图片分类方法 | |
CN116306686B (zh) | 一种多情绪指导的共情对话生成方法 | |
CN114880527B (zh) | 一种基于多预测任务的多模态知识图谱表示方法 | |
CN113836903B (zh) | 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置 | |
CN116403608A (zh) | 基于多标签纠正和时空协同融合的语音情感识别方法 | |
Si et al. | Image semantic segmentation based on improved DeepLab V3 model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |