CN111242059B - 基于递归记忆网络的无监督图像描述模型的生成方法 - Google Patents
基于递归记忆网络的无监督图像描述模型的生成方法 Download PDFInfo
- Publication number
- CN111242059B CN111242059B CN202010049142.2A CN202010049142A CN111242059B CN 111242059 B CN111242059 B CN 111242059B CN 202010049142 A CN202010049142 A CN 202010049142A CN 111242059 B CN111242059 B CN 111242059B
- Authority
- CN
- China
- Prior art keywords
- memory
- time
- formula
- sentence
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 13
- 230000000007 visual effect Effects 0.000 claims abstract description 86
- 238000010276 construction Methods 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 23
- 230000004927 fusion Effects 0.000 claims description 9
- 239000011541 reaction mixture Substances 0.000 claims description 9
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 abstract 2
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于递归记忆网络的无监督图像描述模型的生成方法,其步骤包括:1视觉概念提取与单词表的构建;2视觉概念特征的获取;3基于记忆的解码器的处理;4基于记忆的重构器的处理;5在句子语料库上的模型参数优化;6在图像数据集上的模型参数优化。本发明能够在完全无监督的情况下获取到可靠的图像描述模型,从而能自动生成高质量、多样、准确的图像描述。
Description
技术领域
本发明属于计算机视觉技术领域,涉及到模式识别、人工智能等技术,具体地说是一种基于递归记忆网络的无监督图像描述模型的生成方法。
背景技术
在多模态信息处理任务中,图像描述生成是一项非常重要的任务,它涉及到计算机视觉和自然语言处理技术的交叉领域。其任务为自动分析输入图像的视觉内容,并生成可以描述图像主要内容的句子或者文本。受机器翻译技术的启发,现有的图像描述生成系统通常遵循一种“编码-解码”框架。具体来说,它先使用卷积神经网络(CNN)提取图像的特征向量,然后使用循环神经网络(RNN)将图像的特征向量解码为句子。这类方法通常是基于大量人工标注的“图像-句子”数据,以完全监督的方式进行训练的。然而,人工标注“图像-句子”数据需要耗费大量的人力、物力和时间。受此限制,现有的图像描述数据集规模较小,例如图像描述基准数据集MSCOCO,仅涵盖了100种对象类别的图像和句子。这一限制使得这种基于有监督方式训练的图像描述系统难以推广到更广泛的场景中。
为了减小图像描述系统对人工标注数据的依赖,有研究者提出了更具挑战性的新任务,即无监督图像描述。无监督图像描述系统只需要单独的图像和文本数据,它可以利用几乎无限量的未标记或弱标记图像,以及随时可用的大型文本语料库。然而,现有的无监督图像描述系统只关注视觉特征与文本特征之间的跨模态对齐,而忽略了对图像视觉语义的理解,影响后续句子生成的准确性和相关性。
发明内容
本发明为了克服现有技术的不足之处,提出一种基于递归记忆网络的无监督图像描述模型的生成方法,以期能实现在完全无监督的情况下获取到可靠的图像描述模型,从而能自动生成高质量、多样、准确的图像描述。
本发明为解决技术问题采用如下技术方案:
本发明一种基于递归记忆网络的无监督图像描述模型的生成方法的特点是按如下步骤进行:
步骤1、视觉概念的提取与单词表的构建:
从图像数据集中获取任意一个图像I,使用目标检测模型Faster-RCNN作为视觉概念检测器,检测所述图像I中的视觉概念,得到所述图像I的视觉概念集合其中,为所述图像I中第m个视觉概念,KI为所述图像I中包含的视觉概念总数;
使用所述视觉概念检测器的分类标签构造视觉概念词典Vocv;并将所述句子S与所述视觉概念词典Vocv的交集作为所述句子S的视觉概念集合其中,为所述句子S中的第n个视觉概念,KS为所述句子S中包含的视觉概念总数;
利用所述句子语料库中的所有单词以及所述视觉概念词典Vocv中的所有单词构建单词表,并将所述单词表中所有单词按照出现次数从高到低进行编号,从而构建单词索引表Voc;
步骤2、视觉概念特征v的获取:
步骤3、所述无监督图像描述模型中基于记忆的解码器的处理:
步骤3.1、定义当前时刻为t,并初始化t=0;
在t时刻,根据式(1)获取t-1时刻的单词特征xt-1;
xt-1=Wewt-1 (1)
式(1)中,We为需要学习的词嵌入矩阵;wt-1为t-1时刻所述无监督图像描述模型的期望输出;当时,令为所述无监督图像描述模型t-1时刻输出的单词;当时,令wt-1=st-1,st-1为所述句子S中第t-1个单词;根据t-1时刻所述无监督图像描述模型的期望输出wt-1所对应的单词在所述单词索引表Voc中的索引,将t-1时刻所述无监督图像描述模型的期望输出wt-1表示为one-hot向量;
步骤3.2、利用式(2)将所述视觉概念特征v与t-1时刻的单词特征xt-1拼接为特征矩阵Ft-1;
Ft-1=[v;xt-1] (2)
式(2)中,[;]表示按行拼接操作;
式(5)中,FC(·)表示全连接层操作;
式(11)中,⊙表示点乘;gi,gf分别表示所述基于记忆的解码器的输入门与遗忘门;并有:
gi=σ(Wi·ft+Ui·tanh(Mt-1)+bi) (8)
gf=σ(Wf·ft+Uf·tanh(Mt-1)+bf) (9)
式(8)~(9)中,Wi,Wf,Ui,Uf是四个需要学习的权重矩阵,bi,bf是两个需要学习的偏置向量,表示sigmoid激活函数;
式(10)中,Wo为需要学习的权重矩阵;ot表示所述基于记忆的解码器的输出,且ot=Mt;
步骤4、所述无监督图像描述模型中基于记忆的重构器的处理:
步骤4.1、利用式(11)在t-1时刻基于记忆的重构器的隐藏状态zt-1与基于记忆的解码器t时刻的记忆状态Mt上实施多头自注意力操作φr,得到基于记忆的重构器中第hr个自注意力操作下的注意力向量从而得到t时刻的注意力向量
步骤5、在句子语料库上对无监督图像描述模型的参数优化:
步骤5.2、利用式(12)计算无监督图像描述模型在句子语料库上的损失值£S;
步骤5.3、利用随机梯度下降法对无监督图像描述模型在句子语料库上的损失值£S进行优化求解,使£S达到最小,从而得到句子语料库上的最优模型;
步骤6、在图像数据集上对最优模型的参数优化:
步骤6.1、使用CNN网络提取所述图像I的全局特征f;
步骤6.3、利用式(13)计算最优模型在图像数据集上的损失值£I;
式(13)中,[x]+=max(x,0),b和β为设置的超参数;表示与全局特征f语义最不相关的任一视觉概念重构特征,且Ω表示所述图像数据集中所有图像的全局特征集合Ω;ω表示所述全局特征集合Ω中任一全局特征;f′表示与视觉概念重构特征语义最不相关的任一全局特征,且表示所述图像数据集中所有图像对应的视觉概念重构特征集合;η表示所述视觉概念重构特征集合中任一视觉概念重构特征;
步骤6.4、利用随机梯度下降法对最优模型在图像数据集上的损失值£I进行优化求解,使£I达到最小,从而得到图像数据集上的最优模型并作为最终的无监督图像描述模型。
与已有技术相比,本发明的有益效果体现在:
1、本发明充分利用了不相关的图像数据集和句子语料库,能在完全无监督的情况下获取到可靠的图像描述模型,并且不同于现有技术中使用大型生成对抗式网络来解决无监督问题,本发明需要训练的参数更少,收敛速度更快,从而在提升了计算效率的同时提高了图像描述的精准度。
2、本发明提出一种基于记忆的解码器和基于记忆的重构器,在每个时刻通过自注意力机制更新记忆,能够隐式地学习输入特征之间的关系,从而增强了模型的语义推理能力。
3、本发明提出一种无监督联合训练方法,分别为在句子语料库上进行有监督学习,并在图像数据集上进行无监督学习,综合考虑了文本与图像中视觉实体的相关性以及文本与图像全局特征的相关性两方面,从而提高了图像描述的准确性。
附图说明
图1为本发明无监督图像描述模型的示意图。
具体实施方式
本实施例中,如图1所示,一种基于递归记忆网络的无监督图像描述模型的生成方法包括:首先获取输入图像或句子中的视觉概念;再使用编码器将获取的视觉概念编码为视觉概念特征;接着由基于记忆的解码器从视觉概念特征中解码出句子;最后,基于记忆的解码器的输出作为基于记忆的重构器的输入,得到视觉概念重构特征,用于表征生成句子的语义信息;具体地说,是按如下步骤进行:
步骤1、视觉概念的提取与单词表的构建:
从图像数据集中获取任意一个图像I,使用在公开图像数据集OpenImage-v4上训练的目标检测模型Faster-RCNN作为视觉概念检测器,检测图像I中的视觉概念,得到图像I的视觉概念集合其中,为图像I中第m个视觉概念,KI为图像I中包含的视觉概念总数;
利用句子语料库中的所有单词以及视觉概念词典Vocv中的所有单词构建单词表,并将单词表中所有单词按照出现次数从高到低进行编号,从而构建单词索引表Voc;
步骤2、视觉概念特征v的获取:
步骤3、无监督图像描述模型中基于记忆的解码器的处理:
步骤3.1、定义当前时刻为t,并初始化t=0;
在t时刻,根据式(1)获取t-1时刻的单词特征xt-1;
xt-1=Wewt-1 (1)
式(1)中,We为需要学习的词嵌入矩阵;wt-1为t-1时刻无监督图像描述模型的期望输出;当时,令为无监督图像描述模型t-1时刻输出的单词;当时,令wt-1=st-1,st-1为句子S中第t-1个单词;根据t-1时刻无监督图像描述模型的期望输出wt-1所对应的单词在单词索引表Voc中的索引,将t-1时刻无监督图像描述模型的期望输出wt-1表示为one-hot向量;
步骤3.2、利用式(2)将视觉概念特征v与t-1时刻的单词特征xt-1拼接为特征矩阵Ft-1;
Ft-1=[v;xt-1] (2)
式(2)中,[;]表示按行拼接操作;
式(5)中,FC(·)表示全连接层操作;
式(11)中,⊙表示点乘;gi,gf分别表示基于记忆的解码器的输入门与遗忘门;并有:
gi=σ(Wi·ft+Ui·tanh(Mt-1)+bi) (8)
gf=σ(Wf·ft+Uf·tanh(Mt-1)+bf) (9)
式(8)~(9)中,Wi,Wf,Ui,Uf是四个需要学习的权重矩阵,bi,bf是两个需要学习的偏置向量,表示sigmoid激活函数;
式(10)中,Wo为需要学习的权重矩阵;ot表示基于记忆的解码器的输出,且ot=Mt;
步骤4、无监督图像描述模型中基于记忆的重构器的处理:
步骤4.1、利用式(11)在t-1时刻基于记忆的重构器的隐藏状态zt-1与基于记忆的解码器t时刻的记忆状态Mt上实施多头自注意力操作φr,得到基于记忆的重构器中第hr个自注意力操作下的注意力向量从而得到t时刻的注意力向量
步骤5、在句子语料库上对无监督图像描述模型的参数优化:
步骤5.2、利用式(12)计算无监督图像描述模型在句子语料库上的损失值£S;
步骤5.3、利用随机梯度下降法对无监督图像描述模型在句子语料库上的损失值£S进行优化求解,使£S达到最小,从而得到句子语料库上的最优模型;
步骤6、在图像数据集上对最优模型的参数优化:
步骤6.1、使用CNN网络提取图像I的全局特征f;本实施例中,采用Inception-v4网络提取图像的全局特征;
步骤6.3、利用式(13)计算最优模型在图像数据集上的损失值£I;
式(13)中,[x]+=max(x,0),b和β为设置的超参数;本实施例中,β=1,b=0.2;表示与全局特征f语义最不相关的任一视觉概念重构特征,且Ω表示图像数据集中所有图像的全局特征集合Ω;ω表示全局特征集合Ω中任一全局特征;f′表示与视觉概念重构特征语义最不相关的任一全局特征,且表示图像数据集中所有图像对应的视觉概念重构特征集合;η表示视觉概念重构特征集合中任一视觉概念重构特征;
步骤6.4、利用随机梯度下降法对最优模型在图像数据集上的损失值£I进行优化求解,使£I达到最小,从而得到图像数据集上的最优模型并作为最终的无监督图像描述模型。
Claims (1)
1.一种基于递归记忆网络的无监督图像描述模型的生成方法,其特征是按如下步骤进行:
步骤1、视觉概念的提取与单词表的构建:
从图像数据集中获取任意一个图像I,使用目标检测模型Faster-RCNN作为视觉概念检测器,检测所述图像I中的视觉概念,得到所述图像I的视觉概念集合其中,为所述图像I中第m个视觉概念,KI为所述图像I中包含的视觉概念总数;
使用所述视觉概念检测器的分类标签构造视觉概念词典Vocv;并将所述句子S与所述视觉概念词典Vocv的交集作为所述句子S的视觉概念集合其中,为所述句子S中的第n个视觉概念,KS为所述句子S中包含的视觉概念总数;
利用所述句子语料库中的所有单词以及所述视觉概念词典Vocv中的所有单词构建单词表,并将所述单词表中所有单词按照出现次数从高到低进行编号,从而构建单词索引表Voc;
步骤2、视觉概念特征v的获取:
步骤3、所述无监督图像描述模型中基于记忆的解码器的处理:
步骤3.1、定义当前时刻为t,并初始化t=0;
在t时刻,根据式(1)获取t-1时刻的单词特征xt-1;
xt-1=Wewt-1 (1)
式(1)中,We为需要学习的词嵌入矩阵;wt-1为t-1时刻所述无监督图像描述模型的期望输出;当时,令 为所述无监督图像描述模型t-1时刻输出的单词;当时,令wt-1=st-1,st-1为所述句子S中第t-1个单词;根据t-1时刻所述无监督图像描述模型的期望输出wt-1所对应的单词在所述单词索引表Voc中的索引,将t-1时刻所述无监督图像描述模型的期望输出wt-1表示为one-hot向量;
步骤3.2、利用式(2)将所述视觉概念特征v与t-1时刻的单词特征xt-1拼接为特征矩阵Ft-1;
Ft-1=[v;xt-1] (2)
式(2)中,[;]表示按行拼接操作;
式(5)中,FC(·)表示全连接层操作;
式(11)中,⊙表示点乘;gi,gf分别表示所述基于记忆的解码器的输入门与遗忘门;并有:
gi=σ(Wi·ft+Ui·tanh(Mt-1)+bi) (8)
gf=σ(Wf·ft+Uf·tanh(Mt-1)+bf) (9)
式(8)~(9)中,Wi,Wf,Ui,Uf是四个需要学习的权重矩阵,bi,bf是两个需要学习的偏置向量,表示sigmoid激活函数;
式(10)中,Wo为需要学习的权重矩阵;ot表示所述基于记忆的解码器的输出,且ot=Mt;
步骤4、所述无监督图像描述模型中基于记忆的重构器的处理:
步骤4.1、利用式(11)在t-1时刻基于记忆的重构器的隐藏状态zt-1与基于记忆的解码器t时刻的记忆状态Mt上实施多头自注意力操作φr,得到基于记忆的重构器中第hr个自注意力操作下的注意力向量从而得到t时刻的注意力向量
步骤5、在句子语料库上对无监督图像描述模型的参数优化:
步骤5.2、利用式(12)计算无监督图像描述模型在句子语料库上的损失值£S;
步骤5.3、利用随机梯度下降法对无监督图像描述模型在句子语料库上的损失值£S进行优化求解,使£S达到最小,从而得到句子语料库上的最优模型;
步骤6、在图像数据集上对最优模型的参数优化:
步骤6.1、使用CNN网络提取所述图像I的全局特征f;
步骤6.3、利用式(13)计算最优模型在图像数据集上的损失值£I;
式(13)中,[x]+=max(x,0),b和β为设置的超参数;表示与全局特征f语义最不相关的任一视觉概念重构特征,且Ω表示所述图像数据集中所有图像的全局特征集合Ω;ω表示所述全局特征集合Ω中任一全局特征;f′表示与视觉概念重构特征语义最不相关的任一全局特征,且 表示所述图像数据集中所有图像对应的视觉概念重构特征集合;η表示所述视觉概念重构特征集合中任一视觉概念重构特征;
步骤6.4、利用随机梯度下降法对最优模型在图像数据集上的损失值£I进行优化求解,使£I达到最小,从而得到图像数据集上的最优模型并作为最终的无监督图像描述模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010049142.2A CN111242059B (zh) | 2020-01-16 | 2020-01-16 | 基于递归记忆网络的无监督图像描述模型的生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010049142.2A CN111242059B (zh) | 2020-01-16 | 2020-01-16 | 基于递归记忆网络的无监督图像描述模型的生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111242059A CN111242059A (zh) | 2020-06-05 |
CN111242059B true CN111242059B (zh) | 2022-03-15 |
Family
ID=70874655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010049142.2A Active CN111242059B (zh) | 2020-01-16 | 2020-01-16 | 基于递归记忆网络的无监督图像描述模型的生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111242059B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220891B (zh) * | 2021-06-15 | 2022-10-18 | 北京邮电大学 | 基于无监督的概念到句子的生成对抗网络图像描述方法 |
CN114399646B (zh) * | 2021-12-21 | 2022-09-20 | 北京中科明彦科技有限公司 | 一种基于Transformer结构的图像描述方法和装置 |
CN116775497B (zh) * | 2023-08-17 | 2023-11-14 | 北京遥感设备研究所 | 数据库测试用例生成需求描述编码方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596265A (zh) * | 2018-05-02 | 2018-09-28 | 中山大学 | 基于文本描述信息和生成对抗网络的视频生成模型 |
CN110633632A (zh) * | 2019-08-06 | 2019-12-31 | 厦门大学 | 一种基于循环指导的弱监督联合目标检测和语义分割方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10565758B2 (en) * | 2017-06-14 | 2020-02-18 | Adobe Inc. | Neural face editing with intrinsic image disentangling |
US20190228313A1 (en) * | 2018-01-23 | 2019-07-25 | Insurance Services Office, Inc. | Computer Vision Systems and Methods for Unsupervised Representation Learning by Sorting Sequences |
CN110288029B (zh) * | 2019-06-27 | 2022-12-06 | 西安电子科技大学 | 基于Tri-LSTMs模型的图像描述方法 |
-
2020
- 2020-01-16 CN CN202010049142.2A patent/CN111242059B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596265A (zh) * | 2018-05-02 | 2018-09-28 | 中山大学 | 基于文本描述信息和生成对抗网络的视频生成模型 |
CN110633632A (zh) * | 2019-08-06 | 2019-12-31 | 厦门大学 | 一种基于循环指导的弱监督联合目标检测和语义分割方法 |
Non-Patent Citations (4)
Title |
---|
Towards Unsupervised Image Captioning with Shared Multimodal Embeddings;Iro Laina等;《arXiv Computer Vision and Pattern Recognition》;20190827;第1-11页 * |
Unsupervised Image Captioning;Yang Feng等;《arXiv Computer Vision and Pattern Recognition》;20190409;第1-10页 * |
基于多模态递归网络的图像描述研究;束炎武;《万方数据库》;20190114;第1-49页 * |
采用无监督学习算法与卷积的图像分类模型;王改华等;《华侨大学学报(自然科学版)》;20180131;第39卷(第1期);第146-151页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111242059A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cihan Camgoz et al. | Subunets: End-to-end hand shape and continuous sign language recognition | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
Chen et al. | A semantics-assisted video captioning model trained with scheduled sampling | |
CN111242059B (zh) | 基于递归记忆网络的无监督图像描述模型的生成方法 | |
CN110866542B (zh) | 一种基于特征可控融合的深度表示学习方法 | |
US11475225B2 (en) | Method, system, electronic device and storage medium for clarification question generation | |
Li et al. | UD_BBC: Named entity recognition in social network combined BERT-BiLSTM-CRF with active learning | |
Ye et al. | A joint-training two-stage method for remote sensing image captioning | |
CN113204675B (zh) | 一种基于跨模态物体推理网络的跨模态视频时刻检索方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN114756687A (zh) | 基于自学习实体关系联合抽取的钢铁产线设备诊断方法 | |
CN116779091B (zh) | 一种多模态网络互联融合的胸部影像诊断报告自动生成方法 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN116579347A (zh) | 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质 | |
CN114882488A (zh) | 基于深度学习与注意力机制的多源遥感图像信息处理方法 | |
CN115879546A (zh) | 一种复合神经网络心理医学知识图谱构建方法及系统 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN113779966A (zh) | 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法 | |
CN113192030B (zh) | 一种遥感图像描述生成方法及系统 | |
CN115577072A (zh) | 一种基于深度学习的短文本情感分析方法 | |
CN115391534A (zh) | 文本情感原因识别方法、系统、设备及存储介质 | |
CN114511813A (zh) | 视频语义描述方法及装置 | |
Iqbal et al. | Capsule-net for Urdu digits recognition | |
Zheng et al. | Frame-level nonverbal feature enhancement based sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |