CN105631468A - 一种基于rnn的图片描述自动生成方法 - Google Patents
一种基于rnn的图片描述自动生成方法 Download PDFInfo
- Publication number
- CN105631468A CN105631468A CN201510964425.9A CN201510964425A CN105631468A CN 105631468 A CN105631468 A CN 105631468A CN 201510964425 A CN201510964425 A CN 201510964425A CN 105631468 A CN105631468 A CN 105631468A
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- sentence
- image
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims description 86
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 6
- 239000000463 material Substances 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract 1
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000001568 sexual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种于RNN的图片描述自动生成方法,先使用预训练好的深度网络,对图像提取特征;再对该句子的单词去掉非名词和动词的成分;最后使用LSTM网络对图像特征和词语特征进行联合训练;在生成句子过程中,首先通过输入的图片和训练好的LSTM网络,生成一个名动词组成的句子;然后通过网络上的大量语料库,生成最后的输出句子。本发明可以自动识别,理解用户上传的数码图像,并生成人类能理解的自然句子。
Description
技术领域
本发明涉及人工智能领域,特别涉及一种基于RNN的图片描述自动生成方法。
背景技术
自动图像内容描述是人工智能图像识别近年兴起的新技术。其目的在于通过算法,自动把一个图像的内容信息,用自然语言表达出来。ShowandTell:ANeuralImageCaptionGenerator,OriolVinyals2014,通过先使用深度网络提取图像特征,再使用RNN模型将图像特征转化为文字描述,提取出图像的语义信息。但其是对整个图像进行整体处理,不能很好地利用图像中的空间位置的信息。Show,AttendandTell:NeuralImageCaptionGenerationwithVisualAttention,KelvinXu2015,在其之上加入了显著性检测,对图像的空间信息有一定的利用,但其也只利用了简单的RNN模型,语义的表达力较弱。
发明内容
为了克服现有技术的上述缺点与不足,本发明的目的在于提供一种基于RNN的图片描述自动生成方法,可以自动识别,理解用户上传的数码图像,并生成人类能理解的自然句子。
本发明的目的通过以下技术方案实现:
一种基于RNN的图片描述自动生成方法,包括以下步骤:
S1在计算机上进行训练过程:
S1.1采集数据集:采集日常生活中各类场景里面的图像作为训练图像,每张训练图像带上一句或多句描述该图像内容的句子;
S1.2使用深度学习网络,对训练集的每一张图片提取图像特征;
S1.3词性筛选:收集四、六级英语单词的词汇表,以及每个单词的词性;
对于每张训练图像对应的一个或多个句子进行词性筛选:对于句子中的每个单词,如果单词在四、六级词汇表中排第一的词性是名词或者动词,该单词留下,否则,把该单词去掉;使用筛选之后剩下的单词组成句子作为数据库;
S1.4将词语数据转换成特征向量:统计出S1.3中的数据库中所有句子中出现的不同单词的数目,加上一个自定义的END字符,句子的总字符数为n;并对单词按字母顺序进行排序,每个单词在序列中的位置作为该单词的索引位置;由此把每个单词表示为一个n维的单词特征向量,该向量只有在该单词的索引位置上为1,其他全为零;n为正整数;
S1.5将单词特征向量和图像特征向量统一映射到同一维度k的向量;k为正整数;
S1.6使用LSTM网络进行训练:每个训练样例为一张训练图像和该训练图像所对应的经S1.3筛选的句子;每次随机选择一张训练图像和一个对应的参考句子;
S1.7将LSTM网络的输入和输出都设为k维向量,在时刻0,把k维的图像特征向量传入LSTM网络,网络输出一个k维向量;然后将输出的k维向量左乘一个n*k维的矩阵,得到一个n维向量;向量上第i维的值代表了索引值为i的单词的可能性;i为正整数;
S1.8使用S1.7得到的n维向量和S1.6中输入的参考句子的n维向量进行比较,计算两个向量的欧式距离,作为LSTM网络的误差,使用反向误差传播算法,更新网络参数;
S2自动生成图像描述:
S2.1在互联网上搜集自然语言的句子,形成语料库;
S2.2对于测试图像,先使用深度学习网络对测试图像提取图像特征,再使用S1.7的方法得到n维的可能性单词向量;根据n维向量上每一维值的大小,选出可能性最大的单词;
S2.3将步骤S2.2得到的单词向量再次输入LSTM网络中,得到更新后的输出单词可能性向量;不断重复此过程,直到入LSTM网络输出END单词;
S2.4将S2.2和S2.3过程中输出的单词,按顺序组合成一个句子;使用该句子在S2.1的语料库中进行匹配,搜索最相近的句子并输出,生成测试图像的描述。
步骤S1.5所述将单词特征向量和图像特征向量统一映射到同一维度k的向量,具体为:
对n维的单词向量特征左乘以一个k*n的矩阵,对于m维的图像特征向量,乘以一个k*m维的矩阵;由此把单词特征和图像特征统一到k维;m为正整数。
S1.8所述使用S1.7得到的n维向量和S1.6中输入的参考句子的n维向量进行比较,计算两个向量的欧式距离作为LSTM网络的误差,使用反向误差传播算法,更新网络参数,具体为:
在输入第t个单词时,t小于句子长度l,使用S1.7的方法,向LSTM网络输入参考句子中的第t个单词,得到n维的可能性向量;使用参考句子中的第t+1个单词作为参考,t+1个单词在n维可能性向量的负数作为误差,使用反向误差传播算法,更新网络参数;t为正整数,l为正整数;
在输入第l个单词时,使用S1.7的方法,向LSTM网络输入参考句子中的第l个单词,得到n维的可能性向量;使用S1.4中加入的END单词作为参考,END单词在n维可能性向量的负数作为误差,使用反向误差传播算法,更新网络参数。
与现有技术相比,本发明具有以下优点和有益效果:
(1)本发明很好地融合图像特征和文字特征,放在统一的框架下进行学习和理解,使图像信息和文字信息产生互补。
(2)本发明充分考虑到自动文字描述图片的困难性。采用了把句子中的名词和动词保留,去除其他词性词语的方法。保留了原来句子的主干部分(名词和动词),去掉其他可能带来很大干扰的部分,降低了学习的复杂度,得到了较好的效果。
(3)本发明通过不断增加训练数据库中的图像和句子,本发明的性能可以不断得到提高,而不需要重新训练。
(4)本发明中使用了互联网上的海量信息作为我们的语料库,使算法可以输出更贴近日常语言的话语。
附图说明
图1为本发明的实施例的基于RNN的图片描述自动生成方法的流程图。
具体实施方式
下面结合实施例,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
本实施例的一种基于RNN的图片描述自动生成方法,如图1所示,包括以下步骤:
S1在计算机上进行训练过程:
S1.1采集数据集:从http://mscoco.org/网站上下载mscoco数据库,该数据库包含30万张图片,每张图片带有5个描述图像内容的句子;
S1.2使用深度学习网络(参照论文ImageNetClassificationwithDeepConvolutionalNeuralNetworks,AlexKrizhevsky,IlyaSutskever,GeoffreyEHinton,NIPS2012.),对训练集的每一张图片提取图像特征;本实施例选用网络结构的最后一个全连接层的输出m=4096维向量Fi∈R4096作为图像的特征向量;
S1.3词性筛选:收集四、六级英语单词的词汇表,以及每个单词的词性;
对于每张训练图像对应的一个或多个句子进行词性筛选:对于句子中的每个单词,如果在四、六级词汇表中排第一的词性是名词或者动词,该单词留下,否则,把该单词去掉;使用筛选之后剩下的单词组成句子,作为数据库;
S1.4将词语数据转换成特征向量:统计出S1.3中的数据库中所有句子中出现的不同单词的数目,加上一个自定义的END字符,句子的总字符数n=402;并对单词按字母顺序进行排序,每个单词在序列中的位置作为该单词的索引位置;由此把每个单词表示为一个n维的单词特征向量,该向量只有在该单词的索引位置上为1,其他全为零;
第i个单词的单词向量:
S1.5将单词特征向量和图像特征向量统一到同一维度k的向量;k=256;对n维的单词向量左乘以一个k*n的矩阵Mw∈R256*402,得到k为的单词特征向量Vw∈R256。对于m维的图像特征向量,乘以一个k*m维的矩阵Mi∈R256*4096,得到k维度图像特征向量Vi∈R256。由此把单词特征和图像特征统一到k维。
统一后的单词特征向量Vw和Vi:
Vw=Iw*Mw
Vi=Fi*Mi
S1.6使用LSTM网(Longshort-termmemory,参考论文Hochreiter,SeppandSchmidhuber,Juergen,(1997)"LongShort-TermMemory",NeuralComputation,Vol9(8),pp:1735-1780)进行训练:每个训练样例为一张训练图像和该训练图像所对应的经S1.3筛选的句子;每次随机选择一张图像和一个对应的参考句子,句子的长度为l;
S1.7将LSTM网络的输入和输出都设为k维向量,在时刻0,把k维的图像特征向量传入LSTM网络,网络输出一个k维向量;然后将输出的k维向量左乘一个n*k维的矩阵,得到一个n维向量;向量上第i维的值代表了索引值为i的单词的可能性;i为正整数;
S1.8使用S1.7得到的n维向量和S1.6中输入的参考句子的n维向量进行比较,计算两个向量的欧式距离作为LSTM网络的误差,使用反向误差传播算法,更新网络参数;
S2自动生成图像描述:
S2.1在互联网上搜集自然语言的句子,形成语料库;
S2.2对于测试图像,先使用深度学习网络对测试图像提取图像特征,再使用S1.7的方法得到n维的可能性单词向量;根据n维向量上每一维值的大小,选出可能性最大的单词;
S2.3将步骤S2.2得到的单词向量再次输入LSTM网络中,得到更新后的输出单词可能性向量;不断重复此过程,直到入LSTM网络输出END单词;
S2.4将S2.2和S2.3过程中输出的单词,按顺序组合成一个句子;使用该句子在S2.1的语料库中进行匹配,搜索最相近的句子并输出,生成测试图像的描述。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (3)
1.一种基于RNN的图片描述自动生成方法,其特征在于,包括以下步骤:
S1在计算机上进行训练过程:
S1.1采集数据集:采集日常生活中各类场景里面的图像作为训练图像,每张训练图像带上一句或多句描述该图像内容的句子;
S1.2使用深度学习网络,对训练集的每一张图片提取图像特征;
S1.3词性筛选:收集四、六级英语单词的词汇表,以及每个单词的词性;
对于每张训练图像对应的一个或多个句子进行词性筛选:对于句子中的每个单词,如果单词在四、六级词汇表中排第一的词性是名词或者动词,该单词留下,否则,把该单词去掉;使用筛选之后剩下的单词组成句子作为数据库;
S1.4将词语数据转换成特征向量:统计出S1.3中的数据库中所有句子中出现的不同单词的数目,加上一个自定义的END字符,句子的总字符数为n;并对单词按字母顺序进行排序,每个单词在序列中的位置作为该单词的索引位置;由此把每个单词表示为一个n维的单词特征向量,该向量只有在该单词的索引位置上为1,其他全为零;n为正整数;
S1.5将单词特征向量和图像特征向量统一映射到同一维度k的向量;k为正整数;
S1.6使用LSTM网络进行训练:每个训练样例为一张训练图像和该训练图像所对应的经S1.3筛选的句子;每次随机选择一张训练图像和一个对应的参考句子;
S1.7将LSTM网络的输入和输出都设为k维向量,在时刻0,把k维的图像特征向量传入LSTM网络,网络输出一个k维向量;然后将输出的k维向量左乘一个n*k维的矩阵,得到一个n维向量;向量上第i维的值代表了索引值为i的单词的可能性;i为正整数;
S1.8使用S1.7得到的n维向量和S1.6中输入的参考句子的n维向量进行比较,计算两个向量的欧式距离,作为LSTM网络的误差,使用反向误差传播算法,更新网络参数;
S2自动生成图像描述:
S2.1在互联网上搜集自然语言的句子,形成语料库;
S2.2对于测试图像,先使用深度学习网络对测试图像提取图像特征,再使用S1.7的方法得到n维的可能性单词向量;根据n维向量上每一维值的大小,选出可能性最大的单词;
S2.3将步骤S2.2得到的单词向量再次输入LSTM网络中,得到更新后的输出单词可能性向量;不断重复此过程,直到入LSTM网络输出END单词;
S2.4将S2.2和S2.3过程中输出的单词,按顺序组合成一个句子;使用该句子在S2.1的语料库中进行匹配,搜索最相近的句子并输出,生成测试图像的描述。
2.根据权利要求1所述基于RNN的图片描述自动生成方法,其特征在于,步骤S1.5所述将单词特征向量和图像特征向量统一映射到同一维度k的向量,具体为:
对n维的单词向量特征左乘以一个k*n的矩阵,对于m维的图像特征向量,乘以一个k*m维的矩阵;由此把单词特征和图像特征统一到k维;m为正整数。
3.根据权利要求1所述基于RNN的图片描述自动生成方法,其特征在于,S1.8所述使用S1.7得到的n维向量和S1.6中输入的参考句子的n维向量进行比较,计算两个向量的欧式距离作为LSTM网络的误差,使用反向误差传播算法,更新网络参数,具体为:
在输入第t个单词时,t小于句子长度l,使用S1.7的方法,向LSTM网络输入参考句子中的第t个单词,得到n维的可能性向量;使用参考句子中的第t+1个单词作为参考,t+1个单词在n维可能性向量的负数作为误差,使用反向误差传播算法,更新网络参数;t为正整数,l为正整数;
在输入第l个单词时,使用S1.7的方法,向LSTM网络输入参考句子中的第l个单词,得到n维的可能性向量;使用S1.4中加入的END单词作为参考,END单词在n维可能性向量的负数作为误差,使用反向误差传播算法,更新网络参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510964425.9A CN105631468B (zh) | 2015-12-18 | 2015-12-18 | 一种基于rnn的图片描述自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510964425.9A CN105631468B (zh) | 2015-12-18 | 2015-12-18 | 一种基于rnn的图片描述自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105631468A true CN105631468A (zh) | 2016-06-01 |
CN105631468B CN105631468B (zh) | 2019-04-09 |
Family
ID=56046380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510964425.9A Expired - Fee Related CN105631468B (zh) | 2015-12-18 | 2015-12-18 | 一种基于rnn的图片描述自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105631468B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202044A (zh) * | 2016-07-07 | 2016-12-07 | 武汉理工大学 | 一种基于深度神经网络的实体关系抽取方法 |
CN106599198A (zh) * | 2016-12-14 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
CN106650789A (zh) * | 2016-11-16 | 2017-05-10 | 同济大学 | 一种基于深度lstm网络的图像描述生成方法 |
CN106650756A (zh) * | 2016-12-28 | 2017-05-10 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于知识迁移的多模态循环神经网络的图像文本描述方法 |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN107247704A (zh) * | 2017-06-09 | 2017-10-13 | 阿里巴巴集团控股有限公司 | 词向量处理方法、装置以及电子设备 |
CN107391609A (zh) * | 2017-07-01 | 2017-11-24 | 南京理工大学 | 一种双向多模态递归网络的图像描述方法 |
CN108052512A (zh) * | 2017-11-03 | 2018-05-18 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
CN108229522A (zh) * | 2017-03-07 | 2018-06-29 | 北京市商汤科技开发有限公司 | 神经网络的训练方法、属性检测方法、装置及电子设备 |
CN108805260A (zh) * | 2017-04-26 | 2018-11-13 | 上海荆虹电子科技有限公司 | 一种图说生成方法及装置 |
CN108804530A (zh) * | 2017-05-02 | 2018-11-13 | 达索系统公司 | 对图像的区域加字幕 |
CN109145946A (zh) * | 2018-07-09 | 2019-01-04 | 暨南大学 | 一种智能图像识别和描述方法 |
CN109241520A (zh) * | 2018-07-18 | 2019-01-18 | 五邑大学 | 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统 |
WO2019042244A1 (zh) * | 2017-08-30 | 2019-03-07 | 腾讯科技(深圳)有限公司 | 图像描述生成方法、模型训练方法、设备和存储介质 |
CN109447242A (zh) * | 2018-10-10 | 2019-03-08 | 复旦大学 | 基于迭代学习的图像描述重生成系统及方法 |
CN110147538A (zh) * | 2018-07-05 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 图片集描述生成方法、装置和计算机设备 |
CN110852331A (zh) * | 2019-10-25 | 2020-02-28 | 中电科大数据研究院有限公司 | 一种结合bert模型的图像描述生成方法 |
CN111177461A (zh) * | 2019-12-30 | 2020-05-19 | 厦门大学 | 一种根据当前场景及其描述信息生成下一场景的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030135356A1 (en) * | 2002-01-16 | 2003-07-17 | Zhiwei Ying | Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system |
CN105159890A (zh) * | 2014-06-06 | 2015-12-16 | 谷歌公司 | 使用神经网络产生输入序列的表示 |
-
2015
- 2015-12-18 CN CN201510964425.9A patent/CN105631468B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030135356A1 (en) * | 2002-01-16 | 2003-07-17 | Zhiwei Ying | Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system |
CN105159890A (zh) * | 2014-06-06 | 2015-12-16 | 谷歌公司 | 使用神经网络产生输入序列的表示 |
Non-Patent Citations (2)
Title |
---|
J MAO等: "Deep Captioning with Multimodal Recurrent Neural Networks(m-RNN)", 《ICLR》 * |
张剑: "基于词向量特征的循环神经网络语言模型", 《模式识别与人工智能》 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202044A (zh) * | 2016-07-07 | 2016-12-07 | 武汉理工大学 | 一种基于深度神经网络的实体关系抽取方法 |
CN106650789A (zh) * | 2016-11-16 | 2017-05-10 | 同济大学 | 一种基于深度lstm网络的图像描述生成方法 |
CN106650789B (zh) * | 2016-11-16 | 2023-04-07 | 同济大学 | 一种基于深度lstm网络的图像描述生成方法 |
CN106599198A (zh) * | 2016-12-14 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
CN106599198B (zh) * | 2016-12-14 | 2021-04-06 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
CN106650756A (zh) * | 2016-12-28 | 2017-05-10 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于知识迁移的多模态循环神经网络的图像文本描述方法 |
CN106650756B (zh) * | 2016-12-28 | 2019-12-10 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于知识迁移的多模态循环神经网络的图像文本描述方法 |
CN108229522A (zh) * | 2017-03-07 | 2018-06-29 | 北京市商汤科技开发有限公司 | 神经网络的训练方法、属性检测方法、装置及电子设备 |
CN108229522B (zh) * | 2017-03-07 | 2020-07-17 | 北京市商汤科技开发有限公司 | 神经网络的训练方法、属性检测方法、装置及电子设备 |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN108805260A (zh) * | 2017-04-26 | 2018-11-13 | 上海荆虹电子科技有限公司 | 一种图说生成方法及装置 |
CN108804530A (zh) * | 2017-05-02 | 2018-11-13 | 达索系统公司 | 对图像的区域加字幕 |
CN108804530B (zh) * | 2017-05-02 | 2024-01-12 | 达索系统公司 | 对图像的区域加字幕 |
CN107247704A (zh) * | 2017-06-09 | 2017-10-13 | 阿里巴巴集团控股有限公司 | 词向量处理方法、装置以及电子设备 |
CN107247704B (zh) * | 2017-06-09 | 2020-09-08 | 阿里巴巴集团控股有限公司 | 词向量处理方法、装置以及电子设备 |
CN107391609B (zh) * | 2017-07-01 | 2020-07-31 | 南京理工大学 | 一种双向多模态递归网络的图像描述方法 |
CN107391609A (zh) * | 2017-07-01 | 2017-11-24 | 南京理工大学 | 一种双向多模态递归网络的图像描述方法 |
US11907851B2 (en) | 2017-08-30 | 2024-02-20 | Tencent Technology (Shenzhen) Company Limited | Image description generation method, model training method, device and storage medium |
US11270160B2 (en) | 2017-08-30 | 2022-03-08 | Tencent Technology (Shenzhen) Company Limited | Image description generation method, model training method, device and storage medium |
WO2019042244A1 (zh) * | 2017-08-30 | 2019-03-07 | 腾讯科技(深圳)有限公司 | 图像描述生成方法、模型训练方法、设备和存储介质 |
CN108052512A (zh) * | 2017-11-03 | 2018-05-18 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
CN110147538A (zh) * | 2018-07-05 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 图片集描述生成方法、装置和计算机设备 |
CN110147538B (zh) * | 2018-07-05 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 图片集描述生成方法、装置和计算机设备 |
US11954591B2 (en) | 2018-07-05 | 2024-04-09 | Tencent Technology (Shenzhen) Company Limited | Picture set description generation method and apparatus, and computer device and storage medium |
CN109145946B (zh) * | 2018-07-09 | 2022-02-11 | 暨南大学 | 一种智能图像识别和描述方法 |
CN109145946A (zh) * | 2018-07-09 | 2019-01-04 | 暨南大学 | 一种智能图像识别和描述方法 |
CN109241520A (zh) * | 2018-07-18 | 2019-01-18 | 五邑大学 | 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统 |
CN109241520B (zh) * | 2018-07-18 | 2023-05-23 | 五邑大学 | 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统 |
CN109447242A (zh) * | 2018-10-10 | 2019-03-08 | 复旦大学 | 基于迭代学习的图像描述重生成系统及方法 |
CN110852331B (zh) * | 2019-10-25 | 2023-09-08 | 中电科大数据研究院有限公司 | 一种结合bert模型的图像描述生成方法 |
CN110852331A (zh) * | 2019-10-25 | 2020-02-28 | 中电科大数据研究院有限公司 | 一种结合bert模型的图像描述生成方法 |
CN111177461A (zh) * | 2019-12-30 | 2020-05-19 | 厦门大学 | 一种根据当前场景及其描述信息生成下一场景的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105631468B (zh) | 2019-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105631468A (zh) | 一种基于rnn的图片描述自动生成方法 | |
EP3660733B1 (en) | Method and system for information extraction from document images using conversational interface and database querying | |
CN108363753B (zh) | 评论文本情感分类模型训练与情感分类方法、装置及设备 | |
CN109145290B (zh) | 基于字向量与自注意力机制的语义相似度计算方法 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
WO2019080863A1 (zh) | 文本情感分类方法、存储介质及计算机 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN108427670A (zh) | 一种基于语境词向量和深度学习的情感分析方法 | |
CN113704416B (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
CN109933789A (zh) | 一种基于神经网络的司法领域关系抽取方法及系统 | |
CN114298055B (zh) | 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 | |
CN110175221B (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
CN107704558A (zh) | 一种用户意见抽取方法及系统 | |
CN102298576A (zh) | 文档关键词生成方法和装置 | |
Tiwari et al. | Ensemble approach for twitter sentiment analysis | |
CN110889282A (zh) | 一种基于深度学习的文本情感分析方法 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN110659392B (zh) | 检索方法及装置、存储介质 | |
CN108733675A (zh) | 基于大量样本数据的情感评价方法及装置 | |
CN114742047A (zh) | 基于最大概率填充和多头注意力机制的文本情感识别方法 | |
CN110750642A (zh) | 一种基于cnn的中文关系分类方法及系统 | |
CN114443846B (zh) | 一种基于多层级文本异构图的分类方法、装置及电子设备 | |
Khafajeh | Cyberbullying Detection in Social Networks Using Deep Learning. | |
CN110969005A (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
Afra et al. | Developing Sentiment Analysis of Indonesian Social Media Based on Convolutional Neural Network for Smarter Society |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190409 Termination date: 20211218 |