CN105631468A - 一种基于rnn的图片描述自动生成方法 - Google Patents

一种基于rnn的图片描述自动生成方法 Download PDF

Info

Publication number
CN105631468A
CN105631468A CN201510964425.9A CN201510964425A CN105631468A CN 105631468 A CN105631468 A CN 105631468A CN 201510964425 A CN201510964425 A CN 201510964425A CN 105631468 A CN105631468 A CN 105631468A
Authority
CN
China
Prior art keywords
word
vector
sentence
image
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510964425.9A
Other languages
English (en)
Other versions
CN105631468B (zh
Inventor
郭礼华
廖启俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201510964425.9A priority Critical patent/CN105631468B/zh
Publication of CN105631468A publication Critical patent/CN105631468A/zh
Application granted granted Critical
Publication of CN105631468B publication Critical patent/CN105631468B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种于RNN的图片描述自动生成方法,先使用预训练好的深度网络,对图像提取特征;再对该句子的单词去掉非名词和动词的成分;最后使用LSTM网络对图像特征和词语特征进行联合训练;在生成句子过程中,首先通过输入的图片和训练好的LSTM网络,生成一个名动词组成的句子;然后通过网络上的大量语料库,生成最后的输出句子。本发明可以自动识别,理解用户上传的数码图像,并生成人类能理解的自然句子。

Description

一种基于RNN的图片描述自动生成方法
技术领域
本发明涉及人工智能领域,特别涉及一种基于RNN的图片描述自动生成方法。
背景技术
自动图像内容描述是人工智能图像识别近年兴起的新技术。其目的在于通过算法,自动把一个图像的内容信息,用自然语言表达出来。ShowandTell:ANeuralImageCaptionGenerator,OriolVinyals2014,通过先使用深度网络提取图像特征,再使用RNN模型将图像特征转化为文字描述,提取出图像的语义信息。但其是对整个图像进行整体处理,不能很好地利用图像中的空间位置的信息。Show,AttendandTell:NeuralImageCaptionGenerationwithVisualAttention,KelvinXu2015,在其之上加入了显著性检测,对图像的空间信息有一定的利用,但其也只利用了简单的RNN模型,语义的表达力较弱。
发明内容
为了克服现有技术的上述缺点与不足,本发明的目的在于提供一种基于RNN的图片描述自动生成方法,可以自动识别,理解用户上传的数码图像,并生成人类能理解的自然句子。
本发明的目的通过以下技术方案实现:
一种基于RNN的图片描述自动生成方法,包括以下步骤:
S1在计算机上进行训练过程:
S1.1采集数据集:采集日常生活中各类场景里面的图像作为训练图像,每张训练图像带上一句或多句描述该图像内容的句子;
S1.2使用深度学习网络,对训练集的每一张图片提取图像特征;
S1.3词性筛选:收集四、六级英语单词的词汇表,以及每个单词的词性;
对于每张训练图像对应的一个或多个句子进行词性筛选:对于句子中的每个单词,如果单词在四、六级词汇表中排第一的词性是名词或者动词,该单词留下,否则,把该单词去掉;使用筛选之后剩下的单词组成句子作为数据库;
S1.4将词语数据转换成特征向量:统计出S1.3中的数据库中所有句子中出现的不同单词的数目,加上一个自定义的END字符,句子的总字符数为n;并对单词按字母顺序进行排序,每个单词在序列中的位置作为该单词的索引位置;由此把每个单词表示为一个n维的单词特征向量,该向量只有在该单词的索引位置上为1,其他全为零;n为正整数;
S1.5将单词特征向量和图像特征向量统一映射到同一维度k的向量;k为正整数;
S1.6使用LSTM网络进行训练:每个训练样例为一张训练图像和该训练图像所对应的经S1.3筛选的句子;每次随机选择一张训练图像和一个对应的参考句子;
S1.7将LSTM网络的输入和输出都设为k维向量,在时刻0,把k维的图像特征向量传入LSTM网络,网络输出一个k维向量;然后将输出的k维向量左乘一个n*k维的矩阵,得到一个n维向量;向量上第i维的值代表了索引值为i的单词的可能性;i为正整数;
S1.8使用S1.7得到的n维向量和S1.6中输入的参考句子的n维向量进行比较,计算两个向量的欧式距离,作为LSTM网络的误差,使用反向误差传播算法,更新网络参数;
S2自动生成图像描述:
S2.1在互联网上搜集自然语言的句子,形成语料库;
S2.2对于测试图像,先使用深度学习网络对测试图像提取图像特征,再使用S1.7的方法得到n维的可能性单词向量;根据n维向量上每一维值的大小,选出可能性最大的单词;
S2.3将步骤S2.2得到的单词向量再次输入LSTM网络中,得到更新后的输出单词可能性向量;不断重复此过程,直到入LSTM网络输出END单词;
S2.4将S2.2和S2.3过程中输出的单词,按顺序组合成一个句子;使用该句子在S2.1的语料库中进行匹配,搜索最相近的句子并输出,生成测试图像的描述。
步骤S1.5所述将单词特征向量和图像特征向量统一映射到同一维度k的向量,具体为:
对n维的单词向量特征左乘以一个k*n的矩阵,对于m维的图像特征向量,乘以一个k*m维的矩阵;由此把单词特征和图像特征统一到k维;m为正整数。
S1.8所述使用S1.7得到的n维向量和S1.6中输入的参考句子的n维向量进行比较,计算两个向量的欧式距离作为LSTM网络的误差,使用反向误差传播算法,更新网络参数,具体为:
在输入第t个单词时,t小于句子长度l,使用S1.7的方法,向LSTM网络输入参考句子中的第t个单词,得到n维的可能性向量;使用参考句子中的第t+1个单词作为参考,t+1个单词在n维可能性向量的负数作为误差,使用反向误差传播算法,更新网络参数;t为正整数,l为正整数;
在输入第l个单词时,使用S1.7的方法,向LSTM网络输入参考句子中的第l个单词,得到n维的可能性向量;使用S1.4中加入的END单词作为参考,END单词在n维可能性向量的负数作为误差,使用反向误差传播算法,更新网络参数。
与现有技术相比,本发明具有以下优点和有益效果:
(1)本发明很好地融合图像特征和文字特征,放在统一的框架下进行学习和理解,使图像信息和文字信息产生互补。
(2)本发明充分考虑到自动文字描述图片的困难性。采用了把句子中的名词和动词保留,去除其他词性词语的方法。保留了原来句子的主干部分(名词和动词),去掉其他可能带来很大干扰的部分,降低了学习的复杂度,得到了较好的效果。
(3)本发明通过不断增加训练数据库中的图像和句子,本发明的性能可以不断得到提高,而不需要重新训练。
(4)本发明中使用了互联网上的海量信息作为我们的语料库,使算法可以输出更贴近日常语言的话语。
附图说明
图1为本发明的实施例的基于RNN的图片描述自动生成方法的流程图。
具体实施方式
下面结合实施例,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
本实施例的一种基于RNN的图片描述自动生成方法,如图1所示,包括以下步骤:
S1在计算机上进行训练过程:
S1.1采集数据集:从http://mscoco.org/网站上下载mscoco数据库,该数据库包含30万张图片,每张图片带有5个描述图像内容的句子;
S1.2使用深度学习网络(参照论文ImageNetClassificationwithDeepConvolutionalNeuralNetworks,AlexKrizhevsky,IlyaSutskever,GeoffreyEHinton,NIPS2012.),对训练集的每一张图片提取图像特征;本实施例选用网络结构的最后一个全连接层的输出m=4096维向量Fi∈R4096作为图像的特征向量;
S1.3词性筛选:收集四、六级英语单词的词汇表,以及每个单词的词性;
对于每张训练图像对应的一个或多个句子进行词性筛选:对于句子中的每个单词,如果在四、六级词汇表中排第一的词性是名词或者动词,该单词留下,否则,把该单词去掉;使用筛选之后剩下的单词组成句子,作为数据库;
S1.4将词语数据转换成特征向量:统计出S1.3中的数据库中所有句子中出现的不同单词的数目,加上一个自定义的END字符,句子的总字符数n=402;并对单词按字母顺序进行排序,每个单词在序列中的位置作为该单词的索引位置;由此把每个单词表示为一个n维的单词特征向量,该向量只有在该单词的索引位置上为1,其他全为零;
第i个单词的单词向量:
I w i = { w 0 i , w 1 i , w 2 i ... w n i }
w j i = 0 , j ≠ i 1 , j = i
S1.5将单词特征向量和图像特征向量统一到同一维度k的向量;k=256;对n维的单词向量左乘以一个k*n的矩阵Mw∈R256*402,得到k为的单词特征向量Vw∈R256。对于m维的图像特征向量,乘以一个k*m维的矩阵Mi∈R256*4096,得到k维度图像特征向量Vi∈R256。由此把单词特征和图像特征统一到k维。
统一后的单词特征向量Vw和Vi
Vw=Iw*Mw
Vi=Fi*Mi
S1.6使用LSTM网(Longshort-termmemory,参考论文Hochreiter,SeppandSchmidhuber,Juergen,(1997)"LongShort-TermMemory",NeuralComputation,Vol9(8),pp:1735-1780)进行训练:每个训练样例为一张训练图像和该训练图像所对应的经S1.3筛选的句子;每次随机选择一张图像和一个对应的参考句子,句子的长度为l;
S1.7将LSTM网络的输入和输出都设为k维向量,在时刻0,把k维的图像特征向量传入LSTM网络,网络输出一个k维向量;然后将输出的k维向量左乘一个n*k维的矩阵,得到一个n维向量;向量上第i维的值代表了索引值为i的单词的可能性;i为正整数;
S1.8使用S1.7得到的n维向量和S1.6中输入的参考句子的n维向量进行比较,计算两个向量的欧式距离作为LSTM网络的误差,使用反向误差传播算法,更新网络参数;
S2自动生成图像描述:
S2.1在互联网上搜集自然语言的句子,形成语料库;
S2.2对于测试图像,先使用深度学习网络对测试图像提取图像特征,再使用S1.7的方法得到n维的可能性单词向量;根据n维向量上每一维值的大小,选出可能性最大的单词;
S2.3将步骤S2.2得到的单词向量再次输入LSTM网络中,得到更新后的输出单词可能性向量;不断重复此过程,直到入LSTM网络输出END单词;
S2.4将S2.2和S2.3过程中输出的单词,按顺序组合成一个句子;使用该句子在S2.1的语料库中进行匹配,搜索最相近的句子并输出,生成测试图像的描述。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (3)

1.一种基于RNN的图片描述自动生成方法,其特征在于,包括以下步骤:
S1在计算机上进行训练过程:
S1.1采集数据集:采集日常生活中各类场景里面的图像作为训练图像,每张训练图像带上一句或多句描述该图像内容的句子;
S1.2使用深度学习网络,对训练集的每一张图片提取图像特征;
S1.3词性筛选:收集四、六级英语单词的词汇表,以及每个单词的词性;
对于每张训练图像对应的一个或多个句子进行词性筛选:对于句子中的每个单词,如果单词在四、六级词汇表中排第一的词性是名词或者动词,该单词留下,否则,把该单词去掉;使用筛选之后剩下的单词组成句子作为数据库;
S1.4将词语数据转换成特征向量:统计出S1.3中的数据库中所有句子中出现的不同单词的数目,加上一个自定义的END字符,句子的总字符数为n;并对单词按字母顺序进行排序,每个单词在序列中的位置作为该单词的索引位置;由此把每个单词表示为一个n维的单词特征向量,该向量只有在该单词的索引位置上为1,其他全为零;n为正整数;
S1.5将单词特征向量和图像特征向量统一映射到同一维度k的向量;k为正整数;
S1.6使用LSTM网络进行训练:每个训练样例为一张训练图像和该训练图像所对应的经S1.3筛选的句子;每次随机选择一张训练图像和一个对应的参考句子;
S1.7将LSTM网络的输入和输出都设为k维向量,在时刻0,把k维的图像特征向量传入LSTM网络,网络输出一个k维向量;然后将输出的k维向量左乘一个n*k维的矩阵,得到一个n维向量;向量上第i维的值代表了索引值为i的单词的可能性;i为正整数;
S1.8使用S1.7得到的n维向量和S1.6中输入的参考句子的n维向量进行比较,计算两个向量的欧式距离,作为LSTM网络的误差,使用反向误差传播算法,更新网络参数;
S2自动生成图像描述:
S2.1在互联网上搜集自然语言的句子,形成语料库;
S2.2对于测试图像,先使用深度学习网络对测试图像提取图像特征,再使用S1.7的方法得到n维的可能性单词向量;根据n维向量上每一维值的大小,选出可能性最大的单词;
S2.3将步骤S2.2得到的单词向量再次输入LSTM网络中,得到更新后的输出单词可能性向量;不断重复此过程,直到入LSTM网络输出END单词;
S2.4将S2.2和S2.3过程中输出的单词,按顺序组合成一个句子;使用该句子在S2.1的语料库中进行匹配,搜索最相近的句子并输出,生成测试图像的描述。
2.根据权利要求1所述基于RNN的图片描述自动生成方法,其特征在于,步骤S1.5所述将单词特征向量和图像特征向量统一映射到同一维度k的向量,具体为:
对n维的单词向量特征左乘以一个k*n的矩阵,对于m维的图像特征向量,乘以一个k*m维的矩阵;由此把单词特征和图像特征统一到k维;m为正整数。
3.根据权利要求1所述基于RNN的图片描述自动生成方法,其特征在于,S1.8所述使用S1.7得到的n维向量和S1.6中输入的参考句子的n维向量进行比较,计算两个向量的欧式距离作为LSTM网络的误差,使用反向误差传播算法,更新网络参数,具体为:
在输入第t个单词时,t小于句子长度l,使用S1.7的方法,向LSTM网络输入参考句子中的第t个单词,得到n维的可能性向量;使用参考句子中的第t+1个单词作为参考,t+1个单词在n维可能性向量的负数作为误差,使用反向误差传播算法,更新网络参数;t为正整数,l为正整数;
在输入第l个单词时,使用S1.7的方法,向LSTM网络输入参考句子中的第l个单词,得到n维的可能性向量;使用S1.4中加入的END单词作为参考,END单词在n维可能性向量的负数作为误差,使用反向误差传播算法,更新网络参数。
CN201510964425.9A 2015-12-18 2015-12-18 一种基于rnn的图片描述自动生成方法 Expired - Fee Related CN105631468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510964425.9A CN105631468B (zh) 2015-12-18 2015-12-18 一种基于rnn的图片描述自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510964425.9A CN105631468B (zh) 2015-12-18 2015-12-18 一种基于rnn的图片描述自动生成方法

Publications (2)

Publication Number Publication Date
CN105631468A true CN105631468A (zh) 2016-06-01
CN105631468B CN105631468B (zh) 2019-04-09

Family

ID=56046380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510964425.9A Expired - Fee Related CN105631468B (zh) 2015-12-18 2015-12-18 一种基于rnn的图片描述自动生成方法

Country Status (1)

Country Link
CN (1) CN105631468B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN106599198A (zh) * 2016-12-14 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106650789A (zh) * 2016-11-16 2017-05-10 同济大学 一种基于深度lstm网络的图像描述生成方法
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107247704A (zh) * 2017-06-09 2017-10-13 阿里巴巴集团控股有限公司 词向量处理方法、装置以及电子设备
CN107391609A (zh) * 2017-07-01 2017-11-24 南京理工大学 一种双向多模态递归网络的图像描述方法
CN108052512A (zh) * 2017-11-03 2018-05-18 同济大学 一种基于深度注意力机制的图像描述生成方法
CN108229522A (zh) * 2017-03-07 2018-06-29 北京市商汤科技开发有限公司 神经网络的训练方法、属性检测方法、装置及电子设备
CN108805260A (zh) * 2017-04-26 2018-11-13 上海荆虹电子科技有限公司 一种图说生成方法及装置
CN108804530A (zh) * 2017-05-02 2018-11-13 达索系统公司 对图像的区域加字幕
CN109145946A (zh) * 2018-07-09 2019-01-04 暨南大学 一种智能图像识别和描述方法
CN109241520A (zh) * 2018-07-18 2019-01-18 五邑大学 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统
WO2019042244A1 (zh) * 2017-08-30 2019-03-07 腾讯科技(深圳)有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN109447242A (zh) * 2018-10-10 2019-03-08 复旦大学 基于迭代学习的图像描述重生成系统及方法
CN110147538A (zh) * 2018-07-05 2019-08-20 腾讯科技(深圳)有限公司 图片集描述生成方法、装置和计算机设备
CN110852331A (zh) * 2019-10-25 2020-02-28 中电科大数据研究院有限公司 一种结合bert模型的图像描述生成方法
CN111177461A (zh) * 2019-12-30 2020-05-19 厦门大学 一种根据当前场景及其描述信息生成下一场景的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030135356A1 (en) * 2002-01-16 2003-07-17 Zhiwei Ying Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system
CN105159890A (zh) * 2014-06-06 2015-12-16 谷歌公司 使用神经网络产生输入序列的表示

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030135356A1 (en) * 2002-01-16 2003-07-17 Zhiwei Ying Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system
CN105159890A (zh) * 2014-06-06 2015-12-16 谷歌公司 使用神经网络产生输入序列的表示

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J MAO等: "Deep Captioning with Multimodal Recurrent Neural Networks(m-RNN)", 《ICLR》 *
张剑: "基于词向量特征的循环神经网络语言模型", 《模式识别与人工智能》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN106650789A (zh) * 2016-11-16 2017-05-10 同济大学 一种基于深度lstm网络的图像描述生成方法
CN106650789B (zh) * 2016-11-16 2023-04-07 同济大学 一种基于深度lstm网络的图像描述生成方法
CN106599198A (zh) * 2016-12-14 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106599198B (zh) * 2016-12-14 2021-04-06 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN106650756B (zh) * 2016-12-28 2019-12-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN108229522A (zh) * 2017-03-07 2018-06-29 北京市商汤科技开发有限公司 神经网络的训练方法、属性检测方法、装置及电子设备
CN108229522B (zh) * 2017-03-07 2020-07-17 北京市商汤科技开发有限公司 神经网络的训练方法、属性检测方法、装置及电子设备
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN108805260A (zh) * 2017-04-26 2018-11-13 上海荆虹电子科技有限公司 一种图说生成方法及装置
CN108804530A (zh) * 2017-05-02 2018-11-13 达索系统公司 对图像的区域加字幕
CN108804530B (zh) * 2017-05-02 2024-01-12 达索系统公司 对图像的区域加字幕
CN107247704B (zh) * 2017-06-09 2020-09-08 阿里巴巴集团控股有限公司 词向量处理方法、装置以及电子设备
CN107247704A (zh) * 2017-06-09 2017-10-13 阿里巴巴集团控股有限公司 词向量处理方法、装置以及电子设备
CN107391609B (zh) * 2017-07-01 2020-07-31 南京理工大学 一种双向多模态递归网络的图像描述方法
CN107391609A (zh) * 2017-07-01 2017-11-24 南京理工大学 一种双向多模态递归网络的图像描述方法
US11270160B2 (en) 2017-08-30 2022-03-08 Tencent Technology (Shenzhen) Company Limited Image description generation method, model training method, device and storage medium
WO2019042244A1 (zh) * 2017-08-30 2019-03-07 腾讯科技(深圳)有限公司 图像描述生成方法、模型训练方法、设备和存储介质
US11907851B2 (en) 2017-08-30 2024-02-20 Tencent Technology (Shenzhen) Company Limited Image description generation method, model training method, device and storage medium
CN108052512A (zh) * 2017-11-03 2018-05-18 同济大学 一种基于深度注意力机制的图像描述生成方法
CN110147538B (zh) * 2018-07-05 2023-04-07 腾讯科技(深圳)有限公司 图片集描述生成方法、装置和计算机设备
CN110147538A (zh) * 2018-07-05 2019-08-20 腾讯科技(深圳)有限公司 图片集描述生成方法、装置和计算机设备
US11954591B2 (en) 2018-07-05 2024-04-09 Tencent Technology (Shenzhen) Company Limited Picture set description generation method and apparatus, and computer device and storage medium
CN109145946B (zh) * 2018-07-09 2022-02-11 暨南大学 一种智能图像识别和描述方法
CN109145946A (zh) * 2018-07-09 2019-01-04 暨南大学 一种智能图像识别和描述方法
CN109241520B (zh) * 2018-07-18 2023-05-23 五邑大学 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统
CN109241520A (zh) * 2018-07-18 2019-01-18 五邑大学 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统
CN109447242A (zh) * 2018-10-10 2019-03-08 复旦大学 基于迭代学习的图像描述重生成系统及方法
CN110852331A (zh) * 2019-10-25 2020-02-28 中电科大数据研究院有限公司 一种结合bert模型的图像描述生成方法
CN110852331B (zh) * 2019-10-25 2023-09-08 中电科大数据研究院有限公司 一种结合bert模型的图像描述生成方法
CN111177461A (zh) * 2019-12-30 2020-05-19 厦门大学 一种根据当前场景及其描述信息生成下一场景的方法

Also Published As

Publication number Publication date
CN105631468B (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN105631468A (zh) 一种基于rnn的图片描述自动生成方法
CN110825881B (zh) 一种建立电力知识图谱的方法
CN104050160B (zh) 一种机器与人工翻译相融合的口语翻译方法和装置
US20170076204A1 (en) Natural language question expansion and extraction
CN110263324A (zh) 文本处理方法、模型训练方法和装置
CN108197294A (zh) 一种基于深度学习的文本自动生成方法
CN107818164A (zh) 一种智能问答方法及其系统
CN107315737A (zh) 一种语义逻辑处理方法及系统
CN108874878A (zh) 一种知识图谱的构建系统及方法
CN108287858A (zh) 自然语言的语义提取方法及装置
CN107392147A (zh) 一种基于改进的生成式对抗网络的图像语句转换方法
CN114064918A (zh) 一种多模态事件知识图谱构建方法
CN115393692A (zh) 基于生成式预训练语言模型的联想文本到图像生成方法
CN109062904B (zh) 逻辑谓词提取方法和装置
CN106886580A (zh) 一种基于深度学习的图片情感极性分析方法
CN110428820A (zh) 一种中英文混合语音识别方法及装置
CN109271516B (zh) 一种知识图谱中实体类型分类方法及系统
CN109949799B (zh) 一种语义解析方法及系统
CN110516240B (zh) 一种基于Transformer的语义相似度计算模型DSSM技术
CN113987147A (zh) 样本处理方法及装置
CN110110800A (zh) 自动图像标注方法、装置、设备及计算机可读存储介质
CN114880461A (zh) 一种结合对比学习和预训练技术的中文新闻文本摘要方法
WO2023231576A1 (zh) 混合语言语音识别模型的生成方法及装置
CN109740164A (zh) 基于深度语义匹配的电力缺陷等级识别方法
CN107943940A (zh) 数据处理方法、介质、系统和电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190409

Termination date: 20211218

CF01 Termination of patent right due to non-payment of annual fee