CN106503055B - 一种从结构化文本到图像描述的生成方法 - Google Patents

一种从结构化文本到图像描述的生成方法 Download PDF

Info

Publication number
CN106503055B
CN106503055B CN201610854169.2A CN201610854169A CN106503055B CN 106503055 B CN106503055 B CN 106503055B CN 201610854169 A CN201610854169 A CN 201610854169A CN 106503055 B CN106503055 B CN 106503055B
Authority
CN
China
Prior art keywords
image
text
description
structured text
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610854169.2A
Other languages
English (en)
Other versions
CN106503055A (zh
Inventor
马书博
韩亚洪
李广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Mido Technology Co ltd
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201610854169.2A priority Critical patent/CN106503055B/zh
Publication of CN106503055A publication Critical patent/CN106503055A/zh
Application granted granted Critical
Publication of CN106503055B publication Critical patent/CN106503055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information

Abstract

本发明公开了一种从结构化文本到图像描述的生成方法,从互联网下载图片,构成图片训练集;对训练集中图像对应的描述进行词法分析,构造结构化文本;利用现有的神经网络模型,提取训练集图像的卷积神经网络特征,并以<图像特征,结构化文本>作为输入,构造多任务识别模型;以训练集中提取的结构化文本和相应描述作为递归神经网络的输入,训练得到递归神经网络模型的参数;输入待描述图像的卷积神经网络特征,通过多任务识别模型得到预测结构化文本;输入预测结构化文本,通过递归神经网络模型得到图像描述。与现有技术相比,本发明能够产生更好的图像描述效果和准确性以及句子的多样性,可以有效地推广到图像检索的应用当中。

Description

一种从结构化文本到图像描述的生成方法
技术领域
本发明涉及计算机视觉内容自动理解和多媒体检索技术领域,尤其涉及一种从结构化文本到图像描述的生成方法。
背景技术
在计算机视觉和多媒体领域中,通过生成自然语言来描述图像的语义信息是一项非常重要和极具挑战的任务。例如:当人们看到一张图片时,特别是图片中的物体具有鲜明的特征或属性,便会对该图片有一定程度的了解,并可以通过语言去讲述图像中所发生的事情。例如使用“一辆黄色的校车”这样的句子对图像进行描述,特别是“黄色”以及“校车”,都可以详细的描绘这辆汽车的属性。然而,面对大量的图像,采用人工的方式对图像进行逐一的描述需要的大量的时间,人力和财力。使用计算机技术对图像特征进行分析,并与自然语言处理的方法进行结合,生成对图像的描述是非常有必要的。一方面,通过图像描述的方法,人们可以从语义的角度更加精确的去理解图像。另一方面,在图像检索领域,当用户输入一段文字性的描述来检索出相应的图像这件事情是非常困难的并且具有一定的挑战。
在过去的几年中已经涌现出了各种各样的图像描述方法,比如:通过对图像特征进行分析,可以识别图片中存在的物体以及物体之间所具有的动作关系;然后采用固定的语言模板:主语+动词+宾语,具体为从所识别物体中确定主语和宾语以及将物体之间的动作关系作为谓语,采用这样的方式生成句子对图像的描述。但是这样的方法存在一定的局限性,例如语言的模板形式的单一导致生成的句子句式相对固定,以及需要大量的时间对图像特征进行训练,才能实现对图像中的物体和动作进行识别和前期图像各个物体以及动作类别的标注。最重要的是,这种方法忽略掉了物体所固有的属性,使得生成的句子丢失了大量的信息。
随着自然语言处理中使用深度学习的方法对机器翻译效果取得显著的提升,人们从中受到启发,在图像中运用深度学习的方法,其生成的图像描述多样性和正确性有了一定的提高。
主要参考文献:
1、L.A.Hendricks,S.Venugopalan,M.Rohrbach,R.Mooney,K.Saenko,andT.Darrell.《深度组成的描述:描述新的物体类别采用非配对的训练数据》,计算机视觉和模式识别会议,2015.
2、J.Donahue,L.A.Hendricks,S.Guadarrama.,M.Rohrbach,S.Venugopalan,K.Saenko,and T.Darrell.《基于长系列循环卷积神经网络的视觉识别和描述》1411.4389,2014.
3、I.Sutskever,O.Vinyals,and Q.V.Le.《序列到序列学习通过神经网络》,先进的神经信息处理系统,2014,pp.3104-3112.
4、Y.Han and G.Li.《描述图像通过层次结构的概念和物体类别定位》,多媒体检索国际会议,2015,pp.251-258.
5、A.Farhadi,M.Hejrati,A.Sadeghi,P.Young,C.Rashtchian,J.Hockenmaier,and D.Forsyt.《每一幅图像都讲述了一个故事:从图像中生成句子》,欧洲计算机视觉会议,2008,P1-14
6、A.Karpathy and L.Fei-Fei.《基于深度视觉-语义对应生成图像描述》,计算机视觉和模式识别,2015,pp.3128-3137.
发明内容
基于现有技术,本发明提出了一种从结构化文本到图像描述的生成方法,通过自然语言描述一张图片中正在发生的事件以及与事件相关的物体属性和场景等,使用卷积神经网络提取图像的底层特征,并通过多任务识别的方式得到图像所具有的结构化文本信息可以得到图像中更多的语义信息,特别是结构化文本中包含了属性和场景等内容,从而达到对图像内容进行描述和总结的目的。
本发明的一种从结构化文本到图像描述的生成方法,该方法包括以下步骤:
步骤1、从互联网下载图片,并对每个图片进行描述,形成<图像,描述>对,构成文本描述训练集;图像表示为集合Nd是集合IMG中的图像总数;每个图像对应多个描述,描述表示为集合Sentences={Sentence1,…,SentenceN},N表示每一个图像所对应的句子(Sentence1,…,SentenceN)的描述个数,通过现有的图像集合IMG以及每个图像对应的句子描述Sentences组成<图像,描述>对,构成文本描述训练集;
步骤2、对训练集中图像对应的描述进行词法分析,构造结构化文本,结构化文本组成包括物体和属性、活动、场景;
步骤3、利用现有的神经网络模型,提取训练集图像的卷积神经网络特征,并以<图像特征,结构化文本>作为输入,构造多任务识别模型,模型表示如下:
其中,i=1,2,3,l=3表示该模型分为三个任务,第一个任务为识别图像存在的物体和相应的属性,第二个任务为识别图像中存在的活动,第三个任务为识别图像中具有的场景;Xi指的是从图像中提取的卷积神经网络特征,Yi指的是从文本描述中获得物体及对应、活动、场景;1T i表示单位矩阵,L指的是超图拉普拉斯,表示矩阵的迹,α,β,γ为目标函数的正则项参数,Wi,bi为待优化参数;
步骤4、以训练集中提取的结构化文本和相应描述作为递归神经网络的输入,训练得到递归神经网络模型的参数;
步骤5、输入待描述图像的卷积神经网络特征,通过多任务识别模型得到预测结构化文本:
步骤6、输入预测结构化文本,通过递归神经网络模型得到图像描述。
本发明具有以下积极的实施技术效果:
相比较传统的图像描述方法而言,本发明能够有效避免通过识别主语,谓语,宾语来生成句子所造成的描述的准确性和多样性较低的缺点;并且,使用训练好的循环神经网络将结构化文本转化成句子;能够产生更好的图像描述效果和准确性以及句子的多样性,从而克服了使用固定模板生成句子所带来的句式单一,容易出现语法错误的困难;同时,可以有效地推广到图像检索的应用当中。
附图说明
图1为本发明的结构化文本中关于活动的结构示意图;
图2为本发明的训练集例子示例图;
图3为本发明所使用的深度学习模型示意图;
图4为本发明所使用的深度学习模型中的每一个长短期记忆网络(LSTM)单元示意图;
图5为使用本发明所生产的结构化文本以及图像描述的结果示意图;
图6为本发明的一种从结构化文本到图像描述的生成方法的整体流程图。
具体实施方式
下面结合附图对本发明作进一步详细描述:
如图1所示,其中是文本描述中的活动,表示图像中的物体所具有的动作,可在候选的类集合Activity中的任意一个元素处取值(即),其中0表示不具有该活动,1表示具有该活动;是文本描述中的物体,表示图像描述中所包含的物体,可在候选的子类集合Object中任意一个元素处取值(即其中0表示不具有该物体,1表示具有该物体;是文本描述中的属性,表示图像描述中所包含的物体所具有的属性,可在候选的子类集合Attribute中任意一个元素处取值(即),其中0表示物体不具有该属性,1表示物体具有该属性;是文本描述中的场景,表示图像描述中所包含的场景,可在候选的子类集合Scene中任意一个元素处取值(即),其中0表示不具有该场景,1表示具有该场景。
如图2所示,本发明使用的训练集中的若干例子,其中第一行的图像为从网络上下载的自然图像。第二行为每个图像相对应的结构化文本标签,分别为物体,属性,活动和场景。本发明使用以上训练集进行多任务识别的参数训练。
如图3所示,本发明所使用的深度学习模型,该模型由多个长短时间记忆网络(LSTM)构成,其中P={p0,...,pm}为结构化文本序列,Q={q0,...,qn}为结构化文本对应的文本描述。
如图4所示,本发明所使用的深度学习模型中的每一个长短期记忆网络(LSTM)单元。其中ht-1为上一个输入,xt为当前输入,ht为本单元的输出。
如图5所示,使用本发明所生产的结构化文本以及图像描述的结果,其中,ACT,O,A,S分别表示通过将该图片的卷积神经网络特征输入多任务识别模型后所预测出的活动,物体,属性以及场景;“Our Method”为本发明通过结构化文本生成的图像描述,“Groundtruth”为该图片人为描述结果。
这里选取两个图像作为待描述图像,分别为图5中的两幅图像,使用本发明中从结构化文本到图像描述的生成方法对其进行预测输出相应的图像描述,如图6所示。
步骤1、从互联网下载图片,并对每个图片进行描述,形成<图像,描述>对,构成文本描述训练集的步骤如下:
(1)从互联网中下载微软上下文中的常见对象数据集(MS-COCO),构成图像集合其中Nd是集合IMG中的图像总数,其中训练集图像个数Nd==82783;
(2)每个图像都会有多个对应的描述,每一个图像的句子描述为Sentences={Sentence1,…,SentenceN},其中,N表示每一个图像所对应的句子(Sentence1,…,SentenceN)的描述个数,本次实施中N=5;
(3)通过现有的图像集合IMG以及每个视频对应的句子描述Sentences组成<图像,描述>对,构成文本描述训练集。
步骤2、利用词法分析工具,对训练集中图像对应的描述进行词法分析,构造结构化文本<物体和属性,活动,场景>的步骤如下:
(1)采用开放的自然语言处理(OPENNLP)词法分析工具对训练集中文本描述进行分词,并统计出现频率较高的名词,形容词和动词。其中,名词主要为文本描述中的物体和场景No表示训练集文本描述中统计的高频率物体的个数,本次实施中选取的物体个数No=105;Ns表示训练集文本描述中高频率的场景的个数,本次实施中选取的场景个数Ns=44;形容词主要为文本描述中的物体的属性Na表示训练集文本描述中统计的高频率属性的个数,本次实施中选取的属性个数Na=37;动词主要为文本描述中存在的活动Nv表示训练集文本描述中统计的高频率活动的个数,本次实施中选取的活动个数Nv=42。
根据筛选出的物体,属性,活动和场景构成集合
(3)对训练集中每一个描述分词后与集合DIC进行匹配,生成结构化文本标签其中表示第i个文本描述所具有的物体,其值分别为0或1,0表示该文本描述不具有该物体,1表示该文本描述具有该物体;Attributei1,L,AttrivuteNia表示第i个文本描述中物体所具有的属性,其值分别为0或1,0表示该文本描述中的物体不具有该属性,1表示该文本描述中的物体具有该属性;表示第i个文本描述所具有的活动,其值分别为0或1,0表示该文本描述不具有该活动,1表示该文本描述具有该活动;表示第i个文本描述所具有的场景,其值分别为0或1,0表示该文本描述不具有该场景,1表示该文本描述具有该场景。
步骤3、提取训练集图像的卷积神经网络特征,并以<图像特征,结构化文本>作为输入,构造多任务识别模型,训练得到模型参数的步骤如下:
(1)利用现有的神经网络模型例如:VggNet,提取训练集图像的VggNet特征X;
(2)构造如图1中所示的多任务识别模型:
其中是文本描述中的活动,表示图像中的物体所具有的动作,可在候选的类集合Activity中的任意一个元素处取值(即),其中0表示不具有该活动,1表示具有该活动;是文本描述中的物体,表示图像描述中所包含的物体,可在候选的子类集合Object中任意一个元素处取值(即),其中0表示不具有该物体,1表示具有该物体;是文本描述中的属性,表示图像描述中所包含的物体所具有的属性,可在候选的子类集合Attribute中任意一个元素处取值(即),其中0表示物体不具有该属性,1表示物体具有该属性;是文本描述中的场景,表示图像描述中所包含的场景,可在候选的子类集合Scene中任意一个元素处取值(即),其中0表示不具有该场景,1表示具有该场景。使用代替来表示文本描述所具有的物体和对应的属性;代替来表示文本描述所具有的活动;代替来表示文本描述所具有的场景。多任务识别模型需要最小化如下公式:
其中,i=1,2,3,l=3表示该模型分为三个任务,第一个任务为识别图像存在的物体和相应的属性,第二个任务为识别图像中存在的活动,第三个任务为识别图像中具有的场景。Xi指的是从图像中提取的卷积神经网络特征,Yi指的是从文本描述中获得物体及对应描述,活动,场景。1T i表示单位矩阵,L指的是超图拉普拉斯,表示矩阵的迹,α,β,γ为该目标函数的正则项参数,Wi,bi为待优化参数。
(3)根据公式(1),对其进行变换得到公式(2)其中Di,D为对角矩阵
(4)对公式(2)进行推导,可得:
其中,根据公式(3),可以得到:
进而可以求解Wi
4、以训练集中提取的结构化文本和相应描述(<结构化文本,图像描述>)作为递归神经网络的输入,训练得到递归神经网络模型的参数的步骤如下:
(1)构造如图3所示的深度学习模型,根据结构化文本P,以及对应的文本描述Q进行建模,其目标函数为:
其中,(P,Q)代表训练数据中的结构化文本-文本对;θ为模型待优化参数;θ*为优化后的参数;训练的目的是使得所有样本在给定输入图像I的观察下生成的句子的对数概率之和最大,采用条件概率的链式法则计算概率p(Q|P;θ),表达式为:
其中,P={p0,...,pm}表示结构化文本中的单词,q0,q1,...,qn-1,qn表示句子中的单词。对公式中的未知量p(qt|P,q0,q1,...,qt-1)使用递归神经网络进行建模。
(2)构造递归神经网络(RNN)
在t-1个单词作为条件下,并将这些词表示为固定长度的隐态ht,直到出现新的输入xt,并通过非线性函数f对隐态进行更新,表达式为:
ht+1=f(ht,xt) (8)
其中,ht+1表示下一隐态。
(3)对于非线性函数f,通过构造如图4所示的长短时间记忆网络(LSTM)进行建模;
其中,it为输入门inputgate,ft为遗忘门forgetgate,ot为输出门outputgate,c为细胞cell,各个状态的更新和输出可表示为:
it=σ(Wixxt+Wimmt-1) (9)
ft=σ(Wfxxt+Wfmmt-1) (10)
ot=σ(Woxxt+Wommt-1) (11)
ct=ft⊙ct-1+it⊙h(Wcxxt+Wcmmt-1) (12)
mt=ot⊙ct (13)
pt+1=Softmax(mt) (14)
其中,⊙表示为gate值之间的乘积,矩阵W={Wix;Wim;Wfx;Wfm;Wox;Wom;Wcx;Wix;Wcm}为需要训练的参数,σ(·)为sigmod函数,h(·)为双曲线正切函数。pt+1为经过softmax分类后下一个词的概率分布;mt为当前状态特征。
(4)、使用梯度下降的方式优化目标函数,并得到训练后的长短时间记忆网络LSTM参数W。
5,输入待描述图像的卷积神经网络特征,通过多任务识别模型得到预测结构化文本的步骤如下;
(1)提取测试集Nt为测试集图像的个数,t为测试集图像;
(2)利用现有的VggNet卷积神经网络模型提取IMGt中每个图像的CNN特征,得到图像特征
(3)将图像特征Xt作为输入并利用训练好的多任务识别模型的参数{Wi,bi,α,β,γ},i=1,2,3,求得公式预测出图像对应的结构化文本Pt={pt 0,...,pt m},图4为生成结构化文本结果展示;
步骤6、输入预测结构化文本,通过递归神经网络模型得到图像描述的步骤如下:
(1)将基于多任务识别模型预测的结构化文本Pt={pt 0,...,pt m}作为输入并利用训练好的递归神经网络模型的参数W={Wix;Wim;Wfx;Wfm;Wox;Wom;Wcx;Wix;Wcm},求得公式(7),得到图像对应的描述Qt={qt 0,...,,qt n},图5为生成图像描述结果展示。
结论:本发明针对图像描述问题提出了一种从结构化文本到图像描述的生成方法。将每一个图像通过卷积神经网络提取底层特征,并通过多任务模型生成相应的结构化文本,将这些结构化文本作为递归神经网络的输入生成高质量的图像描述。用户可以使用这种方法得到图像的描述,其描述的准确性较高,并且可以推广到图像检索中去。

Claims (4)

1.一种从结构化文本到图像描述的生成方法,其特征在于,该方法包括以下步骤:
步骤(1)、从互联网下载图片,并对每个图片进行描述,形成<图像,描述>对,构成文本描述训练集;图像表示为集合Nd是集合IMG中的图像总数;每个图像对应多个描述,描述表示为集合Sentences={Sentence1,…,SentenceN},N表示每一个图像所对应的句子(Sentence1,…,SentenceN)的描述个数,通过现有的图像集合IMG以及每个图像对应的句子描述Sentences组成<图像,描述>对,构成文本描述训练集;
步骤(2)、对训练集中图像对应的描述进行词法分析,构造结构化文本,结构化文本组成包括物体和属性、活动、场景;
步骤(3)、利用现有的神经网络模型,提取训练集图像的卷积神经网络特征,并以<图像特征,结构化文本>作为输入,构造多任务识别模型,模型表示如下:
其中,i=1,2,3,l=3表示该模型分为三个任务,第一个任务为识别图像存在的物体和相应的属性,第二个任务为识别图像中存在的活动,第三个任务为识别图像中具有的场景;Xi表示从图像中提取的卷积神经网络特征,Yi指的是从文本描述中获得物体及对应描述、活动、场景;1T i表示单位矩阵,L表示是超图拉普拉斯,表示矩阵的迹,α,β,γ为目标函数的正则项参数,Wi,bi为待优化参数;
步骤(4)、以训练集中提取的结构化文本和相应描述作为递归神经网络的输入,训练得到递归神经网络模型的参数;
步骤(5)、输入待描述图像的卷积神经网络特征,通过多任务识别模型得到预测结构化文本;
步骤(6)、输入预测结构化文本,通过递归神经网络模型得到图像描述。
2.如权利要求1所述的一种从结构化文本到图像描述的生成方法,其特征在于,所述步骤(4)的具体步骤还包括:
(1)、构造深度学习模型,根据结构化文本P,以及对应的文本描述Q进行建模,其目标函数为:
其中,(P,Q)代表训练数据中的结构化文本-文本对;θ为模型待优化参数;θ*为优化后的参数;训练的目的是使得所有样本在给定输入图像I的观察下生成的句子的对数概率之和最大,采用条件概率的链式法则计算概率p(Q|P;θ),表达式为:
其中,P={p0,...,pm}表示结构化文本中的单词,q0,q1,...,qn-1,qn表示句子中的单词,对公式中的未知量p(qt|P,q0,q1,...,qt-1)使用递归神经网络进行建模;
(2)、构造递归神经网络,在t-1个单词作为条件下,并将这些词表示为固定长度的隐态ht,直到出现新的输入xt,并通过非线性函数f对隐态进行更新,表达式为:
ht+1=f(ht,xt)
其中,ht+1表示下一隐态;
(3)、对于非线性函数f,通过构造长短时间记忆网络进行建模;
其中,it为输入门input gate,ft为遗忘门forget gate,ot为输出门output gate,c为细胞cell,各个状态的更新和输出表示为:
it=σ(Wixxt+Wimmt-1)
ft=σ(Wfxxt+Wfmmt-1)
ot=σ(Woxxt+Wommt-1)
ct=ft⊙ct-1+it⊙h(Wcxxt+Wcmmt-1)
mt=ot⊙ct
pt+1=Softmax(mt)
其中,⊙表示为gate值之间的乘积,矩阵W={Wix;Wim;Wfx;Wfm;Wox;Wom;Wcx;Wix;Wcm}为需要训练的参数,σ(·)为sigmod函数,h(·)为双曲线正切函数;pt+1为经过softmax分类后下一个词的概率分布;mt为当前状态特征;
(4)、使用梯度下降的方式优化目标函数,并得到训练后的长短时间记忆网络LSTM参数W。
3.如权利要求1所述的一种从结构化文本到图像描述的生成方法,其特征在于,所述步骤(5)的具体步骤还包括:
(1)、提取测试集Nt为测试集图像的个数,t为测试集图像;
(2)、利用现有的VggNet卷积神经网络模型提取IMGt中每个图像的CNN特征,得到图像特征
(3)、将图像特征Xt作为输入并利用训练好的多任务识别模型的参数{Wi,bi,α,β,γ},i=1,2,3,求得公式预测出图像对应的结构化文本Pt={pt 0,...,pt m}。
4.如权利要求1所述的一种从结构化文本到图像描述的生成方法,其特征在于,所述步骤(6)的具体步骤还包括:
将基于多任务识别模型预测的结构化文本Pt={pt 0,...,pt m}作为输入并利用训练好的递归神经网络模型的参数W={Wix;Wim;Wfx;Wfm;Wox;Wom;Wcx;Wix;Wcm},求得概率。
CN201610854169.2A 2016-09-27 2016-09-27 一种从结构化文本到图像描述的生成方法 Active CN106503055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610854169.2A CN106503055B (zh) 2016-09-27 2016-09-27 一种从结构化文本到图像描述的生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610854169.2A CN106503055B (zh) 2016-09-27 2016-09-27 一种从结构化文本到图像描述的生成方法

Publications (2)

Publication Number Publication Date
CN106503055A CN106503055A (zh) 2017-03-15
CN106503055B true CN106503055B (zh) 2019-06-04

Family

ID=58291012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610854169.2A Active CN106503055B (zh) 2016-09-27 2016-09-27 一种从结构化文本到图像描述的生成方法

Country Status (1)

Country Link
CN (1) CN106503055B (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018170671A1 (en) * 2017-03-20 2018-09-27 Intel Corporation Topic-guided model for image captioning system
CN108665055B (zh) * 2017-03-28 2020-10-23 深圳荆虹科技有限公司 一种图说生成方法及装置
CN108805260A (zh) * 2017-04-26 2018-11-13 上海荆虹电子科技有限公司 一种图说生成方法及装置
CN107103754B (zh) * 2017-05-10 2020-05-22 华南师范大学 一种道路交通状况预测方法及系统
CN108228686B (zh) * 2017-06-15 2021-03-23 北京市商汤科技开发有限公司 用于实现图文匹配的方法、装置和电子设备
CN107491433A (zh) * 2017-07-24 2017-12-19 成都知数科技有限公司 基于深度学习的电商异常金融商品识别方法
KR102469717B1 (ko) * 2017-08-01 2022-11-22 삼성전자주식회사 오브젝트에 대한 검색 결과를 제공하기 위한 전자 장치 및 이의 제어 방법
CN107578062A (zh) * 2017-08-19 2018-01-12 四川大学 一种基于属性概率向量引导注意模式的图片描述方法
CN109472274B (zh) * 2017-09-07 2022-06-28 富士通株式会社 深度学习分类模型的训练装置和方法
CN108288067B (zh) * 2017-09-12 2020-07-24 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置
WO2019081781A1 (en) * 2017-10-27 2019-05-02 Deepmind Technologies Limited NEURAL GRAPH NETWORK SYSTEMS FOR GENERATING STRUCTURED REPRESENTATIONS OF OBJECTS
CN107833176A (zh) 2017-10-30 2018-03-23 上海寒武纪信息科技有限公司 一种信息处理方法及相关产品
CN107766894B (zh) * 2017-11-03 2021-01-22 吉林大学 基于注意力机制和深度学习的遥感图像自然语言生成方法
CN108319633B (zh) * 2017-11-17 2022-02-11 腾讯科技(深圳)有限公司 一种图像处理方法、装置及服务器、系统、存储介质
CN107909115B (zh) * 2017-12-04 2022-02-15 上海师范大学 一种图像中文字幕生成方法
CN108334540B (zh) * 2017-12-15 2020-11-10 深圳市腾讯计算机系统有限公司 媒体信息的展示方法和装置、存储介质、电子装置
CN108229477B (zh) * 2018-01-25 2020-10-09 深圳市商汤科技有限公司 针对图像的视觉关联性识别方法、装置、设备及存储介质
CN108470036A (zh) * 2018-02-06 2018-08-31 北京奇虎科技有限公司 一种基于故事文本生成视频的方法和装置
CN108416384B (zh) * 2018-03-05 2021-11-05 苏州大学 一种图像标签标注方法、系统、设备及可读存储介质
CN110475129B (zh) * 2018-03-05 2021-05-28 腾讯科技(深圳)有限公司 视频处理方法、介质及服务器
CN108898639A (zh) * 2018-05-30 2018-11-27 湖北工业大学 一种图像描述方法及系统
CN110580299B (zh) * 2018-06-08 2023-11-07 北京京东尚科信息技术有限公司 生成对象的推荐语的配图的方法、系统、设备及存储介质
CN110147538B (zh) * 2018-07-05 2023-04-07 腾讯科技(深圳)有限公司 图片集描述生成方法、装置和计算机设备
CN109002852B (zh) * 2018-07-11 2023-05-23 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN109213862B (zh) * 2018-08-21 2020-11-24 北京京东尚科信息技术有限公司 物体识别方法和装置、计算机可读存储介质
CN109271628A (zh) * 2018-09-03 2019-01-25 东北大学 一种图像描述生成方法
CN109657079A (zh) * 2018-11-13 2019-04-19 平安科技(深圳)有限公司 一种图像描述方法及终端设备
CN111597326B (zh) * 2019-02-21 2024-03-05 北京汇钧科技有限公司 生成商品描述文本的方法及装置
CN109902750A (zh) * 2019-03-04 2019-06-18 山西大学 基于双向单注意力机制图像描述方法
CN110188779A (zh) * 2019-06-03 2019-08-30 中国矿业大学 一种图像语义描述的生成方法
CN110287484B (zh) * 2019-06-11 2022-12-06 华东师范大学 一种基于人脸特征的汉语文本描述人脸图像生成方法
CN110852171A (zh) * 2019-10-14 2020-02-28 清华大学深圳国际研究生院 在线训练的场景描述机器人系统及方法
US11380116B2 (en) * 2019-10-22 2022-07-05 International Business Machines Corporation Automatic delineation and extraction of tabular data using machine learning
CN111013149A (zh) * 2019-10-23 2020-04-17 浙江工商大学 一种基于神经网络深度学习的卡牌设计生成方法及系统
CN111310867B (zh) * 2020-05-11 2020-09-01 北京金山数字娱乐科技有限公司 一种基于图片的文本生成方法及装置
CN112015936B (zh) * 2020-08-27 2021-10-26 北京字节跳动网络技术有限公司 用于生成物品展示图的方法、装置、电子设备和介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Describing Images by Feeding LSTM with Structural Words;马书博,韩亚洪;《2016 IEEE International Conference on Multimedia and Expor》;20160829;第1-6页
Summarization-based Video Caption via Deep Neural networks;李广,马书博,韩亚洪;《2015 ACM International Conference on Multimedia》;20151031;第1191-1194页

Also Published As

Publication number Publication date
CN106503055A (zh) 2017-03-15

Similar Documents

Publication Publication Date Title
CN106503055B (zh) 一种从结构化文本到图像描述的生成方法
CN105279495B (zh) 一种基于深度学习和文本总结的视频描述方法
US9779085B2 (en) Multilingual embeddings for natural language processing
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
CN109409433B (zh) 一种社交网络用户的人格识别系统和方法
Chang et al. Research on detection methods based on Doc2vec abnormal comments
CN110612524B (zh) 信息处理装置、信息处理方法以及记录介质
Heilbron et al. Collecting and annotating human activities in web videos
Lalata et al. A sentiment analysis model for faculty comment evaluation using ensemble machine learning algorithms
Rokade et al. Automated grading system using natural language processing
CN113449204B (zh) 基于局部聚合图注意力网络的社会事件分类方法、装置
Katz et al. Natural language processing in the legal domain
Aksonov et al. Question-Answering Systems Development Based on Big Data Analysis
Ibrahim et al. Mining unit feedback to explore students’ learning experiences
Mandge et al. Revolutionize cosine answer matching technique for question answering system
Bai et al. Gated character-aware convolutional neural network for effective automated essay scoring
CN115269816A (zh) 基于信息处理方法的核心人员挖掘方法、装置和存储介质
Jiang et al. Network public comments sentiment analysis based on multilayer convolutional neural network
CN110413985B (zh) 一种相关文本片段搜索方法及装置
Al Madi et al. A comprehension-based framework for measuring semantic similarity
CN109670184B (zh) 一种英文文章质量评估方法及系统
CN112836047B (zh) 一种基于句子语义替换的电子病历文本数据增强方法
CN113158644B (zh) 一种基于多任务学习的修辞格及隐式情绪识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220420

Address after: 210000 room 1805, building C, Xingzhi science and Technology Park, Xingzhi Road, Nanjing Economic and Technological Development Zone, Jiangsu Province

Patentee after: Nanjing Tupo Technology Co.,Ltd.

Address before: 300072 Tianjin City, Nankai District Wei Jin Road No. 92

Patentee before: Tianjin University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230315

Address after: Building 1, Kechuang headquarters, Shenzhen (Harbin) Industrial Park, 288 Zhigu street, Songbei District, Harbin City, Heilongjiang Province

Patentee after: Harbin Mido Technology Co.,Ltd.

Address before: 210000 room 1805, building C, Xingzhi science and Technology Park, Xingzhi Road, Nanjing Economic and Technological Development Zone, Jiangsu Province

Patentee before: Nanjing Tupo Technology Co.,Ltd.