CN108171283A - 一种基于结构化语义嵌入的图像内容自动描述方法 - Google Patents
一种基于结构化语义嵌入的图像内容自动描述方法 Download PDFInfo
- Publication number
- CN108171283A CN108171283A CN201711493993.0A CN201711493993A CN108171283A CN 108171283 A CN108171283 A CN 108171283A CN 201711493993 A CN201711493993 A CN 201711493993A CN 108171283 A CN108171283 A CN 108171283A
- Authority
- CN
- China
- Prior art keywords
- tree
- vision
- node
- semantic
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
一种基于结构化语义嵌入的图像内容自动描述方法,涉及图像内容理解领域。包括以下步骤:获取文本解析树;构建视觉解析树;嵌入视觉解析树。通过对图像进行语义解析获得视觉语义结构树,获取关键的实体以及它们之间的关系,通过新的结构化的语义嵌入方法将关键的实体和它们的关系嵌入到神经解码器模型中,来引导文本的生成。解决了图像内容自动描述任务中注意模型的关键实体以及实体之间的关系被忽视的问题。在多数指标上都优于其他的方法,生成的图像内容的描述也比最流行的方法更为准确。
Description
技术领域
本发明涉及图像内容理解领域,尤其是涉及一种基于结构化语义嵌入的图像内容自动描述方法。
背景技术
图像内容自动描述(image captioning),即用自然语言对图像的内容进行自动的描述。由于图像内容自动描述有着广泛的应用前景,如人机交互和导盲系统,近来成为计算机视觉和人工智能领域一个新的焦点。与图像分类或物体检测不同,图像自动描述以对对象、场景及其关系的全面描述为目标,涉及视觉场景解析,内容语义理解以及自然语言处理,是混合任务中尖端技术的集成设计。
针对图像内容自动描述主要采用神经编码器-解码器框架,其中神经编码器采用深度卷积网络(Convolutional Neural Network,简称CNN)提取图像的高层语义特征。神经解码器采用长短期记忆神经网络(Long Short-Term Memory,简称LSTM)将图像的高层语义特征转化为文本每个词的输出,如专利《INTELLIGENT IMAGE CAPTIONING(美国专利 US:201615166177:A)》。然而,这样一个“黑箱”过程缺少足够的高层语义线索来引导句子的生成,甚至很难在高层语义空间被解释。为了解决这个问题,最近的工作大多引入了注意模型,如专利《一种基于视觉注意模型的图像文字描述方法(中国专利CN201611207945.6)》。该方法利用视觉上检测的所有实体作为语义线索,加强视觉语义内容与文本生成之间的关联。然而,这样做法忽视了关键实体以及实体之间的关系,在描述图像主要内容上缺少判别性。
总而言之,现有技术存在如下缺陷:第一,现有技术缺少足够的高层语义线索来引导句子的生成,而且也难以解释这个“黑箱”过程中不同部分的特征所表示的含义;第二,现有技术引入注意模型并利用视觉上检测的所有实体作为语义线索,这一方面忽视了关键实体,而正常情况下不可能用自然语言描述一幅图像中的所有内容,因此这些技术在描述图像主要内容上容易产生干扰,缺少判别性。另一方面这些技术忽视了实体之间的关系,而实体之间的关系这就好比语言中主语和宾语之间的谓语,对整个语义结构和语义内容的表示具有重要的引导作用。因此本发明提出一种基于结构化语义嵌入的图像内容自动描述方法,通过对图像进行语义解析获得视觉语义结构树,获取关键的实体以及它们之间的关系,通过新的结构化的语义嵌入方法将关键的实体和它们的关系嵌入到神经解码器模型中,来引导文本的生成。
发明内容
本发明的目的是针对图像内容自动描述任务中注意模型的关键实体以及实体之间的关系被忽视的问题,提供一种基于结构化语义嵌入的图像内容自动描述方法。
本发明包括以下步骤:
步骤1获取文本解析树;
步骤2构建视觉解析树;
步骤3嵌入视觉解析树。
在步骤1中,所述获取文本解析树的具体方法可为:
通过现成最佳的解析工具包,Stanford Parser,来获得文本解析树,按照主语在左叶子结点,宾语在右叶子结点,谓语在父结点,仅保留名词、动词、动词介词短语、介词、连词这四个的原则,对文本解析树进行重塑,获得三层全二叉树形式的文本解析树,保留高频出现的词(实体或关系),对其他在文本解析树中出现的词都用特殊符号“null”替换。
在步骤2中,所述构建视觉解析树的具体方法可为:
构建一个三层全二叉树结构的视觉解析树模型,每个叶子结点表示视觉的一个实体,每个父结点表示两个实体或子关系之间的关系,实例如下所示:
<<“狗”,“玩”,“球”>,“在…上”,<无,无,“草地”>>
其中,根据基本的子树<实体1,关系,实体2>可以看出,“狗”、“球”和“草地”都为实体,“玩”和“在…上”都为关系,在特征表示层面,每个结点都为一个特征向量,其中叶子结点向量为实体的特征表示,父结点向量为关系的特征表示;所述视觉解析树中节结点特征向量可以通过语义映射器(Semantic Mapper)、结合器(Combiner)和分类器(Categorizer)操作获取;
所述使用语义映射器获取实体的语义特征表示的具体方法可为:采用CNN对图像进行深度视觉特征提取,然后将深度视觉特征做四种线性变换对应到四个实体上,四个实体对应三层全二叉树的四个叶子结点,经过一个非线性函数映射到四个实体的语义空间上,得到四个实体的语义特征表示;
所述使用结合器获取关系的语义特征表示的具体方法可为:在全二叉树中,两个孩子结点的语义特征向量在结合器中被串联在一起并经过一次非线性变换得到与孩子结点维度相同的父结点语义特征向量,即关系语义特征,得到整个视觉解析树中每个结点的特征表示;
所述使用分类器指导视觉解析树结构参数的训练阶段优化与预测阶段类别生成的具体方法可为:使用步骤1中获得的文本解析树对视觉解析树的构建进行指导,进而实现语义映射器、结合器和分类器的参数优化,首先以文本解析树中的每个结点的词作为视觉解析树中对应位置的类别标签,所述类别为实体类别或关系类别;然后在模型训练阶段,基于每个结点的特征映射到类别空间并计算分类损失,通过损失反向传递来优化整个视觉解析树的参数;最后在预测阶段,利用优化的参数可以对每个图像的深度视觉特征进行解析,获得每个结点的类别标签。
在步骤3中,所述嵌入视觉解析树的具体方法可为:
(1)视觉解析树模型作为初始化编码器嵌入到深度编码器-解码器模型中,视觉解析树的根结点表示全局的视觉语义结构,利用视觉解析树模型对一个图像的深度视觉特征进行解析后,得到根结点的语义特征向量,将这一过程作为一个初始化编码过程并将该根节点的语义特征向量作为深度解码器初始状态的输入;
(2)采用结构化注意模型将视觉解析树的每个结点嵌入到深度解码器模型中,对于深度解码器,一开始输入的结构化语义信息可能在生成每个词的过程中被丢失,因此在深度解码器生成每个词的过程中将视觉解析树的每个结点嵌入到每个状态的LSTM上来指导当前词的生成,具体而言,首先计算每个结点特征向量与前一状态LSTM输出的隐特征向量之间的相关度;然后将每个结点特征向量按照对应的相关度加权求平均,获得带注意的特征向量;最后将带注意的特征向量与前一状态LSTM输出的隐特征向量进行串联并经过一次非线性变换获得新的隐特征向量,作为当前状态LSTM的输入,由此循环来指导不同状态词的生成,直到生成终止符号。
本发明解决了图像内容自动描述任务中注意模型的关键实体以及实体之间的关系被忽视的问题,提供一种基于结构化语义嵌入的图像内容自动描述方法,实验评价标准为机器翻译中的的评价指标,分别有:双语评价替补(Bilingual Evaluation Understudy,简称BLEU),带显式顺序的翻译评估指标(Metric for Evaluation of Translation withExplicit Ordering,简称METEOR)。这些指标都反映了模型生成的文本句子和参考的文本句子之间的相似性度量。本发明所提出的方法在多数指标上都优于其他的方法,生成的图像内容的描述也比最流行的方法(NIC)更为准确。
具体实施方式
以下对本发明作进一步的说明。
本发明的具体实施例包括以下步骤:
步骤1文本解析树的获取。获取文本解析树是为了指导视觉解析树的构建,首先通过现成最佳的解析工具包,Stanford Parser,来获得文本解析树;然后按照主语在左叶子结点,宾语在右叶子结点,谓语在父结点,仅保留名词、动词、动词介词短语、介词、连词这四个的原则,对文本解析树进行重塑,获得三层全二叉树形式的文本解析树;最后保留高频出现的词(实体或关系),对其他在文本解析树中出现的词都用特殊符号“null”替换。
步骤2视觉解析树的构建,具体方法如下:
首先构建一个三层全二叉树结构的视觉解析树模型,每个叶子结点表示视觉的一个实体,每个父结点表示两个实体或子关系之间的关系。如下例所示:
<<“狗”,“玩”,“球”>,“在…上”,<无,无,“草地”>>
其中,根据基本的子树<实体1,关系,实体2>可以看出,“狗”、“球”和“草地”都为实体,“玩”和“在…上”都为关系。在特征表示层面,每个结点都为一个特征向量,其中叶子结点向量为实体的特征表示,父结点向量为关系的特征表示。视觉解析树中节结点特征向量可以通过语义映射器(Semantic Mapper)、结合器(Combiner)和分类器(Categorizer)操作来获取。
(1)使用语义映射器来获取实体的语义特征表示。首先采用CNN对图像进行深度视觉特征提取,然后将深度视觉特征做四种线性变换对应到四个实体的上(四个实体对应三层全二叉树的四个叶子结点),最后经过一个非线性函数映射到四个实体的语义空间上,进而得到四个实体的语义特征表示。
(2)使用结合器来获取关系的语义特征表示。在全二叉树中,两个孩子结点的语义特征向量在结合器中被串联在一起并经过一次非线性变换得到与孩子结点维度相同的父结点语义特征向量(关系语义特征)。由此,可以得到整个视觉解析树中每个结点的特征表示。
(3)使用分类器来指导视觉解析树结构参数的优化(训练阶段)与类别生成(预测阶段)。使用步骤1中获得的文本解析树对视觉解析树的构建进行指导,进而实现语义映射器、结合器和分类器的参数优化。首先以文本解析树中的每个结点的词作为视觉解析树中对应位置的类别标签(实体类别/关系类别);然后在模型训练阶段,基于每个结点的特征映射到类别空间并计算分类损失,通过损失反向传递来优化整个视觉解析树的参数;最后在预测阶段,利用优化的参数可以对每个图像的深度视觉特征进行解析,获得每个结点的类别标签。
步骤3视觉解析树的嵌入,具体方法如下:
(1)视觉解析树模型作为初始化编码器嵌入到深度编码器-解码器模型中。视觉解析树的根结点表示了全局的视觉语义结构,利用视觉解析树模型对一个图像的深度视觉特征进行解析后,得到根结点的语义特征向量,将这一过程作为一个初始化编码过程并将该根节点的语义特征向量作为深度解码器初始状态的输入;
(2)采用结构化注意模型将视觉解析树的每个结点嵌入到深度解码器模型中。对于深度解码器,一开始输入的结构化语义信息可能在生成每个词的过程中被丢失。因此在深度解码器生成每个词的过程中将视觉解析树的每个结点嵌入到每个状态的LSTM上来指导当前词的生成。具体而言,首先计算每个结点特征向量与前一状态LSTM输出的隐特征向量之间的相关度;然后将每个结点特征向量按照对应的相关度加权求平均,获得带注意的特征向量;最后将带注意的特征向量与前一状态LSTM输出的隐特征向量进行串联并经过一次非线性变换获得新的隐特征向量,作为当前状态LSTM的输入,由此循环来指导不同状态词的生成,直到生成终止符号。
实验评价标准为机器翻译中的的评价指标,分别有:双语评价替补(BilingualEvaluation Understudy,简称BLEU),带显式顺序的翻译评估指标(Metric forEvaluation of Translation with Explicit Ordering,简称METEOR)。这些指标都反映了模型生成的文本句子和参考的文本句子之间的相似性度量。
在标准数据集Flickr30k和MS-COCO上图像内容自动描述任务的各种方法的实验效果比较参见表1。
表1
其中,StructCap为本发明提出的基于结构化语义嵌入的图像内容自动描述方法,其余方法为近两年来在图像内容自动描述任务上取得最佳效果的几种技术方法。可以看到本发明的方法在多数指标上都优于其他的方法。
Claims (7)
1.一种基于结构化语义嵌入的图像内容自动描述方法,其特征在于包括以下步骤:
步骤1获取文本解析树;
步骤2构建视觉解析树;
步骤3嵌入视觉解析树。
2.如权利要求1所述一种基于结构化语义嵌入的图像内容自动描述方法,其特征在于在步骤1中,所述获取文本解析树的具体方法为:
通过现成最佳的解析工具包,Stanford Parser,获得文本解析树,按照主语在左叶子结点,宾语在右叶子结点,谓语在父结点,仅保留名词、动词、动词介词短语、介词、连词这四个的原则,对文本解析树进行重塑,获得三层全二叉树形式的文本解析树,保留高频出现的词,实体或关系,对其他在文本解析树中出现的词都用特殊符号“null”替换。
3.如权利要求1所述一种基于结构化语义嵌入的图像内容自动描述方法,其特征在于在步骤2中,所述构建视觉解析树的具体方法为:
构建一个三层全二叉树结构的视觉解析树模型,每个叶子结点表示视觉的一个实体,每个父结点表示两个实体或子关系之间的关系,在特征表示层面,每个结点都为一个特征向量,其中叶子结点向量为实体的特征表示,父结点向量为关系的特征表示;所述视觉解析树中节结点特征向量通过语义映射器、结合器和分类器操作获取。
4.如权利要求3所述一种基于结构化语义嵌入的图像内容自动描述方法,其特征在于所述通过语义映射器获取实体的语义特征表示的具体方法为:采用CNN对图像进行深度视觉特征提取,然后将深度视觉特征做四种线性变换对应到四个实体上,四个实体对应三层全二叉树的四个叶子结点,经过一个非线性函数映射到四个实体的语义空间上,得到四个实体的语义特征表示。
5.如权利要求3所述一种基于结构化语义嵌入的图像内容自动描述方法,其特征在于通过结合器获取关系的语义特征表示的具体方法为:在全二叉树中,两个孩子结点的语义特征向量在结合器中被串联在一起并经过一次非线性变换得到与孩子结点维度相同的父结点语义特征向量,即关系语义特征,得到整个视觉解析树中每个结点的特征表示。
6.如权利要求3所述一种基于结构化语义嵌入的图像内容自动描述方法,其特征在于通过分类器指导视觉解析树结构参数的训练阶段优化与预测阶段类别生成的具体方法为:使用步骤1中获得的文本解析树对视觉解析树的构建进行指导,进而实现语义映射器、结合器和分类器的参数优化,首先以文本解析树中的每个结点的词作为视觉解析树中对应位置的类别标签,所述类别为实体类别或关系类别;然后在模型训练阶段,基于每个结点的特征映射到类别空间并计算分类损失,通过损失反向传递来优化整个视觉解析树的参数;最后在预测阶段,利用优化的参数对每个图像的深度视觉特征进行解析,获得每个结点的类别标签。
7.如权利要求1所述一种基于结构化语义嵌入的图像内容自动描述方法,其特征在于在步骤3中,所述嵌入视觉解析树的具体方法为:
(1)视觉解析树模型作为初始化编码器嵌入到深度编码器-解码器模型中,视觉解析树的根结点表示全局的视觉语义结构,利用视觉解析树模型对一个图像的深度视觉特征进行解析后,得到根结点的语义特征向量,将这一过程作为一个初始化编码过程并将该根节点的语义特征向量作为深度解码器初始状态的输入;
(2)采用结构化注意模型将视觉解析树的每个结点嵌入到深度解码器模型中,对于深度解码器,一开始输入的结构化语义信息可能在生成每个词的过程中被丢失,在深度解码器生成每个词的过程中将视觉解析树的每个结点嵌入到每个状态的LSTM上来指导当前词的生成,首先计算每个结点特征向量与前一状态LSTM输出的隐特征向量之间的相关度;然后将每个结点特征向量按照对应的相关度加权求平均,获得带注意的特征向量;最后将带注意的特征向量与前一状态LSTM输出的隐特征向量进行串联并经过一次非线性变换获得新的隐特征向量,作为当前状态LSTM的输入,由此循环来指导不同状态词的生成,直到生成终止符号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711493993.0A CN108171283B (zh) | 2017-12-31 | 2017-12-31 | 一种基于结构化语义嵌入的图像内容自动描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711493993.0A CN108171283B (zh) | 2017-12-31 | 2017-12-31 | 一种基于结构化语义嵌入的图像内容自动描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108171283A true CN108171283A (zh) | 2018-06-15 |
CN108171283B CN108171283B (zh) | 2020-06-16 |
Family
ID=62516541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711493993.0A Active CN108171283B (zh) | 2017-12-31 | 2017-12-31 | 一种基于结构化语义嵌入的图像内容自动描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108171283B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410496A (zh) * | 2018-10-25 | 2019-03-01 | 北京交通大学 | 入侵预警方法、装置及电子设备 |
CN109447242A (zh) * | 2018-10-10 | 2019-03-08 | 复旦大学 | 基于迭代学习的图像描述重生成系统及方法 |
CN110136226A (zh) * | 2019-04-08 | 2019-08-16 | 华南理工大学 | 一种基于图像组协同描述生成的新闻自动配图方法 |
CN110197521A (zh) * | 2019-05-21 | 2019-09-03 | 复旦大学 | 基于语义结构表示的视觉文本嵌入方法 |
CN110473557A (zh) * | 2019-08-22 | 2019-11-19 | 杭州派尼澳电子科技有限公司 | 一种基于深度自编码器的语音信号编解码方法 |
CN110598713A (zh) * | 2019-08-06 | 2019-12-20 | 厦门大学 | 基于深度神经网络的智能图像自动描述方法 |
CN110675329A (zh) * | 2019-08-06 | 2020-01-10 | 厦门大学 | 基于视觉语义引导的图像去模糊方法 |
CN111126049A (zh) * | 2019-12-14 | 2020-05-08 | 中国科学院深圳先进技术研究院 | 对象关系预测方法、装置、终端设备及可读存储介质 |
CN111695574A (zh) * | 2020-05-21 | 2020-09-22 | 清华大学深圳国际研究生院 | 可生成依存树的图像描述生成方法和装置 |
CN112016493A (zh) * | 2020-09-03 | 2020-12-01 | 科大讯飞股份有限公司 | 图像描述方法、装置、电子设备及存储介质 |
CN112256904A (zh) * | 2020-09-21 | 2021-01-22 | 天津大学 | 一种基于视觉描述语句的图像检索方法 |
CN112287661A (zh) * | 2019-07-22 | 2021-01-29 | 国际商业机器公司 | 使用编码的结构化表示进行语义解析 |
CN112579748A (zh) * | 2019-09-30 | 2021-03-30 | 北京国双科技有限公司 | 从询问笔录中提取特定事件关系的方法及装置 |
CN113343982A (zh) * | 2021-06-16 | 2021-09-03 | 北京百度网讯科技有限公司 | 多模态特征融合的实体关系提取方法、装置和设备 |
CN113590348A (zh) * | 2021-07-26 | 2021-11-02 | 京东科技控股股份有限公司 | 基于树状结构的参数传递方法、装置、设备及介质 |
CN113610025A (zh) * | 2021-08-13 | 2021-11-05 | 天津大学 | 一种多模型综合的遥感影像场景描述方法 |
CN114020954A (zh) * | 2021-09-10 | 2022-02-08 | 广西师范大学 | 一种用于体现用户意图和风格的个性化图像描述方法 |
CN116188618A (zh) * | 2023-04-24 | 2023-05-30 | 清华大学 | 基于结构化语义图的图像生成方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102142089A (zh) * | 2011-01-07 | 2011-08-03 | 哈尔滨工程大学 | 一种基于语义二叉树的图像标注方法 |
CN102945289A (zh) * | 2012-11-30 | 2013-02-27 | 苏州搜客信息技术有限公司 | 基于cgci-sift局部特征的图像检索方法 |
CN102968431A (zh) * | 2012-09-18 | 2013-03-13 | 华东师范大学 | 一种基于依存树的中文实体关系挖掘的控制装置 |
CN103020111A (zh) * | 2012-10-29 | 2013-04-03 | 苏州大学 | 基于词汇树层次语义模型的图像检索方法 |
US20170098153A1 (en) * | 2015-10-02 | 2017-04-06 | Baidu Usa Llc | Intelligent image captioning |
CN106778926A (zh) * | 2016-12-23 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于视觉注意模型的图像文字描述方法 |
CN107025219A (zh) * | 2017-04-19 | 2017-08-08 | 厦门大学 | 一种基于内部语义层次结构的词嵌入表示方法 |
CN107423379A (zh) * | 2017-07-13 | 2017-12-01 | 西安电子科技大学 | 基于cnn特征词汇树的图像检索方法 |
CN107423290A (zh) * | 2017-04-19 | 2017-12-01 | 厦门大学 | 一种基于层次结构的神经网络机器翻译模型 |
-
2017
- 2017-12-31 CN CN201711493993.0A patent/CN108171283B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102142089A (zh) * | 2011-01-07 | 2011-08-03 | 哈尔滨工程大学 | 一种基于语义二叉树的图像标注方法 |
CN102968431A (zh) * | 2012-09-18 | 2013-03-13 | 华东师范大学 | 一种基于依存树的中文实体关系挖掘的控制装置 |
CN103020111A (zh) * | 2012-10-29 | 2013-04-03 | 苏州大学 | 基于词汇树层次语义模型的图像检索方法 |
CN102945289A (zh) * | 2012-11-30 | 2013-02-27 | 苏州搜客信息技术有限公司 | 基于cgci-sift局部特征的图像检索方法 |
US20170098153A1 (en) * | 2015-10-02 | 2017-04-06 | Baidu Usa Llc | Intelligent image captioning |
CN106778926A (zh) * | 2016-12-23 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于视觉注意模型的图像文字描述方法 |
CN107025219A (zh) * | 2017-04-19 | 2017-08-08 | 厦门大学 | 一种基于内部语义层次结构的词嵌入表示方法 |
CN107423290A (zh) * | 2017-04-19 | 2017-12-01 | 厦门大学 | 一种基于层次结构的神经网络机器翻译模型 |
CN107423379A (zh) * | 2017-07-13 | 2017-12-01 | 西安电子科技大学 | 基于cnn特征词汇树的图像检索方法 |
Non-Patent Citations (2)
Title |
---|
ZHENG CAI 等: "A Spatial-Temporal Visual Mid-Level Ontology for GIF Sentiment Analysis", 《IEEE》 * |
袁文宜: "依存语法概述", 《科技情报开发与经济》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447242A (zh) * | 2018-10-10 | 2019-03-08 | 复旦大学 | 基于迭代学习的图像描述重生成系统及方法 |
CN109410496A (zh) * | 2018-10-25 | 2019-03-01 | 北京交通大学 | 入侵预警方法、装置及电子设备 |
CN110136226A (zh) * | 2019-04-08 | 2019-08-16 | 华南理工大学 | 一种基于图像组协同描述生成的新闻自动配图方法 |
CN110136226B (zh) * | 2019-04-08 | 2023-12-22 | 华南理工大学 | 一种基于图像组协同描述生成的新闻自动配图方法 |
CN110197521A (zh) * | 2019-05-21 | 2019-09-03 | 复旦大学 | 基于语义结构表示的视觉文本嵌入方法 |
CN112287661A (zh) * | 2019-07-22 | 2021-01-29 | 国际商业机器公司 | 使用编码的结构化表示进行语义解析 |
CN110598713B (zh) * | 2019-08-06 | 2022-05-06 | 厦门大学 | 基于深度神经网络的智能图像自动描述方法 |
CN110675329A (zh) * | 2019-08-06 | 2020-01-10 | 厦门大学 | 基于视觉语义引导的图像去模糊方法 |
CN110675329B (zh) * | 2019-08-06 | 2022-02-18 | 厦门大学 | 基于视觉语义引导的图像去模糊方法 |
CN110598713A (zh) * | 2019-08-06 | 2019-12-20 | 厦门大学 | 基于深度神经网络的智能图像自动描述方法 |
CN110473557A (zh) * | 2019-08-22 | 2019-11-19 | 杭州派尼澳电子科技有限公司 | 一种基于深度自编码器的语音信号编解码方法 |
CN112579748A (zh) * | 2019-09-30 | 2021-03-30 | 北京国双科技有限公司 | 从询问笔录中提取特定事件关系的方法及装置 |
CN111126049A (zh) * | 2019-12-14 | 2020-05-08 | 中国科学院深圳先进技术研究院 | 对象关系预测方法、装置、终端设备及可读存储介质 |
CN111695574A (zh) * | 2020-05-21 | 2020-09-22 | 清华大学深圳国际研究生院 | 可生成依存树的图像描述生成方法和装置 |
CN112016493A (zh) * | 2020-09-03 | 2020-12-01 | 科大讯飞股份有限公司 | 图像描述方法、装置、电子设备及存储介质 |
CN112256904A (zh) * | 2020-09-21 | 2021-01-22 | 天津大学 | 一种基于视觉描述语句的图像检索方法 |
CN113343982A (zh) * | 2021-06-16 | 2021-09-03 | 北京百度网讯科技有限公司 | 多模态特征融合的实体关系提取方法、装置和设备 |
CN113590348A (zh) * | 2021-07-26 | 2021-11-02 | 京东科技控股股份有限公司 | 基于树状结构的参数传递方法、装置、设备及介质 |
CN113590348B (zh) * | 2021-07-26 | 2024-05-17 | 京东科技控股股份有限公司 | 基于树状结构的参数传递方法、装置、设备及介质 |
CN113610025A (zh) * | 2021-08-13 | 2021-11-05 | 天津大学 | 一种多模型综合的遥感影像场景描述方法 |
CN113610025B (zh) * | 2021-08-13 | 2022-08-09 | 天津大学 | 一种多模型综合的遥感影像场景描述方法 |
CN114020954A (zh) * | 2021-09-10 | 2022-02-08 | 广西师范大学 | 一种用于体现用户意图和风格的个性化图像描述方法 |
CN116188618A (zh) * | 2023-04-24 | 2023-05-30 | 清华大学 | 基于结构化语义图的图像生成方法及装置 |
CN116188618B (zh) * | 2023-04-24 | 2023-08-15 | 清华大学 | 基于结构化语义图的图像生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108171283B (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108171283A (zh) | 一种基于结构化语义嵌入的图像内容自动描述方法 | |
Su et al. | Lattice-based recurrent neural network encoders for neural machine translation | |
CN107967262B (zh) | 一种神经网络蒙汉机器翻译方法 | |
Bai et al. | A survey on automatic image caption generation | |
Guo et al. | Dense Temporal Convolution Network for Sign Language Translation. | |
CN111177366B (zh) | 一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统 | |
WO2022095345A1 (zh) | 一种多模态模型训练方法、装置、设备及存储介质 | |
US8275604B2 (en) | Adaptive pattern learning for bilingual data mining | |
CN108829722A (zh) | 一种远程监督的Dual-Attention关系分类方法及系统 | |
CN103425757A (zh) | 融合多模态信息的跨媒体人物新闻检索方法与系统 | |
CN110866399A (zh) | 一种基于增强字符向量的中文短文本实体识别与消歧方法 | |
CN109408628B (zh) | 一种解析句子语义结构的方法及相关设备 | |
CN106844348A (zh) | 一种汉语句子功能成分分析方法 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN114020906A (zh) | 基于孪生神经网络的中文医疗文本信息匹配方法及系统 | |
CN112329482A (zh) | 机器翻译方法、装置、电子设备和可读存储介质 | |
CN114881043B (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 | |
Dang | Investigations into the role of lexical semantics in word sense disambiguation | |
Xiong et al. | A dependency treelet string correspondence model for statistical machine translation | |
Song et al. | Exploring explicit and implicit visual relationships for image captioning | |
CN111931461A (zh) | 一种用于文本生成的变分自编码器 | |
CN114722774B (zh) | 数据压缩方法、装置、电子设备及存储介质 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN114298032A (zh) | 文本标点检测方法、计算机设备及存储介质 | |
CN114065780A (zh) | 机器翻译方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |