CN110490254A - 一种基于双重注意力机制层次网络的图像语义生成方法 - Google Patents

一种基于双重注意力机制层次网络的图像语义生成方法 Download PDF

Info

Publication number
CN110490254A
CN110490254A CN201910766684.9A CN201910766684A CN110490254A CN 110490254 A CN110490254 A CN 110490254A CN 201910766684 A CN201910766684 A CN 201910766684A CN 110490254 A CN110490254 A CN 110490254A
Authority
CN
China
Prior art keywords
image
semantic
attention mechanism
feature
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910766684.9A
Other languages
English (en)
Other versions
CN110490254B (zh
Inventor
郭杨
刘康
佐江宏
常青
管志斌
高鑫
关瑞荣
郭素芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuyang Coal Mine Of Shanxi Lu'an Environmental Energy Development Co ltd
China University of Mining and Technology Beijing CUMTB
Original Assignee
Wuyang Coal Mine Of Shanxi Lu'an Environmental Energy Development Co ltd
China University of Mining and Technology Beijing CUMTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuyang Coal Mine Of Shanxi Lu'an Environmental Energy Development Co ltd, China University of Mining and Technology Beijing CUMTB filed Critical Wuyang Coal Mine Of Shanxi Lu'an Environmental Energy Development Co ltd
Priority to CN201910766684.9A priority Critical patent/CN110490254B/zh
Publication of CN110490254A publication Critical patent/CN110490254A/zh
Application granted granted Critical
Publication of CN110490254B publication Critical patent/CN110490254B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于序列化双重注意力机制层次网络的图像语义生成方法,该方法基于ResNet‑152网络模型、LSTM的双层堆栈RNN网络,不仅可以检测出图像的粗粒度特征信息,还可以检测出图像子区域中的细粒度特征信息,使用粗粒度‑细粒度的层次网络结构生成详细的图像语义描述信息,提高图像语义信息生成方法的鲁棒性。

Description

一种基于双重注意力机制层次网络的图像语义生成方法
技术领域
本发明属于图像处理及模式识别领域,尤其涉及一种基于序列化双重注意力机制层次网络的图像语义生成方法。
背景技术
图像语义自动生成技术作为连接图像与文字的桥梁,对于语义图像搜索及聊天机器人视觉监控系统等场景理解应用领域中具有重要作用。图像语义生成技术的目标在于机器生成的文字能够尽可能地精确表达出图像内容,具有良好的发展和应用前景。
图像语义生成技术主要有:模板匹配法、检索法、人工神经网络。
模板匹配法通过将预测的名词、动词和语态填充到预定义的句法结构内生成描述语句。早期的模板匹配法仅仅对图像中的内容进行直译,缺少度量图像与描述文字之间的相互关系。Farhadi等提出通过使用中间特征向量计算置信关联度描述图像与文字之间的关系。Kulkarni等提出利用统计学习的方法解析学习大量的文本数据,并且使用计算机视觉中的目标识别算法检测图像中的目标特征,达到生成与图像内容更相关的文字描述。Yang等提出使用隐马尔科夫模型整合图像感知和语义生成过程,但该算法对于错误检测出的目标无法生成准确的文字描述。
检索法重复检索使用固定标签图像的描述语句,无法生成新颖的文字描述。Kuznetsova等提出数据驱动模式的启发式方法,同时利用图像特征和语言描述特征生成语义。给定原始图像,该方法利用图像相似度值从语义专家库中检索人类标注语句。Mason等提出非参数密度估计方法从多种语义中检索出最适宜的文字描述。
上述两种方法都需要预先定义语义模板,并且不能根据不同的图像内容生成新颖的文字描述。
人工神经网络使用编码-解码框架生成语义描述,首先使用编码器将图像映射为固定长度的向量,然后将解码器利用该向量生成最终的文字描述。目前编码器的底层实现使用卷积神经网络技术,例如CNNs,解码器的底层实现使用循环神经网络技术,例如RNNs。人工神经网络方法的优势在于无需预定义固定句法模板的前提下,可自行生成新颖文字描述内容。然而,现有的方法仅能够检测出图像的粗粒度特征信息,只可使用相似的文字描述图像的主旨内容,缺少对图像细节信息的文字描述。
发明内容
针对现有技术中无法生成完整的图像语义描述的不足,本发明提出一种基于序列化双重注意力机制层次网络的图像语义生成方法,该方法不仅可以检测出图像的粗粒度特征信息,还可以检测出图像子区域中的细粒度特征信息,使用粗粒度-细粒度的层次网络结构生成详细的图像语义描述信息,提高图像语义信息生成方法的鲁棒性。
本发明的上述目的通过独立权利要求的技术特征实现,从属权利要求以另选或有利的方式发展独立权利要求的技术特征。
为达成上述目的,本发明所采用的技术方案如下:
一种基于双重注意力机制层次网络的图像语义生成方法,其实现包括以下步骤:
步骤1、原始图像采集及预处理,对采集的原始图像进行尺度归一化,得到大小和分辨率统一的图像,将图像大小设置为224X224像素;
步骤2、获取粗粒度视觉特征信息:
1)、使用ResNet-152网络模型从每幅原始图像中提取出的全局图像特征维度向量,并设置固定维度为2048维;
2)、使用ResNet-152网络模型通过池化层的平均池化操作提取子空间特征映射图集合,平均池化层窗口大小为14X14像素;
步骤3、获得细粒度视觉特征信息:
将预处理过的原始图像作为Faster-RCNN网络模型的输入,得到原始图像中的目标特征和属性特征,合并得到细粒度视觉特征信息,目标特征和属性特征的特征向量维度为2048维,所述的目标特征为原始图像中检测目标的边界框,所述属性特征为原始图像中检测目标的类别标签;
步骤4、使用序列化双重注意力机制网络模型融合不同细粒度的图像特征;
步骤5、将步骤4的输出结果输入基于LSTM的双层堆栈RNN网络的语义生成模型,生成最终的图像语义描述文本,并且使用LSTM结构单元处理累积的长序列信息。
其中,边界框中包含检测目标丰富的视觉信息。
其中,利用1X1卷积核将每一个子空间特征映射图映射到固定维度为2048维向量。
所述不同细粒度的图像特征,包括语义生成模型的隐含层信息、子空间特征映射图集合、目标特征和属性特征。
所述目标特征和属性特征的特征向量维度为2048维,是通过使用1024维的中间层将目标特征和属性特征映射到2048维。
所述序列化双重注意力机制网络模型融合不同细粒度的图像特征的方法是:
1)、使用余弦相似度度量准则计算特征信息向量之间的相似度,
2)、使用条件概率密度函数更新每个时间戳中输入特征的权重值
上式中权重值满足限制条件:
3)、在空间注意力机制中,分别使用步骤1和步骤2中的计算公式计算某一时刻t,每个子空间映射图与隐含状态之间的相似度和注意力权重。然后,使用计算后的相似度和注意力权重的值计算融合特征向量
4)、在目标注意力机制中,某一时刻t,使用步骤3中的融合特征向量计算每个特征向量的注意力权值,
本发明提出的基于序列化双重注意力机制层次网络的图像语义生成方法,能够从原始图像中提取出不同细粒度的视觉信息,包括:全局图像特征、子空间特征映射图集合、目标特征和属性特征,该方法将上述所有的特征以序列化的方式进行处理并生成文字描述信息。从而在整体上提高特征的可识别性,能够很大程度上提升图像语义文字生成的准确度和正确率。
相对于现有技术,其有益效果体现在以下几个方面:
1、本发明基于序列化的双重注意力机制进行生成语义,该网络结构可融合不同细粒度的视觉特征信息,提高语义生成的鲁棒性;
2、本发明基于层次结构化的处理流程,由粗粒度向细粒度的不断进行特征提取与抽象,使得网络结构能够发现原始图像中更多的细节信息,进而生成完整的语义描述;
3、本发明基于ResNet-152和Faster-RCNN神经网络结构,其都属于深度卷积神经网络,通过所构建的多层卷积结构,由低层次向高层次进行特征抽象,因而能够提高算法的抗干扰能力和识别率。与传统的机器学习算法相比,具有大幅度的提高。
附图说明
图1为本发明基于序列化双重注意力机制层次网络的图像语义生成方法的流程示意图;
图2为本发明基于序列化双重注意力机制层次网络的图像语义生成方法采用的序列化双重注意力机制原理图;
图3为本发明基于序列化双重注意力机制层次网络的图像语义生成方法采用的语义生成模型原理图;
图4为本发明基于序列化双重注意力机制层次网络的图像语义生成方法采用的语义生成模型使用的LSTM单元结构图。
具体实施方式
为了更了解本发明的技术内容,下面结合附图对本发明的具体实施方式进行详细说明。
S1:原始图像采集及预处理
S11:对采集的原始图像进行尺度归一化,得到大小和分辨率统一的图像,将图像大小设置为224X224像素。
S2:使用ResNet-152网络模型提取全局图像特征
S21:使用大规模ImageNet分类图像数据集预训练ResNet-152网络模型,更新网络权重值,并将ResNet-152网络模型的输出向量维度固定为2048维。将ResNet-152网络模型的输出值作为原始图像的全局图像特征向量g,且该特征属于粗粒度视觉特征信息。
S3:使用ResNet-152网络模型提取子空间特征映射集合,
S31:大规模ImageNet分类图像数据集预训练ResNet-152网络模型中最后一层的卷积层输出结果是多通道特征映射值,通过后续的池化层的平均池化操作,从多通道特征映射值中提取一系列的区域特征映射图,进而生成子空间特征映射图集合。本发明将平均池化层的窗口大小设置为14X14像素。使用1X1卷积核将每一个子空间特征映射图映射到固定维度为2048维向量。
S4:使用Faster-RCNN网络模型提取目标特征信息
S41:将预处理后的图像输入到Faster-RCNN网络模型,网络模型输出原始图像中检测目标的边界框,该边界框中包含检测目标丰富的视觉信息,作为目标特征信息 =
S5:使用Faster-RCNN网络模型提取属性特征信息
S51:将预处理后的图像输入到Faster-RCNN网络模型,网络模型输出原始图像中检测目标的类别标签,该标签由简单的文本信息描述。由于生成的标签信息无法直接形成完整的句子,本发明仅仅使用每个类别标签特征向量作为属性特征信息。使用1024维中间层将属性特征向量映射到2048维。。由此可计算出最终的细粒度特征向量
S6:使用序列化双重注意力机制融合不同细粒度的视觉特征信息,包含两部分:空间注意力机制和目标注意力机制
S61:使用粗粒度-细粒度层次处理视觉信息的方式对语义生成模型的隐含层信息、子空间特征映射图集合、目标特征和属性特征四个特征信息序列化的处理融合。利用软注意力机制可将上述四种信息直接嵌入到语义生成模型中训练;
S62:使用余弦相似度度量准则计算特征信息向量之间的相似度。
S63:使用条件概率密度函数更新每个时间戳中输入特征的权重值
上式中权重值满足限制条件:
S64:在空间注意力机制中,分别使用步骤S62和步骤S63中的计算公式计算某一时刻t,每个子空间映射图与隐含状态之间的相似度和注意力权重。然后,使用计算后的相似度和注意力权重的值计算融合特征向量
S65:在目标注意力机制中,某一时刻t,使用步骤S64中的融合特征向量计算每个特征向量的注意力权值值。
S66:使用步骤S65中生成的嵌入到语义生成模型中进行训练。
S7:步骤S6中的序列化双重注意力机制可以嵌入到图像语义生成模型中。本发明使用基于LSTM的堆栈式两层RNN网络模型,用于生成准确的图像语义描述。
S71:本发明使用LSTM作为语义生成模型的基础节点的意义在于其可以累积长时间跨度的序列化信息。附图4表示LSTM单元包含四个重要门限:输入门、遗忘门、输出门和记忆门。表示在某一时刻t,LSTM单元的输入信息;表示时刻LSTM单元的隐含状态;Sigma表示sigmoid函数,tanh表示tanh函数。
S72:使用表示t时刻LSTM单元的累积信息。
上式中表示时刻累积信息。
S73:使用表示LSTM单元t时刻隐含状态。
S74:在语义生成模型的第一层,使用全局图图像特征和预先生成的单词计算语义模型的输入信息
上式中属于生成文本句子S,且S表示单词集合
S75:语义生成模型第一层输出的隐含状态计算方式如下:
S76:使用步骤S75中隐含状态和融合特征向量计算语义生成模型第二层的输入信息
S77:语义生成模型第二层输出的隐含状态,其结果是融合向量,计算方式如下:
S78:在t时刻,通过前序生成的单词和视觉特征向量来生成当前时刻的单词,其生成概率密度函数为:
S79:图像语义描述文字是由每个时刻生成的单词组合而成,因此最终的语义模型概率密度函数可由每个时刻单词的概率密度函数乘积计算:
S710:语义生成模型使用负交叉熵损失函数作为目标函数:
上式中表示语义生成模型的参数,包含权重参数
如上述内容所述,本发明提出的一种基于序列化双重注意力机制层次网络的图像语义生成方法,其中的图像预处理、全局图像特征提取、子空间特征映射集合、目标特征向量、属性特征向量的作用、功能及其实现均已在前述的实施方式中予以相应的说明。
本发明以较佳实施方式如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神范围和范围内,当可作各种的更改与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (6)

1.一种基于双重注意力机制层次网络的图像语义生成方法,其实现包括以下步骤:
步骤1、原始图像采集及预处理,对采集的原始图像进行尺度归一化,得到大小和分辨率统一的图像,将图像大小设置为224X224像素;
步骤2、获取粗粒度视觉特征信息:
1)、使用ResNet-152网络模型从每幅原始图像中提取出的全局图像特征维度向量,并设置固定维度为2048维;
2)、使用ResNet-152网络模型通过池化层的平均池化操作提取子空间特征映射图集合,平均池化层窗口大小为14X14像素;
步骤3、获得细粒度视觉特征信息:
将预处理过的原始图像作为Faster-RCNN网络模型的输入,得到原始图像中的目标特征和属性特征,合并得到细粒度视觉特征信息,目标特征和属性特征的特征向量维度为2048维,所述的目标特征为原始图像中检测目标的边界框,所述属性特征为原始图像中检测目标的类别标签;
步骤4、使用序列化双重注意力机制网络模型融合不同细粒度的图像特征;
步骤5、将步骤4的输出结果输入基于LSTM的双层堆栈RNN网络的语义生成模型,生成最终的图像语义描述文本,并且使用LSTM结构单元处理累积的长序列信息。
2.根据权利要求1所述的基于双重注意力机制层次网络的图像语义生成方法,其特征在于:边界框中包含检测目标丰富的视觉信息。
3.根据权利要求1所述的基于双重注意力机制层次网络的图像语义生成方法,其特征在于:利用1X1卷积核将每一个子空间特征映射图映射到固定维度为2048维向量。
4.根据权利要求1所述的基于双重注意力机制层次网络的图像语义生成方法,其特征在于:所述不同细粒度的图像特征,包括语义生成模型的隐含层信息、子空间特征映射图集合、目标特征和属性特征。
5.根据权利要求1所述的基于双重注意力机制层次网络的图像语义生成方法,其特征在于:所述目标特征和属性特征的特征向量维度为2048维,是通过使用1024维的中间层将目标特征和属性特征映射到2048维。
6.根据权利要求1所述的基于双重注意力机制层次网络的图像语义生成方法,其特征在于:所述序列化双重注意力机制网络模型融合不同细粒度的图像特征的方法是:
1)、使用余弦相似度度量准则计算特征信息向量之间的相似度
2)、使用条件概率密度函数更新每个时间戳中输入特征的权重值
上式中权重值满足限制条件:
3)、在空间注意力机制中,分别使用步骤1和步骤2中的计算公式计算某一时刻t,每个子空间映射图与隐含状态之间的相似度和注意力权重,
然后,使用计算后的相似度和注意力权重的值计算融合特征向量
4)、在目标注意力机制中,某一时刻t,使用步骤3中的融合特征向量计算每个特征向量的注意力权值
CN201910766684.9A 2019-08-20 2019-08-20 一种基于双重注意力机制层次网络的图像语义生成方法 Active CN110490254B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910766684.9A CN110490254B (zh) 2019-08-20 2019-08-20 一种基于双重注意力机制层次网络的图像语义生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910766684.9A CN110490254B (zh) 2019-08-20 2019-08-20 一种基于双重注意力机制层次网络的图像语义生成方法

Publications (2)

Publication Number Publication Date
CN110490254A true CN110490254A (zh) 2019-11-22
CN110490254B CN110490254B (zh) 2023-04-18

Family

ID=68551521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910766684.9A Active CN110490254B (zh) 2019-08-20 2019-08-20 一种基于双重注意力机制层次网络的图像语义生成方法

Country Status (1)

Country Link
CN (1) CN110490254B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126453A (zh) * 2019-12-05 2020-05-08 重庆邮电大学 基于注意力机制和切割填充的细粒度图像分类方法及系统
CN111259785A (zh) * 2020-01-14 2020-06-09 电子科技大学 基于时间偏移残差网络的唇语识别方法
CN111738186A (zh) * 2020-06-28 2020-10-02 香港中文大学(深圳) 目标定位方法、装置、电子设备及可读存储介质
CN111753825A (zh) * 2020-03-27 2020-10-09 北京京东尚科信息技术有限公司 图像描述生成方法、装置、系统、介质及电子设备
CN113222167A (zh) * 2020-02-06 2021-08-06 浙江大学 一种图像处理方法及其装置
CN113298151A (zh) * 2021-05-26 2021-08-24 中国电子科技集团公司第五十四研究所 一种基于多级特征融合的遥感图像语义描述方法
CN114610893A (zh) * 2021-03-19 2022-06-10 山东大学 基于深度学习的剧本到故事板序列自动生成方法及系统
CN117593934A (zh) * 2024-01-17 2024-02-23 长春职业技术学院 一种基于工业机器人的虚拟仿真实训系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480206A (zh) * 2017-07-25 2017-12-15 杭州电子科技大学 一种基于多模态低秩双线性池化的图像内容问答方法
CN107679582A (zh) * 2017-10-20 2018-02-09 深圳市唯特视科技有限公司 一种基于多模态分解模型进行可视问答的方法
US20180060666A1 (en) * 2016-08-29 2018-03-01 Nec Laboratories America, Inc. Video system using dual stage attention based recurrent neural network for future event prediction
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN109447115A (zh) * 2018-09-25 2019-03-08 天津大学 基于多层语义监督式注意力模型的细粒度零样本分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180060666A1 (en) * 2016-08-29 2018-03-01 Nec Laboratories America, Inc. Video system using dual stage attention based recurrent neural network for future event prediction
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN107480206A (zh) * 2017-07-25 2017-12-15 杭州电子科技大学 一种基于多模态低秩双线性池化的图像内容问答方法
CN107679582A (zh) * 2017-10-20 2018-02-09 深圳市唯特视科技有限公司 一种基于多模态分解模型进行可视问答的方法
CN109447115A (zh) * 2018-09-25 2019-03-08 天津大学 基于多层语义监督式注意力模型的细粒度零样本分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
尹宏鹏等: "基于视觉的目标检测与跟踪综述", 《自动化学报》 *
曾子明等: "基于双层注意力和Bi-LSTM的公共安全事件微博情感分析", 《情报科学》 *
李宗民等: "结合细粒度特征与深度卷积网络的手绘图检索", 《中国图象图形学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126453B (zh) * 2019-12-05 2022-05-03 重庆邮电大学 基于注意力机制和切割填充的细粒度图像分类方法及系统
CN111126453A (zh) * 2019-12-05 2020-05-08 重庆邮电大学 基于注意力机制和切割填充的细粒度图像分类方法及系统
CN111259785A (zh) * 2020-01-14 2020-06-09 电子科技大学 基于时间偏移残差网络的唇语识别方法
CN111259785B (zh) * 2020-01-14 2022-09-20 电子科技大学 基于时间偏移残差网络的唇语识别方法
CN113222167A (zh) * 2020-02-06 2021-08-06 浙江大学 一种图像处理方法及其装置
CN111753825A (zh) * 2020-03-27 2020-10-09 北京京东尚科信息技术有限公司 图像描述生成方法、装置、系统、介质及电子设备
WO2021190257A1 (zh) * 2020-03-27 2021-09-30 北京京东尚科信息技术有限公司 图像描述生成方法、装置、系统、介质及电子设备
CN111738186A (zh) * 2020-06-28 2020-10-02 香港中文大学(深圳) 目标定位方法、装置、电子设备及可读存储介质
CN111738186B (zh) * 2020-06-28 2024-02-02 香港中文大学(深圳) 目标定位方法、装置、电子设备及可读存储介质
CN114610893A (zh) * 2021-03-19 2022-06-10 山东大学 基于深度学习的剧本到故事板序列自动生成方法及系统
CN113298151A (zh) * 2021-05-26 2021-08-24 中国电子科技集团公司第五十四研究所 一种基于多级特征融合的遥感图像语义描述方法
CN117593934A (zh) * 2024-01-17 2024-02-23 长春职业技术学院 一种基于工业机器人的虚拟仿真实训系统
CN117593934B (zh) * 2024-01-17 2024-04-05 长春职业技术学院 一种基于工业机器人的虚拟仿真实训系统

Also Published As

Publication number Publication date
CN110490254B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110490254A (zh) 一种基于双重注意力机制层次网络的图像语义生成方法
CN110598005B (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
CN109389091A (zh) 基于神经网络和注意力机制结合的文字识别系统及方法
CN108363753A (zh) 评论文本情感分类模型训练与情感分类方法、装置及设备
CN111444968A (zh) 一种基于注意力融合的图像描述生成方法
CN111881677A (zh) 基于深度学习模型的地址匹配算法
Liu et al. Modelling interaction of sentence pair with coupled-lstms
CN110390363A (zh) 一种图像描述方法
CN110321563A (zh) 基于混合监督模型的文本情感分析方法
CN111291556A (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN111339849A (zh) 一种融合行人属性的行人重识别的方法
CN115081437B (zh) 基于语言学特征对比学习的机器生成文本检测方法及系统
CN114612767B (zh) 一种基于场景图的图像理解与表达方法、系统与存储介质
CN112256904A (zh) 一种基于视觉描述语句的图像检索方法
CN109522961A (zh) 一种基于字典深度学习的半监督图像分类方法
CN116564338B (zh) 语音动画生成方法、装置、电子设备和介质
Huang et al. C-Rnn: a fine-grained language model for image captioning
CN114360005A (zh) 一种基于AU区域和多层级Transformer融合模块的微表情分类方法
CN113780003A (zh) 时空数据变分编解码跨模态增强方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN112883931A (zh) 基于长短期记忆网络的实时真假运动判断方法
CN111930981A (zh) 一种草图检索的数据处理方法
CN113920379B (zh) 一种基于知识辅助的零样本图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant