CN106777125B - 一种基于神经网络及图像关注点的图像描述生成方法 - Google Patents

一种基于神经网络及图像关注点的图像描述生成方法 Download PDF

Info

Publication number
CN106777125B
CN106777125B CN201611169242.9A CN201611169242A CN106777125B CN 106777125 B CN106777125 B CN 106777125B CN 201611169242 A CN201611169242 A CN 201611169242A CN 106777125 B CN106777125 B CN 106777125B
Authority
CN
China
Prior art keywords
image
layer
word
attention
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611169242.9A
Other languages
English (en)
Other versions
CN106777125A (zh
Inventor
胡海峰
杨梁
王腾
张俊轩
王伟轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Original Assignee
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University, SYSU CMU Shunde International Joint Research Institute filed Critical Sun Yat Sen University
Priority to CN201611169242.9A priority Critical patent/CN106777125B/zh
Publication of CN106777125A publication Critical patent/CN106777125A/zh
Application granted granted Critical
Publication of CN106777125B publication Critical patent/CN106777125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于神经网络及图像关注点的图像描述生成方法,该方法采用两层字嵌入结构,而不是原先的一层嵌入结构,这样更有效的学习字表达;图像的特征表达是直接作为m‑RNN模型的输入的,这样能充分利用循环层的容量,允许使用小维度的循环层;借助决策软关注机制,本发明将图像显著区域的关注度体现出来,并作为多模态层的一个输入。通过这个方式,有效地利用了目标或场景间的轻重关系,针对性地描绘图像的语义特性。

Description

一种基于神经网络及图像关注点的图像描述生成方法
技术领域
本发明涉及计算机视觉领域,更具体地,涉及一种基于神经网络及图像关注点的图像描述生成方法。
背景技术
获得文本级别的图像描述已经成为当前计算机视觉领域一个重要的研究课题,而在现实生活中,它有很多应用场景。比如早期的儿童教育,图像检索和盲人导航等。随着计算机视觉和自然语言处理技术的飞速发展,大量关于此课题的有效工作出现,其中很多是将它视为一个检索问题。研究者们通过学习一个节点嵌入层将文本句子和图像的特征投影至一个相同的语义空间中。这些方法通过从文本句子数据集中检索相似描述来生成图像描述,但是其缺乏能够产生有效结合目标和场景两者联系的图像描述。
而在图像描述的工作中,至今有很多方法的提出,但总结起来主要有三种思想:①借助字段与图像的目标或属性之间的联系,通过条件随机场或Markov随机场,例如Mitchell等人从语法上将句子描述拆分成几部分,每一部分和图像中的某个目标或属性相关。②在大数据集的支持下,检索相似的标准已标注图片,通过归纳和重组检索的标注来生成新的描述。例如Kuznetsova等人做的工作。③将文本描述和图像两个不一样的模态结合在一起,形成一个多模态空间,在此基础上学习一个关于文本句子和图像关系的概率密度,例如Srivastava&Salakhutdinov提出的Deep Boltzmann Machines。
而今好的成功案例,大都依靠循环神经网络(Recurrent Neural Networks,RNNs)来实现的,而这被证明有很强的上下文语义信息,循环神经网络已经在众多自然语言处理(Natural Language Processing,NLP)中取得了巨大成功以及广泛应用。RNNs引入了定向循环,能够处理那些输入之间前后关联的问题。这使得其很适合用于自然语言处理领域。而RNNs依赖于好的语义表达输入,对于图像理解领域,图像目标或属性间的关注度没法通过RNNs体现,且对于神经网络来说,是属于高维度的信息处理,计算复杂度高。
发明内容
本发明提供一种基于神经网络及图像关注点的图像描述生成方法,该方法有效地利用了目标或场景间的轻重关系,针对性地描绘图像的语义特性。
为了达到上述技术效果,本发明的技术方案如下:
一种基于神经网络及图像关注点的图像描述生成方法,包括以下步骤:
S1:构建每一时刻帧t的图像的多模态模型:
1)训练集中已标注图像的文本描述信息分成单个字集,用one-hot向量表示对应字,作为模型的文本模块的输入,并经过两个嵌入层投影至一个稠密字表达空间,成为具有语义的字表达向量Wt
2)字表达向量用于循环卷积神经网络RNN某时刻帧t的输入进行循环卷积神经网络RNN计算,该时刻帧t的循环层激活Rt是由当前时刻帧的字表达向量和之前时刻帧t-1的循环层Rt-1共同决定的;
3)已标注图像经过一个卷积神经网络CNN,并提取图像的L个显著特征;
4)图像的特征作为LSTM的输入,LSTM中的隐藏层信息采取一种决策‘soft’关注机制可以获得指定区域特征在全局图像的重要程度,其重要程度和其特征通过求期望可以算出包含区域关注信息的上下文向量;
5)将以上的字表达向量、循环层信息、图像特征和上下文向量通过转换矩阵投影至同一维度的多模态空间上并直接元素相加,再用元素比例双曲线正切函数激活,最后通过softmax层得到下一字的概率分布;
S2:对构建的模型进行训练:
整个模型的损失函数是对应图片的文本标注的混乱度,其等价于字集的平均对数似然值,对其使用标准梯度下降算法,通过反向传播算法学习模型参数。
进一步地,所述步骤1)中,用one-hot码对子集编码,相应位置置1,代表某一特定字,其余置0,通过两个嵌入层可以将one-hot码投影至一个稠密字表达空间,其能将字的句法和语义含义编码出来,语义相关的字可以通过计算两个稠密字向量的欧式距离找出,并且随机初始化字嵌入层有更好的效果。
进一步地,对于每一时刻帧的循环层Rt激活,是与当前时刻帧的字表达向量Wt和之前时刻帧t-1的循环层Rt-1共同决定的,首先将Rt-1到和Wt相同向量空间上,并将它们相加:
Rt=f1(Ur·Rt-1+Wt)
其中,f1设置为ReLU,Ur是投影转换矩阵。
进一步地,步骤3)中,使用了AlexNet的7th层的激活状态,从低阶卷积层中提取,从所有的特征向量中针对性地选取特征向量子集。
进一步地,步骤4)中,通过LSTM中隐藏层的信息,借助关注模型,得出相关关注区域的权重值,并用决策软机制计算出带有区域关注信息的上下文向量:
Eti=fatt(ai,ht-1)
Figure BDA0001183180160000031
其中fatt是基于先前隐藏状态ht-1的多层感知机,ai是图像i区域的特征向量,αti是t时刻帧和图像区域i关注度的权重值:
Figure BDA0001183180160000032
其中zt是t时刻帧的上下文相关向量,
Figure BDA0001183180160000033
是决策软机制,这里定义成如下式:
Figure BDA0001183180160000034
进一步地,步骤5)中,多模态层将以上信息整合在一起,具体过程如下:
Mt=g1(VW·Wt+Vr·Rt+VI·I+VZ·Zt)
其中VW,Vr,VI和VZ分别是字表达向量、循环层激活、图像特征、上下文向量zt的转换投影矩阵,g1是元素比例双曲正切函数,Mt之后经过SoftMax层产生下一字的概率分布。
进一步地,步骤6)中,整个模型的训练采用对数似然损失函数,通过最小化损失函数,误差反向传播来更新模型参数,具体过程如下:
Figure BDA0001183180160000035
Figure BDA0001183180160000036
其中L是文本描述的句子长度—字的个数,PPL(W1:L|I)是指定图像I和W1:L下的句子混乱度,Ns和N分别是训练集中句子个数和字集中字个数,Li是ith句子长度,θ代表模型的参数。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法采用两层字嵌入结构,而不是原先的一层嵌入结构,这样更有效的学习字表达;图像的特征表达是直接作为m-RNN模型的输入的,这样能充分利用循环层的容量,允许使用小维度的循环层;借助决策软关注机制,本发明将图像显著区域的关注度体现出来,并作为多模态层的一个输入。通过这个方式,有效地利用了目标或场景间的轻重关系,针对性地描绘图像的语义特性。
附图说明
图1为本发明的总体流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于神经网络及图像关注点的图像描述生成方法,包括以下步骤:
S1:构建每一时刻帧t的图像的多模态模型:
1)训练集中已标注图像的文本描述信息分成单个字集,用one-hot向量表示对应字,作为模型的文本模块的输入,并经过两个嵌入层投影至一个稠密字表达空间,成为具有语义的字表达向量Wt
2)字表达向量用于循环卷积神经网络RNN某时刻帧t的输入进行循环卷积神经网络RNN计算,该时刻帧t的循环层激活Rt是由当前时刻帧的字表达向量和之前时刻帧t-1的循环层Rt-1共同决定的;
3)已标注图像经过一个卷积神经网络CNN,并提取图像的L个显著特征;
4)图像的特征作为LSTM的输入,LSTM中的隐藏层信息采取一种决策‘soft’关注机制可以获得指定区域特征在全局图像的重要程度,其重要程度和其特征通过求期望可以算出包含区域关注信息的上下文向量;
5)将以上的字表达向量、循环层信息、图像特征和上下文向量通过转换矩阵投影至同一维度的多模态空间上并直接元素相加,再用元素比例双曲线正切函数激活,最后通过softmax层得到下一字的概率分布;
S2:对构建的模型进行训练:
整个模型的损失函数是对应图片的文本标注的混乱度,其等价于字集的平均对数似然值,对其使用标准梯度下降算法,通过反向传播算法学习模型参数。
步骤1)中,用one-hot码对子集编码,相应位置置1,代表某一特定字,其余置0,通过两个嵌入层可以将one-hot码投影至一个稠密字表达空间,其能将字的句法和语义含义编码出来,语义相关的字可以通过计算两个稠密字向量的欧式距离找出,并且随机初始化字嵌入层有更好的效果。
步骤2)中,对于每一时刻帧的循环层Rt激活,是与当前时刻帧的字表达向量Wt和之前时刻帧t-1的循环层Rt-1共同决定的,首先将Rt-1到和Wt相同向量空间上,并将它们相加:
Rt=f1(Ur·Rt-1+Wt)
其中,f1设置为ReLU,Ur是投影转换矩阵。
步骤3)中,使用了AlexNet的7th层的激活状态,从低阶卷积层中提取,从所有的特征向量中针对性地选取特征向量子集。
步骤4)中,通过LSTM中隐藏层的信息,借助关注模型,得出相关关注区域的权重值,并用决策软机制计算出带有区域关注信息的上下文向量:
Eti=fatt(ai,ht-1)
Figure BDA0001183180160000051
其中fatt是基于先前隐藏状态ht-1的多层感知机,ai是图像i区域的特征向量,αti是t时刻帧和图像区域i关注度的权重值:
Figure BDA0001183180160000052
其中zt是t时刻帧的上下文相关向量,
Figure BDA0001183180160000053
是决策软机制,这里定义成如下式:
Figure BDA0001183180160000054
步骤5)中,多模态层将以上信息整合在一起,具体过程如下:
Mt=g1(VW·Wt+Vr·Rt+VI·I+VZ·Zt)
其中VW,Vr,VI和VZ分别是字表达向量、循环层激活、图像特征、上下文向量zt的转换投影矩阵,g1是元素比例双曲正切函数,Mt之后经过SoftMax层产生下一字的概率分布。
步骤6)中,整个模型的训练采用对数似然损失函数,通过最小化损失函数,误差反向传播来更新模型参数,具体过程如下:
Figure BDA0001183180160000061
Figure BDA0001183180160000062
其中L是文本描述的句子长度—字的个数,PPL(W1:L|I)是指定图像I和W1:L下的句子混乱度,Ns和N分别是训练集中句子个数和字集中字个数,Li是ith句子
长度,θ代表模型的参数。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于神经网络及图像关注点的图像描述生成方法,其特征在于,包括以下步骤:
S1:构建每一时刻帧t的图像的多模态模型:
1)训练集中已标注图像的文本描述信息分成单个字集,用one-hot向量表示对应字,作为模型的文本模块的输入,并经过两个嵌入层投影至一个稠密字表达空间,成为具有语义的字表达向量Wt
2)字表达向量用于循环卷积神经网络RNN某时刻帧t的输入,进行循环卷积神经网络RNN计算,该时刻帧t的循环层激活Rt是由当前时刻帧的字表达向量和之前时刻帧t-1的循环层Rt-1共同决定的;
3)已标注图像经过一个卷积神经网络CNN,并提取图像的L个显著特征;
4)图像的特征作为LSTM的输入,LSTM中的隐藏层信息采取一种决策‘soft’关注机制可以获得指定区域特征在全局图像的重要程度,其重要程度和其特征通过求期望可以算出包含区域关注信息的上下文向量;
5)将以上的字表达向量、循环层信息、图像特征和上下文向量通过转换矩阵投影至同一维度的多模态空间上并直接元素相加,再用元素比例双曲线正切函数激活,最后通过softmax层得到下一字的概率分布;
S2:对构建的模型进行训练:整个模型的损失函数是对应图片的文本标注的混乱度,其等价于字集的平均对数似然值,对其使用标准梯度下降算法,通过反向传播算法学习模型参数。
2.根据权利要求1所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述步骤1)中,用one-hot码对子集编码,相应位置置1,代表某一特定字,其余置0,通过两个嵌入层可以将one-hot码投影至一个稠密字表达空间,其能将字的句法和语义含义编码出来,语义相关的字可以通过计算两个稠密字向量的欧式距离找出,并且随机初始化字嵌入层有更好的效果。
3.根据权利要求2所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述步骤2)中,对于每一时刻帧的循环层Rt激活,是由当前时刻帧的字表达向量Wt和之前时刻帧t-1的循环层Rt-1共同决定的,首先将Rt-1转换到和Wt相同向量空间上,并将它们相加:
Rt=f1(Ur·Rt-1+Wt)
其中,f1设置为ReLU,Ur是投影转换矩阵。
4.根据权利要求3所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述步骤3)中,使用了AlexNet的7th层的激活状态,从低阶卷积层中提取,从所有的特征向量中针对性地选取特征向量子集。
5.根据权利要求4所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述步骤4)中,通过LSTM中隐藏层的信息,借助关注模型,得出相关关注区域的权重值,并用决策软机制计算出带有区域关注信息的上下文向量:
Eti=fatt(ai,ht-1)
Figure FDA0002509194350000011
其中fatt是基于先前隐藏状态ht-1的多层感知机,ai是图像i区域的特征向量,αti是t时刻帧和图像区域i关注度的权重值:
Figure FDA0002509194350000012
其中zt是t时刻帧的上下文相关向量,
Figure FDA0002509194350000013
是决策软机制,这里定义成如下式:
Figure FDA0002509194350000021
6.根据权利要求5所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述步骤5)中,多模态层将以上信息整合在一起,具体过程如下:
Mt=g1(VW·Wt+Vr·Rt+VI·I+VZ·zt)
其中VW,Vr,VI和VZ分别是字表达向量、循环层激活、图像特征、上下文向量zt的转换投影矩阵,g1是元素比例双曲正切函数,Mt之后经过SoftMax层产生下一字的概率分布。
7.根据权利要求6所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述步骤S2中,整个模型的训练采用对数似然损失函数,通过最小化损失函数,误差反向传播来更新模型参数,具体过程如下:
Figure FDA0002509194350000022
Figure FDA0002509194350000023
其中L是文本描述的句子长度,即字的个数,PPL(W1:L|I)是指定图像I和W1:L下的句子混乱度,Ns和N分别是训练集中句子个数和字集中字个数,Li是ith句子长度,θ代表模型的参数。
CN201611169242.9A 2016-12-16 2016-12-16 一种基于神经网络及图像关注点的图像描述生成方法 Active CN106777125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611169242.9A CN106777125B (zh) 2016-12-16 2016-12-16 一种基于神经网络及图像关注点的图像描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611169242.9A CN106777125B (zh) 2016-12-16 2016-12-16 一种基于神经网络及图像关注点的图像描述生成方法

Publications (2)

Publication Number Publication Date
CN106777125A CN106777125A (zh) 2017-05-31
CN106777125B true CN106777125B (zh) 2020-10-23

Family

ID=58892171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611169242.9A Active CN106777125B (zh) 2016-12-16 2016-12-16 一种基于神经网络及图像关注点的图像描述生成方法

Country Status (1)

Country Link
CN (1) CN106777125B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11621075B2 (en) 2016-09-07 2023-04-04 Koninklijke Philips N.V. Systems, methods, and apparatus for diagnostic inferencing with a multimodal deep memory network
CN107563409B (zh) * 2017-08-04 2020-12-29 汕头大学 一种基于区域图像特征关注网络与最近邻排序的描述方法
CN107480786B (zh) * 2017-08-07 2021-04-30 复旦大学 基于输出状态限制的循环神经网络轨迹似然概率计算方法
CN107578062A (zh) * 2017-08-19 2018-01-12 四川大学 一种基于属性概率向量引导注意模式的图片描述方法
CN110599557B (zh) * 2017-08-30 2022-11-18 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN109843401B (zh) * 2017-10-17 2020-11-24 腾讯科技(深圳)有限公司 一种ai对象行为模型优化方法以及装置
CN111465944B (zh) * 2017-10-27 2024-04-05 渊慧科技有限公司 用于生成对象的结构化表示的图形神经网络系统
CN108052512B (zh) * 2017-11-03 2021-05-11 同济大学 一种基于深度注意力机制的图像描述生成方法
CN108009154B (zh) * 2017-12-20 2021-01-05 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN108921185A (zh) * 2018-05-04 2018-11-30 广州图匠数据科技有限公司 一种基于图像识别的货架促销信息识别方法、装置和系统
CN109145974B (zh) * 2018-08-13 2022-06-24 广东工业大学 一种基于图文匹配的多层次图像特征融合方法
CN109543820B (zh) * 2018-11-23 2022-09-23 中山大学 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法
CN109522966B (zh) * 2018-11-28 2022-09-27 中山大学 一种基于密集连接卷积神经网络的目标检测方法
CN109670576B (zh) * 2018-11-29 2022-09-13 中山大学 一种多尺度视觉关注图像描述方法
CN110119754B (zh) * 2019-02-27 2022-03-29 北京邮电大学 图像生成描述方法、装置及模型
CN110059157A (zh) * 2019-03-18 2019-07-26 华南师范大学 一种图文跨模态检索方法、系统、装置和存储介质
CN110516677A (zh) * 2019-08-23 2019-11-29 上海云绅智能科技有限公司 一种神经网络识别模型、目标识别方法及系统
CN111582287B (zh) * 2020-05-06 2022-10-25 西安交通大学 一种基于充足视觉信息与文本信息的图像描述方法
CN112115294A (zh) * 2020-09-29 2020-12-22 北京乐学帮网络技术有限公司 一种信息推送方法、装置、计算机设备及存储介质
CN112738647B (zh) * 2020-12-28 2022-04-01 中山大学 一种基于多层级编码-解码器的视频描述方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060045346A1 (en) * 2004-08-26 2006-03-02 Hui Zhou Method and apparatus for locating and extracting captions in a digital image
CN104484666A (zh) * 2014-12-17 2015-04-01 中山大学 一种基于人机交互的图像高级语义解析的方法
CN105938485B (zh) * 2016-04-14 2019-06-14 北京工业大学 一种基于卷积循环混合模型的图像描述方法

Also Published As

Publication number Publication date
CN106777125A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106777125B (zh) 一种基于神经网络及图像关注点的图像描述生成方法
US11934791B2 (en) On-device projection neural networks for natural language understanding
WO2022057669A1 (zh) 基于结构化上下文信息的知识图谱预训练方法
CN108733742B (zh) 全局归一化阅读器系统和方法
CN109543820B (zh) 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法
WO2018085710A1 (en) Dynamic coattention network for question answering
JP2020501230A (ja) 複数の言語タスク階層を通じてデータを処理するための深層ニューラルネットワークモデル
CN110969020A (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN111783455B (zh) 文本生成模型的训练方法及装置、文本生成方法及装置
WO2023168601A1 (zh) 自然语言处理模型的训练方法、装置、存储介质
Huang et al. C-Rnn: a fine-grained language model for image captioning
CN115331075A (zh) 一种多模态场景图知识增强的对抗式多模态预训练方法
CN114186568B (zh) 一种基于关系编码和层次注意力机制的图像段落描述方法
CN115271093A (zh) 用于多任务用户界面建模的基于神经网络的多模态变换器
CN115168579A (zh) 一种基于多头注意力机制和二维卷积操作的文本分类方法
Peng et al. Show and tell in the loop: Cross-modal circular correlation learning
Xia An overview of deep learning
CN117571014A (zh) 一种结合图像描述和文本生成图像的视觉语言导航方法
CN116341564A (zh) 基于语义理解的问题推理方法和装置
CN114676247A (zh) 投诉预测方法及其模型建立方法、装置以及相关设备
Hoojon et al. BiLSTM with CRF Part-of-Speech Tagging for Khasi language
Jia et al. Training quantized one-stage object detection neural networks via selective feature imitation
Kavi et al. Caption Generation Based on Emotions Using CSPDenseNet and BiLSTM with Self-Attention
Yuan et al. RPN: a word vector level data augmentation algorithm in deep learning for language understanding
CN115329755B (zh) 实体链接模型处理方法、装置和实体链接处理方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant