CN106777125B - 一种基于神经网络及图像关注点的图像描述生成方法 - Google Patents
一种基于神经网络及图像关注点的图像描述生成方法 Download PDFInfo
- Publication number
- CN106777125B CN106777125B CN201611169242.9A CN201611169242A CN106777125B CN 106777125 B CN106777125 B CN 106777125B CN 201611169242 A CN201611169242 A CN 201611169242A CN 106777125 B CN106777125 B CN 106777125B
- Authority
- CN
- China
- Prior art keywords
- image
- layer
- word
- attention
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 33
- 239000013604 expression vector Substances 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 15
- 125000004122 cyclic group Chemical group 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于神经网络及图像关注点的图像描述生成方法,该方法采用两层字嵌入结构,而不是原先的一层嵌入结构,这样更有效的学习字表达;图像的特征表达是直接作为m‑RNN模型的输入的,这样能充分利用循环层的容量,允许使用小维度的循环层;借助决策软关注机制,本发明将图像显著区域的关注度体现出来,并作为多模态层的一个输入。通过这个方式,有效地利用了目标或场景间的轻重关系,针对性地描绘图像的语义特性。
Description
技术领域
本发明涉及计算机视觉领域,更具体地,涉及一种基于神经网络及图像关注点的图像描述生成方法。
背景技术
获得文本级别的图像描述已经成为当前计算机视觉领域一个重要的研究课题,而在现实生活中,它有很多应用场景。比如早期的儿童教育,图像检索和盲人导航等。随着计算机视觉和自然语言处理技术的飞速发展,大量关于此课题的有效工作出现,其中很多是将它视为一个检索问题。研究者们通过学习一个节点嵌入层将文本句子和图像的特征投影至一个相同的语义空间中。这些方法通过从文本句子数据集中检索相似描述来生成图像描述,但是其缺乏能够产生有效结合目标和场景两者联系的图像描述。
而在图像描述的工作中,至今有很多方法的提出,但总结起来主要有三种思想:①借助字段与图像的目标或属性之间的联系,通过条件随机场或Markov随机场,例如Mitchell等人从语法上将句子描述拆分成几部分,每一部分和图像中的某个目标或属性相关。②在大数据集的支持下,检索相似的标准已标注图片,通过归纳和重组检索的标注来生成新的描述。例如Kuznetsova等人做的工作。③将文本描述和图像两个不一样的模态结合在一起,形成一个多模态空间,在此基础上学习一个关于文本句子和图像关系的概率密度,例如Srivastava&Salakhutdinov提出的Deep Boltzmann Machines。
而今好的成功案例,大都依靠循环神经网络(Recurrent Neural Networks,RNNs)来实现的,而这被证明有很强的上下文语义信息,循环神经网络已经在众多自然语言处理(Natural Language Processing,NLP)中取得了巨大成功以及广泛应用。RNNs引入了定向循环,能够处理那些输入之间前后关联的问题。这使得其很适合用于自然语言处理领域。而RNNs依赖于好的语义表达输入,对于图像理解领域,图像目标或属性间的关注度没法通过RNNs体现,且对于神经网络来说,是属于高维度的信息处理,计算复杂度高。
发明内容
本发明提供一种基于神经网络及图像关注点的图像描述生成方法,该方法有效地利用了目标或场景间的轻重关系,针对性地描绘图像的语义特性。
为了达到上述技术效果,本发明的技术方案如下:
一种基于神经网络及图像关注点的图像描述生成方法,包括以下步骤:
S1:构建每一时刻帧t的图像的多模态模型:
1)训练集中已标注图像的文本描述信息分成单个字集,用one-hot向量表示对应字,作为模型的文本模块的输入,并经过两个嵌入层投影至一个稠密字表达空间,成为具有语义的字表达向量Wt;
2)字表达向量用于循环卷积神经网络RNN某时刻帧t的输入进行循环卷积神经网络RNN计算,该时刻帧t的循环层激活Rt是由当前时刻帧的字表达向量和之前时刻帧t-1的循环层Rt-1共同决定的;
3)已标注图像经过一个卷积神经网络CNN,并提取图像的L个显著特征;
4)图像的特征作为LSTM的输入,LSTM中的隐藏层信息采取一种决策‘soft’关注机制可以获得指定区域特征在全局图像的重要程度,其重要程度和其特征通过求期望可以算出包含区域关注信息的上下文向量;
5)将以上的字表达向量、循环层信息、图像特征和上下文向量通过转换矩阵投影至同一维度的多模态空间上并直接元素相加,再用元素比例双曲线正切函数激活,最后通过softmax层得到下一字的概率分布;
S2:对构建的模型进行训练:
整个模型的损失函数是对应图片的文本标注的混乱度,其等价于字集的平均对数似然值,对其使用标准梯度下降算法,通过反向传播算法学习模型参数。
进一步地,所述步骤1)中,用one-hot码对子集编码,相应位置置1,代表某一特定字,其余置0,通过两个嵌入层可以将one-hot码投影至一个稠密字表达空间,其能将字的句法和语义含义编码出来,语义相关的字可以通过计算两个稠密字向量的欧式距离找出,并且随机初始化字嵌入层有更好的效果。
进一步地,对于每一时刻帧的循环层Rt激活,是与当前时刻帧的字表达向量Wt和之前时刻帧t-1的循环层Rt-1共同决定的,首先将Rt-1到和Wt相同向量空间上,并将它们相加:
Rt=f1(Ur·Rt-1+Wt)
其中,f1设置为ReLU,Ur是投影转换矩阵。
进一步地,步骤3)中,使用了AlexNet的7th层的激活状态,从低阶卷积层中提取,从所有的特征向量中针对性地选取特征向量子集。
进一步地,步骤4)中,通过LSTM中隐藏层的信息,借助关注模型,得出相关关注区域的权重值,并用决策软机制计算出带有区域关注信息的上下文向量:
Eti=fatt(ai,ht-1)
其中fatt是基于先前隐藏状态ht-1的多层感知机,ai是图像i区域的特征向量,αti是t时刻帧和图像区域i关注度的权重值:
进一步地,步骤5)中,多模态层将以上信息整合在一起,具体过程如下:
Mt=g1(VW·Wt+Vr·Rt+VI·I+VZ·Zt)
其中VW,Vr,VI和VZ分别是字表达向量、循环层激活、图像特征、上下文向量zt的转换投影矩阵,g1是元素比例双曲正切函数,Mt之后经过SoftMax层产生下一字的概率分布。
进一步地,步骤6)中,整个模型的训练采用对数似然损失函数,通过最小化损失函数,误差反向传播来更新模型参数,具体过程如下:
其中L是文本描述的句子长度—字的个数,PPL(W1:L|I)是指定图像I和W1:L下的句子混乱度,Ns和N分别是训练集中句子个数和字集中字个数,Li是ith句子长度,θ代表模型的参数。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法采用两层字嵌入结构,而不是原先的一层嵌入结构,这样更有效的学习字表达;图像的特征表达是直接作为m-RNN模型的输入的,这样能充分利用循环层的容量,允许使用小维度的循环层;借助决策软关注机制,本发明将图像显著区域的关注度体现出来,并作为多模态层的一个输入。通过这个方式,有效地利用了目标或场景间的轻重关系,针对性地描绘图像的语义特性。
附图说明
图1为本发明的总体流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于神经网络及图像关注点的图像描述生成方法,包括以下步骤:
S1:构建每一时刻帧t的图像的多模态模型:
1)训练集中已标注图像的文本描述信息分成单个字集,用one-hot向量表示对应字,作为模型的文本模块的输入,并经过两个嵌入层投影至一个稠密字表达空间,成为具有语义的字表达向量Wt;
2)字表达向量用于循环卷积神经网络RNN某时刻帧t的输入进行循环卷积神经网络RNN计算,该时刻帧t的循环层激活Rt是由当前时刻帧的字表达向量和之前时刻帧t-1的循环层Rt-1共同决定的;
3)已标注图像经过一个卷积神经网络CNN,并提取图像的L个显著特征;
4)图像的特征作为LSTM的输入,LSTM中的隐藏层信息采取一种决策‘soft’关注机制可以获得指定区域特征在全局图像的重要程度,其重要程度和其特征通过求期望可以算出包含区域关注信息的上下文向量;
5)将以上的字表达向量、循环层信息、图像特征和上下文向量通过转换矩阵投影至同一维度的多模态空间上并直接元素相加,再用元素比例双曲线正切函数激活,最后通过softmax层得到下一字的概率分布;
S2:对构建的模型进行训练:
整个模型的损失函数是对应图片的文本标注的混乱度,其等价于字集的平均对数似然值,对其使用标准梯度下降算法,通过反向传播算法学习模型参数。
步骤1)中,用one-hot码对子集编码,相应位置置1,代表某一特定字,其余置0,通过两个嵌入层可以将one-hot码投影至一个稠密字表达空间,其能将字的句法和语义含义编码出来,语义相关的字可以通过计算两个稠密字向量的欧式距离找出,并且随机初始化字嵌入层有更好的效果。
步骤2)中,对于每一时刻帧的循环层Rt激活,是与当前时刻帧的字表达向量Wt和之前时刻帧t-1的循环层Rt-1共同决定的,首先将Rt-1到和Wt相同向量空间上,并将它们相加:
Rt=f1(Ur·Rt-1+Wt)
其中,f1设置为ReLU,Ur是投影转换矩阵。
步骤3)中,使用了AlexNet的7th层的激活状态,从低阶卷积层中提取,从所有的特征向量中针对性地选取特征向量子集。
步骤4)中,通过LSTM中隐藏层的信息,借助关注模型,得出相关关注区域的权重值,并用决策软机制计算出带有区域关注信息的上下文向量:
Eti=fatt(ai,ht-1)
其中fatt是基于先前隐藏状态ht-1的多层感知机,ai是图像i区域的特征向量,αti是t时刻帧和图像区域i关注度的权重值:
步骤5)中,多模态层将以上信息整合在一起,具体过程如下:
Mt=g1(VW·Wt+Vr·Rt+VI·I+VZ·Zt)
其中VW,Vr,VI和VZ分别是字表达向量、循环层激活、图像特征、上下文向量zt的转换投影矩阵,g1是元素比例双曲正切函数,Mt之后经过SoftMax层产生下一字的概率分布。
步骤6)中,整个模型的训练采用对数似然损失函数,通过最小化损失函数,误差反向传播来更新模型参数,具体过程如下:
其中L是文本描述的句子长度—字的个数,PPL(W1:L|I)是指定图像I和W1:L下的句子混乱度,Ns和N分别是训练集中句子个数和字集中字个数,Li是ith句子
长度,θ代表模型的参数。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (7)
1.一种基于神经网络及图像关注点的图像描述生成方法,其特征在于,包括以下步骤:
S1:构建每一时刻帧t的图像的多模态模型:
1)训练集中已标注图像的文本描述信息分成单个字集,用one-hot向量表示对应字,作为模型的文本模块的输入,并经过两个嵌入层投影至一个稠密字表达空间,成为具有语义的字表达向量Wt;
2)字表达向量用于循环卷积神经网络RNN某时刻帧t的输入,进行循环卷积神经网络RNN计算,该时刻帧t的循环层激活Rt是由当前时刻帧的字表达向量和之前时刻帧t-1的循环层Rt-1共同决定的;
3)已标注图像经过一个卷积神经网络CNN,并提取图像的L个显著特征;
4)图像的特征作为LSTM的输入,LSTM中的隐藏层信息采取一种决策‘soft’关注机制可以获得指定区域特征在全局图像的重要程度,其重要程度和其特征通过求期望可以算出包含区域关注信息的上下文向量;
5)将以上的字表达向量、循环层信息、图像特征和上下文向量通过转换矩阵投影至同一维度的多模态空间上并直接元素相加,再用元素比例双曲线正切函数激活,最后通过softmax层得到下一字的概率分布;
S2:对构建的模型进行训练:整个模型的损失函数是对应图片的文本标注的混乱度,其等价于字集的平均对数似然值,对其使用标准梯度下降算法,通过反向传播算法学习模型参数。
2.根据权利要求1所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述步骤1)中,用one-hot码对子集编码,相应位置置1,代表某一特定字,其余置0,通过两个嵌入层可以将one-hot码投影至一个稠密字表达空间,其能将字的句法和语义含义编码出来,语义相关的字可以通过计算两个稠密字向量的欧式距离找出,并且随机初始化字嵌入层有更好的效果。
3.根据权利要求2所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述步骤2)中,对于每一时刻帧的循环层Rt激活,是由当前时刻帧的字表达向量Wt和之前时刻帧t-1的循环层Rt-1共同决定的,首先将Rt-1转换到和Wt相同向量空间上,并将它们相加:
Rt=f1(Ur·Rt-1+Wt)
其中,f1设置为ReLU,Ur是投影转换矩阵。
4.根据权利要求3所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述步骤3)中,使用了AlexNet的7th层的激活状态,从低阶卷积层中提取,从所有的特征向量中针对性地选取特征向量子集。
6.根据权利要求5所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述步骤5)中,多模态层将以上信息整合在一起,具体过程如下:
Mt=g1(VW·Wt+Vr·Rt+VI·I+VZ·zt)
其中VW,Vr,VI和VZ分别是字表达向量、循环层激活、图像特征、上下文向量zt的转换投影矩阵,g1是元素比例双曲正切函数,Mt之后经过SoftMax层产生下一字的概率分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611169242.9A CN106777125B (zh) | 2016-12-16 | 2016-12-16 | 一种基于神经网络及图像关注点的图像描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611169242.9A CN106777125B (zh) | 2016-12-16 | 2016-12-16 | 一种基于神经网络及图像关注点的图像描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106777125A CN106777125A (zh) | 2017-05-31 |
CN106777125B true CN106777125B (zh) | 2020-10-23 |
Family
ID=58892171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611169242.9A Active CN106777125B (zh) | 2016-12-16 | 2016-12-16 | 一种基于神经网络及图像关注点的图像描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106777125B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3510505A1 (en) | 2016-09-07 | 2019-07-17 | Koninklijke Philips N.V. | Systems, methods, and apparatus for diagnostic inferencing with a multimodal deep memory network |
CN107563409B (zh) * | 2017-08-04 | 2020-12-29 | 汕头大学 | 一种基于区域图像特征关注网络与最近邻排序的描述方法 |
CN107480786B (zh) * | 2017-08-07 | 2021-04-30 | 复旦大学 | 基于输出状态限制的循环神经网络轨迹似然概率计算方法 |
CN107578062A (zh) * | 2017-08-19 | 2018-01-12 | 四川大学 | 一种基于属性概率向量引导注意模式的图片描述方法 |
CN110599557B (zh) | 2017-08-30 | 2022-11-18 | 深圳市腾讯计算机系统有限公司 | 图像描述生成方法、模型训练方法、设备和存储介质 |
CN109843401B (zh) * | 2017-10-17 | 2020-11-24 | 腾讯科技(深圳)有限公司 | 一种ai对象行为模型优化方法以及装置 |
CN111465944B (zh) * | 2017-10-27 | 2024-04-05 | 渊慧科技有限公司 | 用于生成对象的结构化表示的图形神经网络系统 |
CN108052512B (zh) * | 2017-11-03 | 2021-05-11 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
CN108009154B (zh) * | 2017-12-20 | 2021-01-05 | 哈尔滨理工大学 | 一种基于深度学习模型的图像中文描述方法 |
CN108830287A (zh) * | 2018-04-18 | 2018-11-16 | 哈尔滨理工大学 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
CN108921185A (zh) * | 2018-05-04 | 2018-11-30 | 广州图匠数据科技有限公司 | 一种基于图像识别的货架促销信息识别方法、装置和系统 |
CN109145974B (zh) * | 2018-08-13 | 2022-06-24 | 广东工业大学 | 一种基于图文匹配的多层次图像特征融合方法 |
CN109543820B (zh) * | 2018-11-23 | 2022-09-23 | 中山大学 | 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法 |
CN109522966B (zh) * | 2018-11-28 | 2022-09-27 | 中山大学 | 一种基于密集连接卷积神经网络的目标检测方法 |
CN109670576B (zh) * | 2018-11-29 | 2022-09-13 | 中山大学 | 一种多尺度视觉关注图像描述方法 |
CN110119754B (zh) * | 2019-02-27 | 2022-03-29 | 北京邮电大学 | 图像生成描述方法、装置及模型 |
CN110059157A (zh) * | 2019-03-18 | 2019-07-26 | 华南师范大学 | 一种图文跨模态检索方法、系统、装置和存储介质 |
CN110516677A (zh) * | 2019-08-23 | 2019-11-29 | 上海云绅智能科技有限公司 | 一种神经网络识别模型、目标识别方法及系统 |
CN111582287B (zh) * | 2020-05-06 | 2022-10-25 | 西安交通大学 | 一种基于充足视觉信息与文本信息的图像描述方法 |
CN112115294B (zh) * | 2020-09-29 | 2024-09-10 | 北京乐学帮网络技术有限公司 | 一种信息推送方法、装置、计算机设备及存储介质 |
CN112738647B (zh) * | 2020-12-28 | 2022-04-01 | 中山大学 | 一种基于多层级编码-解码器的视频描述方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060045346A1 (en) * | 2004-08-26 | 2006-03-02 | Hui Zhou | Method and apparatus for locating and extracting captions in a digital image |
CN104484666A (zh) * | 2014-12-17 | 2015-04-01 | 中山大学 | 一种基于人机交互的图像高级语义解析的方法 |
CN105938485B (zh) * | 2016-04-14 | 2019-06-14 | 北京工业大学 | 一种基于卷积循环混合模型的图像描述方法 |
-
2016
- 2016-12-16 CN CN201611169242.9A patent/CN106777125B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106777125A (zh) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106777125B (zh) | 一种基于神经网络及图像关注点的图像描述生成方法 | |
US11934791B2 (en) | On-device projection neural networks for natural language understanding | |
WO2022057669A1 (zh) | 基于结构化上下文信息的知识图谱预训练方法 | |
CN108733742B (zh) | 全局归一化阅读器系统和方法 | |
CN109543820B (zh) | 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法 | |
WO2018085710A1 (en) | Dynamic coattention network for question answering | |
JP2020501230A (ja) | 複数の言語タスク階層を通じてデータを処理するための深層ニューラルネットワークモデル | |
CN110969020A (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN111783455B (zh) | 文本生成模型的训练方法及装置、文本生成方法及装置 | |
WO2023168601A1 (zh) | 自然语言处理模型的训练方法、装置、存储介质 | |
CN114186568B (zh) | 一种基于关系编码和层次注意力机制的图像段落描述方法 | |
CN115331075A (zh) | 一种多模态场景图知识增强的对抗式多模态预训练方法 | |
Huang et al. | C-Rnn: a fine-grained language model for image captioning | |
CN115168579A (zh) | 一种基于多头注意力机制和二维卷积操作的文本分类方法 | |
CN117571014A (zh) | 一种结合图像描述和文本生成图像的视觉语言导航方法 | |
CN115271093A (zh) | 用于多任务用户界面建模的基于神经网络的多模态变换器 | |
Xia | An overview of deep learning | |
CN116341564A (zh) | 基于语义理解的问题推理方法和装置 | |
CN114676247A (zh) | 投诉预测方法及其模型建立方法、装置以及相关设备 | |
Gong et al. | Document-Level Joint Biomedical Event Extraction Model Using Hypergraph Convolutional Networks | |
Hoojon et al. | BiLSTM with CRF Part-of-Speech Tagging for Khasi language | |
Jia et al. | Training quantized one-stage object detection neural networks via selective feature imitation | |
Yuan et al. | RPN: a word vector level data augmentation algorithm in deep learning for language understanding | |
CN115329755B (zh) | 实体链接模型处理方法、装置和实体链接处理方法、装置 | |
Wang et al. | Capsule network based on multi-granularity attention model for text classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |