CN114399646B - 一种基于Transformer结构的图像描述方法和装置 - Google Patents
一种基于Transformer结构的图像描述方法和装置 Download PDFInfo
- Publication number
- CN114399646B CN114399646B CN202111576047.9A CN202111576047A CN114399646B CN 114399646 B CN114399646 B CN 114399646B CN 202111576047 A CN202111576047 A CN 202111576047A CN 114399646 B CN114399646 B CN 114399646B
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- enhancement
- layer
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Image Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
技术领域
本发明属于图像描述技术领域,具体涉及一种基于Transformer结构的图像描述方法和装置。
背景技术
多模态深度学习旨在通过深度学习的方法实现处理和理解多源模态信息的能力。随着社会和经济的快速兴起,多模态深度学习已在社会生产中的各个方面有了众多应用,起到了非常瞩目的效果。目前比较热门的研究方向是图像、视频、音频和文本之间的多模态学习。
其中,采用自然语言对图像中的内容进行描述,被称为图像描述。语义不仅需要计算识别图像的对象和属性,还需要理解他们的关系,生成语法语义正确的自然语言。最早应用的图像描述方法主要有两种:一种是基于模板的方法,该方法预先设计描述模板,模板内空出诸如“主语、谓语、宾语”的位置,使用传统机器学习方法对图像进行特征提取,识别其中的实体目标、属性及实体目标之间的关系作为关键词,进而插入到模板内的空白中。另一种是基于检索的方法,该方法预先构建“图像-描述”数据库,使用传统机器学习方法计算待描述图像和数据库中图像的相似度,选择与之相似度最高的图像所对应的描述作为待描述图像的描述输出。但采用上述方法对图像内容进行描述的效果并未达到预期。
随着技术的发展,目前的图像描述结构主要分为两类:(1)卷积神经网络(CNN)+长短期记忆网络(Long Short-Term Memory,LSTM)结构;(2)CNN+Transformer结构。其中,CNN模块主要采用目标检测模型Faster R-CNN及其变体用于图像特征的提取,但采用上述两种模型进行图像描述的方法需要在额外的数据集上进行预训练,导致图像描述任务被分割为了两个阶段且训练时间成本过高,此外图像描述结果的性能很大程度上受限于Faster R-CNN模型的好坏,且Faster R-CNN模型结构复杂且运算量过大。LSTM用于将图像特征解码为语言描述,但LSTM模型表达能力有限且无法进行并行训练,模型训练时间成本高。
发明内容
本发明的目的是提供一种基于Transformer结构的图像描述方法和装置,用于解决现有技术中的图像描述方法训练时间过长和运算量较大的技术问题。
为了实现上述目的,本发明采用以下技术方案:
第一方面,本发明提供一种基于Transformer结构的图像描述方法,包括:
采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量;其中,所述图像特征向量包括图像初始特征VG和图像全局特征Vg;
在一种可能的设计中,采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量,包括:
将大小为H×W×C1的原始图像输入至所述swin Transformer基础编码器,输出大小为的第一图像特征向量;其中,H表示原始图像的高度,W表示原始图像的宽度,C1表示第一通道数量,C2表示第二通道数量,k表示原始图像的压缩比例;
采用平均池化层选取所述图像初始特征VG的平均值,将该平均值作为所述图像全局特征Vg;其中,所述图像全局特征Vg的大小为1×C3。
将所述图像初始特征VG依次经过所述特征增强编码器的W-MSA/SW-MSA层、第一Add&LN层、第一FeedForward层以及第二Add&LN层进行处理,从而捕获所述图像初始特征VG模态内的隐含关系以进行特征增强,得到所述图像增强特征
将所述图像全局特征Vg依次经过所述特征增强编码器的MSA层、第三Add&LN层、第二FeedForward层以及第四Add&LN层进行处理,捕获所述图像全局特征Vg模态内的隐含关系以进行特征增强,得到所述图像增强全局特征
其中,所述图像初始特征VG和所述图像全局特征Vg实现特征增强的参数可共享。
在一种可能的设计中,所述特征增强编码器设有3个,3个所述特征增强编码器依次堆叠,以对所述图像初始特征VG和所述图像全局特征Vg进行逐步增强。
在一种可能的设计中,所述预融合模块包括依次连接的Concat层、Linear和ReLU函数层以及第五Add&LN层。
在一种可能的设计中,所述单词语义信息抽取模块包括依次连接的Masked MSA层和第六Add&LN层。
在一种可能的设计中,所述后融合模块包括依次连接的Cross MSA层、第七Add&LN层、第三FeedForward层以及第八Add&LN层。
第二方面,本发明提供一种基于Transformer结构的图像描述装置,包括:
特征向量提取模块,用于采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量;其中,所述图像特征向量包括图像初始特征VG和图像全局特征Vg;
第三方面,本发明提供一种计算机设备,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面任意一种可能的设计中所述的基于Transformer结构的图像描述方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面任意一种可能的设计中所述的基于Transformer结构的图像描述方法。
第五方面,本发明提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如第一方面任意一种可能的设计中所述的基于Transformer结构的图像描述方法。
有益效果:
本发明采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量;采用基于Transformer结构的特征增强编码器分别捕获图像初始特征VG和图像全局特征Vg模态内的隐含关系实现特征增强,得到图像增强特征和图像增强特征采用基于Transformer结构的解码器对文本信息、所述图像增强特征以及所述图像增强全局特征进行特征融合,生成对应的图像描述并输出。本发明实现了图像描述任务从两个阶段任务集成到一个阶段,模型结构统一且参数量更少,缩减了模型训练的时间成本和计算成本。其中,解码器中采用预融合模块实现了视觉模态信息与语言模态信息的初次交互,在保证模型运算效率的情况下增加了视觉模态(图像)与自然语言模态(描述)之间的交互从而进一步提升了图像描述模型的表达与推理能力。
附图说明
图1为本实施例中的基于Transformer结构的图像描述方法的流程图;
图2为本实施例中的基于Transformer结构的图像描述方法采用的模型结构图。
具体实施方式
为使本说明书实施例的目的、技术方案和优点更加清楚,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
为了解决现有技术中存在的图像描述方法训练时间过长和运算量较大的技术问题,本申请实施例提供了一种基于Transformer结构的图像描述方法,该方法实现了图像描述任务从两个阶段任务集成到一个阶段,模型结构统一且参数量更少,缩减了模型训练的时间成本和计算成本。
如图1-2所示,第一方面,本实施例提供一种基于Transformer结构的图像描述方法,包括但不限于由步骤S101~S103实现:
步骤S101.采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量;其中,所述图像特征向量包括图像初始特征VG和图像全局特征Vg;
其中,需要说明的是,所述swin Transformer基础编码器采用现有的swinTransformer架构(即论文:Swin Transformer:Hierarchical Vision Transformerusing Shifted Windows中示出的架构),主要包括LN(LayerNorm,归一化层)正则化层→W-MSA(window based self-attention,基于窗口的自我注意机制)子模块(或SW-MSA(shiftwindow based self-attention,基于移动窗口的自我注意机制)子模块)→残差连接层→LN正则化层→前馈网络→残差连接层,具体工作原理为现有的工作原理,此处不再赘述。
在步骤S101的一种具体的实施方式中,采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量,包括:
步骤S1011.将大小为H×W×C1的原始图像输入至所述swin Transformer基础编码器,输出大小为的第一图像特征向量;其中,H表示原始图像的高度,W表示原始图像的宽度,C1表示第一通道数量,C2表示第二通道数量,k表示原始图像的压缩比例;
例如:将大小为384×384×3的原始图像输入至所述swin Transformer基础编码器,输出大小为12×12×1536的第一图像特征向量。
例如:采用全连接层对所述第一图像特征向量从1536维进行投影降维,得到12×12=144个维度为512的图像初始特征VG。
步骤S1013.采用平均池化层选取所述图像初始特征VG的平均值,将该平均值作为所述图像全局特征Vg;其中,所述图像全局特征Vg的大小为1×C3。
例如:采用平均池化层选取12×12=144个维度为512的图像初始特征VG的平均值1×512,将1×512作为所述图像全局特征Vg。
其中,优选的,所述特征增强编码器设有3个,3个所述特征增强编码器依次堆叠,以对所述图像初始特征VG和所述图像全局特征Vg进行逐步增强。
在步骤S102一种具体的实施方式中,采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征VG和所述图像全局特征Vg模态内的隐含关系实现特征增强,得到图像增强特征和图像增强全局特征包括:
步骤S1021将所述图像初始特征VG依次经过所述特征增强编码器的W-MSA/SW-MSA层、第一Add&LN层、第一FeedForward(前馈网络)层以及第二Add&LN层进行处理,从而捕获所述图像初始特征VG模态内的隐含关系以进行特征增强,得到所述图像增强特征
将所述图像全局特征Vg依次经过所述特征增强编码器的MSA层、第三Add&LN层、第二FeedForward层以及第四Add&LN层进行处理,捕获所述图像全局特征Vg模态内的隐含关系以进行特征增强,得到所述图像增强全局特征
其中,所述图像初始特征VG和所述图像全局特征Vg实现特征增强的参数可共享。
例如,将大小为12×12×512的图像初始特征VG和大小为1×512的图像全局特征Vg输入到特征增强编码器中。其中,12×12×512的图像初始特征VG依次经过所述特征增强编码器的W-MSA/SW-MSA层、第一Add&LN层、第一FeedForward层以及第二Add&LN层进行处理,输出相同尺寸大小的图像初始特征其中,1×512的图像全局特征Vg依次经过所述特征增强编码器的MSA层、第三Add&LN层、第二FeedForward层以及第四Add&LN层进行处理,输出相同尺寸大小的图像增强特征
步骤S1031.在t时间步,利用解码器的预融合模块对所述图像增强全局特征和当前时间步之前已生成的t-1个单词的单词嵌入向量进行特征融合,并输出包含图像信息和文本信息的第一多模态特征向量例如,所述单词嵌入向量的大小为(t-1)×512。
优选的,所述预融合模块包括依次连接的Concat层、Linear(线性)和ReLU函数层以及第五Add&LN层,用于实现视觉模态信息与语言模态信息的初次交互;
优选的,所述单词语义信息抽取模块包括依次连接的Masked MSA(window basedself-attention,标记的基于窗口的自注意力机制)层和第六Add&LN层。
优选的,所述后融合模块包括依次连接的Cross(交叉)MSA层、第七Add&LN层、第三FeedForward层以及第八Add&LN层,用于实现视觉模态信息与语言模态信息的再次交互。
基于上述公开的内容,本实施例采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量;采用基于Transformer结构的特征增强编码器分别捕获图像初始特征VG和图像全局特征Vg模态内的隐含关系实现特征增强,得到图像增强特征和图像增强全局特征采用基于Transformer结构的解码器对文本信息、所述图像增强特征以及所述图像增强全局特征进行特征融合,生成对应的图像描述并输出。本发明实现了图像描述任务从两个阶段任务集成到一个阶段,模型结构统一且参数量更少,缩减了模型训练的时间成本和计算成本。其中,解码器中采用预融合模块实现了视觉模态信息与语言模态信息的初次交互,在保证模型运算效率的情况下增加了视觉模态(图像)与自然语言模态(描述)之间的交互从而进一步提升了图像描述模型的表达与推理能力。
第二方面,本发明提供一种基于Transformer结构的图像描述装置,包括:
特征向量提取模块,用于采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量;其中,所述图像特征向量包括图像初始特征VG和图像全局特征Vg;
第三方面,本发明提供一种计算机设备,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面任意一种可能的设计中所述的基于Transformer结构的图像描述方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面任意一种可能的设计中所述的基于Transformer结构的图像描述方法。
第五方面,本发明提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如第一方面任意一种可能的设计中所述的基于Transformer结构的图像描述方法。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于Transformer结构的图像描述方法,其特征在于,包括:
采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量,其中,所述图像特征向量包括图像初始特征VG和图像全局特征Vg,包括:
采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量,包括:
将大小为H×W×C1的原始图像输入至swin Transformer基础编码器,输出大小为的第一图像特征向量;其中,H表示原始图像的高度,W表示原始图像的宽度,C1表示第一通道数量,C2表示第二通道数量,k表示原始图像的压缩比例;
采用平均池化层选取所述图像初始特征VG的平均值,将该平均值作为图像全局特征Vg;其中,所述图像全局特征Vg的大小为1×C3;
2.根据权利要求1所述的基于Transformer结构的图像描述方法,其特征在于,采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征VG和所述图像全局特征Vg模态内的隐含关系实现特征增强,得到图像增强特征和图像增强全局特征包括:
将所述图像初始特征VG依次经过特征增强编码器的W-MSA/SW-MSA层、第一Add&LN层、第一FeedForward层以及第二Add&LN层进行处理,从而捕获所述图像初始特征VG模态内的隐含关系以进行特征增强,得到图像增强特征
将所述图像全局特征Vg依次经过所述特征增强编码器的MSA层、第三Add&LN层、第二FeedForward层以及第四Add&LN层进行处理,捕获所述图像全局特征Vg模态内的隐含关系以进行特征增强,得到图像增强全局特征
其中,所述图像初始特征VG和所述图像全局特征Vg实现特征增强的参数可共享。
3.根据权利要求2所述的基于Transformer结构的图像描述方法,其特征在于,所述特征增强编码器设有3个,3个所述特征增强编码器依次堆叠,以对所述图像初始特征VG和所述图像全局特征Vg进行逐步增强。
5.根据权利要求1所述的基于Transformer结构的图像描述方法,其特征在于,所述预融合模块包括依次连接的Concat层、Linear层和ReLU函数层以及第五Add&LN层。
6.根据权利要求1所述的基于Transformer结构的图像描述方法,其特征在于,所述单词语义信息抽取模块包括依次连接的Masked MSA层和第六Add&LN层。
7.根据权利要求1所述的基于Transformer结构的图像描述方法,其特征在于,所述后融合模块包括依次连接的Cross MSA层、第七Add&LN层、第三FeedForward层以及第八Add&LN层。
8.一种基于Transformer结构的图像描述装置,其特征在于,包括:
特征向量提取模块,用于采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量;其中,所述图像特征向量包括图像初始特征VG和图像全局特征Vg;
在采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量时,所述特征向量提取模块具体用于:
将大小为H×W×C1的原始图像输入至swin Transformer基础编码器,输出大小为的第一图像特征向量;其中,H表示原始图像的高度,W表示原始图像的宽度,C1表示第一通道数量,C2表示第二通道数量,k表示原始图像的压缩比例;
采用平均池化层选取所述图像初始特征VG的平均值,将该平均值作为图像全局特征Vg;其中,所述图像全局特征Vg的大小为1×C3;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111576047.9A CN114399646B (zh) | 2021-12-21 | 2021-12-21 | 一种基于Transformer结构的图像描述方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111576047.9A CN114399646B (zh) | 2021-12-21 | 2021-12-21 | 一种基于Transformer结构的图像描述方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114399646A CN114399646A (zh) | 2022-04-26 |
CN114399646B true CN114399646B (zh) | 2022-09-20 |
Family
ID=81227859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111576047.9A Active CN114399646B (zh) | 2021-12-21 | 2021-12-21 | 一种基于Transformer结构的图像描述方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114399646B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115795683B (zh) * | 2022-12-08 | 2023-07-21 | 四川大学 | 一种融合CNN和Swin Transformer网络的翼型优化方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733866A (zh) * | 2021-01-27 | 2021-04-30 | 西安理工大学 | 一种提高可控图像文本描述正确性的网络构建方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10565305B2 (en) * | 2016-11-18 | 2020-02-18 | Salesforce.Com, Inc. | Adaptive attention model for image captioning |
US11056227B2 (en) * | 2018-05-23 | 2021-07-06 | Koninklijke Philips N.V. | System and method for generating textual descriptions from medical images |
CN110135441B (zh) * | 2019-05-17 | 2020-03-03 | 北京邮电大学 | 一种图像的文本描述方法及装置 |
CN110458282B (zh) * | 2019-08-06 | 2022-05-13 | 齐鲁工业大学 | 一种融合多角度多模态的图像描述生成方法及系统 |
US11423304B2 (en) * | 2020-01-15 | 2022-08-23 | Beijing Jingdong Shangke Information Technology Co., Ltd. | System and method for semantic analysis of multimedia data using attention-based fusion network |
CN111242059B (zh) * | 2020-01-16 | 2022-03-15 | 合肥工业大学 | 基于递归记忆网络的无监督图像描述模型的生成方法 |
CN113095431B (zh) * | 2021-04-27 | 2023-08-18 | 中山大学 | 一种基于注意力机制的图像描述方法、系统及装置 |
CN113591546B (zh) * | 2021-06-11 | 2023-11-03 | 中国科学院自动化研究所 | 语义增强型场景文本识别方法及装置 |
-
2021
- 2021-12-21 CN CN202111576047.9A patent/CN114399646B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733866A (zh) * | 2021-01-27 | 2021-04-30 | 西安理工大学 | 一种提高可控图像文本描述正确性的网络构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114399646A (zh) | 2022-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110633683B (zh) | 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 | |
CN111581401B (zh) | 一种基于深度相关性匹配的局部引文推荐系统及方法 | |
CN111783462A (zh) | 基于双神经网络融合的中文命名实体识别模型及方法 | |
CN113806587A (zh) | 一种多模态特征融合的视频描述文本生成方法 | |
CN113705315B (zh) | 视频处理方法、装置、设备及存储介质 | |
CN110795549B (zh) | 短文本对话方法、装置、设备及存储介质 | |
CN113961736A (zh) | 文本生成图像的方法、装置、计算机设备和存储介质 | |
CN113407663B (zh) | 基于人工智能的图文内容质量识别方法和装置 | |
CN116306652A (zh) | 一种基于注意力机制和BiLSTM的中文命名实体识别模型 | |
CN114399646B (zh) | 一种基于Transformer结构的图像描述方法和装置 | |
CN116580278A (zh) | 一种基于多注意力机制的唇语识别方法、设备及存储介质 | |
CN113569584B (zh) | 文本翻译方法、装置、电子设备及计算机可读存储介质 | |
CN113569068B (zh) | 描述内容生成方法、视觉内容的编码、解码方法、装置 | |
CN117251795A (zh) | 基于自适应融合的多模态虚假新闻检测方法 | |
CN116704506A (zh) | 一种基于交叉环境注意力的指代图像分割方法 | |
CN116842944A (zh) | 一种基于词增强的实体关系抽取方法及装置 | |
CN116663523A (zh) | 多角度增强网络的语义文本相似度计算方法 | |
WO2023168818A1 (zh) | 视频和文本相似度确定方法、装置、电子设备、存储介质 | |
CN114677569B (zh) | 一种基于特征解耦合的文字-图像对生成方法和装置 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN112559750B (zh) | 文本数据的分类方法、装置、非易失性存储介质、处理器 | |
CN110390010B (zh) | 一种自动文本摘要方法 | |
CN114818711A (zh) | 基于神经网络的多信息融合命名实体识别方法 | |
CN113569049B (zh) | 一种基于层次Trans-CNN的多标签文本分类方法 | |
CN113656632B (zh) | 大规模细粒度图像检索中的属性感知哈希编码学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |