CN113240046B - 一种基于知识的视觉问答任务下的多模态信息融合方法 - Google Patents
一种基于知识的视觉问答任务下的多模态信息融合方法 Download PDFInfo
- Publication number
- CN113240046B CN113240046B CN202110611831.2A CN202110611831A CN113240046B CN 113240046 B CN113240046 B CN 113240046B CN 202110611831 A CN202110611831 A CN 202110611831A CN 113240046 B CN113240046 B CN 113240046B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- image
- information
- question
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉和自然语言处理领域,具体涉及的是一种基于知识的视觉问答任务下的多模态信息融合方法。本发明将外部知识作为一个单独的模态,拓展了基于知识的视觉问答的思路;使用纯正的注意力方法将自然语言问题、图像和三元组形式的知识这三个模态进行深层的融合,为基于知识的视觉问答任务提供了新颖有效地解决方案,本发明提出的多模态融合技术不局限于基于知识的视觉问答任务,可以将其扩展到其他多模态任务当中去;使用新颖有效地位置编码方法为图像的位置进行编码,比传统方法中不利用图像位置信息或者使用图像区域坐标作为位置信息,本发明中的位置编码更加有效,可以高效的解决基于知识的视觉问答任务中跟图像位置相关的问题。
Description
技术领域
本发明属于计算机视觉和自然语言处理领域,具体涉及的是基于知识的的视觉问答任务以及一种以注意力为核心的多模态信息融合方法。
背景技术
问答是根据问题,按照人类定义的标准找到合适的答案。问答技术在智能助手、智能家居和信息检索的领域有着广泛的应用。随着对问答需求的增加,问答技术研究也不局限于纯文字的问答,而是向着更宽广的道路发展,出现了需要结合图像的视觉问答、需要结合图像和外部知识的基于知识的视觉问答等涉及多模态的问答研究。其中基于知识的视觉问答如附图1所示。但是因为不同模态的信息提取向量的方式不同,获得的向量也就有很大差别,这就导致基于知识的视觉问答中不同模态信息的融合非常困难。将不同模态信息合理结合的技术—多模态信息融合,就是问答技术研究发展的一个关键点。在基于知识的视觉问答任务中,利用传统的基于查询的方法难以充分利用视觉信息,对外部知识的利用率更低。基于图神经网络的方法对视觉信息的利用加深,但是在对外部知识的利用上有欠缺,此外,对问答中与位置相关的问题更是难以正确回答,这些都有待解决。
发明内容
本发明的目的在于如何充分地融合自然语言、计算机视觉和知识图谱三个模态的信息,从而为基于知识的视觉问答提供优秀的解决方案的一种基于知识的视觉问答任务下的多模态信息融合方法。
本发明的目的是这样实现的:
一种基于知识的视觉问答任务下的多模态信息融合方法,包括以下步骤:
步骤1:问题与图像的向量化:使用预训练的Glove词向量作为问题中每个单词的特征向量,接着使用LSTM处理一个句子的所有词向量使得一个句子中的单词的词向量之间进行一定程度的语义交互。使用以Resnet-101为主体结构的Faster-RCNN处理图像,选择网络结构的中间层2048维的向量作为图像的特征向量,每幅图像提取36个特征向量,图像向量为36×2048维。本发明提出额外融入图像位置编码信息,位置编码:
将图像按位置划分为9各区域,其中p表示图像坐标对应的区域,i取0到2048,d=512,得到的位置编码向量P为36×2048维,可以直接加到图像特征向量上。
步骤2:外部知识筛选和向量化:使用FVQA数据集中的外部知识库为输入训练TransE模型,得到外部知识的250维特征向量。以步骤1的问题向量和从图像中检测到的物体为条件,使用余弦相似度的方法从外部知识库中筛选出100条知识,接着使用深度学习网络,根据问题预测合适的关系信息进一步筛选100条事实得到候选事实库,其中关系是每一条外部知识都包含的的重要组成部分。
步骤3:将步骤1得到的问题向量进行自注意力交互,自注意力模型为
Xi+1=LayerNorm(h+FFN(h))
其中h=LayerNorm(x+MHA(Q,K,V)),Q、K、V是同一个问题向量q进行三种不同的线性变换Linear()得到的向量,LayerNorm()为归一化层,FFN()为全连接网络结构,参数dmodel为常数512,用于统一之后不同模态信息的维度,方便计算。
步骤4:将步骤1、步骤2和步骤3的输出的图像、候选事实和问题的特征向量作为输入,使用三层注意力模型处理得到融合特征q′,v′,k′=TAL(q,k,v),其中TAL为本文提出的三层注意力模型。
步骤5:双模态吸收层以及答案预测。将步骤4的模型输出的融合特征q′、k′、v′作为输入,使用方法a1=β·a+a×q′,a2=β·a1+a1×v′,a3=β·a2+a2×k′将步骤四得到的融合特征q′、k′、v′中包含的信息吸收到候选事实当中,得到更新之后的候选事实特征,接着使用交叉熵损失函数和Adam优化器即可用于答案预测。
与现有技术相比,本发明的有益效果是:
本发明将外部知识作为一个单独的模态,拓展了基于知识的视觉问答的思路;使用纯正的注意力方法将自然语言问题、图像和三元组形式的知识这三个模态进行深层的融合,为基于知识的视觉问答任务提供了新颖有效地解决方案,此外,本发明提出的多模态融合技术不局限于基于知识的视觉问答任务,可以将其扩展到其他多模态任务当中去;使用新颖有效地位置编码方法为图像的位置进行编码,比传统方法中不利用图像位置信息或者使用图像区域坐标作为位置信息,本发明中的位置编码更加有效,可以高效的解决基于知识的视觉问答任务中跟图像位置相关的问题。
附图说明
图1是基于知识的视觉问答任务数据集举例;
图2是本发明的总流程图;
图3是主流程图中的三层注意力网络子结构中的自注意力层(SA)和三层注意力交互层(TAL);
图4是主流程图中三层注意力交互层(TAL)的展开图;
图5是在图像中标出的提取图像特征过程中选择的区域框。
具体实施方式
下面结合附图对本发明具体实施方式做进一步说明。
基于知识的视觉问答是对智能问答的进一步推广,其给出问题、与问题相关的图像、包含回答问题所需的知识的知识库,要求模型能够根据以上信息,从知识库中寻找出最合适的答案。任务涉及计算机视觉和自然语言处理两个领域,若没有考虑某个领域的信息或者对某个领域的信息考虑不够充分,会导致对输入信息利用率低,回答问题的准确率不高。所以,充分利用各个模态的信息是很关键的点。在基于知识的视觉问答中,对于利用外部知识信息,传统方法通过是直接将其作为知识查询库或者使用Gloveembedding来表示知识库然后利用。为了更好地利用外部知识,本发明中通过知识图谱嵌入方法将外部知识表示为一个单独的模态,最后本发明提供一种能够充分融合三种模态信息的信息融合方法。
本发明首先分别通过Faster-RCNN、Glove embedding、TransE等方法获取图像、问题和外部知识的特征向量。然后使用余弦相似度方法,以问题特征和图像中检测到的物体、场景等信息对知识库进行一次筛选,接着是根据问题预测事实应该有的关系进行第二次筛选得到候选事实库。接着对问题向量使用自注意力方法学习问题的深层语义,再将得到的问题向量和之前的图像特征和候选事实特征送入三模态注意力网络学习到融合特征,最后是使用注意力的方法将融合特征的信息吸收进候选事实当中得到最终用于预测答案的特征向量。
本发明的具体实现过程为:
1、问题与图像的向量化
问题和图像的向量化如附图2所示的左半部分—输入的向量表示。本发明中问题的向量化使用的方法是Glove embedding。下载预训练的Glove embedding词向量库,对于一个问题,将问题中的每个单词都从预训练的向量词库中查询到对应的一个300维向量,以这种方法对于一个长度为n问题,可以得到n×300维的向量
本发明中图像的向量化使用的是以Resnet-101为基础的Faster-RCNN的方法。Faster-RCNN是计算机视觉领域中的常见任务目标检测的常用方法,可以将图像分成多个区域框,每个区域框都可以预测对应的标签—即是检测到的目标。本发明中使用的方法是将图像送入Faster-RCNN模型后得到的用于预测目标标签的特征向量的前一层2048维的特征向量。为了方便训练,本发明中对每一个图像都检测出36个区域特征,选取图像中36个区域如附图5所示。即每一幅图像都可以得36×2048维向量
2、外部知识筛选和向量化
外部知识筛选和向量化外如附图2的左下部分。外部知识的筛选使用基于余弦相似度的方法。外部知识的标准存储形式为三元组<e1,r,e2>,e1、e2表示头实体和尾实体。首先使用Glove embedding表示问题和外部知识,然后使用深度学习方法检测图像中的所有的物体和场景,然后同样使用Glove embedding将其表示。通过以上方法得到问题、外部知识和图像中目标的Glove向量表示之后,对于一个问题和一个对应的图像,将问题向量和图像中检测到物体的向量跟知识库中所有的外部知识向量进行余弦相似度计算,余弦相似度计算公式为其中x表示问题和从图像中检测出的目标的向量的组合,yi表示一条外部知识向量。按照余弦相似度的得分为知识库的外部知识进行排序,按照其相似度得分取其中的前100条事实作为第一次筛选结果得到f100。然后根据问题向量,使用神经LSTM和分类网络预测事实应该有的关系r,即是知识三元组<e1,r,e2>中的r。根据预测到的r排除f100中不符合该r的事实,即可进一步从100个外部知识中筛选候选事实库f。
外部知识的向量化使用TransE,TransE是将知识图谱向量化的常用模型,可以将每一个事实<e1,r,e2>表示为向量形式,其中包含相同实体或相同关系的事实之间具有一定的关联性,可以帮助更好的利用外部知识信息。本发明中用TransE外部知识训练模型得到所有外部知识的300为向量,即每一条外部知识都表示为300为向量
3、问题的自注意力交互
问题的自注意力交互如附图2左半部分的SA所示,其详细实现如附图3(a),以步骤1获得的问题向量为输入。问题经过模型Xi+1=LayerNorm(h+FFN(h))三次,即模型深度为三层。其中h=LayerNorm(x+MHA(Q,K,V)),Q、K、V是同一个问题向量q进行三种不同的线性变换Linear()得到的向量,LayerNorm()为归一化层,FFN()为全连接网络结构,MHA(Q,K,V)是多头注意力的实现形式,参数dmodel为常数512,用于统一之后不同模态信息的维度,方便计算。此注意力交互层可以将问题中有关系的单词进行一定的关联,加深向量对问题语义的表达能力。
4、问题、图像和候选事实的三模态注意力交互
三模态注意力交互如附图2右半部分的TAL所示。详细过过程如附图3(b)所示。以步骤3的问题向量和步骤1,2的图像和候选事实向量为输入,分别为q、v、k。经过三层信息聚合层(1)(2)(3)可以得到交互之后的特征q′、v′、k′,即是q′,v′,k′=TAL(q,u,k)。q′,v′,k′=TAL(q,v,k)中的TAL()即是三层信息聚合层的结构,三层信息聚合层(1)(2)(3)的内部结构一致,但是输入向量以及输入顺序不一样,内部结构如图4所示,信息聚合层(1)的交互过程如公式(1)(2)(3)(4)所示,对问题qt处理得到qt+1,同理,以v、k和q′为输入得到v′再以k、q′、v′为输入得到k′。
Q1=qt+MHA(qt·W1,qt·W2,qt·W3) (1)
Q2=Q1+MHA(Q1,K1,V1) (2)
Q3=Q2+MHA(Q2,K2,V2) (3)
qt+1=Q3+FFN(Q3) (4)
其中qt表示输入问题,K1、V1表示输入的vt进行两次不同的线性变换得到的两个向量,K2、V2表示输入的kt进行两次不同的线性变换得到的两个向量,线性变换矩阵为可学习矩阵。MHA为多头注意力和SA中的一样。
信息聚合层(2)的交互过程如公式(5)(6)(7)(8)所示
Q1=vt+MHA(vt·W1,qvt·W2,vt·W3) (5)
Q2=Q1+MHA(Q1,K1,V1) (6)
Q3=Q2+MHA(Q2,K2,V2) (7)
vt+1=Q3+FFN(Q3) (8)
其中vt表示输入图像特征,K1、V1表示输入的qt进行两次不同的线性变换得到的两个向量,K2、V2表示输入的kt进行两次不同的线性变换得到的两个向量。
信息聚合层(3)的交互过程如公式(9(10)(11)(12)所示
Q1=kt+MHA(kt·W1,kt·W2,kt·W3) (9)
Q2=Q1+MHA(Q1,K1,V1) (10)
Q3=Q2+MHA(Q2,K2,V2) (11)
kt+1=Q3+FFN(Q3) (12)
其中kt表示输入候选事实特征,K1、V1表示输入的qt进行两次不同的线性变换得到的两个向量,K2、V2表示输入的vt进行两次不同的线性变换得到的两个向量。
三层注意力网络层(TAL)是由多层信息聚合层(1)(2)(3)堆叠而成,第一层信息聚合层(1)的输入为q、v、k,最后一层信息聚合层(3)的输出为q′、v′、k′。三模态注意力交互层(TAL)的输出即是融合其他模态信息的三种特征向量q′、v′、k′。
5、双模态信息吸收层和答案预测
将步骤4的模型输出q′、v′、k′作为输入,使用方法a1=β·a+a×q′,a2=β·a1+a1×v′,a3=γ·a2+a2×k′得到输出a2,其中α,β,γ为不可学习的权值,设置权值的原因是,三个方面的特征对于答案的贡献比重不一样。将作步骤四得到的融合特征吸收到候选事实当中,可以得到最终的特征向量。得到的特征向量使用交叉熵损失函数和Adam优化器即可用于答案预测。预测的结果如附图1所示,可以根据问题、图像和知识库选择出最合适的事实以及事实对应的答案。
Claims (1)
1.一种基于知识的视觉问答任务下的多模态信息融合方法,其特征是:包括以下步骤:
步骤1:问题与图像的向量化:使用预训练的Glove词向量作为问题中每个单词的特征向量,接着使用LSTM处理一个句子的所有词向量使得一个句子中的单词的词向量之间进行一定程度的语义交互;使用以Resnet-101为主体结构的Faster-RCNN处理图像,选择网络结构的中间层2048维的向量作为图像的特征向量,每幅图像提取36个特征向量,图像向量为36×2048维;提出额外融入图像位置编码信息,位置编码:
将图像按位置划分为9各区域,其中p表示图像坐标对应的区域,i取0到2048,d=512,得到的位置编码向量P为36×2048维,可以直接加到图像特征向量上;
步骤2:外部知识筛选和向量化:使用FVQA数据集中的外部知识库为输入训练TransE模型,得到外部知识的250维特征向量;以步骤1的问题向量和从图像中检测到的物体为条件,使用余弦相似度的方法从外部知识库中筛选出100条知识,接着使用深度学习网络,根据问题预测合适的关系信息进一步筛选100条事实得到候选事实库,其中关系是每一条外部知识都包含的重要组成部分;
步骤3:将步骤1得到的问题向量进行自注意力交互,自注意力模型为Xi+1=LayerNorm(h+FFN(h))
其中h=LayerNorm(x+MHA(Q,K,V)),Q、K、V是同一个问题向量q进行三种不同的线性变换Linear()得到的向量,LayerNorm()为归一化层,FFN()为全连接网络结构,参数dmodel为常数512,用于统一之后不同模态信息的维度,方便计算;
步骤4:将步骤1、步骤2和步骤3的输出的图像、候选事实和问题的特征向量作为输入,使用三层注意力模型处理得到融合特征q′,v′,k′=TAL(q,k,v),三层注意力网络层,TAL,是由多层信息聚合层1、2、3堆叠而成,第一层信息聚合层1的输入为q、v、k,最后一层信息聚合层3的输出为q'、v'、k';
步骤5:双模态吸收层以及答案预测;将步骤4的模型输出的融合特征q′、k′、v′作为输入,使用方法a1=α·a+a×q′,a2=β·a1+a1×v′,a3=γ·a2+as2×k′将步骤四得到的融合特征q′、k′、v′中包含的信息吸收到候选事实当中,其中α,β,γ为不可学习的权值,得到更新之后的候选事实特征,接着使用交叉熵损失函数和Adam优化器即可用于答案预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110611831.2A CN113240046B (zh) | 2021-06-02 | 2021-06-02 | 一种基于知识的视觉问答任务下的多模态信息融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110611831.2A CN113240046B (zh) | 2021-06-02 | 2021-06-02 | 一种基于知识的视觉问答任务下的多模态信息融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113240046A CN113240046A (zh) | 2021-08-10 |
CN113240046B true CN113240046B (zh) | 2023-01-03 |
Family
ID=77136319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110611831.2A Active CN113240046B (zh) | 2021-06-02 | 2021-06-02 | 一种基于知识的视觉问答任务下的多模态信息融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113240046B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116431793B (zh) * | 2023-06-14 | 2023-08-22 | 华南理工大学 | 一种基于知识生成的视觉问答方法、装置及存储介质 |
CN117892140B (zh) * | 2024-03-15 | 2024-05-31 | 浪潮电子信息产业股份有限公司 | 视觉问答及其模型训练方法、装置、电子设备、存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611367A (zh) * | 2020-05-21 | 2020-09-01 | 拾音智能科技有限公司 | 一种引入外部知识的视觉问答方法 |
CN111737434A (zh) * | 2019-06-24 | 2020-10-02 | 谷歌有限责任公司 | 直接从对话历史和资源中生成自动化助理响应和/或动作 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9535898B2 (en) * | 2013-02-06 | 2017-01-03 | International Business Machines Corporation | Natural language question expansion and extraction |
US10803394B2 (en) * | 2018-03-16 | 2020-10-13 | Accenture Global Solutions Limited | Integrated monitoring and communications system using knowledge graph based explanatory equipment management |
US10949718B2 (en) * | 2019-05-08 | 2021-03-16 | Accenture Global Solutions Limited | Multi-modal visual question answering system |
CN110377710B (zh) * | 2019-06-17 | 2022-04-01 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
CN111078836B (zh) * | 2019-12-10 | 2023-08-08 | 中国科学院自动化研究所 | 基于外部知识增强的机器阅读理解方法、系统、装置 |
CN111475656B (zh) * | 2020-03-13 | 2023-06-30 | 清华大学 | 基于外部知识聚合的视觉问答方法及系统 |
CN111444889B (zh) * | 2020-04-30 | 2023-07-25 | 南京大学 | 基于多级条件影响的卷积神经网络的细粒度动作检测方法 |
CN112100346B (zh) * | 2020-08-28 | 2021-07-20 | 西北工业大学 | 基于细粒度图像特征和外部知识相融合的视觉问答方法 |
CN112131363B (zh) * | 2020-09-23 | 2023-05-05 | 深圳技术大学 | 自动问答方法、装置、设备及存储介质 |
-
2021
- 2021-06-02 CN CN202110611831.2A patent/CN113240046B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737434A (zh) * | 2019-06-24 | 2020-10-02 | 谷歌有限责任公司 | 直接从对话历史和资源中生成自动化助理响应和/或动作 |
CN111611367A (zh) * | 2020-05-21 | 2020-09-01 | 拾音智能科技有限公司 | 一种引入外部知识的视觉问答方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113240046A (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108563653B (zh) | 一种用于知识图谱中知识获取模型的构建方法及系统 | |
CN107908671B (zh) | 基于法律数据的知识图谱构建方法及系统 | |
CN111639171B (zh) | 一种知识图谱问答方法及装置 | |
CN114064918B (zh) | 一种多模态事件知识图谱构建方法 | |
CN112100344A (zh) | 一种基于知识图谱的金融领域知识问答方法 | |
Shi et al. | Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval | |
CN113642330A (zh) | 基于目录主题分类的轨道交通规范实体识别方法 | |
CN110928961B (zh) | 一种多模态实体链接方法、设备及计算机可读存储介质 | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索系统 | |
CN117290489B (zh) | 一种行业问答知识库快速构建方法与系统 | |
CN113240046B (zh) | 一种基于知识的视觉问答任务下的多模态信息融合方法 | |
CN115438674B (zh) | 实体数据处理、实体链接方法、装置和计算机设备 | |
CN111291188A (zh) | 一种智能信息抽取方法及系统 | |
CN113761868B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN112131453A (zh) | 一种基于bert的网络不良短文本检测方法、装置及存储介质 | |
CN115952277A (zh) | 基于知识关系检索增强方法、模型、设备及存储介质 | |
CN116796744A (zh) | 一种基于深度学习的实体关系抽取方法及系统 | |
CN115934883A (zh) | 一种基于语义增强的多特征融合的实体关系联合抽取方法 | |
Li et al. | Multimodal fusion with co-attention mechanism | |
CN116975403A (zh) | 内容检索模型及内容检索处理方法、装置和计算机设备 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN116702784B (zh) | 实体链接方法、装置、计算机设备和存储介质 | |
CN114282006B (zh) | 一种引入语义约束条件的课程知识图谱联合嵌入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |