CN113792177A - 基于知识引导深度注意力网络的场景文字视觉问答方法 - Google Patents

基于知识引导深度注意力网络的场景文字视觉问答方法 Download PDF

Info

Publication number
CN113792177A
CN113792177A CN202110896688.6A CN202110896688A CN113792177A CN 113792177 A CN113792177 A CN 113792177A CN 202110896688 A CN202110896688 A CN 202110896688A CN 113792177 A CN113792177 A CN 113792177A
Authority
CN
China
Prior art keywords
text
word
image
features
follows
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110896688.6A
Other languages
English (en)
Other versions
CN113792177B (zh
Inventor
余宙
朱俊杰
俞俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110896688.6A priority Critical patent/CN113792177B/zh
Publication of CN113792177A publication Critical patent/CN113792177A/zh
Application granted granted Critical
Publication of CN113792177B publication Critical patent/CN113792177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于知识引导深度注意力网络的的场景文字视觉问答方法。本发明步骤:1、数据预处理及数据集的划分,2、构建问题的语言特征,3、构建图像的物体综合特征,4、获取图像的文本综合特征,5、构建前预测词的特征,6、构建相对空间关系特征,7、构建相对语义关系特征,8、构建深度神经网络,9、损失函数,10、训练模型,11、网络预测值计算。本发明通过建模物体对象和文本对象间的相对空间关系特征、前预测词和文本对象的相对语义关系特征,得到先验知识关系,并深度堆叠知识增强自注意力网络层数来获得更加丰富的信息,相比于先前基于卷积神经网络和构建对象间浅层关系的方法性能有了很大提升。

Description

基于知识引导深度注意力网络的场景文字视觉问答方法
技术领域
本发明提出一种基于知识引导深度注意力网络的场景文字视觉问答方法(Scene-textVisual QuestionAnswering)。核心方法为提出知识引导深度注意力网络,通过建模物体对象和文本对象间的相对空间关系特征、前预测词和文本对象的相对语义关系特征,得到先验知识关系,以此获得更加丰富的信息,并在场景文本视觉问答这一深度学习任务中能够更准确的生成答案,验证了该模型的优越性。本方法首次提出建模物体对象和文本对象间的相对空间关系特征,由此获得对象间更丰富的空间关系。同时,本方法也首次提出建模前预测词和文本对象的相对语义关系特征,能够进一步获得前预测词和文本对象更深层次的语义关系。在场景文本视觉问答实验中,将多模态特征和上述的先验知识关系输入到模型中,在推理模块(Reasoning Module)中完成了多模态特征的深层交互,在生成模块(Generation Module)中完成了前预测词和文本对象的深层理解,进而得到了更好的实验结果。
背景技术
视觉问答(Visual QuestionAnswering)是一种涉及计算机视觉和自然语言处理的学习任务,它以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,经过视觉问答系统,输出一条自然语言作为答案。因此,需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。
场景文本视觉问答是视觉问答的一个子任务。与视觉问答任务一样,场景文本视觉问答任务同样也有一张图片和一个对应的问题作为输入,但它在视觉问答的基础上新增了光学字符识别(Optical CharacterRecognition)部分,用于获取图片中的文本信息,场景文本视觉问答也需要同视觉问答一样,融合不同模态的数据。相比之下,场景文本视觉问答更侧重于图片中的文本信息,它的问题主要围绕图片中的文本信息,它的回答也需要用到图片中的文本信息。一个场景文本视觉问答算法需要学习下列条件:①意识到这是个关于文字的问题;②检测出包含文字的区域;③把包含文字的区域转化为文本形式;④将文本和视觉内容结合起来,确立它们之间的关系;⑤确定是否将检测到的文本直接确定为答案还是要对文本进行处理。
场景文本视觉问答的正确答案来自不同的回答者,具有较高的自由度。同时,自然场景下的图片载体主题多样,内容复杂富于变化,图像中物体和文本可能具有较高的差异性,而这使得场景文本视觉问答面临巨大的挑战。
在场景文本视觉问答任务中,主要涉及到物体检测(Object Detection)、光学字符识别、词嵌入(Word Embedding)、多模态融合等技术。其中多模态融合是近年来科研机构、工业界研究的重点,有效的融合能够获取让模型获取足够丰富且有效的信息,利于模型预测出更准确的答案。在多模态融合中,主要的模型分为两类,一类是基于图神经网络的模型,另一类是基于注意力机制的模型。由于场景文本视觉问答需要建立在对多模态信息的充分利用的基础上,因此有效挖掘多模态之间的关系显得尤为重要,通过建模物体对象和文本对象间的相对空间关系特征、前预测词和文本对象的相对语义关系特征,得到先验知识关系,有助于模型获得更深层的理解,进而得到了更好的实验结果。
在实际应用方面,场景文本视觉问答任务的未来应用潜力巨大,比如面向视觉障碍用户。
我国的残障人群数量接近9000万,其中视障人群数量达到1800万,相当于在我国每90人中就有一名视障人士。我国是全世界视障人士数量最多的国家,也是盲人群体最大的国家。而视觉系统是人类感知环境信息的主要途径,80%以上的信息都是通过眼睛来获取。在当下的中国,视障人士占据残疾人士较大比例的情况下,他们在日常生活中的视觉信息感知与交互需求难以得到充分满足正成为一个亟待解决的问题。未来可以与语音技术相结合,视障用户可以通过上传一张图像,并向系统提出问题,算法可以根据用户的输入信息,进行理解,最后通过语音播报的形式向用户解答,在一定程度上提高视觉障碍人群的生活质量,具有较大的市场应用价值和社会效益。
综上所述,场景文本视觉问答是一个值得深入研究的课题,本专利拟从该任务中几个关键点切入展开探讨,解决目前方法存在的难点和重点,形成一套完整的场景文本视觉问答系统。
发明内容
本发明提供了一种基于知识引导深度注意力网络的的场景文字视觉问答方法。本发明主要包含两点:
1、通过建模物体对象和文本对象间的相对空间关系特征,输入到关系自注意力网络,以充分发掘对象之间的相对空间关系,获取更丰富的信息。
通过建模前预测词和文本对象的相对语义关系特征,充分理解答案与文本对象之间的语义关系,结合动态指针网络的输出结果,获取更深层次的表达。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤(1)、数据集的划分
对数据集进行划分;
步骤(2):构建问题的语言特征
一个问题由K个单词组成,针对每个单词k,使用预先训练好的词向量模型将其转换为包含语义信息的词向量
Figure BDA0003198212320000031
其中dques指的是问题单词的词向量维数;将一个问题中K个单词的词向量拼接成一个完整问题的语言特征,再经过线性变换映射至d维空间,得到特征
Figure BDA0003198212320000041
步骤(3):构建图像的物体综合特征
对于一张输入图像,使用训练好的目标检测网络计算出图像中包含物体的M个候选框;针对每一个候选框m,获得其空间特征
Figure BDA0003198212320000042
将该候选框在图像中对应的区域输入到目标检测网络中,并提取网络的某一层的输出作为该候选框的视觉特征
Figure BDA0003198212320000043
使用可学习的线性变换将视觉特征和空间特征投影到d维空间,得到该候选框m的综合特征
Figure BDA0003198212320000044
将一张图像中所有物体的综合特征拼接成总的物体综合特征为
Figure BDA0003198212320000045
步骤(4):获取图像的文本综合特征
对于一张输入图像,使用离线的OCR系统获取图像中包含文本的N个文本信息,包括候选框信息和框内字符信息;针对每一个候选框信息n,获得其空间特征
Figure BDA0003198212320000046
将该候选框在图像中对应的区域输入到训练好的目标检测网络中并提取网络的某一层的输出作为该候选框的视觉特征
Figure BDA0003198212320000047
针对每一个框内字符信息n使用FastText算法获得一个文本字符特征
Figure BDA0003198212320000048
使用PHOC算法获得另一个文本字符特征
Figure BDA0003198212320000049
利用线性变换将获得的空间特征
Figure BDA00031982123200000410
视觉特征
Figure BDA00031982123200000411
文本字符特征
Figure BDA00031982123200000412
Figure BDA00031982123200000413
投影到d维空间,得到该文本信息n的文本综合特征
Figure BDA00031982123200000414
将一张图像中所有文本综合特征拼接成总的文本综合特征为
Figure BDA00031982123200000415
步骤(5):构建前预测词的特征
模型通过从OCR文本或固定词汇表中选择单词来迭代解码生成答案,在迭代自回归的解码过程中,将第t次解码时预测单词的特征、来源、位置,构建得到前一个预测词的综合特征
Figure BDA0003198212320000051
并将
Figure BDA0003198212320000052
作为第t+1次解码的输入;一个完整的答案由T次解码预测的单词组成,将所有前预测词的特征拼接成完整的前预测词特征
Figure BDA0003198212320000053
步骤(6):构建相对空间关系特征
针对图像中的任意两个对象i,j来生成相对空间关系特征
Figure BDA0003198212320000054
Figure BDA0003198212320000055
将一张图像中所有的对象,共计M+N个,都构建成总相对空间关系特征
Figure BDA0003198212320000056
所述的对象包括物体和文本;
步骤(7):构建相对语义关系特征
在迭代自回归的解码过程中,第t次解码时,将第t-1次解码得到的预测单词c和图像中的字符信息n,利用余弦相似度计算得到单词c和字符信息n之间的相对语义关系特征
Figure BDA0003198212320000057
一个完整的答案由T次解码预测的单词组成,将答案中所有预测单词和图像中所有文本对象的相对语义关系特征拼接成总相对语义关系特征
Figure BDA0003198212320000058
Figure BDA0003198212320000059
步骤(8):构建深度神经网络
将问题的语言特征Q、图像的物体综合特征Xobj、图像的文本综合特征Xocr、前预测词的特征Xdec拼接成特征
Figure BDA00031982123200000510
将特征I和相对空间关系特征Fsp输入到推理模块中,产生融合各模态信息的向量
Figure BDA00031982123200000511
第t次解码时,将输出Zt对应的文本特征
Figure BDA00031982123200000512
和前预测词特征
Figure BDA00031982123200000513
输入到动态指针网络中,动态指针网络的输出结合相对语义关系特征Fse,预测得到文本中单词的答案概率
Figure BDA0003198212320000061
和固定词汇表中单词的答案概率
Figure BDA0003198212320000062
Figure BDA0003198212320000063
拼接成
Figure BDA0003198212320000064
从中选择概率最大的单词作为第t次解码的预测答案,并迭代预测下一个单词,直至结束;
步骤(9):损失函数
将步骤(8)中输出的预测答案同对应的正确答案一起输入到损失函数中,计算得到损失值;
步骤(10):训练模型
根据步骤(8)中的损失函数产生的损失值利用反向传播算法对步骤(8)中的深度神经网络模型参数进行梯度回传,不断优化,直至整个网络模型收敛;
步骤(11):网络预测值计算
根据步骤(8)中输出的
Figure BDA0003198212320000065
从中选择概率最大的单词作为第t次解码的预测答案,并迭代预测下一个单词,直至结束,生成最终的答案。
进一步的,步骤(2)所述的构建问题的语言特征,具体如下:
使用预先训练好的词向量模型将问题中的每个单词k转换为包含语义信息的词向量
Figure BDA0003198212320000066
其中dques指的是问题单词的词向量维数;.将K个单词组成的问题拼接成一个完整问题的语言特征,再经过线性变换映射至d维空间,
Figure BDA0003198212320000067
具体公式如下:
Figure BDA0003198212320000068
其中,Linear是线性变换。
进一步的,步骤(3)所述的构建图像的物体综合特征具体如下:
对于每一个候选框m,其空间位置坐标为(xmin,ymin,xmax,ymax),(xmin,ymin)表示候选框的左上角点的位置坐标,(xmax,ymax)表示候选框的右下角点的位置坐标,其空间特征表示为
Figure BDA0003198212320000069
具体公式如下:
Figure BDA0003198212320000071
其中,W、H分别是图像的宽、高;
对于每一个候选框m,视觉特征为
Figure BDA0003198212320000072
使用可学习的线性变换将视觉特征、空间特征投影到d维空间,得到该候选框i的综合特征
Figure BDA0003198212320000073
具体公式如下:
Figure BDA0003198212320000074
其中W1、W2是可学习的映射矩阵,LN是层标准化;
每张图像选取包含物体的M个候选框,将每张图像中所有的候选框拼接成总的物体综合特征
Figure BDA0003198212320000075
具体公式如下:
Figure BDA0003198212320000076
进一步的,步骤(4)所述的构建图像的文本综合特征具体如下:
对于每一个候选框n,其空间位置坐标为(xmin,ymin,xmax,ymax,),(xmin,ymin)表示候选框的左上角点的位置坐标,(xmax,ymax)表示候选框的右下角点的位置坐标,其空间特征表示为
Figure BDA0003198212320000077
具体公式如下:
Figure BDA0003198212320000078
对于每一个候选框n,视觉特征为
Figure BDA0003198212320000079
一个字符特征为
Figure BDA00031982123200000710
另一个字符特征为
Figure BDA00031982123200000711
利用线性变换将空间特征、视觉特征、字符特征投影到d维空间,得到该候选框n的文本综合特征
Figure BDA00031982123200000712
具体公式如下:
Figure BDA00031982123200000713
其中W3、W4、W5是可学习的映射矩阵,LN是层标准化;
将每张图像中所有文本综合特征
Figure BDA00031982123200000714
拼接成总的文本综合特征为
Figure BDA00031982123200000715
具体公式如下:
Figure BDA00031982123200000716
进一步的,步骤(5)所述的构建前预测词的特征,具体如下:
在迭代自回归的解码过程中,将第t次解码时预测单词的特征、来源、位置,构建得到前一个预测词的综合特征
Figure BDA0003198212320000081
并将
Figure BDA0003198212320000082
作为第t+1次解码的输入,其中第1次解码的输入
Figure BDA0003198212320000083
是一个特殊字符’<s>’;一个完整的答案由T次解码预测的单词组成,将所有前预测词的特征拼接成完整的前预测词特征
Figure BDA0003198212320000084
具体公式如下:
Figure BDA0003198212320000085
进一步的,步骤(6)所述的构建相对空间关系特征,具体如下:
通过任意两个候选框之间的相对位置进行建模来生成相对空间关系特征;将第i个对象的空间位置定义为(xi,yi,wi,hi),该四维坐标分别表示对象的中心点横纵坐标、宽、高;第i个对象和第j个对象之间的相对空间关系特征表示为
Figure BDA0003198212320000086
具体公式如下:
Figure BDA0003198212320000087
将每张图像中的所有对象关系对特征拼接成总相对空间关系特征为
Figure BDA0003198212320000088
具体公式如下:
Figure BDA0003198212320000089
其中,P=M+N。
进一步的,步骤(7)所述的构建相对语义关系特征,具体如下:
使用预先训练好的词向量模型分别将先前预测的单词c、图像中文本的单词n转换为包含语义信息的词向量
Figure BDA00031982123200000810
Figure BDA00031982123200000811
利用余弦相似度计算先前预测的单词c与图像中文本的单词n之间的相对语义关系特征
Figure BDA00031982123200000812
其中第1次预测时,先前预测的单词是一个特殊字符’<s>’,具体公式如下:
Figure BDA0003198212320000091
一个完整的答案由T个单词组成,图像中有N个文本单词,将答案中所有预测单词和图像中所有文本单词的相对语义关系特征拼接成成总相对语义关系特征
Figure BDA0003198212320000092
具体公式如下:
Figure BDA0003198212320000093
进一步的,步骤(8)所述的构建深度神经网络,具体如下:
8-1.融合问题的语言特征、图像的物体综合特征、图像的文本综合特征、前预测词的特征;
问题的语言特征Q、图像的物体综合特征Xobj、图像的文本综合特征Xocr、前预测词的特征Xdec是来自各模态的特征,经过线性映射,可以映射到相同纬度d,并且拼接上述四种特征为I∈
Figure BDA0003198212320000094
具体公式如下:
I=[Q,Xobj,Xocr,Xdec] (公式13)
8-2.构建知识增强自注意力网络KSA
将特征I和相对空间关系特征Fsp作为KSA的输入,输出
Figure BDA0003198212320000095
具体公式如下:
B'=LN(I+KMSA(I,I,I,Fsp)) (公式14)
B=LN(B'+FFN(B')) (公式15)
其中,KMSA是知识增强多头自注意力网络,是KSA网络的一部分,它的输入是I和Fsp,输出是富含多模态信息的特征向量
Figure BDA0003198212320000096
Figure BDA0003198212320000097
具体公式如下:
Q=Linear[I] (公式16)
K=Linear[I] (公式17)
V=Linear[I] (公式18)
Figure BDA0003198212320000101
其中Q、K、
Figure BDA0003198212320000102
分别由I经过全连接层映射得到;
Figure BDA0003198212320000103
以避免下溢问题;
其中,MLP是两层感知机,具体公式如下:
Figure BDA0003198212320000104
其中,ReLU是激活函数,FC1
Figure BDA0003198212320000105
是全连接层;
其中,FFN结构的输入是B',具体公式如下:
FFN(B')=FCd(Drop(ReLU(FC4d(B')))) (公式21)
8-3.深度堆叠KSA网络
以融合后的特征I和相对空间关系特征Fsp作为输入,深度堆叠KSA网络[KSA(1),KSA(2),…,KSA(E)];将第e层KSA(e)的输出特征和相对空间关系特征Fsp作为第e+1层KSA(e+1)的输入,迭代往复,公式如下:
I(e+1)=KSA(e+1)(I(e),Fsp) (公式22)其中,I(0)=I,对不同层的KSA,关系特征Fsp保持不变;
8-4.多头注意力的特征融合
将步骤8-3的输出I(e+1)作为输入,经过全连接层,输出单头zu,公式如下:
zu=Linear(I(e+1))Linear(I(e+1))T (公式23)
多头注意力Z由U个相互独立的单头组成,进一步提高注意特征的表征能力,具体公式如下:
Z=[z1,z2,…,zu,…,zU] (公式24)
8-5迭代解码计算概率
第t次解码时,将步骤8-4的第t次输出Zt对应的文本特征
Figure BDA0003198212320000111
Figure BDA0003198212320000112
和前预测词特征
Figure BDA0003198212320000113
输入到动态指针网络中,预测得到原始的OCR文本单词的答案概率
Figure BDA0003198212320000114
具体公式如下:
Figure BDA0003198212320000115
其中,Wocr
Figure BDA0003198212320000116
bocr
Figure BDA0003198212320000117
Figure BDA0003198212320000118
与相对语义关系特征
Figure BDA0003198212320000119
相结合,形成最终的OCR文本单词的答案概率
Figure BDA00031982123200001110
具体公式如下:
Figure BDA00031982123200001111
通过
Figure BDA00031982123200001112
计算得到固定词汇表中单词的答案概率
Figure BDA00031982123200001113
具体公式如下:
Figure BDA00031982123200001114
其中,
Figure BDA00031982123200001115
Figure BDA00031982123200001116
拼接成
Figure BDA00031982123200001117
具体公式如下:
Figure BDA00031982123200001118
Figure BDA00031982123200001119
中选择概率最大的单词作为第i次解码的答案,并迭代预测下一个单词,直至结束。
进一步的,步骤(9)所述的损失函数,具体如下:
计算预测答案
Figure BDA00031982123200001120
与真实标签
Figure BDA00031982123200001121
之间的差距,这里使用二元交叉熵损失(binary cross-entropy loss),具体公式如下:
Figure BDA0003198212320000121
进一步的,步骤(10)所述的训练模型,具体如下:
根据步骤(9)中的损失函数产生的损失值利用反向传播算法对步骤(8)中神经网络的模型参数进行梯度回传,不断优化,直至整个网络模型收敛。
本发明有益效果如下:
本发明提出一种基于知识引导深度注意力网络的的场景文字视觉问答方法,通过建模物体对象和文本对象间的相对空间关系特征、前预测词和文本对象的相对语义关系特征,得到先验知识关系,并深度堆叠知识增强自注意力网络层数来获得更加丰富的信息,相比于先前基于卷积神经网络和构建对象间浅层关系的方法性能有了很大提升。
附图说明
图1:知识增强自注意力模块
图2:知识引导深度注意力网络架构
具体实施方式
下面对本发明的详细参数做进一步具体说明。
如图1和2所示,本发明提供一种基于知识引导深度注意力网络的的场景文字视觉问答方法。
步骤(1)具体实现如下:
划分数据集:训练集由21953张图片,34602个问题组成;
验证集由3166张图片,5000个问题组成;测试集由3289张图片,5734个问题组成。
步骤(2)所述的构建问题的语言特征,具体如下:
一个问题由K个单词组成,针对每个单词k,使用预先训练好的词向量模型将其转换为包含语义信息的词向量
Figure BDA0003198212320000131
其中dques指的是问题单词的词向量维数;将一个问题中K个单词的词向量拼接成一个完整问题的语言特征,再经过线性变换映射至d维空间,得到特征
Figure BDA0003198212320000132
步骤(3)所述的构建图像的物体综合特征,具体如下:
对于一张输入图像,使用训练好的目标检测网络计算出图像中包含物体的M个候选框;针对每一个候选框d,获得其空间特征
Figure BDA0003198212320000133
将该候选框在图像中对应的区域输入到目标检测网络中,并提取网络的某一层的输出作为该候选框的视觉特征
Figure BDA0003198212320000134
使用可学习的线性变换将视觉特征和空间特征投影到d维空间,得到该候选框m的综合特征
Figure BDA0003198212320000135
将一张图像中所有物体的综合特征拼接成总的物体综合特征为
Figure BDA0003198212320000136
步骤(4)所述的构建图像的文本综合特征,具体如下:
对于一张输入图像,使用离线的OCR系统获取图像中包含文本的N个文本信息,包括候选框信息和框内字符信息;针对每一个候选框信息n,获得其空间特征
Figure BDA0003198212320000137
将该候选框在图像中对应的区域输入到训练好的目标检测网络中并提取网络的某一层的输出作为该候选框的视觉特征
Figure BDA0003198212320000138
针对每一个框内字符信息n使用FastText算法获得一个文本字符特征
Figure BDA0003198212320000139
使用PHOC算法获得另一个文本字符特征
Figure BDA00031982123200001310
利用线性变换将获得的空间特征
Figure BDA00031982123200001311
视觉特征
Figure BDA0003198212320000141
文本字符特征
Figure BDA0003198212320000142
Figure BDA0003198212320000143
投影到d维空间,得到该文本信息n的文本综合特征
Figure BDA0003198212320000144
将一张图像中所有文本综合特征拼接成总的文本综合特征为
Figure BDA0003198212320000145
步骤(5)所述的构建前预测词的特征,具体如下:
模型通过从OCR文本或固定词汇表中选择单词来迭代解码生成答案,在迭代自回归的解码过程中,将第t次解码时预测单词的特征、来源、位置,构建得到前一个预测词的综合特征
Figure BDA0003198212320000146
并将
Figure BDA0003198212320000147
作为第t+1次解码的输入;一个完整的答案由T次解码预测的单词组成,将所有前预测词的特征拼接成完整的前预测词特征
Figure BDA0003198212320000148
其中第1次解码的输入
Figure BDA0003198212320000149
是一个特殊字符’<s>’。
步骤(6)所述的构建相对空间关系特征,具体如下:
针对图像中的任意两个对象i,j来生成相对空间关系特征
Figure BDA00031982123200001410
Figure BDA00031982123200001411
将一张图像中所有的对象,共计M+N个,都构建成总相对空间关系特征
Figure BDA00031982123200001412
所述的对象包括物体和文本;
步骤(7)所述的构建相对语义关系特征,具体如下:
使用预先训练好的词向量模型分别将先前预测的单词c、图像中文本的单词n转换为包含语义信息的词向量
Figure BDA00031982123200001413
Figure BDA00031982123200001414
利用余弦相似度计算先前预测的单词c与图像中文本的单词n之间的相对语义关系特征
Figure BDA00031982123200001415
其中第1次预测时,先前预测的单词是一个特殊字符’<s>’;
一个完整的答案由T个单词组成,图像中有N个文本单词,将答案中所有预测单词和图像中所有文本单词的相对语义关系特征拼接成成总相对语义关系特征
Figure BDA00031982123200001416
步骤(8)所述的构建深度神经网络,具体如下:
8-1.融合问题的语言特征、图像的物体综合特征、图像的文本综合特征、前预测词的特征;
问题的语言特征Q、图像的物体综合特征Xobj、图像的文本综合特征Xocr、前预测词的特征Xdec是来自各模态的特征,经过线性映射,可以映射到相同纬度d,并且拼接上述四种特征为
Figure BDA0003198212320000151
Figure BDA0003198212320000152
8-2.构建知识增强自注意力网络KSA
将特征I和相对空间关系特征Fsp作为KSA的输入,输出
Figure BDA0003198212320000153
其中,KMSA是知识增强多头自注意力网络,是KSA网络的一部分,它的输入是I和Fsp,输出是富含多模态信息的特征向量
Figure BDA0003198212320000154
其中Q、K、
Figure BDA0003198212320000155
分别由I经过全连接层映射得到;
Figure BDA0003198212320000156
以避免下溢问题;
8-3.深度堆叠KSA网络
以融合后的特征I和相对空间关系特征Fsp作为输入,深度堆叠KSA网络[KSA(1),KSA(2),…,KSA(E)];将第e层KSA(e)的输出特征和相对空间关系特征Fsp作为第e+1层KSA(e+1)的输入,迭代往复。其中,I(0)=I,对不同层的KSA,关系特征Fsp保持不变;
8-4.多头注意力的特征融合
将步骤8-3的输出I(e+1)作为输入,经过全连接层,输出单头zu;多头注意力Z由U个相互独立的单头组成,进一步提高注意特征的表征能力。
8-5迭代解码计算概率
第t次解码时,将步骤8-4的第t次输出Zt对应的文本特征
Figure BDA0003198212320000157
Figure BDA0003198212320000158
和前预测词特征
Figure BDA0003198212320000159
输入到动态指针网络中,预测得到原始的OCR文本单词的答案概率
Figure BDA00031982123200001512
Figure BDA00031982123200001510
与相对语义关系特征
Figure BDA00031982123200001511
相结合,形成最终的OCR文本单词的答案概率
Figure BDA0003198212320000161
通过
Figure BDA0003198212320000162
计算得到固定词汇表中单词的答案概率
Figure BDA0003198212320000163
Figure BDA0003198212320000164
拼接成
Figure BDA0003198212320000165
Figure BDA0003198212320000166
中选择概率最大的单词作为第i次解码的答案,并迭代预测下一个单词,直至结束。

Claims (10)

1.基于知识引导深度注意力网络的的场景文字视觉问答方法,其特征在于包括如下步骤:
步骤(1)、数据集的划分
对数据集进行划分;
步骤(2):构建问题的语言特征
一个问题由K个单词组成,针对每个单词k,使用预先训练好的词向量模型将其转换为包含语义信息的词向量
Figure FDA0003198212310000011
其中dques指的是问题单词的词向量维数;将一个问题中K个单词的词向量拼接成一个完整问题的语言特征,再经过线性变换映射至d维空间,得到特征
Figure FDA0003198212310000012
步骤(3):构建图像的物体综合特征
对于一张输入图像,使用训练好的目标检测网络计算出图像中包含物体的M个候选框;针对每一个候选框m,获得其空间特征
Figure FDA0003198212310000013
将该候选框在图像中对应的区域输入到目标检测网络中,并提取网络的某一层的输出作为该候选框的视觉特征
Figure FDA0003198212310000014
使用可学习的线性变换将视觉特征和空间特征投影到d维空间,得到该候选框m的综合特征
Figure FDA0003198212310000015
将一张图像中所有物体的综合特征拼接成总的物体综合特征为
Figure FDA0003198212310000016
步骤(4):获取图像的文本综合特征
对于一张输入图像,使用离线的OCR系统获取图像中包含文本的N个文本信息,包括候选框信息和框内字符信息;针对每一个候选框信息N,获得其空间特征
Figure FDA0003198212310000017
将该候选框在图像中对应的区域输入到训练好的目标检测网络中并提取网络的某一层的输出作为该候选框的视觉特征
Figure FDA0003198212310000018
针对每一个框内字符信息n使用FastText算法获得一个文本字符特征
Figure FDA0003198212310000021
使用PHOC算法获得另一个文本字符特征
Figure FDA0003198212310000022
利用线性变换将获得的空间特征
Figure FDA0003198212310000023
视觉特征
Figure FDA0003198212310000024
文本字符特征
Figure FDA0003198212310000025
Figure FDA0003198212310000026
投影到d维空间,得到该文本信息n的文本综合特征
Figure FDA0003198212310000027
将一张图像中所有文本综合特征拼接成总的文本综合特征为
Figure FDA0003198212310000028
Figure FDA0003198212310000029
步骤(5):构建前预测词的特征
模型通过从OCR文本或固定词汇表中选择单词来迭代解码生成答案,在迭代自回归的解码过程中,将第t次解码时预测单词的特征、来源、位置,构建得到前一个预测词的综合特征
Figure FDA00031982123100000210
并将
Figure FDA00031982123100000211
作为第t+1次解码的输入;一个完整的答案由T次解码预测的单词组成,将所有前预测词的特征拼接成完整的前预测词特征
Figure FDA00031982123100000212
步骤(6):构建相对空间关系特征
针对图像中的任意两个对象i,j来生成相对空间关系特征
Figure FDA00031982123100000213
将一张图像中所有的对象,共计M+N个,都构建成总相对空间关系特征
Figure FDA00031982123100000214
所述的对象包括物体和文本;
步骤(7):构建相对语义关系特征
在迭代自回归的解码过程中,第t次解码时,将第t-1次解码得到的预测单词c和图像中的字符信息n,利用余弦相似度计算得到单词c和字符信息n之间的相对语义关系特征
Figure FDA00031982123100000215
一个完整的答案由T次解码预测的单词组成,将答案中所有预测单词和图像中所有文本对象的相对语义关系特征拼接成总相对语义关系特征
Figure FDA00031982123100000216
步骤(8):构建深度神经网络
将问题的语言特征Q、图像的物体综合特征Xobj、图像的文本综合特征Xocr、前预测词的特征Xdec拼接成特征
Figure FDA0003198212310000031
将特征I和相对空间关系特征Fsp输入到推理模块中,产生融合各模态信息的向量
Figure FDA0003198212310000032
Figure FDA0003198212310000033
第t次解码时,将输出Zt对应的文本特征
Figure FDA0003198212310000034
和前预测词特征
Figure FDA0003198212310000035
输入到动态指针网络中,动态指针网络的输出结合相对语义关系特征Fse,预测得到文本中单词的答案概率
Figure FDA0003198212310000036
和固定词汇表中单词的答案概率
Figure FDA0003198212310000037
Figure FDA0003198212310000038
拼接成
Figure FDA0003198212310000039
Figure FDA00031982123100000310
从中选择概率最大的单词作为第t次解码的预测答案,并迭代预测下一个单词,直至结束;
步骤(9):损失函数
将步骤(8)中输出的预测答案同对应的正确答案一起输入到损失函数中,计算得到损失值;
步骤(10):训练模型
根据步骤(8)中的损失函数产生的损失值利用反向传播算法对步骤(8)中的深度神经网络模型参数进行梯度回传,不断优化,直至整个网络模型收敛;
步骤(11):网络预测值计算
根据步骤(8)中输出的
Figure FDA00031982123100000311
从中选择概率最大的单词作为第t次解码的预测答案,并迭代预测下一个单词,直至结束,生成最终的答案。
2.根据权利要求书1所述的基于知识引导深度注意力网络的的场景文字视觉问答方法,其特征在于步骤(2)所述的构建问题的语言特征,具体如下:
使用预先训练好的词向量模型将问题中的每个单词k转换为包含语义信息的词向量
Figure FDA00031982123100000312
其中dques指的是问题单词的词向量维数;.将K个单词组成的问题拼接成一个完整问题的语言特征,再经过线性变换映射至d维空间,
Figure FDA0003198212310000041
具体公式如下:
Figure FDA0003198212310000042
其中,Linear是线性变换。
3.根据权利要求书2所述的基于知识引导深度注意力网络的的场景文字视觉问答方法,其特征在于步骤(3)所述的构建图像的物体综合特征,具体如下:
对于每一个候选框m,其空间位置坐标为(xmin,ymin,xmax,ymax),(xmin,ymin)表示候选框的左上角点的位置坐标,(xmax,ymax)表示候选框的右下角点的位置坐标,其空间特征表示为
Figure FDA0003198212310000043
具体公式如下:
Figure FDA0003198212310000044
其中,W、H分别是图像的宽、高;
对于每一个候选框m,视觉特征为
Figure FDA0003198212310000045
使用可学习的线性变换将视觉特征、空间特征投影到d维空间,得到该候选框i的综合特征
Figure FDA0003198212310000046
具体公式如下:
Figure FDA0003198212310000047
其中W1、W2是可学习的映射矩阵,LN是层标准化;
每张图像选取包含物体的M个候选框,将每张图像中所有的候选框拼接成总的物体综合特征
Figure FDA0003198212310000048
具体公式如下:
Figure FDA0003198212310000049
4.根据权利要求书3所述的基于知识引导深度注意力网络的的场景文字视觉问答方法,其特征在于步骤(4)所述的构建图像的文本综合特征,具体如下:
对于每一个候选框n,其空间位置坐标为(xmin,ymin,xmax,ymax,),(xmin,ymin)表示候选框的左上角点的位置坐标,(xmax,ymax)表示候选框的右下角点的位置坐标,其空间特征表示为
Figure FDA00031982123100000410
具体公式如下:
Figure FDA00031982123100000411
对于每一个候选框n,视觉特征为
Figure FDA00031982123100000412
一个字符特征为
Figure FDA00031982123100000413
Figure FDA0003198212310000051
另一个字符特征为
Figure FDA0003198212310000052
利用线性变换将空间特征、视觉特征、字符特征投影到d维空间,得到该候选框n的文本综合特征
Figure FDA0003198212310000053
具体公式如下:
Figure FDA0003198212310000054
其中W3、W4、W5是可学习的映射矩阵,LN是层标准化;
将每张图像中所有文本综合特征
Figure FDA0003198212310000055
拼接成总的文本综合特征为
Figure FDA0003198212310000056
具体公式如下:
Figure FDA0003198212310000057
5.根据权利要求书4所述的基于知识引导深度注意力网络的的场景文字视觉问答方法,其特征在于步骤(5)所述的构建前预测词的特征,具体如下:
在迭代自回归的解码过程中,将第t次解码时预测单词的特征、来源、位置,构建得到前一个预测词的综合特征
Figure FDA0003198212310000058
并将
Figure FDA0003198212310000059
作为第t+1次解码的输入,其中第1次解码的输入
Figure FDA00031982123100000510
是一个特殊字符’<s>’;一个完整的答案由T次解码预测的单词组成,将所有前预测词的特征拼接成完整的前预测词特征
Figure FDA00031982123100000511
具体公式如下:
Figure FDA00031982123100000512
6.根据权利要求书5所述的基于知识引导深度注意力网络的的场景文字视觉问答方法,其特征在于步骤(6)所述的构建相对空间关系特征,具体如下:
通过任意两个候选框之间的相对位置进行建模来生成相对空间关系特征;将第i个对象的空间位置定义为(xi,yi,wi,hi),该四维坐标分别表示对象的中心点横纵坐标、宽、高;第i个对象和第j个对象之间的相对空间关系特征表示为
Figure FDA00031982123100000513
具体公式如下:
Figure FDA00031982123100000514
将每张图像中的所有对象关系对特征拼接成总相对空间关系特征为
Figure FDA0003198212310000061
具体公式如下:
Figure FDA0003198212310000062
其中,P=M+N。
7.根据权利要求书6所述的基于知识引导深度注意力网络的的场景文字视觉问答方法,其特征在于步骤(7)所述的构建相对语义关系特征,具体如下:
使用预先训练好的词向量模型分别将先前预测的单词c、图像中文本的单词n转换为包含语义信息的词向量
Figure FDA0003198212310000063
利用余弦相似度计算先前预测的单词c与图像中文本的单词n之间的相对语义关系特征
Figure FDA0003198212310000064
其中第1次预测时,先前预测的单词是一个特殊字符’<s>’,具体公式如下:
Figure FDA0003198212310000065
一个完整的答案由T个单词组成,图像中有N个文本单词,将答案中所有预测单词和图像中所有文本单词的相对语义关系特征拼接成成总相对语义关系特征
Figure FDA0003198212310000066
具体公式如下:
Figure FDA0003198212310000067
8.根据权利要求书7所述的基于知识引导深度注意力网络的的场景文字视觉问答方法,其特征在于步骤(8)所述的构建深度神经网络,具体如下:
8-1.融合问题的语言特征、图像的物体综合特征、图像的文本综合特征、前预测词的特征;
问题的语言特征Q、图像的物体综合特征Xobj、图像的文本综合特征Xocr、前预测词的特征Xdec是来自各模态的特征,经过线性映射,可以映射到相同纬度d,并且拼接上述四种特征为
Figure FDA0003198212310000071
具体公式如下:
I=[Q,Xobj,Xocr,Xdec] (公式13)
8-2.构建知识增强自注意力网络KSA
将特征I和相对空间关系特征Fsp作为KSA的输入,输出
Figure FDA0003198212310000072
具体公式如下:
B'=LN(I+KMSA(I,I,I,Fsp)) (公式14)
B=LN(B'+FFN(B')) (公式15)
其中,KMSA是知识增强多头自注意力网络,是KSA网络的一部分,它的输入是I和Fsp,输出是富含多模态信息的特征向量
Figure FDA0003198212310000073
具体公式如下:
Q=Linear[I] (公式16)
K=Linear[I] (公式17)
V=Linear[I] (公式18)
Figure FDA0003198212310000074
其中Q、K、
Figure FDA0003198212310000075
分别由I经过全连接层映射得到;
Figure FDA0003198212310000076
∈=1e-6,以避免下溢问题;
其中,MLP是两层感知机,具体公式如下:
Figure FDA0003198212310000077
其中,ReLU是激活函数,FC1
Figure FDA0003198212310000078
是全连接层;
其中,FFN结构的输入是B',具体公式如下:
FFN(B')=FCd(Drop(ReLU(FC4d(B')))) (公式21)
8-3.深度堆叠KSA网络
以融合后的特征I和相对空间关系特征Fsp作为输入,深度堆叠KSA网络[KSA(1),KSA(2),…,KSA(E)];将第e层KSA(e)的输出特征和相对空间关系特征Fsp作为第e+1层KSA(e+1)的输入,迭代往复,公式如下:
I(e+1)=KSA(e+1)(I(e),Fsp) (公式22)
其中,I(0)=I,对不同层的KSA,关系特征Fsp保持不变;
8-4.多头注意力的特征融合
将步骤8-3的输出I(e+1)作为输入,经过全连接层,输出单头zu,公式如下:
zu=Linear(I(e+1))Linear(I(e+1))T (公式23)
多头注意力Z由U个相互独立的单头组成,进一步提高注意特征的表征能力,具体公式如下:
Z=[z1,z2,…,zu,…,zU] (公式24)
8-5迭代解码计算概率
第t次解码时,将步骤8-4的第t次输出Zt对应的文本特征
Figure FDA0003198212310000081
Figure FDA0003198212310000082
和前预测词特征
Figure FDA0003198212310000083
输入到动态指针网络中,预测得到原始的OCR文本单词的答案概率
Figure FDA0003198212310000084
具体公式如下:
Figure FDA0003198212310000085
其中,Wocr
Figure FDA0003198212310000086
bocr
Figure FDA0003198212310000087
Figure FDA0003198212310000088
与相对语义关系特征
Figure FDA0003198212310000089
相结合,形成最终的OCR文本单词的答案概率
Figure FDA00031982123100000810
具体公式如下:
Figure FDA00031982123100000811
通过
Figure FDA00031982123100000812
计算得到固定词汇表中单词的答案概率
Figure FDA00031982123100000813
具体公式如下:
Figure FDA0003198212310000091
其中,
Figure FDA0003198212310000092
Figure FDA0003198212310000093
拼接成
Figure FDA0003198212310000094
具体公式如下:
Figure FDA0003198212310000095
Figure FDA0003198212310000096
中选择概率最大的单词作为第i次解码的答案,并迭代预测下一个单词,直至结束。
9.根据权利要求书8所述的基于知识引导深度注意力网络的的场景文字视觉问答方法,其特征在于步骤(9)所述的损失函数,具体如下:
计算预测答案
Figure FDA0003198212310000097
与真实标签
Figure FDA0003198212310000098
之间的差距,这里使用二元交叉熵损失(binary cross-entropyloss),具体公式如下:
Figure FDA0003198212310000099
10.根据权利要求书9所述的基于知识引导深度注意力网络的的场景文字视觉问答方法,其特征在于步骤(10)所述的训练模型,具体如下:
根据步骤(9)中的损失函数产生的损失值利用反向传播算法对步骤(8)中神经网络的模型参数进行梯度回传,不断优化,直至整个网络模型收敛。
CN202110896688.6A 2021-08-05 2021-08-05 基于知识引导深度注意力网络的场景文字视觉问答方法 Active CN113792177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110896688.6A CN113792177B (zh) 2021-08-05 2021-08-05 基于知识引导深度注意力网络的场景文字视觉问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110896688.6A CN113792177B (zh) 2021-08-05 2021-08-05 基于知识引导深度注意力网络的场景文字视觉问答方法

Publications (2)

Publication Number Publication Date
CN113792177A true CN113792177A (zh) 2021-12-14
CN113792177B CN113792177B (zh) 2023-02-03

Family

ID=78877160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110896688.6A Active CN113792177B (zh) 2021-08-05 2021-08-05 基于知识引导深度注意力网络的场景文字视觉问答方法

Country Status (1)

Country Link
CN (1) CN113792177B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114707017A (zh) * 2022-04-20 2022-07-05 北京百度网讯科技有限公司 视觉问答方法、装置、电子设备和存储介质
CN115100664A (zh) * 2022-06-20 2022-09-23 济南大学 基于相关性信息扩展的多模态虚假新闻识别方法及系统
CN116168796A (zh) * 2023-03-03 2023-05-26 杭州电子科技大学 基于视觉问答的医疗影像报告结构化生成方法
CN116385330A (zh) * 2023-06-06 2023-07-04 之江实验室 一种利用图知识引导的多模态医学影像生成方法和装置
CN117094304A (zh) * 2023-10-18 2023-11-21 湖北华中电力科技开发有限责任公司 一种应用于电网领域技术标准制修订的提示方法和系统
CN117808008A (zh) * 2024-02-29 2024-04-02 厦门众联世纪股份有限公司 一种ltv预估巡检方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008293A (zh) * 2018-10-06 2020-04-14 上海交通大学 基于结构化语义表示的视觉问答方法
CN112464016A (zh) * 2020-12-17 2021-03-09 杭州电子科技大学 一种基于深度关系自注意力网络的场景图生成方法
CN113094484A (zh) * 2021-04-07 2021-07-09 西北工业大学 基于异质图神经网络的文本视觉问答实现方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008293A (zh) * 2018-10-06 2020-04-14 上海交通大学 基于结构化语义表示的视觉问答方法
CN112464016A (zh) * 2020-12-17 2021-03-09 杭州电子科技大学 一种基于深度关系自注意力网络的场景图生成方法
CN113094484A (zh) * 2021-04-07 2021-07-09 西北工业大学 基于异质图神经网络的文本视觉问答实现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AJEET KUMAR SINGH等: "From Strings to Things Knowledge-Enabled VQA Model That Can Read and Reason", 《IEEE》 *
丁月明: "基于深度学习的视觉问答方法与系统研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114707017A (zh) * 2022-04-20 2022-07-05 北京百度网讯科技有限公司 视觉问答方法、装置、电子设备和存储介质
CN115100664A (zh) * 2022-06-20 2022-09-23 济南大学 基于相关性信息扩展的多模态虚假新闻识别方法及系统
CN115100664B (zh) * 2022-06-20 2024-04-09 济南大学 基于相关性信息扩展的多模态虚假新闻识别方法及系统
CN116168796A (zh) * 2023-03-03 2023-05-26 杭州电子科技大学 基于视觉问答的医疗影像报告结构化生成方法
CN116168796B (zh) * 2023-03-03 2023-11-10 杭州电子科技大学 基于视觉问答的医疗影像报告结构化生成方法
CN116385330A (zh) * 2023-06-06 2023-07-04 之江实验室 一种利用图知识引导的多模态医学影像生成方法和装置
CN116385330B (zh) * 2023-06-06 2023-09-15 之江实验室 一种利用图知识引导的多模态医学影像生成方法和装置
CN117094304A (zh) * 2023-10-18 2023-11-21 湖北华中电力科技开发有限责任公司 一种应用于电网领域技术标准制修订的提示方法和系统
CN117094304B (zh) * 2023-10-18 2024-01-23 湖北华中电力科技开发有限责任公司 一种应用于电网领域技术标准制修订的提示方法和系统
CN117808008A (zh) * 2024-02-29 2024-04-02 厦门众联世纪股份有限公司 一种ltv预估巡检方法

Also Published As

Publication number Publication date
CN113792177B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN111554268B (zh) 基于语言模型的语言识别方法、文本分类方法和装置
CN113792177B (zh) 基于知识引导深度注意力网络的场景文字视觉问答方法
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
CN110377710A (zh) 一种基于多模态融合的视觉问答融合增强方法
CN112860888B (zh) 一种基于注意力机制的双模态情感分析方法
CN112949622B (zh) 融合文本与图像的双模态性格分类方法及装置
CN113762322A (zh) 基于多模态表示的视频分类方法、装置和设备及存储介质
CN113761153B (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN109711356B (zh) 一种表情识别方法和系统
CN115964467A (zh) 一种融合视觉情境的富语义对话生成方法
CN115329779A (zh) 一种多人对话情感识别方法
Jha et al. A novel approach on visual question answering by parameter prediction using faster region based convolutional neural network
CN111597341A (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN114282013A (zh) 一种数据处理方法、装置及存储介质
Khurram et al. Dense-captionnet: a sentence generation architecture for fine-grained description of image semantics
CN114663677A (zh) 一种基于跨模态预训练特征增强的视觉问答方法
CN113392265A (zh) 多媒体处理方法、装置及设备
CN114724224A (zh) 一种用于医疗护理机器人的多模态情感识别方法
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN116385937A (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
Ishmam et al. From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities
CN111522923B (zh) 一种多轮任务式对话状态追踪方法
CN115759262A (zh) 基于知识感知注意力网络的视觉常识推理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant