CN113792177A - 基于知识引导深度注意力网络的场景文字视觉问答方法 - Google Patents
基于知识引导深度注意力网络的场景文字视觉问答方法 Download PDFInfo
- Publication number
- CN113792177A CN113792177A CN202110896688.6A CN202110896688A CN113792177A CN 113792177 A CN113792177 A CN 113792177A CN 202110896688 A CN202110896688 A CN 202110896688A CN 113792177 A CN113792177 A CN 113792177A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- image
- features
- follows
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于知识引导深度注意力网络的的场景文字视觉问答方法。本发明步骤:1、数据预处理及数据集的划分,2、构建问题的语言特征,3、构建图像的物体综合特征,4、获取图像的文本综合特征,5、构建前预测词的特征,6、构建相对空间关系特征,7、构建相对语义关系特征,8、构建深度神经网络,9、损失函数,10、训练模型,11、网络预测值计算。本发明通过建模物体对象和文本对象间的相对空间关系特征、前预测词和文本对象的相对语义关系特征,得到先验知识关系,并深度堆叠知识增强自注意力网络层数来获得更加丰富的信息,相比于先前基于卷积神经网络和构建对象间浅层关系的方法性能有了很大提升。
Description
技术领域
本发明提出一种基于知识引导深度注意力网络的场景文字视觉问答方法(Scene-textVisual QuestionAnswering)。核心方法为提出知识引导深度注意力网络,通过建模物体对象和文本对象间的相对空间关系特征、前预测词和文本对象的相对语义关系特征,得到先验知识关系,以此获得更加丰富的信息,并在场景文本视觉问答这一深度学习任务中能够更准确的生成答案,验证了该模型的优越性。本方法首次提出建模物体对象和文本对象间的相对空间关系特征,由此获得对象间更丰富的空间关系。同时,本方法也首次提出建模前预测词和文本对象的相对语义关系特征,能够进一步获得前预测词和文本对象更深层次的语义关系。在场景文本视觉问答实验中,将多模态特征和上述的先验知识关系输入到模型中,在推理模块(Reasoning Module)中完成了多模态特征的深层交互,在生成模块(Generation Module)中完成了前预测词和文本对象的深层理解,进而得到了更好的实验结果。
背景技术
视觉问答(Visual QuestionAnswering)是一种涉及计算机视觉和自然语言处理的学习任务,它以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,经过视觉问答系统,输出一条自然语言作为答案。因此,需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。
场景文本视觉问答是视觉问答的一个子任务。与视觉问答任务一样,场景文本视觉问答任务同样也有一张图片和一个对应的问题作为输入,但它在视觉问答的基础上新增了光学字符识别(Optical CharacterRecognition)部分,用于获取图片中的文本信息,场景文本视觉问答也需要同视觉问答一样,融合不同模态的数据。相比之下,场景文本视觉问答更侧重于图片中的文本信息,它的问题主要围绕图片中的文本信息,它的回答也需要用到图片中的文本信息。一个场景文本视觉问答算法需要学习下列条件:①意识到这是个关于文字的问题;②检测出包含文字的区域;③把包含文字的区域转化为文本形式;④将文本和视觉内容结合起来,确立它们之间的关系;⑤确定是否将检测到的文本直接确定为答案还是要对文本进行处理。
场景文本视觉问答的正确答案来自不同的回答者,具有较高的自由度。同时,自然场景下的图片载体主题多样,内容复杂富于变化,图像中物体和文本可能具有较高的差异性,而这使得场景文本视觉问答面临巨大的挑战。
在场景文本视觉问答任务中,主要涉及到物体检测(Object Detection)、光学字符识别、词嵌入(Word Embedding)、多模态融合等技术。其中多模态融合是近年来科研机构、工业界研究的重点,有效的融合能够获取让模型获取足够丰富且有效的信息,利于模型预测出更准确的答案。在多模态融合中,主要的模型分为两类,一类是基于图神经网络的模型,另一类是基于注意力机制的模型。由于场景文本视觉问答需要建立在对多模态信息的充分利用的基础上,因此有效挖掘多模态之间的关系显得尤为重要,通过建模物体对象和文本对象间的相对空间关系特征、前预测词和文本对象的相对语义关系特征,得到先验知识关系,有助于模型获得更深层的理解,进而得到了更好的实验结果。
在实际应用方面,场景文本视觉问答任务的未来应用潜力巨大,比如面向视觉障碍用户。
我国的残障人群数量接近9000万,其中视障人群数量达到1800万,相当于在我国每90人中就有一名视障人士。我国是全世界视障人士数量最多的国家,也是盲人群体最大的国家。而视觉系统是人类感知环境信息的主要途径,80%以上的信息都是通过眼睛来获取。在当下的中国,视障人士占据残疾人士较大比例的情况下,他们在日常生活中的视觉信息感知与交互需求难以得到充分满足正成为一个亟待解决的问题。未来可以与语音技术相结合,视障用户可以通过上传一张图像,并向系统提出问题,算法可以根据用户的输入信息,进行理解,最后通过语音播报的形式向用户解答,在一定程度上提高视觉障碍人群的生活质量,具有较大的市场应用价值和社会效益。
综上所述,场景文本视觉问答是一个值得深入研究的课题,本专利拟从该任务中几个关键点切入展开探讨,解决目前方法存在的难点和重点,形成一套完整的场景文本视觉问答系统。
发明内容
本发明提供了一种基于知识引导深度注意力网络的的场景文字视觉问答方法。本发明主要包含两点:
1、通过建模物体对象和文本对象间的相对空间关系特征,输入到关系自注意力网络,以充分发掘对象之间的相对空间关系,获取更丰富的信息。
通过建模前预测词和文本对象的相对语义关系特征,充分理解答案与文本对象之间的语义关系,结合动态指针网络的输出结果,获取更深层次的表达。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤(1)、数据集的划分
对数据集进行划分;
步骤(2):构建问题的语言特征
一个问题由K个单词组成,针对每个单词k,使用预先训练好的词向量模型将其转换为包含语义信息的词向量其中dques指的是问题单词的词向量维数;将一个问题中K个单词的词向量拼接成一个完整问题的语言特征,再经过线性变换映射至d维空间,得到特征
步骤(3):构建图像的物体综合特征
对于一张输入图像,使用训练好的目标检测网络计算出图像中包含物体的M个候选框;针对每一个候选框m,获得其空间特征将该候选框在图像中对应的区域输入到目标检测网络中,并提取网络的某一层的输出作为该候选框的视觉特征使用可学习的线性变换将视觉特征和空间特征投影到d维空间,得到该候选框m的综合特征将一张图像中所有物体的综合特征拼接成总的物体综合特征为
步骤(4):获取图像的文本综合特征
对于一张输入图像,使用离线的OCR系统获取图像中包含文本的N个文本信息,包括候选框信息和框内字符信息;针对每一个候选框信息n,获得其空间特征将该候选框在图像中对应的区域输入到训练好的目标检测网络中并提取网络的某一层的输出作为该候选框的视觉特征针对每一个框内字符信息n使用FastText算法获得一个文本字符特征使用PHOC算法获得另一个文本字符特征利用线性变换将获得的空间特征视觉特征文本字符特征和投影到d维空间,得到该文本信息n的文本综合特征将一张图像中所有文本综合特征拼接成总的文本综合特征为
步骤(5):构建前预测词的特征
模型通过从OCR文本或固定词汇表中选择单词来迭代解码生成答案,在迭代自回归的解码过程中,将第t次解码时预测单词的特征、来源、位置,构建得到前一个预测词的综合特征并将作为第t+1次解码的输入;一个完整的答案由T次解码预测的单词组成,将所有前预测词的特征拼接成完整的前预测词特征
步骤(6):构建相对空间关系特征
步骤(7):构建相对语义关系特征
在迭代自回归的解码过程中,第t次解码时,将第t-1次解码得到的预测单词c和图像中的字符信息n,利用余弦相似度计算得到单词c和字符信息n之间的相对语义关系特征一个完整的答案由T次解码预测的单词组成,将答案中所有预测单词和图像中所有文本对象的相对语义关系特征拼接成总相对语义关系特征
步骤(8):构建深度神经网络
将问题的语言特征Q、图像的物体综合特征Xobj、图像的文本综合特征Xocr、前预测词的特征Xdec拼接成特征将特征I和相对空间关系特征Fsp输入到推理模块中,产生融合各模态信息的向量第t次解码时,将输出Zt对应的文本特征和前预测词特征输入到动态指针网络中,动态指针网络的输出结合相对语义关系特征Fse,预测得到文本中单词的答案概率和固定词汇表中单词的答案概率将拼接成从中选择概率最大的单词作为第t次解码的预测答案,并迭代预测下一个单词,直至结束;
步骤(9):损失函数
将步骤(8)中输出的预测答案同对应的正确答案一起输入到损失函数中,计算得到损失值;
步骤(10):训练模型
根据步骤(8)中的损失函数产生的损失值利用反向传播算法对步骤(8)中的深度神经网络模型参数进行梯度回传,不断优化,直至整个网络模型收敛;
步骤(11):网络预测值计算
进一步的,步骤(2)所述的构建问题的语言特征,具体如下:
使用预先训练好的词向量模型将问题中的每个单词k转换为包含语义信息的词向量其中dques指的是问题单词的词向量维数;.将K个单词组成的问题拼接成一个完整问题的语言特征,再经过线性变换映射至d维空间,具体公式如下:
其中,Linear是线性变换。
进一步的,步骤(3)所述的构建图像的物体综合特征具体如下:
对于每一个候选框m,其空间位置坐标为(xmin,ymin,xmax,ymax),(xmin,ymin)表示候选框的左上角点的位置坐标,(xmax,ymax)表示候选框的右下角点的位置坐标,其空间特征表示为具体公式如下:
其中,W、H分别是图像的宽、高;
其中W1、W2是可学习的映射矩阵,LN是层标准化;
进一步的,步骤(4)所述的构建图像的文本综合特征具体如下:
对于每一个候选框n,其空间位置坐标为(xmin,ymin,xmax,ymax,),(xmin,ymin)表示候选框的左上角点的位置坐标,(xmax,ymax)表示候选框的右下角点的位置坐标,其空间特征表示为具体公式如下:
其中W3、W4、W5是可学习的映射矩阵,LN是层标准化;
进一步的,步骤(5)所述的构建前预测词的特征,具体如下:
在迭代自回归的解码过程中,将第t次解码时预测单词的特征、来源、位置,构建得到前一个预测词的综合特征并将作为第t+1次解码的输入,其中第1次解码的输入是一个特殊字符’<s>’;一个完整的答案由T次解码预测的单词组成,将所有前预测词的特征拼接成完整的前预测词特征具体公式如下:
进一步的,步骤(6)所述的构建相对空间关系特征,具体如下:
通过任意两个候选框之间的相对位置进行建模来生成相对空间关系特征;将第i个对象的空间位置定义为(xi,yi,wi,hi),该四维坐标分别表示对象的中心点横纵坐标、宽、高;第i个对象和第j个对象之间的相对空间关系特征表示为具体公式如下:
其中,P=M+N。
进一步的,步骤(7)所述的构建相对语义关系特征,具体如下:
使用预先训练好的词向量模型分别将先前预测的单词c、图像中文本的单词n转换为包含语义信息的词向量 利用余弦相似度计算先前预测的单词c与图像中文本的单词n之间的相对语义关系特征其中第1次预测时,先前预测的单词是一个特殊字符’<s>’,具体公式如下:
进一步的,步骤(8)所述的构建深度神经网络,具体如下:
8-1.融合问题的语言特征、图像的物体综合特征、图像的文本综合特征、前预测词的特征;
I=[Q,Xobj,Xocr,Xdec] (公式13)
8-2.构建知识增强自注意力网络KSA
B'=LN(I+KMSA(I,I,I,Fsp)) (公式14)
B=LN(B'+FFN(B')) (公式15)
Q=Linear[I] (公式16)
K=Linear[I] (公式17)
V=Linear[I] (公式18)
其中,MLP是两层感知机,具体公式如下:
其中,FFN结构的输入是B',具体公式如下:
FFN(B')=FCd(Drop(ReLU(FC4d(B')))) (公式21)
8-3.深度堆叠KSA网络
以融合后的特征I和相对空间关系特征Fsp作为输入,深度堆叠KSA网络[KSA(1),KSA(2),…,KSA(E)];将第e层KSA(e)的输出特征和相对空间关系特征Fsp作为第e+1层KSA(e+1)的输入,迭代往复,公式如下:
I(e+1)=KSA(e+1)(I(e),Fsp) (公式22)其中,I(0)=I,对不同层的KSA,关系特征Fsp保持不变;
8-4.多头注意力的特征融合
将步骤8-3的输出I(e+1)作为输入,经过全连接层,输出单头zu,公式如下:
zu=Linear(I(e+1))Linear(I(e+1))T (公式23)
多头注意力Z由U个相互独立的单头组成,进一步提高注意特征的表征能力,具体公式如下:
Z=[z1,z2,…,zu,…,zU] (公式24)
8-5迭代解码计算概率
进一步的,步骤(9)所述的损失函数,具体如下:
进一步的,步骤(10)所述的训练模型,具体如下:
根据步骤(9)中的损失函数产生的损失值利用反向传播算法对步骤(8)中神经网络的模型参数进行梯度回传,不断优化,直至整个网络模型收敛。
本发明有益效果如下:
本发明提出一种基于知识引导深度注意力网络的的场景文字视觉问答方法,通过建模物体对象和文本对象间的相对空间关系特征、前预测词和文本对象的相对语义关系特征,得到先验知识关系,并深度堆叠知识增强自注意力网络层数来获得更加丰富的信息,相比于先前基于卷积神经网络和构建对象间浅层关系的方法性能有了很大提升。
附图说明
图1:知识增强自注意力模块
图2:知识引导深度注意力网络架构
具体实施方式
下面对本发明的详细参数做进一步具体说明。
如图1和2所示,本发明提供一种基于知识引导深度注意力网络的的场景文字视觉问答方法。
步骤(1)具体实现如下:
划分数据集:训练集由21953张图片,34602个问题组成;
验证集由3166张图片,5000个问题组成;测试集由3289张图片,5734个问题组成。
步骤(2)所述的构建问题的语言特征,具体如下:
一个问题由K个单词组成,针对每个单词k,使用预先训练好的词向量模型将其转换为包含语义信息的词向量其中dques指的是问题单词的词向量维数;将一个问题中K个单词的词向量拼接成一个完整问题的语言特征,再经过线性变换映射至d维空间,得到特征
步骤(3)所述的构建图像的物体综合特征,具体如下:
对于一张输入图像,使用训练好的目标检测网络计算出图像中包含物体的M个候选框;针对每一个候选框d,获得其空间特征将该候选框在图像中对应的区域输入到目标检测网络中,并提取网络的某一层的输出作为该候选框的视觉特征使用可学习的线性变换将视觉特征和空间特征投影到d维空间,得到该候选框m的综合特征将一张图像中所有物体的综合特征拼接成总的物体综合特征为
步骤(4)所述的构建图像的文本综合特征,具体如下:
对于一张输入图像,使用离线的OCR系统获取图像中包含文本的N个文本信息,包括候选框信息和框内字符信息;针对每一个候选框信息n,获得其空间特征将该候选框在图像中对应的区域输入到训练好的目标检测网络中并提取网络的某一层的输出作为该候选框的视觉特征针对每一个框内字符信息n使用FastText算法获得一个文本字符特征使用PHOC算法获得另一个文本字符特征利用线性变换将获得的空间特征视觉特征文本字符特征和投影到d维空间,得到该文本信息n的文本综合特征将一张图像中所有文本综合特征拼接成总的文本综合特征为
步骤(5)所述的构建前预测词的特征,具体如下:
模型通过从OCR文本或固定词汇表中选择单词来迭代解码生成答案,在迭代自回归的解码过程中,将第t次解码时预测单词的特征、来源、位置,构建得到前一个预测词的综合特征并将作为第t+1次解码的输入;一个完整的答案由T次解码预测的单词组成,将所有前预测词的特征拼接成完整的前预测词特征
步骤(6)所述的构建相对空间关系特征,具体如下:
步骤(7)所述的构建相对语义关系特征,具体如下:
使用预先训练好的词向量模型分别将先前预测的单词c、图像中文本的单词n转换为包含语义信息的词向量 利用余弦相似度计算先前预测的单词c与图像中文本的单词n之间的相对语义关系特征其中第1次预测时,先前预测的单词是一个特殊字符’<s>’;
步骤(8)所述的构建深度神经网络,具体如下:
8-1.融合问题的语言特征、图像的物体综合特征、图像的文本综合特征、前预测词的特征;
8-2.构建知识增强自注意力网络KSA
将特征I和相对空间关系特征Fsp作为KSA的输入,输出其中,KMSA是知识增强多头自注意力网络,是KSA网络的一部分,它的输入是I和Fsp,输出是富含多模态信息的特征向量其中Q、K、分别由I经过全连接层映射得到;以避免下溢问题;
8-3.深度堆叠KSA网络
以融合后的特征I和相对空间关系特征Fsp作为输入,深度堆叠KSA网络[KSA(1),KSA(2),…,KSA(E)];将第e层KSA(e)的输出特征和相对空间关系特征Fsp作为第e+1层KSA(e+1)的输入,迭代往复。其中,I(0)=I,对不同层的KSA,关系特征Fsp保持不变;
8-4.多头注意力的特征融合
将步骤8-3的输出I(e+1)作为输入,经过全连接层,输出单头zu;多头注意力Z由U个相互独立的单头组成,进一步提高注意特征的表征能力。
8-5迭代解码计算概率
Claims (10)
1.基于知识引导深度注意力网络的的场景文字视觉问答方法,其特征在于包括如下步骤:
步骤(1)、数据集的划分
对数据集进行划分;
步骤(2):构建问题的语言特征
一个问题由K个单词组成,针对每个单词k,使用预先训练好的词向量模型将其转换为包含语义信息的词向量其中dques指的是问题单词的词向量维数;将一个问题中K个单词的词向量拼接成一个完整问题的语言特征,再经过线性变换映射至d维空间,得到特征
步骤(3):构建图像的物体综合特征
对于一张输入图像,使用训练好的目标检测网络计算出图像中包含物体的M个候选框;针对每一个候选框m,获得其空间特征将该候选框在图像中对应的区域输入到目标检测网络中,并提取网络的某一层的输出作为该候选框的视觉特征使用可学习的线性变换将视觉特征和空间特征投影到d维空间,得到该候选框m的综合特征将一张图像中所有物体的综合特征拼接成总的物体综合特征为
步骤(4):获取图像的文本综合特征
对于一张输入图像,使用离线的OCR系统获取图像中包含文本的N个文本信息,包括候选框信息和框内字符信息;针对每一个候选框信息N,获得其空间特征将该候选框在图像中对应的区域输入到训练好的目标检测网络中并提取网络的某一层的输出作为该候选框的视觉特征针对每一个框内字符信息n使用FastText算法获得一个文本字符特征使用PHOC算法获得另一个文本字符特征利用线性变换将获得的空间特征视觉特征文本字符特征和投影到d维空间,得到该文本信息n的文本综合特征将一张图像中所有文本综合特征拼接成总的文本综合特征为
步骤(5):构建前预测词的特征
模型通过从OCR文本或固定词汇表中选择单词来迭代解码生成答案,在迭代自回归的解码过程中,将第t次解码时预测单词的特征、来源、位置,构建得到前一个预测词的综合特征并将作为第t+1次解码的输入;一个完整的答案由T次解码预测的单词组成,将所有前预测词的特征拼接成完整的前预测词特征
步骤(6):构建相对空间关系特征
步骤(7):构建相对语义关系特征
在迭代自回归的解码过程中,第t次解码时,将第t-1次解码得到的预测单词c和图像中的字符信息n,利用余弦相似度计算得到单词c和字符信息n之间的相对语义关系特征一个完整的答案由T次解码预测的单词组成,将答案中所有预测单词和图像中所有文本对象的相对语义关系特征拼接成总相对语义关系特征
步骤(8):构建深度神经网络
将问题的语言特征Q、图像的物体综合特征Xobj、图像的文本综合特征Xocr、前预测词的特征Xdec拼接成特征将特征I和相对空间关系特征Fsp输入到推理模块中,产生融合各模态信息的向量 第t次解码时,将输出Zt对应的文本特征和前预测词特征输入到动态指针网络中,动态指针网络的输出结合相对语义关系特征Fse,预测得到文本中单词的答案概率和固定词汇表中单词的答案概率将拼接成 从中选择概率最大的单词作为第t次解码的预测答案,并迭代预测下一个单词,直至结束;
步骤(9):损失函数
将步骤(8)中输出的预测答案同对应的正确答案一起输入到损失函数中,计算得到损失值;
步骤(10):训练模型
根据步骤(8)中的损失函数产生的损失值利用反向传播算法对步骤(8)中的深度神经网络模型参数进行梯度回传,不断优化,直至整个网络模型收敛;
步骤(11):网络预测值计算
3.根据权利要求书2所述的基于知识引导深度注意力网络的的场景文字视觉问答方法,其特征在于步骤(3)所述的构建图像的物体综合特征,具体如下:
对于每一个候选框m,其空间位置坐标为(xmin,ymin,xmax,ymax),(xmin,ymin)表示候选框的左上角点的位置坐标,(xmax,ymax)表示候选框的右下角点的位置坐标,其空间特征表示为具体公式如下:
其中,W、H分别是图像的宽、高;
其中W1、W2是可学习的映射矩阵,LN是层标准化;
4.根据权利要求书3所述的基于知识引导深度注意力网络的的场景文字视觉问答方法,其特征在于步骤(4)所述的构建图像的文本综合特征,具体如下:
对于每一个候选框n,其空间位置坐标为(xmin,ymin,xmax,ymax,),(xmin,ymin)表示候选框的左上角点的位置坐标,(xmax,ymax)表示候选框的右下角点的位置坐标,其空间特征表示为具体公式如下:
其中W3、W4、W5是可学习的映射矩阵,LN是层标准化;
8.根据权利要求书7所述的基于知识引导深度注意力网络的的场景文字视觉问答方法,其特征在于步骤(8)所述的构建深度神经网络,具体如下:
8-1.融合问题的语言特征、图像的物体综合特征、图像的文本综合特征、前预测词的特征;
I=[Q,Xobj,Xocr,Xdec] (公式13)
8-2.构建知识增强自注意力网络KSA
B'=LN(I+KMSA(I,I,I,Fsp)) (公式14)
B=LN(B'+FFN(B')) (公式15)
Q=Linear[I] (公式16)
K=Linear[I] (公式17)
V=Linear[I] (公式18)
其中,MLP是两层感知机,具体公式如下:
其中,FFN结构的输入是B',具体公式如下:
FFN(B')=FCd(Drop(ReLU(FC4d(B')))) (公式21)
8-3.深度堆叠KSA网络
以融合后的特征I和相对空间关系特征Fsp作为输入,深度堆叠KSA网络[KSA(1),KSA(2),…,KSA(E)];将第e层KSA(e)的输出特征和相对空间关系特征Fsp作为第e+1层KSA(e+1)的输入,迭代往复,公式如下:
I(e+1)=KSA(e+1)(I(e),Fsp) (公式22)
其中,I(0)=I,对不同层的KSA,关系特征Fsp保持不变;
8-4.多头注意力的特征融合
将步骤8-3的输出I(e+1)作为输入,经过全连接层,输出单头zu,公式如下:
zu=Linear(I(e+1))Linear(I(e+1))T (公式23)
多头注意力Z由U个相互独立的单头组成,进一步提高注意特征的表征能力,具体公式如下:
Z=[z1,z2,…,zu,…,zU] (公式24)
8-5迭代解码计算概率
10.根据权利要求书9所述的基于知识引导深度注意力网络的的场景文字视觉问答方法,其特征在于步骤(10)所述的训练模型,具体如下:
根据步骤(9)中的损失函数产生的损失值利用反向传播算法对步骤(8)中神经网络的模型参数进行梯度回传,不断优化,直至整个网络模型收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110896688.6A CN113792177B (zh) | 2021-08-05 | 2021-08-05 | 基于知识引导深度注意力网络的场景文字视觉问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110896688.6A CN113792177B (zh) | 2021-08-05 | 2021-08-05 | 基于知识引导深度注意力网络的场景文字视觉问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113792177A true CN113792177A (zh) | 2021-12-14 |
CN113792177B CN113792177B (zh) | 2023-02-03 |
Family
ID=78877160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110896688.6A Active CN113792177B (zh) | 2021-08-05 | 2021-08-05 | 基于知识引导深度注意力网络的场景文字视觉问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113792177B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114707017A (zh) * | 2022-04-20 | 2022-07-05 | 北京百度网讯科技有限公司 | 视觉问答方法、装置、电子设备和存储介质 |
CN115100664A (zh) * | 2022-06-20 | 2022-09-23 | 济南大学 | 基于相关性信息扩展的多模态虚假新闻识别方法及系统 |
CN116168796A (zh) * | 2023-03-03 | 2023-05-26 | 杭州电子科技大学 | 基于视觉问答的医疗影像报告结构化生成方法 |
CN116385330A (zh) * | 2023-06-06 | 2023-07-04 | 之江实验室 | 一种利用图知识引导的多模态医学影像生成方法和装置 |
CN117094304A (zh) * | 2023-10-18 | 2023-11-21 | 湖北华中电力科技开发有限责任公司 | 一种应用于电网领域技术标准制修订的提示方法和系统 |
CN117808008A (zh) * | 2024-02-29 | 2024-04-02 | 厦门众联世纪股份有限公司 | 一种ltv预估巡检方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008293A (zh) * | 2018-10-06 | 2020-04-14 | 上海交通大学 | 基于结构化语义表示的视觉问答方法 |
CN112464016A (zh) * | 2020-12-17 | 2021-03-09 | 杭州电子科技大学 | 一种基于深度关系自注意力网络的场景图生成方法 |
CN113094484A (zh) * | 2021-04-07 | 2021-07-09 | 西北工业大学 | 基于异质图神经网络的文本视觉问答实现方法 |
-
2021
- 2021-08-05 CN CN202110896688.6A patent/CN113792177B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008293A (zh) * | 2018-10-06 | 2020-04-14 | 上海交通大学 | 基于结构化语义表示的视觉问答方法 |
CN112464016A (zh) * | 2020-12-17 | 2021-03-09 | 杭州电子科技大学 | 一种基于深度关系自注意力网络的场景图生成方法 |
CN113094484A (zh) * | 2021-04-07 | 2021-07-09 | 西北工业大学 | 基于异质图神经网络的文本视觉问答实现方法 |
Non-Patent Citations (2)
Title |
---|
AJEET KUMAR SINGH等: "From Strings to Things Knowledge-Enabled VQA Model That Can Read and Reason", 《IEEE》 * |
丁月明: "基于深度学习的视觉问答方法与系统研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114707017A (zh) * | 2022-04-20 | 2022-07-05 | 北京百度网讯科技有限公司 | 视觉问答方法、装置、电子设备和存储介质 |
CN115100664A (zh) * | 2022-06-20 | 2022-09-23 | 济南大学 | 基于相关性信息扩展的多模态虚假新闻识别方法及系统 |
CN115100664B (zh) * | 2022-06-20 | 2024-04-09 | 济南大学 | 基于相关性信息扩展的多模态虚假新闻识别方法及系统 |
CN116168796A (zh) * | 2023-03-03 | 2023-05-26 | 杭州电子科技大学 | 基于视觉问答的医疗影像报告结构化生成方法 |
CN116168796B (zh) * | 2023-03-03 | 2023-11-10 | 杭州电子科技大学 | 基于视觉问答的医疗影像报告结构化生成方法 |
CN116385330A (zh) * | 2023-06-06 | 2023-07-04 | 之江实验室 | 一种利用图知识引导的多模态医学影像生成方法和装置 |
CN116385330B (zh) * | 2023-06-06 | 2023-09-15 | 之江实验室 | 一种利用图知识引导的多模态医学影像生成方法和装置 |
CN117094304A (zh) * | 2023-10-18 | 2023-11-21 | 湖北华中电力科技开发有限责任公司 | 一种应用于电网领域技术标准制修订的提示方法和系统 |
CN117094304B (zh) * | 2023-10-18 | 2024-01-23 | 湖北华中电力科技开发有限责任公司 | 一种应用于电网领域技术标准制修订的提示方法和系统 |
CN117808008A (zh) * | 2024-02-29 | 2024-04-02 | 厦门众联世纪股份有限公司 | 一种ltv预估巡检方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113792177B (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111554268B (zh) | 基于语言模型的语言识别方法、文本分类方法和装置 | |
CN113792177B (zh) | 基于知识引导深度注意力网络的场景文字视觉问答方法 | |
CN110737801B (zh) | 内容分类方法、装置、计算机设备和存储介质 | |
CN110377710A (zh) | 一种基于多模态融合的视觉问答融合增强方法 | |
CN112860888B (zh) | 一种基于注意力机制的双模态情感分析方法 | |
CN112949622B (zh) | 融合文本与图像的双模态性格分类方法及装置 | |
CN113762322A (zh) | 基于多模态表示的视频分类方法、装置和设备及存储介质 | |
CN113761153B (zh) | 基于图片的问答处理方法、装置、可读介质及电子设备 | |
CN113297370B (zh) | 基于多交互注意力的端到端多模态问答方法及系统 | |
CN109711356B (zh) | 一种表情识别方法和系统 | |
CN115964467A (zh) | 一种融合视觉情境的富语义对话生成方法 | |
CN115329779A (zh) | 一种多人对话情感识别方法 | |
Jha et al. | A novel approach on visual question answering by parameter prediction using faster region based convolutional neural network | |
CN111597341A (zh) | 一种文档级关系抽取方法、装置、设备及存储介质 | |
CN114282013A (zh) | 一种数据处理方法、装置及存储介质 | |
Khurram et al. | Dense-captionnet: a sentence generation architecture for fine-grained description of image semantics | |
CN114663677A (zh) | 一种基于跨模态预训练特征增强的视觉问答方法 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN114724224A (zh) | 一种用于医疗护理机器人的多模态情感识别方法 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
CN116385937A (zh) | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
Ishmam et al. | From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities | |
CN111522923B (zh) | 一种多轮任务式对话状态追踪方法 | |
CN115759262A (zh) | 基于知识感知注意力网络的视觉常识推理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |