CN113792177A

CN113792177A - 基于知识引导深度注意力网络的场景文字视觉问答方法

Info

Publication number: CN113792177A
Application number: CN202110896688.6A
Authority: CN
Inventors: 余宙; 朱俊杰; 俞俊
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-12-14
Anticipated expiration: 2041-08-05
Also published as: CN113792177B

Abstract

本发明公开了一种基于知识引导深度注意力网络的的场景文字视觉问答方法。本发明步骤：1、数据预处理及数据集的划分，2、构建问题的语言特征，3、构建图像的物体综合特征，4、获取图像的文本综合特征，5、构建前预测词的特征，6、构建相对空间关系特征，7、构建相对语义关系特征，8、构建深度神经网络，9、损失函数，10、训练模型，11、网络预测值计算。本发明通过建模物体对象和文本对象间的相对空间关系特征、前预测词和文本对象的相对语义关系特征，得到先验知识关系，并深度堆叠知识增强自注意力网络层数来获得更加丰富的信息，相比于先前基于卷积神经网络和构建对象间浅层关系的方法性能有了很大提升。

Description

基于知识引导深度注意力网络的场景文字视觉问答方法

技术领域

本发明提出一种基于知识引导深度注意力网络的场景文字视觉问答方法(Scene-textVisual QuestionAnswering)。核心方法为提出知识引导深度注意力网络，通过建模物体对象和文本对象间的相对空间关系特征、前预测词和文本对象的相对语义关系特征，得到先验知识关系，以此获得更加丰富的信息，并在场景文本视觉问答这一深度学习任务中能够更准确的生成答案，验证了该模型的优越性。本方法首次提出建模物体对象和文本对象间的相对空间关系特征，由此获得对象间更丰富的空间关系。同时，本方法也首次提出建模前预测词和文本对象的相对语义关系特征，能够进一步获得前预测词和文本对象更深层次的语义关系。在场景文本视觉问答实验中，将多模态特征和上述的先验知识关系输入到模型中，在推理模块(Reasoning Module)中完成了多模态特征的深层交互，在生成模块(Generation Module)中完成了前预测词和文本对象的深层理解，进而得到了更好的实验结果。

背景技术

视觉问答(Visual QuestionAnswering)是一种涉及计算机视觉和自然语言处理的学习任务，它以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入，经过视觉问答系统，输出一条自然语言作为答案。因此，需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。

场景文本视觉问答是视觉问答的一个子任务。与视觉问答任务一样，场景文本视觉问答任务同样也有一张图片和一个对应的问题作为输入，但它在视觉问答的基础上新增了光学字符识别(Optical CharacterRecognition)部分，用于获取图片中的文本信息，场景文本视觉问答也需要同视觉问答一样，融合不同模态的数据。相比之下，场景文本视觉问答更侧重于图片中的文本信息，它的问题主要围绕图片中的文本信息，它的回答也需要用到图片中的文本信息。一个场景文本视觉问答算法需要学习下列条件：①意识到这是个关于文字的问题；②检测出包含文字的区域；③把包含文字的区域转化为文本形式；④将文本和视觉内容结合起来，确立它们之间的关系；⑤确定是否将检测到的文本直接确定为答案还是要对文本进行处理。

场景文本视觉问答的正确答案来自不同的回答者，具有较高的自由度。同时，自然场景下的图片载体主题多样，内容复杂富于变化，图像中物体和文本可能具有较高的差异性，而这使得场景文本视觉问答面临巨大的挑战。

在场景文本视觉问答任务中，主要涉及到物体检测(Object Detection)、光学字符识别、词嵌入(Word Embedding)、多模态融合等技术。其中多模态融合是近年来科研机构、工业界研究的重点，有效的融合能够获取让模型获取足够丰富且有效的信息，利于模型预测出更准确的答案。在多模态融合中，主要的模型分为两类，一类是基于图神经网络的模型，另一类是基于注意力机制的模型。由于场景文本视觉问答需要建立在对多模态信息的充分利用的基础上，因此有效挖掘多模态之间的关系显得尤为重要，通过建模物体对象和文本对象间的相对空间关系特征、前预测词和文本对象的相对语义关系特征，得到先验知识关系，有助于模型获得更深层的理解，进而得到了更好的实验结果。

在实际应用方面，场景文本视觉问答任务的未来应用潜力巨大，比如面向视觉障碍用户。

我国的残障人群数量接近9000万，其中视障人群数量达到1800万，相当于在我国每90人中就有一名视障人士。我国是全世界视障人士数量最多的国家，也是盲人群体最大的国家。而视觉系统是人类感知环境信息的主要途径，80％以上的信息都是通过眼睛来获取。在当下的中国，视障人士占据残疾人士较大比例的情况下，他们在日常生活中的视觉信息感知与交互需求难以得到充分满足正成为一个亟待解决的问题。未来可以与语音技术相结合，视障用户可以通过上传一张图像，并向系统提出问题，算法可以根据用户的输入信息，进行理解，最后通过语音播报的形式向用户解答，在一定程度上提高视觉障碍人群的生活质量，具有较大的市场应用价值和社会效益。

综上所述，场景文本视觉问答是一个值得深入研究的课题，本专利拟从该任务中几个关键点切入展开探讨，解决目前方法存在的难点和重点，形成一套完整的场景文本视觉问答系统。

发明内容

本发明提供了一种基于知识引导深度注意力网络的的场景文字视觉问答方法。本发明主要包含两点：

1、通过建模物体对象和文本对象间的相对空间关系特征，输入到关系自注意力网络，以充分发掘对象之间的相对空间关系，获取更丰富的信息。

通过建模前预测词和文本对象的相对语义关系特征，充分理解答案与文本对象之间的语义关系，结合动态指针网络的输出结果，获取更深层次的表达。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤(1)、数据集的划分

对数据集进行划分；

步骤(2)：构建问题的语言特征

一个问题由K个单词组成，针对每个单词k，使用预先训练好的词向量模型将其转换为包含语义信息的词向量

其中d_ques指的是问题单词的词向量维数；将一个问题中K个单词的词向量拼接成一个完整问题的语言特征，再经过线性变换映射至d维空间，得到特征

步骤(3)：构建图像的物体综合特征

对于一张输入图像，使用训练好的目标检测网络计算出图像中包含物体的M个候选框；针对每一个候选框m，获得其空间特征

将该候选框在图像中对应的区域输入到目标检测网络中，并提取网络的某一层的输出作为该候选框的视觉特征

使用可学习的线性变换将视觉特征和空间特征投影到d维空间，得到该候选框m的综合特征

将一张图像中所有物体的综合特征拼接成总的物体综合特征为

步骤(4)：获取图像的文本综合特征

对于一张输入图像，使用离线的OCR系统获取图像中包含文本的N个文本信息，包括候选框信息和框内字符信息；针对每一个候选框信息n，获得其空间特征

将该候选框在图像中对应的区域输入到训练好的目标检测网络中并提取网络的某一层的输出作为该候选框的视觉特征

针对每一个框内字符信息n使用FastText算法获得一个文本字符特征

使用PHOC算法获得另一个文本字符特征

利用线性变换将获得的空间特征

视觉特征

文本字符特征

和

投影到d维空间，得到该文本信息n的文本综合特征

将一张图像中所有文本综合特征拼接成总的文本综合特征为

步骤(5)：构建前预测词的特征

模型通过从OCR文本或固定词汇表中选择单词来迭代解码生成答案，在迭代自回归的解码过程中，将第t次解码时预测单词的特征、来源、位置，构建得到前一个预测词的综合特征

并将

作为第t+1次解码的输入；一个完整的答案由T次解码预测的单词组成，将所有前预测词的特征拼接成完整的前预测词特征

步骤(6)：构建相对空间关系特征

针对图像中的任意两个对象i,j来生成相对空间关系特征

将一张图像中所有的对象，共计M+N个，都构建成总相对空间关系特征

所述的对象包括物体和文本；

步骤(7)：构建相对语义关系特征

在迭代自回归的解码过程中，第t次解码时，将第t-1次解码得到的预测单词c和图像中的字符信息n，利用余弦相似度计算得到单词c和字符信息n之间的相对语义关系特征

一个完整的答案由T次解码预测的单词组成，将答案中所有预测单词和图像中所有文本对象的相对语义关系特征拼接成总相对语义关系特征

步骤(8)：构建深度神经网络

将问题的语言特征Q、图像的物体综合特征X^obj、图像的文本综合特征X^ocr、前预测词的特征X^dec拼接成特征

将特征I和相对空间关系特征F^sp输入到推理模块中，产生融合各模态信息的向量

第t次解码时，将输出Z_t对应的文本特征

和前预测词特征

输入到动态指针网络中，动态指针网络的输出结合相对语义关系特征F^se，预测得到文本中单词的答案概率

和固定词汇表中单词的答案概率

将

拼接成

从中选择概率最大的单词作为第t次解码的预测答案，并迭代预测下一个单词，直至结束；

步骤(9)：损失函数

将步骤(8)中输出的预测答案同对应的正确答案一起输入到损失函数中，计算得到损失值；

步骤(10)：训练模型

根据步骤(8)中的损失函数产生的损失值利用反向传播算法对步骤(8)中的深度神经网络模型参数进行梯度回传，不断优化，直至整个网络模型收敛；

步骤(11)：网络预测值计算

根据步骤(8)中输出的

从中选择概率最大的单词作为第t次解码的预测答案，并迭代预测下一个单词，直至结束，生成最终的答案。

进一步的，步骤(2)所述的构建问题的语言特征，具体如下：

使用预先训练好的词向量模型将问题中的每个单词k转换为包含语义信息的词向量

其中d_ques指的是问题单词的词向量维数；.将K个单词组成的问题拼接成一个完整问题的语言特征，再经过线性变换映射至d维空间，

具体公式如下：

其中，Linear是线性变换。

进一步的，步骤(3)所述的构建图像的物体综合特征具体如下：

对于每一个候选框m，其空间位置坐标为(x_min,y_min,x_max,y_max)，(x_min,y_min)表示候选框的左上角点的位置坐标，(x_max,y_max)表示候选框的右下角点的位置坐标，其空间特征表示为

具体公式如下：

其中，W、H分别是图像的宽、高；

对于每一个候选框m，视觉特征为

使用可学习的线性变换将视觉特征、空间特征投影到d维空间，得到该候选框i的综合特征

具体公式如下：

其中W₁、W₂是可学习的映射矩阵，LN是层标准化；

每张图像选取包含物体的M个候选框，将每张图像中所有的候选框拼接成总的物体综合特征

具体公式如下：

进一步的，步骤(4)所述的构建图像的文本综合特征具体如下：

对于每一个候选框n，其空间位置坐标为(x_min,y_min,x_max,y_max,)，(x_min,y_min)表示候选框的左上角点的位置坐标，(x_max,y_max)表示候选框的右下角点的位置坐标，其空间特征表示为

具体公式如下：

对于每一个候选框n，视觉特征为

一个字符特征为

另一个字符特征为

利用线性变换将空间特征、视觉特征、字符特征投影到d维空间，得到该候选框n的文本综合特征

具体公式如下：

其中W₃、W₄、W₅是可学习的映射矩阵，LN是层标准化；

将每张图像中所有文本综合特征

拼接成总的文本综合特征为

具体公式如下：

进一步的，步骤(5)所述的构建前预测词的特征，具体如下：

在迭代自回归的解码过程中，将第t次解码时预测单词的特征、来源、位置，构建得到前一个预测词的综合特征

并将

作为第t+1次解码的输入，其中第1次解码的输入

是一个特殊字符’<s>’；一个完整的答案由T次解码预测的单词组成，将所有前预测词的特征拼接成完整的前预测词特征

具体公式如下：

进一步的，步骤(6)所述的构建相对空间关系特征，具体如下：

通过任意两个候选框之间的相对位置进行建模来生成相对空间关系特征；将第i个对象的空间位置定义为(x_i,y_i,w_i,h_i)，该四维坐标分别表示对象的中心点横纵坐标、宽、高；第i个对象和第j个对象之间的相对空间关系特征表示为

具体公式如下：

将每张图像中的所有对象关系对特征拼接成总相对空间关系特征为

具体公式如下：

其中，P＝M+N。

进一步的，步骤(7)所述的构建相对语义关系特征，具体如下：

使用预先训练好的词向量模型分别将先前预测的单词c、图像中文本的单词n转换为包含语义信息的词向量

利用余弦相似度计算先前预测的单词c与图像中文本的单词n之间的相对语义关系特征

其中第1次预测时，先前预测的单词是一个特殊字符’<s>’，具体公式如下：

一个完整的答案由T个单词组成，图像中有N个文本单词，将答案中所有预测单词和图像中所有文本单词的相对语义关系特征拼接成成总相对语义关系特征

具体公式如下：

进一步的，步骤(8)所述的构建深度神经网络，具体如下：

8-1.融合问题的语言特征、图像的物体综合特征、图像的文本综合特征、前预测词的特征；

问题的语言特征Q、图像的物体综合特征X^obj、图像的文本综合特征X^ocr、前预测词的特征X^dec是来自各模态的特征，经过线性映射，可以映射到相同纬度d，并且拼接上述四种特征为I∈

具体公式如下：

I＝[Q,X^obj,X^ocr,X^dec] (公式13)

8-2.构建知识增强自注意力网络KSA

将特征I和相对空间关系特征F^sp作为KSA的输入，输出

具体公式如下：

B'＝LN(I+KMSA(I,I,I,F^sp)) (公式14)

B＝LN(B'+FFN(B')) (公式15)

其中，KMSA是知识增强多头自注意力网络，是KSA网络的一部分，它的输入是I和F^sp，输出是富含多模态信息的特征向量

具体公式如下：

Q＝Linear[I] (公式16)

K＝Linear[I] (公式17)

V＝Linear[I] (公式18)

其中Q、K、

分别由I经过全连接层映射得到；

以避免下溢问题；

其中，MLP是两层感知机，具体公式如下：

其中，ReLU是激活函数，FC₁、

是全连接层；

其中，FFN结构的输入是B'，具体公式如下：

FFN(B')＝FC_d(Drop(ReLU(FC_4d(B')))) (公式21)

8-3.深度堆叠KSA网络

以融合后的特征I和相对空间关系特征F^sp作为输入，深度堆叠KSA网络[KSA⁽¹⁾,KSA⁽²⁾,…,KSA^(E)]；将第e层KSA^(e)的输出特征和相对空间关系特征F^sp作为第e+1层KSA^(e+1)的输入，迭代往复，公式如下：

I^(e+1)＝KSA^(e+1)(I^(e),F^sp) (公式22)其中，I⁽⁰⁾＝I，对不同层的KSA，关系特征F^sp保持不变；

8-4.多头注意力的特征融合

将步骤8-3的输出I^(e+1)作为输入，经过全连接层，输出单头z_u，公式如下：

z_u＝Linear(I^(e+1))Linear(I^(e+1))^T (公式23)

多头注意力Z由U个相互独立的单头组成，进一步提高注意特征的表征能力，具体公式如下：

Z＝[z₁,z₂,…,z_u,…,z_U] (公式24)

8-5迭代解码计算概率

第t次解码时，将步骤8-4的第t次输出Z_t对应的文本特征

和前预测词特征

输入到动态指针网络中，预测得到原始的OCR文本单词的答案概率

具体公式如下：

其中，W^ocr、

b^ocr、

将

与相对语义关系特征

相结合，形成最终的OCR文本单词的答案概率

具体公式如下：

通过

计算得到固定词汇表中单词的答案概率

具体公式如下：

其中，

将

拼接成

具体公式如下：

从

中选择概率最大的单词作为第i次解码的答案，并迭代预测下一个单词，直至结束。

进一步的，步骤(9)所述的损失函数，具体如下：

计算预测答案

与真实标签

之间的差距，这里使用二元交叉熵损失(binary cross-entropy loss)，具体公式如下：

进一步的，步骤(10)所述的训练模型，具体如下：

根据步骤(9)中的损失函数产生的损失值利用反向传播算法对步骤(8)中神经网络的模型参数进行梯度回传，不断优化，直至整个网络模型收敛。

本发明有益效果如下：

本发明提出一种基于知识引导深度注意力网络的的场景文字视觉问答方法，通过建模物体对象和文本对象间的相对空间关系特征、前预测词和文本对象的相对语义关系特征，得到先验知识关系，并深度堆叠知识增强自注意力网络层数来获得更加丰富的信息，相比于先前基于卷积神经网络和构建对象间浅层关系的方法性能有了很大提升。

附图说明

图1：知识增强自注意力模块

图2：知识引导深度注意力网络架构

具体实施方式

下面对本发明的详细参数做进一步具体说明。

如图1和2所示，本发明提供一种基于知识引导深度注意力网络的的场景文字视觉问答方法。

步骤(1)具体实现如下：

划分数据集：训练集由21953张图片，34602个问题组成；

验证集由3166张图片，5000个问题组成；测试集由3289张图片，5734个问题组成。

步骤(2)所述的构建问题的语言特征，具体如下：

步骤(3)所述的构建图像的物体综合特征，具体如下：

对于一张输入图像，使用训练好的目标检测网络计算出图像中包含物体的M个候选框；针对每一个候选框d，获得其空间特征

步骤(4)所述的构建图像的文本综合特征，具体如下：

使用PHOC算法获得另一个文本字符特征

利用线性变换将获得的空间特征

视觉特征

文本字符特征

和

投影到d维空间，得到该文本信息n的文本综合特征

将一张图像中所有文本综合特征拼接成总的文本综合特征为

步骤(5)所述的构建前预测词的特征，具体如下：

并将

其中第1次解码的输入

是一个特殊字符’<s>’。

步骤(6)所述的构建相对空间关系特征，具体如下：

针对图像中的任意两个对象i,j来生成相对空间关系特征

所述的对象包括物体和文本；

步骤(7)所述的构建相对语义关系特征，具体如下：

其中第1次预测时，先前预测的单词是一个特殊字符’<s>’；

步骤(8)所述的构建深度神经网络，具体如下：

问题的语言特征Q、图像的物体综合特征X^obj、图像的文本综合特征X^ocr、前预测词的特征X^dec是来自各模态的特征，经过线性映射，可以映射到相同纬度d，并且拼接上述四种特征为

8-2.构建知识增强自注意力网络KSA

将特征I和相对空间关系特征F^sp作为KSA的输入，输出

其中Q、K、

分别由I经过全连接层映射得到；

以避免下溢问题；

8-3.深度堆叠KSA网络

以融合后的特征I和相对空间关系特征F^sp作为输入，深度堆叠KSA网络[KSA⁽¹⁾,KSA⁽²⁾,…,KSA^(E)]；将第e层KSA^(e)的输出特征和相对空间关系特征F^sp作为第e+1层KSA^(e+1)的输入，迭代往复。其中，I⁽⁰⁾＝I，对不同层的KSA，关系特征F^sp保持不变；

8-4.多头注意力的特征融合

将步骤8-3的输出I^(e+1)作为输入，经过全连接层，输出单头z_u；多头注意力Z由U个相互独立的单头组成，进一步提高注意特征的表征能力。

8-5迭代解码计算概率

第t次解码时，将步骤8-4的第t次输出Z_t对应的文本特征

和前预测词特征

将

与相对语义关系特征

相结合，形成最终的OCR文本单词的答案概率

通过

计算得到固定词汇表中单词的答案概率

将

拼接成

从

Claims

1.基于知识引导深度注意力网络的的场景文字视觉问答方法，其特征在于包括如下步骤：

步骤(1)、数据集的划分

对数据集进行划分；

步骤(2)：构建问题的语言特征

步骤(3)：构建图像的物体综合特征

步骤(4)：获取图像的文本综合特征

使用PHOC算法获得另一个文本字符特征

利用线性变换将获得的空间特征

视觉特征

文本字符特征

和

投影到d维空间，得到该文本信息n的文本综合特征

将一张图像中所有文本综合特征拼接成总的文本综合特征为

步骤(5)：构建前预测词的特征

并将

步骤(6)：构建相对空间关系特征

针对图像中的任意两个对象i,j来生成相对空间关系特征

所述的对象包括物体和文本；

步骤(7)：构建相对语义关系特征

步骤(8)：构建深度神经网络

第t次解码时，将输出Z_t对应的文本特征

和前预测词特征

和固定词汇表中单词的答案概率

将

拼接成

步骤(9)：损失函数

步骤(10)：训练模型

步骤(11)：网络预测值计算

根据步骤(8)中输出的

2.根据权利要求书1所述的基于知识引导深度注意力网络的的场景文字视觉问答方法，其特征在于步骤(2)所述的构建问题的语言特征，具体如下：

具体公式如下：

其中，Linear是线性变换。

3.根据权利要求书2所述的基于知识引导深度注意力网络的的场景文字视觉问答方法，其特征在于步骤(3)所述的构建图像的物体综合特征，具体如下：

具体公式如下：

其中，W、H分别是图像的宽、高；

对于每一个候选框m，视觉特征为

具体公式如下：

其中W₁、W₂是可学习的映射矩阵，LN是层标准化；

具体公式如下：

4.根据权利要求书3所述的基于知识引导深度注意力网络的的场景文字视觉问答方法，其特征在于步骤(4)所述的构建图像的文本综合特征，具体如下：

具体公式如下：

对于每一个候选框n，视觉特征为

一个字符特征为

另一个字符特征为

具体公式如下：

其中W₃、W₄、W₅是可学习的映射矩阵，LN是层标准化；

将每张图像中所有文本综合特征

拼接成总的文本综合特征为

具体公式如下：

5.根据权利要求书4所述的基于知识引导深度注意力网络的的场景文字视觉问答方法，其特征在于步骤(5)所述的构建前预测词的特征，具体如下：

并将

作为第t+1次解码的输入，其中第1次解码的输入

具体公式如下：

6.根据权利要求书5所述的基于知识引导深度注意力网络的的场景文字视觉问答方法，其特征在于步骤(6)所述的构建相对空间关系特征，具体如下：

具体公式如下：

具体公式如下：

其中，P＝M+N。

7.根据权利要求书6所述的基于知识引导深度注意力网络的的场景文字视觉问答方法，其特征在于步骤(7)所述的构建相对语义关系特征，具体如下：

具体公式如下：

8.根据权利要求书7所述的基于知识引导深度注意力网络的的场景文字视觉问答方法，其特征在于步骤(8)所述的构建深度神经网络，具体如下：

具体公式如下：

I＝[Q,X^obj,X^ocr,X^dec] (公式13)

8-2.构建知识增强自注意力网络KSA

将特征I和相对空间关系特征F^sp作为KSA的输入，输出

具体公式如下：

B'＝LN(I+KMSA(I,I,I,F^sp)) (公式14)

B＝LN(B'+FFN(B')) (公式15)

具体公式如下：

Q＝Linear[I] (公式16)

K＝Linear[I] (公式17)

V＝Linear[I] (公式18)

其中Q、K、

分别由I经过全连接层映射得到；

∈＝1e^-6，以避免下溢问题；

其中，MLP是两层感知机，具体公式如下：

其中，ReLU是激活函数，FC₁、

是全连接层；

其中，FFN结构的输入是B'，具体公式如下：

FFN(B')＝FC_d(Drop(ReLU(FC_4d(B')))) (公式21)

8-3.深度堆叠KSA网络

I^(e+1)＝KSA^(e+1)(I^(e),F^sp) (公式22)

其中，I⁽⁰⁾＝I，对不同层的KSA，关系特征F^sp保持不变；

8-4.多头注意力的特征融合

z_u＝Linear(I^(e+1))Linear(I^(e+1))^T (公式23)

Z＝[z₁,z₂,…,z_u,…,z_U] (公式24)

8-5迭代解码计算概率

第t次解码时，将步骤8-4的第t次输出Z_t对应的文本特征

和前预测词特征

具体公式如下：

其中，W^ocr、

b^ocr、

将

与相对语义关系特征

相结合，形成最终的OCR文本单词的答案概率

具体公式如下：

通过

计算得到固定词汇表中单词的答案概率

具体公式如下：

其中，

将

拼接成

具体公式如下：

从

9.根据权利要求书8所述的基于知识引导深度注意力网络的的场景文字视觉问答方法，其特征在于步骤(9)所述的损失函数，具体如下：

计算预测答案

与真实标签

之间的差距，这里使用二元交叉熵损失(binary cross-entropyloss)，具体公式如下：

10.根据权利要求书9所述的基于知识引导深度注意力网络的的场景文字视觉问答方法，其特征在于步骤(10)所述的训练模型，具体如下：