CN117033602A

CN117033602A - 一种多模态的用户心智感知问答模型的构建方法

Info

Publication number: CN117033602A
Application number: CN202311071584.7A
Authority: CN
Inventors: 乔媛媛; 吕菲; 林文辉; 宋颖; 杨洁
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-08-24
Filing date: 2023-08-24
Publication date: 2023-11-10

Abstract

本发明公开了一种多模态的用户心智感知问答模型的构建方法，涉及多模态智能问答技术领域。包括构建信息融合模块、构建基于强化学习的策略网络、构建基于问题相似度的用户反馈模块。本发明在模型中引入场景图形式的视觉信息，能够有效融合多轮对话历史信息及图像场景图信息，使得模型能够获取到图像语义级别的信息，场景图的结构化数据形式也增强了模型推理的可解释性；并且提出的基于问题相似度的用户反馈获取方法为模型引入了用户反馈信号，相较于传统问答模型能够更智能地推测出用户对于答案的反馈，利用该反馈可以引导模型后续的策略网络训练，使模型的推理向更靠近用户心智的方向进行，为用户提供更好的人机服务体验。

Description

一种多模态的用户心智感知问答模型的构建方法

技术领域

本发明涉及多模态智能问答技术领域，尤其涉及一种多模态的用户心智感知问答模型的构建方法。

背景技术

大数据时代，数据呈现海量多源、模态多样、碎片化明显的特征。在财税数据领域，传统的财税服务积累了庞大的数据资产未得到充分的应用，提供的服务形式上局限于简单的查询，范围上局限于固定的数据库，整体功能单一，灵活程度不高。用户之间往往存在个体差异，对系统的服务需求有所不同，而传统的服务系统面向不同群体的用户提供的是较为统一的客观结果，无法感知用户的主观心智差异，也就难以探知用户的真实需求。因此，构建一个智能化的用户心智感知模型来支撑未来的智慧财税服务系统是非常有必要的。

心智模型的概念来源于交互设计领域，心智模型与现实世界的交互是通过反馈来完成的，反馈中隐含的是用户的特点，可以理解为用户对当前系统的看法，因此心智模型应该随着用户的变化而变化。引入用户反馈来构建心智模型，目的是使模型能够动态调整回答策略，给出更符合用户个人心智的答案。

当前的财税平台为用户提供的交互以问答查询为主，这也是因为随着自然语言处理技术的发展，智能问答尤其是对话式问答已经成为一种流行的人机交互形式。对话式问答也叫多轮问答，要求机器能根据上下文内容，和用户围绕某一主题进行连续的对话。目前问答系统的发展研究现状可以从两个角度总结。

从模型输入角度来看，这种智能问答系统可以分为单模态信息输入系统和多模态信息输入系统，单模态信息输入问答系统以文本输入为主，机器只通过输入的文本内容来理解用户意图，多模态信息输入问答系统能够接收图像、语音、文本、知识图、表格等多种模态的信息作为输入。现有的多模态问答系统研究热点集中在以“图像+文本”为输入的系统类别上，系统需要从两种模态的数据中提取特征。早期的多模态任务对这些来自不同模态数据的特征采取拼接操作，然后传入分类器进行训练，这种方式构造出来的多模态模型严重依赖对特征的多重操作，流程繁琐复杂，多模态特征难以对齐，容易忽略局部特征的关键信息，整体效果不佳。近年来，Transformer在自然语言处理领域大放异彩，越来越多的研究尝试将Transformer结构应用到视觉任务中，由此也为Transformer在多模态任务领域开创了一条道路。由于Transformer的自注意结构能够适应不同类型的数据，使得各种模态的数据在模式对齐上的表现更优秀，从根本上缩小了模态间的异质性差异，同时也尽量保留了模态本身的语义完整性。因此，将Transformer架构应用在多模态问答系统中是一个融合多模态数据特征的有效方法，其注意力机制也能帮助模型捕捉到输入信息中更重要的语义特征。

从模型知识源的角度来看，智能问答系统又可以分为基于机器阅读理解和基于知识的问答系统。基于机器阅读理解的问答系统利用非结构化的知识源，这一类问答系统一般根据用户给定的信息来回答问题，难点在于机器阅读理解任务，现有方法主要是通过监督学习训练循环神经网络和卷积网络，或者基于大规模的预训练语言模型来赋予机器理解和回答的能力。基于知识的问答系统利用结构化的知识源，例如知识图谱，其本质就是一种结构化表示的知识，这一类问答系统从用户给定的信息中抽取出重要的实体及关系，利用知识图谱的结构关系来理解问题并对问题进行推理。信息产业的高速发展，让海量数据成为亟待挖掘利用的宝贵资产，这些碎片化的海量信息往往蕴含了丰富的关联，而知识推理技术能够利用显性知识挖掘隐性关系，补全知识缺失，因此也逐渐被应用于问答系统中。知识推理算法主要分为基于关联规则的算法、基于图结构的路径排序算法、基于分布式表示学习的算法、基于神经网络的算法以及混合推理方法，基于关联规则的算法通过定义或学习知识中存在的规则进行挖掘和推理，基于图结构的路径排序算法通过发现实体间的链接路径来预测它们可能存在的关系，基于分布式表示学习的方法通过映射函数将三元组表示映射到向量空间中使它们的新表示尽量满足某种关系，基于神经网络的推理算法以关系图卷积网络为代表。目前较为流行的推理算法是混合推理方法，主要是基于强化学习的思想，将事实判断作为头尾实体之间的寻径问题看待，利用基于策略的强化学习方法解决序列决策问题。

因此，提出一种多模态的用户心智感知问答模型的构建方法，来解决现有的如何利用多模态信息构建起智能化的多模态问答系统，如何在强化学习的范式下利用知识推理技术提高问答模型的可解释性，并考虑到用户的反馈，实现对用户心智的感知，从而对用户提供个性化的服务的问题，是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种多模态的用户心智感知问答模型的构建方法，使模型的推理向更靠近用户心智的方向进行，为用户提供更好的人机服务体验。

为了实现上述目的，本发明采用如下技术方案：

一种多模态的用户心智感知问答模型的构建方法，包括以下步骤：

S1.构建信息融合模块：融合场景图、问题文本的多模态信息，生成融合嵌入表示，得到多模态信息融合；

S2.构建基于强化学习的策略网络：采用强化学习范式构建策略网络，建模在场景图中寻找推理路径的过程；

S3.构建基于问题相似度的用户反馈模块：基于词向量余弦相似度判断问题语义重复度，转换为用户反馈信号返回给策略网络指导路径推理。

可选的，S1中构建信息融合模块的具体步骤为：

S11.基于GAT的场景图编码：将场景图数据通过GAT图注意力网络编码，得到节点嵌入表示和关系嵌入表示；

S12.基于注意力机制进行上下文历史信息融合，得到上下文历史信息融合表示；

S13.基于Transformer解码器架构的多模态信息融合：采用Transformer的解码器架构将上下文历史信息融合表示、场景图节点嵌入表示和关系嵌入表示进行融合，得到多模态融合输出。

可选的，S11中基于GAT的场景图编码的具体内容为：

获取场景图节点表示；

计算节点和所有邻居节点之间的相关系数；

对相关系数做归一化得到注意力系数；

根据注意力系数对邻居节点的信息进行加权求和，获得节点的新表示。

可选的，S12中基于注意力机制进行上下文历史信息融合的具体内容为：

采用Glove预训练模型获取文本词向量表示；

采用多头自注意力机制计算当前问题和上下文历史信息注意力系数，得到多头自注意的输出；

对多头自注意的输出进行第一次残差连接及规范化；

经过前馈全连接层后进行第二次残差连接及规范化，得到上下文历史信息融合表示。

可选的，S13中基于Transformer解码器架构的多模态信息融合的具体内容为：

将上下文融合模块的输出输入到第一个多头自注意层中计算Q、K、V矩阵，得到第一个多头自注意的输出表示；

将场景图编码器的输出和上一个多头自注意的输出输入到第二个多头自注意层中计算Q、K、V矩阵；

将第二个多头自注意的输出进行残差连接及归一化，然后通过一层前馈全连接层得到多模态融合输出；

其中，Q为来自上一个多头自注意的输出，K和V为来自场景图编码器的输出。

可选的，S2中构建基于强化学习的策略网络的具体步骤为：

S21.基于马尔可夫决策过程建模寻径过程，将模型在场景图上的推理过程建模为游走智能体完成多跳推理的过程；

S22.基于前馈连接网络结构搭建策略网络，输出智能体的多跳动作概率分布；

S23.基于策略梯度算法最优化策略优化网络参数，使智能体动作轨迹的奖励最大化。

可选的，S22中基于前馈连接网络结构搭建策略网络，输出智能体的多跳动作概率分布的具体内容为：

将信息融合模块的输出和智能体的历史决策的嵌入表示拼接，输入给策略网络；

构建一个两层的前馈网络，通过非线性的ReLU函数激活；

通过softmax操作得到一个动作空间的概率分布；

智能体根据概率分布进行采样得到动作轨迹，直到到达场景图的路径终点。

可选的，S3中构建基于问题相似度的用户反馈模块的具体步骤为：

S31.将当前问题与上一问题通过微调的BERT预训练模型编码为词向量表示；

S32.计算两个词向量表示间的余弦相似度：

其中，q_t-1是上一问题的词向量，q_t是当前问题的词向量，i为向量的第i维；

S33.通过余弦相似度判断前后两个问题之间的语义相似度；

S34.根据语义相似度和设定阈值的关系判断用户对上一问题答案的反馈，当前后问题语义相似度过高时，判定用户提出重复问题，对上一问题答案不满意；

S35.根据用户反馈返回相应奖励给心智感知问答模型。

可选的，还包括对心智感知问答模型进行可行性评估，可行性评估具体内容为通过三种链接预测指标对心智感知问答模型在场景图问答数据集上的表现进行评估。

经由上述的技术方案可知，与现有技术相比，本发明提供了一种多模态的用户心智感知问答模型的构建方法，具有以下有益效果：1)在模型中引入场景图形式的视觉信息，能够有效融合多轮对话历史信息及图像场景图信息，使得模型能够获取到图像语义级别的信息，场景图的结构化数据形式也增强了模型推理的可解释性；2)提出基于问题相似度的用户反馈获取方法为模型引入了用户反馈信号，相较于传统问答模型能够更智能地推测出用户对于答案的反馈，利用该反馈可以引导模型后续的策略网络训练，使模型的推理向更靠近用户心智的方向进行，为用户提供更好的人机服务体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种多模态的用户心智感知问答模型模型架构示意图；

图2为本发明提供的上下文信息融合模块示意图；

图3为本发明提供的信息融合模块示意图；

图4为本发明提供的强化学习策略网络示意图；

图5为本发明提供的一种多模态的用户心智感知问答模型的构建方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种多模态的用户心智感知问答模型模型架构如图1所示，整个心智感知问答模型由信息融合模块、基于策略网络的强化学习推理模块和基于问题相似度的用户反馈模块三个部分组成。

信息融合模块，包含场景图编码器、上下文融合模块以及多模态信息融合模块三个部分。主要基于Transformer的解码器架构完成上下文信息以及多模态信息的融合。模块的输入由场景图、问答文本两部分组成，模块的输出使两种模态信息的融合表示。

基于策略网络的强化学习推理模块，利用多模态信息的融合表示在场景图上进行基于策略的推理，将对话任务建模为场景图上的寻径问题，路径的最终节点作为模型推理答案。

基于问题相似度的用户反馈模块，结合预训练语言模型判断上下文问题的相似度，将相似度作为反馈信号返回至策略网络，调整策略以给出更符合用户心理预期的推理结果。

参见图5所示，本发明公开了一种多模态的用户心智感知问答模型的构建方法，包括以下步骤：

进一步的，S1中构建信息融合模块的具体步骤为：

进一步的，S11中基于GAT的场景图编码的具体内容为：

获取场景图节点表示；

计算节点和所有邻居节点之间的相关系数；

对相关系数做归一化得到注意力系数；

进一步的，S12中基于注意力机制进行上下文历史信息融合的具体内容为：

采用Glove预训练模型获取文本词向量表示；

对多头自注意的输出进行第一次残差连接及规范化；

进一步的，S13中基于Transformer解码器架构的多模态信息融合的具体内容为：

具体的，场景图编码：将场景图数据通过GAT(Graph Attention Network)图注意力网络编码，生成节点嵌入表示和关系嵌入表示。

其中，场景图是一个有向图，每个节点对应的都是一个真实图像中的某个实体或是某个对象的属性，实体本身也具有类别属性。场景图节点之间的边描述了节点对应的实体之间的关联关系，例如空间位置关系，类别归属关系等。在场景图中，任意一个节点的重要特征既来自与邻居节点的结构关系，还来自节点本身的特征或属性，因此需要采用图卷积神经网络对其进行编码。并且，场景图是一个有向图，实体间的关系具有方向性，需要采用具有注意力机制的图注意力网络对节点的邻居节点特征进行聚合，使节点特征之间的相关性更好地被融入到新的嵌入表示中。

设场景图中有若干个节点，某个节点i有N_i个邻居节点，节点i的特征表示为h_i，利用图注意力网络生成场景图节点嵌入表示和关系嵌入表示的步骤如下：

计算注意力系数：首先计算节点之间的相关系数，然后对相关系数做归一化得到注意力系数。

计算相关系数：对于节点i，逐个计算它的邻居节点j∈N_i和它本身间的相关系数：

e_ij＝a([Wh_i][Wh_j])

首先用一个W的线性映射对节点i，j的特征进行增维，然后将增维后的特征做拼接得到更高维度的特征，用单层的前馈神经网络a(·)将这个更高维度的特征映射到一个实数上，得到节点i，j间的相关系数e_ij。

归一化：利用softmax操作对相关系数进行归一化得到注意力系数α_ij：

其中，e_ik为节点i和它的第k个邻居节点的相关系数。

加权求和：根据上面计算的注意力系数对特征进行加权求和并通过一层激活函数得到节点i的新特征h'_i：

其中，σ为激活函数、h_j为节点i之前的特征。

上下文历史信息融合：生成词向量表示，使用多头注意力机制计算注意力系数，架构如图2所示。

生成词向量表示：首先使用Glove(Global Vector)预训练模型对文本信息进行初始化生成当前问题的词向量表示q_t和历史对话的词向量表示其中，Glove基于全局词频统计来完成词表征，预训练好的Glove模型能直接将单词转成词向量，这些向量表示已经包含了单词的语义特性，通过计算单词的向量间距离或余弦相似度，就能得到单词的语义相似度。

使用多头自注意力机制计算注意力系数：将当前问题和历史信息的词向量表示分别送入N个多头注意力模块中计算注意力系数。多头自注意模块主要通过缩放点积注意力实现，以第一个头的自注意实现过程为例做说明：

计算Query、Key、Value矩阵：使用线性变换矩阵将q_t、H_t变换为新的矩阵表示：

计算第一个头的自注意输出：

其中，Att₁为第一个自注意头的自注意输出、Q为输入向量q_t产生的Query矩阵，K为输入向量H_t产生的Key矩阵、d_K为Value矩阵的维度。

相似地，计算其他头地自注意输出并将它们拼接在一起，经过一个线性层后得到多头自注意的输出：

其中，Linear(·)为线性映射函数、Att₁...Att_n为第1到第n个自注意头的自注意力输出，为拼接操作。

第一次残差连接及规范化：残差连接指将多头自注意的输入和输出连接起来，这种连接方式可以使网络关注到当前的差异部分，规范化采用层归一化方法，将网络中的每层神经元的输入都进行标准化：

Z'_t＝LayerNorm(Z_t+q_t)

其中，LayerNorm(·)为归一化操作函数、Z_t为多头自注意的输出。

前馈全连接层：由两层全连接层组成，参数分别用和/>表示，第一层全连接层由ReLU函数激活：

第二次残差连接及规范化：X'_t＝LayerNorm(X_t+Z'_t)

最终得到的上下文历史信息融合表示为：

经过融合上下文历史信息，当前问题q_t得到了新的表示f_t，由于自注意机制的使用，问题的新表示f_t是对上下文具有感知的。

多模态信息融合：采用Transformer的解码器架构将历史信息感知表示f_t和场景图节点嵌入表示融合。如图3所示，此架构包含了两个多头自注意层，相比于上下文信息融合模块的结构，多模态信息融合模块多了一个多头自注意层，之后的操作和前面所述类似。其中，第二个多头自注意层的K、V矩阵使用场景图编码器的输出进行计算，Q矩阵采用上下文历史信息融合模块的输出计算，这一层使得场景图模态的信息对文本模态的信息进行了补充，二者能够有效融合。

第一个多头自注意层：第一层的Q、K、V矩阵全部使用上下文融合模块的输出f_t计算：

Q＝f_tW_q，K＝f_tW_k，V＝f_tW_v

计算得到各个头的QK^T之后，将其与掩蔽矩阵按位相乘，得到掩蔽的QK^T，再进行后续的softmax计算，因此自注意输出的表示为：

其中，Att_masked为掩蔽的自注意输出、Masked(.)为掩蔽操作。

将多个头的掩蔽自注意输出拼接得到掩蔽多头自注意层的输出。

第二个多头自注意层：计算Q、K、V矩阵，这里做线性变换的对象是场景图编码器的输出e_t和上一个多头自注意层的输出f’_t：

下面的步骤和上下文历史信息融合模块部分类似，利用Q、K计算得到注意力系数后，经过残差连接及归一化，然后通过一层前馈全连接层得到最后的多模态融合输出。

进一步的，S2中构建基于强化学习的策略网络的具体步骤为：

进一步的，S22中基于前馈连接网络结构搭建策略网络，输出智能体的多跳动作概率分布的具体内容为：

构建一个两层的前馈网络，通过非线性的ReLU函数激活；

通过softmax操作得到一个动作空间的概率分布；

具体的，如图4所示，构建策略网络，建模寻径过程，采用强化学习范式完成模型在场景图上的推理，具体步骤为：

建模寻径过程：将模型在场景图上的推理过程建模为游走智能体完成多跳推理的过程，多跳推理的目的是找到实体及关系之间的可靠预测路径。一般将多条推理建模为马尔可夫序列决策过程MDP(Markov Decision Process)，马尔可夫序列决策过程由四元组定义(S,A,P,R)，分别代表状态空间、动作空间，状态转移概率以及奖励函数。对于一个场景图定义E代表所有实体的集合，R代表所有关系的集合，那么场景图/>可以表示为三元组(s,p,o)的集合，分别代表subject主语，predicate谓语，object宾语。

马尔可夫决策过程的核心思想是下一时刻的状态S_t+1只和当前状态S_t及当前状态下要采取的动作A_t有关，因此获取下一时刻的状态只需要回溯上一步即可。

在强化学习过程中，智能体需要与环境交互，具体来说，智能体从环境里获取到状态，利用这个状态智能体可以选择一个动作输出，输出动作的过程是一次决策过程，这个决策返回给环境后，环境会给出下一个状态以及当前这个决策应该得到的奖励。下面分别对状态空间、动作空间以及奖励函数进行说明。

状态空间：在时间步长t下，状态S＝(e_t,h_t,q)，其中e_t是智能体当前到达的实体节点，h_t是代理在时间步长t下的历史决策，也就是时间步长t-1下的决策，当t＝1时，h_t为空集，q表示当前给定的问题。对于智能体来说，q是一个全局信息，但对e_t的选择是依赖于h_t的。

动作空间：在时间步长t下，智能体处于状态S时，其将要采取的下一个动作A_t来自一个动作集合A(S_t)。具体来说，智能体的一个动作包括下一步选择的边和下一步选择的节点，因此A(S_t)应该是所有与当前节点e_t有关联的二元组(r,e)的集合，

奖励函数：根据前面对强化学习过程的描述，智能体的每一次决策都应该受到环境反馈的奖励，智能体的最终目标就是尽可能多地获得奖励。但在我们的问答推理任务场景下，智能体只有到达了最终的正确节点，它的一系列决策才会被赋予正反馈，相应地奖励函数在这种情况下值为1，否则为0。

构建策略网络：策略网络的输入由两部分拼接而成，第一个部分是前面的信息融合模块输出的多模态信息融合表示M_t，第二个部分是智能体的历史决策的嵌入表示H_t。策略网络是一个两层的前馈网络结构，它们之间通过非线性的ReLu函数激活，最后通过softmax操作得到一个概率分布P(A_t)。策略网络的参数主要包括两个权重矩阵W₁、W₂：

P(A_t)＝softmax(A_t(W₂ReLU(W₁[H_t,M_t])))

其中，表示时间t下的所有动作表示，H_t是经过LSTM处理的历史决策表示：

H_t＝LSTM(a_t-1)

概率分布P(A_t)反映的是下一个时间步长智能体选择每个动作的概率，随着策略网络的更新，反馈价值高的动作会被增加选择的概率，相反地，反馈价值低地动作会被降低选择的概率。智能体会根据这个概率分布进行采样得到下一步的动作，直到到达路径终点：

i～Cateforical(P(A_t))

训练策略网络：采用策略梯度算法REINFORCE来训练上述构建的策略网络，训练目标是学习出一个能使奖励最大化的策略网络参数π_θ。

定义最大化目标函数：

在实际推理过程中，智能体很难对所有的完整推理路径进行穷举，因此需要尽可能多地对动作轨迹τ进行采样，求取期望来代替原本的求和操作。

其中，P(τ；θ)表示状态转移概略和动作选择概率的乘积：

策略网络参数更新规则：为了使反馈最大化，使策略梯度向上升的方向更新

进一步的，S3中构建基于问题相似度的用户反馈模块的具体步骤为：

S32.计算两个词向量表示间的余弦相似度：

其中，q_t-1是上一问题的词向量，q_t是当前问题的词向量，d是词向量的维度，i为向量的第i维；

S33.通过余弦相似度判断前后两个问题之间的语义相似度；

S35.根据用户反馈返回相应奖励给心智感知问答模型。

具体的，在真实的人机对话过程中，当机器给出了错误答案或者不符合人类预期的回答时，人类的反应通常是将问题换一种形式重新表述再次输入给机器，基于这一普遍事实，本发明构建了一个基于问题相似度判断的用户反馈模块来模拟真实场景下的人机交互过程，实现模型对用户心智的感知。

问题相似性计算：采用微调的BERT模型获得两个问题文本的词向量表示，计算两个词向量的余弦相似度：

其中，q_t-1是上一问题的词向量，q_t是当前问题的词向量，d是词向量的维度。

反馈函数设计：设定判断阈值δ，当前后问题相似度高于阈值时，认为用户提出了语义重复的问题，模型推理结果不符合用户预期，给予的反馈为0，反之当当前后问题相似度高于阈值时，认为用户进入了新的对话过程，模型推理结果应被给予正反馈1：

cos_sim为余弦相似度，threshold为设定的阈值。

进一步的，还包括对心智感知问答模型进行可行性评估，可行性评估具体内容为通过三种链接预测指标对心智感知问答模型在场景图问答数据集上的表现进行评估。

在一个具体的实施例中，进行方案可行性验证的具体内容为：

选择场景图问答数据集GQA对以上设计方案进行实验验证：GQA数据集包含11000张图片，每张图片对应有标注完备的场景图结构数据，问答内容主要围绕图片中的对象关系及对象自身属性设计，语义丰富。整个词汇表包含有3097个单词，包括1702个对象类、310个关系类和610个对象属性。围绕每张图片的问答对有3～20个不等。

筛选数据：筛选出所有含有10个问答对的图像，将其相关的对话内容排布为多轮对话的形式，最终筛选得到的图片为2982张。

验证基于问题相似度判断的用户反馈模块的可行性：使用ChatGPT在不改变句子语义的情况下对部分问题进行了重写，在具体的模型训练过程中，当模型对输入问题的推理结果与标准答案不相符时，该问题的重写问题将作为补充语料输入给模型根据相应的反馈继续学习。

模型推理本质上是一个三元组链接预测任务，对于一个三元组(s,p,o)中的缺失实体o，模型需要用场景图中的所有实体作为候选项进行计算并排名，因此使用链接预测指标HITS@n作为模型性能的评价指标，它表示的是有多少正确的三元组最终排序在前n名内，常用指标为HITS@1，HITS@3，HITS@10，指标值越大说明模型的推理预测效果越好：

其中，Ⅱ是条件真值函数，若条件真则函数值为1，否则为0、|S|为三元组数量、rank_i为第i个三元组的正确缺失实体的在模型预测结果中的排名。

如表1所示，对二元型问题进行测试，二元型问题的答案形式只有两种“是”和“否”，模型表现较好。将去掉了信息融合模块中的上下文历史信息融合模块以及基于问题相似性判断的用户反馈模块后的模型作为普通的多模态问答模型，用来和用户心智感知问答模型作比较，可以看到三项指标下用户心智感知问答模型的效果都优于普通的多模态问答模型，说明了上下文历史信息融合和用户反馈引入的必要性。

表1二元型问题的测试结果

模型	HITS@1	HITS@3	HITS@10
				多模态用户心智感知问答模型	0.7782	0.9097	0.9222
普通多模态问答模型	0.7653	0.9021	0.9214

如表2所示，对开放型问题进行测试，开放性问题的答案形式不限于“是”和“否”两种形式，答案更加多元化，对于模型来说推理难度高于二元型问题，因此模型的总体表现低于表1中的结果。但在和普通多模态问答模型的比较中，用户心智感知问答模型的效果仍然较好。

表2开放型问题的测试结果

模型	HITS@1	HITS@3	HITS@10
				多模态用户心智感知问答模型	0.6898	0.8734	0.9018
普通多模态问答模型	0.6721	0.8684	0.8980

经过对不同类型问题的测试，多模态用户心智感知问答模型均能取得优于普通多模态问答模型的表现，验证了上述设计方案的可行性。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多模态的用户心智感知问答模型的构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种多模态的用户心智感知问答模型的构建方法，其特征在于，

S1中构建信息融合模块的具体步骤为：

3.根据权利要求2所述的一种多模态的用户心智感知问答模型的构建方法，其特征在于，

S11中基于GAT的场景图编码的具体内容为：

获取场景图节点表示；

计算节点和所有邻居节点之间的相关系数；

对相关系数做归一化得到注意力系数；

4.根据权利要求2所述的一种多模态的用户心智感知问答模型的构建方法，其特征在于，

S12中基于注意力机制进行上下文历史信息融合的具体内容为：

采用Glove预训练模型获取文本词向量表示；

对多头自注意的输出进行第一次残差连接及规范化；

5.根据权利要求2所述的一种多模态的用户心智感知问答模型的构建方法，其特征在于，

S13中基于Transformer解码器架构的多模态信息融合的具体内容为：

6.根据权利要求1所述的一种多模态的用户心智感知问答模型的构建方法，其特征在于，

S2中构建基于强化学习的策略网络的具体步骤为：

7.根据权利要求6所述的一种多模态的用户心智感知问答模型的构建方法，其特征在于，

S22中基于前馈连接网络结构搭建策略网络，输出智能体的多跳动作概率分布的具体内容为：

构建一个两层的前馈网络，通过非线性的ReLU函数激活；

通过softmax操作得到一个动作空间的概率分布；

8.根据权利要求1所述的一种多模态的用户心智感知问答模型的构建方法，其特征在于，

S3中构建基于问题相似度的用户反馈模块的具体步骤为：

S32.计算两个词向量表示间的余弦相似度：

S33.通过余弦相似度判断前后两个问题之间的语义相似度；

S35.根据用户反馈返回相应奖励给心智感知问答模型。

9.根据权利要求1所述的一种多模态的用户心智感知问答模型的构建方法，其特征在于，

还包括对心智感知问答模型进行可行性评估，可行性评估具体内容为通过三种链接预测指标对心智感知问答模型在场景图问答数据集上的表现进行评估。