CN115828142A

CN115828142A - 一种基于双路编码器的可解释性文本分类系统

Info

Publication number: CN115828142A
Application number: CN202211628528.4A
Authority: CN
Inventors: 廖祥文; 徐攀; 林于翔; 沈鸿骁; 姚孟韬
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-12-17
Filing date: 2022-12-17
Publication date: 2023-03-21

Abstract

本发明提供一种基于双路编码器的可解释性文本分类系统，包括：包含一个预处理模块，用于对文本进行特征化处理；包含一个编码器模块，用于获取文本不同角度上的语义信息；包含一个分类器模块，用于输出文本分类结果；包含一个解释性信息生成器模块，用于输出文本分类结果的文本解释。应用本技术方案能够通过融合多头注意力与双向门控循环单元的语义表示，学习文本的多层次的语义信息，并使用二次注意力机制，解决查询和注意力结果不匹配问题，对编码的语义信息进行增强，从而较好地实现可解释性文本分类。

Description

一种基于双路编码器的可解释性文本分类系统

技术领域

本发明涉及文本分类的可解释性技术领域，特别是一种基于双路编码器的可解释性文本分类系统。

背景技术

可解释性文本分类旨在对文档进行分类的同时生成解释信息作为模型决策依据，帮助人们理解机器学习模型是如何学习的，它从数据中学到了什么，针对每一个输入它为什么会做出如此决策以及它所做的决策是否可靠。可解释性文本分类增强了模型的可解释性与透明性，消除模型在实际应用部署过程中存在的安全隐患，使用户能够信赖模型的决策结果，促进基于深度神经网络模型的文本分类方法在金融、医疗等安全敏感领域的推广应用，意义深远。

目前机器学习模型可解释研究主要分为三类：

基于事前(ante-hoc)可解释性分析方法。事前可解释性指通过训练结构简单、可解释性好的模型或将可解释性结合到具体的模型结构中的自解释模型使模型本身具备可解释能力。目前主要的事前解释方法如下：(1)自解释模型，是一类结构透明或者可推导决策结果的模型，例如：决策树、朴素贝叶斯模型等。该类模型本身就具备自身的可解释性，但该类方法要求模型结构不能过于复杂，使得该类模型的拟合能力必然受限。例如对于决策树模型，简单、浅层的(Shallow)决策树视觉上非常直观，而且容易解释，但是深层的(Deep)决策树视觉上和解释上都比较困难。(2)广义加性模型，广义加性模型既能提高简单线性模型的准确率，又能保留线性模型良好的内置可解释性。广义加性模型一般形式为：

其中f₀为常数，f_i表示特征x_i的非线性形函数，加性模型g(y)由特征的形函数线性组成。形函数可以是线性函数也可以是非线性函数，灵活的选择使得广义加性模型具备更高的自由度拟合数据，结合加性模型优良的可解释性。虽然广义加性模型提供了一种出色模型解释方案，但对比现有的深度网络模型，其精度仍有所欠缺。(3)注意力机制，神经网络模型由于模型结构复杂，算法透明性低，因而模型本身的可解释性差。因此，神经网络模型的自身可解释性只能通过额外引入可解释性模块来实现，一种有效的方法就是引入注意力机制。在计算能力有限的情况下，注意力机制是解决信息超载问题的一种有效手段，通过决定需要关注的输入部分，将有限的信息处理资源分配给更重要的任务。此外，注意力机制具有良好的可解释性，注意力权重矩阵直接体现了模型在决策过程中感兴趣的区域。通过注意力帮助人们理解每一个句子和每一个词对文本分类结果的贡献。

基于事后(post-hoc)可解释性分析方法。根据解释对象和解释目的的不同，该方法可分为全局可解释性和局部可解释性。全局可解释性旨在帮助人们从整体理解模型背后复杂的工作机制，典型的全局解释方法包括解释模型/规则提取、模型蒸馏、激活最大化解释等。局部可解释性旨在帮助人们理解学习模型针对每一个特定输入样本的决策过程和决策依据。不同于全局解释性，模型的局部可解释性通过对输入样本每一维特征对最终结果的贡献来实现。实际上，由于模型算法的不透明性以及应用场景的复杂性，提供对模型全局解释一般比局部解释更为困难。因此，目前研究大多集中在针对模型局部可解释性。经典的局部可解释性分析方法包括，敏感性分析、局部近似、梯度反向传播以及类激活映射等。

基于文本摘要的可解释性分析方法。该类方法在对原文本进行分类的同时，通过基于抽取式或生成式的文本摘要方法抽取出文档中的关键段落、语句或生成解释性摘要作为模型决策的依据。但现有的模型方法对原文本的语义信息挖掘不够充分，生成的文本表征包含的语义信息不够丰富，导致文本分类性能及解释性信息生成性能欠佳。

发明内容

有鉴于此，本发明的目的在于提供一种基于双路编码器的可解释性文本分类系统，能够通过融合多头注意力与双向门控循环单元的语义表示，学习文本的多层次的语义信息，并使用二次注意力机制，解决查询和注意力结果不匹配问题，对编码的语义信息进行增强，从而较好地实现可解释性文本分类。

为实现上述目的，本发明采用如下技术方案：一种基于双路编码器的可解释性文本分类系统，包括：

一个预处理模块，用于对文本进行特征化处理；

一个编码器模块，用于获取文本不同角度上的语义信息；

一个分类器模块，用于输出文本分类结果；

一个解释性信息生成器模块，用于输出文本分类结果的文本解释。

在一较佳的实施例中，预处理模块首先对源文本进行分词；接着通过GloVe来将文本数据从文本形式转换成向量形式。

在一较佳的实施例中，编码器模块引入多头注意力机制以及双向门控循环单元机制从不同角度提取文本的多层次的语义信息，引入二次注意力缓解查询和注意力结果不匹配的问题，并且将原始文本语义特征与编码器编码的语义信息整合；

编码器模块由多头注意力模块与双向门控循环单元神经网络组合而成；向量形式的文本数据分为两路，一路输入到多头注意力模块再经过一个前馈神经网络，另一路进入双向门控循环单元神经网络；自注意力模型看作为在一个线性投影空间中建立输入向量中不同形式之间的交互关系；多头注意力在多个不同的投影空间中建立不同的投影信息；将输入矩阵，进行不同的投影，得到许多输出矩阵后，将其拼接在一起；对文本中不同位置进行重点关注，其具体公式如下：

MultiHead(Q，K，V)＝Concat(head_i，…，head_h)W^O

其中Q代表查询向量，K为代表适合接收查找的关键信息向量，V代表内容向量；

双向门控循环单元神经网络BiGRU由两个GRU组成：一个是正向的GRU模型，接受正向的输入；另一个是反向的GRU模型，学习反向的输入，用于对文本的全局语义信息进行建模，避免GRU无法编码从后到前的信息；GRU模型其t时刻更新具体公式如下：

h^t＝(1-z)⊙h^t-1+z⊙h′。

4.根据权利要求1所述的一种基于双路编码器的可解释性文本分类系统，其特征在于，还包括编码融合模块，编码融合模块将上述编码器模块的两路编码结果经二次注意力模块处理后与原始语义信息编码特征进行融合；其公式如下所示：

y＝concat(x₁,x₂,x₃)

其中x₁,x₂,x₃分别为经过AOA模块的多头注意力的输出再经过一个前馈神经网络的输出，经过AOA模块的BiGRU的输出以及原始文本语义特征。

在一较佳的实施例中，分类器模块首先利用一个三层的全连接网络对编码器编码的语义向量进行降维，然后采用softmax函数对所得到的文本表示向量进行处理，预测各文本的类别；

分类器模块由一个三层的全连接网络与softmax函数组成，编码融合模块的输出的融合的文本语义特征编码经过一个三层的全连接网络后，采用softmax函数对所得到的文本表示向量进行处理，预测文本的所属类别；其公式如下所示：

P_classified＝softmax(f_C(W_C·e_C+b_C))。

6.根据权利1要求所述的一种基于双路编码器的可解释性文本分类系统，其特征在于，解释性信息生成器模块使用条件变分自动编码器CVAE生成文本型解释性信息，解释性信息生成器模块由解释信息编码器、后验网络、先验网络、解码器以及隐变量监督模块五个部分组成；其中编码器、解码器使用基于多头注意力的transformer编码器，后验网络和先验网络均使用多层感知机，隐变量监督模块是一个三层全连接网络后接softmax函数的分类器；在训练过程中，解释性信息生成器模块以解释性信息、原文本的向量表示v_e以及文本分类结果的向量表示v_c作为输入；

条件变分自动编码器CVAE在训练时需要最大化在只给定文本信息和文本分类结果信息[v_e；v_c]的条件下，v_c对应文本分类结果的文本解释信息x的条件似然变分下界，具体公式如下所示：

pxc)＝∫pxz,cp(zc)dz

其中z为隐变量，c＝[v_e；v_c]；

其中θ为网络参数；

解码器使用从后验分布q_R(z|x,c)中采样获得的隐变量z初始化隐藏状态，以v_e和目标文本嵌入表示x作为输入，输出每个时间步的单词概率分布，并通过优化与实际目标评论摘要的交叉熵损失来进行训练；引入隐变量监督模块，通过隐变量z对文本进行分类，如果得到正确的分类说明隐变量z编码足够的源端信息，生成解释信息；由此可得，CVAE中关于识别网络与先验网络的损失函数为：

其中L_Z为通过隐变量z对文本的分类损失；

在测试过程中，生成器模块以文本的向量表示v_e以及文本分类结果向量表示v_c作为输入；[v_e；v_c]输入先验网络后，从先验分布中采样获得隐变量z′，解码器使用该隐变量z′与目标解释信息嵌入表示进行相加，逐时间步输出目标单词，生成最终解释性信息。

与现有技术相比，本发明具有以下有益效果：能够通过融合多头注意力与双向门控循环单元的语义表示，学习文本的多层次的语义信息，并使用二次注意力机制，解决查询和注意力结果不匹配问题，对编码的语义信息进行增强，从而较好地实现可解释性文本分类。

附图说明

图1为本发明优选实施例的在基于双路编码器的可解释性文本分类系统的示意配置图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式；如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

一种双路编码器的可解释性文本分类系统，参考图1，具体包括：预处理模块1，用于对文本进行特征化处理；编码器模块2，用于文本间的交互建模以及捕获文本的全局语义特征；二次注意力模块3，用于缓解查询和注意力结果不匹配的问题；编码融合模块4，将多头注意力模块输出与双向门控循环单元神经网络模块输出进行拼接融合，并且将原始文本语义特征也进行融合，避免编码后文本本身语义信息的过度损失；文本分类器模块5，用于对融合后的文本特征表示进行处理，得到最终的文本分类结果；解释性信息生成器模块6，用于对解释生成过程中的隐变量z进行建模，用于生成解释。

下面分别详细描述各模块配置。

1)预处理模块1

首先，描述文本预处理模块1如何得到初始文本向量。

由于神经网络的输入数据一般为向量，以便模型的端到端训练，因此需要对文本数据进行向量化表示。为了便于数据的处理和分析，在本发明的数据预处理模块，我们首先对源文本进行分词；接着，通过GloVe来将文本数据从文本形式转换成向量形式。

2)编码器模块2

下面描述编码器模块2是如何将上一模块得到的数据进行处理的。此模块是多头注意力模块(Multi-head-attention)与双向门控循环单元神经网络(BiGRU)组合而成。向量形式的文本数据分为两路，一路输入到多头注意力模块再经过一个前馈神经网络，另一路进入双向门控循环单元神经网络。自注意力模型可以看作为在一个线性投影空间中建立输入向量中不同形式之间的交互关系。多头注意力就是在多个不同的投影空间中建立不同的投影信息。将输入矩阵，进行不同的投影，得到许多输出矩阵后，将其拼接在一起。这样可以对文本中不同位置进行重点关注，避免关键信息的丢失。其具体公式如下：

MultiHead(Q，K，V)＝Concat(head_i，…，head_h)W^O

其中Q代表查询向量，K为代表适合接收查找的关键信息向量，V代表内容向量。

双向门控循环单元神经网络(BiGRU)，它由两个GRU组成：一个是正向的GRU模型，接受正向的输入；另一个是反向的GRU模型，学习反向的输入，用于对文本的全局语义信息进行建模，避免GRU无法编码从后到前的信息。GRU其t时刻更新具体公式如下：

h^t＝(1-z)⊙h^t-1+z⊙h′

3)二次注意力(AOA)模块3

经典的注意力机制Attention(Q,K,V),其中Q代表查询向量，K为代表适合接收查找的关键信息向量，V代表内容向量。无论Q和K,V相关或不相关，注意力模块都会对K的每一维产生权重信息。因此，可能存在结果向量与查询向量不相关，还可能会产生噪声信息。为了解决该问题，使用AOA机制来解决注意力结果与查询不匹配的问题。为每个注意力结果和查询计算出一个相关得分。首先将查询向量与结果向量进行拼接，之后分别通过两个单独的线性层，分别生成信息向量i和注意力门向量g。具体计算方式如下：

其中

b^g∈R^D均为训练参数，D是q和v的维度

是注意力结果，σ是sigmoid激活函数。

然后，AOA通过门控网络获取注意力结果每一维度的权重信息以此对结果进行过滤，获取最终的注意力结果。

其中，⊙是逐位相乘。

最终AOA的公式如下所示：

4)编码融合模块4

该模块将上述模块2的两路编码结果经二次注意力模块处理后与原始语义信息编码特征进行融合，避免文本本身语义信息的过度损失。其公式如下所示：

y＝concat(x₁，x₂，x₃)

5)文本分类器模块5

该模块由一个三层的全连接网络与softmax函数组成，上述编码融合模块4的输出的融合的文本语义特征编码经过一个三层的全连接网络后，采用softmax函数对所得到的文本表示向量进行处理，预测文本的所属类别。其公式如下所示：

P_classified＝softmax(f_C(W_C·e_C+b_C))

6)解释性信息生成器模块6

下面描述解释性信息生成器模块6是如何生成上一模块得到的文本分类结果的解释信息。

解释性信息生成器模块使用条件变分自动编码器CVAE生成文本型解释性信息，该模块主要由解释信息编码器、后验网络、先验网络、解码器以及隐变量监督模块五个部分组成。其中编码器、解码器均使用基于多头注意力的transformer编码器，后验网络和先验网络均使用多层感知机(Multi-Layer Perceptron,MLP)，隐变量监督模块是一个三层全连接网络后接softmax函数的分类器。在训练过程中，该模块以解释性信息、原文本的向量表示v_e以及文本分类结果的向量表示vc作为输入。

p(x|c)＝∫p(x|z，c)p(z|c)dz

其中z为隐变量，c＝[v_e；v_c]。

其中θ为网络参数；

解码器使用从后验分布q_R(z|x，c)中采样获得的隐变量z初始化隐藏状态，以v_e和目标文本嵌入表示x作为输入，输出每个时间步的单词概率分布，并通过优化与实际目标评论摘要的交叉熵损失来进行训练。为了使隐变量z能够编码足够的源端信息，引入隐变量监督模块，通过隐变量z对文本进行分类，如果得到正确的分类说明隐变量z编码了足够的源端信息，能够生成更好的解释信息。由此可得，CVAE中关于识别网络与先验网络的损失函数为：

其中L_Z为通过隐变量z对文本的分类损失。

在测试过程中，生成器模块以文本的向量表示v_e以及文本分类结果向量表示v_c作为输入。[v_e；v_c]输入先验网络后，从先验分布中采样获得隐变量z′，解码器使用该隐变量z′与目标解释信息嵌入表示进行相加，逐时间步输出目标单词，生成最终解释性信息。

Claims

1.一种基于双路编码器的可解释性文本分类系统，其特征在于，包括：

一个预处理模块，用于对文本进行特征化处理；

一个编码器模块，用于获取文本不同角度上的语义信息；

一个分类器模块，用于输出文本分类结果；

2.根据权利要求1所述的一种基于双路编码器的可解释性文本分类系统，其特征在于，预处理模块首先对源文本进行分词；接着通过GloVe来将文本数据从文本形式转换成向量形式。

3.根据权利要求1所述的一种基于双路编码器的可解释性文本分类系统，其特征在于，编码器模块引入多头注意力机制以及双向门控循环单元机制从不同角度提取文本的多层次的语义信息，引入二次注意力缓解查询和注意力结果不匹配的问题，并且将原始文本语义特征与编码器编码的语义信息整合；

MultiHead(Q，K，V)＝Concat(head_i，...，head_h)W^O

h^t＝(1-z)⊙h^t-1+z⊙h′。

y＝concat(x₁，x₂，x₃)

其中x₁，x₂，x₃分别为经过AOA模块的多头注意力的输出再经过一个前馈神经网络的输出，经过AOA模块的BiGRU的输出以及原始文本语义特征。

5.根据权利要求1所述的一种基于双路编码器的可解释性文本分类系统，其特征在于，分类器模块首先利用一个三层的全连接网络对编码器编码的语义向量进行降维，然后采用softmax函数对所得到的文本表示向量进行处理，预测各文本的类别；

P_classified＝softmax(f_C(W_C·e_C+b_C))。

p(x|c)＝∫p(x|z，c)p(z|c)dz

其中z为隐变量，c＝[v_e；v_c]；

其中θ为网络参数；

解码器使用从后验分布q_R(z|x，c)中采样获得的隐变量z初始化隐藏状态，以v_e和目标文本嵌入表示x作为输入，输出每个时间步的单词概率分布，并通过优化与实际目标评论摘要的交叉熵损失来进行训练；引入隐变量监督模块，通过隐变量z对文本进行分类，如果得到正确的分类说明隐变量z编码足够的源端信息，生成解释信息；由此可得，CVAE中关于识别网络与先验网络的损失函数为：

其中L_Z为通过隐变量z对文本的分类损失；