CN112784047A

CN112784047A - 一种基于自注意力机制的可控可解释司法文本分类方法

Info

Publication number: CN112784047A
Application number: CN202110098164.2A
Authority: CN
Inventors: 刘群; 王崇宇; 邓维斌; 王国胤; 朱坤; 李云波; 彭露
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-05-11
Anticipated expiration: 2041-01-25
Also published as: CN112784047B

Abstract

本发明涉及一种基于自注意力机制的可控可解释司法文本分类方法，属于自然语言处理文本分类领域。该方法提出了Leadformer模型，在Leadformer上人为的设定每个头的作用，分为关键词头与多粒度上下文头，做到宏观上的可控可解释，在关键词头上，以自注意力机制为着力点，采用多任务学习，文本分类任务结合关键词抽取任务，使模型受人为控制地注意在可作为分类解释的词语上，做到微观上的可控可解释。本发明应用于司法领域，能够在高准确率分类的同时，给出分类的解释，并且人为控制注意力矩阵注意在与此类案由相关的关键词上，使相关人员能信任此分类结果。

Description

一种基于自注意力机制的可控可解释司法文本分类方法

技术领域

本发明属于自然语言处理文本分类领域，涉及一种基于自注意力机制的可控可解释司法文本分类方法。

背景技术

伴随着互联网科技的发展与智能化信息的建设，日常生活中会产生许多文本信息，互联网上的文本数据也呈爆炸式增长，垃圾信息混入有价值的信息中，难以辨别。司法文本类别种类繁多，并且数据量巨大，单中国裁判文书网内的裁判文书多达数千万件，并以每日数万件地快速增长，如果能按照司法文本类别对相关司法文本进行初步分类，将极大地节省用户的时间。手工处理和分类大量的文本数据既费时又具有挑战性，并且手齐心工文本分类的准确性容易受到人为因素的影响，如疲劳、专业知识等。而通过深度学习进行司法文本分类能极大地减少工作量，并且提高分类精度。

目前，推进智慧司法，运用人工智能进行司法文本分类是很有必要的。

深度模型的可解释问题是学界现在一直在讨论和研究的工作之一，在自然语言处理领域亦是，想搭建一个具有可解释性的系统是一件非常困难的事，无论人们是直接使用何种机器学习、深度学习方法分类器作为工具，一个至关重要的问题都存在：如果用户不信任模型或预测，我们就很难去使用它，如基于深度学习的医疗诊断由于不可解释性无法获知其判断依据从而无法可信使用、司法量刑风险得分因为其不可解释而发生偏差造成判断错误等。因此，将两者结合起来，研究基于深度学习的可解释的司法文本分类是非常有价值和意义的。

发明内容

有鉴于此，本发明的目的在于提供一种基于自注意力机制的可控可解释司法文本分类方法，通过改进的融合类别信息的TF-IDF算法，获取关键词，构建数据集；人为的设定Leadformer每个头的作用，分为多粒度上下文头和关键词头，做到宏观上的可控可解释；在关键词头上采用多任务学习，文本分类任务结合关键词抽取任务，使模型受人为控制地注意在可作为分类解释的词语上，做到微观上的可控可解释；对注意力矩阵与每个单词对分类结果的贡献，验证模型注意力的控制效果，最终达到可解释。

为达到上述目的，本发明提供如下技术方案：

一种基于自注意力机制的可控可解释司法文本分类方法，涉及Leadformer模型和多关键词抽取、文本分类多任务学习模型，应用于给定新闻主题文本或不同类别法律文本的条件下，利用控制Leadformer头作用与控制模型所注意关键词，达到可控可解释的文本分类。该模型在Transformer框架的基础上，人为的设定每个头的作用，分为关键词头与多粒度上下文头，从其自注意力机制为着力点，设置文本分类为主，关键词抽取为辅的多任务学习，通过融合类别的TF-IDF算法获取目标关键词标签，以此作为关键词抽取任务目标。该方法具体包括以下步骤：

S1：通过国家裁判文书网获取法律文本数据集，将数据集分词，去除停用词，设置文本最大长度为L_padsize，超过部分截断；

S2：将数据集划分为训练集和测试集，训练集通过融合类别信息的TF-IDF算法提取额外的关键词标签；

S3：将文本输入模型前，先将文本进行Embedding操作，将文本向量化；

S4：对Transformer的编码器进行修改，形成Leadformer模型，对多头功能控制，设置关键词头与多粒度上下文头，进行训练；

S5：将步骤S3向量化后的测试文本放入已经训练好的Leadformer模型，对分类效果进行指标上的测试。

进一步，步骤S2具体包括以下步骤：

S21：将数据划分为训练集和测试集，根据不同的数据集，设置不同的最大句子长度L_padsize；

S22：计算训练集每个词融入类别信息的词频，其计算公式为：

S23：计算训练集每个词融入类别信息的逆词频，其计算公式为：

其中，η为根据类别数设定的参数，类别数不同，此类词数与此类外词数比例变化大，需要参数进行调节，类别数越少，η往往越大，分母加一是为了防止分母为0；

S24：每个词语的融入类别信息的词频与逆词频相乘得到此词语在每类中的关键程度，对此词语的TF-IDF值进行排序，得到每个类别分别的关键词排序文件；

S25：对每个类别的关键词排序文件进行筛选，剔除不适合作为解释的词语，形成可解释关键词文件；

S26：根据每个类别的可解释关键词文件，对训练集新增额外的解释关键词标签。

进一步，步骤S26具体包括：

(1)对于短文本数据集，通过训练集每段文本的类别标签，分别查询不同类别的关键词排序文件，获取此段文本最关键的词语，将这个词语在此段文字中的位置作为训练集额外的标签；

(2)对于长文本数据集，设置每个类别的关键词排序文件的前n个为此类别的关键词，通过训练集每段文本的类别标签，分别查询不同类别的关键词排序文件，分别查询每个词语是否位于此类别的关键词排序文件的前n个，对每个词语加入额外的0、1标签，是关键词标1，不是关键词标0。

进一步，步骤S4具体包括以下步骤：

S41：设定网络的最大输入长度为L_padsize，超出部分截断，不足部分使用填充字符<pad>填充；

S42：使用3层3个头，设置每层的前两个头为多粒度上下文头，设置最后一层的第三个头作为关键词头；人为的设置每个头的作用，做到整体的可控可解释；

S43：设置多粒度上下文头，将每层的第一个头设置为粒度为1的头，即为只能每个单词只能看到自身的头，将每层的第二个头设置为粒度为2的头，即为只能每个单词能看到自身与上下一个单词的头；

S44：设计关键词头，将关键词抽取任务作用于关键词头的注意力矩阵，文本分类任务同时作用于此注意力矩阵，两任务Loss相加，形成多任务学习；通过关键词抽取任务，直接地限制注意力矩阵所注意的单词，控制关键词头的注意力在人为设置的可以作为分类解释的关键词上，做到关键词层面的可控可解释。

进一步，步骤S43具体包括：

(1)设计如下所示的MASK矩阵：

(2)使用Pytorch函数masked_fill将MASK矩阵的0替换为负无穷，每层第一个头的注意力矩阵乘以Mask₁，每层的第二个头的注意力矩阵乘以Mask₂，其表达式为：

Q＝W_q*x，K＝W_k*x，V＝W_v*x

其中，Attention_mask(Q,K,V)表示将句子向量通过多粒度注意力进行加权，Q，K，V均为输入向量x进行线性变换后的表示，W_q，W_k，W_v是可学习的参数，K^T为K的转置，QK^T表示句子中每个词之间互相求注意力，softmax(·)表示将注意力矩阵在行向量上进行归一化操作，d_k是调节参数，,防止矩阵乘法得到结果太大而导致softmax函数的梯度太小。

进一步，步骤S44具体包括：

(1)Q与K^T相乘，在行向量维度进行softmax后，得到关键词头的注意力矩阵Attention_map(Q,K)，对注意力矩阵列向量求和，每列的权重值，即为每个单词在此段文本中的重要程度Out_keyword，其公式为：

(2)对于短文本，短文本数据集是文本中最关键词语的位置position，由(1)得到的Out_keyword是长度为L_{pad_size}的一维向量，其值最大的位置，即为关键词位置，将预测出的一维向量与S26所得目标位置position，求交叉熵损失，通过梯度下降算法，控制模型注意到人为设定的关键词，其公式为：

其中，j表示一条文本中的每个词语的序号，x[j]表示Out_keyword中第j个值；

(3)对于长文本，由于长文本数据集标签为每个单词是否为关键词的0、1标签，对每个单词单独做预测，预测每个单词是否为关键词，将预测出的结果与S26所得的0、1标签求损失，其总损失Loss_extract为每个词语损失Loss_i的平均数，其公式为：

分类任务的损失使用交叉熵损失，将两任务损失相加，形成多任务学习，通过梯度下降算法，关键词抽取与分类同时进行，作用于同一个神经网络，使分类的结果更可信任。

本发明的有益效果在于：本发明通过改进的融合类别信息的TF-IDF算法，获取关键词，构建数据集；人为的设定Leadformer每个头的作用，分为多粒度上下文头和关键词头，做到宏观上的可控可解释；在关键词头上采用多任务学习，文本分类任务结合关键词抽取任务，使模型受人为控制地注意在可作为分类解释的词语上，做到微观上的可控可解释；对注意力矩阵与每个单词对分类结果的贡献，验证模型注意力的控制效果，最终达到可解释。

在司法领域使用本发明，输入原被告陈述，对其进行案由的分类，能够在高准确率分类的同时，给出分类的解释，并且人为控制注意力矩阵注意在与此类案由相关的关键词上，使相关人员能信任此分类结果。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明基于自注意力机制的可控可解释司法文本分类的流程示意图；

图2为本发明的模型结构示意图；

图3为可视化关键词头注意力矩阵对比示例图；

图4为本发明的分类贡献词语排序示例图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图4，图1为本发明提供的基于自注意力机制的可控可解释司法文本分类方法，具体包括以下阶段：

阶段1：数据预处理阶段，包括以下步骤：

S2：将数据集划分为训练集和测试集，训练集通过融合类别信息的TF-IDF算法提取额外的关键词标签。具体包括以下步骤：

S26：根据每个类别的可解释关键词文件，对训练集新增额外的解释关键词标签。具体包括：

阶段2：训练阶段，包括以下步骤：

S4：对Transformer的编码器进行修改，形成Leadformer模型，对多头功能控制，设置关键词头与多粒度上下文头，进行训练；具体包括以下步骤：

S43：设置多粒度上下文头，将每层的第一个头设置为粒度为1的头，即为只能每个单词只能看到自身的头，将每层的第二个头设置为粒度为2的头，即为只能每个单词能看到自身与上下一个单词的头。具体包括：

(1)设计如下所示的MASK矩阵：

Q＝W_q*x，K＝W_k*x，V＝W_v*x

其中，Attention_mask(Q,K,V)表示将句子向量通过多粒度注意力进行加权，Q，K，V均为输入向量x进行线性变换后的表示，W_q，W_k，W_v是可学习的参数，K^T为K的转置，QK^T表示句子中每个词之间互相求注意力，soft max(·)表示将注意力矩阵在行向量上进行归一化操作，d_k是调节参数，,防止矩阵乘法得到结果太大而导致softmax函数的梯度太小。

S44：设计关键词头，将关键词抽取任务作用于关键词头的注意力矩阵，文本分类任务同时作用于此注意力矩阵，两任务Loss相加，形成多任务学习；通过关键词抽取任务，直接地限制注意力矩阵所注意的单词，控制关键词头的注意力在人为设置的可以作为分类解释的关键词上，做到关键词层面的可控可解释。具体包括：

阶段3：测试阶段，包括以下步骤：

阶段4：可视化阶段，包括：对注意力矩阵可视化，对词语贡献度进行排序。如图3、图4所示，图3(a)为原始Transformer注意力矩阵，注意力矩阵无任何规律，图3(b)为本发明的注意力矩阵；图4为每个词语对模型贡献的排序示意图；结合图3(b)和图4，明显会注意到英超、切尔西、曼联、曼城，因此分类结果为体育类。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于自注意力机制的可控可解释司法文本分类方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的可控可解释司法文本分类方法，其特征在于，步骤S2具体包括以下步骤：

其中，η为根据类别数设定的参数；

3.根据权利要求2所述的可控可解释司法文本分类方法，其特征在于，步骤S26具体包括：

4.根据权利要求3所述的可控可解释司法文本分类方法，其特征在于，步骤S4具体包括以下步骤：

S42：使用3层3个头，设置每层的前两个头为多粒度上下文头，设置最后一层的第三个头作为关键词头；

S43：设置多粒度上下文头，将每层的第一个头设置为粒度为1的头，将每层的第二个头设置为粒度为2的头；

S44：设计关键词头，将关键词抽取任务作用于关键词头的注意力矩阵，文本分类任务同时作用于此注意力矩阵，两任务Loss相加，形成多任务学习。

5.根据权利要求4所述的可控可解释司法文本分类方法，其特征在于，步骤S43具体包括：

(1)设计如下所示的MASK矩阵：

(2)使用Pyorch函数masked_fill将MASK矩阵的0替换为负无穷，每层第一个头的注意力矩阵乘以Mask₁，每层的第二个头的注意力矩阵乘以Mask₂，其表达式为：

Q＝W_q*x，K＝W_k*x，V＝W_v*x

其中，Attention_mask(Q，K，V)表示将句子向量通过多粒度注意力进行加权，Q，K，y均为输入向量x进行线性变换后的表示，W_q，W_k，W_v是可学习的参数，K^T为K的转置，QK^T表示句子中每个词之间互相求注意力，softmax(·)表示将注意力矩阵在行向量上进行归一化操作，d_k是调节参数。

6.根据权利要求5所述的可控可解释司法文本分类方法，其特征在于，步骤S44具体包括：

(1)Q与K^T相乘，在行向量维度进行softmax后，得到关键词头的注意力矩阵Attention_map(Q，K)，对注意力矩阵列向量求和，每列的权重值，即为每个单词在此段文本中的重要程度Out_kevword，其公式为：

分类任务的损失使用交叉熵损失，将两任务损失相加，形成多任务学习，通过梯度下降算法，关键词抽取与分类同时进行，作用于同一个神经网络。