CN115422920A

CN115422920A - 基于bert和gat的裁判文书争议焦点识别方法

Info

Publication number: CN115422920A
Application number: CN202211365207.XA
Authority: CN
Inventors: 陈先意; 刘艳艳; 钱郁滔; 付章杰; 闫雷鸣; 许娟
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2022-12-02
Anticipated expiration: 2042-11-03
Also published as: CN115422920B

Abstract

本发明公开基于BERT和GAT的裁判文书争议焦点识别方法，预处理待识别的裁判文书，获得具有文本语义联系的待识别标签特征P，包括：拆分文本获取文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2；将Data1和Data2输入到文本表征神经网络，获得文本表征;将预先获取的标签邻接矩阵和标签向量矩阵输入图注意力神经网络，得到标签特征；对文本表征与标签特征关联的相似特征进行提取，获得基于文本语义联系的待识别标签特征P。本发明有效地处理长文本，引入图注意力神经网络对多标签进行关联性建模，识别与标签相关的信息，在每个法律文本中提取与对应标签相关的区别性信息。

Description

基于BERT和GAT的裁判文书争议焦点识别方法

技术领域

本发明涉及基于BERT和GAT的裁判文书争议焦点识别方法，属于裁判文书中争议焦点的智能识别技术领域。

背景技术

随着人工智能技术的发展以及海量法律文本的公开,司法领域的人工智能研究与应用受到了广泛关注。在司法领域，案件的判决依赖专业的法律知识,而且其流程较复杂，同时，“案多人少”现象十分突出，司法从业人员工作量较大。通过裁判文书快速识别出案件争议焦点，作为制约审判效率的关键因素之一，一直没有显著的突破，导致案件审理效率难以提升。当前丰富的数据、相关算法的成熟和各类深度学习框架的涌现为法律人工智能的建设奠定了坚实的技术基础，把争议焦点的识别和检测转化为自然语言处理领域的多标签文本分类（MLTC）问题:将裁判文书视为包含案件信息的法律文本，争议焦点视为标签类别。这些争议焦点的准确识别与分类对于司法领域的实际业务具有重要的支撑作用，极大提高了工作效率，对法治建设具有重要的现实意义与必要性。

“Exploring the use of text classification in the legal domain,”Proceedings of the Second Workshop on Automated Se-mantic Analysis ofInformation in Legal Texts co-located with the 16th International Conferenceon Artificial Intelligence and Law, 2017利用法国最高法院的案例和裁决，调查了文本分类方法在法律领域的应用，然后提出了一种基于支持向量机的案件描述、时间跨度和判决特征的判决系统。然而，这些方法仅提取浅层文本特性或手动标记，很难在大的数据集上收集这些特征。

在司法领域中“Learning to predict charges for criminal cases withlegabasis,” Proceedings of the 2017 Conference on Empirical Methods inNatural Language Processing. Copenhage, pp. 2727-2736,2017中使用注意力机制，将法律条文信息融入文本建模部分，用于辅助罪名预测的多标签文本分类，然而，这项工作不能解决多重罪名预测的问题。

"Scalable extensions of the ReliefF algorithm for weighting andselecting features on the multi-label learning context." Neurocomputing161.aug.5(2015):168-182文献中简单地将单标签文本分类扩展到MLTC，而多标签文本分类任务中各标签之间可能存在语义依赖关系，单标签文本分类不涉及标签依赖问题，这种简化往往使分类性能下降。

发明内容

本发明所要解决的技术问题是克服现有技术中“一些研究尝试把多标签分类分解为多个单标签分类问题，但未能有效获取长文本的特征；或者设计极端多标签卷积神经网络模型来表示文本，这些方法都忽略了标签之间的依赖关系”的缺陷，提供基于BERT和GAT的裁判文书争议焦点识别方法。

为达到上述目的，本发明提供基于BERT和GAT的裁判文书争议焦点识别方法，包括：

预处理待识别的裁判文书，获得具有文本语义联系的待识别标签特征P，通过以下步骤实现：

预先获取文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2；

将文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2输入到文本表征神经网络，获得文本表征M;

将预先获取的标签邻接矩阵和标签向量矩阵输入图注意力神经网络，得到标签特征

；

对文本表征M与标签特征

关联的相似特征进行提取，获得基于文本语义联系的待识别标签特征P。

优先地，预先获取文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2，通过以下步骤实现：

步骤1，待识别的裁判文书包括裁判文书的文本编号、案情描述、预先定义的标签类别和标签的个数；

案情描述包括诉请和答辩内容；

将列表形式的案情描述拼接成文本形式，获得文本；

将文本中低于设定字数且包含的标签个数大于设定标签个数的文本剔除，得到裁判文书

，C _i表示第i个裁判文书，y _i为第i个裁判文书包含的标签类别，

，k表示所有预先定义的所有标签类别总数；

基于诉辩双方，将第i个裁判文书拆分成文本一C _i1和文本二C _i2，文本一和文本二的标签相同；

文本一及文本一对应的标签组成数据对

,文本二及文本二对应的标签组成数据对

。

优先地，将文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2输入到文本表征神经网络，获得文本表征M，通过以下步骤实现：

文本表征网络包括孪生网络BERT模型和双向长短时记忆网络；

步骤2，将Data1和Data2输入到孪生网络BERT模型中，生成Data1对应的文本向量T_CLS1、Data1对应的具有上下文语义信息的词向量

、Data2对应的文本向量T_CLS2和Data2对应的具有上下文语义信息的词向量

；

将词向量T1输入到双向长短时记忆网络中，得到涵盖文本双向语义信息的文本H1={h ₁₁,h ₂₁,…,h _n1}；

将词向量T2输入到双向长短时记忆网络中，得到涵盖文本双向语义信息的文本H2={h ₁₂,h ₂₂,…,h _n2}；

将最大池化后的文本向量T_CLS1和文本H1拼接，得到文本TH ₁；

将最大池化后的文本向量T_CLS2和文本H2拼接，得到文本TH ₂；

将TH ₁和TH ₂拼接，得到完整的句子TH；

利用自注意力机制处理完整的句子TH，获得文本表征M。

优先地，将预先获取的标签邻接矩阵和标签向量矩阵输入图注意力神经网络，得到标签特征

，通过以下步骤实现：

步骤3，构建标签图G=(V,E)，V是标签图的节点，E是标签图的边；

将预先获取的标签邻接矩阵和标签向量矩阵输入图注意力神经网络，

利用图注意力神经网络聚合每个标签图的节点V来自领域标签图的节点的信息，得到标签特征

。

优先地，对文本表征M与标签特征

关联的相似特征进行提取，获得基于文本语义联系的待识别标签特征P，通过以下步骤实现：

步骤4，利用交互注意力机制对文本表征M与标签特征

关联的相似特征进行提取，获取基于文本语义联系的待识别标签特征

，

为预先获取的交互注意力向量。

优先地，预先获取交互注意力向量，通过以下步骤实现：

将文本表征M与标签特征

进行点乘运算，得到信息交互矩阵Q：

，

式中，Q _aj是矩阵Q的第a个词对第j个标签的元素，m为矩阵Q的总行数，n为矩阵Q的总列数；

分别对Q的行与列作归一化处理，获得α _aj和β _aj：

，

，

α _aj表示上下文中第a个词对第j个标签的注意力权重，β _aj表示第a个标签对上下文中第j个词的注意力权重；利用α _aj，构建矩阵A：

；

利用β _aj，构建矩阵B：

；

对矩阵B按列求平均值，得到矩阵

，

的转置矩阵为

;

计算交互注意力向量γ：

。

优先地，将待识别标签特征P输入预先训练获得的网络模型，网络模型输出预测的标签集合。

优先地，预先训练获得的网络模型，包括：

利用交叉熵损失函数反向传播迭代更新网络模型的参数，直到交叉熵损失函数收敛，获得最终的网络模型。

优先地，交叉熵损失函数为：

，

式中，

为交叉熵损失值，k为所有预先定义的所有标签类别总数，c为文档数，

为第b个文档中标签j的真实值，

为多层感知器输出的第b个文档中标签j的预测值。

一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一项所述方法的步骤。

本发明所达到的有益效果：

本发明提出了基于BERT和GAT的裁判文书争议焦点识别方法，将裁判文书中的庭审相关内容（包括诉请+答辩段落）作为输入的文本，将争议的焦点预先定义为一个标签体系，使用孪生BERT模型、长短时记忆网络（Bi-LSTM）和注意力机制充分提取长文本特征信息，采用图注意力神经网络(GAT)学习标签之间的关联信息，考虑到不同标签关注不同文档深层语义表示，将标签与文本上下文语义信息进行交互，获取具有文本语义联系的标签信息，预测并输出对应的若干标签。

本发明本发明有效地处理长文本，引入了图注意力神经网络对多标签进行关联性建模，建立了标签之间的依赖结构，识别文本中与标签相关的信息，得到标签特定的文档表示，在每个法律文本中提取与对应标签相关的区别性信息；本发明解决了传统的MLTC方法不能充分提取长文本信息，忽略多个标签存在内在交互、标签与文本之间存在交互的缺点。

附图说明

图1是本发明的流程图；

图2是本发明中长短时记忆网络的模型架构图；

图3是本发明网络模型中文本表征神经网络的架构图；

图4是本发明网络模型中图注意力神经网络的架构图。

具体实施方式

以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明提供基于BERT和GAT的裁判文书争议焦点识别方法，应用阶段，包括：

；

对文本表征M与标签特征

进一步地，本实施例中预先获取文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2，通过以下步骤实现：

案情描述包括诉请和答辩内容；

将列表形式的案情描述拼接成文本形式，获得文本；

，k表示所有预先定义的所有标签类别总数；

文本一及文本一对应的标签组成数据对

,文本二及文本二对应的标签组成数据对

。

进一步地，本实施例中将文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2输入到文本表征神经网络，获得文本表征M，通过以下步骤实现：

文本表征网络包括孪生网络BERT模型和双向长短时记忆网络；

；

将最大池化(Pooled)后的文本向量T_CLS1和文本H1拼接，得到文本TH ₁；

将TH ₁和TH ₂拼接，得到完整的句子TH；

利用自注意力机制（Self-Attemtion）处理完整的句子TH，获得文本表征M。

如图2所示，BERT在第一句前会加一个[CLS]标志，最后一层该位对应向量可以作为整句话的语义表示，从而用于下游的分类任务等。

[CLS1]是文本一的第一句话前的[CLS]标志，[CLS2]是文本二的第一句话前的[CLS]标志；

E_CLS1表示[CLS1]在该位置的嵌入向量表示，e_n1表示文本一中第n个词的嵌入向量表示，E_CLS2表示[CLS2]在该位置的嵌入向量表示，e_n2表示文本二中第n个词的嵌入向量表示

具体地，将词向量T1和词向量T2分别输入到双向长短时记忆网络(Bi-LSTM)中，通过前向特征提取和后向特征提取,获得

、

，能够更好地建立上下文之间的关系,

、

计算公式如下：

，

，

拼接前向和后向LSTM的隐藏层输出

和

，得到第i个单词的最终输出

，获得全局文本特征表示

，从而得到涵盖文本双向语义信息的文本

和

；

进一步地，本实施例中将预先获取的标签邻接矩阵和标签向量矩阵输入图注意力神经网络，得到标签特征

，通过以下步骤实现：

。

预先获取标签邻接矩阵，通过以下步骤实现：

标签图G的标签邻接矩阵A _ef计算公式如下：

，

，

，

其中，n _ef表示标签节点e、标签节点f在所有裁判文书中共同出现的次数，C _m表示第m个裁判文书。A _ef将矩阵X _ef的所有元素全部设置为1，D为度矩阵；

对A _ef进行归一化处理；

进一步地，本实施例中对文本表征M与标签特征

步骤4，利用交互注意力机制对文本表征M与标签特征

，

为预先获取的交互注意力向量。

进一步地，本实施例中预先获取交互注意力向量，通过以下步骤实现：

将文本表征M与标签特征

进行点乘运算，得到信息交互矩阵Q：

，

式中，Q _aj是矩阵Q的第a个词对第j个标签的元素，m为矩阵Q的总行数，n为矩阵Q的总列数；Q _aj表示文本上下文中第a个词对第j个标签的相关性，α _aj表示上下文中第a个词对第j个标签的注意力权重，β _aj表示第a个词对第j个标签的注意力权重；

分别对Q的行与列作归一化处理，获得α _aj和β _aj：

，

，

；

利用β _aj，构建矩阵B：

；

对矩阵B按列求平均值，得到矩阵

，

的转置矩阵为

;

计算交互注意力向量γ：

。

进一步地，本实施例中将待识别标签特征P输入预先训练获得的网络模型，网络模型输出预测的标签集合。

进一步地，本实施例中预先训练获得的网络模型，包括：

进一步地，本实施例中交叉熵损失函数为：

，

式中，

为第b个文档中标签j的真实值，

为多层感知器输出的第b个文档中标签j的预测值。

如图1所示，本发明提供基于BERT和GAT的裁判文书争议焦点识别方法，训练阶段，包括：

本发明提出的基于BERT和GAT的裁判文书争议焦点识别方法，主要包括数据的预处理、法律文本表示、多个标签之间的关联性建模、标签和文本交互、争议焦点识别和预测五个部分。

以2021年中国法研杯司法人工智能挑战赛(LAIC)的争议焦点的识别和提取这一任务为例，具体来说，根据提供的裁判文书中的庭审相关内容（包括诉请+答辩段落），本发明任务是依据预先定义的标签体系，预测识别并且输出对应的若干标签。本发明使用的训练集和测试集来自由浙江省高级法院提供并标注的法院裁判文书，包含大约20000篇裁判文书以及人工额外标注的争议焦点。其中所涉及到的裁判文书均为民事判决书，涉及的案由包括民间借贷、离婚、机动车交通事故责任和金融借款合同。

首先对数据集预处理，

原始数据集的每条样本数据形式为{"testid": 7167, "features_content": ["上", "诉", "人", "O", "R", "G", "不", "服", "原", "审", "判", "决", "，", "向", "本", "院", "提", "起", "上", "诉", "称", "O", "R", "G", "认", "定", "事", "实", "错", "误", … "原", "审", "被", "告", "P", "E", "R", "未", "在","法", "律", "规", "定", "的", "期", "限", "内", "向", "本", "院", "提", "交","书", "面", "答", "辩", "意", "见", "。"], "labels_index": [22, 10, 78, 32], "labels_num": 4}，

其中testid是该文本的编号，feature_content是包括诉请+答辩内容的案情描述，labels_index是该案件对应的标签的id集合，labels_num则是标签的个数。

标签信息包括标签和标签的id，本实施例具体包括以下内容：

诉讼主体，0；

损失赔偿，1；

工程款数额认定，2；

本金争议/借贷合意，3；

违约损失/预期利益|复利，4；

担保责任/保证责任诉求/连带保证责任诉求，5；

赔偿项目认定，6；

损失赔偿数额认定，7；

本金争议/借贷合意/书面协议or电子协议/借款的意思表示，8；

本金争议/借贷合意/书面协议or电子协议/缺乏借款的意思表示/违法债务，9；

租金情况，10；

利息/利息约定，11；

利息，12；

本金争议，13；

医护费用认定，14；

本金争议/还清部分借款本金，15；

本金争议/借贷合意/书面协议or电子协议/本金（金额），16；

应否支付工程款，17；

利息问题，18；

交强险分项处理情况认定，19；

责任认定，20；

……

刑民交叉，135；

能否解除劳动关系，136；

各项诉请是否合理，137；

本金争议/款项给付/交付凭证，138；

诉讼主体是否适格，139；

诉讼请求是否予以支持，140；

损失问题，141；

利息/利息约定/口头约定利息，142；

面积差异认定与处理，143；

夫妻共同债务诉求，144；

本金争议/借贷合意/书面协议or电子协议/代举债，145；

虚假诉讼，146；

本金争议/借贷合意/书面协议or电子协议/当事人签章，147。

按照“预处理待识别的裁判文书，获得待识别标签特征P”的逻辑流程，预处理训练集和测试集，获得训练集的具有文本语义联系的的标签特征P和测试集的具有文本语义联系的的标签特征P；

将训练集输入网络模型，通过多层感知器分类，训练获得最终的网络模型。

预先训练获得的网络模型，包括：

利用交叉熵损失函数计算网络模型输出的预测值和训练集的真实值的误差，通过反向传播迭代更新网络模型的参数，直到交叉熵损失函数收敛，获得最终的网络模型。

交叉熵损失函数为：

，

式中，

为第b个文档中标签j的真实值，

为多层感知器输出的第b个文档中标签j的预测值。

法律文本属于长文本，而单个孪生网络BERT模型最大输入长度为512，会导致文本信息丢失的问题，采用孪生网络模型共享参数，可以同时接收原文本的不同部分，满足诉请、答辩文本的最大长度512，孪生网络BERT模型可以处理长度为1024的法律案件。

GAT是指图注意力神经网络，孪生网络BERT模型包括两个BERT（BidirectionalEncoder Representations from Transformer）, BERT和图注意力神经网络属于现有技术，是利用大规模无标注语料训练获得文本包含丰富语义信息的Representation。

对TH做一个自注意力机制（self-attention）的操作，TH包含了诉请和答辩内容，自注意力网络能够考虑全局信息，聚焦重点信息，有利于完整地找出整个案件的侧重焦点，得到经过自注意计算后的文本表征M；

本实施例中标签向量矩阵采用Stanford官方预训练好的Glove词向量,其中包括有50维、100维和300维3种,为了使标签包含更多的语义信息,本文采用300维的Glove词向量作为GAT的输入。

构建标签图G=(V,E)，其中V是标签图的节点，代表标签的节点，E是标签图的边,代表标签与标签之间的关联程度；

语义信息是指能够消除事物不确定性的有一定意义的信息；

自然语言处理（NLP）中的上下文语义信息，指一个单词与其周围单词之间的关联。

文本双向语义信息，是指表示当前词的前向和后向语义信息。

将P通过多层感知器对其进行预测,得到对应的标签集合

，计算过程为：

，

和

是待训练的参数矩阵；

上下文语义信息：自然语言处理（NLP）中的上下文语义信息，指一个单词与其周围单词之间的关联。

领域标签节点的信息：在图卷积网络(graphconvolutionalnetwork,GCN)中,一个节点和相邻节点具有相同的权重,但是在图结构中一个节点相对于它的相邻节点的重要性存在一定差异，通过计算俩个节点之间的权重来衡量节点之间的关联性，这种关联性就是节点之间存在的信息。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。