CN112347269A

CN112347269A - 基于BERT和Att-BiLSTM的论点对识别方法

Info

Publication number: CN112347269A
Application number: CN202011255816.0A
Authority: CN
Inventors: 张璞; 刘华东; 陈鹏; 熊安萍
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2021-02-09

Abstract

本发明属于自然语言处理领域，具体涉及一种基于BERT和Att‑BiLSTM的论点对识别方法，包括获取法律判决书中的数据，对数据进行预处理；将预处理的数据输入到训练好的法律论点对分类模型中，识别出诉方辩方相对应的法律论点对，根据法律论点对进行司法判决；所述法律论点对分类模型包括BERT模型和基于注意力长短期记忆循环神经网络Att‑BiLSTM分类模型；本发明在进行数据预测过程中加入了分层Attention机制，该机制为每个单词分配一个注意力权重，并为每个句子分配一个注意力权重，融合了句子级和词级特征，可以将重要特征突出，避免长序列导致的历史记忆变弱的问题，可以有效的提高识别效果。

Description

基于BERT和Att-BiLSTM的论点对识别方法

技术领域

本发明属于自然语言处理领域，具体涉及一种基于BERT和Att-BiLSTM的论点对识别方法。

背景技术

论辩挖掘是从非结构化的文本中自动提取论证结构。论辩挖掘可以应用于许多领域，例如提高人工智能的自动推理能力，或者信息的检索和提取。论辩挖掘主要集中于以下任务：(1)论辩句子检测，识别给定文档中论辩性和非论辩性的句子。(2)论点类型识别，将论辩性句子分为主张(claim)和前提(premise)。(3)论点关系检测，检测论点之间的关系，关系通常分为支持(support)和反对(attack)。

司法领域是最先关注论辩挖掘，也是论辩挖掘最成功的应用领域之一，可以使用论辩挖掘技术在结构化的法律文本集合中提取主张和支持主张的前提，来构建法律文本数据库，查找相似案件或自动司法等。

法律判决书体现了法律中论辩的过程，辩方与诉方围绕争议焦点展开论辩，相应的论辩在庭审中进行整理记录。所以围绕争议焦点展开的论辩对审批现场恢复和辅助判决方面有着关键的作用。

然而，如何从海量法律文本中提取关键信息将是一个巨大的挑战，由于语料库庞大，表达方式多样，门类繁多，手工地识别论辩文本是非常耗时耗力的。使用论辩挖掘技术来自动提取相对应的法律文本对是解决这一问题的有效方法。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种基于BERT和Att-BiLSTM的论点对识别方法，该方法包括：获取法律判决书中的数据，对数据进行预处理；将预处理的数据输入到训练好的法律论点对分类模型中，识别出诉方辩方相对应的法律论点对，根据法律论点对进行司法判决；所述法律论点对分类模型包括BERT模型和基于注意力长短期记忆循环神经网络Att-BiLSTM分类模型；

法律论点对分类模型的训练过程包括：

S1：获取法律判决书中的文本数据；提取文本数据的辩方论点和诉方论点；

S2：辩方论点和诉方论点进行集合，得到数据集；将数据集划分为训练集、验证集以及测试集；

S3：将训练集中的数据输入到BERT模型，得到论点对的语义向量；

S4：将论点对的语义向量输入到Att-BiLSTM分类模型中得到预测分类结果；

S5：根据预测分类结果确定分类损失函数；使用Adam算法不断调整Att-BiLSTM分类模型和BERT模型的参数，当损失函数最小时，完成模型的训练。

优选的，对数据进行预处理的过程包括：

步骤1：将法律判决书根据段落进行划分，得到辩方论点段和诉方论点段；

步骤2：按照句子粒度将辩方论点段和诉方论点段进行划分，去除句子中的停用词，得到句子集合；

步骤3：去除句子集合中的特殊字符及标点符号。

优选的，得到论点对的语义向量的过程包括：

S31：在输入模型的数据中设置两个特殊标记[CLS]和[SEP]；特殊分类嵌入[CLS]作为第一个标记，特殊标记[SEP]作为诉方论点和辩方论点分开的标志，特殊标记[SEP]作为句子结束标记；

S32：根据标记嵌入、句子嵌入以及位置嵌入构造语义符号序列E；

S33：语义符号序列E输入到预训练的BERT模型中，得到论点对语义向量；论点对语义向量的表达式为：

C,T₁…T_N,T_SEP,T₁…T_M＝Bert(E)

优选的，得到预测分类结果的过程包括：

S41：将BERT模型的输出分别输入到前向LSTM和后向LSTM中，得到前向隐藏状态

和后向隐藏状态

S42：将前向的隐藏状态

和后向的隐藏态

进行拼接得到的向量h_t；

S43：采用前向LSTM和向后LSTM的最终隐藏状态表示每个句子向量s_i；

S44：根据句子向量s_i以及注意力机制计算句子注意力权重A_i；根据单词向量和注意力机制计算单词注意力权重a_ij；

S45：根据句子注意力权重A_i和单词注意力权重a_ij计算第k个样本的输出向量x_k；

S46：将注意力机制得到的输出向量x_k作为输入，通过softmax分类器来得到分类结果p_k，分类结果p_k最接近标注y_k的论点对则为最匹配的论点对。

进一步的，输出向量为：

进一步的，分类结果为：

p_k＝softmax(W^kx_k+b^k)

优选的，分类损失函数为：

优选的，采用Adam算法调整模型中参数过程包括：

步骤1：将一阶矩向量v_dW和二阶矩向量s_dW初始化为0；

步骤2：根据初始化的一阶矩向量和二阶矩向量计算第t次迭代得到的一阶矩向量v_dW和二阶矩向量s_dW；

步骤3：计算第t次迭代的一阶矩向量偏差修正

和二阶矩向量偏差修正

步骤4：根据一阶矩向量偏差修正

和二阶矩向量偏差修正

对权重W进行更新。

进一步的，第t次迭代的一阶矩向量偏差修正

和二阶矩向量偏差修正

的公式为：

进一步的，权重W的更新公式为：

优选的，使用Att-BiLSTM分类模型对数据论点对进行处理的过程包括：将相应的法律判决书进行预处理得到相应的诉方论点集和辩方论点集；将诉方论点集和辩方论点集中的论点组成论点对，即将每个诉方论点集与辩方论点集中所有论点一一组成论点对；以诉方论点为基准划分论点组，每个论点组中所有论点对输入到Att-BiLSTM分类模型中进行预测识别，计算出每个论点组中得分最高的论点对，将的得分最高的论点对作为最匹配的论点对，最终每个诉方论点都匹配到最相关的辩方论点，预测出相对应的论点对；使用论点对来进行司法判决。

本发明的有益效果：

1)使用BERT模型得到的语义向量，能够捕捉更多的内在信息，提高了预测的精度。

2)基于BiLSTM可以捕获前向和后向的隐藏信息，更好的结合了诉方论点和辩方论点，兼顾了上下文信息。

3)加入了分层Attention机制，该机制为每个单词分配一个注意力权重，并为每个句子分配一个注意力权重，融合了句子级和词级特征，可以将重要特征突出，避免长序列导致的历史记忆变弱的问题，可以有效的提高识别效果。

附图说明

图1为本发明方法流程图；

图2为BERT模型示意图。

图3为Att-BiLSTM分类模型图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案及有益效果进行清楚、完整地描述，对本发明作进一步详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于BERT和Att-BiLSTM的论点对识别方法，如图1所示，该方法包括：获取法律判决书中的数据，对数据进行预处理；将预处理的数据输入到训练好的法律论点对分类模型中，识别出诉方辩方相对应的论点对，根据法律论点对进行司法判决；所述法律论点对分类模型包括BERT模型和基于注意力长短期记忆循环神经网络Att-BiLSTM分类模型。

对数据进行预处理的过程包括：首先将法律判决书按照段落进行划分，由于法律判决书非常结构化，所以非常容易的找到诉方论点段和辩方论点段，然后将两段按照句子粒度进行划分，去除句子中的停用词，标点符号特殊符号等等，得到诉方论点集合和辩方论点集合。

采用诉方论点与辩方论点构造论点对，分别包含如下维度：

id：论点对id

text_id：法律判决书id

sc：论点对中诉方论点

A/B/C/D/E：给出的五句候选辩方论点

answer：辩方正确论点

将诉方论点+辩方正确论点作为正样本，将随机选取的其他4个论点作为负样本。

将数据集划分为训练集、验证集以及测试集，其划分的比例为7：1：2；即70％作为训练集，10％作为验证集，20％作为测试集。

对法律论点对分类模型的训练过程包括：

S5：根据预测分类结果确定分类损失函数；使用Adam算法不断调整Att-BiLSTM分类模型和BERT模型的参数，最小化损失函数，完成模型的训练。

如图2所示，BERT是基于双向Transformer的语言表示模型，BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。BERT的基础集成单元是Transformer，但其语义理解能力要优于Transformer等其他模型，对此起决定性作用的在于BERT的预训练过程。需要说明，目前对BERT的使用方式大多是，获取经过预训练得到的BERT基础模型(例如，可自行利用大量通用语料进行预训练，也可以直接获取已有的BERT基础模型)，再根据具体应用场景，利用相应场景下的训练语料对BERT基础模型进行微调(fine-tune)，得到应用于该场景的模型。

BERT的模型体系结构是基于原始Transformer的多层双向Transformer编码器。BERT模型能够提供强大的上下文相关的向量表示。得到论点对的语义向量的过程包括：

S31：在输入模型的数据中设置两个特殊标记[CLS]和[SEP]；特殊分类嵌入[CLS]作为第一个标记，特殊标记[SEP]作为诉方论点和辩方论点分开的标志，特殊标记[SEP]作为句子结束标记。

添加标记后的论点对为：

[CLS]诉方论点[SEP]辩方论点[SEP]

S32：根据标记嵌入、句子嵌入以及位置嵌入构造BERT模型的输入。

构造BERT模型的输入语义符号序列的表达式为：

E＝E_w+E_s+E_P

其中，E_w表示标记嵌入，E_S表示句子嵌入，E_P表示位置嵌入。

根据上述方法处理多条论点对语句，确定语义符号序列；将语义符号序列输入BERT模型中，得到论点对语义向量。

经过预训练BERT模型输出论点对语义向量如下：

C,T₁…T_N,T_SEP,T₁…T_M＝Bert(E)

其中，C代表特殊分类嵌入[CLS]的输出，T₁…T_N代表诉方论点的输出，T_SEP代表特殊标记[SEP]的输出，T₁…T_M代表辩方论点的输出，E代表BERT模型的输入。

如图3所示，将整体语义向量输入Att-BiLSTM分类模型中，得到预测分类结果；其具体的实现方式为：Att-BiLSTM分类模型中包括双向LSTM层和Attention层，最终经过softmax层进行输出判断当前所得到的论点对是否是相互匹配的论点对。BiLSTM使用双向的LSTM来提取更高维的特征，而Attention机制则采用了类似人脑处理信息过载的方式，使用Attention机制可以提高神经网络处理信息的能力，解决了计算能力限制和算法难优化的限制。

BiLSTM采用双向的LSTM来提取更高维的特征，捕获了不同方向上的依赖关系。在双向体系结构中，BERT模型的输出输入到前向LSTM中得到前向隐藏状态

BERT模型的输出输入到后向LSTM中得到后向隐藏状态

其中1≤t≤N+M。最终将前向的隐藏状态

和后向的隐藏态

进行拼接得到的向量h_t；向量h_t的表达式为：

Attention层通过注意力机制来捕捉全局和局部的联系，本发明采用了分层注意力机制，该机制为第i个句子分配一个句子注意力权重A_i，为第i个句子的第j个单词分配一个单词注意力权重a_ij，融合了词级特征和句子级特征；其中：

其中，A_i表示句子注意力权重，a_ij表示单词注意力权重。

采用前向LSTM和向后LSTM的最终隐藏状态来表示每个句子向量s_i，其表达式为：

其中，

表示前向LSTM最终隐藏状态，

表示后向LSTM的最终隐藏状态。

句子注意力权重A_i计算公式为：

M＝tanh(W_s·S)

A＝softmax(W^T·M)

其中，S是由句子s_i组成的矩阵，tanh为激活函数，softmax为归一化指数函数，W_s和W分别为权重矩阵；对权重矩阵随机初始化，并随模型训练进行更新，A是由每个句子对应的注意力权重A_i组成的矩阵。

单词注意力权重计算方式与句子注意力权重计算相似，只不过输入S改为H，其中H为向量h_t组成的矩阵。

根据句子注意力权重A_i和单词注意力权重a_ij计算第k个样本的输出向量x_k；输出向量x_k的表达式为：

将注意力机制得到的输出向量x_k作为输入，通过softmax(归一化指数函数)分类器来得到分类结果p_k，p_k表示样本k预测为正的概率,预测论点对是否为相对应的论点对：

p_k＝softmax(W^kx_k+b^k)

其中，softmax(.)表示对数据进行归一化处理，W^k表示输出向量x_k对应的权重矩阵，x_k表示注意力机制得到的输出向量，b^k表示输出向量x_k对应的偏置。

分类结果p_k最接近标注y_i的论点对则为最匹配的论点对，然后根据预测分类结果调整Att-BiLSTM分类模型和BERT模型的模型参数。

分类损失函数为：

其中，N表示样本总数，L_k表示第k个样本的损失，y_k表示第k个样本的标注，p_k表示样本k预测为正的概率。

采用Adam算法对网络模型中的权重W和偏置b进行优化，寻找最小损失函数，以下以权重W更新为例，偏置b的更新方式与权重W更新方式相同：

首先进行初始化v_dW和s_dW为0，其中v_dW为一阶矩向量s_dW为二阶矩向量，训练第t次迭代时：

v_dW＝β₁v_dW+(1-β₁)dW

s_dW＝β₂s_dW+(1-β₂)(dW)²

其中β₁，β₂为自行设置的超参数一般为0.9，dW为损失L对权重W的导数。

在使用Adam优化算法时要计算一阶矩向量偏差修正

和二阶矩向量偏差修正

最后进行更新权重W：

其中α为自行设置的学习率，ε为自行设置的较小的数防止分母太小导致数值不稳定，一般设置为10^-8，W表示更新后的权重，W_t-1表示上一次更新的权重。

经过上述Att-BiLSTM分类模型和上述BERT模型的训练以及优化，得到完整的能够预测法律判决书中诉方和辩方相对应论点对的模型。

使用Att-BiLSTM分类模型对数据论点对进行处理的过程包括：将相应的法律判决书进行预处理得到相应的诉方论点集和辩方论点集；将诉方论点集和辩方论点集中的论点组成论点对，即将每个诉方论点集与辩方论点集中所有论点一一组成论点对；以诉方论点为基准划分论点组，每个论点组中所有论点对输入到Att-BiLSTM分类模型中进行预测识别，计算出每个论点组中得分最高的论点对，将的得分最高的论点对作为最匹配的论点对，最终每个诉方论点都匹配到最相关的辩方论点，预测出相对应的论点对；使用论点对来进行司法判决。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于BERT和Att-BiLSTM的论点对识别方法，其特征在于，包括：获取法律判决书中的数据，对数据进行预处理；将预处理的数据输入到训练好的法律论点对分类模型中，识别出诉方辩方相对应的法律论点对，根据法律论点对进行司法判决；所述法律论点对分类模型包括BERT模型和基于注意力长短期记忆循环神经网络Att-BiLSTM分类模型；

法律论点对分类模型的训练过程包括：

2.根据权利要求1所述的一种基于BERT和Att-BiLSTM的论点对识别方法，其特征在于，对数据进行预处理的过程包括：

步骤3：去除句子集合中的特殊字符及标点符号。

3.根据权利要求1所述的一种基于BERT和Att-BiLSTM的论点对识别方法，其特征在于，得到论点对的语义向量的过程包括：

S33：将语义符号序列E输入到预训练的BERT模型中，得到论点对语义向量；论点对语义向量的表达式为：

C，T₁…T_N，T_SEP，T₁…T_M＝Bert(E)

4.根据权利要求1所述的一种基于BERT和Att-BiLSTM的论点对识别方法，其特征在于，得到预测分类结果的过程包括：