CN110532538A

CN110532538A - 财产纠纷裁判文书关键实体抽取算法

Info

Publication number: CN110532538A
Application number: CN201810508011.9A
Authority: CN
Inventors: 周晓磊; 王宁; 赵薛蛟; 李世林; 赵奎; 张镝; 祁柏林; 陈月; 白雪; 徐凯; 王丽丽; 刘堂亮; 李壮
Original assignee: Shenyang Institute of Computing Technology of CAS
Current assignee: Shenyang Institute of Computing Technology of CAS
Priority date: 2018-05-24
Filing date: 2018-05-24
Publication date: 2019-12-03
Anticipated expiration: 2038-05-24
Also published as: CN110532538B

Abstract

本发明涉及财产纠纷裁判文书关键实体抽取算法。该方法首先将用户输入的裁判文书筛去停用词并进行分句、分词、分字处理，然后将词序列集、字序列集分别与句序列集相关联。通过词序列集和预先选取的特征集进行比对，将对应的句子转换成特征向量并输入SVM中筛选出包含关键实体的句子。针对这类句子，将对应的字序列集转换成定长字向量序列集输入到BiLSTM‑CRF网络抽取出关键实体并将结果返回给用户。本发明方法通过相关实验验证了方法的准确性。

Description

财产纠纷裁判文书关键实体抽取算法

技术领域

本发明涉及深度学习和文本挖掘领域，具体的说是财产纠纷裁判文书关键是提抽取算法。

背景技术

随着国家法制建设不断进步，人们的法律意识不断增强，在遇到社会、经济生活中的纠纷时会自然的诉诸于法律审判。这类案件虽然简单易断，但由于数量急剧增多使得基层法院承受着十分沉重的工作压力。因此对于简单的财产纠纷案件做到自动审判不但可以缓解基层法官的工作压力使得同类型案件审判一致，更能增强民众用法律武器维护自身权利的动力。而财产纠纷案件中命名实体的正确识别是完成自动化审判的非常重要的一步。

因此本发明给出了一种针对财产纠纷裁判文书中关键实体的识别算法，可以快速准确的提取裁判文书中具有研究价值的关键实体。

发明内容

在分析财产纠纷裁判文书时发现，裁判文书中关键实体所占比重较少，很容易造成训练时数据失衡，本发明要解决的技术问题是平衡数据，并提高召回率和准确率。

本发明为实现上述目的所采用的技术方案是：财产纠纷裁判文书关键实体抽取算法，包括以下步骤：

步骤1：用户输入要识别的财产纠纷裁判文书；

步骤2：提取输入的财产纠纷裁判文书的案情部分，并进行分句处理；步骤3：将句子序列的每个句子经过分词并查找停用词表去除停用词，获取词序列集；

步骤4：提取词序列集中的单个文字，构成字序列集；

步骤5：将每条语句的词序列集通过比对特征集生成特征向量；

步骤6：将特征向量输入SVM模型判断其对应的句子是否包含关键实体；

步骤7：将包含关键实体的句子对应的字序列集转化成定长字向量序列集；

步骤8：将定长字向量序列集输入BiLSTM-CRF网络模型中得到关键实体抽取结果；

步骤9：将关键实体抽取结果返回给用户。

所述提取输入的财产纠纷裁判文书的案情部分，并进行分句处理，包括：

根据案情相关触发词提取案情部分；

根据句号进行分句得到句子序列。

所述案情相关触发词包括开始词和结束词；

所述开始词包括：“经审理查明”，“经审理认定”，“经开庭审理查明”，“经开庭审理认定”，“审理中查明”，“审理中认定”，“确定如下事实”，“认定如下事实”，“认定以下事实”，“查明如下事实”，“查明以下事实”，“本案事实如下”；

所述结束词包括：“本院认为”。

所述特征集的获取，包括：

1)在训练过程中，对经过分词和去停用词后的词序列集，人工标记区分正样本；正样本为包含关键实体的词序列集；关键实体为从语料中准确识别出的专有名词或有意义的数量短语；

采用TF-IDF算法计算某一给定词语在正样本中出现的频率：

上式中n_i是词t_i在所有正样本中出现的次数，∑_kn_k表示正样本中出现的所有的词的总数；

2)计算词t_i的逆向文件频率：

其中，|D|是正样本中总句子数，|{j:t_i∈d_j}|表示包含该词语的句子数目；

3)计算每个词的tfidf值tfidf_i＝tf_i×idf_i，并降序排序，选取前200个词作为特征集；

所述步骤5将每条语句的词序列集通过比对特征集生成特征向量，包括：判断句子中的词是否出现在特征集中，形成200维的特征向量。

所述步骤6中SVM模型的获取，包括：

根据如下公式求解w和b，建立SVM模型；

s.t.y_i(w^Tφ(x′_i)+b)≥1,i＝1,2,...,m

其中，φ为核函数，y_i为标签，x'_i为特征向量；i为句子序列号。

所述将特征向量输入SVM模型判断其对应的句子是否包含关键实体，包括：

将特征向量x'_i代入f(x′_i)＝w^Tφ(x′_i)+b计算f(x′_i)；若f(x′_i)>0则判断当前特征向量对应的句子包含关键实体；否则，不包含关键实体。

所述BiLSTM-CRF网络模型的训练步骤，包括：

定长字向量序列集输入BiLSTM-CRF网络，根据其被标注的标签训练得到BiLSTM-CRF网络模型。

所述标签的标注方法如下：

标注关键实体采用四词位法，四词位分别为OBME，用B表示词的开始，M表示词的中部，E表示词的结尾，O表示非关键实体词；

将关键实体中的财产实体分为金钱类money、非金钱类nonmoney、不动产类realestate和知识财产intelpropert；

对一段裁判文书中的字按照四词位法结合类型名称进行标注。

所述关键实体抽取结果为该财产纠纷裁判文书被标注为BME的内容。

本发明具有以下有益效果及优点：

1.本发明通过加入SVM，在训练模型时平衡了数据，在保持准确率的同时提高了召回率，并且在验证集上达到了很好的召回率和准确率。

2.本发明通过使用BiLSTM网络，能够很好的根据上下文信息抽取关键实体，比单向网络和传统的机器学习算法能够达到更高的准确率。

3.本发明通过使用CRF修正BiLSTM得到的结果，使结果标注符合OBME的标注顺序，让结果的召回率和准确率进一步提升。

附图说明

图1为本发明方法财产纠纷裁判文书关键实体抽取方法流程图；

图2为本发明中财产纠纷裁判文书实例。

具体实施方式

下面结合附图及实例对本发明做进一步的详细说明。

如图1所示，财产纠纷裁判文书关键实体抽取算法，包括以下步骤：

步骤1：用户输入要识别的财产纠纷裁判文书(word文档)；

步骤4：提取词序列集中的单个文字，构成字序列集；

步骤9：将关键实体抽取结果返回给用户。

其中，步骤2：

财产纠纷裁判文书的结构图如图2所示：

案情描述部分的开头触发词一般为：“经审理查明”,“经审理认定”,“经开庭审理查明”,“经开庭审理认定”,“审理中查明”,“审理中认定”,“确定如下事实”,“认定如下事实”,“认定以下事实”,“查明如下事实”,“查明以下事实”,“本案事实如下”,“查明事实如下”,“确定事实如下”等。而接下来的案情分析的开头触发词为“本院认为”。通过这些触发词，可以准确提取出裁判文书中案情描述部分。

实例：

提取的案情描述部分：原审查明，原告张某某与被告高某甲经人介绍认识，2012年元月16日(2011年农历腊月23日)原告张某某与被告高某甲按农村风俗举行婚礼同居生活，同居生活前被告高某乙收取原告彩礼40000元。

步骤3：将步骤二得到的句子进行分词，并根据停用词表剔除停用词。所述停用词表为在现有停用词表基础上可再删减。

实例：

分词并去除停用词结果：原审查明原告张某某被告高某甲介绍认识2012年元月16日2011年农历腊月23日原告张某某被告高某甲农村风俗举行婚礼同居生活同居生活被告高某乙收取原告彩礼40000元

步骤4：该步是将上述的结果分割成以字为单位的字序列集。

实例：

分字结果：原审查明原告张某某被告高某甲介绍认识2012年元月16日2011年农历腊月23日原告张某某被告高某甲农村风俗举行婚礼同居生活同居生活被告高某乙收取原告彩礼40000元。

步骤:5：然后跟据特征集将上述词序列集转换成特征向量序列。由于特征集的特征维度为200所以特征向量的长度也为200，当句子中的词出现在特征集时，则标为1，否则标为0。

步骤6：使用训练得到的w和b，将特征向量集x_i'输入到以下公式：

f(x′_i)＝w^Tφ(x′_i)+b

如果f(x′_i)>0，则判断出该句含有关键实体，进入下一步骤，如果f(x′_i)<0则滤掉。

由于使用SVM模块有两个目的，在模型训练阶段，SVM起到的作用是提升召回率。通过筛去大量的非关键实体句子，做到关键实体与非关键实体的数据平衡，使得训练在准确率保持比较高的同时，召回率也保持比较高的数值。在使用阶段，SVM起到的作用是提升准确率和速度。由于后续的BiLSTM-CRF模型在比较平衡的数据中训练，所以如果不通过SVM筛选，直接使用，会造成召回率高但准确率比较低的情况。另外直接使用二分类在初始状态进行筛选会提高提取速度。

步骤7：将判定含有关键实体的句子的字序列转换成字向量序列。转换方法是通过字向量对照集获得的。字向量对照集为训练时获得。由于汉字一共有8万多，常用的只有3500个，我们采用20位长度的向量，通过训练时进行的汉字排序数(训练时从1开始排)，将该数变为2进制放进20位长度向量中，而未出现的字则统一用全0的向量代替。

实例：

以原这个字为例，在训练时该字为第2次出现，它的二进制表示是10，放进20位向量中则是00000000000000000010，所以经过对照，将所有的字化为字向量序列。

步骤8：将上述的字向量序列以句为单位输入训练好的BiLSTM-CRF模型中，得到整个句子的标注结果。

运用BiLSTM+CRF模块进行关键实体抽取方法如下：

BiLSTM其原理是将两个时序方向相反的长短时记忆网络结构连接到同一输出,以此来获取历史和未来信息.因此相比于其他的RNN网络需要等到后面的时间节点才能获取未来信息,该网络结构可以更充分的利用上下文信息。

由于单独使用BiLSTM生成的结果可能在标注序列上并不满足OBME的顺序，所以本文在BiLSTM层上加上一个线性CRF模块用于修正。对于一个经过BiLSTM处理后的输出矩阵P，P的大小是n×k，其中n是句子中包含的词数，k表示标签的种类。其中P_i,j为该句第i个词映射到tag_j的非归一化概率，然后引入状态转移矩阵A，其中A_i,j表示时序上从第i个状态转移到第j个状态的概率，则对于一个观测序列X的对应的标记序列y＝{y₁,y₂,...,y_n},定义分数为:

对输入序列X的所对应的每个标记序列y计算max s(X,y),运用动态优化算法得到最终答案。

关键实体标注方法如下：关键实体采用四词位标注法，四词位分别为OBME，用B表示词的开始，M表示词的中部，E表示词的结尾，O表示非关键实体词。对于关键实体中的财产实体，根据其类型分为金钱类money、非金钱类nonmoney，实体类realestate和知识财产intelpropert。结合四词位法和类型名称对于一段裁判文书的标注结果，见下表：

步骤9：最后根据约定好的关键实体标注形式，抽取出句子中的关键实体“彩礼40000元”并返回给用户。

Claims

1.财产纠纷裁判文书关键实体抽取算法，其特征在于，包括以下步骤：

步骤1：用户输入要识别的财产纠纷裁判文书；

步骤2：提取输入的财产纠纷裁判文书的案情部分，并进行分句处理；

步骤3：将句子序列的每个句子经过分词并查找停用词表去除停用词，获取词序列集；

步骤4：提取词序列集中的单个文字，构成字序列集；

步骤9：将关键实体抽取结果返回给用户。

2.根据权利要求1所述的财产纠纷裁判文书关键实体抽取算法，其特征在于，所述提取输入的财产纠纷裁判文书的案情部分，并进行分句处理，包括：

根据案情相关触发词提取案情部分；

根据句号进行分句得到句子序列。

3.根据权利要求2所述的财产纠纷裁判文书关键实体抽取算法，其特征在于，所述案情相关触发词包括开始词和结束词；

所述结束词包括：“本院认为”。

4.根据权利要求1所述的财产纠纷裁判文书关键实体抽取算法，其特征在于，所述特征集的获取，包括：

1)在训练过程中，对经过分词和去停用词后的词序列集，人工标记区分正样本；正样本为包含关键实体的词序列集；

采用TF-IDF算法计算某一给定词语在正样本中出现的频率：

2)计算词t_i的逆向文件频率：

3)计算每个词的tfidf值tfidf_i＝tf_i×idf_i，并降序排序，选取前200个词作为特征集。

5.根据权利要求1所述的财产纠纷裁判文书关键实体抽取算法，其特征在于，所述步骤5将每条语句的词序列集通过比对特征集生成特征向量，包括：判断句子中的词是否出现在特征集中，形成200维的特征向量。

6.根据权利要求1所述的财产纠纷裁判文书关键实体抽取算法，其特征在于，所述步骤6中SVM模型的获取，包括：

根据如下公式求解w和b，建立SVM模型；

s.t.y_i(w^Tφ(x′_i)+b)≥1,i＝1,2,...,m

7.根据权利要求1所述的财产纠纷裁判文书关键实体抽取算法，其特征在于，将特征向量输入SVM模型判断其对应的句子是否包含关键实体，包括：

将特征向量x'_i代入f(x′_i)＝w^Tφ(′_i)+b计算f(x′_i)；若f(x′_i)>0，则判断当前特征向量对应的句子包含关键实体；否则，不包含关键实体。

8.根据权利要求1所述的财产纠纷裁判文书关键实体抽取算法，其特征在于，所述BiLSTM-CRF网络模型的训练步骤，包括：

将定长字向量序列集输入BiLSTM-CRF网络，根据其被标注的标签训练得到BiLSTM-CRF网络模型。

9.根据权利要求8所述的财产纠纷裁判文书关键实体抽取算法，其特征在于，所述标签的标注方法如下：

10.根据权利要求1所述的财产纠纷裁判文书关键实体抽取算法，其特征在于，所述关键实体抽取结果为该财产纠纷裁判文书被标注为BME的内容。