CN108197163A

CN108197163A - 一种基于裁判文书的结构化处理方法

Info

Publication number: CN108197163A
Application number: CN201711338564.6A
Authority: CN
Inventors: 武敏; 姚斌; 王珏
Original assignee: Shanghai Silver River Intelligent Intelligent Technology Co Ltd
Current assignee: Shanghai Silver River Intelligent Intelligent Technology Co Ltd
Priority date: 2017-12-14
Filing date: 2017-12-14
Publication date: 2018-06-22
Anticipated expiration: 2037-12-14
Also published as: CN108197163B

Abstract

本发明涉及一种基于裁判文书的结构化处理方法，本发明采用自然语言处理技术和高级机器学习技术，自动实现基于案由文本的关键词提取的案件类型分类，从而通过构建案件层次结构和设计的提取规则进行结构化处理，本发明通过相关词库的构建与扩展、裁判文书模块分割、设计确定聚簇数目K、初始聚类中心以及采用词语权重的增量作为第二特征选择来实现kmeans聚类算法的改进，并得到案例的类标签；根据不同案例类型创建不同层次框架，结合设计的提取规则，得到裁判文书的结构化处理。本发明可快递实现裁判文书的结构化处理。

Description

一种基于裁判文书的结构化处理方法

技术领域

本发明涉及文本数据结构化处理技术领域，尤其涉及一种基于裁判文书的结构化处理方法。

背景技术

随着司法改革的推进，我国司法改革的深度和宽度也在不断的扩展，民主、法治的思想也在慢慢的深入人心。其中，裁判文书的网上公开便是一个很好的例子，截止目前为止，互联网上公开的裁判文书达到三千多万篇，人们能够通过网络途径自由查阅和下载裁判文书，这意味着能更好的保障社会大众的知情权、参与权，提升法院司法公正的形象，树立司法权威。公开后的裁判文书信息，目前是主要以互联网网页的形式呈现，案件裁判文书虽然有一定的格式，但仍以大段文本的形式进行内容组织，对于裁判文书中的案号、原告、被告、判决法院、判决时间、案件分类等主要信息字段，是以自然行文的方式包含了在裁判文书中。如果需要更进一步挖掘和利用这些公开的裁判文书信息，就需要对案件的各个核心字段进行结构化处理，这通常由人工操作完成，即使熟练的人员日均处理案件结构化信息也就500条左右。对于如此规模的案件裁判文书信息数量，常见的人工加工处理明显在成本和效率两方面都存在不足。因此怎样利用信息加工的技术提升效率节约成本成了亟待解决的主要难题。

目前，在非结构化文本转化为结构化数据领域中已经存在大量的研究工作。专利CN106649844 A通过分词、词频统计后，再根据抽取所关注的目标领域，通过计算得出在输入文本中主题词与主题词所有左侧词共同出现的稳定性，通过训练设定阈值的方法得到输入文本主题相关的左侧主题词集合，最后过滤主题词，有效将海量非机构化文本数据转化为结构化或者半结构化数据。专利CN106844636 A利用深度学习算法对大量历史非结构化数据内容按照数据间的语义关系，采用时空分割、特征提取、对象识别等处理手段，实现非结构化数据项信息、情报的转化。专利CN 104899269 A公开了一种从病理报告文本数据的样本与指标的层次结构中提取出各个样本所对应的模板信息，采用计算指标名的TF值、IDF值和C_value值，筛选出满足相关阈值的指标名作为模板的成分，实现将非结构化的中文病理文本结构化。

裁判文书的结构化处理是对司法案件数据分析、深度挖掘的前提，不仅需要成熟的大数据挖掘技术，还需要制定司法专业领域的数据处理服务；目前主流常见的信息抽取技术方法分为统计和规则两种，基于统计的方法常常在某一特定领域内结构化处理结果准确率不高，指定的领域其行文特点相对特殊，无法直接移植到其他的领域。

发明内容

本发明为克服上述的不足之处，目的在于提供一种基于裁判文书的结构化处理方法，本发明采用自然语言处理技术和高级机器学习技术，自动实现基于案由文本的关键词提取的案件类型分类，从而通过构建案件层次结构和设计的提取规则进行结构化处理，本发明通过相关词库的构建与扩展、裁判文书模块分割、设计确定聚簇数目K、初始聚类中心以及采用词语权重的增量作为第二特征选择来实现kmeans聚类算法的改进，并得到案例的类标签；根据不同案例类型创建不同层次框架，结合设计的提取规则，得到裁判文书的结构化处理。

本发明是通过以下技术方案达到上述目的：一种基于裁判文书的结构化处理方法，包括如下步骤：

(1)获取并存储裁判文书信息，并对裁判文书信息进行数据清洗；

(2)基于裁判文书的文本特征进行相关词库的构建与扩展，包括裁判文书专业词库的构建、触发词表的构建与词语标注；

(3)根据裁判文书的书写结构特征，对裁判文书文档进行模块标注处理；

(4)利用常见的分隔标点和分隔词作为长句切分规则，采用正则表达式匹配规则对裁判文书中每个关键段落进行短句长句切分；

(5)根据裁判文书专用词库judgment.txt和停用词典stopword.txt对裁判文书进行处理，并结合触发词表的构建与词语标注将裁判文书数据表示为向量的形式；

(6)通过设计确定聚簇数目K、初始聚类中心以及采用词语权重的增量作为第二特征选择来实现kmeans聚类算法的改进，完成裁判文书聚类，并得到案例的类标签；

(7)创建基于裁判文书内容的层次结构，根据不同种类的裁判文书设计出相应的提取规则，并利用其得到裁判文书的结构化处理结果。

作为优选，所述步骤(1)具体为通过现有的中国裁判文书网站获取裁判文书信息，存储在数据库中；并对获取到的裁判文书信息进行数据清洗，将裁判文书内容为空或描述字段过少、重复的文本数据进行删除；将标点符号、半角全角、术语缩写、常见拼写错误进行检测并且修正；其中，在数据库中的存储格式为裁判文书序号、裁判文书内容两个字段；裁判文书序号是自然编号，无特殊意义；裁判文书内容字段为CLOB字段，存放整篇的文书内容。

作为优选，所述的相关词库的构建与扩展具体如下：

(2.1)裁判文书专业词库的构建：对裁判及法律相关的专业词汇进行总结、分类，以及词性标注，从而形成自定义裁判文书词库；

(2.2)触发词表的构建与词语标注：触发词指对抽取任务起到标志、识别作用，用于激活抽取任务的词汇；通过对大量裁判文书文本特征和表述规律的分析，为每个抽取任务建立其相应的触发词，分为六类：

1)作为触发词表示其右边可能是实体；

2)作为右触发词表示其左边可能是实体；

3)作为左边界表示该词有可能是实体词条的第一个成分；

4)作为右边界表示当前实体词条有可能到此结束；

5)作为内含词表示其往往作为实体内部成分；

6)当前词单独作为一个实体；

针对裁判文本数据中实体的结构和用字特征以及以上六类触发词信息，设计有7个标注符号：b、m、e、l、r、o、s；其中b,m,e分别表示实体左边界、内含词、右边界；l、r分别表示实体的左触发词和右触发词；s表示单词实体；o表示非实体词。

作为优选，所述对裁判文书文档进行模块标注处理具体为将裁判文书文档各模块的标注分别为：标题、案号、首部、事实、理由、裁判依据、裁判结果、尾部和落款。

作为优选，所述常见的分隔标点包括为逗号，句号，分号；分隔词为不影响核心语义的修饰词、副词，通常可作为一个词语的边界；所述短句长句的切分以标点符号为界，其中短句的切分以逗号及整理的分隔词词汇为界，长句的切分以分号、句号、段落标记为界。

作为优选，所述步骤(5)具体为：设总共有n篇裁判文书，d_i表示第i篇裁判文书，其数据集合表示为：D_n＝{d₁,d₂,...,d_i,...,d_n}，每篇裁判文书均进过模块块标注；根据裁判文书专用词库judgment.txt和停用词典stopword.txt进行分词处理，并结合触发词表与词语标注，将文本中出现的人名、机构名、文化程度、在职情况、地名、路段、日期的相关实体词使用其词语标注表示，最后得到裁判文书数据集合的语料库{w₁,w₂,...,w_i,...,w_N}，其中w_i表示语料库中的词语或者语料库中词语标注；则每篇裁判文书表示为三维向量的形式，设第i个裁判文书数据集表示为：d_i＝{(w₁,p₁,l_i),(w₂,p₂,l_i),...,(w_N,p_N,l_i)}，N是中所有词语的数量，w表示语料库中词语或者是语料库中词语标注，p表示语料库中单词对应出现的次数，l_i表示裁判文书分块后各个模块标识。

作为优选，所述步骤(6)具体如下：

(6.1)聚簇数目k的确定：设第i个裁判文书为d_i，共有n条裁判文书，其数据集合可表示为D_n＝{d₁,d₂,...,d_n}，则将其聚类为k个类别；

(6.2)裁判文书的初始聚类：采用余弦计算裁判文书与每个聚类中心的距离，选择距离最小作为聚类依据，如下式所示：

dis(d_i)^M＝min(sim(d_i,m_j))

其中，dis(d_i)^M是裁判文书d_i距离第j个聚类中心的最小余弦距离，且m∈M；

(6.3)采用词语整体权重TW的增量作为第二次特征选择：经过初始聚类后通过计算每个特征词对整个文本集相似性的贡献来衡量该特征的重要性，整个文本集的相似度可以看做所有特征词t对整个文本集相似度权重的累加，如下所示：

特征词t的权重定义为：

其中，f(t,d_i)是特征词在文本d_i的权重，采用下式计算得到：

表示第d_i篇裁判文书中特征词t_j的个数，表示第d_i篇裁判文书总的特征词个数；

其中，IDF的计算公式如下：

n表示总的裁判文书数量，n₁为包含特征项t的文档数，n₁＝m+c，m为某一类中包含特征项t的文档数，c为除去该类外特征项t的文档数；

设L为一个正数，将所有特征词按照f(t,d_i)的计算公式和IDF的计算公式所得的得分降序排列，选择TopL个分值的最高特征词，将文本集的词条矩阵中包含这些特征词的文本去掉，并将这些特征词从总的特征集中去掉；若词条矩阵中仍有文本未被覆盖，在新的词条举证中重新计算剩余特征词的得分，并按降序排序，继续选择TopL个特征，直到所有文本都被选择到特征词；

(6.4)更新聚类中心:更新词语整体权重TW后，将每个类中得到的词语整体权重TW作为新的聚类中心；

(6.5)重复步骤(6.2)-(6.4)，直到聚类中心不再变化；若不再变化，得到k个聚类和特征选择模型；

(6.6)案例的类标签的提取：聚类完成后，提取每个类别中词语整体权重比较高作为类的每个类别的关键词。

作为优选，所述步骤(6.1)具体步骤如下：

(6.1.1)使用文档频率DF进行第一步特征选择：文档频率DF是指在文本集中出现该词的文本数量；

(6.1.2)初始聚类中心的确定：

(6.1.2.1)设初始中心点集合M初始化为空集，即M＝{}，对于数据文本集D_n＝{d₁,d₂,...,d_n}，计算d_i与d_j两个文本集中某个模块的相似度s_i'，如公式(I)所示，再计算d_i与d_j两个文本集整体的相似度s_i，如公式(II)所示；

s_i＝α₁s'_i1+α₂s'_i2+...+...α_ls'_il (II)

其中公式(II)中，α₁,α₂,...,α_l表示裁判文书各个模块的权重，s'_i1,s'_i2,...,s'_il表示裁判文书各个模块对应相似度；公式(I)中，sim₁(d_i,d_j)表示裁判文书d_i与裁判文书d_j中共现词的余弦相似度，sim₂(d_i,d_j)表示非共现词数目之间比值，用广义Jaccard系数表示sim₂(d_i,d_j)，即当词语都出现，标记为1，都不出现标记为0，f₁表示词语都出现的累计值，f₀₀表示词语都不出现的累计值，其计算方法如公式(III)所示，α、β分别表示共现词语项与非共现词语对文本集整体相似度权重比，其中

根据公式(I)、(II)、(III)，选择s_i值中最大的文本作为第一个聚类中心，且M＝M∪{m₁}；

(6.1.2.2)从集合D_n中找到与m₁相似度最小的点作为第二个类的聚类中心m₂，使用余弦计算相似度，且M＝M∪{m₂}；

(6.1.2.3)选择满足公式(IV)的点m_i作为第i个中心点；

d(m_i,q)＝min(max{sim(d,q),q∈M},d∈D_n\M) (IV)

其中，d∈D_n\M表示d属于集合D_n和M的相对差集，是在集合D_n中，但不在集合M中的所有点，且m_i∈D_n\M；sim(d,q)代表点d和q的余弦相似度；

(6.1.2.4)将计算所得的所有点m_i并入中心点集M，M＝M∪{m₁}；

(6.1.2.5)重复步骤(6.1.2.3)和(6.1.2.4)，直到找到k个中心点，即M集合的个数为|M|＝k。

作为优选，所述步骤(7)的提取规则包括案号及案件类型、审判法院的提取规则、法律角色基本信息的提取规则、案件详情、案发时间及案发地点的提取规则。

本发明的有益效果在于：(1)本发明不仅制定了司法领域相关的专业词汇，还针对裁判文本信息中实体的结构和用字特征，以及文书撰写特点构建特征词典，更加保证了信息抽取的正确性；(2)本发明根据裁判文书内部结构特征，对其进行模块分割处理，不仅可以更加精确地抽取相关信息，更加快信息抽取速度；(3)本发明针对裁判文书案件事实部分的文本数据特性，提出了确定聚簇数目K、初始聚类中心方法以及采用词语权重的增量作为第二特征选择来对kmeans聚类算法改进，从而获得案例的类标签，通过类标签进行分类处理；(4)本发明针对不同案由类型的裁判文书制定相应的层次框架，搜索专业领域特征；(5)本发明针对不同层次的信息，指定不同的抽取规则。

附图说明

图1是本发明的流程示意图；

图2是本发明实施例的裁判文书模块标注示意图；

图3是本发明实施例的judgment.txt示意图；

图4是本发明实施例的停用词典stopword.txt示意图；

图5是本发明实施例的裁判文书本体内容设计的层级结构图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例：本实施例验证的数据是上海市某区人民法院刑事判决书以及民事判决书，由于涉及到个人隐私问题，则在下面的实施例说明中做了相关的脱敏处理。

一种基于裁判文书的结构化处理方法，流程如图1所示，其主要步骤如下：

步骤1：获取裁判文书信息及数据清洗：

通过现有的中国裁判文书网站获取裁判文书信息，并存储在数据库中，存储格式为裁判文书序号、裁判文书内容两个字段。其中裁判文书序号是自然编号，无特殊意义；裁判文书内容字段为CLOB字段，存放整篇的文书内容，本发明中主要对该字段中的结构化文档内容进行结构化处理。并将搜集到的数据进行数据清洗，将“裁判文书内容”为空或者字段过少、重复进行删除；将标点符号、半角全角、术语缩写、常见拼写错误进行检测并且修正。

步骤2：相关词库的构建与扩展：

步骤2.1裁判文书专业词库的构建

裁判文书中存在大量的人名、机构名、地名、路段、案件描述、犯罪类型及法律相关等专业词汇，仅仅依靠分词系统中的通用词典难以正确区分，分词的不准确又会造成数据的抽取的困难，因此需要建立一个裁判文书领域相关的专业词库，对裁判及法律相关的专业词汇进行总结、分类，以及词性标注；如机构名上海市浦东新区检察院。

步骤2.2触发词表的构建与词语标注

触发词指对抽取任务起到标志、识别作用，用于激活抽取任务的词汇，根据触发词的特性，定位抽取任务在文本中的大概位置，部分抽取任务还可以根据触发词直接定位抽取得到，在本发明中，通过对大量裁判文书文本特征和表述规律的分析，为每个抽取任务建立其相应的触发词，例如，裁判文书被告人的姓名前会有如“被告人”、“上诉人”、“辩护人”触发词等。如下所述：

①作为触发词表示其右边可能是实体。如“案值”、“高达”等词后往往是一个金额实体，用“amo”标识，表示货币金额；“被害人”、“被告人”、“上诉人”、“原告”等后面往往是一个人名实体，用“per”标识，表示人名；“暂住”、“住址”、“租住”等右边是一个住址实体，用“add”标识；在裁判文书后面的位置出现“根据”、“依照”、“依据”等词，右边往往是引用的法律条文、判决依据等法律相关实体，用“law”表示；另外表示年龄的单词一般有可能是在触发词左边或者右边出现，如“出生于****年**月**日”或者“****年**月**日生”，为了归一化，将出生年月按照系统当前日期换算为实际年龄，并且根据年龄段划分为未成年(指未满18周岁)、青年(满18周岁但未满30岁)、中年(满30周岁但未满45岁)、中老年人(满45岁但未满60岁)、老年人(满60周岁)等；

②作为右触发词表示其左边可能是实体。如“摧毁”，“打掉”，“抓获”等词左边多为机构名实体，用“org”标识；“人”，“籍”，“族”等词左边多为籍贯和民族的实体，分别用“nap”和“nat”标识；

③作为左边界表示该词有可能是实体词条的第一个成分，如“采取”、“利用”、“以”等词多做方式实体的左边界，用“mod”标识；

④作为右边界表示当前实体词条有可能到此结束。如“底”、“期间”，，“同年”、“同日”等多作为时间实体的右边界，“部门”、“办”、“处”等多作机构名实体的右边界等；

⑤作为内含词表示其往往作为实体内部成分。如“和”、“及”、“*”、“、”等词或符号多作方式、机构名或者人名等实体的内部成分。

⑥当前词单独作为一个实体，如“男”、“女”单独充当性别实体角色。

针对裁判文本数据中实体的结构和用字特征以及以上六类可利用的信息，可以设计7个标注符号：b、m、e、l、r、o、s。其中b,m,e分别表示实体左边界、内含词、右边界；l、r分别表示实体的左触发词和右触发词，他们不作为实体的内容，充当外部提示信息；s表示单词实体；o表示非实体词。

步骤3：裁判文书模块标注

通过与专业法官沟通及观察已经形成的裁判文书，发现每个段落都有其书写的规范和格式，因此根据裁判文书文本的书写结构特征，将其进行模块标注处理。根据每一段开头或者结尾部分及常用词表，对裁判文书文档进行模块标注处理。一般裁判文书的原告、被告及辩护人基本信息出现在文本的开始部分，中间部分一般描述与案件相关的内容，判决结果一般出现在文章靠后的部分，法律条文的引用也出现在文本后面等。因此，对裁判文书模块块标注后，就可以更加精确地找到相关结构化信息，也可以避免结构化处理的难度。各模块标注分别为：标题、案号、首部、事实、理由、裁判依据、裁判结果、尾部和落款等9大部分，如图2所示。

步骤4：对每个关键段落进行长句切分：

本发明中整理了常见的分隔标点和分隔词作为长句切分规则，采用正则表达式匹配规则对每个关键段落进行短句长句切分，初步保证切分后的短句不影响文本表达的含义。常见的分隔标点符号为逗号，句号，分号等，分隔词一般为不影响核心语义的修饰词、副词等，通常可以作为一个词语的边界。文本数据短句长句的切分以标点符号为界，其中短句的切分以“，”及整理的分隔词词汇为界，长句的切分以“；”、“。”、段落标记为界。

步骤5：文本数据预处理

中文是以字为单位，但单字通常难以表达清楚的意义，一般需要两个或两个以上的字体构成一个词才能描述一个具体意思。中文文本的分隔常是基于语句，没有具体的词边界，分词难度较大，容易出现错误分词，尤其是专业领域词汇，例如：“发卡银行”切分为“发卡/银行”，因此需要额外增加裁判文书相关词典，在本发明中的步骤2.1中已经详细说明裁判文书专业词库judgment.txt的构建；同时还需要进行停用词过滤，例如虚词、无意义的字序列片段以及常用的标点符号等，加入停用词典stopword.txt。

设总共有n篇裁判文书，d_i表示第i篇裁判文书，其数据集合表示为：D_n＝{d₁,d₂,...,d_i,...,d_n}，分别对每篇裁判文书进行步骤3的模块标注后，再根据其专业词典和停用词典进行分词处理，结合触发词表与词语标注，将文本中出现的人名、机构名、文化程度、在职情况、地名、路段、日期等相关的实体词使用其词语标注表示，最后得到裁判文书数据集合的语料库{w₁,w₂,...,w_i,...,w_N}，其中w_i表示语料库中的词语或者语料库中词语标注。则每篇裁判文书表示为三维向量的形式，设第i个裁判文书数据集表示为：d_i＝{(w₁,p₁,l_i),(w₂,p₂,l_i),...,(w_N,p_N,l_i)}，N是中所有词语的数量，w表示语料库中词语或者是语料库中词语标注，p表示语料库中单词对应出现的次数，l_i表示裁判文书分块后各个模块标识。

(1)例如裁判文书的“案件事实”部分为：2014年2月23日18时30分许，被告人***酒后驾驶牌号为沪*****的某牌汽车沿本区沪南公路由东向西逆向行驶至进新环西路西约一千米处时，适逢前方有突发交通事故，陈必庆急刹车致其摔倒在地，后陈必庆与前方交通事故中一方当事人刘向发生争执，刘向当场报警。经检验，事发时被告人陈必庆每毫升血液中含有乙醇1.45毫克，属醉酒。

(2)词典包括单词、词频和词性(可省略)，每行一个词，用空格隔开，部分司法与法律相关的词典judgment.txt如图3所示；

(3)矛盾调解部分停用词典stopword.txt如图4所示，每行一个词。

步骤6文本聚类：

裁判文书一般为民事裁判文书和刑事裁判文书，其中民事、刑事裁判文书又包括很多类别，如民事裁判文书又可分为人格权纠纷、婚姻家庭、继承纠纷、物权纠纷、合同无因管理、不当得利纠纷、知识产权与竞争纠纷、劳动争议与人事争议、侵权侵责等，而且每类案件的撰写特点也不同，因此需要根据“案件详情”进行聚类分析，将裁判文书分为小类进行处理。

本发明中采用通过设计确定聚簇数目K、初始聚类中心以及采用词语权重的增量作为第二特征选择来实现kmeans聚类算法的改进，从而实现裁判文书聚类。

聚类步骤如下所示：

(1)聚簇数目k的确定

刑事裁判文书共有8000条裁判文书数据，文本数据经过分词，去掉一些单词词频小于10且大于1000的单词，形成N维单词向量。

S1：使用文档频率DF进行第一步特征选择

对特征词统计词频和文档频率DF，过滤文档频率过低及过高的特征词，根据取值0.05％至1％中某一值，将出现频率低于该值的特征词过滤，同时过滤出现频率高于90％的特征词。

S2：初始聚类中心确定

①为避免将孤立点选为聚类中心风险，选择文本集中密度最大点作为初始聚类中心，例如：对于裁判文书集合，语料库为：{per1，per2，中年，青年，org，nap，sex，law，add，loc，危险，驾驶罪，离婚，性格不合，争吵不休，分家，金额}等。

例如：第d_i篇裁判文书“首部”与“事实”文本结构表示为：

首部l₃：{2，3，1，1，2，2，2，0，0，2，1，1，0，0，0，0，0}

事实l₄：{2，2，0，0，0，0，0，3，1，5，5，2，0，0，0，0，3}；

第d_j篇裁判文书“首部”与“事实”文本结构表示为：

首部l₃：{2，2，1，0，1，1，1，0，3，1，1，2，1，2，2，0，0}

事实l₄：{2，2，0，0，2，2，0，3，0，4，0，0，1，2，2，3，1}；分别采用公式(I)、公式(II)、公式(III)计算得到d_i关于危险驾驶类的裁判文书与其他文本对象相似度最大，因此将其计算出的s_i作为第一个聚类中心m₁。且M＝M∪{m₁}。

②从剩余的文本集合D_n中找出到与m₁相似度最小的点作为第二个类的聚类中心m₂，使用余弦计算相似度，且M＝M∪{m₂}；

③后续的聚类中心也从数据集合D_n和M的相对差集中，选择条件满足公式(IV)，并将计算结果所得到的所有点m_i并入中心点集M，M＝M∪{m₁}

④迭代步3，当相似值达到一定收敛时，直到找到k个中心点，k的值为18，即M集合的个数为18。

(2)裁判文书的初始聚类

文本数据经过向量化为多维向量，采用余弦相似度作为聚类的度量标准，按照如下公式计算每个案例与各个类中心的距离，获得裁判文书所属类别。

dis(d_i)^M＝min(sim(d_i,m_j))

(3)采用词语整体权重TW的增量作为第二次特征选择

经过初始聚类后，再通过计算每个特征词对整个文本集相似性的贡献来衡量该特征的重要性，整个文本集的相似度可以看做所有特征词t对整个文本集相似度权重的累加：

因此，特征词t的整体权重定义为：

其中，f(t,d_i)是特征词在文本d_i的权重，采用下式计算：

其中表示第d_i篇裁判文书中特征词t_j的个数，表示第d_i篇裁判文书总的特征词个数。

由于TF-IDF中计算IDF时没有考虑特征项与类别的依存关系。如果特征项在较多文档中出现，但是集中出现在某个类内，说明该特征项的分类能力很强，应该有比较高的权重，然而由于由于IDF值小，计算得到的权重较小。因此可以增加那些频繁出现在一个类中的特征项的权重来改进原始的TF-IDF公式；

其中，n表示总的裁判文书数量，n₁为包含特征项t的文档数，n₁＝m+c，m为某一类中包含特征项t的文档数，c为除去该类外特征项t的文档数。

设L为一个正数，将所有特征词按照f(t,d_i)的计算公式和IDF的计算公式所得的得分降序排列，首先选择TopL个分值的最高特征词，为了避免文本向量稀疏性，从文本集的词条矩阵中包含这些特征词的文本去掉，并将这些特征词从总的特征集中去掉。如果词条矩阵中仍有文本未被覆盖，在新的词条举证中重新计算剩余特征词的得分，并按降序排序，继续选择TopL个特征，直到所有文本都被选择到特征词。

每次迭代都更新TW值计算量相对较大，可迭代多次执行一次更新值，也可以设定一个聚类中心改变值的阈值，超过这个阈值时执行更新。

(4)更新聚类中心，将更新词语整体权重(TW)后，将每个类中得到的词语整体权重(TW)作为新的聚类中心；

(5)重复步骤(2)～(4)，直到聚类中心不再变化，则不再变化，得到每个聚类和特征选择模型；

(6)类标签的提取，聚类完成后，提取每个类别中词语整体权重比较高作为每个类别的关键词，由于2个类别与其他类别存在重复现象，因此在实施例中已经合并，具体如下表1所示。

表1

步骤7：基于层次结构的裁判文本信息抽取规则设计：

根据步骤6所述，刑事裁判文书可以分为16小类，分别为盗窃与偷盗，敲诈勒索，扰乱市场经济秩序，侵害公民人身权利、民主权利案件，强迫猥亵、侮辱妇女，拐卖人口，伪造公文、证件、印章，毒品、赌博、吸毒，知识产权，危险驾驶，妨害公司、企业的管理，贪污受贿、渎职，走私，危害国家安全、公共安全和国家利益，侵犯财产，其他等；同时民事裁判文书分为25类别，分别为生命权、健康权、身体权纠纷，姓名权、肖像权、名誉权、隐私权、人身自由权纠纷，婚姻家庭财产纠纷，同居关系纠纷，抚养、赡养、收养纠纷，财产、遗产继承纠纷，财产损害赔偿纠纷，相邻关系纠纷，共有纠纷，用益物权纠纷，劳动合同与用人争议纠纷，无因管理纠纷，侵权责任纠纷，与公司、证券、报销、票据等有关民事纠纷，海事海商纠纷，知识产权与竞争纠纷等等。

基于裁判文书内容的层次结构构建：裁判文书经过文本聚类后，针对不同种类的裁判文书，设计相应的提取规则；如图5是按照裁判文书本体内容设计的层级结构图。

案号及案件类型、审判法院提取：

案号是指区分各级法院办理案件的类型和次序的简要标识，是登记案件时所分配的案件号码，案号的基本要素的编排规格为收案年度、法院代字、类型代字、所处诉讼程序、案件编号等五部分组成，因此按照案号内部特征来进行汉字序列的匹配和限定，其提取规则为：根据文本分块标注后，先找到括号，判断括号内是否存在四个数字，接着判断右括号后面是否有1到10个汉字，然后这些汉字是否包含“刑”、“民”、“商”、“行”、“执”等简称，接下来的字符包含“字”或“第”，后面接下来包含0到10个数字，最后以“号”结束。案件类型的提取已经包含在案号提取过程中。

审判法院主要由地名、法院级别、法院类别及法院后缀词汇构成，主要存在于裁判文书的标题中的第一行，根据其规范约束，法院名称出现在最前面，因此利用正则表达式可提取

法律角色基本信息提取：

我们首先要提取的是法律角色的信息，其中法律角色涉及到原告、被告及辩护律师，但是只有在明确原告和被告的前提下，才能区分出参与案件的律师属于原告律师还是被告律师。根据观察发现，一般辩护律师信息出现在原告或者被告。以下是原告信息的提取规则为：

1)原告姓名一般出现在文本开始部分，词汇的词向标注为人名，并且左提示词集合为{申请执行人、公诉机关、原告、上诉人、原告人、申诉人、申请再审查人}等；

2)性别描述一般出现在姓名之后，再采用正则表达式提取；

3)户籍所在地、居住地等后面搭配的词的词性都为地名，因此可以采用正则表达式和词性标注结合的方法提取

4)类似于身份证号码、文化程度、民族、工作单位、犯罪类型等均可以采用正则表达式和词性标注结合的方法提取；

提取步骤为：

S1读入1条分块处理的文本并对其进行预处理及词性标注；

S2根据常用词表查找相关词汇；

S3向后查找/向前查找，判断搭配词词性，并且是否满足预先设定的正则表达式要求，如果满足，抽取该词汇；

S4若否，抽取结果标记NULL，继续步骤S2，直到遍历完所有词性，并保存抽取结果；

S5读取下一条分块处理的文本，重复S1-S4的操作。

一条分块处理的文本可能出现多个原告信息，同一个原告信息也可能出现多次，因此，需要将抽取的结果进行去重处理。

被告身份信息、辩护律师信息的提取与原告身份信息提取规则基本相同；

案件详情、案发时间及案发地点提取：

案件详情是人民法院对诉讼案件所涉及的具体事件及原由进行具体描述，一般单独出现在某个段落文本中间部分。根据步骤5分块标注发现，案件详情一般出现在案件调查结果，均是以在“经审理查明”、“经本院审理”、“XXXX人民检察院指控”、“公诉机关指控”、“现已审理终结”等关键短语为开头或者结尾的段落里，然后再通过步骤7对案件详情进行关键短语的提取。

其中，案发时间信息包含在案件详情中，抽取步骤：

1)读取1条分块处理的文本并对其进行预处理及词性标注；

2)查找连续词性为数值，并且数值后面还有“年”、“月”、“日”；

3)如果含有“同年”、“同月”、“同日”等词，则向上文继续查找，重复2)步骤，找到后进入步骤4)；

4)向后查找下文中是否含有实体词、触发词等组成的短语或者句子，如果是，抽取该时间，若否，抽取结果标记NULL，继续查找剩下的文本，继续步骤2)操作；

5)读取下一条分块处理的文本，重复步骤1)-步骤4)的操作。

6)保存抽取得到结果。

其中，案发地点抽取步骤：

1)读取1条分块处理的文本并对其进行预处理及词性标注；

2)查找连续词性为地名，向后查找下文中是否含有实体词、触发词等组成的短语或者句子，如果是，抽取该地名，若否，抽取结果标记NULL，继续查找剩下的文本，继续步骤2)操作；

3)读取下一条分块处理的文本，重复步骤1)-步骤3)的操作。

4)保存抽取得到结果。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种基于裁判文书的结构化处理方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于裁判文书的结构化处理方法，其特征在于：所述步骤(1)具体为通过现有的中国裁判文书网站获取裁判文书信息，存储在数据库中；并对获取到的裁判文书信息进行数据清洗，将裁判文书内容为空或描述字段过少、重复的文本数据进行删除；将标点符号、半角全角、术语缩写、常见拼写错误进行检测并且修正；其中，在数据库中的存储格式为裁判文书序号、裁判文书内容两个字段；裁判文书序号是自然编号，无特殊意义；裁判文书内容字段为CLOB字段，存放整篇的文书内容。

3.根据权利要求1所述的一种基于裁判文书的结构化处理方法，其特征在于：所述的相关词库的构建与扩展具体如下：

1)作为触发词表示其右边可能是实体；

2)作为右触发词表示其左边可能是实体；

3)作为左边界表示该词有可能是实体词条的第一个成分；

4)作为右边界表示当前实体词条有可能到此结束；

5)作为内含词表示其往往作为实体内部成分；

6)当前词单独作为一个实体；

4.根据权利要求1所述的一种基于裁判文书的结构化处理方法，其特征在于：所述对裁判文书文档进行模块标注处理具体为将裁判文书文档各模块的标注分别为：标题、案号、首部、事实、理由、裁判依据、裁判结果、尾部和落款。

5.根据权利要求1所述的一种基于裁判文书的结构化处理方法，其特征在于：所述常见的分隔标点包括为逗号，句号，分号；分隔词为不影响核心语义的修饰词、副词，通常可作为一个词语的边界；所述短句长句的切分以标点符号为界，其中短句的切分以逗号及整理的分隔词词汇为界，长句的切分以分号、句号、段落标记为界。

6.根据权利要求1所述的一种基于裁判文书的结构化处理方法，其特征在于：所述步骤(5)具体为：设总共有n篇裁判文书，d_i表示第i篇裁判文书，其数据集合表示为：D_n＝{d₁,d₂,...,d_i,...,d_n}，每篇裁判文书均进过模块块标注；根据裁判文书专用词库judgment.txt和停用词典stopword.txt进行分词处理，并结合触发词表与词语标注，将文本中出现的人名、机构名、文化程度、在职情况、地名、路段、日期的相关实体词使用其词语标注表示，最后得到裁判文书数据集合的语料库{w₁,w₂,...,w_i,...,w_N}，其中w_i表示语料库中的词语或者语料库中词语标注；则每篇裁判文书表示为三维向量的形式，设第i个裁判文书数据集表示为：d_i＝{(w₁,p₁,l_i),(w₂,p₂,l_i),...,(w_N,p_N,l_i)}，N是中所有词语的数量，w表示语料库中词语或者是语料库中词语标注，p表示语料库中单词对应出现的次数，l_i表示裁判文书分块后各个模块标识。

7.根据权利要求6所述的一种基于裁判文书的结构化处理方法，其特征在于：所述步骤(6)具体如下：

dis(d_i)^M＝min(sim(d_i,m_j))

特征词t的权重定义为：

其中，IDF的计算公式如下：

8.根据权利要求7所述的一种基于裁判文书的结构化处理方法，其特征在于：所述步骤(6.1)具体步骤如下：

(6.1.2)初始聚类中心的确定：

s_i＝α₁s'_i1+α₂s'_i2+...+...α_ls'_il (II)

(6.1.2.3)选择满足公式(IV)的点m_i作为第i个中心点；

d(m_i,q)＝min(max{sim(d,q),q∈M},d∈D_n\M) (IV)

(6.1.2.4)将计算所得的所有点m_i并入中心点集M，M＝M∪{m₁}；

9.根据权利要求1所述的一种基于裁判文书的结构化处理方法，其特征在于：所述步骤(7)的提取规则包括案号及案件类型、审判法院的提取规则、法律角色基本信息的提取规则、案件详情、案发时间及案发地点的提取规则。