CN109344187A

CN109344187A - 一种司法判决书案情信息结构化处理系统

Info

Publication number: CN109344187A
Application number: CN201810989323.6A
Authority: CN
Inventors: 吴共庆; 汪瀛寰; 薛婵; 马凤君; 何颖; 李培培; 胡学钢; 吴信东
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2019-02-15
Anticipated expiration: 2038-08-28
Also published as: CN109344187B

Abstract

本发明公开了一种司法判决书案情信息结构化处理系统，适用于信息抽取和自然语言处理领域；系统包括以下模块：司法判决书案情信息结构化表示模块、建立司法判决书案情信息序列标注模型模块、属性触发词管理模块和生成结构化司法判决书案情信息模块。根据用户给定的案件类型，建立司法判决书案情信息结构化数据表示框架，构建司法判决书案情信息序列标注训练集并训练序列标注模型，结合属性触发词集合，根据生成结构化司法判决书案情信息方法生成结构化的司法判决书案情信息。本发明根据用户提供的司法判决书案件类型和案情信息，实现司法判决书案情信息的结构化处理，其目的在于提供一种从无结构化司法判决书文本中抽取结构化信息的有效方式。

Description

一种司法判决书案情信息结构化处理系统

技术领域

本发明涉及到信息抽取和自然语言处理领域，具体是一种司法判决书案情信息结构化处理系统。

背景技术

在司法公开的背景下，生效的司法判决书在互联网上公布，产生了大量真实有效的司法判决书数据。加强对司法判决书数据的研究应用是信息化建设的需要，是推进人民法院审判体系和审判能力现代化的需要，也是加速推进“智慧法院”建设和“智能检察院”建设的必然要求。目前，针对司法判决书数据的应用主要使用两类技术，分别是和基于规则的司法判决书信息抽取技术和基于搜索引擎的类案检索技术。

不同法院的司法判决书的内容组织形式基本相同，大多包括判决书基本信息、法律角色信息、起诉书信息、案情信息和判决信息五部分内容，并且各部分内容包含相对规范的线索词。基于规则的司法判决书信息抽取技术首先利用线索词构建规则表达式对司法判决书进行拆分，然后再根据各部分内容的不同陈述方式，分别构造不同的抽取规则进行语义信息的抽取。这类技术对司法判决书中的判决书基本信息和法律角色信息等部分的抽取准确率较高，但也存在不足之处：(1)规则需要由那些同时具备法律背景及计算机语言学背景的专家制作，导致规则的制定成本高。(2)不同类型的司法判决书有不同的表述方式，导致规则的类型多种多样，制定这些规则需要耗费大量的人力物力。(3)对于司法判决书中的案情信息和判决信息等部分，由于这些部分存在陈述方式的多样性和复杂性，因此仅依据规则难以准确抽取语义信息。

基于搜索引擎技术的类案检索技术，为用户提供相关司法判决书的检索功能，即根据用户输入的关键词，返回所有与关键词相关的司法判决书集合。但这类技术存在以下三点不足：(1)关键词涉及到与法律相关的专业词汇，如当事人、法官观点等，需要用户有相关的法律业务背景知识。(2)系统返回的是所有包含关键词的司法判决书，信息量大且不具有针对性。(3)返回的结果以完整的司法判决书形式呈现，需要用户花费大量时间阅读判决书以获取所需信息。

总之，现有的司法判决书数据的相关应用均集中在对司法判决书的简单检索，以及对司法判决书中部分数据的精确抽取工作上，未能充分考虑到司法判决书的内容冗长且陈述方式多样性的数据特点，不具备对案情信息等部分内容的精确抽取能力，因此难以满足面向司法判决书数据的后续分析需求。若能对司法判决书中的案情信息进行结构化处理，即从司法判决书案情信息中抽取有用信息，并以<属性，值>对的形式呈现出来，则能方便用户的查阅和后续的分析处理工作。

发明内容

本发明的目的是提供一种司法判决书案情信息结构化处理系统，依托事件抽取、序列标注和<属性,值>对抽取技术，可以从无结构且冗长的司法判决书案情信息中抽取案件的<属性,值>对信息，并以树状结构化数据表示框架向用户展示，解决了基于规则的司法判决书案情信息抽取技术在制定规则时的高成本问题，以及基于搜索引擎的类案检索技术对法律业务背景知识的要求高、检索结果的信息覆盖率低、难以满足面向司法判决书案情信息的后续分析需求的问题。

为了达到上述目的，本发明所采用的技术方案为：

一种司法判决书案情信息结构化处理系统，其特征在于，包括：

司法判决书案情信息结构化表示模块：给定案件类型，建立所述案件类型的司法判决书案情信息结构化数据表示框架；所述司法判决书案情信息结构化数据表示框架是树状数据表示框架，树的叶节点存储属性信息，树的内部节点存储属性的类别；所述属性信息包括属性名、属性值类型和<属性，值>对集合；

建立司法判决书案情信息序列标注模型模块：给定案件类型的司法判决书案情信息集合，根据司法判决书案情信息序列标注预处理方法构建司法判决书案情信息序列标注训练集；根据司法判决书案情信息序列标注建模方法，使用司法判决书案情信息序列标注训练集建立所述案件类型的司法判决书案情信息序列标注模型；

属性触发词管理模块：为给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性管理一份触发词集合，使用属性触发词集合初始化方法对给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性的触发词集合进行初始化，所述触发词是一个字符串；

生成结构化司法判决书案情信息模块：给定案件类型的司法判决书案情信息，根据给定案件类型的司法判决书案情信息结构化数据表示框架、给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性的触发词集合、给定案件类型的司法判决书案情信息序列标注模型和生成结构化司法判决书案情信息方法生成结构化司法判决书案情信息；所述结构化司法判决书案情信息在结构上和司法判决书案情信息结构化数据表示框架相同，其中每个属性的<属性，值>对集合根据给定案件类型的司法判决书案情信息的内容生成。

所述司法判决书案情信息序列标注预处理方法，其步骤如下：

步骤2-1：以司法判决书案情信息结构化数据表示框架中属性信息的属性名为标签，手工标记给定案件类型的司法判决书案情信息集合中描述属性的句子；

步骤2-2：抽取包含属性名标签的所有句子，依据属性名对句子进行分组，并去除句子中的标签，每个分组为一个属性的序列集合；所述序列是指描述属性的一个句子；

步骤2-3：利用自然语言处理工具处理各属性的序列集合，并手工给序列集合中构成序列的每个元素标记一个标签，构建司法判决书案情信息序列标注训练集；所述元素是指构成序列的一个字符串及经自然语言处理工具处理后所得的特征；所述标签，对于值为布尔型的属性，标签类型包括T和O，对于值为字符串型的属性，标签类型包括T、A、V和O，其中，T为触发词，O为其他，A为属性，V为属性值。

所述属性触发词集合初始化方法为：对于司法判决书案情信息结构化数据表示框架中的每个属性，使用建立司法判决书案情信息序列标注模型模块中司法判决书案情信息序列标注预处理方法构建的司法判决书案情信息序列标注训练集，抽取标签为T的字符串加入给定案件类型的司法判决书案情信息结构化数据表示框架中该属性的触发词集合。

所述司法判决书案情信息序列标注建模方法，其步骤如下：

步骤4-1：对于值为布尔型的属性，训练基于T、O的序列标注模型；

步骤4-2：对于值为字符串型的属性，训练基于T、A、V、O的序列标注模型。

所述给定案件类型的司法判决书案情信息结构化数据表示框架由司法判决书案情信息结构化表示模块建立；所述给定案件类型的司法判决书案情信息序列标注模型由建立司法判决书案情信息序列标注模型模块构建。

所述生成结构化司法判决书案情信息方法，其步骤如下：

步骤6-1：根据给定案件类型的司法判决书案情信息结构化数据表示框架生成一份司法判决书案情信息结构化数据表示实例；所述司法判决书案情信息结构化数据表示实例初始化为给定案件类型的司法判决书案情信息结构化数据表示框架的一个副本，司法判决书案情信息结构化数据表示实例中属性信息的<属性，值>对集合初始化为空集合；

步骤6-2：给定一份司法判决书案情信息，以“。”为分隔符对司法判决书案情信息进行分句处理；遍历所有分句，使用给定案件类型的司法判决书案情信息结构化数据表示框架中每个属性的触发词集合，如果分句中包含触发词集合中的触发词，则将分句加入该属性的候选序列集合中；所述候选序列是指可能用于描述属性的一个句子；

步骤6-3：对司法判决书案情信息结构化数据表示实例中的每个属性，选择相应属性的序列标注模型标注候选序列集合；对于值为布尔型的属性，若标注结果中包含触发词标签，则将<属性名，T>加入司法判决书案情信息结构化数据表示实例中属性信息的<属性，值>对集合，若触发词标签标注的字符串不在属性的触发词集合中，则调用属性触发词管理模块将触发词标签标注的字符串添加到属性的触发词集合中；对于值为字符串型的属性，若标记结果中包含触发词、属性和属性值标签，则依据<属性，值>对生成方法生成<属性，值>对集合并添加到司法判决书案情信息结构化数据表示实例中属性信息的<属性，值>对集合，若触发词标签标注的字符串不在属性的触发词集合中，则调用属性触发词管理模块将触发词标签标注的字符串添加到属性的触发词集合中；

步骤6-4：将司法判决书案情信息结构化数据表示实例作为结构化司法判决书案情信息输出。

所述<属性，值>对生成方法，其步骤如下：

步骤6-3-1：抽取标记结果中同时包含触发词、属性和属性值标签的序列，构成序列集合；创建三个集合，分别是属性集合、属性值集合和<属性，值>对集合，均初始化为空集合；

步骤6-3-2：依次遍历序列集合的每个序列；

步骤6-3-3：依次遍历当前序列的每个元素；若元素的标签为属性，则将元素中的字符串加入属性集合；若元素的标签为属性值，则将元素中的字符串加入属性值集合；若元素的字符串为“，”或“；”，若属性集合和属性值集合均不为空，则将属性集合和属性值集合的笛卡尔积加入到<属性，值>对集合，清空属性集合和属性值集合，转步骤6-3-3；若元素的字符串为“，”或“；”，若属性集合或属性值集合为空，转步骤6-3-3；若元素的字符串为句尾，若属性集合和属性值集合均不为空，则将属性集合和属性值集合的笛卡尔积加入到<属性，值>对集合，则清空属性集合和属性值集合，转步骤6-3-2；若元素的字符串为句尾，若属性集合或属性值集合为空，则清空属性集合和属性值集合，转步骤6-3-2；所述句尾为用户自定义的序列结束标志。

与已有技术相比，本发明的有益效果体现在：

(1)处理的信息具有较好的针对性。司法判决书案情信息是司法判决书中内容语义最为复杂且用户感兴趣的信息。面向司法判决书的案情信息进行结构化处理，处理的信息具有较好的针对性。

(2)处理后的信息具有良好的结构化特征，方便用户做进一步的分析工作。通过司法判决书案情信息结构化数据表示框架，使得案情信息数据具有良好的层次结构。通过<属性，值>对抽取技术从案情事件中抽取案情信息属性的属性值，以<属性，值>对集合的形式表示案情信息的关键内容，具有较好的结构化特征。

(3)系统处理的效率较高。通过利用事件抽取技术中的事件触发词定位案情的候选事件，避免了对不相干事件的处理，使得系统处理的效率较高。

(4)系统处理的准确率较高且成本低。系统采用了利用序列标注模型标注后再抽取的<属性，值>对抽取技术，比基于规则的<属性，值>对抽取技术抽取准确率更高，并且无需专家制定抽取规则，使得成本较低。

本发明适用于司法判决书案情信息结构化处理领域，不要求用户具备较多的司法领域专业知识和计算机领域专业知识，即可对司法判决书案情信息进行结构化处理。

附图说明

图1为本发明一种司法判决书案情信息结构化处理系统的流程图。

图2为机动车事故司法判决书案情信息结构化数据表示框架。

图3为处理后的结构化司法判决书案情信息。

具体实施方式

一种司法判决书案情信息结构化处理系统，包括以下模块：

建立司法判决书案情信息序列标注模型模块中司法判决书案情信息序列标注预处理方法的步骤如下：

属性触发词管理模块中属性触发词集合初始化方法为：对于司法判决书案情信息结构化数据表示框架中的每个属性，使用建立司法判决书案情信息序列标注模型模块中司法判决书案情信息序列标注预处理方法构建的司法判决书案情信息序列标注训练集，抽取标签为T的字符串加入给定案件类型的司法判决书案情信息结构化数据表示框架中该属性的触发词集合。

建立司法判决书案情信息序列标注模型模块中司法判决书案情信息序列标注建模方法的步骤如下：

生成结构化司法判决书案情信息模块中生成结构化司法判决书案情信息方法的步骤如下：

所述<属性，值>对生成方法，其步骤如下：

步骤6-3-2：依次遍历序列集合的每个序列；

具体实施例：

本实施例以机动车事故司法判决书案情信息结构化处理为例，司法判决书案情信息结构化处理系统按图1所示流程进行机动车事故司法判决书案情信息结构化处理。

(1)如图1的S101所示，调用司法判决书案情信息结构化表示模块，根据给定的机动车事故案件类型，建立机动车事故司法判决书案情信息结构化数据表示框架。对于机动车事故案件，用户通常希望了解事故中的主体责任类型、事故造成的伤残等级、车辆所购买的保险类型等信息，或者希望了解司法判决书中是否含有特定情形的描述。因此，可建立如图2所示的机动车事故司法判决书的案情信息结构化数据表示框架。

(2)如图1中的S102所示，调用建立司法判决书案情信息序列标注模型模块，根据司法判决书案情信息序列标注预处理方法构建机动车事故司法判决书案情信息序列标注训练集。

以机动车事故司法判决书案情信息结构化数据表示框架中属性信息的属性名为标签，创建诸如<伤残>、<保险>等标签，利用标签标记给定的机动车事故司法判决书案件信息集合中用于描述相应属性的句子。从标签标记后的机动车事故司法判决书案情信息集合中抽取包含标签的句子，并依据属性对句子进行分组。去除各分组句子中的标签，这样每个分组即为一个属性的序列集合。对一篇机动车事故司法判决书案情信息进行标签标注和分组的结果如表1所示。

表1.机动车事故司法判决书标签标注和分组结果

利用哈工大社会计算与信息检索研究中心研发的“语言技术平台(LTP)”自然语言处理工具对各属性的序列集合中的每个序列进行分词、词性标注和句法分析处理，处理后的一个序列由多个元素构成，每个元素结构形如{字符串词性特征句法结构特征}。手工给各属性的序列集合中构成序列的每个元素标记一个标签，构建机动车事故司法判决书案情信息序列标注训练集，其中对于值为布尔型的属性，标签类型包括“T”(触发词)和“O”(其他)。对于值为字符串型的属性，标签类型包括“T”(触发词)、“B-A”(属性前)、“M-A”(属性中)、“E-A”(属性后)、“B-V”(属性值前)、“M-V”(属性值中)、“E-V”(属性值后)和“O”(其他)。以处理“全部责任”属性序列集合中的一个序列为例，该序列经自然语言处理工具处理后的结果如表2左所示；经手工标注后的结果如表2右所示。

表2.“全部责任”属性的一个序列经自然语言处理及手工标记的结果

(3)如图1的S103所示，调用建立司法判决书案情信息序列标注模型模块，使用机动车事故司法判决书案情信息序列标注训练集建立机动车事故司法判决书案情信息序列标注模型。

本实施例采用的序列标注模型是条件随机场模型，所使用的工具为CRF++。对于诸如“交强险限额分配”等值为布尔型的属性，调用CRF++工具训练基于“T”(触发词)和“O”(其他)的条件随机场模型。对于诸如“伤残”、“保险”等值为字符串类型的属性，调用CRF++工具训练基于“T”(触发词)、“A”(属性)、“V”(属性值)和“O”(其他)的条件随机场模型。所有属性的序列标注模型构成机动车事故司法判决书案情信息序列标注模型。

(4)如图1的S104所示，调用属性触发词管理模块，使用属性触发词集合初始化方法对机动车事故司法判决书案情信息结构化数据表示框架中每个属性管理的触发词集合进行初始化。

对于机动车事故司法判决书案情信息结构化数据表示框架中的每个属性，分别抽取属性序列标注训练集中标签为“T”的元素，将元素中的字符串加入属性所管理的触发词集合中，完成触发词集合的初始化工作。机动车事故司法判决书的部分触发词集合如表3所示。

表3.机动车事故司法判决书的部分触发词表

序号	属性名	触发词集合
			1	主要责任	认定、认定书
2	次要责任	认定、认定书
			3	同等责任	认定、认定书
4	全部责任	认定、认定书
			5	无责任	认定、认定书
6	伤残	鉴定、评定、构成
			7	保险	投保、承保、购买、参保
8	交强险限额分配	比例、分摊
			9	车内物品损失	造成
	……	……

(5)如图1的S105所示，调用生成结构化司法判决书案情信息模块，利用生成结构化司法判决书案情信息的方法生成结构化的机动车事故司法判决书案情信息。具体操作如下：

步骤S105-1：生成机动车事故司法判决书案情信息结构化数据表示框架的一个副本，并将其中属性信息的<属性，值>对集合初始化为空集合，做为一份机动车事故司法判决书案情信息结构化数据表示实例。

步骤S105-2：给定一篇机动车事故司法判决书案情信息，以“。”为分隔符对机动车事故司法判决书案情信息进行分句处理，形成该机动车事故司法判决书案情信息的分句集合。遍历所有分句，使用机动车事故司法判决书案情信息结构化数据表示框架中每个属性的触发词集合，如果分句中包含触发词集合中的触发词，则将分句加入该属性的候选序列集合中。一篇机动车事故司法判决书案情信息的候选序列集合如表4所示。

表4.司法判决书案情信息的候选序列集合

步骤S105-3：对机动车事故司法判决书案情信息结构化数据表示实例中每个属性的候选序列集合，选择机动车事故司法判决书案情信息序列标注模型中相应属性的序列标注模型进行标注。以标注“保险”属性的候选序列集合为例，首先调用司法判决书案情信息序列标注预处理方法中的自然语言处理工具，对候选序列集合中的每个序列做与训练集同样的处理，即分词、词性标注和句法分析处理；然后选用机动车事故司法判决书案情信息序列标注模型中“保险”属性的序列标注模型进行标注，标注结果如表5所示。

表5.“保险”属性的候选序列集合标注结果

对于诸如“交强险限额分配”等值为布尔型的属性，若标注结果中包含触发词标签，则将<属性名，T>加入司法判决书案情信息结构化数据表示实例中属性信息的<属性，值>对集合，若触发词标签标注的字符串不在属性的触发词集合中，则调用属性触发词管理模块将触发词标签标注的字符串添加到属性的触发词集合中。对于诸如“保险”等值为字符串型的属性，则按照以下步骤生成<属性,值>对：

步骤S105-3-1：“B-A”或“M-A”或“E-A”为“-A”类标签，“B-V”或“M-V”或“E-V”为“-V”类标签，抽取标记结果中同时包含“T”、“-A”类标签和“-V”类标签的序列构成序列集合，因此“保险”属性的序列集合中只有表5中序号为1序列；创建三个集合，分别是属性集合、属性值集合和<属性，值>对集合，均初始化为空集合。

步骤S105-3-2：依次遍历序列集合的每个序列。

步骤S105-3-3：依次遍历当前序列的每个元素。若元素的标签为“T”，若该元素中的字符串不在属性的触发词集合中，则调用属性触发词管理模块将触发词标签标注的字符串添加到属性的触发词集合中。标签后缀为“-A”的元素是指标签为“B-A”或“M-A”或“E-A”的元素，若元素的标签为“B-A”，则按照“B-A+M-A+E-A”的顺序组合相邻的标签后缀为“-A”元素中的字符串，并将组合后的字符串加入属性集合。后缀为“-V”的元素是指标签为“B-V”或“M-V”或“E-V”的元素，若元素的标签为“B-V”，则按照“B-V+M-V+E-V”的顺序组合相邻的标签后缀为“-V”元素中的字符串，并将组合后的字符串加入属性值集合。若元素的字符串为“，”或“；”，若属性集合和属性值集合均不为空，则将属性集合和属性值集合的笛卡尔积加入到<属性，值>对集合，清空属性集合和属性值集合，转步骤S105-3-3。若元素的字符串为“，”或“；”，若属性集合或属性值集合为空，转步骤S105-3-3。定义句尾为空串，若元素的字符串为句尾，若属性集合和属性值集合均不为空，则将属性集合和属性值集合的笛卡尔积加入到<属性，值>对集合，清空属性集合和属性值集合，转步骤S105-3-2。若元素的字符串为句尾，若属性集合或属性值集合为空，则清空属性集合和属性值集合，转步骤S105-3-2。笛卡尔积的计算公式如下：属性集合×属性值集合＝{<属性，值>|属性∈属性集合∧值∈属性值集合}。

步骤S105-4：将机动车事故司法判决书案情信息结构化数据表示实例作为结构化司法判决书案情信息输出，如图3所示。

Claims

1.一种司法判决书案情信息结构化处理系统，其特征在于，包括：

2.根据权利要求1所述的司法判决书案情信息结构化处理系统，其特征在于：所述司法判决书案情信息序列标注预处理方法，其步骤如下：

3.根据权利要求2所述的司法判决书案情信息结构化处理系统，其特征在于：所述属性触发词集合初始化方法为：对于司法判决书案情信息结构化数据表示框架中的每个属性，使用建立司法判决书案情信息序列标注模型模块中司法判决书案情信息序列标注预处理方法构建的司法判决书案情信息序列标注训练集，抽取标签为T的字符串加入给定案件类型的司法判决书案情信息结构化数据表示框架中该属性的触发词集合。

4.根据权利要求2所述的司法判决书案情信息结构化处理系统，其特征在于：所述司法判决书案情信息序列标注建模方法，其步骤如下：

5.根据权利要求1所述的司法判决书案情信息结构化处理系统，其特征在于：所述给定案件类型的司法判决书案情信息结构化数据表示框架由司法判决书案情信息结构化表示模块建立；所述给定案件类型的司法判决书案情信息序列标注模型由建立司法判决书案情信息序列标注模型模块构建。

6.根据权利要求1所述的司法判决书案情信息结构化处理系统，其特征在于：所述生成结构化司法判决书案情信息方法，其步骤如下：

7.根据权利要求6所述的司法判决书案情信息结构化处理系统，其特征在于：所述<属性，值>对生成方法，其步骤如下：

步骤6-3-2：依次遍历序列集合的每个序列；