CN105574084A

CN105574084A - 网页中案件信息的抽取方法

Info

Publication number: CN105574084A
Application number: CN201510910403.4A
Authority: CN
Inventors: 郝静; 张作职
Original assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Current assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2016-05-11

Abstract

一种网页中案件信息的抽取方法中，建立案件属性信息知识库，知识库中包括案件信息类型专有名词集、限定词集、禁止词集、案件主体专有修饰词集，对文本进行分词，并将文章分割成若干整句，结合知识库中词集翻译成对应规则，当扫描获知规则中对应的词集中的词出现，并且词后句式满足某一条规则，且该句内没有出现禁止词集时，说明该句满足此规则，根据规则中约束的字段位置抽取出法院的相关字段。本发明通过结合规则和词数集的方法，有针对性的抽取案件信息，通过该方法抽取的案件具有较高的准确率。

Description

网页中案件信息的抽取方法

技术领域

本发明涉及互联网信息采集的技术领域，具体说是一种网页中案件信息的抽取方法。

背景技术

随之互联网的快速发展，使得网页信息成为了一个巨大的信息发布源和传播源，且网页信息还在飞速增加，而网页中可能包含了用户所需的大量信息，如，对于某个案件的判决时间、判决结果等。

实际应用中，为了能够有针对性地向用户提供网页信息，一般通过网页信息提取的方式从存在的网页中提取有用的信息，并将提取出的信息提供给用户。现有技术中，提取网页信息时，可以通过关键字匹配等方法实现。具体的，通过关键字匹配法提取网页信息时，在目标网页的源代码中查找与预设的关键字相匹配的信息，并提取与预设的关键字相匹配的信息。应用上述方法能够由目标网页中提取出部分相关信息学，但是由于网页中所包含的信息量较大，有可能会存在多个与预设的关键字相匹配的信息，可能会造成所提取的信息中包含冗余信息或者错误信息，影响用户体验。当提取出的信息中包含冗余信息的情况下，如要剔除冗余信息，则需要对提取出的信息进行二次处理，信息提取效率低。

发明内容

本发明要解决的技术问题是提供一种网页中案件信息的抽取方法。

本发明为解决公知技术中存在的技术问题所采取的技术方案是:

本发明的网页中案件信息的抽取方法，包括以下步骤：

A、建立案件属性信息知识库，知识库中包括案件信息类型专有名词集、限定词集、禁止词集、案件主体专有修饰词集；

B、格式化网页源码，抽取出正文和标题内容；

C、扫描文本，对文本进行分词，并将文章分割成若干整句；

D、抽象出案件中关键字段的特有句式描述，并结合知识库中词集翻译成对应规则；

E、当扫描获知规则中对应的词集中的词出现，并且词后句式满足某一条规则，且该句内没有出现禁止词集时，说明该句满足此规则，根据规则中约束的字段位置抽取出法院的相关字段。

本发明还可以采用以下技术措施：

案件信息类型专有名词集中包括：公告信息、文书信息、被执行人信息、审判流程信息。

案件主体专有修饰词集中包括：被告、原告、当事人。

将文章中所有满足抽取规则的字段进行归一化处理。

本发明具有的优点和积极效果是:

本发明的网页中案件信息的抽取方法中，建立案件属性信息知识库，知识库中包括案件信息类型专有名词集、限定词集、禁止词集、案件主体专有修饰词集，对文本进行分词，并将文章分割成若干整句，结合知识库中词集翻译成对应规则，当扫描获知规则中对应的词集中的词出现，并且词后句式满足某一条规则，且该句内没有出现禁止词集时，说明该句满足此规则，根据规则中约束的字段位置抽取出法院的相关字段。本发明通过结合规则和词数集的方法，有针对性的抽取案件信息，通过该方法抽取的案件具有较高的准确率。

附图说明

图1是本发明的网页中案件信息的抽取方法的网页应用例。

具体实施方式

以下通过具体实施例对本发明进行详细说明。

本发明的网页中案件信息的抽取方法，包括以下步骤：

B、格式化网页源码，抽取出正文和标题内容；

C、扫描文本，对文本进行分词，并将文章分割成若干整句；

E、当扫描获知规则中对应的词集中的词出现，并且词后句式满足某一条规则，且该句内没有出现禁止词集时，说明该句满足此规则，根据规则中约束的字段位置抽取出法院的相关字段；

F、将文章中所有满足抽取规则的字段进行归一化处理。

案件主体专有修饰词集中包括：被告、原告、当事人。

以下为原、被告以及案号的具体抽取方式：

原告抽取：

一、定义

原告指在民事方面，以自己的名义提起诉讼，请求法院保护其权益，因而使诉讼成立的人。在法院信息抽取工作中，刑事案件的公诉方也要被提成原告。

二、句式抽象

将文章中会出现原告的句式抽象出来后，写成规则引擎支持的规则。抽取句式如下：

1、正文或标题有“原告”修饰词树集中内容的提示，其后的姓名或企业名称是原告。

例如：“上诉人A就XXXX提起上诉”。

2、句式：“A诉B****”。其中的A是原告。

例如：“本院受理A诉B、广东C有限公司水路货物运输合同纠纷一案”。

3、句式：“A申请执行BXXXX一案”。其中B是被告,A为原告。

4、句式：“强制执行A对BXXX一案”。其中A为原告，B为被告。

5、句式：“B与原告AXXX一案”。其中A为原告，B为被告。

6、句式：“本院受理A申请执行XXX”。其中A为原告。

7、句式：“关于A申请执行人申请执行XXXX”。其中A为原告。

8、句式：“本院受理A申请宣告XXX死亡一案”。其中A为原告。

9、句式：“A因不服XXXX，提出再审申请”。其中A为原告。

被告抽取：

一、定义

被告是被指控犯法的人。

二、句式抽象

1.案件中明显有“被告”修饰词树集中内容的提示，其后的姓名或企业名称是被告。标红是修饰词数集内容。

例如：“被执行人A，农民XXX”。

“被告人A犯非法占用农用地罪XXX”。

2、句式：“A诉B****”。其中B是被告。

3、句式：“B犯***”。其中B是被告。

4、句式：“B***罪一案”。其中B是被告。

5、句式：“A申请执行B一案”。其中B是被告,A为原告。

6、句式：“强制执行A对BXXX一案”。其中A为原告，B为被告。

7、句式：“B与原告AXXX一案”。其中A为原告，B为被告。

案号抽取：

一、定义

案号是指用于区分各级法院办理案件的类型和次序的简要标识，由中文汉字、阿拉伯数字及括号组成。

二、句式抽象

案号的基本要素为收案年度（时间）、法院代字（法院简称）、类型代字、案件编号（第XX号）。其中类型代字的组成是由一级类型简称+二级类型简称+三级类型简称。如果句式中包含这几个要素，则说明该句是一个案号。

其中各级类型及对应简称如下

1、一级类型及其简称

一级类型包括“管辖案件”、“刑事案件”、“民事案件”、“行政案件”、“国家赔偿案件”、“司法协助案件”、“司法互助案件”、“司法制裁案件”、“非诉保全审查案件”，“执行案件”。其对应简称为“辖、刑、民、行、赔、协、助、惩、保、执”。

2、二级类型

二级类型中刑事、民事、行政案件主要是根据适用的不同程序来区分，国家赔偿案件是根据行政赔偿、法院作为赔偿义务机关的刑事赔偿和赔偿义务机关不是法院的刑事赔偿来确定，同时考虑各种赔偿下所适用程序的特点；执行案件主要是依据执行实施、执行裁判和执行管理等方面的职权划分，非诉保全审查案件是依据财产、行为和证据等不同保全对象来区分；司法协助案件和司法互助案件则主要根据协助或互助的方式来区分，管辖案件是根据一级类型的案件来确定。二级类型根据程序的特点或具体情形确定相应的代字，除非相应的类型只有一种情形或者在简称选取上难以用贴切的简称且不取简称也不影响区分的，不再设置相应的简称。

3、三级类型

对于刑事、民事、行政以及行政赔偿诉讼案件，“初”字表示一审，“终”表示因提起上诉或抗诉启动的二审；因审判监督程序区分为两个阶段、各两种情形：一个阶段是启动再审的审查，具体分为法院依职权、检察院抗诉的监督审查和依申请的再审审查两种情形，分别取“监”、“申”；此时的“申”并非代表申诉或申请再审，而是指对申诉或再审申请的审查，这样与“再初”、“再终”字便可统一起来，即“再”字后面的代字表示适用的程序分别为申诉或申请审查、第一审程序、第二审程序。另一个阶段是再审审理，具体分为适用一审程序和适用二审程序再审的两种情形，分别以“再初”和“再终”来表示。

“监”字除了审判监督中的依职权监督审查情形下用之外，主要用于其他监督程序，包括不适用再审的审判监督、依当事人申诉或依职权或依检察监督启动的重新审查等等，在简称的取法上主要采取能够贴切反映该类型的核心标识。

案号样例如下：

例如：（2013）朝民初字第09374号

（2015）朝执字第04907号

三、案号优选

案件信息抽取对于案号字段有如下限制即一篇公告或判决只能出现一个案号。出现多个案号时，选择第一个作为这篇文章的案号。

通过上述对这几个字段会出现的句式进行抽象后，通过规则语法将其写成对应规则，以及规则中标记该字段出现位置。一条规则由分词+词数集+固定句式组成。在对文本进行从左至右依次扫描后，将满足某些规则的句子抽取出来，提取句子中由规则描述的字段，该字段即法院结果字段。

将文章中所有满足抽取规则的字段根据实际需求进行归一化处理。

根据上述规则抽取出案件信息的相关字段后，需要对字段进行合并处理。其中案件类型字段根据案号字段的类型代字抽取。网页中的一条案件信息包括：案号、案件信息类型、被告、原告、案由、当事人、审判地点、审理法院、判决时间、开庭时间以及案件类型中的若干个字段。

如图1所示，对网页中的民事裁定书抽取案件信息字段如下：

案号：(2011)天民三初字X号

案件类型：民

案由：著作权权属、侵权纠纷

判决时间：二○一一年三月十六日

被告：天水市麦积区XXX网吧

原告：宁波XX多媒体通信有限公司

审理法院：甘肃省天水市中级人民法院

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例公开如上，然而，并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰，成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种网页中案件信息的抽取方法，包括以下步骤：

B、格式化网页源码，抽取出正文和标题内容；

C、扫描文本，对文本进行分词，并将文章分割成若干整句；

2.根据权利要求1所述的网页中案件信息的抽取方法，其特征在于：案件信息类型专有名词集中包括：公告信息、文书信息、被执行人信息、审判流程信息。

3.根据权利要求1或2所述的网页中案件信息的抽取方法，其特征在于：案件主体专有修饰词集中包括：被告、原告、当事人。

4.根据权利要求3所述的网页中案件信息的抽取方法，其特征在于：还包括步骤F、将文章中所有满足抽取规则的字段进行归一化处理。