CN104572849A

CN104572849A - 基于文本语义挖掘的标准化自动建档方法

Info

Publication number: CN104572849A
Application number: CN201410777530.7A
Authority: CN
Inventors: 程宏亮; 梁栋; 卢耀宗; 强劲; 张兵; 刘华兴; 张小平
Original assignee: Xi'an Merit Data Technology Co Ltd
Current assignee: Xi'an Merit Data Technology Co Ltd
Priority date: 2014-12-17
Filing date: 2014-12-17
Publication date: 2015-04-29

Abstract

本发明涉及一种基于文本语义挖掘的标准化自动建档方法,其特征在于：从网上爬取文件，利用文本语义，对爬取的文件和本地文件进行信息抽取、关键词提取和自动摘要生成，最后存入信息化系统中。所述信息抽取,采用知识工程的方法建立规则集，自动将信息点从文档中抽取出来，形成结构化数据；所述关键词提取,主要是根据词语在文章的位置和语义，提取关键词，生成关键词索引；所述自动摘要,先设定摘要所要包含的内容，然后从文本中提取对应信息，计算句子间的相似度，抽取包含原文档中关键信息的文本。本发明之标准化自动建档方法，可以使业务人员免于阅读大量的文件，节省时间和人力，方便查询和使用。

Description

基于文本语义挖掘的标准化自动建档方法

技术领域

本发明涉及一种文本语义分析技术的工程化应用。具体地说是将文本语义分析相关技术（信息抽取、关键词提取、自动摘要）应用到一类文本（有一定的内容和格式要求）中，形成一种文档标准化自动建档的方法。

背景技术

档案的种类很多,如人事档案、财务档案、技术档案、合同档案、案件档案,等等。档案和档案管理,是各企事业单位、政府部门等不可或缺的一项重要工作。

很多企业、政府部门等,都保有大量的文本文件，特别是一些有格式、内容要求的文本文件（如法院的法律文书、公安部门的犯罪案件信息、企业存放的合同等），这些文件是以自由文本形式存在，传统方法进行查询文本信息时,通常只是根据关键字进行查询，需要花费大量的时间查找所要的文件,但这会检索出大量无用的信息,还需要采用信息抽取技术从这些文件中抽取结构化信息，存入信息化系统中，以便提高查询的效率和查询结果的有效性，方便用户使用。

1.网络爬虫

所谓网络爬虫(Web Spider),是一个自动提取网页的程序，它可以从万维网上自动下载网页，并将收集到的信息存储到本地数据库中。网络爬虫用来从互联网上的海量信息中,抓取网页信息。

传统网络爬虫,包括一个协议处理模块，URL处理模块和内容检测模块。其中，协议处理模块用来提供网络爬虫在爬行时所需的网络协议;URL处理模块负责对采集的URL进行排序;内容检测模块用来处理网络上大量存在、内容重复的页面，以提高网络爬虫的工作效率。

传统的网络爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL列表，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。所有被爬虫抓取的网页会被系统存储，进行一定的分析和过滤。目前主流的网页搜索策略主要有三种，即深度优先、广度优先、最佳优先。

2.文本预处理技术

文本预处理是进行后续挖掘的基础，其主要包括以下几个方面：

分词，对文本信息进行分析，便于提取关键词；常用的分词算法包括：基于字符串匹配的算法、基于理解的分词算法、基于统计的分词算法；

文本表示，要使计算机能够高效地处理真实文本，就必须找到一种理想的形式表示方法，这种表示一方面能够真实地反映文档的内容，另一方面，要有对不同文档的区分能力。常用的文本表示方法有向量空间模型、概念模型、概率模型等；

特征选择：特征选择能剔除不相关或冗余的特征，选出能够很好反映文本内容的词，由此降低文本向量空间维数，提高分类器的分类效率和分类精度。目前已有的特征选择方法比较多，常用的有：词频方法、文档频次方法、信息增益法，统计量法和互信息方法等；

特征约减，综合考虑各特征，通过原始特征的组合（线性）或转换（非线性）得到的新特征，使其具有更好的分类特征。该方法能够较好地处理多义词（降低精度）、同义词（降低召回率）问题。常用的特征约减算法有潜在语义索引、主成分分析和Fisher线性判决分析。

3.信息抽取技术

信息抽取技术,是指从一段文本中抽取指定的事件、事实等信息，形成结构化的数据并存入数据库，供用户查询和使用。信息抽取的主要过程包括：分词和词性标注；句法分析；抽取所需信息，并填入到模板中；指代合并，处理文本中命名实体的指代重复问题。

信息抽取算法主要包括两种，知识工程方法和机器学习方法：

知识工程方法─　依靠人工编写抽取模式，使系统能够处理特定知识领域的信息抽取问题，这种方法要求编写抽取模式的知识工程师对该知识领域有深入的了解。而且这些规则很难保证具有整体的系统性和逻辑性，且可移植性差。

机器学习方法─　利用及其学习技术,让信息抽取系统通过训练文本来获得抽取模式，实现特定领域的信息抽取功能。常用的方法有：基于特征向量的机器学习方法，如支持向量机和神经网络等；基于统计模型的机器学习方法，如隐马尔可夫模型、最大熵模型和条件随机场模型；基于Kernel的机器学习方法，只需直接使用字符串的原始形式作为处理对象，通过计算对象间的核函数来实现信息抽取。但基于机器学习的方法信息抽取需要大量的训练样本，且结果准确率不高。

4.关键词提取技术

关键词提取算法主要由三类：(1)基于统计特征的方法，如词语频率统计；(2)基于词语网络的方法，根据一定规则将文档映射为词语网络，利用词语网络计算词语的关建度；(3)基于语义的方法，利用词语的语义特征提取关键词。

5.自动摘要技术

自动文本摘要,是指利用计算机从单文档或多文档集合中,自动抽取包含原文档中关键信息的文本。法律文书的自动摘要是基于单文本的自动摘要，即对每个文本都要生成相应的摘要，对其内容进行抽取，并针对应用需求，将文中最重要的内容以压缩的形式呈现给用户。常见的单文档摘要技术包括基于特征的方法、基于词汇链的方法和基于图排序的方法：

1）基于特征的方法。文档摘要中常用的文章特征包括词频、特定段落（如首末段）、段落的特定句子等。因此，基于特征的自动摘要方法，主要是根据词的频率、句子位置等，自动生成摘要；

2）基于词汇链的方法。主要是通过对文章内容进行自然语言分析生成摘要。其主要实现过程是：选择候选词的集合；根据与词汇链里成员的相关程度，为每个候选词选择词汇链；若候选词与词汇链相关度高，则把候选词加入词汇链内；

3）基于图排序的方法。一般思想是把文章分解为若干单元（句子或段落等），每个单元对应一个图的顶点，单元间的关系作为边，最后通过图排序的算法得出各顶点的得分，并在此基础上生成文本摘要。

上述三种技术存在的难题和解决的方法：

1.信息抽取

标准化自动建档方法是针对特定文本文件的，这类文件具有一定的格式，但又不完全是固定的格式，对文件所要包含的信息有基本要求，但文件与文件内容之间差距较大，不能采用通过训练文本来获得抽取模式的机器学习方法。而传统的知识工程方法依靠人工编写抽取模式，规则本身的学习和提取成为信息抽取的关键，而信息抽取则退居为次要过程。这种方法要求编写抽取模式的知识工程师对该知识领域有深入的了解。

信息抽取主要存在的问题包括：

(1). 抽取规则的适应性

抽取规则的适应性较差，缺乏健壮性是现有信息抽取技术所面临的难点。同时由于现有技术均采用定制的语言表达抽取规则，缺乏通用性，系统不易升级。如何处理效率与健壮性之间的矛盾是一个重要问题；

(2). 抽取规则的表达方式

目前各类信息抽取技术中生成规则的依据主要有五类：结果特征、位置特征、显示特征、语义特征和引用特征。这些方式各有缺陷，如何将基于结构和基于文本方式有效地结合起来？是信息抽取需要解决的一个问题；

(3). 抽取的自动化处理

性能较好的信息抽取技术需要用户的大量参与，自动化程度不高；而自动化程度高的信息抽取其准确率和适应性较低，实用性较差。两者之间的矛盾也需要解决。

2.关键词提取

基于统计特征的算法虽然操作简单，但是会忽略出现频率不高或在文档中位置不重要但对于文档具有关键意义的词语。基于词语网络的方法，目前主要是将高频词语以及它们在同一窗口的共线关系映射成词语网络。基于语义的方法从语义角度判断词语的重要性，较符合人们的感知逻辑，也是目前关键词提取领域的一个研究热点，但这种方法借助一种中间模型表示文章语义结果，通过分析词语间的语义关系，获取关键词，显然，这类方法需要专业相关的先验知识。

3.自动摘要

对关键信息有一定要求的文本，其所要包含的内容大部分也是固定的，但对内容的描述是不一样的，因此针对普通文本的传统的摘要提取方法是不适用的。

发明内容

本发明的目的在于：克服传统文字档案管理及使用中的缺点,针对企业、政府部门等保有的一些有格式、内容要求的文本文件,提供一种科学建档的新方法。

本发明是这样实现的

本发明的基本技术原理和方法是：从网上爬取(又称“网络爬虫”)相应的文件，利用文本语义分析技术，然后对爬取的文件和本地文件（word、txt格式）进行信息抽取、关键词提取和自动摘要生成，继而存入信息化系统中，方便查询和使用。

1.信息抽取

鉴于所要分析文本信息的特点，采用知识工程的方法，即充分利用内容特点和格式特点的信息，制作规则表来进行信息抽取，采用python语言进行编程。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来，然后以统一的形式集成在一起。

2.关键词提取

针对所要分析文本的特点，其关键词应该是能表达文本主要内容的词语，其主要分布在文章的开头或结尾部分，因此，词语所在文章的位置和所在句子的语义，是决定词语是否是关键词的重要因素。因此，在关键词提取中，需充分考虑词语所在位置和其所处的语义环境。

3.自动摘要

针对所要分析文本的特点，用户设定摘要所要包含的内容，然后从文本中提取信息，对信息进行缩减（计算句子之间的相似度），用较少的文字表达其主要内容，抽取包含原文档中关键信息的文本。

本发明的优点

本发明之基于文本语义挖掘的标准化自动建档方法，针对文件的特点和内容，采用文本语义挖掘的相关技术对其进行信息抽取、关键词提取和自动摘要，使业务人员免于阅读大量的文件，节省时间和人力，方便查询和使用。

网络爬虫可以定期从网站上爬取文件，并存储到数据库中，省去从网络搜集文件的时间和人力，并方便查询和使用；

信息抽取，使文本文件转化为结构化信息，方便后期对其进行知识抽取和统计分析；

关键词提取，可以体现文件的主要内容，可以查看相似文件，对文件进行归档；

自动摘要可以对文件主要内容进行概括，使用户不用阅读整篇文件，就可以了解文件的主要内容。

下面结合附图和实施例,对本发明做进一步说明

附图说明

图1.基于文本语义挖掘的标准化建档方法的整体流程图；

图2.聚焦爬虫之流程的示意框图；

图3.以广度优先搜索策略，采用本发明的爬虫技术，搜索的部分结果；

图4.采用信息抽取技术，得到的信息抽取结果（部分）；

图5. 采用关键词提取技术，生成的关键词索引。

具体实施方式：

实施例法院存储案件信息的标准化建档方法

随着各级法院的信息化建设，法院存储的案件信息急剧增长，但仍存在相当一部分的法律文书，以自由文本形式存在，需要信息抽取技术从中抽取结构化信息，存入信息化系统中，方便查询和使用。

本实施例之法院存储案件信息的建档方法、步骤如图1所示。主要是：应用网络爬虫技术，经过网页分析和预处理，从网络上爬取文件，然后对爬取的文件和本地文件（word、txt格式）进行信息抽取、关键词提取和自动摘要生成，并存入信息化系统中，方便查询和使用。

1.从特定网站爬取文书

针对中国裁判文书网的结构，在进行网络爬虫时，输入的是所要爬取文书的省份，爬取结果是各省份的网络文书，记录其URL、文书标题、文书提交时间、板块信息和省份信息，并保存在数据库中。

聚焦爬虫之流程如图2所示,其主要实现步骤如下：

Step1(初始URL)：输入初始URL（中国裁判文书网：http://www.court.gov.cn/zgcpwsw/）；

Step2(获取网页)：获取网页，并抓取新的URL放入URL队列；

Step3(根据分析算法评价网页及URL)：采用基于网络拓扑的分析算法——PageRank算法，对网页进行分析，提取内容包括URL、文书标题、文书提交时间、板块信息和省份信息；判断是否满足终止条件，若满足，则结束，若不满足则转Step4；

Step4(根据选择策略选择URL)：采用广度优先搜索策略进行下一层次的搜索；转Step2。

通过采用本发明的爬虫技术，得到的部分结果见附图3。

图3为将从网络上爬取的文书保存到数据库中的部分结果，其中ID为文书的编号，URL为文书的网址，TITLE为文书标题、POST_TIME为文书上传时间、BOARD为文书所在版块、CONTENT为文书内容、PROVINCE为省份。

2.信息抽取

采用基于自然语言理解方式的信息抽取。其主要步骤包括：句法分析、语义标注、专有对象的识别（如人物、公司）和抽取规则。具体的说就是把文本分割成多个句子，对一个句子的句子成分进行标记，然后将分析好的句子语法结构和事先定制的语言规则匹配，获得句子的内容。其实就是利用句子结构、短语和句子间的关系建立基于语法和语义的抽取规则实现信息抽取。

信息抽取采用的是半自动化的信息抽取方法，抽取规则手工定制，而抽取规则的结构信息和信息抽取的执行是自动化完成的。规则经人工提取后，采用基于python的正则表达式的方法实现自动化抽取。其主要实现步骤：

Step1(所要提取信息的表格)：建立信息抽取表；

Step2(规则抽取)：人工抽取规则，建立规则集;

Step3(基于python的正则表达式):把规则用基于python的正则表达式表示；

Step4(信息抽取)：自动对文本进行分析，提取信息；

所要提取信息的表格如下（共55个字段，部分如下）：

字段名	类型	描述	是否必填	备注
					id	char(256)	文书id，自增	√	主键
url	char(128)	URL	√
					title	char(512)	文书标题	√
post_time	date	文书提交时间	√
					board	char(32)	版面	√
content	CLOB	裁判书原文	√
					court	char(128)	审理法院
type	char(32)	文书类型		刑事、民事
					case_no	char(128)	案号
case_time	char(32)	案号中的时间		例如2013、2014
					judge_type	number(1)	审判类型		0表示一审，1表示二审
public_prosecution	char(128)	公诉机关		刑事一、二审判决书
					plaintiff	varchar2(2000)	原告/上诉人/自诉人		N\|N
p_info	varchar2(4000)	原告信息		N\|N
					p_legal_representative	char(256)	原告的法定代表人		民事、行政一、二审判决书、裁定书
plr_info	varchar2(512)	原告的法定代表人信息		民事、行政一、二审判决书、裁定书
					p_entrusted_agent	char(256)	原告的委托代理人		N\|N，<=2人，民事、行政一、二审判决书、裁定书

通过采用本发明的信息抽取技术，信息抽取结果（部分）见附图4。

图4为对文书进行信息抽取后的部分结果，其中COURT为文书审理法院、TYPE为文书类型、CASE_NO为案号、CASE_TIME为案号中的时间、JUDGE_TYPE为审判类型、PUBLIC_PROSECUTION为公诉机关、PLAINTIFF为原告/上诉人/自诉人、P_INFO为原告/上诉人/自诉人信息。

3.关键词提取

关键词提取采用的算法是基于语义和统计相结合的方法。其主要步骤是：

Step1(分词、词性标注)：对文本进行分词；

Step2（文本预处理）：用向量空间模型计算词语的TFIDF值，并标记词语所处的位置和词性；出现在标题、文书开始部分、文书结尾部分的词语比出现在文本中间的词语的重要性高；

Step3（基于HowNet的词语相似度计算）：采用基于HowNet的词语相似度计算方法，计算词语间的语义相似度，对于具有高相似度的词语进行合并处理，并统计相似词语的个数；

Step4(计算词语关键度)：根据词语的相似个数、TFIDF值、词语所处位置计算词语的关键度。

针对法律文书的特点，其关键词应该是能表达案件类型、案由描述、审判结果等信息的词语，案件类型一般处于文书的开始位置，而审判结果处于文书的结尾部分。

通过采用本发明的关键词提取技术，生成关键词索引，部分结果见附图5。

图5为通过采用本发明的关键词提取技术，生成的关键词索引，其中INDEX_ID为序号，DOC_ID为文书名称，KEYWORD为提取的文书中的关键词。由于一篇文书中可有多个关键词，因此文书名称可重复，文书名称与关键词为一对多的关系。

4.自动摘要

摘要应充分考虑用户关注的内容和能够概括文件主要内容的句子。所提取的摘要具有以下特点：句子能够体现文本的主要内容；句子之间冗余信息较少；用精炼的语句概括了文件的主要内容。

自动摘要提取算法主要分以下几步进行：

Step1（抽取含有摘要信息的句子）：从法律文本中提取包含用户关注内容信息的句子；

Step2（对备选摘要句子进行相似度计算）：将备选摘要句列表中的句子进行相似性计算，除去相似性较高的句子；

Step3(对句子组合，生成摘要)：对剩余句子进行组合，生成摘要。

在法律文书解析中，能够概括文书主要内容的方面包括：原告的诉讼请求、原告和被告的陈述，以及法院认定的事实。

通过采用本发明的自动摘要生成技术，对ID=’201406121435328’的文书,生成的摘要为：申请再审人刘平因与被申请人巴州雷鑫灌溉服务有限公司（以下简称雷鑫公司）、原审第三人巴州恒瑞汽车贸易有限公司（以下简称恒瑞公司）间物权保护纠纷一案,本院认为，刘平的再审申请符合《中华人民共和国民事诉讼法》第二百条第（二）、（六）项规定的情形。

Claims

1.基于文本语义挖掘的标准化自动建档方法, 其特征在于：将文本语义分析相关技术——信息抽取、关键词提取、自动摘要技术，应用到有一定的内容和格式要求的文本中，形成一种文档标准化自动建档的方法；

所述信息抽取,主要是采用自然语言处理方法，首先人工抽取规则，然后对法律文本进行句法和语义分析，采用基于python的正则表达式的方法实现自动化抽取；

所述关键词提取,主要是应用基于语义和统计相结合的方法，用基于HowNet的词语相似度计算词语相似度，筛选后形成关键词，并建立关键词索引；

所述自动摘要，首先从文本中抽取包含摘要信息的句子，然后计算句子间的相似度，合并句子形成摘要信息。