CN106776538A

CN106776538A - 企业非标准格式文档的信息提取方法

Info

Publication number: CN106776538A
Application number: CN201611033784.3A
Authority: CN
Inventors: 付婷; 蔡宇翔; 蔡力军; 苏运东; 肖琦敏; 王雪晶; 陈锐; 张垚; 刘心
Original assignee: State Grid Corp of China SGCC; State Grid Fujian Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Fujian Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Priority date: 2016-11-23
Filing date: 2016-11-23
Publication date: 2017-05-31

Abstract

本发明涉及一种企业非标准格式文档的信息提取方法。该方法：首先，输入原始文档；其次，待提取信息所在的段落检测及提取，负责从原始文档全文中，识别并提取出待提取信息所在的章节段落，从而使得每个待提取信息都对应到原始文档的一个片段，形成短文本；最后，面向短文本，采用多策略的信息提取框架，即能够针对不同的信息模式，支持采用不同的策略提取不同类型的信息。本发明方法，能够良好地对各类企业经营管理、生产运行文档进行特定类型提取，在保证对大部分信息进行自动化提取的同时，很大程度上减少了人工投入效率，提升企业文档的分析利用能力。

Description

企业非标准格式文档的信息提取方法

技术领域

本发明涉及在企业的非标准格式文档的信息自动提取领域，具体涉及一种企业非标准格式文档的信息提取方法。

背景技术

文档的特定信息提取，是从非结构化的文档资料中自动抽取特定信息，包括用户感兴趣的信息实体和关系，等。这些被抽取出来的信息将会被表示为结构化的信息，最后存储在数据库中，为情报分析、数据挖掘等各种应用提供服务。可以认为，信息抽取的工作就是从原始文档中提取信息并将其填充到特定模板的过程，这个模板描述了欲抽取信息的文本特征及其上下文文本特征。

另一方面，随着信息化建设的深入，企业中流程越来越多地运行在线上，大量的业务运行信息以电子文档的形式存在。这些电子文档，包括常见的各类公文，如请示、通知、函、报告、会议纪要，以及合同、招标书、巡检报告、检修工单等等，都是重要的业务载体，具有重要的分析利用价值。然而，长期以来，企业非结构化文档数据的利用水平较低，其价值未能得到充分挖掘，这主要是因为非结构化的文档数据难以进行直接利用。将文档的关键信息抽取出，形成规范化的结构化信息，是实现企业非结构化文档深度利用的重要手段。对于合同信息的提取，是将合同文档中的关键字段，如甲乙方、金额、时间等提取出形成结构化数据后，就可以进行各类分析应用，如对合同履行过程是否合规的分析。

传统的文档关键信息提取，通常通过人工的方式进行：由人工逐个对文档的相关信息进行识别、拷贝，而后填写到指定的模版中。随着信息化建设的持续深入，原有线下工作流程基本都已经实现了电子化，导致文档数量以几何级数增加，纯粹依靠人工进行信息提取的方式已经不在适用。这里重点阐述自动化和半自动化的现有相关技术，目前主要有基于规则、基于命名实体提取两种方法：

现有技术一：基于规则的方法

基于规则的方法，是指依靠人工的方式，对特定的文档、关键信息编制相关的规则，而后在程序遍历文档文本流的过程中，将符合规则的信息提取出来。此处的规则，一般是以“正则表达式”的形式存在——正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式包含一系列特定的语法，提供强大的规则文本信息提取能力。例如，提取固定电话号码的正则表达式为：（"^(\d{3,4}-)\d{7,8}$"），它的含义是“以3到4位数字开头，中间用-号隔开，然后紧跟着7到8位”数字，满足这个模式或规则的，即为固定电话号码。当然，正则表达式的能力不止于此，但基本原理和限制是一样的，那就是必须对要提取的信息的“模式”或“规则”是明确的、无歧义的。

在上述的合同关键信息提取中，用规则提取的方式可以实现如“甲方单位”信息提取，如图2所示的合同所示，其规则是：在“委托方：”之后，在换行符之前的文字，即为甲方单位信息。同理可以提取其它固定规则的信息。

规则方法的优点是可以实现精确的提取，但其缺点也很明显，包括：

1）主要适用于文档格式相对固定的文档，即“标准化”的文档。比如，上述合同甲方信息的提取，不适合于和上述模版不一样的其它合同文书——这个时候，就需要对合同进行分类，将格式一样的合同归为一类，对每一类合同编制特定的提取规则，导致工作量上升。

2）可移植性差。技术方案一的方法编制的规则，即使在大量的文档中应用，针对新的类型的文档，还需要做大量的工作，原有的成果基本不能复用；一旦文档的模版发生变化，所有的规则都得重新编写、测试，效率较低。

现有技术二：基于命名实体提取的方法

命名实体识别（Named Entity Recognition，简称NER），又称作“专名识别”，是指识别文本中具有特定意义的实体。命名实体分为通用命名实体识别和专用命名实体，其中，通用的命名实体识别是指针对三大类（实体类、时间类和数字类）、七小类（人名、机构名、地名、时间、日期、货币和百分比）信息进行智能提取的技术，目前已经到达比较高的准确度；而专用命名实体，是针对以上类别之外的特定领域的信息提取，如医疗病例的提取，涉及到对症状、使用的药物等信息的提取，形成关联网络，理论上也可以获得类似“规则提取”的效果，提取特定含义的信息实体。

命名实体识别技术是“基于统计学”的自然语言处理技术路线的一种技术，本质原理上是针对标注的语料，利用机器学习的相关算法（最常用的为条件随机场CRF）发现出其中的模式，进而利用该模式对待挖掘的文本进行识别、提取的过程。所以，它也有统计方法存在的一些共性限制，即依赖于标注的语料与文本自身模式的清晰性，以及容易受到文本上下文的干扰。这就是为什么目前通用命名实体技术已经基本达到工程上的实用水平（特别是针对短文本的提取，长文本情况下还是容易受到一定干扰）——上述的三大类、七小类都具有清晰模式，并且在全世界相关人员的研究过程中逐步形成其高质量的标注语料；而专用的命名实体识别之所以未能得到广泛的推广应用，主要也是因为其标注语料需要专门的投入，要对一个特定类别的文档进行命名识别提取，其投入的人工标注工作可能比撰写专门的规则（正则表达式）花费的时间还要多。所以，截至目前，命名实体识别最常用的领域仍然是短文本的通用信息提取，包括上述的三大类和七小类。

所以，现有技术方案二，即命名实体技术的主要优点是针对短文本的通用命名实体识别已经具备很高的正确率，几乎不需要人工介入；其缺点主要包括：不适用于长文本（容易使得结果受干扰），以及非通用的命名实体识别的人工语料标注工作量很大。由于企业非标准格式文档的形式较为多样，需要提取的内容不限于通用命名实体，且文档长度较长，这都使得该技术很难直接用于企业非标准格式文档信息提取领域。

综上所述，上述两种现有技术方案，具备各自的优点，但存在的缺陷也都较为明显。技术方案一虽然能够实现精确提取，达到企业业务对文档提取的技术要求，但存在不适用于非标准格式文档，以及可移植性差等缺点；技术方案二，能够直接用于短文本中的通用命名实体提取，且准确性较高，但在通用命名实体的提取上，则需要配套大量的人工数据标注工作，除非同类格式的文档数据巨大、效益显著，否则开展人工的语料标注工作是不现实的。并且该技术也容易受上下文的影响，通常适用于短文本的信息提取中，难以用于篇幅较长、格式不标准、待提取的信息类型多样的企业文档中。

本发明提出一种针对企业中常见的非标准格式文档的信息自动提取方法和系统，充分考虑到企业大量的文档以非标准格式的形式存在的现状，设计了切合企业应用环境实际的方法并给出相关的系统实现方式，能够较大程度上提升企业非结构化文档关键信息提取的效率和效果，对推进企业文档的各类分析挖掘应用有较大意义。

发明内容

本发明的目的在于提供一种企业非标准格式文档的信息提取方法，该方法充分考虑了企业文档篇幅较长、格式不标准、待提取的信息类型多样的特点，提出一种两阶段、多策略的非标准文档特定信息提取方法，具备较强的通用性和准确性，并有效减小人工投入，从而能够充分规避了现有技术的缺陷，适合于企业应用。

为实现上述目的，本发明的技术方案是：一种企业非标准格式文档的信息提取方法，包括如下步骤，

S1、输入原始文档；

S2、待提取信息所在的段落检测及提取，负责从原始文档全文中，识别并提取出待提取信息所在的章节段落，从而使得每个待提取信息都对应到原始文档的一个片段，形成短文本；

S3、面向短文本，采用多策略的信息提取框架，即能够针对不同的信息模式，支持采用不同的策略提取不同类型的信息。

在本发明一实施例中，所述原始文档为包括公文、招标书、营销文档的企业文档。

在本发明一实施例中，所述步骤S2的具体实现如下，

S21、基于规则的标题抽取：

通过word的宏语言，一次性将原始文档按章节及其章节名称抽取出，形成不同的文档片段；而后，利用正则表达式，将符合模式的标题取出；

S22、将标题提取的内容作为标注语料；

S23、文档特征化：

将文档通过分词技术，进行初步的特征化，形成特征向量全集，而后进行特征优化；所述特征优化具体为：

从特征向量全集中产生一个特征子集；而后采用评价函数对该特征子集进行评价，并将评价的结果与停止准则的条件进行比较，满足则该过程完成，不满足则需要继续迭代；其中评价函数的公式如下，

其中，m表示的是类的数量，表示其中的某一个类，t表示的是一个词语，表示这个文本属于类的概率，表示词语t在文本中出现的概率，表示当一个文本中包含词语t时，这个文本属于类概率，表示当一个文本中不包含词语t时，这个文本属于类的概率；

S24、训练分类模型：

将步骤S22的标注语料，通过步骤S23的特征化以后，利用SVM分类算法，构建一个用于二分类的模型，利用该模型对原始文档的章节进行预测；

S25、模型部署运行：

对输入文档进行上述S21-S23处理后，利用步骤S24生成的模型，即可对输入文档的章节继续异常，从而识别出待提取信息所在章节，使得输入文档由长文档变为短文本。

在本发明一实施例中，所述步骤S3的具体实现如下，

（1）对于格式固定严谨，有确定规则的信息，优先采用确定性较高的规则方法进行关键信息提取；

（2）对于符合三大类、七小类的命名实体信息，采用准确的命名识别提取技术进行提取。

在本发明一实施例中，所述步骤S3的中还包括对于除（1）、（2）两类外的自由文本信息，该类自由文本信息采用人工提取。

相较于现有技术，本发明具有以下有益效果：

本发明在企业的非标准格式文档的信息自动提取领域，现有的方案很难在保证信息提取的准确性的同时，同步减小人工投入；本发明提出的方法，充分利用企业文档的自身特点，创新地引入了检测和提取待提取信息所在章节的步骤和具体方法，将长篇章文档转换为短文本，减小了对信息提取算法的干扰，提高了提取的准确性；在此基础上，进一步设计了多策略的信息提取框架，能够综合利用现有技术方案的优点，在实现信息提取较高程度自动化的同时，也能确保信息提取的准确性。

附图说明

图1为本发明非标准文档特定信息提取方案总体过程图。

图2为本发明待提取信息所在的段落检测及提取流程图。

图3为本发明企业文档特征优化过程图。

图4为本发明面向短文本的多策略关键信息提取总体工作框架图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

如图1-4所示，本发明的一种企业非标准格式文档的信息提取方法，包括如下步骤，

S1、输入原始文档；

所述原始文档为包括公文、招标书、营销文档的企业文档。

所述步骤S2的具体实现如下，

S21、基于规则的标题抽取：

S22、将标题提取的内容作为标注语料；

S23、文档特征化：

S24、训练分类模型：

S25、模型部署运行：

所述步骤S3的具体实现如下，

所述步骤S3的中还包括对于除（1）、（2）两类外的自由文本信息，该类自由文本信息采用人工提取。

以下为本发明的具体实现过程。

综合对现有技术方案的分析，本发明提出一种两阶段、多策略的非标准文档特定信息提取方法及其实现方案。

如图1所示，本发明方案总体上包括两个步骤：一是待提取信息所在的段落检测及提取，负责从文档全文中，自动化识别并提取出“待提取信息”所在的章节段落，从而每个待提取的信息（如合同的“甲方单位”）都对应到文档的一个片段（章节段落）。该步骤的主要目的是缩短待提取的文档规模（从长篇章到短文本），从而后续在开展具体的信息提取时，降低长篇文档的上下文对信息提取算法的干扰，提升信息提取准确性；二是面向短文本（上个步骤提取出的相关章节段落），采用多策略的信息提取框架，即能够针对不同的信息模式，支持采用不同的策略提取不同类型的信息。力求全面覆盖企业文档中大部分信息描述，实现普遍适用、准确提取的同时，最大程度降低在语料标记、提取规则编制方面的人工投入。具体介绍如下：

一、待提取信息所在的章节检测及提取

由于本发明针对的是企业文档，包括公文、招标书、营销文档，等等。不同于互联网传播的个人文档，企业文档一般来源于企业在经验管理、生产运行过程的产出，虽然不一定都有严格的模版，但一般都会有一定的行文标准，表现为更为严谨和规范。经过我们对某大型央企数据平台中非结构化文档的分析，企业文档具备以下特性，可以在本发明方法中进行充分利用：

1、长文档的章节结构一般都比较好。一般超过3页的文档，都会对内容进行章节化编排，每一个章节通常有较为固定的标题。

2、同类文档，对同一部分内容的描述具有较强的“模式”。以公文为例，一份请示函、事件通报，其措辞描述均较为严谨和“刻板”，从技术角度来看，同类别的不同文档，其同一部分内容的“相关性”较好、不同了内容“区分度”较高。

另一方面，在信息提取的各类算法中，不管是基于规则的，还是基于命名实体的，算法运行结果的准确性都与文档的长度有一定的线性相关关系。可以认为，文档越长，特定规则或算法提取的准确性就越差；对不同的算法影响也不一样，规则提取方法受文章长度影响会略小，命名实体提取受文章长度的影响则很大。

本发明的章节检测及提取方法，目的是减小待提取信息所在文档的篇幅长度，其运行原理则充分利用了上述企业文档的特点。核心思路有两个：一是根据标题的相关性，以合同为例，待提取的关键信息中有“合同生效时间”及“合同完成时间”，经过对历史合同文档的分析，该信息一般位于合同的“合同生效和期限”这个章节中，具体章节名称不一定一样，或有细微不同。根据这个规律，利用规则方法，大约实现60%段落的智能提取；二是根据内容的相关性。可以把文档中的内容，按章节段落拆分后，视为两个类别，分别是“和待检测提取的内容相关”以及“和待检测提取的内容无关”，所以它是机器学习方法中典型的“二分类”问题，可以内容语义的相关性利用算法进行区分。如图2所示，具体实施方法如下：

步骤1，基于规则的标题抽取。

通过word的宏语言，一次性将文档按章节及其章节名称抽取出，形成不同的文档片段。而后，根据事先分析出的规律，利用正则表达式，将符合模式的标题取出。例如有这么个规则：如果标题同时包含“生效”和“期限”，那么“合同生效时间”及“合同完成时间”这两个信息在该章节中的概率就比较大，可以将其文本内容提取出作为这两个信息自动提取时的“待提取文档”。在实践中，我们对大量不同文档进行验证和回测，大概有60%左右的待提取信息所在段落，可以用此方法进行提取。

步骤2，将标题提取的内容作为“标注语料”。

步骤1识别待提取信息章节采用的是规则提取方法，所以正确率通常都比较高，所以在本发明中，该章节的内容将被视为已经标注好的语料，供后续的分类模型训练过程使用。

步骤3，文档特征化

文档特征化，是指将文档用数学语言描述成可以供机器学习算法自动化分析的格式，是采用机器学习对文档进行各类预测（如，分类就是一种预测）的必要步骤。目前的主流技术路线，是将文档通过分词技术，进行初步的特征化，形成特征向量（将文档的连续文本流，替代为用词组成的“向量”）。由于分词是比较成熟的技术，其过程包括去除停用词（如“的”、“了”等虚词），正规化（用索引数字替代词语文字），等，本发明不再展开，而直接采用主流的分词软件进行，如斯坦福大学开源的Standard Analyzer。

特征化的关键步骤是特征优化。特征优化是在已经形成的特征向量的基础上，选择出一个特征子集的过程。之所以特征优化是关键步骤，是因为进行初步的特征化形成的特征向量其中存在很多不相关的特征，而特征之间也可能相互依赖，容易导致特征分析时间过长，也会对分析过程造成干扰，造成分析精度下降，所以需要通过特征优化步骤，在降低特征维度的同时，保留真正的关键特征，提升精确度和分析效率。特征优化的步骤如图3所示：

如图3所示，首先从特征全集中产生一个特征子集（采用C4.5决策树算法），然后使用评价函数对该特征子集进行评价，评价的结果与停止准则的条件进行比较，满足则该过程完成，不满足则需要继续迭代。其中，此处的关键是选择 “评价函数”，其用于评价选择出的特征子集是否具有足够的信息、能够代表原始文档的特征。常用的评价函数通常有信息增益、互信息、卡方、期望交叉熵等。本发明经过大量针对企业文档的实际测试，本发明采用的是信息增益方法，其具体的公式如下：

其中，m表示的是类的数量，表示其中的某一个类，t表示的是一个词语，表示这个文本属于类的概率，表示词语t在文本中出现的概率，表示当一个文本中包含词语t时，这个文本属于类概率，表示当一个文本中不包含词语t时，这个文本属于类的概率。经过实验验证，采用该信息增益方法的评价函数，用于企业文档的特征优化中，能在最大程度保留关键特征信息的同时减小特征向量的维度，利于后续分析的开展。

步骤4，训练分类模型

步骤2的文本语料，通过步骤3的特征化以后，利用机器学习中的分类算法，就可以构建一个可以用于“二分类”的模型，利用该模型可以对待评估文档的章节进行预测。所谓二分类预测，就是识别输入的内容是属于“与待提取信息相关”的分类还是“与待提取信息不相关”分类的过程，相关且相关度最高的内容，就是最终要提取的待提取信息所在的章节内容。目前主流的分类算法较多，包括Native Bayes（朴素贝叶斯）、SVM（支持向量机）、RandomForest（随机森林），等。本发明采用的是SVM分类算法，具体算法细节属于公开领域知识，此处不在展开。

步骤5，模型部署运行

对输入文档进行上述类似的流程处理后（章节内容提取、特征化），利用步骤4生成的模型，即可对这些章节进行预测，从而识别出待提取信息所在章节。本发明基于开源软件Scikit工具提供的SVM算法，编制了原型软件实现上述步骤，并对典型的企业文档章节提取进行运行和测试，结论是识别正确率超过95%，这已经完全能够满足企业关键信息提取的需求（遗漏的未能提取出的文档，再通过少量的人工投入即可补全）。

综上所述，通过本发明给出的上述5个步骤及其具体实施方法，能够实现高质量、高准确性的相关章节提取，有效地去除了文档的干扰信息，缩减了需要分析的文档规模（从长文档变为短文本），从而为后续的关键信息提取步骤奠定良好的基础。

二、面向短文本的多策略关键信息提取

在上述过程，已经实现了从长篇章文档中提取出关键信息所在的段落章节，从而在本步骤中，主要采用面向短文本的信息提取技术，而无需考虑篇章长度对提取准确性的影响。

在前述现有技术分析中，我们已经得出结论：基于规则的方法虽然正确率比较高，但移植性较差，所以仅适用于模式比较稳定的信息提取；“命名实体提取”技术方法，主要适用于通用的三大类、七小类信息的提取，此时准确性较高且几乎不需要额外语料标注工作，但不适用于其它领域。总结如下表1所示：

表格1：不同信息提取的适用范围

本发明的总体思路是：在第一阶段将长文档转换为短文本工作基础上，提出一种多策略的信息提取工作框架，能够进一步实现企业文档较为准确地提取。具体而言，在对文档进行关键信息提取过程中，对不同的文档及信息模式进行区分，而后进行针对性的提取。总体工作框架的流程如图4所示，由人工（专家）决策，对于不同类型的信息，采用不同的进行提取：

1）对于格式固定严谨，有确定规则的信息，优先采用确定性较高的“规则方法”进行关键信息提取。

2）对于符合三大类、七小类的“命名实体”信息，采用准确的“命名识别提取”技术进行提取。

3）上述两类信息已经能够涵盖大部分需要提取的信息类型，除此之外的其它类型信息，通常是没有固定的、严格的规则，也不是通用类型实体的信息，即所谓的“自由文本”信息。在多数业务中，通常不会涉及自由文本信息的提取，因为它不是严格的结构化数据、难以进行二次分析利用。一旦业务上有此类需求，目前本发明仍建议采用人工提取。

以上各步骤即为本发明实现企业非标准格式文档的信息提取方法及其实现方式。基于上述方法和框架开发的非标准文档提取系统，能够良好地对各类企业经营管理、生产运行文档进行特定类型提取，在保证对大部分信息进行自动化提取的同时，很大程度上减少了人工投入效率，提升企业文档的分析利用能力。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种企业非标准格式文档的信息提取方法，其特征在于：包括如下步骤，

S1、输入原始文档；

2.根据权利要求1所述的企业非标准格式文档的信息提取方法，其特征在于：所述原始文档为包括公文、招标书、营销文档的企业文档。

3.根据权利要求1所述的企业非标准格式文档的信息提取方法，其特征在于：所述步骤S2的具体实现如下，

S21、基于规则的标题抽取：

S22、将标题提取的内容作为标注语料；

S23、文档特征化：

S24、训练分类模型：

S25、模型部署运行：

4.根据权利要求1所述的企业非标准格式文档的信息提取方法，其特征在于：所述步骤S3的具体实现如下，

5.根据权利要求4所述的企业非标准格式文档的信息提取方法，其特征在于：所述步骤S3的中还包括对于除（1）、（2）两类外的自由文本信息，该类自由文本信息采用人工提取。