CN107977345A

CN107977345A - 一种通用文本信息抽取方法以及系统

Info

Publication number: CN107977345A
Application number: CN201711121932.1A
Authority: CN
Inventors: 倪时龙; 苏江文; 宋立华; 王秋琳; 陈颖华
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2018-05-01

Abstract

本发明提供一种通用文本信息抽取方法,编写限定个数的正则表达式对原始语料进行抽取；从抽取的语料中切割出限定比例的语料作为训练语料；将训练语料通过自动模式归纳方法构建抽取模型；通过该抽取模型进行抽取；本发明还提供一种通用文本信息抽取系统，适用于不同要求级别的业务场景中，也利于培养相应要求的工程师，形成文本关键信息抽取的“流水线”作业。

Description

一种通用文本信息抽取方法以及系统

技术领域

本发明涉及一种通用文本信息抽取方法以及系统。

背景技术

随着大数据技术的不断发展，原本难以利用的、海量、异构的“非结构化文档”，如各类web网页、办公文档等逐渐得到了重视，对非结构化文档的分析挖掘的需求不断增长，然而，现有的主流大数据技术主要解决海量数据的存储和计算问题，针对非结构化数据的挖掘和分析仍未能得到广泛利用、未形成稳定的技术路线。

现有的文本中关键信息的抽取，所谓“文本关键信息抽取”，是指根据具体业务的需求，从无结构的“非结构化文档”中自动抽取出结构化的信息。比较主流的有以下两类方案：

1、基于正则表达式提取：

正则表达式是对字符串规则的一种描述方法，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式包含一系列特定的语法，提供强大的文本信息提取能力。例如，提取电子邮件的正则表达式为：/^(\w)+(\.\w+)*@(\w)+((\.\w{2,3}){1,3})$/，其中的\w代表任意字符，{2,3}代表出现两次或三次，该正则表达式可以识别出xxxx@xxxx.xxx格式的电子邮件地址。正则表达式表达灵活，可以匹配几乎任何模式的文字。应用正则表达式的前提是，对拟提取的信息的“模式”或“规则”要非常明确。

正则表达式是信息处理领域的通用基础技术，主流的编程语言均可支持正则表达式执行，所以，可以将待抽取关键信息的规则编写为正则表达式，用编程语言实现从读取文本、执行正则表达式、保存匹配结果到数据库等步骤，实现文本关键信息提取，如图1所示。

由于基于正则表达式方法的文本抽取有上述特点，所以，该方法通常用于有相对固定格式的文件，如专利抽取、合同抽取、简历抽取等；不适用于模版多变的文本(如没有固定模版的“合同”)，也不适用于没有明显规则的文本中的关键信息提取，如一段文本中的特定实体，而公开专利201410681853.6“一种HTML文档信息抽取表达式的方法及系统”就是采用这种技术路线。

2、基于模式自动归纳的方法：

如图2所示，“模式自动归纳”是一种“监督学习”方法。所谓监督学习，是“机器学习”技术的一个分支，是指事先提供一定规模的标注好的文本(称为语料)，在语料中标注了待抽取文本在文档上下文的各种特征(出现的典型词、词性、语法结构，等)，而后由机器学习算法进行自动归纳，识别出其中存在的复杂模式，而后用于后续更多的文本的抽取中。所以，“模式归纳”的本质是利用统计学思路描述语言模型的技术，能够度量一段文本中某个句子或短语是否和“目标对象”有较大的匹配性(概率)，所以能够用以定位、抽取文本中指定的“关键信息”，比较常用的算法包括“条件随机场”(CRF)、N元模型(N-Gram)等。

由于能够自动化地通过算法对模式进行归纳(形成“抽取模型”)，所以，基于“模式归纳”的方法具有适应性强的优点，其不需要由专家编写规则，所以对于没有明显模式(人工很难观察到特定规则)的关键信息的抽取具有较强的抽取能力；其缺点是：

需要一定数量的、已经标注好的语料作为导入，这部分语料的标注工作需要人工编写。待抽取的关键信息越缺乏模式、要求抽的结果越精确，需要导入的语料就越多。

机器学习类的算法缺点是不够稳定，其执行过程是“黑盒”(不像规则判断能够回溯)，准确率不由算法决定，而主要取决于用以训练的标注语料是否和目标测试语料比较一致，所以该方法构建出的“抽取模型”常常难以判断是否能够满足业务对于抽取准确性的要求。

综上所述，现有两种文本关键信息抽取的技术路线各有优缺点和适用范围：

基于规则的方法抽取效果稳定，且不需要实现进行人工标注，但是限定性太强，匹配的范围比较小，对于没有固定模版的文本抽取不适用；

模式自动归纳方法匹配范围较大，但需要事先准备较多的人工标注语料，且抽取效果不稳定、准确性难以预估，对于对抽取准确性有比较严格要求的场景不太适用。

发明内容

本发明要解决的技术问题，在于提供一种通用文本信息抽取方法以及系统，适用于不同要求级别的业务场景中，也利于培养相应要求的工程师，形成文本关键信息抽取的“流水线”作业。

本发明之一是这样实现的：一种通用文本信息抽取方法，包括如下步骤：

步骤1、编写限定个数的正则表达式对原始语料进行抽取；

步骤2、从抽取的语料中切割出限定比例的语料作为训练语料；

步骤3、将训练语料通过自动模式归纳方法构建抽取模型；

步骤4、通过该抽取模型进行抽取。

进一步地，所述步骤1进一步具体为：编写限定个数的正则表达式对原始语料进行抽取，抽取得到文本语料以及字段语料。

进一步地，所述步骤2进一步具体为：从抽取得到的文本语料中切割出限定比例的文本语料作为训练文本语料，并获取训练文本语料所对应字段语料作为训练字段语料。

进一步地，所述步骤3进一步具体为：将训练文本语料、训练字段语料以及每个训练字段语料对应的前后限定个数的字段均导入至自动模式归纳方法中，构建抽取模型。

进一步地，所述自动模式归纳方法为CRF算法。

进一步地，所述步骤3与步骤4之间还包括一步骤a、将步骤2中剩余的语料作为验证语料，通过抽取模型对验证语料进行抽取，将抽取结果进行准确性判断，若准确性未达到限定要求，则建立多于之前个数的正则表达式进行语料抽取，进入步骤2。

本发明之二是这样实现的：一种通用文本信息抽取系统，包括如下模块：

语料抽取模块，编写限定个数的正则表达式对原始语料进行抽取；

切割模块，从抽取的语料中切割出限定比例的语料作为训练语料；

建模模块，将训练语料通过自动模式归纳方法构建抽取模型；

信息抽取模块，通过该抽取模型进行抽取。

进一步地，所述语料抽取模块进一步具体为：编写限定个数的正则表达式对原始语料进行抽取，抽取得到文本语料以及字段语料。

进一步地，所述切割模块进一步具体为：从抽取得到的文本语料中切割出限定比例的文本语料作为训练文本语料，并获取训练文本语料所对应字段语料作为训练字段语料。

进一步地，所述建模模块进一步具体为：将训练文本语料、训练字段语料以及每个训练字段语料对应的前后限定个数的字段均导入至自动模式归纳方法中，构建抽取模型。

进一步地，所述自动模式归纳方法为CRF算法。

进一步地，所述建模模块与信息抽取模块之间还包括一检验模块，将切割模块中剩余的语料作为验证语料，通过抽取模型对验证语料进行抽取，将抽取结果进行准确性判断，若准确性未达到限定要求，则建立多于之前个数的正则表达式进行语料抽取，进入切割模块。

本发明具有如下优点：本发明一种通用文本信息抽取方法以及系统，相对于纯粹基于正则表达式的方法，本发明最终是采用模式自动归纳模型进行信息抽取的，所以能够有效扩大抽取模型的适用范围，减少对待抽取文本“模式”的依赖。在实际中，少量的规则是易于观察、其正则表达式是易于编写的，但越想“全面匹配”，则规则复杂度越高、越难编写。本发明方法仅需编写少量规则就可以驱动，显著降低难度；而相对于纯粹模式自动归纳方法(或类似的机器学习算法)，本发明利用少量正则表达式快速识别出一定量的标注语料，可以避免传统的人工标注投入。

本发明提出的整体过程，满足业务需求的、最优化的文本关键信息抽取过程。一方面，过程确保了模型优化可以通过增量迭代的方式实现，整体过程不浪费人工投入(编制的规则总是可以在下一次迭代中被使用)；另一方面，引入了最终模型“准确性”的自动化判断过程，保证总是可以迭代至满足业务需求的抽取准确度，从而，可以适用于不同要求级别的业务场景中，也利于培养相应要求的工程师，形成文本关键信息抽取的“流水线”作业。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为现有技术基于正则表达式提取流程图。

图2为现有技术基于模式归纳的抽取流程图。

图3为本发明方法流程图。

图4为本发明具体实施例的流程图。

图5为本发明具体实施例的基于CRF算法的自动模式归纳流程图。

具体实施方式

如图3所示，本发明通用文本信息抽取方法，包括如下步骤：

步骤1、编写限定个数的正则表达式对原始语料进行抽取，抽取得到文本语料以及字段语料；

步骤2、从抽取得到的文本语料中切割出限定比例的文本语料作为训练文本语料，并获取训练文本语料所对应字段语料作为训练字段语料；

步骤3、将训练文本语料、训练字段语料以及每个训练字段语料对应的前后限定个数的字段均导入至自动模式归纳方法中，构建抽取模型，所述自动模式归纳方法为CRF算法；

步骤a、将步骤2中剩余的语料作为验证语料，通过抽取模型对验证语料进行抽取，将抽取结果进行准确性判断，若准确性未达到限定要求，则建立多于之前个数的正则表达式进行语料抽取，进入步骤2；

步骤4、通过该抽取模型进行抽取。

本发明通用文本信息抽取系统，包括如下模块：

语料抽取模块，编写限定个数的正则表达式对原始语料进行抽取，抽取得到文本语料以及字段语料；

切割模块，从抽取得到的文本语料中切割出限定比例的文本语料作为训练文本语料，并获取训练文本语料所对应字段语料作为训练字段语料；

建模模块，将训练文本语料、训练字段语料以及每个训练字段语料对应的前后限定个数的字段均导入至自动模式归纳方法中，构建抽取模型，所述自动模式归纳方法为CRF算法；

检验模块，将切割模块中剩余的语料作为验证语料，通过抽取模型对验证语料进行抽取，将抽取结果进行准确性判断，若准确性未达到限定要求，则建立多于之前个数的正则表达式进行语料抽取，进入切割模块；

信息抽取模块，通过该抽取模型进行抽取。

如图4所示，本发明技术方案针对现有文本关键信息抽取的缺点，提出一种创新的方法，能够充分利用现有技术方法的优点，同时很大程度上规避其缺点，从而具有广泛适用性。本发明的主要原理是：

步骤1：利用“正则表达式抽取”准确性高、匹配范围小的特点，编写少量的规则，实现从大量的语料中匹配出少量但准确的抽取对象，并作为后续过程的导入。

步骤2：将步骤1中获得的抽取结果，切割出一定比例(80％)，作为导入到“自动模式归纳”方法的训练语料，替代“人工标注”过程。

步骤3：利用步骤2结果的训练语料，结合开源的“自动模式归纳”类算法，构建“抽取模型”。

步骤4：利用步骤3的结果，对步骤2切割出的、剩余的语料(20％)进行自动化抽取，并对抽取结果进行自动判断；如果模型自动判断的准确性尚未达到业务要求，则前往步骤1，编写更多的正则表达式，形成更多的“标注语料”，作为模型训练导入；如果模型自动判断的准确性已经达到业务要求，则停止该过程，并将该模型作为文本抽取最终模型部署应用。

完整过程图示如下：

相对于现有技术方案，本发明在文本关键信息抽取问题上取得以下提升：

用基于少量规则的“规则判断”，替代“人工标注”获得初始标准语料，大大降低了初期人工投入。

对“模式自动归纳”模型的抽取结果进行自动化回测，确保模型的准确性符合业务需求。

用“自动归纳模型”作为最终文本抽取的执行器，确保模型的适用性得到保障(不限制于待抽取信息是否具有严格的模版，所以抽取范围远高于纯粹基于“正则表达式”的方法)。

整个过程是可增量迭代的。如果“模式自动归纳”训练得到的模型的抽取效果不理想(准确性达不到要求)，仅需要进行增加编写少量正则表达式，执行同样的过程循环，即可有效提升模型抽取效果，前期编写的规则不会被废弃。

综上所述，本发明给出的上述过程，总体确保了较少的人工投入也能获得符合业务准确度要求的文本关键信息抽取模型，从而具备较强的适用性。

以下给出本发明的具体实施方法：

采用Python作为主要的编程语言。Python是数据分析领域常用的编程语言，具备强大的文本操作能力，且语言内置了正则表达式执行模块；

采用CRF(条件随机场)算法，作为“模型自动归纳”的算法。条件随机场(CRF)由Lafferty等人于2001年提出，结合了最大熵模型和隐马尔可夫模型特点的算法，是一种无向图模型，目前在中文分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果，也是文本抽取领域最常用的算法。

本发明采用开源的“python-crfsuite”开发包提供的CRF算法实现。特别的，在训练文本关键信息抽取CRF模型时，将文本中正则表达式匹配结果的前后30个字都导入到CRF算法中进行自动训练，得到算法模型(在发明验证的过程中，通过多种场景验证，最终确定采用30个字)，如图5所示。

基于开源的PythonWeb框架Flask，结合Web界面技术(HTML/CSS/JS)开发了整体支撑系统。系统可以采用主流的浏览器访问。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种通用文本信息抽取方法，其特征在于：包括如下步骤：

步骤1、编写限定个数的正则表达式对原始语料进行抽取；

步骤3、将训练语料通过自动模式归纳方法构建抽取模型；

步骤4、通过该抽取模型进行抽取。

2.如权利要求1所述的一种通用文本信息抽取方法，其特征在于：所述步骤1进一步具体为：编写限定个数的正则表达式对原始语料进行抽取，抽取得到文本语料以及字段语料。

3.如权利要求2所述的一种通用文本信息抽取方法，其特征在于：所述步骤2进一步具体为：从抽取得到的文本语料中切割出限定比例的文本语料作为训练文本语料，并获取训练文本语料所对应字段语料作为训练字段语料。

4.如权利要求1所述的一种通用文本信息抽取方法，其特征在于：所述步骤3进一步具体为：将训练文本语料、训练字段语料以及每个训练字段语料对应的前后限定个数的字段均导入至自动模式归纳方法中，构建抽取模型。

5.如权利要求1所述的一种通用文本信息抽取方法，其特征在于：所述自动模式归纳方法为CRF算法。

6.如权利要求1所述的一种通用文本信息抽取方法，其特征在于：所述步骤3与步骤4之间还包括一步骤a、将步骤2中剩余的语料作为验证语料，通过抽取模型对验证语料进行抽取，将抽取结果进行准确性判断，若准确性未达到限定要求，则建立多于之前个数的正则表达式进行语料抽取，进入步骤2。

7.一种通用文本信息抽取系统，其特征在于：包括如下模块：

信息抽取模块，通过该抽取模型进行抽取。

8.如权利要求7所述的一种通用文本信息抽取系统，其特征在于：所述语料抽取模块进一步具体为：编写限定个数的正则表达式对原始语料进行抽取，抽取得到文本语料以及字段语料。

9.如权利要求8所述的一种通用文本信息抽取系统，其特征在于：所述切割模块进一步具体为：从抽取得到的文本语料中切割出限定比例的文本语料作为训练文本语料，并获取训练文本语料所对应字段语料作为训练字段语料。

10.如权利要求1所述的一种通用文本信息抽取系统，其特征在于：所述建模模块进一步具体为：将训练文本语料、训练字段语料以及每个训练字段语料对应的前后限定个数的字段均导入至自动模式归纳方法中，构建抽取模型。

11.如权利要求1所述的一种通用文本信息抽取系统，其特征在于：所述自动模式归纳方法为CRF算法。

12.如权利要求1所述的一种通用文本信息抽取系统，其特征在于：所述建模模块与信息抽取模块之间还包括一检验模块，将切割模块中剩余的语料作为验证语料，通过抽取模型对验证语料进行抽取，将抽取结果进行准确性判断，若准确性未达到限定要求，则建立多于之前个数的正则表达式进行语料抽取，进入切割模块。