CN112668323B

CN112668323B - 基于自然语言处理的文本要素提取方法及其文本审查系统

Info

Publication number: CN112668323B
Application number: CN201910972518.4A
Authority: CN
Inventors: 李庆; 欧睿; 张雷; 曲昊; 郑元
Original assignee: Smartdot Technologies Co ltd
Current assignee: Smartdot Technologies Co ltd
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2024-02-02
Anticipated expiration: 2039-10-14
Also published as: CN112668323A

Abstract

本申请提供一种基于自然语言处理的文本要素提取方法，用于审核文本中的要素是否符合预定的审核规则，包括如下步骤：基于相应的识别模式对于待审核文本进行分词，当检验到预定的业务特征值时，基于该识别模型，将与该业务特征值相邻的文本要素予以提取；所述业务特征值与所述文本要素之间的对应关系提前预存所述识别模型中。该提取方法基于业务规则和统计结合的文本要素提取方式，能够有效的降低模型训练对语料数量的要求。此外，本申请还提供一种基于自然语言处理的文本审查系统，能够解决已有项目中的文档要素定义、分析规则、模型等成果无法有效积累，在新的项目中无法使用已有成果，致使大量的人员投入到重复的工作中的问题。

Description

基于自然语言处理的文本要素提取方法及其文本审查系统

技术领域

本申请涉及自然语言处理的技术领域，特别涉及一种基于自然语言处理的文本要素提取方法及其处理系统。

背景技术

自然语言处理是计算机科学领域与人工智领域中的一个重要方向。它研究能实现人与计算机之间用日常用语(自然语言)进行有效通信的各种理论和方法。自然语言处理作为机器学习的代表，最为关键的要素就是模型的建立和训练。在自然语言处理中，模型训练的流程可分为四部分：数据输入、预处理、模型训练以及模型强化(如下图所示)。首先，我们会确认文档类型，输入业务核心词典和大量的文本数据。其次，我们需要对文本进行预处理并生成语料。将语料进行模型训练，便可以实现关键信息识别的功能。系统根据识别的信息与审查内容进行比对，从而向用户提供风险提示。目前文本要素提取采用的是CRF算法(条件随机场算法)，其结合了最大熵模型和隐马尔可夫模型的特点，近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。

文本要素智能提取是基于自然语言处理中的分词和命名实体识别技术将文本中有确定含义的词抽取出来，基于文本要素智能提取技术能够将非结构化的文本信息进行结构化处理，并为之制定相应的分析规则，实现针对文本数据的深度挖掘分析。

在实际的项目建设过程中，基于现有的自然语言处理技术进行文本要素提取时存在如下几个方面的问题：

1)现有的自然语言处理技术是基于统计的命名实体识别模式对语料数量要求较高，但在项目开展过程中，往往无法获取到足够的语料支撑模型训练，致使提取要素的准确率较低，大大降低了其在业务场景中使用价值。

2)现有的语料标注方式是在文本上进行标注，一方面标注的效率低、准确率不高，同时对标准人员的要求较高，极大的限制了该技术在项目中的应用推广。

3)已有项目中的标准、分析规则、模型等成果无法有效积累，在新的项目中无法使用已有成果，致使大量的人员投入到重复的工作中。

发明内容

为解决上述技术问题，本申请的第一方面提供一种基于自然语言处理的文本要素提取方法，该提取方法基于业务规则和统计结合的文本要素提取方式，能够有效的降低模型训练对语料数量的要求。

为解决上述技术问题，本申请提供一种基于自然语言处理的文本要素提取方法，用于审核文本中的要素是否符合预定的审核规则，包括如下步骤：

基于相应的识别模型，对待审核文本进行分词，当检验到预定的业务特征值时，基于该识别模型，将与该业务特征值相邻的文本要素予以提取；

所述业务特征值与所述文本要素之间的对应关系提前预存所述识别模型中。

可选的，

所述识别模型通过如下步骤建立：

在一个训练样本中，基于要提取的文本要素，确定与其对应出现的至少一个业务特征值，作为提取标签；

将提取标签所在整句文本予以整体提取，并标注；同时，将所述业务特征值予以标注；

基于上述标注，生成语料，进而训练生成所述识别模型。

可选的，

基于所述业务特征值，预存所有的所述业务特征值的常用特征值，进行业务特征值的词典定义，当检验到所述常用的特征值时，将与所述业务特征值对应的文本要素予以提取。

可选的，

所述文本要素提取方法还包括提前存储相应的文本提取规则。

可选的，

所述遍历待审核文本，当检验到预定的业务特征值时，基于相应的识别模型，将与该业务特征值相邻的文本要素予以提取，包括：

定义要提取的文本要素在文本文档的位置为S(i)，则S(i)前后的两个位置分别为S(i+1)、S(i+2)、S(i-1)、S(i-2)；

定义要提取的文本要素的词性编码为第一字符串，定义与所述要提取的文本要素对应匹配的业务特征值的词性编码为第二字符串；

进行文本识别时，如识别出S(i)为第一字符串，则查询S(i+1)、S(i+2)、S(i-1)、S(i-2)是否为第二字符串；

分别就S(i+1)、S(i+2)、S(i-1)、S(i-2)位置出现第二字符串的先验概率及权重，分别计算出S(i)是第一字符串的概率；

汇总S(i+1)、S(i+2)、S(i-1)、S(i-2)位置的上述的概率值，算出最终的出S(i)是第一字符串的概率。

在本申请中，实际的应用场景中，面对的文本主要是合同、公文等业务文档，其有较为明显的业务特征值，这些业务特征值能将要提取的文本要素限定在一个比较小的范围中，如果能基于这些业务特征值定义并标注出来，既能通过业务规则和统计结合的方式进行文本要素提取，将能有效的降低模型训练对语料数量的要求，并能有效提高要素提取的准确率。

此外，为解决上述技术问题，本申请的第二方面还提供一种基于自然语言处理的文本审查系统，在除了解决降低模型训练对语料数量要求多的问题之外，能够解决已有项目中的标准、分析规则、模型等成果无法有效积累，在新的项目中无法使用已有成果，致使大量的人员投入到重复的工作中的问题。

为解决上述技术问题，本申请提供一种基于自然语言处理的文本审查系统，其特征在于，所述文本审查系统采用上述任一项所述的文本要素提取方法的进行文本要素提取；所述文本审查系统包括基础信息配置模块，所述基础信息配置模块用于配置文档类型和系统标签库。

可选的，

所述基础信息配置模块包括文档配置子模块，所述文档配置子模块包括：

文本处理孙模块，用于添加新的待审核的文本类型、或删除已存在的待审核的文本类型；

标签处理孙模块，用于导入系统中已存在的与待审核文本类型匹配的提取标签，或向系统中添加新的提取标签；

文本要素处理孙模块，用于导入系统中已存在的与待审核文本类型匹配的文本要素，或向系统中添加新的文本要素。

可选的，

所述基础信息配置模块包括系统标签子模块，所述系统标签库子模块包括：

包括查询孙模块，用于查询所述系统标签库中已有的提取标签；

新增孙模块，用于向所述系统标签库中增加新的提取标签；

删除孙模块，用于删除所述系统标签库中已有的提取标签。

可选的，

所述文本审查系统还包括脚本库管理模块；

所述脚本库管理模块用于实现要素提取和业务规则的分析脚本的管理。

可选的，

所述文本审查系统还包括规则库管理模块；

所述规则库管理模块实现具体的文本审核规则，并指定该规则处理的要素及相关脚本。

可选的，

所述规则库管理模块包括：

添加规则子模块，用于向规则库中输入新的文本审核规则，并选择关联的文本文档名称；

导入系统规则子模块，用于将规则库中原有的文本审核规则预置导入。

可选的，

所述文本审查系统还包括模型管理模块；

所述模型管理模块实现模型的定义和管理，支撑对该模型需要的语料进行标注，并进行语料生成和模型训练。

可选的，

所述模型管理模块包括：

添加模型子模块，用于向系统中添加新的识别模型，并指定该模型分析的文本文档类型；

语料管理子模块，用于上传指定模型的训练所需的原始文件，并对原始文件进行管理；

语料标注子模块，用于根据预设的规则，对上传原始文件进行标注，在语料中需要提取的要素标注出来；

语料生成子模块，基于系统中标注的内容，将原始文件生成模型分析所需的语料；

模型训练子模块，基于上传的模型和指定的算法，进行模型训练生成模型。

可选的，

所述文本审查系统还包括文档审查模块；

所述文档审查模块包括：

文档上传子模块，用于上传待审查的文本文档；

文档审查子模块，用于根据预定的识别模型进行文本文档的审查；

风险报告生成子模块，用于根据预定的格式生成相应的风险报告。

在本申请中，该处理系统包括基础信息配置模块，所述基础信息配置模块用于配置文档类型和系统标签库。因而基于该处理平台，历史项目的文档、标注内容及模型能够有效积累，当有新的项目只需要在已有基础上进行调整，能极大降低项目的工作量。从而能够解决已有项目中的标准、分析规则、模型等成果无法有效积累，在新的项目中无法使用已有成果，致使大量的人员投入到重复的工作中的问题。

附图说明

图1为本申请提供的一种示例性实施例中一种基于自然语言处理的文本要素提取方法的流程是示意图；

图2为本申请提供一种示例性实施例中一种基于自然语言处理的文本审查系统的系统架构图；

图3为本申请提供一种示例性实施例中一种基于自然语言处理的文本审查系统的项目实施流程图；

图4为本申请中一种示例性实施例中一种基于自然语言处理的文本要素提取方法的定义标签的示意图；

图5为本申请中一种示例性实施例中一种基于自然语言处理的文本要素提取方法的语料标注的示意图；

图6为本申请中一种示例性实施例中一种基于自然语言处理的文本要素提取方法的文本审核结果的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1、图2和图3，图1为本申请提供的一种示例性实施例中一种基于自然语言处理的文本要素提取方法的流程是示意图；图2为本申请提供一种示例性实施例中一种基于自然语言处理的文本审查系统的系统架构图；图3为本申请提供一种示例性实施例中一种基于自然语言处理的文本审查系统的项目实施流程图。

如图1所示，本申请提供的提取方法包括：

步骤S101，在一个训练样本中，基于要提取的文本要素，确定与其对应出现的至少一个业务特征值，作为提取标签；

步骤S102，将提取标签所在整句文本和所述业务特征值予以标注；

步骤S103，基于上述标注，生成语料，进而训练生成所述识别模型；需要说的是，所述业务特征值与所述文本要素之间的对应关系提前预存所述识别模型中；

步骤S104，基于相应的识别模型，对待审核文本进行分词，当检验到预定的业务特征值时，基于该识别模型，将与该业务特征值相邻的文本要素予以提取；

进一步的，可以对上述实施例做出改进。比如，基于所述业务特征值，预存所有的所述业务特征值的常用特征值，进行业务特征值的词典定义，当检验到所述常用特征值时，将与所述业务特征值对应的文本要素予以提取。再者，所述文本要素提取方法还包括提前存储相应的文本审核规则。

需要说明的是，

在本申请中，先分析待审的业务文本，结合业务需求确定业务提取要素，根据业务提取要素设定业务标签，采用一个或者多个业务标签进行组合形成一个业务特征，作为模型的业务特征值。

再按照设定的业务特征进行文本语料标注，形成模型语料

基于模型语料按照特定的算法进行模型训练，形成业务模型

按照该模型进行分词、实体识别，按照词性及业务实体的属性信息进行业务特征提取。

此外，可以对步骤104做出进一步设计，比如，定义要提取的文本要素在文本文档的位置为S(i)，则S(i)前后的两个位置分别为S(i+1)、S(i+2)、S(i-1)、S(i-2)；

在本申请中，可以结合具体的业务场景进行说明。比如，请参考图、图5和图6，图4为本申请中一种示例性实施例中一种基于自然语言处理的文本要素提取方法的定义标签的示意图；图5为本申请中一种示例性实施例中一种基于自然语言处理的文本要素提取方法的语料标注的示意图；图6为本申请中一种示例性实施例中一种基于自然语言处理的文本要素提取方法的文本审核结果的示意图。

基于复合词的标注方式实现业务规则和统计结合的要素提取，例如以合同“金额大小写保持一致”审查为例，需要提取出小写金额与大写金额比较。在小写金额“￥282500元(人民币)”提取的这个场景下，文本中可能多处出现类似数字串，并对其前后文进行特征分析，发现“￥”和“人民币”是其明显的特征值，因此我们要将特征值也加入到识别的规则中，以确保机器能找到的数字串，是我们预期需要提取的小写金额。因此我们的实现流程如下：

第一、定义标签。如图4所示，定义了三个标签。

第二、标注。如图5所示，基于定义的标签标注如下，不仅仅是将小写金额部分标注出来，而是整句文本标注出来作为一个要素进行提取，同时将特征值部分标注出来。

基于以上标注生成的语料为：[￥/rmbbj2key 282500元/mq(/w人民币/rmb2key)/w]/xxje2value

上述语料，设定了rmbbj2key、rmb2key和xxje2value词性，分别代表货币符号、币种、人民币小写金额，其中mq是数量词，w是符号。

该语料的特征说明：

货币符号+数量词(小写数字+元)+币种＝小写金额

由[货币符号+数量词+币种]形成的复合词为小写金额。

第三、词典定义

在审核过程中，发现文本中对于人民币货币符号存在多种写法，还有￥这种符号，其实严格来说￥是日元标记，但是合同文档中存在大量的合同对于货币符号都是这么写。为了能识别不同的因为书写错误的人民币符号，需要在字典进行处理，告诉机器￥这种符号也是人民币符号。

第四、定义审查规则，将相应的审查规则定义好，举例如“金额大小写保持一致”。

第五、训练模型。

第六、合同审查。

如图6所示，是上传一个新的合同，要素提取及审核结果。

基于以上的实施例可以看出，一个要素其本身词性和上下文的词性对其是被起着关键的作用，目前我司已在公文、合同等不同文本积累了大量的特征词，部分词典如下：

同时基于已有的经验积累，我们在针对文本的特征值选取如下：

序号	特征	含义
			1	S_(i)	当前词的词性
2	S(i+1)	向前一个词的词性
			3	S(i+2)	向前二个词的词性
4	S(i-1)	向后一个词的词性
			5	S(i-2)	向后二个词的词性

例如：从合同中提取合同的小写金额提取时，由于合同中除了金额，还会有数量、编号等词均为数字，词性均为“/mq”，基于机器学习的方式需要大量语料进行标注，才能将小写金额准确的提取出来，但通过对合同分析，我们发现进行金额的前后会有明显的特征值，如“￥”、“人民币”等特定的词或符号，因此我们基于通过业务规则和统计结合的方式的实现步骤如下：

1、在字库中定义特殊符号及其词性编码，如：

·￥：rmbbj2key

·人民币：rmb2key

2、在文本识别时，如果识别出S_(i)词性为“/mq”的词，会查询S(i+1)、S(i+2)、S(i-1)、S(i-2)的词性的特征值。

3、S(i+1)、S(i+2)、S(i-1)、S(i-2)可为特征词性rmbbj2key、rmb2key，也可为名词/n、量词/q等其他词性

4、分别S(i+1)、S(i+2)、S(i-1)、S(i-2)出现rmbbj2key、rmb2key是/mq小写金额的先验概率及权重分别计算出其为小写金额的概率。

5、汇总S(i+1)、S(i+2)、S(i)、S(i-1)、S(i-2)的概率值计算出/mq是小写金额的最终概率。

基于以上的特征值，基于CRF算法生成相应的权重参数ω和特征函数f并训练模型，在100份语料训练的情况下，要素提取的准确率既能达到85％以上。

标签	准确率	召回率
			甲方名称	93.33％	78.95％
正文含税总价小写	92.38％	78.57％
			分阶段金额小写	86.55％	78.29％
分阶段金额大写	100％	78.38％
			起草语言	100％	100％
乙方银行账号	88.89％	73.33％
			正文不含税总价小写	91.43％	75.56％
正文含税总价税率	90.87％	100％
			增值税率	91.30％	95.46％

此外，如图2及图3所示，本申请还提供一种基于自然语言处理的文本审查系统。所述文本审查系统采用本申请任一种实施例中的的文本要素提取方法的进行文本要素提取；所述文本审查系统包括基础信息配置模块，所述基础信息配置模块用于配置文档类型和系统标签库。

进一步的，所述基础信息配置模块包括文档配置子模块，所述文档配置子模块包括：

标签处理孙模块，用于导入系统中已存在的与待审核文本类型匹配的提取标签，或向系统中添加新的提取标签；文本要素处理孙模块，用于导入系统中已存在的与待审核文本类型匹配的文本要素，或向系统中添加新的文本要素。

进一步的，所述基础信息配置模块包括系统标签子模块，所述系统标签库子模块包括：包括查询孙模块，用于查询所述系统标签库中已有的提取标签；新增孙模块，用于向所述系统标签库中增加新的提取标签；删除孙模块，用于删除所述系统标签库中已有的提取标签。

进一步的，所述文本审查系统还包括脚本库管理模块；所述脚本库管理模块用于实现要素提取和业务规则的分析脚本的管理。

进一步的，所述文本审查系统还包括规则库管理模块；所述规则库管理模块实现具体的文本审核规则，并指定该规则处理的要素及相关脚本。

进一步的，所述规则库管理模块包括：添加规则子模块，用于向规则库中输入新的文本审核规则，并选择关联的文本文档名称；导入系统规则子模块，用于将规则库中原有的文本审核规则预置导入。

进一步的，所述文本审查系统还包括模型管理模块；所述模型管理模块实现模型的定义和管理，支撑对该模型需要的语料进行标注，并进行语料生成和模型训练。

进一步的，所述模型管理模块包括：添加模型子模块，用于向系统中添加新的识别模型，并指定该模型分析的文本文档类型；

进一步的，所述文本审查系统还包括文档审查模块；所述文档审查模块包括：文档上传子模块，用于上传待审查的文本文档；文档审查子模块，用于根据预定的识别模型进行文本文档的审查；风险报告生成子模块，用于根据预定的格式生成相应的风险报告。

综上所述，基于该平台进行文本标注主要有如下有点：

1)基于复合词的标注方式实现了业务规则与统计结合的文本要素提取，其极大的降低了模型训练对数据语料的需求，实现在少量语料训练模型的情况下，要素提取的准确率也能达到90％

2)提供可视化的标注环境，能有效降低标注的难度，极大的提高了标注工作的效率

3)基于平台，历史项目的文档、标注内容及模型能够有效积累，当有新的项目只需要在已有基础上进行调整，能极大降低项目的工作量。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于自然语言处理的文本要素提取方法，用于审核文本中的要素是否符合预定的审核规则，其特征在于，包括如下步骤：

所述业务特征值与所述文本要素之间的对应关系提前预存所述识别模型中；

遍历待审核文本，当检验到预定的业务特征值时，基于相应的识别模型，将与该业务特征值相邻的文本要素予以提取，包括：

2.如权利要求1所述的一种基于自然语言处理的文本要素提取方法，其特征在于，

所述识别模型通过如下步骤建立：

将提取标签所在整句文本和所述业务特征值予以标注；

基于上述标注，生成语料，进而训练生成所述识别模型。

3.如权利要求1所述的一种基于自然语言处理的文本要素提取方法，其特征在于，基于所述业务特征值，预存所有的所述业务特征值的常用特征值，进行所述业务特征值的词典定义，当检验到所述常用特征值时，将与所述业务特征值对应的文本要素予以提取。

4.如权利要求1所述的一种基于自然语言处理的文本要素提取方法，其特征在于，所述文本要素提取方法还包括提前存储相应的文本提取规则。

5.一种基于自然语言处理的文本要素处理系统，其特征在于，所述文本要素处理系统采用权利要求1-4任一项所述的文本要素提取方法的进行文本要素提取；所述文本要素处理系统包括基础信息配置模块，所述基础信息配置模块用于配置文档类型和系统标签库。

6.权利要求5所述的一种基于自然语言处理的文本要素处理系统，其特征在于，所述基础信息配置模块包括文档配置子模块，所述文档配置子模块包括：

7.权利要求5所述的一种基于自然语言处理的文本审查系统，其特征在于，所述基础信息配置模块包括系统标签子模块，所述系统标签库子模块包括：

新增孙模块，用于向所述系统标签库中增加新的提取标签；

删除孙模块，用于删除所述系统标签库中已有的提取标签。

8.权利要求5所述的一种基于自然语言处理的文本审查系统，其特征在于，所述文本审查系统还包括脚本库管理模块；

9.权利要求5所述的一种基于自然语言处理的文本审查系统，其特征在于，所述文本审查系统还包括规则库管理模块；

10.权利要求9所述的一种基于自然语言处理的文本审查系统，其特征在于，所述规则库管理模块包括：

11.权利要求5所述的一种基于自然语言处理的文本审查系统，其特征在于，所述文本审查系统还包括模型管理模块；

12.权利要求11所述的一种基于自然语言处理的文本审查系统，其特征在于，所述模型管理模块包括：

13.权利要求5所述的一种基于自然语言处理的文本审查系统，其特征在于，所述文本审查系统还包括文档审查模块；

所述文档审查模块包括：文档上传子模块，用于上传待审查的文本文档；文档审查子模块，用于根据预定的识别模型进行文本文档的审查；风险报告生成子模块，用于根据预定的格式生成相应的风险报告。