CN108763368A

CN108763368A - 抽取新知识点的方法

Info

Publication number: CN108763368A
Application number: CN201810473799.4A
Authority: CN
Inventors: 韩警; 钟翰廷; 吴金龙; 王守崑
Original assignee: Aids Interactive Technology Development (beijing) Co Ltd
Current assignee: Aids Interactive Technology Development (beijing) Co Ltd
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2018-11-06

Abstract

提供一种抽取新知识点的方法。该方法包括：针对待抽取文档进行文档内容解析；对于解析出的文档内容进行段落结构化处理；基于段落预测模型，预测段落包含新知识点的概率值，根据预测的概率值定位新知识点所处于的段落；基于知识点抽取模型，在定位的段落中抽取有关新知识点的内容。知识点包括字、词、词组、短句、长句等。段落预测模型是通过针对新增知识点进行标注而更新的。知识点抽取模型是基于已有知识点的通用抽取模型，通过对新增知识点进行标注而更新的。该抽取方法结合了文档结构化信息，从而缩小了抽取范围，获得更高抽取准确率。同时，通过引入迁移学习技术和少量标注，可以有效利用已有模型，实现抽取系统升级维护的自动化。

Description

抽取新知识点的方法

技术领域

本发明涉及基于机器学习的文档处理，更具体涉及从文档中抽取新知识点的方法。

背景技术

从非结构化的文档数据中抽取出结构化的知识，无论是在智能问答还是在信息检索领域都是需要解决的关键问题。目前广泛使用的有两种抽取方式：一是使用规则的方式；二是训练机器学习模型进行抽取。前者需要投入大量的精力从众多文档中总结规则，虽然准确率比较高，但是泛化性能不足，因此基于模型的抽取成为目前的研究热点。

目前基于模型的文档抽取，大部分都是采用有监督的方式，会面临以下问题：

1、需要大量的标注数据。这就需要投入大量的人力进行数据标注，耗时耗力，效率低下；

2、抽取系统项目的维护问题。项目交付后，客户如果需要新增知识点，就需要系统的二次开发，维护成本高，不能做到自动化的升级维护。

发明内容

本发明针对以上的问题，提出一种抽取系统，只需要少量的标注数据，就能对新增知识点进行抽取。

根据本发明的实施例，本发明的第一方面提供了一种抽取新知识点的方法。所述方法可以包括：针对待抽取文档进行文档内容解析；对于解析出的文档内容进行段落结构化处理；基于段落预测模型，预测段落包含新知识点的概率值，根据预测的概率值定位新知识点所处于的段落；基于知识点抽取模型，在定位的段落中抽取有关新知识点的内容。

优选地，所述知识点可以包括字、词、词组、短句、长句中的一个或多个。也就是说，除了简单实体的抽取，本发明还支持句子片段（短句）和整句（长句）的抽取。

优选地，所述段落预测模型是通过针对新增知识点进行标注而更新的。

更具体地说，更新所述段落预测模型可以包括：针对待标注文档进行文档内容解析；对于解析出的文档内容进行段落结构化处理；对文档段落进行标注；利用标注数据训练所述段落预测模型。

优选地，所述知识点抽取模型是基于已有知识点的通用抽取模型，通过对新增知识点进行标注而更新的。

更具体地说，更新所述知识点抽取模型可以包括：针对待标注文档进行文档内容解析；对于解析出的文档内容进行段落结构化处理；对新增知识点进行标注；对已有标注数据进行模型训练而得到基于已有知识点的通用抽取模型；在通用抽取模型的基础上，通过加入新增知识点标注数据，进行迁移学习，训练所述知识点抽取模型。

以上提到的基于已有知识点的通用抽取模型可以是序列标注类模型或阅读理解类模型。优选地，所述序列标注类模型可以是双向长短时记忆与条件随机场（Bi-LSTM +CRF），而所述阅读理解类模型可以是r-net。

根据本发明的实施例，本发明的第二方面提供了一种计算机可读介质，用于记录可由处理器执行的指令，所述指令在被处理器执行时，使得处理器执行抽取新知识点的方法，包括如下操作：针对待抽取文档进行文档内容解析；对于解析出的文档内容进行段落结构化处理；基于段落预测模型，预测段落包含新知识点的概率值，根据预测的概率值定位新知识点所处于的段落；基于知识点抽取模型，在定位的段落中抽取有关新知识点的内容。

根据本发明的抽取方法结合了文档结构化信息，通过利用段落预测模型，缩小了抽取范围，从而获得更高抽取准确率。同时，通过引入迁移学习技术，本发明的抽取方法可以有效利用已有模型，通过少量标注，实现抽取系统升级维护的自动化。

附图说明

下面参考附图结合实施例说明本发明。

图1 是根据本发明的实施例的抽取新知识点的方法的流程图。

图2是根据本发明的实施例的更新段落预测模型的方法的流程图。

图3是根据本发明的实施例的更新知识点抽取模型的方法的流程图。

图4是根据本发明的优选实施例的新增知识点流程与抽取流程的示意图。

图5是基于已有知识点的通用抽取模型的一个示例。

图6是文档结构化处理的一个示例。

图7是对新增知识点进行标注的一个示例。

图8是模型参数迁移的典型结构图。

具体实施方式

附图仅用于示例说明，不能理解为对本发明的限制。下面结合附图和实施例对本发明的技术方案做进一步的说明。

本领域技术人员应该理解，为了描述方便，在本发明中，对抽取的对象统称为“知识点”。因此，知识点包括字、词、词组、短句、长句中的一个或多个。

如图1中所示，根据本发明的实施例的抽取新知识点的方法100开始于步骤S110，在此步骤，针对待抽取文档进行文档内容解析。待抽取文档可以是各种格式的文档，诸如MS-DOC文档、PDF文档、HTML文档等等。其中，文档的内容可以是直接可复制的文字形式的，也可以是图形或图像模式的。步骤S110可以通过各种文本提取技术，例如PDF文件流、光学字符识别（OCR）等，直接或间接地从文档中提取文本内容。

在步骤S120，对于解析出的文档内容进行段落结构化处理。具体地说，可以通过将解析出的文档内容进行文本整理、文本分类，从而将其处理为带有段落标题等结构化信息的文本内容。

在步骤S130，基于段落预测模型，预测段落包含新知识点的概率值，根据预测的概率值定位新知识点所处于的段落。关于段落预测模型，将在下文中进一步描述。

在步骤S140，基于知识点抽取模型，在定位的段落中抽取有关新知识点的内容。关于知识点抽取模型，将在下文中进一步描述。

方法100在步骤S140之后结束。知识点被抽取之后，形成结构化知识，可以用于知识库或知识图谱的建立与更新。

在图1的步骤S130中，基于段落预测模型，预测段落包含新知识点的概率值，根据预测的概率值定位新知识点所处于的段落。而这里提到的段落预测模型，是通过针对新增知识点进行标注而更新的。

如图2中所示，根据本发明的实施例的更新段落预测模型的方法200开始于步骤S210，在此步骤，针对待标注文档进行文档内容解析。本领域技术人员应当理解，尽管这里针对的是待标注文档，但是这里使用的技术与图1的方法100中的步骤S110中所使用的文档内容解析的技术可以是相同或相似的。例如，待标注文档可以是各种格式的文档，诸如MS-DOC文档、PDF文档、HTML文档等等。其中，文档的内容可以是直接可复制的文字形式的，也可以是图形或图像模式的。步骤S210可以通过各种文本提取技术，例如PDF文件流、光学字符识别（OCR）等，直接或间接地从文档中提取文本内容。

在步骤S220，对于解析出的文档内容进行段落结构化处理。具体地说，本领域技术人员应当理解，尽管这里针对的是待标注文档，但是这里使用的技术与图1的方法100中的步骤S120中所使用的段落结构化处理的技术可以是相同或相似的。例如，可以通过将解析出的文档内容进行文本整理、文本分类，从而将其处理为带有段落标题等结构化信息的文本内容。

在步骤S230，对文档段落进行标注。该步骤可以通过标注系统来完成。该标注系统可以具有web前端，以便标注人员使用web前端来对待处理文档进行标注。本领域技术人员应该理解，简单地，标注系统也可以仅仅是个Excel表格。标注的内容其实分为两个方面，一方面是文档段落的标注，也就是步骤S230所述；另一方面则是新增知识点的标注，将在有关图3的步骤中进一步详述。

在步骤S240，利用标注数据训练段落预测模型。这里的段落预测模型经过训练更新，可以用于知识点抽取过程，即图1的步骤S130所使用的段落预测模型。

由此，方法200可以结束。

在图1的步骤S140中，基于知识点抽取模型，在定位的段落中抽取有关新知识点的内容。而这里提到的知识点抽取模型，是通过对新增知识点进行标注而更新的。

如图3中所示，根据本发明的实施例的更新知识点抽取模型的方法300开始于步骤S310，在此步骤，针对待标注文档进行文档内容解析。步骤S310与图2的方法200中的步骤S210完全相同。本领域技术人员应当理解，尽管这里针对的是待标注文档，但是这里使用的技术与图1的方法100中的步骤S110中所使用的文档内容解析的技术可以是相同或相似的。例如，待标注文档可以是各种格式的文档，诸如MS-DOC文档、PDF文档、HTML文档等等。其中，文档的内容可以是直接可复制的文字形式的，也可以是图形或图像模式的。步骤S210可以通过各种文本提取技术，例如PDF文件流、光学字符识别（OCR）等，直接或间接地从文档中提取文本内容。

在步骤S320，对于解析出的文档内容进行段落结构化处理。步骤S320与图2的方法200中的步骤S220完全相同。具体地说，本领域技术人员应当理解，尽管这里针对的是待标注文档，但是这里使用的技术与图1的方法100中的步骤S120中所使用的段落结构化处理的技术可以是相同或相似的。例如，可以通过将解析出的文档内容进行文本整理、文本分类，从而将其处理为带有段落标题等结构化信息的文本内容。

在步骤S330，对新增知识点进行标注。与图2的步骤S230类似，该步骤可以通过标注系统来完成。该标注系统可以具有web前端，以便标注人员使用web前端来对待处理文档进行标注。本领域技术人员应该理解，简单地，标注系统也可以仅仅是个Excel表格。标注的内容其实分为两个方面，一方面是文档段落的标注，如图2的步骤S230所述；另一方面则是新增知识点的标注，也就是步骤S330所述。

另一方面，在步骤S340，对已有标注数据进行模型训练而得到基于已有知识点的通用抽取模型。本领域技术人员应该理解，步骤S340其实与步骤S310、S320、S330的进行没有先后顺序的要求。也就是说，步骤S340是可以提前进行的。换句话说，基于已有知识点的通用抽取模型与待标注的文档无关，可以是之前就存在的通用模型或未更新的模型。

这里所述的基于已有知识点的通用抽取模型可以是序列标注类模型，例如双向长短时记忆与条件随机场（Bi-LSTM + CRF）模型；或者，也可以是阅读理解类模型，例如r-net。关于基于已有知识点的通用抽取模型，更具体地，关于Bi-LSTM + CRF模型或框架，将在下文中结合优选实施例进一步详述。

在步骤S350，在通用抽取模型的基础上，通过加入新增知识点标注数据，进行迁移学习，训练所述知识点抽取模型。这里的知识点抽取模型经过更新，可以持续用于知识点抽取过程，即图1的步骤S140所使用的知识点抽取模型。关于迁移学习，将在下文中结合优选实施例进一步详述。

由此，方法300可以结束。

以下结合本发明的一个优选实施例来进一步详细描述根据本发明的新增知识点流程与抽取流程。

图4是根据本发明的优选实施例的新增知识点流程与抽取流程的示意图。图4的上半部分对应于图2和图3的模型更新过程；图4的下半部分对应于图1的知识点抽取过程。

如图4上半部分中所示，对已有的知识点和标注数据，基于例如Bi-LSTM + CRF模型或框架来训练基于已有知识点的通用抽取模型。具体地说，对于待标注文档中的新增的知识点，首先对文档进行结构化处理，拆分成段落，每个段落包含标题和段落正文。处理结果发送至标注系统供标注人员标注。标注人员标注知识点内容以及所在段落的信息。这里所述的段落信息包括段落内容和段落所在的章节结构信息。标注系统则反馈标注数据，一方面在已经训练好的通用抽取模型上进行迁移学习，训练抽取新增知识点的模型；另一方面，同时根据标注的段落信息，训练段落预测模型。

如图4下半部分中所示，在抽取过程中，首先通过段落预测模型定位到段落。然后，抽取模型从特定的段落中进行新增知识点的抽取。

整个系统除了标注部分需要标注人员参与少量样本的标注，其他部分实现了完全的自动化。

本领域技术人员应该理解，在图4中，上半部分和下半部分都存在文档内容解析以及段落结构化处理的流程，尽管针对的分别是待标注文档和待抽取文档，但其中所使用的技术是相同或相似的，因此，在下文中将不进行区分而统一进行描述。

如前所述，基于已有知识点的通用抽取模型与待标注的文档无关，可以是之前就存在的通用模型或未更新的模型。下面就首先来进一步描述基于已有知识点的通用抽取模型。

通用抽取模型从原始文档中抽取出片段作为候选知识点。模型可以使用序列标注类模型，如Bi-LSTM+CRF，也可以使用阅读理解类的模型，如r-net。阅读理解类模型通过预测候选知识点的开始和结束位置来获得候选知识点。下面以序列标注模型Bi-LSTM+CRF为例简单描述。也就是说，在下面的例子中，通用抽取模型可以基于Bi-LSTM+CRF 框架，在已有标注数据上进行训练。Bi-LSTM以字的粒度作为输入，采用 BMSEO标签进行标注。其中，B代表知识点开头位置，M代表知识点中间位置，S代表单字独立成为一个知识点，E代表知识点结束位置，O代表其他非知识点。

图5是基于已有知识点的通用抽取模型的一个示例。对于“18周岁”这样一个待标注的内容，经过Bi-LSTM层和CRF层之后，输出关于年龄的标注数据。

关于文档内容解析和关于文档结构化处理，前文已经进行了描述，这里稍作补充。例如，在一个优选实施例中，首先根据文档类型（PDF、MS-DOC、HTML等），采用相应的开源工具进行基本的内容解析。然后，对解析出来的内容进行深度的结构化处理，获取目录、章节、段落标题、段落内容信息以及相互之间的对应关系。

图6是文档结构化处理的一个示例。如图6所示，将段落标题和段落内容按照特定形式进行存储。这样，在给定段落信息的情况下，实现对知识点所在段落的准确预测。例如，在图6中，段落（“type”：“paragraph”）标题（“headers”）为“22.保险期间”，该段落中的内容（“content”）为“主合同的保险期间为终身，自主合同生效时起算，至保险人身故时止。借款利息：借款利息按借款的经过天数和我方公布的借款利率依复利方式计算”。

结构化后的文档内容发送至标注系统供标注人员标注。标注人员只需要根据相应的知识点框选出对应的内容即可。标注系统根据框选的内容按照BMSEO标签进行标注。

图7是对新增知识点进行标注的一个示例。例如，标注“保险期间”对应内容的标注数据如图7中所示。其中，“主合同的保险期间为终身，自主合同生效时起算，至保险人身故时止。”被标注为BM……ME，其余文字与标点符号则被标注为O。

根据标注数据所在段落，同时也能够得到段落所在章节结构信息。即，通过标注过程，完成两个方面的工作：一方面是段落标题的标注，如图2的步骤S230所述；另一方面则是新增知识点的标注，如图3的步骤S330所述。在图4中，则可参见标注系统、标注人员标注数据，以及标注系统输出的段落标题标注数据和新增知识点标注数据。

迁移学习模型实现了只需要少量标注数据，就能把抽取模型训练好，从而训练好的抽取模型可以抽取新知识点。

在很多现实场景中，可用于解决当前问题的训练数据数量稀少，而针对某个其他相关问题的训练数据却已积累了很多。迁移学习技术就是探索如何把这个相关问题（通常称为源领域）的累积信息用于改善当前问题（通常称为目标领域）的模型效果。从源领域迁移到目标领域的信息，可以是数据、模型或者部分模型的参数值等。

对于要抽取的新知识点，训练数据通常是极少量的，典型的情况只有几十个到几百个样本。但是对于已抽取的旧知识点，训练数据量通常是很多的，典型的情况会包含数千到数万个样本。这种情况非常适合使用迁移学习技术，只要把旧知识点看做源领域，把新知识点看做目标领域即可进行信息迁移。

以模型参数的迁移为例说明。图8是模型参数迁移的典型结构图。利用旧知识点的训练数据训练模型，训练好的模型参数分为两部分，一部分是旧知识点特有的参数，另一部分是新旧知识点共有的参数。然后利用新知识点的少数训练数据训练新知识点抽取模型。此时共有模型参数不参与训练，新模型只需要训练特有的少量模型参数即可。因为特有的模型参数数量较少，所以只需要少量的训练数据就可以把模型训练好。最终做新知识点抽取时联合使用共有模型参数和新知识点特有模型参数即可。

在对知识点进行抽取时，为了提高抽取效率和准确率，首先利用段落预测模型定位到知识点所在的段落，然后再对段落内容进行抽取。段落预测模型可以预测一个段落包含所需知识点的概率值，把预测分值最高的一个或者多个段落作为候选段落，供后续的知识点抽取模型使用。

段落预测分值计算时，除了使用段落本身的文本信息外，段落所在的章节结构（各级章节标题）也是很重要的信息。例如在抽取投保年龄范围这个知识点时，一个段落的文本是“年龄为18周岁至60周岁且符合我方规定条件的……可作为被保险人参加本保险”，而这个段落的各级章节标题为“第x章保障范围及责任免除”、“3. 投保范围”。这些信息一起表征了此段落的特征。

有了上面说的段落的各种特征后，常用的机器学习或深度学习预测模型都可以用于预测此段落包含所需知识点的概率值。例如，可以先通过深度学习模型把段落文本和各级章节标题信息分别转化为向量表达，然后这些向量表达拼接后组成完整的模型特征，并输入到预测模型。最终模型预测的分值，即表明此段落包含所需知识点的概率值。

本发明提出的抽取系统，只需要少量的标注数据，就能对新增知识点进行抽取。由于本发明的抽取方法结合了文档结构化信息，通过利用段落标题匹配定位技术，缩小了抽取范围，从而获得更高抽取准确率。同时，通过引入迁移学习技术和少量标注，本发明的抽取方法可以有效利用已有模型，实现抽取系统升级维护的自动化。

本领域普通技术人员应该认识到，本发明的方法可以实现为计算机程序。如上结合图1、2、3、4所述，通过一个或多个程序执行上述实施例的方法，包括指令来使得计算机或处理器执行结合附图所述的算法。这些程序可以使用各种类型的非瞬时计算机可读介质存储并提供给计算机或处理器。非瞬时计算机可读介质包括各种类型的有形存贮介质。非瞬时计算机可读介质的示例包括磁性记录介质（诸如软盘、磁带和硬盘驱动器）、磁光记录介质（诸如磁光盘）、CD-ROM（紧凑盘只读存储器）、CD-R、CD-R/W以及半导体存储器（诸如ROM、PROM（可编程ROM）、EPROM（可擦写PROM）、闪存ROM和RAM（随机存取存储器））。进一步，这些程序可以通过使用各种类型的瞬时计算机可读介质而提供给计算机。瞬时计算机可读介质的示例包括电信号、光信号和电磁波。瞬时计算机可读介质可以用于通过诸如电线和光纤的有线通信路径或无线通信路径提供程序给计算机。

因此，根据本发明，还可以提议一种计算机程序或一种计算机可读介质，用于记录可由处理器执行的指令，所述指令在被处理器执行时，使得处理器执行抽取新知识点的方法，包括如下操作：针对待抽取文档进行文档内容解析；对于解析出的文档内容进行段落结构化处理；基于段落预测模型，预测段落包含新知识点的概率值，根据预测的概率值定位新知识点所处于的段落；基于知识点抽取模型，在定位的段落中抽取有关新知识点的内容。

上面已经描述了本发明的各种实施例和实施情形。但是，本发明的精神和范围不限于此。本领域技术人员将能够根据本发明的教导而做出更多的应用，而这些应用都在本发明的范围之内。

也就是说，本发明的上述实施例仅仅是为清楚说明本发明所做的举例，而非对本发明实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、替换或改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种抽取新知识点的方法，包括：

针对待抽取文档进行文档内容解析；

对于解析出的文档内容进行段落结构化处理；

基于段落预测模型，预测段落包含新知识点的概率值，根据预测的概率值定位新知识点所处于的段落；

基于知识点抽取模型，在定位的段落中抽取有关新知识点的内容。

2.如权利要求1所述的方法，其中，所述知识点包括字、词、词组、短句、长句中的一个或多个。

3.如权利要求1所述的方法，其中，所述段落预测模型是通过针对新增知识点进行标注而更新的。

4.如权利要求3所述的方法，其中，更新所述段落预测模型包括：

针对待标注文档进行文档内容解析；

对于解析出的文档内容进行段落结构化处理；

对文档段落进行标注；

利用标注数据训练所述段落预测模型。

5.如权利要求1所述的方法，其中，所述知识点抽取模型是基于已有知识点的通用抽取模型，通过对新增知识点进行标注而更新的。

6.如权利要求5所述的方法，其中，更新所述知识点抽取模型包括：

针对待标注文档进行文档内容解析；

对于解析出的文档内容进行段落结构化处理；

对新增知识点进行标注；

对已有标注数据进行模型训练而得到基于已有知识点的通用抽取模型；

在通用抽取模型的基础上，通过加入新增知识点标注数据，进行迁移学习，训练所述知识点抽取模型。

7.如权利要求6所述的方法，其中，所述的基于已有知识点的通用抽取模型是序列标注类模型或阅读理解类模型。

8. 如权利要求7所述的方法，其中，所述序列标注类模型是双向长短时记忆与条件随机场（Bi-LSTM + CRF）。

9.如权利要求7所述的方法，其中，所述阅读理解类模型是r-net。

10.一种计算机可读介质，用于记录可由处理器执行的指令，所述指令在被处理器执行时，使得处理器执行抽取新知识点的方法，包括如下操作：

针对待抽取文档进行文档内容解析；

对于解析出的文档内容进行段落结构化处理；