CN112364125A

CN112364125A - 一种联合阅读课程学习机制的文本信息抽取系统及方法

Info

Publication number: CN112364125A
Application number: CN202110045286.5A
Authority: CN
Inventors: 刘广峰
Original assignee: Hangzhou Zhidu Technology Co ltd
Current assignee: Hangzhou Zhidu Technology Co ltd
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-02-12
Anticipated expiration: 2041-01-14
Also published as: CN112364125B

Abstract

本发明涉及一种联合阅读课程学习机制的文本信息抽取系统，包括：预处理模块：用于对输入文本进行纠错操作，降低噪声；粗粒度抽取模块：用于对预处理模块处理的文本进行实体识别和关系抽取，获取对应的实体集合和关系集合；细粒度抽取模块：用于对实体关系集合进行校验，输出预测结果集合；后处理模块：用于对预测结果集合进行规则处理，得到输入文本对应的结构化信息。本发明能够提升捕获实体和关系语境表示信息的能力；同时由于所采取模型结构简单可以一定程度上降低pipeline方法误差传播的影响，并进一步提升推理速度。

Description

一种联合阅读课程学习机制的文本信息抽取系统及方法

技术领域

本发明属于信息处理领域，特别涉及一种联合阅读课程学习机制的文本信息抽取系统及方法。

背景技术

在国务院颁发的《新一代人工智能发展规划》中，明确指出“关联理解与知识挖掘、知识图谱构建与学习、知识演化与推理、智能描述与生成等技术”为新一代人工智能关键共性技术体系的重点突破领域。其中涉及的知识图谱构建与学习、知识演化与推理两个关键模块都是以信息抽取技术为底层支撑。信息抽取技术可分为两种类型：pipeline方法和联合方法。其中，pipeline方法分为两步：第一步是命名实体识别，第二步是关系抽取；联合方法是一种端到端的抽取，直接抽取出对应的实体和关系对。

以文本为处理对象，信息抽取技术在工业界的应用中仍存在诸多难点亟待攻破，大致表现在如下方面：

（1）传统的pipeline方法存在误差传播问题，上一轮模型抽取的结果会影响下一轮模型的性能表现。

（2）联合方法针对开放域文本不能很好地处理多对多的情况，其训练得到的模型不能很好的捕获实体和关系的语境表示信息。

（3）目前流行的信息抽取模型结构复杂且推理计算量大，进一步降低了在工业界应用的实用性。

发明内容

为了解决上述问题，本发明提出了一种联合阅读课程学习机制的文本信息抽取系统及方法，能够提升捕获实体和关系语境表示信息的能力；同时由于所采取模型结构简单可以一定程度上降低pipeline方法误差传播的影响，并进一步提升推理速度。

本发明的技术方案如下所示：

一种联合阅读课程学习机制的文本信息抽取系统，包括：

预处理模块：用于对输入文本进行纠错操作，降低噪声；

粗粒度抽取模块：用于对预处理模块处理的文本进行实体识别和关系抽取，获取对应的实体集合和关系集合；

细粒度抽取模块：用于对实体关系集合进行校验，输出预测结果集合；

后处理模块：用于对预测结果集合进行规则处理，得到输入文本对应的结构化信息。

优选的，所述纠错操作采用语法纠错工具来对输入文本进行纠错。

优选的，所述粗粒度抽取模块中实体识别的过程为：加载预先训练的Bert+CRF模型识别预处理后的文本的实体，获取实体集合；

所述粗粒度抽取模块中关系抽取的过程为：加载预先训练的基于BERT微调的多标签分类模型识别预处理的文本的对应的关系类别，得到关系集合。

优选的，所述细粒度抽取模块中输出预测结果集合的具体步骤为：

描述问的生成：针对获取的实体集合和关系集合，基于逻辑关系模板构建描述问集合；

答案检验：将构建的描述问集合与对应的预处理文本以预设格式输入到训练好的BertSim模型中，得到对应的预测结果集合。

优选的，所述后处理模块中结构化信息获取的具体过程为：针对细粒度抽取模块得到的预测结果集合preds，抽取出其中label为1的结果res，基于指定的逻辑关系模板解析res中的实体信息和关系信息得到最终的结构化信息result。

本发明提供了一种联合阅读课程学习机制的文本信息抽取方法，包括以下步骤：

S1：通过爬虫手段及收集公开数据集错的方式构建用于信息抽取的数据，并以固定格式存储成定制数据集；

S2：针对生成的定制数据集中的字段，基于预设的转换规则转换生成实体识别训练集，并通过实体识别模型进行实体训练；针对定制数据集的字段进行转换生成关系抽取模型的训练集，并基于分类模型进行训练，获取实体关系对；

S3：针对抽取出的实体关系进行检验，具体包括描述问集合的构建和答案校验模型的训练，利用模型答案校验模型获取预测结果。

优选的，所述步骤S1中的固定格式中包括的字段为：表示文本的text、表示对应的实体关系三元组字典列表的spo_list、表示列表内的每一个字典中的关系的predicate、表示主体的subject，表示客体的object、表示主体类型的subject_type，表示客体类型的object_type。

优选的，所述实体识别模型采用Bert+CRF的模型组合，所述分类模型采用基于BERT微调的多标签分类模型。

优选的，所述描述问生成过程为：针对定制数据集中每个样本对应的text和三元组信息spo_list基于逻辑关系模板构建描述问。

优选的，所述答案校验模型训练过程为：将构建的描述问集合与对应的text以固定格式<text，描述问，0/1>转换成本地训练数据，并以二分类模型进行训练。

本发明的有益效果为：本发明提供的方法及系统将人工智能领域的阅读课程学习机制应用于文本信息抽取领域，能够提升捕获实体和关系语境表示信息的能力，并进一步促进推理速度提升。

附图说明

图1为本发明提出的文本信息抽取系统的架构图。

图2为本发明提出的描述问集合生成流程图。

图3为本发明中文本信息抽取方法的流程图。

图4为本发明提出的实体识别模型训练集的格式示例图。

具体实施方式

下面将结合说明书附图对本发明的实施例进行详细说明。

如图1所示，本发明提供了一种联合阅读课程学习机制的文本信息抽取系统，包括：

预处理模块：用于对输入文本进行纠错操作，降低噪声；

作为本发明的一种实施方式，预处理的过程为中纠错操作采用语法纠错工具来对输入文本进行纠错，具体举例如下：

在真实业务场景中的文本普遍存在错字情况，这会对模型预测结果造成不利影响，因此需要针对输入文本S借助语法纠错工具进行纠错，形成新输入文本S1。此处给出示例：S为“阿狸的董事长是马某，在1999年创建。”，经过纠错为形成S1即“某公司的董事长是马某，在1999年创建。”。

作为本发明的一种实施方式，粗粒度抽取模块中实体识别的过程为：加载预先训练的Bert+CRF模型识别预处理后的文本的实体，获取实体集合；前述例子的文本抽取出的实体集合et即{‘公司’：某公司，‘人物’：马某，‘日期’：1999年}。

粗粒度抽取模块中关系抽取的过程为：加载预先训练的基于BERT微调的多标签分类模型识别预处理的文本的对应的关系类别，得到关系集合；前述例子的文本识别对应的关系集合pt，即[‘董事长’，‘成立日期’]。

作为本发明的一种实施方式，细粒度抽取模块中输出预测结果集合的具体步骤为：

针对前述例子的关系集合pt的各个关系梳理出关联的subject类型和object类型，然后基于逻辑关系模板<subject的predicate是object吗>针对实体集合et构建描述问，具体流程如图2所示。针对上述示例的关系集合pt，‘董事长’这个关系关联的subject类型和object类型分别是‘公司’和‘人物’，‘成立日期’这个关系关联的subject类型和object类型分别是‘公司’和‘日期’，继而基于逻辑关系模板构建描述问，得到描述问集合dt，即[‘某公司的董事长是马某吗’，‘某公司的成立日期是1999年吗’]。

针对前述例子的描述问集合dt与对应的预处理文本S1以固定格式<text，描述问>进行存储得到新的集合S2，即[<‘某公司的董事长是马某，在1999年创建。’，‘某公司的董事长是马某吗’>，<‘某公司的董事长是马某，在1999年创建。’，‘某公司的成立日期是1999年吗’>]；然后将S2输入到训练好的BertSim模型中，得到对应的预测结果集合preds，即[<‘某公司的董事长是马某，在1999年创建。’，‘某公司的董事长是马某吗’，{‘label’：1，‘confidence’：0.995}>，<‘某公司的董事长是马某，在1999年创建。’，‘某公司的成立日期是1999年吗’，{‘label’：1，‘confidence’：0.9963}>]。

作为本发明的一种实施方式，后处理模块中结构化信息获取的具体过程为：针对细粒度抽取模块得到的预测结果集合preds，抽取出其中label为1的结果res，基于指定的逻辑关系模板解析res中的实体信息和关系信息得到最终的结构化信息result。

针对上述例子中的细粒度抽取模块得到的预测结果集合preds，抽取出其中label为1的结果res，即[‘某公司的董事长是马某吗’，‘某公司的成立日期是1999年吗’]，然后基于指定的逻辑关系模板<subject的predicate是object吗>解析res中的实体信息（subject、object）和关系信息，得到最终的结构化信息result，即[<某公司，董事长，马某>，<某公司，成立日期，1999年>]。

如图3所示，本发明一种联合阅读课程学习机制的文本信息抽取方法，包括以下步骤：

作为本发明的一种实施方式，步骤S1中的固定格式中包括的字段为：表示文本的text、表示对应的实体关系三元组字典列表的spo_list、表示列表内的每一个字典中的关系的predicate、表示主体的subject，表示客体的object、表示主体类型的subject_type，表示客体类型的object_type。

格式具体举例为：{

"text": "《某小说》是某作家写的网络小说连载于某书网",

"spo_list": [

{"predicate": "作者", "subject_type": "图书作品", "object_type": "人物","object": "某作家", "subject": "某小说"}

]

}；

其中《某小说》是某作家写的网络小说连载于某书网"这段文本对应的三元组为<某小说/subject，作者/predicate，某作家/object>，其对应的三元组逻辑关系为<图书作品/subject_type，作者/predicate，人物/object_type>，意思是"某小说"这部图书作品的作者是"某作家"这个人物。

基于数据集的支撑来训练后续的信息抽取模型。针对现今信息抽取模型存在误差传播导致效果不佳和模型本身不能很好的捕捉实体和关系的上下文表示能力这两个问题，本发明引入阅读理解课程的学习机制，模拟人类针对阅读理解课程学习过程中的粗读和精读两个步骤，进而将模型分为粗读和精度两个模块

作为本发明的一种实施方式，实体识别模型采用Bert+CRF的模型组合，所述分类模型采用基于BERT微调的多标签分类模型。

实体识别模型训练过程为：针对定制数据集中的text、subject、object、subject_type以及object_type字段基于指定转换规则转换生成实体识别训练集，并以经典实体识别模型Bert+CRF但不限于这类模型进行训练。训练集格式例子如图4所示，转换规则为：首先依据业界公认的实体识别标签体系指定BIE标签，然后针对训练集中所有的实体类型（包括subject_type和object_type）指定类型简称，随后将其中涉及到的所有实体（包括subject和object）依据类型简称和BIE标签完成训练样本转换。示例中的“PER”和“BK”分别是人物和图书作品的类型简称，“PER-B”、“PER-I”和“PER-E”分别代表“某作家”这个人物实体的开始、中间和结束字符。

作为本发明的一种实施方式，描述问生成过程为：针对定制数据集中每个样本对应的text和三元组信息spo_list基于逻辑关系模板构建描述问。

其中关系抽取模型训练过程为：针对定制数据集中的text、predicate字段进行转换生成关系抽取模型训练集，并以基于BERT微调的多标签分类模型但不限于这类模型进行训练。训练集样本示例为<《某小说》是某作家写的网络小说连载于某书网，作者>，若存在多个关系（作者和连载），则训练样本为<某小说》是某作家写的网络小说连载于某书网，作者_连载>，多个关系之间以“_”连接。

针对待抽取文本通过粗读模块训练好的实体识别模型和关系抽取模型即可得到所有可能的实体集合和关系集合，此时需要接入精读模块针对这些实体和关系集合进行答案校验，因此需要训练答案校验模型。

作为本发明的一种实施方式，答案校验模型训练过程为：将构建的描述问集合与对应的text以固定格式<text，描述问，0/1>转换成本地训练数据，并以二分类模型进行训练。

具体为：S1，描述问生成。为了充分发挥实体和关系的先验知识编码能力以及提高模型推理速度，首先针对定制数据集制定逻辑关系模板<subject的predicate是object吗>，然后针对定制数据集中每个样本对应的text和三元组信息spo_list构建描述问。针对上述示例文本“《某小说》是某作家写的网络小说连载于某书网”，对应的描述问为“某小说的作者是某作家吗”；若存在另一个三元组<某小说，连载网站，某书网>，则对应的描述问为“某小说的连载网站是某书网吗”。

S2，针对定制数据集中的三元组信息生成描述问之后，则需要训练答案校验模型来更好的区分这个描述问对应的答案是否正确并给出对应的置信度。将构建的描述问集合与对应的text以固定格式<text，描述问，0/1>转换成本地训练数据，并以经典句对二分类模型BertSim但不限于这类模型进行训练。训练样本示例为：<《某小说》是某作家写的网络小说连载于某书网，某小说的作者是某作家吗，1>、<《某小说》是某作家写的网络小说连载于某书网，某小说的连载网站是某书网吗，1>。此外，为了增强答案校验模型的泛化能力，在生成训练集时采用经典的负采样操作来生成负样本，如<《某小说》是某作家写的网络小说连载于某书网，某小说的连载网站是某作家吗，0>。

S3，答案校验模型训练完毕后，即可使用训练好的模型对输入文本和描述问进行预测，得到预测结果。例如输入文本为“《某小说》是某作家写的网络小说连载于某书网”，输入的描述问为“某小说的作者是某书网”，对应的预测结果为{‘label’：0，‘confidence’：0.132}，其中label为0代表这个描述问对应的答案是错的，对应的置信度为confidence即0.132。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种联合阅读课程学习机制的文本信息抽取系统，其特征在于，包括：

预处理模块：用于对输入文本进行纠错操作，降低噪声；

2.根据权利要求1所述的联合阅读课程学习机制的文本信息抽取系统，其特征在于，所述纠错操作采用语法纠错工具来对输入文本进行纠错。

3.根据权利要求1所述的联合阅读课程学习机制的文本信息抽取系统，其特征在于，所述粗粒度抽取模块中实体识别的过程为：加载预先训练的Bert+CRF模型识别预处理后的文本的实体，获取实体集合；

4.根据权利要求1所述的联合阅读课程学习机制的文本信息抽取系统，其特征在于，所述细粒度抽取模块中输出预测结果集合的具体步骤为：

5.根据权利要求1所述的联合阅读课程学习机制的文本信息抽取系统，其特征在于，所述后处理模块中结构化信息获取的具体过程为：针对细粒度抽取模块得到的预测结果集合preds，抽取出其中label为1的结果res，基于指定的逻辑关系模板解析res中的实体信息和关系信息得到最终的结构化信息result。

6.一种联合阅读课程学习机制的文本信息抽取方法，其特征在于，包括以下步骤：

S1：通过爬虫手段及收集公开数据集的方式构建用于信息抽取的数据，并以固定格式存储成定制数据集；

S3：针对抽取出的实体关系进行检验，具体包括描述问集合的构建和答案校验模型的训练，利用答案校验模型获取预测结果。

7.根据权利要求6所述的联合阅读课程学习机制的文本信息抽取方法，其特征在于，所述步骤S1中的固定格式中包括的字段为：表示文本的text、表示对应的实体关系三元组字典列表的spo_list、表示列表内的每一个字典中的关系的predicate、表示主体的subject，表示客体的object、表示主体类型的subject_type，表示客体类型的object_type。

8.根据权利要求6所述的联合阅读课程学习机制的文本信息抽取方法，其特征在于，所述实体识别模型采用Bert+CRF的模型组合，所述分类模型采用基于BERT微调的多标签分类模型。

9.根据权利要求7所述的联合阅读课程学习机制的文本信息抽取方法，其特征在于，所述描述问生成过程为：针对定制数据集中每个样本对应的text和三元组信息spo_list基于逻辑关系模板构建描述问。

10.根据权利要求7所述的联合阅读课程学习机制的文本信息抽取方法，其特征在于，所述答案校验模型训练过程为：将构建的描述问集合与对应的text以固定格式<text，描述问，0/1>转换成本地训练数据，并以二分类模型进行训练。