CN117131181B

CN117131181B - 一种异构知识问答模型的构建方法、信息提取方法及系统

Info

Publication number: CN117131181B
Application number: CN202311376793.2A
Authority: CN
Inventors: 郑蓉蓉; 薛文婷; 王晨辉; 曾京文; 于霄洋; 杨林傲; 武志栋; 罗大勇; 张韬; 刘亚庆; 殷红涛; 刘孟奇; 夏昂; 肖磊; 袁韶祖; 祝天刚
Original assignee: State Grid Siji Digital Technology Beijing Co ltd; State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd
Current assignee: State Grid Siji Digital Technology Beijing Co ltd; State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd
Priority date: 2023-10-24
Filing date: 2023-10-24
Publication date: 2024-04-05
Anticipated expiration: 2043-10-24
Also published as: CN117131181A

Abstract

本发明提供了一种异构知识问答模型的构建方法、信息提取方法及系统，包括：对异构知识中的表格信息进行文本转换处理，得到文本化表述的表格信息；利用文本化表述的表格信息对生成式模型进行SQL隐式训练，得到能感知和理解表格的生成式模型；采用追一数据集对能感知和理解表格的生成式模型进行问答训练，得到含表格信息的异构知识问答模型。本发明对表格信息进行表格SQL隐式训练，提高了对表格的理解能力，克服异构数据汇总表格不满足预训练需求的问题。而且本发明采用追一数据集对所述能感知和理解表格的生成式模型进行问答训练，使得生成的异构知识问答模型具备了可以直接从表格信息中提取有用信息的功能。

Description

一种异构知识问答模型的构建方法、信息提取方法及系统

技术领域

本发明涉及模型问答智能技术领域，具体涉及一种异构知识问答模型的构建方法、信息提取方法及系统。

背景技术

异构知识库是由多个不同领域的知识库组成的集合，它们包含了各种类型的信息，如文本、表格、语义关系等。这些知识库存储了大量的结构化和非结构化数据，可以用于各种任务，如信息提取、实体链接和推理等。

表格问答是一种基于表格的自然语言处理任务，其目标是从给定的表格中回答用户提出的问题。表格问答的意义在于它可以处理结构化数据，从而从大规模的异构知识库中获取有用的信息。与传统的文本问答任务相比，表格问答通过结构化数据的利用，可以更加精确地回答问题，并提供更具体和详细的信息。

由于异构知识库提供了大量的数据和知识，但由于其数量庞大和多样性，直接从中提取有用的信息并回答用户问题变得困难。表格问答可以在这一过程中发挥重要作用，通过将异构知识库中的数据转化为结构化的表格形式，表格问答任务可以轻松地处理和理解这些数据，并从中获取有用的信息。同时，由于表格具有明确的列和行，可以方便地进行查询和计算，可以更准确地回答问题，不会产生模糊或歧义的结果。

但是单纯的表格问答应用在异构知识上面并不容易，同时在下游任务上表现的往往不够好。而且由于异构知识库存在大量的表格和文本数据，但由于其数量庞大和多样性，直接从中提取有用的信息并回答用户问题变得困难。

发明内容

为了解决现有技术由于异构知识库存在大量的表格和文本数据，但由于其数量庞大和多样性，直接从中提取有用的信息并回答用户问题变得困难的问题，本发明提出了一种异构知识问答模型的构建方法，包括：

对异构知识中的表格信息进行文本转换处理，得到文本化表述的表格信息；

利用文本化表述的表格信息对生成式模型进行SQL隐式训练，得到能感知和理解表格的生成式模型；

采用追一数据集对所述能感知和理解表格的生成式模型进行问答训练，得到含表格信息的异构知识问答模型。

可选的，所述对异构知识中的表格信息进行文本转换处理，得到文本化表述的表格信息，包括：

将所述异构知识中的表格信息进行扁平化处理，得到拉平的表格信息；

对所述拉平的表格信息中两个信息元素之间加入设定的符号，将信息元素区分，并在表格之间插入代表表头的第一标记符和代表表值的第二标记符，得到文本化表述的表格信息。

可选的，所述第一标记符包括：表头；所述第二标记符包括：行+数字。

可选的，所述利用文本化表述的表格信息对生成式模型进行SQL隐式训练训练，得到能感知和理解表格的生成式模型，包括：

将表头、表值用文本化表述的表格信息随机填充到SQL语句中，执行SQL语句，得到所述SQL语句对应的搜索结果；

将所述搜索结果对应的文本化表述的表格信息和SQL语句，结合搜索结果构成三元组[表名, SQL语句, 搜索结果]；

将表名、SQL语句和搜索结果构成监督单元；

基于所述监督单元对生成式模型进行训练得到能感知和理解表格的生成式模型；

其中，所述表格信息包括表名。

可选的，所述采用追一数据集对所述能感知和理解表格的生成式模型进行问答训练，得到含表格信息的异构知识问答模型，包括：

将所述追一数据集按照[表名,问题，搜索结果]的形式组成三元组；

将三元组中的 [表名,问题] 拼接成一个字段作为所述生成式模型的输入数据；

以所述搜索结果作为监督信号对所述能感知和理解表格的生成式模型进行问答训练，得到含表格信息的异构知识问答模型。

可选的，还包括：基于人工智能技术驱动的自然语言处理工具对追一数据集进行问题扩充。

可选的，所述基于人工智能技术驱动的自然语言处理工具对追一数据集进行问题扩充，包括：

将三元组中的问题输入到人工智能技术驱动的自然语言处理工具中，生成多个相似的新问题；

将生成的多个相似的新问题填充到三元组中，形成包括[表名,新问题，搜索结果]的多条新的数据。

可选的，在对异构知识中的表格信息进行文本转换处理，得到文本化表述的表格信息之前，还包括从文本信息中识别表格信息。

再一方面，本申请还提供了一种异构知识问答模型的构建系统，包括：

预处理模块，用于对异构知识中的表格信息进行文本转换处理，得到文本化表述的表格信息；

隐式训练模块，用于利用文本化表述的表格信息对生成式模型进行SQL隐式训练，得到能感知和理解表格的生成式模型；

问答训练模块，用于采用追一数据集对所述能感知和理解表格的生成式模型进行问答训练，得到含表格信息的异构知识问答模型。

可选的，所述预处理模块具体用于：

可选的，所述隐式训练模块具体用于：

将表名、SQL语句和搜索结果构成监督单元；

其中，所述表格信息包括表名。

可选的，问答训练模块，具体用于：

将三元组中的 [表名, 问题] 拼接成一个字段作为所述生成式模型的输入数据；

一种异构知识问答模型的构建系统，还包括问题扩充模块，用于基于人工智能技术驱动的自然语言处理工具对追一数据集进行问题扩充。

可选的，所述问题扩充模块，具体用于：

一种异构知识问答模型的构建系统，还包括提取模块，用于在对异构知识中的表格信息进行文本转换处理，得到文本化表述的表格信息之前，从文本信息中识别表格信息。

再一方面，本申请还提供了一种基于问答方式的信息提取方法，包括：

获取问题和异构知识；所述异构知识至少包含表格信息；

将所述问题和异构知识代入预先构建的异构知识问答模型中，得到所述问题对应的搜索结果；

其中，所述预先构建的异构知识问答模型是基于上述所述的一种异构知识问答模型的构建方法构建的。

再一方面，本申请还提供了一种基于问答方式的信息提取系统，包括：

获取模块，用于获取问题和异构知识；所述异构知识至少包含表格信息；

提取模块，用于将所述问题和异构知识代入预先构建的问答模型中，得到所述问题对应的搜索结果；

其中，所述预先构建的问答模型是基于上述所述的一种异构知识问答模型的构建方法构建的。

再一方面，本申请还提供了一种计算设备，包括：一个或多个处理器；

处理器，用于执行一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，实现如上述所述的一种异构知识问答模型的构建方法，或如上述所述的一种基于问答方式的信息提取方法。

再一方面，本申请还提供了一种计算机可读存储介质，其上存有计算机程序，所述计算机程序被执行时，实现如上述所述的实现如上述所述的一种异构知识问答模型的构建方法，或如上述所述的一种基于问答方式的信息提取方法。

与现有技术相比，本发明的有益效果为：

本发明提供了一种异构知识问答模型的构建方法包括：对异构知识中的表格信息进行文本转换处理，得到文本化表述的表格信息；利用文本化表述的表格信息对生成式模型进行SQL隐式训练，得到能感知和理解表格的生成式模型；采用追一数据集对所述能感知和理解表格的生成式模型进行问答训练，得到含表格信息的异构知识问答模型。本发明采用对表格信息进行表格SQL隐式训练的方式，提高了对表格的理解能力，克服异构数据汇总表格不满足预训练需求的问题。而且本发明采用追一数据集对所述能感知和理解表格的生成式模型进行问答训练，使得生成的异构知识问答模型具备了可以直接从表格信息中提取有用信息的功能。

本发明提供了一种基于问答方式的信息提取方法，采用异构知识问答模型通过将文本与表格的统一处理可以从数据庞大和多样性的异构知识库中快速提取有用信息。

本发明利用chatGPT对追一数据集进行了问题扩充，提高异构知识问答模型的泛化性和鲁棒性。

附图说明

图1为本发明的一种异构知识问答模型的构建方法流程图；

图2为本发明的一种基于问答方式的信息提取方法流程图。

具体实施方式

本发明提出一种异构知识问答模型的构建方法，通过将异构知识库中的表格转化为结构化文本形式，通过预训练手段训练经过文本数据训练后的生成式模型，可以更方便处理和理解这些数据，并从中获取有用的信息。这样表格和文本数据的问答就统一由一个模型作答，实现了异构知识的统一问答。

首先是异构知识归一化，该步骤将异构的知识信息转换成生成式模型可以处理的结构形式；其次，为了保证问答模型能够顺利接入归一化的知识形式，本发明还提出一种基于问答方式的信息提取方法，增强问答模型对于表格的理解和推理能力。

实施例1：

一种异构知识问答模型的构建方法，如图1所示：包括：

步骤1：对异构知识中的表格信息进行预处理，得到文本化表述的表格信息；

步骤2：利用文本化表述的表格信息对生成式模型进行SQL隐式训练，得到能感知和理解表格的生成式模型；

步骤3：采用追一数据集对所述能感知和理解表格的生成式模型进行问答训练，得到含表格信息的异构知识问答模型。

下面对本发明做详细介绍：

本发明构建的异构知识问答模型不仅能够根据问题从表格信息中搜索，得到搜索结果，还可以从文本信息中搜索，得到搜索结果，我们采用的生成式模型本身就在大规模中文文本数据上进行了问答训练，文本理解能力足够强，此处不做过多介绍，但是由于缺乏表格理解能力，需要着重对这部分进行加强。这里的生成式模型又称为T5模型。

首先异构知识库中主要包含文本和表格内容，所以如何将表格信息完美的融入到文本信息并输入到问答模型中是一个亟待解决问题。为了处理这个问题，首先需要先将表格信息从异构知识中提取出来，并对提取出来的表格信息进行预处理。

步骤1中的对异构知识中的表格信息进行预处理，得到文本化表述的表格信息，包括：

将所述表格信息进行扁平化处理，得到拉平的表格信息；

对所述拉平的表格信息中每个信息元素之间加入设定的符号，将信息元素区分，并在表格之间插入代表表头的第一标记符和代表表值的第二标记符，得到处理后的表格信息。

下面对步骤1中对表格信息进行扁平化处理结合实例进行介绍：

通过表格信息扁平化和表格再组织的形式，将表格信息融入到了文本信息中。具体来说，假定存在表1。

表1

编号	姓名	成绩
			1	张三	88
2	李思	94

首先将所有信息进行扁平化，即上表信息被拉平变成：编号姓名成绩1张三882李思94。这样表格的信息就被规范在一行里了。但是这样的信息并没有区分度，因为表头内容和表值内容全部混在一起，非常不利于模型区分。

为了使其能更加清晰的让模型识别出来，本发明对拉平的表格信息进行了再组织。

首先每个信息元素之间加入了设定的符号使不同的信息区分开，本实施例以设定的符号采用“|”表示，使之变成：编号|姓名|成绩|1|张三|88|2|李思|94。

其次，在表格之间插入代表表头的第一标记符和代表表值的第二标记符，得到文本化表述的表格信息。

在表格理解的过程中，表头和表值传达的信息肯定是不一样的，而且不同的行也需要进行区分，因为需要在表格之间插入代表表头的第一标记符和代表表值的第二标记符，本实施例中第一标记符采用表名，即header，第二标记符采用行+数字，即row，同时row后面接入数字进行区分不同的行，这样表格就变成了如下形式：

header: 编号|姓名|成绩|row1|1|张三|88|row2|2|李思|94

这相当于一种特殊的文本形式，可以结合其他的文本一起输入到T5模型中，而其特殊的组织形式会使T5模型能够分辨出其为表格内容进行相应的作答。

步骤2中的利用文本化表述的表格信息对生成式模型进行SQL隐式训练，得到能感知和理解表格的生成式模型，包括：

将表名、SQL语句和搜索结果构成监督单元；

基于所述监督单元对生成式模型进行训练，得到能感知和理解表格的生成式模型；

其中，所述表格信息包括表名。

这里SQL(Structured Query Language)是具有数据操纵和数据定义等多种功能的数据库语言。

对步骤2具体实现过程如下：

为了获取大量表格数据进行表格预训练，可以从已有的业务数据或者已有数据集，也可以从网上爬取。考虑到异构数据汇总表格较少，不一定能满足预训练需求，本发明还从百度爬取了大量表格，作为源数据用于预训练。

预训练主要包含阶段：

SQL隐式训练，预训练时，首先构造一批SQL模板，如 SQL语句为select A fromTable where B=value，将A[表头]、B[表头]、value[表值]等值用表格内容随机填充，输入到数据库执行，保留有搜索结果的数据。将这部分数据构成三元组 [table, sql,answer]，其中table+sql和answer构成一个监督单元，然后扁平化的table拼接sql输入到T5模型中，让模型生成answer，该步骤是让模型对于表格内容有一定理解，可以在正式训练阶段让模型更好的理解表格内容。在SQL语句中，表名用table表示，SQL语句用sql表示，搜索结果用answer表示。

步骤3中的采用追一数据集对所述能感知和理解表格的生成式模型进行问答训练，得到含表格信息的异构知识问答模型，包括：

将三元组中的[表名, 问题]拼接成一个字段作为所述生成式模型的输入数据；

以所述搜索结果作为监督信号对所述能感知和理解表格的生成式模型进行问答训练，得到问答模型。

步骤3的具体实现过程为问答训练：

该步骤利用了已有的追一数据集（大约5w高质量表格和问答对的监督数据），其数据可组织成三元组[table, question，answer]。将三元组中的[table,question]拼接成一个字段，然后输入到T5模型中，T5是一个基于Transformer的生成式模型，有强大的语言理解能力，T5模型有12层。然后用answer作为监督信号，让表格学习到在异构信息情况下能够自动生成答案。

本发明中提到的追一数据集由追一科技提供。数据集使用金融以及通用领域的表格数据作为数据源，提供在此基础上人工标注的自然语言和SQL语句的匹配对。一共包含49867条有标注的训练集数据，10000条无标注数据作为测试集。

T5全称是Text-to-Text Transfer Transformer，是一种模型架构或者说是一种解决NLP任务的一种预训练模型，是把所有任务，如分类、相似度计算、文本生成都用一个Text-to-text（文本到文本）的框架里进行解决。它具备强大的基础语言回复和生成能力，在很多NLP任务上有较好表现。

值得注意的是，为了提高模型的泛化性和鲁棒性，本发明还利用chatGPT对追一数据进行了问题扩充。首先将三元组[table，question，answer]的question信息输入到chatGPT使其生成N个相似问题，将生成的问题(例：question_new)填充到三元组[table,question_new，answer]就可以组织成一条新的数据，如此就可以将追一数据集的数据容量提升N倍，在训练时可以极大提升模型的鲁棒性。这里的chatGPT是人工智能技术驱动的自然语言处理工具，它能够基于在预训练阶段所见的模式和统计规律，来生成回答。

通过步骤2和步骤3两个阶段的训练，训练后的异构知识问答模型就获得可以从异构的文本和表格数据中抽取答案的能力了，能够很好的应对表格和文本的异构数据解析。

本申请通过将异构知识库中的数据转化为结构化的表格形式，通过生成式隐式训练表格问答任务可以轻松地处理和理解这些数据，并从中获取有用的信息。同时，由于表格具有明确的列和行，可以方便地进行查询和计算，可以更准确地回答问题，不会产生模糊或歧义的结果。

实施例2：

基于同一发明构思的本发明还提供了一种异构知识问答模型的构建系统，包括：

进一步的，所述预处理模块具体用于：

进一步的，所述设定的符号包括：|；所述第一标记符包括：表头；所述第二标记符包括：行+数字。

进一步的，隐式训练模块具体用于：

将所述搜索结果对应的文本化表述的表格信息和SQL语句，结合搜索结果构成三元组[表名,SQL语句,搜索结果]；

将表名、SQL语句和搜索结果构成监督单元；

其中，所述表格信息包括表名。

进一步的，问答训练模块，具体用于：

将所述追一数据集按照[表名，问题，搜索结果]的形式组成三元组；

将三元组中的[表名,问题]拼接成一个字段作为所述生成式模型的输入数据；

进一步的，所述问题扩充模块，具体用于：

将三元组中的问题信息输入到人工智能技术驱动的自然语言处理工具中，生成多个相似的新问题；

将生成的多个相似的新问题填充到三元组中，形成包括[表格,新问题，搜索结果]的多条新的数据。

一种异构知识问答模型的构建系统，还包括提取模块，用于从文本信息中识别表格信息。

实施例3：

再一方面，本申请还提供了一种基于问答方式的信息提取方法，如图2所示，包括：

获取问题和异构知识；所述异构知识至少包含表格信息；

将所述问题和异构知识带入预先构建的异构知识问答模型中，得到所述问题对应的搜索结果；

这里的异构知识问答模型的构建与实施例1中的异构知识问答模型的构建方法相同，这里不再赘述。

实施例4：

提取模块，用于将所述问题和异构知识代入预先构建的异构知识问答模型中，得到所述问题对应的搜索结果；

实施例5：

基于同一种发明构思，本发明还提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor、DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能，以实现上述实施例中一种异构知识问答模型的构建方法的步骤，或如上述实施例中的一种基于问答方式的信息提取方法。

实施例6：

基于同一种发明构思，本发明还提供了一种存储介质，具体为计算机可读存储介质（Memory），所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序（包括程序代码）。需要说明的是，此处的计算机可读存储介质可以是高速RAM 存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中一种异构知识问答模型的构建方法的步骤，或如上述实施例中的一种基于问答方式的信息提取方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在发明待批的本发明的权利要求范围之内。

Claims

1.一种异构知识问答模型的构建方法，其特征在于，包括：

采用追一数据集对所述能感知和理解表格的生成式模型进行问答训练，得到含表格信息的异构知识问答模型；

所述利用文本化表述的表格信息对生成式模型进行SQL隐式训练，得到能感知和理解表格的生成式模型，包括：

将所述搜索结果对应的文本化表述的表格信息和SQL语句，结合搜索结果构成三元组[表名, SQL语句,搜索结果]；

将表名、SQL语句和搜索结果构成监督单元；

其中，所述表格信息包括表名。

2.如权利要求1所述的方法，其特征在于，所述对异构知识中的表格信息进行文本转换处理，得到文本化表述的表格信息，包括：

3.如权利要求2所述的方法，其特征在于，所述第一标记符包括：表头；所述第二标记符包括：行+数字。

4.如权利要求1所述的方法，其特征在于，所述采用追一数据集对所述能感知和理解表格的生成式模型进行问答训练，得到含表格信息的异构知识问答模型，包括：

5.如权利要求4所述的方法，其特征在于，还包括：基于人工智能技术驱动的自然语言处理工具对追一数据集进行问题扩充。

6.如权利要求5所述的方法，其特征在于，所述基于人工智能技术驱动的自然语言处理工具对追一数据集进行问题扩充，包括：

7.如权利要求1所述的方法，其特征在于，在对异构知识中的表格信息进行文本转换处理，得到文本化表述的表格信息之前，还包括：

从文本信息中识别表格信息。

8.一种异构知识问答模型的构建系统，其特征在于，包括：

问答训练模块，用于采用追一数据集对所述能感知和理解表格的生成式模型进行问答训练，得到含表格信息的异构知识问答模型；

所述隐式训练模块具体用于：

将表名、SQL语句和搜索结果构成监督单元；

基于所述监督单元对生成式模型进行训练得到能感知和理解表格的生成式模型中；

其中，所述表格信息包括表名。

9.一种基于问答方式的信息提取方法，其特征在于，包括：

获取问题和异构知识；所述异构知识至少包含表格信息；

其中，所述预先构建的异构知识问答模型是基于权利要求1至7任一所述的一种异构知识问答模型的构建方法构建的。

10.一种基于问答方式的信息提取系统，其特征在于，包括：

11.一种计算机设备，其特征在于，包括：一个或多个处理器；

所述处理器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，实现如权利要求1至7中任一项所述的一种异构知识问答模型的构建方法，或如权利要求9中所述的一种基于问答方式的信息提取方法。

12.一种计算机可读存储介质，其特征在于，其上存有计算机程序，所述计算机程序被执行时，实现如权利要求1至7中任一项所述的一种异构知识问答模型的构建方法，或如权利要求9中所述的一种基于问答方式的信息提取方法。