CN112800177A

CN112800177A - 基于复杂数据类型的faq知识库自动生成方法和装置

Info

Publication number: CN112800177A
Application number: CN202011637578.XA
Authority: CN
Inventors: 郭司绪; 钱泓锦; 杨玉树; 刘占亮; 窦志成; 曹岗; 文继荣
Original assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Current assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-14
Anticipated expiration: 2040-12-31
Also published as: CN112800177B

Abstract

本发明公开了一种基于复杂数据类型的FAQ知识库自动生成方法和装置。该方法包括：识别文档中不同格式的数据，所述不同格式的数据包括段落型文本数据、普通文本数据和非文本数据；对所述段落型文本数据进行模式识别，生成标题字段和内容字段；对所述非文本数据进行自然语言生成处理，得到自然语言文本；根据所述标题字段和内容字段生成第一问答对集合，根据所述自然语言文本和普通文本数据生成第二问答对集合；将所述第一问答对集合和第二问答对集合加入所述FAQ知识库。采用本发明提供的方案，可以将不同格式的文档数据进行集成整合，生成的问答对可覆盖更全面、更广泛的信息，从而更加适应现实情况中更加灵活多变的问答场景。

Description

基于复杂数据类型的FAQ知识库自动生成方法和装置

技术领域

本发明涉及智能政务技术领域，尤其涉及一种基于复杂数据类型的FAQ知识库自动生成方法和装置。

背景技术

政务自动问答系统的构建需要基于海量的政务数据，然而政务数据的类型多种多样，不仅涉及到段落型文本数据，还涉及到表格，图片，地图，多媒体等各类实时与非实时的多种格式随机组合的公开数据。比如，一篇政务新闻可能包含标题，说明性段落，配图，表格等，而浏览者可能会基于说明性段落和表格相结合的信息提出问题，或者浏览者关心的问题包含在文档标题中，但是答案却包含在配图/表格中。所以，当一篇文档包含多种格式的数据，且答案与问题可能以不同的数据格式进行呈现时，构建政务自动问答系统就面临着基于多种数据格式生成QA(问答)对的问题。

目前，问题生成的子领域诸如基于知识库的问题生成(KBQG)，视觉问题生成(VQG)，以及基于表格的问题生成都取得了一定的进展，但如何在垂直领域FAQ(FrequentlyAsked Questions常见问题解答)知识库建立阶段，打破不同数据格式之间的局限，更加灵活的生成多样化，高质量的QA对，仍然是一项比较重大的挑战。

发明内容

为了解决现有技术中存在的问题，本发明提供了如下技术方案。

本发明一方面提供了一种基于复杂数据类型的FAQ知识库自动生成方法，包括：

识别文档中不同格式的数据，所述不同格式的数据包括段落型文本数据、普通文本数据和非文本数据；

对所述段落型文本数据进行模式识别，生成标题字段和内容字段；

对所述非文本数据进行自然语言生成处理，得到自然语言文本；

根据所述标题字段和内容字段生成第一问答对集合，根据所述自然语言文本和普通文本数据生成第二问答对集合；

将所述第一问答对集合和第二问答对集合加入所述FAQ知识库。

优选地，所述非文本数据包括表格数据、图像数据和/或视频数据。

优选地，所述对所述非文本数据进行自然语言生成处理，得到自然语言文本包括：

对于表格数据，使用预先训练的表格模型生成所述自然语言文本；

对于图像数据，识别所述图像数据中的文字，并基于图像识别生成自然语言描述，组合上述文字和自然语言描述生成所述自然语言文本；

对于视频数据，根据预先训练的视频模型生成所述自然语言文本。

优选地，在生成第一问答对集合和第二问答对集合之前，还包括：对所述模式识别的结果和自然语言生成处理的结果进行评测和筛选。

优选地，所述根据所述标题字段和内容字段生成第一问答对集合包括：

根据标题字段生成问题，根据内容字段生成答案；

组合所述问题和答案，生成第一问答对集合。

优选地，所述根据所述自然语言文本和普通文本数据生成第二问答对集合包括：

将所述自然语言文本和普通文本数据按照所述文档中的位置关系进行拼接得到拼接文本；

通过词嵌入获取所述拼接文本的向量表示；

将所述拼接文本的向量表示输入预先训练的问题生成模型，得到第二问答对集合。

优选地，所述将所述第一问答对集合和第二问答对集合加入所述FAQ知识库包括：

评测所述第一问答对集合和第二问答对集合中的问答对的质量；

将通过评测的问答对加入所述FAQ知识库。

本发明另一方面提供了一种基于复杂数据类型的FAQ知识库自动生成装置，包括：

数据格式识别模块，用于识别文档中不同格式的数据，所述不同格式的数据包括段落型文本数据、普通文本数据和非文本数据；

模式识别模块，用于对所述段落型文本数据进行模式识别，生成标题字段和内容字段；

自然语言文本生成模块，用于对所述非文本数据进行自然语言生成处理，得到自然语言文本；

问答对生成模块，用于根据所述标题字段和内容字段生成第一问答对集合，根据所述自然语言文本和普通文本数据生成第二问答对集合；

FAQ知识库生成模块，用于将所述第一问答对集合和第二问答对集合加入所述FAQ知识库。

本发明第三方面提供了一种存储器，存储有多条指令，所述指令用于实现上述的方法。

本发明第四方面提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行上述的方法。

本发明的有益效果是：本发明提供了一种基于复杂数据类型的FAQ知识库自动生成方法、装置。通过首先对不同格式的数据进行识别，并进行对应的处理，得到能够生成问答对的数据形式，其中，将段落型文本识别后得到标题字段和内容字段，并依据其生成第一问答对集合，将非文本数据进行自然语言处理，得到自然语言文本，并根据自然语言文本和普通文本数据生成第二问答对集合。最后，将所述第一问答对集合和第二问答对集合加入所述FAQ知识库。采用本发明提出的方法，基于文档数据格式的复杂性，可将不同格式的文档数据(普通文本，段落文本和/或非文本数据比如表格，图像，视频等)进行集成整合，自动生成问答对。相对于单纯的基于普通文本数据或段落文本数据进行问答对生成，本发明提出的方法生成的问答对可覆盖更全面，更广泛的文档信息，从而更加适应现实情况中更加灵活多变的问答场景。

附图说明

图1为根据本发明实施例一的基于复杂数据类型的FAQ知识库自动生成方法的流程示意图；

图2为本发明实施例二的基于复杂数据类型的FAQ知识库自动生成方法的流程示意图；

图3为根据本发明实施例三的基于复杂数据类型的FAQ知识库自动生成装置结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

本发明提供的方法可以在如下的终端环境中实施，该终端可以包括一个或多个如下部件：处理器、存储器和显示屏。其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据。

存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。存储器可用于存储指令、程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

除此之外，本领域技术人员可以理解，上述终端的结构并不构成对终端的限定，终端可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、视频电路、电源等部件，在此不再赘述。

实施例一

如图1所示，本发明实施例提供了一种基于复杂数据类型的FAQ知识库自动生成方法，包括：

S101，识别文档中不同格式的数据，所述不同格式的数据包括段落型文本数据、普通文本数据和非文本数据；

其中，所述文档可选地为政务文档。所述非文本数据包括表格数据、图像数据和/或视频数据等。

S102，对所述段落型文本数据进行模式识别，生成标题字段和内容字段；

S103，对所述非文本数据进行自然语言生成处理，得到自然语言文本；

S104，根据所述标题字段和内容字段生成第一问答对集合，根据所述自然语言文本和普通文本数据生成第二问答对集合；

S105，将所述第一问答对集合和第二问答对集合加入所述FAQ知识库。

在步骤S101中，可选地，识别出文档包含的多种数据格式之后，对文档按照不同的数据格式进行拆分，以对不同格式的数据分别进行处理。为了在便于对数据进行后续的查询，编辑，预测等操作，可以将拆分前各数据的位置信息以二维向量的格式拼接在拆分后的数据之后。

在步骤S102中，对所述段落型文本数据进行模式识别，生成标题字段和内容字段。

由于段落型文本数据包括文档标题，章节标题及章节段落等。所以，本发明提供的上述方法中，对段落型文本进行模式识别解析，生成标题字段和内容字段，其中标题字段包括文档标题字段和章节标题字段。

执行步骤S103，对所述非文本数据进行自然语言生成处理，得到自然语言文本。

其中，对于表格数据，使用预先训练的表格模型生成所述自然语言文本。表格(Table)是一种应用广泛的数据存储方式，被广泛用于存储和展示结构化数据中。基于表格的自然语言生成(Neural Table-to-Text Generation)旨在为结构化表格生成自然语言描述，以帮助人们了解表格所表达的信息要点。其过程可以描述为：给定一个表格T＝{(t₁,v₁),(t₂,v₂)…(t_m,v_m)}作为输入，然后生成一段自然语言作为输出。本发明可以使用Seq2Seq模型，来学习估计文本序列的条件概率：

当大部分训练数据只有表格而没有参考文本序列作为输入时，为了使生成的文本序列更加准确可靠，本发明中，引入两种损失函数来提高模型的召回和准确率：a.极大似然损失函数：控制模型预测文本序列与参考文本序列之间的匹配程度；b.最优传输损失函数：控制输入文本的关键词与生成文本序列的关键词的相似度。

对于图像数据，识别所述图像数据中的文字，并基于图像识别生成自然语言描述，组合上述文字和自然语言描述生成所述自然语言文本。由于图片当中经常包含描述性文本，因此本发明中对图像数据进行自然语言生成处理，主要包括两部分内容：一是识别图像数据中的文字，二是基于图像识别生成自然语言描述，然后组合上述文字和自然语言描述生成所述自然语言文本。其中，基于图像识别生成自然语言描述可以按照如下方法进行实施：

首先，使用计算机视觉技术对场景类型进行分类，检测图像中存在的对象，预测它们之间的属性及其关系，并识别发生的行为。

然后，将检测器的输出内容转换为单词或短语。

最后，使用自然语言生成技术(模板，n元语法，语法规则)将这些结合在一起生成图像的自然语言描述。

对于视频数据，根据预先训练的视频模型生成所述自然语言文本。其是视频图像帧序列到文本序列的Seq2Seq任务，具体的，可以使用Encoder-Decoder的模型结构将视频图像帧序列转换为文本序列，即使用encoder来进行视频图像序列的编码，再使用decoder解码文本序列。

在模型训练过程中，可以首先通过爬虫的方式建立图像四元组数据集<视频的标题t_i,视频v_i,视频简介d_i，视频字幕c_i>，然后通过控制视频简介d_i的关键词与生成文本序列的关键词的相似度进行模型训练。

执行步骤S104，根据所述标题字段和内容字段生成第一问答对集合，根据所述自然语言文本和普通文本数据生成第二问答对集合。

其中，在段落型文本数据中，章节标题是对文档标题的说明及展开，而章节段落又是对章节标题的说明及展开。因此，对于段落型文本数据，可以根据所述标题字段和内容字段生成问答对。具体的，可以根据标题字段(文档标题字段和章节标题字段)生成问题，根据内容字段生成答案；组合所述问题和答案，生成第一问答对集合。

问答对还可以根据普通文本数据和非文本数据生成。其中，根据所述自然语言文本和普通文本数据生成第二问答对集合包括：

通过词嵌入获取所述拼接文本的向量表示；

本发明中，问题生成模型可以采用引入了注意力机制和复制机制的Encoder-Decoder结构，以自动生成基于多种数据格式集成的问答对。

执行步骤S105，将所述第一问答对集合和第二问答对集合加入所述FAQ知识库，得到基于多种数据格式集成化的高质量问答对，将自动生成的问答对存储在FAQ知识库存储装置中，从而完成政务自动问答系统冷启动阶段的FAQ知识库的自动构建。FAQ知识库存储装置可以基于MySQL，支持数据的读写，查询，检索。

本实施例提供的方法，基于文档数据格式的复杂性，可将不同格式的文档数据(普通文本，段落文本和/或非文本数据比如表格，图像，视频等)进行集成整合，自动生成问答对。相对于单纯的基于普通文本数据或段落文本数据进行问答对生成，本发明提出的方法生成的问答对可覆盖更全面，更广泛的文档信息，从而更加适应现实情况中更加灵活多变的问答场景。

实施例二

图2示出了基于复杂数据类型的FAQ知识库自动生成方法的另一实施例。其流程包括：

接收输入的政务文档。

识别文档中不同格式的数据并进行拆分，所述不同格式的数据包括段落型文本数据、普通文本数据、表格数据、图像数据和/或视频数据。

对所述表格数据、图像数据、视频数据分别进行自然语言生成处理，得到自然语言文本，自然语言生成处理的结果例如为表格-文本对、图像-文本对、视频-文本对的形式。

对所述模式识别的结果和自然语言生成处理的结果进行评测和筛选，保留符合要求的结果。可选地，采用自动评测指标BLEU-4，METEOR和/或ROUGE对自然语言生成处理的结果进行评测并由高到低排序，保留排序位于预设范围内(例如前K个)的结果。

根据经过筛选的所述标题字段和内容字段生成第一问答对集合，根据经过筛选的所述自然语言文本和普通文本数据生成第二问答对集合。

评测所述第一问答对集合和第二问答对集合中的问答对的质量。其中，可选地，采用人工评测和自动评测(利用BLEU-4,METEOR和/或ROUGE)相结合的方式对生成的问答对进行评测。例如按照文档或时间将生成的问答对进行分组，每组包括多个问答对。对于每组问答对，选择预设比例的问答对进行自动评测，对剩余的问答对进行人工评测，根据人工评测的结果和自动评测的结果加权计算得到最终评测结果，其中人工评测的结果的权重高于自动评测的结果；若所述最终评测结果超过预设阈值，则该组问答对通过筛选。可选地，还可以通过与QA模型进行联动进行评测。具体为：构建基于BERT的QA模型；将所述生成的问答对中的问题和所述文档作为QA模型的输入，生成新的答案；计算所述生成的问答对中的答案与所述新的答案之间的相似度；若所述相似度超过预设阈值，则所述生成的问答对通过筛选。

将所述第一问答对集合和第二问答对集合中通过评测的问答对加入所述FAQ知识库。

可选地，上述两种筛选方法可以组合使用。问答对需经过两次筛选，均通过后才加入FAQ知识库。

本实施例通过对模式识别结果和自然语言文本生成的结果进行质量控制，以及对问答对进行质量控制，保证了生成的问答对具有高的准确度和质量。

实施例三

如图3所示，本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构，即本发明实施例还提供了基于复杂数据类型的FAQ知识库自动生成装置，包括：

数据格式识别模块301，用于识别文档中不同格式的数据，所述不同格式的数据包括段落型文本数据、普通文本数据和非文本数据；

模式识别模块302，用于对所述段落型文本数据进行模式识别，生成标题字段和内容字段；

自然语言文本生成模块303，用于对所述非文本数据进行自然语言生成处理，得到自然语言文本；

问答对生成模块304，用于根据所述标题字段和内容字段生成第一问答对集合，根据所述自然语言文本和普通文本数据生成第二问答对集合；

FAQ知识库生成模块305，用于将所述第一问答对集合和第二问答对集合加入所述FAQ知识库。

其中，所述非文本数据包括表格数据、图像数据和/或视频数据。

进一步地，所述自然语言文本生成模块具体的用于：

进一步地，本发明提供的装置还包括评测筛选模块，用于在生成第一问答对集合和第二问答对集合之前，对所述模式识别的结果和自然语言生成处理的结果进行评测和筛选。

进一步地，所述问答对生成模块具体包括：

第一问答对生成器，用于根据标题字段生成问题，根据内容字段生成答案；组合所述问题和答案，生成第一问答对集合。

第二问答对生成器，用于将所述自然语言文本和普通文本数据按照所述文档中的位置关系进行拼接得到拼接文本；

通过词嵌入获取所述拼接文本的向量表示；

进一步地，所述FAQ知识库生成模块还包括质量控制模块，用于评测所述第一问答对集合和第二问答对集合中的问答对的质量；

添加模块，用于将通过评测的问答对加入所述FAQ知识库。

该装置可实现上述实施例一和二提供的基于复杂数据类型的FAQ知识库自动生成方法，具体步骤可参见实施例一和二中的描述，在此不再赘述。

本发明还提供了一种存储器，存储有多条指令，所述指令用于实现如实施例一或二所述的方法。

本发明还提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如实施例一或二所述的方法。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于复杂数据类型的FAQ知识库自动生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述非文本数据包括表格数据、图像数据和/或视频数据。

3.根据权利要求2所述的方法，其特征在于，所述对所述非文本数据进行自然语言生成处理，得到自然语言文本包括：

4.根据权利要求1所述的方法，其特征在于，在生成第一问答对集合和第二问答对集合之前，还包括：对所述模式识别的结果和自然语言生成处理的结果进行评测和筛选。

5.根据权利要求1所述的方法，其特征在于，所述根据所述标题字段和内容字段生成第一问答对集合包括：

根据标题字段生成问题，根据内容字段生成答案；

组合所述问题和答案，生成第一问答对集合。

6.根据权利要求1所述的方法，其特征在于，所述根据所述自然语言文本和普通文本数据生成第二问答对集合包括：

通过词嵌入获取所述拼接文本的向量表示；

7.根据权利要求6所述的方法，其特征在于，所述将所述第一问答对集合和第二问答对集合加入所述FAQ知识库包括：

将通过评测的问答对加入所述FAQ知识库。

8.一种基于复杂数据类型的FAQ知识库自动生成装置，其特征在于，包括：

9.一种存储器，其特征在于，存储有多条指令，所述指令用于实现如权利要求1-7任一项所述的方法。

10.一种电子设备，其特征在于，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如权利要求1-7任一项所述的方法。