CN112784022A

CN112784022A - 一种政务faq知识库自动构建方法、装置和电子设备

Info

Publication number: CN112784022A
Application number: CN202011634013.6A
Authority: CN
Inventors: 郭司绪; 钱泓锦; 杨玉树; 刘占亮; 窦志成; 曹岗; 文继荣
Original assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Current assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-11
Anticipated expiration: 2040-12-31
Also published as: CN112784022B

Abstract

本发明公开了一种政务FAQ知识库自动构建方法、装置和电子设备。该方法包括：生成第一训练数据集；根据第一训练数据集训练关键语句提取器，并得到第二训练数据集；根据第二训练数据集训练问题生成器；利用训练好的关键语句提取器从无标注的政务文本中提取出关键语句；利用训练好的问题生成器根据所述政务文本和所提取的关键语句生成问答对；对生成的问答对进行筛选，将筛选出的问答对添加进政务FAQ知识库。不仅可节约大量的人工和时间成本完成FAQ文档的建立，而且自动生成的问答对文档的覆盖率更高，可提升冷启动阶段用户的使用体验；同时提高了问题生成的多样性，也很好的控制了问题生成的准确率和质量。

Description

一种政务FAQ知识库自动构建方法、装置和电子设备

技术领域

本发明涉及智能政务技术领域，尤其涉及一种政务FAQ知识库自动构建方法、装置和电子设备。

背景技术

政务自动问答系统的目的是解决用户提出的政务相关问题，对于重视用户体验的客服系统来说，FAQ(Frequently Asked Questions常见问题解答)知识库的构建是非常严格的。它的内容需要非常完整和标准，一般的FAQ知识库构建流程是将积累的FAQ，或是将与政务场景相关的文档中的相应内容整理成FAQ，添加到FAQ知识库中。然而，这种构建方法不仅需要耗费大量的人力和时间成本，在政务自动问答系统冷启动阶段也难以生成有效覆盖的FAQ知识库。因此，从海量的政务数据中自动构建FAQ知识库是智能客服系统设计的核心内容。

目前，FAQ知识库自动构建中涉及到的问题生成(Question Generation)方法包括有答案问题生成(answer-aware QG)和无答案问题生成(answer-unaware QG)两种。有答案问题生成方法是将目标答案作为加强信息提供给模型，模型围绕答案生成问题。其中，大多数研究都是基于有标注的文本进行的问题生成，即假定答案是给定的，利用给定的文本和答案生成问题，但是答案仍旧需要得到人工标注，在现实的应用场景下，这样的模型并不利于落地。因此，从未标注的非结构化文本中生成大量高质量的问答对仍是一项重大的挑战。无答案问题生成方法包括两个阶段：内容选择和问题生成阶段。内容选择阶段需要从输入语料中进行关键内容提取。但是，对于无答案问题生成，当需要基于段落中的多条信息进行问题生成时，要针对什么信息进行提问是非常具有挑战性的。

因此，现有的FAQ知识库自动构建方法还不能从未标记的文本语料库中大规模生成高质量且多样化的问答对，从而无法解决政务问答系统设计冷启动阶段FAQ知识库构建问题。

发明内容

为了解决现有技术中存在的问题，本发明提供了如下技术方案。

本发明一方面提供了一种政务FAQ知识库自动构建方法，包括：

生成第一训练数据集，所述第一训练数据集包括文档、问题和答案；

根据所述第一训练数据集训练关键语句提取器，并得到第二训练数据集，所述第二训练数据集包括文档、问题、答案和关键语句；

根据所述第二训练数据集训练问题生成器；

利用训练好的关键语句提取器从无标注的政务文本中提取出关键语句；

利用训练好的问题生成器根据所述政务文本和所提取的关键语句生成问答对；

对生成的问答对进行筛选，将筛选出的问答对添加进政务FAQ知识库。

优选地，所述生成第一训练数据集包括：

获取政务文档，所述文档的类型包括段落型文本、带有FAQ文档的文本和带有公众留言的文本；

对于段落型文本，将标题作为问题，段落作为答案，与所述文档一起组成第三训练数据集；

对于带有FAQ文档的文本，识别出所述FAQ文档中的问题和答案，与所述文档一起组成第四训练数据集；

对于带有公众留言的文本，从所述公众留言中识别问题，将对所述公众留言的答复作为答案，与所述文档一起组成第五训练数据集；

将所述第三、第四和第五训练数据集合并生成所述第一训练数据集。

优选地，所述关键语句提取器为PtrNet模型。

优选地，所述问题生成器为引入了注意力机制和Pointer-softmax解码器的Seq2Seq模型。

优选地，所述利用训练好的问题生成器根据所述政务文本和所提取的关键语句生成问答对，包括：

将所述政务文本和所提取的关键语句输入所述训练好的问题生成器中，生成问题；

将所提取的关键语句作为答案，与所生成的问题构成问答对。

优选地，所述对生成的问答对进行筛选包括：

从生成的多个问答对中按照预设比例选择问答对进行自动评测；

对剩余的问答对进行人工评测；

根据人工评测的结果和自动评测的结果加权计算得到最终评测结果，其中人工评测的结果的权重高于自动评测的结果；

若所述最终评测结果超过预设阈值，则所述多个问答对通过筛选。

优选地，所述对生成的问答对进行筛选还包括：

构建基于BERT的QA模型；

将所述生成的问答对中的问题和所述政务文本作为QA模型的输入，生成新的答案，

计算所述生成的问答对中的答案与所述新的答案之间的相似度；

若所述相似度超过预设阈值，则所述生成的问答对通过筛选。

本发明第二方面提供了一种政务FAQ知识库自动构建装置，包括：

第一训练数据集生成模块，用于生成第一训练数据集，所述第一训练数据集包括文档、问题和答案；

关键语句提取器训练模块，用于根据所述第一训练数据集训练关键语句提取器，并得到第二训练数据集，所述第二训练数据集包括文档、问题、答案和关键语句；

问题生成器训练模块，用于根据所述第二训练数据集训练问题生成器；

关键语句提取模块，用于利用训练好的关键语句提取器从无标注的政务文本中提取出关键语句；

问答对生成模块，用于利用训练好的问题生成器根据所述政务文本和所提取的关键语句生成问答对；

质量控制模块，用于对生成的问答对进行筛选，将筛选出的问答对添加进政务FAQ知识库。

本发明第三方面还提供了一种存储器，存储有多条指令，所述指令用于实现上述的方法。

本发明第四方面还提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行上述的方法。

本发明的有益效果是：本发明提供了一种政务FAQ知识库自动构建方法、装置和电子设备。通过生成第一训练数据集，并根据第一训练数据集训练关键语句提取器，得到第二训练数据集；再根据第二训练数据集训练问题生成器；然后利用训练好的关键语句提取器从无标注的政务文本中提取出关键语句；利用训练好的问题生成器根据所述政务文本和所提取的关键语句生成问答对；最后对生成的问答对进行筛选，将筛选出的问答对添加进政务FAQ知识库。从而，在FAQ知识库构建的初始阶段，能够从未标注的政务文本中生成高质量且多样化的问答对，不仅可节约大量的人工和时间成本完成FAQ文档的建立，而且自动生成的问答对文档的覆盖率更高，可提升冷启动阶段用户的使用体验，有效的解决了政务问答系统设计冷启动阶段FAQ知识库构建问题；同时提高了问题生成的多样性，也通过关键语句提取和质量控制很好的控制了问题生成的准确率和质量。

附图说明

图1为本发明所述政务FAQ知识库自动构建方法流程示意图；

图2为本发明实施例所述政务FAQ知识库自动构建方法的分步实施过程示意图；

图3为本发明所述政务FAQ知识库自动构建装置结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

本发明提供的方法可以在如下的终端环境中实施，该终端可以包括一个或多个如下部件：处理器、存储器和显示屏。其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据。

存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。存储器可用于存储指令、程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

除此之外，本领域技术人员可以理解，上述终端的结构并不构成对终端的限定，终端可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件，在此不再赘述。

实施例一

如图1所示，本发明实施例提供了一种政务FAQ知识库自动构建方法，包括：

S101，生成第一训练数据集，所述第一训练数据集包括文档、问题和答案；

S102，根据所述第一训练数据集训练关键语句提取器，并得到第二训练数据集，所述第二训练数据集包括文档、问题、答案和关键语句；

S103，根据所述第二训练数据集训练问题生成器；

S104，利用训练好的关键语句提取器从无标注的政务文本中提取出关键语句；

S105，利用训练好的问题生成器根据所述政务文本和所提取的关键语句生成问答对；

S106，对生成的问答对进行筛选，将筛选出的问答对添加进政务FAQ知识库。

对本发明中涉及到的符号解释说明如下：

d:表示文档(document)

p:表示关键语句(key phrase)

a:表示答案(answer)

q:表示问题(question)

此外，若无特殊说明

w:表示单词标识

:表示词嵌入

h:表示RNN生成的注释向量(通常也称为隐藏状态)

本发明要解决的问题可以描述为：给定一个无标注文档d,根据该文档生成不同的高质量的问答对(q,a)。其中，组成q的单词如果复制自文档d，则该问题可以分解成两个子问题，即从文档d中识别出可以提示关键信息的关键语句p，以及基于文档d和关键语句p生成问答对(q,a)。最后，对生成的问答对进行筛选，筛选出更加合理的问答对添加进政务FAQ知识库，从而完成FAQ知识库的自动构建。

本发明提供的方法的分步实施过程可如图2所示。

在图2中，根据政务文档构建第一训练数据集D＝<d,q,a>，并利用该第一训练数据集训练关键语句提取器，得到第二训练数据集D′＝<d,q,a,p>，再利用第二训练数据集训练问题生成器，得到训练好的关键语句提取器和问题生成器；然后利用关键语句提取器从无标注的政务文本中提取出关键语句，利用训练好的问题生成器根据所述政务文本和所提取的关键语句生成问答对，最后对生成的问答对进行筛选并保存。

由于政务数据的特殊性，获取现已公开的数据。现有的政务文档数据可以归纳为四种类型，第一种是段落型文本，组织形式是标题和解释型段落；第二种是带有FAQ文档的文本；第三种类型是无FAQ信息带有公众留言的的政务文档，例如政府会议记录，政府新闻等，可以从开放的公众留言中获得公众关心的问题和官方回复；第四种类型是无标注的政务文本。

其中，前三种类型的数据用于生成第一训练数据集以及训练模型，第四种类型的无标注政务文本用于生成问答对构建FAQ知识库。

执行步骤S101，获取政务文档，所述文档的类型包括段落型文本、带有FAQ文档的文本和带有公众留言的文本；

具体的，可以采用如下方法进行实施：

对段落型文本并对其进行模式识别和解析，将标题作为问题q，段落作为答案a，与文档一起组成训练数据集D₁＝<d₁,q₁,a₁>。对政务文档和对应的FAQ文档进行爬取，并对其进行模式识别以识别出FAQ文档中的问题q和答案a，与文档d一起组成训练数据集D₂＝<d₂,q₂,a₂>。对政务文档下的讨论区的公众留言进行爬取并识别出其中问题型的留言作为问题q,官方回复作为答案a，与政务文档d共同组成训练数据集D₃＝<d₃,q₃,a₃>。最后，将三个数据集进行合并，组成关键语句提取器的训练数据集D＝<d,q,a>。

可选地，由于模式识别具有一定的不确定性，并且公众留言区的问题可能没有回复作为答案，造成某些数据缺失值，因此，本发明中可对生成的数据集进行人工校对和缺失答案人工标注。

由于政务文本的组织具有领域特殊性，其最大特点是专有名词多，使用频繁。政务工作人员在建立FAQ文档，或者公众在留言区留言时，往往关注的是政务文档中有价值或概念模糊抽象的实体，对于被认为没有价值的概念则不予关注。因此，要实现FAQ文档的自动构建，需要一个具有“关键语句”识别能力的关键语句提取器。本发明中，关键语句提取器使用PtrNet模型，PtrNet模型是Seq2Seq的一种扩展，他的目标序列包含的是原始序列的位置信息。

执行步骤S102，基于第一训练数据集训练关键语句提取器，输出每个文档的关键语句，得到第二训练数据集，所述第二训练数据集包括文档、问题、答案和关键语句。

执行步骤S103，根据所述第二训练数据集训练问题生成器。其中，问题生成器为引入了注意力机制和Pointer-softmax解码器的Seq2Seq模型。该模型的具体信息为：

词嵌入：通过bi-LSTM对输入语料

进行词嵌入，每一个单词由其词嵌入e_i和字符级别的词嵌入

拼接而成；

为了利用政务文档中答案的提取特征，在答案单词的位置使用文档的注释向量对答案进行编码；

RNN解码器采用Pointer-softmax，概率分布公式为：

执行步骤S104，将第四种类型的政务文档数据-无标注的政务文本输入训练好的关键语句提取器中，可以直接预测出无标注政务文本的关键语句的起点(start point)和终点(end point)的位置。从而提炼出一篇无标注的政务文档的关键语句，可以作为人们在提问时可能会关心的问题的候选答案。

执行步骤S105，利用训练好的问题生成器根据所述政务文本和所提取的关键语句生成问答对，包括：

执行步骤S106，对生成的问答对进行筛选，将筛选出的问答对添加进政务FAQ知识库。

可选地，对所提取的关键语句进行质量评测。由于所提取的关键语句通常是短语，不适宜使用单词级别的F1 score来评价，本发明实施例中采用multi-span F1 score对所提取的关键语句进行评价。

本发明中，对生成的问答对进行筛选包括：

对剩余的问答对进行人工评测；

该方式不针对每个问答对，而是将生成的多个问答对作为一个组进行评测和筛选，例如按照预设数量的文档分组或者按照时间分组。

目前比较流行的自动评测方法是BLEU,ROUGE，METEOR,CIDEr等，但自动评测方法始终不如人工评测的方法可靠，因此，本发明中，采用了人工评测和自动评测相结合的方式，对政务问答对进行评测，从而增加问答对评测的可靠性。具体可以按照如下方法进行实施：

从预测生成的问答对中随机抽取30％，用人工评测的方法对模型生成的问答对与标注问答对进行对比评估；

使用自动评测方法对余下的70％问答对进行评测；

由于人工评测方法具有更高的可靠性，因此在计算总的召回和精度时，人工评测方法被分配更高的权重。

在本发明的一个优选实施例中，所述对生成的问答对进行筛选还包括：

构建基于BERT的QA模型；

作为一个实例比如，问题生成器中生成的问答对集合z＝{(q₁,a₁),(q₂,a₂),…(q_n,a_n)}中的问题集合Q＝{q₁,…,q_n}和文档集合d＝{d₁,…,d_n}作为QA模型的输入生成新的答案集合A′＝{a′₁,…,a′_n}，通过计算集合A＝{a₁,…,a_n}与集合A′＝{a′₁,…,a′_n}之间的相似度，来筛选问答对。

可选地，上述两种筛选方法可以组合使用。问答对需经过两次筛选，均通过后才加入FAQ知识库。

对于筛选未通过的问答对，可选地由人工进行审核后，作为训练数据迭代更新训练参数，使得问题生成器中生成的问答对更加准确。

采用本发明提供的上述方法自动构建政务FAQ知识库，具有如下有益效果：

相比于通过人工梳理构建FAQ知识库的方式，本发明在FAQ知识库构建的初始阶段更具有现实意义，一是可节约大量的人工和时间成本进行FAQ文档的建立，二是自动生成的问答对文档的覆盖率更高，可提升冷启动阶段用户的使用体验。

FAQ知识库自动构建本质上是一个一对多的问题，本发明的方法通过识别并提取文档中的可作为候选答案的关键语句，通过端到端的方式来指导问题的生成，提高了问题生成的多样性的同时也可以控制问题生成的准确率和质量。

使用QG与QA技术相结合的方式，同时结合人工评测和自动评测方法，通过迭代的方式来控制QG模型生成问题的质量，保证了自动生成的问答对的质量。

实施例二

如图3所示，本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构，即本发明实施例还提供了一种政务FAQ知识库自动构建装置，包括：

第一训练数据集生成模块301，用于生成第一训练数据集，所述第一训练数据集包括文档、问题和答案；

关键语句提取器训练模块302，用于根据所述第一训练数据集训练关键语句提取器，并得到第二训练数据集，所述第二训练数据集包括文档、问题、答案和关键语句；

问题生成器训练模块303，用于根据所述第二训练数据集训练问题生成器；

关键语句提取模块304，用于利用训练好的关键语句提取器从无标注的政务文本中提取出关键语句；

问答对生成模块305，用于利用训练好的问题生成器根据所述政务文本和所提取的关键语句生成问答对；

质量控制模块306，用于对生成的问答对进行筛选，将筛选出的问答对添加进政务FAQ知识库。

所述第一训练数据生成模块具体的用于：获取政务文档，所述文档的类型包括段落型文本、带有FAQ文档的文本和带有公众留言的文本；

进一步地，所述关键语句提取器为PtrNet模型。所述问题生成器为引入了注意力机制和Pointer-softmax解码器的Seq2Seq模型。

所述问答对生成模块具体的用于：

所述质量控制模块具体的用于：

对剩余的问答对进行人工评测；

优选地，所述对生成的问答对进行筛选还包括：

构建基于BERT的QA模型；

该装置可通过上述实施例一提供的政务FAQ知识库自动构建方法实现，具体的实现方法可参见实施例一中的描述，在此不再赘述。

本发明还提供了一种存储器，存储有多条指令，所述指令用于实现如实施例一所述的方法。

本发明还提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如实施例一所述的方法。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种政务FAQ知识库自动构建方法，其特征在于，包括：

根据所述第二训练数据集训练问题生成器；

2.如权利要求1所述的政务FAQ知识库自动构建方法，其特征在于，所述生成第一训练数据集包括：

3.如权利要求1所述的政务FAQ知识库自动构建方法，其特征在于，所述关键语句提取器为PtrNet模型。

4.如权利要求1所述的政务FAQ知识库自动构建方法，其特征在于，所述问题生成器为引入了注意力机制和Pointer-softmax解码器的Seq2Seq模型。

5.如权利要求1所述的政务FAQ知识库自动构建方法，其特征在于，所述利用训练好的问题生成器根据所述政务文本和所提取的关键语句生成问答对，包括：

6.如权利要求1所述的政务FAQ知识库自动构建方法，其特征在于，所述对生成的问答对进行筛选包括：

对剩余的问答对进行人工评测；

7.如权利要求6所述的政务FAQ知识库自动构建方法，其特征在于，所述对生成的问答对进行筛选包括：

构建基于BERT的QA模型；

8.一种政务FAQ知识库自动构建装置，其特征在于，包括：

9.一种存储器，其特征在于，存储有多条指令，所述指令用于实现如权利要求1-7任一项所述的方法。

10.一种电子设备，其特征在于，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如权利要求1-7任一项所述的方法。