CN112328762B

CN112328762B - 基于文本生成模型的问答语料生成方法和装置

Info

Publication number: CN112328762B
Application number: CN202011216642.7A
Authority: CN
Inventors: 谢忠玉; 陈立
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2023-12-19
Anticipated expiration: 2040-11-04
Also published as: WO2022095368A1; CN112328762A

Abstract

本申请涉人工智能领域，提供了一种基于文本生成模型的问答语料生成方法、装置、计算机设备和存储介质。方法包括：获取历史问句和标准文档，提取标准文档中的关键词以及与关键词对应的释义语句，对历史问句进行分词处理，识别并丢弃历史问句中的实体名词，得到历史问句的句法特征词，将句法特征词与关键词进行组合，并将组合数据输入预先训练好的文本生成模型，得到与关键词对应的目标问句，其中，文本生成模型基于标注有关键词和句法特征词的训练样本训练得到，根据与关键词对应的目标问句以及与关键词对应的释义语句，构建包括目标问句与释义语句的问答对，以提高目标问句以及问答对的质量。

Description

基于文本生成模型的问答语料生成方法和装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种基于文本生成模型的问答语料生成方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的发展，人工智能在越来越多的场景得到了应用。其中，问答系统是人工智能的重要领域之一，尤其是对于目前很多的商家需要一个客服系统来解决用户的一些疑问，而用户的问题绝大部分集中在头部的一些高频问题上，也就是FrequentlyAsked Questions(FAQ，常见问题)的提出动机。

FAQ语料集的数量和质量是整个系统的基础,但是目前没有办法给出一个通用的全覆盖的FAQ语料集，所以都是每个垂直领域需要各自重新开始构建FAQ语料集。重新构建语料集通常使用基于历史数据录入的方式建立FAQ，然而这种数据录入方式，会导致其录入的部分问句与答句之间的匹配度不够高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高问答数据质量的基于文本生成模型的问答语料生成方法、装置、计算机设备和存储介质。

一种基于文本生成模型的问答语料生成方法，方法包括：

获取历史问句和标准文档，提取标准文档中的关键词以及与关键词对应的释义语句；

对历史问句进行分词处理，识别并丢弃历史问句中的实体名词，得到历史问句的句法特征词；

将句法特征词与关键词进行组合，并将组合数据输入预先训练好的文本生成模型，得到与关键词对应的目标问句，其中，文本生成模型基于标注有关键词和句法特征词的训练样本训练得到；

根据与关键词对应的目标问句以及与关键词对应的释义语句，构建包括目标问句与释义语句的问答对。

在其中一个实施例中，对历史问句进行分词处理，识别并丢弃历史问句中的实体名词，得到历史问句的句法特征词包括：

按词性对历史问句进行分词处理，得到分词结果；

对分词结果进行实体名词过滤，得到历史问句的句法结构和疑问词；

根据句法结构和疑问词，得到历史问句的句法特征词。

在其中一个实施例中，获取历史问句和标准文档，提取标准文档中的关键词以及与关键词对应的释义语句包括：

获取历史问句集和标准文档；

提取标准文档中的关键词以及与关键词对应的释义语句；

将历史问句集中的历史问句与关键词进行相似度匹配，得到与关键词对应的历史问句。

在其中一个实施例中，将历史问句集中的问句与关键词进行相似度匹配，得到与关键词对应的历史问句包括：

对历史问句集中的历史问句进行分词处理，得到历史问句对应的分词结果；

计算分词结果中的实体名词与关键词的jaccard相似度，得到历史问句与关键词的相似度；

通过比较各历史问句对应的相似度大小，对历史问句进行筛选，得到与关键词对应的历史问句。

从预先审核通过的文档数据库中获取标准文档，并根据标准文档对应的文档内容标签，查找与文档内容标签关联的历史问句；

对标准文档进行条款词和专业术语识别，得到目标文本；

提取目标文本中的关键词，并将目标文本作为关键词对应的释义语句。

在其中一个实施例中，文本生成模型的训练过程包括：

获取用户咨询日志中的咨询问句；

对咨询问句进行条款词行业专业术语识别，得到咨询问句中的关键词，并对咨询问句进行分词处理，丢弃问句中的实体名词，得到咨询问句中的句法特征词；

以咨询问句对应的关键词和句法特征词作为输入数据，以咨询问句作为目标输出数据，构建训练数据集；

根据训练数据集，对初始文本生成模型进行训练，得到文本生成模型。

在其中一个实施例中，将句法特征词与关键词进行组合，并将组合数据输入预先训练好的文本生成模型，得到与关键词对应的目标问句包括：

将句法特征词与关键词进行组合，并将组合数据输入预先训练好的文本生成模型，得到携带的概率数据的备选问句；

当备选问句的概率数据大于预设概率阈值时，将备选问句作为与关键词对应的目标问句。

一种基于文本生成模型的问答语料生成装置，装置包括：

数据获取模块，用于获取历史问句和标准文档，提取标准文档中的关键词以及与关键词对应的释义语句；

历史问句分词模块，用于对历史问句进行分词处理，识别并丢弃历史问句中的实体名词，得到历史问句的句法特征词；

目标问句生成模块，用于将句法特征词与关键词进行组合，并将组合数据输入预先训练好的文本生成模型，得到与关键词对应的目标问句，其中，文本生成模型基于标注有关键词和句法特征词的训练样本训练得到；

问答对构建模块，用于根据与关键词对应的目标问句以及与关键词对应的释义语句，构建包括目标问句与释义语句的问答对。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

上述基于文本生成模型的问答语料生成方法、装置、计算机设备和存储介质，通过获取历史问句和标准文档，将通过对历史问句进行分词，识别并丢弃历史问句中的实体名词，得到历史问句的句法特征词，然后将句法特征词与关键词进行组合，并将组合数据输入基于标注有关键词和句法特征词的训练样本预先训练好的文本生成模型，得到与关键词对应的目标问句，然后基于标准文档中与关键词对应的释义语句，构建包括目标问句与释义语句的问答对，基于历史问句和标准文档，能够得到更多的关键词和句法特征词的组合结果，通过基于标注有关键词和句法特征词的训练样本预先训练好的文本生成模型得到的目标问句，能够提高目标问句以及问答对的质量。

附图说明

图1为一个实施例中基于文本生成模型的问答语料生成方法的应用环境图；

图2为一个实施例中基于文本生成模型的问答语料生成方法的流程示意图；

图3为另一个实施例中基于文本生成模型的问答语料生成方法的流程示意图；

图4为再一个实施例中基于文本生成模型的问答语料生成方法的流程示意图；

图5为又一个实施例中基于文本生成模型的问答语料生成方法的流程示意图；

图6为一个应用实例中基于文本生成模型的问答语料生成方法的流程示意图；

图7为一个实施例中基于文本生成模型的问答语料生成装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于文本生成模型的问答语料生成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。服务器响应终端的问答语料生成请求，根据问答语料生成请求，获取历史问句和标准文档，提取标准文档中的关键词以及与关键词对应的释义语句，对历史问句进行分词处理，识别并丢弃历史问句中的实体名词，得到历史问句的句法特征词，将句法特征词与关键词进行组合，并将组合数据输入预先训练好的文本生成模型，得到与关键词对应的目标问句，其中，文本生成模型基于标注有关键词和句法特征词的训练样本训练得到，根据与关键词对应的目标问句以及与关键词对应的释义语句，构建包括目标问句与释义语句的问答对，并将构建的问答对反馈至终端102。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于文本生成模型的问答语料生成方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤202至步骤208。

步骤202，获取历史问句和标准文档，提取标准文档中的关键词以及与关键词对应的释义语句。

历史问句是指记录在服务器中的问句，在实施例中，历史问句可以是基于问答系统的历史问答日志中记录的问句。也可以是自定义编辑并存储在服务器中的问句，还可以是基于指定的爬虫条件，通过数据爬取得到的问句。

标准文档是指由于构建问答语料的参考文档。在实施例中，标准文档可以是包括条款内容和专业术语及其释义的规范文本，标准文档中的关键词是指条款内容和专业术语中对应的关键词，例如条款名称、专业术语名称等。关键词对应的释义语句是指用于对条款的解释说明，以及对专业术语的名词解释等。

例如，在保险领域，标准文档可以是保险说明文档，如保单说明书等。当用户在投保过程中存在疑问时，会咨询客服寻求解答。通过预先构建的问答对，可以快速便捷地获取到咨询问句对应的答句并反馈给用户，从而提高问答处理效率，还有利于提高用户体验。

步骤204，对历史问句进行分词处理，识别并丢弃历史问句中的实体名词，得到历史问句的句法特征词。

分词是指将连续的字序列按照一定的规范重新组合成词序列的过程。具体来说，通过分词处理，可以对历史问句进行字段划分，并识别历史问句中各个词语的词性，例如问句中的名词、疑问词等。通过分词处理后，能够识别出历史问句中的实体名词，通过对实体名词进行丢弃操作，可以得到历史问句的句法特征词，句法特征词由疑问词和句法结构构成。

步骤206，将句法特征词与关键词进行组合，并将组合数据输入预先训练好的文本生成模型，得到与关键词对应的目标问句。

其中，文本生成模型基于标注有关键词和句法特征词的训练样本训练得到。

句法特征词与关键词的组合，可以通过将关键词填充至句法特征词中的空位实现，句法特征词与关键词的组合结果是一个组合问句。通过将该组合问句输入至输入预先训练好的文本生成模型，经过文本生成模型的数据处理，可以对输入的组合问句进行调整重组，最后输出一个携带有阈值数据的目标问句，其中，得到目标问句与关键词对应。

在实施例中，文本生成模型基于标注有关键词和句法特征词的训练样本训练得到。训练样本是指用于对初始构建的模型进行训练的数据，从初始的模型到最终能应用的模型，需要经过多次训练、验证和测试，直到模型评估参数达到设定的要求。

步骤208，根据与关键词对应的目标问句以及与关键词对应的释义语句，构建包括目标问句与释义语句的问答对。

服务器根据文本生成模型输出的与关键词对应的目标问句、以及提取得到的与关键词对应的释义语句，以关键词为中间关联信息，建立目标问句与释义语句的关联关系，并基于关联关系构建包括目标问句与释义语句的问答对。关键词对应的释义语句是通过对标准文档进行解析得到的结果，通过文本生成模型，可以得到与关键词对应的问句，将关键词对应的释义语句作为问句对应的答句，构建得到问答对。

通过自动生成问答对的形式，对于垂直领域构建问答语料库有极大的帮助，尤其是在项目初期，可以快速生成大量的问答语料，并且由于这部分语料的答案是从现有的标准文档中得到的，所以答案并不会存在任何的合规问题，相对于人工构建的问答语料，还可以进一步节省语料合规审核的成本。同时标准文档中关键词相关的内容也是用户咨询的高频问题，对于问答系统在初期对高频问题的覆盖度有较大的帮助。

上述基于文本生成模型的问答语料生成方法，通过获取历史问句和标准文档，将通过对历史问句进行分词，识别并丢弃历史问句中的实体名词，得到历史问句的句法特征词，然后将句法特征词与关键词进行组合，并将组合数据输入基于标注有关键词和句法特征词的训练样本预先训练好的文本生成模型，得到与关键词对应的目标问句，然后基于标准文档中与关键词对应的释义语句，构建包括目标问句与释义语句的问答对，基于历史问句和标准文档，能够得到更多的关键词和句法特征词的组合结果，通过基于标注有关键词和句法特征词的训练样本预先训练好的文本生成模型得到的目标问句，能够提高目标问句以及问答对的质量。

在其中一个实施例中，如图3所示，对历史问句进行分词处理，识别并丢弃历史问句中的实体名词，得到历史问句的句法特征词即步骤204，包括步骤302至步骤306。

步骤302，按词性对历史问句进行分词处理，得到分词结果。

步骤304，对分词结果进行实体名词过滤，得到历史问句的句法结构和疑问词。

步骤306，根据句法结构和疑问词，得到历史问句的句法特征词。

在实施例中，句法特征词包括问句中的句法结构，疑问词等用于表征问句特征的词语，需要说明的是，句法特征词中是不包含具体的实体名词的。举例来说，用户的咨询问句为“受益人是什么意思呢？”这个问句中，“受益人”为实体名词，句法结构为“……是……”，疑问词为“什么意思呢？”则提取的句法特征词可以是“……是什么意思呢？”

在上述实施例中，通过对历史问句按词性进行分词，可以准确快速过滤掉历史问句中的实体名词，有助于后续将标准文档中的关键词与句法特征词重新进行组合，构建出新的问答语料，增加问答语料的生成量。

在其中一个实施例中，如图4所示，获取历史问句和标准文档，提取标准文档中的关键词以及与关键词对应的释义语句即步骤202，包括步骤402至步骤406。

步骤402，获取历史问句集和标准文档。

步骤404，提取标准文档中的关键词以及与关键词对应的释义语句。

步骤406，将历史问句集中的历史问句与关键词进行相似度匹配，得到与关键词对应的历史问句。

历史问句集是指包括多个历史问句的数据集合，在历史问句集提供的多个问句中，可以通过相似度匹配，筛选出相似度最高的历史问句作为与关键词匹配的历史问句。

在实施例中，智能问答以一问一答的形式，精确定位用户的提问，通过与用户交互，为用户提供个性化的信息服务，为了满足用户的提问需求，问答对中的问句与答句需保持一定的匹配度。相似度的计算可以通过基于概率统计的jaccard相似系数、基于词向量的余弦相似度、曼哈顿距离、欧几里得距离或是明式距离等方式得到，通过计算用户历史咨询问句与关键词之间的相似度，得到用户历史咨询问句与关键词的相似度匹配结果，基于相似度表征的相似程度，对各用户历史咨询问句进行筛选，得到与关键词相关的问句。

在其中一个实施例中，将历史问句集中的问句与关键词进行相似度匹配，得到与关键词对应的历史问句包括：对历史问句集中的历史问句进行分词处理，得到历史问句对应的分词结果。计算分词结果中的实体名词与关键词的jaccard相似度，得到历史问句与关键词的相似度。通过比较各历史问句对应的相似度大小，对历史问句进行筛选，得到与关键词对应的历史问句。

由于关键词实质上也是实体名词，通过计算分词结果中的实体名词与关键词的jaccard相似度，能够准确得到历史问句集中与关键词匹配度较高的历史问句，以便于进一步提高基于关键词与历史问句中的句法特征词的组合生成目标问句的概率值。

在其中一个实施例中，如图5所示，获取历史问句和标准文档，提取标准文档中的关键词以及与关键词对应的释义语句即步骤202，包括步骤502至步骤506。

步骤502，从预先审核通过的文档数据库中获取标准文档，并根据标准文档对应的文档内容标签，查找与文档内容标签关联的历史问句。

步骤504，对标准文档进行条款词和专业术语识别，得到目标文本。

步骤506，提取目标文本中的关键词，并将目标文本作为关键词对应的释义语句。

基于预先审核通过的文档数据库，能够保证获取的标准文档都是合规的文档，以标准文档中关键词对应的释义语句作为问答对中的答句，有助于提高生产的问答语料的有效性，避免出现在应用过程中客服利用基于问答对中的答句进行回答时，出现回答错误的情况的发生。

在实施例中，标准文档携带有文档内容标签，基于文档内容标签，来查找与文档内容标签关联的历史问句，能够保证历史问句与标准文档之间的关联性，从数据选取的过程中，确保历史问句与标准文档中的关键词之间能具有一定的匹配程度。

通过识别标准文档中的条款词和专业术语，能够对标准文档中携带有关键字的目标文本进行针对性的选取，进而提取目标文本中的关键词，并将目标文本作为关键词对应的释义语句。

在其中一个实施例中，文本生成模型的训练过程包括：获取用户咨询日志中的咨询问句。对咨询问句进行条款词行业专业术语识别，得到咨询问句中的关键词，并对咨询问句进行分词处理，丢弃问句中的实体名词，得到咨询问句中的句法特征词。以咨询问句对应的关键词和句法特征词作为输入数据，以咨询问句作为目标输出数据，构建训练数据集。根据训练数据集，对初始文本生成模型进行训练，得到文本生成模型。

用户咨询日志是问答系统中用于记录用户与客服之间的问答语料的数据文件，基于用户咨询日志来获取咨询问句，能得到更贴合实际应用场景的咨询问句。通过对咨询问句进行条款词行业专业术语识别，能够得到咨询问句中条款词行业专业术语对应的关键词，然后基于上述对历史问句相同的处理方式，对咨询问句进行分词处理，丢弃问句中的实体名词，得到咨询问句中的句法特征词，以咨询问句对应的关键词和句法特征词的组合结果作为输入数据，以咨询问句作为目标输出数据，构建训练数据集。根据训练数据集，对初始文本生成模型进行训练，得到文本生成模型。将文本生成模型应用在目标问句的生成过程中，能够提高生成的目标问句的质量。

在其中一个实施例中，将句法特征词与关键词进行组合，并将组合数据输入预先训练好的文本生成模型，得到与关键词对应的目标问句包括：将句法特征词与关键词进行组合，并将组合数据输入预先训练好的文本生成模型，得到携带的概率数据的备选问句。当备选问句的概率数据大于预设概率阈值时，将备选问句作为与关键词对应的目标问句。

进一步的，当备选问句的概率数据不大于预设概率阈值时，丢弃该备选问句。通过按预设阈值对备选问句进行筛选，能够进一步确保得到的目标问句是满足需要且与关键词高度匹配的问句。

在一个应用实例中，如图6所示，提供了一种基于文本生成模型的问答语料生成方法，以该方法在保险领域的应用为例进行说明。

首先，服务器获取保险说明文档，通过对文档解析，抽取保险说明文档中的条款和释义。服务器获取用户问句，提取用户问法关键词。然后利用预先构建的用于生成模型的数据集，对模型进行训练，得到文本生成模型，将用户问法关键词和条款和释义中的关键词输入文本生成模型，生成问句，然后基于问句和抽取的条款与释义，生成问答对。

应该理解的是，虽然上述实施例涉及的各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述实施例涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种基于文本生成模型的问答语料生成装置，包括：数据获取模块702、历史问句分词模块704、目标问句生成模块706和问答对构建模块708，其中：

数据获取模块702，用于获取历史问句和标准文档，提取标准文档中的关键词以及与关键词对应的释义语句；

历史问句分词模块704，用于对历史问句进行分词处理，识别并丢弃历史问句中的实体名词，得到历史问句的句法特征词；

目标问句生成模块706，用于将句法特征词与关键词进行组合，并将组合数据输入预先训练好的文本生成模型，得到与关键词对应的目标问句，其中，文本生成模型基于标注有关键词和句法特征词的训练样本训练得到；

问答对构建模块708，用于根据与关键词对应的目标问句以及与关键词对应的释义语句，构建包括目标问句与释义语句的问答对。

在其中一个实施例中，历史问句分词模块还用于按词性对历史问句进行分词处理，得到分词结果；对分词结果进行实体名词过滤，得到历史问句的句法结构和疑问词；根据句法结构和疑问词，得到历史问句的句法特征词。

在其中一个实施例中，数据获取模块还用于获取历史问句集和标准文档；提取标准文档中的关键词以及与关键词对应的释义语句；将历史问句集中的历史问句与关键词进行相似度匹配，得到与关键词对应的历史问句。

在其中一个实施例中，数据获取模块还用于对历史问句集中的历史问句进行分词处理，得到历史问句对应的分词结果；计算分词结果中的实体名词与关键词的jaccard相似度，得到历史问句与关键词的相似度；通过比较各历史问句对应的相似度大小，对历史问句进行筛选，得到与关键词对应的历史问句。

在其中一个实施例中，数据获取模块还用于从预先审核通过的文档数据库中获取标准文档，并根据标准文档对应的文档内容标签，查找与文档内容标签关联的历史问句；对标准文档进行条款词和专业术语识别，得到目标文本；提取目标文本中的关键词，并将目标文本作为关键词对应的释义语句。

在其中一个实施例中，基于文本生成模型的问答语料生成装置还包括模型训练模块，用于获取用户咨询日志中的咨询问句；对咨询问句进行条款词行业专业术语识别，得到咨询问句中的关键词，并对咨询问句进行分词处理，丢弃问句中的实体名词，得到咨询问句中的句法特征词；以咨询问句对应的关键词和句法特征词作为输入数据，以咨询问句作为目标输出数据，构建训练数据集；根据训练数据集，对初始文本生成模型进行训练，得到文本生成模型。

在其中一个实施例中，目标问句生成模块还用于将句法特征词与关键词进行组合，并将组合数据输入预先训练好的文本生成模型，得到携带的概率数据的备选问句；当备选问句的概率数据大于预设概率阈值时，将备选问句作为与关键词对应的目标问句。

上述基于文本生成模型的问答语料生成装置，通过获取历史问句和标准文档，将通过对历史问句进行分词，识别并丢弃历史问句中的实体名词，得到历史问句的句法特征词，然后将句法特征词与关键词进行组合，并将组合数据输入基于标注有关键词和句法特征词的训练样本预先训练好的文本生成模型，得到与关键词对应的目标问句，然后基于标准文档中与关键词对应的释义语句，构建包括目标问句与释义语句的问答对，基于历史问句和标准文档，能够得到更多的关键词和句法特征词的组合结果，通过基于标注有关键词和句法特征词的训练样本预先训练好的文本生成模型得到的目标问句，能够提高目标问句以及问答对的质量。

关于基于文本生成模型的问答语料生成装置的具体限定可以参见上文中对于基于文本生成模型的问答语料生成方法的限定，在此不再赘述。上述基于文本生成模型的问答语料生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于文本生成模型的问答语料生成数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于文本生成模型的问答语料生成方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取历史问句和标准文档，提取标准文档中的关键词以及与关键词对应的释义语句；对历史问句进行分词处理，识别并丢弃历史问句中的实体名词，得到历史问句的句法特征词；将句法特征词与关键词进行组合，并将组合数据输入预先训练好的文本生成模型，得到与关键词对应的目标问句，其中，文本生成模型基于标注有关键词和句法特征词的训练样本训练得到；根据与关键词对应的目标问句以及与关键词对应的释义语句，构建包括目标问句与释义语句的问答对。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

按词性对历史问句进行分词处理，得到分词结果；对分词结果进行实体名词过滤，得到历史问句的句法结构和疑问词；根据句法结构和疑问词，得到历史问句的句法特征词。

获取历史问句集和标准文档；提取标准文档中的关键词以及与关键词对应的释义语句；将历史问句集中的历史问句与关键词进行相似度匹配，得到与关键词对应的历史问句。

对历史问句集中的历史问句进行分词处理，得到历史问句对应的分词结果；计算分词结果中的实体名词与关键词的jaccard相似度，得到历史问句与关键词的相似度；通过比较各历史问句对应的相似度大小，对历史问句进行筛选，得到与关键词对应的历史问句。

从预先审核通过的文档数据库中获取标准文档，并根据标准文档对应的文档内容标签，查找与文档内容标签关联的历史问句；对标准文档进行条款词和专业术语识别，得到目标文本；提取目标文本中的关键词，并将目标文本作为关键词对应的释义语句。

获取用户咨询日志中的咨询问句；对咨询问句进行条款词行业专业术语识别，得到咨询问句中的关键词，并对咨询问句进行分词处理，丢弃问句中的实体名词，得到咨询问句中的句法特征词；以咨询问句对应的关键词和句法特征词作为输入数据，以咨询问句作为目标输出数据，构建训练数据集；根据训练数据集，对初始文本生成模型进行训练，得到文本生成模型。

将句法特征词与关键词进行组合，并将组合数据输入预先训练好的文本生成模型，得到携带的概率数据的备选问句；当备选问句的概率数据大于预设概率阈值时，将备选问句作为与关键词对应的目标问句。

上述用于实现基于文本生成模型的问答语料生成方法的计算机设备，通过获取历史问句和标准文档，将通过对历史问句进行分词，识别并丢弃历史问句中的实体名词，得到历史问句的句法特征词，然后将句法特征词与关键词进行组合，并将组合数据输入基于标注有关键词和句法特征词的训练样本预先训练好的文本生成模型，得到与关键词对应的目标问句，然后基于标准文档中与关键词对应的释义语句，构建包括目标问句与释义语句的问答对，基于历史问句和标准文档，能够得到更多的关键词和句法特征词的组合结果，通过基于标注有关键词和句法特征词的训练样本预先训练好的文本生成模型得到的目标问句，能够提高目标问句以及问答对的质量。

在一个实施例中，提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

上述用于实现基于文本生成模型的问答语料生成方法的计算机存储介质，通过获取历史问句和标准文档，将通过对历史问句进行分词，识别并丢弃历史问句中的实体名词，得到历史问句的句法特征词，然后将句法特征词与关键词进行组合，并将组合数据输入基于标注有关键词和句法特征词的训练样本预先训练好的文本生成模型，得到与关键词对应的目标问句，然后基于标准文档中与关键词对应的释义语句，构建包括目标问句与释义语句的问答对，基于历史问句和标准文档，能够得到更多的关键词和句法特征词的组合结果，通过基于标注有关键词和句法特征词的训练样本预先训练好的文本生成模型得到的目标问句，能够提高目标问句以及问答对的质量。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于文本生成模型的问答语料生成方法，其特征在于，所述方法包括：

从预先审核通过的文档数据库中获取标准文档，并根据所述标准文档对应的文档内容标签，查找与所述文档内容标签关联的历史问句；

对所述标准文档进行条款词和专业术语识别，得到目标文本；

提取所述目标文本中的关键词，并将所述目标文本作为所述关键词对应的释义语句；

计算所述分词结果中的实体名词与所述关键词的jaccard相似度，得到所述历史问句与所述关键词的相似度；

通过比较各所述历史问句对应的相似度大小，对所述历史问句进行筛选，得到与所述关键词对应的历史问句；

按词性对所述历史问句进行分词处理，得到分词结果；

对所述分词结果进行实体名词过滤，得到所述历史问句的句法结构和疑问词；

根据所述句法结构和所述疑问词，得到所述历史问句的句法特征词；

将所述句法特征词与所述关键词进行组合，并将组合数据输入预先训练好的文本生成模型，得到与所述关键词对应的目标问句，其中，所述文本生成模型基于标注有关键词和句法特征词的训练样本训练得到；

根据与所述关键词对应的目标问句以及与所述关键词对应的释义语句，构建包括所述目标问句与所述释义语句的问答对。

2.根据权利要求1所述的方法，其特征在于，所述文本生成模型的训练过程包括：

获取用户咨询日志中的咨询问句；

对所述咨询问句进行条款词行业专业术语识别，得到所述咨询问句中的关键词，并对所述咨询问句进行分词处理，丢弃所述问句中的实体名词，得到所述咨询问句中的句法特征词；

以所述咨询问句对应的关键词和句法特征词作为输入数据，以所述咨询问句作为目标输出数据，构建训练数据集；

根据所述训练数据集，对初始文本生成模型进行训练，得到所述文本生成模型。

3.根据权利要求2所述的方法，其特征在于，所述用户咨询日志是问答系统中用于记录用户与客服之间的问答语料的数据文件。

4.根据权利要求1所述的方法，其特征在于，所述将所述句法特征词与所述关键词进行组合，并将组合数据输入预先训练好的文本生成模型，得到与所述关键词对应的目标问句包括：

将所述句法特征词与所述关键词进行组合，并将组合数据输入预先训练好的文本生成模型，得到携带的概率数据的备选问句；

当所述备选问句的概率数据大于预设概率阈值时，将所述备选问句作为与所述关键词对应的目标问句。

5.一种基于文本生成模型的问答语料生成装置，其特征在于，所述装置包括：

数据获取模块，用于从预先审核通过的文档数据库中获取标准文档，并根据所述标准文档对应的文档内容标签，查找与所述文档内容标签关联的历史问句；对所述标准文档进行条款词和专业术语识别，得到目标文本；提取所述目标文本中的关键词，并将所述目标文本作为所述关键词对应的释义语句；对历史问句集中的历史问句进行分词处理，得到历史问句对应的分词结果；计算所述分词结果中的实体名词与所述关键词的jaccard相似度，得到所述历史问句与所述关键词的相似度；通过比较各所述历史问句对应的相似度大小，对所述历史问句进行筛选，得到与所述关键词对应的历史问句；

历史问句分词模块，用于按词性对所述历史问句进行分词处理，得到分词结果；对所述分词结果进行实体名词过滤，得到所述历史问句的句法结构和疑问词，根据所述句法结构和所述疑问词，得到所述历史问句的句法特征词；

目标问句生成模块，用于将所述句法特征词与所述关键词进行组合，并将组合数据输入预先训练好的文本生成模型，得到与所述关键词对应的目标问句，其中，所述文本生成模型基于标注有关键词和句法特征词的训练样本训练得到；

问答对构建模块，用于根据与所述关键词对应的目标问句以及与所述关键词对应的释义语句，构建包括所述目标问句与所述释义语句的问答对。

6.根据权利要求5所述的装置，其特征在于，所述基于文本生成模型的问答语料生成装置还包括模型训练模块，用于获取用户咨询日志中的咨询问句；对所述咨询问句进行条款词行业专业术语识别，得到所述咨询问句中的关键词，并对所述咨询问句进行分词处理，丢弃所述问句中的实体名词，得到所述咨询问句中的句法特征词；以所述咨询问句对应的关键词和句法特征词作为输入数据，以所述咨询问句作为目标输出数据，构建训练数据集；根据所述训练数据集，对初始文本生成模型进行训练，得到所述文本生成模型。

7.根据权利要求6所述的装置，其特征在于，所述用户咨询日志是问答系统中用于记录用户与客服之间的问答语料的数据文件。

8.根据权利要求5所述的装置，其特征在于，所述目标问句生成模块还用于将所述句法特征词与所述关键词进行组合，并将组合数据输入预先训练好的文本生成模型，得到携带的概率数据的备选问句；当所述备选问句的概率数据大于预设概率阈值时，将所述备选问句作为与所述关键词对应的目标问句。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。