CN111737439A

CN111737439A - 一种问题生成方法及装置

Info

Publication number: CN111737439A
Application number: CN202010757542.9A
Authority: CN
Inventors: 彭爽; 崔恒斌
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-10-02
Anticipated expiration: 2040-07-31
Also published as: CN111737439B

Abstract

一种问题生成方法及装置，该方法包括：将原始问题样本和目标问题样本作为训练样本，对由机器阅读模型和评分函数构成的判别器进行逆强化学习训练；其中，所述目标问题样本，为将所述原始问题样本输入问题生成模型生成的语义相似的问题；将所述评分函数输出的重合度评分作为回报，将所述原始问题样本作为训练样本，对由所述问题生成模型构成的生成器进行强化学习训练，以进一步形成所述生成器和所述判别器之间的，以所述目标问题样本作为与所述原始问题样本对应的对抗样本的对抗训练；对抗训练完成的问题生成模型即可用于语义相似的目标问题的生成。

Description

一种问题生成方法及装置

技术领域

本说明书涉及计算机应用领域，尤其涉及一种问题生成方法及装置。

背景技术

在机器问答领域，可以将问题-答案对作为训练样本，训练出可以进行机器问答的问答系统；为了提高问答系统的鲁棒性，人们通常需要在该问答系统被训练之前，预先对即将使用的训练样本进行数据增强；具体而言，可以通过一定手段，生成与原有的问题语义相似，但表达方式存在不同的其他问题，进而生成新的问题-答案对；例如，原有“地球到月球的距离是-约38万千米”这个问题-答案对，则可以生成与该问题相似的新问题“地球到月球有多远”，并进一步生成新的问题-答案对“地球到月球有多远-约38万千米”。

通过上述过程，可以令作为训练样本的问题-答案对中问题的形式更加丰富多样，从而使得训练出的问答系统能够适应更多种形式的问题，也就提高了该问答系统的鲁棒性。

在相关技术中，可以通过调用一个问题生成模型的方式，完成上述“生成与原有的问题语义相似，但表达方式存在不同的其他问题”的过程；显然，这个问题生成模型需要预先进行充分的训练。

然而，传统实现方式下，上述问题生成模型的训练过程往往无法兼顾效果与成本；例如，利用Rouge-2指标计算函数对生成的问题进行自动评价进行强化学习训练，可能产生误判；而靠专家对训练阶段中生成的问题直接进行标记，进行有监督学习训练，则需要消耗较多的人力资源。

而且，上述问题生成模型的优化、调用场景，往往与问答系统的实际应用场景存在差异，很可能导致的生成的问题不适应于最终应用场景的问题。

发明内容

有鉴于此，本说明书公开了一种问题生成方法及装置。

根据本说明书实施例的第一方面，公开了一种问题生成方法，所述方法包括：

将原始问题样本和目标问题样本作为训练样本，对由机器阅读模型和评分函数构成的判别器进行逆强化学习训练；其中，所述评分函数用于计算所述机器阅读模型输出的对应于所述原始问题样本的答案，与对应于所述目标问题样本的答案之间的重合度评分；所述目标问题样本，为将所述原始问题样本输入问题生成模型生成的语义相似的问题；

将所述评分函数输出的重合度评分作为回报，将所述原始问题样本作为训练样本，对由所述问题生成模型构成的生成器进行强化学习训练，以进一步形成所述生成器和所述判别器之间的，以所述目标问题样本作为与所述原始问题样本对应的对抗样本的对抗训练；

获取原始问题，并将获取到的所述原始问题输入对抗训练完成的所述问题生成模型，以得到与所述原始问题对应的语义相似的目标问题。

根据本说明书实施例的第二方面，公开了另一种问题生成方法，所述方法包括：

将原始问题样本和目标问题样本作为训练样本，对作为判别器的问题匹配模型进行逆强化学习训练；其中，所述问题匹配模型用于计算所述原始问题样本和所述目标问题样本的匹配度评分；所述目标问题样本，为将所述原始问题样本输入问题生成模型生成的语义相似的问题；

将所述问题匹配模型输出的匹配度评分作为回报，将所述原始问题样本作为训练样本，对作为生成器的所述问题生成模型进行强化学习训练，以进一步形成所述生成器和所述判别器之间的，以所述目标问题样本作为与所述原始问题样本对应的对抗样本的对抗训练；

根据本说明书实施例的第三方面，公开了一种问题生成装置，所述装置包括：

逆强化学习训练模块，将原始问题样本和目标问题样本作为训练样本，对由机器阅读模型和评分函数构成的判别器进行逆强化学习训练；其中，所述评分函数用于计算所述机器阅读模型输出的对应于所述原始问题样本的答案，与对应于所述目标问题样本的答案之间的重合度评分；所述目标问题样本，为将所述原始问题样本输入问题生成模型生成的语义相似的问题；

强化学习训练模块，将所述评分函数输出的重合度评分作为回报，将所述原始问题样本作为训练样本，对由所述问题生成模型构成的生成器进行强化学习训练，以进一步形成所述生成器和所述判别器之间的，以所述目标问题样本作为与所述原始问题样本对应的对抗样本的对抗训练；

模型调用模块，获取原始问题，并将获取到的所述原始问题输入对抗训练完成的所述问题生成模型，以得到与所述原始问题对应的语义相似的目标问题。

根据本说明书实施例的第四方面，公开了一种问题生成装置，所述装置包括：

逆强化学习训练模块，将原始问题样本和目标问题样本作为训练样本，对作为判别器的问题匹配模型进行逆强化学习训练；其中，所述问题匹配模型用于计算所述原始问题样本和所述目标问题样本的匹配度评分；所述目标问题样本，为将所述原始问题样本输入问题生成模型生成的语义相似的问题；

强化学习训练模块，将所述问题匹配模型输出的匹配度评分作为回报，将所述原始问题样本作为训练样本，对作为生成器的所述问题生成模型进行强化学习训练，以进一步形成所述生成器和所述判别器之间的，以所述目标问题样本作为与所述原始问题样本对应的对抗样本的对抗训练；

以上技术方案中，一方面，由于语义相似的问题被输入机器阅读模型后，通常会得到相似的答案，而相似的答案输入评分函数会得到较高的重合度评分，因而判别器中评分函数输出的重合度评分，可以指示输入判别器的问题之间的语义相似度；进而，将上述重合度评分作为回报，将原始问题样本作为训练样本，对上述问题生成模型进行强化学习训练，就可以将该问题生成模型，训练为能够生成与原始问题语义相似的问题的模型，且相较有监督学习的方案，对人力资源的消耗更低；

另一方面，由于采用了对抗训练的技术构思，对判别器的逆强化学习训练，会为强化学习训练提供更优的回报，而对生成器的强化学习训练，会为逆强化学习训练提供更丰富的训练样本，内部相互形成反馈，可以加速模型的训练过程；而且，由于将问题生成模型和机器阅读模型整合为一个整体进行优化，可以避免现有技术方案中，将问题生成模型和机器阅读模型分开使用导致的生成的问题不适应于最终应用场景的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书文本一同用于解释原理。

图1是本说明书所述对抗训练的一交互示例图；

图2是本说明书所述问题生成方法的一流程示意图；

图3是本说明书所述对抗训练的另一交互示例图；

图4是本说明书所述问题生成方法的另一流程示意图；

图5是本说明书所述问题生成装置的一结构示意图；

图6是本说明书所述问题生成装置的另一结构示意图；

图7是本说明书所述用于问题生成的计算机设备的一结构示例图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的系统和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

而上述训练问题生成模型的过程中，无论是采用有监督学习，还是强化学习的方式，都需要一定的反馈机制，以推动模型向预期的结果收敛；但是，传统实现方式下，上述问题生成模型的训练过程中的结果反馈往往无法兼顾效果与成本；

例如，采用强化学习方式进行训练，利用Rouge-2指标计算函数对生成的问题进行自动评价，评价的结果作为强化学习训练的回报；但在实际应用中，由于Rouge-2关注的是句子中词语出现的顺序，而问题句子中词语的顺序和语义虽然存在相关性，但也有可能不严格相关，因此Rouge-2指标计算函数可能将部分句内词语顺序发生了变化，但语义实际并未发生显著变化的句子，误判为语义发生显著变化的句子，因而训练出的模型所生成的问题实质上是Rouge-2指标最优化的问题，而并不一定严格是语义相似的问题，也就是说，虽然自动计算较为高效，但训练出的模型的质量可能不佳；

而如果采用有监督学习方式进行训练，靠专家对训练阶段中生成的问题进行标记，则可以依靠专家对训练过程中生成的问题给出正确、合理的评价反馈，弥补上述Rouge-2指标计算不与语义相似度严格相关的问题，但显而易见地，人工标记的过程需要较多的人力成本和时间成本，如果模型训练规模较大，则可能导致训练所消耗的人力成本和时间成本难以接受。

并且，在现有的技术方案中，往往将问题生成模型单独训练，而忽视了问题生成模型与问答系统（可视为机器阅读模型）之间的关联，因而单独训练出的问题生成模型所生成的问题，可能无法适应问答系统的应用场景，无法为问答系统的训练提供有效的帮助；举例而言，如果问答系统面对的情景需要将大量的口语化问题作为输入，而训练出的问题生成模型生成的问题偏向于书面用语，无法提供足量的口语化问题；又或者问答系统面对的情景需要回答理工科问题，而问题生成模型却基于文史类知识库进行了训练，面对理工科问题无法有效生成语义相似的问题，因而无法完成数据增强的任务，也就无法取得预期的、提高问答系统鲁棒性的效果。

有鉴于此，本说明书公开了一种问题生成方案，旨在基于对抗训练的技术构思，将问题生成模型和机器阅读模型整合成为一个整体，用于问题生成任务。

请参见图1，图1是本说明书所述对抗训练的一交互示例图；在实现过程中，问题生成模型可以作为生成器，可以输出与输入的原始问题样本语义相似的目标问题样本，并将原始问题样本和目标问题样本作为强化学习中的动作（Action）一并发送至判别器，并从判别器中得到回报（Reward），以进行强化学习的训练。

而上述对抗训练架构中的判别器部分，可以由机器阅读模型和评价函数组成；其中，机器阅读模型可以根据输入的问题，输出与该问题相对应的答案；本说明书中提及的问答系统，就可以视为一种机器阅读模型；由于在本说明书的情景下，最终生成的问题将用于训练问答系统，因此，该情景下所需要的语义相似的问题，可以理解为“对应相同答案的问题”，也就是说，如果两个问题分别对应的答案的重合度较高，则可以合理推断出这两个问题的语义是相似的。

机器阅读模型生成答案的过程可以依赖一定的知识库（图中未示出），该知识库可以是任意的能够从中获取问题对应的答案的数据结构，例如，《高中地理》课本可以为诸如“地球到月球的距离是多少”、“地球有几大板块”等问题提供对应的答案，所以《高中地理》课本可以作为预设的知识库；在实际应用中，由于训练出的问题生成模型最终用于参与生成问答系统的训练样本，因此此处依赖的知识库应当与最终问答系统所涉及的知识库相对应；而根据应用场景、题材的不同，本领域技术人员可以按需选择知识库，并进一步设计该知识库具体采用的数据结构以及读取方式，本说明书对此不作具体限定。

在上述设计中，首先，由于语义相似的问题被输入机器阅读模型后，通常会得到相似的答案，而相似的答案输入评分函数会得到较高的重合度评分，因而判别器中评分函数输出的重合度评分，可以指示输入判别器的问题之间的语义相似度；进而，将上述重合度评分作为回报，将原始问题样本作为训练样本，对上述问题生成模型进行强化学习训练，就可以将该问题生成模型，训练为能够生成与原始问题语义相似的问题的模型，且相较有监督学习的方案，对人力资源的消耗更低；

其次，由于本说明书中的方案未使用传统的、基于句子中词语顺序结构的Rouge-2等固定评价指标，而是将生成语义相似度高的问题的任务，转化为了生成对应答案重合度高的问题的任务，因此可以回避Rouge-2等固定评价指标带来的问题结构相似度与语义相似度不统一的问题。

而且，由于采用了对抗训练的技术构思，对判别器的逆强化学习训练，会为强化学习训练提供更优的回报，而对生成器的强化学习训练，会为逆强化学习训练提供更丰富的训练样本，两者联系紧密，相互形成反馈，不仅可以提高训练效率，而且可以避免现有技术方案中，将问题生成模型和机器阅读模型分开训练导致的生成的问题不适应于最终应用场景的问题。

下面通过具体实施例并结合具体的应用场景对本说明书进行描述。

请参考图2，图2是本说明书所述问题生成方法的一流程示意图；所述方法执行以下步骤：

S201，将原始问题样本和目标问题样本作为训练样本，对由机器阅读模型和评分函数构成的判别器进行逆强化学习训练；其中，所述评分函数用于计算所述机器阅读模型输出的对应于所述原始问题样本的答案，与对应于所述目标问题样本的答案之间的重合度评分；所述目标问题样本，为将所述原始问题样本输入问题生成模型生成的语义相似的问题；

S202，将所述评分函数输出的重合度评分作为回报，将所述原始问题样本作为训练样本，对由所述问题生成模型构成的生成器进行强化学习训练，以进一步形成所述生成器和所述判别器之间的，以所述目标问题样本作为与所述原始问题样本对应的对抗样本的对抗训练；

S203，获取原始问题，并将获取到的所述原始问题输入对抗训练完成的所述问题生成模型，以得到与所述原始问题对应的语义相似的目标问题。

上述问题，包括文本形式的、能够被机器阅读模型给出对应答案的问题；由于上述问题以句子的形式存在，而句子又可以由字或者词组成，因此上述问题也可以视为序列（Sequence）。

上述问题生成模型，包括可以根据输入的问题，输出语义相似的其他问题的机器学习模型；通常情况下，具体实现的方式可以采用序列到序列（Seq2Seq）模型，通过先编码后解码的方式，将作为输入序列的原始问题的语义编码至一个语义向量中，再将这个语义向量解码，完成对应的目标问题的生成；

具体而言，可以采用一个循环神经网络（Recurrent Neural Network，RNN）完成上述编码过程，并使用另一个循环神经网络完成解码过程；其中，上述序列中的各个字符可以是逐个编码，逐个解码完成的，也就是说，虽然宏观上是输入一个原始序列，再输出一个新序列，实质上的实现方式可以是根据已经生成的新序列中的前

个字符，和原始序列来生成新序列中的第

个字符；

其中，可以直接采用上述用于编码的循环神经网络的最后一个输入的隐含状态作为语义向量，即编码结果，也可以将输入序列的所有隐含状态经过一定变换后得到语义向量；上述序列到序列模型的具体实现方式，本领域技术人员可以根据具体的需求，参照相关技术文献完成设计，以达成对应的效果，本说明书无需进行详细限定；

例如，在选择上述循环神经网络的具体种类时，使用长短期记忆网络（Long Short-Term Memory，LSTM），可以利用长短期记忆网络的记忆特性，解决基础的循环神经网络在应用中容易出现的梯度消失等问题。

在示出的一种实施方式中，上述问题生成模型可以包括指针生成网络（PointerGenerator Network）模型；使用该模型可以一定程度上解决基础的循环神经网络对于词汇不足（OOV，Out of vocabulary）的单词的处理问题，以及倾向于复制输入序列的问题。

强化学习训练的基本环节可以包括，根据状态和策略输出动作，以及根据动作产生的回报调整策略两部分；具体体现在对于上述问题生成模型的强化学习训练过程中，输入的原问题可以作为状态（Status），问题生成模型中的参数可以提供策略（Policy），生成的问题可以作为动作（Action），还可以将整个判别器视作回报函数（Reward Function）。

在本说明书中，在对上述问题生成模型的强化学习训练中，可以将现有的问题输入上述问题生成模型，在上述问题生成模型生成一个完整的问题后，将生成的问题与对应的原问题分别输入上述判别器，以获得对应于上述生成的问题的回报。

可以理解的是，虽然在上述问题生成模型基于Seq2Seq架构构建的情况下，所输出的问题作为一个序列并非作为一个整体被输出的，而是逐字逐词输出的，但是，由于通常认为只有完整的问题才具有输入机器阅读模型获取对应答案的意义，因此，可以设定在训练过程中，只有在问题被完整生成后，才会被输入到判别器中并产生回报。

在本说明书中，可以基于上述问题生成模型生成某一序列的概率，与将这一序列输入到上述判别器中产生的回报，构建训练该问题生成模型过程中所需要优化的目标函数；举例而言，如果假设生成的问题与对应的原问题语义相似度越高，则说明生成的问题质量越高，产生的回报也就越高，那么训练问题生成模型的优化目标，或者说优化问题生成模型的原则就可以理解为，令产生高回报的序列的生成概率最大化。

在示出的一种实施方式中，上述对于问题生成模型的强化学习训练过程中所使用的目标函数可以包括问题生成模型所生成的目标问题对应的概率与回报的乘积；考虑到整个序列被生成的概率，可以表示为序列中各个字符（词语）逐个生成的条件概率的连乘，因此在实际应用中，可以设计如下所示的目标函数用于问题生成模型的强化学习训练：

其中，

代表问题生成模型中的参数，

代表在所述问题生成模型中的参数为

的情况下，进行强化学习（RL，Reinforcement Learning）训练的目标函数；

代表所述问题生成模型生成的问题的长度，

代表所述问题生成模型生成的长度为

的问题所产生的回报；

代表所述问题生成模型生成的、长度为

的问题中的第

个字符，

代表在所述问题生成模型中的参数为

的情况下，根据给定的原始问题

，和生成的所述长度为T的问题的前

个字符，生成第

个字符的概率。

在这一目标函数中，由于整体上取了负值，因此可以将优化目标设计为令

最小化；当其做到最小化时，即意味着能够取得高回报的序列被生成的概率最大化，也就是问题生成模型生成满足需求的问题的能力被最优化。

可以理解的是，上述目标函数仅为一可行示例，本领域技术人员还可以在上述优化原则的基础上，根据具体需求进行调整设计，例如使用各种比例参数和变换函数将上述函数重新映射至其他空间，或者设计其他的目标函数形式，等等，本说明书不作具体限定。

具体进行强化学习训练时，可以采取策略梯度法，或者其他可行的优化方法，调整问题生成模型中的参数，以期尽快达到上述优化目标；具体训练、优化的算法，本领域技术人员可以基于上述描述以及相关技术文献，针对具体情况完成具体设计，本说明书不作进一步限定。

在本说明书中，可以使用机器阅读模型和评分函数共同构成判别器；其中，机器阅读模型用于接收问题，并输出问题对应的答案，评分函数用于计算两个答案之间的重合度评分；在训练过程中，原始问题样本与对应的目标问题样本均被输入到上述机器阅读模型中，则会分别获得对应的原始答案，以及目标答案，再将该原始答案和目标答案输入到上述评分函数中，即可获得两者之间的重合度评分。

可以理解的是，上述评分函数的具体算法可以根据具体需求进行选择；例如，原始答案与目标答案的重合部分的长度，与原始答案的长度的比值，或者原始答案与目标答案的重合部分的长度，与目标答案的长度的比值，均可以作为上述重合度评分。

在示出的一种实施方式中，上述重合度评分可以包括F1-score。F-score是一种可以用于评价分类任务的指标，其含义为精确率与召回率的调和平均数，其中的1代表其中精确率、召回率的权重之比为1；在上述对于两个答案的评分中，可以将上述原始答案与目标答案的重合部分的长度，与原始答案的长度的比值，视为召回率，将上述原始答案与目标答案的重合部分的长度，与目标答案的长度的比值，视为精确率，即可计算出对应的F1-score。

与F1-Score之类似的还有F2-score、F0.5-score等等，本领域技术人员也可以根据实际需求选择其他评价指标，对此本说明书无需进行详细限定。

在本说明书中，为了使上述判别器最终输出的结果（也就是上述评分函数输出的重合度评分）可以指示目标问题样本与对应的原始问题样本之间的语义相似度，需要保证语义相似的问题被输入机器阅读模型后，能够得到相似的答案，因此可以通过对机器阅读模型的训练，来完成对于整个判别器的逆强化训练。

在示出的一种实施方式中，上述逆强化学习训练的优化目标可以设定为，将该机器阅读模型输出正确答案的概率调整到最大；在这种情况下，即可保证语义相似的问题被输入机器阅读模型后，都能够得到相似的答案。

在示出的一种实施方式中，上述机器阅读模型输出的答案，为该答案在预设的知识库中的位置坐标。例如，如果预设的知识库是文本形式的，那么输出答案时可以输出答案在预设的知识库中的首尾坐标；如果预设的知识库是分行的数据包，那么输出答案时可以输出答案在预设的知识库中的行号；等等。

可以理解的是，上述机器阅读模型输出答案的方式可以存在多种选择；例如，可以直接将答案的原文直接输出，或者经过一定的处理后输出等等，本说明书对于机器阅读模型的具体实现方式无需进行限定，本领域技术人员可以根据具体需求自行设定。

在示出的一种实施方式中，上述机器阅读模型通过输出答案在预设的知识库中的首尾坐标的方式输出答案，那么训练过程中需要优化的目标函数形式可以如下所示：

其中，

表示所述机器阅读模型中的参数，

表示在所述机器阅读模型中的参数为

的情况下，所述逆强化学习训练的目标函数；

表示参与逆强化学习训练的问题样本的个数；

和

分别表示所述机器阅读模型输出的，与参与逆强化学习训练的问题样本

对应的答案在知识库中的首坐标和尾坐标，

代表所述问题样本

对应的答案在所述知识库中的首坐标正确的概率；

代表所述问题样本

对应的答案在所述知识库中的尾坐标正确的概率。整体取负的平均值后，即意味着，当上述首尾坐标均正确的概率取得最大值时，上述目标函数取得最小值。

因此，基于上述目标函数，上述逆强化学习训练，即对上述机器阅读模型的训练过程，可以视为令上述目标函数最小化的优化过程；当上述目标函数最小化时，则意味着上述机器阅读模型，对于所有的输入问题，输出对应答案的首尾坐标的正确概率最大化，这会使根据语义相近的问题得出的答案会趋向相同，因而上述重合度指标将会最大化；所以，在这种情况下，作为回报的重合度指标将与输入判别器的问题的语义相似度正相关，该判别器可以作为回报函数，为前述的强化学习训练过程提供可靠的回报。

可以理解的是，上述目标函数仅为一可行示例，本领域技术人员还可以在上述优化原则的基础上，根据具体需求进行调整设计，例如使用各种比例参数和变换函数将上述函数重新映射至其他空间等等，本说明书不作具体限定。

在示出的一种实施方式中，上述逆强化学习训练的目标函数可以如下式所示：

其中，

表示所述机器阅读模型中的参数，

表示在所述机器阅读模型中的参数为

的情况下，所述逆强化学习训练的目标函数；

表示参与逆强化学习训练的问题样本的个数，

表示所述机器阅读模型输出的，与参与逆强化学习训练的问题样本

对应的答案；

代表所述问题样本

对应的答案正确的概率。

在此种实现方式中，由于不再包括首尾坐标相关的表达，因而可以适用于包括直接输出答案原文的方式在内的多种答案输出方式。

在确定需要优化的目标函数后，即可对上述机器阅读模型进行训练；具体进行模型训练时，可以采取梯度下降法，或者其他可行的优化方法，调整机器阅读模型中的参数，以期尽快达到上述优化目标；上述具体训练、优化的算法，本领域技术人员可以基于上述描述以及相关技术文献，针对具体情况完成具体设计，本说明书不作进一步限定。

在本说明书中，上述对抗训练过程中，强化学习训练和逆强化学习训练可以交替进行；具体而言，逆强化学习的过程，是令判别器可以“识别”生成器当前所能够生成的问题的过程，而强化学习的过程，则是令生成器能够生成可以“骗过”当前状态的判别器的过程；因此，强化学习训练和逆强化学习训练交替进行，可以逐步提升上述判别器和生成器的性能，直至性能提升不再明显，即可终止对抗训练。

在示出的一种实施方式中，上述对抗训练的收敛条件可以包括判别器无法区分目标问题和原始问题；在该例中，如果判别器已经无法区分目标问题和原始问题，也就意味着目标问题和原始问题都对应了相同的答案，可见生成的目标问题已经符合了需求，所以此状态下的生成器已经达到了预期的目标，可以用于进行最后的问题生成。

可以理解的是，将上述对抗训练的终止条件设置为判别器无法区分目标问题和原始问题，并不意味着该条件第一次满足即必须终止训练；实际上，在对抗训练的过程中，满足上述条件仅意味着生成器已经达到了骗过判别器的水平，但事实上，技术人员可以选择在此时切换训练的模型，使得判别器再根据较优的生成器进行逆强化学习训练，以获取更优的回报；同理，在判别器正确识别出生成的问题和原始问题的频率高于预设阈值时，也可以理解为生成器的性能已经落后于判别器，因此可以切换训练的模型，再令生成器进行强化学习训练，以获取更优的目标问题。以上交替训练的过程为对抗训练中较为常用的训练策略，本领域技术人员也可以选择其他训练策略，本说明书无需进行详细限定。

同时，上述收敛条件也可以包括其他方面的条件，例如迭代次数、样本覆盖率等等，本领域技术人员可以根据具体需求自行设计迭代的终止条件，从而控制对抗训练的运行，本说明书亦无需进行进一步限定。

经过上述对抗训练过程，问题生成模型为机器阅读模型的训练提供了更多的训练样本，而机器阅读模型又间接地为问题生成模型的训练提供了回报，两者作为一个类似于生成式对抗网络的整体完成训练，可以使机器阅读模型能够更好地适应机器阅读模型所涉及的问答场景，进而输出的问题也能够更适宜用于构建问答系统的训练样本。

在本说明书中，在上述对抗训练完成之后，即可获取原始问题，并将该原始问题输入到对抗训练完成得到的问题生成模型中，以生成对应的目标问题，该目标问题即为与原始问题语义相似的问题；由于上述训练阶段中，将“生成语义相似的问题”转换为了“生成在预设的知识库中对应相似答案的问题”，因此，实际调用该训练得到的问题生成模型时，选择能够从预设的知识库中找到对应答案的问题作为原始问题，能够取得更佳的效果。

本说明书还提供了另一问题生成方法，请参见图3，图3是本说明书所述对抗训练的另一交互示例图，该方法在对抗训练中的交互方式与前述方法较为相似，均为原始问题输入生成器，并将原始问题和对应生成的目标问题一并发送至判别器，再由判别器提供回报；但是，从图3示例中可知，其中的判别器中包括一问题匹配模型，而非前述方法示例中机器阅读模型和评分函数的结合。

请参见图4，图4为上述另一问题生成方法的流程示意图，该方法包括：

S401，将原始问题样本和目标问题样本作为训练样本，对作为判别器的问题匹配模型进行逆强化学习训练；其中，所述问题匹配模型用于计算所述原始问题样本和所述目标问题样本的匹配度评分；所述目标问题样本，为将所述原始问题样本输入问题生成模型生成的语义相似的问题；

S402，将所述问题匹配模型输出的匹配度评分作为回报，将所述原始问题样本作为训练样本，对作为生成器的所述问题生成模型进行强化学习训练，以进一步形成所述生成器和所述判别器之间的，以所述目标问题样本作为与所述原始问题样本对应的对抗样本的对抗训练；

S403，获取原始问题，并将获取到的所述原始问题输入对抗训练完成的所述问题生成模型，以得到与所述原始问题对应的语义相似的目标问题。

上述问题，包括以句子的形式存在的问题，而句子又可以由字或者词组成，因此上述问题也可以视为序列（Sequence）。

个字符，和原始序列来生成新序列中的第

个字符；

强化学习训练的基本环节可以包括，根据状态和策略输出动作，再根据动作产生的回报调整策略两部分；具体体现在对于上述问题生成模型的强化学习训练过程中，输入的原问题可以作为状态（Status），问题生成模型中的参数可以提供策略（Policy），生成的问题可以作为动作（Action），还可以将整个判别器视作回报函数（Reward Function）。

可以理解的是，虽然在上述问题生成模型基于Seq2Seq架构构建的情况下，所输出的问题作为一个序列并非作为一个整体被输出的，而是逐字逐词输出的，但是，由于通常认为只有完整的问题才有计算彼此之间匹配度评分意义，因此，可以设定在训练过程中，只有在问题被完整生成后，才会被输入到判别器中并产生回报。

其中，

代表问题生成模型中的参数，

代表在所述问题生成模型中的参数为

代表所述问题生成模型生成的问题的长度，

代表所述问题生成模型生成的长度为

的问题所产生的回报；

代表所述问题生成模型生成的、长度为

的问题中的第

个字符，

代表在所述问题生成模型中的参数为

的情况下，根据给定的原始问题

，和生成的所述长度为T的问题的前

个字符，生成第

个字符的概率。

具体进行模型训练时，可以采取策略梯度法，或者其他可行的优化方法，调整问题生成模型中的参数，以期尽快达到上述优化目标；上述强化学习训练过程中具体训练、优化的算法，本领域技术人员可以基于上述描述以及相关技术文献，针对具体情况完成具体设计，本说明书不作进一步限定。

在本说明书中，用于计算生成的问题与对应的原问题之间的匹配度评分的问题匹配模型可以作为判别器，其中，匹配度评分的具体种类，本领域技术人员可以根据具体需求选择，本说明书无需进行具体限定。

在本说明书中，上述逆强化训练的过程的目标可以为：令作为回报的问题匹配模型的输出，也就是输出的匹配度评分，可以指示生成的问题与对应的原问题之间的语义相似度；换言之，两个问题匹配程度越高，则认为生成的问题质量越好；相对应的，可以以此为原则设计对应的目标函数，进行逆强化学习训练。

在示出的一种实施方式中，上述问题匹配模型可以包括语义匹配模型，输出的匹配度评分可以包括语义重合度评分；前文有所提及，问题的语义的相似度并不与问题的结构相似度统一，因此，语义匹配的结果并不能由静态的序列结构比对（例如Rouge-2）计算得到，上述语义匹配模型在经过逆强化训练后，才能够为上述强化学习训练过程提供较为可靠的回报。

对于上述匹配模型而言，其输出的匹配度评分，可以视为对生成的问题完成一次二分类任务，即，根据上述匹配度评分识别一个问题是原始问题，还是生成的目标问题；如果匹配度较高，则可以认为生成的问题“骗过”了判别器，是一个较为优秀的目标问题，应当获得较高的回报，如果匹配度较低，则可以认为生成的问题没有“骗过”判别器，因此并不是一个足够优秀的目标问题，不应获得较高的回报；而该二分类的结果与真实分类情况的差异，即体现了上述判别器的优劣；进而可以得知，上述逆强化训练的优化目标可以为，令上述二分类的结果与真实分类的结果差异最小化。

在示出的一种实施方式中，上述差异可以用两个概率分布之间的交叉熵表示，换言之，逆强化学习训练过程中的目标函数可以是根据所述问题匹配模型的输出得到的预测分布与真实分布之间的交叉熵；具体而言，根据上述交叉熵可以设计出如下目标函数：

其中，

表示所述问题匹配模型的参数，

表示在所述问题匹配模型的参数为

的情况下，所述逆强化学习训练的目标函数；所述问题匹配模型输出的匹配度评分形成的二分类预测概率分布为

，对应的真实概率分布为

。

当上述目标函数取得最小值，即意味着问题匹配模型的输出得到的预测分布与真实分布之间的交叉熵取得最小值，也就是说该问题匹配模型已经可以输出与真实结果较为相近的匹配度评分，所以上述匹配度评分可以指示生成的问题与对应的原问题之间的语义相似度，即可作为回报，指导上述强化学习训练。

具体进行模型训练时，可以采取梯度下降法，或者其他可行的优化方法，调整问题匹配模型中的参数，以期尽快达到上述优化目标；上述逆强化学习训练过程中具体的训练、优化的算法，本领域技术人员可以基于上述描述以及相关技术文献，针对具体情况完成具体设计，本说明书不作进一步限定。

在本说明书中，上述对抗训练过程中，强化学习训练和逆强化学习训练可以交替进行；具体而言，逆强化学习的过程，是令判别器可以识别生成器当前所能够生成的问题的过程，而强化学习的过程，则是令生成器能够生成可以骗过当前状态的判别器的过程；因此，强化学习训练和逆强化学习训练交替进行，可以逐步提升上述判别器和生成器的性能，直至性能提升不再明显，即可终止对抗训练。

在示出的一种实施方式中，上述对抗训练的收敛条件可以包括判别器无法区分目标问题和原始问题；在该例中，如果输出的问题匹配度均高于认为是同一问题的阈值，也就意味着目标问题和原始问题的语义相似度较高，判别器已经无法区分目标问题和原始问题，可见生成的目标问题已经符合了需求，所以此状态下的生成器已经达到了预期的目标，可以用于进行最后的问题生成。

可以理解的是，将上述对抗训练的终止条件设置为判别器无法区分目标问题和原始问题，并不意味着该条件第二次满足即必须终止训练；在对抗训练的过程中，满足上述条件仅意味着生成器已经达到了骗过判别器的水平，但并不意味着判别器的性能不存在进步空间；事实上，技术人员可以选择在此时切换训练的模型，使得判别器再根据较优的生成器进行逆强化学习训练，以获取更优的回报；同理，在判别器正确识别出生成的问题和原始问题的频率高于预设的阈值时，也可以理解为生成器的性能已经落后于判别器，因此可以切换训练的模型，再令生成器进行强化学习训练，以获取更优的目标问题。以上交替训练的过程为对抗训练中较为常用的训练策略，本领域技术人员也可以选择其他训练策略，本说明书无需进行详细限定。

在本说明书中，在上述对抗训练完成之后，即可获取原始问题，并将该原始问题输入到训练得到的问题生成模型中，获得生成的目标问题；由于上述问题生成模型是在以问题的匹配度评分为回报进行的强化学习训练后得到的，因此，生成的目标问题会与输入的原始问题具有较高的匹配度，满足预期的需求。

在本说明书中，对应于上述问题生成方法，还提供一种问题生成装置，请参见图5，图5是本说明书所述问题生成装置的一结构示意图，该装置包括如下模块：

逆强化学习训练模块501，将原始问题样本和目标问题样本作为训练样本，对由机器阅读模型和评分函数构成的判别器进行逆强化学习训练；其中，所述评分函数用于计算所述机器阅读模型输出的对应于所述原始问题样本的答案，与对应于所述目标问题样本的答案之间的重合度评分；所述目标问题样本，为将所述原始问题样本输入问题生成模型生成的语义相似的问题；

强化学习训练模块502，将所述评分函数输出的重合度评分作为回报，将所述原始问题样本作为训练样本，对由所述问题生成模型构成的生成器进行强化学习训练，以进一步形成所述生成器和所述判别器之间的，以所述目标问题样本作为与所述原始问题样本对应的对抗样本的对抗训练；

模型调用模块503，获取原始问题，并将获取到的所述原始问题输入对抗训练完成的所述问题生成模型，以得到与所述原始问题对应的语义相似的目标问题。

在示出的一种实施方式中，上述强化学习训练的优化目标包括：将上述问题生成模型所生成的目标问题对应的生成概率与生成该问题所产生的回报的乘积调整到最大；对应这个优化目标，本领域技术人员可以自行设计具体需要优化的目标函数。

在示出的一种实施方式中，上述对于问题生成模型的强化学习训练过程中所使用的目标函数可以包括问题生成模型所生成的目标问题对应的概率与回报的乘积；由于整个序列被生成的概率可以表示为序列中各个字符（词语）逐个生成的条件概率的连乘，因此在实际应用中，可以设计如下所示的目标函数用于问题生成模型的强化学习训练：

其中，

代表问题生成模型中的参数，

代表在所述问题生成模型中的参数为

代表所述问题生成模型生成的问题的长度，

代表所述问题生成模型生成的长度为

的问题所产生的回报；

代表所述问题生成模型生成的、长度为

的问题中的第

个字符，

代表在所述问题生成模型中的参数为

的情况下，根据给定的原始问题

，和生成的所述长度为T的问题的前

个字符，生成第

个字符的概率。

在示出的一种实施方式中，上述重合度评分可以包括F1-score。F-score是一种可以用于评价分类任务的指标，其含义为精确率与召回率的调和平均数，其中的1代表其中精确率、召回率的权重之比为1；与之类似的还有F2-score、F0.5-score等等，本领域技术人员也可以根据实际需求选择其他评价指标，对此本说明书无需进行详细限定。

在示出的一种实施方式中，上述机器阅读模型输出的答案，为该答案在预设的知识库中的位置坐标；对应此种机器阅读模型，本领域技术人员可以自行设计具体需要优化的目标函数。

在示出的一种实施方式中，可以将上述判别器的逆强化学习过程的目标函数设置为上述机器阅读模型生成正确答案的概率；具体而言，可以视为对于所有问题找到对应的正确答案的平均概率；如果上述机器阅读模型通过输出答案在预设的知识库中的首尾坐标的方式输出答案，那么训练过程中需要优化的目标函数形式可以如下所示：

其中，

表示所述机器阅读模型中的参数，

表示在所述机器阅读模型中的参数为

的情况下，所述逆强化学习训练的目标函数；

表示参与逆强化学习训练的问题样本的个数；

和

对应的答案在知识库中的首坐标和尾坐标，

代表所述问题样本

对应的答案在所述知识库中的首坐标正确的概率；

代表所述问题样本

对应的答案在所述知识库中的尾坐标正确的概率。

其中，

表示所述机器阅读模型中的参数，

表示在所述机器阅读模型中的参数为

的情况下，所述逆强化学习训练的目标函数；

表示参与逆强化学习训练的问题样本的个数，

对应的答案；

代表所述问题样本

对应的答案正确的概率。

在本说明书中，在上述逆强化学习训练模块501以及强化学习训练模块502工作完成之后，即可利用模型调用模块503获取原始问题，并将该原始问题输入到对抗训练完成得到的问题生成模型中，以生成对应的目标问题，该目标问题即为与原始问题语义相似的问题；由于上述训练阶段中，将“生成语义相似的问题”转换为了“生成在预设的知识库中对应相似答案的问题”，因此，实际调用该训练得到的问题生成模型时，选择能够从预设的知识库中找到对应答案的问题作为原始问题，能够取得更佳的效果。

在本说明书中，对应于上述另一种问题生成方法，还提供另一种问题生成装置，请参见图6，图6是本说明书所述问题生成装置的另一结构示意图，该装置包括如下模块：

逆强化学习训练模块601，将原始问题样本和目标问题样本作为训练样本，对作为判别器的问题匹配模型进行逆强化学习训练；其中，所述问题匹配模型用于计算所述原始问题样本和所述目标问题样本的匹配度评分；所述目标问题样本，为将所述原始问题样本输入问题生成模型生成的语义相似的问题；

强化学习训练模块602，将所述问题匹配模型输出的匹配度评分作为回报，将所述原始问题样本作为训练样本，对作为生成器的所述问题生成模型进行强化学习训练，以进一步形成所述生成器和所述判别器之间的，以所述目标问题样本作为与所述原始问题样本对应的对抗样本的对抗训练；

模型调用模块603，获取原始问题，并将获取到的所述原始问题输入对抗训练完成的所述问题生成模型，以得到与所述原始问题对应的语义相似的目标问题。

在示出的一种实施方式中，上述对于问题生成模型的强化学习训练过程中所使用的目标函数可以包括问题生成模型所生成的目标问题对应的概率与回报的乘积；考虑到整个序列被生成的概率可以表示为序列中各个字符（词语）逐个生成的条件概率的连乘，因此在实际应用中，可以设计如下所示的目标函数用于问题生成模型的强化学习训练：

其中，

代表问题生成模型中的参数，

代表在所述问题生成模型中的参数为

代表所述问题生成模型生成的问题的长度，

代表所述问题生成模型生成的长度为

的问题所产生的回报；

代表所述问题生成模型生成的、长度为

的问题中的第

个字符，

代表在所述问题生成模型中的参数为

的情况下，根据给定的原始问题

，和生成的所述长度为T的问题的前

个字符，生成第

个字符的概率。

在示出的一种实施方式中，上述问题匹配模型可以包括语义匹配模型，输出的匹配度评分可以包括语义重合度评分；由于问题的语义的相似度并不与问题的结构相似度统一，因此，语义匹配的结果并不能由静态的序列结构比对（例如Rouge-2）计算得到，上述语义匹配模型在经过逆强化训练后，才能够为上述强化学习训练过程提供较为可靠的回报。

在示出的一种实施方式中，上述逆强化学习训练的优化目标包括：将上述问题匹配模型输出的匹配度评分形成的二分类预测概率分布，与真实概率分布之间的交叉熵调整到最小；本领域技术人员可以根据该优化目标设计对应的目标函数。

在示出的一种实施方式中，逆强化学习训练过程中的目标函数可以是根据所述问题匹配模型的输出得到的预测分布与真实分布之间的交叉熵；具体而言，可以设计出如下目标函数：

其中，

表示所述问题匹配模型的参数，

表示在所述问题匹配模型的参数为

，对应的真实概率分布为

。

在示出的一种实施方式中，上述对抗训练的收敛条件可以包括判别器无法区分目标问题和原始问题；在该例中，如果判别器已经无法区分目标问题和原始问题，也就意味着目标问题和原始问题的语义相似度较高，可见生成的目标问题已经符合了需求，所以此状态下的生成器已经达到了预期的目标，可以用于进行最后的问题生成。

在本说明书中，在上述逆强化学习训练模块601以及强化学习训练模块602的任务完成之后，即可由模型调用模块603获取原始问题，并将该原始问题输入到训练得到的问题生成模型中，获得生成的目标问题；由于上述问题生成模型是在以问题的匹配度评分为回报进行的强化学习训练后得到的，因此，生成的目标问题会与输入的原始问题具有较高的匹配度，满足预期的需求。

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现前述的问题生成方法，具体可以是在一台设备中同时实现前述的两种问题生成方法，也可以是在不同设备中分别实现前述的两种问题生成方法。

图7示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU（Central Processing Unit，中央处理器）、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线1050包括一通路，在设备的各个组件（例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述的问题生成方法。具体可以是在一份介质中同时存储前述的两种问题生成方法对应的计算机程序，也可以是在不同介质中分别存储前述的两种问题生成方法对应的计算机程序。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体（transitory media），如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种问题生成方法，所述方法包括：

2.根据权利要求1所述的方法，所述逆强化学习训练的优化目标包括：将所述机器阅读模型输出正确答案的概率调整到最大。

3.根据权利要求2所述的方法，所述机器阅读模型输出的答案，为该答案在预设的知识库中的位置坐标。

4.根据权利要求3所述的方法，所述逆强化学习训练的目标函数包括：

其中，

表示所述机器阅读模型中的参数，

表示在所述机器阅读模型中的参数为

的情况下，所述逆强化学习训练的目标函数；

表示参与逆强化学习训练的问题样本的个数；

和

对应的答案在知识库中的首坐标和尾坐标，

代表所述问题样本

对应的答案在所述知识库中的首坐标正确的概率；

代表所述问题样本

对应的答案在所述知识库中的尾坐标正确的概率。

5.根据权利要求2所述的方法，所述逆强化学习训练的目标函数包括：

其中，

表示所述机器阅读模型中的参数，

表示在所述机器阅读模型中的参数为

的情况下，所述逆强化学习训练的目标函数；

表示参与逆强化学习训练的问题样本的个数，

对应的答案；

代表所述问题样本

对应的答案正确的概率。

6.根据权利要求1所述的方法，所述强化学习训练的优化目标包括：

将所述问题生成模型所生成的目标问题对应的生成概率与生成该问题所产生的回报的乘积调整到最大。

7.根据权利要求6所述的方法，所述强化学习训练的目标函数包括：

其中，

代表问题生成模型中的参数，

代表在所述问题生成模型中的参数为

的情况下，进行强化学习训练的目标函数；

代表所述问题生成模型生成的问题的长度，

代表所述问题生成模型生成的长度为

的问题所产生的回报；

代表所述问题生成模型生成的、长度为

的问题中的第

个字符，

代表在所述问题生成模型中的参数为

的情况下，根据给定的原始问题

，和生成的所述长度为T的问题的前

个字符，生成第

个字符的概率。

8.根据权利要求1所述的方法，

所述问题生成模型包括指针生成网络模型。

9.根据权利要求1所述的方法，

所述重合度评分包括F1-score评分。

10.根据权利要求1所述的方法，所述对抗训练的收敛条件包括：

所述判别器无法区分目标问题样本和原始问题样本。

11.一种问题生成方法，所述方法包括：

12.根据权利要求11所述的方法，所述逆强化学习训练的优化目标包括：将所述问题匹配模型输出的匹配度评分形成的二分类预测概率分布，与真实概率分布之间的交叉熵调整到最小。

13.根据权利要求12所述的方法，所述逆强化学习训练的目标函数包括：

其中，

表示所述问题匹配模型的参数，

表示在所述问题匹配模型的参数为

，对应的真实概率分布为

。

14.根据权利要求11所述的方法，所述强化学习训练的优化目标包括：

将所述问题生成模型所生成的目标问题对应的生成概率与声称该问题所产生的回报的乘积调整到最大。

15.根据权利要求14所述的方法，所述强化学习训练的目标函数包括：

其中，

代表问题生成模型中的参数，

代表在所述问题生成模型中的参数为

的情况下，进行强化学习训练的目标函数；

代表所述问题生成模型生成的问题的长度，

代表所述问题生成模型生成的长度为

的问题所产生的回报；

代表所述问题生成模型生成的、长度为

的问题中的第

个字符，

代表在所述问题生成模型中的参数为

的情况下，根据给定的原始问题

，和生成的所述长度为T的问题的前

个字符，生成第

个字符的概率。

16.根据权利要求11所述的方法，

所述问题生成模型包括指针生成网络模型。

17.根据权利要求11所述的方法，

所述匹配度评分包括语义重合度评分。

18.根据权利要求11所述的方法，所述对抗训练的收敛条件包括：

所述判别器无法区分目标问题样本和原始问题样本。

19.一种问题生成装置，所述装置包括：

20.根据权利要求19所述的装置，所述逆强化学习训练的优化目标包括：将所述机器阅读模型输出正确答案的概率调整到最大。

21.根据权利要求20所述的装置，所述机器阅读模型输出的答案，为该答案在预设的知识库中的位置坐标。

22.根据权利要求21所述的装置，所述逆强化学习训练的目标函数包括：

其中，

表示所述机器阅读模型中的参数，

表示在所述机器阅读模型中的参数为

的情况下，所述逆强化学习训练的目标函数；

表示参与逆强化学习训练的问题样本的个数；

和

对应的答案在知识库中的首坐标和尾坐标，

代表所述问题样本

对应的答案在所述知识库中的首坐标正确的概率；

代表所述问题样本

对应的答案在所述知识库中的尾坐标正确的概率。

23.根据权利要求20所述的装置，所述逆强化学习训练的目标函数包括：

其中，

表示所述机器阅读模型中的参数，

表示在所述机器阅读模型中的参数为

的情况下，所述逆强化学习训练的目标函数；

表示参与逆强化学习训练的问题样本的个数，

对应的答案；

代表所述问题样本

对应的答案正确的概率。

24.根据权利要求19所述的装置，所述强化学习训练的优化目标包括：

25.根据权利要求24所述的装置，所述强化学习训练的目标函数包括：

其中，

代表问题生成模型中的参数，

代表在所述问题生成模型中的参数为

的情况下，进行强化学习训练的目标函数；

代表所述问题生成模型生成的问题的长度，

代表所述问题生成模型生成的长度为

的问题所产生的回报；

代表所述问题生成模型生成的、长度为

的问题中的第

个字符，

代表在所述问题生成模型中的参数为

的情况下，根据给定的原始问题

，和生成的所述长度为T的问题的前

个字符，生成第

个字符的概率。

26.根据权利要求19所述的装置，

所述问题生成模型包括指针生成网络模型。

27.根据权利要求19所述的装置，

所述重合度评分包括F1-score评分。

28.根据权利要求19所述的装置，所述对抗训练的收敛条件包括：

所述判别器无法区分目标问题样本和原始问题样本。

29.一种问题生成装置，所述装置包括：

30.根据权利要求29所述的装置，所述逆强化学习训练的优化目标包括：将所述问题匹配模型输出的匹配度评分形成的二分类预测概率分布，与真实概率分布之间的交叉熵调整到最小。

31.根据权利要求30所述的装置，所述逆强化学习训练的目标函数包括：

其中，

表示所述问题匹配模型的参数，

表示在所述问题匹配模型的参数为

，对应的真实概率分布为

。

32.根据权利要求29所述的装置，所述强化学习训练的优化目标包括：

33.根据权利要求32所述的装置，所述强化学习训练的目标函数包括：

其中，

代表问题生成模型中的参数，

代表在所述问题生成模型中的参数为

的情况下，进行强化学习训练的目标函数；

代表所述问题生成模型生成的问题的长度，

代表所述问题生成模型生成的长度为

的问题所产生的回报；

代表所述问题生成模型生成的、长度为

的问题中的第

个字符，

代表在所述问题生成模型中的参数为

的情况下，根据给定的原始问题

，和生成的所述长度为T的问题的前

个字符，生成第

个字符的概率。

34.根据权利要求29所述的装置，

所述问题生成模型包括指针生成网络模型。

35.根据权利要求29所述的装置，

所述匹配度评分包括语义重合度评分。

36.根据权利要求29所述的装置，所述对抗训练的收敛条件包括：

所述判别器无法区分目标问题样本和原始问题样本。

37.一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现权利要求1~10任一所述的方法。

38.一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现权利要求11~18任一所述的方法。