CN111538838B

CN111538838B - 基于文章的问题生成方法

Info

Publication number: CN111538838B
Application number: CN202010350734.8A
Authority: CN
Inventors: 陈恩红; 刘淇; 孙睿军; 陈彦敏; 陶汉卿
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2023-06-16
Anticipated expiration: 2040-04-28
Also published as: CN111538838A

Abstract

本发明公开了一种基于文章的问题生成方法，针对文章进行高效建模和有效利用全文信息，使用层级的编码器结合答案情境感知注意力机制和多跳推理机制，对文章进行语义表征。该方法在文章的语义表征上，能够高效的关注在答案和情境相关的地方，从而为解码器提供高质量的语义信息。解码器利用文章感知和三通路复制机制，可以高效利用全文信息，从而有效提升问题生成结果的质量，弥补了现有方法在文章级别问题语义表征不佳以及文章中有效信息不能有效利用的弊端。

Description

基于文章的问题生成方法

技术领域

本发明涉及自然语言理解和自然语言生成技术领域，尤其涉及一种基于文章的问题生成方法。

背景技术

在自然语言理解和生成领域，随着各种大规模问答数据的出现，自动化问题生成方法得到广泛关注。自动化问题生成有着广泛的应用场景：在教育领域中，问题生成的方法可以用课本内容为输入文本，输出一些内容相关的题目，从而评估学生的学习效果；在对话系统中，问题生成可以结合机器阅读理解，构建目前常用的对话系统；在机器阅读理解领域，问题生成可以自动构建一些大规模问答数据，为机器阅读理解所用，减轻人工标注的负担。因此，如何有效利用大量的问答数据来自动化生成问题是自然语言生成领域中一个急需解决的一个研究问题。

围绕这个研究问题，研究者们提出了很多方法。相关的研究主要集中在从给定的句子和答案片段来生成对应的问题，从而忽略了整篇文章中的部分语义信息。事实上，生成一些高质量的问题，有时候需要依赖于文章信息，因为一些隐含的信息，只在文章中出现。因此，利用文章和答案片段作为输入，可以提高问题生成的质量。

然而，在设计文章语义表征和生成过程中的有效方法时，仍然存在许多独特的挑战。一方面来说，对于文章这样的长序列进行建模，传统方法会丢失文章中的重要信息。另一方面，在生成的过程中，如果不能有效利用文章表征，那么相比句子级别的表征，文章表征会带来更多的不需要的噪声，从而影响问题生成的质量。

发明内容

本发明的目的是提供一种基于文章的问题生成方法,通过给定的文章和答案片段，利用层级结构并结合答案信息和情境信息，能够针对给定文章生成较高质量的问题。

本发明的目的是通过以下技术方案实现的：

一种基于文章的问题生成方法，包括：

收集多个文章，并根据每一文章中标记的答案片段产生相应的问题，从而构建文章-问题-答案数据集；

构建问题生成模型，在编码阶段，通过层级结构和答案情境感知，将文本形式文章和答案片段进行编码得到文章的语义表征；在解码阶段，对文章的语义表征，利用文章感知的解码器和三通路的复制机制来生成相应问题；

利用问题生成模型生成的问题与数据集中对应的问题构建损失函数，并对问题生成模型进行训练；

对于一个新的文章和答案片段，通过训练好的问题生成模型，对输入的文章和答案片段进行语义表征，最终生成和该文章和答案相关的问题。

由上述本发明提供的技术方案可以看出，使用基于层级结构答案和情境感知的问题生成模型来进行问题生成，相比于传统模型，能够对输入的文章结合情境和答案进行更好的表征，并且在生成的过程中能够有效结合全文信息，从而提高问题生成的质量。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于文章的问题生成方法,通过给定的文章和答案片段的流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于文章的问题生成方法，如图1所示，其主要包括如下步骤：

步骤11、收集多个文章，并根据每一文章中标记的答案片段产生相应的问题，从而构建文章-问题-答案数据集。

本发明实施例中，通过对已发布的词条文章进行数据爬取(例如，可以从百科网站爬取)，获取各类文章文本，人工标记文章中的答案片段，针对答案片段和文章人工撰写相关问题。

本发明实施例中，获取的每篇文章P都由n个句子组成：P＝{S₁，S₂，...，S_n}，其中每个句子S_i都由k个词构成：S_i＝{w_i，1，w_i，2，...，w_i，k}，i＝1，2，...，n；标记的答案片段A属于某个句子(称为答案相关句)由m个词组成A＝{a₁，a₂，...，a_m}；撰写的答案用Q表示；构建的文章-问题-答案数据集由多个{P，Q，A}三元组构成。

步骤12、构建问题生成模型，在编码阶段，通过层级结构和答案情境感知，将文本形式文章和答案片段进行编码得到文章的语义表征；在解码阶段，对文章的语义表征，利用文章感知的解码器和三通路的复制机制来生成相应问题。

本发明实施例中，编解码阶段主要以下三个部分：一、将文章P和答案片段A按每个句子送入层级结构编码器的底层，并结合答案和情境，编码得到句子强化的语义表征。二、将句子强化的语义表征送入层级结构编码器的顶层，并结合答案和情境，编码得到文章P的语义表征。三、对文章的语义表征，利用文章感知的解码器和三通路的复制机制来生成相应问题。前两部分为编码阶段，后一部分为解码阶段；所述三个部分的优选实施方式如下：

一、将文章P和答案片段A按每个句子送入层级结构编码器的底层，并结合答案和情境，编码得到句子强化的语义表征。

传统对文章进行语义表征的方法通常是将输入的文本不经过层级结构，直接通过一个循环神经网络获得相关表征。对于文章这样的长序列来说，由于循环神经网络梯度消失的问题，获得的语义表征会丢失文章中的重要信息。基于层级结构和答案和情境感知的文章编码器，可以更好的获取和答案相关的文章的语义。

本发明实施例中，将输入的文章P和答案片段A以句子为划分，送入层级结构编码器的底层，并结合答案和情境感知的注意力机制和多跳推理机制，获得句子强化的语义表征，主要过程包括：

1、将每个句子S_i的长度对齐为k：S_i＝{w_i，1，w_i，2，...，w_i，k}，超出限定长度的部分删去，不足的部分用空白符<PAD>补全。通过GloVe向量初始化文章P和答案片段A的词向量w_i，t和a_t，其中，w_i，t、a_t分别表示t时刻送入层级结构编码器底层的文章P中句子S_i中的词、答案片段A中的词，初始化后分别记作w_i，t和a_t。

2、通过一个双向门控循环网络(GRU)来对每个句子S_i进行初始的表征：

其中，

分别是t时刻、t-1时刻双向门控循环网络正向传播的隐状态，

分别是t时刻、t+1时刻双向门控循环网络反向传播的隐状态；k表示总时刻数，也即句子S_i的词数目；将t时刻正向状态和反向状态拼接在一起，得到每个句子S_i在t时刻的隐状态h_i，t；将正向传播最终状态/>

和反向传播最终状态/>

拼接在一起，得到每个句子S_i的初始表征s_i。

通过同样的双向门控循环网络，得到答案片段A的表征a，实现过程与前文相同，区别仅在于，在处理答案片段时，t的取值范围与答案片段A中词的数目相关，即此时t＝1，...，m。

3、使用平均池化(Average Pooling)，输入每个句子S_i的初始表征s_i，来得到情境语义表征g¹；通过答案和情境感知的注意力机制，结合答案片段A的表征a和情境语义表征g¹，计算每个句子S_i在t个时刻隐状态的权重：

上式中，

W_s、W_g、W_a与b_s均为训练变量，其中/>

类型为向量，W_s、W_g、W_a为权重矩阵，b_s为偏置向量。tanh为双曲正切函数，上标1表示第1跳，/>

表示第1跳计算出的每个句子S_i中在t时刻隐状态所占权重，/>

表示第1跳计算出的每个句子S_i在t时刻的隐状态。

4、每个句子S_i的强化语义表征为各个时刻隐状态的加权和：

其中，

表示第1跳计算的每个句子S_i的强化语义表征。

5、使用多跳推理机制，重复利用答案和情境感知的注意力机制来计算每个句子S_i在t时刻隐状态所占权重。对于每个句子S_i而言，第l+1跳的初始输入为

与/>

并重新计算第l+1跳的情境语义表征g^l+1和隐状态/>

其中g^l+1由平均池化(Average Pooling)输入/>

计算得到，/>

由/>

和/>

相乘得到；接着通过答案和情境感知的注意力机制输入/>

和g^l+1，计算第l+1跳中每个句子S_i在t时刻隐状态所占权重/>

从而计算出第l+1跳每个句子S_i的强化语义表征/>

最终多跳推理机制的输出为句子最终强化的语义表征/>

其中，l＝1，...，L，L为总跳数。

二、将强化的句子级别语义表征送入层级结构编码器的顶层，并结合答案和情境，编码得到文章的语义表征。

1、使用平均池化，输入文章P中每个句子S_i最终强化的语义表征

来得到强化的情境语义表征/>

通过答案和情境感知的注意力机制，结合答案片段A的表征a强化的情境语义表征/>

计算每个句子S_i的权重：

上式中，

W_s′、W_g′、W_a‘与b_s’均为训练变量，其中/>

类型为向量，W_s′、W_g′、W_a‘为权重矩阵，b_s’为偏置向量。tanh为双曲正切函数，上标1表示第1跳，/>

表示第1跳计算出的每个句子S_i在文章中所占的语义权重，n为文章中句子数目；同理，句子S_j初始最终强化的语义表征/>

等于前文计算出的最终强化的语义表征/>

2、整个文章P的语义表征表示为每个句子最终强化的语义表征的加权和：

其中，p¹表示第1跳计算出的整个文章P的语义表征，同时，更新句子S_i最终强化的语义表征

3、使用多跳推理机制，重复利用答案和情境感知的注意力机制来计算每个句子S_i在文章中所占的语义权重。对于每个句子S_i而言，第l′+1跳的初始输入为第l′跳每个句子更新的最终的强化语义表征

并重新计算l′+1跳的强化的情境语义表征

其中/>

由平均池化(Average Pooling)输入更新的最终的强化语义表征/>

得到；通过答案和情境感知的注意力机制，输入/>

和/>

计算出第l′+1跳每个句子S_i在文章中所占的语义权重/>

从而计算出第l′+1跳整个文章P的语义表征p^l′+1；最终多跳推理机制的输出为文章P的最终语义表征p：

其中，l′＝1，...，L′，L′为总跳数。

三、解码阶段，对文章的语义表征，利用文章感知的解码器和三通路的复制机制来生成相应问题。

传统问题生成的解码器通常仅用编码器的最终状态初始化解码器的初态，比如文章最后的表征。但有时候，相比句子级别的表征，文章表征会带来更多的不需要的噪声，从而影响问题生成的质量，需要有效利用文章信息。

本发明实施例中，在解码阶段，输入获得的语义表征，利用文章感知的解码器动态考虑文章信息利用的问题，并且利用三通路复制机制选择复制文章或是句子中的稀有词。以此，有效利用文章信息，来提升问题生成的质量，主要过程包括：

1、通过包含答案片段A的答案相关句的强化语义表征

和答案片段A的表征a初始化解码器状态s₀，其中a为问题答案相关句的下标索引，计算如下：

其中，W_s″、W_a″与b″为训练变量，tanh为双曲正切函数，W_s″、W_a″为权重矩阵，b″为偏置向量。

2、通过门控循环网络构成的文章感知的解码器，解码器的解码基于全文信息p、前一时刻生成词的词向量y_t-1、答案相关句的情境向量c_t-1，计算解码器每一步状态s_t：

s_t＝GRU([y_t-1，c_t-1，λp]，s_t-1)

其中：

λ＝sigmoid(W_oss_t-1+W_oyy_t-1+W_occ_t-1+W_opp+b^o)

上式中，λ为文章感知的解码器动态考虑文章信息的门控；y_t-1为t-1时刻生成词的词向量，由t-1时刻生成的词w_o对应的词向量得到；

W_os，W_oy，W_oc，W_op，W_ah，W_as，W_aa，b_as与b^o均为训练变量，W_os，W_oy，W_oc，W_op，W_ah，W_as，W_aa为权重矩阵类型，b^o，b_as为偏置向量，t＝1，...，k；

为步骤12第一部分第1跳计算出的答案相关句第p个时刻隐状态，/>

为权重。初始时刻的向量y与c可以预先给定。

3、通过三通路复制机制，选择复制全文P或是答案相关句中的稀有词；三通路复制机制，有三种模式：生成模式、答案相关句词复制模式、以及文章词复制模式；

在生成模式中，生成的词的计算概率分布如下：

P_vocab＝softmax(V′tanh(V[c_t，s_t，λp]+b^v)+b^v′)

上式中，V、V′、b^v与b^v′均为可训练向量，其中，V、V′为向量。得到的P_vocab是词表大小的向量，每一维度都是对应维度词的生成概率，词表由所用数据中的词去重得到的合集产生。生成词的时候是根据词表决定的，默认取词表中概率最大的词，对于每个词表中的词w来说，生成的概率，就是由三个模式的概率加权相加得到。所以每次会寻找句子或者文章中和它相同的词，如果相同，就把对应时刻的权重复制下来，这样，词表中每个词，都有一个对应的概率，输出就是选取概率最大的词。

答案相关句词复制模式p_scopy和文章词复制模式p_pcopy计算概率分布如下，分别复制句子及文章中对应词在底层对应的注意力权重，即第1跳时的权重：

上式中，w表示对应词表中的词w，w_p表示句子中第p个词，当词表中的词w和句子中第p个词w_p相同时，复制第p个词w_p在底层对应的注意力权重。在答案所相关句词复制模式下，复制句子的索引为答案相关句a，即复制权重

在文章词复制模式下，复制句子的索引为j，j的取值有文章中句子总数决定(1，2，...，n)，即复制权重/>

p＝1，...，k。

生成模式、答案相关句复制模式、以及文章词复制模式的概率计算如下：

p_gen＝sigmoid(f(c_t，s_t，y_t，λp))

p_scopy＝sigmoid(f(c_t，λp))

p_pcopy＝1-p_scopy

其中f(·)为全连接层，在t时刻，每个词表中的词生成概率P(w)是三种模式下生成词概率和当前模式概率的加权和：P(w)＝p_genP_vocab(w)+(1-p_gen)p_scopyP_scopy(w)+(1-p_gen)p_pcopyP_pcopy(w)。最终输出的生成词w_o，为所有词表词w中概率最大的词，即P(w)最大的词。

按照时刻顺序排列最终输出的词，构成相应问题的文本。

步骤13、利用问题生成模型生成的问题与数据集中对应的问题构建损失函数，并对问题生成模型进行训练。

为了从分类的视角解决问题序列生成的任务，使用基于负对数似然损失函数对问题生成模型进行训练。

训练策略为：对于解码器每一时刻生成的词要尽量接近数据集中的真实值。这类似于一个分类问题，预测目标是每一时刻生成词的类别，类别的数量就是总词表的大小，而真实值就是当前时刻真实问题词所在的类别。

利用问题生成模型生成的问题与数据集中对应的问题，构建如下所示的基于负对数似然损失函数L，训练目标为最小化负对数似然损失函数L：

其中，|Q|表示数据集的大小，训练集由|Q|个(P，Q，A)三元组构成；Q^(x)表示数据集中第x个问题；P^(x)表示数据集中第x篇文章；A^(x)表示数据集中第x个答案；

表示数据集中第x个问题的第y个词；/>

表示数据集中第x个问题的第y个词之前的所有词；|Q^(x)|表示数据集中第x个问题的长度，即该问题词的数目；O^(x)为模型生成出的第x个问题；/>

表示模型生成出第x个问题的第y个词；P(·|·)为似然函数；θ表示模型中的参数。

步骤14、对于一个新的文章和答案片段，通过训练好的问题生成模型，对输入的文章和答案片段进行语义表征，最终生成和该文章和答案相关的问题。

测试阶段与训练阶段的过程相似，即输入为新的文章和答案片段，通过训练好的问题生成模型，将输入的文章通过层级的编码器，结合答案情境感知注意力机制和多跳推理机制，分别获得句子的强化语义表征和文章的语义表征。之后，在解码阶段，输入编码阶段得到的文章的语义表征，利用文章感知的解码器和三通路的复制机制，最终生成和该文章和答案片段相关的问题。

本发明实施例上述方案，针对文章进行高效建模和有效利用全文信息，使用层级的编码器结合答案情境感知注意力机制和多跳推理机制，对文章进行语义表征。该方法在文章的语义表征上，能够高效的关注在答案和情境相关的地方，从而为解码器提供高质量的语义信息。解码器利用文章感知和三通路复制机制，可以高效利用全文信息，从而有效提升问题生成结果的质量，弥补了现有方法在文章级别问题语义表征不佳以及文章中有效信息不能有效利用的弊端。

值得说明的是，本发明要求保护的方案是基于文章的问题生成方法，方案中数据处理所涉及的都是文本数据，但不限定文本数据的内容，因此，也并不限定具体的应用方向。参见之前的背景技术中所述，如果文本数据的内容课本内容，那么输出的问题自然是与课本内容相关的题目，可通过输出的题目来评估学生的学习效果；如果应用在对话系统或者机器阅读理解领域或者其他方面，使用相关内容的文本即可通过上述方案生成对应的问题。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于文章的问题生成方法，其特征在于，包括：

对于一个新的文章和答案片段，通过训练好的问题生成模型，对输入的文章和答案片段进行语义表征，最终生成和该文章和答案相关的问题；

所述在编码阶段，通过层级结构和答案情境感知，将文本形式文章和答案片段进行编码得到文章的语义表征包括：将文章P和答案片段A按每个句子送入层级结构编码器的底层，并结合答案和情境，编码得到句子强化的语义表征；将句子强化的语义表征送入层级结构编码器的顶层，并结合答案和情境，编码得到文章P的语义表征；

所述将文章和答案片段按每个句子送入层级结构编码器的底层，并结合答案和情境，编码得到句子强化的语义表征包括：

通过GloVe向量初始化文章P和答案片段A的词向量w_i，t和a_t，其中，w_i，t、a_t分别表示t时刻送入层级结构编码器底层的文章P中句子S_i中的词、答案片段A中的词，初始化后分别记作w_i，t和a_t；

通过一个双向门控循环网络来对每个句子S_i进行初始的表征：

其中，

分别是t时刻、t-1时刻双向门控循环网络正向传播的隐状态，

分别是t时刻、t+1时刻双向门控循环网络反向传播的隐状态；k表示总时刻数，也即句子S_i的词数目；将t时刻正向状态和反向状态拼接在一起，得到时刻每个句子S_i在t时刻的隐状态h_i，t；将正向传播最终状态/>

和反向传播最终状态/>

拼接在一起，得到每个句子S_i的初始表征s_i；通过同样的双向门控循环网络，得到答案片段A的表征a；

之后，使用平均池化，输入每个句子S_i的初始表征s_f，来得到情境语义表征g¹；通过答案和情境感知的注意力机制，结合答案片段A的表征a和情境语义表征g¹，计算每个句子S_i在t个时刻隐状态的权重：

上式中，

W_s、W_g、W_a与b_s均为训练变量，tanh为双曲正切函数，上标1表示第1跳，/>

表示第1跳计算出的每个句子S_i在t时刻隐状态所占权重，/>

表示第1跳计算出的每个句子S_i在t时刻的隐状态；

每个句子S_i的强化语义表征为各个时刻隐状态的加权和：

使用多跳推理机制，对于每个句子S_i而言，第l+1跳的初始输入为

与/>

并重新计算第l+1跳的情境语义表征g^l+1和隐状态/>

其中g^l+1由平均池化输入/>

计算得到，/>

由/>

和

相乘得到；接着通过答案和情境感知的注意力机制输入/>

和g^l+1，计算第l+1跳中每个句子S_i在t时刻隐状态所占权重/>

从而计算出第l+1跳每个句子S_i的强化语义表征/>

最终多跳推理机制的输出为句子最终强化的语义表征/>

其中，l＝1，...，L，L为总跳数；

所述将句子强化的语义表征送入层级结构编码器的顶层，并结合答案和情境，编码得到文章的语义表征包括：

第1跳时，使用平均池化，输入文章P中每个句子S_i最终强化的语义表征

来得到强化的情境语义表征/>

计算每个句子S_i的权重：

上式中，

W_s′、W_g′、W_a′与b_s′均为训练变量，tanh为双曲正切函数，上标1表示第1跳，/>

表示第1跳计算出的每个句子S_i在文章中所占的语义权重，n为文章中句子数目；

第1跳整个文章P的语义表征表示为每个句子最终强化的语义表征的加权和：

使用多跳推理机制，对于每个句子S_i而言，第l′+1跳的初始输入为第l′跳每个句子更新的最终的强化语义表征

通过平均池化计算l′+1跳的强化的情境语义表征

通过答案和情境感知的注意力机制，输入/>

和/>

计算出第l′+1跳每个句子S_i在文章中所占的语义权重/>

其中，l′＝1，...，L′，L′为总跳数；

所述在解码阶段，对文章的语义表征，利用文章感知的解码器和三通路的复制机制来生成相应问题包括：

通过包含答案片段A的答案相关句的强化语义表征

和答案片段A的表征a初始化解码器状态s₀，计算如下：

其中，W_s″、W_a″与b″为训练变量，tanh为双曲正切函数，a为问题答案相关句的下标索引；

然后，通过门控循环网络构成的文章感知的解码器，解码器的解码基于文章P的最终语义表征p、前一时刻生成词的词向量y_t-1、答案相关句的向量ct，计算解码器每一步状态s_t：

s_t＝GRU([y_t-1，c_t-1，λp]，s_t-1)

λ＝sigmoid(W_oss_t-1+W_oyy_t-1+W_occ_t-1+W_opp+b^o)

上式中，λ为文章感知的解码器动态考虑文章信息的门控；

W_os，W_oy，W_oc，W_op，W_ah，W_as，W_aa，b_as与b^o均为训练变量；/>

为第1跳计算出的答案相关句第p个时刻隐状态，/>

为权重；

通过三通路复制机制，选择复制文章P或是句子中的词；三通路复制机制，有三种模式：生成模式、答案相关句词复制模式、以及文章词复制模式；

在生成模式中，生成的词的计算概率分布如下：

P_vocab＝softmax(V′tanh(V[c_t，s_t，λp]+b)+b′)

上式中，V、V′、b′与b均为可训练变量，得到的P_vocab是词表大小的向量，每一维度都是对应维度词的生成概率；

答案相关句复制模式和文章词复制模式计算概率分布如下，分别复制句子及文章中对应词在底层对应的注意力权重：

上式中，w表示对应词表中的词w，w_p表示句子中第p个词，当词表中的词w和句子中第p个词w_p相同时，复制第p个词w_p在底层对应的注意力权重；在答案所相关句词复制模式下，复制句子的索引为答案相关句a，复制权重

在文章词复制模式下，复制句子的索引为j，复制权重/>

生成模式、句子词复制模式、以及文章词复制模式的概率计算如下：

p_gen＝sigmoid(f(c_t，s_t，y_t，λp))

p_scopy＝sigmoid(f(c_t，λp))

p_pcopy＝1-p_scopy

其中f(·)为全连接层，在t时刻，最终输出词w的概率P(w)，是三种模式下获得词和各模式概率的加权和：

P(w)＝p_genP_vocab(w)+(1-p_gen)p_scopyP_scopy(w)+(1-p_gen)p_pcopyP_pcopy(w)

最终输出的词w_o，为所有词表词w中概率P(w)最大的词；

按照时刻顺序排列最终输出的词，构成相应问题的文本。

2.根据权利要求1所述的一种基于文章的问题生成方法，其特征在于，

通过对已发布的词条文章进行数据爬取，获取各类文章文本，人工标记文章中的答案片段，针对答案片段和文章人工撰写相关问题；

获取的每篇文章P都由n个句子组成：P＝{S₁，S₂，...，S_n}，其中每个句子S_i都由k个词构成：S_i＝{w_i，1，w_i，2，...，w_i，k}，i＝1，2，...，n；标记的答案片段A由m个词组成A＝{a₁，a₂，...，a_m}；撰写的答案用Q表示；构建的文章-问题-答案数据集由多个{P，Q，A}三元组构成。

3.根据权利要求1或2所述的一种基于文章的问题生成方法，其特征在于，利用问题生成模型生成的问题与数据集中对应的问题，构建基于负对数似然损失函数：

其中，|Q|表示数据集的大小；Q^(x)表示数据集中第x个问题；P^(x)表示数据集中第x篇文章；A^(x)表示数据集中第x个答案；

表示数据集中第x个问题的第y个词；/>

表示数据集中第x个问题的第y个词之前的所有词；|Q^(x)|表示数据集中第x个问题的长度；O^(x)为问题生成模型生成出的第x个问题；/>

表示问题生成模型生成出第x个问题的第y个词；P(·|·)为似然函数；θ表示问题生成模型中的参数；

训练目标为最小化负对数似然损失函数L。