CN113268581B

CN113268581B - 题目生成方法和装置

Info

Publication number: CN113268581B
Application number: CN202110816012.1A
Authority: CN
Inventors: 岳祥; 方强; 丁文彪; 刘霄
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-10-08
Anticipated expiration: 2041-07-20
Also published as: CN113268581A

Abstract

本公开提供一种题目生成方法和装置，属于文本处理领域。所述方法包括：获取待处理的多个第一自然段；将所述多个第一自然段划分为多个句子；根据所述多个句子，确定每个句子的分段概率；根据所述多个句子和所述每个句子的分段概率，确定至少一个分段类型的题目。采用本公开，可以提高分段的准确性。

Description

题目生成方法和装置

技术领域

本公开涉及文本处理领域，尤其涉及一种题目生成方法和装置。

背景技术

为了考察学生的分段能力，在一种语文题型中，可以将多个自然段进行合并，令学生进行正确分段。

当这种语文题型以选择题的形式考察时，题干可以是标号后的多个句子，例如，合并的自然段包括句子①②③④⑤⑥⑦。各个句子的顺序可以不变，选项中给出不同的分段情况，例如，选项A可以是①/②③④⑤⑥⑦，表示在第①句后分段；选项B可以是①②③④/⑤⑥⑦，表示在第④句后分段。学生可以在各个选项中，选择正确的分段结果。

发明内容

为了解决现有技术的问题，本公开实施例提供了一种题目生成方法和装置。技术方案如下：

根据本公开的一方面，提供了一种题目生成方法，所述方法包括：

获取待处理的多个第一自然段；

将所述多个第一自然段划分为多个句子；

根据所述多个句子，确定每个句子的分段概率；

根据所述多个句子和所述每个句子的分段概率，确定至少一个分段类型的题目。

根据本公开的另一方面，提供了一种题目生成装置，所述装置包括：

获取模块，用于获取待处理的多个第一自然段；

划分模块，用于将所述多个第一自然段划分为多个句子；

确定模块，用于根据所述多个句子，确定每个句子的分段概率；

构建模块，用于根据所述多个句子和所述每个句子的分段概率，确定至少一个分段类型的题目。

根据本公开的另一方面，提供了一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述题目生成方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行上述题目生成方法。

本公开实施例中，终端可以根据句子的分段概率，构建分段类型的题目。句子的分段概率越大，该句子是段末句子的概率越大。通过本公开实施例提供的题目生成方法，可以提高分段的准确性。相比于随机确定分段结果的方式，通过本公开实施例构建的题目更具有合理性，更加满足考察学生分段能力的需求。

附图说明

在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

图1示出了根据本公开示例性实施例的题目生成方法的流程图；

图2示出了根据本公开示例性实施例的分段概率确定模型结构示意图；

图3示出了根据本公开示例性实施例的题目生成方法的流程图；

图4示出了根据本公开示例性实施例的题目生成方法的流程图；

图5示出了根据本公开示例性实施例的分段概率确定模型结构示意图；

图6示出了根据本公开示例性实施例的题目生成方法的流程图；

图7示出了根据本公开示例性实施例的训练方法流程图；

图8示出了根据本公开示例性实施例的确定正确选项方法的流程图；

图9示出了根据本公开示例性实施例的题目生成方法的流程图；

图10示出了根据本公开示例性实施例的文本确定模型示意图；

图11示出了根据本公开示例性实施例的题目生成方法的流程图；

图12示出了根据本公开示例性实施例的主题生成模型示意图；

图13示出了根据本公开示例性实施例的题目生成方法的流程图；

图14示出了根据本公开示例性实施例的题目生成方法的流程图；

图15示出了根据本公开示例性实施例的题目生成方法的流程图；

图16示出了根据本公开示例性实施例的题目生成装置的示意性框图；

图17示出了根据本公开示例性实施例的题目生成装置的示意性框图；

图18示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

本公开实施例提供了一种题目生成方法，该方法可以用于生成分段类型的题目。该方法可以由终端、服务器和/或其他具备处理能力的设备完成。本公开实施例提供的方法可以由上述任一设备完成，也可以由多个设备共同完成，例如，终端获取到待处理的多个第一自然段后发送给服务器，服务器根据多个第一自然段确定至少一个分段类型的题目，并将生成的题目返回给终端，本公开对此不作限定。

本公开实施例以终端为例，下面将参照图1所示的题目生成方法的流程图，对题目生成方法进行介绍。

步骤101，终端获取待处理的多个第一自然段。

其中，上述第一自然段的来源可以是公开的语料库，或者，还可以是学生需要掌握的文章。本实施例对第一自然段的具体来源不作限定。

在一种可能的实施方式中，为了考察学生的分段能力，可以从语料库的文章中选取多个自然段作为题目。当触发生成分段类型的题目的任务时，终端可以从语料库的文章中获取至少一组自然段。每组自然段中可以包括多个连续的自然段，可以生成至少一个分段类型的题目。

为了便于描述，将此处所使用的自然段称为第一自然段，需要说明的是，“第一”并不是指自然段在文章中的位置。本实施例中以一组自然段为例进行介绍，其他组自然段同理。

步骤102，终端将多个第一自然段划分为多个句子。

在一种可能的实施方式中，终端可以基于分段规则，对上述一组第一自然段进行划分，得到多个句子。例如，由于段末句子的标点符号可以是句号、分号或冒号等，终端可以将当前的句号、分号或冒号之前，上一个句号、分号或冒号之后的文本，确定为一个句子。本实施例对具体的划分方式不作限定。

然后，终端可以记录两个相邻的第一自然段之间的段末句子，标记为正确的段末句子。

步骤103，终端根据多个句子，确定每个句子的分段概率。

在一种可能的实施方式中，终端可以对多个句子进行处理，根据句子之间的上下文信息，确定每个句子的分段概率。句子与其后一句的相关程度越高，其分段概率可能越小；句子与其后一句的相关程度越低，其分段概率可能越大。

可选的，终端可以通过分段概率确定模型确定分段概率，相对应的，上述步骤103的处理可以如下：终端调用训练后的分段概率确定模型，对多个句子进行处理，得到每个句子的分段概率。

在一种可能的实施方式中，终端可以预先训练一个分段概率确定模型，具体的训练过程将在另一个实施例中进行介绍。

终端在步骤102中获取到多个句子后，可以按照每个句子的先后顺序，对多个句子进行整合，得到对应的句子序列。示例性的，句子序列的形式可以如下：[CLS]句子1[CLS]句子2[CLS]句子3。其中，[CLS]是分段概率确定模型可以识别的分类标记。在每个句子前添加[CLS]标记后，分段概率确定模型可以输出每个[CLS]标记的句子对应的数据。

进而，终端可以将该句子序列作为输入，通过分段概率确定模型对句子序列进行处理，输出得到每个句子的分类概率。

可选的，如图2所示的分段概率确定模型结构示意图，分段概率确定模型可以包括第一特征提取模块、第二特征提取模块和概率输出模块。相对应的，如图3所示的题目生成方法的流程图，上述步骤103的处理可以如下：

步骤301，终端调用训练后的分段概率确定模型。

在一种可能的实施方式中，终端中可以存储训练后的分段概率确定模型，在触发确定分段概率的任务时，可以调用该分段概率确定模型。

步骤302，终端通过第一特征提取模块，对多个句子进行处理，得到每个句子的第一特征。

其中，第一特征可以是指，每个句子的词汇在多个句子中的关系特征。

在一种可能的实施方式中，终端可以将上述句子序列作为第一特征提取模块的输入，通过第一特征提取模块对句子序列进行处理，输出得到每个句子的第一特征。

可选的，为了使得输出的特征携带有与自然段相关的信息，提高分段概率的准确性，上述步骤302的处理可以如下：终端根据多个句子，确定输入矩阵；终端通过第一特征提取模块，对输入矩阵进行处理，得到每个句子的第一特征。

其中，输入矩阵可以用于表示每个句子的词汇信息、第一位置信息和第二位置信息。第一位置信息可以用于表示词汇在所属句子中的位置信息。第二位置信息可以用于表示词汇在多个句子中的位置信息。

具体来说，如图4所示的题目生成方法的流程图，确定输入矩阵的处理可以如下：

步骤401，对于多个句子中的一个句子，终端获取一个句子中的多个词汇。

在一种可能的实施方式中，分段概率确定模型可以包括词汇表。词汇表中存储有多个词汇表示，分段概率确定模型可以通过词汇表对输入模型的文本进行表示，也即是说，词汇表中的词汇是模型可以“理解”和“表达”的词汇。

对于上述句子序列中的任意一个句子，终端可以根据词汇表中存储的词汇，对该句子进行分词，得到多个词汇。

步骤402，终端根据多个词汇，确定一个句子的词汇向量。

在一种可能的实施方式中，终端在确定下多个词汇后，可以在词汇表中查询每个词汇对应的向量表示，然后对查询到的向量表示进行整合，得到每个句子的词汇向量。

步骤403，终端根据多个词汇在一个句子中的位置信息，确定一个句子的第一位置向量。

在一种可能的实施方式中，终端在获取到一个句子中的多个词汇后，可以确定每个词汇在该句子中的位置信息，也即是词汇在所属句子中的位置信息。进而，终端可以通过向量对每个词汇的位置信息进行表示，得到该句子的第一位置向量。其他句子同理，也即是终端可以确定每个句子的第一位置向量。

步骤404，终端根据多个词汇在多个句子中的位置信息，确定一个句子的第二位置向量。

在一种可能的实施方式中，终端在步骤401中对每个句子均进行分词，在获取到每个句子中的多个词汇后，可以确定每个词汇在上述多个句子中的位置信息，也即是词汇在选取的自然段中的位置信息。进而，终端可以通过向量对每个词汇的位置信息进行表示，得到每个句子的第二位置向量。

步骤405，终端根据多个句子的词汇向量、第一位置向量和第二位置向量，确定输入矩阵。

在一种可能的实施方式中，终端在获取到每个句子的词汇向量、第一位置向量和第二位置向量后，可以对三者进行整合，构成输入矩阵。

终端获取到输入矩阵后，可以将输入矩阵作为第一特征提取模块的输入，通过第一特征提取模块对输入矩阵进行处理，输出得到每个句子的第一特征。

示例性的，如图5所示的分段概率确定模型结构示意图，第一特征提取模块由经过预训练的BERT（Bidirectional Encoder Representations from Transformers，来自转换器模型的双向编码器）模型构成。本实施例对第一特征提取模块采用的具体模型结构不作限定。

从上述过程可以知道，输入特征中的各个向量表示以词汇为单位，也即是说，第一特征是基于词汇的句子特征表示。

由于输入矩阵携带有词汇信息、词汇在所属句子中的位置信息以及词汇在多个句子中的位置信息，通过第一特征提取模块对输入矩阵的处理过程中，相当于参考了上述信息，使得输出的第一特征携带有与自然段相关的信息。

终端经过第一特征提取模块输出第一特征后，可以继续执行步骤303的处理。

步骤303，终端通过第二特征提取模块，对每个句子的第一特征进行处理，得到每个句子的第二特征。

其中，第二特征可以是指，每个句子在多个句子中的关系特征。

在一种可能的实施方式中，终端可以将每个句子的第一特征作为第二特征提取模块的输入，通过第二特征提取模块对第一特征进行处理，输出得到每个句子的第二特征。

示例性的，如图5所示的分段概率确定模型结构示意图，第二特征提取模块可以由预设数目个Transformer（转换器）模型的Encoder（编码）模块构成，例如，可以是3个Encoder模块。本实施例对第二特征提取模块采用的具体模型结构不作限定。

从上述过程可以知道，第一特征提取模块输出的是每个句子的第一特征，是以句子为单位的特征表示，也即是说，第二特征是基于语句的句子特征表示。

由于第一特征携带有与自然段相关的信息，相应的，第二特征也可以携带有与自然段相关的信息。

步骤304，终端通过概率输出模块，对每个句子的第二特征进行处理，得到每个句子的分段概率。

在一种可能的实施方式中，终端可以分别将每个句子的第二特征作为概率输出模块的输入，通过概率输出模块分别对每个第二特征进行处理，输出得到每个句子的分段概率。

示例性的，如图5所示的分段概率确定模型结构示意图，概率输出模块可以由Dense（全连接）层和Sigmoid（激活函数）层构成。终端可以通过Dense层将每个句子的第二特征映射为一维向量，再通过Sigmoid层对得到的一维向量进行计算，得到每个句子的分段概率的值。

由于第二特征携带有与自然段相关的信息，通过概率输出模块对第二特征的处理过程中，相当于参考了与自然段相关的信息，因此可以提高分段概率的准确性。

终端在确定下每个句子的分段概率之后，可以继续执行步骤104的处理，构建相应的题目。

步骤104，终端根据多个句子和每个句子的分段概率，确定至少一个分段类型的题目。

在一种可能的实施方式中，终端可以根据每个句子的分段概率，确定是否在该句子之后进行分段，也即是确定该句子是否为段末句子。分段概率越大，句子是段末句子的概率越大。

终端可以根据预先设置的选项数目，确定对应选项数目的段末句子。根据确定下的段末句子，构建对应的选项内容，每个选项内容可以包括一种分段结果。例如，当确定下的段末句子为第①句，对应的选项内容可以是①/②③④⑤⑥⑦。

进而，终端可以将上述多个句子作为题干文本，与选项内容共同构成一个题目，该题目的类型即为分段类型。

具体来说，如图6所示的题目生成方法的流程图，上述步骤104的处理可以如下：

步骤601，终端根据每个句子的分段概率进行采样，得到至少一个错误的段末句子。

在一种可能的实施方式中，终端可以基于预设的采样方法和预先设置的选项数目，根据每个句子的分段概率进行采样，得到对应选项数目的段末句子。句子的分段概率越大，越有可能被选中。例如，上述采样方法可以是轮盘赌方法。本实施例对具体的采样方法不作限定。

由于待采样的句子中可以包括正确的段末句子和错误的段末句子，而构建的题目中至少包括一个错误选项，因此，终端可以在采样得到的段末句子中，确定至少一个错误的段末句子，用于构建错误选项。

可选的，终端在采样之前，可以根据步骤102中标记下的正确的段末句子，在上述多个句子中将该正确的段末句子剔除，进而，终端可以在剩余的句子中根据分段概率进行采样，得到至少一个错误的段末句子。此时，待采样的句子中可以仅包括错误的段末句子。

步骤602，终端根据至少一个错误的段末句子，确定至少一个错误选项。

在一种可能的实施方式中，终端可以根据采样得到的错误的段末句子，基于预设的选项格式进行整合，得到相应的错误选项。例如，预设的选项格式可以是“A. ①/②③④⑤⑥⑦”。本实施例对选项的具体格式不作限定。

步骤603，终端根据多个句子中正确的段末句子，确定正确选项。

在一种可能的实施方式中，终端可以根据步骤102中标记下的正确的段末句子，基于预设的选项格式进行整合，得到相应的正确选项。

步骤604，终端将多个句子作为第一题干文本，根据第一题干文本、至少一个错误选项和正确选项，确定至少一个分段类型的题目。

在一种可能的实施方式中，终端可以根据上述步骤102中的多个句子，基于预设的题干格式进行整合，得到相应的第一题干文本。例如，预设的题干格式可以是“①句子1②句子2”，也即是在每个句子前添加标号，以及合并段落。

进而，终端可以将第一题干文本、至少一个错误选项和正确选项进行整合，构建相应的题目。

由于选项数目有限，终端在确定下一个题目后，还可以重新确定每个选项内容，构建另一个选项内容不完全相同的题目。也即是说，对于同一个题干文本，终端可以确定一个题目，也可以确定多个题目。

终端在确定下分段类型的题目后，可以将题目添加到题库中，以便用户进行题目练习，或者便于后续处理。

示例性的，分段类型的题目可以如下表1所示：

表1 分段类型题目样例

题干	①蜡染是我国传统民族印染工艺之一，已有 2000 多年历史，现今在贵州的布依族、苗族中仍很流行。蜡染以经过退浆的帆布、绒布等为原料。②蜡染制作的第一步是绘画。绘画工人根据设计的图案，用铅笔在布上勾画出来。③第二步上蜡。选用的蜡有三种：第一种是蜂蜡，熔点 62℃— 66℃，用采描绘线条最佳。第二种是石蜡，熔点 50℃— 58℃，用以做裂纹多的图案为最佳。第三种是木蜡和白蜡。在上蜡前，先要熔蜡。蜡熔化后，就可以上蜡了。上蜡就是用蜡刀蘸蜡液，在白布上依图描画。④上蜡之后是染色，就是根据设计图案，在布上涂抹相应的颜色。⑤染色后，就该裂纹了。裂纹又叫水纹，就是将涂好蜡的布浸入水中或用直尺压折涂蜡部分，使布上的蜡产生断裂，形成裂纹，富有无穷的自然趣味。⑥蜡染的主体工序完成后，就轮到脱蜡了。将染好色的布投入沸水中煮，脱去蜡质即可。⑦最后是烘干。这样就制成了各种色彩、各种花纹的蜡染布。
		问题	短文可分两部分，划分正确的选项是( )。
选项	A. ①②③④⑤⑥/⑦ B. ①②③/④⑤⑥⑦ C. ①②③④/⑤⑥⑦ D. ①/②③④⑤⑥⑦
		答案	D

上述公开实施例中所使用的分段概率确定模型可以是机器学习模型，在使用分段概率确定模型进行上述处理前，可以对其进行训练。下面将通过如图7所示的训练方法流程图，对分段概率确定模型的训练方法进行介绍：

步骤701，终端获取多个第一训练样本。

其中，第一训练样本可以包括多个第二自然段的多个句子，以及多个第二自然段的每个句子的目标分段概率。

在一种可能的实施方式中，与上述步骤101-102同理，终端可以从语料库的文章中获取多组自然段，并对每组自然段进行划分句子的处理，此处不再赘述。然后，终端可以对每个句子的目标分段概率进行设置，例如，可以是将相邻两个自然段之间的段末句子的目标分段概率设置为1，其余句子的目标分段概率设置为0。

当触发对分段概率确定模型的训练任务时，终端可以将一组自然段中的多个句子以及每个句子的目标分段概率，作为一个训练样本，并获取多个训练样本。

为了便于描述，将此处所使用的自然段称为第二自然段，需要说明的是，“第二”并不是指自然段在文章中的位置；将此处所使用的训练样本称为第一训练样本。

步骤702，终端获取初始分段概率确定模型。

其中，初始分段概率确定模型的模型参数可以是初始值。

在一种可能的实施方式中，当触发对分段概率确定模型的训练任务时，终端可以获取预先设置的初始分段概率确定模型。

步骤703，终端根据多个第一训练样本，对初始分段概率确定模型进行训练，得到训练后的分段概率确定模型。

在一种可能的实施方式中，终端可以将每个训练样本中的多个句子作为初始分段概率确定模型的输入，输出得到对每个句子预测的分段概率，具体的处理过程与上述步骤301-304同理，此处不再赘述。

然后，终端可以将每个句子对应的分段概率和目标分段概率，通过损失函数进行计算，确定调整参数，然后再根据调整参数对初始分段概率确定模型的模型参数进行调整。经过多次训练后，模型输出的分段概率可以越来越接近对应的目标分段概率。

当达到训练结束条件时，终端可以获取当前的分段概率确定模型，作为训练后的分段概率确定模型。

其中，训练结束条件可以是训练次数达到第一阈值，和/或模型正确率达到第二阈值，和/或损失函数低于第三阈值。上述第一阈值、第二阈值和第三阈值可以根据经验设置。本实施例对具体的训练结束条件不作限定。

在得到训练后的分段概率确定模型之后，终端可以基于分段概率确定模型进行上述实施例中的处理，此处不再赘述。

本公开实施例中，终端可以根据句子的目标分段概率，对分段概率确定模型进行训练，使得分段概率确定模型可以实现对分段概率的预测，提高分段的准确性。

本公开实施例中提供了一种确定正确选项方法，该方法可以基于问答模型实现，对输入的题目预测正确选项。而通过上述公开实施例生成的题目，也可以通过问答模型预测正确选项。因此，在问答模型的训练阶段，终端可以基于上述题目生成方法扩充训练数据，实现数据增强的效果，提高问答模型的准确率。

下面将参照图8所示的确定正确选项方法的流程图，对确定正确选项方法进行介绍。

步骤801，终端获取多个类型的多个题目，将多个类型的多个题目作为第二训练样本。

其中，上述多个类型可以至少包括分段类型，上述多个题目可以至少包括至少一个分段类型的题目。

可选的，上述多个类型还可以包括以下一种或多种：填空类型、主题类型、错别字类型、关联词类型、标点类型。

在一种可能的实施方式中，在对问答模型进行训练之前，终端可以基于每个类型对应的题目生成方法，分别对每个类型的题目进行扩充。其中，分段类型的题目可以通过上述实施例提供的题目生成方法进行扩充，此处不再赘述。

终端可以将生成的题目存储在题库中，每个题目可以至少包括题干文本、问题文本和多个选项。当触发对问答模型的训练任务时，终端可以从题库中获取多个类型的题目，并且，对每个类型均可获取多个题目。对于一个题目，终端可以对题目中的每个选项设置目标正确概率，作为训练标签，例如，将正确选项的目标正确概率设置为1，错误选项的目标正确概率设置为0。

终端可以将一个题目以及每个选项对应的目标正确概率作为一个训练样本，获取多个训练样本。

为了便于描述，将此处所使用的训练样本称为第二训练样本。

步骤802，终端获取初始问答模型。

其中，初始问答模型的模型参数可以是初始值。

在一种可能的实施方式中，当触发对问答模型的训练任务时，终端可以获取预先设置的初始问答模型。

示例性的，问答模型可以采用Roberta-large模型（一种预训练模型）与多头注意力模型（DUMA，DUal Multi-headCo-Attention）的结合，也可以采用其他可以预测正确选项的模型，例如BERT模型。本实施例对具体的问答模型不作限定。

步骤803，终端基于第二训练样本，对初始问答模型进行训练，得到训练后的问答模型。

在一种可能的实施方式中，终端可以将每个题目中的题干文本和对应的问题文本、多个选项作为初始问答模型的输入，经过初始问答模型的处理，输出得到每个选项对应的预测的正确概率。

然后，终端可以将预测的正确概率和目标正确概率，通过损失函数进行计算，确定调整参数，然后再根据调整参数对初始问答模型的模型参数进行调整。

当终端对初始问答模型的训练次数越来越多时，对每个选项输出的正确概率越来越接近目标正确概率。

示例性的，当问答模型采用Roberta-large模型与DUMA模型的结合时，终端可以将第二训练样本中每个题目的题干文本、问题文本和每个选项分别进行拼接，得到每个组合文本。例如，得到的每个组合文本可以为：[CLS]题干文本[SEP]问题文本[SEP]任一选项。其中，[CLS]是分类标记，[SEP]是结束标记。

然后，终端可以将每个组合文本通过Roberta-large模型进行处理，得到每个组合文本的第一特征向量表示，将每个组合文本的第一特征向量表示通过DUMA模型进行处理，得到每个组合文本的第二特征向量表示。终端可以将每个组合文本的第二特征向量表示通过线性全连接层进行向量映射，得到每个组合文本的未归一化的概率表示。该概率表示可以是一维向量。进而，终端可以将上述概率表示，通过softmax函数（归一化指数函数）进行归一化，得到每个选项的正确概率。例如，A选项的正确概率可以是0.2，表示为[0.2,0,0,0]。

终端可以根据每个选项预测的正确概率和目标正确概率，对初始问答模型的模型参数进行调整。处理过程可以是：终端可以将预测的正确概率和目标正确概率，通过交叉熵函数确定损失，利用反向传播的算法调整初始问答模型的参数。

示例性的，当正确选项分别为A、B、C、D时，对应的目标正确概率的标签分别为：[1,0, 0, 0], [0, 1, 0, 0], [0, 0, 1, 0], [0, 0, 0, 1]。

当达到训练结束条件时，终端可以获取当前的问答模型，作为训练后的问答模型。

其中，训练结束条件可以是训练次数达到第四阈值，和/或模型正确率达到第五阈值，和/或损失函数低于第六阈值。上述第四阈值、第五阈值和第六阈值可以根据经验设置。本实施例对具体的训练结束条件不作限定。

终端在对问答模型训练完成后，可以基于问答模型对正确选项进行预测。

步骤804，当获取到待预测的题目时，终端通过问答模型对待预测的题目进行处理，得到待预测的题目的正确选项。

其中，待预测的题目的类型属于上述多个类型。

在一种可能的实施方式中，终端在获取到待预测的题目时，可以将该题目中的题干文本和对应的问题文本、多个选项作为问答模型的输入，经过问答模型的处理，输出得到每个选项对应的正确概率。具体处理过程与上述步骤803同理，此处不再赘述。

此时，终端可以将正确概率最高的选项，确定为该题目的正确选项。

本公开实施例中，在问答模型的训练阶段，终端可以基于上述题目生成方法扩充训练数据，实现数据增强的效果，提高问答模型的准确率。

为了进一步扩充问答模型的训练数据，本公开实施例中提供了一种题目生成方法，该方法可以用于生成填空类型的题目。下面将参照图9所示的题目生成方法的流程图，对该方法进行介绍。

步骤901，终端获取填空类型的第二题干文本。

在一种可能的实施方式中，终端可以从语料库中获取任意文本，作为填空类型的题目的题干文本，将该题干文本称为第二题干文本。为了方便描述，本实施例以对一个第二题干文本的处理为例进行介绍，其他第二题干文本同理。

步骤902，终端根据第二题干文本，确定待填空的文本类型。

可选的，文本类型可以至少包括以下一种或多种：虚词类型、实词类型、成语类型、语句类型。

在一种可能的实施方式中，终端可以根据预设的分词规则，对第二题干文本进行分词的处理，得到多个词汇。进而，终端可以获取每个词汇的词性。

对于虚词类型，终端可以在第二题干文本中，获取词性为虚词的词汇，将该词汇作为待填空的正确文本，将待填空的文本类型确定为虚词类型。

对于实词类型，终端可以在第二题干文本中，获取词性为实词的词汇，将该词汇作为待填空的正确文本，将待填空的文本类型确定为实词类型。

对于成语类型，终端可以在第二题干文本中，获取词性为成语的词汇，将该词汇作为待填空的正确文本，将待填空的文本类型确定为成语类型。

对于语句类型，终端可以在第二题干文本中，获取待填空的语句，将该语句作为待填空的正确文本，将待填空的文本类型确定为语句类型。

一个题目中可以仅包括一个待填空的位置，也可以包括多个待填空的位置，相对应的，终端获取的待填空的正确文本可以是一个或者多个，多个正确文本之间类型可以相同也可以不同，本实施例对此不作限定。

步骤903，终端根据文本类型对应的文本生成方法，对第二题干文本进行处理，确定待填空的至少一个文本。

下面将对不同的文本类型，分别介绍步骤903的处理。

第一，当文本类型是虚词类型时，上述步骤903的处理可以如下：

终端通过第一文本确定模型，对第二题干文本进行处理，确定待填空的至少一个虚词的概率；根据待填空的至少一个虚词的概率，确定待填空的至少一个文本。

在一种可能的实施方式中，终端可以存储有经过训练的第一文本确定模型，该第一文本确定模型的词汇表中可以包括虚词表。示例性的，虚词表中的虚词可以包括：之、其、者、所、是、然、夫、焉、诸、或、莫、于、乎、以、为、与、因、则、而、且、乃、也、矣、哉。本实施例对具体的虚词不作限定。

终端可以对待填空的虚词词汇进行掩盖，将掩盖后的第二题干文本作为输入，通过第一文本确定模型对第二题干文本进行处理，对掩盖的位置输出得到虚词表中每个虚词的概率。然后，终端可以将这些虚词的概率按照概率从大到小排序，获取前预设数目（即top_k）个虚词。然后对于获取到的每一个虚词，求累加和，即求包括其本身和之前所有虚词的概率，获取累加和小于等于阈值（即top_p）的虚词。然后按概率进行采样得到负例，也即是待填空的至少一个文本。

top_k保证了候选项数目的最大值，top_p用于在头部词有非常大的概率时，可以过滤掉尾部概率比较小的词，提高处理效率。

第二，当文本类型是实词类型时，上述步骤903的处理可以如下：

终端通过第二文本确定模型，对第二题干文本进行处理，确定待填空的至少一个实词的概率；根据待填空的至少一个实词的概率，确定待填空的至少一个文本。

在一种可能的实施方式中，与虚词相类似，终端也可以通过第二文本确定模型对掩盖文本进行预测，该第二文本确定模型的词汇表可以包括相对应的实词表。与虚词的不同点在于，虚词可以是一个字，而实词可以是多个字，也即是说，虚词对应的掩盖位置可以是一个，实词对应的掩盖位置可以是多个。

因此，终端在通过与虚词同理的方法，根据top_k、top_p筛选得到每个掩盖位置上的待选词汇之后，可以对每个掩盖位置上的待选词汇取笛卡尔积，得到多个词汇组合。然后，终端可以过滤不符合自然语言的词汇组合，以及词性与正确文本不同的词汇组合。对剩余的词汇组合中每个词汇的概率求几何平均，作为每个词汇组合的概率。然后按概率进行采样得到负例，也即是待填空的至少一个文本。

第三，当文本类型是成语类型时，上述步骤903的处理可以如下：

终端通过第三文本确定模型，对第二题干文本进行处理，确定待填空的至少一个成语的概率；根据待填空的至少一个成语的概率，确定待填空的至少一个文本。

在一种可能的实施方式中，终端对成语的处理，与上述对实词的处理相类似，此处不再赘述。不同点在于，第三文本确定模型的词汇表可以包括成语表，终端可以过滤不属于成语的词汇组合。

需要说明的是，上述第一、第二、第三文本确定模型，可以是相同的模型，也可以是不同的模型，区别在于训练过程所使用的训练样本。也即是说，当三者为相同的模型时，训练样本可以包括上述虚词、实词和成语对应的多个题目，标签可以为每个题目对应的正确选项；当三者为不同的模型时，三者的训练样本可以分别为虚词、实词和成语对应的多个题目，标签可以为每个题目对应的正确选项。本实施例对此不作限定。

第四，当文本类型是语句类型时，上述步骤903的处理可以如下：

终端根据第二题干文本中待填空的语句，确定待替换的文本；通过预设的替换规则，对待填空的语句和待替换的文本进行处理，确定待填空的至少一个文本。

在一种可能的实施方式中，终端在获取到待填空的语句后，可以将待填空的语句中的部分文本，作为待替换的文本；或者，还可以将与待填空的语句相关的文本，作为待替换的文本。进而，终端可以将待替换的文本，对待填空的语句中的文本进行替换，得到待填空的至少一个文本。

例如，将“因此通篇作品既端整沉着，又颇具跌宕摇曳之姿”中的“端整沉着”和“颇具跌宕摇曳之姿”作为待替换的文本，将两者的位置互换，得到一个错误项文本，即“因此通篇作品既颇具跌宕摇曳之姿，又端整沉着”。

又例如，对于“苏轼一生屡遭磨难而不改旷达之性，一直以佛老思想为其儒家思想之外的另一精神支柱”，获取与其相关的句子“对于书法，苏轼主张‘书初无意佳乃佳尔’，黄庭坚不吝以‘天然自工’来赞美”。将其中的“主张‘书初无意佳乃佳尔’”作为待替换的文本，对“一直以佛老思想为其儒家思想之外的另一精神支柱”进行替换，得到一个错误项文本，即“苏轼一生屡遭磨难而不改旷达之性，主张‘书初无意佳乃佳尔’”。

步骤904，终端根据至少一个文本和第二题干文本，确定至少一个填空类型的题目。

在一种可能的实施方式中，终端可以根据预设的题目格式，对第二题干文本、待填空的正确文本和步骤903中确定的至少一个文本进行整合，构建相应的至少一个填空类型的题目。其中，第二题干文本可以用于构建题目的题干，待填空的正确文本可以用于构建正确选项，步骤903中确定的至少一个文本可以用于构建错误选项。

终端在确定下填空类型的题目后，可以将题目添加到题库中，以便用户进行题目练习，或者作为问答模型的训练样本。

示例性的，如图10所示的文本确定模型示意图，上述文本确定模型可以是BERT模型。输入模型的文本可以为“[CLS] [MASK]仰其穴而鸣，若号若呼，若啸若歌，其亦有所求邪。[SEP] [PAD]”，其中，[CLS]是分类标记；[MASK]是掩盖标记，用于表示被掩盖的文本；[SEP]是结束标记；[PAD]是扩充标记，用于将文本长度扩充至同一的长度，便于终端并行处理。BERT模型对输入模型的文本进行处理，预测[MASK]位置上的词汇及其概率。

构建的填空类型的题目可以如下表2所示：

表2 填空类型题目样例

题干	杂说欧阳修夏六月，暑雨既止，欧阳子坐于树间，仰视天与月星行度，见星有殒者。夜既久，露下，闻草间蚯蚓之声益急。其感于耳目者，有动乎其中，作《杂说》。蚓食土而饮泉，其为生也，简而易足。 ______仰其穴而鸣，若号若呼，若啸若歌，其亦有所求邪。抑其求易足而自鸣其乐邪。苦其生之陋而自悲其不幸邪。将自喜其声而鸣其类邪。岂其时至气作，不自知其所以然而不能自止者邪。何其聒然而不止也！吾于是乎有感。星殒于地，腥矿顽丑，化为恶石。其昭然在上而万物仰之者，精气之聚尔；及其毙也，瓦砾之不若也。人之死，骨肉臭腐，蝼蚁之食尔。其贵乎万物者，亦精气也。其精气不夺于物，则蕴而为思虑，发而为事业，著而为文章，昭乎百世之上而仰乎百世之下，非如星之精气随其毙而灭也。可不贵哉！而生也利欲以昏耗之，死也腐臭而弃之。而惑者曰： “足乎利欲，所以厚吾身。 ”吾于是乎有感。天西行，日月五星皆东行。日一岁而一周。月疾于日，一月而一周。天又疾于月，一日而一周。星有迟有速，有逆有顺。是四者，各自行而若不相为谋，其动而不劳，运而不已，自古以来，未尝一刻息也。是何为哉。夫四者，所以相须而成昼夜、四时、寒暑者也。一刻而息，则四时不得其平，万物不得其生，盖其所任者重矣。人之有君子也，其任亦重矣。万世之所治，万物之所利，故曰“自强不息” ，又曰“死而后已”者，其知所任矣。然则君子之学也，其可一日而息乎！吾于是乎有感。
		问题	下列虚词填入文中第二段横线处，最符合文意的一项是
选项	A.故 B.亦 C.以 D.然
		答案	D

本公开实施例中，对于不同的文本类型，参照不同的方式生成待填空的文本，相比于采用同义词表的方法，可以生成的文本范围更广，构建的题目数量更多，当其作为问答模型的训练样本时，可以提高数据增强的效果。

为了进一步扩充问答模型的训练数据，本公开实施例中提供了一种题目生成方法，该方法可以用于生成主题类型的题目。下面将参照图11所示的题目生成方法的流程图，对该方法进行介绍。

步骤1101，终端获取主题类型的第三题干文本。

其中，第三题干文本的来源可以包括维基百科语料、新闻语料、古诗语料、诗词语料等。维基百科中解释了大量实体，也就是说明对象。作文语料有标题。古诗语料有题目。词有词牌名。

在一种可能的实施方式中，终端可以从语料库中获取任意文本，作为主题类型的第三题干文本；将该文本对应的标题、题目、说明对象、词牌名等，作为正确的主题。为了方便描述，本实施例以对一个第三题干文本的处理为例进行介绍，其他第三题干文本同理。

步骤1102，终端通过主题生成模型，对第三题干文本进行处理，得到第三题干文本对应的至少一个主题。

在一种可能的实施方式中，终端可以存储有经过训练的主题生成模型。在触发主题生成任务时，终端可以调用该主题生成模型，对第三题干文本进行整合，得到模型的输入，进而通过主题生成模型进行处理，输出得到第一个位置上的待选词汇及其概率。然后，终端可以根据每个词汇的概率进行采样，得到第一个位置上的至少一个词汇，并将第一个位置上的至少一个词汇作为模型的输入，预测第二个位置上的待选词汇及其概率。以此类推，直到主题生成模型输出结束标记，或者生成的文本长度达到预设的最大长度，此时，终端可以停止主题生成模型的处理，获取生成的至少一个主题的文本。

步骤1103，终端根据第三题干文本和对应的至少一个主题，确定至少一个主题类型的题目。

在一种可能的实施方式中，终端可以根据预设的题目格式，对第三题干文本及其对应的正确的主题、步骤1102中生成的至少一个主题进行整合，构建相应的至少一个主题类型的题目。其中，第三题干文本可以用于构建题目的题干，正确的主题可以用于构建正确选项，步骤1102中生成的至少一个主题可以用于构建错误选项。

终端在确定下主题类型的题目后，可以将题目添加到题库中，以便用户进行题目练习，或者作为问答模型的训练样本。

此外，在使用主题生成模型进行上述处理之前，可以对主题生成模型进行训练，训练样本可以为语料库中的多个文本，标签可以为文本对应的主题。具体的训练过程此处不再赘述。

示例性的，如图12所示的主题生成模型示意图，主题生成模型可以是GPT（Generative Pre-Training，生成式预训练）模型。输入模型的文本可以为文章内容和“标题是《”，GPT模型对输入模型的文本进行处理，预测每一个字的概率，直到GPT模型输出“》”（即结束标记），或者长度达到设定的标题最大长度。

构建的填空类型的题目可以如下表3所示：

表3 主题类型题目样例

题干	〔唐〕韩偓皱白离情高处切，腻红①愁态静中深。眼随片片沿流去，恨满枝枝被雨淋。总得苔遮犹慰意，若教泥污更伤心。临轩一盏悲春酒，明日池塘是绿阴。(注)①膩红：一作“膩香”，此处指代花。腻，浓。
		问题	根据诗意，适合做本诗题目的一项是
选项	A.葬花 B.惜花 C.春雨D.秋夜
		答案	B

本公开实施例中，终端可以通过主题生成模型对文本进行处理，生成至少一个主题，相比于人工编撰的方法，可以提高生成主题类型的题目的效率，且构建的题目数量更多，当其作为问答模型的训练样本时，可以提高数据增强的效果。

为了进一步扩充问答模型的训练数据，本公开实施例中提供了一种题目生成方法，该方法可以用于生成错别字类型的题目。下面将参照图13所示的题目生成方法的流程图，对该方法进行介绍。

步骤1301，终端通过预设的扩充规则，对错别字库进行扩充。

其中，错别字库中可以至少包括以下一种或多种：形近字、音近字、义近字。为了考察学生对字词的掌握程度，可以对中小学生待掌握的词汇构建相应的错别字库。每个词汇可以具有对应的错别字库，需要说明的是，为了避免重复存储，终端存储的可以是每个词汇与其错别字的对应关系。

为了方便介绍，本实施例中以一个目标词汇及其对应的错别字库为例，其他词汇同理。

在一种可能的实施方式中，对于形近字，终端可以基于预设的拆字规则，对目标词汇的文本进行拆分，并获取该目标词汇的结构类型。进而，终端可以将具有相同结构类型的词汇，以及拆分后得到的多个词汇，作为该目标词汇的形近字。然后，终端可以对其构建相应的对应关系并存储，也即是对该目标词汇的错别字库进行扩充。例如，将“抬”字拆分为“手”和“台”，获取“抬”字的结构类型为左右结构，因此，终端可以将左右结构的字，以及“手”和“台”两字作为“抬”字的形近字。

对于音近字，终端可以获取目标词汇的拼音信息，将拼音信息相同的词汇，和/或拼音信息相近的词汇，作为该目标词汇的音近字。然后，终端可以对其构建相应的对应关系并存储，也即是对该目标词汇的错别字库进行扩充。例如，对于“在”字，终端可以获取其拼音信息为“zai”，将拼音信息相同的词汇（如“再”字），作为“在”字的音近字。又例如，拼音信息相近可以是指除了平翘舌和/或前后鼻音不同，其余拼音信息相同，如“师shi”和“蛳si”。

对于义近字，终端可以获取目标词汇的同义词，作为该目标词汇的义近字。然后，终端可以对其构建相应的对应关系并存储，也即是对该目标词汇的错别字库进行扩充。

步骤1302，终端获取错别字类型的第四题干文本。

在一种可能的实施方式中，终端可以从语料库中获取任意文本，作为错别字类型的第四题干文本。为了方便描述，本实施例以对一个第四题干文本的处理为例进行介绍，其他第四题干文本同理。

步骤1303，终端根据第四题干文本，在错别字库中，获取对应的至少一个错别字。

在一种可能的实施方式中，终端可以在第四题干文本中获取待考察的目标词汇，进而，终端可以在该目标词汇对应的错别字库中，随机获取至少一个错别字。

上述第四题干文本中待考察的目标词汇可以是一个，也可以是多个，本实施例对此不作限定。

步骤1304，终端根据第四题干文本和对应的至少一个错别字，确定至少一个错别字类型的题目。

在一种可能的实施方式中，终端可以将第四题干文本中待考察的目标词汇，替换为上述获取到的错别字。然后，终端可以根据预设的题目格式，对替换后的第四题干文本、待考察的目标词汇和对应的至少一个错别字进行整合，构建相应的至少一个错别字类型的题目。

终端在确定下错别字类型的题目后，可以将题目添加到题库中，以便用户进行题目练习，或者作为问答模型的训练样本。

示例性的，构建的错别字类型的题目可以如下表4所示：

表4 错别字类型题目样例

题干	在非洲腹地的布隆迪共和国。我们住的一座洁白的小楼门前，有两棵翠绿的大树。它们不同于一般的树，没有枝丫，树干①tǐngbá而修长，只在顶上长着一簇长长的②jiānyìng的阔叶，整齐地排成一片，像一把展开的羽毛折扇，又像孔雀正在开屏。在非洲别的国家里，不少华丽的住宅和别墅门前也栽着这种树。有了这种树，那些③jiànzhù仿佛增添了不少幽雅的情趣。我还以为这种树只能在阳光④míngmèi、土壤肥沃、雨水充足的地方生长，后来有一次在沙漠中旅行，发现这种树竟然也生长在茫茫沙海之中。在黄沙的衬托下，它越发显得翠绿，充满了生机。我问非洲朋友：“这叫什么树。” 非洲朋友仰望着那翠绿欲滴的阔叶，回答说：“它的名字很别致，叫旅行家树。” “为什么叫旅行家树。” 非洲朋友解释说：“这种树原生长在沙漠里。人们在沙漠里旅行，受到热沙炙烤而干渴难熬的时候，要是遇到这种树，只要用刀子在它身上划一道口子，它就会流出清香可口的汁液来让你解渴。它是沙漠旅行者的朋友，所以叫旅行家树。” 我在台头仰望这旅行家树，不尽束然起禁。它出生于贫瘠荒凉的不毛之地，给跋涉沙漠的旅行者以甘泉般的希望。它移植于繁华富丽的通都大邑，给观光非洲的旅游者以土色土香的情趣。它造福于人，并不以环境不同而改变性格。离开非洲时，我曾想带回一株旅行家树的幼苗，移植到自己的庭院里。但是我没有这样做。我想：倒不如把旅行家树的品质移植到自己的心中。
		问题	“我在台头仰望这旅行家树，不尽束然起禁。”对这句话的说法正确的是
选项	A. 这句话中有3个错别字，依次是：台(抬)、束(肃)、禁(敬)。 B. 这句话中有4个错别字，依次是：在(再)、台(抬)、束(肃)、禁(敬)。 C. 这句话中有5个错别字，依次是：在(再)、台(抬)、尽(禁)、束(肃)、禁(敬)
		答案	C

本公开实施例中，终端可以通过预设的扩充规则，对错别字库进行扩充，扩大了错别字的可选范围，能够构建的题目数量更多，当其作为问答模型的训练样本时，可以提高数据增强的效果。

为了进一步扩充问答模型的训练数据，本公开实施例中提供了一种题目生成方法，该方法可以用于生成关联词类型的题目。下面将参照图14所示的题目生成方法的流程图，对该方法进行介绍。

步骤1401，终端获取关联词类型的第五题干文本。

在一种可能的实施方式中，终端可以从语料库中获取携带有关联词的任意文本，作为关联词类型的第五题干文本。为了方便描述，本实施例以对一个第五题干文本的处理为例进行介绍，其他第五题干文本同理。

步骤1402，终端根据第五题干文本，在预设的关联词库中，获取至少一个关联词。

示例性的，预设的关联词库中可以包括：因为……所以……、不但……而且……、与其……不如……、宁可……也不……、宁可……也……、之所以……是因为……、如果……就……、只要……就……、既然……就……、即使……也……、无论……都……、不管……都……、不仅……还……、不仅……而且……、不但……还……。本实施例对具体的关联词不作限定。

在一种可能的实施方式中，终端可以在第五题干文本中获取所携带的关联词，作为正确的关联词。然后，终端可以在关联词库中，随机获取除正确的关联词之外的至少一个关联词，作为错误的关联词。

步骤1403，终端根据第五题干文本和至少一个关联词，确定至少一个关联词类型的题目。

在一种可能的实施方式中，终端可以根据预设的题目格式，对第五题干文本和正确的关联词、步骤1402中获取的至少一个关联词进行整合，构建相应的至少一个关联词类型的题目。其中，第五题干文本可以用于构建题目的题干，正确的关联词可以用于构建正确选项，步骤1402中获取的至少一个关联词可以用于构建错误选项。

终端在确定下关联词类型的题目后，可以将题目添加到题库中，以便用户进行题目练习，或者作为问答模型的训练样本。

示例性的，构建的关联词类型的题目可以如下表5所示：

表5 关联词类型题目样例

题干	中国传统音乐包括民间音乐、宗教音乐、文人音乐、宫廷音乐等类别，其中文人音乐的代表主要就是古琴艺术，但随着传统文人阶层在中国的消失，古琴艺术逐渐_____、甚至被社会遗忘，直到2003年，中国的古琴艺术被联合国教科文组织列入“人类口头和非物质遗产代表作名录”，这种过去对文化有着深刻影响的艺术形式，才重新____了生机。( )，但我认为这恰恰是它的一个特点。正因为古琴音量小，使得它是直接和你的心进行交流的乐器，是最个人化的乐器，我国古代就有“琴者，心也”“琴者，禁也”的说法。“琴者，心也”即弹琴是为了和自己的心灵对话，与大自然交流，与三五“知音”互相欣赏；“琴者，禁也”即弹琴是为了____自己，也说明在古人心目中，琴不仅是一件乐器，也是____的工具。
		问题	文中“正因为古琴音量小，使得它是直接和你的心进行交流的乐器，是最个人化的乐器”有语病，下列修改最恰当的一项是
选项	A.正因为古琴音量小，所以使得它是直接和你的心进行交流的最个人化的乐器。 B.正是古琴音量小，使得它是直接和你的心进行交流的乐器，是最个人化的乐器。 C.正是音量小，使得古琴成为直接和你的心进行交流的乐器，是最个人化的乐器。 D.正因为音量小，使得古琴成为直接和你的心进行交流的最个人化的乐器。
		答案	C

本公开实施例中，终端可以通过关联词类型对应的题目生成方法，构建多个关联词类型的题目作为问答模型的训练样本，提高数据增强的效果。

为了进一步扩充问答模型的训练数据，本公开实施例中提供了一种题目生成方法，该方法可以用于生成标点类型的题目。下面将参照图15所示的题目生成方法的流程图，对该方法进行介绍。

步骤1501，终端获取标点类型的第六题干文本。

在一种可能的实施方式中，终端可以从语料库中获取任意文本，作为标点类型的第六题干文本。为了方便描述，本实施例以对一个第六题干文本的处理为例进行介绍，其他第六题干文本同理。

步骤1502，终端根据第六题干文本，在预设的标点库中，获取至少一个标点。

示例性的，预设的标点库中可以包括，点号：句号（。）、问号、叹号（！）、逗号（，）顿号（、）、分号（；）和冒号（：）；标号：引号（“”‘’）、括号〔（） [ ] { } 〕、破折号（——）、省略号（……）、着重号（．）、书名号（《》〈〉）、间隔号（•）、连接号（—）和专名号（____）、分隔号（/）。本实施例对具体的标点符号不作限定。

在一种可能的实施方式中，终端可以在第六题干文本中获取所携带的标点，作为正确的标点。然后，终端可以在标点库中，随机获取除正确的标点之外的至少一个标点，作为错误的标点。

步骤1503，终端根据第六题干文本和至少一个标点，确定至少一个标点类型的题目。

在一种可能的实施方式中，终端可以根据预设的题目格式，对第六题干文本和正确的标点、步骤1502中获取的至少一个标点进行整合，构建相应的至少一个标点类型的题目。其中，第六题干文本可以用于构建题目的题干，正确的标点可以用于构建正确选项，步骤1502中获取的至少一个标点可以用于构建错误选项。

终端在确定下标点类型的题目后，可以将题目添加到题库中，以便用户进行题目练习，或者作为问答模型的训练样本。

构建的标点类型的题目可以如下表6所示：

表6 标点类型题目样例

题干	在第55届博洛尼亚国际儿童书展上，中国插画展现场的观众络绎不绝，显示出各界对中国插画现状与发展的关切。(甲)什么是插画。插画就是出版物中的插图：一本书如果以插画为主，以文字为辅，就被称为绘本，顾名思义就是画出来的书。一本优秀的绘本，可以让不认字的孩子“读”出其中蕴涵的深意。(乙)在各色画笔下，蝴蝶、花朵、叶子、大树等跃然纸上，孩子可以对色彩、实物进行认知学习。在学校里阅读的绘本，父母在家里也可以和孩子一起阅读。如此一来，孩子在幼儿园抑或在家里，都拥有一个语言互通的环境。(丙)“绘本在儿童早期教育中的作用已被越来越多的人认识，但绘本的发展还需加快步伐。”书展上多家出版社的负责人都持类似观点。当然，关于绘本创作者，需要关照的，不仅有儿童心灵成长的需求，还有成年读者的精神世界。
		问题	文段中甲、乙、丙句，标点有误的一项是
选项	A.甲 B.乙 C.丙
		答案	A

本公开实施例中，终端可以通过标点类型对应的题目生成方法，构建多个标点类型的题目作为问答模型的训练样本，提高数据增强的效果。

本公开实施例提供了一种题目生成装置，该装置用于实现上述题目生成方法。如图16所示的题目生成装置的示意性框图，该装置包括：

获取模块1601，用于获取待处理的多个第一自然段；

划分模块1602，用于将多个第一自然段划分为多个句子；

确定模块1603，用于根据多个句子，确定每个句子的分段概率；

构建模块1604，用于根据多个句子和每个句子的分段概率，确定至少一个分段类型的题目。

可选的，确定模块1603用于：

调用训练后的分段概率确定模型，对所述多个句子进行处理，得到每个句子的分段概率。

可选的，分段概率确定模型包括第一特征提取模块、第二特征提取模块和概率输出模块；

确定模块1603用于：

调用训练后的分段概率确定模型；

通过第一特征提取模块，对多个句子进行处理，得到每个句子的第一特征，第一特征是指，每个句子的词汇在多个句子中的关系特征；

通过第二特征提取模块，对每个句子的第一特征进行处理，得到每个句子的第二特征，第二特征是指，每个句子在多个句子中的关系特征；

通过概率输出模块，对每个句子的第二特征进行处理，得到每个句子的分段概率。

可选的，确定模块1603用于：

根据多个句子，确定输入矩阵，输入矩阵用于表示每个句子的词汇信息、第一位置信息和第二位置信息，第一位置信息用于表示词汇在所属句子中的位置信息，第二位置信息用于表示词汇在多个句子中的位置信息；

通过第一特征提取模块，对输入矩阵进行处理，得到每个句子的第一特征。

可选的，确定模块1603用于：

对于多个句子中的一个句子，获取一个句子中的多个词汇；

根据多个词汇，确定一个句子的词汇向量；

根据多个词汇在一个句子中的位置信息，确定一个句子的第一位置向量；

根据多个词汇在多个句子中的位置信息，确定一个句子的第二位置向量；

根据多个句子的词汇向量、第一位置向量和第二位置向量，确定输入矩阵。

可选的，如图17所示的题目生成装置的示意性框图，该装置还包括训练模块1605，训练模块1605用于：

获取多个第一训练样本，第一训练样本包括多个第二自然段的多个句子，以及多个第二自然段的每个句子的目标分段概率；

获取初始分段概率确定模型；

根据多个第一训练样本，对初始分段概率确定模型进行训练，得到训练后的分段概率确定模型。

可选的，构建模块1604用于：

根据每个句子的分段概率进行采样，得到至少一个错误的段末句子；

根据至少一个错误的段末句子，确定至少一个错误选项；

根据多个句子中正确的段末句子，确定正确选项；

将多个句子作为第一题干文本，根据第一题干文本、至少一个错误选项和正确选项，确定至少一个分段类型的题目。

可选的，训练模块1605还用于：

获取多个类型的多个题目，将多个类型的多个题目作为第二训练样本，多个类型至少包括分段类型，多个题目至少包括至少一个分段类型的题目；

获取初始问答模型；

基于第二训练样本，对初始问答模型进行训练，得到训练后的问答模型；

当获取到待预测的题目时，通过问答模型对待预测的题目进行处理，得到待预测的题目的正确选项，待预测的题目的类型属于多个类型。

可选的，多个类型还包括以下一种或多种：填空类型、主题类型、错别字类型、关联词类型、标点类型。

可选的，构建模块1604还用于：

获取填空类型的第二题干文本；

根据第二题干文本，确定待填空的文本类型；

根据文本类型对应的文本生成方法，对第二题干文本进行处理，确定待填空的至少一个文本；

根据至少一个文本和第二题干文本，确定至少一个填空类型的题目。

可选的，文本类型至少包括以下一种或多种：虚词类型、实词类型、成语类型、语句类型。

可选的，构建模块1604除了用于实现上述填空类型对应的题目生成方法，还用于实现上述主题类型、错别字类型、关联词类型、标点类型对应的题目生成方法。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图18，现将描述可以作为本公开的服务器或客户端的电子设备1800的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图18所示，电子设备1800包括计算单元1801，其可以根据存储在只读存储器（ROM）1802中的计算机程序或者从存储单元1808加载到随机访问存储器（RAM）1803中的计算机程序，来执行各种适当的动作和处理。在RAM 1803中，还可存储设备1800操作所需的各种程序和数据。计算单元1801、ROM 1802以及RAM 1803通过总线1804彼此相连。输入/输出（I/O）接口1805也连接至总线1804。

电子设备1800中的多个部件连接至I/O接口1805，包括：输入单元1806、输出单元1807、存储单元1808以及通信单元1809。输入单元1806可以是能向电子设备1800输入信息的任何类型的设备，输入单元1806可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1807可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1804可以包括但不限于磁盘、光盘。通信单元1809允许电子设备1800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1801的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1801执行上文所描述的各个方法和处理。例如，在一些实施例中，题目生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1802和/或通信单元1809而被载入和/或安装到电子设备1800上。在一些实施例中，计算单元1801可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行题目生成方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种题目生成方法，其特征在于，所述方法包括：

获取待处理的多个第一自然段；

将所述多个第一自然段划分为多个句子；

调用训练后的分段概率确定模型，对所述多个句子进行处理，得到每个句子的分段概率，所述分段概率是指句子为段末句子的概率；

根据所述每个句子的分段概率进行采样，得到至少一个错误的段末句子；

根据所述至少一个错误的段末句子，确定至少一个错误选项；

根据所述多个句子中正确的段末句子，确定正确选项；

将所述多个句子作为第一题干文本，根据所述第一题干文本、所述至少一个错误选项和所述正确选项，确定至少一个分段类型的题目。

2.根据权利要求1所述的题目生成方法，其特征在于，所述分段概率确定模型包括第一特征提取模块、第二特征提取模块和概率输出模块；

所述调用训练后的分段概率确定模型，对所述多个句子进行处理，得到每个句子的分段概率，包括：

调用训练后的分段概率确定模型；

通过所述第一特征提取模块，对所述多个句子进行处理，得到每个句子的第一特征，所述第一特征是指，所述每个句子的词汇在所述多个句子中的关系特征；

通过所述第二特征提取模块，对所述每个句子的第一特征进行处理，得到所述每个句子的第二特征，所述第二特征是指，所述每个句子在所述多个句子中的关系特征；

通过所述概率输出模块，对所述每个句子的第二特征进行处理，得到所述每个句子的分段概率。

3.根据权利要求2所述的题目生成方法，其特征在于，所述通过所述第一特征提取模块，对所述多个句子进行处理，得到每个句子的第一特征，包括：

根据所述多个句子，确定输入矩阵，所述输入矩阵用于表示每个句子的词汇信息、第一位置信息和第二位置信息，所述第一位置信息用于表示词汇在所属句子中的位置信息，所述第二位置信息用于表示词汇在所述多个句子中的位置信息；

通过所述第一特征提取模块，对所述输入矩阵进行处理，得到每个句子的第一特征。

4.根据权利要求3所述的题目生成方法，其特征在于，所述根据所述多个句子，确定输入矩阵，包括：

对于所述多个句子中的一个句子，获取所述一个句子中的多个词汇；

根据所述多个词汇，确定所述一个句子的词汇向量；

根据所述多个词汇在所述一个句子中的位置信息，确定所述一个句子的第一位置向量；

根据所述多个词汇在所述多个句子中的位置信息，确定所述一个句子的第二位置向量；

根据所述多个句子的词汇向量、第一位置向量和第二位置向量，确定输入矩阵。

5.根据权利要求1所述的题目生成方法，其特征在于，所述分段概率确定模型的训练方法包括：

获取多个第一训练样本，所述第一训练样本包括多个第二自然段的多个句子，以及所述多个第二自然段的每个句子的目标分段概率；

获取初始分段概率确定模型；

根据所述多个第一训练样本，对所述初始分段概率确定模型进行训练，得到训练后的分段概率确定模型。

6.根据权利要求1所述的题目生成方法，其特征在于，所述方法还包括：

获取多个类型的多个题目，将所述多个类型的多个题目作为第二训练样本，所述多个类型至少包括所述分段类型，所述多个题目至少包括所述至少一个分段类型的题目；

获取初始问答模型；

基于所述第二训练样本，对所述初始问答模型进行训练，得到训练后的问答模型；

当获取到待预测的题目时，通过所述问答模型对所述待预测的题目进行处理，得到所述待预测的题目的正确选项，所述待预测的题目的类型属于所述多个类型。

7.根据权利要求6所述的题目生成方法，其特征在于，所述多个类型还包括以下一种或多种：填空类型、主题类型、错别字类型、关联词类型、标点类型。

8.根据权利要求7所述的题目生成方法，其特征在于，确定所述填空类型的题目的方法包括：

获取所述填空类型的第二题干文本；

根据所述第二题干文本，确定待填空的文本类型；

根据所述文本类型对应的文本生成方法，对所述第二题干文本进行处理，确定待填空的至少一个文本；

根据所述至少一个文本和所述第二题干文本，确定至少一个所述填空类型的题目。

9.根据权利要求8所述的题目生成方法，其特征在于，所述文本类型至少包括以下一种或多种：虚词类型、实词类型、成语类型、语句类型。

10.一种题目生成装置，其特征在于，所述装置包括：

获取模块，用于获取待处理的多个第一自然段；

划分模块，用于将所述多个第一自然段划分为多个句子；

确定模块，用于调用训练后的分段概率确定模型，对所述多个句子进行处理，得到每个句子的分段概率，所述分段概率是指句子为段末句子的概率；

构建模块，用于根据所述每个句子的分段概率进行采样，得到至少一个错误的段末句子；根据所述至少一个错误的段末句子，确定至少一个错误选项；根据所述多个句子中正确的段末句子，确定正确选项；将所述多个句子作为第一题干文本，根据所述第一题干文本、所述至少一个错误选项和所述正确选项，确定至少一个分段类型的题目。

11.根据权利要求10所述的题目生成装置，其特征在于，所述装置还包括训练模块，所述训练模块用于：

获取初始分段概率确定模型；

12.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-9中任一项所述的方法。

13.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-9中任一项所述的方法。