CN116561260A

CN116561260A - 一种基于语言模型的习题生成方法、设备及介质

Info

Publication number: CN116561260A
Application number: CN202310833560.4A
Authority: CN
Inventors: 唐学武; 刘吉源; 邵雅清; 李海洋
Original assignee: Beijing Hex Technology Co ltd
Current assignee: Beijing Hex Technology Co ltd
Priority date: 2023-07-10
Filing date: 2023-07-10
Publication date: 2023-08-08

Abstract

本申请涉及电数字数据处理领域，具体公开了一种基于语言模型的习题生成方法、设备及介质，其中方法包括：对初始通用语言模型进行修改，以得到改进通用语言模型，改进通用语言模型中，原始的预训练语言表征模型采用Post‑LN架构；采用DeepSpeed框架的优化策略，对改进通用语言模型进行训练；通过训练后的改进通用语言模型，生成目标用户的第一习题；获取目标用户对于第一习题的答复结果，并根据答复结果以及目标用户反馈，基于目标数据集进行定向训练，并生成目标用户的第二习题。通过训练后的改进语言模型对习题进行推荐，具有更强的灵活性和泛化能力。可以理解复杂语义结构和上下文信息，从而很好地应对不同领域和知识点的习题推导。

Description

一种基于语言模型的习题生成方法、设备及介质

技术领域

本申请涉及电数字数据处理领域，具体涉及一种基于语言模型的习题生成方法。

背景技术

教育过程中，教师会在讲解知识点之后布置习题，以加深学生对知识点的理解和掌握，并通过习题的完成情况，确定学生对知识点的掌握程度。

传统的习题智能推荐模型，是基于相关的标签进行相似匹配而计算出的符合要求的题目，推荐模式相对机械化，并且大多不支持在推荐基础上的二次推荐，对于用户的问题与意图识别存在沟壑，智能性和用户的适应性不足，无法通过与用户的直接多次沟通与训练结合上下文深度挖掘用户真实需求。

发明内容

为了解决上述问题，本申请提出了一种基于语言模型的习题生成方法、设备及介质，其中方法包括：

对初始通用语言模型进行修改，以得到改进通用语言模型，所述改进通用语言模型中，原始的预训练语言表征模型采用Post-LN架构；采用DeepSpeed框架的优化策略，对所述改进通用语言模型进行训练；通过训练后的所述改进通用语言模型，生成目标用户的第一习题；获取所述目标用户对于所述第一习题的答复结果，并根据所述答复结果以及目标用户反馈，基于目标数据集进行定向训练，并生成所述目标用户的第二习题。

在一个示例中，所述对初始通用语言模型进行修改，以得到改进通用语言模型，具体包括：

采用Post-LN架构，构建所述初始通用语言模型的预训练语言表征模型；在所述初始通用语言模型中的每个残差分支结尾添加层归一化；使用预设标准化方程代替所述初始通用语言模型中每层的post-LN结构；使用RoPE作为所述初始通用语言模型的相对位置编码，以得到所述改进通用语言模型。

在一个示例中，采用DeepSpeed框架的优化策略，对所述改进通用语言模型进行训练，具体包括：采用零冗余优化策略，在优化器状态划分阶段，根据显卡数量，将优化器状态划分为预设数量份，且每个显卡仅更新自身的部分优化器及部分参数；在优化器状态划分阶段末尾，使用all-gather算法获得整个参数的更新；在梯度划分阶段，使每个显卡仅更新自身梯度对应的梯度参数；在模型参数划分阶段，在向前传播和反向传播过程中，判断是否需要其他显卡对应的参数，若需要，则通过broadcast算法从对应显卡中获取。

在一个示例中，采用DeepSpeed框架的优化策略，对所述改进通用语言模型进行训练，具体包括：使用FP16半精度格式进行前向传播，并确定模型梯度；根据所述模型梯度值大小，在反向传播前，将损失值与所述模型梯度相乘，以将所述模型梯度放大；在参数更新过程中，使用32位存储优化器状态，并存储32位的模型参数拷贝；将32位的模型参数拷贝进一步回传给16位模型参数，以进行下一次的更新。

在一个示例中，通过训练后的所述改进通用语言模型，生成目标用户的第一习题，具体包括：接收来自于出题用户的习题布置要求，并采集所述出题用户的历史出题数据；所述历史出题数据至少包括习题量以及组卷习惯；根据所述习题布置要求，确定第一习题对应的目标章节以及试卷难度；在所述目标章节中，随机推荐预设数量个待选习题；根据所述习题量以及所述试卷难度，在所述预设数量个待选习题中确定第一习题组；根据所述组卷习惯，对所述第一习题组进行排序，以得到所述第一习题。

在一个示例中，根据所述答复结果以及目标用户反馈，基于目标数据集进行定向训练，具体包括：获取所述目标用户的答复结果，根据答复结果确定目标用户的错题集；根据所述错题集中的题目类型以及对应知识点，确定所述目标用户的智能讲解；根据目标用户反馈，确定所述第一习题中的争议题目；确定所述争议题目对应的争议类型，所述争议类型至少包括语义争议以及题目争议；根据所述语义争议，确定所述争议题目对应的目标数据集；对所述训练数据集进行修正，并通过修正后的目标数据集，对所述改进通用语言模型进行训练；根据所述题目争议，在数据库中修改所述目标争议题目。

在一个示例中，所述生成所述目标用户的第二习题，具体包括：根据所述错题集，确定各第一习题的平均正确率；确定所述平均正确率低于预设阈值的目标习题，获取所述目标习题对应的目标知识点、能力项以及难度等级；根据预设难度等级，以及所述目标知识点，生成第二习题。

在一个示例中，通过训练后的所述改进通用语言模型，生成目标用户的第一习题之前，所述方法还包括：获取目标教材，并根据所述目标教材的教材目录作为数据集单位；根据所述数据集单位，确定所述目标教材的知识点信息；根据所述知识点信息收集习题，以使各数据集单位下的习题数目高于预设阈值；生成各习题的习题标签，所述习题标签至少包括题干、答案、题解、知识点、难度、能力项。

本申请还提供了一种基于语言模型的习题生成设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行：对初始通用语言模型进行修改，以得到改进通用语言模型，所述改进通用语言模型中，原始的预训练语言表征模型采用Post-LN架构；采用DeepSpeed框架的优化策略，对所述改进通用语言模型进行训练；通过训练后的所述改进通用语言模型，生成目标用户的第一习题；获取所述目标用户对于所述第一习题的答复结果，并根据所述答复结果以及目标用户反馈，基于目标数据集进行定向训练，并生成所述目标用户的第二习题。

本申请还提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：对初始通用语言模型进行修改，以得到改进通用语言模型，所述改进通用语言模型中，原始的预训练语言表征模型采用Post-LN架构；采用DeepSpeed框架的优化策略，对所述改进通用语言模型进行训练；通过训练后的所述改进通用语言模型，生成目标用户的第一习题；获取所述目标用户对于所述第一习题的答复结果，并根据所述答复结果以及目标用户反馈，基于目标数据集进行定向训练，并生成所述目标用户的第二习题。

通过本申请提出的方法能够带来如下有益效果：通过训练后的改进语言模型对习题进行推荐，具有更强的灵活性和泛化能力。改进语言模型可以理解自然语言中的复杂语义结构和上下文信息，因此可以很好地应对不同领域和知识点的习题推导。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中一种基于语言模型的习题生成方法的流程示意图；

图2为本申请实施例中Post-LN架构和Pre-LN架构对比示意图；

图3为本申请实施例中残差分支结束时添加层归一化后的结构示意图；

图4为本申请实施例中不同模型在64层和高学习率的条件下实验的数值尺度示意图；

图5为本申请实施例中一种基于语言模型的习题生成设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

现有的语言模型存在数据量不足、题目结构适应性不好、过度依赖语料库等缺点，具体地，数据量不足是指对于某些难度较高或特定类型的题目，数据量可能较少，这可能导致微调后的模型在这些题目上表现不佳，甚至无法生成正确的答案。题目结构适应性不好是指微调模型时需要考虑到特定类型或难度的题目的结构和语言特点，以保证模型能够正确生成相似题目。如果模型无法很好地适应特定类型或难度的题目结构和语言特点，可能会导致模型的性能较差。模型过度依赖语料库是指对于某些特定类型或难度的题目，如果微调模型的语料库不足或不完整，则可能导致模型对某些特定语言结构或题型的理解存在偏差或错误，从而影响模型的性能。模型解释性不强是指与传统的推理题型不同，习题举一反三模型的生成过程很难被解释，难以得知模型是如何生成推理规则的，难以评估模型的可靠性和可解释性。可持续性问题是指大型语言模型的微调需要耗费大量的计算资源和时间，随着数据规模和模型复杂度的增加，微调成本可能会越来越高，从而影响模型的可持续性。

图1为本说明书一个或多个实施例提供的一种基于语言模型的习题生成方法的流程示意图。该方法可以应用于不同科目的题目推荐，该流程可以由相应领域的计算设备执行，流程中的某些输入参数或者中间结果允许人工干预调节，以帮助提高准确性。

本申请实施例涉及的分析方法的实现可以为终端设备，也可以为服务器，本申请对此不作特殊限制。为了方便理解和描述，以下实施例均以服务器为例进行详细描述。

需要说明的是，该服务器可以是单独的一台设备，可以是有多台设备组成的系统，即，分布式服务器，本申请对此不做具体限定。

如图1所示，本申请实施例提供一种基于语言模型的习题生成方法，包括：

S101：对初始通用语言模型进行修改，以得到改进通用语言模型，所述改进通用语言模型中，原始的预训练语言表征模型采用Post-LN架构。

自Transformer模型出现以后便打败了一系列传统方法，成为了NLP（NaturalLanguage Processing，自然语言处理）和CV（Computer Vision，计算机视觉）领域的新范式。近些年来，Transformer的规模也是有持续增长的趋势，以GPT（Generative Pre-Trained Transformer，生成式预训练Transfomer模型）系列为例 GPT有1.17亿的参数量，而GPT2将Transformer堆叠的层数增加到48层，隐藏维度为1600，参数量达到了15亿，GPT-3参数量已达到1750 亿，目前现有的语言模型大体可以分为三种：自回归（GPT系列）、自编码（BERT系列）、编码-解码（T5、BART），它们每一个都在各自的领域上表现不俗，但是，目前没有一个预训练模型能够很好地完成所有任务。

GPT系类自回归语言模型本质上是一个从左到右生成的语言模型，采用无条件生成，缺点也很明显，就是单向注意力机制不能完全理解和捕捉上下文之间的内容的关系。以Bert模型为代表的自编码模型，是通过某个建造目标，比如：掩码语言模型MaskedLanguage model通过掩掉某一个字段，重新补全，进行完形填空，但它很难直接用于文章生成这类的任务当中。以T5为代表的Encoder-Decoder模型，就是一个完整的Transformer结构，经常用于有条件性的任务，比如文本翻译、机器翻译。虽然这些框架可以用于自然语言理解和无条件生成任务当中，但它需要更多的参数量才能达到如同Bert及其变种模型的表现。

GLM（General Language Model，通用语言模型）是一个双向注意力机制的预训练语言模型，它在NLU（Natural Language Understanding，自然语言理解）、conditional（条件文本生成） unconditional generation（非条件文本生成）上都有着不错的表现。它引入了一种Autoregressive Blank Infilling（自回归空白填充预训练）的模式，自回归的预测被遮盖的区间，这样模型就能同时擅长长文本生产和文本理解两个任务，并采用2D位置编码更好的理解上下文的语义，因此我们采用GLM作为大语言底层模型。GLM在超过 4000 亿个文本标识符上预训练完成，并针对中文问答和对话进行了优化。这些特点符合国内各学科教学的基础，针对中文问答和对话进行了优化。经过约 1000万道题的问答训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，能够实现数学、语文、英语、物理、化学、生物和地理7个学科的习题生成。

本申请对GLM模型进行了修改，具体地，改进通用语言模型中，原始的预训练语言表征模型采用Post-LN架构。

在一个实施例中，修改时模型架构上引用了Sandwich-LN、DeepNorm、RoPE，具体地，在模型架构的修改方面原始的BERT采用Post-LN架构，如图2所示，可以看到原始Transformer中的每一层中分别经过了带残差连接的Multi-Head Attention和FFN 两个子层(sub-layer)，在两子层后分别进行层归一化LN，即Post-LN Transformer。然而实验表明这种结构模型稍微扩展就极容易出现不收敛，因此又有工作提出了Pre-LN架构即把层归一化加在残差连接之前，实验表明Pre-LN在各层之间梯度范数几乎保持不变，这种结构明显更利于优化器进行优化，近年来模型普遍采用Pre-LN架构。

在后续的实验中观察到，当模型的规模扩展到数百亿，或者是多模态模型训练的过程中，Pre-LN架构也会出现工作不收敛的情况，为此我们借鉴CogView(文本生成图像)的Sandwich-LN即其在每个残差分支结束时添加一个新的LayerNorm（层归一化），如图3所示，该残差分支确保了每层的输入值的比例在一个合理范围内，帮助模型更好的收敛。

模型训练过程中，会出现溢出(NAN Loss)的情况，一般出现在最后一层的LayerNorm或注意层，通过引入PB-Relax令LayerNorm(x)=LayerNorm(x/max(x))即通过除以x的最大值来减小梯度爆炸。PB-relax 是一种用于增强深度神经网络泛化性能和鲁棒性的正则化技术，可以在训练过程中有效地控制模型的复杂度，优化模型的性能。图4为各模型具有64层和高学习率的实验的数值尺度。不含Sandwich-LN的训练在主干上溢出；不含PB-relax的训练在注意力上溢出；只有同时包含Sandwich-LN和PB-relax的训练才能继续。

可以通过Pre-LN的变体Sandwich-LN缓解混合精度训练中不稳定的情况，但是在后期的大规模实验中发现Pre-LN虽然容易训练，但是性能却不如Post-LN稳定，为了稳定训练Post-LN引用了DeepNorm结构，与Post-LN相比，DeepNorm在进行layer-norm之前会扩大残差连接。除此以外，在初始化过程中降低了参数的比例。需要注意的是，该方法只会扩大前馈网络的权值的规模，以及attention层的投影值。用DeepNorm替换每层的post-LN，在千亿规模的训练中梯度更加的稳定。

基于自回归空白填充，按照自编码的思路，从输入文本中随机地空白出连续的跨度的token，并按照自回归预训练的思路，训练模型来依次重建这些跨度。虽然空白填充已经在T5中用于文本到文本的预训练，但是不同于之前的空白填充我们采用了跨度打乱和2D位置编码。在位置编码的选择上，Transformer无论是attention还是FFN都是和位置无关，因此直接的token表示是不具备位置信息的，经典的做法是token Embedding 直接加上绝对位置编码是可以带上一定的位置信息，编码方式包括三角式和可学习式。相对位置编码我们采用ALiBi和RoPE，ALiBi是在不带位置信息的分数矩阵上加上一些偏置，偏置只为相对距离不同注意力头的系数不一样而增加它的表示能力。

大量的实验发现ALiB能够显著提升的模型的zeroshort能力，在176B模型采用了ALiB这样一个相对位置编码。RoPE则是一种旋转位旋转位置编码，它通过对相的旋转以绝对编码的形式实现了相对编码， Google的PaLM530B模型采用并取得稳定性的提升，那么我们在中实验中发现位置编码采用RoPE更容易实现双向相对注意力，所以使用RoPE作为相对位置编码。

在一个实施例中，模型框架修改完毕之后，需要准备对话数据集，具体地，以教材目录为数据集单位准备习题数据，保证每个教材小节下每种习题类型有100道不同的习题，如数学7年级上人教版“有理数”---》“数轴”下选择题100道，难度从1星到5星，每颗星有20道题，每道题包含：题干、答案、题解、知识点、难度、能力项等标签信息，训练脚本样例为：

"prompt": "请问如下题的答案是什么：数轴上表示数-3的点和原点的距离是（）A．-1/3 B．3C．-3D．1/3"，

"response": "答案为B，这道题的考点是数轴，\n解析：根据数轴上两点的距离就是这两点表示的数的差的绝对值解答即可；\n解答过程：解：∵0-（-3）=0+3=3，∴数轴上表示数-3的点和原点的距离是3。故答案为：B．\n点评:本题考查数轴上两点距离的计算，涉及有理数的减法运算。解题的关键是掌握数轴上两点距离的意义.\n该题难度是2星，\n该题考察的能力是计算能力；运算能力"。

需要说明的是，人工智能首先对提供的数据集进行大语言模型训练，在微调完成后应用于教学场景中，面向的用户为较专业且对口的用户。在用户的使用过程中，我们会通过大数据采集用户的行为及用户的反馈，并分析数据的准确性，对异常的数据会及时进行审查和纠偏，对推荐异常的数据集会再次进行定向训练，从而达到数据集信息、推荐算法不断优化和精准。

S102：采用DeepSpeed框架的优化策略，对所述改进通用语言模型进行训练。

将准备好的数据集放入改进通用语言模型进行训练，当模型达到千亿级别，训练本身不仅仅是算法的问题，更多的是一个工程问题，需要针对不同的集群设计不同的变形方式进行调优，并解决一系列问题，才能达到高效的训练。因此，我们采用DeepSpeed框架的优化策略对模型进行训练。

在一个实施例中，在进行训练时，在常用的混合精度训练场景下，单是启动1750亿的GPT3模型训练，就一共需要2.8T的显存去存放状态，远超单卡显存(40GB)，为进行高效训练，我们采用DeepSpeed框架的优化策略， Zero Redundacy Optimizer(零冗余优化)是DeepSpeed的一部分，内存消耗主要是包含两部分即Mdoel states和ResidualStates，ModelStates包含Parameters(模型参数)、Gradients(梯度)、Optimizer States(优化器)；Residual states包含Activation(前向传播过程中计算出来的激活值)，TemporaryBuffers(临时缓冲区)、Unusable Fragmented Memory(不可用的碎片内存)。

模型的训练过程中，ModelState占用的空间最大，数据并行、模型并行、3D HybridParallel并不能解决该问题，通过引用Zero-DP大幅度的优化显存占用，从而在有限的资源上训练更大的模型，在标准的数据并行中，每个显卡（rank）都会保存独立的权重、梯度和优化器状态，但是每个显卡没必要保留全部的这些信息，ZeRO-DP能够对模型状态(权重、梯度和优化器状态)进行划分(不像标准DP那样进行复制)，然后通过动态通信调度来最小化通信开销。ZeRO-DP能够在保持整体通信开销接近标准DP的同时，线性地降低模型的单显卡显存占用。ZeRO-DP可以分为三个阶段：Pos(优化器状态划分)、Pg(梯度划分)、Pp(模型参数划分)，在模型的训练中模型参数(Pp)我们用16位浮点数存储这个模型就是2个字节，梯度(Pg)也是16位浮点数也占用2个字节，但是优化器不能通过16位存储，必须是32位存储，不同的优化器占用的显存也不一样，将优化器的显存占用表示为Kψ；在DP阶段混合精度训练中模型的参数量ψ，总的占用内存为(2+2+k)*ψ；在Pos阶段将优化器状态分为Nd份，每个显卡仅更新自身优化器的部分，即每个显卡仅需要保存和更新总优化器的1/Nd，并更新1/Nd的参数，然后再每个训练末尾，使用all-gather获得整个参数的更新；Pos+Pg阶段由于在Pos阶段已经对优化器状态进行了划分，那么每个显卡也没必要保存所有的梯度。因此，当每层梯度需要更新参数时，仅对需要的梯度进行reduce。在参数更新后，梯度这部分的显存就会被释放。因此，梯度的显存占用从2ψ降低至2ψ/Nd，总的内存为2ψ+（2+K）*ψ/Nd；Pos+g+p阶段类似于前两个阶段，Pp阶段则是对模型参数进行划分。在前向传播和反向传播过程中，若需要其他的参数则通过broadcast从其他显卡中获取。虽然会增加通信的开销，但实际上，这种方法仅比标准的DP增加1.5倍的通信量，但使得显存占用减少程度与Nd成正比，内存占用量为（2+2+K）*ψ/Nd。理论上Pos，Pos+g，Pos+g+p对单显卡显存的需求降低分别是4倍、8倍和Nd倍，在通信量上，ZeRO-DP在使用Pos和Pg的情况下，能够带来8倍的显存降低且不增加额外的通信量；实验中我们使用模型并行将模型分布到多个显卡上，张量并行方式切分参数矩阵具有较高的效率，但过大会降低计算力度，流水线并行方式按层切分模型不会影响计算力度，但会引起额外的流水线气泡。采用ZeRO-3将参数分布到数据并行组中，需要时进行通信取回参数，这样会引入额外的通信时间。根据以上的方式的优缺点并通过实验测试并提出了一种适用于多个集群的并行策略即张量并行随着模型规模增大护缓慢扩展，但不得超过单机的规模，其余全部使用流水线并行，通过调整微批处理大小减少气泡占比。

除了以上工程难点之外，千亿模型在训练的一大难点是训练稳定性，在本质上是一个精度和效率的这样的一个平衡问题，为充分发挥模型的性能，我们采用FP16半精度格式去提升我们的训练效率，然而训练精度降低必然会导致模型训练的不稳定。在目前已经开源的大模型中OPT175B采用了动态干预并且反复调整的方式，从下图可以看出OPT175B学习率曲线，非常陡峭的其中的每一次下跌都意味着模型的一直不收敛。它是通过动态调整学习率的方式进行手动干预，并最终让模型成功的训练。BLOOM则采用EmbeddingNorm和BF6的数据格式进行调整，测试表明EmbeddingNorm会极大的影响模型零样本能力，以及BF16这种格式，只支持有限的平台使用。

在一个实施例中，鉴于以上的分析我们采用混合精度训练的策略，为了模型加速计算我们用FP16的格式存储，首先会以FP16的方式进行Forward(前向传播)，然后在Backword(反向传播)之前会对loss进行缩放，这是因为模型梯度一般较小，我们可以通过给loss乘以层数将梯度放大，这样能更好的适应FP16的表示范围，计算完FP16梯度后会进行参数更新，因为每次更新的参数很小，为了避免更新中的舍入误差(浮点数的特点：当两个数字相差太大时，相加是无效的)，需要用32位存储优化器状态以及存储32位的模型参数拷贝，优化过后我们会将32位的模型参数拷贝进一步回传给16位模型参数进行下一次的更新，在观察中我们发现Forward和Backward中都可能出现半精度的上下溢出的情况，我们发现该问题其实是梯度爆炸导致的结果，我们对梯度爆炸的现象进行分析发现是Forward爆炸导致优化器优化不到好的点最终会导致Backword爆炸。模型在训练中，通过观测模型的收敛情况，loss损失值的变化，定向对模型进行微调，以达到loss稳定、模型收敛，优化模型的稳定性和准确性。当loss出现长时间不变或者出现Nan的情况，通过打印log日志和查看权重，分析调优，不断进行微调，提升拟合度，提高模型精确度。

S103：通过训练后的所述改进通用语言模型，生成目标用户的第一习题。

教师完成一个章节的授课后，希望可以布置对应的作业，那么教师即可对话输入：“帮我布置一份作业”类似的文字，我们通过采集教师历史的作业习题量和组卷习惯，推荐出一套由属于本章节课时不同题型习题组成的作业。教师可以通过输入调整试卷难度、习题数量、增减题型等文字，在推荐的基础上进行调整，最终呈现出满足教师需求的一份作业。

在一个实施例中，出题用户在布置习题时，首先要发出习题布置要求，服务器采集出题用户的历史出题数据；历史出题数据至少包括习题量以及组卷习惯，根据习题布置要求，确定第一习题对应的目标章节以及试卷难度。在目标章节中，随机推荐预设数量个待选习题，根据习题量以及试卷难度，在预设数量个待选习题中确定第一习题组，根据组卷习惯，对第一习题组进行排序，以得到第一习题。

S104：获取所述目标用户对于所述第一习题的答复结果，并根据所述答复结果以及目标用户反馈，基于目标数据集进行定向训练，并生成所述目标用户的第二习题。

当教师遇到易错题或有争议的题目时，可以通过输入要求解析题目或考察范围等文字时，系统返回习题的解析、知识点、能力等信息，并同时弹出调查选择框，供教师对返回的信息进行纠正。大数据会实时采集并定期汇总，将信息不准确的题目返回给编辑教研部门进行二次审核，不断提升习题信息的准确性。当识别题干找到对应数据集当中的习题时，则返回该习题的信息；当识别题干不在数据集中，会寻找与之最接近的数据集，并返回对应的信息。教师填入的纠正信息，会定期采集到管理后台进行审核纠错，教师采纳的题目对应的信息会补充进数据集中。具体地，首先获取目标用户的答复结果，根据答复结果确定目标用户的错题集，然后根据错题集中的题目类型以及对应知识点，确定目标用户的智能讲解；根据目标用户反馈，确定第一习题中的争议题目；然后确定争议题目对应的争议类型，争议类型至少包括语义争议以及题目争议；根据语义争议，确定争议题目对应的目标数据集。对训练数据集进行修正，并通过修正后的目标数据集，对改进通用语言模型进行训练，根据题目争议，在数据库中修改目标争议题目。

在一个实施例中，生成第二习题时，需要根据错题集，确定各第一习题的平均正确率；然后确定平均正确率低于预设阈值的目标习题，获取目标习题对应的目标知识点、能力项以及难度等级；根据预设难度等级，以及所述目标知识点，生成第二习题。老师选择已经布置的作业的一道习题，由于这道题题学生错误很多，所以需要根据这道题出更多的习题以验证学生是否真的掌握了，习题要与原习题的题型（如选择题、填空题、简答题等）、难度、知识点等保持一致，以达到最佳测试效果。如数据集样例中的习题为原题，则智能推送的习题为：

并且会弹出调查框，供教师对返回的推荐题的准确度的评判，供定期纠偏和训练微调。如教师需要再次推荐其他题型、或提升难度，也可输入对应文字，匹配出知识点、能力项相同或相似、习题难度或题型不同的题目，达到多维智能变式，帮助学生进行巩固练习。

一个高质量的大规模中文文本语料库对于模型的训练至关重要。我们对50GB的大型数据进行整理包括去重、垃圾过滤、分类、采样抽取，规范化整理，针对公式的数据我们转换为LaTeX格式，提升数据质量的多样性、代表性并保证数据的安全性。通过对各学科的数据集进行训练，重点是提升模型的计算推理能力，经过对各学科数据的测试，模型的推理效果均有不俗的表现。

教师可以在平台通过对话形式完成智能组卷，并结合上下文语义，对输出结果进行再次的调整。并支持教师手动标记矫正，后台审核通过后加入数据集中进行训练，达到数据集的不断补充和精准化。

如图2所示，本申请实施例还提供了一种基于语言模型的习题生成设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

本申请实施例还提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的设备和介质与方法是一一对应的，因此，设备和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备和介质的有益技术效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于语言模型的习题生成方法，其特征在于，包括：

对初始通用语言模型进行修改，以得到改进通用语言模型，所述改进通用语言模型中，原始的预训练语言表征模型采用Post-LN架构；

采用DeepSpeed框架的优化策略，对所述改进通用语言模型进行训练；

通过训练后的所述改进通用语言模型，生成目标用户的第一习题；

获取所述目标用户对于所述第一习题的答复结果，并根据所述答复结果以及目标用户反馈，基于目标数据集进行定向训练，并生成所述目标用户的第二习题。

2.根据权利要求1所述的方法，其特征在于，所述对初始通用语言模型进行修改，以得到改进通用语言模型，具体包括：

采用Post-LN架构，构建所述初始通用语言模型的预训练语言表征模型；

在所述初始通用语言模型中的每个残差分支结尾添加层归一化；

使用预设标准化方程代替所述初始通用语言模型中每层的post-LN结构；

使用RoPE作为所述初始通用语言模型的相对位置编码，以得到所述改进通用语言模型。

3.根据权利要求1所述的方法，其特征在于，采用DeepSpeed框架的优化策略，对所述改进通用语言模型进行训练，具体包括：

采用零冗余优化策略，在优化器状态划分阶段，根据显卡数量，将优化器状态划分为预设数量份，且每个显卡仅更新自身的部分优化器及部分参数；

在优化器状态划分阶段末尾，使用all-gather算法获得整个参数的更新；

在梯度划分阶段，使每个显卡仅更新自身梯度对应的梯度参数；

在模型参数划分阶段，在向前传播和反向传播过程中，判断是否需要其他显卡对应的参数，若需要，则通过broadcast算法从对应显卡中获取。

4.根据权利要求1所述的方法，其特征在于，采用DeepSpeed框架的优化策略，对所述改进通用语言模型进行训练，具体包括：

使用FP16半精度格式进行前向传播，并确定模型梯度；

根据所述模型梯度值大小，在反向传播前，将损失值与所述模型梯度相乘，以将所述模型梯度放大；

在参数更新过程中，使用32位存储优化器状态，并存储32位的模型参数拷贝；

将32位的模型参数拷贝进一步回传给16位模型参数，以进行下一次的更新。

5.根据权利要求1所述的方法，其特征在于，通过训练后的所述改进通用语言模型，生成目标用户的第一习题，具体包括：

接收来自于出题用户的习题布置要求，并采集所述出题用户的历史出题数据；所述历史出题数据至少包括习题量以及组卷习惯；

根据所述习题布置要求，确定第一习题对应的目标章节以及试卷难度；

在所述目标章节中，随机推荐预设数量个待选习题；

根据所述习题量以及所述试卷难度，在所述预设数量个待选习题中确定第一习题组；

根据所述组卷习惯，对所述第一习题组进行排序，以得到所述第一习题。

6.根据权利要求1所述的方法，其特征在于，根据所述答复结果以及目标用户反馈，基于目标数据集进行定向训练，具体包括：

获取所述目标用户的答复结果，根据答复结果确定目标用户的错题集；

根据所述错题集中的题目类型以及对应知识点，确定所述目标用户的智能讲解；

根据目标用户反馈，确定所述第一习题中的争议题目；

确定所述争议题目对应的争议类型，所述争议类型至少包括语义争议以及题目争议；

根据所述语义争议，确定所述争议题目对应的目标数据集；

对所述训练数据集进行修正，并通过修正后的目标数据集，对所述改进通用语言模型进行训练；

根据所述题目争议，在数据库中修改所述目标争议题目。

7.根据权利要求6所述的方法，其特征在于，所述生成所述目标用户的第二习题，具体包括：

根据所述错题集，确定各第一习题的平均正确率；

确定所述平均正确率低于预设阈值的目标习题，获取所述目标习题对应的目标知识点、能力项以及难度等级；

根据预设难度等级，以及所述目标知识点，生成第二习题。

8.根据权利要求1所述的方法，其特征在于，通过训练后的所述改进通用语言模型，生成目标用户的第一习题之前，所述方法还包括：

获取目标教材，并根据所述目标教材的教材目录作为数据集单位；

根据所述数据集单位，确定所述目标教材的知识点信息；

根据所述知识点信息收集习题，以使各数据集单位下的习题数目高于预设阈值；

生成各习题的习题标签，所述习题标签至少包括题干、答案、题解、知识点、难度、能力项。

9.一种基于语言模型的习题生成设备，其特征在于，包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行：

10.一种非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：