CN116860922A

CN116860922A - 一种基于指令引导大语言模型的自纠正智能教学辅助方法

Info

Publication number: CN116860922A
Application number: CN202310481102.9A
Authority: CN
Inventors: 侯珂珂; 周旭毓
Original assignee: Guangzhou Xinhua College
Current assignee: Guangzhou Xinhua College
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-10-10

Abstract

本发明提供一种基于指令引导大语言模型的自纠正智能教学辅助方法，包括：获取教学相关的海量数据对大语言模型进行分布式训练；通过随机抽样方式，从带标注的教学数据集中抽取部分作为指令集，使用指令集对大语言模型进行微调；将指令集中的每一个样本问题和对应的相关知识多次输入微调后的大语言模型，输出样本问题对应的多个候选答案；然后由人工对问题和候选答案进行排序，训练一个排序模型，排序模型用于对微调过的大语言模型生成的答案进行打分；最后通过策略梯度强化学习算法更新微调后的大语言模型的参数，从而得到一个回答较为精准的大语言模型。本发明构建基于大语言模型的智能教学辅助方法，可准确理解师生问题并保证生成答案的准确性。

Description

一种基于指令引导大语言模型的自纠正智能教学辅助方法

技术领域

本发明属于教学辅助技术领域，具体涉及一种基于指令引导大语言模型的自纠正智能教学辅助方法。

背景技术

智能教学辅助是指利用人工智能技术，如自然语言处理、机器学习、知识图谱等，为用户提供个性化、智能化、高效化的教学辅助服务，如智能问答、智能作业批改等，智能教学辅助能够有效地提高教学质量和学习效率，满足用户的个性化学习需求。

目前，已有一些基于人工智能技术的智能教学辅助系统或者平台出现，如Siri、Google Assistant、百度智能小程序等工具。这些系统或平台的背后原理是基于规则和语义检索的方式，针对提出问题，首先经过语义相似度检索的方式进行问题理解，找到最相似的问题，然后将存储的标准答案返回给用户。

现有的教辅类的系统，都是需要大量的人工接入，需要提前准备问题和答案库，这样会带来以下问题：

1、随着时代的变化，学生和老师面对的知识内容也在变化，所以问题和答案库也需要变化。

2、对老师和学生的问题可能存在语义理解错误或不准确的情况，因为人类的表达方式总是多变的，两句完全不同的表述，意思可能是一样的。但是如果问题理解错了，检索回来的答案也一定是错的，就会误导老师和学生。

3、对师生提出的问题，答案大多为人工整理，往往比较模板化，经常出现答案和问题不能完全匹配的情况，例如可能出现“小问题，大答案”的情况，即问题本身是一个小问题，但答案却给出了所有相关的知识，最后还是需要师生来决策，大大降低了辅助的作用。

另外现有的语言模型，具备了海量的知识储备，但是做不到和人类所需相匹配，其体现在两个方面：一是无法很好地理解人类表述；二是生成的回复不友好，往往是问题相关的内容而不是准确且具体的内容。

发明内容

针对现有技术的上述不足，本发明提供一种基于指令引导大语言模型的自纠正智能教学辅助方法，本发明解决了4个问题：第一，首先具备全人类的知识背景；第二，可准确理解师生问题并能生成具体到问题的答案；第三，保证生成答案的准确性；第四，可自动学习，具备自动升级的能力。

本发明提供一种基于指令引导大语言模型的自纠正智能教学辅助方法，包括：

获取教学相关的海量数据对大语言模型进行分布式训练；

通过教学平台搜集样本问题、问题相关知识以及样本答案，得到一个带有标注信息的教学数据集；

通过随机抽样方式，从带标注的教学数据集中抽取部分样本问题及其对应的相关知识和样本答案作为指令集，使用指令集对大语言模型进行微调；

将指令集中的样本问题和对应的相关知识多次输入微调后的大语言模型，输出样本问题对应的多个候选答案；

通过人工对样本问题的候选答案进行排序，得到针对样本问题附带候选答案排序的训练集，根据训练集训练一个排序模型sortModel，排序模型sortModel用于对微调过的大语言模型生成的答案进行打分；

将带有标注的教学数据集除去指令集后的剩余部分作为精调数据集，用来再次精调微调后的大语言模型的回答能力；对微调后的大语言模型输入精调数据集的样本问题并得到输出的测试答案，然后将样本问题和测试答案对输入排序模型sortModel，排序模型sortModel给出每个测试答案的评分，最后通过策略梯度强化学习算法更新微调后的大语言模型的参数，从而得到一个回答较为精准的大语言模型。

进一步的，还包括：

在大语言模型使用一段时间后，接收用户对于大语言模型输出答案的反馈；

根据用户反馈迭代训练sortModel，得到一个更强的排序模型sortModel_update；

基于排序模型sortModel_update更准确的评分能力，再次使用强化学习算法更新大语言模型的参数，使得大语言模型完成能力的升级。

进一步的，在大语言模型进行微调时输入样本问题的相关知识为解答这个问题所需要的知识点。

进一步的，所述样本问题是从教学过程保留的数据中筛选的，选取样本问题时要涉及每个年级和科目，保证数据来源的全面性以及筛选的随机性；

样本答案是由专业的教学人员针对具体的样本问题进行人工标注，同时还应标注出样本问题的相关知识。

进一步的，基于排序模型的评分能力，通过策略梯度强化学习算法更新大语言模型的参数。强化学习输入的精调数据集为教学数据集除去初次微调所用指令集之外的剩余数据，这些剩余数据同样包含：样本问题、问题相关知识、样本答案。

进一步的，在大语言模型供给师生使用时，获取师生提出的实时问题，然后将实时问题在互联网上进行知识检索，对检索结果进行知识抽取得到该实时问题的相关知识，然后输入大语言模型中，最后大语言模型给出精准的答案；在检索相关知识基础上，大语言模型是具备纠正能力的，不会产生毫无逻辑的错误答案。

本发明的有益效果在于：提供一种基于大语言模型的智能教学辅助方法，通过提取海量的知识储备构建大语言模型对师生的问题进行自动解答，经过指令引导和强化学习的方式，以强人工智能的模式辅助师生获取问题答案。除了初期需要针对少量的问题进行人工标注，后期仅需依靠大语言模型的自身学习能力以及排序模型的指导不断进化，实现了教学辅助工具的自动化升级，体现了前沿性。

此外该教学辅助系统为了保证知识的准确性，首先进行海量知识的学习储备，然后训练如何理解和回答师生问题，再通过互联网信息进行相关知识的辅助，从而保证了回复答案的准确性。

本发明面向教师和学生群体，能够有效地提高教学质量和学习效率，满足用户的个性化学习需求，促进用户知识及技能的获取和提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的方法的示意性流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面对本发明中出现的关键术语进行解释。

指令引导：师生对真实问题的表述，通常是指令的形式，如“解释一下什么是强化学习”，目的是让模型去理解人类的自然语言表达。

大语言模型：可根据上文自动生成下文且参数量在百亿以上的深度神经网络模型。

自纠正：在大语言模型的输入中加入互联网检索问题的相关知识，利用相关辅助模型理解问题或者进行回答，可以防止模型胡编乱造或者回答非事实信息。

如图1所示，本发明实施例提供一种基于指令引导大语言模型的自纠正智能教学辅助方法，包括：

S1、获取教学相关的海量数据对大语言模型进行分布式训练；

S2、通过教学平台搜集样本问题、问题相关知识以及样本答案，得到一个带有标注信息的教学数据集；

S3、通过随机抽样方式，从带标注的教学数据集中抽取部分样本问题及其对应的相关知识和样本答案作为指令集，使用指令集对大语言模型进行微调；

S4、将指令集中的样本问题和对应的相关知识多次输入微调后的大语言模型，输出样本问题对应的多个候选答案；

S5、通过人工对样本问题的候选答案进行排序，得到针对样本问题附带候选答案排序的训练集，根据训练集训练一个排序模型sortModel，排序模型sortModel用于对微调过的大语言模型生成的答案进行打分；

S6、将带有标注的教学数据集除去指令集后的剩余部分作为精调数据集，用来再次精调微调后的大语言模型的回答能力；对微调后的大语言模型输入精调数据集的样本问题并得到输出的测试答案；然后将样本问题和测试答案对输入排序模型sortModel，排序模型sortModel给出每个测试答案的评分；最后通过策略梯度强化学习算法更新微调后的大语言模型的参数，从而得到一个回答较为精准的大语言模型。

可选地，作为本申请的一种实施例，还包括：在大语言模型使用一段时间后，接收用户对于大语言模型输出答案的反馈；根据用户反馈迭代训练sortModel，得到一个更强的排序模型sortModel_update；基于排序模型sortModel_update更准确的评分能力，再次使用强化学习算法更新大语言模型的参数，使得大语言模型完成能力的升级。

可选地，作为本申请的一种实施例，在大语言模型进行微调时输入样本问题的相关知识为解答这个问题所需要的知识点或关键步骤。

可选地，作为本申请的一种实施例，所述样本问题是从教学过程保留的数据中筛选的，选取样本问题时要涉及每个年级和科目，保证数据来源的全面性以及筛选的随机性；

可选地，作为本申请的一种实施例，基于排序模型的评分能力，通过策略梯度强化学习算法更新大语言模型的参数。强化学习输入的精调数据集为教学数据集除去初次微调所用指令集之外的剩余数据，这些剩余数据同样包含：样本问题、问题相关知识、样本答案。

可选地，作为本申请的一种实施例，在大语言模型供给师生使用时，获取师生提出的实时问题，然后将实时问题在互联网上进行知识检索，对检索结果进行知识抽取得到该实时问题的相关知识，然后输入大语言模型中，最后大语言模型给出精准的答案；在检索相关知识基础上，大语言模型是具备纠正能力的，不会产生毫无逻辑的错误答案。

本发明实施例实现了将大语言模型生成的答案和师生的问题对齐，保证了模型生成答案的精确性，即答案恰好匹配问题。具体的过程如下：

大语言模型可以根据问题生成答案，而答案是否恰好匹配师生提出的问题，需要排序模型来进一步判定。通过强化学习算法，由排序模型来指导大语言模型该如何针对问题生成更为匹配的答案。

假如大语言模型生成的答案不好，例如面对“小问题”，却给出“大答案”时，得到的<问题，答案>对输入到排序模型中，会得到一个较低的得分，进而大语言模型通过梯度下降算法更新参数。更新后的大语言模型生成的结果，会使排序模型得到较高的分数，表示生成的答案比较符合该问题，即完成了答案和问题的对齐。

本发明面向教师和学生群体，目的是更好地辅助老师的备课过程，提高学生的主动学习能力，真正做到辅助教学全流程。为了便于对本发明的理解，下面结合实施例中对老师和学生群体使用智能教学辅助系统进行问答的过程，对本发明提供的自纠正智能教学辅助方法做进一步的描述。

具体的，所述自纠正智能教学辅助方法包括：

海量数据获取：通过网络爬虫技术，爬取全世界互联网数据、代码、书籍、文章、对话等海量数据，目前可以拿到万亿级以上Tokens的数据集D0。这些数据中包含世界上已经发生的事情、不同语言之间的翻译、人们所熟知的常识性知识、数理化问题和答案等，同时需要对这些知识进行问题和答案的归类，形成<样本问题，相关知识，样本答案>形式的海量记录，才能形成本发明所需的数据集D0。

预训练大语言模型M0：利用数据集D0中的海量数据通过分布式训练自回归大语言模型。目的是让大语言模型M0利用数据集D0巨大的参数量来记忆海量的世界知识。经过预训练的大语言模型M0具备一定的教学解答能力，但还不能很好地理解师生的指令，以及完整且正确地回答师生的问题。

因此，需要通过指令引导的方式微调大语言模型：对大语言模型进行优化，让大语言模型能更理解师生所表达的真实意思，同时生成更匹配问题的答案，具体方法如下。

首先搜集大量师生问题D_q，让标注人员写出对应样本答案以及相关知识，得到多组关于<样本问题，相关知识，样本答案>记录的教学集。相关知识是用于辅助模型更加准确地回答师生的问题，其中相关知识为解答这个问题所需要的知识点或者关键步骤，例如“什么是神经网络”，理解该问题所需要的知识点为其上级概念“神经元”，关键步骤为“解释概念——解释分类——列举应用实例”。

以目前涉及较多的线上教学为例，可以从以下几方面获取样本问题和样本答案。

样本问题D_q的获取方式：对在线直播授课平台中，学生实时提问的问题和老师的应对答案、讲解思路进行搜集；对学校使用的“学习通”、“超星”等教学平台中每门科目学生的历史提问问题和老师的解答内容进行搜集和获取，此外还可对教学平台中考前答疑问题、日常小测试题等数据进行搜集和获取。

在数据搜集和获取时，要注意科目尽可能丰富，样本问题需要涵盖所有科目。此外，对于数理化等推理要求比较严格的科目，题目占比要比文科类的问题多一些。选取样本问题时每个年级、每个科目都要兼顾。

在教学数据集中随机抽取一部分记录作为指令集，利用指令集中的<样本问题，相关知识，样本答案>更新迭代训练大语言模型MO，得到微调后的大语言模型M1。然后将这些样本问题，多次输入大语言模型M1，这样每个样本问题，在大语言模型M1会生成多个候选答案，得到一个未标注测试集D2：<样本问题1 ，候选答案1>，<样本问题1，候选答案2>……。这一步是让大语言模型M1更加理解师生的表达方式。

获取测试集D2，针对每个样本问题，由专业教学人员对候选答案进行排序，得到一个训练集D3，例如样本问题1的候选答案排序后为：<样本问题1，候选答案3，候选答案5，候选答案1，……>；然后由训练集D3训练排序模型sortModel。排序模型sortModel的输入是将问题和答案拼接在一起，即排序模型的输入是<问题，答案>对，例如<样本问题1，候选答案3>、<样本问题1，候选答案5>…<样本问题1，候选答案n>。排序模型的输出是一个可正可负的评分，正评分越大表示大语言模型M1输出候选答案越好，负分数表示大语言模型M1回答的不好，应该继续学习以生成更优的答案。

排序的人工标注可以由学生或者老师完成；排序的标准是师生认为模型对某个问题生成的多个答案的优劣程度，人工排序后的结果就是答案的优劣次序。

此外针对每个问题进行答案排序时，需要多人参与产生足够多的样本，以此来避免由人工标注的答案带有个人喜好。

相比于打分反馈，通过排序模型对大语言模型生成答案进行评价的好处在于，可以实现训练排序模型自动分析答案优劣的相对性，避免标注人员的个性化影响。例如当向大语言模型M1输入“你怎么向初中生解释神经网络？”，大语言模型M1生成A、B、C、D、E五个候选答案，假设每个答案最高给十分。

标注人员1的打分情况为：A、1分，B、6分，C、8分，D、5分；E、3分，此时标注排序：C>B>D>E>A；

标注人员2的打分情况为：A、2分，B、7分，C、9分，D、4分，E、3分，此时标注排序为C>B>D>E>A；

所以即使两个标注人员的打分不同，但是答案之间相对优劣的排序结果是一致的，不影响最优答案的选择。

通过策略梯度强化学习算法，利用排序模型sortModel指导微调后的大语言模型M1学习如何更好地生成匹配问题的答案。强化学习模块的输入数据为教学数据集除去指令集D1所用到的样本问题之外的剩余样本问题，这部分剩余样本问题并没有进行人工标注相关知识，作为精调数据集DQ输入排序模型sortModel。

在强化学习过程中，本发明提供一个互联网检索的功能，对精调数据集DQ的样本问题进行互联网检索，然后把TopK个检索结果进行知识抽取作为这些样本问题的相关知识，与样本问题一起输入到大语言模型M1中。这一步是为了防止大语言模型违背事实胡编答案，保证大语言模型输出答案是正确且符合逻辑的。

在利用强化学习更新大语言模型M1时，将排序模型sortModel的评分和大语言模型M1的损失函数按权重进行结合，将精调数据集输入排序模型sortModel和大语言模型M1，对大语言模型M1进行梯度更新。在本实施例中，经过强化学习更新后的大语言模型M1定义为大语言模型M2，此时的大语言模型M2可以非常准确地理解师生的问题，并且生成匹配问题的答案。此时的大语言模型M2可以封装成一个可交互的教学辅助系统，以辅助师生的教学及学习过程。本发明具有很强的实用创新性，本发明中可交互的教学辅助系统，是通过预训练大语言模型来实现的，无需大量人工介入，可实现自主能力迭代升级，可利用互联网信息辅助答案生成，让生成的答案即准确又符合师生所需要的形式。

至此，本发明提供的方法可以实现一个纯智能化的教学辅助系统，并且能力可以通过强化学习的方式自主进化，从而为师生提供长期优质服务。具体包括：

在大语言模型M2的使用过程中，智能教学辅助系统后台会统计师生的问题，相对应的大语言模型M2回复的答案，以及师生对答案的反馈，例如<实际问题、回复答案、满意程度>的数据集D4。

模型能力自动升级：对数据集D4进行数据预处理得到数据集D5，数据预处理包括：将实质相同的实际问题进行人工合并，以及针对同一实际问题的所有回复答案进行满意程度的排序。利用数据集D5继续迭代训练排序模型sortModel，从而得到一个更强的指导模型sortModel_update；然后再通过强化学习的方式，由更强的指导模型sortModel_update来指导大语言模型M2；对大语言模型M2进行定期更新，使得大语言模型M2能够更好地理解问题，并进行更加精准地回复。

具体地,在利用数据集D5继续训练排序模型sortModel时，训练排序模型sortModel输入的依旧是问题和答案拼接在一起的数据对，即<问题，答案>对的格式，例如<实际问题1，回复答案3>、<实际问题1，回复答案5>…<实际问题1，回复答案n>。通过上述迭代训练使得排序模型sortModel输出的评分符合反馈的满意程度，进而得到一个能力升级的排序模型sortModel_update。

需要说明的是，在本发明实施例中强化学习算法可以是PPO（Proximal PolicyOptimization）算法，也可以是其他策略梯度优化的方法。大语言模型的模型结构可以是Transformer-Decoder的结构，也可以是Encoder-Decoder的结构，甚至是其他深度神经网络变种。而排序模型可以和大语言模型的主题结构一样，也是Transformer-Decoder或者Encoder-Decoder的深度神经网络结构，只不过在最后一层添加一个维度为1的全连接神经网络。

在本发明中，虽然排序模型在整个大语言模型训练中起到一个指导作用，但是具备足够的知识储备的排序模型才能起到准确评价的作用，因此本发明的排序模型的结构也需要和大语言模型的结构同样庞大，即排序模型本身也需要足够多的网络参数从而支撑得起海量的知识储备。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于指令引导大语言模型的自纠正智能教学辅助方法，其特征在于，包括：

获取教学相关的海量数据对大语言模型进行分布式训练；

将带有标注的教学数据集除去指令集后的剩余部分作为精调数据集，用来再次精调微调后的大语言模型的回答能力；对微调后的大语言模型输入精调数据集的样本问题并得到输出的测试答案；然后将样本问题和测试答案对输入排序模型sortModel，排序模型sortModel给出每个测试答案的评分；最后通过策略梯度强化学习算法更新微调后的大语言模型的参数，从而得到一个回答较为精准的大语言模型。

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，在大语言模型进行微调时输入样本问题的相关知识为解答这个问题所需要的知识点或关键步骤。

4.根据权利要求1所述的方法，其特征在于，所述样本问题是从教学过程保留的数据中筛选的，选取样本问题时要涉及每个年级和科目，保证数据来源的全面性以及筛选的随机性；

5.根据权利要求1所述的方法，其特征在于，基于排序模型的评分能力，通过策略梯度强化学习算法更新大语言模型的参数；强化学习输入的精调数据集为教学数据集除去初次微调所用指令集之外的剩余数据，这些剩余数据同样包含：样本问题、问题相关知识、样本答案。

6.根据权利要求1所述的方法，其特征在于，在大语言模型供给师生使用时，获取师生提出的实时问题，然后将实时问题在互联网上进行知识检索，对检索结果进行知识抽取得到该实时问题的相关知识，然后输入大语言模型中，最后大语言模型给出精准的答案；在检索相关知识基础上，大语言模型是具备纠正能力的，不会产生毫无逻辑的错误答案。