CN116910185B

CN116910185B - 模型训练方法、装置、电子设备及可读存储介质

Info

Publication number: CN116910185B
Application number: CN202311147497.5A
Authority: CN
Inventors: 于皓; 张�杰
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2023-11-28
Anticipated expiration: 2043-09-07
Also published as: CN116910185A

Abstract

本发明提供一种模型训练方法、装置、电子设备及可读存储介质，涉及自然语言处理技术领域。该方法包括：获取第一文本数据集；获取每个第一指令任务的层次等级；基于第一文本数据集中第一训练数据集，对第一模型进行训练，第一训练数据集包括第一层次等级的第一指令任务的表述文本；在针对第一层次等级的第一指令任务对第一模型的训练结束的情况下，基于第一文本数据集中第一验证数据集，对第一模型的训练达标情况进行评估；在训练达标情况评估不通过的情况下，基于第一文本数据集中第二训练数据集，从第二层次等级开始按照层次等级在认知难度上从低至高的顺序对第一模型进行继续训练。本发明可以提高大模型对指令任务的处理准确性。

Description

模型训练方法、装置、电子设备及可读存储介质

技术领域

本发明实施例涉及自然语言处理技术领域，尤其涉及一种模型训练方法、装置、电子设备及可读存储介质。

背景技术

随着自然语言处理（Natural Language Processing，NLP）技术的快速发展，大模型得到了广泛的应用。大模型通过对输入的指令任务进行自然语言处理，其输出结果可以符合人类的行为规范和交互模式，从而实现人机交互。

大模型在人机交互前，通常需要进行训练。通过海量的文本数据，利用自回归的学习模式，构建预训练模型，使预训练模型中具有丰富的知识；通过指令任务的文本数据，对预训练模型进行微调，让预训练模型学习如何利用知识解决实际的指令任务，从而大大提升大模型解决指令任务的能力。

目前，对预训练模型进行微调时，通常是随机选择指令任务的文本数据，这样可能会导致大模型在微调过程中存在灾难性知识的遗忘问题，模型训练的效果会比较差。

发明内容

本发明实施例提供一种模型训练方法、装置、电子设备及可读存储介质，以解决现有技术中大模型在微调过程中存在灾难性知识的遗忘问题，模型训练的效果比较差。

第一方面，本发明实施例提供一种模型训练方法，所述方法包括：

获取第一文本数据集，所述第一文本数据集包括多个第一指令任务的表述文本；

获取每个第一指令任务的层次等级，所述层次等级用于指示所述第一指令任务在自然语言处理的认知难度；

基于所述第一文本数据集中第一训练数据集，对第一模型进行训练，所述第一训练数据集包括第一层次等级的第一指令任务的表述文本，所述第一模型用于对输入的指令任务进行自然语言处理；

在针对所述第一层次等级的第一指令任务对所述第一模型的训练结束的情况下，基于所述第一文本数据集中第一验证数据集，对所述第一模型的训练达标情况进行评估；所述第一验证数据集包括第一目标层次等级的第一指令任务的表述文本，所述第一目标层次等级包括所述第一层次等级和低于所述第一层次等级的第二层次等级，所述训练达标情况用于表征所述第一模型对所述第一目标层次等级的第一指令任务的自然语言处理结果是否达到预设期望指标；

在所述训练达标情况评估不通过的情况下，基于所述第一文本数据集中第二训练数据集，从所述第二层次等级开始按照层次等级在认知难度上从低至高的顺序对所述第一模型进行继续训练；所述第二训练数据集包括所述第二层次等级的第一指令任务的表述文本。

第二方面，本发明实施例提供一种模型训练装置，所述装置包括：

第一获取模块，用于获取第一文本数据集，所述第一文本数据集包括多个第一指令任务的表述文本；

第二获取模块，用于获取每个第一指令任务的层次等级，所述层次等级用于指示所述第一指令任务在自然语言处理的认知难度；

第一训练模块，用于基于所述第一文本数据集中第一训练数据集，对第一模型进行训练，所述第一训练数据集包括第一层次等级的第一指令任务的表述文本，所述第一模型用于对输入的指令任务进行自然语言处理；

第一评估模块，用于在针对所述第一层次等级的第一指令任务对所述第一模型的训练结束的情况下，基于所述第一文本数据集中第一验证数据集，对所述第一模型的训练达标情况进行评估；所述第一验证数据集包括第一目标层次等级的第一指令任务的表述文本，所述第一目标层次等级包括所述第一层次等级和低于所述第一层次等级的第二层次等级，所述训练达标情况用于表征所述第一模型对所述第一目标层次等级的第一指令任务的自然语言处理结果是否达到预设期望指标；

第二训练模块，用于在所述训练达标情况评估不通过的情况下，基于所述第一文本数据集中第二训练数据集，从所述第二层次等级开始按照层次等级在认知难度上从低至高的顺序对所述第一模型进行继续训练；所述第二训练数据集包括所述第二层次等级的第一指令任务的表述文本。

第三方面，本发明实施例提供一种电子设备，包括处理器，存储器，存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述模型训练方法的步骤。

第四方面，本发明实施例提供一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述模型训练方法的步骤。

本发明实施例中，通过将指令任务从认知难度上进行层次等级的划分，并在第一模型学习好高层次等级的指令任务的处理后，通过进行第一模型对低层次等级指令任务的训练达标情况的评估，并在评估不通过的情况下，采用自回忆机制从训练不达标的低层次等级开始，按照层次等级在认知难度上从低至高的顺序进行第一模型的继续训练。如此，可以从低层次等级的处理能力到高层次等级的处理能力无损地迭代微调大模型，使大模型可以持续增加各类指令任务的解决能力而不发生知识遗忘，从而可以提高大模型的训练效果，进而可以提高大模型对指令任务的处理准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获取其他的附图。

图1是本发明实施例提供的模型训练方法的流程示意图；

图2是本发明实施例提供的模型训练装置的结构示意图；

图3是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例提供的模型训练方法涉及自然语言处理技术领域，其可以广泛应用于金融领域、人工智能领域等各个领域。比如，应用于金融领域时，其指令任务可以涉及金融方面的知识，例如指令任务“收取客户的砍头息这种行为是否符合金融法律法规”。又比如，应用于人工智能领域时，其指令任务可以涉及行为指令和问答指令，例如可以应用于机器人中，可以输入指令，以使机器人执行相应的任务。

对于NLP的大模型，为了使其能进行相应应用，需要对其进行训练，其大模型的构建过程如下：

（1）通过海量的文本数据，利用自回归的学习模式，构建预训练模型，使预训练模型中具有丰富的知识；

（2）通过指令任务的文本数据，对预训练模型进行微调，让预训练模型学习如何利用知识解决实际的指令任务，从而大大提升大模型解决指令任务的能力；

（3）通过人机交互的强化学习的学习模式，使大模型的输出结果符合人类的行为规范和交互模式。

本发明实施例的模型训练主要涉及第（2）阶段的过程，即在预训练的基础上，对大模型进行微调，以提升大模型解决指令任务的能力。

目前，对预训练模型进行微调时，通常是随机选择指令任务的文本数据，这样会导致为了得到具有更复杂指令任务的处理能力的大模型，会对低复杂度指令任务的处理能力进行抑制削弱，可能会导致大模型在微调过程中存在灾难性知识的遗忘问题，模型训练的效果会比较差。

并且，指令任务的生成过程缺乏系统性和逻辑性，其主要的生成方式分为两种，其一是组织多人进行构建，由于大部分标注人员非NLP专家人员，对NLP缺乏系统性的思维，导致生成的指令任务存在随机性，同时该方法费事费力。其二是通过人工构建数百个种子指令，借助于大模型对种子指令进行扩展丰富，同样由于大模型对NLP的指令任务也缺乏系统性的理解，在生成的指令任务中存在严重的同质化现象，无法生成系统化的指令任务，且生成的指令任务单一，缺乏任务指令间的逻辑性，从而通过这些指令任务的学习，大模型很难学到指令任务之间的逻辑性。

进一步的，人为目标是解决更复杂问题，从而大模型的优化方向也是解决更复杂的指令任务，从而会导致大模型会忽略简单任务的解决，直接建立了从知识到复杂任务的推理过程，而不是从知识到简单任务再到复杂任务的内在逻辑性学习，所以大模型在微调过程中，普遍存在“对齐税”现象，即存在灾难性知识的遗忘问题。

而本发明实施例的目的即在于避免“对齐税”现象，使大模型的处理能力可以不断迭代增加，从而可以持续无损学习，能力不断得到增强。

下面对本发明实施例提供的模型训练方法进行详细说明。

参见图1，图中示出了本发明实施例提供的模型训练方法的流程示意图。如图1所示，该方法可以包括如下步骤：

步骤101，获取第一文本数据集，所述第一文本数据集包括多个第一指令任务的表述文本。

本发明实施例中，模型训练方法涉及自然语言处理技术领域，其可以广泛金融场景和人工智能等各个场景下。本公开实施例的模型训练方法，可以由本公开实施例的模型训练装置执行。本公开实施例的模型训练装置可以配置在任意电子设备中，以执行本公开实施例的模型训练方法。

指令任务为指令型任务，其实质是输入指令，使得大模型利用学到的知识进行自然语言处理，实现相应任务。比如，指令任务“找出下面两句话中存在一词多义的词语”，又比如，“请针对月亮为主题，写一首浪漫的诗歌”。

第一指令任务可以由文本来描述，第一指令任务的表述文本即为第一指令任务的指令描述信息。第一指令任务可以为单一维度的指令任务，比如，指令任务“对输入的语句进行分词”，“对输入的文本进行分类”，第一指令任务也可以为多维度的指令任务，比如，指令任务“对输入的语句进行分词，统计词的个数”，其中该指令任务可以涉及分词任务和统计任务，“对输入的语句进行分词，如果有实体，则输出实体类型”，其中该指令任务可以涉及分词任务和实体识别任务。

第一文本数据集可以由用户标注得到，比如，NLP专家梳理指令任务的体系，建立系统化和完备性的指令任务体系，第一文本数据集可以包括该指令任务体系中的指令任务，也可以由大模型构建生成，比如，专家构建种子指令，由大模型基于种子指令进行扩展丰富，生成多个指令任务，亦或是两者结合，这里不进行具体限定。

步骤102，获取每个第一指令任务的层次等级，所述层次等级用于指示所述第一指令任务在自然语言处理的认知难度。

可以借鉴于布鲁姆的认知体系，将NLP的指令任务划分为记忆、理解、简单推理、复杂推理、评价证明和创造六个层次等级：

记忆：指的是认识并记忆概念、知识，将其储存在大模型中并可随时提取，其中NLP指令任务中涉及到的事实知识、概念等隶属于该范畴，例如中国的首都是北京，某某的身高是2米26等都属于记忆性知识，又例如成语填空，给定诗词上半句让大模型补充下半句都属于记忆范畴的NLP指令任务。

理解：指的是对事物或知识的领会，自然语言理解（Natural LanguageUnderstanding，NLU）涉及的范围较广，但这里涉及的理解通常是浅层的，主要是建立新旧知识之间的关联性，例如将一句话变换为被动句、列出一句话的主语、识别一句话的实体等指令任务都属于理解的层次等级。

简单推理：是指对所学习的概念、法则、原理的运用，体现了把学到的知识应用于新的情境、解决实际问题的能力。例如多跳问答“某某的女儿出生在哪里？”、阅读理解等指令任务。

复杂推理：指的是把复杂知识整体分解为组成部分并理解各部分之间联系的能力，例如指令任务“找出下面两句话中存在一词多义的词语”，该任务涉及到首先要理解一词多义的含义，再对两个语句进行分词，之后找到字符层面完全相同的两个词语，判定这两个字符在各自句子中表现出的语义是否相同。

评价证明：指的是综合内在与外在的资料、信息，作出符合客观事实的推断。对NLP的指令任务，可以给出客观的评价和对应的依据，例如指令任务：“收取客户的砍头息这种行为是否符合金融法律法规”。

创造：指的是将所学知识重新组合，或者加入自己产生的信息，形成一个新的整体的能力，例如指令任务“请针对月亮为主题，写一首浪漫的诗歌。”

这六个层次等级在认知难度上从低到高排序为记忆、理解、简单推理、复杂推理、评价证明和创造，即记忆在认知难度上最简单，而创造在认知难度上最复杂。

可以由用户借鉴于布鲁姆的认知体系按照上述六个层次等级进行第一指令任务的层次等级标注，也可以由大模型按照上述六个层次等级进行第一指令任务的层次等级标注，亦或是两者结合进行第一指令任务的层次等级标注，这里不进行具体限定。

该步骤中，通过获取每个第一指令任务的层次等级，这样在第一模型即大模型针对指令任务的微调过程中，可以对大模型的处理能力在认知难度上从低到高的顺序进行不断迭代增加。

步骤103，基于所述第一文本数据集中第一训练数据集，对第一模型进行训练，所述第一训练数据集包括第一层次等级的第一指令任务的表述文本，所述第一模型用于对输入的指令任务进行自然语言处理。

第一模型可以为大模型，即进行自然语言处理的模型，第一模型可以为预训练好的模型。

第一层次等级可以为最低的层次等级，即记忆的层次等级。也可以为其他的层次等级。

可以按照层次等级在认知难度上从低到高的顺序对第一模型进行迭代训练，即先基于低层次等级的第一指令任务，对第一模型进行训练，在第一模型对低层次等级的指令任务的处理学习完成的情况下，再基于高层次等级的第一指令任务，对第一模型进行继续训练。

当训练到第一层次等级时，可以基于第一文本数据集中第一训练数据集，对第一模型进行训练。其中，第一训练数据集可以包括第一层次等级的第一指令任务的表述文本，即基于第一层次等级的第一指令任务，对第一模型进行训练。

具体的，可以将第一层次等级的第一指令任务的表述文本输入至第一模型进行自然语言处理，使得大模型可以学习到第一层次等级的第一指令任务的处理逻辑，并调整大模型的参数。

可以从第一文本数据集中获取第一层次等级的多个第一指令任务，得到第一训练数据集，也可以将第一文本数据集进行划分，分为训练数据集、验证数据集和测试数据集，相应可以从训练数据集中获取第一层次等级的多个第一指令任务，得到第一训练数据集。

其中，训练数据集用于训练第一模型。验证数据集用于对第一模型的训练达标情况进行评估，以调整训练数据集进行继续训练，具体可以调整第一指令任务的层次等级，比如，若训练达标情况评估通过，则基于更高层次等级的第一指令任务的表述文本对第一模型进行继续训练，若训练达标情况评估不通过，则采用自回忆机制基于已训练的低层次等级的第一指令任务的表述文本对第一模型进行重新训练。测试数据集用于对第一模型的验证达标情况进行评估，以确定第一模型的训练是否成功。

在大模型微调过程的每个训练周期（epoch）结束，或者第一训练数据集训练完成的情况下，可以确定针对所述第一层次等级的第一指令任务对第一模型的训练结束。

步骤104，在针对所述第一层次等级的第一指令任务对所述第一模型的训练结束的情况下，基于所述第一文本数据集中第一验证数据集，对所述第一模型的训练达标情况进行评估；所述第一验证数据集包括第一目标层次等级的第一指令任务的表述文本，所述第一目标层次等级包括所述第一层次等级和低于所述第一层次等级的第二层次等级，所述训练达标情况用于表征所述第一模型对所述第一目标层次等级的第一指令任务的自然语言处理结果是否达到预设期望指标。

大模型微调过程的每个epoch结束，可以确定当前训练的指令任务的层次等级，选取当前训练的指令任务的层次等级和低于该层次等级的多个第一指令任务对第一模型进行测试，获得当前层次等级和低层次等级的指令任务的评估指标情况，基于该评估指标情况对第一模型的训练达标情况进行评估。其中，评估指标可以指的是任务处理的准确率（ACC）和任务处理的综合分数（F1）等。

可以从第一文本数据集中获取第一目标层次等级的多个第一指令任务，得到第一验证数据集，也可以将第一文本数据集进行划分，分为训练数据集、验证数据集和测试数据集，相应可以从验证数据集中获取第一目标层次等级的多个第一指令任务，得到第一验证数据集。

其中，第一目标层次等级可以包括第一层次等级和低于第一层次等级的各第二层次等级。比如，第一层次等级为“理解”的层次等级，则第一目标层次等级则包括“理解”和“记忆”的层次等级，第一层次等级为“简单推理”的层次等级，第一目标层次等级则包括“简单推理”、“理解”和“记忆”的层次等级。

可选的，所述步骤104具体包括：

将所述第一验证数据集输入至所述第一模型进行自然语言处理；

统计所述第一模型对所述第一目标层次等级的第一指令任务的处理情况，得到所述第一层次等级对应的评估指标值和所述第二层次等级对应的评估指标值；

在所述第二层次等级对应的评估指标值低于第一预设阈值的情况下，确定所述第一模型的训练达标情况评估不通过；

在所述第一层次等级对应的评估指标值高于第二预设阈值，以及所述第二层次等级对应的评估指标值高于第三预设阈值的情况下，确定所述第一模型的训练达标情况评估通过，所述第三预设阈值大于所述第一预设阈值。

其中，第一预设阈值、第二预设阈值和第三预设阈值可以根据实际情况进行设置，这里不进行具体限定，第一预设阈值小于第三预设阈值。

在第二层次等级对应的评估指标值低于第一预设阈值的情况下，表明第一模型对第二层次等级的第一指令任务的处理结果的指标下降较显著，确定第一模型的训练达标情况评估不通过，需要重新进入到包括第二层次等级的第一指令任务的第二训练数据集中并优先进行训练，直到指标回归正常水平，即利用自回忆机制重新训练低层次等级的指令任务，使得第一模型建立从知识到简单任务再到复杂任务的内在逻辑性学习。

步骤105，在所述训练达标情况评估不通过的情况下，基于所述第一文本数据集中第二训练数据集，从所述第二层次等级开始按照层次等级在认知难度上从低至高的顺序对所述第一模型进行继续训练；所述第二训练数据集包括所述第二层次等级的第一指令任务的表述文本。

按照层次等级在认知难度上从低至高的顺序依次迭代进行第一模型的训练，直到第一文本数据集训练完成，所有指令任务的测评指标都达到预设期望指标，从而可以获得具有多层次等级的任务解决能力的大模型。这样在大模型的微调过程中，可以避免“对齐税”现象，使大模型的知识和处理能力可以不断迭代增加，从而可以从低层次等级到高层次等级指令任务的处理持续无损学习，处理能力不断得到增强。

本实施例中，通过将指令任务从认知难度上进行层次等级的划分，并在第一模型学习好高层次等级的指令任务的处理后，通过进行第一模型对低层次等级指令任务的训练达标情况的评估，并在评估不通过的情况下，采用自回忆机制从训练不达标的低层次等级开始，按照层次等级在认知难度上从低至高的顺序进行第一模型的继续训练。如此，可以从低层次等级的处理能力到高层次等级的处理能力无损地迭代微调大模型，使大模型可以持续增加各类指令任务的解决能力而不发生知识遗忘，从而可以提高大模型的训练效果，进而可以提高大模型对指令任务的处理准确性。

在第一层次等级对应的评估指标值高于第二预设阈值，以及第二层次等级对应的评估指标值高于第三预设阈值的情况下，表明当前层次等级和低层次等级的第一指令任务的自然语言处理结果均已达到预设期望指标，可以确定第一模型的训练达标情况评估通过。可选的，所述方法还包括：

在所述训练达标情况评估通过，且在所述第一层次等级之上还存在第三层次等级的情况下，基于所述第一文本数据集中第三训练数据集，从所述第三层次等级开始按照层次等级在认知难度上从低至高的顺序对所述第一模型进行继续训练；

其中，所述第三训练数据集包括第三层次等级的第一指令任务的表述文本，所述第三层次等级在认知难度上比所述第一层次等级高一层次等级。

本实施方式中，通过在第一模型针对第一目标层次等级的训练达标情况评估通过的情况下，从第三层次等级开始，基于相应层次等级的第一指令任务的表述文本继续训练第一模型，以提高第一模型对相应层次等级的第一指令任务的处理能力，这样可以提高第一模型对更高层次等级的指令任务的处理能力，使得第一模型的处理能力不断得到增强。

其中，第三训练数据集可以包括第三层次等级的第一指令任务的表述文本，以及还可以包括更高层次等级的第一指令任务的表述文本。其获取方式可以与第一训练数据集和第二训练数据集的获取方式类似，这里不进行赘述。

可选的，所述方法还包括：

在所述训练达标情况评估通过，且所述第一层次等级为认知难度上最高的层次等级的情况下，基于所述第一文本数据集中测试数据集，对所述第一模型的验证达标情况进行评估；

在所述验证达标情况评估通过的情况下，确定所述第一模型训练成功；

其中，所述测试数据集包括认知难度上的各个层次等级的第一指令任务的表述文本，所述验证达标情况用于表征所述第一模型对各个层次等级的第一指令任务的自然语言处理结果是否达到预设期望指标。

在第一层次等级为最高层次等级，如“创造”的层次等级的情况下，可以基于测试数据集对第一模型进行测试，以评估第一模型的验证达标情况，确定第一模型的训练是否成功。

具体可以将测试数据集输入至第一模型进行自然语言处理；统计第一模型对各个层次等级的第一指令任务的处理情况，得到各个层次等级的评估指标值；在各个层次等级的评估指标值均达到预设期望指标时，确定验证达标情况评估通过，相应确定第一模型训练成功。如此，可以获得具有多层次等级的任务解决能力的大模型，使大模型持续增加各类指令任务的解决能力而不发生知识遗忘。

可选的，所述方法还包括：

基于所述第一指令任务的层次等级，按照认知难度从低至高的顺序对所述第一文本数据集中的表述文本进行排序；

将排序好的所述第一文本数据集进行集合划分；其中，所划分的集合包括训练数据集和验证数据集，所划分的集合中均包括认知难度上的各个层次等级的第一指令任务的表述文本；

从所述训练数据集中获取所述第一训练数据集和第二训练数据集，以及从所述验证数据集中获取所述第一验证数据集。

本实施方式中，可以将第一文本数据集，按照层次等级从低至高的顺序进行排序，形成第一模型的微调指令集合，并将其分为训练数据集、验证数据集和测试数据集。

本实施方式中，通过将第一指令任务按照层次等级进行排序，匹配按照层次等级从低至高的顺序对第一模型的训练过程，可以更加方便地获取第一模型训练过程中相应层次等级的训练数据集。

第一指令任务可以为多维度的指令任务。可选的，所述步骤101具体包括：

获取第二文本数据集，所述第二文本数据集包括多个第二指令任务的表述文本；

基于所述第二文本数据集中每个第二指令任务的表述文本，获取至少一个所述第一指令任务的表述文本；所述第一指令任务为N个任务维度上的指令任务，所述N个任务维度包括所述第二指令任务的任务维度，N为大于1的整数；

将至少一个所述第一指令任务的表述文本聚合至所述第二文本数据集，得到所述第一文本数据集。

第二指令任务可以为单一维度的指令任务，NLP专家梳理指令任务的体系，建立系统化和完备性的指令任务体系，第二文本数据集可以包括该指令任务体系中的指令任务。

可以基于第二指令任务由用户来构建多种任务结合的指令任务，从而得到多维度的第一指令任务，也可以基于第二指令任务，通过大模型如chatGPT、GPT4等来扩展生成多维度的第一指令任务，还可以结合上述两种方式即人机协同的方式来获取多维度的第一指令任务。相应的，可以将第一指令任务聚合至第二文本数据集中，得到第一文本数据集。

可选的，所述基于所述第二文本数据集中每个第二指令任务的表述文本，获取至少一个所述第一指令任务的表述文本，包括：

获取任务提示模板，所述任务提示模板包括主体指令、目标指令列表和输入文本，所述主体指令为所述第二指令任务的摘要描述信息，所述目标指令列表包括M种类型的指令任务的摘要描述信息，M为正整数；

将所述任务提示模板输入至第二模型进行自然语言处理，输出至少一个所述第一指令任务的表述文本；

其中，所述N个任务维度包括所述第二指令任务的任务维度和所述M种类型的指令任务中至少一种类型的指令任务的任务维度。

本实施方式中，可以构建指令任务的任务提示模板（prompt），借助于大模型扩展生成更加丰富的候选指令任务，prompt的范例如下：

“请根据主体指令，对下面的输入结合可用的指令列表，创造性生成更加丰富的指令任务。

#主体指令#：分词任务

#指令列表：[分词、实体识别、关系抽取、主语识别、动宾关系抽取、情感分类、…]

#input#：地区A是中国不可分割的一部分

请输出json格式：{指令名称：指令描述}

输出10个指令任务

#output#：”

其中，上述prompt中，“分词任务”为第二指令任务的摘要描述信息，指令列表为目标指令任务，“实体识别、关系抽取”等均为指令任务的摘要描述信息，即实体识别任务、关系抽取任务。“地区A是中国不可分割的一部分”为输入文本。

第二模型可以为chatGPT、GPT4等大模型，可以将任务提示模板输入至第二模型进行自然语言处理，输出至少一个所述第一指令任务的表述文本，如上述prompt中，可以输出10个第一指令任务，这10个第一指令任务是结合分词任务和目标指令列表中其他类型的指令任务的多维度任务。

获取用户输入的至少一个所述第一指令任务的表述文本，所述第一指令任务的表述文本是用户基于所述第二文本数据集中所述第二指令任务的表述文本构建的。

针对第二文本数据集中每一类型的任务，用户可以构建多维度的指令任务范例，例如针对分词任务，可以设计如下多种任务结合的指令任务：

对输入的语句进行分词，统计词的个数；

对输入的语句进行分词，输出最重要的词；

对输入的语句进行分词，按照列表的形式组织输出；

对输入的语句进行分词，对词语的重要性进行排序；

对输入的语句进行分词，只输出实体类型的词语；

对输入的语句进行分词，只输出动词；

对输入的语句进行分词，只输出主语；

对输入的语句进行分词，只输出动宾关系的词语；

对输入的语句进行分词，把主语替换成符号“###”；

对输入的语句进行分词，如果有实体，则输出实体类型；

对输入的语句进行分词，按照词性进行归类输出；

对输入的语句进行分词，把第一个词翻译成英文；

对输入的语句进行分词，用最重要的3个词造句；

对输入的语句进行分词，输出最重要的词语和对应的拼音；

对输入的语句进行分词，输出最相似的两个词语；

对输入的语句进行分词，输出最长的一个词语，并把词语的token进行倒序输出。

可以对大模型生成的指令任务进行筛选，并融合到用户构建的指令任务中，之后将其聚合至第二文本数据集，得到第一文本数据集。如此，可以生成多维度的指令任务，即保证了任务指令的多样性，又建立了任务指令间的内生逻辑关系。使得大模型可以学习到任务指令间的逻辑性，并进行从知识到简单任务再到复杂任务的内在逻辑性学习。

下面对本发明实施例提供的模型训练装置进行说明。

参见图2，图中示出了本发明实施例提供的模型训练装置的结构示意图。如图2所示，模型训练装置200包括：

第一获取模块201，用于获取第一文本数据集，所述第一文本数据集包括多个第一指令任务的表述文本；

第二获取模块202，用于获取每个第一指令任务的层次等级，所述层次等级用于指示所述第一指令任务在自然语言处理的认知难度；

第一训练模块203，用于基于所述第一文本数据集中第一训练数据集，对第一模型进行训练，所述第一训练数据集包括第一层次等级的第一指令任务的表述文本，所述第一模型用于对输入的指令任务进行自然语言处理；

第一评估模块204，用于在针对所述第一层次等级的第一指令任务对所述第一模型的训练结束的情况下，基于所述第一文本数据集中第一验证数据集，对所述第一模型的训练达标情况进行评估；所述第一验证数据集包括第一目标层次等级的第一指令任务的表述文本，所述第一目标层次等级包括所述第一层次等级和低于所述第一层次等级的第二层次等级，所述训练达标情况用于表征所述第一模型对所述第一目标层次等级的第一指令任务的自然语言处理结果是否达到预设期望指标；

第二训练模块205，用于在所述训练达标情况评估不通过的情况下，基于所述第一文本数据集中第二训练数据集，从所述第二层次等级开始按照层次等级在认知难度上从低至高的顺序对所述第一模型进行继续训练；所述第二训练数据集包括所述第二层次等级的第一指令任务的表述文本。

可选的，所述第一获取模块201包括：

第一获取单元，用于获取第二文本数据集，所述第二文本数据集包括多个第二指令任务的表述文本；

第二获取单元，用于基于所述第二文本数据集中每个第二指令任务的表述文本，获取至少一个所述第一指令任务的表述文本；所述第一指令任务为N个任务维度上的指令任务，所述N个任务维度包括所述第二指令任务的任务维度，N为大于1的整数；

聚合单元，用于将至少一个所述第一指令任务的表述文本聚合至所述第二文本数据集，得到所述第一文本数据集。

可选的，所述第二获取单元，具体用于：

可选的，所述装置还包括：

排序模块，用于基于所述第一指令任务的层次等级，按照认知难度从低至高的顺序对所述第一文本数据集中的表述文本进行排序；

集合划分模块，用于将排序好的所述第一文本数据集进行集合划分；其中，所划分的集合包括训练数据集和验证数据集，所划分的集合中均包括认知难度上的各个层次等级的第一指令任务的表述文本；

第三获取模块，用于从所述训练数据集中获取所述第一训练数据集和第二训练数据集，以及从所述验证数据集中获取所述第一验证数据集。

可选的，所述装置还包括：

第三训练模块，用于在所述训练达标情况评估通过，且在所述第一层次等级之上还存在第三层次等级的情况下，基于所述第一文本数据集中第三训练数据集，从所述第三层次等级开始按照层次等级在认知难度上从低至高的顺序对所述第一模型进行继续训练；

可选的，所述装置还包括：

第二评估模块，用于在所述训练达标情况评估通过，且所述第一层次等级为认知难度上最高的层次等级的情况下，基于所述第一文本数据集中测试数据集，对所述第一模型的验证达标情况进行评估；

确定模块，用于在所述验证达标情况评估通过的情况下，确定所述第一模型训练成功；

可选的，所述第一评估模块204，具体用于：

模型训练装置200能够实现上述模型训练方法实施例中实现的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

下面对本发明实施例提供的电子设备进行说明。

参见图3，图中示出了本发明实施例提供的电子设备的结构示意图。如图3所示，电子设备300包括：处理器301、存储器302、用户接口303和总线接口304。

处理器301，用于读取存储器302中的程序，执行下列过程：

在图3中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器301代表的一个或多个处理器和存储器302代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口304提供接口。针对不同的用户设备，用户接口303还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器301负责管理总线架构和通常的处理，存储器302可以存储处理器301在执行操作时所使用的数据。

可选的，处理器301，还用于：

优选的，本发明实施例还提供一种电子设备，包括处理器301，存储器302，存储在存储器302上并可在所述处理器301上运行的计算机程序，该计算机程序被处理器301执行时实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种可读存储介质，可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述可读存储介质，如只读存储器（Read-OnlyMemory，简称ROM）、随机存取存储器（Random Access Memory，简称RAM）、磁碟或者光盘等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

在所述训练达标情况评估不通过的情况下，基于所述第一文本数据集中第二训练数据集，从所述第二层次等级开始按照层次等级在认知难度上从低至高的顺序对所述第一模型进行继续训练；所述第二训练数据集包括所述第二层次等级的第一指令任务的表述文本；

所述获取第一文本数据集，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第二文本数据集中每个第二指令任务的表述文本，获取至少一个所述第一指令任务的表述文本，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述第二文本数据集中每个第二指令任务的表述文本，获取至少一个所述第一指令任务的表述文本，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述第一文本数据集中第一验证数据集，对所述第一模型的训练达标情况进行评估，包括：

8.一种模型训练装置，其特征在于，所述装置包括：

第二训练模块，用于在所述训练达标情况评估不通过的情况下，基于所述第一文本数据集中第二训练数据集，从所述第二层次等级开始按照层次等级在认知难度上从低至高的顺序对所述第一模型进行继续训练；所述第二训练数据集包括所述第二层次等级的第一指令任务的表述文本；

所述第一获取模块包括：

9.根据权利要求8所述的装置，其特征在于，所述第二获取单元，具体用于：

10.根据权利要求8所述的装置，其特征在于，所述第二获取单元，具体用于：

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：

12.根据权利要求8所述的装置，其特征在于，所述装置还包括：

13.根据权利要求8所述的装置，其特征在于，所述装置还包括：

14.根据权利要求8所述的装置，其特征在于，所述第一评估模块，具体用于：

15.一种电子设备，其特征在于，所述电子设备包括：包括处理器，存储器，存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的模型训练方法的步骤。

16.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的模型训练方法的步骤。