CN117952227A

CN117952227A - 模型处理方法、电子设备及存储设备

Info

Publication number: CN117952227A
Application number: CN202410134326.7A
Authority: CN
Inventors: 吴胜广; 陆柯铭; 徐本峰; 林俊旸; 苏祺; 周畅
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2024-01-30
Filing date: 2024-01-30
Publication date: 2024-04-30

Abstract

本申请公开了一种模型处理方法、电子设备及存储设备，涉及大模型技术、模型训练领域。其中，该方法包括：获取原始训练数据集；利用原始训练数据集中的第一训练数据集对初始机器学习模型进行训练，得到第一机器学习模型；基于第一机器学习模型的表征空间，从第二训练数据集中选取目标训练数据，其中，表征空间用于表征第一机器学习模型输出的特征向量所在的空间，第二训练数据集由原始训练数据集中除第一训练数据集之外的训练数据构成；基于目标训练数据和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型。本申请解决了相关技术中模型的训练效率较低的技术问题。

Description

模型处理方法、电子设备及存储设备

技术领域

本申请涉及大模型技术、模型训练领域，具体而言，涉及一种模型处理方法、电子设备及存储设备。

背景技术

目前，在数据采样时主要依赖于外部监督，例如，人工或更先进的大模型，但是，在对大规模数据进行采样的成本较高且效率低下，由于数据采集过程中耗费大量时间，因此导致模型整体训练的训练效率较低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种模型处理方法、电子设备及存储设备，以至少解决相关技术中模型的训练效率较低的技术问题。

根据本申请实施例的一个方面，提供了一种模型处理方法，包括：获取原始训练数据集；利用原始训练数据集中的第一训练数据集对初始机器学习模型进行训练，得到第一机器学习模型；基于第一机器学习模型的表征空间，从第二训练数据集中选取目标训练数据，其中，表征空间用于表征第一机器学习模型输出的特征向量所在的空间，第二训练数据集由原始训练数据集中除第一训练数据集之外的训练数据构成；基于目标训练数据和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型。

根据本申请实施例的另一个方面，提供了一种模型处理方法，包括：响应作用于操作界面上的输入指令，在操作界面上显示原始训练数据集；响应作用于操作界面上的训练指令，在操作界面上显示目标机器学习模型，其中，目标机器学习模型是基于原始训练数据集中的目标训练数据和第一训练数据集对第一机器学习模型进行训练得到的模型，目标训练数据是基于第一机器学习模型的表征空间从第二训练数据集中选取出的训练数据，第一机器学习模型是利用第一训练数据集对初始机器学习模型进行训练得到的模型。

根据本申请实施例的另一个方面，提供了一种模型处理方法，包括：通过调用第一接口获取原始训练数据集，其中，第一接口包括第一参数，第一参数的参数值包括原始训练数据集；利用原始训练数据集中的第一训练数据集对初始机器学习模型进行训练，得到第一机器学习模型；基于第一机器学习模型的表征空间，从第二训练数据集中选取目标训练数据，其中，表征空间用于表征第一机器学习模型输出的特征向量所在的空间，第二训练数据集由原始训练数据集中除第一训练数据集之外的训练数据构成；基于目标训练数据和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型；通过调用第二接口输出目标机器学习模型，其中，第二接口包括第二参数，第二参数的参数值为目标机器学习模型。

根据本申请实施例的另一个方面，提供了一种电子设备，包括：存储器，存储有可执行程序；处理器，用于运行程序，其中，程序运行时执行上述实施例中任意一项的方法。

根据本申请实施例的另一个方面，提供了一种计算机可读存储介质，计算机可读存储介质包括存储的可执行程序，其中，在可执行程序运行时控制计算机可读存储介质所在设备执行上述实施例中任意一项的方法。

在本申请实施例中，获取原始训练数据集；利用原始训练数据集中的第一训练数据集对初始机器学习模型进行训练，得到第一机器学习模型；基于第一机器学习模型的表征空间，从第二训练数据集中选取目标训练数据，其中，表征空间用于表征第一机器学习模型输出的特征向量所在的空间，第二训练数据集由原始训练数据集中除第一训练数据集之外的训练数据构成；基于目标训练数据和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型，从而实现了提高对模型的训练效率的目的；容易注意到的是，可以通过第一机器学习模型的表征空间，迭代地选取具有代表性的目标训练数据，逐步提高模型自身的遵循指令能力，可以通过模型自进化地采集数据子集，大幅减少所需要的指令微调数据量，可以显著提高数据利用和模型训练效率，进而解决了相关技术中模型的训练效率较低的技术问题。

容易注意到的是，上面的通用描述和后面的详细描述仅仅是为了对本申请进行举例和解释，并不构成对本申请的限定。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种应用场景示意图；

图2是根据本申请实施例1的一种模型处理方法的流程图；

图3是根据本申请实施例2的一种模型处理方法的流程图；

图4是根据本申请实施例3的一种模型处理方法的流程图；

图5是根据本申请实施例4的一种模型处理装置的示意图；

图6是根据本申请实施例5的一种模型处理装置的示意图；

图7是根据本申请实施例6的一种模型处理装置的示意图；

图8是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请提供的技术方案主要采用大模型技术实现，此处的大模型是指具有大规模模型参数的深度学习模型，通常可以包含上亿、上百亿、上千亿、上万亿甚至十万亿以上的模型参数。大模型又可以称为基石模型/基础模型(Foundation Model)，通过大规模无标注的语料进行大模型的预训练，产出亿级以上参数的预训练模型，这种模型能适应广泛的下游任务，模型具有较好的泛化能力，例如大规模语言模型(Large Language Model,LLM)、多模态预训练模型(multi-modal pre-training model)等。

需要说明的是，大模型在实际应用时，可以通过少量样本对预训练模型进行微调，使得大模型可以应用于不同的任务中。例如，大模型可以广泛应用于自然语言处理(Natural Language Processing，简称NLP)、计算机视觉、语音处理等领域，具体可以应用于如视觉问答(Visual Question Answering，简称VQA)、图像描述(Image Caption，简称IC)、图像生成等计算机视觉领域任务，也可以广泛应用于基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务。因此，大模型主要的应用场景包括但不限于数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。在本申请实施例中，以大模型场景下模型训练过程为例进行解释说明，

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

大语言模型(Large Language Models，简称为LLMs)：大规模数据上预训练的大参数量的语言模型，能够处理复杂的语言任务。

指令微调(Instruction Tuning)：使用{指令,回复}数据集在预训练LLMs基础上，使模型更好地遵循用户的指令。

K-中心采样(K-Center-Sampling)：一种数据采样方法，基于数据分布的几何中心。

最小置信度采样(Least-Confidence-Sampling)：一种数据采样思路，基于模型预测分布置信度。

高效指令微调：目前行业内有其他工作也试图从大规模指令数据集中采样更小的子集，但是他们的方法中大多依赖人工标注、或者如GPT4这样的更先进的大模型帮助判断数据的质量，这些额外的监督依赖也引入较高的成本。

模型自进化的思路：目前提出了迭代式地让模型不断增强自身训练数据集的思路，但是此工作仍然依赖外部的超大规模网络数据，需要额外训练一个反向模型(backwardmodel)，没有真正意义上做到模型的“自进化”。

数据采样：主动学习(active learning)提供了一系列以数据为中心的模型训练思路，包括：基于模型置信度、基于数据分布多样性的数据采样方法，但这些大多被用在经典机器学习或小规模神经网络上，并未在大模型上得到应用和验证。

本申请通过迭代地使用K-中心采样和最小置信度决策算法从大规模指令数据集中选择数据点，形成一个高效的训练子集，该方法能够在不需要外部监督的情况下，利用模型自身的表征空间，自动选择数据分布多样化、且模型预测不确定的样本点，加入下一轮的训练数据中，从而逐步地提高模型自身性能。本申请的自进化式方案能够达到和在全量数据集上训练出的模型相当和更好的表现。

实施例1

根据本申请实施例，提供了一种模型处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

考虑到大模型的模型参数量庞大，且移动终端的运算资源有限，本申请实施例提供的上述模型处理方法可以应用于如图1所示的应用场景，但不仅限于此。图1是根据本申请实施例的一种应用场景示意图，在如图1所示的应用场景中，大模型部署在服务器10中，服务器10可以通过局域网连接、广域网连接、因特网连接，或者其他类型的数据网络，连接一个或多个客户端设备20，此处的客户端设备20可以包括但不限于：智能手机、平板电脑、笔记本电脑、掌上电脑、个人计算机、智能家居设备、车载设备等。客户端设备20可以通过图形用户界面与用户进行交互，实现对大模型的调用，进而实现本申请实施例所提供的方法。

在本申请实施例中，客户端设备和服务器构成的系统可以执行如下步骤：客户端设备执行发送原始训练数据集，服务器执行获取原始训练数据集；利用原始训练数据集中的第一训练数据集对初始机器学习模型进行训练，得到第一机器学习模型；基于第一机器学习模型的表征空间，从第二训练数据集中选取目标训练数据；基于目标训练数据和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型。需要说明的是，在客户端设备的运行资源能够满足大模型的部署和运行条件的情况下，本申请实施例可以在客户端设备中进行。

在上述运行环境下，本申请提供了如所示的模型处理方法。图2是根据本申请实施例1的一种模型处理方法的流程图。如图2所示，该方法可以包括如下步骤：

步骤S202，获取原始训练数据集；

上述的原始训练数据集是指用来训练模型的最初的数据集。该数据集可以包括已知的输入特征和对应的输出标签，用来训练模型学习输入特征和输出标签之间的关系。这个数据集可以是由人工标注的数据、从现有数据中提取的数据，或者是从其他来源收集的数据，此处对原始训练数据集的生成方式不做限定。

上述的原始训练数据集可以为全量原始数据集，其中，全量原始数据集是指在特定时间段内收集到的数据的集合，一般全量原始数据集中的数据未经过筛选和加工，包含了大量的信息和细节。

步骤S204，利用原始训练数据集中的第一训练数据集对初始机器学习模型进行训练，得到第一机器学习模型；

上述的初始机器学习模型可以为大语言模型、预测模型、语音模型等，但不限于此，还可以为其他类型的模型。本申请以对大语言模型训练为例进行说明。

上述的第一训练数据集可以是从原始训练数据集中随机选取的训练数据。第一训练数据集还可以是原始训练数据集中指定的训练数据，此处对第一训练数据集的确定方式不做限定。

步骤S206，基于第一机器学习模型的表征空间，从第二训练数据集中选取目标训练数据；

其中，表征空间用于表征第一机器学习模型输出的特征向量所在的空间，第二训练数据集由原始训练数据集中除第一训练数据集之外的训练数据构成。

上述的第一机器学习模型的表征空间是指模型用于表示输入数据和学习的参数的空间，在机器学习中，模型通过学习输入数据的特征和参数来生成对输入数据的预测或分类。表征空间可以包括输入数据的特征空间和模型参数空间，以及模型学习到的表示数据的特征空间。可选的，表征空间通常由神经网络的隐藏层表示。通过对表征空间的学习，模型可以更好地理解和表示输入数据，从而实现更准确的预测和分类。

根据上述的表征空间可以从第二训练数据集中确定与第一训练数据集中数据特征差别比较大，且模型对数据处理的置信度较低的数据，从而得到目标训练数据。以便第一机器学习模型可以通过目标训练数据进行进一步的训练，从而提高模型对各类数据的处理能力。需要说明的是，可以将表征空间中最高层的输出(logits)作为模型对第二训练数据集中候选数据的预测置信度，其中，最高层的输出(logits)是指模型经过最后一层全连接层或二分类层(softmax)之后的输出。在神经网络中，logits通常是指未经过激活函数的输出，用于表示不同类别的得分或置信度。在分类任务中，logits可以被转换成概率分布，用于预测模型对不同类别的置信度。置信度表示模型对候选数据预测结果的可信程度或准确性。

上述的目标训练数据可以为第二训练数据集中第一机器学习模型预测能力较差的数据，通过选取目标训练数据可以逐步提高模型自身的遵循指令的能力。

通过第一机器学习模型的表征空间选取目标训练数据可以保证不断选取的训练数据具有高多样性，能够较为全面覆盖原始全量的数据，并且由于模型对于目标训练数据的预测能力较差，通过加入目标训练数据，可以增加模型对于该目标训练数据的预测能力，通过多轮迭代预测，可以显著提高模型的预测能力。

在一种可选的实施例中，可以采用自进化数据采样机制，用被训练的第一机器学习模型自身的表征空间，迭代地选取具有代表性且模型预测置信低的目标训练数据，逐步提高模型自身的遵循指令能力。

步骤S208，基于目标训练数据和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型。

可以通过第一训练数据集对第一机器学习模型进行训练，并通过目标训练数据对第一机器学习模型的训练提供微调的作用，使得第一机器学习模型的训练可以达到更好的效果。

上述的目标机器学习模型可以为“遵循用户指令”的对话大语言模型，可用于一般领域的聊天机器人部署，例如，网页端对话机器人，人工智能助手等。

在大语言模型的训练场景下，对于大语言模型的指令微调，若仍然采用大规模指令数据(人工标注或机器生成)，将面临着巨大的数据收集、标注和用它训练成本的挑战。为了更高效地利用指令微调数据，且保留或提高训练出来模型的表现，本申请提出了一种自进化的数据采样机制，通过迭代，用模型自身的表征空间自主选择训练数据，有效提高模型性能的同时，无需外部监督，进一步减少成本。本申请提供的自进化式方法可以大幅减少了大型语言模型指令微调的数据需求量，显著提升效率、降低了训练成本，同时保留或超越全量数据集的性能。

可以一次性选择目标训练数据，也可以循环多轮选择目标训练数据，一次性选择目标训练数据可以提高训练的效率，循环多轮迭代选择目标训练数据可以提高目标训练数据的准确度，从而提高对模型训练的准确度，本申请中可以通过循环多轮迭代的方式选择目标训练数据，但不限于此，可以根据用户的需求确定目标训练数据的选择方式。

在一种可选的实施例中，可以通过多轮迭代的方式对初始机器学习模型进行训练，最终得到目标机器学习模型，在第一轮训练的过程中，可以根据第一训练数据集目标训练数据对初始机器学习模型进行训练，得到第一轮训练后的第一机器学习模型，将第一轮训练后的第一机器学习模型作为初始机器学习模型继续训练，在第二轮训练的过程中，可以随机从原始训练数据集中获取第一训练数据集，并按照上述方法对初始机器学习模型进行训练，得到第一机器学习模型的表征空间，可以从第二训练数据集中选取目标训练数据，并根据目标训练数据和第一训练数据集对第一机器学习模型进行训练，经过多轮迭代，得到最终的目标机器学习模型。需要说明的是，多轮中都是采用同一选择目标训练数据的逻辑。

可以通过多轮迭代的方式对第一机器学习模型进行训练，最终得到目标机器学习模型，在第一轮训练的过程中，可以根据第一训练数据集目标训练数据对初始机器学习模型进行训练，得到第一轮训练后的第一机器学习模型，根据第一机器学习模型的表征空间，可以从第二训练数据集中选取目标训练数据，并根据目标训练数据和第一训练数据集对第一机器学习模型进行训练，得到训练后的第一机器学习模型，然后再基于训练后的第一机器学习模型继续选取目标训练数据，继续进行训练，经过多轮迭代，得到最终的目标机器学习模型。

通过上述步骤，获取原始训练数据集；利用原始训练数据集中的第一训练数据集对初始机器学习模型进行训练，得到第一机器学习模型；基于第一机器学习模型的表征空间，从第二训练数据集中选取目标训练数据，其中，表征空间用于表征第一机器学习模型输出的特征向量所在的空间，第二训练数据集由原始训练数据集中除第一训练数据集之外的训练数据构成；基于目标训练数据和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型，从而实现了提高对模型的训练效率的目的；容易注意到的是，可以通过第一机器学习模型的表征空间，迭代地选取具有代表性的目标训练数据，逐步提高模型自身的遵循指令能力，可以通过模型自进化地采集数据子集，大幅减少所需要的指令微调数据量，可以显著提高数据利用和模型训练效率，进而解决了相关技术中模型的训练效率较低的技术问题。

本申请上述实施例中，基于第一机器学习模型的表征空间，从第二训练数据集中选取目标训练数据，包括：基于表征空间，确定第二训练数据集包含的训练数据与第一训练数据集之间的目标距离，以及第二训练数据集包含的训练数据的置信度，其中，所述目标距离用于表征所述第二训练数据集包含的训练数据与所述第一训练数据集之间的相似度；从第二训练数据集中选取目标距离大于预设距离，且置信度小于预设置信度的训练数据，得到目标训练数据。

上述的目标距离可以用于表示第二训练数据集包含的训练数据与第一训练数据集之间的特征差异，也即，第二训练数据集包含的训练数据与第一训练数据集之间的相似度，目标距离越长，则说明该训练数据与第一训练数据集的相似度越小，从而使得该训练数据与第一训练数据集的差异越大，目标距离越短，则说明该训练数据与第一训练数据的相似度越大，从而使得该训练数据与第一训练数据集的差异越小。

上述的训练数据的置信度用于表示第一机器学习模型对于训练数据的预测能力，若第一机器学习模型对于训练数据的预测能力越大，则训练数据的置信度越大，若第一机器学习模型对于训练数据的预测能力越小，则训练数据的置信度越小。

上述的预设距离可以根据实际需求自由设定，也可以根据以往的训练经验进行设置，以便从第二训练数据集中确定出与第一训练数据集差异较大的训练数据。

上述的预设置信度可以根据实际需求自由设定，也可以根据以往的预测经验进行设置，以便从第二训练数据集中确定出模型预测能力较弱的训练数据，方便对模型进行针对性训练。

在一种可选的实施例中，可以根据表征空间中特征向量与特征向量之间的距离确定出训练数据与第一训练数据集之间的目标距离以及第二训练数据集包含的训练数据的置信度，从而根据预设距离和预设置信度挑选出可以达到指令微调效果的目标训练数据。

本申请上述实施例中，基于表征空间，确定第二训练数据集包含的训练数据与第一训练数据集之间的目标距离，包括：利用第一机器学习模型处理第一训练数据集包含的训练数据，得到第一特征向量集，并利用第一机器学习模型处理第二训练数据集，得到第二特征向量集；基于第一特征向量集和第二特征向量集，确定目标距离。

在一种可选的实施例中，可以将第一训练数据集作为第一机器学习模型的输入，得到第一特征向量集，可以将第二训练数据集作为第一机器学习模型的输入，得到第二特征向量集，根据第一特征向量集中的多个特征向量与第二特征向量集中的多个特征向量之间距离确定上述的目标距离。

本申请上述实施例中，基于第一特征向量集和第二特征向量集，确定目标距离，包括：基于第一特征向量集和第二特征向量集，确定第一训练数据集包含的训练数据与第二训练数据集包含的训练数据之间的第一距离；基于第二训练数据集包含的任意一个训练数据与第一训练数据集包含的至少一个训练数据之间的第一距离，确定任意一个训练数据与第一训练数据集之间的第二距离；基于第二训练数据集包含的至少一个训练数据与第一训练数据集之间的第二距离，确定目标距离。

上述的第一距离可以用于表示第一训练数据集包含的训练数据和第二训练数据集的最小距离。

上述的第二距离可以用于表示第二训练数据集的任意一个训练数据中与第一训练数据集的最大距离。

在一种可选的实施例中，可以根据第一距离选取出任意一个训练数据与第一训练数据集的最小距离，从而确定出第一训练数据集和第二训练数据集中的相同类型的训练数据，基于最大距离可以从相同类型的训练数据中确定出差异最大的数据，以便后续可以提高目标机器学习模型对于不同数据的处理能力。

本申请上述实施例中，基于第二训练数据集包含的任意一个训练数据与第一训练数据集包含的至少一个训练数据之间的第一距离，确定任意一个训练数据与第一训练数据集之间的第二距离，包括：从任意一个训练数据与第一训练数据集包含的至少一个训练数据之间的第一距离中获取最小距离；确定最小距离为第二距离。

可以从任意一个训练数据与第一训练数据集包含的至少一个训练数据之间的第一距离中确定最小距离，以便确定出第二训练数据集中与第一训练数据集属于同一类别的数据，以便后续从同一类别的数据中选取差异较大的训练数据作为目标训练数据。

本申请上述实施例中，获取第二训练数据集包含的至少一个训练数据与第一训练数据集之间的第二距离，确定目标距离，包括：从至少一个训练数据与第一训练数据集之间的第二距离中获取最大距离；确定最大距离为目标距离。

可以从至少一个训练数据与第一训练数据集之间的第二距离中获取最大距离，以便得到至少一个训练数据中与第一训练数据集差异较大的训练数据，并将该训练数据作为目标训练数据，以便在对第一机器学习模型进行训练时，可以使得到的目标机器学习模型学习到更全面的数据，从而提高目标机器学习模型的准确度。

本申请上述实施例中，基于表征空间，确定第二训练数据集包含的训练数据的置信度，包括：利用第一机器学习模型处理第二训练数据集，得到目标处理结果；确定目标处理结果为置信度。

在一种可选的实施例中，可以将第二训练数据集作为第一机器学习模型的输入，输出为目标处理结果，可以根据目标处理结果确定第一机器学习模型对于第二训练数据集的置信度，若第一机器学习模型处理的效果较好，则置信度越高，若第一机器学习模型处理的效果较差，则置信度越低。

本申请上述实施例中，利用原始训练数据集中的第一训练数据集对初始机器学习模型进行训练，得到第一机器学习模型,包括：基于第一训练数据集构建训练指令，其中，训练指令包括：输入指令、训练样本和训练标签；利用训练指令对初始机器学习模型进行训练，得到第一机器学习模型。

上述的输入指令用于指导初始机器学习模型的训练过程。上述的训练样本可以作为初始机器学习模型的输入，上述的训练标签可以为初始机器学习模型输出的标签。

上述训练指令的数据格式可以为(输入指令，训练样本，训练标签)，其中，输入指令可以为空。

对于指令微调，可以将输入指令和训练样本组成输入，要求初始机器学习模型输出训练标签，通过对初始机器学习模型进行微调，可以得到遵循指令的第一机器学习模型。

本申请上述实施例中，该方法还包括：确定第一机器学习模型的训练次数；在训练次数小于预设次数的情况下，重复执行选取目标训练数据，并对第一机器学习模型进行训练的步骤，直至训练次数大于或等于预设次数。

上述的预设次数可以为预先设置的训练的次数。

上述的训练次数是指根据目标训练数据对第一机器学习模型进行训练的次数。

在一种可选的实施例中，可以重复迭代的对第一机器学习模型进行训练，根据第一机器学习模型的训练次数和预设次数的比对结果可以重复执行选取目标训练数据，并对第一机器学习模型进行训练的步骤，直至训练次数大于或等于预设次数则确定对第一机器学习模型训练完毕，得到目标机器学习模型。

本申请上述实施例中，该方法还包括：输出目标训练数据；接收目标训练数据对应的反馈结果，其中，反馈结果是对目标训练数据进行修改得到的结果；基于反馈结果和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型。

上述的反馈结果可以是用户根据输出的目标训练数据进行调整得到的反馈信息。

在一种可选的实施例中，可以将目标训练数据输出至客户端以便用户查看，若用户认为目标训练数据需要进行修改，则可以根据修改建议或者调整建议生成反馈结果，并将反馈结果进行反馈，以便根据反馈结果和第一训练数据集对第一机器学习模型进行训练，从而得到目标机器学习模型，进而提高目标机器学习模型的模型处理准确度，是的目标机器学习模型可以更符合用户的需求。

模型训练的整体流程如下：首先，可以从原始训练数据集中(共N_total个样本)，随机选取N_init个样本，形成第一训练数据集P_0,剩余未被选取的数据组成第二训练数据集Q_0(N_total-N_init)；然后基于初始机器学习模型，在P_0训练数据上进行指令微调，其数据格式为：[指令(instruction)，输入(input)，输出(output))]三部分，其中input可能为空。对于指令微调，instruction和input组成输入，要求模型输出output，如此微调大模型，得到遵循指令的第一机器学习模型M_0；

可以在第一机器学习模型的表征空间(最高层输出隐状态)中，从Q_0里选取和P_0距离最远的数据点，即：利用M_0最高层输出向量，计算Q_0和P_0中不同数据点之间的距离distance(Q_0,P_0)，其中，该距离可以是指向量之间的欧式距离；对于Q_0中的样本q，得到该样本和P_0中任意数据点之间的最短距离min_distance(q,P_0)，这即是该样本q和已知训练数据P_0之间的最小距离；从Q_0中选取min_distance(q,P_0)最大的样本q，即和和已有训练集P_0最不同/多样的数据，加入候选数据集J_0；用M_0最高层的输出(logits)，作为当前模型M_0对J_0中候选数据的预测置信度(confidence)，决策出置信度最低的N_new个数据，加入当前轮次新选数据集S_0；将S_0加入下一轮的训练数据，得到P_1(N_init+N_new)，用来训练下一轮迭代的模型M_1；如此往复迭代T轮，每轮都按照上述的选点逻辑，得到一个更大训练数据集P，和训练出的潜在能力更强的目标机器学习模型M。

需要说明的是，M_0可以是用于计算表征向量的模型，M_0可以为一个函数f(x)输入x，输出的是向量表示。

上述的置信度低反映了模型对这个数据预测不确定性大，即模型对当前这个数据的预测“不够自信”。那么这样的数据，正是模型需要学习的。

本申请提供的自进化方案通过模型自身的表征空间选取数据点，相比其他缩减指令微调数据的工作，消除了对外部监督的依赖(人工或更先进大模型)，同时，通过迭代的方式和数据采样，保证不断新增选取的数据子集具有高多样性，能较为全面地覆盖原始全量的数据；且这些新数据是当前模型预测不自信，对于增强下一轮次模型预测能力有贡献。由此，本申请的方法可以大幅减少了模型指令微调所需要的数据量，显著提高模型的训练效率。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例的方法。

实施例2

根据本申请实施例，还提供了一种模型处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此的顺序执行所示出或描述的步骤。

图3是根据本申请实施例2的一种模型处理方法的流程图，如图3所示，该方法包括如下步骤：

步骤S302，响应作用于操作界面上的输入指令，在操作界面上显示原始训练数据集；

上述的操作界面可以用于显示原始训练数据集，其中，操作界面中可以包含有多种不同的控件以便用户进行操作，从而在操作界面上显示原始训练数据集。

步骤S304，响应作用于操作界面上的训练指令，在操作界面上显示目标机器学习模型。

其中，目标机器学习模型是基于原始训练数据集中的目标训练数据和第一训练数据集对第一机器学习模型进行训练得到的模型，目标训练数据是基于第一机器学习模型的表征空间从第二训练数据集中选取出的训练数据，第一机器学习模型是利用第一训练数据集对初始机器学习模型进行训练得到的模型。

上述的训练指令可以为需要对初始机器学习模型进行训练时，通过对操作界面进行操作生成的训练指令。

通过上述步骤，响应作用于操作界面上的输入指令，在操作界面上显示原始训练数据集；响应作用于操作界面上的训练指令，在操作界面上显示目标机器学习模型，其中，目标机器学习模型是基于原始训练数据集中的目标训练数据和第一训练数据集对第一机器学习模型进行训练得到的模型，目标训练数据是基于第一机器学习模型的表征空间从第二训练数据集中选取出的训练数据，第一机器学习模型是利用第一训练数据集对初始机器学习模型进行训练得到的模型，实现了提高对模型的训练效率的目的；容易注意到的是，可以通过第一机器学习模型的表征空间，迭代地选取具有代表性的目标训练数据，逐步提高模型自身的遵循指令能力，可以通过模型自进化地采集数据子集，大幅减少所需要的指令微调数据量，可以显著提高数据利用和模型训练效率，进而解决了相关技术中模型的训练效率较低的技术问题。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例3

图4是根据本申请实施例3的一种模型处理方法的流程图，如图4所示，该方法包括如下步骤：

步骤S402，通过调用第一接口获取原始训练数据集；

其中，第一接口包括第一参数，第一参数的参数值包括原始训练数据集。

上述步骤中的第一接口可以是云服务器与客户端之间进行数据交互的接口，客户端可以将原始训练数据集传入接口函数，作为接口函数的第一参数，实现将原始训练数据集上传到云服务器的目的。

步骤S404，利用原始训练数据集中的第一训练数据集对初始机器学习模型进行训练，得到第一机器学习模型；

步骤S406，基于第一机器学习模型的表征空间，从第二训练数据集中选取目标训练数据；

步骤S408，基于目标训练数据和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型；

步骤S410，通过调用第二接口输出目标机器学习模型。

其中，第二接口包括第二参数，第二参数的参数值为目标机器学习模型。

上述的第二接口可以是云服务器与客户端之间进行数据交互的接口，云服务器可以将目标机器学习模型传入接口函数，作为接口函数的第二参数，实现将目标机器学习模型下发至客户端的目的。

通过上述步骤，通过调用第一接口获取原始训练数据集，其中，第一接口包括第一参数，第一参数的参数值包括原始训练数据集；利用原始训练数据集中的第一训练数据集对初始机器学习模型进行训练，得到第一机器学习模型；基于第一机器学习模型的表征空间，从第二训练数据集中选取目标训练数据，其中，表征空间用于表征第一机器学习模型输出的特征向量所在的空间，第二训练数据集由原始训练数据集中除第一训练数据集之外的训练数据构成；基于目标训练数据和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型；通过调用第二接口输出目标机器学习模型，其中，第二接口包括第二参数，第二参数的参数值为目标机器学习模型，实现了提高对模型的训练效率的目的；容易注意到的是，可以通过第一机器学习模型的表征空间，迭代地选取具有代表性的目标训练数据，逐步提高模型自身的遵循指令能力，可以通过模型自进化地采集数据子集，大幅减少所需要的指令微调数据量，可以显著提高数据利用和模型训练效率，进而解决了相关技术中模型的训练效率较低的技术问题。

实施例4

根据本申请实施例，还提供了一种用于实施上述模型处理方法的模型处理装置，图5是根据本申请实施例4的一种模型处理装置的示意图，如图5所示，该装置500包括：获取模块502、第一训练模块504、选取模块506、第二训练模块508。

其中，获取模块，用于获取原始训练数据集；第一训练模块用于利用原始训练数据集中的第一训练数据集对初始机器学习模型进行训练，得到第一机器学习模型；选取模块用于基于第一机器学习模型的表征空间，从第二训练数据集中选取目标训练数据，其中，表征空间用于表征第一机器学习模型输出的特征向量所在的空间，第二训练数据集由原始训练数据集中除第一训练数据集之外的训练数据构成；第二训练模块用于基于目标训练数据和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型。

此处需要说明的是，上述获取模块502、第一训练模块504、选取模块506、第二训练模块508对应于实施例1中的步骤S202至步骤S208，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件，上述模块也可以作为装置的一部分可以运行在实施例1提供的服务器10中。

本申请上述实施例中，选取模块还用于基于表征空间，确定第二训练数据集包含的训练数据与第一训练数据集之间的目标距离，以及第二训练数据集包含的训练数据的置信度，其中，所述目标距离用于表征所述第二训练数据集包含的训练数据与所述第一训练数据集之间的相似度；从第二训练数据集中选取目标距离大于预设距离，且置信度小于预设置信度的训练数据，得到目标训练数据。

本申请上述实施例中，选取模块还用于利用第一机器学习模型处理第一训练数据集包含的训练数据，得到第一特征向量集，并利用第一机器学习模型处理第二训练数据集，得到第二特征向量集；基于第一特征向量集和第二特征向量集，确定目标距离。

本申请上述实施例中，选取模块还用于基于第一特征向量集和第二特征向量集，确定第一训练数据集包含的训练数据与第二训练数据集包含的训练数据之间的第一距离；基于第二训练数据集包含的任意一个训练数据与第一训练数据集包含的至少一个训练数据之间的第一距离，确定任意一个训练数据与第一训练数据集之间的第二距离；获取第二训练数据集包含的至少一个训练数据与第一训练数据集之间的第二距离，确定目标距离。

本申请上述实施例中，选取模块还用于从任意一个训练数据与第一训练数据集包含的至少一个训练数据之间的第一距离中获取最小距离；确定最小距离为第二距离。

本申请上述实施例中，选取模块还用于从至少一个训练数据与第一训练数据集之间的第二距离中获取最大距离；确定最大距离为目标距离。

本申请上述实施例中，选取模块还用于利用第一机器学习模型处理第二训练数据集，得到目标处理结果；确定目标处理结果为置信度。

本申请上述实施例中，第一训练模块还用于基于第一训练数据集构建训练指令，其中，训练指令包括：输入指令、训练样本和训练标签；利用训练指令对初始机器学习模型进行训练，得到第一机器学习模型。

本申请上述实施例中，该装置还包括：确定模块。

其中，确定模块用于确定第一机器学习模型的训练次数；选取模块用于在训练次数小于预设次数的情况下，重复执行选取目标训练数据，并对第一机器学习模型进行训练的步骤，直至训练次数大于或等于预设次数。

本申请上述实施例中，该装置还包括：输出模块、接收模块、第三训练模块。

其中，输出模块用于输出目标训练数据；接收模块用于接收目标训练数据对应的反馈结果，其中，反馈结果是对目标训练数据进行修改得到的结果；第三训练模块用于基于反馈结果和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型。

实施例5

根据本申请实施例，还提供了一种用于实施上述模型处理方法的模型处理装置，图6是根据本申请实施例5的一种模型处理装置的示意图，如图6所示，该装置600包括：第一显示模块602、第二显示模块604。

其中，第一显示模块用于响应作用于操作界面上的输入指令，在操作界面上显示原始训练数据集；第二显示模块用于响应作用于操作界面上的训练指令，在操作界面上显示目标机器学习模型，其中，目标机器学习模型是基于原始训练数据集中的目标训练数据和第一训练数据集对第一机器学习模型进行训练得到的模型，目标训练数据是基于第一机器学习模型的表征空间从第二训练数据集中选取出的训练数据，第一机器学习模型是利用第一训练数据集对初始机器学习模型进行训练得到的模型。

此处需要说明的是，上述第一显示模块602、第二显示模块604对应于实施例2中的步骤S302至步骤S304，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件，上述模块也可以作为装置的一部分可以运行在实施例1提供的服务器10中。

实施例6

根据本申请实施例，还提供了一种用于实施上述模型处理方法的模型处理装置，图7是根据本申请实施例6的一种模型处理装置的示意图，如图7所示，该装置700包括：获取模块702、第一训练模块704、选取模块706、第二训练模块708、输出模块710。

其中，获取模块用于通过调用第一接口获取原始训练数据集，其中，第一接口包括第一参数，第一参数的参数值包括原始训练数据集；第一训练模块用于利用原始训练数据集中的第一训练数据集对初始机器学习模型进行训练，得到第一机器学习模型；选取模块用于基于第一机器学习模型的表征空间，从第二训练数据集中选取目标训练数据，其中，表征空间用于表征第一机器学习模型输出的特征向量所在的空间，第二训练数据集由原始训练数据集中除第一训练数据集之外的训练数据构成；第二训练模块用于基于目标训练数据和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型；输出模块用于通过调用第二接口输出目标机器学习模型，其中，第二接口包括第二参数，第二参数的参数值为目标机器学习模型。

此处需要说明的是，上述获取模块702、第一训练模块704、选取模块706、第二训练模块708、输出模块710对应于实施例3中的步骤S402至步骤S410，五个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件，上述模块也可以作为装置的一部分可以运行在实施例1提供的服务器10中。

实施例7

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行模型处理方法中以下步骤的程序代码：获取原始训练数据集；利用原始训练数据集中的第一训练数据集对初始机器学习模型进行训练，得到第一机器学习模型；基于第一机器学习模型的表征空间，从第二训练数据集中选取目标训练数据，其中，表征空间用于表征第一机器学习模型输出的特征向量所在的空间，第二训练数据集由原始训练数据集中除第一训练数据集之外的训练数据构成；基于目标训练数据和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型。

可选地，图8是根据本申请实施例的一种计算机终端的结构框图。如图8所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器102、存储器104、存储控制器、以及外设接口，其中，外设接口与射频模块、音频模块和显示器连接。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的模型处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的模型处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取原始训练数据集；利用原始训练数据集中的第一训练数据集对初始机器学习模型进行训练，得到第一机器学习模型；基于第一机器学习模型的表征空间，从第二训练数据集中选取目标训练数据，其中，表征空间用于表征第一机器学习模型输出的特征向量所在的空间，第二训练数据集由原始训练数据集中除第一训练数据集之外的训练数据构成；基于目标训练数据和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型。

可选的，上述处理器还可以执行如下步骤的程序代码：基于表征空间，确定第二训练数据集包含的训练数据与第一训练数据集之间的目标距离，以及第二训练数据集包含的训练数据的置信度，其中，所述目标距离用于表征所述第二训练数据集包含的训练数据与所述第一训练数据集之间的相似度；从第二训练数据集中选取目标距离大于预设距离，且置信度小于预设置信度的训练数据，得到目标训练数据。

可选的，上述处理器还可以执行如下步骤的程序代码：利用第一机器学习模型处理第一训练数据集包含的训练数据，得到第一特征向量集，并利用第一机器学习模型处理第二训练数据集，得到第二特征向量集；基于第一特征向量集和第二特征向量集，确定目标距离。

可选的，上述处理器还可以执行如下步骤的程序代码：基于第一特征向量集和第二特征向量集，确定第一训练数据集包含的训练数据与第二训练数据集包含的训练数据之间的第一距离；基于第二训练数据集包含的任意一个训练数据与第一训练数据集包含的至少一个训练数据之间的第一距离，确定任意一个训练数据与第一训练数据集之间的第二距离；获取第二训练数据集包含的至少一个训练数据与第一训练数据集之间的第二距离，确定目标距离。

可选的，上述处理器还可以执行如下步骤的程序代码：从任意一个训练数据与第一训练数据集包含的至少一个训练数据之间的第一距离中获取最小距离；确定最小距离为第二距离。

可选的，上述处理器还可以执行如下步骤的程序代码：从至少一个训练数据与第一训练数据集之间的第二距离中获取最大距离；确定最大距离为目标距离。

可选的，上述处理器还可以执行如下步骤的程序代码：利用第一机器学习模型处理第二训练数据集，得到目标处理结果；确定目标处理结果为置信度。

可选的，上述处理器还可以执行如下步骤的程序代码：基于第一训练数据集构建训练指令，其中，训练指令包括：输入指令、训练样本和训练标签；利用训练指令对初始机器学习模型进行训练，得到第一机器学习模型。

可选的，上述处理器还可以执行如下步骤的程序代码：确定第一机器学习模型的训练次数；在训练次数小于预设次数的情况下，重复执行选取目标训练数据，并对第一机器学习模型进行训练的步骤，直至训练次数大于或等于预设次数。

可选的，上述处理器还可以执行如下步骤的程序代码：输出目标训练数据；接收目标训练数据对应的反馈结果，其中，反馈结果是对目标训练数据进行修改得到的结果；基于反馈结果和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：响应作用于操作界面上的输入指令，在操作界面上显示原始训练数据集；响应作用于操作界面上的训练指令，在操作界面上显示目标机器学习模型，其中，目标机器学习模型是基于原始训练数据集中的目标训练数据和第一训练数据集对第一机器学习模型进行训练得到的模型，目标训练数据是基于第一机器学习模型的表征空间从第二训练数据集中选取出的训练数据，第一机器学习模型是利用第一训练数据集对初始机器学习模型进行训练得到的模型。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：通过调用第一接口获取原始训练数据集，其中，第一接口包括第一参数，第一参数的参数值包括原始训练数据集；利用原始训练数据集中的第一训练数据集对初始机器学习模型进行训练，得到第一机器学习模型；基于第一机器学习模型的表征空间，从第二训练数据集中选取目标训练数据，其中，表征空间用于表征第一机器学习模型输出的特征向量所在的空间，第二训练数据集由原始训练数据集中除第一训练数据集之外的训练数据构成；基于目标训练数据和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型；通过调用第二接口输出目标机器学习模型，其中，第二接口包括第二参数，第二参数的参数值为目标机器学习模型。

采用本申请实施例，获取原始训练数据集；利用原始训练数据集中的第一训练数据集对初始机器学习模型进行训练，得到第一机器学习模型；基于第一机器学习模型的表征空间，从第二训练数据集中选取目标训练数据，其中，表征空间用于表征第一机器学习模型输出的特征向量所在的空间，第二训练数据集由原始训练数据集中除第一训练数据集之外的训练数据构成；基于目标训练数据和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型，从而实现了提高对模型的训练效率的目的；容易注意到的是，可以通过第一机器学习模型的表征空间，迭代地选取具有代表性的目标训练数据，逐步提高模型自身的遵循指令能力，可以通过模型自进化地采集数据子集，大幅减少所需要的指令微调数据量，可以显著提高数据利用和模型训练效率，进而解决了相关技术中模型的训练效率较低的技术问题。

本领域普通技术人员可以理解，图8所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternetDevices，MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如，计算机终端A还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图8所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例8

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的模型处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取原始训练数据集；利用原始训练数据集中的第一训练数据集对初始机器学习模型进行训练，得到第一机器学习模型；基于第一机器学习模型的表征空间，从第二训练数据集中选取目标训练数据，其中，表征空间用于表征第一机器学习模型输出的特征向量所在的空间，第二训练数据集由原始训练数据集中除第一训练数据集之外的训练数据构成；基于目标训练数据和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：基于表征空间，确定第二训练数据集包含的训练数据与第一训练数据集之间的目标距离，以及第二训练数据集包含的训练数据的置信度，其中，所述目标距离用于表征所述第二训练数据集包含的训练数据与所述第一训练数据集之间的相似度；从第二训练数据集中选取目标距离大于预设距离，且置信度小于预设置信度的训练数据，得到目标训练数据。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：利用第一机器学习模型处理第一训练数据集包含的训练数据，得到第一特征向量集，并利用第一机器学习模型处理第二训练数据集，得到第二特征向量集；基于第一特征向量集和第二特征向量集，确定目标距离。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：基于第一特征向量集和第二特征向量集，确定第一训练数据集包含的训练数据与第二训练数据集包含的训练数据之间的第一距离；基于第二训练数据集包含的任意一个训练数据与第一训练数据集包含的至少一个训练数据之间的第一距离，确定任意一个训练数据与第一训练数据集之间的第二距离；获取第二训练数据集包含的至少一个训练数据与第一训练数据集之间的第二距离，确定目标距离。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：从任意一个训练数据与第一训练数据集包含的至少一个训练数据之间的第一距离中获取最小距离；确定最小距离为第二距离。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：从至少一个训练数据与第一训练数据集之间的第二距离中获取最大距离；确定最大距离为目标距离。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：利用第一机器学习模型处理第二训练数据集，得到目标处理结果；确定目标处理结果为置信度。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：基于第一训练数据集构建训练指令，其中，训练指令包括：输入指令、训练样本和训练标签；利用训练指令对初始机器学习模型进行训练，得到第一机器学习模型。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：确定第一机器学习模型的训练次数；在训练次数小于预设次数的情况下，重复执行选取目标训练数据，并对第一机器学习模型进行训练的步骤，直至训练次数大于或等于预设次数。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：输出目标训练数据；接收目标训练数据对应的反馈结果，其中，反馈结果是对目标训练数据进行修改得到的结果；基于反馈结果和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：响应作用于操作界面上的输入指令，在操作界面上显示原始训练数据集；响应作用于操作界面上的训练指令，在操作界面上显示目标机器学习模型，其中，目标机器学习模型是基于原始训练数据集中的目标训练数据和第一训练数据集对第一机器学习模型进行训练得到的模型，目标训练数据是基于第一机器学习模型的表征空间从第二训练数据集中选取出的训练数据，第一机器学习模型是利用第一训练数据集对初始机器学习模型进行训练得到的模型。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过调用第一接口获取原始训练数据集，其中，第一接口包括第一参数，第一参数的参数值包括原始训练数据集；利用原始训练数据集中的第一训练数据集对初始机器学习模型进行训练，得到第一机器学习模型；基于第一机器学习模型的表征空间，从第二训练数据集中选取目标训练数据，其中，表征空间用于表征第一机器学习模型输出的特征向量所在的空间，第二训练数据集由原始训练数据集中除第一训练数据集之外的训练数据构成；基于目标训练数据和第一训练数据集对第一机器学习模型进行训练，得到目标机器学习模型；通过调用第二接口输出目标机器学习模型，其中，第二接口包括第二参数，第二参数的参数值为目标机器学习模型。

实施例9

本申请的实施例还提供了一种计算机程序产品。可选地，在本实施例中，上述计算机程序在被处理器执行时实现根据上述实施例一所提供的模型处理方法所执行的程序代码。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种模型处理方法，其特征在于，包括：

获取原始训练数据集；

利用所述原始训练数据集中的第一训练数据集对初始机器学习模型进行训练，得到第一机器学习模型；

基于所述第一机器学习模型的表征空间，从第二训练数据集中选取目标训练数据，其中，所述表征空间用于表征所述第一机器学习模型输出的特征向量所在的空间，所述第二训练数据集由所述原始训练数据集中除所述第一训练数据集之外的训练数据构成；

基于所述目标训练数据和所述第一训练数据集对所述第一机器学习模型进行训练，得到目标机器学习模型。

2.根据权利要求1所述的方法，其特征在于，基于所述第一机器学习模型的表征空间，从第二训练数据集中选取目标训练数据，包括：

基于所述表征空间，确定所述第二训练数据集包含的训练数据与所述第一训练数据集之间的目标距离，以及所述第二训练数据集包含的训练数据的置信度，其中，所述目标距离用于表征所述第二训练数据集包含的训练数据与所述第一训练数据集之间的相似度；

从所述第二训练数据集中选取目标距离大于预设距离，且置信度小于预设置信度的训练数据，得到所述目标训练数据。

3.根据权利要求2所述的方法，其特征在于，基于所述表征空间，确定所述第二训练数据集包含的训练数据与所述第一训练数据集之间的目标距离，包括：

利用所述第一机器学习模型处理所述第一训练数据集包含的训练数据，得到第一特征向量集，并利用所述第一机器学习模型处理所述第二训练数据集，得到第二特征向量集；

基于所述第一特征向量集和所述第二特征向量集，确定所述目标距离。

4.根据权利要求3所述的方法，其特征在于，基于所述第一特征向量集和所述第二特征向量集，确定所述目标距离，包括：

基于所述第一特征向量集和所述第二特征向量集，确定所述第一训练数据集包含的训练数据与所述第二训练数据集包含的训练数据之间的第一距离；

基于所述第二训练数据集包含的任意一个训练数据与所述第一训练数据集包含的至少一个训练数据之间的所述第一距离，确定所述任意一个训练数据与所述第一训练数据集之间的第二距离；

基于所述第二训练数据集包含的至少一个训练数据与所述第一训练数据集之间的所述第二距离，确定所述目标距离。

5.根据权利要求4所述的方法，其特征在于，基于所述第二训练数据集包含的任意一个训练数据与所述第一训练数据集包含的至少一个训练数据之间的所述第一距离，确定所述任意一个训练数据与所述第一训练数据集之间的第二距离，包括：

从所述任意一个训练数据与所述第一训练数据集包含的至少一个训练数据之间的所述第一距离中获取最小距离；

确定所述最小距离为所述第二距离。

6.根据权利要求4所述的方法，其特征在于，获取所述第二训练数据集包含的至少一个训练数据与所述第一训练数据集之间的所述第二距离，确定所述目标距离，包括：

从所述至少一个训练数据与所述第一训练数据集之间的所述第二距离中获取最大距离；

确定所述最大距离为所述目标距离。

7.根据权利要求2所述的方法，其特征在于，基于所述表征空间，确定所述第二训练数据集包含的训练数据的置信度，包括：

利用所述第一机器学习模型处理所述第二训练数据集，得到目标处理结果；

确定所述目标处理结果为所述置信度。

8.根据权利要求1至7中任意一项所述的方法，其特征在于，利用所述原始训练数据集中的第一训练数据集对初始机器学习模型进行训练，得到第一机器学习模型,包括：

基于所述第一训练数据集构建训练指令，其中，所述训练指令包括：输入指令、训练样本和训练标签；

利用所述训练指令对所述初始机器学习模型进行训练，得到所述第一机器学习模型。

9.根据权利要求1至7中任意一项所述的方法，其特征在于，所述方法还包括：

确定所述第一机器学习模型的训练次数；

在所述训练次数小于预设次数的情况下，重复执行选取所述目标训练数据，并对所述第一机器学习模型进行训练的步骤，直至所述训练次数大于或等于所述预设次数。

10.根据权利要求1至7中任意一项所述的方法，其特征在于，所述方法还包括：

输出所述目标训练数据；

接收所述目标训练数据对应的反馈结果，其中，所述反馈结果是对所述目标训练数据进行修改得到的结果；

基于所述反馈结果和所述第一训练数据集对所述第一机器学习模型进行训练，得到所述目标机器学习模型。

11.一种模型处理方法，其特征在于，包括：

响应作用于操作界面上的输入指令，在所述操作界面上显示原始训练数据集；

响应作用于所述操作界面上的训练指令，在所述操作界面上显示目标机器学习模型，其中，所述目标机器学习模型是基于所述原始训练数据集中的目标训练数据和第一训练数据集对第一机器学习模型进行训练得到的模型，所述目标训练数据是基于所述第一机器学习模型的表征空间从第二训练数据集中选取出的训练数据，所述第一机器学习模型是利用所述第一训练数据集对初始机器学习模型进行训练得到的模型。

12.一种模型处理方法，其特征在于，包括：

通过调用第一接口获取原始训练数据集，其中，所述第一接口包括第一参数，所述第一参数的参数值包括所述原始训练数据集；

基于所述目标训练数据和所述第一训练数据集对所述第一机器学习模型进行训练，得到目标机器学习模型；

通过调用第二接口输出所述目标机器学习模型，其中，所述第二接口包括第二参数，所述第二参数的参数值为所述目标机器学习模型。

13.一种电子设备，其特征在于，包括：

存储器，存储有可执行程序；

处理器，用于运行所述程序，其中，所述程序运行时执行权利要求1至12中任意一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的可执行程序，其中，在所述可执行程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至12中任意一项所述的方法。

15.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至12中任意一项所述的方法。