CN108027889B

CN108027889B - 一种用于增量式学习云系统的训练、调度方法及相关设备

Info

Publication number: CN108027889B
Application number: CN201680018168.2A
Authority: CN
Inventors: 邵云峰; 姚骏; 薛希俊
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-01-25
Filing date: 2016-01-25
Publication date: 2020-07-28
Anticipated expiration: 2036-01-25
Also published as: CN108027889A; WO2017127976A1

Abstract

一种用于增量式学习云系统的训练、调度方法及相关设备，涉及数据处理领域。该训练方法可包括训练云接收识别云发送模型训练请求；根据所述识别信息和所述识别模型的类型生成对应的训练任务(302)；通过所述识别信息计算所述训练任务的优先数(303)，所述训练任务的优先数对应所述训练任务的执行优先级别；根据所述优先数为所述训练任务分配训练资源，并按所述执行优先级别执行对应的训练任务(304)。通过计算训练任务的优先数来确定训练任务的优先级别，根据计算出的优先数对训练云中得训练任务进行调度，使得训练资源能够被多个训练任务合理共享，提高训练效率。

Description

一种用于增量式学习云系统的训练、调度方法及相关设备

技术领域

本发明涉及数据处理领域，尤其涉及的是一种用于增量式学习云系统的训练、调度方法及相关设备。

背景技术

机器学习是一种从海量数据中发掘有价值信息的方法。随着网络和传感器技术的发展，数据量越来越多，而且数据量和数据种类是随时间增加的，因此用于识别数据的识别模型也需要进行更新以适配新增加的数据量和数据种类。

目前常采用增量式的学习方法，采用数据存储器对数据源提供的数据进行存储，一个数据识别过程是由预测器根据模型训练器提供的预测模型对来自数据存储器的数据进行预测，而提供预测模型的模型训练设备的预测模型更新过程包括，根据数据存储器提供的数据对已有的预测模型进行训练，得到更新后的预测模型，并将该预测模型提供给预测器，这种增量式学的的方式通常是间断式进行的，即达到一定触发条件之后才会进行一次增量学习，例如新增数据量达到一定的量或者经过了固定的时间；一般来说，两次增量学习之间会有一定的时间间隔。

然而由于模型训练的计算量非常大，需要采用特殊的设备，如大量的图形处理器(Graphics Processing Unit，GPU)或者是现场可编程门阵列(Field-Programmable GateArray，FPGA)对模型训练进行加速，以及时匹配预测器正在处理的数据，这些特殊设备的成本较高，并且由于只是简单的通过新增数据量作为触发条件，在有多个训练任务被触发时，也没有对应的合理执行策略，仅仅是按照触发的时间顺序进行处理。

发明内容

本发明实施例提供了一种用于增量式学习云系统的训练、调度方法及相关设备，根据触发条件和触发顺序分配训练资源，使得训练资源能够被多个训练任务合理共享，提高训练效率。

有鉴于此，本发明实施例第一方面提供一种用于增量式学习云系统的调度方法，包括用于进行训练任务的训练和调度的训练云，该训练云的调度过程如下：首先接收所述训练云所在的云系统中的识别云发送模型训练请求，该模型训练请求中携带识别信息和识别模型的类型；之后根据该识别信息和所述识别模型的类型生成与这两者相对应的训练任务；再通过该识别信息计算所述训练任务的优先数，该优先数对应优先级别，即优先数大的优先级别高，优先数低的优先级别低；最后以各训练任务优先数为基础，为这些训练任务按照其对应的优先数分配训练资源，并按所述执行优先级别执行对应的训练任务。

可以看出，在具有多个训练任务时，由于一个训练任务的优先数需要由两类数据来决定，即训练任务的识别信息和训练任务的识别模型的类型，根据计算出的优先数对训练云中得训练任务进行调度，使得训练资源能够被多个训练任务合理共享，提高训练效率。

在一些实施例中，所述识别信息包括正确率值、新增数据量和新增数据种类之中的至少一种。

在一些实施例中，由于可能出现两个训练任务具有相同识别模型的类型，因此两个任务实际上都是对同一个模型进行的训练，对于此情形需要剔除其中一个训练任务，具体的，所述识别信息包括所述正确率值、所述新增数据量和所述新增数据种类，所述方法还包括：

当两个所述训练任务的识别模型的类型相同时，选取触发优先级高或执行优先级高的训练任务作为所述类型的训练模型的训练任务，所述触发优先级为按照所述识别模型的类型设置的所述识别信息中所述正确率值、所述新增数据量和所述新增数据种类的优先顺序。通过此相同训练模型剔除的机制能够避免一个训练模型在短时间内被反复训练，从而能够节省训练资源，增加训练的效率。

在一些实施例中，训练云计算优先数的方式包括：首先确定与训练任务对应的任务参数；而后确定出该训练任务的识别信息的第一加权因子，任务参数的第二加权因子；最后根据识别识别信息、任务参数、第一加权因子和第二加权因子计算所述训练任务的优先数。一个训练任务的优先数与其识别信息和任务参数相关，并且针对不同的训练任务设有对应识别信息和任务参数的不同的第一加权因子和第二加权因子，这些相关因素使得计算出的训练任务的优先数更为精确，从而能够更好的被调度。

在一些实施例中，任务参数根据训练任务被分为执行任务或者非执行任务而有所不同，执行任务即正在执行的训练任务，非执行任务即已经准备好，但还未开始执行的训练任务；当所述训练任务为执行任务时，所述任务参数包括任务重要级参数和运行时间估计参数；当所述训练任务为非执行任务时，所述任务参数包括任务重要级参数、模型参数、等待时间参数和运行时间估计参数。通过训练任务进一步细分计算，能够使得优先数的计算更为精准，并且使得训练任务的优先级别更为合理。

在一些实施例中，计算出各训练任务的优先数之后，即可对这些训练任务进行资源分配，具体的过程可包括：首先根据所述训练任务对应的识别模型确定所述训练任务所需的最低资源数和最佳资源数，每个训练任务的最低资源数和最佳资源数在一次调度的过程中是不变的；其次，设置一个预设的优先数阈值对训练任务进一步划分，对将最大优先数与所述优先数的差值小于预设的优先数阈值的所述优先数对应的训练任务确定为候选任务集合中的候选任务；

接着，根据所述优先数计算所述候选任务集合中各候选任务的分配资源数，将分配资源数不小于所述候选任务的最低资源数的候选任务确定为优先任务；将分配资源数小于所述候选任务的最低资源数，且所述候选任务的最低资源数与所述候选任务的分配资源数之差小于预设的资源调整阈值的候选任务确定为非优先任务；

最后，在确定出了优先任务和非优先任务之后，即可按照优先任务和非优先任务进行资源分配。

在一些实施例中，确定候选任务和费候选任务的过程中，会将候选任务的最低资源数与所述候选任务的分配资源数之差大于预设的资源调整阈值的候选任务从所述候选任务集合中去除。这部分训练任务由于缺少的资源数较多，排入候选任务也很难被分配到足够的资源数，因此去除会释放出一些原本将要分配给这些训练任务的资源，使得分配给优先任务和非优先任务的资源数更多，能够更好的执行优先任务和非优先任务。

在一些实施例中，所述候选任务集合中的优先任务和非优先任务的优先顺序是按照优先数从大到小的顺序排列的，并且所述优先任务的顺序位置位于非优先任务之前，即即便是优先任务的优先数小于非优先任务，仍旧排在非优先任务之前。通过此排列方式，能够使得训练任务的调度更加合理，即优先满足需要较少资源即可执行的训练任务，从而能够尽可能的在同一时间段内执行更多训练任务，提高训练效率。

在一些实施例中，为优先任务和非优先任务分配资源数的过程可以包括：

第一次资源分配，即所述训练云为所述优先任务和所述非优先任务按照所述优先数的顺序分配各自最低资源数；若第一分配之后，资源数还有剩余，则还可进行第二次资源分配，即所述训练云将第一次资源分配后剩余的资源按照优先数比例分配给所述优先任务。通过此分配方式能够使得资源分配更加合理。第一次和第二分配针对的均是优先任务。

在一些实施例中，若第二次资源分配后资源数还有剩余，则可进行第三次分配，即训练云将第二次资源分配后超出所述优先任务的最佳资源数的剩余资源按照优先数比例分配给非优先任务。在优先任务都分配至最佳资源数后，才考虑分配给非优先任务，能够提高资源利用的效率。

在一些实施例中，识别模型的类型包括人脸识别、图像分类、语音分析和视频分类之中的至少一种。识别模型的类型决定对应的训练任务的任务参数，以及相应的优先数，应当理解的是，识别模型并不仅限于上述四种。

本发明实施例第二方面还提供一种用于增量式学习云系统的训练方法，该方法主要应用于增量式学习云系统的识别云和训练云，该训练方法可包括：首先识别云接收未识别数据，所述未识别数据由UE发出或由存储设备提供，可以看出，未识别数据有两个来源；之后，识别云可根据识别模型对所述未识别数据进行识别，该识别模型由所述识别云所在云系统中的训练云提供；接着，由训练云在识别过程统计出采用的识别模型识别为识别数据的识别信息，并且在识别信息超出预设的识别阈值时，所述识别云向所述训练云发送模型训练请求，以使得所述训练云训练所述识别模型，所述模型训练请求携带所述识别信息和所述识别模型的类型。

可以看出，训练云是否进行识别模型的训练是由识别云发起的，识别云通过统计采用识别模型在识别未识别数据的过程中的表现，即统计出的识别信息，判断是否要模型训练，若判断要进行模型训练时，会向训练云发送模型训练请求以便于训练云对识别模型进行训练。此方式使得识别模型的训练具有针对性，训练的是最为需要训练的这类识别模型，从而使得模型训练更加合理。

在一些实施例中，识别云除了将识别信息携带在模型训练请求发送给训练云之外，还可以将该识别信息发送至存储设备进行存储，以便于后续查看识别日志和为训练云提供该识别信息。

在一些实施例中，识别云接收的未识别数据来至于存储设备，具体的接收从存储云读取的所述未识别数据，该存储设备内存储的未识别数据是由UE发送至存储设备的。此情形应用于数据量非常大的情况或者数据比较特殊或识别云当前的识别负载较高的情况下，预先将这些数据存储在存储云中，以便于后续识别云能获取这些未识别数据进行识别。

在一些实施例中，识别模型虽然都是由训练云所提供，但是识别云获取识别模型的方式有两种，一种是从训练云直接获取，即识别模型由所述识别云所在云系统中的训练云发送至所述识别云；另一种是从存储设备中获取，即识别模型由所述识别云从所述存储设备中读取，所述存储设备内存储的识别模型由所述识别云所在云系统中的训练云发送。训练云中一般不会将所有的识别模型均进行存储，而是仅存储一些最近训练过的识别模型，所有通过训练云训练过的识别模型均会存储在存储设备中，以便于识别云能够获取任意识别模型。

在一些实施例中，所述识别信息包括正确率值、新增数据量和新增数据种类之中的至少一种，所述识别阈值包括正确率阈值、新增数据量阈值和新增种类阈值之中的至少一种。

本发明实施例第三方面还提供一种用于增量式学习云系统的训练设备，其特征在于，包括：

第一接收模块，用于接收所述训练云所在的云系统中的识别云发送模型训练请求，所述模型训练请求中携带识别信息和识别模型的类型；

第一处理模块，用于根据所述识别信息和所述识别模型的类型生成对应的训练任务；

所述第一处理模块还用于，通过所述识别信息计算所述训练任务的优先数，所述训练任务的优先数对应所述训练任务的执行优先级别；

资源分配模块，用于根据所述优先数为所述训练任务分配训练资源，并按所述执行优先级别执行对应的训练任务。

在一些实施例中，所述识别信息包括所述正确率值、所述新增数据量和所述新增数据种类，所述第一处理模块还用于：

当两个所述训练任务的识别模型的类型相同时，选取触发优先级高或执行优先级高的训练任务作为所述类型的训练模型的训练任务，所述触发优先级为按照所述识别模型的类型设置的所述识别信息中所述正确率值、所述新增数据量和所述新增数据种类的优先顺序。

在一些实施例中，所述第一处理模块具体用于：

确定与训练任务对应的任务参数；

确定所述识别信息的第一加权因子和所述任务参数的第二加权因子；

根据所述识别信息、任务参数、第一加权因子和第二加权因子计算所述训练任务的优先数。

在一些实施例中，所述训练任务为执行任务或非执行任务；

当所述训练任务为执行任务时，所述任务参数包括任务重要级参数和运行时间估计参数；

当所述训练任务为非执行任务时，所述任务参数包括任务重要级参数、模型参数、等待时间参数和运行时间估计参数。

在一些实施例中，所述资源分配模块具体用于：

根据所述训练任务对应的识别模型确定所述训练任务所需的最低资源数和最佳资源数；

将最大优先数与所述优先数的差值小于预设的优先数阈值的所述优先数对应的训练任务确定为候选任务集合中的候选任务；

根据所述优先数计算所述候选任务集合中各候选任务的分配资源数；

将分配资源数不小于所述候选任务的最低资源数的候选任务确定为优先任务；

将分配资源数小于所述候选任务的最低资源数，且所述候选任务的最低资源数与所述候选任务的分配资源数之差小于预设的资源调整阈值的候选任务确定为非优先任务；

为所述候选任务集合中的候选任务按照所述优先任务和所述非优先任务分配对应的资源。

在一些实施例中，所述资源分配模块还用于：

将所述候选任务的最低资源数与所述候选任务的分配资源数之差大于预设的资源调整阈值的候选任务从所述候选任务集合中去除。

在一些实施例中，所述候选任务集合中的优先任务和非优先任务按照优先数从大到小的顺序排列，所述优先任务的顺序位置位于非优先任务之前。

在一些实施例中，具体分配资源的过程并非一次分配就分配完毕，而是通过多次分配依次分配完成，所述资源分配模块具体用于：

第一次资源分配，为所述优先任务和所述非优先任务按照所述优先数的顺序分配各自最低资源数；

第二次资源分配，将第一次资源分配后剩余的资源按照优先数比例分配给所述优先任务。

在一些实施例中，若第二次分配完毕依然有剩余部分，则可进行第三次分配，所述资源分配模块具体用于：

第三次资源分配，将第二次资源分配后超出所述优先任务的最佳资源数的剩余资源按照优先数比例分配给非优先任务。

在一些实施例中，所述识别模型的类型包括人脸识别、图像分类、语音分析和视频分类之中的至少一种。本发明实施例第四方面还提供一种用于增量式学习云系统的识别设备，可包括：

第二接收模块，用于收未识别数据，所述未识别数据由用户设备UE发出或由存储设备提供；

第二处理模块，用于根据识别模型对所述未识别数据进行识别，所述识别模型由所述识别云所在云系统中的训练设备提供；

统计模块，用于根据所述识别模型针对所述未识别数据统计识别信息；

所述第二处理模块还用于当所述识别信息超出预设的识别阈值时，向所述训练云发送模型训练请求，以使得所述训练云训练所述识别模型，所述模型训练请求携带所述识别信息和所述识别模型的类型。

在一些实施例中，所述识别设备还包括：

发送模块，用于将所述识别信息发送至所述存储设备。

在一些实施例中，所述第一接收模块具体用于：

接收从所述存储设备读取的所述未识别数据，所述存储设备内存储的未识别数据由所述UE发送至所述存储设备。

在一些实施例中，所述识别模型由所述识别设备所在云系统中的训练设备发送至所述识别设备；或，

所述识别模型由所述识别设备从所述存储设备中读取，所述存储设备内存储的识别模型由所述识别设备所在云系统中的训练设备发送。

从以上技术方案可以看出，本发明实施例具有以下优点：本发明实施例应用于增量式学习云系统，该系统中的训练云在接收到模型训练请求后会产生对应的训练任务，并且还会根据模型训练请求获取对应的识别信息，之后根据训练任务的识别信息和训练任务的识别模型的类型计算训练任务的优先数，该优先数表示训练任务的执行优先级别，在具有多个训练任务时，由于一个训练任务的优先数需要由两类数据来决定，即训练任务的识别信息和训练任务的识别模型的类型，根据计算出的优先数对训练云中得训练任务进行调度，使得训练资源能够被多个训练任务合理共享，提高训练效率。

附图说明

图1是现有增量式学习系统的结构示意图；

图2是本发明实施例的增量式学习云系统的架构图；

图3为本发明实施例的用于增量式学习云系统的调度方法的一个实施例图；

图4是本发明实施例的基于增量式学习云系统的训练方法的一个实施例图；

图5是本发明实施例的训练设备的一个实施例图；

图6是本发明实施例的识别设备的一个实施例图；

图7是本发明实施例的训练设备的一个实施例；

图8是本发明实施例的识别设备的一个实施例。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。

以下分别进行详细说明。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。

随着网络和传感器技术的发展，数据量越来越多，而且数据量和数据种类是随时间增加的，因此需要一种增量式的学习方法。请参阅图1，图1是现有增量式学习系统的结构示意图，其中，空心粗箭头所示的流程是数据的存储过程，从数据源产生的数据被数据存储器存储。实心粗箭头所示的流程是数据预测的过程，从数据存储器中读取的数据在预测器中根据已经训练得到的预测模型进行预测。实心细箭头所示的流程是增量学习的流程，数据存储器中的数据和已有的预测模型在模型训练器中进行模型更新得到更新的预测模型。此增量式学习系统的增量学习通常是间断式进行，即达到一定条件后才进行一次增量学习。相邻的两次增量学习通常有时间间隔。

可以看出，此增量式系统中的预测模型在更新时，依赖数据存储器中的数据和已有的预测模型，且达到预设的条件才进行一次更新，如每经过固定时间进行一次更新等，并且相邻的两次的更新过程会有时间间隔。

针对上述问题，本发明实施例提出了一种增量式学习云系统，该系统为将上述增量式系统云化获得，请参阅图2，图2是本发明实施例的增量式学习云系统的架构图，其中识别云包含现有技术的预测器的功能，存储云包含现有技术的数据存储器的功能，训练云包含现有技术的模型训练器的功能。用户通过各种应用向识别云或存储云提供各种未识别数据。

从各个云的功能来看：

识别云的未识别数据具有两个来源，其一是用户提供的未识别数据，其二是存储云提供的未识别数据，第二种实质也是由用户提供，只是预先存储于存储云中，两种来源如图2中实心粗箭头指示；识别模型同样具有两个来源，其一是来自于训练云提供，其二是来自于存储云，第二种实质也有训练云提供，只是预先存储于存储于中，如图2中空心粗箭头所示；可以看出，采用第二种方式时，识别云识别数据与训练云对识别模型进行训练相互之间不会产生冲突，从而使得模型训练过程可以无缝进行，而无需设置一定的时间间隔，此外，识别云会对未识别数据按照识别模型进行识别，而后会将识别后的数据分类存储在存储云中，如图2中从识别云到存储云的细箭头所示；此外，该识别云还会对采用识别模型而得到的识别信息提供给训练云，如图2中识别云与训练云之间的实心细箭头所示。这些训练信息中包括但不仅限于新增数据量、新增数据种类和正确率值。

训练云主要对已有的识别模型进行训练，训练所需的参数包括通过该识别模型识别的数据以及识别信息，其中，识别模型已识别的数据由存储云提供，如图2所示的存储云到训练云的细箭头所示，识别信息则由识别云提供，训练云会根据这两类信息作为参数对识别模型进行更新，从而提供更加精确的识别模型，此外，训练云还会将识别模型及其各项参数进行备份存储至存储云中，如图2中训练云到存储云的实心细箭头所示，以便于存储云能够为识别云提供该识别模型。

存储云主要提供各项存储功能，如来着训练云的识别模型及其参数的备份，来自于识别云的分类存储的数据，来自于用户的未识别数据，此外，存储云还会向训练云提供识别模型识别后的数据，以及向识别云提供未识别数据和对应的识别模型。

下面对本发明实施例的用于增量式学习云系统的调度方法进行介绍，请参阅图3，图3为本发明实施例的用于增量式学习云系统的调度方法的一个实施例图，如图1所示，本发明实施例的用于增量式学习云系统的调度方法，可包括以下内容：

301、训练云接收训练云所在的云系统中的识别云发送模型训练请求。

其中，模型训练请求指示识别信息和识别模型的类型，由于在实际情形下，未识别数据的类型分为多种，这些不同类别的未识别数据需要采用不同类型的识别模型进行识别，而识别云发送的模型训练请求可以根据当前识别的数据的种类附带上识别模型的类别。

需要说明的是，识别信息可包括正确率值、新增数据量和新增数据种类之中的至少一种，可以看出，识别信息是采用某一类别的识别模型识别一定的数据后统计得出的，正确率值意味着当次识别过程中采用该识别模型正确识别出数据的概率，新增数据量表示采用该识别模型的情况下实际识别的比识别模型中定义的数据量超出的数据量，新增数据种类表示采用该识别模型的情况下识别未识别数据时，该识别模型中并未定义的数据种类；在实际处理中具体采用哪几种作为识别模型训练的基础，可根据实际的识别模型进行确定，此处不作限定。

其中，新增数据量表示新增数据占已有数据的百分比；新增数据种类表示新增种类占已有种类的百分比或者新增种类的个数；正确率值表示当前的识别误差与期待误差的差值，一般来说，该差值超过一定程度时，需要对识别模型进行训练。

需要说明的是，识别模型的类型可包括人脸识别、图像分类、语音分析和视频分类之中的至少一种，对应不同种类的未识别数据，如人脸识别模型对应人脸识别数据，图像分类识别模型对应图像分类数据，语音分析识别模型对应语音分析数据，视频分类识别模型对应视频分类数据；应理解，识别模型的类型除前述几种之外，还有很多其他的类型，例如指纹识别虹膜识别等生物特征识别类，又例如论文分类和小说分类等文字上的分类等，各种音频、图形的分析，甚至是一些自定义的识别均可建立对应的识别模型。

302、训练云根据识别信息和识别模型的类型生成对应的训练任务；

可以理解的是，在训练云获知该识别信息和识别模型的类型，即可根据此两种信息生成对应的训练任务，该训练任务是以识别信息作为基础，针对识别模型进行的训练。

需要说明的是，在生成训练任务时是以识别信息是否超出预设的识别信息阈值来确定的，例如上述正确率值、新增数据量和新增数据种类之中的至少一种超出了预设阈值，则表示识别模型已经无法适应当前识别环境，需要对其进行更新，以提高其正确率值以及覆盖更多的数据量和数据种类。

303、训练云通过识别信息计算训练任务的优先数。

其中，训练任务的优先数对应训练任务的执行优先级别，本实施例中优先数越大的表示其执行优先级别高，当然也可采用优先数越小其优先级越高的方式，或是采用其他能够表示执行优先级别的优先数的方式，此处不作限定。

可选的，根据识别信息计算训练任务的优先数可包括：

训练云确定与训练任务对应的任务参数；

其中，任务参数是训练任务在被创建时赋予，并且随着训练任务的执行情况的不同会有所改变，例如增加一些参数，改变原有参数的值等。可选的，训练任务为执行任务或非执行任务；当训练任务为执行任务时，任务参数包括任务重要级参数和运行时间估计参数；当训练任务为非执行任务时，任务参数包括任务重要级参数、模型参数、等待时间参数和运行时间估计参数。

其中，任务重要性参数是人为设置的参数，可根据实际的处理的数据的不同设置不同的参数；模型参数表示模型参数传输时间与计算时间的百分比，或该训练任务的识别模型大小占全部识别模型大小的百分比；等待时间因子表示等待时间长度，或该训练任务等待时间长度占全部任务的等待时间长度的百分比；运行时间估计因子表示计算时间的估计长度，或该任务计算时间的长度占全部任务的计算时间长度的百分比。

可以看出，任务参数作为一项训练任务的属性，在计算优先数时，任务参数的不同会对优先数的结果产生影响，从而影响该训练任务的执行优先级别。

训练云确定识别信息的第一加权因子和任务参数的第二加权因子。

需要说明的是，虽然识别信息和任务参数均是后续优先数的计算基础，但是识别信息和任务参数根据识别模型的类型不同具有不同的加权因子，并且识别信息和任务参数两者之间的加权因子一般来说可以相同也可以不相同，例如识别信息中正确率值、新增数据量和新增数据种类的加权因子一般来说也是可以相同也可以不相同，任务参数中的各类参数也类似，具体的均以实际情况要求而定。

训练云根据识别信息、任务参数、第一加权因子和第二加权因子计算训练任务的优先数。

举例来说，针对未执行任务，其优先数等于w1*新增数据量+w2*新增数据种类+w3*正确率+未执行任务的任务参数，该未执行任务的任务参数可等于w7*任务重要性参数-w8*模型参数+w9*等待时间参数-w10*运行时间估计参数；针对已执行任务，其优先数等于w4*新增数据量+w5*新增数据种类+w6*正确率值+执行任务的任务参数，该执行任务的任务参数可等于w11*任务重要性参数-w12*运行时间估计参数。

其中，w1至w3，以及w4至w6均为第一加权因子，w7至w10，以及w11和w12均为第二加权因子，w1至w12表示对应的各参数的权重，w1至w12的值可根据训练任务需要进行设置。

可以看出，在确定出识别信息、任务参数、第一加权因子和第二加权因子后，就可对优先数进行计算，例如优先数越大表示优先级越高，则具体计算为，第一加权因子乘以识别信息，第二加权因子乘以任务参数，再将两个乘积相加得到优先数。对于并非以优先数越大表示优先级越高的情况，如优先数越小表示优先级越高的情况，也采用其他计算方式，只要能够反应出正确的训练任务的执行优先级别即可。

需要说明的是，若两个训练任务的识别模型的类型相同的，则需要对其中一个进行处理，可选的，识别信息包括正确率值、新增数据量和新增数据种类，方法包括：

当两个训练任务的识别模型的类型相同时，选取触发优先级高或执行优先级高的训练任务作为类型的训练模型的训练任务，触发优先级为按照识别模型的类型设置的识别信息中正确率值、新增数据量和新增数据种类的优先顺序。

可以看出，若两个训练任务的识别模型的类型相同，则需要考虑其识别信息中的正确率值、新增数据量和新增数据种类的优先顺序，或者还可以直接考虑优先数，选取优先数对应优先级别较高的训练任务，从而避免一个识别模型被重复的训练，由于一般只会保存最近一次的识别模型，因此其中一次的训练实际上无效的，因此引入此机制能够消除这种隐患，从而提高效率。

304、训练云根据优先数为训练任务分配训练资源，并按执行执行优先级别执行对应的训练任务。

其中，在优先数确定的情况下，训练云即可根据优先数为优先数不同的训练任务分配训练资源，并按照优先数得出的执行优先级别执行对应的训练任务，如有五个训练任务，五个训练任务分别具有不同的执行优先级别，则按照执行优先级别从高到底顺序执行这五个训练任务，当然，若训练云能够同时训练两个以上的识别模型，也同样按照训练任务的优先级顺序一次执行多个训练任务。

可以看出，本实施例中训练云在接收到模型训练请求后会产生对应的训练任务，并且还会根据模型训练请求获取对应的识别信息，之后根据训练任务的识别信息和训练任务的识别模型的类型计算训练任务的优先数，该优先数表示训练任务的执行优先级别，在具有多个训练任务时，由于一个训练的优先数需要由两类数据来决定，即训识别信息和练模型的类型，根据计算出的优先数对训练云中得训练任务进行调度，使得训练资源能够被多个训练任务合理共享，提高训练效率。

可选的，图3中步骤304进一步可包括：

a、训练云根据训练任务对应的识别模型确定训练任务所需的最低资源数和最佳资源数。

其中，当识别模型确定后，更新该模型需要的计算、存储资源能够大致确定，从而训练该识别模型的所需的最低资源数和最佳资源数也能够确定，根据每个训练任务，不论是执行任务还是非执行任务，都能够通过其所需的最低资源数和最佳资源数计算出实际执行该任务需要使用的硬件资源，这些硬件资源包括硬件资源的种类、数量以及硬件资源的使用时间。

b、训练云将最大优先数与优先数的差值小于预设的优先数阈值的优先数对应的训练任务确定为候选任务集合中的候选任务。

其中，优先数阈值用以判断一项训练任务是候选任务还是非候选任务，在执行顺序上，候选任务是高于非候选任务的，分出此两类是为了更好的进行资源分配，在资源数量有限的情况下，优先分配给需要优先执行的训练任务。

c、训练云根据优先数计算候选任务集合中各候选任务的分配资源数。

其中，在计算待分配资源时，主要考虑针对候选任务的分配，根据优先数按比例进行分配，例如候选任务有5个，总资源数为100，则按照优先数分配依次可以是26、22、20、17、15，即总的来说若优先级从高到底排列时，其所能分配到的资源是依次减少的。

d、训练云将分配资源数不小于候选任务的最低资源数的候选任务确定为优先任务。

其中，在计算完成之后，根据各候选任务分配到的资源数及其最低资源数进行对比，当分配到的资源数不小于最低资源数时，则表示该候选任务是优先任务，即表示按照前述计算结果分配的资源能够支撑该候选任务的执行。

e、训练云将分配资源数小于候选任务的最低资源数，且候选任务的最低资源数与候选任务的分配资源数之差小于预设的资源调整阈值的候选任务确定为非优先任务。

其中，在某一候选任务分配到的资源数小于其最低资源数，且分配到的资源数与最低资源数之差的绝对值小于资源调整阈值时，其仍为候选任务，不过将其列入非优先任务，在优先任务之后执行。

f、训练云为候选任务集合中的候选任务按照优先任务和非优先任务分配对应的资源。

其中，在候选任务集合中确定出了优先任务和非优先任务后，会针对优先任务构成的集合和非优先任务构成的集合分配资源，此次分配是按照前次计算出的各候选任务的被分配到的资源数计算的，因此优先任务能够全部满足最低资源数的要求；而非优先任务则分为两种情况，第一种是在计算分配资源时，并未将全部的资源计算在内，而是留有一些余量，且这些余量能够满足一部分或者全部非优先任务距离最低资源数的差值，甚至在分配完成之后还有剩余资源，第二种情况则是计算过程已经将全部的资源计算在内，实际分配时，非优先任务并没有被分配到资源数达到最低资源数。

可选的，训练云将候选任务的最低资源数与候选任务的分配资源数之差大于预设的资源调整阈值的候选任务从候选任务集合中去除。

可以看出，在候选任务的最低资源数与候选任务的分配资源数之差大于预设的资源调整阈值的情况下，表示即便将该任务列入候选任务，也没有足够的资源支撑其执行，因此可将此类训练任务从候选任务集合中去除，此时针对步骤f的第二种可能的情况会带来两种不同的分支，分支一是去除的这些训练任务释放的资源数能够使得一部分非优先任务达到最低资源数，但是并不能达到所有的非优先任务均达到最低资源数；分支二是，能够使得所有非优先任务均能够达到最低资源数，并且可能还有剩余资源。

可选的，为了便于计算分配的资源，候选任务集合中的优先任务和非优先任务按照优先数从大到小的顺序排列，优先任务的顺序位置位于非优先任务之前。

可选的，在上述分支二的情况下，步骤f可包括至少两次的资源分配，分别为：

第一次资源分配，训练云为优先任务和非优先任务按照优先数的顺序分配各自最低资源数；

第二次资源分配，训练云将第一次资源分配后剩余的资源按照优先数比例分配给优先任务。

可以理解的是，若第二次分配仍有余量，则可进行第三次分配：

第三次资源分配，训练云将第二次资源分配后超出优先任务的最佳资源数的剩余资源按照优先数比例分配给非优先任务。

其中，第一次资源分配即为优先任务和非优先任务分配至最低资源数，第二次资源分配则是将第一分配后剩余的资源优先分配给优先任务，此时若剩余资源足够则会将所有的优先任务均分配至最佳资源数，否则会将优先任务中前一部分任务分配至最佳资源数；若优先任务全分配至最佳资源数时，仍留有剩余，此时可进行第三次资源分配，即将这些剩余的资源依此分配给非优先任务，若将所有的非优先任务均分配至最佳资源数后仍留有资源，则继续分配至前述步骤中被去掉的候选任务，若分配至最佳资源数后仍有剩余，还可继续分配给非候选任务。

可以看出，采用上述资源分配方式在具有多个训练任务的情况下，尤其是资源有限的情况下，能够使得资源最有效的被利用，使得执行优先级高的训练任务能够在足够的资源下优先执行，从而提高多训练任务的情况下的执行效率。

需要说明的是，在本发明实施例中，由于任务列表中的任务执行的周期较长，为了资源更为合理的利用，还会设定一个周期，每经过一个该周期，都会对执行任务以及非执行任务进行优先数的重新计算，以便于重新执行上述步骤a至步骤f从而对进行资源的调整。

上面对本发明实施例的调度方法进行了介绍，下面对发明实施例的训练方法进行介绍，该方法基于图2所示的增量式学习云系统，具体的，请参阅图4，图4是本发明实施例的基于增量式学习云系统的训练方法的一个实施例图，如图4所示，该训练方法可包括：

401、识别云接收未识别数据。

其中，未识别数据由UE发出或由存储设备提供。

可选的，当未识别数据由存储设备提供时，识别云接收未识别数据的过程为：识别云接收从存储云读取的未识别数据，存储设备内存储的未识别数据由UE发送发送至存储设备。

402、识别云根据识别模型对未识别数据进行识别。

其中，识别模型由识别云所在云系统中的训练云提供。

可选的，训练云在训练完成识别模型后，有两种方式对识别模型进行处理，一种是可以将该识别模型备份存储在存储云中，另一种是将训练完成的识别模型直接提供给识别云。此时，识别模型由识别云所在云系统中的训练云提供包括：

识别模型由识别云所在云系统中的训练云发送至识别云；或，

识别模型由识别云从存储设备中读取，存储设备内存储的识别模型由识别云所在云系统中的训练云发送。

403、识别云识别模型针对未识别数据统计识别信息；

其中，识别云在接收到未识别数据以及针对的识别模型后，会采用该模型对未识别数据进行识别，并统计出采用该识别模型识别未识别数据后的识别信息。

可选的，识别云将识别信息发送至存储设备。即除了采用该识别信息判断该识别模型是否需要训练之外，还可将该识别信息发送至存储设备进行存储，以便于后续同样的识别模型识别未识别数据产生识别信息后作为参照。

404、识别云向训练云发送模型训练请求。

其中，当识别信息超出预设的识别阈值时，识别云向训练云发送模型训练请求，从而训练云能够训练识别模型，模型训练请求携带识别信息和识别模型的类型。

其中，识别信息包括正确率值、新增数据量和新增数据种类之中的至少一种，识别阈值包括正确率阈值、新增数据量阈值和新增种类阈值之中的至少一种。

可以看出，只要识别信息中正确率值、新增数据量和新增数据种类之中一种超出对应阈值，即会触发识别云产生模型训练请求，该模型训练请求会附带上识别模型的类型和识别信息，以便于训练云能够根据这两种信息对识别模型进行训练，即本发明实施例中模型训练的触发条件除了一般的固定一段时间或特定触发条件之外，实际是由识别云进行触发的，由于识别云能够通过识别信息知晓当前识别模型是否需要被训练，因此通过识别云进行模型训练的触发能够使得被训练的识别模型是当前最需要被训练的识别模型，从而使得模型训练更为合理，最重能够提高数据识别的效率。

上面对发明实施例的训练方法和调度方法进行了介绍，下面以一个实际的例子对训练方法和调度方法进行说明。

其中，首先对触发条件进行设定，本实施例中采用四种识别模型，识别阈值包括正确率阈值、新增数据量阈值和新增种类阈值，即每种识别模型的类型的均对应此三个阈值，如下表1所示：

表1

需要说明的是，假如某个时刻“人脸识别”的正确率为89％，则触发“人脸识别”的正确率过低的训练任务，“人脸识别”的正确率过低的训练任务进入训练任务调度器中进行调度；假如某个时刻“人脸识别”的新增数据量为11％，则触发“人脸识别”的新增数据量的训练任务，“人脸识别”的新增数据量的训练任务进入训练任务调度器中进行调度；假如某个时刻“人脸识别”的新增种类为1，则触发“人脸识别”的新增种类的训练任务，“人脸识别”的新增数据量的训练任务进入训练任务调度器中进行调度；假如某个时刻“图像分类”的正确率为84％，则触发“图像分类”的正确率过低的训练任务，“图像分类”的正确率过低的训练任务进入训练任务调度器中进行调度。

其中，数据识别的具体步骤包括：新来的业务数据(即未识别数据)存储于存储云中；

新来的业务数据在识别云中根据已经得到的训练模型进行识别，并将识别结果存于存储云中；

在识别云中，针对当前识别模型对识别的可信度、识别的正确性以及是否是新增加的分类数据进行标记，标记结果存储于存储云中；

在识别云中，对正确率、新增数据以及新增种类信息进行统计，统计信息定期在存储云中进行备份；正确率与期待正确率的差值即正确率值。

当正确率值超出正确率阈值，或新增数据量超出新增数据量阈值，或新增数据种类高于新增种类阈值时，则通过发出模型训练请求触发训练云进行训练，训练云根据模型训练训练请求生成训练任务，且训练云根据训练任务的优先级对任务的模型进行训练。

其中，具体训练步骤可包括：

识别云根据触发类型组织不同形式的数据。对于正确率低于阈值的采用各类正确识别数据和不正确的数据共同训练，对于新增数据量高于阈值采用已训练过的各类正确数据和新增数据共同训练，对于新增数据种类高于阈值采用已训练过的各类正确数据和新增种类数据共同训练。

存储云根据识别云提供的信息组织数据上传到训练云中；

训练云根据触发类型，实施不同的训练模型，对于正确率低于阈值，或新增数据量高于阈值情况采用不扩展模型的增量学习模式，对于新增数据种类高于阈值采用模型扩展的增量学习模式。

下面对具体的训练任务的调度过程进行说明。

首先，可设定各识别模型的触发种类优先级：

“人脸识别”新增种类＞正确率过低＞新增数据量

“图像分类”新增种类＞正确率过低＞新增数据量

“语音分析”正确率过低＞新增种类＞新增数据量

“视频分类”不设置固定的优先级，直接根据优先数调度。

下表2是正确率阈值的设置：

表2

	人脸识别	图像分类	语音分析	视频分类
					正确率阈值	95％	90％	90％	90％

下表3是识别信息和任务参数的设置：

表3

其中，第一加权因子和第二加权因子中的w1至w12均设为1，优先数阈值C1设为0.2，调度条件设为每隔0.1小时或新的任务加入或有任务完成时进行一次调度，训练资源设为100个单位的资源，具体的各识别模型的类型占用的最低资源数和最佳资源数如下表4所示：

表4

	人脸识别	图像分类	语音分析	视频分类
					最低资源	30	50	30	10
最佳资源	50	100	60	20

其中，资源调整阈值V1可设为10。

下面以仅有一种业务为例，在数据识别的过程中，某个时刻“人脸识别”的正确率为84％，则触发“人脸识别”的正确率过低的训练任务，其为未执行任务，“人脸识别”的正确率过低的训练任务进入训练任务调度器中进行调度，假设此时各业务的状态如下表5所示：

表5

	人脸识别	图像分类	语音分析	视频分类
					是否进入任务调度队列	是	否	否	否
新增数据量	0.05	0.01	0.02	0.03
					新增数据种类	0	0	0.1	0.1
正确率	0.06	0.01	0.02	0.02
					任务重要性参数	0.2	0.2	0.1	0.1
模型参数	0.1	0.1	0.1	0.1
					等待时间参数	0	0	0	0
运行时间估计参数	0.1	0.3	0.1	0.5

首先计算当前各任务的优先数：“人脸识别”的优先数等于0.11。

具体的资源分配过程包括：

首先确定任务列表{(“人脸识别”，30，50)}；

继续确定出任务优先数列表{(“人脸识别”，30，50，0.11)}；

由于0.11-0.11小于0.2，将优先数与最大值相差小于0.2的任务列为候选任务得到{(“人脸识别”，30，50，0.11)}；

根据优先数比例计算各个候选任务可以分配到的资源数；

其中，由于只有一个候选任务，因此该“人脸识别”任务被分配到的资源数为100。

根据训练任务被分配的资源数与其最低资源数的差异，与资源数阈值V1进行比较：

则，剩余任务为{(“人脸识别”，30，50，0.11)}；

优先任务组成的任务集合为P＝{(“人脸识别”，30，50，0.11)}；

非优先任务组成的任务集合为Q＝{}；

接着，为每个候选任务分配各任务的最低资源数的资源：

得到{(“人脸识别”，30，30，50)}。

接着，资源还剩余70，可将将剩下的资源根据优先数比例分配给优先任务：

得到{(“人脸识别”，100，30，50)}。

之后，由于人脸识别的最佳资源数为50，超出的资源数50将按优先数比例分配给其它优先任务：

得到{(“人脸识别”，50，30，50)}。

无其它任务，此次调度结束，此时任务运行情况：

得到{(“人脸识别”，50)}。

由于“人脸识别”是新运行的任务，且为“正确率过低”的触发类型，采用各类正确识别数据和不正确的数据共同训练，采用非增量的训练方式。

下面以同时具有两种业务为例，某个时刻“人脸识别”的正确率为89％，则触发“人脸识别”的正确率过低的训练任务，且为未执行任务，“人脸识别”的正确率过低的训练任务进入训练任务调度器中进行调度，假设此时各业务的状态如下表6所示：

表6

首先计算当前各任务的优先数：“人脸识别”的优先数等于0.25，“图像分类”的优先数等于-0.11等于0(对于负数都归一化为0处理)

具体的资源分配过程包括：

首先确定任务列表{(“人脸识别”，30，50)，(“图像分类”，50，100)}；

继续确定出任务优先数列表：

{(“人脸识别”，30，50，0.25)，(“图像分类”，50，100，0)}；

由于0.25-0.25小于0.2，0.25-0大于0.2，按照将优先数与最大值相差小于0.2的任务列为候选任务：

{(“人脸识别”，30，50，0.25)，(“图像分类”，50，100，0)}。

根据优先数比例计算各个候选任务可以分配到的资源数；

其中，总资源数为100，由于“图像分类”的优先数是0，因此按优先数分得资源数为0，而“图像分类”最少需要50个资源数，最少资源数与按优先数分得资源数的差值为50，大于阈值V1＝10，因此“图像分类”被淘汰。

剩余任务为{(“人脸识别”，30，50，0.25)}

优先任务组成的任务集合为P＝{(“人脸识别”，30，50，0.25)}

非优先任务组成的任务集合为Q＝{}(没有任务的最低资源数介于按优先数分得资源数和按优先数分得资源数+V1之间)

接着，为每个候选任务分配各任务的最低资源数的资源：

得到{(“人脸识别”，30，30，50)}

接着，资源还剩余70，将剩下的资源根据优先数比例分配给优先任务：

{(“人脸识别”，100，30，50)}

得到{(“人脸识别”，50，30，50)}

根据优先数顺序查找非候选任务中最低资源数小于剩余资源的任务，将该任务以最低优先数调度：{(“图像分类”，50，50，100)}

无其它任务，此次调度结束：

得到{(“人脸识别”，50)，(“图像分类”，50)}

由于“图像分类”是新运行的任务，且为“正确率过低”的触发类型，采用各类正确识别数据和不正确的数据共同训练，采用非增量的训练方式。

下面以具有三种业务为例，某个时刻“语音分析”的新增种类为10，则触发“语音分析”的新增种类的训练任务，以语音分析为未执行任务为例，“语音分析”的新增种类的训练任务进入训练任务调度器中进行调度，假设此时各业务的状态如下表

表7

	人脸识别	图像分类	语音分析	视频分类
					是否进入任务调度队列	是	是	是	否
新增数据集因子	0.07	0.03	0.04	0.05
					新增种类因子	0	0	0.1	0.1
正确率因子	0.04	0.06	0.03	0.03
					任务重要性因子	0.2	0.2	0.5	0.1
模型参数因子	0.1	0.1	0.1	0.1
					等待时间因子	0	0	0	0
运行时间估计因子	0.05	0.3	0.1	0.5

首先计算当前各任务的优先数：“人脸识别”的优先数等于0.16，“图像分类”的优先数等于-0.11等于0，“语音分析”的优先数等于0.47。

具体的资源分配过程包括：

首先确定任务列表：

{(“人脸识别”，30，50)，(“图像分类”，50，100)，(“语音分析”，30，60)}。

继续确定出任务优先数列表：

{(“语音分析”，30，60，0.97)，(“人脸识别”，30，50，0.27)，(“图像分类”，50，100，0)}。

由于0.47-0.16大于0.2，0.47-0大于0.2，0.47-0.47小于0.2，按照将优先数与最大值相差小于0.2的任务列为候选任务：

得到{(“语音分析”，30，60，0.47)}。

根据优先数比例计算各个候选任务可以分配到的资源数：

其中，总资源数为100，根据任务的分配资源与最低资源差异：

剩余任务为{(“语音分析”，30，60，0.47)}

优先任务组成的任务集合为P＝{(“语音分析”，30，60，0.47)}

非优先任务组成的任务集合为Q＝{}

接着，为每个候选任务分配各任务的最低资源数的资源：

得到{(“语音分析”，30，30，60)}

{(“语音分析”，100，30，60)}

之后，由于语音分析的最佳资源数为60，超出的资源数40将按优先数比例分配给其它优先任务：

得到{(“语音分析”，60，30，60)}

根据优先数顺序查找非候选任务中最低资源数小于剩余资源的任务，将该任务以最低优先数调度：{(“人脸识别”，30，30，50)}

无其它任务，此次调度结束：

得到{(“语音分析”，60)，(“人脸识别”，30)}

将“图像分类”从训练中中调度出来。

由于“语音分析”是新运行的任务，且为“新增种类”的触发类型，采用各类正确数据和新增种类数据共同训练，采用增量的训练方式。

上面对本发明实施例的用于增量式学习云系统的训练方法进行了介绍，下面对本发明实施例的用于增量式学习云系统的训练设备进行介绍，该训练设备可以是一台应用服务器或是多台应用服务器组成，该训练设备主要用于识别模型的生成和训练，请参阅图5，图5是本发明实施例训练设备的一个实施例图，该训练设备可包括：

第一接收模块501，用于接收所述训练云所在的云系统中的识别云发送模型训练请求，所述模型训练请求中携带识别信息和识别模型的类型；

其中，第一接收模块501可以实现图3所示实施例中的步骤301。识别信息包括正确率值、新增数据量和新增数据种类之中的至少一种。可以看出，识别信息是采用某一类别的识别模型识别一定的数据后统计得出的，识别信息中各种种类的值的说明与图3所示实施例中针对步骤301的说明类似，此处不再赘述。

此外，识别模型的类型可包括人脸识别、图像分类、语音分析和视频分类之中的至少一种，对应不同种类的未识别数据，具体的可参见图3所示实施例中针对步骤301的说明，此处不再赘述。

第一处理模块502，用于根据所述识别信息和所述识别模型的类型生成对应的训练任务；

所述第一处理模块502还用于，通过所述识别信息计算所述训练任务的优先数，所述训练任务的优先数对应所述训练任务的执行优先级别；

其中，第一处理模块502可以实现图3所示实施例中的步骤302和步骤303。第一处理模块502主要处理两个方面，一方面是根据识别信息和识别模型的类型生成对应的训练任务，具体的是否生成训练任务的条件可参见图3所是实施例中针对步骤302的说明，此处不再赘述。第二方面是计算出每个训练任务的优先数，该优先数意味着对应的训练任务的优先级别。

其中一个计算方式是首先确定与训练任务对应的任务参数，之后确定所述识别信息的第一加权因子和所述任务参数的第二加权因子；再根据所述识别信息、任务参数、第一加权因子和第二加权因子计算所述训练任务的优先数。该计算方式计算优先数的具体计算过程可参见图3所是实施例中针对步骤303的说明，此处不再赘述。

需要说明的是，优先数计算过程中根据不同的任务类型还具有不同的任务参数，计算优先数的方式也有所差别；例如，根据训练任务是否执行分为两类，所述训练任务为执行任务或非执行任务；当所述训练任务为执行任务时，所述任务参数包括任务重要级参数和运行时间估计参数；当所述训练任务为非执行任务时，所述任务参数包括任务重要级参数、模型参数、等待时间参数和运行时间估计参数。

此外，需要说明的是，若两个训练任务的识别模型的类型相同的，则需要对其中一个进行处理，可选的，识别信息包括正确率值、新增数据量和新增数据种类，方法包括：

资源分配模块503，用于根据所述优先数为所述训练任务分配训练资源，并按所述执行优先级别执行对应的训练任务。

其中，资源分配模块503可以实现图3所示实施例中的步骤304。资源分配模块503主要具有优先数的各训练任务的执行进行调度。该资源分配模块503的功能包括两个部分，一个部分是对于生成的训练任务进行分类，该分类并非一次分类，而是可以有多次分类的情况。其中，具体的资源分配过程与图3所示实施例中针对步骤304的说明中的步骤a至步骤f类似，其主要的思想的首先确定出候选任务，而后为候选任务预分配资源，根据预分配的结果进一步确定出候选任务中的优先任务和非优先任务，之后在按照分出的训练任务的级别从高到低分配资源，具体分配过程此处不再赘述。

此外，候选任务集合中的任务数量并非一直不变，在分配过程中，将所述候选任务的最低资源数与所述候选任务的分配资源数之差大于预设的资源调整阈值的候选任务从所述候选任务集合中去除。这部分训练任务由于最低资源数与分配资源数相差过大，因而需要补充很多的资源才可运行，将其设置在较高的优先级会占用过多紧张资源，因此并不合理。

此外，所述候选任务集合中的优先任务和非优先任务按照优先数从大到小的顺序排列，所述优先任务的顺序位置位于非优先任务之前。

在各任务级别划分完成后，会对各集合的训练任务进行实际的资源分配，该分配的方式并不是一次分配，而是多次分配，例如，具体的，资源分配模块503具体用于：第一次资源分配，为所述优先任务和所述非优先任务按照所述优先数的顺序分配各自最低资源数；而后第二次资源分配，将第一次资源分配后剩余的资源按照优先数比例分配给所述优先任务。若仍有剩余的情况，还可进行第三次资源分配，将第二次资源分配后超出所述优先任务的最佳资源数的剩余资源按照优先数比例分配给非优先任务。

可以看出，本实施例中第一接收模块501在接收到模型训练请求后，会由第一处理模块502产生对应的训练任务，并且还会根据模型训练请求获取对应的识别信息，之后第一处理模块502还会根据训练任务的识别信息和训练任务的识别模型的类型计算训练任务的优先数，该优先数表示训练任务的执行优先级别，在具有多个训练任务时，由于一个训练的优先数需要由两类数据来决定，即训识别信息和练模型的类型，最后由资源分配模块503根据计算出的优先数对训练云中得训练任务进行调度，使得训练资源能够被多个训练任务合理共享，提高训练效率。

上面对本发明实施例中的用于增量式学习云系统的训练设备进行了介绍，下面对本发明实施例中的用于增量式学习云系统的识别设备，该识别设备可以是一台应用服务器或是多台应用服务器组成，UE可通过网络连接到该识别设备，该识别设备主要用于根据训练设备生成的识别模型对来自UE的数据进行识别，请参阅图6，图6是本发明实施例的识别设备的一个实施例图，该识别设备可包括：

第二接收模块601，用于收未识别数据，所述未识别数据由用户设备UE发出或由存储设备提供。

其中，第二接收模块601可以实现图4所示实施例中的步骤401。第二接收模块601主要用于接收从所述存储设备读取的所述未识别数据，所述存储设备内存储的未识别数据由所述UE发送至所述存储设备，其中，未识别数据的来源与图4所示实施例中针对步骤401的说明类似，此处不再赘述。

第二处理模块602，用于根据识别模型对所述未识别数据进行识别，所述识别模型由所述识别云所在云系统中的训练设备提供。

其中，第二处理模块602可以实现图4所示实施例中的步骤402。训练设备在训练完成识别模型后，有两种方式对识别模型进行处理，一种是可以将该识别模型备份存储在云系统的存储设备中，另一种是将训练完成的识别模型直接提供给识别设备。即，所述识别模型由所述识别设备所在云系统中的训练设备发送至所述识别设备；或，所述识别模型由所述识别设备从所述存储设备中读取，所述存储设备内存储的识别模型由所述识别设备所在云系统中的训练设备发送。

统计模块603，用于根据所述识别模型针对所述未识别数据统计识别信息。

其中，统计模块603可以实现图4所示实施例中的步骤403，即会统计出采用该识别模型识别未识别数据后的识别信息。识别信息可包括正确率值、新增数据量和新增数据种类之中的至少一种，识别阈值包括正确率阈值、新增数据量阈值和新增种类阈值之中的至少一种。

所述第二处理模块602还用于当所述识别信息超出预设的识别阈值时，向所述训练云发送模型训练请求，以使得所述训练云训练所述识别模型，所述模型训练请求携带所述识别信息和所述识别模型的类型。具体的模型训练请求的发出条件与图4所示实施例中针对步骤404的说明类似，主要采用预设识别阈值的方式，此处不再赘述。

其中，该识别设备7还包括发送模块604，用于将所述识别信息发送至所述存储设备。可便于后续同样的识别模型识别未识别数据产生识别信息后作为参照。

下面对本发明实施例中训练设备的结构进行描述，请参阅图7，图7是本发明实施例的训练设备的一个实施例图，其中，训练设备7可包括均与总线相连接的至少一个处理器701、至少一个接收器702和至少一个发送器703，本发明实施例涉及的基站可以具有比图7所示出的更多或更少的部件，可以组合两个或更多个部件，或者可以具有不同的部件配置或设置，各个部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件或硬件和软件的组合实现。

具体的，对于图5所示的实施例来说，该处理器701能实现图5所示实施例中的第一处理模块502和资源分配模块503的功能，该接收器702能实现图5所示实施例中的第一接收模块501的功能，该发送器703能实现图5所示实施例中训练设备向云系统中存储设备或识别设备发送识别模型的功能。

下面对本发明实施例中识别设备的结构进行描述，请参阅图8，图8是本发明实施例的识别设备的一个实施例图，其中，识别设备8可包括均与总线相连接的至少一个处理器801、至少一个接收器802和至少一个发送器803，本发明实施例涉及的基站可以具有比图8所示出的更多或更少的部件，可以组合两个或更多个部件，或者可以具有不同的部件配置或设置，各个部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件或硬件和软件的组合实现。

具体的，对于图6所示的实施例来说，该处理器801能实现图6所示实施例中的第二处理模块602和统计模块603的功能，该接收器802能实现图6所示实施例中的第二接收模块601的功能，该发送器803能实现图5所示实施例中发送模块604的功能。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于增量式学习云系统的调度方法，其特征在于，包括：

训练云接收所述训练云所在的云系统中的识别云发送模型训练请求，所述模型训练请求中携带识别信息和识别模型的类型；

所述训练云根据所述识别信息和所述识别模型的类型生成对应的训练任务；

所述训练云通过所述识别信息计算所述训练任务的优先数，所述训练任务的优先数对应所述训练任务的执行优先级别；

所述训练云根据所述优先数为所述训练任务分配训练资源，并按所述执行优先级别执行对应的训练任务；

所述训练云根据所述优先数为所述训练任务分配训练资源包括：

所述训练云根据所述训练任务对应的识别模型确定所述训练任务所需的最低资源数和最佳资源数；

所述训练云将最大优先数与所述优先数的差值小于预设的优先数阈值的所述优先数对应的训练任务确定为候选任务集合中的候选任务；

所述训练云根据所述优先数计算所述候选任务集合中各候选任务的分配资源数；

所述训练云将分配资源数不小于所述候选任务的最低资源数的候选任务确定为优先任务；

所述训练云将分配资源数小于所述候选任务的最低资源数，且所述候选任务的最低资源数与所述候选任务的分配资源数之差小于预设的资源调整阈值的候选任务确定为非优先任务；

所述训练云为所述候选任务集合中的候选任务按照所述优先任务和所述非优先任务分配对应的资源。

2.根据权利要求1所述的用于增量式学习云系统的调度方法，其特征在于：所述识别信息包括正确率值、新增数据量和新增数据种类之中的至少一种。

3.根据权利要求2所述的用于增量式学习云系统的调度方法，其特征在于，所述识别信息包括所述正确率值、所述新增数据量和所述新增数据种类，所述方法还包括：

4.根据权利要求2所述的用于增量式学习云系统的调度方法，其特征在于，所述训练云通过所述识别信息计算所述训练任务的优先数包括：

所述训练云确定与训练任务对应的任务参数；

所述训练云确定所述识别信息的第一加权因子和所述任务参数的第二加权因子；

所述训练云根据所述识别信息、任务参数、第一加权因子和第二加权因子计算所述训练任务的优先数。

5.根据权利要求4所述的用于增量式学习云系统的调度方法，其特征在于：所述训练任务为执行任务或非执行任务；

6.根据权利要求1所述的用于增量式学习云系统的调度方法，其特征在于，所述方法还包括：

所述训练云将所述候选任务的最低资源数与所述候选任务的分配资源数之差大于预设的资源调整阈值的候选任务从所述候选任务集合中去除。

7.根据权利要求6所述的用于增量式学习云系统的调度方法，其特征在于，所述候选任务集合中的优先任务和非优先任务按照优先数从大到小的顺序排列，所述优先任务的顺序位置位于非优先任务之前。

8.根据权利要求7所述的用于增量式学习云系统的调度方法，其特征在于，所述为所述候选任务集合中候选任务按照所述优先任务和所述非优先任务分配对应的资源包括：

第一次资源分配，所述训练云为所述优先任务和所述非优先任务按照所述优先数的顺序分配各自最低资源数；

第二次资源分配，所述训练云将第一次资源分配后剩余的资源按照优先数比例分配给所述优先任务。

9.根据权利要求8所述的用于增量式学习云系统的调度方法，其特征在于，所述方法还包括：

第三次资源分配，所述训练云将第二次资源分配后超出所述优先任务的最佳资源数的剩余资源按照优先数比例分配给非优先任务。

10.根据权利要求1至9中任一项所述的用于增量式学习云系统的调度方法，其特征在于：所述识别模型的类型包括人脸识别、图像分类、语音分析和视频分类之中的至少一种。

11.一种用于增量式学习云系统的训练设备，其特征在于，包括：

资源分配模块，用于根据所述优先数为所述训练任务分配训练资源，并按所述执行优先级别执行对应的训练任务；

所述资源分配模块具体用于：

12.根据权利要求11所述的训练设备，其特征在于：所述识别信息包括正确率值、新增数据量和新增数据种类之中的至少一种。

13.根据权利要求12所述的训练设备，其特征在于，所述识别信息包括所述正确率值、所述新增数据量和所述新增数据种类，所述第一处理模块还用于：

14.根据权利要求12所述的训练设备，其特征在于，所述第一处理模块具体用于：

确定与训练任务对应的任务参数；

15.根据权利要求14所述的训练设备，其特征在于，所述训练任务为执行任务或非执行任务；

16.根据权利要求11所述的训练设备，其特征在于，所述资源分配模块还用于：

17.根据权利要求16所述的训练设备，其特征在于：所述候选任务集合中的优先任务和非优先任务按照优先数从大到小的顺序排列，所述优先任务的顺序位置位于非优先任务之前。

18.根据权利要求17所述的训练设备，其特征在于，所述资源分配模块具体用于：

19.根据权利要求18所述的训练设备，其特征在于，所述资源分配模块具体用于：

20.根据权利要求11至19中任一项所述的训练设备，其特征在于：所述识别模型的类型包括人脸识别、图像分类、语音分析和视频分类之中的至少一种。