CN109102030A

CN109102030A - 控制在线模型更新的方法及装置

Info

Publication number: CN109102030A
Application number: CN201810969492.3A
Authority: CN
Inventors: 蒋晨
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2018-12-28
Anticipated expiration: 2038-08-23
Also published as: CN109102030B

Abstract

本说明书实施例提供一种控制线上模型更新的方法和装置，方法包括，从输入到线上第一模型的线上输入样本中采集第一数目的样本，用以进行人工标注；获取人工标注的第一数目的样本，作为训练样本；然后，至少基于所述训练样本，离线训练第一模型，得到第二模型。接着，利用预定测试样本集，离线测试所述第二模型；在测试结果满足预定条件的情况下，将线上运行的所述第一模型更新为第二模型。

Description

控制在线模型更新的方法及装置

技术领域

本说明书一个或多个实施例涉及模型训练和模型测试领域，尤其涉及更新在线模型的方法和装置。

背景技术

随着人工智能的发展，已经针对各种各样的业务场景进行建模和机器学习，因此各种各样的神经网络模型被运用在丰富的业务场景中。

例如，在车辆定损场景中，已经提出了多种模型，例如用于识别车辆部件的模型，用于识别车辆损失程度的模型，用于计算定损理赔方案的模型，等等。这些模型需要利用大量训练样本进行训练，然后用测试样本进行测试，测试通过之后，投入线上运行。然而，在有些情况下，即使训练和测试通过的模型，仍然需要对其进行更新，以进一步提高其准确度。

因此，希望能有改进的方案，更加有效地对在线运行的模型进行更新。

发明内容

本说明书一个或多个实施例描述了一种控制线上模型更新的方法，可以对线上运行的模型进行自动高效的监控和更新。

根据第一方面，提供了一种控制线上模型更新的方法，包括：

从线上输入样本中采集第一数目的样本，用以进行人工标注，所述线上输入样本用于输入到线上运行的第一模型；

获取人工标注的所述第一数目的样本，作为训练样本；

至少基于所述训练样本，离线训练所述第一模型，得到第二模型；

利用预定测试样本集，离线测试所述第二模型；

在测试结果满足预定条件的情况下，将线上运行的所述第一模型更新为第二模型。

根据一种可能的设计，上述方法还包括：评估所述线上运行的第一模型的预测准确度。

进一步地，在一个实施例中，通过以下方式评估所述线上运行的第一模型的预测准确度：

从所述线上输入样本中采集第二数目的样本，用以进行人工标注；

获取人工标注的所述第二数目的样本，作为第一测试样本集；

利用所述第一测试样本集，测试所述线上运行的第一模型的预测准确度。

更具体地，在一个实施例中，通过以下方式测试所述线上运行的第一模型的预测准确度：

获取所述线上运行的第一模型对所述第二数目的样本的预测结果；

获取所述第二数目的样本的人工标注标签；

通过比对所述预测结果和所述人工标注标签，确定所述线上运行的第一模型的预测准确度。

在一种实施方式中，在将线上运行的所述第一模型更新为第二模型之后，评估线上运行的第二模型的预测准确度。

进一步地，根据一种可能的实施方式，利用前述的第一测试样本集，测试所述线上运行的第二模型的预测准确度。

在另一种可能的实施方式中，通过以下方式评估线上运行的第二模型的预测准确度：

从输入到第二模型的线上输入样本中采集第三数目的样本，用以进行人工标注；

获取人工标注的所述第三数目的样本，作为第二测试样本集；

利用所述第二测试样本集，测试所述线上运行的第二模型的预测准确度。

根据一种实施方式，通过以下方式离线训练所述第一模型：

将所述训练样本添加到原训练样本集中，得到更新的训练样本集；

利用所述更新的训练样本集，离线训练所述第一模型。

在一种可能的设计中，在以下情况下，离线训练所述第一模型：

响应于所述第一数目达到预设阈值，离线训练所述第一模型；或者，

每隔预定时间间隔，离线训练所述第一模型。

在另一种方案中，在第一模型的预测准确度低于预设的第一准确度阈值的情况下，离线训练所述第一模型。

根据一种可能的设计，预定测试样本集包括多个测试子集；所述离线测试所述第二模型包括，按照测试子集中样本数目从少到多的顺序，依次利用所述多个测试子集，测试所述第二模型的准确度，得到多个测试准确度。

在这样的情况下，根据一个实施例，所述测试结果满足预定条件包括，所述多个测试准确度均高于预设的第二准确度阈值。

根据第二方面，提供一种控制线上模型更新的装置，包括：

样本采集单元，配置为从线上输入样本中采集第一数目的样本，用以进行人工标注，所述线上输入样本用于输入到线上运行的第一模型；

标注获取单元，配置为获取人工标注的所述第一数目的样本，作为训练样本；

离线训练单元，配置为至少基于所述训练样本，离线训练所述第一模型，得到第二模型；

离线测试单元，配置为利用预定测试样本集，离线测试所述第二模型；

更新单元，配置为在测试结果满足预定条件的情况下，将线上运行的所述第一模型更新为第二模型。

根据第三方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

根据本说明书实施例提供的方法和装置，通过离线的方式对模型进行再训练和测试，测试通过之后才用再训练的模型更新线上模型。另一方面，还对线上模型进行预测准确度的评估。在对模型进行离线再训练和测试，以及评估的过程中，在线模型正常运行，不会受到影响。另外，上述控制过程的各个环节通过控制算法自动控制实现，整个控制过程形成一个闭环，从而实现在线模型的全自动更新。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的控制线上模型更新的方法流程图；

图3示出根据一个实施例的评估线上模型的预测准确度的流程图；

图4示出根据一个实施例的自动控制和更新线上模型的执行过程的示意图；

图5示出根据一个实施例的控制装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。如图1所示，在线上运行有经过训练的预测模型，该预测模型可以是应用于各种业务场景的业务模型，例如应用于车辆定损的预测模型。根据本说明书的实施例，对于线上模型，提供一种自动控制和更新系统。在该系统中，控制系统从在线输入中采集一部分样本，进行人工标注，形成训练样本。将这部分训练样本添加到原有的训练样本集中，利用训练样本集，离线地对预测模型进行再训练。然后，离线地对再训练的模型进行测试。测试通过的话，就用该再训练的模型来更新线上运行的预测模型。如此可以保持线上模型的不断更新。模型的再训练和更新可以持续地常规地进行，例如每隔预定时间进行，或者积累到足够的训练样本就进行。

另一方面，该系统还可以不断地对在线运行的预测模型进行评估，即评估模型的预测准确度。在预测准确度不满足要求的情况下，可以加速启动离线模型的再训练和更新，以快速更新模型。

根据以上控制系统的控制方式，通过离线的方式对模型进行再训练和测试，测试通过之后才用再训练的模型更新线上模型。在对模型进行离线再训练和测试的过程中，在线模型正常运行，不会受到影响。另外，上述控制系统的各个环节通过控制算法自动控制实现，整个控制过程形成一个闭环，从而实现在线模型的全自动更新。

下面描述上述构思的具体实现方式。

图2示出根据一个实施例的控制线上模型更新的方法流程图。该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行，例如通过图1的控制系统。如图2所示，所述方法包括，步骤22，从线上输入样本中采集第一数目的样本，用以进行人工标注，所述线上输入样本用于输入到线上运行的第一模型；步骤23，获取人工标注的所述第一数目的样本，作为训练样本；步骤24，至少基于所述训练样本，离线训练所述第一模型，得到第二模型；步骤25，利用预定测试样本集，离线测试所述第二模型；步骤26，在测试结果满足预定条件的情况下，将线上运行的所述第一模型更新为第二模型。下面描述各个步骤的具体执行方式。

根据一种实施方式，在线上模型正常运行的情况下，在线下，离线地进行模型的再训练和测试，以备模型的更新。线上运行的模型可以是应用于各种业务场景的业务模型，例如通过图片识别进行车辆定损的模型。更具体地，该模型可以是用于在图片中进行车辆部件分割的模型，用于识别车辆损失程度的模型，用于计算定损理赔方案的模型，等等。这些模型可以统称为预测模型，用于预测输入样本的分类值或回归值。

在线上运行过程中，有待模型进行分析处理的样本会不断上传到系统，形成线上输入样本。线上输入样本可以构成样本流，输入到在线运行的模型中，由模型进行处理。在一个实施例中，上述模型是用于图片识别的模型，相应地，输入样本即为有待识别的图片。

为了描述的简单清楚，将当前线上运行的模型版本称为第一模型。为了对模型进行更新，在步骤22，从线上输入样本中采集一定数目的样本，用以进行人工标注。可以理解，此时，所述线上输入样本是输入到线上运行的第一模型的样本。从这些输入样本中采集一定数量的样本，用以进行人工标注。

在一个实施例中，从线上输入样本中进行随机采样，来获得一定数目的样本。在另一实施例中，对于输入到线上模型的线上输入样本，按照一定比例进行采样，例如每隔预定数目进行一次采样，来获得一定数目的样本。例如，对于线上输入样本构成的样本流，每输入到线上模型5个样本，就从中采集1个样本，如此，获得一定数目的样本。

采集到的样本被发送到人工标注平台，进行人工标注。于是，在步骤23，从人工标注平台获取对以上采集的样本的人工标注结果。由于具有了人工标注结果，这些样本就可以作为训练样本，用于模型的训练。

接着，在步骤24，至少基于上述训练样本，离线训练第一模型。

在一个实施例中，一旦步骤23获取的训练样本的数目达到预设数目，例如1万个，就执行步骤24，启动模型的离线训练。在另一实施例中，每隔预定周期，例如每24小时，执行步骤24，基于该周期内积累的训练样本(而不限定训练样本的数目)，启动模型的离线训练。

具体地，在步骤24中，根据一个实施例，可以利用步骤23获取到的训练样本构成训练样本集，利用训练样本集离线地对第一模型进行再训练。这可以适用于获取到的训练样本数目较大的情况。

在另一实施例中，将步骤23获取到的训练样本添加到原训练样本集中，也就是将新获取的训练样本与原训练样本进行融合，得到更新的训练样本集；然后利用更新的训练样本集，离线训练第一模型。

为了进行上述离线训练，在步骤23中，还将训练样本集进行数据格式转化自动转化为所需格式，例如对于图片样本来说，将各个样本转换成矩阵或向量格式。然后，将所需格式的训练样本数据传入到线下训练服务器，由该服务器对模型进行再训练。

为了描述的简单清楚，将离线再训练得到的模型称为第二模型。

接着，在步骤25，利用预定测试样本集，离线测试该第二模型。

根据一个实施例，上述预定测试样本集是预定获取的、固定不变的测试样本集，其中包含大量的已经标注的样本作为测试样本。

在一个实施例中，利用该预定测试样本集对离线再训练的第二模型进行测试，得到该第二模型对于该预定测试样本集的预测准确度。例如，在一个例子中，预定测试样本集包含8k个测试样本，那么可以用这8k个样本对第二模型进行测试，得到第二模型在这8k个样本上的预测准确度。

在另一例子中，预定测试样本集可以被划分为多个测试子集，在对第二模型进行测试时，利用该多个测试子集，依次对第二模型进行测试，得到第二模型针对该多个测试子集的多个预测准确度。例如，在一个例子中，预定测试样本集包括，包含500个样本的第一子集，包含1k个样本的第二子集，包含6k个样本的第三子集。在对第二模型进行测试时，利用该多个测试子集，依次对第二模型进行测试。更具体地，可以按照样本数目从少到多的顺序，依次用各个测试子集进行测试，例如，首先用500个样本的第一子集进行测试，得到第一准确度；然后用1k个样本的第二子集进行测试，得到第二准确度，在利用6k个样本的第三子集进行测试，得到第三准确度。

可以预先设定测试通过的条件。

如果步骤25的测试结果为该第二模型对于整个测试样本集的预测准确度，那么测试通过的条件可以是，该预测准确度高于某个预设准确度阈值，例如95％。

如果测试样本集包括多个测试子集，进而步骤25中的测试包括利用多个测试子集的多轮测试，那么可以将测试通过的条件设定为，针对多个测试子集的多个预测准确度均高于预设的准确度阈值，例如95％。也就是说，利用任何测试子集进行的任何一轮测试的准确度如果没有达到上述阈值，则测试不通过，可以不进行后续轮的测试。或者，在多轮测试的情况下，也可以将测试通过的条件设定为，针对多个测试子集的多个预测准确度的平均值高于预设的准确度阈值。在这样的情况下，如果某一轮测试的准确度未能达到设定阈值，仍进行后续测试，只要多轮测试得到的准确度平均值超过准确度阈值，仍然认为第二模型测试通过。

在测试结果满足预定条件，也就是第二模型的线下测试通过的情况下，在步骤26，将线上运行的第一模型更新为第二模型。

如前所述，第二模型是利用训练样本集，对第一模型进行再训练得到的模型。通过再训练的过程，对模型的参数进行了调整和优化，形成第二模型。相应地，在步骤26，通过将调整和优化后的参数传入在线系统，即可实现模型的更新，将第一模型更新为第二模型。

通过以上过程，可以以一定规律(定期地、定时地，或者每积累一定训练样本)，对线上模型进行自动化的常规更新或例行更新。由于每次更新的模型都是使用在线输入样本进行标注作为训练样本而训练获得，这使得在线运行的模型能够不断调整，更好地适用于线上输入样本的类型和特点。并且，由于更新在线模型之前，都会对模型进行测试，因此可以确保在线运行的模型保持较高的预测准确度。

另一方面，与离线再训练和模型更新相并列地，自动控制和更新系统还可以持续对线上运行的模型进行监控，测试线上模型的预测准确度。因此，根据一个实施例，在图2的流程图的基础上，控制方法还可以包括，评估线上运行的第一模型的预测准确度。可以理解，该步骤可以在图2的步骤25执行之前的任意时刻执行。

根据一个实施例，为了评估线上模型的预测准确度，可以在线上输入样本输入到第一模型的间歇，向第一模型输入预定的测试样本，通过测试样本评估线上模型的预测准确度。

根据另一实施例，从线上输入样本中采集样本进行标注，来形成测试样本，用这样的测试样本评估线上模型的预测准确度。这样，一方面可以避免对线上模型运行的影响，另一方面，由于测试样本选自线上输入样本流，这样得到的预测准确度更能反映线上结果的准确性。

图3示出根据一个实施例的评估线上模型的预测准确度的流程图。如图3所示，在步骤31，从线上输入样本中采集一定数目(第二数目)的样本，用以进行人工标注。在一个具体例子中，例如从线上输入样本中采集1k个样本，发送到人工标注平台进行标注。

接着在步骤32，获取人工标注的第二数目的样本，作为第一测试样本集。然后，在步骤33，利用第一测试样本集，测试线上运行的第一模型的预测准确度。

更具体地，在步骤33中，一方面获取线上运行的第一模型对上述第一测试集中的样本的预测结果。由于这些样本采集自线上输入样本流，实际上是线上输入样本的一部分，因此，也会被送入第一模型进行预测分析。通过对这些样本进行记录或标记，可以很容易地从第一模型的输出结果中提取出针对上述这些样本的预测结果。另一方面，还获取该第一测试集中样本的人工标注标签。这些人工标注标签可以认为是这些样本的正确分类结果。因此，通过比对第一模型输出的预测结果和人工标注的标签，可以确定线上运行的第一模型的预测准确度。

在一个实施例中，定时或定期地评估线上运行模型的预测准确度，该定时或定期的时间或周期，可以与线下再训练的时间或周期相同或不同。

在另一实施例中，每当采集足量的测试样本，例如1k个样本，就执行线上模型的评估。

在一个实施例中，将以上图3的方法评估得到的预测准确度，与预设的准确度阈值进行比较。

在一个例子中，如果预测准确度低于准确度阈值，则直接进入图2的步骤24，启动模型的再训练和更新。此时，模型的线下再训练和更新可以不按照常规设定的周期进行，以尽快得到更新的模型，提升预测准确度。

在另一例子中，将连续多次测试得到的多个预测准确度与上述准确度阈值进行比较，在多个预测准确度均低于准确度阈值，或者多个预测准确度的平均值低于准确度阈值的情况下，启动模型的再训练和更新。如此，考虑线上输入样本的波动导致的预测准确度波动，防止过于频繁地启动更新。

可以理解，以上针对线上运行模型的测试结果而设定的准确度阈值，与线下测试时的准确度阈值，可以相同也可以不同。在一个例子中，可以将线下测试时的准确度阈值设置为较高的值，例如95％，以确保只有准确度较高的模型才可以得到上线；可以将线上测试的准确度阈值设置为相对低的值，例如80％，以避免过于频繁地变更线上模型而影响线上运行效果。

如图2所示，在第一模型在线上运行的同时，在线下对第一模型进行再训练，并在离线测试通过之后，对线上模型进行更新，也就是将第一模型更新为第二模型。如前所述，线上测试和监控也是持续规律进行的，因此在线上模型发生更新之后，也要对更新后的模型，即第二模型，进行预测准确度的测试。因此，根据一个实施例，在图2的步骤26之后，还执行，评估线上运行的第二模型的预测准确度。

如前所述，在第一模型在线上运行时，为了对第一模型进行评估，从线上输入样本中采集样本，进行标注，形成了第一测试样本集。在将第一模型更新为第二模型之后，可以继续利用该第一测试样本集，来测试线上运行的第二模型的预测准确度。如此，可以以第一测试样本集为基准，考察更新后和更新前的模型，对于同一测试样本集的表现。

此外，在一个实施例中，为了评估更新后的第二模型的在线预测准确度，也采用与第一测试样本集类似的方式，继续从当前在线输入样本集中采样、标注，来形成新的测试样本集。

具体地，在一个例子中，从当前线上输入样本(注意，此时线上模型已经更新为第二模型，所以当前线上输入样本是输入到第二模型的样本)中采集第三数目的样本，用以进行人工标注；然后从人工标注平台获取人工标注的第三数目的样本，作为第二测试样本集。于是，可以利用该第二测试样本集，测试线上运行的第二模型的预测准确度。如此得到的预测准确度可以反映当前线上输出结果的准确度。

如果对于连续多次更新的线上模型，测试得到的预测准确度均不满足要求，例如低于准确度阈值，可以将这样的结果发送至人工干预平台，进行进一步分析。

图4示出根据一个实施例的自动控制和更新线上模型的执行过程的示意图。该执行过程可以由控制系统执行，控制系统用于对线上运行的模型进行监控和更新。假定当前线上运行的模型为M。按照功能和执行阶段，可以将执行过程划分为线上监控部分、线下训练部分和线下测试更新部分。

在线上监控部分，从线上输入样本中采集测试样本，发送到人工标注平台进行标注，获取人工标注的样本，作为标注的测试样本。比对线上模型M对这些样本的预测结果，以及人工标注的标签，由此评估线上模型M的预测准确度。将预测准确度与准确度阈值进行比较，根据比较结果和预设的条件，或者进入下一轮监控，或者发送到人工介入平台进行分析，或者提前启动线下训练部分。

在线下训练部分，从线上输入样本中采集训练样本，传送到人工标注平台进行标注。人工标注的样本，与原训练数据相融合，作为训练样本集。可以基于训练样本集，在线下训练服务器中对模型M进行再训练，得到新的模型M+。

在线下测试更新部分，利用预定测试样本集，离线测试更新的模型M+。例如，可以先进行单模块测试，然后依次用500样本的测试子集，1k样本的测试子集和6k样本的测试子集进行测试，全部测试子集通过的情况下，认为模型M+符合要求，此时用模型M+更新线上模型。

根据以上控制方式，通过离线的方式对模型进行再训练和测试，测试通过之后才用再训练的模型更新线上模型。另一方面，还对线上模型进行预测准确度的评估。在对模型进行离线再训练和测试，以及评估的过程中，在线模型正常运行，不会受到影响。另外，上述控制系统的各个环节通过控制算法自动控制实现，整个控制过程形成一个闭环，从而实现在线模型的全自动更新。

根据另一方面的实施例，还提供一种控制线上模型更新的装置。图5示出根据一个实施例的控制装置的示意性框图，如图5所示，控制装置500包括：样本采集单元52，配置为从线上输入样本中采集第一数目的样本，用以进行人工标注，所述线上输入样本用于输入到线上运行的第一模型；标注获取单元53，配置为获取人工标注的所述第一数目的样本，作为训练样本；离线训练单元54，配置为至少基于所述训练样本，离线训练所述第一模型，得到第二模型；离线测试单元55，配置为利用预定测试样本集，离线测试所述第二模型；更新单元56，配置为在测试结果满足预定条件的情况下，将线上运行的所述第一模型更新为第二模型。

根据一个实施例，控制装置还包括，在线评估单元51，配置为评估所述线上运行的第一模型的预测准确度。

在一个实施例中，所述在线评估单元51进一步包括：

采集模块511，配置为从所述线上输入样本中采集第二数目的样本，用以进行人工标注；

获取模块512，配置为获取人工标注的所述第二数目的样本，作为第一测试样本集；

测试模块513，配置为利用所述第一测试样本集，测试所述线上运行的第一模型的预测准确度。

根据一种实施方式，所述测试模块513配置为：

获取所述第二数目的样本的人工标注标签；

在一个实施例中，在线评估单元51还配置为，评估线上运行的第二模型的预测准确度。

更具体地，在一个实施例中，在线评估单元51利用前述第一测试样本集，测试所述线上运行的第二模型的预测准确度。

在另一实施例中，在线评估单元51中的测试模块513还配置为：

在一种可能的设计中，所述离线训练单元54配置为：

利用所述更新的训练样本集，离线训练所述第一模型。

根据可能的设计，所述离线训练单元54配置为：

每隔预定时间间隔，离线训练所述第一模型。

在所述在线评估单元51针对第一模型进行评估的情况下，所述离线训练单元54还可以配置为：在所述第一模型的预测准确度低于预设的第一准确度阈值的情况下，离线训练所述第一模型。

根据一种可能的设计，所述预定测试样本集包括多个测试子集；

在这样的情况下，所述离线测试单元55配置为，按照测试子集中样本数目从少到多的顺序，依次利用所述多个测试子集，测试所述第二模型的准确度，得到多个测试准确度。

进一步地，在一个实施例中，所述测试结果满足预定条件包括，所述多个测试准确度均高于预设的第二准确度阈值。

通过以上控制装置，实现对在线模型的全自动监控和更新。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种控制线上模型更新的方法，包括：

获取人工标注的所述第一数目的样本，作为训练样本；

利用预定测试样本集，离线测试所述第二模型；

2.根据权利要求1所述的方法，还包括：评估所述线上运行的第一模型的预测准确度。

3.根据权利要求2所述的方法，其中评估所述线上运行的第一模型的预测准确度包括：

4.根据权利要求3所述的方法，利用所述第一测试样本集，测试所述线上运行的第一模型的预测准确度，包括：

获取所述第二数目的样本的人工标注标签；

5.根据权利要求3所述的方法，还包括，在将线上运行的所述第一模型更新为第二模型之后，评估线上运行的第二模型的预测准确度。

6.根据权利要求5所述的方法，其中，评估线上运行的第二模型的预测准确度包括：

利用所述第一测试样本集，测试所述线上运行的第二模型的预测准确度。

7.根据权利要求5所述的方法，其中，评估线上运行的第二模型的预测准确度包括：

8.根据权利要求1所述的方法，其中，至少基于所述训练样本，离线训练所述第一模型包括：

利用所述更新的训练样本集，离线训练所述第一模型。

9.根据权利要求1所述的方法，其中，至少基于所述训练样本，离线训练所述第一模型包括：

每隔预定时间间隔，离线训练所述第一模型。

10.根据权利要求2所述的方法，其中，至少基于所述训练样本，离线训练所述第一模型包括：

在所述第一模型的预测准确度低于预设的第一准确度阈值的情况下，离线训练所述第一模型。

11.根据权利要求1所述的方法，其中，所述预定测试样本集包括多个测试子集；

所述离线测试所述第二模型包括，按照测试子集中样本数目从少到多的顺序，依次利用所述多个测试子集，测试所述第二模型的准确度，得到多个测试准确度。

12.根据权利要求11所述的方法，所述测试结果满足预定条件包括，所述多个测试准确度均高于预设的第二准确度阈值。

13.一种更新线上模型的装置，包括：

14.根据权利要求13所述的装置，还包括：在线评估单元，配置为评估所述线上运行的第一模型的预测准确度。

15.根据权利要求14所述的装置，其中所述在线评估单元包括：

采集模块，配置为从所述线上输入样本中采集第二数目的样本，用以进行人工标注；

获取模块，配置为获取人工标注的所述第二数目的样本，作为第一测试样本集；

测试模块，配置为利用所述第一测试样本集，测试所述线上运行的第一模型的预测准确度。

16.根据权利要求15所述的装置，其中所述测试模块配置为：

获取所述第二数目的样本的人工标注标签；

17.根据权利要求15所述的装置，所述在线评估单元还配置为，评估线上运行的第二模型的预测准确度。

18.根据权利要求17所述的方法，其中在线评估单元具体配置为，利用所述第一测试样本集，测试所述线上运行的第二模型的预测准确度。

19.根据权利要求17所述的方法，其中，所述测试模块还配置为：

20.根据权利要求13所述的装置，其中，所述离线训练单元配置为：

利用所述更新的训练样本集，离线训练所述第一模型。

21.根据权利要求13所述的装置，其中，所述离线训练单元配置为：

每隔预定时间间隔，离线训练所述第一模型。

22.根据权利要求14所述的装置，其中，所述离线训练单元配置为：

23.根据权利要求13所述的装置，其中，所述预定测试样本集包括多个测试子集；

所述离线测试单元配置为，按照测试子集中样本数目从少到多的顺序，依次利用所述多个测试子集，测试所述第二模型的准确度，得到多个测试准确度。

24.根据权利要求23所述的装置，所述测试结果满足预定条件包括，所述多个测试准确度均高于预设的第二准确度阈值。

25.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-12中任一项所述的方法。