CN111078659B

CN111078659B - 模型更新方法、装置、计算机可读存储介质和计算机设备

Info

Publication number: CN111078659B
Application number: CN201911323585.XA
Authority: CN
Inventors: 朱昱锦; 万明阳; 马连洋; 袁易之; 朱新宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2023-04-21
Anticipated expiration: 2039-12-20
Also published as: CN111078659A

Abstract

本申请涉及一种模型更新方法、装置、计算机可读存储介质和计算机设备，所述方法包括：获取分布式定时任务，其中，分布式定时任务用于模型训练；将分布式定时任务发送至第一服务器，第一服务器用于执行分布式定时任务，生成模型文件；当接收到第一服务器发送的分布式定时任务完成的消息时，更新模型文件对应的文件路径，文件路径用于指示第二服务器获取模型文件，进行模型更新。采用本申请实施例中的方法能够提高模型更新效率。

Description

模型更新方法、装置、计算机可读存储介质和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种模型更新方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着科学技术发展，算法模型需要不断进行更新，以适应信息的爆发性增长。传统的算法模型更新是由算法维护人员对算法进行更新。而由于是人为操作，经常无法及时进行更新，导致模型更新效率低。

发明内容

基于此，有必要针对模型更新效率低的技术问题，提供一种模型更新方法、装置、计算机可读存储介质和计算机设备，能够提高模型更新效率。

一种模型更新方法，包括：

获取分布式定时任务，其中，所述分布式定时任务用于模型训练；

将所述分布式定时任务发送至第一服务器，所述第一服务器用于执行所述分布式定时任务，生成模型文件；

当接收到所述第一服务器发送的分布式定时任务完成的消息时，生成所述模型文件对应的文件路径，所述文件路径用于指示第二服务器获取所述模型文件，进行模型更新。

一种模型更新系统，所述系统包括目标服务器、第一服务器和第二服务器；

所述目标服务器用于获取分布式定时任务，其中，所述分布式定时任务用于模型训练，将所述分布式定时任务发送至所述第一服务器；

所述第一服务器用于执行所述分布式定时任务，生成模型文件以及分布式定时任务完成的消息；

所述目标服务器用于当接收到所述分布式定时任务完成的消息时，获取所述模型文件对应的文件路径；

所述第二服务器用于根据所述文件路径获取所述模型文件，进行模型更新。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

获取分布式定时任务；

上述模型更新方法、装置、计算机可读存储介质和计算机设备，获取分布式定时任务，将分布式定时任务发送至第一服务器，第一服务器用于执行分布式定时任务，生成模型文件，当接收到第一服务器发送的分布式定时任务完成的消息时，生成模型文件对应的文件路径，文件路径用于指示第二服务器获取模型文件，进行模型更新，能够实现自动化的模型训练以及模型文件更新，通过文件路径的使用，能够使第二服务器根据文件路径从本地或者其他服务器等获取模型文件，从而提高模型文件更新效率，并且使用第一服务器执行模型训练任务，第二服务器进行模型更新，能够解决传统使用线上服务器进行模型训练和更新导致的占用线上服务器资源的问题，减少线上服务器资源占用。

附图说明

图1为一个实施例中模型更新方法的应用环境图；

图2为一个实施例中模型更新方法的流程示意图；

图3为一个实施例中历史数据更新的流程示意图；

图4为一个实施例中第二服务器进行模型更新的流程示意图；

图5为一个实施例中模型更新方法的架构图；

图6为一个实施例中服务器中各模块的执行流程示意图；

图7为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中模型更新方法的应用环境图。该模型更新方法应用于模型更新系统。该模型更新系统包括终端110、目标服务器120、第一服务器130和第二服务器140。其中，终端110、目标服务器120、第一服务器130和第二服务器140通过网络连接。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。目标服务器120、第一服务器130和第二服务器140可以用独立的服务器或者是多个服务器组成的服务器集群来实现。目标服务器120可用于管理终端110发送的模型训练任务、第一服务器130生成的模型文件等。

在一个实施例中，Feeds流会持续从不同内容源获取最新的订阅源内容，并有针对性地呈现给用户。为了有效区分源内容，从而为不同用户推送最适合的内容，需要为不同源内容定制标签。Feeds是将用户主动订阅的若干消息源组合在一起形成内容聚合器，帮助用户持续地获取最新的订阅源内容。内容流(Feeds流)即持续更新并呈现到终端的内容流。从一个原始内容入库之后，算法模型需要对内容进行安全质量检测，例如是否暴力、色情、低俗、标题等。内容建模特征例如分类、主题、标签等。内容理解生成例如生成摘要、结构化和剪辑等，形成各类推荐系统可以识别的属性标签，并最终分发到各个推荐业务侧。随着线上数据的不断积累，算法模型也需要进行迭代更新，从而获得更高的准确率，以及确保模型可以适应线上环境的变化。因此，如图2所示，提供了一种模型更新方法。本实施例主要以该方法应用于上述图1中的目标服务器110来举例说明。参照图2，图2为一个实施例中模型更新方法的流程示意图，该模型更新方法具体包括如下步骤：

步骤202，获取分布式定时任务，其中，分布式定时任务用于模型训练。

其中，分布式定时任务即把分散的，可靠性差的计划任务纳入统一的平台，并实现集群管理调度和分布式部署的一种定时任务的管理方式。分布式定时任务可以有效解决单点定时任务的诸多缺点，比如交互性差、任务部署效率低、开发维护成本高、可用性差等。

分布式定时任务用于对不同的算法模型进行训练。分布式定时任务中可包含模型训练参数、模型训练脚本、模型校验脚本等。算法模型可以是指与内容流处理相关的模型。例如，与内容流处理相关的模型可以是内容流质量检测模型、内容建模特征模型、内容理解生成模型等。

具体地，终端用于发布分布式定时任务。终端将分布式定时任务发送至任务配置服务。其中任务配置服务可以是一个服务模块。任务配置服务将分布式定时任务对应的任务更新消息发送至zookeeper模块。Zookeeper模块接收到任务更新消息，将任务更新消息推送给分布式服务器集群。其中zookeeper是分布式应用程序协调服务。分布式定时服务器集群接收到任务更新消息时，向任务配置服务拉取最新的分布式定时任务并确定目标服务器。目标服务器用于获取分布式定时任务并完成任务。

在一个实施例中，目标服务器可以从终端中自动定时获取模型训练任务。

步骤204，将分布式定时任务发送至第一服务器，第一服务器用于执行分布式定时任务，生成模型文件。

其中，第一服务器可以是指模型训练服务器，用于进行模型训练，即执行分布式定时任务。模型文件是指进行模型训练后得到的模型文件。每个模型文件中可对应一个内容处理相关的算法模型。模型文件可以存储在第一服务器中，也可以存储在第三服务器中。其中第三服务器是指用于文件存储的服务器。

具体地，目标服务器将模型训练任务发送至第一服务器，第一服务器可用于获取模型训练任务对应的算法模型所对应的内容处理模型训练数据，并离线执行模型训练任务，从而生成模型文件。

本实施例中，将模型训练任务发送至第一服务器，包括：将模型训练任务对应的模型训练脚本同步至第一服务器，第一服务器用于根据训练脚本训练对应的模型，生成模型文件。

步骤206，当接收到第一服务器发送的模型训练任务完成的消息时，更新模型文件对应的文件路径，文件路径用于指示第二服务器获取模型文件，进行模型更新。

其中，第二服务器用于读取第一服务器中的文件路径或者读取第三服务器中的文件路径，并获取模型文件，进行模型更新。模型文件对应的文件路径用于指示模型文件存储的位置。模型文件对应的文件路径可指向第一服务器，也可以指向其他服务器，例如第三服务器。文件路径可以是指跨服务器的文件路径，例如软链接。模型训练任务完成可以是指模型训练满足迭代条件，或者模型训练满足迭代次数，或者模型的准确率达到准确率阈值等。

具体地，当模型训练任务完成时，第一服务器可向目标服务器发送模型训练任务完成的消息。当目标服务器接收到第一服务器发送的模型训练任务完成的消息时，可对更新前的模型文件对应的文件路径进行更新，得到模型文件对应的文件路径。文件路径用于指示第二服务器获取模型文件，进行模型更新。

本实施例中，当模型文件存储在第三服务器时，目标服务器可控制第三服务器生成模型文件对应的文件路径。

本实施例中，文件路径可用于指示第二服务器获取模型文件，进行模型热更新。其中，热更新是指动态下发代码。热更新可以使开发者在不发布新版本的情况下，修复漏洞和发布功能。

上述模型更新方法，获取分布式定时任务，将分布式定时任务发送至第一服务器，第一服务器用于执行分布式定时任务，生成模型文件，当接收到第一服务器发送的分布式定时任务完成的消息时，生成模型文件对应的文件路径，文件路径用于指示第二服务器获取模型文件，进行模型更新，能够实现自动化的模型训练以及模型文件更新，通过文件路径的使用，能够使第二服务器根据文件路径从本地或者其他服务器等获取模型文件，从而提高模型文件更新效率，并且使用第一服务器执行分布式定时任务，第二服务器进行模型更新，能够解决传统使用线上服务器进行模型训练和更新导致的占用线上服务器资源的问题，减少线上服务器资源占用。

在一个实施例中，当接收到第一服务器发送的分布式定时任务完成的消息时，更新模型文件对应的文件路径，包括：当接收到第一服务器发送的分布式定时任务完成的消息时，校验模型文件；当模型文件校验通过时，更新模型文件对应的文件路径。

其中，模型文件校验可包括校验模型文件大小，校验模型文件是否可用或者有效等。

上述模型更新方法，当接收到第一服务器发送的模型训练任务完成的消息时，校验模型文件；当模型文件校验通过时，生成模型文件对应的文件路径，对模型文件进行校验，避免模型文件直接使用造成大范围的使用出错，提高算法模型使用时的正确性。

在一个实施例中，校验模型文件，包括：获取模型验证数据集；将模型验证数据集输入至模型文件对应的算法模型中，得到验证结果。当模型文件校验通过时，更新模型文件对应的文件路径，包括：当验证结果满足预设结果条件时，更新模型文件对应的文件路径。

其中，模型验证数据集可用于验证模型文件对应的算法模型的正确性。模型验证数据集也可以称为模型测试数据集。模型验证数据集可从分布式定时任务中的模型校验脚本中获取。分布式模型验证数据集可存储在目标服务器中，也可以存储在第一服务器中，还可以存储在第三服务器中。例如，算法模型为内容安全质量检测模型，那么模型验证数据集可以是至少两篇不同的文章等。预设结果条件用于评判模型文件对应的算法模型是否符合发布条件。例如，预设结果条件可以是验证结果的准确率达到准确率阈值、模型文件对应的算法模型的准确率高于更新前的模型文件对应的算法模型的准确率等不限于此。

具体地，目标服务器获取模型验证数据集，并获取模型文件，将模型验证数据集输入至模型文件对应的算法模型中，得到验证结果。即目标服务器执行一次该模型文件。当验证结果满足预设结果条件时，则根据模型文件所在的文件位置更新文件路径。

本实施例中，模型验证数据集可用于验证模型文件对应的算法模型，也可验证第二模型文件对应的算法模型，其中第二模型文件为更新前的模型文件。即可用相同的模型验证数据集验证新算法模型和旧算法模型。

本实施例中，当验证结果不满足预设结果条件时，向第一服务器发送重新执行该模型训练任务的消息，该模型训练任务消息用于指示第一服务器重新执行该模型训练任务。或者，当验证结果不满足预设结果条件时，发出告警信息。

上述模型更新方法，模型验证数据集；将模型验证数据集输入至模型文件对应的算法模型中，得到验证结果；当验证结果满足预设结果条件时，生成模型文件对应的文件路径，能够对模型文件进行校验，避免模型文件直接使用造成大范围的使用出错，提高算法模型使用时的正确性。

在一个实施例中，在获取分布式定时任务之前，该模型文件训练方法还包括：分布式服务器集群获取分布式锁；分布式服务器集群确定获取到分布式锁的服务器为目标服务器，其中，目标服务器用于执行获取分布式定时任务的步骤。

其中，分布式锁用于避免一个任务同一时间被多个服务器执行，能使一个方法或任务在同一时间只能被一个机器的一个线程执行。

具体地，在分布式服务器集群中可包括一个总服务器，总服务器中可包含分布式应用程序协调服务。那么，分布式服务器集群从分布式应用程序协调服务中获取分布式锁，将获取到分布式锁的服务器确定为目标服务器。目标服务器获取到分布式锁，并且相应的模型文件版本还未生成，则目标服务器执行获取分布式定时任务，将分布式定时任务发送至第一服务器，第一服务器用于执行获取分布式定时任务，生成模型文件，当接收到第一服务器发送的分布式定时任务完成的消息时，生成模型文件对应的文件路径，文件路径用于指示第二服务器获取模型文件，进行模型更新的步骤。

上述模型更新方法，分布式服务器集群获取分布式锁，分布式服务器集群确定获取到分布式锁的服务器为目标服务器，以执行获取分布式定时任务等步骤，能够在分布式服务器集群可访问同一资源即分布式定时任务的情况下，防止多个服务器同时执行一个任务，为系统带来了松耦合的特征，能够确保一个任务同一时间只被一台机器执行，避免干扰同时降低资源占用，并且目标服务器可以随时热拔插任何服务器，而不会影响系统正常运行。

在一个实施例中，该模型文件训练方法还包括：当接收到第一服务器发送的分布式定时任务完成的消息时，释放分布式锁。

具体地，目标服务器在模型训练任务执行的过程中一直持有分布式锁。当第一服务器执行完模型训练任务时，向目标服务器发送模型训练任务完成的消息。当目标服务器接收到第一服务器发送的模型训练任务完成的消息时，确定模型训练任务结果，释放分布式锁。

上述模型更新方法，当接收到第一服务器发送的模型训练任务完成的消息时，释放分布式锁，能够使得同一个任务在同一时间之内只能被一台服务器拿到锁并执行，释放锁说明任务结束，完成模型文件的自更新，该目标服务器可用于执行其他任务，无需人为操作，提高模型文件更新效率。

在一个实施例中，更新模型文件对应的文件路径，包括：更新模型文件对应的软链接文件。

其中，每个模型文件对应一个软链接文件。例如内容质量检测模型无论更新多少次，可以仅对应一个软链接文件。软链接又叫符号链接，软链接文件中包含了另一个文件的文件路径，可以链接不同文件系统或者服务器的文件。

上述模型更新方法，能够指示使得第二服务器通过软链接文件直接获取模型文件，提高模型文件获取效率。

在一个实施例中，该模型更新方法还包括：获取历史模型样本数据；将历史模型样本数据输入至模型文件对应的算法模型中，得到历史模型结果数据。

其中，历史模型样本数据是指更新前的模型对应的一些输入数据。历史模型结果数据是指经过模型文件对应的算法模型处理后得到的数据。即历史模型结果数据是经过更新后的数据。

具体地，通过第二服务器使用算法模型后的数据，会存在数据库中。当模型文件变更后，历史结果也应该相应修改。第二服务器执行模型文件之后得到的结果存储在数据库，也可存储在第三服务器中。目标服务器将历史模型样本数据输入至模型文件对应的算法模型中，得到历史模型结果数据。目标服务器可根据历史模型结果数据更新数据库，或者更新第三服务器中的历史数据。例如，历史样本数据为用户的浏览记录，目标服务器将用户的浏览记录输入至模型文件对应的算法模型中，得到用户的内容推荐标签等。

上述模型更新方法，获取历史模型样本数据，将历史模型样本数据输入至模型文件对应的算法模型中，得到历史模型结果数据，即需要重新将样本数据带入更新后的模型计算得到更新后的结果，即完成对历史数据的修正，使得到的数据更加精确；能使用不同的服务器执行历史数据更新与模型文件的更新，降低第二服务器的线上服务资源占用，传统的算法模型更新需要人员直接更新底层存储，该环节缺少安全监管，很可能会导致底层存储数据受到损害，通过将历史模型样本数据输入至模型文件对应的算法模型中，得到历史模型结果数据可以自动更新变更的历史数据，保证了存量数据更新的正确性，避免了人为直接更新底层存储的高危操作。

在一个实施例中，该模型更新方法还包括：生成历史数据更新消息；向消息队列推送历史数据更新消息，历史数据更新消息用于指示第二服务器根据历史模型结果数据执行相关任务。

其中，消息队列例如可以是kafka。

具体地，目标服务器生成历史数据更新消息，向消息队列推送历史数据更新消息。第二服务器需要异步消费该消息队列。第二服务器接收到历史数据更新消息后，可根据需求从数据库或者第三服务器中获取历史模型结果数据，并执行与模型相关的任务。例如，目标服务器更新了用户标签的历史数据，那么第二服务器接收到历史数据更新消息后，可根据需求从数据库或者第三服务器中获取用户标签，并根据用户标签向对应的用户推送内容。

如图3所示，为一个实施例中历史数据更新的流程示意图，包括：

步骤302，获取历史模型结果数据。

步骤304，根据历史模型结果数据更新数据库。

步骤306，生成历史数据更新消息，向消息队列推送历史数据更新消息。

步骤308，第二服务器从消息队列中获取历史数据更新消息。

步骤310，第二服务器从数据库中读取历史模型结果数据。

上述模型更新方法，生成历史数据更新消息；向消息队列推送历史数据更新消息，历史数据更新消息用于指示第二服务器根据历史模型结果数据执行相关任务，能够通过消息队列广播历史数据更新消息，第二服务器可根据需求获取历史模型结果数据执行相关任务，有利于提升线上服务的稳定性；第二服务器通过消息队列可以自由决定如何实现线程消费，而若不通过消息队列，直接变更数据库，则难以得知历史数据是否更新过。

在一个实施例中，第三服务器可用于生成模型文件对应的版本。第二服务器用于当模型更新存在异常时，回滚至上一个版本。如图4所示，为一个实施例中第二服务器进行模型更新的流程示意图，包括：

步骤402，获取模型文件对应的软链接文件。

具体地，在获取模型文件对应的软链接文件之前，第一服务器生成了模型文件之后，上传至第三服务器，生成模型文件对应的版本。

步骤404，检测软链接文件是否变更？当未发生变更时，在预设时长之后执行步骤402。

步骤406，当发生文件路径变更时，根据文件路径加载模型文件。

步骤408，检测在加载模型文件的过程中是否时发生异常？

步骤410，当未发生异常时，根据模型文件进行模型替换。

步骤412，当发生异常时，回滚至模型文件对应的上一个版本。

其中，回滚(Rollback)指的是程序或数据处理错误，将程序或数据恢复到上一次正确状态的行为。

上述模型更新方法，能够通过软链接获取到其他服务器中的模型文件内容，提高模型文件获取效率同时不占用第二服务器的线上内存，当发生异常时回滚至上一个版本，提供故障应对机制。

在一个实施例中，该模型更新方法还包括：当检测到最新的历史模型结果版本存在时，对历史模型结果版本对应的历史模型数据文件进行校验；当历史模型数据文件校验通过时，更新数据库。

其中，历史模型数据文件中包括历史模型结果数据。

具体地，第三服务器用于生成历史模型数据文件对应的历史模型结果版本。目标服务器扫描所有历史模型结果版本。当目标服务器检测到最新的历史模型结果版本存在时，根据配置对历史模型数据文件进行规则校验。例如验证读写底层存储字段、行数据完整性、数据类型等。当历史模型数据文件校验通过时，更新数据库。

上述模型更新方法，当检测到最新的历史模型结果版本存在时，对历史模型结果版本对应的历史模型数据文件进行校验，当历史模型数据文件校验通过时，更新数据库，能够避免历史模型数据文件出错。

在一个实施例中，如图5所示，为一个实施例中模型更新方法的架构图。其中，任务配置服务和分布式应用程序协调服务可位于分布式服务集群中，也可位于单独的服务器中。在任务配置服务中，用户可以随时添加、删除、修改分布式定时任务。分布式应用程序协调服务(Zookeeper)包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。可被用作分布式锁，以一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。分布式应用程序协调服务具有高可用性、松耦合、高性能的特性。使用Zookeeper将不同定时任务进行了解耦，从而达到了系统内部松耦合。

定时服务器即目标服务器需要争夺分布式锁，上传任务至训练集群，校验模型结果文件，管理模型版本，以及更新历史数据。由于模型变更，导致数据库内的部分历史数据无效，因此需要更新历史数据。模型训练服务器集群专注于分布式模型训练，可能会涉及到分布式GPU(Graphic Processing Unit，图形处理器)、CPU(Central Processing Unit,中央处理器)管理。定时服务器，即分布式服务器集群中的服务器，即目标服务器保证定时任务的正确完成。

网络文件系统(Network File System，NFS)是FreeBSD支持的文件系统中的一种。它允许网络中的计算机之间通过TCP(Transmission Control Protocol，传输控制协议)/IP(Internet Protocol，互联网协议)网络共享资源。网络文件系统可位于分布式服务集群中，也可以位于模型训练服务器集群中。在NFS的应用中，本地NFS的客户端应用可以透明地读写位于远端NFS服务器上的文件，就像访问本地文件一样。NFS可以是上述实施例中提到的第三服务器。

终端获取模型训练任务，并向任务配置服务发送该模型训练任务。任务配置服务统一管理所有的模型训练任务。任务配置服务发布任务更新消息至分布式应用程序协调服务。分布式应用程序协调服务可用于发布任务发布消息通知，实现分布式锁。分布式应用程序协调服务接收到任务更新消息，将任务更新消息推送至分布式服务集群。分布式服务器集群接收到任务更新消息时，向任务配置服务获取最新的模型训练任务。当一个模型训练任务可被执行时，即分布式服务器集群中的一个服务器从分布式应用程序协调服务中获取到分布式锁，拿到锁的目标服务器可以执行模型训练任务。目标服务器会根据模型训练任务参数执行模型训练任务。而模型训练任务会在模型训练服务器集群，即第一服务器中执行，该模型训练服务器集群支持不同的机器学习模型，例如水印检测模型、图片清晰度模型等。从而在机器审核环节，检测源内容不同的指标，从而为后续处理流程提供参考。

当模型训练服务器执行完模型训练任务后，输出最新的模型文件，将该模型文件上传至网络文件系统，生成与该模型文件对应的版本。当目标服务器接收到模型训练任务执行完成的消息后，校验网络文件系统中的模型文件。当校验完成后，更新模型文件对应的软链接文件。目标服务器还需要对历史数据进行更新，即获取历史模型样本数据，将历史模型样本数据输入至该模型文件对应的算法模型中，得到历史模型结果数据。目标服务器校验历史模型结果数据的正确性，当校验完成后，根据历史模型结果数据更新存储。当在线算法服务器检测到软链接文件发生变更后，热更新模型文件。在线算法服务器中可提供水印检测服务、美观度服务或者其他算法服务等。且在热更新的过程中发生异常，则回滚到上一个正确的模型文件版本。监控平台可以是打点监控、开放式分布式追踪等。监控平台可用于日志收集、打点上报、使用追踪器追踪等。多维监控通过日志收集、打点上报、执行过程追踪Tracer来监控服务的运行状态，异常情况会及时告警，丰富的日志等上报可以有效帮助问题排查。

上述模型文件更新架构，为了防止单台机器故障，以及随着任务增加导致的单台机器性能成为瓶颈，可支持多台机器随时热插拔，从而保证弹性扩容，进一步保证了系统的高可用性、伸缩性、负载均衡，提高了容错。

在一个实施例中，如图6所示，为一个实施例中服务器中各模块的执行流程示意图。为了保证该系统内的自动变更均正确的，不会影响到系统整体的安全性，版本控制器会确保新生成的模型文件的有效性，从而保证算法服务的正确运行。存量服务会根据既定安全检查策略，检查变更的历史数据的合法性，从而保证底层存储的数据安全性。其中，定时任务即定时获取模型训练任务。任务定时器用于当定时任务开始时，从分布式应用程序协调服务中获取到分布式锁，并在任务执行过程中一直持有分布式锁。当模型文件版本还未生成时，执行定时任务，将定时任务相关文件同步至模型训练服务器集群中，等待定时任务执行完成；当接收到定时任务完成的消息时，释放分布式锁。如果成功获取到分布式锁，并且相应的模型文件版本已经生成，则直接结束任务，并释放锁。训练脚本管理器用于管理所有任务脚本。

分布式定时任务的执行过程中，会产生不同版本的结果文件例如模型文件、存量文件等。版本控制器被引入用于管理定时任务执行周期内的所有产生文件，以便追溯定时任务中间执行状态、允许版本回退、以及模型文件的平滑更新。版本控制器用于在任务定时器执行完成后开始执行。该模块会扫描所有模型文件版本，检测最新的模型文件是否存在；再根据配置对模型文件进行基础检测，基础检测比如模型文件大小、模型文件生成时间等；再使用模型校验脚本，加载该模型文件并验证得到验证结果；当验证通过后，会变更模型文件软链。存量服务模块在版本控制器执行完成后开始执行。其中，存量文件中存储历史数据，历史数据包括历史模型样本数据、历史模型结果数据等不限于此。存量服务模块会扫描所有存量文件版本，检测最新的存量文件是否存在；然后会根据配置对存量文件进行规则校验，比如读写底层存储字段、行数据完整性、数据类型等；验证通过后，会更新底层存储。

在一个实施例中，一种模型更新方法，包括：

步骤a1，分布式服务器集群获取分布式锁。

步骤a2，分布式服务器集群确定获取到所述分布式锁的服务器为目标服务器，其中，目标服务器用于执行获取分布式定时任务的步骤。

步骤a3，获取分布式定时任务。

步骤a4，将分布式定时任务发送至第一服务器，第一服务器用于执行分布式定时任务，生成模型文件。

步骤a5，当接收到第一服务器发送的分布式定时任务完成的消息时，释放分布式锁，获取模型验证数据集。

步骤a6，将模型验证数据集输入至模型文件对应的算法模型中，得到验证结果。

步骤a7，当验证结果满足预设结果条件时，更新模型文件对应的文件路径，文件路径用于指示第二服务器获取模型文件，进行模型更新。

步骤a11，获取历史模型样本数据。

步骤a12，将历史模型样本数据输入至模型文件对应的算法模型中，得到历史模型结果数据。

步骤a13，生成历史数据更新消息。

步骤a14，向消息队列推送历史数据更新消息，历史数据更新消息用于指示第二服务器根据历史模型结果数据执行相关任务。

上述模型更新方法，获取分布式定时任务，将分布式定时任务发送至第一服务器，第一服务器用于执行分布式定时任务，生成模型文件，当接收到第一服务器发送的分布式定时任务完成的消息时，生成模型文件对应的文件路径，文件路径用于指示第二服务器获取模型文件，进行模型更新，能够实现自动化的模型训练以及模型文件更新，通过文件路径的使用，能够使第二服务器根据文件路径从本地或者其他服务器等获取模型文件，从而提高模型文件更新效率，并且使用第一服务器执行模型训练任务，第二服务器进行模型更新，能够解决传统使用线上服务器进行模型训练和更新导致的占用线上服务器资源的问题，减少线上服务器资源占用。

图2至4为一个实施例中模型更新方法的流程示意图。应该理解的是，虽然图2至4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，一种模型更新系统，该文件更新系统包括目标服务器、第一服务器和第二服务器；

目标服务器用于获取分布式定时任务，其中，分布式定时任务用于模型训练，将分布式定时任务发送至第一服务器；

第一服务器用于执行分布式定时任务，生成模型文件以及分布式定时任务完成的消息；

目标服务器用于当接收到分布式定时任务完成的消息时，获取模型文件对应的文件路径；

第二服务器用于根据文件路径获取模型文件，进行模型更新。

上述模型更新系统，获取分布式定时任务，将分布式定时任务发送至第一服务器，第一服务器用于执行分布式定时任务，生成模型文件，当接收到第一服务器发送的分布式定时任务完成的消息时，生成模型文件对应的文件路径，文件路径用于指示第二服务器获取模型文件，进行模型更新，能够实现自动化的模型训练以及模型文件更新，通过文件路径的使用，能够使第二服务器根据文件路径从本地或者其他服务器等获取模型文件，从而提高模型文件更新效率，并且使用第一服务器执行分布式定时任务，第二服务器进行模型更新，能够解决传统使用线上服务器进行模型训练和更新导致的占用线上服务器资源的问题，减少线上服务器资源占用。

在一个实施例中，当接收到第一服务器发送的分布式定时任务完成的消息时，校验模型文件；当模型文件校验通过时，更新模型文件对应的文件路径。

上述模型更新系统，当接收到第一服务器发送的模型训练任务完成的消息时，校验模型文件；当模型文件校验通过时，生成模型文件对应的文件路径，对模型文件进行校验，避免模型文件直接使用造成大范围的使用出错，提高算法模型使用时的正确性。

在一个实施例中，目标服务器用于获取模型验证数据集；将模型验证数据集输入至模型文件对应的算法模型中，得到验证结果；当验证结果满足预设结果条件时，生成模型文件对应的文件路径。

上述模型更新系统，模型验证数据集；将模型验证数据集输入至模型文件对应的算法模型中，得到验证结果；当验证结果满足预设结果条件时，生成模型文件对应的文件路径，能够对模型文件进行校验，避免模型文件直接使用造成大范围的使用出错，提高算法模型使用时的正确性。

在一个实施例中，分布式服务器集群用于获取分布式锁；确定获取到分布式锁的服务器为目标服务器，其中，目标服务器用于获取分布式定时任务。

上述模型更新系统，分布式服务器集群获取分布式锁，分布式服务器集群确定获取到分布式锁的服务器为目标服务器，以执行获取分布式定时任务等步骤，能够在分布式服务器集群可访问同一资源即分布式定时任务的情况下，防止多个服务器同时执行一个任务，为系统带来了松耦合的特征，能够确保一个任务同一时间只被一台机器执行，避免干扰同时降低资源占用，并且目标服务器可以随时热拔插任何服务器，而不会影响系统正常运行。

在一个实施例中，目标服务器用于当接收到第一服务器发送的分布式定时任务完成的消息时，释放分布式锁。

上述模型更新系统，当接收到第一服务器发送的分布式定时任务完成的消息时，释放分布式锁，能够使得同一个任务在同一时间之内只能被一台服务器拿到锁并执行，释放锁说明任务结束，完成模型文件的自更新，该目标服务器可用于执行其他任务，无需人为操作，提高模型文件更新效率。

在一个实施例中，目标服务器用于获取历史模型样本数据；将历史模型样本数据输入至模型文件对应的算法模型中，得到历史模型结果数据。

上述模型更新系统，获取历史模型样本数据，将历史模型样本数据输入至模型文件对应的算法模型中，得到历史模型结果数据，能使用不同的服务器执行历史数据更新与模型文件的更新，降低第二服务器的线上服务资源占用，传统的算法模型更新需要人员直接更新底层存储，该环节缺少安全监管，很可能会导致底层存储数据受到损害，通过将历史模型样本数据输入至模型文件对应的算法模型中，得到历史模型结果数据可以自动更新变更的历史数据，保证了存量数据更新的正确性，避免了人为直接更新底层存储的高危操作。

在一个实施例中，目标服务器用于生成历史数据更新消息；向消息队列推送历史数据更新消息，历史数据更新消息用于指示第二服务器根据历史模型结果数据执行相关任务。

上述模型更新系统，生成历史数据更新消息；向消息队列推送历史数据更新消息，历史数据更新消息用于指示第二服务器根据历史模型结果数据执行相关任务，能够通过消息队列广播历史数据更新消息，第二服务器可根据需求获取历史模型结果数据执行相关任务，有利于提升线上服务的稳定性；第二服务器通过消息队列可以自由决定如何实现线程消费，而若不通过消息队列，直接变更数据库，则难以得知历史数据是否更新过。

在一个实施例中，第一服务器用于生成模型文件对应的版本。第二服务器用于当模型更新存在异常时，回滚至上一个版本。

上述模型更新系统，能够通过软链接获取到其他服务器中的模型文件内容，提高模型文件获取效率同时不占用第二服务器的线上内存，当发生异常时回滚至上一个版本，提供故障应对机制。

图7示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的目标服务器120、第一服务器130或者第二服务器140。如图7所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现模型更新方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行模型更新方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述模型更新方法的步骤。此处模型更新方法的步骤可以是上述各个实施例的模型更新方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述模型更新方法的步骤。此处模型更新方法的步骤可以是上述各个实施例的模型更新方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种模型更新方法，包括：

当接收到所述第一服务器发送的分布式定时任务完成的消息时，更新所述模型文件对应的文件路径，所述文件路径用于指示第二服务器获取所述模型文件，进行模型更新；

获取历史模型样本数据，并将所述历史模型样本数据输入至所述模型文件对应的算法模型中，得到历史模型结果数据；

当检测到最新的历史模型结果版本存在时，对所述历史模型结果版本对应的历史模型数据文件进行校验；

当所述历史模型数据文件校验通过时，更新数据库。

2.根据权利要求1所述的方法，其特征在于，所述当接收到所述第一服务器发送的分布式定时任务完成的消息时，更新所述模型文件对应的文件路径，包括：

当接收到第一服务器发送的分布式定时任务完成的消息时，校验所述模型文件；

当所述模型文件校验通过时，更新所述模型文件对应的文件路径。

3.根据权利要求2所述的方法，其特征在于，所述校验所述模型文件，包括：

获取模型验证数据集；

将所述模型验证数据集输入至所述模型文件对应的算法模型中，得到验证结果；

所述当所述模型文件校验通过时，更新所述模型文件对应的文件路径，包括：

当所述验证结果满足预设结果条件时，更新所述模型文件对应的文件路径。

4.根据权利要求1所述的方法，其特征在于，在所述获取分布式定时任务之前，所述方法还包括：

分布式服务器集群获取分布式锁；

所述分布式服务器集群确定获取到所述分布式锁的服务器为目标服务器，其中，所述目标服务器用于执行获取分布式定时任务的步骤。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

当接收到所述第一服务器发送的分布式定时任务完成的消息时，释放所述分布式锁。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

生成历史数据更新消息；

向消息队列推送所述历史数据更新消息，所述历史数据更新消息用于指示所述第二服务器根据所述历史模型结果数据执行相关任务。

7.一种模型更新系统，其特征在于，所述系统包括目标服务器、第一服务器和第二服务器；

所述目标服务器用于获取分布式定时任务，其中，所述分布式定时任务用于模型训练，将所述分布式定时任务发送至第一服务器；

所述第一服务器用于执行所述分布式定时任务，生成模型文件以及所述分布式定时任务完成的消息；

所述第二服务器用于根据所述文件路径获取所述模型文件，进行模型更新；

所述目标服务器还用于获取历史模型样本数据，并将所述历史模型样本数据输入至所述模型文件对应的算法模型中，得到历史模型结果数据；当检测到最新的历史模型结果版本存在时，对所述历史模型结果版本对应的历史模型数据文件进行校验；当所述历史模型数据文件校验通过时，更新数据库。

8.根据权利要求7所述的系统，其特征在于，所述目标服务器还用于当接收到第一服务器发送的分布式定时任务完成的消息时，校验所述模型文件；当所述模型文件校验通过时，更新所述模型文件对应的文件路径。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。