CN111401564A

CN111401564A - 用于机器学习的模型更新方法、装置、电子设备及存储介质

Info

Publication number: CN111401564A
Application number: CN201910002625.4A
Authority: CN
Inventors: 范坤; 侯鹏飞; 李江涛; 洪迎祥
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2019-01-02
Filing date: 2019-01-02
Publication date: 2020-07-10

Abstract

本申请提供了一种用于机器学习的模型更新方法、装置、电子设备及存储介质。在终端基于预设模型独自执行任务的过程中，可以获取预设模型执行任务时的至少一个候选训练参数，然后根据至少一个候选训练参数确定第一训练参数，并向服务器发送第一训练参数。之后服务器根据第一训练参数训练服务器中的预设模型，并得到训练后的预设模型的模型参数，向终端发送该模型参数，终端再基于该模型参数更新终端中的预设模型。通过本申请，在终端基于预设模型独自执行任务的过程中，即使终端所在环境发生变化，终端也可以实时借助服务器对终端中的预设模型进行更新，以使终端中的预设模型能适应终端所在的环境，进而使终端能够在变化后的环境中独自完成任务。

Description

用于机器学习的模型更新方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种用于机器学习的模型更新方法、装置、电子设备及存储介质。

背景技术

当前，诸如机器人、无人车、无人机等智能终端得到了迅速的发展，智能终端往往需要独自去执行任务，因此需要为智能终端训练模型，例如，神经网络模型等，以使智能终端可以基于训练好的模型执行任务。

通常情况下，事先可以离线采集训练数据，例如，环境数据等，然后使用训练数据对智能终端的模型进行训练，以使智能终端的模型中的参数均收敛，从而训练完毕之后智能终端就可以使用训练好的模型独自去执行任务。

然而，当环境发生变化时，智能终端无法学习到新的环境数据，导致智能终端很可能无法完成任务。

发明内容

为解决上述技术问题，本申请示出了一种用于机器学习的模型更新方法、装置、电子设备及存储介质。

根据本申请的一个方面，提供了一种用于机器学习的模型更新方法，所述方法包括：

获取预设模型执行任务时的至少一个候选训练参数；

根据所述至少一个候选训练参数确定第一训练参数；

向服务器发送所述第一训练参数；

接收所述服务器根据所述第一训练参数训练后得到的模型参数；

基于所述模型参数更新所述预设模型。

根据本申请的另一个方面，提供了一种用于机器学习的模型更新装置，所述装置包括：

获取模块，用于获取预设模型执行任务时的至少一个候选训练参数；

确定模块，用于根据所述至少一个候选训练参数确定第一训练参数；

第一发送模块，用于向服务器发送所述第一训练参数；

接收模块，用于接收所述服务器根据所述第一训练参数训练后得到的模型参数；

更新模块，用于基于所述模型参数更新所述预设模型。

根据本申请的另一个方面，提供了一种电子设备，包括：处理器；存储器；以及存储在所述存储器中的计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行上述的用于机器学习的模型更新方法。

根据本申请的另一个方面，提供了一种计算机程序产品，包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行上述的用于机器学习的模型更新方法。

根据本申请的另一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行上述的用于机器学习的模型更新方法。

与现有技术相比，本申请包括以下优点：

在本申请中，在智能终端基于预设模型独自执行任务的过程中，智能终端可以获取预设模型执行任务时的至少一个候选训练参数，然后根据至少一个候选训练参数确定第一训练参数，并向服务器发送第一训练参数。之后服务器可以根据第一训练参数训练服务器中的预设模型，并得到训练后的预设模型的模型参数，并向智能终端发送该模型参数。智能终端再接收该模型参数，然后可以基于该模型参数更新智能终端中的预设模型。

通过本申请，在智能终端基于预设模型独自执行任务的过程中，即使智能终端所在环境发生变化，智能终端也可以实时借助服务器对智能终端中的预设模型进行更新，以使智能终端中的预设模型能够适应智能终端所在的环境，进而使得智能终端能够在变化后的环境中独自完成任务。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本申请的一种用于机器学习的模型更新系统的结构框图。

图2是本申请的一种用于机器学习的模型更新方法的步骤流程图。

图3是本申请的一种获取候选训练参数方法的步骤流程图。

图4是本申请的一种用于机器学习的模型更新装置的结构框图。

图5是本申请的一种用于机器学习的模型更新装置的结构框图。

图6根据本申请实施例示出了一种电子设备的框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请的一种用于机器学习的模型更新系统的结构框图，该系统包括终端01和服务器02，终端01与服务器02之间通信连接，例如，基于wifi(wireless-fidelity，无线保真)、3G(3rd-Generation，第三代移动通信技术)、4G(4rd-Generation，第四代移动通信技术)、5G(5rd-Generation，第五代移动通信技术)或GPRS(General PacketRadio Service，通用分组无线服务)通信连接，终端01包括机器人、无人车、无人机等智能终端。

其中，终端01中加载有预设模型，服务器02中也加载有预设模型，终端01可以在基于预设模型执行任务时采集训练参数，然后向服务器02发送该训练参数，以使服务器02根据该训练参数对服务器02中的预设模型训练，得到模型参数，然后向终端01发送该模型参数，终端01再基于该模型参数更新终端01中的预设模型。

其中，服务器02根据该训练参数对服务器02中的预设模型训练之前，终端01中的预设模型与服务器02中的预设模型相同，且均为更新前的预设模型。

以及终端01基于该模型参数更新终端01中的预设模型之后，终端01中的预设模型与服务器02中的预设模型相同，且均为更新后的预设模型。

参照图2，示出了本申请的一种用于机器学习的模型更新方法的步骤流程图，该方法应用于图1所示的终端01中，该方法具体可以包括如下步骤：

在步骤S101中，获取预设模型执行任务时的至少一个候选训练参数。

在本申请中，该任务包括决策任务以及分类任务等等，本申请对任务的类型不做限定。

在步骤S102中，根据至少一个候选训练参数确定第一训练参数。

在本申请中，步骤S101中获取到的候选训练参数可能为一个，也可能为多个，如果候选训练参数为一个，则可以将该候选训练参数确定为第一训练参数，如果候选训练参数为多个，则可以从多个候选训练参数中选择部分候选训练参数作为第一训练参数，如何选择具体可以参见图3所示的实施例，在此不做详述。

在步骤S103中，向服务器发送第一训练参数。

在本申请中，服务器接收第一训练参数，然后可以根据第一训练参数对服务器中的预设模型训练，以实现对服务器中的预设模型中的模型参数进行更新，然后向终端发送该模型参数。

在步骤S104中，接收服务器根据第一训练参数训练后得到的模型参数。

在步骤S105中，基于该模型参数更新该预设模型。

例如，使用该模型参数替换预设模型中的当前参数，以达到更新终端中的预设模型的目的。

在本申请中，在终端基于预设模型独自执行任务的过程中，终端可以获取预设模型执行任务时的至少一个候选训练参数，然后根据至少一个候选训练参数确定第一训练参数，并向服务器发送第一训练参数。之后服务器可以根据第一训练参数训练服务器中的预设模型，并得到训练后的预设模型的模型参数，并向终端发送该模型参数。终端再接收该模型参数，然后可以基于该模型参数更新终端中的预设模型。

通过本申请，在终端基于预设模型独自执行任务的过程中，即使终端所在环境发生变化，终端也可以实时借助服务器对终端中的预设模型进行更新，以使终端中的预设模型能够适应终端所在的环境，进而使得终端能够在变化后的环境中独自完成任务。

在本申请另一实施例中，参见图3，步骤S101包括：

在步骤S201中，获取预设模型的第一输入参数。

在本申请中，第一输入参数为当前环境状态参数。

例如，终端可以通过传感器获取终端所在的环境的当前环境状态参数，其中，该传感器设置在终端中，当前环境状态参数包括终端所在区域的物体的位置、移动方向和移动速度等，该物体包括建筑物、道路以及障碍物等等。

此外，第一输入参数还可以是诸如图像、语音等其他输入参数。

在步骤S202中，获取预设模型基于第一输入参数输出的输出参数。

在本申请中，输出参数为基于当前环境状态参数确定的响应参数。例如，终端基于第一输入参数和预设模型可以确定出输出参数。例如，将第一输入参数输入预设模型，得到预设模型输出的响应参数，响应参数包括终端需要执行的动作的动作参数等，例如终端发现前方有障碍物，预设模型输出决策为右转避让。

此外，输出参数还可以是基于图像、语音等输入参数确定出的识别、分类等响应动作。

在步骤S203中，在预设模型输出输出参数后，获取预设模型的第二输入参数。

在本申请中，第二输入参数为当前环境状态参数。

例如，终端在基于预设模型输出输出参数之后，往往会改变终端所在的环境，例如，终端发现前方有障碍物，预设模型输出决策为右转避让，在右转后终端所在的环境将发生改变，发现前方有障碍物，终端可以通过传感器获取终端所在的环境的当前环境状态参数，并作为第二输入参数。

在步骤S204中，基于第二输入参数确定输出参数的评价参数。

例如，终端在右转后的环境状态参数表示成功躲避，那么针对右转避让这个输出参数将会确定较高的评价参数，相反，如果终端在右转后的环境状态参数表示发生碰撞，那么针对右转避让这个输出参数将会确定较低的评价参数。

在本申请中，当评价参数越高时，说明该输出参数越有利于执行任务，或者该输出参数越适应于第一输入参数。当评价参数越低时，说明该输出参数越不利于执行任务，或者该输出参数越不适应于第一输入参数。

在步骤S205中，基于第一输入参数、第二输入参数、输出参数、评价参数确定候选训练参数。

在一个示例中，可以将第一输入参数、第二输入参数、该输出参数以及该评价参数确定为候选训练参数。

此外，在一个示例中，还可以仅将输入参数和输出参数确定为候选训练参数。

在图2所示的实施例的基础之上，智能终端在基于预设模型执行任务时，往往会持续不断地执行步骤S201至步骤S205的过程，以连续得到多个候选训练参数，每一个候选训练参数中的评价参数不全相同，当一个候选训练参数中的评价参数越高时，说明该候选训练参数中的输出参数越有利于执行任务，或者该候选训练参数中的输出参数越适应于终端所在的环境。当一个候选训练参数中对应的评价参数越低时，说明该候选训练参数中对应的输出参数越不利于执行任务，或者该候选训练参数中的输出参数越不适应于终端所在的环境。

因此，事先可以设置一个预设阈值，在步骤S101中获取到的多个候选训练参数中，可以将评价参数大于预设阈值的候选训练参数确定为第一训练参数，从而舍弃了评价参数较低的候选训练参数。

由于第一训练参数中的每一个候选训练参数的评价参数均大于预设阈值，说明第一训练参数中的每一个候选训练参数对应的输出参数均有利于执行任务或均适应于终端所在的环境，因此，相比于使用评价参数较低的候选训练参数训练预设模型，使用第一训练参数训练预设模型时，可以使得训练出的预设模型能够更加适应终端所在的环境，进而使得终端基于训练出的预设模型能够更加容易且迅速地完成任务。

此外，在根据至少一个候选训练参数确定第一训练参数时，还可以：从至少一个候选训练参数随机选择部分候选训练参数，并作为第一训练参数。

在本申请中，如果一个候选训练参数中的评价参数大于预设阈值，则往往是由于在该候选训练参数之前的部分候选参数中的输出参数有利于执行任务而导致的，或者说是由于在该候选训练参数之前的部分候选参数中的输出参数适应于终端所在的环境而导致的，因此，在将评价参数大于预设阈值的候选训练参数确定为第一训练参数之后，也可以将第一训练参数之前预定个数的候选训练参数确定为第二训练参数，然后向服务器发送第二训练参数，以使服务器再根据第二训练参数对服务器中的预设模型更新。

其中，由于每一个第二训练参数中的输出参数有利于执行任务或适应于终端所在的环境，因此，在使用第一训练参数训练预设模型之外，还结合第二训练参数训练预设模型，可以使得训练出的预设模型能够更加适应终端所在的环境，进而使得终端基于训练出的预设模型能够更加容易且迅速地完成任务。

在本申请中，可以终端可以在向服务器发送第一训练参数的同时向服务器发送第二训练参数，也可以在向服务器发送第一训练参数的一段时间后再向服务器发送第二训练参数。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作并不一定是本申请所必须的。

参照图4，示出了本申请的一种用于机器学习的模型更新装置的结构框图，该装置具体可以包括如下模块：

获取模块301，用于获取预设模型执行任务时的至少一个候选训练参数。

确定模块302，用于根据所述至少一个候选训练参数确定第一训练参数。

第一发送模块303，用于向服务器发送所述第一训练参数。

接收模块304，用于接收所述服务器根据所述第一训练参数训练后得到的模型参数。

更新模块305，用于基于所述模型参数更新所述预设模型。

参见图5，在一个可选的实现方式中，所述获取模块301包括：

第一获取单元3011，用于获取预设模型的第一输入参数。

第二获取单元3012，用于获取预设模型基于第一输入参数输出的输出参数。

第三获取单元3013，用于在所述预设模型输出所述输出参数后，获取所述预设模型的第二输入参数。

第一确定单元3014，用于基于所述第二输入参数确定所述输出参数的评价参数。

第二确定单元3015，用于基于所述第一输入参数、第二输入参数、输出参数、评价参数确定候选训练参数。

在一个可选的实现方式中，所述第一输入参数、第二输入参数为当前环境状态参数。所述输出参数为基于当前环境状态参数确定的响应参数。

在一个可选的实现方式中，所述确定模块具体用于：将所述评价参数大于预设阈值的候选训练参数确定为所述第一训练参数。

在一个可选的实现方式中，还包括：第二发送模块306，用于向服务器发送第二训练参数，所述第二训练参数为所述第一训练参数之前预定个数的候选训练参数。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

示例性电子设备

下面，参考图6来描述根据本申请实施例的电子设备。

图6图示了根据本申请实施例的电子设备的框图。

如图6所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的用于机器学习的模型更新方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

此外，该输入设备13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图6中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的用于机器学习的模型更新方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的用于机器学习的模型更新方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种用于机器学习的模型更新方法，包括：

获取预设模型执行任务时的至少一个候选训练参数；

根据所述至少一个候选训练参数确定第一训练参数；

向服务器发送所述第一训练参数；

基于所述模型参数更新所述预设模型。

2.根据权利要求1所述的方法，其中，所述获取预设模型执行任务时的至少一个候选训练参数，包括：

获取预设模型的第一输入参数；

获取预设模型基于第一输入参数输出的输出参数；

在所述预设模型输出所述输出参数后，获取所述预设模型的第二输入参数；

基于所述第二输入参数确定所述输出参数的评价参数；

基于所述第一输入参数、第二输入参数、输出参数、评价参数确定候选训练参数。

3.根据权利要求2所述的方法，其中，所述第一输入参数、第二输入参数为当前环境状态参数；所述输出参数为基于当前环境状态参数确定的响应参数。

4.根据权利要求2所述的方法，其中，所述根据所述至少一个候选训练参数确定第一训练参数，包括：

将所述评价参数大于预设阈值的候选训练参数确定为所述第一训练参数。

5.根据权利要求1所述的方法，还包括：向服务器发送第二训练参数，所述第二训练参数为所述第一训练参数之前预定个数的候选训练参数。

6.一种用于机器学习的模型更新装置，包括：

第一发送模块，用于向服务器发送所述第一训练参数；

更新模块，用于基于所述模型参数更新所述预设模型。

7.一种电子设备，包括：

处理器；

存储器；以及

存储在所述存储器中的计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-5中任一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1-5中任一项所述的方法。