CN114357292A

CN114357292A - 模型训练方法、设备和存储介质

Info

Publication number: CN114357292A
Application number: CN202111643948.5A
Authority: CN
Inventors: 吴帆; 吕承飞; 顾仁杰; 牛超越; 严谊凯; 丁雨成; 贾荣飞; 陈贵海
Original assignee: Alibaba China Co Ltd
Current assignee: Hangzhou Yiliu Fafa E Commerce Co ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-15
Anticipated expiration: 2041-12-29
Also published as: CN114357292B

Abstract

本发明实施例提供一种模型训练方法、设备和存储介质，该方法包括：终端设备确定目标用户在终端设备上产生的第一用户数据，还可以发送数据获取请求，以获取服务器发送的其他用户产生的第二用户数据，且第一、第二用户数据之间的相似度满足预设条件。之后，以第一用户数据和第二用户数据作为训练样本，训练针对于目标用户的用户行为预测模型。上述方法中，通过服务器和终端设备协同工作，能够使终端设备获取来源不同但具有高相似度的第一用户数据和第二用户数据，丰富训练样本，保证模型的准确性。并且第二用户数据与第一用户数据所反映的行为模式与目标用户的行为模式相似，因此，训练出的预测模型输出的预测结果也与目标用户的行为模式相接近。

Description

模型训练方法、设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种模型训练方法、设备和存储介质。

背景技术

随着互联网的发展，根据用户的属性信息和用户的行为模式为用户进行个性化推荐已经在如电商平台、资讯平台等多种场景应用。优质的推荐服务往往能更好地匹配用户的需求，提升用户的使用体验。

现有技术中，个性化推荐通常可以借助两阶段推荐系统来实现。以电商平台为例，第一阶段，可以使用相关算法从全部商品中得到准备推荐给用户的多种代表商品；第二阶段，可以使用用户行为预测模型预测用户针对多种代表商品产生如购买、收藏、加入购物车等行为的概率，以进一步按照概率高低对多种代表商品进行排序，排序结果即为反馈给用户的个性化推荐内容。

对于上述的两阶段推荐系统，预测模型输出预测结果的准确性会影响用户粘度。因此，如何提高预测模型的准确性就成为一个亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供一种模型训练方法、设备和存储介质，用以提高预测模型的个性化程度，进一步提高预测结果的准确性。

第一方面，本发明实施例提供一种模型训练方法，包括：

确定目标用户在所述终端设备上产生的第一用户数据；

发送数据获取请求，以获取服务器响应于所述数据获取请求发送的其他用户产生的第二用户数据，所述第二用户数据和所述第一用户数据之间的相似度满足预设条件；

根据所述第一用户数据和所述第二用户数据，训练所述目标用户对应的用户行为预测模型。

第二方面，本发明实施例提供一种模型训练方法，包括：

确定目标用户在终端设备上产生的第一用户数据；

在其他用户产生的备选用户数据中，确定与所述第一用户数据的相似度满足预设条件的第二用户数据；

响应于所述终端设备发送的数据获取请求，发送所述第二用户数据至所述终端设备，以使所述终端设备根据所述第一用户数据和所述第二用户数据训练用户行为预测模型。

第三方面，本发明实施例提供一种电子设备，包括处理器和存储器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第一方面～第二方面中任一方面提供的模型训练方法。该电子设备还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第一方面～第二方面中任一方面所述的模型训练方法。

本发明实施例提供的模型训练方法，终端设备确定目标用户在本设备上产生的第一用户数据，同时还可以获取服务器发送的其他用户产生的第二用户数据，其中，服务器响应于终端设备发送的数据获取请求，以反馈第二用户数据至终端设备，并且第一、第二用户数据之间的相似度满足预设条件。之后，终端设备可以在本地将第一用户数据和第二用户数据作为训练样本，训练针对于目标用户的用户行为预测模型，即得到个性化的预测模型。

上述方法中，通过服务器和终端设备协同工作，能够使终端设备获取到与第一用户数据具有高相似度且来源于其他用户的第二用户数据。在使用第一用户数据的基础上，将此第二用户数据作为数据增强的结果也参与到模型训练中，使训练样本得到丰富，以提高预测模型的准确性。并且第二用户数据与第一用户数据具有高相似度，也就表明第二用户数据所反映的行为模式与目标用户的行为模式相是相似的。则使用第一用户数据和第二用户数据训练得到预测模型更加针对于目标用户，模型的个性化程度更高。此预测模型输出的预测结果更接近目标用户的行为模式，从而提高预测模型的预测准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种模型训练方法的流程图；

图2为本发明实施例提供的另一种模型训练方法的流程图；

图3为本发明实施例提供的又一种模型训练方法的流程图；

图4为本发明实施例提供的又一种模型训练方法的流程图；

图5为本发明实施例提供的一种模型训练系统的结构示意图；

图6为与图1～图5所示实施例提供的模型训练方法和系统应用在在线购物场景中的一种示意图；

图7为与图1～图5所示实施例提供的模型训练方法和系统应用在在线购物场景中的另一种示意图；

图8为与图1～图5所示实施例提供的模型训练方法和系统应用在在线购物场景中的另一种示意图；

图9为本发明实施例提供的一种模型训练方法对应的的电子设备的结构示意图；

图10为本发明实施例提供的另一种模型训练方法对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于识别”。类似地，取决于语境，短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

下面对本发明实施例提供的模型训练方法进行说明之前，还可以先对使用个性化推荐的场景进行示例性说明：

正如背景技术中提及的，电商平台、资讯平台等都可以为用户进行个性化推荐。比如在电商平台，当用户访问购物网站时，个性化推荐的内容可以显示在相关页面的固定位置上。比如当用户访问网站首页时，可以在首页的搜索栏下方显示推荐内容；当用户访问商品详情页或者搜索结果页时，可以在商品详情页的特定位置或者在搜索结果页的最下方显示推荐内容。类似的，又比如资讯平台，当用户访问资讯网站的首页时，个性化推荐的内容也可以显示在首页的固定位置上。

当然，除了上述在页面中为用户进行个性化内容的推荐之外，对于页面布局或显示样式也可以是个性化的。比如当用户进入个人中心页面时，该页面中可以包括用户的官方客服、收货地址、优惠券、领券中心等多个功能按键的布局和显示样式也可以进行个性化显示。其中，个性化显示具体可以表现为：对于不同的用户，页面中不同功能按键的显示顺序和/或显示样式不同。又比如当用户进入某一新闻的详情页面后，页面中提供的收藏、评论、点赞等功能按键的显示顺序和显示样式可以是个性化的。

在实际中，用户在长期使用过程中有可能已经熟悉了页面中的不同功能按键的位置，因此，考虑到用户的使用习惯，相比于功能按键显示顺序的个性化，更常见的是功能按键显示样式的个性化。

可见，在上述的场景中，个性化推荐的对象既可以具体内容也可以是页面布局和/或显示样式，这些个性化推荐都能够提高用户对购物网站或资讯类网站的使用粘性。

对于上述场景但不仅限于上述场景，其都存在个性化推荐的需求。则为了进一步提高个性化推荐的个性化程度，即推荐的准确性，便可以使用本发明提供的方法来训练用户行为预测模型。

基于上述描述，下面以电商平台为例，结合附图对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

图1为本发明实施例提供的一种模型训练方法的流程图。本发明实施例提供的该模型训练方法可以由训练设备来执行。可以理解的是，该训练设备可以实现为软件、或者软件和硬件的组合。本实施例以及下述各实施例中的训练设备具体来说可以是用户使用的终端设备。

如图1所示，该方法包括如下步骤：

S101，确定目标用户在终端设备上产生的第一用户数据。

目标用户在使用终端设备上安装的购物应用程序(Application，简称APP)的过程中，购物APP可以对目标用户产生的各种行为进行追踪，从而得到目标用户的第一用户数据。

可选地，第一用户数据具体可以包括静态的用户属性数据和动态的用户行为数据。其中，用户属性数据可以包括目标用户的基本身份信息，比如用户名、用户等级等等。用户行为数据又可以包括行为侧数据和对象侧数据。其中，可选地，行为侧数据可以包括目标用户触发的具体行为，比如对商品的搜索、浏览、收藏、加入购物车、立即购买等操作中的至少一种。行为侧数据还可以包括上述的不同行为的触发时间、触发频率等等。对象侧数据可以包括目标用户触发的上述行为的作用对象的属性，比如商品的名称、类别、款式、价格等商品属性。

可见，终端设备本地采集的第一用户数据可以反映目标用户的行为模式。

可选地，第一用户数据还可以借助终端设备与服务器之间的上报通道定期上传至服务器。类似的，对于除目标用户之外的其他用户产生的备选用户数据也可以通过此上报通道上传至云服务器。

S102，发送数据获取请求，以获取服务器响应于数据获取请求发送的其他用户产生的第二用户数据，第二用户数据和第一用户数据之间的相似度满足预设条件。

通过终端设备的上报，使服务器本地可以存储有不同终端设备采集到的不同用户产生的用户数据，则服务器可以对其他用户产生的备选用户数据进行筛选，以得到第二用户数据。进一步地，终端设备可以向服务器发送数据获取请求，以由服务器响应此请求，将第二用户数据反馈给目标用户使用的终端设备。其中，第二用户数据通常来源于至少一个其他用户。并且第一用户数据和第二用户数据之间的相似度是满足预设条件的，比如二者之间的相似度大于预设阈值。并且第一用户数据和第二用户数据之间的相似性，实际上表明了产生第二用户数据的其他用户与目标用户具有相似的行为模式。

根据上述描述可知，终端设备通过和服务器协同工作从而获取第一用户数据和第二用户数据。

对于第二用户数据的筛选，一种可选地方式，服务器在得到不同用户产生的用户数据后，可以先对其进行结构化处理，比如将其转换成对应的特征向量。之后，可以计算第一用户数据和备选用户数据各自对应的特征向量之间的距离值，并根据距离值的大小筛选出第二用户数据。其中，特征向量之间的距离值用以表示用户数据之间的相似度。但考虑到其他用户与目标用户行为模式之间的差异，上述筛选出的第二用户数据通常会包含其他用户产生的部分用户数据，而不是其他用户产生的全部用户数据。

考虑到用户隐私，对于按照距离值筛选出的用户数据，还可以对其进行脱敏处理，即去除用户数据中的隐私信息，从而得到第二用户数据，也即是第二用户数据是经过脱敏处理后的用户数据。

S103，根据第一用户数据和第二用户数据，训练目标用户对应的用户行为预测模型。

最终，目标用户使用的终端设备可以将第一用户数据和第二用户数据作为训练样本训练目标用户对应的用户行为预测模型。为了描述简洁，本实施例以及下述各实施例中，均可以将用户行为预测模型简称为预测模型。

从数量上来说，第一用户数据是目标用户产生的，数量较少，第二用户数据是与目标用户具有相似行为模式的至少一个其他用户产生的，数量较多，因此，第二用户数据可以认为是对第一用户数据进行数据增强的结果，从而丰富了样本数量。则同时利用第一用户数据和第二用户数据进行模型训练，能够改善因样本数量过少而导致的过拟合问题，提高模型预测的准确性。同时，由于来源于其他用户的第二用户数据所反映的用户行为模式与目标用户的行为模式是相似的，并且第一用户数据来源于目标用户，这些用户数据都能够反映目标用户的行为模式，因此，利用第一用户数据、第二用户数据训练得到的预测模型能够准确预测目标用户的行为，从而提高预测模型的个性化程度。

另外，根据背景技术中的描述可知，可以使用两阶段系统为用户提供个性化推荐。则对于为用户提供个性化内容推荐的场景，上述训练得到的预测模型能够预测用户对代表商品触发进入商品详情页的点击操作的概率，按照概率高低对代表商品进行排序，并按照排序结果向用户展示个性化的推荐内容。其中，代表商品包含利用两阶段系统中的预设算法为用户筛选出的待推荐商品。

类似的，对于为用户提供页面个性化显示样式的场景，上述训练得到的预测模型能够预测用户对商品详情页中商品触发购买、收藏、加入购物车等行为的概率。然后可以根据触发不同行为概率的高低，对页面中相应的功能按键进行重新排序并显示，并且对于不同的功能按键还可以根据概率高低设置不同的显示样式，比如增大按键的大小，或者设置按键具有动画显示效果等等。

本实施例中，终端设备获取目标用户在自身上产生的第一用户数据，同时还可以获取服务器发送的其他用户产生的第二用户数据，其中，上述的用户数据之间的相似度满足预设条件。之后，终端设备可以在本地将第一用户数据和第二用户数据作为训练样本，训练针对于目标用户的用户行为预测模型，即得到个性化的预测模型。

上述方法中，通过服务器和终端设备协同工作，能够使终端设备获取具有高相似度且来源不同的第一用户数据和第二用户数据，并且使第二用户数据作为数据增强的结果也参与到模型训练中，从而提高预测模型的准确性。并且由于第二用户数据与第一用户数据具有高相似度，因此，第二用户数据所反映的行为模式都与目标用户的行为模式相似，再加上第一用户数据又是目标用户产生的，从而使得根据第一用户数据和第二用户数据训练得到预测模型能够更加针对于目标用户，即预测模型输出的预测结果与目标用户的行为模式更接近，提高预测模型的准确性，提高预测模型的个性化程度。

并且需要说明的还有，一种方式，服务器和终端设备之间可以通过模型共享来实现预测模型的训练；而上述实施例中，服务器和终端设备之间是通过用户数据的共享实现预测模型的训练。相比于模型的共享，用户数据天然地具有更小的数据量，也就使得服务器和终端设备协同工作所需的开销较小。

在实际中，目标用户的行为模式是动态变化的，因此，使得预测模型的训练需要周期性进行。并且由于第一用户数据是目标用户自身产生的，其是最重要的训练样本，因此，第一用户数据通常会一直存储于终端设备中，用以在周期性训练预测模型的过程中被不断使用到。但考虑到终端设备的存储空间有限，当第一用户数据的数量超过第一预设阈值时，可以根据第一用户数据的生成时间，缩减第一用户数据。对于第一用户数据的缩减原则，由于用户的行为模式也会随着时间的推移发生变化，因此，可以优先删除生成时间远的第一用户数据，以将第一用户数据缩减为原来的一半。

同样考虑到存储空间的限制，可选地，在按照上述方式完成预测模型的训练后，可以直接将第二用户数据删除。

可选地，若服务器发送的第二用户数据的数量超过第二预设阈值时，则在预测模型训练之前，还可以按照第二用户数据与第一用户数据之间相似度的高低，缩减第二用户数据。比如优先删除相似度低的第二用户数据，以将第二用户数据缩减为原来的一半。

其中，第一预设阈值和第二预设阈值之间并没有严格的大小关系，但考虑到第一用户数据和第二用户数据自身的数量大小，第一预设阈值通常小于第二预设阈值。

在实际中，为了保证预测模型的训练效果，往往对训练样本即用户数据的数量有一定的要求。若终端设备在一个训练周期内获取到的第二用户数据的数量满足预设要求，则终端设备可以直接进行模型训练。若第二用户数据的数量不满足预设要求，表明对数据增强的力度还不够，则终端设备可以暂停本周期的训练任务，并且会继续获取服务器在下一个训练周期计算得到的第二用户数据。若在两个训练周期内获取到的第二用户数据的总量满足预设要求，则终端设备才会开始模型训练。

可选地，当用户在至少一个训练周期获取到的第二用户数据的数量和第一用户数据的数量之间的比例超过预设阈值时，则可以确定第二用户数据的数量满足预设要求。

图2为本发明实施例提供的另一种模型训练方法的流程图。如图2所示，该方法可以包括如下步骤：

S201，确定目标用户在所述终端设备上产生的第一用户数据。

上述步骤S201的执行过程与前述实施例的相应步骤相似，可以参见如图1所示实施例中的相关描述，在此再不赘述。

S202，发送数据获取请求，以获取服务器响应于数据获取请求发送的其他用户产生的第二用户数据，第二用户数据和第一用户数据之间的相似度满足预设条件。

服务器获取到其他用户产生的用户数据后，可以对其进行筛选以得到第二用户数据，并将此第二用户数据反馈给终端设备。

对于第二用户数据的筛选，另一种可选地方式，服务器可以计算第一用户数据和备选用户数据各自对应的特征向量之间的距离值。之后，在备选用户数据对应的特征向量中，可以确定与第一用户数据对应的特征向量具有最短距离值(即最高相似度)的预设数目个目标特征向量，并将目标特征向量所属用户产生的用户数据确定为第二用户数据。此时，第二用户数据来源于多个其他用户，并且是这多个其他用户产生的全部用户数据。其中，此第二用户数据是经过脱敏处理后的用户数据。

利用这种方式筛选出的第二用户数据，并不能保证每条用户数据都与第一用户数据具有高相似度，也即是每条第二用户数据所反映的行为模式与第一用户数据所反映的行为模式可能存在偏差。则为了保证训练得到的预测模型的个性化程度，还需要执行下述步骤对第二用户数据进行进一步筛选。

S203，将第二用户数据输入终端设备中的分类模型，以由分类模型对第二用户数据是否产生于目标用户进行分类。

S204,根据分类结果，将第二用户数据中产生于目标用户的用户数据确定为第三用户数据，第三用户数据的数量满足预设数量。

S205，根据第一用户数据和第三用户数据训练目标用户对应的用户行为预测模型。

对于步骤S202中筛选出的第二用户数据，终端设备还可以进一步将其输入自身部署的分类模型，以由此分类模型对此第二用户数据是否产生于目标用户进行分类。在第二用户数据中，可以将分类结果表明产生于目标用户的用户数据确定为第三用户数据。此时，第三用户数据虽然是其他用户产生的，但是分类器无法对其进行区分，因此可以认为第三用户数据所反映的用户行为模式与目标用户的行为行为模式十分相似，可以近似认为第三用户数据是目标用户产生的。

由于第三用户数据可以近似认为是目标用户产生的，第一用户数据是目标用户自身产生的，因此，终端设备根据第三用户数据和第一用户数据训练得到的预测模型更加针对于目标用户，即预测模型具有较强的个性化程度。

可选地，对于分类模型的训练，终端设备可以利用第二用户数据中的部分数据以及第一用户数据训练分类器。再利用训练好的分类模型执行上述的步骤S203。可选地，具体来说，可以将第二用户数据中的部分数据以及第一用户数据中的部分数据或者全部数据作为训练样本，将此部分数据中包含的用户对某商品产生的某种操作作为监督信息，进行分类模型的训练。

在实际中，在利用第二用户数据中的部分数据进行分类模型的训练后，可选地，终端设备可以将第二用户数据的剩余数据输入分类模型，以借助分类结果从剩余数据中筛选出第三用户数据。这种方式也即是实现了分类模型对应的训练集和测试集的分离，从而提高了分类模型的分类准确性。

本实施例中，终端设备和服务器协同工作，同样可以使终端设备得到第二用户数据，终端设备再利用自身中部署的分类模型对第二用户数据进行来源区分，并进一步从中筛选出分类模型无法分辨的，可以近似认为是目标用户产生的第三用户数据。通过分类模型的使用能够将第二用户数据中与目标用户的行为模式不相似的用户数据滤除。最终，终端设备可以根据第三用户数据和第一用户数据训练得到对应于目标用户的预测模型。由于第三用户数据可以近似人为是目标用户产生的，第一用户数据是目标用户自身产生的，这也就提高了预测模型的个性化程度。

在模型训练过程中，随着训练样本逐步输入到预测模型中，预测模型可能会出现过拟合，即随着训练样本的不断输入，模型的评价指标却不断恶化。则为了得到评价指标不恶化的预测模型，可选地，图3为本发明实施例提供的又一种模型训练方法的流程图。如图3所示，该方法可以包括如下步骤：

S301，确定目标用户在终端设备上产生的第一用户数据。

S302，发送数据获取请求，以获取服务器响应于数据获取请求发送的其他用户产生的第二用户数据，第二用户数据和第一用户数据之间的相似度满足预设条件。

上述步骤S301～步骤S302的执行过程与前述实施例的相应步骤相似，可以参见如图1所示实施例中的相关描述，在此再不赘述。

可选地，服务器可以按照图1或图2所示实施例中所示的方式得到第二用户数据。

S303，获取初始预测模型。

终端设备在得到第二用户数据后，还可以获取初始预测模型。为了后续描述简洁清晰，可以将此初始预测模型称为初始模型。可选地，上述各实施例中已经描述了由于用户的行为模式是动态变化的，因此，目标用户对应的预测模型可以周期性地进行训练，则在不同的训练周期中，可以对初始模型进行以下理解：

对于第一个训练周期，初始模型可以由服务器发送给终端设备。并且该初始模型可以是服务器利用本地存储的不同用户的全部用户数据训练得到，该模型的个性化程度不高。

对于后续的训练周期，初始模型可以为终端设备本地存储的、经过上一周期训练得到的模型，此模型虽然具有一定的个性化程度，但考虑到目标用户行为模式的动态变化，此初始模型不一定适用于目标用户当前的行为模式，这也就从另一角度解释了要进行周期性训练的原因。

S304，创建初始预测模型的模型副本。

S305，根据第一用户数据和第二用户数据训练模型副本，以得到用户行为预测模型。

S306，确定初始预测模型和用户行为预测模型是否保留。

终端设备在训练预测模型之前，可以先对初始模型创建模型副本，并根据第一用户数据和第二用户数据训练此模型副本，以得到预测模型。

此时，终端设备本地会同时存储有初始模型和利用模型副本训练得到的预测模型，从而可以进一步确定这两个模型的保留情况。可选地，可以根据这两个模型的评价指标的优劣来确定是否保留。即若预测模型的评价指标更优，则保留预测模型；若初始模型的评价指标更优，表明经过本周期的训练，模型的评价指标发生下降，则保留初始模型，也即是使终端设备实现了模型的版本回滚，以使终端设备本地始终保留评价指标更优的模型。

对于模型评价指标的确定，可选地，可以从第一用户数据和第二用户数据中选取一部分数据作为验证集来验证初始模型和预测模型，以得到两个模型各自的评价指标。可选地，模型的评价指标可以包括模型的召回率、精确率等等。

需要说明的有，若直接对初始模型进行训练，则得到的预测模型的模型参数会直接覆盖初始模型的模型参数。而经过验证发现预测模型的评价指标出现下降时，由于参数已经覆盖，则无法实现模型的版本回滚，终端设备便只能利用评价指标下降的预测模型为用户提供个性化推荐，从而降低用户的使用体验。而通过对模型副本的创建则可以实现模型版本的回滚，避免上述情况的发生。

本实施例中，终端设备和服务器可以通过协同工作，使终端设备获取模型训练所需的第二用户数据以及初始模型。之后，终端设备再创建初始模型的模型副本，并利用反映相似的行为模式但来源不同的第一用户数据和第二用户数据训练此模型副本，以得到预测模型。再通过比较预测模型和初始模型之间评价指标的优劣确定两模型的保留情况，从而能够实现模型版本的回滚，使终端设备本地始终存储有评价指标更优的模型。

上述实施例中，将第一用户数据和第二用户数据作为训练集用于对初始模型的模型副本进行训练，再将训练集中的一部分作为验证集来验证初始模型和预测模型的评价指标，也即是训练集和验证集的设置存在重合。

则为了进一步保证验证的准确性，终端设备还可以将训练集和验证集进行分离设置。一种可选地方式，终端设备可以对第一用户数据和第二用户数据进行不重合地划分，以得到训练数据和验证数据，并利用训练数据训练预测模型，利用验证数据验证预测模型和初始模型各自的评价指标。

对于训练集和验证集的分离设置，另一种可选地方式，终端设备可以对第二用户数据进行不重合的划分，以得到训练数据和验证数据。其中，划分依据可以是第二用户数据的生成时间。然后，根据第一用户数据和第二用户数据中的训练数据训练预测模型。再根据第二用户数据中的验证数据验证预测模型和初始模型各自的评价指标。

可选地，由于第二用户数据的生成时间越晚，其越能反映目标用户当前的行为模式，其也越适用于对预测模型进行验证，则划分得到的训练数据的生成时间早于验证数据的生成时间。

由于用户的行为模式是动态变化的，因此，终端设备需要定期训练目标用户对应的预测模型。并且在模型训练的同时，还不能够影响预测模型为用户正常提供个性化推荐，也即是在实际使用过程中，预测模型的使用和训练可以同时发生，则也可以通过设置模型副本的方式避免模型训练和使用之间发生冲突。

具体地，终端设备可以为初始模型创建模型副本，此时终端设备本地存储有两份初始模型。终端设备可以对模型副本进行模型训练，同时利用初始模型用户为用户提供个性化推荐，从而实现模型训练和使用的同时进行。其中，初始副本在不同的训练周期同样具有不同的含义，具体内容可以参见上述实施例中的描述，在此不再赘述。

综合上述各实施例，终端设备可以通过与服务器协同工作来得到初始模型以及第二用户数据，也即是实现对第一用户数据的数据增强，则终端设备再同时利用第二用户数据和目标用户自己产生的第一用户数据训练针对于目标用户的预测模型，从而提高预测模型的个性化程度。同时将第二用户数据作为数据增强的结果引入到模型训练的过程中，也可以提高预测模型的准确性。

可选地，终端设备还可以利用自身部署的分类模型，对第二用户数据进行进一步筛选，以得到与目标用户行为模式更相似的第三用户数据，则根据第一用户数据和第三用户数据进行模型训练能够进一步提高预测模型的个性化程度。

可选地，终端设备通过模型副本的设置，还能够实现模型版本回滚，也能够避免模型训练和模型使用过程中产生的冲突。

上述各实施例中是通过服务器和终端设备协同工作来实现预测模型的训练的，在上述各实施例的基础上，还可以从服务器的角度说明模型训练的过程。则图4为本发明实施例提供的又一种模型训练方法的流程图。本实施例提供的模型训练方法可以由服务器执行。如图4所示，该方法可以包括如下步骤：

S401，确定目标用户在终端设备上产生的第一用户数据。

S402，在其他用户产生的备选用户数据中，确定与第一用户数据的相似度满足预设条件的第二用户数据。

S403，响应于终端设备发送的数据获取请求，发送第二用户数据至终端设备，以使终端设备根据第一用户数据和第二用户数据训练用户行为预测模型。

服务器可以获取目标用户使用的终端设备周期性上报的第一用户数据。可选地，终端设备可以使用自身与服务器之间的上传通道实现用户数据的上传。类似的，服务器还可以获取其他用户在其使用的终端设备上产生的备选用户数据。可选地，不同用户上报的用户数据均可以存储于服务器中部署的数据库中。

可选地，用户数据可以先在终端设备本地进行聚合、压缩等处理，再将处理后的用户数据上传至服务器。并且通过用户数据的上报周期长度的调整，还能够控制服务器获取用户数据的延迟的大小。

则服务器可以计算备选用户数据和第一用户数据之间的相似度，并根据相似度从备选用户数据中筛选出第二用户数据，以将第二用户发送至目标用户使用的终端设备。目标用户的终端设备便可以根据上述各实施例提供的模型训练方法训练针对于目标用户的预测模型，也即是得到个性化的预测模型。

对于第二用户数据的筛选过程，可选地，服务器在得到第一用户数据和第二用户数据后，还可以对其进行数据处理，以得到结构化的特征向量。则服务器可以计算备选用户数据第一用户数据各自对应的特征向量之间的距离值，并根据距离值确定第二用户数据。其中，距离值的大小能够反映用户数据之间的相似度。

则一种方式，在备选用户数据对应的特征向量中，可以将与第一用户数据对应的特征向量具有最短距离值的预设数目个特征向量确定为目标特征向量，并直接将此目标特征向量对应的用户数据确定为第二用户数据。另一种方式，可以将目标特征向量所属用户产生的全部用户数据确定为第二用户数据。

在实际中，服务器得到的第二用户数据的数量往往较多，则可选地，对于第二用户数据的发送，服务器可以将其划分为多个数据组，并且为每个数据组设置有相应的批次编号以及目标用户的用户标识。并且数据组可以以键值对的形式存储于服务器的数据库中。其中，用户标识为主键、批次编号为副键、用户数据为值。则响应于终端设备发送的数据获取请求，依次发送数据组。

本实施例中，通过服务器和终端设备的协同工作，能够使终端设备得到来源于不同用户的第二用户数据，并且这些用户数据所反映的行为模式与目标用户的行为模式是相似的，再结合终端设备本地采集的第一用户数据，训练得到目标用户对应的、个性化的预测模型。

另外，本实施例中未详细描述的内容以及所能达到的技术效果也可以参加上述图1～图3所示实施例中的相关描述在此不再赘述。

在实际中，服务器和终端设备通过协同工作进行预测模型的训练，实际上是响应于服务器的管理方在服务器提供的操作界面上提交模型训练任务才开始的。并且管理方还可以在操作界面上提交其他的模型训练任务，比如图像语义识别模型的训练任务，其中，语义识别模型用于为用户提供相似或相同商品的搜索功能。

可选地，服务器可以根据任务中包含的购物APP的版本号、终端设备的设备标识以及目标用户在购物APP中用户标识中的至少一种信息，将训练任务发送至目标用户使用的终端设备，也即是完成了预测模型的训练任务的发布。则目标用户使用的终端设备可以根据接收到的训练任务更新本地的任务列表。其中，任务列表的更新可以以任务的版本号为依据。

可选地，管理方提交的任务还可以包括人为编写的脚本程序，该脚本程序中包括终端设备在训练预测模型的过程中所使用的各种逻辑和数据处理启动时机，比如预测模型训练任务使用的模型类型，训练任务的有效期限、训练周期、终端设备发送数据获取请求的时间、模型版本回滚的执行逻辑、为节约存储空间，终端设备对用户数据的删除逻辑，以及终端设备利用分类模型筛选用户数据的逻辑等等。

可选地，管理方在提交任务后，服务器和终端设备便可以根据任务中包含的执行逻辑实现模型的周期性训练，并当训练任务过期时，自动删除该任务。

可选地，对于同一训练任务，任务内容还可以发生微调，则管理方在提交新版本的任务后，服务器并不会直接用新版本的任务覆盖旧版本的任务，而是会先同时保存不同版本的任务。同时服务器还可以根据任务的版本号比较两个版本的训练任务之间的差异，并将比较结果展示给管理方。其中，训练任务之间的差异比如可以是任务有效期限的差异，训练模型类型的差异等等。

另外，在新版本的任务提交后，服务器可以将此任务发送至终端设备，以由终端设备进行执行，同时服务器还可以监测此新版本任务的执行情况。若新版本任务出现执行频繁失败的情况，则服务器还可以自动进行训练任务的版本回滚，即删除此新版本任务，保留并继续执行旧版本任务。

在实际中，可选地，第二用户数据的获取是实现模型训练的基础，则第二用户数据的获取和模型训练需要错时进行。并且可选地，在一个第二用户数据计算周期内获取到的第二用户数据可能可以供模型实现多个周期的训练。

可选地，对于模型的训练时机，由于模型训练过程需要占用终端设备的一部分计算资源，因此，模型训练的时机需要考虑到终端设备上安装的应用程序的运行状态，比如不在应用程序启动时进行模型训练，以避免由于模型训练占用计算资源导致没有足够的计算资源来保证应用程序的正常启动。

对于第二用户数据的获取时机，需要考虑到服务器的工作压力。具体地，不同用户使用的终端设备都要向服务器获取第二用户数据，则为了降低服务器分发数据的压力，可以控制不同用户使用的终端设备在不同的时间向服务器发送数据获取请求。还有，由于服务器不仅需要响应不同终端设备发送的不同数据获取请求，还需要响应终端设备发送的其他请求，则为了降低服务器的请求响应压力，以保证用户能够正常使用应用程序，还可以在应用程序的使用低峰时向服务器发送用户数据获取请求。

其中，模型训练的时机和用户数据的获取时机都可以写入模型训练任务中，并将其发送至终端设备，以完成任务的发布。

图5为本发明实施例提供的一种模型训练系统的结构示意图。如图5所示，该系统可以包括终端设备和服务器。

终端设备具体可以包括数据采集模块、分类模块、模型训练模块、用户数据管理模块和模型版本控制模块。

其中，数据采集模块，用于采集目标用户在终端设备上产生的第一用户数据。

分类模块，用于对服务器发送的第二用户数据进行分类，以区分第二用户数据是否产生于目标用户，从而使终端设备根据分类结果，将第二用户数据中产生于目标用户的用户数据确定为第三用户数据。

模型训练模块，用于根据第一用户数据和第二用户数据训练目标用户对应的预测模型。可选地，可以对初始模型的模型副本进行训练。

用户数据管理模块，用于在预测模型训练之后删除终端设备本地存储的非第一用户数据的其他用户数据。以及在本地的第一用户数据的数量超过预设阈值时，删除生成时间较早的部分第一用户数据。

模型版本控制模块，用于在预测模型训练的过程中创建初始模型的模型副本。同过验证预测模型和初始模型各自评价指标的优劣确定是否需要进行模型回滚，即是否需要保留训练得到的预测模型。

服务器具体可以包括：任务管理模块、任务发布模块、数据筛选模块和模型训练模块。

其中，任务管理模块，用于响应于服务器的管理方触发的任务提交操作，接收任务。若管理方提交的任务在服务器本地存在历史版本，则可以根据提交的新版本的任务的执行状态确定此提交的新版本的任务是否需要版本回滚。

任务发布模块，用于将管理方提交的任务发送至终端设备。

数据存储模块，用于存储不同终端设备采集的用户数据。

数据筛选模块，用于计算第一用户数据和其他用户的用户数据各自对应的特征向量之间的相似度，以确定第二用户数据，此第二用户数据所反映的行为模式与目标用户的行为模式相似。

模型训练模块，用于利用服务器获取到的不同用户的用户数据训练个性化程度较低的初始模型。

可选地，从不同终端设备获取到的不同用户的用户数据可以存储于服务器的数据库中。并且第二用户数据可以以键值对的形式进行存储。

可选地，服务器和终端设备之间的协同工作可以借助二者之间的上报通道和下发通道实现。其中，终端设备可以通过上报通道将自身采集的第一用户数据定期上报至服务器。服务器可以通过下发通道发送初始模块，发送第二用户数据。

另外，本实施例中未详细描述的内容以及所能达到的技术效果均可以参见上述图1～图4所示实施例中的相关描述，在此不再赘述。

为了便于理解，结合如下的在线购物场景来对以上提供的模型训练方法的具体实现过程进行示例性说明。

用户1在使用购物APP的过程中，可以对购物APP页面上展示的不同商品触发如搜索、进入商品详情页、购买、加入购物车、收藏店铺等多种操作，则终端设备能够采集用户1产生的第一用户数据。并且该第一用户数据可以周期性地上传至服务器。可选地，用户2～用户N也可以在各自的终端设备安装的购物APP上触发相关操作，则服务器也可以周期性地获取到用户2～用户N各自产生的用户数据。

则服务器可以按照图1或图2所示实施例中的方式从用户2～用户N产生的全部用户数据中筛选与第一用户数据具有一定相似度的第二用户数据，并发送第二用户数据至终端设备。其中，第二用户数据所反映的用户行为模式与用户1的行为模式相似。也即是终端设备可以通过与服务器协同工作来获取来源于不同用户的用户数据。

其中，需要说明的有，考虑到用户隐私，在云服务器计算出与第一用户数据具有一定相似度的用户数据后，还可以对这些用户数据进行脱敏处理，即去除用户数据中的隐私信息，从而得到第二用户数据。也即是第二用户数据实际上都是经过脱敏处理后的用户数据。

最终，终端设备可以根据第二用户数据以及第一用户数据训练针对于用户1的预测模型。由于第一用户数据和第二用户数据各自所反映的用户行为模式十分相似，因此也就提高预测模型的个性化程度，使其能够更加准确的预测用户1的行为。

可选地，终端设备和服务器还可以执行上述图1～图4所示实施例中的相关操作，从而到达相应的技术效果，具体内容可以参见上述各实施例中的相关描述在此不再赘述。

在使用按照上述方式训练出的预测模型后，可以为用户提供更个性化的内容推荐或者更个性化的页面显示样式。具体可以参见图6和图7理解。

在图6中，购物网站首页搜索栏的下方存在为用户1进行商品个性化推荐的区域，假设在冬季，大多数用户往往存在购买长款羽绒服的需求，因此，使用个性化程度低的预测模型为用户1推荐的商品可以如图6中的(a)所示，该模型为用户1推荐的都是羽绒服、毛呢大衣、毛衣等冬季衣服。

而假设用户1之前刚刚多次买过短袖衬衣、凉鞋这种反季节的衣服，并且用户每次购买之前都会进入个人中心界面，点击该界面中的优惠券按键，以查看是否有可用的优惠券。与多数用户相比，用户1具有特殊的行为模式。则使用上述各实施例中提供的模型训练方法得到的个性化程度高的预测模型，为用户1推荐的商品可以图6中的(b)所示，该预测模型为用户1推荐的是短袖衬衣、短裙、凉鞋等夏季衣服。并且由于用户1最近刚刚买过短袖衬衣，则如图6中的(b)所示，可以将短袖衬衣优先地推荐给用户1。

可选地，预测模型在利用第一用户数据、第二用户数据进行训练的过程中预测模型还可以学习到用户1的购买习惯是直接购买并同时收藏店铺，而非将商品加入购物车再一并购买。则对于此独有的行为模型，在使用上述各实施例中提供的模型训练方法得到的个性化程度高的预测模型后，对于商品详情页中各自按键的显示样式和布局也会发生个性化的变化。图7中的(a)是普通商品详情页，图7中的(b)是针对于用户1的个性化的商品详情页。二者相比，为用户1展示的商品详情页中购买和店铺收藏按键的大小更大，并且显示位置也发生变化。可选地，考虑到用户的使用习惯，该页面中功能按键的显示顺序也可以不变。

并且用户1在购买商品时还可以进入到个人中心页面查看是否存在可用的优惠券，此时，终端设备上显示的个人中心页面包含的各功能按键可用具有不同的显示样式。图8中的(a)是个人中心页面，图8中的(b)是针对于用户1的个性化的个人中心页面。二者相比，为用户1展示的个人中心界面中优惠券按键和领券中心按键的大小更大，字体也是加大加粗显示。并且考虑到用户的使用习惯，该页面中功能按键的显示顺序不变。

以下将详细描述本发明的一个或多个实施例的电子设备。本领域技术人员可以理解，这些电子均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

在一个可能的设计中，上述的模型训练方法可以由以电子设备执行，如图9所示，该电子设备可以包括：处理器21和存储器22。其中，所述存储器32用于存储支持该电子设备执行上述图1至图3所示实施例中提供的模型训练方法的程序，所述处理器21被配置为用于执行所述存储器22中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器21执行时能够实现如下步骤：

确定目标用户在所述终端设备上产生的第一用户数据；

发送数据获取请求，以获取所述服务器响应于所述数据获取请求发送的其他用户产生的第二用户数据，所述第二用户数据和所述第一用户数据之间的相似度满足预设条件；

可选地，所述处理器21还用于执行前述图1至图3所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括通信接口23，用于该电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存上述电子设备所用的计算机软件指令，其包含用于执行上述图1至图3所示方法实施例中模型训练方法所涉及的程序。

在另一个可能的设计中，上述的模型训练方法可以由以电子设备执行，如图10所示，该电子设备可以包括：处理器31和存储器32。其中，所述存储器32用于存储支持该电子设备执行上述图4所示实施例中提供的模型训练方法的程序，所述处理器31被配置为用于执行所述存储器32中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器31执行时能够实现如下步骤：

确定目标用户在终端设备上产生的第一用户数据；

可选地，所述处理器31还用于执行前述图4所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括通信接口33，用于该电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存上述电子设备所用的计算机软件指令，其包含用于执行上述图4所示方法实施例中模型训练方法所涉及的程序。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种模型训练方法，应用于终端设备，包括：

确定目标用户在所述终端设备上产生的第一用户数据；

2.根据权利要求1所述的方法，所述方法还包括：

将所述第二用户数据输入所述终端设备中的分类模型，以由分类模型对所述第二用户数据是否产生于所述目标用户进行分类；

根据分类结果，将所述第二用户数据中产生于所述目标用户的用户数据确定为第三用户数据，所述第三用户数据的数量满足预设数量；

所述根据所述第一用户数据和所述第二用户数据训练用户行为预测模型，包括：

根据所述第一用户数据和所述第三用户数据训练所述用户行为预测模型。

3.根据权利要求2所述的方法，所述方法还包括：

根据所述第二用户数据中的部分数据，训练所述分类模型。

4.根据权利要求1所述的方法，所述根据所述第一用户数据和所述第二用户数据训练所述用户行为预测模型，包括：

获取初始预测模型；

创建所述初始预测模型的模型副本；

根据所述第一用户数据和所述第二用户数据训练所述模型副本，以得到所述用户行为预测模型；

所述方法还包括：

确定所述初始预测模型和所述用户行为预测模型是否保留。

5.根据权利要求4所述的方法，所述根据所述第一用户数据和所述第二用户数据训练所述模型副本，以得到所述用户行为预测模型，包括：

根据所述第二用户数据的生成时间，将所述第二用户数据划分为验证数据和训练数据，所述训练数据在所述验证数据之前生成；

根据所述第一用户数据和所述训练数据训练所述模型副本，以得到所述用户行为预测模型；

所述确定所述初始预测模型和所述用户行为预测模型是否保留，包括：

根据所述验证数据，确定所述初始预测模型和所述用户行为预测模型是否保留。

6.根据权利要求5所述的方法，所述根据所述验证数据，确定所述初始预测模型和所述用户行为预测模型是否保留，包括：

根据所述验证数据，确定所述初始预测模型和所述用户行为预测模型各自的评价指标；

根据所述评价指标，确定所述初始预测模型和所述用户行为预测模型是否保留。

7.根据权利要求6所述的方法，所述根据所述模型评价指标，确定所述初始预测模型和所述用户行为预测模型是否保留，包括：

若所述用户行为预测模型的评价指标优于所述初始模型的评价指标，则保留所述用户行为预测模型；

若所述初始模型的评价指标优于所述用户行为预测模型的评价指标，则保留所述初始模型。

8.根据权利要求1所述的方法，所述方法还包括：

在所述用户行为预测模型的训练完成后，删除所述第二用户数据。

9.一种模型训练方法，应用于服务器，包括：

确定目标用户在终端设备上产生的第一用户数据；

10.根据权利要求9所述的方法，所述在其他用户产生的备选用户数据中，确定与所述第一用户数据的相似度满足预设条件的第二用户数据，包括：

获取所述第一用户数据以及所述备选用户数据各自对应的特征向量；

在所述备选用户数据对应的特征向量中，确定与所述第一用户数据对应的特征向量具有最短距离值的预设数目个目标特征向量；

将所述目标特征向量所属用户产生的用户数据确定为所述第二用户数据。

11.一种电子设备，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至10中任一项所述的模型训练方法。

12.一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至10中任一项所述的模型训练方法。