CN111553488A

CN111553488A - 一种针对用户行为的风险识别模型训练方法及系统

Info

Publication number: CN111553488A
Application number: CN202010661868.1A
Authority: CN
Inventors: 谢文浩; 王维强; 汲小溪
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-08-18
Anticipated expiration: 2040-07-10
Also published as: CN111553488B

Abstract

本说明书公开了一种针对用户行为的风险识别模型训练方法及系统。所述方法包括：循环执行以下步骤，直到满足循环停止条件：服务端将本地的第一类风险识别模型的第一类模型参数集分别下发到至少两个用户终端；每个用户终端执行：基于所接收到的第一类模型参数集配置本地的第二类风险识别模型；获取本地的行为模式特征；将本地的行为模式特征输入到本地的第二类风险识别模型，以便根据对应的风险标签训练本地的第二类风险识别模型；以减小本地的第二类风险识别模型的训练损失为目标，更新本地第二类风险识别模型；将本地的第二类风险识别模型的第二类模型参数集上传给服务端；服务端根据接收到的各第二类模型参数集，重新确定第一类模型参数集。

Description

一种针对用户行为的风险识别模型训练方法及系统

技术领域

本说明书实施例涉及风险识别领域，尤其涉及一种针对用户行为的风险识别模型训练方法及系统。

背景技术

目前市面上的终端具有多种功能，并且在用户的生活中越来越重要。例如，提供便捷的网络支付的智能手机、帮助办公的个人电脑等等。同时，用户在终端上的一些行为可能存在较大的风险。例如，使用手机进行网络赌博的行为属于违法行为；使用电脑买卖用户账号的行为属于违规行为。因此，需要对上述行为进行识别。

常用的风险识别模型训练方法是，服务端收集各个终端上的用户行为数据，利用机器学习的方法训练出行为风险识别模型，然后将训练好的风险识别模型下发到各个终端上，各个终端再根据风险识别模型对用户在终端上的行为进行风险识别。

但由于用户行为数据属于用户隐私数据，因此在用户不愿意提供隐私数据的情况下，服务端难以直接收集用户行为训练风险识别模型。

发明内容

为了使服务端在保护用户隐私数据的情况下，利用用户行为数据训练风险识别模型，本说明书提供了一种针对用户行为的风险识别模型训练方法及系统。技术方案如下所示：

一种针对用户行为的风险识别模型训练方法，包括：循环执行以下步骤，直到满足循环停止条件：

服务端将本地的第一类风险识别模型的第一类模型参数集分别下发到至少两个用户终端；

每个用户终端执行：

基于所接收到的第一类模型参数集配置本地的第二类风险识别模型；

获取本地的行为模式特征；所述行为模式特征的确定方法包括：获取至少一个用户行为事件对应的终端操作序列，将获取的终端操作序列输入到预先采用自监督学习算法在本地训练的行为模式学习模型，输出行为模式特征；

将所述本地的行为模式特征输入到本地的第二类风险识别模型，以便根据所述至少一个用户行为事件对应的风险标签训练本地的第二类风险识别模型；

以减小本地的第二类风险识别模型的训练损失为目标，更新本地第二类风险识别模型；

将本地的第二类风险识别模型的第二类模型参数集上传给所述服务端；

所述服务端根据接收到的各第二类模型参数集，重新确定所述第一类模型参数集。

一种针对用户行为的风险识别模型训练系统，包括：服务端和至少两个用户终端；

服务端，循环执行以下步骤，直到满足循环停止条件：

将本地的第一类风险识别模型的第一类模型参数集分别下发到每个用户终端；接收每个用户终端分别上传的第二类风险识别模型的第二类模型参数集；根据接收到的各第二类模型参数集，重新确定所述第一类模型参数集；

每个用户终端，基于所接收到的第一类模型参数集配置本地的第二类风险识别模型；获取本地的行为模式特征；所述行为模式特征的确定方法包括：获取至少一个用户行为事件对应的终端操作序列，将获取的终端操作序列输入到预先采用自监督学习算法在本地训练的行为模式学习模型，输出行为模式特征；将所述本地的行为模式特征输入到本地的第二类风险识别模型，以便根据所述至少一个用户行为事件对应的风险标签训练本地的第二类风险识别模型；以减小本地的第二类风险识别模型的训练损失为目标，更新本地第二类风险识别模型；将本地的第二类风险识别模型的第二类模型参数集上传给所述服务端。

通过上述技术方案，在模型训练的过程中，用户行为数据始终在用户终端本地保存，并未发送到服务端。因此，在保护用户隐私数据的情况下，实现了利用用户终端上的用户行为数据训练风险识别模型。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本说明书实施例提供的一种针对用户行为的风险识别模型训练方法的原理示意图；

图2是本说明书实施例提供的另一种针对用户行为的风险识别模型训练方法的原理示意图；

图3是本说明书实施例提供的另一种针对用户行为的风险识别模型训练方法的原理示意图；

图4是本说明书实施例提供的一种针对用户行为的风险识别模型训练方法的流程示意图；

图5是本说明书实施例提供的一种终端操作序列的结构示意图；

图6是本说明书实施例提供的一种行为模式特征提取方法的原理示意图；

图7是本说明书实施例提供的另一种针对用户行为的风险识别模型训练方法的流程示意图；

图8是本说明书实施例提供的另一种针对用户行为的风险识别模型训练方法的流程示意图；

图9是本说明书实施例提供的一种第一本地训练流程的流程示意图；

图10是本说明书实施例提供的一种针对用户行为的风险识别方法的流程示意图；

图11是本说明书实施例提供的一种针对用户行为的风险识别装置的结构示意图；

图12是用于配置本说明书实施例方法的一种设备的结构示意图。

具体实施方式

为了使本领域技术人员更好地理解本说明书实施例中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行详细地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于保护的范围。

目前市面上的终端具有多种功能，并且在用户的生活中越来越重要。例如，提供便捷的网络支付的智能手机、帮助办公的个人电脑等等。同时，用户在终端上的一些行为可能存在较大的风险。例如，使用手机进行网络赌博的行为属于违法行为；使用电脑买卖用户账号的行为属于违规行为。因此，需要针对用户行为进行风险识别。其中，风险识别具体可以是识别出用户行为是否有风险，也可以在确定用户行为有风险的情况下，进一步识别出具体的风险类型，如账号买卖风险、盗用风险、网络赌博风险等等。

常用的针对用户行为的风险识别模型训练方法是，服务端收集各个用户终端上传的用户行为数据，利用各个用户终端上传的用户行为数据与相应的风险标签，采用有监督学习算法，训练一个风险识别模型，再将训练出的风险识别模型下发到各个用户终端，以便每个用户终端对用户行为进行风险识别。

此处需要说明的是，在实践中，用户终端所采集到的用户行为数据一般是用户基于向服务端发起业务请求的目的，通过自身行为来操作用户终端产生的终端操作序列。

而服务端可以根据接收到的业务请求，采用预设规则对业务请求进行处理和/或评价，得到业务请求对应的反馈结果，进而根据反馈结果确定业务请求是否有风险（也可以进一步确定，如果有风险，具体是何风险）；或者，服务端可以通过人工对业务请求进行风险识别，确定业务请求是否有风险（也可以进一步确定，如果有风险，具体是何风险）。

为了描述的方便，本文将用户通过操作用户终端向服务端发起业务请求的事件称为用户行为事件。

可以理解，从用户终端的角度看，用户行为事件实际上表征为终端操作序列，从服务端的角度看，用户行为事件实际上表征为业务请求。

值得强调的是，服务端在对业务请求进行风险识别时，往往并不会依据相应的终端操作序列进行风险识别（终端操作序列属于用户隐私数据，服务端往往难以获取），而是根据业务请求对应的发起用户的用户个性化特征（如信用、年龄、性别）、发起时间、发起地点、用户终端是否为常用设备、具体的业务请求内容等进行风险识别。而服务端训练风险识别模型的目的，是提供给用户终端使用，以便用户终端可以基于本地采集的终端操作序列来对用户行为事件进行风险识别。

服务端在训练风险识别模型时，实际上是将各用户终端上传的终端操作序列作为样本特征，将服务端针对相应的业务请求确定的风险识别结果作为样本特征对应的样本标签（即风险标签），对终端操作序列与风险识别结果之间的关联性进行分析。

在现有的风险识别模型训练方法中，由于用户终端采集的终端操作序列属于用户隐私数据，因此在用户不愿意提供隐私数据的情况下，服务端难以直接收集用户行为数据（终端操作序列）训练风险识别模型。为了解决此问题，本说明书提供了以下两种风险识别模型的训练方法，分别基于本地训练模式与联邦学习训练模式。

1）本地训练模式

将模型训练的工作下发到每个用户的用户终端上，在用户终端本地利用本地的用户行为数据进行风险识别模型训练，得到一个用户终端本地的风险识别模型对该用户终端上的用户行为进行识别。

由于用户终端的用户行为数据只在用户终端本地用于模型训练，并没有传输出去，因此保护了用户的隐私数据，服务端无需收集用户行为数据就可以训练针对用户行为的风险识别模型。

但这种方法中，不同的用户终端训练出的风险识别模型互不相同，并且针对任一用户终端，模型训练集只有该用户终端本地的用户行为数据，存在过拟合的情况，无法适用于其他用户终端。即，每个用户终端训练出的风险识别模型往往只能适用于该用户终端本身，各用户终端相当于一个个数据孤岛。

2）联邦学习训练模式

在包含服务端和多个用户终端的系统中，服务端和每个用户终端共同训练一个针对终端操作序列的风险识别模型。

在一次迭代训练中，每个用户终端利用本地的用户行为数据训练风险识别模型，并将完成训练的当前模型参数集上传到服务端；服务端利用接收到的全部用户终端的当前模型参数集，基于预设的算法确定出一个新的模型参数集下发到每个用户终端上；每个用户终端根据接收到的新的模型参数集更新本地的模型参数集，并进行下一次迭代。

直到满足迭代停止条件，才停止训练。

当然，服务端与每个用户终端之间传输的也可以是模型目标函数的梯度。

但是，由于针对终端操作序列的风险识别模型需要额外对终端操作序列提取特征，因此该模型中包含的参数量级通常较大，每个终端与服务端之间都需要传输量级较大的参数集或梯度，导致传输效率较低。

此外，这种方法的训练集中的样本特征为终端操作序列，样本标签为风险标签，因此作为训练结果的风险识别模型，输入为终端操作序列，输出为风险识别结果，从而消除了不同用户终端上用户行为数据的异质性，使得训练出的风险识别模型的识别准确率不高。

下面对上述的联邦学习模式会消除不同用户行为异质性的原因进行解释。

所谓异质性，是指不同的用户即便在各自的用户终端上进行相同的用户行为（产生的终端操作序列相同），服务端也可能对不同用户的相同的用户行为进行不同的风险评价。

例如，用户行为事件“用户1异地登录并付款”可以对应于登录操作、付款操作这一终端操作序列。而根据该用户行为事件，用户1的特征包括“有被盗用历史”，因此，可以认为这一用户行为事件具有高盗用风险，反馈结果可以是“有盗用风险”，即对该用户行为事件的评价结果。从而可以获取到风险标签为“有风险”，作为该终端操作序列的风险标签。

另一个示例为，用户行为事件“用户2异地登录并付款”可以对应于登录操作、付款操作这一终端操作序列。而根据该用户行为事件中，用户2的特征包括“正在异地出差”且“无被盗用历史”，因此，可以认为这一用户行为事件不具有风险，反馈结果可以是“放行付款操作”，即对该用户行为事件的处理结果。从而可以获取到风险标签为“无风险”，作为对该终端操作序列的风险标签。

显然，对于不同用户在不同终端上进行的同一个用户行为事件，即使从终端角度执行的终端操作序列相同，服务端可能得到不同的反馈结果，进而得到不同的风险标签。

而如前所述，在训练以终端操作序列为模型输入的风险识别模型时，是以服务端对用户行为事件的风险识别结果为风险标签的，这就会出现相同的终端操作序列对应有不同的风险识别标签的情况。这样训练出的风险识别模型根据终端操作序列来分析风险，并没有学习到不同用户的相同行为（终端操作序列相同）背后的个性化行为模式差异，相当于消除了不同用户终端上发生的用户行为事件的异质性，因此，每个用户终端使用这样训练出的风险识别模型进行识别时，很难保证识别准确率。

为了同时解决上述两种方式的问题，本说明书还提供了一种针对用户行为事件的风险识别模型训练方法。

在上述联邦学习训练模式的基础上，利用联邦学习的方式训练风险识别模型，但在每个终端上额外部署了一个行为模式学习模型。

行为模式是指用户在完成某一行为事件的过程中，所遵循的固定模式。为了学习到不同用户的个性化行为模式，可以使用自监督学习的方式。

因此，行为模式学习模型可以利用自监督学习的训练方法，基于输入的终端操作序列，学习用户的行为模式，分析出用户个性化的行为模式特征。具体可以是针对终端操作序列中的终端操作所包含的若干属性进行自监督学习，学习到用户的个性化行为模式特征。

利用行为模式学习模型所输出的行为模式特征作为风险识别模型的输入，而不再将终端操作序列作为风险识别模型的输入。而针对行为模式特征的风险识别模型无需提取特征向量，因此相比于针对终端操作序列的风险识别模型的参数集的量级，针对行为模式特征的风险识别模型的参数集的量级大大减小。

在每个终端学习到各自用户的个性化行为模式特征后，显然在不同终端上相同的终端操作序列，所提取的行为模式特征互不相同，即使服务端对不同用户的相同用户行为进行不同的风险评价，对于风险识别模型而言，所输入的行为模式特征（样本特征）并不相同，风险标签（样本标签）也不相同。

这样训练出的风险识别模型根据行为模式特征来分析风险，学习到了不同用户的相同行为的个性化行为模式差异，保留了不同用户终端上发生的用户行为事件的异质性。

因此训练完成的风险识别模型在进行识别时，识别的准确率相对较高。

而具体进行模型训练时，针对利用行为模式特征进行风险识别的风险识别模型，服务端与每个终端可以基于联邦学习的形式，共同训练这一风险识别模型。

由于针对行为模式特征进行风险识别的风险识别模型的参数集量级较小，与上述联邦学习训练模式中针对终端操作序列进行风险识别的风险识别模型相比，需要传输的参数集或梯度的量级大大降低，提高了传输效率。

此外，行为模式学习模型可以是预先训练完成的，也可以是预先没有训练完成的。

对于已经预先训练完成的行为模式学习模型，在上述训练过程中，可以并不进行训练更新，也可以与风险识别模型进行协同训练更新。

对于预先没有训练完成的行为模式学习模型，在上述训练过程中，可以单独进行训练更新，也可以与风险识别模型进行协同训练更新。

每个终端可以在本地协同训练风险识别模型和行为模式学习模型，具体可以是：为了减小两个模型的综合训练损失，同时更新这两个模型。在这种实施例中，通过基于联邦学习得到的风险识别模型，在终端协同训练的过程中，将其他终端的影响带入到行为模式学习模型的更新中，从而使得行为模式学习模型更加适应全局的风险识别模型，进一步提高风险识别的准确率。

为了更清楚地解释具体的训练步骤，如图1所示，为本说明书实施例提供的一种针对用户行为的风险识别模型训练方法的原理示意图。该方法原理中，客户端与每个用户终端之间传输的是模型目标函数的梯度。用户终端的数量可以至少是2个，为了方便描述，用户终端的数量可以用M表述，M≥2。对于M个用户终端，每个用户终端可以存储有各自的本地样本数据集、各自的行为模式学习模型以及各自的第二类风险识别模型。行为模式学习模型是预先训练完成的。为了便于区分，第i个用户终端可以存储有本地样本数据集i、行为模式学习模型i以及第二类风险识别模型i，i=1,2,3,...M。

例如，第1个用户终端可以存储有本地样本数据集1、行为模式学习模型1以及第二类风险识别模型1；第2个用户终端可以存储有本地样本数据集2、行为模式学习模型2以及第二类风险识别模型2；第M个用户终端可以存储有本地样本数据集M、行为模式学习模型M以及第二类风险识别模型M。

每个用户终端基于本地的样本数据（终端操作序列和对应的风险标签），利用预先训练完成的行为模式学习模型，可以根据输入行为模式学习模型的终端操作序列获得行为模式学习模型输出的行为模式特征。根据行为模式特征及其对应的风险标签，可以确定当前第二类风险识别模型的目标函数的梯度。

每个用户终端将第二类风险识别模型目标函数的梯度θi上传到服务端，i=1,2,3,...M，由服务端基于预设的算法F(x)，通过F(θ1，θ2，...，θM)重新确定出一个综合梯度θ综并下发到每个用户终端。

每个用户终端在接收到新的综合梯度后，更新本地的第二类风险识别模型，得到新的第二类风险识别模型，再次基于本地的样本数据重新确定梯度。

之后不断迭代这个过程，直到满足训练要求。

如图2所示，为本说明书实施例提供的另一种针对用户行为的风险识别模型训练方法的原理示意图。该方法原理中，客户端与每个用户终端之间传输的是模型参数集。用户终端的数量可以至少是2个，为了方便描述，用户终端的数量可以用M表述，M≥2。对于M个用户终端，每个用户终端可以存储有各自的本地样本数据集、各自的行为模式学习模型以及各自的第二类风险识别模型。行为模式学习模型是预先训练完成的。为了便于区分，第i个用户终端可以存储有本地样本数据集i、行为模式学习模型i以及第二类风险识别模型i，i=1,2,3,...M。

每个用户终端基于本地的样本数据（终端操作序列和对应的风险标签），利用预先训练完成的行为模式学习模型，可以根据输入行为模式学习模型的终端操作序列获得行为模式学习模型输出的行为模式特征。根据行为模式特征及其对应的风险标签，可以训练第二类风险识别模型。

每个用户终端将完成训练的第二类风险识别模型参数集αi上传到服务端，i=1,2,3,...M，由服务端基于预设的算法G(x)，通过G(α1，α2，...，αM)重新确定出一个综合参数集α综并下发到每个用户终端。

每个用户终端在接收到新的综合参数集后，配置本地的第二类风险识别模型，得到新的第二类风险识别模型，再次基于本地的样本数据重新训练第二类风险识别模型。

之后不断迭代这个过程，直到满足训练要求。

如图3所示，为本说明书实施例提供的另一种针对用户行为的风险识别模型训练方法的原理示意图。该方法原理中，客户端与每个用户终端之间传输的是模型参数集。行为模式学习模型与风险识别模型协同训练。用户终端的数量可以至少是2个，为了方便描述，用户终端的数量可以用M表述，M≥2。对于M个用户终端，每个用户终端可以存储有各自的本地样本数据集、各自的行为模式学习模型以及各自的第二类风险识别模型。为了便于区分，第i个用户终端可以存储有本地样本数据集i、行为模式学习模型i以及第二类风险识别模型i，i=1,2,3,...M。

每个用户终端基于本地的样本数据（终端操作序列和对应的风险标签）对本地存储的行为模式学习模型和第二类风险识别模型进行训练，基于综合训练损失同时更新行为模式学习模型和第二类风险识别模型。

训练完成后，每个用户终端将第二类风险识别模型的参数集βi上传到服务端，i=1,2,3,...M，由服务端基于预设的算法H(x)，通过H(β1，β2，...，βM)重新确定出一个综合参数集β综并下发到每个用户终端。

每个用户终端在接收到新的综合参数集后，配置到第二类风险识别模型中，得到新的第二类风险识别模型，再次基于本地的样本数据重新训练第二类风险识别模型。

之后不断迭代这个过程，直到满足训练要求。

值得注意的是，上述图1-3所描述的方法原理都仅仅是一种示例，并不能限定本说明书公开的范围。

此外，当行为模式学习模型与风险识别模型协同训练时，由于每个用户终端都会在协同训练过程中更新风险识别模型的参数集，因此，客户端与用户终端之间传输梯度会导致各用户终端之间的模型参数集无法同步更新。所以，为了使得各用户终端之间的模型参数集能够同步更新，客户端与用户终端之间可以传输模型参数集。

在描述了方法原理后，进一步详细说明本说明书提供的针对用户行为的风险识别模型训练方法的具体步骤。

如图4所示，为本说明书实施例提供的一种针对用户行为的风险识别模型训练方法的流程示意图。其中风险识别模型的输入是行为模式特征，而不是终端操作序列。

该方法实施例中，客户端与每个用户终端之间传输的是模型参数集。行为模式学习模型是预先训练完成的。

风险识别模型训练方法可以包括以下步骤：

S101：服务端将本地的第一类风险识别模型的第一类模型参数集分别下发到至少两个用户终端。

S102：每个用户终端基于所接收到的第一类模型参数集配置本地的第二类风险识别模型；获取本地的行为模式特征。

S103：每个用户终端将本地的行为模式特征输入到本地的第二类风险识别模型，以便根据对应的风险标签训练本地的第二类风险识别模型；以减小本地的第二类风险识别模型的训练损失为目标，更新本地第二类风险识别模型。

S104：每个用户终端将本地的第二类风险识别模型的第二类模型参数集上传给服务端。

S105：服务端根据接收到的各第二类模型参数集，重新确定第一类模型参数集。

S106：判断当前是否满足循环停止条件。若不满足循环停止条件，则执行S101。

针对S101，S101在第一次执行时，下发的可以是初始的模型参数集。在之后的循环中，下发的可以是当前的模型参数集，即在S105中重新确定的模型参数集，以便于实现针对行为模式特征的风险识别模型的联邦学习训练过程。

由于服务端下发到每个用户终端的模型参数集仅仅是针对行为模式特征的风险识别模型的参数集，因此提高了传输效率。如果选取简单模型作为风险识别模型，例如逻辑回归模型，则进一步提高了传输效率。

针对S102，每个用户终端在接收到第一类模型参数集后，可以直接将第一类模型参数集替换本地的第二类风险识别模型的参数集，得到一个新的第二类风险识别模型。

行为模式特征的确定方法可以包括：用户终端获取至少一个用户行为事件对应的终端操作序列、并输入到预先基于自监督学习算法训练完成的行为模式学习模型后，将行为模式学习模型的输出确定为行为模式特征。

其中，行为模式特征的获取方法，可以是从本地存储中获取，也可以是实时获取。两种实施方式可以分别举例如下。

1）用户终端直接从本地存储中获取行为模式特征。这些行为模式特征可以是预先训练完成的行为模式学习模型、预先根据获取到的终端操作序列确定并存储在用户终端本地的。

2）用户终端利用预先训练完成的行为模式学习模型，将实时获取到的终端操作序列输入行为模式学习模型后，获取行为模式学习模型的输出，即行为模式特征。

而终端操作序列的获取方法，可以是实时获取，也可以是从本地的存储中获取。两种实施方式可以分别举例如下。

1）当监测到一个用户行为事件时，获取该用户行为事件对应的终端操作序列。

2）每个用户终端的本地都部署有终端操作序列库；终端操作序列库中存储有历史上发生的多个用户行为事件分别对应的终端操作序列。在模型训练时，可以直接从本地的终端操作序列库中获取至少一个终端操作序列。

而终端操作序列中包含的终端操作对应的向量形式，可以将终端操作的属性映射的向量进行拼接，得到一个向量。值得注意的是，全部终端操作的全部属性可以都映射到同一向量空间，所映射的全部向量维数可以都相同。

为了适应用户终端的计算能力，加快计算速度，可以减少终端操作对应的操作向量的数据量。具体可以是针对终端操作序列中的每个终端操作，确定该终端操作在至少一个属性维度上的属性向量，并对至少一个属性向量求平均，得到该终端操作的操作向量。与传统的拼接属性向量作为操作向量的做法相比，减少了操作向量的数据量，同时在属性向量的选择上可以更加灵活，不必过多考虑属性向量的数量。

如图5所示，为本说明书提供的一种终端操作序列的结构示意图，其中终端操作序列包含3个按时间排序的终端操作，分别是终端操作1、终端操作2和终端操作3；每个终端操作对应有2个属性，属性可以映射到同一向量空间中得到对应的属性向量，将2个属性向量求平均，作为该终端操作对应的操作向量。因此，终端操作1可以对应属性1和属性2，属性1和属性2分别映射为向量1和向量2，再对向量1和向量2求平均得到操作向量1；终端操作2可以对应属性3和属性4，属性3和属性4分别映射为向量3和向量4，再对向量3和向量4求平均得到操作向量2；终端操作3可以对应属性5和属性6，属性5和属性6分别映射为向量5和向量6，再对向量5和向量6求平均得到操作向量3。将3个终端操作对应的操作向量按序排列，可以得到一组向量序列，作为终端操作序列。

针对行为模式学习模型，分别从以下几个方面进行描述。

1）自监督学习

在针对终端操作序列提取行为模式特征时，通常可以采用自监督学习的算法。

为了方便理解，首先给出一个自监督学习的实例，如下所示：

针对终端操作序列量化的向量序列（X1，X2，X3，X4），其中X1-X4都是向量，将遮住某一终端操作的终端操作序列作为样本特征，被遮住的终端操作作为样本标签，可以得到以下三个样本（其中<MASK>表示被遮住的终端操作位置）：

表1.终端操作样本特征及对应的样本标签

利用这三个样本，可以进行模型训练，从而得到一个模型，在输入一个包含被遮住的终端操作的终端操作序列后，输出为模型预测的被遮住的终端操作，从而反映了这一用户终端上用户的行为模式。

在训练完成之后，自监督学习模型在输入终端操作序列后，首先得到一组预测的终端操作序列。

例如，针对一组终端操作序列（X1，X2，X3，...，XN），Xi代表一个终端操作映射的向量，i=1,2，...N，自监督学习模型首先计算出一组预测的终端操作序列（Y1，Y2，Y3，...，YN）。其中，Yi代表的是针对（X1，...，Xi-1，<MASK>，Xi+1，...，XN）的输入，自监督学习模型所预测出的被遮住的终端操作对应的向量。

本领域公知，自监督学习是一种利用序列的前后关系进行模型训练的方法，通过前文预测后文，可以反映出用户的行为习惯，因此可以用于提取行为模式特征。

2）模型的输入输出

行为模式学习模型的输入可以是终端操作序列，根据终端操作序列进行自监督学习，得到一组预测的终端操作序列，经过处理后作为行为模式特征输出。处理可以包括修正或减小数据量。

如图6所示，为本说明书实施例提供的一种行为模式特征提取方法的原理示意图。

其中，根据一组终端操作序列（X1，X2，X3，...，XN），Xi代表一个终端操作映射的向量，i=1,2，...N，行为模式学习模型首先计算出一组预测的终端操作序列（Y1，Y2，Y3，...，YN）。其中，Yi代表的是针对（X1，...，Xi-1，<MASK>，Xi+1，...，XN）的输入，行为模式学习模型所预测出的被遮住的终端操作对应的向量。

为了减少特征的数据量，同时进行正则化修正，可以对输出的（Y1，Y2，Y3，...，YN）进行池化操作。

具体可以是最大池化、平均池化或者综合最大池化和平均池化。

例如，将向量Y1到YN，按位求平均，得到一个向量作为行为模式特征。

或者将向量Y1到YN，按位求最大值，得到一个向量作为行为模式特征。

或者在将向量Y1到YN分别按位求平均和按位求最大值得到两个向量后，将两个向量拼接起来的向量作为行为模式特征。

由于全部的终端操作序列中的全部终端操作所映射的向量都在同一向量空间，因此，所预测出的被遮住的终端操作对应的向量也在该向量空间。

也就是说，对于不同的终端操作序列，Xi和Yi都在同一向量空间中，i=1,2，...N，因此，根据不同的终端操作序列，在池化操作后得到的不同行为模式特征，也都在同一向量空间中。

例如，对于任一终端操作序列，Xi和Yi都是5维向量，对输出的（Y1，Y2，Y3，...，YN）进行平均池化操作后，得到的行为模式特征也是5维向量。由于本实施例中，风险识别模型在进行联邦学习时，训练样本的特征都是行为模式特征，且行为模式特征的维数都相同，都是5维向量。因此基于相同的样本特征，风险识别模型可以进行横向联邦学习。

3）模型的改进

常用的自监督学习模型通常采用比较庞大的深度学习模型，例如BERT模型，LSTM模型，XLNET模型，ALBERT模型等等。这些模型都包含较多的参数，由于本实施例中无需将这些模型的参数集也发送到服务端，既提高了数据安全性，又提高了传输效率。

这些模型也都包含了较多的编码层，为了适应用户终端的计算能力和存储能力，可以减少模型中的编码层。

例如，当本实施例中采用ALBERT模型作为行为模式学习模型时，可以将模型中的编码层减少为两层，由于ALBERT模型中，编码层参数共享的机制，编码层的减少对于模型的训练效果影响较小。

4）模型的训练

由于行为模式学习模型并不需要其他数据，只需要用户终端上的终端操作序列，因此，在不执行S101-S106时，行为模式学习模型可以根据用户终端上存储的终端操作序列，或者用户终端上实时产生的终端操作序列进行训练，以便于更准确地表征用户的行为模式。

在S101-S106中，行为模式学习模型可以并不进行训练更新，也可以与风险识别模型进行协同训练更新。

针对S103，由于行为模式特征是根据用户行为事件对应的终端操作序列确定的，因此，可以将用户行为事件对应的风险标签，确定为行为模式特征对应的风险标签。

在本说明书实施例中，风险标签可以通过用户行为事件的反馈结果进行确定。反馈结果中，可以包括处罚结果、终止操作结果、成功结果、放行结果等等。

例如，当用户在进行网络赌博时，正在进行第10次付款操作，服务端根据该用户终端上付款操作的收款方的信用等级以及商户类型，发现该收款方是非法经营的商户，从而终止了该用户终端上的第10次付款操作，反馈结果为终止操作结果。用户终端在接收到这一反馈结果后，可以确定风险标签为有风险。

另一个示例为，当用户在采购物资时，正在进行第13次付款操作，服务端分析每个付款操作的收款方，都属于正规商户，且付款金额都在正常范围内，因此放行第13次付款操作，反馈结果为放行结果。用户终端在接收到这一反馈结果后，可以确定风险标签为无风险或低风险。

具体确定标签时，可以是用户终端自身根据接收到的反馈结果进行标记，也可以是由服务端或其他设备根据对应的反馈结果生成标签，下发到用户终端。本实施例对此不进行限定。

将行为模式特征作为样本特征，对应的风险标签作为样本标签，对第二类风险识别模型进行有监督学习，具体可以是以减小本地的第二类风险识别模型的训练损失为目标，更新本地的第二类风险识别模型。

更新第二类风险识别模型，可以是通过迭代训练，更新第二类风险识别模型的参数集。

针对S104，与S101的解释相同，每个用户终端可以上传针对行为模式特征的风险识别模型的参数集，从而提高传输效率。

此外，上传的模型参数集可以是经过S103更新后的第二类风险识别模型的参数集。

针对S105，在根据各第二类模型参数集重新确定第一类模型参数集时，本实施例并不限定确定的方法。作为一种示例，可以根据加权平均的方法重新确定。

例如，服务端在接收到各第二类模型参数集后，获取各用户终端的训练样本数量。根据各用户终端的训练样本数量占比，确定权重，以用于对各第二类模型参数集进行加权平均，确定新的第一类模型参数集。

针对S106，循环停止条件具体可以是循环次数不少于预设循环次数，或者本次循环确定的第一类模型参数集与上次循环确定的第一类模型参数集之间差距的表征值不大于第一预设阈值。本实施例并不限定循环停止条件的具体形式。

值得注意的是，尽管在本实施例中，是在S105之后通过S106判断当前的训练流程是否满足循环停止条件，如果不满足，则开始重新执行S101；如果满足，则停止训练流程。可以理解的是，循环停止条件的判断可以不限定在S105之后执行，在训练流程中可以随时进行判断。同时，停止训练流程的步骤也可以不限定在S105之后执行。只要最终的训练结果符合训练需求即可。

例如，训练需求可以是服务端上存储有达到训练要求（迭代训练了100次）的风险识别模型，则可以是由服务端判断循环停止条件，并在服务端最终更新风险识别模型后停止训练。训练需求也可以是用户终端上存储有达到训练要求（迭代训练了100次）的风险识别模型，则可以是由用户终端判断循环停止条件，并在用户终端最终更新风险识别模型后停止训练。

一种具体示例为，在执行完S102后，当各用户终端确定当前的训练循环次数大于预设阈值500次时，则停止训练，不再执行后续的步骤，当前在S102中配置的第二类风险识别模型即为各用户终端上的训练结果。

在本实施例中，服务端与用户终端之间的数据传输都可以是加密传输的，提高数据的安全性。

当然，除了服务端与每个用户终端之间传输模型参数集的情况外，还可以传输模型目标函数的梯度。因此，本说明书实施例提供了另一种针对用户行为的风险识别模型的训练方法，其中服务端与每个用户终端之间传输的是模型目标函数的梯度。

如图7所示，为本说明书实施例提供的另一种针对用户行为的风险识别模型训练方法的流程示意图。其中的风险识别模型的输入是行为模式特征，而不是终端操作序列。该方法实施例中，客户端与每个用户终端之间传输的是模型目标函数的梯度。行为模式学习模型是预先训练完成的。

风险识别模型训练方法可以包括以下步骤：

S201：服务端将本地的第一类风险识别模型的第一类模型参数集分别下发到至少两个用户终端。

S202：每个用户终端基于所接收到的第一类模型参数集配置本地的第二类风险识别模型。

S203：每个用户终端获取本地的行为模式特征。

S204：每个用户终端将本地的行为模式特征输入到本地的第二类风险识别模型，以便根据至少一个用户行为事件对应的风险标签训练本地的第二类风险识别模型，并向服务端上传训练产生的梯度。

梯度具体可以是第二类风险识别模型目标函数的当前梯度。

值得注意的是，在S204对第二类风险识别模型的训练过程中，可以并不更新第二类风险识别模型的参数集，从而保证各用户终端上的第二类风险识别模型的参数集可以同步进行更新，保持一致。

S205：服务端根据接收到的各用户终端上传的梯度，确定综合梯度，并将综合梯度分别下发到每个用户终端。

S206：每个用户终端根据接收到的综合梯度，更新本地的第二类风险识别模型。

S207：判断是否满足循环停止条件。若不满足循环停止条件，则执行S203。

S207中，循环停止条件具体可以是循环次数不少于预设循环次数，或者本次循环更新确定的第一类风险识别模型的模型参数集与上次循环更新确定的第一类风险识别模型的模型参数集之间差距的表征值不大于第一预设阈值。

详细解释可以参见上述方法实施例。

如图8所示，为本说明书实施例提供的另一种针对用户行为的风险识别模型训练方法的流程示意图。其中的风险识别模型的输入是行为模式特征，而不是终端操作序列。该方法实施例中，客户端与每个用户终端之间传输的是模型参数集。行为模式学习模型与风险识别模型可以协同训练。

风险识别模型训练方法可以包括以下步骤：

S301：服务端将本地的第一类风险识别模型的第一类模型参数集分别下发到至少两个用户终端。

S302：每个用户终端基于所接收到的第一类模型参数集配置本地的第二类风险识别模型，之后执行第一本地训练流程。

在第一本地训练流程中，可以同步更新行为模式学习模型和第二类风险识别模型，第二类风险识别模型的参数集可以进行更新。

S303：每个用户终端在完成第一本地训练流程后，分别向服务端上传本地的第二类风险识别模型的第二类模型参数集。

S304：服务端根据接收到的各第二类模型参数集，重新确定第一类模型参数集。

S305：判断是否满足循环停止条件。若不满足循环停止条件，则执行S301。

详细解释可以参见上述方法实施例。

如图9所示，为本说明书实施例提供的一种第一本地训练流程的流程示意图，第一本地训练流程中，行为模式学习模型与风险识别模型可以协同训练，当然，行为模式学习模型可以预先训练过，也可以没有预先训练过。S302中的第一本地训练流程可以包括以下步骤：

S401：获取至少一个用户行为事件对应的终端操作序列并输入到行为模式学习模型，以便采用自监督学习算法训练行为模式学习模型。

为了加快训练的速度，S401中对行为模式学习模型的训练可以只迭代一次，尽快得出行为模式特征。当然，S401中对行为模式学习模型的训练也可以迭代多次。

由于后续步骤S404会根据整体的综合训练损失更新模型，因此S401中的模型训练迭代次数多少并不会影响本方法实施例的实现。

当然，由于综合训练损失与行为模式学习模型的训练损失正相关，与第二类风险识别模型的训练损失正相关，S401中的模型训练迭代次数越多，行为模式学习模型与第二类风险识别模型的训练损失越小，在一定程度上可以加快第一本地训练流程。

S402：将行为模式学习模型输出的行为模式特征输入到第二类风险识别模型，根据用户行为事件对应的风险标签训练第二类风险识别模型。

与S401中的解释同理，S402中的模型训练可以并不限定迭代次数。

S403：确定综合训练损失。

综合训练损失衡量的是整体的模型训练效果，综合训练损失越小，基于终端操作序列的风险识别得越准确。

而行为模式学习模型的训练损失衡量的是行为模式学习模型的训练效果，训练损失越小，输出的行为模式特征越准确。同理，第二类风险识别模型的训练损失衡量的是第二类风险识别模型的训练效果，训练损失越小，基于行为模式特征的风险识别得越准确。

因此，综合训练损失，与行为模式学习模型的训练损失正相关，与第二类风险识别模型的训练损失正相关。

但值得注意的是，由于行为模式学习模型与第二类风险识别模型之间存在关联关系，第二类风险识别模型的输入是行为模式学习模型的输出，因此，行为模式学习模型的训练损失，和第二类风险识别模型的训练损失之间存在一定的关联关系。

例如，当行为模式学习模型向减小训练损失的方向更新时，由于输出的行为模式特征发生变化，因此第二类风险识别模型的训练损失也会变化，可能是增大或减小。

行为模式学习模型的训练损失、第二类风险识别模型的训练损失可能无法同时取到最小值。因此，根据与两者都正相关的综合训练损失，减小综合训练损失，是行为模式学习模型和第二类风险识别模型同步更新的方向。

而具体确定更新方向时，则需要先确定综合训练损失的形式。

本实施例并不限定综合训练损失的形式，提供以下两种示例：

1）可以是行为模式学习模型的训练损失、以及第二类风险识别模型的训练损失的加权和。

例如，行为模式学习模型的训练损失用损失函数

衡量，而第二类风险识别模型的训练损失用损失函数

衡量，则综合训练损失

，其中，

为行为模式学习模型的参数集，

为行为模式学习模型的损失权重，

为第二类风险识别模型的参数集，

为第二类风险识别模型的损失权重。

而损失权重可以由人工根据经验确定。

2）也可以利用交叉熵衡量综合训练损失。交叉熵反映的是实际输出的概率分布与期望输出的概率分布之间的距离。针对第m个用户终端，具体的综合训练损失函数可以是：

其中，

是第m个用户终端上行为模式学习模型的参数集，

是第m个用户终端上第二类风险识别模型的参数集，

为终端操作序列，

为对应于

的风险标签，

为第m个用户终端上的终端操作序列训练集，

为第m个用户终端上的风险标签集合，

为行为模式特征。

当然，综合训练损失的形式也可以是其他函数，满足上述原则（综合训练损失，与行为模式学习模型的训练损失正相关，与第二类风险识别模型的训练损失正相关）即可。

S404：以减小综合训练损失为目标，更新行为模式学习模型与第二类风险识别模型。

S405：判断是否满足第一迭代停止条件。若不满足第一迭代停止条件，则执行S401。

在确定了综合训练损失的形式后，可以确定使综合训练损失减小的更新方向，具体的确定方法可以是梯度下降法。

针对S404，在根据综合训练损失确定更新方向后，由于综合训练损失中包含了行为模式学习模型和第二类风险识别模型的参数集，因此，可以同时更新这两个模型，以减小综合训练损失。

在之后的不断迭代训练中，不断更新行为模式学习模型和第二类风险识别模型，直到满足第一迭代停止条件。

此外，S405中的第一迭代停止条件具体可以是迭代次数不少于预设迭代次数，或者本次迭代确定的综合训练损失与上次迭代确定的综合训练损失之间差距的表征值不大于预设阈值，或者本次迭代确定的综合训练损失小于预设损失。

当然，可以理解的是，不同终端之间的第一迭代停止条件（包括其中的预设迭代次数和预设阈值）可以相同，也可以不同。本说明书对此并不限定。

此外，针对每个用户终端，在不执行第一本地训练流程时，可以执行第二本地训练流程。具体步骤可以包括：

迭代执行以下步骤，直至满足第二迭代停止条件：

获取至少一个用户行为事件对应的终端操作序列并输入到行为模式学习模型，以便采用自监督学习算法训练行为模式学习模型。

其中第二迭代停止条件具体可以是迭代次数不少于预设迭代次数，或者本次迭代确定的行为模式学习模型参数集与上次迭代确定的行为模式学习模型参数集之间差距的表征值不大于预设阈值，或者本次迭代确定的综合训练损失小于预设损失。

当然，可以理解的是，不同终端之间的第二迭代停止条件（包括其中的预设迭代次数和预设阈值）可以相同，也可以不同。本说明书对此并不限定。

在S401-S405中，针对行为模式学习模型，一方面根据用户终端本地独有的终端操作序列进行模型训练，另一方面根据综合训练损失，与第二类风险识别模型同时更新。从而使得行为模式学习模型既可以个性化地表征不同用户终端上不同用户的行为模式，同时也可以借由服务端综合全部用户终端上第二类风险识别模型的参数集并下发到每个用户终端上，与第二类风险识别模型同步更新的过程中，可以体现其他用户终端上行为模式的影响，对各用户终端上的行为模式学习模型进行正则化修正，避免行为模式学习模型出现过拟合的情况，更加适应风险识别模型的需求（综合训练损失较低），提高风险识别的准确率。

通过上述方法实施例，可以达到以下技术效果。

1）保护用户终端的隐私数据。基于联邦学习的框架，在模型训练过程中，用户终端上的终端操作序列只在用户终端本地进行训练，并不会发送出去。

2）提高模型训练的效率。对于现有的联邦学习，由于训练的针对终端操作序列的风险识别模型十分庞大，需要传输的数据规模较大，即需要传输的参数集规模较大。而本实施例通过利用行为模式学习模型学习终端操作序列中的行为模式特征，因此只需传输用于对行为模式学习模型输出的行为模式特征进行风险识别的风险识别模型参数集，由于针对行为模式特征的风险识别模型无需提取特征向量，因此需要传输的数据量级大大减小，降低了传输成本，提高了模型训练的效率。

3）解决了数据孤岛的问题。基于联邦学习的框架，对于风险识别模型而言，各用户终端上的数据样本都可以参与训练，而不会出现各用户终端根据本地的数据样本训练各自的风险识别模型的情况，解决了数据孤岛的问题。

4）提高风险识别的准确率。在本实施例中，可以根据综合训练损失对行为模式学习模型和第二类风险识别模型共同更新，能够基于对风险识别模型的联邦学习，学习到其他用户终端上行为模式的影响，进而在共同更新中对行为模式学习模型进行正则化修正，更加适应风险识别模型的需求，避免了过拟合的情况，提高了风险识别的准确率。

5）保留了行为数据的异质性。由于不同的用户终端都存储有不同的行为模式学习模型，因此，对于不同用户终端上的相同的终端操作序列，可以根据训练出的个性化的用户行为模式，即各用户终端上不同的行为模式学习模型，获取到不同的行为模式特征，进而进行风险识别，能够体现出行为数据的异质性，提高了风险识别的准确率。也就是说，通过用户终端上的行为模式学习模型，将风险识别模型的输入从终端操作序列变为行为模式特征，可以体现出各用户终端个性化的行为模式特征，从而保留了行为数据的异质性。而不会出现不同用户终端使用同一模型，导致对于同样的终端操作序列，都识别为相同的风险结果的情况。

6）适应用户终端的计算能力和存储能力。本实施例中还可以对庞大的自监督学习模型进行简化，同时降低终端操作序列所包含的数据量，进而使得计算能力和存储能力较低的用户终端能够更高效地对模型进行训练，在不影响训练效果的前提下，一定程度上提高了模型训练的效率，也降低了终端在持续训练过程中消耗的时间成本和硬件成本。此处的用户终端例如，个人电脑、手机。当然，对于计算能力和存储能力足够的用户终端，也可以不进行简化。

在上述方法实施例的基础上，如图10所示，为本说明书实施例提供的一种针对用户行为的风险识别方法的流程示意图，可以应用于上述方法实施例（S101-S106、S201-S207或者S301-S305）中的任一用户终端。

所述方法可以包括以下步骤：

S501：监测用户行为事件，并将监测到的用户行为事件对应的终端操作序列输入到本地的行为模式学习模型，输出行为模式特征。

行为模式学习模型可以是根据上述方法实施例（S301-S305）最终确定的，也可以是预先训练好的（S101-S106或者S201-S207）。

S502：将行为模式特征输入到本地的第二类风险识别模型，输出风险识别结果。

其中，第二类风险识别模型是根据上述方法实施例（S101-S106、S201-S207或者S301-S305）最终训练完成的第二类风险识别模型。

通过这一实施例，可以利用在上述方法实施例中、用户终端上训练完成的风险识别模型，对用户终端上的终端操作序列进行风险识别，从而可以提高用户终端上的风险防控能力。

此外，本说明书还提供了对应于上述方法实施例的系统实施例和装置实施例。

本说明书实施例提供的一种针对用户行为的风险识别模型训练系统，包括：服务端和至少两个用户终端。

服务端，循环执行以下步骤，直到满足循环停止条件：

本说明书实施例提供的另一种针对用户行为的风险识别模型训练系统，包括：服务端和至少两个用户终端。

服务端，将本地的第一类风险识别模型的第一类模型参数集分别下发到每个用户终端，以使每个用户终端基于所接收到的第一类模型参数集配置本地的第二类风险识别模型；循环执行以下步骤，直到满足循环停止条件：

接收每个用户终端分别上传的第二类风险识别模型的第二类模型目标函数的梯度；根据接收到的各用户终端上传的梯度，确定综合梯度，并将所述综合梯度分别下发到每个用户终端；

每个用户终端，获取本地的行为模式特征；所述行为模式特征的确定方法包括：获取至少一个用户行为事件对应的终端操作序列，将获取的终端操作序列输入到预先采用自监督学习算法在本地训练的行为模式学习模型，输出行为模式特征；将所述本地的行为模式特征输入到本地的第二类风险识别模型，以便根据所述至少一个用户行为事件对应的风险标签训练本地的第二类风险识别模型；向所述服务端上传训练产生的梯度。

关于系统实施例的详细解释可以参见上述针对用户行为的风险识别模型训练方法的方法实施例。

如图11所示，为本说明书实施例提供的一种针对用户行为的风险识别装置的结构示意图，装置可以配置于上述针对用户行为的风险识别模型训练方法的方法实施例中的任一用户终端，所述装置包括：

监测单元601，监测用户行为事件，并将监测到的用户行为事件对应的终端操作序列输入到本地的行为模式学习模型，输出行为模式特征。

识别单元602，将行为模式特征输入到本地的第二类风险识别模型，输出风险识别结果。

关于装置实施例的详细解释可以参见上述针对用户行为的风险识别方法的方法实施例。

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现一种如S101-S106、S201-S207或者S301-S305所示的针对用户行为的风险识别模型训练方法中服务端的执行步骤、一种如S101-S106、S201-S207或者S301-S305所示的针对用户行为的风险识别模型训练方法中的任一用户终端的执行步骤或者一种针对用户行为的风险识别方法。

图12是用于配置本说明书实施例方法的一种设备的结构示意图，示出了本说明书实施例所提供的一种更为具体的计算机设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU（Central Processing Unit，中央处理器）、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线1050包括一通路，在设备的各个组件（例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现一种如S101-S106、S201-S207或者S301-S305所示的针对用户行为的风险识别模型训练方法中服务端的执行步骤、一种如S101-S106、S201-S207或者S301-S305所示的针对用户行为的风险识别模型训练方法中的任一用户终端的执行步骤或者一种针对用户行为的风险识别方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体（transitory media），如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护。

Claims

1.一种针对用户行为的风险识别模型训练方法，包括：循环执行以下步骤，直到满足循环停止条件：

每个用户终端执行：

2.根据权利要求1所述的方法，所述获取至少一个用户行为事件对应的终端操作序列，包括：

当监测到一个用户行为事件时，获取该用户行为事件对应的终端操作序列。

3.根据权利要求1所述的方法，针对每个用户终端，该用户终端本地部署有终端操作序列库；所述终端操作序列库中存储有历史上发生的多个用户行为事件分别对应的终端操作序列；

所述获取至少一个用户行为事件对应的终端操作序列，包括：

从本地的终端操作序列库中获取至少一个终端操作序列。

4.根据权利要求1所述的方法，所述终端操作序列中每个终端操作的操作向量的确定方法，包括：

针对所述终端操作序列中的每个终端操作，确定该终端操作在至少一个属性维度上的属性向量，并对确定的至少一个属性向量求平均，得到该终端操作的操作向量。

5.根据权利要求1所述的方法，所述风险标签的确定方法，包括：

根据所述服务端针对任一用户行为事件确定的反馈结果，确定该用户行为事件对应的风险标签；所述反馈结果包括所述服务端针对该用户行为事件的评价结果和/或处理结果。

6.根据权利要求1所述的方法，所述循环停止条件为，循环次数不少于预设循环次数，或者，本次循环确定的第一类模型参数集与上次循环确定的第一类模型参数集之间差距的表征值不大于第一预设阈值。

7.一种针对用户行为的风险识别模型训练方法，包括：

服务端将本地的第一类风险识别模型的第一类模型参数集分别下发到至少两个用户终端；每个用户终端基于所接收到的第一类模型参数集配置本地的第二类风险识别模型；

循环执行以下步骤，直到满足循环停止条件：

每个用户终端执行：

向所述服务端上传训练产生的梯度；

所述服务端根据接收到的各用户终端上传的梯度，确定综合梯度，并将所述综合梯度分别下发到每个用户终端；

每个用户终端根据接收到的所述综合梯度，更新本地的第二类风险识别模型。

8.一种针对用户行为的风险识别方法，应用于权利要求1-7任一项所述方法中的任一用户终端，所述方法包括：

监测用户行为事件，并将监测到的用户行为事件对应的终端操作序列输入到本地的行为模式学习模型，输出行为模式特征；

将所述行为模式特征输入到本地的第二类风险识别模型，输出风险识别结果；其中，所述第二类风险识别模型是权利要求1-7任一项所述方法中最终训练完成的第二类风险识别模型。

9.一种针对用户行为的风险识别模型训练方法，应用于服务端，所述方法包括：循环执行以下步骤，直到满足循环停止条件：

将本地的第一类风险识别模型的第一类模型参数集分别下发到至少两个用户终端，以便于每个用户终端执行以下步骤：

基于所接收到的第一类模型参数集配置本地的第二类风险识别模型；获取本地的行为模式特征；所述行为模式特征的确定方法包括：获取至少一个用户行为事件对应的终端操作序列，将获取的终端操作序列输入到预先采用自监督学习算法在本地训练的行为模式学习模型，输出行为模式特征；将所述本地的行为模式特征输入到本地的第二类风险识别模型，以便根据所述至少一个用户行为事件对应的风险标签训练本地的第二类风险识别模型；以减小本地的第二类风险识别模型的训练损失为目标，更新本地第二类风险识别模型；将本地的第二类风险识别模型的第二类模型参数集上传给所述服务端；

10.一种针对用户行为的风险识别模型训练方法，应用于至少两个用户终端，所述方法包括：循环执行以下步骤，直到满足循环停止条件：

每个用户终端接收服务端下发的服务端本地的第一类风险识别模型的第一类模型参数集；

每个用户终端执行：

将本地的第二类风险识别模型的第二类模型参数集上传给所述服务端，以使所述服务端根据接收到的各第二类模型参数集，重新确定所述第一类模型参数集。

11.一种针对用户行为的风险识别模型训练方法，应用于服务端，所述方法包括：服务端将本地的第一类风险识别模型的第一类模型参数集分别下发到至少两个用户终端，以使每个用户终端基于所接收到的第一类模型参数集配置本地的第二类风险识别模型；

循环执行以下步骤，直到满足循环停止条件：

所述服务端根据接收到的各用户终端上传的梯度，确定综合梯度，并将所述综合梯度分别下发到每个用户终端，以使每个用户终端根据接收到的所述综合梯度，更新本地的第二类风险识别模型；

所述各用户终端上传的梯度，是由每个用户终端执行以下步骤获取并上传到所述服务端的：

获取本地的行为模式特征；所述行为模式特征的确定方法包括：获取至少一个用户行为事件对应的终端操作序列，将获取的终端操作序列输入到预先采用自监督学习算法在本地训练的行为模式学习模型，输出行为模式特征；将所述本地的行为模式特征输入到本地的第二类风险识别模型，以便根据所述至少一个用户行为事件对应的风险标签训练本地的第二类风险识别模型；向所述服务端上传训练产生的梯度。

12.一种针对用户行为的风险识别模型训练方法，应用于至少两个用户终端，所述方法包括：每个用户终端接收服务端分别下发的服务端本地的第一类风险识别模型的第一类模型参数集；每个用户终端基于所接收到的第一类模型参数集配置本地的第二类风险识别模型；

循环执行以下步骤，直到满足循环停止条件：

每个用户终端执行：

向所述服务端上传训练产生的梯度，以使所述服务端根据接收到的各用户终端上传的梯度，确定综合梯度，并将所述综合梯度分别下发到每个用户终端；

13.一种针对用户行为的风险识别模型训练方法，包括：循环执行以下步骤，直到满足循环停止条件：

每个用户终端基于所接收到的第一类模型参数集配置本地的第二类风险识别模型，之后执行第一本地训练流程，并且，在完成第一本地训练流程后，分别向所述服务端上传本地的第二类风险识别模型的第二类模型参数集；

所述服务端根据接收到的各第二类模型参数集，重新确定所述第一类模型参数集；

其中，第一本地训练流程包括：迭代执行以下步骤，直到满足第一迭代停止条件：

获取至少一个用户行为事件对应的终端操作序列并输入到行为模式学习模型，以便采用自监督学习算法训练行为模式学习模型；

将行为模式学习模型输出的行为模式特征输入到第二类风险识别模型，以便根据所述至少一个用户行为事件对应的风险标签训练第二类风险识别模型；

确定综合训练损失，并以减小所述综合训练损失为目标，更新行为模式学习模型与第二类风险识别模型；所述综合训练损失，与行为模式学习模型的训练损失正相关，与第二类风险识别模型的训练损失正相关。

14.根据权利要求13所述的方法，所述方法还包括：

针对每个用户终端，该用户终端执行第二本地训练流程，包括：迭代执行以下步骤，直至满足第二迭代停止条件：

15.一种针对用户行为的风险识别方法，应用于权利要求13或权利要求14所述方法中的任一用户终端，所述方法包括：

监测用户行为事件，并将监测到的用户行为事件对应的终端操作序列输入到本地的行为模式学习模型，输出行为模式特征；所述行为模式学习模型是根据权利要求13或权利要求14所述方法最终确定的；

将所述行为模式特征输入到本地的第二类风险识别模型，输出风险识别结果；其中，所述第二类风险识别模型是根据权利要求13或权利要求14所述方法中最终训练完成的第二类风险识别模型。

16.一种针对用户行为的风险识别模型训练方法，应用于服务端，所述方法包括：

循环执行以下步骤，直到满足循环停止条件：

将本地的第一类风险识别模型的第一类模型参数集分别下发到至少两个用户终端；以便于每个用户终端基于所接收到的第一类模型参数集配置本地的第二类风险识别模型，之后执行第一本地训练流程，并且，在完成第一本地训练流程后，分别向所述服务端上传本地的第二类风险识别模型的第二类模型参数集；

根据接收到的各第二类模型参数集，重新确定所述第一类模型参数集；

17.一种针对用户行为的风险识别模型训练方法，应用于至少两个用户终端，所述方法包括：

循环执行以下步骤，直到满足循环停止条件：

每个用户终端基于所接收到的第一类模型参数集配置本地的第二类风险识别模型，之后执行第一本地训练流程，并且，在完成第一本地训练流程后，分别向所述服务端上传本地的第二类风险识别模型的第二类模型参数集；以便于所述服务端根据接收到的各第二类模型参数集，重新确定所述第一类模型参数集；

18.一种针对用户行为的风险识别模型训练系统，包括：服务端和至少两个用户终端；

服务端，循环执行以下步骤，直到满足循环停止条件：

19.一种针对用户行为的风险识别模型训练系统，包括：服务端和至少两个用户终端；

20.一种针对用户行为的风险识别装置，应用于权利要求1-7任一项所述方法中的任一用户终端，所述装置包括：

监测单元，监测用户行为事件，并将监测到的用户行为事件对应的终端操作序列输入到本地的行为模式学习模型，输出行为模式特征；

识别单元，将所述行为模式特征输入到本地的第二类风险识别模型，输出风险识别结果；其中，所述第二类风险识别模型是权利要求1-7任一项所述方法中最终训练完成的第二类风险识别模型。

21.一种针对用户行为的风险识别模型训练装置，应用于服务端，所述装置包括：

传输单元，将本地的第一类风险识别模型的第一类模型参数集分别下发到至少两个用户终端，以便于每个用户终端执行终端训练步骤；触发确定单元执行步骤；

所述终端训练步骤包括：基于所接收到的第一类模型参数集配置本地的第二类风险识别模型；获取本地的行为模式特征；所述行为模式特征的确定方法包括：获取至少一个用户行为事件对应的终端操作序列，将获取的终端操作序列输入到预先采用自监督学习算法在本地训练的行为模式学习模型，输出行为模式特征；将所述本地的行为模式特征输入到本地的第二类风险识别模型，以便根据所述至少一个用户行为事件对应的风险标签训练本地的第二类风险识别模型；以减小本地的第二类风险识别模型的训练损失为目标，更新本地第二类风险识别模型；将本地的第二类风险识别模型的第二类模型参数集上传给所述服务端；

确定单元，根据接收到的各第二类模型参数集，重新确定所述第一类模型参数集；触发传输单元执行步骤，直到满足循环停止条件。

22.一种针对用户行为的风险识别模型训练装置，应用于至少两个用户终端中的每个用户终端，所述装置包括：

接收单元，接收服务端下发的服务端本地的第一类风险识别模型的第一类模型参数集；触发上传单元执行步骤；

上传单元，基于所接收到的第一类模型参数集配置本地的第二类风险识别模型；获取本地的行为模式特征；所述行为模式特征的确定方法包括：获取至少一个用户行为事件对应的终端操作序列，将获取的终端操作序列输入到预先采用自监督学习算法在本地训练的行为模式学习模型，输出行为模式特征；将所述本地的行为模式特征输入到本地的第二类风险识别模型，以便根据所述至少一个用户行为事件对应的风险标签训练本地的第二类风险识别模型；以减小本地的第二类风险识别模型的训练损失为目标，更新本地第二类风险识别模型；将本地的第二类风险识别模型的第二类模型参数集上传给所述服务端，以使所述服务端根据接收到的各第二类模型参数集，重新确定所述第一类模型参数集；触发接收单元执行步骤，直到满足循环停止条件。

23.一种针对用户行为的风险识别模型训练装置，应用于服务端，所述装置包括：

预备单元，将本地的第一类风险识别模型的第一类模型参数集分别下发到至少两个用户终端，以使每个用户终端基于所接收到的第一类模型参数集配置本地的第二类风险识别模型；

循环单元，循环执行以下步骤，直到满足循环停止条件：

根据接收到的各用户终端上传的梯度，确定综合梯度，并将所述综合梯度分别下发到每个用户终端，以使每个用户终端根据接收到的所述综合梯度，更新本地的第二类风险识别模型；

24.一种针对用户行为的风险识别模型训练装置，应用于至少两个用户终端中的每个用户终端，所述装置包括：

预备单元，接收服务端分别下发的服务端本地的第一类风险识别模型的第一类模型参数集；基于所接收到的第一类模型参数集配置本地的第二类风险识别模型；

循环单元，循环执行以下步骤，直到满足循环停止条件：

根据接收到的所述综合梯度，更新本地的第二类风险识别模型。

25.一种针对用户行为的风险识别模型训练系统，包括：服务端和至少两个用户终端；

服务端，循环执行以下步骤，直到满足循环停止条件：

每个用户终端，基于所接收到的第一类模型参数集配置本地的第二类风险识别模型，之后执行第一本地训练流程，并且，在完成第一本地训练流程后，分别向所述服务端上传本地的第二类风险识别模型的第二类模型参数集；

26.一种针对用户行为的风险识别装置，应用于权利要求13或权利要求14所述方法中的任一用户终端，所述装置包括：

监测单元，监测用户行为事件，并将监测到的用户行为事件对应的终端操作序列输入到本地的行为模式学习模型，输出行为模式特征；所述行为模式学习模型是根据权利要求13或权利要求14所述方法最终确定的；

识别单元，将所述行为模式特征输入到本地的第二类风险识别模型，输出风险识别结果；其中，所述第二类风险识别模型是根据权利要求13或权利要求14所述方法中最终训练完成的第二类风险识别模型。

27.一种针对用户行为的风险识别模型训练装置，应用于服务端，所述装置包括：

传输单元，将本地的第一类风险识别模型的第一类模型参数集分别下发到至少两个用户终端；以便于每个用户终端基于所接收到的第一类模型参数集配置本地的第二类风险识别模型，之后执行第一本地训练流程，并且，在完成第一本地训练流程后，分别向所述服务端上传本地的第二类风险识别模型的第二类模型参数集；触发确定单元执行步骤；

确定单元，根据接收到的各第二类模型参数集，重新确定所述第一类模型参数集；触发传输单元执行步骤，直到满足循环停止条件；

28.一种针对用户行为的风险识别模型训练装置，应用于至少两个用户终端中的每个用户终端，所述装置包括：

接收单元，接收服务端下发的第一类风险识别模型的第一类模型参数集；触发上传单元执行步骤；

上传单元，基于所接收到的第一类模型参数集配置本地的第二类风险识别模型，之后执行第一本地训练流程，并且，在完成第一本地训练流程后，分别向所述服务端上传本地的第二类风险识别模型的第二类模型参数集；以便于所述服务端根据接收到的各第二类模型参数集，重新确定所述第一类模型参数集；触发接收单元执行步骤，直到满足循环停止条件；

29.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求8、10、12、15、17任一项所述的方法。

30.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求9、11、16任一项所述的方法。