CN115170136A

CN115170136A - 更新可信模型的方法及装置

Info

Publication number: CN115170136A
Application number: CN202210687416.XA
Authority: CN
Inventors: 周璟; 杨信; 王宁涛; 吕乐; 傅幸; 王维强
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-10-11

Abstract

本说明书实施例提供了一种更新可信模型的方法及装置。其中方法包括：获取新增样本以及新增样本对应的标签；将新增样本输入原可信模型，获取并存储原可信模型针对新增样本的输出结果作为新增样本的模拟原始标签；在原可信模型中新增一个与原输出层结构相同且并列的新输出层，得到新可信模型；利用新增样本训练新可信模型，以最小化原输出层针对新增样本的输出结果与新增样本的模拟原始标签之间的差异，新输出层针对新增样本的输出结果与新增样本对应的标签之间的差异，以及新输出层针对新增样本的输出结果与新增样本的模拟原始标签之间的差异；从训练结束后得到的新可信模型中去除原输出层得到更新后的可信模型。

Description

更新可信模型的方法及装置

技术领域

本说明书一个或多个实施例涉及人工智能技术领域，尤其涉及一种更新可信模型的方法及装置。

背景技术

在互联网技术日益发展的今天，用户在使用互联网的各种行为中出现各种风险。例如可能存在诸如网络交易诈骗、虚假兼职诈骗、网络交友诈骗等各种各样的欺诈形式。还可能存在诸如作弊、盗用等风险形式。通常在风险识别系统的前端，流量会首先进入可信模型，由可信模型对流量中的用户行为进行可信性分析，将认为是可信用户行为的流量进行快速方形，而对于非可信用户行为的流量则送入风险识别系统进行更精细化的风险识别。一般而言，可信模型可以方形9成以上的流量，仅1成左右的流量转至风险识别系统进行更精细化的识别。

由于网络风险形式的瞬息万变，如何保证在风险识别系统最前端、负责大部分流量放行的可信模型的稳定性显得尤为重要。一方面，风险行为的更新要求可信模型进行定期更新，以满足新增样本的覆盖要求；另一方面，可新模型当前稳定运行的现状不能够被打破，即更新的模型仍需要保证对历史样本的识别能力。

传统的一些获取可信模型的方式大多保留全量历史样本数据，利用历史样本和新增样本进行联合建模。这种方式需要大量的存储空间来一直保留历史样本和不断增加的新增样本。然而为了降低存储压力，很多系统对于历史样本是不做保留的，那么在历史样本难以获取的情况下，如何更新可信模型以保证可信模型的鲁棒性成为亟待解决的问题。

发明内容

本说明书一个或多个实施例公开了一种更新可信模型的方法及装置，以便于在历史样本难以获取的情况下保证更新后可信模型的鲁棒性。

根据第一方面，本公开提供了一种更新可信模型的方法，该方法包括：

获取新增样本以及新增样本对应的标签，所述新增样本为用户的网络行为数据，所述标签包括是否为可信行为；

将新增样本输入原可信模型，获取并存储原可信模型针对新增样本的输出结果作为新增样本的模拟原始标签；

在原可信模型中新增一个与原输出层结构相同且并列的新输出层，得到新可信模型；

利用所述新增样本训练所述新可信模型，训练目标包括最小化训练损失，所述训练损失依据第一差异、第二差异和第三差异确定，所述第一差异为所述原输出层针对所述新增样本的输出结果与所述新增样本的模拟原始标签之间的差异，所述第二差异为所述新输出层针对所述新增样本的输出结果与所述新增样本对应的标签之间的差异，第三差异为所述新输出层针对所述新增样本的输出结果与所述新增样本的模拟原始标签之间的差异；

从训练结束后得到的新可信模型中去除原输出层得到更新后的可信模型。

根据本申请实施例中一可实现的方式，该方法还包括：在所述训练过程中获取同一个新增样本在所述原输出层和新输出层得到的向量对作为正样本对，获取不同新增样本在原输出层的暂退dropout增广向量和在新输出层的dropout 增广向量作为负样本对；

所述训练目标还包括：最小化正样本对之间的距离且最大化负样本对之间的距离。

根据本申请实施例中一可实现的方式，所述训练损失由第一损失函数、第二损失函数、第三损失函数和第四损失函数进行加权处理后得到；

其中，所述第一损失函数、第二损失函数和第三损失函数分别体现所述第一差异、第二差异和第三差异，所述第四损失函数依据正样本对之间的距离以及负样本对之间的距离确定。

根据本申请实施例中一可实现的方式，产生dropout增广向量所使用的 dropout比例以及所述加权处理所采用的加权系数为预设的超参数；或者，

所述dropout比例为采用网格搜索的方式确定出的最优比例，所述加权系数作为参数在所述训练过程中学习得到。

根据本申请实施例中一可实现的方式，在利用所述新增样本训练所述新可信模型之前，还包括：

随机初始化所述新输出层的参数，其他模型参数采用原可信模型的参数。

根据本申请实施例中一可实现的方式，在所述训练的每一轮迭代中利用所述训练损失的取值更新所述新可信模型的模型参数，直至满足预设的训练结束条件；其中所述模型参数包括输入层、中间层、所述原输出层和所述新输出层的参数；或者，

在所述训练的每一轮迭代中利用所述训练损失的取值仅更新所述新可信模型的新输出层的参数，直至满足预设的第一训练结束条件；再进一步利用所述训练损失的取值更新所述新可信模型中输入层、中间层、所述原输出层和所述新输出层的参数，直至满足预设的第二训练结束条件。

根据本申请实施例中一可实现的方式，该方法还包括：

将包含用户的网络行为的流量输入所述更新后的可信模型，获取所述可信模型针对所述用户的网络行为输出的是否为可信行为的结果。

第二方面，提供了一种更新可信模型的装置，该装置包括：

样本获取单元，被配置为获取新增样本以及新增样本对应的标签，所述新增样本为用户的网络行为数据，所述标签包括是否为可信行为；

标签模拟单元，被配置为将新增样本输入原可信模型，获取并存储原可信模型针对新增样本的输出结果作为新增样本的模拟原始标签；

模型构建单元，被配置为在原可信模型中新增一个与原输出层结构相同且并列的新输出层，得到新可信模型；

模型训练单元，被配置为利用所述新增样本训练所述新可信模型，训练目标包括最小化训练损失，所述训练损失依据第一差异、第二差异和第三差异确定，所述第一差异为所述原输出层针对所述新增样本的输出结果与所述新增样本的模拟原始标签之间的差异，所述第二差异为所述新输出层针对所述新增样本的输出结果与所述新增样本对应的标签之间的差异，第三差异为所述新输出层针对所述新增样本的输出结果与所述新增样本的模拟原始标签之间的差异；

模型获取单元，被配置为从训练结束后得到的新可信模型中去除原输出层得到更新后的可信模型。

根据第三方面，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行如上所述的方法。

根据第四方面，本公开提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现如上所述的方法。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

1)本公开采用增量学习的思路，在原可信模型中新增一个与原输出层结构相同且并列的新输出层以构建新可信模型，利用原输出层来模拟历史样本的学习效果，利用新输出层来模拟新增样本和历史样本的学习效果，从而使得训练得到的新可信模型能够在保证新增样本的学习效果的同时，对历史样本仍具有较高的稳定性，从而提高了更新后可信模型的鲁棒性。

2)本公开还进一步参考了对比学习的思路，利用同一个新增样本在原输出层和新输出层得到的向量作为正样本对，不同新增样本在原输出层的暂退 dropout增广向量和在新输出层的dropout增广向量作为负样本对，以使得新输出层和原输出层整体模型参数分布尽可能接近，同时保留一定的自由度，从而更进一步提高了更新后可信模型的鲁棒性。

3)在训练新可信模型之前，对新输出层的参数采用随机初始化的方式，对其他模型参数采用原可信模型的参数，既可以充分利用原可信模型的训练成果，又可以有效地避免陷入局部最优解。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的示例性系统架构图；

图2为本公开实施例提供的更新可信模型的方法流程图；

图3为本公开实施例提供的原可信模型的结构示意图；

图4为本公开实施例提供的新可信模型的结构示意图；

图5为本公开实施例提供的更新后的可信模型的结构示意图；

图6示出根据一个实施例的更新可信模型的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

图1示出了可以应用本公开实施例的示例性系统架构。该系统主要包括更新可信模型的装置、可信模型和风险识别系统。其中，更新可信模型的装置可以获取新增样本以及新增样本对应的标签，利用新增样本对可信模型进行更新。其中，新增样本可以来源于数据仓库中用户的网络行为数据，以及对用户的网络行为数据进行的标注。

该装置可以定期采用本公开实施例提供的方式对可信模型进行更新，也可以在特定事件的触发下采用本公开实施例提供的方式对可信模型进行更新。

可信模型用以在线上对包含用户的网络行为的流量进行识别，输出是否为可信行为的识别结果。若是可信行为，则可信模型对于该流量进行放行即正常转发。若是非可信行为，则可新模型可以将该流量转发至风险识别系统进行进一步的精细化的风险识别。例如进行关于作弊、盗用等类别的风险识别。

上述系统中的更新可信模型的装置、可信模型和风险识别系统可以在服务器端实现。该服务器端可以是单一服务器，也可以是多个服务器构成的服务器群组，还可以是云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器 (VPs，Virtual Private Server)服务中存在的管理难度大，业务扩展性弱的缺陷。除了在服务器端实现之外，也可以在具有强大计算能力的计算机终端实现。

其中，更新可信模型的装置可以为位于服务器端的应用，或者还可以为位于服务器端的应用中的插件或软件开发工具包(Software Development Kit， SDK)等功能单元。

应该理解，图1中的更新可信模型的装置、可信模型、风险识别系统和数据仓库的数目仅仅是示意性的。根据实现需要，可以具有任意数目的更新可信模型的装置、可信模型、风险识别系统和数据仓库。

图2为本公开实施例提供的更新可信模型的方法流程图。可以理解，该方法可以通过图1所示系统中的更新可信模型的装置来执行。参见图2，该方法包括：

步骤202：获取新增样本以及新增样本对应的标签，新增样本为用户的网络行为数据，标签包括是否为可信行为。

步骤204：将新增样本输入原可信模型，获取并存储原可信模型针对新增样本的输出结果作为新增样本的模拟原始标签。

步骤206：在原可信模型中新增一个与原输出层结构相同且并列的新输出层，得到新可信模型。

步骤208：利用新增样本训练新可信模型，训练目标包括最小化训练损失，训练损失依据第一差异、第二差异和第三差异确定，第一差异为原输出层针对新增样本的输出结果与新增样本的模拟原始标签之间的差异，第二差异为新输出层针对新增样本的输出结果与新增样本对应的标签之间的差异，第三差异为新输出层针对新增样本的输出结果与新增样本的模拟原始标签之间的差异。

步骤210：从训练完毕后得到的新可信模型中去除原输出层得到更新后的可信模型。

由以上实施例提供的技术内容可以看出，本公开采用增量学习的思路，在原可信模型中新增一个与原输出层结构相同且并列的新输出层以构建新可信模型，利用原输出层来模拟历史样本的学习效果，利用新输出层来模拟新增样本和历史样本的学习效果，从而使得训练得到的新可信模型能够在保证新增样本的学习效果的同时，对历史样本仍具有较高的稳定性，从而提高了更新后可信模型的鲁棒性。

下面分别对图2所示的各步骤进行详细说明。

首先结合实施例对上述步骤202即“获取新增样本以及新增样本对应的标签，新增样本为用户的网络行为数据，标签包括是否为可信行为”进行详细描述。

用户在使用网络的过程中被服务器端记录了大量的网络行为数据，这些网络行为数据通常记录于数据仓库中，体现了大量行为主体和行为对象之间的关联。其中一些行为是具有风险的，而大多数行为是可信的。本申请实施例中涉及的可信模型是用于识别用户行为是否是可信行为的。因此采用的训练样本是用户的网络行为数据以及对该训练样本标注是否为可信行为的标签。由于本申请实施例涉及的是利用新增样本对可信模型进行更新的过程，因此本步骤获取的是新增样本以及新增样本对应的标签。

上述的用户以及网络行为类型会因不同场景而不同。以网络交易场景为例，上述的用户可以是诸如账户、银行卡、红包id等。网络行为可以是诸如支付行为、存取款行为、签约绑定行为、收发红包行为等等与金融类相关的行为。

以网络交友场景为例，上述的用户可以是诸如社交网络账户、实时通信工具账户、金融账户、主机地址、客户端标识等等。网络行为可以是诸如发送好友请求的行为、添加好友的行为、聊天行为、转账行为、收发红包行为、发送链接的行为，等等。

新增样本的标签可以是人工标注的，也可以是采用其他方式标注的。例如可以采用一些高精度的风险识别模型已经明确是非可信行为和可信行为的。本公开实施例对新增样本的来源以及标签的标注方式并不加以特别限定。

下面结合实施例对上述步骤204即“将新增样本输入原可信模型，获取并存储原可信模型针对新增样本的输出结果作为新增样本的模拟原始标签”进行详细描述。

原可信模型指的是更新前的可信模型，也就是利用历史样本已经训练得到的可信模型。其结构可以简单表示如图3所示，包括输入层、中间层和输出层。其中，样本经过输入层和中间层实现特征向量的提取，输出层中会对特征向量进行映射得到识别结果。具体的网络结构在此不做详述，为了方便表述，将输入层和中间层的参数表示为θ_s，将输出层的参数表示为θ_o。

假设新增样本及其标签表示为(X_n,Y_n)，其中，X_n为新增样本，Y_n为标签。本步骤中实际上是将各新增样本X_n分别输入原可信模型，得到原可信模型针对新增样本的输出结果Y_o，该Y_o看做是新增样本的模拟原始标签。也就是说， Y_o体现的是原可信模型的识别能力，可以表示为以下公式：

Y_o＝M_o(X_n,θ_s,θ_o) (1)

M_o()表示原可信模型对应的识别处理。

下面结合实施例对上述步骤206即“在原可信模型中新增一个与原输出层结构相同且并列的新输出层，得到新可信模型”进行详细描述。

本步骤是构建新可信模型，该新可信模型并非最终更新后的模型结构，而是作为一个训练过程中使用的中间模型结构。该新可信模型是在保留原可信模型结构的基础上，新增一个输出层。为了进行区分，将原可信模型的输出层称为原输出层，将新增的输出层称为新输出层。

如图4中所示，在新可信模型中原输出层和新输出层并列，即中间层输出给原输出层的同时，也输出给新输出层，原输出层和新输出层会分别输出识别结果。

新输出层的初始化参数表示为θ_n，可以是随机初始化的参数，也可以直接采用原输出层的参数作为新输出层的初始化参数。其中，采用随机初始化的参数需要较长的模型训练时间，但可以有效避免模型陷入局部最优点。

下面结合实施例对上述步骤208即“利用新增样本训练新可信模型”进行详细描述。

在每一轮迭代中将新增样本输入新可信模型后，新可信模型的原输出层和新输出层都会针对新增样本输出识别结果。由于训练过程中新可信模型的参数会进行更新，可以采用θ_s ^*表示训练过程中新可信模型的输入层和中间层的参数，采用θ_o ^*和θ_n ^*表示训练过程中新可信模型的原输出层和新输出层的参数。

针对新增样本X_n，原输出层的输出Y_o ^*表示为：

Y_o ^*＝M_n(X_n,θ_s ^*,θ_o ^*) (2)

M_n()代表新可信模型对应的识别处理。

针对新增样本X_n，新输出层的输出Y_n ^*表示为：

Y_n ^*＝M_n(X_n,θ_s ^*,θ_o ^*) (3)

作为其中一种可实现的方式，在训练新可信模型的过程中，可以采用增量学习中LwF(Learning without Forgetting，不遗忘学习)的思路。LwF算法是介于联合训练和微调训练之间的一种训练方式，其特点是不需要使用历史样本也能够进行模型更新。

在本申请实施例中训练损失主要依据三种差异来确定：

第一种差异是原输出层针对新增样本的输出结果与新增样本的模拟原始标签之间的差异。

在步骤204中已经得到了原可信模型针对新增样本的输出结果来作为新增样本的模拟原始标签，其代表了原可信模型从历史样本中学习到的识别能力。为了避免对新增任务的训练过分调整原可信模型的参数而导致新可信模型在历史样本上性能的下降，可以将最小化原输出层针对新增样本的输出结果与新增样本的模拟原始标签之间的差异作为其中一个训练目标。

针对第一种差异可以构建第一损失函数，表示为L_old(Y_o,Y_o ^*)。

其中，L_old(Y_o,Y_o ^*)可以采用Knowledge Distillation loss(知识蒸馏损失函数)，例如采用以下公式计算：

其中，l表示可信模型识别结果的类别数，

是原可信模型针对新增样本输出的在第i个类别的置信度，

是新可信模型的原输出层针对新增样本输出的在第i个类别的置信度，公式(5)和(6)中的分母表示在各类别上进行遍历求和。T是超参数，预先由人工设置为经验值或实验值，通常为大于 1的值，用来增加多类别任务中偏小的输出值，使网络能够更好地刻画不同类别间的相关性。

第二种差异是新输出层针对新增样本的输出结果与新增样本对应的标签之间的差异。

理所当然地，在利用新增样本进行训练的过程中，需要保证新可信模型在新增样本上的效果，从新增样本学习到一定的识别能力。因此其中一个训练目标为最小化新输出层针对新增样本的输出结果与新增样本对应的标签之间的差异。

针对第二种差异可以构建第二损失函数,表示为L_new(Y_n,Y_n ^*)。

第三种差异是新输出层针对新增样本的输出结果与新增样本的模拟原始标签之间的差异。

在步骤204中已经得到了原可信模型针对新增样本的输出结果来作为新增样本的模拟原始标签，其代表了原可信模型从历史样本中学习到的识别能力。由于在训练新可信模型的过程中，需要保证新可信模型在历史样本上的识别能力不下降，因此需要最小化新输出层针对新增样本的输出结果与新增样本的模拟原始标签之间的差异。

针对第三种差异可以构建第三损失函数,表示为L_{old_new}(Y_o,Y_n ^*)。

L_new(Y_n,Y_n ^*)和L_{old_new}(Y_o,Y_n ^*)也可以采用Knowledge Distillation loss，即采用与上述公式(4)、(5)和(6)相类似的计算方式，在此不做赘述。另外，除了采用KnowledgeDistillation loss之外，也可以采用或设计其他损失函数的形式来体现上述三种差异。

作为其中一种可实现的方式，可以设计损失函数L1为：

L1＝α1 L_old(Y_o,Y_o ^*)+α2 L_new(Y_n,Y_n ^*)+α3 L_{old_new}(Y_o,Y_n ^*) (7)

其中，α1、α2和α3是加权系数，可以采用预设的超参数，可以是人工设置的经验值或试验值等。

上述损失函数的设计是借用了知识蒸馏的思想，参考了增量学习LwF的思路，在构造的新可信模型中进行原输出层和新输出层的区分，原输出层负责衡量模拟的历史样本在新可信模型上的效果，新输出层同时负责衡量新增样本在新可信模型上的效果以及历史样本在新可信模型上的效果。使得在历史样本缺失的情况下，仅仅利用新增样本来训练可信模型，也能够使得可信模型既对新增样本有较好的效果，也能够兼顾历史样本的效果。

作为另一种可实现的方式，除了最小化上述三种差异之外，还可以进一步参考对比学习SimCSE(Simple Contrastive Learning of Sentence Embedding，句子嵌入的简单对比学习)的思路，利用新可信模型中原输出层和新输出层的dropout(暂退)子网络对每一个新增样本进行若干次前向传播，得到若干个不同的向量(embedding)，这若干个向量称为dropout增广向量。本申请实施例中，可以在训练过程中获取同一个新增样本在原输出层和新输出层得到的向量作为正样本对，获取不同新增样本对应的dropout增广向量作为负样本对。更进一步的训练目标包括：最小化正样本对之间的距离且最大化负样本对之间的距离。

上述训练目标的设计思路是使得新输出层和原输出层的整体模型参数分布尽可能接近，同时保留一定的自由度。

对于同一个新增样本而言在原输出层和新输出层得到的向量之间距离应该尽可能接近，从而体现了新输出层和原输出层的整体模型参数分布尽可能接近。

dropout原本用以解决深度学习中的过拟合问题，指的是在神经网络层中，随即掩码(mask)一定比例的神经元，让它们不发挥传递作用，带来的效果就是随机导致一部分连接权重为0，使网络模型变得稀疏的一种模型方法。需要说明的是，dropout只有在模型训练的过程中发挥作用，在利用模型进行实际预测的过程中所有神经元都会发生作用。本申请实施例中，利用 dropout机制实现负样本的扩充，在新可信模型的原输出层和新输出层的全连接层使用了dropout机制，使得该全连接层按照预设的比例随机mask部分神经元(可以理解为随机设置全连接矩阵中一部分连接权重为0)后输出dropout 增广向量。

在本申请实施例中，上述预设的比例可以是人工设置的超参数，可以设置为经验值或试验值。也可以采用Grid Search(网格搜索)的方式搜索最优比例。Grid Search是一种调参手段，在所有候选的参数选择中通过循环遍历，尝试每一种可能性，从而找出表现最好的参数。在本申请实施例中可以预先指定dropout的比例的搜索范围，例如{0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9}，然后分别使用该搜索范围内的比例以及其他超参数进行组合，分别在训练样本集合上进行训练，最终选择在验证样本集合中表现最好的一组超参(包括 dropout的比例)作为最终使用的超参数组合。若其他超参数不参与网格搜索，也可以仅使用各搜索范围内的比例分别在训练样本集合上进行训练，最终选择在验证样本集合中变现最好的比例作为最终使用的dropout的比例。

理论上不同新增样本，例如同一batch(批)中不同新增样本在原输出层和新输出层对应的dropout增广向量之间的距离应该尽可能大，从而保证对不同新增样本具有尽可能大的区分能力。因此将不同新增样本在原输出层和新输出层对应的dropout增广向量作为负样本对。

举个例子，对于新增样本X₁而言，其在原输出层对应的dropout增广向量表示为h₁'。该新增样本同一batch的另一新增样本X₂，其在新输出层对应的dropout增广向量表示为h₂'。那么h₁'和h₂'构成一个负样本对。

上述正样本对和负样本对中的向量可以从原输出层和新输出层的倒数第二个全连接层来获取，例如从倒数第二个全连接层输出的embedding来构成上述的正样本对，从倒数第二个全连接层的dropout增广向量构成负样本对。

在实现上述更进一步地训练目标时，可以采用infoNCE loss，例如涉及对应的损失函数L_m如下：

其中，h_m和h_m ⁺为正样本对，h_m和h_n ⁺为负样本对，N为同一batch中包含 h_m的负样本对的数量，r为预设的超参数，可以取经验值或试验值。sim()为向量之间的距离计算函数，例如可以采用如下公式：

其中，|| ||表示范数计算。将公式(9)中的h₁和h₂分别替换为h_m和h_m ⁺即可计算

将公式(9)中的h₁和h₂分别替换为h_m和h_n ⁺即可计算

作为一种较为优选的实施方式，可以将上述损失函数L1和L_m进行整合得到一个总的损失函数L，例如采用以下公式：

其中，α1、α2、α3和α4为控制权重的超参数，可以采用人工设置的经验值或试验值。

为对于模型参数的正则项，例如可以采用L2正则，其目的是为了防止过拟合，对模型添加正则项可以限制模型的复杂度，使得模型在复杂度和性能上达到平衡。

另外，除了人工指定上述超参数之外，加权系数还可以作为参数在模型训练过程中学习到。例如可以采用以下公式：

其中，σ₁、σ₂、σ₃和σ₄为在模型训练过程中学习到的参数。

作为其中一种可实现的方式，在训练新可信模型的过程中，每一轮迭代利用训练损失(例如上述总损失函数)的取值更新新可信模型的模型参数，这里的模型参数指的是所有的模型参数

和

直至满足预设的训练结束条件。也就是说，对新可信模型中的输入层、中间层、原输出层和新输出层统一进行参数更新。

其中训练结束条件可以包括诸如训练损失的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值，验证集中的L_new(Y_n,Y_n ^*)和L_{old_new}(Y_o,Y_n ^*) 最小等。

也可以采用其他参数更新的方式，例如在训练的每一轮迭代中利用训练损失的取值仅更新新可信模型的新输出层的参数，直至满足预设的第一训练结束条件。再进一步利用训练损失的取值更新新可信模型中输入层、中间层、原输出层和新输出层的参数，直至满足预设的第二训练结束条件。其中，第一训练结束条件可以包括诸如训练损失的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值。第二训练结束条件可以包括诸如训练损失的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值，验证集中的L_new (Y_n,Y_n ^*)和L_{old_new}(Y_o,Y_n ^*)最小等。

训练结束后得到的新可信模型，去除原输出层，仅保留新输出层，就得到了更新后的可信模型，如图5中所示。然后将更新前的可信模型和更新后的可信模型进行AB测试，即一部分流量采用更新前的可信模型，一部分流量采用更新后的可信模型，然后对比更新前的可信模型和更新后的可新模型的识别效果，满足要求后，可以将所有流量都切换至更新后的可信模型。

包含用户的网络行为的流量输入更新后的可信模型后，获取可信模型针对用户的网络行为输出的是否为可信行为的识别结果。如果是可信行为，则正常转发该流量，即依据该流量目的地址所对应的路由转发该流量至下一跳设备。如果是非可信行为，则可以进一步将该流量发送至风险识别系统进行更精细化的风险识别。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，提供了一种更新可信模型的装置。图6示出根据一个实施例的更新可信模型的装置的示意性框图。如图6所示，该装置600包括：样本获取单元601、标签模拟单元602、模型构建单元603、模型训练单元 604和模型获取单元605，其中各组成单元的主要功能如下：

样本获取单元601，被配置为获取新增样本以及新增样本对应的标签，新增样本为用户的网络行为数据，标签包括是否为可信行为。

标签模拟单元602，被配置为将新增样本输入原可信模型，获取并存储原可信模型针对新增样本的输出结果作为新增样本的模拟原始标签。

模型构建单元603，被配置为在原可信模型中新增一个与原输出层结构相同且并列的新输出层，得到新可信模型。

模型训练单元604，被配置为利用新增样本训练新可信模型，训练目标包括最小化训练损失，训练损失依据第一差异、第二差异和第三差异确定，第一差异为原输出层针对新增样本的输出结果与新增样本的模拟原始标签之间的差异，第二差异为新输出层针对新增样本的输出结果与新增样本对应的标签之间的差异，第三差异为新输出层针对新增样本的输出结果与新增样本的模拟原始标签之间的差异。

模型获取单元605，被配置为从训练结束后得到的新可信模型中去除原输出层得到更新后的可信模型。

更进一步地，模型训练单元604还可以被配置为：在训练过程中获取同一个新增样本在原输出层和新输出层得到的向量对作为正样本对，获取不同新增样本在原输出层的暂退dropout增广向量和在新输出层的dropout增广向量作为负样本对。上述的训练目标还包括：最小化正样本对之间的距离且最大化负样本对之间的距离。

作为其中一种可实现的方式，训练损失由第一损失函数、第二损失函数、第三损失函数和第四损失函数进行加权处理后得到；其中，第一损失函数、第二损失函数和第三损失函数分别体现第一差异、第二差异和第三差异，第四损失函数依据正样本对之间的距离以及负样本对之间的距离确定。

其中，加权系数为预设的超参数，或者作为参数在训练过程中学习得到。

作为其中一种可实现的方式，模型训练单元604在利用新增样本训练新可信模型之前，可以随机初始化新输出层的参数，其他模型参数采用原可信模型的参数。

作为其中一种可实现的方式，模型训练单元604在训练的每一轮迭代中利用训练损失的取值更新新可信模型的模型参数，直至满足预设的训练结束条件；其中模型参数包括输入层、中间层、原输出层和新输出层的参数。

作为另一种可实现的方式，模型训练单元604在训练的每一轮迭代中利用损失函数的取值仅更新新可信模型的新输出层的参数，直至满足预设的第一训练结束条件；再进一步利用损失函数的取值更新新可信模型中输入层、中间层、原输出层和新输出层的参数，直至满足预设的第二训练结束条件。

对于训练得到的可信模型，将包含用户的网络行为的流量输入更新后的可信模型，获取可信模型针对用户的网络行为输出的是否为可信行为的结果。如果是可信行为，则正常转发该流量，即依据该流量目的地址所对应的路由转发该流量至下一跳设备。如果是非可信行为，则可以进一步将该流量发送至风险识别系统进行更精细化的风险识别。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现图2 所述的方法。

随着时间、技术的发展，计算机可读存储介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本说明书中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

上述的处理器可包括一个或多个单核处理器或多核处理器。处理器可包括任何一般用途处理器或专用处理器(如图像处理器、应用处理器基带处理器等) 的组合。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种更新可信模型的方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，该方法还包括：在所述训练过程中获取同一个新增样本在所述原输出层和新输出层得到的向量对作为正样本对，获取不同新增样本在原输出层的暂退dropout增广向量和在新输出层的dropout增广向量作为负样本对；

3.根据权利要求2所述的方法，其特征在于，所述训练损失由第一损失函数、第二损失函数、第三损失函数和第四损失函数进行加权处理后得到；

4.根据权利要求3所述的方法，其特征在于，产生dropout增广向量所使用的dropout比例以及所述加权处理所采用的加权系数为预设的超参数；或者，

5.根据权利要求1所述的方法，其特征在于，在利用所述新增样本训练所述新可信模型之前，还包括：

6.根据权利要求1至5中任一项所述的方法，其特征在于，在所述训练的每一轮迭代中利用所述训练损失的取值更新所述新可信模型的模型参数，直至满足预设的训练结束条件；其中所述模型参数包括输入层、中间层、所述原输出层和所述新输出层的参数；或者，

7.根据权利要求1至5中任一项所述的方法，其特征在于，该方法还包括：

8.一种更新可信模型的装置，其特征在于，该装置包括：

9.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1至7中任一项所述的方法。

10.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1至7中任一项所述的方法。