CN111782550B

CN111782550B - 基于用户隐私保护训练指标预测模型的方法及装置

Info

Publication number: CN111782550B
Application number: CN202010759875.5A
Authority: CN
Inventors: 颜林
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2022-04-12
Anticipated expiration: 2040-07-31
Also published as: CN111782550A

Abstract

本说明书实施例提供一种基于用户隐私保护训练指标预测模型的方法及装置，该方法首先在公有云环境下获取第一用户在使用第一产品进行身份验证时对应的多个特征项和相应的验证结果，基于多个特征项形成样本特征，将验证结果作为样本标签，形成训练样本训练预测模型，将训练后的所述预测模型用于部署到私有云环境中，以预测私有云环境中的第二产品对应的所述至少一个验证指标的指标值。该方法在无需私有云环境下的隐私数据出境的前提下，能够检测指定产品的指标是否异常。

Description

基于用户隐私保护训练指标预测模型的方法及装置

技术领域

本说明书实施例涉及隐私数据保护技术领域，具体地，涉及基于用户隐私保护训练指标预测模型的方法及装置。

背景技术

身份验证是实现在线支付等操作的必要环节，支持身份验证的产品的验证流程中往往需要录入或读取用户的隐私数据，例如支持人脸等生物特征识别的产品，需要录入人脸图像等隐私数据，基于eKYC(electronic Know-Your-Customer)的主动身份核实中，需要用户提交各种证件等身份信息。

应监管部门对用户隐私合规的要求，用户隐私数据持有方将相应的产品部署在私有云环境下，例如，企业以及银行等金融机构直接将相关的软件产品部署在自己的服务器和机房中，或部署在公有云环境下的私有租户中。

支持身份验证的产品在运行过程中需要进行指标检测，以判断产品体验是否合格，例如是否出现了设备不兼容、交互流程bug、算法问题等异常情况，这些指标检测一般依赖于产品数据的交换，而私有云环境下的隐私数据由于无法出境，使得产品的指标检测存在一定障碍。

发明内容

本说明书描述了一种基于用户隐私保护训练指标预测模型的方法，该方法将公有云环境训练得到的预测模型应用于私有云环境下，通过该预测模型预测私有云环境下的产品指标，在无需私有云环境的隐私数据出境的前提下，实现对产品指标的检测。

根据第一方面，提供一种基于用户隐私保护训练指标预测模型的方法，该方法在公有云环境下执行，包括：

获取第一用户在使用第一产品进行身份验证时对应的多个特征项，其中，第一产品部署在公有云环境中，多个特征项对应于对身份验证结果有影响的多个因素；获取第一用户使用第一产品进行身份验证的验证结果，验证结果包括与至少一个验证指标对应的数据项；基于多个特征项形成样本特征，将验证结果作为样本标签，从而形成训练样本；利用多个训练样本训练预测模型，训练后的预测模型用于部署到私有云环境中，以预测私有云环境中的第二产品对应的至少一个验证指标的指标值。

在一个实施例中，第一产品的验证流程包括人脸验证；获取第一用户在使用第一产品进行身份验证时对应的多个特征项，包括：获取第一用户用于人脸验证的人脸图像的第一附加特征，归入多个特征项，第一附加特征包括以下中的至少一项：人脸背景、人种、配饰、发型、发色。

在一个实施例中，第一产品的验证流程包括证件扫描；获取第一用户在使用第一产品进行身份验证时对应的多个特征项，包括：获取第一用户用于证件扫描的证件图像的第二附加特征，归入多个特征项，第二附加特征包括以下中的至少一项：证件背景、证件类型、证件摆放角度。

在一个实施例中，多个特征项还包括身份附加特征，身份附加特征包括以下中的至少一项：地址、性别、职业、年龄、身高。

在一个实施例中，多个特征项还包括，第一用户在使用第一产品进行身份验证时的操作环境特征，操作环境特征包括以下中的至少一项：验证所使用的终端设备型号、操作系统及版本、操作系统语言、网络环境、时间。

在一个实施例中，基于多个特征项形成样本特征，包括：将多个特征项中的若干特征项进行特征交叉，形成衍生特征；将多个特征项和/或衍生特征作为对应的样本特征。

在一个实施例中，至少一个验证指标包括以下中的至少一项：验证通过率，验证耗时，刷脸成功率，证件扫描成功率、验证准确率。

在一个实施例中，预测模型为逻辑回归LR模型、支持向量机SVM模型、决策树模型、梯度提升迭代决策树GBDT模型、有监督的神经网络模型中的任意一种。

根据第二方面，本说明书实施例还提供一种产品指标预测方法，该方法在私有云环境下执行，包括：

获取多个第二用户在使用第二产品进行身份验证时分别对应的多个用户输入特征，其中，第二产品部署在私有云环境中，输入特征包括对身份验证结果有影响的多个因素对应的多个特征项；获取如上述任一项方法训练得到的预测模型；将所述多个第二用户分别对应的多个输入特征分别输入所述预测模型，以预测多个第二用户使用第二产品进行身份验证的多个验证结果，验证结果包括与至少一个验证指标对应的数据项；基于多个验证结果，获得第二产品对应的至少一个验证指标的指标值。

在一个实施例中，基于多个验证结果，获得第二产品对应的至少一个验证指标的指标值之后，还包括：获取第二产品对应的至少一个验证指标的实际值，实际值基于多个第二用户使用第二产品进行身份验证的实际验证结果获得；计算实际值与指标值之间的损失值，如果损失值超过预定范围，则判定相应的验证指标存在异常，将对应的用户输入特征判定为异常特征。

在一个实施例中，将对应的用户输入特征判定为异常特征之后，还包括：

异常特征的数目超过预定数目时，针对异常特征执行聚类分析，获得至少一个类别的异常特征。

根据第三方面，本说明书实施例还提供一种基于用户隐私保护训练指标预测模型的装置，该装置在公有云环境下运行，包括：

第一获取单元，被配置为获取第一用户在使用第一产品进行身份验证时对应的多个特征项，其中，第一产品部署在公有云环境中，多个特征项对应于对身份验证结果有影响的多个因素；第二获取单元，被配置为获取第一用户使用第一产品进行身份验证的验证结果，验证结果包括与至少一个验证指标对应的数据项；标注单元，被配置为基于多个特征项形成样本特征，将验证结果作为样本标签，从而形成训练样本；训练单元，被配置为利用多个训练样本训练预测模型，训练后的预测模型用于部署到私有云环境中，以预测私有云环境中的第二产品对应的至少一个验证指标的指标值。

在一个实施例中，第一产品的验证流程包括人脸验证；第一获取单元，被具体配置为：获取第一用户用于人脸验证的人脸图像的第一附加特征，归入多个特征项，第一附加特征包括以下中的至少一项：人脸背景、人种、配饰、发型、发色。

在一个实施例中，第一产品的验证流程包括证件扫描；第一获取单元，被具体配置为：获取第一用户用于证件扫描的证件图像的第二附加特征，归入多个特征项，第二附加特征包括以下中的至少一项：证件背景、证件类型、证件摆放角度。

在一个实施例中，标注单元，被具体配置为：将多个特征项中的若干特征项进行特征交叉，形成衍生特征；将多个特征项和/或衍生特征作为对应的样本特征。

第四方面，本说明书实施例还提供一种产品指标预测装置，该装置在私有云环境下运行，包括：

第三获取单元，被配置为获取多个第二用户在使用第二产品进行身份验证时分别对应的多个输入特征，其中，第二产品部署在私有云环境中，输入特征包括对身份验证结果有影响的多个因素对应的多个特征项；第四获取单元，被配置为获取如上述任一项装置训练得到的预测模型；预测单元，被配置为将多个第二用户分别对应的多个输入特征分别输入预测模型，以预测多个第二用户使用第二产品进行身份验证的多个验证结果，验证结果包括与至少一个验证指标对应的数据项；计算单元，被配置为基于多个验证结果，获得第二产品对应的至少一个验证指标的指标值。

在一个实施例中，装置还包括判定单元，判定单元被配置为：

获取第二产品对应的至少一个验证指标的实际值，实际值基于多个第二用户使用第二产品进行身份验证的实际验证结果获得；计算实际值与指标值之间的损失值，如果损失值超过预定范围，则判定相应的验证指标存在异常，将对应的用户输入特征判定为异常特征。

在一个实施例中，装置还包括聚类单元，聚类单元被配置为：

根据第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当计算机程序在计算机中执行时，令计算机执行第一至第二方面的方法。

根据第六方面，提供了一种计算设备，包括存储器和处理器，存储器中存储有可执行代码，处理器执行可执行代码时，实现第一至第二方面的方法。

采用本说明书实施例提供的基于用户隐私保护训练指标预测模型的方法，在公有云环境中，将对身份验证结果有影响的多个因素归纳为多个特征项，基于特征项生成相应的样本特征，将相应的验证结果作为标签，训练出预测模型，将该训练后的预测模型应用于私有云环境中，以私有云环境中的相应特征项作为输入，预测当前特征项对应的验证结果，基于多个预测的验证结果获得预测的指标值，将预测的指标值与私有云环境中的实际指标值进行对比，从而判断私有云环境下的产品指标是否异常。

附图说明

为了更清楚地说明本说明书披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了本说明书提供的一种基于用户隐私保护训练指标预测模型的方法的一个实施例的技术架构图；

图2示出了本说明书提供的公有云环境下的基于用户隐私保护训练指标预测模型方法的一个实施例的流程图；

图3示出了本说明书提供的私有云环境下的产品指标预测方法的一个实施例的流程图；

图4示出了本说明书一个实施例中私有云环境下获得验证指标的流程示意图；

图5示出了本说明书实施例公有云环境下的基于用户隐私保护训练指标预测模型装置的一个实施例的结构示意图；

图6示出了本说明书实施例私有云环境下的产品指标预测装置的一个实施例的结构示意图。

具体实施方式

下面结合附图，对本说明书披露的多个实施例进行描述。

在线身份验证方式为目前最为普遍的一种验证用户身份方式，例如采用拍摄证件或人脸的方式来实时或准实时验证当前用户是否是真实的合法用户，该项技术已经应用到金融业Know Your Customer(KYC)领域并命名为eKYC(electronic KYC)。支持在线身份验证的相关产品在B端客户应用集成时，由于监管对用户隐私合规的要求，一般会采用私有化部署的方式，例如在B端用户的私有云平台中部署eKYC后端服务，在C端用户的网页端或客户端集成eKYC产品，在eKYC交互过程中产生的各种数据不允许出境分享。支持在线身份验证的eKYC等相关产品在投入使用后，需要对其产品性能进行监管和维护，其中一项重要的管控措施就是进行指标检测，基于指标检测判断产品是否出现异常，而指标检测多依赖于产品数据(包括隐私数据)的交换和横向对比。

私有化部署方式下由于不允许产品数据出境，为实现私有云环境下的数据交换，已被提出的多方安全计算方案，可以实现匿名的跨站点异常指标检测。该方案利用同态加密、秘密共享、零知识证明以及混淆电路等算法来实现隐私数据保护，使得私有云环境下的隐私数据能够被外部使用，但使用方无法获知具体数据内容，仅是利用加密后的隐私数据进行加密运算，得到运算结果，使得私有云环境下的隐私数据无需出系统边界而达到数据交换的目的。

发明人在研究过程中发现，在产品指标异常检测应用场景下，多方安全计算会存在如下缺点：一次多方安全计算涉及多个步骤的加密解密过程，对于大数据量的产品指标异常检测将会占用以及耗费较多资源；并且，多方安全计算中支持的计算类型有限，使用范围较窄，例如同态加密算法支持的算法类型有加法同态、乘法同态以及混合乘法同态等等，这些算法的计算类型较为简单，而在产品指标异常检测场景中，涉及到的相关算法有时复杂度会比较高，例如可能需要用到聚类算法等等，但多方安全计算目前只支持有限集中经过严格证明的计算类型，对于其他类型例如聚类算法等目前还不能完全支持，因此，多方安全计算方案并不适用于产品指标检测。

鉴于此，本说明书实施例提出一种基于用户隐私保护训练指标预测模型的方法，参阅图1所示，该方法在公有云环境下，从用户基于通过第一产品进行身份验证时产生的各种数据中，例如从身份数据、图像数据以及环境数据中的至少一种数据中提取出多个特征项，基于多个特征项得到样本特征，以用户通过第二产品进行验证时的验证结果作为标签，例如验证通过，则标签值为1，验证未通过，则标签值为0，对样本特征进行标注，获得训练样本，对预设的预测模型进行训练，基于预测模型进行有监督学习，优化预测模型的参数，进而获得训练后的预测模型。然后，将训练后的预测模型应用于私有云环境下，将私有云环境下获得的输入特征，输入至该预测模型，通过预测模型预测各个输入特征对应的验证结果，基于预测出的验证结果可以获得预测的指标值，将预测出的指标值与实际的指标值进行比较，通过二者的差异程度，来判断私有云环境下的第二产品在某个指标上是否出现了异常。

参阅图2所示，第一方面，本说明书实施例披露了基于用户隐私保护训练指标预测模型的方法，该方法在公有云环境下执行，可以包括如下流程：

S202，获取第一用户在使用第一产品进行身份验证时对应的多个特征项；S204，获取第一用户使用第一产品进行身份验证的验证结果，验证结果包括与至少一个验证指标对应的数据项；S206，基于多个特征项形成样本特征，将验证结果作为样本标签，从而形成训练样本；S208，利用多个训练样本训练预测模型，训练后的预测模型用于部署到私有云环境中，以预测私有云环境中的第二产品对应的至少一个验证指标的指标值。

在本说明书实施例中，第一产品部署在公有云环境中，第二产品部署于私有云环境中，第二产品即为私有云环境下需要检测其指标的产品，例如支持eKYC验证的相关产品。

需要说明的是，由于预测模型基于第一产品所产生的数据进行训练得到，为保证该预测模型对第二产品的有效性，需要第一产品的验证流程与第二产品的验证流程之间的相似度应超过预定阈值，该预定阈值的设置，应使得，在验证流程上有细微差异的两个流程相似度超过该预定阈值，而验证关键步骤有明显差异的两个流程之间的相似度低于该预定阈值。例如，在第一产品的验证流程中，人脸识别通过后，还设置有扫描身份证流程，而第二产品的验证流程中，人脸识别通过后，还设置了银行卡账号以及密码输入的流程，则这两个产品的验证流程差异明显，二者相似度应低于预定阈值；或者，第一产品的验证流程中，在用户扫描身份证之后，还设置了人脸识别以及营业执照扫描的流程，而第二产品则仅设置了人脸识别和身份证扫描的流程，则这种情形下，两个产品的验证流程差异也很明显，二者的相似度较低，不应超过预定阈值。

再例如，第一产品的验证流程包括：先扫描身份证，然后弹出引导用户如何拍摄脸部的说明页面，之后通过摄像头采集用户的人脸图像，即拍摄用户的脸部；第二产品的验证流程包括：先扫描身份证，但并不弹出引导用户如何拍摄脸部的说明页面，而直接进入人脸图像采集流程，即没有引导页面，而是直接拍摄用户脸，则这两个产品流程可以认为相似度较高，此种情形下，第一产品和第二产品的相似度值应超过预定阈值。

发明人在研究过程中发现，对于在线身份验证产品的验证性能有所影响的因素有多种，本说明书实施例提供的方案，则是基于产品验证过程中涉及的对验证结果可能会有影响的相关数据，从中提取出多个特征项，基于这些特征项形成样本特征。

具体地，在S202中，可以按照如下方式获得特征项：

在一个实施例中，特征项基于身份验证过程中所对应的或者所产生的各项对验证结果可能有影响的数据中提取，而不是用于进行身份验证本身的数据项。例如，可以预先获取身份数据和/或环境数据，然后基于身份数据和/或图像数据提取，获得相应的特征项。

在另一个实施例中，可以将身份验证过程中所涉及的相关数据分为身份数据、图像数据和环境数据，然后基于这三类数据分别提取出特征项。

需要说明的是，本说明书实施例中，身份数据并非是用户身份标识信息本身，而是与用户身份标识信息相关的衍生数据，即对身份验证可能产生干扰或者有所影响的与身份相关的数据，例如身份数据可以包括用户常住地址，户籍地址、性别，职业等信息，而能够表明用户身份的唯一标识，例如护照号码、身份证号码，银行卡号码以及用户账户等能够作为用户ID的数据不能作为本说明书实施例方案中的身份数据。

同样地，图像数据包括身份验证过程中所能够获取到的各种图像对应的衍生数据，而并非图像中用于识别用户身份的部分，例如扫描得到的身份证照片上除身份证号码以外的图像信息，例如证件摆放角度、证件背景图像等信息，例如，扫描到的人脸图像中除人脸以外的衍生数据，例如是否戴口罩、是否戴耳环、是否戴项链、头发颜色等等，是否戴口罩以及肤色、种族信息，例如白种人、黑种人、黄种人等人种信息。一些支持人脸身份验证的产品，有时对黑人的验证通过率会偏低，即用户的肤色或者人种对验证结果会有影响。

环境数据则包括身份验证时对应的硬件以及网络环境以及时间等数据，例如手机设备型号、操作系统、操作系统版本、网络(3G/4G/WIFI)、发生时间等。

具体地，在一个实施例中，当第一产品的验证流程包括人脸验证时，则获取第一用户用于人脸验证的人脸图像的第一附加特征，归入多个特征项中，第一附加特征包括人脸背景、人种、配饰、发型、发色中的至少一项。当第一产品的验证流程包括证件扫描时，则还获取第一用户用于证件扫描的证件图像的第二附加特征，归入多个特征项，第二附加特征包括证件背景、证件类型、证件摆放角度中的至少一项。

可选的，由于身份验证时用于扫描证件图像的硬件设备的拍摄画面质量对后续的图像识别会有所影响，在一个实施例中，还可以获取有关人脸图像和/或证件图像的第三附加特征，第三附加特征可以是人脸图像或证件图像的图片质量等方面的信息，例如图像清晰度、曝光度、色彩还原度、图像分辨率、DPI(Dots Per Inch，每英寸点数)等。其中，图像清晰度可以采用MTF值(Modulation Transfer Function，调制传递函数)表示。

对于对验证结果有影响的数据划分方式并不仅限于划分为身份数据、环境数据以及图像数据这一种划分方式，例如还可以划分为集成有第一产品的终端设备的软硬件数据、与用户有关的用户数据，例如随用户变化而变化的各项数据都归纳为用户数据，而不随用户变化而变化的各项数据，都归纳为设备数据，这样，基于设备数据和用户数据，可以分别提取出相应的设备特征项和用户特征项。

例如，还可以将对验证结果有影响的各项数据划分为强隐私数据和弱隐私数据以及非隐私数据等等，与用户个人信息有关的一般属于强隐私数据，而集成有第一产品的终端设备所处的网络环境等，则可以归纳为非隐私数据，而人种等信息则可以归纳为弱隐私数据。

可见，本说明书实施例提供的方法，对于原始数据的划分方式有多种，不同的原始数据划分可可到不同的特征项，进而组成不同的样本特征。下面以其中一种为例，加以详细说明。

在一个实施例中，多个特征项包括身份附加特征，身份附加特征基于身份数据提取，可以包括地址、性别、职业、年龄、身高等信息中的至少一项。

集成有在线验证产品的终端设备本身的软硬件环境，对于验证结果也具有一定程度的影响，例如网络环境，网络信号的强弱对于验证结果影响程度较大，当信号较弱甚至完全没有信号时，很有可能导致验证失败，因此，环境数据在部分实施例中，为提取特征项而需要考虑的数据对象。在该部分实施例中，多个特征项还包括第一用户在使用第一产品进行身份验证时的操作环境特征，操作环境特征包括验证所使用的终端设备型号、操作系统及版本、操作系统语言、网络环境、时间中的至少一项。

其中，终端设备型号包括终端设备的类型以及具体型号等信息，例如进行验证的终端设备的类型可以是手机、电脑或者固定于银行营业点的大型终端设备，具体型号可以是某些品牌的具体产品型号；操作系统则可以包括安卓Android、iOS或者Symbian等手机操作系统，或者可以包括windows、UNIX、linux等电脑操作系统；操作系统语言则可以包括汇编语言、C/C++、java、Python、JavaScript等；网络环境，则可以包括网络类型以及网络带宽等信息，例如网络类型可以包括wifi网络、移动通信3G、4G或5G网络、窄带物联网(NarrowBand Internet of Things,NB-IoT)等；时间可以精确到小时或者分钟，或者精确到某个星期，时间可以从时间维度反映导致产品异常的原因所在，例如，假设某产品集中在某一天内的指标异常，则将时间锁定在这一天进行故障原因追踪，难度会大幅降低。

确定了数据来源后，基于上述数据，从中提取出特征项，例如，从人脸图像中提取出人种信息，识别为黄色人种则用001表示，黑色人种用010表示，而白色人种用100表示等等。

对于地址信息，地址信息在一个实施例中可以归纳为身份数据对应的特征项，该身份数据的获取方式可以是针对证件图像进行文字识别而获取或者从其他途径获取。在另一个实施例中，也可以将地址信息作为图像数据对应的特征项。地址信息主要涉及地址类型信息，或者所属地区信息，例如，地址类型为城市用001表示，地址类型为乡村，则采用010表示；或者，地址类型为一线城市则采用001表示，二线城市010表示，三线城市100表示等等；或者不同的省、直辖市用不同的编码表示，或者对应于不同的国家或地区或者城市，进行编码，例如对于100个目标地区，则可以按照地址所属区域进行编码，例如可采用one-hot编码即独热编码方式进行编码，获得证件中地址对应的独热编码信息。依此，可以将各种身份数据或者图像数据转换为相应的编码组成特征向量，作为图像数据或身份数据对应的特征项。

而对于环境数据，则也可以将不同类型的终端设备依据设备型号分别进行编码，手机用001表示，电脑用010表示，大型固定终端机用100表示等等，而具体的型号则可以拼接在类型编码后，例如某品牌手机型号mate***为00001，P20***为00010等等；依此，还可以获得网络环境、操作系统及其语言等等各项环境特征数据的特征向量，作为对应于环境数据的特征项。

获得上述特征项后，接下来，在S204中，获取第一用户使用第一产品进行身份验证的验证结果。用户的验证结果以第一用户的用户ID作为key。

在本说明书实施例中，将公用云环境下的通过第一产品进行身份验证的用户定义为第一用户，而将私有云环境下通过第二产品进行身份验证的用户定义为第二用户，仅为便于描述，不可理解为对用户特征的区别化限定。

接下来，在S206中，基于上述特征项形成样本特征。获得上述多个特征项之后，可以按照如下方式获得样本特征：

方式一：将对应于身份数据的特征项的特征向量拼接为有关身份的样本特征，将对应于环境数据的特征项的特征向量拼接为一个有关环境的样本特征，而对应于图像数据也的特征项的特征向量拼接为一个有关图像的样本特征，如此，获得三类样本特征，以第一用户的用户ID作为key，进行标记，即标记各个样本特征所分别对应的用户，该方式下，一个用户对应于三个样本特征。

例如，基于身份数据提取出性别、地址、年龄三个特征项，可以将这个三个特征项拼接为身份数据对应的样本特征。性别女则用1表示，性别男用0表示，地址位于一线城市用01表示，位于乡村则用10表示，其他地区用11表示，年龄划分为10个年龄段，20-30岁用0010表示，50-60岁用0100表示等等，假设某用户U1为一50岁常住一线城市的男子，其对应的与身份数据相关的样本特征即为[0,01,0100]。同样地，可基于图像数据以及环境数据提取出特征项，并且将相应类别的特征项分别进行拼接，获得用户U1对应的三个样本特征。

方式二：将对应于同一用户的特征项进行特征交叉，获得衍生特征，将获得的衍生特征作为样本特征；或者将上述方式一得到的分别与身份、图像、环境有关的三类样本特征再次进行特征组合或者特征交叉，交叉后的组合特征作为样本特征，同样以用户ID作为key。

即，将多个特征项按照指定顺序进行特征交叉，或者先将特征项按照所对应的数据类别，分别拼接为该类别的样本特征，一个类别对应一个类别样本特征，然后对多个类别样本特征再进行简单的拼接或者做特征交叉，以作为该用户的样本特征。

例如，假设验证流程包含人脸验证和证件扫描，获得的人脸图像中提取出信息：该用户U1通过为黄种人(001)，佩戴有耳环(01)，证件的图像摆放角度的倾斜度超过30°(010)，则图像数据对应的样本特征为[001,01,010]；而该用户U1进行验证时所处的网络环境为wifi(001)，带宽为200M(010)，使用的设备为手机(001)，型号为**品牌***型号(01010001)，那么环境数据对应的样本特征即为[001,010,001,01010001]。将三类特征可以进行简单的拼接，获得一个综合的样本特征为[身份样本特征，图像样本特征，环境样本特征]，对应于上述示例，则为[0,01,0100，001,01,010，001,010,001,01010001]。或者，对这三类特征做特征交叉，例如笛卡尔积算法，获得多个特征项的各种组合特征之后将其作为该用户U1对应的样本特征，或者将特征交叉后的各种组合特征再拼接为一个综合的总的样本特征，这样一个用户对应于一个样本特征。

对于图像类原始数据，基于图像提取相应的特征项，可以采用具有图处理能力的神经网络，例如卷积神经网络CNN(Convolutional Neural Networks,CNN)，以人脸图像或者证件图像为样本特征，以实际的待提取信息为标签，对图像进行标注，标注后的图像作为训练样本，对卷积神经网络进行训练，例如，以人种信息为标签，对人脸图像进行标注，然后对卷积神经网络模型进行训练，训练后的卷积神经网络模型可以针对各个待测的人脸图像输出相应的人种信息。还可以采用其他具有图处理能力的神经网络模型，例如GNN(GraphNeural Networks，图神经网络)等。

接下来，在获得了样本特征和验证结果后，基于用户ID，将对应于同一用户ID的验证结果作为相应样本特征的样本标签，从而形成训练样本。

其中，本说明书实施例中，验证结果为与验证指标相对应的数据项，验证指标可以包括验证通过率，验证耗时，刷脸成功率，证件扫描成功率、验证准确率中的任意一项或多项，则验证结果可以对应为验证是否通过，验证耗时，刷脸是否成功，证件扫描是否成功等结果中的任意一种或多种，例如确定验证通过率和验证耗时为验证指标，那么相应的验证结果即为验证通过或验证未通过，以及实际的验证时长，例如，某个第一用户的验证结果为通过(01)，耗时3s(011)，则对应的验证结果为[01，011]。

接下来，在S208中，利用多个训练样本训练预测模型。

在本说明书实施例中，预测模型可以为逻辑回归LR模型、支持向量机SVM模型、决策树模型、梯度提升迭代决策树GBDT模型、有监督的神经网络模型中的任意一种。

以LR(Logistic Regression，逻辑回归)模型为例，选择sigmoid函数作为映射函数，LR模型的表达式可以为：

其中，x即为样本特征，θ^T为参数矩阵的转置，首先初始化参数矩阵θ，然后将上述获得的样本特征的特征向量x作为自变量，输入上述模型，计算h_θ(x)，h_θ(x)表示当前样本特征x被验证通过的概率的输出值，基于预设的损失函数，计算该输出值与实际的验证结果之间的损失值，根据计算得到的损失值，采用梯度下降法，不断调整并优化参数矩阵θ，直至损失值低于预定值，说明模型收敛，则训练完成，获得训练后的LR模型。

再例如，当采用决策树模型时，通过多种训练方式(例如梯度提升，XGboost等)基于上述训练样本形成至少一棵决策树，每棵决策树包括根节点，枝干节点和叶子节点，其中根节点对应于全部训练样本，一个枝干节点对应于上述多个特征项中的一个特征项以及该特征项在该枝干节点处的分裂特征值。通过各个枝干节点的特征项和分裂特征值，各个训练样本最终被划归到叶子节点中。如此形成的至少一棵决策树构成决策树模型。

本说明书实施例中，各种有监督学习的模型均可以作为预测模型，不仅限于上述示例。

其中，采用回归模型作为预测模型时，损失函数可以为回归模型对应的多种损失函数中的任意一种，例如，均方误差、平均绝对误差、平滑平均绝对误差(即Huber损失)以及Log-Cosh损失等等；采用有监督的神经网络模型作为预测模型时，则损失函数可以为交叉熵损失函数(Cross Entropy Loss)、负对数似然损失函数(NLLLoss)等等中的任意一种。

训练后的预测模型将用于部署到私有云环境中，以预测私有云环境中的第二产品对应的至少一个验证指标的指标值。

下面详细阐述，在私有云环境下，如何基于预测模型来预测第二产品的验证指标。

参阅图1以及图3所示，第二方面，本说明书实施例还提供一种产品指标预测方法，该方法在私有云环境下执行，该方法可以包括：

S302，获取多个第二用户在使用第二产品进行身份验证时各自对应的多个输入特征；S304，获取共有云环境下训练得到的预测模型(即上述实施例训练得到的预测模型)；S306，将多个第二用户各自对应的多个特征项分别输入预测模型，以预测多个第二用户使用第二产品进行身份验证的多个验证结果，验证结果包括与至少一个验证指标对应的数据项；S308，基于多个验证结果，获得第二产品对应的至少一个验证指标的指标值。

在S302中，第二产品部署在私有云环境中，输入特征包括对身份验证结果有影响的多个因素对应的多个特征项。

其中，输入特征为与公有云环境下的样本特征维度相同的特征向量，具体特征项的获取以及输入特征的获取方式可以参照公有云环境下的方法，此处不再赘述。

参阅图4所示，私有云环境下，在S306中，将获得的各个第二用户对应的输入特征，输入预测模型，获得各个第二用户的输入特征对应的验证结果的预测值。

在S308中，作为一种可实施方式，可以对预测模型输出的多个验证结果，统计通过所占比例，作为验证指标。例如，针对用户U1的输入特征，预测模型输出的验证结果为0.95，即该用户U1通过验证的概率为0.95。统计时，可以以0.5作为边界线，预测模型输出的概率值超过0.5的，则归纳为验证通过，预测模型输出的概率值低于或者等于0.5的，则归纳为未验证通过。例如本次预测涉及1000名第二用户，其中有850人的预测结果为验证通过，有150人的验证结果为未通过，那么基于多个验证结果，获得的验证通过率这一指标的预测值即为850/1000＝0.85。

接下来，在一个实施例中，获取第二产品对应的至少一个验证指标的实际值，该实际值基于多个第二用户使用第二产品进行身份验证的实际验证结果获得。然后，计算该实际值与该指标值之间的损失值，如果损失值超过预定范围，则判定相应的验证指标存在异常，将对应的用户输入特征判定为异常特征。

具体地，基于实际值与模型预测出的指标值之间的差异，判定相应的指标是否异常的方式有多种，例如基于正态分布(Normal distribution)的3σ法、t检验法(也可称为student t检验，Student's t test)，KS检验法(Kolmogorov-Smirnov test)等等，各种用于表示两个数据对象之间的差异程度的函数，都可用于计算实际值与预测模型预测出的指标值之间的损失值。

例如，采用3σ法时，将私有云环境中的特征输入预测模型中计算出预测的指标值和标准差，并和实际指标进行对比，如果实际指标超过预测指标的3倍标准差之外范围，则认为实际指标存在异常，或者在另一个实施例中，当实际指标超过预测指标的2倍标准差之外范围，就认为实际指标存在异常，记录该指标对应的特征为异常特征。具体地，在一个实施例中，预测指标和实际指标可以为数组或者向量形式，根据获得的多个第二用户的实际验证结果，假设记录1000个第二用户的预测结果(即预测的验证结果)为[0.65,0.55,0.12……0.02]，获取这1000个第二用户的实际验证结果为[0,1,0,……1]，计算出的预测指标的标准差为σ，而实际指标的标准差超过3σ，那么说明该实际指标存在异常，相应的输入特征即为异常特征。

或者，在一个实施例中，确定某个指标存在异常之后，可以将本次预测所涉及到的全部用户对应的输入特征均作为异常特征；在另一个实施例中，确定某个指标存在异常之后，基于第二用户的用户ID，将对应于同一第二用户的验证结果预测值(即预测模型输出的验证结果值)，与验证结果实际值(即实际验证结果)进行比较，一致的则放弃，不一致的则作为异常特征。其中，需要说明的是，前面已经提及，预测输出的验证结果一般为概率值，例如0.1、0.95、0.8等等，作比较时，应按照预定的边界值(例如0.5)进行分类后，与实际验证结果(非0即1)去比较，例如实际验证结果中，1表示验证通过，0表示未通过，那么将预测模型输出的概率值，超过0.5的设为1，低于0.5的设为0，预测与实际均为1，或者均为0，则认为一致，预测与实际不一致，则将该第二用户对应的输入特征作为异常特征。

在另一个实施例中，以验证准确率作为验证指标，还可以先分别对比验证结果，然后统计预测出的验证结果与实际的验证结果相比较不一致的用户数目占本次预测总用户数目的比例，作为第二产品的验证指标值。例如，以用户ID作为key，将1000个预测出的验证结果与1000个实际的验证结果分别一一对比，假设其中有550个用户的比较结果是一致的，而有450个用户的比较结果不一致，那么一致的占比55％可以作为验证准确率，假设预设的正常情形下验证误差范围为±5％，而55％远低于95％，那么说明当前第二产品的该项指标存在异常。并且，将实际与预测的比较结果不一致的第二用户的输入特征确定为异常特征。

由此获得一批异常特征。从异常特征中可以看到哪种环境、人脸或身份信息的组合造成了指标的异常，这批特征组合可以做为该方案的第一批输出，然后针对这些异常特征具体分析导致产品指标异常的原因。

如果异常特征过多，信息量较大难以人工分析时，则针对异常特征执行聚类分析，获得至少一个类别的异常特征。例如则当异常特征的数目超过预定数目时，则开始执行聚类分析，预定数目可以取值500-1000。例如，超过500个异常特征，则开始进行聚类分析。执行聚类分析可以采用的聚类算法可以为K-Means、GMM等，输出聚类类别，然后从获得每个聚类类别或者簇中，筛选出少量异常特征作为样本，针对性地进行分析，确定异常原因，例如可以进行真机测试、实地验证等。

第三方面，本说明书实施例还提供一种基于用户隐私保护训练指标预测模型的装置500，该装置在公有云环境下运行，可以包括：

第一获取单元5001，被配置为获取第一用户在使用第一产品进行身份验证时对应的多个特征项，其中，所述第一产品部署在公有云环境中，所述多个特征项对应于对身份验证结果有影响的多个因素；

第二获取单元5002，被配置为获取所述第一用户使用所述第一产品进行身份验证的验证结果，所述验证结果包括与至少一个验证指标对应的数据项；

标注单元5003，被配置为基于所述多个特征项形成样本特征，将所述验证结果作为样本标签，从而形成训练样本；

训练单元5004，被配置为利用多个训练样本训练预测模型，训练后的所述预测模型用于部署到私有云环境中，以预测私有云环境中的第二产品对应的所述至少一个验证指标的指标值。

可选的，当第一产品的验证流程包括人脸验证时，第一获取单元，被具体配置为：获取第一用户用于人脸验证的人脸图像的第一附加特征，归入多个特征项。第一附加特征具体参见方法部分的实施例，此处不再赘述。

可选的，当第一产品的验证流程包括证件扫描时，第一获取单元，被具体配置为：获取第一用户用于证件扫描的证件图像的第二附加特征，归入多个特征项，第二附加特征具体参见方法部分的实施例，此处不再赘述。

可选的，多个特征项还包括身份附加特征，身份附加特征包括以下中的至少一项：地址、性别、职业、年龄、身高。以及，在一个实施例中，多个特征项还包括，第一用户在使用第一产品进行身份验证时的操作环境特征，操作环境特征具体参见方法部分的实施例，此处不再赘述。

可选的，标注单元，被具体配置为：将多个特征项中的若干特征项进行特征交叉，形成衍生特征；将多个特征项和/或衍生特征作为对应的样本特征。

可选的，本说明书实施例中，至少一个验证指标包括以下中的至少一项：验证通过率，验证耗时，刷脸成功率，证件扫描成功率、验证准确率。

可选的，本说明书实施例中，预测模型为逻辑回归LR模型、支持向量机SVM模型、决策树模型、梯度提升迭代决策树GBDT模型、有监督的神经网络模型中的任意一种。

第四方面，本说明书实施例还提供一种产品指标预测装置600，该装置在私有云环境下运行，包括：

第三获取单元6001，被配置为获取多个第二用户在使用第二产品进行身份验证时各自对应的多个用户输入特征，其中，第二产品部署在私有云环境中，输入特征包括对身份验证结果有影响的多个因素的多个特征项；

第四获取单元6002，被配置为获取如权利要求12-19任一项装置训练得到的预测模型；

预测单元6003，被配置为将多个第二用户各自对应的多个特征项分别输入预测模型，以预测多个第二用户使用第二产品进行身份验证的多个验证结果，验证结果包括与至少一个验证指标对应的数据项；

计算单元6004，被配置为基于多个验证结果，获得第二产品对应的至少一个验证指标的指标值。

可选的，该装置还包括判定单元6005，判定单元6005被配置为：获取第二产品对应的至少一个验证指标的实际值，实际值基于多个第二用户使用第二产品进行身份验证的实际验证结果获得；计算实际值与指标值之间的损失值，如果损失值超过预定范围，则判定相应的验证指标存在异常，将对应的用户输入特征判定为异常特征。

可选的，该装置还包括聚类单元6006，聚类单元6006被配置为：异常特征的数目超过预定数目时，针对异常特征执行聚类分析，获得至少一个类别的异常特征。

如上，根据再一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述任一实施例所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述任一实施例所描述的方法。

综上，本说明书实施例提供的方法，克服了现有技术中私有云中的数据无法和其他云环境部署的同类产品进行横向对比的技术缺陷，本说明书实施例提供的方法不需要私有云环境下的隐私数据出境也能实现对私有云环境下的第二产品进行指标检测，发现异常指标，即，该方法能够在隐私合规的前提下，对私有化部署的产品进行指标评估，发现产品的指标异常点，达到优化私有化部署产品用户体验的目的。

该方法普适性更强，使用范围更广，不仅可以应用于EKYC产品中，还可以适用于其他流程类和算法类产品。该方法整体流程使用了业界成熟算法，这些算法已经有多年优化方案，相对多方安全计算方案性能更占优势，且整个流程透明易懂，易于B端客户理解，维护性较好，在匿名保护的前提下实现私有化环境中产品指标的异常检测，无需交换用户隐私数据即可横向比对私有化环境和公有云环境中产品的指标差异，发现异常指标，并针对性的进行产品优化。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书披露的多个实施例的具体实施方式而已，并不用于限定本说明书披露的多个实施例的保护范围，凡在本说明书披露的多个实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书披露的多个实施例的保护范围之内。

Claims

1.一种基于用户隐私保护训练指标预测模型的方法，所述方法在公有云环境下执行，所述方法包括：

获取第一用户在使用第一产品进行身份验证时对应的多个特征项，其中，所述第一产品部署在公有云环境中，所述多个特征项对应于对身份验证结果有影响的多个因素；

获取所述第一用户使用所述第一产品进行身份验证的验证结果，所述验证结果包括与至少一个验证指标对应的数据项；

基于所述多个特征项形成样本特征，将所述验证结果作为样本标签，从而形成训练样本；

利用多个训练样本训练预测模型，训练后的所述预测模型用于部署到私有云环境中，以预测私有云环境中的第二产品对应的所述至少一个验证指标的指标值，将预测的指标值与所述私有云环境中的所述第二产品对应的所述至少一个验证指标的实际指标值进行对比，从而判断私有云环境下的所述第二产品指标是否异常。

2.根据权利要求1所述的方法，其中，所述第一产品的验证流程包括人脸验证；所述获取第一用户在使用第一产品进行身份验证时对应的多个特征项，包括：

获取所述第一用户用于人脸验证的人脸图像的第一附加特征，归入所述多个特征项，所述第一附加特征包括以下中的至少一项：人脸背景、人种、配饰、发型、发色。

3.根据权利要求1所述的方法，其中，所述第一产品的验证流程包括证件扫描；所述获取第一用户在使用第一产品进行身份验证时对应的多个特征项，包括：

获取所述第一用户用于证件扫描的证件图像的第二附加特征，归入所述多个特征项，所述第二附加特征包括以下中的至少一项：证件背景、证件类型、证件摆放角度。

4.根据权利要求1-3任一项所述的方法，其中，所述多个特征项还包括身份附加特征，所述身份附加特征包括以下中的至少一项：地址、性别、职业、年龄、身高。

5.根据权利要求1-3任一项所述的方法，其中，所述多个特征项还包括，所述第一用户在使用第一产品进行身份验证时的操作环境特征，所述操作环境特征包括以下中的至少一项：验证所使用的终端设备型号、操作系统及版本、操作系统语言、网络环境、时间。

6.根据权利要求1所述的方法，其中，基于所述多个特征项形成样本特征，包括：

将所述多个特征项中的若干特征项进行特征交叉，形成衍生特征；

将所述多个特征项和/或所述衍生特征作为对应的样本特征。

7.根据权利要求1所述的方法，其中，所述至少一个验证指标包括以下中的至少一项：验证通过率，验证耗时，刷脸成功率，证件扫描成功率、验证准确率。

8.根据权利要求1所述的方法，其中，所述预测模型为逻辑回归LR模型、支持向量机SVM模型、决策树模型、梯度提升迭代决策树GBDT模型、有监督的神经网络模型中的任意一种。

9.一种产品指标预测方法，所述方法在私有云环境下执行，所述方法包括：

获取多个第二用户在使用第二产品进行身份验证时分别对应的多个输入特征，其中，所述第二产品部署在私有云环境中，所述输入特征包括对身份验证结果有影响的多个因素对应的多个特征项；

获取如权利要求1-8任一项方法训练得到的预测模型；

将所述多个第二用户分别对应的多个输入特征分别输入所述预测模型，以预测所述多个第二用户使用所述第二产品进行身份验证的多个验证结果，所述验证结果包括与至少一个验证指标对应的数据项；

基于多个所述验证结果，获得所述第二产品对应的所述至少一个验证指标的指标值。

10.根据权利要求9所述的方法，其中，基于多个所述验证结果，获得所述第二产品对应的所述至少一个验证指标的指标值之后，还包括：

获取所述第二产品对应的所述至少一个验证指标的实际值，所述实际值基于所述多个第二用户使用所述第二产品进行身份验证的实际验证结果获得；

计算所述实际值与所述指标值之间的损失值，如果所述损失值超过预定范围，则判定相应的验证指标存在异常，将对应的用户输入特征判定为异常特征。

11.根据权利要求10所述的方法，其中，将对应的用户输入特征判定为异常特征之后，还包括：

所述异常特征的数目超过预定数目时，针对所述异常特征执行聚类分析，获得至少一个类别的异常特征。

12.一种基于用户隐私保护训练指标预测模型的装置，所述装置在公有云环境下运行，所述装置包括：

第一获取单元，被配置为获取第一用户在使用第一产品进行身份验证时对应的多个特征项，其中，所述第一产品部署在公有云环境中，所述多个特征项对应于对身份验证结果有影响的多个因素；

第二获取单元，被配置为获取所述第一用户使用所述第一产品进行身份验证的验证结果，所述验证结果包括与至少一个验证指标对应的数据项；

标注单元，被配置为基于所述多个特征项形成样本特征，将所述验证结果作为样本标签，从而形成训练样本；

训练单元，被配置为利用多个训练样本训练预测模型，训练后的所述预测模型用于部署到私有云环境中，以预测私有云环境中的第二产品对应的所述至少一个验证指标的指标值，将预测的指标值与所述私有云环境中的所述第二产品对应的所述至少一个验证指标的实际指标值进行对比，从而判断私有云环境下的所述第二产品指标是否异常。

13.根据权利要求12所述的装置，其中，所述第一产品的验证流程包括人脸验证；所述第一获取单元，被具体配置为：

14.根据权利要求12所述的装置，其中，所述第一产品的验证流程包括证件扫描；所述第一获取单元，被具体配置为：

15.根据权利要求12-14任一项所述的装置，其中，所述多个特征项还包括身份附加特征，所述身份附加特征包括以下中的至少一项：地址、性别、职业、年龄、身高。

16.根据权利要求12-14任一项所述的装置，其中，所述多个特征项还包括，所述第一用户在使用第一产品进行身份验证时的操作环境特征，所述操作环境特征包括以下中的至少一项：验证所使用的终端设备型号、操作系统及版本、操作系统语言、网络环境、时间。

17.根据权利要求12所述的装置，其中，所述标注单元，被具体配置为：

将所述多个特征项和/或所述衍生特征作为对应的样本特征。

18.根据权利要求12所述的装置，其中，所述至少一个验证指标包括以下中的至少一项：验证通过率，验证耗时，刷脸成功率，证件扫描成功率、验证准确率。

19.根据权利要求12所述的装置，其中，所述预测模型为逻辑回归LR模型、支持向量机SVM模型、决策树模型、梯度提升迭代决策树GBDT模型、有监督的神经网络模型中的任意一种。

20.一种产品指标预测装置，所述装置在私有云环境下运行，所述装置包括：

第三获取单元，被配置为获取多个第二用户在使用第二产品进行身份验证时分别对应的多个输入特征，其中，所述第二产品部署在私有云环境中，所述输入特征包括对身份验证结果有影响的多个因素对应的多个特征项；

第四获取单元，被配置为获取如权利要求12-19任一项装置训练得到的预测模型；

预测单元，被配置为将所述多个第二用户分别对应的多个输入特征分别输入所述预测模型，以预测所述多个第二用户使用所述第二产品进行身份验证的多个验证结果，所述验证结果包括与至少一个验证指标对应的数据项；

计算单元，被配置为基于多个所述验证结果，获得所述第二产品对应的所述至少一个验证指标的指标值。

21.根据权利要求20所述的装置，其中，所述装置还包括判定单元，所述判定单元被配置为：

22.根据权利要求21所述的装置，其中，所述装置还包括聚类单元，所述聚类单元被配置为：

23.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-11中任一项的所述的方法。

24.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-11中任一项所述的方法。