CN116011640A

CN116011640A - 基于用户行为数据的风险预测方法及装置

Info

Publication number: CN116011640A
Application number: CN202211733704.0A
Authority: CN
Inventors: 赵慧; 毋涛
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-04-25

Abstract

本发明属于计算机技术领域，具体涉及一种基于用户行为数据的风险预测方法及装置，用以提升预测准确性。该方法包括：获取目标用户的用户行为数据；其中，用户行为数据中包含多个维度的认证特征数据；根据多个维度的认证特征数据之间的关联关系，将至少两个维度的认证特征数据组合为关联特征数据；将多个维度的认证特征数据以及关联特征数据输入第一监督预测模型,获取第一监督预测模型输出的第一预测结果；将多个维度的认证特征数据以及所述关联特征数据输入第二监督预测模型,获取所述第二监督预测模型输出的第二预测结果；针对第一预测结果以及第二预测结果进行融合处理，得到融合预测结果，根据融合预测结果预测用户的行为风险等级。

Description

基于用户行为数据的风险预测方法及装置

技术领域

本发明属于计算机技术领域，具体涉及一种基于用户行为数据的风险预测方法及装置。

背景技术

目前，从国家到企业，安全和效率变得越来越受到重视，安全领域中的身份管理更是每个人每天都要面对的。身份管理使用的安全防护手段包括常用的扫描二维码验证、指纹识别验证、动态人脸识别验证、身份证手机号码验证、输入字母数字等口令验证等。由此可见，现有的验证方式非常多，之所以会出现这么多方式，一方面是因为每一种验证方式和所需场景在适配的过程中都存在着“道高一尺魔高一丈”的情况，技术不断被破防；二是验证方法本身有不完善的地方，比如口令强度高了可能用户记不住，口令强度低了又很容易被破解。比如，在人脸识别领域，如果采用摇头晃脑的活体检测方式将导致用户体验差，但如果静态检测又会使假照片视频等蒙混过关。总之，在验证过程中，用户体验、安全性、成本这三者往往无法兼顾。

为了解决上述问题，目前出现了用户画像等行为分析技术，一方面在不干扰用户的前提下提升用户体验，一方面提升身份鉴别的安全准确性。目前业界最落地可行的方法是基于用户行为的规则分析，但是，这种方法的局限性在于：该方法是基于经验的，也就是说，一方面会根据用户的行为进行匹配，生搬硬套，有的用户可能没有安全威胁也被判定为有安全威胁。另一方面，随着各种破防手段的层出不穷，基于经验的规则不能灵活适应新的安全威胁。

由此可见，传统的基于用户画像等行为分析的风险识别方式存在着准确性低的弊端。

发明内容

本发明提出了一种基于用户行为数据的风险预测方法及装置，用以解决传统的基于用户画像等行为分析的风险识别方式所存在的准确性低的问题。

第一方面，本公开提供了一种基于用户行为数据的风险预测方法，包括：

获取目标用户的用户行为数据；其中，所述用户行为数据中包含多个维度的认证特征数据；

根据多个维度的认证特征数据之间的关联关系，将至少两个维度的认证特征数据组合为关联特征数据；

将所述多个维度的认证特征数据以及所述关联特征数据输入第一监督预测模型,获取所述第一监督预测模型输出的第一预测结果；

将所述多个维度的认证特征数据以及所述关联特征数据输入第二监督预测模型,获取所述第二监督预测模型输出的第二预测结果；

针对所述第一预测结果以及所述第二预测结果进行融合处理，得到融合预测结果，根据所述融合预测结果预测所述目标用户的行为风险等级。

第二方面，本公开提供了一种基于用户行为数据的风险预测装置，包括：

数据获取模块，适于获取目标用户的用户行为数据；其中，所述用户行为数据中包含多个维度的认证特征数据；

组合模块，适于根据多个维度的认证特征数据之间的关联关系，将至少两个维度的认证特征数据组合为关联特征数据；

第一结果获取模块，适于将所述多个维度的认证特征数据以及所述关联特征数据输入第一监督预测模型,获取所述第一监督预测模型输出的第一预测结果；

第二结果获取模块，适于将所述多个维度的认证特征数据以及所述关联特征数据输入第二监督预测模型,获取所述第二监督预测模型输出的第二预测结果；

融合预测模块，适于针对所述第一预测结果以及所述第二预测结果进行融合处理，得到融合预测结果，根据所述融合预测结果预测所述目标用户的行为风险等级。

第三方面，本公开提供了一种电子设备，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，一个或多个所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述的基于用户行为数据的风险预测方法。

第四方面，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现如上述的基于用户行为数据的风险预测方法。

根据本发明提出的一种基于用户行为数据的风险预测方法及装置，能够根据多个维度的认证特征数据之间的关联关系，将至少两个维度的认证特征数据组合为关联特征数据，由于关联特征数据包含至少两个相关性较大的认证特征数据，因此，能够强化认证特征数据之间的关联关系，进而更加准确的描述用户的行为特征，以便提升后续的预测准确性。另外，该方式采用第一监督预测模型以及第二监督预测模型相结合的方式，通过融合第一监督预测模型输出的第一预测结果以及所述第二监督预测模型输出的第二预测结果，能够提升最终的融合预测结果的准确性和全面性，从而进一步提升风险预测的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例一提供的一种基于用户行为数据的风险预测方法的流程图。

图2示出了一个具体示例的基于用户行为数据的风险预测方法的流程示意图。

图3示出了本发明实施例二提供的一种基于用户行为数据的风险预测装置的示意图。

图4示出了本发明实施例三提供的一种电子设备的结构示意图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在不冲突的情况下，本公开各实施例及实施例中的各特征可相互组合。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

实施例一

图1示出了本发明实施例一提供的一种基于用户行为数据的风险预测方法的流程图，参照图1，该方法包括：

步骤S110：获取目标用户的用户行为数据；其中，用户行为数据中包含多个维度的认证特征数据。

其中，目标用户是指待评估其行为风险等级的用户。用户行为数据用于表征目标用户的操作行为，具体包括：登录类操作行为、浏览类操作行为、点击类操作行为等多种类型。相应的，登录类操作行为对应于登录维度的认证特征数据，浏览类操作行为对应于浏览维度的认证特征数据，点击类操作行为对应于点击维度的认证特征数据。由此可见，用户行为数据中包含多个维度的认证特征数据，每个维度的认证特征数据用于从一个具体的角度描述一类与用户认证相关的行为特征。

例如，在一个具体示例中，需要获取用户认证行为数据(即用户行为数据)，具体包括：认证时间、用户名、IP地址、地点、浏览器版本号、浏览器类型等。可选的，还可以进一步获取认证风险数据，具体包括：IP威胁级别、风险标识等。认证风险数据用于对该用户的风险情况进行预估。

步骤S120：根据多个维度的认证特征数据之间的关联关系，将至少两个维度的认证特征数据组合为关联特征数据。

发明人在实现本发明的过程中发现，若仅仅使用相互孤立的多个维度的认证特征数据，通常难以反映出多个认证特征数据之间的相互关联以及相互作用关系，进而导致输入模型的特征数据不够全面准确。为了解决上述问题，在本实施例中，进一步挖掘多个维度的认证特征数据之间的关联关系，从而将关联紧密的认证特征数据组合为一个整体性的关联特征数据，以便全面而准确的反映特征数据的特点。其中，多个维度的认证特征数据之间的关联关系用于反映两个或更多个认证特征数据之间的联系紧密度，相应的，针对联系紧密度较高的认证特征数据进行组合，得到关联特征数据，从而通过关联特征数据全面描述用户行为特征。

在一种可选的实现方式中，根据多个维度的认证特征数据之间的关联关系，将至少两个维度的认证特征数据组合为关联特征数据时，通过以下方式实现：首先，计算任意两个维度的认证特征数据之间的皮尔逊相关系数；其中，皮尔逊相关系数用于表征任意两个维度的认证特征数据之间的相关性大小。例如，皮尔逊相关系数越大，说明对应的两个维度的认证特征数据之间越相关；反之，则说明对应的两个维度的认证特征数据之间越不相关。然后，将皮尔逊相关系数大于预设阈值的两个维度的认证特征数据组合为关联特征数据。由此可见，该方式能够基于特征相关性构造出新特征(即关联特征数据)。具体的，可以使用皮尔逊相关系数来构建各个特征的相关系数矩阵，从而将相关性强的特征组合为新的强特征。由此可见，关联特征数据也可以称作强化关联特征数据，用于将两个原本独立的认证特征数据组合为一个相互关联的整体性特征数据。

在一种可选的实现方式中，皮尔逊相关系数大于预设阈值的两个维度的认证特征数据包括：认证登录维度的认证特征数据以及登录时间维度的认证特征数据；且关联特征数据包括：认证登录序列数据；相应的，在将皮尔逊相关系数大于预设阈值的两个维度的认证特征数据组合为关联特征数据时，具体将认证登录维度的认证特征数据以及登录时间维度的认证特征数据组合为认证登录序列数据；其中，认证登录序列数据用于表征同一用户的多次认证登录操作之间的时间间隔。具体的，可以构造用户登录序列作为认证登录序列数据。由于风险认证和时间之间往往具有非常强的关联关系，因此，在本实施例中，通过对当前用户的当次验证加入历史特征，可以得到针对当前用户的认证登录时间序列，基于认证登录时间序列可以得到用户登录的时间间隔特征，比如，平均间隔时间、间隔登录时间中位数等特征信息，从而全面反映用户登录时间方面的特点。

步骤S130：将多个维度的认证特征数据以及关联特征数据输入第一监督预测模型,获取第一监督预测模型输出的第一预测结果。

其中，多个维度的认证特征数据以及关联特征数据共同作为目标用户的用户行为特征数据，在本实施例中，将多个维度的认证特征数据以及关联特征数据分别输入第一监督预测模型以及第二监督预测模型，以便分别通过第一监督预测模型以及第二监督预测模型进行风险预测。

其中，第一监督预测模型以及第二监督预测模型可以采用不同种类的模型实现。并且，第一监督预测模型以及第二监督预测模型都用于根据输入的特征数据进行风险预测处理。因此，借助第一监督预测模型以及第二监督预测模型，能够提升预测的准确性和全面性。

其中，在一种可选的实现方式中，第一监督预测模型为XGB模型，且第一监督预测模型进一步包括：第一XGB模型以及第二XGB模型；则第一监督预测模型输出的第一预测结果通过以下方式得到：针对第一XGB模型输出的第一XGB预测结果以及第二XGB模型输出的第二XGB预测结果进行特征融合处理，得到第一监督预测模型输出的第一预测结果。

步骤S140：将多个维度的认证特征数据以及关联特征数据输入第二监督预测模型,获取第二监督预测模型输出的第二预测结果。

在一种可选的实现方式中，第二监督预测模型为LGB模型，且第二监督预测模型进一步包括：第一LGB模型以及第二LGB模型；则第二监督预测模型输出的第二预测结果通过以下方式得到：针对第一LGB模型输出的第一LGB预测结果以及第二LGB模型输出的第二LGB预测结果进行加权融合处理，得到第二监督预测模型输出的第二预测结果。

其中，为了提升各个模型的准确度，进一步通过随机网格参数调优的方式优化各个模型的参数。相应的，第一XGB模型、第二XGB模型、第一LGB模型和/或第二LGB模型中的模型参数通过以下方式设置：首先，通过随机撒种子参数，得到第一参数范围组；然后，使用弹性系数，对第一参数范围组的取值范围进行限缩，得到第二参数范围组；其中，第二参数范围组的参数范围小于第一参数范围组的参数范围；最后，在第二参数范围组的参数范围内，选择一组参数作为模型参数。通过上述方式，能够优化各个模型的模型参数，提升预测准确度。

步骤S150：针对第一预测结果以及第二预测结果进行融合处理，得到融合预测结果，根据融合预测结果预测目标用户的行为风险等级。

具体的，将第一预测结果以及第二预测结果相互融合，得到融合预测结果，从而根据融合预测结果预测目标用户的行为风险等级。由于融合预测结果是根据第一预测结果以及第二预测结果共同确定的，因此，能够兼顾两种模型的优势，从而提升预测的准确度。

可选的，第一监督预测模型以及第二监督预测模型可以通过样本用户的用户行为数据以及样本用户的认证风险数据训练得到；其中，样本用户的认证风险数据用于表征样本用户的用户行为数据的风险等级。

由此可见，在本实施例中，能够根据多个维度的认证特征数据之间的关联关系，将至少两个维度的认证特征数据组合为关联特征数据，由于关联特征数据包含至少两个相关性较大的认证特征数据，因此，能够强化认证特征数据之间的关联关系，进而更加准确的描述用户的行为特征，以便提升后续的预测准确性。另外，该方式采用第一监督预测模型以及第二监督预测模型相结合的方式，通过融合第一监督预测模型输出的第一预测结果以及所述第二监督预测模型输出的第二预测结果，能够提升最终的融合预测结果的准确性和全面性，从而进一步提升风险预测的准确性。

为了便于理解，图2示出了一个具体示例的流程示意图。如图2所示，该风险预测方法具体包括以下步骤：

步骤一：获取数据。

具体的，获取用户认证行为数据，包括认证时间、用户名、IP地址、地点、浏览器版本号、浏览器类型等。另外，还可以获取认证风险数据，包括：IP威胁级别、风险标识。

步骤二：模型特征构造。

具体的，基于特征相关性构造新特征：使用皮尔逊相关系数来构建各个特征的相关系数矩阵，将相关性强的特征进行组合为新的强特征。例如，构造用户登录序列：风险认证和时间往往有非常强的关联关系，这里通过对当前用户当次验证加入历史特征，可以得到针对某个用户的认证登录时间序列，基于登录时间序列可以得到用户登录的时间间隔特征，比如平均间隔时间、间隔登录时间中位数等特征信息。

步骤三：多监督模型构造。

具体的，本示例以XGB和LGB这两种监督模型进行举例说明，除了XGB和LGB监督模型，还可以使用SVM、CNN等算法。

基础模型构造：首先使用用户认证行为数据和认证风险数据构造出的模型特征，输入到两类监督模型XGB和LGB，分别得到两个冷启动基础训练模型，得到XGB模型1、XGB模型2、LGB模型1、LGB模型2这四个基础的模型。

步骤四：随机网格参数调优。

具体的，随机网格弹性系数调优：对四个基础的模型XGB模型1、XGB模型2、LGB模型1、LGB模型2使用随机网格调优。具体做法是：通过随机撒种子参数，得到一组较好的参数范围组，使用弹性系数a，缩小参数区间范围，在好的参数范围组里，继续优化参数，得到一组最优的参数。举例，假如某个好的参数种子为1.3，那么得到一个好的参数区间为[-1.3a，1.3a]，在新的好参数区间继续寻找好的参数组合，这样会大大减小模型训练的开销，并且可以对每一个基础模型都可以得到最优的参数。

步骤五：结果特征融合。

具体的，包括特征融合以及结果融合两方面。

其中，特征融合：XGB模型1、XGB模型2模型分别会得到最优参数的XGB类预测结果，这里使用单模型融合的方法，把两个不同参数的XGB模型1、XGB模型2模型的预测结果作为特征和原有的模型特征进行特征的融合得到XGB_Feature_Fusion特征，将此融合特征作为新LGB模型的特征，得到预测的结果LGB_XGB。

结果融合：LGB模型1、LGB模型2分别会得到最优参数的LGB类预测结果，使用均匀融合的加权融合方式，得到LGB_Fusion融合结果。

步骤六：多模型结构结果融合。

从以上的特征融合步骤和结果融合步骤，最终得到了特征融合后的预测结果LGB_XGB和模型结果融合的预测结果LGB_Fusion，再将这两个最终的结果使用加权融合的方式进行结果融合。

步骤七：得到最后结果。

通过以上多模型结构结果的融合，最终得到用户此次认证行为是否为风险异常的提示结果，并且可以得到异常的种类具体为什么，用于策略制定。

由此可见，安全领域是各行各业业务开展的首要门户，安全问题是最根本需要保障的，同时由于用户行为规则分析方法不能动态适应各种破防手段，本申请提出一种通过构建用户认证行为特征模型的风险异常评估方法，本方法以用户认证行为数据、认证日志数据、风险日志数据等为数据基础，通过构建用户认证行为特征模型，进行风险异常评估预测模型，利用风险评估模型去判断当前用户认证行为是否存在风险。本方法使用监督类的算法，使用用户基本的认证数据为基础，使用基于用户认证的行为数据来构造「强数据特征」，使用「随机网格参数方法」进行参数调优，使用「单模融合多模」的方法将预测结果作为特征与不同参数的同类模型和不同类模型进行融合，以此来构造风险异常预测模型，来判断当前用户的认证行为是否存在风险。

本方案提出一种通过构建用户认证行为特征模型的风险异常评估方法，本方法以用户认证行为数据、认证日志数据、风险日志数据等为数据基础，通过构建用户认证行为特征模型，进行风险异常评估预测模型，利用风险评估模型去判断当前用户认证行为是否存在风险。本方法使用监督类的算法，使用用户基本的认证数据为基础，使用基于用户认证的行为数据来构造「强数据特征」，使用「结果特征融合」、使用「随机网格调优方法」进行参数调优，使用「单模融合多模」的方法将预测结果作为特征与不同参数的同类模型和不同类模型进行融合，以此来构造风险异常预测模型，来判断当前用户的认证行为是否存在风险。

总之，该方案具备如下特点：

1、利用构建用户认证行为特征模型进行风险异常预测；

2、通过弹性系数构造最优参数区间组；

3、通过特征融合与结果融合的双融合通道提升预测结果准确率；

4、利用特征相似性进行强特征构造；

5、利用用户历史登录序列的构造进行平均间隔时间、间隔登录时间中位数等特征信息构造；

6、利用多种类模型进行预测结果融合；

7、利用模型预测结果转换为特征输入非同类模型进行模型结果优化；

8、通过随机种子网格进行局部最优参数寻找。

实施例二

图3示出了本发明实施例二提供的一种基于用户行为数据的风险预测装置的示意图。参照图3，包括：

数据获取模块31，适于获取目标用户的用户行为数据；其中，所述用户行为数据中包含多个维度的认证特征数据；

组合模块32，适于根据多个维度的认证特征数据之间的关联关系，将至少两个维度的认证特征数据组合为关联特征数据；

第一结果获取模块33，适于将所述多个维度的认证特征数据以及所述关联特征数据输入第一监督预测模型,获取所述第一监督预测模型输出的第一预测结果；

第二结果获取模块34，适于将所述多个维度的认证特征数据以及所述关联特征数据输入第二监督预测模型,获取所述第二监督预测模型输出的第二预测结果；

融合预测模块35，适于针对所述第一预测结果以及所述第二预测结果进行融合处理，得到融合预测结果，根据所述融合预测结果预测所述目标用户的行为风险等级。

可选的，所述组合模块具体适于：

计算任意两个维度的认证特征数据之间的皮尔逊相关系数；其中，所述皮尔逊相关系数用于表征任意两个维度的认证特征数据之间的相关性大小；

将皮尔逊相关系数大于预设阈值的两个维度的认证特征数据组合为关联特征数据。

可选的，所述皮尔逊相关系数大于预设阈值的两个维度的认证特征数据包括：认证登录维度的认证特征数据以及登录时间维度的认证特征数据；且所述关联特征数据包括：认证登录序列数据；

则所述组合模块具体适于：

将认证登录维度的认证特征数据以及登录时间维度的认证特征数据组合为认证登录序列数据；

其中，所述认证登录序列数据用于表征同一用户的多次认证登录操作之间的时间间隔。

可选的，所述第一监督预测模型为XGB模型，且所述第一监督预测模型进一步包括：第一XGB模型以及第二XGB模型；则所述第一监督预测模型输出的第一预测结果通过以下方式得到：

针对所述第一XGB模型输出的第一XGB预测结果以及第二XGB模型输出的第二XGB预测结果进行特征融合处理，得到所述第一监督预测模型输出的第一预测结果。

可选的，所述第二监督预测模型为LGB模型，且所述第二监督预测模型进一步包括：第一LGB模型以及第二LGB模型；

则所述第二监督预测模型输出的第二预测结果通过以下方式得到：

针对所述第一LGB模型输出的第一LGB预测结果以及第二LGB模型输出的第二LGB预测结果进行加权融合处理，得到所述第二监督预测模型输出的第二预测结果。

可选的，所述第一XGB模型、所述第二XGB模型、所述第一LGB模型和/或所述第二LGB模型中的模型参数通过以下方式设置：

通过随机撒种子参数，得到第一参数范围组；

使用弹性系数，对所述第一参数范围组的取值范围进行限缩，得到第二参数范围组；其中，所述第二参数范围组的参数范围小于所述第一参数范围组的参数范围；

在所述第二参数范围组的参数范围内，选择一组参数作为所述模型参数。

可选的，所述第一监督预测模型以及第二监督预测模型通过样本用户的用户行为数据以及样本用户的认证风险数据训练得到；其中，所述样本用户的认证风险数据用于表征所述样本用户的用户行为数据的风险等级。

实施例三

图4示出了本发明实施例三提供的一种电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。参照图4，该电子设备包括：

至少一个处理器401；与至少一个处理器通信连接的存储器402；通信接口403；以及通信总线404。

其中：

处理器401、存储器402、以及通信接口403通过通信总线404完成相互间的通信。

通信接口403，用于与其它设备比如客户端或其它服务器等的网元通信。

存储器402存储有可被至少一个处理器401执行的一个或多个计算机程序405，一个或多个计算机程序405被上述至少一个处理器401执行，以使至少一个处理器401能够执行如上述的通信对讲方法实施例中对应的各项操作。

实施例四

本申请实施例四提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的虚拟场景中的对象加载方法。可执行指令具体可以用于使得处理器执行上述方法实施例中对应的各个操作。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读存储介质上，计算机可读存储介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。

如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读程序指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM)、静态随机存取存储器(SRAM)、闪存或其他存储器技术、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读程序指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里所描述的计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software DevelopmentKit，SDK)等等。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种基于用户行为数据的风险预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据多个维度的认证特征数据之间的关联关系，将至少两个维度的认证特征数据组合为关联特征数据包括：

3.根据权利要求2所述的方法，其特征在于，所述皮尔逊相关系数大于预设阈值的两个维度的认证特征数据包括：认证登录维度的认证特征数据以及登录时间维度的认证特征数据；且所述关联特征数据包括：认证登录序列数据；

则所述将皮尔逊相关系数大于预设阈值的两个维度的认证特征数据组合为关联特征数据包括：

4.根据权利要求1所述的方法，其特征在于，所述第一监督预测模型为XGB模型，且所述第一监督预测模型进一步包括：第一XGB模型以及第二XGB模型；则所述第一监督预测模型输出的第一预测结果通过以下方式得到：

5.根据权利要求4所述的方法，其特征在于，所述第二监督预测模型为LGB模型，且所述第二监督预测模型进一步包括：第一LGB模型以及第二LGB模型；

6.根据权利要求5所述的方法，其特征在于，所述第一XGB模型、所述第二XGB模型、所述第一LGB模型和/或所述第二LGB模型中的模型参数通过以下方式设置：

通过随机撒种子参数，得到第一参数范围组；

7.根据权利要求1-6任一所述的方法，其特征在于，所述第一监督预测模型以及第二监督预测模型通过样本用户的用户行为数据以及样本用户的认证风险数据训练得到；其中，所述样本用户的认证风险数据用于表征所述样本用户的用户行为数据的风险等级。

8.一种基于用户行为数据的风险预测装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

其中，所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，一个或多个所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-7任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时实现如权利要求1-7任一所述的方法。