CN113347021A

CN113347021A - 一种模型生成方法、撞库检测方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113347021A
Application number: CN202110476169.4A
Authority: CN
Inventors: 补彬
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-09-03
Anticipated expiration: 2041-04-29
Also published as: CN113347021B

Abstract

本发明实施例提供了一种模型生成方法、撞库检测方法、装置、电子设备及计算机可读存储介质。该方法包括：获取用户的历史登录日志；以历史登录日志中出现的用户参数和登录环境参数为节点，根据历史登录日志，构建用户参数和登录环境参数之间的关系图；根据关系图，获取训练样本，其中，训练样本包括用户参数和登录环境参数在关系图中的特征信息；对训练样本进行训练，获得用于确定待检测用户参数与待检测登录环境参数之间存在关系的概率的检测模型。本发明的实施例，从用户参数和环境参数之间的关系出发构建训练样本，而不再依赖人工标注的黑白样本，从而可以提高撞库检测结果的准确度。

Description

一种模型生成方法、撞库检测方法、装置、电子设备及计算机可读存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种模型生成方法、撞库检测方法、装置、电子设备及计算机可读存储介质。

背景技术

目前，在互联网安全领域，撞库攻击是如今最常见的攻击方式，给互联网企业带来巨大威胁。撞库带来的威胁往往不是直接的，但是由此造成的信息泄露以及进一步的渗透与攻击会更为严重。具体地，撞库是指网络黑产利用各种渠道获取到的用户账号和密码信息，尝试登录该用户的账号以进行一些不法行为。存在撞库风险的主要原因在于，许多用户在不同的网站或应用程序中使用了同一套账号和密码。例如，如果用户在A网站的账号、密码泄露，就可能同时引起B网站的账号、密码泄露。为了解决撞库攻击的问题，一些网站、应用程序的服务器会进行撞库检测，以检测用户的登录行为是否存在被撞库风险。

现有技术中，通常通过机器学习的方式训练检测模型，用于检测撞库事件。例如直接使用积累的撞库数据作为黑白样本，构建有监督模型。其中黑样本即属于撞库行为的样本，白样本即为不属于撞库行为的样本。由此可见，现有技术中在构建监督模型时，需要预先人工标注哪些登录行为属于撞库行为，哪些登录行为不属于撞库行为，从而构建黑白样本。即现有技术建立的监督模型是采用机器学习算法，根据已知的撞库行为和非撞库行为，对撞库行为和非撞库行为的特征进行学习。

由此可见，现有技术中在构建用于识别撞库行为的监督模型时，需要依赖大量的黑白样本。而若黑白样本不能很好地刻画撞库的行为模式(即若人工对黑白样本的标注不准确)，那么得到的监督模型的撞库检测结果则不准确。

发明内容

本发明实施例的目的在于提供一种模型生成方法、撞库检测方法、装置、电子设备及计算机可读存储介质，以提高撞库检测结果的准确度。

具体技术方案如下：

在本发明实施的第一方面，首先提供了一种模型生成方法，所述方法包括：

获取用户的历史登录日志；

以所述历史登录日志中出现的用户参数和登录环境参数为节点，根据所述历史登录日志，构建所述用户参数和所述登录环境参数之间的关系图；

根据所述关系图，获取训练样本，其中，所述训练样本包括所述用户参数和所述登录环境参数在所述关系图中的特征信息；

对所述训练样本进行训练，获得用于确定待检测用户参数与待检测登录环境参数之间存在关系的概率的检测模型。

可选的，所述根据所述历史登录日志，构建所述用户参数和所述登录环境参数之间的关系图，包括：

将出现在同一条历史登录日志中的所述用户参数和所述登录环境参数连接，并将出现在同一条历史登录日志中的不同登录环境参数连接，获得所述关系图。

可选的，所述训练样本包括正样本和负样本；

其中，所述正样本包括相连接的所述用户参数和所述登录环境参数在所述关系图中的特征信息，所述负样本包括未连接的所述用户参数和所述登录环境参数在所述关系图中的特征信息。

可选的，所述特征信息包括如下中的至少一项：

在所述关系图中，所述用户参数和所述登录环境参数之间共同的邻居节点的数量；

在所述关系图中，所述用户参数和所述登录环境参数的邻居节点的总数量；

所述用户参数和所述登录环境参数在所述关系图中的度；

所述用户参数和所述登录环境参数的杰卡德系数。

在本发明实施的第二方面，还提供了撞库检测方法，所述方法包括：

检测到登录操作时，获取所述登录操作的目标登录日志；

从所述目标登录日志中提取待检测用户参数和待检测登录环境参数，并确定参数对，其中，每个所述参数对包括一个所述待检测用户参数和一个所述待检测登录环境参数；

根据所述目标登录日志，对上述所述的关系图进行更新，得到更新后的关系图；

获取每一个所述参数对在所述更新后的关系图中的特征信息；

将每一个所述参数对以及所述参数对在所述更新后的关系图中的特征信息，分别输入前述所述的检测模型中，输出每一个所述参数对包括的待检测用户参数和待检测登录环境参数之间存在关系的目标概率；

根据所述目标概率，得到用于指示所述登录操作是否发生撞库的检测结果。

可选的，当存在至少两个参数对时，所述根据所述目标概率，得到用于指示所述登录操作是否发生撞库的检测结果，包括：

根据预先确定的所述待检测登录环境参数的权重值，计算所述目标概率的加权平均值；

在所述加权平均值小于预设阈值时，得到用于指示所述登录操作发生撞库的检测结果；

在所述加权平均值大于或等于所述预设阈值时，得到用于指示所述登录操作未发生撞库的检测结果。

可选的，所述待检测登录环境参数的权重值是采用词频-逆向文件频率 TF-IDF算法确定的。

在本发明实施的第二方面，还提供了一种模型生成装置，所述装置包括：

第一日志获取模块，用于获取用户的历史登录日志；

关系图构建模块，用于以所述历史登录日志中出现的用户参数和登录环境参数为节点，根据所述历史登录日志，构建所述用户参数和所述登录环境参数之间的关系图；

样本获取模块，用于根据所述关系图，获取训练样本，其中，所述训练样本包括所述用户参数和所述登录环境参数在所述关系图中的特征信息；

训练模块，用于对所述训练样本进行训练，获得用于确定待检测用户参数与待检测登录环境参数之间存在关系的概率的检测模型。

在本发明实施的第二方面，还提供了一种撞库检测装置，所述装置包括：

第二日志获取模块，用于检测到登录操作时，获取所述登录操作的目标登录日志；

参数对确定模块，用于从所述目标登录日志中提取待检测用户参数和待检测登录环境参数，并确定参数对，其中，每个所述参数对包括一个所述待检测用户参数和一个所述待检测登录环境参数；

关系图更新模块，用于根据所述目标登录日志，对前述所述的关系图进行更新，得到更新后的关系图；

特征提取模块，用于获取每一个所述参数对在所述更新后的关系图中的特征信息；

概率获取模块，用于将每一个所述参数对以及所述参数对在所述更新后的关系图中的特征信息，分别输入前述所述的检测模型中，输出每一个所述参数对包括的待检测用户参数和待检测登录环境参数之间存在关系的目标概率；

结果确定模块，用于根据所述目标概率，得到用于指示所述登录操作是否发生撞库的检测结果。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的模型生成方法或者撞库检测方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的模型生成方法或者撞库检测方法。

本发明实施例提供的模型生成方法，能够获取用户的历史登录日志，以所述历史登录日志中出现的用户参数和登录环境参数为节点，根据所述历史登录日志，构建所述用户参数和所述登录环境参数之间的关系图，从而根据所述关系图，获取训练样本，进而对所述训练样本进行训练，获得用于确定待检测用户参数与待检测登录环境参数之间存在关系的概率的检测模型，其中，所述训练样本包括所述用户参数和所述登录环境参数在所述关系图中的特征信息。

由此可见，在本发明的实施例中，根据历史登录日志构建用户参数与登录环境参数之间的关系图，从而以用户参数和登录关键参数在关系图中的特征信息作为检测模型的训练样本，其中并不涉及人工的标注过程，因此，本发明的实施例，从用户参数和环境参数之间的关系出发构建训练样本，而不再依赖人工标注的黑白样本，从而可以提高撞库检测结果的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中提供的模型生成方法的步骤流程图；

图2为本发明实施例中关系图的示意图；

图3为本发明实施例中提供的撞库检测方法的步骤流程图；

图4为本发明实施例中模型生成方法与撞库检测方法的具体实施方式的流程的示意图；

图5为本发明实施例中提供的模型生成装置的框图；

图6为本发明实施例中提供的撞库检测装置的框图；

图7为本发明实施例中提供的电子设备的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

参见图1，本发明一实施例提供了一种模型生成方法，包括如下所述的步骤101至104。

步骤101：获取用户的历史登录日志。

其中，可以在每个预设的数据统计周期，获取多个用户的历史登录日志。每一条历史登录日志中包括用户参数和登录环境参数，用户参数包括账号、用户名称中的至少一种；登录环境参数包括登录使用的设备的标识或者网络参数，所述网络参数包括无线网络的标识、用户代理(user agent，UA)、互联网协议 (IP)地址中的至少一种。

另外，可能存在格式不统一的历史登录日志，例如日期的取值可能存在“20180901”，“2018年9月1日”，“2018年9月1日星期五”等多种格式，或者为空，乃至负数等不合理的值。因此在获取到用户的历史登录日志之后，可以将获取到的历史登录日志进行格式统一处理，以过滤掉不合常理或没有意义的取值。

可选的，步骤101中获取的历史登录日志可以为同一登录对象(例如应用程序或网站)中的历史登录日志，即本发明的实施例中，可以针对单个登录对象训练一个用于确定待检测用户参数与待检测登录环境参数之间存在关系的概率的检测模型，亦即本发明的实施例中训练获得的检测模型与登录对象可以为一一对应的关系，即一个检测模型对应一个登录对象。例如检测模型Z对应应用程序z，检测模型V对应应用程序v，若后续若检测到在应用程序z中的登录操作，则利用检测模型Z检测该登录操作的登录日志中的用户参数与登录环境参数之间存在关系的概率。

其中，采用同一登录对象中的历史登录日志训练获得的检测模型，能够更加准确的检测该登录对象的用户参数和登录环境参数之间存在关系的概率，进而可以提升撞库检测结果的准确度。

步骤102：以所述历史登录日志中出现的用户参数和登录环境参数为节点，根据所述历史登录日志，构建所述用户参数和所述登录环境参数之间的关系图。

例如历史登录日志中出现了X个用户参数和Y个登录环境参数，则所建立的关系图为以这X个用户参数和Y个登录环境参数为节点的关系图，即该关系图中包括X+Y个节点。而关系图中的节点与节点之间的关系，根据历史登录日志进行确定。

其中，本发明的实施例中，可以在每个预设的数据统计周期，获取多个用户的历史登录日志，从而在每个数据统计周期，根据获取到的历史登录日志对关系图进行更新，进而根据更新后的关系图，对检测模型进行更新，以提升检测模型的实效性。

步骤103：根据所述关系图，获取训练样本。

其中，所述训练样本包括所述用户参数和所述登录环境参数在所述关系图中的特征信息。因此，本发明的实施例，从关系图提取用户参数和登录环境参数在关系图中的特征信息，以作为检测模型的训练样本，其中并不涉及人工的标注过程，因此，本发明的实施例，从用户参数和环境参数之间的关系出发构建训练样本，而不再依赖人工标注的黑白样本，从而可以提高撞库检测结果的准确度。

即本发明的实施例，在训练检测模型的过程中，提取关系图中的特征信息作为训练样本，降低了对训练样本的要求，即训练样本无需已知是否发生撞库，所以在获取训练样本的过程中，无需人工介入分析每个样本是否发生撞库。因此训练样本的可选范围增大，同时获取难度也得以降低，从而提升了检测模型的泛化性能(即对新样本的适应能力)。

步骤104：对所述训练样本进行训练，获得用于确定待检测用户参数与待检测登录环境参数之间存在关系的概率的检测模型。

其中，可以采用机器学习算法，对所述训练样本进行训练，获得用于确定待检测用户参数与待检测登录环境参数之间存在关系的概率的检测模型。

可选的，所述的机器学习算法包括随机森林算法、支持向量机(Support VectorMachine，SVM)算法、梯度提升树、深度神经网络算法中的其中一种。

其中，支持向量机算法与随机森林算法，二者都是以分类为基础的机器学习算法；支持向量机算法是一类按监督学习方式对数据进行二元分类的广义线性分类算法；随机森林算法是一种由多个决策树分类器构成的集成学习模式。进一步地，以随机森林进行分类为例，随机森林每棵决策树的建立依赖于一个独立抽取的样本，森林中的每棵树具有相同的分布，分类误差取决于每一棵树的分类能力和它们之间的相关性。单棵树的分类能力可能很小，但在随机产生大量的决策树后，分类能力必然增强，统计后选择最可能的分类。通过大量的分类、回归训练，最终得到准确率最高的一组权重数值，由该组权重数值构成检测模型，因此检测模型的精确度也较高。

由上述步骤101至104可知，本发明实施例提供的模型生成方法，能够获取用户的历史登录日志，以所述历史登录日志中出现的用户参数和登录环境参数为节点，根据所述历史登录日志，构建所述用户参数和所述登录环境参数之间的关系图，从而根据所述关系图，获取训练样本，进而对所述训练样本进行训练，获得用于确定待检测用户参数与待检测登录环境参数之间存在关系的概率的检测模型，其中，所述训练样本包括所述用户参数和所述登录环境参数在所述关系图中的特征信息。

例如一条历史登录日志指示用户f使用过IP1、UA1(即用户f、UA1、IP1 出现在同一条历史登录日志中)，则在关系图中用户f与UA1和IP1之间存在连接边，且UA1与IP1之间存在连接边；另一条历史登录日志指示用户a使用过IP1(即用户a、IP1出现在同一条历史登录日志中)，则在关系图中用户a 与IP1之间存在连接边。

即本发明的实施例中，在构建关系图时，将获取到的所有历史登录日志中出现的用户参数和登录环境参数作为节点，然后将出现在同一条历史登录日志中的用户参数和登录环境参数连接，将出现在同一条历史登录日志中的不同登录环境参数连接，未出现在同一条历史登录日志中的用户参数与登录环境参数之间不连接，且未出现在同一条历史登录日志中的不同登录环境参数连接之间也不连接。如图2所示，为本发实施例中构建的关系图的示意图。

可选的，所述训练样本包括正样本和负样本；

需要说明的是，此处所述的“相连接”是指直接连接。

例如图2所示的关系图，可以提取用户a与IP1在关系图中的特征信息，以作为一个正样本；提取用户a与UA1在关系图中的特征信息，作为一个负样本。

此处，需要说明的是，上述正样本、负样本分别是随机从关系图中提取的。

其中，在关系图中存在连接的用户参数与登录环境参数出现在同一条历史登录日志中，则表示该用户参数表示的用户曾使用该登录环境参数进行过登录，因此本发明实施例中的正样本描述的是由用户本人发起的登录行为(即不属于撞库行为的登录行为)；在关系图中不存在连接的用户参数与登录环境参数未出现在同一历史登录日志中，则表示该用户参数表示的用户并未使用过该登录环境参数进行过登录，因此本实施例中的负样本描述的不是由用户本人发起的登录行为(即属于撞库行为的登录行为)。

因此，本发明的实施例，通过对上述正样本和负样本进行训练，可以获得用于确定待检测用户参数与待检测登录环境参数之间存在关系的概率的检测模型。

由此可见，本发明的实施例，将撞库检测转变为对每一次登录行为中用户参数与登录环境参数建立“关系”的行为预测，从而直接对“登录行为是否由用户本人发起”建模，进而便摆脱了对撞库黑白样本的依赖，使得模型能够具备更好的泛化性能。

其中，检测模型输出的概率值大于或等于预设概率值，则表示待检测用户参数与待检测登录环境参数之间存在关系的概率较大，即本次登录行为属于用户本人发起的登录行为的概率较大；检测模型输出的概率值小于预设概率值，则表示待检测用户参数与待检测登录环境参数之间存在关系的概率较小，即本次登录行为属于用户本人发起的登录行为的概率较小。

可选的，所述特征信息包括如下第一项至第四项参数中的至少一项：

第一项：在所述关系图中，所述用户参数和所述登录环境参数之间共同的邻居节点的数量；

第二项：在所述关系图中，所述用户参数和所述登录环境参数的邻居节点的总数量；

第三项：所述用户参数和所述登录环境参数在所述关系图中的度；

第四项：所述用户参数和所述登录环境参数的杰卡德(Jaccard)系数。

例如图2中，用户f与设备2在关系图中的特征信息包括如下中的至少一项：

用户f与设备2共同的邻居节点的数量，即3个；

用户f与设备2的邻居节点的总数量，即11个；

用户f的度(即5)和设备2的度(即6)；

用户f与设备2的杰卡德系数。

此处需要说明的是，在关系图中，一个节点的度，即为该节点存在的连接边的数量，例如图2中，用户f这一节点的度即为5。

其中，还可以将上述第一项至第四项参数中的至少两项参数加权求和，从而将加权求和之后的数值作为所述特征信息。例如图2中所示，可以将用户f 与IP1共同的邻居节点的数量、用户f与IP1的邻居节点的总数量、用户f与 IP1在关系图中的度、用户f与IP1的杰卡德系数加权求和，从而作为用户f 与IP1的特征信息。

另外，上述所述的第一项至第四项参数的权重值可以预先确定。

此外，当特征信息包括上述第一项至第四项参数中的至少两项时，可以将该特征信息转换为特征向量，从而将该特征向量作为训练样本，即利用特征向量来描述用户参数与登录环境参数之间关系的特点。

参见图3，本发明一实施例提供了一种撞库检测方法，所述方法可以应用于登录对象的服务器，例如网站或应用程序的服务器；所述方法还可以应用于用于撞库检测的检测装置。

如图3所示，该撞库检测方法可以包括如下步骤：

步骤301，检测到登录操作时，获取所述登录操作的目标登录日志。

其中，所述目标登录日志可以是应用程序或网站的登录日志；所述目标登录日志中记载有本次登录操作的登入时间、账号、密码以及登出时间等参数中的至少一种。

另外，登录操作可以由实体用户发起，例如用户通过电子设备发起登录操作；也可由虚拟用户发起，例如一些虚拟机、用户代理端通过自动登录的方式执行登录操作。

步骤302：从所述目标登录日志中提取待检测用户参数和待检测登录环境参数，并确定参数对。

其中，每个所述参数对包括一个所述待检测用户参数和一个所述待检测登录环境参数。

所述目标历史登录日志中包括待检测用户参数和待检测登录环境参数，待检测用户参数包括账号、用户名称中的至少一种；待检测登录环境参数包括登录使用的设备的标识或者网络参数，所述网络参数包括无线网络的标识、用户代理(user agent，UA)、互联网协议(IP)地址中的至少一种。

另外，需要说明的是，在目标历史登录日志中可能会存在至少两个待带检测登录环境参数，则从该目标历史登录日志中可以提取多个参数对。

步骤303：根据所述目标登录日志，对前述所述的关系图进行更新，得到更新后的关系图。

其中，所述关系图是根据预先采集的历史登录日志建立的，即预先采集多条历史登录日志，然后以所述历史登录日志中出现的用户参数和登录环境参数为节点，根据所述历史登录日志，构建所述用户参数和所述登录环境参数之间的关系图。即步骤303中可以使用前述检测模型的生成过程中得到的关系图。

另外，可以理解的是，步骤303中也可以使用本次检测到登录操作之前，已更新过的关系图。

此外，在待检测用户参数和待检测登录环境参数均已存在于前述关系图中的情况下，步骤303对该关系图的更新过程，即为根据目标登录日志检查待检测用户参数与待检测登录环境参数在关系图中的连接关系是否正确，即确定待检测用户参数和待检测登录环境参数之间是否连接，若是，则不予处理，若否，则将二者连接。

在前述关系图中不存在待检测用户参数和待检测登录环境参数中的至少一个参数的情况下，步骤303对该关系图的更新过程，即为将不存在的参数补充至该关系图中，并根据目标登录日志更新待检测用户参数和待检测登录环境参数之间的连接关系。

步骤304：获取每一个所述参数对在所述更新后的关系图中的特征信息。

第四项：所述用户参数和所述登录环境参数的杰卡德系数。

或者，还可以将上述第一项至第四项参数中的至少两项参数加权求和，从而将加权求和之后的数值作为所述特征信息。

此处需要说明的是，步骤304中获取的每个参数对的特征信息包括的内容，需要前述检测模型的训练过程中特征信息包括的内容保持一致。

步骤305：将每一个所述参数对以及所述参数对在所述更新后的关系图中的特征信息，分别输入前述所述的检测模型中，输出每一个所述参数对包括的待检测用户参数和待检测登录环境参数之间存在关系的目标概率。

其中，若本发明实施例中训练获得的模型与登录对象(例如应用程序或网站)存在一一对应的关系，则步骤301中获取的目标历史登录日志属于哪个登录对象，则在步骤305中使用哪个登录对象对应的检测模型。

另外，若步骤302得到多个参数对，则需要分别将每一个参数对及其特征信息输入至检测模型中，从而输出每一个参数对包括的待检测用户参数和待检测登录环境参数之间存在关系的目标概率。

步骤306：根据所述目标概率，得到用于指示所述登录操作是否发生撞库的检测结果。

而当存在多个参数对时，则根据多个参数对的所述目标概率，确定本次登录操作是否发生撞库，即确定本次登录行为是否属于撞库行为。

由上述可知，在本发明的实施例中，根据历史登录日志构建用户参数与登录环境参数之间的关系图，从而以用户参数和登录关键参数在关系图中的特征信息作为检测模型的训练样本，其中并不涉及人工的标注过程，因此，本发明的实施例，从用户参数和环境参数之间的关系出发构建训练样本，而不再依赖人工标注的黑白样本，从而可以利用此类训练样本训练获得的检测模型对撞库行为进行检测，进而可以提高撞库检测结果的准确度。

例如存在三个参数对，且这三个参数对包括的待检测登录环境参数的权重值分别为k1、k2、k3，目标概率分别为x1、x2、x3，则在 (x1*k1+x2*k2+x3*k3)/(k1+k2+k3)小于预设阈值时，表示本次登录操作发生撞库；在(x1*k1+x2*k2+x3*k3)/(k1+k2+k3)大于或等于预设阈值时，表示本次登录操作未发生撞库。

可选的，所述待检测登录环境参数的权重值是采用词频-逆向文件频率 (TF-IDF)算法确定的。

示例性地，参见图4，图4示出了应用本发明实施例的模型生成方法和撞库检测方法的具体实施方式。

在模型生成阶段，主要包括如下所述的步骤A至E：

步骤A：获取历史登录日志；服务器在每个预设的数据统计周期，记载同一登录对象(例如应用程序)的所有历史登录日志。

步骤B：预处理；原始登录日志中可能包含各种不合法的异常值或者格式不统一的数据。例如，日期的取值可能存在“20180901”，“2018年9月1日”，“2018 年9月1日星期五”等多种格式，或者为空，乃至负数等根本不合理的值。因此，在进行分析建模之前，需要先对历史登录日志进行预处理，主要包括统一数据格式，过滤掉不合常理或没有意义的取值等操作。

步骤C：构建关系图，即提取历史登录日志中的用户参数和登录环境参数，并这些参数作为节点，从而将处于同一条历史登录日志中的用户参数和登录环境参数连接，将处于同一条历史登录日志中的不同登录环境参数连接，得到关系图；

步骤D：构建训练样本，即从关系图中提取相连接的用户参数和登录环境参数在关系图中的特征信息，并将提取的特征信息转换为特征向量，以作为正样本；从关系图中提取未连接的用户参数和登录环境参数在关系图中的特征信息，并将提取的特征信息转换为特征向量，以作为负样本。其中，所述特征信息包括的具体内容请参见前文所述，此处不再赘述。

步骤E：训练模型，即采用机器学习算法，对训练样本进行训练，从而获得用于确定待检测用户参数与待检测登录环境参数之间存在关系的概率的检测模型。

在撞库检测阶段，主要包括如下所述的步骤F至K：

步骤F：获取目标登录日志，即在检测到登录操作时，获取登录操作的目标登录日志，亦即获取用户的登录操作产生的一条登录日志。

步骤G：预处理，与前述步骤B中的预处理过程相同，此处不再赘述；

步骤H：获取参数对，即获取目标登录日志中出现的待检测用户参数和待检测登录环境参数，并将一个待检测用户参数与一个待检测登录环境参数组成一个参数对；

步骤I：提取特征信息，即根据目标登录日志更新前述步骤C中得到的关系图，得到更新后的关系图，然后从更新后的关系图中提取各个参数对在关系图中的特征信息，其中，所述特征信息包括的具体内容请参见前文所述，此处不再赘述。

步骤J：检测，即将步骤I得到的各个参数对及其特征信息输入至前述步骤 E中得到的检测模型，输出各个参数对包括的待检测用户参数和待检测登录环境参数存在关系的目标概率。

步骤K：输出检测结果，即根据预先确定的待检测登录环境参数的权重值，计算目标概率的加权平均值，在加权平均值小于预设阈值时，输出用于指示所述登录操作发生撞库的检测结果；在加权平均值大于或等于预设阈值时，输出用于指示所述登录操作未发生撞库的检测结果。

由上述可知，本发明的实施例，将撞库问题转化为社交网络中的链路预测问题，摆脱了模型对撞库黑白样本的依赖，降低了建模难度。此外，可以根据用户参数和登录环境参数的关系图，提取“足够多”的训练样本，即只要关系图足够大，就可以产生大量训练样本，从而可以支持大规模的模型训练。并且，用户参数和登录环境参数的关系图的构建，充分考虑了用户参数与登录环境参数之间的关系，不再独立考虑用户参数和每一组环境参数的关系，模型泛化能力更强。此外，本发明的实施例，可以对每一次登录操作，实现实时撞库检测，进一步提升登录安全性。

参见图5，本发明实施例还提供了一种模型生成装置，所述装置包括：

第一日志获取模块501，用于获取用户的历史登录日志；

关系图构建模块502，用于以所述历史登录日志中出现的用户参数和登录环境参数为节点，根据所述历史登录日志，构建所述用户参数和所述登录环境参数之间的关系图；

样本获取模块503，用于根据所述关系图，获取训练样本，其中，所述训练样本包括所述用户参数和所述登录环境参数在所述关系图中的特征信息；

训练模块504，用于对所述训练样本进行训练，获得用于确定待检测用户参数与待检测登录环境参数之间存在关系的概率的检测模型。

可选的，所述关系图构建模块502在根据所述历史登录日志，构建所述用户参数和所述登录环境参数之间的关系图时，具体用于：

可选的，所述训练样本包括正样本和负样本；

可选的，所述特征信息包括如下中的至少一项：

所述用户参数和所述登录环境参数在所述关系图中的度；

所述用户参数和所述登录环境参数的杰卡德系数。

由上述可知，本发明实施例提供的模型生成装置，能够获取用户的历史登录日志，以所述历史登录日志中出现的用户参数和登录环境参数为节点，根据所述历史登录日志，构建所述用户参数和所述登录环境参数之间的关系图，从而根据所述关系图，获取训练样本，进而对所述训练样本进行训练，获得用于确定待检测用户参数与待检测登录环境参数之间存在关系的概率的检测模型，其中，所述训练样本包括所述用户参数和所述登录环境参数在所述关系图中的特征信息。

参见图6，本发明实施例还提供了一种撞库检测装置，所述装置包括：

第二日志获取模块601，用于检测到登录操作时，获取所述登录操作的目标登录日志；

参数对确定模块602，用于从所述目标登录日志中提取待检测用户参数和待检测登录环境参数，并确定参数对，其中，每个所述参数对包括一个所述待检测用户参数和一个所述待检测登录环境参数；

关系图更新模块603，用于根据所述目标登录日志，对前述所述的关系图进行更新，得到更新后的关系图；

特征提取模块604，用于获取每一个所述参数对在所述更新后的关系图中的特征信息；

概率获取模块605，用于将每一个所述参数对以及所述参数对在所述更新后的关系图中的特征信息，分别输入前述所述的检测模型中，输出每一个所述参数对包括的待检测用户参数和待检测登录环境参数之间存在关系的目标概率；

结果确定模块606，用于根据所述目标概率，得到用于指示所述登录操作是否发生撞库的检测结果。

可选的，当存在至少两个参数对时，所述结果确定模块606具体用于：

本发明实施例还提供了一种电子设备，如图7所示，包括处理器71、通信接口72、存储器73和通信总线74，其中，处理器71，通信接口72，存储器73通过通信总线74完成相互间的通信，

存储器73，用于存放计算机程序；

处理器71，用于执行存储器73上所存放的程序时，实现如下步骤：

获取用户的历史登录日志；

或者，

检测到登录操作时，获取所述登录操作的目标登录日志；

根据所述目标登录日志，对前述所述的关系图进行更新，得到更新后的关系图；

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－ Programmable GateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的模型生成方法，或者执行上述实施例中任一项所述的撞库检测方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的模型生成方法，或者执行上述实施例中任一项所述的撞库检测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种模型生成方法，其特征在于，所述方法包括：

获取用户的历史登录日志；

2.根据权利要求1所述的模型生成方法，其特征在于，所述根据所述历史登录日志，构建所述用户参数和所述登录环境参数之间的关系图，包括：

3.根据权利要求2所述的模型生成方法，其特征在于，所述训练样本包括正样本和负样本；

4.根据权利要求1所述的模型生成方法，其特征在于，所述特征信息包括如下中的至少一项：

所述用户参数和所述登录环境参数在所述关系图中的度；

所述用户参数和所述登录环境参数的杰卡德系数。

5.一种撞库检测方法，其特征在于，所述方法包括：

检测到登录操作时，获取所述登录操作的目标登录日志；

根据所述目标登录日志，对权利要求1至4任一项所述的关系图进行更新，得到更新后的关系图；

将每一个所述参数对以及所述参数对在所述更新后的关系图中的特征信息，分别输入权利要求1至4任一项所述的检测模型中，输出每一个所述参数对包括的待检测用户参数和待检测登录环境参数之间存在关系的目标概率；

6.根据权利要求5所述的撞库检测方法，其特征在于，当存在至少两个参数对时，所述根据所述目标概率，得到用于指示所述登录操作是否发生撞库的检测结果，包括：

7.根据权利要求6所述的撞库检测方法，其特征在于，所述待检测登录环境参数的权重值是采用词频-逆向文件频率TF-IDF算法确定的。

8.一种模型生成装置，其特征在于，所述装置包括：

第一日志获取模块，用于获取用户的历史登录日志；

9.一种撞库检测装置，其特征在于，所述装置包括：

关系图更新模块，用于根据所述目标登录日志，对权利要求1至4任一项所述的关系图进行更新，得到更新后的关系图；

概率获取模块，用于将每一个所述参数对以及所述参数对在所述更新后的关系图中的特征信息，分别输入权利要求1至4任一项所述的检测模型中，输出每一个所述参数对包括的待检测用户参数和待检测登录环境参数之间存在关系的目标概率；

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1至4中任一项所述的模型生成方法，或者实现权利要求5至7任一所述的撞库检测方法中的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4中任一项所述的模型生成方法，或者实现权利要求5至7中任一所述的撞库检测方法。