CN113468510A

CN113468510A - 异常登录行为数据检测方法及装置

Info

Publication number: CN113468510A
Application number: CN202110799074.6A
Authority: CN
Inventors: 万源
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-10-01

Abstract

本发明公开了一种异常登录行为数据检测方法及装置，涉及人工智能技术领域，该方法包括：采集目标用户的用户登录行为数据；对采集的用户登录行为数据进行量化处理；将量化处理后的用户登录行为数据，输入到预先训练好的用户登录风险检测模型中，输出用户登录行为数据是异常登录行为数据的风险等级。本发明能够根据用户登录行为数据检测出用户的登录风险等级，以便根据用户的登录行为风险等级，执行相应的登录风险控制方案，能够大大降低集中身份认证凭平台的异常登录行为。

Description

异常登录行为数据检测方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种异常登录行为数据检测方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

银行业务系统众多，且大多停留在本地管理用户名和密码的身份验证模式下，导致一线使用时需反复签到、切换、记忆大量密码。由于各业务系统的密码管理策略不同，导致用户遗忘密码或丢失密码的现象十分严重。

为了避免这种现象，银行采用集中身份验证平台，对用户登录进行统一管理，实现单点登录，逐步消除各业务系统自有的用户身份验证功能。但这种由集中身份认证平台统一管理的方式，需要对用户的每次登录风险进行严格控制，在识别到异常登录行为后，需要对用户进行二次登录验证。实际应用中，若对用户进行二次登录验证，会给用户添加负担，若不对用户进行二次登录验证，则无法监控高风险登录行为。

因而，如何提供一种异常登录行为数据检测方法，在不影响用户体验的情况下，确保异常登录行为被检测到，是目前亟待解决的技术问题。

发明内容

本发明实施例提供一种异常登录行为数据检测方法，用以解决现有银行使用集中身份认证凭平台对用户登录进行统一管理的方案，可能出现异常登录行为的技术问题，该方法包括：采集目标用户的用户登录行为数据；对采集的用户登录行为数据进行量化处理；将量化处理后的用户登录行为数据，输入到预先训练好的用户登录风险检测模型中，输出用户登录行为数据是异常登录行为数据的风险等级。

本发明实施例还提供一种异常登录行为数据检测装置，用以解决现有银行使用集中身份认证凭平台对用户登录进行统一管理的方案，可能出现异常登录行为的技术问题，该装置包括：用户登录行为数据采集模块，用于采集目标用户的用户登录行为数据；用户登录行为数据量化处理模块，用于对采集的用户登录行为数据进行量化处理；用户登录风险预测模块，用于将量化处理后的用户登录行为数据，输入到预先训练好的用户登录风险检测模型中，输出用户登录行为数据是异常登录行为数据的风险等级。

本发明实施例还提供一种计算机设备，用以解决现有银行使用集中身份认证凭平台对用户登录进行统一管理的方案，可能出现异常登录行为的技术问题，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述异常登录行为数据检测方法。

本发明实施例还提供一种计算机可读存储介质，用以解决现有银行使用集中身份认证凭平台对用户登录进行统一管理的方案，可能出现异常登录行为的技术问题，该计算机可读存储介质存储有执行上述异常登录行为数据检测方法的计算机程序。

本发明实施例中提供的异常登录行为数据检测方法、装置、计算机设备及计算机可读存储介质，通过机器学习训练一个能够检测用户登录行为是否是异常登录行为的用户登录风险检测模型，在采集到目标用户的用户登录行为数据，对采集的用户登录行为数据进行量化处理，进而将量化处理后的用户登录行为数据，输入到预先训练好的用户登录风险检测模型中，输出用户登录行为数据是异常登录行为数据的风险等级。

通过本发明实施例，能够根据用户登录行为数据检测出用户的登录风险等级，以便根据用户的登录行为风险等级，执行相应的登录风险控制方案，能够大大降低集中身份认证凭平台的异常登录行为。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中提供的一种异常登录行为数据检测方法流程图；

图2为本发明实施例中提供的一种基于剪枝算法的决策树模型训练流程图；

图3为本发明实施例中提供的一种可选的异常登录行为数据检测方法流程图；

图4为本发明实施例中提供的一种异常登录行为数据检测装置示意图；

图5为本发明实施例中提供的一种可选的异常登录行为数据检测装置示意图；

图6为本发明实施例中提供的一种计算机设备示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

本发明实施例中提供了一种异常登录行为数据检测方法，图1为本发明实施例中提供的一种异常登录行为数据检测方法流程图，如图1所示，该方法包括如下步骤：

S101，采集目标用户的用户登录行为数据。

由于采集的用户登录行为数据中可能包含大量的无效数据，因而，在一个实施例中，在采集目标用户的用户登录行为数据之后，本发明实施例中提供的异常登录行为数据检测方法还可以包括如下步骤：对采集的用户登录行为数据执行数据清洗操作，去除无效的用户登录行为数据。

S102，对采集的用户登录行为数据进行量化处理。

需要说明的是，采集的用户登录行为数据是非量化数据，为了根据用户登录行为数据确定用户登录行为的风险等级，需要先对采集的用户登录行为数据进行量化处理。

S103，将量化处理后的用户登录行为数据，输入到预先训练好的用户登录风险检测模型中，输出用户登录行为数据是异常登录行为数据的风险等级。

需要说明的是，本发明实施例中的风险等级包括但不限于如下五种：“低风险”、“中低风险”、“中风险”、“中高风险”、“高风险”。本领域技术人员可根据实际应用情况具体设定。

在一个实施例中，本发明实施例中采用的用户登录风险检测模型可以是剪枝处理后的决策树模型。

需要说明的是，在决策树模型的机器学习过程中，为了尽可能正确分类训练样本，结点划分过程将不断重复，有时会造成决策树分支过多，这时就有可能把训练样本学习的太好，以至于把训练集的某一些特点当做是所有数据都具有的一般性质，这时就发生了过拟合。因此可以通过主动去掉一些分支来降低过拟合的风险。

剪枝处理算法是决策树学习算法对付“过拟合”的主要手段。事实上，决策树剪枝的基本策略有“预剪枝”和“后剪枝”两种。预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点；后剪枝则是先从训练集生成一颗完整的决策树，然后自底向上地对非叶节点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提高，则将该子树替换为叶结点。

可选地，本发明实施例中采用预剪枝算法对决策树模型进行剪枝处理，具体地，基于信息增益准则，选取属性对训练集进行划分，预剪枝对划分前后的泛化性能进行估计，验证集精度提升则进行划分，下降或不能提升则预剪枝策略禁止结点被划分。一颗仅有一层划分的决策树，亦称为“决策树桩”。预剪枝使得决策树的很多分支都没有展开，这不仅降低了过拟合的风险，还显著减少了决策树的训练时间开销和测试时间开销。但另一方面，有些分支的当前划分虽不能提升泛化性能、甚至可能导致泛化性能暂时下降，但在其基础上进行的后续划分却有可能导致性能显著提高；预剪枝基于“贪心”本质禁止这些分支展开，给预剪枝决策树带来了欠拟合的风险。

决策树剪枝的设置对于多分类的泛化效果有很大的影响，在模型的训练过程中，是对属性的线性组合进行测试，通过不断调整分类模型，最终得到比较好的分类结果，建立一个合适的线性分类器。

在具体实施时，如图2所示，本发明实施例中提供的异常登录行为数据检测方法，可以通过如下步骤来训练得到用户登录风险检测模型：

S201，获取样本数据，其中，样本数据为标记风险等级的用户登录行为数据；

S202，将样本数据划分训练数据、验证数据和测试数据；

S203，利用训练数据生成决策树分类模型；

S204，对生成的决策树分类模型进行剪枝处理；

S205，利用验证数据验证剪枝前、后决策树分类模型的分类效果；

S206，利用测试数据对剪枝后的决策树分类模型进行验证，直到获取到模型预测准确率符合预设条件的用户登录风险检测模型。

在基于剪枝算法的决策树模型训练过程中，训练数据用于模型构建；验证数据用于辅助模型构建，可以重复使用；测试数据用于检测模型构建，此数据只在模型检验时使用，用于评估模型的准确率，不允许用于模型构建过程，否则会导致过渡拟合。在具体实施时，可以按照预设比例将样本数据划分训练数据、验证数据和测试数据。

在一个实施例中，如图3所示，在将量化处理后的用户登录行为数据，输入到预先训练好的用户登录风险检测模型中，输出用户登录行为数据是异常登录行为数据的风险等级之后，本发明实施例中提供的异常登录行为数据检测方法还包括如下步骤：

S104，根据用户登录行为数据对应的风险等级，确定是否对目标用户执行二次登录验证，以及对目标用户执行二次登录验证的验证方式，其中，不同的验证方式对应不同的安全级别。

本发明实施例中提供的异常登录行为数据检测方法具体实现流程如下：

1)获取用户登录行为数据：从历史系统的数据库中获取用户登录行为数据，一般可直接从数据库中导出，导出的用户登录行为数据可能会存在冗余、缺失等问题，需要对其进行预处理(例如，数据清洗)。

2)对获取到用户登录行为数据进行预处理：在获取到用户登录行为数据后，对数据进行清理工作，从原始用户登录信息中移除或更正有损坏或无效值的记录，以及移除缺少大量列的记录。然后对用户登录数据信息进行选择和分区处理，从输入数据集中选择数据点以创建训练、评估(验证)和测试集。该过程包括用于可重复随机采样、少数类过度采样和分层分区的技术。接下来对用户登录信息的数据特征进行调整，为机器学习提高特征的质量，包括对数值进行缩放和归一化、输入缺失值、剪辑离群值以及使用偏态分布调整值。然后将对用户登录信息的特征进行转换，通过分区技术将数值特征转换为分类特征，并通过one-hot编码、计数学习、稀疏特征嵌入等技术将分类特征转换为数值表示法。某些模型仅能处理数值或分类特征，而有的模型可以处理混合类型特征。即使是模型能够处理这两种类型，但也可受益于同一特征的不同表示法(数值和分类)。

3)分类模型的构建与训练模块：构建决策树分类模型，将用户登录行为的风险等级分为“低风险”、“中低风险”、“中风险”、“中高风险”、“高风险”五个类别。对模型进行训练时，剪枝的处理对模型的泛化性能至关重要，首先基于信息增益准则选取属性对训练集进行划分，进行预剪枝操作，达到一个比较好的分类效果后最终确定决策树模型，得到的决策树分类模型可以用于对后续用户登录信息进行风险分类标记。该模块的输出是驯良好的决策树分类模型。

4)用户登录风险检测：将训练好的决策树分类模型用于对后续用户登录的风险等级分类标记，识别出本次用户登录的风险等级，针对不同的风险等级决定是否进行二次验证，以及相应的二次验证方式。有助于降低用户使用二次验证的频率，同时提升系统的安全性。

另外，还需要说明的是，在将本发明实施例中提供的异常登录行为数据检测方法应用于银行的集中身份验证平台时，可在用户登录信息的预处理端，从数据库中导出用户登录行为数据，首先对导出的用户登录行为数据进行数据清理工作，从原始用户登录行为数据中移除或更正有损坏或无效值的登录记录数据，以及移除缺少大量列的登录记录数据；然后对用户登录行为数据进行选择和分区处理，从输入数据集中选择数据点以创建训练、评估(验证)和测试集。该过程包括用于可重复随机采样、少数类过度采样和分层分区的技术。接下来对用户登录信息的数据特征进行调整，为机器学习提高特征的质量，包括对数值进行缩放和归一化、输入缺失值、剪辑离群值以及使用偏态分布调整值。然后将对用户登录信息的特征进行转换，通过分区技术将数值特征转换为分类特征，并通过one-hot编码、计数学习、稀疏特征嵌入等技术将分类特征转换为数值表示法。某些模型仅能处理数值或分类特征，而有的模型可以处理混合类型特征。即使是模型能够处理这两种类型，但也可受益于同一特征的不同表示法(数值和分类)。

在本发明实施例中，将特征工程与机器学习分类方法进行结合，形成一种异常登录风险分类模型，利用该模型，将用户的登录风险分为“低风险”、“中低风险”、“中风险”、“中高风险”、“高风险”。并针对不同风险等级，结合二次验证工具，进行风险排查和追踪。在获取用户的登录记录后，首先对用户的登录记录进行预处理，将用户的登录记录的维度进行量化，标记。然后将量化标记后的用户登录记录分为多个训练集与测试集，利用决策树分类技术对多个训练集和测试集进行训练，通过不断对比模型分类结果的准确率，最终获得分类结果准确度最高的模型，用于对用户风险等级的分类标记，并通过该标记对应采取二次验证的方法，提高内网安全。

基于同一发明构思，本发明实施例中还提供了一种异常登录行为数据检测装置，如下面的实施例所述。由于该装置解决问题的原理与异常登录行为数据检测方法相似，因此该装置的实施可以参见异常登录行为数据检测方法的实施，重复之处不再赘述。

图4为本发明实施例中提供的一种异常登录行为数据检测装置示意图，如图4所示，该装置包括：用户登录行为数据采集模块41、用户登录行为数据量化处理模块42和用户登录风险预测模块43。

其中，用户登录行为数据采集模块41，用于采集目标用户的用户登录行为数据；用户登录行为数据量化处理模块42，用于对采集的用户登录行为数据进行量化处理；用户登录风险预测模块43，用于将量化处理后的用户登录行为数据，输入到预先训练好的用户登录风险检测模型中，输出用户登录行为数据是异常登录行为数据的风险等级。

在一个实施例中，本发明实施例中提供的异常登录行为数据检测装置中，用户登录风险检测模型采用剪枝处理后的决策树模型。

在一个实施例中，如图5所示，本发明实施例中提供的异常登录行为数据检测装置还包括：机器学习模块44，用于：获取样本数据，其中，样本数据为标记风险等级的用户登录行为数据；将样本数据划分训练数据、验证数据和测试数据；利用训练数据生成决策树分类模型；对生成的决策树分类模型进行剪枝处理；利用验证数据验证剪枝前、后决策树分类模型的分类效果；利用测试数据对剪枝后的决策树分类模型进行验证，直到获取到模型预测准确率符合预设条件的用户登录风险检测模型。

在一个实施例中，如图5所示，本发明实施例中提供的异常登录行为数据检测装置还包括：数据清洗模块45，用于对采集的用户登录行为数据执行数据清洗操作，去除无效的用户登录行为数据。

在一个实施例中，如图5所示，本发明实施例中提供的异常登录行为数据检测装置还包括：二次登录验证模块46，用于根据用户登录行为数据对应的风险等级，确定是否对目标用户执行二次登录验证，以及对目标用户执行二次登录验证的验证方式，其中，不同的验证方式对应不同的安全级别。

基于同一发明构思，本发明实施例还提供一种计算机设备，用以解决现有银行使用集中身份认证凭平台对用户登录进行统一管理的方案，可能出现异常登录行为的技术问题，图6为本发明实施例中提供的一种计算机设备示意图，图6为本发明实施例中提供的一种计算机设备示意图，如图6所示，该计算机设备60包括存储器601、处理器602及存储在存储器601上并可在处理器602上运行的计算机程序，处理器602执行计算机程序时实现上述异常登录行为数据检测方法。

基于同一发明构思，本发明实施例还提供一种计算机可读存储介质，用以解决现有银行使用集中身份认证凭平台对用户登录进行统一管理的方案，可能出现异常登录行为的技术问题，该计算机可读存储介质存储有执行上述异常登录行为数据检测方法的计算机程序。

综上所述，本发明实施例中提供的异常登录行为数据检测方法、装置、计算机设备及计算机可读存储介质，通过机器学习训练一个能够检测用户登录行为是否是异常登录行为的用户登录风险检测模型，在采集到目标用户的用户登录行为数据，对采集的用户登录行为数据进行量化处理，进而将量化处理后的用户登录行为数据，输入到预先训练好的用户登录风险检测模型中，输出用户登录行为数据是异常登录行为数据的风险等级。

本发明实施例中，利用决策树算法的剪枝处理，无需保证数据的无噪性，节省了人工成本。通过对用户登录行为的分级处理(不同的风险等级对应不同安全级别的二次登录验证方式)，不仅降低了后台处理的负担，也为用户提供了较低风险下的验证方式，简化了用户的操作，方便了用户对系统使用的同时，也确保了系统的安全性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种异常登录行为数据检测方法，其特征在于，包括：

采集目标用户的用户登录行为数据；

对采集的用户登录行为数据进行量化处理；

将量化处理后的用户登录行为数据，输入到预先训练好的用户登录风险检测模型中，输出所述用户登录行为数据是异常登录行为数据的风险等级。

2.如权利要求1所述的方法，其特征在于，所述用户登录风险检测模型为剪枝处理后的决策树模型。

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

获取样本数据，其中，所述样本数据为标记风险等级的用户登录行为数据；

将所述样本数据划分训练数据、验证数据和测试数据；

利用训练数据生成决策树分类模型；

对生成的决策树分类模型进行剪枝处理；

利用验证数据验证剪枝前、后决策树分类模型的分类效果；

利用测试数据对剪枝后的决策树分类模型进行验证，直到获取到模型预测准确率符合预设条件的用户登录风险检测模型。

4.如权利要求1所述的方法，其特征在于，在采集目标用户的用户登录行为数据之后，所述方法还包括：

对采集的用户登录行为数据执行数据清洗操作，去除无效的用户登录行为数据。

5.如权利要求1至4任一项所述的方法，其特征在于，在将量化处理后的用户登录行为数据，输入到预先训练好的用户登录风险检测模型中，输出所述用户登录行为数据是异常登录行为数据的风险等级之后，所述方法还包括：

根据所述用户登录行为数据对应的风险等级，确定是否对所述目标用户执行二次登录验证，以及对所述目标用户执行二次登录验证的验证方式，其中，不同的验证方式对应不同的安全级别。

6.一种异常登录行为数据检测装置，其特征在于，包括：

用户登录行为数据采集模块，用于采集目标用户的用户登录行为数据；

用户登录行为数据量化处理模块，用于对采集的用户登录行为数据进行量化处理；

用户登录风险预测模块，用于将量化处理后的用户登录行为数据，输入到预先训练好的用户登录风险检测模型中，输出所述用户登录行为数据是异常登录行为数据的风险等级。

7.如权利要求6所述的装置，其特征在于，所述用户登录风险检测模型为剪枝处理后的决策树模型。

8.如权利要求7所述的装置，其特征在于，所述装置还包括：机器学习模块，用于：

将所述样本数据划分训练数据、验证数据和测试数据；

利用训练数据生成决策树分类模型；

对生成的决策树分类模型进行剪枝处理；

利用验证数据验证剪枝前、后决策树分类模型的分类效果；

9.如权利要求6所述的装置，其特征在于，所述装置还包括：

数据清洗模块，用于对采集的用户登录行为数据执行数据清洗操作，去除无效的用户登录行为数据。

10.如权利要求6至9任一项所述的装置，其特征在于，所述装置还包括：

二次登录验证模块，用于根据所述用户登录行为数据对应的风险等级，确定是否对所述目标用户执行二次登录验证，以及对所述目标用户执行二次登录验证的验证方式，其中，不同的验证方式对应不同的安全级别。

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一项所述异常登录行为数据检测方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至5任一项所述异常登录行为数据检测方法的计算机程序。