CN111612085B

CN111612085B - 一种对等组中异常点的检测方法及装置

Info

Publication number: CN111612085B
Application number: CN202010465783.6A
Authority: CN
Inventors: 汲丽; 钱沁莹; 魏国富; 葛胜利; 钟丹阳
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2023-07-11
Anticipated expiration: 2040-05-28
Also published as: CN111612085A

Abstract

本发明提供了一种对等组中异常点的检测方法及装置，所述方法包括：1)、获取对应于待检测用户的原始数据，将所述原始数据作为样本，其中，所述原始数据包括：用户的设备属性信息、风控数据、业务数据；2)、使用加权概率分布模型确定出聚类中心点个数，并基于所述中心点对样本进行若干次K‑means聚类处理；3)根据各次聚类处理后的SSE值的最小值确定出目标k值；4)、将目标k值对应的聚类算法聚类后得到的簇作为对等组，针对每一个对等组，根据所述对等组中的样本点与对等组中其他样本点之间的比值获取每一个样本点的偏离度，根据所述偏离度获取异常点。应用本发明实施例，提高了安全性能。

Description

一种对等组中异常点的检测方法及装置

技术领域

本发明涉及网络安全技术领域，具体涉及一种对等组中异常点的检测方法及装置。

背景技术

在互联网越来越发达的今天，人们越来越多的在网上购物，因此，电商平台往往拥有大量访问客户，为了吸引更多的用户购物，电商平台上的商家往往推出各种各样的优惠活动，包括但不仅限于现金券、打折券、返现券、赠品等。这些优惠活动在吸引了正常的用户的同时，也吸引了各种不法分子的注意，由此产生了如薅羊毛、盗号、代客下单、偷取会员权益、泄漏个人信息等针对电商平台的攻击行为，因此，如何识别出这些行为是亟待解决的技术问题。

现有技术中，申请号为201911200324.9的发明专利申请公开了一种用户登录异常的IP群体识别方法及装置，方法包括：获取登录日志，对各个预设周期内的登录日志进行统计，获取各个IP的登录频次序列；将登录频次序列作为样本集合训练孤立森林算法，得到各个IP地址的分值；针对每一个分值，获取分值的众数，获取与众数对应的登录日志集合；从登录频次序列将对应于众数的登录日志的频次序列筛选出来，并对筛选出的频次序列进行二值化处理，得到各个IP在各个周期的标记；根据各个IP在各个周期的标记，利用kappa算法获取登录日志集合的数据之间的kappa系数，并kappa系数大于预设阈值的登录日志集合作为登录异常群体。可以识别出IP之间相互独立的黑产行为。

但是，现有技术仅能根据IP地址进行异常群体的发现，样本种类较少，导致不能发现其他种类的异常群体，因此，现有技术存在安全性较低的技术问题。

发明内容

本发明所要解决的技术问题在于如何提高安全性。

本发明通过以下技术手段实现解决上述技术问题的：

本发明提供了一种对等组中异常点的检测方法，所述方法包括：

1)、获取对应于待检测用户的原始数据，将所述原始数据作为样本，其中，所述原始数据包括：用户的设备属性信息、风控数据、业务数据；

2)、使用加权概率分布模型确定出聚类中心点个数，并基于所述中心点对样本进行若干次K-means聚类处理；

3)根据各次聚类处理后的SSE值的最小值确定出目标k值；

4)、将目标k值对应的聚类算法聚类后得到的簇作为对等组，针对每一个对等组，根据所述对等组中的样本点与对等组中其他样本点之间的比值获取每一个样本点的偏离度，根据所述偏离度获取异常点。

应用本发明实施例，根据用户的设备属性信息、风控数据、业务数据，采用聚类算法进行对等组划分，然后根据对等组内各个样本点的偏离度进行异常点的发现，本发明中使用的样本种类更多，因此，可以发现更多种类的异常点，进而提高了安全性能。

可选的，步骤1)，包括：

获取对应于待检测用户的原始数据；

对所述原始数据进行去噪处理，得到去噪后的原始数据。

可选的，所述步骤2)，包括：

21)、针对当前k值，从输入的样本中随机选择一个样本作为第一个中心点，将所述中心点作为当前中心点，并将所述当前中心点加入到中心点集合M中；

22)、计算当前中心点与其他样本点之间的距离，将距离最小的其他样本点加入到当前中心点对应的当前簇中；

23)、使用加权概率分布模型从除当前簇中的样本点之外的其他样本点中随机一个样本点作为当前中心点，并返回执行步骤21)，直至得到k个中心点，其中，k为预设的大于二的整数；

24)，将与当前k值不同的k值作为当前k值，并返回执行步骤21)，直至得到若干个k值。

可选的，所述步骤3)，包括：

将SSE值拟合成函数曲线，并根据函数曲线的二阶导数计算出SSE值的最小极值点，将所述最小极值点对应的k值作为目标k值。

可选的，所述将所述原始数据作为样本，包括：

根据原始数据中的特定数据对原始数据进行关联处理，将关联起来的原始数据的集合作为一个样本，进而得到若干个样本，其中，所述特定数据包括：手机号码、用户ID、IP地址中的一个或组合。

可选的，所述步骤4)中的根据所述对等组中的样本点与对等组中其他样本点之间的比值获取每一个样本点的偏离度，根据所述偏离度获取异常点步骤，包括：

计算所述对等组中样本点的分布平均值，将所述平均值作为所述对等组的基线，根据对等组内的各个样本点与对等组的基线之间的距离计算各个样本点对应的偏离度，将偏离度大于预设阈值的点作为异常点。

本发明还提供了一种对等组中异常点的检测装置，所述装置包括：

第一获取模块，用于获取对应于待检测用户的原始数据，将所述原始数据作为样本，其中，所述原始数据包括：用户的设备属性信息、风控数据、业务数据；

聚类模块，用于使用加权概率分布模型确定出聚类中心点个数，并基于所述中心点对样本进行若干次K-means聚类处理；

确定模块，用于根据各次聚类处理后的SSE值的最小值确定出目标k值；

第二获取模块，用于将目标k值对应的聚类算法聚类后得到的簇作为对等组，针对每一个对等组，根据所述对等组中的样本点与对等组中其他样本点之间的比值获取每一个样本点的偏离度，根据所述偏离度获取异常点。

可选的，第一获取模块，用于：

获取对应于待检测用户的原始数据；

对所述原始数据进行去噪处理，得到去噪后的原始数据。

可选的，所述聚类模块，用于：

可选的，所述确定模块，用于：

本发明的优点在于：

附图说明

图1为本发明实施例提供的一种对等组中异常点的检测方法的流程示意图；

图2为本发明实施例提供的一种对等组中异常点的检测方法的原理示意图；

图3为本发明实施例提供的一种对等组中异常点的检测装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

图1为本发明实施例提供的一种对等组中异常点的检测方法的流程示意图，图2为本发明实施例提供的一种对等组中异常点的检测方法的原理示意图，如图1和图2所示，方法包括：

S101：获取对应于待检测用户的原始数据，将所述原始数据作为样本，其中，所述原始数据包括：用户的设备属性信息、风控数据、业务数据。

示例性的，首先，从平台的业务系统、平台的文本日志等相关数据源中将数据抽取出来。然后去除掉其中的噪音异常数据，例如与用户访问行为无关的数据，测试数据或者访问的除待监测平台之外的其他平台的数据，仅保留用户访问待监测平台时产生的用户点击数据，该用户点击数据即为原始数据。原始数据包括以下三个方面：

第一：设备属性信息，设备属性信息主要用于鉴别设备是否合法或者合规。例如，在用户对电商APP进行操作时，我们对操作流程中的重要关卡进行埋点处理，每一个用户触发一次预设点之后就会产生一条用户所在场景信息和一条设备属性信息，以此作为一条数据，字段间用逗号分割，用户之间用换行分割，文件按照csv的格式进行保存。通常情况下，设备属性信息的字段包含有：设备ID(deviced_id)、设备型号(product_names)、场景信息、Mac地址(mac_adress)、APP名称(label)、版本号(versioncode)、APP大小(apksize)、首次安装时间(firstinstalltime)、电池健康程度(health)、充电状态(pluged)、当前电量状态(power)、电量标准(scale)、电量状态(status)、电压(voltage)、电池结构(technology)、屏幕分辨(density)、屏幕物理大小(physicalsize)、屏幕分辨率(resolution)、内存大小(memtotal)、当前cpu个数(cpunum)、cpu频率(bogomips)、cpu架构(processor)、cpu总个数(cpu_architecture)、cpu属性1(cpu_implementer)、cpu属性2(hardware)、照相机属性1(largestsize)、照相机属性2(support_formats)、安全模块属性1(blacklisthit)、安全模块属性2

(cydiasubstrate)、root权限(root)、沙盒(sandbox)、模拟器(simulator)、静态(statichook)、声卡信息-可获取的最大音量(maxvolumeaccessibility)、声卡信息-最大音量(maxvolumealarm)、声卡信息-(maxvolumedtmf)、声卡信息-音乐音量(maxvolumemusic)、声卡信息-最大通知音量(maxvolumenotification)、声卡信息-最大闹钟音量(maxvolumering)、声卡信息-最大系统音量(maxvolumesystm)、声卡信息-最大通话音量(maxvolumevoicecall)、声卡信息-铃声模式(ringermode)、蓝牙历史连接个数(hasPermission)、蓝牙信息-是否可见(isDiscovering)、蓝牙信息-是否可被获取(isEnable)、蓝牙信息-是否功能支持(isFeatureSupport)、蓝牙信息-是否Le2MPhy支持(isLe2MPhySupported)、蓝牙信息-是否LeCodedPhy支持(isLeCodedPhySupported)、蓝牙信息-是否支持广告拓展(isLeExtendedAdvertisingSupported)、蓝牙信息-是否支持定期广告(isLePeriodicAdvertisingSupported)、蓝牙信息-是否支持混合式广告(isMultipleAdvertisementSupported)、蓝牙信息-是否支持卸载过滤(isOffloadedFilteringSupported)、蓝牙信息-是否支持扫描卸载批处理(isOffloadedScanBatchingSupported)、应用个数(applist_count)、系统应用个数(sysapplist_count)、安全模块属性(sensor_count)、sim卡信息(sim_mes)、国际移动用户识别码(IMSI)、国际移动设备识别码(IMEI)

安全模块属性1与安全模块属性2均为手机系统中自带的信息。

第二：风控数据，风控数据包含了用户的所有请求信息及个人信息，用户每次对电商APP的操作为一条数据，以‘src_user’为主键，字段间用逗号分割，用户之间用换行分割，文件按照csv的格式进行保存。设备属性信息的字段包含有：用户名(src_user)、时间戳(eval_timestamp)、浏览器分配ID(browser_client_id)、业务环节(bussiness_scenario)、手机号码(cellphone_no)、cookie_id(cookie_id)、时间渠道(ch_event_channel)、事件类型(ch_event_type)、系统(ch_system)、IP地址(ipaddr)、IP所在城市(ipip_city)、IP所在省份(ipip_province)、数字身份识别框架、(openid)、用户代理(useragent)、命中规则数(count)、登陆渠道(login_channel)、APP程序版本信息(app_version)、Openid(Openid)、规则组名(agenda_name)、命中规则数(count)、事件编号(event_id)、生效规则组标记(flag)、接口错误消息(message)、设备是否是模拟器(device_simulator)、设备是否是虚拟机(device_vm)、网络状态(network_type)、认证方式(login_way)、登陆渠道(login_channel)

第三：业务数据，业务数据包含了用户的所有订单、退单和订单详情等信息，用户每次对订单的操作作为一条数据，以‘src_user’为主键，字段间用逗号分割，用户之间用换行分割，文件按照csv的格式进行保存。设备属性信息的字段包含有：用户名(src_user)、时间戳(eval_timestamp)、订单编号(order_id)、电话号码(cellphone_no)、订单场景(ch_bussiness_scenario)、系统(ch_system)、IP地址(ipaddr)、IP所在城市(ipip_city)、IP所在省份(ipip_province)、数字身份识别框架(openid)、用户代理(useragent)、商品集(goods_set)、优惠券名称()、订单渠道(event_channel)、下单渠道(order_channel)、订单商品金额(order_amount)、收货人手机号码(order_cellphone_no)、订单号(order_no)、订单商品数量(order_qty)、订单类型(order_type)、收货地址(receipt_address)、餐厅名(restaurant_name)、商品名称(goods_name)、业务环(ch_bussiness_scenario)、业务系统(ch_system)、事件评估状态码(eval_code)、登陆时间(login_timestamp)、认证方式(login_way)、订单时间(order_timestamp)、请求时间戳(timestamp)、SSOID(ssoid)。

进一步的，根据原始数据中的特定数据对原始数据进行关联处理，将关联起来的原始数据的集合作为一个样本，进而得到若干个样本，其中，所述特定数据包括：手机号码、用户ID、IP地址中的一个或组合。

例如，将使用或者对应同一个手机号码的设备属性信息、风控数据、业务数据中的一种或者组合中的数据的集合作为一个样本，还可以将对应同一个用户ID的上述数据的集合作为一个样本，以避免同一个用户的多条数据或者多种数据被分别作为单独的数据进行处理导致的数据处理量大、效率低下的技术问题。

S102：使用加权概率分布模型确定出聚类中心点个数，并基于所述中心点对样本进行若干次K-means聚类处理。

示例性的，S102步骤可以包括以下步骤；

21)、在当前k值对应的迭代中，从输入的1000样本中随机选择一个样本A作为第一个中心点，将所述中心点作为当前中心点，并将所述当前中心点加入到中心点集合M中；

22)、计算当前中心点与其他样本点之间的距离，将距离最小的其他样本点加入到当前中心点对应的当前簇中，得到了第一个簇；

23)、使用加权概率分布模型从除当前簇中的样本点之外的其他样本点中随机一个样本点作为第二个中心点，然后重复执行21)和22)步骤，得到了第二个中心点对应的簇，按照样本点的密集程度作为归属同一簇的证据。以该样本点属于样本点同一簇的概率高低进行排序，距离越近，概率越高，归属同一簇的可能性越大。进而将距离小于设定距离的样本点归集到该中心点对应的簇中，依次类推，直至得到k个中心点，其中，k为预设的大于二的整数；

24)，将与当前k值不同的k值作为当前k值，例如可以将k+1作为新的当前k值，或者可以将k-1作为新的当前k值，也可以随机选择与当前k值不同k值作为当前k值，然后重复执行步骤21)-步骤24)，直至得到若干个k值。

在本发明实施例中，本发明实施例着重作团伙分析，如某黑客注册大量账号，以获取生日或节日优惠券为目的进行薅羊毛活动，此时他们会表现出相当异常的群体性访问，如大量聚集于跳过登陆环节、没有优惠码验证环节、跳过付款验证码等环节，甚至有些还可以后台跳过收货环节直接进入退款环节，但是货款返还后并没有商品退回，诸如此类以及早作出预警反应。本发明实施例以某用户的行为特征或物理属性特征为输入数据，以偏离度、异常日期、对等组基线及组内排名等为输出目标，进而可以作为直接显示异常用户异常程度的指标，然后，再选用K-means算法进行聚类计算，由于K-means算法需要随机选择初始化的中心点，如果中心点选择不合适，可能会导致簇的效果不好或产生收敛速度慢等问题，本发明实施例中采取多次K-means算法运行的方式，根据簇内无差平方和来选择性能最好的模型，可以避免上述问题。

在P2P网络环境中，彼此连接的多台计算机之间都处于对等的地位，各台计算机有相同的功能，无主从之分，因此该网络中的计算机被称为对等组计算机，在对等组计算机中，一台计算机既可作为服务器，设定共享资源供网络中其他计算机所使用，又可以作为工作站，整个网络一般来说不依赖专用的集中服务器，也没有专用的工作站。因此，在本发明实施例中，对等组是指性质相近的样本点。

S103：根据各次聚类处理后的SSE值的最小值确定出目标k值。

分别计算各个k值对应的SSE(The sum of squares due to error，误差平方和)，然后，以k值为横轴，以SSE值为纵轴，将各个k值的SSE映射到二维坐标系中。然后，使用曲线拟合二维坐标系中的各个点，得到成函数曲线，并根据函数曲线的二阶导数计算出SSE值的最小极值点，将所述最小极值点对应的k值作为目标k值。

可理解的是，二阶导数大于0时，为极小值点。当一阶导数等于0，而二阶导数小于0时，为极大值点。

S104：将目标k值对应的聚类算法聚类后得到的簇作为对等组，针对每一个对等组，根据所述对等组中的样本点与对等组中其他样本点之间的比值获取每一个样本点的偏离度，根据所述偏离度获取异常点。

具体的，将一个簇作为一个对等组，针对每一个对等组，计算所述对等组中样本点的分布平均值，将所述平均值作为所述对等组的基线，计算对等组内的各个样本点与对等组的基线的比值，将该比值作为样本点偏离对等组基线的偏离度，将偏离度的绝对值大于预设阈值的点作为异常点。

偏离阈值的定义可进行自定义配置，本发明实施例中的模型提供默认值。

对应于本发明实施例1，本发明还提供了实施例2

实施例2

图3为本发明实施例提供的一种对等组中异常点的检测装置的结构示意图，如图3所示，所述装置包括：

第一获取模块301，用于获取对应于待检测用户的原始数据，将所述原始数据作为样本，其中，所述原始数据包括：用户的设备属性信息、风控数据、业务数据；

聚类模块302，用于使用加权概率分布模型确定出聚类中心点个数，并基于所述中心点对样本进行若干次K-means聚类处理；

确定模块303，用于根据各次聚类处理后的SSE值的最小值确定出目标k值；

第二获取模块304，用于将目标k值对应的聚类算法聚类后得到的簇作为对等组，针对每一个对等组，根据所述对等组中的样本点与对等组中其他样本点之间的比值获取每一个样本点的偏离度，根据所述偏离度获取异常点。

进一步的，第一获取模块301，用于：

获取对应于待检测用户的原始数据；

对所述原始数据进行去噪处理，得到去噪后的原始数据。

进一步的，所述聚类模块302，用于：

进一步的，所述确定模块303，用于：

进一步的，所述第一获取模块301，用于：

进一步的，所述第二获取模块304，用于：

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种对等组中异常点的检测方法，其特征在于，所述方法包括：

3)、根据各次聚类处理后的SSE值的最小值确定出目标k值；

4)、将目标k值对应的聚类算法聚类后得到的簇作为对等组，针对每一个对等组，根据所述对等组中的样本点与对等组中其他样本点之间的比值获取每一个样本点的偏离度，根据所述偏离度获取异常点；

所述步骤2)，包括：

24)，将与当前k值不同的k值作为当前k值，并返回执行步骤21)，直至得到若干个k值；

所述步骤4)包括：

2.根据权利要求1所述的一种对等组中异常点的检测方法，其特征在于，步骤1)，包括：

获取对应于待检测用户的原始数据；

对所述原始数据进行去噪处理，得到去噪后的原始数据。

3.根据权利要求1所述的一种对等组中异常点的检测方法，其特征在于，所述步骤3)，包括：

4.根据权利要求1所述的一种对等组中异常点的检测方法，其特征在于，所述将所述原始数据作为样本，包括：

5.一种对等组中异常点的检测装置，其特征在于，所述装置包括：

聚类模块，用于使用加权概率分布模型确定出聚类中心点个数，并基于所述中心点对样本进行若干次K-means聚类处理；具体包括：

第二获取模块，用于将目标k值对应的聚类算法聚类后得到的簇作为对等组，针对每一个对等组，根据所述对等组中的样本点与对等组中其他样本点之间的比值获取每一个样本点的偏离度，根据所述偏离度获取异常点；具体为：计算所述对等组中样本点的分布平均值，将所述平均值作为所述对等组的基线，根据对等组内的各个样本点与对等组的基线之间的距离计算各个样本点对应的偏离度，将偏离度大于预设阈值的点作为异常点。

6.根据权利要求5所述的一种对等组中异常点的检测装置，其特征在于，第一获取模块，用于：

获取对应于待检测用户的原始数据；

对所述原始数据进行去噪处理，得到去噪后的原始数据。

7.根据权利要求5所述的一种对等组中异常点的检测装置，其特征在于，所述确定模块，用于：