CN111612085B - 一种对等组中异常点的检测方法及装置 - Google Patents

一种对等组中异常点的检测方法及装置 Download PDF

Info

Publication number
CN111612085B
CN111612085B CN202010465783.6A CN202010465783A CN111612085B CN 111612085 B CN111612085 B CN 111612085B CN 202010465783 A CN202010465783 A CN 202010465783A CN 111612085 B CN111612085 B CN 111612085B
Authority
CN
China
Prior art keywords
peer
sample
value
point
peer group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010465783.6A
Other languages
English (en)
Other versions
CN111612085A (zh
Inventor
汲丽
钱沁莹
魏国富
葛胜利
钟丹阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information and Data Security Solutions Co Ltd
Original Assignee
Information and Data Security Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information and Data Security Solutions Co Ltd filed Critical Information and Data Security Solutions Co Ltd
Priority to CN202010465783.6A priority Critical patent/CN111612085B/zh
Publication of CN111612085A publication Critical patent/CN111612085A/zh
Application granted granted Critical
Publication of CN111612085B publication Critical patent/CN111612085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明提供了一种对等组中异常点的检测方法及装置,所述方法包括:1)、获取对应于待检测用户的原始数据,将所述原始数据作为样本,其中,所述原始数据包括:用户的设备属性信息、风控数据、业务数据;2)、使用加权概率分布模型确定出聚类中心点个数,并基于所述中心点对样本进行若干次K‑means聚类处理;3)根据各次聚类处理后的SSE值的最小值确定出目标k值;4)、将目标k值对应的聚类算法聚类后得到的簇作为对等组,针对每一个对等组,根据所述对等组中的样本点与对等组中其他样本点之间的比值获取每一个样本点的偏离度,根据所述偏离度获取异常点。应用本发明实施例,提高了安全性能。

Description

一种对等组中异常点的检测方法及装置
技术领域
本发明涉及网络安全技术领域,具体涉及一种对等组中异常点的检测方法及装置。
背景技术
在互联网越来越发达的今天,人们越来越多的在网上购物,因此,电商平台往往拥有大量访问客户,为了吸引更多的用户购物,电商平台上的商家往往推出各种各样的优惠活动,包括但不仅限于现金券、打折券、返现券、赠品等。这些优惠活动在吸引了正常的用户的同时,也吸引了各种不法分子的注意,由此产生了如薅羊毛、盗号、代客下单、偷取会员权益、泄漏个人信息等针对电商平台的攻击行为,因此,如何识别出这些行为是亟待解决的技术问题。
现有技术中,申请号为201911200324.9的发明专利申请公开了一种用户登录异常的IP群体识别方法及装置,方法包括:获取登录日志,对各个预设周期内的登录日志进行统计,获取各个IP的登录频次序列;将登录频次序列作为样本集合训练孤立森林算法,得到各个IP地址的分值;针对每一个分值,获取分值的众数,获取与众数对应的登录日志集合;从登录频次序列将对应于众数的登录日志的频次序列筛选出来,并对筛选出的频次序列进行二值化处理,得到各个IP在各个周期的标记;根据各个IP在各个周期的标记,利用kappa算法获取登录日志集合的数据之间的kappa系数,并kappa系数大于预设阈值的登录日志集合作为登录异常群体。可以识别出IP之间相互独立的黑产行为。
但是,现有技术仅能根据IP地址进行异常群体的发现,样本种类较少,导致不能发现其他种类的异常群体,因此,现有技术存在安全性较低的技术问题。
发明内容
本发明所要解决的技术问题在于如何提高安全性。
本发明通过以下技术手段实现解决上述技术问题的:
本发明提供了一种对等组中异常点的检测方法,所述方法包括:
1)、获取对应于待检测用户的原始数据,将所述原始数据作为样本,其中,所述原始数据包括:用户的设备属性信息、风控数据、业务数据;
2)、使用加权概率分布模型确定出聚类中心点个数,并基于所述中心点对样本进行若干次K-means聚类处理;
3)根据各次聚类处理后的SSE值的最小值确定出目标k值;
4)、将目标k值对应的聚类算法聚类后得到的簇作为对等组,针对每一个对等组,根据所述对等组中的样本点与对等组中其他样本点之间的比值获取每一个样本点的偏离度,根据所述偏离度获取异常点。
应用本发明实施例,根据用户的设备属性信息、风控数据、业务数据,采用聚类算法进行对等组划分,然后根据对等组内各个样本点的偏离度进行异常点的发现,本发明中使用的样本种类更多,因此,可以发现更多种类的异常点,进而提高了安全性能。
可选的,步骤1),包括:
获取对应于待检测用户的原始数据;
对所述原始数据进行去噪处理,得到去噪后的原始数据。
可选的,所述步骤2),包括:
21)、针对当前k值,从输入的样本中随机选择一个样本作为第一个中心点,将所述中心点作为当前中心点,并将所述当前中心点加入到中心点集合M中;
22)、计算当前中心点与其他样本点之间的距离,将距离最小的其他样本点加入到当前中心点对应的当前簇中;
23)、使用加权概率分布模型从除当前簇中的样本点之外的其他样本点中随机一个样本点作为当前中心点,并返回执行步骤21),直至得到k个中心点,其中,k为预设的大于二的整数;
24),将与当前k值不同的k值作为当前k值,并返回执行步骤21),直至得到若干个k值。
可选的,所述步骤3),包括:
将SSE值拟合成函数曲线,并根据函数曲线的二阶导数计算出SSE值的最小极值点,将所述最小极值点对应的k值作为目标k值。
可选的,所述将所述原始数据作为样本,包括:
根据原始数据中的特定数据对原始数据进行关联处理,将关联起来的原始数据的集合作为一个样本,进而得到若干个样本,其中,所述特定数据包括:手机号码、用户ID、IP地址中的一个或组合。
可选的,所述步骤4)中的根据所述对等组中的样本点与对等组中其他样本点之间的比值获取每一个样本点的偏离度,根据所述偏离度获取异常点步骤,包括:
计算所述对等组中样本点的分布平均值,将所述平均值作为所述对等组的基线,根据对等组内的各个样本点与对等组的基线之间的距离计算各个样本点对应的偏离度,将偏离度大于预设阈值的点作为异常点。
本发明还提供了一种对等组中异常点的检测装置,所述装置包括:
第一获取模块,用于获取对应于待检测用户的原始数据,将所述原始数据作为样本,其中,所述原始数据包括:用户的设备属性信息、风控数据、业务数据;
聚类模块,用于使用加权概率分布模型确定出聚类中心点个数,并基于所述中心点对样本进行若干次K-means聚类处理;
确定模块,用于根据各次聚类处理后的SSE值的最小值确定出目标k值;
第二获取模块,用于将目标k值对应的聚类算法聚类后得到的簇作为对等组,针对每一个对等组,根据所述对等组中的样本点与对等组中其他样本点之间的比值获取每一个样本点的偏离度,根据所述偏离度获取异常点。
可选的,第一获取模块,用于:
获取对应于待检测用户的原始数据;
对所述原始数据进行去噪处理,得到去噪后的原始数据。
可选的,所述聚类模块,用于:
21)、针对当前k值,从输入的样本中随机选择一个样本作为第一个中心点,将所述中心点作为当前中心点,并将所述当前中心点加入到中心点集合M中;
22)、计算当前中心点与其他样本点之间的距离,将距离最小的其他样本点加入到当前中心点对应的当前簇中;
23)、使用加权概率分布模型从除当前簇中的样本点之外的其他样本点中随机一个样本点作为当前中心点,并返回执行步骤21),直至得到k个中心点,其中,k为预设的大于二的整数;
24),将与当前k值不同的k值作为当前k值,并返回执行步骤21),直至得到若干个k值。
可选的,所述确定模块,用于:
将SSE值拟合成函数曲线,并根据函数曲线的二阶导数计算出SSE值的最小极值点,将所述最小极值点对应的k值作为目标k值。
本发明的优点在于:
应用本发明实施例,根据用户的设备属性信息、风控数据、业务数据,采用聚类算法进行对等组划分,然后根据对等组内各个样本点的偏离度进行异常点的发现,本发明中使用的样本种类更多,因此,可以发现更多种类的异常点,进而提高了安全性能。
附图说明
图1为本发明实施例提供的一种对等组中异常点的检测方法的流程示意图;
图2为本发明实施例提供的一种对等组中异常点的检测方法的原理示意图;
图3为本发明实施例提供的一种对等组中异常点的检测装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
图1为本发明实施例提供的一种对等组中异常点的检测方法的流程示意图,图2为本发明实施例提供的一种对等组中异常点的检测方法的原理示意图,如图1和图2所示,方法包括:
S101:获取对应于待检测用户的原始数据,将所述原始数据作为样本,其中,所述原始数据包括:用户的设备属性信息、风控数据、业务数据。
示例性的,首先,从平台的业务系统、平台的文本日志等相关数据源中将数据抽取出来。然后去除掉其中的噪音异常数据,例如与用户访问行为无关的数据,测试数据或者访问的除待监测平台之外的其他平台的数据,仅保留用户访问待监测平台时产生的用户点击数据,该用户点击数据即为原始数据。原始数据包括以下三个方面:
第一:设备属性信息,设备属性信息主要用于鉴别设备是否合法或者合规。例如,在用户对电商APP进行操作时,我们对操作流程中的重要关卡进行埋点处理,每一个用户触发一次预设点之后就会产生一条用户所在场景信息和一条设备属性信息,以此作为一条数据,字段间用逗号分割,用户之间用换行分割,文件按照csv的格式进行保存。通常情况下,设备属性信息的字段包含有:设备ID(deviced_id)、设备型号(product_names)、场景信息、Mac地址(mac_adress)、APP名称(label)、版本号(versioncode)、APP大小(apksize)、首次安装时间(firstinstalltime)、电池健康程度(health)、充电状态(pluged)、当前电量状态(power)、电量标准(scale)、电量状态(status)、电压(voltage)、电池结构(technology)、屏幕分辨(density)、屏幕物理大小(physicalsize)、屏幕分辨率(resolution)、内存大小(memtotal)、当前cpu个数(cpunum)、cpu频率(bogomips)、cpu架构(processor)、cpu总个数(cpu_architecture)、cpu属性1(cpu_implementer)、cpu属性2(hardware)、照相机属性1(largestsize)、照相机属性2(support_formats)、安全模块属性1(blacklisthit)、安全模块属性2
(cydiasubstrate)、root权限(root)、沙盒(sandbox)、模拟器(simulator)、静态(statichook)、声卡信息-可获取的最大音量(maxvolumeaccessibility)、声卡信息-最大音量(maxvolumealarm)、声卡信息-(maxvolumedtmf)、声卡信息-音乐音量(maxvolumemusic)、声卡信息-最大通知音量(maxvolumenotification)、声卡信息-最大闹钟音量(maxvolumering)、声卡信息-最大系统音量(maxvolumesystm)、声卡信息-最大通话音量(maxvolumevoicecall)、声卡信息-铃声模式(ringermode)、蓝牙历史连接个数(hasPermission)、蓝牙信息-是否可见(isDiscovering)、蓝牙信息-是否可被获取(isEnable)、蓝牙信息-是否功能支持(isFeatureSupport)、蓝牙信息-是否Le2MPhy支持(isLe2MPhySupported)、蓝牙信息-是否LeCodedPhy支持(isLeCodedPhySupported)、蓝牙信息-是否支持广告拓展(isLeExtendedAdvertisingSupported)、蓝牙信息-是否支持定期广告(isLePeriodicAdvertisingSupported)、蓝牙信息-是否支持混合式广告(isMultipleAdvertisementSupported)、蓝牙信息-是否支持卸载过滤(isOffloadedFilteringSupported)、蓝牙信息-是否支持扫描卸载批处理(isOffloadedScanBatchingSupported)、应用个数(applist_count)、系统应用个数(sysapplist_count)、安全模块属性(sensor_count)、sim卡信息(sim_mes)、国际移动用户识别码(IMSI)、国际移动设备识别码(IMEI)
安全模块属性1与安全模块属性2均为手机系统中自带的信息。
第二:风控数据,风控数据包含了用户的所有请求信息及个人信息,用户每次对电商APP的操作为一条数据,以‘src_user’为主键,字段间用逗号分割,用户之间用换行分割,文件按照csv的格式进行保存。设备属性信息的字段包含有:用户名(src_user)、时间戳(eval_timestamp)、浏览器分配ID(browser_client_id)、业务环节(bussiness_scenario)、手机号码(cellphone_no)、cookie_id(cookie_id)、时间渠道(ch_event_channel)、事件类型(ch_event_type)、系统(ch_system)、IP地址(ipaddr)、IP所在城市(ipip_city)、IP所在省份(ipip_province)、数字身份识别框架、(openid)、用户代理(useragent)、命中规则数(count)、登陆渠道(login_channel)、APP程序版本信息(app_version)、Openid(Openid)、规则组名(agenda_name)、命中规则数(count)、事件编号(event_id)、生效规则组标记(flag)、接口错误消息(message)、设备是否是模拟器(device_simulator)、设备是否是虚拟机(device_vm)、网络状态(network_type)、认证方式(login_way)、登陆渠道(login_channel)
第三:业务数据,业务数据包含了用户的所有订单、退单和订单详情等信息,用户每次对订单的操作作为一条数据,以‘src_user’为主键,字段间用逗号分割,用户之间用换行分割,文件按照csv的格式进行保存。设备属性信息的字段包含有:用户名(src_user)、时间戳(eval_timestamp)、订单编号(order_id)、电话号码(cellphone_no)、订单场景(ch_bussiness_scenario)、系统(ch_system)、IP地址(ipaddr)、IP所在城市(ipip_city)、IP所在省份(ipip_province)、数字身份识别框架(openid)、用户代理(useragent)、商品集(goods_set)、优惠券名称()、订单渠道(event_channel)、下单渠道(order_channel)、订单商品金额(order_amount)、收货人手机号码(order_cellphone_no)、订单号(order_no)、订单商品数量(order_qty)、订单类型(order_type)、收货地址(receipt_address)、餐厅名(restaurant_name)、商品名称(goods_name)、业务环(ch_bussiness_scenario)、业务系统(ch_system)、事件评估状态码(eval_code)、登陆时间(login_timestamp)、认证方式(login_way)、订单时间(order_timestamp)、请求时间戳(timestamp)、SSOID(ssoid)。
进一步的,根据原始数据中的特定数据对原始数据进行关联处理,将关联起来的原始数据的集合作为一个样本,进而得到若干个样本,其中,所述特定数据包括:手机号码、用户ID、IP地址中的一个或组合。
例如,将使用或者对应同一个手机号码的设备属性信息、风控数据、业务数据中的一种或者组合中的数据的集合作为一个样本,还可以将对应同一个用户ID的上述数据的集合作为一个样本,以避免同一个用户的多条数据或者多种数据被分别作为单独的数据进行处理导致的数据处理量大、效率低下的技术问题。
S102:使用加权概率分布模型确定出聚类中心点个数,并基于所述中心点对样本进行若干次K-means聚类处理。
示例性的,S102步骤可以包括以下步骤;
21)、在当前k值对应的迭代中,从输入的1000样本中随机选择一个样本A作为第一个中心点,将所述中心点作为当前中心点,并将所述当前中心点加入到中心点集合M中;
22)、计算当前中心点与其他样本点之间的距离,将距离最小的其他样本点加入到当前中心点对应的当前簇中,得到了第一个簇;
23)、使用加权概率分布模型从除当前簇中的样本点之外的其他样本点中随机一个样本点作为第二个中心点,然后重复执行21)和22)步骤,得到了第二个中心点对应的簇,按照样本点的密集程度作为归属同一簇的证据。以该样本点属于样本点同一簇的概率高低进行排序,距离越近,概率越高,归属同一簇的可能性越大。进而将距离小于设定距离的样本点归集到该中心点对应的簇中,依次类推,直至得到k个中心点,其中,k为预设的大于二的整数;
24),将与当前k值不同的k值作为当前k值,例如可以将k+1作为新的当前k值,或者可以将k-1作为新的当前k值,也可以随机选择与当前k值不同k值作为当前k值,然后重复执行步骤21)-步骤24),直至得到若干个k值。
在本发明实施例中,本发明实施例着重作团伙分析,如某黑客注册大量账号,以获取生日或节日优惠券为目的进行薅羊毛活动,此时他们会表现出相当异常的群体性访问,如大量聚集于跳过登陆环节、没有优惠码验证环节、跳过付款验证码等环节,甚至有些还可以后台跳过收货环节直接进入退款环节,但是货款返还后并没有商品退回,诸如此类以及早作出预警反应。本发明实施例以某用户的行为特征或物理属性特征为输入数据,以偏离度、异常日期、对等组基线及组内排名等为输出目标,进而可以作为直接显示异常用户异常程度的指标,然后,再选用K-means算法进行聚类计算,由于K-means算法需要随机选择初始化的中心点,如果中心点选择不合适,可能会导致簇的效果不好或产生收敛速度慢等问题,本发明实施例中采取多次K-means算法运行的方式,根据簇内无差平方和来选择性能最好的模型,可以避免上述问题。
在P2P网络环境中,彼此连接的多台计算机之间都处于对等的地位,各台计算机有相同的功能,无主从之分,因此该网络中的计算机被称为对等组计算机,在对等组计算机中,一台计算机既可作为服务器,设定共享资源供网络中其他计算机所使用,又可以作为工作站,整个网络一般来说不依赖专用的集中服务器,也没有专用的工作站。因此,在本发明实施例中,对等组是指性质相近的样本点。
S103:根据各次聚类处理后的SSE值的最小值确定出目标k值。
分别计算各个k值对应的SSE(The sum of squares due to error,误差平方和),然后,以k值为横轴,以SSE值为纵轴,将各个k值的SSE映射到二维坐标系中。然后,使用曲线拟合二维坐标系中的各个点,得到成函数曲线,并根据函数曲线的二阶导数计算出SSE值的最小极值点,将所述最小极值点对应的k值作为目标k值。
可理解的是,二阶导数大于0时,为极小值点。当一阶导数等于0,而二阶导数小于0时,为极大值点。
S104:将目标k值对应的聚类算法聚类后得到的簇作为对等组,针对每一个对等组,根据所述对等组中的样本点与对等组中其他样本点之间的比值获取每一个样本点的偏离度,根据所述偏离度获取异常点。
具体的,将一个簇作为一个对等组,针对每一个对等组,计算所述对等组中样本点的分布平均值,将所述平均值作为所述对等组的基线,计算对等组内的各个样本点与对等组的基线的比值,将该比值作为样本点偏离对等组基线的偏离度,将偏离度的绝对值大于预设阈值的点作为异常点。
偏离阈值的定义可进行自定义配置,本发明实施例中的模型提供默认值。
应用本发明实施例,根据用户的设备属性信息、风控数据、业务数据,采用聚类算法进行对等组划分,然后根据对等组内各个样本点的偏离度进行异常点的发现,本发明中使用的样本种类更多,因此,可以发现更多种类的异常点,进而提高了安全性能。
对应于本发明实施例1,本发明还提供了实施例2
实施例2
图3为本发明实施例提供的一种对等组中异常点的检测装置的结构示意图,如图3所示,所述装置包括:
第一获取模块301,用于获取对应于待检测用户的原始数据,将所述原始数据作为样本,其中,所述原始数据包括:用户的设备属性信息、风控数据、业务数据;
聚类模块302,用于使用加权概率分布模型确定出聚类中心点个数,并基于所述中心点对样本进行若干次K-means聚类处理;
确定模块303,用于根据各次聚类处理后的SSE值的最小值确定出目标k值;
第二获取模块304,用于将目标k值对应的聚类算法聚类后得到的簇作为对等组,针对每一个对等组,根据所述对等组中的样本点与对等组中其他样本点之间的比值获取每一个样本点的偏离度,根据所述偏离度获取异常点。
进一步的,第一获取模块301,用于:
获取对应于待检测用户的原始数据;
对所述原始数据进行去噪处理,得到去噪后的原始数据。
进一步的,所述聚类模块302,用于:
21)、针对当前k值,从输入的样本中随机选择一个样本作为第一个中心点,将所述中心点作为当前中心点,并将所述当前中心点加入到中心点集合M中;
22)、计算当前中心点与其他样本点之间的距离,将距离最小的其他样本点加入到当前中心点对应的当前簇中;
23)、使用加权概率分布模型从除当前簇中的样本点之外的其他样本点中随机一个样本点作为当前中心点,并返回执行步骤21),直至得到k个中心点,其中,k为预设的大于二的整数;
24),将与当前k值不同的k值作为当前k值,并返回执行步骤21),直至得到若干个k值。
进一步的,所述确定模块303,用于:
将SSE值拟合成函数曲线,并根据函数曲线的二阶导数计算出SSE值的最小极值点,将所述最小极值点对应的k值作为目标k值。
进一步的,所述第一获取模块301,用于:
根据原始数据中的特定数据对原始数据进行关联处理,将关联起来的原始数据的集合作为一个样本,进而得到若干个样本,其中,所述特定数据包括:手机号码、用户ID、IP地址中的一个或组合。
进一步的,所述第二获取模块304,用于:
计算所述对等组中样本点的分布平均值,将所述平均值作为所述对等组的基线,根据对等组内的各个样本点与对等组的基线之间的距离计算各个样本点对应的偏离度,将偏离度大于预设阈值的点作为异常点。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种对等组中异常点的检测方法,其特征在于,所述方法包括:
1)、获取对应于待检测用户的原始数据,将所述原始数据作为样本,其中,所述原始数据包括:用户的设备属性信息、风控数据、业务数据;
2)、使用加权概率分布模型确定出聚类中心点个数,并基于所述中心点对样本进行若干次K-means聚类处理;
3)、根据各次聚类处理后的SSE值的最小值确定出目标k值;
4)、将目标k值对应的聚类算法聚类后得到的簇作为对等组,针对每一个对等组,根据所述对等组中的样本点与对等组中其他样本点之间的比值获取每一个样本点的偏离度,根据所述偏离度获取异常点;
所述步骤2),包括:
21)、针对当前k值,从输入的样本中随机选择一个样本作为第一个中心点,将所述中心点作为当前中心点,并将所述当前中心点加入到中心点集合M中;
22)、计算当前中心点与其他样本点之间的距离,将距离最小的其他样本点加入到当前中心点对应的当前簇中;
23)、使用加权概率分布模型从除当前簇中的样本点之外的其他样本点中随机一个样本点作为当前中心点,并返回执行步骤21),直至得到k个中心点,其中,k为预设的大于二的整数;
24),将与当前k值不同的k值作为当前k值,并返回执行步骤21),直至得到若干个k值;
所述步骤4)包括:
计算所述对等组中样本点的分布平均值,将所述平均值作为所述对等组的基线,根据对等组内的各个样本点与对等组的基线之间的距离计算各个样本点对应的偏离度,将偏离度大于预设阈值的点作为异常点。
2.根据权利要求1所述的一种对等组中异常点的检测方法,其特征在于,步骤1),包括:
获取对应于待检测用户的原始数据;
对所述原始数据进行去噪处理,得到去噪后的原始数据。
3.根据权利要求1所述的一种对等组中异常点的检测方法,其特征在于,所述步骤3),包括:
将SSE值拟合成函数曲线,并根据函数曲线的二阶导数计算出SSE值的最小极值点,将所述最小极值点对应的k值作为目标k值。
4.根据权利要求1所述的一种对等组中异常点的检测方法,其特征在于,所述将所述原始数据作为样本,包括:
根据原始数据中的特定数据对原始数据进行关联处理,将关联起来的原始数据的集合作为一个样本,进而得到若干个样本,其中,所述特定数据包括:手机号码、用户ID、IP地址中的一个或组合。
5.一种对等组中异常点的检测装置,其特征在于,所述装置包括:
第一获取模块,用于获取对应于待检测用户的原始数据,将所述原始数据作为样本,其中,所述原始数据包括:用户的设备属性信息、风控数据、业务数据;
聚类模块,用于使用加权概率分布模型确定出聚类中心点个数,并基于所述中心点对样本进行若干次K-means聚类处理;具体包括:
21)、针对当前k值,从输入的样本中随机选择一个样本作为第一个中心点,将所述中心点作为当前中心点,并将所述当前中心点加入到中心点集合M中;
22)、计算当前中心点与其他样本点之间的距离,将距离最小的其他样本点加入到当前中心点对应的当前簇中;
23)、使用加权概率分布模型从除当前簇中的样本点之外的其他样本点中随机一个样本点作为当前中心点,并返回执行步骤21),直至得到k个中心点,其中,k为预设的大于二的整数;
24),将与当前k值不同的k值作为当前k值,并返回执行步骤21),直至得到若干个k值;
确定模块,用于根据各次聚类处理后的SSE值的最小值确定出目标k值;
第二获取模块,用于将目标k值对应的聚类算法聚类后得到的簇作为对等组,针对每一个对等组,根据所述对等组中的样本点与对等组中其他样本点之间的比值获取每一个样本点的偏离度,根据所述偏离度获取异常点;具体为:计算所述对等组中样本点的分布平均值,将所述平均值作为所述对等组的基线,根据对等组内的各个样本点与对等组的基线之间的距离计算各个样本点对应的偏离度,将偏离度大于预设阈值的点作为异常点。
6.根据权利要求5所述的一种对等组中异常点的检测装置,其特征在于,第一获取模块,用于:
获取对应于待检测用户的原始数据;
对所述原始数据进行去噪处理,得到去噪后的原始数据。
7.根据权利要求5所述的一种对等组中异常点的检测装置,其特征在于,所述确定模块,用于:
将SSE值拟合成函数曲线,并根据函数曲线的二阶导数计算出SSE值的最小极值点,将所述最小极值点对应的k值作为目标k值。
CN202010465783.6A 2020-05-28 2020-05-28 一种对等组中异常点的检测方法及装置 Active CN111612085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010465783.6A CN111612085B (zh) 2020-05-28 2020-05-28 一种对等组中异常点的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010465783.6A CN111612085B (zh) 2020-05-28 2020-05-28 一种对等组中异常点的检测方法及装置

Publications (2)

Publication Number Publication Date
CN111612085A CN111612085A (zh) 2020-09-01
CN111612085B true CN111612085B (zh) 2023-07-11

Family

ID=72198395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010465783.6A Active CN111612085B (zh) 2020-05-28 2020-05-28 一种对等组中异常点的检测方法及装置

Country Status (1)

Country Link
CN (1) CN111612085B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149749B (zh) * 2020-09-29 2024-03-19 北京明朝万达科技股份有限公司 异常行为检测方法、装置、电子设备及可读存储介质
CN112465073B (zh) * 2020-12-23 2023-08-08 上海观安信息技术股份有限公司 一种基于距离的数值分布异常检测方法及检测系统
CN113301600A (zh) * 2021-07-27 2021-08-24 南京中网卫星通信股份有限公司 卫星与无线通信融合网络性能的异常数据检测方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122879A (zh) * 2017-03-03 2017-09-01 广东南方电力通信有限公司 一种基于大数据与设备状态异常跟踪的电网状态检修方法
CN108829878A (zh) * 2018-06-26 2018-11-16 北京理工大学 一种工业实验数据异常点检测方法及装置
JP2019070930A (ja) * 2017-10-06 2019-05-09 株式会社日立パワーソリューションズ 異常検知装置および異常検知方法
CN109961086A (zh) * 2019-01-28 2019-07-02 平安科技(深圳)有限公司 基于聚类和sse的异常点比例优化方法及装置
CN110210508A (zh) * 2018-12-06 2019-09-06 北京奇艺世纪科技有限公司 模型生成方法、异常流量检测方法、装置、电子设备、计算机可读存储介质
CN110300027A (zh) * 2019-06-29 2019-10-01 西安交通大学 一种异常登录检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101711028B1 (ko) * 2012-05-04 2017-03-13 한국전자통신연구원 클러스터링 기법을 이용한 차량 이상상태 모니터링 장치 및 그 방법
US10963346B2 (en) * 2018-06-05 2021-03-30 Oracle International Corporation Scalable methods and systems for approximating statistical distributions
US10956789B2 (en) * 2019-03-28 2021-03-23 Intel Corporation Systems, methods, and apparatus to improve computing system utilization

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122879A (zh) * 2017-03-03 2017-09-01 广东南方电力通信有限公司 一种基于大数据与设备状态异常跟踪的电网状态检修方法
JP2019070930A (ja) * 2017-10-06 2019-05-09 株式会社日立パワーソリューションズ 異常検知装置および異常検知方法
CN108829878A (zh) * 2018-06-26 2018-11-16 北京理工大学 一种工业实验数据异常点检测方法及装置
CN110210508A (zh) * 2018-12-06 2019-09-06 北京奇艺世纪科技有限公司 模型生成方法、异常流量检测方法、装置、电子设备、计算机可读存储介质
CN109961086A (zh) * 2019-01-28 2019-07-02 平安科技(深圳)有限公司 基于聚类和sse的异常点比例优化方法及装置
CN110300027A (zh) * 2019-06-29 2019-10-01 西安交通大学 一种异常登录检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Detecting Outliers in Streaming Time Series Data from ARM Distributed Sensors;Yuping Lu等;《2018 IEEE International Conference on Data Mining Workshops (ICDMW)》;20190210;全文 *
一种融合聚类和异常点检测算法的窃电辨识方法;李宁等;《电测与仪表》;20181110(第21期);全文 *
基于异常检测的K-means改进算法研究;薛晨杰等;《软件导刊》;20190125(第04期);全文 *

Also Published As

Publication number Publication date
CN111612085A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN108780479B (zh) 用于对异常进行检测和评分的系统和方法
US10796316B2 (en) Method and system for identifying fraudulent publisher networks
CN111612085B (zh) 一种对等组中异常点的检测方法及装置
US20200162492A1 (en) Security weakness and infiltration detection and repair in obfuscated website content
CN109309596B (zh) 一种压力测试方法、装置及服务器
CN110300084B (zh) 基于ip地址的画像方法和装置,电子设备,可读介质
CN107808346B (zh) 一种潜在目标对象的评估方法及评估装置
CN112733045B (zh) 用户行为的分析方法、装置及电子设备
CN111885007B (zh) 信息溯源方法、装置、系统及存储介质
CN111611519B (zh) 一种个人异常行为检测方法及装置
CN111083013A (zh) 基于流量回放的测试方法、装置、电子设备及存储介质
EP3506592B1 (en) Method and system for detecting fradulent user-content provider pairs
CN108804501B (zh) 一种检测有效信息的方法及装置
US20140351931A1 (en) Methods, systems and media for detecting non-intended traffic using co-visitation information
CN110324352A (zh) 识别批量注册账号群的方法及装置
CN111245815B (zh) 数据处理方法、装置、存储介质及电子设备
CN112307297A (zh) 一种基于优先级规则的用户标识统一方法及系统
US11916946B2 (en) Systems and methods for network traffic analysis
CN112347457A (zh) 异常账户检测方法、装置、计算机设备和存储介质
CN108737350B (zh) 一种信息处理方法及客户端
CN115914408A (zh) 短链接信息的数据分析方法和管理方法、电子设备
CN115358772A (zh) 一种交易风险预测方法、装置、存储介质及计算机设备
CN111865696B (zh) 网络安全的可视化方法、装置、设备及介质
CN115296840B (zh) 基于关联节点安全状态的安全预警方法、装置及电子设备
CN110991505B (zh) 异常对象识别方法和装置以及异常行为识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant