CN105681312B - 一种基于频繁项集挖掘的移动互联网异常用户检测方法 - Google Patents

一种基于频繁项集挖掘的移动互联网异常用户检测方法 Download PDF

Info

Publication number
CN105681312B
CN105681312B CN201610060440.5A CN201610060440A CN105681312B CN 105681312 B CN105681312 B CN 105681312B CN 201610060440 A CN201610060440 A CN 201610060440A CN 105681312 B CN105681312 B CN 105681312B
Authority
CN
China
Prior art keywords
user
data
mobile internet
application
item set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610060440.5A
Other languages
English (en)
Other versions
CN105681312A (zh
Inventor
李青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Boya blockchain Research Institute Co., Ltd
Original Assignee
李青山
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 李青山 filed Critical 李青山
Priority to CN201610060440.5A priority Critical patent/CN105681312B/zh
Publication of CN105681312A publication Critical patent/CN105681312A/zh
Application granted granted Critical
Publication of CN105681312B publication Critical patent/CN105681312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Abstract

本发明涉及一种基于频繁项集挖掘的移动互联网异常用户检测方法,属于移动互联网网络安全技术领域,本发明通过全面采集移动互联网中的各类数据,包括网络数据包、业务日志、安全设备事件等,构建大数据分析环境,利用大数据分析技术检测移动互联网内的异常用户;相比基于或依赖于客户端的静态或动态分析方法,在网络级层面进行异常用户分析,能够覆盖所有网络上的终端用户,恶意软件无法像绕过客户端安全防御那样容易来绕过网络级的监控分析,同时,这种角度的分析可以很方便的进行调整,而不需要考虑督促用户安装特定客户端、打补丁或升级。

Description

一种基于频繁项集挖掘的移动互联网异常用户检测方法
技术领域
本发明属于移动互联网网络安全技术领域,具体涉及一种基于频繁项集挖掘的移动互联网异常用户检测方法。
背景技术
近年来,随着移动终端性能的提升和普及,移动设备的使用量已完全超过PC,依托于移动设备的上网流量大幅增长。与此同时,移动设备端恶意软件方面的感染率也在逐年递增,依据IBM Trusteer在2015年第一季度监测的结果,移动设备在恶意软件方面的感染率为1.12%。因此,需要对移动核心网业务数据进行分析,研究移动核心网络下的异常流量行为和用户行为,以了解当前网络下的异常用户状况。
当前,针对移动互联网异常用户的检测,主要实现方式是基于移动端恶意应用信息及数据关联得到异常的移动端用户,内容主要包括对移动端应用的捕获、对应用特征数据的提取、恶意应用的判定以及对恶意应用访问移动端的关联筛选。
如图1所示,可以利用多种方式获取当前网络内的应用信息,从实现机制上,可采用主动和被动两种方式获取app应用。被动方式监控网络内的app请求,对网络内的app文件流进行保存并还原为文件;主动方式有多种实现方式,如可利用爬虫针对app应用的文件链接信息,爬取后保存,较常用的为在移动端设备部署客户端应用对客户端安装的应用进行数据采集和分析。
对移动端应用的分析,相关检测技术主要包括静态样本分析和动态行为分析。静态样本分析技术通过分析应用的静态特征,如文件占用、源码依赖、特定字符串等确定应用的分类;动态行为分析技术通过对应用的行为进行监控,检测其行为是否具有恶意倾向判断是否为恶意应用。对移动端恶意应用的描述,一股需要利用静态或动态技术对特定恶意移动样本的特征进行抽取,并保存为特征向量组。利用这些特征向量数据作为训练依据,可对后续的样本进行检测。静态分析技术的输出主要包括:样本文件的相关信息,如文件大小、hash、需要的权限、文件类型和结构等;样本的函数调用,如组件间的调用关系,函数依赖序列;动态分析技术对样本的输出数据主要包括:样本的执行日志,如执行调用函数系列、样本执行输出文件、访问的外部资源、对隐私数据的访问、向外发出的数据等;样本资源的占用,如内存的使用,cpu执行事件以及电池的消耗等;基于得到的恶意应用信息,可以关联得到异常终端用户数据。如安装有恶意应用的终端、对恶意移动端应用所使用的域名进行访问的终端等。
现有的移动互联网异常用户检测方法,在部署方式上,对客户端应用和已知恶意应用依赖较多。很多检测方法的数据输入需要由部署在手机端的客户端应用进行收集,这导致依赖客户端应用的架构方式无法覆盖全部的移动端用户,且检测机制和方法的更新、恶意应用的行为变化无法快速和有效的传到到客户端,进行相对应的调整;对已知恶意应用依赖主要体现在检测方法无法对未知恶意应用进行检测,只能依赖于已捕获和分析的已知恶意样本分析数据。
发明内容
针对现有技术的不足,本发明提出一种基于频繁项集挖掘的移动互联网异常用户检测方法,本方法不需要移动设备客户端应用的支持,便于调整和部署,分析范围能够覆盖部署范围内的全部终端。
一种基于频繁项集挖掘的移动互联网异常用户检测方法,该方法在移动互联网中周期性采集各个移动终端的流量数据,按照时间顺序对各个移动终端所使用的应用进行排序并按照切分窗口进行切分,获得每个移动终端以应用对形式构成的频繁项集,当频繁项集发生改变时,则为异常用户。
具体包括以下步骤:
步骤1、在移动互联网中周期性采集各个移动终端的网络流量数据;
步骤2、按照时间顺序对各个移动终端所使用的应用进行排序;
步骤3、根据实际需求设置时间窗口,按照该时间窗口对排序后的应用进行切分,获得用户连续使用的应用对;
步骤4、将获得的应用对进行向量化获得项集集合,并提取该项集集合的频繁项集,即获得用户习惯性连续使用的相邻应用,将数据保存到库中用于后续使用;
步骤5、采集用户的移动终端的当前周期的流量数据,判断当前周期内代表用户网络行为的频繁项集与库中保存的历史频繁项集是否相同,若是,则为正常用户,将当期周期用户的行为数据保存到库中,否则,为异常用户。
步骤1所述的在移动互联网中周期性采集各个移动终端的流量数据,具体为:在移动互联网运营商Gn设备旁侧设置流量采集装置。
步骤4所述的频繁项集,采用aprior算法或FP growth算法进行挖掘。
本发明优点:
本发明提出一种基于频繁项集挖掘的移动互联网异常用户检测方法,本发明通过全面采集移动互联网中的各类数据,包括网络数据包、业务日志、安全设备事件等,构建大数据分析环境,利用大数据分析技术检测移动互联网内的异常用户;相比基于或依赖于客户端的静态或动态分析方法,在网络级层面进行异常用户分析,能够覆盖所有网络上的终端用户,恶意软件无法像绕过客户端安全防御那样容易来绕过网络级的监控分析,同时,这种角度的分析可以很方便的进行调整,而不需要考虑督促用户安装特定客户端、打补丁或升级。
附图说明
图1为本发明一种实施例的移动互联网应用获取方式示意图;
图2为本发明一种实施例的正常用户行为模式下的应用关联关系挖掘示意图;
图3为本发明一种实施例的针对异常模式的频繁模式挖掘示意图;
图4为本发明一种实施例的基于频繁项集挖掘的移动互联网异常用户检测方法流程图。
具体实施方式
下面结合附图对本发明一种实施例做进一步说明。
本发明实施例中,基于频繁项集挖掘的移动互联网异常用户检测方法,该方法在移动互联网中周期性采集各个移动终端的流量数据,按照时间顺序对各个移动终端所使用的应用进行排序并按照切分窗口进行切分,获得每个移动终端以应用对形式构成的频繁项集,当频繁项集发生改变时,则为异常用户。
针对异常终端的发现主要关注偏离用户周期性、先后序列和关联关系等正常模式的行为活动。在运营商网络内,基于移动端产生的网络流量,需要实时监控和实时处理的移动终端用户数量非常大,且网络内流量绝大部分都是由正常终端和应用生成。因此,对异常终端的发现,需要构建正常用户的共性行为和参数,过滤绝大部分的正常流量,通过异常检测的思路,定位局部异常因子,对偏离正常的行为和参数进行检测分析。依据统计规律,网络上的流量构成绝大多数由正常流量构成,可以通过定义和挖掘正常用户和正常应用的网络行为模式,将绝大部分的正常终端流量分割出去,只关注与恶意应用相关联或存在与正常用户行为模式不一致的终端用户。
正常用户终端产生的流量特征和终端用户的使用习惯密切相关,主要表现在:用户的上网时间、经常访问的网站、频繁使用的应用等。这些习惯所形成的流量随着时间呈现周期性变化和关联关系,这种周期性变化和关联关系相对稳定,可以作为特征描述用户端。
如图2所示,以应用间的关联关系为例,移动用户对应用的使用,部分存在前后依赖关系,前面使用的应用需要后面应用的功能支持;后面应用可能会有多种选择,这依赖于特定用户的使用习惯;基于海量用户的应用使用数据,挖掘应用间单维依赖关系;图2中,User代表移动端用户;app指移动端应用;time为用户访问应用时的时间;I为表示用户各应用间依赖关系的一个集合;
如图2和图3所示,按照用户为纬度,构建每个用户的应用调用序列,以特定时间窗口分割确定相互依赖的应用对作为频繁模式挖掘的项,并在项集的集合基础上进行频繁项集的挖掘,从而得到正常用户行为模式下的应用关联依赖关系。针对异常终端的发现主要关注偏离正常用户周期性和关联关系的行为活动,在上述数据和挖掘结果基础上,以异常序列、低置信度、低支持度等作为分析策略,筛选相关的异常终端用户。
本发明实施例中,如图4所示,具体包括以下步骤:
步骤1、在移动互联网中周期性采集各个移动终端的网络流量数据;
本发明实施例中,在Gn设备旁侧部署流量采集设备,捕获移动用户产生的上网业务流量,并以此流量为基础,筛选整合后作为检测方法的原始输入。由于不同的业务需求和行为,产生的业务流量各不相同,按照标准的网络协议分层模型,其会在不同的层次上产生流量数据;因此,对输入的业务流量数据,按照网络分层模型进行整理和保存。
本发明实施例中,移动端用户在应用层的流量主要体现在HTTP、HTTPS和DNS几个方面,将这些数据以采集时间为基准打上时间标签并保存;将这些数据按照时间进行排序。基于GTP协议的IMSI标识终端用户,并将数据按照用户进行分组。分组后某一用户在某一时间段应用层网络流量数据如表1所示:
表1:某用户在应用层部分网络流量数据
步骤2、按照时间顺序对各个移动终端所使用的应用进行排序;
为每条数据确定其所属于的APP,本发明实施例中,采用相对简单的特征匹配方式,以流量数据中的域名、目标端口和目的IP组成特征字符串,匹配其属于何种APP;将表1中数据与APP对应后,用户对应用的使用时间序列数据如表2所示:
表2:用户对移动端应用的使用时间序列数据
步骤3、设置时间窗口为1分钟,按照该时间窗口对排序后的应用进行切分,获得用户连续使用的应用对;
本发明实施例中,如图2所示,对同一用户的序列数据,以固定时间间隔窗口Δt(时间间隔窗口可调整)判断两个应用是否存在序列关系,在时间窗口内的两个应用,将其保存在(app1,ap2)的形式,并最终合并为集合I={I1,I2,I3,...,},其每一项元素为存在序列关系的(api,apj);
步骤4、将获得的应用对进行向量化获得项集集合,并提取该项集集合的频繁项集,即获得用户习惯性连续使用的相邻应用,将数据保存到库中用于后续使用;
本发明实施例中,如图3所示,利用aprior或FP growth算法挖掘集合I的频繁项集集合,设置较低的置信度和支持度;得到频繁项集集合J={J1,J2,J3,...,};按照频繁项集集合的每项内容,保存与之关联的移动端用户信息,本发明实施例中,以IMSI标识移动端用户;
本发明实施例中,分析完成后,得到数据如表3所示:
表3:与频繁项关联的用户
例如图3中的(手机淘宝,支付宝)、(京东,网银)、(QQ游戏,微信支付)、(12306,支付宝);
步骤5、采集用户的移动终端的当前周期的流量数据,判断当前周期内代表用户网络行为的频繁项集与库中保存的历史频繁项集是否相同,若是,则为正常用户,将当期周期用户的行为数据保存到库中,否则,为异常用户。
本发明实施例中,以上面得到的数据为基础,对于后续分析得到的频繁项与用户的关连数据进行匹配,判断用户的频繁项对应是否发生改变,当对应关系发生变化时,认为相关用户存在异常行为,将相关用户标识输出,作为本检测方法的异常用户输出系统并保存。

Claims (3)

1.一种基于频繁项集挖掘的移动互联网异常用户检测方法,其特征在于,该方法在移动互联网中周期性采集各个移动终端的流量数据,按照时间顺序对各个移动终端所使用的应用进行排序并按照切分窗口进行切分,获得每个移动终端以应用对形式构成的频繁项集,当频繁项集发生改变时,则为异常用户,具体包括以下步骤:
步骤1、在移动互联网中周期性采集各个移动终端的网络流量数据;
步骤2、按照时间顺序对各个移动终端所使用的应用进行排序;
步骤3、根据实际需求设置时间窗口,按照该时间窗口对排序后的应用进行切分,获得用户连续使用的应用对,具体方法为:
对同一用户的序列数据,以固定时间间隔窗口Δt判断两个应用是否存在序列关系,在时间窗口内的两个应用,将其保存为应用对的形式,并最终合并为一个表示用户各应用间依赖关系的集合,其每一项元素为存在序列关系的应用对;
步骤4、将获得的应用对进行向量化获得项集集合,并提取该项集集合的频繁项集,即获得用户习惯性连续使用的相邻应用,将数据保存到库中用于后续使用;
步骤5、采集用户的移动终端的当前周期的流量数据,判断当前周期内代表用户网络行为的频繁项集与库中保存的历史频繁项集是否相同,若是,则为正常用户,将当期周期用户的行为数据保存到库中,否则,为异常用户。
2.根据权利要求1所述的基于频繁项集挖掘的移动互联网异常用户检测方法,其特征在于,步骤1所述的在移动互联网中周期性采集各个移动终端的流量数据,具体为:在移动互联网运营商Gn设备旁侧设置流量采集装置。
3.根据权利要求1所述的基于频繁项集挖掘的移动互联网异常用户检测方法,其特征在于,步骤4所述的频繁项集,采用aprior算法或FPgrowth算法进行挖掘。
CN201610060440.5A 2016-01-28 2016-01-28 一种基于频繁项集挖掘的移动互联网异常用户检测方法 Active CN105681312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610060440.5A CN105681312B (zh) 2016-01-28 2016-01-28 一种基于频繁项集挖掘的移动互联网异常用户检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610060440.5A CN105681312B (zh) 2016-01-28 2016-01-28 一种基于频繁项集挖掘的移动互联网异常用户检测方法

Publications (2)

Publication Number Publication Date
CN105681312A CN105681312A (zh) 2016-06-15
CN105681312B true CN105681312B (zh) 2019-03-05

Family

ID=56302774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610060440.5A Active CN105681312B (zh) 2016-01-28 2016-01-28 一种基于频繁项集挖掘的移动互联网异常用户检测方法

Country Status (1)

Country Link
CN (1) CN105681312B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777024A (zh) * 2016-12-08 2017-05-31 北京小米移动软件有限公司 识别恶意用户的方法及装置
CN107682344A (zh) * 2017-10-18 2018-02-09 南京邮数通信息科技有限公司 一种基于dpi数据互联网身份识别的id图谱建立方法
CN109873788B (zh) * 2017-12-01 2021-10-15 中国联合网络通信集团有限公司 僵尸网络检测的方法及装置
CN108055281B (zh) * 2017-12-27 2021-05-18 百度在线网络技术(北京)有限公司 账户异常检测方法、装置、服务器及存储介质
CN108200084A (zh) * 2018-01-31 2018-06-22 湖北工业大学 一种基于灰狼算法的网络安全日志确定方法和系统
CN108446184B (zh) * 2018-02-23 2021-09-07 北京天元创新科技有限公司 分析故障根原因的方法和系统
CN108932411A (zh) * 2018-03-04 2018-12-04 徐琳 智能终端大数据分析方法
CN108875800B (zh) * 2018-05-29 2022-04-12 重庆大学 一种基于rfid卡的行为特征提取方法
US10778689B2 (en) * 2018-09-06 2020-09-15 International Business Machines Corporation Suspicious activity detection in computer networks
CN109948641B (zh) * 2019-01-17 2020-08-04 阿里巴巴集团控股有限公司 异常群体识别方法及装置
CN110209551B (zh) * 2019-05-24 2023-12-08 北京奇艺世纪科技有限公司 一种异常设备的识别方法、装置、电子设备及存储介质
CN110392046B (zh) * 2019-06-28 2021-12-24 平安科技(深圳)有限公司 网络访问的异常检测方法和装置
CN112654047A (zh) * 2019-09-25 2021-04-13 中兴通讯股份有限公司 识别异常终端的方法、装置、基站及存储介质
CN112583768A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 一种用户异常行为检测方法及装置
CN111027023B (zh) * 2019-12-11 2022-07-08 重庆锐云科技有限公司 一种基于频繁分析的房产在线开盘检测方法及系统
CN111352954B (zh) * 2020-02-20 2021-02-12 中国科学院自动化研究所 低资源条件下的关联规则挖掘方法、系统、装置
CN112116464B (zh) * 2020-05-21 2023-07-14 上海金融期货信息技术有限公司 基于事件序列频繁项集的异常交易行为分析方法和系统
CN115906160B (zh) * 2022-11-16 2023-07-18 荣科科技股份有限公司 一种基于人工智能分析的信息处理方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7475405B2 (en) * 2000-09-06 2009-01-06 International Business Machines Corporation Method and system for detecting unusual events and application thereof in computer intrusion detection
CN101557327A (zh) * 2009-03-20 2009-10-14 扬州永信计算机有限公司 基于支持向量机的入侵检测方法
CN102111312A (zh) * 2011-03-28 2011-06-29 钱叶魁 基于多尺度主成分分析的网络异常检测方法
CN102271091A (zh) * 2011-09-06 2011-12-07 电子科技大学 一种网络异常事件分类方法
CN103150374A (zh) * 2013-03-11 2013-06-12 中国科学院信息工程研究所 一种识别微博异常用户的方法和系统
CN103927398A (zh) * 2014-05-07 2014-07-16 中国人民解放军信息工程大学 基于最大频繁项集挖掘的微博炒作群体发现方法
CN105049276A (zh) * 2015-05-29 2015-11-11 北京东方棱镜科技有限公司 对广域网流量行为进行监测管理的方法和装置
CN105187242A (zh) * 2015-08-20 2015-12-23 中国人民解放军国防科学技术大学 一种基于变长序列模式挖掘的用户异常行为检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7475405B2 (en) * 2000-09-06 2009-01-06 International Business Machines Corporation Method and system for detecting unusual events and application thereof in computer intrusion detection
CN101557327A (zh) * 2009-03-20 2009-10-14 扬州永信计算机有限公司 基于支持向量机的入侵检测方法
CN102111312A (zh) * 2011-03-28 2011-06-29 钱叶魁 基于多尺度主成分分析的网络异常检测方法
CN102271091A (zh) * 2011-09-06 2011-12-07 电子科技大学 一种网络异常事件分类方法
CN103150374A (zh) * 2013-03-11 2013-06-12 中国科学院信息工程研究所 一种识别微博异常用户的方法和系统
CN103927398A (zh) * 2014-05-07 2014-07-16 中国人民解放军信息工程大学 基于最大频繁项集挖掘的微博炒作群体发现方法
CN105049276A (zh) * 2015-05-29 2015-11-11 北京东方棱镜科技有限公司 对广域网流量行为进行监测管理的方法和装置
CN105187242A (zh) * 2015-08-20 2015-12-23 中国人民解放军国防科学技术大学 一种基于变长序列模式挖掘的用户异常行为检测方法

Also Published As

Publication number Publication date
CN105681312A (zh) 2016-06-15

Similar Documents

Publication Publication Date Title
CN105681312B (zh) 一种基于频繁项集挖掘的移动互联网异常用户检测方法
US11677761B2 (en) Systems and methods for detecting and responding to security threats using application execution and connection lineage tracing
CN103685575B (zh) 一种基于云架构的网站安全监控方法
US8881283B2 (en) System and method of malware sample collection on mobile networks
US9069957B2 (en) System and method of reporting and visualizing malware on mobile networks
US20040128529A1 (en) Method and system for morphing honeypot
US20050166072A1 (en) Method and system for wireless morphing honeypot
KR20080066653A (ko) 완전한 네트워크 변칙 진단을 위한 방법 및 장치와 트래픽피쳐 분포를 사용하여 네트워크 변칙들을 검출하고분류하기 위한 방법
CN105323247A (zh) 一种用于移动终端的入侵检测系统
CN104410700B (zh) 下发骚扰电话列表的方法、骚扰电话拦截方法及系统
KR20080076960A (ko) 악의적인 공격들에 대하여 3g 무선 네트워크를 방어하는방법들 및 디바이스들
CN106330935B (zh) 一种钓鱼Wi-Fi的检测方法
CN108123939A (zh) 恶意行为实时检测方法及装置
US9773068B2 (en) Method and apparatus for deriving and using trustful application metadata
CN109347806A (zh) 一种基于主机监控技术的挖矿恶意软件检测系统及方法
Peng et al. T-dominance: Prioritized defense deployment for BYOD security
CN109428857A (zh) 一种恶意探测行为的检测方法和装置
Chovancová et al. Securing Distributed Computer Systems Using an Advanced Sophisticated Hybrid Honeypot Technology.
US10897472B1 (en) IT computer network threat analysis, detection and containment
Wassermann et al. BIGMOMAL: Big data analytics for mobile malware detection
CN104363256B (zh) 一种手机病毒的识别和控制方法、设备与系统
CN108540471A (zh) 移动应用网络流量聚类方法、计算机可读存储介质和终端
He et al. Automated mining of approximate periodicity on numeric data: a statistical approach
Jianming et al. An empirical study of unsolicited content injection into a website
CN108667685A (zh) 移动应用网络流量聚类装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211116

Address after: Room 1533, building 1, science department, Peking University, No. 5, Yiheyuan Road, Haidian District, Beijing 100871

Patentee after: Li Qingshan

Patentee after: Nanjing Boya blockchain Research Institute Co., Ltd

Address before: Room 1533, building 1, science department, Peking University, No. 5, Yiheyuan Road, Haidian District, Beijing 100871

Patentee before: Li Qingshan