CN109299365A - 一种基于数据流的异常用户检索系统 - Google Patents

一种基于数据流的异常用户检索系统 Download PDF

Info

Publication number
CN109299365A
CN109299365A CN201811136056.4A CN201811136056A CN109299365A CN 109299365 A CN109299365 A CN 109299365A CN 201811136056 A CN201811136056 A CN 201811136056A CN 109299365 A CN109299365 A CN 109299365A
Authority
CN
China
Prior art keywords
user
data flow
abnormal
sampling
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811136056.4A
Other languages
English (en)
Other versions
CN109299365B (zh
Inventor
王平辉
齐逸岩
贾鹏
孙飞扬
王翔宇
曾菊香
许诺
兰林
管晓宏
陶敬
韩婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Research Institute Of Xi'an Jiaotong University
Original Assignee
Shenzhen Research Institute Of Xi'an Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Research Institute Of Xi'an Jiaotong University filed Critical Shenzhen Research Institute Of Xi'an Jiaotong University
Priority to CN201811136056.4A priority Critical patent/CN109299365B/zh
Publication of CN109299365A publication Critical patent/CN109299365A/zh
Application granted granted Critical
Publication of CN109299365B publication Critical patent/CN109299365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于数据流的异常用户检索系统,使用原创的SimCard算法通过对输入的“用户‑兴趣”数据流(如通话网络,流量网络,社交网络好友关系等)进行实时的监控,并根据使用者给定的种子异常用户,反馈与之相似的用户,并根据提前给定的条件过滤出其中的异常用户;包括数据流采样,相似用户查询及异常用户过滤这三个子系统。本发明可用于数据流动态采样;可用于估计某一用户兴趣集合的基数;可用于估计两个用户之间的兴趣集合的交集大小;也可用于估计两个用户之间的相似程度;还可以根据给定的种子异常用户进行相似异常用户检索等。

Description

一种基于数据流的异常用户检索系统
技术领域
本发明属于数据挖掘技术领域,特别涉及一种基于数据流的异常用户检索系统。
背景技术
随着互联网技术和通信技术的应用与发展,每天都有大量数据产生。这些数据大都以数据流的形式产生,例如,ip地址与网站之间传递的数据包。流中的元素通常由一条从用户(ip地址)指向兴趣(网站)的链接构成。通过对数据流进行监控和分析,可以帮助我们更好的进行异常检测及兴趣推荐等任务。
而随着需要处理的数据也越来越多,很多数据流的大小是我们不可预知的,完全地存储这些数据需要耗费大量的物力人力,因此人们大都对流数据进行动态采样,并根据采样后的结果对原数据流进行分析。
这里我们关注的是实时地处理大规模数据流,例如网络流量、大型社交网络中的消息等;并根据系统使用者给出的种子异常用户,快速的检索与之相似的异常用户。但是由于数据量地巨大和设备资源地限制,我们并不能完全地存储每一条数据。因此,主流方法通常采用采样的方式来得到一个或多个采样数组,并在此基础上对原数据流进行分析。
然而,主流方法用在实际网络流中通常会产生很多问题。一是,这些方法一般只能估计某一种统计量。若使用者希望使用多种统计量来检索和判断异常,常用的方式是组合使用这些方法;但是,这样会生成多组采样数组,造成内存或硬盘空间的浪费。二是,这些方法通常采样或检索速度较慢,不能满足实时的对大规模数据流的处理需求。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于数据流的异常用户检索系统,与传统方法相比,本发明的一项优势在于,能够快速检索大规模数据流中的相似异常用户,本发明的另一项优势在于,解决了常规方法的内存冗余问题。本发明的又一项优势在于,使用原创的SimCard算法,提高了检索精度。
为了实现上述目的,本发明采用的技术方案是:
一种基于数据流的异常用户检索系统,包括:
数据流采样子系统,对输入数据流中的“用户--兴趣”二元组进行动态采样,以数组的形式进行存储;
相似用户检索子系统,当使用者提供某一或某些种子用户后,在上述采样的数组中找出与之兴趣集合相似的用户;
异常用户过滤子系统,利用上述采样的数组,通过对相似用户进行统计分析,过滤出其中的异常用户。
所述数据流采样子系统应用SimCard算法对输入数据流Γ中“用户-兴趣”二元组(u,w)进行采样,并以用户id建立索引,其中u表示用户,w表示用户u的兴趣。
所述SimCard算法中,将采样数组定义为{Su}u∈U,其中U为全体用户的集合,对于每一个用户u∈U,其对应的采样数组大小为|Su|=k,元素su,i∈Su,i=1,2,...,k为取值在0到1之间的实数,并初始化su,i=1。
定义一个哈希函数:H,将二元组(u,w)中的w随机映射到(0,1)区间,该哈希函数映射出的值满足均匀分布性质。
所述数据流采样子系统在二元组(u,w)到来时,令其哈希值hw=H(w),并通过该哈希值计算其在采样数组中的位置和打分rw=hwk-iw-1,其中为向下取整符号,最后根据其打分值更新采样数组的相应位置,其中令
所述相似用户检索子系统在使用者提供种子用户v后,利用采用数组{Su}u∈U,检索出与其相似的用户集合。
所述异常用户过滤子系统根据检索出的相似用户的集合,利用用户兴趣集合基数Cu=|{w|(u,w)∈Γ}|及该用户与种子用户v的兴趣集合交集大小Cu,v=|{w|(u,w)∈Γ}∩{w|(v,w)∈Γ}|作为统计量,通过采样数组{Su}u∈U对Cu和Cu,v进行准确估计,并采用阈值过滤的方法,输出其中与种子用户相似的异常用户。
与现有技术相比,本发明的有益效果是:
1、能够快速检索大规模数据流中的相似异常用户。
本发明使用一种原创SimCard算法,可以根据设定的采样数组大小对任意规模的数据流进行采样;既可以保证系统内存不会因为数据量过大而溢出,还可以保证运算效率,做到实时反馈。
2、解决了常规算法的内存冗余问题。
本发明所使用的SimCard算法只需构建一组采样数组,就可以实现对相似异常用户的快速检索。
3、明显提高了判断精度。
本发明所使用的SimCard算法在对和的估计上,较现有技术更为精确。
附图说明
图1为本发明系统整体结构图。
图2为本发明数据流采样子系统流程图。
图3为本发明相似用户检索子系统流程图。
图4为本发明异常用户过滤子系统说明图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本系统由三个子系统组成,数据流采样子系统,相似用户检索子系统和异常用户过滤子系统。系统的输入数据为特定的二元组数据流,如计算机网络流量中的数据包、通话网络中的通话记录及在线社交网络中的好友消息等。
首先,将上述数据流输入数据流采样子系统,使用一种原创的SimCard算法对每一个二元组进行采样,并动态维护一个采样数组。
接着,若有使用者提供的种子用户,则将上述采样数组输入相似用户检索子系统,在所有用户中检索与种子用户相似的用户集合。
最后,将相似用户集合送入异常用户过滤子系统,通过预先设定的异常指标和异常阈值,来过滤出与种子用户相似的异常用户集合。
本发明中各个子系统的详细介绍如下:
1、数据流采样子系统
主要功能是对数据流进行采样,并动态维护采样数组。
具体地,如图2所示,数据流采样子系统对数据流Γ中二元组(u,w)的处理过程如下:
首先,定义采样数组为{Su}u∈U,其中U为全体用户的集合。对于每一个用户u∈U,其对应的采样数组大小为|Su|=k,元素su,i∈Su,i=1,2,...,k,为取值在0到1之间的实数;并初始化su,i=1。
为采样模块定义一个哈希函数:H,将二元组中的w随机映射到(0,1)区间,该哈希函数映射出的值满足均匀分布性质。
当二元组(u,w)到来时,令其哈希值hw=H(w),并通过该哈希值计算其在采样数组中的位置和打分rw=hwk-iw-1,其中为向下取整符号。最后根据其打分值更新采样数组的相应位置,具体的,可令
2、相似用户检索子系统
主要功能是当使用者提供某一或某些种子用户后,利用数据流采样子系统输出的采样数组,检索与之兴趣集合相似的用户。
具体的,如图3所示,检索与种子用户相似用户结合的过程如下:
首先,对采样数组进行补全。具体的,定义一个新的采样数组并定义一个哈希函数其中i=1,2,...,k,l为非负整数,使得其中的元素满足如下条件:
(1)如果su,i≠1,表明当前位置i已有采样元素。令
(2)如果su,i=1,表明当前位置i没有采样元素,需要用另一个非空位置j的元素来补全。初始化l←0,令若su,j=1,令l←l+1,若su,j≠1,令其中←表示赋值操作。
值得注意的是,经过上述处理,采样数组中的每一个位置均有被采样的元素。
其次,对进行预处理,生成哈希表{Mi}1≤i≤b,其中为一正整数,c为使用者指定的参数,将长度为c的向量映射到1,2,...,b。对于每个用户的采样数组系统将其中每c个元素使用Mi映射到1,2,...,b,并令
最后,系统在哈希表{Mi}1≤i≤b中检索与种子用户v相似的用户集合。对于用户v,系统将所有与之在哈希表{Mi}1≤i≤b相同位置的用户视作相似用户,其集合为:
3、异常用户过滤子系统
主要功能是在相似用户检索子系统输出的相似用户集合的基础上,通过对这些用户进行统计分析,过滤出其中的异常用户。。
具体的,如图4所示,过滤相似异常用户的过程如下:
首先,对每个相似用户计算多种统计特征,包括但不限于:兴趣集合的基数,与种子用户兴趣集合的相似度,与种子用户集合的交集大小。每种统计特征的具体计算方式如下:
(1)兴趣集合的基数。系统利用采样数组Su来估计用户u的基数:其中ku为采样数组Su中元素值为1的位置的个数。
(2)与种子用户兴趣集合的相似度。系统利用采样数组来估计用户u与种子用户v的兴趣集合的相似度:其中
(3)与种子用户集合的交集大小。系统利用 来估计用户u与种子用户v的兴趣集合交集的大小:
为达到更加精确的估计效果,本系统进一步采用极大似然估计的方法,在的基础上得到更加精确的估计值
其中为汉森矩阵,为梯度向量。
最后,系统根据估算出的统计特征对相似用户进行排序,或根据提前设定的阈值对相似用户进行过滤,最终得到输出的相似异常用户集合。
综上,本发明提供一种基于数据流的异常用户检索系统。使用原创的SimCard算法通过对输入的“用户-兴趣”数据流(如通话网络,流量网络,社交网络好友关系等)进行实时的监控,并根据使用者给定的种子异常用户,反馈与之相似的用户,并根据提前给定的条件过滤出其中的异常用户。本发明可用于数据流动态采样;可用于估计某一用户兴趣集合的基数;可用于估计两个用户之间的兴趣集合的交集大小;也可用于估计两个用户之间的相似程度;还可以根据给定的种子异常用户进行相似异常用户检索等。

Claims (7)

1.一种基于数据流的异常用户检索系统,其特征在于,包括:
数据流采样子系统,对输入数据流中的“用户--兴趣”二元组进行动态采样,以数组的形式进行存储;
相似用户检索子系统,当使用者提供某一或某些种子用户后,在上述采样的数组中找出与之兴趣集合相似的用户;
异常用户过滤子系统,利用上述采样的数组,通过对相似用户进行统计分析,过滤出其中的异常用户。
2.根据权利要求1所述基于数据流的异常用户检索系统,其特征在于,所述数据流采样子系统应用SimCard算法对输入数据流Γ中“用户-兴趣”二元组(u,w)进行采样,并以用户id建立索引,其中u表示用户,w表示用户u的兴趣。
3.根据权利要求2所述基于数据流的异常用户检索系统,其特征在于,所述SimCard算法中,将采样数组定义为{Su}u∈U,其中U为全体用户的集合,对于每一个用户u∈U,其对应的采样数组大小为|Su|=k,元素su,i∈Su,i=1,2,...,k为取值在0到1之间的实数,并初始化su,i=1。
4.根据权利要求3所述基于数据流的异常用户检索系统,其特征在于,定义一个哈希函数:H,将二元组(u,w)中的w随机映射到(0,1)区间,该哈希函数映射出的值满足均匀分布性质。
5.根据权利要求4所述基于数据流的异常用户检索系统,其特征在于,所述数据流采样子系统在二元组(u,w)到来时,令其哈希值hw=H(w),并通过该哈希值计算其在采样数组中的位置和打分rw=hwk-iw-1,其中为向下取整符号,最后根据其打分值更新采样数组的相应位置,其中令
6.根据权利要求1所述基于数据流的异常用户检索系统,其特征在于,所述相似用户检索子系统在使用者提供种子用户v后,利用采用数组{Su}u∈U,检索出与其相似的用户集合。
7.根据权利要求1或6所述基于数据流的异常用户检索系统,其特征在于,所述异常用户过滤子系统根据检索出的相似用户的集合,利用用户兴趣集合基数Cu=|{w|(u,w)∈Γ}|及该用户与种子用户v的兴趣集合交集大小Cu,v=|{w|(u,w)∈Γ}∩{w|(v,w)∈Γ}|作为统计量,通过采样数组{Su}u∈U对Cu和Cu,v进行准确估计,并采用阈值过滤的方法,输出其中与种子用户相似的异常用户。
CN201811136056.4A 2018-09-28 2018-09-28 一种基于数据流的异常用户检索系统 Active CN109299365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811136056.4A CN109299365B (zh) 2018-09-28 2018-09-28 一种基于数据流的异常用户检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811136056.4A CN109299365B (zh) 2018-09-28 2018-09-28 一种基于数据流的异常用户检索系统

Publications (2)

Publication Number Publication Date
CN109299365A true CN109299365A (zh) 2019-02-01
CN109299365B CN109299365B (zh) 2019-08-13

Family

ID=65164594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811136056.4A Active CN109299365B (zh) 2018-09-28 2018-09-28 一种基于数据流的异常用户检索系统

Country Status (1)

Country Link
CN (1) CN109299365B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109905399A (zh) * 2019-03-14 2019-06-18 哈尔滨工程大学 一种基于自我网络结构演化的社交媒体个体异常用户检测方法
CN109922091A (zh) * 2019-05-05 2019-06-21 中国联合网络通信集团有限公司 用户终端异常行为的检测方法、服务器、用户终端

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077404A (zh) * 2014-07-07 2014-10-01 西安交通大学 基于变长系统调用序列胎记的报税人身份在线识别方法
CN105205112A (zh) * 2015-09-01 2015-12-30 西安交通大学 一种时序数据异常特征的挖掘系统及方法
CN106657038A (zh) * 2016-12-08 2017-05-10 西安交通大学 一种基于对称度Sketch的网络流量异常检测与定位方法
CN107169063A (zh) * 2017-05-03 2017-09-15 西安交通大学 一种基于社交信息的用户属性预测方法与系统
CN107562960A (zh) * 2017-09-30 2018-01-09 千寻位置网络有限公司 实时agnss用户活跃度统计的方法
CN107786388A (zh) * 2017-09-26 2018-03-09 西安交通大学 一种基于大规模网络流数据的异常检测系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077404A (zh) * 2014-07-07 2014-10-01 西安交通大学 基于变长系统调用序列胎记的报税人身份在线识别方法
CN105205112A (zh) * 2015-09-01 2015-12-30 西安交通大学 一种时序数据异常特征的挖掘系统及方法
CN106657038A (zh) * 2016-12-08 2017-05-10 西安交通大学 一种基于对称度Sketch的网络流量异常检测与定位方法
CN107169063A (zh) * 2017-05-03 2017-09-15 西安交通大学 一种基于社交信息的用户属性预测方法与系统
CN107786388A (zh) * 2017-09-26 2018-03-09 西安交通大学 一种基于大规模网络流数据的异常检测系统
CN107562960A (zh) * 2017-09-30 2018-01-09 千寻位置网络有限公司 实时agnss用户活跃度统计的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
白立稳: "《基于社区发现好友推荐算法的研究与实现》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109905399A (zh) * 2019-03-14 2019-06-18 哈尔滨工程大学 一种基于自我网络结构演化的社交媒体个体异常用户检测方法
CN109905399B (zh) * 2019-03-14 2021-06-01 哈尔滨工程大学 一种基于自我网络结构演化的社交媒体个体异常用户检测方法
CN109922091A (zh) * 2019-05-05 2019-06-21 中国联合网络通信集团有限公司 用户终端异常行为的检测方法、服务器、用户终端
CN109922091B (zh) * 2019-05-05 2021-11-09 中国联合网络通信集团有限公司 用户终端异常行为的检测方法、服务器、用户终端

Also Published As

Publication number Publication date
CN109299365B (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
Auld et al. Bayesian neural networks for internet traffic classification
Li et al. A supervised machine learning approach to classify host roles on line using sflow
CN103795612B (zh) 即时通讯中的垃圾和违法信息检测方法
CN102035698B (zh) 基于决策树分类算法的http隧道检测方法
CN106649831B (zh) 一种数据过滤方法及装置
CN107786388B (zh) 一种基于大规模网络流数据的异常检测系统
CN109525508B (zh) 基于流量相似性比对的加密流识别方法、装置及存储介质
WO2022247955A1 (zh) 非正常账号识别方法、装置、设备和存储介质
CN105302885B (zh) 一种全文数据的提取方法和装置
CN109905328B (zh) 数据流的识别方法和装置
WO2015154484A1 (zh) 流量数据分类方法及装置
Perera Jayasuriya Kuranage et al. Network traffic classification using machine learning for software defined networks
CN109299365B (zh) 一种基于数据流的异常用户检索系统
US20130103713A1 (en) Computing correlated aggregates over a data stream
Kohout et al. Automatic discovery of web servers hosting similar applications
Zhang et al. Unsupervised iot fingerprinting method via variational auto-encoder and k-means
Lee et al. ATMSim: An anomaly teletraffic detection measurement analysis simulator
WO2020228527A1 (zh) 数据流的分类方法和报文转发设备
Abdalla et al. Impact of packet inter-arrival time features for online peer-to-peer (P2P) classification
CN116738369A (zh) 一种流量数据的分类方法、装置、设备及存储介质
Cohen et al. Sketching unaggregated data streams for subpopulation-size queries
Menuka et al. Network traffic classification using machine learning for software defined networks
CN104125105A (zh) 对互联网应用场所分类的方法和装置
Soliman et al. A graph neural network approach for scalable and dynamic IP similarity in enterprise networks
Nie et al. A reconstructing approach to end‐to‐end network traffic based on multifractal wavelet model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant