CN109299365A - 一种基于数据流的异常用户检索系统 - Google Patents
一种基于数据流的异常用户检索系统 Download PDFInfo
- Publication number
- CN109299365A CN109299365A CN201811136056.4A CN201811136056A CN109299365A CN 109299365 A CN109299365 A CN 109299365A CN 201811136056 A CN201811136056 A CN 201811136056A CN 109299365 A CN109299365 A CN 109299365A
- Authority
- CN
- China
- Prior art keywords
- user
- data flow
- abnormal
- sampling
- interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
- Computer And Data Communications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于数据流的异常用户检索系统,使用原创的SimCard算法通过对输入的“用户‑兴趣”数据流(如通话网络,流量网络,社交网络好友关系等)进行实时的监控,并根据使用者给定的种子异常用户,反馈与之相似的用户,并根据提前给定的条件过滤出其中的异常用户;包括数据流采样,相似用户查询及异常用户过滤这三个子系统。本发明可用于数据流动态采样;可用于估计某一用户兴趣集合的基数;可用于估计两个用户之间的兴趣集合的交集大小;也可用于估计两个用户之间的相似程度;还可以根据给定的种子异常用户进行相似异常用户检索等。
Description
技术领域
本发明属于数据挖掘技术领域,特别涉及一种基于数据流的异常用户检索系统。
背景技术
随着互联网技术和通信技术的应用与发展,每天都有大量数据产生。这些数据大都以数据流的形式产生,例如,ip地址与网站之间传递的数据包。流中的元素通常由一条从用户(ip地址)指向兴趣(网站)的链接构成。通过对数据流进行监控和分析,可以帮助我们更好的进行异常检测及兴趣推荐等任务。
而随着需要处理的数据也越来越多,很多数据流的大小是我们不可预知的,完全地存储这些数据需要耗费大量的物力人力,因此人们大都对流数据进行动态采样,并根据采样后的结果对原数据流进行分析。
这里我们关注的是实时地处理大规模数据流,例如网络流量、大型社交网络中的消息等;并根据系统使用者给出的种子异常用户,快速的检索与之相似的异常用户。但是由于数据量地巨大和设备资源地限制,我们并不能完全地存储每一条数据。因此,主流方法通常采用采样的方式来得到一个或多个采样数组,并在此基础上对原数据流进行分析。
然而,主流方法用在实际网络流中通常会产生很多问题。一是,这些方法一般只能估计某一种统计量。若使用者希望使用多种统计量来检索和判断异常,常用的方式是组合使用这些方法;但是,这样会生成多组采样数组,造成内存或硬盘空间的浪费。二是,这些方法通常采样或检索速度较慢,不能满足实时的对大规模数据流的处理需求。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于数据流的异常用户检索系统,与传统方法相比,本发明的一项优势在于,能够快速检索大规模数据流中的相似异常用户,本发明的另一项优势在于,解决了常规方法的内存冗余问题。本发明的又一项优势在于,使用原创的SimCard算法,提高了检索精度。
为了实现上述目的,本发明采用的技术方案是:
一种基于数据流的异常用户检索系统,包括:
数据流采样子系统,对输入数据流中的“用户--兴趣”二元组进行动态采样,以数组的形式进行存储;
相似用户检索子系统,当使用者提供某一或某些种子用户后,在上述采样的数组中找出与之兴趣集合相似的用户;
异常用户过滤子系统,利用上述采样的数组,通过对相似用户进行统计分析,过滤出其中的异常用户。
所述数据流采样子系统应用SimCard算法对输入数据流Γ中“用户-兴趣”二元组(u,w)进行采样,并以用户id建立索引,其中u表示用户,w表示用户u的兴趣。
所述SimCard算法中,将采样数组定义为{Su}u∈U,其中U为全体用户的集合,对于每一个用户u∈U,其对应的采样数组大小为|Su|=k,元素su,i∈Su,i=1,2,...,k为取值在0到1之间的实数,并初始化su,i=1。
定义一个哈希函数:H,将二元组(u,w)中的w随机映射到(0,1)区间,该哈希函数映射出的值满足均匀分布性质。
所述数据流采样子系统在二元组(u,w)到来时,令其哈希值hw=H(w),并通过该哈希值计算其在采样数组中的位置和打分rw=hwk-iw-1,其中为向下取整符号,最后根据其打分值更新采样数组的相应位置,其中令
所述相似用户检索子系统在使用者提供种子用户v后,利用采用数组{Su}u∈U,检索出与其相似的用户集合。
所述异常用户过滤子系统根据检索出的相似用户的集合,利用用户兴趣集合基数Cu=|{w|(u,w)∈Γ}|及该用户与种子用户v的兴趣集合交集大小Cu,v=|{w|(u,w)∈Γ}∩{w|(v,w)∈Γ}|作为统计量,通过采样数组{Su}u∈U对Cu和Cu,v进行准确估计,并采用阈值过滤的方法,输出其中与种子用户相似的异常用户。
与现有技术相比,本发明的有益效果是:
1、能够快速检索大规模数据流中的相似异常用户。
本发明使用一种原创SimCard算法,可以根据设定的采样数组大小对任意规模的数据流进行采样;既可以保证系统内存不会因为数据量过大而溢出,还可以保证运算效率,做到实时反馈。
2、解决了常规算法的内存冗余问题。
本发明所使用的SimCard算法只需构建一组采样数组,就可以实现对相似异常用户的快速检索。
3、明显提高了判断精度。
本发明所使用的SimCard算法在对和的估计上,较现有技术更为精确。
附图说明
图1为本发明系统整体结构图。
图2为本发明数据流采样子系统流程图。
图3为本发明相似用户检索子系统流程图。
图4为本发明异常用户过滤子系统说明图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本系统由三个子系统组成,数据流采样子系统,相似用户检索子系统和异常用户过滤子系统。系统的输入数据为特定的二元组数据流,如计算机网络流量中的数据包、通话网络中的通话记录及在线社交网络中的好友消息等。
首先,将上述数据流输入数据流采样子系统,使用一种原创的SimCard算法对每一个二元组进行采样,并动态维护一个采样数组。
接着,若有使用者提供的种子用户,则将上述采样数组输入相似用户检索子系统,在所有用户中检索与种子用户相似的用户集合。
最后,将相似用户集合送入异常用户过滤子系统,通过预先设定的异常指标和异常阈值,来过滤出与种子用户相似的异常用户集合。
本发明中各个子系统的详细介绍如下:
1、数据流采样子系统
主要功能是对数据流进行采样,并动态维护采样数组。
具体地,如图2所示,数据流采样子系统对数据流Γ中二元组(u,w)的处理过程如下:
首先,定义采样数组为{Su}u∈U,其中U为全体用户的集合。对于每一个用户u∈U,其对应的采样数组大小为|Su|=k,元素su,i∈Su,i=1,2,...,k,为取值在0到1之间的实数;并初始化su,i=1。
为采样模块定义一个哈希函数:H,将二元组中的w随机映射到(0,1)区间,该哈希函数映射出的值满足均匀分布性质。
当二元组(u,w)到来时,令其哈希值hw=H(w),并通过该哈希值计算其在采样数组中的位置和打分rw=hwk-iw-1,其中为向下取整符号。最后根据其打分值更新采样数组的相应位置,具体的,可令
2、相似用户检索子系统
主要功能是当使用者提供某一或某些种子用户后,利用数据流采样子系统输出的采样数组,检索与之兴趣集合相似的用户。
具体的,如图3所示,检索与种子用户相似用户结合的过程如下:
首先,对采样数组进行补全。具体的,定义一个新的采样数组并定义一个哈希函数其中i=1,2,...,k,l为非负整数,使得其中的元素满足如下条件:
(1)如果su,i≠1,表明当前位置i已有采样元素。令
(2)如果su,i=1,表明当前位置i没有采样元素,需要用另一个非空位置j的元素来补全。初始化l←0,令若su,j=1,令l←l+1,若su,j≠1,令其中←表示赋值操作。
值得注意的是,经过上述处理,采样数组中的每一个位置均有被采样的元素。
其次,对进行预处理,生成哈希表{Mi}1≤i≤b,其中为一正整数,c为使用者指定的参数,将长度为c的向量映射到1,2,...,b。对于每个用户的采样数组系统将其中每c个元素使用Mi映射到1,2,...,b,并令
最后,系统在哈希表{Mi}1≤i≤b中检索与种子用户v相似的用户集合。对于用户v,系统将所有与之在哈希表{Mi}1≤i≤b相同位置的用户视作相似用户,其集合为:
3、异常用户过滤子系统
主要功能是在相似用户检索子系统输出的相似用户集合的基础上,通过对这些用户进行统计分析,过滤出其中的异常用户。。
具体的,如图4所示,过滤相似异常用户的过程如下:
首先,对每个相似用户计算多种统计特征,包括但不限于:兴趣集合的基数,与种子用户兴趣集合的相似度,与种子用户集合的交集大小。每种统计特征的具体计算方式如下:
(1)兴趣集合的基数。系统利用采样数组Su来估计用户u的基数:其中ku为采样数组Su中元素值为1的位置的个数。
(2)与种子用户兴趣集合的相似度。系统利用采样数组和来估计用户u与种子用户v的兴趣集合的相似度:其中若
(3)与种子用户集合的交集大小。系统利用 和来估计用户u与种子用户v的兴趣集合交集的大小:
为达到更加精确的估计效果,本系统进一步采用极大似然估计的方法,在和的基础上得到更加精确的估计值和
令则其中为汉森矩阵,为梯度向量。
最后,系统根据估算出的统计特征对相似用户进行排序,或根据提前设定的阈值对相似用户进行过滤,最终得到输出的相似异常用户集合。
综上,本发明提供一种基于数据流的异常用户检索系统。使用原创的SimCard算法通过对输入的“用户-兴趣”数据流(如通话网络,流量网络,社交网络好友关系等)进行实时的监控,并根据使用者给定的种子异常用户,反馈与之相似的用户,并根据提前给定的条件过滤出其中的异常用户。本发明可用于数据流动态采样;可用于估计某一用户兴趣集合的基数;可用于估计两个用户之间的兴趣集合的交集大小;也可用于估计两个用户之间的相似程度;还可以根据给定的种子异常用户进行相似异常用户检索等。
Claims (7)
1.一种基于数据流的异常用户检索系统,其特征在于,包括:
数据流采样子系统,对输入数据流中的“用户--兴趣”二元组进行动态采样,以数组的形式进行存储;
相似用户检索子系统,当使用者提供某一或某些种子用户后,在上述采样的数组中找出与之兴趣集合相似的用户;
异常用户过滤子系统,利用上述采样的数组,通过对相似用户进行统计分析,过滤出其中的异常用户。
2.根据权利要求1所述基于数据流的异常用户检索系统,其特征在于,所述数据流采样子系统应用SimCard算法对输入数据流Γ中“用户-兴趣”二元组(u,w)进行采样,并以用户id建立索引,其中u表示用户,w表示用户u的兴趣。
3.根据权利要求2所述基于数据流的异常用户检索系统,其特征在于,所述SimCard算法中,将采样数组定义为{Su}u∈U,其中U为全体用户的集合,对于每一个用户u∈U,其对应的采样数组大小为|Su|=k,元素su,i∈Su,i=1,2,...,k为取值在0到1之间的实数,并初始化su,i=1。
4.根据权利要求3所述基于数据流的异常用户检索系统,其特征在于,定义一个哈希函数:H,将二元组(u,w)中的w随机映射到(0,1)区间,该哈希函数映射出的值满足均匀分布性质。
5.根据权利要求4所述基于数据流的异常用户检索系统,其特征在于,所述数据流采样子系统在二元组(u,w)到来时,令其哈希值hw=H(w),并通过该哈希值计算其在采样数组中的位置和打分rw=hwk-iw-1,其中为向下取整符号,最后根据其打分值更新采样数组的相应位置,其中令
6.根据权利要求1所述基于数据流的异常用户检索系统,其特征在于,所述相似用户检索子系统在使用者提供种子用户v后,利用采用数组{Su}u∈U,检索出与其相似的用户集合。
7.根据权利要求1或6所述基于数据流的异常用户检索系统,其特征在于,所述异常用户过滤子系统根据检索出的相似用户的集合,利用用户兴趣集合基数Cu=|{w|(u,w)∈Γ}|及该用户与种子用户v的兴趣集合交集大小Cu,v=|{w|(u,w)∈Γ}∩{w|(v,w)∈Γ}|作为统计量,通过采样数组{Su}u∈U对Cu和Cu,v进行准确估计,并采用阈值过滤的方法,输出其中与种子用户相似的异常用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811136056.4A CN109299365B (zh) | 2018-09-28 | 2018-09-28 | 一种基于数据流的异常用户检索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811136056.4A CN109299365B (zh) | 2018-09-28 | 2018-09-28 | 一种基于数据流的异常用户检索系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109299365A true CN109299365A (zh) | 2019-02-01 |
CN109299365B CN109299365B (zh) | 2019-08-13 |
Family
ID=65164594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811136056.4A Active CN109299365B (zh) | 2018-09-28 | 2018-09-28 | 一种基于数据流的异常用户检索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109299365B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109905399A (zh) * | 2019-03-14 | 2019-06-18 | 哈尔滨工程大学 | 一种基于自我网络结构演化的社交媒体个体异常用户检测方法 |
CN109922091A (zh) * | 2019-05-05 | 2019-06-21 | 中国联合网络通信集团有限公司 | 用户终端异常行为的检测方法、服务器、用户终端 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077404A (zh) * | 2014-07-07 | 2014-10-01 | 西安交通大学 | 基于变长系统调用序列胎记的报税人身份在线识别方法 |
CN105205112A (zh) * | 2015-09-01 | 2015-12-30 | 西安交通大学 | 一种时序数据异常特征的挖掘系统及方法 |
CN106657038A (zh) * | 2016-12-08 | 2017-05-10 | 西安交通大学 | 一种基于对称度Sketch的网络流量异常检测与定位方法 |
CN107169063A (zh) * | 2017-05-03 | 2017-09-15 | 西安交通大学 | 一种基于社交信息的用户属性预测方法与系统 |
CN107562960A (zh) * | 2017-09-30 | 2018-01-09 | 千寻位置网络有限公司 | 实时agnss用户活跃度统计的方法 |
CN107786388A (zh) * | 2017-09-26 | 2018-03-09 | 西安交通大学 | 一种基于大规模网络流数据的异常检测系统 |
-
2018
- 2018-09-28 CN CN201811136056.4A patent/CN109299365B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077404A (zh) * | 2014-07-07 | 2014-10-01 | 西安交通大学 | 基于变长系统调用序列胎记的报税人身份在线识别方法 |
CN105205112A (zh) * | 2015-09-01 | 2015-12-30 | 西安交通大学 | 一种时序数据异常特征的挖掘系统及方法 |
CN106657038A (zh) * | 2016-12-08 | 2017-05-10 | 西安交通大学 | 一种基于对称度Sketch的网络流量异常检测与定位方法 |
CN107169063A (zh) * | 2017-05-03 | 2017-09-15 | 西安交通大学 | 一种基于社交信息的用户属性预测方法与系统 |
CN107786388A (zh) * | 2017-09-26 | 2018-03-09 | 西安交通大学 | 一种基于大规模网络流数据的异常检测系统 |
CN107562960A (zh) * | 2017-09-30 | 2018-01-09 | 千寻位置网络有限公司 | 实时agnss用户活跃度统计的方法 |
Non-Patent Citations (1)
Title |
---|
白立稳: "《基于社区发现好友推荐算法的研究与实现》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109905399A (zh) * | 2019-03-14 | 2019-06-18 | 哈尔滨工程大学 | 一种基于自我网络结构演化的社交媒体个体异常用户检测方法 |
CN109905399B (zh) * | 2019-03-14 | 2021-06-01 | 哈尔滨工程大学 | 一种基于自我网络结构演化的社交媒体个体异常用户检测方法 |
CN109922091A (zh) * | 2019-05-05 | 2019-06-21 | 中国联合网络通信集团有限公司 | 用户终端异常行为的检测方法、服务器、用户终端 |
CN109922091B (zh) * | 2019-05-05 | 2021-11-09 | 中国联合网络通信集团有限公司 | 用户终端异常行为的检测方法、服务器、用户终端 |
Also Published As
Publication number | Publication date |
---|---|
CN109299365B (zh) | 2019-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Auld et al. | Bayesian neural networks for internet traffic classification | |
Li et al. | A supervised machine learning approach to classify host roles on line using sflow | |
CN103795612B (zh) | 即时通讯中的垃圾和违法信息检测方法 | |
CN102035698B (zh) | 基于决策树分类算法的http隧道检测方法 | |
CN106649831B (zh) | 一种数据过滤方法及装置 | |
CN107786388B (zh) | 一种基于大规模网络流数据的异常检测系统 | |
CN109525508B (zh) | 基于流量相似性比对的加密流识别方法、装置及存储介质 | |
WO2022247955A1 (zh) | 非正常账号识别方法、装置、设备和存储介质 | |
CN105302885B (zh) | 一种全文数据的提取方法和装置 | |
CN109905328B (zh) | 数据流的识别方法和装置 | |
WO2015154484A1 (zh) | 流量数据分类方法及装置 | |
Perera Jayasuriya Kuranage et al. | Network traffic classification using machine learning for software defined networks | |
CN109299365B (zh) | 一种基于数据流的异常用户检索系统 | |
US20130103713A1 (en) | Computing correlated aggregates over a data stream | |
Kohout et al. | Automatic discovery of web servers hosting similar applications | |
Zhang et al. | Unsupervised iot fingerprinting method via variational auto-encoder and k-means | |
Lee et al. | ATMSim: An anomaly teletraffic detection measurement analysis simulator | |
WO2020228527A1 (zh) | 数据流的分类方法和报文转发设备 | |
Abdalla et al. | Impact of packet inter-arrival time features for online peer-to-peer (P2P) classification | |
CN116738369A (zh) | 一种流量数据的分类方法、装置、设备及存储介质 | |
Cohen et al. | Sketching unaggregated data streams for subpopulation-size queries | |
Menuka et al. | Network traffic classification using machine learning for software defined networks | |
CN104125105A (zh) | 对互联网应用场所分类的方法和装置 | |
Soliman et al. | A graph neural network approach for scalable and dynamic IP similarity in enterprise networks | |
Nie et al. | A reconstructing approach to end‐to‐end network traffic based on multifractal wavelet model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |