CN107688653B - 基于网络浅层数据的用户行为数据挖掘系统及其方法 - Google Patents
基于网络浅层数据的用户行为数据挖掘系统及其方法 Download PDFInfo
- Publication number
- CN107688653B CN107688653B CN201710776851.9A CN201710776851A CN107688653B CN 107688653 B CN107688653 B CN 107688653B CN 201710776851 A CN201710776851 A CN 201710776851A CN 107688653 B CN107688653 B CN 107688653B
- Authority
- CN
- China
- Prior art keywords
- data
- user
- network
- module
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于网络浅层数据的用户行为数据挖掘系统及其方法,涉及网络通信、数据分析和数据挖掘技术领域。本系统包括依次交互的网络数据收集和预处理单元、数据集合单元、数据挖掘单元、用户行为分析单元和用户行为展示单元。本方法是:①获取大量网络数据;②数据过滤;③数据规约;④生成数据训练集和数据测试集;⑤初始化模式库和规则库;⑥模式的匹配和更新;⑦模式评估;⑧展示和预测。本发明仅利用终端用户的浅层网络数据,获取方便;能从大量的用户数据中较为准确地定位到每一个用户的个人的行为习惯,即使用户习惯在改变,也能进行更新;对用户行为有一定预测能力。
Description
技术领域
本发明涉及网络通信、数据分析和数据挖掘技术领域,尤其涉及一种基于网络浅层数据的用户行为数据挖掘系统及其方法。
背景技术
随着我国互联网技术的发展和政策的深入支持,互联网已在我国普及,并且深入群众的各项生活。但是随着人们对安全和隐私问题的注重,直接获取用户的个人应用信息已经变的十分困难,因为大多数网络上的数据已经被相应应用加密、保护,逐个解密来获取用户信息代价太大。
用户行为中蕴含着许多有价值的信息,但不是十分明显。如沃尔玛曾对订单数据进行挖掘,发现买尿布的人很可能会买啤酒,因此可以将尿布和啤酒放到一起,从而可以确保获利等。但是很多时候,即使是运营商也无法获取用户的全部行为(APP的内容会被加密),而APP所属公司也只能获取用户对该APP的行为,而无法获取其他APP的信息,也无法完整的获取用户的流量数据和行为习惯。故要获取明文的用户全部流量信息十分困难,要对其中蕴含的数据进行挖掘就更加困难了。
发明内容
本发明的目的就在于克服现有技术存在问题,在不直接收集用户应用行为数据的前提下,提供一种基于网络浅层数据的用户行为数据挖掘系统及其方法。
本发明的目的是这样实现的:
仅采用用户连接互联网后产生的浅层交互信息,包括协议所带信息,如源IP地址、目的IP地址、源端口号、目的端口号、报文长度、时间戳这些基本信息,以及直接刻画用户相关特征的信息,例如用户手机设备的IMEI码,分辨率,访问的URL等信息,加上能够直接获取的非加密的、没有被SSL/TLS加密的流量数据,换言之,也就是用户的非敏感数据。通过这些浅层数据,挖掘出用户的行为习惯,兴趣爱好及敏感数据等深层信息。此外,本发明还可对用户进行行为的预测,能有效地针对用户群获取其群体或个人的行为习惯和信息。
通过收集网络中大量用户的流量数据,经过数据的过滤,留下浅层数据,然后对浅层数据进行数据规约,存储在事务数据库中;按照时间顺序随机取出事务数据库中的数据,分为数据训练集和数据测试集两部分;数据训练集用于初始化模式数据库中的模式和规则,而数据测试集用于匹配相应的用户,并对特定用户已有的模式进行更新;最终将匹配获取的模式以可视化的形式展示出来,从而由大量用户的浅层数据挖掘出用户的隐私数据和行为习惯,并能对其行为进行预测。
具体地说:
一、一种基于网络浅层数据的用户行为数据挖掘系统(简称系统)
本系统包括依次交互的网络数据收集和预处理单元、数据集合单元、数据挖掘单元、用户行为分析单元和用户行为展示单元;
二、一种基于网络浅层数据的用户行为数据挖掘的方法(简称方法)
①获取大量网络数据
通过网络数据收集模块,从希望分析的用户群中获取大量网络数据,交递由网络数据过滤模块进行过滤;
②数据过滤
网络数据过滤模块重点将网络数据中的HTTP报文和TCP报文过滤下来,其余协议数据仅记录端口号、目的IP及流量信息数据,交由数据规约模块进行数据规约;
③数据规约
数据规约模块将获取的已过滤的数据将流量包的时间信息转换为一天中的4个时间段,将频繁访问的URL或者站点信息转换为数字,并删除弱相关的属性以实现数据的规约;
④生成数据训练集和数据测试集
将规约后的数据存入事务数据库,按时间顺序和比例随机地取出事务数据库中的数据,生成数据训练集和数据测试集;
⑤初始化模式库和规则库
数据训练集通过数据挖掘单元中的特征提取模块和关联规则挖掘模块对其中数据进行规则和模式的挖掘,来初始化模式数据库中的模式库和规则库;
⑥模式的匹配和更新
对数据测试集中的数据,根据其通过的用户唯一标识匹配、模式+规则匹配或其他流量数据匹配中三种中的一种方式来进行匹配,分别标记为强关联、普通关联和弱关联,强关联和普通关联会更新模式数据库,弱关联不更新;
⑦模式评估
每隔一段时间,应对模式进行模式评估,以保证模式匹配的更新正确;
⑧展示和预测
通过可视化界面展示用户行为规律,以及对用户行为的预测。
本发明具有下列优点和积极效果:
①仅利用终端用户的浅层网络数据,获取方便;
②能从大量的用户数据中较为准确地定位到每一个用户的个人的行为习惯,即使用户习惯在改变,也能进行更新;
③对用户行为有一定预测能力。
附图说明
图1是本系统的结构方框图;
图2是本方法的工作流程图;
图3是本方法步骤⑥模式的匹配和更新的工作流程图。
图中:
100—网络数据收集和预处理单元,
110—网络数据收集模块,
120—网络数据过滤模块,
130—数据规约模块,
140—事务数据库;
200—数据集合单元,
210—数据训练集,
220—数据测试集;
300—数据挖掘单元,
310—特征提取模块,
320—关联规则挖掘模块;
400—用户行为匹配单元,
410—模式数据库,
411—模式库,
412—规则库;
420—模式匹配模块,
421—模式评估度量模块;
500—用户行为展示单元。
具体实施方式
下面结合附图和实施例详细说明:
一、系统
1、总体
如图1,本系统包括依次交互的网络数据收集和预处理单元100、数据集合单元200、数据挖掘单元300、用户行为分析单元400和用户行为展示单元500;
其工作机理是:
通过网络数据收集和预处理单元100收集大量用户数据,并对其进行过滤和规约后存入事务数据库140中,再将其取出两部分,分别生成数据训练集210和数据测试集220,数据训练集210生成最初的用户的模式和规则,数据测试集220中的数据进行匹配和更新用户的模式规则,最终由用户行为展示单元500将结果以及将来行为预测进行展示。
2、功能单元
1、网络数据收集和预处理单元100
网络数据收集和预处理单元100包括依次交互的网络数据收集模块110、网络数据过滤模块120、数据规约模块130和事务数据库140。
1)网络数据收集模块110
网络数据收集模块110是指任何可以收集网络流量的硬件或软件,如路由器、交换机、网络中心或者网络数据收集软件,其功能为收集用户网络流量。
2)网络数据过滤模块120
网络数据过滤模块120是指一段可以过滤网络数据的程序,其功能为对收集到的用户流量数据进行过滤,仅留下HTTP报文、TCP报文和其余报文的端口号、目的IP和流量信息。
3)数据规约模块130
数据规约模块130是指一段将过滤后的数据用数字和字母进行代替的程序,其功能是将网络数据转化为更容易存储和处理的数据。
4)事务数据库140
事务数据库140是指Mongodb等一类的非关系型数据库,其功能是存储这些被规约后的不具备直接关系的数据。
工作机理:
网络数据收集模块110负责收集大量用户的网络流量数据,然后将收集到的网络数据发送到过滤模块120,该模块会将网络数据中HTTP报文和TCP报文重点提取出来,而其他协议的报文仅记录下端口号、目的IP、流量信息这些协议数据,然后将过滤后的协议数据送入数据规约模块130,该模块会将流量包的时间信息转换为一天中的4个时间段,将频繁访问的URL或者站点信息转换为数字,然后将这些规约的数据存放入倒事务数据库140。
2、数据集合单元200
数据集合单元200包括数据训练集210和数据测试集220两个数据集合。
1)数据训练集210
数据训练集210是指从事务数据库140中提取出来的一段数据,其功能是用于数据挖掘单元300挖掘出初始的模式和规则;
所述的模式是指用户经常访问的行为序列,如有的用户先访问了淘宝网,然后访问了银行接口,显然进行了消费;
所述的规则是指不同的模式之间的出现的关联情况。
下文中的模式和规则意义相同。
2)数据测试集220
数据测试集220是指从事务数据库140中提取出来的一段数据,其功能是用于用户行为分析单元400,对挖掘出的模式和规则进行匹配和更新。
3、数据挖掘单元300
数据挖掘单元300包括特征提取模块310和关联规则挖掘模块320两个相互协作的模块。
1)特征提取模快310
特征提取模快310是指一段找寻用户特征,如用户的账号信息或者手机号等与用户关联度极高的信息,以及其模式的程序;其功能是找寻到可以标志用户的信息,以及用户的初步模式。
2)关联规则挖掘模块320
关联规则挖掘模块320是指一段使用FP-growth改进算法的高效关联规则挖掘的程序,其功能是挖掘出用户的模式之间的规则。
工作机理:
特征提取模快310和关联规则挖掘模块320协同工作,共同初始化用户的初始模式和规则,以留待后续进行匹配。
4、用户行为分析单元400
用户行为分析单元400包含相互协同工作的模式数据库410和模式更新模块420。
1)模式数据库410
模式数据库410包括模式库411和规则库422,是指一个非关系数据库,其功能是存储用户的模式和规则。
2)模式匹配模块420
模式匹配模块420是指对一段数据进行模式匹配以寻找其所属用户的程序,其功能是将数据与用户联系起来,其中的模式评估度量模块421则是定期对生成的模式进行评估,以保证其正确性。
5)用户行为展示单元500
用户行为展示单元500是一段包含预测用户行为和友好用户界面的程序,其功能是对用户行为进行预测,并将用户行为及其预测的行为用更为直观的可视形式进行展示。
二、方法
如图2,本方法包括下列步骤:
①获取大量网络数据-201
通过网络数据收集模块110,从希望分析的用户群中获取大量网络数据,交由网络数据过滤模块120进行过滤;
②数据过滤-202
网络数据过滤模块120重点将网络数据中的HTTP报文和TCP报文过滤下来,其余协议数据仅记录端口号、目的IP及流量信息数据,交由数据规约模块130进行数据规约;
③数据规约-203
数据规约模块130将获取的已过滤的数据将流量包的时间信息转换为一天中的4个时间段,将频繁访问的URL或者站点信息转换为数字,并删除弱相关的属性以实现数据的规约;
④生成数据训练集和数据测试集-204
将规约后的数据存入事务数据库140,按时间顺序和比例随机地取出事务数据库140中的数据,生成数据训练集210和数据测试集220;
⑤初始化模式库和规则库-205;
数据训练集210通过数据挖掘单元300中的特征提取模块310和关联规则挖掘模块320对其中数据进行规则和模式的挖掘,来初始化模式数据库410中的模式库411和规则库412;
⑥模式的匹配和更新-206
对数据测试集220中的数据,根据其通过的用户唯一标识匹配、模式+规则匹配或其他流量数据匹配中三种中的一种方式来进行匹配,标记为强关联、普通关联和弱关联,强关联和普通关联会更新模式数据库410,弱关联不更新;
如图3,步骤⑥的具体流程如下:
A、从数据测试集220中提取数据-301;
B、判断是否提取到用户唯一标识-302,是则进入步骤C,否则跳转到步骤D;
C、判断是否匹配到已有用户-303,
是则跳转到步骤E,否则进入步骤D;
D、进行模式+规则匹配,判断匹配是否成功-304,
是则进入步骤E,否则根据其他信息进行匹配-307后流程结束;
E、更新模式库和规则库-305;
F、结束-306。
⑦模式评估-207
每隔一段时间,应对模式进行模式评估,以保证模式匹配的更新正确;
⑧展示和预测-208
通过可视化界面展示用户行为规律,以及对用户行为的预测。
Claims (2)
1.一种基于网络浅层数据的用户行为数据挖掘方法,
用户行为数据挖掘系统包括依次交互的网络数据收集和预处理单元(100)、数据集合单元(200)、数据挖掘单元(300)、用户行为分析单元(400)和用户行为展示单元(500);
所述的网络数据收集和预处理模块(100)包括依次交互的网络数据收集模块(110)、网络数据过滤模块(120)、数据规约模块(130)和事务数据库(140);
所述的数据集合单元(200)包括数据训练集(210)和数据测试集(220)两个数据集合;
所述的数据挖掘单元(300)包括特征提取模块(310)和关联规则挖掘模块(320)两个相互协作的模块;
所述的用户行为分析单元(400)包括相互协同工作的模式数据库(410)和模式匹配模块(420);
其特征在于包括下列步骤:
①获取大量网络数据(201)
通过网络数据收集模块,从希望分析的用户群中获取大量网络数据,交递由网络数据过滤模块进行过滤;
②数据过滤(202)
网络数据过滤模块重点将网络数据中的HTTP报文和TCP报文过滤下来,其余协议数据仅记录端口号、目的IP及流量信息数据,交由数据规约模块130进行数据规约;
③数据规约(203)
数据规约模块将获取的已过滤的数据将流量包的时间信息转换为一天中的4个时间段,将频繁访问的URL或者站点信息转换为数字,并删除弱相关的属性以实现数据的规约;
④生成数据训练集和数据测试集(204)
将规约后的数据存入事务数据库,按时间顺序和比例随机地取出事务数据库中的数据,生成数据训练集和数据测试集;
⑤初始化模式库和规则库(205);
数据训练集通过数据挖掘单元中的特征提取模块和关联规则挖掘模块对其中数据进行规则和模式的挖掘,来初始化模式数据库中的模式库和规则库;
⑥模式的匹配和更新(206)
对数据测试集中的数据,根据其通过的用户唯一标识匹配、模式+规则匹配或其他流量数据匹配中三种中的一种方式来进行匹配,分别标记为强关联、普通关联和弱关联,强关联和普通关联会更新模式数据库,弱关联不更新;
⑦模式评估(207)
每隔一段时间,应对模式进行模式评估,以保证模式匹配的更新正确;
⑧展示和预测(208)
通过可视化界面展示用户行为规律,以及对用户行为的预测。
2.按权利要求1所述的一种基于网络浅层数据的用户行为数据挖掘方法,其特征在于步骤⑥:
A、从数据测试集中提取数据(301);
B、判断是否提取到用户唯一标识(302),是则进入步骤C,否则跳转到步骤D;
C、判断是否匹配到已有用户(303),
是则跳转到步骤E,否则进入步骤D;
D、进行模式+规则匹配,判断匹配是否成功(304),
是则进入步骤E,否则根据其他信息进行匹配(307)后流程结束;
E、更新模式库和规则库(305);
F、结束(306)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710776851.9A CN107688653B (zh) | 2017-09-01 | 2017-09-01 | 基于网络浅层数据的用户行为数据挖掘系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710776851.9A CN107688653B (zh) | 2017-09-01 | 2017-09-01 | 基于网络浅层数据的用户行为数据挖掘系统及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107688653A CN107688653A (zh) | 2018-02-13 |
CN107688653B true CN107688653B (zh) | 2020-12-01 |
Family
ID=61155990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710776851.9A Active CN107688653B (zh) | 2017-09-01 | 2017-09-01 | 基于网络浅层数据的用户行为数据挖掘系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107688653B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115292388B (zh) * | 2022-09-29 | 2023-01-24 | 广州天维信息技术股份有限公司 | 一种基于历史数据的方案自动挖掘系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104134108A (zh) * | 2014-06-25 | 2014-11-05 | 上海艾瑞市场咨询有限公司 | 电子商务网站销售数据分析方法 |
CN104464291B (zh) * | 2014-12-08 | 2017-02-01 | 杭州智诚惠通科技有限公司 | 一种交通流量预测方法和系统 |
US10445323B2 (en) * | 2015-09-30 | 2019-10-15 | University Of Virginia Patent Foundation | Association rule mining with the micron automata processor |
CN106095893B (zh) * | 2016-06-06 | 2018-11-20 | 北京大学深圳研究生院 | 一种跨媒体检索方法 |
CN106204107A (zh) * | 2016-06-28 | 2016-12-07 | 武汉合创源科技有限公司 | 一种数据分析处理方法及系统 |
CN106294715B (zh) * | 2016-08-09 | 2020-01-03 | 中国地质大学(武汉) | 一种关联规则数据挖掘方法及装置 |
CN106897625B (zh) * | 2017-01-22 | 2019-08-06 | 北京理工大学 | 支持漏洞关联性挖掘的漏洞自动分类方法 |
CN106980757A (zh) * | 2017-03-15 | 2017-07-25 | 重庆医科大学 | 川崎病并发冠状动脉病变危险因素管理系统及挖掘方法 |
-
2017
- 2017-09-01 CN CN201710776851.9A patent/CN107688653B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107688653A (zh) | 2018-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107515915B (zh) | 基于用户行为数据的用户标识关联方法 | |
CN107749859B (zh) | 一种面向网络加密流量的恶意移动应用检测方法 | |
CN105814593B (zh) | 数据通信方法以及数据通信系统 | |
Zhang et al. | On the validity of geosocial mobility traces | |
CN104798041A (zh) | 使用确认指示来提高社交网络中的用户参与度 | |
ATE477693T1 (de) | Verkehrsüberwachungssystem für ein mobilfunknetz zur verkehrsanalyse mit einem hierarchischen ansatz | |
CN103530562A (zh) | 一种恶意网站的识别方法和装置 | |
CN102710770A (zh) | 一种上网设备识别方法及其实现系统 | |
CN105159475B (zh) | 一种字符输入方法及装置 | |
CN110519263B (zh) | 防刷量方法、装置、设备及计算机可读存储介质 | |
CN108874802A (zh) | 网页检测方法和装置 | |
CN110753081B (zh) | 公安大数据智慧采集分析方法及装置 | |
CN103440328A (zh) | 一种基于鼠标行为的用户分类方法 | |
CN107688653B (zh) | 基于网络浅层数据的用户行为数据挖掘系统及其方法 | |
CN110163013A (zh) | 一种检测敏感信息的方法和设备 | |
CN106301979A (zh) | 检测异常渠道的方法和系统 | |
CN103780690A (zh) | 用户数据的安全共享方法和系统 | |
CN102184201A (zh) | 一种用于选取查询序列的推荐序列的设备和方法 | |
CN110197375A (zh) | 一种相似用户识别方法、装置、相似用户识别设备和介质 | |
CN107085599B (zh) | Poi推荐方法、装置、设备及计算机可读存储介质 | |
CN111049838B (zh) | 黑产设备识别方法、装置、服务器及存储介质 | |
CN112667875A (zh) | 一种数据获取、数据分析方法、装置、设备及存储介质 | |
CN107995167B (zh) | 一种设备识别方法及服务器 | |
JP2012208661A (ja) | 情報提供システム、通信装置及び情報提供方法 | |
CN109873836A (zh) | 一种数据的风险评估方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |