CN110532485A - 基于多源数据融合的用户行为检测方法及装置 - Google Patents
基于多源数据融合的用户行为检测方法及装置 Download PDFInfo
- Publication number
- CN110532485A CN110532485A CN201910624299.0A CN201910624299A CN110532485A CN 110532485 A CN110532485 A CN 110532485A CN 201910624299 A CN201910624299 A CN 201910624299A CN 110532485 A CN110532485 A CN 110532485A
- Authority
- CN
- China
- Prior art keywords
- user
- target user
- behavior
- feature vector
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 230000004927 fusion Effects 0.000 title claims abstract description 32
- 239000013598 vector Substances 0.000 claims abstract description 154
- 230000003542 behavioural effect Effects 0.000 claims abstract description 24
- 230000006399 behavior Effects 0.000 claims description 228
- 238000000034 method Methods 0.000 claims description 19
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 16
- 238000012935 Averaging Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 5
- 230000001052 transient effect Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 239000004744 fabric Substances 0.000 claims 1
- 238000007689 inspection Methods 0.000 claims 1
- 230000002159 abnormal effect Effects 0.000 abstract description 10
- 230000000875 corresponding effect Effects 0.000 description 21
- 238000004891 communication Methods 0.000 description 7
- 230000005856 abnormality Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 101100059544 Arabidopsis thaliana CDC5 gene Proteins 0.000 description 1
- 101100244969 Arabidopsis thaliana PRL1 gene Proteins 0.000 description 1
- 102100039558 Galectin-3 Human genes 0.000 description 1
- 101100454448 Homo sapiens LGALS3 gene Proteins 0.000 description 1
- 101150115300 MAC1 gene Proteins 0.000 description 1
- 101150051246 MAC2 gene Proteins 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000009323 psychological health Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例提供一种基于多源数据融合的用户行为检测方法及装置,所述方法包括:基于校园无线网络用户日志获取目标用户的当前行为特征向量和目标用户班级内其他用户的当前行为平均特征向量;获取目标用户的第一历史行为平均特征向量,以及目标用户班级内其他用户的第二历史行为平均特征向量;计算当前行为特征向量与第一历史行为平均特征向量的第一差异程度;计算当前行为特征向量与当前行为平均特征向量之间的第一差值,计算第一与第二历史行为平均特征向量之间的第二差值,基于第一差值和第二差值计算第二差异程度;根据第一差异程度与第二差异程度获得目标用户的行为检测结果。本发明实施例可有效获取用户行为并检测出异常用户行为。
Description
技术领域
本发明涉及网络通信技术领域,更具体地,涉及一种基于多源数据融合的用户行为检测方法及装置。
背景技术
近年来,随着移动互联网的迅速发展和智能终端的广泛普及,我国许多高校都实现了校园无线网络的全覆盖。校园无线网作为互联网的重要组成部分,同互联网一样在高速发展中面临着网络管理等方面的问题。
学校网络中心、教务处、学生处等部门掌握大量的学生和职工信息,如性别、年龄、年级、课程表、成绩、上网时间、上网地点、网络业务类型等。如何从用户在校园生活中所产生的多源数据中获取有效信息,精准分析用户行为并检测出其中的异常行为的方法或系统,从而更有效地对校园用户进行管理并对学生心理健康做出即时防控,已成为整个社会关注的焦点。
网络用户行为是指网络用户在网络生活中所表现出来的行为规律,通常采用网络数据中的相关特征量的统计学特点或相互关系可以定量或定性表示这种行为规律。但是,不同类别网络的用户,分析方法与侧重点存在差异,目前尚未有对于校园网用户的行为进行分析和检测的方法或系统。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的基于多源数据融合的用户行为检测方法及装置。
第一方面,本发明实施例提供一种基于多源数据融合的用户行为检测方法,包括:
基于当前时间段内的校园无线网络用户日志信息分别对目标用户和目标用户所在班级内的各其他用户在所述当前时间段内的上网行为进行分析,获取所述目标用户的当前行为特征向量和所述目标用户所在班级内的各其他用户的当前行为特征向量,并对所述目标用户所在班级内的各其他用户的当前行为特征向量求平均,获得所述目标用户所在班级内的所有其他用户对应的当前行为平均特征向量;
基于预先构建的历史行为特征数据库,获取所述目标用户在某个历史时间段内的第一历史行为平均特征向量,以及所述目标用户所在班级内的各其他用户在所述历史时间段内的历史行为特征向量,并对所述目标用户所在班级内的各其他用户在所述历史时间段内的历史行为特征向量求平均,获得所述目标用户所在班级内的所有其他用户对应的第二历史行为平均特征向量;
计算所述目标用户的当前行为特征向量与所述目标用户在所述历史时间段内的第一历史行为平均特征向量之间的第一差异程度;
计算所述目标用户的当前行为特征向量与所述目标用户所在班级内的所有其他用户对应的当前行为平均特征向量之间的第一差值,计算所述目标用户在所述历史时间段内的第一历史行为平均特征向量与所述目标用户所在班级内的所有其他用户的第二历史行为平均特征向量之间的第二差值,基于所述第一差值和第二差值计算获得第二差异程度;
根据所述第一差异程度与第二差异程度对所述目标用户的异常行为进行判定,获得所述目标用户的行为检测结果;
其中,所述第一差异程度用于表征用户行为的自我异常程度,所述第二差异程度用于表征用户行为的类比异常程度。
第二方面,本发明实施例提供一种基于多源数据融合的用户行为检测装置,包括:
用户行为分析模块,用于基于当前时间段内的校园无线网络用户日志信息分别对目标用户和目标用户所在班级内的各其他用户在所述当前时间段内的上网行为进行分析,获取所述目标用户的当前行为特征向量和所述目标用户所在班级内的各其他用户的当前行为特征向量,并对所述目标用户所在班级内的各其他用户的当前行为特征向量求平均,获得所述目标用户所在班级内的所有其他用户对应的当前行为平均特征向量;
历史行为特征获取模块,用于基于预先构建的历史行为特征数据库,获取所述目标用户在某个历史时间段内的第一历史行为平均特征向量,以及所述目标用户所在班级内的各其他用户在所述历史时间段内的历史行为特征向量,并对所述目标用户所在班级内的各其他用户在所述历史时间段内的历史行为特征向量求平均,获得所述目标用户所在班级内的所有其他用户对应的第二历史行为平均特征向量;
第一差异程度计算模块,用于计算所述目标用户的当前行为特征向量与所述目标用户在所述历史时间段内的第一历史行为平均特征向量之间的第一差异程度;
第二差异程度计算模块,用于计算所述目标用户的当前行为特征向量与所述目标用户所在班级内的所有其他用户对应的当前行为平均特征向量之间的第一差值,计算所述目标用户在所述历史时间段内的第一历史行为平均特征向量与所述目标用户所在班级内的所有其他用户的第二历史行为平均特征向量之间的第二差值,基于所述第一差值和第二差值计算获得第二差异程度;
检测模块,用于根据所述第一差异程度与第二差异程度对所述目标用户的异常行为进行判定,获得所述目标用户的行为检测结果;
其中,所述第一差异程度用于表征用户行为的自我异常程度,所述第二差异程度用于表征用户行为的类比异常程度。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的基于多源数据融合的用户行为检测方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的基于多源数据融合的用户行为检测方法的步骤。
本发明实施例提供的基于多源数据融合的用户行为检测方法及装置,以网络日志数据为基础,通过对数据进行特征提取,获取用户行为,并检测出异常的用户行为,有利于管理部门对异常行为用户进行提前干预,降低异常行为导致的安全风险,方法操作简单,具有较高的实用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于多源数据融合的用户行为检测方法的流程示意图;
图2为本发明实施例提供的基于多源数据融合的用户行为检测装置的结构示意图;
图3为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例主要针对校园网用户中的学生群体进行研究,通过引入数据挖掘算法对校园网用户行为进行分析和特征描述,得出其行为模式,并检测出异常用户行为,为网络管理者提供决策支持。
如图1所示,为本发明实施例提供的基于多源数据融合的用户行为检测方法的流程示意图,包括:
步骤100、基于当前时间段内的校园无线网络用户日志信息分别对目标用户和目标用户所在班级内的各其他用户在所述当前时间段内的上网行为进行分析,获取所述目标用户的当前行为特征向量和所述目标用户所在班级内的各其他用户的当前行为特征向量,并对所述目标用户所在班级内的各其他用户的当前行为特征向量求平均,获得所述目标用户所在班级内的所有其他用户对应的当前行为平均特征向量;
具体地,为准确检测出用户异常行为,在本发明实施例中,将异常检测分为两种:自我异常检测和类比异常检测。其中,自我异常检测是指对比用户当前行为特征与历史行为特征,通过自我特征对比检测当前用户行为是否异常;类比异常检测是指将目标用户当前行为特征和其他用户当前行为特征的差异性与目标用户历史行为特征和其他用户历史行为特征的差异性进行对比,通过类比目标用户与其他用户行为特征差异性的变化来检测用户异常行为,并根据差异性变化程度确定异常等级。
本发明实施例首先从校园无线网络的网管系统获取当前时间段内的校园无线网络用户日志信息。
所述校园无线网络用户日志信息包括:用户ID、用户上下线时间、目标URL、终端MAC地址和网络接入点MAC地址。其中,用户ID可以是学生姓名、学号、身份证号等标识用户身份的信息;用户上下线时间是指用户登录校园无线网络的时刻,以及用户退出校园无线网络的时刻;目标URL可以用来确定用户上网冲浪的内容;终端MAC地址是指用户终端的MAC地址;网络接入点MAC地址可以反映用户上网时所处的位置。
基于当前时间段内的校园无线网络用户日志信息对目标用户在所述当前时间段内的上网行为进行分析,获得所述目标用户的当前行为特征向量。
基于当前时间段内的校园无线网络用户日志信息对目标用户所在班级内的各其他用户在所述当前时间段内的上网行为进行分析,获得各其他用户的当前行为特征向量。
上述分析的过程即进行用户行为特征提取的过程。
为全面表示用户行为,本发明实施例提出以下用户行为特征表示方法:
BC=BC(T,L,I,G)
其中,T表示度量用户上网时间段分布的特征,L表示度量用户上网位置分布的特征,I表示度量用户上网喜好的特征,G表示度量用户合群程度的特征。
可以理解的是,在本发明实施例中,行为特征向量包括以下几个方面的信息:度量用户上网时间段分布的特征,度量用户上网位置分布的特征,度量用户上网喜好的特征,以及度量用户合群程度的特征。
在获得其他用户的当前行为特征向量之后,对所述目标用户所在班级内的各其他用户的当前行为特征向量求平均,获得所述目标用户所在班级内的所有其他用户对应的当前行为平均特征向量。
步骤101、基于预先构建的历史行为特征数据库,获取所述目标用户在某个历史时间段内的第一历史行为平均特征向量,以及所述目标用户所在班级内的各其他用户在所述历史时间段内的历史行为特征向量,并对所述目标用户所在班级内的各其他用户在所述历史时间段内的历史行为特征向量求平均,获得所述目标用户所在班级内的所有其他用户对应的第二历史行为平均特征向量;
具体地,基于校园无线网络用户日志信息对用户的上网行为进行分析,获取所述用户的行为特征向量,即采用与步骤100相同的方法,可以获得不同历史时间段内的各个校园无线网络用户的行为特征向量,从而构建历史行为特征数据库。
然后,基于预先构建的历史行为特征数据库,获取所述目标用户在某个历史时间段内的第一历史行为平均特征向量,并根据目标用户所在的班级信息,获取目标用户所在班级内的各个其他用户在所述历史时间段内的历史行为特征向量,对所有其他用户在所述历史时间段内的历史行为特征向量求平均,获得目标用户所在班级内的所有其他用户对应的第二历史行为平均特征向量。
步骤102、计算所述目标用户的当前行为特征向量与所述目标用户在所述历史时间段内的第一历史行为平均特征向量之间的第一差异程度;
具体地,采用如下公式计算所述目标用户的当前行为特征向量与所述目标用户在所述历史时间段内的第一历史行为平均特征向量之间的第一差异程度:
其中,0<p1,p2,p3,p4<1,且p1+p2+p3+p4=1,(TA,LA,IA,GA)表示目标用户A的当前行为特征向量,表示所述目标用户A在所述历史时间段内的第一历史行为平均特征向量。
其中,所述第一差异程度用于表征用户行为的自我异常程度,当ΔBC>φ时,即若判断所述第一差异程度大于第一预设阈值,则获知所述目标用户的当前上网行为存在自我异常,且ΔBC值越大,自我异常程度越高。p1,p2,p3,p4,φ的值可以根据需要进行设定。
步骤103、计算所述目标用户的当前行为特征向量与所述目标用户所在班级内的所有其他用户对应的当前行为平均特征向量之间的第一差值,计算所述目标用户在所述历史时间段内的第一历史行为平均特征向量与所述目标用户所在班级内的所有其他用户的第二历史行为平均特征向量之间的第二差值,基于所述第一差值和第二差值计算获得第二差异程度;
具体地,所述第二差异程度采用如下公式计算获得:
其中,0<q1,q2,q3,q4<1,且q1+q2+q3+q4=1,(TA,LA,IA,GA)表示目标用户A的当前行为特征向量,(TΘ/{A},LΘ/{A},IΘ/{A},GΘ/{A})表示所述目标用户A所在班级内的所有其他用户对应的当前行为平均特征向量,表示所述目标用户A在所述历史时间段内的第一历史行为平均特征向量,表示所述目标用户A所在班级内的所有其他用户的第二历史行为平均特征向量。
其中,所述第二差异程度用于表征用户行为的类比异常程度。当时,即若判断所述第二差异程度大于第二预设阈值,则可以判定用户当前行为特征存在类比异常,且值越大,类比异常程度越高。的值可以根据需要进行设定。
步骤104、根据所述第一差异程度与第二差异程度对所述目标用户的异常行为进行判定,获得所述目标用户的行为检测结果;
具体地,本发明实施例综合自我异常和类比异常来计算用户的综合异常程度,将所述第一差异程度与第二差异程度进行加权求和,获得所述目标用户的异常行为检测结果:
其中,0<α,β<1,且α+β=1。
当J(A)>γ时,可以判定用户当前行为特征存在异常,且J(A)值越大,用户A异常程度越高。
α,β,γ的值可以根据需要进行灵活设置。
本发明实施例提供的基于多源数据融合的用户行为检测方法,以网络日志数据为基础,通过对数据进行特征提取,获取用户行为,并检测出异常的用户行为,有利于管理部门对异常行为用户进行提前干预,降低异常行为导致的安全风险,方法操作简单,具有较高的实用性。
基于上述实施例的内容,所述基于当前时间段内的校园无线网络用户日志信息分别对目标用户和目标用户所在班级内的各其他用户在所述当前时间段内的上网行为进行分析,获取所述目标用户的当前行为特征向量和所述目标用户所在班级内的各其他用户的当前行为特征向量的步骤,具体为:
获取当前时间段内的校园无线网络用户日志信息,所述校园无线网络用户日志信息包括:用户ID、用户上下线时间、目标URL、终端MAC地址、网络接入点MAC地址;
将每天按小时为单位划分为24个时段,基于所述当前时间段内的校园无线网络用户日志信息中的用户上下线时间,确定目标用户和目标用户所在班级内的各其他用户在各时段内的上网时间,获得度量所述目标用户和目标用户所在班级内的各其他用户上网时间段分布的特征;
具体地,将每天按小时为单位划分为24个时段{t1(0:00-1:00),t2(1:00-2:00),…,t24(23:00-24:00)},基于所述当前时间段内的校园无线网络用户日志信息中的用户上下线时间,确定目标用户和目标用户所在班级内的各其他用户在各时段内的上网时间。
例如,TA={0.5,0,…,1}表示用户A在时段{t1(0:00-1:00),t2(1:00-2:00),…,t24(23:00-24:00)}内上网时间分别为0.5小时,0,…,1小时。
基于所述当前时间段内的校园无线网络用户日志信息中的网络接入点MAC地址标识目标用户和目标用户所在班级内的各其他用户的位置,并统计单位时间内通过各个接入点上网的时长,确定目标用户和目标用户所在班级内的各其他用户在各个位置的上网时间,获得度量所述目标用户和目标用户所在班级内的各其他用户上网位置分布的特征;
具体地,为更精准标识用户位置,本发明实施例通过网络日志中的网络接入点AP的MAC地址来标识用户位置,并统计单位时间(比如每天)内通过各AP上网的时长,从而可以得出用户在各个位置的上网时间。如LA={教1-101(MAC1,0.5小时),学2-203(MAC2,2小时),……}表示用户A在教1-101通过地址为MAC1的AP上网0.5小时,在学2-203通过地址为MAC2的AP上网2小时。
将网络日志中的目标URL分为多个网络业务类别,基于所述当前时间段内的校园无线网络用户日志信息中的目标URL,确定目标用户和目标用户所在班级内的各其他用户在各个网络业务的所耗时长,获得度量所述目标用户和目标用户所在班级内的各其他用户上网喜好的特征;
具体地,由于当前网络内容较多,为降低喜好特征维度,首先将网络日志中的目标URL进行分类,例如可以分为以下几类:办公/学习类、视频直播类、视频点播类、即时通信类、游戏类、电子商务类、非法业务类等,然后统计单位时间(比如每天)内用户花费在各类网络业务上的时长。如IA={办公/学习类(1小时),视频直播类(1小时),视频点播类(2小时),……},表示用户A每天花费在办公/学习类、视频直播类、视频点播类……的时间分别为1小时、1小时、2小时、……。
基于所述当前时间段内的校园无线网络用户日志信息中的终端MAC地址和网络接入点MAC地址,计算用户与其同班同学的关系度均值,获得度量所述目标用户和目标用户所在班级内的各其他用户合群程度的特征;
具体地,本发明实施例将单位时间内(如每天)两个用户同时接入同一个AP的时间占比定义为两个用户的关系度。例如用户A和用户B每天同时接入同一个AP的时间为3小时,则认为用户A和用户的B的关系度RAB为3÷24=0.125;用户B和用户C每天同时接入同一个AP的时间为6小时,则用户B和用户C的关系度RBC为6÷24=0.25,即用户B和用户A的关系不如用户B和用户C的关系紧密。进一步地,合群程度表示用户与其同班同学的关系度均值。
其中,采用如下公式计算用户与其同班同学的关系度均值:
其中,RAi表示用户B与其第i个同学的关系度,M表示用户B的同班同学数目。
如图2所示,为本发明实施例提供的基于多源数据融合的用户行为检测装置的结构示意图,包括:用户行为分析模块201、历史行为特征获取模块202、第一差异程度计算模块203、第二差异程度计算模块204和检测模块205,其中,
用户行为分析模块201,用于基于当前时间段内的校园无线网络用户日志信息分别对目标用户和目标用户所在班级内的各其他用户在所述当前时间段内的上网行为进行分析,获取所述目标用户的当前行为特征向量和所述目标用户所在班级内的各其他用户的当前行为特征向量,并对所述目标用户所在班级内的各其他用户的当前行为特征向量求平均,获得所述目标用户所在班级内的所有其他用户对应的当前行为平均特征向量;
历史行为特征获取模块202,用于基于预先构建的历史行为特征数据库,获取所述目标用户在某个历史时间段内的第一历史行为平均特征向量,以及所述目标用户所在班级内的各其他用户在所述历史时间段内的历史行为特征向量,并对所述目标用户所在班级内的各其他用户在所述历史时间段内的历史行为特征向量求平均,获得所述目标用户所在班级内的所有其他用户对应的第二历史行为平均特征向量;
第一差异程度计算模块203,用于计算所述目标用户的当前行为特征向量与所述目标用户在所述历史时间段内的第一历史行为平均特征向量之间的第一差异程度;
第二差异程度计算模块204,用于计算所述目标用户的当前行为特征向量与所述目标用户所在班级内的所有其他用户对应的当前行为平均特征向量之间的第一差值,计算所述目标用户在所述历史时间段内的第一历史行为平均特征向量与所述目标用户所在班级内的所有其他用户的第二历史行为平均特征向量之间的第二差值,基于所述第一差值和第二差值计算获得第二差异程度;
检测模块205,用于根据所述第一差异程度与第二差异程度对所述目标用户的异常行为进行判定,获得所述目标用户的行为检测结果;
其中,所述第一差异程度用于表征用户行为的自我异常程度,所述第二差异程度用于表征用户行为的类比异常程度。
基于多源数据融合的用户行为检测装置用于执行上述方法实施例中的基于多源数据融合的用户行为检测方法。因此,在前述基于多源数据融合的用户行为检测方法实施例中的描述和定义,可以用于本发明实施例中多源数据融合的用户行为检测装置的理解,在此不再赘述。
本发明实施例提供的基于多源数据融合的用户行为检测装置,以网络日志数据为基础,通过对数据进行特征提取,获取用户行为,并检测出异常的用户行为,有利于管理部门对异常行为用户进行提前干预,降低异常行为导致的安全风险,方法操作简单,具有较高的实用性。
图3为本发明实施例提供的电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储在存储器330上并可在处理器310上运行的计算机程序,以执行上述各方法实施例所提供的基于多源数据融合的用户行为检测方法,例如包括:基于当前时间段内的校园无线网络用户日志信息分别对目标用户和目标用户所在班级内的各其他用户在所述当前时间段内的上网行为进行分析,获取所述目标用户的当前行为特征向量和所述目标用户所在班级内的各其他用户的当前行为特征向量,并对所述目标用户所在班级内的各其他用户的当前行为特征向量求平均,获得所述目标用户所在班级内的所有其他用户对应的当前行为平均特征向量;基于预先构建的历史行为特征数据库,获取所述目标用户在某个历史时间段内的第一历史行为平均特征向量,以及所述目标用户所在班级内的各其他用户在所述历史时间段内的历史行为特征向量,并对所述目标用户所在班级内的各其他用户在所述历史时间段内的历史行为特征向量求平均,获得所述目标用户所在班级内的所有其他用户对应的第二历史行为平均特征向量;计算所述目标用户的当前行为特征向量与所述目标用户在所述历史时间段内的第一历史行为平均特征向量之间的第一差异程度;计算所述目标用户的当前行为特征向量与所述目标用户所在班级内的所有其他用户对应的当前行为平均特征向量之间的第一差值,计算所述目标用户在所述历史时间段内的第一历史行为平均特征向量与所述目标用户所在班级内的所有其他用户的第二历史行为平均特征向量之间的第二差值,基于所述第一差值和第二差值计算获得第二差异程度;根据所述第一差异程度与第二差异程度对所述目标用户的异常行为进行判定,获得所述目标用户的行为检测结果;其中,所述第一差异程度用于表征用户行为的自我异常程度,所述第二差异程度用于表征用户行为的类比异常程度。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例提供的基于多源数据融合的用户行为检测方法,例如包括:基于当前时间段内的校园无线网络用户日志信息分别对目标用户和目标用户所在班级内的各其他用户在所述当前时间段内的上网行为进行分析,获取所述目标用户的当前行为特征向量和所述目标用户所在班级内的各其他用户的当前行为特征向量,并对所述目标用户所在班级内的各其他用户的当前行为特征向量求平均,获得所述目标用户所在班级内的所有其他用户对应的当前行为平均特征向量;基于预先构建的历史行为特征数据库,获取所述目标用户在某个历史时间段内的第一历史行为平均特征向量,以及所述目标用户所在班级内的各其他用户在所述历史时间段内的历史行为特征向量,并对所述目标用户所在班级内的各其他用户在所述历史时间段内的历史行为特征向量求平均,获得所述目标用户所在班级内的所有其他用户对应的第二历史行为平均特征向量;计算所述目标用户的当前行为特征向量与所述目标用户在所述历史时间段内的第一历史行为平均特征向量之间的第一差异程度;计算所述目标用户的当前行为特征向量与所述目标用户所在班级内的所有其他用户对应的当前行为平均特征向量之间的第一差值,计算所述目标用户在所述历史时间段内的第一历史行为平均特征向量与所述目标用户所在班级内的所有其他用户的第二历史行为平均特征向量之间的第二差值,基于所述第一差值和第二差值计算获得第二差异程度;根据所述第一差异程度与第二差异程度对所述目标用户的异常行为进行判定,获得所述目标用户的行为检测结果;其中,所述第一差异程度用于表征用户行为的自我异常程度,所述第二差异程度用于表征用户行为的类比异常程度。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于多源数据融合的用户行为检测方法,其特征在于,包括:
基于当前时间段内的校园无线网络用户日志信息分别对目标用户和目标用户所在班级内的各其他用户在所述当前时间段内的上网行为进行分析,获取所述目标用户的当前行为特征向量和所述目标用户所在班级内的各其他用户的当前行为特征向量,并对所述目标用户所在班级内的各其他用户的当前行为特征向量求平均,获得所述目标用户所在班级内的所有其他用户对应的当前行为平均特征向量;
基于预先构建的历史行为特征数据库,获取所述目标用户在某个历史时间段内的第一历史行为平均特征向量,以及所述目标用户所在班级内的各其他用户在所述历史时间段内的历史行为特征向量,并对所述目标用户所在班级内的各其他用户在所述历史时间段内的历史行为特征向量求平均,获得所述目标用户所在班级内的所有其他用户对应的第二历史行为平均特征向量;
计算所述目标用户的当前行为特征向量与所述目标用户在所述历史时间段内的第一历史行为平均特征向量之间的第一差异程度;
计算所述目标用户的当前行为特征向量与所述目标用户所在班级内的所有其他用户对应的当前行为平均特征向量之间的第一差值,计算所述目标用户在所述历史时间段内的第一历史行为平均特征向量与所述目标用户所在班级内的所有其他用户的第二历史行为平均特征向量之间的第二差值,基于所述第一差值和第二差值计算获得第二差异程度;
根据所述第一差异程度与第二差异程度对所述目标用户的异常行为进行判定,获得所述目标用户的行为检测结果;
其中,所述第一差异程度用于表征用户行为的自我异常程度,所述第二差异程度用于表征用户行为的类比异常程度。
2.根据权利要求1所述的基于多源数据融合的用户行为检测方法,其特征在于,所述行为特征向量包括:度量用户上网时间段分布的特征,度量用户上网位置分布的特征,度量用户上网喜好的特征,以及度量用户合群程度的特征。
3.根据权利要求2所述的基于多源数据融合的用户行为检测方法,其特征在于,所述基于当前时间段内的校园无线网络用户日志信息分别对目标用户和目标用户所在班级内的各其他用户在所述当前时间段内的上网行为进行分析,获取所述目标用户的当前行为特征向量和所述目标用户所在班级内的各其他用户的当前行为特征向量的步骤,具体为:
获取当前时间段内的校园无线网络用户日志信息,所述校园无线网络用户日志信息包括:用户ID、用户上下线时间、目标URL、终端MAC地址、网络接入点MAC地址;
将每天按小时为单位划分为24个时段,基于所述当前时间段内的校园无线网络用户日志信息中的用户上下线时间,确定目标用户和目标用户所在班级内的各其他用户在各时段内的上网时间,获得度量所述目标用户和目标用户所在班级内的各其他用户上网时间段分布的特征;
基于所述当前时间段内的校园无线网络用户日志信息中的网络接入点MAC地址标识目标用户和目标用户所在班级内的各其他用户的位置,并统计单位时间内通过各个接入点上网的时长,确定目标用户和目标用户所在班级内的各其他用户在各个位置的上网时间,获得度量所述目标用户和目标用户所在班级内的各其他用户上网位置分布的特征;
将网络日志中的目标URL分为多个网络业务类别,基于所述当前时间段内的校园无线网络用户日志信息中的目标URL,确定目标用户和目标用户所在班级内的各其他用户在各个网络业务的所耗时长,获得度量所述目标用户和目标用户所在班级内的各其他用户上网喜好的特征;
基于所述当前时间段内的校园无线网络用户日志信息中的终端MAC地址和网络接入点MAC地址,计算用户与其同班同学的关系度均值,获得度量所述目标用户和目标用户所在班级内的各其他用户合群程度的特征;
其中,所述关系度具体为两个用户同时接入同一网络接入点的时间占比。
4.根据权利要求1所述的基于多源数据融合的用户行为检测方法,其特征在于,采用如下公式计算所述目标用户的当前行为特征向量与所述目标用户在所述历史时间段内的第一历史行为平均特征向量之间的第一差异程度:
其中,0<p1,p2,p3,p4<1,且p1+p2+p3+p4=1,(TA,LA,IA,GA)表示目标用户A的当前行为特征向量,表示所述目标用户A在所述历史时间段内的第一历史行为平均特征向量。
5.根据权利要求1所述的基于多源数据融合的用户行为检测方法,其特征在于,所述第二差异程度采用如下公式计算获得:
其中,0<q1,q2,q3,q4<1,且q1+q2+q3+q4=1,(TA,LA,IA,GA)表示目标用户A的当前行为特征向量,(TΘ/{A},LΘ/{A},IΘ/{A},GΘ/{A})表示所述目标用户A所在班级内的所有其他用户对应的当前行为平均特征向量,表示所述目标用户A在所述历史时间段内的第一历史行为平均特征向量,表示所述目标用户A所在班级内的所有其他用户的第二历史行为平均特征向量。
6.根据权利要求1所述的基于多源数据融合的用户行为检测方法,其特征在于,所述根据所述第一差异程度与第二差异程度对所述目标用户的异常行为进行判定,获得所述目标用户的行为检测结果的步骤,具体为:
将所述第一差异程度与第二差异程度进行加权求和,获得所述目标用户的异常行为检测结果。
7.根据权利要求3所述的基于多源数据融合的用户行为检测方法,其特征在于,采用如下公式计算用户与其同班同学的关系度均值:
其中,RAi表示用户B与其第i个同学的关系度,M表示用户B的同班同学数目。
8.一种基于多源数据融合的用户行为检测装置,其特征在于,包括:
用户行为分析模块,用于基于当前时间段内的校园无线网络用户日志信息分别对目标用户和目标用户所在班级内的各其他用户在所述当前时间段内的上网行为进行分析,获取所述目标用户的当前行为特征向量和所述目标用户所在班级内的各其他用户的当前行为特征向量,并对所述目标用户所在班级内的各其他用户的当前行为特征向量求平均,获得所述目标用户所在班级内的所有其他用户对应的当前行为平均特征向量;
历史行为特征获取模块,用于基于预先构建的历史行为特征数据库,获取所述目标用户在某个历史时间段内的第一历史行为平均特征向量,以及所述目标用户所在班级内的各其他用户在所述历史时间段内的历史行为特征向量,并对所述目标用户所在班级内的各其他用户在所述历史时间段内的历史行为特征向量求平均,获得所述目标用户所在班级内的所有其他用户对应的第二历史行为平均特征向量;
第一差异程度计算模块,用于计算所述目标用户的当前行为特征向量与所述目标用户在所述历史时间段内的第一历史行为平均特征向量之间的第一差异程度;
第二差异程度计算模块,用于计算所述目标用户的当前行为特征向量与所述目标用户所在班级内的所有其他用户对应的当前行为平均特征向量之间的第一差值,计算所述目标用户在所述历史时间段内的第一历史行为平均特征向量与所述目标用户所在班级内的所有其他用户的第二历史行为平均特征向量之间的第二差值,基于所述第一差值和第二差值计算获得第二差异程度;
检测模块,用于根据所述第一差异程度与第二差异程度对所述目标用户的异常行为进行判定,获得所述目标用户的行为检测结果;
其中,所述第一差异程度用于表征用户行为的自我异常程度,所述第二差异程度用于表征用户行为的类比异常程度。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于多源数据融合的用户行为检测方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于多源数据融合的用户行为检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910624299.0A CN110532485B (zh) | 2019-07-11 | 2019-07-11 | 基于多源数据融合的用户行为检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910624299.0A CN110532485B (zh) | 2019-07-11 | 2019-07-11 | 基于多源数据融合的用户行为检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110532485A true CN110532485A (zh) | 2019-12-03 |
CN110532485B CN110532485B (zh) | 2022-06-03 |
Family
ID=68659689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910624299.0A Expired - Fee Related CN110532485B (zh) | 2019-07-11 | 2019-07-11 | 基于多源数据融合的用户行为检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110532485B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112291622A (zh) * | 2020-10-30 | 2021-01-29 | 中国建设银行股份有限公司 | 用户的喜好上网时间段的确定方法及装置 |
CN112633395A (zh) * | 2020-12-29 | 2021-04-09 | 平安科技(深圳)有限公司 | 异常数据的检测方法、装置、计算机设备和存储介质 |
CN114513432A (zh) * | 2020-10-29 | 2022-05-17 | 南京中兴新软件有限责任公司 | 上网异常离线的检测方法、装置、介质及设备 |
CN116980239A (zh) * | 2023-09-25 | 2023-10-31 | 江苏天创科技有限公司 | 一种基于sase的网络安全监控预警方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180083996A1 (en) * | 2016-09-21 | 2018-03-22 | Sentient Technologies (Barbados) Limited | Detecting behavioral anomaly in machine learned rule sets |
CN107846389A (zh) * | 2016-09-21 | 2018-03-27 | 中国科学院信息工程研究所 | 基于用户主客观数据融合的内部威胁检测方法及系统 |
US20180288063A1 (en) * | 2017-03-31 | 2018-10-04 | Oracle International Corporation | Mechanisms for anomaly detection and access management |
CN108763319A (zh) * | 2018-04-28 | 2018-11-06 | 中国科学院自动化研究所 | 融合用户行为和文本信息的社交机器人检测方法和系统 |
CN106101116B (zh) * | 2016-06-29 | 2019-01-08 | 东北大学 | 一种基于主成分分析的用户行为异常检测系统及方法 |
-
2019
- 2019-07-11 CN CN201910624299.0A patent/CN110532485B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106101116B (zh) * | 2016-06-29 | 2019-01-08 | 东北大学 | 一种基于主成分分析的用户行为异常检测系统及方法 |
US20180083996A1 (en) * | 2016-09-21 | 2018-03-22 | Sentient Technologies (Barbados) Limited | Detecting behavioral anomaly in machine learned rule sets |
CN107846389A (zh) * | 2016-09-21 | 2018-03-27 | 中国科学院信息工程研究所 | 基于用户主客观数据融合的内部威胁检测方法及系统 |
US20180288063A1 (en) * | 2017-03-31 | 2018-10-04 | Oracle International Corporation | Mechanisms for anomaly detection and access management |
CN108763319A (zh) * | 2018-04-28 | 2018-11-06 | 中国科学院自动化研究所 | 融合用户行为和文本信息的社交机器人检测方法和系统 |
Non-Patent Citations (2)
Title |
---|
JIE LIANG,YINLONG LIU: "A Cache Privacy Protection Strategy Based on Content Privacy and User Security Classification in CCN", 《2019 IEEE WIRELESS COMMUNICATIONS AND NETWORKING CONFERENCE》 * |
王旭仁: "Web页面细粒度数据抽取方法研究", 《计算机工程与设计》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114513432A (zh) * | 2020-10-29 | 2022-05-17 | 南京中兴新软件有限责任公司 | 上网异常离线的检测方法、装置、介质及设备 |
CN112291622A (zh) * | 2020-10-30 | 2021-01-29 | 中国建设银行股份有限公司 | 用户的喜好上网时间段的确定方法及装置 |
CN112291622B (zh) * | 2020-10-30 | 2022-05-27 | 中国建设银行股份有限公司 | 用户的喜好上网时间段的确定方法及装置 |
CN112633395A (zh) * | 2020-12-29 | 2021-04-09 | 平安科技(深圳)有限公司 | 异常数据的检测方法、装置、计算机设备和存储介质 |
WO2022142042A1 (zh) * | 2020-12-29 | 2022-07-07 | 平安科技(深圳)有限公司 | 异常数据的检测方法、装置、计算机设备和存储介质 |
CN112633395B (zh) * | 2020-12-29 | 2024-07-19 | 平安科技(深圳)有限公司 | 异常数据的检测方法、装置、计算机设备和存储介质 |
CN116980239A (zh) * | 2023-09-25 | 2023-10-31 | 江苏天创科技有限公司 | 一种基于sase的网络安全监控预警方法及系统 |
CN116980239B (zh) * | 2023-09-25 | 2023-11-24 | 江苏天创科技有限公司 | 一种基于sase的网络安全监控预警方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110532485B (zh) | 2022-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532485A (zh) | 基于多源数据融合的用户行为检测方法及装置 | |
US8250008B1 (en) | Decision tree refinement | |
US10001389B1 (en) | Analysis of smart meter data based on frequency content | |
CN106716958A (zh) | 横向移动检测 | |
WO2021043140A1 (zh) | 标签确定方法、装置和系统 | |
CN110309884A (zh) | 基于泛在电力物联网体系的用电数据异常识别系统 | |
CN109063456A (zh) | 图像型验证码的安全性检测方法及系统 | |
CN110162445A (zh) | 基于主机日志及性能指标的主机健康评价方法及装置 | |
CN105824805B (zh) | 一种识别方法及装置 | |
CN111984442A (zh) | 计算机集群系统的异常检测方法及装置、存储介质 | |
CN107886241A (zh) | 资源分析方法、装置、介质和电子设备 | |
CN108229749A (zh) | 基于深度学习的不良购票行为管理方法 | |
CN110457992A (zh) | 基于贝叶斯优化技术的行人重识别方法、装置和系统 | |
CN112927050A (zh) | 待推荐金融产品确定方法、装置、电子设备及存储介质 | |
CN111611519A (zh) | 一种个人异常行为检测方法及装置 | |
CN110309737A (zh) | 一种应用于香烟柜台的信息处理方法、装置及系统 | |
CN109636338A (zh) | 一种光电宽带运维管理平台系统 | |
CN109960839B (zh) | 基于机器学习的业务支撑系统业务链路发现方法和系统 | |
CN111784360B (zh) | 一种基于网络链接回溯的反欺诈预测方法及系统 | |
CN109801394B (zh) | 一种工作人员考勤方法及装置、电子设备和可读存储介质 | |
CN111191109A (zh) | 一种信息处理方法及装置、存储介质 | |
CN115314424A (zh) | 一种快速检测网络信号方法及装置 | |
TWI725640B (zh) | 透過客戶訊務流量模型識別客戶屬性之方法 | |
CN115392351A (zh) | 风险用户识别方法、装置、电子设备及存储介质 | |
US11290384B2 (en) | Access origin classification apparatus, access origin classification method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220603 |
|
CF01 | Termination of patent right due to non-payment of annual fee |