CN114039744B - 一种基于用户特征标签的异常行为预测方法及系统 - Google Patents

一种基于用户特征标签的异常行为预测方法及系统 Download PDF

Info

Publication number
CN114039744B
CN114039744B CN202111151258.8A CN202111151258A CN114039744B CN 114039744 B CN114039744 B CN 114039744B CN 202111151258 A CN202111151258 A CN 202111151258A CN 114039744 B CN114039744 B CN 114039744B
Authority
CN
China
Prior art keywords
feature
feature tag
predicted
sequences
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111151258.8A
Other languages
English (en)
Other versions
CN114039744A (zh
Inventor
郑传义
苗功勋
高峰
田金星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongfu Information Co Ltd
Original Assignee
Zhongfu Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongfu Information Co Ltd filed Critical Zhongfu Information Co Ltd
Priority to CN202111151258.8A priority Critical patent/CN114039744B/zh
Publication of CN114039744A publication Critical patent/CN114039744A/zh
Application granted granted Critical
Publication of CN114039744B publication Critical patent/CN114039744B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于用户特征标签的异常行为预测方法及系统,获取待预测网络行为,构建待预测网络行为的用户特征标签序列的样本集合;根据特征标签集合,对所述待预测网络行为的用户特征标签序列的样本集合,进行特征标签剔除,得到待预测剩余特征标签序列和待预测剩余特征标签序列的样本集合;其中,所剔除的特征标签均为高支持度的特征标签;对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列,与设定特征标签序列进行相似度计算,相似度越高的待预测剩余特征标签序列,所对应的用户发生异常行为事件的概率越大。本发明可以实现异常网络行为的检测。

Description

一种基于用户特征标签的异常行为预测方法及系统
技术领域
本发明涉及网络安全技术领域,特别是涉及一种基于用户特征标签的异常行为预测方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
随着网络安全技术的不断进步,针对内网各类安全异常行为的评估预测系统开始得到应用。在内网安全中,分析系统多会采用对用户赋予标签的方式,来对用户的典型状态特征或行为特征进行刻画。如何通过这些用户特征标签的变化趋势,在用户异常行为发生之前,做出更准确、快速的预测,成为各类预测系统研究的重点。
通常认为,用户所发生的特定重大异常行为,与其较近历史的某些状态特征或行为特征相关性较强,其特征在这段时间线上呈现出某种特定的组合或序列模式,这是进行异常行为预测的理论基础。传统的异常行为预测,通过构建一个与特定异常行为相关的特征基线,然后与用户待检测样本数据拟合比较,匹配度高的用户,未来发生特定异常行为的概率越大,然而这种模式存在下面两个问题:
使用特征集合进行预测,往往只能和异常行为构成关联关系,而非因果关系,特征集合的元素是异常行为的必要条件,而非充分条件,直接使用特征集合预测,误差较大。
而使用特征序列进行预测,往往由于学习样本中特征集合过大,特征序列的构建过程效率较低,而过多的特征也会导致特征序列的支持度较低。
发明内容
为了解决现有技术的不足,本发明提供了一种基于用户特征标签的异常行为预测方法及系统;用于解决以上两个问题。通过分析异常行为与用户特征标签的因果关系,构建异常行为的因果特征基线,然后对待预测特征数据筛选,并进行相似度比较,实现对可能发生特定行为的用户的预测。
第一方面,本发明提供了一种基于用户特征标签的异常行为预测方法;
一种基于用户特征标签的异常行为预测方法,包括:
获取待预测网络行为,构建待预测网络行为的用户特征标签序列的样本集合;
根据特征标签集合,对所述待预测网络行为的用户特征标签序列的样本集合,进行特征标签剔除,得到待预测剩余特征标签序列和待预测剩余特征标签序列的样本集合;其中,所剔除的特征标签均为高支持度的特征标签;
对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列,与设定特征标签序列进行相似度计算,相似度越高的待预测剩余特征标签序列,所对应的用户发生异常行为事件的概率越大。
第二方面,本发明提供了一种基于用户特征标签的异常行为预测系统;
一种基于用户特征标签的异常行为预测系统,包括:
构建模块,其被配置为:获取待预测网络行为,构建待预测网络行为的用户特征标签序列的样本集合;
剔除模块,其被配置为:根据特征标签集合,对所述待预测网络行为的用户特征标签序列的样本集合,进行特征标签剔除,得到待预测剩余特征标签序列和待预测剩余特征标签序列的样本集合;其中,所剔除的特征标签均为高支持度的特征标签;
输出模块,其被配置为:对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列,与设定特征标签序列进行相似度计算,相似度越高的待预测剩余特征标签序列,所对应的用户发生异常行为事件的概率越大。
第三方面,本发明还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
第四方面,本发明还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
与现有技术相比,本发明的有益效果是:
本过程利用多种方法来构建发生异常行为的盖然条件特征标签,并以这些特征标签作为行为预测的基线数据。
本发明在使用过程中,首先对样本数据中的高支持度特征进行了抽取,作为异常行为事件发生的必要条件,在进一步提取行为模式前,对样本的特征集合进行了收敛,提高了行为模式抽取的效率。通过特征集合基线和特征序列模式基线两个层面的筛选匹配,实现了对可能产生异常行为的用户的预测。
本发明在使用过程中,可以将用户行为特征标签扩展到其它实体,如设备,软件系统等,通过设置不同的支持度,来修正预测的可靠性。
本发明附加方面的优点将在下面的描述中部分给出,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为第一个实施例的方法流程图;
图2为第二个实施例的功能模块图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
术语介绍:
频繁项集挖掘算法,是指利用相关算法,找到数据集中频繁出现、普遍性的数据集合或子结构,目的是发现数据之间所共性的集合特征。
频繁序列挖掘算法,是指利用相关算法,找到数据集中频繁出现、普遍性的数据序列,目的是发现数据之间所共性的序列特征。
实施例一
本实施例提供了一种基于用户特征标签的异常行为预测方法;
如图1所示,一种基于用户特征标签的异常行为预测方法,包括:
S101:获取待预测网络行为,构建待预测网络行为的用户特征标签序列的样本集合;
S102:根据特征标签集合,对所述待预测网络行为的用户特征标签序列的样本集合,进行特征标签剔除,得到待预测剩余特征标签序列和待预测剩余特征标签序列的样本集合;其中,所剔除的特征标签均为高支持度的特征标签;
S103:对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列,与设定特征标签序列进行相似度计算,相似度越高的待预测剩余特征标签序列,所对应的用户发生异常行为事件的概率越大。
进一步地,所述特征标签集合,其获取步骤包括:
S100-1:获取异常网络行为对应的用户特征标签序列的样本集合;
S100-2:对所述异常网络行为对应的用户特征标签序列的样本集合,进行特征标签抽取,得到特征标签集合。
示例性的,所述S100-1:获取异常网络行为对应的用户特征标签序列的样本集合;具体包括:
对异常行为事件X,收集对应用户在发生X事件之前T时间周期内所有特征标签,按照标签赋予的时间顺序,形成特征标签序列标签Li={L}表示用户i的一个状态特征或行为特征,/>为异常行为事件X的特征标签序列的样本集合。
示例性的,所述S100-1:获取异常网络行为对应的用户特征标签序列的样本集合;具体包括:
行为事件X表示一次入侵窃取数据文件的行为。标签Li={L}表示用户i的一个状态特征或行为特征,例如,L1标签表示管理员账号,L2标签表示一般账号,L3标签表示端口扫描行为特征,L4标签表示邮件访问行为特征,L5标签表示提升权限行为特征,L6标签表示下载机密文件行为特征,L7标签表示下载一般文件行为特征,L8标签表示数据库访问行为特征,L9标签表示删除下载日志行为特征,L10标签表示打印文件行为特征,此处不再一一列举。
例如,行为特征序列表示用户i在发生入侵窃取机密数据文件行为事件之前的T时间内,具备管理员账号特征,并先后进行了邮件访问、提升权限、下载机密文件、删除下载日志、打印文件等行为特征。通过收集不同特征标签序列最终构成了样本集合G(XT)。
进一步地,所述S100-2:对所述异常网络行为对应的用户特征标签序列的样本集合,进行特征标签抽取,得到特征标签集合;具体包括:
利用频繁项集挖掘算法,对所述异常网络行为对应的用户特征标签序列的样本集合,进行特征标签抽取,得到特征标签集合。
示例性的,所述S100-2:对所述异常网络行为对应的用户特征标签序列的样本集合,进行特征标签抽取,得到特征标签集合;具体包括:
利用频繁项集挖掘算法,设置高支持度参数α,对样本集合G(XT)进行特征标签抽取,获得特征标签集合B(XT)={L1,L2,L3...Lm},此时称B(XT)为特征集合基线,其是异常行为事件X发生的必要条件。
示例性的,所述S100-2:对所述异常网络行为对应的用户特征标签序列的样本集合,进行特征标签抽取,得到特征标签集合;具体包括:
利用频繁项集挖掘算法,如Apriori算法或FP-growth算法等,设置高支持度参数α,对取得的样本集合G(XT)进行特征标签抽取,获得特征标签集合B(XT),例如B(XT)={L1,L6},表示管理员账号和下载机密文件是发生入侵窃取机密数据文件行为事件的必要条件特征。
进一步地,所述设定特征标签序列,其获取步骤包括:
S100-3:根据特征标签集合,对异常网络行为对应的用户特征标签序列的样本集合的特征标签序列,进行特征标签剔除,得到剩余特征标签序列和剩余特征标签序列的样本集合;
S100-4:对剩余特征标签序列的样本集合,进行特征标签抽取,得到特征标签序列。
示例性的,所述S100-3:根据特征标签集合,对异常网络行为对应的用户特征标签序列的样本集合的特征标签序列,进行特征标签剔除,得到剩余特征标签序列和剩余特征标签序列的样本集合;具体包括:
对G(XT)样本集合中的特征标签序列将其所有具备Li∈B(XT)的Li进行剔除,得到剩余序列/>并构成一个新样本集合/>
示例性的,所述S100-3:根据特征标签集合,对异常网络行为对应的用户特征标签序列的样本集合的特征标签序列,进行特征标签剔除,得到剩余特征标签序列和剩余特征标签序列的样本集合;具体包括:
对取得的样本集合G(XT)中的特征标签序列并将其所有具备Li∈B(XT)的Li进行剔除,得到剩余序列/>例如B(XT)={L1,L6}的时,得到剩余序列 并构成一个新样本集合/>
进一步地,所述S100-4:对剩余特征标签序列的样本集合,进行特征标签抽取,得到特征标签序列;具体包括:
利用频繁序列挖掘算法,对剩余特征标签序列的样本集合,进行特征标签抽取,得到特征标签序列。
示例性的,所述S100-4:对剩余特征标签序列的样本集合,进行特征标签抽取,得到特征标签序列;具体包括:
利用频繁序列挖掘算法,对新的样本集合进行特征标签抽取,获得特征标签序列D(XT)=[L1 L2 ... Lk],此时称D(XT)为异常行为事件X发生的模式特征基线。特征标签集合B(XT)、特征标签序列D(XT)与异常行为事件X的发生具有高度盖然性,即
示例性的,所述S100-4:对剩余特征标签序列的样本集合,进行特征标签抽取,得到特征标签序列;具体包括:
利用频繁序列挖掘算法,如GSP(Generalized Sequential Pattern广义序列模式)算法,对取得的新样本集合进行特征标签抽取,获得特征标签序列D(XT),例如D(XT)=[L5 L9 L10],表示提升权限、删除下载日志、打印文件的顺序行为特征是发生入侵窃取机密数据文件行为事件的模式特征基线。特征标签集合B(XT)、特征标签序列D(XT)与异常行为事件X的发生具有高度盖然性,即管理员账号、下载机密文件特征标签与提升权限、删除下载日志、打印文件的顺序行为特征标签,与发生入侵窃取机密数据文件行为事件具有因果关系。
示例性的,所述S101:获取待预测网络行为,构建待预测网络行为的用户特征标签序列的样本集合;具体包括:
收集最近历史T时间周期内用户的特征标签序列Yi T=[L1 L2 ... Ln],构建待预测数据集合
示例性的,所述S102:根据特征标签集合,对所述待预测网络行为的用户特征标签序列的样本集合,进行特征标签剔除,得到待预测剩余特征标签序列和待预测剩余特征标签序列的样本集合;其中,所剔除的特征标签均为高支持度的特征标签;具体包括:
对H(YT)中所有Yi T进行筛选过滤,保留包含B(XT)特征集合中标签的Yi T,并将其所有具备Li∈B(XT)的Li进行剔除,得到剩余序列并构成样本数据集合/>
示例性的,所述S102:根据特征标签集合,对所述待预测网络行为的用户特征标签序列的样本集合,进行特征标签剔除,得到待预测剩余特征标签序列和待预测剩余特征标签序列的样本集合;其中,所剔除的特征标签均为高支持度的特征标签;具体包括:
对H(YT)中所有Yi T进行筛选过滤,保留包含B(XT)={L1,L6}特征集合中标签的Yi T,即过滤掉不具备管理员账号、下载机密文件标签的样本数据。同时将其剩余样本中所有具备Li∈B(XT)的Li进行剔除,得到剩余序列并构成样本数据集合/>
进一步地,所述S103:对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列,与设定特征标签序列进行相似度计算,具体包括:
采用序列相似度算法,对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列,与设定特征标签序列进行相似度计算。
示例性的,所述S103:对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列,与设定特征标签序列进行相似度计算,相似度越高的待预测剩余特征标签序列,所对应的用户发生异常行为事件的概率越大;具体包括:
中所有/>使用序列相似度算法与特征标签序列D(XT)进行相似度计算,相似度越高的/>认为对应的用户i发生异常行为事件X的概率越大。
示例性的,所述S103:对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列,与设定特征标签序列进行相似度计算,相似度越高的待预测剩余特征标签序列,所对应的用户发生异常行为事件的概率越大;具体包括:
使用序列相似度算法,如DTW(Dynamic Time Warping动态时间规整)算法,对中所有/>与特征标签序列D(XT)进行相似度计算,相似度越高的/>例如,行为特征标签序列越符合提升权限、删除下载日志、打印文件的顺序特征,即认为用户i发生入侵窃取机密数据文件行为事件的概率越大。
实施例二
本实施例提供了一种基于用户特征标签的异常行为预测系统;
如图2所示,一种基于用户特征标签的异常行为预测系统,包括:
构建模块,其被配置为:获取待预测网络行为,构建待预测网络行为的用户特征标签序列的样本集合;
剔除模块,其被配置为:根据特征标签集合,对所述待预测网络行为的用户特征标签序列的样本集合,进行特征标签剔除,得到待预测剩余特征标签序列和待预测剩余特征标签序列的样本集合;其中,所剔除的特征标签均为高支持度的特征标签;
输出模块,其被配置为:对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列,与设定特征标签序列进行相似度计算,相似度越高的待预测剩余特征标签序列,所对应的用户发生异常行为事件的概率越大。
进一步地,所述系统还包括:
获取模块,其被配置为:获取异常网络行为对应的用户特征标签序列的样本集合;
第一抽取模块,其被配置为:对所述异常网络行为对应的用户特征标签序列的样本集合,进行特征标签抽取,得到特征标签集合;
处理模块,其被配置为:根据特征标签集合,对异常网络行为对应的用户特征标签序列的样本集合的特征标签序列,进行特征标签剔除,得到剩余特征标签序列和剩余特征标签序列的样本集合;
第二抽取模块,其被配置为:对剩余特征标签序列的样本集合,进行特征标签抽取,得到特征标签序列。
此处需要说明的是,上述构建模块、剔除模块和输出模块对应于实施例一中的步骤S101至S103;获取模块、第一抽取模块、处理模块和第二抽取模块对应于实施例一的步骤S100-1~S100-4;
上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于用户特征标签的异常行为预测方法,其特征是,包括:
获取待预测网络行为,构建待预测网络行为的用户特征标签序列的样本集合;
根据特征标签集合,对所述待预测网络行为的用户特征标签序列的样本集合,进行特征标签剔除,得到待预测剩余特征标签序列和待预测剩余特征标签序列的样本集合;其中,所剔除的特征标签均为高支持度的特征标签;
对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列,与设定特征标签序列进行相似度计算,相似度越高的待预测剩余特征标签序列,所对应的用户发生异常行为事件的概率越大;
所述特征标签集合,其获取步骤包括:获取异常网络行为对应的用户特征标签序列的样本集合;对所述异常网络行为对应的用户特征标签序列的样本集合,进行特征标签抽取,得到特征标签集合;
对所述异常网络行为对应的用户特征标签序列的样本集合,进行特征标签抽取,得到特征标签集合;具体包括:利用频繁项集挖掘算法,对所述异常网络行为对应的用户特征标签序列的样本集合,进行特征标签抽取,得到特征标签集合;
所述设定特征标签序列,其获取步骤包括:根据特征标签集合,对异常网络行为对应的用户特征标签序列的样本集合的特征标签序列,进行特征标签剔除,得到剩余特征标签序列和剩余特征标签序列的样本集合;
对剩余特征标签序列的样本集合,进行特征标签抽取,得到特征标签序列。
2.如权利要求1所述的一种基于用户特征标签的异常行为预测方法,其特征是,对剩余特征标签序列的样本集合,进行特征标签抽取,得到特征标签序列;具体包括:利用频繁序列挖掘算法,对剩余特征标签序列的样本集合,进行特征标签抽取,得到特征标签序列。
3.如权利要求1所述的一种基于用户特征标签的异常行为预测方法,其特征是,对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列,与设定特征标签序列进行相似度计算,具体包括:
采用序列相似度算法,对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列,与设定特征标签序列进行相似度计算。
4.一种基于用户特征标签的异常行为预测系统,基于如权利要求1-3任一项所述的一种基于用户特征标签的异常行为预测方法,其特征是,包括:
构建模块,其被配置为:获取待预测网络行为,构建待预测网络行为的用户特征标签序列的样本集合;
剔除模块,其被配置为:根据特征标签集合,对所述待预测网络行为的用户特征标签序列的样本集合,进行特征标签剔除,得到待预测剩余特征标签序列和待预测剩余特征标签序列的样本集合;其中,所剔除的特征标签均为高支持度的特征标签;
输出模块,其被配置为:对待预测剩余特征标签序列的样本集合中的所有待预测剩余特征标签序列,与设定特征标签序列进行相似度计算,相似度越高的待预测剩余特征标签序列,所对应的用户发生异常行为事件的概率越大。
5.如权利要求4所述的一种基于用户特征标签的异常行为预测系统,其特征是,所述系统还包括:
获取模块,其被配置为:获取异常网络行为对应的用户特征标签序列的样本集合;
第一抽取模块,其被配置为:对所述异常网络行为对应的用户特征标签序列的样本集合,进行特征标签抽取,得到特征标签集合;
处理模块,其被配置为:根据特征标签集合,对异常网络行为对应的用户特征标签序列的样本集合的特征标签序列,进行特征标签剔除,得到剩余特征标签序列和剩余特征标签序列的样本集合;
第二抽取模块,其被配置为:对剩余特征标签序列的样本集合,进行特征标签抽取,得到特征标签序列。
6.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-3任一项所述的方法。
7.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性地存储计算机可读指令由计算机执行时,执行权利要求1-3任一项所述方法的指令。
CN202111151258.8A 2021-09-29 2021-09-29 一种基于用户特征标签的异常行为预测方法及系统 Active CN114039744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111151258.8A CN114039744B (zh) 2021-09-29 2021-09-29 一种基于用户特征标签的异常行为预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111151258.8A CN114039744B (zh) 2021-09-29 2021-09-29 一种基于用户特征标签的异常行为预测方法及系统

Publications (2)

Publication Number Publication Date
CN114039744A CN114039744A (zh) 2022-02-11
CN114039744B true CN114039744B (zh) 2024-02-27

Family

ID=80134540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111151258.8A Active CN114039744B (zh) 2021-09-29 2021-09-29 一种基于用户特征标签的异常行为预测方法及系统

Country Status (1)

Country Link
CN (1) CN114039744B (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521325A (zh) * 2011-12-02 2012-06-27 西北工业大学 基于频繁关联标签序列的xml结构相似度度量方法
CN105426441A (zh) * 2015-11-05 2016-03-23 华中科技大学 一种时间序列自动预处理方法
CN105530265A (zh) * 2016-01-28 2016-04-27 李青山 一种基于频繁项集描述的移动互联网恶意应用检测方法
CN107341242A (zh) * 2017-07-06 2017-11-10 太原理工大学 一种标签推荐方法及系统
CN109740352A (zh) * 2018-12-28 2019-05-10 微梦创科网络科技(中国)有限公司 一种账号处理方法、装置及电子设备
CN110232403A (zh) * 2019-05-15 2019-09-13 腾讯科技(深圳)有限公司 一种标签预测方法、装置、电子设备及介质
CN110516704A (zh) * 2019-07-19 2019-11-29 中国科学院地理科学与资源研究所 一种基于关联规则的mlknn多标签分类方法
CN110580213A (zh) * 2019-09-16 2019-12-17 浪潮软件股份有限公司 一种基于循环标记时间点过程的数据库异常检测方法
CN111343161A (zh) * 2020-02-14 2020-06-26 平安科技(深圳)有限公司 异常信息处理节点分析方法、装置、介质及电子设备
CN111488385A (zh) * 2020-04-07 2020-08-04 腾讯科技(深圳)有限公司 基于人工智能的数据处理方法、装置和计算机设备
CN111695737A (zh) * 2020-06-15 2020-09-22 中国电子科技集团公司第二十八研究所 一种基于lstm神经网络的群目标行进趋势预测方法
CN111931061A (zh) * 2020-08-26 2020-11-13 腾讯科技(深圳)有限公司 标签映射方法、装置、计算机设备及存储介质
CN112116464A (zh) * 2020-05-21 2020-12-22 上海金融期货信息技术有限公司 基于事件序列频繁项集的异常交易行为分析方法和系统
CN112465051A (zh) * 2020-12-07 2021-03-09 南京邮电大学 基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法
WO2021068610A1 (zh) * 2019-10-12 2021-04-15 平安国际智慧城市科技股份有限公司 资源推荐的方法、装置、电子设备及存储介质
CN112968870A (zh) * 2021-01-29 2021-06-15 国家计算机网络与信息安全管理中心 一种基于频繁项集的网络团伙发现方法
WO2021179481A1 (zh) * 2020-03-10 2021-09-16 平安科技(深圳)有限公司 数据内容个性化推送冷启动方法、装置、设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7716150B2 (en) * 2006-09-28 2010-05-11 Microsoft Corporation Machine learning system for analyzing and establishing tagging trends based on convergence criteria
US20120137367A1 (en) * 2009-11-06 2012-05-31 Cataphora, Inc. Continuous anomaly detection based on behavior modeling and heterogeneous information analysis

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521325A (zh) * 2011-12-02 2012-06-27 西北工业大学 基于频繁关联标签序列的xml结构相似度度量方法
CN105426441A (zh) * 2015-11-05 2016-03-23 华中科技大学 一种时间序列自动预处理方法
CN105530265A (zh) * 2016-01-28 2016-04-27 李青山 一种基于频繁项集描述的移动互联网恶意应用检测方法
CN107341242A (zh) * 2017-07-06 2017-11-10 太原理工大学 一种标签推荐方法及系统
CN109740352A (zh) * 2018-12-28 2019-05-10 微梦创科网络科技(中国)有限公司 一种账号处理方法、装置及电子设备
CN110232403A (zh) * 2019-05-15 2019-09-13 腾讯科技(深圳)有限公司 一种标签预测方法、装置、电子设备及介质
CN110516704A (zh) * 2019-07-19 2019-11-29 中国科学院地理科学与资源研究所 一种基于关联规则的mlknn多标签分类方法
CN110580213A (zh) * 2019-09-16 2019-12-17 浪潮软件股份有限公司 一种基于循环标记时间点过程的数据库异常检测方法
WO2021068610A1 (zh) * 2019-10-12 2021-04-15 平安国际智慧城市科技股份有限公司 资源推荐的方法、装置、电子设备及存储介质
CN111343161A (zh) * 2020-02-14 2020-06-26 平安科技(深圳)有限公司 异常信息处理节点分析方法、装置、介质及电子设备
WO2021159834A1 (zh) * 2020-02-14 2021-08-19 平安科技(深圳)有限公司 异常信息处理节点分析方法、装置、介质及电子设备
WO2021179481A1 (zh) * 2020-03-10 2021-09-16 平安科技(深圳)有限公司 数据内容个性化推送冷启动方法、装置、设备和存储介质
CN111488385A (zh) * 2020-04-07 2020-08-04 腾讯科技(深圳)有限公司 基于人工智能的数据处理方法、装置和计算机设备
CN112116464A (zh) * 2020-05-21 2020-12-22 上海金融期货信息技术有限公司 基于事件序列频繁项集的异常交易行为分析方法和系统
CN111695737A (zh) * 2020-06-15 2020-09-22 中国电子科技集团公司第二十八研究所 一种基于lstm神经网络的群目标行进趋势预测方法
CN111931061A (zh) * 2020-08-26 2020-11-13 腾讯科技(深圳)有限公司 标签映射方法、装置、计算机设备及存储介质
CN112465051A (zh) * 2020-12-07 2021-03-09 南京邮电大学 基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法
CN112968870A (zh) * 2021-01-29 2021-06-15 国家计算机网络与信息安全管理中心 一种基于频繁项集的网络团伙发现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
""Research on Awareness Method of Cloud User Abnormal Behavior Based on Log Audit";W. Wang and Y. Xu;《2018 IEEE 4th International Conference on Computer and Communications (ICCC)》;全文 *
网络安全用户行为画像方案设计;何雪海;黄明浩;宋飞;;通信技术(04);全文 *

Also Published As

Publication number Publication date
CN114039744A (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN109299135B (zh) 基于识别模型的异常查询识别方法、识别设备及介质
US8332944B2 (en) System and method for detecting new malicious executables, based on discovering and monitoring characteristic system call sequences
CN110909348B (zh) 一种内部威胁检测方法及装置
CN111917740A (zh) 一种异常流量告警日志检测方法、装置、设备及介质
CN113486350B (zh) 恶意软件的识别方法、装置、设备及存储介质
CN113162953A (zh) 网络威胁报文检测及溯源取证方法和装置
US20220253526A1 (en) Incremental updates to malware detection models
CN112131249A (zh) 一种攻击意图识别方法及装置
CN110598959A (zh) 一种资产风险评估方法、装置、电子设备及存储介质
US11423099B2 (en) Classification apparatus, classification method, and classification program
CN113343228B (zh) 事件可信度分析方法、装置、电子设备及可读存储介质
CN113282920A (zh) 日志异常检测方法、装置、计算机设备和存储介质
CN113723467A (zh) 用于缺陷检测的样本收集方法、装置和设备
CN114039744B (zh) 一种基于用户特征标签的异常行为预测方法及系统
CN116545702A (zh) 网络安全防护方法及相关设备
CN116015800A (zh) 一种扫描器识别方法、装置、电子设备及存储介质
CN116842520A (zh) 基于检测模型的异常感知方法、装置、设备及介质
CN115688107A (zh) 一种涉诈app检测系统和方法
CN115622793A (zh) 一种攻击类型识别方法、装置、电子设备及存储介质
CN113807256A (zh) 票据数据处理方法、装置、电子设备和存储介质
CN112417007A (zh) 一种数据分析方法、装置、电子设备及存储介质
CN112073360A (zh) 超文本传输数据的检测方法、装置、终端设备及介质
CN111526110A (zh) 检测电子邮箱账户非授权登录的方法、装置、设备和介质
CN113987482B (zh) 一种基于fm的ip首次访问检测方法、系统及设备
CN112395600B (zh) 恶意行为的去误报方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant