CN113704772B - 基于用户行为大数据挖掘的安全防护处理方法及系统 - Google Patents
基于用户行为大数据挖掘的安全防护处理方法及系统 Download PDFInfo
- Publication number
- CN113704772B CN113704772B CN202111015423.7A CN202111015423A CN113704772B CN 113704772 B CN113704772 B CN 113704772B CN 202111015423 A CN202111015423 A CN 202111015423A CN 113704772 B CN113704772 B CN 113704772B
- Authority
- CN
- China
- Prior art keywords
- user behavior
- behavior
- event
- behavior event
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种基于用户行为大数据挖掘的安全防护处理方法及系统,通过基于各个待定用户行为事件的评估结果确定非法用户行为事件集合以及失效用户行为事件集合,对所述非法用户行为事件集合以及失效用户行为事件集合相关的历史行为大数据进行知识图谱生成,获得历史行为活动知识图谱,基于所述历史行为活动知识图谱对当前安全防护系统进行配置优化。如此设计,通过确定出非法用户行为事件集合以及失效用户行为事件集合,进而进行相关的知识图谱生成后针对性地对当前安全防护系统进行配置优化,可以提高安全防护系统的运行可靠性。
Description
技术领域
本申请涉及大数据技术领域,具体而言,涉及一种基于用户行为大数据挖掘的安全防护处理方法及系统。
背景技术
信息安全,为数据处理系统建立和采用的技术、管理上的安全保护,为的是保护计算机硬件、软件、数据不因偶然和恶意的原因而遭到破坏、更改和泄露。信息安全检测具有很强的系统性和综合性,需要完善的安全机制才能确保相关能顺利开展,才能及时发现存在的薄弱环节问题。在网络信息系统应用时,需要高度重视安全检测安全机制的构建。基于此,如何保障安全防护系统的运行可靠性,以便于安全防护机制的有效构建,是亟待解决的技术问题。
发明内容
本申请提供一种基于用户行为大数据挖掘的安全防护处理方法及系统。
第一方面,本申请实施例提供一种基于用户行为大数据挖掘的安全防护处理方法,包括:
基于各个待定用户行为事件的评估结果确定非法用户行为事件集合以及失效用户行为事件集合;
对所述非法用户行为事件集合以及失效用户行为事件集合相关的历史行为大数据进行知识图谱生成,获得历史行为活动知识图谱;
基于所述历史行为活动知识图谱对当前安全防护系统进行配置优化。
第二方面,本申请实施例提供一种基于用户行为大数据挖掘的安全防护处理系统,包括:
获取模块,用于获取基于各个待定用户行为事件的评估结果确定非法用户行为事件集合以及失效用户行为事件集合;
生成模块,用于对所述非法用户行为事件集合以及失效用户行为事件集合相关的历史行为大数据进行知识图谱生成,获得历史行为活动知识图谱;
优化模块,用于基于所述历史行为活动知识图谱对当前安全防护系统进行配置优化。
基于以上方面,通过基于各个待定用户行为事件的评估结果确定非法用户行为事件集合以及失效用户行为事件集合,对所述非法用户行为事件集合以及失效用户行为事件集合相关的历史行为大数据进行知识图谱生成,获得历史行为活动知识图谱,基于所述历史行为活动知识图谱对当前安全防护系统进行配置优化。如此设计,通过确定出非法用户行为事件集合以及失效用户行为事件集合,进而进行相关的知识图谱生成后针对性地对当前安全防护系统进行配置优化,可以提高安全防护系统的运行可靠性。
附图说明
图1为本申请实施例提供的基于用户行为大数据挖掘的安全防护处理方法的步骤流程示意图;
图2为本申请实施例提供用于执行图1中的基于用户行为大数据挖掘的安全防护处理方法的大数据挖掘系统的结构示意框图。
具体实施方式
下面结合附图,对本申请的具体实施方式进行详细说明。
下面参照图1描述根据本申请实施例的基于用户行为大数据挖掘的安全防护处理方法。图1示出了本申请一个示例性实施例提供的基于用户行为大数据挖掘的安全防护处理方法100的流程图。如图1所示,本申请一个示例性实施例提供的基于用户行为大数据挖掘的安全防护处理方法包括以下步骤:
步骤S110,基于各个待定用户行为事件的评估结果确定非法用户行为事件集合以及失效用户行为事件集合。
步骤S120,对所述非法用户行为事件集合以及失效用户行为事件集合相关的历史行为大数据进行知识图谱生成,获得历史行为活动知识图谱。
例如,一种示例性的设计思路中,可以提取所述非法用户行为事件集合以及失效用户行为事件集合相关的历史行为大数据中每个历史行为活动以及各个历史行为活动之间的活动关系向量,并基于所述每个历史行为活动以及各个历史行为活动之间的活动关系向量进行知识图谱生成,获得历史行为活动知识图谱。
步骤S130,基于所述历史行为活动知识图谱对当前安全防护系统进行配置优化。
基于以上步骤,本实施例通过基于各个待定用户行为事件的评估结果确定非法用户行为事件集合以及失效用户行为事件集合,对所述非法用户行为事件集合以及失效用户行为事件集合相关的历史行为大数据进行知识图谱生成,获得历史行为活动知识图谱,基于所述历史行为活动知识图谱对当前安全防护系统进行配置优化。如此设计,通过确定出非法用户行为事件集合以及失效用户行为事件集合,进而进行相关的知识图谱生成后针对性地对当前安全防护系统进行配置优化,可以提高安全防护系统的运行可靠性。
一种可基于独立构思的实施例中,针对步骤S130,本申请实施例提供一种基于知识图谱挖掘的安全防护优化方法,包括以下步骤。
步骤W101,基于所述历史行为活动知识图谱进行频繁项向量挖掘,得到所述历史行为活动知识图谱对应的频繁项向量。
步骤W102,对所述频繁项向量进行向量分治,得到所述频繁项向量对应的基础频繁项向量和衍生频繁项向量。
步骤W103,对所述基础频繁项向量和所述衍生频繁项向量进行解析,得到所述历史行为活动知识图谱中的至少一个关键行为活动对应的薄弱环节分布,以及所述薄弱环节分布对应的重定向向量。
步骤W104,基于所述重定向向量分别将各个关键行为活动对应的所述薄弱环节分布进行基于时序特征的拼接,得到各个关键行为活动分别对应的薄弱环节信息,并基于所述各个关键行为活动分别对应的薄弱环节信息对当前安全防护系统进行配置优化。
本申请通过对所述历史行为活动知识图谱进行频繁项向量挖掘,从所述历史行为活动知识图谱中可以提取出基础频繁项向量和衍生频繁项向量两种频繁项向量,通过对基础频繁项向量进行解析,可以确定所述历史行为活动知识图谱中包含的不同类型的多个关键行为活动以及各个关键行为活动的重定向向量,进而可以通过对衍生频繁项向量和重定向向量进行处理,可以得到不同类型的各个关键行为活动分别对应的薄弱环节信息,本申请基于多个薄弱环节信息对输入的所述历史行为活动知识图谱中薄弱环节解析提供有效决策,进而便于对当前安全防护系统进行配置优化。
下面介绍本申请另一实施例提供的基于用户行为大数据挖掘的安全防护处理方法,包括以下步骤。
步骤W201,基于频繁项集模型对所述历史行为活动知识图谱进行频繁项挖掘,得到所述历史行为活动知识图谱对应的频繁项向量;
一种可基于独立构思的实施例中,步骤W201基于频繁项集模型对所述历史行为活动知识图谱进行频繁项挖掘,得到所述历史行为活动知识图谱对应的频繁项向量的方式具体可通过以下步骤实现:
对所述历史行为活动知识图谱进行行为活动知识特征提取,得到所述历史行为活动知识图谱对应的第一行为活动知识特征;
对所述第一行为活动知识特征进行注意力特征提取,得到所述第一行为活动知识特征对应的第二行为活动知识特征;
基于频繁项集模型对所述第二行为活动知识特征进行计算,得到所述第二行为活动知识特征对应的第三行为活动知识特征;
对所述第三行为活动知识特征进行特征降维,得到所述第三行为活动知识特征对应的第四行为活动知识特征;
基于频繁项集模型对所述第四行为活动知识特征进行计算,得到所述第四行为活动知识特征对应的频繁项向量。
如此设计,可以对所述历史行为活动知识图谱进行行为活动知识特征提取、注意力特征提取、特征降维,以及通过频繁项集模型对所述历史行为活动知识图谱进行处理,可以防止对所述历史行为活动知识图谱进行处理时消耗过多的计算资源,从而提高处理效率。
步骤W202,对所述频繁项向量进行分类操作,得到分类标签向量分布;
步骤W203,将所述频繁项向量与所述分类标签向量分布进行融合,得到频繁项向量分布图;
步骤W204,基于频繁项向量分布图对所述频繁项向量进行向量分治操作,得到与所述频繁项向量对应的基础频繁项向量和衍生频繁项向量;
基于以上步骤,可以对得到的频繁项向量进行分类操作,得到分类标签向量分布,进而可以将分类标签向量分布与频繁项向量进行结合,得到频繁项向量分布图,基于频繁项向量分布图可以计算得到频繁项向量对应的基础频繁项向量和衍生频繁项向量,从而保证了基于不同的频繁项向量进行后续薄弱环节挖掘的准确性。
步骤W205,对所述基础频繁项向量进行解析,得到所述历史行为活动知识图谱中的至少一个关键行为活动,并确定各个关键行为活动所在节点对应的薄弱环节分布;
步骤W206,对所述衍生频繁项向量和所述薄弱环节分布进行计算,得到所述薄弱环节分布对应的重定向向量;
基于以上步骤,可以从基础频繁项向量中识别出至少一个关键行为活动,并且可以在各个关键行为活动所在节点处标注有薄弱环节分布,进而可以结合衍生频繁项向量和薄弱环节分布进行计算,得到重定向向量,保证了重定向向量的精度。
一种可基于独立构思的实施例中,在执行步骤W205之后,还可以执行以下步骤:
根据获得的所述关键行为活动确定所述历史行为活动知识图谱中包含的至少一个关键行为活动标签;
以及,步骤W206对所述衍生频繁项向量和所述薄弱环节分布进行计算,得到所述薄弱环节分布对应的重定向向量的方式具体可以为:
对各个关键行为活动标签分别对应的薄弱环节分布和所述衍生频繁项向量进行计算,得到各个薄弱环节分布分别对应的重定向向量。
如此设计,可以识别出所述历史行为活动知识图谱中包含的至少一个关键行为活动标签,并且可以基于不同的关键行为活动标签进行重定向向量计算,从而确定针对不同关键行为活动标签的关键行为活动对应的重定向向量的准确性。
步骤W207,基于所述重定向向量分别将各个关键行为活动对应的所述薄弱环节分布进行基于时序特征的拼接,得到各个关键行为活动分别对应的薄弱环节信息,并基于所述各个关键行为活动分别对应的薄弱环节信息对当前安全防护系统进行配置优化。
一种可基于独立构思的实施例中,针对前述的步骤S110,可以通过以下示例性的步骤实现。
步骤S110,获取待定用户行为事件。例如,待定用户行为事件可以是用户输入以进行检测的用户行为事件,可以是需要进行检测的大量用户行为事件集中的任意用户行为事件,或者可以是即将打开的接收页面的用户行为事件。
步骤S120,对待定用户行为事件进行特征向量提取,以生成待定用户行为事件的特征向量。例如,待定用户行为事件的特征向量用于表征该用户行为事件的特征,以供用户行为事件检测使用。
步骤S130,对待定用户行为事件的特征向量进行行为有效性判定,以获得待定用户行为事件的有效行为特征向量。
步骤S140,基于有效行为特征向量,对待定用户行为事件进行用户行为事件分类,以确定待定用户行为事件的安全操作级别。
在本申请中,用户行为事件的安全操作级别例如可以是第一安全级别、第二安全级别和第三安全级别中的一个,其中,第一安全级别为安全风险较高的用户行为事件,第二安全级别为安全风险较低的用户行为事件,而第三安全级别则为安全风险处于第一安全级别和第二安全级别之间的用户行为事件。例如,对于通过传播非法软件、发送垃圾邮件等方式进行非法活动的非法用户行为事件,可以将其分类为第一安全级别,表明其安全风险很高;对于高可靠度的用户行为事件,即被调用的频率满足预定条件的用户行为事件,例如,在单位时间内被调用的频率大于一定阈值的用户行为事件,可以将其分类为第二安全级别,表明其安全风险较低;对于可疑但其安全风险处于第一安全级别和第二安全级别之间的用户行为事件,可以将其分类为第三安全级别。例如,在对待检测的用户行为事件进行分类时,可以分别计算该用户行为事件属于第一安全级别、第二安全级别和第三安全级别的概率,并将概率最高的类别确定为待定用户行为事件的类别。应当理解的是,虽然这里将用户行为事件的类别分为第一安全级别、第二安全级别和第三安全级别三类,但是本申请不限于此,用户行为事件的类别可以包括其它类别,并且可以包括多于或者少于三类。
一种示例性的设计思路中,在步骤S140中,基于有效行为特征向量,对待定用户行为事件进行用户行为事件分类,以确定待定用户行为事件的安全操作级别可以包括:基于有效行为特征向量,利用用户行为事件分类模型对待定用户行为事件进行用户行为事件分类,以确定待定用户行为事件的安全操作级别。用户行为事件分类模型例如可以利用机器学习中常用的分类算法来实现,例如K最近邻算法(K-Nearest Neighbor,KNN)、随机森林算法(Random Forest)、梯度提升算法(GradientBoosting)等等。
步骤S150,根据待定用户行为事件的安全操作级别,对待定用户行为事件进行行为分类处理或行为确定处理。一种示例性的设计思路中,对待定用户行为事件进行行为分类处理或行为确定处理可以包括:在待定用户行为事件的类别为第一安全级别或者第二安全级别的情况下,对该用户行为事件指向的接收页面进行行为分类处理;以及在待定用户行为事件的类别为第三安全级别的情况下,根据预定规则对该用户行为事件进行行为确定处理,并根据扫描结果生成对该用户行为事件进行再确认发起的指示。
步骤S160,基于处理的结果确定并输出待定用户行为事件的评估结果,并基于各个待定用户行为事件的评估结果确定非法用户行为事件集合以及失效用户行为事件集合。一种示例性的设计思路中,用户行为事件的评估结果可以包括失效用户行为事件、异常用户行为事件、非法用户行为事件、普通用户行为事件、安全用户行为事件等等。
下面提供一种具体描述生成待检测的用户行为事件的特征向量的过程。
如上所述,在步骤S120中,对待定用户行为事件进行特征向量提取,以生成待定用户行为事件的特征向量。
根据本申请实施例的一个示例,可以通过获取待检测的用户行为事件的多个特征,并基于所获得的特征来生成特征向量。例如,对待定用户行为事件进行特征向量提取,以生成待定用户行为事件的特征向量可以包括:提取待定用户行为事件的用户行为事件名称特征、操作设备特征、行为属性特征和行为操作特征中的至少一部分特征,作为待检测的用户行为事件的特征数据;以及利用待检测的用户行为事件的特征数据,生成特征向量。用户行为事件名称特征例如可以是与用户行为事件包含的字符相关联的特征,例如,用户行为事件字符瑞丽熵、用户行为事件长度、用户行为事件级别、用户行为事件数字数量、特征字符数量、字符类型变换次数、最长非顶级用户行为事件、数字细分用户行为事件数量等等,或者诸如邮箱前缀等与用户行为事件相关的字符特征。操作设备特征例如可以是与包含、访问或传播(例如,下载)用户行为事件的样本相关联的特征,其中,样本例如是软件、客户端等。行为属性特征例如可以是用户行为事件的统一资源定位符(URL)、互联网协议地址(IP地址)、规范名字(CNAME)或者用户行为事件的注册信息,例如注册国别、用户行为事件隐私信息(whois信息)、备案信息、注册邮箱关联、注册者关联、注册电话关联等等。行为操作特征例如可以是固定时间内用户行为事件被调用的次数的最大值、最小值、方差等等。用户行为事件的特征数据例如可以包括用户行为事件名称特征、操作设备特征、行为属性特征和行为操作特征中的一部分特征或全部特征。在获取用户行为事件的特征数据之后,根据特征数据生成特征向量,例如,可以通过对特征数据进行数值化来生成特征向量。
根据本申请实施例的另一示例,可以通过对预设的预设行为数据库进行查询来获得用户行为事件的特征向量。例如,对待定用户行为事件进行特征向量提取,以生成待检测的用户行为事件的特征向量可以包括:利用预设行为数据库对用户行为事件进行分析,以生成用户行为事件的特征向量。预设行为数据库是基于图形理论存储实体之间的关系信息的数据库,这里,例如,预设行为数据库可以存储用户行为事件与其特征向量之间的对应关系。例如,在存储用户行为事件与其特征向量之间的对应关系的预设行为数据库存在完善的查询机制的情况下,将待检测的用户行为事件输入预设行为数据库,即可实时输出用户行为事件的特征向量,这一过程例如可以称为用户行为事件实时向量化。在安全分析和运维中,常常需要对遇到的用户行为事件进行实时地检测分析,利用预设行为数据库能够实时地获取用户行为事件的特征向量,大大提高用户行为事件检测的速度。
此外,在一些情况下,用户行为事件的特征向量中可能缺乏用户行为事件检测所需的必要信息,例如,如果某个用户行为事件在预定区域内未被调用、被解析且被切换,则其特征向量可能缺乏诸如行为操作特征等的必要信息。在此情况下,步骤S130可以进一步包括以下实施方式。
可以判断待定用户行为事件的特征向量是否合格,并且在特征向量不合格的情况下,确定该特征向量为有效行为特征向量,并在输出该有效行为特征向量;在特征向量合格的情况下,则去除该特征向量,即,不再对该特征向量进行进一步的操作。例如,可以通过以下规则来判定特征向量是否合格:
Not Sparse if sample_use > 0 & resolved > 0 & user_use >0 T
其中,sample_use表示在时间T内用户行为事件被样本访问的次数,resolved表示在时间T内用户行为事件被解析的次数,user_use表示在时间T内用户行为事件被浏览的次数,Not Sparse表示不合格。也即,上述规则表示:当用户行为事件在时间T内被样本访问的次数大于0,被解析的次数大于0,并且被浏览的次数大于0时,则判定该用户行为事件的特征向量不合格;否则,则判定该用户行为事件的特征向量合格,其中,合格指示该用户行为事件在预定区域内未被调用、被解析且被切换,即,该用户行为事件的特征向量中缺乏对其进行用户行为事件检测所需的必要信息。
为了使上面描述的基于用户行为大数据挖掘的安全防护处理方法的过程更加清晰,下面参进一步描述根据本申请实施例的基于用户行为大数据挖掘的安全防护处理方法的示例过程。首先在步骤S110中,获取待定用户行为事件。在步骤S120中,对待定用户行为事件进行特征向量提取,以生成待定用户行为事件的特征向量。在步骤S130中,对待定用户行为事件的特征向量进行行为有效性判定,以获得待定用户行为事件的有效行为特征向量。然后,在步骤S140中基于待定用户行为事件的有效行为特征向量,对待定用户行为事件进行用户行为事件分类,以确定待定用户行为事件的安全操作级别待定用户行为事件待定用户行为事件。如果确定待定用户行为事件的类别为第一安全级别,则在步骤S150中,对该用户行为事件指向的接收页面进行行为分类处理,并根据行为分类处理的结果,在步骤S160中确定该用户行为事件为失效用户行为事件、异常用户行为事件或者非法用户行为事件;如果确定待定用户行为事件的类别为第二安全级别,则在步骤S150中,对该用户行为事件进行行为分类处理,并根据行为分类处理的结果,在步骤S160中确定该用户行为事件为失效用户行为事件、普通用户行为事件或者安全用户行为事件;如果确定待定用户行为事件的类别为第三安全级别,则在步骤S150中,根据预定规则对该用户行为事件进行行为确定处理,并根据扫描结果确定对该用户行为事件进行进一步再确认发起还是停止检测,并且在进一步再确认发起的情况下,在步骤S160中确定该用户行为事件为失效用户行为事件、非法用户行为事件或者安全用户行为事件。
例如,一种示例性的设计思路中,在待定用户行为事件的安全操作级别为第一安全级别或者第二安全级别的情况下,对待定用户行为事件指向的接收页面进行行为分类处理可以包括:在接收页面中包括的指定参数的数量满足预定数量阈值时,确定该接收页面为正常接收页面;在接收页面中包括的指定参数的数量不满足预定数量阈值时,确定该接收页面为异常接收页面;以及在接收页面失效时,确定该接收页面为失效接收页面。通常,接收页面可以包括文字、图片、动画、声音、视频、表格、接收页面标签等信息,接收页面中的文字例如又可以包括词汇数、段落数、行数等信息,通过这些信息可以判断接收页面是否正常。例如,对于某个待检测的用户行为事件所指向的接收页面,可以通过接收页面中包括的标签的数量是否满足预定数量阈值来判断该接收页面是否正常,即指定参数为标签,当标签的数量满足预定数量阈值时,确定该接收页面是正常接收页面;当标签的数量不满足预定数量阈值时,确定该接收页面是异常接收页面。这里,预定数量阈值可以根据所选择的接收页面中的指定参数的不同种类而有所不同。行为分类处理例如可以通过对接收页面源代码进行建模的接收页面分类器组件来实现。
作为一种示例场景,在步骤S140中确定待定用户行为事件的安全操作级别为第一安全级别时,则相应地在步骤S150中对待定用户行为事件指向的接收页面进行行为分类处理,此时,基于在步骤S150进行的行为分类处理的结果确定待定用户行为事件的评估结果可以包括:在接收页面为正常接收页面的情况下,确定该用户行为事件为异常用户行为事件;在接收页面为异常接收页面的情况下,确定该用户行为事件为非法用户行为事件;以及在接收页面为失效接收页面的情况下,确定该用户行为事件为失效用户行为事件。
例如,可能存在多种原因,使得正常接收页面的用户行为事件被分类为第一安全级别。即使如此,根据本申请实施例的基于用户行为大数据挖掘的安全防护处理方法仍可以在最后的评估结果中识别出这种情形。例如,如果某个待检测的用户行为事件所指向的接收页面本身是正常接收页面,但由于中毒、受到黑客攻击、被劫持等而导致用户行为事件异常,使其安全风险较高,则在利用本实施例对待定用户行为事件进行检测时,该用户行为事件在步骤S140中会被分类为第一安全级别,随后,在步骤S150中该用户行为事件指向的接收页面会被确定为正常接收页面,最终,在步骤S160中正确检测出该用户行为事件为异常用户行为事件,表明该用户行为事件所指向的接收页面本身是正常接收页面,但是由于某种原因而异常。
对于非法用户行为事件,根据本申请实施例的基于用户行为大数据挖掘的安全防护处理方法可以将其首先分类为第一安全级别,然后在最后的评估结果中正确识别出该非法用户行为事件。例如,如果某个待检测的用户行为事件为非法用户行为事件,例如高频发送垃圾邮件的非法用户行为事件,其安全风险极高,则在利用本实施例对待定用户行为事件进行检测时,该用户行为事件在步骤S140中会被分类为第一安全级别,随后,在步骤S150中该用户行为事件指向的接收页面被确定为异常接收页面,最终,在步骤S160中正确检测出该用户行为事件为非法用户行为事件。
异常用户行为事件和非法用户行为事件例如可以作为有效的威胁情报来提供,以用于网络安全分析和运维,或者可以作为警示信息提供给用户,以便用户对其采取相应的处理措施。
此外,用户行为事件时效是有期限的,当用户行为事件到期后由于没有续费或者其它原因,用户行为事件会失效并且其指向的接收页面将变得无法访问。对于某个在失效前具有安全风险的用户行为事件,在利用本实施例进行检测时,待定用户行为事件在步骤S140中会被分类为第一安全级别,但由于其所指向的接收页面已经无法访问,即,不会再对网络安全构成威胁,最终在步骤S160中确定其为失效用户行为事件。虽然失效用户行为事件不作为有效的威胁情报来提供,但也可以作为评估结果信息提供给用户。
作为另一种示例场景,在步骤S140中确定待检测的用户行为事件的类别为第二安全级别时,则相应地在步骤S150中对待定用户行为事件指向的接收页面进行行为分类处理,此时,基于处理的结果确定用户行为事件的评估结果可以包括:在接收页面为正常接收页面并且该用户行为事件的可靠度满足预定条件的情况下,确定该用户行为事件为安全用户行为事件,并将该用户行为事件加入用户行为事件安全集合;在接收页面为失效接收页面的情况下,确定该用户行为事件为失效用户行为事件。例如,用户行为事件的可靠度可以指用户行为事件被调用的频率,或者说用户行为事件在单位时间内被调用的次数。用户行为事件的可靠度满足预定条件例如可以是指用户行为事件在单位时间内被调用的次数大于一定数值。
在该场景下,根据本申请实施例的基于用户行为大数据挖掘的安全防护处理方法可以识别出安全用户行为事件,并建立用户行为事件安全集合。例如,对于某个被划分为第二安全级别类别的待定用户行为事件,如果其指向的接收页面为正常接收页面,并且其可靠度满足预定条件,则表明其安全风险非常低,因而可以确定该用户行为事件为安全用户行为事件,并可以将其加入用户行为事件安全集合。用户行为事件安全集合也可以作为有价值的威胁情报来提供,以用于网络安全分析和运维。
另外,根据本申请实施例的基于用户行为大数据挖掘的安全防护处理方法也可以识别出普通用户行为事件。例如,如果某个待定用户行为事件被划分为第二安全级别类别,并且其指向的接收页面为正常接收页面,但其可靠度不满足预定条件,这种情况下,虽然该用户行为事件的安全风险较低,但由于该用户行为事件被调用的次数较少,尚不能确定其是否是安全用户行为事件,因而不能将其加入用户行为事件安全集合,可暂时将其确定为普通用户行为事件。
另外,如果某个待定用户行为事件被划分为第二安全级别类别,但其指向的接收页面为异常接收页面,这种互相矛盾的结果表明用户行为事件检测可能发生了错误,此时可以输出指示用户行为事件检测可能发生错误的警示信息。同样,对于被分类为第二安全级别的失效用户行为事件,由于其接收页面已经无法访问,虽然不会作为有效的威胁情报来提供,但也可以作为评估结果信息提供给用户。
此外,虽然上面公开了通过接收页面分类将用户行为事件指向的接收页面分为正常接收页面、异常接收页面和失效接收页面,并基于此确定用户行为事件的评估结果,但本申请不限于此,例如,对于非法用户行为事件,还可以通过接收页面分类将用户行为事件指向的接收页面分为色情接收页面、赌博接收页面、矿池接收页面等,以丰富威胁情报,这可以通过对接收页面分类知识库进行挖掘构建等来实现,例如,对用户行为事件始发站点的挖掘。
作为又一种示例场景,如果在步骤S140中待检测的用户行为事件被分类为第三安全级别,则在步骤S150中,根据预定规则对用户行为事件进行行为确定处理,并根据扫描结果生成对用户行为事件进行再确认发起的指示。预定规则例如可以是安全专家定义的专家规则。例如,在通过计算待定用户行为事件属于第一安全级别、第二安全级别和第三安全级别的概率来确定待定用户行为事件的类别的情况下,预定规则例如可以是:判断被分类为第三安全级别的待定用户行为事件属于第一安全级别的概率是否大于属于第二安全级别的概率,如果判定结果为是,则生成对该用户行为事件进行再确认发起的指示,例如对该用户行为事件进行人工鉴定的指示,以进一步判断该用户行为事件是非法用户行为事件、安全用户行为事件还是失效用户行为事件;如果判定结果为否,则可以停止对该用户行为事件的检测。例如,假定某个待检测的用户行为事件属于第一安全级别、第二安全级别和第三安全级别的概率分别为0.35,0.25和0.4,则由于属于第三安全级别的概率(0.4)最高,该用户行为事件被分类为第三安全级别,然后,通过上述预定规则对该用户行为事件进行扫描,由于该用户行为事件属于第一安全级别的概率(0.35)大于属于第二安全级别的概率(0.25),则生成对该用户行为事件进行再确认发起的指示,例如对该用户行为事件进行人工鉴定的指示,以进一步判断该用户行为事件是非法用户行为事件、安全用户行为事件或失效用户行为事件。
下面描述根据本申请一个示例性实施例的在步骤S140中使用的用户行为事件分类模型的训练方法,也即本申请实施例提供一种基于人工智能的行为事件分类模型训练方法,包括以下步骤。
在步骤S410中,获取包括不同安全操作级别的训练用户行为事件的训练用户行为事件集,其中每个训练用户行为事件的训练数据包括该训练用户行为事件的特征数据和该训练用户行为事件的安全操作级别。例如,训练用户行为事件的安全操作级别可以包括第一安全级别、第二安全级别和第三安全级别。如前所述,例如,第一安全级别为安全风险较高的用户行为事件,第二安全级别为安全风险较低的用户行为事件,而第三安全级别则为安全风险处于第一安全级别和第二安全级别之间的用户行为事件。例如,可以从可疑用户行为事件集获取可疑用户行为事件,将通过对可疑用户行为事件进行鉴定确定的第一安全级别类别的非法用户行为事件的训练用户行为事件,并且将通过对可疑用户行为事件进行鉴定确定的第三安全级别类别的非法用户行为事件的训练用户行为事件。其中,可疑用户行为事件集例如可以从开源情报获得,例如知名安全站点、安全博客所公开的威胁情报。在获得可疑用户行为事件集之后,例如可以通过安全专家进行人工鉴定来确定可疑用户行为事件集中的用户行为事件是否为非法用户行为事件,并将其中的第一安全级别类别的非法用户行为事件的训练用户行为事件,将其中的第三安全级别类别的非法用户行为事件的训练用户行为事件。另外,可以获取高可靠度用户行为事件,作为第二安全级别类别的训练用户行为事件,如前所述,高可靠度用户行为事件是指被调用的频率满足预定条件的用户行为事件。另外,还可以对高可靠度的用户行为事件进行去噪之后作为第二安全级别类别的训练用户行为事件,以提高训练数据的可靠性。
另外,还可以从多个关联非法用户行为事件中随机抽样预定数量的用户行为事件作为第一安全级别类别的训练用户行为事件,即进行用户行为事件抽样。其中,多个关联非法用户行为事件是同一二级用户行为事件下的多个细分用户行为事件。例如,一些属于同一二级用户行为事件的多个细分用户行为事件往往从事一些类似的威胁活动,为了避免同类型用户行为事件数据的冗余导致的模型过拟合,可以从这些属于同一二级用户行为事件的多个细分用户行为事件中随机抽取预定数量的用户行为事件作为第一安全级别类别的训练用户行为事件。
在步骤S420中,针对训练用户行为事件集中的每个训练用户行为事件,基于该训练用户行为事件对应的特征数据,生成该训练用户行为事件的有效行为特征向量。例如,可以从大数据平台整合每个训练用户行为事件对应的特征数据,这些特征数据涉及的数据量是庞大的,甚至多达千亿级,因此,需要从中提取用户行为事件检测所需的有效的特征数据。例如,可以通过特征分析与特征工程对每个训练用户行为事件的特征数据进行分析、迭代和数值化,以获取其特征向量。在机器学习领域中,特征工程是指对目标知识的特点、特性、模式进行统计、变换、映射等,以将原始数据转变为模型的训练数据的过程,其目的是为了获取更好的训练数据,以使模型的性能更好。经过对特征数据进行分析与迭代之后,用于训练的特征数据可以包括四种类型:用户行为事件名称特征、操作设备特征、行为属性特征和行为操作特征。其中,样本例如是软件、客户端等。在获得训练数据集中的每个训练用户行为事件的四类特征数据之后,可以通过对每个训练用户行为事件的特征数据进行诸如数值化等的操作来生成该训练用户行为事件的特征向量。
然后,例如可以利用上述规则对特征向量进行特征系数检测,以确定特征向量是否合格;以及在确定特征向量不合格的情况下,确定该特征向量为有效行为特征向量;在特征向量合格的情况下,去除该特征向量。
接下来,在步骤S430中,利用训练用户行为事件集中的每个训练用户行为事件的有效行为特征向量和安全操作级别,对用户行为事件分类模型进行训练。可以利用训练用户行为事件集中的每个训练用户行为事件的已知类别来对用户行为事件分类模型有监督训练,例如,对于每个训练用户行为事件,可以通过使用户行为事件分类模型的分类结果与训练用户行为事件的已知类别之间的损失函数最小来对用户行为事件分类模型进行有监督训练。
下面进一步描述本申请一个示例性实施例提供的用户行为事件分类模型的训练方法的示例过程500。
在步骤S510中,进行用户行为事件收集和用户行为事件抽样,以获取训练用户行为事件集。例如,可以从开源情报和公知的高可靠度用户行为事件收集具有不同类别的训练用户行为事件集。用户行为事件抽样例如是指从多个关联非法用户行为事件中随机抽样预定数量的用户行为事件作为第一安全级别类别的训练用户行为事件,其中,多个关联非法用户行为事件是同一二级用户行为事件下的多个细分用户行为事件。例如,如前所述,为了避免同类型用户行为事件数据的冗余导致的模型过拟合,可以从属于同一二级用户行为事件的多个细分用户行为事件中随机抽取预定数量的用户行为事件作为第一安全级别类别的训练用户行为事件。
在步骤S520中,进行特征数据整合,以获取训练用户行为事件集中的每个训练用户行为事件的特征数据。训练用户行为事件集中的每个训练用户行为事件均涉及诸如用户行为事件长度、用户行为事件字符瑞丽熵、用户行为事件数字数量等等很多特征数据,这些数据例如可以利用诸如海杜普(Hadoop)等的大数据平台进行整理收集,即,进行特征数据整合,以得到训练用户行为事件集中的每个训练用户行为事件的特征数据。
在步骤S530中,对每个训练用户行为事件的特征数据进行特征分析与特征工程,以生成该训练用户行为事件的特征向量。如前所述,在机器学习领域中,特征工程是指对目标知识的特点、特性、模式进行统计、变换、映射等,以将原始数据转变为模型的训练数据的过程,其目的是为了获取更好的训练数据,以使模型的性能更好。经过对特征数据进行分析与迭代之后,用于训练的特征数据可以包括四种类型:用户行为事件名称特征、操作设备特征、行为属性特征和行为操作特征。然后,可以通过对每个训练用户行为事件的特征数据进行诸如数值化等的操作来生成该训练用户行为事件的特征向量,并通过行为有效性判定获得有效行为特征向量。
在步骤S540中,对用户行为事件分类模型进行机器学习训练与用户行为事件分类测试。在该示例中,例如可以使用KNN算法、随机森林算法和梯度提升算法进行硬投票(HardVoting)的建模策略来实现用户行为事件分类模型,也即,这三种算法均对训练用户行为事件集中的每个训练用户行为事件进行分类,并分别给出该训练用户行为事件为第一安全级别、第二安全级别或者第三安全级别的投票结果,得票数高的类别即为该训练用户行为事件的类别。例如,对于某个训练用户行为事件,如果KNN算法、随机森林算法给出的投票结果为第一安全级别,而梯度提升算法给出的投票结果为第二安全级别,则确定该训练用户行为事件的类别为第一安全级别;此外,在KNN算法、随机森林算法和梯度提升算法对于某个训练用户行为事件分别给出第一安全级别、第二安全级别和第三安全级别的投票结果的情况下,则确定该训练用户行为事件的类别为第三安全级别。然后,利用训练用户行为事件集中的每个训练用户行为事件的有效行为特征向量和安全操作级别,对基于硬投票策略的用户行为事件分类模型进行有监督训练。
在该示例中,对训练完成的用户行为事件分类模型进行用户行为事件分类测试,得到的测试结果中精确率、召回率和综合评价指标F1。以第一安全级别类别为例,假定用户行为事件分类模型将第一安全级别类别的训练用户行为事件分类为第一安全级别的数量为TB,将第三安全级别类别和第二安全级别类别的训练用户行为事件分类为第一安全级别的数量为FB,将第一安全级别类别的训练用户行为事件分类为第三安全级别或第二安全级别的数量为FN,则对于第一安全级别,其精确率P可以表示为P=TB/(TB+FB),表示被预测为第一安全级别类别的训练用户行为事件中真正属于第一安全级别的比例;召回率R可以表示为R=TB/(TB+FN),表示第一安全级别类别的训练用户行为事件被分类为第一安全级别的比例;综合评价指标F1可以表示为F1=2*P*R/(P+R),其综合了精确率和召回率的结果,当某类别的F1较高时表示用户行为事件分类模型对于该类别的效果较好。另外,所有被正确分类的训练用户行为事件的数量占训练用户行为事件总数的比例称为正确率,例如,在测试结果中,正确率为0.92933。在该示例中,用户行为事件分类模型对于第一安全级别和第二安全级别类别的效果较好,对于第三安全级别类别的效果稍次,因此,在利用该用户行为事件分类模型进行用户行为事件检测时,可以基于该特点,针对性地对不同的分类结果采取相对应的处理,如上文中在步骤S130和S140中所描述的,以使用户行为事件检测的结果最优化。
最后,在步骤S550中输出训练后的用户行为事件分类模型。训练后的用户行为事件分类模型可以用于根据本申请上述实施例的基于用户行为大数据挖掘的安全防护处理方法,对输入的待定用户行为事件进行分类,使得能够基于用户行为事件分类的结果对用户行为事件进行进一步的检测,以得到用户行为事件为非法用户行为事件、安全用户行为事件、异常用户行为事件等等的用户行为事件评估结果。
此外,根据本申请实施例的基于用户行为大数据挖掘的安全防护处理方法还可以包括反馈优化的步骤。本申请一个示例性实施例提供的具有反馈优化步骤的基于用户行为大数据挖掘的安全防护处理方法。基于用户行为大数据挖掘的安全防护处理方法600可以包括获取待定用户行为事件步骤S610,生成待定用户行为事件的特征向量的步骤S620、对特征向量进行行为有效性判定的步骤S630、对待检测的用户行为事件进行分类的步骤S640、对待检测的用户行为事件进行对应处理的步骤S650、以及确定并输出用户行为事件评估结果的步骤S660,由于步骤S610至S660与上文结合图1描述的步骤S110至S160的细节相同,因此为了简单起见,这里省略对相同内容的重复描述。
基于用户行为大数据挖掘的安全防护处理方法600还可以包括步骤S670,在步骤S670中,进行反馈优化,其中,反馈优化可以针对基于用户行为大数据挖掘的安全防护处理方法的整个过程进行,包括对步骤S620至步骤S670等基于用户行为大数据挖掘的安全防护处理方法的各个步骤的反馈优化。
一种示例性的设计思路中,可以通过数据调整来对基于用户行为大数据挖掘的安全防护处理方法的各个步骤进行反馈优化,数据调整例如是指增/减生成用户行为事件特征向量的各类特征数据中的特征,并基于这种增/减对用户行为事件评估结果的影响来进一步调整各类特征数据中的特征。例如,如果在生成用户行为事件特征向量的特征数据中增加某个特征时,用户行为事件评估结果变得更准确,则可以将该影响反馈到基于用户行为大数据挖掘的安全防护处理方法的各个步骤中。在此后的用户行为事件检测中,可以利用增加了该特征的特征数据来生成特征向量;还可以利用增加了该特征的训练数据来对用户行为事件训练模型进行进一步的训练;并且,可以基于进一步训练的用户行为事件分类模型的分类结果来进行用户行为事件检测,以使用户行为事件检测的结果最优。此外,还可以通过诸如误报分析、统计分析、专家经验等对基于用户行为大数据挖掘的安全防护处理方法的各个过程进行反馈优化。
以上描述了根据本申请实施例的基于用户行为大数据挖掘的安全防护处理方法,通过生成待检测的用户行为事件的特征向量,基于特征向量对待检测的用户行为事件进行分类以确定用户行为事件的类别,对待检测的用户行为事件进行与其类别相对应的处理,并基于处理的结果确定用户行为事件的评估结果,能够对用户行为事件进行高效、精确的检测。此外,利用基于机器学习的基于用户行为大数据挖掘的安全防护处理方法,能够实现对海量的用户行为事件数据进行实时、高效、自动的检测,相比于高度依赖于人工鉴定的传统方法,大大提高了检测效率。例如,对于包括海量用户行为事件的待定用户行为事件集,利用基于机器学习的基于用户行为大数据挖掘的安全防护处理方法对其进行检测,能够快速筛选出其中的非法用户行为事件、异常用户行为事件、安全用户行为事件、失效用户行为事件等等,为威胁情报的生成提供了自动化的途径,降低了网络安全分析的运营成本。
除了上述方案,实施例中,本申请实施例提供提供了一种基于人工智能的异常行为验证请求检测方法,异常行为验证请求检测方法包括以下步骤:
步骤S202,获取行为验证请求。
其中,验证请求是指使用一种特定的描述性语言,依据一定的格式编写的可执行文件。行为验证请求是指待检测是否为异常行为验证请求的验证请求。
例如,终端和服务器上存储有大量的验证请求,其中可能存在异常行为验证请求、恶意验证请求,异常行为验证请求和恶意验证请求容易引起终端和服务器上数据被破坏、更改和被破解等安全问题。因此,大数据挖掘系统可以对验证请求进行异常检测,从大量的验证请求中识别出异常行为验证请求,以防御黑客攻击。
一种可基于独立构思的实施例中,大数据挖掘系统可以自动触发获取行为验证请求,对行为验证请求进行异常检测。例如,大数据挖掘系统可以每隔预设时长自动触发对本地验证请求的异常检测。或者,大数据挖掘系统每获取到新的验证请求时,自动触发对该验证请求的异常检测。
步骤S204,对行为验证请求进行第一解析操作,得到行为验证请求对应的第一解析结果。
其中,解析操作是指在不运行验证请求的前提下,通过分析验证请求中程序代码的组成部分,来寻找代码中潜在的安全问题。第一解析操作是指针对行为验证请求的首次解析操作。
例如,由于解析操作的检测速度快且适用于所有格式的验证请求,所以大数据挖掘系统在获取到行为验证请求后,可以优先对行为验证请求进行第一解析操作 ,对行为验证请求的源码进行静态分析,判断行为验证请求中是否存在异常源码,从而得到行为验证请求对应的第一解析结果。
一种可基于独立构思的实施例中,可以通过特征匹配的方式进行静态检测。具体可以是从行为验证请求中提取特征信息,将提取到的特征信息和异常特征集合中的特征信息进行匹配,一旦匹配成功,则表明行为验证请求有异常。其中,在进行特征匹配时,可以直接将行为验证请求对应的特征信息和异常特征集合中的特征信息匹配,也可以对行为验证请求对应的特征信息进行统计,将统计结果和异常特征集合中的特征信息匹配。例如,从行为验证请求中提取字符序列,可以将提取到的字符序列和异常特征集合中的异常行为验证请求字符序列进行匹配,也可以对提取到的字符序列进行信息瑞丽熵计算,将计算结果和异常特征集合中的异常行为验证请求信息瑞丽熵进行匹配。
一种可基于独立构思的实施例中,可以通过机器学习模型进行静态检测。可以是将已知无异常的验证请求作为正验证请求和已知有异常的验证请求作为负验证请求,将正验证请求和负验证请求作为训练验证请求,将训练验证请求输入待训练的验证请求检测模型,将训练验证请求对应的标签作为验证请求检测模型的预期输出,对验证请求检测模型进行有监督训练,得到已训练的验证请求检测模型。大数据挖掘系统可以将行为验证请求输入已训练的验证请求检测模型,验证请求检测模型输出行为验证请求对应的第一解析结果。可以理解,可以针对不同的编程语言训练不同的验证请求检测模型,提高不同编程语言对应的验证请求的检测准确性。
步骤S206,根据行为验证请求对应的第一解析结果对行为验证请求进行第一行为模拟处理,得到行为验证请求对应的第一行为模拟结果。
其中,行为模拟处理是指在不运行验证请求的前提下,通过词控制流、数据流分析等技术对验证请求中的程序代码进行扫描和分析,来寻找验证请求中的被破解路径。第一行为模拟处理是指针对行为验证请求的首次行为模拟处理。
例如,在得到第一解析结果后,大数据挖掘系统可以根据行为验证请求对应的第一解析结果对行为验证请求进行第一行为模拟处理,得到行为验证请求对应的第一行为模拟结果。大数据挖掘系统可以是当第一解析结果为验证请求无异常时,才对行为验证请求进行第一行为模拟处理,得到行为验证请求对应的第一行为模拟结果。当第一解析结果为行为异常结果时,大数据挖掘系统可以迅速确定行为验证请求为异常行为验证请求,不再执行后续操作。大数据挖掘系统也可以是当第一解析结果为行为异常结果时,继续对行为验证请求进行第一行为模拟处理,得到行为验证请求对应的第一行为模拟结果。可以理解,第一解析操作和第一行为模拟处理是不同的检测处理,可以检测出验证请求中不同的异常问题,因此,在已知行为验证请求为异常行为验证请求时,继续对行为验证请求进行后续检测处理可以最大限度地查找出行为验证请求中所有异常信息,全方位挖掘行为验证请求的异常信息,进而有助于相关人员进行数据分析和加强防护。
一种可基于独立构思的实施例中,在进行第一行为模拟处理时,大数据挖掘系统可以对行为验证请求的源码进行分析,生成行为验证请求对应的知识图谱,知识图谱上的每个节点都表示源码中的一种结构。大数据挖掘系统根据知识图谱上节点的属性和被侵占、被破解点的特性,可以从中确定被侵占节点和被破解节点,对节点与节点之间的操作关系进行分析,判断是否存在从被侵占到被破解点的被破解路径,当存在被破解路径并且被破解路径满足预设条件时,大数据挖掘系统可以确定第一行为模拟结果为行为验证请求有异常。
步骤S208,基于预设业务环境下执行经过第一行为模拟处理的行为验证请求,输出行为验证请求在预设业务环境执行后对应的请求模拟结果。
其中,预设业务环境是用于对行为验证请求进行动态分析,从而对经过加密、变形、混淆的验证请求进行解密还原。预设业务环境中集成了虚拟执行算法,通过虚拟执行算法可以对行为验证请求进行动态分析,检测验证请求中是否使用了字符序列拼接、字符序列替换、base64加密等加密混淆方法,从而识别出加密、变形、混淆型验证请求,并且,当行为验证请求为经过加密、变形、混淆的验证请求时,还可以对行为验证请求进行解密,输出解密后的行为验证请求,还原出最原始的验证请求。请求模拟结果为解密后的行为验证请求。
例如,若验证请求是加密、变形、混淆型异常行为验证请求时,能被外界控制的变量和被破解函数会隐藏在加壳代码中,通过第一解析操作和第一行为模拟处理是无法轻易识别出加密、变形、混淆型异常行为验证请求。因此,当第一解析操作和第一行为模拟处理均未检测出异常时,大数据挖掘系统可以进一步在预设业务环境下执行行为验证请求,来判断行为验证请求是否经过加密、变形、混淆,并对加密过的行为验证请求进行解密还原,得到行为验证请求对应的请求模拟结果。大数据挖掘系统再对请求模拟结果进行第二解析操作和第二行为模拟处理,从而最终判断行为验证请求是否为异常行为验证请求。当然,当基于第一解析操作和第一行为模拟处理检测出行为验证请求有异常时,大数据挖掘系统也可以在预设业务环境下执行行为验证请求,得到行为验证请求对应的请求模拟结果,再进一步对请求模拟结果进行第二解析操作和第二行为模拟处理,查找出行为验证请求中更多的异常信息。
步骤S210,对请求模拟结果分别进行第二解析操作以及第二行为模拟处理,得到请求模拟结果对应的第二解析结果以及第二行为模拟结果。
其中,第二解析操作是指针对行为验证请求的二次解析操作,具体是对行为验证请求对应的请求模拟结果的解析操作。第二行为模拟处理是指针对行为验证请求的二次行为模拟处理,具体是对行为验证请求对应的请求模拟结果的行为模拟处理。
例如,在得到请求模拟结果后,大数据挖掘系统可以对请求模拟结果进行第二解析操作得到请求模拟结果对应的第二解析结果,对请求模拟结果进行第二行为模拟处理得到第二行为模拟结果。可以理解,若行为验证请求经过加密、变形、混淆,直接对行为验证请求进行解析操作和行为模拟处理是无法轻易识别出被隐藏起来的异常特征信息和被破解路径。因此,在得到行为验证请求对应的请求模拟结果后,大数据挖掘系统可以进一步对行为验证请求对应的请求模拟结果进行第二解析操作以及第二行为模拟处理,基于请求模拟结果对应的第二解析结果以及第二行为模拟结果最终确定行为验证请求是否为异常行为验证请求。
步骤S212,当行为验证请求对应的第一解析结果、第一行为模拟结果、请求模拟结果对应的第二解析结果和第二行为模拟结果中至少一个检测结果为行为异常结果时,确定行为验证请求为异常行为验证请求。
例如,当行为验证请求对应的第一解析结果、第一行为模拟结果、请求模拟结果对应的第二解析结果和第二行为模拟结果中至少一个检测结果为行为异常结果时,大数据挖掘系统可以确定行为验证请求为异常行为验证请求。若行为验证请求有异常,大数据挖掘系统可以及时生成警告信息来提醒相关人员该验证请求存在异常,及时进行防护。
一种可基于独立构思的实施例中,大数据挖掘系统可以按照第一解析操作、第一行为模拟处理、执行验证请求、第二解析操作、第二行为模拟处理的顺序对行为验证请求进行异常检测。一旦首次出现检测结果为行为异常结果时,大数据挖掘系统可以停止后续处理,直接确定行为验证请求为异常行为验证请求,从而节约计算机资源。并且,第一解析操作和第一行为模拟处理都是对源码进行静态分析,而在预设业务环境下执行验证请求是对验证请求的源码进行动态分析,动态分析的资源消耗会大于静态分析。因此,优先对行为验证请求进行第一解析操作、第一行为模拟处理,当第一解析结果和第一行为模拟结果为验证请求无异常时,再基于虚拟执行算法执行行为验证请求并进行第二解析操作、第二行为模拟处理,这样不仅可以减少计算机资源消耗,还可以提高异常行为验证请求的检测效率。
一种可基于独立构思的实施例中,大数据挖掘系统可以按照第一解析操作、第一行为模拟处理、执行验证请求、第二解析操作、第二行为模拟处理的顺序对行为验证请求进行全套的异常检测。由于解析操作和行为模拟处理是不同的检测处理,可以检测出验证请求中不同的异常问题,第一解析操作和第一行为模拟处理是针对行为验证请求,第二解析操作和第二行为模拟处理是针对行为验证请求对应的请求模拟结果,因此进行全套的异常检测可以全方位检测出行为验证请求中多种异常信息,例如,不仅检测出加密验证请求中的异常特征信息和异常被破解路径,还检测出请求模拟结果中的异常特征信息和异常被破解路径。大数据挖掘系统可以将行为验证请求对应的所有异常信息发送至相关人员对应的终端或在本地展示行为验证请求对应的所有异常信息,异常信息可以辅助开发人员进行数据防护,抵御黑客攻击。大数据挖掘系统也可以根据行为验证请求对应的异常信息的数量生成行为验证请求对应的异常等级,基于行为验证请求的异常等级对行为验证请求进行展示。例如,当行为验证请求对应的异常等级越高,行为验证请求的展示位置越靠前,并同时展示行为验证请求对应的异常等级。可以理解,行为验证请求对应的异常信息的数量越多,行为验证请求对应的异常等级越高。
上述异常行为验证请求检测方法中,通过获取行为验证请求,对行为验证请求进行第一解析操作,得到行为验证请求对应的第一解析结果,根据行为验证请求对应的第一解析结果对行为验证请求进行第一行为模拟处理,得到行为验证请求对应的第一行为模拟结果,基于预设业务环境下执行经过第一行为模拟处理的行为验证请求,输出行为验证请求在预设业务环境执行后对应的请求模拟结果,对请求模拟结果分别进行第二解析操作以及第二行为模拟处理,得到请求模拟结果对应的第二解析结果以及第二行为模拟结果,当行为验证请求对应的第一解析结果、第一行为模拟结果、请求模拟结果对应的第二解析结果和第二行为模拟结果中至少一个检测结果为行为异常结果时,确定行为验证请求为异常行为验证请求。这样,先对行为验证请求进行资源消耗较少的第一解析操作和第一行为模拟处理,可以快速得到初步检测结果,基于初步检测结果可以快速直观确定行为验证请求是否为异常行为验证请求,再进一步基于预设业务环境下执行行为验证请求,对行为验证请求进行解密,得到请求模拟结果,最后再对请求模拟结果进行第二解析操作和第二行为模拟处理,得到目标检测结果,基于目标检测结果可以确定经过加密的行为验证请求是否为异常行为验证请求,通过静态检测、被侵占破解、验证请求执行的有序协作,可以扩大检测范围,从而提高异常行为验证请求的检测准确性。
一种可基于独立构思的实施例中,当前验证请求为行为验证请求或请求模拟结果,对当前验证请求进行第三解析操作,得到当前验证请求对应的第三解析操作解析结果,包括:
步骤S302,从当前验证请求中提取特征信息,得到至少一个待匹配特征信息。
例如,以当前验证请求为例说明解析操作过程,当前验证请求可以是行为验证请求,也可以是请求模拟结果,解析操作主要是针对验证请求在源码层级上的匹配检测。若当前验证请求为行为验证请求,则是对当前验证请求进行第一静态检测,得到当前验证请求对应的第一解析结果。若当前验证请求为请求模拟结果,则是对当前验证请求进行第二静态检测,得到当前验证请求对应的第二解析结果。大数据挖掘系统可以对当前验证请求进行特征提取,从当前验证请求中提取特征信息,基于提取到的特征信息得到至少一个待匹配特征信息。大数据挖掘系统可以将验证请求中的一行代码作为一个待匹配特征信息,也可以基于验证请求中的各个请求参数和时间戳生成一个待匹配特征信息。大数据挖掘系统也可以基于分割标识符对验证请求进行切分,将切分得到的验证请求片段作为待匹配特征信息。例如,在PHP代码中,可以将“=”和“;”作为分割标识符,其中,“=”用于赋值,例如“$y=$x”表示将变量x赋值给变量y,“;”通常作为一行代码的结束符。
举例说明,当前验证请求的源码如下所示:
<PHP
$x=$_GET[‘cmd’];
$y=$x;
evl($y);
>
大数据挖掘系统基于分割标识符对验证请求进行切分,可以得到“$x”、“$_GET[‘cmd’]”、“$y”、“eval($y)”这样的待匹配特征信息。其中,“$x”、“$_GET[‘cmd’]”、“$y”、“eval($y)”分别作为一个待匹配特征信息。其中, “< PHP >”是PHP编程语言编写的验证请求的固定格式,无需作为待匹配特征信息。
步骤S304,将各个待匹配特征信息和异常行为验证请求特征信息进行匹配;异常行为验证请求特征信息包括字符序列信息、规则字符序列信息和瑞丽熵信息中的至少一种。
其中,异常行为验证请求特征信息是指异常行为验证请求的特征信息。异常行为验证请求特征信息是对大量的异常行为验证请求进行数据分析得到的。字符序列信息是指异常行为验证请求对应的字符序列类型的特征信息,即用字符序列描述的特征信息。规则字符序列信息是指异常行为验证请求对应的规则字符序列类型的特征信息,即用正则表达式描述的特征信息。瑞丽熵信息是指异常行为验证请求对应的瑞丽熵值类型的特征信息,是基于异常行为验证请求的代码框架生成的瑞丽熵值信息。
例如,大数据挖掘系统上设置有异常特征集合,异常特征集合中存储有异常行为验证请求特征信息,异常行为验证请求特征信息包括字符序列、规则字符序列、瑞丽熵值等多种类型的异常特征信息,异常行为验证请求特征信息用于与当前验证请求进行相应的匹配查询来鉴定当前验证请求是否为异常行为验证请求。异常行为验证请求特征信息是对大量的异常行为验证请求进行数据分析得到的,可以表征异常行为验证请求的普遍性特征。在进行解析操作时,大数据挖掘系统可以将各个待匹配特征信息分别和异常行为验证请求特征信息进行匹配,一旦匹配成功,就可以确定当前验证请求有异常。
步骤S306,当至少一个待匹配特征信息匹配成功时,确定当前验证请求对应的第三解析操作解析结果为验证请求存在异常。
例如,当至少一个待匹配特征信息匹配成功时,大数据挖掘系统可以确定当前验证请求包括异常的数据,当前验证请求有异常。
举例说明,当前验证请求的源码如下所示:
< PHP
eval($_REQUEST[‘cmd’])
>
当异常特征集合中包括“eval($_REQUEST[‘cmd’])”这样的字符序列信息时,当前验证请求的第二行代码与该字符序列信息完全匹配,因此,大数据挖掘系统可以确定当前验证请求有异常,输出当前验证请求对应的第三解析操作解析结果。
一种可基于独立构思的实施例中,大数据挖掘系统可以针对不同的编程语言建立不同的异常行为验证请求特征信息,即为不同验证请求格式的验证请求建立对应的异常行为验证请求特征信息。因此,大数据挖掘系统在进行特征匹配时,可以先判断当前验证请求的验证请求格式,即当前验证请求中使用的目标编程语言,再获取该目标编程语言对应的目标异常行为验证请求特征信息,将当前验证请求对应的待匹配特征信息和目标异常行为验证请求特征信息进行匹配,从而快速确定第三解析操作解析结果。
本实施例中,通过将当前验证请求的各个待匹配特征信息和异常行为验证请求特征信息进行匹配能够快速得到第三解析操作解析结果,并且在匹配的时候,支持字符序列匹配、正则匹配等多种匹配规则,检测方式灵活高效。
一种可基于独立构思的实施例中,瑞丽熵信息的生成方法包括以下步骤:
譬如,获取多个异常行为验证请求;分别从各个异常行为验证请求中提取请求参数,得到各个异常行为验证请求对应的请求参数集合,请求参数集合包括多个请求参数和各个请求参数对应的时间戳;基于同一异常行为验证请求对应的请求参数集合生成对应的候选瑞丽熵信息,得到各个异常行为验证请求分别对应的候选瑞丽熵信息;基于各个候选瑞丽熵信息生成瑞丽熵信息。
其中,请求参数是指验证请求源码中的特殊符号,例如,数学符号、标点符号、单位符号。候选瑞丽熵信息是指基于一个异常行为验证请求对应的请求参数生成的瑞丽熵值。瑞丽熵信息是基于多个异常行为验证请求对应的瑞丽熵值得到,用于代表异常行为验证请求瑞丽熵值的普遍性、共性。
例如,同一黑客或同一黑客群体编写的验证请求通常具有特定的风格,例如采用相同或相似的代码框架。此外,代码通常是由数字、字母和特殊符号组成,其中,数字和字母可以根据实际需要进行灵活变换,而特殊符号则是代码框架的重要组成部分,相对来说是比较固定的。因此,大数据挖掘系统可以对大量异常行为验证请求的请求参数进行分析,提取出大量异常行为验证请求之间的共性信息,得到瑞丽熵信息。大数据挖掘系统具体可以获取多个已知异常的异常行为验证请求,分别从各个异常行为验证请求中提取请求参数,得到各个异常行为验证请求对应的请求参数集合。请求参数集合中不仅包括多个请求参数,还包括各个请求参数分别对应的时间戳,基于请求参数和对应的时间戳可以确定代码的整体框架。大数据挖掘系统可以对一个异常行为验证请求对应的请求参数集合进行信息瑞丽熵计算,生成该异常行为验证请求对应的候选瑞丽熵信息,从而各个异常行为验证请求可以得到各自对应的候选瑞丽熵信息。最后,大数据挖掘系统可以基于各个候选瑞丽熵信息生成瑞丽熵信息,例如,对各个候选瑞丽熵信息进行统计分析,可以将重复次数较多的若干个候选瑞丽熵信息作为瑞丽熵信息,也可以将每个候选瑞丽熵信息都作为瑞丽熵信息。也可以对各个候选瑞丽熵信息进行聚类分析,从而对各个候选瑞丽熵信息进行分组,得到至少一个中间瑞丽熵信息,一个中间瑞丽熵信息可以表征同一黑客或同一黑客群体对应的异常行为验证请求的候选瑞丽熵信息,将各个中间瑞丽熵信息分别作为瑞丽熵信息。聚类分析是用于对候选瑞丽熵信息进行分组,使得不同的中间瑞丽熵信息之间具有一定区分度。进一步的,大数据挖掘系统可以为不同的瑞丽熵信息分配不同的黑客标识,从而若当前验证请求对应的当前瑞丽熵信息和某一瑞丽熵信息匹配成功,则第三解析操作解析结果还可以包括该瑞丽熵信息对应的黑客标识。其中,聚类分析可以采用基于密度的聚类算法(例如DBSCAN聚类算法)、基于划分的聚类方法(例如k-means聚类算法)。
本实施例中,基于异常行为验证请求对应的请求参数集合生成异常行为验证请求对应的候选瑞丽熵信息,基于多个异常行为验证请求对应的候选瑞丽熵信息生成瑞丽熵信息,能够提高瑞丽熵信息的可靠性。
譬如,一种可基于独立构思的实施例中,根据行为验证请求对应的第一解析结果对行为验证请求进行第一行为模拟处理,得到行为验证请求对应的第一行为模拟结果,包括:
当第一解析结果为验证请求无异常时,对行为验证请求进行第一行为模拟处理,得到行为验证请求对应的第一行为模拟结果。
例如,为了减少计算机资源消耗,在对行为验证请求进行第一解析操作,得到行为验证请求对应的第一解析结果后,若第一解析结果为验证请求无异常,大数据挖掘系统才会对行为验证请求进行第一行为模拟处理,得到行为验证请求对应的第一行为模拟结果,若第一解析结果为行为异常结果,大数据挖掘系统就无需执行后续操作。
譬如,一种可基于独立构思的实施例中,基于查询结果确定当前验证请求对应的第三行为模拟结果,包括:
当目标被侵占节点和被破解节点之间存在连接路径、且连接路径覆盖有除目标被侵占节点和被破解节点之外的其它变量节点时,确定当前验证请求中存在被破解路径;当当前验证请求中存在被破解路径时,基于被破解路径确定当前验证请求对应的第三行为模拟结果;当当前验证请求中不存在被破解路径时,确定当前验证请求对应的第三行为模拟结果为验证请求无异常。
例如,如果当前验证请求中只包括被侵占或被破解点,没有形成有效的被破解路径,则当前验证请求对应的第三行为模拟结果为验证请求无异常。只有当被侵占经过一系列污染传播点进入被破解点,即存在被破解路径时,才需要对被破解路径进行更细致的判断来确定当前验证请求是否为异常行为验证请求。因此,当目标被侵占节点和被破解节点之间存在连接路径、且连接路径覆盖有除目标被侵占节点和被破解节点之外的其它变量节点时,大数据挖掘系统可以确定当前验证请求中存在被破解路径。
一种可基于独立构思的实施例中,当存在被破解路径时,大数据挖掘系统可以直接确定当前验证请求对应的第三行为模拟结果为验证请求存在异常。当然,大数据挖掘系统也可以进一步对被破解路径进行更细致的审计,来确定当前验证请求对应的第三行为模拟结果,从而减少误报,提高被侵占破解准确性。
本实施例中,当当前验证请求中不存在被破解路径时,直接确定当前验证请求对应的第三行为模拟结果为验证请求无异常,当当前验证请求中存在被破解路径时,不是直接确定当前验证请求对应的第三行为模拟结果为验证请求存在异常,而是进一步基于被破解路径确定当前验证请求对应的第三行为模拟结果,能够提高被侵占破解的准确性。
譬如,一种可基于独立构思的实施例中,当当前验证请求中存在被破解路径时,基于被破解路径确定当前验证请求对应的第三行为模拟结果,包括:
当目标被侵占节点通过被破解路径以赋值方式将数据传输至被破解节点、且目标被侵占节点为第二被侵占节点时,确定当前验证请求对应的第三行为模拟结果为验证请求无异常。
例如,若存在被破解路径,就直接判断行为验证请求为异常行为验证请求,会存在一些误报情况。在实际生产环境中会有开发者由于编码习惯而把大段固定的文字或字符序列写在代码变量中,即在开发者正常开发过程中可能也会存在长度过长的字符序列变量,这种是开发者正常使用,而非恶意使用,但是开发人员通常不会对代码变量使用字符序列拼接、字符序列替换、base64加密等技术进行处理。因此,为了减少被侵占破解的误报,在确定存在被破解路径后,大数据挖掘系统可以进行更细致的审计,对被破解路径进行进一步分析来确定第三行为模拟结果。当目标被侵占节点通过被破解路径以赋值方式将数据传输至被破解节点、且目标被侵占节点为第二被侵占节点时,大数据挖掘系统可以确定当前验证请求对应的第三行为模拟结果为验证请求无异常,而其它情况下则确定当前验证请求对应的第三行为模拟结果为行为异常结果。可以理解,若参数是被侵占未经过任何处理,只是通过赋值这样的简单方式经过被破解路径传递到被破解点,则当前验证请求为安全验证请求,不会引发安全问题。若被破解点的参数是被侵占未经过任何处理,只是通过赋值的方式传递到被破解点的,则极大可能是开发人员在开发过程中正常使用被破解点函数,而非恶意使用。而攻击者为了避免被杀毒软件查杀,一般不会直接使用参数,而是会使用一系列的拼接、替换、加密函数等方法对参数进行处理。
举例说明,当前验证请求的源码如下所示:
< PHP
$x=“echo \“hello world!\””;
$y=$x;
eval($y);
>
其中,$x被标记为长度过长的字符序列变量被侵占,被破解点eval执行的参数为$y,而$y是由$x赋值得到的,未进行其它任何操作。因此,大数据挖掘系统可以确定当前验证请求对应的第三行为模拟结果为验证请求无异常。
当前验证请求的源码如下所示:
< PHP
$x=“JF9SRVFVRVNUWydjbWQnXQ==”;
$y=base64_decode($x);
eval($y);
>
$x被标记为长度过长的字符序列变量被侵占,被破解点eval执行的参数为$y,而$y是由base64_decode($x)得到的,是对$x进行了base64解码操作,即$x在传播过程中进行了赋值以外的操作。因此,大数据挖掘系统可以确定当前验证请求对应的第三行为模拟结果为验证请求存在异常。
本实施例中,当目标被侵占节点通过被破解路径以赋值方式将数据传输至被破解节点、且目标被侵占节点为第二被侵占节点时,确定当前验证请求对应的第三行为模拟结果为验证请求无异常,这样能够有效减少被侵占破解的误报,提高被侵占破解的准确性。
本申请实施例提供一种基于用户行为大数据挖掘的安全防护处理系统110,基于用户行为大数据挖掘的安全防护处理系统110包括:
获取模块1101,用于获取基于各个待定用户行为事件的评估结果确定非法用户行为事件集合以及失效用户行为事件集合。
生成模块1102,用于对所述非法用户行为事件集合以及失效用户行为事件集合相关的历史行为大数据进行知识图谱生成,获得历史行为活动知识图谱。
优化模块1103,用于基于所述历史行为活动知识图谱对当前安全防护系统进行配置优化。
图2示出了本申请实施例提供的用于实现以上的基于用户行为大数据挖掘的安全防护处理方法的大数据挖掘系统100的硬件结构意图,如图2所示,大数据挖掘系统100可包括处理器110、机器可读存储介质120、总线130以及通信单元140。
在具体实现过程中,至少一个处理器110执行机器可读存储介质120存储的计算机可执行指令,使得处理器110可以执行如上方法实施例的基于用户行为大数据挖掘的安全防护处理方法,处理器110、机器可读存储介质120以及通信单元140通过总线130连接,处理器110可以用于控制通信单元140的收发动作,从而可以与前述的业务运行服务系统200进行数据收发。
处理器110的具体实现过程可参见以上大数据挖掘系统100执行的各个方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
此外,本申请实施例还提供一种可读存储介质,所述可读存储介质中预设有计算机可执行指令,当处理器执行所述计算机可执行指令时,实现如上基于用户行为大数据挖掘的安全防护处理方法。
最后,应当理解的是,本说明书中实施例仅用以说明本说明书实施例的原则。其它的变形也可能属于本说明书范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导匹配。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
Claims (9)
1.一种基于用户行为大数据挖掘的安全防护处理方法,其特征在于,包括:
基于各个待定用户行为事件的评估结果确定非法用户行为事件集合以及失效用户行为事件集合;
对所述非法用户行为事件集合以及失效用户行为事件集合相关的历史行为大数据进行知识图谱生成,获得历史行为活动知识图谱;
基于所述历史行为活动知识图谱对当前安全防护系统进行配置优化;
其中,所述基于所述历史行为活动知识图谱对当前安全防护系统进行配置优化的步骤,包括:
基于所述历史行为活动知识图谱进行频繁项向量挖掘,得到所述历史行为活动知识图谱对应的频繁项向量;
对所述频繁项向量进行向量分治,得到所述频繁项向量对应的基础频繁项向量和衍生频繁项向量;
对所述基础频繁项向量和所述衍生频繁项向量进行解析,得到所述历史行为活动知识图谱中的至少一个关键行为活动对应的薄弱环节分布,以及所述薄弱环节分布对应的重定向向量;
基于所述重定向向量分别将各个关键行为活动对应的所述薄弱环节分布进行基于时序特征的拼接,得到各个关键行为活动分别对应的薄弱环节信息,并基于所述各个关键行为活动分别对应的薄弱环节信息对当前安全防护系统进行配置优化。
2.根据权利要求1所述的基于用户行为大数据挖掘的安全防护处理方法,其特征在于,所述对所述非法用户行为事件集合以及失效用户行为事件集合相关的历史行为大数据进行知识图谱生成,获得历史行为活动知识图谱的步骤,包括:
提取所述非法用户行为事件集合以及失效用户行为事件集合相关的历史行为大数据中每个历史行为活动以及各个历史行为活动之间的活动关系向量;
基于所述每个历史行为活动以及各个历史行为活动之间的活动关系向量进行知识图谱生成,获得历史行为活动知识图谱。
3.根据权利要求1所述的基于用户行为大数据挖掘的安全防护处理方法,基于所述历史行为活动知识图谱进行频繁项向量挖掘,得到所述历史行为活动知识图谱对应的频繁项向量的步骤,包括:
基于频繁项集模型对所述历史行为活动知识图谱进行频繁项挖掘,得到所述历史行为活动知识图谱对应的频繁项向量。
4.根据权利要求3所述的基于用户行为大数据挖掘的安全防护处理方法,基于频繁项集模型对所述历史行为活动知识图谱进行频繁项挖掘,得到所述历史行为活动知识图谱对应的频繁项向量的步骤,包括:
对所述历史行为活动知识图谱进行行为活动知识特征提取,得到所述历史行为活动知识图谱对应的第一行为活动知识特征;
对所述第一行为活动知识特征进行注意力特征提取,得到所述第一行为活动知识特征对应的第二行为活动知识特征;
基于频繁项集模型对所述第二行为活动知识特征进行计算,得到所述第二行为活动知识特征对应的第三行为活动知识特征;
对所述第三行为活动知识特征进行特征降维,得到所述第三行为活动知识特征对应的第四行为活动知识特征;
基于频繁项集模型对所述第四行为活动知识特征进行计算,得到所述第四行为活动知识特征对应的频繁项向量。
5.根据权利要求1或3或4所述的基于用户行为大数据挖掘的安全防护处理方法,对所述频繁项向量进行向量分治,得到所述频繁项向量对应的基础频繁项向量和衍生频繁项向量的步骤,包括:
对所述频繁项向量进行分类操作,得到分类标签向量分布;
将所述频繁项向量与所述分类标签向量分布进行融合,得到频繁项向量分布图;
基于频繁项向量分布图对所述频繁项向量进行向量分治操作,得到与所述频繁项向量对应的基础频繁项向量和衍生频繁项向量。
6.根据权利要求1或3或4所述的基于用户行为大数据挖掘的安全防护处理方法,对所述基础频繁项向量和所述衍生频繁项向量进行解析,得到所述历史行为活动知识图谱中的至少一个关键行为活动对应的薄弱环节分布,以及所述薄弱环节分布对应的重定向向量包括:
对所述基础频繁项向量进行解析,得到所述历史行为活动知识图谱中的至少一个关键行为活动,并确定各个关键行为活动所在节点对应的薄弱环节分布;
对所述衍生频繁项向量和所述薄弱环节分布进行计算,得到所述薄弱环节分布对应的重定向向量;
其中,对所述基础频繁项向量进行解析,得到所述历史行为活动知识图谱中的至少一个关键行为活动,并确定各个关键行为活动所在节点对应的薄弱环节分布之后,所述方法还包括:
根据获得的所述关键行为活动确定所述历史行为活动知识图谱中包含的至少一个关键行为活动标签;
以及,对所述衍生频繁项向量和所述薄弱环节分布进行计算,得到所述薄弱环节分布对应的重定向向量包括:
对各个关键行为活动标签分别对应的薄弱环节分布和所述衍生频繁项向量进行计算,得到各个薄弱环节分布分别对应的重定向向量。
7.根据权利要求1所述的基于用户行为大数据挖掘的安全防护处理方法,其特征在于,所述基于各个待定用户行为事件的评估结果确定非法用户行为事件集合以及失效用户行为事件集合的步骤,包括:
获取待定用户行为事件;
对所述待定用户行为事件进行特征向量提取,以生成所述待定用户行为事件的特征向量;
对所述待定用户行为事件的特征向量进行行为有效性判定,以获得所述待定用户行为事件的有效行为特征向量;
基于所述有效行为特征向量,对所述待定用户行为事件进行用户行为事件分类,以确定所述待定用户行为事件的安全操作级别,其中,所述安全操作级别是第一安全级别、第二安全级别和第三安全级别中的一个,第一安全级别为安全风险高的用户行为事件,第二安全级别为安全风险低的用户行为事件,第三安全级别为安全风险处于第一安全级别和第二安全级别之间的用户行为事件;
根据所述待定用户行为事件的安全操作级别,对所述待定用户行为事件进行行为分类处理或行为确定处理;以及
基于处理的结果确定并输出所述待定用户行为事件的评估结果,并基于各个待定用户行为事件的评估结果确定非法用户行为事件集合以及失效用户行为事件集合;
其中,在所述待定用户行为事件的安全操作级别为第一安全级别或者第二安全级别时,对所述待定用户行为事件指向的接收页面进行行为分类处理,所述行为分类处理包括:
在所述接收页面中包括的指定参数的数量满足预定数量阈值时,确定所述接收页面为正常接收页面;
在所述接收页面中包括的指定参数的数量不满足预定数量阈值时,确定所述接收页面为异常接收页面;以及
在所述接收页面失效时,确定所述接收页面为失效接收页面;
在所述待定用户行为事件的安全操作级别为第一安全级别时,基于处理的结果确定所述待定用户行为事件的评估结果包括:
在所述接收页面为正常接收页面的情况下,确定所述待定用户行为事件为正常用户行为事件;
在所述接收页面为异常接收页面的情况下,确定所述待定用户行为事件为非法用户行为事件;以及
在所述接收页面为失效接收页面的情况下,确定所述待定用户行为事件为失效用户行为事件;
在所述待定用户行为事件的安全操作级别为第二安全级别时,基于处理的结果确定所述待定用户行为事件的评估结果包括:
在所述接收页面为正常接收页面并且所述待定用户行为事件的可靠度满足预定条件的情况下,确定所述待定用户行为事件为安全用户行为事件,并将所述待定用户行为事件加入用户行为事件安全集合;
在所述接收页面为失效接收页面的情况下,确定所述待定用户行为事件为失效用户行为事件;或者
在所述待定用户行为事件的安全操作级别为第三安全级别时,对所述待定用户行为事件进行行为确定处理,所述行为确定处理包括:
根据预定规则对所述待定用户行为事件进行用户行为事件风险确认,并根据确认结果生成对所述待定用户行为事件进行再确认发起的指示。
8.根据权利要求7所述的基于用户行为大数据挖掘的安全防护处理方法,其特征在于,所述基于所述有效行为特征向量,对所述待定用户行为事件进行用户行为事件分类,以确定所述待定用户行为事件的安全操作级别包括:
基于所述有效行为特征向量,利用用户行为事件分类模型对所述待定用户行为事件进行用户行为事件分类,以确定所述待定用户行为事件的安全操作级别,其中,所述用户行为事件分类模型通过以下方法进行训练:
获取包括不同安全操作级别的训练用户行为事件的训练用户行为事件集,其中,每个训练用户行为事件的训练数据包括所述训练用户行为事件的特征数据和所述训练用户行为事件的安全操作级别;
针对所述训练用户行为事件集中的每个训练用户行为事件,基于所述训练用户行为事件对应的特征数据,生成所述训练用户行为事件的有效行为特征向量;以及
利用所述训练用户行为事件集中的每个训练用户行为事件的有效行为特征向量和安全操作级别,对所述用户行为事件分类模型进行训练,其中,所述特征数据包括所述训练用户行为事件的用户行为事件名称特征、操作设备特征、行为属性特征和行为操作特征中的至少一部分;
其中,所述不同安全操作级别包括第一安全级别、第二安全级别和第三安全级别,并且其中,所述获取包括不同安全操作级别的训练用户行为事件的训练用户行为事件集包括:
从可疑用户行为事件集获取可疑用户行为事件,将通过对可疑用户行为事件进行鉴定确定的第一安全级别类别的非法用户行为事件的训练用户行为事件,并且将通过对可疑用户行为事件进行鉴定确定的第三安全级别类别的非法用户行为事件的训练用户行为事件;
获取高可靠度用户行为事件,作为第二安全级别类别的训练用户行为事件,其中,所述高可靠度用户行为事件为被调用的频率满足预定条件的用户行为事件;
所述获取包括不同安全操作级别的训练用户行为事件的训练用户行为事件集还包括:
从多个关联非法用户行为事件中随机抽样预定数量的用户行为事件作为第一安全级别类别的训练用户行为事件,其中,多个关联非法用户行为事件是同一二级用户行为事件下的多个细分用户行为事件。
9.一种基于用户行为大数据挖掘的安全防护处理系统,其特征在于,包括:
获取模块,用于获取基于各个待定用户行为事件的评估结果确定非法用户行为事件集合以及失效用户行为事件集合;
生成模块,用于对所述非法用户行为事件集合以及失效用户行为事件集合相关的历史行为大数据进行知识图谱生成,获得历史行为活动知识图谱;
优化模块,用于基于所述历史行为活动知识图谱对当前安全防护系统进行配置优化;
其中,所述基于所述历史行为活动知识图谱对当前安全防护系统进行配置优化的方式,包括:
基于所述历史行为活动知识图谱进行频繁项向量挖掘,得到所述历史行为活动知识图谱对应的频繁项向量;
对所述频繁项向量进行向量分治,得到所述频繁项向量对应的基础频繁项向量和衍生频繁项向量;
对所述基础频繁项向量和所述衍生频繁项向量进行解析,得到所述历史行为活动知识图谱中的至少一个关键行为活动对应的薄弱环节分布,以及所述薄弱环节分布对应的重定向向量;
基于所述重定向向量分别将各个关键行为活动对应的所述薄弱环节分布进行基于时序特征的拼接,得到各个关键行为活动分别对应的薄弱环节信息,并基于所述各个关键行为活动分别对应的薄弱环节信息对当前安全防护系统进行配置优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111015423.7A CN113704772B (zh) | 2021-08-31 | 2021-08-31 | 基于用户行为大数据挖掘的安全防护处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111015423.7A CN113704772B (zh) | 2021-08-31 | 2021-08-31 | 基于用户行为大数据挖掘的安全防护处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113704772A CN113704772A (zh) | 2021-11-26 |
CN113704772B true CN113704772B (zh) | 2022-05-17 |
Family
ID=78658241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111015423.7A Active CN113704772B (zh) | 2021-08-31 | 2021-08-31 | 基于用户行为大数据挖掘的安全防护处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704772B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113868010B (zh) * | 2021-12-01 | 2022-02-18 | 杭银消费金融股份有限公司 | 应用于业务系统的异常数据处理方法及系统 |
CN115237980B (zh) * | 2022-07-21 | 2023-04-07 | 北京竞娱科技有限公司 | 一种互联网数据交互处理方法、系统及云平台 |
US20240259416A1 (en) * | 2023-01-27 | 2024-08-01 | Microsoft Technology Licensing, Llc | Adaptive protection mechanisms loop |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106713358A (zh) * | 2017-02-04 | 2017-05-24 | 国家电网公司信息通信分公司 | 一种攻击性检测方法及装置 |
CN112134897A (zh) * | 2020-09-27 | 2020-12-25 | 奇安信科技集团股份有限公司 | 网络攻击数据的处理方法和装置 |
CN112187773A (zh) * | 2020-09-23 | 2021-01-05 | 支付宝(杭州)信息技术有限公司 | 一种网络安全漏洞的挖掘方法和装置 |
CN112434089A (zh) * | 2020-12-23 | 2021-03-02 | 龙马智芯(珠海横琴)科技有限公司 | 一种频繁项挖掘方法、装置、服务器及可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11308211B2 (en) * | 2019-06-18 | 2022-04-19 | International Business Machines Corporation | Security incident disposition predictions based on cognitive evaluation of security knowledge graphs |
CN113315742B (zh) * | 2020-02-27 | 2022-08-09 | 华为技术有限公司 | 攻击行为检测方法、装置及攻击检测设备 |
-
2021
- 2021-08-31 CN CN202111015423.7A patent/CN113704772B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106713358A (zh) * | 2017-02-04 | 2017-05-24 | 国家电网公司信息通信分公司 | 一种攻击性检测方法及装置 |
CN112187773A (zh) * | 2020-09-23 | 2021-01-05 | 支付宝(杭州)信息技术有限公司 | 一种网络安全漏洞的挖掘方法和装置 |
CN112134897A (zh) * | 2020-09-27 | 2020-12-25 | 奇安信科技集团股份有限公司 | 网络攻击数据的处理方法和装置 |
CN112434089A (zh) * | 2020-12-23 | 2021-03-02 | 龙马智芯(珠海横琴)科技有限公司 | 一种频繁项挖掘方法、装置、服务器及可读存储介质 |
Non-Patent Citations (3)
Title |
---|
Refining Traceability Links Between Vulnerability and Software Component in a Vulnerability Knowledge Graph;Dongdong Du等;《18th International Conference on Web Engineering (ICWE)》;20180520;第33-49页 * |
机器学习 构建智能网安主动防御体系;王路遥;《上海信息化》;20190531(第05期);第57-61页 * |
面向软件定义网络的恶意流量防御关键技术研究;赵新辉;《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》;20210315(第03期);第I139-11页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113704772A (zh) | 2021-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11991199B2 (en) | Malicious traffic detection with anomaly detection modeling | |
CN113704772B (zh) | 基于用户行为大数据挖掘的安全防护处理方法及系统 | |
CN109347801B (zh) | 一种基于多源词嵌入和知识图谱的漏洞利用风险评估方法 | |
Uwagbole et al. | Applied machine learning predictive analytics to SQL injection attack detection and prevention | |
CN113704328B (zh) | 基于人工智能的用户行为大数据挖掘方法及系统 | |
US9781139B2 (en) | Identifying malware communications with DGA generated domains by discriminative learning | |
Cao et al. | Machine learning to detect anomalies in web log analysis | |
EP3136249B1 (en) | Log analysis device, attack detection device, attack detection method and program | |
CN111586046B (zh) | 一种结合威胁情报和机器学习的网络流量分析方法及系统 | |
CN111818198B (zh) | 域名检测方法、域名检测装置和设备以及介质 | |
CN103748853A (zh) | 用于对数据通信网络中的协议消息进行分类的方法和系统 | |
US20220253526A1 (en) | Incremental updates to malware detection models | |
CN108023868A (zh) | 恶意资源地址检测方法和装置 | |
CN111586005A (zh) | 扫描器扫描行为识别方法及装置 | |
CN110602030A (zh) | 网络入侵阻断方法、服务器及计算机可读介质 | |
CN113486343A (zh) | 一种攻击行为的检测方法、装置、设备和介质 | |
CN116112194A (zh) | 用户行为分析方法、装置、电子设备及计算机存储介质 | |
CN112905996A (zh) | 基于多维度数据关联分析的信息安全溯源系统及方法 | |
CN117614743B (zh) | 网络诈骗的预警方法及其系统 | |
Angelini et al. | An attack graph-based on-line multi-step attack detector | |
CN112817877B (zh) | 异常脚本检测方法、装置、计算机设备和存储介质 | |
CN113542252A (zh) | Web攻击的检测方法、检测模型和检测装置 | |
CN115809466B (zh) | 基于stride模型的安全需求生成方法、装置、电子设备及介质 | |
CN113032774B (zh) | 异常检测模型的训练方法、装置、设备及计算机存储介质 | |
JP7033560B2 (ja) | 分析装置および分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220420 Address after: 050000 1903, Shennong building, No. 45, Tangu South Street, Yuhua District, Shijiazhuang City, Hebei Province Applicant after: Zhongshu Zhichuang Technology Co.,Ltd. Address before: 650000 No. 1605, building C5, yingxincheng District C, the third city, economic development zone, Kunming, Yunnan Province Applicant before: Chen Jing |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |