CN113704328A - 基于人工智能的用户行为大数据挖掘方法及系统 - Google Patents

基于人工智能的用户行为大数据挖掘方法及系统 Download PDF

Info

Publication number
CN113704328A
CN113704328A CN202111015424.1A CN202111015424A CN113704328A CN 113704328 A CN113704328 A CN 113704328A CN 202111015424 A CN202111015424 A CN 202111015424A CN 113704328 A CN113704328 A CN 113704328A
Authority
CN
China
Prior art keywords
user behavior
event
behavior event
behavior
verification request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111015424.1A
Other languages
English (en)
Other versions
CN113704328B (zh
Inventor
陈靓
何景隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CTV ELECTRONIC (BEIJING) ICC INDUSTRY CO.,LTD.
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202111015424.1A priority Critical patent/CN113704328B/zh
Publication of CN113704328A publication Critical patent/CN113704328A/zh
Application granted granted Critical
Publication of CN113704328B publication Critical patent/CN113704328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种基于人工智能的用户行为大数据挖掘方法及系统,通过对待定用户行为事件进行特征向量提取,以生成待定用户行为事件的特征向量,进而对待定用户行为事件的特征向量进行行为有效性判定,以获得待定用户行为事件的有效行为特征向量,基于有效行为特征向量,对待定用户行为事件进行用户行为事件分类,以确定待定用户行为事件的安全操作级别,根据待定用户行为事件的安全操作级别,对待定用户行为事件进行行为分类处理或行为确定处理,最终基于处理的结果确定并输出待定用户行为事件的评估结果,通过对待定为用户行为事件进行了特征向量提取的方式,提高了用户行为事件检测的准确性。

Description

基于人工智能的用户行为大数据挖掘方法及系统
技术领域
本申请涉及数据安全技术领域,具体而言,涉及一种基于人工智能的用户行为大数据挖掘方法及系统。
背景技术
目前,人们不论是日常所需还是工作内容,大多需要依靠智能设备和网络配合完成,这在给人们带来便捷的同时,也带来了相应的安全隐患。不同于用户的现场操作,在各个场景下涉及的设备、服务器均会根据接收到的用户行为事件执行对应操作,而现有的用户行为事件检测方案,大多采用较为简单的依据,例如用户登录地点、时间等信息,这使得现有的用户行为事件检测并不准确,存在着一定漏洞。
发明内容
本申请提供一种基于人工智能的用户行为大数据挖掘方法及系统。
第一方面,本申请实施例提供一种基于人工智能的用户行为大数据挖掘方法,包括:
获取待定用户行为事件;
对待定用户行为事件进行特征向量提取,以生成待定用户行为事件的特征向量;
对待定用户行为事件的特征向量进行行为有效性判定,以获得待定用户行为事件的有效行为特征向量;
基于有效行为特征向量,对待定用户行为事件进行用户行为事件分类,以确定待定用户行为事件的安全操作级别,其中,安全操作级别是第一安全级别、第二安全级别和第三安全级别中的一个,第一安全级别为安全风险高的用户行为事件,第二安全级别为安全风险低的用户行为事件,第三安全级别为安全风险处于第一安全级别和第二安全级别之间的用户行为事件;
根据待定用户行为事件的安全操作级别,对待定用户行为事件进行行为分类处理或行为确定处理;以及
基于处理的结果确定并输出待定用户行为事件的评估结果。
第二方面,本申请实施例提供一种基于人工智能的用户行为大数据挖掘系统,包括:
获取模块,用于获取待定用户行为事件;
提取模块,用于对待定用户行为事件进行特征向量提取,以生成待定用户行为事件的特征向量;对待定用户行为事件的特征向量进行行为有效性判定,以获得待定用户行为事件的有效行为特征向量;基于有效行为特征向量,对待定用户行为事件进行用户行为事件分类,以确定待定用户行为事件的安全操作级别,其中,安全操作级别是第一安全级别、第二安全级别和第三安全级别中的一个,第一安全级别为安全风险高的用户行为事件,第二安全级别为安全风险低的用户行为事件,第三安全级别为安全风险处于第一安全级别和第二安全级别之间的用户行为事件;
检测模块,根据待定用户行为事件的安全操作级别,对待定用户行为事件进行行为分类处理或行为确定处理;以及基于处理的结果确定并输出待定用户行为事件的评估结果。
如此,通过获取待定用户行为事件,并对待定用户行为事件进行特征向量提取,以生成待定用户行为事件的特征向量;进而对待定用户行为事件的特征向量进行行为有效性判定,以获得待定用户行为事件的有效行为特征向量;然后基于有效行为特征向量,对待定用户行为事件进行用户行为事件分类,以确定待定用户行为事件的安全操作级别;进而根据待定用户行为事件的安全操作级别,对待定用户行为事件进行行为分类处理或行为确定处理,最终基于处理的结果确定并输出待定用户行为事件的评估结果,相较于相关技术中仅根据简单的评判依据进行用户行为事件的检测,本方案通过对待定为用户行为事件进行了特征向量提取的方式,提高了用户行为事件检测的准确性。
附图说明
图1为本申请实施例提供的基于人工智能的用户行为大数据挖掘方法的步骤流程示意图;
图2为本申请实施例提供用于执行图1中的基于人工智能的用户行为大数据挖掘方法的大数据挖掘系统的结构示意框图。
具体实施方式
下面结合附图,对本申请的具体实施方式进行详细说明。
下面参照图1描述根据本申请实施例的基于人工智能的用户行为大数据挖掘方法。图1示出了本申请一个示例性实施例提供的基于人工智能的用户行为大数据挖掘方法100的流程图。如图1所示,本申请一个示例性实施例提供的基于人工智能的用户行为大数据挖掘方法包括以下步骤:
步骤S110,获取待定用户行为事件。例如,待定用户行为事件可以是用户输入以进行检测的用户行为事件,可以是需要进行检测的大量用户行为事件集中的任意用户行为事件,或者可以是即将打开的接收页面的用户行为事件。
步骤S120,对待定用户行为事件进行特征向量提取,以生成待定用户行为事件的特征向量。例如,待定用户行为事件的特征向量用于表征该用户行为事件的特征,以供用户行为事件检测使用。
步骤S130,对待定用户行为事件的特征向量进行行为有效性判定,以获得待定用户行为事件的有效行为特征向量。
步骤S140,基于有效行为特征向量,对待定用户行为事件进行用户行为事件分类,以确定待定用户行为事件的安全操作级别。
在本申请中,用户行为事件的安全操作级别例如可以是第一安全级别、第二安全级别和第三安全级别中的一个,其中,第一安全级别为安全风险较高的用户行为事件,第二安全级别为安全风险较低的用户行为事件,而第三安全级别则为安全风险处于第一安全级别和第二安全级别之间的用户行为事件。例如,对于通过传播非法软件、发送垃圾邮件等方式进行非法活动的非法用户行为事件,可以将其分类为第一安全级别,表明其安全风险很高;对于高可靠度的用户行为事件,即被调用的频率满足预定条件的用户行为事件,例如,在单位时间内被调用的频率大于一定阈值的用户行为事件,可以将其分类为第二安全级别,表明其安全风险较低;对于可疑但其安全风险处于第一安全级别和第二安全级别之间的用户行为事件,可以将其分类为第三安全级别。例如,在对待检测的用户行为事件进行分类时,可以分别计算该用户行为事件属于第一安全级别、第二安全级别和第三安全级别的概率,并将概率最高的类别确定为待定用户行为事件的类别。应当理解的是,虽然这里将用户行为事件的类别分为第一安全级别、第二安全级别和第三安全级别三类,但是本申请不限于此,用户行为事件的类别可以包括其它类别,并且可以包括多于或者少于三类。
一种示例性的设计思路中,在步骤S140中,基于有效行为特征向量,对待定用户行为事件进行用户行为事件分类,以确定待定用户行为事件的安全操作级别可以包括:基于有效行为特征向量,利用用户行为事件分类模型对待定用户行为事件进行用户行为事件分类,以确定待定用户行为事件的安全操作级别。用户行为事件分类模型例如可以利用机器学习中常用的分类算法来实现,例如K最近邻算法(K-Nearest Neighbor,KNN)、随机森林算法(Random Forest)、梯度提升算法(GradientBoosting)等等。
步骤S150,根据待定用户行为事件的安全操作级别,对待定用户行为事件进行行为分类处理或行为确定处理。一种示例性的设计思路中,对待定用户行为事件进行行为分类处理或行为确定处理可以包括:在待定用户行为事件的类别为第一安全级别或者第二安全级别的情况下,对该用户行为事件指向的接收页面进行行为分类处理;以及在待定用户行为事件的类别为第三安全级别的情况下,根据预定规则对该用户行为事件进行行为确定处理,并根据扫描结果生成对该用户行为事件进行再确认发起的指示。
步骤S160,基于处理的结果确定并输出待定用户行为事件的评估结果。一种示例性的设计思路中,用户行为事件的评估结果可以包括失效用户行为事件、异常用户行为事件、非法用户行为事件、普通用户行为事件、安全用户行为事件等等。
下面提供一种具体描述生成待检测的用户行为事件的特征向量的过程。
如上所述,在步骤S120中,对待定用户行为事件进行特征向量提取,以生成待定用户行为事件的特征向量。
根据本申请实施例的一个示例,可以通过获取待检测的用户行为事件的多个特征,并基于所获得的特征来生成特征向量。例如,对待定用户行为事件进行特征向量提取,以生成待定用户行为事件的特征向量可以包括:提取待定用户行为事件的用户行为事件名称特征、操作设备特征、行为属性特征和行为操作特征中的至少一部分特征,作为待检测的用户行为事件的特征数据;以及利用待检测的用户行为事件的特征数据,生成特征向量。用户行为事件名称特征例如可以是与用户行为事件包含的字符相关联的特征,例如,用户行为事件字符瑞丽熵、用户行为事件长度、用户行为事件级别、用户行为事件数字数量、特征字符数量、字符类型变换次数、最长非顶级用户行为事件、数字细分用户行为事件数量等等,或者诸如邮箱前缀等与用户行为事件相关的字符特征。操作设备特征例如可以是与包含、访问或传播(例如,下载)用户行为事件的样本相关联的特征,其中,样本例如是软件、客户端等。行为属性特征例如可以是用户行为事件的统一资源定位符(URL)、互联网协议地址(IP地址)、规范名字(CNAME)或者用户行为事件的注册信息,例如注册国别、用户行为事件隐私信息(whois信息)、备案信息、注册邮箱关联、注册者关联、注册电话关联等等。行为操作特征例如可以是固定时间内用户行为事件被调用的次数的最大值、最小值、方差等等。用户行为事件的特征数据例如可以包括用户行为事件名称特征、操作设备特征、行为属性特征和行为操作特征中的一部分特征或全部特征。在获取用户行为事件的特征数据之后,根据特征数据生成特征向量,例如,可以通过对特征数据进行数值化来生成特征向量。
根据本申请实施例的另一示例,可以通过对预设的预设行为数据库进行查询来获得用户行为事件的特征向量。例如,对待定用户行为事件进行特征向量提取,以生成待检测的用户行为事件的特征向量可以包括:利用预设行为数据库对用户行为事件进行分析,以生成用户行为事件的特征向量。预设行为数据库是基于图形理论存储实体之间的关系信息的数据库,这里,例如,预设行为数据库可以存储用户行为事件与其特征向量之间的对应关系。例如,在存储用户行为事件与其特征向量之间的对应关系的预设行为数据库存在完善的查询机制的情况下,将待检测的用户行为事件输入预设行为数据库,即可实时输出用户行为事件的特征向量,这一过程例如可以称为用户行为事件实时向量化。在安全分析和运维中,常常需要对遇到的用户行为事件进行实时地检测分析,利用预设行为数据库能够实时地获取用户行为事件的特征向量,大大提高用户行为事件检测的速度。
此外,在一些情况下,用户行为事件的特征向量中可能缺乏用户行为事件检测所需的必要信息,例如,如果某个用户行为事件在预定区域内未被调用、被解析且被切换,则其特征向量可能缺乏诸如行为操作特征等的必要信息。在此情况下,步骤S130可以进一步包括以下实施方式。
可以判断待定用户行为事件的特征向量是否合格,并且在特征向量不合格的情况下,确定该特征向量为有效行为特征向量,并在输出该有效行为特征向量;在特征向量合格的情况下,则去除该特征向量,即,不再对该特征向量进行进一步的操作。例如,可以通过以下规则来判定特征向量是否合格:
Not Sparse if sample_use > 0 & resolved > 0 & user_use >0 T
其中,sample_use表示在时间T内用户行为事件被样本访问的次数,resolved表示在时间T内用户行为事件被解析的次数,user_use表示在时间T内用户行为事件被浏览的次数,Not Sparse表示不合格。也即,上述规则表示:当用户行为事件在时间T内被样本访问的次数大于0,被解析的次数大于0,并且被浏览的次数大于0时,则判定该用户行为事件的特征向量不合格;否则,则判定该用户行为事件的特征向量合格,其中,合格指示该用户行为事件在预定区域内未被调用、被解析且被切换,即,该用户行为事件的特征向量中缺乏对其进行用户行为事件检测所需的必要信息。
为了使上面描述的基于人工智能的用户行为大数据挖掘方法的过程更加清晰,下面参进一步描述根据本申请实施例的基于人工智能的用户行为大数据挖掘方法的示例过程。首先在步骤S110中,获取待定用户行为事件。在步骤S120中,对待定用户行为事件进行特征向量提取,以生成待定用户行为事件的特征向量。在步骤S130中,对待定用户行为事件的特征向量进行行为有效性判定,以获得待定用户行为事件的有效行为特征向量。然后,在步骤S140中基于待定用户行为事件的有效行为特征向量,对待定用户行为事件进行用户行为事件分类,以确定待定用户行为事件的安全操作级别待定用户行为事件待定用户行为事件。如果确定待定用户行为事件的类别为第一安全级别,则在步骤S150中,对该用户行为事件指向的接收页面进行行为分类处理,并根据行为分类处理的结果,在步骤S160中确定该用户行为事件为失效用户行为事件、异常用户行为事件或者非法用户行为事件;如果确定待定用户行为事件的类别为第二安全级别,则在步骤S150中,对该用户行为事件进行行为分类处理,并根据行为分类处理的结果,在步骤S160中确定该用户行为事件为失效用户行为事件、普通用户行为事件或者安全用户行为事件;如果确定待定用户行为事件的类别为第三安全级别,则在步骤S150中,根据预定规则对该用户行为事件进行行为确定处理,并根据扫描结果确定对该用户行为事件进行进一步再确认发起还是停止检测,并且在进一步再确认发起的情况下,在步骤S160中确定该用户行为事件为失效用户行为事件、非法用户行为事件或者安全用户行为事件。
例如,一种示例性的设计思路中,在待定用户行为事件的安全操作级别为第一安全级别或者第二安全级别的情况下,对待定用户行为事件指向的接收页面进行行为分类处理可以包括:在接收页面中包括的指定参数的数量满足预定数量阈值时,确定该接收页面为正常接收页面;在接收页面中包括的指定参数的数量不满足预定数量阈值时,确定该接收页面为非正常接收页面;以及在接收页面失效时,确定该接收页面为失效接收页面。通常,接收页面可以包括文字、图片、动画、声音、视频、表格、接收页面标签等信息,接收页面中的文字例如又可以包括词汇数、段落数、行数等信息,通过这些信息可以判断接收页面是否正常。例如,对于某个待检测的用户行为事件所指向的接收页面,可以通过接收页面中包括的标签的数量是否满足预定数量阈值来判断该接收页面是否正常,即指定参数为标签,当标签的数量满足预定数量阈值时,确定该接收页面是正常接收页面;当标签的数量不满足预定数量阈值时,确定该接收页面是非正常接收页面。这里,预定数量阈值可以根据所选择的接收页面中的指定参数的不同种类而有所不同。行为分类处理例如可以通过对接收页面源代码进行建模的接收页面分类器组件来实现。
作为一种示例场景,在步骤S140中确定待定用户行为事件的安全操作级别为第一安全级别时,则相应地在步骤S150中对待定用户行为事件指向的接收页面进行行为分类处理,此时,基于在步骤S150进行的行为分类处理的结果确定待定用户行为事件的评估结果可以包括:在接收页面为正常接收页面的情况下,确定该用户行为事件为异常用户行为事件;在接收页面为非正常接收页面的情况下,确定该用户行为事件为非法用户行为事件;以及在接收页面为失效接收页面的情况下,确定该用户行为事件为失效用户行为事件。
例如,可能存在多种原因,使得正常接收页面的用户行为事件被分类为第一安全级别。即使如此,根据本申请实施例的基于人工智能的用户行为大数据挖掘方法仍可以在最后的评估结果中识别出这种情形。例如,如果某个待检测的用户行为事件所指向的接收页面本身是正常接收页面,但由于中毒、受到黑客攻击、被劫持等而导致用户行为事件异常,使其安全风险较高,则在利用本实施例对待定用户行为事件进行检测时,该用户行为事件在步骤S140中会被分类为第一安全级别,随后,在步骤S150中该用户行为事件指向的接收页面会被确定为正常接收页面,最终,在步骤S160中正确检测出该用户行为事件为异常用户行为事件,表明该用户行为事件所指向的接收页面本身是正常接收页面,但是由于某种原因而异常。
对于非法用户行为事件,根据本申请实施例的基于人工智能的用户行为大数据挖掘方法可以将其首先分类为第一安全级别,然后在最后的评估结果中正确识别出该非法用户行为事件。例如,如果某个待检测的用户行为事件为非法用户行为事件,例如高频发送垃圾邮件的非法用户行为事件,其安全风险极高,则在利用本实施例对待定用户行为事件进行检测时,该用户行为事件在步骤S140中会被分类为第一安全级别,随后,在步骤S150中该用户行为事件指向的接收页面被确定为非正常接收页面,最终,在步骤S160中正确检测出该用户行为事件为非法用户行为事件。
异常用户行为事件和非法用户行为事件例如可以作为有效的威胁情报来提供,以用于网络安全分析和运维,或者可以作为警示信息提供给用户,以便用户对其采取相应的处理措施。
此外,用户行为事件时效是有期限的,当用户行为事件到期后由于没有续费或者其它原因,用户行为事件会失效并且其指向的接收页面将变得无法访问。对于某个在失效前具有安全风险的用户行为事件,在利用本实施例进行检测时,待定用户行为事件在步骤S140中会被分类为第一安全级别,但由于其所指向的接收页面已经无法访问,即,不会再对网络安全构成威胁,最终在步骤S160中确定其为失效用户行为事件。虽然失效用户行为事件不作为有效的威胁情报来提供,但也可以作为评估结果信息提供给用户。
作为另一种示例场景,在步骤S140中确定待检测的用户行为事件的类别为第二安全级别时,则相应地在步骤S150中对待定用户行为事件指向的接收页面进行行为分类处理,此时,基于处理的结果确定用户行为事件的评估结果可以包括:在接收页面为正常接收页面并且该用户行为事件的可靠度满足预定条件的情况下,确定该用户行为事件为安全用户行为事件,并将该用户行为事件加入用户行为事件安全集合;在接收页面为失效接收页面的情况下,确定该用户行为事件为失效用户行为事件。例如,用户行为事件的可靠度可以指用户行为事件被调用的频率,或者说用户行为事件在单位时间内被调用的次数。用户行为事件的可靠度满足预定条件例如可以是指用户行为事件在单位时间内被调用的次数大于一定数值。
在该场景下,根据本申请实施例的基于人工智能的用户行为大数据挖掘方法可以识别出安全用户行为事件,并建立用户行为事件安全集合。例如,对于某个被划分为第二安全级别类别的待定用户行为事件,如果其指向的接收页面为正常接收页面,并且其可靠度满足预定条件,则表明其安全风险非常低,因而可以确定该用户行为事件为安全用户行为事件,并可以将其加入用户行为事件安全集合。用户行为事件安全集合也可以作为有价值的威胁情报来提供,以用于网络安全分析和运维。
另外,根据本申请实施例的基于人工智能的用户行为大数据挖掘方法也可以识别出普通用户行为事件。例如,如果某个待定用户行为事件被划分为第二安全级别类别,并且其指向的接收页面为正常接收页面,但其可靠度不满足预定条件,这种情况下,虽然该用户行为事件的安全风险较低,但由于该用户行为事件被调用的次数较少,尚不能确定其是否是安全用户行为事件,因而不能将其加入用户行为事件安全集合,可暂时将其确定为普通用户行为事件。
另外,如果某个待定用户行为事件被划分为第二安全级别类别,但其指向的接收页面为非正常接收页面,这种互相矛盾的结果表明用户行为事件检测可能发生了错误,此时可以输出指示用户行为事件检测可能发生错误的警示信息。同样,对于被分类为第二安全级别的失效用户行为事件,由于其接收页面已经无法访问,虽然不会作为有效的威胁情报来提供,但也可以作为评估结果信息提供给用户。
此外,虽然上面公开了通过接收页面分类将用户行为事件指向的接收页面分为正常接收页面、非正常接收页面和失效接收页面,并基于此确定用户行为事件的评估结果,但本申请不限于此,例如,对于非法用户行为事件,还可以通过接收页面分类将用户行为事件指向的接收页面分为色情接收页面、赌博接收页面、矿池接收页面等,以丰富威胁情报,这可以通过对接收页面分类知识库进行挖掘构建等来实现,例如,对用户行为事件始发站点的挖掘。
作为又一种示例场景,如果在步骤S140中待检测的用户行为事件被分类为第三安全级别,则在步骤S150中,根据预定规则对用户行为事件进行行为确定处理,并根据扫描结果生成对用户行为事件进行再确认发起的指示。预定规则例如可以是安全专家定义的专家规则。例如,在通过计算待定用户行为事件属于第一安全级别、第二安全级别和第三安全级别的概率来确定待定用户行为事件的类别的情况下,预定规则例如可以是:判断被分类为第三安全级别的待定用户行为事件属于第一安全级别的概率是否大于属于第二安全级别的概率,如果判定结果为是,则生成对该用户行为事件进行再确认发起的指示,例如对该用户行为事件进行人工鉴定的指示,以进一步判断该用户行为事件是非法用户行为事件、安全用户行为事件还是失效用户行为事件;如果判定结果为否,则可以停止对该用户行为事件的检测。例如,假定某个待检测的用户行为事件属于第一安全级别、第二安全级别和第三安全级别的概率分别为0.35,0.25和0.4,则由于属于第三安全级别的概率(0.4)最高,该用户行为事件被分类为第三安全级别,然后,通过上述预定规则对该用户行为事件进行扫描,由于该用户行为事件属于第一安全级别的概率(0.35)大于属于第二安全级别的概率(0.25),则生成对该用户行为事件进行再确认发起的指示,例如对该用户行为事件进行人工鉴定的指示,以进一步判断该用户行为事件是非法用户行为事件、安全用户行为事件或失效用户行为事件。
下面描述根据本申请一个示例性实施例的在步骤S140中使用的用户行为事件分类模型的训练方法,也即本申请实施例提供一种基于人工智能的行为事件分类模型训练方法,包括以下步骤。
在步骤S410中,获取包括不同安全操作级别的训练用户行为事件的训练用户行为事件集,其中每个训练用户行为事件的训练数据包括该训练用户行为事件的特征数据和该训练用户行为事件的安全操作级别。例如,训练用户行为事件的安全操作级别可以包括第一安全级别、第二安全级别和第三安全级别。如前所述,例如,第一安全级别为安全风险较高的用户行为事件,第二安全级别为安全风险较低的用户行为事件,而第三安全级别则为安全风险处于第一安全级别和第二安全级别之间的用户行为事件。例如,可以从可疑用户行为事件集获取可疑用户行为事件,将通过对可疑用户行为事件进行鉴定确定的第一安全级别类别的非法用户行为事件的训练用户行为事件,并且将通过对可疑用户行为事件进行鉴定确定的第三安全级别类别的非法用户行为事件的训练用户行为事件。其中,可疑用户行为事件集例如可以从开源情报获得,例如知名安全站点、安全博客所公开的威胁情报。在获得可疑用户行为事件集之后,例如可以通过安全专家进行人工鉴定来确定可疑用户行为事件集中的用户行为事件是否为非法用户行为事件,并将其中的第一安全级别类别的非法用户行为事件的训练用户行为事件,将其中的第三安全级别类别的非法用户行为事件的训练用户行为事件。另外,可以获取高可靠度用户行为事件,作为第二安全级别类别的训练用户行为事件,如前所述,高可靠度用户行为事件是指被调用的频率满足预定条件的用户行为事件。另外,还可以对高可靠度的用户行为事件进行去噪之后作为第二安全级别类别的训练用户行为事件,以提高训练数据的可靠性。
另外,还可以从多个关联非法用户行为事件中随机抽样预定数量的用户行为事件作为第一安全级别类别的训练用户行为事件,即进行用户行为事件抽样。其中,多个关联非法用户行为事件是同一二级用户行为事件下的多个细分用户行为事件。例如,一些属于同一二级用户行为事件的多个细分用户行为事件往往从事一些类似的威胁活动,为了避免同类型用户行为事件数据的冗余导致的模型过拟合,可以从这些属于同一二级用户行为事件的多个细分用户行为事件中随机抽取预定数量的用户行为事件作为第一安全级别类别的训练用户行为事件。
在步骤S420中,针对训练用户行为事件集中的每个训练用户行为事件,基于该训练用户行为事件对应的特征数据,生成该训练用户行为事件的有效行为特征向量。例如,可以从大数据平台整合每个训练用户行为事件对应的特征数据,这些特征数据涉及的数据量是庞大的,甚至多达千亿级,因此,需要从中提取用户行为事件检测所需的有效的特征数据。例如,可以通过特征分析与特征工程对每个训练用户行为事件的特征数据进行分析、迭代和数值化,以获取其特征向量。在机器学习领域中,特征工程是指对目标知识的特点、特性、模式进行统计、变换、映射等,以将原始数据转变为模型的训练数据的过程,其目的是为了获取更好的训练数据,以使模型的性能更好。经过对特征数据进行分析与迭代之后,用于训练的特征数据可以包括四种类型:用户行为事件名称特征、操作设备特征、行为属性特征和行为操作特征。其中,样本例如是软件、客户端等。在获得训练数据集中的每个训练用户行为事件的四类特征数据之后,可以通过对每个训练用户行为事件的特征数据进行诸如数值化等的操作来生成该训练用户行为事件的特征向量。
然后,例如可以利用上述规则对特征向量进行特征系数检测,以确定特征向量是否合格;以及在确定特征向量不合格的情况下,确定该特征向量为有效行为特征向量;在特征向量合格的情况下,去除该特征向量。
接下来,在步骤S430中,利用训练用户行为事件集中的每个训练用户行为事件的有效行为特征向量和安全操作级别,对用户行为事件分类模型进行训练。可以利用训练用户行为事件集中的每个训练用户行为事件的已知类别来对用户行为事件分类模型有监督训练,例如,对于每个训练用户行为事件,可以通过使用户行为事件分类模型的分类结果与训练用户行为事件的已知类别之间的损失函数最小来对用户行为事件分类模型进行有监督训练。
下面进一步描述本申请一个示例性实施例提供的用户行为事件分类模型的训练方法的示例过程500。
在步骤S510中,进行用户行为事件收集和用户行为事件抽样,以获取训练用户行为事件集。例如,可以从开源情报和公知的高可靠度用户行为事件收集具有不同类别的训练用户行为事件集。用户行为事件抽样例如是指从多个关联非法用户行为事件中随机抽样预定数量的用户行为事件作为第一安全级别类别的训练用户行为事件,其中,多个关联非法用户行为事件是同一二级用户行为事件下的多个细分用户行为事件。例如,如前所述,为了避免同类型用户行为事件数据的冗余导致的模型过拟合,可以从属于同一二级用户行为事件的多个细分用户行为事件中随机抽取预定数量的用户行为事件作为第一安全级别类别的训练用户行为事件。
在步骤S520中,进行特征数据整合,以获取训练用户行为事件集中的每个训练用户行为事件的特征数据。训练用户行为事件集中的每个训练用户行为事件均涉及诸如用户行为事件长度、用户行为事件字符瑞丽熵、用户行为事件数字数量等等很多特征数据,这些数据例如可以利用诸如海杜普(Hadoop)等的大数据平台进行整理收集,即,进行特征数据整合,以得到训练用户行为事件集中的每个训练用户行为事件的特征数据。
在步骤S530中,对每个训练用户行为事件的特征数据进行特征分析与特征工程,以生成该训练用户行为事件的特征向量。如前所述,在机器学习领域中,特征工程是指对目标知识的特点、特性、模式进行统计、变换、映射等,以将原始数据转变为模型的训练数据的过程,其目的是为了获取更好的训练数据,以使模型的性能更好。经过对特征数据进行分析与迭代之后,用于训练的特征数据可以包括四种类型:用户行为事件名称特征、操作设备特征、行为属性特征和行为操作特征。然后,可以通过对每个训练用户行为事件的特征数据进行诸如数值化等的操作来生成该训练用户行为事件的特征向量,并通过行为有效性判定获得有效行为特征向量。
在步骤S540中,对用户行为事件分类模型进行机器学习训练与用户行为事件分类测试。在该示例中,例如可以使用KNN算法、随机森林算法和梯度提升算法进行硬投票(HardVoting)的建模策略来实现用户行为事件分类模型,也即,这三种算法均对训练用户行为事件集中的每个训练用户行为事件进行分类,并分别给出该训练用户行为事件为第一安全级别、第二安全级别或者第三安全级别的投票结果,得票数高的类别即为该训练用户行为事件的类别。例如,对于某个训练用户行为事件,如果KNN算法、随机森林算法给出的投票结果为第一安全级别,而梯度提升算法给出的投票结果为第二安全级别,则确定该训练用户行为事件的类别为第一安全级别;此外,在KNN算法、随机森林算法和梯度提升算法对于某个训练用户行为事件分别给出第一安全级别、第二安全级别和第三安全级别的投票结果的情况下,则确定该训练用户行为事件的类别为第三安全级别。然后,利用训练用户行为事件集中的每个训练用户行为事件的有效行为特征向量和安全操作级别,对基于硬投票策略的用户行为事件分类模型进行有监督训练。
在该示例中,对训练完成的用户行为事件分类模型进行用户行为事件分类测试,得到的测试结果中精确率、召回率和综合评价指标F1。以第一安全级别类别为例,假定用户行为事件分类模型将第一安全级别类别的训练用户行为事件分类为第一安全级别的数量为TB,将第三安全级别类别和第二安全级别类别的训练用户行为事件分类为第一安全级别的数量为FB,将第一安全级别类别的训练用户行为事件分类为第三安全级别或第二安全级别的数量为FN,则对于第一安全级别,其精确率P可以表示为P=TB/(TB+FB),表示被预测为第一安全级别类别的训练用户行为事件中真正属于第一安全级别的比例;召回率R可以表示为R=TB/(TB+FN),表示第一安全级别类别的训练用户行为事件被分类为第一安全级别的比例;综合评价指标F1可以表示为F1=2*P*R/(P+R),其综合了精确率和召回率的结果,当某类别的F1较高时表示用户行为事件分类模型对于该类别的效果较好。另外,所有被正确分类的训练用户行为事件的数量占训练用户行为事件总数的比例称为正确率,例如,在测试结果中,正确率为0.92933。在该示例中,用户行为事件分类模型对于第一安全级别和第二安全级别类别的效果较好,对于第三安全级别类别的效果稍次,因此,在利用该用户行为事件分类模型进行用户行为事件检测时,可以基于该特点,针对性地对不同的分类结果采取相对应的处理,如上文中在步骤S130和S140中所描述的,以使用户行为事件检测的结果最优化。
最后,在步骤S550中输出训练后的用户行为事件分类模型。训练后的用户行为事件分类模型可以用于根据本申请上述实施例的基于人工智能的用户行为大数据挖掘方法,对输入的待定用户行为事件进行分类,使得能够基于用户行为事件分类的结果对用户行为事件进行进一步的检测,以得到用户行为事件为非法用户行为事件、安全用户行为事件、异常用户行为事件等等的用户行为事件评估结果。
此外,根据本申请实施例的基于人工智能的用户行为大数据挖掘方法还可以包括反馈优化的步骤。本申请一个示例性实施例提供的具有反馈优化步骤的基于人工智能的用户行为大数据挖掘方法。基于人工智能的用户行为大数据挖掘方法600可以包括获取待定用户行为事件步骤S610,生成待定用户行为事件的特征向量的步骤S620、对特征向量进行行为有效性判定的步骤S630、对待检测的用户行为事件进行分类的步骤S640、对待检测的用户行为事件进行对应处理的步骤S650、以及确定并输出用户行为事件评估结果的步骤S660,由于步骤S610至S660与上文结合图1描述的步骤S110至S160的细节相同,因此为了简单起见,这里省略对相同内容的重复描述。
基于人工智能的用户行为大数据挖掘方法600还可以包括步骤S670,在步骤S670中,进行反馈优化,其中,反馈优化可以针对基于人工智能的用户行为大数据挖掘方法的整个过程进行,包括对步骤S620至步骤S670等基于人工智能的用户行为大数据挖掘方法的各个步骤的反馈优化。
一种示例性的设计思路中,可以通过数据调整来对基于人工智能的用户行为大数据挖掘方法的各个步骤进行反馈优化,数据调整例如是指增/减生成用户行为事件特征向量的各类特征数据中的特征,并基于这种增/减对用户行为事件评估结果的影响来进一步调整各类特征数据中的特征。例如,如果在生成用户行为事件特征向量的特征数据中增加某个特征时,用户行为事件评估结果变得更准确,则可以将该影响反馈到基于人工智能的用户行为大数据挖掘方法的各个步骤中。在此后的用户行为事件检测中,可以利用增加了该特征的特征数据来生成特征向量;还可以利用增加了该特征的训练数据来对用户行为事件训练模型进行进一步的训练;并且,可以基于进一步训练的用户行为事件分类模型的分类结果来进行用户行为事件检测,以使用户行为事件检测的结果最优。此外,还可以通过诸如误报分析、统计分析、专家经验等对基于人工智能的用户行为大数据挖掘方法的各个过程进行反馈优化。
以上描述了根据本申请实施例的基于人工智能的用户行为大数据挖掘方法,通过生成待检测的用户行为事件的特征向量,基于特征向量对待检测的用户行为事件进行分类以确定用户行为事件的类别,对待检测的用户行为事件进行与其类别相对应的处理,并基于处理的结果确定用户行为事件的评估结果,能够对用户行为事件进行高效、精确的检测。此外,利用基于机器学习的基于人工智能的用户行为大数据挖掘方法,能够实现对海量的用户行为事件数据进行实时、高效、自动的检测,相比于高度依赖于人工鉴定的传统方法,大大提高了检测效率。例如,对于包括海量用户行为事件的待定用户行为事件集,利用基于机器学习的基于人工智能的用户行为大数据挖掘方法对其进行检测,能够快速筛选出其中的非法用户行为事件、异常用户行为事件、安全用户行为事件、失效用户行为事件等等,为威胁情报的生成提供了自动化的途径,降低了网络安全分析的运营成本。
除了上述方案,实施例中,本申请实施例提供提供了一种基于人工智能的异常行为验证请求检测方法,异常行为验证请求检测方法包括以下步骤:
步骤S202,获取行为验证请求。
其中,验证请求是指使用一种特定的描述性语言,依据一定的格式编写的可执行文件。行为验证请求是指待检测是否为异常行为验证请求的验证请求。
例如,终端和服务器上存储有大量的验证请求,其中可能存在异常行为验证请求、恶意验证请求,异常行为验证请求和恶意验证请求容易引起终端和服务器上数据被破坏、更改和被破解等安全问题。因此,大数据挖掘系统可以对验证请求进行异常检测,从大量的验证请求中识别出异常行为验证请求,以防御黑客攻击。
一种可基于独立构思的实施例中,大数据挖掘系统可以自动触发获取行为验证请求,对行为验证请求进行异常检测。例如,大数据挖掘系统可以每隔预设时长自动触发对本地验证请求的异常检测。或者,大数据挖掘系统每获取到新的验证请求时,自动触发对该验证请求的异常检测。
步骤S204,对行为验证请求进行第一解析操作,得到行为验证请求对应的第一解析结果。
其中,解析操作是指在不运行验证请求的前提下,通过分析验证请求中程序代码的组成部分,来寻找代码中潜在的安全问题。第一解析操作是指针对行为验证请求的首次解析操作。
例如,由于解析操作的检测速度快且适用于所有格式的验证请求,所以大数据挖掘系统在获取到行为验证请求后,可以优先对行为验证请求进行第一解析操作 ,对行为验证请求的源码进行静态分析,判断行为验证请求中是否存在异常源码,从而得到行为验证请求对应的第一解析结果。
一种可基于独立构思的实施例中,可以通过特征匹配的方式进行静态检测。具体可以是从行为验证请求中提取特征信息,将提取到的特征信息和异常特征集合中的特征信息进行匹配,一旦匹配成功,则表明行为验证请求有异常。其中,在进行特征匹配时,可以直接将行为验证请求对应的特征信息和异常特征集合中的特征信息匹配,也可以对行为验证请求对应的特征信息进行统计,将统计结果和异常特征集合中的特征信息匹配。例如,从行为验证请求中提取字符序列,可以将提取到的字符序列和异常特征集合中的异常行为验证请求字符序列进行匹配,也可以对提取到的字符序列进行信息瑞丽熵计算,将计算结果和异常特征集合中的异常行为验证请求信息瑞丽熵进行匹配。
一种可基于独立构思的实施例中,可以通过机器学习模型进行静态检测。可以是将已知无异常的验证请求作为正验证请求和已知有异常的验证请求作为负验证请求,将正验证请求和负验证请求作为训练验证请求,将训练验证请求输入待训练的验证请求检测模型,将训练验证请求对应的标签作为验证请求检测模型的预期输出,对验证请求检测模型进行有监督训练,得到已训练的验证请求检测模型。大数据挖掘系统可以将行为验证请求输入已训练的验证请求检测模型,验证请求检测模型输出行为验证请求对应的第一解析结果。可以理解,可以针对不同的编程语言训练不同的验证请求检测模型,提高不同编程语言对应的验证请求的检测准确性。
步骤S206,根据行为验证请求对应的第一解析结果对行为验证请求进行第一行为模拟处理,得到行为验证请求对应的第一行为模拟结果。
其中,行为模拟处理是指在不运行验证请求的前提下,通过词控制流、数据流分析等技术对验证请求中的程序代码进行扫描和分析,来寻找验证请求中的被破解路径。第一行为模拟处理是指针对行为验证请求的首次行为模拟处理。
例如,在得到第一解析结果后,大数据挖掘系统可以根据行为验证请求对应的第一解析结果对行为验证请求进行第一行为模拟处理,得到行为验证请求对应的第一行为模拟结果。大数据挖掘系统可以是当第一解析结果为验证请求无异常时,才对行为验证请求进行第一行为模拟处理,得到行为验证请求对应的第一行为模拟结果。当第一解析结果为行为异常结果时,大数据挖掘系统可以迅速确定行为验证请求为异常行为验证请求,不再执行后续操作。大数据挖掘系统也可以是当第一解析结果为行为异常结果时,继续对行为验证请求进行第一行为模拟处理,得到行为验证请求对应的第一行为模拟结果。可以理解,第一解析操作和第一行为模拟处理是不同的检测处理,可以检测出验证请求中不同的异常问题,因此,在已知行为验证请求为异常行为验证请求时,继续对行为验证请求进行后续检测处理可以最大限度地查找出行为验证请求中所有异常信息,全方位挖掘行为验证请求的异常信息,进而有助于相关人员进行数据分析和加强防护。
一种可基于独立构思的实施例中,在进行第一行为模拟处理时,大数据挖掘系统可以对行为验证请求的源码进行分析,生成行为验证请求对应的知识图谱,知识图谱上的每个节点都表示源码中的一种结构。大数据挖掘系统根据知识图谱上节点的属性和被侵占、被破解点的特性,可以从中确定被侵占节点和被破解节点,对节点与节点之间的操作关系进行分析,判断是否存在从被侵占到被破解点的被破解路径,当存在被破解路径并且被破解路径满足预设条件时,大数据挖掘系统可以确定第一行为模拟结果为行为验证请求有异常。
步骤S208,基于预设业务环境下执行经过第一行为模拟处理的行为验证请求,输出行为验证请求在预设业务环境执行后对应的请求模拟结果。
其中,预设业务环境是用于对行为验证请求进行动态分析,从而对经过加密、变形、混淆的验证请求进行解密还原。预设业务环境中集成了虚拟执行算法,通过虚拟执行算法可以对行为验证请求进行动态分析,检测验证请求中是否使用了字符序列拼接、字符序列替换、base64加密等加密混淆方法,从而识别出加密、变形、混淆型验证请求,并且,当行为验证请求为经过加密、变形、混淆的验证请求时,还可以对行为验证请求进行解密,输出解密后的行为验证请求,还原出最原始的验证请求。请求模拟结果为解密后的行为验证请求。
例如,若验证请求是加密、变形、混淆型异常行为验证请求时,能被外界控制的变量和被破解函数会隐藏在加壳代码中,通过第一解析操作和第一行为模拟处理是无法轻易识别出加密、变形、混淆型异常行为验证请求。因此,当第一解析操作和第一行为模拟处理均未检测出异常时,大数据挖掘系统可以进一步在预设业务环境下执行行为验证请求,来判断行为验证请求是否经过加密、变形、混淆,并对加密过的行为验证请求进行解密还原,得到行为验证请求对应的请求模拟结果。大数据挖掘系统再对请求模拟结果进行第二解析操作和第二行为模拟处理,从而最终判断行为验证请求是否为异常行为验证请求。当然,当基于第一解析操作和第一行为模拟处理检测出行为验证请求有异常时,大数据挖掘系统也可以在预设业务环境下执行行为验证请求,得到行为验证请求对应的请求模拟结果,再进一步对请求模拟结果进行第二解析操作和第二行为模拟处理,查找出行为验证请求中更多的异常信息。
步骤S210,对请求模拟结果分别进行第二解析操作以及第二行为模拟处理,得到请求模拟结果对应的第二解析结果以及第二行为模拟结果。
其中,第二解析操作是指针对行为验证请求的二次解析操作,具体是对行为验证请求对应的请求模拟结果的解析操作。第二行为模拟处理是指针对行为验证请求的二次行为模拟处理,具体是对行为验证请求对应的请求模拟结果的行为模拟处理。
例如,在得到请求模拟结果后,大数据挖掘系统可以对请求模拟结果进行第二解析操作得到请求模拟结果对应的第二解析结果,对请求模拟结果进行第二行为模拟处理得到第二行为模拟结果。可以理解,若行为验证请求经过加密、变形、混淆,直接对行为验证请求进行解析操作和行为模拟处理是无法轻易识别出被隐藏起来的异常特征信息和被破解路径。因此,在得到行为验证请求对应的请求模拟结果后,大数据挖掘系统可以进一步对行为验证请求对应的请求模拟结果进行第二解析操作以及第二行为模拟处理,基于请求模拟结果对应的第二解析结果以及第二行为模拟结果最终确定行为验证请求是否为异常行为验证请求。
步骤S212,当行为验证请求对应的第一解析结果、第一行为模拟结果、请求模拟结果对应的第二解析结果和第二行为模拟结果中至少一个检测结果为行为异常结果时,确定行为验证请求为异常行为验证请求。
例如,当行为验证请求对应的第一解析结果、第一行为模拟结果、请求模拟结果对应的第二解析结果和第二行为模拟结果中至少一个检测结果为行为异常结果时,大数据挖掘系统可以确定行为验证请求为异常行为验证请求。若行为验证请求有异常,大数据挖掘系统可以及时生成警告信息来提醒相关人员该验证请求存在异常,及时进行防护。
一种可基于独立构思的实施例中,大数据挖掘系统可以按照第一解析操作、第一行为模拟处理、执行验证请求、第二解析操作、第二行为模拟处理的顺序对行为验证请求进行异常检测。一旦首次出现检测结果为行为异常结果时,大数据挖掘系统可以停止后续处理,直接确定行为验证请求为异常行为验证请求,从而节约计算机资源。并且,第一解析操作和第一行为模拟处理都是对源码进行静态分析,而在预设业务环境下执行验证请求是对验证请求的源码进行动态分析,动态分析的资源消耗会大于静态分析。因此,优先对行为验证请求进行第一解析操作、第一行为模拟处理,当第一解析结果和第一行为模拟结果为验证请求无异常时,再基于虚拟执行算法执行行为验证请求并进行第二解析操作、第二行为模拟处理,这样不仅可以减少计算机资源消耗,还可以提高异常行为验证请求的检测效率。
一种可基于独立构思的实施例中,大数据挖掘系统可以按照第一解析操作、第一行为模拟处理、执行验证请求、第二解析操作、第二行为模拟处理的顺序对行为验证请求进行全套的异常检测。由于解析操作和行为模拟处理是不同的检测处理,可以检测出验证请求中不同的异常问题,第一解析操作和第一行为模拟处理是针对行为验证请求,第二解析操作和第二行为模拟处理是针对行为验证请求对应的请求模拟结果,因此进行全套的异常检测可以全方位检测出行为验证请求中多种异常信息,例如,不仅检测出加密验证请求中的异常特征信息和异常被破解路径,还检测出请求模拟结果中的异常特征信息和异常被破解路径。大数据挖掘系统可以将行为验证请求对应的所有异常信息发送至相关人员对应的终端或在本地展示行为验证请求对应的所有异常信息,异常信息可以辅助开发人员进行数据防护,抵御黑客攻击。大数据挖掘系统也可以根据行为验证请求对应的异常信息的数量生成行为验证请求对应的异常等级,基于行为验证请求的异常等级对行为验证请求进行展示。例如,当行为验证请求对应的异常等级越高,行为验证请求的展示位置越靠前,并同时展示行为验证请求对应的异常等级。可以理解,行为验证请求对应的异常信息的数量越多,行为验证请求对应的异常等级越高。
上述异常行为验证请求检测方法中,通过获取行为验证请求,对行为验证请求进行第一解析操作,得到行为验证请求对应的第一解析结果,根据行为验证请求对应的第一解析结果对行为验证请求进行第一行为模拟处理,得到行为验证请求对应的第一行为模拟结果,基于预设业务环境下执行经过第一行为模拟处理的行为验证请求,输出行为验证请求在预设业务环境执行后对应的请求模拟结果,对请求模拟结果分别进行第二解析操作以及第二行为模拟处理,得到请求模拟结果对应的第二解析结果以及第二行为模拟结果,当行为验证请求对应的第一解析结果、第一行为模拟结果、请求模拟结果对应的第二解析结果和第二行为模拟结果中至少一个检测结果为行为异常结果时,确定行为验证请求为异常行为验证请求。这样,先对行为验证请求进行资源消耗较少的第一解析操作和第一行为模拟处理,可以快速得到初步检测结果,基于初步检测结果可以快速直观确定行为验证请求是否为异常行为验证请求,再进一步基于预设业务环境下执行行为验证请求,对行为验证请求进行解密,得到请求模拟结果,最后再对请求模拟结果进行第二解析操作和第二行为模拟处理,得到目标检测结果,基于目标检测结果可以确定经过加密的行为验证请求是否为异常行为验证请求,通过静态检测、被侵占破解、验证请求执行的有序协作,可以扩大检测范围,从而提高异常行为验证请求的检测准确性。
一种可基于独立构思的实施例中,当前验证请求为行为验证请求或请求模拟结果,对当前验证请求进行第三解析操作,得到当前验证请求对应的第三解析操作解析结果,包括:
步骤S302,从当前验证请求中提取特征信息,得到至少一个待匹配特征信息。
例如,以当前验证请求为例说明解析操作过程,当前验证请求可以是行为验证请求,也可以是请求模拟结果,解析操作主要是针对验证请求在源码层级上的匹配检测。若当前验证请求为行为验证请求,则是对当前验证请求进行第一静态检测,得到当前验证请求对应的第一解析结果。若当前验证请求为请求模拟结果,则是对当前验证请求进行第二静态检测,得到当前验证请求对应的第二解析结果。大数据挖掘系统可以对当前验证请求进行特征提取,从当前验证请求中提取特征信息,基于提取到的特征信息得到至少一个待匹配特征信息。大数据挖掘系统可以将验证请求中的一行代码作为一个待匹配特征信息,也可以基于验证请求中的各个请求参数和时间戳生成一个待匹配特征信息。大数据挖掘系统也可以基于分割标识符对验证请求进行切分,将切分得到的验证请求片段作为待匹配特征信息。例如,在PHP代码中,可以将“=”和“;”作为分割标识符,其中,“=”用于赋值,例如“$y=$x”表示将变量x赋值给变量y,“;”通常作为一行代码的结束符。
举例说明,当前验证请求的源码如下所示:
<PHP
$x=$_GET[‘cmd’];
$y=$x;
evl($y);
>
大数据挖掘系统基于分割标识符对验证请求进行切分,可以得到“$x”、“$_GET[‘cmd’]”、“$y”、“eval($y)”这样的待匹配特征信息。其中,“$x”、“$_GET[‘cmd’]”、“$y”、“eval($y)”分别作为一个待匹配特征信息。其中, “< PHP >”是PHP编程语言编写的验证请求的固定格式,无需作为待匹配特征信息。
步骤S304,将各个待匹配特征信息和异常行为验证请求特征信息进行匹配;异常行为验证请求特征信息包括字符序列信息、规则字符序列信息和瑞丽熵信息中的至少一种。
其中,异常行为验证请求特征信息是指异常行为验证请求的特征信息。异常行为验证请求特征信息是对大量的异常行为验证请求进行数据分析得到的。字符序列信息是指异常行为验证请求对应的字符序列类型的特征信息,即用字符序列描述的特征信息。规则字符序列信息是指异常行为验证请求对应的规则字符序列类型的特征信息,即用正则表达式描述的特征信息。瑞丽熵信息是指异常行为验证请求对应的瑞丽熵值类型的特征信息,是基于异常行为验证请求的代码框架生成的瑞丽熵值信息。
例如,大数据挖掘系统上设置有异常特征集合,异常特征集合中存储有异常行为验证请求特征信息,异常行为验证请求特征信息包括字符序列、规则字符序列、瑞丽熵值等多种类型的异常特征信息,异常行为验证请求特征信息用于与当前验证请求进行相应的匹配查询来鉴定当前验证请求是否为异常行为验证请求。异常行为验证请求特征信息是对大量的异常行为验证请求进行数据分析得到的,可以表征异常行为验证请求的普遍性特征。在进行解析操作时,大数据挖掘系统可以将各个待匹配特征信息分别和异常行为验证请求特征信息进行匹配,一旦匹配成功,就可以确定当前验证请求有异常。
步骤S306,当至少一个待匹配特征信息匹配成功时,确定当前验证请求对应的第三解析操作解析结果为验证请求存在异常。
例如,当至少一个待匹配特征信息匹配成功时,大数据挖掘系统可以确定当前验证请求包括异常的数据,当前验证请求有异常。
举例说明,当前验证请求的源码如下所示:
< PHP
eval($_REQUEST[‘cmd’])
>
当异常特征集合中包括“eval($_REQUEST[‘cmd’])”这样的字符序列信息时,当前验证请求的第二行代码与该字符序列信息完全匹配,因此,大数据挖掘系统可以确定当前验证请求有异常,输出当前验证请求对应的第三解析操作解析结果。
一种可基于独立构思的实施例中,大数据挖掘系统可以针对不同的编程语言建立不同的异常行为验证请求特征信息,即为不同验证请求格式的验证请求建立对应的异常行为验证请求特征信息。因此,大数据挖掘系统在进行特征匹配时,可以先判断当前验证请求的验证请求格式,即当前验证请求中使用的目标编程语言,再获取该目标编程语言对应的目标异常行为验证请求特征信息,将当前验证请求对应的待匹配特征信息和目标异常行为验证请求特征信息进行匹配,从而快速确定第三解析操作解析结果。
本实施例中,通过将当前验证请求的各个待匹配特征信息和异常行为验证请求特征信息进行匹配能够快速得到第三解析操作解析结果,并且在匹配的时候,支持字符序列匹配、正则匹配等多种匹配规则,检测方式灵活高效。
一种可基于独立构思的实施例中,瑞丽熵信息的生成方法包括以下步骤:
譬如,获取多个异常行为验证请求;分别从各个异常行为验证请求中提取请求参数,得到各个异常行为验证请求对应的请求参数集合,请求参数集合包括多个请求参数和各个请求参数对应的时间戳;基于同一异常行为验证请求对应的请求参数集合生成对应的候选瑞丽熵信息,得到各个异常行为验证请求分别对应的候选瑞丽熵信息;基于各个候选瑞丽熵信息生成瑞丽熵信息。
其中,请求参数是指验证请求源码中的特殊符号,例如,数学符号、标点符号、单位符号。候选瑞丽熵信息是指基于一个异常行为验证请求对应的请求参数生成的瑞丽熵值。瑞丽熵信息是基于多个异常行为验证请求对应的瑞丽熵值得到,用于代表异常行为验证请求瑞丽熵值的普遍性、共性。
例如,同一黑客或同一黑客群体编写的验证请求通常具有特定的风格,例如采用相同或相似的代码框架。此外,代码通常是由数字、字母和特殊符号组成,其中,数字和字母可以根据实际需要进行灵活变换,而特殊符号则是代码框架的重要组成部分,相对来说是比较固定的。因此,大数据挖掘系统可以对大量异常行为验证请求的请求参数进行分析,提取出大量异常行为验证请求之间的共性信息,得到瑞丽熵信息。大数据挖掘系统具体可以获取多个已知异常的异常行为验证请求,分别从各个异常行为验证请求中提取请求参数,得到各个异常行为验证请求对应的请求参数集合。请求参数集合中不仅包括多个请求参数,还包括各个请求参数分别对应的时间戳,基于请求参数和对应的时间戳可以确定代码的整体框架。大数据挖掘系统可以对一个异常行为验证请求对应的请求参数集合进行信息瑞丽熵计算,生成该异常行为验证请求对应的候选瑞丽熵信息,从而各个异常行为验证请求可以得到各自对应的候选瑞丽熵信息。最后,大数据挖掘系统可以基于各个候选瑞丽熵信息生成瑞丽熵信息,例如,对各个候选瑞丽熵信息进行统计分析,可以将重复次数较多的若干个候选瑞丽熵信息作为瑞丽熵信息,也可以将每个候选瑞丽熵信息都作为瑞丽熵信息。也可以对各个候选瑞丽熵信息进行聚类分析,从而对各个候选瑞丽熵信息进行分组,得到至少一个中间瑞丽熵信息,一个中间瑞丽熵信息可以表征同一黑客或同一黑客群体对应的异常行为验证请求的候选瑞丽熵信息,将各个中间瑞丽熵信息分别作为瑞丽熵信息。聚类分析是用于对候选瑞丽熵信息进行分组,使得不同的中间瑞丽熵信息之间具有一定区分度。进一步的,大数据挖掘系统可以为不同的瑞丽熵信息分配不同的黑客标识,从而若当前验证请求对应的当前瑞丽熵信息和某一瑞丽熵信息匹配成功,则第三解析操作解析结果还可以包括该瑞丽熵信息对应的黑客标识。其中,聚类分析可以采用基于密度的聚类算法(例如DBSCAN聚类算法)、基于划分的聚类方法(例如k-means聚类算法)。
本实施例中,基于异常行为验证请求对应的请求参数集合生成异常行为验证请求对应的候选瑞丽熵信息,基于多个异常行为验证请求对应的候选瑞丽熵信息生成瑞丽熵信息,能够提高瑞丽熵信息的可靠性。
譬如,一种可基于独立构思的实施例中,根据行为验证请求对应的第一解析结果对行为验证请求进行第一行为模拟处理,得到行为验证请求对应的第一行为模拟结果,包括:
当第一解析结果为验证请求无异常时,对行为验证请求进行第一行为模拟处理,得到行为验证请求对应的第一行为模拟结果。
例如,为了减少计算机资源消耗,在对行为验证请求进行第一解析操作,得到行为验证请求对应的第一解析结果后,若第一解析结果为验证请求无异常,大数据挖掘系统才会对行为验证请求进行第一行为模拟处理,得到行为验证请求对应的第一行为模拟结果,若第一解析结果为行为异常结果,大数据挖掘系统就无需执行后续操作。
譬如,一种可基于独立构思的实施例中,基于查询结果确定当前验证请求对应的第三行为模拟结果,包括:
当目标被侵占节点和被破解节点之间存在连接路径、且连接路径覆盖有除目标被侵占节点和被破解节点之外的其它变量节点时,确定当前验证请求中存在被破解路径;当当前验证请求中存在被破解路径时,基于被破解路径确定当前验证请求对应的第三行为模拟结果;当当前验证请求中不存在被破解路径时,确定当前验证请求对应的第三行为模拟结果为验证请求无异常。
例如,如果当前验证请求中只包括被侵占或被破解点,没有形成有效的被破解路径,则当前验证请求对应的第三行为模拟结果为验证请求无异常。只有当被侵占经过一系列污染传播点进入被破解点,即存在被破解路径时,才需要对被破解路径进行更细致的判断来确定当前验证请求是否为异常行为验证请求。因此,当目标被侵占节点和被破解节点之间存在连接路径、且连接路径覆盖有除目标被侵占节点和被破解节点之外的其它变量节点时,大数据挖掘系统可以确定当前验证请求中存在被破解路径。
一种可基于独立构思的实施例中,当存在被破解路径时,大数据挖掘系统可以直接确定当前验证请求对应的第三行为模拟结果为验证请求存在异常。当然,大数据挖掘系统也可以进一步对被破解路径进行更细致的审计,来确定当前验证请求对应的第三行为模拟结果,从而减少误报,提高被侵占破解准确性。
本实施例中,当当前验证请求中不存在被破解路径时,直接确定当前验证请求对应的第三行为模拟结果为验证请求无异常,当当前验证请求中存在被破解路径时,不是直接确定当前验证请求对应的第三行为模拟结果为验证请求存在异常,而是进一步基于被破解路径确定当前验证请求对应的第三行为模拟结果,能够提高被侵占破解的准确性。
譬如,一种可基于独立构思的实施例中,当当前验证请求中存在被破解路径时,基于被破解路径确定当前验证请求对应的第三行为模拟结果,包括:
当目标被侵占节点通过被破解路径以赋值方式将数据传输至被破解节点、且目标被侵占节点为第二被侵占节点时,确定当前验证请求对应的第三行为模拟结果为验证请求无异常。
例如,若存在被破解路径,就直接判断行为验证请求为异常行为验证请求,会存在一些误报情况。在实际生产环境中会有开发者由于编码习惯而把大段固定的文字或字符序列写在代码变量中,即在开发者正常开发过程中可能也会存在长度过长的字符序列变量,这种是开发者正常使用,而非恶意使用,但是开发人员通常不会对代码变量使用字符序列拼接、字符序列替换、base64加密等技术进行处理。因此,为了减少被侵占破解的误报,在确定存在被破解路径后,大数据挖掘系统可以进行更细致的审计,对被破解路径进行进一步分析来确定第三行为模拟结果。当目标被侵占节点通过被破解路径以赋值方式将数据传输至被破解节点、且目标被侵占节点为第二被侵占节点时,大数据挖掘系统可以确定当前验证请求对应的第三行为模拟结果为验证请求无异常,而其它情况下则确定当前验证请求对应的第三行为模拟结果为行为异常结果。可以理解,若参数是被侵占未经过任何处理,只是通过赋值这样的简单方式经过被破解路径传递到被破解点,则当前验证请求为安全验证请求,不会引发安全问题。若被破解点的参数是被侵占未经过任何处理,只是通过赋值的方式传递到被破解点的,则极大可能是开发人员在开发过程中正常使用被破解点函数,而非恶意使用。而攻击者为了避免被杀毒软件查杀,一般不会直接使用参数,而是会使用一系列的拼接、替换、加密函数等方法对参数进行处理。
举例说明,当前验证请求的源码如下所示:
< PHP
$x=“echo \“hello world!\””;
$y=$x;
eval($y);
>
其中,$x被标记为长度过长的字符序列变量被侵占,被破解点eval执行的参数为$y,而$y是由$x赋值得到的,未进行其它任何操作。因此,大数据挖掘系统可以确定当前验证请求对应的第三行为模拟结果为验证请求无异常。
当前验证请求的源码如下所示:
< PHP
$x=“JF9SRVFVRVNUWydjbWQnXQ==”;
$y=base64_decode($x);
eval($y);
>
$x被标记为长度过长的字符序列变量被侵占,被破解点eval执行的参数为$y,而$y是由base64_decode($x)得到的,是对$x进行了base64解码操作,即$x在传播过程中进行了赋值以外的操作。因此,大数据挖掘系统可以确定当前验证请求对应的第三行为模拟结果为验证请求存在异常。
本实施例中,当目标被侵占节点通过被破解路径以赋值方式将数据传输至被破解节点、且目标被侵占节点为第二被侵占节点时,确定当前验证请求对应的第三行为模拟结果为验证请求无异常,这样能够有效减少被侵占破解的误报,提高被侵占破解的准确性。
本申请实施例提供一种基于人工智能的用户行为大数据挖掘系统110,基于人工智能的用户行为大数据挖掘系统110包括:
获取模块1101,用于获取待定用户行为事件。
提取模块1102,用于对待定用户行为事件进行特征向量提取,以生成待定用户行为事件的特征向量;对待定用户行为事件的特征向量进行行为有效性判定,以获得待定用户行为事件的有效行为特征向量;基于有效行为特征向量,对待定用户行为事件进行用户行为事件分类,以确定待定用户行为事件的安全操作级别,其中,安全操作级别是第一安全级别、第二安全级别和第三安全级别中的一个,第一安全级别为安全风险高的用户行为事件,第二安全级别为安全风险低的用户行为事件,第三安全级别为安全风险处于第一安全级别和第二安全级别之间的用户行为事件。
检测模块1103,根据待定用户行为事件的安全操作级别,对待定用户行为事件进行行为分类处理或行为确定处理;以及基于处理的结果确定并输出待定用户行为事件的评估结果。
图2示出了本申请实施例提供的用于实现以上的基于人工智能的用户行为大数据挖掘方法的大数据挖掘系统100的硬件结构意图,如图2所示,大数据挖掘系统100可包括处理器110、机器可读存储介质120、总线130以及通信单元140。
在具体实现过程中,至少一个处理器110执行机器可读存储介质120存储的计算机可执行指令,使得处理器110可以执行如上方法实施例的基于人工智能的用户行为大数据挖掘方法,处理器110、机器可读存储介质120以及通信单元140通过总线130连接,处理器110可以用于控制通信单元140的收发动作,从而可以与前述的业务运行服务系统200进行数据收发。
处理器110的具体实现过程可参见以上大数据挖掘系统100执行的各个方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
此外,本申请实施例还提供一种可读存储介质,所述可读存储介质中预设有计算机可执行指令,当处理器执行所述计算机可执行指令时,实现如上基于人工智能的用户行为大数据挖掘方法。
最后,应当理解的是,本说明书中实施例仅用以说明本说明书实施例的原则。其它的变形也可能属于本说明书范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导匹配。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims (10)

1.一种基于人工智能的用户行为大数据挖掘方法,其特征在于,包括:
获取待定用户行为事件;
对所述待定用户行为事件进行特征向量提取,以生成所述待定用户行为事件的特征向量;
对所述待定用户行为事件的特征向量进行行为有效性判定,以获得所述待定用户行为事件的有效行为特征向量;
基于所述有效行为特征向量,对所述待定用户行为事件进行用户行为事件分类,以确定所述待定用户行为事件的安全操作级别,其中,所述安全操作级别是第一安全级别、第二安全级别和第三安全级别中的一个,第一安全级别为安全风险高的用户行为事件,第二安全级别为安全风险低的用户行为事件,第三安全级别为安全风险处于第一安全级别和第二安全级别之间的用户行为事件;
根据所述待定用户行为事件的安全操作级别,对所述待定用户行为事件进行行为分类处理或行为确定处理;以及
基于处理的结果确定并输出所述待定用户行为事件的评估结果。
2.根据权利要求1所述的基于人工智能的用户行为大数据挖掘方法,其特征在于,对所述待定用户行为事件进行特征向量提取,以生成所述待定用户行为事件的特征向量包括:
提取所述待定用户行为事件的用户行为事件名称特征、操作设备特征、行为属性特征和行为操作特征中的至少一部分特征,作为所述待定用户行为事件的特征数据;以及
利用所述待定用户行为事件的特征数据,生成所述特征向量。
3.根据权利要求1所述的基于人工智能的用户行为大数据挖掘方法,其特征在于,对所述待定用户行为事件进行特征向量提取,以生成所述待定用户行为事件的特征向量包括:
利用预设行为数据库对所述用户行为事件进行分析,以提取所述待定用户行为事件的特征向量,其中,所述预设行为数据库存储用户行为事件与其特征向量的对应关系。
4.根据权利要求1所述的基于人工智能的用户行为大数据挖掘方法,其特征在于,对所述待定用户行为事件的特征向量进行行为有效性判定,以获得所述待定用户行为事件的有效行为特征向量包括:
确定所述待定用户行为事件的特征向量是否合格;以及
在确定所述特征向量不合格的情况下,确定所述特征向量为有效行为特征向量;
在所述特征向量合格的情况下,去除所述特征向量,其中,所述合格指示所述待定用户行为事件在预定区域内未被调用、被解析且被切换。
5.根据权利要求1-4中任意一项所述的基于人工智能的用户行为大数据挖掘方法,其特征在于,在所述待定用户行为事件的安全操作级别为第一安全级别或者第二安全级别时,对所述待定用户行为事件指向的接收页面进行行为分类处理,所述行为分类处理包括:
在所述接收页面中包括的指定参数的数量满足预定数量阈值时,确定所述接收页面为正常接收页面;
在所述接收页面中包括的指定参数的数量不满足预定数量阈值时,确定所述接收页面为非正常接收页面;以及
在所述接收页面失效时,确定所述接收页面为失效接收页面;
在所述待定用户行为事件的安全操作级别为第一安全级别时,基于处理的结果确定所述待定用户行为事件的评估结果包括:
在所述接收页面为正常接收页面的情况下,确定所述待定用户行为事件为异常用户行为事件;
在所述接收页面为非正常接收页面的情况下,确定所述待定用户行为事件为非法用户行为事件;以及
在所述接收页面为失效接收页面的情况下,确定所述待定用户行为事件为失效用户行为事件;
在所述待定用户行为事件的安全操作级别为第二安全级别时,基于处理的结果确定所述待定用户行为事件的评估结果包括:
在所述接收页面为正常接收页面并且所述待定用户行为事件的可靠度满足预定条件的情况下,确定所述待定用户行为事件为安全用户行为事件,并将所述待定用户行为事件加入用户行为事件安全集合;
在所述接收页面为失效接收页面的情况下,确定所述待定用户行为事件为失效用户行为事件。
6.根据权利要求1-5中任意一项所述的基于人工智能的用户行为大数据挖掘方法,其特征在于,所述方法还包括:
获取行为验证请求;所述行为验证请求用于发起对所述待定用户行为事件的检测;
对所述行为验证请求进行第一解析操作,得到所述行为验证请求对应的第一解析结果;
根据所述行为验证请求对应的第一解析结果对所述行为验证请求进行第一行为模拟处理,得到所述行为验证请求对应的第一行为模拟结果;
基于预设业务环境下执行经过第一行为模拟处理的行为验证请求,输出所述行为验证请求在所述预设业务环境执行后对应的请求模拟结果;
对所述请求模拟结果分别进行第二解析操作以及第二行为模拟处理,得到所述请求模拟结果对应的第二解析结果以及第二行为模拟结果;
当所述行为验证请求对应的第一解析结果、第一行为模拟结果、所述请求模拟结果对应的第二解析结果和第二行为模拟结果中至少一个检测结果为行为异常结果时,确定所述行为验证请求为异常行为验证请求;
当前验证请求为所述行为验证请求或所述请求模拟结果,对所述当前验证请求进行第三解析操作,得到所述当前验证请求对应的第三解析操作解析结果,包括:
从所述当前验证请求中提取特征信息,得到至少一个待匹配特征信息;
将各个待匹配特征信息和异常行为验证请求特征信息进行匹配;所述异常行为验证请求特征信息包括字符序列信息、规则字符序列信息和瑞丽熵信息中的至少一种;
当至少一个待匹配特征信息匹配成功时,确定所述当前验证请求对应的第三解析操作解析结果为验证请求存在异常;
所述瑞丽熵信息的生成方法包括以下步骤:
获取多个异常行为验证请求;
分别从各个异常行为验证请求中提取请求参数,得到各个异常行为验证请求对应的请求参数集合,所述请求参数集合包括多个请求参数和各个请求参数对应的时间戳;
基于同一异常行为验证请求对应的请求参数集合生成对应的候选瑞丽熵信息,得到各个异常行为验证请求分别对应的候选瑞丽熵信息;
基于各个候选瑞丽熵信息生成所述瑞丽熵信息。
7.根据权利要求1所述的基于人工智能的用户行为大数据挖掘方法,其特征在于,在所述待定用户行为事件的安全操作级别为第三安全级别时,对所述待定用户行为事件进行行为确定处理,所述行为确定处理包括:
根据预定规则对所述待定用户行为事件进行用户行为事件风险确认,并根据确认结果生成对所述待定用户行为事件进行再确认发起的指示。
8.根据权利要求1所述的基于人工智能的用户行为大数据挖掘方法,其特征在于,基于所述有效行为特征向量,对所述待定用户行为事件进行用户行为事件分类,以确定所述待定用户行为事件的安全操作级别包括:
基于所述有效行为特征向量,利用用户行为事件分类模型对所述待定用户行为事件进行用户行为事件分类,以确定所述待定用户行为事件的安全操作级别,其中,所述用户行为事件分类模型通过以下方法进行训练:
获取包括不同安全操作级别的训练用户行为事件的训练用户行为事件集,其中,每个训练用户行为事件的训练数据包括所述训练用户行为事件的特征数据和所述训练用户行为事件的安全操作级别;
针对所述训练用户行为事件集中的每个训练用户行为事件,基于所述训练用户行为事件对应的特征数据,生成所述训练用户行为事件的有效行为特征向量;以及
利用所述训练用户行为事件集中的每个训练用户行为事件的有效行为特征向量和安全操作级别,对所述用户行为事件分类模型进行训练,其中,所述特征数据包括所述训练用户行为事件的用户行为事件名称特征、操作设备特征、行为属性特征和行为操作特征中的至少一部分。
9.根据权利要求8所述的基于人工智能的用户行为大数据挖掘方法,其特征在于,所述不同安全操作级别包括第一安全级别、第二安全级别和第三安全级别,并且其中,所述获取包括不同安全操作级别的训练用户行为事件的训练用户行为事件集包括:
从可疑用户行为事件集获取可疑用户行为事件,将通过对可疑用户行为事件进行鉴定确定的第一安全级别类别的非法用户行为事件的训练用户行为事件,并且将通过对可疑用户行为事件进行鉴定确定的第三安全级别类别的非法用户行为事件的训练用户行为事件;
获取高可靠度用户行为事件,作为第二安全级别类别的训练用户行为事件,其中,所述高可靠度用户行为事件为被调用的频率满足预定条件的用户行为事件;
所述获取包括不同安全操作级别的训练用户行为事件的训练用户行为事件集还包括:
从多个关联非法用户行为事件中随机抽样预定数量的用户行为事件作为第一安全级别类别的训练用户行为事件,其中,多个关联非法用户行为事件是同一二级用户行为事件下的多个细分用户行为事件。
10.一种基于人工智能的用户行为大数据挖掘系统,其特征在于,包括:
获取模块,用于获取待定用户行为事件;
提取模块,用于对所述待定用户行为事件进行特征向量提取,以生成所述待定用户行为事件的特征向量;对所述待定用户行为事件的特征向量进行行为有效性判定,以获得所述待定用户行为事件的有效行为特征向量;基于所述有效行为特征向量,对所述待定用户行为事件进行用户行为事件分类,以确定所述待定用户行为事件的安全操作级别,其中,所述安全操作级别是第一安全级别、第二安全级别和第三安全级别中的一个,第一安全级别为安全风险高的用户行为事件,第二安全级别为安全风险低的用户行为事件,第三安全级别为安全风险处于第一安全级别和第二安全级别之间的用户行为事件;
检测模块,根据所述待定用户行为事件的安全操作级别,对所述待定用户行为事件进行行为分类处理或行为确定处理;以及基于处理的结果确定并输出所述待定用户行为事件的评估结果。
CN202111015424.1A 2021-08-31 2021-08-31 基于人工智能的用户行为大数据挖掘方法及系统 Active CN113704328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111015424.1A CN113704328B (zh) 2021-08-31 2021-08-31 基于人工智能的用户行为大数据挖掘方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111015424.1A CN113704328B (zh) 2021-08-31 2021-08-31 基于人工智能的用户行为大数据挖掘方法及系统

Publications (2)

Publication Number Publication Date
CN113704328A true CN113704328A (zh) 2021-11-26
CN113704328B CN113704328B (zh) 2022-05-13

Family

ID=78658243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111015424.1A Active CN113704328B (zh) 2021-08-31 2021-08-31 基于人工智能的用户行为大数据挖掘方法及系统

Country Status (1)

Country Link
CN (1) CN113704328B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111385247A (zh) * 2018-12-28 2020-07-07 广州市百果园信息技术有限公司 用户行为分类方法、装置、存储介质及服务器
CN115422472A (zh) * 2022-09-14 2022-12-02 戴蔚 基于人工智能识别的用户关注需求决策方法及大数据系统
CN115941347A (zh) * 2022-12-23 2023-04-07 徐健 用于人工智能平台的用户大数据安全分析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111556059A (zh) * 2020-04-29 2020-08-18 深圳壹账通智能科技有限公司 异常检测方法、异常检测装置及终端设备
US20200285737A1 (en) * 2019-03-05 2020-09-10 Microsoft Technology Licensing, Llc Dynamic cybersecurity detection of sequence anomalies
CN111651753A (zh) * 2019-03-04 2020-09-11 顺丰科技有限公司 用户行为分析系统及方法
CN111818198A (zh) * 2020-09-10 2020-10-23 腾讯科技(深圳)有限公司 域名检测方法、域名检测装置和设备以及介质
CN112395262A (zh) * 2020-11-17 2021-02-23 江苏普旭软件信息技术有限公司 一种基于大数据平台审计日志的用户行为分析方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651753A (zh) * 2019-03-04 2020-09-11 顺丰科技有限公司 用户行为分析系统及方法
US20200285737A1 (en) * 2019-03-05 2020-09-10 Microsoft Technology Licensing, Llc Dynamic cybersecurity detection of sequence anomalies
CN111556059A (zh) * 2020-04-29 2020-08-18 深圳壹账通智能科技有限公司 异常检测方法、异常检测装置及终端设备
CN111818198A (zh) * 2020-09-10 2020-10-23 腾讯科技(深圳)有限公司 域名检测方法、域名检测装置和设备以及介质
CN112395262A (zh) * 2020-11-17 2021-02-23 江苏普旭软件信息技术有限公司 一种基于大数据平台审计日志的用户行为分析方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111385247A (zh) * 2018-12-28 2020-07-07 广州市百果园信息技术有限公司 用户行为分类方法、装置、存储介质及服务器
CN111385247B (zh) * 2018-12-28 2022-07-08 广州市百果园信息技术有限公司 用户行为分类方法、装置、存储介质及服务器
CN115422472A (zh) * 2022-09-14 2022-12-02 戴蔚 基于人工智能识别的用户关注需求决策方法及大数据系统
CN115422472B (zh) * 2022-09-14 2023-11-07 河北盘古网络技术有限公司 基于人工智能识别的用户关注需求决策方法及大数据系统
CN115941347A (zh) * 2022-12-23 2023-04-07 徐健 用于人工智能平台的用户大数据安全分析方法及系统
CN115941347B (zh) * 2022-12-23 2024-01-12 深圳市正能量网络技术有限公司 用于人工智能平台的用户大数据安全分析方法及系统

Also Published As

Publication number Publication date
CN113704328B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
EP4201026B1 (en) Malicious traffic detection with anomaly detection modeling
CN113704328B (zh) 基于人工智能的用户行为大数据挖掘方法及系统
US9781139B2 (en) Identifying malware communications with DGA generated domains by discriminative learning
Cao et al. Machine learning to detect anomalies in web log analysis
CN113704772B (zh) 基于用户行为大数据挖掘的安全防护处理方法及系统
US10243982B2 (en) Log analyzing device, attack detecting device, attack detection method, and program
CN108471429B (zh) 一种网络攻击告警方法及系统
CN108881263B (zh) 一种网络攻击结果检测方法及系统
CN111818198B (zh) 域名检测方法、域名检测装置和设备以及介质
CN112866023B (zh) 网络检测、模型训练方法、装置、设备及存储介质
CN111586005B (zh) 扫描器扫描行为识别方法及装置
CN112817877B (zh) 异常脚本检测方法、装置、计算机设备和存储介质
CN111813960A (zh) 基于知识图谱的数据安全审计模型装置、方法及终端设备
CN115580494B (zh) 一种弱口令的检测方法、装置和设备
CN111371581A (zh) 物联网卡业务异常检测的方法、装置、设备和介质
CN112905996A (zh) 基于多维度数据关联分析的信息安全溯源系统及方法
CN116112194A (zh) 用户行为分析方法、装置、电子设备及计算机存储介质
CN110955890B (zh) 恶意批量访问行为的检测方法、装置和计算机存储介质
CN108804501B (zh) 一种检测有效信息的方法及装置
CN113542252A (zh) Web攻击的检测方法、检测模型和检测装置
CN115809466B (zh) 基于stride模型的安全需求生成方法、装置、电子设备及介质
CN116738369A (zh) 一种流量数据的分类方法、装置、设备及存储介质
JP7033560B2 (ja) 分析装置および分析方法
CN116010600B (zh) 日志分类方法、装置、设备及介质
CN117544400A (zh) 一种基于威胁情报的威胁信息矩阵方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220424

Address after: 330000 Beida resources Zhihui yuan, No. 528, Shuanggang West Street, Nanchang Economic and Technological Development Zone, Nanchang City, Jiangxi Province

Applicant after: Jiangxi merchants Technology Co.,Ltd.

Address before: 650000 No. 1605, building C5, yingxincheng District C, the third city, economic development zone, Kunming, Yunnan Province

Applicant before: Chen Jing

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240730

Address after: Room 3021B, 3rd Floor, Building 2, No. 16 Fengguan Road, Fengtai District, Beijing 100071

Patentee after: CTV ELECTRONIC (BEIJING) ICC INDUSTRY CO.,LTD.

Country or region after: China

Address before: 330000 Beida resources Zhihui yuan, No. 528, Shuanggang West Street, Nanchang Economic and Technological Development Zone, Nanchang City, Jiangxi Province

Patentee before: Jiangxi merchants Technology Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right