CN112231700B - 行为识别方法和装置、存储介质及电子设备 - Google Patents

行为识别方法和装置、存储介质及电子设备 Download PDF

Info

Publication number
CN112231700B
CN112231700B CN202011490782.3A CN202011490782A CN112231700B CN 112231700 B CN112231700 B CN 112231700B CN 202011490782 A CN202011490782 A CN 202011490782A CN 112231700 B CN112231700 B CN 112231700B
Authority
CN
China
Prior art keywords
access
behavior
behavior data
track
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011490782.3A
Other languages
English (en)
Other versions
CN112231700A (zh
Inventor
彭晨晨
陈国�
盛红利
陈江洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011490782.3A priority Critical patent/CN112231700B/zh
Publication of CN112231700A publication Critical patent/CN112231700A/zh
Application granted granted Critical
Publication of CN112231700B publication Critical patent/CN112231700B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于云服务器防护的行为识别方法和装置、存储介质及电子设备。其中,该方法包括:获取请求访问目标地址的访问行为数据;在从访问行为数据中检测到攻击行为数据的情况下,提取访问行为数据中的对象访问轨迹,将对象访问轨迹转化为对应的对象访问轨迹序;将对象访问轨迹序列依次输入行为识别模型,以得到与对象访问轨迹相匹配的行为识别相似度,将行为识别相似度小于目标阈值的对象访问轨迹序列所指示的对象访问行为,识别为异常访问行为。本发明解决了网络异常行为识别不准确的技术问题。

Description

行为识别方法和装置、存储介质及电子设备
技术领域
本发明涉及服务器安全领域,具体而言,涉及一种行为识别方法和装置、存储介质及电子设备。
背景技术
现有技术中,黑客可以通过向目标服务器发送大量异常流量,服务器忙于处理异常流量,无法处理正常用户请求,甚至系统崩溃,造成拒绝服务。现有的识别请求是否异常的方法中,可以采用通过限速和反向挑战算法的方法来识别异常访问。然而,上述方法存在误杀严重,异常行为识别不准确的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种行为识别方法和装置、存储介质及电子设备,以至少解决网络异常行为识别不准确的技术问题。
根据本发明实施例的一个方面,提供了一种行为识别方法,包括:获取请求访问目标地址的访问行为数据;在从上述访问行为数据中检测到攻击行为数据的情况下,提取上述访问行为数据中的对象访问轨迹,其中,每条上述对象访问轨迹为一个访问请求对象在目标时间段内触发的访问行为所生成的访问轨迹;将上述对象访问轨迹转化为对应的对象访问轨迹序列;将上述对象访问轨迹序列依次输入行为识别模型,以得到与上述对象访问轨迹相匹配的行为识别相似度,其中,上述行为识别模型为采用访问行为的访问行为数据进行训练后得到的用于识别异常访问行为的模型,上述行为识别相似度用于指示上述对象访问轨迹序列所指示的对象访问行为与正常访问行为之间的相似度;将上述行为识别相似度小于目标阈值的上述对象访问轨迹序列所指示的上述对象访问行为,识别为异常访问行为。
根据本发明实施例的另一方面,还提供了一种行为识别装置,包括:获取单元,用于获取请求访问目标地址的访问行为数据;提取单元,用于在从上述访问行为数据中检测到攻击行为数据的情况下,提取上述访问行为数据中的对象访问轨迹,其中,每条上述对象访问轨迹为一个访问请求对象在目标时间段内触发的访问行为所生成的访问轨迹;转化单元,用于将上述对象访问轨迹转化为对应的对象访问轨迹序列;输入单元,用于将上述对象访问轨迹序列依次输入行为识别模型,以得到与上述对象访问轨迹相匹配的行为识别相似度,其中,上述行为识别模型为采用访问行为的访问行为数据进行训练后得到的用于识别异常访问行为的模型,上述行为识别相似度用于指示上述对象访问轨迹序列所指示的对象访问行为与正常访问行为之间的相似度;第一识别单元,用于将上述行为识别相似度小于目标阈值的上述对象访问轨迹序列所指示的上述对象访问行为,识别为异常访问行为。
作为一种可选的实施方式,所述提取单元包括:第一提取模块,用于从所述访问行为数据中,提取每个发起访问请求的请求对象在所述目标时间段内所访问的全部访问链接;第二提取模块,用于从每个访问链接中提取访问路径特征,并对所述访问路径特征进行拼接,得到与所述访问链接匹配的访问行为特征;排序模块,用于对所述访问行为特征按照访问时间顺序进行排序,以生成所述请求对象对应的所述对象访问轨迹。
作为一种可选的实施方式,所述第二提取模块包括:提取子模块,用于从所述访问链接中提取访问路径中的一级访问目录位置及访问资源后缀标识,其中,所述访问路径特征包括所述一级访问目录位置及所述访问资源后缀标识;拼接子模块,用于对所述一级访问目录位置及所述访问资源后缀标识进行组合拼接,以生成所述访问链接匹配的所述访问行为特征。
作为一种可选的实施方式,所述转化单元包括:统计模块,用于统计各个所述访问行为特征中的字符串的出现频率;第一确定模块,用于根据所述出现频率从所述字符串确定出目标字符串;第一处理模块,用于对所述目标字符串进行哈希编码处理,以得到所述对象访问轨迹转化后的所述对象访问轨迹序列。
作为一种可选的实施方式,上述输入单元包括:第一获取模块,用于在上述行为识别模型是基于隐马尔可夫模型创建的情况下,通过上述行为识别模型获取上述对象访问轨迹序列对应的对象状态转移概率矩阵和对象观测概率矩阵,其中,上述对象状态转移概率矩阵中的每个元素用于指示上述对象访问轨迹序列对应的多个隐藏状态中任意两个隐藏状态之间进行转换的概率,上述对象观测概率矩阵是基于上述对象状态转移概率矩阵计算得到;第二确定模块,用于基于上述行为识别模型的初始状态概率矩阵、上述对象状态转移概率矩阵和上述对象观测概率矩阵,确定上述行为识别相似度。
作为一种可选的实施方式,上述输入单元还包括:第二获取模块,用于在上述获取请求访问目标地址的访问行为数据之前,获取上述访问行为的访问行为数据,作为样本访问行为数据;第三获取模块,用于对检测到上述攻击行为数据的样本访问行为数据进行轨迹提取,得到样本访问轨迹;转化模块,用于将上述样本访问轨迹转化为对应的样本访问轨迹序列;训练模块,用于将上述样本访问轨迹序列输入初始行为识别模型进行训练,以得到上述行为识别模型,其中,上述行为识别模型中包括上述初始状态概率矩阵。
作为一种可选的实施方式,上述输入单元还包括:关联模块,用于在上述获取请求访问目标地址的访问行为数据之前,将训练完成的上述行为识别模型部署在与上述目标地址的目标路由关联的防护系统中,其中,上述防护系统与攻击行为检测系统具有通信关系,上述攻击行为检测系统用于根据上述目标地址的访问流量变化数据,从上述访问行为数据中检测出上述攻击行为数据。
作为一种可选的实施方式,上述输入单元还包括:第二处理模块,用于在上述获取请求访问目标地址的访问行为数据之后,在上述目标路由对上述访问行为数据进行镜像处理,得到镜像访问行为数据的情况下,将上述镜像访问行为数据发送上述攻击行为检测系统;第三确定模块,用于在上述攻击行为检测系统从上述镜像访问行为数据中检测出上述攻击行为数据的情况下,确定上述访问行为数据中包括上述攻击行为数据。
作为一种可选的实施方式,上述装置还包括:分配单元,用于在上述将上述行为识别相似度小于目标阈值的上述对象访问轨迹序列所指示的上述对象访问行为,识别为异常访问行为之后,基于上述行为识别模型的输出结果,为发起访问请求的请求对象分配识别标签,其中,上述识别标签包括:上述异常访问行为对应的第一标签,和上述正常访问行为对应的第二标签;第二识别单元,用于在上述防护系统中,根据上述第一标签识别出执行上述异常访问行为的第一目标请求对象,并对上述第一目标请求对象对应的异常流量进行清洗;第三识别单元,用于在上述防护系统中,根据上述第二标签识别出执行上述正常访问行为的第二目标请求对象,并对上述第二目标请求对象对应的正常流量发送至服务器。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述行为识别方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过上述计算机程序执行上述的行为识别方法。
在本发明实施例中,采用了获取请求访问目标地址的访问行为数据;在从上述访问行为数据中检测到攻击行为数据的情况下,提取上述访问行为数据中的对象访问轨迹,其中,每条上述对象访问轨迹为一个访问请求对象在目标时间段内触发的访问行为所生成的访问轨迹;将上述对象访问轨迹转化为对应的对象访问轨迹序列;将上述对象访问轨迹序列依次输入行为识别模型,以得到与上述对象访问轨迹相匹配的行为识别相似度,其中,上述行为识别模型为采用访问行为的访问行为数据进行训练后得到的用于识别异常访问行为的模型,上述行为识别相似度用于指示上述对象访问轨迹序列所指示的对象访问行为与正常访问行为之间的相似度;将上述行为识别相似度小于目标阈值的上述对象访问轨迹序列所指示的上述对象访问行为,识别为异常访问行为的方法,由于在上述方法中,在识别用户行为是否异常的过程中,是通过获取用户的访问行为的访问轨迹,并将访问轨迹转化为访问轨迹序列,最后通过识别访问轨迹序列指示的访问行为与正常访问行为的相似度从而识别用户的访问行为是否为异常行为,实现了提高网络异常行为的识别准确度的效果,进而解决了网络异常行为识别不准确的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的行为识别方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的行为识别方法的应用环境的示意图;
图3是根据本发明实施例的一种可选的行为识别方法的流程的示意图;
图4是根据本发明实施例的一种可选的行为识别方法的马尔可夫过程的示意图;
图5是根据本发明实施例的一种可选的行为识别方法的行为识别模型建模的示意图;
图6是根据本发明实施例的一种可选的行为识别方法的防护系统的部署架构的示意图;
图7是根据本发明实施例的一种可选的行为识别方法的流程的示意图;
图8是根据本发明实施例的一种可选的行为识别方法的显示识别结果的示意图;
图9是根据本发明实施例的一种可选的行为识别装置的结构示意图;
图10是根据本发明实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
可选地,以下提到的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
根据本发明实施例的一个方面,提供了一种行为识别方法,可选地,作为一种可选的实施方式,上述行为识别方法可以但不限于应用于如图1所示的环境中的行为识别系统,在该行为识别系统中,包括:终端设备102,其中,终端设备102包括了存储器104,用于存储终端设备102运行过程中产生的各项数据、处理器106,用于处理运算上述各项数据、显示器108,用于显示用户的访问界面与访问内容。终端设备102上可以运行应用客户端。终端设备102可以通过网络110与服务器112之间进行数据交互。终端设备102可以通过S102向识别服务器112发送访问行为数据,识别服务器112可以获取访问行为数据。识别服务器112包括数据库114,用于存储访问行为数据与模型,识别引擎116,用于通过S104识别访问行为数据,得到识别结果。识别服务器112在获取到访问行为数据后,可以在从访问行为数据中检测到攻击行为数据的情况下,提取访问行为数据中的对象访问轨迹,然后将对象访问轨迹转化为访问轨迹序列,最后通过行为识别模型识别访问行为数据对应的访问行为是否为异常访问行为。通过步骤S106返回识别结果。
作为一种可选的实施方式,上述行为识别方法可以但不限于应用于如图2所示的环境中。
如图2所示步骤S202到S210,终端设备202包括了存储器204,用于存储终端设备202运行过程中产生的各项数据、处理器206,用于处理运算上述各项数据、显示器208,用于显示用户的访问页面与访问内容。终端设备202可以获取到访问行为数据,在获取到访问行为数据后,可以在从访问行为数据中检测到攻击行为数据的情况下,提取访问行为数据中的对象访问轨迹,然后将对象访问轨迹转化为访问轨迹序列,最后通过行为识别模型识别访问行为数据对应的访问行为是否为异常访问行为。然后通过显示器208显示识别结果。
可选地,在本实施例中,上述终端设备102或者终端设备202可以是配置有目标客户端的终端设备,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视、车载计算机等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。上述仅是一种示例,本实施例中对此不作任何限定。
可选地,作为一种可选的实施方式,如图3所示,上述行为识别方法包括:
S302,获取请求访问目标地址的访问行为数据;
S304,在从访问行为数据中检测到攻击行为数据的情况下,提取访问行为数据中的对象访问轨迹,其中,每条对象访问轨迹为一个访问请求对象在目标时间段内触发的访问行为所生成的访问轨迹;
S306,将对象访问轨迹转化为对应的对象访问轨迹序列;
S308,将对象访问轨迹序列依次输入行为识别模型,以得到与对象访问轨迹相匹配的行为识别相似度,其中,行为识别模型为采用访问行为的访问行为数据进行训练后得到的用于识别异常访问行为的模型,行为识别相似度用于指示对象访问轨迹序列所指示的对象访问行为与正常访问行为之间的相似度;
S310,将行为识别相似度小于目标阈值的对象访问轨迹序列所指示的对象访问行为,识别为异常访问行为。
可选地,上述行为识别方法可以但不限于应用于识别用户的访问行为是否异常的过程中。当客户端需要访问服务器请求网络数据的过程中,即可使用本申请实施例所记载的方法,获取访问行为数据,最后识别出访问行为是否异常。由于本申请实施例中,在识别访问行为是否异常的过程中,是通过获取用户的访问行为的访问轨迹,并将访问轨迹转化为访问轨迹序列,最后通过识别访问轨迹序列指示的访问行为与正常访问行为的相似度从而识别用户的访问行为是否为异常行为,实现了提高网络异常行为的识别准确度的效果。
可选地,本申请实施例中可以在用户对服务器发送访问请求的情况下,开始获取用户的访问行为数据,也可以为服务器自助监控每一位与服务器进行交互的用户,获取每一位用户的访问行为数据,然后根据每一位用户的访问行为数据来是被访问行为是否异常。上述目标地址可以为用户访问的地址,本申请实施例中可以在用户访问任意一个地址的情况下获取访问行为数据,也可以在用户访问预设的多个地址中的一个目标地址的情况下获取访问行为数据。
可选地,本申请实施例可以在获取到访问行为数据之后,可以先对获取的访问行为数据进行初步的判断。如果判断出访问行为数据中包括了攻击行为数据,则使用本申请实施例中的方法来进一步判断访问行为是否为异常行为,此外,本申请实施例也可以在获取到访问行为数据之后,不进行检测攻击行为数据的步骤,直接获取对象访问轨迹序列,进一步识别访问行为是否异常。
可选地,本申请实施例中可以从获取的访问行为数据中获取对象访问轨迹。对象访问轨迹可以为用户访问服务器的过程中的地址链接的轨迹。如果用户先后访问了多个地址链接,则需要获取多个地址链接,然后根据多个地址链接获取对象访问轨迹。多个地址链接可以为相同或者不同应用程序的地址链接,或者相同或者不同页面的地址链接。
可选地,结合一个具体示例进行说明。
本申请实施例中,对于用户1,用户1先后依次访问了应用程序1的页面1和应用程序2的页面2,则获取用户的访问行为数据,访问行为数据中包括了用户对上述页面1和上述页面2的访问时间与页面1和页面2的地址链接。在获取到上述数据后,将上述数据转换为访问轨迹序列,然后将访问轨迹序列输入到行为识别模型中,由行为识别模型识别序列的行为识别相似度。行为识别相似度可以为一个数值,可以属于0-1之间。如果行为识别相似度小于了目标阈值,则可以确定输入到行为识别模型中的访问轨迹序列所对应的访问行为与正常的访问行为的相似度过低,可以确定出用户访问上述页面1和上述页面2的行为是异常的。返回用户访问异常的结果。
通过本实施例,通过上述方法,从而在识别用户行为是否异常的过程中,是通过获取用户的访问行为的访问轨迹,并将访问轨迹转化为访问轨迹序列,最后通过识别访问轨迹序列指示的访问行为与正常访问行为的相似度从而识别用户的访问行为是否为异常行为,实现了提高网络异常行为的识别准确度的效果。
作为一种可选的实施方式,提取访问行为数据中的对象访问轨迹包括:
从访问行为数据中,提取每个发起访问请求的请求对象在目标时间段内所访问的全部访问链接;
从每个访问链接中提取访问路径特征,并对访问路径特征进行拼接,得到与访问链接匹配的访问行为特征;
对访问行为特征按照访问时间顺序进行排序,以生成请求对象对应的对象访问轨迹。
可选地,本申请实施例中的上述目标时间段可以为一段预先定义的时间段,也可以为通过检测用户的访问行为的多少而自动设定的目标时间段。例如,用户访问行为数量较多,则设置目标时间段时长较短。
可选地,上述访问路径特征可以为所访问的链接中的关键字。将关键字拼接为访问行为特征,访问行为特征可以为一组关键字。在得到每一个链接的访问行为特征之后,按照时间先后的顺序,可以将所有的访问行为特征进行排序,得到对象访问轨迹。
例如,继续结合上述示例进行说明。用户访问上述页面1和上述页面2之后,页面1的链接地址为“****/app1/1”,页面2的链接地址为“****/app2/2”。首先,对于一个链接地址,提取其中的访问路径特征,“****”、“app1”、“1”、“/”,然后将访问路径特征进行拼接。拼接的过程可以按照链接地址的顺序拼接也可以随机进行拼接。拼接得到访问行为特征,页面1与页面2各得到一个访问行为特征。然后由于用户先访问的页面1后访问的页面2,因此,对于页面1、2的访问行为特征需要按照时间顺序进行排序,得到最后的对象访问轨迹。
通过本实施例,通过上述方法,从而实现了准确获取用户的对象访问轨迹的效果,进一步提高了识别用户行为是否异常的准确性。
作为一种可选的实施方式,在从每个访问链接中提取访问路径特征,并对访问路径特征进行拼接,得到与访问链接匹配的访问行为特征包括:
从访问链接中提取访问路径中的一级访问目录位置及访问资源后缀标识,其中,访问路径特征包括一级访问目录位置及访问资源后缀标识;
对一级访问目录位置及访问资源后缀标识进行组合拼接,以生成访问链接匹配的访问行为特征。
可选地,上述一级访问目录位置可以为所访问的同源的链接地址中的第一级目录的目录名称。
上述访问资源后缀标识可以为在该目录位置下的资源的类型标识。不同的资源类型可以对应不同的标识。
继续结合上述示例进行说明。用户在访问上述网页1与网页2之后,还访问了服务器上的某个路径下的数据,如访问了“****/save”下的文件“.png”,则在获取访问行为特征时,需要获取上述路径的第一级目录位置“save”,而且获取访问的文件的类型“.png”,还可以获取文件名称,拼接得到访问行为特征。
通过本实施例,通过上述方法,从而实现了提高获取访问行为特征的准确度的效果,进一步提高了识别访问行为是否异常的准确度的效果。
作为一种可选的实施方式,将对象访问轨迹转化为对应的对象访问轨迹序列包括:
统计各个访问行为特征中的字符串的出现频率;
根据出现频率从字符串确定出目标字符串;
对目标字符串进行哈希编码处理,以得到对象访问轨迹转化后的对象访问轨迹序列。
可选地,上述确定目标字符串可以为将出现频率最高的字符串确定为目标字符串,也可以为将出现频率超过一个预定的值的字符串确定为目标字符串。
例如,继续结合上述示例进行说明。在获取到用户的访问行为数据中的访问行为特征之后,在统计访问行为特征中的字符串的出现频率,将出现频率最高的字符串确定为目标字符串,对目标字符串做哈希编码处理,处理后得到的处理结果作为用户的访问轨迹序列。
通过本实施例,通过上述方法,从而实现了提高对访问行为进行识别的准确度的效果。
作为一种可选的实施方式,将对象访问轨迹序列依次输入行为识别模型,以得到与对象访问轨迹相匹配的行为识别相似度包括:
在行为识别模型是基于隐马尔可夫模型创建的情况下,通过行为识别模型获取对象访问轨迹序列对应的对象状态转移概率矩阵和对象观测概率矩阵,其中,对象状态转移概率矩阵中的每个元素用于指示对象访问轨迹序列对应的多个隐藏状态中任意两个隐藏状态之间进行转换的概率,对象观测概率矩阵是基于对象状态转移概率矩阵计算得到;
基于行为识别模型的初始状态概率矩阵、对象状态转移概率矩阵和对象观测概率矩阵,确定行为识别相似度。
可选地,本申请实施例中的行为识别模型可以为预先使用样本数据进行训练得到的模型。模型可以为隐马尔可夫模型。在获取到访问轨迹序列之后,将访问轨迹序列输入到隐马尔科夫模型中,隐马尔科夫模型将由访问轨迹序列获取用户的对象状态转移概率矩阵和对象观测概率矩阵,然后确定出访问轨迹序列对应的访问行为与正常的访问行为的相似度。
通过本实施例,通过上述方法,从而实现了提高获取的到的相似度的准确度,进一步提高了识别访问行为是否异常的准确度。
作为一种可选的实施方式,在获取请求访问目标地址的访问行为数据之前,还包括:
获取访问行为的访问行为数据,作为样本访问行为数据;
对检测到攻击行为数据的样本访问行为数据进行轨迹提取,得到样本访问轨迹;
将样本访问轨迹转化为对应的样本访问轨迹序列;
将样本访问轨迹序列输入初始行为识别模型进行训练,以得到行为识别模型,其中,行为识别模型中包括初始状态概率矩阵。
可选地,本申请实施例中在训练模型的过程中,可以获取访问行为的访问行为数据。使用访问行为的访问行为数据训练行为识别模型。
通过本实施例,通过使用访问行为的访问行为数据训练行为识别模型,从而提高了行为识别模型训练效果,进一步提高了识别异常行为的准确度。
作为一种可选的实施方式,在获取请求访问目标地址的访问行为数据之前,还包括:
将训练完成的行为识别模型部署在与目标地址的目标路由关联的防护系统中,其中,防护系统与攻击行为检测系统具有通信关系,攻击行为检测系统用于根据目标地址的访问流量变化数据,从访问行为数据中检测出攻击行为数据。
可选地,上述防护系统可以为为目标地址所配置的专用于识别访问目标地址的行为是否异常的系统。本申请实施例中的防护系统可以服务于一个地址,即目标地址,也可以服务多个地址,多个地址可以为有关联的地址或者无关联的地址。在用户访问防护系统所服务的地址的时候,由防护系统判断访问行为是否异常。
上述攻击行为检测系统可以为用于检测访问行为数据中是否包括攻击行为数据的系统。如果访问行为数据中包括攻击行为数据,则进一步判断访问行为数据是否异常。如果访问行为数据中不包括攻击行为数据,可以不对访问行为数据进行异常检测,认为访问行为数据正常。
通过本实施例,通过上述方法,从而实现了提高识别访问行为是否异常的准确度的效果。
作为一种可选的实施方式,在获取请求访问目标地址的访问行为数据之后,还包括:
在目标路由对访问行为数据进行镜像处理,得到镜像访问行为数据的情况下,将镜像访问行为数据发送攻击行为检测系统;
在攻击行为检测系统从镜像访问行为数据中检测出攻击行为数据的情况下,确定访问行为数据中包括攻击行为数据。
可选地,本申请实施例中,可以在确定访问行为数据中是否包括攻击行为数据的过程中,可以使用攻击行为检测系统对访问行为数据的镜像访问行为数据进行识别,以识别访问行为数据中是否包括攻击行为数据。镜像访问行为数据可以为使用目标路由对访问行为数据做镜像处理所得到的数据。
通过本实施例,通过对镜像访问行为数据进行识别以确定访问行为数据是否包括攻击行为数据,实现了提高检测攻击行为数据的准确度的效果。
作为一种可选的实施方式,在将行为识别相似度小于目标阈值的对象访问轨迹序列所指示的对象访问行为,识别为异常访问行为之后,还包括:
基于行为识别模型的输出结果,为发起访问请求的请求对象分配识别标签,其中,识别标签包括:异常访问行为对应的第一标签,和正常访问行为对应的第二标签;
在防护系统中,根据第一标签识别出执行异常访问行为的第一目标请求对象,并对第一目标请求对象对应的异常流量进行清洗;
在防护系统中,根据第二标签识别出执行正常访问行为的第二目标请求对象,并对第二目标请求对象对应的正常流量发送至服务器。
可选地,本申请实施例中对于已经识别出的异常访问行为与正常访问行为,可以进行记录,在其他用户或对象使用相同的访问行为进行访问的时候,可以根据已经记录的异常访问行为与正常访问行为进行比对,如果一致,则进行对应的后续处理。例如,用户1被识别出异常访问行为,记录异常访问行为后,用户2执行了与用户1相同的访问行为,则可以直接确定用户2的访问行为也是异常访问行为。可以直接对用户2的异常流量进行清洗。如果用户2的访问行为是正常访问行为,则可以将正常流量发送至服务器,由服务器进行处理。
结合具体示例对上述行为识别方法进行说明。
本申请实施例所使用的行为识别模型可以为隐马尔科夫模型、贝叶斯网络、马尔科夫随机场等学习的概率模型。以隐马尔科夫模型为例,本申请实施例首先需要对隐马尔科夫模型进行训练,用于得到识别异常访问行为的隐马尔科夫模型模型。训练需要获取样本数据。样本数据可以通过旁路抓包方式采集正常业务抓包。然后使用样本数据训练隐马尔科夫模型模型。
本申请实施例中隐马尔可夫模型(Hidden Markov Model,简称为HMM)是一种有向图模型,属于一种概率图模型,是关于时序的概率模型。描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程。隐藏的马尔可夫链随机生成不可观测的状态的序列称为状态序列;每个状态生成一个观测,再由此产生的观测的随机序列,称为观测序列。序列的每一个位置可以看作是一个时刻。
隐马尔可夫模型由初始概率分布、状态转移概率分布、观测概率分布确定。设Q是所有可能的状态的集合,V是所有可能的观测的集合,即:
Figure 384487DEST_PATH_IMAGE001
Q是所有可能的状态的集合,即假设有A,B,C,3种状态,则Q=(A,B,C),V是观测状态集合,即假设有正常、异常2种状态,则V=(正常,异常);
其中,N是可能的状态数,M是可能的观测数。
I是长度为T的状态序列,O是对应的观测序列,即:
Figure 442573DEST_PATH_IMAGE002
假设观察5个单位时间的状态,则I可能的一个序列是(A,C,A,B,A);其对应的观测序列可能是O=(正常,异常,异常,正常,异常);
V是去重之后所有可能的取值构成的集合,O则是由时间顺序的取值序列。
A为状态转移概率矩阵(N*N矩阵):
Figure 425573DEST_PATH_IMAGE003
i,j为正整数。其中,
Figure 991421DEST_PATH_IMAGE004
即在时刻t处于状态
Figure 133689DEST_PATH_IMAGE005
的条件下在时刻t+1转移到状态
Figure 487310DEST_PATH_IMAGE006
的概率。B为观测概率矩阵(N*M矩阵):
Figure 924983DEST_PATH_IMAGE007
其中,
Figure 327145DEST_PATH_IMAGE008
是在时刻t处于状态
Figure 730445DEST_PATH_IMAGE005
的条件下生成观测
Figure 130333DEST_PATH_IMAGE009
的概率。记π为初始状态概率向量:
Figure 415821DEST_PATH_IMAGE010
,k为正整数。
其中:
Figure 261155DEST_PATH_IMAGE011
表示时刻t=1处于状态
Figure 456644DEST_PATH_IMAGE005
的概率。因此,HMM模型λ可以用三元符号表示,即:
Figure 417647DEST_PATH_IMAGE012
),A,B,π称为HMM模型的三要素。
对于一个用户访问统一资源定位符(uniform resource locator,简称为url)的时序序列,将访问的url看成随机变量,
http referer 表示当前页面是从哪个页面链接过来的。因此直观上,url 的转换是一阶马尔科夫过程。本质上是多阶马尔科夫过程,用一节马尔可夫过程即可表示。比如一个购物网站,用户访问的路径可能为先登录,或者不登录直接进入主页搜索商品,或者逛街一样的浏览首页上的商品,查看类似商品选择购买或者不购买,最后退出。这就是一个合理的访问。假如一个访问一直在访问某类商品的价格,它是一个不合理的访问。隐马尔科夫的预测问题即可描述一个访问轨迹是否合理。如图4所示。一阶马尔可夫过程认为访问rul4受url3影响,二阶马尔可夫过程认为访问rul4受url2影响和访问rul4受url3影响。可以根据HMM训练需要选择一阶或二阶或多阶。
在模型的训练的过程中,需要获取样本数据。本申请实施例中的样本数据可以为正常访问行为的访问行为数据,或者为正常访问行为和异常访问行为的访问行为数据。由于正常访问的访问行为数据数据量大,便于大量获取样本并进行更精准的模型训练。
以使用正常访问行为的访问行为数据训练模型为例,获取用户正常访问行为所访问的url。可以通过抽象泛化将url泛化为标识,如果不泛化会导致观测状态数量巨大,降低模型速度同时也会导致过拟合。此外,也可以使用正常访问行为和异常访问行为的访问行为数据训练模型。
泛化可以使用资源泛化模型实现。对于指定的域名,在单位时间窗内,以同一个源(如一个用户或客户端等)为单位,提取其所有访问的url的一级目录和访问资源后缀,并按照时间顺序组合作为该域名的一条访问轨迹。改变访问源或移动时间窗口,可得到该域名的多条访问轨迹,这些访问轨迹序列即为训练集。
例如,要训练域名“image.baidu.com”的HMM模型,获取得到同一个源在10s内访问的url分别为:
“image.baidu.com/search/detail/picture.png”
“image.baidu.com/test/detail/media.php”
“image.baidu.com/include/detail/aaa.html”
“image.baidu.com/dialog/detail/lalala.jpg”
通过资源泛化模型的访问轨迹为:
“search_png->test_php->include_html->dialog_jpg”。
数据提取模块提取出的访问轨迹序列需要经过数据预处理,转化为模型可理解的形式。同时,通过合适的预处理方法,可以帮助模型更快收敛,学到更准确的特征。
在此过程中,将数据预处理后的访问轨迹输入到模型中。由于已经知晓访问轨迹是正常访问行为的访问行为轨迹,因此,如果模型输出结果表示该访问轨迹并不是正常访问行为的访问行为轨迹,则需要调整模型中的权重或参数,从而使调整后的模型输入访问轨迹的输出结果表示该访问轨迹为正常访问行为的访问行为轨迹。通过多个训练样本训练模型,可以逐渐调整模型的参数到合适的数值或范围,之后模型在输入访问行为轨迹后可以输出访问行为轨迹是否为正常访问行为的访问行为轨迹,识别准确度是高的。
如果使用正常访问行为的访问行为数据与异常访问行为的访问行为数据训练模型,则将正常访问行为的访问行为数据得到的访问行为轨迹经过预处理后输入到模型中,由模型输出结果,如果模型输出的结果为输入的访问行为轨迹对应的访问行为数据为异常访问行为数据,则说明模型的识别结果是错误的。或者将异常访问行为的访问行为数据对应的访问轨迹进行预处理后输入到模型中,由模型给出识别结果,识别结果为输入的轨迹对应的访问行为数据为正常的访问行为数据,则说明识别结果是错误的。如果识别结果是错误的,则需要调整模型的参数,从而使用样本数据逐渐提高模型的识别准确度。
数据预处理
词集和词袋模型是机器学习中的一个数据处理模型,用于特征化字符串型数据。先将样本分词后,统计每个词的频率,即词频,根据需要选择全部或者部分词作为哈希表键值,即词和对应的词频组成键值对,并依次对该哈希表编号,这样就可以使用该哈希表对字符串进行编码,将字符串转换为哈希表中的数据。使用哈希表可以将词与词频的键值对映射到表中的一个位置,从而提高查找速度。
也就是说,对访问轨迹序列进行分词,以及统计词出现的频率。
词集模型:单词构成的集合,集合每个元素都只有一个,也即词集中的每个单词都只有一个。即对上述分词结果进行统计,合并相同的词和词频。
词袋模型:如果一个单词在文档中出现不止一次,并统计其出现的次数
采用词袋模型对访问轨迹序列进行预处理。将经过资源泛化与词袋模型处理后的特征向量输入HMM模型中,让HMM模型充分学习正常访问轨迹的模式,HMM模型的识别准确度超过预设值可以认为HMM模型已经充分学习。并具备识别异常能力。图5为HMM行为识别建模示意图。假设有3个隐藏状态,该状态不具备物理含义,经过资源泛化与预处理后的访问轨迹序列即为观测状态。HMM模型通过训练集学习各个隐藏状态间的转换概率以及隐藏状态到观测状态的预测概率。
HMM模型完成训练后通常可以解决输入观察序列获取概率,从而判断观察序列的合法性。行为异常检测就输入观察序列。定义T为目标阈值,概率小于T的参数识别为异常。
HMM模型训练好后,可以用于异常访问行为的识别。防护系统的部署架构如图6所示。防护流程涉及:攻击检测系统602、控制系统604、防护系统606。检测防护流程。因特网服务网络将用户访问行为数据发送到核心路由器608,核心路由器608对数据进行镜像,将镜像数据发送到攻击检测系统602进行检测,并使用流量牵引将数据发送到防护系统606。防护系统606对数据进行分析过滤,把正常数据回流到核心路由器608,由核心路由器将正常数据通过核心网610关发送到服务器612。
核心路由器通过分光器进行分光,得到镜像流量数据,把镜像流量转发到攻击检测系统,做攻击检测,当攻击检测系统检测到攻击之后,会产生告警到控制系统,防护系统收到告警,会通过与核心路由器建立的边界网关协议(Border Gateway Protocal,简称为BGP)邻居关系,向核心路由器发布被攻击的IP的牵引路由做流量牵引,将攻击流量牵引到清洗系统,防护系统会对流量做分析和过滤,最后把攻击流量清洗,并把正常流量回注。
攻击流量清洗方法:当被保护IP遭受到攻击后,这个IP的所有流量(包括正常流量和攻击流)都被牵引到防护系统上,防护系统会通过标签对攻击流量进行识别和清洗,最后把正常流量回注到服务器上,攻击流量的清洗方法如下:
在防护系统中部署HMM行为识别模型(已经通过大量数据训练好),防护进程与HMM行为识别模型通过套接字socket进行通信,防护进程在防护过程中采集当前流量中的所有特征数据,即用户的访问行为数据(数据采集统计方式与数据提取模块的实现方式一样),并发送到HMM行为识别模型。HMM行为识别模型对待检测数据判断,会在每条数据最后打上result标签,并把这个结果输出到防护进程。防护进程会基于这些结果来做清洗,被识别为异常报文的源IP,防护进程会将其拉黑(这个来源IP的所有报文将被丢弃)。正常来源IP的报文会被模型识别成正常,所有正常来源IP并不会被拉黑,所以这些IP的流量会被防护进程转发到服务器。通过上述步骤,就可以完成对攻击流量的识别和清洗,并将正常流量转发到服务器上。
基于隐马尔可夫(HMM)算法对访问请求的路径转移特征进行学习建模,该方案可以通过海量的旁路数据训练行为分析模型,模型训练成熟后就具有自动判断正常流量和攻击流量的能力。最后在防护过程中,防护系统保持与模型通信:防护系统负责采集数据,并发送到行为分析模型,行为分析模型判断数据的合法性,并把结果发送到防护系统,防护系统根据行为分析模型的判断结果可以把恶意的源IP拉黑,从而实现对HTTP CC攻击的有效防护。本申请实施例的流程图可以如图7的步骤S702到步骤S712所示。S702获取待检测的用户行为数据,S704,提取待检测的用户行为数据的特征,S706,对提取的特征进行预处理,S708将预处理后的数据输入到行为识别模型中。行为识别模型经过预先的训练,S710行为识别模型检测用户行为数据并给出输出结果。此外,模型还可以进行评估优化, 以提高识别准确度。
本方案效果稳定,泛化能力强,针对新上线的业务也可及时防护。同时,兼容API/APP场景,适用场景更全面;对用户完全透明,不会带来不佳的用户体验。
本申请实施例可以配置管理账号,管理账号可以配置识别访问行为中的如目标地址等数据,也可以查看识别结果。例如,如图8所示,图8为一种可选的显示识别结果的示意图。1可以表示识别结果异常,2表示世界结果正常。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述行为识别方法的行为识别装置。如图9所示,该装置包括:
获取单元902,用于获取请求访问目标地址的访问行为数据;
提取单元904,用于在从访问行为数据中检测到攻击行为数据的情况下,提取访问行为数据中的对象访问轨迹,其中,每条对象访问轨迹为一个访问请求对象在目标时间段内触发的访问行为所生成的访问轨迹;
转化单元906,用于将对象访问轨迹转化为对应的对象访问轨迹序列;
输入单元908,用于将对象访问轨迹序列依次输入行为识别模型,以得到与对象访问轨迹相匹配的行为识别相似度,其中,行为识别模型为采用访问行为的访问行为数据进行训练后得到的用于识别异常访问行为的模型,行为识别相似度用于指示对象访问轨迹序列所指示的对象访问行为与正常访问行为之间的相似度;
第一识别单元910,用于将行为识别相似度小于目标阈值的对象访问轨迹序列所指示的对象访问行为,识别为异常访问行为。
可选地,本实施例中的示例请参见上述示例,在此不再赘述。
根据本发明实施例的又一个方面,还提供了一种用于实施上述行为识别方法的电子设备,该电子设备可以是图10所示的设备。如图10所示,该电子设备包括存储器1002和处理器1004,该存储器1002中存储有计算机程序,该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
获取请求访问目标地址的访问行为数据;
在从访问行为数据中检测到攻击行为数据的情况下,提取访问行为数据中的对象访问轨迹,其中,每条对象访问轨迹为一个访问请求对象在目标时间段内触发的访问行为所生成的访问轨迹;
将对象访问轨迹转化为对应的对象访问轨迹序列;
将对象访问轨迹序列依次输入行为识别模型,以得到与对象访问轨迹相匹配的行为识别相似度,其中,行为识别模型为采用访问行为的访问行为数据进行训练后得到的用于识别异常访问行为的模型,行为识别相似度用于指示对象访问轨迹序列所指示的对象访问行为与正常访问行为之间的相似度;
将行为识别相似度小于目标阈值的对象访问轨迹序列所指示的对象访问行为,识别为异常访问行为。
可选地,本领域普通技术人员可以理解,图10所示的结构仅为示意,电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图10其并不对上述电子装置电子设备的结构造成限定。例如,电子装置电子设备还可包括比图10中所示更多或者更少的组件(如网络接口等),或者具有与图10所示不同的配置。
其中,存储器1002可用于存储软件程序以及模块,如本发明实施例中的行为识别方法和装置对应的程序指令/模块,处理器1004通过运行存储在存储器1002内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的行为识别方法。存储器1002可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1002可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1002具体可以但不限于用于存储访问行为数据与行为识别模型等信息。作为一种示例,如图10所示,上述存储器1002中可以但不限于包括上述行为识别装置中的获取单元1002、提取单元1004、转化单元1006、输入单元1008和第一识别单元1010。此外,还可以包括但不限于上述行为识别装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1006包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1006为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器1008,用于显示识别结果;和连接总线1010,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述行为识别方法。其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
获取请求访问目标地址的访问行为数据;
在从访问行为数据中检测到攻击行为数据的情况下,提取访问行为数据中的对象访问轨迹,其中,每条对象访问轨迹为一个访问请求对象在目标时间段内触发的访问行为所生成的访问轨迹;
将对象访问轨迹转化为对应的对象访问轨迹序列;
将对象访问轨迹序列依次输入行为识别模型,以得到与对象访问轨迹相匹配的行为识别相似度,其中,行为识别模型为采用访问行为的访问行为数据进行训练后得到的用于识别异常访问行为的模型,行为识别相似度用于指示对象访问轨迹序列所指示的对象访问行为与正常访问行为之间的相似度;
将行为识别相似度小于目标阈值的对象访问轨迹序列所指示的对象访问行为,识别为异常访问行为。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种行为识别方法,其特征在于,包括:
获取请求访问预设的多个地址中的目标地址的访问行为数据;
在从所述访问行为数据中检测到攻击行为数据的情况下,提取所述访问行为数据中的对象访问轨迹,其中,每条所述对象访问轨迹为一个访问请求对象在目标时间段内触发的访问行为所生成的访问轨迹,所述对象访问轨迹为所述访问请求对象在所述目标时间段内所访问的每一个访问链接的一级访问目录位置及访问资源后缀标识按照访问时间顺序排序而生成的轨迹;
将所述对象访问轨迹转化为对应的对象访问轨迹序列,包括:统计所述对象访问轨迹中的字符串的出现频率;根据所述出现频率从所述字符串确定出目标字符串;对所述目标字符串进行哈希编码处理,以得到所述对象访问轨迹转化后的所述对象访问轨迹序列;
将所述对象访问轨迹序列依次输入行为识别模型,以得到与所述对象访问轨迹相匹配的行为识别相似度,其中,所述行为识别模型为采用访问行为的访问行为数据进行训练后得到的用于识别异常访问行为的模型,所述行为识别相似度用于指示所述对象访问轨迹序列所指示的对象访问行为与正常访问行为之间的相似度;
将所述行为识别相似度小于目标阈值的所述对象访问轨迹序列所指示的所述对象访问行为,识别为异常访问行为。
2.根据权利要求1所述的方法,其特征在于,所述提取所述访问行为数据中的对象访问轨迹包括:
从所述访问行为数据中,提取每个发起访问请求的请求对象在所述目标时间段内所访问的全部访问链接;
从每个访问链接中提取访问路径特征,并对所述访问路径特征进行拼接,得到与所述访问链接匹配的访问行为特征;
对所述访问行为特征按照访问时间顺序进行排序,以生成所述请求对象对应的所述对象访问轨迹。
3.根据权利要求2所述的方法,其特征在于,在所述从每个访问链接中提取访问路径特征,并对所述访问路径特征进行拼接,得到与所述访问链接匹配的访问行为特征包括:
从所述访问链接中提取访问路径中的一级访问目录位置及访问资源后缀标识,其中,所述访问路径特征包括所述一级访问目录位置及所述访问资源后缀标识;
对所述一级访问目录位置及所述访问资源后缀标识进行组合拼接,以生成所述访问链接匹配的所述访问行为特征。
4.根据权利要求1所述的方法,其特征在于,所述将所述对象访问轨迹序列依次输入行为识别模型,以得到与所述对象访问轨迹相匹配的行为识别相似度包括:
在所述行为识别模型是基于隐马尔可夫模型创建的情况下,通过所述行为识别模型获取所述对象访问轨迹序列对应的对象状态转移概率矩阵和对象观测概率矩阵,其中,所述对象状态转移概率矩阵中的每个元素用于指示所述对象访问轨迹序列对应的多个隐藏状态中任意两个隐藏状态之间进行转换的概率,所述对象观测概率矩阵是基于所述对象状态转移概率矩阵计算得到;
基于所述行为识别模型的初始状态概率矩阵、所述对象状态转移概率矩阵和所述对象观测概率矩阵,确定所述行为识别相似度。
5.根据权利要求4所述的方法,其特征在于,在所述获取请求访问目标地址的访问行为数据之前,还包括:
获取所述访问行为的访问行为数据,作为样本访问行为数据;
对检测到所述攻击行为数据的样本访问行为数据进行轨迹提取,得到样本访问轨迹;
将所述样本访问轨迹转化为对应的样本访问轨迹序列;
将所述样本访问轨迹序列输入初始行为识别模型进行训练,以得到所述行为识别模型,其中,所述行为识别模型中包括所述初始状态概率矩阵。
6.根据权利要求4所述的方法,其特征在于,在所述获取请求访问目标地址的访问行为数据之前,还包括:
将训练完成的所述行为识别模型部署在与所述目标地址的目标路由关联的防护系统中,其中,所述防护系统与攻击行为检测系统具有通信关系,所述攻击行为检测系统用于根据所述目标地址的访问流量变化数据,从所述访问行为数据中检测出所述攻击行为数据。
7.根据权利要求6所述的方法,其特征在于,在所述获取请求访问目标地址的访问行为数据之后,还包括:
在所述目标路由对所述访问行为数据进行镜像处理,得到镜像访问行为数据的情况下,将所述镜像访问行为数据发送至所述攻击行为检测系统;
在所述攻击行为检测系统从所述镜像访问行为数据中检测出所述攻击行为数据的情况下,确定所述访问行为数据中包括所述攻击行为数据。
8.根据权利要求6所述的方法,其特征在于,在所述将所述行为识别相似度小于目标阈值的所述对象访问轨迹序列所指示的所述对象访问行为,识别为异常访问行为之后,还包括:
基于所述行为识别模型的输出结果,为发起访问请求的请求对象分配识别标签,其中,所述识别标签包括:所述异常访问行为对应的第一标签,和所述正常访问行为对应的第二标签;
在所述防护系统中,根据所述第一标签识别出执行所述异常访问行为的第一目标请求对象,并对所述第一目标请求对象对应的异常流量进行清洗;
在所述防护系统中,根据所述第二标签识别出执行所述正常访问行为的第二目标请求对象,并对所述第二目标请求对象对应的正常流量发送至服务器。
9.根据权利要求1所述的方法,其特征在于,所述访问行为为正常访问行为,在所述获取请求访问目标地址的访问行为数据之前,还包括:
获取所述正常访问行为的访问行为数据,作为样本访问行为数据;
使用检测到所述攻击行为数据的样本访问行为数据训练初始行为识别模型,以得到所述行为识别模型。
10.一种行为识别装置,其特征在于,包括:
获取单元,用于获取请求访问预设的多个地址中的目标地址的访问行为数据;
提取单元,用于在从所述访问行为数据中检测到攻击行为数据的情况下,提取所述访问行为数据中的对象访问轨迹,其中,每条所述对象访问轨迹为一个访问请求对象在目标时间段内触发的访问行为所生成的访问轨迹,所述对象访问轨迹为所述访问请求对象在所述目标时间段内所访问的每一个访问链接的一级访问目录位置及访问资源后缀标识按照访问时间顺序排序而生成的轨迹;
转化单元,用于将所述对象访问轨迹转化为对应的对象访问轨迹序列,包括:统计所述对象访问轨迹中的字符串的出现频率;根据所述出现频率从所述字符串确定出目标字符串;对所述目标字符串进行哈希编码处理,以得到所述对象访问轨迹转化后的所述对象访问轨迹序列;
输入单元,用于将所述对象访问轨迹序列依次输入行为识别模型,以得到与所述对象访问轨迹相匹配的行为识别相似度,其中,所述行为识别模型为采用访问行为的访问行为数据进行训练后得到的用于识别异常访问行为的模型,所述行为识别相似度用于指示所述对象访问轨迹序列所指示的对象访问行为与正常访问行为之间的相似度;
第一识别单元,用于将所述行为识别相似度小于目标阈值的所述对象访问轨迹序列所指示的所述对象访问行为,识别为异常访问行为。
11.根据权利要求10所述的装置,其特征在于,所述提取单元包括:
第一提取模块,用于从所述访问行为数据中,提取每个发起访问请求的请求对象在所述目标时间段内所访问的全部访问链接;
第二提取模块,用于从每个访问链接中提取访问路径特征,并对所述访问路径特征进行拼接,得到与所述访问链接匹配的访问行为特征;
排序模块,用于对所述访问行为特征按照访问时间顺序进行排序,以生成所述请求对象对应的所述对象访问轨迹。
12.根据权利要求11所述的装置,其特征在于,所述第二提取模块包括:
提取子模块,用于从所述访问链接中提取访问路径中的一级访问目录位置及访问资源后缀标识,其中,所述访问路径特征包括所述一级访问目录位置及所述访问资源后缀标识;
拼接子模块,用于对所述一级访问目录位置及所述访问资源后缀标识进行组合拼接,以生成所述访问链接匹配的所述访问行为特征。
13.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至9任一项中所述的方法。
14.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至9任一项中所述的方法。
CN202011490782.3A 2020-12-17 2020-12-17 行为识别方法和装置、存储介质及电子设备 Active CN112231700B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011490782.3A CN112231700B (zh) 2020-12-17 2020-12-17 行为识别方法和装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011490782.3A CN112231700B (zh) 2020-12-17 2020-12-17 行为识别方法和装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN112231700A CN112231700A (zh) 2021-01-15
CN112231700B true CN112231700B (zh) 2021-05-11

Family

ID=74124182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011490782.3A Active CN112231700B (zh) 2020-12-17 2020-12-17 行为识别方法和装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN112231700B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662818B (zh) * 2023-08-01 2023-11-03 杭州宇谷科技股份有限公司 异常换电用户识别方法、系统、设备和可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103095711A (zh) * 2013-01-18 2013-05-08 重庆邮电大学 一种针对网站的应用层DDoS攻击检测方法和防御系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109120592A (zh) * 2018-07-09 2019-01-01 四川大学 一种基于用户行为的Web异常检测系统
CN109660502A (zh) * 2018-09-28 2019-04-19 平安科技(深圳)有限公司 异常行为的检测方法、装置、设备及存储介质
US11336668B2 (en) * 2019-01-14 2022-05-17 Penta Security Systems Inc. Method and apparatus for detecting abnormal behavior of groupware user
CN111970269B (zh) * 2020-08-14 2022-04-08 中国民航信息网络股份有限公司 一种服务器访问行为识别方法、装置及服务器
CN112087452B (zh) * 2020-09-09 2022-11-15 北京元心科技有限公司 异常行为检测方法、装置、电子设备及计算机存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103095711A (zh) * 2013-01-18 2013-05-08 重庆邮电大学 一种针对网站的应用层DDoS攻击检测方法和防御系统

Also Published As

Publication number Publication date
CN112231700A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
US20210019674A1 (en) Risk profiling and rating of extended relationships using ontological databases
CN105095211B (zh) 多媒体数据的获取方法和装置
CN109905288B (zh) 一种应用服务分类方法及装置
CN108334758B (zh) 一种用户越权行为的检测方法、装置及设备
CN102185762B (zh) 用户数据发送行为的识别与提取方法
CN103189836A (zh) 用于对图数据流中的对象分类的方法
CN110046297B (zh) 运维违规操作的识别方法、装置和存储介质
US11880401B2 (en) Template generation using directed acyclic word graphs
Chiew et al. Building standard offline anti-phishing dataset for benchmarking
CN113706100B (zh) 配电网物联终端设备实时探测识别方法与系统
CN114338064B (zh) 识别网络流量类型的方法、装置、系统、设备和存储介质
CN111371778A (zh) 攻击团伙的识别方法、装置、计算设备以及介质
CN114330966A (zh) 一种风险预测方法、装置、设备以及可读存储介质
CN112256880A (zh) 文本识别方法和装置、存储介质及电子设备
CN114422211A (zh) 基于图注意力网络的http恶意流量检测方法及装置
CN114422271B (zh) 数据处理方法、装置、设备及可读存储介质
CN112231700B (zh) 行为识别方法和装置、存储介质及电子设备
CN107786529B (zh) 网站的检测方法、装置及系统
WO2018047027A1 (en) A method for exploring traffic passive traces and grouping similar urls
CN106844553A (zh) 基于样本数据的数据探测和扩充方法及装置
CN114915468B (zh) 基于知识图谱的网络犯罪智能分析检测方法
CN107332856B (zh) 地址信息的检测方法、装置、存储介质和电子装置
CN106982147A (zh) 一种Web通讯应用的通讯监控方法和装置
CN114328818A (zh) 文本语料处理方法、装置、存储介质及电子设备
CN114492576A (zh) 一种异常用户检测方法、系统、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40037754

Country of ref document: HK