CN115051863A - 异常流量检测的方法、装置、电子设备及可读存储介质 - Google Patents

异常流量检测的方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN115051863A
CN115051863A CN202210704879.2A CN202210704879A CN115051863A CN 115051863 A CN115051863 A CN 115051863A CN 202210704879 A CN202210704879 A CN 202210704879A CN 115051863 A CN115051863 A CN 115051863A
Authority
CN
China
Prior art keywords
uri
entity
feature
attribute information
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210704879.2A
Other languages
English (en)
Other versions
CN115051863B (zh
Inventor
蔡挺
孙基栩
司红星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siwei Chuangzhi Beijing Technology Development Co ltd
Original Assignee
Siwei Chuangzhi Beijing Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siwei Chuangzhi Beijing Technology Development Co ltd filed Critical Siwei Chuangzhi Beijing Technology Development Co ltd
Priority to CN202210704879.2A priority Critical patent/CN115051863B/zh
Publication of CN115051863A publication Critical patent/CN115051863A/zh
Application granted granted Critical
Publication of CN115051863B publication Critical patent/CN115051863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Debugging And Monitoring (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请涉及一种异常流量检测的方法、装置、电子设备及可读存储介质,涉及网络安全技术领域。该方法包括:获取基于Web日志构建的知识图谱,基于知识图谱获取实体和实体之间的关系以及各个实体分别对应的属性信息,实体和实体之间的关系包括:IP实体和URI实体之间的关系,各个实体分别对应的属性信息包括:IP实体的属性信息和URI实体的属性信息,基于实体和实体之间的关系以及各个实体分别对应的属性信息确定Web日志数据特征集合,对Web日志数据特征集合进行异常流量检测。本申请提供的异常流量检测的方法、装置、电子设备及可读存储介质可以通过多方面的数据特征进行异常检测,进而降低发现异常行为的难度。

Description

异常流量检测的方法、装置、电子设备及可读存储介质
技术领域
本申请涉及网络安全技术领域,尤其是涉及一种异常流量检测的方法、装置、电子设备 及可读存储介质。
背景技术
目前随着互联网技术的快速发展,Web应用在信息化服务中的基础性作用日益增强,针 对Web应用的网络安全攻击是攻击团伙常用且主要的威胁手段,恶意的网页访问请求将与 正常用户的访问流量共同被记录在Web日志中,因此针对Web日志的异常流量检测方法, 是保障企业信息安全的重要手段,成为维护企业安全的重要组成部分,在实际的异常流量检 测中,通过将Web日志的字段解析为表格型数据,该数据包括Web日志的字段内容,基于 Web日志字段的内容获取数据特征,对数据特征进行异常流量检测。
发明人在研究过程中发现:仅对Web日志字段的内容进行解析,从而导致用于异常检 测的数据特征不全面,进而导致难以发现Web日志的异常。
发明内容
本申请目的是提供一种异常流量检测的方法、装置、电子设备及可读存储介质,用于解 决以上至少一项技术问题。
本申请的上述发明目的是通过以下技术方案得以实现的:
第一方面,提供了一种异常流量检测的方法,该方法包括:
获取基于Web日志构建的知识图谱;
基于所述知识图谱获取实体和实体之间的关系以及各个实体分别对应的属性信息,所述 实体和实体之间的关系包括:IP实体和URI实体之间的关系,所述各个实体分别对应的属 性信息包括:IP实体的属性信息和URI实体的属性信息;
基于所述实体和实体之间的关系以及所述各个实体分别对应的属性信息确定Web日志 数据特征集合;
对所述Web日志数据特征集合进行异常流量检测。
在一种可能的实现方式中,所述各个实体分别对应的属性信息还包括:URI抽象实体的 属性信息、服务实体的属性信息以及服务器实体的属性信息;
所述基于所述实体和实体之间的关系以及所述各个实体分别对应的属性信息确定Web 日志数据特征集合,包括:
基于所述IP实体的属性信息、所述URI实体的属性信息、所述URI抽象实体的属性信 息、所述服务实体的属性信息、所述服务器实体的属性信息以及所述各实体与实体之间的关 系,计算节点中心度特征以及URI网页排名特征,所述节点中心度特征包括:IP节点的度 中心性、URI抽象节点的度中心性、服务节点的度中心性以及服务器节点的紧密中心性中的 至少一项,所述URI网页排名特征用于表征各个URI网页被访问的次数;
基于所述IP实体的属性信息、所述URI实体的属性信息、所述URI抽象实体的属性信 息以及所述各实体与实体之间的关系进行向量化处理,得到向量化处理后的信息;
基于所述节点中心度特征、所述URI网页排名特征以及所述向量化处理后的信息,确 定所述Web日志数据特征集合。
在另一种可能的实现方式中,所述向量化处理后的信息包括:URI类型特征、IP特征、 状态码特征、请求类型特征、协议特征、每个IP单位时间HTTP请求数特征、每个IP单位时间请求类型特征、每个IP单位时间请求的URI类型特征和URI抽象特征中的至少一项;
所述IP实体与URI实体之间的关系包括:IP实体与URI实体之间的关系属性,所述IP 实体与URI实体之间的关系属性包括:IP与URI之间的请求类型;
其中,基于URI实体的属性信息进行向量化处理,得到URI类型特征,包括:
对URI实体的属性信息进行语句表示学习,得到URI嵌入表示;
对所述URI嵌入表示进行聚类处理,得到URI类型特征;
其中,所述基于所述IP实体的属性信息、所述URI实体的属性信息、所述URI抽象实体的属性信息以及所述各实体和实体之间的关系进行向量化处理,得到向量化处理后的信息, 包括:
基于所述IP与URI之间请求类型以及所述URI类型特征进行统计处理,得到统计后的 数据,所述统计后的数据包括:所述每个IP单位时间HTTP请求数特征、所述每个IP单位时间请求类型特征以及所述每个IP单位时间请求的URI类型特征中的至少一项;
将所述IP实体的属性信息、所述IP实体与URI实体之间的关系属性以及所述URI抽象 实体的属性信息由非数值数据转换为数值数据,得到数值转换后的信息,所述数值转换后的 信息包括:所述IP特征、所述状态码特征、所述请求类型特征、所述协议特征、所述URI层级特征、所述URI参数个数特征、所述URI根目录词嵌入特征和所述URI资源文件类型 词嵌入特征中的至少一项。
在另一种可能的实现方式中,所述IP实体与URI实体之间的关系属性还包括:IP与URI之间的状态码和IP与URI之间的协议;
所述将IP实体的属性信息、IP实体与URI实体之间的关系属性以及URI抽象实体的属 性信息由非数值数据转换为数值数据,得到数值转换后的信息,包括:
对所述IP实体的属性信息、所述IP与URI之间的状态码、所述IP与URI之间的请求类型以及所述IP与URI之间的协议进行编码,得到编码处理后的特征,所述编码处理后的特征包括:IP特征、状态码特征、请求类型特征以及协议特征;
基于所述URI抽象实体的属性信息,确定根目录文本、资源文件类型、所述URI层级特征和所述URI参数个数特征;
基于所述根目录文本和所述资源文件类型,生成所述URI根目录词嵌入特征和所述 URI资源文件类型词嵌入特征。
在另一种可能的实现方式中,所述基于所述根目录文本和所述资源文件类型,生成所述 URI根目录词嵌入特征和所述URI资源文件类型词嵌入特征,之后还包括:
对所述URI根目录词嵌入特征和所述URI资源文件类型词嵌入特征池化处理,得到池 化处理后的URI根目录词嵌入特征和池化后的URI资源文件类型词嵌入特征;
将池化处理后的URI根目录词嵌入特征、池化后的URI资源文件类型词嵌入特征、所 述URI层级特征和所述URI参数个数特征确定为四维特征。
其中,所述基于所述节点中心度特征、所述URI网页排名特征以及所述向量化处理后 的信息,确定所述Web日志数据特征集合,包括:
基于所述节点中心度特征、所述URI网页排名特征、所述URI类型特征、所述统计后的数据以及所述四维特征,确定所述Web日志数据特征集合。
在另一种可能的实现方式中,所述数据特征集合还包括:请求字节数特征;所述请求字 节数特征是基于所述IP实体与URI实体之间的关系确定的;
所述方法还包括:
对所述请求字节数特征进行等频分箱处理;
对所述每个IP单位时间HTTP请求数特征、所述每个IP单位时间请求类型特征和所述 每个IP单位时间请求的URI类型特征进行等距分箱处理。
在另一种可能的实现方式中,所述方法还包括:
对所述Web日志特征集合中的各个特征进行归一化处理;或者,
确定待进行归一化的特征集合,并对所述待进行归一化的特征集合中的各个特征进行归 一化处理,所述待进行归一化的特征集合属于所述Web日志数据特征集合,且不包含所述 每个IP单位时间HTTP请求数特征、所述每个IP单位时间请求类型特征、所述每个IP单位 时间请求的URI类型特征以及所述请求字节数特征。
在另一种可能的实现方式中,所述对所述Web日志数据特征集合进行异常流量检测, 包括以下任一项:
基于归一化处理后的所述Web日志特征集合进行异常流量检测;
基于等频分箱处理结果、等距分箱处理结果以及归一化处理后的待进行归一化的特征集 合进行异常流量检测。
第二方面,提供了一种异常流量检测的装置,该装置包括:
第一获取模块,用于获取基于Web日志构建的知识图谱;
第二获取模块,用于基于所述知识图谱获取实体和实体之间的关系以及各个实体分别对 应的属性信息,所述实体和实体之间的关系包括:IP实体和URI实体之间的关系,所述各 个实体分别对应的属性信息包括:IP实体的属性信息和URI实体的属性信息;
第一确定模块,用于基于所述实体和实体之间的关系以及所述各个实体分别对应的属性 信息确定Web日志数据特征集合;
检测模块,用于对所述Web日志数据特征集合进行异常流量检测。
在一种可能的实现方式中,所述各个实体分别对应的属性信息还包括:URI抽象实体的 属性信息、服务实体的属性信息以及服务器实体的属性信息;
所述第一确定模块在基于所述实体和实体之间的关系以及所述各个实体分别对应的属性 信息确定Web日志数据特征集合时,具体用于:
基于所述IP实体的属性信息、所述URI实体的属性信息、所述URI抽象实体的属性信 息、所述服务实体的属性信息、所述服务器实体的属性信息以及所述各实体与实体之间的关 系,计算节点中心度特征以及URI网页排名特征,所述节点中心度特征包括:IP节点的度 中心性、URI抽象节点的度中心性、服务节点的度中心性以及服务器节点的紧密中心性中的 至少一项,所述URI网页排名特征用于表征各个URI网页被访问的次数;
基于所述IP实体的属性信息、所述URI实体的属性信息、所述URI抽象实体的属性信 息以及所述各实体与实体之间的关系进行向量化处理,得到向量化处理后的信息;
基于所述节点中心度特征、所述URI网页排名特征以及所述向量化处理后的信息,确 定所述Web日志数据特征集合。
在另一种可能的实现方式中,所述向量化处理后的信息包括:URI类型特征、IP特征、 状态码特征、请求类型特征、协议特征、每个IP单位时间HTTP请求数特征、每个IP单位时间请求类型特征、每个IP单位时间请求的URI类型特征和URI抽象特征中的至少一项;
所述IP实体与URI实体之间的关系包括:IP实体与URI实体之间的关系属性,所述IP 实体与URI实体之间的关系属性包括:IP与URI之间的请求类型;
其中,所述第一确定模块在基于URI实体的属性信息进行向量化处理,得到URI类型 特征时,具体用于:
对URI实体的属性信息进行语句表示学习,得到URI嵌入表示;
对所述URI嵌入表示进行聚类处理,得到URI类型特征;
其中,所述第一确定模块在基于所述IP实体的属性信息、所述URI实体的属性信息、 所述URI抽象实体的属性信息以及所述各实体和实体之间的关系进行向量化处理,得到向 量化处理后的信息时,具体用于:
基于所述IP与URI之间请求类型以及所述URI类型特征进行统计处理,得到统计后的 数据,所述统计后的数据包括:所述每个IP单位时间HTTP请求数、所述每个IP单位时间请求类型特征以及所述每个IP单位时间请求的URI类型特征中的至少一项;
将所述IP实体的属性信息、所述IP实体与URI实体之间的关系属性以及所述URI抽象 实体的属性信息由非数值数据转换为数值数据,得到数值转换后的信息,所述数值转换后的 信息包括:所述IP特征、所述状态码特征、所述请求类型特征、所述协议特征、所述URI层级特征、所述URI参数个数特征、所述URI根目录词嵌入特征和所述URI资源文件类型 词嵌入特征中的至少一项。
在另一种可能的实现方式中,所述IP实体与URI实体之间的关系属性还包括:IP与URI之间的状态码和IP与URI之间的协议;
所述第一确定模块在将IP实体的属性信息、IP实体与URI实体之间的关系属性以及 URI抽象实体的属性信息由非数值数据转换为数值数据,得到数值转换后的信息时,具体用 于:
对所述IP实体的属性信息、所述IP与URI之间的状态码、所述IP与URI之间的请求类型以及所述IP与URI之间的协议进行编码,得到编码处理后的特征,所述编码处理后的特征包括:IP特征、状态码特征、请求类型特征以及协议特征;
基于所述URI抽象实体的属性信息,确定根目录文本、资源文件类型、所述URI层级特征和所述URI参数个数特征;
基于所述根目录文本和所述资源文件类型,生成所述URI根目录词嵌入特征和所述 URI资源文件类型词嵌入特征。
在另一种可能的实现方式中,所述装置还包括:池化处理模块和第二确定模块,其中,
池化处理模块,用于对所述URI根目录词嵌入特征和所述URI资源文件类型词嵌入特 征池化处理,得到池化处理后的URI根目录词嵌入特征和池化后的URI资源文件类型词嵌 入特征;
第二确定模块,用于将池化处理后的URI根目录词嵌入特征、池化后的URI资源文件 类型词嵌入特征、所述URI层级特征和所述URI参数个数特征确定为四维特征。
其中,所述第一确定模块在基于所述节点中心度特征、所述URI网页排名特征以及所 述向量化处理后的信息,确定所述Web日志数据特征集合时,具体用于:
基于所述节点中心度特征、所述URI网页排名特征、所述URI类型特征、所述统计后的数据以及所述四维特征,确定所述Web日志数据特征集合。
在另一种可能的实现方式中,所述数据特征集合还包括:请求字节数特征;所述请求字 节数特征是基于所述IP实体与URI实体之间的关系确定的;
所述装置还包括:等频分箱处理模块和等距分箱处理,其中,
等频分箱处理模块,用于对所述请求字节数特征进行等频分箱处理;
等距分箱处理模块,用于对所述单位时间HTTP请求数特征、所述单位时间请求类型特 征和所述单位时间请求的URI类型特征进行等距分箱处理。
在另一种可能的实现方式中,所述装置还包括:第一归一化处理模块或者第二归一化处 理模块,其中,
第一归一化处理模块,用于对所述Web日志特征集合中的各个特征进行归一化处理;
第二归一化处理模块,用于确定待进行归一化的特征集合,并对所述待进行归一化的特 征集合中的各个特征进行归一化处理,所述待进行归一化的特征集合属于所述Web日志数 据特征集合,且不包含所述每个IP单位时间HTTP请求数特征、所述每个IP单位时间请求 类型特征、所述每个IP单位时间请求的URI类型特征以及所述请求字节数特征。
在另一种可能的实现方式中,所述检测模块在对所述Web日志数据特征集合进行异常 流量检测时,具体用于:
基于归一化处理后的所述Web日志特征集合进行异常流量检测;或者,
基于等频分箱处理结果、等距分箱处理结果以及归一化处理后的待进行归一化的特征集 合进行异常流量检测。
第三方面,提供了一种电子设备,包括:
一个或者多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为 由所述一个或多个处理器执行,所述一个或多个应用程序配置用于:执行根据第一方面中任 一可能的实现方式所示的一种异常流量检测的方法对应的操作。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,存储介质存储有 至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或 指令集由处理器加载并执行以实现如第一方面中任一可能的实现方式所示的异常流量检测的 方法。
综上所述,本申请包括以下至少一种有益技术效果:
本申请提供了一种异常流量检测的方法、装置、电子设备及可读存储介质,与相关技术 中基于Web日志字段内容进行异常流量检测相比,本申请中进行流量异常检测的数据特征 集合是通过基于Web日志构建的知识图谱得到的各实体分别对应的属性信息以及各实体之 间的关系确定的,其中,各实体分别对应的属性信息包括:IP实体的属性以及URI实体的 属性,各实体之间的关系包括IP实体与URI实体之间的关系;也即在本申请中得到的数据 特征更为全面,从而在基于这些数据特征进行异常流量检测时可以提升异常流量检测的准确 度,进而可以更容易发现Web日志的异常。
附图说明
图1是本申请实施例提供的一种异常流量检测的方法流程示意图。
图2是本申请实施例提供的一种知识图谱本体设计示意图。
图3是本申请实施例提供的一种异常流量检测的装置结构示意图。
图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下结合附图对本申请作进一步详细说明。
本具体实施例仅仅是对本申请的解释,其并不是对本申请的限制,本领域技术人员在阅 读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本申请的权 利要求范围内都受到专利法的保护。
随着互联网技术的快速发展,Web应用在信息化服务中的基础性作用日益增强。在普遍 的网段隔离以及Web应用成为外网访问企业资产资源的有限入口的背景下,针对Web应用 的网络安全攻击是攻击团伙常用且主要的威胁手段。恶意的网页访问请求将与正常用户的访 问流量共同被记录在Web日志中,因此针对Web日志的异常流量检测方法,是保障企业信 息安全的重要手段,成为维护企业安全生成的重要组成部分。
目前许多企业在对外部接入系统的流量进行异常检测中采用了多个厂商的安防告警设备, 这些检测设备支持的流量类型、原理与效果有明显差别。基于规则的异常流量检测方法,缺 少对正常的用户访问与异常的威胁流量综合的建模与分析,只能检测已知的有限几种异常情 况,无法有效适应日益变化网络攻击技术,因此需要使用机器学习技术完成自动化的异常检 测。在实际的异常流量检测中主要通过旁路Pcap包采集等手段收集流量数据,但缺少对网 页应用的Web日志的关注。相比于全流量采集方法,Web日志仅记录IP对企业Web URI资 源的访问等信息,使用较小的存储开销,也能用于发现异常的访问请求,可作为异常流量检 测方法的一个有效应用目标,基于Web日志的异常流量检测方法能够对多种类型的Web应 用的日志进行异常流量的检测,利用Web日志可减少对全流量采集的需求,本申请实施例 适用于企业外部环境中部署的Web应用所记录的Web日志的异常流量检测。
为了解决以上技术问题,本申请实施例利用Web应用运行时记录的Web日志与企业提 供的资产拓扑信息和Web服务应用文档,在发生外部威胁行为攻击企业Web应用时,在Web日志记录的访问请求中检测出异常的流量,定位攻击的入口点并聚类分析流量对应的行 为。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附 图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请 一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有 作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种 关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情 况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
下面结合说明书附图对本申请实施例作进一步详细描述。
本申请实施例提供一种异常流量检测的方法,由电子设备执行,该电子设备可以为服务 器也可以为终端设备,其中,该服务器可以是独立的物理服务器,也可以是多个物理服务器 构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备可以是 智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此,该终端设备以及服务 器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例在此不做限制,其中, 如图1所示,该方法可以包括:
步骤S1、获取基于Web日志构建的知识图谱。
知识图谱(Knowledge Graph)本质上是一种叫做语义网络(Semantic Network)的知识 库,即具有有向图结构的一个知识库。通俗一点说:知识图谱是由实体、关系和属性组成的 一种数据结构。
对于本申请实施例,基于Web日志构建的知识图谱是预先构建的,在本申请实施例中, 基于Web日志构建的知识图谱可以从本地存储中进行获取,还可以从其他设备中进行获取, 还可以是由用户输入的,在本申请实施例中不做限定。
对于本申请实施例,获取不同Web服务器的Web日志作为输入,包括Apache与Nginx等常见Web服务器,相同Web服务器可按需求配置不同格式的Web日志,通过不同格式的 Web日志的解析器对不同的Web日志类型进行解析,将每一个日志行解析为后续检测所需 要的字段表,基于对Web日志知识图谱的本体设计,构建知识图谱。
步骤S2、基于知识图谱获取实体和实体之间的关系以及各个实体分别对应的属性信息。
其中,实体和实体之间的关系包括:IP实体和统一资源标识符(Uniform ResourceIdentifier,URI)实体之间的关系,各个实体分别对应的属性信息包括:IP实体的属性信息和URI实体的属性信息。
对于本申请实施例,基于知识图谱获取各个实体分别对应的属性信息,也即基于知识图 谱确定各个实体分别对应的实体类型以及各自对应的属性信息;进一步地,基于知识图谱获 取实体与实体之间的关系,也即基于知识图谱获取实体与实体之间的关系类型以及实体与实 体之间的属性。在本申请实施例中,基于知识图谱获取的实体与实体之间的关系所对应的类 型为IP-发送数据–URI,各实体分别对应的类型以及属性可以包括IP实体,IP实体的属性信 息可以包括:IP地址、是否为公网IP;URI实体的属性信息可以包括:路径以及主机名。
步骤S3、基于实体和实体之间的关系以及各个实体分别对应的属性信息确定Web日志 数据特征集合。
在通过上述实施例获取到实体和实体之间的关系以及各个实体分别对应的属性信息后, 可以基于获取到的这些信息确定用于后续异常检测的数据特征集合。具体地,将实体和实体 之间的关系以及各个实体分别对应的属性信息中的文本信息转换为数值信息,将实体和实体 之间的关系以及各个实体分别对应的属性信息中的数值信息和转换后的数值信息进行处理, 将所有数值信息或处理后的结果确定为Web日志数据特征集合。
步骤S4、对Web日志数据特征集合进行异常流量检测。
在通过上述实施例得到Web日志数据特征集合后,基于Web日志数据特征集合进行异 常流量检测,具体的异常流量检测方式详见下述实施例。
本申请实施例提供了一种异常流量检测的方法,与相关技术中基于Web日志字段内容 进行异常流量检测相比,本申请实施例中进行流量异常检测的数据特征集合是通过基于 Web日志构建的知识图谱得到的各实体分别对应的属性信息以及各实体之间的关系确定的, 其中,各实体分别对应的属性信息包括:IP实体的属性以及URI实体的属性,各实体之间 的关系包括IP实体与URI实体之间的关系;也即在本申请中得到的数据特征更为全面,从 而在基于这些数据特征进行异常流量检测时可以提升异常流量检测的准确度,进而可以更容 易发现Web日志的异常。
进一步地,在步骤S1之前还可以包括:输入Web日志、Web日志的解析器、资产拓扑信息和Web应用服务文档,根据Web日志知识图谱的本体设计,完成日志的解析与Web图 谱的构建及存储。在本申请实施例中,基于图谱的本体库设计构建知识图谱。
具体地,知识图谱的本体库设计如图2所示,本体库设计包括:本体类型和本体间关系, 本体类型包括:IP本体、URI本体、URI抽象本体、Web日志本体、行为本体、攻击事件本体、服务本体和服务器本体,本体间关系包括:IP本体和URI本体之间的关系;
进一步地,IP本体和URI本体之间的关系包括:发送数据;URI本体和URI本体的关系包括:跳转;URI本体和URI抽象本体之间的关系包括:生成;IP本体和URI本体与 Web日志本体之间的关系包括:来源;Web日志本体和行为本体之间的关系包括:匹配;行 为本体和攻击事件本体之间的关系包括:组成;URI本体和服务本体之间的关系包括:提供; 服务本体和服务器本体之间的关系包括:部署;IP本体和服务本体的关系包括:访问;IP 本体和服务器本体的关系包括:连接,由IP发起的连接、访问两条虚线并不会参与知识图 谱的构建,代表隐式的关系推理过程。
进一步地,在基于Web日志构建知识图谱时是日志解析的字段表结果以用于构建图谱, 除了通过Web日志构建知识图谱外还获取资产拓扑信息和Web应用服务文档,并基于资产 拓扑信息和Web应用服务文档构建知识图谱。其中,资产拓扑信息和Web应用服务文档用 于关联Web日志中出现的URI与具体的功能服务,服务通常由端口号做区分,以及服务部署在的具体服务器,一个Web服务器上通常部署多个Web服务,完成对Web日志的建模。
进一步地,该Web日志知识图谱中除了上文所涉及的IP和URI之外,还可以包括:URI抽象实体以及对应的属性、服务实体以及对应的属性、服务器实体以及对应的属性,还可以包括:URI与URI抽象之间的关系、URI与服务之间的关系、服务与服务器之间的关系 以及各自对应的属性信息,具体如表一所示;
表一
Figure BDA0003705856680000101
Figure BDA0003705856680000111
其中IP、URI、URI抽象等实体节点由Web日志解析生成,其余由资产拓扑信息和Web应用服务文档生成,统计在Web日志中出现的且需要关注的IP列表,IP列表是从Web 日志出现的至少一个IP,从Web日志知识图谱中抽取与一个IP相关的所有访问请求,实体 和实体之间的关系对应的属性信息还包括:时间戳,将获取的实体和实体之间的关系以及各个实体分别对应的属性信息按相同的IP由时间戳递增的顺序排列。
进一步地,在进行异常流量检测时除了基于上文所涉及的IP实体、URI实体以及两者 之间的关系外,还可以基于URI抽象实体属性、服务实体属性以及服务器实体属性、服务和服务之间、服务器与服务器之间的关联关系以及URI与服务之间的关系。其中,服务和 服务之间、服务器与服务器之间的关联关系可由资产拓扑信息和Web应用服务文档提供, 用于展现URI之间的高阶关联,高阶关联为URI提供的服务之间的关联,反映服务或服务 器在整个资产拓扑中的定位与作用,在知识图谱中,IP实体、URI实体、URI抽象实体由 Web日志解析生成,服务和服务器由资产拓扑信息和Web应用服务文档生成,最终建模的 Web日志知识图谱将通过图形数据库Neo4j等图数据库或文件进行存储,用于后续的异常检 测或多个Web日志的融合分析。
进一步地,当各个实体分别对应的属性信息还包括:URI抽象实体的属性信息、服务实 体的属性信息以及服务器实体的属性信息时,步骤S3中基于实体和实体之间的关系以及各 个实体分别对应的属性信息确定Web日志数据特征集合,具体可以包括:步骤S31(图中未 示出)、步骤S32(图中未示出)和步骤S33(图中未示出),其中,步骤S33在步骤S31和步骤 S32之后执行,步骤S31可以在步骤S32之后执行,步骤S31也可以在步骤S32之前执行, 步骤S31也可以和步骤S32同时执行,在本申请实施例中不做限定。
步骤S31、基于IP实体的属性信息、URI实体的属性信息、URI抽象实体的属性信息、服务实体的属性信息、服务器实体的属性信息以及各实体与实体之间的关系,计算节点中心 度特征以及URI网页排名特征。
具体地,在本申请实施例中,基于IP实体的属性信息、URI实体的属性信息、URI抽象实体的属性信息、服务实体的属性信息、服务器实体的属性信息以及各实体之间的关系,计算节点中心度特征;基于URI实体的属性信息以及URI实体与其他各实体之间的关系, 计算URI网页排名特征。在本申请实施例中,计算节点中心度特征可以在计算URI网页排 名特征之前执行,也可以在计算URI网页排名特征之后执行,还可以与计算URI网页排名 特征同时执行,在本申请实施例中不做限定。
其中,节点中心度特征包括:IP节点的度中心性、URI抽象节点的度中心性、服务节点 的度中心性以及服务器节点的紧密中心性中的至少一项,URI网页排名特征用于表征各个 URI网页被访问的次数。
对于本申请实施例,IP实体的属性信息包括:IP地址和是否为公网IP,URI实体的属 性信息包括:路径和主机名,URI抽象实体的属性信息包括:名称,服务实体的属性信息包括:名称、端口和权限以及服务器实体的属性信息包括:名称、IP地址、级别和功能域/ 位置,如表一所示,对于URI抽象节点,例如,/js/chunk-d6e2869a.abc86ac9.js URI被抽象为/js/*.*.js)度中心性用于表征节点在知识图谱中的重要性,紧密中心性用于表征服务器与 其他服务器的接近程度,针对低度中心性、低网页排名分数或访问低紧密中心性的请求需要 被关注。
步骤S32、基于IP实体的属性信息、URI实体的属性信息、URI抽象实体的属性信息以 及各实体与实体之间的关系进行向量化处理,得到向量化处理后的信息。
具体地,在本申请实施例中,向量化处理后的信息包括:URI类型特征、IP特征、状态 码特征、请求类型特征、协议特征、每个IP单位时间HTTP请求数特征、每个IP单位时间请求类型特征、每个IP单位时间请求的URI类型特征和URI抽象特征中的至少一项;IP实 体与URI实体之间的关系包括:IP实体与URI实体之间的关系属性,IP实体与URI实体之 间的关系属性包括:IP与URI之间的请求类型。
对于本申请实施例,将IP实体的属性信息、URI实体的属性信息、URI抽象实体的属性信息以及各实体与实体之间的关系进行向量化,得到能被异常检测的数据特征。在本申请 实施例中,基于URI实体的属性信息进行向量化处理,得到URI类型特征,具体可以包括:对URI实体的属性信息进行语句表示学习,得到URI嵌入表示;对URI嵌入表示进行聚类 处理,得到URI类型特征。
对于本申请实施例,对URI实体的属性信息使用预训练自然语言处理模型RoBERTa对 URI进行语句表示学习,获得URI嵌入表示。具体地,URI实体的属性信息可以为URI的 字符串形式,URI嵌入表示为URI的数值形式。在本申请实施例中,在得到URI嵌入表示 后使用K-means等聚类模型对URI嵌入表示进行聚类,由聚类所生成的簇是一组URI的嵌 入的集合,由Web应用的服务数量对聚类簇的数量做调整,有效地自动化为URI归类,对 应到几种资源类型,即URI类型特征,且不会受同义词或变长的URI干扰,使相同语义的 URI赋予相同的标签,例如,以Image为目录和以Figure为目录的URI会被识别语义而分在 同一类,不同目录下的css文件或库js文件被分为同一类,可以为URI特征赋予0-n(n为 簇的数量)的标签,表示URI根据语义归类后的资源类型,即URI类型特征。
其中,基于IP实体的属性信息、URI实体的属性信息、URI抽象实体的属性信息以及各实体和实体之间的关系进行向量化处理,得到向量化处理后的信息,具体可以包括:步骤S321(图中未示出)和步骤S322(图中未示出),其中,步骤S321可以在步骤S322之前执 行,步骤S321也可以在步骤S322之后执行,步骤S321与步骤S322也可以同时执行。
步骤S321、基于IP与URI之间请求类型以及URI类型特征进行统计处理,得到统计后 的数据。
其中,统计后的数据包括:每个IP单位时间HTTP请求数特征、每个IP单位时间请求类型特征以及每个IP单位时间请求的URI类型特征中的至少一项。
对于本申请实施例,由于Web日志数据具有时序性特点,统计每个IP单位时间HTTP请求数、每个IP单位时间请求类型以及每个IP单位时间请求的URI类型特征,以此发现 IP访问URI的异常行为,例如统计当前流量请求时间戳的前10分钟内的该IP对URI的访 问请求,若一个IP在10分钟内对URI进行了100次的登录,则被识别为异常行为。
步骤S322、将IP实体的属性信息、IP实体与URI实体之间的关系属性以及URI抽象实 体的属性信息由非数值数据转换为数值数据,得到数值转换后的信息。
其中,数值转换后的信息包括:IP特征、状态码特征、请求类型特征、协议特征、URI层级特征、URI参数个数特征、URI根目录词嵌入特征和URI资源文件类型词嵌入特征中的至少一项。
进一步地,在本申请实施例中,IP实体与URI实体之间的关系属性还包括:IP与URI之间的状态码和IP与URI之间的协议。在本申请实施例中,当IP实体与URI实体之间的关 系属性还包括:IP与URI之间的状态码和IP与URI之间的协议时,步骤S322中将IP实体 的属性信息、IP实体与URI实体之间的关系属性以及URI抽象实体的属性信息由非数值数 据转换为数值数据,得到数值转换后的信息,具体可以包括:对IP实体的属性信息、IP与URI之间的状态码、IP与URI之间的请求类型以及IP与URI之间的协议进行编码,得到编 码处理后的特征;基于URI抽象实体的属性信息,确定根目录文本、资源文件类型、URI层 级特征和URI参数个数特征;基于根目录文本和资源文件类型,生成URI根目录词嵌入特 征和URI资源文件类型词嵌入特征。
其中,编码处理后的特征包括:IP特征、状态码特征、请求类型特征以及协议特征。
对于本申请实施例,基于URI抽象实体的属性信息,确定根目录文本、资源文件类型、 URI层级特征和URI参数个数特征的步骤,在基于根目录文本和资源文件类型,生成URI根目录词嵌入特征和URI资源文件类型词嵌入特征的步骤之前执行;除此之外,对IP实体的属性信息、IP与URI之间的状态码、IP与URI之间的请求类型以及IP与URI之间的协议 进行编码,得到编码处理后的特征的步骤、基于URI抽象实体的属性信息,确定根目录文 本、资源文件类型、URI层级特征和URI参数个数特征的步骤,以及基于根目录文本和资源 文件类型,生成URI根目录词嵌入特征和URI资源文件类型词嵌入特征的步骤等这三个步 骤的执行顺序不做限定,任何可能的执行顺序均在本申请实施例的保护范围之内。
进一步地,在本申请实施例中将基于图谱获取的IP属性、状态码、请求方法与协议进 行LabelEncoder编码,避免IP或状态码的数值差异导致过拟合影响异常检测效果,基于URI抽象生成URI层级特征、URI参数个数特征、URI根目录词嵌入特征和URI资源文件类 型词嵌入特征,方便区分同一个簇中的URI
步骤S33、基于节点中心度特征、URI网页排名特征以及向量化处理后的信息,确定Web日志数据特征集合。
进一步地,通过上述实施例可以得到节点中心度特征、URI网页排名特征以及向量化处 理后的信息(包括统计后的数据以及数值转换后的信息),并将这些信息确定为Web日志数 据特征集合中的特征。
进一步地,在基于根目录文本和资源文件类型生成URI根目录词嵌入特征和URI资源 文件类型词嵌入特征之后,为了进一步地降低计算的压力,还可以包括:步骤Sa(图中未示出)和步骤Sb(图中未示出),步骤Sa在步骤Sb之前执行,其中,
步骤Sa、对URI根目录词嵌入特征和URI资源文件类型词嵌入特征池化处理,得到池 化处理后的URI根目录词嵌入特征和池化后的URI资源文件类型词嵌入特征。
例如,“/admin/*/*/*.php?*=?*=”为URI抽象,目录层级数为4,2个参数,则4用于表 征URI层级特征,2用于表征URI参数个数特征,并抽取admin与php两个文本,使用预训练语言模型分别生成URI根目录词嵌入特征和URI资源文件类型词嵌入,再通过算术平均池化为一维特征,以得到池化处理后的URI根目录词嵌入特征以及池化处理后的URI资源文件类型词嵌入特征。在本申请实施例中,URI层级特征和URI参数个数特征本身为一维 特征,不需要进行池化处理。
步骤Sb、将池化处理后的URI根目录词嵌入特征、池化后的URI资源文件类型词嵌入 特征、URI层级特征和URI参数个数特征确定为四维特征。
在通过上述实施例得到一维池化处理后的URI根目录词嵌入特征以及一维池化处理后 的URI资源文件类型词嵌入特征后,并将这两个一维特征、URI层级特征和URI参数个数 特征确定为四维特征。其中,该四维特征可以用于表示URI的抽象表示。
进一步地,在得到URI抽象的四维特征后,基于节点中心度特征、URI网页排名特征以 及向量化处理后的信息,确定Web日志数据特征集合,具体可以包括:基于节点中心度特征、URI网页排名特征、URI类型特征、统计后的数据以及四维特征,确定Web日志数据特 征集合。
对于本申请实施例,Web日志数据特征集合将从三个维度反映IP对URI请求的特征, 包括请求的静态数值维度、时序统计维度、图谱节点中心维度,异常流量检测将从以上三个 维度进行关联分析,充分利用IP对URI请求的时序型特点与在Web日志知识图谱中的结构 性语义,其中,表二为Web日志数据特征集合以及对Web日志数据特征集合的说明,Web日志数据特征集合的说明也即各个Web日志数据特征对应的数据类型。
表二
Figure BDA0003705856680000151
进一步地,数据特征集合还可以包括:请求字节数特征;请求字节数特征是基于IP实 体与URI实体之间的关系确定的;为实现数据的离散化,增强数据稳定性,并且为了增强异常流量检测的效果和泛化性,以使得不会对单一特征数值的变化而特别敏感,因此对请求 字节数特征、每个IP单位时间HTTP请求数特征、每个IP单位时间请求类型特征和每个IP单位时间请求的URI类型特征进行分箱处理。其中,数据分箱处理,即把一段连续的值切 分成若干段,每一段的值看成一个分类。通常把连续值转换成离散值的过程,我们称之为分箱处理。具体地分箱处理的过程可以包括:步骤Sc(图中未示出)和步骤Sd(图中未示出),其中,步骤Sc和步骤Sd可以同时执行,步骤Sc可以在步骤Sd之后执行,步骤Sc可以在 步骤Sd之前执行,具体的执行顺序在本申请实施例中不做限定。
步骤Sc、对请求字节数特征进行等频分箱处理。
其中,等频分箱处理也即每个分箱区间内包括的请求字节数特征个数一样多。在本申请 实施例中,由于请求字节数特征较为离散且分布均匀,因此适合使用等频分箱方法,可控制 每个区间内的请求字节数特征的数量。
步骤Sd、对每个IP单位时间HTTP请求数特征、每个IP单位时间请求类型特征和每个 IP单位时间请求的URI类型特征进行等距分箱处理。
对于本申请实施例,每个IP单位时间HTTP请求数特征、每个IP单位时间请求类型特 征和每个IP单位时间请求的URI类型特征分别对应的每个分箱区间内之间的距离是一样的, 由于每个IP单位时间HTTP请求数特征、每个IP单位时间请求类型特征和每个IP单位时间 请求的URI类型特征数据分布不均匀,且频率划分点容易有重值,因此对每个IP单位时间 HTTP请求数特征、每个IP单位时间请求类型特征和每个IP单位时间请求的URI类型特征 无法使用等频分箱(会报错),因此这三个特征更适于进行等距分箱处理,例如,1-5为一个 分箱区间,6-10为一个分箱区间。
对于本申请实施例,为实现数据的离散化,增强数据稳定性,增强异常检测的效果与泛 化性,对请求字节数特征、每个IP单位时间HTTP请求数特征、每个IP单位时间请求类型 特征和每个IP单位时间请求的URI类型特征进行分箱处理。
进一步地,为了消除数据特征之间的属性影响,提高数据特征的精度,以解决数据特征 之间的可比性,将数据特征集合映射到0至1范围之内的小数,数据特征经过归一化处理后, 各数据特征处于同一数量级,适合进行综合对比评价以进行异常检测。该方法还可以包括: 步骤Se(图中未示出)或者步骤Sf(图中未示出),其中,在执行步骤Sc和步骤Sd之后执 行步骤Se,步骤Sf可以在步骤Sc和步骤Sd之前执行,步骤Sf可以在步骤Sc和步骤Sd之后执行,步骤Sf可以和步骤Sc和步骤Sd同时执行,具体的执行顺序在本申请实施例中不 做限定。
步骤Se、对Web日志特征集合中的各个特征进行归一化处理。也即可以对上文中所涉 及到的Web日志特征集合中的各个特征均进行归一化处理。
步骤Sf、确定待进行归一化的特征集合,并对待进行归一化的特征集合中的各个特征 进行归一化处理。
其中,待进行归一化的特征集合属于Web日志数据特征集合,且不包含每个IP单位时 间HTTP请求数特征、每个IP单位时间请求类型特征、每个IP单位时间请求的URI类型特征以及请求字节数特征。
本申请实施例的另一种可能的实现方式,步骤S4中对Web日志数据特征集合进行异常 流量检测,具体可以包括:步骤S41(图中未示出)或者步骤S42(图中未示出),其中,若上述实施例中执行步骤Se,则执行步骤S41,若上述实施例中执行步骤Sf,则执行步骤S42,其中,
步骤S41、基于归一化处理后的Web日志特征集合进行异常流量检测。
步骤S42、基于等频分箱处理结果、等距分箱处理结果以及归一化处理后的待进行归一 化的特征集合进行异常流量检测。
对于本申请实施例,聚类分析流量的所有特征数据,标记聚类结果为具体行为语义,使 用K均值算法(K-means clustering algorithm,K-means)与ROCK算法对Web日志数据特 征集合进行聚类分析并可视化,聚类的结果将反映IP访问URI的行为语义,可以有效区分 由不同IP访问URI以及请求方法对应的访问行为,基于聚类之后得到的行为语义进行异常 检测,其中,K-means将侧重于以URI为主体的行为聚类,异常行为流量被聚为一类,同时 拆分正常流量为多个行为,ROCK侧重于以IP为主体的行为聚类,正常流量被聚类为单一簇,而异常流量被拆分为多个行为,其中,在对知识图谱中的信息进行异常流量检测时,由安全专家根据最后的聚类结果进行标注,聚类结果将反映一类流量所表示的行为,比如对于 image/png流量请求的聚类结果,代表了图片访问行为,安全人员通过分析聚类的结果,为 这些流量标注标签,放在本体库设计图中,就是行为本体,攻击事件本体与行为本体类似, 由安全人员对异常检测的结果进行标注,对应上具体的攻击行为,比如暴力破解,将异常流 量生成对应的攻击本体,代表该攻击流量的攻击方式。通过这两个本体,将标注后的结果同 样上传到数据库,保存之前的分析结果,有助于后期重新分析之前检测过的流量,有助于新 的攻击发生时快速比对其是否和之前的攻击相似,或者,快速对一个新的正常的URI请求 流量进行行为标注。
进一步地,除了通过聚类分析的方式进行异常流量检测,还可以利用孤立森林等算法完 成异常检测的结果输出,基于Web日志数据特征集合并使用孤立森林、局部离群因子(Local Outlier Factor,LOF)与OneClassSVM模型中的任一项来输出异常检测结果。也可 以将孤立森林、LOF与OneClassSVM模型中的至少两个构建模型,以进行异常流量检测,输出异常检测结果,还可以基于孤立森林、LOF与OneClassSVM模型中的至少两个模型, 分别进行流量异常检测,并基于各自输出的异常检测结果来综合确定最终的异常流量检测结果,通过以上模型对向量化后的样本经过静态数值、时序统计结果、图谱节点中心三个维度进行关联分析,充分利用流量的时序型特点与在Web日志知识图谱中的结构性语义,最终依据该特征提取方法进行异常流量检测,通过构建Web日志知识图谱增加利用流量涉及的主体的结构化信息,考虑流量对应的Web服务与通信的服务器,以及利用预训练语言模型处理URI语义信息,通过聚类分桶与等距分桶等方法处理特征,提高单一基于时序与异常值的检测方法的精度。
对于本申请实施例,数据特征集合在有的地方分布密集,有的地方分布稀疏,选择一个 正常值范围,将非正常数据孤立出来,例如,每个IP单位时间HTTP请求数特征小于20次 为正常值范围,非正常数据为每个IP单位时间HTTP请求数特征为100,用于表征某个IP单位时间内访问某个URI100次,则该非正常数据被孤立出来,由此可以检测到异常行为以及该行为对应的IP地址。
上述实施例从方法流程的角度介绍一种异常流量检测的方法,下述实施例从虚拟模块或 者虚拟单元的角度介绍了一种异常流量检测的装置,具体详见下述实施例。
本申请实施例提供了一种异常流量检测的装置,如图3所示,该异常流量检测的装置 30具体可以包括:
第一获取模块31,用于获取基于Web日志构建的知识图谱;
第二获取模块32,用于基于知识图谱获取实体和实体之间的关系以及各个实体分别对 应的属性信息,实体和实体之间的关系包括:IP实体和URI实体之间的关系,各个实体分 别对应的属性信息包括:IP实体的属性信息和URI实体的属性信息;
第一确定模块33,用于基于实体和实体之间的关系以及各个实体分别对应的属性信息 确定Web日志数据特征集合;
检测模块34,用于对Web日志数据特征集合进行异常流量检测。
本申请实施例的一种可能的实现方式,各个实体分别对应的属性信息还包括:URI抽象 实体的属性信息、服务实体的属性信息以及服务器实体的属性信息;
第一确定模块33在基于实体和实体之间的关系以及各个实体分别对应的属性信息确定 Web日志数据特征集合时,具体用于:
基于IP实体的属性信息、URI实体的属性信息、URI抽象实体的属性信息、服务实体的属性信息、服务器实体的属性信息以及各实体与实体之间的关系,计算节点中心度特征以 及URI网页排名特征,节点中心度特征包括:IP节点的度中心性、URI抽象节点的度中心性、服务节点的度中心性以及服务器节点的紧密中心性中的至少一项,URI网页排名特征用于表征各个URI网页被访问的次数;
基于IP实体的属性信息、URI实体的属性信息、URI抽象实体的属性信息以及各实体 与实体之间的关系进行向量化处理,得到向量化处理后的信息;
基于节点中心度特征、URI网页排名特征以及向量化处理后的信息,确定Web日志数 据特征集合。
本申请实施例的另一种可能的实现方式,向量化处理后的信息包括:URI类型特征、IP 特征、状态码特征、请求类型特征、协议特征、每个IP单位时间HTTP请求数特征、每个IP单位时间请求类型特征、每个IP单位时间请求的URI类型特征和URI抽象特征中的至少一项;
IP实体与URI实体之间的关系包括:IP实体与URI实体之间的关系属性,IP实体与URI实体之间的关系属性包括:IP与URI之间的请求类型;
其中,第一确定模块33在基于URI实体的属性信息进行向量化处理,得到URI类型特 征时,具体用于:
对URI实体的属性信息进行语句表示学习,得到URI嵌入表示;
对URI嵌入表示进行聚类处理,得到URI类型特征;
其中,第一确定模块33在基于IP实体的属性信息、URI实体的属性信息、URI抽象实体的属性信息以及各实体和实体之间的关系进行向量化处理,得到向量化处理后的信息时, 具体用于:
基于IP与URI之间请求类型以及URI类型特征进行统计处理,得到统计后的数据,统 计后的数据包括:每个IP单位时间HTTP请求数特征、每个IP单位时间请求类型特征以及每个IP单位时间请求的URI类型特征中的至少一项;
将IP实体的属性信息、IP实体与URI实体之间的关系属性以及URI抽象实体的属性信 息由非数值数据转换为数值数据,得到数值转换后的信息,数值转换后的信息包括:IP特征、 状态码特征、请求类型特征、协议特征、URI层级特征、URI参数个数特征、URI根目录词 嵌入特征和URI资源文件类型词嵌入特征中的至少一项。
本申请实施例的另一种可能的实现方式,IP实体与URI实体之间的关系属性还包括: IP与URI之间的状态码和IP与URI之间的协议;
第一确定模块33在将IP实体的属性信息、IP实体与URI实体之间的关系属性以及URI抽象实体的属性信息由非数值数据转换为数值数据,得到数值转换后的信息时,具体用于:
对IP实体的属性信息、IP与URI之间的状态码、IP与URI之间的请求类型以及IP与URI之间的协议进行编码,得到编码处理后的特征,编码处理后的特征包括:IP特征、状态码特征、请求类型特征以及协议特征;
基于URI抽象实体的属性信息,确定根目录文本、资源文件类型、URI层级特征和URI参数个数特征;
基于根目录文本和资源文件类型,生成URI根目录词嵌入特征和URI资源文件类型词 嵌入特征。
本申请实施例的另一种可能的实现方式,装置30还包括:池化处理模块和第二确定模 块,其中,
池化处理模块,用于对URI根目录词嵌入特征和URI资源文件类型词嵌入特征池化处 理,得到池化处理后的URI根目录词嵌入特征和池化后的URI资源文件类型词嵌入特征;
第二确定模块,用于将池化处理后的URI根目录词嵌入特征、池化后的URI资源文件 类型词嵌入特征、URI层级特征和URI参数个数特征确定为四维特征。
其中,第一确定模块33在基于节点中心度特征、URI网页排名特征以及向量化处理后 的信息,确定Web日志数据特征集合时,具体用于:
基于节点中心度特征、URI网页排名特征、URI类型特征、统计后的数据以及四维特征, 确定Web日志数据特征集合。
本申请实施例的另一种可能的实现方式,数据特征集合还包括:请求字节数特征;请求 字节数特征是基于IP实体与URI实体之间的关系确定的;
装置30还包括:等频分箱处理模块和等距分箱处理模块,其中,
等频分箱处理模块,用于对请求字节数特征进行等频分箱处理;
等距分箱处理模块,用于对每个IP单位时间HTTP请求数特征、每个IP单位时间请求 类型特征和每个IP单位时间请求的URI类型特征进行等距分箱处理。
本申请实施例的另一种可能的实现方式,装置30还包括:第一归一化处理模块或者第 二归一化处理模块,其中,
第一归一化处理模块,用于对Web日志特征集合中的各个特征进行归一化处理;
第二归一化处理模块,用于确定待进行归一化的特征集合,并对待进行归一化的特征集 合中的各个特征进行归一化处理,待进行归一化的特征集合属于Web日志数据特征集合, 且不包含每个IP单位时间HTTP请求数特征、每个IP单位时间请求类型特征、每个IP单位 时间请求的URI类型特征以及请求字节数特征。
本申请实施例的另一种可能的实现方式,检测模块34在对Web日志数据特征集合进行 异常流量检测时,具体用于:
基于归一化处理后的Web日志特征集合进行异常流量检测;或者,
基于等频分箱处理结果、等距分箱处理结果以及归一化处理后的待进行归一化的特征集 合进行异常流量检测。
本申请实施例提供了一种异常流量检测的装置,与相关技术中基于Web日志字段内容 进行异常流量检测相比,本申请实施例中进行流量异常检测的数据特征集合是通过基于 Web日志构建的知识图谱得到的各实体分别对应的属性信息以及各实体之间的关系确定的, 其中,各实体分别对应的属性信息包括:IP实体的属性以及URI实体的属性,各实体之间 的关系包括IP实体与URI实体之间的关系;也即在本申请中得到的数据特征更为全面,从 而在基于这些数据特征进行异常流量检测时可以提升异常流量检测的准确度,进而可以更容 易发现Web日志的异常。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的一种知识图 谱构建的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例提供了一种电子设备,如图4所示,图4所示的电子设备40包括:处理器401和存储器403。其中,处理器401和存储器403相连,如通过总线402相连。可选地, 电子设备40还可以包括收发器404。需要说明的是,实际应用中收发器404不限于一个, 该电子设备40的结构并不构成对本申请实施例的限定。
处理器401可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit, 专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编 程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公 开内容所描述的各种示例性的逻辑方框,模块和电路。处理器401也可以是实现计算功能的 组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线402可包括一通路,在上述组件之间传送信息。总线402可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线402可以分为地址总线、数据总线、控制总 线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一型的总线。
存储器403可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存 储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限 于此。
存储器403用于存储执行本申请方案的应用程序代码,并由处理器401来控制执行。处 理器401用于执行存储器403中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终 端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。 图4示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机 程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与相关技 术中基于Web日志字段内容进行异常流量检测相比,本申请实施例中进行流量异常检测的 数据特征集合是通过基于Web日志构建的知识图谱得到的各实体分别对应的属性信息以及 各实体之间的关系确定的,其中,各实体分别对应的属性信息包括:IP实体的属性以及 URI实体的属性,各实体之间的关系包括IP实体与URI实体之间的关系;也即在本申请中 得到的数据特征更为全面,从而在基于这些数据特征进行异常流量检测时可以提升异常流量 检测的准确度,进而可以更容易发现Web日志的异常。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步 骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并 没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤 可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成, 而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其 他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在 不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请 的保护范围。

Claims (10)

1.一种异常流量检测的方法,其特征在于,包括:
获取基于Web日志构建的知识图谱;
基于所述知识图谱获取实体和实体之间的关系以及各个实体分别对应的属性信息,所述实体和实体之间的关系包括:IP实体和统一资源标识符URI实体之间的关系,所述各个实体分别对应的属性信息包括:IP实体的属性信息和URI实体的属性信息;
基于所述实体和实体之间的关系以及所述各个实体分别对应的属性信息确定Web日志数据特征集合;
对所述Web日志数据特征集合进行异常流量检测。
2.根据权利要求1所述的方法,其特征在于,所述各个实体分别对应的属性信息还包括:URI抽象实体的属性信息、服务实体的属性信息以及服务器实体的属性信息;
所述基于所述实体和实体之间的关系以及所述各个实体分别对应的属性信息确定Web日志数据特征集合,包括:
基于所述IP实体的属性信息、所述URI实体的属性信息、所述URI抽象实体的属性信息、所述服务实体的属性信息、所述服务器实体的属性信息以及所述各实体与实体之间的关系,计算节点中心度特征以及URI网页排名特征,所述节点中心度特征包括:IP节点的度中心性、URI抽象节点的度中心性、服务节点的度中心性以及服务器节点的紧密中心性中的至少一项,所述URI网页排名特征用于表征各个URI网页被访问的次数;
基于所述IP实体的属性信息、所述URI实体的属性信息、所述URI抽象实体的属性信息以及所述各实体与实体之间的关系进行向量化处理,得到向量化处理后的信息;
基于所述节点中心度特征、所述URI网页排名特征以及所述向量化处理后的信息,确定所述Web日志数据特征集合。
3.根据权利要求2所述的方法,其特征在于,所述向量化处理后的信息包括:URI类型特征、IP特征、状态码特征、请求类型特征、协议特征、每个IP单位时间HTTP请求数特征、每个IP单位时间请求类型特征、每个IP单位时间请求的URI类型特征和URI抽象特征中的至少一项;
所述IP实体与URI实体之间的关系包括:IP实体与URI实体之间的关系属性,所述IP实体与URI实体之间的关系属性包括:IP与URI之间的请求类型;
其中,基于URI实体的属性信息进行向量化处理,得到URI类型特征,包括:
对URI实体的属性信息进行语句表示学习,得到URI嵌入表示;
对所述URI嵌入表示进行聚类处理,得到URI类型特征;
其中,所述基于所述IP实体的属性信息、所述URI实体的属性信息、所述URI抽象实体的属性信息以及所述各实体和实体之间的关系进行向量化处理,得到向量化处理后的信息,包括:
基于所述IP与URI之间请求类型以及所述URI类型特征进行统计处理,得到统计后的数据,所述统计后的数据包括:所述每个IP单位时间HTTP请求数特征、所述每个IP单位时间请求类型特征以及所述每个IP单位时间请求的URI类型特征中的至少一项;
将所述IP实体的属性信息、所述IP实体与URI实体之间的关系属性以及所述URI抽象实体的属性信息由非数值数据转换为数值数据,得到数值转换后的信息,所述数值转换后的信息包括:所述IP特征、所述状态码特征、所述请求类型特征、所述协议特征、所述URI层级特征、所述URI参数个数特征、所述URI根目录词嵌入特征和所述URI资源文件类型词嵌入特征中的至少一项。
4.根据权利要求3所述的方法,其特征在于,所述IP实体与URI实体之间的关系属性还包括:IP与URI之间的状态码和IP与URI之间的协议;
所述将所述IP实体的属性信息、所述IP实体与URI实体之间的关系属性以及所述URI抽象实体的属性信息由非数值数据转换为数值数据,得到数值转换后的信息,包括:
对所述IP实体的属性信息、所述IP与URI之间的状态码、所述IP与URI之间的请求类型以及所述IP与URI之间的协议进行编码,得到编码处理后的特征,所述编码处理后的特征包括:IP特征、状态码特征、请求类型特征以及协议特征;
基于所述URI抽象实体的属性信息,确定根目录文本、资源文件类型、所述URI层级特征和所述URI参数个数特征;
基于所述根目录文本和所述资源文件类型,生成所述URI根目录词嵌入特征和所述URI资源文件类型词嵌入特征。
5.根据权利要求4所述的方法,其特征在于,所述基于所述根目录文本和所述资源文件类型,生成所述URI根目录词嵌入特征和所述URI资源文件类型词嵌入特征,之后还包括:
对所述URI根目录词嵌入特征和所述URI资源文件类型词嵌入特征池化处理,得到池化处理后的URI根目录词嵌入特征和池化后的URI资源文件类型词嵌入特征;
将池化处理后的URI根目录词嵌入特征、池化后的URI资源文件类型词嵌入特征、所述URI层级特征和所述URI参数个数特征确定为四维特征;
其中,所述基于所述节点中心度特征、所述URI网页排名特征以及所述向量化处理后的信息,确定所述Web日志数据特征集合,包括:
基于所述节点中心度特征、所述URI网页排名特征、所述URI类型特征、所述统计后的数据以及所述四维特征,确定所述Web日志数据特征集合。
6.根据权利要求5所述的方法,其特征在于,所述数据特征集合还包括:请求字节数特征;所述请求字节数特征是基于所述IP实体与URI实体之间的关系确定的;
所述方法还包括:
对所述请求字节数特征进行等频分箱处理;
对所述每个IP单位时间HTTP请求数特征、所述每个IP单位时间请求类型特征和所述每个IP单位时间请求的URI类型特征进行等距分箱处理。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括以下任一项:
对所述Web日志特征集合中的各个特征进行归一化处理;
确定待进行归一化的特征集合,并对所述待进行归一化的特征集合中的各个特征进行归一化处理,所述待进行归一化的特征集合属于所述Web日志数据特征集合,且不包含所述每个IP单位时间HTTP请求数特征、所述每个IP单位时间请求类型特征、所述每个IP单位时间请求的URI类型特征以及所述请求字节数特征;
其中,所述对所述Web日志数据特征集合进行异常流量检测,包括:
基于归一化处理后的所述Web日志特征集合进行异常流量检测;或者,
基于等频分箱处理结果、等距分箱处理结果以及归一化处理后的待进行归一化的特征集合进行异常流量检测。
8.一种异常流量检测的装置,其特征在于,包括:
第一获取模块,用于获取基于Web日志构建的知识图谱;
第二获取模块,用于基于所述知识图谱获取实体和实体之间的关系以及各个实体分别对应的属性信息,所述实体和实体之间的关系包括:IP实体和URI实体之间的关系,所述各个实体分别对应的属性信息包括:IP实体的属性信息和URI实体的属性信息;
第一确定模块,用于基于所述实体和实体之间的关系以及所述各个实体分别对应的属性信息确定Web日志数据特征集合;
检测模块,用于对所述Web日志数据特征集合进行异常流量检测。
9.一种电子设备,其特征在于,包括:
一个或者多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于:执行根据权利要求1~7任一项所述的异常流量检测的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~7任一项所述的异常流量检测的方法。
CN202210704879.2A 2022-06-21 2022-06-21 异常流量检测的方法、装置、电子设备及可读存储介质 Active CN115051863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210704879.2A CN115051863B (zh) 2022-06-21 2022-06-21 异常流量检测的方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210704879.2A CN115051863B (zh) 2022-06-21 2022-06-21 异常流量检测的方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN115051863A true CN115051863A (zh) 2022-09-13
CN115051863B CN115051863B (zh) 2023-06-02

Family

ID=83164033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210704879.2A Active CN115051863B (zh) 2022-06-21 2022-06-21 异常流量检测的方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN115051863B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186503A (zh) * 2022-12-05 2023-05-30 广州大学 一种面向工控系统的恶意流量检测方法、装置及计算机存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140282219A1 (en) * 2013-03-15 2014-09-18 Robert Haddock Intelligent internet system with adaptive user interface providing one-step access to knowledge
US20190259041A1 (en) * 2018-02-20 2019-08-22 James R Jackson Systems and methods for generating a relationship among a plurality of datasets to generate a desired attribute value
CN112463974A (zh) * 2019-09-09 2021-03-09 华为技术有限公司 知识图谱建立的方法和装置
CN113242236A (zh) * 2021-05-08 2021-08-10 国家计算机网络与信息安全管理中心 一种网络实体威胁图谱构建方法
CN114172701A (zh) * 2021-11-25 2022-03-11 北京天融信网络安全技术有限公司 基于知识图谱的apt攻击检测方法及装置
CN114218403A (zh) * 2021-12-20 2022-03-22 平安付科技服务有限公司 基于知识图谱的故障根因定位方法、装置、设备及介质
CN114328962A (zh) * 2021-12-29 2022-04-12 北京信息科技大学 一种基于知识图谱的web日志异常行为识别方法
CN114499939A (zh) * 2021-12-21 2022-05-13 四维创智(北京)科技发展有限公司 一种基于知识图谱的最优路径选择方法、系统、可存储介质和电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140282219A1 (en) * 2013-03-15 2014-09-18 Robert Haddock Intelligent internet system with adaptive user interface providing one-step access to knowledge
US20190259041A1 (en) * 2018-02-20 2019-08-22 James R Jackson Systems and methods for generating a relationship among a plurality of datasets to generate a desired attribute value
CN112463974A (zh) * 2019-09-09 2021-03-09 华为技术有限公司 知识图谱建立的方法和装置
CN113242236A (zh) * 2021-05-08 2021-08-10 国家计算机网络与信息安全管理中心 一种网络实体威胁图谱构建方法
CN114172701A (zh) * 2021-11-25 2022-03-11 北京天融信网络安全技术有限公司 基于知识图谱的apt攻击检测方法及装置
CN114218403A (zh) * 2021-12-20 2022-03-22 平安付科技服务有限公司 基于知识图谱的故障根因定位方法、装置、设备及介质
CN114499939A (zh) * 2021-12-21 2022-05-13 四维创智(北京)科技发展有限公司 一种基于知识图谱的最优路径选择方法、系统、可存储介质和电子设备
CN114328962A (zh) * 2021-12-29 2022-04-12 北京信息科技大学 一种基于知识图谱的web日志异常行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
苏菁: ""基于领域知识图谱的网络信息可信度测度"" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186503A (zh) * 2022-12-05 2023-05-30 广州大学 一种面向工控系统的恶意流量检测方法、装置及计算机存储介质

Also Published As

Publication number Publication date
CN115051863B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
US11190562B2 (en) Generic event stream processing for machine learning
Hofmann et al. Text mining and visualization: Case studies using open-source tools
US20190347282A1 (en) Technology incident management platform
Stvilia et al. A framework for information quality assessment
US8832102B2 (en) Methods and apparatuses for clustering electronic documents based on structural features and static content features
CN106599160B (zh) 一种内容规则库管理系统及其编码方法
JP6620241B2 (ja) ログ解析のための高速パターン発見
CN106021583B (zh) 页面流量数据的统计方法及其系统
CN108763274B (zh) 访问请求的识别方法、装置、电子设备及存储介质
US8661004B2 (en) Representing incomplete and uncertain information in graph data
CN111160021A (zh) 日志模板提取方法及装置
Chen et al. Bert-log: Anomaly detection for system logs based on pre-trained language model
CN111078776A (zh) 数据表的标准化方法、装置、设备及存储介质
CN111224923B (zh) 一种仿冒网站的检测方法、装置及系统
CN115577701A (zh) 针对大数据安全的风险行为识别方法、装置、设备及介质
US11601339B2 (en) Methods and systems for creating multi-dimensional baselines from network conversations using sequence prediction models
CN115051863B (zh) 异常流量检测的方法、装置、电子设备及可读存储介质
Prasad et al. An effective assessment of cluster tendency through sampling based multi-viewpoints visual method
CN110689211A (zh) 网站服务能力的评估方法及装置
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
US20150269241A1 (en) Time series clustering
CN110019193A (zh) 相似帐号识别方法、装置、设备、系统及可读介质
CN113806492B (zh) 基于语义识别的记录生成方法、装置、设备及存储介质
CN113961811B (zh) 基于事件图谱的话术推荐方法、装置、设备及介质
Ma et al. API prober–a tool for analyzing web API features and clustering web APIs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant