CN114143049A - 异常流量检测方法、装置、存储介质以及电子设备 - Google Patents

异常流量检测方法、装置、存储介质以及电子设备 Download PDF

Info

Publication number
CN114143049A
CN114143049A CN202111370704.4A CN202111370704A CN114143049A CN 114143049 A CN114143049 A CN 114143049A CN 202111370704 A CN202111370704 A CN 202111370704A CN 114143049 A CN114143049 A CN 114143049A
Authority
CN
China
Prior art keywords
access
field
website
address
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111370704.4A
Other languages
English (en)
Other versions
CN114143049B (zh
Inventor
杨康
王硕
姜娜
孙泽懿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202111370704.4A priority Critical patent/CN114143049B/zh
Publication of CN114143049A publication Critical patent/CN114143049A/zh
Application granted granted Critical
Publication of CN114143049B publication Critical patent/CN114143049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computer Security & Cryptography (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种异常流量检测方法、装置、存储介质以及电子设备。该方法包括:获取用户目标时间段内的网站访问数据;筛选网站访问数据,得到筛选数据,其中筛选数据包括用户的id字段,网站ip地址,id字段访问网站ip地址的访问时间和访问次数,id字段为用户的ip地址;根据筛选数据构建id字段的访问知识图谱;利用目标神经网络模型识别访问知识图谱的特征,得到id字段在目标时间段内访问网站ip地址所产生的流量是正常流量或异常流量的目标结果。本发明解决了无法有效通过一条异常流量捕捉整个异常流量簇的技术问题。

Description

异常流量检测方法、装置、存储介质以及电子设备
技术领域
本发明涉及计算机领域,具体而言,涉及一种异常流量检测方法、装置、存储介质以及电子设备。
背景技术
现有技术中,在检测异常流量时,可以采用对大量的异常流量进行分类和规则归纳,然后通过规则去检索符合规则的异常流量的方式,但规则的阈值影响检测的性能;或采用对流量进行简单的特征映射的方式,但此方法不能获取流量之间的关系从而捕捉整个异常流量簇。
发明内容
本发明实施例提供了一种异常流量检测方法、装置、存储介质以及电子设备,以至少解决无法有效通过一条异常流量捕捉整个异常流量簇的技术问题。
根据本发明实施例的一个方面,提供了一种异常流量检测方法,包括:获取用户目标时间段内的网站访问数据;筛选上述网站访问数据,得到筛选数据,其中上述筛选数据包括上述用户的id字段,网站ip地址,上述id字段访问上述网站ip地址的访问时间和访问次数,上述id字段为上述用户的ip地址;根据上述筛选数据构建上述id字段的访问知识图谱;利用目标神经网络模型识别上述访问知识图谱的特征,得到上述id字段在上述目标时间段内访问上述网站ip地址所产生的流量是正常流量或异常流量的目标结果。
根据本发明实施例的另一方面,提供了一种异常流量检测装置,包括:获取模块,用于获取用户目标时间段内的网站访问数据;筛选模块,用于筛选上述网站访问数据,得到筛选数据,其中上述筛选数据包括上述用户的id字段,网站ip地址,上述id字段访问上述网站ip地址的访问时间和访问次数,上述id字段为上述用户的ip地址;构建模块,用于根据上述筛选数据构建上述id字段的访问知识图谱;识别模块,用于利用目标神经网络模型识别上述访问知识图谱的特征,得到上述id字段在上述目标时间段内访问上述网站ip地址所产生的流量是正常流量或异常流量的目标结果。
作为一种可选的示例,上述构建模块包括:第一处理单元,用于使用上述id字段作为上述访问知识图谱的中心节点的字段;第二处理单元,用于使用上述网站ip地址作为上述中心节点的关联节点;第三处理单元,用于使用上述访问时间和上述访问次数作为上述中心节点到对应的上述关联节点的边属性。
作为一种可选的示例,上述识别模块包括:第一识别单元,用于由上述目标神经网络模型识别上述访问知识图谱,得到上述访问知识图谱的图谱特征;第二识别单元,用于对上述图谱特征进行识别,得到识别结果,其中,上述识别结果用于指示上述id字段访问上述网站ip地址的行为正常或异常;确定单元,用于根据上述识别结果,确定上述目标结果。
作为一种可选的示例,上述第一识别单元包括:第一映射子单元,用于将上述访问知识图谱中每一个关联节点映射为第一维度的特征向量;统一子单元,用于统一上述访问知识图谱中每一个边属性的特征维度为第二维度;第二映射子单元,用于将上述访问知识图谱中每一个边属性的特征维度映射为一个上述第一维度乘上述第二维度的特征矩阵;第一处理子单元,用于将上述特征矩阵与上述访问知识图谱中每一个关联节点的特征向量相乘,得到上述访问知识图谱中每一个关联节点的第一隐藏向量;第二处理子单元,用于将上述第一隐藏向量进行非线性变换后再拼接,得到上述id字段的第二隐藏向量;第一确定子单元,用于将上述第二隐藏向量确定为上述图谱特征。
作为一种可选的示例,上述第二识别单元包括:第三映射子单元,用于将上述图谱特征输入到全连接层,映射到第三维度;输出子单元,用于通过全连接层输出上述id字段访问上述网站ip地址的行为正常或异常的识别结果。
作为一种可选的示例,上述确定单元包括:第二确定子单元,用于在上述识别结果为正常的情况下,则上述目标结果为上述id字段在上述目标时间段内访问的上述网站ip地址所产生的所有流量皆为正常流量;第三确定子单元,用于在上述识别结果为异常的情况下,则上述目标结果为上述id字段在上述目标时间段内访问的上述网站ip地址所产生的所有流量皆为异常流量。
根据本发明实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被处理器运行时执行上述异常流量检测方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过上述计算机程序执行上述的异常流量检测方法。
在本申请的上述异常流量检测方法可用于知识图谱技术的图计算的过程中,在本发明实施例中,通过采用获取用户目标时间段内的网站访问数据;筛选上述网站访问数据,得到筛选数据,其中上述筛选数据包括上述用户的id字段,网站ip地址,上述id字段访问上述网站ip地址的访问时间和访问次数,上述id字段为上述用户的ip地址;根据上述筛选数据构建上述id字段的访问知识图谱;利用目标神经网络模型识别上述访问知识图谱的特征,得到上述id字段在上述目标时间段内访问上述网站ip地址所产生的流量是正常流量或异常流量的目标结果的方法,由于在上述方法中,使用基于知识图谱的异常流量检测方法,通过分析各个流量之间的关系,根据异常流量的发出源判断与其相关的流量皆为异常流量。从而实现了通过一条异常流量捕捉整个异常流量簇的目的,进而解决了无法有效通过一条异常流量捕捉整个异常流量簇的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的异常流量检测方法的流程图;
图2是根据本发明实施例的一种可选的异常流量检测方法的访问图谱结构图;
图3是根据本发明实施例的一种可选的异常流量检测方法的异常流量检测结构图;
图4是根据本发明实施例的一种可选的异常流量检测装置的结构示意图;
图5是根据本发明实施例的一种可选的电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的第一方面,提供了一种异常流量检测方法,可选地,如图1所示,上述方法包括:
S102,获取用户目标时间段内的网站访问数据;
S104,筛选网站访问数据,得到筛选数据,其中筛选数据包括用户的id字段,网站ip地址,id字段访问网站ip地址的访问时间和访问次数,id字段为用户的ip地址;
S106,根据筛选数据构建id字段的访问知识图谱;
S108,利用目标神经网络模型识别访问知识图谱的特征,得到id字段在目标时间段内访问网站ip地址所产生的流量是正常流量或异常流量的目标结果。
可选地,本实施例中,网站访问数据包括用户基本信息、网站基本信息以及用户访问网站产生的信息,其中用户基本信息包括用户id字段即用户的ip地址,注册账号等信息。网站基本信息包括网站ip地址、网站详细信息等信息,网站详细信息如网站内的文章、图片、视频等。用户访问网站产生的信息包括用户访问网站的访问时间、访问次数、访问历史记录等信息。知识图谱为显示知识发展进程与结构关系的一系列各种不同的图形,即构建筛选数据的访问知识图谱可以显示筛选数据与用户id字段之间的关系。神经网络模型采用了边权重图神经网络模型,其拥有能够充分利用多维的边的特征和双向随机归一化的优点,可以得到准确率更高的结果。
可选地,本实施例中获取用户目标时间内所有的网站访问数据,通过筛选网站访问数据得到筛选数据,筛选数据包括用户基本信息中的用户的id字段,网站基本信息中的网站ip地址,用户访问网站产生的信息中的用户访问网站的访问时间、访问次数。根据筛选数据构建用户id字段的访问知识图谱,以用户id字段作为访问知识图谱的中心节点,以网站ip地址作为访问知识图谱中的关联节点,以用户访问网站的访问时间、访问次数作为访问知识图谱中的边属性。最后通过边权重图神经网络模型对每个用户id字段的访问知识图谱进行特征计算,得到此用户id字段在目标时间段内的访问方式是正常或异常的结果,通过访问方式的正常或异常判断此用户id字段在目标时间段内访问网站ip地址所产生的流量是正常流量或异常流量。
通过本实施例,使用基于知识图谱的异常流量检测方法,通过分析各个流量之间的关系,根据异常流量的发出源判断与其相关的流量皆为异常流量。从而实现了通过一条异常流量捕捉整个异常流量簇的目的,进而解决了无法有效通过一条异常流量捕捉整个异常流量簇的技术问题。
作为一种可选的示例,根据筛选数据构建id字段的访问知识图谱包括:
使用id字段作为访问知识图谱的中心节点的字段;
使用网站ip地址作为中心节点的关联节点;
使用访问时间和访问次数作为中心节点到对应的关联节点的边属性。
可选地,本实施例中,构建用户id字段的访问知识图谱需要以用户的Id字段作为访问知识图谱的中心节点的字段,以网站ip地址作为访问知识图谱的中心节点其中的关联节点,以访问时间和访问次数作为中心节点到对应的关联节点的边属性,其中,一个访问知识图谱只能有一个中心节点,可以有多个关联节点,每个边属性与关联节点一一对应。
作为一种可选的示例,利用目标神经网络模型识别访问知识图谱的特征,得到id字段在目标时间段内访问网站ip地址所产生的流量是正常流量或异常流量的目标结果包括:
由目标神经网络模型识别访问知识图谱,得到访问知识图谱的图谱特征;
对图谱特征进行识别,得到识别结果,其中,识别结果用于指示id字段访问网站ip地址的行为正常或异常;
根据识别结果,确定目标结果。
可选地,本实施例中,通过神经网络模型即边权重图神经网络模型对用户id字段的访问知识图谱进行特征计算,得到访问知识图谱的图谱特征。最后对图谱特征进行识别,得到此用户id字段访问网站ip地址的行为正常或异常的识别结果。
作为一种可选的示例,由目标神经网络模型识别访问知识图谱,得到访问知识图谱的图谱特征包括:
将访问知识图谱中每一个关联节点映射为第一维度的特征向量;
统一访问知识图谱中每一个边属性的特征维度为第二维度;
将访问知识图谱中每一个边属性的特征维度映射为一个第一维度乘第二维度的特征矩阵;
将特征矩阵与访问知识图谱中每一个关联节点的特征向量相乘,得到访问知识图谱中每一个关联节点的第一隐藏向量;
将第一隐藏向量进行非线性变换后再拼接,得到id字段的第二隐藏向量;
将第二隐藏向量确定为图谱特征。
可选地,本实施例中,计算图谱特征包括将每一个关联节点映射为第一维度的特征向量,统一每一个边属性的特征维度为第二维度,再将每个边属性的特征维度映射为一个第一维度乘第二维度的特征矩阵,例如第一维度为2,第二维度为3,则特征矩阵为2*3的矩阵W,若一个关联节点的特征向量为e,将特征矩阵W乘特征向量e得到此关联节点的第一隐藏向量H=W*e,最后将第一隐藏向量H进行非线性变换后在拼接,得到此关联节点对应的用户id字段的第二隐藏向量h,第二隐藏向量即为图谱特征。
作为一种可选的示例,对图谱特征进行识别,得到识别结果包括:
将图谱特征输入到全连接层,映射到第三维度;
通过全连接层输出id字段访问网站ip地址的行为正常或异常的识别结果。
可选地,本实施例中,全连接层用来把前边得到的图谱特征综合起来,图谱特征输入到全连接层被综合起来后映射到第三维度,输出得到识别结果,即图谱特征对应的用户id字段在目标时间内访问网站ip地址的行为是正常行为或异常行为。
作为一种可选的示例,根据识别结果,确定目标结果包括:
在识别结果为正常的情况下,则目标结果为id字段在目标时间段内访问的网站ip地址所产生的所有流量皆为正常流量;
在识别结果为异常的情况下,则目标结果为id字段在目标时间段内访问的网站ip地址所产生的所有流量皆为异常流量。
可选地,本实施例中,根据识别结果判断id字段在目标时间段内访问的网站ip地址所产生的所有流量为正常流量或异常流量,若识别结果为正常,则id字段在目标时间段内访问的网站ip地址所产生的所有流量为正常流量,若识别结果为异常,则id字段在目标时间段内访问的网站ip地址所产生的所有流量为异常流量,由此可以识别出包括潜在异常流量的整个异常那个簇。
可选地,本实施例中主要是通过构建基于id的流量访问的知识图谱和基于知识图谱进行计算的图神经网络模型进行实现的。
可选地,本实施例中基于id的流量访问知识图谱构建中数据主要来源于流量检测系统捕捉的某段时间的网站访问数据,通过筛选数据中的id字段(即流量访问者ip地址),所访问的网站ip地址,访问的时间、次数等属性作为图谱构建的关键字段。然后使用id作为图谱中的中心节点的字段,然后此id这个时间段中所访问的ip作为中心节点的关联节点,然后使用访问时间次数等属性作为中心节点到ip节点的边属性,以此来构建就要每个id的访问图谱,其结构如图2所示。
可选地,本实施例中基于知识图谱进行计算的图神经网络模型提出了边权重图神经网络(EGNN)的形式进行每个id图谱的特征计算,其中计算过程主要为:
1、将各个ip节点通过Embedding,映射为一个n维的特征向量ej
2、统一各条边的特征维度为m,并将每条边的特征通过Embedding映射为一个m*n的特征矩阵Wij
3、将每个边对应的特征矩阵与对应的ip节点的特征向量相乘,得到一个m维的隐藏向量,其中hij为这个节点对应的隐藏向量;
hij=Wijej (1)
4、将各ip节点的隐藏向量hij进行非线性变换后再拼接,得到最终的id节点对应的所有ip的隐藏表示,其中,hi为id对应的隐藏向量;
hi=concat(σ(hij)) (2)
5、然后将隐藏向量输入到一层全连接层,映射到目标维度;并通过soft Max层拿到其是否输出异常流量的结果输出,其中ci表示类别结果输出。
ci=softMax(FC(hi)) (3)
通过上述计算过程,可以得到此id在这个时间段的访问方式是否异常,如果判定该id该段时间的访问异常,则说明该ip此段时间被使用来制造异常流量,则时间段中该id的访问流量皆为异常流量,其实现过程的结构如图3所示。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本申请实施例的另一方面,还提供了一种异常流量检测装置,如图4所示,包括:
获取模块402,用于获取用户目标时间段内的网站访问数据;
筛选模块404,用于筛选网站访问数据,得到筛选数据,其中筛选数据包括用户的id字段,网站ip地址,id字段访问网站ip地址的访问时间和访问次数,id字段为用户的ip地址;
构建模块406,用于根据筛选数据构建id字段的访问知识图谱;
识别模块408,用于利用目标神经网络模型识别访问知识图谱的特征,得到id字段在目标时间段内访问网站ip地址所产生的流量是正常流量或异常流量的目标结果。
可选地,本实施例中,网站访问数据包括用户基本信息、网站基本信息以及用户访问网站产生的信息,其中用户基本信息包括用户id字段即用户的ip地址,注册账号等信息。网站基本信息包括网站ip地址、网站详细信息等信息,网站详细信息如网站内的文章、图片、视频等。用户访问网站产生的信息包括用户访问网站的访问时间、访问次数、访问历史记录等信息。知识图谱为显示知识发展进程与结构关系的一系列各种不同的图形,即构建筛选数据的访问知识图谱可以显示筛选数据与用户id字段之间的关系。神经网络模型采用了边权重图神经网络模型,其拥有能够充分利用多维的边的特征和双向随机归一化的优点,可以得到准确率更高的结果。
可选地,本实施例中获取用户目标时间内所有的网站访问数据,通过筛选网站访问数据得到筛选数据,筛选数据包括用户基本信息中的用户的id字段,网站基本信息中的网站ip地址,用户访问网站产生的信息中的用户访问网站的访问时间、访问次数。根据筛选数据构建用户id字段的访问知识图谱,以用户id字段作为访问知识图谱的中心节点,以网站ip地址作为访问知识图谱中的关联节点,以用户访问网站的访问时间、访问次数作为访问知识图谱中的边属性。最后通过边权重图神经网络模型对每个用户id字段的访问知识图谱进行特征计算,得到此用户id字段在目标时间段内的访问方式是正常或异常的结果,通过访问方式的正常或异常判断此用户id字段在目标时间段内访问网站ip地址所产生的流量是正常流量或异常流量。
通过本实施例,使用基于知识图谱的异常流量检测方法,通过分析各个流量之间的关系,通过异常流量的发出源判断与其相关的流量皆为异常流量。从而实现了通过一条异常流量捕捉整个异常流量簇的目的,进而解决了无法有效通过一条异常流量捕捉整个异常流量簇的技术问题。
作为一种可选的示例,构建模块包括:
第一处理单元,用于使用id字段作为访问知识图谱的中心节点的字段;
第二处理单元,用于使用网站ip地址作为中心节点的关联节点;
第三处理单元,用于使用访问时间和访问次数作为中心节点到对应的关联节点的边属性。
可选地,本实施例中,构建用户id字段的访问知识图谱需要以用户的Id字段作为访问知识图谱的中心节点的字段,以网站ip地址作为访问知识图谱的中心节点其中的关联节点,以访问时间和访问次数作为中心节点到对应的关联节点的边属性,其中,一个访问知识图谱只能有一个中心节点,可以有多个关联节点,每个边属性与关联节点一一对应。
作为一种可选的示例,识别模块包括:
第一识别单元,用于由目标神经网络模型识别访问知识图谱,得到访问知识图谱的图谱特征;
第二识别单元,用于对图谱特征进行识别,得到识别结果,其中,识别结果用于指示id字段访问网站ip地址的行为正常或异常;
确定单元,用于根据识别结果,确定目标结果。
可选地,本实施例中,通过神经网络模型即边权重图神经网络模型对用户id字段的访问知识图谱进行特征计算,得到访问知识图谱的图谱特征。最后对图谱特征进行识别,得到此用户id字段访问网站ip地址的行为正常或异常的识别结果。
作为一种可选的示例,第一识别单元包括:
第一映射子单元,用于将访问知识图谱中每一个关联节点映射为第一维度的特征向量;
统一子单元,用于统一访问知识图谱中每一个边属性的特征维度为第二维度;
第二映射子单元,用于将访问知识图谱中每一个边属性的特征维度映射为一个第一维度乘第二维度的特征矩阵;
第一处理子单元,用于将特征矩阵与访问知识图谱中每一个关联节点的特征向量相乘,得到访问知识图谱中每一个关联节点的第一隐藏向量;
第二处理子单元,用于将第一隐藏向量进行非线性变换后再拼接,得到id字段的第二隐藏向量;
确定子单元,用于将第二隐藏向量确定为图谱特征。
可选地,本实施例中,计算图谱特征包括将每一个关联节点映射为第一维度的特征向量,统一每一个边属性的特征维度为第二维度,再将每个边属性的特征维度映射为一个第一维度乘第二维度的特征矩阵,例如第一维度为2,第二维度为3,则特征矩阵为2*3的矩阵W,若一个关联节点的特征向量为e,将特征矩阵W乘特征向量e得到此关联节点的第一隐藏向量H=W*e,最后将第一隐藏向量H进行非线性变换后在拼接,得到此关联节点对应的用户id字段的第二隐藏向量h,第二隐藏向量即为图谱特征。
作为一种可选的示例,第二识别单元包括:
第三映射子单元,用于将图谱特征输入到全连接层,映射到第三维度;
输出子单元,用于通过全连接层输出id字段访问网站ip地址的行为正常或异常的识别结果。
可选地,本实施例中,全连接层用来把前边得到的图谱特征综合起来,图谱特征输入到全连接层被综合起来后映射到第三维度,输出得到识别结果,即图谱特征对应的用户id字段在目标时间内访问网站ip地址的行为是正常行为或异常行为。
作为一种可选的示例,确定单元包括:
第一确定子单元,用于在识别结果为正常的情况下,则目标结果为id字段在目标时间段内访问的网站ip地址所产生的所有流量皆为正常流量;
第二确定子单元,用于在识别结果为异常的情况下,则目标结果为id字段在目标时间段内访问的网站ip地址所产生的所有流量皆为异常流量。
可选地,本实施例中,根据识别结果判断id字段在目标时间段内访问的网站ip地址所产生的所有流量为正常流量或异常流量,若识别结果为正常,则id字段在目标时间段内访问的网站ip地址所产生的所有流量为正常流量,若识别结果为异常,则id字段在目标时间段内访问的网站ip地址所产生的所有流量为异常流量,由此可以识别出包括潜在异常流量的整个异常那个簇。
本实施例的其他示例请参见上述示例,在此不在赘述。
图5是根据本申请实施例的一种可选的电子设备的结构框图,如图5所示,包括处理器502、通信接口504、存储器506和通信总线508,其中,处理器502、通信接口504和存储器506通过通信总线508完成相互间的通信,其中,
存储器506,用于存储计算机程序;
处理器502,用于执行存储器506上所存放的计算机程序时,实现如下步骤:
获取用户目标时间段内的网站访问数据;
筛选网站访问数据,得到筛选数据,其中筛选数据包括用户的id字段,网站ip地址,id字段访问网站ip地址的访问时间和访问次数,id字段为用户的ip地址;
根据筛选数据构建id字段的访问知识图谱;
利用目标神经网络模型识别访问知识图谱的特征,得到id字段在目标时间段内访问网站ip地址所产生的流量是正常流量或异常流量的目标结果。
可选地,在本实施例中,上述的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,上述存储器506中可以但不限于包括上述请求的处理装置中的获取模块402、筛选模块404、构建模块406以及识别模块408。此外,还可以包括但不限于上述请求的处理装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图5所示的结构仅为示意,实施上述请求的处理方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图5其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
根据本发明的实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被处理器运行时执行上述异常流量检测方法中的步骤。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种异常流量检测方法,其特征在于,包括:
获取用户目标时间段内的网站访问数据;
筛选所述网站访问数据,得到筛选数据,其中所述筛选数据包括所述用户的id字段,网站ip地址,所述id字段访问所述网站ip地址的访问时间和访问次数,所述id字段为所述用户的ip地址;
根据所述筛选数据构建所述id字段的访问知识图谱;
利用目标神经网络模型识别所述访问知识图谱的特征,得到所述id字段在所述目标时间段内访问所述网站ip地址所产生的流量是正常流量或异常流量的目标结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述筛选数据构建所述id字段的访问知识图谱包括:
使用所述id字段作为所述访问知识图谱的中心节点的字段;
使用所述网站ip地址作为所述中心节点的关联节点;
使用所述访问时间和所述访问次数作为所述中心节点到对应的所述关联节点的边属性。
3.根据权利要求1所述的方法,其特征在于,所述利用目标神经网络模型识别所述访问知识图谱的特征,得到所述id字段在所述目标时间段内访问所述网站ip地址所产生的流量是正常流量或异常流量的目标结果包括:
由所述目标神经网络模型识别所述访问知识图谱,得到所述访问知识图谱的图谱特征;
对所述图谱特征进行识别,得到识别结果,其中,所述识别结果用于指示所述id字段访问所述网站ip地址的行为正常或异常;
根据所述识别结果,确定所述目标结果。
4.根据权利要求3所述的方法,其特征在于,所述由所述目标神经网络模型识别所述访问知识图谱,得到所述访问知识图谱的图谱特征包括:
将所述访问知识图谱中每一个关联节点映射为第一维度的特征向量;
统一所述访问知识图谱中每一个边属性的特征维度为第二维度;
将所述访问知识图谱中每一个边属性的特征维度映射为一个所述第一维度乘所述第二维度的特征矩阵;
将所述特征矩阵与所述访问知识图谱中每一个关联节点的特征向量相乘,得到所述访问知识图谱中每一个关联节点的第一隐藏向量;
将所述第一隐藏向量进行非线性变换后再拼接,得到所述id字段的第二隐藏向量;
将所述第二隐藏向量确定为所述图谱特征。
5.根据权利要求3所述的方法,其特征在于,所述对所述图谱特征进行识别,得到识别结果包括:
将所述图谱特征输入到全连接层,映射到第三维度;
通过全连接层输出所述id字段访问所述网站ip地址的行为正常或异常的识别结果。
6.根据权利要求3所述的方法,其特征在于,所述根据所述识别结果,确定所述目标结果包括:
在所述识别结果为正常的情况下,则所述目标结果为所述id字段在所述目标时间段内访问的所述网站ip地址所产生的所有流量皆为正常流量;
在所述识别结果为异常的情况下,则所述目标结果为所述id字段在所述目标时间段内访问的所述网站ip地址所产生的所有流量皆为异常流量。
7.一种异常流量检测装置,其特征在于,包括:
获取模块,用于获取用户目标时间段内的网站访问数据;
筛选模块,用于筛选所述网站访问数据,得到筛选数据,其中所述筛选数据包括所述用户的id字段,网站ip地址,所述id字段访问所述网站ip地址的访问时间和访问次数,所述id字段为所述用户的ip地址;
构建模块,用于根据所述筛选数据构建所述id字段的访问知识图谱;
识别模块,用于利用目标神经网络模型识别所述访问知识图谱的特征,得到所述id字段在所述目标时间段内访问所述网站ip地址所产生的流量是正常流量或异常流量的目标结果。
8.根据权利要求7所述的装置,其特征在于,所述构建模块包括:
第一处理单元,用于使用所述id字段作为所述访问知识图谱的中心节点的字段;
第二处理单元,用于使用所述网站ip地址作为所述中心节点的关联节点;
第三处理单元,用于使用所述访问时间和所述访问次数作为所述中心节点到对应的所述关联节点的边属性。
9.一种计算机可读的存储介质,所述计算机可读的存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行所述权利要求1至6任一项中所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。
CN202111370704.4A 2021-11-18 2021-11-18 异常流量检测方法、装置、存储介质以及电子设备 Active CN114143049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111370704.4A CN114143049B (zh) 2021-11-18 2021-11-18 异常流量检测方法、装置、存储介质以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111370704.4A CN114143049B (zh) 2021-11-18 2021-11-18 异常流量检测方法、装置、存储介质以及电子设备

Publications (2)

Publication Number Publication Date
CN114143049A true CN114143049A (zh) 2022-03-04
CN114143049B CN114143049B (zh) 2024-08-02

Family

ID=80390281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111370704.4A Active CN114143049B (zh) 2021-11-18 2021-11-18 异常流量检测方法、装置、存储介质以及电子设备

Country Status (1)

Country Link
CN (1) CN114143049B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547423A (zh) * 2022-04-27 2022-05-27 彭州市教育人才管理服务中心 一种职业能力大数据知识图谱数据访问管理方法及系统
CN115603973A (zh) * 2022-09-30 2023-01-13 浙江电科智盛科技有限公司(Cn) 基于政务信息网络的异构安全监测方法及系统
CN116471126A (zh) * 2023-06-20 2023-07-21 江苏苏宁银行股份有限公司 识别异常ip的数据处理方法及装置
CN117221242A (zh) * 2023-09-01 2023-12-12 安徽慢音科技有限公司 一种网络流向识别方法、设备及介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180332347A1 (en) * 2017-05-10 2018-11-15 Accenture Global Solutions Limited Analyzing multimedia content using knowledge graph embeddings
CN109886833A (zh) * 2019-01-21 2019-06-14 广东电网有限责任公司信息中心 一种面向智能电网服务器流量异常检测的深度学习方法
CN110611651A (zh) * 2019-07-19 2019-12-24 中国工商银行股份有限公司 网络监控方法、网络监控装置和电子设备
CN111090807A (zh) * 2019-12-16 2020-05-01 秒针信息技术有限公司 一种基于知识图谱的用户识别方法及装置
CN111431939A (zh) * 2020-04-24 2020-07-17 郑州大学体育学院 基于cti的sdn恶意流量防御方法及系统
CN111629005A (zh) * 2020-05-28 2020-09-04 北京学之途网络科技有限公司 一种反作弊方法、装置、电子设备及存储介质
CN111949803A (zh) * 2020-08-21 2020-11-17 深圳供电局有限公司 一种基于知识图谱的网络异常用户检测方法、装置和设备
CN112788064A (zh) * 2021-02-10 2021-05-11 中国电子科技集团公司第十五研究所 基于知识图谱的加密网络异常流量检测方法
CN113259402A (zh) * 2021-07-19 2021-08-13 北京明略软件系统有限公司 一种异常网络协议地址的确定方法和装置
CN113392920A (zh) * 2021-06-25 2021-09-14 北京百度网讯科技有限公司 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN113612763A (zh) * 2021-07-30 2021-11-05 北京交通大学 基于网络安全恶意行为知识库的网络攻击检测装置和方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180332347A1 (en) * 2017-05-10 2018-11-15 Accenture Global Solutions Limited Analyzing multimedia content using knowledge graph embeddings
CN109886833A (zh) * 2019-01-21 2019-06-14 广东电网有限责任公司信息中心 一种面向智能电网服务器流量异常检测的深度学习方法
CN110611651A (zh) * 2019-07-19 2019-12-24 中国工商银行股份有限公司 网络监控方法、网络监控装置和电子设备
CN111090807A (zh) * 2019-12-16 2020-05-01 秒针信息技术有限公司 一种基于知识图谱的用户识别方法及装置
CN111431939A (zh) * 2020-04-24 2020-07-17 郑州大学体育学院 基于cti的sdn恶意流量防御方法及系统
CN111629005A (zh) * 2020-05-28 2020-09-04 北京学之途网络科技有限公司 一种反作弊方法、装置、电子设备及存储介质
CN111949803A (zh) * 2020-08-21 2020-11-17 深圳供电局有限公司 一种基于知识图谱的网络异常用户检测方法、装置和设备
CN112788064A (zh) * 2021-02-10 2021-05-11 中国电子科技集团公司第十五研究所 基于知识图谱的加密网络异常流量检测方法
CN113392920A (zh) * 2021-06-25 2021-09-14 北京百度网讯科技有限公司 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN113259402A (zh) * 2021-07-19 2021-08-13 北京明略软件系统有限公司 一种异常网络协议地址的确定方法和装置
CN113612763A (zh) * 2021-07-30 2021-11-05 北京交通大学 基于网络安全恶意行为知识库的网络攻击检测装置和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈佳: ""基于知识图谱的DDoS攻击源检测研究"", 《信息安全研究》, vol. 6, no. 1, pages 91 - 96 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547423A (zh) * 2022-04-27 2022-05-27 彭州市教育人才管理服务中心 一种职业能力大数据知识图谱数据访问管理方法及系统
CN114547423B (zh) * 2022-04-27 2022-08-09 杜江波 一种职业能力大数据知识图谱数据访问管理方法及系统
CN115603973A (zh) * 2022-09-30 2023-01-13 浙江电科智盛科技有限公司(Cn) 基于政务信息网络的异构安全监测方法及系统
CN115603973B (zh) * 2022-09-30 2023-04-25 浙江电科智盛科技有限公司 基于政务信息网络的异构安全监测方法及系统
CN116471126A (zh) * 2023-06-20 2023-07-21 江苏苏宁银行股份有限公司 识别异常ip的数据处理方法及装置
CN116471126B (zh) * 2023-06-20 2023-09-15 江苏苏宁银行股份有限公司 识别异常ip的数据处理方法及装置
CN117221242A (zh) * 2023-09-01 2023-12-12 安徽慢音科技有限公司 一种网络流向识别方法、设备及介质

Also Published As

Publication number Publication date
CN114143049B (zh) 2024-08-02

Similar Documents

Publication Publication Date Title
CN114143049B (zh) 异常流量检测方法、装置、存储介质以及电子设备
CN110929807B (zh) 图像分类模型的训练方法、图像分类方法及装置
CN107888616A (zh) 基于URI的分类模型的构建方法和Webshell攻击网站的检测方法
WO2019019628A1 (zh) 移动应用的测试方法、装置、测试设备及介质
CN106874253A (zh) 识别敏感信息的方法及装置
CN109614318A (zh) 自动化测试方法、装置、电子设备及计算机可读介质
CN112580668B (zh) 一种背景欺诈检测方法、装置及电子设备
CN107908959A (zh) 网站信息检测方法、装置、电子设备及存储介质
CN112257578B (zh) 人脸关键点检测方法、装置、电子设备及存储介质
CN109274639A (zh) 开放平台异常数据访问的识别方法和装置
US10909145B2 (en) Techniques for determining whether to associate new user information with an existing user
CN112801800A (zh) 行为资金分析系统、方法、计算机设备及存储介质
CN113192639B (zh) 信息预测模型的训练方法、装置、设备及存储介质
CN109376287B (zh) 房产图谱构建方法、装置、计算机设备及存储介质
CN112306835A (zh) 用户数据监控分析方法、装置、设备及介质
CN111415167B (zh) 网络欺诈交易检测方法及装置、计算机存储介质和终端
JP7423998B2 (ja) 二部ネットワーク内のミッシングリンクを理解するための視覚分析フレームワーク、方法、プログラム、装置、およびシステム
CN112347457A (zh) 异常账户检测方法、装置、计算机设备和存储介质
CN110428342A (zh) 数据修复方法、服务器、客服端及存储介质
CN113076487B (zh) 一种用户兴趣表征及内容推荐方法、装置和设备
CN115758271A (zh) 数据处理方法、装置、计算机设备和存储介质
CN111401317A (zh) 视频分类方法、装置、设备及存储介质
US11847127B2 (en) Device and method for discovering causal patterns
CN116597971B (zh) 基于数字孪生的医院空间优化模拟方法及系统
CN116167829B (zh) 一种多维多粒度用户行为分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant