CN114598627A - 一种基于知识图谱的异常网络信息检测方法 - Google Patents

一种基于知识图谱的异常网络信息检测方法 Download PDF

Info

Publication number
CN114598627A
CN114598627A CN202011419205.5A CN202011419205A CN114598627A CN 114598627 A CN114598627 A CN 114598627A CN 202011419205 A CN202011419205 A CN 202011419205A CN 114598627 A CN114598627 A CN 114598627A
Authority
CN
China
Prior art keywords
abnormal
time
data
information
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011419205.5A
Other languages
English (en)
Inventor
王文蔚
彭英
史进
胥林
宋建
田百仁
崔杰
郑云拓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Petroleum and Chemical Corp
Geophysical Research Institute of Sinopec Shengli Oilfield Co
Original Assignee
China Petroleum and Chemical Corp
Geophysical Research Institute of Sinopec Shengli Oilfield Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Petroleum and Chemical Corp, Geophysical Research Institute of Sinopec Shengli Oilfield Co filed Critical China Petroleum and Chemical Corp
Priority to CN202011419205.5A priority Critical patent/CN114598627A/zh
Publication of CN114598627A publication Critical patent/CN114598627A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0213Standardised network management protocols, e.g. simple network management protocol [SNMP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level

Abstract

本发明公开了一种基于知识图谱的异常网络信息检测方法,该方法包含:通过利用SNMP网络协议,轮询企业交换机抓取到工业互联网内的相关信息,以此构建模型达到数据清洗的效果;然后经过基于正态分布的概率统计异常检测算法过滤异常与非异常信息,将筛选出的非异常信息进行时间维度检测算法过滤,找出在时间维度下,IPv6地址数目增幅异常的时间点和其他相关数据;最后经过构建动态的知识图谱找出异常信息之间的关联信息和关联程度,生成图谱化展示和可下载的文本文档。本发明的方法能够从工业IPv6网络环境中解析出更多有价值的信息,显著提高了检测异常情况的精度与速度。

Description

一种基于知识图谱的异常网络信息检测方法
技术领域
本发明涉及网络通信技术领域,特别涉及一种基于知识图谱的异常网络信息检测方法。
背景技术
随着企业主营业务的不断发展,对信息系统的依赖程度越来越高,信息的集中式管控问题越来越突出。当前社会正在向“万物互联”的方向推进,传统IPv4地址数量紧缺带来的问题日益严重,于是出现了IPv6技术等下一代互联网技术。在发展过程中,新需求、新系统和新技术的不断使用,网络管理面临以下诸多问题,例如流量剧增、人员工作量加大,导致负担加重;其次,传统监控方式过于分散,不利于故障的准确定位,数据之间的关系复杂不利于快速找出问题关键,且被动式接受各种问题和故障,缺乏自主的应对策略。
对于已提出的异常检测方案,仍存在不少缺陷,在大多数实际的场景中,数据本身是没有标签的,也存在一些数据集有标签,但标签的可信度非常低,导致放入模型后效果很差,这就导致我们无法直接使用一些成熟的监督学习方法。在一些欺诈检测的场景中,多种诈骗数据都混在一起,很难区分不同类型的诈骗,对于时间维度上的探究考虑不够,缺少应对在时间间隔内的异常分析。
发明内容
本发明的目的在于至少解决现有技术中存在的技术问题之一,提供一种基于知识图谱的异常网络信息检测方法,能够对工业互联网内的网络信息异常情况进那行精准和快速的筛查。
根据本发明实施例,提供一种基于知识图谱的异常网络信息检测方法,该方法步骤包括:
利用SNMP协议连接网络目标交换机,通过不同的OID字段发起请求获取业务命令,周期性获取目标信息;
确定与异常信息检测模型相对应的目标模型参数,分类别存储入库,与企业内部人员信息表进行交叉匹配,获得汇总数据集,进行数据清洗,处理获取信息的格式;
运行基于正态分布的概率统计异常检测算法,将该检测算法部署到网络内,获取并计算异常特征,构建异常分类器进行分类;
通过时间维度检测算法,拟合出一条时间序列曲线,从时间维度查看物理位置下IPv6地址的负载数量变化,检测其异常变化幅度和物理位置的稳定性;
进行动态知识图谱的异常行为检测,构建网络模型,抽取实体,探讨实体之间的度量尺度和相互关系,构建动态知识图谱;
对于异常信息进行图谱化展示和文本化信息输出。
进一步,所述步骤运行基于正态分布的概率统计异常检测算法,将该检测算法部署到网络内,获取并计算异常特征,构建异常分类器进行分类,具体包括:在正态分布的假设下,如果有一个新样本X,当X的正态分布值小于某个阈值时,认定样本是异常的;针对已获取的企业网络数据,以一个五元组作为一个数据,获得的数据集为包含m个数据的数据集,如公式(1)所示:
X={x(1),x(2),...,x(m)} (1)
依据上述数据集,选定训练集,通过公式(2)和(3)并依据所述训练集求得μ和σ2的值,以得到一个确定的函数模型;通过最大似然估计得到下面的结果:
Figure BDA0002821522600000021
Figure BDA0002821522600000022
得到公式的各项参数,然后通过正态分布函数(4)对样本数据集进行异常检测判断,如公式(4)所示:
p(x(i);μ;σ2) (4)
经过异常检验算法,得到汇总的异常登录数据,将异常数据分类存储入库。
进一步,所述通过时间维度检测算法,拟合出一条时间序列曲线,从时间维度查看物理位置下IPv6地址的负载数量变化,检测其异常变化幅度和物理位置的稳定性,具体包括:进行贝叶斯变换检测以求得时间拟合曲线,通过贝叶斯回归计算出一个预测分布,将不同对应的预测结果组合起来,形成最终的预测曲线,作为比对标准;计算出当前时间节点下的挂载IPv6地址数目,其中
Figure BDA0002821522600000031
和T={t1,t2,...,tn}分别表示IPv6地址数量和对应的时间节点,
Figure BDA0002821522600000032
是挂载在物理位置下IPv6地址的总数量,ti是对应数量的时间节点,ti<tj(1≤i<j≤n)。用In表示第n个时间的窗口,公式如(5)所示:
In=[tn-1,tn-1+ΔT] (5)
式(5)中,ΔT是时间窗口变化幅度;
给定一个确定的滑动窗口,IPv6地址数量M(In)是给定时间下该窗口的IPv6地址数量的总和,其公式如(6)所示:
M(In)=|{rj;tj∈I}| (6)
式(6)中,rj表示的是这窗口中总的IPv6地址数目,tj是时间节点;
模式匹配算法应用于拟合曲线用以检测异常模式,令L表示时间序列二维的拟合曲线,如果经拟合曲线比对,实际曲线与所设置模板不相匹配,从而找到异常线段y={y1,y2,...,ys}。
进一步,通过前后滑动窗口检测出的异常线段比对找到确定的异常数据,借助滑动窗口来获得所有的序列段,上一次检测被滑动窗口圈起的异常序列段定义为b={b1,b2,...,bs},并求在两个序列y和b之间进行交叉匹配;如果匹配成功,那么序列中的数据就是准确的异常数据,X(i)是两序列集合之间的数量匹配公式,公式如(7)所示:
Figure BDA0002821522600000041
式(7)中,ε指的是合理阈值。
进一步,所述进行动态知识图谱的异常行为检测,构建网络模型,抽取实体,探讨实体之间的度量尺度和相互关系,构建动态知识图谱,具体包括:针对抽取的五类知识主体,将这五类主体作为五个特征值,借助于逻辑回归分析函数分析计算每一个知识主体对于异常登录的检测占比率,逻辑回归的公式代表了变量之间的关系,如(8)所示:
Figure BDA0002821522600000042
式(8)中,P(x)是检测占比率,借助最大似然函数可以计算出各个主体对应的Wi值,从而计算出不同的主体对于异常检测的占比率,之后进行构建节点关联模型,G(N,E)表示实体中的节点关联图,其中实体节点所有的集合是用N={n1,n2,...,nn}表示,G(N,E)中的边的集合用E={e1,e2,...,es}表示,如果N中存在两个有节点相连的边nx和ny,则认为两者之间存在关联关系;
进一步,在所述构建动态知识图谱时,采用关联影响值累计叠加的方法计算关联值;加入时间特征,把时间分为m个片段,在ti(i=1,2,...,m)时间内的图谱表示为
Figure BDA0002821522600000043
得到序列
Figure BDA0002821522600000044
定义在此集的两个节点
Figure BDA0002821522600000045
是可视的,如果任意的
Figure BDA0002821522600000046
满足条件,那么就证明
Figure BDA0002821522600000047
存在关联,如公式(9)所示:
Figure BDA0002821522600000048
式(9)中,
Figure BDA0002821522600000049
代表公式化的图谱,ti即代表时间节点。
本发明的基于知识图谱的异常网络信息检测方法具有以下技术效果:
(1)本发明实施例方法分析并设计了一个网络结构,比之前已有的方法能够更好地进行对工业互联网中的异常信息,包含了针对异常检测的所有网络信息,能够从这些数据中解析出更多有使用价值的信息,不仅精度高,速度也快,具有广泛的应用场景;
(2)本发明实施例的方法能够应用于企业工业互联网这个复杂场景中,实现了精准的网络信息异常检测,并在特定的实际应用场景中结合SNMP协议和异常检测算法,实现了一套针对异常网络情况检测的通用框架;
(3)本发明实施例的方法在使用人员众多,设备集群庞大的实际工程场景中,通过构造异常检测算法,实现了从原始数据到带有检测标签的测试数据,加入时间维度的测比更大地提高了异常检测的精度,并且在最终的网络知识图谱的绘制中显著提高了对异常情况复杂关系的可读性。
附图说明
下面结合附图和实施例对本发明进一步地说明;
图1为本发明实施例基于知识图谱的异常网络信息检测方法的流程图;
图2为本发明图1实施例中基于正态分布的概率统计异常检测的结构示意图;
图3为本发明图1实施例中时间维度检测的结构示意图;
图4为本发明图1实施例中动态知识图谱异常检测的结构示意图。
具体实施方式
本部分将详细描述本发明的具体实施例,本发明之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案,但其不能理解为对本发明保护范围的限制。
参照图1所示,本发明实施例公开了一种提供一种基于知识图谱的异常网络信息检测方法,该方法步骤包括:
步骤S100,利用SNMP协议连接网络目标交换机,通过不同的OID字段发起请求获取业务命令,周期性获取目标信息。
具体的,在企业内部网络中抓取所需的数据,利用OID进行对网络信息的分类找寻。
步骤S110,确定与异常信息检测模型相对应的目标模型参数,分类别存储入库,与企业内部人员信息表进行交叉匹配,获得汇总数据集,进行数据清洗,处理获取信息的格式。
具体的,用户人员登记信息录入数据库,按要求进行处理相应字段。获取信息匹配成功后,组合存储,将信息转化为所需格式文件。根据登记表中的用户的登入登出时间同设备信息的获取时间作对比进行第一轮匹配,在用户的登入登出间隔内条目进行第二轮筛选,筛选出相同Mac地址的条目进行组合字段存储,其余数据作废。
步骤S120,运行基于正态分布的概率统计异常检测算法,将该检测算法部署到网络内,获取并计算异常特征,构建异常分类器进行分类。
本发明实施例中,如图2所示,将数据集带入基于正态分布的概率统计异常检测算法。在面对原始数据时,时常出现“肮脏”数据,需要对所有的数据进行数据清洗,一般的操作方法是直接删除带有缺失值的行记录或者列字段,减少缺失记录对总体数据的影响,但是丢弃意味着消减数据特征,特别是数据集总体中存在大量的数据记录不完整情况且比例较大,例如超过10%,删除这些带有缺失值的记录意味着会损失过多有用信息。缺失值的数据记录大量存在着明显的数据分布规律或特征,例如带有缺失值的数据记录的目标标签主要集中于某一类或几类,如果删除这些数据记录将使对应分类的数据样本丢失大量特征信息,导致模型过拟合或分类不准确。
我们利用模型法进行数据补全,将缺失字段进行目标变量进行预测,从而得到最为可能的补全值。利用所设计的异常检测函数进行异常检测。这算法的核心思想是:给定一个训练集,将训练集转换为m维的高斯分布,通过对其中n个训练样例的分布分析,得出训练集的概率密度函数,并且利用其确定一个阈值ε。当给定一个新的点,我们根据在其高斯分布上算出的概率及阈值ε,当概率p<ε判定为异常,当p>ε则判定为非异常。
具体的,在正态分布的假设下,如果有一个新样本X,当X的正态分布值小于某个阈值时,认定样本是异常的;针对已获取的企业网络数据,以一个五元组作为一个数据,获得的数据集为包含m个数据的数据集,如公式(1)所示:
X={x(1),x(2),...,x(m)} (1)
依据上述数据集,选定训练集,通过公式(2)和(3)并依据所述训练集求得μ和σ2的值,以得到一个确定的函数模型;通过最大似然估计得到下面的结果:
Figure BDA0002821522600000071
Figure BDA0002821522600000072
得到公式的各项参数,然后通过正态分布函数(4)对样本数据集进行异常检测判断,如公式(4)所示:
p(x(i);μ;σ2) (4)
步骤S130,通过时间维度检测算法,拟合出一条时间序列曲线,从时间维度查看物理位置下IPv6地址的负载数量变化,检测其异常变化幅度和物理位置的稳定性。
本发明实施例中,进行贝叶斯变换检测的算法以求得时间拟合曲线。贝叶斯推断的基本方法是将未知参数的先验信息与样本信息综合,根据贝叶斯定理,得出后验信息,最后根据后验信息去推断未知参数。
对于时间序列,指的是将同一统计指标的数值按其发生的时间先后顺序排列而成的数列,使用基于滑动窗口的方法进行时间序列的检测,将时间序列划分成若干个子列,即小窗口,在各个子序列中定位异常点,该方法的基础是时间序列中的异常点可能是其中之一或多个子序列中的异常点导致。
再进行模式匹配找出异常线段,构建二维的时间拟合曲线,并使用类似函数的模板来表示值的突然发生异常y={y1,y2,...,ys},当数据一接收到,就形成一个滑动窗口,随着数据量的不断到来,滑动窗口中的固定窗口将会不断增加,直至到达它的长度W,接着使用模式匹配算法,进行处理,确定模式。然后随着数据量的不断加入,在所持有的固定窗口下不断处理新的数据流,计算数据流进行模式匹配的处理的同时,也在不断计算着该窗口下的异常度。
作为本发明的一个具体实施例,如图3所示,进行贝叶斯变换检测以求得时间拟合曲线,通过贝叶斯回归计算出一个预测分布,将不同对应的预测结果组合起来,形成最终的预测曲线,作为比对标准;计算出当前时间节点下的挂载IPv6地址数目,其中
Figure BDA0002821522600000081
和T={t1,t2,...,tn}分别表示IPv6地址数量和对应的时间节点,
Figure BDA0002821522600000082
是挂载在物理位置下IPv6地址的总数量,ti是对应数量的时间节点,ti<tj(1≤i<j≤n)。用In表示第n个时间的窗口,公式如(5)所示:
In=[tn-1,tn-1+ΔT] (5)
式(5)中,ΔT是时间窗口变化幅度;
给定一个确定的滑动窗口,IPv6地址数量M(In)是给定时间下该窗口的IPv6地址数量的总和,其公式如(6)所示:
M(In)=|{rj;tj∈I}| (6)
式(6)中,rj表示的是这窗口中总的IPv6地址数目,tj是时间节点;
模式匹配算法应用于拟合曲线用以检测异常模式,令L表示时间序列二维的拟合曲线,如果经拟合曲线比对,实际曲线与所设置模板不相匹配,从而找到异常线段y={y1,y2,...,ys}。
通过前后滑动窗口检测出的异常线段比对找到确定的异常数据,借助滑动窗口来获得所有的序列段,上一次检测被滑动窗口圈起的异常序列段定义为b={b1,b2,...,bs},并求在两个序列y和b之间进行交叉匹配;如果匹配成功,那么序列中的数据就是准确的异常数据,X(i)是两序列集合之间的数量匹配公式,公式如(7)所示:
Figure BDA0002821522600000091
式(7)中,ε指的是合理阈值。
步骤S140,进行动态知识图谱的异常行为检测,构建网络模型,抽取实体,探讨实体之间的度量尺度和相互关系,构建动态知识图谱。
在本发明实施例中,如图4所示,在实际的网络环境中抽取人员姓名和IPv4地址、IPv6地址、Mac地址、物理位置和时间这五种知识主体,借助逻辑回归函数进行异常占比的分类计算,对数据进行标签化处理。将标签化的数据集用来进行构建节点关联模型,计算出之间存在的关联值。实体之间存在着必然联系,我们设计了一种关联性模型Model=(Z,I,ε),Z=(Z1,Z1,...,Z1)用表示片段中所有的点集合,I(0≤I≤1)表示节点之间关联值的大小,ε(0≤ε≤1)表示节点之间关联设定的阈值。
加入时间特征进一步判断是否存在关联。为了排除无关点对于其余节点之间关联关系的影响,我们引入时间维度,把时间分为m个片段,将图谱以时间为维度进行划分为Kti(i=1,2,...,m),通过变化得到序列S={(t1,Kt1),(t2,Kt2),...,(tm,Ktm)}。通过可视化的点集合,如果任意的两点满足Ktx<Ktq+(Ktp-Ktq)×(tx-tq)/(tp-tq)。就认为是存在相互之间的强关联,在图谱中即可进行关系构建。
针对抽取的五类知识主体,将这五类主体作为五个特征值,借助于逻辑回归分析函数分析计算每一个知识主体对于异常登录的检测占比率,逻辑回归的公式代表了变量之间的关系,如(8)所示:
Figure BDA0002821522600000092
式(8)中,P(x)是检测占比率,借助最大似然函数可以计算出各个主体对应的Wi值,从而计算出不同的主体对于异常检测的占比率,之后进行构建节点关联模型,G(N,E)表示实体中的节点关联图,其中实体节点所有的集合是用N={n1,n2,...,nn}表示,G(N,E)中的边的集合用E={e1,e2,...,es}表示,如果N中存在两个有节点相连的边nx和ny,则认为两者之间存在关联关系。
在上述构建动态知识图谱时,采用关联影响值累计叠加的方法计算关联值;加入时间特征,把时间分为m个片段,在ti(i=1,2,...,m)时间内的图谱表示为
Figure BDA0002821522600000101
得到序列
Figure BDA0002821522600000102
定义在此集的两个节点
Figure BDA0002821522600000103
是可视的,如果任意的
Figure BDA0002821522600000104
满足条件,那么就证明
Figure BDA0002821522600000105
存在关联,如公式(9)所示:
Figure BDA0002821522600000107
式(9)中,
Figure BDA0002821522600000106
代表公式化的图谱,ti即代表时间节点。
步骤S150,对于异常信息进行图谱化展示和文本化信息输出。
综上所述,本发明的基于知识图谱的异常网络信息检测方法适用于大规模部署IPv6地址的工业互联网场景中,并在特定的实际应用场景中尝试油田IPv6工业互联网环境信息进行异常的检测与分析,建立了一套专门针对IPv6工业互联网的异常检索系统,可以从多个维度对工业互联网的网络信息进行异常检索,适用于多个领域,具有广泛的应用场景。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所述技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (6)

1.一种基于知识图谱的异常网络信息检测方法,其特征在于,该方法步骤包括:
利用SNMP协议连接网络目标交换机,通过不同的OID字段发起请求获取业务命令,周期性获取目标信息;
确定与异常信息检测模型相对应的目标模型参数,分类别存储入库,与企业内部人员信息表进行交叉匹配,获得汇总数据集,进行数据清洗,处理获取信息的格式;
运行基于正态分布的概率统计异常检测算法,将该检测算法部署到网络内,获取并计算异常特征,构建异常分类器进行分类;
通过时间维度检测算法,拟合出一条时间序列曲线,从时间维度查看物理位置下IPv6地址的负载数量变化,检测其异常变化幅度和物理位置的稳定性;
进行动态知识图谱的异常行为检测,构建网络模型,抽取实体,探讨实体之间的度量尺度和相互关系,构建动态知识图谱;
对于异常信息进行图谱化展示和文本化信息输出。
2.根据权利要求1所述的一种基于知识图谱的异常网络信息检测方法,其特征在于,所述步骤运行基于正态分布的概率统计异常检测算法,将该检测算法部署到网络内,获取并计算异常特征,构建异常分类器进行分类,具体包括:在正态分布的假设下,如果有一个新样本X,当X的正态分布值小于某个阈值时,认定样本是异常的;针对已获取的企业网络数据,以一个五元组作为一个数据,获得的数据集为包含m个数据的数据集,如公式(1)所示:
X={x(1),x(2),...,x(m)} (1)
依据上述数据集,选定训练集,通过公式(2)和(3)并依据所述训练集求得μ和σ2的值,以得到一个确定的函数模型;通过最大似然估计得到下面的结果:
Figure FDA0002821522590000021
Figure FDA0002821522590000022
得到公式的各项参数,然后通过正态分布函数(4)对样本数据集进行异常检测判断,如公式(4)所示:
p(x(i);μ;σ2) (4)
经过异常检验算法,得到汇总的异常登录数据,将异常数据分类存储入库。
3.根据权利要求1所述的一种基于知识图谱的异常网络信息检测方法,其特征在于,所述通过时间维度检测算法,拟合出一条时间序列曲线,从时间维度查看物理位置下IPv6地址的负载数量变化,检测其异常变化幅度和物理位置的稳定性,具体包括:进行贝叶斯变换检测以求得时间拟合曲线,通过贝叶斯回归计算出一个预测分布,将不同对应的预测结果组合起来,形成最终的预测曲线,作为比对标准;计算出当前时间节点下的挂载IPv6地址数目,其中
Figure FDA0002821522590000023
和T={t1,t2,...,tn}分别表示IPv6地址数量和对应的时间节点,
Figure FDA0002821522590000024
是挂载在物理位置下IPv6地址的总数量,ti是对应数量的时间节点,ti<tj(1≤i<j≤n)。用In表示第n个时间的窗口,公式如(5)所示:
In=[tn-1,tn-1+ΔT] (5)
式(5)中,ΔT是时间窗口变化幅度;
给定一个确定的滑动窗口,IPv6地址数量M(In)是给定时间下该窗口的IPv6地址数量的总和,其公式如(6)所示:
M(In)=|{rj;tj∈I}| (6)
式(6)中,rj表示的是这窗口中总的IPv6地址数目,tj是时间节点;
模式匹配算法应用于拟合曲线用以检测异常模式,令L表示时间序列二维的拟合曲线,如果经拟合曲线比对,实际曲线与所设置模板不相匹配,从而找到异常线段y={y1,y2,...,ys}。
4.根据权利要求3所述的一种基于知识图谱的异常网络信息检测方法,其特征在于,通过前后滑动窗口检测出的异常线段比对找到确定的异常数据,借助滑动窗口来获得所有的序列段,上一次检测被滑动窗口圈起的异常序列段定义为b={b1,b2,...,bs},并求在两个序列y和b之间进行交叉匹配;如果匹配成功,那么序列中的数据就是准确的异常数据,X(i)是两序列集合之间的数量匹配公式,公式如(7)所示:
Figure FDA0002821522590000031
式(7)中,ε指的是合理阈值。
5.根据权利要求1所述的一种基于知识图谱的异常网络信息检测方法,其特征在于,所述进行动态知识图谱的异常行为检测,构建网络模型,抽取实体,探讨实体之间的度量尺度和相互关系,构建动态知识图谱,具体包括:针对抽取的五类知识主体,将这五类主体作为五个特征值,借助于逻辑回归分析函数分析计算每一个知识主体对于异常登录的检测占比率,逻辑回归的公式代表了变量之间的关系,如(8)所示:
Figure FDA0002821522590000032
式(8)中,P(x)是检测占比率,借助最大似然函数可以计算出各个主体对应的Wi值,从而计算出不同的主体对于异常检测的占比率,之后进行构建节点关联模型,G(N,E)表示实体中的节点关联图,其中实体节点所有的集合是用N={n1,n2,...,nn}表示,G(N,E)中的边的集合用E={e1,e2,...,es}表示,如果N中存在两个有节点相连的边nx和ny,则认为两者之间存在关联关系。
6.根据权利要求5所述的一种基于知识图谱的异常网络信息检测方法,其特征在于,在所述构建动态知识图谱时,采用关联影响值累计叠加的方法计算关联值;加入时间特征,把时间分为m个片段,在ti(i=1,2,...,m)时间内的图谱表示为
Figure FDA0002821522590000033
得到序列
Figure FDA0002821522590000034
定义在此集的两个节点
Figure FDA0002821522590000035
是可视的,如果任意的(tx,Ktx)∈S,(tp<tq<tx)满足条件,那么就证明
Figure FDA0002821522590000041
存在关联,如公式(9)所示:
Figure FDA0002821522590000042
式(9)中,
Figure FDA0002821522590000043
代表公式化的图谱,ti即代表时间节点。
CN202011419205.5A 2020-12-07 2020-12-07 一种基于知识图谱的异常网络信息检测方法 Pending CN114598627A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011419205.5A CN114598627A (zh) 2020-12-07 2020-12-07 一种基于知识图谱的异常网络信息检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011419205.5A CN114598627A (zh) 2020-12-07 2020-12-07 一种基于知识图谱的异常网络信息检测方法

Publications (1)

Publication Number Publication Date
CN114598627A true CN114598627A (zh) 2022-06-07

Family

ID=81803215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011419205.5A Pending CN114598627A (zh) 2020-12-07 2020-12-07 一种基于知识图谱的异常网络信息检测方法

Country Status (1)

Country Link
CN (1) CN114598627A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306931A (zh) * 2023-05-24 2023-06-23 典基网络科技(上海)有限公司 一种应用工业领域的知识图谱构建方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306931A (zh) * 2023-05-24 2023-06-23 典基网络科技(上海)有限公司 一种应用工业领域的知识图谱构建方法
CN116306931B (zh) * 2023-05-24 2023-08-04 典基网络科技(上海)有限公司 一种应用工业领域的知识图谱构建方法

Similar Documents

Publication Publication Date Title
CN110895526A (zh) 一种大气监测系统中数据异常的修正方法
CN112416643A (zh) 无监督异常检测方法与装置
CN116450399B (zh) 微服务系统故障诊断及根因定位方法
CN110138614B (zh) 一种基于张量模型的在线网络流量异常检测方法及系统
CN109871002B (zh) 基于张量标签学习的并发异常状态识别与定位系统
CN109359234B (zh) 一种多维度网络安全事件分级装置
CN115237717A (zh) 一种微服务异常检测方法和系统
CN113205134A (zh) 一种网络安全态势预测方法及系统
CN116986246A (zh) 一种用于对输煤皮带进行智能巡检系统及巡检方法
CN111126477A (zh) 一种混合贝叶斯网络的学习与推理方法
CN114598627A (zh) 一种基于知识图谱的异常网络信息检测方法
CN117156442B (zh) 基于5g网络的云数据安全保护方法及系统
CN116684878B (zh) 一种5g信息传输数据安全监测系统
CN116304604B (zh) 多变量时间序列数据异常检测、模型训练方法和系统
Zhou et al. Performance evaluation method for network monitoring based on separable temporal exponential random graph models with application to the study of autocorrelation effects
CN117675230A (zh) 基于知识图谱的油井数据完整性识别方法
Lorbeer et al. Anomaly detection with hmm gauge likelihood analysis
Yu et al. Design for an SPRT control scheme based on linguistic data
CN109993556B (zh) 用户行为分析方法、装置、计算设备及存储介质
Febriansyah et al. Outlier detection and decision tree for wireless sensor network fault diagnosis
US20210144171A1 (en) A Method of Digital Signal Feature Extraction Comprising Multiscale Analysis
Xiong et al. Nonuniversality of the horizontal visibility graph in inferring series periodicity
CN112884167B (zh) 一种基于机器学习的多指标异常检测方法及其应用系统
Parau et al. Assessing vertex relevance based on community detection
JP2019160072A (ja) 情報処理装置、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination