CN113098735A - 面向推理的应用流量和指标向量化方法及系统 - Google Patents

面向推理的应用流量和指标向量化方法及系统 Download PDF

Info

Publication number
CN113098735A
CN113098735A CN202110352102.XA CN202110352102A CN113098735A CN 113098735 A CN113098735 A CN 113098735A CN 202110352102 A CN202110352102 A CN 202110352102A CN 113098735 A CN113098735 A CN 113098735A
Authority
CN
China
Prior art keywords
flow
index
information
tuples
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110352102.XA
Other languages
English (en)
Other versions
CN113098735B (zh
Inventor
支凤麟
蔡晓华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Netis Technologies Co ltd
Original Assignee
Shanghai Netis Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Netis Technologies Co ltd filed Critical Shanghai Netis Technologies Co ltd
Priority to CN202110352102.XA priority Critical patent/CN113098735B/zh
Publication of CN113098735A publication Critical patent/CN113098735A/zh
Priority to US17/926,622 priority patent/US20230186122A1/en
Priority to PCT/CN2021/138960 priority patent/WO2022206040A1/zh
Application granted granted Critical
Publication of CN113098735B publication Critical patent/CN113098735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/026Capturing of monitoring data using flow identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种面向推理的应用流量和指标向量化方法及系统,包括:步骤S1:将分布式系统内已知网络流量以及当前流量的相关设备的原始指标信息量化为同样类型的元组,得到已知网络流量信息元组和指标信息元组;步骤S2:将分布式系统内未知网络流量量化为同样类型的元组,得到未知网络流量信息元组;步骤S3:基于已知网络流量信息元组、指标信息元组以及未知网络流量信息元组按照时间窗口和先验关联关系构成网络,使用随机游走的方法采样网络描述信息;步骤S4:基于网络描述信息利用嵌入算法得到网络流量向量和指标信息向量;步骤S5:根据网络流量向量、指标信息向量进行根因分析以及指标预测。

Description

面向推理的应用流量和指标向量化方法及系统
技术领域
本发明涉及数据处理、流量分析、向量化表示、应用性能监控领域,具体地,涉及一种面向推理的应用流量和指标向量化方法及系统。
背景技术
分布式系统(distributed system)泛指建立在网络之上的软件系统,这种系统具有高度的内聚性和透明性,在商业领域、公共领域、IT基础设施领域有着广泛的应用。相应的,针对分布式系统的监控和表示也有其广泛意义和用途,例如运维保障、安全保障、数据价值挖掘等。
分布式系统中,应用流量分析在很多工作的开展中起到核心作用。现有方法通常针对不同目标建立不同的流量分析模型,如建立模型进行异常检测、建立模型进行根因分析、建立模型进行流量预测等。流量信息在上述模型被分别处理,需要重复使用大量的计算资源,各类应用系统重复建设成本高耸。
在文本处理领域,“字嵌入”的方法将字之间的固有联系蕴含在每个字的向量表达中,这些向量可以直接用来实现一些简单任务(如相似比对)或作为其他各类模型的公共输入。而事实上,网络流量之间的联系性也是内在存在的,面对任何应用这种内在联系性都可以被重复利用。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种面向推理的应用流量和指标向量化方法及系统。
根据本发明提供的一种面向推理的应用流量和指标向量化方法,包括:
步骤S1:将分布式系统内已知网络流量以及当前流量的相关设备的原始指标信息量化为同样类型的元组,得到已知网络流量信息元组和指标信息元组;
步骤S2:将分布式系统内未知网络流量量化为同样类型的元组,得到未知网络流量信息元组;
步骤S3:基于已知网络流量信息元组、指标信息元组以及未知网络流量信息元组按照时间窗口和先验关联关系构成网络,使用随机游走的方法采样网络描述信息;
步骤S4:基于网络描述信息利用嵌入算法得到网络流量向量和指标信息向量;
步骤S5:根据网络流量向量、指标信息向量进行根因分析以及指标预测;
所述元组包括编码和时间,编码为正整数id值;时间为流量起始时间点或指标采样时间点。
优选地,所述步骤S1包括:
步骤S1.1:获取原始流量信息,为原始流量信息中每种已知流量类型分配唯一正整数id;
步骤S1.2:获取涉及到当前流量的相关设备的原始指标信息,为原始指标信息中每种指标信息分配唯一正整数id,当指标为连续值时,则离散化后为每一类离散值分配唯一正整数id,得到指标信息元组;
步骤S1.3:根据已知流量规则,从原始流量中提取已知流量,并记录为已知流量信息元组;
所述流量规则包括端口、协议名称以及数据包格式。
优选地,所述步骤S2包括:
步骤S2.1:采样预设时间的历史流量信息,历史流量信息中未知流量基于目的IP相同、目的端口相同、基础协议相同,且聚合时报文的前N字符编辑距离小于预设值时,则将未知流量报文正文前N字符进行聚合,对聚合后的每组流量分配唯一的正整数id;
步骤S2.2:将新的未知流量根据KNN算法分配至步骤S2.1产生的聚合中,基于聚合后的每组流量分配的唯一正整数id,给分配后的流量赋予相应的正整数id,记录为未知流量信息元组。
优选地,所述步骤S3包括:
步骤S3.1:使用步长S,窗口长度T的滑动窗口将连续的已知流量元组、未知流量元组以及指标元组划分为集合,其中,S<T,前后窗口之间有重叠,并将每个元组记为F;
步骤S3.2:将时间窗口T的集合内所有元组F按照集合内的时间排序,构成元组F的链表;读入元数据关联信息,将有关联的F结点之间进行直接连接,构成已知流量、未知流量、指标元素关联图;
步骤S3.3:在已知流量、未知流量、指标元素关联图上任意选择一个起点F,进行随机游走,游走N个节点生成一个游走序列[F1,F2,…FN];
步骤S3.4:选择一个未曾被选择起点的F,重新游走并生成游走序列,重复执行步骤S3.4,直至预设数量以上的节点均被访问,输出游走序列。
优选地,所述步骤S4包括:游走序列利用嵌入算法得到<正整数id,向量>列表;
所述嵌入算法包括Skip-gram、CBOW以及GLOVE。
优选地,所述步骤S5包括:
步骤S5.1:接受需要根因分析的流量和/或指标的正整数id和时间t,当分析目标为流量和指标时,则t为流量和指标中的最晚时间;
步骤S5.2:以t为起点,S为步长,T为窗口大小,沿时间轴反向将历史流量/指标进行划分;
步骤S5.3:将划分后窗口中的所有流量和/或指标正整数id对应的向量经行累加后求均值,作为当前时间窗口的特征,记为Venv
步骤S5.4:获取需要根因分析的流量和/或指标id对应的向量,当分析目标为流量和指标时,则向量为流量和指标向量的均值,作为待分析目标的特征,记为Vtar
步骤S5.5:根据当前时间窗口的特征Venv和待分析目标的特征Vtar,基于包括特征加权和或特征均值计算待分析目标在当前时间窗口下的特征Vcom
步骤S5.6:计算上一时间窗口中所有的流量和/或指标对应的向量与Vcom的相似度,取相似度大于预设值的M个流量和/或指标作为上一时间窗口中的可能根因;重复执行步骤S5.3至步骤S5.6,直至相似度大于预设值的流量和/或指标不存在。
优选地,所述步骤S5还包括:计算当前时间窗口所有流量和/或指标向量与当前时间窗口的特征Venv之间的相似性,最相似的M个向量对应的流量/指标为可能预测值。
根据本发明提供的一种面向推理的应用流量和指标向量化系统,包括:
模块M1:将分布式系统内已知网络流量以及当前流量的相关设备的原始指标信息量化为同样类型的元组,得到已知网络流量信息元组和指标信息元组;
模块M2:将分布式系统内未知网络流量量化为同样类型的元组,得到未知网络流量信息元组;
模块M3:基于已知网络流量信息元组、指标信息元组以及未知网络流量信息元组按照时间窗口和先验关联关系构成网络,使用随机游走的方法采样网络描述信息;
模块M4:基于网络描述信息利用嵌入算法得到网络流量向量和指标信息向量;
模块M5:根据网络流量向量、指标信息向量进行根因分析以及指标预测;
所述元组包括编码和时间,编码为正整数id值;时间为流量起始时间点或指标采样时间点。
优选地,所述模块M1包括:
模块M1.1:获取原始流量信息,为原始流量信息中每种已知流量类型分配唯一正整数id;
模块M1.2:获取涉及到当前流量的相关设备的原始指标信息,为原始指标信息中每种指标信息分配唯一正整数id,当指标为连续值时,则离散化后为每一类离散值分配唯一正整数id,得到指标信息元组;
模块M1.3:根据已知流量规则,从原始流量中提取已知流量,并记录为已知流量信息元组;
所述流量规则包括端口、协议名称以及数据包格式;
所述模块M2包括:
模块M2.1:采样预设时间的历史流量信息,历史流量信息中未知流量基于目的IP相同、目的端口相同、基础协议相同,且聚合时报文的前N字符编辑距离小于预设值时,则将未知流量报文正文前N字符进行聚合,对聚合后的每组流量分配唯一的正整数id;
模块M2.2:将新的未知流量根据KNN算法分配至模块M2.1产生的聚合中,基于聚合后的每组流量分配的唯一正整数id,给分配后的流量赋予相应的正整数id,记录为未知流量信息元组。
优选地,所述模块M3包括:
模块M3.1:使用步长S,窗口长度T的滑动窗口将连续的已知流量元组、未知流量元组以及指标元组划分为集合,其中,S<T,前后窗口之间有重叠,并将每个元组记为F;
模块M3.2:将时间窗口T的集合内所有元组F按照集合内的时间排序,构成元组F的链表;读入元数据关联信息,将有关联的F结点之间进行直接连接,构成已知流量、未知流量、指标元素关联图;
模块M3.3:在已知流量、未知流量、指标元素关联图上任意选择一个起点F,进行随机游走,游走N个节点生成一个游走序列[F1,F2,…FN];
模块M3.4:选择一个未曾被选择起点的F,重新游走并生成游走序列,重复执行模块M3.4,直至预设数量以上的节点均被访问,输出游走序列;
所述模块M5包括:
模块M5.1:接受需要根因分析的流量和/或指标的正整数id和时间t,当分析目标为流量和指标时,则t为流量和指标中的最晚时间;
模块M5.2:以t为起点,S为步长,T为窗口大小,沿时间轴反向将历史流量/指标进行划分;
模块M5.3:将划分后窗口中的所有流量和/或指标正整数id对应的向量经行累加后求均值,作为当前时间窗口的特征,记为Venv
模块M5.4:获取需要根因分析的流量和/或指标id对应的向量,当分析目标为流量和指标时,则向量为流量和指标向量的均值,作为待分析目标的特征,记为Vtar
模块M5.5:根据当前时间窗口的特征Venv和待分析目标的特征Vtar,基于包括特征加权和或特征均值计算待分析目标在当前时间窗口下的特征Vcom
模块M5.6:计算上一时间窗口中所有的流量和/或指标对应的向量与Vcom的相似度,取相似度大于预设值的M个流量和/或指标作为上一时间窗口中的可能根因;重复触发模块M5.3至模块M5.6执行,直至相似度大于预设值的流量和/或指标不存在;
所述模块M5还包括:计算当前时间窗口所有流量和/或指标向量与当前时间窗口的特征Venv之间的相似性,最相似的M个向量对应的流量/指标为可能预测值。
与现有技术相比,本发明具有如下的有益效果:
1、本发明创新性地在流量领域引入了“字嵌入”的方法,给出一种应用流量向量化的表示方法,并且在本发明中给出了流量向量化的具体操作方法;
2、本发明通过这种向量表示方法,可是在流量领域应用人工智能领域、深度神经网络领域的多种后续框架和算法,引入多种基于度量的计算,实现各种推理任务和预测任务;
3、本发明通过这种向量表示方法,应用人工智能方法,或者应用传统方法和手段,例如规则引擎、统计分析等,可以在网络监控、网路性能分析、网络安全、(基于网络流量的)业务监控、网络数据(业务)价值挖掘等诸多领域,替换数据源,或者补充当前数据源,引入多种基于度量的计算,提升当前各种方案的准确性和有效性;
4、本发明向量表示方式,是一种高度压缩的记录方法,可以广阔应用于长期记录和保存、呈现、应用层告警运算、相似性运算、安全入侵预算、价值挖掘等场景。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明步骤示意图;
图2为流量/指标向量生成过程示意图;
图3为根因推理过程示意图;
图4为预测过程示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1
根据本发明提供的一种面向推理的应用流量和指标向量化方法,包括:
步骤S1:将分布式系统内已知网络流量以及当前流量的相关设备的原始指标信息量化为同样类型的元组,得到已知网络流量信息元组和指标信息元组;
步骤S2:将分布式系统内未知网络流量量化为同样类型的元组,得到未知网络流量信息元组;
步骤S3:基于已知网络流量信息元组、指标信息元组以及未知网络流量信息元组按照时间窗口和先验关联关系构成网络,使用随机游走的方法采样网络描述信息;
步骤S4:基于网络描述信息利用嵌入算法得到网络流量向量和指标信息向量;
步骤S5:根据网络流量向量、指标信息向量进行根因分析以及指标预测;
所述元组包括编码和时间,编码为正整数id值;时间为流量起始时间点或指标采样时间点。
具体地,所述步骤S1包括:
步骤S1.1:获取原始流量信息,为原始流量信息中每种已知流量类型分配唯一正整数id;
步骤S1.2:获取涉及到当前流量的相关设备的原始指标信息,为原始指标信息中每种指标信息分配唯一正整数id,当指标为连续值时,则离散化后为每一类离散值分配唯一正整数id,得到指标信息元组;
步骤S1.3:根据已知流量规则,从原始流量中提取已知流量,并记录为已知流量信息元组;
所述流量规则包括端口、协议名称以及数据包格式。
具体地,所述步骤S2包括:
步骤S2.1:采样预设时间的历史流量信息,历史流量信息中未知流量基于目的IP相同、目的端口相同、基础协议相同,且聚合时报文的前N字符编辑距离小于预设值时,则将未知流量报文正文前N字符进行聚合,对聚合后的每组流量分配唯一的正整数id;
步骤S2.2:将新的未知流量根据KNN算法分配至步骤S2.1产生的聚合中,基于聚合后的每组流量分配的唯一正整数id,给分配后的流量赋予相应的正整数id,记录为未知流量信息元组。
具体地,所述步骤S3包括:
步骤S3.1:使用步长S,窗口长度T的滑动窗口将连续的已知流量元组、未知流量元组以及指标元组划分为集合,其中,S<T,前后窗口之间有重叠,并将每个元组记为F;
步骤S3.2:将时间窗口T的集合内所有元组F按照集合内的时间排序,构成元组F的链表;读入元数据关联信息,将有关联的F结点之间进行直接连接,构成已知流量、未知流量、指标元素关联图;
步骤S3.3:在已知流量、未知流量、指标元素关联图上任意选择一个起点F,进行随机游走,游走N个节点生成一个游走序列[F1,F2,…FN];
步骤S3.4:选择一个未曾被选择起点的F,重新游走并生成游走序列,重复执行步骤S3.4,直至预设数量以上的节点均被访问,输出游走序列。
具体地,所述步骤S4包括:游走序列利用嵌入算法得到<正整数id,向量>列表;
所述嵌入算法包括Skip-gram、CBOW以及GLOVE。
具体地,所述步骤S5包括:
步骤S5.1:接受需要根因分析的流量和/或指标的正整数id和时间t,当分析目标为流量和指标时,则t为流量和指标中的最晚时间;
步骤S5.2:以t为起点,S为步长,T为窗口大小,沿时间轴反向将历史流量/指标进行划分;
步骤S5.3:将划分后窗口中的所有流量和/或指标正整数id对应的向量经行累加后求均值,作为当前时间窗口的特征,记为Venv
步骤S5.4:获取需要根因分析的流量和/或指标id对应的向量,当分析目标为流量和指标时,则向量为流量和指标向量的均值,作为待分析目标的特征,记为Vtar
步骤S5.5:根据当前时间窗口的特征Venv和待分析目标的特征Vtar,基于包括特征加权和或特征均值计算待分析目标在当前时间窗口下的特征Vcom
步骤S5.6:计算上一时间窗口中所有的流量和/或指标对应的向量与Vcom的相似度,取相似度大于预设值的M个流量和/或指标作为上一时间窗口中的可能根因;重复执行步骤S5.3至步骤S5.6,直至相似度大于预设值的流量和/或指标不存在。
具体地,所述步骤S5还包括:计算当前时间窗口所有流量和/或指标向量与当前时间窗口的特征Venv之间的相似性,最相似的M个向量对应的流量/指标为可能预测值。
本发明提供的面向推理的应用流量和指标向量化系统,可以通过本发明提供的面向推理的应用流量和指标向量化方法中的步骤流程实现。本领域技术人员,可以将所述面向推理的应用流量和指标向量化方法理解为面向推理的应用流量和指标向量化系统的一个优选例。
实施例2
实施例2是实施例1的优选例
针对现有流量和指标处理技术的欠缺,本发明解决的技术问题体现在以下几点:
1)提出一种将应用流量、相关技术指标统一向量化的方法;
2)向量化的结果可以用于推理,实现多种任务目标。
本发明提供的面向推理的应用流量和指标向量化方法,如图1-4所示,包括:已知流量和指标编码、未知流量编码、采样、向量化、基于向量的推理。
步骤1,已知流量和指标编码,输入为:原始流量信息、原始指标信息;输出为:已知流量信息元组,形如:(编码,时间),指标信息元组,形如:(编码,时间)。
步骤2,未知流量编码,输入为:未知流量信息;输出为:未知流量信息元组,形如:(编码,时间)。
已知流量和未知流量是本发明采用地两种细分,作为优化手段,提高处理的精度。从本发明的实现来说,完全可以仅采用步骤1或者步骤2中的一种进行后续处理,也可以采用将步骤1的已知流量完全当作步骤2的未知流量来处理。
步骤3,采样,输入为:1)元数据关联信息;2)流量信息元组、指标信息元组。输出为:关联样本列表,列表中每一个元素形如(流量/信息编码1,流量/信息编码2…流量/信息编码n)。采样步骤也包括采样率为100%的全采样场景。
步骤4,向量化,输入为:关联样本列表。输出为:(编码,向量)元组集合。
步骤5,基于向量的推理,输入为:(编码,时间)元组信息。输出为:1)当前指标的根因分析链;2)下一时刻指标预测。
面向推理的应用流量和指标向量化方法,所述各步骤的具体步骤运行方法如下:
步骤1,已知流量和指标编码,参考图2,具体步骤如下:
步骤1.1:为每种已知流量类型(如财务系统的一次出帐操作、数据库系统的一次查询请求等,包括但不限于上述)分配唯一整形id,为每种指标信息分配唯一整形id,如该指标为连续值,则离散化后为每一类离散值分配唯一整形id(如为CPU_FREQ<20%、20%<=CPU_FREQ<80%、CPU_FREQ>=80%分别分配一个id);
步骤1.2:根据已知流量规则(如端口、协议名称、数据包格式),从原始流量中提取已知流量,并记录为(编码,时间)元组,编码即id值,时间为流量起始时间点或者指标采样时间点。输出元组。
步骤2,未知流量编码流程,参考图2,步骤如下:
步骤2.1:采样一段时间的历史流量信息,按照<目的IP,目的端口,基础协议,报文正文前N字符>对未知流量进行聚合(聚合时报文的前N字符编辑距离小于e的认为是相同内容),对聚合后的每组流量分配唯一的整形id;
步骤2.2:将未知流量根据KNN算法分配入步骤2.1产生聚合中,并给该流量赋予聚合对应的id,记录为(编码,时间)元组。输出元组。
步骤3,采样,参考图2,步骤如下:
步骤3.1:使用步长为S,窗口长度为T的滑动窗口,将连续的(编码,时间)流划分为集合(其中S<T,即前后窗口之间有重叠),将每个(编码,时间)元组记为F;
步骤3.2:将时间窗口T内所有元组F按照其内的时间排序,构成元组F的链表;读入元数据关联信息(如“财务系统查账”REL“财务系统查账结果”等),将有关联的F结点之间进行直接连接,构成“流量-指标图”;
步骤3.3:在步骤2的图上任意选择一个起点F,进行随机游走,游走N个结点生成一个游走序列[F1,F2,…FN],而后选择一个未曾被选择起点的F,重新游走并生成游走序列。重复上述过程,直至P%以上的结点均被访问过。输出游走序列。
步骤4,向量化,参考图2,步骤如下:
步骤4.1:使用包括但不限于Skip-gram、CBOW、GLOVE等嵌入(embedding)算法,处理步骤3生成的游走序列,下文以Skip-gram为例。构建Skip-gram结构的神经网络模型,将步骤3生成的游走序列输入Skip-gram模型训练,将每个游走序列视为一个“上下文”;
步骤4.2:得到Skip-gram输出的<id,向量>列表。
步骤5,基于向量的推理流程,参考图3和图4,步骤如下:
当前指标根因推理:
步骤5.1:接受需要根因分析的一个(或一组)流量/指标的Id,和时间t(如分析目标为一组,则取t为改组中的最晚时间);
步骤5.2:以t为基准(起点),S为步长,T为窗口大小,沿时间轴反向将历史流量/指标进行划分;
步骤5.3:将划分后的窗口中的所有流量/指标Id对应的向量经行累加后求均值,作为该时间窗口的特征,记为Venv
步骤5.4:获取需要根因分析的流量/指标id对应的向量(如为一组则为向量的均值),作为待分析目标的特征,记为Vtar
步骤5.5:综合Venv和Vtar计算待分析目标在当前时间窗口下的特征,可使用包括但不限于:特征加权和、特征均值等各种方法。本发明中使用如下公式计算:
Vcom=W1*Vtar+W2*Venv,其中W1+W2=1。
其中,W1和W2表示权重。
步骤5.6:计算上一时间窗口中所有的流量/指标对应的向量与Vcom的相似度,取相似度大于预设值的M个流量/指标作为在上一时间窗口中的可能根因;
步骤5.7:如需继续往时间轴反方法寻找根因,则重复步骤5.3到步骤5.6。直至相似度大于预设值的流量不存在
后续流量/指标预测推理:
步骤5.8:以当前时刻t为基准,T为窗口大小,沿时间轴反向获取历史流量/指标信息;
步骤5.9:将窗口中的所有流量/指标Id对应的向量经行累加后求均值,作为该时间窗口的特征,记为Venv
步骤5.10:获取所有的流量/指标所对应的向量;
步骤5.11:计算所有流量/指标向量与Venv之间的相似性,最相似的M个向量对应的流量/指标即为可能预测值。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种面向推理的应用流量和指标向量化方法,其特征在于,包括:
步骤S1:将分布式系统内已知网络流量以及当前流量的相关设备的原始指标信息量化为同样类型的元组,得到已知网络流量信息元组和指标信息元组;
步骤S2:将分布式系统内未知网络流量量化为同样类型的元组,得到未知网络流量信息元组;
步骤S3:基于已知网络流量信息元组、指标信息元组以及未知网络流量信息元组按照时间窗口和先验关联关系构成网络,使用随机游走的方法采样网络描述信息;
步骤S4:基于网络描述信息利用嵌入算法得到网络流量向量和指标信息向量;
步骤S5:根据网络流量向量、指标信息向量进行根因分析以及指标预测;
所述元组包括编码和时间,编码为正整数id值;时间为流量起始时间点或指标采样时间点。
2.根据权利要求1所述的面向推理的应用流量和指标向量化方法,其特征在于,所述步骤S1包括:
步骤S1.1:获取原始流量信息,为原始流量信息中每种已知流量类型分配唯一正整数id;
步骤S1.2:获取涉及到当前流量的相关设备的原始指标信息,为原始指标信息中每种指标信息分配唯一正整数id,当指标为连续值时,则离散化后为每一类离散值分配唯一正整数id,得到指标信息元组;
步骤S1.3:根据已知流量规则,从原始流量中提取已知流量,并记录为已知流量信息元组;
所述流量规则包括端口、协议名称以及数据包格式。
3.根据权利要求1所述的面向推理的应用流量和指标向量化方法,其特征在于,所述步骤S2包括:
步骤S2.1:采样预设时间的历史流量信息,历史流量信息中未知流量基于目的IP相同、目的端口相同、基础协议相同,且聚合时报文的前N字符编辑距离小于预设值时,则将未知流量报文正文前N字符进行聚合,对聚合后的每组流量分配唯一的正整数id;
步骤S2.2:将新的未知流量根据KNN算法分配至步骤S2.1产生的聚合中,基于聚合后的每组流量分配的唯一正整数id,给分配后的流量赋予相应的正整数id,记录为未知流量信息元组。
4.根据权利要求1所述的面向推理的应用流量和指标向量化方法,其特征在于,所述步骤S3包括:
步骤S3.1:使用步长S,窗口长度T的滑动窗口将连续的已知流量元组、未知流量元组以及指标元组划分为集合,其中,S<T,前后窗口之间有重叠,并将每个元组记为F;
步骤S3.2:将时间窗口T的集合内所有元组F按照集合内的时间排序,构成元组F的链表;读入元数据关联信息,将有关联的F结点之间进行直接连接,构成已知流量、未知流量、指标元素关联图;
步骤S3.3:在已知流量、未知流量、指标元素关联图上任意选择一个起点F,进行随机游走,游走N个节点生成一个游走序列[F1,F2,…FN];
步骤S3.4:选择一个未曾被选择起点的F,重新游走并生成游走序列,重复执行步骤S3.4,直至预设数量以上的节点均被访问,输出游走序列。
5.根据权利要求1所述的面向推理的应用流量和指标向量化方法,其特征在于,所述步骤S4包括:游走序列利用嵌入算法得到<正整数id,向量>列表;
所述嵌入算法包括Skip-gram、CBOW以及GLOVE。
6.根据权利要求1所述的面向推理的应用流量和指标向量化方法,其特征在于,所述步骤S5包括:
步骤S5.1:接受需要根因分析的流量和/或指标的正整数id和时间t,当分析目标为流量和指标时,则t为流量和指标中的最晚时间;
步骤S5.2:以t为起点,S为步长,T为窗口大小,沿时间轴反向将历史流量/指标进行划分;
步骤S5.3:将划分后窗口中的所有流量和/或指标正整数id对应的向量经行累加后求均值,作为当前时间窗口的特征,记为Venv
步骤S5.4:获取需要根因分析的流量和/或指标id对应的向量,当分析目标为流量和指标时,则向量为流量和指标向量的均值,作为待分析目标的特征,记为Vtar
步骤S5.5:根据当前时间窗口的特征Venv和待分析目标的特征Vtar,基于包括特征加权和或特征均值计算待分析目标在当前时间窗口下的特征Vcom
步骤S5.6:计算上一时间窗口中所有的流量和/或指标对应的向量与Vcom的相似度,取相似度大于预设值的M个流量和/或指标作为上一时间窗口中的可能根因;重复执行步骤S5.3至步骤S5.6,直至相似度大于预设值的流量和/或指标不存在。
7.根据权利要求6所述的面向推理的应用流量和指标向量化方法,其特征在于,所述步骤S5还包括:计算当前时间窗口所有流量和/或指标向量与当前时间窗口的特征Venv之间的相似性,最相似的M个向量对应的流量/指标为可能预测值。
8.一种面向推理的应用流量和指标向量化系统,其特征在于,包括:
模块M1:将分布式系统内已知网络流量以及当前流量的相关设备的原始指标信息量化为同样类型的元组,得到已知网络流量信息元组和指标信息元组;
模块M2:将分布式系统内未知网络流量量化为同样类型的元组,得到未知网络流量信息元组;
模块M3:基于已知网络流量信息元组、指标信息元组以及未知网络流量信息元组按照时间窗口和先验关联关系构成网络,使用随机游走的方法采样网络描述信息;
模块M4:基于网络描述信息利用嵌入算法得到网络流量向量和指标信息向量;
模块M5:根据网络流量向量、指标信息向量进行根因分析以及指标预测;
所述元组包括编码和时间,编码为正整数id值;时间为流量起始时间点或指标采样时间点。
9.根据权利要求8所述的面向推理的应用流量和指标向量化系统,其特征在于,所述模块M1包括:
模块M1.1:获取原始流量信息,为原始流量信息中每种已知流量类型分配唯一正整数id;
模块M1.2:获取涉及到当前流量的相关设备的原始指标信息,为原始指标信息中每种指标信息分配唯一正整数id,当指标为连续值时,则离散化后为每一类离散值分配唯一正整数id,得到指标信息元组;
模块M1.3:根据已知流量规则,从原始流量中提取已知流量,并记录为已知流量信息元组;
所述流量规则包括端口、协议名称以及数据包格式;
所述模块M2包括:
模块M2.1:采样预设时间的历史流量信息,历史流量信息中未知流量基于目的IP相同、目的端口相同、基础协议相同,且聚合时报文的前N字符编辑距离小于预设值时,则将未知流量报文正文前N字符进行聚合,对聚合后的每组流量分配唯一的正整数id;
模块M2.2:将新的未知流量根据KNN算法分配至模块M2.1产生的聚合中,基于聚合后的每组流量分配的唯一正整数id,给分配后的流量赋予相应的正整数id,记录为未知流量信息元组。
10.根据权利要求8所述的面向推理的应用流量和指标向量化系统,其特征在于,所述模块M3包括:
模块M3.1:使用步长S,窗口长度T的滑动窗口将连续的已知流量元组、未知流量元组以及指标元组划分为集合,其中,S<T,前后窗口之间有重叠,并将每个元组记为F;
模块M3.2:将时间窗口T的集合内所有元组F按照集合内的时间排序,构成元组F的链表;读入元数据关联信息,将有关联的F结点之间进行直接连接,构成已知流量、未知流量、指标元素关联图;
模块M3.3:在已知流量、未知流量、指标元素关联图上任意选择一个起点F,进行随机游走,游走N个节点生成一个游走序列[F1,F2,…FN];
模块M3.4:选择一个未曾被选择起点的F,重新游走并生成游走序列,重复执行模块M3.4,直至预设数量以上的节点均被访问,输出游走序列;
所述模块M5包括:
模块M5.1:接受需要根因分析的流量和/或指标的正整数id和时间t,当分析目标为流量和指标时,则t为流量和指标中的最晚时间;
模块M5.2:以t为起点,S为步长,T为窗口大小,沿时间轴反向将历史流量/指标进行划分;
模块M5.3:将划分后窗口中的所有流量和/或指标正整数id对应的向量经行累加后求均值,作为当前时间窗口的特征,记为Venv
模块M5.4:获取需要根因分析的流量和/或指标id对应的向量,当分析目标为流量和指标时,则向量为流量和指标向量的均值,作为待分析目标的特征,记为Vtar
模块M5.5:根据当前时间窗口的特征Venv和待分析目标的特征Vtar,基于包括特征加权和或特征均值计算待分析目标在当前时间窗口下的特征Vcom
模块M5.6:计算上一时间窗口中所有的流量和/或指标对应的向量与Vcom的相似度,取相似度大于预设值的M个流量和/或指标作为上一时间窗口中的可能根因;重复触发模块M5.3至模块M5.6执行,直至相似度大于预设值的流量和/或指标不存在;
所述模块M5还包括:计算当前时间窗口所有流量和/或指标向量与当前时间窗口的特征Venv之间的相似性,最相似的M个向量对应的流量/指标为可能预测值。
CN202110352102.XA 2021-03-31 2021-03-31 面向推理的应用流量和指标向量化方法及系统 Active CN113098735B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110352102.XA CN113098735B (zh) 2021-03-31 2021-03-31 面向推理的应用流量和指标向量化方法及系统
US17/926,622 US20230186122A1 (en) 2021-03-31 2021-12-17 Inference-oriented method and system for application flow and index vectorization
PCT/CN2021/138960 WO2022206040A1 (zh) 2021-03-31 2021-12-17 面向推理的应用流量和指标向量化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110352102.XA CN113098735B (zh) 2021-03-31 2021-03-31 面向推理的应用流量和指标向量化方法及系统

Publications (2)

Publication Number Publication Date
CN113098735A true CN113098735A (zh) 2021-07-09
CN113098735B CN113098735B (zh) 2022-10-11

Family

ID=76672175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110352102.XA Active CN113098735B (zh) 2021-03-31 2021-03-31 面向推理的应用流量和指标向量化方法及系统

Country Status (3)

Country Link
US (1) US20230186122A1 (zh)
CN (1) CN113098735B (zh)
WO (1) WO2022206040A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022206040A1 (zh) * 2021-03-31 2022-10-06 上海天旦网络科技发展有限公司 面向推理的应用流量和指标向量化方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140082730A1 (en) * 2012-09-18 2014-03-20 Kddi Corporation System and method for correlating historical attacks with diverse indicators to generate indicator profiles for detecting and predicting future network attacks
CN107431663A (zh) * 2015-03-25 2017-12-01 思科技术公司 网络流量分类
CN109257760A (zh) * 2018-09-28 2019-01-22 西安交通大学深圳研究院 无线网络中的用户流量预测系统
CN109726744A (zh) * 2018-12-14 2019-05-07 深圳先进技术研究院 一种网络流量分类方法
CN110210656A (zh) * 2019-05-21 2019-09-06 上海交通大学 基于站点行为分析的共享单车流量预测方法及系统
CN110868431A (zh) * 2019-12-24 2020-03-06 华北电力大学 一种网络流量异常检测方法
WO2020062390A1 (zh) * 2018-09-25 2020-04-02 深圳先进技术研究院 一种网络流量分类方法、系统及电子设备
CN111310453A (zh) * 2019-11-05 2020-06-19 上海金融期货信息技术有限公司 一种基于深度学习的用户主题向量化表示方法和系统
CN111325326A (zh) * 2020-02-21 2020-06-23 北京工业大学 一种基于异质网络表示学习的链路预测方法
CN112019497A (zh) * 2020-07-10 2020-12-01 上海大学 一种基于词嵌入的多阶段网络攻击检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8682812B1 (en) * 2010-12-23 2014-03-25 Narus, Inc. Machine learning based botnet detection using real-time extracted traffic features
CN104468403B (zh) * 2014-11-14 2017-10-13 北京航空航天大学 一种基于nacc对数据包进行网络流分类的sdn控制器
US9729571B1 (en) * 2015-07-31 2017-08-08 Amdocs Software Systems Limited System, method, and computer program for detecting and measuring changes in network behavior of communication networks utilizing real-time clustering algorithms
CN111277570A (zh) * 2020-01-10 2020-06-12 中电长城网际系统应用有限公司 数据的安全监测方法和装置、电子设备、可读介质
CN113098735B (zh) * 2021-03-31 2022-10-11 上海天旦网络科技发展有限公司 面向推理的应用流量和指标向量化方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140082730A1 (en) * 2012-09-18 2014-03-20 Kddi Corporation System and method for correlating historical attacks with diverse indicators to generate indicator profiles for detecting and predicting future network attacks
CN107431663A (zh) * 2015-03-25 2017-12-01 思科技术公司 网络流量分类
WO2020062390A1 (zh) * 2018-09-25 2020-04-02 深圳先进技术研究院 一种网络流量分类方法、系统及电子设备
CN109257760A (zh) * 2018-09-28 2019-01-22 西安交通大学深圳研究院 无线网络中的用户流量预测系统
CN109726744A (zh) * 2018-12-14 2019-05-07 深圳先进技术研究院 一种网络流量分类方法
CN110210656A (zh) * 2019-05-21 2019-09-06 上海交通大学 基于站点行为分析的共享单车流量预测方法及系统
CN111310453A (zh) * 2019-11-05 2020-06-19 上海金融期货信息技术有限公司 一种基于深度学习的用户主题向量化表示方法和系统
CN110868431A (zh) * 2019-12-24 2020-03-06 华北电力大学 一种网络流量异常检测方法
CN111325326A (zh) * 2020-02-21 2020-06-23 北京工业大学 一种基于异质网络表示学习的链路预测方法
CN112019497A (zh) * 2020-07-10 2020-12-01 上海大学 一种基于词嵌入的多阶段网络攻击检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHENG XU; XIANGFENG LUO; CHEN LIANG; FENGLIN ZHI; LIN MEI: "《Using Association Link Network Model for Organizing Video Resources from Web》", 《2013 NINTH INTERNATIONAL CONFERENCE ON SEMANTICS, KNOWLEDGE AND GRIDS》, 19 May 2014 (2014-05-19) *
郭洋: "《面向智能交通大数据的特征提取和流量预测算法优化与改进研究》", 《中国博士学位论文全文数据库 (工程科技Ⅱ辑)》, no. 01, 15 January 2021 (2021-01-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022206040A1 (zh) * 2021-03-31 2022-10-06 上海天旦网络科技发展有限公司 面向推理的应用流量和指标向量化方法及系统

Also Published As

Publication number Publication date
WO2022206040A1 (zh) 2022-10-06
CN113098735B (zh) 2022-10-11
US20230186122A1 (en) 2023-06-15

Similar Documents

Publication Publication Date Title
CN111694879B (zh) 一种多元时间序列异常模式预测方法及数据采集监控装置
Wu et al. Modeling trajectories with recurrent neural networks
JP2021060992A (ja) マシンラーニングシステム及び方法
Hu et al. Time-series event prediction with evolutionary state graph
CA2970159A1 (en) Technical and semantic signal processing in large, unstructured data fields
CN117041017B (zh) 数据中心的智能运维管理方法及系统
CN109376797B (zh) 一种基于二进制编码器和多哈希表的网络流量分类方法
Moon et al. A Large-Scale Study in Predictability of Daily Activities and Places.
CN113098735B (zh) 面向推理的应用流量和指标向量化方法及系统
CN114723003A (zh) 一种基于时序卷积和关系建模的事件序列预测方法
Shi et al. Optimization and decomposition methods in network traffic prediction model: A review and discussion
Kotenko et al. Parallelization of security event correlation based on accounting of event type links
Anastasiou et al. Deriving generalised stochastic petri net performance models from high-precision location tracking data
Lee et al. Salad: Self-adaptive lightweight anomaly detection for real-time recurrent time series
Lutu Fast feature selection for Naïve Bayes classification in data stream mining
CN115049023B (zh) 人防设施状态监控方法、装置、设备及存储介质
He et al. Hierarchical pooling structure for weakly labeled sound event detection
Dai An efficient ensemble pruning algorithm using One-Path and Two-Trips searching approach
Chan et al. SeqiBloc: mining multi-time spanning blockmodels in dynamic graphs
CN111949867A (zh) 跨app的用户行为分析模型训练方法、分析方法及相关设备
CN113051006B (zh) 基于应用服务及关系向量化的辅助配置方法及系统
CN117112245B (zh) 一种基于设备联动的多线程同步创建方法和系统
CN117667606B (zh) 基于用户行为的高性能计算集群能耗预测方法及系统
Joshi et al. History Bits based novel algorithm for classification of structured data
Ju et al. ChunkFormer: Learning Long Time Series with Multi-stage Chunked Transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant