CN113098735A

CN113098735A - 面向推理的应用流量和指标向量化方法及系统

Info

Publication number: CN113098735A
Application number: CN202110352102.XA
Authority: CN
Inventors: 支凤麟; 蔡晓华
Original assignee: Shanghai Netis Technologies Co ltd
Current assignee: Shanghai Netis Technologies Co ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-07-09
Anticipated expiration: 2041-03-31
Also published as: US20230186122A1; CN113098735B; WO2022206040A1

Abstract

本发明提供了一种面向推理的应用流量和指标向量化方法及系统，包括：步骤S1：将分布式系统内已知网络流量以及当前流量的相关设备的原始指标信息量化为同样类型的元组，得到已知网络流量信息元组和指标信息元组；步骤S2：将分布式系统内未知网络流量量化为同样类型的元组，得到未知网络流量信息元组；步骤S3：基于已知网络流量信息元组、指标信息元组以及未知网络流量信息元组按照时间窗口和先验关联关系构成网络，使用随机游走的方法采样网络描述信息；步骤S4：基于网络描述信息利用嵌入算法得到网络流量向量和指标信息向量；步骤S5：根据网络流量向量、指标信息向量进行根因分析以及指标预测。

Description

面向推理的应用流量和指标向量化方法及系统

技术领域

本发明涉及数据处理、流量分析、向量化表示、应用性能监控领域，具体地，涉及一种面向推理的应用流量和指标向量化方法及系统。

背景技术

分布式系统(distributed system)泛指建立在网络之上的软件系统，这种系统具有高度的内聚性和透明性，在商业领域、公共领域、IT基础设施领域有着广泛的应用。相应的，针对分布式系统的监控和表示也有其广泛意义和用途，例如运维保障、安全保障、数据价值挖掘等。

分布式系统中，应用流量分析在很多工作的开展中起到核心作用。现有方法通常针对不同目标建立不同的流量分析模型，如建立模型进行异常检测、建立模型进行根因分析、建立模型进行流量预测等。流量信息在上述模型被分别处理，需要重复使用大量的计算资源，各类应用系统重复建设成本高耸。

在文本处理领域，“字嵌入”的方法将字之间的固有联系蕴含在每个字的向量表达中，这些向量可以直接用来实现一些简单任务(如相似比对)或作为其他各类模型的公共输入。而事实上，网络流量之间的联系性也是内在存在的，面对任何应用这种内在联系性都可以被重复利用。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种面向推理的应用流量和指标向量化方法及系统。

根据本发明提供的一种面向推理的应用流量和指标向量化方法，包括：

步骤S1：将分布式系统内已知网络流量以及当前流量的相关设备的原始指标信息量化为同样类型的元组，得到已知网络流量信息元组和指标信息元组；

步骤S2：将分布式系统内未知网络流量量化为同样类型的元组，得到未知网络流量信息元组；

步骤S3：基于已知网络流量信息元组、指标信息元组以及未知网络流量信息元组按照时间窗口和先验关联关系构成网络，使用随机游走的方法采样网络描述信息；

步骤S4：基于网络描述信息利用嵌入算法得到网络流量向量和指标信息向量；

步骤S5：根据网络流量向量、指标信息向量进行根因分析以及指标预测；

所述元组包括编码和时间，编码为正整数id值；时间为流量起始时间点或指标采样时间点。

优选地，所述步骤S1包括：

步骤S1.1：获取原始流量信息，为原始流量信息中每种已知流量类型分配唯一正整数id；

步骤S1.2：获取涉及到当前流量的相关设备的原始指标信息，为原始指标信息中每种指标信息分配唯一正整数id，当指标为连续值时，则离散化后为每一类离散值分配唯一正整数id，得到指标信息元组；

步骤S1.3：根据已知流量规则，从原始流量中提取已知流量，并记录为已知流量信息元组；

所述流量规则包括端口、协议名称以及数据包格式。

优选地，所述步骤S2包括：

步骤S2.1：采样预设时间的历史流量信息，历史流量信息中未知流量基于目的IP相同、目的端口相同、基础协议相同，且聚合时报文的前N字符编辑距离小于预设值时，则将未知流量报文正文前N字符进行聚合，对聚合后的每组流量分配唯一的正整数id；

步骤S2.2：将新的未知流量根据KNN算法分配至步骤S2.1产生的聚合中，基于聚合后的每组流量分配的唯一正整数id，给分配后的流量赋予相应的正整数id，记录为未知流量信息元组。

优选地，所述步骤S3包括：

步骤S3.1：使用步长S，窗口长度T的滑动窗口将连续的已知流量元组、未知流量元组以及指标元组划分为集合，其中，S<T，前后窗口之间有重叠，并将每个元组记为F；

步骤S3.2：将时间窗口T的集合内所有元组F按照集合内的时间排序，构成元组F的链表；读入元数据关联信息，将有关联的F结点之间进行直接连接，构成已知流量、未知流量、指标元素关联图；

步骤S3.3：在已知流量、未知流量、指标元素关联图上任意选择一个起点F，进行随机游走，游走N个节点生成一个游走序列[F₁,F₂,…F_N]；

步骤S3.4：选择一个未曾被选择起点的F，重新游走并生成游走序列，重复执行步骤S3.4，直至预设数量以上的节点均被访问，输出游走序列。

优选地，所述步骤S4包括：游走序列利用嵌入算法得到<正整数id，向量>列表；

所述嵌入算法包括Skip-gram、CBOW以及GLOVE。

优选地，所述步骤S5包括：

步骤S5.1：接受需要根因分析的流量和/或指标的正整数id和时间t，当分析目标为流量和指标时，则t为流量和指标中的最晚时间；

步骤S5.2：以t为起点，S为步长，T为窗口大小，沿时间轴反向将历史流量/指标进行划分；

步骤S5.3：将划分后窗口中的所有流量和/或指标正整数id对应的向量经行累加后求均值，作为当前时间窗口的特征，记为V_env；

步骤S5.4：获取需要根因分析的流量和/或指标id对应的向量，当分析目标为流量和指标时，则向量为流量和指标向量的均值，作为待分析目标的特征，记为V_tar；

步骤S5.5：根据当前时间窗口的特征V_env和待分析目标的特征V_tar，基于包括特征加权和或特征均值计算待分析目标在当前时间窗口下的特征V_com；

步骤S5.6：计算上一时间窗口中所有的流量和/或指标对应的向量与V_com的相似度，取相似度大于预设值的M个流量和/或指标作为上一时间窗口中的可能根因；重复执行步骤S5.3至步骤S5.6，直至相似度大于预设值的流量和/或指标不存在。

优选地，所述步骤S5还包括：计算当前时间窗口所有流量和/或指标向量与当前时间窗口的特征V_env之间的相似性，最相似的M个向量对应的流量/指标为可能预测值。

根据本发明提供的一种面向推理的应用流量和指标向量化系统，包括：

模块M1：将分布式系统内已知网络流量以及当前流量的相关设备的原始指标信息量化为同样类型的元组，得到已知网络流量信息元组和指标信息元组；

模块M2：将分布式系统内未知网络流量量化为同样类型的元组，得到未知网络流量信息元组；

模块M3：基于已知网络流量信息元组、指标信息元组以及未知网络流量信息元组按照时间窗口和先验关联关系构成网络，使用随机游走的方法采样网络描述信息；

模块M4：基于网络描述信息利用嵌入算法得到网络流量向量和指标信息向量；

模块M5：根据网络流量向量、指标信息向量进行根因分析以及指标预测；

优选地，所述模块M1包括：

模块M1.1：获取原始流量信息，为原始流量信息中每种已知流量类型分配唯一正整数id；

模块M1.2：获取涉及到当前流量的相关设备的原始指标信息，为原始指标信息中每种指标信息分配唯一正整数id，当指标为连续值时，则离散化后为每一类离散值分配唯一正整数id，得到指标信息元组；

模块M1.3：根据已知流量规则，从原始流量中提取已知流量，并记录为已知流量信息元组；

所述流量规则包括端口、协议名称以及数据包格式；

所述模块M2包括：

模块M2.1：采样预设时间的历史流量信息，历史流量信息中未知流量基于目的IP相同、目的端口相同、基础协议相同，且聚合时报文的前N字符编辑距离小于预设值时，则将未知流量报文正文前N字符进行聚合，对聚合后的每组流量分配唯一的正整数id；

模块M2.2：将新的未知流量根据KNN算法分配至模块M2.1产生的聚合中，基于聚合后的每组流量分配的唯一正整数id，给分配后的流量赋予相应的正整数id，记录为未知流量信息元组。

优选地，所述模块M3包括：

模块M3.1：使用步长S，窗口长度T的滑动窗口将连续的已知流量元组、未知流量元组以及指标元组划分为集合，其中，S<T，前后窗口之间有重叠，并将每个元组记为F；

模块M3.2：将时间窗口T的集合内所有元组F按照集合内的时间排序，构成元组F的链表；读入元数据关联信息，将有关联的F结点之间进行直接连接，构成已知流量、未知流量、指标元素关联图；

模块M3.3：在已知流量、未知流量、指标元素关联图上任意选择一个起点F，进行随机游走，游走N个节点生成一个游走序列[F₁,F₂,…F_N]；

模块M3.4：选择一个未曾被选择起点的F，重新游走并生成游走序列，重复执行模块M3.4，直至预设数量以上的节点均被访问，输出游走序列；

所述模块M5包括：

模块M5.1：接受需要根因分析的流量和/或指标的正整数id和时间t，当分析目标为流量和指标时，则t为流量和指标中的最晚时间；

模块M5.2：以t为起点，S为步长，T为窗口大小，沿时间轴反向将历史流量/指标进行划分；

模块M5.3：将划分后窗口中的所有流量和/或指标正整数id对应的向量经行累加后求均值，作为当前时间窗口的特征，记为V_env；

模块M5.4：获取需要根因分析的流量和/或指标id对应的向量，当分析目标为流量和指标时，则向量为流量和指标向量的均值，作为待分析目标的特征，记为V_tar；

模块M5.5：根据当前时间窗口的特征V_env和待分析目标的特征V_tar，基于包括特征加权和或特征均值计算待分析目标在当前时间窗口下的特征V_com；

模块M5.6：计算上一时间窗口中所有的流量和/或指标对应的向量与V_com的相似度，取相似度大于预设值的M个流量和/或指标作为上一时间窗口中的可能根因；重复触发模块M5.3至模块M5.6执行，直至相似度大于预设值的流量和/或指标不存在；

所述模块M5还包括：计算当前时间窗口所有流量和/或指标向量与当前时间窗口的特征V_env之间的相似性，最相似的M个向量对应的流量/指标为可能预测值。

与现有技术相比，本发明具有如下的有益效果：

1、本发明创新性地在流量领域引入了“字嵌入”的方法，给出一种应用流量向量化的表示方法，并且在本发明中给出了流量向量化的具体操作方法；

2、本发明通过这种向量表示方法，可是在流量领域应用人工智能领域、深度神经网络领域的多种后续框架和算法，引入多种基于度量的计算，实现各种推理任务和预测任务；

3、本发明通过这种向量表示方法，应用人工智能方法，或者应用传统方法和手段，例如规则引擎、统计分析等，可以在网络监控、网路性能分析、网络安全、(基于网络流量的)业务监控、网络数据(业务)价值挖掘等诸多领域，替换数据源，或者补充当前数据源，引入多种基于度量的计算，提升当前各种方案的准确性和有效性；

4、本发明向量表示方式，是一种高度压缩的记录方法，可以广阔应用于长期记录和保存、呈现、应用层告警运算、相似性运算、安全入侵预算、价值挖掘等场景。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明步骤示意图；

图2为流量/指标向量生成过程示意图；

图3为根因推理过程示意图；

图4为预测过程示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1

具体地，所述步骤S1包括：

所述流量规则包括端口、协议名称以及数据包格式。

具体地，所述步骤S2包括：

具体地，所述步骤S3包括：

具体地，所述步骤S4包括：游走序列利用嵌入算法得到<正整数id，向量>列表；

所述嵌入算法包括Skip-gram、CBOW以及GLOVE。

具体地，所述步骤S5包括：

具体地，所述步骤S5还包括：计算当前时间窗口所有流量和/或指标向量与当前时间窗口的特征V_env之间的相似性，最相似的M个向量对应的流量/指标为可能预测值。

本发明提供的面向推理的应用流量和指标向量化系统，可以通过本发明提供的面向推理的应用流量和指标向量化方法中的步骤流程实现。本领域技术人员，可以将所述面向推理的应用流量和指标向量化方法理解为面向推理的应用流量和指标向量化系统的一个优选例。

实施例2

实施例2是实施例1的优选例

针对现有流量和指标处理技术的欠缺，本发明解决的技术问题体现在以下几点：

1)提出一种将应用流量、相关技术指标统一向量化的方法；

2)向量化的结果可以用于推理，实现多种任务目标。

本发明提供的面向推理的应用流量和指标向量化方法，如图1-4所示，包括：已知流量和指标编码、未知流量编码、采样、向量化、基于向量的推理。

步骤1，已知流量和指标编码，输入为：原始流量信息、原始指标信息；输出为：已知流量信息元组，形如：(编码,时间)，指标信息元组，形如：(编码,时间)。

步骤2，未知流量编码，输入为：未知流量信息；输出为：未知流量信息元组，形如：(编码,时间)。

已知流量和未知流量是本发明采用地两种细分，作为优化手段，提高处理的精度。从本发明的实现来说，完全可以仅采用步骤1或者步骤2中的一种进行后续处理，也可以采用将步骤1的已知流量完全当作步骤2的未知流量来处理。

步骤3，采样，输入为：1)元数据关联信息；2)流量信息元组、指标信息元组。输出为：关联样本列表，列表中每一个元素形如(流量/信息编码1，流量/信息编码2…流量/信息编码n)。采样步骤也包括采样率为100％的全采样场景。

步骤4，向量化，输入为：关联样本列表。输出为：(编码，向量)元组集合。

步骤5，基于向量的推理，输入为：(编码，时间)元组信息。输出为：1)当前指标的根因分析链；2)下一时刻指标预测。

面向推理的应用流量和指标向量化方法，所述各步骤的具体步骤运行方法如下：

步骤1，已知流量和指标编码，参考图2，具体步骤如下：

步骤1.1：为每种已知流量类型(如财务系统的一次出帐操作、数据库系统的一次查询请求等，包括但不限于上述)分配唯一整形id，为每种指标信息分配唯一整形id，如该指标为连续值，则离散化后为每一类离散值分配唯一整形id(如为CPU_FREQ<20％、20％<＝CPU_FREQ<80％、CPU_FREQ>＝80％分别分配一个id)；

步骤1.2：根据已知流量规则(如端口、协议名称、数据包格式)，从原始流量中提取已知流量，并记录为(编码，时间)元组，编码即id值，时间为流量起始时间点或者指标采样时间点。输出元组。

步骤2，未知流量编码流程，参考图2，步骤如下：

步骤2.1：采样一段时间的历史流量信息，按照<目的IP,目的端口,基础协议,报文正文前N字符>对未知流量进行聚合(聚合时报文的前N字符编辑距离小于e的认为是相同内容)，对聚合后的每组流量分配唯一的整形id；

步骤2.2：将未知流量根据KNN算法分配入步骤2.1产生聚合中，并给该流量赋予聚合对应的id，记录为(编码，时间)元组。输出元组。

步骤3，采样，参考图2，步骤如下：

步骤3.1：使用步长为S，窗口长度为T的滑动窗口，将连续的(编码，时间)流划分为集合(其中S<T，即前后窗口之间有重叠)，将每个(编码，时间)元组记为F；

步骤3.2：将时间窗口T内所有元组F按照其内的时间排序，构成元组F的链表；读入元数据关联信息(如“财务系统查账”REL“财务系统查账结果”等)，将有关联的F结点之间进行直接连接，构成“流量-指标图”；

步骤3.3：在步骤2的图上任意选择一个起点F，进行随机游走，游走N个结点生成一个游走序列[F1,F2,…FN]，而后选择一个未曾被选择起点的F，重新游走并生成游走序列。重复上述过程，直至P％以上的结点均被访问过。输出游走序列。

步骤4，向量化，参考图2，步骤如下：

步骤4.1：使用包括但不限于Skip-gram、CBOW、GLOVE等嵌入(embedding)算法，处理步骤3生成的游走序列，下文以Skip-gram为例。构建Skip-gram结构的神经网络模型，将步骤3生成的游走序列输入Skip-gram模型训练，将每个游走序列视为一个“上下文”；

步骤4.2：得到Skip-gram输出的<id，向量>列表。

步骤5，基于向量的推理流程，参考图3和图4，步骤如下：

当前指标根因推理：

步骤5.1：接受需要根因分析的一个(或一组)流量/指标的Id，和时间t(如分析目标为一组，则取t为改组中的最晚时间)；

步骤5.2：以t为基准(起点)，S为步长，T为窗口大小，沿时间轴反向将历史流量/指标进行划分；

步骤5.3：将划分后的窗口中的所有流量/指标Id对应的向量经行累加后求均值，作为该时间窗口的特征，记为V_env；

步骤5.4：获取需要根因分析的流量/指标id对应的向量(如为一组则为向量的均值)，作为待分析目标的特征，记为V_tar；

步骤5.5：综合V_env和V_tar计算待分析目标在当前时间窗口下的特征，可使用包括但不限于：特征加权和、特征均值等各种方法。本发明中使用如下公式计算：

V_com＝W₁*V_tar+W₂*V_env,其中W₁+W₂＝1。

其中，W₁和W₂表示权重。

步骤5.6：计算上一时间窗口中所有的流量/指标对应的向量与V_com的相似度，取相似度大于预设值的M个流量/指标作为在上一时间窗口中的可能根因；

步骤5.7：如需继续往时间轴反方法寻找根因，则重复步骤5.3到步骤5.6。直至相似度大于预设值的流量不存在

后续流量/指标预测推理：

步骤5.8：以当前时刻t为基准，T为窗口大小，沿时间轴反向获取历史流量/指标信息；

步骤5.9：将窗口中的所有流量/指标Id对应的向量经行累加后求均值，作为该时间窗口的特征，记为V_env；

步骤5.10：获取所有的流量/指标所对应的向量；

步骤5.11：计算所有流量/指标向量与V_env之间的相似性，最相似的M个向量对应的流量/指标即为可能预测值。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种面向推理的应用流量和指标向量化方法，其特征在于，包括：

2.根据权利要求1所述的面向推理的应用流量和指标向量化方法，其特征在于，所述步骤S1包括：

所述流量规则包括端口、协议名称以及数据包格式。

3.根据权利要求1所述的面向推理的应用流量和指标向量化方法，其特征在于，所述步骤S2包括：

4.根据权利要求1所述的面向推理的应用流量和指标向量化方法，其特征在于，所述步骤S3包括：

5.根据权利要求1所述的面向推理的应用流量和指标向量化方法，其特征在于，所述步骤S4包括：游走序列利用嵌入算法得到<正整数id，向量>列表；

所述嵌入算法包括Skip-gram、CBOW以及GLOVE。

6.根据权利要求1所述的面向推理的应用流量和指标向量化方法，其特征在于，所述步骤S5包括：

7.根据权利要求6所述的面向推理的应用流量和指标向量化方法，其特征在于，所述步骤S5还包括：计算当前时间窗口所有流量和/或指标向量与当前时间窗口的特征V_env之间的相似性，最相似的M个向量对应的流量/指标为可能预测值。

8.一种面向推理的应用流量和指标向量化系统，其特征在于，包括：

9.根据权利要求8所述的面向推理的应用流量和指标向量化系统，其特征在于，所述模块M1包括：

所述流量规则包括端口、协议名称以及数据包格式；

所述模块M2包括：

10.根据权利要求8所述的面向推理的应用流量和指标向量化系统，其特征在于，所述模块M3包括：

所述模块M5包括：