CN113282552B - 流量统计日志的相似性向量化方法及系统 - Google Patents

流量统计日志的相似性向量化方法及系统 Download PDF

Info

Publication number
CN113282552B
CN113282552B CN202110626604.7A CN202110626604A CN113282552B CN 113282552 B CN113282552 B CN 113282552B CN 202110626604 A CN202110626604 A CN 202110626604A CN 113282552 B CN113282552 B CN 113282552B
Authority
CN
China
Prior art keywords
similarity
model
vector
compression
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110626604.7A
Other languages
English (en)
Other versions
CN113282552A (zh
Inventor
支凤麟
蔡晓华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Netis Technologies Co ltd
Original Assignee
Shanghai Netis Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Netis Technologies Co ltd filed Critical Shanghai Netis Technologies Co ltd
Priority to CN202110626604.7A priority Critical patent/CN113282552B/zh
Publication of CN113282552A publication Critical patent/CN113282552A/zh
Application granted granted Critical
Publication of CN113282552B publication Critical patent/CN113282552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种流量统计日志的相似性向量化方法及系统,包括流量统计信息压缩步骤:将原始流量统计信息转化成可近似还原的压缩编码和压缩还原模型;相似性修正步骤:对压缩编码相似性修正,形成相似性压缩编码;时间跨度对准步骤:将不同时间段之间的相似性压缩编码转化到同一向量空间,生成最终的编码向量;相似性压缩还原模型生成步骤:针对最终的编码向量调整压缩还原模型。本发明可以将原始网络流量统计信息编码成较短的定长向量,节约了存储空间,并且可以通过计算近似还原出原始流量的统计信息。

Description

流量统计日志的相似性向量化方法及系统
技术领域
本发明涉及IT运维领域,具体地,涉及一种流量统计日志的相似性向量化方法及系统。
背景技术
在IT运维领域,流量统计信息在系统状态监测、故障诊断、异常分析复盘的重要依据。流量统计信息中会包含固定时间片段内各种指标的统计值,最典型的比如每种协议的数据包的数量。这些指标中,仅就不同独立类型的协议可能就有数百至数千种,独立类型的协议会嵌套使用产生复合类型的协议,这将进一步导致协议类型的急剧扩张。因此流量统计日志的体量非常庞大。目前,对于流量统计日志通常采取直接保存或者压缩保存的方法。如果采用直接保存方法,会消耗巨大的存储空间;如果采用压缩的保存方法,可以减小存储的消耗,使用前需要先解压缩,但压缩和解压缩都将消耗计算资源和时间。
专利文献为CN110830450A的发明专利公开了一种基于统计的异常流量监测方法,包括:收集预设时间段内的用户访问日志记录并进行清洗与变换处理,生成标准用户访问数据;统计标准用户访问数据对应的统计特征分别在不同时间维度上的分布;将统计特征在不同时间维度上的分布映射成对应的多元高斯分布并分别进行参数估计;计算当前网络流量对应的统计特征在各时间维度内分别对应的高斯分布概率值;判断高斯分布概率值是否小于当前网络流量所在时间维度内的预置告警阈值;若是,则判定当前网络流量为异常流量。该专利文献还公开了一种基于统计的异常流量监测装置、设备及存储介质。该专利文献易于部署且实施成本低,并可灵活应对不同时间周期不同业务场景的异常流量实时告警。但是上述方案无法实现存储空间的节约。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种流量统计日志的相似性向量化方法及系统。
根据本发明提供的一种流量统计日志的相似性向量化方法,包括如下步骤:
流量统计信息压缩步骤:将原始流量统计信息转化成可近似还原的压缩编码和压缩还原模型;
相似性修正步骤:对压缩编码相似性修正,形成相似性压缩编码;
时间跨度对准步骤:将不同时间段之间的相似性压缩编码转化到同一向量空间,生成最终的编码向量;
相似性压缩还原模型生成步骤:针对最终的编码向量调整压缩还原模型。
优选地,所述流量统计信息压缩步骤包括:
向量表示步骤:读取原始流量统计信息,并表示为原始向量;
构建步骤:构建encoder-decoder模型;
训练步骤:将原始向量代入encoder-decoder模型中训练,得到压缩编码L-encode和压缩还原模型。
优选地,所述相似性修正步骤包括:
数据读取步骤:读取生成的L-encode以及原始流量统计信息;
计算步骤:计算原始流量统计信息之间的相似度得到Sim-raw-set;
相似度模型构建步骤:构建相似度拟合模型;
相似性压缩向量生成步骤:用相似度拟合模型训练得到相似性压缩向量L-sim-encode。
优选地,所述时间跨度对准步骤包括:
训练数据构建步骤:利用时间重叠部分构建对准训练数据train-align;
深度模型构建步骤:构建输入输出宽度均为w-encode的向量的深度模型;
训练模型步骤:利用train-align训练所述深度模型;
深度模型计算步骤:将L-sim-encode的数据用深度模型计算得到结果L-result。
优选地,所述相似性压缩还原模型生成步骤包括:
还原模型训练数据构建步骤:构建还原模型训练数据;
数据加载步骤:加载所述压缩还原模型;
还原模型生成步骤:使用还原模型训练数据训练压缩还原模型,得到相似性压缩还原模型。
根据本发明提供的一种流量统计日志的相似性向量化系统,包括如下模块:
流量统计信息压缩模块:将原始流量统计信息转化成可近似还原的压缩编码和压缩还原模型;
相似性修正模块:对压缩编码相似性修正,形成相似性压缩编码;
时间跨度对准模块:将不同时间段之间的相似性压缩编码转化到同一向量空间,生成最终的编码向量;
相似性压缩还原模型生成模块:针对最终的编码向量调整压缩还原模型。
优选地,所述流量统计信息压缩模块包括:
向量表示模块:读取原始流量统计信息,并表示为原始向量;
构建模块:构建encoder-decoder模型;
训练模块:将原始向量代入encoder-decoder模型中训练,得到压缩编码L-encode和压缩还原模型。
优选地,所述相似性修正模块包括:
数据读取模块:读取生成的L-encode以及原始流量统计信息;
计算模块:计算原始流量统计信息之间的相似度得到Sim-raw-set;
相似度模型构建模块:构建相似度拟合模型;
相似性压缩向量生成模块:用相似度拟合模型训练得到相似性压缩向量L-sim-encode。
优选地,所述时间跨度对准模块包括:
训练数据构建模块:利用时间重叠部分构建对准训练数据train-align;
深度模型构建模块:构建输入输出宽度均为w-encode的向量的深度模型;
训练模型模块:利用train-align训练所述深度模型;
深度模型计算模块:将L-sim-encode的数据用深度模型计算得到结果L-result。
优选地,所述相似性压缩还原模型生成模块包括:
还原模型训练数据构建模块:构建还原模型训练数据;
数据加载模块:加载所述压缩还原模型;
还原模型生成模块:使用还原模型训练数据训练压缩还原模型,得到相似性压缩还原模型。
与现有技术相比,本发明具有如下的有益效果:
1、本发明可以将原始网络流量统计信息编码成较短的定长向量,节约了存储空间,并且可以通过计算近似还原出原始流量的统计信息。
2、本发明所生成的向量之间存在近似于“原始流量统计信息在不同时刻之间的相似性”。基于这一特性,编码向量无需原状,即可进行许多种类的分析,如基于聚类的异常检测等。
3、本发明的压缩数据保有原始数据的相似属性,可在非还原状态下进行聚类、异常检测等计算。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为流量统计日志的相似性向量化方法步骤流程图。
图2为基于深度网络的流量统计信息压缩步骤示意图。
图3为压缩编码的相似性修正步骤示意图。
图4为编码空间的时间跨度对准步骤示意图。
图5为相似性压缩还原模型生成步骤示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
如图1至图5所示,本发明提供了一种流量统计日志的相似性向量化方法及系统,包括基于深度网络的流量统计信息压缩步骤,参考图2,该步骤读取:原始流量统计信息;该步骤产生:压缩编码向量、压缩还原模型;用于生成可近似还原的压缩向量和压缩还原模型。
压缩编码的相似性修正步骤,参考图3,该步骤读取:压缩编码后的向量、原始流量统计信息;该步骤产生:相似性压缩编码;用于调整压缩向量为其添加“相似性”表达能力。
编码空间的时间跨度对准步骤,参考图4,该步骤读取:连续两个时间段的“相似性压缩编码”,较晚的时间段所对应的编码为待对准对象;该步骤产生:对准后的相似性压缩编码,即“相似性向量化”的结果向量。用于将不同时间段之间的编码向量转化到同一向量空间,生成最终的编码向量。
相似性压缩还原模型生成步骤,参考图5,该步骤读取:对准后的相似性压缩编码、原始流量统计信息、压缩还原模型;该步骤产生:相似性压缩还原模型,针对最终的编码向量调整压缩还原模型。
步骤1:基于深度网络的流量统计信息压缩步骤,包括如下子步骤:
步骤1.1:读取时间跨度为ts,时间片大小为tp的原始流量统计信息,并将其转化生成为原始向量。ts是一个较长的时间段落,如12小时、24小时等,当前ts的开始时间点须与上一ts有重复的部分,将重复的时间范围定义为span-overlap,其长度如1个小时;tp是一个较小的时间段落,如100毫秒、1秒、1分钟等,每个ts包含整数个tp;流量统计信息是指ts时间跨度内,流量中的各项指标的统计值,原始流量统计信息以(tp起始时间点,原始流量统计)的二元组形式表示,如(1613842307000,{tcp:100m,udp:300m,rtsp:600m});将流量统计信息的每个指标转化为向量的一个维度,指标取值转化为向量值,如(1613842307000,{tcp:100m,udp:300m,rtsp:600m})可以转化为(1613842307000,[100,300,600]),其中tcp、udp、rtsp分别对应的维度为0、1、2;
步骤1.2:构建“encoder-decoder”模型。模型的中间层宽度为w-encode,如128、256等,即为最终编码向量的长度,encoder-decoder模型的输入输出支持大于等于0的浮点数。举例来说,encoder可以由卷积层、池化层、全连接层、softmax层组成,损失函数为MSE;
步骤1.3:使用步骤1.1生成的原始向量,训练步骤1.2的模型。训练完毕后,每条原始数据输入模型的encoder部分得到的向量即为“压缩编码向量”,以二元组形式表示每个时间点对应的压缩编码向量,形如(tp起始时间点,压缩编码向量),将三元组按时间由小到大添加入数组,记为L-encode;模型的decoder部分即为“压缩还原模型”。
步骤2:压缩编码的相似性修正步骤,包括如下子步骤:
该步骤读取:压缩编码后的向量、原始流量统计信息;该步骤产生:相似性压缩编码;
步骤2.1:读取步骤1.3生成的L-encode,读取原始流量统计信息,按照时间序由小到大组成为(tp起始时间点,原始流量统计)数组,记为L-raw;
步骤2.2:计算原始流量统计记录之间的相似度。定义集合Sim-raw-set,对L-raw中的每条记录R-raw[i]执行下列操作:
步骤2.2.1:对于R-raw[i],从L-raw中任意抽取N条记录,每条记录记为R-raw[j],其中i不等于j;
步骤2.2.2:分别计算R-raw[i]与每条R-raw[j]的相似度,计算方法可使用如余弦相似度,得到相似度Sim-raw[i,j],该结果用三元组形式表示为(i,j,Sim-raw[i,j]),将三元组添加入Sim-raw-set;
步骤2.3,构建模型用于将拟合相似度。模型输入为embedding层,输出的激活函数为sigmoid,损失函数为交叉熵损失函数。其中embedding层向量宽度为w-encode,embedding向量数量为ts中所包含tp的数量,即L-encode的长度。将embedding使用L-encode中的向量依次从上往下初始化。模型所实现的效果可以表示为公式:
Figure GDA0003815533240000061
其中i和j是两个整数,Ei和Ej对应embedding层中对应位置的向量,即L-encode中对应位置的向量;
步骤2.4:迭代Sim-raw-set中的每条数据,使用其数据(i,j,Sim-raw[i,j])中的i、j作为步骤2.3定义模型的输入,Sim-raw[i,j]作为模型的输出,训练模型,得到优化后的embedding层,将embedding中的向量依次添加到数组,记为L-sim-encode。
步骤3:编码空间的时间跨度对准步骤,包括如下子步骤:
步骤3.1:当前时间跨度ts的上一时间跨度记为ts’,span-overlap为ts与ts’在时间上的重合部分。将ts’中已经完成编码的向量记为L-result’,其中位于span-overlap区间的部分记为L-result-overlap’,将L-sim-encode中位于span-overlap区间的部分记为L-sim-encode-overlap。将L-result-overlap’与L-sim-encode-overlap中对应的记录按照时间join,得到集合train-align,其中每个元素三元组形如(tp开始时间点,于L-result-overlap’中的编码向量,于L-sim-encode-overlap中的编码向量);
步骤3.2:构建深度模型,要求输入输出宽度均为w-encode的向量,中间可以是全连接层等的各种组合,损失函数为交叉熵损失函数;
步骤3.3:使用步骤3.1的数据训练步骤3.2的模型,以三元组中“于L-result-overlap’中的编码向量”作为模型的输入,“于L-sim-encode-overlap中的编码向量”作为模型的输出;
步骤3.4:将L-sim-encode中的所有数据输入步骤3.3的模型,将输出结果按照时间序组成数组,记为L-result,L-result即为相似性向量化编码的结果。
步骤4:相似性压缩还原模型生成步骤,包括如下子步骤:
步骤4.1:将L-result与L-raw中的数据按照tp的开始时间点做join,得到三元组形如(tp开始时间点,L-result中的向量,L-raw中的向量);
步骤4.2:加载步骤1.3得到的“压缩还原模型”;
步骤4.3:使用步骤4.1数据中的“L-result中的向量”为输入,“L-raw中的向量”为输出训练“压缩还原模型”,得到“相似性压缩还原模型”,记为unzip-decoder。将L-result中的数据逐一输入unzip-decoder即可得到近似原始数据。
本发明还提供了一种流量统计日志的相似性向量化系统,包括如下模块:流量统计信息压缩模块:将原始流量统计信息转化成可近似还原的压缩编码和压缩还原模型;相似性修正模块:对压缩编码相似性修正,形成相似性压缩编码;时间跨度对准模块:将不同时间段之间的相似性压缩编码转化到同一向量空间,生成最终的编码向量;相似性压缩还原模型生成模块:针对最终的编码向量调整压缩还原模型。
进一步地,所述流量统计信息压缩模块包括:向量表示模块:读取原始流量统计信息,并表示为原始向量;构建模块:构建encoder-decoder模型;训练模块:将原始向量代入encoder-decoder模型中训练,得到压缩编码L-encode和压缩还原模型。所述相似性修正模块包括:数据读取模块:读取生成的L-encode以及原始流量统计信息;计算模块:计算原始流量统计信息之间的相似度得到Sim-raw-set;相似度模型构建模块:构建相似度拟合模型;相似性压缩向量生成模块:用相似度拟合模型训练得到相似性压缩向量L-sim-encode。所述时间跨度对准模块包括:训练数据构建模块:利用时间重叠部分构建对准训练数据train-align;深度模型构建模块:构建输入输出宽度均为w-encode的向量的深度模型;训练模型模块:利用train-align训练所述深度模型;深度模型计算模块:将L-sim-encode的数据用深度模型计算得到结果L-result。所述相似性压缩还原模型生成模块包括:还原模型训练数据构建模块:构建还原模型训练数据;数据加载模块:加载所述压缩还原模型;还原模型生成模块:使用还原模型训练数据训练压缩还原模型,得到相似性压缩还原模型。
实施例1:
根据本发明提供的流量统计日志的相似性向量化方法,包括:
步骤1:基于深度网络的流量统计信息压缩步骤,执行如下子步骤:
步骤1.1:读取时间跨度为ts=25小时(前一日的23:00到当前日的24:00),时间片为tp=5秒的原始流量统计信息,并将其转化生成为原始向量。重复的时间范围span-overlap为[前一日23:00,前一日24:00],长度为1个小时;将流量统计信息的每个指标转化为向量的一个维度(总指标数为3000个),指标取值转化为向量值,即将(1613841306023,{tcp:200m,udp:700m,rtsp:900m,…})等转化为(1613841306023,[100,300,600,…])等,其中tcp、udp、rtsp分别对应的维度为0、1、2;
步骤1.2:构建“encoder-decoder”模型。模型的中间层宽度为w-encode=256,encoder由卷积层、池化层、全连接层、softmax层组成,损失函数为MSE;
步骤1.3:使用步骤1.1生成的原始向量,训练步骤1.2的模型。训练完毕后,每条原始数据输入模型的encoder部分得到的向量即为“压缩编码向量”,以二元组形式表示每个时间点对应的压缩编码向量,为(1613841306023,[0.23,0,000012,0.8,0.9,0,0,0.27,…]),将三元组按时间由小到大添加入数组,记为L-encode;模型的decoder部分即为“压缩还原模型”;
步骤2:压缩编码的相似性修正步骤,执行如下子步骤:
该步骤读取:压缩编码后的向量、原始流量统计信息;该步骤产生:相似性压缩编码;
步骤2.1:读取步骤1.3生成的L-encode,读取原始流量统计信息,按照时间序由小到大组成为(tp起始时间点,原始流量统计)数组,记为L-raw;
步骤2.2:计算原始流量统计记录之间的相似度。定义集合Sim-raw-set,对L-raw中的每条记录R-raw[i]执行下列操作:
步骤2.2.1:对于R-raw[i],从L-raw中任意抽取N=500条记录,每条记录记为R-raw[j],其中i不等于j;
步骤2.2.2:分别计算R-raw[i]与每条R-raw[j]的相似度,计算方法可使用如余弦相似度,得到相似度Sim-raw[i,j],该结果用三元组形式表示为(i,j,Sim-raw[i,j]),将三元组添加入Sim-raw-set;
步骤2.3,构建模型用于将拟合相似度。模型由embedding层、全连接层、输出层构成,激活函数为sigmoid,损失函数为交叉熵损失函数。其中embedding层向量宽度为w-encode=256,embedding向量数量为18000,即L-encode的长度。
步骤2.4:迭代Sim-raw-set中的每条数据,使用其数据(i,j,Sim-raw[i,j])中的i、j作为步骤2.3定义模型的输入,Sim-raw[i,j]作为模型的输出,训练模型,得到优化后的embedding层,将embedding中的向量依次添加到数组,记为L-sim-encode,其中的一条数据为:
(1613841306023,[0.0035,0.12,0,0.25,0.999,0,0.12,0.0002,…]);
步骤3:编码空间的时间跨度对准步骤,执行如下子步骤:
步骤3.1:将“上一次ts计算得到的相似性向量化编码的23:00到24:00点片段”与“当前ts通过2.4步骤计算得到的L-sim-encode中的23:00到24:00部分”通过实践进行对准,得到数据集合,其中的一条数据为:
(1613841306023,[0.072,0.12,0.23,0.22,0.953,0,0,0.013,…],[0.0035,0.12,0,0.25,0.999,0,0.12,0.0002,…]);
步骤3.2:构建深度模型,输入输出宽度均为w-encode=256的向量,中间包含两个全连接层,损失函数为交叉熵损失函数;
步骤3.3:使用步骤3.1的数据训练步骤3.2的模型,以三元组中“于L-result-overlap’中的编码向量”作为模型的输入,“于L-sim-encode-overlap中的编码向量”作为模型的输出;
步骤3.4:将L-sim-encode中的所有数据输入步骤3.3的模型,将输出结果按照时间序组成数组,记为L-result,L-result即为相似性向量化编码的结果,其中的一条数据为:
(1613841306023,[0.0712,0.119,0.227,0.231,0.954,0.0001,0,0.021,…];
步骤4:相似性压缩还原模型生成步骤,执行如下子步骤:
步骤4.1:将L-result与L-raw中的数据按照tp的开始时间点做join,得到三元组形如(tp开始时间点,L-result中的向量,L-raw中的向量),其中的一条数据为:
(1613841306023,[0.0712,0.119,0.227,0.231,0.954,0.0001,0,0.021,…],[100,300,600,…]);
步骤4.2:加载步骤1.3得到的“压缩还原模型”;
步骤4.3:使用步骤4.1数据中的“L-result中的向量”为输入,“L-raw中的向量”为输出训练“压缩还原模型”,得到“相似性压缩还原模型”,记为unzip-decoder。将L-result中的数据[0.0712,0.119,0.227,0.231,0.954,0.0001,0,0.021,…]输入unzip-decoder即可得到近似原始数据[100.00002,299.99997,600.001,…]。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (2)

1.一种流量统计日志的相似性向量化方法,其特征在于,包括如下步骤:
流量统计信息压缩步骤:将原始流量统计信息转化成可近似还原的压缩编码和压缩还原模型;
相似性修正步骤:对压缩编码相似性修正,形成相似性压缩编码;
时间跨度对准步骤:将不同时间段之间的相似性压缩编码转化到同一向量空间,生成最终的编码向量;
相似性压缩还原模型生成步骤:针对最终的编码向量调整压缩还原模型;
所述流量统计信息压缩步骤包括:
向量表示步骤:读取原始流量统计信息,并表示为原始向量;
构建步骤:构建encoder-decoder模型;
训练步骤:将原始向量代入encoder-decoder模型中训练,得到压缩编码L-encode和压缩还原模型;
所述相似性修正步骤包括:
数据读取步骤:读取生成的L-encode以及原始流量统计信息,按照时间序由小到大组成为(tp起始时间点,原始流量统计)数组,记为L-raw;
计算步骤:计算原始流量统计信息之间的相似度得到Sim-raw-set;
相似度模型构建步骤:构建相似度拟合模型;
相似性压缩向量生成步骤:用相似度拟合模型训练得到相似性压缩向量L-sim-encode;
所述时间跨度对准步骤包括:
训练数据构建步骤:利用时间重叠部分构建对准训练数据train-align;
深度模型构建步骤:构建输入输出宽度均为w-encode的向量的深度模型;
训练模型步骤:利用train-align训练所述深度模型;
深度模型计算步骤:将L-sim-encode的数据用深度模型计算得到结果L-result;
所述相似性压缩还原模型生成步骤包括:
还原模型训练数据构建步骤:构建还原模型训练数据,将L-result与L-raw中的数据按照tp的开始时间点做join,得到三元组形如(tp起始时间点,L-result中的向量,L-raw中的向量);
数据加载步骤:加载所述压缩还原模型;
还原模型生成步骤:使用L-result中的向量为输入,L-raw中的向量为输出训练压缩还原模型,得到相似性压缩还原模型,记为unzip-decoder,将L-result中的数据逐一输入unzip-decoder得到近似原始数据。
2.一种流量统计日志的相似性向量化系统,其特征在于,包括如下模块:
流量统计信息压缩模块:将原始流量统计信息转化成可近似还原的压缩编码和压缩还原模型;
相似性修正模块:对压缩编码相似性修正,形成相似性压缩编码;
时间跨度对准模块:将不同时间段之间的相似性压缩编码转化到同一向量空间,生成最终的编码向量;
相似性压缩还原模型生成模块:针对最终的编码向量调整压缩还原模型;
所述流量统计信息压缩模块包括:
向量表示模块:读取原始流量统计信息,并表示为原始向量;
构建模块:构建encoder-decoder模型;
训练模块:将原始向量代入encoder-decoder模型中训练,得到压缩编码L-encode和压缩还原模型;
所述相似性修正模块包括:
数据读取模块:读取生成的L-encode以及原始流量统计信息,按照时间序由小到大组成为(tp起始时间点,原始流量统计)数组,记为L-raw;
计算模块:计算原始流量统计信息之间的相似度得到Sim-raw-set;
相似度模型构建模块:构建相似度拟合模型;
相似性压缩向量生成模块:用相似度拟合模型训练得到相似性压缩向量L-sim-encode;
所述时间跨度对准模块包括:
训练数据构建模块:利用时间重叠部分构建对准训练数据train-align;
深度模型构建模块:构建输入输出宽度均为w-encode的向量的深度模型;
训练模型模块:利用train-align训练所述深度模型;
深度模型计算模块:将L-sim-encode的数据用深度模型计算得到结果L-result;
所述相似性压缩还原模型生成模块包括:
还原模型训练数据构建模块:构建还原模型训练数据,将L-result与L-raw中的数据按照tp的开始时间点做join,得到三元组形如(tp起始时间点,L-result中的向量,L-raw中的向量);
数据加载模块:加载所述压缩还原模型;
还原模型生成模块:使用L-result中的向量为输入,L-raw中的向量为输出训练压缩还原模型,得到相似性压缩还原模型,记为unzip-decoder,将L-result中的数据逐一输入unzip-decoder得到近似原始数据。
CN202110626604.7A 2021-06-04 2021-06-04 流量统计日志的相似性向量化方法及系统 Active CN113282552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110626604.7A CN113282552B (zh) 2021-06-04 2021-06-04 流量统计日志的相似性向量化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110626604.7A CN113282552B (zh) 2021-06-04 2021-06-04 流量统计日志的相似性向量化方法及系统

Publications (2)

Publication Number Publication Date
CN113282552A CN113282552A (zh) 2021-08-20
CN113282552B true CN113282552B (zh) 2022-11-22

Family

ID=77283396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110626604.7A Active CN113282552B (zh) 2021-06-04 2021-06-04 流量统计日志的相似性向量化方法及系统

Country Status (1)

Country Link
CN (1) CN113282552B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105379283A (zh) * 2013-07-09 2016-03-02 索尼公司 数据编码和解码
CN111144470A (zh) * 2019-12-20 2020-05-12 中国科学院信息工程研究所 一种基于深度自编码器的未知网络流量识别方法及系统
CN112101043A (zh) * 2020-09-22 2020-12-18 浙江理工大学 一种基于注意力的语义文本相似度计算方法
CN112771870A (zh) * 2018-10-24 2021-05-07 华为技术有限公司 视频解码器和方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
CN102630092A (zh) * 2012-03-01 2012-08-08 浙江工商大学 一种融入小波变换和主成分的农业无线传感数据流压缩方法
CN103379136B (zh) * 2012-04-17 2017-02-22 中国移动通信集团公司 一种日志采集数据压缩方法、解压缩方法及装置
CN102916854B (zh) * 2012-10-22 2018-02-09 北京瓦力网络科技有限公司 流量统计方法、装置及代理服务器
JP6735469B2 (ja) * 2016-03-22 2020-08-05 パナソニックIpマネジメント株式会社 ログ収集装置、監視カメラ、およびログ収集方法
CN110442489B (zh) * 2018-05-02 2024-03-01 阿里巴巴集团控股有限公司 数据处理的方法和存储介质
US11126531B2 (en) * 2018-06-29 2021-09-21 EMC IP Holding Company LLC Real-time viewing tool for compressed log data
CN109165144B (zh) * 2018-09-06 2023-06-13 南京聚铭网络科技有限公司 一种基于变长记录的安全日志压缩存储和检索方法
US11729406B2 (en) * 2019-03-21 2023-08-15 Qualcomm Incorporated Video compression using deep generative models
CN110276728B (zh) * 2019-05-28 2022-08-05 河海大学 一种基于残差生成对抗网络的人脸视频增强方法
CN111915881B (zh) * 2020-06-11 2022-09-02 西安理工大学 一种基于变分自动编码器的小样本交通流量预测方法
TWI743919B (zh) * 2020-08-03 2021-10-21 緯創資通股份有限公司 視訊處理裝置及視訊串流的處理方法
CN112306982B (zh) * 2020-11-16 2021-07-16 杭州海康威视数字技术股份有限公司 异常用户检测方法、装置、计算设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105379283A (zh) * 2013-07-09 2016-03-02 索尼公司 数据编码和解码
CN112771870A (zh) * 2018-10-24 2021-05-07 华为技术有限公司 视频解码器和方法
CN111144470A (zh) * 2019-12-20 2020-05-12 中国科学院信息工程研究所 一种基于深度自编码器的未知网络流量识别方法及系统
CN112101043A (zh) * 2020-09-22 2020-12-18 浙江理工大学 一种基于注意力的语义文本相似度计算方法

Also Published As

Publication number Publication date
CN113282552A (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
CN107832837B (zh) 一种基于压缩感知原理的卷积神经网络压缩方法及解压缩方法
CN110544484B (zh) 高阶Ambisonic音频编解码方法及装置
CN110021369B (zh) 基因测序数据压缩解压方法、系统及计算机可读介质
CN117061766A (zh) 基于机器学习的视频压缩
CN111246206A (zh) 一种基于自编码器的光流信息压缩方法及装置
Tariq et al. Enhanced LZMA and BZIP2 for improved energy data compression
CN108023597B (zh) 一种数控系统可靠性数据压缩方法
CN104125475A (zh) 一种多维量子数据压缩、解压缩方法及装置
CN101751897A (zh) 压缩及解压缩查找表的方法及其相关装置
CN113282552B (zh) 流量统计日志的相似性向量化方法及系统
CN113612483A (zh) 一种工业实时数据无损编码压缩方法
Zhe et al. Rate-distortion optimized coding for efficient cnn compression
CN116318172A (zh) 一种设计仿真软件数据自适应压缩方法
Bocharova Compression for multimedia
JP7233875B2 (ja) 作成方法、コンピュータ及びプログラム
CN111193254A (zh) 一种住宅日用电负荷预测方法和设备
CN115695564A (zh) 一种物联网数据的高效传输方法
CN115361559A (zh) 图像编码方法、图像解码方法、装置以及存储介质
Shoba et al. A Study on Data Compression Using Huffman Coding Algorithms
CN113422965A (zh) 一种基于生成对抗网络的图像压缩方法及装置
CN111082809A (zh) 一种触控数据传输方法及系统
Rani et al. Medical Image Compression using DCT with Entropy Encoding and Huffman on MRI Brain Images
CN117750021B (zh) 一种视频压缩方法、装置、计算机设备及存储介质
CN111565314A (zh) 图像压缩方法、编解码网络训练方法、装置及电子设备
CN204721509U (zh) Motion JPEG编码系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant