CN110460591A - 基于改进分层时间记忆网络的cdn流量异常检测装置及方法 - Google Patents

基于改进分层时间记忆网络的cdn流量异常检测装置及方法 Download PDF

Info

Publication number
CN110460591A
CN110460591A CN201910684025.0A CN201910684025A CN110460591A CN 110460591 A CN110460591 A CN 110460591A CN 201910684025 A CN201910684025 A CN 201910684025A CN 110460591 A CN110460591 A CN 110460591A
Authority
CN
China
Prior art keywords
data
module
abnormality detection
cdn
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910684025.0A
Other languages
English (en)
Other versions
CN110460591B (zh
Inventor
王永利
郭相威
刘聪
赵宁
张伟
卜凡
朱亚涛
罗靖杰
刘森淼
彭姿容
朱根伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tech University
Original Assignee
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tech University filed Critical Nanjing Tech University
Priority to CN201910684025.0A priority Critical patent/CN110460591B/zh
Publication of CN110460591A publication Critical patent/CN110460591A/zh
Application granted granted Critical
Publication of CN110460591B publication Critical patent/CN110460591B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于改进分层时间记忆网络的CDN流量异常检测装置及方法。该装置包括数据采集模块、数据预处理模块、数据存储模块、系统调度模块、异常检测模块和展示模块。方法为:数据采集模块对原生日志进行数据采集,转化为json格式发送至数据预处理模块;进行特征提取,得到CDN流量时间序列表示,数据存储模块对数据采集模块的日志数据和数据预处理模块的CDN数据进行存储;异常检测模块通过系统调度模块获取流量时间序列数据,输入至基于改进分层时间记忆网络的时间序列异常检测模型中进行在线学习,完成异常可能性计算,输出异常可能性判断的检测结果,展示模块对关键过程进行可视化呈现。本发明具有检测速度快、准确率高的优点。

Description

基于改进分层时间记忆网络的CDN流量异常检测装置及方法
技术领域
本发明涉及CDN流量异常检测技术领域,特别是一种基于改进分层时间记忆网络的CDN流量异常检测装置及方法。
背景技术
近年来,随着互联网基建设施的不断完善,使得数字化战略得到系统阐释,互联网服务持续渗透,网民规模保持稳健增长。为减少因快速增长的用户群体和巨大的数据传输量给网络带来的压力,内容分发网络(Content Delivery Network,CDN)应运而生。CDN通过大规模分布式部署服务器基础设施,使其可以服务于不同位置的互联网。CDN固有的分布性将流行的应用程序和热点内容尽可能靠近用户,极大程度上减少了网络延迟,提高了用户的访问速度和体验质量,节省了视频等大型文件的传输流量。如今CDN已成为互联网基础设施的重要组成部分,互联网流量主要由内容提供商CP和CDN所主导。然而,CDN在面向用户服务时,由于网络异常而影响用户的体验质量的原因包括以下三类:(1)CDN节点意外中断、高峰流量过大导致的网络拥塞而产生的故障异常;(2)热点话题导致服务器节点访问爆炸性增长而产生的突发访问异常;(3)网络不法分子利用特定程序攻击网络导致服务器节点无法响应用户请求而产生的网络入侵异常。
传统的CDN流量异常检测方法存在很多不足,主要体现在以下几个方面:
1、在执行效率上有待进一步的提高,同时无法满足大流量网络链路的异常检测的响应时间要求;
2、在检测算法中,非常依赖检测阈值的确定,如何精确地计算阈值无法给出良好的解决方案;
3、传统的方法重在发现异常,在诊断异常类型的方面涉及很少。
为了解决以上存在的问题,使CDN具有快速准确检测网络流量异常的能力,降低CDN因异常发生而导致大面积网络瘫痪的可能性,对于保障网络的正常运行具有重要意义。
发明内容
本发明的目的在于提供一种检测速度快、准确率高的基于改进分层时间记忆网络的CDN流量异常检测装置及方法。
实现本发明目的的技术解决方案为:一种基于改进分层时间记忆网络的CDN流量异常检测装置,包括数据采集模块、数据预处理模块、数据存储模块、系统调度模块、异常检测模块和展示模块;
所述数据采集模块,使用分布式搜索引擎ElasticSearch、日志解析工具Logstash、分析可视化平台Kbana对Nginx的原生日志进行收集,使用安装在服务器上的Filebeat监视指定的日志文件并获取改动信息;
所述数据预处理模块,用于对原生日志分字段进行数据解析,并将解析出的时间和流量值字段的数据按照时间粒度进行聚合,得到CDN日志流量时间序列;
所述数据存储模块,包括分布式搜索引擎Elasticsearch查询数据库和Mysql普通数据库,其中分布式搜索引擎Elasticsearch查询数据库用于存储日志解析工具Logstash处理过的初始时间序列数据并建立索引,Mysql数据库用于存储流量的初始时间序列和数据预处理模块处理过的基于可变时间粒度聚合的时间序列数据;
所述系统调度模块,通过调用数据存储模块接口获取需要检测的时间序列数据,通过调用异常检测模块接口进行异常检测,并将异常数据作为输入传递给展示模块接口进行可视化输出;
所述异常检测模块,通过系统调度模块获取流量时间序列数据,并采用改进分层时间记忆网络模型进行在线学习,完成异常可能性计算,并输出异常可能性判断的检测结果;
所述展示模块,对关键过程进行可视化呈现,包括日志数据展示、日志数据清洗展示、时间序列展示和异常检测结果展示。
进一步地,所述数据预处理模块,通过过滤插件对日志解析工具Logstash收集的来自分布式发布订阅消息系统Kafka的消息进行处理,过滤插件包括Grok、Mutate和Date,其中Grok插件进行正则捕获,Mutate插件进行数据的修改,Date插件将字符串形式的日期转换成date类型,输送到分布式搜索引擎Elasticsearch中用以生成index。
进一步地,所述异常检测模块,包括HTMTAD模型,HTMTAD模型是指基于改进分层时间记忆网络的时间序列异常检测模型,HTMTAD模型包括编码器模块、向量矩阵更新模块、异常检测模块和异常评分模块,其中向量矩阵更新模块包括空间池和序列存储器;
经由数据预处理模块的流量时间序列表示算法处理的时间序列输入至编码器模块,编码器模块输出二进制向量矩阵,交由空间池对二进制向量矩阵进行池化,生成具有高度稀疏性的二进制编码,交由序列存储器进行集合状态矩阵和预测状态矩阵的更新;异常检测模块基于向量矩阵的状态学习高阶序列和序列的学习规则,进行异常检测并输出预测误差,异常评分模块在预测误差的基础上使用高斯尾部概率公式进行异常可能性估计,实现最终的时间序列异常的检测。
一种基于改进分层时间记忆网络的CDN流量异常检测方法,包括以下步骤:
步骤1、数据采集模块将对原生日志进行采集,并将采集的数据转化为json格式,发送至数据预处理模块;
步骤2、数据预处理模块对json格式的数据进行主要特征提取,得到CDN流量时间序列表示;
步骤3、数据存储模块对数据采集模块的日志数据和数据预处理模块的CDN数据进行存储,用以日志展示和检测结果测试;
步骤4、系统调度模块分别调用其他各个模块的接口,完成整个异常检测的过程;
步骤5、异常检测模块通过系统调度模块获取流量时间序列数据,将该数据输入至改进分层时间记忆网络HTMTAD模型中,使用HTMTAD模型进行在线学习,完成异常可能性计算,输出异常可能性判断的检测结果;
步骤6、展示模块对关键过程进行可视化呈现,包括日志数据展示、日志数据清洗展示、时间序列展示和异常检测结果展示。
进一步地,其特征在于,步骤1所述的数据采集模块将对原生日志进行采集,并将采集的数据转化为json格式,发送至数据预处理模块,具体如下:
步骤1.1、使用分布式搜索引擎ElasticSearch、日志解析工具Logstash、分析可视化平台Kbana对Nginx的原生日志进行收集;
步骤1.2、使用安装在服务器上的Filebeat监视指定的日志文件并获取改动信息。
进一步地,其特征在于,步骤2所述的数据预处理模块对json格式的数据进行主要特征提取,得到CDN流量时间序列表示,具体如下:
步骤2.1、对对json格式的数据分字段进行数据解析;
步骤2.2、将解析出的时间和流量值字段的数据进行按照时间粒度进行聚合,得到CDN流量时间序列表示。
进一步地,步骤3所述的数据存储模块对数据采集模块的日志数据和数据预处理模块的CDN数据进行存储,用以日志展示和检测结果测试,具体如下:
步骤3.1、使用Elasticsearch存放Logstash处理过的初始时间序列数据,建立索引;
步骤3.2、使用Mysql数据库存储流量的初始时间序列和经过数据预模型处理过的基于可变时间粒度聚合的时间序列数据。
进一步地,步骤4所述的系统调度模块分别调用其他各个模块的接口,完成整个异常检测的过程,具体如下:
步骤4.1、通过调用数据存储模块接口获取需要检测的时间序列数据;
步骤4.2、通过调用异常检测模块接口进行异常检测;
步骤4.3、将异常数据作为输入,传递给可视化展示接口进行可视化输出。
进一步地,步骤5所述的异常检测模块通过系统调度模块获取流量时间序列数据,将该数据输入至改进分层时间记忆网络HTMTAD模型中,使用HTMTAD模型进行在线学习,完成异常可能性计算,输出异常可能性判断的检测结果,具体如下:
步骤5.1、通过系统调度模块获取流量时间序列数据,将该数据输入至改进分层时间记忆网络HTMTAD模型中;
步骤5.2、使用改进分层时间记忆网络HTMTAD模型进行在线学习,并完成异常可能性计算;
步骤5.3、输出异常可能性判断的检测结果。
本发明与现有技术相比,其显著优点为:(1)分节点对数据进行归类实现数据的初步清洗并进行聚合算法,基于时间粒度提取不同主体的时间序列方法,对流量数据进行聚合实现数据的降维,使得时间序列变得平滑;输出的时间序列用于后续时间序列检测模型的输入,允许部分噪音和数据的缺失,降低了系统需求;(2)基于改进分层时间记忆网络的时间序列异常检测模型,实现流量数据点灵活编码,通过空间池和序列存储器实现数据的稀疏表示和高阶序列的学习,并在预测误差的基础上提出异常可能性的计算方式,降低了模型误报几率,提高了模型检测准确性;(3)采用ELK+Filebeat体系实现CDN流量数据的采集分析,提高了流量收集的性能。
附图说明
图1是本发明基于改进分层时间记忆网络的CDN流量异常检测装置的结构示意图。
图2是本发明中数据采集模块的采集流程示意图。
图3是本发明中数据预处理模块的预处理流程示意图。
图4是本发明中数据存储模块的存储流程示意图。
图5是本发明中系统调度模块的调度流程示意图。
图6是本发明中改进分层时间记忆网络HTMTAD模型的结构示意图。
具体实施方式
本发明基于改进分层时间记忆网络的CDN流量异常检测装置,包括数据采集模块、数据预处理模块、数据存储模块、系统调度模块、异常检测模块和展示模块;
所述数据采集模块,使用分布式搜索引擎ElasticSearch、日志解析工具Logstash、分析可视化平台Kbana对Nginx的原生日志进行收集,使用安装在服务器上的Filebeat监视指定的日志文件并获取改动信息;
所述数据预处理模块,用于对原生日志分字段进行数据解析,并将解析出的时间和流量值字段的数据按照时间粒度进行聚合,得到CDN日志流量时间序列;
所述数据存储模块,包括分布式搜索引擎Elasticsearch查询数据库和Mysql普通数据库,其中分布式搜索引擎Elasticsearch查询数据库用于存储日志解析工具Logstash处理过的初始时间序列数据并建立索引,Mysql数据库用于存储流量的初始时间序列和数据预处理模块处理过的基于可变时间粒度聚合的时间序列数据;
所述系统调度模块,通过调用数据存储模块接口获取需要检测的时间序列数据,通过调用异常检测模块接口进行异常检测,并将异常数据作为输入传递给展示模块接口进行可视化输出;
所述异常检测模块,通过系统调度模块获取流量时间序列数据,并采用改进分层时间记忆网络模型进行在线学习,完成异常可能性计算,并输出异常可能性判断的检测结果;
所述展示模块,对关键过程进行可视化呈现,包括日志数据展示、日志数据清洗展示、时间序列展示和异常检测结果展示。
进一步地,所述数据预处理模块,通过过滤插件对日志解析工具Logstash收集的来自分布式发布订阅消息系统Kafka的消息进行处理,过滤插件包括Grok、Mutate和Date,其中Grok插件进行正则捕获,Mutate插件进行数据的修改,Date插件将字符串形式的日期转换成date类型,输送到分布式搜索引擎Elasticsearch中用以生成index。
进一步地,所述异常检测模块,包括HTMTAD模型,HTMTAD模型是指基于改进分层时间记忆网络的时间序列异常检测模型,HTMTAD模型包括编码器模块、向量矩阵更新模块、异常检测模块和异常评分模块,其中向量矩阵更新模块包括空间池和序列存储器;
经由数据预处理模块的流量时间序列表示算法处理的时间序列输入至编码器模块,编码器模块输出二进制向量矩阵,交由空间池对二进制向量矩阵进行池化,生成具有高度稀疏性的二进制编码,交由序列存储器进行集合状态矩阵和预测状态矩阵的更新;异常检测模块基于向量矩阵的状态学习高阶序列和序列的学习规则,进行异常检测并输出预测误差,异常评分模块在预测误差的基础上使用高斯尾部概率公式进行异常可能性估计,实现最终的时间序列异常的检测。
一种基于改进分层时间记忆网络的CDN流量异常检测方法,包括以下步骤:
步骤1、数据采集模块将对原生日志进行采集,并将采集的数据转化为json格式,发送至数据预处理模块;
步骤2、数据预处理模块对json格式的数据进行主要特征提取,得到CDN流量时间序列表示;
步骤3、数据存储模块对数据采集模块的日志数据和数据预处理模块的CDN数据进行存储,用以日志展示和检测结果测试;
步骤4、系统调度模块分别调用其他各个模块的接口,完成整个异常检测的过程;
步骤5、异常检测模块通过系统调度模块获取流量时间序列数据,将该数据输入至改进分层时间记忆网络HTMTAD模型中,使用HTMTAD模型进行在线学习,完成异常可能性计算,输出异常可能性判断的检测结果;
步骤6、展示模块对关键过程进行可视化呈现,包括日志数据展示、日志数据清洗展示、时间序列展示和异常检测结果展示。
进一步地,其特征在于,步骤1所述的数据采集模块将对原生日志进行采集,并将采集的数据转化为json格式,发送至数据预处理模块,具体如下:
步骤1.1、使用分布式搜索引擎ElasticSearch、日志解析工具Logstash、分析可视化平台Kbana对Nginx的原生日志进行收集;
步骤1.2、使用安装在服务器上的Filebeat监视指定的日志文件并获取改动信息。
进一步地,其特征在于,步骤2所述的数据预处理模块对json格式的数据进行主要特征提取,得到CDN流量时间序列表示,具体如下:
步骤2.1、对对json格式的数据分字段进行数据解析;
步骤2.2、将解析出的时间和流量值字段的数据进行按照时间粒度进行聚合,得到CDN流量时间序列表示。
进一步地,步骤3所述的数据存储模块对数据采集模块的日志数据和数据预处理模块的CDN数据进行存储,用以日志展示和检测结果测试,具体如下:
步骤3.1、使用Elasticsearch存放Logstash处理过的初始时间序列数据,建立索引;
步骤3.2、使用Mysql数据库存储流量的初始时间序列和经过数据预模型处理过的基于可变时间粒度聚合的时间序列数据。
进一步地,步骤4所述的系统调度模块分别调用其他各个模块的接口,完成整个异常检测的过程,具体如下:
步骤4.1、通过调用数据存储模块接口获取需要检测的时间序列数据;
步骤4.2、通过调用异常检测模块接口进行异常检测;
步骤4.3、将异常数据作为输入,传递给可视化展示接口进行可视化输出。
进一步地,步骤5所述的异常检测模块通过系统调度模块获取流量时间序列数据,将该数据输入至改进分层时间记忆网络HTMTAD模型中,使用HTMTAD模型进行在线学习,完成异常可能性计算,输出异常可能性判断的检测结果,具体如下:
步骤5.1、通过系统调度模块获取流量时间序列数据,将该数据输入至改进分层时间记忆网络HTMTAD模型中;
步骤5.2、使用改进分层时间记忆网络HTMTAD模型进行在线学习,并完成异常可能性计算;
步骤5.3、输出异常可能性判断的检测结果。
下面结合附图和具体实施方式对本发明做进一步的详细描述。
实施例
结合图1,本发明一种基于改进分层时间记忆网络的CDN流量异常检测装置,包括数据采集模块、数据预处理模块、数据存储模块、系统调度模块、异常检测模块和展示模块;
所述数据采集模块,使用分布式搜索引擎ElasticSearch、日志解析工具Logstash、分析可视化平台Kbana对Nginx的原生日志进行收集,使用安装在服务器上的Filebeat监视指定的日志文件并获取改动信息;
所述数据预处理模块,用于对原生日志分字段进行数据解析,并将解析出的时间和流量值字段的数据按照时间粒度进行聚合,得到CDN日志流量时间序列;
所述数据存储模块,包括分布式搜索引擎Elasticsearch查询数据库和Mysql普通数据库,其中分布式搜索引擎Elasticsearch查询数据库用于存储日志解析工具Logstash处理过的初始时间序列数据并建立索引,Mysql数据库用于存储流量的初始时间序列和数据预处理模块处理过的基于可变时间粒度聚合的时间序列数据;
所述系统调度模块,通过调用数据存储模块接口获取需要检测的时间序列数据,通过调用异常检测模块接口进行异常检测,并将异常数据作为输入传递给展示模块接口进行可视化输出;
所述异常检测模块,通过系统调度模块获取流量时间序列数据,通过使用改进分层时间记忆网络模型进行在线学习,完成异常可能性计算,并输出异常可能性判断的检测结果;
所述展示模块,对关键过程进行可视化呈现,包括日志数据展示、日志数据清洗展示、时间序列展示和异常检测结果展示。
进一步地,所述数据预处理模块,通过过滤插件对日志解析工具Logstash收集的来自分布式发布订阅消息系统Kafka的消息进行处理,过滤插件包括Grok、Mutate和Date,其中Grok插件进行正则捕获,Mutate插件进行数据的修改,Date插件将字符串形式的日期转换成date类型,输送到分布式搜索引擎Elasticsearch中用以生成index。
进一步地,所述异常检测模块,包括基于改进分层时间记忆网络的时间序列异常检测(HTMTAD,Hierarchical Temporal Memory–based Time-series AnomaliesDetection)模型,HTMTAD模型包括编码器模块、向量矩阵更新模块、异常检测模块和异常评分模块,其中向量矩阵更新模块包括空间池和序列存储器;
经由数据预处理模块的流量时间序列表示算法处理的时间序列输入至编码器模块,编码器模块输出二进制向量矩阵,交由空间池对二进制向量矩阵进行池化,生成具有高度稀疏性的二进制编码,交由序列存储器进行集合状态矩阵和预测状态矩阵的更新;异常检测模块基于向量矩阵的状态学习高阶序列和序列的学习规则,进行异常检测并输出预测误差,异常评分模块在预测误差的基础上使用高斯尾部概率公式进行异常可能性估计,实现最终的时间序列异常的检测。
一种基于改进分层时间记忆网络的CDN流量异常检测方法,包括以下步骤:
步骤1、数据采集模块将对原生日志进行采集,并将采集的数据转化为json格式,发送至数据预处理模块,具体如下:
结合图2,在数据采集模块中采用ELK(Elasticsearch+Logstash+Kibana)+Filebeat体系采集并处理CDN中的流量数据。ELK是一种一体化日志处理平台解决方案,用于解决服务器节点较多且登陆每台机器查阅日志的方式太过繁琐和低效的问题。ELK由分布式搜索引擎ElasticSearch、日志解析工具Logstash、分析可视化平台Kbana组成,提供了日志的处理、存储、搜索、可视化功能。日志的采集使用Filebeat。Filebeat是一个开源的文件收集器,安装在服务器上用监视指定的日志文件并获取改动信息。
步骤2、数据预处理模块对json格式的数据进行主要特征提取,得到CDN流量时间序列表示,具体如下:
结合图3,在数据预处理模块中,日志解析工具Logstash采用输入插件收集来自分布式发布订阅消息系统Kafka的消息,并通过过滤插件对消息进行处理。过滤插件包括Grok、Mutate和Date。Grok插件用于正则捕获,Mutate插件进行数据的修改,Date插件用于将字符串形式的日期转换成date类型,输送到分布式搜索引擎Elasticsearch中用以生成index。
步骤3、数据存储模块对数据采集模块的日志数据和数据预处理模块的CDN数据进行存储,用以日志展示和检测结果测试,具体如下:
结合图4,在数据存储模块中采用分布式搜索引擎Elasticsearch查询数据库和Mysql普通数据库结合,分布式搜索引擎Elasticsearch是一个高度可扩展的开源全文搜索和分析引擎,可以快速、近实时地存储,搜索和分析大量数据,在海量数据的快速分析、可视化和特定问题的解决方面有着较大优势。分布式搜索引擎Elasticsearch用于存放日志解析工具Logstash处理过后的初始时间序列数据,并建立索引,方便分析可视化平台Kibana搜索并进行图形化显示,展示CDN日志流量的变化趋势。Mysql数据库存储流量的初始时间序列和经过数据预处理的模型处理过的基于可变时间粒度聚合的时间序列数据,用以送入异常检测模型进行检测,输送异常检测结果报告,完成最终的流量异常检测。
步骤4、系统调度模块分别调用其他各个模块的接口,完成整个异常检测的过程,具体如下:
结合图5,系统调度模块通过调用数据库接口获取需要检测的时间序列数据,再通过调用异常检测模块接口进行异常检测,异常检测模块接口返回异常可能性判断结果,系统调度模块将其作为输入传递给可视化展示接口进行可视化输出。
步骤5、异常检测模块通过系统调度模块获取流量时间序列数据,将该数据输入至改进分层时间记忆网络HTMTAD模型中,使用HTMTAD进行在线学习,完成异常可能性计算,输出异常可能性判断的检测结果,具体如下:
结合图6,异常检测模块包括改进分层时间记忆网络HTMTAD模型,改进分层时间记忆网络HTMTAD模型是基于原有的分层时间记忆网络HTM,针对CDN流量序列数据的特性对其进行部分改进,用以检测CDN流量时间序列中的异常。HTMTAD模型包括编码器模块、向量矩阵更新模块、异常检测模块和异常评分模块四个模块,其中向量矩阵更新模块包括空间池和序列存储器;
经由数据预处理模块的流量时间序列表示算法处理的时间序列输入至编码器模块,编码器模块输出二进制向量矩阵,交由空间池对二进制向量进行池化,生成具有高度稀疏性的二进制编码,交由序列存储器进行集合状态矩阵和预测状态矩阵的更新。异常检测模块基于向量矩阵的状态学习高阶序列和序列的学习规则,进行异常检测并输出预测误差,异常评分模块在预测误差的基础上使用高斯尾部概率公式进行异常可能性估计,实现最终的时间序列异常的检测。
步骤6、展示模块对关键过程进行可视化呈现,包括日志数据展示、日志数据清洗展示、时间序列展示和异常检测结果展示。
综上所述,本发明分节点对数据进行归类实现数据的初步清洗并进行聚合算法,基于时间粒度提取不同主体的时间序列方法,对流量数据进行聚合实现数据的降维,使得时间序列变得平滑;输出的时间序列用于后续时间序列检测模型的输入,允许部分噪音和数据的缺失,降低了系统需求;基于改进分层时间记忆网络的时间序列异常检测模型,实现流量数据点灵活编码,通过空间池和序列存储器实现数据的稀疏表示和高阶序列的学习,并在预测误差的基础上提出异常可能性的计算方式,降低了模型误报几率,提高了模型检测准确性;采用ELK+Filebeat体系实现CDN流量数据的采集分析,提高了流量收集的性能。

Claims (9)

1.一种基于改进分层时间记忆网络的CDN流量异常检测装置,其特征在于,包括数据采集模块、数据预处理模块、数据存储模块、系统调度模块、异常检测模块和展示模块;
所述数据采集模块,使用分布式搜索引擎ElasticSearch、日志解析工具Logstash、分析可视化平台Kbana对Nginx的原生日志进行收集,使用安装在服务器上的Filebeat监视指定的日志文件并获取改动信息;
所述数据预处理模块,用于对原生日志分字段进行数据解析,并将解析出的时间和流量值字段的数据按照时间粒度进行聚合,得到CDN日志流量时间序列;
所述数据存储模块,包括分布式搜索引擎Elasticsearch查询数据库和Mysql普通数据库,其中分布式搜索引擎Elasticsearch查询数据库用于存储日志解析工具Logstash处理过的初始时间序列数据并建立索引,Mysql数据库用于存储流量的初始时间序列和数据预处理模块处理过的基于可变时间粒度聚合的时间序列数据;
所述系统调度模块,通过调用数据存储模块接口获取需要检测的时间序列数据,通过调用异常检测模块接口进行异常检测,并将异常数据作为输入传递给展示模块接口进行可视化输出;
所述异常检测模块,通过系统调度模块获取流量时间序列数据,并采用改进分层时间记忆网络模型进行在线学习,完成异常可能性计算,并输出异常可能性判断的检测结果;
所述展示模块,对关键过程进行可视化呈现,包括日志数据展示、日志数据清洗展示、时间序列展示和异常检测结果展示。
2.根据权利要求1所述的基于改进分层时间记忆网络的CDN流量异常检测装置,其特征在于,所述数据预处理模块,通过过滤插件对日志解析工具Logstash收集的来自分布式发布订阅消息系统Kafka的消息进行处理,过滤插件包括Grok、Mutate和Date,其中Grok插件进行正则捕获,Mutate插件进行数据的修改,Date插件将字符串形式的日期转换成date类型,输送到分布式搜索引擎Elasticsearch中用以生成index。
3.根据权利要求1所述的基于改进分层时间记忆网络的CDN流量异常检测装置,其特征在于,所述异常检测模块,包括HTMTAD模型,HTMTAD模型是指基于改进分层时间记忆网络的时间序列异常检测模型,HTMTAD模型包括编码器模块、向量矩阵更新模块、异常检测模块和异常评分模块,其中向量矩阵更新模块包括空间池和序列存储器;
经由数据预处理模块的流量时间序列表示算法处理的时间序列输入至编码器模块,编码器模块输出二进制向量矩阵,交由空间池对二进制向量矩阵进行池化,生成具有高度稀疏性的二进制编码,交由序列存储器进行集合状态矩阵和预测状态矩阵的更新;异常检测模块基于向量矩阵的状态学习高阶序列和序列的学习规则,进行异常检测并输出预测误差,异常评分模块在预测误差的基础上使用高斯尾部概率公式进行异常可能性估计,实现最终的时间序列异常的检测。
4.一种基于改进分层时间记忆网络的CDN流量异常检测方法,其特征在于,包括以下步骤:
步骤1、数据采集模块将对原生日志进行采集,并将采集的数据转化为json格式,发送至数据预处理模块;
步骤2、数据预处理模块对json格式的数据进行主要特征提取,得到CDN流量时间序列表示;
步骤3、数据存储模块对数据采集模块的日志数据和数据预处理模块的CDN数据进行存储,用以日志展示和检测结果测试;
步骤4、系统调度模块分别调用其他各个模块的接口,完成整个异常检测的过程;
步骤5、异常检测模块通过系统调度模块获取流量时间序列数据,将该数据输入至改进分层时间记忆网络HTMTAD模型中,使用HTMTAD模型进行在线学习,完成异常可能性计算,输出异常可能性判断的检测结果;
步骤6、展示模块对关键过程进行可视化呈现,包括日志数据展示、日志数据清洗展示、时间序列展示和异常检测结果展示。
5.根据权利要求4所述的基于改进分层时间记忆网络的CDN流量异常检测方法,其特征在于,步骤1所述的数据采集模块将对原生日志进行采集,并将采集的数据转化为json格式,发送至数据预处理模块,具体如下:
步骤1.1、使用分布式搜索引擎ElasticSearch、日志解析工具Logstash、分析可视化平台Kbana对Nginx的原生日志进行收集;
步骤1.2、使用安装在服务器上的Filebeat监视指定的日志文件并获取改动信息。
6.根据权利要求4所述的基于改进分层时间记忆网络的CDN流量异常检测方法,其特征在于,步骤2所述的数据预处理模块对json格式的数据进行主要特征提取,得到CDN流量时间序列表示,具体如下:
步骤2.1、对对json格式的数据分字段进行数据解析;
步骤2.2、将解析出的时间和流量值字段的数据进行按照时间粒度进行聚合,得到CDN流量时间序列表示。
7.根据权利要求4所述的基于改进分层时间记忆网络的CDN流量异常检测方法,其特征在于,步骤3所述的数据存储模块对数据采集模块的日志数据和数据预处理模块的CDN数据进行存储,用以日志展示和检测结果测试,具体如下:
步骤3.1、使用Elasticsearch存放Logstash处理过的初始时间序列数据,建立索引;
步骤3.2、使用Mysql数据库存储流量的初始时间序列和经过数据预模型处理过的基于可变时间粒度聚合的时间序列数据。
8.根据权利要求4所述的基于改进分层时间记忆网络的CDN流量异常检测方法,其特征在于,步骤4所述的系统调度模块分别调用其他各个模块的接口,完成整个异常检测的过程,具体如下:
步骤4.1、通过调用数据存储模块接口获取需要检测的时间序列数据;
步骤4.2、通过调用异常检测模块接口进行异常检测;
步骤4.3、将异常数据作为输入,传递给可视化展示接口进行可视化输出。
9.根据权利要求4所述的基于改进分层时间记忆网络的CDN流量异常检测方法,其特征在于,步骤5所述的异常检测模块通过系统调度模块获取流量时间序列数据,将该数据输入至改进分层时间记忆网络HTMTAD模型中,使用HTMTAD模型进行在线学习,完成异常可能性计算,输出异常可能性判断的检测结果,具体如下:
步骤5.1、通过系统调度模块获取流量时间序列数据,将该数据输入至改进分层时间记忆网络HTMTAD模型中;
步骤5.2、使用改进分层时间记忆网络HTMTAD模型进行在线学习,并完成异常可能性计算;
步骤5.3、输出异常可能性判断的检测结果。
CN201910684025.0A 2019-07-26 2019-07-26 基于改进分层时间记忆网络的cdn流量异常检测装置及方法 Active CN110460591B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910684025.0A CN110460591B (zh) 2019-07-26 2019-07-26 基于改进分层时间记忆网络的cdn流量异常检测装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910684025.0A CN110460591B (zh) 2019-07-26 2019-07-26 基于改进分层时间记忆网络的cdn流量异常检测装置及方法

Publications (2)

Publication Number Publication Date
CN110460591A true CN110460591A (zh) 2019-11-15
CN110460591B CN110460591B (zh) 2021-11-09

Family

ID=68483582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910684025.0A Active CN110460591B (zh) 2019-07-26 2019-07-26 基于改进分层时间记忆网络的cdn流量异常检测装置及方法

Country Status (1)

Country Link
CN (1) CN110460591B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889445A (zh) * 2019-11-22 2020-03-17 咪咕文化科技有限公司 视频cdn盗链检测方法、装置、电子设备及存储介质
CN111177095A (zh) * 2019-12-10 2020-05-19 中移(杭州)信息技术有限公司 日志分析方法、装置、计算机设备及存储介质
CN111245684A (zh) * 2020-01-13 2020-06-05 智者四海(北京)技术有限公司 流量调度方法和装置、电子设备、计算机可读介质
CN111884874A (zh) * 2020-07-15 2020-11-03 中国舰船研究设计中心 一种基于可编程数据平面的舰船网络实时异常检测方法
CN113419727A (zh) * 2021-06-22 2021-09-21 之江实验室 一种深度学习训练过程数据转化为可视化数据方法和系统
WO2022035391A1 (en) * 2020-08-11 2022-02-17 Medianova Internet Hizmetleri Ve Ticaret Anonim Sirketi Server assignment by traffic modelling in content delivery networks (cdn)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885642A (zh) * 2017-11-29 2018-04-06 小花互联网金融服务(深圳)有限公司 基于机器学习的业务监控方法及系统
CN109474668A (zh) * 2018-10-16 2019-03-15 平安科技(深圳)有限公司 Cdn服务切换方法、装置、计算机设备及存储介质
CN111782460A (zh) * 2020-06-04 2020-10-16 昆山伊莱智能软件科技有限公司 大规模日志数据的异常检测方法、装置和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885642A (zh) * 2017-11-29 2018-04-06 小花互联网金融服务(深圳)有限公司 基于机器学习的业务监控方法及系统
CN109474668A (zh) * 2018-10-16 2019-03-15 平安科技(深圳)有限公司 Cdn服务切换方法、装置、计算机设备及存储介质
CN111782460A (zh) * 2020-06-04 2020-10-16 昆山伊莱智能软件科技有限公司 大规模日志数据的异常检测方法、装置和存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889445A (zh) * 2019-11-22 2020-03-17 咪咕文化科技有限公司 视频cdn盗链检测方法、装置、电子设备及存储介质
CN110889445B (zh) * 2019-11-22 2022-09-27 咪咕文化科技有限公司 视频cdn盗链检测方法、装置、电子设备及存储介质
CN111177095A (zh) * 2019-12-10 2020-05-19 中移(杭州)信息技术有限公司 日志分析方法、装置、计算机设备及存储介质
CN111177095B (zh) * 2019-12-10 2023-10-27 中移(杭州)信息技术有限公司 日志分析方法、装置、计算机设备及存储介质
CN111245684A (zh) * 2020-01-13 2020-06-05 智者四海(北京)技术有限公司 流量调度方法和装置、电子设备、计算机可读介质
CN111245684B (zh) * 2020-01-13 2021-12-21 智者四海(北京)技术有限公司 流量调度方法和装置、电子设备、计算机可读介质
CN111884874A (zh) * 2020-07-15 2020-11-03 中国舰船研究设计中心 一种基于可编程数据平面的舰船网络实时异常检测方法
CN111884874B (zh) * 2020-07-15 2022-02-01 中国舰船研究设计中心 一种基于可编程数据平面的舰船网络实时异常检测方法
WO2022035391A1 (en) * 2020-08-11 2022-02-17 Medianova Internet Hizmetleri Ve Ticaret Anonim Sirketi Server assignment by traffic modelling in content delivery networks (cdn)
CN113419727A (zh) * 2021-06-22 2021-09-21 之江实验室 一种深度学习训练过程数据转化为可视化数据方法和系统

Also Published As

Publication number Publication date
CN110460591B (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN110460591A (zh) 基于改进分层时间记忆网络的cdn流量异常检测装置及方法
CN108537544B (zh) 一种交易系统实时监控方法及其监控系统
CN107147639B (zh) 一种基于复杂事件处理的实时安全预警方法
CN111143097B (zh) 面向gnss定位服务的故障治理系统和方法
US10225165B2 (en) Apparatus and method for processing data streams in a communication network
CN107220892B (zh) 一种应用于海量p2p网贷金融数据智能预处理工具及方法
CN104516807B (zh) 自动日志传感器调谐
CN103246735B (zh) 一种异常数据处理方法及系统
CN109961204A (zh) 一种微服务架构下业务质量分析方法和系统
CN109840157A (zh) 故障诊断的方法、装置、电子设备和存储介质
CN111162949A (zh) 一种基于Java字节码嵌入技术的接口监测方法
CN107517131A (zh) 一种基于日志采集的分析预警方法
CN109993189A (zh) 一种网络故障预警方法、装置和介质
CN101277218B (zh) 一种网络告警的动态分析系统和方法
CN115776449B (zh) 列车以太网通信状态监测方法及系统
CN109002996A (zh) 基于水费回收的风险评估方法及系统
CN106506266A (zh) 基于GPU、Hadoop/Spark混合计算框架的网络流量分析方法
JP7442001B1 (ja) 水力発電ユニットの故障総合診断方法
CN110388315A (zh) 基于多源信息融合的输油泵故障识别方法、装置及系统
CN114648393A (zh) 一种应用于招投标的数据挖掘方法、系统及设备
CN115269438A (zh) 针对图像处理算法的自动化测试方法及装置
CN110908957A (zh) 电力行业网络安全日志审计分析方法
CN109660396A (zh) 一种网络监控方法及装置
CN105930255A (zh) 一种系统健康度预测方法及装置
CN114116872A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20191115

Assignee: NANJING SINOVATIO TECHNOLOGY Co.,Ltd.

Assignor: NANJING University OF SCIENCE AND TECHNOLOGY

Contract record no.: X2022980008506

Denomination of invention: CDN traffic anomaly detection device and method based on improved hierarchical time memory network

Granted publication date: 20211109

License type: Common License

Record date: 20220622

EE01 Entry into force of recordation of patent licensing contract