CN115695216A

CN115695216A - 一种互联网流量流向的大数据分析的方法

Info

Publication number: CN115695216A
Application number: CN202211239990.5A
Authority: CN
Inventors: 梁锋; 马雪林
Original assignee: Guangxi Zhuang Autonomous Region Public Information Industry Co ltd
Current assignee: Guangxi Zhuang Autonomous Region Public Information Industry Co ltd
Priority date: 2022-10-10
Filing date: 2022-10-10
Publication date: 2023-02-03

Abstract

本发明公开了一种互联网流量流向的大数据分析的方法，由数据采集、数据分析和数据汇总展示构成。本方法可以过收集路由器和交换机的NetFlow数据，可以帮助网络管理员查看什么因素占用了带宽资源、网站网络流量是否超过安全门限、对网络流量统计数据进行全面的分析和存储，并出具自动生成的标准报告和客户化定制报告，可以让客户获得想要的所有数据，从而允许客户对全网性能做出准确判断，避免了大量部署和配置监测探针的复杂过程。通过采集DNS日志信息和BGP信息可以将NetFlow中的目标IP地址、地址归属和网站域名关联起来，通过大数据分析实现网络流量流向数据分析。

Description

一种互联网流量流向的大数据分析的方法

技术领域

本发明属于软件开发及大数据技术领域，具体涉及一种互联网流量流向的大数据分析的方法。

背景技术

如今对于全电信业务的运营商来说，网络带宽呈爆发式增长，互联网业务复杂，流量流向分析及用户行为分析的成本逐年上升，但这种分析对网络长期健康发展是必不可少的。传统的分析方式是基于电路流量釆集，通过分光或镜像的方式，对全量数据进行釆集，而后进行筛选，再进行数据数据分析，导致投资大、分析效率低。

对于全电信业务的运营商来说，以往每天DNS日志信息和NetFlow流量数据信息生成的数据信息有上百亿条，通过传统计算机无法完成DNS日志信息和NetFlow流量数据信息的分析。同时关键内容缺失(如网站服务商名称)，无法达成用户流量分析效果。随着大数据技术的不断发展，通过服务器分布式部署，并行计算，对海量数据的分析能力逐年增加，而分析的成本却急速下降，目前以大数据技术为基础，并行分析DNS日志信息和NetFlow流量数据信息已经成为可能。

发明内容

本发明针对现有技术的问题，提供一种通过NetFlow日志、路由表信息和DNS日志等多数据源，多维度地分析网络流量流向数据，可以有效分析网络中真实的用户上网行为的互联网流量流向的大数据分析的方法。

为了实现上述发明目的，本发明的技术方案如下：

一种互联网流量流向的大数据分析的方法，所述方法由分析系统实现；所述分析系统包括用于数据采集的数据采集层、用于数据分析的大数据分析层以及用于数据汇总展示的分析结果展示层；所述方法包括以下步骤：

所述数据采集包括：(1)NetFlow流量数据采集，网络设备主动以2000-4000:1的采样比将Flow流数据发送到NetFlow流量数据采集服务器；(2)动态路由数据采集：通过与网络设备启动BGP动态路由协议学习网络中的动态路由；(3)DNS日志数据釆集，通过FTP方式，DNS系统将双向DNS日志信息发送到DNS日志采集服务器；

所述数据分析：对采集到的数据进行大数据分析，基于Hadoop大数据分析架构，结合分布式文件系统和分布式计算对海量日志进行数据分析；

所述数据汇总展示通过将BGP路由表、DNS日志和NetFlow流量数据混合计算，再经过至少一次数据迭代分析出用户流量流向数据，将各采集报文进行关联计算得出最终报表，并通过B/S架构展示给管理员，方便用户了解网络的工作情况和网络中用户正常和异常的行为。

进一步的，所述通过数据迭代分析出用户流量流向数据通过以下方法实现：

(1)通过实时DNS解析数据采集建立IP地址和域名的对应关系，形成一个动态的反解库，并根据授权返回的地址更新这个反解库；

(2)通过外部网站数据分析，可以分析出每个IP地址所归属的地区(如省份地市)，结合ASPath数据和BGP的Whois信息，可以将每个地址段对应到所属运营商；

(3)在NetFlow分析时，通过建立的接口获取当时的IP与域名的对应关系，同时通过域名归属厂商(包括采用CDN分发的部分)，可以识别出一个流的归属厂商、业务类型细分以及IP归属位置；

(4)通过基础数据表按不同的维度统计汇总分析并存入数据库。

进一步的，所述数据采集还包括通过爬虫程序将信息补全；所述采集层负责采集原始的网络流量信息，爬虫程序将对原始的网络流量信息进行信息补全。

进一步的，所述爬虫程序补全的信息包括通过域名IP补全注册商名称和公司名称以及通过IP补全所属地区(如省份地市)。

进一步的，所述数据采集层的工作模式为单向模式，只通过网络实时输入路由表，不对外发布数据。

进一步的，所述数据采集步骤中，网络设备主动以3000:1的采样比将Flow流数据发送到NetFlow流量数据采集服务器。

采样比太小容易产生大量的重复数据，过大则容易产生误差，可根据实际交换机的具体设置进行配置。不同的采样比有可能会对接下来的数据处理造成影响(后端处理程序需要对不同的采样比进行调整适配)。按目前的处理程序来看，最佳区间应该在2000:1到4000:1之间。而经过实际测试经验得知，3000:1采集的结果比较容易处理且误差在合理范围。

本发明具有的优点及有益效果如下：

本发明通过聚类分析方法进行大数据分析，有效帮助运营商清晰地了解网络运行情况和用户行为特征，从而为IDC客户营销和内容引入提供有力的数据支撑。本方法可以过收集路由器和交换机的NetFlow数据，可以帮助网络管理员查看什么因素占用了带宽资源、网站网络流量是否超过安全门限、对网络流量统计数据进行全面的分析和存储，并出具自动生成的标准报告和客户化定制报告，可以让客户获得想要的所有数据，从而允许客户对全网性能做出准确判断，避免了大量部署和配置监测探针的复杂过程。通过采集DNS日志信息和BGP信息可以将NetFlow中的目标IP地址、地址归属和网站域名关联起来，通过大数据分析实现网络流量流向数据分析。

附图说明

图1为本发明方法的整体处理流程示意图。

具体实施方式

下面结合具体实施例对本发明做进一步说明。

如图1所示，一种互联网流量流向的大数据分析的方法，该方法基于BGP路由表、DNS和NetFlow的数据分析系统实现；且该分析系统包括用于数据采集的数据采集层、用于数据分析的大数据分析层以及用于数据汇总展示的分析结果展示层；且该方法由包括数据釆集、数据分析、数据汇总展示三大部分构成：

所述数据采集包括：(1)NetFlow流量数据采集，网络设备主动以3000:1的采样比将Flow流数据发送到NetFlow流量数据采集服务器；(2)动态路由数据采集：通过与网络设备启动BGP动态路由协议学习网络中的动态路由；(3)DNS日志数据釆集，通过FTP方式，DNS系统将双向DNS日志信息发送到DNS日志采集服务器；(4)通过爬虫程序将信息补全；

采集层负责采集原始的网络流量信息，爬虫程序将对原始的网络流量信息进行信息补全；所述爬虫程序补全的信息包括通过域名IP补全注册商名称和公司名称以及通过IP补全所属省份地市。

其中，所述通过数据迭代分析出用户流量流向数据通过以下方法实现：

(2)通过外部网站数据分析，可以分析出每个IP地址所归属的省份地市，结合ASPath数据和BGP的Whois信息，可以将每个地址段对应到所属运营商；

(3)在NetFlow分析时，通过建立的接口获取当时的IP与域名的对应关系，同时通过域名归属厂商(包括采用CDN分发的部分)，可以识别出一个流的归属厂商、业务类型细分以及IP归属位置等；

其中，基于DNS和NetFlow流量分析系统的软件架构分为：数据釆集层、大数据分析层和分析结果输出展示层。具体的：

(1)数据釆集层：采集NetFlow信息、动态路由数据、DNS日志数据。

NetFlow信息：网络设备按照约定的采样比3000:1，周期性地向釆集系统发送的NetFlow信息，NetFlow的流数据包含在UDP报文中输出。以V5输出报文为例，每个UDP报文包含一个NetFlow报文和最多30条流数据，每条流数据包括以下主要字段信息：数据报文的源IP、目的IP、下一跳地址、源端口、目的端口、TOS、协议类型、TCP标志位，以及流中的数据包数、流中的总字节数、流记录的起始和结束时间等关键包头信息。

数据采集层支持NetFlowV5、NetFlowV9等常用的多种Flow格式。采集设备接收网络设备发送的NetFlow流量数据，每一个流数据保存一行，每行数据包括：源IP、目的IP、下一跳地址、源端口、目的端口、TOS、协议类型、TCP标志位，以及流中的数据包数、流中的总字节数、流记录的起始和结束时间。

动态路由数据：数据釆集层通过与网络设备启动BGP动态路由协议学习网络中的动态路由，数据采集层的工作模式为单向模式，只通过网络实时输入路由表，不对外发布数据。每釆集一条路由保存一行，每行数据包括：目的网段、下一跳地址、metric、locprf、weight和Path。BGP动态路由数据的好处在于，网络运营商IP地址的范围是变化的，此外有些没有自己网络的小ISP,会自带IP接入到某个运营商网络下，仅从IP地址有时很难准确判断IP所归属的运营商，而BGP路由表会根据IP地址路由情况动态变化，可以准确反映运营商IP地址的范围；通过BGP动态路由数据关联IP地址归属,可以保证IP归属结果的准确性。

DNS日志数据：数据采集层以实时接收DNS系统的日志文件，通过与DNS数据关联可以将NetFlow数据匹配到网站域名；每采集一条域名解析日志保存一行，每行数据包括：源地址、目的地址、源端口、目的端口，以及请求或解析的内容和解析时间。

(2)数据分析层：NetFlow流量分析系统通过数据分析层对采集数据进行大数据分析。

分布式文件系统釆用的HDFS文件系统,，HDFS有高容错性的特点，并且设计用来部署在低廉的硬件上；而且其提供高吞吐用来访问应用程序的数据，适合NetFlow流量数据、DNSU志信息这些有着超大数据集的应用程序oHDFS放宽了POSIX的要求，可以以流的形式访问文件系统中的数据。将BGP路由表、NetFlow流量数据、DNS日志信息保存至HDFS文件系统中。

实时分析可采用MapReduce和Spark，MapReduce用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(归纳)”，及其主要思想，都是从函数式编程语言借来的，还有从矢量编程语言借来的特性。当前的软件实现是定一个Map函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce函数，用来保证所有映射的键值对中的每一个共享相同的键组。Spark适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark是为了支持分布式数据集上的迭代作业，但是实际上是对Hadoop的补充，可以在Hadoop文件系统中并行运行构建大型低延迟的数据分析应用程序。

同时可以设立决策分析数据库用来存储MapReduce和Spark大数据挖掘的数据结果，不同于以往的数据库，决策数据库不仅保存Spark分析的结果，而且可以Spark的输岀数据进行迭代分析。

(3)分析展示层：NetFlow流量分析系统分析展示对大数据分析的结果，并以直观的图形表格形式展现给客户。

通过本方法改进前，数据收集整理都是通过人工整理运营商数据、自有数据和外部网站数据，按日、按月汇总成基础数据清单。清单字段包括url、ip、域名归属公司、域名归属客户、CDN服务商、接入商、省份、地市、IP下流量占比、IP下平均流速等。业务分析过程中，需要按域名归属公司、CDN服务商、接入商等不同维度进行分类统计。常常会因为数据关联问题、人工操作问题出现数据不准、空缺等质量问题，影响统计分析。

改进前：数据不完整，人工查询效率慢，海量数据无法一一补全；时效性不高：IP-域名映射关系经常变动，分析结果参考价值低；内容不够详细：数据字段少、分析结果不全面；分析方式不灵活：仅通过域名分类汇总分析，缺少其他维度方式分析；效率、准确性低：人工录入效率低且易出错。

通过本方法改进后：数据完整：分布式爬虫实时补全信息，覆盖多个数据源；时效性高：配合爬虫每日更新分析结果，域名-IP映射关系、IP归属地、CDN提供商等信息每日更新；信息全面：增加IP流量占比、IP流量速率、归属用户等字段，分析更全面；分析方式灵活：支持多种维度分析，支持自定义时间段汇总分析；效率、准确性高：爬虫自动补全、自动化生成报表，支持接入商数据模板导入。

表1：改进前获取数据信息

表2：改进后获取数据信息

表3：改进前获取的基础数据信息

表4：改进后获取的基础数据信息

本发明通过DPI数据结合外部网站数据建立聚类分析模型系统，形成流量流向分析基础数据表，并将基础数据表按不同的维度统计各省份数据流量、各省份互联网用户流量统计及详情、各省份CDN商流量统计及详情、本地接入商流量统计及详情以及各IDC机房流量统计，统计时间粒度支持天、周、月。采用关键字段聚合，然后进行相应的递归聚合，有效提升原始数据的运算处理效率，尤其在磁盘I/O有限的条件下，性能提升更明显。本发明通过聚类分析方法进行大数据分析，有效帮助运营商清晰地了解网络运行情况和用户行为特征，从而为IDC客户营销和内容引入提供有力的数据支撑。

Claims

1.一种互联网流量流向的大数据分析的方法，其特征在于：所述方法由分析系统实现；所述分析系统包括用于数据采集的数据采集层、用于数据分析的大数据分析层以及用于数据汇总展示的分析结果展示层；所述方法包括以下步骤：

所述数据采集包括：（1）NetFlow流量数据采集，网络设备主动以2000-4000:1的采样比将Flow流数据发送到NetFlow流量数据采集服务器；（2）动态路由数据采集：通过与网络设备启动BGP动态路由协议学习网络中的动态路由；（3）DNS日志数据釆集，通过FTP方式，DNS系统将双向DNS日志信息发送到DNS日志采集服务器；

2.根据权利要求1所述的一种互联网流量流向的大数据分析的方法，其特征在于：所述通过数据迭代分析出用户流量流向数据通过以下方法实现：

（1）通过实时DNS解析数据采集建立IP地址和域名的对应关系，形成一个动态的反解库，并根据授权返回的地址更新这个反解库；

（2）通过外部网站数据分析，可以分析出每个IP地址所归属的地区，结合AS Path数据和BGP的Whois信息，可以将每个地址段对应到所属运营商；

（3）在NetFlow分析时，通过建立的接口获取当时的IP与域名的对应关系，同时通过域名归属厂商，可以识别出一个流的归属厂商、业务类型细分以及IP归属位置；

（4）通过基础数据表按不同的维度统计汇总分析并存入数据库。

3.根据权利要求1所述的一种互联网流量流向的大数据分析的方法，其特征在于：所述数据采集还包括通过爬虫程序将信息补全；所述采集层负责采集原始的网络流量信息，爬虫程序将对原始的网络流量信息进行信息补全。

4.根据权利要求3所述的一种互联网流量流向的大数据分析的方法，其特征在于：所述爬虫程序补全的信息包括通过域名IP补全注册商名称和公司名称以及通过IP补全所属地区。

5.根据权利要求1所述的一种互联网流量流向的大数据分析的方法，其特征在于：所述数据采集层的工作模式为单向模式，只通过网络实时输入路由表，不对外发布数据。

6.根据权利要求1所述的一种互联网流量流向的大数据分析的方法，其特征在于：所述采样比为3000:1。