CN118075155A

CN118075155A - 多维度互联网业务流量深度分析方法、装置、设备及存储介质

Info

Publication number: CN118075155A
Application number: CN202311705988.7A
Authority: CN
Inventors: 温勇斌; 赖远东
Original assignee: China Communication Service Application And Solution Technology Co ltd
Current assignee: China Communication Service Application And Solution Technology Co ltd
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-05-24

Abstract

本发明公开了一种多维度互联网业务流量深度分析方法、装置、设备及存储介质，涉及网络流量分析与管理技术领域。所述方法是先采集网络设备的NetFlow统计流量数据，以及还采集DNS日志数据、SNMP数据、BGP数据、IP基因数据、DNS解析数据、互联网数据和应用特征库，然后对采集所得数据进行交叉关联，并根据交叉关联结果，在Netflow互联网业务流量流向分析的基础上，叠加DNS解析数据分析，以及还结合互联网数据和应用特征库，通过多维度分析实现应用层面的业务流量分析，最后对业务流量分析所得结果进行动态展示和/或交互，如此可实现业务深度分析全自动化，极大提升分析效率、降低业务可视化人工成本和投资成本。

Description

多维度互联网业务流量深度分析方法、装置、设备及存储介质

技术领域

本发明属于网络流量分析与管理技术领域，具体涉及一种多维度互联网业务流量深度分析方法、装置、设备及存储介质。

背景技术

目前，常用的网络流量分析方案主要有NetFlow(其是一种网络监测功能的名称)流量分析和DNS(Domain Name System，域名系统)解析数据分析：

(1)NetFlow是由Cisco公司开发的一种内网流量统计技术，它在路由器上对经过的数据进行抽样，并在带宽有限的情况下，通过对抽样得到的数据进行分析，就可以知道网络的主要流量走向，便于网络管理员进行网络优化。然而，NetFlow在直观精确地反映客户接入互联网的应用资料方面存在一定的限制，即它偏重于网络层面的流量分析，对于具体的应用层面业务流量分析，尤其是在诸如理解和优化特定应用程序的性能等需要深入理解应用行为的场景，Netflow技术的表现并不理想。

(2)由于DNS负责将易于人们记忆的域名转换成计算机能够读取的IP地址，因此分析DNS查询和应答的日志，就能得知网络中的主机正在访问哪些网络服务。但是，基于DNS的流量分析也有其局限性，即大量机械化的DNS查询可能会增加名称服务器的工作负载，使得服务器易受到攻击，同时，查询日志往往数量庞大，难于分析。

此外，现有的流量分析工具在判断流量时，往往依赖静态的流量特征库，而缺乏实时更新和学习的能力，这使得它们难以适应快速变化的网络环境。

发明内容

本发明的目的是提供一种多维度互联网业务流量深度分析方法、装置、计算机设备及计算机可读存储介质，用以解决现有网络流量分析方案所存在的各自局限性问题。

为了实现上述目的，本发明采用以下技术方案：

第一方面，提供了一种多维度互联网业务流量深度分析方法，包括：

采集网络设备的NetFlow统计流量数据，以及还采集DNS日志数据、SNMP数据、BGP数据、IP基因数据、DNS解析数据、互联网数据和应用特征库，并将采集所得数据统一入库，其中，所述NetFlow统计流量数据包含有目标端口号、开始时间、结束时间、目标IP、平均流速、总计流量和总计比例，所述DNS日志数据包含有域名、开始时间、结束时间和解析次数，所述SNMP数据包含有端口号和路由器标识，所述BGP数据包含有路由表、AS号和省/市/区，所述IP基因数据包含有省/市/区、IP和客户名称，所述DNS解析数据包含有域名、解析时间、A记录和CDN域名，所述互联网数据包含有CDN域名和CDN厂商标识，所述应用特征库包含有域名、应用名称和应用客户标识；

对所述采集所得数据进行交叉关联，并根据交叉关联结果，在Netflow互联网业务流量流向分析的基础上，叠加DNS解析数据分析，以及还结合所述互联网数据和所述应用特征库，通过多维度分析实现应用层面的业务流量分析，其中，所述交叉关联包括对所述NetFlow统计流量数据中的目标端口号与所述BGP数据中的路由表进行关联、对所述BGP数据中的路由表与所述SNMP数据中的端口号进行关联、对所述NetFlow统计流量数据中的开始时间和结束时间与所述DNS日志数据中的开始时间和结束时间进行关联、对所述DNS日志数据中的开始时间和结束时间与所述DNS解析数据中的解析时间进行关联、对所述DNS解析数据中的域名与所述应用特征库中的域名进行关联、对所述应用特征库中的域名与所述DNS解析数据中的域名进行关联、对所述IP基因数据中的IP与所述NetFlow统计流量数据中的目标IP进行关联以及对所述DNS解析数据中的A记录与所述IP基因数据中的IP进行关联，所述业务流量分析包括外省/市/区覆盖本省/市/区流量流向分析、IDC客户流量流向分析、热门应用流量趋势分析、重点客户能力画像与深度分析和/或重点客户流失风险评估分析；

对业务流量分析所得结果进行动态展示和/或交互。

基于上述发明内容，提供了一种使用Netflow数据和DNS解析数据进行互联网业务流量深度分析的新方案，即先采集网络设备的NetFlow统计流量数据，以及还采集DNS日志数据、SNMP数据、BGP数据、IP基因数据、DNS解析数据、互联网数据和应用特征库，然后对采集所得数据进行交叉关联，并根据交叉关联结果，在Netflow互联网业务流量流向分析的基础上，叠加DNS解析数据分析，以及还结合所述互联网数据和所述应用特征库，通过多维度分析实现应用层面的业务流量分析，最后对业务流量分析所得结果进行动态展示和/或交互，如此可实现业务深度分析全自动化，从传统人工分析一次需要5个工作日，提升至系统分析一次仅需2小时，极大提升分析效率、降低业务可视化人工成本和投资成本。

在一个可能的设计中，所述多维度分析包括有对基于所述采集所得数据获取的多维度域名流量记录进行域名频率统计分析、应用特征分析和/或CDN业务组成分析。

在一个可能的设计中，所述域名频率统计分析用于确定网络流量中最常出现的域名，包括有如下具体步骤：先从DNS缓存日志中提取域名数据，然后对获取的数据进行清洗和预处理，以便去除无关数据、重复的域名和不完整的记录；然后再统计每个域名在日志中出现的次数，以此确定其出现频率；最后根据域名的出现频率，选择出现最频繁的域名。

在一个可能的设计中，所述应用特征分析用于确定哪些域名与特定应用相关联，并具体包括有如下步骤：先将域名数据与应用特征库中的应用信息进行关联；然后对关联的域名数据进行清洗和分类，以确定哪些域名与占用带宽较大的应用相关；最后通过识别互联网大厂和主流短视频APP的应用，有效定位主要的流量来源。

在一个可能的设计中，所述CDN业务组成分析用于分析CDN服务的应用组成和客户组成，以及识别热门应用，并具体包括有如下步骤：先确定CDN服务下的应用组成，即哪些应用使用了CDN来提供服务；然后分析使用CDN服务的客户组成，以确定哪些客户使用了CDN来分发其内容；最后通过流量关联分析，识别CDN服务下的热门应用。

在一个可能的设计中，所述多维度分析还包括有对基于所述采集所得数据获取的多维度域名流量记录进行动态定制策略分析、策略实施以及效果跟踪和分析，其中，所述动态定制策略分析是指根据多种因素动态创建和调整优化策略，所述多种因素包括省/市/区内用户和省/市/区外流量，所得策略是基于对流量类型的识别，以便为每种类型制定不同的策略；所述策略实施是指将动态定制的策略应用到所述网络设备上；所述效果跟踪和分析是指使用实时监测工具来跟踪流量分布和性能，以监测策略的实施效果。

在一个可能的设计中，当所述业务流量分析包括有外省/市/区覆盖本省/市/区流量流向分析时，所述外省/市/区覆盖本省/市/区流量流向分析用于根据源IP、目标IP、流量和IP所属区域分析流量覆盖情况，并以区域为维度分析展示本省/市/区覆盖外省/市/区以及外省/市/区覆盖本省/市/区的情况；

和/或，当所述业务流量分析包括有IDC客户流量流向分析时，所述IDC客户流量流向分析用于获取TOPN IDC客户流量流向及趋势和外省/市/区覆盖本省/市/区流量分布及趋势，以便精确掌握省/市/区内用户访问省/市/区外资源情况；

和/或，当所述业务流量分析包括有热门应用流量趋势分析时，所述热门应用流量趋势分析用于洞察热点应用内容及流量情况，以便及时了解应用来源与受众网络分布；

和/或，当所述业务流量分析包括有重点客户能力画像与深度分析时，所述重点客户能力画像与深度分析用于掌握IDC重点客户的应用内容、迁移轨迹和规律，以便发掘客户需求；

和/或，当所述业务流量分析包括有重点客户流失风险评估分析时，所述重点客户流失风险评估分析用于通过长期的采集及分析，获悉客户网络属性规律，以便在应用数据环比的过程中，可针对客户的服务内容的变化、流量的变化以及终端用户群的变化，分析变化的原因，评估客户流失风险。

第二方面，提供了一种多维度互联网业务流量深度分析装置，包括有依次通信连接的数据采集模块、数据分析模块和数据展示模块；

所述数据采集模块，用于采集网络设备的NetFlow统计流量数据，以及还采集DNS日志数据、SNMP数据、BGP数据、IP基因数据、DNS解析数据、互联网数据和应用特征库，并将采集所得数据统一入库，其中，所述NetFlow统计流量数据包含有目标端口号、开始时间、结束时间、目标IP、平均流速、总计流量和总计比例，所述DNS日志数据包含有域名、开始时间、结束时间和解析次数，所述SNMP数据包含有端口号和路由器标识，所述BGP数据包含有路由表、AS号和省/市/区，所述IP基因数据包含有省/市/区、IP和客户名称，所述DNS解析数据包含有域名、解析时间、A记录和CDN域名，所述互联网数据包含有CDN域名和CDN厂商标识，所述应用特征库包含有域名、应用名称和应用客户标识；

所述数据分析模块，用于对所述采集所得数据进行交叉关联，并根据交叉关联结果，在Netflow互联网业务流量流向分析的基础上，叠加DNS解析数据分析，以及还结合所述互联网数据和所述应用特征库，通过多维度分析实现应用层面的业务流量分析，其中，所述交叉关联包括对所述NetFlow统计流量数据中的目标端口号与所述BGP数据中的路由表进行关联、对所述BGP数据中的路由表与所述SNMP数据中的端口号进行关联、对所述NetFlow统计流量数据中的开始时间和结束时间与所述DNS日志数据中的开始时间和结束时间进行关联、对所述DNS日志数据中的开始时间和结束时间与所述DNS解析数据中的解析时间进行关联、对所述DNS解析数据中的域名与所述应用特征库中的域名进行关联、对所述应用特征库中的域名与所述DNS解析数据中的域名进行关联、对所述IP基因数据中的IP与所述NetFlow统计流量数据中的目标IP进行关联以及对所述DNS解析数据中的A记录与所述IP基因数据中的IP进行关联，所述业务流量分析包括外省/市/区覆盖本省/市/区流量流向分析、IDC客户流量流向分析、热门应用流量趋势分析、重点客户能力画像与深度分析和/或重点客户流失风险评估分析；

所述数据展示模块，用于对业务流量分析所得结果进行动态展示和/或交互。

第三方面，本发明提供了一种计算机设备，包括有依次通信连接的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如第一方面或第一方面中任意可能设计所述的多维度互联网业务流量深度分析方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面或第一方面中任意可能设计所述的多维度互联网业务流量深度分析方法。

第五方面，本发明提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面或第一方面中任意可能设计所述的多维度互联网业务流量深度分析方法。

上述方案的有益效果：

(1)本发明创造性提供了一种使用Netflow数据和DNS解析数据进行互联网业务流量深度分析的新方案，即先采集网络设备的NetFlow统计流量数据，以及还采集DNS日志数据、SNMP数据、BGP数据、IP基因数据、DNS解析数据、互联网数据和应用特征库，然后对采集所得数据进行交叉关联，并根据交叉关联结果，在Netflow互联网业务流量流向分析的基础上，叠加DNS解析数据分析，以及还结合所述互联网数据和所述应用特征库，通过多维度分析实现应用层面的业务流量分析，最后对业务流量分析所得结果进行动态展示和/或交互，如此可实现业务深度分析全自动化，从传统人工分析一次需要5个工作日，提升至系统分析一次仅需2小时，极大提升分析效率、降低业务可视化人工成本和投资成本；

(2)通过开创性地引入DNS数据源，可以获取热门应用的主要域名清单，以便结合知识库，使得最终流量识别度高达80％以上；

(3)通过定制接口，可实现动态获取流量数据源、动态定制优化策略及效果跟踪分析，且具备灵活扩展能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的多维度互联网业务流量深度分析方法的流程示意图。

图2为本申请实施例提供的在多维度互联网业务流量深度分析方法中各步骤的细节示例图。

图3为本申请实施例提供的在多维度互联网业务流量深度分析方法中外省/市/区覆盖本省/市/区流量流向分析结果的示例图。

图4为本申请实施例提供的在多维度互联网业务流量深度分析方法中IDC客户流量流向分析结果的示例图。

图5为本申请实施例提供的在多维度互联网业务流量深度分析方法中热门应用流量趋势分析结果的示例图。

图6为本申请实施例提供的在多维度互联网业务流量深度分析方法中重点客户能力画像与深度分析结果的示例图。

图7为本申请实施例提供的在多维度互联网业务流量深度分析方法中重点客户流失风险评估结果的第一种示例图。

图8为本申请实施例提供的在多维度互联网业务流量深度分析方法中重点客户流失风险评估结果的第二种示例图。

图9为本申请实施例提供的多维度互联网业务流量深度分析装置的结构示意图。

图10为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍，显而易见地，下面关于附图结构的描述仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。

应当理解，尽管本文可能使用术语第一和第二等等来描述各种对象，但是这些对象不应当受到这些术语的限制。这些术语仅用于区分一个对象和另一个对象。例如可以将第一对象称作第二对象,并且类似地可以将第二对象称作第一对象，同时不脱离本发明的示例实施例的范围。

应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A、单独存在B或者同时存在A和B等三种情况；又例如，A、B和/或C，可以表示存在A、B和C中的任意一种或他们的任意组合；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A或者同时存在A和B等两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。

实施例：

如图1～8所示，本实施例第一方面提供的所述多维度互联网业务流量深度分析方法，可以但不限于由具有一定计算资源的计算机设备执行，例如由平台服务器、个人计算机(Personal Computer，PC，指一种大小、价格和性能适用于个人使用的多用途计算机；台式机、笔记本电脑到小型笔记本电脑和平板电脑以及超级本等都属于个人计算机)、智能手机、个人数字助理(Personal Digital Assistant，PDA)或可穿戴设备等电子设备执行。如图1所示，所述多维度互联网业务流量深度分析方法，可以但不限于包括有如下步骤S1～S3。

S1.采集网络设备的NetFlow统计流量数据，以及还采集DNS日志数据、SNMP(Simple Network Management Protocol,简单网络管理协议)数据、BGP(Border GatewayProtocol,即边界网关协议)数据、IP(Internet Protocol，网际互连协议)基因数据、DNS解析数据、互联网数据和应用特征库，并将采集所得数据统一入库，其中，所述NetFlow统计流量数据包含但不限于有目标端口号、开始时间、结束时间、目标IP、平均流速、总计流量和总计比例等，所述DNS日志数据包含但不限于有域名、开始时间、结束时间和解析次数等，所述SNMP数据包含但不限于有端口号和路由器标识等，所述BGP数据包含但不限于有路由表、AS(Autonomous System，自治系统)号和省/市/区等，所述IP基因数据包含但不限于有省/市/区、IP和客户名称等，所述DNS解析数据包含但不限于有域名、解析时间、A记录(即Address记录，是指用来指定主机名或域名对应的IP地址记录)和CDN(Content Delivery Network，即内容分发网络)域名等，所述互联网数据包含但不限于有CDN域名和CDN厂商标识等，所述应用特征库包含但不限于有域名、应用名称和应用客户标识等。

在所述步骤S1中，所述网络设备可以但不限于包括有路由器、交换机和/或防火墙设备等。所述NetFlow统计流量数据为现有数据，可具体但不限于按照如下方式进行数据采集与配置：在网络设备(如路由器、交换机或防火墙等)上启用NetFlow功能，并配置NetFlow数据采集；部署专门的NetFlow采集机，用于接收、存储和分析NetFlow数据；利用SparkStreaming(其是对核心Spark API的一个扩展，它能够实现对实时数据流的流式处理，并具有很好的可扩展性、高吞吐量和容错性)工具进行大数据流式采集和处理，确保数据的实时性。所述NetFlow统计流量数据用于按照如下方式参于后续的数据处理与分析：(1)关联NetFlow统计流量数据与BGP数据，即在NetFlow统计流量数据中，通过匹配源和目标IP地址，确定数据流是从哪个IP到哪个IP；(2)利用BGP数据中的路由表信息，查找源IP和目标IP所属的AS号，进一步确定数据流是从哪个AS到哪个AS；(3)根据AS号反查详细信息，如AS的名称及所在地区等，确定数据流的具体来源和目标省/市/区及地区等。所述NetFlow统计流量数据所涉及的数据汇总与指标计算有：(1)结合NetFlow统计流量数据中的流量信息，以目标IP维度进行流量数据的汇总和分析；(2)计算流量数据的峰值流量、平均流量、总计流量和流量占比等关键指标；(3)通过对目标IP流量的TOP1000分析，获取占据80％流量的主要目标IP数据结果，以揭示流量趋势和核心影响。此外，经过数据处理和分析后的NetFlow统计流量数据可存储在大数据存储系统中，以备后续查询和分析使用，进而可为深入了解网络行为及性能优化等提供重要依据。

在所述步骤S1中，所述DNS日志数据也为现有数据，可具体但不限于按照如下方式进行数据获取：通过解析DNS缓存日志(其通常由DNS服务器生成，其中包含了DNS查询请求和响应的记录，这些日志通常以文本文件形式存储)，获取分析时间段内的TOP1000万个域名(即从日志中提取DNS查询请求的域名，并统计了它们的请求频率；然后根据频率排名，选择TOP100万个最常见的域名)；所述DNS缓存日志可通过如下方式进行获取：主要通过访问DNS服务器的系统，并在其配置中指定日志文件的路径和格式(这样做的目的是确保日志记录在分析时间段内被保存)；所述分析时间段可通过如下方式进行选择：由于DNS日志通常按日期和时间记录，因此确定了分析的时间段，并选择了该时间段内的日志进行解析。所述DNS日志数据所涉及的数据清理和分类有：在获取了原始日志数据后，先剔除那些没有A记录的域名(因这通常表示域名无效或未被成功解析)；然后剔除NTP域名(因这些域名通常与网络时间协议有关，但并不代表用户的实际流量)；再剔除DNS分发、授权服务器和根域名的记录(因为这些记录通常不包含有关域名的有效信息)；最后剔除ARP分发的记录(因为这与网络硬件地址解析协议有关，通常不包含有关域名的信息)。所述DNS缓存日志用于按照如下方式参于后续的数据关联：在完成数据清理后，将DNS日志数据与应用特征库中的域名信息进行了关联；由于应用特征库包含了应用和域名的关联信息，因此通过使用这个库，可以将DNS日志中的域名与具体应用或客户关联起来；前述关联操作是指编写特定的脚本或使用数据库查询，将DNS日志中的域名与应用特征库中的数据进行关联，这样就可以获得可识别的客户和域名信息，以便后续进行分析和存储。此外，经过清理和关联的数据可被存储在大数据存储系统(如HDFS和HBASE，这些系统允许有效地存储和处理大量的DNS日志数据)中，以备后续的数据处理和分析。

在所述步骤S1中，所述SNMP数据也为现有数据，可具体但不限于按照如下方式进行数据获取：利用SNMP(Simple Network Management Protocol)技术中的定时任务，定期地从路由器和交换机等网络设备中提取所有端口的相关信息：端口状态、端口速率、流量统计、VLAN(Virtual Local Area Network，虚拟局域网)信息、端口描述和端口索引等，其中可借助VLAN和端口描述，识别端口的上下联设备，并最终追溯到相应的IDC客户。此外，可将采集获取的SNMP数据储存在大数据存储系统中(这里可采用专门的数据存储技术，包括Hadoop HDFS和Hbase存储解决方案)，以备后续分析之需。

在所述步骤S1中，所述BGP数据也为现有数据，可具体但不限于按照如下方式进行数据获取：通过获取BGP(边界网关协议)的路由表数据，定时任务用于提取所有出口的AS号和路由表等信息，其中，BGP路由表数据包含了丰富的信息，例如AS号(Autonomous SystemNumber)和路由表等，AS号用于标识自治系统(AS)，每个AS都有一个独特的AS号，它用于在BGP路由中标识和识别路由器和网络，而路由表则包含了与BGP会话相关的路由信息。所述BGP数据用于按照如下方式参于后续的数据关联与端口索引：在SNMP数据中，每个端口通常都有一个唯一的接口索引，为了将SNMP采集的数据与BGP数据进行关联，可将这个接口索引与BGP数据中的接口索引进行匹配，进而可将SNMP采集的端口信息与BGP信息整合到一起；而一旦关联字段匹配成功，就将SNMP采集的端口信息和BGP信息合并到一个数据结构中，以便创建一个包含有端口状态、流量信息、AS号和路由信息的综合数据集。此外，由于合并所得的综合数据集提供了深入了解网络行为和性能的宝贵资源，有助于更好地管理和优化网络，因此需要被存储在大数据存储系统中，以供后续分析使用。

在所述步骤S1中，所述IP基因数据也为现有数据，可具体但不限于按照如下方式进行数据获取：通过访问IP备案库，获取到全国各地各运营商的客户与IP地址之间的关联数据。所述IP基因数据用于按照如下方式参于后续的数据合并和分析：结合NetFlow数据，可以进一步获得每个客户的流量数据，即利用NetFlow数据中的IP地址信息，与IP基因数据进行匹配，从而获得每个客户的流量数据；通过分析客户的流量数据，可以了解客户的网络行为和流量趋势，为网络优化和安全防护等提供重要依据。此外，获取的IP基因数据以及处理后的IP基因数据和流量数据(这些数据将为业务决策提供宝贵的支持和参考)均可存储在大数据存储系统中，以便后续的数据分析和处理。

在所述步骤S1中，所述DNS解析数据也为现有数据，可具体但不限于按照如下方式进行数据获取：通过定时运行DNS解析指令，每小时获取全量的DNS解析数据，即设置一个定时任务，每小时运行一次DNS解析指令，这些指令可以使用dig和nslookup等工具来执行。所述DNS解析数据用于按照如下方式参于后续的数据清理和分析：对一定周期内的解析数据进行深入的分析，包括去重、剔除无效数据、获取CNAME信息以及进行后缀分析，最后汇总数据，将每小时获取的数据汇总成周期内的数据，以便后续的分析；具体的，去重数据是指在处理数据的过程中确保没有重复的解析记录，以避免重复计数(这主要通过使用HBASE的key唯一性约束来实现)；剔除空A记录数据是指筛选掉不包含A记录的解析数据(因为这些数据通常不包含有效的域名信息，这主要通过设置规则来检查解析数据中是否存在A记录来实现)；获取CNAME信息并分析后缀是指识别CNAME记录并提取其后缀(通过后缀，可以确定域名是否被CDN服务托管，这主要使用正则表达式来提取CNAME后缀)。所述DNS解析数据还用于按照如下方式参于后续的数据关联：通过CNAME后缀关联互联网数据的主域名和CDN信息，其中，后缀关联是指使用CNAME后缀信息将解析数据中的域名与CDN信息关联起来，这样即可建立一个域名-CDN的映射表。此外，每小时获取的DNS解析数据以及处理后的DNS解析数据可存储在大数据存储系统(包括HDFS和HBASE)中，以便长期存储处理后的DNS解析数据，进而可以随时进行查询和分析，以支持业务需求。

在所述步骤S1中，所述互联网数据也为现有数据，可具体但不限于按照如下方式来获取互联网的主要CDN(内容分发网络)提供商及其CDN后缀域名：(1)域名分析工具，即使用域名分析工具，如“whois”、“nslookup”、“dig”以及在线域名查询工具，定期查询特定域名的注册信息，通过这些工具，可以判断一个域名是否属于CDN提供商；(2)公开列表和数据库，即利用一些公开的列表和数据库记录了知名的CDN提供商及其域名后缀，这些资源通常由行业专家或第三方机构维护和更新；(3)互联网调查和报告，即参考一些互联网研究机构和公司发布的市场份额报告和CDN提供商的调查报告,这些报告通常会列出主要的CDN提供商及其相关信息；(4)CDN提供商的官方网站，即访问CDN提供商的官方网站，通常会列出其CDN服务的域名后缀和服务详情,通过官方网站，可以获取最新和准确的CDN信息；(5)在线社区和论坛，即参与在线技术社区、CDN用户论坛或网络安全论坛，向专家或用户寻求有关CDN提供商的信息和建议,这些社区和论坛是获取CDN行业动态和经验的良好渠道；(6)DNS查询,即利用DNS查询工具，查看特定网站的DNS记录，通常，CDN提供商的域名后缀可以在这些记录中找到，通过分析DNS记录，可以确定网站的CDN提供商。另外，CDN提供商会不断变化并新增域名后缀，因此需要持续更新和扩展收集的信息，为确保数据的准确性和完整性，采取定时更新的方式，通过多种途径获取最新信息。一旦获得CDN提供商的域名后缀，将建立“CDN商-CDN后缀”的映射表以备后续使用。

在所述步骤S1中，所述应用特征库用于作为涵盖海量应用、网站以及CDN提供商等互联网信息的“客户-应用-域名”知识库，可通过自主研发的应用爬虫技术来对市面上的各类APP应用、视频网站和/或门户网站等进行深入的递归抓取。所述应用爬虫技术具体实现如下：(1)爬虫框架：使用Python中的强大开源爬虫框架Scrapy来实现网页的爬取和数据提取；(2)制定爬取策略：首先，确定要抓取的目标主要是产生流量的大厂和热门网站和/或APP，包括视频网站、短视频APP、门户网站和/或热门应用等；然后，针对这些特定的APP应用、视频网站和/或门户网站，确定要抓取的数据为域名；(3)爬取网页：编写爬虫代码以访问目标网站或应用，下载网页或应用内容，使用HTTP请求库(Requests)；然后，处理网页或应用内容，提取有关应用或内容的信息，使用HTML解析器(Beautiful Soup)来提取结构化数据；(4)递归深入抓取：为了更深入地抓取链接，爬虫可以递归遍历网页或应用中的链接，并进一步爬取相关页面，为避免陷入无限循环，可设置一些如下的递归规则：(4a)最大递归深度，即限制递归深度，确保不会无限制地深入，例如，最大深度设置为5；(4b)URL去重,即在将URL添加到抓取队列之前，检查是否已经抓取过，如果一个URL已经被处理过，就不再重复抓取；(4c)限制域名,即只允许抓取特定域名或子域名，确保不会跳出目标网站的范围；(4d)排除特定链接,即排除一些特定链接或URL模式，例如，排除登录、注册或购物车等页面；(4e)设置时间限制,即除了上述规则外，还设置时间限制，例如，每次爬取的时间不超过一小时；(4f)自动处理异常,即置错误处理规则，以处理爬虫可能遇到的异常情况；(5)还使用广度优先算法来管理爬取队列；通过前述步骤，即可获取并记录所有域名，建立“客户-应用-域名”的特征库，这样就可以根据客户使用的应用和访问的域名进行进一步的数据分析和挖掘。所述应用特征库用于按照如下方式来提取域名信息：在每个页面上，提取出所有的域名信息，即用正则表达式查找页面中的URL，然后从URL中提取域名部分，并在将提取的域名添加到列表或数据库之前，进行去重处理。所述应用特征库的自动化爬取任务可设置如下：将爬虫脚本设置为定时任务，以定期更新数据，例如使用任务调度工具Cron来安排定时运行。所述应用特征库的应对反爬虫措施可通过如下方式来实现：考虑许多网站会采取反爬虫措施，故而针对这种情况，可采取一些措施来避免被阻止或限制，例如设置合适的User-Agent头、使用代理IP、处理验证码和限制爬取速度等。此外，可将抓取到的数据存储到大数据环境中，包括HDFS和HBASE数据库中，这样可以进行后续的分析和查询。

在所述步骤S1中，不同数据的处理流程可总结如下：(1)NetFlow数据分析：采集、处理和分析NetFlow数据，包括匹配源和目标IP、查找源IP和目标IP所属的AS号，分析流量信息，并存储处理后的数据；(2)DNS日志数据处理：通过DNS解析缓存日志获取一段时间内的TOP1000万域名，进行数据清理和分类，并与应用特征库关联获得客户和域名信息；(3)SNMP数据采集：通过SNMP定期从网络设备上获取全端口信息，如状态、速率、流量统计和VLAN信息等，并存储在大数据存储系统中；(4)BGP数据获取：通过BGP定期获取所有出口的AS号和路由表信息，通过匹配SNMP数据中的端口索引，将端口信息和BGP信息合并得到BGP与SNMP综合数据集，并存储以供分析；(5)IP基因数据获取：获得全国各地各运营商的客户与IP的关系数据，结合Netflow数据获取客户流量数据；(6)DNS解析数据处理：通过DNS解析指令获取全量DNS解析数据，清理和分析数据，提取CNAME并关联互联网数据的主域名和CDN信息；(7)互联网数据分析：通过工具、公开列表和数据库，以及社区和论坛等方式获取主要的CDN提供商和其域名后缀；(8)应用特征库构建：利用爬虫技术对APP应用、视频网站等进行深层抓取，提取域名信息并存储。前述数据处理流程可通过不同业务需要，生成多维度的客户流量记录，以实现关联分析，生成统计分析报表，为后续业务决策提供参考。这一过程整合了各类型数据源和多种技术，以支持深层次的业务分析和决策制定。

S2.对所述采集所得数据进行交叉关联，并根据交叉关联结果，在Netflow互联网业务流量流向分析的基础上，叠加DNS解析数据分析，以及还结合所述互联网数据和所述应用特征库，通过多维度分析实现应用层面的业务流量分析，其中，所述交叉关联包括但不限于有对所述NetFlow统计流量数据中的目标端口号与所述BGP数据中的路由表进行关联、对所述BGP数据中的路由表与所述SNMP数据中的端口号进行关联、对所述NetFlow统计流量数据中的开始时间和结束时间与所述DNS日志数据中的开始时间和结束时间进行关联、对所述DNS日志数据中的开始时间和结束时间与所述DNS解析数据中的解析时间进行关联、对所述DNS解析数据中的域名与所述应用特征库中的域名进行关联、对所述应用特征库中的域名与所述DNS解析数据中的域名进行关联、对所述IP基因数据中的IP与所述NetFlow统计流量数据中的目标IP进行关联以及对所述DNS解析数据中的A记录与所述IP基因数据中的IP进行关联，所述业务流量分析包括外省/市/区覆盖本省/市/区流量流向分析、IDC(Internet Data Center，互联网数据中心)客户流量流向分析、热门应用流量趋势分析、重点客户能力画像与深度分析和/或重点客户流失风险评估分析。

在所述步骤S2中，所述交叉关联的具体细节可如图2所示。所述Netflow互联网业务流量流向分析和所述DNS解析数据分析均为现有分析手段，可以通过常规手段实现所述叠加。所述多维度分析可自定义，并包括但不限于有从区域、应用和客户等的维度进行分析，具体的，如图2所示，具体的业务分析清单有：省/市/区、开始时间、结束时间、目标IP、客户名称、平均流速、总计流量、总计比例、应用名称、应用客户名称和CND厂商标识等。此外，在所述多维分析的具体过程中，所述互联网数据中的CDN域名以及所述DNS解析数据中的CDN域名可用于溯源CDN，所述应用特征库以及所述DNS日志数据中的域名可用于识别热门应用，所述IP基因数据中的IP和客户名称以及所述NetFlow统计流量数据中的目标IP可用于溯源客户。

在所述步骤S2中，优选的，所述多维度分析包括有对基于所述采集所得数据获取的多维度域名流量记录进行域名频率统计分析、应用特征分析和/或CDN业务组成分析。所述域名频率统计分析用于确定网络流量中最常出现的域名，包括有如下具体步骤：先从DNS缓存日志(这些日志包含大量的DNS查询请求和响应)中提取域名数据，然后对获取的数据进行清洗和预处理，以便去除无关数据、重复的域名和不完整的记录；然后再统计每个域名在日志中出现的次数，以此确定其出现频率；最后根据域名的出现频率，选择出现最频繁的域名，通常选取TOP 1000W的域名作为热门域名，因为它们通常包含网络流量中的绝大部分域名请求。所述应用特征分析用于确定哪些域名与特定应用相关联，并具体包括有如下步骤：先将域名数据与应用特征库中的应用信息进行关联(这通过匹配域名和已知应用的特征实现)；然后对关联的域名数据进行清洗和分类，以确定哪些域名与视频和/或图片等占用带宽较大的应用相关；最后通过识别互联网大厂和主流短视频APP等应用，有效定位主要的流量来源(这通过识别域名与应用之间的关联实现)。所述CDN业务组成分析用于分析CDN服务的应用组成和客户组成，以及识别热门应用，并具体包括有如下步骤：先确定CDN服务下的应用组成，即哪些应用使用了CDN来提供服务(这可以通过CDN提供商提供的数据或流量分析实现)；然后分析使用CDN服务的客户组成，以确定哪些客户使用了CDN来分发其内容(这可以通过CDN提供商提供的客户信息或流量数据实现)；最后通过流量关联分析，识别CDN服务下的热门应用(这通过分析流量数据和域名关联实现)。如此本实施例还提供了一种域名与流量分布关系的深度分析算法，并通过开创性地引入DNS数据源，可获取热门应用的主要域名清单，结合知识库，最终流量识别度高达80％以上。

在所述步骤S2中，优选的，所述多维度分析还包括有对基于所述采集所得数据获取的多维度域名流量记录进行动态定制策略分析、策略实施以及效果跟踪和分析，其中，所述动态定制策略分析是指根据多种因素动态创建和调整优化策略，这些因素包括省/市/区内用户和省/市/区外流量等，这些策略是基于对流量类型的识别，例如视频、文件下载和/或网页浏览等，以便为每种类型制定不同的策略(例如，对于流量较大的视频流量，通过应用与客户定位具体的IP，并针对这些IP制定控制策略)；所述策略实施是指将动态定制的策略应用到网络设备上，包括路由器和交换机(这是通过自动化脚本来实现的，该脚本通过网络配置来实施策略)；所述效果跟踪和分析是指使用实时监测工具来跟踪流量分布和性能，以监测策略的实施效果。另外，还可使用域名与流量分布关系的深度分析算法来进一步分析策略实施后的效果，并根据分析结果进行策略的迭代优化。如此本实施例还提供了一种省/市/区内用户省/市/区外流量智能优化策略与解决方案，可通过定制接口实现动态获取流量数据源、动态定制优化策略及效果跟踪分析，且具备灵活扩展能力。

在所述步骤S2中，所述外省/市/区覆盖本省/市/区流量流向分析，用于根据源IP、目标IP、流量和IP所属区域分析流量覆盖情况，并以区域为维度分析展示本省/市/区覆盖外省/市/区以及外省/市/区覆盖本省/市/区的情况，具体分析结果可举例如图3所示。

在所述步骤S2中，所述IDC客户流量流向分析，用于获取TOPN(即前N个)IDC客户流量流向及趋势和外省/市/区覆盖本省/市/区流量分布及趋势，以便精确掌握省/市/区内用户访问省/市/区外资源情况。如此可通过长期跟踪分析，获悉客户业务调度规律，预测客户业务需求，评估客户流失风险，针对性部署优化策略，创造业务机会，为商业合作谈判提供有力数据支撑，大大提升互联网资源本省/市/区化率，同时对本省/市/区IDC网络建设和业务投放具有一定的指导意义。所述IDC客户流量流向分析的具体分析结果可举例如图4所示。

在所述步骤S2中，所述热门应用流量趋势分析，用于洞察热点应用内容及流量情况，以便及时了解应用来源与受众网络分布。如此可引导研发部门的应用开发，提供增值应用和服务。所述热门应用流量趋势分析的具体分析结果可举例如图5所示。

在所述步骤S2中，所述重点客户能力画像与深度分析，用于掌握IDC重点客户的应用内容、迁移轨迹和规律，以便发掘客户需求。如此可面向客户需求提供有针对性的服务，支撑合约谈判。具体来说，可以客户为维度，分析省/市/区内用户访问省/市/区外资源，可针对客户的服务内容的变化，流量的变化，终端用户群的变化，分析变化的原因，评估客户流失风险，以便及早沟通；另外还可以客户为维度，分析外省/市/区用户访问本省/市/区资源，深挖客户需求，提升客户体验，发展新的客户，增加业务营收。所述重点客户能力画像与深度分析的具体分析结果可举例如图6所示。

在所述步骤S2中，所述重点客户流失风险评估分析，用于通过长期的采集及分析，获悉客户网络属性规律，以便在应用数据环比的过程中，可针对客户的服务内容的变化、流量的变化以及终端用户群的变化，分析变化的原因，评估客户流失风险。如此可在有客户流失风险时及早进行沟通挽留。所述重点客户流失风险评估分析的具体分析结果可举例如图7和8所示。

S3.对业务流量分析所得结果进行动态展示和/或交互。

在所述步骤S3中，所述业务流量分析所得结果即为所述外省/市/区覆盖本省/市/区流量流向分析、所述IDC客户流量流向分析、所述热门应用流量趋势分析、所述重点客户能力画像与深度分析和/或所述重点客户流失风险评估分析等的定制化及可视化的结果，举例可如图3～8所示。

由此基于前述步骤S1～S3所描述的多维度互联网业务流量深度分析方法，提供了一种使用Netflow数据和DNS解析数据进行互联网业务流量深度分析的新方案，即先采集网络设备的NetFlow统计流量数据，以及还采集DNS日志数据、SNMP数据、BGP数据、IP基因数据、DNS解析数据、互联网数据和应用特征库，然后对采集所得数据进行交叉关联，并根据交叉关联结果，在Netflow互联网业务流量流向分析的基础上，叠加DNS解析数据分析，以及还结合所述互联网数据和所述应用特征库，通过多维度分析实现应用层面的业务流量分析，最后对业务流量分析所得结果进行动态展示和/或交互，如此可实现业务深度分析全自动化，从传统人工分析一次需要5个工作日，提升至系统分析一次仅需2小时，极大提升分析效率、降低业务可视化人工成本和投资成本。

如图9所示，本实施例第二方面提供了一种实现第一方面所述的多维度互联网业务流量深度分析方法的虚拟装置，包括有依次通信连接的数据采集模块、数据分析模块和数据展示模块；

本实施例第二方面提供的前述装置的工作过程、工作细节和技术效果，可以参见第一方面所述的多维度互联网业务流量深度分析方法，于此不再赘述。

如图10所示，本实施例第三方面提供了一种执行如第一方面所述的多维度互联网业务流量深度分析方法的计算机设备，包括有依次通信连接的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如第一方面所述的多维度互联网业务流量深度分析方法。具体举例的，所述存储器可以但不限于包括随机存取存储器(Random-Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、闪存(Flash Memory)、先进先出存储器(First Input FirstOutput，FIFO)和/或先进后出存储器(First Input Last Output，FILO)等等；所述处理器可以但不限于采用型号为STM32F105系列的微处理器。此外，所述计算机设备还可以但不限于包括有电源模块、显示屏和其它必要的部件。

本实施例第三方面提供的前述计算机设备的工作过程、工作细节和技术效果，可以参见第一方面所述的多维度互联网业务流量深度分析方法，于此不再赘述。

本实施例第四方面提供了一种存储包含如第一方面所述的多维度互联网业务流量深度分析方法的指令的计算机可读存储介质，即所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面所述的多维度互联网业务流量深度分析方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等计算机可读存储介质，所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。

本实施例第四方面提供的前述计算机可读存储介质的工作过程、工作细节和技术效果，可以参见如第一方面所述的多维度互联网业务流量深度分析方法，于此不再赘述。

本实施例第五方面提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面所述的多维度互联网业务流量深度分析方法。其中，所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多维度互联网业务流量深度分析方法，其特征在于，包括：

对业务流量分析所得结果进行动态展示和/或交互。

2.根据权利要求1所述的多维度互联网业务流量深度分析方法，其特征在于，所述多维度分析包括有对基于所述采集所得数据获取的多维度域名流量记录进行域名频率统计分析、应用特征分析和/或CDN业务组成分析。

3.根据权利要求2所述的多维度互联网业务流量深度分析方法，其特征在于，所述域名频率统计分析用于确定网络流量中最常出现的域名，包括有如下具体步骤：先从DNS缓存日志中提取域名数据，然后对获取的数据进行清洗和预处理，以便去除无关数据、重复的域名和不完整的记录；然后再统计每个域名在日志中出现的次数，以此确定其出现频率；最后根据域名的出现频率，选择出现最频繁的域名。

4.根据权利要求2所述的多维度互联网业务流量深度分析方法，其特征在于，所述应用特征分析用于确定哪些域名与特定应用相关联，并具体包括有如下步骤：先将域名数据与应用特征库中的应用信息进行关联；然后对关联的域名数据进行清洗和分类，以确定哪些域名与占用带宽较大的应用相关；最后通过识别互联网大厂和主流短视频APP的应用，有效定位主要的流量来源。

5.根据权利要求2所述的多维度互联网业务流量深度分析方法，其特征在于，所述CDN业务组成分析用于分析CDN服务的应用组成和客户组成，以及识别热门应用，并具体包括有如下步骤：先确定CDN服务下的应用组成，即哪些应用使用了CDN来提供服务；然后分析使用CDN服务的客户组成，以确定哪些客户使用了CDN来分发其内容；最后通过流量关联分析，识别CDN服务下的热门应用。

6.根据权利要求2所述的多维度互联网业务流量深度分析方法，其特征在于，所述多维度分析还包括有对基于所述采集所得数据获取的多维度域名流量记录进行动态定制策略分析、策略实施以及效果跟踪和分析，其中，所述动态定制策略分析是指根据多种因素动态创建和调整优化策略，所述多种因素包括省/市/区内用户和省/市/区外流量，所得策略是基于对流量类型的识别，以便为每种类型制定不同的策略；所述策略实施是指将动态定制的策略应用到所述网络设备上；所述效果跟踪和分析是指使用实时监测工具来跟踪流量分布和性能，以监测策略的实施效果。

7.根据权利要求1所述的多维度互联网业务流量深度分析方法，其特征在于，当所述业务流量分析包括有外省/市/区覆盖本省/市/区流量流向分析时，所述外省/市/区覆盖本省/市/区流量流向分析用于根据源IP、目标IP、流量和IP所属区域分析流量覆盖情况，并以区域为维度分析展示本省/市/区覆盖外省/市/区以及外省/市/区覆盖本省/市/区的情况；

8.一种多维度互联网业务流量深度分析装置，其特征在于，包括有依次通信连接的数据采集模块、数据分析模块和数据展示模块；

9.一种计算机设备，其特征在于，包括有依次通信连接的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如权利要求1～7中任意一项所述的多维度互联网业务流量深度分析方法。

10.一种计算机可读存储介质，其特征在于,所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如权利要求1～7中任意一项所述的多维度互联网业务流量深度分析方法。