CN103595576B - 一种基于内容提供商标识的互联口icp流量统计系统及方法 - Google Patents

一种基于内容提供商标识的互联口icp流量统计系统及方法 Download PDF

Info

Publication number
CN103595576B
CN103595576B CN201310529468.5A CN201310529468A CN103595576B CN 103595576 B CN103595576 B CN 103595576B CN 201310529468 A CN201310529468 A CN 201310529468A CN 103595576 B CN103595576 B CN 103595576B
Authority
CN
China
Prior art keywords
server
icp
address
message information
data acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310529468.5A
Other languages
English (en)
Other versions
CN103595576A (zh
Inventor
黄友俊
李星
吴建平
李威
王菁菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CERNET Corp
Original Assignee
CERNET Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CERNET Corp filed Critical CERNET Corp
Priority to CN201310529468.5A priority Critical patent/CN103595576B/zh
Publication of CN103595576A publication Critical patent/CN103595576A/zh
Application granted granted Critical
Publication of CN103595576B publication Critical patent/CN103595576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于内容提供商标识的互联口ICP流量统计系统,该系统包括:分流设备,用于将接收到的镜像数据流转发给数据采集处理解析服务器;数据采集处理解析服务器,用于对镜像数据流进行筛选解析处理、提取报文信息,并将报文信息存储到IP地址存储关联服务器上;交换机与数据采集处理解析服务器、IP地址存储关联服务器、ICP分类分级服务器相连;IP地址存储关联服务器,用于将报文信息与IP地址对应的域名文件记录进行关联;ICP分类分级服务器,用于根据事先设定的策略对ICP进行分类分级。本发明还公开了一种相应的流量统计方法。本发明能够对大客户流量进行多维度高效的排名和统计。

Description

一种基于内容提供商标识的互联口ICP流量统计系统及方法
技术领域
本发明涉及网络行为监控与网络行为管理技术领域,更具体地,涉及一种基于运营商IP地址段内容提供商标识的互联口ICP流量统计系统及方法。
背景技术
计算机网络在过去十几年中经历了爆炸式的增长,随着互联网技术的迅猛发展,越来越多的用户频繁地使用网络中的资源,虽然网络带宽等资源也在不断增加,但与日益增长的用户数量比起来仍然不能满足用户的需求,网络拥塞问题逐渐暴露出来。
网络拥塞问题得到全世界的关注始于1986年10月,当时美国LBL到UC Berkeley网络由于发生严重的网络拥塞导致网络崩溃,使得数据吞吐量从32kbps跌落到40bps,至此以后,拥塞成为一个热点研究领域。
目前我国高校接入双路10G流量的带宽连接外网,但是大网常常出现拥堵情况,面对日益拥堵的网络,如果能够通过技术手段将占用带宽的运营商进行多维度排名统计,直观地显示拥堵资源,将教育网外运营商资源迁入教育网内,将可大大缓解网络拥堵,给高校以及其他单位带来更好的上网体验。
发明内容
为了解决上述问题,本发明提出一种基于内容提供商标识的互联口ICP流量统计系统及方法。本发明可以独立对互联口ICP流量进行分类统计,也可以根据一个运行商进行精准定位。
根据本发明的一方面,提出一种基于内容提供商标识的互联口ICP流量统计系统,该系统包括:分流设备、数据采集处理解析服务器、交换机、IP地址存储关联服务器和ICP分级分类服务器,其中:
所述分流设备用于将从外部网络所接收到的镜像数据流转发给所述数据采集处理解析服务器;
所述数据采集处理解析服务器用于接收经过所述分流设备收集的镜像数据流、对其进行筛选解析处理、从解析后得到的数据流中提取报文信息,并将所述报文信息存储到所述IP地址存储关联服务器上;
所述交换机与所述数据采集处理解析服务器、IP地址存储关联服务器、ICP分类分级服务器的配置管理网络接口相连,用于对数据采集处理解析服务器及运行其上的程序进行远程配置管理,提供数据采集处理解析服务器、IP地址存储关联服务器、ICP分级分类服务器之间的数据传输通道;
所述IP地址存储关联服务器与所述交换机相连,用于根据所接收到的报文信息,将所述报文信息与所述IP地址对应的域名文件记录进行关联,并将关联上的数据以记录格式按行存入存储文件;
所述ICP分类分级服务器与所述交换机相连,用于根据事先设定的策略,通过所述交换机访问所述IP地址关联存储服务器中的记录信息,对ICP进行分类分级。
根据本发明的另一方面,提出一种基于内容提供商标识的互联口ICP流量统计方法,该方法包括以下步骤:
步骤S1,获取流量包和数据包镜像数据流,并将所述镜像数据流发送给数据采集处理解析服务器;
步骤S2,所述数据采集处理解析服务器对所接收的镜像数据流进行筛选处理,然后将筛选处理后得到的镜像数据流进行解析,提取出报文信息,并将所述报文信息存储到IP地址存储关联服务器中;
步骤S3,IP地址存储关联服务器根据所述报文信息,将所述报文信息与C类地址所在的相应的域名段字典表进行关联对应,并将关联后得到的数据以记录格式按行存入存储文件;
步骤S4,ICP分类分级服务器根据用户预定的策略,访问所述IP地址存储关联服务器中存储文件记录的信息,对ICP进行多维度的分类分级;
步骤S5,将经过分类分级后的信息按照IP地址精确对应到单个或多个数据发送方。
根据本发明的上述技术方案,本发明的有益效果为:(1)通过近似度模糊算法,快速查找算法和域名对应运行商策略将IP地址准对应到相应的域名中,将域名准确对应到相应的运行商,从而提升数据匹配的速度;(2)直观地获取拥堵网络的ICP用户,多维度地统计分析网络资源;(3)按照流量排名精确定位ICP用户。
附图说明
图1为本发明提出的一种基于内容提供商标识的互联口ICP流量统计系统的结构示意图。
图2为本发明提出的一种基于内容提供商标识的互联口ICP流量统计方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1为本发明一种基于内容提供商标识的互联口ICP流量统计系统结构示意图,如图1所示,根据本发明的一方面,提出一种基于内容提供商标识的互联口ICP流量统计系统,该系统包括:分流设备、数据采集处理解析服务器、交换机、IP地址存储关联服务器和ICP分级分类服务器,其中:
所述分流设备用于将从外部网络所接收到的镜像数据流转发给所述数据采集处理解析服务器;
具体地,所述分流设备具有两个网络接口,第一网络接口用于接收所述镜像数据流;第二网络接口用于将所述镜像数据流发送给所述数据采集处理解析服务器。
所述数据采集处理解析服务器用于接收经过所述分流设备收集的镜像数据流、对其进行筛选解析处理、从解析后得到的数据流中提取报文信息,并将所述报文信息以比如HTTP请求文件记录的形式存储到所述IP地址存储关联服务器上;
所述数据采集处理解析服务器具有两个网络接口,第一网络接口与所述分流设备的第二网络接口相连,用于接收所述镜像数据流,并对其进行筛选处理,然后将筛选处理后得到的数据流进行解析,提取出服务器IP地址(server_ip)、流量(byte)、关联序列号(rel_seqno)等报文信息,并将提取出的上述报文信息比如以HTTP文件记录的形式通过与所述交换机相连的第二网络接口存储到所述IP地址存储关联服务器上;
所述交换机与所述数据采集处理解析服务器、IP地址存储关联服务器、ICP分类分级服务器的配置管理网络接口相连,用于对数据采集处理解析服务器及运行其上的程序进行远程配置管理,另外也作为数据采集处理解析服务器、IP地址存储关联服务器、ICP分级分类服务器之间的数据传输通道;
在本发明一实施例中,所述交换机为通讯千兆交换机。
所述IP地址存储关联服务器与所述交换机相连,用于根据所接收到的报文信息中的server_ip、byte、rel_seqno三元组信息,将所述报文信息与所述IP地址对应的域名文件记录进行关联,并将关联上的数据以记录格式按行存入存储文件;
所述IP地址存储关联服务器具有一个网络接口,所述IP地址存储关联服务器通过该网络接口与所述交换机连接,用于与数据采集处理解析服务器、ICP分类分级服务器之间进行数据传输。
所述ICP分类分级服务器与所述交换机相连,用于根据事先设定的策略,通过所述交换机访问所述IP地址关联存储服务器中的记录信息,对ICP进行分类分级。
所述ICP分类分级服务器具有一个网络接口,所述ICP分类分级服务器通过该网络接口与所述交换机连接,用于与IP地址存储关联服务器之间进行数据传输。
图2为本发明一种基于内容提供商标识的互联口ICP流量统计方法流程图,如图2所示,根据本发明的另一方面,还提出一种基于内容提供商标识的互联口ICP流量统计方法,该方法包括以下步骤:
步骤S1,获取流量包和数据包镜像数据流,并将所述镜像数据流发送给数据采集处理解析服务器;
步骤S2,所述数据采集处理解析服务器对所接收的镜像数据流进行筛选处理,然后将筛选处理后得到的镜像数据流进行解析,提取出server_ip、rel_seqno、byte等报文信息,并将提取出的上述报文信息比如以HTTP文件记录的形式存储到IP地址存储关联服务器中;
其中,所述数据采集处理解析服务器对所述镜像数据流进行解析的步骤进一步包括以下步骤:
步骤S21,获取所述镜像数据流;
步骤S22,解析所述镜像数据流的IP/TCP报首,提取服务器IP地址Server_Ip、关联序列号Rel_Seqno、访问流量Flow_Byte,并根据获取的这些信息计算出下一报文序列号next_seqno和关联序列号rel_seqno。
步骤S3,IP地址存储关联服务器根据所述报文信息,将所述报文信息与C类地址所在的相应的域名段字典表进行关联对应,并将关联后得到的数据以记录格式按行存入存储文件;
其中,C类地址所在的相应的域名段字典表是由一时间间隔内,比如每30天累积的海量数据经过归并后提取而得到的,这样做的目的是将数据的相似性转化为集合的相似性。
其中,所述报文信息与C类地址关联的步骤进一步包括以下步骤:
步骤S31,将C类地址和其对应的域名存入二维数组;
步骤S32,通过递归算法将所述报文信息映射到相应的C类地址中,进而映射到域名中,得到映射数据;
所述步骤S32中的递归算法具体为:首先找到所述二维数组的中间元素,判断是否与所述报文信息相匹配,如果匹配,则返回它在所述二维数组中的索引;如果不匹配,则判断所述中间元素值比目标值大还是小,如果中间元素值比目标值大,就对第一个元素到第middle-1个元素递归上述寻找中间元素和匹配的步骤;如果中间元素值比目标值小,就对第middle+1个到最后一个元素递归上述寻找中间元素和匹配的步骤;如果查找结束时的索引小于查找开始时的索引,则返回-1,表示没有找到所述二维数组的中间元素。
经过上述的递归过程,最终将得到与所述报文信息相匹配的数据元素的索引,或者是表示找不到的-1。
步骤S33,将所述映射数据累加排序,记录其最大访问流量和相应的时间。
在该步骤中,记录格式包含如下字段:服务器IP地址Server_Ip、请求关联的二级域名URL_Second、关联序列号Rel_Seqno、访问流量Flow_Byte、最大访问流量Flow_Max、统计日期Flow_Date、统计时间FlowHour。
_
步骤S4,ICP分类分级服务器根据用户预定的策略,访问所述IP地址存储关联服务器中存储文件记录的信息,对ICP进行多维度的分类分级;
经过上述匹配成功的文件记录了对应的一次完整的数据交互。从在骨干网的路由器上获取的流量包和数据包镜像数据流的存储文件URL Request中可以提取出URL、Host,Byte,Time,Content-Type、Content-Length等属性信息,根据Content-Type、byte、Content-Length、Host、Time等属性信息可以对ICP进行分级、分类。而HTTP报文报首的解析与文件记录关联、属性提取、根据属性分级分类都可以在人为制定策略后由计算机完成,从而达到自动化的目的。
根据对一段时间内ICP报文报首的解析与关联结果的数据分析,可以得到不同纬度的ICP分级与分类,并对ICP打上相应的标签:比如,可以根据二级域名将ICP按照所在网站分类;根据server_ip将ICP按照所处网段分类;根据24小时的流量统计最大流量并排名;根据30天内的流量汇总计算并排名,将ICP按照热点程度分级;或结合以上的一种或多种进行多维度的分类分级。
步骤S5,将经过分类分级后的信息按照IP地址精确对应到单个或多个数据发送方。
比如针对某一ICP可以精准定位到对应的IP地址,网站详细资源,计算出网站访问的总流量(MB),24h平均流量(MB),24h最大流量(MB),并且可根据当前流量数据绘制24h流量走势曲线和30天走势曲线。可根据24h流量走势进行服务器功能分析,自定义分类条件,筛选同步网络流量时段,分析基于流量走势相应ICP需要治理和无需治理的范围,也可以汇总到使用同一IP的多个数据发送方。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于内容提供商标识的互联口ICP流量统计系统,其特征在于,该系统包括:分流设备、数据采集处理解析服务器、交换机、IP地址存储关联服务器和ICP分级分类服务器,其中:
所述分流设备用于将从外部网络所接收到的镜像数据流转发给所述数据采集处理解析服务器;
所述数据采集处理解析服务器用于接收经过所述分流设备收集的镜像数据流、对其进行筛选解析处理、从解析后得到的数据流中提取报文信息,并将所述报文信息存储到所述IP地址存储关联服务器上;
所述交换机与所述数据采集处理解析服务器、IP地址存储关联服务器、ICP分级分类服务器的配置管理网络接口相连,用于对数据采集处理解析服务器及运行其上的程序进行远程配置管理,提供数据采集处理解析服务器、IP地址存储关联服务器、ICP分级分类服务器之间的数据传输通道;
所述IP地址存储关联服务器与所述交换机相连,用于根据所接收到的报文信息,将所述报文信息与所述IP地址对应的域名文件记录进行关联,并将关联上的数据以记录格式按行存入存储文件;
所述ICP分级分类服务器与所述交换机相连,用于根据事先设定的策略,通过所述交换机访问所述IP地址关联存储服务器中的记录信息,对ICP进行分级分类,并对ICP打上相应的标签,包括以下至少之一:根据二级域名将ICP按照所在网站分类;根据服务器IP地址将ICP按照所处网段进行分类;根据24小时的流量统计最大流量并排名;根据30天内的流量汇总计算并排名,将ICP按照热点程度分级;或者结合以上一种或多种进行多维度的分级分类。
2.根据权利要求1所述的系统,其特征在于,所述报文信息包括服务器IP地址、流量和/或关联序列号。
3.一种基于内容提供商标识的互联口ICP流量统计方法,其特征在于,该方法包括以下步骤:
步骤S1,获取流量包和数据包镜像数据流,并将所述镜像数据流发送给数据采集处理解析服务器;
步骤S2,所述数据采集处理解析服务器对所接收的镜像数据流进行筛选处理,然后将筛选处理后得到的镜像数据流进行解析,提取出报文信息,并将所述报文信息存储到IP地址存储关联服务器中;
步骤S3,IP地址存储关联服务器根据所述报文信息,将所述报文信息与C类地址所在的相应的域名段字典表进行关联对应,并将关联后得到的数据以记录格式按行存入存储文件;
步骤S4,ICP分级分类服务器根据用户预定的策略,访问所述IP地址存储关联服务器中存储文件记录的信息,对ICP进行多维度的分级分类,并对ICP打上相应的标签,包括以下至少之一:根据二级域名将ICP按照所在网站分类;根据服务器IP地址将ICP按照所处网段进行分类;根据24小时的流量统计最大流量并排名;根据30天内的流量汇总计算并排名,将ICP按照热点程度分级;或者结合以上一种或多种进行多维度的分级分类;
步骤S5,将经过分级分类后的信息按照IP地址精确对应到单个或多个数据发送方。
4.根据权利要求3所述的方法,其特征在于,所述报文信息包括服务器IP地址、流量和/或关联序列号。
5.根据权利要求3所述的方法,其特征在于,所述步骤S3中报文信息与C类地址关联的步骤进一步包括以下步骤:
步骤S31,将C类地址和其对应的域名存入二维数组;
步骤S32,通过递归算法将所述报文信息映射到相应的C类地址中,进而映射到域名中,得到映射数据;
步骤S33,将所述映射数据累加排序,记录其最大访问流量和相应的时间。
6.根据权利要求5所述的方法,其特征在于,所述步骤S32中的递归算法具体为:首先找到所述二维数组的中间元素,判断是否与所述报文信息相匹配,如果匹配,则返回它在所述二维数组中的索引;如果不匹配,则判断所述中间元素值比目标值大还是小,如果中间元素值比目标值大,就对第一个元素到所述中间元素的前一个元素递归寻找中间元素和匹配的步骤;如果中间元素值比目标值小,就对所述中间元素的后一个元素到最后一个元素递归寻找中间元素和匹配的步骤;如果查找结束时的索引小于查找开始时的索引,则返回-1,表示没有找到所述二维数组的中间元素。
CN201310529468.5A 2013-10-31 2013-10-31 一种基于内容提供商标识的互联口icp流量统计系统及方法 Active CN103595576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310529468.5A CN103595576B (zh) 2013-10-31 2013-10-31 一种基于内容提供商标识的互联口icp流量统计系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310529468.5A CN103595576B (zh) 2013-10-31 2013-10-31 一种基于内容提供商标识的互联口icp流量统计系统及方法

Publications (2)

Publication Number Publication Date
CN103595576A CN103595576A (zh) 2014-02-19
CN103595576B true CN103595576B (zh) 2017-05-03

Family

ID=50085567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310529468.5A Active CN103595576B (zh) 2013-10-31 2013-10-31 一种基于内容提供商标识的互联口icp流量统计系统及方法

Country Status (1)

Country Link
CN (1) CN103595576B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105610616B (zh) * 2015-12-29 2019-04-26 赛尔网络有限公司 基于icp活跃度的接入网单个ip平均流量统计方法及系统
CN105915286B (zh) * 2016-04-14 2018-06-05 北京锐安科技有限公司 数据分流方法及分流器
CN108259207B (zh) * 2016-12-29 2021-04-27 北京国双科技有限公司 流量统计方法、客户端、服务器及系统
CN109165334B (zh) * 2018-09-20 2022-05-27 恒安嘉新(北京)科技股份公司 一种建立cdn厂家基础知识库的方法
CN109660384A (zh) * 2018-11-26 2019-04-19 武汉烽火信息集成技术有限公司 一种多维度网络数据统计方法及系统
CN110380938A (zh) * 2019-08-07 2019-10-25 重庆金美通信有限责任公司 一种基于可编程模型的多维融合网络监测方法
CN111343037B (zh) * 2019-08-19 2022-05-31 海通证券股份有限公司 云平台负载按应用的流量监控方法、装置、计算机设备
CN111131072B (zh) * 2019-12-23 2023-08-22 北京浩瀚深度信息技术股份有限公司 一种无埋点数据采集方法、装置及存储介质
CN111181811A (zh) * 2019-12-30 2020-05-19 赛尔网络有限公司 统计方法、装置、电子设备及介质
CN115348334B (zh) * 2021-05-13 2023-10-27 中移(上海)信息通信科技有限公司 一种数据的解析方法、装置及相关设备
CN113705619B (zh) * 2021-08-03 2023-09-12 广州大学 一种恶意流量检测方法、系统、计算机及介质
CN115277468B (zh) * 2022-06-09 2024-01-16 药小鹿(成都)数字营销策划有限公司 基于Nginx对网站各二级域名实际流量统计的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102882703A (zh) * 2012-08-31 2013-01-16 赛尔网络有限公司 一种基于http分析的url自动分类分级的系统及方法
CN102916896A (zh) * 2011-08-01 2013-02-06 赛尔网络有限公司 多路端口镜像混合数据流分流方法及设备
WO2013104004A1 (en) * 2012-01-08 2013-07-11 Cerno Bioscience Llc Comprehensive interference treatment for icp-ms analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102916896A (zh) * 2011-08-01 2013-02-06 赛尔网络有限公司 多路端口镜像混合数据流分流方法及设备
WO2013104004A1 (en) * 2012-01-08 2013-07-11 Cerno Bioscience Llc Comprehensive interference treatment for icp-ms analysis
CN102882703A (zh) * 2012-08-31 2013-01-16 赛尔网络有限公司 一种基于http分析的url自动分类分级的系统及方法

Also Published As

Publication number Publication date
CN103595576A (zh) 2014-02-19

Similar Documents

Publication Publication Date Title
CN103595576B (zh) 一种基于内容提供商标识的互联口icp流量统计系统及方法
CN100596135C (zh) 一种确定内容提供商优先级的系统和方法
US9059897B2 (en) Method and apparatus to identify outliers in social networks
CN101556609B (zh) 基于网页内容的客户行为分析和服务系统
CN103428267B (zh) 一种智慧缓存系统及其区分用户喜好相关性的方法
CN102882703B (zh) 一种基于http分析的url自动分类分级的系统及方法
CN104488231A (zh) 利用按照需求的装置的实时网络监视和订户标识
CN103812880B (zh) 一种网络数据的推送方法、设备及系统
CN102111453A (zh) 一种提取互联网用户网络行为的方法和系统
EP3132356A1 (en) Systems and methods for generating network intelligence through real-time analytics
CN106789242A (zh) 一种基于手机客户端软件动态特征库的识别应用智能分析引擎
CN107438083B (zh) 一种Android环境下钓鱼网站检测方法及其检测系统
CN106021455A (zh) 图像特征关系的匹配方法、装置和系统
CN109359686A (zh) 一种基于校园网流量的用户画像方法及系统
CN105871585A (zh) 终端关联方法及装置
CN111107423A (zh) 一种视频业务播放卡顿的识别方法和装置
CN108462615A (zh) 一种网络用户分组方法和装置
CN105634835A (zh) 一种上网数据的云审计方法、系统以及审计路由器
CN114422211B (zh) 基于图注意力网络的http恶意流量检测方法及装置
CN108965011A (zh) 一种基于智能网关深度报文分析系统和分析方法
CN101668035B (zh) 一种实时识别多种p2p-tv应用视频流的方法
CN102984242A (zh) 一种应用协议的自动识别方法和装置
CN103699546A (zh) 一种生成网吧ip数据库的方法及装置
CN201414134Y (zh) 媒体技术平台系统和数据采集系统
CN103227941A (zh) 数据推送系统及数据推送方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant