CN104734894A - 一种流量数据筛选方法和装置 - Google Patents

一种流量数据筛选方法和装置 Download PDF

Info

Publication number
CN104734894A
CN104734894A CN201310700077.5A CN201310700077A CN104734894A CN 104734894 A CN104734894 A CN 104734894A CN 201310700077 A CN201310700077 A CN 201310700077A CN 104734894 A CN104734894 A CN 104734894A
Authority
CN
China
Prior art keywords
data
flows
heartbeat mechanism
flow
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310700077.5A
Other languages
English (en)
Inventor
包静
包嘉琪
张锦
李岳峰
林礼虎
何帆
王臣京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Gansu Co Ltd
Original Assignee
China Mobile Group Gansu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Gansu Co Ltd filed Critical China Mobile Group Gansu Co Ltd
Priority to CN201310700077.5A priority Critical patent/CN104734894A/zh
Publication of CN104734894A publication Critical patent/CN104734894A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种流量数据筛选方法和装置,其中,该装置包括:数据获取模块,用于依靠探针通过分析端口获取各应用软件心跳机制流量数据,获取流量数据的标签数据;数据处理模块,用于根据标签数据对所述流量数据进行半监督聚类处理后送入数据仓库;映射整合模块,用于将数据仓库内的各种数据实体映射成虚拟数据层中的表,进行数据加工整合。本发明的流量数据筛选方法和装置,对基于心跳机制的各应用进行数据选取、数据集成、数据整理和数据规约,提高了各应用软件心跳机制流量数据筛选的有效性,为后续的流量数据分析提供了可靠保障。

Description

一种流量数据筛选方法和装置
技术领域
本发明涉及通信领域中数据统计技术领域,具体地,涉及流量数据筛选的方法和装置。
背景技术
如图1所示,现网用户GPRS话单生成机制为:用户上网过程中,由SGSN、GGSN设备生成S-CDR和G-CDR原始话单,内容包含用户手机号、IMSI、IMEI、SGSN、GGSN信息、网络标识、运营商标识、上网开始结束时间、时长、流量、位置(初始小区)等内容。原始话单经CG进行格式转换及部分话单合并后,送至BOSS(Business Operation Support System,业务运营支撑系统)进行计费。话单生成门限一般设置为流量达到2M或上网时长达到15分钟。
目前GPRS话单内容中,缺少用户访问的网址Url、分级链接、网页流媒体信息,无法区分显示P2P、即时通信类业务类型,无法基于话单进行精准的用户行为分析。
目前GPRS话单中位置信息不准确,所记录的小区信息为用户发起业务时所处的小区,无法展现切换后的小区信息。
各专业系统相互独立,分散管理,支撑、网管、客服等系统各自独立建设,无底层统一数据源,造成端到端业务质量、用户行为、业务类型等现有数据没有有效整合,影响流量运营支撑。
流量数据筛选系统具有领先清晰的架构:流量数据筛选系统分为适配和xDR预处理子系统、分布式计算子系统、实时处理子系统、详单存储与查询子系统、数据模型分析子系统、服务精细化平台、扇区与流量区域热点地图、应用识别/分类特征库、网址识别/分类特征库、心跳机制负反馈粗细跟踪深度包检测、应用软件心跳机制流量分析数据质量检验字典库、Web应用子系统和系统管理子系统。
发明内容
本发明是为了克服现有技术中对各应用软件心跳机制流量数据缺乏有效筛选的缺陷,根据本发明的一个方面,提出一种流量数据筛选方法。
根据本发明实施例的流量数据筛选方法,包括:
依靠探针通过分析端口获取各应用软件心跳机制流量数据,获取流量数据的标签数据;
根据标签数据对流量数据进行半监督聚类处理后送入数据仓库;
将数据仓库内的各种数据实体映射成虚拟数据层中的表,进行数据加工整合。
本发明是为了克服现有技术中对各应用软件心跳机制流量数据缺乏有效筛选的缺陷,根据本发明的一个方面,提出一种流量数据筛选装置。
根据本发明实施例的流量数据筛选方法,包括:
数据获取模块,用于依靠探针通过分析端口获取各应用软件心跳机制流量数据,获取流量数据的标签数据;
数据处理模块,用于根据标签数据对所述流量数据进行半监督聚类处理后送入数据仓库;
映射整合模块,用于将数据仓库内的各种数据实体映射成虚拟数据层中的表,进行数据加工整合。
本发明的流量数据筛选方法和装置,对基于心跳机制的各应用进行数据选取、数据集成、数据整理和数据规约,提高了各应用软件心跳机制流量数据筛选的有效性,为后续的流量数据分析提供了可靠保障。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为现有技术中现网用户GPRS上网话单生成机制示意图;
图2为本发明流量数据筛选系统示意图;
图3为本发明静态基线与动态基线的比较示意图;
图4为本发明本发明为基于DFI和DPI的的应用软件心跳机制流量分析装置的结构示意图;
图5为本发明流量识别顺序的结构示意图;
图6为本发明心跳机制流量识别模块的具体功能分解图;
图7为本发明流量数据筛选装置的结构示意图。
具体实施方式
下面结合附图,对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
本发明研究基于日志的底层流量详单标准库,为其他系统提供标准化接口,实现各类应用。详单中除现有GPRS话单内容外,能够详细展示用户访问的一级、二级网址信息、用户访问的业务类型、流量、时长、位置等信息,按业务过程、小区切换截取话单,形成基于用户上网日志的标准详单库,支撑运营分析、行为分析、客户服务、用户投诉、运行维护。
本发明以探针数据源为主,保证数据的实时性和“每业务每用户”的分析粒度;通过流量详单系统实现端到端、跨领域和精细化的管理运营,满足全IP网络运营需求,并实现从管理网络性能转向管理业务质量、经营能力的提升。
本发明的整个系统内部安全性是按照电信级产品要求设计,从原始信令接入探针开始,所有的传输采取双平面传输,保证在网络故障时,能够及时的切换到备用平面进行数据传输,确保整个系统的数据传输准确,不丢失。下面分别介绍探针和SEQ的保障措施:
探针的保障措施:探针和SEQ在进行单据传输时,物理链路上采用双平面方式,主用通信平面发生故障时,切换到备用通信平面上进行单据传输,确保单据不丢失。在探针和SEQ之间,采取TCP可靠连接的方式进行单据传输,TCP连接本身可以保障在传输过程丢包的重传,通过该方式保障当链路不可靠时,传输上不丢包。
在探针上,当上报链路全部发生故障时,在探针内存中临时缓存单据,保障未上报的单据可以继续保留在探针上。
在上述描述中,SEQ的含义为是顺序、序号、次序,等于该主机选择本次连接的初始序号加上报文段中第一个字节在整个数据流中的序号,在连接建立的时候,会随机选择一个初始序号,例如:发送的数据包中的字节是整个数据流中的第256字节到512字节。
SEQ的保障措施:SEQ内部通信采取双平面方式,当主用通信平面发生故障时,快速切换到备用通信平面,保证内部通信的通畅。SEQ接入分发模块通过TCP接收到单据后,实时向后续模块进行分发。当后续模块处于拥塞或内部网络出现故障时,分发模块会先缓存单据到内存中。当内存中写满单据时,分发模块会把单据存储到本地硬盘上,系统拥塞解除后,继续分发缓存的单据到后续模块,确保数据不丢失。
SEQ其他内部模块之间通信采用和接入模块类似的机制,当本模块处理完成后,后续模块未把单据取走之前(可以保留2小时),保存这部分单据在本地硬盘上,确保单据在内部传输过程中不丢失,直到最终单据进入数据库,本地保留的单据才会被删除。
数据计算的准确性:数据计算基于探针上报的CDR/TDR,系统中各业务计算结果准确。SEQ Analyst数据源适配可对多种外部数据源接入的数据格式进行规整,转换成统一格式,用于进行后续的关联分析以及数据统计。当前能接入的数据源包括探针xDR数据、PM系统性能数据,支持流式接入以及文件接入。接入格式支持ASCII以及CSV,并能按需要快速定制接入其他数据格式。数据质量管理支持WEB Service的API开放接口,也支持基于xDR的开放需求系统数据处理。信令采集网关采用分布式部署和计算,并提供汇聚网关,能够把采集网关的数据汇聚后上传到共享层处理。
图2中的英文名称列举如下:
WES:Web服务器(Web Server)
DBS:数据库服务器(Data Base Server)
GP-Master服务器是SEQ Analyst解决方案的业务服务器,用于对xDR预处理子系统上传的xDR数据分发到GP-Segment进行分布式计算和存储。
GP-Segment服务器是SEQ Analyst解决方案的业务服务器,用于对xDR数据的分布式计算和存储,计算结果提供给Sybase IQ集群做KQI计算。
DSS:数据共享服务器(Data Sharing Server)
DPS:分发处理服务器(Distribute Processing Server)
CAS:关联分析服务器(Correlation Analysis Server)
UDS:用户数据服务器(User Database Server)
MES:适配服务器(Mediation Server)
APP:SERVER APP服务器(Application Server)
本发明针对由于应用软件心跳机制和用户上网流量流速信息来源的不同和衡量口径的差异,收集的数据可能是分散、冗余或非结构化的,甚至可能是不准确、不完全或不一致的“脏数据”(Dirty Data)。对于语法(Syntactical)、语义(Semantic)方面的数据异常(Data Anomalies),可以通过分解(Parsing)、转换(Transformation)、完整性约束强制(Integrity Constraint Enforcement)、重复消除(Duplicate Elimination)和统计方法(Statistical Methods)等数据清理手段,处理形成相对完整的内部数据库;对于范围异常(Coverage Anomalies)和业务价值缺陷,则需要进一步引入标准规则(Business Rules)、系统标准(System Standards),结合外部数据源进行更深入的数据处理。
本发明的技术核心就是建立一种流量数据筛选方法,将应用软件心跳机制流量分析与系统内置数据校验机制相结合,筛选出在采集或传输过程中出错的数据,避免对后续的计算结果产生影响。使SEQ Analyst的多接口的关联准确性高于99%,来实现“原始数据—分析变量—客户档案—推荐系统”(Data-Variable-Profile-System,DVPS)流程。
其中,能够适配的数据源包括探针的xDR数据、EMS系统的Counter数据、PM系统性能数据、FM系统的告警数据、CRM系统的用户列表数据等;Mediation能够支持流式接入以及文件接入,接入格式支持ASCII以及CSV,并能按需快速定制接入其他数据格式。
应用软件心跳机制流量分析是通过语义分析、自动聚类、模式识别、知识管理、行为分析及人工智能等技术实现信息的精确传递。归纳而言,应用软件心跳机制流量分析的通常路径是:利用数据自动收集、行为特征分析、关联规则挖掘等技术形成全方位、多视角的数据源,通过建立和实施高效的流量流速分析数据质量检验字典库系统,实现对手机恶意软件、应用软件引发的网络攻击事件的分析和定位与图形展示。
如图3所示,本发明的应用软件心跳机制流量分析的流程包括
a、数据选取(Data Selection):自流量数据报文(包括用户信息)抽取、信息拆解-应用业务识别、心跳机制粗细跟踪、心跳频率、心跳机制IP包等各种数据中随机抽取部分数据作为标签数据,具体包括:
步骤102:依靠探针通过分析端口的方法获取少量各应用的标签数据,该标签数据为自流量数据报文(包括用户信息)抽取、信息拆解-应用业务识别、心跳机制粗细跟踪、心跳频率、心跳机制IP包等各种数据中随机抽取的部分数据,上述标签数据可转化为对上述数据:流量数据报文(包括用户信息)抽取、信息拆解-应用业务识别、心跳机制粗细跟踪、心跳频率、心跳机制IP包等的约束信息。
其中,成对的约束信息分为两部分:
(1)Must-retention,两个点必须属同一类,可用集合M={(ei,ej)}表示;
(2)Cannot-retention,两个点必须属不同类,可用集合C={(ei,ej)}表示。
步骤104:利用上述标签数据对流量数据报文(包括用户信息)抽取、信息拆解-应用业务识别、心跳机制粗细跟踪、心跳频率、心跳机制IP包的单个数据子集ε'i的约束信息进行半监督聚类处理。
在步骤104中,半监督聚类为对样本约束传递性进行预处理,表现为反映样本间相似关系的约束条件,将约束条件作为聚类目标的一部分直接作用的聚类算法。其中,约束条件的定义:两个样本属于同一类为必须保留,不属于同一类的则为不能保留。
具体地,步骤104具体包括:
步骤1042:对先验信息中满足Must-retention约束的数据对(ei,ej)设置相似性度量值:s(i,j)=0&s(j,i)=1。
其中,先验信息为获得数据样本的试验之前获得的经验数据和历史资料数据。
步骤1044:对先验信息中满足Cannot-retention约束的数据对(ei,ej)设置相似性度量值:s(i,j)=0&s(j,i)=0。
步骤1046:对不包含在先验信息中的数据对的相似度进行调整: ( ei , ej ) ∉ { M ∪ C } ⇒ s ( i , j ) = max ( s ( i , j ) , s ( i , k ) + s ( k , j ) ) .
步骤1048:在Cannot-retention集中对步骤1046中的调整结果进行局部修正。
其中,考虑流量数据局部效应可以使流量数据计算结果更为准确。在进行大型复杂结构的流量数据分析时,通过考虑局部效应,可在计算模型大大简化的同时,获得较为精确的计算结果。
步骤106:将修正后的流量数据报文(包括用户信息)抽取、信息拆解-应用业务识别、心跳机制粗细跟踪、心跳频率、心跳机制IP包等数据送入数据仓库。
b、数据集成(Data Integrity):由存储在数据仓库内的多维数据关联终端流量流速与应用分析数据源、多维数据关联热门应用分析数据库数据源、多维数据关联流量流速定向分析数据库数据源、多维数据关联客户分析数据源组成:
步骤202:上述数据源中的各种数据实体映射成虚拟数据层中的表,虚拟数据层中的表都只有元数据,而不存储实际的生产数据。
步骤204:在虚拟数据层上采用可视化图形界面定义数据映射关系,进行数据加工整合,这些数据加工逻辑一般会以文件或者数据库方式存储。
步骤204具体包括:
步骤2042:对数据按照SOA架构的需要进行整合加工形成可用的信息;
步骤2044:将信息以符合SOA规范的方式发布出去,具体的实时数据集成模式可以按照对这两个处理过程的不同分为以下处理方式:
在中间件层上进行数据的加工整合,同时通过中间件层的标准接口将整合后的数据以标准接口发布;
在中间层上存在一个虚拟的数据服务层,该层通过JDBC,FILE适配器、应用适配器等与数据层的各种数据源实现连接,将数据源中的各种数据实体映射成中间件的虚拟数据层的表,虚拟数据层中的表都只有元数据,而不存储实际的生产数据。
步骤206:定义好的数据可以通过web service、JDBC、数据对象等多种方式发布出去,供数据整理调取使用。
c、数据整理(Data Cleansing):由数据质量检验、质量缺陷确认、数据返工组成。数据质量检验是依据实时数据库RMS中定义的各数据质量要求,通过判断,对数据与质量要求的符合性进行评价,并将数据质量检验操作记录在实时数据库RMS中:
步骤302:单数据源数据质量检验:数据质量检验对流量数据报文(包括用户信息)抽取、信息拆解-应用业务识别、心跳机制粗细跟踪、心跳频率、心跳机制IP包的单数据源数据质量共有4种问题类型:(1)数据本身错误;(2)数据冗余和重复;(3)数据之间关联错误;(4)数据库模式设计不完善,缺乏一些完整的约束机制对数据进行质量检验。
步骤304:多数据源数据质量检验:数据质量检验对流量数据报文(包括用户信息)抽取、信息拆解-应用业务识别、心跳机制粗细跟踪、心跳频率、心跳机制IP包的多数据源的数据交互集成时的数据质量共有2种问题类型:(1)异构的数据模式冲突,可以分为名字冲突和结构冲突两种;(2)数据语义不一致。
步骤306:对不满足数据质量要求的数据质量缺陷进行确认。
数据返工是对有质量缺陷的数据采取措施,使其符合质量要求。数据返工在数据源中进行,特别是对数据库数据源。对外部门交换得来的文件系统数据源,需要建立特别的机制,以保障数据质量,数据返工可能不适用。
d、数据归约(Data Reduction):由转换为数据库的数据源、数据仓库组成。
其中,对于小型或中型数据集,一般的数据预处理步骤已经足够。但对真正大型数据集来讲,在应用数据挖掘技术以前,更可能采取一个中间的、额外的步骤:数据归约。本步骤中简化数据的主题是维归约,主要问题是是否可在没有牺牲成果质量的前提下,丢弃这些已准备和预处理的数据,能否在适量的时间和空间里检查已准备的数据和已建立的子集。
本发明的技术核心是建立一种流量数据筛选方法,将应用软件心跳机制流量分析与系统内置数据校验机制相结合,通过采集通信系统业务量(短信、WAP、彩信)、手机恶意软件相关数据、垃圾短信监控数据、手机应用软件监控数据进行监控关联分析。
本发明的流量数据筛选方法,对基于心跳机制的各应用进行数据选取、数据集成、数据整理和数据规约,提高了各应用软件心跳机制流量数据筛选的有效性,为后续的流量数据分析提供了可靠保障。
本发明的技术核心就是建立一种流量数据筛选方法,内置多维数据关联终端流量流速与应用分析数据源、多维数据关联热门应用分析数据库数据源、多维数据关联流量流速定向分析数据库数据源、多维数据关联客户分析数据源,通过对GTP(GPRS Tunnelling Protocol)协议的识别以及对封装的应用协议的深度识别,实时获取用户信息采集并记录用户上网地点、终端类型、访问网站、使用软件、流量特征等行为数据,送至扇区与流量流速区域热点地图模块实现对手机恶意软件、应用软件引发的网络攻击事件的分析和定位与图形展示。
WAP集中访问监控及定位实现对异常用户行为引发的网络攻击事件的分析和定位。拟定应急流程,实现对异常用户行为引发的网络攻击事件的分析和定位。
本发明主要通过以探针数据源为主,通过数据质量检验、质量缺陷确认来进一步保证数据的实时性和“每业务每用户”的分析粒度;以探针数据源为主分析粒度。由于心跳周期与网络的PPP连接保活时长一致:心跳信息的基本功能是检测网络连接的状态,在无线网络上,过于频繁的传送心跳信息,导致网络资源被占用;由于流量占比与用户占比是指在数据采集范围内,总的流量用户数与访问一个IP地址的流量用户数的占比。
因此,本发明采用以下方案进行检测:
静态阈值比较:心跳周期检测实质上就是检测设备对流量进行分类统计,然后和预先配置的阈值进行比较,如果超过阈值则认为流量发生异常,上报扇区与流量速流区域热点地图并通过管理中心下发引流策略。由此可见,心跳周期检测是否准确取决于检测阈值配置是否合理,而其合理性完全取决于配置人员的经验。因此检测阈值配置非常困难,没有统一的经验值可循,因为不同网络跑的应用不同,每种应用的实际带宽不同。既然检测阈值这么重要,手工配置又这么艰难,而检测设备又永远在线,可以自动学习网络的各种流量阈值,亦即动态流量基线。
动态流量基线:对用户网络流量按时间进行统计比较,取学习周期内最大值作为基值,再加上容忍度(以防止流量瞬时的抖动引起的误判)计算得来的值作为检测阈值。用户网络流量模型发生变化,可以重新启动学习,重新学习以获取合适的检测阈值。因此,该技术叫动态流量基线。
所以本发明可以很好的完成对软件心跳机制的检测。
本发明基于数据选取(Data Selection)的应用软件心跳机制流量分析装置 包括
数据选取(Data Selection)由数据加载、数据转换、流量数据报文(包括用户信息)抽取、信息拆解-应用业务识别、心跳机制粗细跟踪、心跳频率、心跳机制IP包个数组成。
具体的,本发明为基于DFI和DPI的的应用软件心跳机制流量分析装置包括五个模块:DPI模块、DFI模块、心跳机制DFI与DPI协调模块、特征库升级模块、评估模块,如图4所示。
本发明基于DFI和DPI的应用软件心跳机制流量分析装置的工作步骤包括:
步骤402:将流量数据报文(包括用户信息)抽取、信息拆解-应用业务识别、心跳机制粗细跟踪、心跳频率、心跳机制IP包等待识别的网络数据流送入心跳机制DFI与DPI协调模块进行分析;
步骤404:由心跳机制DFI与DPI协调模块决定心跳机制粗细跟踪、心跳频率、心跳机制IP包识别顺序;
步骤406:先通过DFI技术识别,并将识别结果返回至心跳机制DFI与DPI协调模块;
步骤408:若为非应用软件心跳机制流量,则不进行DPI深度识别;
步骤410:若为应用软件心跳机制流量,则进行DFI和DPI识别;
步骤412:将识别结果返回至心跳机制DFI与DPI协调模块,经分析处理,将最后结果传入评估模块,其模块主要显示识别结果,对其进行综合评估,如图5所示。
流量识别的时候,按照图5的顺序依次识别,只要识别出来,就不进行后序方式的识别,如果行为识别仍然无法识别,那么该流量就为未识别流量。
如图5所示,心跳机制流量识别模块包含两个子模块:TIM_I和TIM_II,TIM_I主要负责识别,TIM_II主要负责心跳机制应用识别/网址识别特征库的升级及配置信息。心跳机制流量识别模块可以实现基于特征字的七层协议识别功能,区别同一协议的不同应用。可以关联识别协议,对于数据流通道在信令流中协商产生的协议,利用信令流关联数据流实现对数据流的识别。本发明还自己定制心跳机制IP包、心跳机制心跳频率、心跳机制粗细跟踪异常流量协议识别规则,心跳机制流量识别模块可以通过添加自定义规则来识别出用户添加的新协议和应用程序,如图6所示。
在该心跳机制流量识别模块中,采用的是以DPI技术和DFI技术的识别方法,TIM_I主要负责的识别为:
1、心跳机制单包识别:根据单包的特征进行识别。
2、心跳机制多包识别:结合一条流中多个包特征进行识别。
3、心跳机制多流识别:结合多条流的特征进行识别。
4、心跳机制关联识别:解析信令数据通道协商过和,获取数据流的三元组信息,一些流的三元组一致,通过识别其中一条流,来关联其它流。
5、心跳机制行为识别:不检查数据流的负载内容,通过包长、包频、连接数等流的行为来识别。
心跳机制流量特征库模块包含了三个特征库:DPI心跳机制特征库、DFI心跳机制特征库以及心跳机制粗细跟踪异常流量特征库,这些特征库更新后,都需要与流量别模块进行交互,以便更准确对心跳机制网络流量进行识别。特征库是一个二进制数据文件,保存了心跳机制各种应用层和应用程序及异常流量的识别特征,当心跳机制流量识别模块在进行识别时,会对输入的数据进行特征分析,并与特征库中各种协议特征进行比较,根据数据得出识别结果。
DPI心跳机制特征库:以DPI技术检测出的网络数据流的特征,包括特征字、应用层网关以及关联识别出的一些流的具体特征库,当有新协议或是新版本时,就需要对DPI心跳机制特征库进行定期的更新。
DFI心跳机制特征库:该库中主要记录了数据流的传输字节数、数据包的包长、数据包的发包频率、数据流的持续时间、数据流的上下行流量比例关系、心跳机制应用的连接数的特征,其中较为典型的应用就是数据包的包长和发包频率,DFI心跳机制的特征比较固定,不会因为版本的变化而不断的发生变化,较DPI而言,特征比较固定。
心跳机制流量控制模块包括策略调节器、报文缓存器以及报文发送器,负责对心跳机制流量的指定类型或指定方向的流量进行控制,针对不同的协议、不同链路、流向配置不同的控制方案,与心跳机制流量管理模块、心跳机制流量识别模块进行交互。
策略调节器:根据接收的下发的策略,对各个策略做好调节工作,并协调报文缓存器与报文发送器分工协作。
报文缓存器:提供高速的缓存功能,不仅可以缓解链路压力,还可以为报文发送器提供服务,保障报文发送器根据下发策略迅速完成报文的发送工作。
报文发送器:根据策略调节器接收到的下发的策略,将报文缓存器中的报文准确发送出去。心跳机制流量管理模块包括实时流量管理、历史流量管理、用户管理以及策略下发管理。需要与心跳机制流量识别模块、心跳机制流量控制模块以数据库模块进行交互。
实时流量管理:查看心跳机制各类应用的实时流量曲线图、某IP的实时流量曲线图或是某协议的实时流量曲线图。
历史流量管理:查看历史流量的全部流量曲线图、某IP的历史流量曲线图或是某协议的历史流量曲线图。
用户管理:用于管理不同权限的用户,添加用户,删除用户。
策略下发管理:用于下发限流阻断的策略、以及流量信息记录的时间间隔。某IP的阻断或限流,某协议的阻断或限流,IP和协议的阻断或限流,修改当前的阻断限流策略以及流量记录时间间隔。
如图7所示,本发明公开了一种流量数据筛选装置,包括:
数据获取模块100,用于依靠探针通过分析端口获取各应用软件心跳机制流量数据,获取流量数据的标签数据;
数据处理模块200,用于根据标签数据对所述流量数据进行半监督聚类处理后送入数据仓库;
映射整合模块300,用于将数据仓库内的各种数据实体映射成虚拟数据层中的表,进行数据加工整合。
其中:数据处理模块200包括:
度量值设置子模块210,用于对先验信息中满足Must-retention约束的数据对(ei,ej)设置相似性度量值:s(i,j)=0&s(j,i)=1,对先验信息中满足Cannot-retention约束的数据对(ei,ej)设置相似性度量值:s(i,j)=0&s(j,i)=0;
相似度调整子模块220,用于对不包含在先验信息中的数据对的相似度进行调整: ( ei , ej ) ∉ { M ∪ C } ⇒ s ( i , j ) = max ( s ( i , j ) , s ( i , k ) + s ( k , j ) ) ;
修正子模块230,用于在Cannot-retention集中对相似性的调整结果进行局部修正。
其中:各应用软件心跳机制流量数据包括:流量数据报文抽取、信息拆解-应用业务识别、心跳机制粗细跟踪、心跳频率、心跳机制IP包的数据。
其中:流量数据筛选装置还包括:
数据整理模块400,用于完成数据质量检验、质量缺陷确认、数据返工组成的步骤;
其中,数据质量检验包括单数据源数据质量检验和多数据源数据质量检验。
其中:数据处理模块200,还用于对样本约束传递性进行预处理,表现为反映样本间相似关系的约束条件,将约束条件作为聚类目标的直接作用的聚类算法。
本发明的流量数据筛选装置,对基于心跳机制的各应用进行数据选取、数据集成、数据整理和数据规约,提高了各应用软件心跳机制流量数据筛选的有效性,为后续的流量数据分析提供了可靠保障。
本发明能有多种不同形式的具体实施方式,上面以图2-图7为例结合附图对本发明的技术方案作举例说明,这并不意味着本发明所应用的具体实例只能局限在特定的流程或实施例结构中,本领域的普通技术人员应当了解,上文所提供的具体实施方案只是多种优选用法中的一些示例,任何体现本发明权利要求的实施方式均应在本发明技术方案所要求保护的范围之内。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种流量数据筛选方法,其特征在于,包括:
依靠探针通过分析端口获取各应用软件心跳机制流量数据,获取所述流量数据的标签数据;
根据所述标签数据对所述流量数据进行半监督聚类处理后送入数据仓库;
将所述数据仓库内的各种数据实体映射成虚拟数据层中的表,进行数据加工整合。
2.根据权利要求1所述的方法,其特征在于,所述根据所述标签数据对所述流量数据进行半监督聚类处理包括:
对先验信息中满足Must-retention约束的数据对(ei,ej)设置相似性度量值:s(i,j)=0&s(j,i)=1;
对先验信息中满足Cannot-retention约束的数据对(ei,ej)设置相似性度量值:s(i,j)=0&s(j,i)=0;
对不包含在先验信息中的数据对的相似度进行调整: ( ei , ej ) ∉ { M ∪ C } ⇒ s ( i , j ) = max ( s ( i , j ) , s ( i , k ) + s ( k , j ) ) ;
在Cannot-retention集中对相似性的调整结果进行局部修正。
3.根据权利要求1或2所述的方法,其特征在于,所述各应用软件心跳机制流量数据包括:流量数据报文抽取、信息拆解-应用业务识别、心跳机制粗细跟踪、心跳频率、心跳机制IP包的数据。
4.根据权利要求3所述的方法,其特征在于,还包括:由数据质量检验、质量缺陷确认、数据返工组成的数据整理步骤;
其中,所述数据质量检验包括单数据源数据质量检验和多数据源数据质量检验。
5.根据权利要求1所述的方法,其特征在于,所述半监督聚类处理还包括:对样本约束传递性进行预处理,表现为反映样本间相似关系的约束条件,将所述约束条件作为聚类目标的直接作用的聚类算法。
6.一种流量数据筛选装置,其特征在于,包括:
数据获取模块,用于依靠探针通过分析端口获取各应用软件心跳机制流量数据,获取所述流量数据的标签数据;
数据处理模块,用于根据所述标签数据对所述流量数据进行半监督聚类处理后送入数据仓库;
映射整合模块,用于将所述数据仓库内的各种数据实体映射成虚拟数据层中的表,进行数据加工整合。
7.根据权利要求6所述的装置,其特征在于,所述数据处理模块包括:
度量值设置子模块,用于对先验信息中满足Must-retention约束的数据对(ei,ej)设置相似性度量值:s(i,j)=0&s(j,i)=1,对先验信息中满足Cannot-retention约束的数据对(ei,ej)设置相似性度量值:s(i,j)=0&s(j,i)=0;
相似度调整子模块,用于对不包含在先验信息中的数据对的相似度进行调整: ( ei , ej ) ∉ { M ∪ C } ⇒ s ( i , j ) = max ( s ( i , j ) , s ( i , k ) + s ( k , j ) ) ;
修正子模块,用于在Cannot-retention集中对相似性的调整结果进行局部修正。
8.根据权利要求6所述的装置,其特征在于,所述各应用软件心跳机制流量数据包括:流量数据报文抽取、信息拆解-应用业务识别、心跳机制粗细跟踪、心跳频率、心跳机制IP包的数据。
9.根据权利要求8所述的装置,其特征在于,还包括:
数据整理模块,用于完成数据质量检验、质量缺陷确认、数据返工组成的步骤;
其中,所述数据质量检验包括单数据源数据质量检验和多数据源数据质量检验。
10.根据权利要求6所述的装置,其特征在于,所述数据处理模块,还用于对样本约束传递性进行预处理,表现为反映样本间相似关系的约束条件,将所述约束条件作为聚类目标的直接作用的聚类算法。
CN201310700077.5A 2013-12-18 2013-12-18 一种流量数据筛选方法和装置 Pending CN104734894A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310700077.5A CN104734894A (zh) 2013-12-18 2013-12-18 一种流量数据筛选方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310700077.5A CN104734894A (zh) 2013-12-18 2013-12-18 一种流量数据筛选方法和装置

Publications (1)

Publication Number Publication Date
CN104734894A true CN104734894A (zh) 2015-06-24

Family

ID=53458349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310700077.5A Pending CN104734894A (zh) 2013-12-18 2013-12-18 一种流量数据筛选方法和装置

Country Status (1)

Country Link
CN (1) CN104734894A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105847063A (zh) * 2016-05-12 2016-08-10 中国联合网络通信集团有限公司 核心网数据管理方法和系统
CN107295572A (zh) * 2016-04-11 2017-10-24 北京搜狗科技发展有限公司 一种动态自适应限流方法及电子设备
CN108123849A (zh) * 2017-12-20 2018-06-05 国网冀北电力有限公司信息通信分公司 检测网络流量的阈值的确定方法、装置、设备及存储介质
CN108733758A (zh) * 2018-04-11 2018-11-02 北京三快在线科技有限公司 酒店静态数据推送方法、装置、电子设备及可读存储介质
CN109164786A (zh) * 2018-08-24 2019-01-08 杭州安恒信息技术股份有限公司 一种基于时间相关基线的异常行为检测方法、装置及设备
CN109617958A (zh) * 2018-12-06 2019-04-12 浙江大学宁波理工学院 一种车辆记录仪数据在平台间的传输方法及系统
CN109614433A (zh) * 2018-12-13 2019-04-12 杭州数梦工场科技有限公司 业务系统间数据血缘的识别方法、装置、设备及存储介质
CN109960708A (zh) * 2019-03-22 2019-07-02 蔷薇智慧科技有限公司 数据处理方法、装置、电子设备及存储介质
CN111641532A (zh) * 2020-03-30 2020-09-08 北京红山信息科技研究院有限公司 一种通信质量检测方法、装置、服务器及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101466124A (zh) * 2007-12-19 2009-06-24 中国移动通信集团公司 网络带宽控制方法及系统
CN101534305A (zh) * 2009-04-24 2009-09-16 中国科学院计算技术研究所 网络流量异常检测方法和系统
CN101707554A (zh) * 2009-11-18 2010-05-12 华为技术有限公司 一种获得网络流量分布的方法和装置
CN102685016A (zh) * 2012-06-06 2012-09-19 济南大学 互联网流量区分方法
CN102982340A (zh) * 2012-10-31 2013-03-20 中国科学院长春光学精密机械与物理研究所 基于半监督学习和随机蕨类分类器的目标跟踪方法
CN103150578A (zh) * 2013-04-09 2013-06-12 山东师范大学 一种基于半监督学习的支持向量机分类器训练方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101466124A (zh) * 2007-12-19 2009-06-24 中国移动通信集团公司 网络带宽控制方法及系统
CN101534305A (zh) * 2009-04-24 2009-09-16 中国科学院计算技术研究所 网络流量异常检测方法和系统
CN101707554A (zh) * 2009-11-18 2010-05-12 华为技术有限公司 一种获得网络流量分布的方法和装置
CN102685016A (zh) * 2012-06-06 2012-09-19 济南大学 互联网流量区分方法
CN102982340A (zh) * 2012-10-31 2013-03-20 中国科学院长春光学精密机械与物理研究所 基于半监督学习和随机蕨类分类器的目标跟踪方法
CN103150578A (zh) * 2013-04-09 2013-06-12 山东师范大学 一种基于半监督学习的支持向量机分类器训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张震等: "《基于近邻传播学习的半监督流量分类方法》", 《自动化学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107295572A (zh) * 2016-04-11 2017-10-24 北京搜狗科技发展有限公司 一种动态自适应限流方法及电子设备
CN105847063A (zh) * 2016-05-12 2016-08-10 中国联合网络通信集团有限公司 核心网数据管理方法和系统
CN108123849B (zh) * 2017-12-20 2020-08-28 国网冀北电力有限公司信息通信分公司 检测网络流量的阈值的确定方法、装置、设备及存储介质
CN108123849A (zh) * 2017-12-20 2018-06-05 国网冀北电力有限公司信息通信分公司 检测网络流量的阈值的确定方法、装置、设备及存储介质
CN108733758A (zh) * 2018-04-11 2018-11-02 北京三快在线科技有限公司 酒店静态数据推送方法、装置、电子设备及可读存储介质
CN108733758B (zh) * 2018-04-11 2022-04-05 北京三快在线科技有限公司 酒店静态数据推送方法、装置、电子设备及可读存储介质
CN109164786B (zh) * 2018-08-24 2020-05-29 杭州安恒信息技术股份有限公司 一种基于时间相关基线的异常行为检测方法、装置及设备
CN109164786A (zh) * 2018-08-24 2019-01-08 杭州安恒信息技术股份有限公司 一种基于时间相关基线的异常行为检测方法、装置及设备
CN109617958A (zh) * 2018-12-06 2019-04-12 浙江大学宁波理工学院 一种车辆记录仪数据在平台间的传输方法及系统
CN109614433A (zh) * 2018-12-13 2019-04-12 杭州数梦工场科技有限公司 业务系统间数据血缘的识别方法、装置、设备及存储介质
CN109960708A (zh) * 2019-03-22 2019-07-02 蔷薇智慧科技有限公司 数据处理方法、装置、电子设备及存储介质
CN111641532A (zh) * 2020-03-30 2020-09-08 北京红山信息科技研究院有限公司 一种通信质量检测方法、装置、服务器及存储介质
CN111641532B (zh) * 2020-03-30 2022-02-18 北京红山信息科技研究院有限公司 一种通信质量检测方法、装置、服务器及存储介质

Similar Documents

Publication Publication Date Title
CN104734894A (zh) 一种流量数据筛选方法和装置
CN106294091B (zh) 一种无侵入式日志拦截性能分析方法及系统
US10397043B2 (en) Wireless carrier network performance analysis and troubleshooting
CN103546343B (zh) 网络流量分析系统的网络流量展示方法和系统
CN1984170B (zh) 对网络告警信息的处理方法
CN107040863B (zh) 实时业务推荐方法及系统
CN108197261A (zh) 一种智慧交通操作系统
CN104376005B (zh) 软件心跳机制信令接入探针用户详单处理方法及系统
CN110417757B (zh) 一种基于边缘计算网关的工业数据存储系统
CN109376532A (zh) 基于elk日志采集分析的电力网络安全监测方法及系统
CN109271793B (zh) 物联网云平台设备类别识别方法及系统
CN104901838A (zh) 企业网络安全事件管理系统及其方法
CN108259371A (zh) 一种基于流处理的网络流量数据解析方法和装置
CN107104840A (zh) 一种日志监控方法、装置及系统
CN110457190A (zh) 一种基于区块链的全链路监控方法、装置及系统
CN104579823A (zh) 一种基于大数据流的网络流量异常检测系统及方法
CN105577431A (zh) 一种基于互联网应用的用户信息识别分类方法和系统
CN105577411B (zh) 基于服务起源的云服务监控方法和装置
CN101431434A (zh) 基于wap的内容监控及封堵系统和方法
CN104346480A (zh) 信息挖掘方法和装置
CN104486116A (zh) 多维度查询流量数据的方法及系统
CN106599120A (zh) 基于流处理框架的数据处理方法及装置
CN108874908B (zh) 一种实时游戏业务告警方法
CN110111068A (zh) 基于微服务架构的生产执行系统及方法
CN104539449B (zh) 一种故障信息处理方法与相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150624

RJ01 Rejection of invention patent application after publication