CN108632286A - 一种多应用混合数据的解析方法 - Google Patents

一种多应用混合数据的解析方法 Download PDF

Info

Publication number
CN108632286A
CN108632286A CN201810454494.9A CN201810454494A CN108632286A CN 108632286 A CN108632286 A CN 108632286A CN 201810454494 A CN201810454494 A CN 201810454494A CN 108632286 A CN108632286 A CN 108632286A
Authority
CN
China
Prior art keywords
data
analytic method
blended
applying
blended data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810454494.9A
Other languages
English (en)
Inventor
郭晶
严寒冰
丁丽
李佳
陈阳
刘婧
张腾
张帅
温森浩
李志辉
姚力
朱芸茜
王小群
吕利锋
李世淙
徐剑
党向磊
王适文
饶毓
肖崇蕙
贾子骁
吕志泉
韩志辉
马莉雅
雷君
周彧
周昊
高川
楼书逸
文静
许世彪
张健
宋磊
沈炯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201810454494.9A priority Critical patent/CN108632286A/zh
Publication of CN108632286A publication Critical patent/CN108632286A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/18Multiprotocol handlers, e.g. single devices capable of handling multiple protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Communication Control (AREA)

Abstract

本发明公开了一种多应用混合数据的解析方法,主要包括,A,获取待解析的多应用混合数据;B,根据A数据的多种特征,为数据增加应用标记;C,根据B应用标记,使用统一接口调用相应解析算法;D,根据B应用标记,将C解析算法的输出结果输出到相应的解析结果表;E,针对新的应用,采用标准化方法实现框架的快速扩展。本发明能够识别混合数据中的多种应用,并采用统一接口对各种应用数据进行协议解析的目的,通过此方法提供了一个统一框架,能够识别混合数据中的多种应用,通过统一接口自动调用相应的解析算法实现解析,通过应用标记自动存到相应的解析结果表,并能够快速、标准化的扩展新的应用类型。

Description

一种多应用混合数据的解析方法
技术领域
本发明涉及网络流数据解析方法技术领域,具体为一种多应用混合数据的解析方法。
背景技术
在网络大数据分析中,需要解析种类繁多的应用数据,针对每种应用根据业务需求提取部分关键信息。目前业界使用的网络数据流解析方式,一类是对常见协议进行标准化解析,比如http等,但不能满足对大量私有、小众应用协议的解析需求;另一类是对特定应用的深度解析算法,但一般只采用一种数据表示方式、针对一种应用类型,由一个解析算法来分析,不适用于复杂的网络环境,比如协议类型多、数据表示形式多等场景。在这种应用背景下,传统的应用解析算法不能很好地满足我们的业务需求。
我们需要的多应用混合数据解析方法需要满足两个方面的特性,一方面可以快速、标准化的扩展新的应用类型,另一方面只针对业务需要的部分关键信息进行提取,无需对特定协议进行全部信息解析。
对大量应用协议进行分析后发现,大多数应用协议可以分类为16进制协议、可见字符协议和混合类型协议,而且多数协议之间存在较强的相似性。利用这些特性,我们需要设计一种统一框架,可以实现对多应用混合数据自动识别应用标记、通过统一接口自动调用相应的解析算法实现解析、通过应用标记自动存到相应的解析结果表,并能够快速、标准化的扩展新的应用类型。
目前尚未发现适合我们业务需求的通用解析方法,本发明提出的多应用混合数据的解析方法,可以有效解决此类问题。
发明内容
本发明的目的在于提供一种多应用混合数据的解析方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种多应用混合数据的解析方法,包括:
A,获取待解析的多应用混合数据;
B,根据所述A数据的多种特征,为数据增加应用标记;
C,根据所述B应用标记,使用统一接口调用相应解析算法;
D,根据所述B应用标记,将所述C解析算法的输出结果输出到相应的解析结果表;
E,针对新的应用,采用标准化方法实现框架的快速扩展。
优选的,所述A中,多应用混合数据涉及移动通信网通信数据。
优选的,所述A中,多应用混合数据包含服务器IP、服务器端口、终端 IMEI、终端IMSI、APN、载荷数据。
优选的,所述载荷数据包括网络层载荷数据、传输层载荷数据或应用层载荷数据的至少一种。
优选的,所述B中,用于识别应用标记的数据特征包括网络地址特征和数据内容特征,且识别应用标记的数据特征为网络地址特征和数据内容特征的至少一种。
优选的,所述识别应用标记的数据特征为多种网络地址特征和数据内容特征组合构成。
优选的,所述网络地址特征包括服务器IP、服务器端口、终端IMEI、终端IMSI和APN,所述数据内容特征包括网络层载荷数据、传输层载荷数据或应用层载荷数据中的静态特征和统计特征。
优选的,所述C中,解析方法涉及对16进制协议的解析方法、对可见字符协议的解析方法及对混合协议的解析方法。
优选的,所述16进制协议的解析方法为字节偏移和数据类型转换的形式;所述可见字符协议的解析方法为区分数据的组织方式再对信息内容进行高效检索;所述混合协议的解析方法为对消息头部的所述16进制数据解析后,作为前置条件和约束来解析消息体内容。
优选的,所述D中,解析结果表按应用标记建立,针对每种应用标记建立至少一个解析结果表。
与现有技术相比,本发明的有益效果是:能够识别混合数据中的多种应用,并采用统一接口对各种应用数据进行协议解析的目的。详细来说,本发明提出的方法提供了一个统一框架,能够识别混合数据中的多种应用,通过统一接口自动调用相应的解析算法实现解析,通过应用标记自动存到相应的解析结果表,并能够快速、标准化的扩展新的应用类型。
附图说明
图1为本发明实施例的一种多应用混合数据的解析方法的流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便这里描述的本申请的实施方式例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,本发明实施例的一种多应用混合数据的解析方法的流程示意图;该多应用混合数据的解析方法包括以下步骤:
步骤A,获取待解析的多应用混合数据;
上述A中,多应用混合数据涉及移动通信网通信数据,并包含服务器IP、服务器端口、终端IMEI、终端IMSI、APN、载荷数据,其中载荷数据包括网络层载荷数据、传输层载荷数据或应用层载荷数据的至少一种。
步骤B,根据上述数据的多种特征,为数据增加应用标记;
上述B中,用于识别应用标记的数据特征包括网络地址特征和数据内容特征,其中该网络地址特征指服务器IP、服务器端口、终端IMEI、终端IMSI、 APN等,该数据内容特征指网络层载荷数据、传输层载荷数据或应用层载荷数据中的静态特征和统计特征。用于识别应用标记的数据特征包括网络地址特征和数据内容特征的至少一种,也可以使用多种网络地址特征和数据内容特征组合构成。
步骤C,根据上述B中,应用标记,使用统一框架调用相应解析算法;
根据网络协议的不同,协议的表现形式大概分为几种,16进制的表示实行,可见字符的形式,还有16进制和可见字符混合的表示形式。
16进制协议类型根据协议定义规范文档,按照其中所约束的传输方式,通过进行字节的偏移和数据类型的转换来解析协议的传输过程,并保存我们需要的信息。
可见字符协议的形式比16进制类型简单一些,通过ASCII码来表示数据,输出到输出设备就是人眼可识别的数据,数据的组织方式有XML、JSON、 KeyValue。在对可见字符协议的数据解析时,先根据数据头部的特征,对协议类型识别,在根据解析方法对应的类型解析消息体中的内容,在消息体中通过高效的检索算法,提取信息。
混合类型的协议类型,大多表示为消息头部为16进制表示,消息体为可见字符,消息头部用16进制通过约定的协议格式,定义了一些协议命令的类型,消息的长度以及状态信息,而消息体中使用可见字符的形式,传输具体的数据。解析时先用16进制的方式解析消息头部,获取一些解析过程中需要的先置信息。在以这些先置信息为约束条件,解析消息体中的数据。
步骤D,根据上述应用标记,将上述解析算法的输出结果输出到相应的解析结果表;
上述D中,解析结果表按应用标记建立,针对每种应用标记建立至少一个解析结果表。
步骤E,针对新的应用,采用标准化方法实现框架的快速扩展;
上述E中,应用扩展方法为,新的应用扩展流程和方法,首先确定协议传输的数据类型,为16进制、可见字符还是混合形传输。之后根据新应用的协议传输规范来指定新应用的识别特征,之后根据协议传输规范对数据的内容进行有用信息提取。
这个过程中需要为新应用建立一个解析器,结构如下
上面的数据结构就是一个应用的解析器结构,其中包含proto为协议ID,在系统内部,每一个协议都有一个代码表示。Proto_name协议的名称等。
其中重要的为ident和analyse两个方法,一个用户识别协议,在方法内部根据协议规范来定义协议识别特征,目的是在混杂的多应用网络环境中,可以自动识别协议类型。Analyse方法就是根据协议规范,提取有效协议内容的方法,这两个方法都可以灵活定义。
下面,针对包含16进制协议、可见字符协议、混合协议的多应用混合数据的解析方法,进行详细说明如下。
16进制协议的详细解析方法如下:16进制传输的协议,各信息字段按照固定的格式和大小排列,由网络序或主机序形式表示的一串字节流,我们需要按照协议规范的约束,对数据的类型和位置进行偏移,就可以获取这个字段信息的内容,将该字段的数据转换成该字段定义的大小后,检查书否在协议规范上约定的取值范围内,如果在则该字段有效,以此类推来解析下一个字段内容,知道整个协议解析完成。
可见字符的协议是用人眼可识别的数据,协议的信息采用明文传输,数据组织形式多为XML、JSON等,我们先根据协议规范文档来提取协议的有效字段(有用的信息),将这些字段形成一个字段序列。我们在传输内容中,用高效的检索算法来循环检索这些字段是否存在,如果字段存在,则提取该字段的值,直到该序列全部检索完成。
混合协议和多应用混合数据的解析方法为分段分类解析,一般混合协议的头部采用16进制封装,消息体采用可见字符形式。协议头中包含消息的长度等信息。可以作为一个先置条件,用来约束消息体中的内容。解析的具体方式为16进制协议和混合协议的组合方式。
在大数据网络环境中,通过多应用混合数据的解析方法来解析网络数据,由于支持数据形式的多样性和提供了统一的数据解析接口被方便调用,所以可以支持多种复杂的网络场景。假如数据流量中增加一类协议,例如JT808,便可以方便的进行扩展,简单的几个步骤即可:
1.为JT808协议指定一个具有唯一性协议ID;
2.为JT808协议准备一个解析器结构,并且根据协议规范提供识别特征;
3.根据协议规范文档,找出我们有用的信息,在分析方法中实现。
以上3步就可以完成协议的扩充。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种多应用混合数据的解析方法,其特征在于,包括:
A,获取待解析的多应用混合数据;
B,根据所述A数据的多种特征,为数据增加应用标记;
C,根据所述B应用标记,使用统一接口调用相应解析算法;
D,根据所述B应用标记,将所述C解析算法的输出结果输出到相应的解析结果表;
E,针对新的应用,采用标准化方法实现框架的快速扩展。
2.根据权利要求1所述的一种多应用混合数据的解析方法,其特征在于:所述A中,多应用混合数据涉及移动通信网通信数据。
3.根据权利要求1所述的一种多应用混合数据的解析方法,其特征在于:所述A中,多应用混合数据包含服务器IP、服务器端口、终端IMEI、终端IMSI、APN、载荷数据。
4.根据权利要求1所述的一种多应用混合数据的解析方法,其特征在于:所述载荷数据包括网络层载荷数据、传输层载荷数据或应用层载荷数据的至少一种。
5.根据权利要求1所述的一种多应用混合数据的解析方法,其特征在于:所述B中,用于识别应用标记的数据特征包括网络地址特征和数据内容特征,且识别应用标记的数据特征为网络地址特征和数据内容特征的至少一种。
6.根据权利要求1所述的一种多应用混合数据的解析方法,其特征在于:所述识别应用标记的数据特征为多种网络地址特征和数据内容特征组合构成。
7.根据权利要求1所述的一种多应用混合数据的解析方法,其特征在于:所述网络地址特征包括服务器IP、服务器端口、终端IMEI、终端IMSI和APN,所述数据内容特征包括网络层载荷数据、传输层载荷数据或应用层载荷数据中的静态特征和统计特征。
8.根据权利要求1所述的一种多应用混合数据的解析方法,其特征在于:所述C中,解析方法涉及对16进制协议的解析方法、对可见字符协议的解析方法及对混合协议的解析方法。
9.根据权利要求1所述的一种多应用混合数据的解析方法,其特征在于:所述16进制协议的解析方法为字节偏移和数据类型转换的形式;所述可见字符协议的解析方法为区分数据的组织方式再对信息内容进行高效检索;所述混合协议的解析方法为对消息头部的所述16进制数据解析后,作为前置条件和约束来解析消息体内容。
10.根据权利要求1所述的一种多应用混合数据的解析方法,其特征在于:所述D中,解析结果表按应用标记建立,针对每种应用标记建立至少一个解析结果表。
CN201810454494.9A 2018-05-14 2018-05-14 一种多应用混合数据的解析方法 Pending CN108632286A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810454494.9A CN108632286A (zh) 2018-05-14 2018-05-14 一种多应用混合数据的解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810454494.9A CN108632286A (zh) 2018-05-14 2018-05-14 一种多应用混合数据的解析方法

Publications (1)

Publication Number Publication Date
CN108632286A true CN108632286A (zh) 2018-10-09

Family

ID=63692959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810454494.9A Pending CN108632286A (zh) 2018-05-14 2018-05-14 一种多应用混合数据的解析方法

Country Status (1)

Country Link
CN (1) CN108632286A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291103A (zh) * 2020-01-19 2020-06-16 北京无限光场科技有限公司 接口数据的解析方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6621817B1 (en) * 1999-07-06 2003-09-16 Texas Instruments Incorporated Transport packet parser
US20040215703A1 (en) * 2003-02-18 2004-10-28 Xiping Song System supporting concurrent operation of multiple executable application operation sessions
CN103795709A (zh) * 2013-12-27 2014-05-14 北京天融信软件有限公司 一种网络安全检测方法和系统
CN103888443A (zh) * 2014-02-20 2014-06-25 北京优联实科信息科技有限公司 一种多协议解析的方法和多协议解析系统
CN107666486A (zh) * 2017-09-27 2018-02-06 清华大学 一种基于报文协议特征的网络数据流恢复方法及系统
CN107707549A (zh) * 2017-09-30 2018-02-16 迈普通信技术股份有限公司 一种自动提取应用特征的装置及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6621817B1 (en) * 1999-07-06 2003-09-16 Texas Instruments Incorporated Transport packet parser
US20040215703A1 (en) * 2003-02-18 2004-10-28 Xiping Song System supporting concurrent operation of multiple executable application operation sessions
CN103795709A (zh) * 2013-12-27 2014-05-14 北京天融信软件有限公司 一种网络安全检测方法和系统
CN103888443A (zh) * 2014-02-20 2014-06-25 北京优联实科信息科技有限公司 一种多协议解析的方法和多协议解析系统
CN107666486A (zh) * 2017-09-27 2018-02-06 清华大学 一种基于报文协议特征的网络数据流恢复方法及系统
CN107707549A (zh) * 2017-09-30 2018-02-16 迈普通信技术股份有限公司 一种自动提取应用特征的装置及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291103A (zh) * 2020-01-19 2020-06-16 北京无限光场科技有限公司 接口数据的解析方法、装置、电子设备及存储介质
CN111291103B (zh) * 2020-01-19 2023-11-24 北京有竹居网络技术有限公司 接口数据的解析方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN104320304B (zh) 一种易扩展的多方式融合的核心网用户流量应用识别方法
US10547523B2 (en) Systems and methods for extracting media from network traffic having unknown protocols
CN100448227C (zh) 业务流的识别方法
CN108399176A (zh) 一种基于规则的数据处理方法及规则引擎装置
CN103415084B (zh) 移动终端上网方法和移动终端
CN111970353A (zh) 云计算平台物联网中异构设备的数据处理方法及装置
CN109688164A (zh) 协议转换方法及装置
CN107306220A (zh) 报文转发方法及装置
CN105871658B (zh) 一种基于OpenWRT系统的网络嗅探方法
CN103873356A (zh) 基于家庭网关的应用识别方法、系统和家庭网关
CN104702564A (zh) 一种网络共享用户识别方法及装置
CN109450733A (zh) 一种基于机器学习的网络终端设备识别方法及系统
CN109614518A (zh) 一种网络流量数据存储、还原方法及系统
CN107368334B (zh) 一种业务插件交互系统及方法
CN110167193A (zh) WiFi自动配网方法和WiFi设备
CN108632286A (zh) 一种多应用混合数据的解析方法
CN107086942A (zh) 一种网络内容服务商icp上报数据检查方法及装置
CN108494613B (zh) 一种警用数字集群系统间互联互通的测试系统和方法
JP5955943B2 (ja) Ipネットワーク上を移動するデータストリームからデータを抽出する方法および装置
CN108989301A (zh) 一种多索引的网络流量数据索引方法、设备及存储介质
CN109618139A (zh) 一种基于视觉路由的智能视频监控系统及方法
CN111263344A (zh) 基于nfc消息传输连接无线局域网的方法、系统及投影设备
CN105763370A (zh) 一种提取信令数据的方法及装置
KR20120014572A (ko) 무선 네트워크들에서 다수의 프로토콜을 지원하기 위한 기술들
CN102469011B (zh) 一种数据发送方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181009

RJ01 Rejection of invention patent application after publication