CN109933712A - 一种报文数据的提取方法及系统 - Google Patents

一种报文数据的提取方法及系统 Download PDF

Info

Publication number
CN109933712A
CN109933712A CN201910168573.8A CN201910168573A CN109933712A CN 109933712 A CN109933712 A CN 109933712A CN 201910168573 A CN201910168573 A CN 201910168573A CN 109933712 A CN109933712 A CN 109933712A
Authority
CN
China
Prior art keywords
message
data
target data
extracted
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910168573.8A
Other languages
English (en)
Inventor
李昌达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Si Tech Information Technology Co Ltd
Original Assignee
Beijing Si Tech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Si Tech Information Technology Co Ltd filed Critical Beijing Si Tech Information Technology Co Ltd
Priority to CN201910168573.8A priority Critical patent/CN109933712A/zh
Publication of CN109933712A publication Critical patent/CN109933712A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种报文数据的提取方法,包括以下步骤:获取目标报文中提取的目标数据的位置;根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,并提取所述目标数据。同时,本发明还提出一种报文数据的提取系统,包括:确定模块,用于获取目标报文中提取的目标数据的位置;提取模块,用于根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,并提取所述目标数据。本发明的有益效果是:不仅可以实现对报文任意位置上的内容进行提取,而且使得提取的数据更加准确。

Description

一种报文数据的提取方法及系统
技术领域
本发明涉及数据提取领域,具体的说,是一种报文数据的提取方法及系统。
背景技术
HTTP协议的应用并不只限于网站,在4G网络成熟、5G网络标准已建立的背景下,大量的手机应用程序涌现。HTTP协议可以承载这些应用的通信,而且应用还相当广泛。那么在这个大数据时代,获取数据对用户的行为模式进行分析显得尤为重要。
但是对于HTTP协议报文承载的数据内容进行提取,当前常用的方法是使用爬虫技术,通过加入关键字匹配技术可以实现网页内容的简单筛选,但是并不能做到对任意位置进行任意匹配,使得数据提取精准化。
发明内容
本发明所要解决的技术问题是提供一种报文数据的提取方法及系统,以对http协议报文进行任意位置的数据的提取。
本发明解决上述技术问题的技术方案如下:
一种报文数据的提取方法,包括以下步骤:
获取目标报文中提取的目标数据的位置;
根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,并提取所述目标数据。
本发明的有益效果是:通过确定报文中要提取的目标数据的在报文中的位置,并根据预设的正则表达式对所述位置的内容进行匹配,并提取所述目标数据。不仅可以实现对任意位置上的内容进行提取,而且使得提取的数据更加准确。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步地,所述根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,包括:
若所述目标数据的位置对应的报文内容具有第一字符串特征的数据,则根据预设的正则表达式对所述位置上的报文内容进行匹配。
采用上述进一步方案的有益效果是:在所述目标数据的报文位置上具有第一字符串特征的数据时,根据预设的正则表达式对该位置的内容进行匹配,可以实现数据的精准提取。
进一步地,所述获取目标报文中提取的目标数据的位置,之前还包括:
根据第二字符串特征确定所述目标报文。
采用上述进一步方案的有益效果是:进行所述第二字符串特征匹配,可以识别报文的类型,以确定该报文是否是目标报文。
进一步地,所述提取所述位置上的数据后,还包括:
对提取到的所述数据进行标记。
采用上述进一步方案的有益效果是:对提取到的所述模目标数据进行标记,可以让用户直观地了解提取的数据的属性。
同时,本发明还提出一种报文数据的提取系统,包括:
确定模块,用于获取目标报文中提取的目标数据的位置;
提取模块,用于根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,并提取所述目标数据。
本发明的有益效果是:通过确定模块确定目标报文中要提取的数据的位置,并提取模块通过根据预设的正则表达式对所述位置的内容进行匹配,提取所述位置上的数据。不仅可以实现对任意位置上的内容进行提取,而且使得提取的数据更加准确。
进一步地,所述提取模块包括提取单元,所述提取单元用于在所述目标数据的位置对应的报文内容具有第一字符串特征的数据的情况下,根据预设的正则表达式对所述位置上的报文内容进行匹配。
采用上述进一步方案的有益效果是:在所述目标数据的位置对应的报文内容具有第一字符串特征的数据时,根据预设的正则表达式对所述位置的内容进行匹配,可以实现数据的精准提取。
进一步地,所述系统还包括识别模块,所述识别模块用于根据第二字符串特征确定所述目标报文。
采用上述进一步方案的有益效果是:通过所述识别模块对所述报文进行所述第二字符串特征匹配,可以识别出报文的类型。
进一步地,所述系统还包括赋值模块,所述赋值模块用于对提取到的所述数据进行标记。
采用上述进一步方案的有益效果是:通过所述赋值模块对提取到的所述目标数据进行标记,可以让用户直观地了解提取的数据的属性。
附图说明
图1为本发明一种报文数据的提取方法的逻辑示意图;
图2为本发明一种报文数据的提取系统的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种报文数据的提取方法,包括以下步骤:
获取目标报文中提取的目标数据的位置;
根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,并提取所述目标数据。需要说明的是,由于http协议的报文可以拆分为:请求头(request_header)、请求体(request_body)、响应头(response_header)、响应体(response_body)。因此通过确定要提取的数据在http报文的具体位置,再通过预设的正则表达式对所述位置上的报文内容进行匹配,并提取所述数据,可以实现对http报文任意位置上的数据进行精准的提取。例如所述目标报文要提取的内容在所述目标报文的请求体(request_body)的位置,则直接在所述目标报文的请求体位置处根据预设的正则表达式对所述位置的内容进行匹配,提取所述位置上的数据。
本实施例中,所述根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,包括:
若所述目标数据的位置对应的报文内容具有第一字符串特征的数据,则根据预设的正则表达式对所述位置上的报文内容进行匹配。
需要说明的是,当报文中具有所述第一字符串特征,则根据预先设置的正则表达式对报文中的内容进行匹配,并进行数据的提取,具体的实施方式如下:
即确定要提取的数据的在http协议上的具体位置,然后使用正则表达式在所述位置上进行匹配查找要提前数据,并对所述数据进行提取。
可选地,所述获取目标报文中提取的目标数据的位置,之前还包括:
根据第二字符串特征确定所述目标报文。
需要说明的是,所述第二字符串特征包括hosts和/或uri关键字的值,当匹配到所述hosts和/或uri关键字的值,则可以判断所述报文是否是http报文,然后进入根据预设的正则表达式对http报文所述目标数据的位置对应的报文内容进行匹配,提取所述位置上的数据。
可选地,所述提取所述位置上的数据后,还包括:
对提取到的所述目标数据进行标记。
需要说明的是,提取到的数据在输出时,通过对提取到的所述目标数据进行标记,可以让用户直观地知道提取到的目标数据的具体含义,具体可以通过name与value的映射关系来给提取到的数据进行标记。例如:对于要提取的目标数据为电话号码“123”,则将提取到的电话号码标记为“电话号码:123”。
在实际应用场景中,可以通过抓包工具确认报文中要提取的目标数据的位置,然后通过根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,提取所述目标数据。另外,也可以对多个位置上的数据进行提取,例如可以同时对http报文中的请求头(request_header)位置、请求体(request_body)位置、响应头(response_header)位置以及响应体(response_body)位置上的数据进行提取。
同时,如图2所示,本发明还提出一种报文数据的提取系统,
确定模块,用于获取目标报文中提取的目标数据的位置;
提取模块,用于根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,并提取所述目标数据。
优选地,所述提取模块包括提取单元,所述提取单元用于在所述目标数据的位置对应的报文内容具有第一字符串特征的数据的情况下,根据预设的正则表达式对所述位置上的报文内容进行匹配。
可选地,所述系统还包括识别模块,所述识别模块用于根据第二字符串特征确定所述目标报文。
可选地,所述系统还包括赋值模块,所述赋值模块用于对提取到的所述目标数据进行标记。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种报文数据的提取方法,其特征在于,包括以下步骤:
获取目标报文中提取的目标数据的位置;
根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,并提取所述目标数据。
2.根据权利要求1所述的报文数据的提取方法,其特征在于,所述根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,包括:
若所述目标数据的位置对应的报文内容具有第一字符串特征的数据,则根据预设的正则表达式对所述位置上的报文内容进行匹配。
3.根据权利要求1所述的报文数据的提取方法,其特征在于,所述获取目标报文中提取的目标数据的位置,之前还包括:
根据第二字符串特征确定所述目标报文。
4.根据权利要求1所述的报文数据的提取方法,其特征在于,所述提取所述位置上的数据后,还包括:
对提取到的所述目标数据进行标记。
5.一种报文数据的提取系统,其特征在于,包括:
确定模块,用于获取目标报文中提取的目标数据的位置;
提取模块,用于根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,并提取所述目标数据。
6.根据权利要求5所述的报文数据的提取系统,其特征在于,所述提取模块包括提取单元,所述提取单元用于在所述目标数据的位置对应的报文内容具有第一字符串特征的数据的情况下,根据预设的正则表达式对所述位置上的报文内容进行匹配。
7.根据权利要求5所述的报文数据的提取系统,其特征在于,所述系统还包括识别模块,所述识别模块用于根据第二字符串特征确定所述目标报文。
8.根据权利要求5所述的报文数据的提取系统,其特征在于,所述系统还包括赋值模块,所述赋值模块用于对提取到的所述目标数据进行标记。
CN201910168573.8A 2019-03-06 2019-03-06 一种报文数据的提取方法及系统 Pending CN109933712A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910168573.8A CN109933712A (zh) 2019-03-06 2019-03-06 一种报文数据的提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910168573.8A CN109933712A (zh) 2019-03-06 2019-03-06 一种报文数据的提取方法及系统

Publications (1)

Publication Number Publication Date
CN109933712A true CN109933712A (zh) 2019-06-25

Family

ID=66986429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910168573.8A Pending CN109933712A (zh) 2019-03-06 2019-03-06 一种报文数据的提取方法及系统

Country Status (1)

Country Link
CN (1) CN109933712A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111092880A (zh) * 2019-12-13 2020-05-01 支付宝(杭州)信息技术有限公司 一种网络流量数据提取方法及装置
CN112511643A (zh) * 2020-12-07 2021-03-16 北京天融信网络安全技术有限公司 一种报文数据提取方法及装置
CN113569106A (zh) * 2021-06-16 2021-10-29 东风汽车集团股份有限公司 一种can数据识别方法、装置和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102217281A (zh) * 2011-06-13 2011-10-12 华为技术有限公司 协议解析方法及装置
US20120124175A1 (en) * 2010-11-17 2012-05-17 Jin Hong Yang Atom-based really simple syndication (rss) content reader system and method, and atom-based rss content providing system and method
CN105653531A (zh) * 2014-11-12 2016-06-08 中兴通讯股份有限公司 数据提取方法及装置
CN108076010A (zh) * 2016-11-10 2018-05-25 中国移动通信集团广东有限公司 一种xml报文解析方法及服务器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120124175A1 (en) * 2010-11-17 2012-05-17 Jin Hong Yang Atom-based really simple syndication (rss) content reader system and method, and atom-based rss content providing system and method
CN102217281A (zh) * 2011-06-13 2011-10-12 华为技术有限公司 协议解析方法及装置
CN105653531A (zh) * 2014-11-12 2016-06-08 中兴通讯股份有限公司 数据提取方法及装置
CN108076010A (zh) * 2016-11-10 2018-05-25 中国移动通信集团广东有限公司 一种xml报文解析方法及服务器

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111092880A (zh) * 2019-12-13 2020-05-01 支付宝(杭州)信息技术有限公司 一种网络流量数据提取方法及装置
CN111092880B (zh) * 2019-12-13 2022-08-09 支付宝(杭州)信息技术有限公司 一种网络流量数据提取方法及装置
CN112511643A (zh) * 2020-12-07 2021-03-16 北京天融信网络安全技术有限公司 一种报文数据提取方法及装置
CN113569106A (zh) * 2021-06-16 2021-10-29 东风汽车集团股份有限公司 一种can数据识别方法、装置和设备
CN113569106B (zh) * 2021-06-16 2023-10-13 东风汽车集团股份有限公司 一种can数据识别方法、装置和设备

Similar Documents

Publication Publication Date Title
CN109933712A (zh) 一种报文数据的提取方法及系统
CN109729183B (zh) 请求处理方法、装置、设备及存储介质
CN104715752A (zh) 语音识别方法、装置及系统
CN106572048A (zh) 一种社交网络中用户信息的识别方法和系统
CN102130945A (zh) 移动通讯设备实时远程控制系统及控制方法
CN113825129B (zh) 一种5g网络环境下工业互联网资产测绘方法
CN102801698B (zh) 一种基于url请求时序的恶意代码检测方法和系统
CN105868169B (zh) 一种数据采集装置、数据采集方法和系统
CN105871585A (zh) 终端关联方法及装置
CN106487748A (zh) 数据传输方法、装置及系统
CN109614518A (zh) 一种网络流量数据存储、还原方法及系统
CN102523296A (zh) 无线网页浏览资源优化方法、装置及系统
CN109634908A (zh) 数据关联方法、数据处理设备及存储介质
WO2016201876A1 (zh) 一种加密流量的业务识别方法、装置和计算机存储介质
CN102984242A (zh) 一种应用协议的自动识别方法和装置
CN104065613B (zh) 一种应用的离线操作数据的同步方法、系统及装置
CN103227815B (zh) 控制浏览器缓存的方法及装置
CN111124866B (zh) 一种语音交互的方法和装置
CN105224573B (zh) 一种规则数据配置方法及装置、系统
CN113315736B (zh) 一种业务进程间的数据同步方法和装置
CN102891781B (zh) 网络共享检测系统和网络共享检测方法
KR101467942B1 (ko) 고속 어플리케이션 인지 시스템 및 처리 방법
CN104077287B (zh) 一种信息处理方法及电子设备
CN105447077B (zh) 基于OpenFlow的查询词抽取方法及系统
CN115175172B (zh) 数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190625

RJ01 Rejection of invention patent application after publication