CN110516143B - 一种基于浏览器的业务数据提取方法及装置 - Google Patents
一种基于浏览器的业务数据提取方法及装置 Download PDFInfo
- Publication number
- CN110516143B CN110516143B CN201810549928.3A CN201810549928A CN110516143B CN 110516143 B CN110516143 B CN 110516143B CN 201810549928 A CN201810549928 A CN 201810549928A CN 110516143 B CN110516143 B CN 110516143B
- Authority
- CN
- China
- Prior art keywords
- data
- browser
- service
- target service
- request
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/51—Discovery or management thereof, e.g. service location protocol [SLP] or web services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Abstract
本文公开一种基于浏览器的业务数据提取方法及装置,此方法包括:获取基于浏览器的交互数据作为第一数据;从所述第一数据中去除与目标业务无关的协议对应的数据,再去除与浏览器界面相关的数据,获得第二数据;在所述第二数据中根据所述目标业务的关键字检索到服务端的响应数据,确定与所述响应数据对应的所述浏览器发向所述服务端的请求数据;根据所述请求数据提取业务数据。提高处理效率,提高数据获取的有效程度。本文提高了查询效率,明确了查询和搜索的流程,对类似业务数据提取的方案,具有一定的通信性和指导意义。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于浏览器的业务数据提取方法及装置。
背景技术
随着互联网技术的快速发展,以及用户使用规模的急剧增加,用户通过浏览器与服务端的交互越来越多。例如,在使用应用程序接口(Application Program Interface,简称API)实现孤岛数据融合、应用重组和业务构建的情境下,在表单处理业务中,每次进行表单提交时都会在浏览器和服务端产生大量网络请求和网络响应。使用数据抓包与分析工具进行数据提取和分析时,抓取到数据中会存在大量的与业务数据不相关的信息。使常规则的数据抓包与分析工具(例如分析网页源码或网络请求序列的工具)提取业务数据时存在以下缺点:
一,待分析数据的数据量庞大,大量耗费人力和设备的处理能力;
二,搜索条件复杂;
三,部分核心数据流中包括未知来源的数据,无法从这些数据中提取到与业务相关的信息。
发明内容
为了解决上述技术问题,本发明提供了一种基于浏览器的业务数据提取方法及装置。
本发明提供的基于浏览器的业务数据提取方法,包括:
获取基于浏览器的交互数据作为第一数据;
从所述第一数据中去除与目标业务无关的协议对应的数据,再去除与浏览器界面相关的数据,获得第二数据;
在所述第二数据中根据所述目标业务的关键字检索到服务端的响应数据,确定与所述响应数据对应的所述浏览器发向所述服务端的请求数据;
根据所述请求数据提取业务数据。
上述基于浏览器的业务数据提取方法还具有以下特点:
所述根据所述请求数据获取业务数据包括:
从所述请求数据中选择出来源为未知来源的数据段,确定所述数据段首次出现的位置,根据所述位置的上下文数据包进行数据修正,获得修正后的数据。
上述基于浏览器的业务数据提取方法还具有以下特点:
所述与目标业务无关的协议为HTTP以及HTTPS,所述与浏览器界面相关的数据包括内容类型为以下类型之一的数据:图像、音频、视频、应用。
上述基于浏览器的业务数据提取方法还具有以下特点:
所述根据所述位置的上下文数据包进行数据修正包括:根据所述位置的上下文数据包中编码前和编码后的参数数值,根据所述位置的上下文数据包定位到编码算法对应的Java Script文件,根据所述参数数值和Java Script文件进行数据修正获得修正后的业务数据。
上述基于浏览器的业务数据提取方法还具有以下特点:
所述目标业务的关键字为用户在所述浏览器的页面上输入的数据。
本发明提供的基于浏览器的业务数据提取装置,包括:
采集模块,用于获取基于浏览器的交互数据作为第一数据;
筛选模块,用于从所述第一数据中去除与目标业务无关的协议对应的数据,再去除与浏览器界面相关的数据,获得第二数据;
确定模块,用于在所述第二数据中根据所述目标业务的关键字检索到服务端的响应数据,确定与所述响应数据对应的所述浏览器发向所述服务端的请求数据;
提取模块,用于根据所述请求数据提取业务数据。
上述基于浏览器的业务数据提取装置还具有以下特点:
所述提取模块包括选择单元、确定单元和修正单元;
所述选择单元,用于从所述请求数据中选择出来源为未知来源的数据段;
所述确定单元,用于确定所述数据段首次出现的位置;
所述修正单元,用于根据所述位置的上下文数据包进行数据修正,获得修正后的数据。
上述基于浏览器的业务数据提取装置还具有以下特点:
所述与目标业务无关的协议为HTTP以及HTTPS,所述与浏览器界面相关的数据包括内容类型为以下类型之一的数据:图像、音频、视频、应用。
上述基于浏览器的业务数据提取装置还具有以下特点:
所述修正单元,还用于使用以下方法根据所述位置的上下文数据包进行数据修正:根据所述位置的上下文数据包中编码前和编码后的参数数值,根据所述位置的上下文数据包定位到编码算法对应的Java Script文件,根据所述参数数值和Java Script文件进行数据修正获得修正后的业务数据。
上述基于浏览器的业务数据提取装置还具有以下特点:
所述装置还包括:交互模块,用于接收用户在所述浏览器的页面上输入的数据,所述目标业务的关键字为用户在所述浏览器的页面上输入的数据。
本发明从复杂的B-S系统的数据中,剥离开界面相关内容,后获取具体的业务数据,本发明包括以下优点:
一,提高处理效率,提高数据获取的有效程度。
二,明确了查询和搜索的流程,对类似业务数据提取的方案,具有一定的通信性和指导意义。
三,对查找的内容设置多种维度的优化,进一步提高了查询效率。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是实施例中基于浏览器的业务数据提取方法的流程图;
图2是实施例中基于浏览器的业务数据提取装置的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
如图1所示,基于浏览器的业务数据提取方法包括:
步骤101,获取基于浏览器的交互数据作为第一数据;
步骤102,从第一数据中去除与目标业务无关的协议对应的数据,再去除与浏览器界面相关的数据,获得第二数据;
步骤103,在第二数据中根据目标业务的关键字检索到服务端的响应数据,确定与响应数据对应的浏览器发向服务端的请求数据;
步骤104,根据请求数据提取业务数据。
其中,
步骤102中与目标业务无关的协议为HTTP以及HTTPS。业务为表单业务时,与浏览器界面相关的数据包中数据的内容类型一般包括以下类型中的一种:布尔,整形,浮点,字符串。与浏览器界面相关的数据包括内容类型为以下类型之一的数据:图像、音频、视频、应用。
浏览器与服务器的每一次交互均会产生一数据流,数据流中包含所有界面展示出来的结果,在执行步骤102之前,将第一数据中的数据流按时间顺序进行排序,在执行步骤102中对按顺序排列的数据进行并行搜索和排除。
步骤103中目标业务的关键字为用户在浏览器的页面上输入的数据,例如:表单中子项的标识、表单中子项的名称、具体值;或者是用户提交的查询条件。
步骤104中根据请求数据获取业务数据包括:从请求数据中选择出来源为未知来源的数据段,确定数据段首次出现的位置,根据此位置的上下文数据包进行数据修正,获得修正后的数据。其中,根据位置的上下文数据包进行数据修正包括:根据位置的上下文数据包中编码前和编码后的参数数值,根据位置的上下文数据包定位到编码算法对应的JavaScript文件,根据参数数值和Java Script文件进行数据修正获得修正后的业务数据。此修正步骤可以使本方法在未知来源的数据中提取到与业务相关的信息,提高了业务数据提取的效率,并且保证了数据的一致性和来源可追性。
如图2所示,基于浏览器的业务数据提取装置,包括:
采集模块,用于获取基于浏览器的交互数据作为第一数据;
筛选模块,用于从第一数据中去除与目标业务无关的协议对应的数据,再去除与浏览器界面相关的数据,获得第二数据;
确定模块,用于在第二数据中根据目标业务的关键字检索到服务端的响应数据,确定与响应数据对应的浏览器发向服务端的请求数据;
提取模块,用于根据请求数据提取业务数据。
其中,
提取模块包括选择单元、确定单元和修正单元;
选择单元,用于从请求数据中选择出来源为未知来源的数据段;
确定单元,用于确定数据段首次出现的位置;
修正单元,用于根据位置的上下文数据包进行数据修正,获得修正后的数据。
与目标业务无关的协议为HTTP以及HTTPS,与浏览器界面相关的数据包括内容类型为以下类型之一的数据:图像、音频、视频、应用。
修正单元还用于使用以下方法根据位置的上下文数据包进行数据修正:根据位置的上下文数据包中编码前和编码后的参数数值,根据位置的上下文数据包定位到编码算法对应的Java Script文件,根据参数数值和Java Script文件进行数据修正获得修正后的业务数据。此修正单元可以使本装置在未知来源的数据中提取到与业务相关的信息,提高了业务数据提取的效率,并且保证了数据的一致性和来源可追性。
此装置还包括:交互模块,用于接收用户在浏览器的页面上输入的数据,目标业务的关键字为用户在浏览器的页面上输入的数据。
下面通过具体实施例进行详细说明。
本具体实施例中,应用的对象为某地产公司的订单系统。
步骤1,获取基于浏览器的交互数据作为第一数据,具体包括:
启动数据抓取程序,演绎数据产生过程,开启浏览器登录系统,输入查询时间段,服务器返回此查询时间段内的订单查询结果作为第一数据,结束数据抓取。
步骤2,从第一数据中去除与目标业务无关的协议对应的数据,再去除与浏览器界面相关的数据,获得第二数据,具体包括:
首先过滤掉非HTTP和非HTTPS协议的数据包,其次过滤掉jpg,png,ico,bmp,css和界面渲染相关的数据包,再次搜寻与核心业务数据交互的数据包,作为第二数据。
步骤3,在第二数据中根据所述目标业务的关键字检索到服务端的响应数据,确定与响应数据对应的所述浏览器发向所述服务端的请求数据,具体包括:
根据第二数据中的订单详细信息和客户电话定位到响应数据包,经过校验该响应的数据包中也包含其他订单的详细信息。其中,查询响应与查询请求是一一对应的,查询请求将用于后继的业务数据请求,请求的参数即是日期开始时间与日期结束时间,根据响应数据对应的所述浏览器发向所述服务端的请求数据。
步骤4,从请求数据中选择出来源为未知来源的数据段,具体包括:
查询到查询请求中有一处未知字段:cookies,继续在所有数据包中查询cookies首次出现的位置,发现是在一处与登录Login相关的服务器回复的数据包中,而登录请求中的参数即是用户名和密码。
步骤5,根据所述位置的上下文数据包进行数据修正,获得修正后的数据,具体包括:
重新模拟业务请求以实现数据获取,包括:
第一,模拟登录请求,发送用户名和密码,记录服务器返回的cookies;
第二,模拟查询请求,发送cookies和查询的时间段,解析返回过来的查询结果。
根据模拟结果获得修改正后的数据。
上面描述的内容可以单独地或者以各种方式组合起来实施,而这些变型方式都在本发明的保护范围之内。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案而非限制,仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于浏览器的业务数据提取方法,其特征在于,包括:
获取基于浏览器的交互数据作为第一数据;
从所述第一数据中去除与目标业务无关的协议对应的数据,再去除与浏览器界面相关的数据,获得第二数据;
在所述第二数据中根据所述目标业务的关键字检索到服务端的响应数据,确定与所述响应数据对应的所述浏览器发向所述服务端的请求数据;
根据所述请求数据提取业务数据,包括:
从所述请求数据中选择出来源为未知来源的数据段,确定所述数据段首次出现的位置,根据所述位置的上下文数据包进行数据修正,获得修正后的数据。
2.如权利要求1所述的基于浏览器的业务数据提取方法,其特征在于,
所述与目标业务无关的协议为HTTP以及HTTPS,所述与浏览器界面相关的数据包括内容类型为以下类型之一的数据:图像、音频、视频、应用。
3.如权利要求1所述的基于浏览器的业务数据提取方法,其特征在于,
所述根据所述位置的上下文数据包进行数据修正包括:根据所述位置的上下文数据包中编码前和编码后的参数数值,根据所述位置的上下文数据包定位到编码算法对应的JavaScript文件,根据所述参数数值和Java Script文件进行数据修正获得修正后的业务数据。
4.如权利要求1所述的基于浏览器的业务数据提取方法,其特征在于,
所述目标业务的关键字为用户在所述浏览器的页面上输入的数据。
5.一种基于浏览器的业务数据提取装置,其特征在于,包括:
采集模块,用于获取基于浏览器的交互数据作为第一数据;
筛选模块,用于从所述第一数据中去除与目标业务无关的协议对应的数据,再去除与浏览器界面相关的数据,获得第二数据;
确定模块,用于在所述第二数据中根据所述目标业务的关键字检索到服务端的响应数据,确定与所述响应数据对应的所述浏览器发向所述服务端的请求数据;
提取模块,用于根据所述请求数据提取业务数据,
所述提取模块包括选择单元、确定单元和修正单元;
所述选择单元,用于从所述请求数据中选择出来源为未知来源的数据段;
所述确定单元,用于确定所述数据段首次出现的位置;
所述修正单元,用于根据所述位置的上下文数据包进行数据修正,获得修正后的数据。
6.如权利要求5所述的基于浏览器的业务数据提取装置,其特征在于,
所述与目标业务无关的协议为HTTP以及HTTPS,所述与浏览器界面相关的数据包括内容类型为以下类型之一的数据:图像、音频、视频、应用。
7.如权利要求5所述的基于浏览器的业务数据提取装置,其特征在于,
所述修正单元,还用于使用以下方法根据所述位置的上下文数据包进行数据修正:根据所述位置的上下文数据包中编码前和编码后的参数数值,根据所述位置的上下文数据包定位到编码算法对应的Java Script文件,根据所述参数数值和Java Script文件进行数据修正获得修正后的业务数据。
8.如权利要求5所述的基于浏览器的业务数据提取装置,其特征在于,
所述装置还包括:交互模块,用于接收用户在所述浏览器的页面上输入的数据,所述目标业务的关键字为用户在所述浏览器的页面上输入的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810549928.3A CN110516143B (zh) | 2018-05-31 | 2018-05-31 | 一种基于浏览器的业务数据提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810549928.3A CN110516143B (zh) | 2018-05-31 | 2018-05-31 | 一种基于浏览器的业务数据提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110516143A CN110516143A (zh) | 2019-11-29 |
CN110516143B true CN110516143B (zh) | 2020-06-12 |
Family
ID=68622219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810549928.3A Active CN110516143B (zh) | 2018-05-31 | 2018-05-31 | 一种基于浏览器的业务数据提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110516143B (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4846012B2 (ja) * | 2009-10-05 | 2011-12-28 | 株式会社日立製作所 | 業務フロー検索システム、業務フロー検索方法、および業務フロー検索プログラム |
CN102664935B (zh) * | 2012-04-06 | 2014-10-01 | 北京锐安科技有限公司 | 一种web类用户行为和用户信息的关联输出方法及系统 |
CN103475529B (zh) * | 2013-10-11 | 2016-06-01 | 大唐移动通信设备有限公司 | 一种核心网侧业务面跟踪方法、装置以及业务面跟踪系统 |
CN103888456A (zh) * | 2014-03-18 | 2014-06-25 | 国家电网公司 | 一种网页客户端、服务端以及数据处理装置和方法 |
CN104199725B (zh) * | 2014-09-27 | 2017-12-22 | 上海瀚之友信息技术服务有限公司 | 一种服务接口数据模拟方法和系统 |
CN104468790B (zh) * | 2014-12-09 | 2018-09-11 | 北京奇虎科技有限公司 | cookie数据的处理方法与客户端 |
CN105700894A (zh) * | 2016-02-25 | 2016-06-22 | 深圳市分期乐网络科技有限公司 | 一种修改http响应数据的方法及装置 |
-
2018
- 2018-05-31 CN CN201810549928.3A patent/CN110516143B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110516143A (zh) | 2019-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6494777B2 (ja) | 端末にプッシュされるデータコンテンツを選択するための方法およびデバイス | |
CN109948334B (zh) | 一种漏洞检测方法、系统及电子设备和存储介质 | |
CN110798445B (zh) | 公共网关接口测试方法、装置、计算机设备及存储介质 | |
US10452730B2 (en) | Methods for analyzing web sites using web services and devices thereof | |
US20170017695A1 (en) | Question and answer information providing system, information processing device, and non-transitory computer-readable medium | |
CN106790593B (zh) | 一种页面处理方法和装置 | |
CN111400586A (zh) | 群组展示方法、终端、服务器、系统及存储介质 | |
CN107977678A (zh) | 用于输出信息的方法和装置 | |
CN114629929A (zh) | 一种日志记录方法、装置及系统 | |
CN108011936B (zh) | 用于推送信息的方法和装置 | |
CN113055420B (zh) | Https业务识别方法、装置及计算设备 | |
CN110516143B (zh) | 一种基于浏览器的业务数据提取方法及装置 | |
CN111209325A (zh) | 业务系统接口识别方法、装置及存储介质 | |
CN105740453B (zh) | 信息推送方法和装置 | |
CN107066510B (zh) | 一种信息处理方法及装置 | |
KR102023999B1 (ko) | 웹 페이지를 생성하는 방법 및 장치 | |
CN109214846B (zh) | 信息存储方法和装置 | |
US20200314190A1 (en) | De termining that multiple requests are received from a particular user device | |
CN115865457A (zh) | 一种网络攻击行为的识别方法、服务器及介质 | |
CN113453076B (zh) | 用户视频业务质量评估方法、装置、计算设备和存储介质 | |
CN104899320A (zh) | 网页修复方法、终端、服务器及系统 | |
CN105677827B (zh) | 一种表单的获取方法及装置 | |
CN109213541A (zh) | App应用展示界面的方法、装置和电子设备 | |
CN103533009A (zh) | 一种基于Web技术实现音视频推荐的方法和系统 | |
CN110633430B (zh) | 事件发现方法、装置、设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |