CN107256276A - 一种基于云平台的移动App内容安全获取方法及设备 - Google Patents
一种基于云平台的移动App内容安全获取方法及设备 Download PDFInfo
- Publication number
- CN107256276A CN107256276A CN201710647119.1A CN201710647119A CN107256276A CN 107256276 A CN107256276 A CN 107256276A CN 201710647119 A CN201710647119 A CN 201710647119A CN 107256276 A CN107256276 A CN 107256276A
- Authority
- CN
- China
- Prior art keywords
- app
- data
- mobile terminal
- link
- data interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于云平台的移动App内容安全获取方法及设备,方法包括接收第一数据,解析生成触发链接,发送至移动终端;在移动终端的App中执行模拟点击所述触发链接的操作,触发App服务器与移动终端的数据交互;监听所述数据交互,获取与App内容相对应的URL链接;通过所述URL链接,获取APP内容。
Description
技术领域
本发明涉及云平台和网络技术领域,是一种基于云平台的移动App内容安全获取方法及设备。
背景技术
网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。爬虫大致的工作流程:(1)首先选取URL;(2)将这些URL放入待抓取URL队列;(3)从待抓取URL队列中取出待抓取的URL,解析DNS,并且得到主机的IP,并将URL对应的网页下载下来,存储,此外,将这些URL放进已抓取URL队列;(4)分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。
传统基于网站的互联网爬虫已经有成熟的方案,而针对移动App的爬虫,则需要做一些改进。很多App在设计API时,为了减小明文的暴露次数,保证数据安全的访问,会在链接中带上一些请求参数,我们想要获取相应内容,就需要知道每个参数的生成方式,过程十分复杂。
发明内容
针对现有技术中存在的不足,本发明提供了一种基于云平台的移动App内容安全获取方法,可以安全的对移动App进行数据爬取。
本发明的技术方案为:
一种基于云平台的移动App内容安全获取方法,包括:
接收第一数据,解析生成触发链接,发送至移动终端;
在移动终端的App中执行模拟点击所述触发链接的操作,触发App服务器与移动终端的数据交互;
监听所述数据交互,获取与App内容相对应的URL链接;
通过所述URL链接,获取APP内容。
进一步的,监听所述数据交互,获取与移动App内容相对应的URL链接包括:
基于Xposed框架,编写hook程序,用于监听所述数据交互,在不影响App正常使用的情况下获取基于数据交互所产生的原始数据,从原始数据中提取与App内容相对应的URL链接,并以任务队列的形式向外发送所述URL链接。
进一步的,采用Socket通信将所述触发链接分发到多个移动终端上,监听多个移动终端与App服务器的数据交互,同时获取多个APP的内容。
进一步的,当所述触发链接为模拟登陆带有验证码的页面时,所述数据交互包括:首先访问验证码页面,保存验证码、获取cookie用于登录,分析登录地址需要post提交的request和header信息,然后向登录地址post提交表单数据中的登录信息。
进一步的,为监听所述数据交互设置时间间隔,并根据数据交互的容量调整时间间隔。
进一步的,对所述原始数据进行去重操作、去除无关内容操作,或者根据相似规则去除由程序生成的代码内容。
进一步的,当被访问的App服务器设置了robot.txt文件来限制获取内容,设置回复所述robot.txt文件中ROBOTSTXT_OBEY=True用于默认打开被访问页面。.
本发明还提出了一种基于云平台的移动App内容安全获取系统,包括:
爬虫系统服务器,用于接收第一数据,解析生成触发链接,发送至移动终端;接收移动终端获取的基于数据交互所产生的原始数据,从原始数据中提取与移动App内容相对应的URL链接,并以任务队列的形式向数据库发送所述URL链接;
数据库,向爬虫系统服务器发送第一数据,并且接收发送系统服务器返回的URL链接。
移动终端,用于接收触发链接,在移动终端的移动App中模拟点击所述触发链接,触发App服务器与移动终端的数据交互;监听所述数据交互,获取基于数据交互所产生的原始数据。
本发明还提出了一种基于云平台的App内容安全获取移动终端,包括处理器,用于实现各指令;以及存储装置,其中存储多条指令,所述指令由处理器加载并执行以下处理:
接收触发链接,在移动终端的App中模拟点击所述触发链接,触发App服务器与移动终端的数据交互;基于Xposed框架,编写hook程序,用于监听所述数据交互,在不影响App正常使用的情况下获取基于数据交互所产生的原始数据。
本发明还提出了一种云平台:包括处理器,用于实现各指令;以及存储装置,用于存储多条指令,所述指令适于由处理器加载并执行以下处理:
接收第一数据,解析生成触发链接,发送至移动终端;接收移动终端获取的基于数据交互所产生的原始数据,从原始数据中提取与移动App内容相对应的URL链接,并以任务队列的形式向数据库发送所述URL链接。
本发明的有益效果:
本发明针对App的带参请求链接,提出了一种基于云平台的移动App内容安全获取方法,主要思想是在移动端模拟点击对应的接口链接,触发移动终端与服务端间的数据交互,这一请求过程则会生成我们需要的链接。通过监听移动终端与服务器通信的接口来获取到请求链接,可以对移动App进行实现安全、简易地数据爬取。
附图说明
图1为本发明的系统结构图。
具体实施方式:
下面结合附图与实施例对本发明作进一步说明:
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本发明的一种典型实施例是:
一种基于云平台的移动App内容安全获取方法,包括:
接收第一数据,解析生成触发链接,发送至移动终端;
在移动终端的App中执行模拟点击所述触发链接的操作,触发App服务器与移动终端的数据交互;
监听所述数据交互,获取与App内容相对应的URL链接;
通过所述URL链接,获取APP内容。
其中接收第一数据,解析生成触发链接,发送至移动终端,通过编写“设备协调程序”来执行,该程序负责从数据库中取出数据(也就是触发链接)通过Socket通信分发给移动终端端上的“数据预处理程序”。可以分发到多个移动终端上,监听多个移动终端与App服务器的数据交互,同时获取多个APP的内容。
移动终端端上的“数据预处理程序”用来接收所述触发链接,然后交给“点击事件处理程序”,起到移动终端与爬虫系统服务器“设备协调程序”之间沟通以及设备端数据预处理的作用;
“点击事件处理程序”,负责执行模拟点击链接操作,触发服务器与移动终端的数据交互。
上述方法中监听所述数据交互,获取与移动App内容相对应的URL链接包括:
基于Xposed框架,编写hook程序,用于监听所述数据交互,在不影响App正常使用的情况下获取基于数据交互所产生的原始数据,从原始数据中提取与App内容相对应的URL链接,并以任务队列的形式向外发送所述URL链接。
由于目前大多数被访问的页面带有验证码,每次访问或者登录时均需要输入验证码,本方法考虑到当所述触发链接为模拟登陆带有验证码的页面时,数据交互包括:首先访问验证码页面,保存验证码、获取cookie用于登录,分析登录地址需要post提交的request和header信息,然后向登录地址post提交表单数据中的登录信息。
同时为了获取内容的有效性,为监听所述数据交互设置时间间隔,并根据数据交互的容量调整时间间隔。
采用本方法获取的原始数据包含有大量的噪声,需要对所述原始数据进行去重操作、去除无关内容操作,或者根据相似规则去除由程序生成的代码内容。
进一步的,当被访问的App服务器设置了robot.txt文件来限制获取内容,设置回复所述robot.txt文件中ROBOTSTXT_OBEY=True用于默认打开被访问页面。.这一设置可以跨过限制,有效获取数据。
本发明还提出了一种基于云平台的移动App内容安全获取系统,如图1所示包括:
爬虫系统服务器,用于接收第一数据,解析生成触发链接,发送至移动终端;接收移动终端获取的基于数据交互所产生的原始数据,从原始数据中提取与移动App内容相对应的URL链接,并以任务队列的形式向数据库发送所述URL链接;
数据库,向爬虫系统服务器发送第一数据,并且接收发送系统服务器返回的URL链接。
移动终端,用于接收触发链接,在移动终端的移动App中模拟点击所述触发链接,触发App服务器与移动终端的数据交互;监听所述数据交互,获取基于数据交互所产生的原始数据。
本发明还提出了一种基于云平台的App内容安全获取移动终端,包括处理器,用于实现各指令;以及存储装置,其中存储多条指令,所述指令由处理器加载并执行以下处理:
接收触发链接,在移动终端的App中模拟点击所述触发链接,触发App服务器与移动终端的数据交互;基于Xposed框架,编写hook程序,用于监听所述数据交互,在不影响App正常使用的情况下获取基于数据交互所产生的原始数据。
本发明还提出了一种云平台:包括处理器,用于实现各指令;以及存储装置,用于存储多条指令,所述指令适于由处理器加载并执行以下处理:
接收第一数据,解析生成触发链接,发送至移动终端;接收移动终端获取的基于数据交互所产生的原始数据,从原始数据中提取与移动App内容相对应的URL链接,并以任务队列的形式向数据库发送所述URL链接。
正如上文所述,各个指令通过编写独立的程序执行本发明的目的,其中移动终端包括以下程序:
(一)移动终端数据处理程序
1)“数据预处理程序”,负责接收爬虫系统的服务端发送的数据,并将接收的数据解析为触发链接,然后交给“点击事件处理程序”,起到移动终端与爬虫系统服务器“设备协调程序”之间沟通以及设备端数据预处理的作用;
2)“点击事件处理程序”,负责执行模拟点击链接操作,触发服务器与客户端的数据交互;
(二)hook程序
这一部分的开发基于Xposed框架,需要在移动终端(Android系统)上预装Xposed框架。负责hook服务器与客户端的交互数据,将该程序绑定在手机上,可以在不影响App正常使用的情况下获取App和服务器之间的交互数据,之后回传给爬虫系统的服务端。
其中爬虫系统服务器包括以下程序:
爬虫系统服务器程序
该程序分成三部分功能:
1)“设备协调程序”,负责从数据库中取出数据(也就是触发链接)通过Socket通信分发给移动终端端上的“数据预处理程序”。
2)“hook服务器端程序”,负责随时等待绑定到移动端的hook程序传回数据,并把数据送入到爬虫系统“服务端数据处理程序”的任务队列中,起到“hook程序”与“服务端数据处理程序”之间沟通的作用。
3)“服务端数据处理程序”,负责处理“hook程序”传回来的数据,解析出所需链接,获取相应数据并存入数据库;
爬虫系统工作流程:
1)爬虫系统服务器的“设备协调程序”从数据库中取出数据分发给移动终端端上的“数据预处理程序”。
2)移动终端端上的“数据预处理程序”接受并处理分发的数据为可点击的链接并转交给“点击事件处理程序”,由它执行点击链接操作,从而触发App和服务器之间的数据交互。
3)“hook程序”获取到了它们之间的交互数据,然后发送原始数据给爬虫系统服务器的“hook服务器端程序”。
4)“hook服务器端程序”接收数据后,系统启动一个“服务端数据处理程序”进程,“hook服务器端程序”把数据传给该进程,进行数据处理和存储。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于云平台的移动App内容安全获取方法,其特征在于,包括:
接收第一数据,解析生成触发链接,发送至移动终端;
在移动终端的App中执行模拟点击所述触发链接的操作,触发App服务器与移动终端的数据交互;
监听所述数据交互,获取与App内容相对应的URL链接;
通过所述URL链接,获取APP内容。
2.根据权利要求1所述的方法,其特征在于,监听所述数据交互,获取与移动App内容相对应的URL链接包括:
基于Xposed框架,编写hook程序,用于监听所述数据交互,在不影响App正常使用的情况下获取基于数据交互所产生的原始数据,从原始数据中提取与App内容相对应的URL链接,并以任务队列的形式向外发送所述URL链接。
3.根据权利要求1所述的方法,其特征在于,采用Socket通信将所述触发链接分发到多个移动终端上,监听多个移动终端与App服务器的数据交互,同时获取多个APP的内容。
4.根据权利要求1所述的方法,其特征在于,当所述触发链接为模拟登陆带有验证码的页面时,所述数据交互包括:首先访问验证码页面,保存验证码、获取cookie用于登录,分析登录地址需要post提交的request和header信息,然后向登录地址post提交表单数据中的登录信息。
5.根据权利要求1所述的方法,其特征在于,为监听所述数据交互设置时间间隔,并根据数据交互的容量调整时间间隔。
6.根据权利要求2所述的方法,其特征在于,对所述原始数据进行去重操作、去除无关内容操作,或者根据相似规则去除由程序生成的代码内容。
7.根据权利要求2所述的方法,其特征在于,当被访问的App服务器设置了robot.txt文件来限制获取内容,设置回复所述robot.txt文件中ROBOTSTXT_OBEY = True用于默认打开被访问页面。
8.一种基于云平台的移动App内容安全获取系统,其特征在于,包括:
爬虫系统服务器,用于接收第一数据,解析生成触发链接,发送至移动终端;接收移动终端获取的基于数据交互所产生的原始数据,从原始数据中提取与移动App内容相对应的URL链接,并以任务队列的形式向数据库发送所述URL链接;
数据库,向爬虫系统服务器发送第一数据,并且接收发送系统服务器返回的URL链接;
移动终端,用于接收触发链接,在移动终端的移动App中模拟点击所述触发链接,触发App服务器与移动终端的数据交互;监听所述数据交互,获取基于数据交互所产生的原始数据。
9.一种基于云平台的App内容安全获取移动终端,其特征在于:包括处理器,用于实现各指令;以及存储装置,其中存储多条指令,所述指令由处理器加载并执行以下处理:
接收触发链接,在移动终端的App中模拟点击所述触发链接,触发App服务器与移动终端的数据交互;基于Xposed框架,编写hook程序,用于监听所述数据交互,在不影响App正常使用的情况下获取基于数据交互所产生的原始数据。
10.一种云平台,其特征在于:包括处理器,用于实现各指令;以及存储装置,用于存储多条指令,所述指令适于由处理器加载并执行以下处理:
接收第一数据,解析生成触发链接,发送至移动终端;接收移动终端获取的基于数据交互所产生的原始数据,从原始数据中提取与移动App内容相对应的URL链接,并以任务队列的形式向数据库发送所述URL链接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710647119.1A CN107256276A (zh) | 2017-08-01 | 2017-08-01 | 一种基于云平台的移动App内容安全获取方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710647119.1A CN107256276A (zh) | 2017-08-01 | 2017-08-01 | 一种基于云平台的移动App内容安全获取方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107256276A true CN107256276A (zh) | 2017-10-17 |
Family
ID=60025396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710647119.1A Pending CN107256276A (zh) | 2017-08-01 | 2017-08-01 | 一种基于云平台的移动App内容安全获取方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107256276A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648060A (zh) * | 2018-05-16 | 2018-10-12 | 北京安云世纪科技有限公司 | 应用数据处理方法、装置和计算机可读存储介质 |
CN108804559A (zh) * | 2018-05-22 | 2018-11-13 | 清华大学 | 一种移动应用内容获取方法及装置 |
CN109918553A (zh) * | 2019-01-31 | 2019-06-21 | 平安科技(深圳)有限公司 | 移动终端爬取数据的方法、装置、移动终端和存储介质 |
CN112199568A (zh) * | 2020-09-28 | 2021-01-08 | 时趣互动(北京)科技有限公司 | 移动app数据抓取方法、装置及系统 |
CN114154272A (zh) * | 2021-12-24 | 2022-03-08 | 广州涂涂乐科技有限公司 | 一种应用于喷胶设备的自动清洁控制方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645815A (zh) * | 2008-08-06 | 2010-02-10 | 百度在线网络技术(北京)有限公司 | 音视频文件下载提示方法 |
CN102360349A (zh) * | 2011-07-21 | 2012-02-22 | 深圳市万兴软件有限公司 | 一种获取网页中音/视频链接地址的方法及装置 |
CN104486140A (zh) * | 2014-11-28 | 2015-04-01 | 华北电力大学 | 一种检测网页被劫持的装置及其检测方法 |
CN106130959A (zh) * | 2016-06-12 | 2016-11-16 | 微梦创科网络科技(中国)有限公司 | 恶意应用识别方法及装置 |
-
2017
- 2017-08-01 CN CN201710647119.1A patent/CN107256276A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645815A (zh) * | 2008-08-06 | 2010-02-10 | 百度在线网络技术(北京)有限公司 | 音视频文件下载提示方法 |
CN102360349A (zh) * | 2011-07-21 | 2012-02-22 | 深圳市万兴软件有限公司 | 一种获取网页中音/视频链接地址的方法及装置 |
CN104486140A (zh) * | 2014-11-28 | 2015-04-01 | 华北电力大学 | 一种检测网页被劫持的装置及其检测方法 |
CN106130959A (zh) * | 2016-06-12 | 2016-11-16 | 微梦创科网络科技(中国)有限公司 | 恶意应用识别方法及装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648060A (zh) * | 2018-05-16 | 2018-10-12 | 北京安云世纪科技有限公司 | 应用数据处理方法、装置和计算机可读存储介质 |
CN108804559A (zh) * | 2018-05-22 | 2018-11-13 | 清华大学 | 一种移动应用内容获取方法及装置 |
CN109918553A (zh) * | 2019-01-31 | 2019-06-21 | 平安科技(深圳)有限公司 | 移动终端爬取数据的方法、装置、移动终端和存储介质 |
WO2020155765A1 (zh) * | 2019-01-31 | 2020-08-06 | 平安科技(深圳)有限公司 | 移动终端爬取数据的方法、装置、移动终端和存储介质 |
CN109918553B (zh) * | 2019-01-31 | 2024-07-16 | 平安科技(深圳)有限公司 | 移动终端爬取数据的方法、装置、移动终端和存储介质 |
CN112199568A (zh) * | 2020-09-28 | 2021-01-08 | 时趣互动(北京)科技有限公司 | 移动app数据抓取方法、装置及系统 |
CN114154272A (zh) * | 2021-12-24 | 2022-03-08 | 广州涂涂乐科技有限公司 | 一种应用于喷胶设备的自动清洁控制方法及系统 |
CN114154272B (zh) * | 2021-12-24 | 2022-06-21 | 广州涂涂乐科技有限公司 | 一种应用于喷胶设备的自动清洁控制方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107256276A (zh) | 一种基于云平台的移动App内容安全获取方法及设备 | |
US8396962B2 (en) | Game grammar-based packet capture and analysis apparatus and method for conducting game test | |
CN103841111B (zh) | 一种防止数据重复提交的方法和服务器 | |
CN104683407B (zh) | 一种页面数据和应用数据的传输方法和设备 | |
US20030182408A1 (en) | Load test system for a server and method of use | |
CN103795762B (zh) | 一种反向代理的测试方法及系统 | |
CN107040816A (zh) | 一种客户端应用运行异常分析方法与装置 | |
CN109033115A (zh) | 一种动态网页爬虫系统 | |
CN107645562A (zh) | 数据传输处理方法、装置、设备及系统 | |
CN107071399B (zh) | 一种加密视频流的质量评估方法及装置 | |
CN110609937A (zh) | 一种爬虫识别方法及装置 | |
CN106559289A (zh) | Sslvpn网关的并发测试方法及装置 | |
CN109729044A (zh) | 一种通用的互联网数据采集反反爬系统及方法 | |
EP2857987A1 (en) | Acquiring method, device and system of user behavior | |
CN107528818A (zh) | 媒体文件的数据处理方法和装置 | |
CN114244564B (zh) | 攻击防御方法、装置、设备及可读存储介质 | |
CN105979299A (zh) | 基于时间轮盘和播放器心跳的活跃用户集维护系统及方法 | |
CN104462242B (zh) | 网页回流量统计方法及装置 | |
CN108924159A (zh) | 一种报文特征识别库的验证方法与装置 | |
CN114465741A (zh) | 一种异常检测方法、装置、计算机设备及存储介质 | |
KR20100062797A (ko) | 클라이언트/서버간 온라인 성능 테스트 방법 및 장치 | |
CN111061807A (zh) | 分布式数据采集分析系统及方法、服务器及介质 | |
CN104468771B (zh) | 地理位置的确定方法及装置 | |
CN109285046A (zh) | 一种基于业务插件化的电商大数据采集系统 | |
US20130226921A1 (en) | Identifying an auto-complete communication pattern |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171017 |
|
RJ01 | Rejection of invention patent application after publication |