CN110232146A - 一种数据抓取方法及抓取装置 - Google Patents

一种数据抓取方法及抓取装置 Download PDF

Info

Publication number
CN110232146A
CN110232146A CN201910358646.XA CN201910358646A CN110232146A CN 110232146 A CN110232146 A CN 110232146A CN 201910358646 A CN201910358646 A CN 201910358646A CN 110232146 A CN110232146 A CN 110232146A
Authority
CN
China
Prior art keywords
data
server
application program
variable element
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910358646.XA
Other languages
English (en)
Other versions
CN110232146B (zh
Inventor
徐国爱
张淼
王思佳
徐国胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910358646.XA priority Critical patent/CN110232146B/zh
Publication of CN110232146A publication Critical patent/CN110232146A/zh
Application granted granted Critical
Publication of CN110232146B publication Critical patent/CN110232146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种数据抓取方法及抓取装置,所述方法包括对应用程序与服务器之间的请求数据包进行抓取,并进行分析,获得可变参数;对所述应用程序进行反编译,获得源码;对所述源码进行搜索查询,获得与所述可变参数相关的可疑函数;在所述可疑函数处设置断点,对所述源码进行动态调试,当某一可疑函数的输出等于所述可变参数的值,则该可疑函数为函数,观察所述函数的明文和加密方式,获得可变参数的构造方法;配置抓取规则,抓取所述应用程序的数据。本发明通过抓取并分析请求数据包,找出可变参数,然后采取逆向分析手段,对应用程序和服务器的通信协议进行破解,然后通过模拟通信请求,进行数据的抓取。

Description

一种数据抓取方法及抓取装置
技术领域
本发明涉及移动终端数据挖掘中的数据抓取领域,具体的说是一种数据抓取方法及抓取装置。
背景技术
目前针对数据抓取的研究有很多,主流的开源框架包括:Scrapy框架,PySpider,WebMagic,Heritrix,WebCollector、Nutch等。这些开源的框架基本上都可以使用户忽略解决一些复杂问题的麻烦,不必考虑到URL的去重等问题,开源框架会将各种功能封装起来,我们只需要调用函数即可,针对不同的业务需求和类型可以选择不同的开源框架。
接下来对这些框架进行简要介绍。
Scrapy框架是一个非常流行的爬虫框架,目的是为了抓取结构性的数据,它具有特色的中间件机制,中间件机制使得数据的抓取更加灵活高效,通过中间件机制,可以配置IP池、headers、User-Agent值,减少爬虫被封禁的几率;也可以通过修改配置,对爬虫的性能和速率就行调整,是爬虫的性能更加优化。
PySpider是基于Python的,是一个功能十分强大的爬虫系统框架,支持在浏览器界面上编写脚本,支持实时查看数据抓取的结果,至于数据的存储,后端可以使用一些常用的数据库对爬取结果进行存储,此外,还可以进行灵活的任务调度,可以对任务的优先级进行设置,也可以设置定时执行任务。
WebMagic是基于Java的一个简单灵活的开源爬虫框架,大大简化了爬虫的开发难度,使开发者可以集中精力在爬虫的逻辑实现上。WebMagic采用模块化设计,覆盖了爬虫的各个流程,有全面的抓取页面的API,支持分布式和多线程,而且可以抓取JS渲染后的网页,此外,WebMagic没有框架依赖,可以与项目灵活的结合到一起,并且易于维护。
Heritrix是基于Java语言的,开发者可以使用这个框架来抓取所需要的数据信息,采用模块化设计,每个模块对应一个控制器类(CrawlController类),控制器是整个框架的核心,是整个数据抓取流程的起点。该框架的特点是具有出色的可扩展性,用户可以方便的按照项目需要实现自己的抓取逻辑。
WebCollector和传统的网页爬虫不同,传统的网页爬虫是将网页的内容下载下来,数据是以网页为单位存储的,而WebCollector可以通过配置抓取策略,直接抓取页面的结构化数据。WebCollector有两个版本,包括单机版和Hadoop版,单机版能够抓取千万量级的URL,可以满足大部分的数据采集任务,Hadoop版的处理规模取决于集群的数量。
Nutch是当今最流行的开源爬虫框架之一,被广泛的使用。Nutch具有插件机制,可以使开发者灵活的制定爬取数据策略,Nutch有两种模式,一种是单机模式,一种是分布式模式,由Apache负责对其进行维护。但是,Nutch目前为止只支持Linux系统,不支持Windows系统,需要安装Cygwin模拟Linux操作系统才能够使用。
但是,发明人发现,上述数据抓取方法存在一定的缺陷:
随着移动互联网的迅速发展和移动终端的普及和推广,移动终端APP(应用程序,Application的缩写)成为了大众生活中的必需品,更多的用户甚至已经放弃了网页的访问,因此爬取移动终端的数据的需求更大,例如用于移动新闻APP里的新闻提取。但是,抓取移动终端APP数据的难度等级远高于网页端数据的抓取,和网页端数据比起来,移动终端APP可以针对不同的请求对请求数据进行特殊的处理,比如请求中有加密参数等,移动客户端和服务端的通信协议并不是对外界透明的。
现有的抓取方法,都是直接由网页的URL作为入口地址,但是对移动客户端上的数据采集仍然存在比较大的问题,对于移动终端的数据来说,因为移动终端的每个界面并没有相对应的URL,尤其是针对移动终端APP来说,基于C/S模式的移动APP与对应的服务器的通信协议是不公开的,无法直接获取到,所以,在抓取移动终端APP的数据时,无法直接指定抓取数据的入口URL;此外,移动APP与服务器进行通信时,请求中通常会包含很多参数签名,如果无法获知这些参数的签名算法,爬虫将无法模拟与服务器进行通信的请求,也就无法抓取到移动APP中的数据内容。基于以上现状,移动终端APP的数据抓取问题亟待解决。
发明内容
根据以上现有技术的不足,本发明提出了一种数据抓取方法及抓取装置,以实现对移动终端APP的数据采集。
本发明解决其技术问题采用以下技术方案来实现:
作为本发明的第一个方面,提供了一种数据抓取方法,包括
抓取移动终端的应用程序向服务器发送的请求数据包,对每次抓取的所述请求数据包进行比对,获得所述请求数据包中的可变参数;
对所述应用程序进行反编译,获得所述应用程序的源码;
对所述可变参数在所述源码中进行搜索查询,进行静态分析,获得可疑函数;
动态调试所述源码,当某一可疑函数的输出等于所述可变参数的值,则该可疑函数为目标函数,根据所述目标函数的明文和加密方式,获得可变参数的构造方法;
配置抓取规则,模拟所述应用程序向所述服务器发送请求数据包,抓取所述服务器发送的数据。
作为本发明的一种可选的实施方式,抓取移动终端的应用程序向服务器发送的请求数据包的步骤包括
在移动终端上将安装有抓包工具的监听终端配置为代理服务器;
移动终端的应用程序通过所述代理服务器向所述服务器发送请求数据包;
所述代理服务器抓取所述请求数据包。
作为本发明的一种可选的实施方式,所述可疑函数的获取过程包括
以可变参数为作为检索关键词,在所述源码中进行检索,查找包含所述检索关键词的函数,将所述函数定义为可疑函数。
作为本发明的一种可选的实施方式,动态调试所述源码包括
在所述可疑函数处设置断点;
运行所述源码;
若某一断点处的输出等于所述可变参数,则与该断点相对应的可疑函数即为目标函数。
作为本发明的一种可选的实施方式,还包括在抓取所述服务器的数据的过程中进行异常监控、记录以及实时报警的步骤。
作为本发明的一种可选的实施方式,配置所述抓取规则包括配置抓取优先级、配置抓取效率及配置抓取字段。
作为本发明的一种可选的实施方式,抓取所述服务器发送的数据的步骤包括
S521、抓取服务器发送的数据,并将数据存储于数据库内;
S522、再次模拟所述应用程序向所述服务器发送请求数据包,并再次抓取所述服务器发送的数据;
S523、将再次抓取的数据与数据库内存储的数据进行比对,根据比对结果将数据库内没有的部分补充入数据库内;
S524、重复步骤S522和S523,直至某次抓取的数据内容均以及存在于数据库中,则停止抓取。
作为本发明的第二个方面,提供了一种数据抓取装置,包括
数据包获取模块,用于抓取应用程序向服务器发送的请求数据包,并获取所述请求数据包中的可变参数;
静态分析模块,用于对所述应用程序进行反编译以获得源码;以及用于在所述源码中搜索查询与所述可变参数相关的可疑函数;
动态调试模块,用于对所述源码进行动态调试,以获取所述请求数据包中的可变参数的构造方法;
数据抓取模块,用于配置抓取规则,并模拟所述应用程序向所述服务器发送请求数据包,抓取所述服务器发送的数据。
作为本发明的一种可选的实施方式,还包括监控模块,用于在抓取所述服务器的数据的过程中进行异常监控、记录以及实时报警。
作为本发明的一种可选的实施方式,所述数据包获取模块为Charles或者Fiddler,所述静态分析模块为Jeb,所述动态调试模块为Android代码编译器,所述数据抓取模块为Scrapy框架。
本发明的有益效果是:
本发明可以克服移动终端没有对应的URL的难题,通过抓取并分析请求数据包,找出请求数据包中的可变参数,然后针对可变参数采取静态分析和动态调试结合的逆向分析手段,对移动终端的应用程序和服务器的通信协议进行破解,获取可变参数的构造方法,然后通过模拟通信请求,进行数据的抓取,进而实现对移动终端APP的通信数据的采集。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1为本具体实施方式的逻辑框图;
图2为本具体实施方式的抓取移动终端的应用程序向服务器发送的请求数据包的逻辑框图;
图3为本具体实施方式的动态调试所述源码的逻辑框图;
图4为本具体实施方式的抓取所述服务器发送的数据的逻辑框图。
具体实施方式
下面通过对实施例的描述,本发明的具体实施方式如所涉及的各构件的形状、构造、各部分之间的相互位置及连接关系、各部分的作用及工作原理、制造工艺及操作使用方法等,作进一步详细的说明,以帮助本领域技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。
作为本发明的第一个方面,如图1所示,提供了一种数据抓取方法,包括
步骤S1、抓取移动终端应用程序向服务器发送的请求数据包,对每次抓取的所述请求数据包进行比对,获得所述请求数据包中的可变参数;
步骤S2、对所述应用程序进行反编译,获得所述应用程序的源码;
步骤S3、对所述可变参数在所述源码中进行搜索查询,获得可疑函数;
步骤S4、动态调试所述源码,当某一可疑函数的输出等于所述可变参数的值,则该可疑函数为目标函数,观察所述目标函数的明文和加密方式,获得可变参数的构造方法;
步骤S5、配置抓取规则,模拟所述应用程序向所述服务器发送请求数据包,抓取所述服务器发送的数据。
本发明可以克服移动终端没有对应的URL的难题,通过抓取并分析请求数据包,找出请求数据包中的可变参数,然后针对可变参数采取静态分析和动态调试结合的逆向分析手段,对移动终端的应用程序和服务器的通信协议进行破解,获取可变参数的构造方法,然后通过模拟通信请求,进行数据的抓取,进而实现对移动终端APP的通信数据的采集。
本发明中提到的应用程序是指安装在移动终端上的基于C/S模式的APP;移动终端指的是手机、平板电脑等安装有基于C/S模式的APP的终端。服务器可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
进一步的,如图2所示,抓取移动终端的应用程序向服务器发送的请求数据包的步骤包括
步骤S11、在移动终端上将安装有抓包工具的监听终端配置为代理服务器;
步骤S12、移动终端的应用程序通过所述抓包工具向所述服务器发送请求数据包;
步骤S13、所述代理服务器抓取所述请求数据包。
首先需要对安装有该应用程序的移动终端进行网络设置,将该移动终端的网络代理修改为手动,并将代理地址设置为安装有网络代理的监听终端的IP地址,将端口号修改为监听端口号。所述监听终端可以是台式电脑、便携式电脑或者服务器或者服务器集群。
监听终端对移动客户端和服务器进行通信的数据包进行抓取,抓包工具可以是Charles或者Fiddler或者现有技术中其他具有同样功能的软件。对抓取到的请求数据包进行分析,辨别哪些是在每次请求中发生变化的参数,哪些是固定的参数,对于可变参数,是接下来要分析的重点。分析获得所述可变参数的方法具体为,多次抓取所述应用程序与服务器之间的请求数据包,并将获得的请求数据包进行数据比对,进而获得所述可变参数。
进一步的,所述可疑函数的获取过程包括以可变参数为作为检索关键词,在所述源码中进行检索,查找包含所述检索关键词的函数,将所述函数定义为可疑函数。
对Android移动终端应用进行反编译,获得应用的源码,并对源码进行静态分析,查找源码中包含有可变参数关键词的函数,定义为可疑函数。静态分析技术是指在不运行代码的情况下,采用词法分析、语法分析等各种技术手段对程序文件进行扫描从而生成程序的反汇编代码,然后阅读反汇编代码来掌握程序功能的一种技术。本技术主要对反编译后的源码进行参数的匹配,观察与之生成相关的函数,快速定位关键代码。静态分析软件可以是Jeb或者现有技术中其他具有同样功能的软件。
进一步的,如图3所示,动态调试所述源码包括
步骤S41、在所述可疑函数处设置断点;
步骤S42、运行所述源码;
步骤S43、若某一断点处的输出等于所述可变参数,则与该断点相对应的可疑函数即为目标函数。
使用Android代码编译器在可疑函数处设置断点,然后对应用程序进行动态调试(即运行该应用程序),当观察到某个可疑函数的输出为可变参数的值时,则该可疑函数即为目标函数,观察该目标函数的明文和加密方式,获得可变参数的构造方法。
最后在Scrapy框架框架中配置抓取规则,然后使用Scrapy框架模拟应用程序向所述服务器发送请求,并抓取所述服务器发送的数据。具体的,配置所述抓取规则包括配置抓取优先级、配置抓取效率及配置抓取字段。
进一步的,还包括在抓取所述应用程序的数据的过程中进行异常监控、记录以及实时报警的步骤。
进一步的,如图4所示,配置所述抓取规则包括配置抓取优先级、配置抓取效率及配置抓取字段。
进一步的,抓取所述服务器的数据的步骤包括
S521、抓取服务器发送的数据,并将数据存储于数据库内;
S522、再次模拟所述应用程序向所述服务器发送请求数据包,并再次抓取
所述服务器发送的数据;
S523、将再次抓取的数据与数据库内存储的数据进行比对,根据比对结果
将数据库内没有的部分补充入数据库内;
S524、重复步骤S522和S523,直至某次抓取的数据内容均以及存在于数据库中,则停止抓取。
本发明采用增量抓取的策略,因为数据内容都是在不停更新的,抓取时通过和数据库中的内容进行比对,若当前数据内容已经存储在数据库里,则停止抓取,降低抓取重复的移动数据的概率,提高抓取效率。
作为本发明的第二个方面,提供了一种数据抓取装置,包括
数据包获取模块,用于抓取应用程序与服务器之间的请求数据包,并获取所述请求数据包中的可变参数;
静态分析模块,用于对所述应用程序进行反编译以获得源码;以及用于在所述源码中搜索查询与所述可变参数相关的可疑函数;
动态调试模块,用于对所述源码进行动态调试,以获取所述请求数据包中的可变参数的构造方法;
数据抓取模块,用于配置抓取规则,并抓取所述应用程序的数据。
进一步的,还包括监控模块,用于在抓取所述应用程序的数据的过程中进行异常监控、记录以及实时报警。
具体的,所述数据包获取模块为Charles或者Fiddler,所述静态分析模块为Jeb,所述动态调试模块为Android代码编译器,所述数据抓取模块为Scrapy框架。
本发明具有如下优点:
(1)基于逆向分析,解决移动终端没有URL的问题:通过静态分析加动态分析的逆向分析的手段,对移动终端与服务器端的通信协议进行分析,首先通过Charles或者Fiddler进行请求数据包的拦截,获取请求数据包,然后对其进行参数分析,对可变参数在源码上进行静态分析,找到与源码相关的可疑函数,然后在可疑函数上进行动态调试,获取可变参数的生成算法,通过获取加密前的明文和加密后的密文以及加密算法,对通信协议进行破解,构造通信请求,进而解决了移动终端没有URL的问题。
(2)采用增量抓取,提高抓取效率:采用增量抓取的策略,因为数据内容都是在不停更新的,抓取时通过和数据库中的内容进行比对,若当前数据内容已经存储在数据库里,则停止抓取,降低抓取重复的移动数据的概率。
(3)可以对各种移动客户端的数据进行采集,可以灵活的对抓取规则进行修改。
实施例
为了进一步的对本方法进行说明,以某一款新闻APP为例,采集该新闻APP上的新闻信息,流程如下:
1)首先在监听终端上安装Charles或者Fiddler,担当代理服务器的角色;
2)在移动终端安装信任Charles或者Fiddler的证书,并且在移动终端运行该新闻APP,抓取与进入每一类别的新闻入口、更新当前页面的数据、进入具体的新闻页面操作相对应的数据包,进行多次重复抓取;
3)对多次抓取到的数据包中的参数进行分析与比对,找出其中的可变参数,比如:sign、time、menuid等,不同数据包中的可变参数不同;
4)确定完可变参数后,对该新闻APP的apk文件进行反编译;
5)进行静态分析,在反编译后的结果中进行搜索,找到包含有可变参数的函数,将这些函数定义为可疑函数;
6)在这些可疑函数处设置断点,然后运行该应用程序,比如针对于可变参数sign,在经过静态分析后确定了getSignStr函数为可疑函数,并在此函数上设置了断点,运行程序,可以看到输入明文、输入密文以及加密算法,当观察到getSignStr函数的输出为可变参数sign时,即说明getSignStr函数即为可变参数sign的目标函数,即可得到可变参数sign的构造方法;
7)使用Scrapy框架对可变参数sign进行构造,进而构造通信协议模拟该新闻APP向服务器端发起请求,以获取服务器端发送的数据,采用增量抓取的策略,因为数据内容都是在不停更新的,抓取时通过和数据库中的内容进行比对,若当前数据内容已经存储在数据库里,则停止抓取。
上面对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims (10)

1.一种数据抓取方法,其特征在于:包括
抓取移动终端的应用程序向服务器发送的请求数据包,对每次抓取的所述请求数据包进行比对,获得所述请求数据包中的可变参数;
对所述应用程序进行反编译,获得所述应用程序的源码;
对所述可变参数在所述源码中进行搜索查询,获得可疑函数;
动态调试所述源码,当某一可疑函数的输出等于所述可变参数的值,则该可疑函数为目标函数,根据所述目标函数的明文和加密方式,获得可变参数的构造方法;
配置抓取规则,模拟所述应用程序向所述服务器发送请求数据包,抓取所述服务器发送的数据。
2.根据权利要求1所述的数据抓取方法,其特征在于:抓取移动终端的应用程序向服务器发送的请求数据包的步骤包括
在移动终端上将安装有抓包工具的监听终端配置为代理服务器;
移动终端的应用程序通过所述代理服务器向所述服务器发送请求数据包;
所述代理服务器抓取所述请求数据包。
3.根据权利要求1所述的数据抓取方法,其特征在于:所述可疑函数的获取过程包括
以可变参数为作为检索关键词,在所述源码中进行检索,查找包含所述检索关键词的函数,将所述函数定义为可疑函数。
4.根据权利要求1所述的数据抓取方法,其特征在于:动态调试所述源码的步骤包括
在所述可疑函数处设置断点;
运行所述源码;
若某一断点处的输出等于所述可变参数,则与该断点相对应的可疑函数即为目标函数。
5.根据权利要求1所述的数据抓取方法,其特征在于:还包括在抓取所述服务器的数据的过程中进行异常监控、记录以及实时报警的步骤。
6.根据权利要求1所述的数据抓取方法,其特征在于:配置所述抓取规则包括配置抓取优先级、配置抓取效率及配置抓取字段。
7.根据权利要求1所述的数据抓取方法,其特征在于:抓取所述服务器发送的数据的步骤包括
S521、抓取服务器发送的数据,并将数据存储于数据库内;
S522、再次模拟所述应用程序向所述服务器发送请求数据包,并再次抓取所述服务器发送的数据;
S523、将再次抓取的数据与数据库内存储的数据进行比对,根据比对结果将数据库内没有的部分补充入数据库内;
S524、重复步骤S522和S523,直至某次抓取的数据内容均以及存在于数据库中,则停止抓取。
8.一种数据抓取装置,其特征在于:包括
数据包获取模块,用于抓取应用程序向服务器发送的请求数据包,并获取所述请求数据包中的可变参数;
静态分析模块,用于对所述应用程序进行反编译以获得源码;以及用于在所述源码中搜索查询与所述可变参数相关的可疑函数;
动态调试模块,用于对所述源码进行动态调试,以获取所述请求数据包中的可变参数的构造方法;
数据抓取模块,用于配置抓取规则,并模拟所述应用程序向所述服务器发送请求数据包,抓取所述服务器发送的数据。
9.根据权利要求8所述的数据抓取装置,其特征在于:还包括监控模块,用于在抓取所述服务器的数据的过程中进行异常监控、记录以及实时报警。
10.根据权利要求8所述的数据抓取装置,其特征在于:所述数据包获取模块为Charles或者Fiddler,所述静态分析模块为Jeb,所述动态调试模块为Android代码编译器,所述数据抓取模块为Scrapy框架。
CN201910358646.XA 2019-04-30 2019-04-30 一种数据抓取方法及抓取装置 Active CN110232146B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910358646.XA CN110232146B (zh) 2019-04-30 2019-04-30 一种数据抓取方法及抓取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910358646.XA CN110232146B (zh) 2019-04-30 2019-04-30 一种数据抓取方法及抓取装置

Publications (2)

Publication Number Publication Date
CN110232146A true CN110232146A (zh) 2019-09-13
CN110232146B CN110232146B (zh) 2022-05-31

Family

ID=67861011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910358646.XA Active CN110232146B (zh) 2019-04-30 2019-04-30 一种数据抓取方法及抓取装置

Country Status (1)

Country Link
CN (1) CN110232146B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110764745A (zh) * 2019-09-16 2020-02-07 平安科技(深圳)有限公司 变量的传输和收集方法、装置及计算机可读存储介质
CN111026605A (zh) * 2019-11-13 2020-04-17 国家计算机网络与信息安全管理中心广东分中心 一种移动应用违规内容的发现方法及系统
CN111414524A (zh) * 2020-03-17 2020-07-14 安徽火蓝数据有限公司 基于大数据的网络数据抓取方法
CN112162974A (zh) * 2020-09-25 2021-01-01 南京烽火天地通信科技有限公司 一种出行程序数据固定方法
CN112199568A (zh) * 2020-09-28 2021-01-08 时趣互动(北京)科技有限公司 移动app数据抓取方法、装置及系统
CN112579857A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 一种数据爬取的方法、装置、电子设备及存储介质
CN113392416A (zh) * 2021-06-28 2021-09-14 北京恒安嘉新安全技术有限公司 获取应用程序加解密数据的方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140115282A1 (en) * 2012-10-19 2014-04-24 Yahoo! Inc. Writing data from hadoop to off grid storage
CN104484607A (zh) * 2014-12-16 2015-04-01 上海交通大学 Android应用程序安全性测试的通用方法及系统
CN104516982A (zh) * 2015-01-06 2015-04-15 南通大学 一种基于Nutch的Web信息提取方法和系统
CN106446068A (zh) * 2016-09-06 2017-02-22 北京邮电大学 一种目录数据库生成、查询方法及装置
US20170134264A1 (en) * 2015-11-11 2017-05-11 International Business Machines Corporation Network traffic classification
CN106845236A (zh) * 2017-01-18 2017-06-13 东南大学 一种针对iOS平台的应用程序多维度隐私泄露检测方法及系统
CN109543086A (zh) * 2018-11-23 2019-03-29 北京信息科技大学 一种面向多数据源的网络数据采集与展示方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140115282A1 (en) * 2012-10-19 2014-04-24 Yahoo! Inc. Writing data from hadoop to off grid storage
CN104484607A (zh) * 2014-12-16 2015-04-01 上海交通大学 Android应用程序安全性测试的通用方法及系统
CN104516982A (zh) * 2015-01-06 2015-04-15 南通大学 一种基于Nutch的Web信息提取方法和系统
US20170134264A1 (en) * 2015-11-11 2017-05-11 International Business Machines Corporation Network traffic classification
CN106446068A (zh) * 2016-09-06 2017-02-22 北京邮电大学 一种目录数据库生成、查询方法及装置
CN106845236A (zh) * 2017-01-18 2017-06-13 东南大学 一种针对iOS平台的应用程序多维度隐私泄露检测方法及系统
CN109543086A (zh) * 2018-11-23 2019-03-29 北京信息科技大学 一种面向多数据源的网络数据采集与展示方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DENNY 等: "Implementation of change data capture in ETL process for data warehouse using HDFS and apache spark", 《IEEE》 *
张丽: "基于数据驱动的移动端用户体验优化研究", 《中国博士学位论文全文数据库 信息科技辑》 *
张婷婷 等: "科研人员Web数据自动抓取模式及其开源解决方案", 《信息资源管理学报》 *
王庚年: "《全媒体技术发展研究》", 31 January 2013 *
王思佳 等: "基于 Android 新闻客户端的媒体领袖挖掘", 《中国科技论文在线》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110764745A (zh) * 2019-09-16 2020-02-07 平安科技(深圳)有限公司 变量的传输和收集方法、装置及计算机可读存储介质
CN110764745B (zh) * 2019-09-16 2024-02-02 平安科技(深圳)有限公司 变量的传输和收集方法、装置及计算机可读存储介质
CN112579857A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 一种数据爬取的方法、装置、电子设备及存储介质
CN111026605A (zh) * 2019-11-13 2020-04-17 国家计算机网络与信息安全管理中心广东分中心 一种移动应用违规内容的发现方法及系统
CN111414524A (zh) * 2020-03-17 2020-07-14 安徽火蓝数据有限公司 基于大数据的网络数据抓取方法
CN112162974A (zh) * 2020-09-25 2021-01-01 南京烽火天地通信科技有限公司 一种出行程序数据固定方法
CN112162974B (zh) * 2020-09-25 2024-06-14 上海烽烁科技有限公司 一种出行程序数据固定方法
CN112199568A (zh) * 2020-09-28 2021-01-08 时趣互动(北京)科技有限公司 移动app数据抓取方法、装置及系统
CN113392416A (zh) * 2021-06-28 2021-09-14 北京恒安嘉新安全技术有限公司 获取应用程序加解密数据的方法、装置、设备及存储介质
CN113392416B (zh) * 2021-06-28 2024-03-22 北京恒安嘉新安全技术有限公司 获取应用程序加解密数据的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110232146B (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
CN110232146A (zh) 一种数据抓取方法及抓取装置
US8046495B2 (en) System and method for modifying web content via a content transform proxy service
CN108780485B (zh) 基于模式匹配的数据集提取
US7548848B1 (en) Method and apparatus for semantic processing engine
CN103403707B (zh) 用于数据库代理请求交换的系统和方法
US11196758B2 (en) Method and system for enabling automated log analysis with controllable resource requirements
CN107463453B (zh) 同一终端不同应用间通信的方法、装置、设备和存储介质
US11030318B1 (en) Interactive verification of security vulnerability detections using runtime application traffic
CN105122727A (zh) 用于检测并减轻对结构化数据存储系统的威胁的系统和方法
CN104767834A (zh) 用于加速计算环境到远程用户的传送的系统和方法
US20220198025A1 (en) Web Attack Simulator
US11178160B2 (en) Detecting and mitigating leaked cloud authorization keys
WO2022231903A1 (en) On-premises action execution agent for cloud-based information technology and security operations applications
RU2701040C1 (ru) Способ и вычислительное устройство для информирования о вредоносных веб-ресурсах
US11792157B1 (en) Detection of DNS beaconing through time-to-live and transmission analyses
US10491606B2 (en) Method and apparatus for providing website authentication data for search engine
CN117242446A (zh) 恶意指标的自动提取和分类
Roldán-Gómez et al. Detecting security attacks in cyber-physical systems: a comparison of Mule and WSO2 intelligent IoT architectures
WO2017036042A1 (zh) 信息采集方法和装置
EP3547193A1 (en) Analysis device, analysis method and analysis program
US9853946B2 (en) Security compliance for cloud-based machine data acquisition and search system
WO2022155685A1 (en) Web attack simulator
Trivedi et al. Maldetec: A non-root approach for dynamic malware detection in android
US20200153811A1 (en) Deterministic reproduction of system state using seeded pseudo-random number generators
CN114598546A (zh) 应用防御方法、装置、设备、介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant