CN111414524A - 基于大数据的网络数据抓取方法 - Google Patents

基于大数据的网络数据抓取方法 Download PDF

Info

Publication number
CN111414524A
CN111414524A CN202010187194.6A CN202010187194A CN111414524A CN 111414524 A CN111414524 A CN 111414524A CN 202010187194 A CN202010187194 A CN 202010187194A CN 111414524 A CN111414524 A CN 111414524A
Authority
CN
China
Prior art keywords
data
target
proxy server
server
app
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010187194.6A
Other languages
English (en)
Inventor
张俊杰
耿雁萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Huolan Data Co ltd
Original Assignee
Anhui Huolan Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Huolan Data Co ltd filed Critical Anhui Huolan Data Co ltd
Priority to CN202010187194.6A priority Critical patent/CN111414524A/zh
Publication of CN111414524A publication Critical patent/CN111414524A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/53Decompilation; Disassembly
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供了一种基于大数据的网络数据抓取方法,包括将监听终端配置为代理服务器;目标APP通过所述代理服务器向目标服务器发送通信数据;所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据;所述代理服务器根据大数据分析获得目标字段;配置抓取规则,所述代理服务器根据所述目标字段抓取所述目标服务器发送的数据。本发明通过将监听终端配置为代理服务器,代理服务器模拟所述目标APP向所述目标服务器发送通信数据,在通过大数据分析或者目标字段之后,配置抓取规则,所述代理服务器根据所述目标字段抓取所述目标服务器发送的数据。从而能够自动抓取网络新闻热点,无需人工进行配置,高效化、智能化。

Description

基于大数据的网络数据抓取方法
技术领域
本发明涉及数据抓取技术领域,具体的说是一种基于大数据的网络数据抓取方法。
背景技术
目前,随着移动互联网的迅速发展,移动终端APP(Application,应用程序)成为了人们上网的主战场,因此针对移动终端APP的数据的抓取需求更大,例如新浪APP、腾讯新闻APP、百度APP、今日头条APP等新闻类的APP里面的数据抓取。
目前,针对数据抓取的框架主要有WebCollector、Nutch、PySpider、WebMagic等。现有的抓取方法是直接由网页的URL作为入口地址。
但是,发明人发现,移动终端APP与服务器进行通信时,由于请求通信数据包中通常会包含很多参数签名,如果无法获知这些参数的签名算法,爬虫常常因为无法获知这些参数的签名算法,而导致无法模拟移动终端APP与服务器进行通信的请求,也就无法抓取到移动APP中的数据内容。另外,目前的移动终端APP常常会根据当前的新闻热点向用户进行推送,而目前缺乏针对新闻热点进行自动抓取的方法,常常需要人工配置抓取规则,显得不够智能。
发明内容
根据以上现有技术的不足,本发明提出了基于大数据的网络数据抓取方法,致力于解决前述背景技术中的技术问题之一。
本发明解决其技术问题采用以下技术方案来实现:
基于大数据的网络数据抓取方法,包括
将监听终端配置为代理服务器;
目标APP通过所述代理服务器向目标服务器发送通信数据;
所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据;
所述代理服务器根据大数据分析获得目标字段;
配置抓取规则,所述代理服务器根据所述目标字段抓取所述目标服务器发送的数据。
作为一种可选的实施方式,所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据,包括
所述代理服务器重复N次抓取所述目标APP向所述目标服务器发送的通信数据,其中,N为大于等于2的正整数;
对每次抓取的所述通信数据进行比对,获得所述通信数据中的恒定参数和变量参数;
反编译工具对所述目标APP进行反编译,获得所述目标APP的源码;
以变量参数为作为关键词,在所述源码中查找包含所述关键词的函数,将所述函数定义为候选函数;
反编译工具对所述源码进行动态调试,当某一候选函数的输出等于所述变量参数的值,则该候选函数为目标函数;
根据所述目标函数的明文和加密方式,获得变量参数的构造方法;
根据所述恒定参数和所述变量参数的构造方法,所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据。
作为一种可选的实施方式,所述反编译工具为Android代码编译器。
作为一种可选的实施方式,所述代理服务器根据大数据分析获得目标字段,包括
所述代理服务器根据大数据分析获得热搜数据;
所述代理服务器抓取预设时间段内所述目标服务器主动推送的热搜数据;
所述代理服务器根据所述热搜数据获得所述目标字段。
作为一种可选的实施方式,所述配置抓取规则包括配置抓取优先级、配置抓取效率及配置抓取字段。
作为一种可选的实施方式,所述代理服务器根据所述目标字段抓取所述目标服务器发送的数据,包括
预设时间内,所述代理服务器重复M次抓取所述目标服务器发送的数据,其中,M为大于等于2的正整数;
针对每次抓取的数据,将该数据与所述目标字段比对,若该数据包含有所述目标字段,则再将该数据与数据库内已存储的数据进行比对,若该数据与所述数据库中已存储的数据不重合,则将该数据存储于所述数据库内。
作为一种可选的实施方式,所述监听终端包括Scrapy框架。
本发明的有益效果是:
本发明通过将监听终端配置为代理服务器,代理服务器模拟所述目标APP向所述目标服务器发送通信数据,在通过大数据分析或者目标字段之后,配置抓取规则,所述代理服务器根据所述目标字段抓取所述目标服务器发送的数据。从而能够自动抓取网络新闻热点,无需人工进行配置,高效化、智能化。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1为本具体实施方式的逻辑示意图;
图2为本具体实施方式的所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据的逻辑示意图。
具体实施方式
下面通过对实施例的描述,本发明的具体实施方式如所涉及的各构件的形状、构造、各部分之间的相互位置及连接关系、各部分的作用及工作原理、制造工艺及操作使用方法等,作进一步详细的说明,以帮助本领域技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。
为了实现上述发明目的,如图1所示,本发明提供了一种基于大数据的网络数据抓取方法,包括
S10、将监听终端配置为代理服务器;
S20、目标APP通过所述代理服务器向目标服务器发送通信数据;
S30、所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据;
S40、所述代理服务器根据大数据分析获得目标字段;
S50、配置抓取规则,所述代理服务器根据所述目标字段抓取所述目标服务器发送的数据。
本发明通过将监听终端配置为代理服务器,代理服务器模拟所述目标APP向所述目标服务器发送通信数据,在通过大数据分析或者目标字段之后,配置抓取规则,所述代理服务器根据所述目标字段抓取所述目标服务器发送的数据。从而能够自动抓取网络新闻热点,无需人工进行配置,高效化、智能化。
作为一种可选的实施方式,如图2所示,所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据,包括
S31、所述代理服务器重复N次抓取所述目标APP向所述目标服务器发送的通信数据,其中,N为大于等于2的正整数;
S32、对每次抓取的所述通信数据进行比对,获得所述通信数据中的恒定参数和变量参数;
S33、反编译工具对所述目标APP进行反编译,获得所述目标APP的源码;
S34、以变量参数为作为关键词,在所述源码中查找包含所述关键词的函数,将所述函数定义为候选函数;
S35、反编译工具对所述源码进行动态调试,当某一候选函数的输出等于所述变量参数的值,则该候选函数为目标函数;
S36、根据所述目标函数的明文和加密方式,获得变量参数的构造方法;
S37、根据所述恒定参数和所述变量参数的构造方法,所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据。
如此,通过抓取并分析通信数据,找出请求数据包中的恒定参数和变量参数,然后通过反编译等方式针对变量参数进行破译,破解移动终端的应用程序和服务器的通信协议,获取变量参数的构造方法,根据所述恒定参数和所述变量参数的构造方法,所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据,进而实现对移动终端APP的数据的抓取。
可选的,所述反编译工具为Android代码编译器。
作为一种可选的实施方式,所述代理服务器根据大数据分析获得目标字段,包括
所述代理服务器根据大数据分析获得热搜数据;
所述代理服务器抓取预设时间段内所述目标服务器主动推送的热搜数据;
所述代理服务器根据所述热搜数据获得所述目标字段。
如此,能够自动获取网络上的热搜新闻。
作为一种可选的实施方式,所述配置抓取规则包括配置抓取优先级、配置抓取效率及配置抓取字段。
作为一种可选的实施方式,所述代理服务器根据所述目标字段抓取所述目标服务器发送的数据,包括
预设时间内,所述代理服务器重复M次抓取所述目标服务器发送的数据,其中,M为大于等于2的正整数;
针对每次抓取的数据,将该数据与所述目标字段比对,若该数据包含有所述目标字段,则再将该数据与数据库内已存储的数据进行比对,若该数据与所述数据库中已存储的数据不重合,则将该数据存储于所述数据库内。
可选的,所述监听终端包括Scrapy框架。
上面对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims (7)

1.基于大数据的网络数据抓取方法,其特征在于:包括
将监听终端配置为代理服务器;
目标APP通过所述代理服务器向目标服务器发送通信数据;
所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据;
所述代理服务器根据大数据分析获得目标字段;
配置抓取规则,所述代理服务器根据所述目标字段抓取所述目标服务器发送的数据。
2.根据权利要求1所述的基于大数据的网络数据抓取方法,其特征在于:所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据,包括
所述代理服务器重复N次抓取所述目标APP向所述目标服务器发送的通信数据,其中,N为大于等于2的正整数;
对每次抓取的所述通信数据进行比对,获得所述通信数据中的恒定参数和变量参数;
反编译工具对所述目标APP进行反编译,获得所述目标APP的源码;
以变量参数为作为关键词,在所述源码中查找包含所述关键词的函数,将所述函数定义为候选函数;
反编译工具对所述源码进行动态调试,当某一候选函数的输出等于所述变量参数的值,则该候选函数为目标函数;
根据所述目标函数的明文和加密方式,获得变量参数的构造方法;
根据所述恒定参数和所述变量参数的构造方法,所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据。
3.根据权利要求2所述的基于大数据的网络数据抓取方法,其特征在于:所述反编译工具为Android代码编译器。
4.根据权利要求1所述的基于大数据的网络数据抓取方法,其特征在于:所述代理服务器根据大数据分析获得目标字段,包括
所述代理服务器根据大数据分析获得热搜数据;
所述代理服务器抓取预设时间段内所述目标服务器主动推送的热搜数据;
所述代理服务器根据所述热搜数据获得所述目标字段。
5.根据权利要求1所述的基于大数据的网络数据抓取方法,其特征在于:所述配置抓取规则包括配置抓取优先级、配置抓取效率及配置抓取字段。
6.根据权利要求1所述的基于大数据的网络数据抓取方法,其特征在于:所述代理服务器根据所述目标字段抓取所述目标服务器发送的数据,包括
预设时间内,所述代理服务器重复M次抓取所述目标服务器发送的数据,其中,M为大于等于2的正整数;
针对每次抓取的数据,将该数据与所述目标字段比对,若该数据包含有所述目标字段,则再将该数据与数据库内已存储的数据进行比对,若该数据与所述数据库中已存储的数据不重合,则将该数据存储于所述数据库内。
7.根据权利要求1所述的基于大数据的网络数据抓取方法,其特征在于:所述监听终端包括Scrapy框架。
CN202010187194.6A 2020-03-17 2020-03-17 基于大数据的网络数据抓取方法 Pending CN111414524A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010187194.6A CN111414524A (zh) 2020-03-17 2020-03-17 基于大数据的网络数据抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010187194.6A CN111414524A (zh) 2020-03-17 2020-03-17 基于大数据的网络数据抓取方法

Publications (1)

Publication Number Publication Date
CN111414524A true CN111414524A (zh) 2020-07-14

Family

ID=71494342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010187194.6A Pending CN111414524A (zh) 2020-03-17 2020-03-17 基于大数据的网络数据抓取方法

Country Status (1)

Country Link
CN (1) CN111414524A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389999A (zh) * 2012-05-11 2013-11-13 中国人民大学 一种增量抓取微博信息的方法
CN108804444A (zh) * 2017-04-28 2018-11-13 北京京东尚科信息技术有限公司 信息抓取方法和装置
CN110232146A (zh) * 2019-04-30 2019-09-13 北京邮电大学 一种数据抓取方法及抓取装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389999A (zh) * 2012-05-11 2013-11-13 中国人民大学 一种增量抓取微博信息的方法
CN108804444A (zh) * 2017-04-28 2018-11-13 北京京东尚科信息技术有限公司 信息抓取方法和装置
CN110232146A (zh) * 2019-04-30 2019-09-13 北京邮电大学 一种数据抓取方法及抓取装置

Similar Documents

Publication Publication Date Title
CN110300050B (zh) 消息推送方法、装置、计算机设备及存储介质
KR101133596B1 (ko) 무선 디바이스 상에서 구성가능한 태스크 관리를 제공하기 위한 장치 및 방법들
JP5265344B2 (ja) 無線通信装置上の音声品質を監視するための方法および装置
CN109548045B (zh) 设备调试方法、装置、系统及存储介质
CN112291338B (zh) 通信方法、装置及电子设备
CN111800412A (zh) 高级可持续威胁溯源方法、系统、计算机设备及存储介质
CN108076017B (zh) 一种数据包的协议解析方法及装置
CN109450733B (zh) 一种基于机器学习的网络终端设备识别方法及系统
CN112423322B (zh) 型号信息发送方法、装置、存储介质及电子装置
CN106844532B (zh) 一种应用程序获取方法和装置以及一种终端设备
CN108229159B (zh) 一种恶意代码检测方法及系统
CN106789486B (zh) 共享接入的检测方法、装置、电子设备及计算机可读存储介质
CN103581909A (zh) 一种疑似手机恶意软件的定位方法及其装置
CN113825129A (zh) 一种5g网络环境下工业互联网资产测绘方法
CN108093390B (zh) 一种基于特征信息的智能设备发现方法
Shi et al. The penetration testing framework for large-scale network based on network fingerprint
CN112738019B (zh) 设备信息的显示方法、装置、存储介质以及电子装置
CN109688096B (zh) Ip地址的识别方法、装置、设备及计算机可读存储介质
CN111414524A (zh) 基于大数据的网络数据抓取方法
CN113055420B (zh) Https业务识别方法、装置及计算设备
CN114390574B (zh) 无线网络吞吐量测试方法、装置和计算机可读存储介质
CN112769845B (zh) 漏洞测试方法、装置、电子装置和计算机设备
CN108737350B (zh) 一种信息处理方法及客户端
CN106919836B (zh) 应用的端口检测方法及装置
CN103795748A (zh) 一种移动互联网网站内容信息下载的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200714