CN109918553A - 移动终端爬取数据的方法、装置、移动终端和存储介质 - Google Patents

移动终端爬取数据的方法、装置、移动终端和存储介质 Download PDF

Info

Publication number
CN109918553A
CN109918553A CN201910100412.5A CN201910100412A CN109918553A CN 109918553 A CN109918553 A CN 109918553A CN 201910100412 A CN201910100412 A CN 201910100412A CN 109918553 A CN109918553 A CN 109918553A
Authority
CN
China
Prior art keywords
mobile terminal
data
server
operating procedure
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910100412.5A
Other languages
English (en)
Other versions
CN109918553B (zh
Inventor
吴壮伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910100412.5A priority Critical patent/CN109918553B/zh
Publication of CN109918553A publication Critical patent/CN109918553A/zh
Priority to PCT/CN2019/118169 priority patent/WO2020155765A1/zh
Application granted granted Critical
Publication of CN109918553B publication Critical patent/CN109918553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请揭示了一种移动终端爬取数据的方法、装置、移动终端和存储介质,其中移动终端中安装有爬虫应用程序,所述方法包括:第一移动终端获取模拟操作程序,其中,模拟操作程序是模拟用户控制移动终端操作的程序;执行模拟操作程序;通过Fiddler工具获取执行模拟操作程序时的响应数据,并将响应数据保存至指定的数据库中;从数据库中提取指定要求的目标数据;将目标数据发送至指定的服务器。本申请从移动终端内部爬取移动终端的相关数据,爬取数据的速度快;无需考虑移动终端的自身加密功能,更容易获取到想要的数据;可以分布式的设置移动终端,扩展性更强;可以通过配置不同的模拟操作程序,获取不同高的数据,使其使用的场景更多。

Description

移动终端爬取数据的方法、装置、移动终端和存储介质
技术领域
本申请涉及到数据爬取领域,特别是涉及到一种移动终端爬取数据的方法、装置、移动终端和存储介质。
背景技术
网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。
传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
现有技术中缺少从移动终端爬取数据的方法,主要是因为移动终端数据具有自身加密功能,因此会出现获取难的情况,如何爬取移动终端的数据,是一种需要解决的问题。
发明内容
本申请的主要目的为提供一种移动终端爬取数据的方法、装置、移动终端和存储介质,旨在解决难以爬取具有自身加密功能的移动终端的数据的问题。
为了实现上述发明目的,本申请提出一种移动终端爬取数据的方法,所述移动终端中安装有爬取移动终端数据的爬虫应用程序,所述方法包括:
第一移动终端获取模拟操作程序,其中,所述模拟操作程序是模拟用户控制移动终端操作的程序;
执行所述模拟操作程序;
通过Fiddler工具获取执行所述模拟操作程序时的响应数据,并将所述响应数据保存至指定的数据库中;
从所述数据库中提取指定要求的目标数据;
将所述目标数据发送至指定的服务器。
进一步地,所述第一移动终端调用预设的模拟操作程序的步骤,包括:
第一移动终端接收所述服务器的连接请求;
若接收到用户输入的允许连接请求的命令,则与所述服务器建立网络连接;
接收所述服务器推送的所述模拟操作程序。
进一步地,所述接收所述服务器推送的模拟操作程序的步骤之前,包括:
与所述服务器建立连接后,发送系统识别码给所述服务器,其中,所述系统识别码用于服务器识别与所述移动终端安装的系统对应的模拟操作程序。
进一步地,所述执行所述模拟操作程序的步骤之前,包括:
接收所述服务器发送的修改参数;
利用所述修改参数修改所述模拟操作程序。
进一步地,所述接收所述服务器发送的修改参数的步骤之前,包括:
发送所述第一移动终端当前APP的状态信息给所述服务器,其中,所述服务器根据所述第一移动终端当前APP的状态信息调取对应的所述修改参数。
进一步地,所述将所述目标数据发送至指定的服务器的步骤,包括:
判断是否接收到具有所述爬虫应用程序标识的第一近场交互信号;
若接收到所述第一近场交互信号,则获取发出第一近场交互信号的第二移动终端中目标数据的第一数据量;
判断所述第一移动终端中目标数据的第二数据量是否大于所述第一数据量;
如果大于,则以近场交互的方式接收所述第二移动终端中的目标数据;
第一移动终端将本机中的目标数据和接收到的目标数据一起发送给所述服务器。
进一步地,所述将所述目标数据发送至指定的服务器的步骤,包括:
判断是否接收到具有爬虫应用程序标识的第一近场交互信号;
若接收到具有爬虫应用程序标识的第一近场交互信号,则获取发出第一近场交互信号的第二移动终端的网络环境中,以及第一移动终端的网络环境;
若所述第二移动终端处于wifi环境中,而第一移动终端未处于wifi环境中,则将第一移动终端的目标数据通过近场交互的方式发送给第二移动终端,并通过第二移动终端将两个移动终端的目标数据一起发送给所述服务器;
若所述第二移动终端未处于wifi环境中,而第一移动终端处于wifi环境中,则第一移动终端获取第二移动终端通过近场交互的方式发送的目标数据,并通过第一移动终端将两个移动终端的目标数据一起发送给所述服务器;
若第一移动终端和第二移动终端均未处于wifi环境中,则比较两个移动终端的信号质量,通过近场交互的方式将信号质量差的移动终端中的目标数据发送给洗好质量好的移动终端中,通过信号质量好的移动终端将两个移动终端中的目标数据上传给所述服务器。
本申请还提供一种移动终端爬取数据的装置,所述移动终端中安装有爬取移动终端数据的爬虫应用程序,所述装置,包括:
获取单元,用于第一移动终端获取模拟操作程序,其中,所述模拟操作程序是模拟用户控制移动终端操作的程序;
执行单元,用于执行所述模拟操作程序;
获取存储单元,用于通过Fiddler工具获取执行所述模拟操作程序时的响应数据,并将所述响应数据保存至指定的数据库中;
提取单元,用于从所述数据库中提取指定要求的目标数据;
发送单元,用于将所述目标数据发送至指定的服务器。
本申请还提供一种移动终端,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的移动终端爬取数据的方法、装置、移动终端和存储介质,将爬取数据的爬虫应用程序安装在各个移动终端上,从移动终端内部爬取移动终端的相关数据,爬取数据的速度快;无需考虑移动终端的自身加密功能,更容易获取到想要的数据;可以分布式的设置移动终端,扩展性更强;可以通过配置不同的模拟操作程序,获取不同高的数据,使其使用的场景更多。
附图说明
图1为本申请一实施例的移动终端爬取数据的方法的流程示意图;
图2为本申请一实施例的移动终端爬取数据的装置的结构示意框图;
图3为本申请一实施例的移动终端的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种移动终端爬取数据的方法,所述移动终端中安装有爬取移动终端数据的爬虫应用程序。上述爬虫应用程序是指安装在移动终端上的爬虫APP等可以在移动终端上运行的应用程序。上述爬取数据的方法,包括步骤:
S1、第一移动终端获取模拟操作程序,其中,所述模拟操作程序是模拟用户控制移动终端操作的程序;
S2、执行所述模拟操作程序;
S3、通过Fiddler工具获取执行所述模拟操作程序时的响应数据,并将所述响应数据保存至指定的数据库中;
S4、从所述数据库中提取指定要求的目标数据;
S5、将所述目标数据发送至指定的服务器。
如上述步骤S1所述,上述移动终端即为智能移动设备,包括智能手机、平板电脑等;第一仅为与后面出现的其它移动终端进行区分。上述模拟操作程序是指用于模拟用户控制移动终端操作的程序。模拟操作程序可以模拟用户对手机进行指定操作过程的操作,比如,第一步打开A程序,第二步为控制A程序发送B请求等预设的步骤。
如上述步骤S2所述,即为运行上述模拟操作程序。
如上述步骤S3所述,上述Fiddler是一个http协议调试代理工具,它能够记录并检查所有用户的电脑和互联网之间的http通讯,设置断点,查看所有的"进出"Fiddler的数据(指cookie,html,js,css等文件)。Fiddler要比其他的网络调试器更加简单,因为它不仅仅暴露http通讯,还提供了一个用户友好的格式。在执行模拟操作程序时,会发出各种请求数据,并接收到针对各种请求数据的响应数据,比如,请求各种不同网站的请求数据、请求移动终端安装的不同APP的请求数据等,而各网站和各APP会根据请求数据反馈对应的响应数据,这些响应数据会被Fiddler工具获取,然后存储到指定的数据库中,以便后期使用。
如上述步骤S4所述,因为数据库中存储的数据较多,数据类型、数据内容各不相同,所以需要对数据进行提取。上述目标数据即为根据指定要求提取出的数据。具体的,提取某个APP的使用日志数据、提取数据库中与地理位置相关的数据等等。
如上述步骤S5所述,上述指定的服务器是用于接收移动终端提取出的目标数据的服务器。该服务器一般对接有多个移动终端,多个移动终端分别安装有爬虫应用程序,以便于通过多个手机分别进行数据爬取,得到更多的数据。比如,需要对某个APP进行数据调查,因为不同的人使用该APP的习惯不同,所以其产生的关于该APP的数据不同,所以将多个手机上的该APP的数据爬取出来,然后汇总到上述服务器中,可以更好、更全面的分析该APP等。
在一个实施例中,上述第一移动终端获取预设的模拟操作程序的步骤S1,包括:
第一移动终端接收所述服务器的连接请求;
若接收到用户输入的允许连接请求的命令,则与所述服务器建立网络连接;
接收所述服务器推送的所述模拟操作程序。
在本实施例中,上述模拟操作程序是服务器推送给移动终端的,在推送上述模拟操作程序之前,首先会与第一移动终端建立网络连接,而移动终端具有加密功能,所以需要移动终端用户主动控制“允许服务器的连接请求”,才会接收服务器推送的模拟操作程序。
在一个实施例中,上述接收所述服务器推送的模拟操作程序的步骤之前,包括:
与所述服务器建立连接后,发送系统识别码给所述服务器,其中,所述系统识别码用于服务器识别与所述移动终端安装的系统对应的模拟操作程序。
在本实施例中,目前移动终端安装的系统包括几个阵营,如安卓系统、苹果系统、塞班系统、微软系统等,不同的系统,其需要安装对应的版本的模拟操作程序。在服务器中预先存储有同样功能内容,但是针对不同手机系统的多个版本的模拟操作程序,当获取到移动终端上传的系统识别码后,识别出移动终端安装的系统,然后调取与移动终端安装的系统相对应版本的模拟操作程序推送给第一移动终端,可以保证第一移动终端可以正常运行模拟操作程序。
在一个实施例中,上述执行所述模拟操作程序的步骤S2之前,包括:
接收所述服务器发送的修改参数;
利用所述修改参数修改所述模拟操作程序。
在本实施例中,各个移动终端安装的爬虫应用程序是相同的,其运行的模拟操作程序如果相同,那么其爬取到的数据也基本相同,只有移动终端因自身运行各种APP产生的数据存在不同,所以会降低爬取数据的效率,因此,在执行模拟操作程序之前,服务器随机生成一些参数发送给移动终端,以对模拟操作程序的参数进行修改,进而使各移动终端的模拟操作程序发生变化,进而可以爬取到不同的数据。
在一个实施例中,上述接收所述服务器发送的修改参数的步骤之前,包括:
发送所述第一移动终端当前APP的状态信息给所述服务器,其中,所述服务器根据所述第一移动终端当前APP的状态信息调取对应的所述修改参数。
在本实施例中,上述APP的状态信息包括第一移动终端安装有多少APP,哪些APP是在运行的,各APP的历史使用频率等,这些都会影响参数的选择。比如,当前运行的APP存在5个,那么参数可以为循环访问这5个APP的参数;又比如,第一移动终端安装的APP的使用频率不同,那么参数可以为分为不同频率访问不同的APP等;再如某个APP没有更新也没有使用,那么访问该APP的频率可以低一些等,有针对性的获取数据,减少不必要的访问。
在一个实施例中,上述将所述目标数据发送至指定的服务器的步骤S5,包括:
判断是否接收到具有所述爬虫应用程序标识的第一近场交互信号;
若接收到所述第一近场交互信号,则获取发出第一近场交互信号的第二移动终端中目标数据的第一数据量;
判断所述第一移动终端中目标数据的第二数据量是否大于所述第一数据量;
如果大于,则以近场交互的方式接收所述第二移动终端中的目标数据;
第一移动终端将本机中的目标数据和接收到的目标数据一起发送给所述服务器。
在本实施例中,通过近场交互信号,查找到同样安装有爬虫应用程序的第二移动终端,然后将目标数据量小的目标数据通过近场交互的方式传递给目标数据量大的移动终端,然后统一由目标数据量大的移动终端将目标数据发送给服务器。查找第二移动终端的过程即为判断第一交互信号中的爬虫应用程序标识,与第一移动终端中安装的爬虫应用程序的标识是否相同,如果相同,则说明第一移动终端和第二移动终端安装有同样的爬虫应用程序。爬虫应用程序标识是爬虫应用程序的唯一标识,如爬虫应用程序的唯一包名等。本实施例中,在一个移动终端进行目标数据的整合,然后统一发送给服务器,可以节省服务器接收数据的接口量。
在一个实施例中,上述将所述目标数据发送至指定的服务器的步骤S5,包括:
判断是否接收到具有爬虫应用程序标识的第一近场交互信号;
若接收到具有爬虫应用程序标识的第一近场交互信号,则获取发出第一近场交互信号的第二移动终端的网络环境中,以及第一移动终端的网络环境;
若所述第二移动终端处于wifi环境中,而第一移动终端未处于wifi环境中,则将第一移动终端的目标数据通过近场交互的方式发送给第二移动终端,并通过第二移动终端将两个移动终端的目标数据一起发送给所述服务器;
若所述第二移动终端未处于wifi环境中,而第一移动终端处于wifi环境中,则第一移动终端获取第二移动终端通过近场交互的方式发送的目标数据,并通过第一移动终端将两个移动终端的目标数据一起发送给所述服务器;
若第一移动终端和第二移动终端均未处于wifi环境中,则比较两个移动终端的信号质量,通过近场交互的方式将信号质量差的移动终端中的目标数据发送给洗好质量好的移动终端中,通过信号质量好的移动终端将两个移动终端中的目标数据上传给所述服务器。
在本实施例中,先选择wifi环境的移动终端进行上传目标数据,可以节约流量费用;如果均不处于wifi环境,则选择信号质量好的移动终端上传目标数据。在其它实施例中,当两个移动终端均不处于wifi环境中时,可以分析两个手机终端的免费流量,然后使用免费流量多的移动终端进行上传目标数据等。
本申请实施例的移动终端爬取数据的方法,将爬取数据的爬虫应用程序安装在各个移动终端上,从移动终端内部爬取移动终端的相关数据,爬取数据的速度快;无需考虑移动终端的自身加密功能,更容易获取到想要的数据;可以分布式的设置移动终端,扩展性更强;可以通过配置不同的模拟操作程序,获取不同高的数据,使其使用的场景更多。
参照图2,本申请实施例提供一种移动终端爬取数据的装置,所述移动终端中安装有爬取移动终端数据的爬虫应用程序。上述爬虫应用程序是指安装在移动终端上的爬虫APP等可以在移动终端上运行的应用程序。上述爬取数据的装置,包括步骤:
获取单元10,用于第一移动终端获取模拟操作程序,其中,所述模拟操作程序是模拟用户控制移动终端操作的程序;
执行单元20,用于执行所述模拟操作程序;
获取存储单元30,用于通过Fiddler工具获取执行所述模拟操作程序时的响应数据,并将所述响应数据保存至指定的数据库中;
提取单元40,用于从所述数据库中提取指定要求的目标数据;
发送单元50,用于将所述目标数据发送至指定的服务器。
如上述获取单元10,上述移动终端即为智能移动设备,包括智能手机、平板电脑等;第一仅为与后面出现的其它移动终端进行区分。上述模拟操作程序是指用于模拟用户控制移动终端操作的程序。模拟操作程序可以模拟用户对手机进行指定操作过程的操作,比如,第一步打开A程序,第二步为控制A程序发送B请求等预设的步骤。
如上述执行单元20,即为运行上述模拟操作程序的装置。
如上述获取存储单元30,上述Fiddler是一个http协议调试代理工具,它能够记录并检查所有用户的电脑和互联网之间的http通讯,设置断点,查看所有的"进出"Fiddler的数据(指cookie,html,js,css等文件)。Fiddler要比其他的网络调试器更加简单,因为它不仅仅暴露http通讯,还提供了一个用户友好的格式。在执行模拟操作程序时,会发出各种请求数据,并接收到针对各种请求数据的响应数据,比如,请求各种不同网站的请求数据、请求移动终端安装的不同APP的请求数据等,而各网站和各APP会根据请求数据反馈对应的响应数据,这些响应数据会被Fiddler工具获取,然后存储到指定的数据库中,以便后期使用。
如上述提取单元40,因为数据库中存储的数据较多,数据类型、数据内容各不相同,所以需要对数据进行提取。上述目标数据即为根据指定要求提取出的数据。具体的,提取某个APP的使用日志数据、提取数据库中与地理位置相关的数据等等。
如上述发送单元50,上述指定的服务器是用于接收移动终端提取出的目标数据的服务器。该服务器一般对接有多个移动终端,多个移动终端分别安装有爬虫应用程序,以便于通过多个手机分别进行数据爬取,得到更多的数据。比如,需要对某个APP进行数据调查,因为不同的人使用该APP的习惯不同,所以其产生的关于该APP的数据不同,所以将多个手机上的该APP的数据爬取出来,然后汇总到上述服务器中,可以更好、更全面的分析该APP等。
在一个实施例中,上述获取单元10,包括:
第一接收模块,用于接收所述服务器的连接请求;
建立模块,用于若接收到用户输入的允许连接请求的命令,则与所述服务器建立网络连接;
第二接收模块,用于接收所述服务器推送的所述模拟操作程序。
在本实施例中,上述模拟操作程序是服务器推送给移动终端的,在推送上述模拟操作程序之前,首先会与第一移动终端建立网络连接,而移动终端具有加密功能,所以需要移动终端用户主动控制“允许服务器的连接请求”,才会接收服务器推送的模拟操作程序。
在一个实施例中,上述获取单元10,还包括:
发送识别码模块,用于与所述服务器建立连接后,发送系统识别码给所述服务器,其中,所述系统识别码用于服务器识别与所述移动终端安装的系统对应的模拟操作程序。
在本实施例中,目前移动终端安装的系统包括几个阵营,如安卓系统、苹果系统、塞班系统、微软系统等,不同的系统,其需要安装对应的版本的模拟操作程序。在服务器中预先存储有同样功能内容,但是针对不同手机系统的多个版本的模拟操作程序,当获取到移动终端上传的系统识别码后,识别出移动终端安装的系统,然后调取与移动终端安装的系统相对应版本的模拟操作程序推送给第一移动终端,可以保证第一移动终端可以正常运行模拟操作程序。
在一个实施例中,上述移动终端爬取数据的装置,还包括:
接收单元,用于接收所述服务器发送的修改参数;
修改单元,用于利用所述修改参数修改所述模拟操作程序。
在本实施例中,各个移动终端安装的爬虫应用程序是相同的,其运行的模拟操作程序如果相同,那么其爬取到的数据也基本相同,只有移动终端因自身运行各种APP产生的数据存在不同,所以会降低爬取数据的效率,因此,在执行模拟操作程序之前,服务器可以随机生成一些参数发送给移动终端,以对模拟操作程序的参数进行修改,进而使各移动终端的模拟操作程序发生变化,进而可以爬取到不同的数据。
在一个实施例中,上述移动终端爬取数据的装置,还包括:
发送状态单元,用于发送所述第一移动终端当前APP的状态信息给所述服务器,其中,所述服务器根据所述第一移动终端当前APP的状态信息调取对应的所述修改参数。
在本实施例中,上述APP的状态信息包括第一移动终端安装有多少APP,哪些APP是在运行的,各APP的历史使用频率等,这些都会影响参数的选择。比如,当前运行的APP存在5个,那么参数可以为循环访问这5个APP的参数;又比如,第一移动终端安装的APP的使用频率不同,那么参数可以为分为不同频率访问不同的APP等;再如某个APP没有更新也没有使用,那么访问该APP的频率可以低一些等,有针对性的获取数据,减少不必要的访问。
在一个实施例中,上述发送单元50,包括:
第一判断模块,用于判断是否接收到具有所述爬虫应用程序标识的第一近场交互信号;
第一获取模块,用于若接收到所述第一近场交互信号,则获取发出第一近场交互信号的第二移动终端中目标数据的第一数据量;
第二判断模块,用于判断所述第一移动终端中目标数据的第二数据量是否大于所述第一数据量;
近场接收模块,用于如果所述第二数据量大于所述第一数据量,则以近场交互的方式接收所述第二移动终端中的目标数据;
综合发送模块,用于第一移动终端将本机中的目标数据和接收到的目标数据一起发送给所述服务器。
在本实施例中,通过近场交互信号,查找到同样安装有爬虫应用程序的第二移动终端,然后将目标数据量小的目标数据通过近场交互的方式传递给目标数据量大的移动终端,然后统一由目标数据量大的移动终端将目标数据发送给服务器。查找第二移动终端的过程即为判断第一交互信号中的爬虫应用程序标识,与第一移动终端中安装的爬虫应用程序的标识是否相同,如果相同,则说明第一移动终端和第二移动终端安装有同样的爬虫应用程序。爬虫应用程序标识是爬虫应用程序的唯一标识,如爬虫应用程序的唯一包名等。本实施例中,在一个移动终端进行目标数据的整合,然后统一发送给服务器,可以节省服务器接收数据的接口量。
在一个实施例中,上述发送单元50,包括:
第一判断模块,用于判断是否接收到具有爬虫应用程序标识的第一近场交互信号;
第二获取模块,用于若接收到具有爬虫应用程序标识的第一近场交互信号,则获取发出第一近场交互信号的第二移动终端的网络环境中,以及第一移动终端的网络环境;
第三获取模块,用于若所述第二移动终端处于wifi环境中,而第一移动终端未处于wifi环境中,则将第一移动终端的目标数据通过近场交互的方式发送给第二移动终端,并通过第二移动终端将两个移动终端的目标数据一起发送给所述服务器;
第四获取模块,用于若所述第二移动终端未处于wifi环境中,而第一移动终端处于wifi环境中,则第一移动终端获取第二移动终端通过近场交互的方式发送的目标数据,并通过第一移动终端将两个移动终端的目标数据一起发送给所述服务器;
第五获取模块,用于若第一移动终端和第二移动终端均未处于wifi环境中,则比较两个移动终端的信号质量,通过近场交互的方式将信号质量差的移动终端中的目标数据发送给洗好质量好的移动终端中,通过信号质量好的移动终端将两个移动终端中的目标数据上传给所述服务器。
在本实施例中,先选择wifi环境的移动终端进行上传目标数据,可以节约流量费用;如果均不处于wifi环境,则选择信号质量好的移动终端上传目标数据。在其它实施例中,当两个移动终端均不处于wifi环境中时,可以分析两个手机终端的免费流量,然后使用免费流量多的移动终端进行上传目标数据等。
本申请实施例的移动终端爬取数据的装置,将爬取数据的爬虫应用程序安装在各个移动终端上,从移动终端内部爬取移动终端的相关数据,爬取数据的速度快;无需考虑移动终端的自身加密功能,更容易获取到想要的数据;可以分布式的设置移动终端,扩展性更强;可以通过配置不同的模拟操作程序,获取不同高的数据,使其使用的场景更多。
参照图3,本申请实施例中还提供一种移动终端,该移动终端可以是服务器,其内部结构可以如图3所示。该移动终端包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该移动终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该移动终端的数据库用于存储爬虫应用程序、爬虫应用程序爬取的数据等。该移动终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种移动终端爬取数据的方法。
上述处理器执行上述移动终端爬取数据的方法,包括:第一移动终端获取模拟操作程序,其中,所述模拟操作程序是模拟用户控制移动终端操作的程序;执行所述模拟操作程序;通过Fiddler工具获取执行所述模拟操作程序时的响应数据,并将所述响应数据保存至指定的数据库中;从所述数据库中提取指定要求的目标数据;将所述目标数据发送至指定的服务器。
在一个实施例中,上述第一移动终端调用预设的模拟操作程序的步骤,包括:第一移动终端接收所述服务器的连接请求;若接收到用户输入的允许连接请求的命令,则与所述服务器建立网络连接;接收所述服务器推送的所述模拟操作程序。
在一个实施例中,上述接收所述服务器推送的模拟操作程序的步骤之前,包括:与所述服务器建立连接后,发送系统识别码给所述服务器,其中,所述系统识别码用于服务器识别与所述移动终端安装的系统对应的模拟操作程序。
在一个实施例中,上述执行所述模拟操作程序的步骤之前,包括:接收所述服务器发送的修改参数;利用所述修改参数修改所述模拟操作程序。
在一个实施例中,上述接收所述服务器发送的修改参数的步骤之前,包括:发送所述第一移动终端当前APP的状态信息给所述服务器,其中,所述服务器根据所述第一移动终端当前APP的状态信息调取对应的所述修改参数。
在一个实施例中,上述将所述目标数据发送至指定的服务器的步骤,包括:判断是否接收到具有所述爬虫应用程序标识的第一近场交互信号;若接收到所述第一近场交互信号,则获取发出第一近场交互信号的第二移动终端中目标数据的第一数据量;判断所述第一移动终端中目标数据的第二数据量是否大于所述第一数据量;如果大于,则以近场交互的方式接收所述第二移动终端中的目标数据;第一移动终端将本机中的目标数据和接收到的目标数据一起发送给所述服务器。
在一个实施例中,上述将所述目标数据发送至指定的服务器的步骤,包括:判断是否接收到具有爬虫应用程序标识的第一近场交互信号;若接收到具有爬虫应用程序标识的第一近场交互信号,则获取发出第一近场交互信号的第二移动终端的网络环境中,以及第一移动终端的网络环境;若所述第二移动终端处于wifi环境中,而第一移动终端未处于wifi环境中,则将第一移动终端的目标数据通过近场交互的方式发送给第二移动终端,并通过第二移动终端将两个移动终端的目标数据一起发送给所述服务器;若所述第二移动终端未处于wifi环境中,而第一移动终端处于wifi环境中,则第一移动终端获取第二移动终端通过近场交互的方式发送的目标数据,并通过第一移动终端将两个移动终端的目标数据一起发送给所述服务器;若第一移动终端和第二移动终端均未处于wifi环境中,则比较两个移动终端的信号质量,通过近场交互的方式将信号质量差的移动终端中的目标数据发送给洗好质量好的移动终端中,通过信号质量好的移动终端将两个移动终端中的目标数据上传给所述服务器。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的移动终端的限定。
本申请实施例的移动终端,将爬取数据的爬虫应用程序安装在各个移动终端上,从移动终端内部爬取移动终端的相关数据,爬取数据的速度快;无需考虑移动终端的自身加密功能,更容易获取到想要的数据;可以分布式的设置移动终端,扩展性更强;可以通过配置不同的模拟操作程序,获取不同高的数据,使其使用的场景更多。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种移动终端爬取数据的方法,所述移动终端中安装有爬虫应用程序,所述方法,包括:第一移动终端获取模拟操作程序,其中,所述模拟操作程序是模拟用户控制移动终端操作的程序;执行所述模拟操作程序;通过Fiddler工具获取执行所述模拟操作程序时的响应数据,并将所述响应数据保存至指定的数据库中;从所述数据库中提取指定要求的目标数据;将所述目标数据发送至指定的服务器。
上述移动终端爬取数据的方法,将爬取数据的爬虫应用程序安装在各个移动终端上,从移动终端内部爬取移动终端的相关数据,爬取数据的速度快;无需考虑移动终端的自身加密功能,更容易获取到想要的数据;可以分布式的设置移动终端,扩展性更强;可以通过配置不同的模拟操作程序,获取不同高的数据,使其使用的场景更多。
在一个实施例中,上述第一移动终端调用预设的模拟操作程序的步骤,包括:第一移动终端接收所述服务器的连接请求;若接收到用户输入的允许连接请求的命令,则与所述服务器建立网络连接;接收所述服务器推送的所述模拟操作程序。
在一个实施例中,上述接收所述服务器推送的模拟操作程序的步骤之前,包括:与所述服务器建立连接后,发送系统识别码给所述服务器,其中,所述系统识别码用于服务器识别与所述移动终端安装的系统对应的模拟操作程序。
在一个实施例中,上述执行所述模拟操作程序的步骤之前,包括:接收所述服务器发送的修改参数;利用所述修改参数修改所述模拟操作程序。
在一个实施例中,上述接收所述服务器发送的修改参数的步骤之前,包括:发送所述第一移动终端当前APP的状态信息给所述服务器,其中,所述服务器根据所述第一移动终端当前APP的状态信息调取对应的所述修改参数。
在一个实施例中,上述将所述目标数据发送至指定的服务器的步骤,包括:判断是否接收到具有所述爬虫应用程序标识的第一近场交互信号;若接收到所述第一近场交互信号,则获取发出第一近场交互信号的第二移动终端中目标数据的第一数据量;判断所述第一移动终端中目标数据的第二数据量是否大于所述第一数据量;如果大于,则以近场交互的方式接收所述第二移动终端中的目标数据;第一移动终端将本机中的目标数据和接收到的目标数据一起发送给所述服务器。
在一个实施例中,上述将所述目标数据发送至指定的服务器的步骤,包括:判断是否接收到具有爬虫应用程序的第一近场交互信号;若接收到具有爬虫应用程序的第一近场交互信号,则获取发出第一近场交互信号的第二移动终端的网络环境中,以及第一移动终端的网络环境;若所述第二移动终端处于wifi环境中,而第一移动终端未处于wifi环境中,则将第一移动终端的目标数据通过近场交互的方式发送给第二移动终端,并通过第二移动终端将两个移动终端的目标数据一起发送给所述服务器;若所述第二移动终端未处于wifi环境中,而第一移动终端处于wifi环境中,则第一移动终端获取第二移动终端通过近场交互的方式发送的目标数据,并通过第一移动终端将两个移动终端的目标数据一起发送给所述服务器;若第一移动终端和第二移动终端均未处于wifi环境中,则比较两个移动终端的信号质量,通过近场交互的方式将信号质量差的移动终端中的目标数据发送给洗好质量好的移动终端中,通过信号质量好的移动终端将两个移动终端中的目标数据上传给所述服务器。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种移动终端爬取数据的方法,所述移动终端中安装有爬取移动终端数据的爬虫应用程序,其特征在于,所述方法包括:
第一移动终端获取模拟操作程序,其中,所述模拟操作程序是模拟用户控制移动终端操作的程序;
执行所述模拟操作程序;
通过Fiddler工具获取执行所述模拟操作程序时的响应数据,并将所述响应数据保存至指定的数据库中;
从所述数据库中提取指定要求的目标数据;
将所述目标数据发送至指定的服务器。
2.根据权利要求1所述的移动终端爬取数据的方法,其特征在于,所述第一移动终端调用预设的模拟操作程序的步骤,包括:
所述第一移动终端接收所述服务器的连接请求;
若接收到用户输入的允许连接请求的命令,则与所述服务器建立网络连接;
接收所述服务器推送的所述模拟操作程序。
3.根据权利要求2所述的移动终端爬取数据的方法,其特征在于,所述接收所述服务器推送的模拟操作程序的步骤之前,包括:
与所述服务器建立连接后,发送系统识别码给所述服务器,其中,所述系统识别码用于服务器识别与所述移动终端安装的系统对应的模拟操作程序。
4.根据权利要求3所述的移动终端爬取数据的方法,其特征在于,所述执行所述模拟操作程序的步骤之前,包括:
接收所述服务器发送的修改参数;
利用所述修改参数修改所述模拟操作程序。
5.根据权利要求4所述的移动终端爬取数据的方法,其特征在于,所述接收所述服务器发送的修改参数的步骤之前,包括:
发送所述第一移动终端当前APP的状态信息给所述服务器,其中,所述服务器根据所述第一移动终端当前APP的状态信息调取对应的所述修改参数。
6.根据权利要求1所述的移动终端爬取数据的方法,其特征在于,所述将所述目标数据发送至指定的服务器的步骤,包括:
判断是否接收到具有所述爬虫应用程序标识的第一近场交互信号;
若接收到所述第一近场交互信号,则获取发出第一近场交互信号的第二移动终端中目标数据的第一数据量;
判断所述第一移动终端中目标数据的第二数据量是否大于所述第一数据量;
如果大于,则以近场交互的方式接收所述第二移动终端中的目标数据;
第一移动终端将本机中的目标数据和接收到的目标数据一起发送给所述服务器。
7.根据权利要求1所述的移动终端爬取数据的方法,其特征在于,所述将所述目标数据发送至指定的服务器的步骤,包括:
判断是否接收到具有爬虫应用程序标识的第一近场交互信号;
若接收到具有爬虫应用程序标识的第一近场交互信号,则获取发出第一近场交互信号的第二移动终端的网络环境中,以及第一移动终端的网络环境;
若所述第二移动终端处于wifi环境中,而第一移动终端未处于wifi环境中,则将第一移动终端的目标数据通过近场交互的方式发送给第二移动终端,并通过第二移动终端将两个移动终端的目标数据一起发送给所述服务器;
若所述第二移动终端未处于wifi环境中,而第一移动终端处于wifi环境中,则第一移动终端获取第二移动终端通过近场交互的方式发送的目标数据,并通过第一移动终端将两个移动终端的目标数据一起发送给所述服务器;
若第一移动终端和第二移动终端均未处于wifi环境中,则比较两个移动终端的信号质量,通过近场交互的方式将信号质量差的移动终端中的目标数据发送给洗好质量好的移动终端中,通过信号质量好的移动终端将两个移动终端中的目标数据上传给所述服务器。
8.一种移动终端爬取数据的装置,所述移动终端中安装有爬取移动终端数据的爬虫应用程序,其特征在于,所述装置包括:
获取单元,用于第一移动终端获取模拟操作程序,其中,所述模拟操作程序是模拟用户控制移动终端操作的程序;
执行单元,用于执行所述模拟操作程序;
获取存储单元,用于通过Fiddler工具获取执行所述模拟操作程序时的响应数据,并将所述响应数据保存至指定的数据库中;
提取单元,用于从所述数据库中提取指定要求的目标数据;
发送单元,用于将所述目标数据发送至指定的服务器。
9.一种移动终端,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201910100412.5A 2019-01-31 2019-01-31 移动终端爬取数据的方法、装置、移动终端和存储介质 Active CN109918553B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910100412.5A CN109918553B (zh) 2019-01-31 2019-01-31 移动终端爬取数据的方法、装置、移动终端和存储介质
PCT/CN2019/118169 WO2020155765A1 (zh) 2019-01-31 2019-11-13 移动终端爬取数据的方法、装置、移动终端和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910100412.5A CN109918553B (zh) 2019-01-31 2019-01-31 移动终端爬取数据的方法、装置、移动终端和存储介质

Publications (2)

Publication Number Publication Date
CN109918553A true CN109918553A (zh) 2019-06-21
CN109918553B CN109918553B (zh) 2024-07-16

Family

ID=66961287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910100412.5A Active CN109918553B (zh) 2019-01-31 2019-01-31 移动终端爬取数据的方法、装置、移动终端和存储介质

Country Status (2)

Country Link
CN (1) CN109918553B (zh)
WO (1) WO2020155765A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400722A (zh) * 2020-03-25 2020-07-10 深圳市腾讯网域计算机网络有限公司 扫描小程序的方法、装置、计算机设备和存储介质
WO2020155765A1 (zh) * 2019-01-31 2020-08-06 平安科技(深圳)有限公司 移动终端爬取数据的方法、装置、移动终端和存储介质
CN112100473A (zh) * 2020-09-21 2020-12-18 工业互联网创新中心(上海)有限公司 基于应用接口的爬虫方法、终端及存储介质
CN112966167A (zh) * 2021-02-20 2021-06-15 中国工商银行股份有限公司 数据爬取方法、装置、计算机系统和计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740290A (zh) * 2014-12-11 2016-07-06 富士通株式会社 移动设备自适应网络搜索的系统和方法
CN107256276A (zh) * 2017-08-01 2017-10-17 北京合天智汇信息技术有限公司 一种基于云平台的移动App内容安全获取方法及设备
CN108089967A (zh) * 2017-12-12 2018-05-29 成都睿码科技有限责任公司 一种爬取安卓手机App数据的方法
CN108804559A (zh) * 2018-05-22 2018-11-13 清华大学 一种移动应用内容获取方法及装置
CN109101600A (zh) * 2018-08-01 2018-12-28 沈文策 一种网页中动态数据的爬取方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170185678A1 (en) * 2015-12-28 2017-06-29 Le Holdings (Beijing) Co., Ltd. Crawler system and method
CN108875368A (zh) * 2017-05-10 2018-11-23 北京金山云网络技术有限公司 一种安全检测方法、装置及系统
CN109918553B (zh) * 2019-01-31 2024-07-16 平安科技(深圳)有限公司 移动终端爬取数据的方法、装置、移动终端和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740290A (zh) * 2014-12-11 2016-07-06 富士通株式会社 移动设备自适应网络搜索的系统和方法
CN107256276A (zh) * 2017-08-01 2017-10-17 北京合天智汇信息技术有限公司 一种基于云平台的移动App内容安全获取方法及设备
CN108089967A (zh) * 2017-12-12 2018-05-29 成都睿码科技有限责任公司 一种爬取安卓手机App数据的方法
CN108804559A (zh) * 2018-05-22 2018-11-13 清华大学 一种移动应用内容获取方法及装置
CN109101600A (zh) * 2018-08-01 2018-12-28 沈文策 一种网页中动态数据的爬取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黑马程序员: "《解析Python网络爬虫 核心技术、Scrapy框架、分布式爬虫》", 31 August 2018, 中国铁道出版社, pages: 209 - 211 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020155765A1 (zh) * 2019-01-31 2020-08-06 平安科技(深圳)有限公司 移动终端爬取数据的方法、装置、移动终端和存储介质
CN111400722A (zh) * 2020-03-25 2020-07-10 深圳市腾讯网域计算机网络有限公司 扫描小程序的方法、装置、计算机设备和存储介质
CN112100473A (zh) * 2020-09-21 2020-12-18 工业互联网创新中心(上海)有限公司 基于应用接口的爬虫方法、终端及存储介质
CN112966167A (zh) * 2021-02-20 2021-06-15 中国工商银行股份有限公司 数据爬取方法、装置、计算机系统和计算机可读存储介质

Also Published As

Publication number Publication date
CN109918553B (zh) 2024-07-16
WO2020155765A1 (zh) 2020-08-06

Similar Documents

Publication Publication Date Title
CN109918553A (zh) 移动终端爬取数据的方法、装置、移动终端和存储介质
CN101222349B (zh) 收集web用户行为及性能数据的方法及系统
CN106503134B (zh) 浏览器跳转至应用程序的数据同步方法及装置
US20170099560A1 (en) System, a method and a computer program product for automated remote control
CN104750487B (zh) 一种移动终端app的开发方法及启动方法
US10582550B2 (en) Generating sequenced instructions for connecting through captive portals
CN103645951A (zh) 一种跨平台的移动数据管理系统及其方法
CN104639653A (zh) 基于云架构的自适应方法及系统
CN107391775A (zh) 一种通用的网络爬虫模型实现方法及系统
CN110609937A (zh) 一种爬虫识别方法及装置
CN109688280A (zh) 请求处理方法、请求处理设备、浏览器及存储介质
US20140214921A1 (en) System and method for identification of an application executed on a mobile device
CN107809383A (zh) 一种基于mvc的路径映射方法及装置
CN107291744A (zh) 确定及运用应用程序之间的关系关联的方法及装置
CN109729044A (zh) 一种通用的互联网数据采集反反爬系统及方法
CN110535901A (zh) 服务降级方法、装置、计算机设备及存储介质
CN107920103A (zh) 一种信息推送的方法和系统及客户端和服务器
CN110502366A (zh) 案例执行方法、装置、设备及计算机可读存储介质
CN110928755A (zh) 一种用户行为数据处理方法及装置
CN105159992A (zh) 一种应用程序的页面内容及网络行为的检测方法及装置
CN103607454A (zh) Android系统浏览器设置私有代理服务器的方法
CN105653580A (zh) 特征信息确定、判定方法及装置以及其应用方法和系统
CN114745146B (zh) 跳转拦截方法、装置、可读存储介质及设备
EP4142238A1 (en) Pico base station configuration method and apparatus, and storage medium and electronic apparatus
CN107534860A (zh) WiFi热点Portal认证方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant