CN108804559B - 一种移动应用内容获取方法及装置 - Google Patents

一种移动应用内容获取方法及装置 Download PDF

Info

Publication number
CN108804559B
CN108804559B CN201810494533.8A CN201810494533A CN108804559B CN 108804559 B CN108804559 B CN 108804559B CN 201810494533 A CN201810494533 A CN 201810494533A CN 108804559 B CN108804559 B CN 108804559B
Authority
CN
China
Prior art keywords
content
data
mobile app
mobile
display layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810494533.8A
Other languages
English (en)
Other versions
CN108804559A (zh
Inventor
尹浩
王威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810494533.8A priority Critical patent/CN108804559B/zh
Publication of CN108804559A publication Critical patent/CN108804559A/zh
Application granted granted Critical
Publication of CN108804559B publication Critical patent/CN108804559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种移动应用内容获取方法及装置,该方法包括:接收移动应用内容获取任务,其中,所述移动应用内容获取任务中包括待获取内容的移动APP;根据移动APP结构确定内容爬取算法;基于所述内容爬取算法获取所述移动APP显示层数据;当获取的所述移动APP显示层数据满足预设需求时,将获取的数据保存至预设数据库。通过本发明解决了移动应用内容获取的问题。

Description

一种移动应用内容获取方法及装置
技术领域
本发明涉及移动互联网技术领域,特别是涉及一种移动应用内容获取方法及装置。
背景技术
随着移动互联网技术的发展,移动互联网已经渗入到人们日常生活的方方面面,已经成为普通大众获取资讯信息的主要渠道之一。移动互联网上的资讯内容也在人们的日常生活中发挥了很重要的影响,因此,移动互联网也会被某些不法分子利用,以传播淫秽色情、暴力或者反动信息,以从中谋取或者达到某些不可告人的目的。从此看来,一个健康向上的移动互联网络环境将对社会产生巨大的积极正面的影响。到位的网络监管将需要一套成熟可靠的移动互联网内容监管技术,即移动互联网内容的获取及检测技术。
现有的网络内容获取技术主要通过网络爬虫实现,爬虫的主要目的是将互联网上的网页下载到本地形成一个互联网内容镜像。首先以某些网站作为种子URL(UniformResource Locator,统一资源定位符),并将这些URL放入待抓取URL队列。然后从待抓取URL队列中获取待抓取的URL,解析DNS,并且得到HTML协议访问的主机的IP地址,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已经抓取URL队列。最后分析已经抓取URL队列中的URL,分析其中的其它URL,并且将URL放入待抓取URL队列,从而进入下一个循环。
可见,现有的网络内容获取方法通常是基于互联网网页内容进行的采集,并未实现对移动互联网的内容获取。由于移动互联网与传统互联网的不同,例如:移动互联网设备多样、移动互联网APP种类多、移动互联网使用行为与之不同,这些不同均导致了传统互联网内容获取方法对移动互联网的不适应,所以目前需要一种能够实现对移动互联网应用内容获取的方法。
发明内容
针对于上述问题,本发明提供一种移动应用内容获取方法及装置,解决了移动应用内容获取的问题。
为了实现上述目的,本发明实施例提供了如下技术方案:
一种移动应用内容获取方法,该方法包括:
接收移动应用内容获取任务,其中,所述移动应用内容获取任务中包括待获取内容的移动APP;
根据移动APP结构确定内容爬取算法;
基于所述内容爬取算法获取所述移动APP显示层数据;
当获取的所述移动APP显示层数据满足预设需求时,将获取的数据保存至预设数据库。
优选地,所述根据移动APP结构确定内容爬取算法,包括:
确定所述移动APP的类型;
根据所述移动APP的类型和所述移动APP的结构确定遍历参数;
基于所述遍历参数设计内容爬取算法。
优选地,所述基于所述内容爬取算法获取所述移动APP显示层数据,包括:
当获取所述移动APP显示层数据为文字时,基于所述内容爬取算法获取所述文字对应控件的属性信息,并根据所述属性信息获取所述移动APP显示层数据;
当获取所述移动APP显示层数据为图片时,基于所述内容爬取算法对所述移动APP显示层像素点信息进行截取,得到所述APP显示层数据。
优选地,还包括:
基于所述内容爬取算法对所述移动APP的网络层数据进行监测,得到监测数据;
对所述检测数据进行解析得到待获取的移动应用内容。
优选地,还包括:
基于所述预设数据库中的数据对移动互联网内容进行监控。
一种移动应用内容获取装置,包括:
接收模块,用于接收移动应用内容获取任务,其中,所述移动应用内容获取任务中包括待获取内容的移动APP;
确定模块,用于根据移动APP结构确定内容爬取算法;
获取模块,用于基于所述内容爬取算法获取所述移动APP显示层数据;
保存模块,用于当获取的所述移动APP显示层数据满足预设需求时,将获取的数据保存至预设数据库。
优选地,所述确定模块包括:
第一确定单元,用于确定所述移动APP的类型;
第二确定单元,用于根据所述移动APP的类型和所述移动APP的结构确定遍历参数;
设计单元,用于基于所述遍历参数设计内容爬取算法。
优选地,所述获取模块包括:
文字获取单元,用于当获取所述移动APP显示层数据为文字时,基于所述内容爬取算法获取所述文字对应控件的属性信息,并根据所述属性信息获取所述移动APP显示层数据;
图片获取单元,用于当获取所述移动APP显示层数据为图片时,基于所述内容爬取算法对所述移动APP显示层像素点信息进行截取,得到所述APP显示层数据。
优选地,还包括:
网络层监测单元,用于基于所述内容爬取算法对所述移动APP的网络层数据进行监测,得到监测数据;
内容获取单元,用于对所述检测数据进行解析得到待获取的移动应用内容。
优选地,还包括:
监测模块,用于基于所述预设数据库中的数据对移动互联网内容进行监控。
相较于现有技术,本发明在接收移动应用内容获取任务后,分析移动APP结构确定内容爬取算法,根据该算法获取了显示层数据,并将获取数据进行存储为后续访问数据也提供了便利的访问地址,本发明能够结合移动互联网特点,并根据移动APP结构设计内容爬取算法,而基于该爬取算法获得移动应用内容更加符合移动互联网的内容获取要求,进而解决了移动应用内容获取的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种移动应用内容获取方法的流程示意图;
图2为本发明实施例提供的一种移动应用程序的内容爬取系统的框架示意图;
图3为本发明实施例提供的一种移动应用内容获取装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
本发明实施例提供了一种移动应用内容获取方法,参见图1,该方法可以包括以下步骤:
S11、接收移动应用内容获取任务,其中,所述移动应用内容获取任务中包括待获取内容的移动APP;
根据本发明提供的一种移动应用内容获取方法,在实际应用场景中通常是测试设备接收任务控制器发送的移动应用内容获取任务,其中,任务控制器负责测试设备的状态监控同时发送内容获取任务。相应的,测试设备即为实体手机或虚拟机,在该内容获取任务中包括了要获取内容的载体即移动APP,因为由于移动APP的种类不同,所以结构会不同,所以需要明确待获取的移动APP才能保证后续的内容获取的准确性。
S12、根据移动APP结构确定内容爬取算法;
要根据移动APP的结构,设计内容爬取算法,因为不同的结构爬取算法会不同,但是同一类APP的内容爬取算法基本一致,因此内容爬取算法的复用性也很高,例如,新闻门户APP(具体形式如常见的手机APP头条、腾讯新闻、网易新闻等等)拥有相似的结构设计,可以使用同一套算法而无需单独设计。在对内容爬取算法的设计过程中是以移动APP的结构为基础,例如,对于新闻类媒体APP,其主要内容为一条一条目录,所以将这些目录作为主要爬取内容,对应的内容爬取算法的本质为对目录的抓取;同时要根据APP结构与用户需求,在内容爬取算法中设定一些特定的参数如遍历深度,便于内容的获取。
S13、基于所述内容爬取算法获取所述移动APP显示层数据;
在获取内容时是从显示层数据开始,即UI层入手,直接获取呈现给用户的内容,因此可以针对特定用户内容进行获取,为提供安全的网络环境监管提供了技术实现基础。
S14、当获取的所述移动APP显示层数据满足预设需求时,将获取的数据保存至预设数据库。
获取的数据满足预设需求也就是数据获取的数量或者规格符合实际需求时,比如获取的数据达到了预设的深度限制或者内容限制便可以停止对数据的获取。将获取的数据存储到预设的数据库,例如PDC(private data center,个人数据中心)数据库,为后续的应用提供直接的访问地址。
通过本发明实施例提供的一种移动应用内容获取方法,在接收移动应用内容获取任务后,分析移动APP结构确定内容爬取算法,根据该算法获取了显示层数据,并将获取数据进行存储为后续访问数据也提供了便利的访问地址,本发明能够结合移动互联网特点,并根据移动APP结构设计内容爬取算法,而基于该爬取算法获得移动应用内容更加符合移动互联网的内容获取要求,进而解决了移动应用内容获取的问题。
在本发明的另一实施例中还提供了一种确定内容爬取算法的方法,可以包括以下步骤:
确定所述移动APP的类型;
根据所述移动APP的类型和所述移动APP的结构确定遍历参数;
基于所述遍历参数设计内容爬取算法。
举例说明,根据特定的移动APP类型和结构,设计内容爬取算法,如对于新闻类媒体,其主要内容为一条一条目录,可以将目录作为主要爬取内容,并设定一些特定的参数如遍历深度等。
具体的,解析出当前APP页面的结构,分析出可点击控件,将该可点击空间存入控件池作为索引进行深度遍历,其中,可点击控件可以为button、textView等等。
在本发明另一实施例中还包括获取显示层数据的方法,包括:
当获取所述移动APP显示层数据为文字时,基于所述内容爬取算法获取所述文字对应控件的属性信息,并根据所述属性信息获取所述移动APP显示层数据;
当获取所述移动APP显示层数据为图片时,基于所述内容爬取算法对所述移动APP显示层像素点信息进行截取,得到所述APP显示层数据。
根据当前APP页面结构提取显示给用户的内容,即显示层内容。此处的内容数据包括文字、图片等。对于文字只需要提取对应控件的相应属性即可,而对于图片,则需要对屏幕进行截屏并根据像素点信息进行截取,例如,获取到当前屏幕中这个图片的左上角和右下角的坐标信息,以确定一个矩形进行截取。
在本发明的另一实施例中还包括了一种获取网络层数据的方法,包括:
基于所述内容爬取算法对所述移动APP的网络层数据进行监测,得到监测数据;
对所述检测数据进行解析得到待获取的移动应用内容。
使用网络抓包技术以及DPI(Deep Packet Inspection,深度包检测技术),对网络层数据进行检测与拦截,并进行解析分析出传输的数据,得到待获取的移动应用内容。
在本发明的另一实施例中还包括了对获取的内容进行应用的方法,包括:
基于所述预设数据库中的数据对移动互联网内容进行监控。
可以根据获取的内容或数据对移动网络内容进行监控,也可以利用该预设数据库中的数据随时调用获取到的内容。
参见图2为本发明实施例提供的一种移动应用程序的内容爬取系统的框架示意图。在该框架中包含了3个组件:任务控制器、测试设备、数据库,其中,任务控制器负责测试设备的状态监控并向测试设备发送内容获取任务,测试设备即为实体手机或虚拟机,用于对相应的APP进行内容爬取并上传数据至数据库中,数据库即用来存储获取的数据,可以与PDC相连,将获取到的个人应用数据进行存储。具体的:
测试设备中的测试节点安装有检测程序,用于与后台服务器进行实时通信,当有内容爬取任务时,将该任务发送至对应的测试节点中;
测试节点收到爬取任务,根据设计的爬取算法对其数据进行获取,其中包括对文字和图片的获取;
在内容爬取任务完成后,获取的数据记录在测量节点本地,测量节点将打包所爬取的结构化的页面内容,发送至数据库。
举例说明内容获取方案可以为以下的方法,但是并不局限于下述方法。使用Google的UI Automator脚本对移动设备进行控制,其可以对当前的APP界面进行解析,分析出当前页面中每一个空间的布局以及嵌套的关系,其中的文本即显示在控件的属性中,如新闻标题会是android设备中一个TextView控件的description属性;而对于图像来说,可以对当前屏幕进行截屏并根据坐标点进行截取。
在上述的各个实施例中提供了两种方式来获取移动应用内容,一是,使用网络抓包以及DPI技术,对网络层数据进行检测与拦截,并进行解析分析出传输的数据,二是,从设备显示层入手,直接获取设备呈现给用户的内容。从而对移动互联网的特性进行了研究,有效解决了移动互联网的内容获取问题。
本发明的实施例中还提供了一种移动应用内容获取装置,参见图3,包括:
接收模块1,用于接收移动应用内容获取任务,其中,所述移动应用内容获取任务中包括待获取内容的移动APP;
确定模块2,用于根据移动APP结构确定内容爬取算法;
获取模块3,用于基于所述内容爬取算法获取所述移动APP显示层数据;
保存模块4,用于当获取的所述移动APP显示层数据满足预设需求时,将获取的数据保存至预设数据库。
可选的,在本发明另实施例中,所述确定模块包括:
第一确定单元,用于确定所述移动APP的类型;
第二确定单元,用于根据所述移动APP的类型和所述移动APP的结构确定遍历参数;
设计单元,用于基于所述遍历参数设计内容爬取算法。
可选的,在本发明另一实施例中,所述获取模块包括:
文字获取单元,用于当获取所述移动APP显示层数据为文字时,基于所述内容爬取算法获取所述文字对应控件的属性信息,并根据所述属性信息获取所述移动APP显示层数据;
图片获取单元,用于当获取所述移动APP显示层数据为图片时,基于所述内容爬取算法对所述移动APP显示层像素点信息进行截取,得到所述APP显示层数据。
可选的,在本发明另一实施例中,,还包括:
网络层监测单元,用于基于所述内容爬取算法对所述移动APP的网络层数据进行监测,得到监测数据;
内容获取单元,用于对所述检测数据进行解析得到待获取的移动应用内容。
可选的,在本发明另一实施例中,,还包括:
监测模块,用于基于所述预设数据库中的数据对移动互联网内容进行监控。
本发明提供的移动应用内容获取装置,在接收移动应用内容获取任务后,分析移动APP结构确定内容爬取算法,根据该算法获取了显示层数据,并将获取数据进行存储为后续访问数据也提供了便利的访问地址,本发明能够结合移动互联网特点,并根据移动APP结构设计内容爬取算法,而基于该爬取算法获得移动应用内容更加符合移动互联网的内容获取要求,进而解决了移动应用内容获取的问题。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种移动应用内容获取方法,其特征在于,该方法包括:
接收移动应用内容获取任务,其中,所述移动应用内容获取任务中包括待获取内容的移动APP;
根据移动APP结构确定内容爬取算法,其中,所述根据移动APP结构确定内容抓取算法过程包括:确定移动APP的类型;根据所述移动APP的类型和所述移动APP的结构确定遍历参数,其中,所述遍历参数的确定过程包括:根据APP页面的结构分析可点击控件,将可点击控件存入控件池作为索引进行深度遍历确定遍历参数;基于所述遍历参数设计内容爬取算法;
基于所述内容爬取算法获取所述移动APP显示层数据;
当获取的所述移动APP显示层数据满足预设需求时,将获取的数据保存至预设数据库。
2.根据权利要求1所述的方法,其特征在于,所述基于所述内容爬取算法获取所述移动APP显示层数据,包括:
当获取所述移动APP显示层数据为文字时,基于所述内容爬取算法获取所述文字对应控件的属性信息,并根据所述属性信息获取所述移动APP显示层数据;
当获取所述移动APP显示层数据为图片时,基于所述内容爬取算法对所述移动APP显示层像素点信息进行截取,得到所述APP显示层数据。
3.根据权利要求1所述的方法,其特征在于,还包括:
基于所述内容爬取算法对所述移动APP的网络层数据进行监测,得到监测数据;
对所述监 测数据进行解析得到待获取的移动应用内容。
4.根据权利要求1所述的方法,其特征在于,还包括:
基于所述预设数据库中的数据对移动互联网内容进行监控。
5.一种移动应用内容获取装置,其特征在于,包括:
接收模块,用于接收移动应用内容获取任务,其中,所述移动应用内容获取任务中包括待获取内容的移动APP;
确定模块,用于根据移动APP结构确定内容爬取算法,其中,所述根据移动APP结构确定内容抓取算法过程包括:确定移动APP的类型;根据所述移动APP的类型和所述移动APP的结构确定遍历参数,其中,所述遍历参数的确定过程包括:根据APP页面的结构分析可点击控件,将可点击控件存入控件池作为索引进行深度遍历确定遍历参数;基于所述遍历参数设计内容爬取算法;
获取模块,用于基于所述内容爬取算法获取所述移动APP显示层数据;
保存模块,用于当获取的所述移动APP显示层数据满足预设需求时,将获取的数据保存至预设数据库。
6.根据权利要求5所述的装置,其特征在于,所述获取模块包括:
文字获取单元,用于当获取所述移动APP显示层数据为文字时,基于所述内容爬取算法获取所述文字对应控件的属性信息,并根据所述属性信息获取所述移动APP显示层数据;
图片获取单元,用于当获取所述移动APP显示层数据为图片时,基于所述内容爬取算法对所述移动APP显示层像素点信息进行截取,得到所述APP显示层数据。
7.根据权利要求5所述的装置,其特征在于,还包括:
网络层监测单元,用于基于所述内容爬取算法对所述移动APP的网络层数据进行监测,得到监测数据;
内容获取单元,用于对所述监 测数据进行解析得到待获取的移动应用内容。
8.根据权利要求5所述的装置,其特征在于,还包括:
监测模块,用于基于所述预设数据库中的数据对移动互联网内容进行监控。
CN201810494533.8A 2018-05-22 2018-05-22 一种移动应用内容获取方法及装置 Active CN108804559B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810494533.8A CN108804559B (zh) 2018-05-22 2018-05-22 一种移动应用内容获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810494533.8A CN108804559B (zh) 2018-05-22 2018-05-22 一种移动应用内容获取方法及装置

Publications (2)

Publication Number Publication Date
CN108804559A CN108804559A (zh) 2018-11-13
CN108804559B true CN108804559B (zh) 2022-07-12

Family

ID=64092769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810494533.8A Active CN108804559B (zh) 2018-05-22 2018-05-22 一种移动应用内容获取方法及装置

Country Status (1)

Country Link
CN (1) CN108804559B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918553B (zh) * 2019-01-31 2024-07-16 平安科技(深圳)有限公司 移动终端爬取数据的方法、装置、移动终端和存储介质
CN110162682A (zh) * 2019-04-12 2019-08-23 深圳壹账通智能科技有限公司 一种网络数据的爬取方法、装置、存储介质和终端设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256276A (zh) * 2017-08-01 2017-10-17 北京合天智汇信息技术有限公司 一种基于云平台的移动App内容安全获取方法及设备
CN107704515A (zh) * 2017-09-01 2018-02-16 安徽简道科技有限公司 基于互联网数据抓取系统的数据抓取方法
CN107943862A (zh) * 2017-11-09 2018-04-20 天脉聚源(北京)传媒科技有限公司 一种智能生成爬虫的方法及装置

Also Published As

Publication number Publication date
CN108804559A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN106503134B (zh) 浏览器跳转至应用程序的数据同步方法及装置
CN104021172B (zh) 广告过滤方法及广告过滤装置
CN103473302A (zh) 一种锁屏信息展示方法、装置和系统
US10262341B2 (en) Resource downloading method and device
KR100848319B1 (ko) 웹 구조정보를 이용한 유해 사이트 차단 방법 및 장치
CN106528659B (zh) 浏览器跳转至应用程序的控制方法及装置
WO2015143956A1 (zh) 一种拦截网页中的广告的方法及装置
CN105379195B (zh) 信息共享方法和设备
CN105912693A (zh) 网络请求处理方法、网络数据获取方法、装置及服务器
WO2018133772A1 (zh) 网页资源的获取方法和装置、存储介质、电子装置
CN108804559B (zh) 一种移动应用内容获取方法及装置
CN107766358A (zh) 一种页面分享的方法及相关装置
CN105635073A (zh) 访问控制方法、装置和网络接入设备
CN111740992A (zh) 网站安全漏洞检测方法、装置、介质及电子设备
CN105630780A (zh) 网页信息处理方法及装置
CN105159992A (zh) 一种应用程序的页面内容及网络行为的检测方法及装置
CN105635064A (zh) Csrf攻击检测方法及装置
CN107070873B (zh) 网页非法数据筛查方法、系统、数据筛查服务器和浏览器
CN106649787A (zh) 移动终端客户端中广告过滤方法及装置
CN111339461A (zh) 应用程序的页面访问方法及相关产品
CN103607454A (zh) Android系统浏览器设置私有代理服务器的方法
CN107534860A (zh) WiFi热点Portal认证方法和装置
CN110929129A (zh) 一种信息检测方法、设备及机器可读存储介质
WO2014114906A1 (en) Distributed system
CN104156372A (zh) 一种开启网页的方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant