CN115242491B - 一种基于网络爬虫的app云探测方法和系统 - Google Patents
一种基于网络爬虫的app云探测方法和系统 Download PDFInfo
- Publication number
- CN115242491B CN115242491B CN202210851425.8A CN202210851425A CN115242491B CN 115242491 B CN115242491 B CN 115242491B CN 202210851425 A CN202210851425 A CN 202210851425A CN 115242491 B CN115242491 B CN 115242491B
- Authority
- CN
- China
- Prior art keywords
- detection
- app
- web crawler
- client
- crawler
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000013515 script Methods 0.000 claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims abstract description 11
- 230000003993 interaction Effects 0.000 claims abstract description 11
- 239000003795 chemical substances by application Substances 0.000 claims description 27
- 238000004891 communication Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 8
- 238000013500 data storage Methods 0.000 claims description 7
- 239000000523 sample Substances 0.000 claims description 7
- 238000007726 management method Methods 0.000 claims description 6
- 230000006399 behavior Effects 0.000 claims description 5
- 230000009194 climbing Effects 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 229910052711 selenium Inorganic materials 0.000 claims description 3
- 239000011669 selenium Substances 0.000 claims description 3
- 238000011895 specific detection Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 2
- 238000000105 evaporative light scattering detection Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mobile Radio Communication Systems (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明给出了一种基于网络爬虫的APP云探测方法和系统,包括响应于服务器端接收到客户端发送的探测命令,解析请求参数并根据APP支持库中的应用列表,创建线程并开启网络爬虫模块处理线程,将APP探测任务下发至对应的爬虫处理脚本;响应于本地数据库中存在当前手机号的探测记录且前一次探测结果未注册,或未发现当前手机号的探测记录,通过网络抓包和协议逆向分析模拟每个APP或网站的网络数据包交互流程;网络爬虫模块将结果统一返回至服务器端和客户端统一接口处进行汇总,服务器端保存探测结果至数据库中,并向客户端返回。本发明可在电子取证过程中进行事前点验,发现被监控人已经注册的应用,重点对该应用进行取证,提升电子取证过程的效率。
Description
技术领域
本发明涉及计算机数据取证的技术领域,尤其是基于网络爬虫的APP云探测方法和系统。
背景技术
随着万物互联时代的到来,各类APP/网站层出不穷,如何帮助相关人员快速精准的对可疑人员已经注册的APP账号进行电子取证,或者对一些被监控人实施事前监控、及时预防,防止其注册一些违规应用而沉溺其中,对生活和工作造成影响。
目前市面上可见的类似产品,如注册宝、Reg007等,均仅支持单一手机号探测,无法做到多手机号并行探测,探测能力不足,且支持率低,在遇到二次验证等反爬技术后无能为力,有些风控比较严格的网站,在爬虫程序访问频次过快时,可能会返回403Forbidden的错误,提示我们该IP访问频率太高,对探测结果的准确性造成了较大的干扰。
发明内容
为了解决现有技术中探测能力不足,且支持率低,在遇到二次验证等反爬技术后无能为力,有些风控比较严格的网站,在爬虫程序访问频次过快时,可能会返回403Forbidden的错误,提示我们该IP访问频率太高,对探测结果的准确性造成了较大的干扰等技术问题,本发明提出了一种基于网络爬虫的APP云探测方法和系统,以解决上述技术问题。
根据本发明的第一方面,提出了一种基于网络爬虫的APP云探测方法,包括:
S1:响应于服务器端接收到客户端发送的探测命令,解析请求参数并根据APP支持库中的应用列表,创建线程并开启网络爬虫模块处理线程,将APP探测任务下发至对应的爬虫处理脚本;
S2:响应于本地数据库中存在当前手机号的探测记录且前一次探测结果未注册,或未发现当前手机号的探测记录,通过网络抓包和协议逆向分析模拟每个APP或网站的网络数据包交互流程;
S3:网络爬虫模块将结果统一返回至服务器端和客户端统一接口处进行汇总,服务器端保存探测结果至数据库中,并向客户端返回。
在一些具体的实施例中,S1之前还包括启动服务器,加载配置文件,监听指定网络端口,等待客户端连接;客户端程序启动后,加载配置文件,读取服务器端口和IP地址完成网络连接。
在一些具体的实施例中,S2还包括采用随机化UA头作为Http请求包的Header部分。凭借该设置可以防止大批量探测过程中触发风控。
在一些具体的实施例中,S2中还包括引入代理池,每次从代理池中挑选可用IP地址进行网络数据包请求。凭借该设置防止IP被封禁问题。
在一些具体的实施例中,S2还包括若在执行模拟脚本发送数据包请求前遇到各类滑块的反爬阻碍,采用Selenium模拟人的行为完成验证,包括滑块缺口位置的识别和模拟拖动滑块到图片缺口处,且拖动滑块过程中保持自动化脚本拖动过程先加速再减速。凭借该设置可以解决部分风控较严的网站直接逆向分析加密参数的构造成本较大的问题。
根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有一或多个计算机程序,该一或多个计算机程序被计算机处理器执行时实施上述任一项的方法。
根据本发明的第三方面,提出了一种基于网络爬虫的APP云探测系统,系统包括服务器端和客户端,其中,服务器端包括网络通信模块和网络爬虫模块;
网络通信模块配置用于服务器端和客户端之间的通信,服务器端接收到客户端发送的探测命令,解析请求参数并根据APP支持库中的应用列表,创建线程并开启爬虫模块处理线程,将APP探测任务下发至对应的爬虫处理脚本;
网络爬虫模块配置用于APP云探测,响应于本地数据库中存在当前手机号的探测记录且前一次探测结果未注册,或未发现当前手机号的探测记录,通过网络抓包和协议逆向分析模拟每个APP或网站的网络数据包交互流程;网络爬虫模块将结果统一返回至服务器端和客户端统一接口处进行汇总,服务器端保存探测结果至数据库中,并向客户端返回。
在一些具体的实施例中,网络爬虫模块包括爬虫和代理池,其中,爬虫用于完成对第三方APP或网站开放的登录、注册或忘记密码接口请求数据包进行模拟发包,根据服务器接口判断被监控手机号是否注册某应用;代理池用于完成对互联网上可用IP代理的实时抓取及维护,实时剔除不可用代理。
在一些具体的实施例中,服务器端还包括任务管理模块和数据存储模块,任务管理模块配置用于对客户端请求数据做出判断处理和任务下发,数据存储模块配置用于存储探测结果和支持应用列表。
在一些具体的实施例中,数据存储模块存储的数据包括已支持的APP探测列表和某一手机号对应应用的具体探测结果,并对敏感数据通过加密算法进行加密处理。
本发明提出了一种基于网络爬虫的APP云探测方法和系统,在APP云探测过程中,通过第三方网站/APP公开的登录接口、注册接口或忘记密码接口,采用网络抓包、协议逆向分析等技术,模拟对应APP/网站向对应服务器发送网络请求数据包,根据不同返回结果判断被监控的手机号是否注册该应用。在具体的实现过程中,采用多线程技术,保障大批量探测过程并行提升效率;引入代理池技术,防止在大批量探测过程中导致IP被封禁的问题;同时,对一些风控比较严格的网站/APP,采用随机化UA(User Agent,用户代理)头、模拟点击、图片验证码智能识别等反爬技术进行绕过。可针对被监控人员的手机号码实时抓取其在互联网APP/网站的注册情况,可以对电子取证事前侦查工作提供强有力的技术保障,同时也可对被监控人实施事前监控,提前预防一些违规行为的发生。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例的一种基于网络爬虫的APP云探测方法的流程图;
图2是本申请的一个具体的实施例的一种基于网络爬虫的APP云探测方法交互流程图;
图3是本申请的一个实施例的一种基于网络爬虫的APP云探测系统的框架图;
图4是本申请的一个具体的实施例的代理池模块的框架图;
图5是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本申请的一个实施例的一种基于网络爬虫的APP云探测方法,图1示出了根据本申请的实施例的一种基于网络爬虫的APP云探测方法的流程图。如图1所示,该方法包括:
S101:响应于服务器端接收到客户端发送的探测命令,解析请求参数并根据app支持库中的应用列表,创建线程并开启网络爬虫模块处理线程,将app探测任务下发至对应的爬虫处理脚本。
在具体的实施例中,该步骤之前还包括以下步骤启动服务器,加载配置文件,监听指定网络端口,等待客户端连接;客户端程序启动后,加载配置文件,读取服务器端口和IP地址完成网络连接。
S102:响应于本地数据库中存在当前手机号的探测记录且前一次探测结果未注册,或未发现当前手机号的探测记录,通过网络抓包和协议逆向分析模拟每个app或网站的网络数据包交互流程。
在具体的实施例中,通过网络抓包、协议逆向分析技术,模拟每一个APP/网站具体的网络数据包交互流程,为防止大批量探测过程中触发风控,采用随机化UA(UserAgent,用户代理)头作为HTTP请求数据包的Header部分,为了防止IP被封禁问题,引入代理池技术,每次从代理池中挑选可用IP地址进行网络数据包请求,完成云探测过程。
在具体的实施例中,对于部分风控较严的网站,可能会在执行模拟脚本发送数据包请求前遇到各类滑块的反爬阻碍,如果直接逆向分析加密参数的构造成本较大,此时可采用Selenium(一个用于Web应用程序测试的自动化工具)通过模拟人的行为来完成验证,具体的包括滑块缺口位置的识别、模拟拖动滑块到图片缺口处,具体的拖动滑块过程中,如果一直保持匀速或随机速度,则可能被检测为非法操作,这时候我们需要保持自动化脚本拖动过程先加速再减速,尽可能和人类移动轨迹保持一致。
S103:网络爬虫模块将结果统一返回至服务器端和客户端统一接口处进行汇总,服务器端保存探测结果至数据库中,并向客户端返回。
在具体的实施例中,图2示出了根据本申请的一个具体的实施例的一种基于网络爬虫的APP云探测方法图,如图2所示,app云探测的交互流程包括:
步骤1:监听端口,等待客户端连接。启动服务器,加载配置文件,监听指定网络端口,等待客户端连接。
步骤2:判断请求参数是否合法,若合法继续步骤S3,若否则结束。
步骤3:解析请求参数,统一任务管理模块进行任务划分。客户端程序启动后,加载配置文件,读取服务器端口和IP地址完成网络连接,待用户输入正确的用户名、密码后进入系统后,客户端向服务器端发送开始探测命令,服务器端任务管理模块在收到探测命令后,完成请求参数的解析判断,根据APP支持库中已支持的应用列表,创建一定数量的线程,开启爬虫模块处理线程,并将具体APP探测任务下发到对应的爬虫处理脚本。
步骤4:爬虫模块开始云探测任务。爬虫处理模块在收到探测任务后,先判断本地数据库中是否已有该手机号的探测记录,如果有,且上次探测结果是未注册,或者之前没有该手机号的探测记录,则开始具体探测。
步骤5:从代理池中请求可用代理。每次从代理池中挑选可用IP地址进行网络数据包请求,防止IP被封禁问题。
步骤6:组包,模拟第三方APP向对应服务器发起数据请求。模拟每一个APP/网站具体的网络数据包交互流程
步骤7:解析返回参数,判断是否注册该应用。
步骤8:存储探测结果至数据库中。
步骤9:返回统一结果至客户端。爬虫模块将结果统一返回至服务器和客户端统一接口处进行汇总,服务器端保存探测结果至数据库中,并向客户端返回。客户端展示探测结果至用户UI界面,完成本次交互流程。
继续参考图3,图3示出了根据本申请的实施例的一种基于网络爬虫的APP云探测系统的框架图。该系统具体包括服务器端和客户端两部分,其中服务端运行环境包括但不限于Windows、Linux等平台,客户端运行环境包括但不限于Windows端、Android端、iOS端等。服务器端包括网络通信模块、任务管理模块、网络爬虫模块、数据存储模块四大主要模块,其中网络通信模块负责服务器端和客户端之间的通信,主要完成对客户端登录账号的校验,以及客户端请求的响应。网络爬虫模块负责具体的APP云探测功能。该模块是该系统的核心部分,主要包含爬虫和代理池两大部分。其中爬虫完成对具体的第三方APP/网站开放的登录、注册或忘记密码接口请求数据包进行模拟发包,根据服务器接口判断被监控手机号是否注册某应用;代理池完成对互联网上可用IP代理的实时抓取及维护,实时剔除不可用代理,减少大批量云探测过程中IP被封禁的问题。任务管理模块负责对客户端请求数据(开始探测和停止探测)做出判断处理及任务的下发,数据存储模块负责探测结果和支持应用列表进行持久化存储,具体包括:已支持的APP探测列表;某一手机号对应应用的具体探测结果(已注册、未注册、未知三种情况),考虑到数据存储的安全性,所有敏感数据可采用但不限于AES(Advanced Encryption Standard)等加密算法进行加密处理。客户端主要完成APP云探测结果的可视化分类展示。
在具体的实施例中,图4示出了根据本申请的一个具体的实施例的代理池模块的框架图,如图4所示,代理池模块包括代理获取模块、代理存储模块、可用代理检测模块和统一接口模块,其中代理存储模块完成对可用代理的存储,可采用但不限于sqlite数据库本地存储,需保障每一份存储记录的唯一性,存储的数据内容格式为IP地址:端口号,如(127.0.0.1:8080);代理获取模块,可从各大网站爬取可用代理,也可使用付费代理。代理检测模块,该模块主要负责对代理存储模块中的代理进行检测,判断其是否可用,不可用的代理及时标注并定期清除。统一接口模块,该模块负责对外部模块提供统一调用接口,包括但不限于HTTP,每次保证返回的代理可用。
本发明在APP云探测过程中,通过第三方网站/APP公开的登录接口、注册接口或忘记密码接口,采用网络抓包、协议逆向分析等技术,模拟对应APP/网站向对应服务器发送网络请求数据包,根据不同返回结果判断被监控的手机号是否注册该应用。在具体的实现过程中,采用多线程技术,保障大批量探测过程并行提升效率;引入代理池技术,防止在大批量探测过程中导致IP被封禁的问题;同时,对一些风控比较严格的网站/APP,采用随机化UA(User Agent,用户代理)头、模拟点击、图片验证码智能识别等反爬技术进行绕过。利用本发明可在电子取证过程中进行事前点验,发现被监控人已经注册的应用,然后重点对该应用进行取证,提升电子取证过程的效率;也可对被监控人实施事前监控,提前预防一些违规行为的发生。
下面参考图5,其示出了适于用来实现本申请实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:响应于服务器端接收到客户端发送的探测命令,解析请求参数并根据APP支持库中的应用列表,创建线程并开启网络爬虫模块处理线程,将APP探测任务下发至对应的爬虫处理脚本;响应于本地数据库中存在当前手机号的探测记录且前一次探测结果未注册,或未发现当前手机号的探测记录,通过网络抓包和协议逆向分析模拟每个APP或网站的网络数据包交互流程;网络爬虫模块将结果统一返回至服务器端和客户端统一接口处进行汇总,服务器端保存探测结果至数据库中,并向客户端返回。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种基于网络爬虫的APP云探测方法,其特征在于,包括:
S1:响应于服务器端接收到客户端发送的探测命令,解析请求参数并根据APP支持库中的应用列表,创建线程并开启网络爬虫模块处理线程,将APP探测任务下发至对应的爬虫处理脚本;
S2:响应于本地数据库中存在当前手机号的探测记录且前一次探测结果未注册,或未发现当前手机号的探测记录,通过网络抓包和协议逆向分析模拟每个APP或网站的网络数据包交互流程;
S3:所述网络爬虫模块将结果统一返回至所述服务器端和所述客户端统一接口处进行汇总,所述服务器端保存探测结果至数据库中,并向所述客户端返回。
2.根据权利要求1所述的基于网络爬虫的APP云探测方法,其特征在于,所述S1之前还包括启动服务器,加载配置文件,监听指定网络端口,等待所述客户端连接;所述客户端程序启动后,加载配置文件,读取服务器端口和IP地址完成网络连接。
3.根据权利要求1所述的基于网络爬虫的APP云探测方法,其特征在于,所述S2还包括采用随机化UA头作为Http请求包的Header部分。
4.根据权利要求3所述的基于网络爬虫的APP云探测方法,其特征在于,所述S2中还包括引入代理池,每次从所述代理池中挑选可用IP地址进行网络数据包请求。
5.根据权利要求1所述的基于网络爬虫的APP云探测方法,其特征在于,所述S2还包括若在执行模拟脚本发送数据包请求前遇到各类滑块的反爬阻碍,采用Selenium模拟人的行为完成验证,包括滑块缺口位置的识别和模拟拖动滑块到图片缺口处,且拖动滑块过程中保持自动化脚本拖动过程先加速再减速。
6.一种计算机可读存储介质,其上存储有一或多个计算机程序,其特征在于,该一或多个计算机程序被计算机处理器执行时实施权利要求1至5中任一项所述的方法。
7.一种基于网络爬虫的APP云探测系统,其特征在于,所述系统包括服务器端和客户端,其中,服务器端包括网络通信模块和网络爬虫模块;
所述网络通信模块配置用于所述服务器端和所述客户端之间的通信,服务器端接收到客户端发送的探测命令,解析请求参数并根据APP支持库中的应用列表,创建线程并开启爬虫模块处理线程,将APP探测任务下发至对应的爬虫处理脚本;
所述网络爬虫模块配置用于APP云探测,响应于本地数据库中存在当前手机号的探测记录且前一次探测结果未注册,或未发现当前手机号的探测记录,通过网络抓包和协议逆向分析模拟每个APP或网站的网络数据包交互流程;所述网络爬虫模块将结果统一返回至所述服务器端和所述客户端统一接口处进行汇总,所述服务器端保存探测结果至数据库中,并向所述客户端返回。
8.根据权利要求7所述的基于网络爬虫的APP云探测系统,其特征在于,所述网络爬虫模块包括爬虫和代理池,其中,所述爬虫用于完成对第三方APP或网站开放的登录、注册或忘记密码接口请求数据包进行模拟发包,根据服务器接口判断被监控手机号是否注册某应用;所述代理池用于完成对互联网上可用IP代理的实时抓取及维护,实时剔除不可用代理。
9.根据权利要求7所述的基于网络爬虫的APP云探测系统,其特征在于,所述服务器端还包括任务管理模块和数据存储模块,所述任务管理模块配置用于对客户端请求数据做出判断处理和任务下发,所述数据存储模块配置用于存储探测结果和支持应用列表。
10.根据权利要求9所述的基于网络爬虫的APP云探测系统,其特征在于,所述数据存储模块存储的数据包括已支持的APP探测列表和某一手机号对应应用的具体探测结果,并对敏感数据通过加密算法进行加密处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210851425.8A CN115242491B (zh) | 2022-07-19 | 2022-07-19 | 一种基于网络爬虫的app云探测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210851425.8A CN115242491B (zh) | 2022-07-19 | 2022-07-19 | 一种基于网络爬虫的app云探测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115242491A CN115242491A (zh) | 2022-10-25 |
CN115242491B true CN115242491B (zh) | 2024-04-19 |
Family
ID=83672747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210851425.8A Active CN115242491B (zh) | 2022-07-19 | 2022-07-19 | 一种基于网络爬虫的app云探测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115242491B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107948052A (zh) * | 2017-11-14 | 2018-04-20 | 福建中金在线信息科技有限公司 | 信息爬取方法、装置、电子设备和系统 |
CN109413153A (zh) * | 2018-09-26 | 2019-03-01 | 深圳壹账通智能科技有限公司 | 数据爬取方法、装置、计算机设备和存储介质 |
CN109729044A (zh) * | 2017-10-30 | 2019-05-07 | 北京宸瑞科技股份有限公司 | 一种通用的互联网数据采集反反爬系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10223719B2 (en) * | 2013-03-25 | 2019-03-05 | Steven B. Schoeffler | Identity authentication and verification |
-
2022
- 2022-07-19 CN CN202210851425.8A patent/CN115242491B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109729044A (zh) * | 2017-10-30 | 2019-05-07 | 北京宸瑞科技股份有限公司 | 一种通用的互联网数据采集反反爬系统及方法 |
CN107948052A (zh) * | 2017-11-14 | 2018-04-20 | 福建中金在线信息科技有限公司 | 信息爬取方法、装置、电子设备和系统 |
CN109413153A (zh) * | 2018-09-26 | 2019-03-01 | 深圳壹账通智能科技有限公司 | 数据爬取方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115242491A (zh) | 2022-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376078B (zh) | 移动应用的测试方法、终端设备及介质 | |
US8914890B2 (en) | Determining the vulnerability of computer software applications to privilege-escalation attacks | |
CN112035354B (zh) | 风险代码的定位方法、装置、设备及存储介质 | |
US11811824B2 (en) | Security system for detecting malicious actor's observation | |
CN107040535B (zh) | 移动应用渠道登录监控方法、装置、系统及存储介质 | |
CN110933103A (zh) | 反爬虫方法、装置、设备和介质 | |
JP5936798B2 (ja) | ログ分析装置、不正アクセス監査システム、ログ分析プログラム及びログ分析方法 | |
CN110597704A (zh) | 应用程序的压力测试方法、装置、服务器和介质 | |
US9400727B2 (en) | Agentless recording for virtual machine consoles | |
US20170339175A1 (en) | Using natural language processing for detection of intended or unexpected application behavior | |
CN117241276B (zh) | 一种面向移动应用的检测工具及检测方法、系统及设备 | |
WO2021243574A1 (zh) | 用户信息违规获取检测方法及相关设备 | |
CN115242491B (zh) | 一种基于网络爬虫的app云探测方法和系统 | |
CN116662193A (zh) | 页面测试方法和装置 | |
CN113596600B (zh) | 直播嵌入程序的安全管理方法、装置、设备及存储介质 | |
CN115422052A (zh) | 一种车载导航app的测试系统及方法 | |
CN115454856A (zh) | 多应用的安全检测方法、装置、介质及电子设备 | |
CN115037531A (zh) | 一种未授权访问漏洞检测方法、设备、系统 | |
CN117056918A (zh) | 一种代码分析方法及相关设备 | |
US10642675B2 (en) | Dynamically controlling runtime system logging based on end-user reviews | |
CN113297241A (zh) | 网络流量的判断方法、装置、设备、介质和程序产品 | |
CN114465738A (zh) | 应用程序的取证方法、系统、设备及存储介质 | |
CN113923000B (zh) | 一种安全处理方法、装置、电子设备、及存储介质 | |
KR102372556B1 (ko) | 모바일 원격제어 기술 기반의 모바일 서비스 관제 방법 및 시스템 | |
CN111371745B (zh) | 用于确定ssrf漏洞的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |