CN105843893B - 基于Web信息抽取的软件更新信息的监控方法和装置 - Google Patents

基于Web信息抽取的软件更新信息的监控方法和装置 Download PDF

Info

Publication number
CN105843893B
CN105843893B CN201610166156.6A CN201610166156A CN105843893B CN 105843893 B CN105843893 B CN 105843893B CN 201610166156 A CN201610166156 A CN 201610166156A CN 105843893 B CN105843893 B CN 105843893B
Authority
CN
China
Prior art keywords
software
link
webpage
web page
target webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610166156.6A
Other languages
English (en)
Other versions
CN105843893A (zh
Inventor
徐锐波
路轶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
360 Digital Security Technology Group Co Ltd
Original Assignee
Beijing Fu Tong Tong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Fu Tong Tong Technology Co Ltd filed Critical Beijing Fu Tong Tong Technology Co Ltd
Priority to CN201610166156.6A priority Critical patent/CN105843893B/zh
Publication of CN105843893A publication Critical patent/CN105843893A/zh
Application granted granted Critical
Publication of CN105843893B publication Critical patent/CN105843893B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • G06F21/53Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by executing in a restricted environment, e.g. sandbox or secure virtual machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links

Abstract

本发明公开了一种基于Web信息抽取的软件更新信息的监控方法和装置,监控方法包括:下载被监控的目标网页的网页内容;解析所述网页内容,抽取所述网页内容中的有效链接;对所述有效链接进行过滤,获得过滤后的链接;将所述过滤后的链接所对应的相关信息与历史数据进行比对,获得所述目标网页对应的软件的更新信息,并存储到数据库。本发明能够对网页数据进行有效监控,能够有效的组织并维护样本数据库。

Description

基于Web信息抽取的软件更新信息的监控方法和装置
本申请为申请号为201210350925.X、申请日为2012年9月19日、发明名称为“基于Web信息抽取的软件更新信息的监控方法和装置”的发明申请的分案申请。
技术领域
本发明涉及网络技术,特别是涉及一种基于Web信息抽取的软件更新信息的监控方法和装置。
背景技术
随着计算机技术在社会生活中各个领域的广泛运用,恶意程序(Malwar,malicious software,指任何故意创建用来执行未经授权并通常是有害行为的软件程序)也如同其附属品一样接踵而来。由于这些恶意程序所具有的感染性、复制性及破坏性,其已成为困扰计算机使用的一个重大问题,因此,在网络威胁飙升的今天,更新病毒特征码成为企业及网民每天必备的工作,从每周一次到每天一次,直至时刻更新,而传统杀毒软件是将病毒库放在客户端计算机,在客户端进行文件的分析工作,在扫描过程中会反复在本地病毒库中进行比对,占用大量系统资源,并且随着病毒库的不断升级,病毒库的容量越来越大,分析文件时所耗费的时间也越来越长,让客户端计算机越用越慢,因此,反病毒行业必须寻找新的技术突破。
“云安全(Cloud Security)”计划即是网络时代信息安全的最新体现,它融合了并行处理、网格计算、未知病毒行为判断等新兴技术概念,将“云计算”的理念应用到了安全领域。
“云安全”计划的实现是与其样本数据库的构建息息相关的,因此,如何有效的组织并维护样本数据库,遂成为业界亟待解决的问题。
在通过“云安全”对软件升级进行的监控中,为了避免软件升级链接被病毒感染,需要构建各种软件的升级页面的样本数据库,以便进行安全监控,这就要求对数以十万计的互联网网页进行监控,并且从这些网页中抽取出软件更新信息,以便进行升级监控和防病毒保护,而要有效的组织并维护这样的样本数据库,对于业界来说是尚未有效解决的难题。
发明内容
本发明实施例的目的是提供一种基于Web信息抽取的软件更新信息的监控方法和装置,能够对网页数据进行有效监控,能够有效的组织并维护样本数据库。
为了实现上述目的,本发明提供了一种基于Web信息抽取的软件更新信息的监控方法,包括:
下载被监控的目标网页的网页内容;
解析所述网页内容,抽取所述网页内容中的有效链接;
对所述有效链接进行过滤,获得过滤后的链接;
将所述过滤后的链接所对应的相关信息与历史数据进行比对,获得所述目标网页对应的软件的更新信息,并存储到数据库。
优选地,上述的方法中,在所述下载被监控的目标网页的网页内容的步骤之前,通过任务调度对需要监控的网页进行周期性检测,获得所述目标网页,所述周期性检测包括:
使用gearman作为进程间消息队列,通过gearman进行服务器之间的进程通讯来实现平行扩展和高并发的处理;
使用redis作为高速缓存,通过读取redis中的网页调度时间实现对监控任务的周期性调度,通过调用redis接口实现对监控任务的调度。
优选地,上述的方法中,在所述下载被监控的目标网页的网页内容的步骤中,包括:
通过直接下载或者通过浏览器渲染下载所述目标网页的网页内容,所述浏览器渲染下载采用IE浏览器内核渲染器、Gecko浏览器内核渲染器或者Chrome浏览器内核渲染器;
通过反向链接的方式由代理服务器进行网页下载来隐藏服务器IP。
优选地,上述的方法中,在对所述有效链接进行过滤的步骤中,包括:
根据所述目标网页的域名进行过滤,滤除与所述目标网页的域名不匹配的有效链接。
优选地,上述的方法中,将所述过滤后的链接所对应的相关信息与历史数据进行比对的步骤中,包括:
将所述相关信息中的当前版本信息与数据库中的版本信息进行比对,如果存在所述当前版本信息则说明没有软件更新,进行丢弃处理,如果不存在所述当前版本信息则说明存在软件更新,进行后续处理。
优选地,上述的方法中,获得所述目标网页对应的软件的更新信息的步骤中,包括:
在发现软件更新后,进行预定处理;
根据所述软件更新的下载链接,下载软件包并进行解包,得到软件生成的文件,最后存储所述软件包、所述软件生成的文件、以及所述下载链接和父页面链接的对应关系。
优选地,上述的方法中,所述预定处理为:
发送通知邮件或发送通知短信;
下载解包,对有更新的软件进行下载;
监控外挂网页时,将外挂网页下载后投递沙箱,根据沙箱日志判断安全性;和/或
通过接口gearman来定制后续处理。
本发明还提供一种基于Web信息抽取的软件更新信息的监控装置,包括:
抓取器,适用于:下载被监控的目标网页的网页内容;
解析器,适用于:解析所述网页内容,抽取所述网页内容中的有效链接;
过滤器,适用于:对所述有效链接进行过滤,获得过滤后的链接;
检测及动作处理器,适用于:将所述过滤后的链接所对应的相关信息与历史数据进行比对,获得所述目标网页对应的软件的更新信息,并存储到数据库。
优选地,上述的装置中,包括:
种子调度器,适用于:通过任务调度对需要监控的网页进行周期性检测,获得所述目标网页。
优选地,上述的装置中,包括:
调度队列,适用于:使用gearman作为进程间消息队列,通过gearman进行服务器之间的进程通讯来实现平行扩展和高并发的处理;
管理平台,适用于:使用redis作为高速缓存,通过读取redis中的网页调度时间实现对监控任务的周期性调度,通过调用redis接口实现对监控任务的调度。
优选地,上述的装置中,所述抓取器,适用于:
通过直接下载或者通过浏览器渲染下载所述目标网页的网页内容,所述浏览器渲染下载采用IE浏览器内核渲染器、Gecko浏览器内核渲染器或者Chrome浏览器内核渲染器;
通过反向链接的方式由代理服务器进行网页下载来隐藏服务器IP。
优选地,上述的装置中,所述过滤器,适用于:根据所述目标网页的域名进行过滤,滤除与所述目标网页的域名不匹配的有效链接。
优选地,上述的装置中,所述检测及动作处理器,适用于:
将所述相关信息中的当前版本信息与数据库中的版本信息进行比对,如果存在所述当前版本信息则说明没有软件更新,进行丢弃处理,如果不存在所述当前版本信息则说明存在软件更新,进行后续处理。
优选地,上述的装置中,所述检测及动作处理器,适用于:
在发现软件更新后,进行预定处理;
根据所述软件更新的下载链接,下载软件包并进行解包,得到软件生成的文件,最后存储所述软件包、所述软件生成的文件、以及所述下载链接和父页面链接的对应关系。
优选地,上述的装置中,所述预定处理为:
发送通知邮件或发送通知短信;
下载解包,对有更新的软件进行下载;
监控外挂网页时,将外挂网页下载后投递沙箱,根据沙箱日志判断安全性;和/或
通过接口gearman来定制后续处理。
本发明实施例至少存在以下技术效果:
1)本发明实施例是针对网页进行监控,分析网页结构及其中的链接,将分析结果与历史数据比对,判断该网页的软件是否存在更新,发现更新后可定制化处理策略,从而本发明实施例能够对网页数据进行有效监控,能够有效的组织并维护样本数据库。
2)本发明实施例使用gearman作为进程间消息队列,实现系统的平行扩展,达到高并发的效果,使用redis作为高速缓存,实现任务的周期性调度,达到精确调度监控任务的效果,解决了大规模数据处理问题(监控的网页有十万级,其他数据有千万级)。
3)本发明实施例解决了网页渲染问题,IE内核渲染器、Gecko内核渲染器和Chrome内核渲染器三种内核渲染器均部署在XEN虚机中,对外接口为gearman,便于实现平行扩展,提高并发渲染的能力。
4)本发明实施例解决了防抓取(封IP)问题,使用公司提供的代理节点,在服务器IP被禁止访问登录时,采用代理访问网页,确保监控的及时性和不间断性。
5)本发明实施例实现了从网页监控到软件更新检测,再到下载解包,最后到样本MD5(Message Digest Algorithm MD5,消息摘要算法第五版)与其durl(下载链接),purl(父页面链接)的一一对应关系,实现了流水线的精细化运作。
附图说明
图1为本发明方法实施例的步骤流程图;
图2为本发明装置实施例的执行示意图;
图3为本发明装置实施例的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对具体实施例进行详细描述。
图1为本发明方法实施例的步骤流程图,如图1所示,本发明实施例提供了一种基于Web信息抽取的软件更新信息的监控方法,包括:
步骤101,下载被监控的目标网页的网页内容;
其中,通过直接下载或者通过浏览器渲染下载所述目标网页的网页内容,所述浏览器渲染下载采用IE浏览器内核渲染器、Gecko浏览器内核渲染器或者Chrome浏览器内核渲染器;也可以选择通过代理软件进行下载,从而隐藏服务器IP,防止服务器IP被禁止访问登录。例如:监控系统内置了一批代理服务器,系统会通过ssh反向链接(就是其它网站链向自己站点的链接)的方式,通过代理服务器下载网页,使被抓取站点无法获知真实的抓取IP。
步骤102,解析所述网页内容,抽取所述网页内容中的有效链接;
其中,抽取的为有效链接,因为网页监控主要是监控网页中的URL链接,网页中的部分URL链接可能存在无法打开等各种错误,这些链接属于无效链接,不需要监控。
步骤103,对所述有效链接进行过滤,获得过滤后的链接;
其中,根据目标网页的域名进行过滤,防止将病毒链接作为软件更新链接。有效链接是以上提到的那些能正常打开的链接;过滤的规则举例如下:
规则<1>系统主要监控网页中的软件更新,软件的下载链接一般以exe,msi,rar为后缀,所以一般关注这些链接;
规则<2>有些网站可能会被入侵或者感染病毒,被植入一些病毒的下载链接,不过病毒的下载链接一般都是不是该站点的域名,系统根据域名进行过滤,滤除与所述目标网页的域名不匹配的有效链接,可以防止误将病毒作为软件更新。
比如:有个站点叫www.123.com,该站点下的软件下载域名中都带有123.com,系统只会监控带有123.com的下载链接。如果有一天站点被入侵了,在被监控的页面中出现了456.com/1.exe类似的病毒下载链接,那么系统会根据123.com这个域名进行过滤,即不会理会456.com/1.exe类似的病毒链接。
步骤104,将所述过滤后的链接所对应的相关信息与历史数据进行比对,获得所述目标网页对应的软件的更新信息,并存储到数据库。
其中,将过滤后的链接所对应的相关信息中的当前版本信息与数据库中的版本信息进行比对,如果存在当前版本信息则说明没有软件更新,进行丢弃处理,如果不存在当前版本信息则说明存在软件更新,进行后续处理。
获得目标网页对应的软件的更新信息的步骤中,包括:在发现软件更新后,根据预定策略进行预定处理;根据软件更新的下载链接,下载软件包并进行解包,得到软件生成的文件,最后存储软件包、软件生成的文件、以及下载链接和父页面链接的对应关系。其中,该预定策略主要指前置处理过程中的配置,预定处理基本分为四类:1.通知客户端,例如通过邮件通知,通过短信通知等;2.下载解包,对有更新的软件进行下载,并投递至解包流程,查看该软件生成的文件列表;3.投递沙箱,监控外挂网页时,将外挂程序,例如一些第三方的软件下载后直接投递沙箱,根据沙箱日志判断其安全性;其中,可以将至少一个第三方程序放入沙箱运行,这样该程序所创建、修改、删除的所有文件和注册表都会被虚拟化重定向,也就是说所有操作都是虚拟的,真实的文件和注册表不会被改动,这样可以确保病毒无法对系统关键部位进行改动破坏系统,且可以根据沙箱日志判断其安全性。
4.特殊定制,有些监控页面需要后续进行特殊处理(例如有些软件更新需要对操作系统打补丁,有些软件更新需要同时升级与其兼容的软件环境),特殊处理的接口gearman,由后续负责特殊处理的进程完成监控任务。
可见,本发明实施例是针对网页进行监控,分析网页结构及网页中的链接,将分析结果与历史数据比对,判断该网页的软件是否存在更新,发现更新后可定制化处理策略(例如有些软件更新需要对操作系统打补丁,那么处理策略是先对操作系统打补丁再升级软件)。因此,本发明实施例能够对网页数据进行有效监控,能够有效的组织并维护样本数据库。
在所述步骤101之前,还可以包括:通过任务调度器对需要监控的网页进行周期性检测,获得所述目标网页。在所述周期性检测中,包括:使用gearman作为进程间消息队列,通过gearman分发任务来实现平行扩展和高并发的处理效果;例如:工作进程将数据以XML格式投递至gearman队列作为一个消息,后续工作进程从gearman队列中取到消息,并解析XML中配置项,按照前置处理过程中的配置实施相应动作。Gearman就相当于一个进程间通讯的工具,该工具基于网络环境,实现不同数据中心和/或不同的服务器之间的进程通讯。
使用redis作为高速缓存,通过读取redis中的网页调度时间实现对监控任务的周期性调度,通过调用redis接口实现对监控任务的精确调度。
例如:每个网页有自己的调度周期,有的是5分钟,有的是10分钟,视具体情况而定;系统将需要监控网页按照调度时间排序形成调度队列,每隔15秒对队列进行检测,调度时间大于当前时间的网页视为需要进行监控的网页,调度器会立即产生一个监控任务通过gearman传递给后续进程处理。这些以时间为调度单位的网页都以有序集合的方式存放在redis中,通过调用redis接口实现精确调度网页监控任务。
其中,Gearman是一个分发任务的程序框架,能用来把工作委派给其他机器、分布式的调用更适合做某项工作的机器、并发的做某项工作在多个调用间做负载均衡,或用来在调用其它语言的函数的系统。
Redis是一个分布式的Key-Value类型的内存数据库,整个数据库统统加载在内存当中进行操作,定期通过异步操作把数据库数据转移到硬盘上进行保存。因为是纯内存操作,Redis的性能非常出色,每秒可以处理超过10万次读写操作,是已知性能最快的Key-Value数据库。
本实施例也可以采用其他的分发任务的程序框架,以及其他类型的分布式的内存数据库,具体的不以此为限。
由上可知,本发明方法实施例还具有以下有益效果:
1)本发明实施例解决了大规模数据处理问题(监控的网页有十万级,其他数据有千万级),本发明实施例所采用的解决方案为:<1>使用gearman作为进程间消息队列,实现系统的平行扩展,达到高并发的效果;<2>使用redis作为高速缓存,实现任务的周期性调度,达到精确调度监控任务的效果。
2)本发明实施例解决了网页渲染问题,随着ajax(Asynchronous JavaScript andXML,异步JavaScript和XML)技术的普遍使用,很多网页通过直接下载无法获取全部信息,本发明实施例所采用的解决方案为:<1>IE内核渲染器,HOOK住IE浏览器渲染网页的过程,获取渲染结果输出,<2>Gecko内核渲染器,实现基于Gecko内核的浏览器插件,渲染网页,并输出渲染结果,<3>Chrome内核渲染器,修改Chrome源码,将渲染出的DOM树直接输出到stdin;以上三种方案均可以完整获取网页信息,三种内核渲染器均部署在XEN虚机中,对外接口为gearman,便于实现平行扩展,提高并发渲染的能力。
3)本发明实施例解决了防抓取(封IP)问题,部分网站对频繁访问的IP进行封锁,严重影响系统对网页的监控,本发明实施例所采用的解决方案为:<1>使用公司提供的代理节点,在服务器IP被禁止访问登录时,采用代理访问网页,确保监控的及时性和不间断性。
4)本发明实施例实现了从网页监控到软件更新检测,再到下载解包,最后到样本MD5与其durl(下载链接),purl(父页面链接)的一一对应关系,这一套流水线的精细化运作。
图3为本发明装置实施例的结构图,本发明还提供了一种基于Web信息抽取的软件更新信息的监控装置的实施例,包括:
抓取器301,适用于:下载被监控的目标网页的网页内容;
解析器302,适用于:解析所述网页内容,抽取所述网页内容中的有效链接;
过滤器303,适用于:对所述有效链接进行过滤,获得过滤后的链接;
检测及动作处理器304,适用于:将所述过滤后的链接所对应的相关信息与历史数据进行比对,获得所述目标网页对应的软件的更新信息,并存储到数据库。
还可以包括:种子调度器,适用于:通过任务调度对需要监控的网页进行周期性检测,获得所述目标网页。
可见,本发明监控装置的实施例是针对网页进行监控,分析网页结构及其中的链接,将分析结果与历史数据比对,判断该网页的软件是否存在更新,发现更新后可定制化处理策略。因此,本发明实施例能够对网页数据进行有效监控,能够有效的组织并维护样本数据库。
图2为本发明装置实施例的执行示意图,如图2所示,装置实施例中个模块的关系如下:
重要软件平台的输入为人工添加的种子(没有父页面,关键字,域名的限制)和其他来源,并储存到DB(数据库)中;种子调度器的输入为DB中的新添加的种子(包括调度时间间隔,检测更新方式,解析方式,是否抓取,是否解析以及检测更新和失败的处理方式);
种子调度器的输出为包含种子信息的xml;
url抓取器的输入为种子调度器的输出;url抓取器的输出包含抓取到的html、js、xml、txt、ini的信息,并以xml的格式输出;
html解析器的输入为url抓取器的输出;通过输入中定义的解析方式对页面进行抽取link,输出为含有抽取到links的xml
url检测器的输入为html解析器的输出;通过输入中定义的检测方式进行检查。输入为含有检测结果的xml
动作处理器,对检测结果进行处理,例如,更新:储存到DB中并提醒或者推送给下载解包;失败:记日志并提醒。
如图2所示,装置实施例主要执行过程包括7个步骤,各个步骤的执行主体如下:
步骤1执行主体=>流程图中的种子调度器;
步骤2的执行主体=>流程图中的url抓取器,url抓取器包括直接下载与三种内核的渲染下载;
步骤3的执行主体=>流程图中的html解释器;
步骤4的执行主体=>流程图中的url过滤器;
步骤5的执行主体=>流程图中的url检测器;
步骤6,步骤7的执行主体=>流程图中的动作处理器;
装置实施例的执行过程举例如下:
步骤1,任务调度器负责对需要监控的网页进行周期检测,对符合条件的网页投递至监控系统;
其中,每个网页有自己的调度周期,有的是5分钟,有的是10分钟,视具体情况而定;系统将需要监控网页按照调度时间排序形成调度队列,每隔15秒对队列进行检测,调度时间大于当前时间的网页视为符合条件。
步骤2,下载网页内容,可以直接下载网页,也可以通过浏览器渲染下载(系统配备了三种内核的渲染模块:IE内核,Gecko内核,Chrome内核),还可以通过代理软件下载(防止服务器IP被禁止访问登录);
步骤3,解析网页内容,抽取其中的有效链接;
网页监控主要是监控网页中的URL链接,网页中的部分URL链接可能存在无法打开等各种错误,这些链接属于无效链接,不需要监控。
步骤4,分析抽取出有效链接,并根据规则对链接过滤;
有效链接是以上提到的那些能正常打开的链接;过滤的具体规则为:规则<1>系统主要监控网页中的软件更新,软件的下载链接一般以exe、msi、rar为后缀,所以一般关注这些链接;规则<2>有些网站可能会被入侵或者感染病毒,被植入一些病毒的下载链接,不过病毒的下载链接一般都是不是该站点的域名,系统根据域名进行过滤,可以防止误将病毒作为软件更新。
步骤5,将链接的相关信息与历史数据比对,判断软件是否存在更新;
系统检测到的每一款软件的每一次更新都会存储至数据库,存储的内容包括软件的下载链接,父页面链接,软件大小,软件更新时间,软件包,软件的监控策略等;系统将前置处理过程中监控到的一个软件版本与数据库中的历史版本比对,判断库中是否存在该软件版本的信息,如果存在则丢弃,如果不存在则视为新软件,继续后续流程。
步骤6,检测到新软件后,根据事先定制的策略,系统做出相应处理,如发邮件等;
步骤7,根据下载链接,下载软件包,并进行解包,得到软件生成的文件,最后,存储软件包及其生成文件、下载链接、父页面链接的对应关系。
由上可知,本发明实施例具有以下优势:
<1>高并发,有千万级甚至更大规模数据的处理能力;
<2>网页渲染,IE,GECKO(火狐内核),Chrome三种渲染器,涵盖了主流浏览器市场,基本可以渲染所有的网页,渲染模块对外接口使用gearman,并发度非常高;
<3>规避网站的防抓取功能,本发明实施例有丰富的可靠的代理节点,可以隐藏服务器IP,防止服务器IP被禁止访问登录;
<4>精细化运作。
具体包括:通过gearman,实现多机抓取,多机解析,多机检测;实现种子调度器,抓取器,解析器,检测器,后处理模块之间的解耦合;各流程的数据会一直保留下来,以便回查和统计;运营人员可以自定义种子或者软件的检测时间间隔和种子检测的方式;可以方便的衔接到新的下载和解包模块。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
基于本发明的一个方面,本发明实施例公开了A1、一种基于Web信息抽取的软件更新信息的监控方法,包括:
下载被监控的目标网页的网页内容;
解析所述网页内容,抽取所述网页内容中的有效链接;
对所述有效链接进行过滤,获得过滤后的链接;
将所述过滤后的链接所对应的相关信息与历史数据进行比对,获得所述目标网页对应的软件的更新信息,并存储到数据库。
A2、根据A1所述的监控方法,其特征在于,在所述下载被监控的目标网页的网页内容的步骤之前,通过任务调度对需要监控的网页进行周期性检测,获得所述目标网页;
所述周期性检测包括:
使用gearman作为进程间消息队列,通过gearman进行服务器之间的进程通讯;
使用redis作为高速缓存,通过读取redis中的网页调度时间实现对监控任务的周期性调度,通过调用redis接口实现对监控任务的调度。
A3、根据A1所述的监控方法,其特征在于,在所述下载被监控的目标网页的网页内容的步骤中,包括:
通过直接下载或者通过浏览器渲染下载所述目标网页的网页内容,所述浏览器渲染下载采用IE浏览器内核渲染器、Gecko浏览器内核渲染器或者Chrome浏览器内核渲染器;
通过反向链接的方式由代理服务器进行网页下载来隐藏服务器IP。
A4、根据A1所述的监控方法,其特征在于,在对所述有效链接进行过滤的步骤中,包括:
根据所述目标网页的域名进行过滤,滤除与所述目标网页的域名不匹配的有效链接。
A5、根据A1所述的监控方法,其特征在于,将所述过滤后的链接所对应的相关信息与历史数据进行比对的步骤中,包括:
将所述相关信息中的当前版本信息与数据库中的版本信息进行比对,如果存在所述当前版本信息则说明没有软件更新,进行丢弃处理,如果不存在所述当前版本信息则说明存在软件更新,进行后续处理。
A6、根据A5所述的监控方法,其特征在于,获得所述目标网页对应的软件的更新信息的步骤中,包括:
在发现软件更新后,进行预定处理;
根据所述软件更新的下载链接,下载软件包并进行解包,得到软件生成的文件,最后存储所述软件包、所述软件生成的文件、以及所述下载链接和父页面链接的对应关系。
A7、根据A6所述的监控方法,其特征在于,所述预定处理为:
发送通知邮件或发送通知短信;
下载解包,对有更新的软件进行下载;
监控外挂网页时,将外挂网页下载后投递沙箱,根据沙箱日志判断安全性;和/或
通过接口gearman来定制后续处理。
基于本发明的另一个方面,本发明实施例还公开了B8、一种基于Web信息抽取的软件更新信息的监控装置,包括:
抓取器,适用于:下载被监控的目标网页的网页内容;
解析器,适用于:解析所述网页内容,抽取所述网页内容中的有效链接;
过滤器,适用于:对所述有效链接进行过滤,获得过滤后的链接;
检测及动作处理器,适用于:将所述过滤后的链接所对应的相关信息与历史数据进行比对,获得所述目标网页对应的软件的更新信息,并存储到数据库。
B9、根据B8所述的监控装置,其特征在于,包括:
种子调度器,适用于:通过任务调度对需要监控的网页进行周期性检测,获得所述目标网页。
B10、根据B9所述的监控装置,其特征在于,包括:
调度队列,适用于:
使用gearman作为进程间消息队列,通过gearman进行服务器之间的进程通讯来实现平行扩展和高并发的处理;
管理平台,适用于:使用redis作为高速缓存,通过读取redis中的网页调度时间实现对监控任务的周期性调度,通过调用redis接口实现对监控任务的调度。
B11、根据B8所述的监控装置,其特征在于,所述抓取器,适用于:
通过直接下载或者通过浏览器渲染下载所述目标网页的网页内容,所述浏览器渲染下载采用IE浏览器内核渲染器、Gecko浏览器内核渲染器或者Chrome浏览器内核渲染器;
通过反向链接的方式由代理服务器进行网页下载来隐藏服务器IP。
B12、根据B8所述的监控装置,其特征在于,
所述过滤器,适用于:根据所述目标网页的域名进行过滤,滤除与所述目标网页的域名不匹配的有效链接。
B13、根据B8所述的监控装置,其特征在于,所述检测及动作处理器,适用于:
将所述相关信息中的当前版本信息与数据库中的版本信息进行比对,如果存在所述当前版本信息则说明没有软件更新,进行丢弃处理,如果不存在所述当前版本信息则说明存在软件更新,进行后续处理。
B14、根据B13所述的监控装置,其特征在于,所述检测及动作处理器,适用于:
在发现软件更新后,进行预定处理;
根据所述软件更新的下载链接,下载软件包并进行解包,得到软件生成的文件,最后存储所述软件包、所述软件生成的文件、以及所述下载链接和父页面链接的对应关系。
B15、根据B14所述的监控装置,其特征在于,所述预定处理为:
发送通知邮件或发送通知短信;
下载解包,对有更新的软件进行下载;
监控外挂网页时,将外挂网页下载后投递沙箱,根据沙箱日志判断安全性;和/或
通过接口gearman来定制后续处理。

Claims (10)

1.一种基于Web信息抽取的软件更新信息的监控方法,包括:
下载被监控的目标网页的网页内容;
解析所述网页内容,抽取所述网页内容中的有效链接;
对所述有效链接进行过滤,获得过滤后的链接;
将所述过滤后的链接所对应的相关信息与历史数据进行比对,获得所述目标网页对应的软件的更新信息,并存储到数据库,根据所述更新信息的内容定制化处理策略;
其中,所述下载被监控的目标网页的网页内容包括:通过直接下载或浏览器渲染下载所述目标网页的网页内容;或
通过内置的代理服务器下载所述目标网页的网页内容;
对所述有效链接进行过滤包括:根据所述目标网页的域名进行过滤,滤除与所述目标网页的域名不匹配的有效链接;
在所述下载被监控的目标网页的网页内容的步骤之前,通过任务调度对需要监控的网页进行周期性检测,获得所述目标网页;
所述周期性检测包括:
使用gearman作为进程间消息队列,通过gearman进行服务器之间的进程通讯;
使用redis作为高速缓存,通过读取redis中的网页调度时间实现对监控任务的周期性调度,通过调用redis接口实现对监控任务的调度。
2.根据权利要求1所述的监控方法,其特征在于,所述浏览器渲染下载所述目标网页的网页内容的步骤中,所述浏览器渲染下载采用IE浏览器内核渲染器、Gecko浏览器内核渲染器或者Chrome浏览器内核渲染器;
所述通过内置的代理服务器下载所述目标网页的网页内容,包括:通过反向链接的方式由代理服务器进行网页下载来隐藏服务器IP。
3.根据权利要求1所述的监控方法,其特征在于,将所述过滤后的链接所对应的相关信息与历史数据进行比对的步骤中,包括:
将所述相关信息中的当前版本信息与数据库中的版本信息进行比对,如果存在所述当前版本信息则说明没有软件更新,进行丢弃处理,如果不存在所述当前版本信息则说明存在软件更新,进行后续处理。
4.根据权利要求3所述的监控方法,其特征在于,获得所述目标网页对应的软件的更新信息的步骤中,包括:
在发现软件更新后,进行预定处理;
根据所述软件更新的下载链接,下载软件包并进行解包,得到软件生成的文件,最后存储所述软件包、所述软件生成的文件、以及所述下载链接和父页面链接的对应关系。
5.根据权利要求4所述的监控方法,其特征在于,所述预定处理为:
发送通知邮件或发送通知短信;
下载解包,对有更新的软件进行下载;
监控外挂网页时,将外挂网页下载后投递沙箱,根据沙箱日志判断安全性;和/或
通过接口gearman来定制后续处理。
6.一种基于Web信息抽取的软件更新信息的监控装置,包括:
抓取器,适用于:下载被监控的目标网页的网页内容;
解析器,适用于:解析所述网页内容,抽取所述网页内容中的有效链接;
过滤器,适用于:对所述有效链接进行过滤,获得过滤后的链接;
检测及动作处理器,适用于:将所述过滤后的链接所对应的相关信息与历史数据进行比对,获得所述目标网页对应的软件的更新信息,并存储到数据库,根据所述更新信息的内容定制化处理策略;
所述抓取器,还适用于通过直接下载或浏览器渲染下载所述目标网页的网页内容;或通过内置的代理服务器下载所述目标网页的网页内容;
所述过滤器,还适用于根据所述目标网页的域名进行过滤,滤除与所述目标网页的域名不匹配的有效链接;
种子调度器,适用于:通过任务调度对需要监控的网页进行周期性检测,获得所述目标网页;
调度队列,适用于:
使用gearman作为进程间消息队列,通过gearman进行服务器之间的进程通讯来实现平行扩展和高并发的处理;
管理平台,适用于:使用redis作为高速缓存,通过读取redis中的网页调度时间实现对监控任务的周期性调度,通过调用redis接口实现对监控任务的调度。
7.根据权利要求6所述的监控装置,其特征在于,所述抓取器,适用于:
通过浏览器渲染下载所述目标网页的网页内容,所述浏览器渲染下载采用IE浏览器内核渲染器、Gecko浏览器内核渲染器或者Chrome浏览器内核渲染器;
通过反向链接的方式由代理服务器进行网页下载来隐藏服务器IP。
8.根据权利要求6所述的监控装置,其特征在于,所述检测及动作处理器,适用于:
将所述相关信息中的当前版本信息与数据库中的版本信息进行比对,如果存在所述当前版本信息则说明没有软件更新,进行丢弃处理,如果不存在所述当前版本信息则说明存在软件更新,进行后续处理。
9.根据权利要求8所述的监控装置,其特征在于,所述检测及动作处理器,适用于:
在发现软件更新后,进行预定处理;
根据所述软件更新的下载链接,下载软件包并进行解包,得到软件生成的文件,最后存储所述软件包、所述软件生成的文件、以及所述下载链接和父页面链接的对应关系。
10.根据权利要求9所述的监控装置,其特征在于,所述预定处理为:
发送通知邮件或发送通知短信;
下载解包,对有更新的软件进行下载;
监控外挂网页时,将外挂网页下载后投递沙箱,根据沙箱日志判断安全性;和/或
通过接口gearman来定制后续处理。
CN201610166156.6A 2012-09-19 2012-09-19 基于Web信息抽取的软件更新信息的监控方法和装置 Active CN105843893B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610166156.6A CN105843893B (zh) 2012-09-19 2012-09-19 基于Web信息抽取的软件更新信息的监控方法和装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210350925.XA CN102929920B (zh) 2012-09-19 2012-09-19 基于Web信息抽取的软件更新信息的监控方法和装置
CN201610166156.6A CN105843893B (zh) 2012-09-19 2012-09-19 基于Web信息抽取的软件更新信息的监控方法和装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201210350925.XA Division CN102929920B (zh) 2012-09-19 2012-09-19 基于Web信息抽取的软件更新信息的监控方法和装置

Publications (2)

Publication Number Publication Date
CN105843893A CN105843893A (zh) 2016-08-10
CN105843893B true CN105843893B (zh) 2019-09-24

Family

ID=47644718

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201610166156.6A Active CN105843893B (zh) 2012-09-19 2012-09-19 基于Web信息抽取的软件更新信息的监控方法和装置
CN201210350925.XA Active CN102929920B (zh) 2012-09-19 2012-09-19 基于Web信息抽取的软件更新信息的监控方法和装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201210350925.XA Active CN102929920B (zh) 2012-09-19 2012-09-19 基于Web信息抽取的软件更新信息的监控方法和装置

Country Status (1)

Country Link
CN (2) CN105843893B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103763316B (zh) * 2014-01-16 2016-10-26 中国联合网络通信集团有限公司 一种网页内容过滤的方法及运营商设备
CN104765786A (zh) * 2014-09-30 2015-07-08 贵阳朗玛信息技术股份有限公司 关键词过滤系统及其应用方法
CN106155705B (zh) * 2015-03-22 2020-07-24 联想(北京)有限公司 电子设备及ota修复方法
CN104852958B (zh) * 2015-04-08 2018-10-02 苏州大学张家港工业技术研究院 一种软件操作行为的监控方法和装置
CN105630673B (zh) * 2015-12-17 2018-12-25 北京锐安科技有限公司 一种网络爬虫率的自动化测试方法及装置
CN108369560A (zh) * 2015-12-18 2018-08-03 三菱电机株式会社 数据处理装置、数据处理方法和数据处理程序
CN106021367B (zh) * 2016-05-10 2021-10-15 腾讯科技(深圳)有限公司 一种查找备份数据的方法及终端
CN109408090B (zh) * 2018-10-09 2021-05-28 广东美的制冷设备有限公司 设备软件的升级方法、数据转化器及可读存储介质
CN109525572A (zh) * 2018-11-08 2019-03-26 郑州云海信息技术有限公司 一种互联网网站安全监测防护系统及方法
CN113608955B (zh) * 2021-06-30 2024-01-26 北京新氧科技有限公司 一种日志记录方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1620012A (zh) * 2003-11-19 2005-05-25 国际商业机器公司 更新/重装在网络上浏览过的页面内容的方法和系统
CN1991757A (zh) * 2005-12-28 2007-07-04 腾讯科技(深圳)有限公司 实现软件升级的方法
CN101782913A (zh) * 2009-06-23 2010-07-21 北京搜狗科技发展有限公司 一种更新提醒的方法及浏览器
CN101782911A (zh) * 2009-06-23 2010-07-21 北京搜狗科技发展有限公司 一种网络资源内容提示方法及系统
CN101909084A (zh) * 2010-07-28 2010-12-08 中兴通讯股份有限公司 终端软件升级的方法、系统和业务平台系统
CN102419808A (zh) * 2011-09-28 2012-04-18 奇智软件(北京)有限公司 一种下载链接安全性检测方法、装置及系统
CN102761623A (zh) * 2012-07-26 2012-10-31 北京奇虎科技有限公司 资源自适配下载方法、系统、数据存储服务器、以及通信系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178713A (zh) * 2006-11-29 2008-05-14 腾讯科技(深圳)有限公司 一种采集网页的方法及系统
CN101540700A (zh) * 2009-04-10 2009-09-23 成都市华为赛门铁克科技有限公司 配置联动方法、系统、终端和网络设备管理服务器
CN101789975B (zh) * 2010-03-23 2013-01-23 深圳市龙视传媒有限公司 用于推送视频点播业务的下载内容的方法及系统
JP5110122B2 (ja) * 2010-06-18 2012-12-26 コニカミノルタビジネステクノロジーズ株式会社 コンテンツ収集装置、コンテンツ収集方法およびコンテンツ収集プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1620012A (zh) * 2003-11-19 2005-05-25 国际商业机器公司 更新/重装在网络上浏览过的页面内容的方法和系统
CN1991757A (zh) * 2005-12-28 2007-07-04 腾讯科技(深圳)有限公司 实现软件升级的方法
CN101782913A (zh) * 2009-06-23 2010-07-21 北京搜狗科技发展有限公司 一种更新提醒的方法及浏览器
CN101782911A (zh) * 2009-06-23 2010-07-21 北京搜狗科技发展有限公司 一种网络资源内容提示方法及系统
CN101909084A (zh) * 2010-07-28 2010-12-08 中兴通讯股份有限公司 终端软件升级的方法、系统和业务平台系统
CN102419808A (zh) * 2011-09-28 2012-04-18 奇智软件(北京)有限公司 一种下载链接安全性检测方法、装置及系统
CN102761623A (zh) * 2012-07-26 2012-10-31 北京奇虎科技有限公司 资源自适配下载方法、系统、数据存储服务器、以及通信系统

Also Published As

Publication number Publication date
CN105843893A (zh) 2016-08-10
CN102929920B (zh) 2016-04-20
CN102929920A (zh) 2013-02-13

Similar Documents

Publication Publication Date Title
CN105843893B (zh) 基于Web信息抽取的软件更新信息的监控方法和装置
CN104700026B (zh) 用于检测从基于字节码的沙箱环境逃逸的尝试的方法、设备和系统
US9531752B2 (en) Detection of spyware threats within virtual machines
US10728274B2 (en) Method and system for injecting javascript into a web page
US7290282B1 (en) Reducing false positive computer virus detections
CN104980309B (zh) 网站安全检测方法及装置
US20130167236A1 (en) Method and system for automatically generating virus descriptions
CN106897609A (zh) 一种对动态加载的应用程序进行监控的方法及装置
CN103678506B (zh) 在浏览器中加载应用程序快捷方式的方法、装置和浏览器
CN105577799B (zh) 一种数据库集群的故障检测方法和装置
Jana et al. TxBox: Building secure, efficient sandboxes with system transactions
Kula et al. On the impact of micro-packages: An empirical study of the npm javascript ecosystem
CN103414758B (zh) 日志处理方法及装置
Gajrani et al. EspyDroid+: Precise reflection analysis of android apps
Kou et al. Intrusion detection model based on android
Almomani et al. Android applications scanning: The guide
US20180107463A1 (en) Safe loading of dynamic user-defined code
CN106203105B (zh) 文件管理方法和装置
Khodayari et al. It’s (dom) clobbering time: Attack techniques, prevalence, and defenses
KR101803225B1 (ko) 멀티 서버, 멀티도커 기반 고속 악성 웹사이트 탐지 시스템 및 방법
Jones et al. A service-oriented approach to mobile code security
Laurén et al. Virtual machine introspection based cloud monitoring platform
Gan et al. A Review on detection of cross-site scripting attacks (XSS) in web security
Riley A framework for prototyping and testing data-only rootkit attacks
Trivedi et al. Maldetec: A non-root approach for dynamic malware detection in android

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190826

Address after: Room 2309, building 20, building 12, No. 93 Jianguo Road, Beijing, Chaoyang District, China

Applicant after: Beijing Fu Tong Tong Technology Co., Ltd.

Address before: 100088 Beijing city Xicheng District xinjiekouwai Street 28, block D room 112 (Desheng Park)

Applicant before: Beijing Qihu Technology Co., Ltd.

Applicant before: Qizhi Software (Beijing) Co., Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220407

Address after: 1773, floor 17, floor 15, building 3, No. 10, Jiuxianqiao Road, Fengtai District, Beijing 100015

Patentee after: Sanliu0 Digital Security Technology Group Co.,Ltd.

Address before: Room 2309, 20th floor, building 12, yard 93, Jianguo Road, Chaoyang District, Beijing 100022

Patentee before: Beijing Qifutong Technology Co.,Ltd.