CN103049456A - 一种筛选网页的方法及装置 - Google Patents

一种筛选网页的方法及装置 Download PDF

Info

Publication number
CN103049456A
CN103049456A CN2011103131839A CN201110313183A CN103049456A CN 103049456 A CN103049456 A CN 103049456A CN 2011103131839 A CN2011103131839 A CN 2011103131839A CN 201110313183 A CN201110313183 A CN 201110313183A CN 103049456 A CN103049456 A CN 103049456A
Authority
CN
China
Prior art keywords
webpage
visit capacity
rate
detection time
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103131839A
Other languages
English (en)
Other versions
CN103049456B (zh
Inventor
苏国立
刘松
陶思南
邵付东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201110313183.9A priority Critical patent/CN103049456B/zh
Publication of CN103049456A publication Critical patent/CN103049456A/zh
Application granted granted Critical
Publication of CN103049456B publication Critical patent/CN103049456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种筛选网页的方法及装置,其中,筛选网页的方法包括:获取用户在检测时间段内所访问的网页以及所述网页的访问量;将当前检测时间段内网页的访问量与上一检测时间段内所述网页的访问量进行比较,得到所述网页的访问量的变化率;按照网页的访问量的变化率进行排列,得到一个以上访问量的变化率高的网页。本发明实施例筛选网页的方法及装置,根据网页的访问量的变化率,筛选出对应的网页,提高筛选网页的准确度。

Description

一种筛选网页的方法及装置
技术领域
本发明实施例涉及网络技术领域,尤其涉及一种筛选网页的方法及装置。
背景技术
随着互联网技术的不断发展,网上银行、网上缴费、网上支付等日益普遍,随之也出现了钓鱼网页,钓鱼网页是指不法分子模拟正规网页,骗取用户的个人隐私信息,或者银行的账号、密码等,从而盗取用户的资料或财产。
目前,现有的筛选网页的方法通常为:搜集大量用户所访问的网址,然后将这些网址按照访问次数进行排序,并最终筛选出访问量最大的作为可疑网页。
但是,不法分子可以模拟出多个网址不同但内容相同的钓鱼网页,这样,仅从网页的访问量来筛选网址,可能会漏掉该钓鱼网页,无法准确的得到筛选结果。
发明内容
本发明实施例的目的是提供一种筛选网页的方法及装置,其提高筛选网页的准确度。
本发明实施例的目的是通过以下技术方案实现的:
一种筛选网页的方法,包括:
获取用户在检测时间段内所访问的网页以及所述网页的访问量;
将当前检测时间段内网页的访问量与上一检测时间段内所述网页的访问量进行比较,得到所述网页的访问量的变化率;
按照网页的访问量的变化率进行排列,得到一个以上访问量的变化率高的网页。
一种筛选网页的装置,包括:
获取单元,用于获取用户在检测时间段内所访问的网页以及所述网页的访问量;
比对单元,用于将当前检测时间段内网页的访问量与上一检测时间段内所述网页的访问量进行比较,得到所述网页的访问量的变化率;
筛选单元,用于按照网页的访问量的变化率进行排列,得到一个以上访问量的变化率高的网页。
由上述本发明实施例提供的技术方案可以看出,根据网页的访问量的变化率,筛选出对应的网页,提高筛选网页的准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的筛选网页的方法的流程示意图。
图2为本发明实施例提供的筛选网页的装置的构成示意图一。
图3为本发明实施例提供的筛选网页的装置的构成示意图二。
图4为本发明实施例提供的筛选网页的方法的应用流程示意图。
图5为本发明实施例提供的筛选网页的装置的应用场景的构成示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
如图1所示,本发明实施例提供一种筛选网页的方法,包括:
11、获取用户在检测时间段内所访问的网页以及所述网页的访问量。
12、将当前检测时间段内网页的访问量与上一检测时间段内所述网页的访问量进行比较,得到所述网页的访问量的变化率。
13、按照网页的访问量的变化率进行排列,得到一个以上访问量的变化率高的网页。
本发明实施例的筛选网页的方法的执行主体可以是服务器。
可选的,变化率公式可以为:
rc = Δr Δt
其中,rc表示变化率,Δr表示当前检测时间段内网页的访问量与上一检测时间段内所述网页的访问量的变化量,Δt表示检测时间段的时长。
可选的,可以使用网页的URL(Uniform/Universal Resource Locator,统一资源定位符,也被称为网址)来标识网页。则获取用户在检测时间段内所访问的网页以及所述网页的访问量,具体为获取用户在检测时间段内所访问的URL以及所述URL的访问量。
其中,检测时间段的时长不受限制,如检测时间段的时长为一天,一周,或者一个月等。而且,检测时间段的时长可以根据需求或者服务器的处理能力做调整。
由上述本发明实施例提供的技术方案可以看出,根据网页的访问量的变化率,筛选出对应的网页,提高提高筛选网页的准确度。
本发明实施例筛选网页的方法,步骤13按照网页的访问量的变化率进行排列,得到一个以上访问量的变化率高的网页之后,还可以包括:
获取所述网页的特征;
将所述网页的特征与特征库内包含的特征进行匹配,如果匹配,则将所述网页标识为可疑网页,如果不匹配,则在检测时间段内,不获取所述网页的访问量。
特征库可以包括钓鱼网页特征库,钓鱼网页特征库的特征如:
1、页面内容与所仿冒的网页类似;
2、页面内容中含有大量的仿冒网页的超链接;
3、页面内容中含有“中奖”等词语。
可见,对于匹配中的,就判定为钓鱼网页,记录该网页的URL,供业务查询使用。对于未匹配中的,则不再统计该网页URL的访问量,以节省资源。
具体而言,步骤11获取用户在检测时间段内所访问的网页以及所述网页的访问量,可以包括:
获取多个用户在检测时间段内所访问的网页以及所述网页的访问量。
可见,尽可能多地搜集用户所访问的网址,通过统计大量用户在一段时间内所访问网页的访问量变化率,并分析这些网页访问量的变化率,进而将可疑网页筛选出来,并进行检测,从而提醒用户避免访问钓鱼网页,以避免个人隐私的泄漏,和减少个人财产的损失。
可选的,步骤13可以替换包括:按照网页的访问量的变化率降序排列,从高到低得到一个以上对应的网页,或者,按照网页的访问量的变化率升序排列,则从低到高得到一个以上对应的网页,不受限制。
如图2所示,本发明实施例提供一种筛选网页的装置,包括:
获取单元21,用于获取用户在检测时间段内所访问的网页以及所述网页的访问量。
比对单元22,用于将当前检测时间段内网页的访问量与上一检测时间段内所述网页的访问量进行比较,得到所述网页的访问量的变化率。
筛选单元23,用于按照网页的访问量的变化率进行排列,得到一个以上访问量的变化率高的网页。
本发明实施例的筛选网页的装置可以是服务器,或者可以与服务器设置于一体。
由上述本发明实施例提供的技术方案可以看出,根据网页的访问量的变化率,筛选出对应的网页,提高提高筛选网页的准确度。
其中,变化率公式可以为:
rc = Δr Δt
其中,rc表示变化率,Δr表示当前检测时间段内网页的访问量与上一检测时间段内所述网页的访问量的变化量,Δt表示检测时间段的时间长。
如图3所示,本发明实施例筛选网页的装置,还可以包括:
匹配单元31,用于获取所述网页的特征,将所述网页的特征与特征库内包含的特征进行匹配。
标识单元32,用于如果匹配单元31的结果为匹配,则将所述网页标识为可疑网页。
如果匹配单元31的结果为不匹配,则在检测时间段内,所述获取单元不获取所述网页的访问量。
具体而言,获取单元21,具体用于获取多个用户在检测时间段内所访问的网页以及所述网页的访问量。
本发明实施例的筛选网页的装置及其构成,可以对应参照上述实施例的筛选网页的方法得以理解,在此不作赘述。
如图4所示,本发明提出一种基于统计用户所访问网页的访问量变化率进行可疑网页筛选的方法,解决现有的基于用户访问次数所筛选出的可疑网页准确率低的问题。通过统计大量用户在一段时间内所访问网页的访问量变化率,并分析这些网页访问量的变化率,进而将可疑网页筛选出来,并进行检测,从而提醒用户避免访问钓鱼网页,以避免个人隐私的泄漏,和减少个人财产的损失。
具体的,本发明基于统计用户所访问网页的访问量变化率进行可疑网页筛选的方法,包括:
41、在用户同意的条件下,尽可能多地搜集用户所访问的网址。
42、统计这些网址的访问量变化率,变化率公式可以为:
rc = Δr Δt
其中,rc表示变化率,Δr表示当前检测时间段内网页的访问量与上一检测时间段内所述网页的访问量的变化量,Δt表示检测时间段的时长。
43、按照访问量变化率进行排序,从变化率大到小筛选出对应的网页。
由上述本发明实施例提供的技术方案可以看出,根据网页的访问量的变化率,筛选出对应的网页,提高提高筛选网页的准确度,减少用户隐私的泄漏和财产的损失,为用户提供安全的上网体验。
如图5所示,本发明提出一种基于统计用户所访问网页的访问量变化率进行可疑网页筛选的装置:
URL接收单元51,用于接收来自客户端软件或者用户提交的需要进行校验的URL,将需要进行校验的URL提供给URL访问量统计单元52。可选的,如果本发明不需要筛选木马类型的可疑网页时,URL接收单元51可以对一些如exe或jpg等类型的URL进行初始过滤,即不需要将这些类型的URL提供给URL访问量统计单元52,URL访问量统计单元52不用统计这些类型的URL的访问量。
URL访问量统计单元52,用来统计不同用户所访问的URL的访问量。
URL访问量变化率统计单元53,会记录一段检测时间内(如一天,一周,或者一个月等)每条URL的访问量,并根据所统计的访问量,计算其变化率。对于访问量变化率高的URL,会提供给URL检测单元54。访问量变化率,变化率公式可以为:
rc = Δr Δt
其中,rc表示变化率,Δr表示当前检测时间段内网页的访问量与上一检测时间段内所述网页的访问量的变化量,Δt表示检测时间段的时长。
URL检测单元54,将URL访问量变化率统计单元53提供的URL对应的网页下载下来,与钓鱼特征库进行匹配;对于匹配中的,就判定为钓鱼网页,并发送给URL结果存储单元55,供业务查询使用。对于未匹配中的,则发送给URL访问量统计单元52,由URL访问量统计单元52将这些URL删除掉,即不再统计这些URL的访问量,以节省资源。
由上述本发明实施例提供的技术方案可以看出,根据网页的访问量的变化率,筛选出对应的网页,提高提高筛选网页的准确度,减少用户隐私的泄漏和财产的损失,为用户提供安全的上网体验。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

Claims (8)

1.一种筛选网页的方法,其特征在于,包括:
获取用户在检测时间段内所访问的网页以及所述网页的访问量;
将当前检测时间段内网页的访问量与上一检测时间段内所述网页的访问量进行比较,得到所述网页的访问量的变化率;
按照网页的访问量的变化率进行排列,得到一个以上访问量的变化率高的网页。
2.根据权利要求1所述的方法,其特征在于,按照网页的访问量的变化率进行排列,得到一个以上访问量的变化率高的网页之后,所述方法还包括:
获取所述网页的特征;
将所述网页的特征与特征库内包含的特征进行匹配,如果匹配,则将所述网页标识为可疑网页,如果不匹配,则在检测时间段内,不获取所述网页的访问量。
3.根据权利要求1所述的方法,其特征在于,变化率公式为:
rc = Δr Δt
其中,rc表示变化率,Δr表示当前检测时间段内网页的访问量与上一检测时间段内所述网页的访问量的变化量,Δt表示检测时间段的时长。
4.根据权利要求1所述的方法,其特征在于,所述获取用户在检测时间段内所访问的网页以及所述网页的访问量,包括:
获取多个用户在检测时间段内所访问的网页以及所述网页的访问量。
5.一种筛选网页的装置,其特征在于,包括:
获取单元,用于获取用户在检测时间段内所访问的网页以及所述网页的访问量;
比对单元,用于将当前检测时间段内网页的访问量与上一检测时间段内所述网页的访问量进行比较,得到所述网页的访问量的变化率;
筛选单元,用于按照网页的访问量的变化率进行排列,得到一个以上访问量的变化率高的网页。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
匹配单元,用于获取所述网页的特征,将所述网页的特征与特征库内包含的特征进行匹配;
标识单元,用于如果匹配单元的结果为匹配,则将所述网页标识为可疑网页;
如果匹配单元的结果为不匹配,则在检测时间段内,所述获取单元不获取所述网页的访问量。
7.根据权利要求5所述的装置,其特征在于,变化率公式为:
rc = Δr Δt
其中,rc表示变化率,Δr表示当前检测时间段内网页的访问量与上一检测时间段内所述网页的访问量的变化量,Δt表示检测时间段的时长。
8.根据权利要求5所述的装置,其特征在于,所述获取单元,具体用于获取多个用户在检测时间段内所访问的网页以及所述网页的访问量。
CN201110313183.9A 2011-10-14 2011-10-14 一种筛选网页的方法及装置 Active CN103049456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110313183.9A CN103049456B (zh) 2011-10-14 2011-10-14 一种筛选网页的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110313183.9A CN103049456B (zh) 2011-10-14 2011-10-14 一种筛选网页的方法及装置

Publications (2)

Publication Number Publication Date
CN103049456A true CN103049456A (zh) 2013-04-17
CN103049456B CN103049456B (zh) 2016-03-16

Family

ID=48062099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110313183.9A Active CN103049456B (zh) 2011-10-14 2011-10-14 一种筛选网页的方法及装置

Country Status (1)

Country Link
CN (1) CN103049456B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593415A (zh) * 2013-10-29 2014-02-19 北京国双科技有限公司 网页访问量作弊的检测方法和装置
CN105024870A (zh) * 2014-04-24 2015-11-04 中国移动通信集团公司 一种实现拨测的方法及系统
CN105872773A (zh) * 2016-06-01 2016-08-17 北京奇虎科技有限公司 视频直播的监控方法及监控装置
CN106412632A (zh) * 2016-10-21 2017-02-15 安徽协创物联网技术有限公司 一种视频直播的监控方法
CN106557520A (zh) * 2015-09-29 2017-04-05 百度在线网络技术(北京)有限公司 网站类型的识别方法及装置
CN106874165A (zh) * 2015-12-14 2017-06-20 北京国双科技有限公司 网页检测方法和装置
CN107517391A (zh) * 2016-06-16 2017-12-26 阿里巴巴集团控股有限公司 一种用于鉴别视频直播中异常直播信息的方法和设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6772214B1 (en) * 2000-04-27 2004-08-03 Novell, Inc. System and method for filtering of web-based content stored on a proxy cache server
US7082429B2 (en) * 2003-12-10 2006-07-25 National Chiao Tung University Method for web content filtering
CN101093510A (zh) * 2007-07-25 2007-12-26 北京搜狗科技发展有限公司 一种针对网页作弊的反作弊方法及系统
US20090199267A1 (en) * 2008-01-16 2009-08-06 David Glen Blackburn Internet filtering utility using consumer-governed internet web site ratings, governor voting system and vote validation process
US7634479B2 (en) * 2006-12-29 2009-12-15 Trend Micro Incorporated Pre-populating local URL rating cache
CN101782909A (zh) * 2009-01-19 2010-07-21 杨云国 基于用户操作意图的搜索引擎

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6772214B1 (en) * 2000-04-27 2004-08-03 Novell, Inc. System and method for filtering of web-based content stored on a proxy cache server
US7082429B2 (en) * 2003-12-10 2006-07-25 National Chiao Tung University Method for web content filtering
US7634479B2 (en) * 2006-12-29 2009-12-15 Trend Micro Incorporated Pre-populating local URL rating cache
CN101093510A (zh) * 2007-07-25 2007-12-26 北京搜狗科技发展有限公司 一种针对网页作弊的反作弊方法及系统
US20090199267A1 (en) * 2008-01-16 2009-08-06 David Glen Blackburn Internet filtering utility using consumer-governed internet web site ratings, governor voting system and vote validation process
CN101782909A (zh) * 2009-01-19 2010-07-21 杨云国 基于用户操作意图的搜索引擎

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593415A (zh) * 2013-10-29 2014-02-19 北京国双科技有限公司 网页访问量作弊的检测方法和装置
CN105024870A (zh) * 2014-04-24 2015-11-04 中国移动通信集团公司 一种实现拨测的方法及系统
CN106557520A (zh) * 2015-09-29 2017-04-05 百度在线网络技术(北京)有限公司 网站类型的识别方法及装置
CN106874165A (zh) * 2015-12-14 2017-06-20 北京国双科技有限公司 网页检测方法和装置
CN106874165B (zh) * 2015-12-14 2020-08-11 北京国双科技有限公司 网页检测方法和装置
CN105872773A (zh) * 2016-06-01 2016-08-17 北京奇虎科技有限公司 视频直播的监控方法及监控装置
CN105872773B (zh) * 2016-06-01 2019-03-05 北京奇虎科技有限公司 视频直播的监控方法及监控装置
CN107517391A (zh) * 2016-06-16 2017-12-26 阿里巴巴集团控股有限公司 一种用于鉴别视频直播中异常直播信息的方法和设备
CN106412632A (zh) * 2016-10-21 2017-02-15 安徽协创物联网技术有限公司 一种视频直播的监控方法

Also Published As

Publication number Publication date
CN103049456B (zh) 2016-03-16

Similar Documents

Publication Publication Date Title
CN103049456B (zh) 一种筛选网页的方法及装置
EP1428104B1 (en) Method and system for characterization of online behavior
CN108449327A (zh) 一种账号清理方法、装置、终端设备及存储介质
US20110202881A1 (en) System and method for rewarding a user for sharing activity information with a third party
CN106033510B (zh) 一种用户设备识别方法及系统
CN102546668B (zh) 一种独立访问者的统计方法、装置及系统
AU2002353379A1 (en) Method and system for characterization of online behavior
CN105760455A (zh) 广告点击的反作弊方法及装置
CN101409690A (zh) 一种互联网用户行为的获取方法和系统
CN106294101A (zh) 页面打点测试方法和装置
CN103618696B (zh) 对cookie信息进行处理的方法和服务器
CN105868254A (zh) 信息推荐方法及装置
CN109831429A (zh) 一种Webshell检测方法及装置
CN103646669B (zh) 一种移动存储设备的可靠性检测方法及装置
CN102831114A (zh) 实现互联网用户访问情况统计分析的方法及装置
CN105303442A (zh) 网上银行开户账号检测方法和装置
Urbano et al. Library catalog log analysis in e-book patron-driven acquisitions (PDA): A case study
CN103595747A (zh) 用户信息推荐方法和系统
CN104751234B (zh) 一种用户资产的预测方法及装置
WO2015149550A1 (zh) 确定网站内链接等级的方法及装置
JP2016177600A (ja) 広告主評価装置、広告主評価方法および広告主評価プログラム
CN109992614B (zh) 数据获取方法、装置和服务器
CN110969379B (zh) 一种替代物料的筛选方法及相关装置
CN104750717B (zh) 一种点击量记录方法、服务器及客户端
CN111047146A (zh) 一种企业用户的风险识别方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant