CN106960158A - 一种防止博客被网络爬虫检索的方法和装置 - Google Patents

一种防止博客被网络爬虫检索的方法和装置 Download PDF

Info

Publication number
CN106960158A
CN106960158A CN201710174043.5A CN201710174043A CN106960158A CN 106960158 A CN106960158 A CN 106960158A CN 201710174043 A CN201710174043 A CN 201710174043A CN 106960158 A CN106960158 A CN 106960158A
Authority
CN
China
Prior art keywords
page number
blog
network linking
character string
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710174043.5A
Other languages
English (en)
Inventor
沈文策
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Cnfol Information Technology Co Ltd
Original Assignee
Fujian Cnfol Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Cnfol Information Technology Co Ltd filed Critical Fujian Cnfol Information Technology Co Ltd
Priority to CN201710174043.5A priority Critical patent/CN106960158A/zh
Publication of CN106960158A publication Critical patent/CN106960158A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种防止博客被网络爬虫检索的方法和装置。该方法在接收到访客的访问请求后,对博客的页码进行加密以生成与该页码对应字符串,并根据生成的字符串生成该页码对应的网络链接中。由于该字符串是通过加密方式生成的,因而访客只能通过点击博客页码实现对博客页面的访问,而无法利用网络爬虫实现对页面网络链接的拼接,从而防止了网络爬虫对博客的大量检索。

Description

一种防止博客被网络爬虫检索的方法和装置
技术领域
本申请涉及网络信息管理领域,更具体地说,涉及一种防止博客被网络爬虫检索的方法和装置。
背景技术
在这个信息时代,数据资源显得格外重要。网络爬虫该类的脚本程序使得检索网络信息资源变得更加方便。许多网站上的资源很容易被人给检索过去。以博客为例子,博客入驻了很多知名的名家,每个博主都拥有较多的文章。这时候其他小网站的要搜集这些资源只要一个写一个网络爬虫的脚本,该网络爬虫脚本可根据博客某文章列表分页的URL进行修改页码拼接得到所有文章列表分页的URL,就能加载所有博客文章的内容一次把文章给复制过去,显然,这对于网络公司来说很不利。
在现在一般防止被爬虫的方法一般是通过限制IP的访问,比如一个IP一秒钟内不能连续加载两个文章内容或者文章页列表,或者写一个脚本,把一些经常用来检索数据的IP给加入黑名单,限制访问,但是这样的效果并不好,尽管做了时间限制,然后别人每次延迟加载一秒钟,照样可以完整的爬取内容。所以,这时候需要有更好的防止网络爬虫的方法。
发明内容
有鉴于此,本申请提供一种防止博客被网络爬虫检索的方法和装置,以防止博客被网络爬虫检索。
为了实现上述目的,现提出的方案如下:
一种防止网络博客被网络爬虫检索的方法,包括:
接收访客发送的访问请求;
基于预设加密算法对博客的所有页码进行加密生成与所述页码对应的字符串;
根据所述字符串生成所述页码对应的网络链接,所述网络链接中包含所述字符串;
允许访客访问博客主页。
优选的,所述将所述字符串添加到所述页码对应的网络链接中,之后还包括:
保存所有页码对应的包含有所述字符串的网络链接。
优选的,当所述字符串的存在时长超出了预设有效期后,生成新字符串,并根据所述新字符串对所述页码对应的网络链接进行更新。
优选的,所述预设加密算法包括:利用UUID生成唯一识别码然后以此作为密码对页码进行加密。
一种防止网络博客被网络爬虫检索的装置,包括:
访问请求接收单元,用于接收访客发送的访问请求;
字符串生成单元,用于基于预设加密算法对博客的所有页码进行加密生成与所述页码对应的字符串;
网络链接生成单元,用于根据所述字符串生成所述页码对应的网络链接,所述网络链接中包含所述字符串;
访问请求回复单元,用于允许访客访问博客主页。
优选的,还包括:存储单元,用于保存所有页码对应的包含有所述字符串的网络链接。
优选的,还包括:网络链接更新单元,用于当所述字符串的存在时长超出了预设有效期后,生成新字符串,并根据所述新字符串对所述页码对应的网络链接进行更新。
优选的,所述预设加密算法包括:利用UUID生成唯一识别码然后以此作为密码对页码进行加密。
经由上述技术方案可知,本申请公开了一种防止博客被网络爬虫检索的方法和装置。该方法在接收到访客的访问请求后,对博客的页码进行加密以生成与该页码对应字符串,并根据生成的字符串生成该页码对应的网络链接中。由于该字符串是通过加密方式生成的,因而访客只能通过点击博客页码实现对博客页面的访问,而无法利用网络爬虫实现对页面网络链接的拼接,从而防止了网络爬虫对博客的大量检索。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本发明一个实施例公开的一种防止博客被网络爬虫检索的方法的流程示意图;
图2示出了本发明另一个实施例公开的一种防止博客被网络爬虫检索的方法的流程示意图;
图3示出了本发明另一个实施例公开的一种防止博客被网络爬虫检索的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一个用户浏览了一个博主的首页。这时候,服务器向页面传递数据的时候应该传递了总的页数,和每页显示的文章数量,然后第一页是用阿拉伯数字1表示,第二页就是2。但是这个时候如果是网络爬虫软件,就可以很轻易的模拟URL请求去请求后台数据。如:http://blog.cnfol.com/9999999999?page=1这个域名,只要把page=1改成page=2就可以获取第二页里面的所有内容了。而一般用户访问的时候不是改这个page的值去访问,而是通过点击页面下的页码实现访问。
参见图1示出了本发明一个实施例公开的一种防止博客被网络爬虫检索的方法的流程示意图。
由图1可知,该方法包括:
S101:接收访客发送的访问请求。
访客要进入一个博主博客的主页,需要向服务器发送访问发起请求,通过URL访问,例如点击http://blog.cnfol.com/9999999999这个博主的URL。
S102:基于预设加密算法对博客的所有页码进行加密生成与所述页码对应的字符串。
服务器接收到访客发送的访问请求后,对博客的页面进行加密处理(如利用生成当前有效的UUID这个唯一识别码当做页码从而实现加密)生成相应的字符串。如生成与页码1相对应的特殊字符串550E8400,不同的页码对应不同的字符串。
S103:根据所述字符串生成所述页码对应的网络链接,对所有页码对应的网络链接进行保存。
将生成的字符串添加到该页面对应的网络链接中。这样的话,当访客点击页码1时实际发送的请求则为:http://blog.cnfol.com/9999999999?page=550E8400,以替换原有的网络链接:http://blog.cnfol.com/9999999999?page=1,因而网络爬虫无法根据页面1的网络链接对其他页面URL的拼接。
S104:允许访问博客主页。
由以上实施例可知,本申请公开了一种防止博客被网络爬虫检索的方法。该方法在接收到访客的访问请求后,对博客的页码进行加密以生成与该页码对应字符串,并根据生成的字符串生成该页码对应的网络链接中。由于该字符串是通过加密方式生成的,因而访客只能通过点击博客页码实现对博客页面的访问,而无法利用网络爬虫实现对页面网络链接的拼接,从而防止了网络爬虫对博客的大量检索。
参见图2示出了本发明另一个实施例公开的一种防止博客被网络爬虫检索的方法的流程示意图。
由图2可知,该方法包括:
S201:接收访客发送的访问请求。
S202:基于预设加密算法对博客的所有页码进行加密生成与所述页码对应的字符串。
S203:将所述字符串添加到所述页码对应的网络链接中,对所有页码对应的网络链接进行保存。
S204:当所述字符串的存在时长超出了预设有效期后,生成新字符串,并根据所述新字符串对所述页码对应的网络链接进行更新。
为了提高保密性,在本实施例中当所述字符串的存在时长超出了预设有效期后(如1小时),可以重新生成一个新的字符串,并根据新生成的字符串对页码对应的网络链接进行更新。
S205:允许访问博客主页。
参见图3示出了本发明另一个实施例公开的一种防止博客被网络爬虫检索的装置的结构示意图。
由图3可知,该装置包括:访问请求接收单元1、字符串生成单元2、网络链接生成单元3、网络链接更新单元4以及访问请求回复单元5。
其中,访问请求接收单元1用于接收访客发送的访问请求。
当服务器接收到访客发送的访问请求后,字符串生成单元2则基于预设加密算法对博客的所有页码进行加密生成与所述页码对应的字符串,其中不同的页码对应不同的字符串。
进而,网络链接生成单元3根据字符串生成单元2生成的字符串生成与页码对应的网络链接。如,若页码1对应的字符串为550E8400,则页码1对应的网络链接为:http://blog.cnfol.com/9999999999?page=550E8400。
网络链接更新单元4用于当所述字符串的存在时长超出了预设有效期后,生成新字符串,并根据所述新字符串对所述页码对应的网络链接进行更新,以提高字符串的保密性。
当服务器为各个页码重新分配了网络链接后,访问请求回复单元5则允许访客访问博客主页。
需要说明的是,在本发明公开的其他实施例中,该装置还包括:存储单元6。其中,存储单元6用于保存所有页码对应的包含有所述字符串的网络链接。
需要说明的是该系统实施例与方法实施例相对应,其执行过程和执行原理相同,在此不作赘述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种防止网络博客被网络爬虫检索的方法,其特征在于,包括:
接收访客发送的访问请求;
基于预设加密算法对博客的所有页码进行加密生成与所述页码对应的字符串;
根据所述字符串生成所述页码对应的网络链接,所述网络链接中包含所述字符串;
允许访客访问博客主页。
2.根据权利要求1所述的方法,其特征在于,所述根据所述字符串生成所述页码对应的网络链接,之后还包括:
保存所有页码对应的包含有所述字符串的网络链接。
3.根据权利要求2所述的方法,其特征在于,当所述字符串的存在时长超出了预设有效期后,生成新字符串,并根据所述新字符串对所述页码对应的网络链接进行更新。
4.根据权利要求1所述的方法,其特征在于,所述预设加密算法包括:利用UUID唯一识别码当做当前页码进行对页码加密。
5.一种防止网络博客被网络爬虫检索的装置,其特征在于,包括:
访问请求接收单元,用于接收访客发送的访问请求;
字符串生成单元,用于基于预设加密算法对博客的所有页码进行加密生成与所述页码对应的字符串;
网络链接生成单元,用于根据所述字符串生成所述页码对应的网络链接,所述网络链接中包含所述字符串;
访问请求回复单元,用于允许访客访问博客主页。
6.根据权利要求5所述的装置,其特征在于,还包括:存储单元,用于保存所有页码对应的包含有所述字符串的网络链接。
7.根据权利要求6所述的装置,其特征在于,还包括:网络链接更新单元,用于当所述字符串的存在时长超出了预设有效期后,生成新字符串,并根据所述新字符串对所述页码对应的网络链接进行更新。
8.根据权利要求5所述的装置,其特征在于,所述预设加密算法包括:利用UUID唯一识别码当做当前页码进行对页码加密。
CN201710174043.5A 2017-03-22 2017-03-22 一种防止博客被网络爬虫检索的方法和装置 Pending CN106960158A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710174043.5A CN106960158A (zh) 2017-03-22 2017-03-22 一种防止博客被网络爬虫检索的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710174043.5A CN106960158A (zh) 2017-03-22 2017-03-22 一种防止博客被网络爬虫检索的方法和装置

Publications (1)

Publication Number Publication Date
CN106960158A true CN106960158A (zh) 2017-07-18

Family

ID=59471414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710174043.5A Pending CN106960158A (zh) 2017-03-22 2017-03-22 一种防止博客被网络爬虫检索的方法和装置

Country Status (1)

Country Link
CN (1) CN106960158A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109525600A (zh) * 2018-12-28 2019-03-26 深圳竹云科技有限公司 一种基于对分页参数加密的反网络爬虫的方法
CN109740033A (zh) * 2018-11-12 2019-05-10 盐城优易数据有限公司 一种确定数据处理成本的方法及装置
CN111783006A (zh) * 2020-07-22 2020-10-16 网易(杭州)网络有限公司 页面的生成方法、装置、电子设备及计算机可读介质
CN112182629A (zh) * 2020-10-28 2021-01-05 深圳前海微众银行股份有限公司 一种恶意访问识别方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1242337C (zh) * 1997-10-28 2006-02-15 互联网号码公司 用于访问在一个网络上的信息的方法和系统
CN102902661B (zh) * 2012-10-24 2015-01-07 广东欧珀移动通信有限公司 一种实现电子书超链接的方法
CN105516208A (zh) * 2016-01-28 2016-04-20 邱铭钗 一种有效防止网络攻击的web网站链接动态隐藏方法及装置
CN105577701A (zh) * 2016-03-09 2016-05-11 携程计算机技术(上海)有限公司 网络爬虫的识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1242337C (zh) * 1997-10-28 2006-02-15 互联网号码公司 用于访问在一个网络上的信息的方法和系统
CN102902661B (zh) * 2012-10-24 2015-01-07 广东欧珀移动通信有限公司 一种实现电子书超链接的方法
CN105516208A (zh) * 2016-01-28 2016-04-20 邱铭钗 一种有效防止网络攻击的web网站链接动态隐藏方法及装置
CN105577701A (zh) * 2016-03-09 2016-05-11 携程计算机技术(上海)有限公司 网络爬虫的识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李雷博客: ""分享如何使用PHP将URL地址参数进行加密传输提高网站安全性"", 《HTTPS://WWW.MDAIMA.COM/JINGYAN/36.HTML》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740033A (zh) * 2018-11-12 2019-05-10 盐城优易数据有限公司 一种确定数据处理成本的方法及装置
CN109525600A (zh) * 2018-12-28 2019-03-26 深圳竹云科技有限公司 一种基于对分页参数加密的反网络爬虫的方法
CN111783006A (zh) * 2020-07-22 2020-10-16 网易(杭州)网络有限公司 页面的生成方法、装置、电子设备及计算机可读介质
CN112182629A (zh) * 2020-10-28 2021-01-05 深圳前海微众银行股份有限公司 一种恶意访问识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US11924267B2 (en) Method and apparatus for storing information in a browser storage area of a client device
Liu et al. DivORAM: Towards a practical oblivious RAM with variable block size
Stefanov et al. Multi-cloud oblivious storage
Kogan et al. Private blocklist lookups with checklist
US20080031447A1 (en) Systems and methods for aggregation of access to network products and services
JP2022509104A (ja) ブロックチェーンネットワークを介するデータの効率的且つセキュアな処理、アクセス、及び送信のためのシステム及び方法
AU2014240202B2 (en) Dynamic tokenization with multiple token tables
CN104978239B (zh) 一种实现多备份数据动态更新的方法、装置及系统
Pan et al. I do not know what you visited last summer: Protecting users from third-party web tracking with trackingfree browser
CN106960158A (zh) 一种防止博客被网络爬虫检索的方法和装置
CN105210076B (zh) 弹性、可恢复的动态设备识别
AU2018391625B2 (en) Re-encrypting data on a hash chain
US20170344756A1 (en) Tokenization Column Replacement
Papaodyssefs et al. Web identity translator: Behavioral advertising and identity privacy with wit
Cui et al. PPSB: An open and flexible platform for privacy-preserving safe browsing
Sharma et al. MapSafe: A complete tool for achieving geospatial data sovereignty
Suthar et al. Encryscation: An secure approach for data security using encryption and obfuscation techniques for iaas and daas services in cloud environment
Gulyás et al. Comprehensive analysis of web privacy and anonymous web browsers: are next generation services based on collaborative filtering?
Calpito et al. Application of advanced encryption standard in the computer or handheld online year-round registration system
Kumar et al. Secured data storage in the cloud using logical Pk-Anonymization with Map Reduce methods and key generation in cloud computing
Arnold Evaluation of Percy++, A Private Information Retrieval Library
Alrashidy Protecting Sensitive Data on Cloud Service Provider
Parveen Cookie Hijacking: Privacy Risk
Li et al. Lightweight MapReduce Application Service Integrity Auditing on the Cloud
Armanfar A practical privacy-preserving public key repository

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170718