CN109862031A - 一种对加密反爬虫的方式方法 - Google Patents
一种对加密反爬虫的方式方法 Download PDFInfo
- Publication number
- CN109862031A CN109862031A CN201910187886.8A CN201910187886A CN109862031A CN 109862031 A CN109862031 A CN 109862031A CN 201910187886 A CN201910187886 A CN 201910187886A CN 109862031 A CN109862031 A CN 109862031A
- Authority
- CN
- China
- Prior art keywords
- crawler
- font
- custom
- page
- methods
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种对加密反爬虫的方式方法,所述方法包括以下步骤:自定义字体建立,自定义字体导入,自定义字体显示,字体更换;本发明一种对加密反爬虫的方式方法,提供了一种全新的反爬虫方法,通过对前端的页面加密,能够让爬虫无法解析网页内容,以保护网站数据内容以及进而放弃进行爬取,能够增加爬虫成本,从而达到反爬虫的目的。
Description
技术领域
本发明属于反爬虫技术领域,特别涉及一种对加密反爬虫的方式方法。
背景技术
目前恶意爬虫占比数据与以前相比有所下降,同时真人访问的占比也有所提升,但这并不意味着恶意爬虫日渐式微。一方面是印度、印度尼西亚等高人口总数国家的互联网新增人口有大幅提升;另一方面,恶意爬虫制造者更专注于爬虫的质量而不是数量,如今的恶意爬虫具有高持续性和可变性。
爬与反爬的斗争从未间断,过去的初级爬虫能很明显从异常的Headers信息甄别,但爬虫制造者从一次次爬与反爬中总结出可能被封的原因,通过不断的测试和改善爬虫程序。更新换代后的高持续性恶意爬虫通常具有以下特点中的某几个:模仿真人行为、加载Javascript和外部资源、模拟cookie和useragent、浏览器自动化操作和变化的IP地址池。可能很多人认为,恶意爬虫只会威胁到少数以文本为核心价值的网站,其实这些能改变自己请求路径和请求方式的伪装者可能潜伏在任何一个网站的每一个角落。文本、图片、价格、评论、接口、架构等方方面面均有可能成为爬虫的囊中物。网站的核心文本可能在几小时甚至几分钟内就被恶意爬虫抓取并悄无声息的复制到别的网站,核心内容被复制会极大影响网站和网页本身在搜索引擎上的排名,低排名会导致访问量降低和销量、广告收益降低的恶性循环,在内容为王、用户粘性不高的今天,核心内容很大程度上会影响网站在用户心目中的价值。若网站以文本为商品作为盈利点,那恶意爬虫更是影响KPI的主要因素,如不进行实时判断和拦截,网站的信息可能在几小时内就被爬虫爬取,基于此,本发明提出一种对加密反爬虫的方式方法。
发明内容
为了解决现有技术存在的问题,本发明提供了一种对加密反爬虫的方式方法,提供了一种全新的反爬虫方法,通过对前端的页面加密,能够让爬虫无法解析网页内容,以保护网站数据内容以及进而放弃进行爬取,能够增加爬虫成本,从而达到反爬虫的目的。
为了实现上述目的,本发明是通过如下的技术方案来实现:一种对加密反爬虫的方式方法,所述方法包括以下步骤:
步骤一:自定义字体建立;首先,使用FontCreater等自定义字体的软件或者使用程序自定义建立需要的自定义字体,全部建立完毕后,生成字体文件,然后将生成字体文件导出;
步骤二:自定义字体导入;导出成功后,将字体文件导入前端页面,然后在页面代码中通过字码点引用需要的字,完成相关页面配置;
步骤三:自定义字体显示;配置完毕后,运行前端页面,查看显示效果,然后根据需求进行相关调试,通过自定义字体的方式,页面源码中可能为123,但是页面中实际显示的则为079,从而使爬虫无法解析网页内容爬取不到正确的数据,还能够使用较为生僻的自定义编码,从而达到更强的反爬虫能力;
步骤四:字体更换;在步骤二中进行自定义字体导入时,可以选择导入多个自定义字体文件,进行相关的配置后,使每次访问页面时重新更换一次无序的字体,或者每隔一定时间重新更换一次,从而增加爬虫成本。
作为本发明的一种优选方式,所述步骤四中的重新生成时间间隔为预设的,比如5-10min。
作为本发明的一种优选方式,所述步骤二中的字码点为建立自定义字体时产生的,类似于索引,在网页中嵌入字体的时候就是根据字码点引用展示的。
作为本发明的一种优选方式,所述步骤一中的导出的字体文件格式默认为.otf,能够根据实际需要进行选择或者转换,如:“.eot”,“.woff”,“.svg”,“.ttf”。
本发明的有益效果为:
1、本发明一种对加密反爬虫的方式方法提供了一种全新的反爬虫方法,通过对前端的页面加密,能够让爬虫无法解析网页内容,以保护网站数据内容以及进而放弃进行爬取,能够增加爬虫成本,从而达到反爬虫的目的;
2、本发明一种对加密反爬虫的方式方法能够适用于所有网页、APP等内容公开信息加密反机器爬取信息数据,方便快捷,能够有效的保证网站的信息安全;
3、本发明一种对加密反爬虫的方式方法步骤简洁,使用自定义字体和较为生僻的自定义编码,很难能被解析破译,从而达到更强的反爬虫能力,适合推广。
附图说明
图1为一种对加密反爬虫的方式方法的流程图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
请参阅图1,本发明提供一种技术方案:一种对加密反爬虫的方式方法,所述方法包括以下步骤:
步骤一:自定义字体建立;首先,使用FontCreater等自定义字体的软件或者使用程序自定义建立需要的自定义字体,全部建立完毕后,生成字体文件,然后将生成字体文件导出;
步骤二:自定义字体导入;导出成功后,将字体文件导入前端页面,然后在页面代码中通过字码点引用需要的字,完成相关页面配置;
步骤三:自定义字体显示;配置完毕后,运行前端页面,查看显示效果,然后根据需求进行相关调试,通过自定义字体的方式,页面源码中可能为123,但是页面中实际显示的则为079,从而使爬虫无法解析网页内容爬取不到正确的数据,还能够使用较为生僻的自定义编码,从而达到更强的反爬虫能力;
步骤四:字体更换;在步骤二中进行自定义字体导入时,可以选择导入多个自定义字体文件,进行相关的配置后,使每次访问页面时重新更换一次无序的字体,或者每隔一定时间重新更换一次,从而增加爬虫成本。
作为本发明的一种优选方式,所述步骤四中的重新生成时间间隔为预设的,比如5-10min。
作为本发明的一种优选方式,所述步骤二中的字码点为建立自定义字体时产生的,类似于索引,在网页中嵌入字体的时候就是根据字码点引用展示的。
作为本发明的一种优选方式,所述步骤一中的导出的字体文件格式默认为.otf,能够根据实际需要进行选择或者转换,如:“.eot”,“.woff”,“.svg”,“.ttf”。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (4)
1.一种对加密反爬虫的方式方法,其特征在于,所述方法包括以下步骤:
步骤一:自定义字体建立;首先,使用FontCreater等自定义字体的软件或者使用程序自定义建立需要的自定义字体,全部建立完毕后,生成字体文件,然后将生成字体文件导出;
步骤二:自定义字体导入;导出成功后,将字体文件导入前端页面,然后在页面代码中通过字码点引用需要的字,完成相关页面配置;
步骤三:自定义字体显示;配置完毕后,运行前端页面,查看显示效果,然后根据需求进行相关调试,通过自定义字体的方式,页面源码中可能为123,但是页面中实际显示的则为079,从而使爬虫无法解析网页内容爬取不到正确的数据,还能够使用较为生僻的自定义编码,从而达到更强的反爬虫能力;
步骤四:字体更换;在步骤二中进行自定义字体导入时,可以选择导入多个自定义字体文件,进行相关的配置后,使每次访问页面时重新更换一次无序的字体,或者每隔一定时间重新更换一次,从而增加爬虫成本。
2.根据权利要求1所述的一种对加密反爬虫的方式方法,其特征在于,所述步骤四中的重新生成时间间隔为预设的,比如5-10min。
3.根据权利要求1所述的一种对加密反爬虫的方式方法,其特征在于,所述步骤二中的字码点为建立自定义字体时产生的,类似于索引,在网页中嵌入字体的时候就是根据字码点引用展示的。
4.根据权利要求1所述的一种对加密反爬虫的方式方法,其特征在于,所述步骤一中的导出的字体文件格式默认为.otf,能够根据实际需要进行选择或者转换,如:“.eot”,“.woff”,“.svg”,“.ttf”。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910187886.8A CN109862031A (zh) | 2019-03-13 | 2019-03-13 | 一种对加密反爬虫的方式方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910187886.8A CN109862031A (zh) | 2019-03-13 | 2019-03-13 | 一种对加密反爬虫的方式方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109862031A true CN109862031A (zh) | 2019-06-07 |
Family
ID=66900670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910187886.8A Pending CN109862031A (zh) | 2019-03-13 | 2019-03-13 | 一种对加密反爬虫的方式方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109862031A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569029A (zh) * | 2019-09-18 | 2019-12-13 | 四川长虹电器股份有限公司 | 一种基于前后端分离开发的反爬虫方法 |
CN111008348A (zh) * | 2019-11-28 | 2020-04-14 | 盛业信息科技服务(深圳)有限公司 | 反爬虫方法、终端、服务器及计算机可读存储介质 |
CN111539025A (zh) * | 2020-05-07 | 2020-08-14 | 北京五八信息技术有限公司 | 一种页面展示方法、装置、电子设备及存储介质 |
CN111901332A (zh) * | 2020-07-27 | 2020-11-06 | 北京百川盈孚科技有限公司 | 网页内容反爬方法及系统 |
CN112182603A (zh) * | 2020-09-22 | 2021-01-05 | 建信金融科技有限责任公司 | 反爬虫方法和装置 |
CN113553601A (zh) * | 2020-04-23 | 2021-10-26 | 上海云盾信息技术有限公司 | 一种网页页面内容加密方法及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101017480A (zh) * | 2007-03-13 | 2007-08-15 | 北京中易中标电子信息技术有限公司 | 便携式字形构件 |
CN105677646A (zh) * | 2014-11-17 | 2016-06-15 | 北京大学 | 字库生成方法、字库生成系统和服务器 |
CN106919381A (zh) * | 2017-01-13 | 2017-07-04 | 网易宝有限公司 | 用于实现密码输入框的方法及设备 |
CN107818108A (zh) * | 2016-09-13 | 2018-03-20 | 阿里巴巴集团控股有限公司 | 一种网页渲染方法、装置及系统 |
CN109241391A (zh) * | 2018-09-20 | 2019-01-18 | 四川长虹电器股份有限公司 | 一种解决字体反爬的爬虫方法 |
-
2019
- 2019-03-13 CN CN201910187886.8A patent/CN109862031A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101017480A (zh) * | 2007-03-13 | 2007-08-15 | 北京中易中标电子信息技术有限公司 | 便携式字形构件 |
CN105677646A (zh) * | 2014-11-17 | 2016-06-15 | 北京大学 | 字库生成方法、字库生成系统和服务器 |
CN107818108A (zh) * | 2016-09-13 | 2018-03-20 | 阿里巴巴集团控股有限公司 | 一种网页渲染方法、装置及系统 |
CN106919381A (zh) * | 2017-01-13 | 2017-07-04 | 网易宝有限公司 | 用于实现密码输入框的方法及设备 |
CN109241391A (zh) * | 2018-09-20 | 2019-01-18 | 四川长虹电器股份有限公司 | 一种解决字体反爬的爬虫方法 |
Non-Patent Citations (1)
Title |
---|
傲雪星枫: "利用自定义web-font实现数据防采集", 《CSDN》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569029A (zh) * | 2019-09-18 | 2019-12-13 | 四川长虹电器股份有限公司 | 一种基于前后端分离开发的反爬虫方法 |
CN111008348A (zh) * | 2019-11-28 | 2020-04-14 | 盛业信息科技服务(深圳)有限公司 | 反爬虫方法、终端、服务器及计算机可读存储介质 |
CN113553601A (zh) * | 2020-04-23 | 2021-10-26 | 上海云盾信息技术有限公司 | 一种网页页面内容加密方法及设备 |
CN113553601B (zh) * | 2020-04-23 | 2023-04-18 | 上海云盾信息技术有限公司 | 一种网页页面内容加密方法及设备 |
CN111539025A (zh) * | 2020-05-07 | 2020-08-14 | 北京五八信息技术有限公司 | 一种页面展示方法、装置、电子设备及存储介质 |
CN111539025B (zh) * | 2020-05-07 | 2021-02-26 | 北京五八信息技术有限公司 | 一种页面展示方法、装置、电子设备及存储介质 |
CN111901332A (zh) * | 2020-07-27 | 2020-11-06 | 北京百川盈孚科技有限公司 | 网页内容反爬方法及系统 |
CN112182603A (zh) * | 2020-09-22 | 2021-01-05 | 建信金融科技有限责任公司 | 反爬虫方法和装置 |
CN112182603B (zh) * | 2020-09-22 | 2022-12-13 | 中国建设银行股份有限公司 | 反爬虫方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109862031A (zh) | 一种对加密反爬虫的方式方法 | |
Hanley | Researching online counselling and psychotherapy: The past, the present and the future | |
CN107292412A (zh) | 一种问题预测方法及预测系统 | |
CN106780052A (zh) | 基于分类客户行为分析的保险服务推荐方法及系统 | |
CN104281622A (zh) | 一种社交媒体中的信息推荐方法和装置 | |
CN101203856A (zh) | 用于生成相关搜索查询的系统 | |
CN108073659A (zh) | 一种婚恋对象推荐方法及装置 | |
Bortree et al. | Framing environmental advocacy: A study of 30 years of advertising in National Geographic Magazine | |
Kshetri et al. | Big data and cloud computing for development: Lessons from key industries and economies in the global south | |
CN106375413A (zh) | 创建律师信息库方法及装置,律师推荐方法、装置及系统 | |
CN103544150B (zh) | 为移动终端浏览器提供推荐信息的方法及系统 | |
Shayegh et al. | Toward an approach to privacy notices in IoT | |
Bailey et al. | Disclosures in privacy policies: Does" notice and consent" work? | |
CN111161076A (zh) | 金融市场产品的推送方法及装置 | |
CN105630839B (zh) | 网页信息的获取方法和装置 | |
CN110516049A (zh) | 服务生成方法、服务生成装置、计算机设备及计算机可读存储介质 | |
CN106354822A (zh) | 获取目标用户的方法和装置 | |
Ahmad et al. | Factors affecting attrition in cellular service subscription | |
CN111581533B (zh) | 目标对象的状态识别方法、装置、电子设备和存储介质 | |
WO2018026324A1 (en) | A web-based method for enhanced analysis of analytics setup and data | |
CN103106217A (zh) | 一种留言信息的处理方法和设备 | |
CN107368464A (zh) | 一种获取招标产品信息的方法及装置 | |
CN106790606A (zh) | 一种业务处理方法和装置 | |
CN110489629A (zh) | 数据爬取方法、数据爬取装置、数据爬取设备及存储介质 | |
Okello-Obura et al. | Proposed business information system design (BISD) for small and medium enterprises (SMEs) in Northern Uganda |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190607 |