CN110474890B

CN110474890B - 一种基于智能流量导向切换的数据反爬取方法及装置

Info

Publication number: CN110474890B
Application number: CN201910688075.6A
Authority: CN
Inventors: 黄兴鲁
Original assignee: Shenzhen Digital Big Data Technology Co ltd
Current assignee: Shenzhen Digital Big Data Technology Co ltd
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2022-05-10
Anticipated expiration: 2039-07-29
Also published as: CN110474890A

Abstract

本发明公开了一种基于智能流量导向切换的数据反爬取方法及装置，方法包括：获取网站核心数据，根据算法生成与核心数据类似的虚假数据，将虚假数据存储至预先构建的虚假数据服务器对应的数据库中；检测到访问请求，根据访问请求的请求信息识别出爬虫程序；将爬虫程序对应的请求导入到虚假数据服务器，返回虚假数据服务器对应的数据库中的虚假数据。本发明实施例相比传统的反爬手段，不是将爬虫程序扼杀在访问请求中，而将所有的爬虫请求引导到需要的服务端，返回错误的数据，增大爬虫的成本的同时也不会影响网站本身的请求压力。

Description

一种基于智能流量导向切换的数据反爬取方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于智能流量导向切换的数据反爬取方法及装置。

背景技术

网络爬虫是一种自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。但是当网络爬虫被滥用后，互联网上就出现太多的东西，原创得不到保护。于是，很多网站开始反网络爬虫，想方设法保护自己的内容，他们根据ip访问频率，浏览网页速度，账户登录，输入验证码，flash封装，ajax混淆，js加密，图片，css混淆等五花八门的技术。

现有的反爬技术发以下几大类：

1)user-agent,数据请求头，最初级的反爬，只要在请求中模拟请求头即可轻松绕过，使得数据容易被爬取；

2)验证码反爬，验证码反爬是最常用的反爬虫措施，但简单验证码通过机器学习自动识别，通常正确率能达到50％以上甚至更高。复杂验证码通过提交到专门的打码平台进行人工打码，依据验证码的复杂度，打码工人平均每码收1-2分钱，成本比较低，但同样容易被绕过，使得数据容易被爬取；

3)封IP，封IP是最有效也最容易误杀的方案，该策略建立在IP稀有的前提下，目前通过代理池购买ADSL，或者拨号VPS等方式，可以低成本获取数十万的IP池，导致单纯的封IP策略效果越来越差；

4)滑块验证，滑块验证结合了机器学习技术，只需要滑动滑块，而不用看那些复杂到有时人眼也无法分辨的字母，但由于部分厂商实现时校验算法较为简单，导致经常只需要相对简单的模拟滑动操作就能绕过，从而使得数据被恶意爬取。类似案例：淘宝，阿里云，淘宝联盟；

5)关联请求上下文，反爬虫可以通过Token或者网络请求上下文是否进行了完整流程的方式来判断是否真人访问。但对具有协议分析能力的技术人员来说进行全量模拟并没有太大困难，数据依然容易被恶意爬取。类似案例如：知乎、百度登录过程；

6)javascript参与运算，简单的爬虫无法进行js运算，如果部分中间结果需要js引擎对js进行解析和运算，那么就可以让攻击者无法简单进行爬取。但爬虫开发者依然可以通过自带js引擎模块或直接使用phantomjs，chrome等无端浏览器进行自动化解析，实现恶意爬取数据。

因此目前技术领域的反爬虫大部分只能防止初级爬虫，专业爬虫工作者很轻易绕过这些手段爬取网站中的核心数据，而太过复杂的反爬手段不仅使得网站运营成本大大增加，同时会对正常用户造成不好的用户体验。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种基于智能流量导向切换的数据反爬取方法及装置，旨在解决现有技术中反爬虫技术大部分只能防止初级爬虫，核心数据容易被爬取的问题。

本发明的技术方案如下：

一种基于智能流量导向切换的数据反爬取方法，所述方法包括：

获取网站核心数据，根据算法生成与核心数据类似的虚假数据，将虚假数据存储至预先构建的虚假数据服务器对应的数据库中；

检测到访问请求，根据访问请求的请求信息识别出爬虫程序；

将爬虫程序对应的请求导入到虚假数据服务器，返回虚假数据服务器对应的数据库中的虚假数据。

可选地，所述获取网站核心数据，根据算法生成与核心数据类似的虚假数据，将虚假数据存储至预先构建的虚假数据服务器对应的数据库中前，包括：

预先构建一个虚假数据服务器，所述虚假数据服务器用于存储与核心数据对应的虚假数据。

可选地，所述核心数据为数值型核心数据时，

所述获取网站核心数据，根据算法生成与核心数据类似的虚假数据，将虚假数据存储至预先构建的虚假数据服务器对应的数据库中，包括：

获取网站的数值型核心数据，使用随机算法或偏移算法对数值型核心数据进行处理，生成与数值型核心数据对应的数值型虚假数据；

将数值型虚假数据存储至预先构建的虚假数据服务器对应的数据库中。

可选地，所述核心数据为文本型核心数据时，

获取网站的文本型核心数据，通过采取内容调换的方式生成与文本型核心数据对应的文本型虚假数据；

将文本型虚假数据存储至预先构建的虚假数据服务器对应的数据库中。

可选地，所述核心数据为文本型核心数据时，

获取网站的文本型核心数据，通过对文本型核心数据的机器学习，依次进行训练文本型核心数据、特征抽取、训练模型、分类预测及生成虚假数据处理后，生成与文本型核心数据对应的文本型虚假数据；

可选地，所述检测到访问请求，根据访问请求的请求信息识别出爬虫程序，包括：

检测到访问请求后，获取访问请求的频率、IP、UA信息；

根据访问请求的频率、IP、UA信息对正常用户和爬虫程序进行筛选，获取爬虫程序及正常用户。

可选地，所述将爬虫程序对应的请求导入到虚假数据服务器，返回虚假数据服务器对应的数据库中的虚假数据，还包括：

将识别出的正常用户对应的请求导入到核心数据服务器，所述核心数据服务器用于存储网站核心数据；

将核心数据服务器对应数据库的核心数据返回给正常用户。

本发明的另一实施例提供了一种基于智能流量导向切换的数据反爬取装置，所述装置包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的基于智能流量导向切换的数据反爬取方法。

本发明的另一实施例还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行上述的基于智能流量导向切换的数据反爬取方法。

本发明的另一种实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被处理器执行时，使所述处理器执行上述的基于智能流量导向切换的数据反爬取方法。

有益效果：本发明公开了一种基于智能流量导向切换的数据反爬取方法及装置，相比于现有技术，本发明实施例相比传统的反爬手段，不是将爬虫程序扼杀在访问请求中，而将所有的爬虫请求引导到需要的服务端，返回错误的数据，增大爬虫的成本的同时也不会影响网站本身的请求压力。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明一种基于智能流量导向切换的数据反爬取方法较佳实施例的流程图；

图2为本发明一种基于智能流量导向切换的数据反爬取装置的较佳实施例的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。以下结合附图对本发明实施例进行介绍。

本发明实施例提供了一种基于智能流量导向切换的数据反爬取方法。请参阅图1，图1为本发明一种基于智能流量导向切换的数据反爬取方法较佳实施例的流程图。如图1所示，其包括步骤：

步骤S100、获取网站核心数据，根据算法生成与核心数据类似的虚假数据，将虚假数据存储至预先构建的虚假数据服务器对应的数据库中；

步骤S200、检测到访问请求，根据访问请求的请求信息识别出爬虫程序；

步骤S300、将爬虫程序对应的请求导入到虚假数据服务器，返回虚假数据服务器对应的数据库中的虚假数据。

具体实施时，根据网站本身的核心数据加以不同的算法，生成类似错乱的虚假数据，相似度要高，避免被爬虫逻辑检验出来；对网站的所有请求进行分析判断；通过常规的反爬分析，区分开爬虫和正常用户；将识别出的爬虫请求导入到对应的服务器；并搭配好域名、并发等相关配置；不封禁爬虫，并返回错误的数据给爬虫程序；常规的反爬分析是通过访问请求的频率，IP，UA等访问信息筛选出正常用户和爬虫程序；UA英文全称为UserAgent，中文意为网页请求中的用户代理。除网站原有数据外，本发明实施例另外再建造一个服务器用于存放虚假数据；将识别出的爬虫程序导入到虚假数据的服务器中。本发明实施例为网站带来点击率和流量的同时，大大减小服务器的压力，也避免了和爬虫之间的纠缠，减少网站的运营成本和人工成本。

在进一步地实施例中，获取网站核心数据，根据算法生成与核心数据类似的虚假数据，将虚假数据存储至预先构建的虚假数据服务器对应的数据库中前，包括：

具体实施时，花费一定的运营成本构建虚假数据服务器，域名等；而网站核心数据存储在核心数据服务器中。重构虚假数据，需要和真实数据有一定的相似度，从而让爬虫程序无法根据数据判断出真假。

进一步地，核心数据包括如POI信息中的经纬度，个人信息中的姓名，电话号码等，核心数据包括数值型核心数据和文本型核心数据。POI英文全称为Point of Interest，意为在地理信息系统中，一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。当核心数据为数值型核心数据时，

具体实施时，数字型的数据往往偏差一点即可造成严重的错误，并且不容易被爬虫程序识破，所以可以使用随机算法或者偏移算法，大多数程序语言中都有些模块(如python中的random模块等)，在使用随机算法的同时需要注意数据的实际情况，例如手机号码类数据的改动，最适合在后8位数字进行随机改动，前三位的改动极有可能产生以534，768等开头的手机号，这是目前我国尚不存在的手机号码格式，从而容易被爬虫程序识别。而处理经纬度数据，如果使用偏移算法，例如对经度偏差0.01，距离偏差就达1000米以上，这样就可以获得与真实数据相似度极高的虚假数据。

在一些其他的实施例中，核心数据为文本型核心数据时，

具体实施时，文本型核心数据具有更强的识别性，例如姓名，地址等数据，所以不适应随机算法和偏差算法，并且此类数据往往不具备单个价值，需要加上别的数据一起才是一条完整数据，如姓名往往还需要搭配上性别、年龄、电话、地址等才能组成一条有价值的数据，所以可以采取调换的方法，如将真实数据库中的第一条和第二条数据的姓名对调，第二条和第三条数据的地址对调等，可以形成与真实数据相似度极高的虚假数据。

进一步地，核心数据为文本型核心数据时，

具体实施时，文本型核心数据可以通过文本数据的机器学习，通过训练文本数据、特征抽取、训练真实模型、分类预测、生成虚假数据的方式生成海量的与真实数据同特征的虚假文本数据。

进一步地，检测到访问请求，根据访问请求的请求信息识别出爬虫程序，包括：

检测到访问请求后，获取访问请求的频率、IP、UA信息；

具体实施时，UA是user_agent的缩写，IP是指互联网协议地址(英语：InternetProtocol Address，又译为网际协议地址)，简称IP地址。对网站的请求通过以下的一些常规的反爬分析，区分开爬虫和正常用户；

如果是判断请求头user_agent，如果user_agent为空，可以直接进行封禁；限制请求/提交次数，比如每分钟最多请求60次，3分钟最多请求100次，如果超过这种阶梯式的设置次数就进行封禁，凡是这种封禁最好是可解除的，称为临时封禁，还有一种永久封禁，就是达到这个峰值的时候直接跳转到验证码页面；

保存各大搜索引擎的爬虫程序IP(这个可以查询到的)，保存下来放行；

判断UA，因为请求头里有一些搜索引擎的来源，其中网上有开源的项目包，可以根据user_agent判断系统、浏览器版本型号，但是这个很容易伪造，有些技术达人爬取别人的网站就有使用百度爬虫头的习惯；

页面植入js，如果是浏览器打开就肯定会执行这个js，那么后台拦截这个js的请求，反之则是爬虫；这块的准确率达到了80％以上，甚至90％以上；

另外需要根据网站的访问请求做一个封杀表，按照IP(全匹配)、user_agent(模糊匹配)两种进行判断及处理。

进一步地，将爬虫程序对应的请求导入到虚假数据服务器，返回虚假数据服务器对应的数据库中的虚假数据，还包括：

将核心数据服务器对应数据库的核心数据返回给正常用户。

具体实施时，在通过常规的反爬分析后，若判定当前请求为正常用户的请求，则将其导入到核心数据服务器，从而使正常用户能访问核心数据。

由以上方法实施例可知，本发明提供了一种基于智能流量导向切换的数据反爬取方法，自身网站数据能够得到保护，通过智能流量导向爬虫程序抓到的都是重新伪造后的虚假数据，无法拿到网站本身真实的核心数据；对爬虫程序能起到根治作用，目前市场上发现爬虫程序之后采取的扼杀程序，会让爬虫的制造者警觉，并重新破解后生成新的爬虫程序，属于治标不治本，持久的纠缠下去，不仅增加网站运营成本，还有人工成本也会急剧增加，通过智能切换，让爬虫程序迷失在虚假数据的请求中，减小服务器压力的同时，也不会给网站造成任何损失。

需要说明的是，在上述各个实施例中，上述各步骤之间并不必然存在一定的先后顺序，本领域普通技术人员，根据本发明实施例的描述可以理解，不同实施例中，上述各步骤可以有不同的执行顺序，亦即，可以并行执行，变可以交换执行等等。

本发明另一实施例提供一种基于智能流量导向切换的数据反爬取装置，如图2所示，装置10包括：

一个或多个处理器110以及存储器120，图2中以一个处理器110为例进行介绍，处理器110和存储器120可以通过总线或者其他方式连接，图2中以通过总线连接为例。

处理器110用于完成，装置10的各种控制逻辑，其可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、单片机、ARM(Acorn RISCMachine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。还有，处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核、或任何其它这种配置。

存储器120作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的基于智能流量导向切换的数据反爬取方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元，从而执行装置10的各种功能应用以及数据处理，即实现上述方法实施例中的基于智能流量导向切换的数据反爬取方法。

存储器120可以包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需要的应用程序；存储数据区可存储根据装置10使用所创建的数据等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器120可选包括相对于处理器110远程设置的存储器，这些远程存储器可以通过网络连接至装置10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个单元存储在存储器120中，当被一个或者多个处理器110执行时，执行上述任意方法实施例中的基于智能流量导向切换的数据反爬取方法，例如，执行以上描述的图1中的方法步骤S100至步骤S300。

本发明实施例提供了一种非易失性计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如，执行以上描述的图1中的方法步骤S100至步骤S300。

作为示例，非易失性存储介质能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦ROM(EEPROM)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(RAM)。通过说明丽非限制，RAM可以以诸如同步RAM(SRAM)、动态RAM、(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)以及直接Rambus(兰巴斯)RAM(DRRAM)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。

本发明的另一种实施例提供了一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被处理器执行时，使所述处理器执行上述方法实施例的基于智能流量导向切换的数据反爬取方法。例如，执行以上描述的图1中的方法步骤S100至步骤S300。

以上所描述的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施例的描述，本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存在于计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行各个实施例或者实施例的某些部分的方法。

除了其他之外，诸如"能够'、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解，否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此，这样的条件语言一般地不旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有学生输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。

已经在本文中在本说明书和附图中描述的内容包括能够提供基于智能流量导向切换的数据反爬取方法及装置的示例。当然，不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合，但是可以认识到，所公开的特征的许多另外的组合和置换是可能的。因此，显而易见的是，在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外，或在替代方案中，本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是，本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语，但是它们在通用和描述性意义上被使用并且不用于限制的目的。

Claims

1.一种基于智能流量导向切换的数据反爬取方法,其特征在于,所述方法包括：

将爬虫程序对应的请求导入到虚假数据服务器，返回虚假数据服务器对应的数据库中的虚假数据；

所述获取网站核心数据，根据算法生成与核心数据类似的虚假数据，将虚假数据存储至预先构建的虚假数据服务器对应的数据库中前，包括：

预先构建一个虚假数据服务器，所述虚假数据服务器用于存储与核心数据对应的虚假数据；

所述核心数据为数值型核心数据时，

将数值型虚假数据存储至预先构建的虚假数据服务器对应的数据库中；

所述核心数据为文本型核心数据时，

将文本型虚假数据存储至预先构建的虚假数据服务器对应的数据库中；

或是，

2.根据权利要求1所述的基于智能流量导向切换的数据反爬取方法，其特征在于，所述检测到访问请求，根据访问请求的请求信息识别出爬虫程序，包括：

检测到访问请求后，获取访问请求的频率、IP、UA信息；

3.根据权利要求2所述的基于智能流量导向切换的数据反爬取方法，其特征在于，所述将爬虫程序对应的请求导入到虚假数据服务器，返回虚假数据服务器对应的数据库中的虚假数据，还包括：

将核心数据服务器对应数据库的核心数据返回给正常用户。

4.一种基于智能流量导向切换的数据反爬取装置，其特征在于，所述装置包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-3任一项所述的基于智能流量导向切换的数据反爬取方法。

5.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行权利要求1-3任一项所述的基于智能流量导向切换的数据反爬取方法。