CN107220291B

CN107220291B - 网页数据防抓取的方法及系统

Info

Publication number: CN107220291B
Application number: CN201710274338.XA
Authority: CN
Inventors: 杨吉雄
Original assignee: ZTE ICT Technologies Co Ltd
Current assignee: ZTE ICT Technologies Co Ltd
Priority date: 2017-04-25
Filing date: 2017-04-25
Publication date: 2020-12-25
Anticipated expiration: 2037-04-25
Also published as: CN107220291A

Abstract

本发明提出了一种网页数据防抓取的方法及系统，网页数据防抓取的方法包括：提取网页数据；对网页数据进行混淆处理；将混淆处理后的网页数据转换为背景图片；通过叠层样式表，将背景图片在网页上进行显示。本发明能够实现即使恶意爬虫将网页源码、图片全部采集下来，并用OCR工具识别，也无法得到完整正确的数据，而且每个页面的数据图片随机生成，从而大大增加采集解析的难度，保护了互联网开放网页上关键数据。

Description

网页数据防抓取的方法及系统

技术领域

本发明涉及互联网技术领域，具体而言，涉及一种网页数据防抓取的方法及系统。

背景技术

大数据时代，数据已经成为企业的一项核心竞争力。网页上的一些关键数据，如购物网站上商品价格、交易量、用户联系方式等信息，在方便用户浏览的同时，也成为一些恶意爬虫疯狂抓取的目标。如何防止关键数据不被大规模抓取，不断增加抓取者的采集难度，成为很多商业网站的首要任务。

目前现有的解决技术方案及缺点：

(1)关键数据登陆访问控制，用户体验差；

(2)关键数据动态化，只能预防低级的静态爬虫；

(3)关键数据利用单一图片展现，现有的OCR(Optical Character Recognition，光学字符识别)技术很容易识别图片中的字符。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，本发明的一个目的在于提出了一种网页数据防抓取的方法。

本发明的另一个目的在于提出了一种网页数据防抓取的系统。

有鉴于此，根据本发明的一个目的，提出了一种网页数据防抓取的方法，包括：提取网页数据；对网页数据进行混淆处理；将混淆处理后的网页数据转换为背景图片；通过叠层样式表，将背景图片在网页上进行显示。

本发明提供的网页数据防抓取的方法，提取网页中以字符串形式展现的数字字符、英文字符、中文字符等需要保护的关键数据，打乱顺序并加入混淆字符后，生成针对该网页的背景图片，以此图作为显示背景，通过CSS(Cascading Style Sheets，层叠样式表)样式控制背景图片的显示，即使恶意爬虫将网页源码、图片全部采集下来，并用OCR工具识别，也无法得到完整正确的数据，而且每个页面的数据图片随机生成，从而大大增加采集解析的难度，保护了互联网开放网页上关键数据。

根据本发明的上述网页数据防抓取的方法，还可以具有以下技术特征：

在上述技术方案中，优选地，对网页数据进行混淆处理，具体包括：统计网页数据的长度；对网页数据的长度进行对齐处理；对网页数据的字符串随机排序。优选地，还包括：当网页数据的长度不足时，通过插入多余字符补齐网页数据的长度。

在该技术方案中，所有页面关键数据做长度对齐处理，若长度不足通过插入多余字符补齐，补齐后的字符串随机重新排序，经过插入字符、乱序等混淆处理后的字符串生成背景图片，使得恶意爬虫抓取到的网页没有包含关键数据的任何信息，使其无法从网页源码中提取到相关的数据。

在上述任一技术方案中，优选地，对网页数据的字符串随机排序，具体包括：将字符串分割成单个字符，对单个字符进行随机排序及添加字符处理；或将字符串分割成单个字符，将单个字符分割成非识别图形，对非识别图形进行随机排序及添加字符处理。

在该技术方案中，将字符串分割成单个字符，对单个字符进行随机排序及添加字符处理，对网页关键数据进行混淆，或将字符串分割成单个字符，将单个字符分割成非识别图形，对非识别图形进行随机排序及添加字符处理，进一步切分成OCR软件无法识别的图形，加强对网页关键数据的混淆程度，大大增加了恶意爬虫抓取关键数据的难度。

在上述任一技术方案中，优选地，将混淆处理后的网页数据转换为背景图片，具体包括：将混淆处理后的网页数据转换为背景图片，并记录网页数据在背景图片中的位置。

在该技术方案中，将混淆处理后的网页数据转换为背景图片，不同网页数据的字符背景偏移量不一样，对网页数据在背景图片中的位置进行记录，进而根据网页数据在背景图片中的位置在页面上展现完整的数据，不会影响用户对网页的观看效果。

在上述任一技术方案中，优选地，将背景图片在网页上进行显示，具体包括：生成页面源码；根据网页数据在所述背景图片中的位置，将背景图片在网页上进行显示。

在该技术方案中，生成页面源码，根据网页数据在背景图片中的位置，将背景图片在网页上进行显示，使得页面关键数据的显示效果不变，丝毫不影响用户体验。

在上述任一技术方案中，优选地，通过叠层样式表，将背景图片在网页上进行显示之前，还包括：创建叠层样式表。

在该技术方案中，创建叠层样式表，通过此层叠样式表控制背景图片的显示。

根据本发明的另一个目的，提出了一种网页数据防抓取的系统，包括：数据提取单元，用于提取网页数据；数据处理单元，用于对网页数据进行混淆处理；转换单元，用于将混淆处理后的网页数据转换为背景图片；显示单元，用于通过叠层样式表，将背景图片在网页上进行显示。

本发明提供的网页数据防抓取的系统，数据提取单元提取网页中以字符串形式展现的数字字符、英文字符、中文字符等需要保护的关键数据，数据处理单元打乱顺序并加入混淆字符后，通过转换单元生成针对该网页的背景图片，以此图作为显示背景，显示单元通过CSS样式控制背景图片的显示，即使恶意爬虫将网页源码、图片全部采集下来，并用OCR工具识别，也无法得到完整正确的数据，而且每个页面的数据图片随机生成，从而大大增加采集解析的难度，保护了互联网开放网页上关键数据。

根据本发明的上述网页数据防抓取的系统，还可以具有以下技术特征：

在上述技术方案中，优选地，数据处理单元，用于：统计网页数据的长度；对所述网页数据的长度进行对齐处理；对网页数据的字符串随机排序。优选地，数据处理单元，还用于：当网页数据的长度不足时，通过插入多余字符补齐网页数据的长度。

在该技术方案中，通过数据处理单元对所有页面关键数据做长度对齐处理，若长度不足通过插入多余字符补齐，补齐后的字符串随机重新排序，经过插入字符、乱序等混淆处理后的字符串生成背景图片，使得恶意爬虫抓取到的网页没有包含关键数据的任何信息，使其无法从网页源码中提取到相关的数据。

在上述任一技术方案中，优选地，数据处理单元，还用于：将字符串分割成单个字符，对单个字符进行随机排序及添加字符处理；或将字符串分割成单个字符，将单个字符分割成非识别图形，对非识别图形进行随机排序及添加字符处理。

在该技术方案中，数据处理单元将字符串分割成单个字符，对单个字符进行随机排序及添加字符处理，对网页关键数据进行混淆，或将字符串分割成单个字符，将单个字符分割成非识别图形，对非识别图形进行随机排序及添加字符处理，进一步切分成OCR软件无法识别的图形，加强对网页关键数据的混淆程度，大大增加了恶意爬虫抓取关键数据的难度。

在上述任一技术方案中，优选地，转换单元，具体用于：将混淆处理后的网页数据转换为所述背景图片，并记录网页数据在背景图片中的位置。

在该技术方案中，转换单元将混淆处理后的网页数据转换为背景图片，不同网页数据的字符背景偏移量不一样，对网页数据在背景图片中的位置进行记录，进而根据网页数据在背景图片中的位置在页面上展现完整的数据，不会影响用户对网页的观看效果。

在上述任一技术方案中，优选地，显示单元，具体用于：生成页面源码；根据网页数据在背景图片中的位置，将背景图片在网页上进行显示。

在该技术方案中，显示单元生成页面源码，根据网页数据在背景图片中的位置，将背景图片在网页上进行显示，使得页面关键数据的显示效果不变，丝毫不影响用户体验。

在上述任一技术方案中，优选地，还包括：创建单元，用于创建叠层样式表。

在该技术方案中，由创建单元创建叠层样式表，通过此层叠样式表控制背景图片的显示。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了本发明的一个实施例的网页数据防抓取的方法的流程示意图；

图2a示出了本发明的另一个实施例的网页数据防抓取的方法的流程示意图；

图2b示出了本发明的再一个实施例的网页数据防抓取的方法的流程示意图；

图3示出了本发明的一个实施例的网页数据防抓取的系统的示意框图；

图4示出了本发明的一个具体实施例的网页显示效果图；

图5示出了本发明的一个具体实施例的关键数据分割混淆效果图；

图6示出了本发明的一个具体实施例的网页数据防抓取的方法的流程示意图；

图7示出了本发明的一个具体实施例的切分字符串示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不限于下面公开的具体实施例的限制。

本发明第一方面的实施例，提出一种网页数据防抓取的方法，图1示出了本发明的一个实施例的网页数据防抓取的方法的流程示意图。其中，该方法包括：

步骤102，提取网页数据；

步骤104，对网页数据进行混淆处理；

步骤106，将混淆处理后的网页数据转换为背景图片；

步骤108，通过叠层样式表，将背景图片在网页上进行显示。

本发明提供的网页数据防抓取的方法，提取网页中以字符串形式展现的数字字符、英文字符、中文字符等需要保护的关键数据，打乱顺序并加入混淆字符后，生成针对该网页的背景图片，以此图作为显示背景，通过CSS样式控制背景图片的显示，即使恶意爬虫将网页源码、图片全部采集下来，并用OCR工具识别，也无法得到完整正确的数据，而且每个页面的数据图片随机生成，从而大大增加采集解析的难度，保护了互联网开放网页上关键数据。

图2a示出了本发明的另一个实施例的网页数据防抓取的方法的流程示意图。其中，该方法包括：

步骤202，提取网页数据；

步骤204，统计网页数据的长度；

步骤206，对网页数据的长度进行对齐处理，当网页数据的长度不足时，通过插入多余字符补齐网页数据的长度；

步骤208，对网页数据的字符串随机排序；

步骤210，将混淆处理后的网页数据转换为背景图片；

步骤212，通过叠层样式表，将背景图片在网页上进行显示。

在该实施例中，所有页面关键数据做长度对齐处理，若长度不足通过插入多余字符补齐，补齐后的字符串随机重新排序，经过插入字符、乱序等混淆处理后的字符串生成背景图片，使得恶意爬虫抓取到的网页没有包含关键数据的任何信息，使其无法从网页源码中提取到相关的数据。

在本发明的一个实施例中，优选地，对网页数据的字符串随机排序，具体包括：将字符串分割成单个字符，对单个字符进行随机排序及添加字符处理；或将字符串分割成单个字符，将单个字符分割成非识别图形，对非识别图形进行随机排序及添加字符处理。

在该实施例中，将字符串分割成单个字符，对单个字符进行随机排序及添加字符处理，对网页关键数据进行混淆，或将字符串分割成单个字符，将单个字符分割成非识别图形，对非识别图形进行随机排序及添加字符处理，进一步切分成OCR软件无法识别的图形，加强对网页关键数据的混淆程度，大大增加了恶意爬虫抓取关键数据的难度。

在本发明的一个实施例中，优选地，将混淆处理后的网页数据转换为背景图片，具体包括：将混淆处理后的网页数据转换为背景图片，并记录网页数据在背景图片中的位置。

在该实施例中，将混淆处理后的网页数据转换为背景图片，不同网页数据的字符背景偏移量不一样，对网页数据在背景图片中的位置进行记录，进而根据网页数据在背景图片中的位置在页面上展现完整的数据，不会影响用户对网页的观看效果。

图2b示出了本发明的再一个实施例的网页数据防抓取的方法的流程示意图。其中，该方法包括：

步骤202，提取网页数据；

步骤204，统计网页数据的长度；

步骤208，对网页数据的字符串随机排序；

步骤210，将混淆处理后的网页数据转换为背景图片；

步骤214，创建叠层样式表；

步骤216，生成页面源码；

步骤218，根据网页数据在背景图片中的位置，将背景图片在网页上进行显示。

在该实施例中，创建叠层样式表，生成页面源码，根据网页数据在背景图片中的位置，将背景图片在网页上进行显示，使得页面关键数据的显示效果不变，丝毫不影响用户体验。

本发明第二方面的实施例，提出一种网页数据防抓取的系统300，图3示出了本发明的一个实施例的网页数据防抓取的系统300的示意框图。其中，该系统包括：

数据提取单元302，用于提取网页数据；

数据处理单元304，用于对网页数据进行混淆处理；

转换单元306，用于将混淆处理后的网页数据转换为背景图片；

显示单元308，用于通过叠层样式表，将背景图片在网页上进行显示。

本发明提供的网页数据防抓取的系统300，数据提取单元302提取网页中以字符串形式展现的数字字符、英文字符、中文字符等需要保护的关键数据，数据处理单元304打乱顺序并加入混淆字符后，通过转换单元306生成针对该网页的背景图片，以此图作为显示背景，显示单元308通过CSS样式控制背景图片的显示，即使恶意爬虫将网页源码、图片全部采集下来，并用OCR工具识别，也无法得到完整正确的数据，而且每个页面的数据图片随机生成，从而大大增加采集解析的难度，保护了互联网开放网页上关键数据。

在本发明的一个实施例中，优选地，数据处理单元304，用于：统计网页数据的长度；对所述网页数据的长度进行对齐处理；对网页数据的字符串随机排序。优选地，数据处理单元304，还用于：当网页数据的长度不足时，通过插入多余字符补齐网页数据的长度。

在该实施例中，通过数据处理单元304对所有页面关键数据做长度对齐处理，若长度不足通过插入多余字符补齐，补齐后的字符串随机重新排序，经过插入字符、乱序等混淆处理后的字符串生成背景图片，使得恶意爬虫抓取到的网页没有包含关键数据的任何信息，使其无法从网页源码中提取到相关的数据。

在本发明的一个实施例中，优选地，数据处理单元304，还用于：将字符串分割成单个字符，对单个字符进行随机排序及添加字符处理；或将字符串分割成单个字符，将单个字符分割成非识别图形，对非识别图形进行随机排序及添加字符处理。

在该实施例中，数据处理单元304将字符串分割成单个字符，对单个字符进行随机排序及添加字符处理，对网页关键数据进行混淆，或将字符串分割成单个字符，将单个字符分割成非识别图形，对非识别图形进行随机排序及添加字符处理，进一步切分成OCR软件无法识别的图形，加强对网页关键数据的混淆程度，大大增加了恶意爬虫抓取关键数据的难度。

在本发明的一个实施例中，优选地，转换单元306，具体用于：将混淆处理后的网页数据转换为所述背景图片，并记录网页数据在背景图片中的位置。

在该实施例中，转换单元306将混淆处理后的网页数据转换为背景图片，不同网页数据的字符背景偏移量不一样，对网页数据在背景图片中的位置进行记录，进而根据网页数据在背景图片中的位置在页面上展现完整的数据，不会影响用户对网页的观看效果。

在本发明的一个实施例中，优选地，显示单元308，具体用于：生成页面源码；根据网页数据在背景图片中的位置，将背景图片在网页上进行显示。

在该实施例中，显示单元308生成页面源码，根据网页数据在背景图片中的位置，将背景图片在网页上进行显示，使得页面关键数据的显示效果不变，丝毫不影响用户体验。

在本发明的一个实施例中，优选地，还包括：创建单元310，用于创建叠层样式表。

在该实施例中，由创建单元310创建叠层样式表，通过此层叠样式表控制背景图片的显示。

在本发明的一个具体实施例中，提取如图4所示的网页显示中以字符串形式展现的数字字符、英文字符、中文字符等需要保护的关键数据，打乱顺序并加入混淆字符后，生成如图5所示的针对该网页的背景图，并记录字符在图片中的相对位置；以此图作为显示背景，通过CSS样式控制背景图片的显示，不同的字符背景偏移量根据生成图片时记录的位置进行设置，从而在页面上展现完整的数据。这样即使恶意爬虫将网页源码、图片全部采集下来，并用OCR工具识别，也无法得到完整正确的数据，而且每个页面的数据图片随机生成，从而大大增加采集解析的难度。图6示出了本发明的一个具体实施例的网页数据防抓取的方法的流程示意图：

步骤602，提取网页上需要保护的关键数据，混淆后将字符转为图片，具体包括：

(1)提取网页中所有需要保护的关键数据；

(2)所有页面关键数据做长度对齐处理；

(3)长度不足，通过了插入多余字符补齐；

(4)补齐后的字符串随机重新排序；

(5)经过插入字符、乱序等混淆处理后的字符串生成图片；

(6)记录字符在图片中的相对位置。

步骤604，设置页面显示价格的样式。

步骤606，获取字符在图片中的相对位置，生成页面源码，通过设置背景图相对位置的方式控制数据在页面的展现。

在本发明的另一个具体实施例中，在将字符串图形化的环节中，是将字符串分割成一个个完整的可识别字符，然后乱序、添加多余字符，再生成图片。还可在此基础上将单个字符进一步切分成OCR软件无法识别的图形，如下图7所示，因目前的OCR技术只能识别字母、数字或汉字等完整的字符，对单字符进一步切分后的图像则无法识别出对应的字符，从而进一步大大增加了爬虫解析数据的难度。

利用本发明的网页数据防抓取的方法获得后的网页，页面关键数据的显示效果不变，丝毫不影响用户体验。但是对恶意爬虫来说，抓取到的网页没有包含关键数据的任何信息，无法从网页源码中提取到相关的数据；即使进一步抓取图片，并利用OCR工具进行识别，得到的也是一堆乱序的字符，从而大大增加了恶意爬虫抓取关键数据的难度。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网页数据防抓取的方法，其特征在于，包括：

提取网页数据；

对所述网页数据进行混淆处理；

将混淆处理后的所述网页数据转换为背景图片；

通过叠层样式表，将所述背景图片在网页上进行显示；

所述对所述网页数据进行混淆处理，具体包括：

统计所述网页数据的长度；

对所述网页数据的长度进行对齐处理；

对所述网页数据的字符串随机排序；

当所述网页数据的长度不足时，通过插入多余字符补齐所述网页数据的长度；

对所述网页数据的字符串随机排序，具体包括：

将所述字符串分割成单个字符，对所述单个字符进行随机排序及添加字符处理；或

将所述字符串分割成所述单个字符，将所述单个字符分割成非识别图形，对所述非识别图形进行随机排序及添加字符处理。

2.根据权利要求1所述的网页数据防抓取的方法，其特征在于，所述将混淆处理后的所述网页数据转换为所述背景图片，具体包括：

将混淆处理后的所述网页数据转换为所述背景图片，并记录所述网页数据在所述背景图片中的位置。

3.根据权利要求1或2所述的网页数据防抓取的方法，其特征在于，所述将所述背景图片在所述网页上进行显示，具体包括：

生成页面源码；

根据所述网页数据在所述背景图片中的位置，将所述背景图片在所述网页上进行显示。

4.根据权利要求1或2所述的网页数据防抓取的方法，其特征在于，所述通过所述叠层样式表，将所述背景图片在所述网页上进行显示之前，还包括：

创建所述叠层样式表。

5.一种网页数据防抓取的系统，其特征在于，包括：

数据提取单元，用于提取网页数据；

数据处理单元，用于对所述网页数据进行混淆处理；

转换单元，用于将混淆处理后的所述网页数据转换为背景图片；

显示单元，用于通过叠层样式表，将所述背景图片在网页上进行显示；

所述数据处理单元，用于：

统计所述网页数据的长度；

对所述网页数据的长度进行对齐处理；

对所述网页数据的字符串随机排序；

所述数据处理单元，还用于：

当所述网页数据的长度不足时，通过插入多余字符补齐所述网页数据的长度。

6.根据权利要求5所述的网页数据防抓取的系统，其特征在于，所述数据处理单元，还用于：

7.根据权利要求5所述的网页数据防抓取的系统，其特征在于，所述转换单元，具体用于：

8.根据权利要求5至7中任一项所述的网页数据防抓取的系统，其特征在于，所述显示单元，具体用于：

生成页面源码；

9.根据权利要求5至7中任一项所述的网页数据防抓取的系统，其特征在于，还包括：创建单元，用于创建所述叠层样式表。