CN107220291B - 网页数据防抓取的方法及系统 - Google Patents

网页数据防抓取的方法及系统 Download PDF

Info

Publication number
CN107220291B
CN107220291B CN201710274338.XA CN201710274338A CN107220291B CN 107220291 B CN107220291 B CN 107220291B CN 201710274338 A CN201710274338 A CN 201710274338A CN 107220291 B CN107220291 B CN 107220291B
Authority
CN
China
Prior art keywords
data
webpage
background picture
webpage data
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710274338.XA
Other languages
English (en)
Other versions
CN107220291A (zh
Inventor
杨吉雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE ICT Technologies Co Ltd
Original Assignee
ZTE ICT Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE ICT Technologies Co Ltd filed Critical ZTE ICT Technologies Co Ltd
Priority to CN201710274338.XA priority Critical patent/CN107220291B/zh
Publication of CN107220291A publication Critical patent/CN107220291A/zh
Application granted granted Critical
Publication of CN107220291B publication Critical patent/CN107220291B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提出了一种网页数据防抓取的方法及系统,网页数据防抓取的方法包括:提取网页数据;对网页数据进行混淆处理;将混淆处理后的网页数据转换为背景图片;通过叠层样式表,将背景图片在网页上进行显示。本发明能够实现即使恶意爬虫将网页源码、图片全部采集下来,并用OCR工具识别,也无法得到完整正确的数据,而且每个页面的数据图片随机生成,从而大大增加采集解析的难度,保护了互联网开放网页上关键数据。

Description

网页数据防抓取的方法及系统
技术领域
本发明涉及互联网技术领域,具体而言,涉及一种网页数据防抓取的方法及系统。
背景技术
大数据时代,数据已经成为企业的一项核心竞争力。网页上的一些关键数据,如购物网站上商品价格、交易量、用户联系方式等信息,在方便用户浏览的同时,也成为一些恶意爬虫疯狂抓取的目标。如何防止关键数据不被大规模抓取,不断增加抓取者的采集难度,成为很多商业网站的首要任务。
目前现有的解决技术方案及缺点:
(1)关键数据登陆访问控制,用户体验差;
(2)关键数据动态化,只能预防低级的静态爬虫;
(3)关键数据利用单一图片展现,现有的OCR(Optical Character Recognition,光学字符识别)技术很容易识别图片中的字符。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的一个目的在于提出了一种网页数据防抓取的方法。
本发明的另一个目的在于提出了一种网页数据防抓取的系统。
有鉴于此,根据本发明的一个目的,提出了一种网页数据防抓取的方法,包括:提取网页数据;对网页数据进行混淆处理;将混淆处理后的网页数据转换为背景图片;通过叠层样式表,将背景图片在网页上进行显示。
本发明提供的网页数据防抓取的方法,提取网页中以字符串形式展现的数字字符、英文字符、中文字符等需要保护的关键数据,打乱顺序并加入混淆字符后,生成针对该网页的背景图片,以此图作为显示背景,通过CSS(Cascading Style Sheets,层叠样式表)样式控制背景图片的显示,即使恶意爬虫将网页源码、图片全部采集下来,并用OCR工具识别,也无法得到完整正确的数据,而且每个页面的数据图片随机生成,从而大大增加采集解析的难度,保护了互联网开放网页上关键数据。
根据本发明的上述网页数据防抓取的方法,还可以具有以下技术特征:
在上述技术方案中,优选地,对网页数据进行混淆处理,具体包括:统计网页数据的长度;对网页数据的长度进行对齐处理;对网页数据的字符串随机排序。优选地,还包括:当网页数据的长度不足时,通过插入多余字符补齐网页数据的长度。
在该技术方案中,所有页面关键数据做长度对齐处理,若长度不足通过插入多余字符补齐,补齐后的字符串随机重新排序,经过插入字符、乱序等混淆处理后的字符串生成背景图片,使得恶意爬虫抓取到的网页没有包含关键数据的任何信息,使其无法从网页源码中提取到相关的数据。
在上述任一技术方案中,优选地,对网页数据的字符串随机排序,具体包括:将字符串分割成单个字符,对单个字符进行随机排序及添加字符处理;或将字符串分割成单个字符,将单个字符分割成非识别图形,对非识别图形进行随机排序及添加字符处理。
在该技术方案中,将字符串分割成单个字符,对单个字符进行随机排序及添加字符处理,对网页关键数据进行混淆,或将字符串分割成单个字符,将单个字符分割成非识别图形,对非识别图形进行随机排序及添加字符处理,进一步切分成OCR软件无法识别的图形,加强对网页关键数据的混淆程度,大大增加了恶意爬虫抓取关键数据的难度。
在上述任一技术方案中,优选地,将混淆处理后的网页数据转换为背景图片,具体包括:将混淆处理后的网页数据转换为背景图片,并记录网页数据在背景图片中的位置。
在该技术方案中,将混淆处理后的网页数据转换为背景图片,不同网页数据的字符背景偏移量不一样,对网页数据在背景图片中的位置进行记录,进而根据网页数据在背景图片中的位置在页面上展现完整的数据,不会影响用户对网页的观看效果。
在上述任一技术方案中,优选地,将背景图片在网页上进行显示,具体包括:生成页面源码;根据网页数据在所述背景图片中的位置,将背景图片在网页上进行显示。
在该技术方案中,生成页面源码,根据网页数据在背景图片中的位置,将背景图片在网页上进行显示,使得页面关键数据的显示效果不变,丝毫不影响用户体验。
在上述任一技术方案中,优选地,通过叠层样式表,将背景图片在网页上进行显示之前,还包括:创建叠层样式表。
在该技术方案中,创建叠层样式表,通过此层叠样式表控制背景图片的显示。
根据本发明的另一个目的,提出了一种网页数据防抓取的系统,包括:数据提取单元,用于提取网页数据;数据处理单元,用于对网页数据进行混淆处理;转换单元,用于将混淆处理后的网页数据转换为背景图片;显示单元,用于通过叠层样式表,将背景图片在网页上进行显示。
本发明提供的网页数据防抓取的系统,数据提取单元提取网页中以字符串形式展现的数字字符、英文字符、中文字符等需要保护的关键数据,数据处理单元打乱顺序并加入混淆字符后,通过转换单元生成针对该网页的背景图片,以此图作为显示背景,显示单元通过CSS样式控制背景图片的显示,即使恶意爬虫将网页源码、图片全部采集下来,并用OCR工具识别,也无法得到完整正确的数据,而且每个页面的数据图片随机生成,从而大大增加采集解析的难度,保护了互联网开放网页上关键数据。
根据本发明的上述网页数据防抓取的系统,还可以具有以下技术特征:
在上述技术方案中,优选地,数据处理单元,用于:统计网页数据的长度;对所述网页数据的长度进行对齐处理;对网页数据的字符串随机排序。优选地,数据处理单元,还用于:当网页数据的长度不足时,通过插入多余字符补齐网页数据的长度。
在该技术方案中,通过数据处理单元对所有页面关键数据做长度对齐处理,若长度不足通过插入多余字符补齐,补齐后的字符串随机重新排序,经过插入字符、乱序等混淆处理后的字符串生成背景图片,使得恶意爬虫抓取到的网页没有包含关键数据的任何信息,使其无法从网页源码中提取到相关的数据。
在上述任一技术方案中,优选地,数据处理单元,还用于:将字符串分割成单个字符,对单个字符进行随机排序及添加字符处理;或将字符串分割成单个字符,将单个字符分割成非识别图形,对非识别图形进行随机排序及添加字符处理。
在该技术方案中,数据处理单元将字符串分割成单个字符,对单个字符进行随机排序及添加字符处理,对网页关键数据进行混淆,或将字符串分割成单个字符,将单个字符分割成非识别图形,对非识别图形进行随机排序及添加字符处理,进一步切分成OCR软件无法识别的图形,加强对网页关键数据的混淆程度,大大增加了恶意爬虫抓取关键数据的难度。
在上述任一技术方案中,优选地,转换单元,具体用于:将混淆处理后的网页数据转换为所述背景图片,并记录网页数据在背景图片中的位置。
在该技术方案中,转换单元将混淆处理后的网页数据转换为背景图片,不同网页数据的字符背景偏移量不一样,对网页数据在背景图片中的位置进行记录,进而根据网页数据在背景图片中的位置在页面上展现完整的数据,不会影响用户对网页的观看效果。
在上述任一技术方案中,优选地,显示单元,具体用于:生成页面源码;根据网页数据在背景图片中的位置,将背景图片在网页上进行显示。
在该技术方案中,显示单元生成页面源码,根据网页数据在背景图片中的位置,将背景图片在网页上进行显示,使得页面关键数据的显示效果不变,丝毫不影响用户体验。
在上述任一技术方案中,优选地,还包括:创建单元,用于创建叠层样式表。
在该技术方案中,由创建单元创建叠层样式表,通过此层叠样式表控制背景图片的显示。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本发明的一个实施例的网页数据防抓取的方法的流程示意图;
图2a示出了本发明的另一个实施例的网页数据防抓取的方法的流程示意图;
图2b示出了本发明的再一个实施例的网页数据防抓取的方法的流程示意图;
图3示出了本发明的一个实施例的网页数据防抓取的系统的示意框图;
图4示出了本发明的一个具体实施例的网页显示效果图;
图5示出了本发明的一个具体实施例的关键数据分割混淆效果图;
图6示出了本发明的一个具体实施例的网页数据防抓取的方法的流程示意图;
图7示出了本发明的一个具体实施例的切分字符串示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不限于下面公开的具体实施例的限制。
本发明第一方面的实施例,提出一种网页数据防抓取的方法,图1示出了本发明的一个实施例的网页数据防抓取的方法的流程示意图。其中,该方法包括:
步骤102,提取网页数据;
步骤104,对网页数据进行混淆处理;
步骤106,将混淆处理后的网页数据转换为背景图片;
步骤108,通过叠层样式表,将背景图片在网页上进行显示。
本发明提供的网页数据防抓取的方法,提取网页中以字符串形式展现的数字字符、英文字符、中文字符等需要保护的关键数据,打乱顺序并加入混淆字符后,生成针对该网页的背景图片,以此图作为显示背景,通过CSS样式控制背景图片的显示,即使恶意爬虫将网页源码、图片全部采集下来,并用OCR工具识别,也无法得到完整正确的数据,而且每个页面的数据图片随机生成,从而大大增加采集解析的难度,保护了互联网开放网页上关键数据。
图2a示出了本发明的另一个实施例的网页数据防抓取的方法的流程示意图。其中,该方法包括:
步骤202,提取网页数据;
步骤204,统计网页数据的长度;
步骤206,对网页数据的长度进行对齐处理,当网页数据的长度不足时,通过插入多余字符补齐网页数据的长度;
步骤208,对网页数据的字符串随机排序;
步骤210,将混淆处理后的网页数据转换为背景图片;
步骤212,通过叠层样式表,将背景图片在网页上进行显示。
在该实施例中,所有页面关键数据做长度对齐处理,若长度不足通过插入多余字符补齐,补齐后的字符串随机重新排序,经过插入字符、乱序等混淆处理后的字符串生成背景图片,使得恶意爬虫抓取到的网页没有包含关键数据的任何信息,使其无法从网页源码中提取到相关的数据。
在本发明的一个实施例中,优选地,对网页数据的字符串随机排序,具体包括:将字符串分割成单个字符,对单个字符进行随机排序及添加字符处理;或将字符串分割成单个字符,将单个字符分割成非识别图形,对非识别图形进行随机排序及添加字符处理。
在该实施例中,将字符串分割成单个字符,对单个字符进行随机排序及添加字符处理,对网页关键数据进行混淆,或将字符串分割成单个字符,将单个字符分割成非识别图形,对非识别图形进行随机排序及添加字符处理,进一步切分成OCR软件无法识别的图形,加强对网页关键数据的混淆程度,大大增加了恶意爬虫抓取关键数据的难度。
在本发明的一个实施例中,优选地,将混淆处理后的网页数据转换为背景图片,具体包括:将混淆处理后的网页数据转换为背景图片,并记录网页数据在背景图片中的位置。
在该实施例中,将混淆处理后的网页数据转换为背景图片,不同网页数据的字符背景偏移量不一样,对网页数据在背景图片中的位置进行记录,进而根据网页数据在背景图片中的位置在页面上展现完整的数据,不会影响用户对网页的观看效果。
图2b示出了本发明的再一个实施例的网页数据防抓取的方法的流程示意图。其中,该方法包括:
步骤202,提取网页数据;
步骤204,统计网页数据的长度;
步骤206,对网页数据的长度进行对齐处理,当网页数据的长度不足时,通过插入多余字符补齐网页数据的长度;
步骤208,对网页数据的字符串随机排序;
步骤210,将混淆处理后的网页数据转换为背景图片;
步骤214,创建叠层样式表;
步骤216,生成页面源码;
步骤218,根据网页数据在背景图片中的位置,将背景图片在网页上进行显示。
在该实施例中,创建叠层样式表,生成页面源码,根据网页数据在背景图片中的位置,将背景图片在网页上进行显示,使得页面关键数据的显示效果不变,丝毫不影响用户体验。
本发明第二方面的实施例,提出一种网页数据防抓取的系统300,图3示出了本发明的一个实施例的网页数据防抓取的系统300的示意框图。其中,该系统包括:
数据提取单元302,用于提取网页数据;
数据处理单元304,用于对网页数据进行混淆处理;
转换单元306,用于将混淆处理后的网页数据转换为背景图片;
显示单元308,用于通过叠层样式表,将背景图片在网页上进行显示。
本发明提供的网页数据防抓取的系统300,数据提取单元302提取网页中以字符串形式展现的数字字符、英文字符、中文字符等需要保护的关键数据,数据处理单元304打乱顺序并加入混淆字符后,通过转换单元306生成针对该网页的背景图片,以此图作为显示背景,显示单元308通过CSS样式控制背景图片的显示,即使恶意爬虫将网页源码、图片全部采集下来,并用OCR工具识别,也无法得到完整正确的数据,而且每个页面的数据图片随机生成,从而大大增加采集解析的难度,保护了互联网开放网页上关键数据。
在本发明的一个实施例中,优选地,数据处理单元304,用于:统计网页数据的长度;对所述网页数据的长度进行对齐处理;对网页数据的字符串随机排序。优选地,数据处理单元304,还用于:当网页数据的长度不足时,通过插入多余字符补齐网页数据的长度。
在该实施例中,通过数据处理单元304对所有页面关键数据做长度对齐处理,若长度不足通过插入多余字符补齐,补齐后的字符串随机重新排序,经过插入字符、乱序等混淆处理后的字符串生成背景图片,使得恶意爬虫抓取到的网页没有包含关键数据的任何信息,使其无法从网页源码中提取到相关的数据。
在本发明的一个实施例中,优选地,数据处理单元304,还用于:将字符串分割成单个字符,对单个字符进行随机排序及添加字符处理;或将字符串分割成单个字符,将单个字符分割成非识别图形,对非识别图形进行随机排序及添加字符处理。
在该实施例中,数据处理单元304将字符串分割成单个字符,对单个字符进行随机排序及添加字符处理,对网页关键数据进行混淆,或将字符串分割成单个字符,将单个字符分割成非识别图形,对非识别图形进行随机排序及添加字符处理,进一步切分成OCR软件无法识别的图形,加强对网页关键数据的混淆程度,大大增加了恶意爬虫抓取关键数据的难度。
在本发明的一个实施例中,优选地,转换单元306,具体用于:将混淆处理后的网页数据转换为所述背景图片,并记录网页数据在背景图片中的位置。
在该实施例中,转换单元306将混淆处理后的网页数据转换为背景图片,不同网页数据的字符背景偏移量不一样,对网页数据在背景图片中的位置进行记录,进而根据网页数据在背景图片中的位置在页面上展现完整的数据,不会影响用户对网页的观看效果。
在本发明的一个实施例中,优选地,显示单元308,具体用于:生成页面源码;根据网页数据在背景图片中的位置,将背景图片在网页上进行显示。
在该实施例中,显示单元308生成页面源码,根据网页数据在背景图片中的位置,将背景图片在网页上进行显示,使得页面关键数据的显示效果不变,丝毫不影响用户体验。
在本发明的一个实施例中,优选地,还包括:创建单元310,用于创建叠层样式表。
在该实施例中,由创建单元310创建叠层样式表,通过此层叠样式表控制背景图片的显示。
在本发明的一个具体实施例中,提取如图4所示的网页显示中以字符串形式展现的数字字符、英文字符、中文字符等需要保护的关键数据,打乱顺序并加入混淆字符后,生成如图5所示的针对该网页的背景图,并记录字符在图片中的相对位置;以此图作为显示背景,通过CSS样式控制背景图片的显示,不同的字符背景偏移量根据生成图片时记录的位置进行设置,从而在页面上展现完整的数据。这样即使恶意爬虫将网页源码、图片全部采集下来,并用OCR工具识别,也无法得到完整正确的数据,而且每个页面的数据图片随机生成,从而大大增加采集解析的难度。图6示出了本发明的一个具体实施例的网页数据防抓取的方法的流程示意图:
步骤602,提取网页上需要保护的关键数据,混淆后将字符转为图片,具体包括:
(1)提取网页中所有需要保护的关键数据;
(2)所有页面关键数据做长度对齐处理;
(3)长度不足,通过了插入多余字符补齐;
(4)补齐后的字符串随机重新排序;
(5)经过插入字符、乱序等混淆处理后的字符串生成图片;
(6)记录字符在图片中的相对位置。
步骤604,设置页面显示价格的样式。
步骤606,获取字符在图片中的相对位置,生成页面源码,通过设置背景图相对位置的方式控制数据在页面的展现。
在本发明的另一个具体实施例中,在将字符串图形化的环节中,是将字符串分割成一个个完整的可识别字符,然后乱序、添加多余字符,再生成图片。还可在此基础上将单个字符进一步切分成OCR软件无法识别的图形,如下图7所示,因目前的OCR技术只能识别字母、数字或汉字等完整的字符,对单字符进一步切分后的图像则无法识别出对应的字符,从而进一步大大增加了爬虫解析数据的难度。
利用本发明的网页数据防抓取的方法获得后的网页,页面关键数据的显示效果不变,丝毫不影响用户体验。但是对恶意爬虫来说,抓取到的网页没有包含关键数据的任何信息,无法从网页源码中提取到相关的数据;即使进一步抓取图片,并利用OCR工具进行识别,得到的也是一堆乱序的字符,从而大大增加了恶意爬虫抓取关键数据的难度。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种网页数据防抓取的方法,其特征在于,包括:
提取网页数据;
对所述网页数据进行混淆处理;
将混淆处理后的所述网页数据转换为背景图片;
通过叠层样式表,将所述背景图片在网页上进行显示;
所述对所述网页数据进行混淆处理,具体包括:
统计所述网页数据的长度;
对所述网页数据的长度进行对齐处理;
对所述网页数据的字符串随机排序;
当所述网页数据的长度不足时,通过插入多余字符补齐所述网页数据的长度;
对所述网页数据的字符串随机排序,具体包括:
将所述字符串分割成单个字符,对所述单个字符进行随机排序及添加字符处理;或
将所述字符串分割成所述单个字符,将所述单个字符分割成非识别图形,对所述非识别图形进行随机排序及添加字符处理。
2.根据权利要求1所述的网页数据防抓取的方法,其特征在于,所述将混淆处理后的所述网页数据转换为所述背景图片,具体包括:
将混淆处理后的所述网页数据转换为所述背景图片,并记录所述网页数据在所述背景图片中的位置。
3.根据权利要求1或2所述的网页数据防抓取的方法,其特征在于,所述将所述背景图片在所述网页上进行显示,具体包括:
生成页面源码;
根据所述网页数据在所述背景图片中的位置,将所述背景图片在所述网页上进行显示。
4.根据权利要求1或2所述的网页数据防抓取的方法,其特征在于,所述通过所述叠层样式表,将所述背景图片在所述网页上进行显示之前,还包括:
创建所述叠层样式表。
5.一种网页数据防抓取的系统,其特征在于,包括:
数据提取单元,用于提取网页数据;
数据处理单元,用于对所述网页数据进行混淆处理;
转换单元,用于将混淆处理后的所述网页数据转换为背景图片;
显示单元,用于通过叠层样式表,将所述背景图片在网页上进行显示;
所述数据处理单元,用于:
统计所述网页数据的长度;
对所述网页数据的长度进行对齐处理;
对所述网页数据的字符串随机排序;
所述数据处理单元,还用于:
当所述网页数据的长度不足时,通过插入多余字符补齐所述网页数据的长度。
6.根据权利要求5所述的网页数据防抓取的系统,其特征在于,所述数据处理单元,还用于:
将所述字符串分割成单个字符,对所述单个字符进行随机排序及添加字符处理;或
将所述字符串分割成所述单个字符,将所述单个字符分割成非识别图形,对所述非识别图形进行随机排序及添加字符处理。
7.根据权利要求5所述的网页数据防抓取的系统,其特征在于,所述转换单元,具体用于:
将混淆处理后的所述网页数据转换为所述背景图片,并记录所述网页数据在所述背景图片中的位置。
8.根据权利要求5至7中任一项所述的网页数据防抓取的系统,其特征在于,所述显示单元,具体用于:
生成页面源码;
根据所述网页数据在所述背景图片中的位置,将所述背景图片在所述网页上进行显示。
9.根据权利要求5至7中任一项所述的网页数据防抓取的系统,其特征在于,还包括:创建单元,用于创建所述叠层样式表。
CN201710274338.XA 2017-04-25 2017-04-25 网页数据防抓取的方法及系统 Expired - Fee Related CN107220291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710274338.XA CN107220291B (zh) 2017-04-25 2017-04-25 网页数据防抓取的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710274338.XA CN107220291B (zh) 2017-04-25 2017-04-25 网页数据防抓取的方法及系统

Publications (2)

Publication Number Publication Date
CN107220291A CN107220291A (zh) 2017-09-29
CN107220291B true CN107220291B (zh) 2020-12-25

Family

ID=59943709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710274338.XA Expired - Fee Related CN107220291B (zh) 2017-04-25 2017-04-25 网页数据防抓取的方法及系统

Country Status (1)

Country Link
CN (1) CN107220291B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109274664A (zh) * 2018-09-12 2019-01-25 珠海天燕科技有限公司 一种反爬虫方法和装置
CN109067805B (zh) * 2018-10-12 2021-07-23 武汉斗鱼网络科技有限公司 直播间数据的防爬虫方法、装置、终端及可读介质
CN110502711B (zh) * 2019-07-17 2022-08-26 汉海信息技术(上海)有限公司 页面展示方法、装置、电子设备及可读存储介质
CN110399737B (zh) * 2019-07-26 2023-05-02 博雅创智(天津)科技有限公司 一种非侵入式的网站内容保护方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473214A (zh) * 2013-09-06 2013-12-25 百度在线网络技术(北京)有限公司 一种页面文字的显示方法和装置
CN104281626A (zh) * 2013-07-12 2015-01-14 阿里巴巴集团控股有限公司 基于图片化处理的网页展示方法及网页展示装置
CN104298688A (zh) * 2013-07-18 2015-01-21 北大方正集团有限公司 防拷贝的网页显示方法和系统
CN105577684A (zh) * 2016-01-25 2016-05-11 北京京东尚科信息技术有限公司 防爬虫抓取的方法、服务端、客户端和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281626A (zh) * 2013-07-12 2015-01-14 阿里巴巴集团控股有限公司 基于图片化处理的网页展示方法及网页展示装置
CN104298688A (zh) * 2013-07-18 2015-01-21 北大方正集团有限公司 防拷贝的网页显示方法和系统
CN103473214A (zh) * 2013-09-06 2013-12-25 百度在线网络技术(北京)有限公司 一种页面文字的显示方法和装置
CN105577684A (zh) * 2016-01-25 2016-05-11 北京京东尚科信息技术有限公司 防爬虫抓取的方法、服务端、客户端和系统

Also Published As

Publication number Publication date
CN107220291A (zh) 2017-09-29

Similar Documents

Publication Publication Date Title
CN107220291B (zh) 网页数据防抓取的方法及系统
Gutub et al. A novel Arabic text steganography method using letter points and extensions
JP4271878B2 (ja) 映像中の文字検索方法及び装置並びに文字検索処理プログラム
US20080244378A1 (en) Information processing device, information processing system, information processing method, program, and storage medium
CN113806806B (zh) 一种用于网页截图的脱敏、还原方法和系统
US20100321714A1 (en) Method of scanning
EP2892003A1 (en) Method and apparatus for input verification
EP3114601B1 (en) Access control for a resource
CN101183458B (zh) 图片验证码生成方法和图片验证码生成装置
CN101625752B (zh) 图像处理设备和图像处理方法
CN104426879A (zh) 验证码生成和验证的处理方法及对应的方法、装置和系统
CN106611065B (zh) 搜索方法和装置
CN110249329B (zh) 防止网络漫画擅自复制方法及记录介质
US7596270B2 (en) Method of shuffling text in an Asian document image
US20100315688A1 (en) Method of scanning
CN103986979B (zh) 一种版权保护方法及系统
CN103577519A (zh) 用于按需打印文档管理的多层条形码
US9591173B2 (en) System and method for digital analysis of authenticity and integrity of documents using portable devices
EP3188036B1 (en) A method and a system for providing an extract document
Aljamea et al. Detection of URL in image steganography
CN101681416A (zh) 编码数据安全机制
Basso et al. Anti-bot strategies based on human interactive proofs
US20160004789A1 (en) Visual Search Engine
CN116028901A (zh) 一种嵌入水印的方法、装置、设备及存储介质
Sutherland Usability and security of text-based captchas

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201225

CF01 Termination of patent right due to non-payment of annual fee