CN104217136A - 防止网页文本信息被自动抓取的方法和系统 - Google Patents

防止网页文本信息被自动抓取的方法和系统 Download PDF

Info

Publication number
CN104217136A
CN104217136A CN201310220475.7A CN201310220475A CN104217136A CN 104217136 A CN104217136 A CN 104217136A CN 201310220475 A CN201310220475 A CN 201310220475A CN 104217136 A CN104217136 A CN 104217136A
Authority
CN
China
Prior art keywords
information
web
picture
web page
cleartext
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310220475.7A
Other languages
English (en)
Other versions
CN104217136B (zh
Inventor
韩华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Cheerbright Technologies Co Ltd
Original Assignee
Beijing Cheerbright Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Cheerbright Technologies Co Ltd filed Critical Beijing Cheerbright Technologies Co Ltd
Priority to CN201310220475.7A priority Critical patent/CN104217136B/zh
Publication of CN104217136A publication Critical patent/CN104217136A/zh
Application granted granted Critical
Publication of CN104217136B publication Critical patent/CN104217136B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/12Protecting executable software
    • G06F21/121Restricting unauthorised execution of programs
    • G06F21/128Restricting unauthorised execution of programs involving web programs, i.e. using technology especially used in internet, generally interacting with a web browser, e.g. hypertext markup language [HTML], applets, java
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/106Enforcing content protection by specific content processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2109Game systems

Abstract

本发明提供一种防止网页文本信息被自动抓取的方法和系统,方法包括:页面图形控件向转换服务器发送转换请求;转换服务器解密密文信息,得到解密后的信息,判断解密后的信息是否为标识信息,如果是,则从数据库中提取标识信息所对应的网页展示明文信息,如果不是,则将解密后的信息直接作为网页展示明文信息;将得到的网页展示明文信息绘制为图片格式网页信息,再写入Http输出流中;将Http输出流发送给页面图形控件;页面图形控件解析Http输出流,获得图片格式网页信息,然后以图片格式显示所述网页信息。以图片格式展示网站所发布的信息,从而达到防止网站所发布的信息被自动抓取的效果。

Description

防止网页文本信息被自动抓取的方法和系统
技术领域
本发明属于信息处理技术领域,具体涉及一种防止网页文本信息被自动抓取的方法和系统。
背景技术
在当前网络信息时代,用户常常向特定网站的网页发布文本格式信息,例如:证件号码、手机号、商品价格等。现有技术中,出现了网络蜘蛛或类似的网页信息自动抓取工具,通过该种工具,能够自动获取网页中展示的文本格式信息。
但是,以商品价格为例,当网站A发布商品A的价格后,其他网站通过自动抓取工具进行全网抓取,从而抓取到众多网站所发布的商品A价格,然后对商品A价格进行比对,制定商品A经营策略,从而不利于网站A。
因此,如何有效保护用户在网站所发布的信息,防止其被网页信息自动抓取工具所抓取到,具有重要意义。
发明内容
针对现有技术存在的缺陷,本发明提供一种防止网页文本信息被自动抓取的方法和系统,以图片格式展示网站所发布的信息,从而达到防止网站所发布的信息被自动抓取的效果。
本发明采用的技术方案如下:
本发明提供一种防止网页文本信息被自动抓取的方法,包括以下步骤:
S1,web服务器从数据库中读取待处理明文信息;其中,所述待处理明文信息包括网页展示明文信息或与所述网页展示明文信息对应的标识信息;其中,所述网页展示明文信息为文本形式;
S2,所述web服务器加密所述待处理明文信息,得到密文信息;
S3,所述web服务器生成页面图形控件需要的转换服务器请求地址,然后将所述转换服务器请求地址发送给所述页面图形控件;其中,所述转换服务器请求地址还携带所述密文信息;
S4,基于所述转换服务器请求地址,所述页面图形控件向所述转换服务器发送转换请求;其中,所述转换请求携带所述密文信息;
S5,所述转换服务器解密所述密文信息,得到解密后的信息;
S6,所述转换服务器判断所述解密后的信息是否为标识信息,如果是,则从所述数据库中提取所述标识信息所对应的网页展示明文信息,然后执行S7;如果不是,则将解密后的信息直接作为网页展示明文信息,然后执行S7;
S7,所述转换服务器将S6得到的所述网页展示明文信息绘制为图片格式网页信息,再将所述图片格式网页信息写入Http输出流中;
S8,所述转换服务器将已写入图片格式网页信息的Http输出流发送给所述页面图形控件;
S9,所述页面图形控件解析所述已写入图片格式网页信息的Http输出流,获得图片格式网页信息,然后以图片格式显示所述网页信息。
优选的,S2具体为:
所述web服务器使用DES算法加密所述待处理明文信息,得到密文信息。
优选的,S9中,所述页面图形控件以图片格式显示所述网页信息具体为:
所述页面图形控件预先定义需要显示的图片的属性;然后基于所述图片的属性,以图片格式显示所述网页信息。
优选的,所述图片的属性包括图片的长度信息、图片的宽度信息、图片的分辨率信息、图片中字符显示的位置信息、图片中字符颜色信息、图片中字符字体信息和图片中字符大小信息中的一种或几种。
本发明还提供一种防止网页文本信息被自动抓取的系统,包括:web服务器、页面图形控件和转换服务器;
所述web服务器用于:从数据库中读取待处理明文信息;其中,所述待处理明文信息包括网页展示明文信息或与所述网页展示明文信息对应的标识信息;其中,所述网页展示明文信息为文本形式;加密所述待处理明文信息,得到密文信息;生成页面图形控件需要的转换服务器请求地址,然后将所述转换服务器请求地址发送给所述页面图形控件;其中,所述转换服务器请求地址还携带所述密文信息;
所述页面图形控件用于:接收所述web服务器发送的转换服务器请求地址,基于所述转换服务器请求地址,向所述转换服务器发送转换请求;其中,所述转换请求携带所述密文信息;
所述转换服务器用于:接收所述页面图形控件发送的转换请求,解密所述密文信息,得到解密后的信息;判断所述解密后的信息是否为标识信息,如果是,则从所述数据库中提取所述标识信息所对应的网页展示明文信息,如果不是,则将解密后的信息直接作为网页展示明文信息;然后,将得到的网页展示明文信息绘制为图片格式网页信息,再将所述图片格式网页信息写入Http输出流中,将已写入图片格式网页信息的Http输出流发送给所述页面图形控件;
所述页面图形控件还用于:接收所述转换服务器发送的Http输出流,解析所述已写入图片格式网页信息的Http输出流,获得图片格式网页信息,然后以图片格式显示所述网页信息。
本发明的有益效果如下:
本发明提供一种防止网页文本信息被自动抓取的方法和系统,以图片格式展示网站所发布的信息,既能达到防止网站所发布的信息被自动抓取的效果;还具有安全、高效、简洁、易用的优点。
附图说明
图1为本发明提供的防止网页文本信息被自动抓取的方法流程示意图;
图2为本发明提供的防止网页文本信息被自动抓取的系统结构示意图。
具体实施方式
以下结合附图对本发明进行详细说明:
如图1所示,本发明提供一种防止网页文本信息被自动抓取的方法,包括以下步骤:
S1,web服务器从数据库中读取待处理明文信息;其中,所述待处理明文信息包括网页展示明文信息或与所述网页展示明文信息对应的标识信息;其中,所述网页展示明文信息为文本形式;
S2,所述web服务器加密所述待处理明文信息,得到密文信息;
本发明对具体的加密算法并不限制,可以为DES算法。通过对待处理明文信息进行加密,可以提高web服务器到转换服务器之间信息传输的安全性。
S3,所述web服务器生成页面图形控件需要的转换服务器请求地址,然后将所述转换服务器请求地址发送给所述页面图形控件;其中,所述转换服务器请求地址还携带所述密文信息;
S4,基于所述转换服务器请求地址,所述页面图形控件向所述转换服务器发送转换请求;其中,所述转换请求携带所述密文信息;
S5,所述转换服务器解密所述密文信息,得到解密后的信息;
S6,所述转换服务器判断所述解密后的信息是否为标识信息,如果是,则从所述数据库中提取所述标识信息所对应的网页展示明文信息,然后执行S7;如果不是,则将解密后的信息直接作为网页展示明文信息,然后执行S7;
S7,所述转换服务器将S6得到的所述网页展示明文信息绘制为图片格式网页信息,再将所述图片格式网页信息写入Http输出流中;
需要强调的是,本步骤中,将图片格式网页信息以流的形式写入Http输出流中,因此,转换服务器向页面图形控件返回的为数据流,而不是图片格式,由于流小于图片的大小,因此,可以提高数据传输的速度;另外,以流的方式传输,不容易被黑客破解,从而提高数据传输的安全性。
S8,所述转换服务器将已写入图片格式网页信息的Http输出流发送给所述页面图形控件;
S9,所述页面图形控件解析所述已写入图片格式网页信息的Http输出流,获得图片格式网页信息,然后以图片格式显示所述网页信息。
具体的,页面图形控件预先定义需要显示的图片的属性;然后基于所述图片的属性,以图片格式显示所述网页信息。其中,图片的属性包括图片的长度信息、图片的宽度信息、图片的分辨率信息、图片中字符显示的位置信息、图片中字符颜色信息、图片中字符字体信息和图片中字符大小信息中的一种或几种。
如图2所示,本发明还提供一种防止网页文本信息被自动抓取的系统,包括:web服务器、页面图形控件和转换服务器;
所述web服务器用于:从数据库中读取待处理明文信息;其中,所述待处理明文信息包括网页展示明文信息或与所述网页展示明文信息对应的标识信息;其中,所述网页展示明文信息为文本形式;加密所述待处理明文信息,得到密文信息;生成页面图形控件需要的转换服务器请求地址,然后将所述转换服务器请求地址发送给所述页面图形控件;其中,所述转换服务器请求地址还携带所述密文信息;
所述页面图形控件用于:接收所述web服务器发送的转换服务器请求地址,基于所述转换服务器请求地址,向所述转换服务器发送转换请求;其中,所述转换请求携带所述密文信息;
所述转换服务器用于:接收所述页面图形控件发送的转换请求,解密所述密文信息,得到解密后的信息;判断所述解密后的信息是否为标识信息,如果是,则从所述数据库中提取所述标识信息所对应的网页展示明文信息,如果不是,则将解密后的信息直接作为网页展示明文信息;然后,将得到的网页展示明文信息绘制为图片格式网页信息,再将所述图片格式网页信息写入Http输出流中,将已写入图片格式网页信息的Http输出流发送给所述页面图形控件;
所述页面图形控件还用于:接收所述转换服务器发送的Http输出流,解析所述已写入图片格式网页信息的Http输出流,获得图片格式网页信息,然后以图片格式显示所述网页信息。
综上所述,本发明提供的防止网页文本信息被自动抓取的方法和系统,以图片格式展示网站所发布的信息,既能达到防止网站所发布的信息被自动抓取的效果;还具有安全、高效、简洁、易用的优点。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (5)

1.一种防止网页文本信息被自动抓取的方法,其特征在于,包括以下步骤:
S1,web服务器从数据库中读取待处理明文信息;其中,所述待处理明文信息包括网页展示明文信息或与所述网页展示明文信息对应的标识信息;其中,所述网页展示明文信息为文本形式;
S2,所述web服务器加密所述待处理明文信息,得到密文信息;
S3,所述web服务器生成页面图形控件需要的转换服务器请求地址,然后将所述转换服务器请求地址发送给所述页面图形控件;其中,所述转换服务器请求地址还携带所述密文信息;
S4,基于所述转换服务器请求地址,所述页面图形控件向所述转换服务器发送转换请求;其中,所述转换请求携带所述密文信息;
S5,所述转换服务器解密所述密文信息,得到解密后的信息;
S6,所述转换服务器判断所述解密后的信息是否为标识信息,如果是,则从所述数据库中提取所述标识信息所对应的网页展示明文信息,然后执行S7;如果不是,则将解密后的信息直接作为网页展示明文信息,然后执行S7;
S7,所述转换服务器将S6得到的所述网页展示明文信息绘制为图片格式网页信息,再将所述图片格式网页信息写入Http输出流中;
S8,所述转换服务器将已写入图片格式网页信息的Http输出流发送给所述页面图形控件;
S9,所述页面图形控件解析所述已写入图片格式网页信息的Http输出流,获得图片格式网页信息,然后以图片格式显示所述网页信息。
2.根据权利要求1所述的防止网页文本信息被自动抓取的方法,其特征在于,S2具体为:
所述web服务器使用DES算法加密所述待处理明文信息,得到密文信息。
3.根据权利要求1所述的防止网页文本信息被自动抓取的方法,其特征在于,S9中,所述页面图形控件以图片格式显示所述网页信息具体为:
所述页面图形控件预先定义需要显示的图片的属性;然后基于所述图片的属性,以图片格式显示所述网页信息。
4.根据权利要求3所述的防止网页文本信息被自动抓取的方法,其特征在于,所述图片的属性包括图片的长度信息、图片的宽度信息、图片的分辨率信息、图片中字符显示的位置信息、图片中字符颜色信息、图片中字符字体信息和图片中字符大小信息中的一种或几种。
5.一种防止网页文本信息被自动抓取的系统,其特征在于,包括:web服务器、页面图形控件和转换服务器;
所述web服务器用于:从数据库中读取待处理明文信息;其中,所述待处理明文信息包括网页展示明文信息或与所述网页展示明文信息对应的标识信息;其中,所述网页展示明文信息为文本形式;加密所述待处理明文信息,得到密文信息;生成页面图形控件需要的转换服务器请求地址,然后将所述转换服务器请求地址发送给所述页面图形控件;其中,所述转换服务器请求地址还携带所述密文信息;
所述页面图形控件用于:接收所述web服务器发送的转换服务器请求地址,基于所述转换服务器请求地址,向所述转换服务器发送转换请求;其中,所述转换请求携带所述密文信息;
所述转换服务器用于:接收所述页面图形控件发送的转换请求,解密所述密文信息,得到解密后的信息;判断所述解密后的信息是否为标识信息,如果是,则从所述数据库中提取所述标识信息所对应的网页展示明文信息,如果不是,则将解密后的信息直接作为网页展示明文信息;然后,将得到的网页展示明文信息绘制为图片格式网页信息,再将所述图片格式网页信息写入Http输出流中,将已写入图片格式网页信息的Http输出流发送给所述页面图形控件;
所述页面图形控件还用于:接收所述转换服务器发送的Http输出流,解析所述已写入图片格式网页信息的Http输出流,获得图片格式网页信息,然后以图片格式显示所述网页信息。
CN201310220475.7A 2013-06-05 2013-06-05 防止网页文本信息被自动抓取的方法和系统 Active CN104217136B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310220475.7A CN104217136B (zh) 2013-06-05 2013-06-05 防止网页文本信息被自动抓取的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310220475.7A CN104217136B (zh) 2013-06-05 2013-06-05 防止网页文本信息被自动抓取的方法和系统

Publications (2)

Publication Number Publication Date
CN104217136A true CN104217136A (zh) 2014-12-17
CN104217136B CN104217136B (zh) 2017-05-03

Family

ID=52098617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310220475.7A Active CN104217136B (zh) 2013-06-05 2013-06-05 防止网页文本信息被自动抓取的方法和系统

Country Status (1)

Country Link
CN (1) CN104217136B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104618390A (zh) * 2015-02-17 2015-05-13 北京趣拿信息技术有限公司 网站数据反馈方法、显示方法及系统、处理系统
CN106506533A (zh) * 2016-12-09 2017-03-15 上海谐桐信息技术有限公司 通信系统、服务器、分析以及网络安全浏览方法及系统
CN107025583A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 一种页面控件的渲染方法、设备和终端设备
CN108614723A (zh) * 2018-04-28 2018-10-02 北京字节跳动网络技术有限公司 防止界面控件的属性信息被窃取的方法及其装置
CN109861944A (zh) * 2017-11-22 2019-06-07 浙江智贝信息科技有限公司 一种分布式信息安全处理及交互方法及其交互系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1505309A (zh) * 2002-11-20 2004-06-16 安全地处理被用于基于web的资源访问的客户证书
CN101267299A (zh) * 2007-03-14 2008-09-17 阿里巴巴集团控股有限公司 一种安全显示网页中数据的方法和系统
CN101814118A (zh) * 2009-07-02 2010-08-25 西安电子科技大学 基于图片的网页文本保护方法
CN102156953A (zh) * 2011-03-17 2011-08-17 深圳市五巨科技有限公司 一种实现图片批量处理的方法和装置
CN102916935A (zh) * 2011-08-04 2013-02-06 深圳华强电子交易网络有限公司 一种网站内容防抓取的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1505309A (zh) * 2002-11-20 2004-06-16 安全地处理被用于基于web的资源访问的客户证书
CN101267299A (zh) * 2007-03-14 2008-09-17 阿里巴巴集团控股有限公司 一种安全显示网页中数据的方法和系统
CN101814118A (zh) * 2009-07-02 2010-08-25 西安电子科技大学 基于图片的网页文本保护方法
CN102156953A (zh) * 2011-03-17 2011-08-17 深圳市五巨科技有限公司 一种实现图片批量处理的方法和装置
CN102916935A (zh) * 2011-08-04 2013-02-06 深圳华强电子交易网络有限公司 一种网站内容防抓取的方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104618390A (zh) * 2015-02-17 2015-05-13 北京趣拿信息技术有限公司 网站数据反馈方法、显示方法及系统、处理系统
CN107025583A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 一种页面控件的渲染方法、设备和终端设备
CN106506533A (zh) * 2016-12-09 2017-03-15 上海谐桐信息技术有限公司 通信系统、服务器、分析以及网络安全浏览方法及系统
CN109861944A (zh) * 2017-11-22 2019-06-07 浙江智贝信息科技有限公司 一种分布式信息安全处理及交互方法及其交互系统
CN108614723A (zh) * 2018-04-28 2018-10-02 北京字节跳动网络技术有限公司 防止界面控件的属性信息被窃取的方法及其装置

Also Published As

Publication number Publication date
CN104217136B (zh) 2017-05-03

Similar Documents

Publication Publication Date Title
AU2017404207B2 (en) Information processing device and information processing method
CN104217136A (zh) 防止网页文本信息被自动抓取的方法和系统
WO2017128869A1 (zh) 一种信息处理方法、第一终端、第二终端及服务器
KR20120090388A (ko) Qr 코드를 이용한 사용자 디바이스 및 콘텐츠 관리 방법 및 장치
CN106156654B (zh) 文档加密装置与方法
US9166788B2 (en) Method and device for obtaining a security key
CN101814118A (zh) 基于图片的网页文本保护方法
CN105515935B (zh) 一种交互信息中doi的处理方法及装置
CN114500093A (zh) 报文信息的安全交互方法及系统
CN103559251A (zh) 基于信息隐藏的数据安全保护方法
CN108900472A (zh) 信息的传输方法和装置
KR101769562B1 (ko) 터치 스크린을 이용한 캡차 제공 장치 및 그 방법
CN101656707A (zh) 网站的防伪标识系统及其实现方法
CN115982675A (zh) 文档处理方法、装置、电子设备以及存储介质
CN102571341A (zh) 一种基于动态图像的认证系统及认证方法
JP6023821B2 (ja) コンテンツ認知時間を用いた広告システム及び広告方法
JP6413540B2 (ja) 中継装置、データ処理システム及びプログラム
CN103078866B (zh) 移动平台透明加密方法
CN103530372A (zh) 网站管理系统
CN104182698B (zh) 一种数据清除方法及电子设备
KR102208399B1 (ko) 개인 ip 보호 시스템 및 그 방법
Alidoost Nia et al. An introduction to digital signature schemes
Lai et al. A large payload webpage data embedding method using CSS attributes modification
JP2011150389A (ja) 他クライントへのマーキングシステム
KR102081367B1 (ko) 광고 문서 관리를 위한 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant