CN104217136A - 防止网页文本信息被自动抓取的方法和系统 - Google Patents
防止网页文本信息被自动抓取的方法和系统 Download PDFInfo
- Publication number
- CN104217136A CN104217136A CN201310220475.7A CN201310220475A CN104217136A CN 104217136 A CN104217136 A CN 104217136A CN 201310220475 A CN201310220475 A CN 201310220475A CN 104217136 A CN104217136 A CN 104217136A
- Authority
- CN
- China
- Prior art keywords
- information
- web
- picture
- web page
- cleartext
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 238000006243 chemical reaction Methods 0.000 claims abstract description 18
- 239000000284 extract Substances 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/12—Protecting executable software
- G06F21/121—Restricting unauthorised execution of programs
- G06F21/128—Restricting unauthorised execution of programs involving web programs, i.e. using technology especially used in internet, generally interacting with a web browser, e.g. hypertext markup language [HTML], applets, java
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/106—Enforcing content protection by specific content processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2109—Game systems
Abstract
本发明提供一种防止网页文本信息被自动抓取的方法和系统,方法包括:页面图形控件向转换服务器发送转换请求;转换服务器解密密文信息,得到解密后的信息,判断解密后的信息是否为标识信息,如果是,则从数据库中提取标识信息所对应的网页展示明文信息,如果不是,则将解密后的信息直接作为网页展示明文信息;将得到的网页展示明文信息绘制为图片格式网页信息,再写入Http输出流中;将Http输出流发送给页面图形控件;页面图形控件解析Http输出流,获得图片格式网页信息,然后以图片格式显示所述网页信息。以图片格式展示网站所发布的信息,从而达到防止网站所发布的信息被自动抓取的效果。
Description
技术领域
本发明属于信息处理技术领域,具体涉及一种防止网页文本信息被自动抓取的方法和系统。
背景技术
在当前网络信息时代,用户常常向特定网站的网页发布文本格式信息,例如:证件号码、手机号、商品价格等。现有技术中,出现了网络蜘蛛或类似的网页信息自动抓取工具,通过该种工具,能够自动获取网页中展示的文本格式信息。
但是,以商品价格为例,当网站A发布商品A的价格后,其他网站通过自动抓取工具进行全网抓取,从而抓取到众多网站所发布的商品A价格,然后对商品A价格进行比对,制定商品A经营策略,从而不利于网站A。
因此,如何有效保护用户在网站所发布的信息,防止其被网页信息自动抓取工具所抓取到,具有重要意义。
发明内容
针对现有技术存在的缺陷,本发明提供一种防止网页文本信息被自动抓取的方法和系统,以图片格式展示网站所发布的信息,从而达到防止网站所发布的信息被自动抓取的效果。
本发明采用的技术方案如下:
本发明提供一种防止网页文本信息被自动抓取的方法,包括以下步骤:
S1,web服务器从数据库中读取待处理明文信息;其中,所述待处理明文信息包括网页展示明文信息或与所述网页展示明文信息对应的标识信息;其中,所述网页展示明文信息为文本形式;
S2,所述web服务器加密所述待处理明文信息,得到密文信息;
S3,所述web服务器生成页面图形控件需要的转换服务器请求地址,然后将所述转换服务器请求地址发送给所述页面图形控件;其中,所述转换服务器请求地址还携带所述密文信息;
S4,基于所述转换服务器请求地址,所述页面图形控件向所述转换服务器发送转换请求;其中,所述转换请求携带所述密文信息;
S5,所述转换服务器解密所述密文信息,得到解密后的信息;
S6,所述转换服务器判断所述解密后的信息是否为标识信息,如果是,则从所述数据库中提取所述标识信息所对应的网页展示明文信息,然后执行S7;如果不是,则将解密后的信息直接作为网页展示明文信息,然后执行S7;
S7,所述转换服务器将S6得到的所述网页展示明文信息绘制为图片格式网页信息,再将所述图片格式网页信息写入Http输出流中;
S8,所述转换服务器将已写入图片格式网页信息的Http输出流发送给所述页面图形控件;
S9,所述页面图形控件解析所述已写入图片格式网页信息的Http输出流,获得图片格式网页信息,然后以图片格式显示所述网页信息。
优选的,S2具体为:
所述web服务器使用DES算法加密所述待处理明文信息,得到密文信息。
优选的,S9中,所述页面图形控件以图片格式显示所述网页信息具体为:
所述页面图形控件预先定义需要显示的图片的属性;然后基于所述图片的属性,以图片格式显示所述网页信息。
优选的,所述图片的属性包括图片的长度信息、图片的宽度信息、图片的分辨率信息、图片中字符显示的位置信息、图片中字符颜色信息、图片中字符字体信息和图片中字符大小信息中的一种或几种。
本发明还提供一种防止网页文本信息被自动抓取的系统,包括:web服务器、页面图形控件和转换服务器;
所述web服务器用于:从数据库中读取待处理明文信息;其中,所述待处理明文信息包括网页展示明文信息或与所述网页展示明文信息对应的标识信息;其中,所述网页展示明文信息为文本形式;加密所述待处理明文信息,得到密文信息;生成页面图形控件需要的转换服务器请求地址,然后将所述转换服务器请求地址发送给所述页面图形控件;其中,所述转换服务器请求地址还携带所述密文信息;
所述页面图形控件用于:接收所述web服务器发送的转换服务器请求地址,基于所述转换服务器请求地址,向所述转换服务器发送转换请求;其中,所述转换请求携带所述密文信息;
所述转换服务器用于:接收所述页面图形控件发送的转换请求,解密所述密文信息,得到解密后的信息;判断所述解密后的信息是否为标识信息,如果是,则从所述数据库中提取所述标识信息所对应的网页展示明文信息,如果不是,则将解密后的信息直接作为网页展示明文信息;然后,将得到的网页展示明文信息绘制为图片格式网页信息,再将所述图片格式网页信息写入Http输出流中,将已写入图片格式网页信息的Http输出流发送给所述页面图形控件;
所述页面图形控件还用于:接收所述转换服务器发送的Http输出流,解析所述已写入图片格式网页信息的Http输出流,获得图片格式网页信息,然后以图片格式显示所述网页信息。
本发明的有益效果如下:
本发明提供一种防止网页文本信息被自动抓取的方法和系统,以图片格式展示网站所发布的信息,既能达到防止网站所发布的信息被自动抓取的效果;还具有安全、高效、简洁、易用的优点。
附图说明
图1为本发明提供的防止网页文本信息被自动抓取的方法流程示意图;
图2为本发明提供的防止网页文本信息被自动抓取的系统结构示意图。
具体实施方式
以下结合附图对本发明进行详细说明:
如图1所示,本发明提供一种防止网页文本信息被自动抓取的方法,包括以下步骤:
S1,web服务器从数据库中读取待处理明文信息;其中,所述待处理明文信息包括网页展示明文信息或与所述网页展示明文信息对应的标识信息;其中,所述网页展示明文信息为文本形式;
S2,所述web服务器加密所述待处理明文信息,得到密文信息;
本发明对具体的加密算法并不限制,可以为DES算法。通过对待处理明文信息进行加密,可以提高web服务器到转换服务器之间信息传输的安全性。
S3,所述web服务器生成页面图形控件需要的转换服务器请求地址,然后将所述转换服务器请求地址发送给所述页面图形控件;其中,所述转换服务器请求地址还携带所述密文信息;
S4,基于所述转换服务器请求地址,所述页面图形控件向所述转换服务器发送转换请求;其中,所述转换请求携带所述密文信息;
S5,所述转换服务器解密所述密文信息,得到解密后的信息;
S6,所述转换服务器判断所述解密后的信息是否为标识信息,如果是,则从所述数据库中提取所述标识信息所对应的网页展示明文信息,然后执行S7;如果不是,则将解密后的信息直接作为网页展示明文信息,然后执行S7;
S7,所述转换服务器将S6得到的所述网页展示明文信息绘制为图片格式网页信息,再将所述图片格式网页信息写入Http输出流中;
需要强调的是,本步骤中,将图片格式网页信息以流的形式写入Http输出流中,因此,转换服务器向页面图形控件返回的为数据流,而不是图片格式,由于流小于图片的大小,因此,可以提高数据传输的速度;另外,以流的方式传输,不容易被黑客破解,从而提高数据传输的安全性。
S8,所述转换服务器将已写入图片格式网页信息的Http输出流发送给所述页面图形控件;
S9,所述页面图形控件解析所述已写入图片格式网页信息的Http输出流,获得图片格式网页信息,然后以图片格式显示所述网页信息。
具体的,页面图形控件预先定义需要显示的图片的属性;然后基于所述图片的属性,以图片格式显示所述网页信息。其中,图片的属性包括图片的长度信息、图片的宽度信息、图片的分辨率信息、图片中字符显示的位置信息、图片中字符颜色信息、图片中字符字体信息和图片中字符大小信息中的一种或几种。
如图2所示,本发明还提供一种防止网页文本信息被自动抓取的系统,包括:web服务器、页面图形控件和转换服务器;
所述web服务器用于:从数据库中读取待处理明文信息;其中,所述待处理明文信息包括网页展示明文信息或与所述网页展示明文信息对应的标识信息;其中,所述网页展示明文信息为文本形式;加密所述待处理明文信息,得到密文信息;生成页面图形控件需要的转换服务器请求地址,然后将所述转换服务器请求地址发送给所述页面图形控件;其中,所述转换服务器请求地址还携带所述密文信息;
所述页面图形控件用于:接收所述web服务器发送的转换服务器请求地址,基于所述转换服务器请求地址,向所述转换服务器发送转换请求;其中,所述转换请求携带所述密文信息;
所述转换服务器用于:接收所述页面图形控件发送的转换请求,解密所述密文信息,得到解密后的信息;判断所述解密后的信息是否为标识信息,如果是,则从所述数据库中提取所述标识信息所对应的网页展示明文信息,如果不是,则将解密后的信息直接作为网页展示明文信息;然后,将得到的网页展示明文信息绘制为图片格式网页信息,再将所述图片格式网页信息写入Http输出流中,将已写入图片格式网页信息的Http输出流发送给所述页面图形控件;
所述页面图形控件还用于:接收所述转换服务器发送的Http输出流,解析所述已写入图片格式网页信息的Http输出流,获得图片格式网页信息,然后以图片格式显示所述网页信息。
综上所述,本发明提供的防止网页文本信息被自动抓取的方法和系统,以图片格式展示网站所发布的信息,既能达到防止网站所发布的信息被自动抓取的效果;还具有安全、高效、简洁、易用的优点。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (5)
1.一种防止网页文本信息被自动抓取的方法,其特征在于,包括以下步骤:
S1,web服务器从数据库中读取待处理明文信息;其中,所述待处理明文信息包括网页展示明文信息或与所述网页展示明文信息对应的标识信息;其中,所述网页展示明文信息为文本形式;
S2,所述web服务器加密所述待处理明文信息,得到密文信息;
S3,所述web服务器生成页面图形控件需要的转换服务器请求地址,然后将所述转换服务器请求地址发送给所述页面图形控件;其中,所述转换服务器请求地址还携带所述密文信息;
S4,基于所述转换服务器请求地址,所述页面图形控件向所述转换服务器发送转换请求;其中,所述转换请求携带所述密文信息;
S5,所述转换服务器解密所述密文信息,得到解密后的信息;
S6,所述转换服务器判断所述解密后的信息是否为标识信息,如果是,则从所述数据库中提取所述标识信息所对应的网页展示明文信息,然后执行S7;如果不是,则将解密后的信息直接作为网页展示明文信息,然后执行S7;
S7,所述转换服务器将S6得到的所述网页展示明文信息绘制为图片格式网页信息,再将所述图片格式网页信息写入Http输出流中;
S8,所述转换服务器将已写入图片格式网页信息的Http输出流发送给所述页面图形控件;
S9,所述页面图形控件解析所述已写入图片格式网页信息的Http输出流,获得图片格式网页信息,然后以图片格式显示所述网页信息。
2.根据权利要求1所述的防止网页文本信息被自动抓取的方法,其特征在于,S2具体为:
所述web服务器使用DES算法加密所述待处理明文信息,得到密文信息。
3.根据权利要求1所述的防止网页文本信息被自动抓取的方法,其特征在于,S9中,所述页面图形控件以图片格式显示所述网页信息具体为:
所述页面图形控件预先定义需要显示的图片的属性;然后基于所述图片的属性,以图片格式显示所述网页信息。
4.根据权利要求3所述的防止网页文本信息被自动抓取的方法,其特征在于,所述图片的属性包括图片的长度信息、图片的宽度信息、图片的分辨率信息、图片中字符显示的位置信息、图片中字符颜色信息、图片中字符字体信息和图片中字符大小信息中的一种或几种。
5.一种防止网页文本信息被自动抓取的系统,其特征在于,包括:web服务器、页面图形控件和转换服务器;
所述web服务器用于:从数据库中读取待处理明文信息;其中,所述待处理明文信息包括网页展示明文信息或与所述网页展示明文信息对应的标识信息;其中,所述网页展示明文信息为文本形式;加密所述待处理明文信息,得到密文信息;生成页面图形控件需要的转换服务器请求地址,然后将所述转换服务器请求地址发送给所述页面图形控件;其中,所述转换服务器请求地址还携带所述密文信息;
所述页面图形控件用于:接收所述web服务器发送的转换服务器请求地址,基于所述转换服务器请求地址,向所述转换服务器发送转换请求;其中,所述转换请求携带所述密文信息;
所述转换服务器用于:接收所述页面图形控件发送的转换请求,解密所述密文信息,得到解密后的信息;判断所述解密后的信息是否为标识信息,如果是,则从所述数据库中提取所述标识信息所对应的网页展示明文信息,如果不是,则将解密后的信息直接作为网页展示明文信息;然后,将得到的网页展示明文信息绘制为图片格式网页信息,再将所述图片格式网页信息写入Http输出流中,将已写入图片格式网页信息的Http输出流发送给所述页面图形控件;
所述页面图形控件还用于:接收所述转换服务器发送的Http输出流,解析所述已写入图片格式网页信息的Http输出流,获得图片格式网页信息,然后以图片格式显示所述网页信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310220475.7A CN104217136B (zh) | 2013-06-05 | 2013-06-05 | 防止网页文本信息被自动抓取的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310220475.7A CN104217136B (zh) | 2013-06-05 | 2013-06-05 | 防止网页文本信息被自动抓取的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104217136A true CN104217136A (zh) | 2014-12-17 |
CN104217136B CN104217136B (zh) | 2017-05-03 |
Family
ID=52098617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310220475.7A Active CN104217136B (zh) | 2013-06-05 | 2013-06-05 | 防止网页文本信息被自动抓取的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104217136B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104618390A (zh) * | 2015-02-17 | 2015-05-13 | 北京趣拿信息技术有限公司 | 网站数据反馈方法、显示方法及系统、处理系统 |
CN106506533A (zh) * | 2016-12-09 | 2017-03-15 | 上海谐桐信息技术有限公司 | 通信系统、服务器、分析以及网络安全浏览方法及系统 |
CN107025583A (zh) * | 2016-01-29 | 2017-08-08 | 阿里巴巴集团控股有限公司 | 一种页面控件的渲染方法、设备和终端设备 |
CN108614723A (zh) * | 2018-04-28 | 2018-10-02 | 北京字节跳动网络技术有限公司 | 防止界面控件的属性信息被窃取的方法及其装置 |
CN109861944A (zh) * | 2017-11-22 | 2019-06-07 | 浙江智贝信息科技有限公司 | 一种分布式信息安全处理及交互方法及其交互系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1505309A (zh) * | 2002-11-20 | 2004-06-16 | 安全地处理被用于基于web的资源访问的客户证书 | |
CN101267299A (zh) * | 2007-03-14 | 2008-09-17 | 阿里巴巴集团控股有限公司 | 一种安全显示网页中数据的方法和系统 |
CN101814118A (zh) * | 2009-07-02 | 2010-08-25 | 西安电子科技大学 | 基于图片的网页文本保护方法 |
CN102156953A (zh) * | 2011-03-17 | 2011-08-17 | 深圳市五巨科技有限公司 | 一种实现图片批量处理的方法和装置 |
CN102916935A (zh) * | 2011-08-04 | 2013-02-06 | 深圳华强电子交易网络有限公司 | 一种网站内容防抓取的方法 |
-
2013
- 2013-06-05 CN CN201310220475.7A patent/CN104217136B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1505309A (zh) * | 2002-11-20 | 2004-06-16 | 安全地处理被用于基于web的资源访问的客户证书 | |
CN101267299A (zh) * | 2007-03-14 | 2008-09-17 | 阿里巴巴集团控股有限公司 | 一种安全显示网页中数据的方法和系统 |
CN101814118A (zh) * | 2009-07-02 | 2010-08-25 | 西安电子科技大学 | 基于图片的网页文本保护方法 |
CN102156953A (zh) * | 2011-03-17 | 2011-08-17 | 深圳市五巨科技有限公司 | 一种实现图片批量处理的方法和装置 |
CN102916935A (zh) * | 2011-08-04 | 2013-02-06 | 深圳华强电子交易网络有限公司 | 一种网站内容防抓取的方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104618390A (zh) * | 2015-02-17 | 2015-05-13 | 北京趣拿信息技术有限公司 | 网站数据反馈方法、显示方法及系统、处理系统 |
CN107025583A (zh) * | 2016-01-29 | 2017-08-08 | 阿里巴巴集团控股有限公司 | 一种页面控件的渲染方法、设备和终端设备 |
CN106506533A (zh) * | 2016-12-09 | 2017-03-15 | 上海谐桐信息技术有限公司 | 通信系统、服务器、分析以及网络安全浏览方法及系统 |
CN109861944A (zh) * | 2017-11-22 | 2019-06-07 | 浙江智贝信息科技有限公司 | 一种分布式信息安全处理及交互方法及其交互系统 |
CN108614723A (zh) * | 2018-04-28 | 2018-10-02 | 北京字节跳动网络技术有限公司 | 防止界面控件的属性信息被窃取的方法及其装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104217136B (zh) | 2017-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2017404207B2 (en) | Information processing device and information processing method | |
CN104217136A (zh) | 防止网页文本信息被自动抓取的方法和系统 | |
WO2017128869A1 (zh) | 一种信息处理方法、第一终端、第二终端及服务器 | |
KR20120090388A (ko) | Qr 코드를 이용한 사용자 디바이스 및 콘텐츠 관리 방법 및 장치 | |
CN106156654B (zh) | 文档加密装置与方法 | |
US9166788B2 (en) | Method and device for obtaining a security key | |
CN101814118A (zh) | 基于图片的网页文本保护方法 | |
CN105515935B (zh) | 一种交互信息中doi的处理方法及装置 | |
CN114500093A (zh) | 报文信息的安全交互方法及系统 | |
CN103559251A (zh) | 基于信息隐藏的数据安全保护方法 | |
CN108900472A (zh) | 信息的传输方法和装置 | |
KR101769562B1 (ko) | 터치 스크린을 이용한 캡차 제공 장치 및 그 방법 | |
CN101656707A (zh) | 网站的防伪标识系统及其实现方法 | |
CN115982675A (zh) | 文档处理方法、装置、电子设备以及存储介质 | |
CN102571341A (zh) | 一种基于动态图像的认证系统及认证方法 | |
JP6023821B2 (ja) | コンテンツ認知時間を用いた広告システム及び広告方法 | |
JP6413540B2 (ja) | 中継装置、データ処理システム及びプログラム | |
CN103078866B (zh) | 移动平台透明加密方法 | |
CN103530372A (zh) | 网站管理系统 | |
CN104182698B (zh) | 一种数据清除方法及电子设备 | |
KR102208399B1 (ko) | 개인 ip 보호 시스템 및 그 방법 | |
Alidoost Nia et al. | An introduction to digital signature schemes | |
Lai et al. | A large payload webpage data embedding method using CSS attributes modification | |
JP2011150389A (ja) | 他クライントへのマーキングシステム | |
KR102081367B1 (ko) | 광고 문서 관리를 위한 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |