CN103473214B - 一种页面文字的显示方法和装置 - Google Patents

一种页面文字的显示方法和装置 Download PDF

Info

Publication number
CN103473214B
CN103473214B CN201310401774.0A CN201310401774A CN103473214B CN 103473214 B CN103473214 B CN 103473214B CN 201310401774 A CN201310401774 A CN 201310401774A CN 103473214 B CN103473214 B CN 103473214B
Authority
CN
China
Prior art keywords
word
text
mixed
random
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310401774.0A
Other languages
English (en)
Other versions
CN103473214A (zh
Inventor
周建城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310401774.0A priority Critical patent/CN103473214B/zh
Publication of CN103473214A publication Critical patent/CN103473214A/zh
Application granted granted Critical
Publication of CN103473214B publication Critical patent/CN103473214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种页面文字的显示方法和装置,其中方法包括:对待显示文字进行切分,得到N个文字组,N为2以上的正整数;在各文字组中混入随机文字;将混入随机文字后的各文字组分别作为一个Dom节点按照切分时对应的顺序进行拼接;通过设置样式隐藏混入的随机文字。本发明所提供的方法和装置采用混淆的方式,既保证了页面文字的正常显示,又使得复制和抓取到的网页内容因混入了随机文字而无法正常显示,这种方式摆脱了对浏览器的依赖,从而有效地防止了网页文字被恶意复制和抓取。

Description

一种页面文字的显示方法和装置
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种页面文字的显示方法和装置。
【背景技术】
随着互联网上信息的爆炸式增长,网页版权保护问题也日趋重要。普通网页的文字很容易被直接拷贝到其他网页或媒体上,非法复制的成本很低,如何增加文字拷贝和抓取的难度,提高盗版成本,是亟待解决的问题。目前常用的方式主要有以下两种:
第一种方式是通过简单设置网页DOM元素的属性来防止网页文字被恶意复制。第二种是通过禁用右键菜单来防止恶意复制。然而这两种方式都依赖于浏览器的功能,存在很多方式就能够避开此限制,并且对恶意程序抓取网页文字并不起作用。
【发明内容】
有鉴于此,本发明提供了一种网页文字的显示方法和装置,用以有效地防止网页文字被恶意复制和抓取。
具体技术方案如下:
一种页面文字的显示方法,该方法包括:
对待显示文字进行切分,得到N个文字组,N为2以上的正整数;
在各文字组中混入随机文字;
将混入随机文字后的各文字组分别作为一个Dom节点按照切分时对应的顺序进行拼接;
通过设置样式隐藏混入的随机文字。
根据本发明一优选实施例,所述对待显示文字进行切分为:对待显示文字进行随机切分。
根据本发明一优选实施例,所述在各文字组中混入随机文字为:在各文字组中的待显示文字之前和/或之后混入随机文字,且混入随机文字的长度随机选取。
根据本发明一优选实施例,在通过设置样式隐藏混入的随机文字之前还包括:将拼接后得到的字符串放到一个Dom节点下。
根据本发明一优选实施例,所述通过设置样式隐藏混入的随机文字具体包括:
将Dom节点所包含待显示文字的长度设置为该Dom节点的样式属性的文本宽度值,将Dom节点中待显示文字之前混入的随机文字长度设置为该Dom节点的样式属性的首行文本缩进值。
一种页面文字的显示装置,该装置包括:
切分单元,用于对待显示文字进行切分,得到N个文字组,N为2以上的正整数;
混淆单元,用于在各文字组中混入随机文字;
拼接单元,用于将混入随机文字后的各文字组分别作为一个Dom节点按照切分时对应的顺序进行拼接;
隐藏单元,用于通过设置样式隐藏混入的随机文字。
根据本发明一优选实施例,所述切分单元对待显示文字进行的切分为随机切分。
根据本发明一优选实施例,所述混淆单元在各文字组中混入随机文字时,具体在各文字组中的待显示文字之前和/或之后混入随机文字,且混入随机文字的长度随机选取。
根据本发明一优选实施例,所述拼接单元,还用于将拼接后得到的字符串放到一个Dom节点下。
根据本发明一优选实施例,所述隐藏单元在通过设置样式隐藏混入的随机文字时,具体执行:
将Dom节点所包含待显示文字的长度设置为该Dom节点的样式属性的文本宽度值,将Dom节点中待显示文字之前混入的随机文字长度设置为该Dom节点的样式属性的首行文本缩进值。
由以上技术方案可以看出,本发明所提供的方法和装置采用混淆的方式,既保证了页面文字的正常显示,又使得复制和抓取到的网页内容因混入了随机文字而无法正常使用,这种方式摆脱了对浏览器的依赖,从而有效地防止了网页文字被恶意复制和抓取。
【附图说明】
图1为本发明实施例一提供的网页文字的显示方法流程图;
图2为本发明实施例二提供的网页文字的显示装置结构图。
【具体实施方式】
在本发明中采用了另外一种思路,摆脱对浏览器的依附,采用混淆的策略,即让网页文字显示正常,又不能被复制和抓取后正常使用。为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图1为本发明实施例一提供的网页文字的显示方法流程图,在本实施例中假设要在网页上显示一段文本,该文本中将要显示的文字为待显示文字,需要说明的是,本发明实施例中所述的文字为广义的文字,包括文字、符号、数字等,本发明实施例中以中文为例,但可以广泛应用于其他种类的文字,实现原理和方法相同。如图1所示,该方法具体包括以下步骤:
步骤101:对待显示文字进行切分,得到N个文字组,N为2以上的正整数。
本步骤中,在进行文字组的切分时,可以采用预定的规则,例如每M个文字切分为一组,M为预设正整数。然而为了避免对待显示文字的破解复制和抓取,在此切分文字组时优选采用随机切分的方式,切分数量、切分位置都可以采用随机的方式,此时上述N为随机数。
鉴于网页中可能会包含多个部分,例如标题、摘要、正文等等,在此可以仅针对网页中需要保护的文字部分进行随机切分,如果网页中存在多个部分都需要保护,那么可以将网页中不同的部分分别进行随机切分。
举个例子,假设待显示文字为“重要文字”,在本步骤中将该待显示文字随机切分成3个文字组:“重”、“要文”和“字”。
步骤102:在各文字组中混入随机文字。
在切分得到多个文字组后,在各文字组中待显示文字之前和/或之后混入随机文字,混入的随机文字是从字库中随机选取的,目的是为了进行混淆。若在步骤101中切分文字组的方式是按照预设的规则,那么在此为了避免对待显示文字的破解复制和抓取,混入随机文字的长度随机选取,若在步骤101中切分文字组的方式是随机切分,那么在此混入随机文字的长度可以是预定长度,也可以是随机选取的长度。另外在本步骤中需要记录混入的随机文字在各文字组中的位置和长度,以便后续步骤104中进行属性设置时能够区分随机文字。
接续上例,在三个文字组“重”、“要文”和“字”中分别随机混入随机文字,得到的各文字组变为:“遃劈啊重緷商”、“浑要文簲务大”、“祶字示正品”,并且分别记录第一个文字组中前3个文字长度和后2个文字长度为混入的随机文字,第二个文字组的前1个文字长度和后3个文字长度为混入的随机文字,第三个文字组的前1个文字长度和后3个文字长度为混入的随机文字。
步骤103:将混入随机文字后的各文字组分别作为一个Dom节点按照切分时对应的顺序进行拼接。
在将各文字组作为Dom节点时,Dom节点的类型与各文字组在页面中位置相对应,接续上例,若待显示文字“重要文字”在页面中是行内元素,则将各文字组分别作为一个Dom节点按照切分时对应的顺序进行拼接时,得到:
“<span>遃劈啊重緷商</span><span>浑要文簲务大</span><span>祶字示正品<span>”。
步骤104:将拼接后得到的字符串放到一个Dom节点下,通过样式隐藏混入的随机文字。
将拼接后得到的字符串放到一个Dom节点下并不是必须的操作,即如果所述待显示文字在页面中以独立的文本块形式存在,则需要将拼接后得到的字符串放到一个Dom节点下,使用<div>标签标识。将拼接后得到的字符串放到一个Dom节点下后,得到:
“<div><span>遃劈啊重緷商</span><span>浑要文簲务大</span><span>祶字示正品</span></div>”
根据记录的随机文字的位置和长度,通过设置Dom节点的样式属性,隐藏混入的随机文字。具体地,由于每一个Dom节点都具有自己的样式属性,在本发明实施例中可以通过样式属性中的文本宽度和首行文本缩进来隐藏混入的随机文字,通常将Dom节点中待显示文字的长度设置为该Dom节点的样式属性的文本宽度值,将Dom节点中待显示文字之前混入的随机文字长度设置为该Dom节点的样式属性的首行文本缩进值。
接续上例,“<div><span>遃劈啊重緷商</span><span>浑要文簲务大</span><span>祶字示正品</span></div>”在设置时,可以对“<span>遃劈啊重緷商</span>”进行以下设置:
<em style=“position:absolute;z-index:1;top:0;width:12px;text-indent:-36px;left:0;”>遃劈啊重緷商</em>
其中,position:absolute表示用浏览器绝对位置显示文本块,z-index用于设置该节点内元素的堆叠顺序,top用于设置该节点内元素的顶部边缘,left用于设置该节点内元素的左边距。这些设置与本发明实施例关系不大,重要的是设置width和text-indent,width用于设置该节点内元素的宽度,在本实例中通常一个文字的宽度为12像素,即12px,即设置显示12px像素的文字;text-indent用于设置该节点内元素的首行文本缩进,在本实例中首行文本缩进-36px,也即是说向左缩进3个文字,这样就使得“遃劈啊”被缩进掉而不能显示,从“重”开始显示一个文字,也就是说只显示“重”,后面的“緷商”也不会显示。
同样道理,“<span>浑要文簲务大</span>”和“<span>祶字示正品</span></div>”分别进行以下设置:
<em style=“position:absolute;z-index:1;top:0;width:24px;text-indent:-12px;left:0;”>浑要文簲务大</em>
<em style=“position:absolute;z-index:1;top:0;width:12px;text-indent:-12px;
left:0;”>祶字示正品</em>
经过上述设置之后,在网页上就显示出“重要文字”,但实际上Dom节点中包含“遃劈啊重緷商浑要文簲务大祶字示正品”,由于复制和抓取是以Dom节点的内容为对象的,因此复制和抓取到的就是混入了随机文字的文本,显然无法正常使用,从而达到了防止复制和抓取的目的。
本实施例中所示的通常将Dom节点中待显示文字的长度设置为该Dom节点的样式属性的文本宽度值,将Dom节点中待显示文字之前混入的随机文字长度设置为该Dom节点的样式属性的首行文本缩进值仅为所举的其中一种实现方法,也可以采用其他设置样式属性的方法隐藏混入的随机文字。
以上是对本发明所提供的方法进行的详细描述,下面通过实施例二对本发明所提供的装置进行详细描述。
实施例二、
图2为本发明实施例二提供的页面文字的显示装置结构图,该装置通常设置在网站的服务器侧,负责生成页面时的页面文字显示功能。如图2所示,该装置包括:切分单元01、混淆单元02、拼接单元03和隐藏单元04。
其中切分单元01用于对待显示文字进行切分,得到N个文字组,N为2以上的正整数。切分单元01在进行文字组的切分时,可以采用预定的规则,例如每M个文字切分为一组,M为预设正整数。然而为了避免对待显示文字的破解复制和抓取,在此切分文字组时优选采用随机切分的方式,切分数量、切分位置都可以采用随机的方式,此时上述N为随机数。
混淆单元02用于在各文字组中混入随机文字。具体地,可以在各文字组中待显示文字之前和/或之后混入随机文字,混入的随机文字是从字库中随机选取的,目的是为了进行混淆。若切分单元01是按照预设的规则对待显示文字进行切分,那么为了避免对待显示文字的破解复制和抓取,混淆单元02混入随机文字的长度随机选取。若切分单元01采用随机切分的方式,那么在此混入随机文字的长度可以是预定长度,也可以是随机选取的长度。另外,混淆单元02还会记录混入的随机文字在各文字组中的位置和长度以供隐藏单元04后续使用。
拼接单元03用于将混入随机文字后的各文字组分别作为一个Dom节点按照切分时对应的顺序进行拼接。在将各文字组作为Dom节点时,Dom节点的类型与各文字组在页面中位置相对应,例如若某文字组中包含的待显示文字是行内元素,则将该文字组作为以<span>标识的节点。
另外,如果待显示文字在页面中以独立的文本块形式存在,那么拼接单元03还用于将拼接后得到的字符串放到一个Dom节点下,使用<div>标签标识。
隐藏单元04用于通过设置样式隐藏混入的随机文字。具体地,将Dom节点所包含待显示文字的长度设置为该Dom节点的样式属性的文本宽度值,将Dom节点中待显示文字之前混入的随机文字长度设置为该Dom节点的样式属性的首行文本缩进值。
本发明实施例所提供的上述方法和装置能够广泛的应用于包含重要信息或者需要进行知识产权保护的页面,例如酒店行业的网站上,对于客房详情的信息为酒店的重要信息,关于客房详情的文字内容就可以采用本发明实施例提供的方法和装置进行显示,能够有效地防止恶意复制和抓取。这种方式摆脱了对浏览器的依赖,降低了对用户交互上的伤害。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (8)

1.一种页面文字的显示方法,其特征在于,该方法包括:
对待显示文字进行切分,得到N个文字组,N为2以上的正整数;
在各文字组中混入随机文字;
将混入随机文字后的各文字组分别作为一个Dom节点按照切分时对应的顺序进行拼接;
将各Dom节点所包含待显示文字的长度设置为该Dom节点的样式属性的文本宽度值,将Dom节点中待显示文字之前混入的随机文字长度设置为该Dom节点的样式属性的首行文本缩进值。
2.根据权利要求1所述的方法,其特征在于,所述对待显示文字进行切分为:对待显示文字进行随机切分。
3.根据权利要求1或2所述的方法,其特征在于,所述在各文字组中混入随机文字为:在各文字组中的待显示文字之前和/或之后混入随机文字,且混入随机文字的长度随机选取。
4.根据权利要求1或2所述的方法,其特征在于,在所述将各Dom节点所包含待显示文字的长度设置为该Dom节点的样式属性的文本宽度值,将Dom节点中待显示文字之前混入的随机文字长度设置为该Dom节点的样式属性的首行文本缩进值之前还包括:将拼接后得到的字符串放到一个Dom节点下。
5.一种页面文字的显示装置,其特征在于,该装置包括:
切分单元,用于对待显示文字进行切分,得到N个文字组,N为2以上的正整数;
混淆单元,用于在各文字组中混入随机文字;
拼接单元,用于将混入随机文字后的各文字组分别作为一个Dom节点按照切分时对应的顺序进行拼接;
隐藏单元,用于将各Dom节点所包含待显示文字的长度设置为该Dom节点的样式属性的文本宽度值,将Dom节点中待显示文字之前混入的随机文字长度设置为该Dom节点的样式属性的首行文本缩进值。
6.根据权利要求5所述的装置,其特征在于,所述切分单元对待显示文字进行的切分为随机切分。
7.根据权利要求5或6所述的装置,其特征在于,所述混淆单元在各文字组中混入随机文字时,具体在各文字组中的待显示文字之前和/或之后混入随机文字,且混入随机文字的长度随机选取。
8.根据权利要求5或6所述的装置,其特征在于,所述拼接单元,还用于在所述将各Dom节点所包含待显示文字的长度设置为该Dom节点的样式属性的文本宽度值,将Dom节点中待显示文字之前混入的随机文字长度设置为该Dom节点的样式属性的首行文本缩进值之前,将拼接后得到的字符串放到一个Dom节点下。
CN201310401774.0A 2013-09-06 2013-09-06 一种页面文字的显示方法和装置 Active CN103473214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310401774.0A CN103473214B (zh) 2013-09-06 2013-09-06 一种页面文字的显示方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310401774.0A CN103473214B (zh) 2013-09-06 2013-09-06 一种页面文字的显示方法和装置

Publications (2)

Publication Number Publication Date
CN103473214A CN103473214A (zh) 2013-12-25
CN103473214B true CN103473214B (zh) 2017-04-12

Family

ID=49798073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310401774.0A Active CN103473214B (zh) 2013-09-06 2013-09-06 一种页面文字的显示方法和装置

Country Status (1)

Country Link
CN (1) CN103473214B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955632B (zh) * 2014-05-07 2018-03-06 百度在线网络技术(北京)有限公司 网页文字的加密显示方法和装置
CN107220291B (zh) * 2017-04-25 2020-12-25 深圳中兴网信科技有限公司 网页数据防抓取的方法及系统
CN110858252A (zh) * 2018-08-23 2020-03-03 北京搜狗科技发展有限公司 一种文本保护方法及相关装置
CN111291397A (zh) * 2020-02-09 2020-06-16 成都神殿科技有限责任公司 一种网页数据防爬加密方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122921A (zh) * 2007-09-21 2008-02-13 北京意科通信技术有限责任公司 基于ajax与html标记形成树形显示结构的方法
CN101640725A (zh) * 2008-07-29 2010-02-03 Lg电子株式会社 移动终端及其图像控制方法
CN102314520A (zh) * 2011-10-24 2012-01-11 莫雅静 基于统计回溯定位的网页正文提取方法和装置
CN102682097A (zh) * 2012-04-27 2012-09-19 北京神州绿盟信息安全科技股份有限公司 检测网页中暗链的方法和设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1300971A (zh) * 2000-11-20 2001-06-27 王辉 互联网网页内容保护方法
KR100683166B1 (ko) * 2006-01-04 2007-02-15 주식회사 한마로 안전서버 또는 안전서버가 탑재된 셋톱박스를 이용한 웹페이지 보호 방법
KR100932847B1 (ko) * 2007-06-26 2009-12-21 엔에이치엔(주) 복제 방지 방법 및 그 시스템
CN102567660A (zh) * 2010-12-31 2012-07-11 北京安码科技有限公司 网页文字内容防拷贝的方法及装置
CN102982046B (zh) * 2011-09-07 2017-09-26 中国移动通信集团公司 一种网页数据压缩存储方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122921A (zh) * 2007-09-21 2008-02-13 北京意科通信技术有限责任公司 基于ajax与html标记形成树形显示结构的方法
CN101640725A (zh) * 2008-07-29 2010-02-03 Lg电子株式会社 移动终端及其图像控制方法
CN102314520A (zh) * 2011-10-24 2012-01-11 莫雅静 基于统计回溯定位的网页正文提取方法和装置
CN102682097A (zh) * 2012-04-27 2012-09-19 北京神州绿盟信息安全科技股份有限公司 检测网页中暗链的方法和设备

Also Published As

Publication number Publication date
CN103473214A (zh) 2013-12-25

Similar Documents

Publication Publication Date Title
CN105577684B (zh) 防爬虫抓取的方法、服务端、客户端和系统
Mowery et al. Pixel perfect: Fingerprinting canvas in HTML5
CN102955854B (zh) 一种基于html5协议的网页展现方法及装置
CN106951451B (zh) 一种网页内容提取方法、装置及计算设备
EP3345114B1 (en) Disabling malicious browser extensions
JP2019083063A (ja) モバイル向けのおよび他の表示環境をサポートするインタラクティブなサイトおよびアプリケーションの自動変換のためのシステムおよび方法
CN103473214B (zh) 一种页面文字的显示方法和装置
CN105045645B (zh) 网页加载方法、装置及系统
JP2010515154A (ja) オブジェクト関係の視覚化
US11436520B2 (en) Redaction of artificial intelligence training documents
WO2014039399A2 (en) Method and system for monitoring advertisement displays
CN105653949B (zh) 一种恶意程序检测方法及装置
TW201003438A (en) Method and system to selectively secure the display of advertisements on web browsers
CN103955632B (zh) 网页文字的加密显示方法和装置
EP2308018A2 (en) Online ad serving
KR20130126610A (ko) 스타일 시트를 위한 식별자
CN103235719B (zh) 建立网站的方法和装置
WO2013151943A1 (en) Transmedia storytelling tracking and mapping system
CN105989166A (zh) 瀑布流式显示对象的方法、装置、系统及电子设备
CN106610994A (zh) 点击路径的统计方法和装置
CN110874456B (zh) 水印嵌入和水印提取方法、装置及数据处理方法
US9529896B2 (en) Hierarchical online-content filtering device and method
KR102042722B1 (ko) 전자책 컨텐츠 보호
CN112100551B (zh) 一种水印处理方法、装置、存储介质及计算机程序产品
JP2005134995A (ja) セキュリティ管理システム及びセキュリティ管理方法ならびにセキュリティ管理プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant