CN105224539B - 页面文件的处理方法和装置 - Google Patents
页面文件的处理方法和装置 Download PDFInfo
- Publication number
- CN105224539B CN105224539B CN201410235886.8A CN201410235886A CN105224539B CN 105224539 B CN105224539 B CN 105224539B CN 201410235886 A CN201410235886 A CN 201410235886A CN 105224539 B CN105224539 B CN 105224539B
- Authority
- CN
- China
- Prior art keywords
- identification item
- page
- identification
- format
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种页面文件的处理方法和装置。其中,该方法包括:获取页面文件中的第一标识项,第一标识项用于标识第一版式的文字内容;查询与第一标识项对应的第二标识项,第二标识项用于标识第二版式的文字内容;将页面文件中的第一标识项更新为查询到的第二标识项。本发明解决了相同文字内容但不同文字版式的页面文件的制作效率较低的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种页面文件的处理方法和装置。
背景技术
在互联网应用领域,为解决将页面中的简体字转换为繁体字的问题,为发明人所知的解决方案是预先准备两份页面文件,其中一份用来展示第一版式的文字内容,另一份用来展示第二版式的相同文字内容,例如,其中一份页面文件的主体的标题可以是简体字“说明书”,另一份页面文件的主体的标题可以是相对应的繁体字“說明書”。在上述场景下,当用户需要阅读第一版式的文字内容、或者说页面的浏览者需要浏览具有第一版式的文字内容的页面时,则可以加载第一版式对应的其中一份页面文件,当用户需要阅读第二版式的文字内容、或者说页面的浏览者需要浏览具有第二版式的文字内容的页面时,则可以加载第二版式对应的另一份页面文件。
然而在上述方案中,预先准备的两份页面文件一般是通过人工方式来准备的,具体来说,两份页面文件通常是由页面的设计人员通过重复劳动制作而成的,这就加重了页面的设计人员的负担,在付出更多人工成本的同时,也降低了页面文件的制作效率。在另一方面,对于具备向用户展示两种不同版式的文字内容的页面来说,其文件的整体大小也将翻倍,从而需要占据更多的存储空间。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种页面文件的处理方法和装置,以至少解决相同文字内容但不同文字版式的页面文件的制作效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种页面文件的处理方法,包括:获取页面文件中的第一标识项,上述第一标识项用于标识第一版式的文字内容;查询与上述第一标识项对应的第二标识项,上述第二标识项用于标识第二版式的上述文字内容;将上述页面文件中的上述第一标识项更新为查询到的上述第二标识项。
根据本发明实施例的另一方面,还提供了一种页面文件的处理装置,包括:第一获取单元,用于获取页面文件中的第一标识项,上述第一标识项用于标识第一版式的文字内容;查询单元,用于查询与上述第一标识项对应的第二标识项,上述第二标识项用于标识第二版式的上述文字内容;更新单元,用于将上述页面文件中的上述第一标识项更新为查询到的上述第二标识项。
在本发明实施例中,提供了一种自动地将用于展示第一版式的文字内容的页面文件转换为用于展示第二版式的相同文字内容的页面文件的处理方法。具体地,可以先通过对页面文件所包含的信息的搜索来确定用于标识第一版式的文字内容的第一标识项,然后利用预设的匹配机制将页面文件中的第一标识项全部替换为用于标识第二版式的相同文字内容的第二标识项。通过上述方式,则可以自动地将用于展示第一版式的文字内容的页面文件更新为用于展示第二版式的该文字内容的页面文件,从而免除了重复的人工劳动,并达到了提高页面文件的制作效率的效果,进而解决了相同文字内容但不同文字版式的页面文件的制作效率较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的页面文件的处理方法的示意图;
图2是根据本发明实施例的另一种可选的页面文件的处理方法的示意图;
图3是根据本发明实施例的一种可选的页面文件的处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种页面文件的处理方法,如图1所示,该方法包括:
S102:获取页面文件中的第一标识项,第一标识项用于标识第一版式的文字内容;
S104:查询与第一标识项对应的第二标识项,第二标识项用于标识第二版式的该文字内容;
S106:将页面文件中的第一标识项更新为查询到的第二标识项。
应当明确的是,本发明实施例所要解决的问题之一是提供一种方法,以便于通过对页面文件的处理,将基于该页面文件进行展示的页面中的文字内容从第一版式转换为第二版式,例如,在一个场景下,该第一版式可以是中文简体,该第二版式可以是中文繁体,则上述问题可以具体地表现为如何将页面中的简体字转换为繁体字的问题。
为达到这一目的,为发明人所知的解决方案是预先准备两份页面文件,其中一份用来展示第一版式的文字内容,另一份用来展示第二版式的相同文字内容,例如,其中一份页面文件的主体的标题可以是简体字“说明书”,另一份页面文件的主体的标题可以是相对应的繁体字“說明書”。在上述场景下,当用户需要阅读第一版式的文字内容、或者说页面的浏览者需要浏览具有第一版式的文字内容的页面时,则可以加载第一版式对应的其中一份页面文件,当用户需要阅读第二版式的文字内容、或者说页面的浏览者需要浏览具有第二版式的文字内容的页面时,则可以加载第二版式对应的另一份页面文件。
然而在上述方案中,预先准备的两份页面文件一般是通过人工方式来准备的,具体来说,两份页面文件通常是由页面的设计人员通过重复劳动制作而成的,这就加重了页面的设计人员的负担,在付出更多人工成本的同时,也降低了页面文件的制作效率。在另一方面,对于具备向用户展示两种不同版式的文字内容的页面来说,其文件的整体大小也将翻倍,从而需要占据更多的存储空间。
为解决上述问题,在本发明实施例中,提供了一种自动地将用于展示第一版式的文字内容的页面文件转换为用于展示第二版式的相同文字内容的页面文件的处理方法。具体地,可以先通过对页面文件所包含的信息的搜索来确定用于标识第一版式的文字内容的第一标识项,然后利用预设的匹配机制将页面文件中的第一标识项全部替换为用于标识第二版式的相同文字内容的第二标识项。通过上述方式,则可以自动地将用于展示第一版式的文字内容的页面文件更新为用于展示第二版式的该文字内容的页面文件,从而免除了重复的人工劳动,并达到了提高页面文件的制作效率的效果,进而解决了相同文字内容但不同文字版式的页面文件的制作效率较低的问题。
进一步地,在本发明实施例中,还可以结合对页面文件的实时处理和后续加载操作,以实现仅利用一份预存的用于展示第一版式的文字内容的页面文件来选择性地向用户展示第一版式或第二版式的文字内容的效果,从而无需预先准备分别对应于第一版式和第二版式的两份页面文件,这就达到了缩减页面文件的整体大小的目的,进而可以解决页面文件所占用的存储空间较多的问题。
以下将结合附图和具体的实施例对本发明技术方案及其工作原理进行更为详细的描述。
如图1所示,根据本发明实施例提供的页面文件的处理方法,在步骤S102中,可以获取页面文件中的第一标识项,其中,该第一标识项可以用于标识第一版式的文字内容。
具体来说,在本发明实施例中,第一标识项通常可以是第一版式的文字本身或者是该文字的编码,例如,以中文简体作为第一版式的情形为例,则用于标识文字内容“说明书”的第一标识项可以直接以简体中文字“说明书”的形式出现,然而其也可以表现为“4321”、“3587”和“4273”,也即简体中文字“说”、“明”和“书”各自对应的文字编码。事实上,对于计算机系统而言,该系统在对文字进行识别时,通常也会将具体的文字编译为文字编码,因此,从系统的角度,页面文件中的作为第一标识项的第一版式的文字内容本身也可以视为是其文字编码,然而本发明对此不作限定。
当然,以上只是一种示例,并不会对本发明构成限定。例如,在本发明目前或未来的一些实施例中,该第一标识项也可以具体表现为各种其他可行的形式,前提是该第一标识项能够被正确识别、并且能够起到对第一版式的文字进行标识的作用。
在另一方面,在本发明实施例中,步骤S102中所描述的对第一标识项的获取一般可以通过在页面文件对第一标识项的搜索操作来完成。具体地,该搜索操作可以是对整个页面文件的遍历,也可以采用更为复杂的搜索逻辑,例如,作为一种可选的方式,在本发明实施例中,上述步骤S102可以包括:
S2:判断多个页面元素中的任一个是否满足预设条件,该页面文件包括该多个页面元素;
S4:若该任一个满足预设条件,则在该任一个中获取第一标识项。
在本发明实施例中,可以先对页面文件中的页面元素进行遍历,并筛选出满足预设条件的页面元素,然后在筛选出的页面元素中搜索第一标识项,或者是将筛选出的页面元素的全部内容或者是与文字对应的内容作为第一标识项,这就达到了缩减搜索范围的目的,从而可以提高系统的处理速度和处理效率。具体地,对于常见的作为页面文件的超文本标记语言html(Hyper Text Markup Language)文档来说,作为上述判断的对象的页面元素具体可以是文件对象模型DOM(Document Object Model)节点,或者说页面节点,例如,在本发明的一些实施例中,可以通过步骤S2对页面文件中的所有子节点进行遍历,判断其中每个子节点是否满足预设条件,若满足,则可以通过步骤S4获取该子节点对应的文字内容、比如该子节点的一个或多个文字属性的数值作为第一标识项。更具体地,作为其中一种可选的方式,在本发明实施例中,上述步骤S4可以包括:
S6:将第一字符和/或第一字符串作为第一标识项,其中,任一个包括一个或多个第一字符,和/或一个或多个第一字符串;
其中,相对应地,步骤S104可以包括:
S8:查询与第一字符对应的第二字符和/或与第一字符串对应的第二字符串,其中,第二标识项包括一个或多个第二字符,和/或一个或多个第二字符串。
在另一方面,在本发明实施例中,设置预设条件的作用在于筛选出指定的页面元素,该指定的页面元素通常可以是用来展示文字内容的页面元素。具体来说,作为其中一种可选的方式,在本发明实施例中,上述步骤S2可以包括:
S10:判断任一个是否满足以下预设条件至少之一:任一个属于用于展示文字内容的页面元素类型、任一个对应的文字属性不为空。
在上述场景下,可以利用页面元素的类型对页面元素进行筛选。仍以html文档为例,对于html文档中的任一子节点来说,均可以针对该子节点的各属性进行判断,比如可以判断该子节点是否具有标题(title)等用于展示文字内容的属性,若具有,则可以判断出该子节点属于用于展示文字内容的页面元素类型。然而本发明的实施方式并不限于此,例如,在一些实施例中,也可以判断该子节点的节点类型属性(nodetype)的值是否为3,值为3时则表示该子节点为文字节点,从而也可以判断出该子节点属于用于展示文字内容的页面元素类型,进而判断出该子节点满足预设条件。
通过上述实施例中描述的方式,便可以完成对页面文件中的第一标识项的获取,进而可以通过步骤S104查询到与第一标识项对应的第二标识项,并通过步骤S106将页面文件中的第一标识项更新为查询到的第二标识项,以便于完成对页面文件的处理,并达到将用于展示第一版式的文字内容的页面文件转换为用于展示第二版式的相同文字内容的页面文件的目的。具体地,步骤S106中的上述更新处理可以通过简单的替换操作来完成,也即将页面文件中的第一标识项替换为对应的第二标识项,然而本发明对此不作限定。
在本发明实施例中,第二标识项可以用于标识第二版式的该文字内容。其中,类似于第一标识项对第一版式的文字内容的标识作用,第二标识项也可以起到对第二版是的文字内容的标识作用,且二者的具体表现形式均可以存在多种。换而言之,在本发明实施例中,第二标识项也可以是第二版式的文字本身或者是该文字的编码,且第一标识项和第二标识项可以用来标识相同的文字内容。例如,以中文繁体作为第二版式的情形为例,则用于标识文字内容“说明书”的第二标识项可以直接以繁体中文字“說明書”的形式出现,然而其也可以表现为繁体中文字“說”、“明”和“書”各自对应的文字编码,如BIG5编码等能够被浏览器或编译器识别的编码形式。
在另一方面,在本发明实施例中,步骤S104中所描述的查询第二标识项的操作可以有多种具体的实施方式,其可以从多种为本领域技术人员所知的可行的查询方式中选取。一般地,作为一种可选的方式,在本发明实施例中,步骤S104可以包括:
S12:根据第一集合与第二结合之间的映射关系查询第二标识项,其中,第一集合具有包括第一标识项在内的多个标识项,第二集合具有包括第二标识项在内的多个标识项。
具体来说,在本发明实施例中,计算机系统至少可以维护有两个标识项集合,也即上述第一集合和第二集合,其中,第一集合可以包括M个标识项,第二集合可以包括N个标识项,并且在第一集合与第二集合之间、或者说该M个标识项与该N个标识项之间建立有映射关系,基于该映射关系,可以查询到与第一集合中的任一标识项A对应的第二集合中的一个标识项B,则查询到的标识项B便可以视为是与标识项A对应的标识项。在上述场景下,若第一集合所包括的标识项均用于标识第一版式的文字内容,也即上述M个标识项均可以视为是第一标识项,且第二集合所包括的标识项均用于标识第二版式的对应文字内容,也即上述N个标识项均可以视为是第二标识项,则可以基于上述映射关系查询到与第一标识项对应的第二标识项,从而实现步骤S104中所描述的操作。
当然,上述查询方式只是一种示例,并非步骤S104的唯一的实现方式。在本发明实施例中,还可以通过其他可行的查询方式来获取与第一标识项对应的第二标识项,这些查询方式所涉及的映射关系也可以依赖于第一集合或第二集合之外的手段来实现,本发明对此不作任何限定。
通过以上实施例,对通过本发明实施例所提供的页面文件的处理方法进行了阐述,然而应当理解的是,上述实施例仅服务于对本发明技术方案的理解,并不应视为是对本发明的任何限定,例如,在上述实施例中,以中文简体作为第一版式、中文繁体作为第二版式为例给出了具体描述,然而在本发明的全部实施例中,第一版式并不限于是中文简体,第二版式也不限于是中文繁体,比如最简单地,二者可以进行调换,也即可以将中文繁体作为第一版式,并将中文简体作为第二版式,或者,在本发明的一些实施例中,该第一版式和第二版式分别可以表示不同的字体或字型等,版式所针对的文字也可以是中文以外的文字如英文字,等等,本发明对此均不作任何限定,类似的实施方式也均应视为是在本发明的保护范围之内。
在以上描述的基础上,在本发明实施例中,还可以结合对页面文件的实时处理和后续加载操作来完成对展示页面的实时转换,其中,该展示页面表示加载上述页面文件后所展示的页面。
具体地,作为一种可选的方式,在本发明实施例中,在步骤S102之前,上述方法还可以包括:
S14:获取用于请求展示第二版式的文字内容的消息;
S16:判断预设cookie字段是否处于预设状态,若否,则将预设cookie字段设置为预设状态;
其中,步骤S102可以包括:
S18:判断预设cookie字段是否为预设状态,若是,则获取页面文件中的第一标识项;
其中,在步骤S106之后,上述方法还可以包括:
S20:加载更新后的页面文件。
在本发明实施例中,可以利用服务器与客户端之间进行交互所需的cookie来实现对展示页面或其页面文件的当前状态进行跟踪,并可以将预设cookie字段作为对页面文件执行如前述实施例中所描述的转换处理的触发标准,相对应地,服务器或客户端则可以通过对该预设cookie字段的设置来选择是否对页面文件进行转换处理,而该设置操作可以响应于用户输入来进行,例如,用户选择展示第二版式的文字内容时,则服务器或客户端可以响应于用户的点选操作,或者说响应于对用于请求展示第二版式的文字内容的消息的获取,通过步骤S16来判断该预设cookie字段是否处于预设状态,譬如说判断其值是否为“1”,值为“1”表示当前的页面文件对应于第二版式,则无需进行转换处理,若该值不为“1”,比如为“0”或空,则表示当前的页面文件对应于第一版式,则可以进行转换处理,继续执行获取页面文件中的第一标识项的操作,并在转换处理完成后,对更新后的页面文件进行加载,以便于向用户展示第二版式的文字内容。
下面将结合附图2和一个更为具体的实施例对本发明技术方案进行更为详细的描述。在本实施例中,第一版式为中文简体,第二版式为中文繁体,页面文件为html文档。
具体地,在本实施例中,文字内容或者说简体字符串由中文简体到中文繁体转换的流程可以包括:
S22:定义两个数组A和B,分别存储常用繁体汉字的简体和繁体版本(约2553个),相同的汉字在两个数组中保持相同的顺序;
S24:定义一个转换函数translate(str),传入一个简体汉字字符串,返回对应的繁体汉字字符串;
S26:定义一个页面元素的搜索函数search(node);
S28:当捕获到用户点击标示有“转换繁体中文”的图标的事件时,调用search()函数,将页面文件的body元素作为函数参数,完成整个页面的简体中文到繁体中文的转换。
其中,如图2所示,搜索函数search(node)的执行逻辑可以包括:
S30:获取参数node的所有子节点并赋值给一个数组变量children;
S32:遍历数组children,对数组的每个元素执行以下判断逻辑:
i)如果元素为BR、HR、TEXTAREA节点,则忽略;
ii)如果元素的title属性不为空,则调用translate()函数将title转换成繁体字符串;
iii)如果元素的alt属性不为空,则调用translate()函数将alt转换成繁体字符串;
iv)如果元素为INPUT节点,且类型为"text",同时节点的value值不为空,则调用translate()函数将value值转换成繁体字符串;
v)如果元素为文字节点,即nodeType属性值为3,则调用translate()函数将元素的data值转换成繁体字符串;
vi)其他情况下,递归调用search()函数,将当前元素作为函数参数。
进一步地,在本实施例中,利用cookie记录当前站点的字体版本标识的流程可以包括:
S34:定义一个cookie字段"lang",如果lang的值为"fan",则表示当前站点是繁体版本,否则为简体版本。
S36:页面加载后,读取cookie值中的"lang"值,如果返回为空,则页面保持现状,如果返回为"fan",则调用search()函数,将body元素作为函数参数,完成整个页面的简体中文到繁体中文的转换。
S38:页面定义一个option节点,即下拉框,下拉框中有“简体中文”和“繁体中文”的选项,其中,
若用户点击“简体中文”,则执行如下判断逻辑:
vii)如果当前cookie中的"lang"值为空,则不执行任何操作;
viii)如果当前cookie中的"lang"值为"fan",则删除cookie中的"lang"字段;
ix)刷新当前窗口;
若用户点击“繁体中文”,则执行如下判断逻辑:
x)如果当前cookie中的"lang"值为空,则在cookie中增加"lang"字段,
且赋值为"fan";
xi)如果当前cookie中的"lang"值为"fan",则不执行任何操作;
xii)刷新当前窗口。
通过上述方式,便可以实现仅利用一份预存的用于展示第一版式的文字内容的页面文件来选择性地向用户展示第一版式或第二版式的文字内容的效果,从而无需预先准备分别对应于第一版式和第二版式的两份页面文件,这就达到了缩减页面文件的整体大小的目的,进而可以解决页面文件所占用的存储空间较多的问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施如实施例1所述的处理方法的页面文件的处理装置,如图3所示,该装置包括:
1)第一获取单元302,用于获取页面文件中的第一标识项,第一标识项用于标识第一版式的文字内容;
2)查询单元304,用于查询与第一标识项对应的第二标识项,第二标识项用于标识第二版式的该文字内容;
3)更新单元306,用于将页面文件中的第一标识项更新为查询到的第二标识项。
应当明确的是,本发明实施例所要解决的问题之一是提供一种装置,以便于通过对页面文件的处理,将基于该页面文件进行展示的页面中的文字内容从第一版式转换为第二版式,例如,在一个场景下,该第一版式可以是中文简体,该第二版式可以是中文繁体,则上述问题可以具体地表现为如何将页面中的简体字转换为繁体字的问题。
为达到这一目的,为发明人所知的解决方案是预先准备两份页面文件,其中一份用来展示第一版式的文字内容,另一份用来展示第二版式的相同文字内容,例如,其中一份页面文件的主体的标题可以是简体字“说明书”,另一份页面文件的主体的标题可以是相对应的繁体字“說明書”。在上述场景下,当用户需要阅读第一版式的文字内容、或者说页面的浏览者需要浏览具有第一版式的文字内容的页面时,则可以加载第一版式对应的其中一份页面文件,当用户需要阅读第二版式的文字内容、或者说页面的浏览者需要浏览具有第二版式的文字内容的页面时,则可以加载第二版式对应的另一份页面文件。
然而在上述方案中,预先准备的两份页面文件一般是通过人工方式来准备的,具体来说,两份页面文件通常是由页面的设计人员通过重复劳动制作而成的,这就加重了页面的设计人员的负担,在付出更多人工成本的同时,也降低了页面文件的制作效率。在另一方面,对于具备向用户展示两种不同版式的文字内容的页面来说,其文件的整体大小也将翻倍,从而需要占据更多的存储空间。
为解决上述问题,在本发明实施例中,提供了一种自动地将用于展示第一版式的文字内容的页面文件转换为用于展示第二版式的相同文字内容的页面文件的处理装置。具体地,可以先通过对页面文件所包含的信息的搜索来确定用于标识第一版式的文字内容的第一标识项,然后利用预设的匹配机制将页面文件中的第一标识项全部替换为用于标识第二版式的相同文字内容的第二标识项。通过上述方式,则可以自动地将用于展示第一版式的文字内容的页面文件更新为用于展示第二版式的该文字内容的页面文件,从而免除了重复的人工劳动,并达到了提高页面文件的制作效率的效果,进而解决了相同文字内容但不同文字版式的页面文件的制作效率较低的问题。
进一步地,在本发明实施例中,还可以结合对页面文件的实时处理和后续加载操作,以实现仅利用一份预存的用于展示第一版式的文字内容的页面文件来选择性地向用户展示第一版式或第二版式的文字内容的效果,从而无需预先准备分别对应于第一版式和第二版式的两份页面文件,这就达到了缩减页面文件的整体大小的目的,进而可以解决页面文件所占用的存储空间较多的问题。
以下将结合附图和具体的实施例对本发明技术方案及其工作原理进行更为详细的描述。
如图1所示,根据本发明实施例提供的页面文件的处理装置,通过第一获取单元302,可以获取页面文件中的第一标识项,其中,该第一标识项可以用于标识第一版式的文字内容。
具体来说,在本发明实施例中,第一标识项通常可以是第一版式的文字本身或者是该文字的编码,例如,以中文简体作为第一版式的情形为例,则用于标识文字内容“说明书”的第一标识项可以直接以简体中文字“说明书”的形式出现,然而其也可以表现为“4321”、“3587”和“4273”,也即简体中文字“说”、“明”和“书”各自对应的文字编码。事实上,对于计算机系统而言,该系统在对文字进行识别时,通常也会将具体的文字编译为文字编码,因此,从系统的角度,页面文件中的作为第一标识项的第一版式的文字内容本身也可以视为是其文字编码,然而本发明对此不作限定。
当然,以上只是一种示例,并不会对本发明构成限定。例如,在本发明目前或未来的一些实施例中,该第一标识项也可以具体表现为各种其他可行的形式,前提是该第一标识项能够被正确识别、并且能够起到对第一版式的文字进行标识的作用。
在另一方面,在本发明实施例中,第一获取单元302所执行的对第一标识项的获取操作一般可以通过在页面文件对第一标识项的搜索操作来完成。具体地,该搜索操作可以是对整个页面文件的遍历,也可以采用更为复杂的搜索逻辑,例如,作为一种可选的方式,在本发明实施例中,第一获取单元302可以包括:
1)第一判断模块,用于判断多个页面元素中的任一个是否满足预设条件,该页面文件包括该多个页面元素;
2)获取模块,用于在该任一个满足预设条件时,在该任一个中获取第一标识项。
在本发明实施例中,可以先对页面文件中的页面元素进行遍历,并筛选出满足预设条件的页面元素,然后在筛选出的页面元素中搜索第一标识项,或者是将筛选出的页面元素的全部内容或者是与文字对应的内容作为第一标识项,这就达到了缩减搜索范围的目的,从而可以提高系统的处理速度和处理效率。具体地,对于常见的作为页面文件的html文档来说,作为上述判断的对象的页面元素具体可以是DOM节点,或者说页面节点,例如,在本发明的一些实施例中,可以通过第一判断模块对页面文件中的所有子节点进行遍历,判断其中每个子节点是否满足预设条件,若满足,则可以通过获取模块获取该子节点对应的文字内容、比如该子节点的一个或多个文字属性的数值作为第一标识项。更具体地,作为其中一种可选的方式,在本发明实施例中,上述获取模块可以包括:
1)获取子模块,用于将第一字符和/或第一字符串作为第一标识项,其中,任一个包括一个或多个第一字符,和/或一个或多个第一字符串;
其中,相对应地,查询单元304可以包括:
1)查询模块,用于查询与第一字符对应的第二字符和/或与第一字符串对应的第二字符串,其中,第二标识项包括一个或多个第二字符,和/或一个或多个第二字符串。
在另一方面,在本发明实施例中,设置预设条件的作用在于筛选出指定的页面元素,该指定的页面元素通常可以是用来展示文字内容的页面元素。具体来说,作为其中一种可选的方式,在本发明实施例中,上述第一判断模块可以包括:
判断子模块,用于判断所述任一个是否满足以下预设条件至少之一:所述任一个属于用于展示文字内容的页面元素类型、所述任一个对应的文字属性不为空。
在上述场景下,可以利用页面元素的类型对页面元素进行筛选。仍以html文档为例,对于html文档中的任一子节点来说,均可以针对该子节点的各属性进行判断,比如可以判断该子节点是否具有标题(title)等用于展示文字内容的属性,若具有,则可以判断出该子节点属于用于展示文字内容的页面元素类型。然而本发明的实施方式并不限于此,例如,在一些实施例中,也可以判断该子节点的节点类型属性(nodetype)的值是否为3,值为3时则表示该子节点为文字节点,从而也可以判断出该子节点属于用于展示文字内容的页面元素类型,进而判断出该子节点满足预设条件。
通过上述实施例中描述的方式,便可以完成对页面文件中的第一标识项的获取,进而可以通过查询单元304查询到与第一标识项对应的第二标识项,并通过更新单元306将页面文件中的第一标识项更新为查询到的第二标识项,以便于完成对页面文件的处理,并达到将用于展示第一版式的文字内容的页面文件转换为用于展示第二版式的相同文字内容的页面文件的目的。具体地,更新单元306所执行的上述更新处理可以通过简单的替换操作来完成,也即将页面文件中的第一标识项替换为对应的第二标识项,然而本发明对此不作限定。
在本发明实施例中,第二标识项可以用于标识第二版式的该文字内容。其中,类似于第一标识项对第一版式的文字内容的标识作用,第二标识项也可以起到对第二版是的文字内容的标识作用,且二者的具体表现形式均可以存在多种。换而言之,在本发明实施例中,第二标识项也可以是第二版式的文字本身或者是该文字的编码,且第一标识项和第二标识项可以用来标识相同的文字内容。例如,以中文繁体作为第二版式的情形为例,则用于标识文字内容“说明书”的第二标识项可以直接以繁体中文字“說明書”的形式出现,然而其也可以表现为繁体中文字“說”、“明”和“書”各自对应的文字编码,如BIG5编码等能够被浏览器或编译器识别的编码形式。
在另一方面,在本发明实施例中,查询单元304所执行的查询第二标识项的操作可以有多种具体的实施方式,其可以从多种为本领域技术人员所知的可行的查询方式中选取。一般地,作为一种可选的方式,在本发明实施例中,查询单元304可以包括:
1)查询模块,用于根据第一集合与第二结合之间的映射关系查询第二标识项,其中,第一集合具有包括第一标识项在内的多个标识项,第二集合具有包括第二标识项在内的多个标识项。
具体来说,在本发明实施例中,计算机系统至少可以维护有两个标识项集合,也即上述第一集合和第二集合,其中,第一集合可以包括M个标识项,第二集合可以包括N个标识项,并且在第一集合与第二集合之间、或者说该M个标识项与该N个标识项之间建立有映射关系,基于该映射关系,可以查询到与第一集合中的任一标识项A对应的第二集合中的一个标识项B,则查询到的标识项B便可以视为是与标识项A对应的标识项。在上述场景下,若第一集合所包括的标识项均用于标识第一版式的文字内容,也即上述M个标识项均可以视为是第一标识项,且第二集合所包括的标识项均用于标识第二版式的对应文字内容,也即上述N个标识项均可以视为是第二标识项,则可以基于上述映射关系查询到与第一标识项对应的第二标识项,从而实现查询单元304中所描述的操作。
当然,上述查询方式只是一种示例,并非查询单元304的唯一的实现方式。在本发明实施例中,还可以通过其他可行的查询方式来获取与第一标识项对应的第二标识项,这些查询方式所涉及的映射关系也可以依赖于第一集合或第二集合之外的手段来实现,本发明对此不作任何限定。
通过以上实施例,对通过本发明实施例所提供的页面文件的处理装置进行了阐述,然而应当理解的是,上述实施例仅服务于对本发明技术方案的理解,并不应视为是对本发明的任何限定,例如,在上述实施例中,以中文简体作为第一版式、中文繁体作为第二版式为例给出了具体描述,然而在本发明的全部实施例中,第一版式并不限于是中文简体,第二版式也不限于是中文繁体,比如最简单地,二者可以进行调换,也即可以将中文繁体作为第一版式,并将中文简体作为第二版式,或者,在本发明的一些实施例中,该第一版式和第二版式分别可以表示不同的字体或字型等,版式所针对的文字也可以是中文以外的文字如英文字,等等,本发明对此均不作任何限定,类似的实施方式也均应视为是在本发明的保护范围之内。
在以上描述的基础上,在本发明实施例中,还可以结合对页面文件的实时处理和后续加载操作来完成对展示页面的实时转换,其中,该展示页面表示加载上述页面文件后所展示的页面。
具体地,作为一种可选的方式,在本发明实施例中,与第一获取单元302耦合地,上述装置还可以包括:
第二获取单元,用于获取用于请求展示第二版式的文字内容的消息;
判断单元,用于判断预设cookie字段是否处于预设状态,若否,则将预设cookie字段设置为预设状态;
其中,第一获取单元302可以包括:
第二判断模块,用于判断预设cookie字段是否为预设状态,若是,则获取页面文件中的第一标识项;
其中,与更新单元306耦合地,上述装置还可以包括:
1)加载单元,用于加载更新后的页面文件。
在本发明实施例中,可以利用服务器与客户端之间进行交互所需的cookie来实现对展示页面或其页面文件的当前状态进行跟踪,并可以将预设cookie字段作为对页面文件执行如前述实施例中所描述的转换处理的触发标准,相对应地,服务器或客户端则可以通过对该预设cookie字段的设置来选择是否对页面文件进行转换处理,而该设置操作可以响应于用户输入来进行,例如,用户选择展示第二版式的文字内容时,则服务器或客户端可以响应于用户的点选操作,或者说响应于对用于请求展示第二版式的文字内容的消息的获取,通过步骤S16来判断该预设cookie字段是否处于预设状态,譬如说判断其值是否为“1”,值为“1”表示当前的页面文件对应于第二版式,则无需进行转换处理,若该值不为“1”,比如为“0”或空,则表示当前的页面文件对应于第一版式,则可以进行转换处理,继续执行获取页面文件中的第一标识项的操作,并在转换处理完成后,对更新后的页面文件进行加载,以便于向用户展示第二版式的文字内容。
通过上述方式,便可以实现仅利用一份预存的用于展示第一版式的文字内容的页面文件来选择性地向用户展示第一版式或第二版式的文字内容的效果,从而无需预先准备分别对应于第一版式和第二版式的两份页面文件,这就达到了缩减页面文件的整体大小的目的,进而可以解决页面文件所占用的存储空间较多的问题。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的服务器和客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种页面文件的处理方法,其特征在于,包括:
获取页面文件中的第一标识项,所述第一标识项用于标识第一版式的文字内容;其中,所述获取页面文件中的第一标识项包括:判断预设cookie字段是否为预设状态,若是,则获取所述页面文件中的所述第一标识项;判断多个页面元素中的任一个是否满足预设条件,所述页面文件包括所述多个页面元素;若所述任一个满足所述预设条件,则在所述任一个中获取所述第一标识项;其中,所述页面元素为文件对象模型节点;其中,所述判断多个页面元素中的任一个是否满足预设条件包括:判断所述任一个是否满足以下预设条件至少之一:所述任一个属于用于展示文字内容的页面元素类型、所述任一个对应的文字属性不为空;
查询与所述第一标识项对应的第二标识项,所述第二标识项用于标识第二版式的所述文字内容,其中,所述查询与所述第一标识项对应的第二标识项,包括:调用转换函数将所述第一标识项转换成所述第二标识项;
将所述页面文件中的所述第一标识项更新为查询到的所述第二标识项。
2.根据权利要求1所述的方法,其特征在于,
所述在所述任一个中获取所述第一标识项包括:将第一字符和/或第一字符串作为所述第一标识项,其中,所述任一个包括一个或多个所述第一字符,和/或一个或多个所述第一字符串;
所述查询与所述第一标识项对应的第二标识项包括:查询与所述第一字符对应的第二字符和/或与所述第一字符串对应的第二字符串,其中,所述第二标识项包括一个或多个所述第二字符,和/或一个或多个所述第二字符串。
3.根据权利要求1所述的方法,其特征在于,所述查询与所述第一标识项对应的第二标识项还包括:
根据第一集合与第二集合之间的映射关系查询所述第二标识项,其中,所述第一集合具有包括所述第一标识项在内的多个标识项,所述第二集合具有包括所述第二标识项在内的多个标识项。
4.根据权利要求1至3中任一项所述的方法,其特征在于,
在所述获取页面文件中的第一标识项之前,所述方法还包括:获取用于请求展示所述第二版式的所述文字内容的消息;判断所述预设cookie字段是否处于所述预设状态,若否,则将所述预设cookie字段设置为所述预设状态;
其中,在所述将所述页面文件中的所述第一标识项更新为查询到的所述第二标识项之后,所述方法还包括:加载更新后的所述页面文件。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述第一版式包括中文简体、所述第二版式包括中文繁体,和/或,所述第一版式包括中文繁体,所述第二版式 包括中文简体。
6.一种页面文件的处理装置,其特征在于,包括:
第一获取单元,用于获取页面文件中的第一标识项,所述第一标识项用于标识第一版式的文字内容;
查询单元,用于查询与所述第一标识项对应的第二标识项,所述第二标识项用于标识第二版式的所述文字内容,其中,所述查询与所述第一标识项对应的第二标识项,包括:调用转换函数将所述第一标识项转换成所述第二标识项;
更新单元,用于将所述页面文件中的所述第一标识项更新为查询到的所述第二标识项;
其中,所述第一获取单元包括:第一判断模块,用于判断多个页面元素中的任一个是否满足预设条件,所述页面文件包括所述多个页面元素;获取模块,用于在所述任一个满足所述预设条件时,在所述任一个中获取所述第一标识项;所述页面元素为文件对象模型节点;
所述第一判断模块包括:判断子模块,用于判断所述任一个是否满足以下预设条件至少之一:所述任一个属于用于展示文字内容的页面元素类型、所述任一个对应的文字属性不为空;
所述第一获取单元包括:第二判断模块,用于判断预设cookie字段是否为预设状态,若是,则获取所述页面文件中的所述第一标识项。
7.根据权利要求6所述的装置,其特征在于,
所述获取模块包括:获取子模块,用于将第一字符和/或第一字符串作为所述第一标识项,其中,所述任一个包括一个或多个所述第一字符,和/或一个或多个所述第一字符串;
所述查询单元包括:查询模块,用于查询与所述第一字符对应的第二字符和/或与所述第一字符串对应的第二字符串,其中,所述第二标识项包括一个或多个所述第二字符,和/或一个或多个所述第二字符串。
8.根据权利要求6所述的装置,其特征在于,所述查询单元包括:
查询模块,用于根据第一集合与第二集合之间的映射关系查询所述第二标识项,其中,所述第一集合具有包括所述第一标识项在内的多个标识项,所述第二集合具有包括所述第二标识项在内的多个标识项。
9.根据权利要求6至8中任一项所述的装置,其特征在于,
所述装置还包括:第二获取单元,用于获取用于请求展示所述第二版式的所述文字内容的消息;判断单元,用于判断预设cookie字段是否处于预设状态,若否,则将所述预设cookie字段设置为所述预设状态;
其中,所述装置还包括:加载单元,用于加载更新后的所述页面文件。
10.根据权利要求6至8中任一项所述的装置,其特征在于,所述第一版式包括中文简体、所述第二版式包括中文繁体,和/或,所述第一版式包括中文繁体,所述第二版式 包括中文简体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410235886.8A CN105224539B (zh) | 2014-05-29 | 2014-05-29 | 页面文件的处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410235886.8A CN105224539B (zh) | 2014-05-29 | 2014-05-29 | 页面文件的处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105224539A CN105224539A (zh) | 2016-01-06 |
CN105224539B true CN105224539B (zh) | 2021-05-11 |
Family
ID=54993516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410235886.8A Active CN105224539B (zh) | 2014-05-29 | 2014-05-29 | 页面文件的处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105224539B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844346A (zh) * | 2016-09-20 | 2018-03-27 | 天脉聚源(北京)科技有限公司 | 一种移动网页元素显示动态效果的方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1577325A (zh) * | 2003-07-10 | 2005-02-09 | 国际商业机器公司 | 繁体中文字/简体中文字翻译方法 |
CN1786956A (zh) * | 2005-12-09 | 2006-06-14 | 王宏源 | 搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法 |
CN101859295A (zh) * | 2009-04-07 | 2010-10-13 | 英业达股份有限公司 | 具标记提示的简繁字词转换系统及其方法 |
CN102929852A (zh) * | 2012-10-15 | 2013-02-13 | 福建榕基软件股份有限公司 | 一种在富文本编辑器内实现简繁体字互转的方法及系统 |
CN103514152A (zh) * | 2012-06-21 | 2014-01-15 | 香港城市大学 | 简繁中文转换中的标识追踪方法及装置 |
-
2014
- 2014-05-29 CN CN201410235886.8A patent/CN105224539B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1577325A (zh) * | 2003-07-10 | 2005-02-09 | 国际商业机器公司 | 繁体中文字/简体中文字翻译方法 |
CN1786956A (zh) * | 2005-12-09 | 2006-06-14 | 王宏源 | 搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法 |
CN101859295A (zh) * | 2009-04-07 | 2010-10-13 | 英业达股份有限公司 | 具标记提示的简繁字词转换系统及其方法 |
CN103514152A (zh) * | 2012-06-21 | 2014-01-15 | 香港城市大学 | 简繁中文转换中的标识追踪方法及装置 |
CN102929852A (zh) * | 2012-10-15 | 2013-02-13 | 福建榕基软件股份有限公司 | 一种在富文本编辑器内实现简繁体字互转的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105224539A (zh) | 2016-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10466983B2 (en) | Responsive self-service website template | |
JP6488508B2 (ja) | ウェブページのアクセス方法、装置、デバイス及びプログラム | |
EP2987088B1 (en) | Client side page processing | |
CA2687483C (en) | Method and system for desktop tagging of a web page | |
US20100235411A1 (en) | Systems and methods for creating a customized website | |
CN104142826A (zh) | 页面的构建方法、装置及系统 | |
KR101569984B1 (ko) | 웹 스크래핑 추출 데이터 설정 방법 | |
CN108334508B (zh) | 网页信息的提取方法和装置 | |
CN106547749B (zh) | 网页数据采集的方法和装置 | |
CN107305527B (zh) | 代码文件的处理方法和装置 | |
CN108446136B (zh) | 一种元素代码的提取方法及系统 | |
CN110209378A (zh) | 页面生成方法、装置、终端及存储介质 | |
CN111258577B (zh) | 页面渲染方法、装置、电子设备和存储介质 | |
CN110968813A (zh) | 一种索引页面展示方法及装置 | |
CN107526755B (zh) | 数据的处理方法及装置 | |
CN104063498A (zh) | 浏览器书签的搜索方法和装置 | |
KR20170073693A (ko) | 유사 그룹 요소 추출 | |
CN105653678A (zh) | 数据图表订阅方法及数据图表订阅系统 | |
CN113360106B (zh) | 一种网页打印方法和装置 | |
CN112825038A (zh) | 基于通用组件语言规范的可视化页面制作方法和相关产品 | |
US10706124B2 (en) | Storage and retrieval of structured content in unstructured user-editable content stores | |
CN105224539B (zh) | 页面文件的处理方法和装置 | |
CN106933928B (zh) | 基于外部数据文件的任务存储方法及装置 | |
CN114706580A (zh) | 前端网页开发方法、装置、存储介质和电子设备 | |
CN113468443A (zh) | 页面返回方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |