CN104182424A - 适用于移动终端的网页处理方法和服务器 - Google Patents

适用于移动终端的网页处理方法和服务器 Download PDF

Info

Publication number
CN104182424A
CN104182424A CN201310202688.7A CN201310202688A CN104182424A CN 104182424 A CN104182424 A CN 104182424A CN 201310202688 A CN201310202688 A CN 201310202688A CN 104182424 A CN104182424 A CN 104182424A
Authority
CN
China
Prior art keywords
node
page
district
webpage
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310202688.7A
Other languages
English (en)
Other versions
CN104182424B (zh
Inventor
甘玉珏
郝颖
杨杰
卢燕青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201310202688.7A priority Critical patent/CN104182424B/zh
Publication of CN104182424A publication Critical patent/CN104182424A/zh
Application granted granted Critical
Publication of CN104182424B publication Critical patent/CN104182424B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种适用于移动终端的网页处理方法和服务器,涉及移动互联网技术领域。该方法通过对互联网页面类型的识别与划分,将互联网页面区分为导航页和正文页两大类别,再根据页面类别识别出的页面关键区块,选择对应的重排规则进行页面重新排版,使页面内容的排版能更贴合页面内容特点,适应手机屏幕宽度,方便用户的阅读,提高用户的页面浏览体验。解决了现有手机浏览器对互联网原始页面不区分页面类型,对所有页面使用同样的重排规则导致重排效果不佳等问题。

Description

适用于移动终端的网页处理方法和服务器
技术领域
本发明涉及移动互联网技术领域,特别涉及一种适用于移动终端的网页处理方法和服务器。
背景技术
随着无线互联网的发展,越来越多的人们选择用移动终端浏览互联网网页内容。
目前互联网页面都是面向PC(Personal Computer,个人电脑)进行排版和设计的,用户使用移动终端的狭小屏幕浏览互联网页面的时候通常会感到不适;宽大的互联网页面在手机上通常需要左右移动才能看全整,而缩小显示页面又会看不清楚;用户使用手机浏览互联网页面的体验并不是十分理想。
目前常见的移动终端网页排版方法分两种:一种是将每个区块按屏幕尺寸大小进行压缩,不区分页面类型,每个区块按同样的规则进行重排;另一种是保持界面结构不变,将页面按一定比例整体压缩。
发明内容
本发明的发明人发现上述现有技术中存在问题,并因此针对所述问题中的至少一个问题提出了一种新的技术方案。
本发明的一个目的是提供一种适用于移动终端的网页处理的技术方案。
根据本发明的第一方面,提供了一种适用于移动终端的网页处理方法,包括:
根据网页中标记数量和文字数量将网页确定为导航页或正文页;
对于导航页,提取网页中的商标图片和文字区、导航区、版权声明区、和剩余区;
对于正文页,提取网页中的商标图片和文字区、正文标题区和正文内容区、版权声明区、和剩余区;
将网页的各个区分别进行适应于移动终端的显示屏幕的排版。
可选地,根据网页中标记数量和文字数量将网页确定为导航页或正文页包括:
统计网页中标记的个数;
统计网页中文字的数量;
如果网页中文字的数量与网页中标记的个数之比大于预定阈值,则确定网页为正文页,否则,确定网页为导航页。
可选地,将网页的各个区分别进行适应于移动终端的显示屏幕的排版包括:
将正文标题换行居中排列;将正文内容换行排列,并对正文内容添加“word-break:break-all”属性以适应移动终端的显示屏幕的宽度换行
对于商标图片和文字区中宽度大于移动终端的显示屏幕宽度的图片,缩小图片使得图片的宽度等于移动终端的显示屏幕;
对于导航区中宽度大于移动终端的显示屏幕的宽度的HTML标记对象,将HTML标记对象的宽度调整为移动终端的显示屏幕的宽度。
可选地,将网页的各个区分别进行适应于移动终端的显示屏幕的排版包括:
对于导航页,按从上到下的次序,将商标图片和文字区排在最上面,换行排列导航区,换行排列剩余部分,换行居中排列版权声明区;
对于正文页,按从上到下的次序,将商标图片和文字区排在最上面,换行排列导航区,换行居中排列文本标题区,换行排列文本正文区,换行排列剩余部分,换行居中排列版权声明区。
可选地,对于正文页提取网页的正文标题区包括:
获取页面的“title”标记包括的文字作为正文标题区;
对于正文页提取网页的正文内容区包括:
在页面DOM(Document Object Model,文件对象模型)树型结构的“body”标记节点下,忽略脚本和注释,遍历统计各个节点包含的文字数量;
选取值最大的节点和节点的子节点作为正文内容区,其中为节点的子节点i包含的文字数量,Nm为节点下包括的子节点数量;
提取网页的商标图片和文字区包括:
在页面DOM树型结构的“body”标记节点下,用商标图片和文字区关键字集合中的关键字遍历匹配节点的属性值;
匹配到节点时,选取值最大的节点及其子节点作为商标图片和文字区,其中NL为该节点下包括的匹配到商标图片和文字区关键字的节点数量,Nm为该节点下包括的子节点数量;
提取网页的导航区包括:
在页面DOM树型结构的body标记节点下,定位所有文字数小于5的超级链接,即短链接;
如果定位到短链接,选取值最大的节点及其子节点作为导航区,其中,Ns为该节点包含的短链接数量,Nm为该节点下包括的子节点数量;
提取网页的版权声明区包括:
在页面DOM树型结构的body标记节点下,用具有版权声明属性的关键字遍历匹配节点的属性值;
如果匹配到节点,选取值最大的节点及其子节点作为版权声明区,其中NC为该节点下包括的匹配到版权声明区关键字的节点数量,Nm为该节点下包括的子节点数量。
根据本发明的另一方面,提供一种应用于移动终端的网页处理服务器,包括:
网页类型确定模块,用于根据网页中标记数量和文字数量将网页确定为导航页或正文页;
网页区域提取模块,用于对于导航页,提取网页中的商标图片和文字区、导航区、版权声明区、和剩余区;对于正文页,提取网页中的商标图片和文字区、正文标题区、正文内容区、版权声明区、和剩余区;
网页区域重排模块,用于将网页的各个区分别进行适应于移动终端的显示屏幕的排版。
可选地,网页类型确定模块包括:
标记提取单元,用于统计网页中标记的个数;
文字提取单元,用于统计网页中文字的数量;
类型确定单元,用于如果网页中文字的数量与网页中标记的个数之比大于预定阈值,则确定网页为正文页,否则,确定网页为导航页。
可选地,网页区域重排模块包括:
正文重排单元,用于将正文标题换行居中排列;将正文内容换行排列,并对正文内容添加“word-break:break-all”属性以适应移动终端的显示屏幕的宽度换行
图片重排单元,用于对于商标图片和文字区中宽度大于移动终端的显示屏幕宽度的图片,缩小图片使得图片的宽度等于移动终端的显示屏幕;
链接重排单元,用于对于导航区中宽度大于移动终端的显示屏幕的宽度的HTML标记对象,将HTML标记对象的宽度调整为移动终端的显示屏幕的宽度。
可选地,网页区域重排模块对于导航页,按从上到下的次序,将商标图片和文字区排在最上面,换行排列导航区,换行排列剩余部分,换行居中排列版权声明区;对于正文页,按从上到下的次序,将商标图片和文字区排在最上面,换行排列导航区,换行居中排列文本标题区,换行排列文本正文区,换行排列剩余部分,换行居中排列版权声明。
可选地,网页区域提取模块包括:
正文标题提取单元,用于获取页面的“title”标记包括的文字作为正文标题区;
正文内容提取单元,用于在页面DOM树型结构的“body”标记节点下,忽略脚本和注释,遍历统计各个节点包含的文字数量;选取值最大的节点和节点的子节点作为正文内容区,其中为节点的子节点i包含的文字数量,Nm为节点下包括的节点数量;
商标文字提取单元,用于在页面DOM树型结构的“body”标记节点下,用商标图片和文字区关键字集合中的关键字遍历匹配节点的属性值;匹配到节点时,选取值最大的节点及其子节点作为商标图片和文字区,其中NL为该节点下包括的匹配到商标图片和文字区关键字的节点数量,Nm为该节点下包括的子节点数量;
导航区提取单元,用于在页面DOM树型结构的body标记节点下,定位所有文字数小于5的超级链接,即短链接;如果定位到短链接,选取值最大的节点及其子节点作为导航区,其中Ns为该节点包含的短链接数量,Nm为该节点下包括的子节点数量;
版权声明区提取单元,用于在页面DOM树型结构的body标记节点下,用具有版权声明属性的关键字遍历匹配节点的属性值;如果匹配到节点,选取值最大的节点及其子节点作为版权声明区,其中NC为该节点下包括的匹配到版权声明区关键字的节点数量,Nm为该节点下包括的子节点数量。
本发明的一个优点在于,通过根据页面类别提取页面关键区块,选择对应的重排规则进行页面重新排版,使页面内容的排版能更贴合页面内容特点,适应手机屏幕宽度,方便用户的阅读。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同说明书一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1示出根据本发明的适用于移动终端的网页处理方法的一个实施例的流程图。
图2示出根据本发明的适用于移动终端的网页处理方法的另一个实施例的流程图。
图3A示出根据本发明一个例子的导航页重排示意图。
图3B示出根据本发明一个例子的正文页重排示意图。
图4示出根据本发明的服务器的一个实施例的结构图。
图5示出根据本发明的服务器的另一个实施例的结构图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1示出根据本发明的适用于移动终端的网页处理方法的一个实施例的流程图。
如图1所示,步骤102,根据网页中标记数量和文字数量将网页确定为导航页或正文页。
步骤104,对于导航页,提取网页中的商标图片和文字区、导航区、版权声明区、和剩余区;
步骤106,对于正文页,提取网页中的商标图片和文字区、正文标题区和正文内容区、版权声明区、和剩余区;
步骤108,将网页的各个区分别进行适应于移动终端的显示屏幕的排版。
上述实施例中,针对网页特点对网页进行类型划分和区域提取,然后针对移动终端的显示屏幕对网页的各个区域进行重新排版,使互联网页面更适合在移动终端屏幕上展示,从而提高各种型号移动终端浏览互联网页面体验。
图2示出根据本发明的适用于移动终端的网页处理方法的另一个实施例的流程图。该实施例中对一个输入的互联网页面进行重新排版,大致分为三个部分:1.区分该页面的类型;2.识别该页面的关键区域;3.对页面进行重新排版。
如图2所示,步骤202,统计页面标记和页面中标记的个数。
页面标记指HTML(超文本标记语言)规范定义的所有标记;将页面解析生成DOM树,统计得到该DOM树下所有节点的数量,即得到该页面的标记数量,记为Nm
然后,统计页面中的文字数量;将页面解析生成DOM树,忽略脚本(script标记节点包含的文字)和注释(由“<!--”和“-->”包括起来的文字),统计得到该DOM树下其他所有节点包含的文字数量,即得到该页面的文字数量,记为Nw
步骤204,判断页面是导航页还是正文页。如果是导航页,继续步骤206a,如果是正文页,继续步骤206b。
根据预先确定的阈值d,判断则认为该页面的类型为“正文页”;否则,认为该页面的类型为“导航页”;这里d是经验值,d例如取值9、8、7或10等。d取值过大会造成“正文页”的漏识率过大,d取值过小会造成“正文页”的误识率过大。
下面识别和分割页面的关键区块。
步骤206a,分析导航页区块。
对于“导航页”,依次识别分割出页面的商标图片和文字区(本方法定义该区为L区)、导航区(本方法定义该区为N区)、页尾版权声明区(本方法定义该区为C区)三个主要区域;然后加上剩余部分(本方法定义该区为R区),共将页面划分为四部分。
步骤206b,分析正文页区块。
对于“正文页”,依次识别分割出页面的商标图片和文字(L区)、导航区(N区)、正文标题(本方法定义该区为T区)、正文内容(本方法定义该区为B区)、页尾版权声明区(C区)五个主要区域;然后加上剩余部分(R区)共六部分。
下面介绍一种识别L、N、T、B、C区的具体实现方法。
(a).识别L区
首先,在页面DOM树型结构的body标记节点下,用L区关键字集合中的关键字遍历匹配节点的属性值。L区关键字集合例如包括“logo、trademark、brand”等,该集合能够配置以便加入新的关键字。
匹配到节点时,选取值最大的节点及其子节点作为L区,其中NL为该节点下包括的匹配到L区关键字的节点数量,Nm为该节点下包括的节点数量;没有匹配到节点时,设该页面L区为空。
(b).识别N区
在页面DOM树型结构的body标记节点下,定位所有文字数小于5的超级链接,即“短链接”。
定位到“短链接”时,选取值最大的节点及其子节点作为N区,其中Ns为该节点包含的“短链接”数量,Nm为该节点下包括的节点数量;没有定位到“短链接”时或则Ns<4,设该页面N区为空。
(c).识别C区
在页面DOM树型结构的body标记节点下,用C区关键字集合中的关键字遍历匹配节点的属性值,C区关键字集合例如包括“copyright、copy right、&copy、all rights reserved”等,该集合能够配置以便加入新的关键字。
匹配到节点时,选取值最大的节点及其子节点作为C区,其中NC为该节点下包括的匹配到C区关键字的节点数量,Nm为该节点下包括的子节点数量;没有匹配到节点或则NC<2时,设该页面C区为空。
(d).识别T区
步骤1.获取页面的title标记包括的文字;
步骤2.没有匹配时,设该页面T区为空;如果匹配到该字符串,则将该字符串所处的节点定义为T区。
(e).识别B区
步骤1.在页面DOM树型结构的body标记节点下,忽略脚本(script标记节点包含的文字)和注释(由“<!--”和“-->”包括起来的文字),遍历统计各个节点包含的文字数量;
步骤2.选取值最大的节点及其子节点作为B区,其中为该节点的子节点i包含的文字数量,Nm为该节点下包括的子节点数量。
下面对划分不同区块的页面进行重新排版。
步骤208a,对导航页排版。
对于“导航页”,一种排版方式是:按从上到下的次序,将L区排在最上面,然后换行排列N区,然后换行排列R区,然后换行居中排列C区。图3A示出导航页重排的一个例子的示意图。上述排列方式适合通常的浏览习惯,方便用户阅读。
步骤208b,对正文页排版。
对于“正文页”,一种排版方式是:按从上到下的次序,将L区排在最上面,然后换行排列N区,然后换行居中排列T区,然后换行排列B区,然后换行排列R区,然后换行居中排列C区。图3B示出正文页重排的一个例子的示意图。上述排列方式适合通常的浏览习惯,方便用户阅读。
步骤210,调整页面元素。
在对“导航页”和“正文页”区块排版后,针对手机屏幕尺寸排版,使页面显示在手机上时不会超出屏幕宽度,记手机屏幕宽度为W,处理如下:
a.对于宽度大于W的图片,将图片的宽高同比缩小,使该图片的宽度等于W;
b.对于宽度大于W的HTML标记对象,包括但不局限于table、div以及span,将这些对象的宽度属性调整为W个像素;
c.对于超过8个字符的文字添加“word-break:break-all”属性,使其能够适应屏幕的宽度换行。
图4示出根据本发明的服务器的一个实施例的结构图。如图4所示,该服务器包括:网页类型确定模块41,用于根据网页中标记数量和文字数量将网页确定为导航页或正文页;网页区域提取模块42,用于对于导航页,提取网页中的商标图片和文字区、导航区、版权声明区、和剩余区;对于正文页,提取网页中的商标图片和文字区、正文标题区、正文内容区、版权声明区、和剩余区;网页区域重排模块43,用于将网页的各个区分别进行适应于移动终端的显示屏幕的排版。
在一个实施例中,网页区域重排模块对于导航页,按从上到下的次序,将商标图片和文字区排在最上面,换行排列导航区,换行排列剩余部分,换行居中排列版权声明区;对于正文页,按从上到下的次序,将商标图片和文字区排在最上面,换行排列导航区,换行居中排列文本标题区,换行排列文本正文区,换行排列剩余部分,换行居中排列版权声明。
图5示出根据本发明的服务器的另一个实施例的结构图。如图5所示,在一个实施例中,网页类型确定模块51包括:标记提取单元511,用于统计网页中标记的个数;文字提取单元512,用于统计网页中文字的数量;类型确定单元513,用于如果网页中文字的数量与网页中标记的个数之比大于预定阈值,则确定网页为正文页,否则,确定网页为导航页。
在一个实施例中,网页区域重排模块53包括:正文重排单元531,用于将正文标题换行居中排列;将正文内容换行排列,并对正文内容添加“word-break:break-all”属性以适应移动终端的显示屏幕的宽度换行;图片重排单元532,用于对于商标图片和文字区中宽度大于移动终端的显示屏幕宽度的图片,缩小图片使得图片的宽度等于移动终端的显示屏幕;链接重排单元533,用于对于导航区中宽度大于移动终端的显示屏幕的宽度的HTML标记对象,将HTML标记对象的宽度调整为移动终端的显示屏幕的宽度。
在一个实施例中,网页区域提取模块52包括:正文标题提取单元521,用于获取页面的“title”标记包括的文字作为正文标题区;正文内容提取单元522,用于在页面DOM树型结构的“body”标记节点下,忽略脚本和注释,遍历统计各个节点包含的文字数量;选取值最大的节点和节点的子节点作为正文内容区,其中为节点的子节点i包含的文字数量,Nm为节点下包括的节点数量;商标文字提取单元523,用于在页面DOM树型结构的“body”标记节点下,用商标图片和文字区关键字集合中的关键字遍历匹配节点的属性值;匹配到节点时,选取值最大的节点及其子节点作为商标图片和文字区,其中NL为该节点下包括的匹配到商标图片和文字区关键字的节点数量,NM为该节点下包括的子节点数量;导航区提取单元524,用于在页面DOM树型结构的body标记节点下,定位所有文字数小于5的超级链接,即短链接;如果定位到短链接,选取值最大的节点及其子节点作为导航区,其中Ns为该节点包含的短链接数量,Nm为该节点下包括的子节点数量;版权声明区提取单元525,用于在页面DOM树型结构的body标记节点下,用具有版权声明属性的关键字遍历匹配节点的属性值;如果匹配到节点,选取值最大的节点及其子节点作为版权声明区,其中NC为该节点下包括的匹配到版权声明区关键字的节点数量,Nm为该节点下包括的子节点数量。
针对现有手机浏览器对互联网原始页面浏览效果不佳等问题,通过对互联网页面类型的识别与划分,将互联网页面区分为导航页和正文页两大类别,根据页面类别提取页面关键区块,选择对应的重排规则进行页面重新排版,使页面内容的排版能更贴合页面内容特点,适应手机屏幕宽度,方便用户的阅读,提高用户的页面浏览体验。
需要指出,图4、图5中各个模块或单元的功能或者作用,可以参见上文中方法实施例的对应描述,为简洁起见在此不再详细描述。
至此,已经详细描述了根据本发明的适用于移动终端的网页处理方法和服务器。为了避免遮蔽本发明的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本发明的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种适用于移动终端的网页处理方法,其特征在于,包括:
根据网页中标记数量和文字数量将所述网页确定为导航页或正文页;
对于导航页,提取所述网页中的商标图片和文字区、导航区、版权声明区、和剩余区;
对于正文页,提取所述网页中的商标图片和文字区、正文标题区和正文内容区、版权声明区、和剩余区;
将所述网页的各个区分别进行适应于所述移动终端的显示屏幕的排版。
2.根据权利要求1所述的方法,其特征在于,所述根据网页中标记数量和文字数量将所述网页确定为导航页或正文页包括:
统计所述网页中标记的个数;
统计所述网页中文字的数量;
如果所述网页中文字的数量与所述网页中标记的个数之比大于预定阈值,则确定所述网页为正文页,否则,确定所述网页为导航页。
3.根据权利要求1所述的方法,其特征在于,将所述网页的各个区分别进行适应于所述移动终端的显示屏幕的排版包括:
将所述正文标题区换行居中排列;将所述正文内容区换行排列,并对所述正文内容区添加“word-break:break-all”属性以适应所述移动终端的显示屏幕的宽度换行
对于所述商标图片和文字区中宽度大于所述移动终端的显示屏幕宽度的图片,缩小所述图片使得所述图片的宽度等于所述移动终端的显示屏幕;
对于所述导航区中宽度大于所述移动终端的显示屏幕的宽度的超文本标记语言HTML标记对象,将所述HTML标记对象的宽度调整为所述移动终端的显示屏幕的宽度。
4.根据权利要求1所述的方法,其特征在于,将所述网页的各个区分别进行适应于所述移动终端的显示屏幕的排版包括:
对于导航页,按从上到下的次序,将商标图片和文字区排在最上面,换行排列导航区,换行排列剩余部分,换行居中排列版权声明区;
对于正文页,按从上到下的次序,将商标图片和文字区排在最上面,换行排列导航区,换行居中排列文本标题区,换行排列文本正文区,换行排列剩余部分,换行居中排列版权声明区。
5.根据权利要求1所述的方法,其特征在于,
对于正文页提取所述网页的正文标题区包括:
获取页面的“title”标记包括的文字作为正文标题区;
对于正文页提取所述网页的正文内容区包括:
在页面文件对象模型DOM树型结构的“body”标记节点下,忽略脚本和注释,遍历统计各个节点包含的文字数量;
选取值最大的节点和所述节点的子节点作为正文内容区,其中,为所述节点的子节点i包含的文字数量,Nm为所述节点下包括的子节点数量;
提取所述网页的商标图片和文字区包括:
在页面DOM树型结构的“body”标记节点下,用商标图片和文字区关键字集合中的关键字遍历匹配节点的属性值;
匹配到节点时,选取值最大的节点及其子节点作为商标图片和文字区,其中,NL为所述节点下包括的匹配到商标图片和文字区关键字的节点数量,Nm为该节点下包括的子节点数量;
提取所述网页的导航区包括:
在页面DOM树型结构的“body”标记节点下,定位所有文字数小于5的超级链接,即短链接;
如果定位到短链接,选取值最大的节点及其子节点作为导航区,其中Ns为所述节点包含的短链接数量,Nm为所述节点下包括的子节点数量;
提取所述网页的版权声明区包括:
在页面DOM树型结构的“body”标记节点下,用具有版权声明属性的关键字遍历匹配节点的属性值;
如果匹配到节点,选取值最大的节点及其子节点作为版权声明区,其中,NC为所述节点下包括的匹配到版权声明区关键字的节点数量,Nm为所述节点下包括的子节点数量。
6.一种应用于移动终端的网页处理服务器,其特征在于,包括:
网页类型确定模块,用于根据网页中标记数量和文字数量将所述网页确定为导航页或正文页;
网页区域提取模块,用于对于导航页,提取所述网页中的商标图片和文字区、导航区、版权声明区、和剩余区;对于正文页,提取所述网页中的商标图片和文字区、正文标题区、正文内容区、版权声明区、和剩余区;
网页区域重排模块,用于将所述网页的各个区分别进行适应于所述移动终端的显示屏幕的排版。
7.根据权利要求6所述的服务器,其特征在于,所述网页类型确定模块包括:
标记提取单元,用于统计所述网页中标记的个数;
文字提取单元,用于统计所述网页中文字的数量;
类型确定单元,用于如果所述网页中文字的数量与所述网页中标记的个数之比大于预定阈值,则确定所述网页为正文页,否则,确定所述网页为导航页。
8.根据权利要求6所述的服务器,其特征在于,所述网页区域重排模块包括:
正文重排单元,用于将所述正文标题区换行居中排列;将所述正文内容区换行排列,并对所述正文内容区添加“word-break:break-all”属性以适应所述移动终端的显示屏幕的宽度换行;
图片重排单元,用于对于所述商标图片和文字区中宽度大于所述移动终端的显示屏幕宽度的图片,缩小所述图片使得所述图片的宽度等于所述移动终端的显示屏幕;
链接重排单元,用于对于所述导航区中宽度大于所述移动终端的显示屏幕的宽度的超文本标记语言HTML标记对象,将所述HTML标记对象的宽度调整为所述移动终端的显示屏幕的宽度。
9.根据权利要求6所述的服务器,其特征在于,所述网页区域重排模块对于导航页,按从上到下的次序,将商标图片和文字区排在最上面,换行排列导航区,换行排列剩余部分,换行居中排列版权声明区;对于正文页,按从上到下的次序,将商标图片和文字区排在最上面,换行排列导航区,换行居中排列文本标题区,换行排列文本正文区,换行排列剩余部分,换行居中排列版权声明。
10.根据权利要求6所述的服务器,其特征在于,所述网页区域提取模块包括:
正文标题提取单元,用于获取页面的“title”标记包括的文字作为正文标题区;
正文内容提取单元,用于在页面文件对象模型DOM树型结构的“body”标记节点下,忽略脚本和注释,遍历统计各个节点包含的文字数量;选取值最大的节点和所述节点的子节点作为正文内容区,其中,为所述节点的子节点i包含的文字数量,Nm为所述节点下包括的节点数量;
商标文字提取单元,用于在页面DOM树型结构的“body”标记节点下,用商标图片和文字区关键字集合中的关键字遍历匹配节点的属性值;匹配到节点时,选取值最大的节点及其子节点作为商标图片和文字区,其中,NL为所述节点下包括的匹配到商标图片和文字区关键字的节点数量,Nm为所述节点下包括的子节点数量;
导航区提取单元,用于在页面DOM树型结构的“body”标记节点下,定位所有文字数小于5的超级链接,即短链接;如果定位到短链接,选取值最大的节点及其子节点作为导航区,其中,Ns为所述节点包含的短链接数量,Nm为所述节点下包括的子节点数量;
版权声明区提取单元,用于在页面DOM树型结构的“body”标记节点下,用具有版权声明属性的关键字遍历匹配节点的属性值;如果匹配到节点,选取值最大的节点及其子节点作为版权声明区,其中,NC为所述节点下包括的匹配到版权声明区关键字的节点数量,Nm为所述节点下包括的子节点数量。
CN201310202688.7A 2013-05-28 2013-05-28 适用于移动终端的网页处理方法和服务器 Active CN104182424B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310202688.7A CN104182424B (zh) 2013-05-28 2013-05-28 适用于移动终端的网页处理方法和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310202688.7A CN104182424B (zh) 2013-05-28 2013-05-28 适用于移动终端的网页处理方法和服务器

Publications (2)

Publication Number Publication Date
CN104182424A true CN104182424A (zh) 2014-12-03
CN104182424B CN104182424B (zh) 2017-09-29

Family

ID=51963475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310202688.7A Active CN104182424B (zh) 2013-05-28 2013-05-28 适用于移动终端的网页处理方法和服务器

Country Status (1)

Country Link
CN (1) CN104182424B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975462A (zh) * 2015-09-11 2016-09-28 乐视致新电子科技(天津)有限公司 网页页面的显示方法和装置、及智能电视系统
CN107562348A (zh) * 2017-09-07 2018-01-09 北京小米移动软件有限公司 内容显示方法及装置
CN110059272A (zh) * 2018-11-02 2019-07-26 阿里巴巴集团控股有限公司 一种页面特征识别方法和装置
CN111708960A (zh) * 2020-06-18 2020-09-25 北京搜狗科技发展有限公司 一种网页处理方法、装置和用于网页处理的装置
CN112084451A (zh) * 2020-09-16 2020-12-15 哈尔滨工业大学 一种基于视觉分块的网页logo提取系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101526953A (zh) * 2009-01-19 2009-09-09 北京跳网无限科技发展有限公司 Www转换技术
US20110161806A1 (en) * 2009-12-29 2011-06-30 Olive Software Inc. System and method for providing online versions of print-medium publications
CN102184249A (zh) * 2011-05-23 2011-09-14 广州市动景计算机科技有限公司 基于移动终端的网页排版方法和装置
CN102663023A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种提取网页内容的实现方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101526953A (zh) * 2009-01-19 2009-09-09 北京跳网无限科技发展有限公司 Www转换技术
US20110161806A1 (en) * 2009-12-29 2011-06-30 Olive Software Inc. System and method for providing online versions of print-medium publications
CN102184249A (zh) * 2011-05-23 2011-09-14 广州市动景计算机科技有限公司 基于移动终端的网页排版方法和装置
CN102663023A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种提取网页内容的实现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王璟琦: "《基于内容单元的网页解析与内容提取》", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975462A (zh) * 2015-09-11 2016-09-28 乐视致新电子科技(天津)有限公司 网页页面的显示方法和装置、及智能电视系统
CN107562348A (zh) * 2017-09-07 2018-01-09 北京小米移动软件有限公司 内容显示方法及装置
CN107562348B (zh) * 2017-09-07 2022-03-18 北京小米移动软件有限公司 内容显示方法及装置
CN110059272A (zh) * 2018-11-02 2019-07-26 阿里巴巴集团控股有限公司 一种页面特征识别方法和装置
CN110059272B (zh) * 2018-11-02 2023-08-15 创新先进技术有限公司 一种页面特征识别方法和装置
CN111708960A (zh) * 2020-06-18 2020-09-25 北京搜狗科技发展有限公司 一种网页处理方法、装置和用于网页处理的装置
CN112084451A (zh) * 2020-09-16 2020-12-15 哈尔滨工业大学 一种基于视觉分块的网页logo提取系统及方法

Also Published As

Publication number Publication date
CN104182424B (zh) 2017-09-29

Similar Documents

Publication Publication Date Title
CN102253979B (zh) 基于视觉的web页面萃取方法
CN102663023B (zh) 一种提取网页内容的实现方法
US10185782B2 (en) Mode identification for selective document content presentation
US9141332B2 (en) Masking sensitive information in a screen sharing session
WO2014127535A1 (en) Systems and methods for automated content generation
CN109543126B (zh) 基于块文字占比的网页正文信息提取方法
JP6334697B2 (ja) ディスプレイコンテンツのイメージを抽出し、生成するシステムおよび方法
CA2918840C (en) Presenting fixed format documents in reflowed format
CN104182424A (zh) 适用于移动终端的网页处理方法和服务器
Peters et al. Content extraction using diverse feature sets
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
US20070157081A1 (en) Browser with screen-reading function and browsing processing method
CN103577466A (zh) 一种在浏览器中显示网页内容的方法和装置
CN109492177B (zh) 一种基于网页语义结构的网页分块方法
CN103064845B (zh) 网页信息处理装置和网页信息处理方法
WO2017008448A1 (zh) 一种网页核心内容提取方法
CN103942211B (zh) 一种正文页的识别方法及装置
CN104915422A (zh) 基于浏览器的网页收藏方法和装置
CN103440239A (zh) 一种基于功能区域识别的网页切分方法及装置
CN106446139A (zh) 一种提取网页内容的方法及装置
WO2012012949A1 (en) Visual separator detection in web pages by using code analysis
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
CN106777281B (zh) 用于提高网络爬虫稳定性、可用性的数据处理方法及装置
CN103455572B (zh) 获取网页中影视主体的方法及装置
CN102073710A (zh) 一种网页分割方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant