CN103577466B - 一种在浏览器中显示网页内容的方法和装置 - Google Patents

一种在浏览器中显示网页内容的方法和装置 Download PDF

Info

Publication number
CN103577466B
CN103577466B CN201210274520.2A CN201210274520A CN103577466B CN 103577466 B CN103577466 B CN 103577466B CN 201210274520 A CN201210274520 A CN 201210274520A CN 103577466 B CN103577466 B CN 103577466B
Authority
CN
China
Prior art keywords
webpage
text
node
content type
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210274520.2A
Other languages
English (en)
Other versions
CN103577466A (zh
Inventor
张宁
刘钟书
王文明
刘帅
李山
李一山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210274520.2A priority Critical patent/CN103577466B/zh
Priority to PCT/CN2013/080470 priority patent/WO2014019506A1/en
Publication of CN103577466A publication Critical patent/CN103577466A/zh
Priority to PH12015500139A priority patent/PH12015500139A1/en
Priority to US14/608,779 priority patent/US20150143230A1/en
Application granted granted Critical
Publication of CN103577466B publication Critical patent/CN103577466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种在浏览器中显示网页内容的方法和装置,该方法包括:获取用户请求读取的网页;判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文,并在浏览器中以预设阅读模式输出所述标题和正文。本发明能够过滤掉网页中正文以外的无用信息。

Description

一种在浏览器中显示网页内容的方法和装置
技术领域
本申请涉及网络技术领域,特别涉及一种在浏览器中显示网页内容的方法和装置。
背景技术
当前互联网中,存在大量的内容型网页(例如提供新闻、小说等内容的网页),用户在浏览内容型网页时,主要关注的对象是网页中的文章。在内容型网页中往往包含大量的广告等的正文以外的信息,这些正文以外的信息给用户的阅读带来了很多干扰。
为了减少网页中正文以外的信息给用户带来的干扰,目前,一些浏览器(例如Chrome)使用插件对网页中的广告信息进行过滤,可以在一定程度上减少广告信息对用户的阅读带来的干扰。然而,这种使用插件对广告信息进行过滤的方法只能有限的减少干扰,并不能提供纯粹的阅读模式,使用户在浏览内容型网站时不受无用信息的干扰。
发明内容
有鉴于此,本申请的目的在于提供一种提升浏览器的阅读体验的方法,该方法能够过滤掉网页中正文以外的无用信息。
为了达到上述目的,本申请提供了一种在浏览器中显示网页内容的方法,该方法包括:
获取用户请求读取的网页;
判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文,并在浏览器中以预设阅读模式输出所述标题和正文。
预先针对每个网站中使用同一模版的所有内容型网页建立一条匹配规则,所述匹配规则包括键值对,其中,键包括使用该模版的内容型网页的统一资源定位符URL匹配规则,值包括使用该模版的内容型网页的标题位置信息和正文位置信息;
所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:使用预先建立的每条匹配规则中的键与所述网页的URL进行匹配,如果匹配成功,则确定该网页是内容型网页,根据该条匹配规则中的标题位置信息和正文位置信息获取所述网页的标题和正文。
所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:将所述网页解析成文当对象模型DOM树,获取DOM树中的每个节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果该节点的视觉属性值超过预设正文视觉属性值,则确定该网页是内容型网页,提取视觉属性值大于预设正文视觉属性值的节点的文本作为该网页的正文,若DOM树中存在标签为一级标题h1的节点,则提取标签为h1的节点的文本作为该网页的标题。
所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:将所述网页解析成DOM树,提取DOM树中每个节点的文本,如果该节点的文本中包括超过预设个数的标点符号,则确定该网页是内容型网页,将该节点的文本作为该网页的正文,若DOM树中存在标签为h1的节点,则提取标签为h1的节点的文本作为该网页的标题。
所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:将所述网页解析成DOM树,如果DOM树中存在标签为文章article的节点,则确定该网页为内容型网页,提取标签为article的节点的文本作为该网页的正文,若DOM树中存在标签为h1的节点,则提取标签为h1的节点的文本作为该网页的标题。
所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:将所述网页解析成DOM树,并计算DOM树中的每个节点的正文权值,如果该节点的正文权值大于预设正文权值,则确定该网页是内容型网页,提取该节点的正文作为该网页的正文,若DOM树中存在标签为h1的节点,则提取标签为h1的节点的文本作为该网页的标题;
其中,计算DOM树中的每个节点的正文权值,包括:获取该节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果视觉属性值大于预设正文视觉属性值,则将该节点的正文权值增加预设第一权值;如果该节点的标签为article,则将该节点的正文权值增加预设第二权值;提取该节点的文本信息,如果该节点的文本中存在超过预设个数的标点符号,则将该节点的正文权值增加预设第三权值。
所述在浏览器中以预设阅读模式输出所述标题和正文的方法为:使用内嵌框架iframe载入预设阅读模式模板页面,将所述标题和正文填充到预设阅读模式模板页面。
本申请还提供了一种浏览器,该浏览器包括:网页获取单元、正文提取单元、输出单元;
所述网页获取单元,用于获取用户请求读取的网页;
所述正文提取单元,用于判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文;
所述输出单元,用于在浏览器中以预设阅读模式输出正文提取单元从所述网页中提取的标题和正文。
所述规则建立单元,用于预先针对每个网站中使用同一模版的所有内容型网页建立一条匹配规则,所述匹配规则包括键值对,其中,键包括使用该模版的内容型网页的URL匹配规则,值包括使用该模版的内容型网页的标题位置信息和正文位置信息;
所述正文提取单元在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:使用预先建立的每条匹配规则中的键与所述网页的统一资源定位符URL进行匹配,如果匹配成功,则确定该网页是内容型网页,根据该条匹配规则中的标题位置信息和正文位置信息获取所述网页的标题和正文。
所述正文提取单元在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成文档对象模型DOM树,获取DOM树中的每个节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果该节点的视觉属性值超过预设正文视觉属性值,则确定该网页是内容型网页,提取视觉属性值大于预设正文视觉属性值的节点的文本作为该网页的正文,若DOM树中存在标签为一级标题h1的节点,则提取标签为h1的节点的文本作为该网页的标题。
所述正文提取单元在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成DOM树,提取DOM树中每个节点的文本,如果该节点的文本中包括超过预设个数的标点符号,则确定该网页是内容型网页,将该节点的文本作为该网页的正文,若DOM树中存在标签为h1的节点,则提取标签为h1的节点的文本作为该网页的标题。
所述正文提取单元在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成DOM树,如果DOM树中存在标签为文章article的节点,则确定该网页为内容型网页,提取标签为article的节点的文本作为该网页的正文,若DOM树中存在标签为h1的节点,则提取标签为h1的节点的文本作为该网页的标题。
所述正文提取单元在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成DOM树,并计算DOM树中的每个节点的正文权值,如果该节点的正文权值大于预设正文权值,则确定该网页是内容型网页,提取该节点的正文作为该网页的正文,若DOM树中存在标签为h1的节点,则提取标签为h1的节点的文本作为该网页的标题;
其中,计算DOM树中的每个节点的正文权值,包括:获取该节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果视觉属性值大于预设正文视觉属性值,则将该节点的正文权值增加预设第一权值;如果该节点的标签为article,则将该节点的正文权值增加预设第二权值;提取该节点的文本信息,如果该节点的文本中存在超过预设个数的标点符号,则将该节点的正文权值增加预设第三权值。
所述输出单元在浏览器中以预设阅读模式输出正文提取单元从所述网页中提取的标题和正文时,用于:使用内嵌框架iframe载入预设阅读模式模板页面,将所述标题和正文填充到预设阅读模式模板页面。
由上面的技术方案可知,本申请中,获取用户请求的网页后,如果判定网页是内容型网页,则提取网页的标题和正文并在浏览器中输出提取的标题和正文,从而实现过滤网页中正文以外的无用信息,使用户在浏览内容型网页时可以不受无用信息的干扰的目的。
附图说明
图1是本发明实施例在浏览器中显示网页内容的方法流程图;
图2是本发明实施例提供的浏览器的架构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图并举实施例,对本发明的技术方案进行详细说明。
参见图1,图1是本发明实施例在浏览器中显示网页内容的方法流程图,主要包括以下几个步骤:
步骤101、获取用户请求读取的网页;
当用户需要浏览某一网页时,需要在浏览器的统一资源定位符(URL)地址栏中输入该网页的URL地址或点击该网页的链接,以触发浏览器获取该网页的过程。
步骤102、判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文,并在浏览器中以预设阅读模式输出所述标题和正文。
这里,所述内容型网页是指以文章作为主体的网页,包括较多的文字内容,例如提供新闻、小说、资讯(例如博客)等内容的网页,均属于内容型网页。这类网页中通常都有广告等干扰信息,本实施例中通过提取标题和正文的方式去除网页中的干扰信息。
本实施例中,只对内容型网页的标题和正文进行提取,需要判断网页是否是内容型网页,如果是内容型网页,才会在浏览器中输出从网页中提取的标题和正文。
图1所示本发明实施例中,判断网页是否是内容型网页,当网页是内容型网页时,按照预设规则从网页中提取标题和正文的方法有多种,下面分别进行说明:
第一种:针对每个网站中使用相同模版的内容型网页建立匹配规则,根据匹配规则进行标题和正文的判断和提取。
在实际应用中,每个网站中,对于同一类型网页往往使用相同的模版,对于同一网站中使用相同模版的内容型网页,每个网页的标题所在的位置、正文所在的位置均相同,可以将内容型网页解析成文档对象模型(Document Object Model,DOM)树,则每个网页的标题所在的DOM树节点以及正文所在的DOM树节点均相同。基于该特点,可以针对每个网站中使用同一模版的所有内容型网页建立一条匹配规则,所述匹配规则包括键值对,所述健值对包括健和值,其中,键包括使用该模版的内容型网页的URL匹配规则,这里的URL匹配规则可以是使用该模版的所有内容型网页的URL的正则表达式,例如:http:\/\/news.com\/\d{8,8}\/\d+.htm/i;值包括使用该模版的内容型网页的标题位置信息和正文位置信息,例如:{title:′#id:article h1′,content:′#id:article,class:content′},表示标题所在的DOM树节点为标识(id)属性为文章(article)的节点的子节点:一级标题(h1)节点,正文所在的DOM树节点为id属性为article、class属性为content的节点。
这种情况下,所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:使用预先建立的每条匹配规则中的键与所述网页的URL进行匹配,如果匹配成功,则根据该条匹配规则中的标题位置信息和正文位置信息获取所述网页的标题和正文(也即提取标题所在的DOM树节点的文本作为该网页的标题,提取正文所在DOM树节点的文本作为该网页的正文)。
这种针对每个网站中使用相同模版的内容型网页建立一条匹配规则的方法是由人工设定和更新规则,准确率比较高。
第二种:根据网页渲染的视觉效果的智能算法策略进行标题和正文的判断和提取。
在实际应用中,在内容型网页中,正文内容通常占用显示区域的主要部分,例如在显示区域的第一屏。基于该特点,可以将网页解析成DOM树,获取DOM树中的每个节点的位置信息(包括该节点的文本占用的宽度、高度、以及字体大小等),根据该节点的位置信息计算该节点的视觉属性值,如果该节点的视觉属性值大于预设正文视觉属性值的节点,则可以确定该网页是内容型网页,可以提取视觉属性值大于预设正文视觉属性值的节点的文本作为该网页的正文,这里,节点的视觉属性值表明了该节点在网页中的位置与网页的主要显示区域的位置关系,其值越大,表明节点在网页中的位置越接近网页的主要显示区域的中心位置,其值越小,表明节点在网页中的位置越远离网页的主要显示区域的中心位置;另外,网页的标题通常位于标签h1(<h1>标题</h1>)中,当该网页是内容型网页时,如果DOM树中存在标签为h1的节点,则可以提取标签为h1的节点的文本作为该网页的标题。
其中,根据DOM树中每个节点的位置信息计算该节点的视觉属性值可以采用以下公式:
ViewValue=a÷(height×width)×fondsize,其中,ViewValue表示节点的视觉属性值,height表示节点的文本占用的高度,width表示节点的文本占用的宽度,fondsize表示节点的文本的字体大小,a为调节系数,初始值为预设初始值(例如1),当该节点的id属性为article、入口(entry)、提交(post)、正文体(body)、列(column)、主(main)、或上下文(content)时,将a的值增加第一预设调节系数(例如0.4);当该节点的类(class)属性为article、entry、post、body、column、main、或content时,将a的值增加第一预设调节系数;当该节点的id属性为注释(comment)、组合框(combobox)、disqus(一种名位disqus的第三方评注插件系统)、脚注(foot)、头注(header)、菜单(menu)、聚合(rss)、免费资源网路社群(shoutbox)、侧边栏(sidebar)、或感应器(sponsor)时,将a的值减去第二预设调节系数(例如0.8),当该节点的Class属性为comment、combobox、disqus、foot、header、menu、rss、shoutbox、sidebar、或sponsor时,将a的值减去第二预设调节系数。
下面对上述公式举例说明:
假设网页中包括如下源代码:<div id=“article”,class=“post”>文本内容</div>,则将网页解析成DOM树后,该部分内容将会被解析为标签为div的节点,该节点的id属性为article,该节点的class属性为post,则a=1+0.4+0.4=1.8;
再假设网页中包括如下源代码:<div id=“comment”,class=“post”>文本内容</div>,则将网页解析成DOM树后,该部分内容将会被解析为标签为div的节点,该节点的id属性为comment,该节点的class属性为post,则a=1+0.4-0.8=0.6。
第三种:基于正文中包括多个标点符号的判断准则进行标题和正文的判断和提取。
在实际应用中,网页的正文中往往会包括很多标点符号。基于该特点,可以将网页解析成DOM树,提取DOM树中的每个节点的文本,如果该节点的文本中包括超过预设个数的标点符号的节点,则可以确定该网页是内容型网页,可以将该节点的文本作为该网页的正文,另外,当该网页是内容型网页时,如果DOM树中存在标签为h1的节点,则可以提取标签为h1的节点的文本作为该网页的标题。
第四种,基于网页中的标签的语义进行标题和正文的判断和提取。
网页中的各标签都具有一定的语义,例如h1标签代表网页的标题,article表示网页的正文,如果网页中正确使用了各标签,则可以根据各标签的语义提取出网页的正文和标题。具体地,可以将所述网页解析成DOM树,如果DOM树中存在标签为article的标签,则可以确定该网页是内容型网页,可以提取标签为article的节点的文本作为该网页的正文,另外,当该网页是内容型网页时,如果DOM树中存在标签为h1的节点,则可以提取标签为h1的节点的文本作为该网页的标题。
第五种:基于上述第二、三、四种方法的综合考虑进行标题和正文的判断和提取。
实际上,上述第二、三、四种方法均可以完成标题和正文的判断和提取,然而却不能保证结果的正确性,可以通过对该三种方法进行综合考虑,计算加权平均值,则可以更精确的进行标题和正文的判断和提取。
所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文具体包括:将所述网页解析成DOM树,并计算DOM树中的每个节点的正文权值,如果该节点的正文权值大于预设正文权值,则确定该网页是内容型网页,提取该节点的正文作为该网页的正文,若DOM树中存在标签为h1的节点,则提取标签为h1的节点的文本作为该网页的标题;
其中,计算DOM树中的每个节点的正文权值,包括:获取该节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果视觉属性值大于预设正文视觉属性值,则将该节点的正文权值增加预设第一权值;如果该节点的标签为article,则将该节点的正文权值增加预设第二权值;提取该节点的文本信息,如果该节点的文本中存在超过预设个数的标点符号,则将该节点的正文权值增加预设第三权值。
图1所示本发明实施例中,可以预先设定阅读模式模板页面,该模板页面中可以对标题以及正文的字体类型、字体大小、字体颜色、正文之间的行距、页边距等进行设置。这样,可以使用内嵌框架(iframe)载入预设阅读模式模板页面,将标题和正文填充到预设阅读模式模板中,从而实现在浏览器中以预设阅读模式显示网页的内容。
综上所述,本发明中,当获取到用户请求读取的网页内容后,当判断确定网页是内容型网页后,可以利用内容型网页的特性(例如标题和正文所在的标签,标题和正文位于网页显示区域的第一屏等)来获取网页的标题和正文,然后再利用预设阅读模式在浏览器中显示网页的标题和正文,从而达到去除网页中的无用信息,只将网页的主要内容显示给用户,使用户在浏览内容型网页时可以不受无用信息的干扰的目的。
以上对本发明实施例提升浏览器的阅读体验的方法进行了详细说明,本发明还提供了一种浏览器,下面结合图2进行说明。
图2是本发明实施例提供的浏览器的架构示意图,该浏览器包括网页获取单元201、正文提取单元202、输出单元203;其中,
网页获取单元201,用于获取用户请求读取的网页;
正文提取单元202,用于判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文;
输出单元203,用于在浏览器中以预设阅读模式输出正文提取单元从所述网页中提取的标题和正文。
该浏览还包括规则建立单元204;
所述规则建立单元204,用于预先针对每个网站中使用同一模版的所有内容型网页建立一条匹配规则,所述匹配规则包括键值对,其中,键包括使用该模版的内容型网页的URL匹配规则,值包括使用该模版的内容型网页的标题位置信息和正文位置信息;
所述正文提取单元202在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:使用预先建立的每条匹配规则中的键与所述网页的URL进行匹配,如果匹配成功,则确定该网页是内容型网页,根据该条匹配规则中的标题位置信息和正文位置信息获取所述网页的标题和正文。
上述浏览器中,所述正文提取单元202在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成DOM树,获取DOM树中的每个节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果该节点的视觉属性值超过预设正文视觉属性值,则确定该网页是内容型网页,提取视觉属性值大于预设正文视觉属性值的节点的文本作为该网页的正文,若DOM树中存在标签为h1的节点,则提取标签为h1的节点的文本作为该网页的标题。
上述浏览器中,所述正文提取单元202在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成DOM树,提取DOM树中每个节点的文本,如果该节点的文本中包括超过预设个数的标点符号,则确定该网页是内容型网页,将该节点的文本作为该网页的正文,若DOM树中存在标签为h1的节点,则提取标签为h1的节点的文本作为该网页的标题。
上述浏览器中,所述正文提取单元202在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成DOM树,如果DOM树中存在标签为article的节点,则确定该网页为内容型网页,提取标签为article的节点的文本作为该网页的正文,若DOM树中存在标签为h1的节点,则提取标签为h1的节点的文本作为该网页的标题。
上述浏览器中,所述正文提取单元202在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成DOM树,并计算DOM树中的每个节点的正文权值,如果该节点的正文权值大于预设正文权值,则确定该网页是内容型网页,提取该节点的正文作为该网页的正文,若DOM树中存在标签为h1的节点,则提取标签为h1的节点的文本作为该网页的标题;
其中,计算DOM树中的每个节点的正文权值,包括:获取该节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果视觉属性值大于预设正文视觉属性值,则将该节点的正文权值增加预设第一权值;如果该节点的标签为article,则将该节点的正文权值增加预设第二权值;提取该节点的文本信息,如果该节点的文本中存在超过预设个数的标点符号,则将该节点的正文权值增加预设第三权值。
上述浏览器中,所述正文提取单元202在根据该节点的位置信息计算该节点的视觉属性值时,用于采用以下公式:
ViewValue=a÷(height×width)×fondsize,其中,ViewValue表示节点的视觉属性值,height表示节点的文本占用的高度,width表示节点的文本占用的宽度,fondsize表示节点的文本的字体大小;a为调节系数,初始值为预设初始值,当该节点的id属性包括article、entry、post、body、column、main、或content时,将a的值增加第一预设调节系数;当该节点的class属性包括article、entry、post、body、column、main、或content时,将a的值增加第一预设调节系数;当该节点的id属性包括comment、combx、disqus、foot、header、menu、rss、shoutbox、sideba、或sponsor时,将a的值减去第二预设调节系数,当该节点的Class属性包括comment、combx、disqus、foot、header、menu、rss、shoutbox、sideba、或sponsor时,将a的值减去第二预设调节系数。
上述浏览器中,所述输出单元203在浏览器中以预设阅读模式输出正文提取单元从所述网页中提取的标题和正文时,用于:使用内嵌框iframe载入预设阅读模式模板页面,将所述标题和正文填充到预设阅读模式模板页面。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (4)

1.一种在浏览器中显示网页内容的方法,其特征在于,该方法包括:
获取用户请求读取的网页;
判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文,并在浏览器中以预设阅读模式输出所述标题和正文;
其中,
所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:使用预先建立的每条匹配规则中的键与所述网页的URL进行匹配,如果匹配成功,则确定该网页是内容型网页,根据该条匹配规则中的标题位置信息和正文位置信息获取所述网页的标题和正文;其中,每条匹配规则是预先针对每个网站中使用同一模版的所有内容型网页建立的,包括键值对,键包括使用该模版的内容型网页的统一资源定位符URL匹配规则,值包括使用该模版的内容型网页的标题位置信息和正文位置信息;
或者,
所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:将所述网页解析成DOM树,提取DOM树中每个节点的文本,如果该节点的文本中包括超过预设个数的标点符号,则确定该网页是内容型网页,将该节点的文本作为该网页的正文,若DOM树中存在标签为h1的节点,则提取标签为h1的节点的文本作为该网页的标题;
或者,
所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:将所述网页解析成DOM树,如果DOM树中存在标签为文章article的节点,则确定该网页为内容型网页,提取标签为article的节点的文本作为该网页的正文,若DOM树中存在标签为h1的节点,则提取标签为h1的节点的文本作为该网页的标题;
或者,
所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:将所述网页解析成DOM树,并计算DOM树中的每个节点的正文权值,如果该节点的正文权值大于预设正文权值,则确定该网页是内容型网页,提取该节点的正文作为该网页的正文,若DOM树中存在标签为h1的节点,则提取标签为h1的节点的文本作为该网页的标题;
其中,计算DOM树中的每个节点的正文权值,包括:获取该节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果视觉属性值大于预设正文视觉属性值,则将该节点的正文权值增加预设第一权值;如果该节点的标签为article,则将该节点的正文权值增加预设第二权值;提取该节点的文本信息,如果该节点的文本中存在超过预设个数的标点符号,则将该节点的正文权值增加预设第三权值。
2.根据权利要求1所述的在浏览器中显示网页内容的方法,其特征在于,
所述在浏览器中以预设阅读模式输出所述标题和正文的方法为:使用内嵌框架iframe载入预设阅读模式模板页面,将所述标题和正文填充到预设阅读模式模板页面。
3.一种浏览器,其特征在于,该浏览器包括网页获取单元、正文提取单元、输出单元:
所述网页获取单元,用于获取用户请求读取的网页;
所述正文提取单元,用于判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文;
所述输出单元,用于在浏览器中以预设阅读模式输出正文提取单元从所述网页中提取的标题和正文;
其中,
该浏览器还包括规则建立单元,用于预先针对每个网站中使用同一模版的所有内容型网页建立一条匹配规则,所述匹配规则包括键值对,其中,键包括使用该模版的内容型网页的URL匹配规则,值包括使用该模版的内容型网页的标题位置信息和正文位置信息;
所述正文提取单元在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:使用预先建立的每条匹配规则中的键与所述网页的统一资源定位符URL进行匹配,如果匹配成功,则确定该网页是内容型网页,根据该条匹配规则中的标题位置信息和正文位置信息获取所述网页的标题和正文;
或者,
所述正文提取单元在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成DOM树,提取DOM树中每个节点的文本,如果该节点的文本中包括超过预设个数的标点符号,则确定该网页是内容型网页,将该节点的文本作为该网页的正文,若DOM树中存在标签为h1的节点,则提取标签为h1的节点的文本作为该网页的标题;
或者,
所述正文提取单元在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成DOM树,如果DOM树中存在标签为文章article的节点,则确定该网页为内容型网页,提取标签为article的节点的文本作为该网页的正文,若DOM树中存在标签为h1的节点,则提取标签为h1的节点的文本作为该网页的标题;
或者,
所述正文提取单元在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成DOM树,并计算DOM树中的每个节点的正文权值,如果该节点的正文权值大于预设正文权值,则确定该网页是内容型网页,提取该节点的正文作为该网页的正文,若DOM树中存在标签为h1的节点,则提取标签为h1的节点的文本作为该网页的标题;
其中,计算DOM树中的每个节点的正文权值,包括:获取该节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果视觉属性值大于预设正文视觉属性值,则将该节点的正文权值增加预设第一权值;如果该节点的标签为article,则将该节点的正文权值增加预设第二权值;提取该节点的文本信息,如果该节点的文本中存在超过预设个数的标点符号,则将该节点的正文权值增加预设第三权值。
4.根据权利要求3所述的浏览器,其特征在于,
所述输出单元在浏览器中以预设阅读模式输出正文提取单元从所述网页中提取的标题和正文时,用于:使用内嵌框架iframe载入预设阅读模式模板页面,将所述标题和正文填充到预设阅读模式模板页面。
CN201210274520.2A 2012-08-03 2012-08-03 一种在浏览器中显示网页内容的方法和装置 Active CN103577466B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201210274520.2A CN103577466B (zh) 2012-08-03 2012-08-03 一种在浏览器中显示网页内容的方法和装置
PCT/CN2013/080470 WO2014019506A1 (en) 2012-08-03 2013-07-31 Method and device for displaying webpage contents in browser
PH12015500139A PH12015500139A1 (en) 2012-08-03 2015-01-23 Method and device for displaying webpage contents in browser
US14/608,779 US20150143230A1 (en) 2012-08-03 2015-01-29 Method and device for displaying webpage contents in browser

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210274520.2A CN103577466B (zh) 2012-08-03 2012-08-03 一种在浏览器中显示网页内容的方法和装置

Publications (2)

Publication Number Publication Date
CN103577466A CN103577466A (zh) 2014-02-12
CN103577466B true CN103577466B (zh) 2017-02-15

Family

ID=50027261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210274520.2A Active CN103577466B (zh) 2012-08-03 2012-08-03 一种在浏览器中显示网页内容的方法和装置

Country Status (4)

Country Link
US (1) US20150143230A1 (zh)
CN (1) CN103577466B (zh)
PH (1) PH12015500139A1 (zh)
WO (1) WO2014019506A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035753B (zh) * 2013-03-04 2018-11-02 优视科技有限公司 一种双WebView展示定制页面的方法及系统
CN104090935A (zh) * 2014-06-25 2014-10-08 武汉传神信息技术有限公司 一种网络信息快捷显示的方法
CN104090933A (zh) * 2014-06-25 2014-10-08 武汉传神信息技术有限公司 一种网络信息窗口显示的方法
CN104268186A (zh) * 2014-09-16 2015-01-07 可牛网络技术(北京)有限公司 网页的展现方法、装置和移动终端
CN104820722B (zh) * 2015-05-26 2018-05-25 广州神马移动信息科技有限公司 页面展示方法和装置
CN104965871A (zh) * 2015-06-09 2015-10-07 北京金山安全软件有限公司 页面的加载方法、装置和电子设备
CN107229618B (zh) 2016-03-23 2020-04-21 腾讯科技(深圳)有限公司 一种显示页面的方法及装置
CN106354749B (zh) * 2016-08-15 2020-06-02 北京小米移动软件有限公司 信息显示方法及装置
CN107451215B (zh) * 2017-07-17 2021-01-01 云润大数据服务有限公司 特征文本抽取方法及装置
CN108460003B (zh) * 2018-02-02 2021-12-03 广州视源电子科技股份有限公司 文本数据的处理方法和装置
CN108595586B (zh) * 2018-04-19 2021-12-24 杭州迪普科技股份有限公司 一种搜索关键字的确定方法及装置
CN109086361B (zh) * 2018-07-20 2019-06-21 北京开普云信息科技有限公司 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统
CN112749528A (zh) * 2019-10-31 2021-05-04 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及计算机可读存储介质
CN111241446B (zh) * 2020-01-13 2023-10-31 杭州安恒信息技术股份有限公司 一种web网页的正文内容提取方法、装置、设备及介质
CN112199613B (zh) * 2020-10-13 2023-03-03 北京理工大学 融合dom拓扑和文本属性的产品url自动定位方法
CN112925968A (zh) * 2021-02-25 2021-06-08 深圳壹账通智能科技有限公司 基于爬虫的数据抓取方法、装置、计算机设备及存储介质
EP4337148A2 (en) 2021-05-12 2024-03-20 Accessibe Ltd. Systems and methods for making websites accessible
CN113656737B (zh) * 2021-08-20 2024-05-14 北京百度网讯科技有限公司 网页内容展示方法、装置、电子设备以及存储介质
CN115408594A (zh) * 2022-11-01 2022-11-29 长沙火线云网络科技有限公司 一种网页标题提取方法和系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040049737A1 (en) * 2000-04-26 2004-03-11 Novarra, Inc. System and method for displaying information content with selective horizontal scrolling
US7228496B2 (en) * 2002-07-09 2007-06-05 Kabushiki Kaisha Toshiba Document editing method, document editing system, server apparatus, and document editing program
CN101197849B (zh) * 2007-12-21 2012-10-03 腾讯科技(深圳)有限公司 将互联网页面转换为无线应用协议页面的转换方法
CN101246494B (zh) * 2008-03-19 2011-11-02 腾讯科技(深圳)有限公司 一种互联网网页转换方法、系统及设备
CN102479181B (zh) * 2010-11-22 2015-10-07 中国电信股份有限公司 基于div位置的网页正文抽取方法和装置
CN102591971B (zh) * 2011-12-31 2015-03-18 北京百度网讯科技有限公司 一种网页信息提取的方法和设备
US9658998B2 (en) * 2012-02-24 2017-05-23 American Express Travel Related Services Company, Inc. Systems and methods for internationalization and localization

Also Published As

Publication number Publication date
US20150143230A1 (en) 2015-05-21
PH12015500139B1 (en) 2015-04-20
WO2014019506A1 (en) 2014-02-06
PH12015500139A1 (en) 2015-04-20
CN103577466A (zh) 2014-02-12

Similar Documents

Publication Publication Date Title
CN103577466B (zh) 一种在浏览器中显示网页内容的方法和装置
US10235349B2 (en) Systems and methods for automated content generation
CA2815391C (en) Systems, methods, and interfaces for display of inline content and block level content on an access device
CN102541874B (zh) 网页正文内容提取方法及装置
CN102156737B (zh) 一种中文网页主题内容的提取方法
JP2014514629A5 (zh)
CN103389972B (zh) 一种基于简易信息聚合获取正文的方法及装置
EP3933636A1 (en) Webpage tampering detection method and related apparatus
WO2013178193A2 (zh) 一种文本内容提取方法和装置
EP2599011A1 (en) Selection of main content in web pages
CN103064845B (zh) 网页信息处理装置和网页信息处理方法
CN102314494B (zh) 一种用于处理网页内容的方法和设备
CN106446072A (zh) 网页内容的处理方法和装置
CN103166981A (zh) 一种无线网页转码方法及装置
CN103870486A (zh) 确定网页类型的方法和装置
CN102622365B (zh) 一种网页重复的判断系统及其判断方法
CN102184240B (zh) 基于移动通讯设备终端的网页页面排版方法及系统
CN102999511B (zh) 一种页面快速转换方法、装置和系统
CN107590288A (zh) 用于抽取网页图文块的方法和装置
CN108090123A (zh) 净化网络小说页面的方法与装置
CN103246680B (zh) 一种在浏览器中将网页内容聚合展现的方法及装置
Luo et al. Web article extraction for web printing: a dom+ visual based approach
CN107066528A (zh) 一种网络资讯批注方法
CN103116592A (zh) 一种网页内容的格式化输出方法
CN105786828A (zh) 页面提取方法及装置、设备终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221123

Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518133

Patentee after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 2, 518044, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right