CN103020179A

CN103020179A - 一种网页内容的提取方法、装置和设备

Info

Publication number: CN103020179A
Application number: CN2012104972751A
Authority: CN
Inventors: 左景龙; 徐国市; 张少伟
Original assignee: Beijing Xiaomi Technology Co Ltd
Current assignee: Beijing Xiaomi Technology Co Ltd
Priority date: 2012-11-28
Filing date: 2012-11-28
Publication date: 2013-04-03

Abstract

本发明实施例提供了一种网页内容的提取方法、装置和设备，包括：提取第一网页的第一预设内容，并记录所述第一网页的第一属性信息和所述第一预设内容对应的第一特征信息；在访问第二网页时，确定所述第二网页的第二属性信息与所述第一属性信息，按照所述第一特征信息提取所述第二网页的第二预设内容。本发明实施例可以提高网页预设内容的提取效率。

Description

一种网页内容的提取方法、装置和设备

技术领域

本发明实施例涉及网页技术领域，特别是涉及一种网页内容的提取方法，一种网页内容的提取装置，以及一种设备。

背景技术

网站除了向用户提供新闻、图片等网页内容时，出于盈利、推广等目的，也经常会在网页上布置一些广告、推荐信息等与网页正文内容无关的信息。

现今，网页上层出不穷的广告给用户的浏览网页带来了很大的干扰，尤其是用户在移动终端上浏览网页时，由于移动终端的屏幕较小，而广告还需要占用一部分位置。为了避免这种情况，部分浏览器会提供给用户阅读模式的功能，也即，当用户浏览一个网页时，选择阅读模式后，浏览器会自动提取网页预设内容，例如包括网页的题目，正文内容等，只将网页预设内容展示给用户，而不显示广告等内容。

目前，在识别网页预设内容时，通常是采用分析整个网页文档(例如HTML文档)方法来提取。具体而言，首先根据将网页文档划分为多个文本块，然后依据各个文本块所包含的文字内容判断是否可以作为网页预设内容，然后将网页预设内容提取出来重新排版显示给用户。

以上背景技术中存在的问题是：

1、在提取网页预设内容的过程中，需要遍历整个网页文档的全部内容，针对各个文本块进行判断时，需要进行大量的计算，提取效率比较低；

2、在移动终端的硬件配置不高的情况下，大量的计算操作会产生对移动终端的性能影响。

发明内容

本发明实施例提供了一种网页内容的提取方法，以提高网页预设内容的提取效率。

本发明实施例还提供了一种网页内容的提取装置，以及，一种设备，用以保证上述方法在实际中的应用及实现。

为了解决上述问题，本发明实施例公开了一种网页内容的提取方法，包括：

提取第一网页的第一预设内容，并记录所述第一网页的第一属性信息和所述第一预设内容对应的第一特征信息；

在访问第二网页时，确定所述第二网页的第二属性信息与所述第一属性信息一致，

按照所述第一特征信息提取所述第二网页的第二预设内容。

较佳的，所述第一属性信息和第二属性信息为网页所对应的全部网页文档或预设部分网页文档的模板信息。

较佳的，所述模板信息包括网页文档中所包含的依次排列的各个节点标识。

较佳的，所述确定所述第二网页的第二属性信息与所述第一属性信息一致的步骤，采用如下方式：

依次对比所述第二网页与所述第一网页的全部或预设部分网页文档中的各个节点标识；

确定各个节点标识的名称均相同，并且节点标识的个数也相同，则所述第二属性信息与第一属性信息一致。

较佳的，所述第一特征信息为所述第一预设内容中所对应的依次排列的节点标识，所述按照第一特征信息提取第二网页的第二预设内容的步骤，采用如下方式：

在第二网页对应的网页文档中，查找与所述第一特征信息具备相同节点标识的节点；

提取所述节点中的节点内容作为第二网页的第二预设内容。

较佳的，所述提取第一网页的第一预设内容的步骤，采用如下方式：

提取第一网页的网页文档中各个节点的节点标识；

确定所述节点标识为预设标识，将所述节点标识对应的节点内容提取出来作为第一预设内容。

较佳的，所述预设部分网页文档为预设节点之后的网页文档。

本发明实施例还提供了一种网页内容的提取装置，包括：

信息记录模块，用于提取第一网页的第一预设内容，并记录所述第一网页的第一属性信息和所述第一预设内容对应的第一特征信息；

确定模块，用于在访问第二网页时，确定所述第二网页的第二属性信息与所述第一属性信息一致；

预设内容提取模块，用于按照所述第一特征信息提取所述第二网页的第二预设内容。

较佳的，所述第一属性信息和第二属性信息为网页所对应的全部网页文档或部分网页文档的模板信息。

较佳的，所述确定模块包括：

节点标识对比子模块，用于依次对比所述第二网页与所述第一网页的全部或预设部分网页文档中的各个节点标识；

节点标识确定子模块，用于确定各个节点标识的名称均相同，并且节点标识的个数也相同，则所述第二属性信息与第一属性信息一致。

较佳的，所述第一特征信息为所述第一预设内容中所对应的依次排列的节点标识，所述预设内容提取模块包括：

节点查找子模块，用于在第二网页对应的网页文档中，查找与所述第一特征信息具备相同节点标识的节点；

第二预设内容提取子模块，用于提取所述节点中的节点内容作为第二网页的第二预设内容。

较佳的，所述信息记录模块包括：

节点标识提取子模块，用于提取第一网页的网页文档中各个节点的节点标识；

预设标识确定子模块，用于确定所述节点标识为预设标识，若是，则将所述节点标识对应的节点内容提取出来作为第一预设内容。

本发明实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储器；和

一个或多个模块，所述一个或多个模块存储于所述存储器中并被配置成由所述一个或多个处理器执行，其中，所述一个或多个模块具有如下功能：

在访问第二网页时，确定所述第二网页的第二属性信息与所述第一属性信息一致，按照所述第一特征信息提取所述第二网页的第二预设内容。

本发明实施例具有以下优点：

本发明实施例在访问第一网页时，提取该网页的特征内容，也即是网页预设内容进行展示，并记录第一网页的模板和预设内容对应的节点标识，在访问第二网页时，确定第二网页和第一网页的模板相同后，按照第一网页的预设内容所对应的位置，提取第二网页的预设内容。

对于第一网页和第二网页模板相同的情况，本发明实施例不需要重新遍历网页文档的全部内容，避免的大量的计算，提高了预设内容的提取效率，同时也避免了大量的计算操作对移动终端性能的影响。此外，本发明实施例对于第二网页的文字较少的情况，可以提高预设内容提取的准确率。

当然，实施本发明的任一产品不一定需要同时达到以上所述的所有优点。

附图说明

图1是本发明实施例的一种网页内容的提取方法实施例的流程图；

图2是本发明实施例的一种网页内容的提取装置实施例的结构框图；

图3a和图3b是移动终端展示的两个网页示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参考图1，示出了本发明实施例的一种网页内容的提取方法实施例的流程图，具体可以包括以下步骤：

步骤101、提取第一网页的第一预设内容，并记录所述第一网页的第一属性信息和所述第一预设内容对应的第一特征信息。

本发明实施例中，网页预设内容包括网页的标题以及正文内容，用户访问第一网页时，可以提取第一网页对应的第一预设内容进行展示，并记录该网页的第一属性信息和第一预设内容对应的第一特征信息，作为访问第二网页时参考的先验信息。

网页对应的网页文档由多个节点所包含的节点内容组成，各个节点以节点标识为标记。以HTML(Hypertext Markup Language，超文本标记语言)网页为例，节点的形式一般为<tag>......</tag>、<tag......></tag>或<tag....../>，tag为标识该节点的标识，<tag>和</tag>之间、<tag与></tag>之间、或<tag与/>之间为节点对应的节点内容。

以HTML网页为例，对应的网页文档中，head、meta、link、script、style、body等均为节点标识。例如，<meta name＝″description″content＝″10月12日，青岛队终于收到了麦蒂的签字合同，这也意味着麦蒂正式加盟CBA联赛，双方现在正在沟通麦蒂来华的具体日期。″/>为一个节点，节点的形式为<tag....../>，即<meta name....../>，节点标识为meta name，对应的节点内容为“10月12日，青岛队终于收到了麦蒂的签字合同，这也意味着麦蒂正式加盟CBA联赛，双方现在正在沟通麦蒂来华的具体日期。”。

网页对应的网页文档中包括多个节点，按照节点的先后顺序分别对应着网页由上到下所展示的内容，本发明实施例中，第一属性信息可以是网页文档的模板信息，模板信息即网页文档中所包含的依次排列的各个节点标识。

在具体的实现中，第一属性信息可以是全部网页文档的模板信息，即将网页HTML文本中的全部节点的节点标识作为模板信息，也可以是预设部分网页文档的模板信息，预设部分网页文档具体可以是预设节点之后的网页文档，将预设节点之后的所有节点标识作为模板信息。一般情况下，很多网页的前部分的节点标识是相同的。在本实施例中，较佳的，由body节点开始按顺页序依次记录节点标识，作为该网页的HTML模板。

上面的实施例中是以HTML网页为例进行说明，但是本发明实施例的网页不限定于HTML网页，也可以为SHTML(server-parsed HTML，包含有嵌入式服务器方包含命令的HTML)网页、XML(Extensible MarkupLanguage，可扩展标记语言)网页、PHP(Hyper Text Preprocessor，超文本预处理语言)等其他不同类型的网页。

本发明实施例中，步骤101可以采用如下方式：

子步骤S11、提取第一网页的网页文档中各个节点的节点标识；

子步骤S12、确定所述节点标识为预设标识，若是，则将所述节点标识对应的节点内容提取出来作为第一预设内容。

本发明实施例可以依据各节点的节点标识来提取网页预设内容。具体而言，首先提取出网页文档中各个节点的节点标识，确定各个节点标识为预设标识，将该节点标识对应的节点内容提取出来作为该网页对应的预设内容。

在具体的实现中，还可以依据各节点的节点内容来提取网页预设内容。具体而言，首先提取出网页文档中各个节点所对应的节点内容，针对各个节点内容，基于广告、导航和版权典型词词典，判断对应的节点内容中是否存在一个或多个(可以设定数量)的广告、导航或是版权词汇，如果某个节点对应的节点内容中包含预定数量的广告、导航或是版权词汇，则认为该节点中不包含网页预设内容，将该节点内容去除，否则，便提取出来作为网页预设内容。

在具体的实现中，还可以依据网页文档的文本密度来提取网页预设内容。具体而言，针对整个网页文档，确定第i行和第i+1行内容的字符总数和中文字符数；通过将中文字符数除以字符总数作为文本密度，计算第i行和第i+1行内容的文本密度；然后将计算得到的文本密度与预设值进行比较，若比较结果为不小于预设值，则可以将第i行和第i+1行作为网页预设内容，并按照同样的方法，对第i+1行至第i+2行进行判断；若比较结果小于预设值，则对第i+2行和第i+3行进行判断，直至遍历该网页的所有行，得到网页预设内容。

在本发明实施例中，可以采用现有技术的任何一种方式进行提取网页预设内容，本发明实施例对此并不做限定。

步骤102、在访问第二网页时，确定所述第二网页的第二属性信息与所述第一属性信息一致。

本发明实施例中，与第一属性信息相对应的，第二属性信息可以是第二网页所对应的全部网页文档或预设部分网页文档的模板信息。

在具体的实现中，步骤102可以采用如下方式：

子步骤S21、依次对比所述第二网页与所述第一网页的全部或部分网页文档中的各个节点标识；

子步骤S22、确定各个节点标识的名称均相同，并且节点标识的个数也相同，则所述第二属性信息与第一属性信息一致。

网页的模板信息即全部或部分网页文档所对应的有序的节点标识，本发明实施例中，第一属性信息和第二属性信息一致，不仅要求节点标识的个数一致，还要求按照顺序，节点标识的名称也相同。对比时，可以按照第一属性信息和第二属性信息中节点标识的顺序，依次进行对比，若发现不相同的节点名称，则认为第二属性信息与第一属性信息不一致；若节点名称均一致，但节点的个数不相同，则第二属性信息与第一属性信息不一致，例如，第二网页的HTML模板包括49个节点，第一网页的HTML模板包括50个节点，即使前49次节点标识比对完全无误，但是由于节点个数不同，第二属性信息与第一属性信息也是不一致的。

步骤103、按照所述第一特征信息提取所述第二网页的第二预设内容。

在具体的实现中，归属于同一个网站下相同层级目录的网页通常是按照同一个网页模板生成的，其网页结构相似或相同；对于一个主题的网页分为多页的情况，各个分页的网页模板通常也是相同的。即第一网页和第二网页是同一网站相同层级目录的网页，或，第二网页和第二网页同属于一个网页主题，或，第二网页是第一网页的后续页，这些情况下，第一网页和第二网页的网页模板是相同的。

针对此类模板信息相同的两个网页，本发明实施例可以按照先访问的第一网页的预设内容所对应的位置，也即是预设内容对应的节点标识，来提取第二网页的预设内容。一方面，对于第二网页的文字较少的情况，如图3a和图3b是移动终端展示的两个网页示意图，图3b中网页是图3a中网页的后续页，正文部分包含了一张图片和很少的文字，若按照背景技术的方法，不能将图片作为预设内容提取出来，依据本发明实施例的方法，由于这两个网页的模板相同，可以按照图3a网页预设内容的位置提取图3b中的预设内容，因此本发明实施例可以提高预设内容提取的准确率；另一方面，本发明实施例的方法可以充分利用第一网页的信息，同时，由于不需要重新遍历网页文档的全部内容，避免的大量的计算，提高了预设内容的提取效率，也避免了大量的计算操作对移动终端性能的影响。

本发明实施例中，第一特征信息为第一预设内容中所对应的依次排列的节点标识，所述步骤103可以采用如下方式：

子步骤S31、在第二网页对应的网页文档中，查找与所述第一特征信息具备相同节点标识的节点；

子步骤S32、提取所述节点中的节点内容作为第二网页的第二预设内容。

由于第一网页和第二网页的网页模板完全相同，因此，可以认为这两页的预设内容存在相同的节点中，在进行第二网页的预设内容提取的时候，选择与第一网页具有相同节点标识的节点，提取该节点所对应的节点内容即是第二网页的预设内容。

进一步的，在本发明实施例中，确定第二网页和第一网页的模板信息不同后，可以按照提取第一网页预设内容的方法提取第二网页的预设内容，具体方法可参见上述实施例，此处不再赘述。

综上所述，依据本发明实施例，在访问第一网页时，提取该网页的特征内容，也即是网页预设内容进行展示，并记录第一网页的模板和预设内容对应的节点标识，在访问第二网页时，确定第二网页和第一网页的模板相同，按照第一网页的预设内容所对应的位置，提取第二网页的预设内容。

对于第一网页和第二网页模板相同的情况，本发明实施例不需要重新遍历网页文档的全部内容，避免的大量的计算，提高了预设内容的提取效率，同时也避免了大量的计算操作对移动终端性能的影响。此外，本发明实施例对于第二网页的文字较少的情况，提高了预设内容提取的准确率。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

参考图2，示出了本申请的一种网页内容的提取装置实施例的结构框图，具体可以包括以下模块：

信息记录模块201，用于提取第一网页的第一预设内容，并记录所述第一网页的第一属性信息和所述第一预设内容对应的第一特征信息；

确定模块202，用于在访问第二网页时，确定所述第二网页的第二属性信息与所述第一属性信息一致；

预设内容提取模块203，用于按照所述第一特征信息提取第二网页的第二预设内容。

在本发明实施例中，所述第一属性信息和第二属性信息可以为网页所对应的全部网页文档或部分网页文档的模板信息。

在本发明实施例中，网页的网页文档可以由多个节点所包含的节点内容组成，各个节点可以以节点标识为标记，所述模板信息可以包括网页文档中所包含的依次排列的各个节点标识。

在本发明实施例中，所述确定模块可以包括：

节点标识对比子模块，用于依次对比第二网页与所述第一网页的全部或部分网页文档中的各个节点标识；

在本发明实施例中，所述第一特征信息可以为所述第一预设内容中所对应的依次排列的节点标识，所述预设内容提取模块可以包括：

第二特征内容提取子模块，用于提取所述节点中的节点内容作为第二网页的第二预设内容。

在本发明实施例中，所述信息记录模块可以包括：

节点标识提取子模块，用于提取第一网页的网页文档中各个节点所对应的节点标识；

预设标识确定子模块，用于确定各个节点标识为预设标识，将所述节点标识对应的节点内容提取出来作为第一预设内容。

在本发明实施例中，所述预设部分网页文档可以为预设节点之后的网页文档。

在本发明实施例中，所述装置还可以进一步包括：

第二网页预设内容提取模块，用于确定所述第二网页的第二属性信息与所述第一属性信息不一致，提取所述第二网页的第二预设内容。

由于所述装置实施例基本相应于前述图1所示的方法实施例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此就不赘述了。

本实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储器；和

一个或多个模块(programs)，所述一个或多个模块存储于所述存储器中并被配置成由所述一个或多个处理器执行，其中，所述一个或多个模块具有如下功能：

较佳的，所述确定所述第二网页的第二属性信息与所述第一属性信息一致，采用如下方式：

较佳的，所述第一特征信息为所述第一预设内容中所对应的依次排列的节点标识，所述按照第一特征信息提取第二网页的第二预设内容，采用如下方式：

提取所述节点中的节点内容作为第二网页的第二预设内容。

较佳的，所述提取第一网页的第一预设内容，采用如下方式：

提取第一网页的网页文档中各个节点的节点标识；

本实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在具有触摸屏幕的设备时，可以使得该设备执行如下步骤的指令(instructions)：

提取所述节点中的节点内容作为第二网页的第二预设内容。

提取第一网页的网页文档中各个节点的节点标识；

本申请可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种网页内容的提取方法，一种网页内容的提取装置，以及，一种设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种网页内容的提取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一属性信息和第二属性信息为网页所对应的全部网页文档或预设部分网页文档的模板信息。

3.根据权利要求2所述的方法，其特征在于，所述模板信息包括网页文档中所包含的依次排列的各个节点标识。

4.根据权利要求3所述的方法，其特征在于，所述确定所述第二网页的第二属性信息与所述第一属性信息一致的步骤，采用如下方式：

5.根据权利要求3所述的方法，其特征在于，所述第一特征信息为所述第一预设内容中所对应的依次排列的节点标识，所述按照第一特征信息提取第二网页的第二预设内容的步骤，采用如下方式：

提取所述节点中的节点内容作为第二网页的第二预设内容。

6.根据权利要求3所述的方法，其特征在于，所述提取第一网页的第一预设内容的步骤，采用如下方式：

提取第一网页的网页文档中各个节点的节点标识；

7.根据权利要求2所述的方法，其特征在于，所述预设部分网页文档为预设节点之后的网页文档。

8.一种网页内容的提取装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述第一属性信息和第二属性信息为网页所对应的全部网页文档或部分网页文档的模板信息。

10.根据权利要求9所述的装置，其特征在于，所述模板信息包括网页文档中所包含的依次排列的各个节点标识。

11.根据权利要求10所述的装置，其特征在于，所述确定模块包括：

12.根据权利要求10所述的装置，其特征在于，所述第一特征信息为所述第一预设内容中所对应的依次排列的节点标识，所述预设内容提取模块包括：

13.根据权利要求10所述的装置，其特征在于，所述信息记录模块包括：

预设标识确定子模块，用于确定所述节点标识为预设标识，将所述节点标识对应的节点内容提取出来作为第一预设内容。

14.根据权利要求9所述的装置，其特征在于，所述预设部分网页文档为预设节点之后的网页文档。

15.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器；和