CN106547895A

CN106547895A - 一种网页信息的提取方法及装置

Info

Publication number: CN106547895A
Application number: CN201610972418.8A
Authority: CN
Inventors: 王江
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2016-11-03
Filing date: 2016-11-03
Publication date: 2017-03-29
Anticipated expiration: 2036-11-03
Also published as: CN106547895B

Abstract

本发明实施例公开了一种网页信息的提取方法及装置。所述网页信息的提取方法包括：根据目标标签的类别所对应的处理规则对所述目标标签进行预处理，得到预处理文档；根据预设标签符号对所述预处理文档进行截断；根据截断后的预处理文档确定网页正文内容。现有技术中需要针对目标网页进行训练，得到目标网页的提取模型因此网页信息提取的通用性差。本发明实施例根据目标标签的类别所对应的处理规则对所述目标标签进行预处理，由于不需要针对某种网页样本进行训练建立提取模型，因此无需进行训练，降低提取成本。此外，由于标签在HTML文档中具有通用性，因此能够提高网页信息提取的通用性。

Description

一种网页信息的提取方法及装置

技术领域

本发明实施例涉及互联网信息处理技术，尤其涉及一种网页信息的提取方法及装置。

背景技术

互联网已经成为目前全球规模最大的信息源，互联网中包含了大量的有价值的信息，如何快速准确的从互联网页上获取用户或应用感兴趣的信息即互联网信息抽取技术已经得到相关研究者的广泛关注。

在实际中，网站经营商为了追求利润，通常在网页正文中插入大量各种形式的广告，现有技术的网页信息提取方法是通过建立提取模型实现提取网页信息的目的，这些方法针对特定的网页样本才能实现网页信息提取，使得网页信息的提取通用性差。

发明内容

本发明提供一种网页信息的提取方法及装置，以提高网页信息提取的通用性。

第一方面，本发明实施例提供了一种网页信息的提取方法，该网页信息的提取方法包括：

根据目标标签的类别所对应的处理规则对所述目标标签进行预处理，得到预处理文档；

根据预设标签符号对所述预处理文档进行截断；

根据截断后的预处理文档确定网页正文内容。

进一步地，所述根据目标标签的类别所对应的处理规则对所述目标标签的内容进行预处理，包括：

如果目标标签的类别为外部标签，则删除所述外部标签和所述外部标签包含的内容；

如果目标标签的类别为内容修饰标签，则删除所述内容修饰标签，保留所述内容修饰标签包含的内容；

如果目标标签的类别为布局定界标签，则将所述布局定界标签的属性替换为预设标签标识。

进一步地，所述根据预设标签符号对所述预处理文档进行截断，包括：

根据预设标签符号对所述预处理文档进行截断，得到多个文本段；

将所述多个文本段分别存储到预设数据结构的多个数据单元中，所述预设数据结构为数组结构或链表结构，所述文本段与所述数据单元一一对应；

相应的，所述根据截断后的预处理文档确定网页正文内容，包括：

对所述数据单元中的文本段进行合并得到网页正文内容。

进一步地，在对所述数据单元中的文本段进行合并得到网页正文内容之前，还包括：

从所述预设数据结构中滤除文本长度小于文本长度阈值的数据单元。

进一步地，所述从所述预设数据结构中滤除文本长度小于文本长度阈值的数据单元，包括：

若目标数据单元的文本段长度小于所述文本长度阈值，且所述数据单元前后相邻的数据单元的文本段长度均大于所述文本长度阈值，则保留所述目标数据单元。

若目标数据单元的文本段长度大于所述文本长度阈值，且所述目标数据单元的文本段内容中包含预设版权符号，则获取所述目标数据单元的文本段中，所述预设版权符号前后相邻的子文本段的长度，若所述预设版权符号前后相邻的任意一个子文本段的长度小于所述文本长度阈值，则滤除所述目标数据单元。

第二方面，本发明实施例还提供了一种网页信息的提取装置，该网页信息的提取装置包括：

目标标签预处理模块，用于根据目标标签的类别所对应的处理规则对所述目标标签进行预处理，得到预处理文档；

截断模块，用于根据预设标签符号对所述预处理文档进行截断；

正文内容确定模块，用于根据截断后的预处理文档确定网页正文内容。

进一步地，所述目标标签预处理模块，具体用于：

进一步地，所述截断模块，具体用于：

对所述数据单元中的文本段进行合并得到网页正文内容。

进一步地，所述网页信息的提取装置，还包括：

滤除模块，用于从所述预设数据结构中滤除文本长度小于文本长度阈值的数据单元。

进一步地，所述滤除模块，具体用于：

若目标数据单元的文本段长度小于所述文本长度阈值，且所述目标数据单元前后相邻的数据单元的文本段长度均大于所述文本长度阈值，则保留所述目标数据单元。

进一步地，所述滤除模块，还用于：

本发明实施例中，首先根据目标标签的类别所对应的处理规则对所述目标标签进行预处理，得到预处理文档，然后根据预设标签符号对所述预处理文档进行截断，最后根据截断后的预处理文档确定网页正文内容。现有技术中需要针对目标网页进行训练，得到目标网页的提取模型，然后根据得到的提取模型对目标网页进行提取，由于方法针对特定的网页样本才能实现网页信息提取，因此网页信息提取的通用性差。本发明实施例根据目标标签的类别所对应的处理规则对所述目标标签进行预处理，能够从HTML表示的网页中滤除与网页信息无关的干扰信息；根据预设标签符号对所述预处理文档进行截断，并根据截断后的预处理文档确定网页正文内容，能够将网页正文内容从含有预设标签符号的文档进行提取。由于不需要针对某种网页样本进行训练建立提取模型，因此无需进行训练，降低提取成本。此外，由于标签在HTML文档中具有通用性，因此本发明提供的基于标签的网页正文内容进行提取技术方案，能够提高网页信息提取的通用性。

附图说明

图1是本发明实施例一中的一种网页信息的提取方法的流程图；

图2是本发明实施例二中的一种网页信息的提取方法的流程图；

图3是本发明实施例三中的一种网页信息的提取方法的流程图；

图4是本发明实施例四中的一种网页信息的提取装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种网页信息的提取方法的流程图，本实施例可适用于对互联网中网页文本信息提取的应用场景中，该方法可以由服务器来执行。如图1所述，该网页信息的提取方法具体包括如下步骤：

步骤S110，根据目标标签的类别所对应的处理规则对所述目标标签进行预处理，得到预处理文档。

其中，目标标签可以是超文本标记语言(Hyper Text Markup Language,HTML)标签，HTML是标准通用标记语言下的一个应用，超文本指的是页面内可以包括图片、链接、程序或音乐等非文字内容，HTML的结构可包括“头(head)”部分和“主体(body)”部分，其中head部分提供关于网页的信息，body部分提供网页的具体内容。目标标签的类别可以外部标签、内容修饰标签和布局定界标签，在一个相对规范的HTML网页中，外部标签可以是在body外部使用的标签，内容修饰标签可以是用于修饰内容和限定格式的标签，布局定界标签可以是除了外部标签和内容修饰标签之外的标签。

在本应用场景下，根据目标标签的类别所对应的处理规则对所述目标标签进行预处理，得到预处理文档的基本方法可以是：如果目标标签的类别为外部标签，则删除外部标签和外部标签包含的内容；如果目标标签的类别为内容修饰标签，则删除内容修饰标签，保留内容修饰标签包含的内容；如果目标标签的类别为布局定界标签，则将布局定界标签的属性替换为预设标签标识。

步骤S120，根据预设标签符号对预处理文档进行截断。

其中，预设标签符号可以是HTML标签中由尖括号包围的成对出现的开始标签和结束标签，如<tag>和</tag>。在本应用场景下，根据预设标签符号对预处理文档进行截断的基本方法可以是，根据预设标签符号对预处理文档进行截断，得到多个文本段，然后将多个文本段分别存储到预设数据结构的多个数据单元中，截断得到的文本段与数据单元一一对应。示例性的，HTML文档中某一文本段为“<tag>文本A</tag><tag>文本B</tag>”，对文档截断的方式是从文本A后的</tag>与文本B前的<tag>之间截断，从而得到两个文本段“文本A”和“文本B”，然后按先后顺序将“文本A”和“文本B”分别存储至预设数据结构的数据单元中，假如数据结构为数组，那么存储入文本段的数组为[文本A，文本B]。

步骤S130，根据截断后的预处理文档确定网页正文内容。

在本应用场景下，根据截断后的预处理文档确定网页正文内容的过程可以是，首先从预设数据结构中滤除不符合要求的数据单元，然后对数据单元中的文本段进行合并得到网页正文内容。其中，不符合要求的数据单元可以是文本长度小于文本长度阈值的数据单元，或者是当数据单元的文本段长度大于文本长度阈值，且目标数据单元的文本段内容中包含预设版权符号，该预设版权符号前后相邻的子文本段中任意一个子文本段的长度小于所述文本长度阈值的数据单元。

本实施例的技术方案，首先根据目标标签的类别所对应的处理规则对所述目标标签进行预处理，得到预处理文档，然后根据预设标签符号对所述预处理文档进行截断，最后根据截断后的预处理文档确定网页正文内容。现有技术中需要针对目标网页进行训练，得到目标网页的提取模型，然后根据得到的提取模型对目标网页进行提取，由于方法针对特定的网页样本才能实现网页信息提取，因此网页信息提取的通用性差。本发明实施例根据目标标签的类别所对应的处理规则对所述目标标签进行预处理，能够从HTML表示的网页中滤除与网页信息无关的干扰信息；根据预设标签符号对所述预处理文档进行截断，并根据截断后的预处理文档确定网页正文内容，能够将网页正文内容从含有预设标签符号的文档进行提取。由于不需要针对某种网页样本进行训练建立提取模型，因此无需进行训练，降低提取成本。此外，由于标签在HTML文档中具有通用性，因此本发明提供的基于标签的网页正文内容进行提取技术方案，能够提高网页信息提取的通用性。

实施例二

图2为本发明实施例二提供的一种网页信息的提取方法的流程图，以上述实施例为基础，如图2所示，步骤S110包括：

步骤S111，如果目标标签的类别为外部标签，则删除外部标签和外部标签包含的内容。

其中，外部标签可以是在body外部使用的标签，主要可以为<head></head>、<script></script>和<style></style>等。在本应用场景下，删除外部标签和外部标签包含的内容的方法可以是，例如，在一HTML网页中，某一外部标签及包含的内容是“<style>文本A</style>”，在对网页进行预处理的时候，需将“<style>文本A</style>”全部删掉。

步骤S112，如果目标标签的类别为内容修饰标签，则删除内容修饰标签，保留内容修饰标签包含的内容。

其中，内容修饰标签可以是是用于修饰内容和限定格式的标签，可以是<p></p>、<strong></strong>和<span></span>等。在本应用场景下，删除内容修饰标签，保留内容修饰标签包含的内容的方法可以是，例如在一HTML网页中，某一外部标签及包含的内容是“<strong>文本A</strong>”，在对网页进行预处理的时候，将<strong>和</strong>删除，保留“文本A”。

步骤S113，如果目标标签的类别为布局定界标签，则将布局定界标签的属性替换为预设标签标识。

其中，布局定界标签可以是除了外部标签和内容修饰标签之外的标签，可以是<div></div>、<table></table>和<li></li>等，预设标签标识可以是<tag>标签，<tag>为任一短的自定义标签。在本应用场景下，将布局定界标签的属性替换为预设标签标识的方法可以是，例如在一HTML网页中，某一外部标签及包含的内容是“<div>文本A</div>”，在对网页进行预处理的时候，将<div>和</div>分别替换为<tag>和</tag>，替换后的内容变为“<tag>文本A</tag>”。

本实施例提供的技术方案，根据目标标签的类别所对应的处理规则对目标标签进行预处理的方式是，删除外部标签和外部标签包含的内容、删除内容修饰标签且保留内容修饰标签包含的内容和将布局定界标签的属性替换为预设标签标识。在本实施例中，网页中的内容经过上述处理规则处理后，只剩下包括预设标签文本内容，在减少网页内容的基础上，使得网页内容的格式由复杂变得简单清晰。

实施例三

图3为本发明实施例三提供的一种网页信息的提取方法的流程图，以上述实施例为基础，如图3所示，步骤S120包括：

步骤S121，根据预设标签符号对预处理文档进行截断，得到多个文本段。

步骤S122，将多个文本段分别存储到预设数据结构的多个数据单元中，预设数据结构为数组结构或链表结构，文本段与数据单元一一对应。

其中，数组可以是相同数据类型的元素按一定顺序排列的集合，在程序设计中，为了处理方便，把具有相同类型的若干变量按有序的形式组织起来的一种形式。链表可以是在物理存储单元上非连续、非顺序的存储结构，数据单元的逻辑顺序通过链表中的指针链接次序实现。例如，预处理文本档被截断后得到的文本段有“文本1，文本2，……，文本100”，将这些文本段存入数组后数组的形式为[文本1，文本2，……，文本100]，每个文本段按照先后顺序被存储在数组中，将这些文本段存入链表中的形式为“文本1→文本2→……文本100”，同样，截断得到的多个文本段按照先后顺序被存入链表中。

相应的，步骤S130包括：

步骤S131，对所述数据单元中的文本段进行合并得到网页正文内容

优选的，在步骤S131之前，还包括：

步骤S140，从预设数据结构中滤除文本长度小于文本长度阈值的数据单元。

其中，文本长度阈值可以根据标题文本长度进行设置，可以设置为大于1倍标题文本长度，例如某一网页的标题文本长度为L。文本长度阈值可设置为1.5L或2L等。在本应用场景下，从预设数据结构中滤除文本长度小于文本长度阈值的数据单元的方法可以是，假如预设结构中存储的文本段为[文本1，文本2，……，文本100]，将数据结构中的每一个文本段与文本长度阈值进行比较，假如文本10、文本34和文本88的长度小于文本长度阈值，则将这三个文本段滤除，然后将剩下的文本进行合并得到正文内容为“文本1文本2……文本9文本11……文本33文本35……文本87……文本89……文本100”。

本实施例提供的技术方案，从预设数据结构中滤除文本长度小于文本长度阈值的数据单元，可以将一些与网页信息关联不大的信息滤除掉，从而提高网页信息的准确率。

优选的，步骤S140包括：若目标数据单元的文本段长度小于文本长度阈值，且目标数据单元前后相邻的数据单元的文本段长度均大于所述文本长度阈值，则保留目标数据单元。

在本应用场景下，示例性的，假如预设结构中存储的文本段为[……，文本A，文本B，文本C，……]，在将数据结构中的文本段与文本长度阈值比较时，假如文本B的长度小于文本长度阈值，则需要继续判断文本B前后相邻的文本A的长度和文本C的长度分别于文本长度阈值的大小关系，若文本A的长度和文本C的长度都大于文本长度阈值，则需保留文本B，不应将其滤掉。

本实施例的技术方案，若目标数据单元的文本段长度小于文本长度阈值，且目标数据单元前后相邻的数据单元的文本段长度均大于所述文本长度阈值，则保留目标数据单元，可防止正文内容被标签符号隔断后，导致中间部分内容因长度太短而被误过滤。

优选的，在步骤S131之前，包括：若目标数据单元的文本段长度大于文本长度阈值，且目标数据单元的文本段内容中包含预设版权符号，则获取目标数据单元的文本段中，预设版权符号前后相邻的子文本段的长度，若预设版权符号前后相邻的任意一个子文本段的长度小于文本长度阈值，则滤除目标数据单元。

其中，预设版权符号可以是HTML版权符号“&copy”。示例性的，假如预设结构中存储的文本段为[……，文本A1&copy文本A2，……]，某一文本段文本A的长度大于文本长度阈值，且文本A被预设版权符号&copy分割为文本A1和文本A2两个子文本段，此时需要分别比较文本A1和文本A2与文本长度阈值的大小关系，若文本A1的长度小于文本长度阈值或者文本A2的长度小于文本长度阈值或者文本A1和文本A2两个子文本段的长度都小于文本长度阈值，则将文本A滤除掉。

本实施例的技术方案，若目标数据单元的文本段长度大于文本长度阈值，且目标数据单元的文本段内容中包含预设版权符号，则获取目标数据单元的文本段中，预设版权符号前后相邻的子文本段的长度，若预设版权符号前后相邻的任意一个子文本段的长度小于文本长度阈值，则滤除目标数据单元，防止过长的网页页脚版权信息如网站备案信息、版权信息和联系方式等，被当作正文内容保留。

实施例四

图4为本发明实施例四提供的一种网页信息的提取装置的结构示意图，如图四所示，该网页信息的提取装置包括：目标标签预处理模块410，截断模420，滤除模块430和正文内容确定模块440。

目标标签预处理模块410，用于根据目标标签的类别所对应的处理规则对所述目标标签进行预处理，得到预处理文档；

截断模块420，用于根据预设标签符号对预处理文档进行截断；

正文内容确定模块430，用于根据截断后的预处理文档确定网页正文内容。

优选的，目标标签预处理模块410，具体用于：

如果目标标签的类别为外部标签，则删除外部标签和外部标签包含的内容；

如果目标标签的类别为内容修饰标签，则删除内容修饰标签，保留内容修饰标签包含的内容；

如果目标标签的类别为布局定界标签，则将布局定界标签的属性替换为预设标签标识。

优选的，截断模块420，具体用于：

根据预设标签符号对预处理文档进行截断，得到多个文本段；

将多个文本段分别存储到预设数据结构的多个数据单元中，预设数据结构为数组结构或链表结构，文本段与数据单元一一对应；

相应的，根据截断后的预处理文档确定网页正文内容，包括：

对数据单元中的文本段进行合并得到网页正文内容。

优选的，该网页信息的提取装置，还包括：

滤除模块430，用于从预设数据结构中滤除文本长度小于文本长度阈值的数据单元。

优选的，滤除模块430，具体用于：

若目标数据单元的文本段长度小于文本长度阈值，且目标数据单元前后相邻的数据单元的文本段长度均大于文本长度阈值，则保留目标数据单元。

优选的，滤除模块，还用于：

若目标数据单元的文本段长度大于文本长度阈值，且目标数据单元的文本段内容中包含预设版权符号，则获取目标数据单元的文本段中，预设版权符号前后相邻的子文本段的长度，若预设版权符号前后相邻的任意一个子文本段的长度小于文本长度阈值，则滤除目标数据单元。

上述装置可执行本发明前述所有实施例所提供的方法，具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明前述所有实施例所提供的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种网页信息的提取方法，其特征在于，包括：

根据预设标签符号对所述预处理文档进行截断；

根据截断后的预处理文档确定网页正文内容。

2.根据权利要求1所述的网页信息的提取方法，其特征在于，所述根据目标标签的类别所对应的处理规则对所述目标标签的内容进行预处理，包括：

3.根据权利要求1所述的网页信息的提取方法，其特征在于，所述根据预设标签符号对所述预处理文档进行截断，包括：

对所述数据单元中的文本段进行合并得到网页正文内容。

4.根据权利要求3所述的网页信息提取方法，其特征在于，在对所述数据单元中的文本段进行合并得到网页正文内容之前，还包括：

5.根据权利要求4所述的网页信息提取方法，其特征在在于，所述从所述预设数据结构中滤除文本长度小于文本长度阈值的数据单元，包括：

6.根据权利要求4所述的网页信息提取方法，其特征在在于，在对所述数据单元中的文本段进行合并得到网页正文内容之前，还包括：

7.一种网页信息的提取装置，其特征在于，包括：

8.根据权利要求7所述的网页信息的提取装置，其特征在于，所述目标标签预处理模块，具体用于：

9.根据权利要求7所述的网页信息的提取装置，其特征在于，所述截断模块，具体用于：

对所述数据单元中的文本段进行合并得到网页正文内容。

10.根据权利要求9所述的网页信息提取装置，其特征在于，所述网页信息的提取装置，还包括：