CN108804472A

CN108804472A - 一种网页内容抽取方法、装置及服务器

Info

Publication number: CN108804472A
Application number: CN201710308350.8A
Authority: CN
Inventors: 赵铭鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-05-04
Filing date: 2017-05-04
Publication date: 2018-11-13

Abstract

本发明实施例提供一种网页内容抽取方法、装置及服务器，该方法包括：获取目标网页；获取目标网页各区块对应的视觉信息，文本信息及Xml路径语言；将各区块的视觉信息转换为视觉特征，及将各区块的文本信息转换为文本特征；将同一区块的视觉特征和文本特征相融合，得到各区块的特征向量；根据预训练的识别模型，从各区块的特征向量中识别出与目标内容相匹配的特征向量，所述识别模型至少根据预确定的目标内容的特征向量训练得到；确定所匹配的特征向量对应的区块的Xml路径语言，所确定的Xml路径语言所关联的信息作为所述目标网页的内容抽取结果。本发明实施例可提升网页内容抽取方法的通用性，并提升抽取结果的准确性。

Description

一种网页内容抽取方法、装置及服务器

技术领域

本发明涉及数据处理技术领域，具体涉及一种网页内容抽取方法、装置及服务器。

背景技术

网页包含的内容非常丰富，出于数据分析，爬虫抓取等目的，往往需要对网页中的内容进行抽取(即网页内容抽取)，以文章类网页包含的内容为例，网页内容如网页的导航、标题、正文、时间、甚至广告等。

目前较为常见的网页内容抽取方式是，基于网页构造模板进行网页内容的抽取；即基于内容在网页中的位置总结出网页构造模板，通过该网页构造模板从网页中相应位置抽取出内容；然而这种方式所存在的问题是，网页形式多样，单一的网页构造模板并无法进行适用，导致通用性较差，同时抽取结果的准确性也较低。

发明内容

有鉴于此，本发明实施例提供一种网页内容抽取方法、装置及服务器，以提升网页内容抽取方法的通用性，并提升抽取结果的准确性。

为实现上述目的，本发明实施例提供如下技术方案：

一种网页内容抽取方法，包括：

获取目标网页；

获取目标网页各区块对应的视觉信息，文本信息及Xml路径语言；

将各区块的视觉信息转换为视觉特征，及将各区块的文本信息转换为文本特征；

将同一区块的视觉特征和文本特征相融合，得到各区块的特征向量；

根据预训练的识别模型，从各区块的特征向量中识别出与目标内容相匹配的特征向量，所述识别模型至少根据预确定的目标内容的特征向量训练得到；

确定所匹配的特征向量对应的区块的Xml路径语言，所确定的Xml路径语言所关联的信息作为所述目标网页的内容抽取结果。

本发明实施例还提供一种网页内容抽取装置，包括：

目标网页获取模块，用于获取目标网页；

区块信息获取模块，用于获取目标网页各区块对应的视觉信息，文本信息及Xml路径语言；

转换模块，用于将各区块的视觉信息转换为视觉特征，及将各区块的文本信息转换为文本特征；

融合模块，用于将同一区块的视觉特征和文本特征相融合，得到各区块的特征向量；

模型识别模块，用于根据预训练的识别模型，从各区块的特征向量中识别出与目标内容相匹配的特征向量，所述识别模型至少根据预确定的目标内容的特征向量训练得到；

结果确定模块，用于确定所匹配的特征向量对应的区块的Xml路径语言，所确定的Xml路径语言所关联的信息作为所述目标网页的内容抽取结果。

本发明实施例还提供一种服务器，包括：至少一个处理器和至少一个存储器；其中，所述存储器存储有程序，所述处理器调用所述存储器所存储的程序，所述程序用于：

获取目标网页；

基于上述技术方案，本发明实施例提供的网页内容抽取方法，以网页的各区块为网页的目标内容的抽取单位，避免基于网页构造模板的网页内容抽取限制，通用性得到提升；且将同一区块的视觉特征和文本特征相融合，进行与需抽取的目标内容的匹配，可准确的抽取出目标网页中的目标内容的具体信息，避免单纯使用文本特征或视觉特征，抽取目标网页中的目标内容，所带来的准确性较低的问题，提升了抽取结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的网页内容抽取方法的流程图；

图2为本发明实施例提供的识别模型的训练方法流程图；

图3为节点树的存储示意图；

图4为本发明实施例提供的视觉信息转换为视觉特征的方法流程图；

图5为本发明实施例提供的文本信息转换为文本特征的方法流程图；

图6为网页的内容示意图；

图7为识别模型的训练示意图；

图8为抽取网页内容的示意图；

图9为本发明实施例提供的网页内容抽取装置的结构框图；

图10为本发明实施例提供的网页内容抽取装置的另一结构框图；

图11为本发明实施例提供的网页内容抽取装置的再一结构框图；

图12为服务器的硬件结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为提升网页内容抽取方法的通用性，并提升抽取结果的准确性，本发明实施例考虑以网页的各区块(一区块可以认为是网页的DOM树结构中的一节点)为网页内容的抽取单位，避免基于网页构造模板的网页内容抽取限制；并将同一区块中的视觉特征和文本特征相融合，进行与需抽取的目标内容的匹配，从而抽取出网页中的目标内容，提升文字和样式形式内容的抽取准确性。

作为一种可选的实现方式，图1示出了本发明实施例提供的网页内容抽取方法的流程图，该网页内容抽取方法可应用于服务器，该服务器可以是本发明实施例专门设置的用于进行网页内容抽取的服务设备，也可能是实现某一主业务(如搜索)的服务器集群中的服务设备；参照图1，该网页内容抽取方法可以包括：

步骤S100、获取目标网页。

目标网页可以认为是本发明实施例待抽取内容的网页，任一网页在具有抽取内容的需求时，均可以作为本发明实施例所指的目标网页；本发明实施例进行网页内容抽取的目的，是从目标网页中抽取出目标内容，目标内容可能是导航、标题、正文、时间等的至少一种，具体可视实际的抽取需求而定。

可选的，本发明实施例可通过输入目标网页的url(Uniform Resource Locator，统一资源定位符)地址获取目标网页，一种获取目标网页的方式可以是，通过目标网页的url地址获取目标网页的html(超文本标记语言)源代码；

例如后台工作人员可通过后台控制终端与服务器交互，使用后台控制终端指令服务器目标网页的url地址，从而服务器可根据该url地址下载目标网页，获取到目标网页的html源代码，以获取到目标网页。

步骤S110、获取目标网页各区块对应的视觉信息，文本信息及Xml路径语言。

在获取到目标网页后，可解析得到目标网页的各区块，目标网页的一个区块认为是目标网页对应的DOM(文档对象模型)树结构中的一个节点，此处的节点可以是中间节点、叶子节点等。

对于所提取的目标网页的各区块，本发明实施例可提取区块中的视觉信息，文本信息和Xml(可扩展标记语言)路径语言，以获取到每一区块对应的视觉信息，文本信息和Xml路径语言；

可选的，区块对应的视觉信息可以与区块的样式对应，可以使用区块的CSS(Cascading Style Sheets，层叠样式表)信息表示；

可选的，区块对应的文本信息可以认为是区块所包含的文本；

Xml路径语言是用来查找XML文档中信息的语法和数据模型。它具备通用表达式语言的若干特性，旨在提供一种轻量型语言，可用于XML系统内与应用程序无关的处理；例如，可以使用Xml路径语言查找文档内所有章节标题的元素，本发明实施例可将目标网页的各个区块的Xml路径语言进行提取，以实现区块在目标网页中内容的关联，即一区块的视觉信息和文本信息等可通过该区块的Xml路径语言(xpath)进行关联。

可选的，本发明实施例可借助webkit(一个开源的浏览器引擎)实现上述步骤S100和步骤S110；本发明实施例中，服务器可运行webkit，通过向webkit导入目标网页的url地址，使用webkit基于该url地址下载目标网页的html源代码，并使用webkit从所下载的html源代码中解析出目标网页的每个区块的视觉信息、文本信息和Xml路径语言。

步骤S120、将各区块的视觉信息转换为视觉特征，及将各区块的文本信息转换为文本特征。

可选的，视觉特征可以是将区块的视觉信息利用特征工程的方法处理成的特征，该特征能够被机器学习方法识别；对于每一区块的视觉信息均利用特征工程的方法，处理成特征，则可得到目标网页各个区块对应的视觉特征。

可选的，文本特征可以认为是从区块的文本信息中筛选特征词，由一个区块的文本信息筛选出的特征词对应的特征值，则认为是该区块的文本特征；对于每一区块的文本信息均利用特征词的筛选，处理成特征，则可得到目标网页各个区块对应的文本特征。

步骤S130、将同一区块的视觉特征和文本特征相融合，得到各区块的特征向量。

可选的，将同一区块的视觉特征和文本特征融合的方式可以如，将同一区块的视觉特征和文本特征相拼接；例如视觉特征为(1，0)，文本特征为(1，1)，则融合后的特征向量可以为(1，0，1，1)；同一区块的视觉特征和文本特征可通过，区块的Xml路径语言进行关联，即相同Xml路径语言所关联的文本信息的文本特征，和视觉信息的视觉特征可进行融合。

步骤S140、根据预训练的识别模型，从各区块的特征向量中识别出与目标内容相匹配的特征向量，所述识别模型至少根据预确定的目标内容的特征向量训练得到。

目标内容可以认为是本发明实施例需要从目标网页中抽取的内容，例如导航内容，标题内容、正文内容等至少一种；本发明实施例可预先收集多个网页，确定该多个网页中目标内容的特征向量，和非目标内容的特征向量(如以目标内容为标题内容为例，则标题内容可以认为是目标内容，网页中的非标题内容则认为是非目标内容)，从而将目标内容的特征向量作为正样本特征，将非目标内容的特征向量作为负样本特征，以机器学习方法对正样本特征和负样本特征进行训练，得到识别模型；

进而在通过步骤S130获取到目标网页的各区块的特征向量后，可调取该预先训练的识别模型，将各区块的特征向量分别导入识别模型中进行处理，从而从各区块的特征向量中识别出与目标内容相匹配的特征向量。

步骤S150、确定所匹配的特征向量对应的区块的Xml路径语言，所确定的Xml路径语言所关联的信息作为所述目标网页的内容抽取结果。

在根据识别模型，得到与目标内容相匹配的特征向量后，可确定该所匹配的特征向量的区块的Xml路径语言，进而将该Xml路径语言关联的信息(不限于该Xml路径语言对应的区块的视觉信息和文本信息，还可能具体其他信息)，作为本发明实施例目标网页的内容抽取结果；

例如以目标内容为标题内容为例，则在从各区块的特征向量中，确定与标题内容的相匹配的特征向量后，可将所匹配的特征向量的区块确定为与标题内容的区块相应，从而通过所匹配的特征向量的区块的Xml路径语言关联的信息，确定出目标网页中标题内容相应的具体信息，实现目标网页中标题内容的抽取。

本发明实施例提供的网页内容抽取方法中，服务器可获取待抽取目标内容的目标网页，并获取目标网页各区块对应的视觉信息，文本信息及Xml路径语言；从而将各区块的视觉信息转换为视觉特征，及将各区块的文本信息转换为文本特征，然后将同一区块的视觉特征和文本特征相融合，得到各区块的特征向量；利用至少根据目标内容的特征向量预训练的识别模型，可从各区块的特征向量中识别出与目标内容相匹配的特征向量，则可确定所匹配的特征向量对应的区块，为目标网页中与目标内容相应的区块，进而可确定所匹配的特征向量对应的区块的Xml路径语言，将所确定的Xml路径语言所关联的信息作为所述目标网页的内容抽取结果，实现目标网页中目标内容的具体信息的抽取。

本发明实施例提供的网页内容抽取方法，以网页的各区块为网页的目标内容的抽取单位，避免基于网页构造模板的网页内容抽取限制，通用性得到提升；且将同一区块的视觉特征和文本特征相融合，进行与需抽取的目标内容的匹配，可准确的抽取出目标网页中的目标内容的具体信息，避免单纯使用文本特征或视觉特征，抽取目标网页中的目标内容，所带来的准确性较低的问题，提升了抽取结果的准确性。

为实现网页中目标内容的抽取，本发明实施例需要预先进行识别模型的训练，该识别模型可表示有目标内容的特性向量；识别模型的训练过程可以使用gbdt(GradientBoosting Decision Tree，迭代决策树)等机器学习方法训练正、负样本特征得到；下面介绍识别模型的一种可选训练方法，显然，如下训练方法仅是可选方式。

图2为本发明实施例提供的识别模型的训练方法流程图，该方法可应用于服务器，参照图2，该方法可以包括：

步骤S200、下载多个网页。

可选的，该多个网页作为数据源可以分属于不同的网站，一个网站下载的网页数量可以为至少一个；

在一种实现上，本发明实施例可确定设定数量的预置网站，分析各预置网站的历史被搜索次数(如可以是设定历史时间段内，各预置网站的历史被搜索次数，比如1个月内各预置网站的历史被搜索次数)，以各预置网站的历史被搜索次数，确定各预置网站的被搜索次数比例(如将一预置网站的历史被搜索次数，除以各预置网站的历史被搜索次数总数，可得到该预置网站的被搜索次数比例)，根据各预置网站的被搜索次数比例，从各预置网站下载网页，从而下载得到多个网页；

例如以电商(电子商务)网页的内容抽取为例，本发明实施例需要下载5万个电商网页作为数据源，并确定了2个电商网站；则可通过搜索引擎的搜索记录，确定该2个电商网站历史上分别被搜索的次数，得到各电商网站的历史被搜索次数，确定出各电商网站的被搜索次数比例，如该两个电商网站为A和B，且电商网站A的历史被搜索次数为1万次，电商网站B的历史被搜索次数为1千次，则可确定电商网站A的被搜索次数比例为10/11，电商网站B的被搜索次数比例为1/11；即电商网站A的被搜索次数，比上，电商网站B的被搜索次数为10：1；从而可根据10：1的比例从电商网站A和电商网站B下载电商网页，得到需要下载的5万个电商网页。

步骤S210、对于各网页，确定网页内各区块的视觉信息，文本信息和Xml路径语言。

可选的，步骤S200和步骤S210的执行可通过webkit实现，通过webkit下载多个网页，并对于下载的各个网页，确定网页内各区块的视觉信息，文本信息和Xml路径语言。

步骤S220、对于各网页，将一个区块作为节点树的一个节点，将各区块的视觉信息，文本信息和Xml路径语言存储在节点树中，得到各网页对应的节点树。

可选的，节点树可以认为是一个树状的存储结构，节点树中的一个节点可以对应网页的一个区块，将一个网页的各区块的视觉信息，文本信息和Xml路径语言存储在节点树中相应的节点上，可以得到各网页对应的节点树；即一个网页对应一个节点树，节点树中的一个节点存储有该网页的一个区块的视觉信息，文本信息和Xml路径语言，相应存储示意可如图3所示。

步骤S230、对于各网页，在对应的节点树中标注与目标内容相应的区块，及标注与非目标内容相应的区块。

可选的，本发明实施例可以通过人工方式，手动在各网页对应的节点树中，标注与目标内容相应的区块，及与非目标内容相应的区块；例如以目标内容为标题内容为例，本发明实施例可人工手动在各网页对应的节点树中，标注与标题内容相应的区块，及与非标题内容相应的区块。

可选的，步骤S220和步骤S230仅是对于各网页，标注与目标内容相应的区块，及标注与非目标内容相应的区块的可选方式，除使用节点树的节点表示区块，以进行与目标内容相应的区块和与非目标内容相应的区块的标注外，本发明实施例还可使用其他诸如直接分析区块进行标注的方式实现。

步骤S240、将与目标内容相应的各区块的视觉信息分别转换为视觉特征，及将与目标内容相应的各区块的文本信息分别转换为文本特征，并将与目标内容相应的同一区块的视觉特征和文本特征相融合，得到与目标内容相应的各区块的特性向量。

在标注出与目标内容相应的区块后，对于与目标内容相应的任一区块，可将区块的视觉信息转换为视觉特征，文本信息转换为文本特征，从而将区块的视觉特征和文本特征相融合，得到该区块的特性向量；对于每一与目标内容相应的区块均作此处理，则可得到与目标内容相应的各区块的特性向量，以便后续的识别模型训练使用。

步骤S250、将与非目标内容相应的各区块的视觉信息分别转换为视觉特征，及将与非目标内容相应的各区块的文本信息分别转换为文本特征，并将与非目标内容相应的同一区块的视觉特征和文本特征相融合，得到与非目标内容相应的各区块的特征向量。

可选的，步骤S250的处理可以参照步骤S240的处理，在处理原理上两者是类似的。可选的，步骤S240和步骤S250间可以没有明显的先后顺序，本发明实施例可以先执行步骤S240，后执行步骤S250，也可以先执行步骤S250，再执行步骤S240，还可能是步骤S240和步骤S250同时执行。

可选的，步骤S240可以认为是确定与目标内容相应的各区块的特性向量的实现方式，步骤S250可以认为是确定与非目标内容相应的各区块的特征向量的实现方式，其中，一个区块的特性向量由该区块的视觉信息相应的视觉特征，和文本信息相应的文本特征融合而成。

步骤S260、以与目标内容相应的各区块的特性向量作为正样本特征，以与非目标内容相应的各区块的特征向量作为负样本特征，根据机器学习方法训练所述正样本特征和负样本特征，得到识别模型。

在生成正样本特征(与目标内容相应的一个区块的特征向量，对应一个正样本特征)和负样本特征(与非目标内容相应的一个区块的特征向量，对应一个负样本特征)后，可以利用gbdt等机器学习方法训练得到识别模型。

上文提及有将区块的视觉信息转换为视觉特征，将区块的文本信息转换为文本特征的过程，下面将对此进行说明。

为便于说明，以一个区块的视觉信息转换为视觉特征，一个区块的文本信息转换为文本特征进行说明，显然下述说明仅是一种可选实现形式。另外，下述说明内容可以是适用于图1所示步骤S120，图2所示步骤S240和步骤S250等涉及视觉信息转换为视觉特征，文本信息转换为文本特征的步骤。

将区块的视觉信息转换为视觉特征时，可将视觉信息分为数值型视觉信息和非数值离散视觉信息两种情况考虑，两者在转换成视觉特征的处理上可以有所不同；

以数值型视觉信息的处理为例，图4示出了本发明实施例提供的视觉信息转换为视觉特征的方法流程图，该方法可应用于服务器，参照图4，该方法可以包括：

步骤S300、将区块的视觉信息转化为相应的数值。

如区块的视觉信息为数值型视觉信息，可以将区块的视觉信息转化为相应的数值(如由区块的长、宽、高等构成的数值，该数值的数量可能是1个或多个，视区块的具体情况而定)。

步骤S310、将转化后的数值映射到视觉特征维度范围集合，视觉特征维度范围集合对应有多个视觉特征维度范围，一个视觉特征维度范围对应一个范围的视觉特征数值。

可选的，以视觉特征维度范围集合如0.1、0.1～0.2、……、0.8～0.9，0.9～1等；以图2的识别模型训练场景为例，对于数值型视觉信息，比如网页区块的长、宽、高等，可对下载的多个网页的数值型视觉信息进行数值统计，然后等量的划分成设定份数，比如一个下载1万个网页，对某一属性某一个视觉数值型信息进行排序，划分成十份，然后每份1千个，分别映射到0.1、0.1～0.2、……、0.8～0.9，0.9～1之间，在一个视觉特征维度范围中占一位则表示存在一种视觉特征。

可选的，视觉特征维度范围集合的设置方式可以根据实际情况调整设定，一般而言，一个视觉特征维度范围可以对应一个数值范围的视觉特征。

步骤S320、将对应有转化后的数值的视觉特征维度范围的特征值置为第一值，将未对应有转化后的数值的视觉特征维度范围的特征值置为第二值，结合各视觉特征维度范围的特征值，得到区块对应的视觉特征。

可选的，此处的第一值可以为1，第二值可以为0，显然也可以是其他设定的数值，具体可视实际情况调整设定。

可选的，图4方法适用于图1所示步骤S120，则对于目标网页的各区块，分别执行图4方法，则可将数值型视觉信息的区块的视觉信息转换为视觉特征；可选的，图4方法适用于图2所示步骤S240，则对于与目标内容相应的各区块，分别执行图4方法，则可将与目标内容相应的数值型视觉信息的区块的视觉信息转换为视觉特征；可选的，图4方法适用于图2所示步骤S250，则对于与非目标内容相应的各区块，分别执行图4方法，则可将与非目标内容相应的数值型视觉信息的区块的视觉信息转换为视觉特征。

可选的，如果区块的视觉信息为非数值离散视觉信息，则可使用横向的one-hotrepresentation模式表示该区块的视觉特征；可选的，该模式的使用实现可以使用各种属性库实现，一个属性库记录有一属性的各视觉信息对应的特征值，本发明实施例在将区块的非数值离散视觉信息转换为视觉特征时，可分析区块的属性，从相应的属性库记录的各视觉信息对应的特征值中，确定出当前的非数值离散视觉信息对应的特征值，实现区块的非数值离散视觉信息至视觉特征的转换；

例如，对于性别这一属性，区块的内容对一个人的性别表示可能是男、女、未知(如区块的信息中未提及)，则对于这样的非数值离散视觉信息，可以在性别的属性库中记录性别男对应的特征值为(1，0，0)，性别女对应的特征值为(0，1，0)，性别未知对应的特征值为(0，0，1)，从而在将区块的非数值离散视觉信息转换为视觉特征时，可分析如果该区块的属性对应有性别，则可从性别的属性库中记录的各特征值中匹配出区块相应的视觉特征；可选的，此处的举例数值仅为便于理解的示例，其不应成为本发明保护范围解释的限制，在具体使用中，数值的形式可以根据需要变换；

显然，此处说明的视觉信息转换为视觉特征的方式可以适用于图1所示步骤S120，图2所示步骤S240和步骤S250。

可选的，图5示出了本发明实施例提供的文本信息转换为文本特征的方法流程图，该方法可应用于服务器，参照图5，该方法可以包括：

步骤S400、对于各区块，将区块的文本信息与预置的特征词集合相匹配。

本发明实施例可预置特征词集合，该特征词集合具有设定数量的特征词，由该设定数量的特征词构成设定数量维度的特征向量。

可选的，特征词集合的预置可以在识别模型的训练阶段实现，在训练识别模型的过程中，如果得到与目标内容相应的各区块和与非目标内容相应的各区块后，可对与目标内容相应的各区块的文本信息进行分词处理，得到与目标内容相应的分词结果，及对与非目标内容相应的各区块的文本信息进行分词处理，得到与非目标内容相应的分词结果；

进一步，计算与目标内容相应的每个分词结果的卡方分布，和与非目标内容相应的每个分词结果的卡方分布；根据卡方值对与目标内容相应的分词结果进行排序，及根据卡方值对与非目标内容相应的分词结果进行排序；取排序在设定位的与目标内容相应的分词结果，及取排序在设定位的与非目标内容相应的分词结果，得到特征词集合。

比如，取排序在前500位的与目标内容相应的分词结果，及排序在前500位的与非目标内容相应的分词结果，可以得到共1000个特征词，形成特征词集合；如此，对于任意文本信息，都可以转化为一个1000维的特征向量，即1000个特征词如果在文本信息中出现，则相应特征值置为第一值(比如1)，否则置为第二值(比如0)。

步骤S410、对于各区块，将相应文本信息所匹配特征词的特征值置为第一值，将相应文本信息未匹配的特征词的特征值置为第二值，结合各特征词的特征值，得到该区块对应的文本特征。

可选的，此处的第一值可以为1，第二值可以为0，显然也可以是其他设定的数值，具体可视实际情况调整设定；显然，此处说明的文本信息转换为文本特征的方式可以适用于图1所示步骤S120，图2所示步骤S240和步骤S250。

这里需要说明的是，本发明实施例并不是单纯的使用视觉特征进行网页内容的抽取，单纯使用视觉特征进行网页内容的抽取可能存在问题：单纯依赖视觉特征识别目标内容，存在准确性较低的可能，例如需要抽取网页中介绍商品的正文内容，而一个商品网页中一般会包含一些商品的描述信息，这些商品的描述信息可能会以文字和样式的形式出现，所以单纯的利用视觉信息很难直接识别出一个网页内哪个部分为介绍商品的正文内容；

而本发明实施例考虑使用区块的视觉特征和文本特征相融合的方式，并不仅是单纯的结合视觉特征和文本特征进行网页中目标内容的抽取，一般而言，常规的结合使用方式，可能是先使用视觉特征识别出网页中的目标内容，然后再用文本特征从中进行一步筛选出最终的目标内容；而本发明实施例与此可能的常规结合使用方式是不一样的，创新的提出以区块为识别单位，将区块的文本特征和视觉特征相融合拼接，并基于以目标内容的特征向量(特征向量也由文本特征和视觉特征融合拼接形成)训练的识别模型，进行网页中目标内容的抽取识别，通过将文本特征和视觉特征融合为信的特征向量使用，进行网页中目标内容的抽取，这种非常规结合使用的方式，可以使得网页抽取结果具有较高的准确性。

使用本发明实施例提供的网页内容抽取方法的一个可选示例可以如下描述。如图6所示，文章性质的网页Z具有导航内容、标题内容、正文内容，若需要抽取该网页Z的标题内容；则如图7所示，本发明实施例可以先收集多个网页，将网页中标题内容的区块对应的特征向量(区块的视觉特征和文本特征融合而成)，作为正样本特征，将网页中非标题内容的区块对应的特征向量(区块的视觉特征和文本特征融合而成)，作为负样本特征，以机器学习方法训练得到识别模型；

进而，如图8所示，可确定网页Z的各区块的视觉信息、文本信息和Xml路径语言，分别将各区块的视觉信息的视觉特征，和文本信息的文本特征相融合，得到网页Z的各区块的特征向量，将网页Z的各区块的特征向量作为输入，导入识别模型中；通过识别模型，从网页Z的各区块块的特征向量中，匹配出与标题内容相应的特征向量，输出所匹配的特征向量对应的区块的Xml路径语言，以所输出的Xml路径语言所关联的信息，作为从网页Z中抽取的标题内容，则可实现网页Z中标题内容的抽取。

下面对本发明实施例提供的网页内容抽取装置进行介绍，下文描述的网页内容抽取装置可与上文描述的网页内容抽取方法相互对应参照。下文描述的网页内容抽取装置可以认为是服务器为实现网页内容抽取方法，所需设置的程序模块架构。

图9为本发明实施例提供的网页内容抽取装置的结构框图，该装置可应用于服务器，参照图9，该装置可以包括：

目标网页获取模块100，用于获取目标网页；

区块信息获取模块200，用于获取目标网页各区块对应的视觉信息，文本信息及Xml路径语言；

转换模块300，用于将各区块的视觉信息转换为视觉特征，及将各区块的文本信息转换为文本特征；

融合模块400，用于将同一区块的视觉特征和文本特征相融合，得到各区块的特征向量；

模型识别模块500，用于根据预训练的识别模型，从各区块的特征向量中识别出与目标内容相匹配的特征向量，所述识别模型至少根据预确定的目标内容的特征向量训练得到；

结果确定模块600，用于确定所匹配的特征向量对应的区块的Xml路径语言，所确定的Xml路径语言所关联的信息作为所述目标网页的内容抽取结果。

可选的，转换模块300，用于将各区块的视觉信息转换为视觉特征，具体包括：

对于各区块，利用特征工程的方法，将区块的视觉信息处理成特征。

可选的，转换模块300，用于利用特征工程的方法，将区块的视觉信息处理成特征，具体包括：

对于各区块，如果区块的视觉信息为数值型视觉信息，将区块的视觉信息转化为相应的数值；

将转化后的数值映射到视觉特征维度范围集合，视觉特征维度范围集合对应有多个视觉特征维度范围，一个视觉特征维度范围对应一个范围的视觉特征数值；

将对应有转化后的数值的视觉特征维度范围的特征值置为第一值，将未对应有转化后的数值的视觉特征维度范围的特征值置为第二值，结合各视觉特征维度范围的特征值，得到区块对应的视觉特征。

对于各区块，如果区块的视觉信息为非数值离散视觉信息，分析区块的属性；

确定与区块的属性相应的属性库，从该属性库记录的各视觉信息对应的特征值中，确定出区块当前的视觉信息对应的特征值，得到区块对应的视觉特征。

可选的，转换模块300，用于将各区块的文本信息转换为文本特征，具体包括：

对于各区块，从区块的文本信息中筛选特征词，根据筛选出的特征词对应的特征值，确定区块的文本特征。

可选的，转换模块300，用于从区块的文本信息中筛选特征词，具体包括：

对于各区块，将区块的文本信息与预置的特征词集合相匹配；

相应的，转换模块300，用于根据筛选出的特征词对应的特征值，确定区块的文本特征，具体包括：

对于各区块，将相应文本信息所匹配特征词的特征值置为第一值，将相应文本信息未匹配的特征词的特征值置为第二值，结合各特征词的特征值，得到该区块对应的文本特征。

可选的，图10示出了本发明实施例提供的网页内容抽取装置的另一结构框图，结合图9和图10所示，该装置还可以包括：

模型训练模块700，用于下载多个网页；对于各网页，确定网页内各区块的视觉信息，文本信息和Xml路径语言；对于各网页，标注与目标内容相应的区块，及标注与非目标内容相应的区块；确定与目标内容相应的各区块的特性向量，及与非目标内容相应的各区块的特征向量；其中一个区块的特性向量由该区块的视觉信息相应的视觉特征，和文本信息相应的文本特征融合而成；以与目标内容相应的各区块的特性向量作为正样本特征，以与非目标内容相应的各区块的特征向量作为负样本特征，根据机器学习方法训练所述正样本特征和负样本特征，得到识别模型。

可选的，模型训练模块700，用于对于各网页，标注与目标内容相应的区块，及标注与非目标内容相应的区块，具体包括：

对于各网页，将一个区块作为节点树的一个节点，将各区块的视觉信息，文本信息和Xml路径语言存储在节点树中，得到各网页对应的节点树；

对于各网页，在对应的节点树中标注与目标内容相应的区块，及标注与非目标内容相应的区块。

可选的，模型训练模块700，用于下载多个网页，具体包括：

确定设定数量的预置网站；

分析各预置网站的历史被搜索次数；

根据各预置网站的历史被搜索次数，确定各预置网站的被搜索次数比例；

根据各预置网站的被搜索次数比例，从各预置网站下载网页。

可选的，图11示出了本发明实施例提供的网页内容抽取装置的再一结构框图，结合图10和图11所示，该装置还可以包括：

特征词集合确定模块800，用于对与目标内容相应的各区块的文本信息进行分词处理，得到与目标内容相应的分词结果，及对与非目标内容相应的各区块的文本信息进行分词处理，得到与非目标内容相应的分词结果；计算与目标内容相应的每个分词结果的卡方分布，和与非目标内容相应的每个分词结果的卡方分布；根据卡方值对与目标内容相应的分词结果进行排序，及根据卡方值对与非目标内容相应的分词结果进行排序；取排序在设定位的与目标内容相应的分词结果，及取排序在设定位的与非目标内容相应的分词结果，得到特征词集合。

本发明实施例提供的网页内容抽取装置可以程序功能的形式设置于服务器中，具体的，服务器可以设置有与网页内容抽取装置相应功能的程序，以实现本发明实施例提供的网页内容抽取方法；该程序可以存储于服务器的存储器中，并在服务器的处理器调用存储器所存储的该程序时，实现该程序功能，执行本发明实施例提供的网页内容抽取方法；

可选的，图12示出了服务器的硬件结构框图，包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；显然，图12所示的处理器1、通信接口2、存储器3和通信总线4的通信连接示意仅是可选的；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

其中，存储器3存储有程序，处理器1调用存储器3所存储的程序，该程序具体用于：

获取目标网页；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种网页内容抽取方法，其特征在于，包括：

获取目标网页；

获取目标网页各区块对应的视觉信息，文本信息及可扩展标记语言Xml路径语言；

2.根据权利要求1所述的网页内容抽取方法，其特征在于，所述将各区块的视觉信息转换为视觉特征包括：

3.根据权利要求2所述的网页内容抽取方法，其特征在于，所述利用特征工程的方法，将区块的视觉信息处理成特征包括：

4.根据权利要求2所述的网页内容抽取方法，其特征在于，所述利用特征工程的方法，将区块的视觉信息处理成特征包括：

5.根据权利要求1所述的网页内容抽取方法，其特征在于，所述将各区块的文本信息转换为文本特征包括：

6.根据权利要求5所述的网页内容抽取方法，其特征在于，所述从区块的文本信息中筛选特征词包括：

所述根据筛选出的特征词对应的特征值，确定区块的文本特征包括：

7.根据权利要求1-6任一项所述的网页内容抽取方法，其特征在于，还包括：

下载多个网页；

对于各网页，确定网页内各区块的视觉信息，文本信息和Xml路径语言；

对于各网页，标注与目标内容相应的区块，及标注与非目标内容相应的区块；

确定与目标内容相应的各区块的特性向量，及与非目标内容相应的各区块的特征向量；其中一个区块的特性向量由该区块的视觉信息相应的视觉特征，和文本信息相应的文本特征融合而成；

以与目标内容相应的各区块的特性向量作为正样本特征，以与非目标内容相应的各区块的特征向量作为负样本特征，根据机器学习方法训练所述正样本特征和负样本特征，得到识别模型。

8.根据权利要求7所述的网页内容抽取方法，其特征在于，所述对于各网页，标注与目标内容相应的区块，及标注与非目标内容相应的区块包括：

9.根据权利要求7所述的网页内容抽取方法，其特征在于，还包括：

对与目标内容相应的各区块的文本信息进行分词处理，得到与目标内容相应的分词结果，及对与非目标内容相应的各区块的文本信息进行分词处理，得到与非目标内容相应的分词结果；

计算与目标内容相应的每个分词结果的卡方分布，和与非目标内容相应的每个分词结果的卡方分布；

根据卡方值对与目标内容相应的分词结果进行排序，及根据卡方值对与非目标内容相应的分词结果进行排序；

取排序在设定位的与目标内容相应的分词结果，及取排序在设定位的与非目标内容相应的分词结果，得到特征词集合。

10.根据权利要求7所述的网页内容抽取方法，其特征在于，所述下载多个网页包括：

确定设定数量的预置网站；

分析各预置网站的历史被搜索次数；

11.一种网页内容抽取装置，其特征在于，包括：

目标网页获取模块，用于获取目标网页；

区块信息获取模块，用于获取目标网页各区块对应的视觉信息，文本信息及可扩展标记语言Xml路径语言；

12.根据权利要求11所述的网页内容抽取装置，其特征在于，还包括：

模型训练模块，用于下载多个网页；对于各网页，确定网页内各区块的视觉信息，文本信息和Xml路径语言；对于各网页，标注与目标内容相应的区块，及标注与非目标内容相应的区块；确定与目标内容相应的各区块的特性向量，及与非目标内容相应的各区块的特征向量；其中一个区块的特性向量由该区块的视觉信息相应的视觉特征，和文本信息相应的文本特征融合而成；以与目标内容相应的各区块的特性向量作为正样本特征，以与非目标内容相应的各区块的特征向量作为负样本特征，根据机器学习方法训练所述正样本特征和负样本特征，得到识别模型。

13.根据权利要求12所述的网页内容抽取装置，其特征在于，还包括：

特征词集合确定模块，用于对与目标内容相应的各区块的文本信息进行分词处理，得到与目标内容相应的分词结果，及对与非目标内容相应的各区块的文本信息进行分词处理，得到与非目标内容相应的分词结果；计算与目标内容相应的每个分词结果的卡方分布，和与非目标内容相应的每个分词结果的卡方分布；根据卡方值对与目标内容相应的分词结果进行排序，及根据卡方值对与非目标内容相应的分词结果进行排序；取排序在设定位的与目标内容相应的分词结果，及取排序在设定位的与非目标内容相应的分词结果，得到特征词集合。

14.一种服务器，其特征在于，包括：至少一个处理器和至少一个存储器；其中，所述存储器存储有程序，所述处理器调用所述存储器所存储的程序，所述程序用于：

获取目标网页；