CN101916285B

CN101916285B - 一种互联网网页内容解析方法及装置

Info

Publication number: CN101916285B
Application number: CN201010259001.XA
Authority: CN
Inventors: 郑清芳; 章动; 鲍东山
Original assignee: Beijing Nufront Mobile Multimedia Technology Co Ltd
Current assignee: Beijing New Shoreline Technology Co.,Ltd.; New Shoreline Beijing Science And Technology Group Co ltd
Priority date: 2010-08-20
Filing date: 2010-08-20
Publication date: 2016-06-08
Anticipated expiration: 2030-08-20
Also published as: CN101916285A

Abstract

本发明公开了一种互联网网页内容解析方法，包括：判断待解析的网页是否由模板生成；若该网页是由模板生成，查询到网页模板库中已存在与待解析网页相匹配的模板，则利用与待解析网页相对应的模板解析该网页的内容；否则，生成与待解析网页对应的网页模板，并加入到网页模板库中，利用该模板解析上述网页。本发明还提供相应的装置。根据本发明能针对每个网站甚至各不同频道分页，有针对性地进行网页的分析和处理，能够自动分析网页是否由模板生成，并能够自动生成与网页对应的模板，从而利用最适配的模板来解析网页。只对网页中真正的内容部分进行解析，从而减少垃圾信息的干扰，提高网页分析的准确度和精确度，明显提高网页分析的效果。

Description

一种互联网网页内容解析方法及装置

技术领域

本发明涉及通信及互联网技术领域，具体涉及一种互联网网页内容解析方法及装置。

背景技术

近年来，伴随着网络的普及、带宽的提升、服务模式的成熟，搜索引擎逐渐成为互联网的主流应用。在技术上，互联网搜索引擎一般由两个部分构成，即离线处理部分和在线处理部分。离线处理部分主要包括网页抓取，网页解析以及建立索引等主要功能模块，而在线处理模块流程包括：根据用户提交的查询词，在离线处理模块生成的索引和数据中查询对应的文档(即网页)，并将查询到的文档根据某种指标排序，最终将排序后的结果返回给用户。

在搜索引擎的整个运行过程中，网页解析发挥着基础性的关键作用，它事实上决定哪些数据和内容用来生成索引，从而能最终被用户查询到。由于技术和商业的原因，当前的每个网页中的内容都很复杂，除了网页的真正要表达的内容外，还掺杂了很多无关信息，例如广告信息、推荐信息等。由于网页解析的准确性很大程度上影响了搜索引擎服务的最终用户体验，目前有很多种方法被提出来，用以改进对网页内容的解析，这两种方法可归类为两种：

第一种用字符流的方式，根据各个标签和在网页中的位置信息，统计出各个部分的特征，根据他们的特征分析出网页的标题和正文，及其他部分。

第二种是用文档对象模型(DOM，DocumentObjectModel)树的方法。先根据原始网页建DOM树，在比较树各个节点的属性来判断网页的内容。

上述这两种方法，本质上都是利用事先制定好的一组规则来选取网页中的某些部分内容。但是，网页的编排方式五花八门，无法穷举。这些方法在实际运行中存在适应性差的问题，有些可能适用某些网页，而不适用另外一些网页的缺陷，使网页解析的最终结果或者存在垃圾信息，或者丢失了真正有用的信息。

发明内容

有鉴于此，本发明提供一种互联网网页内容解析方法及装置，可利用最适配的模板来解析网页。

本发明提供的一种互联网网页内容解析方法，包括：

判断待解析的网页是否由模板生成；

若该网页是由模板生成，则查询网页模板库中是否已存在与待解析网页相匹配的模板；

如果网页模板库中已存在与待解析网页相匹配的模板，则利用与待解析网页相对应的模板解析该网页的内容；

否则，生成与待解析网页对应的网页模板，并将生成的网页模板加入到网页模板库中，并利用该模板解析上述网页。

本发明提供的一种互联网网页内容解析装置，包括如下模块：

判断模块，用于判断待解析的网页是否由模板生成；

查询模块，用于若该网页是由模板生成，则查询网页模板库中是否已存在与待解析网页相匹配的模板；

生成模块，用于如果网页模板库中不存在与待解析网页相匹配的模板，生成与待解析网页对应的网页模板，并将生成的网页模板加入到网页模板库中；

解析模块，用于如果网页模板库中已存在与待解析网页相匹配的模板，则利用与待解析网页相对应的模板解析该网页的内容；如果网页模板库中不存在与待解析网页相匹配的模板，利用生模块生成的模板解析上述网页。

本发明提供了一种互联网网页内容解析方法，当待解析的网页是由模板生成，如果网页模板库中已存在与待解析网页相匹配的模板，则利用与待解析网页相对应的模板解析该网页的内容；否则，生成与待解析网页对应的网页模板，并将生成的网页模板加入到网页模板库中,并利用该模板解析上述网页。根据本发明能针对每个网站甚至每个网站的不同频道分页，用针对性的方法进行网页的分析和处理，能够自动分析网页是否由模板生成，并能够自动生成与网页对应的模板，从而利用最适配的模板来解析网页。本发明克服目前方法的缺点，能够只对网页中真正的内容部分进行解析，从而减少垃圾信息的干扰，提高网页分析的准确度和精确度，大幅度的提高网页分析的效果。

说明书附图

图1是本发明实施例中提供的互联网网页内容解析方法流程图；

图2是本发明实施例中提供的网页模板生成方法的流程图；

图3是本发明实施例中生成新模板的具体流程图；

图4所示为本发明实施例中的一种互联网网页内容解析装置示意图。

具体实施方式

针对现有技术的缺陷，本发明提供了一种互联网网页内容解析方法，能针对每个网站甚至每个网站的不同频道分页，用针对性的方法进行网页的分析和处理，能够自动分析网页是否由模板生成，并能够自动生成与网页对应的模板，从而利用最适配的模板来解析网页。本发明克服目前方法的缺点，能够只对网页中真正的内容部分进行解析，从而减少垃圾信息的干扰，提高网页分析的准确度和精确度，大幅度的提高网页分析的效果。

参照图1，本发明实施例提供的一种互联网网页内容解析方法，包括如下步骤：

S11，判断待解析的网页是否由模板生成；若该网页不是由模板生成，则转到步骤S12；否则，转到步骤S13；

S12，按预设的方式解析该网页；

S13，查询网页模板库中是否已存在与待解析网页相匹配的模板；

若网页模板库中已存在与待解析网页相匹配的模板，则执行步骤S15，利用与待解析网页相对应的模板解析该网页的内容；否则，执行步骤S14；

S14，生成与待解析网页对应的网页模板，并将生成的网页模板加入到网页模板库中；

S15，利用与待解析网页相对应的模板解析该网页的内容；

对于新的模块化网页，利用生成的相应模板解析该网页。

步骤S11中，网页模板库是预先建立的，并在第一次查询之前进行初始化。

判断待解析的网页是否由模板生成是通过识别统一资源定位符URL实现，具体包括：

根据URL生成的规则进行判断；或

识别URL中是否有目录的标识进行判断。

步骤S13中，所述查询模板库中是否已存在与网页相匹配的模板，具体步骤包括：

获取网页对应的URL中的指示目录的字符串；

利用上述字符串在模板库中查询。

步骤15中，利用与待解析网页相对应的模板解析该网页的内容，具体如下：

对所述网页页面进行分割，并计算每一块的特征值；

根据上述特征值在与该网页对应的模板中查询；

若模板中已经存在该特征值，则与该特征值对应的网页分块无需解析；

若模板中不存在该特征值，则对与该特征值对应的网页分块按预设的方式进行解析。

生成网页模板过程中采用的网页分割方法与利用模板解析网页内容过程中采用的网页分割方法相同。

步骤S15中，生成与待解析网页对应的网页模板，具体包括：

(a)获取与待浏览网页地址等同目录下的其他网页，并且选取的网页数目达到所需的预定阈值；

(b)将选取的该目录下的网页页面进行分割，每一块都生成一个特征值，每个网页页面对应多个特征值；

(c)将该目录下所有网页的全部特征值进行统计，得到出现频率高于阈值的那部分特征值，并保存到模板库中。

步骤S15中，将生成的网页模板加入到网页模板库中，包括：

获取网页对应的URL中的指示目录的字符串；

将上述字符串与该网页目录下所有出现频次高于预设阈值的特征值以键-值的方式加入模板库。

参照图2，本发明实施例还提供一种网页模板生成的方法，包括如下步骤：

S21，获取预定数量的网页地址等同目录下的网页；

S22，将所述网页切分成若干切分块，计算所述各切分块的特征值；

将所述网页切分成若干切分块时，以文档对象模型DOM节点作为分隔点进行切分。

将网页切分成若干切分块，各分块内容的长度不少于20个字节。

所述各切分块的特征值的计算方法是对分块的内容采用哈希运算。

S23，将计算得到的所述特征值进行统计；

S24，将重复出现次数多于预设阈值的特征值保存到特征值库，作为模板部分的特征值。

为使本发明的原理、特性和优点更加清楚，下面结合具体实施例进行描述。

本实施例中，若待分析的网页是http://news.sina.com.cn，那么将该URL和对应的原始网页送入系统进行处理。假定刚开始通用模板里的模板个数是0(即刚开始，没有生成任何模板)，首先，系统会根据统一资源定位符URL来判断是否是模板生成的，统一资源定位符(URL，Uniform/UniversalResourceLocator的缩写)也被称为网页地址，是因特网上标准的资源的地址(Address)。根据URL生成的规则，可以判断该URL是sina.com.cn的news频道页，所以不是模板生成的。在这种情况下，可以返回而不用模板的方法进行处理。另外，也可以用另一个原则来判断它不是由模板生成的：因为该URL没有/，即目录的标识，因此认为该URL不属于任何目录，即不是由模板生成的。也直接返回，用一般的方式进行解析。

而对于http://news.sina.com.cn/h/2010-07-15/141820685517.shtml这个网页，根据URL生成的规律，很容易的能够判断出它的目录是“http://news.sina.com.cn/h/2010-07-15”即最后一个“/”以前的部分，利用这个字符串在模板库中查询，因为这时通用模板库里没有生成模板，所以字符串没有对应的模板，这种情况下就要调用模板生成模块，来生成新的模板：

如图3所示，本实施例中，生成新模板的具体流程如下：

S31、获取如同http://news.sina.com.cn/h/2010-07-15/075320682851.shtml等同目录下的其他网页，并且其网页数目要超过生成模板需要最少网页的阈值，如果失败就返回。

S32、将获取的该目录下的所有页面都进行分割，每一块都生成一个特征值(md5值)，每个页面对应多个特征值(md5值)。

S33、将该目录下所有网页的全部特征值进行统计，得出出现频率高于阈值的那部分特征值。

S34、将该目录字符串，联同S33中的出现频率高于阈值的特征值加入到已有模板库中。这样便生成与待解析网页对应的解析模板。

步骤S31中，可以根据已知的如下所示的URL

http://news.sina.com.cn/h/2010-07-15/075320682851.shtml得知其所在的目录为http://news.sina.com.cn/h/2010-07-15，遍历该目录，可以得到该目录下的其他网页。

步骤S32中，网页的分块和块特征值的生成：一般的网页代码都遵守HTML标准规范，对应一个DOM模型，该模型由若干内容节点构成。

在网页分块时应以自然节点为分隔点，一般以tr，td，div等标签进行自然切分。分块内容的长度一般控制在不少于20个字节。

具体切分的时候，可以从网页的第一个字符开始，扫描设定的节点，(比如设定的节点是td，tr，div等)，如果遇到这些节点，就把此处位置设置为块的开始位置。然后用同样的方法去找下一个位置，如果相邻的位置的距离长度大于设定的最小长度(这里用20)，就把两个位置中间的部分当作一块，把该块生成指纹就可以了。同时设定本块的结束位置就是下一个块的开始位置，如果相邻的位置的距离少于最小长度，就继续寻找下一个节点(中间的节点就设为无效了)直到找到一个节点与本块开头的节点的距离大于最小距离(或找到网页的结尾)。

具体特征值的生成，一般为了保证不同的块有不同的特征值，一般可以选用较可靠的加密方法，例如md5算法。

步骤S33中，先统计出该目录下网页的数目，在把该目录下的所有网页分块的特征值进行统计。如果某种特征值的出现频次大于预设的阈值，这就说明：与该特征值对应的网页分块出现在很多网页中，因此其内容无价值，很可能是广告信息、导航信息等。把所有出现频次大于阈值的特征值存入模板库。

如果以后再遇到同目录下的网页，如：

http://news.sina.com.cn/h/2010-07-15/075320682851.shtml，

同样地，获取该URL的目录

http://news.sina.com.cn/s/2010-07-15，

并用该字符串在模板库中查询。因为与该字符串对应的模板已经存在，所以在模板库中可以查到该模板。这时可以对下面网页：

http://news.sina.com.cn/h/2010-07-15/075320682851.shtml的内容进行拆分，并把拆分的每一块都生成一个md5值，用该md5值在与上述字符串对应的模板，即特征值序列中寻找，如果该md5值在模板中存在，就说明该块是无价值分块，不予解析；如果找不到该md5就说明该块是网页的有意义部分。对该分块按预设的方式进行解析。

参照图4，本发明实施例还提供一种互联网网页内容解析装置40，包括如下模块：

判断模块41，用于判断待解析的网页是否由模板生成的；

存储模块42，用于存储网页模板库；

第一查询模块43，用于查询网页模板库中是否存在与待解析网页对应的模板；

第二查询模块44，用户查询与待解析网页对应得模板中是否存在某个特征值；

生成模块45，用于生成与待解析网页对应的模板；

第一解析模块46，用于按预设的方式解析待解析网页；

第二解析模块47，用于对待解析网页中的某个分块按预设的方式进行解析；

预设模块48，用于设置第一解析模块46和第二解析模块47的具体解析方式。

该装置的工作流程与前述方法基本相同，在此不再赘述。

本发明实施例还提供一种互联网网页内容解析装置，包括如下模块：

判断模块，用于判断待解析的网页是否由模板生成；

综上所述，本发明提供了一种互联网网页内容解析方法，当待解析的网页是由模板生成，如果网页模板库中已存在与待解析网页相匹配的模板，则利用与待解析网页相对应的模板解析该网页的内容；否则，生成与待解析网页对应的网页模板，并将生成的网页模板加入到网页模板库中,并利用该模板解析上述网页。根据本发明能针对每个网站甚至每个网站的不同频道分页，用针对性的方法进行网页的分析和处理，能够自动分析网页是否由模板生成，并能够自动生成与网页对应的模板，从而利用最适配的模板来解析网页。本发明克服目前方法的缺点，能够只对网页中真正的内容部分进行解析，从而减少垃圾信息的干扰，提高网页分析的准确度和精确度，大幅度的提高网页分析的效果。

根据所述公开的实施例，可以使得本领域技术人员能够实现或者使用本发明。对于本领域技术人员来说，这些实施例的各种修改是显而易见的，并且这里定义的总体原理也可以在不脱离本发明的范围和主旨的基础上应用于其他实施例。以上所述的实施例仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种互联网网页内容解析方法，其特征在于，包括：

判断待解析的网页是否由模板生成；

否则，生成与待解析网页对应的网页模板，并将生成的网页模板加入到网页模板库中,并利用该模板解析上述网页。

2.如权利要求1所述的互联网网页内容解析方法，其特征在于，所述判断待解析的网页是否由模板生成是通过识别统一资源定位符URL实现，具体包括：

根据URL生成的规则进行判断；或

识别URL中是否有目录的标识进行判断。

3.如权利要求1所述的互联网网页内容解析方法，其特征在于，

所述生成与待解析网页对应的网页模板，具体步骤包括：

获取与待浏览网页地址等同目录下的其他网页，并且选取的网页数目达到所需的预定阈值；

将选取的该目录下的网页页面进行分割，每一块都生成一个特征值，每个网页页面对应多个特征值；

将该目录下所有网页的全部特征值进行统计，得到出现频率高于阈值的那部分特征值，并保存到模板库中。

4.如权利要求1所述的互联网网页内容解析方法，其特征在于，所述网页模板库是预先建立的，并在第一次查询之前进行初始化。

5.如权利要求1所述的互联网网页内容解析方法，其特征在于，进一步包括：

若该网页不是由模板生成，则按预设的方式解析该网页。

6.如权利要求1所述的互联网网页内容解析方法，其特征在于，所述的利用模板解析网页的过程，具体步骤包括：

对所述的网页页面进行分割，并计算每一块的特征值；

根据上述特征值在与该网页对应的模板中查询；

7.如权利要求1所述的互联网网页内容解析方法，其特征在于，生成网页模板过程中采用的网页分割方法与利用模板解析网页内容过程中采用的网页分割方法相同。

8.如权利要求1所述的互联网网页内容解析方法，其特征在于，所述查询网页模板库中是否已存在与待解析网页相匹配的模板，具体步骤包括：

获取网页对应的URL中的指示目录的字符串；

利用上述字符串在网页模板库中查询。

9.如权利要求1所述的互联网网页内容解析方法，其特征在于，所述将生成的网页模板加入到网页模板库中，包括：

获取网页对应的URL中的指示目录的字符串；

10.一种互联网网页内容解析装置，其特征在于，包括如下模块：

判断模块，用于判断待解析的网页是否由模板生成；