CN109063053B

CN109063053B - 一种网站站点地图自动重构的方法及系统

Info

Publication number: CN109063053B
Application number: CN201810795449.XA
Authority: CN
Inventors: 汪敏; 刘鹏飞; 李伦凉; 李绪祥; 尹娜
Original assignee: Cape Cloud Information Technology Co Ltd; Beijing Puyun Mdt Infotech Ltd
Current assignee: Cape Cloud Information Technology Co Ltd; Beijing Puyun Mdt Infotech Ltd
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2019-07-30
Anticipated expiration: 2038-07-20
Also published as: CN109063053A

Abstract

本发明提供了一种网站站点地图自动重构的方法，该方法具体包括以下步骤：S1、网站网页采集；S2、对每个采集到的网页，进行数字化标识提取，得到每个网页的唯一数字标识DOM_ID，并以键值对<DOM_ID：PAGEs>的方式保存进行归类保存，得到网站网页信息集合MAP；S3、对网站网页信息集合MAP利用判定规则进行统计分析，确定网站的栏目对象列表COLUMNs；S4、对步骤S3确定的栏目对象列表COLUMNs，通过栏目的上下级关系来重构栏目树，得到完整的站点地图。另外，本发明还提供了一种网站站点地图自动重构的系统。通过本发明的技术方案自动构建网站的站点地图，能够使得爬虫能够对网站重点栏目页进行及时全面的采集，从而用更少的资源采集更多的文章，提高网站的SEO友好性，为网站带来更多用户。

Description

一种网站站点地图自动重构的方法及系统

技术领域

本发明属于互联网信息采集的技术领域，尤其涉及一种网站站点地图自动重构的方法及系统。

背景技术

站点地图就是根据网站的结构、框架、内容，生成的导航网页文件，其一般存放在根目录下并命名sitemap，站点地图是一个网站所有链接的容器。由于很多网站的连接层次比较深，爬虫很难抓取到，通过站点地图可以清晰了解网站的架构，方便爬虫抓取网站页面。一个网站的站点地图，对于用户浏览网页、搜索引擎收录都有非常重要的作用。百度、google等搜索引擎，都希望各个网站提供清晰的站点地图，有了站点地图，网络爬虫可以减少采集次数，减少给网站造成的压力，同时可以更快更准的收录网站内容，提升网站的SEO友好性，为网站带来更多用户。站点地图生成的方法，比如在线生成、软件生成等，但是其构建站点地图不够及时、全面。

发明内容

本发明提出了一种网站站点地图自动重构的方法及系统，其基于DOM网页剪枝算法和SimHash算法，快速地从非结构化网页数据中提取出结构化信息，进一步归类结构化模板，然后结合少数专家知识和NLP技术，判断出栏目，构建清晰合理的站点地图。通过自动构建网站的站点地图，能够使得爬虫能够对网站重点栏目页进行及时全面的采集，从而用更少的资源采集更多的文章，提高网站的SEO友好性，为网站带来更多用户。

本发明提供的一种网站站点地图自动重构的方法，该方法具体包括以下步骤：

S1、网站网页采集：从网站首页按广度优先方式，顺序采集网站页面，最多采集N层，N为4或5；

S2、对每个采集到的网页，进行数字化标识提取，得到每个网页的唯一数字标识DOM_ID，并以键值对<DOM_ID：PAGEs>的方式保存进行归类保存，得到网站网页信息集合MAP，其中，PAGEs为网页的描述信息列表；列表中每一项是一个PAGE，PAGE是一个网页信息的描述，PAGE＝[url，anchor，depth，referer]，url是网页链接，referer是链接到当前页面的上一层网页的url，anchor是当前页面在referer页面上的文字锚点，depth是当前网页的深度；

S3、对网站网页信息集合MAP利用判定规则进行统计分析，确定网站的栏目对象列表COLUMNs；

S4、对步骤S3确定的栏目对象列表COLUMNs，通过栏目的上下级关系来重构栏目树，得到完整的站点地图。

其中，网页的唯一数字化标识通过以下步骤得到：

S2.1、网页数据格式化：获取网页的HTML源代码；

S2.2、网页净化：去除网页的HTML源代码中的冗余信息；

S2.3、生成网页的DOM树：对净化后的网页进行DOM树解析，生成净化后的DOM树；

S2.4、精炼DOM树：遍历DOM树，寻找最小格式节点，删除最小格式节点的子孙节点，形成一个新的DOM树；其中，所述格式节点是网页中确定网页结构布局的节点；所述样式节点是网页中不会影响页面布局，对网页的DOM树“主干”没有影响的节点；所述最小格式节点是指该节点下的子孙节点，不会再出现格式节点：

S2.5、文本序列转换：对新的DOM树进行深度优先遍历，得到一个HTML标签拼接的文本序列；

S2.6、数字标识生成：利用simhash算法计算所述文本序列，得到一个simhash值即为该网页的数字化标识。

其中，所述步骤S3进一步包括：

S3.1、对于网站网页信息集合MAP中每一组键值对<DOM_ID：PAGEs>，如果列表PAGEs的长度为1，并且PAGE中的anchor包含首页词，url中除去域名的path部分是“/”、“/index*”，那么DOM_ID对应的网页是这个网站的首页对象；所述首页词为体现网页首页特征的词，包括“首页”、“主页”等；

S3.2、对于网站网页信息集合MAP中每一组键值对<DOM_ID：PAGEs>，如果列表PAGEs的长度为(1，N-1]，则该DOM_ID对应的网页是这个网站的栏目对象COLUMN，因为一个栏目页的翻页通常有相同的DOM结构(DOM_ID一样)，并且有相同的网页标题(<TITLE>)，另外，由于一个DOM_ID可能对应多个PAGE，所以COLUMN中anchor，url，refer，depth的确定需要一定的规则：选PAGEs中anchor长度最短的(至少anchor长度要>＝2)PAGE来作为栏目对象COLUMN；

S3.3、对于网站网页信息集合MAP中每一组键值对<DOM_ID：PAGEs>，如果列表PAGEs的长度大于N，并且列表中PAGE页的anchor长度大于8，即LEN(PAGE.anchor)>8，则该DOM_ID对应的网页是这个网站的文章对象，因为文章标题长度一般大于8，并且一个网站的文章采用一个或数个文章模板来展示；

S3.4、对步骤3.1-3.3中每个网页的anchor进行中文分词，如果anchor是命名实体，如人名、地名、组织机构名，那么这些网页不是栏目对象；

S3.5、将上述步骤中分析得到的栏目对象保存在一个栏目对象列表COLUMNs中，栏目对象列表COLUMNs中每个元素为一个栏目对象COLUMN，COLUMN＝[anchor，url，refer，depth，count]，其中anchor，url，refer，depth的意义PAGE中的意义相同，count表示DOM_ID对应的PAGEs列表的长度。

其中，所述步骤S4中“通过栏目的上下级关系来重构栏目树”，具体包括：按depth和referer来重构栏目树。

另外，本发明还提供了一种网站站点地图自动重构的系统，该系统具体包括以下内容：

网站网页采集模块；

网站网页信息集合生成模块：对每个采集到的网页，进行数字化标识提取，得到每个网页的唯一数字标识DOM_ID，并以键值对<DOM_ID：PAGEs>的方式保存进行归类保存，得到网站网页信息集合MAP，其中，PAGEs为网页的描述信息列表；列表中每一项是一个PAGE，PAGE是一个网页信息的描述，PAGE＝[url，anchor，depth，referer]，url是网页链接，referer是链接到当前页面的上一层网页的url，anchor是当前页面在referer页面上的文字锚点，depth是当前网页的深度；

网站的栏目对象列表确定模块：对网站网页信息集合MAP利用判定规则进行统计分析，确定网站的栏目对象列表COLUMNs；

站点地图生成模块：对确定的栏目对象列表COLUMNs，通过栏目的上下级关系来重构栏目树，得到完整的站点地图。

本发明基于DOM网页剪枝算法和SimHash算法，能够快速地从非结构化网页数据中提取出结构化信息，进一步归类结构化模板，然后结合少数专家知识和NLP技术，判断出栏目，构建清晰合理的站点地图。通过自动构建网站的站点地图，能够使得爬虫能够对网站重点栏目页进行及时全面的采集，从而用更少的资源采集更多的文章，提高网站的SEO友好性，为网站带来更多用户。

说明书附图

图1为本发明一种网站站点地图自动重构的方法的流程图。

图2为本发明一种网站站点地图自动重构的系统的示意图。

具体实施方式

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可以找说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和有点能够更明显易懂，以下为本发明的具体实施方式。

实施例一

图1为本发明一种网站站点地图自动重构的方法的流程图，该方法具体包括一下步骤：

S1、网站网页采集：从网站首页按广度优先方式，顺序采集网站页面，最多采集N层(对小型网站，N＝4；对大种型网站，N＝5)。注意对大型商业网站，要注意屏蔽bbs等大量用户交流区，避免爬虫采集大量地浪费在无效网页上。

S2、对每个采集到的网页，进行数字化标识提取，得到每个网页的唯一数字标识DOM_ID，并以键值对<DOM_ID：PAGEs>的方式保存进行归类保存，得到网站网页信息集合MAP，其中，DOM_ID为网页的唯一数字标识，PAGEs为网页的描述信息列表，列表中每一项是一个PAGE，PAGE是一个网页信息的描述，PAGE＝[url，anchor，depth，referer]，url是网页链接，anchor是当前页面在referer页面上的文字锚点，depth是当前网页的深度，referer是链接到当前页面的上一层网页的url。一个DOM_ID就可以代表一个网页模板，每个网站的网页模板数量都是有限的。

其中，网页的唯一数字化标识通过以下步骤得到：

S2.1、网页数据格式化：获取网页的HTML源代码；

S2.2、网页净化：去除网页的HTML源代码中的冗余信息，比如css、script、meta、注释信息等；

S2.3、生成网页的DOM树：对净化后的网页基于jsoup进行DOM树解析，生成净化后的DOM树；

S2.4、精炼DOM树：遍历DOM树，寻找最小格式节点，删除最小格式节点的子孙节点，形成一个新的DOM树；其中，所述格式节点是网页中确定网页结构布局的节点，如DIV、TABLE、P、UL/LI、OL/LI、DL/DD/DT等；所述样式节点是网页中不会影响页面布局，对网页的DOM树“主干”没有影响的节点，如FONT、SPAN、A、IMG等；所述最小格式节点是指该节点下的子孙节点，不会再出现格式节点，只可能出现样式节点、文本、注释等；

S2.6、数字标识生成：利用simhash算法计算所述文本序列，得到一个128位的simhash值即为该网页的数字化标识；

S3、对网站网页信息集合MAP利用判定规则进行统计分析，确定网站的栏目对象列表：

S3.1、对于MAP中每一组键值对<DOM_ID：PAGEs>，如果列表PAGEs的长度为1，基本可以肯定是首页、频道、专题或各种特殊的唯一页面，如果PAGE中的anchor是“首页”、“主页”等首页词，并且url中除去域名的path部分是“/”、“/index*”，可以判定DOM_ID对应的网页是这个网站的首页；

S3.2、对于MAP中每一组键值对<DOM_ID：PAGEs>，如果列表PAGEs的长度为(1，N-1]，则该DOM_ID对应的网页是这个网站的栏目对象COLUMN，因为一个栏目页的翻页通常有相同的DOM结构(DOM_ID一样)，并且有相同的网页标题(<TITLE>)，另外，由于一个DOM_ID可能对应多个PAGE，所以COLUMN中anchor，url，refer，depth的确定需要一定的规则：选PAGEs中anchor长度最短的(至少anchor长度要>＝2)PAGE来作为栏目对象COLUMN；

S3.3、对于MAP中每一组键值对<DOM_ID：PAGEs>，如果列表PAGEs的长度大于N，并且列表中PAGE页的anchor长度大于8，即LEN(PAGE.anchor)>8，则该DOM_ID对应的网页是这个网站的文章对象，因为文章标题长度一般大于8，并且一个网站的文章采用一个或数个文章模板来展示；

S3.4、对步骤3.1-3.3中每个网页的anchor进行中文分词，如果anchor是命名实体(人名、地名、组织机构名)，那么这些网页不是栏目对象；

S4、对步骤S3中的栏目对象列表COLUMNs，通过栏目的上下级关系，即按depth和referer来重构栏目树，得到完整的站点地图。

实施例二

图2为本发明提供的一种网站站点地图自动重构的系统，该系统具体包括以下内容：

网站网页采集模块；

网站的栏目对象列表确定模块：对网站网页信息集合MAP利用判定规则进行统计分析，确定网站的栏目对象列表COLUMNs

其中，所述网站网页采集模块采集网站网页具体步骤如下：从网站首页按广度优先方式，顺序采集网站网页，最多采集N层，N为4或5。

其中，所述网页的唯一数字化标识通过以下步骤得到：

S2.1、网页数据格式化：获取网页的HTML源代码；

S2.2、网页净化：去除网页的HTML源代码中的冗余信息；

S2.4、精炼DOM树：遍历DOM树，寻找最小格式节点，删除最小格式节点的子孙节点，形成一个新的DOM树；其中，所述格式节点是网页中确定网页结构布局的节点；所述样式节点是网页中不会影响页面布局，对网页的DOM树“主干”没有影响的节点；所述最小格式节点是指该节点下的子孙节点，不会再出现格式节点；

其中，所述利用网站的栏目对象列表确定模块进一步包括以下内容：

首页对象判定子模块：对于网站网页信息集合MAP中每一组键值对<DOM_ID：PAGEs>，如果列表PAGEs的长度为1，并且PAGE中的anchor包含首页词，url中除去域名的path部分是“/”、“/index*”，那么DOM_ID对应的网页是这个网站的首页对象；所述首页词为体现网页首页特征的词；

栏目对象判定子模块：对于网站网页信息集合MAP中每一组键值对<DOM_ID：PAGEs>，如果列表PAGEs的长度为(1，N-1]，则该DOM_ID对应的网页是这个网站的栏目对象COLUMN，因为一个栏目页的翻页通常有相同的DOM结构(DOM_ID一样)，并且有相同的网页标题(<TITLE>)，另外，由于一个DOM_ID可能对应多个PAGE，所以COLUMN中anchor，url，refer，depth的确定需要一定的规则：选PAGEs中anchor长度最短的(至少anchor长度要>＝2)PAGE来作为栏目对象COLUMN；

文章对象判定子模块：对于网站网页信息集合MAP中每一组键值对<DOM_ID：PAGEs>，如果列表PAGEs的长度大于N，并且列表中PAGE页的anchor长度大于8，即LEN(PAGE.anchor)>8，则该DOM_ID对应的网页是这个网站的文章对象，因为文章标题长度一般大于8，并且一个网站的文章采用一个或数个文章模板来展示；

栏目对象过滤子模块：对步骤3.1-3.3中每个网页的anchor进行中文分词，如果anchor是命名实体，如人名、地名、组织机构名，那么这些网页不是栏目对象；

栏目对象存储子模块：将上述步骤中分析得到的栏目对象保存在一个栏目对象列表COLUMNs中，栏目对象列表COLUMNs中每个元素为一个栏目对象COLUMN，OLUMN＝[anchor，url，refer，depth，count]，其中anchor，url，refer，depth的意义PAGE中的意义相同，count表示DOM_ID对应的PAGEs列表的长度。

其中，所述站点地图生成模块中“通过栏目的上下级关系来重构栏目树”，具体包括：按depth和referer来重构栏目树。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围不局限于此，任何熟悉本技术领域的技术人员在本发明的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种网站站点地图自动重构的方法，其特征在于：该方法具体包括以下步骤：

S1、网站网页采集；

S2、对每个采集到的网页，进行唯一数字化标识提取，得到每个网页的唯一数字化标识DOM_ID，并以键值对<DOM_ID：PAGEs>的方式进行归类保存，得到网站网页信息集合MAP，其中，PAGEs为网页的描述信息列表；列表中每一项是一个PAGE，PAGE是一个网页信息的描述，PAGE＝[url，anchor，depth，referer]，url是网页链接，referer是链接到当前页面的上一层网页的url，anchor是当前页面在referer页面上的文字锚点，depth是当前网页的深度；

S4、对步骤S3确定的栏目对象列表COLUMNs，通过栏目的上下级关系来重构栏目树，得到完整的站点地图；

所述网页的唯一数字化标识通过以下步骤得到：

S2.1、网页数据格式化：获取网页的HTML源代码；

S2.2、网页净化：去除网页的HTML源代码中的冗余信息；

S2.4、精炼DOM树：遍历DOM树，寻找最小格式节点，删除最小格式节点的子孙节点，形成一个新的DOM树；其中，格式节点是网页中确定网页结构布局的节点；所述最小格式节点是指所述格式节点下的子孙节点，不会再出现格式节点：

S2.6、唯一数字化标识生成：利用simhash算法计算所述文本序列，得到一个simhash值即为该网页的唯一数字化标识。

2.根据权利要求1所述的一种网站站点地图自动重构的方法，其特征在于：所述步骤S1进一步包括：从网站首页按广度优先方式，顺序采集网站网页，最多采集N层，N为4或5。

3.根据权利要求2所述的一种网站站点地图自动重构的方法，其特征在于：所述步骤S3进一步包括：

S3.1、对于网站网页信息集合MAP中每一组键值对<DOM_ID：PAGEs>，如果列表PAGEs的长度为1，并且PAGE中的anchor包含首页词，url中除去域名的path部分是“/”、“/index*”，那么DOM_ID对应的网页是这个网站的首页对象；所述首页词为体现网页首页特征的词；

S3.2、对于网站网页信息集合MAP中每一组键值对<DOM_ID：PAGEs>，如果列表PAGEs的长度为(1，N-1)，则该DOM_ID对应的网页是这个网站的栏目对象COLUMN，COLUMN中anchor，url，refer，depth按照以下规则确定：选PAGEs中anchor长度最短的，并且anchor长度＞＝2的PAGE来作为栏目对象COLUMN；

S3.3、对于网站网页信息集合MAP中每一组键值对<DOM_ID：PAGEs>，如果列表PAGEs的长度大于N，并且列表中PAGE页的anchor长度大于8，即LEN(PAGE.anchor)＞8，则该DOM_ID对应的网页是这个网站的文章对象；

S3.4、对步骤S3.1-S3.3中每个网页的anchor进行中文分词，如果anchor是命名实体，那么这些网页不是栏目对象；

S3.5、将上述步骤中分析得到的栏目对象保存在一个栏目对象列表COLUMNs中，栏目对象列表COLUMNs中每个元素为一个栏目对象COLUMN，COLUMN＝[anchor，url，refer，depth，count]，其中anchor，url，refer，depth的意义与PAGE中的意义相同，count表示DOM_ID对应的PAGEs列表的长度。

4.根据权利要求3所述的一种网站站点地图自动重构的方法，其特征在于：所述步骤S4中“通过栏目的上下级关系来重构栏目树”，具体包括：按depth和referer来重构栏目树。

5.一种网站站点地图自动重构的系统，该系统具体包括：

网站网页采集模块；

网站网页信息集合生成模块：对每个采集到的网页，进行唯一数字化标识提取，得到每个网页的唯一数字化标识DOM_ID，并以键值对<DOM_ID：PAGEs>的方式进行归类保存，得到网站网页信息集合MAP，其中，PAGEs为网页的描述信息列表；列表中每一项是一个PAGE，PAGE是一个网页信息的描述，PAGE＝[url，anchor，depth，referer]，url是网页链接，referer是链接到当前页面的上一层网页的url，anchor是当前页面在referer页面上的文字锚点，depth是当前网页的深度；

站点地图生成模块：对确定的栏目对象列表COLUMNs，通过栏目的上下级关系来重构栏目树，得到完整的站点地图；

所述网页的唯一数字化标识通过以下步骤得到：

S2.1、网页数据格式化：获取网页的HTML源代码；

S2.2、网页净化：去除网页的HTML源代码中的冗余信息；

S2.4、精炼DOM树：遍历DOM树，寻找最小格式节点，删除最小格式节点的子孙节点，形成一个新的DOM树；其中，格式节点是网页中确定网页结构布局的节点；所述最小格式节点是指所述格式节点下的子孙节点，不会再出现格式节点；

6.根据权利要求5所述的一种网站站点地图自动重构的系统，其特征在于：所述网站网页采集模块采集网站网页具体步骤如下：从网站首页按广度优先方式，顺序采集网站网页，最多采集N层，N为4或5。

7.根据权利要求6所述的一种网站站点地图自动重构的系统，其特征在于：所述网站的栏目对象列表确定模块进一步包括：

栏目对象判定子模块：对于网站网页信息集合MAP中每一组键值对<DOM_ID：PAGEs>，如果列表PAGEs的长度为(1，N-1)，则该DOM_ID对应的网页是这个网站的栏目对象COLUMN，COLUMN中anchor，url，refer，depth按照以下规则确定：选PAGEs中anchor长度最短的，并且anchor长度＞＝2的PAGE来作为栏目对象COLUMN；

文章对象判定子模块：对于网站网页信息集合MAP中每一组键值对<DOM_ID：PAGEs>，如果列表PAGEs的长度大于N，并且列表中PAGE页的anchor长度大于8，即LEN(PAGE.anchor)＞8，则该DOM_ID对应的网页是这个网站的文章对象；

栏目对象过滤子模块：对步骤S3.1-S3.3中每个网页的anchor进行中文分词，如果anchor是命名实体，那么这些网页不是栏目对象；

栏目对象存储子模块：将上述步骤中分析得到的栏目对象保存在一个栏目对象列表COLUMNs中，栏目对象列表COLUMNs中每个元素为一个栏目对象COLUMN，OLUMN＝[anchor，url，refer，depth，count]，其中anchor，url，refer，depth的意义与PAGE中的意义相同，count表示DOM_ID对应的PAGEs列表的长度。

8.根据权利要求7所述的一种网站站点地图自动重构的系统，其特征在于：所述站点地图生成模块中“通过栏目的上下级关系来重构栏目树”，具体包括：按depth和referer来重构栏目树。