CN109063053B - 一种网站站点地图自动重构的方法及系统 - Google Patents

一种网站站点地图自动重构的方法及系统 Download PDF

Info

Publication number
CN109063053B
CN109063053B CN201810795449.XA CN201810795449A CN109063053B CN 109063053 B CN109063053 B CN 109063053B CN 201810795449 A CN201810795449 A CN 201810795449A CN 109063053 B CN109063053 B CN 109063053B
Authority
CN
China
Prior art keywords
webpage
website
column
page
dom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810795449.XA
Other languages
English (en)
Other versions
CN109063053A (zh
Inventor
汪敏
刘鹏飞
李伦凉
李绪祥
尹娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cape Cloud Information Technology Co Ltd
Beijing Puyun Mdt Infotech Ltd
Original Assignee
Cape Cloud Information Technology Co Ltd
Beijing Puyun Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cape Cloud Information Technology Co Ltd, Beijing Puyun Mdt Infotech Ltd filed Critical Cape Cloud Information Technology Co Ltd
Priority to CN201810795449.XA priority Critical patent/CN109063053B/zh
Publication of CN109063053A publication Critical patent/CN109063053A/zh
Application granted granted Critical
Publication of CN109063053B publication Critical patent/CN109063053B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供了一种网站站点地图自动重构的方法,该方法具体包括以下步骤:S1、网站网页采集;S2、对每个采集到的网页,进行数字化标识提取,得到每个网页的唯一数字标识DOM_ID,并以键值对<DOM_ID:PAGEs>的方式保存进行归类保存,得到网站网页信息集合MAP;S3、对网站网页信息集合MAP利用判定规则进行统计分析,确定网站的栏目对象列表COLUMNs;S4、对步骤S3确定的栏目对象列表COLUMNs,通过栏目的上下级关系来重构栏目树,得到完整的站点地图。另外,本发明还提供了一种网站站点地图自动重构的系统。通过本发明的技术方案自动构建网站的站点地图,能够使得爬虫能够对网站重点栏目页进行及时全面的采集,从而用更少的资源采集更多的文章,提高网站的SEO友好性,为网站带来更多用户。

Description

一种网站站点地图自动重构的方法及系统
技术领域
本发明属于互联网信息采集的技术领域,尤其涉及一种网站站点地图自动重构的方法及系统。
背景技术
站点地图就是根据网站的结构、框架、内容,生成的导航网页文件,其一般存放在根目录下并命名sitemap,站点地图是一个网站所有链接的容器。由于很多网站的连接层次比较深,爬虫很难抓取到,通过站点地图可以清晰了解网站的架构,方便爬虫抓取网站页面。一个网站的站点地图,对于用户浏览网页、搜索引擎收录都有非常重要的作用。百度、google等搜索引擎,都希望各个网站提供清晰的站点地图,有了站点地图,网络爬虫可以减少采集次数,减少给网站造成的压力,同时可以更快更准的收录网站内容,提升网站的SEO友好性,为网站带来更多用户。站点地图生成的方法,比如在线生成、软件生成等,但是其构建站点地图不够及时、全面。
发明内容
本发明提出了一种网站站点地图自动重构的方法及系统,其基于DOM网页剪枝算法和SimHash算法,快速地从非结构化网页数据中提取出结构化信息,进一步归类结构化模板,然后结合少数专家知识和NLP技术,判断出栏目,构建清晰合理的站点地图。通过自动构建网站的站点地图,能够使得爬虫能够对网站重点栏目页进行及时全面的采集,从而用更少的资源采集更多的文章,提高网站的SEO友好性,为网站带来更多用户。
本发明提供的一种网站站点地图自动重构的方法,该方法具体包括以下步骤:
S1、网站网页采集:从网站首页按广度优先方式,顺序采集网站页面,最多采集N层,N为4或5;
S2、对每个采集到的网页,进行数字化标识提取,得到每个网页的唯一数字标识DOM_ID,并以键值对<DOM_ID:PAGEs>的方式保存进行归类保存,得到网站网页信息集合MAP,其中,PAGEs为网页的描述信息列表;列表中每一项是一个PAGE,PAGE是一个网页信息的描述,PAGE=[url,anchor,depth,referer],url是网页链接,referer是链接到当前页面的上一层网页的url,anchor是当前页面在referer页面上的文字锚点,depth是当前网页的深度;
S3、对网站网页信息集合MAP利用判定规则进行统计分析,确定网站的栏目对象列表COLUMNs;
S4、对步骤S3确定的栏目对象列表COLUMNs,通过栏目的上下级关系来重构栏目树,得到完整的站点地图。
其中,网页的唯一数字化标识通过以下步骤得到:
S2.1、网页数据格式化:获取网页的HTML源代码;
S2.2、网页净化:去除网页的HTML源代码中的冗余信息;
S2.3、生成网页的DOM树:对净化后的网页进行DOM树解析,生成净化后的DOM树;
S2.4、精炼DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;其中,所述格式节点是网页中确定网页结构布局的节点;所述样式节点是网页中不会影响页面布局,对网页的DOM树“主干”没有影响的节点;所述最小格式节点是指该节点下的子孙节点,不会再出现格式节点:
S2.5、文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
S2.6、数字标识生成:利用simhash算法计算所述文本序列,得到一个simhash值即为该网页的数字化标识。
其中,所述步骤S3进一步包括:
S3.1、对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度为1,并且PAGE中的anchor包含首页词,url中除去域名的path部分是“/”、“/index*”,那么DOM_ID对应的网页是这个网站的首页对象;所述首页词为体现网页首页特征的词,包括“首页”、“主页”等;
S3.2、对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度为(1,N-1],则该DOM_ID对应的网页是这个网站的栏目对象COLUMN,因为一个栏目页的翻页通常有相同的DOM结构(DOM_ID一样),并且有相同的网页标题(<TITLE>),另外,由于一个DOM_ID可能对应多个PAGE,所以COLUMN中anchor,url,refer,depth的确定需要一定的规则:选PAGEs中anchor长度最短的(至少anchor长度要>=2)PAGE来作为栏目对象COLUMN;
S3.3、对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度大于N,并且列表中PAGE页的anchor长度大于8,即LEN(PAGE.anchor)>8,则该DOM_ID对应的网页是这个网站的文章对象,因为文章标题长度一般大于8,并且一个网站的文章采用一个或数个文章模板来展示;
S3.4、对步骤3.1-3.3中每个网页的anchor进行中文分词,如果anchor是命名实体,如人名、地名、组织机构名,那么这些网页不是栏目对象;
S3.5、将上述步骤中分析得到的栏目对象保存在一个栏目对象列表COLUMNs中,栏目对象列表COLUMNs中每个元素为一个栏目对象COLUMN,COLUMN=[anchor,url,refer,depth,count],其中anchor,url,refer,depth的意义PAGE中的意义相同,count表示DOM_ID对应的PAGEs列表的长度。
其中,所述步骤S4中“通过栏目的上下级关系来重构栏目树”,具体包括:按depth和referer来重构栏目树。
另外,本发明还提供了一种网站站点地图自动重构的系统,该系统具体包括以下内容:
网站网页采集模块;
网站网页信息集合生成模块:对每个采集到的网页,进行数字化标识提取,得到每个网页的唯一数字标识DOM_ID,并以键值对<DOM_ID:PAGEs>的方式保存进行归类保存,得到网站网页信息集合MAP,其中,PAGEs为网页的描述信息列表;列表中每一项是一个PAGE,PAGE是一个网页信息的描述,PAGE=[url,anchor,depth,referer],url是网页链接,referer是链接到当前页面的上一层网页的url,anchor是当前页面在referer页面上的文字锚点,depth是当前网页的深度;
网站的栏目对象列表确定模块:对网站网页信息集合MAP利用判定规则进行统计分析,确定网站的栏目对象列表COLUMNs;
站点地图生成模块:对确定的栏目对象列表COLUMNs,通过栏目的上下级关系来重构栏目树,得到完整的站点地图。
本发明基于DOM网页剪枝算法和SimHash算法,能够快速地从非结构化网页数据中提取出结构化信息,进一步归类结构化模板,然后结合少数专家知识和NLP技术,判断出栏目,构建清晰合理的站点地图。通过自动构建网站的站点地图,能够使得爬虫能够对网站重点栏目页进行及时全面的采集,从而用更少的资源采集更多的文章,提高网站的SEO友好性,为网站带来更多用户。
说明书附图
图1为本发明一种网站站点地图自动重构的方法的流程图。
图2为本发明一种网站站点地图自动重构的系统的示意图。
具体实施方式
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可以找说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和有点能够更明显易懂,以下为本发明的具体实施方式。
实施例一
图1为本发明一种网站站点地图自动重构的方法的流程图,该方法具体包括一下步骤:
S1、网站网页采集:从网站首页按广度优先方式,顺序采集网站页面,最多采集N层(对小型网站,N=4;对大种型网站,N=5)。注意对大型商业网站,要注意屏蔽bbs等大量用户交流区,避免爬虫采集大量地浪费在无效网页上。
S2、对每个采集到的网页,进行数字化标识提取,得到每个网页的唯一数字标识DOM_ID,并以键值对<DOM_ID:PAGEs>的方式保存进行归类保存,得到网站网页信息集合MAP,其中,DOM_ID为网页的唯一数字标识,PAGEs为网页的描述信息列表,列表中每一项是一个PAGE,PAGE是一个网页信息的描述,PAGE=[url,anchor,depth,referer],url是网页链接,anchor是当前页面在referer页面上的文字锚点,depth是当前网页的深度,referer是链接到当前页面的上一层网页的url。一个DOM_ID就可以代表一个网页模板,每个网站的网页模板数量都是有限的。
其中,网页的唯一数字化标识通过以下步骤得到:
S2.1、网页数据格式化:获取网页的HTML源代码;
S2.2、网页净化:去除网页的HTML源代码中的冗余信息,比如css、script、meta、注释信息等;
S2.3、生成网页的DOM树:对净化后的网页基于jsoup进行DOM树解析,生成净化后的DOM树;
S2.4、精炼DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;其中,所述格式节点是网页中确定网页结构布局的节点,如DIV、TABLE、P、UL/LI、OL/LI、DL/DD/DT等;所述样式节点是网页中不会影响页面布局,对网页的DOM树“主干”没有影响的节点,如FONT、SPAN、A、IMG等;所述最小格式节点是指该节点下的子孙节点,不会再出现格式节点,只可能出现样式节点、文本、注释等;
S2.5、文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
S2.6、数字标识生成:利用simhash算法计算所述文本序列,得到一个128位的simhash值即为该网页的数字化标识;
S3、对网站网页信息集合MAP利用判定规则进行统计分析,确定网站的栏目对象列表:
S3.1、对于MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度为1,基本可以肯定是首页、频道、专题或各种特殊的唯一页面,如果PAGE中的anchor是“首页”、“主页”等首页词,并且url中除去域名的path部分是“/”、“/index*”,可以判定DOM_ID对应的网页是这个网站的首页;
S3.2、对于MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度为(1,N-1],则该DOM_ID对应的网页是这个网站的栏目对象COLUMN,因为一个栏目页的翻页通常有相同的DOM结构(DOM_ID一样),并且有相同的网页标题(<TITLE>),另外,由于一个DOM_ID可能对应多个PAGE,所以COLUMN中anchor,url,refer,depth的确定需要一定的规则:选PAGEs中anchor长度最短的(至少anchor长度要>=2)PAGE来作为栏目对象COLUMN;
S3.3、对于MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度大于N,并且列表中PAGE页的anchor长度大于8,即LEN(PAGE.anchor)>8,则该DOM_ID对应的网页是这个网站的文章对象,因为文章标题长度一般大于8,并且一个网站的文章采用一个或数个文章模板来展示;
S3.4、对步骤3.1-3.3中每个网页的anchor进行中文分词,如果anchor是命名实体(人名、地名、组织机构名),那么这些网页不是栏目对象;
S3.5、将上述步骤中分析得到的栏目对象保存在一个栏目对象列表COLUMNs中,栏目对象列表COLUMNs中每个元素为一个栏目对象COLUMN,COLUMN=[anchor,url,refer,depth,count],其中anchor,url,refer,depth的意义PAGE中的意义相同,count表示DOM_ID对应的PAGEs列表的长度。
S4、对步骤S3中的栏目对象列表COLUMNs,通过栏目的上下级关系,即按depth和referer来重构栏目树,得到完整的站点地图。
实施例二
图2为本发明提供的一种网站站点地图自动重构的系统,该系统具体包括以下内容:
网站网页采集模块;
网站网页信息集合生成模块:对每个采集到的网页,进行数字化标识提取,得到每个网页的唯一数字标识DOM_ID,并以键值对<DOM_ID:PAGEs>的方式保存进行归类保存,得到网站网页信息集合MAP,其中,PAGEs为网页的描述信息列表;列表中每一项是一个PAGE,PAGE是一个网页信息的描述,PAGE=[url,anchor,depth,referer],url是网页链接,referer是链接到当前页面的上一层网页的url,anchor是当前页面在referer页面上的文字锚点,depth是当前网页的深度;
网站的栏目对象列表确定模块:对网站网页信息集合MAP利用判定规则进行统计分析,确定网站的栏目对象列表COLUMNs
站点地图生成模块:对确定的栏目对象列表COLUMNs,通过栏目的上下级关系来重构栏目树,得到完整的站点地图。
其中,所述网站网页采集模块采集网站网页具体步骤如下:从网站首页按广度优先方式,顺序采集网站网页,最多采集N层,N为4或5。
其中,所述网页的唯一数字化标识通过以下步骤得到:
S2.1、网页数据格式化:获取网页的HTML源代码;
S2.2、网页净化:去除网页的HTML源代码中的冗余信息;
S2.3、生成网页的DOM树:对净化后的网页进行DOM树解析,生成净化后的DOM树;
S2.4、精炼DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;其中,所述格式节点是网页中确定网页结构布局的节点;所述样式节点是网页中不会影响页面布局,对网页的DOM树“主干”没有影响的节点;所述最小格式节点是指该节点下的子孙节点,不会再出现格式节点;
S2.5、文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
S2.6、数字标识生成:利用simhash算法计算所述文本序列,得到一个simhash值即为该网页的数字化标识。
其中,所述利用网站的栏目对象列表确定模块进一步包括以下内容:
首页对象判定子模块:对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度为1,并且PAGE中的anchor包含首页词,url中除去域名的path部分是“/”、“/index*”,那么DOM_ID对应的网页是这个网站的首页对象;所述首页词为体现网页首页特征的词;
栏目对象判定子模块:对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度为(1,N-1],则该DOM_ID对应的网页是这个网站的栏目对象COLUMN,因为一个栏目页的翻页通常有相同的DOM结构(DOM_ID一样),并且有相同的网页标题(<TITLE>),另外,由于一个DOM_ID可能对应多个PAGE,所以COLUMN中anchor,url,refer,depth的确定需要一定的规则:选PAGEs中anchor长度最短的(至少anchor长度要>=2)PAGE来作为栏目对象COLUMN;
文章对象判定子模块:对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度大于N,并且列表中PAGE页的anchor长度大于8,即LEN(PAGE.anchor)>8,则该DOM_ID对应的网页是这个网站的文章对象,因为文章标题长度一般大于8,并且一个网站的文章采用一个或数个文章模板来展示;
栏目对象过滤子模块:对步骤3.1-3.3中每个网页的anchor进行中文分词,如果anchor是命名实体,如人名、地名、组织机构名,那么这些网页不是栏目对象;
栏目对象存储子模块:将上述步骤中分析得到的栏目对象保存在一个栏目对象列表COLUMNs中,栏目对象列表COLUMNs中每个元素为一个栏目对象COLUMN,OLUMN=[anchor,url,refer,depth,count],其中anchor,url,refer,depth的意义PAGE中的意义相同,count表示DOM_ID对应的PAGEs列表的长度。
其中,所述站点地图生成模块中“通过栏目的上下级关系来重构栏目树”,具体包括:按depth和referer来重构栏目树。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围不局限于此,任何熟悉本技术领域的技术人员在本发明的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种网站站点地图自动重构的方法,其特征在于:该方法具体包括以下步骤:
S1、网站网页采集;
S2、对每个采集到的网页,进行唯一数字化标识提取,得到每个网页的唯一数字化标识DOM_ID,并以键值对<DOM_ID:PAGEs>的方式进行归类保存,得到网站网页信息集合MAP,其中,PAGEs为网页的描述信息列表;列表中每一项是一个PAGE,PAGE是一个网页信息的描述,PAGE=[url,anchor,depth,referer],url是网页链接,referer是链接到当前页面的上一层网页的url,anchor是当前页面在referer页面上的文字锚点,depth是当前网页的深度;
S3、对网站网页信息集合MAP利用判定规则进行统计分析,确定网站的栏目对象列表COLUMNs;
S4、对步骤S3确定的栏目对象列表COLUMNs,通过栏目的上下级关系来重构栏目树,得到完整的站点地图;
所述网页的唯一数字化标识通过以下步骤得到:
S2.1、网页数据格式化:获取网页的HTML源代码;
S2.2、网页净化:去除网页的HTML源代码中的冗余信息;
S2.3、生成网页的DOM树:对净化后的网页进行DOM树解析,生成净化后的DOM树;
S2.4、精炼DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;其中,格式节点是网页中确定网页结构布局的节点;所述最小格式节点是指所述格式节点下的子孙节点,不会再出现格式节点:
S2.5、文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
S2.6、唯一数字化标识生成:利用simhash算法计算所述文本序列,得到一个simhash值即为该网页的唯一数字化标识。
2.根据权利要求1所述的一种网站站点地图自动重构的方法,其特征在于:所述步骤S1进一步包括:从网站首页按广度优先方式,顺序采集网站网页,最多采集N层,N为4或5。
3.根据权利要求2所述的一种网站站点地图自动重构的方法,其特征在于:所述步骤S3进一步包括:
S3.1、对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度为1,并且PAGE中的anchor包含首页词,url中除去域名的path部分是“/”、“/index*”,那么DOM_ID对应的网页是这个网站的首页对象;所述首页词为体现网页首页特征的词;
S3.2、对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度为(1,N-1),则该DOM_ID对应的网页是这个网站的栏目对象COLUMN,COLUMN中anchor,url,refer,depth按照以下规则确定:选PAGEs中anchor长度最短的,并且anchor长度>=2的PAGE来作为栏目对象COLUMN;
S3.3、对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度大于N,并且列表中PAGE页的anchor长度大于8,即LEN(PAGE.anchor)>8,则该DOM_ID对应的网页是这个网站的文章对象;
S3.4、对步骤S3.1-S3.3中每个网页的anchor进行中文分词,如果anchor是命名实体,那么这些网页不是栏目对象;
S3.5、将上述步骤中分析得到的栏目对象保存在一个栏目对象列表COLUMNs中,栏目对象列表COLUMNs中每个元素为一个栏目对象COLUMN,COLUMN=[anchor,url,refer,depth,count],其中anchor,url,refer,depth的意义与PAGE中的意义相同,count表示DOM_ID对应的PAGEs列表的长度。
4.根据权利要求3所述的一种网站站点地图自动重构的方法,其特征在于:所述步骤S4中“通过栏目的上下级关系来重构栏目树”,具体包括:按depth和referer来重构栏目树。
5.一种网站站点地图自动重构的系统,该系统具体包括:
网站网页采集模块;
网站网页信息集合生成模块:对每个采集到的网页,进行唯一数字化标识提取,得到每个网页的唯一数字化标识DOM_ID,并以键值对<DOM_ID:PAGEs>的方式进行归类保存,得到网站网页信息集合MAP,其中,PAGEs为网页的描述信息列表;列表中每一项是一个PAGE,PAGE是一个网页信息的描述,PAGE=[url,anchor,depth,referer],url是网页链接,referer是链接到当前页面的上一层网页的url,anchor是当前页面在referer页面上的文字锚点,depth是当前网页的深度;
网站的栏目对象列表确定模块:对网站网页信息集合MAP利用判定规则进行统计分析,确定网站的栏目对象列表COLUMNs;
站点地图生成模块:对确定的栏目对象列表COLUMNs,通过栏目的上下级关系来重构栏目树,得到完整的站点地图;
所述网页的唯一数字化标识通过以下步骤得到:
S2.1、网页数据格式化:获取网页的HTML源代码;
S2.2、网页净化:去除网页的HTML源代码中的冗余信息;
S2.3、生成网页的DOM树:对净化后的网页进行DOM树解析,生成净化后的DOM树;
S2.4、精炼DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;其中,格式节点是网页中确定网页结构布局的节点;所述最小格式节点是指所述格式节点下的子孙节点,不会再出现格式节点;
S2.5、文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
S2.6、唯一数字化标识生成:利用simhash算法计算所述文本序列,得到一个simhash值即为该网页的唯一数字化标识。
6.根据权利要求5所述的一种网站站点地图自动重构的系统,其特征在于:所述网站网页采集模块采集网站网页具体步骤如下:从网站首页按广度优先方式,顺序采集网站网页,最多采集N层,N为4或5。
7.根据权利要求6所述的一种网站站点地图自动重构的系统,其特征在于:所述网站的栏目对象列表确定模块进一步包括:
首页对象判定子模块:对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度为1,并且PAGE中的anchor包含首页词,url中除去域名的path部分是“/”、“/index*”,那么DOM_ID对应的网页是这个网站的首页对象;所述首页词为体现网页首页特征的词;
栏目对象判定子模块:对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度为(1,N-1),则该DOM_ID对应的网页是这个网站的栏目对象COLUMN,COLUMN中anchor,url,refer,depth按照以下规则确定:选PAGEs中anchor长度最短的,并且anchor长度>=2的PAGE来作为栏目对象COLUMN;
文章对象判定子模块:对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度大于N,并且列表中PAGE页的anchor长度大于8,即LEN(PAGE.anchor)>8,则该DOM_ID对应的网页是这个网站的文章对象;
栏目对象过滤子模块:对步骤S3.1-S3.3中每个网页的anchor进行中文分词,如果anchor是命名实体,那么这些网页不是栏目对象;
栏目对象存储子模块:将上述步骤中分析得到的栏目对象保存在一个栏目对象列表COLUMNs中,栏目对象列表COLUMNs中每个元素为一个栏目对象COLUMN,OLUMN=[anchor,url,refer,depth,count],其中anchor,url,refer,depth的意义与PAGE中的意义相同,count表示DOM_ID对应的PAGEs列表的长度。
8.根据权利要求7所述的一种网站站点地图自动重构的系统,其特征在于:所述站点地图生成模块中“通过栏目的上下级关系来重构栏目树”,具体包括:按depth和referer来重构栏目树。
CN201810795449.XA 2018-07-20 2018-07-20 一种网站站点地图自动重构的方法及系统 Active CN109063053B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810795449.XA CN109063053B (zh) 2018-07-20 2018-07-20 一种网站站点地图自动重构的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810795449.XA CN109063053B (zh) 2018-07-20 2018-07-20 一种网站站点地图自动重构的方法及系统

Publications (2)

Publication Number Publication Date
CN109063053A CN109063053A (zh) 2018-12-21
CN109063053B true CN109063053B (zh) 2019-07-30

Family

ID=64817473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810795449.XA Active CN109063053B (zh) 2018-07-20 2018-07-20 一种网站站点地图自动重构的方法及系统

Country Status (1)

Country Link
CN (1) CN109063053B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239274B (zh) * 2021-05-19 2022-05-17 郑州信息科技职业学院 一种行为大数据自动化采集系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5958008A (en) * 1996-10-15 1999-09-28 Mercury Interactive Corporation Software system and associated methods for scanning and mapping dynamically-generated web documents
CN105446981B (zh) * 2014-06-30 2019-03-29 阿里巴巴集团控股有限公司 站点地图生成方法、访问方法及装置
CN107204960B (zh) * 2016-03-16 2020-11-24 阿里巴巴集团控股有限公司 网页识别方法及装置、服务器

Also Published As

Publication number Publication date
CN109063053A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
Sun et al. Dom based content extraction via text density
CN101615178B (zh) 用于建立对象层次结构的方法和系统
CN103294781B (zh) 一种用于处理页面数据的方法与设备
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN101727498A (zh) 一种基于web结构的网页信息自动提取方法
CN103473338B (zh) 网页内容抽取方法和网页内容抽取系统
CN108920434A (zh) 一种通用的网页主题内容提取方法和系统
US20110246462A1 (en) Method and System for Prompting Changes of Electronic Document Content
CN106557565A (zh) 一种基于网页聚类的正文信息提取方法
CN104598462B (zh) 提取结构化数据的方法及装置
CN104331438B (zh) 对小说网页内容选择性抽取方法和装置
CN108021692A (zh) 一种监控网页的方法、服务器及计算机可读存储介质
Baskaran et al. Automated scraping of structured data records from health discussion forums using semantic analysis
CN103778238A (zh) 一种从维基百科半结构化数据自动构建分类树的方法
Figueiredo et al. DERIN: A data extraction method based on rendering information and n-gram
CN105740355B (zh) 基于聚集文本密度的网页正文提取方法及装置
CN109063053B (zh) 一种网站站点地图自动重构的方法及系统
CN106528068A (zh) 一种网页内容重构方法和系统
EP2691874B1 (en) Textual analysis system
CN104572874B (zh) 一种网页信息的抽取方法及装置
CN110083760B (zh) 一种基于可视块的多记录型动态网页信息提取方法
Jou Schema extraction for deep web query interfaces using heuristics rules
Hernández et al. CALA: ClAssifying Links Automatically based on their URL
CN103488743B (zh) 网页元素抽取方法和网页元素抽取系统
Pouramini et al. Web content extraction using contextual rules

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 Quantum Ginza 601, No. 26 Zhichun Road, Haidian District, Beijing

Applicant after: Beijing Puyun Mdt InfoTech Ltd

Applicant after: Cape Cloud Information Technology Co., Ltd.

Address before: 100083 Quantum Ginza 601, No. 26 Zhichun Road, Haidian District, Beijing

Applicant before: Beijing Puyun Mdt InfoTech Ltd

Applicant before: Guangdong Puyun information Polytron Technologies Inc

GR01 Patent grant
GR01 Patent grant