CN109063053B - 一种网站站点地图自动重构的方法及系统 - Google Patents
一种网站站点地图自动重构的方法及系统 Download PDFInfo
- Publication number
- CN109063053B CN109063053B CN201810795449.XA CN201810795449A CN109063053B CN 109063053 B CN109063053 B CN 109063053B CN 201810795449 A CN201810795449 A CN 201810795449A CN 109063053 B CN109063053 B CN 109063053B
- Authority
- CN
- China
- Prior art keywords
- webpage
- website
- column
- page
- dom
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明提供了一种网站站点地图自动重构的方法,该方法具体包括以下步骤:S1、网站网页采集;S2、对每个采集到的网页,进行数字化标识提取,得到每个网页的唯一数字标识DOM_ID,并以键值对<DOM_ID:PAGEs>的方式保存进行归类保存,得到网站网页信息集合MAP;S3、对网站网页信息集合MAP利用判定规则进行统计分析,确定网站的栏目对象列表COLUMNs;S4、对步骤S3确定的栏目对象列表COLUMNs,通过栏目的上下级关系来重构栏目树,得到完整的站点地图。另外,本发明还提供了一种网站站点地图自动重构的系统。通过本发明的技术方案自动构建网站的站点地图,能够使得爬虫能够对网站重点栏目页进行及时全面的采集,从而用更少的资源采集更多的文章,提高网站的SEO友好性,为网站带来更多用户。
Description
技术领域
本发明属于互联网信息采集的技术领域,尤其涉及一种网站站点地图自动重构的方法及系统。
背景技术
站点地图就是根据网站的结构、框架、内容,生成的导航网页文件,其一般存放在根目录下并命名sitemap,站点地图是一个网站所有链接的容器。由于很多网站的连接层次比较深,爬虫很难抓取到,通过站点地图可以清晰了解网站的架构,方便爬虫抓取网站页面。一个网站的站点地图,对于用户浏览网页、搜索引擎收录都有非常重要的作用。百度、google等搜索引擎,都希望各个网站提供清晰的站点地图,有了站点地图,网络爬虫可以减少采集次数,减少给网站造成的压力,同时可以更快更准的收录网站内容,提升网站的SEO友好性,为网站带来更多用户。站点地图生成的方法,比如在线生成、软件生成等,但是其构建站点地图不够及时、全面。
发明内容
本发明提出了一种网站站点地图自动重构的方法及系统,其基于DOM网页剪枝算法和SimHash算法,快速地从非结构化网页数据中提取出结构化信息,进一步归类结构化模板,然后结合少数专家知识和NLP技术,判断出栏目,构建清晰合理的站点地图。通过自动构建网站的站点地图,能够使得爬虫能够对网站重点栏目页进行及时全面的采集,从而用更少的资源采集更多的文章,提高网站的SEO友好性,为网站带来更多用户。
本发明提供的一种网站站点地图自动重构的方法,该方法具体包括以下步骤:
S1、网站网页采集:从网站首页按广度优先方式,顺序采集网站页面,最多采集N层,N为4或5;
S2、对每个采集到的网页,进行数字化标识提取,得到每个网页的唯一数字标识DOM_ID,并以键值对<DOM_ID:PAGEs>的方式保存进行归类保存,得到网站网页信息集合MAP,其中,PAGEs为网页的描述信息列表;列表中每一项是一个PAGE,PAGE是一个网页信息的描述,PAGE=[url,anchor,depth,referer],url是网页链接,referer是链接到当前页面的上一层网页的url,anchor是当前页面在referer页面上的文字锚点,depth是当前网页的深度;
S3、对网站网页信息集合MAP利用判定规则进行统计分析,确定网站的栏目对象列表COLUMNs;
S4、对步骤S3确定的栏目对象列表COLUMNs,通过栏目的上下级关系来重构栏目树,得到完整的站点地图。
其中,网页的唯一数字化标识通过以下步骤得到:
S2.1、网页数据格式化:获取网页的HTML源代码;
S2.2、网页净化:去除网页的HTML源代码中的冗余信息;
S2.3、生成网页的DOM树:对净化后的网页进行DOM树解析,生成净化后的DOM树;
S2.4、精炼DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;其中,所述格式节点是网页中确定网页结构布局的节点;所述样式节点是网页中不会影响页面布局,对网页的DOM树“主干”没有影响的节点;所述最小格式节点是指该节点下的子孙节点,不会再出现格式节点:
S2.5、文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
S2.6、数字标识生成:利用simhash算法计算所述文本序列,得到一个simhash值即为该网页的数字化标识。
其中,所述步骤S3进一步包括:
S3.1、对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度为1,并且PAGE中的anchor包含首页词,url中除去域名的path部分是“/”、“/index*”,那么DOM_ID对应的网页是这个网站的首页对象;所述首页词为体现网页首页特征的词,包括“首页”、“主页”等;
S3.2、对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度为(1,N-1],则该DOM_ID对应的网页是这个网站的栏目对象COLUMN,因为一个栏目页的翻页通常有相同的DOM结构(DOM_ID一样),并且有相同的网页标题(<TITLE>),另外,由于一个DOM_ID可能对应多个PAGE,所以COLUMN中anchor,url,refer,depth的确定需要一定的规则:选PAGEs中anchor长度最短的(至少anchor长度要>=2)PAGE来作为栏目对象COLUMN;
S3.3、对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度大于N,并且列表中PAGE页的anchor长度大于8,即LEN(PAGE.anchor)>8,则该DOM_ID对应的网页是这个网站的文章对象,因为文章标题长度一般大于8,并且一个网站的文章采用一个或数个文章模板来展示;
S3.4、对步骤3.1-3.3中每个网页的anchor进行中文分词,如果anchor是命名实体,如人名、地名、组织机构名,那么这些网页不是栏目对象;
S3.5、将上述步骤中分析得到的栏目对象保存在一个栏目对象列表COLUMNs中,栏目对象列表COLUMNs中每个元素为一个栏目对象COLUMN,COLUMN=[anchor,url,refer,depth,count],其中anchor,url,refer,depth的意义PAGE中的意义相同,count表示DOM_ID对应的PAGEs列表的长度。
其中,所述步骤S4中“通过栏目的上下级关系来重构栏目树”,具体包括:按depth和referer来重构栏目树。
另外,本发明还提供了一种网站站点地图自动重构的系统,该系统具体包括以下内容:
网站网页采集模块;
网站网页信息集合生成模块:对每个采集到的网页,进行数字化标识提取,得到每个网页的唯一数字标识DOM_ID,并以键值对<DOM_ID:PAGEs>的方式保存进行归类保存,得到网站网页信息集合MAP,其中,PAGEs为网页的描述信息列表;列表中每一项是一个PAGE,PAGE是一个网页信息的描述,PAGE=[url,anchor,depth,referer],url是网页链接,referer是链接到当前页面的上一层网页的url,anchor是当前页面在referer页面上的文字锚点,depth是当前网页的深度;
网站的栏目对象列表确定模块:对网站网页信息集合MAP利用判定规则进行统计分析,确定网站的栏目对象列表COLUMNs;
站点地图生成模块:对确定的栏目对象列表COLUMNs,通过栏目的上下级关系来重构栏目树,得到完整的站点地图。
本发明基于DOM网页剪枝算法和SimHash算法,能够快速地从非结构化网页数据中提取出结构化信息,进一步归类结构化模板,然后结合少数专家知识和NLP技术,判断出栏目,构建清晰合理的站点地图。通过自动构建网站的站点地图,能够使得爬虫能够对网站重点栏目页进行及时全面的采集,从而用更少的资源采集更多的文章,提高网站的SEO友好性,为网站带来更多用户。
说明书附图
图1为本发明一种网站站点地图自动重构的方法的流程图。
图2为本发明一种网站站点地图自动重构的系统的示意图。
具体实施方式
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可以找说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和有点能够更明显易懂,以下为本发明的具体实施方式。
实施例一
图1为本发明一种网站站点地图自动重构的方法的流程图,该方法具体包括一下步骤:
S1、网站网页采集:从网站首页按广度优先方式,顺序采集网站页面,最多采集N层(对小型网站,N=4;对大种型网站,N=5)。注意对大型商业网站,要注意屏蔽bbs等大量用户交流区,避免爬虫采集大量地浪费在无效网页上。
S2、对每个采集到的网页,进行数字化标识提取,得到每个网页的唯一数字标识DOM_ID,并以键值对<DOM_ID:PAGEs>的方式保存进行归类保存,得到网站网页信息集合MAP,其中,DOM_ID为网页的唯一数字标识,PAGEs为网页的描述信息列表,列表中每一项是一个PAGE,PAGE是一个网页信息的描述,PAGE=[url,anchor,depth,referer],url是网页链接,anchor是当前页面在referer页面上的文字锚点,depth是当前网页的深度,referer是链接到当前页面的上一层网页的url。一个DOM_ID就可以代表一个网页模板,每个网站的网页模板数量都是有限的。
其中,网页的唯一数字化标识通过以下步骤得到:
S2.1、网页数据格式化:获取网页的HTML源代码;
S2.2、网页净化:去除网页的HTML源代码中的冗余信息,比如css、script、meta、注释信息等;
S2.3、生成网页的DOM树:对净化后的网页基于jsoup进行DOM树解析,生成净化后的DOM树;
S2.4、精炼DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;其中,所述格式节点是网页中确定网页结构布局的节点,如DIV、TABLE、P、UL/LI、OL/LI、DL/DD/DT等;所述样式节点是网页中不会影响页面布局,对网页的DOM树“主干”没有影响的节点,如FONT、SPAN、A、IMG等;所述最小格式节点是指该节点下的子孙节点,不会再出现格式节点,只可能出现样式节点、文本、注释等;
S2.5、文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
S2.6、数字标识生成:利用simhash算法计算所述文本序列,得到一个128位的simhash值即为该网页的数字化标识;
S3、对网站网页信息集合MAP利用判定规则进行统计分析,确定网站的栏目对象列表:
S3.1、对于MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度为1,基本可以肯定是首页、频道、专题或各种特殊的唯一页面,如果PAGE中的anchor是“首页”、“主页”等首页词,并且url中除去域名的path部分是“/”、“/index*”,可以判定DOM_ID对应的网页是这个网站的首页;
S3.2、对于MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度为(1,N-1],则该DOM_ID对应的网页是这个网站的栏目对象COLUMN,因为一个栏目页的翻页通常有相同的DOM结构(DOM_ID一样),并且有相同的网页标题(<TITLE>),另外,由于一个DOM_ID可能对应多个PAGE,所以COLUMN中anchor,url,refer,depth的确定需要一定的规则:选PAGEs中anchor长度最短的(至少anchor长度要>=2)PAGE来作为栏目对象COLUMN;
S3.3、对于MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度大于N,并且列表中PAGE页的anchor长度大于8,即LEN(PAGE.anchor)>8,则该DOM_ID对应的网页是这个网站的文章对象,因为文章标题长度一般大于8,并且一个网站的文章采用一个或数个文章模板来展示;
S3.4、对步骤3.1-3.3中每个网页的anchor进行中文分词,如果anchor是命名实体(人名、地名、组织机构名),那么这些网页不是栏目对象;
S3.5、将上述步骤中分析得到的栏目对象保存在一个栏目对象列表COLUMNs中,栏目对象列表COLUMNs中每个元素为一个栏目对象COLUMN,COLUMN=[anchor,url,refer,depth,count],其中anchor,url,refer,depth的意义PAGE中的意义相同,count表示DOM_ID对应的PAGEs列表的长度。
S4、对步骤S3中的栏目对象列表COLUMNs,通过栏目的上下级关系,即按depth和referer来重构栏目树,得到完整的站点地图。
实施例二
图2为本发明提供的一种网站站点地图自动重构的系统,该系统具体包括以下内容:
网站网页采集模块;
网站网页信息集合生成模块:对每个采集到的网页,进行数字化标识提取,得到每个网页的唯一数字标识DOM_ID,并以键值对<DOM_ID:PAGEs>的方式保存进行归类保存,得到网站网页信息集合MAP,其中,PAGEs为网页的描述信息列表;列表中每一项是一个PAGE,PAGE是一个网页信息的描述,PAGE=[url,anchor,depth,referer],url是网页链接,referer是链接到当前页面的上一层网页的url,anchor是当前页面在referer页面上的文字锚点,depth是当前网页的深度;
网站的栏目对象列表确定模块:对网站网页信息集合MAP利用判定规则进行统计分析,确定网站的栏目对象列表COLUMNs
站点地图生成模块:对确定的栏目对象列表COLUMNs,通过栏目的上下级关系来重构栏目树,得到完整的站点地图。
其中,所述网站网页采集模块采集网站网页具体步骤如下:从网站首页按广度优先方式,顺序采集网站网页,最多采集N层,N为4或5。
其中,所述网页的唯一数字化标识通过以下步骤得到:
S2.1、网页数据格式化:获取网页的HTML源代码;
S2.2、网页净化:去除网页的HTML源代码中的冗余信息;
S2.3、生成网页的DOM树:对净化后的网页进行DOM树解析,生成净化后的DOM树;
S2.4、精炼DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;其中,所述格式节点是网页中确定网页结构布局的节点;所述样式节点是网页中不会影响页面布局,对网页的DOM树“主干”没有影响的节点;所述最小格式节点是指该节点下的子孙节点,不会再出现格式节点;
S2.5、文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
S2.6、数字标识生成:利用simhash算法计算所述文本序列,得到一个simhash值即为该网页的数字化标识。
其中,所述利用网站的栏目对象列表确定模块进一步包括以下内容:
首页对象判定子模块:对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度为1,并且PAGE中的anchor包含首页词,url中除去域名的path部分是“/”、“/index*”,那么DOM_ID对应的网页是这个网站的首页对象;所述首页词为体现网页首页特征的词;
栏目对象判定子模块:对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度为(1,N-1],则该DOM_ID对应的网页是这个网站的栏目对象COLUMN,因为一个栏目页的翻页通常有相同的DOM结构(DOM_ID一样),并且有相同的网页标题(<TITLE>),另外,由于一个DOM_ID可能对应多个PAGE,所以COLUMN中anchor,url,refer,depth的确定需要一定的规则:选PAGEs中anchor长度最短的(至少anchor长度要>=2)PAGE来作为栏目对象COLUMN;
文章对象判定子模块:对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度大于N,并且列表中PAGE页的anchor长度大于8,即LEN(PAGE.anchor)>8,则该DOM_ID对应的网页是这个网站的文章对象,因为文章标题长度一般大于8,并且一个网站的文章采用一个或数个文章模板来展示;
栏目对象过滤子模块:对步骤3.1-3.3中每个网页的anchor进行中文分词,如果anchor是命名实体,如人名、地名、组织机构名,那么这些网页不是栏目对象;
栏目对象存储子模块:将上述步骤中分析得到的栏目对象保存在一个栏目对象列表COLUMNs中,栏目对象列表COLUMNs中每个元素为一个栏目对象COLUMN,OLUMN=[anchor,url,refer,depth,count],其中anchor,url,refer,depth的意义PAGE中的意义相同,count表示DOM_ID对应的PAGEs列表的长度。
其中,所述站点地图生成模块中“通过栏目的上下级关系来重构栏目树”,具体包括:按depth和referer来重构栏目树。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围不局限于此,任何熟悉本技术领域的技术人员在本发明的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (8)
1.一种网站站点地图自动重构的方法,其特征在于:该方法具体包括以下步骤:
S1、网站网页采集;
S2、对每个采集到的网页,进行唯一数字化标识提取,得到每个网页的唯一数字化标识DOM_ID,并以键值对<DOM_ID:PAGEs>的方式进行归类保存,得到网站网页信息集合MAP,其中,PAGEs为网页的描述信息列表;列表中每一项是一个PAGE,PAGE是一个网页信息的描述,PAGE=[url,anchor,depth,referer],url是网页链接,referer是链接到当前页面的上一层网页的url,anchor是当前页面在referer页面上的文字锚点,depth是当前网页的深度;
S3、对网站网页信息集合MAP利用判定规则进行统计分析,确定网站的栏目对象列表COLUMNs;
S4、对步骤S3确定的栏目对象列表COLUMNs,通过栏目的上下级关系来重构栏目树,得到完整的站点地图;
所述网页的唯一数字化标识通过以下步骤得到:
S2.1、网页数据格式化:获取网页的HTML源代码;
S2.2、网页净化:去除网页的HTML源代码中的冗余信息;
S2.3、生成网页的DOM树:对净化后的网页进行DOM树解析,生成净化后的DOM树;
S2.4、精炼DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;其中,格式节点是网页中确定网页结构布局的节点;所述最小格式节点是指所述格式节点下的子孙节点,不会再出现格式节点:
S2.5、文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
S2.6、唯一数字化标识生成:利用simhash算法计算所述文本序列,得到一个simhash值即为该网页的唯一数字化标识。
2.根据权利要求1所述的一种网站站点地图自动重构的方法,其特征在于:所述步骤S1进一步包括:从网站首页按广度优先方式,顺序采集网站网页,最多采集N层,N为4或5。
3.根据权利要求2所述的一种网站站点地图自动重构的方法,其特征在于:所述步骤S3进一步包括:
S3.1、对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度为1,并且PAGE中的anchor包含首页词,url中除去域名的path部分是“/”、“/index*”,那么DOM_ID对应的网页是这个网站的首页对象;所述首页词为体现网页首页特征的词;
S3.2、对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度为(1,N-1),则该DOM_ID对应的网页是这个网站的栏目对象COLUMN,COLUMN中anchor,url,refer,depth按照以下规则确定:选PAGEs中anchor长度最短的,并且anchor长度>=2的PAGE来作为栏目对象COLUMN;
S3.3、对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度大于N,并且列表中PAGE页的anchor长度大于8,即LEN(PAGE.anchor)>8,则该DOM_ID对应的网页是这个网站的文章对象;
S3.4、对步骤S3.1-S3.3中每个网页的anchor进行中文分词,如果anchor是命名实体,那么这些网页不是栏目对象;
S3.5、将上述步骤中分析得到的栏目对象保存在一个栏目对象列表COLUMNs中,栏目对象列表COLUMNs中每个元素为一个栏目对象COLUMN,COLUMN=[anchor,url,refer,depth,count],其中anchor,url,refer,depth的意义与PAGE中的意义相同,count表示DOM_ID对应的PAGEs列表的长度。
4.根据权利要求3所述的一种网站站点地图自动重构的方法,其特征在于:所述步骤S4中“通过栏目的上下级关系来重构栏目树”,具体包括:按depth和referer来重构栏目树。
5.一种网站站点地图自动重构的系统,该系统具体包括:
网站网页采集模块;
网站网页信息集合生成模块:对每个采集到的网页,进行唯一数字化标识提取,得到每个网页的唯一数字化标识DOM_ID,并以键值对<DOM_ID:PAGEs>的方式进行归类保存,得到网站网页信息集合MAP,其中,PAGEs为网页的描述信息列表;列表中每一项是一个PAGE,PAGE是一个网页信息的描述,PAGE=[url,anchor,depth,referer],url是网页链接,referer是链接到当前页面的上一层网页的url,anchor是当前页面在referer页面上的文字锚点,depth是当前网页的深度;
网站的栏目对象列表确定模块:对网站网页信息集合MAP利用判定规则进行统计分析,确定网站的栏目对象列表COLUMNs;
站点地图生成模块:对确定的栏目对象列表COLUMNs,通过栏目的上下级关系来重构栏目树,得到完整的站点地图;
所述网页的唯一数字化标识通过以下步骤得到:
S2.1、网页数据格式化:获取网页的HTML源代码;
S2.2、网页净化:去除网页的HTML源代码中的冗余信息;
S2.3、生成网页的DOM树:对净化后的网页进行DOM树解析,生成净化后的DOM树;
S2.4、精炼DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;其中,格式节点是网页中确定网页结构布局的节点;所述最小格式节点是指所述格式节点下的子孙节点,不会再出现格式节点;
S2.5、文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;
S2.6、唯一数字化标识生成:利用simhash算法计算所述文本序列,得到一个simhash值即为该网页的唯一数字化标识。
6.根据权利要求5所述的一种网站站点地图自动重构的系统,其特征在于:所述网站网页采集模块采集网站网页具体步骤如下:从网站首页按广度优先方式,顺序采集网站网页,最多采集N层,N为4或5。
7.根据权利要求6所述的一种网站站点地图自动重构的系统,其特征在于:所述网站的栏目对象列表确定模块进一步包括:
首页对象判定子模块:对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度为1,并且PAGE中的anchor包含首页词,url中除去域名的path部分是“/”、“/index*”,那么DOM_ID对应的网页是这个网站的首页对象;所述首页词为体现网页首页特征的词;
栏目对象判定子模块:对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度为(1,N-1),则该DOM_ID对应的网页是这个网站的栏目对象COLUMN,COLUMN中anchor,url,refer,depth按照以下规则确定:选PAGEs中anchor长度最短的,并且anchor长度>=2的PAGE来作为栏目对象COLUMN;
文章对象判定子模块:对于网站网页信息集合MAP中每一组键值对<DOM_ID:PAGEs>,如果列表PAGEs的长度大于N,并且列表中PAGE页的anchor长度大于8,即LEN(PAGE.anchor)>8,则该DOM_ID对应的网页是这个网站的文章对象;
栏目对象过滤子模块:对步骤S3.1-S3.3中每个网页的anchor进行中文分词,如果anchor是命名实体,那么这些网页不是栏目对象;
栏目对象存储子模块:将上述步骤中分析得到的栏目对象保存在一个栏目对象列表COLUMNs中,栏目对象列表COLUMNs中每个元素为一个栏目对象COLUMN,OLUMN=[anchor,url,refer,depth,count],其中anchor,url,refer,depth的意义与PAGE中的意义相同,count表示DOM_ID对应的PAGEs列表的长度。
8.根据权利要求7所述的一种网站站点地图自动重构的系统,其特征在于:所述站点地图生成模块中“通过栏目的上下级关系来重构栏目树”,具体包括:按depth和referer来重构栏目树。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810795449.XA CN109063053B (zh) | 2018-07-20 | 2018-07-20 | 一种网站站点地图自动重构的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810795449.XA CN109063053B (zh) | 2018-07-20 | 2018-07-20 | 一种网站站点地图自动重构的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109063053A CN109063053A (zh) | 2018-12-21 |
CN109063053B true CN109063053B (zh) | 2019-07-30 |
Family
ID=64817473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810795449.XA Active CN109063053B (zh) | 2018-07-20 | 2018-07-20 | 一种网站站点地图自动重构的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109063053B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239274B (zh) * | 2021-05-19 | 2022-05-17 | 郑州信息科技职业学院 | 一种行为大数据自动化采集系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5958008A (en) * | 1996-10-15 | 1999-09-28 | Mercury Interactive Corporation | Software system and associated methods for scanning and mapping dynamically-generated web documents |
CN105446981B (zh) * | 2014-06-30 | 2019-03-29 | 阿里巴巴集团控股有限公司 | 站点地图生成方法、访问方法及装置 |
CN107204960B (zh) * | 2016-03-16 | 2020-11-24 | 阿里巴巴集团控股有限公司 | 网页识别方法及装置、服务器 |
-
2018
- 2018-07-20 CN CN201810795449.XA patent/CN109063053B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109063053A (zh) | 2018-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Dom based content extraction via text density | |
CN101615178B (zh) | 用于建立对象层次结构的方法和系统 | |
CN103294781B (zh) | 一种用于处理页面数据的方法与设备 | |
CN103023714B (zh) | 基于网络话题的活跃度与集群结构分析系统及方法 | |
CN101727498A (zh) | 一种基于web结构的网页信息自动提取方法 | |
CN103473338B (zh) | 网页内容抽取方法和网页内容抽取系统 | |
CN108920434A (zh) | 一种通用的网页主题内容提取方法和系统 | |
US20110246462A1 (en) | Method and System for Prompting Changes of Electronic Document Content | |
CN106557565A (zh) | 一种基于网页聚类的正文信息提取方法 | |
CN104598462B (zh) | 提取结构化数据的方法及装置 | |
CN104331438B (zh) | 对小说网页内容选择性抽取方法和装置 | |
CN108021692A (zh) | 一种监控网页的方法、服务器及计算机可读存储介质 | |
Baskaran et al. | Automated scraping of structured data records from health discussion forums using semantic analysis | |
CN103778238A (zh) | 一种从维基百科半结构化数据自动构建分类树的方法 | |
Figueiredo et al. | DERIN: A data extraction method based on rendering information and n-gram | |
CN105740355B (zh) | 基于聚集文本密度的网页正文提取方法及装置 | |
CN109063053B (zh) | 一种网站站点地图自动重构的方法及系统 | |
CN106528068A (zh) | 一种网页内容重构方法和系统 | |
EP2691874B1 (en) | Textual analysis system | |
CN104572874B (zh) | 一种网页信息的抽取方法及装置 | |
CN110083760B (zh) | 一种基于可视块的多记录型动态网页信息提取方法 | |
Jou | Schema extraction for deep web query interfaces using heuristics rules | |
Hernández et al. | CALA: ClAssifying Links Automatically based on their URL | |
CN103488743B (zh) | 网页元素抽取方法和网页元素抽取系统 | |
Pouramini et al. | Web content extraction using contextual rules |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100083 Quantum Ginza 601, No. 26 Zhichun Road, Haidian District, Beijing Applicant after: Beijing Puyun Mdt InfoTech Ltd Applicant after: Cape Cloud Information Technology Co., Ltd. Address before: 100083 Quantum Ginza 601, No. 26 Zhichun Road, Haidian District, Beijing Applicant before: Beijing Puyun Mdt InfoTech Ltd Applicant before: Guangdong Puyun information Polytron Technologies Inc |
|
GR01 | Patent grant | ||
GR01 | Patent grant |