CN108255831B - 一种用于为网站生成网站地图的方法及系统 - Google Patents

一种用于为网站生成网站地图的方法及系统 Download PDF

Info

Publication number
CN108255831B
CN108255831B CN201611235483.9A CN201611235483A CN108255831B CN 108255831 B CN108255831 B CN 108255831B CN 201611235483 A CN201611235483 A CN 201611235483A CN 108255831 B CN108255831 B CN 108255831B
Authority
CN
China
Prior art keywords
sitemap
website
metadata
link
active
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611235483.9A
Other languages
English (en)
Other versions
CN108255831A (zh
Inventor
刘海超
谢宇
张玉魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN201611235483.9A priority Critical patent/CN108255831B/zh
Publication of CN108255831A publication Critical patent/CN108255831A/zh
Application granted granted Critical
Publication of CN108255831B publication Critical patent/CN108255831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用于为网站生成网站地图的方法,通过对网站中所有的有效链接的元数据的收集和修改,根据元数据对有效数据进行分类,并根据分类结果生成多个网站地图进行推送或保存,方便搜索引擎蜘蛛爬行至网站的所有有效链接,提高蜘蛛的爬行效率,进而使用户进行搜索网站的相关关键词时,被收录的网站可以更好的被搜索引擎选中并显示给用户。

Description

一种用于为网站生成网站地图的方法及系统
技术领域
本发明涉及数据网络技术领域,并且更具体地,涉及一种用于为网站生成网站地图的方法及系统。
背景技术
在现有的网站或者论坛大部分网站地图生成都是一次生成然后不断来添加新的数据信息,来等待蜘蛛抓取,而且网站地图的更新也很慢,对链接地址的检测是否是死链也没有做到有效的处理,导致搜索引擎无法及时更新网站的相关信息,使网站在相关关键词被搜索时无法显示至用户。
例如,纳税服务网网站的根目录下就只有一个snewiteffmap.xml文件,这个文件就是网站的网站地图文件,统计网站地图文件中只有39799条链接,而且网站地图文件里包含的链接地址也没有经过死链过滤,网站的网站地图文件只在各大搜索引擎处手动提交过一次,随后也没有进行过更新处理,使得网站中新出现的优秀文章或链接等无法及时得到蜘蛛的抓取。
因此,为了方便搜索引擎蜘蛛抓取网站页面,需要一种网站地图的生成方法,使得生成的网站地图文件可以提高蜘蛛的爬行效率。
发明内容
为了解决上述问题,根据本发明的一方面,提供一种用于为网站生成网站地图的方法,所述方法包括:
确定网站地图的文件格式,并且基于所述文件格式确定需要收集的多个元数据;
以所述网站的网址作为数据收集起点,从所述数据收集起点开始收集所述网站的所有有效链接;
为所述所有有效链接中的每个有效链接确定需要收集的多个元数据;
根据用户预先设置的规则来修改所述多个元数据中的一个或多个元数据;
根据每个有效链接的经过修改的多个元数据中的一个或多个元数据,对每个有效链接进行分类,其中每个分类包括至少一个有效链接;以及
将每个分类中的至少一个有效链接生成网站地图子图,将多个网站地图子图进行组合以生成网站地图。
优选地,所述网站地图的文件格式为HTML格式、XML格式或TXT格式。
优选地,所述元数据为描述所述有效链接的短句或与所述有效链接相关的关键词。
优选地,所述多个网站地图子图中每个网站地图子图的有效链接数量不超过5万条且多个网站地图子图中的每个网站地图子图的大小不超过10M。
优选地,通过有效链接检测工具进行检测所述网站的链接是否为有效链接。
优选地,所述有效链接检测工具为站长工具或Xenu死链接检测工具。
优选地,所述网站地图子图还包括与有效链接相应的多个元数据。
优选地,所述网站地图生成后推送至搜索引擎接口和/或保存至网站的根目录。
根据本发明的另一方面,提供一种用于为网站生成网站地图的系统,包括:
初始单元,用于确定网站地图的文件格式,并且基于所述文件格式确定需要收集的多个元数据;
链接收集单元,以所述网站的网址作为数据收集起点,从所述数据收集起点开始收集所述网站的所有有效链接;
元数据收集单元,为所述所有有效链接中的每个有效链接确定需要收集的多个元数据;
元数据修改单元,根据用户预先设置的规则来修改所述多个元数据中的一个或多个元数据;
分类单元,根据每个有效链接的经过修改的多个元数据中的一个或多个元数据,对每个有效链接进行分类,其中每个分类包括至少一个有效链接;
网站地图生成单元,用于将每个分类中的至少一个有效链接生成网站地图子图,将多个网站地图子图进行组合以生成网站地图。
优选地,还包括有效链接检测工具,用于检测所述网站的连接是否为有效链接。
优选地,所述有效链接检测工具为站长工具或Xenu死链接检测工具。
优选地,所述网站地图的文件格式为HTML格式、XML格式或TXT格式。
优选地,所述元数据为描述所述有效链接的短句或与所述有效链接相关的关键词。
优选地,所述多个网站地图子图中每个网站地图子图的有效链接数量不超过5万条且多个网站地图子图中的每个网站地图子图的大小不超过10M。
优选地,所述网站地图子图还包括与有效链接相应的多个元数据。
优选地,所述网站地图生成后推送至搜索引擎接口和/或保存至网站的根目录。
本发明提供了一种用于为网站生成网站地图的方法及系统,通过对网站中所有的有效链接的元数据的收集和修改,根据元数据对有效数据进行分类,并根据分类结果生成多个网站地图进行推送或保存,方便搜索引擎蜘蛛爬行至网站的所有有效链接,提高蜘蛛的爬行效率,进而使用户进行搜索网站的相关关键词时,被收录的网站可以更好的被搜索引擎选中并显示给用户。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明优选实施例的网站地图生成方法的流程图;以及
图2为根据本发明优选实施例的网站地图生成系统的结构图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明优选实施例的网站地图生成方法的流程图。如图1所示,网站地图生成方法100首先通过确定网站地图的文件格式,以确定需要收集的元数据,并从网站的网址开始,收集网站的所有有效链接和所有有效链接的元数据,随后根据用户预先设定的规则对元数据进行修改,并根据修改后的元数据进行有效链接的分类,最后根据分类生成网站地图子图,并组合以生产网站地图。
方法100从步骤101开始,在步骤101中,确定网站地图的文件格式,并且基于所述文件格式确定需要收集的多个元数据。优选地,网站地图的文件格式包括HTML格式、XML格式和TXT格式。由于每个搜索引擎主要识别网站地图格式的效果不同,所以建议当推送的搜索引擎为百度时网站地图选用HTML格式,当推送的搜索引擎为谷歌时网站地图选用XML格式,当推送的搜索引擎为雅虎时网站地图选用TXT格式。优选地,所述元数据为描述所述网站包含的有效链接的短句或与所述有效链接相关的关键词。在步骤101中,只是确定某种文件格式下,需要确定的元数据的个数或格式。
在步骤102中,以所述网站的网址作为数据收集起点,从所述数据收集起点开始收集所述网站的所有有效链接。由于一个网站可能包括的链接有多个,但真正可以被访问或进行下载的链接才是需要被收录的链接,所以对网站的有效链接检测是提高网站收录的一种有效手段。优选地,通过有效链接检测工具进行检测所述网站的链接是否为有效链接,这里的有效链接检测工具可以为站长工具或Xenu死链接检测工具,但不仅限与上述两种检测工具。
在步骤103中,为所述所有有效链接中的每个有效链接确定需要收集的多个元数据。根据步骤101中确定的网站所需要收集的多个元数据,对每个有效链接的元数据进行收集。例如,有效链接主要包含的内容为关于税务局的信息,其元数据可以但不限于为“国税”、“地税”、“增值税”、“发票”以及“报税”等,根据文件格式确定元数据的个数或格式等,HTML格式的网站地图文件每个有效链接可以收集10个元数据,XML格式的网站地图文件每个有效链接可以收集12个元数据等等。
在步骤104中,根据用户预先设置的规则来修改所述多个元数据中的一个或多个元数据。由于网站地图文件可能被推送至搜索引擎蜘蛛进行抓取,且为了提高网站中有效链接的收录排名,用户可以根据自己预先制定的规则,将用户认为更贴切、更容易被搜索到的关键词作为某个有效链接的一个或多个元数据。或者只保留自动提取的元数据中的一部分,例如只保留三个字的元数据,或只保留HTML格式下10个元数据中的5个。
在步骤105中,根据每个有效链接的经过修改的多个元数据中的一个或多个元数据,对每个有效链接进行分类,其中每个分类包括至少一个有效链接。优选地,这里的分类并没有具体的限定,可以根据所述网站和有效链接的元数据实际内容进行分类,例如,某个市区的税务局网站,按照有效链接的元数据可以分为“新闻信息类”、“税务办理类”、“政策查询类”等等,通过分类进行网站地图文件的构建,可以方便搜索引擎蜘蛛的爬行,并提高蜘蛛的爬行效率。
在步骤106中,将每个分类中的至少一个有效链接生成网站地图子图,将多个网站地图子图进行组合以生成网站地图。优选地,网站地图子图不仅包括至少一个的有效链接,还包括与有效链接相应的多个元数据。优选地,为了方便蜘蛛的爬行,每个网站地图子图的有效链接数量不超过5万条且多个网站地图子图中的每个网站地图子图的大小不超过10M,若存在同一个分类下的有效链接数超过5万条或相对应的网站地图子图的大小超过10M,则进行拆分处理。根据多个网站地图子图生成的网站地图文件,可以推送至搜索引擎接口和/或保存至网站的根目录。
本发明的优选实施例一种用于为网站生成网站地图的方法100,通过过对网站中所有的有效链接的元数据的收集和修改,根据元数据对有效数据进行分类,并根据分类结果生成多个网站地图进行推送或保存,方便搜索引擎蜘蛛爬行至网站的所有有效链接,提高蜘蛛的爬行效率,进而使用户进行搜索网站的相关关键词时,被收录的网站可以更好的被搜索引擎选中并显示给用户。
图2为根据本发明优选实施例的网站地图生成系统的结构图。如图2所示,网站地图生成系统200包括初始单元201、链接收集单元202、元数据收集单元203、元数据修改单元204、分类单元205以及网站地图生成单元206,其中,初始单元201用于确定网站地图的文件格式,并且基于所述文件格式确定需要收集的多个元数据;
链接收集单元202以所述网站的网址作为数据收集起点,从所述数据收集起点开始收集所述网站的所有有效链接;
元数据收集单元203为所述所有有效链接中的每个有效链接确定需要收集的多个元数据;
元数据修改单元204根据用户预先设置的规则来修改所述多个元数据中的一个或多个元数据;
分类单元205根据每个有效链接的经过修改的多个元数据中的一个或多个元数据,对每个有效链接进行分类,其中每个分类包括至少一个有效链接;
网站地图生成单元206用于将每个分类中的至少一个有效链接生成网站地图子图,将多个网站地图子图进行组合以生成网站地图。
优选地,还包括有效链接检测工具207用于检测所述网站的连接是否为有效链接。
优选地,所述有效链接检测工具为站长工具或Xenu死链接检测工具。
优选地,所述网站地图的文件格式为HTML格式、XML格式或TXT格式。
优选地,所述元数据为描述所述有效链接的短句或与所述有效链接相关的关键词。
优选地,所述多个网站地图子图中每个网站地图子图的有效链接数量不超过5万条且多个网站地图子图中的每个网站地图子图的大小不超过10M。
优选地,所述网站地图子图还包括与有效链接相应的多个元数据。
优选地,所述网站地图生成后推送至搜索引擎接口和/或保存至网站的根目录。
本发明的优选实施例网站地图生成系统200与本发明的另一优选实施例网站地图生成方法100相对应,在此不进行赘述。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。

Claims (16)

1.一种用于为网站生成网站地图的方法,所述方法包括:
确定网站地图的文件格式,并且基于所述文件格式确定需要收集的多个元数据;
以所述网站的网址作为数据收集起点,从所述数据收集起点开始收集所述网站的所有有效链接;
为所述所有有效链接中的每个有效链接确定需要收集的多个元数据;
根据用户预先设置的规则来修改所述多个元数据中的一个或多个元数据;
根据每个有效链接的经过修改的多个元数据中的一个或多个元数据,对每个有效链接进行分类,包括根据所述网站和有效链接的元数据实际内容进行分类,其中每个分类包括至少一个有效链接;以及
将每个分类中的至少一个有效链接生成网站地图子图,将多个网站地图子图进行组合以生成网站地图。
2.根据权利要求1所述的方法,其特征在于,所述网站地图的文件格式为HTML格式、XML格式或TXT格式。
3.根据权利要求1所述的方法,其特征在于,所述元数据为描述所述有效链接的短句或与所述有效链接相关的关键词。
4.根据权利要求1所述的方法,其特征在于,所述多个网站地图子图中每个网站地图子图的有效链接数量不超过5万条且多个网站地图子图中的每个网站地图子图的大小不超过10M。
5.根据权利要求1所述的方法,其特征在于,通过有效链接检测工具进行检测所述网站的链接是否为有效链接。
6.据权利要求5所述的方法,其特征在于,所述有效链接检测工具为站长工具或Xenu死链接检测工具。
7.根据权利要求1所述的方法,其特征在于,所述网站地图子图还包括与有效链接相应的多个元数据。
8.根据权利要求1所述的方法,其特征在于,所述网站地图生成后推送至搜索引擎接口和/或保存至网站的根目录。
9.一种用于为网站生成网站地图的系统,包括:
初始单元,用于确定网站地图的文件格式,并且基于所述文件格式确定需要收集的多个元数据;
链接收集单元,以所述网站的网址作为数据收集起点,从所述数据收集起点开始收集所述网站的所有有效链接;
元数据收集单元,为所述所有有效链接中的每个有效链接确定需要收集的多个元数据;
元数据修改单元,根据用户预先设置的规则来修改所述多个元数据中的一个或多个元数据;
分类单元,根据每个有效链接的经过修改的多个元数据中的一个或多个元数据,对每个有效链接进行分类,其中每个分类包括至少一个有效链接;
网站地图生成单元,用于将每个分类中的至少一个有效链接生成网站地图子图,将多个网站地图子图进行组合以生成网站地图。
10.根据权利要求9所述的系统,其特征在于,还包括有效链接检测工具,用于检测所述网站的连接是否为有效链接。
11.根据权利要求10所述的系统,其特征在于,所述有效链接检测工具为站长工具或Xenu死链接检测工具。
12.根据权利要求9所述的系统,其特征在于,所述网站地图的文件格式为HTML格式、XML格式或TXT格式。
13.根据权利要求9所述的系统,其特征在于,所述元数据为描述所述有效链接的短句或与所述有效链接相关的关键词。
14.根据权利要求9所述的系统,其特征在于,所述多个网站地图子图中每个网站地图子图的有效链接数量不超过5万条且多个网站地图子图中的每个网站地图子图的大小不超过10M。
15.根据权利要求9所述的系统,其特征在于,所述网站地图子图还包括与有效链接相应的多个元数据。
16.根据权利要求9所述的系统,其特征在于,所述网站地图生成后推送至搜索引擎接口和/或保存至网站的根目录。
CN201611235483.9A 2016-12-28 2016-12-28 一种用于为网站生成网站地图的方法及系统 Active CN108255831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611235483.9A CN108255831B (zh) 2016-12-28 2016-12-28 一种用于为网站生成网站地图的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611235483.9A CN108255831B (zh) 2016-12-28 2016-12-28 一种用于为网站生成网站地图的方法及系统

Publications (2)

Publication Number Publication Date
CN108255831A CN108255831A (zh) 2018-07-06
CN108255831B true CN108255831B (zh) 2021-12-17

Family

ID=62720217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611235483.9A Active CN108255831B (zh) 2016-12-28 2016-12-28 一种用于为网站生成网站地图的方法及系统

Country Status (1)

Country Link
CN (1) CN108255831B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307395A (zh) * 2020-08-10 2021-02-02 北京沃东天骏信息技术有限公司 用于生成网站地图的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833581A (zh) * 2010-05-11 2010-09-15 廖达伦 一种搜索引擎优化的seo网站建设实现方法及系统
CN102057372A (zh) * 2008-04-17 2011-05-11 谷歌公司 生成站点地图

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7861151B2 (en) * 2006-12-05 2010-12-28 Microsoft Corporation Web site structure analysis
US8126869B2 (en) * 2008-02-08 2012-02-28 Microsoft Corporation Automated client sitemap generation
CN105446981B (zh) * 2014-06-30 2019-03-29 阿里巴巴集团控股有限公司 站点地图生成方法、访问方法及装置
CN105095416B (zh) * 2015-07-13 2018-12-07 北京奇虎科技有限公司 一种在搜索中实现内容推广的方法和装置
CN105260469B (zh) * 2015-10-16 2017-12-26 广州神马移动信息科技有限公司 一种处理网站地图的方法、装置及设备
CN106095674B (zh) * 2016-06-07 2019-05-24 百度在线网络技术(北京)有限公司 一种网站自动化测试方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102057372A (zh) * 2008-04-17 2011-05-11 谷歌公司 生成站点地图
CN101833581A (zh) * 2010-05-11 2010-09-15 廖达伦 一种搜索引擎优化的seo网站建设实现方法及系统

Also Published As

Publication number Publication date
CN108255831A (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
CN101399818B (zh) 基于导航路径信息的主题相关网页过滤方法和系统
JP5588981B2 (ja) 検索クエリーに応答したディスカッションスレッドへの投稿の提供
EP2998884B1 (en) Security information management system and security information management method
CN103870461B (zh) 主题推荐方法、装置和服务器
US9519718B2 (en) Webpage information detection method and system
Liu et al. Identifying web spam with the wisdom of the crowds.
US20090327913A1 (en) Using web revisitation patterns to support web interaction
US20150088846A1 (en) Suggesting keywords for search engine optimization
WO2008073784A1 (en) Web site structure analysis
CN104077377A (zh) 基于网络文章属性的网络舆情热点发现方法和装置
CN103631794A (zh) 一种用于对搜索结果进行排序的方法、装置与设备
CN101261629A (zh) 基于自动分类技术的特定信息搜索方法
CN103617213A (zh) 识别新闻网页属性特征的方法和系统
US20120117034A1 (en) Context-aware apparatus and method
CN105677921A (zh) 一种互联网舆情数据的获取方法及系统
CN103279492B (zh) 一种抓取网页的方法和装置
CN103123640A (zh) 一种小说的搜索方法和装置
CN102682011A (zh) 建立域名描述名称信息表、搜索的方法、装置及系统
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
CN101599069A (zh) 电子文档的搜索方法及系统
KR20100132376A (ko) 스니펫 제공 장치 및 방법
CN108255831B (zh) 一种用于为网站生成网站地图的方法及系统
CN105183843A (zh) 列表页识别系统及方法
US20150269268A1 (en) Search server and search method
JP5321258B2 (ja) 情報収集システムおよび情報収集方法ならびにそのプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant