CN109376327B - 一种网站url的管理方法 - Google Patents

一种网站url的管理方法 Download PDF

Info

Publication number
CN109376327B
CN109376327B CN201811175439.2A CN201811175439A CN109376327B CN 109376327 B CN109376327 B CN 109376327B CN 201811175439 A CN201811175439 A CN 201811175439A CN 109376327 B CN109376327 B CN 109376327B
Authority
CN
China
Prior art keywords
url
urls
directory
website
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811175439.2A
Other languages
English (en)
Other versions
CN109376327A (zh
Inventor
林皓
唐彪
熊伟
向达
韩鹏振
冯艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mixin (Beijing) Digital Technology Co.,Ltd.
Original Assignee
Beijing Beixinyuan Information Security Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Beixinyuan Information Security Technology Co ltd filed Critical Beijing Beixinyuan Information Security Technology Co ltd
Priority to CN201811175439.2A priority Critical patent/CN109376327B/zh
Publication of CN109376327A publication Critical patent/CN109376327A/zh
Application granted granted Critical
Publication of CN109376327B publication Critical patent/CN109376327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网站URL的管理方法,包括:通过网站指定的URL获取所述网站的所有URL,所述所有URL与所述指定的URL的根目录相同;将所述指定的URL以及所述所有URL按照URL目录级别分别存储至数据库;按照所述目录级别从所述数据库中依次提取URL,进行层级展示。通过本方法,能够获取指定的URL所在网站的所有模块信息,以形成不同模块之间的目录层次结构关系,设计专门的数据库表来提高URL获取、存储以及管理的效率,可以帮助系统使用人员或管理人员快速识别网站模块层级结构。

Description

一种网站URL的管理方法
技术领域
本发明涉及搜索引擎领域,尤其涉及一种网站URL的管理方法。
背景技术
随着社会生产信息化、数字化程度的加深,各行各业均建立了大量的网站和应用管理系统,用于展示与管理其信息资源。数据中心、云计算等信息集中化处理方式的发展,使得大部分单位采取B/S架构开发网站,这种情况下,用户只需要知道该系统的URL(Uniform Resource Locator,统一资源定位符),即可利用浏览器访问该网站资源,无需安装额外的客户端,极大降低了用户访问网络资源的难度,同时也提高了网站所有者推广其内容信息的效率。
通常,网络中的网站包含众多子模块,每个子模块可能又包含更多的子模块,导致一个网站目录结构层次较多,某些子模块可能需鼠标放置或移动或点击等与页面进行交互后才能显示,而最终不同的子模块通常绑定在不同的URL子目录上。针对用户而言,在首次进入该网站时,可能是通过该系统的根目录URL即域名访问,也可能是通过该网站的子模块URL访问,导致用户难以全面获悉该系统的所有模块层次结构信息,而某些需要与页面进行交互操作才能显现的子模块,更难以被用户快速定位,用户无法从整体上理解该网站能够提供的内容轮廓。针对应用管理者而言,为了更好的管理系统或网站资源,对于该系统内不同模块之间的层次关系应该具备清晰的认知,尤其当涉及到其管理的应用站点较多时,更需要一种直观的方式展示不同网站及其子模块之间的层次结构关系。
目前,网络搜索引擎技术已较为成熟,能够解决系统或网站内容的全网搜索问题,但网络搜索引擎主要是提供内容搜索,并未展现指定系统各模块之间的层次结构关系,本发明提出一种网站URL的管理方法,旨在处理指定网站中各模块之间的层次关系,设计专门的数据库表结构存储并能够以树形结构展示,以提高用户访问站点和管理员管理站点的效率。
发明内容
本发明要解决的技术问题是提供一种网站URL的管理方法,通过网站指定的URL收集该网站所有的URL子目录信息,并动态添加到对应URL级别的数据库表中存储,从而获取该网站URL目录结构,以达到网站各模块高效管理和树形层级展示的效果。具体包括:
通过网站指定的URL获取所述网站的所有URL,所述所有URL与所述指定的 URL根目录相同;
将所述指定的URL以及所述所有URL按照URL目录级别分别存储至数据库;
按照所述URL目录级别从所述数据库中依次提取URL,进行层级展示。
进一步地,所述步骤“通过网站指定的URL获取所述网站的所有URL”具体包括:
根据所述网站指定的URL,获取所述指定的URL根目录;
通过指定的URL抓取其所在页面的HTML信息,获取与所述指定的URL根目录相同的URL,将获取的URL去重后存储至缓存列表和正式列表;
依次抓取所述缓存列表中每一个URL页面的HTML信息,再次获取与所述指定URL根目录相同的其他URL,将所述再次获取的其他URL存储至临时列表;
对比所述临时列表中的URL与所述正式列表中的URL,将在所述临时列表中不同于所述正式列表中的URL添加至所述正式列表。
进一步地,若所述指定的URL本身不为根目录,则将其所有不同目录级别的上级URL自动存储至所述缓存列表和正式列表。
进一步地,若获取的URL是以相对路径的形式存在,则将其加上所述指定URL 的根目录形成绝对路径,存储至相应的列表。
进一步地,所述步骤“将所述指定的URL以及所述所有URL按照URL目录级别分别存储至数据库”具体包括:
在数据库中创建URL根目录表,根据获取URL的目录级别层级动态创建URL子目录表;
将URL信息存储至对应的URL目录表中。
进一步地,所述URL信息包括ID、URL、上级URL、下级URL个数以及URL 页面标题。
进一步地,在所述URL根目录表中,URL的上级URL为其本身;所述URL 子目录表中,URL的上级URL可根据所述URL最后一个“/”之前的部分直接生成。
进一步地,在所述URL目录表中存储URL信息时,还包括判断所述URL的上级URL是否存在于上级目录表中;
若存在,则在所述URL的上级目录表中将所述上级URL的下级URL个数加1;反之,
若不存在,则在所述URL的上级目录表中新添加一条所述上级URL信息,设置所述上级URL的下级URL个数为1。
进一步地,所述步骤“将所述数据库中的URL进行层级展示”具体为,先从所述数据库的根目录表中提取全部的URL,再从一级目录表中提取对应的一级 URL放置在所述URL根目录下;依次从下一级目录表中提取相应的URL放置在对应的上级目录下,形成树形目录结构。
进一步地,还可以展示URL页面标题及其下级URL的个数。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种网站URL的管理方法流程图;
图2为本发明提供的一种网站URL的管理方法中子步骤的方法流程图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,需要指出的是,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种网站URL的管理方法,如图1所示,所述方法包括以下步骤:
步骤S11,通过网站指定的URL获取所述网站的所有URL,所述所有URL与所述指定的URL根目录相同;
上述步骤具体包括以下子步骤,如图2所示。
子步骤S111,通过网站指定的URL,获取所述指定的URL根目录;
如指定的URL为http://www.abc.com/d1/d2/,其根目录为http://www.abc.com。
子步骤S112,根据指定的URL抓取其所在页面的HTML信息,获取与所述指定的URL根目录相同的URL,将获取的URL去重后存储至缓存列表和正式列表;
如获取2个URL(http://www.abc.com/d1/d21/和http://www.abc.com/d1/d 2/d3),将上述2个URL以及所述指定URL的上级目录(http://www.abc.com/d1 /)存储至缓存列表和正式列表。
子步骤S113,依次抓取所述缓存列表中每一个URL页面的HTML信息,再次获取与所述指定URL根目录相同的其他URL,将所述再次获取的其他URL存储至临时列表;
子步骤S114,对比所述临时列表中的URL与所述正式列表的URL,将所述临时列表中不同于所述正式列表中的URL添加至所述正式列表。
另外,在获取URL时,若所述获取的URL是以相对路径的形式存在,如 /d1/d2/d3,则将其加上所述指定URL的根目录(http://www.abc.com/)形成绝对路径为http:// www.abc.com/d1/d2/d3,存储至所述列表。如判定URL是绝对路径还是相对路径可通过URL是否包括“http://”或“https://”。
存储至列表中的URL是经过去掉URL参数仅保留目录层次的,URL参数是指出现在URL中的“?”、“#”等连接符及其后面的字符串。
步骤S12,将所述指定的URL以及获取的所有URL按照URL目录级别分别存储至数据库;
上述URL目录级别根据URL中“/”进行划分,如URL http://www.abc.com/d1/d2/ d3/...,则URL根目录为http://www.abc.com/,URL一级目录为http://ww w.abc.com/d1,URL二级目录如http://www.abc.com/d1/d2,URL三级目录如htt p://www.abc.com/d1/d2/d3,更多URL目录级别以此类推。
首先在数据库创建URL根目录表,然后根据获取URL的目录级别,层级动态创建URL子目录表;
将URL信息存储至对应的目录表中。
所述URL信息包括ID、URL、上级URL、下级URL个数以及URL页面标题。
在所述URL根目录表中,URL的上级URL为其本身;所述URL子目录表中, URL的上级URL可根据所述URL最后一个“/”之前的部分直接生成。
如下表1、表2以及表3分别为根目录表、一级目录表、二级目录表:
表1 URL根目录表
Figure DEST_PATH_IMAGE001
表2 URL一级目录表
Figure DEST_PATH_IMAGE002
表3 URL二级目录表
Figure DEST_PATH_IMAGE003
在所述URL目录表中存储URL信息时,还包括判断所述URL的上级URL是否存在于对应层级的上级目录表中;
若存在,则在所述URL的上级目录表中将所述上级URL的下级URL个数加1;反之,
若不存在,则在所述URL的上级目录表中新添加一条所述URL的上级URL信息,设置所述上级URL的下级URL个数为1。
如有一个URL为http://www.abc.com/d12/22,根据目录级别为二级,先在二级目录表中新增所述URL,并判断其上级URL(http://www.abc.com/d12)是否存在一级目录表中,存在,则在一级目录表中URL为http://www.abc.com/d12的下级URL个数变为2(上表2)。
步骤S13,按照所述URL目录级别从所述数据库中依次提取URL,进行层级展示。
先从所述数据库的根目录表中提取全部的URL,再从一级目录表中提取对应的一级URL放置在所述URL根目录下;依次从下一级目录表中提取相应的URL 放置在对应的上级目录下,形成树形目录结构。
在上述展示的树形目录结构中还可以展示URL页面标题及其下级URL的个数。
综上所述,通过本发明提供的一种网站URL的管理方法,能够根据所指定的 URL获取该URL所在网站的所有模块信息,以形成不同模块之间的目录层次结构关系,设计专门的数据库表格提高URL获取、存储以及管理的效率,可以帮助系统使用人员或管理人员快速识别网站模块层级结构。
以上所述,为本发明较佳的实施例,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所披露的技术范围内,可轻易想到的修改、等同替换、改进等,均应涵盖在本发明保护范围之内。

Claims (8)

1.一种网站URL的管理方法,其特征在于,包括以下步骤:
通过网站指定的URL获取所述网站的所有URL,所述所有URL与所述指定的URL根目录相同;
将所述指定的URL以及所述所有URL按照URL目录级别分别存储至数据库;
按照所述URL目录级别从所述数据库中依次提取URL,进行层级展示;
其中,所述步骤“通过网站指定的URL获取所述网站的所有URL”具体包括:
根据所述网站指定的URL,获取所述指定的URL根目录;
通过指定的URL抓取其所在页面的HTML信息,获取与所述指定的URL根目录相同的URL,将获取的URL去重后存储至缓存列表和正式列表;
依次抓取所述缓存列表中每一个URL页面的HTML信息,再次获取与所述指定URL根目录相同的其他URL,将所述再次获取的其他URL存储至临时列表;
对比所述临时列表中的URL与所述正式列表中的URL,将在所述临时列表中不同于所述正式列表中的URL添加至所述正式列表;
其中,所述步骤“将所述指定的URL以及所述所有URL按照URL目录级别分别存储至数据库”具体包括:
在数据库中创建URL根目录表,根据获取URL的目录级别、层级动态创建URL子目录表;
将URL信息存储至对应的URL目录表中。
2.如权利要求1所述的方法,其特征还在于,若所述指定的URL本身不为根目录,则将其所有不同目录级别的上级URL自动存储至所述缓存列表和正式列表。
3.如权利要求1所述的方法,其特征在于,若获取的URL是以相对路径的形式存在,则将其加上所述指定URL的根目录形成绝对路径,存储至相应的列表。
4.如权利要求1所述的方法,其特征在于,所述URL信息包括ID、URL、上级URL、下级URL个数以及URL页面标题。
5.如权利要求1所述的方法,其特征在还在于,在所述URL根目录表中,URL的上级URL为其本身;所述URL子目录表中,URL的上级URL可根据URL最后一个“/”之前的部分直接生成。
6.如权利要求1所述的方法,其特征还在于,在所述URL目录表中存储URL信息时,还包括判断所述URL的上级URL是否存在于上级目录表中;
若存在,则在所述URL的上级目录表中将所述上级URL的下级URL个数加1;反之,
若不存在,则在所述URL的上级目录表中新添加一条所述上级URL信息,设置所述上级URL的下级URL个数为1。
7.如权利要求1所述的方法,其特征在于,所述步骤“将所述数据库中的URL进行层级展示”具体为,先从所述数据库的根目录表中提取全部的URL,再从一级目录表中提取对应的一级URL放置在所述URL根目录下;依次从下一级目录表中提取相应的URL放置在对应的上级URL下,形成树形目录结构。
8.如权利要求7所述的方法,其特征还在于,还可以展示URL页面标题及其下级URL的个数。
CN201811175439.2A 2018-10-10 2018-10-10 一种网站url的管理方法 Active CN109376327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811175439.2A CN109376327B (zh) 2018-10-10 2018-10-10 一种网站url的管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811175439.2A CN109376327B (zh) 2018-10-10 2018-10-10 一种网站url的管理方法

Publications (2)

Publication Number Publication Date
CN109376327A CN109376327A (zh) 2019-02-22
CN109376327B true CN109376327B (zh) 2021-09-21

Family

ID=65403328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811175439.2A Active CN109376327B (zh) 2018-10-10 2018-10-10 一种网站url的管理方法

Country Status (1)

Country Link
CN (1) CN109376327B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321459A (zh) * 2019-06-06 2019-10-11 武汉闻道复兴智能科技有限责任公司 一种搭建目录树的方法、目录树的展示方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123631A (zh) * 2011-11-21 2013-05-29 阿里巴巴集团控股有限公司 文案的生成、网页文案的展示方法、装置及网站服务器
CN105095281A (zh) * 2014-05-13 2015-11-25 南京理工大学 一种基于日志挖掘的网站分类目录优化分析方法
CN105868234A (zh) * 2015-12-07 2016-08-17 乐视云计算有限公司 缓存数据的更新方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164435B (zh) * 2011-12-13 2016-03-09 北大方正集团有限公司 一种网络数据的采集方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123631A (zh) * 2011-11-21 2013-05-29 阿里巴巴集团控股有限公司 文案的生成、网页文案的展示方法、装置及网站服务器
CN105095281A (zh) * 2014-05-13 2015-11-25 南京理工大学 一种基于日志挖掘的网站分类目录优化分析方法
CN105868234A (zh) * 2015-12-07 2016-08-17 乐视云计算有限公司 缓存数据的更新方法及装置

Also Published As

Publication number Publication date
CN109376327A (zh) 2019-02-22

Similar Documents

Publication Publication Date Title
US8150846B2 (en) Content searching and configuration of search results
IL295003A (en) Network document extension
US9264505B2 (en) Building a semantics graph for an enterprise communication network
US8903800B2 (en) System and method for indexing food providers and use of the index in search engines
US8972412B1 (en) Predicting improvement in website search engine rankings based upon website linking relationships
US8527451B2 (en) Business semantic network build
CN105900117B (zh) 用于采集、规范、匹配和丰富数据的方法和系统
US20130218919A1 (en) Method and apparatus for managing content
US20160140344A1 (en) Security information management system and security information management method
US11379482B2 (en) Methods, systems, and computer readable mediums for performing an aggregated free-form query
CN102760151A (zh) 开源软件获取与搜索系统的实现方法
CN108900547B (zh) 回源控制方法及装置
KR20170073693A (ko) 유사 그룹 요소 추출
CN113051460A (zh) 基于Elasticsearch的数据检索方法、系统、电子设备及存储介质
CN104199893A (zh) 一种快速将全媒体内容发布的系统和方法
US20160267409A1 (en) Methods for identifying related context between entities and devices thereof
CN103530389A (zh) 一种提高停用词搜索有效性的方法和装置
CN109376327B (zh) 一种网站url的管理方法
CN102937977A (zh) 一种搜索服务器及搜索方法
CN110955855B (zh) 一种信息拦截的方法、装置及终端
CN109614521A (zh) 一种高效的隐私保护子图查询处理方法
JP2013054602A (ja) グラフパターンマッチングシステムおよびグラフパターンマッチング方法
CN104376000A (zh) 确定网页属性的方法及装置
Parygin et al. Multiservice online platform for integrated geospatial data processing
US8370365B1 (en) Tools for predicting improvement in website search engine rankings based upon website linking relationships

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 100195 Room 301, floor 3, building 103, No. 3, minzhuang Road, Haidian District, Beijing

Patentee after: Mixin (Beijing) Digital Technology Co.,Ltd.

Address before: 100093 301, 3rd floor, building 103, 3 minzhuang Road, Haidian District, Beijing

Patentee before: BEIJING BEIXINYUAN INFORMATION SECURITY TECHNOLOGY CO.,LTD.

CP03 Change of name, title or address