CN101977251A - 服务器端网址资源优化装置及其优化方法 - Google Patents

服务器端网址资源优化装置及其优化方法 Download PDF

Info

Publication number
CN101977251A
CN101977251A CN2010105498528A CN201010549852A CN101977251A CN 101977251 A CN101977251 A CN 101977251A CN 2010105498528 A CN2010105498528 A CN 2010105498528A CN 201010549852 A CN201010549852 A CN 201010549852A CN 101977251 A CN101977251 A CN 101977251A
Authority
CN
China
Prior art keywords
parameter
network address
optimization
ordering
resolver
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010105498528A
Other languages
English (en)
Inventor
胡吉阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUZHOU YANNUO INFORMATION TECHNOLOGY Co Ltd
Original Assignee
SUZHOU YANNUO INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU YANNUO INFORMATION TECHNOLOGY Co Ltd filed Critical SUZHOU YANNUO INFORMATION TECHNOLOGY Co Ltd
Priority to CN2010105498528A priority Critical patent/CN101977251A/zh
Publication of CN101977251A publication Critical patent/CN101977251A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种服务器端网址资源优化装置及其优化方法,所述装置包括:解析装置,根据预定的解析规则由解析器解析获得的网址,生成参数列表,传输给排序装置;排序装置,根据预定的排序规则对收到的参数列表进行排序,并将排序后的参数列表传输给组合装置;组合装置,根据预定的组合规则,将排序后的参数列表组合后与去参网址进行组合形成符合传送协议标准的优化后的网址。该优化装置提高了服务器端系统对网址处理的准确度,提高了存储的时间效率,减少了存储空间的浪费;并能提高检索的空间和时间效率。

Description

服务器端网址资源优化装置及其优化方法
技术领域
本发明属于网络访问优化技术领域,具体涉及一种基于网址资源对服务器端的网址存储或检索进行优化的方法。
背景技术
统一资源定位符(URL,Uniform/Universal Resource Locator)也称为网页地址或网址,是因特网上标准的资源的地址(Address),已经被万维网联盟编制为因特网标准RFC1738了。URL的一般形式是:<URL的访问方式>://<主机>:<端口>/<路径>;如http://www.yannuo.com/example?a=1&b=2;网址一般由五个基本元素组成:传送协议、服务器、端口号、路径和/或参数。传送协议通常包括基于超文本传输协议(http)或基于安全套接层的超文本传输协议(https);服务器可以是域名或IP地址;端口号以“:数字”方式表示。当传送协议为HTTP时,缺省值为“:80”;可省略。当传送协议为HTTPS时,缺省值为“:443”;也可省略。路径为以“/字符”区别路径中的每一个目录名称。参数中GET模式的参数以“?”字符为起点,参数间以“&”为间隔,参数内以“=”符号分割参数名与参数值。
通常情况下,参数的顺序不会影响程序的运行、网页的显示,如:http://www.yannuo.com/example?a=1&b=2与http://www.yannuo.com/example?b=2&a=1这两个地址,在访问效果上,通常是一致的。由于网址被广泛应用与互联网行业,所有互联网系统、应用都不可避免的要对网址进行解析、处理、存储。对于仅仅是参数顺序不同而参数组合相同的网址,系统也按照不同网址来处理对待,这样会使得系统花更多的空间去存储和归类这些网址,在空间上造成了浪费,也会使得系统在检索时,遗漏相关检索结果,降低了检索的准确度。本发明因此而来。
发明内容
本发明目的在于提供一种服务器端网址资源优化装置,解决了现有技术中服务器端常常由于网址中去参网址、网页锚点相同但参数列表排列顺序不同导致的存储空间浪费、搜索效率降低等问题。
为了解决现有技术中的这些问题,本发明提供的技术方案是:
一种服务器端网址资源优化装置,其特征在于所述装置包括:
解析装置,根据预定的解析规则由解析器解析获得的网址,生成参数列表,传输给排序装置;
排序装置,根据预定的排序规则对收到的参数列表进行排序,并将排序后的参数列表传输给组合装置;
组合装置,根据预定的组合规则,将排序后的参数列表组合后与去参网址进行组合形成符合传送协议标准的优化后的网址。
优选的,所述解析装置还连接有网址获取装置,所述网址获取装置获取输入的网址,并将网址传输给解析装置的解析器。
优选的,所述解析装置解析器根据网址中标识符提取参数字符串,按照解析规则对参数字符串进行解析,分解出参数块,分离出包含在参数块中的参数名和参数值。
优选的,所述排序装置根据参数名或参数值或参数名与参数值的关系进行正向或反向排序。
优选的,所述组合装置包括将参数名和参数值进行组合成参数块,再将参数块组合成排序后的参数字符串的参数组合装置和按照传送协议标准将排序后的参数字符串、去参网址组合成优化后的网址的网址组合装置。
优选的,所述组合装置组合形成优化后的网址后将优化后的网址传输给服务器进行储存或检索。
优选的,所述存储装置还接收解析装置、排序装置、组合装置进行操作的中间结果,当排序装置未接收到解析装置的参数列表时,排序装置从存储装置内读取参数列表,进行排序操作;当组合装置未接收到排序后的参数列表时,组合装置从存储装置中读取排序后的参数列表进行组合操作。
优选的,所述存储装置还连接有索引装置,所述索引装置对存储装置存储的优化后的网址进行归类索引,再存储入存储装置内。
本发明还提供了一种服务器端网址资源优化方法,其特征在于所述方法包括以下步骤:
(1)根据预定的解析规则解析获得的网址,生成参数列表;
(2)根据预定的排序规则对收到的参数列表进行排序生成排序后的参数列表;
(3)根据预定的组合规则,将排序后的参数列表组合后与去参网址进行组合形成符合传送协议标准的优化后的网址。
优选的,所述方法中当获得的网址含有网页锚点时,通过解析规则去除网页锚点和去参网址,形成参数列表;通过组合规则进行组合时,将去参网址、排序后的参数列表、网页锚点组合成优化后的网址。
本发明技术方案中使用的术语解释如下:
网页锚点为网址中#部分之后的字符串,例如在网址:http://www.yannuo.com/example?a=1&b=2#hujiy(例网址)中,网页锚点为hujiy;去参网址为网址中去除网页锚点和参数的部分,例网址中去参网址为:http://www.yannuo.com/example;参数字符串为网址中参数部分,例网址中为a=1&b=2;参数块为参数字符串中以&分割的字符串,例网址中为a=1、b=2;参数名为参数块中“=”符号之前的部分,例网址中为a、b;参数值:参数块中“=”符号之后的部分,例网址中为1、2;参数列表为包含多个参数名、参数值以及其对应关系的列表,这种对应关系可以是参数块的不同形式或参数名、参数值的运算。
本发明技术方案中解析装置进行网址解析时,一般按照如下步骤进行:
1)提取参数字符串
如果网址中含有#字符,则将自左向右第一个“#”字符之前的部分(不含“#”字符)视作普通URL,之后的部分视为网页锚点;
对于普通URL,将自左向右第一个“?”字符之后的部分(不含“?”)视作参数字符串,之前的部分视为去参网址。
2)分割参数
将参数字符串以“&”符号为分隔符,生成参数块列表,每个参数块中不含有“&”字符。
3、参数名、参数值分离
对于参数块列表中的每一个参数块,进行参数名、参数值分离,以“=”符号为分隔符,”=”符号之前的部分作为参数名,之后的字符作为参数值,生成参数列表,参数列表中包含参数名、参数值之间的对应关系。
本发明技术方案中排序装置进行参数排序时,一般按照如下步骤进行:
将参数列表,按照参数名或参数值的特征,结合排序规则,进行重新的排序,生成排序后的参数列表;排序规则可以是根据参数名(或参数值)进行正向或反向排序,也可以是根据参数名(或参数值)进行一定的运算,根据运算结果,进行正向或反向的排序。
本发明技术方案中组合装置进行组合工序时,一般按照如下步骤进行:
1)参数组合
将排序后的参数列表,根据组合规则进行组合。一般的规则是将每个参数名和参数值,以“=”符号组合,生成参数块,再将参数块以”&”符号组合,生成排序后的参数字符串。
2)网址组合
按照以下规则生成优化后的网址:
当获取的原网址不含“#”字符时,去参网址+“?”+排序后的参数字符串;当获取的原网址含“#”字符时,去参网址+“?”+排序后的参数字符串+“#”+网页锚点。
服务器端通过上述优化方法可以将网址优化为优化后的网址,去除了同类去参网址的重复存储和归类,减少了服务器的冗余,并可以提高检索的空间和时间效率。
相对于现有技术中的方案,本发明的优点是:
本发明技术方案提供一种服务器端网址优化的方法和装置,对网址中的参数顺序进行排序、组合优化,解决了服务器端在识别网址时,由于只是网址参数顺序不一致导致服务器端识别的网址为不同网址的问题,提高了服务器端系统对网址处理的准确度,提高了存储的时间效率,减少了存储空间的浪费;并能提高检索的空间和时间效率。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1是本发明实施例服务器端网址资源优化装置的系统架构图;
图2是本发明实施例服务器端网址资源优化方法的方法流程图。
具体实施方式
以下结合具体实施例对上述方案做进一步说明。应理解,这些实施例是用于说明本发明而不限于限制本发明的范围。实施例中采用的实施条件可以根据具体厂家的条件做进一步调整,未注明的实施条件通常为常规实验中的条件。
实施例1服务器端网址资源优化处理实施例
如图1和图2所示,服务器端网址资源优化装置,用于大型网站服务器端的域名存储、映射,该装置包括:解析装置,根据预定的解析规则由解析器解析获得的网址,生成参数列表,传输给排序装置;排序装置,根据预定的排序规则对收到的参数列表进行排序,并将排序后的参数列表传输给组合装置;组合装置,根据预定的组合规则,将排序后的参数列表组合后与去参网址进行组合形成符合传送协议标准的优化后的网址。
解析装置前端连接有网址获取装置,所述网址获取装置获取输入的网址,并将网址传输给解析装置的解析器。所述组合装置组合形成优化后的网址后将优化后的网址传输给服务器进行储存。
所述解析装置解析器根据网址中标识符提取参数字符串,按照解析规则对参数字符串进行解析,分解出参数块,分离出包含在参数块中的参数名和参数值。所述排序装置根据参数名或参数值或参数名与参数值的关系进行正向或反向排序。所述组合装置包括将参数名和参数值进行组合成参数块,再将参数块组合成排序后的参数字符串的参数组合装置和按照传送协议标准将排序后的参数字符串、去参网址组合成优化后的网址的网址组合装置。其中传送协议为HTTP标准。网址为传送协议为HTTP标准的通用网址。
存储装置还接收解析装置、排序装置、组合装置进行操作的中间结果,所述存储装置还连接有索引装置。当排序装置未接收到解析装置的参数列表时,排序装置从存储装置内读取参数列表,进行排序操作;当组合装置未接收到排序后的参数列表时,组合装置从存储装置中读取排序后的参数列表进行组合操作。所述索引装置对存储装置存储的优化后的网址进行归类索引,再存储入存储装置内。
进行网址资源优化时,按照如下步骤进行:
(1)根据预定的解析规则解析获得的网址,生成参数列表;
(2)根据预定的排序规则对收到的参数列表进行排序生成排序后的参数列表;
(3)根据预定的组合规则,将排序后的参数列表组合后与去参网址进行组合形成符合传送协议标准的优化后的网址。
其中解析规则包括:如果网址中含有#字符,则将自左向右第一个“#”字符之前的部分(不含“#”字符)视作普通URL,之后的部分视为网页锚点;对于普通URL,将自左向右第一个“?”字符之后的部分(不含“?”)视作参数字符串,之前的部分视为去参网址。将参数字符串以“&”符号为分隔符,生成参数块列表,每个参数块中不含有“&”字符。对于参数块列表中的每一个参数块,进行参数名、参数值分离,以“=”符号为分隔符,“=”符号之前的部分作为参数名,之后的字符作为参数值,生成参数列表,参数列表中包含参数名、参数值之间的对应关系。解析器根据这些解析规则提取参数字符串,分割参数,分离参数名、参数值。
其中排序规则包括升降序排序,排序的关键字为参数名或参数值或参数名、参数值间的某种关系,如进行参数名、参数值的运算。排序装置根据排序规则形成排序后的参数列表。
其中组合规则包括:将每个参数名和参数值,以“=”符号组合连接,生成参数块,再将参数块以“&”符号组合,生成排序后的参数字符串。当获取的原网址不含“#”字符时,去参网址+“?”+排序后的参数字符串;当获取的原网址含“#”字符时,去参网址+“?”+排序后的参数字符串+“#”+网页锚点。通过组合装置将排序后参数列表先组合成参数块,然后组合成优化后的参数字符串,最后通过去参网址、优化后的参数字符串和/或网页锚点生成优化后的网址,传输给服务器存储或检索。
通过以上的优化方法可以将原网址优化为优化后的网址,在实际运行时,http://www.yannuo.com/example?a=1&b=2与http://www.yannuo.com/example?b=2&a=1,经过优化后,优化后的网址都是http://www.yannuo.com/example?a=1&b=2,所以在服务端只存储http://www.yannuo.com/example?a=1&b=2,减少了服务器端进行存储的空间和时间,减少了服务器的冗余,提高了索引效率。
上述实例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人是能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种服务器端网址资源优化装置,其特征在于所述装置包括:
解析装置,根据预定的解析规则由解析器解析获得的网址,生成参数列表,传输给排序装置;
排序装置,根据预定的排序规则对收到的参数列表进行排序,并将排序后的参数列表传输给组合装置;
组合装置,根据预定的组合规则,将排序后的参数列表组合后与去参网址进行组合形成符合传送协议标准的优化后的网址。
2.根据权利要求1所述的服务器端网址资源优化装置,其特征在于所述解析装置还连接有网址获取装置,所述网址获取装置获取输入的网址,并将网址传输给解析装置的解析器。
3.根据权利要求1所述的服务器端网址资源优化装置,其特征在于所述解析装置解析器根据网址中标识符提取参数字符串,按照解析规则对参数字符串进行解析,分解出参数块,分离出包含在参数块中的参数名和参数值。
4.根据权利要求3所述的服务器端网址资源优化装置,其特征在于所述排序装置根据参数名或参数值或参数名与参数值的关系进行正向或反向排序。
5.根据权利要求3所述的服务器端网址资源优化装置,其特征在于所述组合装置包括将参数名和参数值进行组合成参数块,再将参数块组合成排序后的参数字符串的参数组合装置和按照传送协议标准将排序后的参数字符串、去参网址组合成优化后的网址的网址组合装置。
6.根据权利要求3所述的服务器端网址资源优化装置,其特征在于所述组合装置组合形成优化后的网址后将优化后的网址传输给服务器进行储存或检索。
7.一种服务器端网址资源优化方法,其特征在于所述方法包括以下步骤:
(1)根据预定的解析规则解析获得的网址,生成参数列表;
(2)根据预定的排序规则对收到的参数列表进行排序生成排序后的参数列表;
(3)根据预定的组合规则,将排序后的参数列表组合后与去参网址进行组合形成符合传送协议标准的优化后的网址。
8.根据权利要求7所述的方法,其特征在于所述方法中当获得的网址含有网页锚点时,通过解析规则去除网页锚点和去参网址,形成参数列表;通过组合规则进行组合时,将去参网址、排序后的参数列表、网页锚点组合成优化后的网址。
CN2010105498528A 2010-11-19 2010-11-19 服务器端网址资源优化装置及其优化方法 Pending CN101977251A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010105498528A CN101977251A (zh) 2010-11-19 2010-11-19 服务器端网址资源优化装置及其优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105498528A CN101977251A (zh) 2010-11-19 2010-11-19 服务器端网址资源优化装置及其优化方法

Publications (1)

Publication Number Publication Date
CN101977251A true CN101977251A (zh) 2011-02-16

Family

ID=43577094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105498528A Pending CN101977251A (zh) 2010-11-19 2010-11-19 服务器端网址资源优化装置及其优化方法

Country Status (1)

Country Link
CN (1) CN101977251A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102843271A (zh) * 2011-11-14 2012-12-26 哈尔滨安天科技股份有限公司 恶意url的形式化检测方法和系统
WO2015081789A1 (zh) * 2013-12-02 2015-06-11 北京奇虎科技有限公司 网址净化方法及装置
CN109948008A (zh) * 2017-11-22 2019-06-28 广东峰杰科技股份有限公司 一种排行榜单生成方法及装置
CN112949258A (zh) * 2021-02-25 2021-06-11 深圳市元征科技股份有限公司 数据处理方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091685A1 (en) * 2006-10-13 2008-04-17 Garg Priyank S Handling dynamic URLs in crawl for better coverage of unique content
CN101702179A (zh) * 2009-12-01 2010-05-05 百度在线网络技术(北京)有限公司 在数据挖掘中去除重复的方法和设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091685A1 (en) * 2006-10-13 2008-04-17 Garg Priyank S Handling dynamic URLs in crawl for better coverage of unique content
CN101702179A (zh) * 2009-12-01 2010-05-05 百度在线网络技术(北京)有限公司 在数据挖掘中去除重复的方法和设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102843271A (zh) * 2011-11-14 2012-12-26 哈尔滨安天科技股份有限公司 恶意url的形式化检测方法和系统
CN102843271B (zh) * 2011-11-14 2015-11-18 哈尔滨安天科技股份有限公司 恶意url的形式化检测方法和系统
WO2015081789A1 (zh) * 2013-12-02 2015-06-11 北京奇虎科技有限公司 网址净化方法及装置
CN109948008A (zh) * 2017-11-22 2019-06-28 广东峰杰科技股份有限公司 一种排行榜单生成方法及装置
CN112949258A (zh) * 2021-02-25 2021-06-11 深圳市元征科技股份有限公司 数据处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN103491205B (zh) 一种基于视频搜索的关联资源地址的推送方法和装置
CN104715064B (zh) 一种实现在网页上标注关键词的方法和服务器
CN102710795B (zh) 热点聚合方法及装置
CN104750754A (zh) 网站所属行业的分类方法和服务器
CN101694658A (zh) 基于新闻去重的网页爬虫的构建方法
CN104618132B (zh) 一种应用程序识别规则生成方法和装置
CN102521232B (zh) 一种互联网元数据的分布式采集处理系统及方法
CN107092639A (zh) 一种搜索引擎系统
US11263062B2 (en) API mashup exploration and recommendation
CN101339560B (zh) 一种搜索系列性数据的方法、装置及一种搜索引擎系统
CN106776744A (zh) 一种基于互联网信息的软件开发方法及系统
CN101977251A (zh) 服务器端网址资源优化装置及其优化方法
CN107741960A (zh) Url的分类方法及装置
CN110990057A (zh) 小程序子链信息的提取方法、装置、设备及介质
CN101751443A (zh) 数据检索与处理系统及方法
US11334592B2 (en) Self-orchestrated system for extraction, analysis, and presentation of entity data
CN101894109A (zh) 一种数据库建立方法和装置
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN103425646A (zh) 一种web服务发现方法及其装置
CN117171650A (zh) 基于网络爬虫技术的文献数据处理方法、系统及介质
CN109614535B (zh) 一种基于Scrapy框架的网络数据的采集方法及装置
CN104636384B (zh) 一种处理文档的方法及装置
US8538935B2 (en) One-to-one and one-to-many relationships in databases
CN103678601A (zh) 一种范文检索请求的处理方法和装置
CN102819613A (zh) Rss信息分页抓取系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110216