CN110968821A - 一种网址处理方法及装置 - Google Patents

一种网址处理方法及装置 Download PDF

Info

Publication number
CN110968821A
CN110968821A CN201811160108.1A CN201811160108A CN110968821A CN 110968821 A CN110968821 A CN 110968821A CN 201811160108 A CN201811160108 A CN 201811160108A CN 110968821 A CN110968821 A CN 110968821A
Authority
CN
China
Prior art keywords
website
parameter information
redundant
configuration file
preset configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811160108.1A
Other languages
English (en)
Inventor
姚宇豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201811160108.1A priority Critical patent/CN110968821A/zh
Publication of CN110968821A publication Critical patent/CN110968821A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了网址处理方法及装置,涉及互联网技术领域,通过删除网址中的冗余参数信息,以有助于提高后续对网址数据进行归类处理的准确性,同时提高归类处理效率,本发明的主要技术方案为:获取页面访问请求对应的网址;判断所述网址中是否存在冗余参数信息;若存在,则在所述网址中删除所述冗余参数信息。本发明应用于在网址中删除冗余参数信息。

Description

一种网址处理方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种网址处理方法及装置。
背景技术
在对网站进行分析时,可以通过采集并分析用户浏览网站产生的访问行为数据(比如:访问的页面、页面浏览次数),来间接地分析网站中不同网页内容的受关注度,从而有助于对网站进行客观地评估。
目前,在采集访问行为数据时,将获取到大量的网址数据,为提高后续数据分析的效率,有必要预先对大量的网址数据进行归类处理。然而,由于在网站建站时建站方会根据不同需求对网站定制添加一些参数,比如广告参数(utm),因而当通过不同访问路径跳转至一个相同的目标页面时,对应采集到的网址数据可以是不一致的,因而在对采集到的大量网址数据进行归类处理时,由于会存在多个不同网址数据指向同一个页面的情形,这将对网页数据的归类处理造成干扰,降低归类处理的效率。
发明内容
有鉴于此,本发明提供一种网址处理方法及装置,主要目的在于通过预先对采集到的网址数据进行删除冗余参数信息的处理,以有助于提高后续对网址数据进行归类处理的准确性,同时提高归类处理效率。
为了解决上述问题,本发明主要提供如下技术方案:
一方面,本发明提供了一种网址处理方法,该方法包括:
获取页面访问请求对应的网址;
判断所述网址中是否存在冗余参数信息;
若存在,则在所述网址中删除所述冗余参数信息。
可选的,所述冗余参数信息包括:广告参数、营销参数中的至少一项;
可选的,所述判断所述网址中是否存在冗余参数信息,包括:
获取所述网址中包含的参数信息;
查找预设配置文件库中是否存储有与所述参数信息相同的参数信息,所述预设配置文件库中存储的参数信息是指被标识为冗余的参数对应的参数信息;
若是,则所述网址中包含的所述参数信息确定是冗余参数信息。
可选的,在所述网址中删除所述冗余参数信息,包括:
在所述预设配置文件库中查找与所述冗余参数信息相同的参数信息,所述预设配置文件库中存储有参数信息以及其对应的预设配置文件,所述预设配置文件用于控制在网址中删除对应的参数信息;
通过在所述预设配置文件库中查找到与所述冗余参数信息相同的参数信息对应的预设配置为文件,确定所述冗余参数信息对应的预设配置文件;
根据所述冗余参数信息对应的预设配置文件,删除所述网址中的冗余参数信息,进一步包括:
获取所述冗余参数信息中包含的参数名以及其对应的参数值;
删除所述参数名以及其对应的参数值组成的键值对,一个键值对用于指示一个冗余参数对应的参数信息;
对所述网址中剩余字符串信息进行网址合法化处理得到目标网址,以便当加载所述目标网址时执行网页跳转到所述网址对应的页面。
可选的,所述方法还包括:
在所述获取页面访问请求对应的网址之后,对所述网址执行格式规范化处理;和/或,
若判断所述网址中是存在冗余参数信息的,并在所述网址中删除所述冗余参数信息之后,对所述网址执行格式规范化处理;
所述执行格式规范化处理包括:
查询预设白名单中是否存在所述网址,所述预设白名单用于存储无需被格式规范化处理的网址;
若不存在,则根据预置规范格式对所述网址进行格式化处理。
可选的,所述方法还包括:
对所述预设配置文件库内存储的参数信息以及其对应的预设配置文件设置过期时间;和/或,
当检测到访问所述预设配置文件库请求时,验证用户的访问权限;和/或,
当检测到修改所述预设配置文件库内存储的参数信息以及其对应的预设配置文件请求时,验证用户的修改权限。
为了实现上述目的,根据本发明的另一方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的网址处理方法。
为了实现上述目的,根据本发明的另一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述所述的网址处理方法。
另一方面,本发明还提供了一种网址处理装置,该装置包括:
获取单元,用于获取页面访问请求对应的网址;
判断单元,用于判断所述获取单元获取的网址中是否存在冗余参数信息;
删除单元,用于当所述判断单元判断所述网址中存在冗余参数信息时,在所述网址中删除所述冗余参数信息。
可选的,所述冗余参数信息包括:广告参数、营销参数中至少一项;
可选的,所述判断单元包括:
获取模块,用于获取所述网址中包含的参数信息;
查找模块,用于查找预设配置文件库中是否存储有与所述获取模块获取的参数信息相同的参数信息,所述预设配置文件库中存储的参数信息是指被标识为冗余的参数对应的参数信息;
确定模块,用于当所述查找模块在所述预设配置文件库中查找到与所述参数信息相同的参数信息时,所述网址中包含的所述参数信息确定是冗余参数信息。
可选的,在所述删除单元包括:
查找模块,用于在所述预设配置文件库中查找与所述冗余参数信息相同的参数信息,所述预设配置文件库中存储有参数信息以及其对应的预设配置文件,所述预设配置文件用于控制在网址中删除对应的参数信息;
确定模块,用于通过所述查找模块在所述预设配置文件库中查找到与所述冗余参数信息相同的参数信息对应的预设配置为文件,确定所述冗余参数信息对应的预设配置文件;
删除模块,用于根据所述确定模块确定的冗余参数信息对应的预设配置文件,删除所述网址中的冗余参数信息;
所述删除模块包括:获取子模块、删除子模块以及处理子模块;
所述获取子模块,用于获取所述冗余参数信息中包含的参数名以及其对应的参数值;
所述删除子模块,用于删除所述获取子模块获取的参数名以及其对应的参数值组成的键值对,一个键值对用于指示一个冗余参数对应的参数信息;
所述处理子模块,用于对经所述删除子模块得到的网址中剩余字符串信息进行网址合法化处理得到目标网址,以便当加载所述目标网址时执行网页跳转到所述网址对应的页面。
可选的,所述装置还包括:
处理单元,用于在所述获取页面访问请求对应的网址之后,对所述网址执行格式规范化处理;
所述处理单元,还用于若判断所述网址中是存在冗余参数信息的,并在所述网址中删除所述冗余参数信息之后,对所述网址执行格式规范化处理;
所述处理单元包括:查询模块、格式化处理模块;
所述查询模块,用于查询预设白名单中是否存在所述网址,所述预设白名单用于存储无需被格式规范化处理的网址;
所述格式化处理模块,用于当所述查询模块查询预设白名单中不存在所述网址时,则根据预置规范格式对所述网址进行格式化处理。
可选的,所述装置还包括:
设置单元,用于对所述预设配置文件库内存储的参数信息以及其对应的预设配置文件设置过期时间;
验证单元,用于当检测到访问所述预设配置文件库请求时,验证用户的访问权限;
所述验证单元,还用于当检测到修改所述预设配置文件库内存储的参数信息以及其对应的预设配置文件请求时,验证用户的修改权限。
借由上述技术方案,本发明提供的技术方案至少具有下列优点:
本发明提供的一种网址处理方法及装置,本发明是在获取到页面访问请求对应的网址时,预先判断该网址中是否存在加载页面时冗余参数信息,若存在,则将该冗余参数信息删除,进而确保通过不同访问路径跳转至一个相同的目标页面时分别对应得到的多个网址是相同的。与现有技术相比,解决了因存在冗余参数信息使得一个目标页面对应多个不同网址导致在对采集到的大量网址数据进行归类处理时会造成干扰、降低归类处理效率的问题。本发明是通过预先对采集到的网址数据进行删除冗余参数信息的处理,以有助于提高后续对网址数据进行归类处理的准确性,同时提高归类处理效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的一种网址处理方法流程图;
图2为本发明实施例提供的另一种网址处理方法流程图;
图3为本发明实施例提供的一种网址处理装置的组成框图;
图4为本发明实施例提供的另一种网址处理装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种网址处理方法,如图1所示,该方法是将网址中存在的冗余参数信息删除,以使得通过不同访问路径跳转至一个相同的目标页面时分别对应得到的多个网址是相同的,以避免由于冗余参数信息的存在而对大量网址进行归类处理时造成干扰,对此本发明实施例提供以下具体步骤:
101、获取页面访问请求对应的网址。
其中,页面访问请求对应的网址是指用户在浏览网页时在浏览器上执行网页跳转至目标页面对应的网址。
在本发明实施例中,可以但不限于通过网络爬虫来收集由用户访问行为而产生的大量网址数据。
需要说明的是,对于本发明实施例提供的网址处理方法,根据业务的需求,可以在当检测到页面访问请求并获取到页面访问请求对应的网址时在线直接对获取到的网址进行网址处理,也可以是通过网络爬虫收到多个用户的访问行为对应的大量网址数据之后,对大量的网址数据批量的执行网址处理,在本发明实施例中,对网址执行相应网址处理的时机不做限定。
102、判断网址中是否存在冗余参数信息。
其中,冗余参数信息是指在加载一个目标页面时非必要传入的参数信息,也就是,在浏览器上加载一个目标页面时,在浏览器的地址栏上无论写入该冗余参数信息与否,该目标页面都可以被正确的加载并显示在浏览器。
例如,冗余参数信息可以是在网站建站时建站方会根据不同需求对网站定制添加一些参数,比如参数“utm”,参数“utm”可以被用于追踪某个网页被访问的流量来源,这可以帮助建站方对网站进行有效的运营分析.
比如,网址“https://www.michaelkors.cn/?utm_source=baidu/”,对于上述网址,根据参数“utm”可知:“https://www.michaelkors.cn/”的投放渠道是百度,也就是,根据上述网址分析可知对应的用户访问行为是:用户通过点击百度页面的超链接跳转至目标页面“https://www.michaelkors.cn/”。但是,对于上述网址,若删除网址中“?utm_source=baidu/”,则根据“https://www.michaelkors.cn/”仍然可以执行跳转至相同的目标页面。
在本发明实施例中,冗余参数信息可以包含但不限于上述例举的在网站建站时定制的参数信息,对于冗余参数信息,本发明实施例不做具体限定。
在本发明实施例中,通过上述例举可知,在建站方会根据不同需求对网站定制添加参数的前提下,若多个用户通过不同访问路径访问同一个页面,很可能将出现一个目标页面对应多个不同网址的情况,相应的,对于收集到的大量网址数据中也将存在大量这样的冗余数据,这将不利于对网址进行的归类处理,因此,本步骤判断网址中是否存在冗余参数信息的目的就是:若分析一个网址中存在冗余参数信息,就将该冗余参数信息删除,以减少收集到的大量网址数据中存在过多的冗余数据,对网址进行归类处理造成干扰。
103、若判断网址中是存在冗余参数信息的,则在网址中删除冗余参数信息。
在本发明实施例中,当根据步骤102判断一个网址中是存在冗余参数信息的,则将网址中包含的冗余参数信息删除,据此,来对收集到的大量网址数据进行去除冗余数据的处理,避免冗余数据对网址进行归类处理造成干扰,同时也大大减少待执行归类处理的数据量,这还有助于提高归类处理的效率。
本发明实施例提供的一种网址处理方法及装置,本发明实施例是在获取到页面访问请求对应的网址时,预先判断该网址中是否存在加载页面时冗余参数信息,若存在,则将该冗余参数信息删除,进而确保通过不同访问路径跳转至一个相同的目标页面时分别对应得到的多个网址是相同的。与现有技术相比,解决了因存在冗余参数信息使得一个目标页面对应多个不同网址导致在对采集到的大量网址数据进行归类处理时会造成干扰、降低归类处理效率的问题。本发明实施例是通过预先对采集到的网址数据进行删除冗余参数信息的处理,以有助于提高后续对网址数据进行归类处理的准确性,同时提高归类处理效率。
为了对上述实施例做出更加详细的说明,本发明实施例还提供了另一种网址处理方法,如图2所示,该方法是在收集到大量网址数据之后,又或者在对网址执行删除冗余参数信息处理之后,还将对网址进行格式规范化处理,以避免不规范的格式对网址进行归类处理造成干扰,对此本发明实施例提供以下具体步骤:
201、获取页面访问请求对应的网址。
在本发明实施例中,对于本步骤,请参见步骤101,此处不再赘述。
202、在获取页面访问请求对应的网址之后,对网址执行格式规范化处理。
在本发明实施例中,在获取页面访问请求对应的网址之后,有必要对网址执行格式规范化处理,具体步骤,可以如下:
首先,查询预设白名单中是否存在网址。其中,预设白名单用于存储无需被格式规范化处理的网址。
在本发明实施例中,在对网址执行格式规范化处理之前,将一些特殊网址预先存储在白名单中,比如:一些特殊网址,因网址的末尾带斜杠“/”或者不带代表的含义是不同的,所以分别对应的是不同网址,对于类似上述的特殊网址,不能用统一的规范化标准进行处理,因此将其预先存储在白名单中。所以,在本发明实施例中,当对网址执行格式规范化处理之前,可以优先查询白名单,若该网址存在于白名单中,则无需对其执行格式规范化处理。
其次,在查询白名单后确定网址不在白名单中,也就是不是特殊网址时,则根据预置规范格式对网址进行格式化处理。例如,将网址末尾的斜杠“/”删除,将网址中“http”统一规范处理成“https”等等。
在本发明实施例中,对网址执行规范化格式处理的目的是统一规范网址格式,以避免由于格式不同,将对应一个相同页面的两个网址判定对应不同的目标页面,这将对网址进行的归类处理造成干扰,同时由于网址格式不规范也增加归类处理的工作量,这也降低归类处理的效率。
203、判断网址中是否存在冗余参数信息。
在本发明实施例中,冗余参数信息在被从所述网址中删除后将不影响根据页面访问请求执行跳转至所述网址对应的页面的操作,冗余参数信息可以包括但不限于是:广告参数、营销参数。具体的,判断网址中是否存在冗余参数信息,可以如下:
首先,获取网址中包含的参数信息。
根据网址的标准规范,以网址中出现的第一个“?”或“/?”为标识,在标识前部分为网址主体,后部分为参数字符串信息,在本发明实施例中可以直接获取网址中上述标识后的参数字符串信息。
其次,查找预设配置文件库中是否存储有与参数信息相同的参数信息,预设配置文件库中存储的参数信息是指被标识为冗余的参数对应的参数信息。
在本发明实施例中,可以将一些冗余参数信息存储在预设配置文件库中,用于作为比对样本,当网址中包含的参数信息与预设配置文件库中预先存储的冗余参数信息相同时,则可以直接判断网址中是存在有冗余参数信息。
需要说明的是:预设配置文件库中存储的冗余参数信息可以是通用冗余参数信息,例如:广告参数信息、营销参数信息(比如:参数“MMA”,中国无线营销联盟,对应的参数信息),也可以是网站建设方自定义参数信息,比如:参数“gsadid”对应的参数信息,对于上述的自定义参数信息只有对应的建站方知道其代表的含义以及如何解析,而其他用户并不知道,但是在本发明实施例中,也可以通过在收集的大量网址数据中比对两个或多个网址对应的目标页面的方法,获知参数“gsadid”对应的参数信息应该被归属为冗余参数信息,因此,也就可以直接将这种自定义参数信息添加至预设配置文件库。
最后,在本发明实施例中,若在预设配置文件库中查找到与被标识为冗余的参数对应的参数信息相同的参数信息,则网址中包含的参数信息确定是冗余参数信息。
204、若判断网址中是存在冗余参数信息的,则在网址中删除冗余参数信息。
在本发明实施例中,在网址中删除冗余参数信息的具体步骤,可以如下:
第一步骤,在预设配置文件库中查找与冗余参数信息相同的参数信息。
其中,预设配置文件库中存储有参数信息以及其对应的预设配置文件,预设配置文件用于控制在网址中删除对应的参数信息。
第二步骤,通过在预设配置文件库中查找到与冗余参数信息相同的参数信息对应的预设配置为文件,确定冗余参数信息对应的预设配置文件。
在本发明实施例中,上述两个步骤的作用是在预设配置文件库中查找到网址中冗余参数信息对应的预设配置文件。
第三步骤,根据冗余参数信息对应的预设配置文件,删除网址中的冗余参数信息,进一步包括:
获取冗余参数信息中包含的参数名以及其对应的参数值,删除参数名以及其对应的参数值组成的键值对,一个键值对用于指示一个冗余参数对应的参数信息,对网址中剩余字符串信息进行网址合法化处理得到目标网址,以便当加载目标网址时执行网页跳转到所述网址对应的页面。
在本发明实施例中,对于本步骤,是根据预设配置文件来自动完成在网址中删除对应冗余参数信息。例如,如下网址:
“https://www.michaelkors.cn/?utm_source=baidu&utm_medium=article/”
在网址中,提取出参数名“utm_source”“utm_medium”,并分别提取对应的参数值“baidu”“article”,组成两个键值对“utm_source=baidu”“utm_medium=article”,在这里其实一个键值对相当于是一个冗余参数对应的冗余参数信息。在上述例举的网址中将冗余参数信息删除,得到剩余字符串信息,如下:
“https://www.michaelkors.cn/?&/”,可见,剩余的字符串信息中存在多个无用字符“/?&/”,并且,根据网址中存在的上述剩余的字符串信息,不能完成执行显示对应的页面,因而经删除处理后的网址数据对网站分析是没有意义的,所以这里需要对上述剩余的字符串信息进行网址合法化处理,以使得使用经删除处理后的网址仍然可以跳转至目标页面。
需要说明的是,在本发明实施例中,还可以对预设配置文件库中存储的冗余参数信息以及对应的预设配置文件设置过期时间,以便确认冗余参数信息以及对应的预设配置文件的有效期。由于根据归类处理的业务需求,比如:在收集的大量网址数据中,将网址的投放渠道是百度页面的网址进行归类,此时参数“utm”对应的参数信息就不是冗余的,因而有必要保留而不应该被从网址中删除。因此,本发明实施例中可以通过设置过期时间的方法,按照一定周期性业务需求来对网址进行归类处理,相应的,在下一个周期内,可以根据指定需求来修改预设配置文件库中冗余参数信息以及预设配置文件,或者直接将冗余参数信息标识为不删除等等。
进一步的,预设配置文件库是根据归类需求预先设定的,为保证预设配置文件库的安全性、完整性,不应该被随意查看或者修改,因而若检测到访问预设配置文件库请求,则应当验证用户的访问权限,又或者,若检测到修改预设配置文件库内存储的参数信息以及其对应的预设配置文件请求,则验证用户的修改权限。
205、若判断网址中是存在冗余参数信息的,并在网址中删除冗余参数信息之后,对网址执行格式规范化处理。
在本发明实施例中,在网址中删除冗余参数信息之后,还需要对网址执行格式规范化处理,具体的格式规范化处理方法,请参见步骤202,此处不再赘述。
为了实现上述目的,根据本发明的另一方面,本发明实施例还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的网址处理方法。
为了实现上述目的,根据本发明的另一方面,本发明实施例还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述所述的网址处理方法。
进一步的,作为对上述图1、图2所示方法的实现,本发明实施例提供了一种网址处理装置。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置应用于删除网址中存在的冗余参数信息,具体如图3所示,该装置包括:
获取单元31,用于获取页面访问请求对应的网址;
判断单元32,用于判断所述获取单元31获取的网址中是否存在冗余参数信息;
删除单元33,用于当所述判断单元32判断所述网址中存在冗余参数信息时,在所述网址中删除所述冗余参数信息。
进一步的,所述冗余参数信息在被从所述网址中删除后将不影响根据页面访问请求执行跳转至所述网址对应的页面的操作,所述冗余参数信息包括:广告参数、营销参数中的至少一项;
进一步的,如图4所示,所述判断单元32包括:
获取模块321,用于获取所述网址中包含的参数信息;
查找模块322,用于查找预设配置文件库中是否存储有与所述获取模块321获取的参数信息相同的参数信息,所述预设配置文件库中存储的参数信息是指被标识为冗余的参数对应的参数信息;
确定模块323,用于当所述查找模块322在所述预设配置文件库中查找到与所述参数信息相同的参数信息时,所述网址中包含的所述参数信息确定是冗余参数信息。
进一步的,如图4所示,在所述删除单元33包括:
查找模块331,用于在所述预设配置文件库中查找与所述冗余参数信息相同的参数信息,所述预设配置文件库中存储有参数信息以及其对应的预设配置文件,所述预设配置文件用于控制在网址中删除对应的参数信息;
确定模块332,用于通过所述查找模块331在所述预设配置文件库中查找到与所述冗余参数信息相同的参数信息对应的预设配置为文件,确定所述冗余参数信息对应的预设配置文件;
删除模块333,用于根据所述确定模块332确定的冗余参数信息对应的预设配置文件,删除所述网址中的冗余参数信息;
所述删除模块333包括:获取子模块3331、删除子模块3332以及处理子模块3333;
所述获取子模块3331,用于获取所述冗余参数信息中包含的参数名以及其对应的参数值;
所述删除子模块3332,用于删除所述获取子模块3331获取的参数名以及其对应的参数值组成的键值对,一个键值对用于指示一个冗余参数对应的参数信息;
所述处理子模块3333,用于对经所述删除子模块3332得到的网址中剩余字符串信息进行网址合法化处理得到目标网址,以便当加载所述目标网址时执行网页跳转到所述网址对应的页面。
进一步的,如图4所示,所述装置还包括:
处理单元34,用于在所述获取页面访问请求对应的网址之后,对所述网址执行格式规范化处理;
所述处理单元34,还用于若判断所述网址中是存在冗余参数信息的,并在所述网址中删除所述冗余参数信息之后,对所述网址执行格式规范化处理;
所述处理单元34包括:查询模块341、格式化处理模块342;
所述查询模块341,用于查询预设白名单中是否存在所述网址,所述预设白名单用于存储无需被格式规范化处理的网址;
所述格式化处理模块342,用于当所述查询模块341查询预设白名单中不存在所述网址时,则根据预置规范格式对所述网址进行格式化处理。
进一步的,如图4所示,所述装置还包括:
设置单元35,用于对所述预设配置文件库内存储的参数信息以及其对应的预设配置文件设置过期时间;
验证单元36,用于当检测到访问所述预设配置文件库请求时,验证用户的访问权限;
所述验证单元36,还用于当检测到修改所述预设配置文件库内存储的参数信息以及其对应的预设配置文件请求时,验证用户的修改权限。
综上所述,本发明实施例所采用的一种网址处理方法及装置,本发明实施例是在获取到页面访问请求对应的网址时,预先判断该网址中是否存在加载页面时冗余参数信息,若存在,则将该冗余参数信息删除,进而确保通过不同访问路径跳转至一个相同的目标页面时分别对应得到的多个网址是相同的。与现有技术相比,解决了因存在冗余参数信息使得一个目标页面对应多个不同网址导致在对采集到的大量网址数据进行归类处理时会造成干扰、降低归类处理效率的问题。本发明实施例是通过预先对采集到的网址数据进行去参数处理,以有助于提高后续对网址数据进行归类处理的准确性,同时提高归类处理效率。此外,在收集到大量网址数据之后,又或者在对网址执行删除冗余参数信息处理之后,还将对网址进行格式规范化处理,以避免不规范的格式对网址进行归类处理造成干扰,同时也有效减少大量网址数据中的冗余数据,有助于提高归类处理效率。
所述网址处理装置包括处理器和存储器,上述获取单元、判断单元和删除单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来预先对采集到的网址数据进行去参数处理,以有助于提高后续对网址数据进行归类处理的准确性,同时提高归类处理效率。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述网址处理方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述网址处理方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
一种网址处理方法,所述方法包括:获取页面访问请求对应的网址;判断所述网址中是否存在冗余参数信息;若存在,则在所述网址中删除所述冗余参数信息。
进一步的,所述冗余参数信息在被从所述网址中删除后将不影响根据页面访问请求执行跳转至所述网址对应的页面的操作,所述冗余参数信息包括:广告参数、营销参数中的至少一项;
进一步的,所述判断所述网址中是否存在冗余参数信息,包括:获取所述网址中包含的参数信息;查找预设配置文件库中是否存储有与所述参数信息相同的参数信息,所述预设配置文件库中存储的参数信息是指被标识为冗余的参数对应的参数信息;若是,则所述网址中包含的所述参数信息确定是冗余参数信息。
进一步的,在所述网址中删除所述冗余参数信息,包括:在所述预设配置文件库中查找与所述冗余参数信息相同的参数信息,所述预设配置文件库中存储有参数信息以及其对应的预设配置文件,所述预设配置文件用于控制在网址中删除对应的参数信息;通过在所述预设配置文件库中查找到与所述冗余参数信息相同的参数信息对应的预设配置为文件,确定所述冗余参数信息对应的预设配置文件;根据所述冗余参数信息对应的预设配置文件,删除所述网址中的冗余参数信息,进一步包括:获取所述冗余参数信息中包含的参数名以及其对应的参数值;删除所述参数名以及其对应的参数值组成的键值对,一个键值对用于指示一个冗余参数对应的参数信息;对所述网址中剩余字符串信息进行网址合法化处理得到目标网址,以便当加载所述目标网址时执行网页跳转到所述网址对应的页面。
进一步的,所述方法还包括:在所述获取页面访问请求对应的网址之后,对所述网址执行格式规范化处理;和/或,若判断所述网址中是存在冗余参数信息的,并在所述网址中删除所述冗余参数信息之后,对所述网址执行格式规范化处理;所述执行格式规范化处理包括:查询预设白名单中是否存在所述网址,所述预设白名单用于存储无需被格式规范化处理的网址;若不存在,则根据预置规范格式对所述网址进行格式化处理。
进一步的,所述方法还包括:对所述预设配置文件库内存储的参数信息以及其对应的预设配置文件设置过期时间;和/或,当检测到访问所述预设配置文件库请求时,验证用户的访问权限;和/或,当检测到修改所述预设配置文件库内存储的参数信息以及其对应的预设配置文件请求时,验证用户的修改权限。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取页面访问请求对应的网址;判断所述网址中是否存在冗余参数信息;若存在,则在所述网址中删除所述冗余参数信息。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种网址处理方法,其特征在于,所述方法包括:
获取页面访问请求对应的网址;
判断所述网址中是否存在冗余参数信息;
若存在,则在所述网址中删除所述冗余参数信息。
2.根据权利要求1所述的方法,其特征在于,所述冗余参数信息包括:广告参数、营销参数中的至少一项。
3.根据权利要求1所述的方法,其特征在于,所述判断所述网址中是否存在冗余参数信息,包括:
获取所述网址中包含的参数信息;
查找预设配置文件库中是否存储有与所述参数信息相同的参数信息,所述预设配置文件库中存储的参数信息是指被标识为冗余的参数对应的参数信息;
若是,则所述网址中包含的所述参数信息确定是冗余参数信息。
4.根据权利要求3所述的方法,其特征在于,在所述网址中删除所述冗余参数信息,包括:
在所述预设配置文件库中查找与所述冗余参数信息相同的参数信息,所述预设配置文件库中存储有参数信息以及其对应的预设配置文件,所述预设配置文件用于控制在网址中删除对应的参数信息;
通过在所述预设配置文件库中查找到与所述冗余参数信息相同的参数信息对应的预设配置为文件,确定所述冗余参数信息对应的预设配置文件;
根据所述冗余参数信息对应的预设配置文件,删除所述网址中的冗余参数信息,进一步包括:
获取所述冗余参数信息中包含的参数名以及其对应的参数值;
删除所述参数名以及其对应的参数值组成的键值对,一个键值对用于指示一个冗余参数对应的参数信息;
对所述网址中剩余字符串信息进行网址合法化处理得到目标网址,以便当加载所述目标网址时执行网页跳转到所述网址对应的页面。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述获取页面访问请求对应的网址之后,对所述网址执行格式规范化处理;和/或,
若判断所述网址中是存在冗余参数信息的,并在所述网址中删除所述冗余参数信息之后,对所述网址执行格式规范化处理;
所述执行格式规范化处理包括:
查询预设白名单中是否存在所述网址,所述预设白名单用于存储无需被格式规范化处理的网址;
若不存在,则根据预置规范格式对所述网址进行格式化处理。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对所述预设配置文件库内存储的参数信息以及其对应的预设配置文件设置过期时间;和/或,
当检测到访问所述预设配置文件库请求时,验证用户的访问权限;和/或,
当检测到修改所述预设配置文件库内存储的参数信息以及其对应的预设配置文件请求时,验证用户的修改权限。
7.一种网址处理装置,其特征在于,所述装置包括:
获取单元,用于获取页面访问请求对应的网址;
判断单元,用于判断所述获取单元获取的网址中是否存在冗余参数信息;
删除单元,用于当所述判断单元判断所述网址中存在冗余参数信息时,在所述网址中删除所述冗余参数信息。
8.根据权利要求7所述的装置,其特征在于,所述冗余参数信息在被从所述网址中删除后将不影响根据页面访问请求执行跳转至所述网址对应的页面的操作,所述冗余参数信息至少包括:广告参数、营销参数。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-6中任一项所述的网址处理方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1-6中任一项所述的网址处理方法。
CN201811160108.1A 2018-09-30 2018-09-30 一种网址处理方法及装置 Pending CN110968821A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811160108.1A CN110968821A (zh) 2018-09-30 2018-09-30 一种网址处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811160108.1A CN110968821A (zh) 2018-09-30 2018-09-30 一种网址处理方法及装置

Publications (1)

Publication Number Publication Date
CN110968821A true CN110968821A (zh) 2020-04-07

Family

ID=70029153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811160108.1A Pending CN110968821A (zh) 2018-09-30 2018-09-30 一种网址处理方法及装置

Country Status (1)

Country Link
CN (1) CN110968821A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762937A (zh) * 2020-06-03 2021-12-07 富泰华工业(深圳)有限公司 广告运营系统及方法、可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012071993A1 (zh) * 2010-12-03 2012-06-07 腾讯科技(深圳)有限公司 一种环球信息网www页面处理方法和装置
CN103077250A (zh) * 2013-01-28 2013-05-01 人民搜索网络股份公司 一种网页内容抓取方法及装置
CN104850439A (zh) * 2015-05-22 2015-08-19 上海斐讯数据通信技术有限公司 配置应用程序的方法及所适用的嵌入式设备
CN105608134A (zh) * 2015-12-18 2016-05-25 盐城工学院 一种基于多线程的网络爬虫系统及其网页爬取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012071993A1 (zh) * 2010-12-03 2012-06-07 腾讯科技(深圳)有限公司 一种环球信息网www页面处理方法和装置
CN103077250A (zh) * 2013-01-28 2013-05-01 人民搜索网络股份公司 一种网页内容抓取方法及装置
CN104850439A (zh) * 2015-05-22 2015-08-19 上海斐讯数据通信技术有限公司 配置应用程序的方法及所适用的嵌入式设备
CN105608134A (zh) * 2015-12-18 2016-05-25 盐城工学院 一种基于多线程的网络爬虫系统及其网页爬取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梁晓涛,汪文斌: "《网络传播概论新编》", 上海:复旦大学出版社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762937A (zh) * 2020-06-03 2021-12-07 富泰华工业(深圳)有限公司 广告运营系统及方法、可读存储介质

Similar Documents

Publication Publication Date Title
CN108304410B (zh) 一种异常访问页面的检测方法、装置及数据分析方法
CN110020339B (zh) 基于无埋点的网页数据采集方法及装置
KR102090982B1 (ko) 악의 웹 사이트 식별 방법, 장치 및 컴퓨터 기억매체
CN109298987B (zh) 一种检测网络爬虫运行状态的方法及装置
CN109743309B (zh) 一种非法请求识别方法、装置及电子设备
CN109600272B (zh) 爬虫检测的方法及装置
CN106844486A (zh) 爬取动态网页的方法及装置
CN107015986B (zh) 一种爬虫爬取网页的方法及装置
CN107103243B (zh) 漏洞的检测方法及装置
CN107526748B (zh) 一种识别用户点击行为的方法和设备
CN111221711A (zh) 用户行为数据处理方法、服务器及存储介质
CN109582883B (zh) 栏目页的确定方法和装置
CN108255891B (zh) 一种判别网页类型的方法及装置
CN111125704B (zh) 一种网页挂马识别方法及系统
CN110968821A (zh) 一种网址处理方法及装置
CN112507341A (zh) 基于网络爬虫的漏洞扫描方法、装置、设备和存储介质
CN106911636B (zh) 一种检测网站是否存在后门程序的方法及装置
EP3446236A1 (en) Method and system for providing additional information relating to primary information
CN109948034B (zh) 基于过滤会话实现提取页面信息的方法及装置
CN116451271A (zh) 一种应用软件的隐私政策自动提取方法
CN108984572B (zh) 网站信息推送方法及装置
CN115297042A (zh) 检测不同网络下网页一致性的方法及相关设备
CN110929188A (zh) 服务端页面渲染方法及装置
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
CN111125590B (zh) 一种绘制热力图的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200407

RJ01 Rejection of invention patent application after publication