CN108694184B - 曝光url处理方法及装置 - Google Patents
曝光url处理方法及装置 Download PDFInfo
- Publication number
- CN108694184B CN108694184B CN201710222467.4A CN201710222467A CN108694184B CN 108694184 B CN108694184 B CN 108694184B CN 201710222467 A CN201710222467 A CN 201710222467A CN 108694184 B CN108694184 B CN 108694184B
- Authority
- CN
- China
- Prior art keywords
- exposure
- url
- analysis result
- urls
- host
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例提供了一种曝光URL处理方法,用于减小页面检测的工作量。本发明实施例提供的曝光URL处理方法包括:获取多个第一曝光URL;对每个所述第一曝光URL进行解析,得到解析结果,所述解析结果中至少包括曝光参数,所述曝光参数为所述第一曝光URL所属的媒体添加到所述第一曝光URL中的字段;对所述解析结果进行预设处理,得到不包含所述曝光参数的第二曝光URL;将相同的第二曝光URL进行聚合,得到处理后的曝光URL。该技术方案能够有效减少处理后的曝光URL的数目,广告商只需要对处理后的URL进行访问即可,从而有效减小检测的工作量。本发明还提供了相关的曝光URL处理装置。
Description
技术领域
本发明涉及互联网领域,尤其涉及一种曝光URL处理方法及装置。
背景技术
随着科学技术的进步,互联网行业飞速发展,互联网上的流量也越来越大。为了将互联网的流量转化为商业价值,广告商往往会在互联网上投放大量的广告。由于互联网领域存在多样的媒体平台,故同一广告可以具有不同的来源媒体。
为了检测来源媒体是否按照广告商的要求投放了广告,可以对来源媒体的广告投放页面进行检测。具体的,可以对投放了广告的页面的统一资源定位符(Uniform ResourceLocator,URL)进行爬虫回访,以判断该页面投放的广告是否符合广告商要求。
但是,媒体在页面处理过程中往往会针对用户、地区、设备等因素对页面的URL进行修改,导致同一页面在不同的媒体上具有不同的URL。为了实现对来源媒体进行精确的检测,需要对全部不同的URL进行回访。检测的工作量较大,不利于互联网行业的发展。
发明内容
本发明实施例提供了一种曝光URL处理方法,用于减小页面检测的工作量。本发明还提供了相关的曝光URL处理装置。
本发明实施例第一方面提供了一种曝光URL处理方法,包括:
获取多个第一曝光URL;
对每个所述第一曝光URL进行解析,得到解析结果,所述解析结果中至少包括曝光参数,所述曝光参数为所述第一曝光URL所属的媒体添加到所述第一曝光URL中的字段;
对所述解析结果进行预设处理,得到不包含所述曝光参数的第二曝光URL;
将相同的第二曝光URL进行聚合,得到处理后的曝光URL。
可选的,本发明实施例第一方面还包括:
将所述解析结果中的曝光参数进行删除,得到不包含所述曝光参数的第二曝光URL。
可选的,所述解析结果中还包括曝光协议、曝光Host和曝光路径,本发明实施例第一方面还包括:
从所述解析结果中提取曝光协议、曝光Host和曝光路径;
将所述曝光协议、曝光Host、和曝光路径进行组合,得到不包含所述曝光参数的第二曝光URL。
可选的,本发明实施例第一方面还包括:
将所述曝光Host、曝光路径和曝光参数保存到数据库中。
可选的,本发明实施例第一方面还包括:
对处理后的曝光URL进行回访,并将回访不成功的URL添加到无效URL库中。
可选的,本发明实施例第一方面还包括:
确定所述处理后的曝光URL中包含的无效URL,所述无效URL包括:以.swf结尾的URL或者属于所述无效URL库的URL;
将所述处理后的曝光URL中的无效URL进行删除。
本发明实施例第二方面提供了一种曝光URL处理装置,包括:
获取模块,用于获取多个第一曝光URL;
解析模块,用于对每个所述第一曝光URL进行解析,得到解析结果,所述解析结果中至少包括曝光参数,所述曝光参数为所述第一曝光URL所属的媒体添加到所述第一曝光URL中的字段;
处理模块,用于对所述解析结果进行预设处理,得到不包含所述曝光参数的第二曝光URL;
聚合模块,用于将相同的第二曝光URL进行聚合,得到处理后的曝光URL。
可选的,本发明实施例的第二方面中,所述处理模块包括:
删除单元,用于将所述解析结果中的曝光参数进行删除,得到不包含所述曝光参数的第二曝光URL。
可选的,所述解析结果中还包括曝光协议、曝光Host和曝光路径,本发明实施例的第二方面中,所述处理模块包括:
提取单元,用于从所述解析结果中提取曝光协议、曝光Host和曝光路径;
组合单元,用于将所述曝光协议、曝光Host、和曝光路径进行组合,得到不包含所述曝光参数的第二曝光URL。
可选的,本发明实施例的第二方面还包括:
保存模块,用于将所述曝光Host、曝光路径和曝光参数保存到数据库中。
可选的,本发明实施例的第二方面还包括:
回访模块,用于对处理后的曝光URL进行回访;
添加模块,用于将回访不成功的URL添加到无效URL库中。
可选的,本发明实施例的第二方面还包括:
确定模块,用于确定所述处理后的曝光URL中包含的无效URL,所述无效URL包括:以.swf结尾的URL或者属于所述无效URL库的URL;
删除模块,用于将所述处理后的曝光URL中的无效URL进行删除。
本发明中曝光URL处理装置获取多个第一曝光URL;对每个所述第一曝光URL进行解析,得到解析结果,所述解析结果中至少包括曝光参数,所述曝光参数为所述第一曝光URL所属的媒体添加到所述第一曝光URL中的字段;对所述解析结果进行预设处理,得到不包含所述曝光参数的第二曝光URL;将相同的第二曝光URL进行聚合,得到处理后的曝光URL。该技术方案能够有效减少处理后的曝光URL的数目,广告商只需要对处理后的URL进行访问即可,从而有效减小检测的工作量。本发明还提供了相关的曝光URL处理装置。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中曝光URL处理方法一个实施例流程图;
图2为本发明实施例中曝光URL处理方法另一个实施例流程图;
图3(a)为本发明实施例中曝光URL处理装置一个实施例结构图;
图3(b)为本发明实施例中曝光URL处理装置另一个实施例结构图。
图4为本发明实施例中曝光URL处理装置另一个实施例结构图。
具体实施方式
本发明实施例提供了一种曝光URL处理方法,用于减小页面检测的工作量。本发明还提供了相关的曝光URL处理装置,以下将分别进行描述。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的曝光URL处理方法的基本流程请参阅图1,包括:
101、获取多个第一曝光URL;
获取多个待处理的第一曝光URL。在本发明的某些实施例中,当用户打开投放了广告的页面时,该页面会向服务器发送曝光请求,曝光请求中携带有该页面的URL。因此,服务器在服务进行中会接收到待处理的第一曝光URL,可以从服务器处获取这些第一曝光URL。当然,也可以直接从页面处接收曝光请求,从曝光请求所携带的信息中获取第一曝光URL。也可以通过其它方式获取第一曝光URL,本实施例中不做限定。
媒体在页面处理过程中往往会针对用户、地区、设备等因素对页面的URL进行修改,具体表现为在页面的原始URL的后面添加曝光参数。该曝光参数为包括有一个或多个参数的字段。一般的,曝光参数通过符号“?”或“#”与页面的原始URL相连接。本步骤中,第一曝光URL由网页的原始URL添加了曝光参数后得到。
由于不同的媒体会在页面的原始URL后面添加不同的曝光参数,因此同一页面的原始URL可以被多个媒体修改为不同的第一曝光URL。
102、对每个第一曝光URL进行解析,得到解析结果;
对获取到的第一曝光URL进行解析,得到解析结果。其中,每个第一曝光URL的解析结果中至少包括该第一曝光URL的曝光参数。每个第一曝光URL的解析结果还可以包括其它部分,具体在后面的实施例中详述,此处不做限定。
103、对所述解析结果进行预设处理,得到不包含所述曝光参数的第二曝光URL;
对步骤102中得到的各第一曝光URL的解析结果进行预设处理,得到每个第一曝光URL对应的第二曝光URL。其中,第二曝光URL中不包括对应的第一曝光URL中的曝光参数。
可选的,第二曝光URL可以由对应的第一曝光URL删除曝光参数后得到。可以理解的,第二曝光URL即为步骤101中提到的第一曝光URL的页面的原始URL。可以理解的,若同一页面的原始URL被修改为N个第一曝光URL,则该N个第一曝光URL删除了曝光参数后得到的第二曝光URL相同,N为不小于2的整数。
104、将相同的第二曝光URL进行聚合,得到处理后的曝光URL。
步骤102中得到每个第一曝光URL对应的第二曝光URL后,对其中的第二曝光URL进行聚合处理,得到一个或多个处理后的曝光URL。
其中,聚合操作指的是在多个相同的第二曝光URL中保留一个。举例来说,若存在M个相同的第二曝光URL,则在该M个相同的第二曝光URL中删除M-1个第二曝光URL,仅保留其中一个第二曝光URL,即实现了该M个相同的第二曝光URL的聚合,M为不小于2的整数。
本实施例获取多个第一曝光URL;对每个所述第一曝光URL进行解析,得到解析结果,所述解析结果中至少包括曝光参数,所述曝光参数为所述第一曝光URL所属的媒体添加到所述第一曝光URL中的字段;对所述解析结果进行预设处理,得到不包含所述曝光参数的第二曝光URL;将相同的第二曝光URL进行聚合,得到处理后的曝光URL获取多个第一曝光URL;解析该多个第一曝光URL,得到曝光参数在内的解析结果;对解析结果进行预设处理,得到删除了曝光参数的第二曝光URL;聚合相同的第二曝光URL,得到去重后的曝光URL。由于第一曝光URL删除了曝光参数后得到的第二曝光URL中可能存在重复,故该技术方案通过删除重复的第二曝光URL,能够有效减少处理后的曝光URL的数目,广告商只需要对处理后的URL进行访问即可,从而有效减小检测的工作量,有利于互联网行业的发展。
图1所示的实施例给出了本发明提供的URL处理方法的基本流程,下面将介绍一种更为详细的URL处理方法,请参阅图2,包括:
201、获取多个第一曝光URL;
步骤201与步骤101基本相同,此处不做赘述。
202、对每个第一曝光URL进行解析,得到解析结果;
对获取到的第一曝光URL进行解析,得到解析结果。其中,每个第一曝光URL的解析结果中至少包括该第一曝光URL的曝光参数。
可选的,第一曝光URL可以包括多个部分:曝光协议、曝光Host、曝光路径和曝光参数。其中,曝光协议用于携带第一曝光URL所采用的协议,如http协议、https协议、ftp协议等。曝光Host用于携带第一曝光URL所属的主机。曝光路径用于携带第一曝光URL的路径信息。曝光参数用于携带第一曝光URL所属的媒体添加到第一曝光URL中的参数。本实施例通过对第一曝光URL进行解析,能够从解析结果中提取出需要的部分。
可选的,每个第一曝光URL的解析结果中可以包括该第一曝光URL的曝光参数。
可选的,通过解析第一曝光URL,还可以从解析结果中提取出第一曝光URL的曝光协议、曝光Host和曝光路径中的一项或多项,此处不做限定。
在解析第一曝光URL时,可以根据第一曝光URL中的符号来对第一曝光URL进行拆分。举例来说,以现有通用的曝光URL格式而言,一般符号“://”前面的部分为URL的曝光协议,符号“://”和第一个符号“/”之间的部分为URL的曝光Host,第一个符号“/”和符号“?”或“#”之间的部分为URL的曝光路径,符号“?”或“#”之后的部分为URL的曝光参数。
举例来说,https://www.baidu.com/s?ie=utf-8&f=8为获取到的一个第一曝光URL,其中http为该第一曝光URL的曝光协议,www.baidu.com为该第一曝光URL的曝光Host,/s为该第一曝光URL的曝光路径,ie=utf-8&f=8为该第一曝光URL的曝光参数。
可选的,可以根据每个第一曝光URL的解析结果,获取每个第一曝光URL的曝光Host、曝光路径和曝光参数,并将该曝光Host、曝光路径和曝光参数保存到数据库中,以便于后续查找。
步骤202中获取到每个第一曝光URL的解析结果后,执行步骤203,或步骤204、205:
203、将解析结果中的曝光参数进行删除,得到不包含曝光参数的第二曝光URL;
若步骤202中已经提取了各第一曝光URL的曝光参数,故可以直接将各第一曝光URL的曝光参数删除或者移除等去除操作,即可得到对应的第二曝光URL。
204、从解析结果中提取曝光协议、曝光Host和曝光路径;
205、将曝光协议、曝光Host、和曝光路径进行组合,得到不包含曝光参数的第二曝光URL;
又可选的,若步骤202中提取了每个第一曝光URL的曝光协议、曝光Host和曝光路径,则将每个第一曝光URL的曝光协议、曝光Host和曝光路径进行组合,即可以得到对应的第二曝光URL。
举例来说,https://www.baidu.com/s?ie=utf-8&f=8为获取到的一个第一曝光URL,其中http为该第一曝光URL的曝光协议,www.baidu.com为该第一曝光URL的曝光Host,/s为该第一曝光URL的曝光路径,ie=utf-8&f=8为该第一曝光URL的曝光参数。该曝光参数ie=utf-8&f=8被删除。于是将第一曝光URL的曝光协议、曝光Host以及曝光路径进行组合,得到对应的第二曝光URL为:https://www.baidu.com/s。
在执行完步骤203,或执行完步骤205后,触发执行步骤206:
206、将相同的第二曝光URL进行聚合,得到处理后的曝光URL。
步骤206与步骤104基本相同,此处不做赘述。
可选的,本发明还可以包括如下步骤:
207、确定所述处理后的曝光URL中包含的无效URL;
确定步骤206得到的一个或多个处理后的曝光URL中的无效URL。其中,无效URL用于表示不能被正确回访的曝光URL。
无效URL的判定方式有很多。举例来说,以.swf结尾的URL不能被正确回访,故步骤206中得到的曝光URL中,以.swf结尾的URL可以被认为是无效URL。又举例来说,可以设置URL无效库,该URL无效库中预设有多个指定无效的URL。则属于该URL无效库的URL可以被认为是无效URL。无效URL也可以有其它判定方式,本实施例中不做限定。
208、将处理后的曝光URL中的无效URL进行删除。
步骤205中得到的一个或多个处理后的曝光URL中的无效URL,本步骤中将无效URL从步骤206中得到的曝光URL中删除。
可选的,本发明还可以包括如下步骤:
209、对处理后的曝光URL进行回访。
在得到处理后的曝光URL后,还可以对处理后的曝光URL进行回访,以检测该处理后的曝光URL对应的页面是否投放了广告。
具体的,若本实施例不包括步骤207和208,则本步骤对步骤206中得到的处理后的曝光URL进行回访。若本实施例包括步骤207和208,则本步骤对步骤208中处理后且删除了无效URL后的曝光URL进行回访。
210、将回访不成功的URL添加到所述URL无效库中。
若步骤209中存在不能成功回访的URL,且已设置了无效URL库,则将不能成功回访的曝光URL添加到URL无效库中。这样当再次执行本实施例提供的方法时,该不能成功回访的曝光URL在步骤207中即会被判定为无效URL并删除,能够进一步的减少步骤209中回访的URL的数目。
本实施例获取多个第一曝光URL;对每个所述第一曝光URL进行解析,得到解析结果,所述解析结果中至少包括曝光参数,所述曝光参数为所述第一曝光URL所属的媒体添加到所述第一曝光URL中的字段;对所述解析结果进行预设处理,得到不包含所述曝光参数的第二曝光URL;将相同的第二曝光URL进行聚合,得到处理后的曝光URL获取多个第一曝光URL;解析该多个第一曝光URL,得到曝光参数在内的解析结果;对解析结果进行预设处理,得到删除了曝光参数的第二曝光URL;聚合相同的第二曝光URL,得到去重后的曝光URL。由于第一曝光URL删除了曝光参数后得到的第二曝光URL中可能存在重复,故该技术方案通过删除重复的第二曝光URL,能够有效减少去重处理后的曝光URL的数目,广告商只需要对处理后的URL进行访问即可,这样就减小了检测的工作量,有利于互联网行业的发展。
图1和图2所示的实施例介绍了本发明提供的曝光URL处理方法,下面将介绍用于实现上述方法的曝光URL处理装置,请参阅图3(a)。本发明提供的曝光URL处理装置的基本结构包括:
获取模块301,用于获取多个待处理的第一曝光URL。在本发明的某些实施例中,当用户打开投放了广告的页面时,该页面会向服务器发送曝光请求,曝光请求中携带有该页面的URL。因此,服务器在服务进行中会接收到待处理的第一曝光URL,可以从服务器处获取这些第一曝光URL。当然,也可以直接从页面处接收曝光请求,从曝光请求所携带的信息中获取第一曝光URL。也可以通过其它方式获取第一曝光URL,本实施例中不做限定。
媒体在页面处理过程中往往会针对用户、地区、设备等因素对页面的URL进行修改,具体表现为在页面的原始URL的后面添加曝光参数。该曝光参数为包括有一个或多个参数的字段。一般的,曝光参数通过符号“?”或“#”与页面的原始URL相连接。本步骤中,第一曝光URL由网页的原始URL添加了曝光参数后得到。
由于不同的媒体会在页面的原始URL后面添加不同的曝光参数,因此同一页面的原始URL可以被多个媒体修改为不同的第一曝光URL。
解析模块302,用于对获取到的第一曝光URL进行解析,得到解析结果。其中,每个第一曝光URL的解析结果中至少包括该第一曝光URL的曝光参数。每个第一曝光URL的解析结果还可以包括其它部分,具体在后面的实施例中详述,此处不做限定。
处理模块303,用于对解析模块302得到的各第一曝光URL的解析结果进行预设处理,得到每个第一曝光URL对应的第二曝光URL。其中,第二曝光URL中不包括对应的第一曝光URL中的曝光参数。
可选的,第二曝光URL可以由对应的第一曝光URL删除曝光参数后得到。可以理解的,第二曝光URL即为第一曝光URL的页面的原始URL。可以理解的,若同一页面的原始URL被修改为N个第一曝光URL,则该N个第一曝光URL删除了曝光参数后得到的第二曝光URL相同,N为不小于2的整数。
聚合模块304,用于对处理模块303得到的多个第二曝光URL进行聚合处理,得到一个或多个处理后的曝光URL。
其中,聚合操作指的是在多个相同的第二曝光URL中保留一个。举例来说,若存在M个相同的第二曝光URL,则在该M个相同的第二曝光URL中删除M-1个第二曝光URL,仅保留其中一个第二曝光URL,即实现了该M个相同的第二曝光URL的聚合,M为不小于2的整数。
本实施例提供的URL处理装置中,获取模块301获取多个待处理的第一曝光URL;解析模块302对每个所述第一曝光URL进行解析,得到解析结果,所述解析结果中至少包括曝光参数,所述曝光参数为所述第一曝光URL所属的媒体添加到所述第一曝光URL中的字段;处理模块303对解析结果进行预设处理,得到不包括曝光参数的第二曝光URL;聚合模块304将相同的第二曝光URL进行聚合,得到处理后的曝光URL。由于第一曝光URL删除了曝光参数后得到的第二曝光URL中可能存在重复,故通过删除重复的第二曝光URL,能够有效减少处理后的曝光URL的数目,广告商只需要对处理后的URL进行访问即可,从而有效减小检测的工作量,有利于互联网行业的发展。
此外,本发明提供的曝光URL处理装置还可以包括一个或多个可选模块,如图3(b)所示:
可选的,所述处理模块303具体包括:
删除单元3031,用于将所述解析结果中的曝光参数进行删除,得到不包含所述曝光参数的第二曝光URL;
或者,所述解析结果中还包括曝光协议、曝光Host和曝光路径,所述处理模块303具体包括:
提取单元3032,用于从所述解析结果中提取曝光协议、曝光Host和曝光路径;
组合单元3033,用于将所述曝光协议、曝光Host、和曝光路径进行组合,得到不包含所述曝光参数的第二曝光URL。
可选的,所述装置还包括:
保存模块305,用于将所述曝光Host、曝光路径和曝光参数保存到数据库中。
可选的,所述装置还包括:
回访模块306,用于对处理后的曝光URL进行回访;
添加模块307,用于将回访不成功的URL添加到无效URL库中。
可选的,若所述装置设置有URL无效库,则所述装置还包括:
确定模块308,用于确定所述处理后的曝光URL中包含的无效URL,所述无效URL包括:以.swf结尾的URL或者属于所述无效URL库的URL;
删除模块309,将所述处理后的曝光URL中的无效URL进行删除。
图3所示的实施例从单元化功能实体的角度对本发明实施例中的曝光URL处理装置进行了描述,下面从硬件处理的角度对本发明实施例中的曝光URL处理装置进行描述,请参阅图4,本发明实施例中的曝光URL处理装置400另一实施例包括:
输入装置401、输出装置402、处理器403和存储器404(其中URL处理装置400中的处理器403的数量可以一个或多个,图4中以一个处理器403为例)。在本发明的一些实施例中,输入装置401、输出装置402、处理器403和存储器404可通过总线或其它方式连接,其中,图4中以通过总线连接为例。
其中,通过调用存储器404存储的操作指令,处理器403用于执行如下步骤:
获取多个第一曝光URL;
对每个所述第一曝光URL进行解析,得到解析结果,所述解析结果中至少包括曝光参数,所述曝光参数为所述第一曝光URL所属的媒体添加到所述第一曝光URL中的字段;
对所述解析结果进行预设处理,得到不包含所述曝光参数的第二曝光URL;
将相同的第二曝光URL进行聚合,得到处理后的曝光URL。
本发明的一些实施例中,处理器403还用于执行如下步骤:
将所述解析结果中的曝光参数进行删除,得到不包含所述曝光参数的第二曝光URL;
或者,所述解析结果中还包括曝光协议、曝光Host和曝光路径,处理器403还用于执行如下步骤:
从所述解析结果中提取曝光协议、曝光Host和曝光路径;
将所述曝光协议、曝光Host、和曝光路径进行组合,得到不包含所述曝光参数的第二曝光URL。
本发明的一些实施例中,处理器403还用于执行如下步骤:
将所述曝光Host、曝光路径和曝光参数保存到数据库中。
本发明的一些实施例中,处理器403还用于执行如下步骤:
对处理后的曝光URL进行回访,并将回访不成功的URL添加到无效URL库中。
本发明的一些实施例中,处理器403还用于执行如下步骤:
确定所述处理后的曝光URL中包含的无效URL,所述无效URL包括:以.swf结尾的URL或者属于所述无效URL库的URL;
将所述处理后的曝光URL中的无效URL进行删除。
图3和图4所示的装置实施例可以参阅图1和图2所示的方法实施例的相关描述,此处不做赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种曝光URL处理方法,其特征在于,包括:
获取多个第一曝光URL;
对每个所述第一曝光URL进行解析,得到解析结果,所述解析结果中至少包括曝光参数,所述曝光参数为所述第一曝光URL所属的媒体添加到所述第一曝光URL中的字段;
对所述解析结果进行预设处理,得到不包含所述曝光参数的第二曝光URL;
将相同的第二曝光URL进行聚合,得到处理后的曝光URL;
所述解析结果中还包括曝光协议、曝光Host和曝光路径,对所述解析结果进行预设处理,得到不包含所述曝光参数的第二曝光URL:
从所述解析结果中提取曝光协议、曝光Host和曝光路径,所述曝光协议用于携带第一曝光URL所采用的协议,所述曝光Host用于携带第一曝光URL所属的主机,所述曝光路径用于携带第一曝光URL的路径信息;
将所述曝光协议、曝光Host、和曝光路径进行组合,得到不包含所述曝光参数的第二曝光URL。
2.根据权利要求1所述的方法,其特征在于,所述对所述解析结果进行预设处理,得到不包含所述曝光参数的第二曝光URL还包括:
将所述解析结果中的曝光参数进行删除,得到不包含所述曝光参数的第二曝光URL。
3.根据权利要求1所述的方法,其特征在于,在从所述解析结果中提取所述曝光Host、曝光路径和曝光参数后,所述方法还包括:
将所述曝光Host、曝光路径和曝光参数保存到数据库中。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
对处理后的曝光URL进行回访,并将回访不成功的URL添加到无效URL库中。
5.根据权利要求4所述的方法,其特征在于,所述对处理后的曝光URL进行回访之前,所述方法还包括:
确定所述处理后的曝光URL中包含的无效URL,所述无效URL包括:以.swf结尾的URL或者属于所述无效URL库的URL;
将所述处理后的曝光URL中的无效URL进行删除。
6.一种曝光URL处理装置,其特征在于,包括:
获取模块,用于获取多个第一曝光URL;
解析模块,用于对每个所述第一曝光URL进行解析,得到解析结果,所述解析结果中至少包括曝光参数,所述曝光参数为所述第一曝光URL所属的媒体添加到所述第一曝光URL中的字段;
处理模块,用于对所述解析结果进行预设处理,得到不包含所述曝光参数的第二曝光URL;
聚合模块,用于将相同的第二曝光URL进行聚合,得到处理后的曝光URL;
所述处理模块包括删除单元,用于从所述解析结果中提取曝光协议、曝光Host和曝光路径,所述曝光协议用于携带第一曝光URL所采用的协议,所述曝光Host用于携带第一曝光URL所属的主机,所述曝光路径用于携带第一曝光URL的路径信息;将所述曝光协议、曝光Host、和曝光路径进行组合,得到不包含所述曝光参数的第二曝光URL。
7.根据权利要求6所述的装置,其特征在于,所述处理模块包括:
删除单元,用于将所述解析结果中的曝光参数进行删除,得到不包含所述曝光参数的第二曝光URL。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
保存模块,用于将所述曝光Host、曝光路径和曝光参数保存到数据库中。
9.根据权利要求6至8中任一项所述的装置,其特征在于,所述装置还包括:
回访模块,用于对处理后的曝光URL进行回访;
添加模块,用于将回访不成功的URL添加到无效URL库中。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
确定模块,用于确定所述处理后的曝光URL中包含的无效URL,所述无效URL包括:以.swf结尾的URL或者属于所述无效URL库的URL;
删除模块,用于将所述处理后的曝光URL中的无效URL进行删除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710222467.4A CN108694184B (zh) | 2017-04-06 | 2017-04-06 | 曝光url处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710222467.4A CN108694184B (zh) | 2017-04-06 | 2017-04-06 | 曝光url处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108694184A CN108694184A (zh) | 2018-10-23 |
CN108694184B true CN108694184B (zh) | 2022-03-11 |
Family
ID=63842917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710222467.4A Active CN108694184B (zh) | 2017-04-06 | 2017-04-06 | 曝光url处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108694184B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113784179A (zh) * | 2021-01-21 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 一种应用于线下场景的素材播放方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902780A (zh) * | 2012-09-28 | 2013-01-30 | 五八有限公司 | 一种统一资源定位符url动态匹配方法及装置 |
WO2014048241A1 (zh) * | 2012-09-29 | 2014-04-03 | 北京奇虎科技有限公司 | 一种浏览器及其进行域名解析的方法 |
CN104933056A (zh) * | 2014-03-18 | 2015-09-23 | 腾讯科技(深圳)有限公司 | 统一资源定位符去重方法及装置 |
CN108268508A (zh) * | 2016-12-30 | 2018-07-10 | 北京国双科技有限公司 | Url去重方法及装置 |
-
2017
- 2017-04-06 CN CN201710222467.4A patent/CN108694184B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902780A (zh) * | 2012-09-28 | 2013-01-30 | 五八有限公司 | 一种统一资源定位符url动态匹配方法及装置 |
WO2014048241A1 (zh) * | 2012-09-29 | 2014-04-03 | 北京奇虎科技有限公司 | 一种浏览器及其进行域名解析的方法 |
CN104933056A (zh) * | 2014-03-18 | 2015-09-23 | 腾讯科技(深圳)有限公司 | 统一资源定位符去重方法及装置 |
CN108268508A (zh) * | 2016-12-30 | 2018-07-10 | 北京国双科技有限公司 | Url去重方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108694184A (zh) | 2018-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10043199B2 (en) | Method, device and system for publishing merchandise information | |
JP5449628B2 (ja) | マルチステージを使用したカテゴリ情報の決定 | |
CN108304410B (zh) | 一种异常访问页面的检测方法、装置及数据分析方法 | |
CN107679119B (zh) | 生成品牌衍生词的方法和装置 | |
CN108366058B (zh) | 防止广告运营商流量劫持的方法、装置、设备及存储介质 | |
CN110781372B (zh) | 一种优化网站的方法、装置、计算机设备及存储介质 | |
CN110717801A (zh) | 一种商品信息推送方法及装置 | |
CN107404486B (zh) | 解析Http数据的方法、装置、终端设备及存储介质 | |
US9330075B2 (en) | Method and apparatus for identifying garbage template article | |
CN105550179B (zh) | 一种网页收藏方法和浏览器插件 | |
CN111368227A (zh) | 一种url处理方法以及装置 | |
CN107193870B (zh) | 网页内容的提取方法和系统 | |
CN109144831B (zh) | 一种app识别规则的获取方法及装置 | |
CN108694184B (zh) | 曝光url处理方法及装置 | |
CN108494728B (zh) | 防止流量劫持的黑名单库创建方法、装置、设备及介质 | |
EP3564833B1 (en) | Method and device for identifying main picture in web page | |
CN107038053B (zh) | 一种加载网页图片的统计方法、装置及移动终端 | |
CN108241611B (zh) | 一种关键词提取方法以及提取设备 | |
CN112287201A (zh) | 对爬虫的请求去重的方法、装置、介质以及电子设备 | |
CN106897297B (zh) | 网站栏目间访问路径的确定方法及装置 | |
CN107784054B (zh) | 一种页面发布方法和装置 | |
CN114611039B (zh) | 异步加载规则的解析方法、装置、存储介质和电子设备 | |
CN106815196B (zh) | 软文展现次数统计方法和装置 | |
CN106815247B (zh) | 统一资源定位符获取方法及装置 | |
CN111683128A (zh) | 信息发送方法、装置、预判服务器和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |