CN106447370B - 广告物料数据网址验证方法和装置 - Google Patents

广告物料数据网址验证方法和装置 Download PDF

Info

Publication number
CN106447370B
CN106447370B CN201510484971.2A CN201510484971A CN106447370B CN 106447370 B CN106447370 B CN 106447370B CN 201510484971 A CN201510484971 A CN 201510484971A CN 106447370 B CN106447370 B CN 106447370B
Authority
CN
China
Prior art keywords
verification
websites
website
classification
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510484971.2A
Other languages
English (en)
Other versions
CN106447370A (zh
Inventor
潘青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510484971.2A priority Critical patent/CN106447370B/zh
Publication of CN106447370A publication Critical patent/CN106447370A/zh
Application granted granted Critical
Publication of CN106447370B publication Critical patent/CN106447370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种广告物料数据网址验证方法和装置,涉及广告技术领域。所述方法包括:获取各个未验证的广告物料数据的网址;针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类;对于各个第一分类,抽样选择N个网址进行验证。本发明取得了可以大大减少验证的数据量,并且在某个网址验证出现错误时,可以更精确的定位到相应分类,可以对较小数量该分类的网址再校验,再校验数据量小,效率高的有益效果。

Description

广告物料数据网址验证方法和装置
技术领域
本发明涉及广告技术领域,具体涉及一种广告物料数据网址验证方法和装置。
背景技术
对于广告平台,每个广告投放方都会在该广告平台注册一个广告账户,然后该商家可以在其客户端中登录广告平台,将其编辑好的各条广告物料数据上传至该广告平台中,该广告物料数据可以理解为包括广告内容,该广告内容文本、图片等的数据,还包括对应的URL(Uniform Resource Locator,统一资源定位符)。在实际应用中,广告平台为了保证上线后可以正常被访问,避免广告物料数据出现无法访问的情况,提高广告召回率,广告平台会对所有的上传的广告物料数据的网址进行验证。当广告物料数据网址验证为可连通之后,广告平台才会将该广告物料数据上线,使其可以被检索以及展示。
但是,实际应用中,广告平台接收的各个广告投放方上传的广告物料数据,其数据量可能在上亿条,而如果要对每个广告物料数据的网址均进行验证,其验证量太大,并且速度慢,效率低。
而如果按照广告物料数据的网址的所在的主域名进行验证,那么由于该主域名与主域名下的某些网址可能由于对应的文件位置或者参数的不同,使对主域名的验证结果不能完全代表其各个网址的验证结果,该种验证可能存在误差。并且如果主域名验证未通过,则需要逐个对该主域名下的各个网址逐个进行再次验证,其定位范围太广,导致再次验证的数据量也很庞大。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的广告物料数据网址验证装置和相应的广告物料数据网址验证方法。
依据本发明的一个方面,提供了一种广告物料数据网址验证方法,包括:
获取各个未验证的广告物料数据的网址;
针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类;
对于各个第一分类,抽样选择N个网址进行验证。
优选地,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类,包括:
对于只有路径信息的网址,将路径信息中虚拟目录信息相同的网址,聚为一个第一分类;
对于包括路径信息和参数信息的网址,将路径信息相同和参数信息中参数名相同的网址,聚为一个第一分类。
优选地,所述对于包括路径信息和参数信息的网址,将路径信息相同和参数信息中参数名相同的网址,聚为一个第一分类,包括:
针对各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率;
对于第一频率大于频率阈值的路径信息和参数名的组合,则将所述路径信息和参数名所在的网址聚为一个第一分类。
优选地,所述针对各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率,包括:
对于具备相同路径信息的各个网址,针对路径信息和参数信息进行归一化,并统计每个路径信息出现的第一个数;
对于归一化后的网址,统计各个参数名出现的第二个数;
判断所述第一个数是否大于第一支持度,以及所述第二个数是否大于第二支持度;
如果所述第一个数大于第一支持度,以及所述第二个数大于第二支持度,则结合频繁模式增长算法,计算各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率。
优选地,所述参数信息包括网址中的“?”字符之后的字符串,所述参数名包括“?”字符和“?”字符之后第一个“=”字符之间的字符串,或者“&”字符和“&”字符之后第一个“=”之间的字符串;
所述路径信息包括网址中的主域名之后第一个“/”字符和“?”字符之间的字符串。
优选地,所述对于各个第一分类,抽样选择N个网址进行验证,包括:
从各个第一分类中,抽样选择N个网址;
根据各个网址所对应的IP地址,将同一IP地址的网址分为一个验证分组;
对获得的各验证分组,循环对各个验证分组进行验证;其中,对每个验证分组进行验证时包括:从所述验证分组中未验证的网址中,选择指定个数的网址据进行验证。
优选地,所述对获得的各验证分组,循环对各个验证分组进行验证包括:
判断是否存在还未验证完毕的验证分组;
如果存在还未验证完毕的验证分组,则循环选择下一个未验证完毕的验证分组以进行验证;其中,最后一个验证分组的下一个验证分组为第一个验证分组;
如果不存在还未验证完毕的验证分组,则验证结束。
优选地,所述从所述验证分组中未验证的网址中,选择指定个数的网址据进行验证包括:
从未验证的网址中,逐个选择网址进行验证;
在每次选择网址后,如果选择的网址达到指定个数并且还存在未验证的网址,则转入对下一个验证分组的验证过程;
如果不存在未验证的网址,则将对应的验证分组退出循环过程,转入对下一个验证分组的验证过程。
优选地,所述将各个网址进行验证,包括:
在每个第一分类抽样的N个网址验证时,判断对所述N个网址的验证通过率是否达到预设的通过阈值;
如果对所述N个网址的验证通过率达到预设的通过阈值,则确定对相应第一分类的各网址验证通过;
如果对所述N个网址的验证通过率达未到预设的通过阈值,则重新对所述第一分类中的网址进行验证。
优选地,所述重新对所述第一分类中的网址进行验证包括:
对第一分类中再抽样M次进行验证,每次抽样N个网址;
根据每次对N个网址的验证通过率,计算M次的验证通过率平均值和方差;
如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则确定所述第一分类的各网址验证通过;
如果所述验证通过率平均未值达到阈值,和/或方差高于方差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。
依据本发明的另外一个方面,本发明公开了一种广告物料数据网址验证装置,包括:
获取模块,适于获取各个未验证的广告物料数据的网址;
分类模块,适于针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类;
抽样验证模块,适于对于各个第一分类验证模块,适于将各个网址进行验证。
优选地,所述分类模块包括:
第一分类模块,适于对于只有路径信息的网址,将路径信息中虚拟目录信息相同的网址,聚为一个第一分类;
第二分类模块,适于对于包括路径信息和参数信息的网址,将路径信息相同和参数信息中参数名相同的网址,聚为一个第一分类。
优选地,所述第三分类模块包括:
频率统计模块,适于针对各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率;
频率分类模块,适于对于第一频率大于频率阈值的路径信息和参数名的组合,则将所述路径信息和参数名所在的网址聚为一个第一分类。
优选地,所述频率统计模块包括:
归一化模块,适于对于具备相同路径信息的各个网址,针对路径信息和参数信息进行归一化,并统计每个路径信息出现的第一个数;
参数合并模块,适于对于归一化后的网址,统计各个参数名出现的第二个数;
支持度判断模块,适于判断所述第一个数是否大于第一支持度,以及所述第二个数是否大于第二支持度;
第一频率统计模块,适于如果所述第一个数大于第一支持度,以及所述第二个数大于第二支持度,则结合频繁模式增长算法,计算各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率。
优选地,所述参数信息包括网址中的“?”字符之后的字符串,所述参数名包括“?”字符和“?”字符之后第一个“=”字符之间的字符串,或者“&”字符和“&”字符之后第一个“=”之间的字符串;
所述路径信息包括网址中的主域名之后第一个“/”字符和“?”字符之间的字符串。
优选地,所述抽样验证模块包括:
抽样模块,适于从各个第一分类中,抽样选择N个网址;
分组模块,适于根据各个网址所对应的IP地址,将同一IP地址的网址分为一个验证分组;
循环验证模块,适于对获得的各验证分组,循环对各个验证分组进行验证;其中,对每个验证分组进行验证时包括:从所述验证分组中未验证的网址中,选择指定个数的网址据进行验证。
优选地,所述循环验证模块包括:
循环判断模块,适于判断是否存在还未验证完毕的验证分组;
循环选择模块,适于如果存在还未验证完毕的验证分组,则循环选择下一个未验证完毕的验证分组以进行验证;其中,最后一个验证分组的下一个验证分组为第一个验证分组;
结束模块,适于如果不存在还未验证完毕的验证分组,则验证结束。
优选地,所述循环验证模块包括:
逐个提取模块,适于从未验证的网址中,逐个选择网址进行验证;
第一转入判断模块,适于在每次选择网址后,如果选择的网址达到指定个数并且还存在未验证的网址,则转入对下一个验证分组的验证过程;
第二转入判断模块,适于如果不存在未验证的网址,则将对应的验证分组退出循环过程,转入对下一个验证分组的验证过程。
优选地,所述抽样验证模块包括:
分类验证判断模块,适于在每个第一分类抽样的N个网址验证时,判断对所述N个网址的验证通过率是否达到预设的通过阈值;
第一通过确认模块,适于如果对所述N个网址的验证通过率达到预设的通过阈值,则确定对相应第一分类的各网址验证通过;
第一重新验证模块,适于如果对所述N个网址的验证通过率达未到预设的通过阈值,则重新对所述第一分类中的网址进行验证。
优选地,所述第一重新验证模块包括:
再次抽样模块,适于对第一分类中再抽样M次进行验证,每次抽样N个网址;
通过计算模块,适于根据每次对N个网址的验证通过率,计算M次的验证通过率平均值和方差;
第二通过确认模块,适于如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则确定所述第一分类的各网址验证通过;
第二重新验证模块,适于如果所述验证通过率平均未值达到阈值,和/或方差高于方差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。
根据本发明的广告物料数据网址验证方法,可以通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类,然后从各个聚类结果中抽样N个网址,对各个网址进行验证。由此解决了对所有网址进行验证的数据量大、效率低的问题以及对于以主域名进行分类时,如果一个网址验证错误,无法快速定位其相对精确的位置的问题,取得了可以大大减少验证的数据量,并且在某个网址验证出现错误时,可以更精确的定位到相应分类,可以对较小数量该分类的网址再校验,再校验数据量小,效率高的有益效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种广告物料数据网址验证方法的流程示意图;
图2示出了根据本发明一个实施例的一种广告物料数据网址验证方法的流程示意图;
图2A示出了本发明实施例的IP验证分组示例;
图3示出了根据本发明一个实施例的一种广告物料数据网址验证方法的流程示意图;
图4示出了根据本发明一个实施例的一种广告物料数据网址验证装置的结构示意图;
图5示出了根据本发明一个实施例的一种广告物料数据网址验证装置的结构示意图;
图6示出了根据本发明一个实施例的一种广告物料数据网址验证装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例的核心思想之一在于,可以通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类,然后从各个聚类结果中抽样N个网址,对各个网址进行验证。由此解决了对所有网址进行验证的数据量大、效率低的问题以及对于以主域名进行分类时,如果一个网址验证错误,无法快速定位其相对精确的位置的问题,取得了可以大大减少验证的数据量,并且在某个网址验证出现错误时,可以更精确的定位到相应分类,可以对较小数量该分类的网址再校验,再校验数据量小,效率高的有益效果。
实施例一
参照图1,其示出了本发明实施例一种广告物料数据网址验证方法的流程示意图,具体可以包括:
步骤110,获取各个未验证的广告物料数据的网址;
本发明实施例应用于广告平台,该广告平台中可以接收各个广告投放方注册的广告账户,该广告投放方可以理解为商家。然后各个商家能通过该广告账户登录广告平台,在广告账户中上传广告物料数据。
其中,广告平台可以理解为广告服务器或者广告服务器集群。
其中,所述广告物料数据可以包括广告内容和URL,该广告内容可以包括文本、图片等数据。广告内容用于在客户端的网页中展示具体类容,URL用于在用户点击广告内容后引导网页跳转至目标网页。
对于用户新上传的广告物料数据,广告平台为了使广告物料数据上线之后,该广告物料数据被投放到客户端展示以后,当用户点击展示广告物料数据时可以正常跳转到相应URL的页面中,保证广告物料数据的有效性。因为,如果用户在客户端中点击该展示的广告物料数据之后,该广告物料数据的URL不能连通,则实际上该广告物料数据是无效的,对于用户来说浪费其时间和操作。
因此,广告平台需要首先对各个广告物料数据的网址进行连通性验证,该网址被验证为可以连通后,然后才能发布到线上。
在广告平台中,新上传的广告物料数据是存储在基础数据库中,该基础数据库存储未验证的广告物料数据。其存储时,还是以广告账户为数据库的主键进行存储的。当然,如果对于广告账户,用户在广告账户中设置了多个广告分组,然后在广告分组中上传广告物料数据,数据库则以广告账户为一级主键,广告组为下一级主键,存储广告物料数据。
那么,本发明实施例中,本发明实施例可以从上述基础数据库中提取各种未验证的广告物料数据的网址。提取时,是按照广告物料数据进行提取的,即有多少个广告物料数据,则提取多少个网址,网址的个数与广告物料数据的个数一一对应。并且,本发明实施例中,对于提取每个网址会记录其对应的广告物料数据。
步骤120,针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类;
对于广告物料数据的网址来说,以http://www.aspxfans.com/news/a.html?T=5&ID=2为例,其大致包括如下几个部分。
1.协议信息:该URL的协议部分为“http:”,这代表网页使用的是HTTP协议。在Internet中可以使用多种协议,如HTTP,FTP等等本例中使用的是HTTP协议。在"HTTP"后面的“//”为分隔符。
2.主域名信息:该URL的主域名部分为“www.aspxfans.com”。一个URL中,也可以使用IP地址作为域名使用。
3.虚拟目录信息:从域名后的第一个“/”开始到最后一个“/”为止,是虚拟目录部分。虚拟目录也不是一个URL必须的部分。本例中的虚拟目录是“/news/”。
4.文件名信息:从域名后的最后一个“/”开始到“?”为止,是文件名部分,如果没有“?”,则是从域名后的最后一个“/”开始到“#”为止,是文件部分,如果没有“?”和“#”,那么从域名后的最后一个“/”开始到结束,都是文件名部分。本例中的文件名是“a.html”。文件名部分也不是一个URL必须的部分,如果省略该部分,则使用默认的文件名。
5、参数信息:从“?”开始到“#”为止之间的部分为参数部分,如果没有“#”,则从“?”开始到结束都为参数部分。参数部分又称搜索部分、查询部分。本例中的参数部分为“T=5&ID=2”。参数可以允许有多个参数,参数与参数之间用“&”作为分隔符。其中,参数部分的每个“=”之前,“&”之后的部分为参数名,本例中参数名包括T、ID。
当然,实际应用中,URL也可以只包括1、2,或者只包括1、2、3、4,或者只包括1、2、3、4、5。
在本发明实施例中,对于广告物料数据对应的URL,可包括1、2、3、4、5的信息,或者1、2、3、4的信息。
本发明实施例的聚类是针对同一主域名下的所有网址,以这些网址的主域名之后的路径信息和/或参数信息,对各个网址进行聚类。
优选地,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类,包括:
子步骤121,对于只有路径信息的网址,将路径信息中虚拟目录信息相同的网址,聚为一个第一分类;
对于前述包括1、2、3、4类型信息的URL,比如http://www.aspxfans.com/news/a.html、http://www.aspxfans.com/news/mer.html、http://www.aspxfans.com/top/a.html、http://www.aspxfans.com/top/a.html等的网址,可以根据URL中主域名之后的参数信息中的参数名作为聚类标准,即“?”之后“=”之前,或者,比如http://www.aspxfans.com/news/a.html、http://www.aspxfans.com/news/mer.html中都有news,则该两个网址则可聚为一类。
当然,在实际应用中,可设置一个针对虚拟目录信息的个数阈值,当具有相同虚拟目录信息的URL的个数大于该个数阈值时,才进行聚类。该种方式,因为较少的URL,直接验证的时间与聚类后进行抽样检测的时间之间,并不相差太多,反而可以减少资源的占用。
和/或者子步骤122,对于包括路径信息和参数信息的网址,将路径信息相同和参数信息中参数名相同的网址,聚为一个第一分类。
对于前述包括1、2、3、4、5类型信息的URL,比如前述http://www.aspxfans.com/news/a.html?T=5&ID=2,可以从中获取路径信息“news/a.html”,和参数信息中的两个参数名“T”和“ID”。然后对路径信息相同和参数信息中参数名相同的网址进行聚类。
其中,参数信息为网址中的“?”字符之后的字符串,所述参数名包括“?”字符和“?”字符之后第一个“=”字符之间的字符串,如上述的“T”,或者“&”字符和“&”字符之后第一个“=”之间的字符串,如上述的“ID”。
路径信息为网址中的主域名之后第一个“/”字符和“?”字符之间的字符串,如上述的“news/a.html”。
对于URL来说,如果路径信息和参数名可能相同,而参数名的值可能不同,那么这些URL很可能属于同一个网站下处理相同业务的页面,其所在的应用环境和服务器相同的概率很大,因此可以对这些网址进行聚类,以待后续抽样检验,从而降低检验的数量。
对于前述包括1、2、3、4、5类型信息的URL中,有一种特殊类型,即其存在路径信息,但是该路径信息为空,因为主域名之后的“/”就指示了其路径信息,比如http://www.aspxfans.com/?T=5&ID=2、http://www.aspxfans.com/?T=15&ID=18、该种类型,其路径信息都是一样,可以不用理会,从而可以根据URL中主域名之后的“?”和“?”之后第一个“=”之间的参数名信息,作为聚类标准,比如http://www.aspxfans.com?T=5&ID=2、http://www.aspxfans.com?T=15&ID=18中都有参数名T和ID,则该两个网址则可聚为一类。
当然,在实际应用中,可设置一个针对参数名的个数阈值,当具有相同参数名的URL的个数大于该个数阈值时,才进行聚类。该种方式,因为较少的URL,直接验证的时间与聚类后进行抽样检测的时间之间,并不相差太多,反而可以减少资源的占用。
优选地,所述对于包括路径信息和参数信息的网址,将路径信息相同和参数信息中参数名相同的网址,聚为一个第一分类,包括:
子步骤A21,针对各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率;
子步骤A22,对于第一频率大于频率阈值的路径信息和参数名的组合,则将所述路径信息和参数名所在的网址聚为一个第一分类。
在本发明实施例中,对于路径信息和某个或者某几个参数名的组合,比如前述路径信息“news/a.html”,和两个参数名“T”和“ID”的组合,如果其在该主域名的网址下的出现频率太低,则聚类后,进行抽样检测以提高效率的效果低。本发明实施例则针对上述出现频率设置频率阈值,对于第一频率大于频率阈值的路径信息和参数名的组合,则将所述路径信息和参数名所在的网址聚为一个第一分类。
当然,实际应用中,本发明可以设置针对主域名的网址的最小个数,如果该主域名下的网址个数小于该最小个数,则不对该主域名下的网址进行上述聚类过程。反之,则进行上述聚类过程。
优选地,所述针对各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率,包括:
子步骤A211,对于具备相同路径信息的各个网址,针对路径信息和参数信息进行归一化,并统计每个路径信息出现的第一个数;
比如http://www.aspxfans.com/news/a.html?T=5&CD=10,http://www.aspxfans.com/news/a.html?CD=10&T=5,上述两个网址的参数信息在参数名一致,参数名的值也一致,路径信息一致,主域名也一致,协议名也一致,实际上该两个网址就是一个网址。因此可以对其进行归一化,然后再进行分类,可以降低计算量。
在归一化过程在,可以对参数名进行排序,然后将相同的参数名的参数值排列,得到的网址模板:
Figure GDA0003065958680000131
然后即可将其中同一个参数名在的相同的参数值合并,从而把网址归一化了。
子步骤A212,对于归一化后的网址,统计各个参数名出现的第二个数;
由于对所有网址都进行了归一化操作,那么对于归一化后的网址,统计各个参数名出现的第二个数。
子步骤A213,判断所述第一个数是否大于第一支持度,以及所述第二个数是否大于第二支持度;
子步骤A214,如果所述第一个数大于第一支持度,以及所述第二个数大于第二支持度,则结合频繁模式增长算法,计算各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率。
在本发明实施例中,对于路径信息相出现次数设置第一支持度,对参数名的出现次数设置第二支持度,只有当路径信息的出现次数和参数名出现次数达到或者超过相应的支持度之后,该路径信息和参数名的组合才具备聚类资格,降低第一分类的个数,降低资源耗用。因为对于小于支持度的组合来说,说明其同时出现的频率低,对应的网址的出现频率也低,无需进行分类和抽样的过程,也可快速验证,对该种网址的分类过程可能反而降低验证效率。
在本发明实施例中,对于第一个数大于第一支持度,以及所述第二个数大于第二支持度的情况,则可以利用FP-growth(频繁模式增长)算法,对(主路径信息、参数名)的组合进行提取,并记录每个组合的次数,在结合该主域名下的网址的总个数,即可计算各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率。
在本发明实施例中,将每个网址作为FP-growth算法的事务,将网址的路径信息、参数名作为该事务的项。那么本发明实施例实质上是通过FP-growth算法查找路径信息、参数名对应的频繁项集。
比如对于一个URL,其对事务列表如下表(一):
事务ID
URL1 a.html、T、H
URL2 a.html、T、O
URL3 a.html、H、T
URL4 a.html、H、Y
URL5 a.html、CD、H
URL6 a.html、CD、U
…… ……
表(一)
表(一)中URL1的路径信息为a.html,参数名为T、H,URL2的路径信息为a.html,参数名为T、O。其他类似。
通过前述子步骤A211-213之后,各个项的次数都已经统计完毕,并且也都筛选了大于支持度的项。如表(二):
出现次数
a.html 6
H 4
T 3
CD 2
U 1
O 1
Y 1
表(二)
假设对路径信息的第一支持度和第二支持度均为2,则去掉项U、O、Y。还剩表(三):
出现次数
a.html 6
T 4
H 4
CD 2
表(三)
下面以一种FP-growth算法,介绍上述频繁项集的计算过程:
1、把表(一)中的事务的项,按出现次数排序,如表(四):
事务ID
URL1 a.html、H、T
URL2 a.html、T
URL3 a.html、H、T
URL4 a.html、H
URL5 a.html、H、CD
URL6 a.html、CD
…… ……
表(四)
然后针对表(四)可以构建频繁树:
(1)创建根节点null;
(2)扫描第一条事务,可以URL1:a.html、H、T,可以构建频繁树第一个分支<(a.html,1),(H,1),(T,1)>。扫描第二个事务URL2:a.html、T,有项目<a.html、H>与分支<(a.html,1),(T,1)>共享路径,则树节点<a.html>计数加一得到(a.html,2),在树节点<a.html>下增加新的树节点(T,1)。扫描第三个事务URL3:a.html、H、T,与<(a.html,2),(H,1),(T,1)>共享路径,则树节点(a.html,2)、树节点(H,1)、树节点(T,1)计数加1,得到(a.html,3),(H,2),(T,2)。扫描第四个事务URL4:a.html、H,与<(a.html,3),(H,2)>共享路径,则树节点(a.html,3)、树节点(H,2)计数加1,得到(a.html,4),(H,3)。以此类推,构建了一个频繁树。
然后基于该频繁树,对于每个从频繁树的各个分支尾部挖掘频繁项集,可以逐个将各个频繁项集的出现次数统计出来。在实际应用中调用FP-Growth(Tree,x)函数输出各个频繁项集,其中Tree为频繁树,x为某条路径P中节点的每个组合。在上述频繁树中的示例中,x中包括了路径信息a.html。其为a.html与其他节点的组合。然后可结合所在主域名的网址的总个数计算该频繁项集的第一频率。在本发明实施例中,可以规定频繁项集的个数,比如2个,将所有第一频率大于频率阈值的频繁项集,每个频繁项集对应的网址聚为一类。比如上述示例中(a.html、H)的第一频率大于阈值,则将有路径信息a.html和参数名H的网址聚为一类。
当然,上述的频繁树可以只针对一个路径信息进行构建,然后频繁树只针对该路径信息下的参数名构建,采用类似上述原理,得到该路径信息下的各种参数组合的频繁项集的出现次数,然后可以计算其第一频率,对于大于第一频率的频繁项集,可以将该路径信息下的具有该频繁项集的参数组合的网址聚为一类。
上述示例,仅示出了使用FP-growth算法的一种计算方式,当然还可以采用其他方式,本发明不对其加以限制。采用FP-growth算法,可采用递归过程对频繁项集进行统计,效率快,遗漏小。
子步骤124,对于频繁次数大于阈值的频繁项集对应的网址分到一个第一分类。
每个频繁项集有统计次数,那么可以对该次数设置一个阈值,然后可对于频繁次数大于阈值的频繁项集对应的网址分到一个第一分类。
在本发明实施例,对于单个的网址,可以将其本身作为一个第一分类。
步骤130,对于各个第一分类,抽样选择N个网址进行验证;
那么对于得到的各个第一分类,可以从中抽样选择N个网址,抽样可以按多种规则抽样,比如按第一分类个数的总比例进行抽样,比如从该第一分类中抽样5%的网址。当然,抽样可以随机抽样,也可以每隔一定个数抽样。
在本发明实施例中,对于每个第一分类,会对其进行记录。然后由广告平台对这些网址进行连通性验证。
在本发明实施例中,URL的连通性验证,可以根据该URL发起HTTP(Hypertexttransfer protocol,超文本传送协议)请求,然后根据收到的针对该HTTP请求的HTTP响应判断是否连通,连通则验证通过,不连通则验证不通过。比如,HTTP响应的4XX系列,和5XX系列的响应都表示不连通,2XX系统的响应表示连通。
当前,在实际应用中,对于抽样的网址,会标识该网址属于哪个第一分类。当在验证过程中某个网址没有验证通过,则通过标识查找其属于的第一分类,如果找到其第一分类,说明该第一分类的网址可能还存在不能通过的网址,则将该第一分类的网址重新进行连通性验证,保证验证的准确率。
在本发明实施例中,对于未分类的单个的网址,可以将其本身作为第一分类,然后将其抽取。对于第一分类的个数小于N的分类,则全部抽取;对于分类个数大于N的第一分类,则抽取N个。在实际应用在第一分类的网址个数很庞大,比如10000条,本发明则可抽取其中的一部分,比如设置N为100。N可以根据实际需求设定。
在本发明实施例在,如果对于一个第一分类的网址,其验证通过率低于通过阈值,则需要对该第一分类重新验证,比如再次抽样N个进行验证或者逐个重新验证。
优选地,所述将各个网址进行验证,包括:
子步骤131,在每个第一分类抽样的N个网址验证时,判断对所述N个网址的验证通过率是否达到预设的通过阈值;
子步骤132,如果对所述N个网址的验证通过率达到预设的通过阈值,则确定对相应第一分类的各网址验证通过;
子步骤133,如果对所述N个网址的验证通过率达未到预设的通过阈值,则重新对所述第一分类中的网址进行验证。
比如,对于一个第一分类,抽样了100个URL进行验证。而预设的针对通过率的通过阈值为99%,即该100个URL中的要有99个通过。当然该通过率阈值也可以设置其他值,比如100%。本发明实施例不对其加以限制。
如果通过率达到该通过率阈值,则子步骤132确定对相应第一分类的各网址验证通过,不再验证该第一分类的URL。
如果通过率达未到该通过率阈值,则子步骤133重新对所述第一分类中的网址进行验证。
优选地,所述重新对所述第一分类中的网址进行验证包括:
子步骤1331,对第一分类中再抽样M次进行验证,每次抽样N个网址;
在本发明实施例中,如果第一次抽样的N个URL的验证未达到通过率阈值,则可重复进行多次验证。即再抽样M次进行M次验证,每次还从该第一分类中抽样N个URL。比如再抽样10次,进行10次验证。
子步骤1332,根据每次对N个网址的验证通过率,计算M次的验证通过率平均值和方差;
那么对于每次抽样的N个URL的验证,其对该N个验证完毕之后会有一个验证通过率。而M次验证则有M个验证通过率。
那么以该M次验证通过率为样本,计算M次验证的验证通过率平均值,进一步的可计算M次验证的方差。该方差越低表示波动越小,说明验证越稳定。
那么本发明实施例可以针对验证通过率平均值设置平均值阈值,针对方差设置方差阈值。
子步骤1333,如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则确定所述第一分类的各网址验证通过;
子步骤1334,如果所述验证通过率平均未值达到阈值,和/或方差高于方差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。
如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则说明对该第一分类的网址的验证可信,确定所述第一分类的各网址验证通过。
如果所述验证通过率平均未值达到阈值,或者方差低于方差阈值,或者验证通过率平均未值达到阈值和方差高于方差阈值,则对该第一分类的验证不通过,则需要对该第一分类的网址重新进行逐个验证。
本发明实施例可以通过对具备同一主域名的网址,针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类,然后从各个聚类结果中抽样N个网址,对各个网址进行验证。可以大大减少验证的数据量,并且在某个网址验证出现错误时,可以更精确的定位到相应分类,可以对较小数量该分类的网址再校验,再校验数据量小,效率高的有益效果。
实施例二
参照图2,其示出了本发明实施例一种广告物料数据网址验证方法的流程示意图,具体可以包括:
步骤210,获取各个未验证的广告物料数据的网址;
步骤220,针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类;
步骤230,从各个第一分类中,抽样选择N个网址;
步骤240,根据各个网址所对应的IP地址,将同一IP地址的网址分为一个验证分组;
在实际应用中,每个URL有对应的IP地址,那么本发明实施例可以根据URL对应的IP地址将各个广告物料数据的网址分组。也可以尽量将指向同一网站的广告物料数据的网址分到一个验证分组中。
优选地,步骤240所述的根据各个网址所对应的IP地址,将同一IP地址的网址分为一个验证分组包括:
子步骤241,根据各个广告物料数据的网址,获取所述网址对应的IP地址;
对于取所述网址对应的IP地址,可以通过如下步骤实现:
子步骤A11,针对每个URL,构建DNS请求;
子步骤A12,将DNS请求发送至DNS服务器;
子步骤A13,接收DNS服务器返回的IP地址,将该IP地址与URL进行对应。
任何一个URL,如果客户端想要访问该URL,那么均需要先通过DNS(Domain NameSystem,域名解析系)获取到其IP地址,然后才能发送具体的访问请求到该URL相应的服务器中,以获取URL的资源。
本发明实施例则由广告平台对每个URL构建DNS请求,然后向DNS服务器发送该DNS请求,即可从DNS服务器中获取到对应该URL的IP地址。
当然,本发明实施例中,对于没有获取到IP地址的URL,可以不对其进行分类。并且可以认为其连通性验证不通过,因为该URL的查找不到相应的IP地址,则无法访问该广告物料数据对应的URL,该URL对应的广告物料数据则不能上线。
子步骤242,将对应同一个IP地址的网址分为一个验证分组。
每个广告物料数据的网址有对应的IP地址,根据该IP地址对广告物料数据的网址进行分组。那么,同一个IP地址的广告物料数据的网址则分到同一个验证分组中。如图2A所示,验证分组为IP地址1、IP地址2等,验证分组“IP地址1”内,有URL11、URL12、URL13等,验证分组“IP地址2”内,有URL21、URL22等。
优选地,所述根据各个网址所对应的IP地址,将同一IP地址的网址分为一个验证分组,包括:
子步骤243,根据各个的网址中的主域名,将同一主域名的网址分为一个第一分组;
在本发明实施例中,各个第一分类都对应一个主域名,那么对于被分到一个第一分类中的网址,获取该分类对应的主域名即可。而对于未分类的网址,则可以判断是否已经提取了其同一主域名,如果提取了,则不用提取,如果未提取,再提取该网址的主域名。
然后,可以将具备同一个主域名的URL分到一个第一分组中,每个第一分组以相应的主域名进行标识。比如http://www.tuniu.com/guide/d-ouzhou-3600/、http://www.tuniu.com/g3600/tours-bj-0/、http://www.tuniu.com/g3600/pkg-sh-0/,这三个URL就可以分到www.tuniu.com的第一分组中。
子步骤244,根据每个主域名,获取对应所述主域名的IP地址;
那么对于上述第一分组,因为每个第一分组有一个主域名,那么可以获取该主域名的IP地址。
在实际应用中,可以针对该主域名构建一个DNS请求,然后将该DNS请求发送到DNS服务器,从DNS服务器获取相应的IP地址。
子步骤245,将对应同一个IP地址的各个第一分组合为一个验证分组。
在实际应用中,可能很多主域名指向同一个IP地址,那么本发明实施例则可以将同一个IP地址的第一分组,合并为同一个验证分组。
子步骤243-245,先将网址以主域名进行第一次分组,然后只对主域名获取IP地址,再以IP地址划分验证分组,可以减少IP地址的获取量,提高IP地址的获取速度,降低资源消耗。比如对于前述三个http://www.tuniu.com/guide/d-ouzhou-3600/、http://www.tuniu.com/g3600/tours-bj-0/、http://www.tuniu.com/g3600/pkg-sh-0/,如果直接获取IP地址则需要获取3次,而划分第一分组后,只需要获取www.tuniu.com的IP地址即可,如此只需要获取一次IP地址,减少了IP地址的获取次数。
在实际应用中,可能同一个广告投放方有多个IP地址,为了尽量使该广告投放的IP地址不在验证分组队列中连续存在,可以对各个IP地址的验证分组进行随机排序。
当然,在本发明实施例中,步骤240和步骤250可以在220之前,先对所有的网址分到验证分组中。再对每个验证分组中的同一主域名的网址进行分类。然后从该分类中抽样网址作为检测对象。该验证分组中就包括了未分类的网址和抽样的网址。
步骤250,对获得的各验证分组,循环对各个验证分组进行验证;其中,对每个验证分组进行验证时包括:从所述验证分组中未验证的网址中,选择指定个数的网址据进行验证。
比如有10个验证分组,从第1个分组开始进行验证,从该验证分组选择10个未验证广告物料数据的网址进行验证;然后进入第2个验证分组,从该验证分组中选择10个未验证的未验证广告物料数据的网址进行验证;以此类推,到第10个验证分组之后,再循环到第1个验证分组,继续循环,直到所有验证分组的未验证广告物料数据的网址验证完毕。
当前,如果在验证过程中,某个验证分组中的未验证的未验证广告物料数据的网址个数小于指定个数,则选择实际的个数进行验证。
在本发明实施例中,所述指定个数,可以根据需要进行设定。该指定个数的数量级很小,一般不超过百位数。从而可以快速的对各个验证分组进行一轮循环。
其中,对每个验证分组中各个网址进行验证,包括:
子步骤S251,在每个第一分类抽样的N个网址验证时,判断对所述N个网址的验证通过率是否达到预设的通过阈值;
子步骤S252,如果对所述N个网址的验证通过率达到预设的通过阈值,则确定对相应第一分类的各网址验证通过;
子步骤S253,如果对所述N个网址的验证通过率达未到预设的通过阈值,则重新对所述第一分类中的网址进行验证。
比如,对于一个第一分类,抽样了100个URL进行验证。而预设的针对通过率的通过阈值为99%,即该100个URL中的要有99个通过。当然该通过率阈值也可以设置其他值,比如100%。本发明实施例不对其加以限制。
如果通过率达到该通过率阈值,则子步骤132确定对相应第一分类的各网址验证通过,不再验证该第一分类的URL。
如果通过率达未到该通过率阈值,则子步骤133重新对所述第一分类中的网址进行验证。
优选地,所述重新对所述第一分类中的网址进行验证包括:
子步骤S2531,对第一分类中再抽样M次进行验证,每次抽样N个网址;
在本发明实施例中,如果第一次抽样的N个URL的验证未达到通过率阈值,则可重复进行多次验证。即再抽样M次进行M次验证,每次还从该第一分类中抽样N个URL。比如再抽样10次,进行10次验证。
子步骤S2532,根据每次对N个网址的验证通过率,计算M次的验证通过率平均值和方差;
那么对于每次抽样的N个URL的验证,其对该N个验证完毕之后会有一个验证通过率。而M次验证则有M个验证通过率。
那么以该M次验证通过率为样本,计算M次验证的验证通过率平均值,进一步的可计算M次验证的方差。该方差越低表示波动越小,说明验证越稳定。
那么本发明实施例可以针对验证通过率平均值设置平均值阈值,针对方差设置方差阈值。
子步骤S2533,如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则确定所述第一分类的各网址验证通过;
子步骤2534,如果所述验证通过率平均未值达到阈值,和/或方差高于方差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。
如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则说明对该第一分类的网址的验证可信,确定所述第一分类的各网址验证通过。
如果所述验证通过率平均未值达到阈值,或者方差低于方差阈值,或者验证通过率平均未值达到阈值和方差高于方差阈值,则对该第一分类的验证不通过,则需要对该第一分类的网址重新进行逐个验证。
在本发明实施例中,由于对于每个第一分类,需要根据其抽样的所有网址的验证结果,来判断是否需要对该第一分类进行重新验证,或者确定对所述第一分类不再验证。那么对于每次循环,在每个验证分组中记录验证的URL是哪个第一分类的,当某个第一分类的URL验证完毕,则进入步骤261进行判断。如果需要进行重新验证,则将该验证分组中该第一分类的网址删除,而将该第一分类中新的网址加入该验证分组,再继续进行循环验证。
当然,对于需要重新验证的第一分类,可以将其独立出来,单独对该第一分类进行验证,不再将其加入原来的验证分组中。
优选地,步骤250所述的对获得的各验证分组,循环对各个验证分组进行验证包括:
子步骤261,判断是否存在还未验证完毕的验证分组;如果存在还未验证完毕的验证分组,则进入步骤262;如果不存在还未验证完毕的验证分组,则进入步骤263;
子步骤262,循环选择下一个未验证完毕的验证分组以进行验证;其中,最后一个验证分组的下一个验证分组为第一个验证分组;
子步骤263,验证结束。
在本发明实施例中,对于各验证分组,可以先判断是否存在未验证完毕的验证分组。其中,所述未验证完毕表示该验证分组中还有未验证的网址;如果该验证分组的所有网址都验证过了,则表示对该验证分组验证完毕。
其中,当对一网址的验证未通过,则查找与所述网址对应的主域名的验证结果;如果所述验证结果表示验证通过,则确认所述网址的验证通过。
在实际应用中,在验证过程中,对于一个验证分组,会对其进行是否验证完毕的标记,比如0表示未验证完毕,1表示验证完毕。
对于初始情况下,每个验证分组都存在未验证的网址,因而每个验证分组都被标记为0,则从第一个验证分组开始验证。在对每个验证分组进行验证时,从所述验证分组中未验证的网址中,选择指定个数的网址进行验证。
对一个验证分组进行验证后,如果该验证分组还存在未验证的网址,则不改变0,如果不存在未验证的网址,则将0改变为1。
如此,在循环中,每次对一个验证分组的指定个数的网址验证完之后,可转入子步骤261,判断是否存在还未验证完毕的验证分组。当然,在初始情况下,即第一次验证第一个验证分组之前,不用判断是否存在还未验证完毕的验证分组。
优选地,所述从所述验证分组中未验证的网址中,选择指定个数的网址据进行验证包括:
子步骤264,从未验证的网址中,逐个选择网址进行验证;
在本发明实施例中,对于每个验证分组,其未验证的广告物料数据的网址是按序排列的,可以理解为各个网址形成一个网址队列。
本发明实施例在对每个验证分组进行验证时,则逐个从该网址队列中提取网址进行验证。比如,对于验证分组A,如果其有100条未验证网址,假使指定个数为10。第一次循环到该验证分组时,则提取1-10条网址进行验证,第二次循环到该验证分组时,则提取11-20条网址进行验证。其他情况以此类推。
其中,对每个URL进行验证时包括:
子步骤B11,判断所述对所述网址的验证是否通过:如果对所述网址的验证未通过,则进入子步骤B12;
如果对所述网址的验证通过,则进入子步骤265。
子步骤B12,查找与所述网址对应的主域名的验证结果,并判断所述验证结果是否表示验证通过;如果所述验证结果表示验证通过,则进入子步骤B13;
子步骤B13,确认所述网址的验证通过。
子步骤B13之后,即可进入子步骤265。
子步骤265,在每次选择网址后,如果选择的网址达到指定个数并且还存在未验证的网址,则转入对下一个验证分组的验证过程;
对于一个验证分组,由于设定了每次对该验证分组进行验证时,最多只能选择指定个数的未验证的网址进行验证。那么当步骤264中,逐个提取网址进行验证时,会记录提取的个数,当提取的个数达到指定个数,则会判断最后提取的网址之后是否还有未验证的网址,如果有,则说明剩余的网址需要等待后续轮次的验证。
比如前述例子,验证分组A,如果其有100条未验证网址,其相当于1-100的队列。假使指定个数为10时。第一次循环到该验证分组后,从该队列中逐个提取网址,当提取到第10个,发现还有第11个,则转入对下一个验证分组的验证过程,比如验证分组队列中,下一个验证分组为验证分组B,则切换到对验证分组B的验证。
其中,在每次选择网址后,还包括:
子步骤2651,在每个第一分类抽样的N个网址验证时,判断对所述N个网址的验证通过率是否达到预设的通过阈值;
即每个网址被验证后,判断其所在的第一分类的所抽样的N个网址是否验证完毕,如果验证完毕,则计算验证通过率,判断对所述N个网址的验证通过率是否达到预设的通过阈值。
子步骤2652,如果对所述N个网址的验证通过率达到预设的通过阈值,则确定对相应第一分类的各网址验证通过;
子步骤2653,如果对所述N个网址的验证通过率达未到预设的通过阈值,则重新对所述第一分类中的网址进行验证。
比如,对于一个第一分类,抽样了100个URL进行验证。而预设的针对通过率的通过阈值为99%,即该100个URL中的要有99个通过。当然该通过率阈值也可以设置其他值,比如100%。本发明实施例不对其加以限制。
如果通过率达到该通过率阈值,则子步骤132确定对相应第一分类的各网址验证通过,不再验证该第一分类的URL。
如果通过率达未到该通过率阈值,则子步骤133重新对所述第一分类中的网址进行验证。
优选地,所述重新对所述第一分类中的网址进行验证包括:
子步骤P11,对第一分类中再抽样M次进行验证,每次抽样N个网址;
在本发明实施例中,如果第一次抽样的N个URL的验证未达到通过率阈值,则可重复进行多次验证。即再抽样M次进行M次验证,每次还从该第一分类中抽样N个URL。比如再抽样10次,进行10次验证。
子步骤P12,根据每次对N个网址的验证通过率,计算M次的验证通过率平均值和方差;
那么对于每次抽样的N个URL的验证,其对该N个验证完毕之后会有一个验证通过率。而M次验证则有M个验证通过率。
那么以该M次验证通过率为样本,计算M次验证的验证通过率平均值,进一步的可计算M次验证的方差。该方差越低表示波动越小,说明验证越稳定。
那么本发明实施例可以针对验证通过率平均值设置平均值阈值,针对方差设置方差阈值。
子步骤P13,如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则确定所述第一分类的各网址验证通过;
子步骤2634,如果所述验证通过率平均未值达到阈值,和/或方差高于方差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。
如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则说明对该第一分类的网址的验证可信,确定所述第一分类的各网址验证通过。
如果所述验证通过率平均未值达到阈值,或者方差低于方差阈值,或者验证通过率平均未值达到阈值和方差高于方差阈值,则对该第一分类的验证不通过,则需要对该第一分类的网址重新进行逐个验证。
在本发明实施例中,由于对于每个第一分类,需要根据其抽样的所有网址的验证结果,来判断是否需要对该第一分类进行重新验证,或者确定对所述第一分类不再验证。那么对于每次循环,在每个验证分组中记录验证的URL是哪个第一分类的,当某个第一分类的URL验证完毕,则进入步骤261进行判断。如果需要进行重新验证,则将该验证分组中该第一分类的网址删除,而将该第一分类中新的网址加入该验证分组,再继续进行循环验证。
当然,对于需要重新验证的第一分类,可以将其独立出来,单独对该第一分类进行验证,不再将其加入原来的验证分组中。
子步骤266,如果不存在未验证的网址,则将对应的验证分组退出循环过程,转入对下一个验证分组的验证过程。
比如前述例子,验证分组A,第10次循环到该验证分组后,从该队列中的91个开始,逐个提取网址,当提取到第100个,发现没有第101个,则表示该验证分组验证完毕,可以将该验证分组退出循环过程,同时,转入对下一个验证分组的验证过程。
又比如,假使验证分组A有98个未验证网址,指定个数为10。从该队列中的91个开始,逐个提取网址,当提取到第98个,发现没有第99个,只提取了8个,也没达到指定个数10,但是该验证分组A的所有网址也验证完毕,则可以将该验证分组退出循环过程同时,转入对下一个验证分组的验证过程。
可以理解,子步骤266中无论是否达到指定个数,即选择的网址个数小于或者等于指定个数,当该验证分组的网址验证完毕,将该验证分组退出循环过程同时,转入对下一个验证分组的验证过程。
其中,将验证分组退出循环过程,比如将该验证分组退出验证分组队列比如原来有A、B、C、D的验证分组队列,验证分组A验证完毕,其退出循环过程,则验证分组队列为B、C、D。同时,切换到对验证分组B的验证。那么后续的验证则在B、C、D验证分组队列中继续循环。如此,验证分组队列的个数越来越少,减少对验证分组的遍历。
优选地,所述从所述验证分组中未验证的网址中,选择指定个数的网址据进行验证。包括:
子步骤267,在第一时间长度内,从所述验证分组中未验证的网址中,选择指定个数的广告物料数据的网址进行验证。
本发明实施例可以设置每次循环到一个验证分组时,对该验证分组的验证时间的长度限制,即所述第一时间长度,同时对该验证分组的验证的网址个数,即指定个数。比如,假设第一时间长度为5秒,指定个数为10个,循环到验证分组A时,对该验证分组的验证时间在5秒之内验证的网址个数不能超过10词。由于每验证一个网址均要向该网址的服务器发送一次验证请求。因此,上述方式可保证对同一个IP地址的验证请求的发送次数可以不触发该IP地址的防火墙限制。
因此,本步骤可以在该服务器封禁访问IP的时间和数量的规定之下,对该服务器的URL进行验证,从而避免由于服务器对广告平台IP的封禁,导致广告物料数据的URL被误判为验证不通过的情况,避免本来可以正常上线的广告物料数据无法上线。
在本发明实施例中,对于验证通过的网址,广告平台会将其该网址对应的广告物料数据上线。然后商家即可从网络中查找到该广告物料数据,该广告物料数据也可投放个各个客户端。
本实施例与实施例一类似的步骤原理类似,在此不再详述。
本发明实施例可以根据广告物料数据的网址所对应的IP地址对各个网址进行分组,得到各个验证分组,每个验证分组包括了一系列的广告物料数据的网址;然后每次针对一个验证分组的部分网址(比如10个网址)进行验证,该验证分组的该部分网址验证完毕之后,则转入下一个验证分组;在下一个验证分组中,对下一个验证分组的部分网址进行验证,该部分网址验证完毕之后,则转入下一个验证分组;以此类推,到最后一个验证分组验证完毕之后,则再循环到第一个,如此循环,直到所有验证分组的不存在未验证的网址。
相对于在先技术中,按照广告账户提取广告物料数据的网址,然后直接按照提取顺序进行排序,导致同一个广告账户的广告物料数据的网址在一起,使验证时,当某个广告账户的对于广告物料数据的数据量特别庞大时,排序在该广告账户之后的广告账户,其广告物料数据的网址则需要等待很长时间才能开始验证。尤其是在一个广告投放方在广告平台中的多个广告账户中上传了大量的广告物料数据的情况下,对于排序在这这些广告账户之后的广告账户,其广告物料数据的网址等待验证的时间更长,相应的广告投放方需要非常长时间才能开始看到有广告物料数据上线。在以各个广告投放方位单位的验证队列中,在先技术的执行过程相当于数据量较大的广告账户完全堵塞了队列,影响后续数据量较小的广告账户的验证。
本发明实施例可以使各个广告账户的广告物料数据的网址可以有部分的快速验证,从而可以有部分的快速上线,使各个广告账户等待上线的时间缩短,并且对于广告验证是数量缩小。对于各个广告账户而言,其可以及时看到上线的广告物料数据。特别是对于广告物料数据的数据量交小的广告账户,较少轮次的循环即可将其广告物料数据的网址全部验证完毕,对于各个广告账户来说,从整体上来说,降低了广告账户等待验证的时间,使验证时间分散到了各个广告账户中,从而提高了广告物料数据的上线速度。本发明实施例可以提高广告平台的公平性和友好性,提高了广告平台的用户体验。
并且,本发明实施例可以通过对具备同一主域名的网址,针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类,然后从各个聚类结果中抽样N个网址,对各个网址进行验证。可以大大减少验证的数据量,并且在某个网址验证出现错误时,可以更精确的定位到相应分类,可以对较小数量该分类的网址再校验,再校验数据量小,效率高的有益效果。
实施例三
参照图3,其示出了本发明实施例一种广告物料数据网址验证方法的流程示意图,具体可以包括:
步骤312,获取各个未验证的广告物料数据的网址;
步骤314,针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类;
步骤316,对于各个第一分类,抽样选择N个网址;
步骤318,根据各个网址所对应的IP地址,将同一IP地址的网址分为一个验证分组。
对于步骤310-318,与实施例二相应步骤原理类似,在此不再赘叙。
步骤320,判断是否存在还未验证完毕的验证分组;如果存在还未验证完毕的验证分组,则进入步骤322;如果不存在还未验证完毕的验证分组,则进入步骤336。
步骤322,循环选择下一个未验证完毕的验证分组;其中,最后一个验证分组的下一个验证分组为第一个验证分组;
步骤324,从所述验证分组的未验证的网址中,逐个选择网址进行验证;
步骤326,针对每个广告物料数据的网址,判断所述网址的验证是否通过;如果验证未通过,则进入步骤328;如果验证通过,则进入步骤332;
步骤328,查找与所述网址对应的主域名的验证结果,并判断所述验证结果是否表示验证通过;如果所述验证结果表示验证通过,则进入步骤330;如果所述验证结果表示验证未通过,则进入步骤332;
步骤330,确认所述网址的验证通过。
步骤332,在每次选择网址后,判断当前选择的网址的个数是否达到指定个数,以及是否存在未验证的网址;如果选择的网址达到指定个数并且还存在未验证的网址,则进入步骤320;如果不存在未验证的网址,则进入步骤334;
如果未达到指定个数,且存在未验证网址,则步骤324继续验证。
其中,在每次选择网址后,还包括:
子步骤3241,在每个第一分类抽样的N个网址验证时,判断对所述N个网址的验证通过率是否达到预设的通过阈值;
即每个网址被验证后,判断其所在的第一分类的所抽样的N个网址是否验证完毕,如果验证完毕,则计算验证通过率,判断对所述N个网址的验证通过率是否达到预设的通过阈值。
子步骤3242,如果对所述N个网址的验证通过率达到预设的通过阈值,则确定对相应第一分类的各网址验证通过;
子步骤3243,如果对所述N个网址的验证通过率达未到预设的通过阈值,则重新对所述第一分类中的网址进行验证。
比如,对于一个第一分类,抽样了100个URL进行验证。而预设的针对通过率的通过阈值为99%,即该100个URL中的要有99个通过。当然该通过率阈值也可以设置其他值,比如100%。本发明实施例不对其加以限制。
如果通过率达到该通过率阈值,则子步骤132确定对相应第一分类的各网址验证通过,不再验证该第一分类的URL。
如果通过率达未到该通过率阈值,则子步骤133重新对所述第一分类中的网址进行验证。
优选地,所述重新对所述第一分类中的网址进行验证包括:
子步骤P31,对第一分类中再抽样M次进行验证,每次抽样N个网址;
在本发明实施例中,如果第一次抽样的N个URL的验证未达到通过率阈值,则可重复进行多次验证。即再抽样M次进行M次验证,每次还从该第一分类中抽样N个URL。比如再抽样10次,进行10次验证。
子步骤P32,根据每次对N个网址的验证通过率,计算M次的验证通过率平均值和方差;
那么对于每次抽样的N个URL的验证,其对该N个验证完毕之后会有一个验证通过率。而M次验证则有M个验证通过率。
那么以该M次验证通过率为样本,计算M次验证的验证通过率平均值,进一步的可计算M次验证的方差。该方差越低表示波动越小,说明验证越稳定。
那么本发明实施例可以针对验证通过率平均值设置平均值阈值,针对方差设置方差阈值。
子步骤P33,如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则确定所述第一分类的各网址验证通过;
子步骤P34,如果所述验证通过率平均未值达到阈值,和/或方差高于方差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。
如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则说明对该第一分类的网址的验证可信,确定所述第一分类的各网址验证通过。
如果所述验证通过率平均未值达到阈值,或者方差低于方差阈值,或者验证通过率平均未值达到阈值和方差高于方差阈值,则对该第一分类的验证不通过,则需要对该第一分类的网址重新进行逐个验证。
在本发明实施例中,由于对于每个第一分类,需要根据其抽样的所有网址的验证结果,来判断是否需要对该第一分类进行重新验证,或者确定对所述第一分类不再验证。那么对于每次循环,在每个验证分组中记录验证的URL是哪个第一分类的,当某个第一分类的URL验证完毕,则进入步骤261进行判断。如果需要进行重新验证,则将该验证分组中该第一分类的网址删除,而将该第一分类中新的网址加入该验证分组,再继续进行循环验证。
当然,对于需要重新验证的第一分类,可以将其独立出来,单独对该第一分类进行验证,不再将其加入原来的验证分组中。
步骤334,将对应的验证分组退出循环过程,进入步骤320。
步骤336,结束验证。
对于步骤320至步骤336的循环过程,下面以一个示例进行描述:
比如步骤318得到验证分组队列:IP地址1、IP地址2、IP地址3。其中:
IP地址1中按序有80个未验证URL。
IP地址2中按序有60个未验证URL。
IP地址3中按序有35个未验证URL。
指定个数为10。
第一轮循环:初始情况下,步骤320判断存在未验证完毕的验证分组IP地址1、IP地址2、IP地址3。则步骤322按序选择第一个验证分组:IP地址1。步骤322中,逐个从IP地址1中提取1-10的URL进行验证。
其中,对每个URL验证时,当该URL验证通过则进入步骤332;当该URL验证不通过,则进入步骤328。步骤328查找与所述网址对应的主域名的验证结果,并判断所述验证结果是否表示验证通过;如果所述主域名的验证结果表示验证通过,则进入步骤330,确认所述网址的验证通过进入步骤332。如果所述主域名的验证结果表示未通过,则直接进入步骤332。
在步骤332中,当提取到第10个时,发现第10个不是最后一个网址,则转入步骤320。
步骤320继续判断存在未验证完毕的验证分组:IP地址1、IP地址2、IP地址3。则步骤322选择下一个验证分组:IP地址2。步骤324中,逐个从IP地址2中提取1-10的网址进行验证。然后经过步骤326-328的步骤。进入步骤332之后,当提取到第10个时,发现第10个不是最后一个网址,则转入步骤320。
步骤320继续判断存在未验证完毕的验证分组:IP地址1、IP地址2、IP地址3。则步骤322选择下一个验证分组:IP地址3。步骤324中,逐个从IP地址3中提取1-10的网址进行验证,然后经过步骤326-328的步骤。进入步骤332之后,当提取到第10个时,发现第10个不是最后一个网址,则转入步骤320。此时IP地址3是验证分组队列的最后一个,则其下一个验证分组则为IP地址1。进入第二轮循环。
按上述原理类推,进入到第四轮循环后,循环到IP地址3,在步骤332中,当提取到第35个时,发现第35个是最后一个网址,则将对应的验证分组退出循环过程,转入步骤320。步骤320判断存在未验证完毕的验证分组:IP地址1、IP地址2。进入第五轮循环。
进入第六轮循环后,循环到IP地址2,在步骤332中,当提取到第60个时,发现第60个是最后一个网址,则将对应的验证分组退出循环过程,转入步骤320。步骤320判断存在未验证完毕的验证分组:IP地址1。进入第七轮循环。
然后就一直对该IP地址1进行验证,直到循环完毕,进入步骤336。
本发明实施例与实施例一、二类似的步骤原理类似,在此不再赘叙。
本发明实施例可以使各个广告账户的广告物料数据的网址可以有部分的快速验证,从而可以有部分的快速上线,使各个广告账户等待上线的时间缩短,并且对于广告验证是数量缩小。对于各个广告账户而言,其可以及时看到上线的广告物料数据。特别是对于广告物料数据的数据量交小的广告账户,较少轮次的循环即可将其广告物料数据的网址全部验证完毕,对于各个广告账户来说,从整体上来说,降低了广告账户等待验证的时间,使验证时间分散到了各个广告账户中,从而提高了广告物料数据的上线速度。本发明实施例可以提高广告平台的公平性和友好性,提高了广告平台的用户体验。
并且,本发明实施例可以通过对具备同一主域名的网址,针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类,然后从各个聚类结果中抽样N个网址,对各个网址进行验证。可以大大减少验证的数据量,并且在某个网址验证出现错误时,可以更精确的定位到相应分类,可以对较小数量该分类的网址再校验,再校验数据量小,效率高的有益效果。
实施例四
参照图4,其示出了本发明实施例一种广告物料数据网址验证装置的结构示意图,具体可以包括:
获取模块410,适于获取各个未验证的广告物料数据的网址;
分类模块420,适于针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类;
抽样验证模块430,适于对于各个第一分类,抽样选择N个网址进行验证。
优选地,所述分类模块包括:
第一分类模块,适于对于只有路径信息的网址,将路径信息中虚拟目录信息相同的网址,聚为一个第一分类;
第二分类模块,适于对于包括路径信息和参数信息的网址,将路径信息相同和参数信息中参数名相同的网址,聚为一个第一分类。
优选地,所述第三分类模块包括:
频率统计模块,适于针对各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率;
频率分类模块,适于对于第一频率大于频率阈值的路径信息和参数名的组合,则将所述路径信息和参数名所在的网址聚为一个第一分类。
优选地,所述频率统计模块包括:
归一化模块,适于对于具备相同路径信息的各个网址,针对路径信息和参数信息进行归一化,并统计每个路径信息出现的第一个数;
参数合并模块,适于对于归一化后的网址,统计各个参数名出现的第二个数;
支持度判断模块,适于判断所述第一个数是否大于第一支持度,以及所述第二个数是否大于第二支持度;
第一频率统计模块,适于如果所述第一个数大于第一支持度,以及所述第二个数大于第二支持度,则结合频繁模式增长算法,计算各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率。
优选地,所述参数信息包括网址中的“?”字符之后的字符串,所述参数名包括“?”字符和“?”字符之后第一个“=”字符之间的字符串,或者“&”字符和“&”字符之后第一个“=”之间的字符串;
所述路径信息包括网址中的主域名之后第一个“/”字符和“?”字符之间的字符串。
优选地,所述抽样验证模块包括:
抽样模块,适于从各个第一分类中,抽样选择N个网址;
分组模块,适于根据各个网址所对应的IP地址,将同一IP地址的网址分为一个验证分组;
循环验证模块,适于对获得的各验证分组,循环对各个验证分组进行验证;其中,对每个验证分组进行验证时包括:从所述验证分组中未验证的网址中,选择指定个数的网址据进行验证。
优选地,所述循环验证模块包括:
循环判断模块,适于判断是否存在还未验证完毕的验证分组;
循环选择模块,适于如果存在还未验证完毕的验证分组,则循环选择下一个未验证完毕的验证分组以进行验证;其中,最后一个验证分组的下一个验证分组为第一个验证分组;
结束模块,适于如果不存在还未验证完毕的验证分组,则验证结束。
优选地,所述循环验证模块包括:
逐个提取模块,适于从未验证的网址中,逐个选择网址进行验证;
第一转入判断模块,适于在每次选择网址后,如果选择的网址达到指定个数并且还存在未验证的网址,则转入对下一个验证分组的验证过程;
第二转入判断模块,适于如果不存在未验证的网址,则将对应的验证分组退出循环过程,转入对下一个验证分组的验证过程。
优选地,所述抽样验证模块包括:
分类验证判断模块,适于在每个第一分类抽样的N个网址验证时,判断对所述N个网址的验证通过率是否达到预设的通过阈值;
第一通过确认模块,适于如果对所述N个网址的验证通过率达到预设的通过阈值,则确定对相应第一分类的各网址验证通过;
第一重新验证模块,适于如果对所述N个网址的验证通过率达未到预设的通过阈值,则重新对所述第一分类中的网址进行验证。
优选地,所述第一重新验证模块包括:
再次抽样模块,适于对第一分类中再抽样M次进行验证,每次抽样N个网址;
通过计算模块,适于根据每次对N个网址的验证通过率,计算M次的验证通过率平均值和方差;
第二通过确认模块,适于如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则确定所述第一分类的各网址验证通过;
第二重新验证模块,适于如果所述验证通过率平均未值达到阈值,和/或方差高于方差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。
实施例五
参照图5,其示出了本发明实施例一种广告物料数据网址验证装置的结构示意图,具体可以包括:
获取模块520,适于获取各个未验证的广告物料数据的网址;
分类模块530,适于针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类;
抽样验证模块530,具体包括:
抽样模块531,适于对于各个第一分类,抽样选择N个网址;
IP分组模块532,适于根据各个网址所对应的IP地址,将同一IP地址的网址分为一个验证分组;
循环验证模块533,适于对获得的各验证分组,循环对各个验证分组进行验证;其中,对每个验证分组进行验证时包括:从所述验证分组中未验证的网址中,选择指定个数的网址据进行验证。
优选地,所述循环验证模块包括:
验证分组判断模块,适于判断是否存在还未验证完毕的验证分组;
循环选择模块,适于如果存在还未验证完毕的验证分组,则循环选择下一个未验证完毕的验证分组以进行验证;其中,最后一个验证分组的下一个验证分组为第一个验证分组;
结束模块,适于如果不存在还未验证完毕的验证分组,则验证结束。
优选地,所述循环验证模块包括:
逐个验证模块,适于从未验证的广告物料数据中,逐个选择广告物料数据进行验证;
转入判断模块,适于在每次选择广告物料数据之后,如果选择的广告物料数据达到指定个数并且还存在未验证的广告物料数据,则转入对下一个验证分组的验证过程;
退出模块,适于如果不存在未验证的广告物料数据,则将对应的验证分组退出循环过程,转入对下一个验证分组的验证过程。
优选地,所述IP分组模块包括:
IP地址获取模块,适于根据各个广告物料数据的网址,获取所述网址对应的IP地址;
第一IP分组模块,适于将对应同一个IP地址的网址分为一个验证分组。
优选地,所述IP分组模块包括:
主域名分组模块,适于根据各个的网址中的主域名,将同一主域名的网址分为一个第一分组;
主域名IP获取模块,适于根据每个主域名,获取对应所述主域名的IP地址;
第二IP分组模块,适于将对应同一个IP地址的各个第一分组合为一个验证分组。
优选地,所述抽样验证模块包括:
分类验证判断模块,适于在每个第一分类抽样的N个网址验证时,判断对所述N个网址的验证通过率是否达到预设的通过阈值;
第一通过确认模块,适于如果对所述N个网址的验证通过率达到预设的通过阈值,则确定对相应第一分类的各网址验证通过;
第一重新验证模块,适于如果对所述N个网址的验证通过率达未到预设的通过阈值,则重新对所述第一分类中的网址进行验证。
优选地,所述第一重新验证模块包括:
再次抽样模块,适于对第一分类中再抽样M次进行验证,每次抽样N个网址;
通过计算模块,适于根据每次对N个网址的验证通过率,计算M次的验证通过率平均值和方差;
第二通过确认模块,适于如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则确定所述第一分类的各网址验证通过;
第二重新验证模块,适于如果所述验证通过率平均未值达到阈值,和/或方差高于方差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。
实施例六
参照图6,其示出了本发明实施例一种广告物料数据网址验证装置的结构示意图,具体可以包括:
获取模块610,适于获取各个未验证的广告物料数据的网址;
分类模块620,适于针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类;
抽样验证模块630,具体包括:
抽样模块631,适于对于各个第一分类,抽样选择N个网址;
IP分组模块632,适于根据各个网址所对应的IP地址,将同一IP地址的网址分为一个验证分组;
循环验证模块633,具体包括:
验证分组判断模块6331,适于判断是否存在还未验证完毕的验证分组;如果存在还未验证完毕的验证分组,则进入循环选择模块6332;如果不存在还未验证完毕的验证分组,则进入结束模块6336。
循环选择模块6332,适于循环选择下一个未验证完毕的验证分组以进行验证;其中,最后一个验证分组的下一个验证分组为第一个验证分组;
逐个验证模块6333,适于从未验证的广告物料数据中,逐个选择广告物料数据进行验证;
转入判断模块6334,适于在每次选择广告物料数据之后,判断当前选择的广告物料数据的个数是否达到指定个数,以及是否存在未验证的广告物料数据;如果选择的广告物料数据达到指定个数并且还存在未验证的广告物料数据,则进入验证分组判断模块6331;如果不存在未验证的广告物料数据,则进入退出模块6335;
退出模块6335,适于将对应的验证分组退出循环过程,进入验证分组判断模块6331。
结束模块6336,适于如果不存在还未验证完毕的验证分组,则验证结束。
优选地,所述抽样验证模块包括:
分类验证判断模块,适于在每个第一分类抽样的N个网址验证时,判断对所述N个网址的验证通过率是否达到预设的通过阈值;
第一通过确认模块,适于如果对所述N个网址的验证通过率达到预设的通过阈值,则确定对相应第一分类的各网址验证通过;
第一重新验证模块,适于如果对所述N个网址的验证通过率达未到预设的通过阈值,则重新对所述第一分类中的网址进行验证。
优选地,所述第一重新验证模块包括:
再次抽样模块,适于对第一分类中再抽样M次进行验证,每次抽样N个网址;
通过计算模块,适于根据每次对N个网址的验证通过率,计算M次的验证通过率平均值和方差;
第二通过确认模块,适于如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则确定所述第一分类的各网址验证通过;
第二重新验证模块,适于如果所述验证通过率平均未值达到阈值,和/或方差高于方差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的广告物料数据网址验证设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了A1、一种广告物料数据网址验证方法,包括:
获取各个未验证的广告物料数据的网址;
针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类;
对于各个第一分类,抽样选择N个网址进行验证。
A2、根据A1所述的方法,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类,包括:
对于只有路径信息的网址,将路径信息中虚拟目录信息相同的网址,聚为一个第一分类;
对于包括路径信息和参数信息的网址,将路径信息相同和参数信息中参数名相同的网址,聚为一个第一分类。
A3、根据A2所述的方法,所述对于包括路径信息和参数信息的网址,将路径信息相同和参数信息中参数名相同的网址,聚为一个第一分类,包括:
针对各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率;
对于第一频率大于频率阈值的路径信息和参数名的组合,则将所述路径信息和参数名所在的网址聚为一个第一分类。
A4、根据A3所述的方法,所述针对各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率,包括:
对于具备相同路径信息的各个网址,针对路径信息和参数信息进行归一化,并统计每个路径信息出现的第一个数;
对于归一化后的网址,统计各个参数名出现的第二个数;
判断所述第一个数是否大于第一支持度,以及所述第二个数是否大于第二支持度;
如果所述第一个数大于第一支持度,以及所述第二个数大于第二支持度,则结合频繁模式增长算法,计算各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率。
A5、根据A2所述的方法,所述参数信息包括网址中的“?”字符之后的字符串,所述参数名包括“?”字符和“?”字符之后第一个“=”字符之间的字符串,或者“&”字符和“&”字符之后第一个“=”之间的字符串;
所述路径信息包括网址中的主域名之后第一个“/”字符和“?”字符之间的字符串。
A6、根据A1所述的方法,所述对于各个第一分类,抽样选择N个网址进行验证,包括:
从各个第一分类中,抽样选择N个网址;
根据各个网址所对应的IP地址,将同一IP地址的网址分为一个验证分组;
对获得的各验证分组,循环对各个验证分组进行验证;其中,对每个验证分组进行验证时包括:从所述验证分组中未验证的网址中,选择指定个数的网址据进行验证。
A7、根据A6所述的方法,所述对获得的各验证分组,循环对各个验证分组进行验证包括:
判断是否存在还未验证完毕的验证分组;
如果存在还未验证完毕的验证分组,则循环选择下一个未验证完毕的验证分组以进行验证;其中,最后一个验证分组的下一个验证分组为第一个验证分组;
如果不存在还未验证完毕的验证分组,则验证结束。
A8、根据A6或A7所述的方法,所述从所述验证分组中未验证的网址中,选择指定个数的网址据进行验证包括:
从未验证的网址中,逐个选择网址进行验证;
在每次选择网址后,如果选择的网址达到指定个数并且还存在未验证的网址,则转入对下一个验证分组的验证过程;
如果不存在未验证的网址,则将对应的验证分组退出循环过程,转入对下一个验证分组的验证过程。
A9、根据A1所述的方法,所述将各个网址进行验证,包括:
在每个第一分类抽样的N个网址验证时,判断对所述N个网址的验证通过率是否达到预设的通过阈值;
如果对所述N个网址的验证通过率达到预设的通过阈值,则确定对相应第一分类的各网址验证通过;
如果对所述N个网址的验证通过率达未到预设的通过阈值,则重新对所述第一分类中的网址进行验证。
A10、根据A9所述的方法,所述重新对所述第一分类中的网址进行验证包括:
对第一分类中再抽样M次进行验证,每次抽样N个网址;
根据每次对N个网址的验证通过率,计算M次的验证通过率平均值和方差;
如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则确定所述第一分类的各网址验证通过;
如果所述验证通过率平均未值达到阈值,和/或方差高于方差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。
本发明公开了B11、一种广告物料数据网址验证装置,包括:
获取模块,适于获取各个未验证的广告物料数据的网址;
分类模块,适于针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类;
抽样验证模块,适于对于各个第一分类验证模块,适于将各个网址进行验证。
B12、根据B11所述的装置,所述分类模块包括:
第一分类模块,适于对于只有路径信息的网址,将路径信息中虚拟目录信息相同的网址,聚为一个第一分类;
第二分类模块,适于对于包括路径信息和参数信息的网址,将路径信息相同和参数信息中参数名相同的网址,聚为一个第一分类。
B13、根据B12所述的装置,所述第三分类模块包括:
频率统计模块,适于针对各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率;
频率分类模块,适于对于第一频率大于频率阈值的路径信息和参数名的组合,则将所述路径信息和参数名所在的网址聚为一个第一分类。
B14、根据B12所述的装置,所述频率统计模块包括:
归一化模块,适于对于具备相同路径信息的各个网址,针对路径信息和参数信息进行归一化,并统计每个路径信息出现的第一个数;
参数合并模块,适于对于归一化后的网址,统计各个参数名出现的第二个数;
支持度判断模块,适于判断所述第一个数是否大于第一支持度,以及所述第二个数是否大于第二支持度;
第一频率统计模块,适于如果所述第一个数大于第一支持度,以及所述第二个数大于第二支持度,则结合频繁模式增长算法,计算各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率。
B15、根据B12所述的装置,所述参数信息包括网址中的“?”字符之后的字符串,所述参数名包括“?”字符和“?”字符之后第一个“=”字符之间的字符串,或者“&”字符和“&”字符之后第一个“=”之间的字符串;
所述路径信息包括网址中的主域名之后第一个“/”字符和“?”字符之间的字符串。
B16、根据B11所述的装置,所述抽样验证模块包括:
抽样模块,适于从各个第一分类中,抽样选择N个网址;
分组模块,适于根据各个网址所对应的IP地址,将同一IP地址的网址分为一个验证分组;
循环验证模块,适于对获得的各验证分组,循环对各个验证分组进行验证;其中,对每个验证分组进行验证时包括:从所述验证分组中未验证的网址中,选择指定个数的网址据进行验证。
B17、根据B16所述的装置,所述循环验证模块包括:
循环判断模块,适于判断是否存在还未验证完毕的验证分组;
循环选择模块,适于如果存在还未验证完毕的验证分组,则循环选择下一个未验证完毕的验证分组以进行验证;其中,最后一个验证分组的下一个验证分组为第一个验证分组;
结束模块,适于如果不存在还未验证完毕的验证分组,则验证结束。
B18、根据B16或B17所述的装置,所述循环验证模块包括:
逐个提取模块,适于从未验证的网址中,逐个选择网址进行验证;
第一转入判断模块,适于在每次选择网址后,如果选择的网址达到指定个数并且还存在未验证的网址,则转入对下一个验证分组的验证过程;
第二转入判断模块,适于如果不存在未验证的网址,则将对应的验证分组退出循环过程,转入对下一个验证分组的验证过程。
B19、根据B11所述的装置,所述抽样验证模块包括:
分类验证判断模块,适于在每个第一分类抽样的N个网址验证时,判断对所述N个网址的验证通过率是否达到预设的通过阈值;
第一通过确认模块,适于如果对所述N个网址的验证通过率达到预设的通过阈值,则确定对相应第一分类的各网址验证通过;
第一重新验证模块,适于如果对所述N个网址的验证通过率达未到预设的通过阈值,则重新对所述第一分类中的网址进行验证。
B20、根据B21所述的装置,所述第一重新验证模块包括:
再次抽样模块,适于对第一分类中再抽样M次进行验证,每次抽样N个网址;
通过计算模块,适于根据每次对N个网址的验证通过率,计算M次的验证通过率平均值和方差;
第二通过确认模块,适于如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则确定所述第一分类的各网址验证通过;
第二重新验证模块,适于如果所述验证通过率平均未值达到阈值,和/或方差高于方差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。

Claims (16)

1.一种广告物料数据网址验证方法,包括:
获取各个未验证的广告物料数据的网址;
针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类,包括:对于包括路径信息和参数信息的网址,将路径信息相同和参数信息中参数名相同的网址,聚为一个第一分类;
所述对于包括路径信息和参数信息的网址,将路径信息相同和参数信息中参数名相同的网址,聚为一个第一分类,包括:针对各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率,对于第一频率大于频率阈值的路径信息和参数名的组合,则将所述路径信息和参数名所在的网址聚为一个第一分类;
所述针对各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率,包括:对于具备相同路径信息的各个网址,针对路径信息和参数信息进行归一化,并统计每个路径信息出现的第一个数,对于归一化后的网址,统计各个参数名出现的第二个数,判断所述第一个数是否大于第一支持度,以及所述第二个数是否大于第二支持度,如果所述第一个数大于第一支持度,以及所述第二个数大于第二支持度,则结合频繁模式增长算法,计算各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率;
对于各个第一分类,抽样选择N个网址进行验证。
2.根据权利要求1所述的方法,其特征在于,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类,还包括:
对于只有路径信息的网址,将路径信息中虚拟目录信息相同的网址,聚为一个第一分类。
3.根据权利要求2所述的方法,其特征在于:
所述参数信息包括网址中的“?”字符之后的字符串,所述参数名包括“?”字符和“?”字符之后第一个“=”字符之间的字符串,或者“&”字符和“&”字符之后第一个“=”之间的字符串;
所述路径信息包括网址中的主域名之后第一个“/”字符和“?”字符之间的字符串。
4.根据权利要求1所述的方法,其特征在于,所述对于各个第一分类,抽样选择N个网址进行验证,包括:
从各个第一分类中,抽样选择N个网址;
根据各个网址所对应的IP地址,将同一IP地址的网址分为一个验证分组;
对获得的各验证分组,循环对各个验证分组进行验证;其中,对每个验证分组进行验证时包括:从所述验证分组中未验证的网址中,选择指定个数的网址据进行验证。
5.根据权利要求4所述的方法,其特征在于,所述对获得的各验证分组,循环对各个验证分组进行验证包括:
判断是否存在还未验证完毕的验证分组;
如果存在还未验证完毕的验证分组,则循环选择下一个未验证完毕的验证分组以进行验证;其中,最后一个验证分组的下一个验证分组为第一个验证分组;
如果不存在还未验证完毕的验证分组,则验证结束。
6.根据权利要求4或5所述的方法,其特征在于,所述从所述验证分组中未验证的网址中,选择指定个数的网址据进行验证包括:
从未验证的网址中,逐个选择网址进行验证;
在每次选择网址后,如果选择的网址达到指定个数并且还存在未验证的网址,则转入对下一个验证分组的验证过程;
如果不存在未验证的网址,则将对应的验证分组退出循环过程,转入对下一个验证分组的验证过程。
7.根据权利要求1所述的方法,其特征在于,所述对于各个第一分类,抽样选择N个网址进行验证,包括:
在每个第一分类抽样的N个网址验证时,判断对所述N个网址的验证通过率是否达到预设的通过阈值;
如果对所述N个网址的验证通过率达到预设的通过阈值,则确定对相应第一分类的各网址验证通过;
如果对所述N个网址的验证通过率达未到预设的通过阈值,则重新对所述第一分类中的网址进行验证。
8.根据权利要求7所述的方法,其特征在于,所述重新对所述第一分类中的网址进行验证包括:
对第一分类中再抽样M次进行验证,每次抽样N个网址;
根据每次对N个网址的验证通过率,计算M次的验证通过率平均值和方差;
如果所述验证通过率平均值达到平均阈值,且方差低于方差阈值,则确定所述第一分类的各网址验证通过;
如果所述验证通过率平均未值达到阈值,和/或方差高于方差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。
9.一种广告物料数据网址验证装置,包括:
获取模块,适于获取各个未验证的广告物料数据的网址;
分类模块,适于针对具备同一主域名的网址,通过由网址构建规则从各网址的主域名之后提取的路径信息和/或参数信息,对各个网址进行聚类,获得各第一分类;
所述分类模块包括:第二分类模块,适于对于包括路径信息和参数信息的网址,将路径信息相同和参数信息中参数名相同的网址,聚为一个第一分类;
所述第二分类模块包括:频率统计模块,适于针对各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率;
频率分类模块,适于第一频率大于频率阈值的路径信息和参数名的组合,则将所述路径信息和参数名所在的网址聚为一个第一分类;
所述频率统计模块包括:归一化模块,适于对于具备相同路径信息的各个网址,针对路径信息和参数信息进行归一化,并统计每个路径信息出现的第一个数;
参数合并模块,适于对于归一化后的网址,统计各个参数名出现的第二个数;
支持度判断模块,适于判断所述第一个数是否大于第一支持度,以及所述第二个数是否大于第二支持度;
第一频率统计模块,适于如果所述第一个数大于第一支持度,以及所述第二个数大于第二支持度,则结合频繁模式增长算法,计算各路径信息和各参数名的组合,同时在所述主域名的各网址中出现的第一频率;
抽样验证模块,适于对于各个第一分类验证模块,适于将各个网址进行验证。
10.根据权利要求9所述的装置,其特征在于,所述分类模块还包括:
第一分类模块,适于对于只有路径信息的网址,将路径信息中虚拟目录信息相同的网址,聚为一个第一分类。
11.根据权利要求10所述的装置,其特征在于:
所述参数信息包括网址中的“?”字符之后的字符串,所述参数名包括“?”字符和“?”字符之后第一个“=”字符之间的字符串,或者“&”字符和“&”字符之后第一个“=”之间的字符串;
所述路径信息包括网址中的主域名之后第一个“/”字符和“?”字符之间的字符串。
12.根据权利要求9所述的装置,其特征在于,所述抽样验证模块包括:
抽样模块,适于从各个第一分类中,抽样选择N个网址;
分组模块,适于根据各个网址所对应的IP地址,将同一IP地址的网址分为一个验证分组;
循环验证模块,适于对获得的各验证分组,循环对各个验证分组进行验证;其中,对每个验证分组进行验证时包括:从所述验证分组中未验证的网址中,选择指定个数的网址据进行验证。
13.根据权利要求12所述的装置,其特征在于,所述循环验证模块包括:
循环判断模块,适于判断是否存在还未验证完毕的验证分组;
循环选择模块,适于如果存在还未验证完毕的验证分组,则循环选择下一个未验证完毕的验证分组以进行验证;其中,最后一个验证分组的下一个验证分组为第一个验证分组;
结束模块,适于如果不存在还未验证完毕的验证分组,则验证结束。
14.根据权利要求12或13所述的装置,其特征在于,所述循环验证模块包括:
逐个提取模块,适于从未验证的网址中,逐个选择网址进行验证;
第一转入判断模块,适于在每次选择网址后,如果选择的网址达到指定个数并且还存在未验证的网址,则转入对下一个验证分组的验证过程;
第二转入判断模块,适于如果不存在未验证的网址,则将对应的验证分组退出循环过程,转入对下一个验证分组的验证过程。
15.根据权利要求9所述的装置,其特征在于,所述抽样验证模块包括:
分类验证判断模块,适于在每个第一分类抽样的N个网址验证时,判断对所述N个网址的验证通过率是否达到预设的通过阈值;
第一通过确认模块,适于如果对所述N个网址的验证通过率达到预设的通过阈值,则确定对相应第一分类的各网址验证通过;
第一重新验证模块,适于如果对所述N个网址的验证通过率达未到预设的通过阈值,则重新对所述第一分类中的网址进行验证。
16.根据权利要求15所述的装置,其特征在于,所述第一重新验证模块包括:
再次抽样模块,适于对第一分类中再抽样M次进行验证,每次抽样N个网址;
通过计算模块,适于根据每次对N个网址的验证通过率,计算M次的验证通过率平均值和方差;
第二通过确认模块,适于如果所述验证通过率平均值达到平均阈值,且
方差低于方差阈值,则确定所述第一分类的各网址验证通过;
第二重新验证模块,适于如果所述验证通过率平均未值达到阈值,和/或方差高于方差阈值,则对于所述第一分类的各个网址,重新进行逐个验证。
CN201510484971.2A 2015-08-07 2015-08-07 广告物料数据网址验证方法和装置 Active CN106447370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510484971.2A CN106447370B (zh) 2015-08-07 2015-08-07 广告物料数据网址验证方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510484971.2A CN106447370B (zh) 2015-08-07 2015-08-07 广告物料数据网址验证方法和装置

Publications (2)

Publication Number Publication Date
CN106447370A CN106447370A (zh) 2017-02-22
CN106447370B true CN106447370B (zh) 2021-08-20

Family

ID=58093868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510484971.2A Active CN106447370B (zh) 2015-08-07 2015-08-07 广告物料数据网址验证方法和装置

Country Status (1)

Country Link
CN (1) CN106447370B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114020992B (zh) * 2021-11-09 2022-10-14 北京百度网讯科技有限公司 页面封禁方法、装置、系统、客户端和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7676465B2 (en) * 2006-07-05 2010-03-09 Yahoo! Inc. Techniques for clustering structurally similar web pages based on page features
US8768926B2 (en) * 2010-01-05 2014-07-01 Yahoo! Inc. Techniques for categorizing web pages
CN103077250B (zh) * 2013-01-28 2016-06-29 人民搜索网络股份公司 一种网页内容抓取方法及装置
CN103823753B (zh) * 2014-01-22 2017-01-11 浙江大学 一种面向网页内容无障碍检测的网页抽样方法

Also Published As

Publication number Publication date
CN106447370A (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
CN103685307B (zh) 基于特征库检测钓鱼欺诈网页的方法及系统、客户端、服务器
CN110020062B (zh) 一种可定制的网络爬虫方法及系统
CN107239701B (zh) 识别恶意网站的方法及装置
WO2017113677A1 (zh) 处理用户行为数据的方法和系统
WO2018001078A1 (zh) 一种url匹配方法、装置及存储介质
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
CN104143008B (zh) 基于图片匹配检测钓鱼网页的方法及装置
CN110830564A (zh) Cdn调度方法、装置、系统及计算机可读存储介质
CN103530336B (zh) 统一资源定位符url中无效参数的识别设备及方法
CN106776901B (zh) 数据提取方法、装置及系统
CN110399546B (zh) 基于网络爬虫的链接去重方法、装置、设备及存储介质
CN112131507A (zh) 网站内容处理方法、装置、服务器和计算机可读存储介质
CN104679798B (zh) 网页检测方法及装置
CN109729044A (zh) 一种通用的互联网数据采集反反爬系统及方法
CN109412972A (zh) 一种数据排序方法、装置及节点服务器
CN104219230A (zh) 识别恶意网站的方法及装置
CN103530337B (zh) 识别统一资源定位符url中无效参数的设备及方法
CN114650176A (zh) 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN109145179B (zh) 一种爬虫行为检测方法及装置
CN107526748B (zh) 一种识别用户点击行为的方法和设备
CN105187439A (zh) 钓鱼网站检测方法及装置
CN106447370B (zh) 广告物料数据网址验证方法和装置
CN110413861B (zh) 基于网络爬虫的链接提取方法、装置、设备及存储介质
US8601578B1 (en) Identifying potentially suspicious business listings for moderation
CN108171053B (zh) 一种规则发现的方法以及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240116

Address after: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: Room 112, block D, No. 28, Xinjiekou outer street, Xicheng District, Beijing 100088 (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right