CN113641911B - 广告拦截规则库的建立方法、装置、设备及存储介质 - Google Patents
广告拦截规则库的建立方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113641911B CN113641911B CN202110957095.6A CN202110957095A CN113641911B CN 113641911 B CN113641911 B CN 113641911B CN 202110957095 A CN202110957095 A CN 202110957095A CN 113641911 B CN113641911 B CN 113641911B
- Authority
- CN
- China
- Prior art keywords
- url
- sample
- urls
- classification
- classification reference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 111
- 238000012216 screening Methods 0.000 claims description 94
- 238000012545 processing Methods 0.000 claims description 42
- 238000009877 rendering Methods 0.000 claims description 33
- 230000009471 action Effects 0.000 claims description 30
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 description 58
- 230000007717 exclusion Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供了一种广告拦截规则库的建立方法、装置、设备及存储介质,其中方法包括:获取多个样本统一资源定位符URL,对样本URL进行分类,得到多个第一类别,第一类别中包括第一分类基准URL;从多个第一类别中,得到各个问题URL;对问题URL进行分类,得到多个第二类别,第二类别中包括第二分类基准URL;根据第一分类基准URL和第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库;广告拦截规则用于拦截相应域名所对应的页面中的广告资源。利用本实施例中建立的广告拦截规则库,能够高效且准确地拦截广告。
Description
技术领域
本文件涉及计算机技术领域,尤其涉及一种广告拦截规则库的建立方法、装置、设备及存储介质。
背景技术
目前,拦截广告普遍采用的方式是对用户所访问的页面内的每个资源进行分析,筛选出广告资源,再进行拦截,然而上述方法需要对用户所访问的页面内的每个资源均进行分析,具有耗费系统资源多且运算时间长的问题,导致网页打开缓慢,极大地影响了用户的使用体验。由此可见,现有广告拦截技术存在广告拦截效率低的缺点。
发明内容
本说明书一个实施例的目的是提供一种广告拦截规则库的建立方法、装置、设备及存储介质,能够准确高效的拦截页面中的广告资源。
为达到上述技术目的,本说明书一个实施例是这样实现的:
第一方面,本说明书一个实施例提供了一种广告拦截规则库的建立方法,包括:
获取多个样本统一资源定位符URL和所述样本URL的特征信息,根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别;所述第一类别中包括第一分类基准URL,所述第一类别中的样本URL的特征信息与所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息相匹配;
按照预设的问题URL选取规则,在各个所述第一类别中确定问题类别,汇总所述问题类别中的样本URL,得到各个问题URL;
根据所述问题URL的特征信息和第二预设特征模式,对所述问题URL进行分类,得到多个第二类别;所述第二类别中包括第二分类基准URL,所述第二类别中的问题URL的特征信息与所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息相匹配;
根据所述第一分类基准URL和所述第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库;所述广告拦截规则库包括所述第一分类基准URL的域名、所述第二分类基准URL的域名以及每个域名对应的广告拦截规则;所述广告拦截规则用于拦截相应域名所对应的页面中的广告资源。
第二方面,本说明书另一个实施例提供了一种广告拦截规则库的建立装置,包括:
第一分类模块,用于获取多个样本统一资源定位符URL和所述样本URL的特征信息,根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别;所述第一类别中包括第一分类基准URL,所述第一类别中的样本URL的特征信息与所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息相匹配;
问题选取模块,用于按照预设的问题URL选取规则,在各个所述第一类别中确定问题类别,汇总所述问题类别中的样本URL,得到各个问题URL;
第二分类模块,用于根据所述问题URL的特征信息和第二预设特征模式,对所述问题URL进行分类,得到多个第二类别;所述第二类别中包括第二分类基准URL,所述第二类别中的问题URL的特征信息与所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息相匹配;
规则库建立模块,用于根据所述第一分类基准URL和所述第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库;所述广告拦截规则库包括所述第一分类基准URL的域名、所述第二分类基准URL的域名以及每个域名对应的广告拦截规则;所述广告拦截规则用于拦截相应域名所对应的页面中的广告资源。
第三方面,本说明书又一个实施例提供了一种广告拦截规则库的建立设备,包括:
处理器;以及被安排成存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器:
获取多个样本统一资源定位符URL和所述样本URL的特征信息,根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别;所述第一类别中包括第一分类基准URL,所述第一类别中的样本URL的特征信息与所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息相匹配;
按照预设的问题URL选取规则,在各个所述第一类别中确定问题类别,汇总所述问题类别中的样本URL,得到各个问题URL;
根据所述问题URL的特征信息和第二预设特征模式,对所述问题URL进行分类,得到多个第二类别;所述第二类别中包括第二分类基准URL,所述第二类别中的问题URL的特征信息与所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息相匹配;
根据所述第一分类基准URL和所述第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库;所述广告拦截规则库包括所述第一分类基准URL的域名、所述第二分类基准URL的域名以及每个域名对应的广告拦截规则;所述广告拦截规则用于拦截相应域名所对应的页面中的广告资源。
第四方面,本说明书再一个实施例提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下方法:
获取多个样本统一资源定位符URL和所述样本URL的特征信息,根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别;所述第一类别中包括第一分类基准URL,所述第一类别中的样本URL的特征信息与所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息相匹配;
按照预设的问题URL选取规则,在各个所述第一类别中确定问题类别,汇总所述问题类别中的样本URL,得到各个问题URL;
根据所述问题URL的特征信息和第二预设特征模式,对所述问题URL进行分类,得到多个第二类别;所述第二类别中包括第二分类基准URL,所述第二类别中的问题URL的特征信息与所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息相匹配;
根据所述第一分类基准URL和所述第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库;所述广告拦截规则库包括所述第一分类基准URL的域名、所述第二分类基准URL的域名以及每个域名对应的广告拦截规则;所述广告拦截规则用于拦截相应域名所对应的页面中的广告资源。
本说明书一个或多个实施例提供的广告拦截规则库的建立方法、装置、设备和存储介质,获取多个样本统一资源定位符URL,对样本URL进行分类,得到多个第一类别,第一类别中包括第一分类基准URL;从多个第一类别中,得到各个问题URL;对问题URL进行分类,得到多个第二类别,第二类别中包括第二分类基准URL;根据第一分类基准URL和第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库;广告拦截规则用于拦截相应域名所对应的页面中的广告资源。可见,相比于现有技术,利用本实施例建立的广告拦截规则库进行广告拦截,能够避免对用户所访问的页面内的每个资源进行分析,只需要利用域名查询,即可获取该域名对应的广告拦截规则,可见,利用本实施例建立的广告拦截规则库,能够高效且准确地拦截广告。
附图说明
图1为本说明书一实施例提供的广告拦截规则库的建立方法流程示意图;
图2为本说明书一实施例提供的并行渲染URL流程示意图;
图3为本说明书另一实施例提供的广告拦截规则库的建立方法流程示意图;
图4为本说明书一实施例提供的广告拦截规则库的建立装置示意图;
图5为本说明书一实施例提供的广告拦截规则库的建立设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本文件中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述。
图1为本说明书一实施例提供的广告拦截规则库的建立方法流程示意图,该方法可以由服务器执行,如图1所示,该流程包括:
步骤S102,获取多个样本统一资源定位符URL和样本URL的特征信息,根据样本URL的特征信息和第一预设特征模式,对样本URL进行分类,得到多个第一类别;第一类别中包括第一分类基准URL,第一类别中的样本URL的特征信息与第一分类基准URL在第一预设特征模式下的第一特征模式信息相匹配;
步骤S104,按照预设的问题URL选取规则,在各个第一类别中确定问题类别,汇总问题类别中的样本URL,得到各个问题URL;
步骤S106,根据问题URL的特征信息和第二预设特征模式,对问题URL进行分类,得到多个第二类别;第二类别中包括第二分类基准URL,第二类别中的问题URL的特征信息与第二分类基准URL在第二预设特征模式下的第二特征模式信息相匹配;
步骤S108,根据第一分类基准URL和第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库;广告拦截规则库包括第一分类基准URL的域名、第二分类基准URL的域名以及每个域名对应的广告拦截规则;广告拦截规则用于拦截相应域名所对应的页面中的广告资源。
本实施例中,获取多个样本统一资源定位符URL,对样本URL进行分类,得到多个第一类别,第一类别中包括第一分类基准URL;从多个第一类别中,得到各个问题URL;对问题URL进行分类,得到多个第二类别,第二类别中包括第二分类基准URL;根据第一分类基准URL和第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库;广告拦截规则用于拦截相应域名所对应的页面中的广告资源。可见,相比于现有技术,利用本实施例建立的广告拦截规则库进行广告拦截,能够避免对用户所访问的页面内的每个资源进行分析,只需要利用域名查询,即可获取该域名对应的广告拦截规则,可见,利用本实施例建立的广告拦截规则库,能够高效且准确地拦截广告。
上述步骤S102中,获取多个URL(样本统一资源定位符,uniform resourcelocator)和样本URL的特征信息。具体过程为:
(a1)获取历史请求进行广告拦截的多个URL,根据多个URL确定样本URL;
(a2)对样本URL进行解析,获得样本URL的特征信息;其中,特征信息包括:URL域名、URL长度、站内路径、参数名、参数值、路径深度、参数个数、参数排序中的至少一项。
上述动作(a1)中,获取历史请求进行广告拦截的多个URL,根据多个URL确定样本URL。本实施例中,服务端接收并记录客户端的广告拦截请求中包含的URL,被记录的URL即为历史请求进行广告拦截的URL,根据URL的字符串进行过滤,过滤掉重复的URL,使得重复的URL只保留一个,将剩余的URL作为样本URL。
上述动作(a2)中,对样本URL进行解析,获得样本URL的特征信息;其中,特征信息包括:URL域名、URL长度、站内路径、参数名、参数值、路径深度、参数个数、参数排序中的至少一项。上述URL域名可以为二级域名,URL长度为URL的字符串长度。
在一个实施例中,获取样本URL的特征信息后,根据参数名,将URL的参数部分按照字符串排序规则重新排序,上述字符串排序规则可以是UCA(统一码排序算法,UnicodeCollation Algorithm),举例如下:一个样本URL的参数部分为“title=news&action=list&page=5”,排序后的URL参数部分为“action=list&page=5&title=news”。
本实施例中,在上述步骤S102中,根据样本URL的特征信息和第一预设特征模式,对样本URL进行分类,得到多个第一类别之前,还对样本URL进行了筛选,具体过程如下:
(b1)获取预设的URL筛选条件;URL筛选条件包括URL长度筛选条件、路径深度筛选条件、参数个数筛选条件中的至少一项;
(b2)根据URL筛选条件和样本URL的特征信息,对样本URL进行筛选;
上述动作(b1)中,获取预设的URL筛选条件;URL筛选条件包括URL长度筛选条件、路径深度筛选条件、参数个数筛选条件中的至少一项。URL长度筛选条件、路径深度筛选条件、参数个数筛选条件可以是取值区间,URL长度筛选条件可以是URL长度取值区间,当样本URL的长度在上述URL长度取值区间之内,则判断该样本URL符合筛选条件,URL的路径深度筛选条件可以是URL路径深度的取值区间,当样本URL的路径深度在上述URL深度取值区间之内,则判断该样本URL符合筛选条件,URL的参数个数筛选条件可以是URL参数个数的取值区间,当样本URL的参数个数位于上述URL参数个数的取值区间内,则判断该样本URL符合筛选条件。
在一个实施例中,确定URL长度筛选条件、路径深度筛选条件、参数个数筛选条件的具体过程为:根据经验,确定URL长度筛选条件、路径深度筛选条件、参数个数筛选条件,利用上述筛选条件,对样本URL进行筛选,统计筛选后,符合筛选条件的样本URL在所有样本URL中所占的比例,如果所占比例符合预定比例要求,则采用该筛选条件,如果不符合预定比例要求,则根据经验对筛选条件进行调整,再利用新的筛选条件对样本URL进行筛选,直到筛选后,符合筛选条件的样本URL在所有样本URL中所占的比例,符合预定比例要求,则将此筛选条件保留,作为预设筛选条件。
上述动作(b2)中,根据URL筛选条件和样本URL的特征信息,对样本URL进行筛选。
相应地,上述根据样本URL的特征信息和第一预设特征模式,对样本URL进行分类,得到多个第一类别,具体为:
根据筛选得到的样本URL的特征信息和第一预设特征模式,对筛选得到的样本URL进行分类,得到多个第一类别。
具体而言,对于符合筛选条件的样本URL,根据符合筛选条件的样本URL的特征信息和第一预设特征模式,对符合筛选条件的样本URL进行分类,得到多个第一类别,将筛选之后剩余的样本URL作为问题URL,根据问题URL的特征信息和第二预设特征模式,对问题URL进行分类,得到多个第二类别,包括:根据来自问题类别的问题URL和来自于筛选之后剩余的样本URL的问题URL的特征信息和第二预设特征模式,对问题URL进行分类,得到多个第二类别。
上述步骤S104中,根据样本URL的特征信息和第一预设特征模式,对样本URL进行分类,得到多个第一类别。具体包括:
(c1)根据预设的基准选择规则,在样本URL中选取第一分类基准URL,根据第一预设特征模式,对第一分类基准URL的特征信息进行处理,得到第一分类基准URL在第一预设特征模式下的第一特征模式信息;
(c2)将第一特征模式信息与样本URL的特征信息进行匹配,根据匹配结果,将第一分类基准URL和相匹配的样本URL归属为同一类并构建第一类别;
(c3)对于样本URL中剩余的URL,重复上述选取第一分类基准URL、信息匹配、构建第一类别的动作,直到将各个样本URL均划分至相应的第一类别。
上述动作(c1)中,根据预设的基准选择规则,在样本URL中选取第一分类基准URL。在一个实施例中,上述动作(c1)的具体过程为:按照预设的排序规则,对各个样本URL进行排序,在排序后,选择第一个未被划分至相应的第一类别中的样本URL作为第一分类基准URL。在一个实施例中,预设的排序规则可以为根据样本URL的路径深度进行排序,还可以为根据URL的长度进行排序,还可以根据URL的参数个数进行排序,还可以根据URL的参数值和统一码排序算法进行排序。
上述动作(c1)中,第一分类基准URL的特征信息包括URL域名、站内路径和参数值;第一预设特征模式为预定好的模式,包括URL域名、路径表达式和参数值表达式的组合,根据第一预设特征模式,对第一分类基准URL的特征信息进行处理,得到第一分类基准URL在第一预设特征模式下的第一特征模式信息,具体为:
(c11)对第一分类基准URL的站内路径进行正则化处理,得到第一分类基准URL的路径表达式,对第一分类基准URL的参数值进行正则化处理,得到第一分类基准URL的参数值表达式;
(c12)对第一分类基准URL的域名、路径表达式和参数值表达式进行组合,得到第一分类基准URL在第一预设特征模式下的第一特征模式信息。
上述动作(c11)中,对第一分类基准URL的站内路径进行正则化处理,得到第一分类基准URL的路径表达式,对第一分类基准URL的参数值进行正则化处理,得到第一分类基准URL的参数值表达式。在一个具体的实施例中,第一分类基准URL为“https://abc123.com/max/19/6536?page=5”,通过动作(c11),可以得到该第一分类基准URL的域名为“abc123.com”,该第一分类基准URL的路径表达式为“/max/\d+/\d+”,该第一分类基准URL的参数值表达式为“page=[^&]+”。
上述动作(c12)中,对第一分类基准URL的域名、路径表达式和参数值表达式进行组合,得到第一分类基准URL在第一预设特征模式下的第一特征模式信息。续接上例,将第一分类基准URL的域名“abc123.com”,第一分类基准URL的路径表达式“/max/\d+/\d+”和第一分类基准URL的参数值表达式“page=[^&]+”进行组合,组合得到的结果即为该第一分类基准URL在第一预设特征模式下的第一特征模式信息。
由上可知,第一特征模式信息包括第一分类基准URL的域名、路径表达式和参数值表达式的组合。样本URL的特征信息包括域名、站内路径和参数值。上述动作(c2)中,将第一特征模式信息与样本URL的特征信息进行匹配,具体为:
(c21)将第一分类基准URL的域名与样本URL的域名进行比较,判断第一分类基准URL的路径表达式是否能够表征样本URL的站内路径;判断第一分类基准URL的参数值表达式是否能够表征样本URL的参数值;
(c22)若第一分类基准URL的域名与样本URL的域名相同,且第一分类基准URL的路径表达式能够表征样本URL的站内路径,且第一分类基准URL的参数值表达式能够表征样本URL的参数值,则确定第一分类基准URL与样本URL相匹配,否则,确定第一分类基准URL与样本URL不匹配。
上述动作(c21)中,将第一分类基准URL的域名与样本URL的域名进行比较,判断第一分类基准URL的路径表达式是否能够表征样本URL的站内路径;判断第一分类基准URL的参数值表达式是否能够表征样本URL的参数值。接续上例,第一分类基准URL的域名为“abc123.com”,第一分类基准URL的路径表达式为“/max/\d+/\d+”,第一分类基准URL的参数值表达式为“page=[^&]+”,将上述第一分类基准URL与样本URL进行匹配,样本URL为“abc123.com/max/2/3431?page=7”,样本URL的域名为“abc123.com”,样本URL的站内路径为“/max/2/3431”,样本URL的参数值为“page=7”,第一分类基准URL的域名和样本URL的域名相同,第一分类基准URL的路径表达式能表征样本URL的站内路径,第一分类基准URL的参数值表达式能表征样本URL的参数值。
上述动作(c22)中,若第一分类基准URL的域名与样本URL的域名相同,且第一分类基准URL的路径表达式能够表征样本URL的站内路径,且第一分类基准URL的参数值表达式能够表征样本URL的参数值,则确定第一分类基准URL与样本URL相匹配,否则,确定第一分类基准URL与样本URL不匹配。接续上例,由于第一分类基准URL的域名和样本URL的域名相同,第一分类基准URL的路径表达式能表征样本URL的站内路径,第一分类基准URL的参数值表达式能表征样本URL的参数值,因此可以确定该第一分类基准URL与该样本URL相匹配,将该第一分类基准URL与另一个样本URL进行匹配,另一个样本URL为“abc123.com/max/7/3455?page=7&title=news”,该样本URL的参数值为“page=7&title=news”,第一分类基准URL的参数表达式无法表征该参数值,因此,该样本URL与该第一分类基准URL不匹配。
上述动作(c2)中,根据匹配结果,将第一分类基准URL和相匹配的样本URL归属为同一类并构建第一类别。上述匹配结果是指动作(c21)及(c22)中确定的第一分类基准URL与样本URL的匹配关系,上述第一类别包括第一分类基准URL以及所有与该第一分类基准URL相匹配的样本URL,以上述实施例为例,样本URL“abc123.com/max/2/3431?page=7”与第一分类基准URL“https://abc123.com/max/19/6536?page=5”相匹配,它们归属于同一类别。
上述动作(c3)中,对于样本URL中剩余的URL,重复上述选取第一分类基准URL、信息匹配、构建第一类别的动作,直到将各个样本URL均划分至相应的第一类别。其中,上述剩余的URL为样本URL中与第一分类基准URL不匹配的URL。
在一个具体的实施例中,样本URL分别为“abc123.com/item/5?page=6”,“abc123.com/item/2/3?page=3”,“abc123.com/item/6/3?page=5”,“abc123.com/item/3?page=7”,“abc123.com/item/5?page=1”,将上述5个URL根据参数值和统一码排序算法进行排序,排序结果为:“abc123.com/item/5?page=1”,“abc123.com/item/2/3?page=3”,“abc123.com/item/6/3?page=5”,“abc123.com/item/5?page=6”,“abc123.com/item/3?page=7”,将排序后的第一个URL“abc123.com/item/5?page=1”作为第一分类基准URL,获取该第一分类基准URL的域名“abc123.com”、站内路径“item/5”、参数值“page=1”,对站内路径、参数值进行正则化处理,得到第一分类基准URL的路径表达式“item/\d+”和参数值表达式“page=[^&]+”,将该第一分类基准URL的域名、路径表达式、参数值表达式进行组合,得到该第一分类基准URL在第一预设特征模式下的第一特征模式信息,将上述第一特征模式信息,根据排序后的顺序,逐一与样本URL进行匹配,样本URL“abc123.com/item/2/3?page=3”的域名与第一分类基准URL相同,但是站内路径“/item/a/3”不能被第一分类基准URL的路径表达式“item/\d+”表示,因此,样本URL“abc123.com/item/2/3?page=3”与第一分类基准URL不匹配,样本URL“abc123.com/item/6/3?page=5”的域名与第一分类基准URL相同,但是站内路径“/item/f/2”不能被第一分类基准URL的路径表达式“item/\d+”表示,因此,样本URL“abc123.com/item/6/3?page=5”与第一分类基准URL不匹配,样本URL“abc123.com/item/5?page=6”的域名与第一分类基准URL相同,站内路径“/item/5”能被第一分类基准URL的路径表达式“/item/\d+”表示,参数值“page=6”能被第一分类基准URL的参数值表达式表示,因此,样本URL“abc123.com/item/5?page=6”与第一分类基准URL匹配,样本URL“abc123.com/item/3?page=7”的域名与第一分类基准URL相同,站内路径“/item/3”能被第一分类基准URL的路径表达式“/item/\d+”表示,参数值“page=7”能被第一分类基准URL的参数值表达式表示,因此,样本URL“abc123.com/item/3?page=7”与第一分类基准URL匹配,对于与第一分类基准URL“abc123.com/item/5?page=1”不匹配的样本URL“abc123.com/item/2/3?page=3”和样本URL“abc123.com/item/6/3?page=5”,按照上述排序后的先后顺序,取样本URL“abc123.com/item/2/3?page=3”作为第一分类基准URL,获取该第一分类基准URL的域名“abc123.com”、站内路径“item/2/3”、参数值“page=3”,对站内路径、参数值进行正则化处理,得到第一分类基准URL的路径表达式“item/\d+\d+”和参数值表达式“page=[^&]+”,将该第一分类基准URL的域名、路径表达式、参数值表达式进行组合,得到该第一分类基准URL在第一预设特征模式下的第一特征模式信息,将该特征模式信息与样本URL“abc123.com/item/6/3?page=5”进行匹配,样本URL“abc123.com/item/6/3?page=5”的域名与第一分类基准URL相同,站内路径“/item/6/3”能被第一分类基准URL的路径表达式“/item/\d+\d+”表示,参数值“page=5”能被第一分类基准URL的参数值表达式“page=[^&]+”表示,因此,样本URL“abc123.com/item/6/3?page=5”与第一分类基准URL“abc123.com/item/6/3?page=5”匹配,由于样本URL“abc123.com/item/5?page=6”以及样本URL“abc123.com/item/3?page=7”已确定与之匹配的第一分类基准URL为“abc123.com/item/5?page=1”因此,就不再用其他第一分类基准URL与该样本URL进行匹配,这样能在保证匹配结果准确的基础上,降低方法的复杂度,根据上述匹配结果,能够将5个样本URL分为两个类别,一类包括:“abc123.com/item/5?page=1”,“abc123.com/item/5?page=6”,“abc123.com/item/3?page=7”,其中,“abc123.com/item/5?page=1”为该类别的第一分类基准URL,另一类包括:“abc123.com/item/2/3?page=3”,“abc123.com/item/6/3?page=5”,其中,“abc123.com/item/2/3?page=3”为该类别的第一分类基准URL。
上述步骤S102中,第一类别中包括第一分类基准URL,第一类别中的样本URL的特征信息与第一分类基准URL在第一预设特征模式下的第一特征模式信息相匹配。其中,一个样本URL的特征信息有可能与多个第一基准URL相匹配,但是在本实施例中,当确定一个样本URL与一个第一基准URL相匹配后,就不再用其他第一分类基准URL与该样本URL进行匹配,这样能在保证匹配结果准确的基础上,降低方法的复杂度。
上述步骤S104中,按照预设的问题URL选取规则,在各个第一类别中确定问题类别,汇总问题类别中的样本URL,得到各个问题URL。在一个实施例中,上述步骤S104具体为:在各个第一类别中查找包含的样本URL的数量少于预设数量的问题类别,汇总各个问题类别中的样本URL,得到各个问题URL。另一个实施例中,上述步骤S104具体为:在各个第一类别中查找其对应的第一分类基准URL的域名与预设问题域名相同的问题类别,汇总各个问题类别中的样本URL,得到各个问题URL。
在一个实施例中,在步骤S104后,还包括以下步骤:
(d1)按照预设算法,对每个第一类别中的第一分类基准URL的第一特征模式信息进行处理。
(d2)将处理结果相同的第一分类基准URL所在的第一类别进行合并,以更新第一类别。
上述动作(d1)中,按照预设算法,对每个第一类别中的第一分类基准URL的第一特征模式信息进行处理。具体为:按照MD5算法,对每个第一类别中的第一分类基准URL的第一特征模式信息进行处理,得到每个第一特征模式信息的MD5值。在一个实施例中,获取第一分类基准URL的第一特征模式信息,即获取该第一分类基准URL的域名,路径表达式和参数值表达式,将域名、路径表达式、参数值表达式按照顺序组合成字符串,调用MD5算法,对该字符串进行运算,将得到的MD5值作为处理结果,上述调用MD5算法得到的处理结果用于作为多个第一类别合并的依据。
上述动作(d2)中,将处理结果相同的第一分类基准URL所在的第一类别进行合并,以更新第一类别。具体为:将第一分类基准URL对应的处理结果进行比对,若存在一个或多个处理结果相同的第一分类基准URL,则将它们对应的类别合并为一个类别,将多个处理结果相同的第一分类基准URL中的任意一个第一分类基准URL作为该类别对应的第一分类基准URL,将其余的第一分类基准URL作为该合并后的类别中的样本URL,以上步骤发生在步骤S108之前。
上述步骤S106中,根据问题URL的特征信息和第二预设特征模式,对问题URL进行分类,得到多个第二类别。具体为:
(e1)根据预设的基准选择规则,在问题URL中选取第二分类基准URL,根据第二预设特征模式,对第二分类基准URL的特征信息进行处理,得到第二分类基准URL在第二预设特征模式下的第二特征模式信息;
(e2)将第二特征模式信息与问题URL的特征信息进行匹配,根据匹配结果,将第二分类基准URL和相匹配的问题URL归属为同一类并构建第二类别;
(e3)对于问题URL中剩余的URL,重复上述选取第二分类基准URL、信息匹配、构建第二类别的动作,直到将各个问题URL均划分至相应的第二类别。
上述动作(e1)中,根据预设的基准选择规则,在问题URL中选取第二分类基准URL。在一个实施例中,预设的排序规则可以为根据样本URL的路径深度进行排序,还可以为根据URL的长度进行排序,还可以为根据URL的参数个数进行排序,还可以为根据URL的参数值和统一码排序算法进行排序。
上述动作(e1)中,根据第二预设特征模式,对第二分类基准URL的特征信息进行处理,得到第二分类基准URL在第二预设特征模式下的第二特征模式信息。其中,第二分类基准URL的特征信息包括URL域名、站内路径和参数名,第二预设特征模式包括URL域名、站内路径和参数名的组合,得到第二特征模式信息的具体过程为:
(e11)获取第二分类基准URL的域名、站内路径和参数名;
(e12)对第二分类基准URL的域名、站内路径和参数名进行组合,得到第二分类基准URL在第二预设特征模式下的第二特征模式信息。
上述动作(e11)中,获取第二分类基准URL的域名、站内路径和参数名。在一个具体的实施例中,第二分类基准URL为“https://www.finya.de/Auth/signin/?context=require&req_url=/Messages/thread/YMwlJyRdMrLlQxePLpkW/”,通过动作(e11),可以得到该第二分类基准URL的域名为“www.finya.de”,该第一分类基准URL的站内路径为“Auth/signin/”,该第一分类基准URL的参数名为“context&req_url”。
上述动作(e12)中,对第二分类基准URL的域名、站内路径和参数名进行组合,得到第二分类基准URL在第二预设特征模式下的第二特征模式信息。续接上例,将第二分类基准URL的域名“www.finya.de”,第二分类基准URL的站内路径“Auth/signin/”和第二分类基准URL的参数名“context&req_url”进行组合,组合得到的结果即为该第二分类基准URL在第二预设特征模式下的第二特征模式信息。
由上可知,第二特征模式信息包括第二分类基准URL的域名、站内路径和参数名的组合;问题URL的特征信息包括域名、站内路径和参数名;上述动作(e2)中,将第二特征模式信息与问题URL的特征信息进行匹配,具体为:
(e21)将第二分类基准URL的域名与问题URL的域名进行比较,将第二分类基准URL的站内路径与问题URL的站内路径进行比较;将第二分类基准URL的参数名与问题URL的参数名进行比较。
(e22)若第二分类基准URL的域名与问题URL的域名相同,且第二分类基准URL的站内路径与问题URL的站内路径相同,且第二分类基准URL的参数名与问题URL的参数名相同,则确定第二分类基准URL与问题URL相匹配,否则,确定第二分类基准URL与问题URL不匹配。
上述动作(e2)中,根据匹配结果,将第二分类基准URL和相匹配的问题URL归属为同一类并构建第二类别。一个实施例中,问题URL“abc123.com/message?page=2”、“abc123.com/message?page=5”与第二分类基准URL“abc123.com/message?page=1”相匹配,因此,它们归属于同一类,问题URL“abc123.com/message?page=4&type=3”与第二分类基准URL“abc123.com/message?page=3&type=17”相匹配,因此,它们归属于一类。
上述动作(e3)中,对于问题URL中剩余的URL,重复上述选取第二分类基准URL、信息匹配、构建第二类别的动作,直到将各个问题URL均划分至相应的第二类别。其中,上述剩余的URL为样本URL中与第二分类基准URL不匹配的URL。
在一个具体的实施例中,问题URL分别为“abc123.com/message?page=4&type=3”,“abc123.com/message?page=3&type=17”,“abc123.com/message?page=2”,“abc123.com/message?page=5”,“abc123.com/message?page=1”,将上述5个URL根据参数值和统一码排序算法进行排序,排序结果为:“abc123.com/message?page=1”,“abc123.com/message?page=2”,“abc123.com/message?page=3&type=17”,“abc123.com/message?page=4&type=3”,“abc123.com/message?page=5”,将排序后的第一个问题URL“abc123.com/message?page=1”作为第二分类基准URL,获取该第二分类基准URL的域名“abc123.com”、站内路径“/message”、参数名“page”,将该第二分类基准URL的域名、站内路径、参数名进行组合,得到该第二分类基准URL在第二预设特征模式下的第二特征模式信息,将上述第二特征模式信息根据排序后的顺序,逐一与问题URL进行匹配,问题URL“abc123.com/message?page=2”的域名与第二分类基准URL相同,站内路径“/message”与第二分类基准URL相同,参数名“page”与第二分类基准URL相同,因此,问题URL“abc123.com/message?page=2”与第二分类基准URL相匹配,问题“abc123.com/message?page=3&type=17”的域名与第二分类基准URL相同,站内路径“/message”与第二分类基准URL相同,参数名“page&type”与第二分类基准URL不同,因此,题“abc123.com/message?page=3&type=17”与第二分类基准URL不匹配,问题URL“abc123.com/message?page=4&type=3”的域名与第二分类基准URL相同,站内路径“/message”与第二分类基准URL相同,参数名“page&type”与第二分类基准URL不同,因此,问题URL“abc123.com/message?page=4&type=3”与第二分类基准URL不匹配,问题URL“abc123.com/message?page=5”的域名与第二分类基准URL相同,站内路径“/message”与第二分类基准URL相同,参数名“page”与第二分类基准URL相同,因此,问题URL“abc123.com/message?page=5”与第二分类基准URL相匹配。对于与第二分类基准URL“abc123.com/message?page=1”不匹配的问题URL“abc123.com/message?page=3&type=17”和问题URL“abc123.com/message?page=4&type=3”,按照上述排序后的先后顺序,取问题URL“abc123.com/message?page=3&type=17”作为第二分类基准URL,获取该第二分类基准URL的域名“abc123.com”、站内路径“message”、参数名“page&type”,将该第二分类基准URL的域名、站内路径、参数名进行组合,得到该第二分类基准URL在第二预设特征模式下的第二特征模式信息,将该特征模式信息与问题URL“abc123.com/message?page=4&type=3”进行匹配,问题URL“abc123.com/message?page=4&type=3”的域名与第二分类基准URL相同,站内路径“/message”与第二分类基准URL相同,参数名“page&type”与第二分类基准URL相同,因此,问题URL“abc123.com/message?page=4&type=3”与第二分类基准URL相匹配,
由于问题URL“abc123.com/message?page=2”以及问题URL“abc123.com/message?page=5”已确定与之匹配的第二分类基准URL为“abc123.com/message?page=1”因此,就不再用其他第二分类基准URL与该样本URL进行匹配,这样能在保证匹配结果准确的基础上,降低方法的复杂度,根据上述匹配结果,能够将5个问题URL分为两个类别,一类包括:“abc123.com/message?page=1”,“abc123.com/message?page=2”,“abc123.com/message?page=5”,其中,“abc123.com/message?page=1”为该类别的第一分类基准URL,另一类包括:“abc123.com/message?page=3&type=17”,“abc123.com/message?page=4&type=3”,其中,“abc123.com/message?page=3&type=1”为该类别的第一分类基准URL。
上述步骤S108中,根据第一分类基准URL和第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库。具体为:
(f1)对各个第一分类基准URL和各个第二分类基准URL进行并行渲染得到页面,在渲染得到的页面中确定广告资源,并确定广告资源的拦截规则。
(f2)根据各个第一分类基准URL的域名、各个第二分类基准URL的域名、各个第一分类基准URL对应页面中的广告资源的拦截规则、各个第二分类基准URL对应页面中的广告资源的拦截规则,建立广告拦截规则库。
上述动作(f1)中,对各个第一分类基准URL和各个第二分类基准URL进行并行渲染得到页面,在渲染得到的页面中确定广告资源,并确定广告资源的拦截规则。通过调用第三方浏览器的API,可以获取渲染得到的页面中包含的全部资源URL,从全部资源URL中查找出广告资源URL,将广告资源URL作为查询条件,查询第三方广告拦截规则库,第三方广告拦截规则库中存储的数据包括广告资源URL以及广告资源URL对应的广告拦截规则,通过查询,可以得到广告资源URL对应的广告拦截规则,其中,确定URL是否为广告资源URL,以及通过广告资源URL能够确定对应的拦截规则是成熟的现有技术,此处不做赘述。上述广告拦截规则可以是正则表达式、或浏览器能够执行的脚本、程序,浏览器执行上述广告拦截规则后,能够达到屏蔽广告的效果,例如,页面中的广告以弹窗形式展现,浏览器执行广告拦截规则后,可以阻止弹窗弹出,页面中的广告以图片形式展现,浏览器执行广告拦截规则后,可以不加载该图片,页面中的广告以链接形式展现,浏览器执行广告拦截规则后,可以不展示该链接。需要说明的是,每个第一分类基准URL和第二分类基准URL都能够代表其所属类别的其他URL,相同类别URL对应的页面,除了图文内容不同外,在页面结构、功能、按钮、链接、运行的脚本和广告上都相同,因此,只需要渲染该类别的第一分类基准URL或第二分类基准URL,就能够获取该类别URL所对应的全部广告资源URL。
相比直接对样本URL进行渲染所消耗的时间和运算资源,本实施例中,从样本URL中选取第一分类基准URL和第二基准URL,进行渲染,极大减少了需要渲染的URL的数量,例如,一个类别中,包含99个样本URL和一个第一分类基准URL,相比于渲染全部URL,本实施例中只渲染一个第一分基准URL,减少了99%的运算量,在实际使用中,使用本实施例提供的从样本URL中选取第一分类基准URL和第二基准URL,进行渲染的方法,平均能减少89%的运算量。
在一个实施例中,动作(f1)中对各个第一分类基准URL和各个第二分类基准URL进行并行渲染得到页面,具体为:
(f11)将各个第一分类基准URL和各个第二分类基准URL输入预设队列;
(f12)通过预先建立的进程池从预设队列中获取多个URL进行并行渲染,以得到页面;其中,进程池包含多个进程,每个进程对应一个被封装的浏览器实例,用于执行相对应的浏览器实例以渲染页面。
上述动作(f11)中,将各个第一分类基准URL和各个第二分类基准URL输入预设队列。预设队列用于存储和向浏览器分发第一分类基准URL和第二分类基准URL,预设队列的容量不设上限。
上述动作(f12)中,通过预先建立的进程池从预设队列中获取多个URL进行并行渲染,以得到页面;其中,进程池包含多个进程,每个进程对应一个被封装的浏览器实例,用于执行相对应的浏览器实例以渲染页面。
在一个实施例中,可以从进程池中获取多个进程,也即获取多个被封装的浏览器实例,并从队列中获取多个URL,按照每个进程渲染一个URL的方式,通过这对个进程并行渲染这多个URL,从而实现URL的并行渲染。
图2为本说明书一实施例提供的并行渲染URL流程示意图,图2中的过程由服务端的一台计算机或多台计算机组成的集群执行,具体为:
(f121)申请空闲资源;
(f122)判断是否存在空闲资源;
(f123)若存在空闲资源,则加互斥锁,初始化资源;调用资源开始渲染;若不存在空闲资源,则判断资源池是否有空位;
(f124)若资源池有空位,则创建新资源加入资源池;加互斥锁,初始化资源;调用资源开始渲染。若没有空位,则返回申请空闲资源的动作循环执行。
上述动作(f121)中,申请空闲资源。上述资源包括被封装的浏览器及对应的进程,空闲是指进程没有加互斥锁;
上述动作(f122)中,判断是否存在空闲资源。具体为:判断当前进程池中存在的进程是否有没加互斥锁的进程,若有,则确定存在空闲资源,若没有,则确定不存在空闲资源;
上述动作(f123)中,若存在空闲资源,则加互斥锁,初始化资源;调用资源开始渲染。空闲资源为没有加互斥锁的进程,加互斥锁是为了在该进程进行渲染动作时,禁止服务器调用该进程执行其他动作,初始化资源是指在该进程中生成浏览器实例,调用资源开始渲染是指从浏览器中获取URL进行页面渲染。在一个实施例中,进程池中存在没有加互斥锁的进程,对该进程加互斥锁,在该进程中生成浏览器实例,从预设队列中获取URL,利用该进程对应的浏览器实例渲染该URL对应的页面,在执行完渲染操作后,解除进程锁,使该进程重新成为空闲资源。
上述动作(f123)中,若不存在空闲资源,则判断资源池是否有空位。若进程池中的进程数量小于预设最大进程数,则确定资源池有空位。
上述动作(f124)中,若资源池有空位,则创建新资源加入资源池。上述创建新资源加入资源池,即建立新的未加进程锁的进程,加入进程池中。该资源为浏览器实例。
上述动作(f124)中,加互斥锁,初始化资源;调用资源开始渲染。上述动作与(f123)中相同,此处不再赘述。
在本实施例中,存在大量需要渲染的第一分类基准URL和第二分类基准URL,顺序执行渲染,对计算机运算资源的利用不充分,渲染全部URL耗时过长,通过建立进程池,进行并行渲染可以最大化利用计算机的运算资源,减少渲染全部URL的耗时长度。
在一个实施例中,服务端包括由多台用于渲染页面的计算机组成的集群,上述集群能够作为集群化的浏览器和规则引擎,使用状态管理、互斥锁、热加载和热回收等技术,实现了可调可控的并发渲染,组成集群的计算机数量可以根据需要进行调整。
上述动作(f2)中,根据各个第一分类基准URL的域名、各个第二分类基准URL的域名、各个第一分类基准URL对应页面中的广告资源的拦截规则、各个第二分类基准URL对应页面中的广告资源的拦截规则,建立广告拦截规则库。广告拦截规则库中存储的每条数据包含一个来自第一分类基准URL或第二分类基准URL的域名,以及域名对应的一个或多个可供浏览器执行的广告拦截规则,在一个实施例中,在建立广告拦截规则库之前,还根据域名对广告拦截规则进行了合并,即将多个相同域名对应的广告拦截规则进行合并,然后对同一个域名下的广告拦截规则进行去重,使得同一个域名对应的每一条广告拦截规则都是唯一的。
通过上述方法建立的广告拦截规则库建立完成后设置于服务器内;服务器在接受到待拦截的URL后,根据待拦截的URL的域名和广告拦截规则库,确定待拦截的URL对应的广告拦截规则;广告拦截规则被执行后用于拦截待拦截的URL中的广告资源。具体而言,服务器将建立完成的广告拦截规则库设置于服务器内,服务器在接受到待拦截的URL后,获取该URL的域名,以域名作为条件,查询广告拦截规则库,查询结果为该域名对应的广告拦截规则,这些广告拦截规则即为待拦截的URL对应的广告拦截规则,服务器将上述广告拦截规则返回给发送待拦截的URL的设备如用户终端。需要说明的是,用于接收待拦截的URL,并将该URL对应的广告拦截规则返回发送设备的服务器,和本申请中,用于建立广告拦截规则库的服务器不是同一个服务器。
图3为本说明书另一实施例提供的广告拦截规则库的建立方法流程示意图,该方法由服务器执行,如图3所示,该方法包括以下步骤:
步骤S302,获取多个样本统一资源定位符URL和样本URL的特征信息;
步骤S304,获取预设的URL筛选条件;URL筛选条件包括URL长度筛选条件、路径深度筛选条件、参数个数筛选条件中的至少一项;
步骤S306,根据URL筛选条件和样本URL的特征信息,对样本URL进行筛选;
步骤S308,根据样本URL的特征信息和第一预设特征模式,对样本URL进行分类,得到多个第一类别,包括:根据筛选得到的样本URL的特征信息和第一预设特征模式,对筛选得到的样本URL进行分类,得到多个第一类别;
步骤S310,按照预设算法,对每个所述第一类别中的所述第一分类基准URL的所述第一特征模式信息进行处理;将处理结果相同的所述第一分类基准URL所在的所述第一类别进行合并,以更新所述第一类别;
步骤S312,按照预设的问题URL选取规则,在各个所述第一类别中确定问题类别,汇总所述问题类别中的样本URL,得到各个问题URL;
步骤S314,根据问题URL的特征信息和第二预设特征模式,对问题URL进行分类,得到多个第二类别;第二类别中包括第二分类基准URL,第二类别中的问题URL的特征信息与第二分类基准URL在第二预设特征模式下的第二特征模式信息相匹配;
步骤S316,根据第一分类基准URL和第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库;广告拦截规则库包括第一分类基准URL的域名、第二分类基准URL的域名以及每个域名对应的广告拦截规则;广告拦截规则用于拦截相应域名所对应的页面中的广告资源。
图3中的各个步骤在前面的描述中已给出具体的解释,此处不再赘述。
综上,本实施例至少具有以下有益效果:
(1)利用本实施例提供的广告拦截规则库建立方法建立的广告拦截规则数据库进行广告拦截,能够避免对用户所访问的页面内的每个资源进行分析,只需要利用域名查询,即可获取该域名对应的广告拦截规则,大幅提高了广告拦截效率。
(2)利用本实施例提供的选取第一分类基准URL和第二分类基准URL的方法,能够大幅减少需要渲染的URL数量,节省运算资源,加快建立广告拦截资源库的速度。
(3)利用本实施例提供的通过建立进程池进行并行渲染的方法,可以最大化利用计算机的运算资源,减少渲染耗时。
图4为本说明书一实施例提供的广告拦截规则库的建立装置示意图,该装置用于实现上述的广告拦截规则库的建立方法,如图4所示,该装置包括:
第一分类模块41,用于获取多个样本统一资源定位符URL和所述样本URL的特征信息,根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别;所述第一类别中包括第一分类基准URL,所述第一类别中的样本URL的特征信息与所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息相匹配;
问题选取模块42,用于按照预设的问题URL选取规则,在各个所述第一类别中确定问题类别,汇总所述问题类别中的样本URL,得到各个问题URL;
第二分类模块43,用于根据所述问题URL的特征信息和第二预设特征模式,对所述问题URL进行分类,得到多个第二类别;所述第二类别中包括第二分类基准URL,所述第二类别中的问题URL的特征信息与所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息相匹配;
规则库建立模块44,用于根据所述第一分类基准URL和所述第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库;所述广告拦截规则库包括所述第一分类基准URL的域名、所述第二分类基准URL的域名以及每个域名对应的广告拦截规则;所述广告拦截规则用于拦截相应域名所对应的页面中的广告资源。
可选地,第一分类模块41具体用于:
获取历史请求进行广告拦截的多个URL,根据所述多个URL确定样本URL;
对所述样本URL进行解析,获得所述样本URL的特征信息;其中,特征信息包括:URL域名、URL长度、站内路径、参数名、参数值、路径深度、参数个数、参数排序中的至少一项。
可选地,还包括URL筛选模块,用于:
在根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别之前,获取预设的URL筛选条件;所述URL筛选条件包括URL长度筛选条件、路径深度筛选条件、参数个数筛选条件中的至少一项;
根据所述URL筛选条件和所述样本URL的特征信息,对所述样本URL进行筛选;
第一分类模块41具体用于:
根据筛选得到的样本URL的特征信息和第一预设特征模式,对筛选得到的样本URL进行分类,得到多个第一类别。
可选地,第一分类模块41具体用于:
根据预设的基准选择规则,在所述样本URL中选取第一分类基准URL,根据所述第一预设特征模式,对所述第一分类基准URL的特征信息进行处理,得到所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息;
将所述第一特征模式信息与所述样本URL的特征信息进行匹配,根据匹配结果,将所述第一分类基准URL和相匹配的样本URL归属为同一类并构建第一类别;
对于所述样本URL中剩余的URL,重复上述选取第一分类基准URL、信息匹配、构建第一类别的动作,直到将各个所述样本URL均划分至相应的第一类别。
可选地,第一分类模块41还具体用于:
按照预设的排序规则,对各个所述样本URL进行排序,在所述排序中,选择第一个未被划分至相应的第一类别中的样本URL作为所述第一分类基准URL。
可选地,所述第一分类基准URL的特征信息包括URL域名、站内路径和参数值;所述第一预设特征模式包括URL域名、路径表达式和参数值表达式的组合;第一分类模块41还具体用于:
对所述第一分类基准URL的站内路径进行正则化处理,得到所述第一分类基准URL的路径表达式,对所述第一分类基准URL的参数值进行正则化处理,得到所述第一分类基准URL的参数值表达式;
对所述第一分类基准URL的域名、路径表达式和参数值表达式进行组合,得到所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息。
可选地,所述第一特征模式信息包括所述第一分类基准URL的域名、路径表达式和参数值表达式的组合;所述样本URL的特征信息包括域名、站内路径和参数值;第一分类模块41还具体用于:
将所述第一分类基准URL的域名与所述样本URL的域名进行比较,判断所述第一分类基准URL的路径表达式是否能够表征所述样本URL的站内路径;判断所述第一分类基准URL的参数值表达式是否能够表征所述样本URL的参数值;
若所述第一分类基准URL的域名与所述样本URL的域名相同,且所述第一分类基准URL的路径表达式能够表征所述样本URL的站内路径,且所述第一分类基准URL的参数值表达式能够表征所述样本URL的参数值,则确定所述第一分类基准URL与所述样本URL相匹配,否则,确定所述第一分类基准URL与所述样本URL不匹配。
可选地,还包括处理模块,用于:
在根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别之后,按照预设算法,对每个所述第一类别中的所述第一分类基准URL的所述第一特征模式信息进行处理;
将处理结果相同的所述第一分类基准URL所在的所述第一类别进行合并,以更新所述第一类别。
可选地,处理模块具体用于:
按照MD5算法,对每个所述第一类别中的所述第一分类基准URL的所述第一特征模式信息进行处理,得到每个所述第一特征模式信息的MD5值。
可选地,问题选取模块42具体用于:
在各个所述第一类别中查找包含的样本URL的数量少于预设数量的问题类别,汇总各个所述问题类别中的样本URL,得到各个问题URL。
可选地,第二分类模块43具体用于:
根据预设的基准选择规则,在所述问题URL中选取第二分类基准URL,根据所述第二预设特征模式,对所述第二分类基准URL的特征信息进行处理,得到所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息;
将所述第二特征模式信息与所述问题URL的特征信息进行匹配,根据匹配结果,将所述第二分类基准URL和相匹配的问题URL归属为同一类并构建第二类别;
对于所述问题URL中剩余的URL,重复上述选取第二分类基准URL、信息匹配、构建第二类别的动作,直到将各个所述问题URL均划分至相应的第二类别。
可选地,所述第二分类基准URL的特征信息包括URL域名、站内路径和参数名;所述第二预设特征模式包括URL域名、站内路径和参数名的组合;第二分类模块43还具体用于:
获取所述第二分类基准URL的域名、站内路径和参数名;
对所述第二分类基准URL的域名、站内路径和参数名进行组合,得到所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息。
可选地,所述第二特征模式信息包括所述第二分类基准URL的域名、站内路径和参数名的组合;所述问题URL的特征信息包括域名、站内路径和参数名;第二分类模块43还具体用于:
将所述第二分类基准URL的域名与所述问题URL的域名进行比较,将所述第二分类基准URL的站内路径与所述问题URL的站内路径进行比较;将所述第二分类基准URL的参数名与所述问题URL的参数名进行比较;
若所述第二分类基准URL的域名与所述问题URL的域名相同,且所述第二分类基准URL的站内路径与所述问题URL的站内路径相同,且所述第二分类基准URL的参数名与所述问题URL的参数名相同,则确定所述第二分类基准URL与所述问题URL相匹配,否则,确定所述第二分类基准URL与所述问题URL不匹配。
可选地,规则库建立模块44具体用于:
对各个所述第一分类基准URL和各个所述第二分类基准URL进行并行渲染得到页面,在渲染得到的页面中确定广告资源,并确定所述广告资源的拦截规则;
根据各个所述第一分类基准URL的域名、各个所述第二分类基准URL的域名、各个所述第一分类基准URL对应页面中的广告资源的拦截规则、各个所述第二分类基准URL对应页面中的广告资源的拦截规则,建立所述广告拦截规则库。
可选地,规则库建立模块44还具体用于:
将各个所述第一分类基准URL和各个所述第二分类基准URL输入预设队列;
通过预先建立的进程池从所述预设队列中获取多个URL进行并行渲染,以得到页面;
其中,所述进程池包含多个进程,每个进程对应一个被封装的浏览器实例,用于执行相对应的浏览器实例以渲染页面。
可选地,广告拦截规则库建立完成后设置于服务器内;所述服务器在接受到待拦截的URL后,根据所述待拦截的URL的域名和所述广告拦截规则库,确定所述待拦截的URL对应的广告拦截规则;所述广告拦截规则被执行后用于拦截所述待拦截的URL中的广告资源。
本实施例中,获取多个样本统一资源定位符URL,对样本URL进行分类,得到多个第一类别,第一类别中包括第一分类基准URL;从多个第一类别中,得到各个问题URL;对问题URL进行分类,得到多个第二类别,第二类别中包括第二分类基准URL;根据第一分类基准URL和第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库;广告拦截规则用于拦截相应域名所对应的页面中的广告资源。可见,相比于现有技术,利用本实施例建立的广告拦截规则库进行广告拦截,能够避免对用户所访问的页面内的每个资源进行分析,只需要利用域名查询,即可获取该域名对应的广告拦截规则,可见,利用本实施例建立的广告拦截规则库,能够高效且准确地拦截广告。
本实施例中的广告拦截规则库的建立装置能够实现前述的广告拦截规则库的建立方法实施例的各个过程,并达到相同的功能和效果,这里不再重复。
本说明书一个实施例还提供了一种广告拦截规则库的建立设备,图5为本说明书一实施例提供的广告拦截规则库的建立设备的结构示意图,如图5所述,该设备包括:存储器501、处理器502、总线503和通信接口504。存储器501、处理器502和通信接口504通过总线503进行通信,通信接口504可以包括输入输出接口,输入输出接口包括但不限于键盘、鼠标、显示器、麦克风、扩音器等。
在一个实施例中,广告拦截规则库的建立设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器实现以下流程:
获取多个样本统一资源定位符URL和所述样本URL的特征信息,根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别;所述第一类别中包括第一分类基准URL,所述第一类别中的样本URL的特征信息与所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息相匹配;
按照预设的问题URL选取规则,在各个所述第一类别中确定问题类别,汇总所述问题类别中的样本URL,得到各个问题URL;
根据所述问题URL的特征信息和第二预设特征模式,对所述问题URL进行分类,得到多个第二类别;所述第二类别中包括第二分类基准URL,所述第二类别中的问题URL的特征信息与所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息相匹配;
根据所述第一分类基准URL和所述第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库;所述广告拦截规则库包括所述第一分类基准URL的域名、所述第二分类基准URL的域名以及每个域名对应的广告拦截规则;所述广告拦截规则用于拦截相应域名所对应的页面中的广告资源。
可选地,所述计算机可执行指令在被处理器执行时,获取多个样本统一资源定位符URL和所述样本URL的特征信息,包括:
获取历史请求进行广告拦截的多个URL,根据所述多个URL确定样本URL;
对所述样本URL进行解析,获得所述样本URL的特征信息;其中,特征信息包括:URL域名、URL长度、站内路径、参数名、参数值、路径深度、参数个数、参数排序中的至少一项。
可选地,所述计算机可执行指令在被处理器执行时,在根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别之前,还包括:
获取预设的URL筛选条件;所述URL筛选条件包括URL长度筛选条件、路径深度筛选条件、参数个数筛选条件中的至少一项;
根据所述URL筛选条件和所述样本URL的特征信息,对所述样本URL进行筛选;
根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别,包括:
根据筛选得到的样本URL的特征信息和第一预设特征模式,对筛选得到的样本URL进行分类,得到多个第一类别。
可选地,所述计算机可执行指令在被处理器执行时,根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别,包括:
根据预设的基准选择规则,在所述样本URL中选取第一分类基准URL,根据所述第一预设特征模式,对所述第一分类基准URL的特征信息进行处理,得到所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息;
将所述第一特征模式信息与所述样本URL的特征信息进行匹配,根据匹配结果,将所述第一分类基准URL和相匹配的样本URL归属为同一类并构建第一类别;
对于所述样本URL中剩余的URL,重复上述选取第一分类基准URL、信息匹配、构建第一类别的动作,直到将各个所述样本URL均划分至相应的第一类别。
可选地,所述计算机可执行指令在被处理器执行时,根据预设的基准选择规则,在所述样本URL中选取第一分类基准URL,包括:
按照预设的排序规则,对各个所述样本URL进行排序,在所述排序中,选择第一个未被划分至相应的第一类别中的样本URL作为所述第一分类基准URL。
可选地,所述计算机可执行指令在被处理器执行时,所述第一分类基准URL的特征信息包括URL域名、站内路径和参数值;所述第一预设特征模式包括URL域名、路径表达式和参数值表达式的组合;根据所述第一预设特征模式,对所述第一分类基准URL的特征信息进行处理,得到所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息,包括:
对所述第一分类基准URL的站内路径进行正则化处理,得到所述第一分类基准URL的路径表达式,对所述第一分类基准URL的参数值进行正则化处理,得到所述第一分类基准URL的参数值表达式;
对所述第一分类基准URL的域名、路径表达式和参数值表达式进行组合,得到所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息。
可选地,所述计算机可执行指令在被处理器执行时,所述第一特征模式信息包括所述第一分类基准URL的域名、路径表达式和参数值表达式的组合;所述样本URL的特征信息包括域名、站内路径和参数值;将所述第一特征模式信息与所述样本URL的特征信息进行匹配,包括:
将所述第一分类基准URL的域名与所述样本URL的域名进行比较,判断所述第一分类基准URL的路径表达式是否能够表征所述样本URL的站内路径;判断所述第一分类基准URL的参数值表达式是否能够表征所述样本URL的参数值;
若所述第一分类基准URL的域名与所述样本URL的域名相同,且所述第一分类基准URL的路径表达式能够表征所述样本URL的站内路径,且所述第一分类基准URL的参数值表达式能够表征所述样本URL的参数值,则确定所述第一分类基准URL与所述样本URL相匹配,否则,确定所述第一分类基准URL与所述样本URL不匹配。
可选地,所述计算机可执行指令在被处理器执行时,在根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别之后,还包括:
按照预设算法,对每个所述第一类别中的所述第一分类基准URL的所述第一特征模式信息进行处理;
将处理结果相同的所述第一分类基准URL所在的所述第一类别进行合并,以更新所述第一类别。
可选地,所述计算机可执行指令在被处理器执行时,按照预设算法,对每个所述第一类别中的所述第一分类基准URL的所述第一特征模式信息进行处理,包括:
按照MD5算法,对每个所述第一类别中的所述第一分类基准URL的所述第一特征模式信息进行处理,得到每个所述第一特征模式信息的MD5值。
可选地,所述计算机可执行指令在被处理器执行时,按照预设的问题URL选取规则,在各个所述第一类别中确定问题类别,汇总所述问题类别中的样本URL,得到各个问题URL,包括:
在各个所述第一类别中查找包含的样本URL的数量少于预设数量的问题类别,汇总各个所述问题类别中的样本URL,得到各个问题URL。
可选地,所述计算机可执行指令在被处理器执行时,根据所述问题URL的特征信息和第二预设特征模式,对所述问题URL进行分类,得到多个第二类别,包括:
根据预设的基准选择规则,在所述问题URL中选取第二分类基准URL,根据所述第二预设特征模式,对所述第二分类基准URL的特征信息进行处理,得到所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息;
将所述第二特征模式信息与所述问题URL的特征信息进行匹配,根据匹配结果,将所述第二分类基准URL和相匹配的问题URL归属为同一类并构建第二类别;
对于所述问题URL中剩余的URL,重复上述选取第二分类基准URL、信息匹配、构建第二类别的动作,直到将各个所述问题URL均划分至相应的第二类别。
可选地,所述计算机可执行指令在被处理器执行时,所述第二分类基准URL的特征信息包括URL域名、站内路径和参数名;所述第二预设特征模式包括URL域名、站内路径和参数名的组合;根据所述第二预设特征模式,对所述第二分类基准URL的特征信息进行处理,得到所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息,包括:
获取所述第二分类基准URL的域名、站内路径和参数名;
对所述第二分类基准URL的域名、站内路径和参数名进行组合,得到所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息。
可选地,所述计算机可执行指令在被处理器执行时,所述第二特征模式信息包括所述第二分类基准URL的域名、站内路径和参数名的组合;所述问题URL的特征信息包括域名、站内路径和参数名;将所述第二特征模式信息与所述问题URL的特征信息进行匹配,包括:
将所述第二分类基准URL的域名与所述问题URL的域名进行比较,将所述第二分类基准URL的站内路径与所述问题URL的站内路径进行比较;将所述第二分类基准URL的参数名与所述问题URL的参数名进行比较;
若所述第二分类基准URL的域名与所述问题URL的域名相同,且所述第二分类基准URL的站内路径与所述问题URL的站内路径相同,且所述第二分类基准URL的参数名与所述问题URL的参数名相同,则确定所述第二分类基准URL与所述问题URL相匹配,否则,确定所述第二分类基准URL与所述问题URL不匹配。
可选地,所述计算机可执行指令在被处理器执行时,根据所述第一分类基准URL和所述第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库,包括:
对各个所述第一分类基准URL和各个所述第二分类基准URL进行并行渲染得到页面,在渲染得到的页面中确定广告资源,并确定所述广告资源的拦截规则;
根据各个所述第一分类基准URL的域名、各个所述第二分类基准URL的域名、各个所述第一分类基准URL对应页面中的广告资源的拦截规则、各个所述第二分类基准URL对应页面中的广告资源的拦截规则,建立所述广告拦截规则库。
可选地,所述计算机可执行指令在被处理器执行时,对各个所述第一分类基准URL和各个所述第二分类基准URL进行并行渲染得到页面,包括:
将各个所述第一分类基准URL和各个所述第二分类基准URL输入预设队列;
通过预先建立的进程池从所述预设队列中获取多个URL进行并行渲染,以得到页面;
其中,所述进程池包含多个进程,每个进程对应一个被封装的浏览器实例,用于执行相对应的浏览器实例以渲染页面。
可选地,广告拦截规则库建立完成后设置于服务器内;所述服务器在接受到待拦截的URL后,根据所述待拦截的URL的域名和所述广告拦截规则库,确定所述待拦截的URL对应的广告拦截规则;所述广告拦截规则被执行后用于拦截所述待拦截的URL中的广告资源。
本实施例中,获取多个样本统一资源定位符URL,对样本URL进行分类,得到多个第一类别,第一类别中包括第一分类基准URL;从多个第一类别中,得到各个问题URL;对问题URL进行分类,得到多个第二类别,第二类别中包括第二分类基准URL;根据第一分类基准URL和第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库;广告拦截规则用于拦截相应域名所对应的页面中的广告资源。可见,相比于现有技术,利用本实施例建立的广告拦截规则库进行广告拦截,能够避免对用户所访问的页面内的每个资源进行分析,只需要利用域名查询,即可获取该域名对应的广告拦截规则,可见,利用本实施例建立的广告拦截规则库,能够高效且准确地拦截广告。
本实施例中的广告拦截规则库的建立设备能够实现前述的广告拦截规则库的建立方法实施例的各个过程,并达到相同的功能和效果,这里不再重复。
本说明书一实施例还提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下方法:
获取多个样本统一资源定位符URL和所述样本URL的特征信息,根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别;所述第一类别中包括第一分类基准URL,所述第一类别中的样本URL的特征信息与所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息相匹配;
按照预设的问题URL选取规则,在各个所述第一类别中确定问题类别,汇总所述问题类别中的样本URL,得到各个问题URL;
根据所述问题URL的特征信息和第二预设特征模式,对所述问题URL进行分类,得到多个第二类别;所述第二类别中包括第二分类基准URL,所述第二类别中的问题URL的特征信息与所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息相匹配;
根据所述第一分类基准URL和所述第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库;所述广告拦截规则库包括所述第一分类基准URL的域名、所述第二分类基准URL的域名以及每个域名对应的广告拦截规则;所述广告拦截规则用于拦截相应域名所对应的页面中的广告资源。
可选地,所述计算机可执行指令在被处理器执行时,获取多个样本统一资源定位符URL和所述样本URL的特征信息,包括:
获取历史请求进行广告拦截的多个URL,根据所述多个URL确定样本URL;
对所述样本URL进行解析,获得所述样本URL的特征信息;其中,特征信息包括:URL域名、URL长度、站内路径、参数名、参数值、路径深度、参数个数、参数排序中的至少一项。
可选地,所述计算机可执行指令在被处理器执行时,在根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别之前,还包括:
获取预设的URL筛选条件;所述URL筛选条件包括URL长度筛选条件、路径深度筛选条件、参数个数筛选条件中的至少一项;
根据所述URL筛选条件和所述样本URL的特征信息,对所述样本URL进行筛选;
根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别,包括:
根据筛选得到的样本URL的特征信息和第一预设特征模式,对筛选得到的样本URL进行分类,得到多个第一类别。
可选地,所述计算机可执行指令在被处理器执行时,根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别,包括:
根据预设的基准选择规则,在所述样本URL中选取第一分类基准URL,根据所述第一预设特征模式,对所述第一分类基准URL的特征信息进行处理,得到所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息;
将所述第一特征模式信息与所述样本URL的特征信息进行匹配,根据匹配结果,将所述第一分类基准URL和相匹配的样本URL归属为同一类并构建第一类别;
对于所述样本URL中剩余的URL,重复上述选取第一分类基准URL、信息匹配、构建第一类别的动作,直到将各个所述样本URL均划分至相应的第一类别。
可选地,所述计算机可执行指令在被处理器执行时,根据预设的基准选择规则,在所述样本URL中选取第一分类基准URL,包括:
按照预设的排序规则,对各个所述样本URL进行排序,在所述排序中,选择第一个未被划分至相应的第一类别中的样本URL作为所述第一分类基准URL。
可选地,所述计算机可执行指令在被处理器执行时,所述第一分类基准URL的特征信息包括URL域名、站内路径和参数值;所述第一预设特征模式包括URL域名、路径表达式和参数值表达式的组合;根据所述第一预设特征模式,对所述第一分类基准URL的特征信息进行处理,得到所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息,包括:
对所述第一分类基准URL的站内路径进行正则化处理,得到所述第一分类基准URL的路径表达式,对所述第一分类基准URL的参数值进行正则化处理,得到所述第一分类基准URL的参数值表达式;
对所述第一分类基准URL的域名、路径表达式和参数值表达式进行组合,得到所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息。
可选地,所述计算机可执行指令在被处理器执行时,所述第一特征模式信息包括所述第一分类基准URL的域名、路径表达式和参数值表达式的组合;所述样本URL的特征信息包括域名、站内路径和参数值;将所述第一特征模式信息与所述样本URL的特征信息进行匹配,包括:
将所述第一分类基准URL的域名与所述样本URL的域名进行比较,判断所述第一分类基准URL的路径表达式是否能够表征所述样本URL的站内路径;判断所述第一分类基准URL的参数值表达式是否能够表征所述样本URL的参数值;
若所述第一分类基准URL的域名与所述样本URL的域名相同,且所述第一分类基准URL的路径表达式能够表征所述样本URL的站内路径,且所述第一分类基准URL的参数值表达式能够表征所述样本URL的参数值,则确定所述第一分类基准URL与所述样本URL相匹配,否则,确定所述第一分类基准URL与所述样本URL不匹配。
可选地,所述计算机可执行指令在被处理器执行时,在根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别之后,还包括:
按照预设算法,对每个所述第一类别中的所述第一分类基准URL的所述第一特征模式信息进行处理;
将处理结果相同的所述第一分类基准URL所在的所述第一类别进行合并,以更新所述第一类别。
可选地,所述计算机可执行指令在被处理器执行时,按照预设算法,对每个所述第一类别中的所述第一分类基准URL的所述第一特征模式信息进行处理,包括:
按照MD5算法,对每个所述第一类别中的所述第一分类基准URL的所述第一特征模式信息进行处理,得到每个所述第一特征模式信息的MD5值。
可选地,所述计算机可执行指令在被处理器执行时,按照预设的问题URL选取规则,在各个所述第一类别中确定问题类别,汇总所述问题类别中的样本URL,得到各个问题URL,包括:
在各个所述第一类别中查找包含的样本URL的数量少于预设数量的问题类别,汇总各个所述问题类别中的样本URL,得到各个问题URL。
可选地,所述计算机可执行指令在被处理器执行时,根据所述问题URL的特征信息和第二预设特征模式,对所述问题URL进行分类,得到多个第二类别,包括:
根据预设的基准选择规则,在所述问题URL中选取第二分类基准URL,根据所述第二预设特征模式,对所述第二分类基准URL的特征信息进行处理,得到所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息;
将所述第二特征模式信息与所述问题URL的特征信息进行匹配,根据匹配结果,将所述第二分类基准URL和相匹配的问题URL归属为同一类并构建第二类别;
对于所述问题URL中剩余的URL,重复上述选取第二分类基准URL、信息匹配、构建第二类别的动作,直到将各个所述问题URL均划分至相应的第二类别。
可选地,所述计算机可执行指令在被处理器执行时,所述第二分类基准URL的特征信息包括URL域名、站内路径和参数名;所述第二预设特征模式包括URL域名、站内路径和参数名的组合;根据所述第二预设特征模式,对所述第二分类基准URL的特征信息进行处理,得到所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息,包括:
获取所述第二分类基准URL的域名、站内路径和参数名;
对所述第二分类基准URL的域名、站内路径和参数名进行组合,得到所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息。
可选地,所述计算机可执行指令在被处理器执行时,所述第二特征模式信息包括所述第二分类基准URL的域名、站内路径和参数名的组合;所述问题URL的特征信息包括域名、站内路径和参数名;将所述第二特征模式信息与所述问题URL的特征信息进行匹配,包括:
将所述第二分类基准URL的域名与所述问题URL的域名进行比较,将所述第二分类基准URL的站内路径与所述问题URL的站内路径进行比较;将所述第二分类基准URL的参数名与所述问题URL的参数名进行比较;
若所述第二分类基准URL的域名与所述问题URL的域名相同,且所述第二分类基准URL的站内路径与所述问题URL的站内路径相同,且所述第二分类基准URL的参数名与所述问题URL的参数名相同,则确定所述第二分类基准URL与所述问题URL相匹配,否则,确定所述第二分类基准URL与所述问题URL不匹配。
可选地,所述计算机可执行指令在被处理器执行时,根据所述第一分类基准URL和所述第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库,包括:
对各个所述第一分类基准URL和各个所述第二分类基准URL进行并行渲染得到页面,在渲染得到的页面中确定广告资源,并确定所述广告资源的拦截规则;
根据各个所述第一分类基准URL的域名、各个所述第二分类基准URL的域名、各个所述第一分类基准URL对应页面中的广告资源的拦截规则、各个所述第二分类基准URL对应页面中的广告资源的拦截规则,建立所述广告拦截规则库。
可选地,所述计算机可执行指令在被处理器执行时,对各个所述第一分类基准URL和各个所述第二分类基准URL进行并行渲染得到页面,包括:
将各个所述第一分类基准URL和各个所述第二分类基准URL输入预设队列;
通过预先建立的进程池从所述预设队列中获取多个URL进行并行渲染,以得到页面;
其中,所述进程池包含多个进程,每个进程对应一个被封装的浏览器实例,用于执行相对应的浏览器实例以渲染页面。
可选地,广告拦截规则库建立完成后设置于服务器内;所述服务器在接受到待拦截的URL后,根据所述待拦截的URL的域名和所述广告拦截规则库,确定所述待拦截的URL对应的广告拦截规则;所述广告拦截规则被执行后用于拦截所述待拦截的URL中的广告资源。
其中,所述的存储介质包括只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本实施例中,获取多个样本统一资源定位符URL,对样本URL进行分类,得到多个第一类别,第一类别中包括第一分类基准URL;从多个第一类别中,得到各个问题URL;对问题URL进行分类,得到多个第二类别,第二类别中包括第二分类基准URL;根据第一分类基准URL和第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库;广告拦截规则用于拦截相应域名所对应的页面中的广告资源。可见,相比于现有技术,利用本实施例建立的广告拦截规则库进行广告拦截,能够避免对用户所访问的页面内的每个资源进行分析,只需要利用域名查询,即可获取该域名对应的广告拦截规则,可见,利用本实施例建立的广告拦截规则库,能够高效且准确地拦截广告。
以上所述仅为本说明书的实施例而已,并不用于限制本文件。对于本领域技术人员来说,本说明书的实施例可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本文件的权利要求范围之内。
Claims (17)
1.一种广告拦截规则库的建立方法,其特征在于,包括:
获取多个样本统一资源定位符URL和所述样本URL的特征信息,根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别;所述第一类别中包括第一分类基准URL,所述第一类别中的样本URL的特征信息与所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息相匹配;
按照预设的问题URL选取规则,在各个所述第一类别中确定问题类别,汇总所述问题类别中的样本URL,得到各个问题URL;
根据所述问题URL的特征信息和第二预设特征模式,对所述问题URL进行分类,得到多个第二类别;所述第二类别中包括第二分类基准URL,所述第二类别中的问题URL的特征信息与所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息相匹配;
根据所述第一分类基准URL和所述第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库;所述广告拦截规则库包括所述第一分类基准URL的域名、所述第二分类基准URL的域名以及每个域名对应的广告拦截规则;所述广告拦截规则用于拦截相应域名所对应的页面中的广告资源。
2.根据权利要求1所述的方法,其特征在于,获取多个样本统一资源定位符URL和所述样本URL的特征信息,包括:
获取历史请求进行广告拦截的多个URL,根据所述多个URL确定样本URL;
对所述样本URL进行解析,获得所述样本URL的特征信息;其中,特征信息包括:URL域名、URL长度、站内路径、参数名、参数值、路径深度、参数个数、参数排序中的至少一项。
3.根据权利要求1所述的方法,其特征在于,在根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别之前,还包括:
获取预设的URL筛选条件;所述URL筛选条件包括URL长度筛选条件、路径深度筛选条件、参数个数筛选条件中的至少一项;
根据所述URL筛选条件和所述样本URL的特征信息,对所述样本URL进行筛选;
根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别,包括:
根据筛选得到的样本URL的特征信息和第一预设特征模式,对筛选得到的样本URL进行分类,得到多个第一类别。
4.根据权利要求1所述的方法,其特征在于,根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别,包括:
根据预设的基准选择规则,在所述样本URL中选取第一分类基准URL,根据所述第一预设特征模式,对所述第一分类基准URL的特征信息进行处理,得到所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息;
将所述第一特征模式信息与所述样本URL的特征信息进行匹配,根据匹配结果,将所述第一分类基准URL和相匹配的样本URL归属为同一类并构建第一类别;
对于所述样本URL中剩余的URL,重复上述选取第一分类基准URL、信息匹配、构建第一类别的动作,直到将各个所述样本URL均划分至相应的第一类别。
5.根据权利要求4所述的方法,其特征在于,根据预设的基准选择规则,在所述样本URL中选取第一分类基准URL,包括:
按照预设的排序规则,对各个所述样本URL进行排序,在所述排序中,选择第一个未被划分至相应的第一类别中的样本URL作为所述第一分类基准URL。
6.根据权利要求4所述的方法,其特征在于,所述第一分类基准URL的特征信息包括URL域名、站内路径和参数值;所述第一预设特征模式包括URL域名、路径表达式和参数值表达式的组合;根据所述第一预设特征模式,对所述第一分类基准URL的特征信息进行处理,得到所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息,包括:
对所述第一分类基准URL的站内路径进行正则化处理,得到所述第一分类基准URL的路径表达式,对所述第一分类基准URL的参数值进行正则化处理,得到所述第一分类基准URL的参数值表达式;
对所述第一分类基准URL的域名、路径表达式和参数值表达式进行组合,得到所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息。
7.根据权利要求4所述的方法,其特征在于,所述第一特征模式信息包括所述第一分类基准URL的域名、路径表达式和参数值表达式的组合;所述样本URL的特征信息包括域名、站内路径和参数值;将所述第一特征模式信息与所述样本URL的特征信息进行匹配,包括:
将所述第一分类基准URL的域名与所述样本URL的域名进行比较,判断所述第一分类基准URL的路径表达式是否能够表征所述样本URL的站内路径;判断所述第一分类基准URL的参数值表达式是否能够表征所述样本URL的参数值;
若所述第一分类基准URL的域名与所述样本URL的域名相同,且所述第一分类基准URL的路径表达式能够表征所述样本URL的站内路径,且所述第一分类基准URL的参数值表达式能够表征所述样本URL的参数值,则确定所述第一分类基准URL与所述样本URL相匹配,否则,确定所述第一分类基准URL与所述样本URL不匹配。
8.根据权利要求1所述的方法,其特征在于,在根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别之后,还包括:
按照预设算法,对每个所述第一类别中的所述第一分类基准URL的所述第一特征模式信息进行处理;
将处理结果相同的所述第一分类基准URL所在的所述第一类别进行合并,以更新所述第一类别。
9.根据权利要求8所述的方法,其特征在于,按照预设算法,对每个所述第一类别中的所述第一分类基准URL的所述第一特征模式信息进行处理,包括:
按照MD5算法,对每个所述第一类别中的所述第一分类基准URL的所述第一特征模式信息进行处理,得到每个所述第一特征模式信息的MD5值。
10.根据权利要求1所述的方法,其特征在于,按照预设的问题URL选取规则,在各个所述第一类别中确定问题类别,汇总所述问题类别中的样本URL,得到各个问题URL,包括:
在各个所述第一类别中查找包含的样本URL的数量少于预设数量的问题类别,汇总各个所述问题类别中的样本URL,得到各个问题URL。
11.根据权利要求1所述的方法,其特征在于,根据所述问题URL的特征信息和第二预设特征模式,对所述问题URL进行分类,得到多个第二类别,包括:
根据预设的基准选择规则,在所述问题URL中选取第二分类基准URL,根据所述第二预设特征模式,对所述第二分类基准URL的特征信息进行处理,得到所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息;
将所述第二特征模式信息与所述问题URL的特征信息进行匹配,根据匹配结果,将所述第二分类基准URL和相匹配的问题URL归属为同一类并构建第二类别;
对于所述问题URL中剩余的URL,重复上述选取第二分类基准URL、信息匹配、构建第二类别的动作,直到将各个所述问题URL均划分至相应的第二类别。
12.根据权利要求11所述的方法,其特征在于,所述第二分类基准URL的特征信息包括URL域名、站内路径和参数名;所述第二预设特征模式包括URL域名、站内路径和参数名的组合;根据所述第二预设特征模式,对所述第二分类基准URL的特征信息进行处理,得到所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息,包括:
获取所述第二分类基准URL的域名、站内路径和参数名;
对所述第二分类基准URL的域名、站内路径和参数名进行组合,得到所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息。
13.根据权利要求11所述的方法,其特征在于,所述第二特征模式信息包括所述第二分类基准URL的域名、站内路径和参数名的组合;所述问题URL的特征信息包括域名、站内路径和参数名;将所述第二特征模式信息与所述问题URL的特征信息进行匹配,包括:
将所述第二分类基准URL的域名与所述问题URL的域名进行比较,将所述第二分类基准URL的站内路径与所述问题URL的站内路径进行比较;将所述第二分类基准URL的参数名与所述问题URL的参数名进行比较;
若所述第二分类基准URL的域名与所述问题URL的域名相同,且所述第二分类基准URL的站内路径与所述问题URL的站内路径相同,且所述第二分类基准URL的参数名与所述问题URL的参数名相同,则确定所述第二分类基准URL与所述问题URL相匹配,否则,确定所述第二分类基准URL与所述问题URL不匹配。
14.根据权利要求1所述的方法,其特征在于,根据所述第一分类基准URL和所述第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库,包括:
对各个所述第一分类基准URL和各个所述第二分类基准URL进行并行渲染得到页面,在渲染得到的页面中确定广告资源,并确定所述广告资源的拦截规则;
根据各个所述第一分类基准URL的域名、各个所述第二分类基准URL的域名、各个所述第一分类基准URL对应页面中的广告资源的拦截规则、各个所述第二分类基准URL对应页面中的广告资源的拦截规则,建立所述广告拦截规则库。
15.一种广告拦截规则库的建立装置,其特征在于,包括:
第一分类模块,用于获取多个样本统一资源定位符URL和所述样本URL的特征信息,根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别;所述第一类别中包括第一分类基准URL,所述第一类别中的样本URL的特征信息与所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息相匹配;
问题选取模块,用于按照预设的问题URL选取规则,在各个所述第一类别中确定问题类别,汇总所述问题类别中的样本URL,得到各个问题URL;
第二分类模块,用于根据所述问题URL的特征信息和第二预设特征模式,对所述问题URL进行分类,得到多个第二类别;所述第二类别中包括第二分类基准URL,所述第二类别中的问题URL的特征信息与所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息相匹配;
规则库建立模块,用于根据所述第一分类基准URL和所述第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库;所述广告拦截规则库包括所述第一分类基准URL的域名、所述第二分类基准URL的域名以及每个域名对应的广告拦截规则;所述广告拦截规则用于拦截相应域名所对应的页面中的广告资源。
16.一种广告拦截规则库的建立设备,其特征在于,包括:
处理器;以及,被安排成存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器实现以下流程:
获取多个样本统一资源定位符URL和所述样本URL的特征信息,根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别;所述第一类别中包括第一分类基准URL,所述第一类别中的样本URL的特征信息与所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息相匹配;
按照预设的问题URL选取规则,在各个所述第一类别中确定问题类别,汇总所述问题类别中的样本URL,得到各个问题URL;
根据所述问题URL的特征信息和第二预设特征模式,对所述问题URL进行分类,得到多个第二类别;所述第二类别中包括第二分类基准URL,所述第二类别中的问题URL的特征信息与所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息相匹配;
根据所述第一分类基准URL和所述第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库;所述广告拦截规则库包括所述第一分类基准URL的域名、所述第二分类基准URL的域名以及每个域名对应的广告拦截规则;所述广告拦截规则用于拦截相应域名所对应的页面中的广告资源。
17.一种存储介质,其特征在于,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下方法:
获取多个样本统一资源定位符URL和所述样本URL的特征信息,根据所述样本URL的特征信息和第一预设特征模式,对所述样本URL进行分类,得到多个第一类别;所述第一类别中包括第一分类基准URL,所述第一类别中的样本URL的特征信息与所述第一分类基准URL在所述第一预设特征模式下的第一特征模式信息相匹配;
按照预设的问题URL选取规则,在各个所述第一类别中确定问题类别,汇总所述问题类别中的样本URL,得到各个问题URL;
根据所述问题URL的特征信息和第二预设特征模式,对所述问题URL进行分类,得到多个第二类别;所述第二类别中包括第二分类基准URL,所述第二类别中的问题URL的特征信息与所述第二分类基准URL在所述第二预设特征模式下的第二特征模式信息相匹配;
根据所述第一分类基准URL和所述第二分类基准URL对应的页面中包含的广告资源,建立广告拦截规则库;所述广告拦截规则库包括所述第一分类基准URL的域名、所述第二分类基准URL的域名以及每个域名对应的广告拦截规则;所述广告拦截规则用于拦截相应域名所对应的页面中的广告资源。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110957095.6A CN113641911B (zh) | 2021-08-19 | 2021-08-19 | 广告拦截规则库的建立方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110957095.6A CN113641911B (zh) | 2021-08-19 | 2021-08-19 | 广告拦截规则库的建立方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113641911A CN113641911A (zh) | 2021-11-12 |
CN113641911B true CN113641911B (zh) | 2024-03-08 |
Family
ID=78423000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110957095.6A Active CN113641911B (zh) | 2021-08-19 | 2021-08-19 | 广告拦截规则库的建立方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113641911B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10223616B1 (en) * | 2018-06-30 | 2019-03-05 | Figleaf Limited | System and method identification and classification of internet advertising |
WO2020063448A1 (zh) * | 2018-09-27 | 2020-04-02 | 华为技术有限公司 | 一种信息拦截的方法、装置及终端 |
CN112149032A (zh) * | 2020-09-11 | 2020-12-29 | 麒麟合盛网络技术股份有限公司 | 广告拦截方法及装置 |
-
2021
- 2021-08-19 CN CN202110957095.6A patent/CN113641911B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10223616B1 (en) * | 2018-06-30 | 2019-03-05 | Figleaf Limited | System and method identification and classification of internet advertising |
WO2020063448A1 (zh) * | 2018-09-27 | 2020-04-02 | 华为技术有限公司 | 一种信息拦截的方法、装置及终端 |
CN112149032A (zh) * | 2020-09-11 | 2020-12-29 | 麒麟合盛网络技术股份有限公司 | 广告拦截方法及装置 |
Non-Patent Citations (1)
Title |
---|
使用网页元素随机化方法的广告反屏蔽系统;韦俊琳;段海新;白宇;季姝廷;张皓宇;;小型微型计算机系统;20200515(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113641911A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9460117B2 (en) | Image searching | |
CN110231994B (zh) | 内存分析方法、装置和计算机可读存储介质 | |
CN109564566B (zh) | 对调用应用的发现以用于控制文件水化行为 | |
CN111163072B (zh) | 机器学习模型中特征值的确定方法、装置及电子设备 | |
CN109325118B (zh) | 不平衡样本数据预处理方法、装置和计算机设备 | |
CN111783045B (zh) | 基于分级分类的数据授权方法和装置 | |
CN111400361B (zh) | 数据实时存储方法、装置、计算机设备和存储介质 | |
CN106033450B (zh) | 一种广告拦截的方法、装置和浏览器 | |
US20180285432A1 (en) | Extracting and labeling custom information from log messages | |
CN112149032A (zh) | 广告拦截方法及装置 | |
CN108664471A (zh) | 文字识别纠错方法、装置、设备及计算机可读存储介质 | |
CN111949832A (zh) | 批量作业依赖关系的解析方法及装置 | |
CN111752955A (zh) | 数据处理方法、装置、设备及计算机可读存储介质 | |
CN111026765A (zh) | 严格平衡二叉树的动态处理方法、设备、存储介质及装置 | |
CN111858366B (zh) | 一种测试用例生成方法、装置、设备及存储介质 | |
CN113641911B (zh) | 广告拦截规则库的建立方法、装置、设备及存储介质 | |
CN110503504B (zh) | 网络产品的信息识别方法、装置及设备 | |
CN112632528A (zh) | 威胁情报生成方法、设备、存储介质及装置 | |
CN110825947A (zh) | Url去重方法、装置、设备与计算机可读存储介质 | |
CN113158001B (zh) | 一种网络空间ip资产归属及相关性判别方法及系统 | |
CN112783775A (zh) | 特殊字符输入测试方法及装置 | |
CN109885953B (zh) | 一种模型构件的映射方法和装置 | |
CN113672281A (zh) | 代码差异查询方法、装置、设备及存储介质 | |
CN110990648A (zh) | 一种病毒查询方法、服务器及计算机可读存储介质 | |
CN112433778A (zh) | 一种移动设备页面显示方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |