CN111914199B - 一种页面元素过滤方法、装置、设备及存储介质 - Google Patents
一种页面元素过滤方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111914199B CN111914199B CN201910388432.7A CN201910388432A CN111914199B CN 111914199 B CN111914199 B CN 111914199B CN 201910388432 A CN201910388432 A CN 201910388432A CN 111914199 B CN111914199 B CN 111914199B
- Authority
- CN
- China
- Prior art keywords
- page
- sample
- feature
- filtering
- page element
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 149
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims description 56
- 238000004458 analytical method Methods 0.000 claims description 51
- 238000013136 deep learning model Methods 0.000 claims description 50
- 238000002372 labelling Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 230000001502 supplementing effect Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请提供一种页面元素过滤方法、装置、设备及存储介质,所述方法包括:获取目标页面,所述目标页面包括至少一个页面元素;获取与每个页面元素对应的编码特征;对所述与每个页面元素对应的编码特征进行元素识别处理,得到属于目标对象的页面元素;过滤所述属于目标对象的页面元素。本申请能够提高浏览器页面中广告元素过滤的准确率,降低浏览器的广告过滤成本。
Description
技术领域
本申请属于互联网技术领域,具体涉及一种页面元素过滤方法、装置、设备及存储介质。
背景技术
浏览器为用户提供方便快捷的上网体验,但是很多站点为了盈利插入过多的广告,影响用户的上网体验,且网页拉取广告图片等操作也会增加用户的流量消耗。
现有的解决方案是人工收集页面中广告元素的名称或子资源名称,并将收集到的广告元素的名称或子资源名称写入规则库,浏览器在渲染页面的时候,将所有页面元素与该规则库进行匹配,对匹配成功的页面元素进行过滤或拦截下载等操作。
但是,通过规则库匹配页面上的广告元素存在以下问题:(1)网站可以通过定期改变广告元素名称,甚至把广告元素名称变成随机生成的字符串,导致规则库无法匹配;(2)规则库中的广告元素的名称或子资源名称是由人工收集的,维护规则库的成本较高,从而增加浏览器广告过滤成本。
发明内容
为了提高浏览器页面中广告元素过滤的准确率,降低浏览器的广告过滤成本,本申请提出一种页面元素过滤方法、装置、设备及存储介质。
一方面,本申请提出了一种页面元素过滤方法,所述方法包括:
获取目标页面,所述目标页面包括至少一个页面元素;
获取与每个页面元素对应的编码特征;
对所述与每个页面元素对应的编码特征进行元素识别处理,得到属于目标对象的页面元素;
过滤所述属于目标对象的页面元素。
另一方面,本申请提出了一种页面元素过滤装置,所述装置包括:
第一获取模块,用于获取目标页面,所述目标页面包括至少一个页面元素;
第二获取模块,用于获取与每个页面元素对应的编码特征;
元素识别模块,用于对所述与每个页面元素对应的编码特征进行元素识别处理,得到属于目标对象的页面元素;
过滤模块,用于过滤所述属于目标对象的页面元素。
另一方面,本申请提出了一种设备,所述设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述所述的页面元素过滤方法。
另一方面,本申请提出了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述所述的页面元素过滤方法。
本申请提出的一种页面元素过滤方法、装置、设备及存储介质,通过分析目标页面中每个页面元素对应的原始数据内容,即每个页面元素对应的编码,得到与该页面元素对应的编码特征,将得到的编码特征输入到由机器训练学习方式获得的元素识别模型进行元素识别处理,并根据识别结果,过滤属于目标对象的页面元素。由于每个页面元素均有其特定的编码方式,即便广告商修改页面元素的名称或将名称变成随机生成的字符串,也不会影响识别结果,因为页面元素的编码方式并没有改变,从而确保较高的识别准确率,同时,由于编码特征不需要人工收集,且广告元素的编码方式相对固定,维护模型的人工成本较低,从而降低了浏览器的广告过滤成本。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种页面元素过滤的流程示意图。
图2是本申请实施例提供的获取与每个页面元素对应的编码特征的一种流程示意图。
图3是本申请实施例提供的一种应用场景示意图。
图4是本申请实施例提供的获取元素识别模型的一种流程示意图。
图5是本申请实施例提供的未经参数归一化处理的部分特征的权重。
图6是本申请实施例提供的对所述元素识别模型进行修正的一种流程示意图。
图7是本申请实施例提供的经参数归一化处理的部分特征的权重。
图8是本申请实施例提供的对所述元素识别模型进行修正的另一种流程示意图。
图9是本申请实施例提供的更新样本页面集合的一种流程示意图。
图10是本申请实施例提供的应用于手机浏览器上的页面元素过滤方法的一种流程示意图。
图11是本申请实施例提供的将页面划分为若干个识别块的一种示意图。
图12是未采用本申请实施例提供的页面元素过滤方法的页面显示效果以及采用本申请实施例提供的页面元素过滤方法的页面显示效果的对比图。
图13是本申请实施例提供的一种页面元素过滤装置的结构示意图。
图14是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
以下介绍本申请一种页面元素过滤方法,图1是本申请实施例提供的一种页面元素过滤方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示,所述方法可以包括:
S101.获取目标页面,所述目标页面包括至少一个页面元素。
本说明书实施例中,目标页面可以为浏览器中的网页页面,也可以为具有页面浏览功能的应用程序(Application,APP)中的页面,当该目标页面为浏览器中的网页页面时,该浏览器可以为智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载、音箱、电视、机器人等类型的实体设备中的浏览器,也可以为运行于实体设备中的软体,例如虚拟机中的浏览器等,当该目标页面为具有页面浏览功能的APP中的页面时,该APP可为社交类APP、购物类APP、资讯类APP、金融理财类APP等。
在一些实施例中,页面元素包括但不限于广告元素和非广告元素,而广告元素和非广告元素又可以包括文字、图片、音频、动画、视频等。
S103.获取与每个页面元素对应的编码特征。
本说明书实施例中,每个页面元素均具有其特定的编码方式,编码方式不同则表示每个页面元素对应的原始数据内容不相同,因此,可以根据每个页面元素对应的原始数据内容获取与每个页面元素对应的编码特征。
在一些实施例中,页面元素对应的原始数据内容包括但不限于超文本标记语言(Hyper Text Markup Language,HTML)编码、层叠样式表(Cascading StyleSheets,CSS)编码等。
在一些实施例中,所述基于每个页面元素对应的原始数据内容,得到与所述页面元素对应的编码特征之前,所述方法还可以包括获取页面元素的步骤,所述获取页面元素的步骤可以为:
遍历所述目标页面,从所述目标页面的文本对象模型(Document ObjectModel,DOM)中获取至少一个页面元素。
本说明书实施例中,如图2所示,所述获取与每个页面元素对应的编码特征,可以包括:
S201.获取每个页面元素对应的原始数据内容,从所述原始数据内容中提取与所述页面元素对应的属性特征集,所述属性特征集中包括至少一个属性特征。
本说明书实施例中,每个页面元素均有其特定的属性信息,可以根据每个页面元素对应的编码,从中直接提取出与该页面元素对应的属性特征集,该属性特征集中包括至少一个属性特征,比如,页面元素有M个,则从M个页面元素中的任意一个页面元素对应的原始数据内容,可以提取到与该页面元素对应的属性特征集,其中,M为大于等于1的正整数。即如果有M个页面元素,就会得到M个属性特征集,每一个属性特征集均包括至少一个属性特征。
在一个可行的实施例中,可以通过页面元素的对应的编码直接提取出的属性特征,可以为宽、高、图片长度、position、z-index等,其中,position用于规定元素的定位类型,z-index表示一个元素在叠加顺序上的上下立体关系,z-index值较大的元素将叠加在z-index值较小的元素之上。
在实际应用中,“宽”的提取方式可以为读取宽(width)属性后去掉单位,取纯数字,“高”的提取方式可以为读取高(height)属性后去掉单位,取纯数字,“图片长度”的提取方式可以为读取width属性值后去掉单位,取纯数字,“position”的提取方式可以为读取position,并根据不同的结果赋予不同的值,比如,将相对定位(relative)赋值为0,将固定定位(fixed)赋值为1,将绝对定位(absolute)赋值为2,将静态定位(static)赋值为3,“z-index”的提取方式可以为读取z-index,如果有值则返回1,其他返回0。
S203.获取每个页面元素对应的原始数据内容,对所述原始数据内容进行分析得到与所述页面元素对应的代码分析特征集,所述代码分析特征集中包括至少一个代码分析特征。
本说明书实施例中,对于那些不能够直接从编码中提取出的特征,可以对代码进行分析,从而得到与每个页面元素对应的至少一个代码分析特征,比如,页面元素有M个,则根据M个页面元素中的任意一个页面元素的编码,可以分析得到与该页面元素对应的代码分析特征集,其中,M均为大于等于1的正整数,即如果有M个页面元素,那就会得到M个代码分析特征集,每一个代码分析特征集中均包括至少一个代码分析特征。
在一个可行的实施例中,需要通过分析代码得出的代码分析特征,可以包括是否含有外链接、是否含有iframe、位置(头部或底部)、是否含有“x”字符串、图片数量、图片面积占比、是否含有导航栏等。其中,iframe是HTML标签,其作用是创建包含另外一个文档的内联框架。
在实际应用中,“是否含有外链”的获取方式可以为分析代码,判断是否含有链接,且链接非本域名则返回1,其他返回0,“是否含有iframe”的获取方式可以为分析代码,判断是否含有iframe标签,如果有则返回1,其他返回0,“位置(头部或底部)”的获取方式可以为分析代码,计算是否在顶部或底部,若在顶部则返回1,若在底部则返回2,其他返回0,“是否含有“x”字符串”的获取方式可以分析代码,通过以JavaScript形式编写的广告过滤器,判断文本里是否包含x字符串,如果是则返回1,其他返回0,“图片数量”的获取方式可以为分析代码,通过广告过滤器计算是否含有图片以及图片数量,“图片面积占比”的获取方式可以为分析代码,获取高宽属性,高宽属性相乘即为图片面积,图片面积除以当前DOM的面积即为图片面积占比,“是否导航栏”的获取方式可以为分析编码,通过广告过滤器计算以及特征推断,判断是否含有导航栏,若有则返回1,若没有则返回0。其中,JavaScript是一种直译式脚本语言,是一种动态类型、弱类型、基于原型的语言,内置支持类型,通常通过嵌入在HTML中来实现自身的功能。
本说明书实施例中,可以根据编码方式提取出页面元素的属性特征集和代码分析特征集,从而实现以多特征为基础对页面元素进行识别,即便少量编码特征变动也不会影响识别结果,页面元素识别的准确率和可信度均较高。
S105.对所述与每个页面元素对应的编码特征进行元素识别处理,得到属于目标对象的页面元素。
本说明书实施例中,所述对所述与每个页面元素对应的编码特征进行元素识别处理,得到属于目标对象的页面元素可以进一步包括:
将每个属性特征集中的属性特征以及每个代码分析特征集中的代码分析特征输入元素识别模型进行元素识别处理,得到每个页面元素属于目标对象的概率。
比较所述每个页面元素属于目标对象的概率与第一阈值的大小。
将属于目标对象的概率大于所述第一阈值的页面元素确定为所述属于目标对象的页面元素。
在一个可行的实施例中,可以将每一个页面元素对应的编码特征(包括属性特征和代码分析特征)同时输入元素识别模型进行识别处理,当然,在只需要判断某一个或几个页面元素或是否属于目标对象时,可以仅将与该某一个或几个页面元素对应的编码特征输入该元素识别模型进行识别处理。
本说明书实施例中,所述目标对象包括但不限于弹窗广告、下载广告、图片广告等。
在一个可行的实施例中,在将每个属性特征集中的属性特征以及每个代码分析特征集中的代码分析特征输入所述元素识别模型进行元素识别处理后,还可以直接得到每个页面元素是目标对象或不是目标对象的结果。
S107.过滤所述属于目标对象的页面元素。
本说明书实施例中,当确定出属于目标对象的页面元素时,可以对该页面元素进行过滤、屏蔽或拦截下载,所述过滤所述属于目标对象的页面元素,可以包括:将所述属于目标对象的页面元素的显示属性设置为不可见。
图3所示为本说明书实施例的一种应用场景图,如图3所示,当用户使用手机等终端浏览器浏览网页页面时,终端会从浏览器中获取用户请求浏览的页面,并从该页面中提取至少一个页面元素,基于每个页面元素对应的原始数据内容,得到与所述页面元素对应的编码特征,将得到的编码特征输入元素识别模型进行元素识别处理,如果元素识别模型输出的概率值大于0.6,则认为是广告,最后过滤属于广告的页面元素。本说明书实施例中,由于每个页面元素均有其特定的编码方式,即便广告商修改页面元素的名称或将名称变成随机生成的字符串,也不会影响识别结果,从而确保较高的识别准确率,同时,由于编码特征不需要人工收集,且广告元素的编码方式相对固定,维护模型的人工成本较低,从而降低浏览器广告过滤成本。
下面介绍获取所述元素识别模型的步骤,即训练所述元素识别模型的步骤,如图4所示,所述获取元素识别模型可以包括:
S401.获取样本页面集合,每个样本页面包括至少一个样本页面元素。
S403.获取每个样本页面元素是否属于目标对象的标注结果。
本说明书实施例中,在训练过程中,可以获取大量的样本页面集合,对该样本页面集合中的每一个样本页面元素进行判断,获取每个页面元素是否属于目标对象的标注结果。
S405.获取与每个样本页面元素对应的样本编码特征。
本说明书实施例中,通过分析样本页面集合中大量广告元素和正常页面元素对应的原始数据内容,即编码方式后,从编码中提取出大量的样本编码特征,该大量的样本编码特征一部分可以直接从编码中直接提取,比如宽、高、position、z-index、图片长度等,另一部分需要对该编码进行分析并结合广告过滤器计算后获得,比如是否含有外链接、是否含有iframe、位置(头部或者底部)、是否有“x”字符串、图片面积占比、图片数量、是否含有导航栏等,还有一部分编码特征需要结合编码和第三方工具进行提取,比如,是否含有隐藏规则、是否含有随机身份标识号码(Identity,ID)、是否属于广告(第三方判断结果)、广告词得分、非广告词得分、文字中是否含有敏感词等。其中,可以通过隐藏规则库匹配判断是否含有隐藏规则,通过随机ID判断模型判断是否含有随机ID,通过词性分析模型判断广告词得分、非广告词得分以及文字中是否含有敏感词,或者结合第三方判断结果来进一步判断是否是广告,比如某一第三方软件中判断页面元素A是广告,那么A是广告的概率就非常高。
在一个可行的实施例中,可以初步获取以下18种样本编码特征:
1、是否含有隐藏规则,2、是否含有随机ID,3、宽,4、高,5、position,6、z-index,7、广告词得分,8、非广告词得分,9、是否含有外链接,10、是否含有iframe,11、位置(头部或底部),12是否属于广告(三方判断结果),13:图片长度,14:是否有“x”字符串,15:图片面积占比,16:图片数量,17:是否含有导航栏,18:文字中含有敏感词。
S407.将所述与每个样本页面元素对应的样本编码特征输入深度学习模型,以所述每个样本页面元素是否属于目标对象的标注结果作为回归目标,对所述深度学习模型进行第一次元素识别训练,并将第一次元素识别训练得到的深度学习模型确定为所述元素识别模型。
本说明书实施例中,通过S401-S407进行模型训练后,部分样本编码特征的权重如图5所示,从中可以看出,图片面积占比、图片长度、宽和高的权重过大,使得训练出的元素识别模型容易过拟合。
为了解决元素识别模型容易过拟合问题,在一个可行的实施例中,如图6所示,所述方法还包括对所述元素识别模型进行修正的步骤,所述对所述元素识别模型进行修正可以包括:
S601.获取输入所述深度学习模型中的每个样本编码特征的权重。
在实际应用中,样本编码特征输入深度学习模型之后,深度学习模型会自动分析出各个样本编码的所贡献的权重。
S603.将权重大于第二阈值的样本编码特征进行归一化处理。
在一个可行的实施例中,对于具有实数范围取值的样本编码特征(比如,图片面积占比、广告长度、宽和高等)来说,可将权重过大的样本编码特征进行参数归一化处理,即将实数映射到有限集合内。比如,对于宽,可以通过分析大量样本页面元素的宽数据,得到一个宽分布,以该宽分布为基础,将宽映射到{0,1,2,3,4,5,6,7,8,9,10}内,即把宽归一化到11个档次。
S605.将权重小于或等于所述第二阈值的样本编码特征以及经归一化处理后的样本编码特征,输入所述深度学习模型进行第二次元素识别训练,以所述每个样本页面元素是否属于目标对象的标注结果作为回归目标,对所述深度学习模型进行第二次元素识别训练,并将第二次元素识别训练得到的深度学习模型确定为所述元素识别模型。
在一个可行的实施例中,通过S605进行第二次元素识别训练之后,部分样本编码特征的权重如图7所示,从中可以看出,经归一化处理后的样本编码特征的权重明显小于未归一化处理的权重,从而有效减少元素识别模型的过拟合,提高目标元素过滤的准确率。
在一些实施例中,宽、高等属性的原始值是会受到移动终端(比如手机),屏幕影响的,S603中的归一化处理,让元素识别模型可以很好地适应于移动终端的分辨率。表1为使用S605中训练出的元素识别模型(训练过程中使用的分辨率为1920*1080)对不同分辨率终端的浏览器页面进行广告过滤的结果,从中可以看出,不同分辨率对元素识别模型的广告识别正确率没有较大影响。
表1对不同分辨率终端的浏览器页面进行广告过滤的结果
2160*1080 | 1920*1080 | 1280*720 | |
样本数 | 300 | 300 | 300 |
能正确过滤广告数量 | 262 | 268 | 267 |
正确率 | 87.33% | 89.33% | 89.00% |
仍然存在广告数量 | 38 | 32 | 33 |
错误率 | 12.67% | 10.67% | 11.00% |
非广告识别成广告数量 | 21 | 29 | 28 |
错误率 | 7.00% | 9.67% | 9.33% |
在一些实施例中,如图8所示,所述对所述元素识别模型进行修正还可以包括:
S801.从所述样本页面元素对应的样本编码特征中提取第二样本编码特征,所述第二样本编码特征为不使用第三方工具获取的样本编码特征。
在一些实施例中,可以将依赖第三方工具获取的编码特征,比如“是否含有隐藏规则”、“是否含有随机ID”、“是否属于广告(三方判断结果)”、“广告词得分”、“非广告词得分”进行移除,并将剩下的不依赖第三方工具获取的样本元素标识特征确定为第二样本元素标识特征。从而避免因部署第三方工具造成的终端成本较大,性能损耗较大以及页面正常加载受到影响等。
S803.将所述第二样本编码特征输入所述深度学习模型进行第三次元素识别处理,以所述每个样本页面元素是否属于目标对象的标注结果作为回归目标,对所述深度学习模型进行第三次元素识别训练,并将第三次元素识别训练得到的深度学习模型确定为所述元素识别模型。
本说明书实施例中,通过S601-S605,S801-S803等大量的模型试验验证之后,可以使用表2中记载的12个样本编码特征来训练以得到一种优化的元素识别模型。这12个样本编码特征中,将能够直接提取的特征定义为属性特征,将需要分析代码和结合广告过滤器计算获取的特征定义为代码分析特征,为了便于深度学习模型训练,可以为得到的属性特征和代码分析特征分别分配一个身份标识号码,即特征ID,比如,宽可以用F1来表示,高可以用F2来表示等,每个样本编码特征及其对应的取值范围、采集方式、特征ID等的映射关系可参阅表2。
表2样本编码特征、取值范围、采集方式、特征ID之间的映射关系
本说明书实施例中,将得到的上述编码特征输入深度学习模型进行训练,如果从样本页面中提取出A、B、C、D四个页面元素,则可以得到与这四个页面元素对应的样本编码特征,将这个四个样本编码特征形成一个训练集,将训练集输入深度学习模型进行训练学习,从而得到A、B、C、D是否属于广告的判断结果,训练集的形式以及判断结果可以如下所示:
A:“F1:360F2:100F3:0F4:1F5:1F6:0F7:0F8:100F9:1F10:0F11:1F12:1=广告”
B:“F1:360F2:200F3:0F4:0F5:0F6:0F7:0F8:0F9:0F10:0F11:0F12:0=非广告”
C:F1:100F2:100F3:0F4:0F5:1F6:0F7:0F8:0F9:0F10:0F11:1F12:0=非广告”
D:“F1:60F2:400F3:0F4:1F5:1F6:0F7:0F8:85F9:0F10:0F11:1F12:0=广告”。
本说明书实施例中的深度学习模型可以通过多种算法来实现,比如极端梯度提升算法(eXtreme Gradient Boosting,XGBOOST)、梯度提升决策树(Gradient BoostDecision Tree,GBDT)、逻辑回归算法(Logistic Regression,LR)等。
下面,介绍使用XGBOOST对样本编码特征进行训练得到元素识别模型的具体过程:
(1)统一资源定位地址(uniform resource locator,url)收集:收集域名,爬虫抓取1~3级页面url,url去重,得到url库。
(2)提取训练集:对url库中的预处理训练集进行DOM代码提取,生成libsvm格式数据,其中,libsvm是一种简单有效的支持,向量机模式识别的软件包;
(3)训练模型;输入参数和libsvm格式的训练集数据,获取最优模型,并得到二进制模型文件;
(4)更新到用户:将得到的二进制模型文件下发给终端。
实际应用中,在进行全网测试的时候,出现很多误过滤,所述误过滤包括将正常页面元素识别为广告,或未将广告元素识别出,无论是哪种方式的误过滤,一般的处理方法都是扩充训练集,在训练集中添加个例虽然可以修正个例,但是可能导致过拟合降低泛化能力。为了解决这一问题,在一些实施例中,如图9所示,所述方法还可以包括更新样本页面集合的步骤,所述更新样本页面集合可以包括:
S901.获取误过滤目标页面,并从所述误过滤目标页面中提取误过滤页面元素。
在实际应用中,所述误过滤页面元素包括不属于所述目标对象但是被过滤页面元素,或属于所述目标对象但是未被过滤的页面元素。所述误过滤目标页面中可以包括至少一个误过滤页面元素。
S903.获取与所述误过滤页面元素对应的至少一个误过滤编码特征。
在一个可行的实施例中,可以基于所述误过滤页面元素对应的原始数据内容,获取与该误过滤页面元素对应的误过滤编码特征,具体可以提取误过滤页面元素的DOM编码,将DOM编码转化为libsvm格式的特征向量。
S905.将所述与所述误过滤页面元素对应的至少一个误过滤编码特征输入所述元素识别模型进行元素识别处理,得到所述误过滤页面元素属于所述目标对象的概率。
S907.基于所述误过滤页面元素属于所述目标对象的概率,得到每个误过滤编码特征的特征贡献值。
在一个可行的实施例中,在从元素识别模型中得到输出结果之后,可以基于输入结果以及当前元素识别模型的实际情况,通过调试工具分析出每个误过滤编码特征的特征贡献值。
S909.统计小于第三阈值的特征贡献值的数量,若所述数量大于第四阈值,则将所述误过滤目标页面补充到所述样本页面集合中,得到更新后的样本页面集合,以便于根据所述更新后的样本页面集合修正所述元素识别模型。
在一个可行的实施例中,第三阈值可以为0,如果特征贡献值为负值,则说明使误过滤页面元素属于所述目标对象的概率趋向于0,即增加了非广告的权重,因此,可以统计小于0的特征贡献值的数量,比如经分析,特征贡献值为“-0.03,3.19,0.83,-1.38,0.075,-1.34,0,0,0.32,-0.28”,小于0的特征贡献值的数量较多,则说明高负向得分比较明显,则可以将该误过滤目标页面补充到所述样本页面集合中,得到更新后的样本页面集合,以便于根据所述更新后的样本页面集合修正所述元素识别模型。
在实际应用中,如果误过滤目标页面中包括多个误过滤页面元素,在提取到每个误过滤页面元素之后,需要通过S901-S909计算每个误过滤页面元素中的每个误过滤编码特征的特征贡献值,并基于征贡献值确定是否将该误过滤目标页面补充到所述样本页面集合。比如,误过滤目标页面中包括误过滤页面元素A和B,如果误过滤页面元素A对应的特征贡献值、误过滤页面元素B对应的特征贡献值中的至少一个的高负向得分比较明显,则可以将该误过滤目标页面补充到样本页面集合。
本说明书实施例中,在需要扩充样本页面集合之后,需要进行测试线上正确率,比如可以设置一个浏览器测试包,进行人工打开网页的测试。
本说明书实施例中,通过上述方法不仅可以扩充训练样本,提高广告过滤的准确性,还可以避免因添加个例而导致的过拟合降低元素识别模型泛化能力的问题。
下面介绍本申请的页面元素过滤方法在手机浏览器中的应用。该方法用于手机浏览器打开网页时进行广告过滤,如过滤弹窗广告、下载广告、图片广告等,该方法主要通过广告过滤器、浏览器内核和元素识别模型来实现,其中广告过滤器是在内核页面加载时植入的JavaScript代码,是页面元素过滤方法的逻辑层实现,如图10所示,具体的过滤流程如下:
(1)浏览器内核操作,完成目标页面排版。
(2)内核排版完成后在目标页面植入该JavaScript代码,开始广告过滤。
(3)广告过滤器依据页面布局把DOM划分成若干识别块,并分别获得每个识别块的多个编码特征即特征向量。
在划分识别块的时候,可以通过每个页面元素的尺寸来确定是否需要将该页面元素用父元素来代表,当该页面元素的面积大于或等于预设阈值时,可以认为该页面元素为具有一定大小的元素,因此,可以将该页面元素划分成一个识别块,若该页面元素的面积小于预设阈值时,则可以认为该页面元素为较小的元素,可以将其用父元素代替。最后划分剩下的父元素就是一个个识别块。如图11所示,目标页面被划分成一个个紧邻的区间。优选地,每一个识别块的大小均相同。
在识别块划分好之后,可以通过S201-S203获取每一个识别块中的页面元素的属性特征和代码分析特征,比如,获取如表2所示的12个编码特征。
需要说明的是,当以识别块为单位来提取编码特征时,图片面积占比、以及图片数量等均要以该识别块为单位进行计算,比如图片面积占比可以为:计算识别块中图片的高和宽的乘积,得到图片面积,该图片面积除以该识别块的面积接即为图片面积占比。
(4)把每个识别块中的编码特征即特征向量输入到浏览器内核请求广告判断。
(5)浏览器内容将特征向量输入元素识别模型进行元素识别处理。
(6)元素识别模型返回每个页面元素是否属于广告的判断结果。
(7)广告过滤器获得每个页面元素是否属于广告的判断结果。
(8)如果页面元素是广告,则隐藏不让其展示,以达到广告过滤的效果,比如可以通过广告过滤器重置元素的属性,将其显示属性设置为不可见。
(9)广告过滤器执行完毕,并退出。
(10)展示过滤后的目标页面。
在实际应用中,则经过上述过滤流程之后,图11中的广告A和广告B的显示属性会被设置为不可见,同时浏览器内核会重新调整页面排版,并将排版后的页面进行展示。
图12中的A为使用手机浏览器打开某一搜索网站,并在该搜索网上进行新闻搜索的网页页面示意图,图12中的B为使用本申请中的过滤方法对打开的网页进行过滤后的网页页面示意图,从图12中可以看出,使用本申请中的过滤方法可以有效地将页面中的各种类型的广告过滤掉。表3所示为采用本申请中的过滤方法对广告进行过滤以及采用现有的规则库方法对广告进行过滤的结果对比表,从中可以看出本申请中的过滤方法的正确率高达89.71%,与规则库相比,正确率高出4.96%。
表3本申请中的元素过滤方式与现有的方式的过滤结果比对表
本申请 | 规则库 | |
样本数目 | 943 | 943 |
正确过滤广告数目 | 846 | 806 |
正确率 | 89.71% | 85.47% |
未能过滤广告数目 | 97 | 137 |
错误率 | 10.29% | 14.53% |
本说明书实施例还提供了一种页面元素过滤装置,如图13所示,所述装置可以包括:
第一获取模块1301,用于获取目标页面,所述目标页面包括至少一个页面元素。
第二获取模块1303,用于获取与每个页面元素对应的编码特征。
元素识别模块1305,用于对所述与每个页面元素对应的编码特征进行元素识别处理,得到属于目标对象的页面元素。
过滤模块1307,用于过滤所述属于目标对象的页面元素。
本说明书实施例中,所述第二获取模块1303可以包括:
属性特征获取单元,用于获取每个页面元素对应的原始数据内容,从所述原始数据内容中提取与所述页面元素对应的属性特征集,所述属性特征集中包括至少一个属性特征。
代码分析特征获取单元,用于获取每个页面元素对应的原始数据内容,对所述原始数据内容进行分析得到与所述页面元素对应的代码分析特征集,所述代码分析特征集中包括至少一个代码分析特征。
所述元素识别模块1305,进一步可以包括:
概率获取单元,用于将得到的每个属性特征集中的属性特征以及每个代码分析特征集中的代码分析特征输入元素识别模型进行元素识别处理,得到每个页面元素属于目标对象的概率。
比较单元,用于比较所述每个页面元素属于目标对象的概率与第一阈值的大小。
确定单元,用于将属于目标对象的概率大于所述第一阈值的页面元素确定为属于所述目标对象的页面元素。
所述过滤模块1307,进一步可以用于将所述属于目标对象的页面元素的显示属性设置为不可见。
本说明书实施例中,所述装置还包括元素识别模型获取模块,所述元素识别模型获取模块包括:
样本页面集合获取单元,用于获取样本页面集合,每个样本页面包括至少一个样本页面元素。
标注结果获取单元,用于获取每个样本页面元素是否属于目标对象的标注结果。
样本编码特征获取单元,用于获取与每个样本页面元素对应的样本编码特征。
训练单元,用于将得到的每个样本页面元素对应的样本编码特征输入深度学习模型,以所述每个样本页面元素是否属于目标对象的标注结果作为回归目标,对所述深度学习模型进行第一次元素识别训练,并将第一次元素识别训练得到的深度学习模型确定为所述元素识别模型。
本说明书实施例中,所述装置还可以包括第一修正模块,所述第一修正模块包括:
权重获取单元,用于获取输入所述深度学习模型中的每个样本编码特征的权重。
归一化处理处理单元,用于将权重大于第二阈值的样本编码特征进行归一化处理。
第一修正训练单元,用于将权重小于或等于所述第二阈值的样本编码特征以及经归一化处理后的样本编码特征,输入所述深度学习模型进行第二次元素识别训练,以所述每个样本页面元素是否属于目标对象的标注结果作为回归目标,对所述深度学习模型进行第二次元素识别训练,并将第二次元素识别训练得到的深度学习模型确定为所述元素识别模型。
本说明书实施例中,所述装置还可以包括第二修正模块,所述第二修正模块包括:
第二样本编码特征获取单元,用于从所述样本页面元素对应的样本编码特征中提取第二样本编码特征,所述第二样本编码特征为不使用第三方工具获取的样本编码特征。
第二修正训练单元,用于将所述第二样本编码特征输入所述深度学习模型进行第三次元素识别处理,以所述每个样本页面元素是否属于目标对象的标注结果作为回归目标,对所述深度学习模型进行第三次元素识别训练,并将第三次元素识别训练得到的深度学习模型确定为所述元素识别模型。
本说明书实施例中,所述装置还可以包括更新模块,所述更新模块包括:
误过滤页面元素提取单元,用于获取误过滤目标页面,并从所述误过滤目标页面中提取误过滤页面元素。
误过滤编码特征获取单元,用于获取与所述误过滤页面元素对应的至少一个误过滤编码特征。
误过滤编码特征识别处理单元,用于将所述与所述误过滤页面元素对应的至少一个误过滤编码特征输入所述元素识别模型进行元素识别处理,得到所述误过滤页面元素属于所述目标对象的概率。
特征贡献值获取单元,用于基于所述误过滤页面元素属于所述目标对象的概率,得到每个误过滤编码特征的特征贡献值。
补充单元,用于统计小于第三阈值的特征贡献值的数量,若所述数量大于第四阈值,则将所述误过滤目标页面补充到所述样本页面集合中,得到更新后的样本页面集合,以便于根据所述更新后的样本页面集合修正所述元素识别模型。
本申请实施例还提供了一种页面元素过滤的设备,该设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的页面元素过滤方法。
本申请的实施例还提供了一种存储介质,所述存储介质可设置于终端之中以保存用于实现方法实施例中一种页面元素过滤方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的页面元素过滤方法。
可选地,在本说明书实施例中,存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书实施例所述存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本申请实施例所提供的页面元素过滤方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图14是本申请实施例提供的一种页面元素过滤方法的服务器的硬件结构框图。如图14所示,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(CentralProcessing Units,CPU)1410(处理器1210可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1430,一个或一个以上存储应用程序1423或数据1422的存储介质1420(例如一个或一个以上海量存储设备)。其中,存储器1430和存储介质1420可以是短暂存储或持久存储。存储在存储介质1420的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1410可以设置为与存储介质1420通信,在服务器1400上执行存储介质1420中的一系列指令操作。服务器1400还可以包括一个或一个以上电源1460,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1440,和/或,一个或一个以上操作系统1421,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口1440可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1400的通信供应商提供的无线网络。在一个实例中,输入输出接口1440包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口1440可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图14所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器1400还可包括比图14中所示更多或者更少的组件,或者具有与图14所示不同的配置。
由上述本申请提供的页面元素识别过滤方法、装置、设备及存储介质,一方面,在模型训练过程中,通过归一化和特征筛选等手段,训练出最优的元素识别模型,提高了元素识别模型的识别精度;另一方面,在页面元素过滤过程中,通过每个页面元素特有的编码方式提取相应的编码特征,因为元素的编码,特别是广告的编码方式相对固定,一旦被模型识别,即便广告商修改广告名称或者采用随机名称也无法避开,因为其编码特征没有改变,大大提高了广告识别准确率,降低误识别概率,另一方面,由于编码特征是根据编码方式自动得到的,不需要人工识别,且元素识别模型里面记录了广告的样式,广告样式一般变动不大,因此,元素识别模型不需要更新或不需要经常更新,大大降低了浏览器过滤广告的成本,另一方面,可以根据编码方式提取出页面元素的属性特征和代码分析特征,即通过多特种来识别广告,即便少量特征变动也不会影响识别结果,另一方面,由于本申请是基于编码方式提取特征的,随机名称的广告、JavaScript异步生成的广告、iframe广告等均可以被过滤,广告过滤的的范围更广。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (13)
1.一种页面元素过滤方法,其特征在于,所述方法包括:
获取目标页面,所述目标页面包括至少一个页面元素;
获取与每个页面元素对应的编码特征;所述编码特征包括从每个页面元素对应的原始数据内容中提取的属性特征集和对所述原始数据内容进行分析得到的代码分析特征集;所述代码分析特征集为不能够从所述原始数据内容中直接提取的特征;
将每个属性特征集中的属性特征以及每个代码分析特征集中的代码分析特征输入元素识别模型进行元素识别处理,得到每个页面元素属于目标对象的概率,比较所述每个页面元素属于目标对象的概率与第一阈值的大小,将属于目标对象的概率大于所述第一阈值的页面元素确定为所述属于目标对象的页面元素;其中,所述元素识别模型的确定过程包括:获取输入深度学习模型中的每个样本编码特征的权重;将权重大于第二阈值的样本编码特征进行归一化处理;将权重小于或等于所述第二阈值的样本编码特征以及经归一化处理后的样本编码特征输入所述深度学习模型,以所述每个样本页面元素是否属于目标对象的标注结果作为回归目标,对所述深度学习模型进行第二次元素识别训练,并将第二次元素识别训练得到的深度学习模型确定为所述元素识别模型;每个样本编码特征的权重为将样本页面集合中的每个样本页面元素对应的样本编码特征,输入所述深度学习模型进行第一次元素识别训练的过程中得到;
过滤所述属于目标对象的页面元素。
2.根据权利要求1所述的方法,其特征在于,所述获取与每个页面元素对应的编码特征,包括:
获取每个页面元素对应的原始数据内容,从所述原始数据内容中提取与所述页面元素对应的属性特征集,所述属性特征集中包括至少一个属性特征;
获取每个页面元素对应的原始数据内容,对所述原始数据内容进行分析得到与所述页面元素对应的代码分析特征集,所述代码分析特征集中包括至少一个代码分析特征。
3.根据权利要求1所述的方法,其特征在于,所述过滤所述属于目标对象的页面元素,包括:
将所述属于目标对象的页面元素的显示属性设置为不可见。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取样本页面集合,每个样本页面包括至少一个样本页面元素;
获取每个样本页面元素是否属于目标对象的标注结果;
获取与每个样本页面元素对应的样本编码特征;
将所述与每个样本页面元素对应的样本编码特征输入深度学习模型,以所述每个样本页面元素是否属于目标对象的标注结果作为回归目标,对所述深度学习模型进行第一次元素识别训练,得到第一次元素识别训练得到的深度学习模型。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括对第一次元素识别训练得到的深度学习模型进行修正的步骤,所述对第一次元素识别训练得到的深度学习模型进行修正包括:
从所述样本页面元素对应的样本编码特征中提取第二样本编码特征,所述第二样本编码特征为不使用第三方工具获取的样本编码特征;
将所述第二样本编码特征输入所述深度学习模型进行第三次元素识别处理,以所述每个样本页面元素是否属于目标对象的标注结果作为回归目标,对所述深度学习模型进行第三次元素识别训练,并将第三次元素识别训练得到的深度学习模型确定为所述元素识别模型。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括更新所述样本页面集合的步骤,所述更新所述样本页面集合包括:
获取误过滤目标页面,并从所述误过滤目标页面中提取误过滤页面元素;
获取与所述误过滤页面元素对应的至少一个误过滤编码特征;
将所述与所述误过滤页面元素对应的至少一个误过滤编码特征输入所述元素识别模型进行元素识别处理,得到所述误过滤页面元素属于所述目标对象的概率;
基于所述误过滤页面元素属于所述目标对象的概率,得到每个误过滤编码特征的特征贡献值;
统计小于第三阈值的特征贡献值的数量,若所述数量大于第四阈值,则将所述误过滤目标页面补充到所述样本页面集合中,得到更新后的样本页面集合,以便于根据所述更新后的样本页面集合修正所述元素识别模型。
7.一种页面元素过滤装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标页面,所述目标页面包括至少一个页面元素;
第二获取模块,用于获取与每个页面元素对应的编码特征;所述编码特征包括从每个页面元素对应的原始数据内容中提取的属性特征集和对所述原始数据内容进行分析得到的代码分析特征集;所述代码分析特征集为不能够从所述原始数据内容中直接提取的特征;元素识别模块,用于对所述与每个页面元素对应的编码特征进行元素识别处理,得到属于目标对象的页面元素;所述元素识别模块包括:概率获取单元,用于将每个属性特征集中的属性特征以及每个代码分析特征集中的代码分析特征输入元素识别模型进行元素识别处理,得到每个页面元素属于目标对象的概率;比较单元,用于比较所述每个页面元素属于目标对象的概率与第一阈值的大小;确定单元,用于将属于目标对象的概率大于所述第一阈值的页面元素确定为所述属于目标对象的页面元素;其中,所述装置还包括第一修正模块,所述第一修正模块包括;权重获取单元,用于获取输入深度学习模型中的每个样本编码特征的权重;归一化处理处理单元,用于将权重大于第二阈值的样本编码特征进行归一化处理;第一修正训练单元,用于将权重小于或等于所述第二阈值的样本编码特征以及经归一化处理后的样本编码特征输入所述深度学习模型,以所述每个样本页面元素是否属于目标对象的标注结果作为回归目标,对所述深度学习模型进行第二次元素识别训练,并将第二次元素识别训练得到的深度学习模型确定为所述元素识别模型;每个样本编码特征的权重为将样本页面集合中的每个样本页面元素对应的样本编码特征,输入所述深度学习模型进行第一次元素识别训练的过程中得到;
过滤模块,用于过滤所述属于目标对象的页面元素。
8.根据权利要求7所述的装置,其特征在于,所述第二获取模块包括:
属性特征获取单元,用于获取每个页面元素对应的原始数据内容,从所述原始数据内容中提取与所述页面元素对应的属性特征集,所述属性特征集中包括至少一个属性特征;
代码分析特征获取单元,用于获取每个页面元素对应的原始数据内容,对所述原始数据内容进行分析得到与所述页面元素对应的代码分析特征集,所述代码分析特征集中包括至少一个代码分析特征。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
样本页面集合获取单元,用于获取样本页面集合,每个样本页面包括至少一个样本页面元素;
标注结果获取单元,用于获取每个样本页面元素是否属于目标对象的标注结果;
样本编码特征获取单元,用于获取与每个样本页面元素对应的样本编码特征;
训练单元,用于将得到的每个样本页面元素对应的样本编码特征输入深度学习模型,以所述每个样本页面元素是否属于目标对象的标注结果作为回归目标,对所述深度学习模型进行第一次元素识别训练,得到第一次元素识别训练得到的深度学习模型。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括第二修正模块,所述第二修正模块包括:
第二样本编码特征获取单元,用于从所述样本页面元素对应的样本编码特征中取第二样本编码特征,所述第二样本编码特征为不使用第三方工具获取的样本编码特征;
第二修正训练单元,用于将所述第二样本编码特征输入所述深度学习模型进行第三次元素识别处理,以所述每个样本页面元素是否属于目标对象的标注结果作为回归目标,对所述深度学习模型进行第三次元素识别训练,并将第三次元素识别训练得到的深度学习模型确定为所述元素识别模型。
11.根据权利要求9所述的装置,其特征在于,所述装置还包括更新模块,所述更新模块包括:
误过滤页面元素提取单元,用于获取误过滤目标页面,并从所述误过滤目标页面中提取误过滤页面元素;
误过滤编码特征获取单元,用于获取与所述误过滤页面元素对应的至少一个误过滤编码特征;
误过滤编码特征识别处理单元,用于将所述与所述误过滤页面元素对应的至少一个误过滤编码特征输入所述元素识别模型进行元素识别处理,得到所述误过滤页面元素属于所述目标对象的概率;
特征贡献值获取单元,用于基于所述误过滤页面元素属于所述目标对象的概率,得到每个误过滤编码特征的特征贡献值;
补充单元,用于统计小于第三阈值的特征贡献值的数量,若所述数量大于第四阈值,则将所述误过滤目标页面补充到所述样本页面集合中,得到更新后的样本页面集合,以便于根据所述更新后的样本页面集合修正所述元素识别模型。
12.一种页面元素过滤的设备,其特征在于,所述页面元素过滤的设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-6任一所述的页面元素过滤方法。
13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-6任一所述的页面元素过滤方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910388432.7A CN111914199B (zh) | 2019-05-10 | 2019-05-10 | 一种页面元素过滤方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910388432.7A CN111914199B (zh) | 2019-05-10 | 2019-05-10 | 一种页面元素过滤方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111914199A CN111914199A (zh) | 2020-11-10 |
CN111914199B true CN111914199B (zh) | 2024-04-12 |
Family
ID=73242623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910388432.7A Active CN111914199B (zh) | 2019-05-10 | 2019-05-10 | 一种页面元素过滤方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914199B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417252B (zh) * | 2020-12-04 | 2023-05-09 | 天津开心生活科技有限公司 | 爬虫路径确定方法、装置、存储介质与电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133865A (zh) * | 2014-07-17 | 2014-11-05 | 可牛网络技术(北京)有限公司 | 一种广告过滤方法以及装置 |
CN104239422A (zh) * | 2014-08-21 | 2014-12-24 | 小米科技有限责任公司 | 广告识别方法及装置、电子设备 |
CN106682677A (zh) * | 2015-11-11 | 2017-05-17 | 广州市动景计算机科技有限公司 | 广告识别规则归纳方法、装置及设备 |
CN108399386A (zh) * | 2018-02-26 | 2018-08-14 | 阿博茨德(北京)科技有限公司 | 饼图中的信息提取方法及装置 |
CN108733764A (zh) * | 2018-04-16 | 2018-11-02 | 优视科技有限公司 | 基于机器学习的广告过滤规则生成方法和广告过滤系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11205103B2 (en) * | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
-
2019
- 2019-05-10 CN CN201910388432.7A patent/CN111914199B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133865A (zh) * | 2014-07-17 | 2014-11-05 | 可牛网络技术(北京)有限公司 | 一种广告过滤方法以及装置 |
CN104239422A (zh) * | 2014-08-21 | 2014-12-24 | 小米科技有限责任公司 | 广告识别方法及装置、电子设备 |
CN106682677A (zh) * | 2015-11-11 | 2017-05-17 | 广州市动景计算机科技有限公司 | 广告识别规则归纳方法、装置及设备 |
CN108399386A (zh) * | 2018-02-26 | 2018-08-14 | 阿博茨德(北京)科技有限公司 | 饼图中的信息提取方法及装置 |
CN108733764A (zh) * | 2018-04-16 | 2018-11-02 | 优视科技有限公司 | 基于机器学习的广告过滤规则生成方法和广告过滤系统 |
Non-Patent Citations (1)
Title |
---|
页面图文模型与元素特征归纳;于龙;王金龙;;计算机工程与科学;20130415(第04期);第140-147段 * |
Also Published As
Publication number | Publication date |
---|---|
CN111914199A (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9418315B1 (en) | Systems, methods, and computer readable media for extracting data from portable document format (PDF) files | |
US11550856B2 (en) | Artificial intelligence for product data extraction | |
US11907644B2 (en) | Detecting compatible layouts for content-based native ads | |
CN108256537A (zh) | 一种用户性别预测方法和系统 | |
CN107577706A (zh) | 用户行为数据处理方法、装置及计算机可读存储介质 | |
CN103164423A (zh) | 一种用于确定渲染网页的浏览器内核类型的方法与设备 | |
CN110134844A (zh) | 细分领域舆情监控方法、装置、计算机设备及存储介质 | |
CN110363206B (zh) | 数据对象的聚类、数据处理及数据识别方法 | |
CN108804472A (zh) | 一种网页内容抽取方法、装置及服务器 | |
CN111582932A (zh) | 场景间信息推送方法、装置、计算机设备及存储介质 | |
CN104899203B (zh) | 一种网页页面的生成方法、装置及终端设备 | |
KR20110023750A (ko) | 오브젝트 커스터마이제이션 및 관리 시스템 | |
CN111914199B (zh) | 一种页面元素过滤方法、装置、设备及存储介质 | |
CN107168635A (zh) | 信息呈现方法和装置 | |
CN106383857A (zh) | 一种信息处理方法及电子设备 | |
CN114463040A (zh) | 广告计划生成方法、装置、计算机设备及存储介质 | |
CN108959289B (zh) | 网站类别获取方法和装置 | |
CN106933905A (zh) | 网页访问数据的监测方法和装置 | |
CN108804491A (zh) | 项目推荐方法、装置、计算设备及存储介质 | |
CN110633251B (zh) | 一种文件转换方法及设备 | |
CN107368464B (zh) | 一种获取招标产品信息的方法及装置 | |
CN115809889A (zh) | 基于营销效果的智能客群筛选方法、系统、介质及设备 | |
CN109145307A (zh) | 用户画像识别方法、推送方法、装置、设备和存储介质 | |
CN114067343A (zh) | 一种数据集的构建方法、模型训练方法和对应装置 | |
CN115373658A (zh) | 一种基于Web图片的前端代码自动生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |