CN104239422B - 广告识别方法及装置、电子设备 - Google Patents

广告识别方法及装置、电子设备 Download PDF

Info

Publication number
CN104239422B
CN104239422B CN201410416260.7A CN201410416260A CN104239422B CN 104239422 B CN104239422 B CN 104239422B CN 201410416260 A CN201410416260 A CN 201410416260A CN 104239422 B CN104239422 B CN 104239422B
Authority
CN
China
Prior art keywords
web page
page element
advertisement
attribute
property value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410416260.7A
Other languages
English (en)
Other versions
CN104239422A (zh
Inventor
范金松
徐国市
徐琰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to CN201410416260.7A priority Critical patent/CN104239422B/zh
Publication of CN104239422A publication Critical patent/CN104239422A/zh
Application granted granted Critical
Publication of CN104239422B publication Critical patent/CN104239422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开提供一种广告识别方法及装置、电子设备,该方法包括:获取网页数据中网页元素的预设属性的属性值;根据所述预设属性的属性值,判断所述网页元素是否显示于浏览器窗口的预设位置;若确定所述网页元素显示于浏览器窗口的预设位置,则判定所述网页元素为疑似广告。通过本公开的技术方案,可以对网页中的广告进行准确识别。

Description

广告识别方法及装置、电子设备
技术领域
本公开涉及网页识别技术领域,尤其涉及广告识别方法及装置、电子设备。
背景技术
随着电子商务的蓬勃发展,网页中往往存在各式各样的广告。然而,网页中的广告会给用户浏览带来不便,尤其对于屏幕尺寸较小的移动终端,会极大地影响用户的上网体验,并且大幅的图片广告也会给用户造成不必要的流量浪费,甚至导致额外的支出。
为避免影响用户的浏览体验,相关技术中提出了对网页广告进行拦截,但并没有提出如何有效地对网页广告进行识别。
发明内容
本公开提供广告识别方法及装置、电子设备,以解决相关技术中无法对网页广告进行有效识别的技术问题。
根据本公开实施例的第一方面,提供一种广告识别方法,包括:
获取网页数据中网页元素的预设属性的属性值;
根据所述预设属性的属性值,判断所述网页元素是否显示于浏览器窗口的预设位置;
若确定所述网页元素显示于浏览器窗口的预设位置,则判定所述网页元素为疑似广告。
可选的,获取网页数据中网页元素的预设属性的属性值包括:
获取所述网页元素的预设静态属性的属性值。
可选的,所述预设静态属性包括:所述网页元素的可见性属性和/或位置属性。
可选的,根据所述预设属性的属性值,判断所述网页元素是否显示于浏览器窗口的预设位置包括:
判断所述网页元素的可见性属性的属性值是否为块级block类型;
和/或判断所述网页元素的位置属性的属性值是否为固定fixed类型或绝对absolute类型。
可选的,获取网页数据中网页元素的预设属性的属性值包括:
获取所述网页元素的预设动态属性在所述网页数据对应的网页发生滚动时的属性值。
可选的,所述预设动态属性包括:所述网页元素与所述网页的各边框之间的相对距离。
可选的,根据所述预设属性的属性值,判断所述网页元素是否显示于浏览器窗口的预设位置包括:
判断所述相对距离的数值在所述网页滚动时是否发生同步变化。
可选的,当所述网页元素满足下述条件中至少之一时,判定所述网页元素为疑似广告:
所述网页元素的内容值的数据量小于或等于预设数据量;
所述网页元素的可见性属性按照预设时间间隔进行切换;
所述网页元素的任一属性的属性值中包含预设特征字符;
所述网页元素对应于置于顶部且全屏显示的窗口,且该窗口中包含的图片数量不大于第一预设数量、按钮数量不大于第二预设数量;
所述网页元素的统一资源定位符URL中包含预设特征字符。
可选的,还包括:
判断所述疑似广告对应的网页元素是否为图片类元素;
若为图片类元素,则当所述疑似广告满足预设条件时,判定所述疑似广告为实际广告;若为非图片类元素,则判定所述疑似广告为实际广告。
可选的,所述预设条件包括以下至少之一:
所述疑似广告对应的填充颜色与网页的填充颜色的色差大于或等于预设色差阈值;
所述疑似广告的颜色直方图变化率大于或等于预设变化率阈值。
根据本公开实施例的第二方面,提供一种广告识别装置,包括:
获取单元,用于获取网页数据中网页元素的预设属性的属性值;
判断单元,用于根据所述预设属性的属性值,判断所述网页元素是否显示于浏览器窗口的预设位置;
判定单元,用于在确定所述网页元素显示于浏览器窗口的预设位置时,判定所述网页元素为疑似广告。
可选的,所述获取单元包括:
第一属性值获取子单元,用于获取所述网页元素的预设静态属性的属性值。
可选的,所述预设静态属性包括:所述网页元素的可见性属性和/或位置属性。
可选的,所述判断单元包括:
类型判断子单元,用于判断所述网页元素的可见性属性的属性值是否为块级block类型,和/或判断所述网页元素的位置属性的属性值是否为固定fixed类型或绝对absolute类型。
可选的,所述获取单元包括:
第二属性值获取子单元,用于获取所述网页元素的预设动态属性在所述网页数据对应的网页发生滚动时的属性值。
可选的,所述预设动态属性包括:所述网页元素与所述网页的各边框之间的相对距离。
可选的,所述判断单元包括:
变化判断子单元,判断所述相对距离的数值在所述网页滚动时是否发生同步变化。
可选的,还包括:
条件判断单元,用于当所述网页元素满足下述条件中至少之一时,判定所述网页元素为疑似广告:
所述网页元素的内容值的数据量小于或等于预设数据量;
所述网页元素的可见性属性按照预设时间间隔进行切换;
所述网页元素的任一属性的属性值中包含预设特征字符;
所述网页元素对应于置于顶部且全屏显示的窗口,且该窗口中包含的图片数量不大于第一预设数量、按钮数量不大于第二预设数量;
所述网页元素的统一资源定位符URL中包含预设特征字符。
可选的,还包括:
类型判断单元,用于判断所述疑似广告对应的网页元素是否为图片类元素;
广告判定单元,用于在所述疑似广告对应的网页元素为图片类元素的情况下,当所述疑似广告满足预设条件时,判定所述疑似广告为实际广告;在所述疑似广告对应的网页元素为非图片类元素的情况下,判定所述疑似广告为实际广告。
可选的,所述预设条件包括以下至少之一:
所述疑似广告对应的填充颜色与网页的填充颜色的色差大于或等于预设色差阈值;
所述疑似广告的颜色直方图变化率大于或等于预设变化率阈值。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取网页数据中网页元素的预设属性的属性值;
根据所述预设属性的属性值,判断所述网页元素是否显示于浏览器窗口的预设位置;
若确定所述网页元素显示于浏览器窗口的预设位置,则判定所述网页元素为疑似广告。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开根据“悬浮窗”类型的广告在浏览器上显示位置固定的特征,通过判断网页元素是否显示于浏览器窗口的预设位置,能够识别出网页中可能的“悬浮窗”类型广告。
本公开可以通过对网页元素的预设静态属性的分析,确定网页元素是否在浏览器上固定显示,也可以通过对网页元素的预设动态属性的分析,确定网页元素是否在浏览器上固定显示,从而识别出网页中可能的“悬浮窗”类型广告。
本公开还可以通过对网页元素的预设静态属性和预设动态属性的同时分析,确定网页元素是否在浏览器上固定显示,从而确定网页元素是否为可能的“悬浮窗”类型广告。
本公开还可以通过网页元素的其他属性来识别网页元素的类型,以确定网页元素是否可能为其他类型的广告。
本公开还可以通过对网页元素是否为图片的判断,对疑似广告进一步确认,以避免对非广告网页元素的误判。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种广告识别方法的流程图。
图2是根据一示例性实施例示出的一种广告识别方法的界面示意图。
图3是根据一示例性实施例示出的一种广告识别方法的位置关系示意图。
图4是根据一示例性实施例示出的另一种广告识别方法的流程图。
图5是根据一示例性实施例示出的一种广告识别方法的另一界面示意图。
图6是根据一示例性实施例示出的一种广告识别方法的另一界面示意图。
图7是根据一示例性实施例示出的另一种广告识别方法的流程图。
图8是根据一示例性实施例示出的一种广告识别装置的框图。
图9是根据一示例性实施例示出的另一种广告识别装置的框图。
图10是根据一示例性实施例示出的另一种广告识别装置的框图。
图11是根据一示例性实施例示出的另一种广告识别装置的框图。
图12是根据一示例性实施例示出的另一种广告识别装置的框图。
图13是根据一示例性实施例示出的另一种广告识别装置的框图。
图14是根据一示例性实施例示出的另一种广告识别装置的框图。
图15是根据一示例性实施例示出的一种用于广告识别的装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是根据一示例性实施例示出的一种广告识别方法的流程图,请参考图1,该方法可以应用于终端中,包括以下步骤:
步骤102,获取网页数据中网页元素的预设属性的属性值;
在本实施例中,用户在输入所需访问的网页后,浏览器向该服务器发起请求,并接收服务器返回的HTML文件(本领域技术人员应该理解的是:服务器也可以返回其他类型的文件,此处以HTML文件为例进行说明);浏览器通过载入HTML文件,实现对网页的加载。网页的加载包括对网页中各个网页元素的组装,比如文字、图片、Flash动画等。
HTML文件中的代码可以形成对应的DOM(Document Object Model,文档对象化模型)结构,即DOM tree,DOM tree中的每个节点表现为一个HTML标记或者HTML标记内的文本项。因此,可以通过DOM tree的分析,获取网页上的任一网页元素的属性,以用于本公开的广告识别操作。
步骤104,根据所述预设属性的属性值,判断所述网页元素是否显示于浏览器窗口的预设位置;
在本实施例中,针对“悬浮类”广告在浏览器窗口中的位置不变的特征,可以根据网页元素的预设属性的属性值,判断当前的网页元素是否为广告。比如图2示出了一示例性的界面操作示意图,请参考图2(a),当用户通过终端上的浏览器进行网页浏览时,网页上可能存在各种类型的网页元素,比如网页元素21为显示于浏览器窗口下方的一张图片、网页元素22为显示于浏览器窗口底部的一行文字(及其“关闭”控件等);当用户在图2(a)所示的界面上做出“向上滑动”的手势时,将转入图2(b)所示的界面,即网页页面根据该手势而向上滚动。请参考图2(b),在网页发生页面滚动时,网页元素21(即“图片1”)随之向上发生移动至浏览器窗口的中部,而网页元素22仍然处于浏览器窗口底部,呈现一种“悬浮”在网页“上层”、不随网页滚动而发生位置变化的效果,即“悬浮类”网页元素。因此,本公开可以根据网页元素的预设属性的属性值,查找出网页中类似网页元素22的广告,以便于对其进行拦截等处理。
步骤106,若确定所述网页元素显示于浏览器窗口的预设位置,则判定所述网页元素为疑似广告。
由上述实施例可见,通过获取网页数据中网页元素的预设属性的属性值,可以有效识别出网页中显示于浏览器窗口的固定位置的网页元素,从而准确识别出“悬浮类”广告。
作为一示例性实施例,为了实现对“悬浮类”网页元素的有效识别,在步骤102中获取的网页元素的预设属性的属性值可以为:网页元素的预设静态属性的属性值。在本实施例中,“静态属性”即该属性的属性值在网页发生滚动时不会发生变化。
在一种示例性实施方式下,预设静态属性可以为网页元素的可见性属性。在CSS(Cascading Style Sheets,级联样式表)语言中,“可见性”即“display”,display的属性值可以包括“none”、“block”和“inline”类型。其中,当display的属性值为none时,表明相应的网页元素在网页上被“隐藏”;当display的属性值为block时,表明相应的网页元素在网页上显示为“块级”,并且占网页上的一行,比如图2(a)中所示的网页元素22;当display的属性值为inline时,表明相应的网页元素在网页上显示为“行级”,但不占用一行,比如图2(b)中所示的“图片2”,仅占一行中的一部分区域。因此,当网页元素的display的属性值为block类型时,该网页元素很可能为网页上的“悬浮类”广告。
在另一种示例性实施方式中,预设静态属性可以为网页元素的位置属性。在CSS语言中,“位置”即“position”,position的属性值可以包括“static”、“relative”、“absolute”和“fixed”类型。其中,当position的属性值为static时,表明相应的网页元素通过“静态定位”在网页上进行定位,即采用默认值进行网页元素的定位处理,并且忽略top(顶部,即网页元素与网页顶部边框的距离)、bottom(底部,即网页元素与网页底部边框的距离)、left(左侧,即网页元素与网页左侧边框的距离)、right(右侧,即网页元素与网页右侧边框的距离)和z-index(即网页元素的堆叠顺序)等属性的声明;当position的属性值为relative时,表明相应的网页元素通过“相对定位”在网页上进行定位,即网页元素将相对于静态定位时的位置进行调整;当position的属性值为absolute时,表明相应的网页元素通过“绝对定位”在网页上进行定位,使得网页元素将按照包含它的元素的位置进行调整;当position的属性值为fixed时,表明相应的网页元素通过“固定定位”在网上上进行定位,使得网页元素被设置在浏览器窗口上的一个固定位置。
因此,position的属性值为fixed类型时,直接对应于“悬浮”类型的网页元素,即可能是“悬浮窗”广告;同时,由于IE6浏览器不支持fixed类型的position,因而为了兼容IE6浏览器,网页元素对应的css代码中可能同时包含fixed类型和absolute类型的css语句,比如在下述语句中:“position:fixed;”表明该网页元素为“悬浮”类型,而通过“_position:absolute;”使得该css语句能够兼容IE6浏览器,使得该语句对应的网页元素能够显示为网页上的“悬浮窗”:
在另一种示例性实施方式中,预设静态属性可以为网页元素的可见性属性和位置属性,即同时对网页元素的display属性和position属性的属性值进行获取和判断,若网页元素的display属性的属性值为block类型、position属性的属性值为fixed或absolute类型,则判定该网页元素为网页上呈现为“悬浮”效果的疑似广告。
作为另一示例性实施例,为了实现对“悬浮类”网页元素的有效识别,在步骤102中获取的网页元素的预设属性的属性值可以为:网页元素的预设动态属性在相应网页发生滚动时的属性值。在本实施例中,“动态属性”即该属性的属性值在网页发生滚动时会发生变化。
在一种示例性实施方式下,预设动态属性可以为网页元素与所属网页的各边框之间的相对距离。在CSS语言中,上述的“相对距离”即“top”、“bottom”、“left”和“right”属性的属性值;当然,由于top和bottom均为竖向距离、left和right均为横向距离,因而只需要在top和bottom中选择一个属性、在left和right中选择一个属性,即可对一个网页元素在网页中进行定位。
请参考图3,假定用户通过浏览器窗口32来浏览网页31。在图3(a)中,网页31的顶部边框与浏览器窗口32的顶部边框齐平,网页31上显示有网页元素33和网页元素M,其中网页元素33的上部与浏览器窗口32的顶部边框之间的距离top1=a、且网页元素33的左部与浏览器窗口32的左部边框之间的距离left1=0(假定网页31和浏览器窗口32的左侧边框、右侧边框均齐平),而网页元素M的上部与浏览器窗口32的顶部边框之间的距离top2=c、且网页元素M的左部与浏览器窗口32的左部边框之间的距离left2=d。
当用户通过“向上滑动”的操作手势,使得网页31发生滚动时,滚动后的界面效果如图3(b)所示:网页元素33“悬浮”显示于浏览器窗口32,因而网页元素33的上部与网页31的顶部边框之间的距离L1=a’、与浏览器窗口32的顶部边框之间的距离top1’=top1=a,且a≠a’;而网页元素M并非“悬浮”显示,因而网页元素M的上部与网页31的顶部边框之间的距离L2=top2=c、与浏览器窗口32的顶部边框之间的距离top2’=c’,且c≠c’。
因此,在网页发生滚动时,如果网页元素与网页各边框之间的相对距离发生变化,或者该网页元素与浏览器窗口各边框之间的相对距离不变,说明该网页元素“悬浮”显示在网页中,该网页元素很可能为网页上的“悬浮类”广告。
作为另一示例性实施例,在步骤102中获取的网页元素的预设属性的属性值可以为预设静态属性和预设动态属性的属性值,即同时获取网页元素的预设静态属性和预设动态属性的属性值,比如上述的可见性属性的属性值、位置属性的属性值和网页元素与网页各边框之间的相对距离,则网页元素满足下述条件中的至少两个:可见性属性的属性值为block类型、位置属性的属性值为fixed或absolute类型、相对距离随网页滚动而变化,即可更为准确地判断当前的网页元素可能为“悬浮类”广告。图4示出了根据本公开的一示例性实施例的广告识别方法,请参考图4,该方法包括:
步骤402,获取待识别网页的网页数据;
步骤404,针对网页数据中的网页元素,获取预设静态属性的属性值,该预设静态属性可以为该网页元素的可见性属性和/或位置属性,即display属性和/或position属性;
步骤404’,获取网页元素的预设动态属性的属性值,该预设动态属性可以为该网页元素与所属网页各边框之间的相对距离,即top、bottom、left、right属性;需要说明的是,步骤404和步骤404’之间并没有必然的执行顺序。
步骤406A,在步骤404之后,可以判断网页元素的display属性的属性值是否为block类型;
步骤406B,在步骤404之后,可以判断网页元素的position属性的属性值是否为fixed或absolute类型;
步骤406’,在步骤404’之后,可以判断top、bottom、left、right属性在网页滚动时是否发生变化,比如网页元素的top和left属性;
步骤408,判断在步骤406A、步骤406B和步骤406’中,是否满足至少两个步骤的判断条件;若满足,则转入步骤410,否则结合其他识别方式执行进一步判断,或可以不做任何处理;
步骤410,判定相应的网页元素为疑似广告。
除“悬浮类”广告之外,本公开还可以通过下述方式识别其他类型的广告。
A、全屏广告
请参考图5,作为一示例性实施例的界面示意图,全屏类型的广告常见于移动设备,其中包含单一一副广告图片51,并且图片中可能存在较少数量的按钮52。
因此,对于全屏广告,可以通过判断相应的网页元素是否满足“网页元素对应于置于顶部且全屏显示的窗口,且该窗口中包含的图片数量不大于第一预设数量、按钮数量不大于第二预设数量”的条件,比如第一预设数量可以为2、第二预设数量可以为3。
B、图片广告和文字广告
请参考图6,作为一示例性实施例的界面示意图,网页元素61为用于举例说明的图片广告、网页元素62为用于举例说明的文字广告。
此外,针对上述所有类型的广告,即“悬浮类”广告、全屏广告、图片广告和文字广告,均可以通过下述方式进行判断:
1)网页元素的任一属性的属性值中是否包含预设特征字符;
在本实施例中,网页元素的属性可以为Tagname、ID、class等,而预设特征字符可以为“广告”、“AD”、“Adv”、“Advert”、“Advertisement”等。比如对于语句“<div class="ads_bar">暑期促销</div>”,由于属性“class”的属性值为“ads_bar”,其中包含有特征字符“ad”,即可判定相应的网页元素为疑似广告。
2)网页元素的内容值的数据量小于或等于预设数据量;
在本实施例中,仍以上述语句“<div class="ads_bar">暑期促销</div>”为例,网页元素的内容值即上述语句中的“暑期促销”,由于广告的内容值往往均为数据量较小的“暑期促销”、“劲爆”、“仅售”等文本文字,而非广告类型的网页元素对应的内容值数据量往往较大,因而可以据此识别出疑似广告。
3)网页元素的可见性属性按照预设时间间隔进行切换;
在本实施例中,一些广告的属性中包含预设时间间隔,使得广告在该时间间隔后自动消失。因此,通过判断网页元素的可见性属性是否会按照预设时间间隔发生变化,比如从“block”类型变化为“none”类型,即可判定相应的网页元素可能为疑似广告。
4)网页元素的统一资源定位符URL中包含预设特征字符。
在本实施例中,URL中的预设特征字符可以为“广告”、“AD”、“Adv”、“Advert”、“Advertisement”等,当网页元素的URL中包含上述任意预设特征字符时,表明相应的网页元素可能为疑似广告。
如图7所示,根据本公开的一示例性实施例的广告识别方法,包括:
步骤702,获取通过上述任一实施例判定的疑似广告;
步骤704,判断疑似广告是否为图片类的网页元素,若是,则转入步骤706和步骤706’,否则转入步骤710;
步骤706,判断疑似广告对应的填充颜色与网页的填充颜色的色差是否满足大于或等于预设色差阈值;
步骤706’,判断疑似广告的颜色直方图变化率是否大于或等于预设变化率阈值;其中,步骤706和步骤706’之间并没有必须的执行顺序;
步骤708,判断是否满足步骤706和步骤706’之间的至少一个条件,若满足,则转入步骤710,否则可以结合其他识别方式执行进一步判断,或可以不做任何处理;
当然,也可以仅采用步骤706或步骤706’中的任意一个条件进行判断,则当该条件满足时转入步骤710,否则可以结合其他识别方式执行进一步判断,或可以不做任何处理;
步骤710,判定相应的疑似广告为实际广告。
在本实施例中,通过对疑似广告做进一步的类型识别,能够避免对网页元素的误判断,防止对误判断的网页元素进行广告拦截时导致影响用户对网页的正常浏览。
与前述的广告识别方法的实施例相对应,本公开还提供了广告识别装置的实施例。
图8是根据一示例性实施例示出的一种广告识别装置的框图。请参照图7,该装置包括获取单元81、判断单元82和判定单元83。
其中,获取单元81,被配置为获取网页数据中网页元素的预设属性的属性值;
判断单元82,被配置为根据所述预设属性的属性值,判断所述网页元素是否显示于浏览器窗口的预设位置;
判定单元83,被配置为在确定所述网页元素显示于浏览器窗口的预设位置时,判定所述网页元素为疑似广告。
在上述实施例中,根据“悬浮窗”类型的广告在浏览器上显示位置固定的特征,通过判断网页元素是否显示于浏览器窗口的预设位置,能够识别出网页中可能的“悬浮窗”类型广告。
如图9所示,图9是根据一示例性实施例示出的另一种广告识别装置的框图,该实施例在前述图8所示实施例的基础上,获取单元81可以包括:第一属性值获取子单元811。
其中,第一属性值获取子单元811,被配置为获取所述网页元素的预设静态属性的属性值,该预设静态属性可以包括:所述网页元素的可见性属性和/或位置属性。
在上述实施例中,通过对网页元素的预设静态属性的分析,确定网页元素是否在浏览器上固定显示,从而识别出网页中可能的“悬浮窗”类型广告。
如图10所示,图10是根据一示例性实施例示出的另一种广告识别装置的框图,该实施例在前述图9所示实施例的基础上,判断单元82可以包括:类型判断子单元821。
其中,类型判断子单元821,被配置为判断所述网页元素的可见性属性的属性值是否为块级block类型,和/或判断所述网页元素的位置属性的属性值是否为固定fixed类型或绝对absolute类型。
如图11所示,图11是根据一示例性实施例示出的另一种广告识别装置的框图,该实施例在前述图8所示实施例的基础上,获取单元81可以包括:第二属性值获取子单元812。
其中,第二属性值获取子单元812,被配置为获取所述网页元素的预设动态属性在所述网页数据对应的网页发生滚动时的属性值,该预设动态属性可以包括:所述网页元素与所述网页的各边框之间的相对距离。
在上述实施例中,通过对网页元素的预设动态属性的分析,确定网页元素是否在浏览器上固定显示,从而识别出网页中可能的“悬浮窗”类型广告。
当然,还可以通过对网页元素的预设静态属性和预设动态属性的同时分析,确定网页元素是否在浏览器上固定显示,从而确定网页元素是否为可能的“悬浮窗”类型广告。
如图12所示,图12是根据一示例性实施例示出的另一种广告识别装置的框图,该实施例在前述图11所示实施例的基础上,判断单元82可以包括:变化判断子单元822。
其中,变化判断子单元822,被配置为判断所述相对距离的数值在所述网页滚动时是否发生同步变化。
如图13所示,图13是根据一示例性实施例示出的另一种广告识别装置的框图,该实施例在前述图8所示实施例的基础上,广告识别装置还可以包括:
条件判断单元84,被配置为当所述网页元素满足下述条件中至少之一时,判定所述网页元素为疑似广告:
所述网页元素的内容值的数据量小于或等于预设数据量;
所述网页元素的可见性属性按照预设时间间隔进行切换;
所述网页元素的任一属性的属性值中包含预设特征字符;
所述网页元素对应于置于顶部且全屏显示的窗口,且该窗口中包含的图片数量不大于第一预设数量、按钮数量不大于第二预设数量;
所述网页元素的统一资源定位符URL中包含预设特征字符。
在上述实施例中,通过网页元素的其他属性来识别网页元素的类型,以确定网页元素是否可能为其他类型的广告。
需要说明的是,上述图13所示的装置实施例中的条件判断单元84的结构也可以包含在前述图8至图12任意一个装置实施例中,对此本公开不进行限制。
如图14所示,图14是根据一示例性实施例示出的另一种广告识别装置的框图,该实施例在前述图8所示实施例的基础上,广告识别装置还可以包括类型判断单元85和广告判定单元86。
其中,类型判断单元85,被配置为判断所述疑似广告对应的网页元素是否为图片类元素;
广告判定单元86,被配置为在所述疑似广告对应的网页元素为图片类元素的情况下,当所述疑似广告满足预设条件时,判定所述疑似广告为实际广告;在所述疑似广告对应的网页元素为非图片类元素的情况下,判定所述疑似广告为实际广告。
其中,所述预设条件包括以下至少之一:
所述疑似广告对应的填充颜色与网页的填充颜色的色差大于或等于预设色差阈值;
所述疑似广告的颜色直方图变化率大于或等于预设变化率阈值。
在上述实施例中,通过对网页元素是否为图片的判断,对疑似广告进一步确认,以避免对非广告网页元素的误判。
需要说明的是,上述图14所示的装置实施例中的类型判断单元85和广告判定单元86的结构也可以包含在前述图8至图13任意一个装置实施例中,对此本公开不进行限制。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本公开还提供一种广告识别装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:获取网页数据中网页元素的预设属性的属性值;根据所述预设属性的属性值,判断所述网页元素是否显示于浏览器窗口的预设位置;若确定所述网页元素显示于浏览器窗口的预设位置,则判定所述网页元素为疑似广告。
相应的,本公开还提供一种终端,所述终端包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:获取网页数据中网页元素的预设属性的属性值;根据所述预设属性的属性值,判断所述网页元素是否显示于浏览器窗口的预设位置;若确定所述网页元素显示于浏览器窗口的预设位置,则判定所述网页元素为疑似广告。
图15是根据一示例性实施例示出的一种用于广告识别的装置1500的框图。例如,装置1500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图15,装置1500可以包括以下一个或多个组件:处理组件1502,存储器1504,电源组件1506,多媒体组件1508,音频组件1510,输入/输出(I/O)的接口1512,传感器组件1514,以及通信组件1516。
处理组件1502通常控制装置1500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1502可以包括一个或多个处理器1520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1502可以包括一个或多个模块,便于处理组件1502和其他组件之间的交互。例如,处理部件1502可以包括多媒体模块,以方便多媒体组件1508和处理组件1502之间的交互。
存储器1504被配置为存储各种类型的数据以支持在装置1500的操作。这些数据的示例包括用于在装置1500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1506为装置1500的各种组件提供电力。电源组件1506可以包括电源管理系统,一个或多个电源,及其他与为装置1500生成、管理和分配电力相关联的组件。
多媒体组件1508包括在所述装置1500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1508包括一个前置摄像头和/或后置摄像头。当装置1500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1510被配置为输出和/或输入音频信号。例如,音频组件1510包括一个麦克风(MIC),当装置1500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1504或经由通信组件1516发送。在一些实施例中,音频组件1510还包括一个扬声器,用于输出音频信号。
I/O接口1512为处理组件1502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1514包括一个或多个传感器,用于为装置1500提供各个方面的状态评估。例如,传感器组件1514可以检测到装置1500的打开/关闭状态,组件的相对定位,例如所述组件为装置1500的显示器和小键盘,传感器组件1514还可以检测装置1500或装置1500一个组件的位置改变,用户与装置1500接触的存在或不存在,装置1500方位或加速/减速和装置1500的温度变化。传感器组件1514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1516被配置为便于装置1500和其他设备之间有线或无线方式的通信。装置1500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件1516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件1516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置1500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述广告识别方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1504,上述指令可由装置1500的处理器1520执行以完成上述广告识别方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种广告识别方法,所述方法包括:
获取网页数据中网页元素的预设属性的属性值;
根据所述预设属性的属性值,判断所述网页元素是否显示于浏览器窗口的预设位置;
若确定所述网页元素显示于浏览器窗口的预设位置,则判定所述网页元素为疑似广告。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (21)

1.一种广告识别方法,其特征在于,包括:
获取网页数据中网页元素的预设属性的属性值;
根据所述预设属性的属性值,判断所述网页元素是否显示于浏览器窗口的预设位置,所述预设位置在所述浏览器窗口中的位置固定;
若确定所述网页元素显示于浏览器窗口的预设位置,则判定所述网页元素为疑似广告;
当所述网页元素的可见性属性按照预设时间间隔进行切换时,判定所述网页元素为疑似广告。
2.根据权利要求1所述的方法,其特征在于,获取网页数据中网页元素的预设属性的属性值包括:
获取所述网页元素的预设静态属性的属性值。
3.根据权利要求2所述的方法,其特征在于,所述预设静态属性包括:所述网页元素的可见性属性和/或位置属性。
4.根据权利要求3所述的方法,其特征在于,根据所述预设属性的属性值,判断所述网页元素是否显示于浏览器窗口的预设位置包括:
判断所述网页元素的可见性属性的属性值是否为块级block类型;
和/或判断所述网页元素的位置属性的属性值是否为固定fixed类型或绝对absolute类型。
5.根据权利要求1所述的方法,其特征在于,获取网页数据中网页元素的预设属性的属性值包括:
获取所述网页元素的预设动态属性在所述网页数据对应的网页发生滚动时的属性值。
6.根据权利要求5所述的方法,其特征在于,所述预设动态属性包括:所述网页元素与所述网页的各边框之间的相对距离。
7.根据权利要求6所述的方法,其特征在于,根据所述预设属性的属性值,判断所述网页元素是否显示于浏览器窗口的预设位置包括:
判断所述相对距离的数值在所述网页滚动时是否发生同步变化。
8.根据权利要求1所述的方法,其特征在于,当所述网页元素满足下述条件中至少之一时,判定所述网页元素为疑似广告:
所述网页元素的内容值的数据量小于或等于预设数据量;
所述网页元素的任一属性的属性值中包含预设特征字符;
所述网页元素对应于置于顶部且全屏显示的窗口,且该窗口中包含的图片数量不大于第一预设数量、按钮数量不大于第二预设数量;
所述网页元素的统一资源定位符URL中包含预设特征字符。
9.根据权利要求1所述的方法,其特征在于,还包括:
判断所述疑似广告对应的网页元素是否为图片类元素;
若为图片类元素,则当所述疑似广告满足预设条件时,判定所述疑似广告为实际广告;若为非图片类元素,则判定所述疑似广告为实际广告。
10.根据权利要求9所述的方法,其特征在于,所述预设条件包括以下至少之一:
所述疑似广告对应的填充颜色与网页的填充颜色的色差大于或等于预设色差阈值;
所述疑似广告的颜色直方图变化率大于或等于预设变化率阈值。
11.一种广告识别装置,其特征在于,包括:
获取单元,用于获取网页数据中网页元素的预设属性的属性值;
判断单元,用于根据所述预设属性的属性值,判断所述网页元素是否显示于浏览器窗口的预设位置,所述预设位置在所述浏览器窗口中的位置固定;
判定单元,用于在确定所述网页元素显示于浏览器窗口的预设位置时,判定所述网页元素为疑似广告;当所述网页元素的可见性属性按照预设时间间隔进行切换时,判定所述网页元素为疑似广告。
12.根据权利要求11所述的装置,其特征在于,所述获取单元包括:
第一属性值获取子单元,用于获取所述网页元素的预设静态属性的属性值。
13.根据权利要求12所述的装置,其特征在于,所述预设静态属性包括:所述网页元素的可见性属性和/或位置属性。
14.根据权利要求13所述的装置,其特征在于,所述判断单元包括:
类型判断子单元,用于判断所述网页元素的可见性属性的属性值是否为块级block类型,和/或判断所述网页元素的位置属性的属性值是否为固定fixed类型或绝对absolute类型。
15.根据权利要求11所述的装置,其特征在于,所述获取单元包括:
第二属性值获取子单元,用于获取所述网页元素的预设动态属性在所述网页数据对应的网页发生滚动时的属性值。
16.根据权利要求15所述的装置,其特征在于,所述预设动态属性包括:所述网页元素与所述网页的各边框之间的相对距离。
17.根据权利要求16所述的装置,其特征在于,所述判断单元包括:
变化判断子单元,用于判断所述相对距离的数值在所述网页滚动时是否发生同步变化。
18.根据权利要求11所述的装置,其特征在于,还包括:
条件判断单元,用于当所述网页元素满足下述条件中至少之一时,判定所述网页元素为疑似广告:
所述网页元素的内容值的数据量小于或等于预设数据量;
所述网页元素的任一属性的属性值中包含预设特征字符;
所述网页元素对应于置于顶部且全屏显示的窗口,且该窗口中包含的图片数量不大于第一预设数量、按钮数量不大于第二预设数量;
所述网页元素的统一资源定位符URL中包含预设特征字符。
19.根据权利要求11所述的装置,其特征在于,还包括:
类型判断单元,用于判断所述疑似广告对应的网页元素是否为图片类元素;
广告判定单元,用于在所述疑似广告对应的网页元素为图片类元素的情况下,当所述疑似广告满足预设条件时,判定所述疑似广告为实际广告;在所述疑似广告对应的网页元素为非图片类元素的情况下,判定所述疑似广告为实际广告。
20.根据权利要求19所述的装置,其特征在于,所述预设条件包括以下至少之一:
所述疑似广告对应的填充颜色与网页的填充颜色的色差大于或等于预设色差阈值;
所述疑似广告的颜色直方图变化率大于或等于预设变化率阈值。
21.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-10中任一项所述方法的步骤。
CN201410416260.7A 2014-08-21 2014-08-21 广告识别方法及装置、电子设备 Active CN104239422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410416260.7A CN104239422B (zh) 2014-08-21 2014-08-21 广告识别方法及装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410416260.7A CN104239422B (zh) 2014-08-21 2014-08-21 广告识别方法及装置、电子设备

Publications (2)

Publication Number Publication Date
CN104239422A CN104239422A (zh) 2014-12-24
CN104239422B true CN104239422B (zh) 2018-05-08

Family

ID=52227482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410416260.7A Active CN104239422B (zh) 2014-08-21 2014-08-21 广告识别方法及装置、电子设备

Country Status (1)

Country Link
CN (1) CN104239422B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778405B (zh) * 2015-03-11 2018-04-27 小米科技有限责任公司 广告拦截方法及装置
CN106033450B (zh) * 2015-03-17 2020-02-14 中兴通讯股份有限公司 一种广告拦截的方法、装置和浏览器
CN106202101B (zh) * 2015-05-06 2020-04-03 腾讯科技(深圳)有限公司 广告识别方法及装置
CN106682677A (zh) * 2015-11-11 2017-05-17 广州市动景计算机科技有限公司 广告识别规则归纳方法、装置及设备
CN106209889B (zh) * 2016-07-25 2019-07-05 北京小米移动软件有限公司 检测网页中劫持信息的方法及装置
CN106407262A (zh) * 2016-08-24 2017-02-15 百度在线网络技术(北京)有限公司 信息展现方法及装置
WO2018058330A1 (zh) * 2016-09-27 2018-04-05 中兴通讯股份有限公司 广告拦截的方法、装置和浏览器、计算机存储介质
CN108062324A (zh) * 2016-11-08 2018-05-22 广州市动景计算机科技有限公司 广告过滤方法、装置及用户终端
CN108846061B (zh) * 2018-06-01 2022-04-29 北京金山云网络技术有限公司 屏蔽广告的方法、装置和终端设备
CN109214864A (zh) * 2018-08-27 2019-01-15 河南丰泰光电科技有限公司 一种广告识别方法及装置、电子设备
CN109241437A (zh) * 2018-09-19 2019-01-18 麒麟合盛网络技术股份有限公司 一种广告识别模型的生成方法、广告识别方法及系统
CN111914199B (zh) * 2019-05-10 2024-04-12 腾讯科技(深圳)有限公司 一种页面元素过滤方法、装置、设备及存储介质
CN110457597A (zh) * 2019-08-08 2019-11-15 中科鼎富(北京)科技发展有限公司 一种广告识别方法及装置
CN112734501A (zh) * 2021-02-05 2021-04-30 上海云鱼智能科技有限公司 一种发布信息判定为广告的方法、装置、服务器、客户端、终端及其存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1632811A (zh) * 2004-11-10 2005-06-29 北京银河视讯传媒广告有限公司 广告信息收集及实时分析系统及其方法
CN103530560A (zh) * 2013-09-29 2014-01-22 北京金山网络科技有限公司 广告拦截的方法、装置和客户端
CN103886088A (zh) * 2014-03-28 2014-06-25 北京金山网络科技有限公司 一种拦截网页中的广告的方法及装置
CN103914473A (zh) * 2013-01-04 2014-07-09 深圳市金蝶中间件有限公司 网页内容冻结方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785955B2 (en) * 2011-06-28 2017-10-10 Operative Media, Inc. Optimization of yield for advertising inventory

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1632811A (zh) * 2004-11-10 2005-06-29 北京银河视讯传媒广告有限公司 广告信息收集及实时分析系统及其方法
CN103914473A (zh) * 2013-01-04 2014-07-09 深圳市金蝶中间件有限公司 网页内容冻结方法和装置
CN103530560A (zh) * 2013-09-29 2014-01-22 北京金山网络科技有限公司 广告拦截的方法、装置和客户端
CN103886088A (zh) * 2014-03-28 2014-06-25 北京金山网络科技有限公司 一种拦截网页中的广告的方法及装置

Also Published As

Publication number Publication date
CN104239422A (zh) 2014-12-24

Similar Documents

Publication Publication Date Title
CN104239422B (zh) 广告识别方法及装置、电子设备
CN105956026B (zh) 网页渲染方法及装置
CN104778405B (zh) 广告拦截方法及装置
CN103914523A (zh) 页面回退控制方法及装置
CN103886025A (zh) 网页中图片的显示方法和装置
CN104778226A (zh) 网页内内容项屏蔽方法及装置
CN106055707A (zh) 弹幕显示方法及装置
CN106126632A (zh) 推荐方法及装置
CN104572875B (zh) 推广信息投放有效性确定方法及装置
CN106528735A (zh) 控制浏览器播放媒体资源的方法及装置
CN106503131A (zh) 获取兴趣信息的方法及装置
CN106789551A (zh) 会话消息展示方法及装置
CN102511169A (zh) 视频再现设备及其控制方法和存储有程序的计算机可读取的存储介质
CN104951445B (zh) 一种网页处理方法及装置
CN104199915A (zh) 网页变化检测方法及装置
CN108628870A (zh) 一种网页预览方法和装置
CN110889057B (zh) 业务数据可视化方法和业务对象可视化装置
CN106503048A (zh) 浏览器颜色设置方法和装置
CN104156488A (zh) 网页变化检测方法及装置
CN107360322B (zh) 信息提示方法及装置
CN104866302A (zh) 网页渲染的方法及装置
CN107679118A (zh) 页面加载方法及装置
JP2016029540A (ja) 情報処理装置、情報処理方法及びプログラム
CN107908325A (zh) 界面展示方法及装置
CN106886541B (zh) 一种数据搜索方法、装置以及一种用于数据搜索的装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant