CN102033881A - 用于识别网页中的广告的方法和系统 - Google Patents

用于识别网页中的广告的方法和系统 Download PDF

Info

Publication number
CN102033881A
CN102033881A CN2009101773364A CN200910177336A CN102033881A CN 102033881 A CN102033881 A CN 102033881A CN 2009101773364 A CN2009101773364 A CN 2009101773364A CN 200910177336 A CN200910177336 A CN 200910177336A CN 102033881 A CN102033881 A CN 102033881A
Authority
CN
China
Prior art keywords
sub
pages
advertisement
seed
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009101773364A
Other languages
English (en)
Inventor
包胜华
张小洵
张俐
苏中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN2009101773364A priority Critical patent/CN102033881A/zh
Priority to KR20100094239A priority patent/KR20110035960A/ko
Priority to US12/893,187 priority patent/US8869025B2/en
Publication of CN102033881A publication Critical patent/CN102033881A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及网页识别技术,尤其涉及识别网页中的广告的技术。本发明提供了一种用于识别网页中的广告的方法,包括:接收种子网页;通过分析所述种子网页的源代码得到所述种子网页的节点特征;根据预设的规则以及所述节点特征,确定所述种子网页中的种子广告;通过分析所述种子广告的链接得到所述种子广告的链接模式;以及利用所述链接模式,识别所述种子网页所在的网站中除了所述种子广告外的其它广告。

Description

用于识别网页中的广告的方法和系统
技术领域
本发明涉及网页识别技术,尤其涉及识别网页中的广告的技术。
背景技术
随着互联网技术的不断进步,互联网网民的不断增加,电子商务产业取得了蓬勃发展,原来在电视、楼宇等播放的广告也越来越多地流向互联网。对于企业而言,为了取得更好的宣传效果,就不能忽视在互联网上投放广告的重要性,而且互联网广告以其形式多样、制作快捷、易于变换等特性也受到了越来越多的企业的欢迎。对于许多互联网内容提供商尤其是大型门户网站而言,互联网广告收入已经成为其主要的收入来源和盈利模式之一。互联网内容提供商或者网站经常通过统计用户对广告的点击量来向广告主收取广告费。
许多企业对投放在网页上的广告都具有很大的兴趣,并且这些广告信息可以被用于许多广告数据应用中,例如基于互联网在线广告的分布情况估算竞争对手的广告投资等。然而,由于互联网广告的排版布局、格式类型在不同的网站和网页间都具有很大的差异,因此如何精确地从不同的网页中检测出不同的广告仍然是一个亟待解决的难题。即使对于同一网页而言,广告主的改变也会导致广告投放的变化。
目前检测网页广告的方法主要是设定简单的规则来对网页进行分析,从而找出网页中的广告。例如,这样的规则可以是:凡是位于网页左下角的方框均为广告;凡是具有闪烁效果弹出窗口均为广告等。但问题在于:网页上越来越多的广告以链接的形式存在,甚至以非广告性质的文字标题存在。因此,试图依靠简单地规则来全面准确地找出网页中的广告是难以实现的,这样的方法无法发现大量与简单地规则不匹配的网页广告。
发明内容
为此,本发明提供了一种用于识别网页中的广告的方法和系统,以便克服现有技术中的问题。本发明的构思是基于下面的考虑:为了计费的方便,大部分网站的广告都具有相同的链接模式,也就是说广告的URL地址都具有相同或相似的模式,通过找出这些具有相同或相似的URL地址模式的网页节点,就可以更全面准确地找出网页或网站中的广告。
根据本发明的一个方面,提供了一种用于识别网页中的广告的方法,包括:接收种子网页;通过分析所述种子网页的源代码得到所述种子网页的节点特征;根据预设的规则以及所述节点特征,确定所述种子网页中的种子广告;通过分析所述种子广告的链接得到所述种子广告的链接模式;以及利用所述链接模式,识别所述种子网页所在的网站中除了所述种子广告外的其它广告。
在本发明的一个实施方式中,所述用于识别网页中的广告的方法中的接收种子网页的步骤还包括:通过在所述种子网页所在的网站中扩展所接收到的种子网页得到多个种子网页。
根据本发明的另一方面,提供了一种用于识别网页中的广告的系统,包括:接收种子网页的装置;通过分析所述种子网页的源代码得到所述种子网页的节点特征的装置;根据预设的规则以及所述节点特征,确定所述种子网页中的种子广告的装置;通过分析所述种子广告的链接得到所述种子广告的链接模式的装置;以及利用所述链接模式,识别所述种子网页所在的网站中除了所述种子广告外的其它广告的装置。
在本发明的一个实施方式中,所述接收种子网页的装置还包括:通过在所述种子网页所在的网站中扩展所接收到的种子网页得到多个种子网页的装置。
通过本发明的方法和系统,可以识别出大量的非种子广告的其它广告,从而使得用户能够更全面、准确、迅速地识别类型、图案愈加多样的网页广告,带来了良好的用户体验,更好地满足了商业的需求。
附图说明
通过对结合附图所示出的实施方式进行详细说明,本发明的上述以及其他特征将更加明显,本发明附图中相同的标号表示相同或相似的部件。在附图中,
图1示出了根据本发明一实施方式的用于识别网页中的广告的方法的流程图;
图2示出了根据本发明另一实施方式的用于识别网页中的广告的方法的流程图;
图3示出了根据本发明一实施方式的利用正则表达式对URL特征进行分析的表;
图4A示出了根据本发明示例性的两个种子网页及其对应的HTML源代码;
图4B示出了分析所得到的图4A中的第一个种子网页中的节点特征;
图4C示出了根据分析所得到的两个种子网页中的节点特征和预设的规则而确定并被标识的种子广告;
图5示出了根据本发明一实施方式的用于识别网页中的广告的系统的框图;
图6示出了根据本发明另一实施方式的用于识别网页中的广告的系统的框图;
具体实施方式
在下文中,将参考附图通过实施方式对本发明提供的用于识别网页中的广告的方法和系统进行详细地描述。
图1示出了根据本发明一实施方式的用于识别网页中的广告的方法的流程图。在图1中,步骤从101开始,接收种子网页。种子网页是指被输入用于检索其中包含的广告,或者被输入用于检索其所在的网站上所包含的广告的网页。种子网页可以由用户指定或者输入,也可以随机在网站上抓取或者按照一定的规则在网站上抓取。种子网页既可以是一个网页,也可以是多个网页。步骤101中接收种子网页在根据本发明的一个实施方式中可以是直接接收种子网页的web页面;在根据本发明的另一个实施方式中可以是接收种子网页的URL地址;在根据本发明的又一个实施方式中可以是接收种子网页的源代码,例如HTML源代码。
接收到种子网页后,在步骤103中分析得到种子网页的节点特征。这里的分析指的是对种子网页的源代码例如HTML代码进行分析。需要明确一下网页的节点的概念。本领域技术人员公认的,在HTML代码中,网页是以Dom Tree的树结构形式存在的,其中的树结构的各个节点即为网页的节点。举例而言,对于下面这个HTML代码:<a href=″http://www.w3schools.com″>Visit W3Schools.com!</a>,其含义是指向一个链接http://www.w3schools.com,相应的锚文本显示为“Visit W3Schools.com!”,其中的“<a>”标签即定义了一个网页节点,该类网页节点可以按照两种方式使用:一是创建到另一文件(页面)的链接;二是在一个文件内创建书签。简单地理解,在HTML源代码中被尖括号括起来的部分即为网页的节点。种子网页的节点特征包括下列参数中的一个或多个:位置、形状、高度、宽度、面积和类型,并且节点特征还可能包括这些参数之外的其它参数,只要是用来描述节点的特征的参数即可。本领域技术人员可以根据需要选择这些参数中的一个或多个作为种子网页的节点特征。
根据本发明的一个实施方式,通过模拟执行所述种子网页的源代码(例如HTML代码)来得到种子网页的节点特征参数(如长、宽等),这种方式将在附图4以及对应的文字说明中具体描述。根据本发明的另一实施方式,所述种子网页的源代码中可以包含了关于各个节点特征的参数信息,通过直接读取所述种子网页的源代码就可以得到种子网页的节点特征参数。例如以节点<img src=″ad1.jpg″>为例,原先的<img src=“ad1.jpg”>制定长宽后代码如下:<img src=″ad1.jpg″align=″bottom″width=″240″height=″80″/>,其中限定了位置参数(align)、宽度参数(width)和高度参数(height),通过读取这样的HTML代码即可得到该网页节点的特征信息。本领域技术人员应当了解,不管采用什么方式获得种子网页的节点特征,均落入本发明的保护范围。
根据步骤103中得到的种子网页的节点特征以及预设的规则,在步骤105中确定种子网页中的种子广告。这里,预设的规则是指事先设定好的关于什么判断网页中什么样的节点为广告节点的规则,也就是关于具有什么样的特征的网页节点才是广告的规则。预设的规则同样也是依据下列参数中的一个或多个来设定的:位置、形状、高度、宽度、面积和类型,并且不限于这些参数。根据本发明的一个实施方式,通过将所述预设的规则以及所述节点特征进行匹配来确定所述种子网页中的种子广告。例如,可以事先规定好凡是高度在60px至100px之间(高度参数),并且宽度在200px至500px之间(宽度参数)的图像(类型参数)节点为广告节点。那么,在步骤102中得到种子网页的节点特征后可以将所得到的节点特征与该规则进行匹配,凡是符合该规则的节点即确定为种子广告。
在步骤107中分析得到种子广告的链接模式。种子广告的链接模式是指种子广告的URL地址所共同具有的模式或特征。虽然不同的种子广告的URL地址肯定是不相同的,但是为了计费的方便,绝大多数的网站上的广告的URL地址都具有固定的模式。因此在步骤105中分析出种子广告的URL地址的共有模式,就等于得到了种子网页以及种子网页所在的网站上的所有广告所具有的URL地址的模式。根据本发明的一个实施方式,可以利用图3所示的表格来分析不同的种子广告的URL地址所具有的共同模式或特征。图3所示的表格示出了对如下两个种子广告的URL地址进行分析(假设对种子网页进行分析仅得到这两个种子广告):
种子广告1的URL:http://host.company.com/ads/click.jsp?id=103&type=c
种子广告2的URL:http://host.company.com/ads/click.jsp?id=20&type=df
那么根据图3所示的表格可以看出,种子广告1和种子广告2的协议(Protocal)、主机名(Host)、网站(Site)、路径(Path)、页面(Page)、参数1、参数2均相同,仅仅是参数1的值和参数2的值不同。从而我们可以根据种子广告1和种子广告2的链接模式,也就是得到了网站www.company.com上的所有广告的链接模式:链接模式:http://host.company.com/ads/click.jsp?id=Numbers&type=Characters
需要指出的是,图3所示的表格仅仅是为了说明一种可以被用于分析种子广告的链接模式的工具,本领域技术人员可以采用任何其它非表格的工具来分析得到种子广告的链接模式。
接下来进行至在步骤109。在步骤109中,利用步骤107中分析得到的种子广告的链接模式识别所述种子网页所在的网站中除了所述种子广告外的其它广告。根据本发明的一个实施方式,通过将所述链接模式与所述种子网页所在的网站上的除了种子广告网页节点外的其它网页节点的链接(URL)进行匹配,来识别所述种子网页所在的网站中除了所述种子广告外的其它广告。根据本发明的另一实施方式,可以利用正则表达式的方法去识别出所述种子网页所在的网站中的除了所述种子广告外的其它广告。所谓正则表达式,就是用某种模式去匹配一类字符串的一个公式,这里的“某种模式”就是指分析得到的链接模式,而“一类字符串”就是指种子网页中除了种子广告节点之外的其它节点的链接(URL)。本领域技术人员应当理解正则表达式的含义和作用,在此不作详述。
通过步骤109,既可以找出在种子网页所在的网站上的除了种子广告外的其它广告,也可以找出种子网页上的除了种子广告外的其它广告。需要指出的是,这里所说的识别种子网页所在的网站上的除了种子广告外的其它广告,并非一定是指识别出该网站上的所有的非种子广告,本领域技术人员完全可以根据实际需要限定识别的范围,例如可以限定对某些网页上的网页节点均不做识别。应当理解,由于现在大型的门户网站下面的网页数量非常多,有些时候为了减少计算量并提高效率,可能不需要对某网站的所有网页中的广告均进行识别,而仅需要对种子网页中的广告进行识别,或者仅需要对种子网页以及被指定的其它网页中的广告进行识别。因此,无论识别网页广告的网页范围如何,只要被识别的网页与种子网页处在同一网站中,不管是对种子网页本身还是对非种子网页的广告进行识别,都落入本发明的保护范围。在具体操作的过程中,可以根据需要限定是仅找出种子网页上的广告还是把种子网页所在的网站上的所有广告均找出,其区别仅仅在于待匹配的网页节点的范围大小。举例而言,如果种子网页上除了上述两个种子广告外的一个网页节点的链接为:
http://host.company.com/ads/click.jsp?id=777&type=kk
那么,将上面分析得到的链接模式与该网页节点的链接进行匹配,发现匹配成功,则将该网页节点识别为种子网页上的一个广告。
下面参考图2,图2示出了根据本发明另一实施方式的用于识别网页中的广告的方法的流程图。图2中的步骤201、203、205、207和209分别对应于图1中的步骤101、103、105、107和109,在此不再详述。下面主要介绍图2中新增加的步骤202。在步骤202中,对步骤201中接收到的种子网页进行扩展。扩展是指种子网页数量上的扩展,具体地说,可以是自动地获取一定数量的与接收到的种子网页处在同一网站上的其它网页,并将所获取的其它网页也作为要进行后续处理的种子网页。之所以要进行扩展,是因为如果只接收到数量较少的种子网页的话,有可能不足以找出与预设的规则相匹配的种子广告,比如用户只输入了某网站上的一个种子网页,恰恰这个种子网页上没有与预设的规则相匹配的种子广告。而如果找不出种子广告的话就无法分析得到种子广告的链接模式。另外,有些情况下,如果找出的与预设的规则相匹配的种子广告的数量较少,也有可能不足以分析得到种子广告所共有的链接模式,或者说依据较少的种子广告而分析得到的链接模式会有误差,因为可能会有个别的网页节点虽然符合了预设的规则,但是并非广告节点,也可能个别的种子广告的链接模式与大多数该网页或网站上的广告的链接模式不同。因此,在某些场合下出于对精度或者准确度的较高要求,需要对接收到的种子网页进行数量上的扩展,然后将扩展后得到的网页和原来接收到的种子网页一起作为多个种子网页进行后续步骤203-209。本领域技术人员应当了解,对接收到的种子网页进行扩展的步骤202仅是根据本发明的一种实施方式,完全可以不对接收到的种子网页进行扩展而直接进行后续操作,并不影响本发明技术效果——识别网页中的广告的实现。
图4A至图4C示出了根据本发明一个实施方式的对种子网页确定种子广告的具体示例。
其中,图4A示出了根据本发明示例性的两个种子网页及其对应的HTML源代码。种子网页1和种子网页2属于同一个网站下的两个网页。从图4A中可以看出,种子网页1也就是“Sample page 1”包括4个节点,分别是标题节点“Sample page 1”、文本节点“bla bla blabla......”(省略了若干个“bla”)、图像链接节点“Advertisement 1”以及文本链接节点“advertisement for company d”。从种子网页1对应的HTML源代码中也可以清晰地看出这4个节点,还可以看出各个节点的长度、宽度、位置等节点特征参数信息没有包含在HTML源代码中。在这种情况下,为了分析得到种子网页1的4个节点的特征信息,首先读取种子网页1的HTML源代码,然后将读取到的HTML源代码送入现有的浏览器内核执行从而得到页面展示效果,接下来浏览器内核根据执行结果,对种子网页1中的4个节点分别调用获取页面长度和宽度等节点特征信息,并返回结果。需要指出的是,这只是一种获得网页节点的特征信息的实施方式,本领域技术人员应当了解还可以采取多种其它方式得到网页节点的特征信息。
图4B示出了分析所得到的图4A中的种子网页1中的节点特征。需要指出的是,对种子网页1和种子网页2中的每个节点都分析得到了节点特征信息,但是为了简洁,在图4B中只示出了种子网页1中的“Advertisement 1”节点的特征信息:左8px、上124px、宽度325px、高度91px。其中,px是像素点的含义,属于本领域的公知常识。假设有预先设定的规则:if 200px<width<500px and 60px<height<100px,then select node a.这条规则的含义是:对于一个节点a,如果宽度大于200px且小于500px,并且高度大于60px且小于100px,则该节点a是广告节点。这样,种子网页1中的“Advertisement 1”节点特征与该预设的规则匹配,从而确定种子网页1中的“Advertisement 1”节点为种子广告。根据相同的方式,同样确定种子网页2中的“Advertisement 2”节点也是种子广告(假设种子网页2中的“Advertisement 2”节点特征也与预设的规则匹配)。图4C中示出了自动被识别出来的种子广告1和种子广告2。
根据图4C中示出的被识别出的种子广告1和种子广告2,分析它们的链接模式。它们的URL地址分别是:
种子广告1:http://host.company.com/ads/click.jsp?id=103&type=c
种子广告2:http://host.company.com/ads/click.jsp?id=20&type=df
经过分析可以得到这两个种子广告的链接模式:
链接模式:http:/host.company.com/ads/click.jsp?id=Numbers&type=Characters
链接模式中用粗体表示的“Number”和“Characters”是指这两个部门的值可以变化,而URL地址的其它部分相同。接下来,用这个链接模式去与种子网页1和种子网页2中的所有其它节点做匹配,发现种子网页1和种子网页2中没有除了两个种子广告之外的其它广告。并进一步用这个链接模式去与种子网页1和种子网页2所在的网站www.company.com中的所有其它网页中的节点做匹配,从而识别该网站下的所有广告。为了避免运算量过大,也可以指定在该网站下的某些网页中做匹配,从而识别出这些被指定的网页中的所有广告。
图5示出了根据本发明一实施方式的用于识别网页中的广告的系统的框图。该系统在图5中整体上由500表示。具体地,系统500包括种子网页接收装置501、种子网页分析装置503、种子广告确定装置505、链接模式分析装置507以及非种子广告识别装置509。其中,种子网页接收装置501用于接收种子网页。种子网页分析装置503用于通过分析接收到的种子网页的源代码得到种子网页的节点特征。种子广告确定装置505用于根据预设的规则和得到的种子网页的节点特征,确定种子广告。链接模式分析装置507用于分析种子广告的链接模式。非种子广告识别装置509用于识别出所述种子网页所在的网站上的除了所述种子广告外的其它广告。需要指出的是,系统500中包含的各装置501-509分别对应于图1所示的方法中的步骤101-109,因此所有在图1的文字描述中记载的内容均适用于系统500。
图6示出了根据本发明另一实施方式的用于识别网页中的广告的系统的框图。该系统在图6中总体上由600表示。具体地,系统600包括种子网页接收装置601、种子网页扩展装置602、种子网页分析装置603、种子广告确定装置605、链接模式分析装置607、以及种子网站广告识别装置609。需要指出的是,系统600中的种子网页接收装置601、种子网页分析装置603、种子广告确定装置605、链接模式分析装置607、非种子广告识别装置609分别对应于图1所示的方法中的步骤101-109,同时也对应于图5所示的系统500中的装置501-509。同时,图6所示的系统600所包含的各个装置分别对应于图2所示的方法中的步骤201-209。在系统500的基础上,系统600增加了种子网页扩展装置602。种子网页扩展装置602用于对种子网页接收装置601接收到的种子网页进行扩展。所有在图1以及图2的文字描述中记载的内容均适用于系统600。
利用本发明的方法和系统,通过识别出少量的与预设规则相匹配的种子广告,并利用这些种子广告的共同链接模式来识别出大量的非种子广告的其它广告,从而使得用户能够更全面、准确、迅速地识别类型、图案愈加多样的网页广告,带来了良好的用户体验,更好地满足了商业的需求。
通过以上对具体实施例的描述,本领域技术人员可以理解,上述的系统、装置和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本实施例的装置、服务器及其单元可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合实现。
虽然以上结合具体实施例,对本发明的利用远程应用处理本地文件的系统及方法进行了详细描述,但本发明并不限于此。本领域普通技术人员能够在说明书教导之下对本发明进行多种变换、替换和修改而不偏离本发明的精神和范围。应该理解,所有这样的变化、替换、修改仍然落入本发明的保护范围之内。本发明的保护范围由所附权利要求来限定。

Claims (18)

1.一种用于识别网页中的广告的方法,包括:
接收种子网页;
通过分析所述种子网页的源代码得到所述种子网页的节点特征;
根据预设的规则以及所述节点特征,确定所述种子网页中的种子广告;
通过分析所述种子广告的链接得到所述种子广告的链接模式;
利用所述链接模式,识别所述种子网页所在的网站中除了所述种子广告外的其它广告。
2.如权利要求1所述的方法,其中所述种子网页包括多个处在同一网站上的网页。
3.如权利要求1所述的方法,其中接收种子网页的步骤还包括:
通过在所述种子网页所在的网站中扩展所接收到的种子网页,得到多个种子网页。
4.如权利要求1-3任一所述的方法,所述其它广告位于所述种子网页中。
5.如权利要求1-4任一所述的方法,其中种子网页的节点是指种子网页的源代码中的Dom Tree节点。
6.如权利要求1-5任一所述的方法,其中种子网页的节点特征包括下列参数中的一个或多个:位置、形状、高度、宽度、面积和类型。
7.如权利要求6所述的方法,其中预设的规则是依据所述参数中的一个或多个设定的。
8.如权利要求1-7任一所述的方法,在根据预设的规则以及所述节点特征确定所述种子网页中的种子广告的步骤中,通过将所述预设的规则以及所述节点特征进行匹配来确定所述种子网页中的种子广告。
9.如权利要求1-8任一所述的方法,在利用所述链接模式,识别所述种子网页所在的网站中除了所述种子广告外的其它广告的步骤中,通过将所述链接模式与所述种子网页所在的网站上的除了种子广告网页节点外的其它网页节点的链接进行匹配,来识别所述种子网页所在的网站中除了所述种子广告外的其它广告。
10.一种用于识别网页中的广告的系统,包括:
接收种子网页的装置;
通过分析所述种子网页的源代码得到所述种子网页的节点特征的装置;
根据预设的规则以及所述节点特征,确定所述种子网页中的种子广告的装置;
通过分析所述种子广告的链接得到所述种子广告的链接模式的装置;以及
利用所述链接模式,识别所述种子网页所在的网站中除了所述种子广告外的其它广告。
11.如权利要求10所述的系统,其中种子网页包括多个处在同一网站上的网页。
12.如权利要求10所述的系统,其中接收种子网页的装置中进一步包括:
通过在所述种子网页所在的网站中扩展所接收到的种子网页得到多个种子网页的装置。
13.如权利要求10-12任一所述的系统,其中所述其它广告位于所述种子网页中。
14.如权利要求10-13任一所述的系统,其中种子网页的节点是指种子网页的源代码中的Dom Tree节点。
15.如权利要求10-14任一所述的系统,其中种子网页的节点特征包括下列参数中的一个或多个:位置、形状、高度、宽度、面积和类型。
16.如权利要求15所述的系统,其中预设的规则是依据所述参数中的一个或多个设定的。
17.如权利要求10-16任一所述的方法,其中根据预设的规则以及所述节点特征确定所述种子网页中的种子广告的装置被进一步配置为:通过将所述预设的规则以及所述节点特征进行匹配来确定所述种子网页中的种子广告。
18.如权利要求10-17任一所述的方法,其中利用所述链接模式识别所述种子网页所在的网站中除了所述种子广告外的其它广告的装置被进一步配置为:通过将所述链接模式与所述种子网页所在的网站上的除了种子广告网页节点外的其它网页节点的链接进行匹配,来识别所述种子网页所在的网站中除了所述种子广告外的其它广告。。
CN2009101773364A 2009-09-30 2009-09-30 用于识别网页中的广告的方法和系统 Pending CN102033881A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2009101773364A CN102033881A (zh) 2009-09-30 2009-09-30 用于识别网页中的广告的方法和系统
KR20100094239A KR20110035960A (ko) 2009-09-30 2010-09-29 웹 페이지내 광고 식별 방법 및 시스템
US12/893,187 US8869025B2 (en) 2009-09-30 2010-09-29 Method and system for identifying advertisement in web page

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101773364A CN102033881A (zh) 2009-09-30 2009-09-30 用于识别网页中的广告的方法和系统

Publications (1)

Publication Number Publication Date
CN102033881A true CN102033881A (zh) 2011-04-27

Family

ID=43781671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101773364A Pending CN102033881A (zh) 2009-09-30 2009-09-30 用于识别网页中的广告的方法和系统

Country Status (3)

Country Link
US (1) US8869025B2 (zh)
KR (1) KR20110035960A (zh)
CN (1) CN102033881A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015188431A1 (zh) * 2014-06-10 2015-12-17 中兴通讯股份有限公司 资源的下载方法及装置
CN106326316A (zh) * 2015-07-08 2017-01-11 腾讯科技(深圳)有限公司 一种网页广告过滤方法及装置
CN103823825B (zh) * 2012-08-30 2017-06-20 埃森哲环球服务有限公司 在线内容采集
US9842339B2 (en) 2008-12-11 2017-12-12 Accenture Global Services Limited Online ad detection and ad campaign analysis
US9940631B2 (en) 2009-03-03 2018-04-10 Accenture Global Services Limited Online content collection
US9947017B2 (en) 2009-03-03 2018-04-17 Accenture Global Services Limited Online content campaign classification

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9182932B2 (en) 2007-11-05 2015-11-10 Hewlett-Packard Development Company, L.P. Systems and methods for printing content associated with a website
US9152357B2 (en) 2011-02-23 2015-10-06 Hewlett-Packard Development Company, L.P. Method and system for providing print content to a client
US9137394B2 (en) 2011-04-13 2015-09-15 Hewlett-Packard Development Company, L.P. Systems and methods for obtaining a resource
US9489161B2 (en) 2011-10-25 2016-11-08 Hewlett-Packard Development Company, L.P. Automatic selection of web page objects for printing
WO2013159246A1 (en) * 2012-04-28 2013-10-31 Hewlett-Packard Development Company, L.P. Detecting valuable sections in webpage
US9773214B2 (en) 2012-08-06 2017-09-26 Hewlett-Packard Development Company, L.P. Content feed printing
US20140149916A1 (en) * 2012-11-28 2014-05-29 SoMo Audience Corp. Content manipulation using swipe gesture recognition technology
CN104021126B (zh) * 2013-02-28 2020-02-07 深圳市世纪光速信息技术有限公司 网页内容的过滤方法及服务器
CN104424200A (zh) * 2013-08-21 2015-03-18 贝壳网际(北京)安全技术有限公司 广告信息处理方法和装置
US10082992B2 (en) 2014-12-22 2018-09-25 Hewlett-Packard Development Company, L.P. Providing a print-ready document
CN104866311B (zh) * 2015-05-22 2018-01-30 国云科技股份有限公司 一种前端页面跨系统抓取数据的方法
CN107045501A (zh) * 2016-02-05 2017-08-15 腾讯科技(深圳)有限公司 一种网页访问方法和装置
CN106708502B (zh) * 2016-11-10 2022-04-29 腾讯科技(深圳)有限公司 网页处理方法和装置
CN108228623B (zh) * 2016-12-14 2021-12-24 北京国双科技有限公司 一种数据处理方法和客户端设备

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002033584A1 (en) 2000-10-19 2002-04-25 Copernic.Com Text extraction method for html pages
US20040158799A1 (en) * 2003-02-07 2004-08-12 Breuel Thomas M. Information extraction from html documents by structural matching
US20060235960A1 (en) * 2004-11-23 2006-10-19 Inventec Appliances Corporation Method for blocking network advertising
US7680785B2 (en) * 2005-03-25 2010-03-16 Microsoft Corporation Systems and methods for inferring uniform resource locator (URL) normalization rules
US7971137B2 (en) * 2005-12-14 2011-06-28 Google Inc. Detecting and rejecting annoying documents
US20070260520A1 (en) * 2006-01-18 2007-11-08 Teracent Corporation System, method and computer program product for selecting internet-based advertising
US20070204223A1 (en) * 2006-02-27 2007-08-30 Jay Bartels Methods of and systems for personalizing and publishing online content
US7941420B2 (en) * 2007-08-14 2011-05-10 Yahoo! Inc. Method for organizing structurally similar web pages from a web site
US8255873B2 (en) * 2006-11-20 2012-08-28 Microsoft Corporation Handling external content in web applications
US7996519B1 (en) * 2007-03-07 2011-08-09 Comscore, Inc. Detecting content and user response to content
US7698317B2 (en) * 2007-04-20 2010-04-13 Yahoo! Inc. Techniques for detecting duplicate web pages
US8667117B2 (en) * 2007-05-31 2014-03-04 Microsoft Corporation Search ranger system and double-funnel model for search spam analyses and browser protection
WO2008157322A1 (en) 2007-06-13 2008-12-24 Quattro Wireless, Inc. Displaying content on a mobile device
US20090024470A1 (en) * 2007-07-20 2009-01-22 Google Inc. Vertical clustering and anti-clustering of categories in ad link units
US8086725B1 (en) * 2007-08-20 2011-12-27 Google Inc. Identifying associated systems such as advertising networks
CN101388013A (zh) * 2007-09-12 2009-03-18 日电(中国)有限公司 用于网络文件聚类的方法和系统
US20090171986A1 (en) * 2007-12-27 2009-07-02 Yahoo! Inc. Techniques for constructing sitemap or hierarchical organization of webpages of a website using decision trees
US8095530B1 (en) * 2008-07-21 2012-01-10 Google Inc. Detecting common prefixes and suffixes in a list of strings
US20100094860A1 (en) * 2008-10-09 2010-04-15 Google Inc. Indexing online advertisements
US8549627B2 (en) * 2009-06-13 2013-10-01 Microsoft Corporation Detection of objectionable videos
WO2011005948A1 (en) * 2009-07-09 2011-01-13 Collective Media, Inc. Method and system for tracking interaction and view information for online advertising

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9842339B2 (en) 2008-12-11 2017-12-12 Accenture Global Services Limited Online ad detection and ad campaign analysis
US10891632B2 (en) 2008-12-11 2021-01-12 Accenture Global Services Limited Online ad detection and ad campaign analysis
US9940631B2 (en) 2009-03-03 2018-04-10 Accenture Global Services Limited Online content collection
US9947017B2 (en) 2009-03-03 2018-04-17 Accenture Global Services Limited Online content campaign classification
CN103823825B (zh) * 2012-08-30 2017-06-20 埃森哲环球服务有限公司 在线内容采集
WO2015188431A1 (zh) * 2014-06-10 2015-12-17 中兴通讯股份有限公司 资源的下载方法及装置
CN105279215A (zh) * 2014-06-10 2016-01-27 中兴通讯股份有限公司 资源的下载方法及装置
US10262341B2 (en) 2014-06-10 2019-04-16 Zte Corporation Resource downloading method and device
CN106326316A (zh) * 2015-07-08 2017-01-11 腾讯科技(深圳)有限公司 一种网页广告过滤方法及装置
CN106326316B (zh) * 2015-07-08 2022-11-29 腾讯科技(深圳)有限公司 一种网页广告过滤方法及装置

Also Published As

Publication number Publication date
KR20110035960A (ko) 2011-04-06
US8869025B2 (en) 2014-10-21
US20110078558A1 (en) 2011-03-31

Similar Documents

Publication Publication Date Title
CN102033881A (zh) 用于识别网页中的广告的方法和系统
US9002895B2 (en) Systems and methods for providing modular configurable creative units for delivery via intext advertising
JP4896071B2 (ja) キーワード比較を用いた広告評価方法、広告評価システム、記録媒体
US7895293B1 (en) Web page experiments with fragmented section variations
US20140278880A1 (en) Matching a Coupon to A Specific Product
JP2007249969A (ja) シードを用いた広告マッチング方法および広告マッチングシステム
CN101320369A (zh) 将目标数据插入网页可用空白处的方法及系统
CN102682389A (zh) 用于将信息从外部源提供到基于web的文档的方法和系统
CN102831252A (zh) 一种用于更新索引数据库的方法及装置、搜索方法和系统
CN101981571A (zh) 使用所存储的查询信息提供内容
CN102063456A (zh) 自动定位至网页的视觉中心的方法及设备
CN106598991A (zh) 一种使用会话方式实现与网站交互表单自动提取的网络爬虫系统
Henrys Importance of web scraping in e-commerce and e-marketing
KR102098535B1 (ko) 사용자 이용 패턴의 빅데이터 분석을 기반으로 하는 멀티링크 자동완성 광고소재 템플릿 제공이 가능한 광고 서비스 시스템
US20120030276A1 (en) System and method for generating web analytic reports
TWI570579B (zh) 利用網頁視覺特徵及網頁語法特徵之資訊擷取系統與方法
CN107203562B (zh) 自动化检查方法、装置和计算机可读存储介质
CN117764039A (zh) 基于大模型的投标文件生成方法、系统、终端及存储介质
CN112765965A (zh) 文本多标签分类方法、装置、设备和存储介质
CN111833219A (zh) 知识产权服务商品数据的提供方法及装置
CN112270319A (zh) 一种事件标注方法、装置及电子设备
CN112115043B (zh) 一种基于图像的端上智能化页面质量巡检方法
KR102098537B1 (ko) 빅데이터 분석을 기반으로 하는 멀티링크 자동완성 광고소재 템플릿 제공이 가능한 광고 서비스 시스템 및 그 광고방법
CN103246662A (zh) 网络页面中区域数据内容的处理方法和装置
CN108664522A (zh) 网页处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110427