CN104346748A - 信息展示方法及装置 - Google Patents

信息展示方法及装置 Download PDF

Info

Publication number
CN104346748A
CN104346748A CN201410690783.0A CN201410690783A CN104346748A CN 104346748 A CN104346748 A CN 104346748A CN 201410690783 A CN201410690783 A CN 201410690783A CN 104346748 A CN104346748 A CN 104346748A
Authority
CN
China
Prior art keywords
web page
webpage
belongs
probable value
advertisement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410690783.0A
Other languages
English (en)
Other versions
CN104346748B (zh
Inventor
高翔
齐翔
王永杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sina Technology China Co Ltd
Original Assignee
Sina Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sina Technology China Co Ltd filed Critical Sina Technology China Co Ltd
Priority to CN201410690783.0A priority Critical patent/CN104346748B/zh
Publication of CN104346748A publication Critical patent/CN104346748A/zh
Application granted granted Critical
Publication of CN104346748B publication Critical patent/CN104346748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请公开了一种信息展示方法,通过预先确定样本网页内容分别归属于各网页类目的概率值,后续可以从预先确定的概率值中确定待投放广告的网页归属于其归属的网页类目的概率值,从而无需进行在线的复杂计算,避免广告投放引擎耗费较多的处理资源;此外,由于样本网页内容分别归属于各网页类目的概率值均是根据样本网页内容与各网页类目的相关性确定出的,而选取的展示信息与网页类目也是相关的,因此可以保证网页中展示的展示信息与待投放广告的网页内容相关性较高。本申请还公开一种信息展示装置。

Description

信息展示方法及装置
技术领域
本申请涉及互联网技术领域,尤其涉及一种信息展示方法及装置。
背景技术
基于网页内容定位的广告投放(Content-Targeted Advertising)技术是对搜索引擎营销模式进行延伸而产生的。该技术的核心思想在于:根据网页内容选取广告进行投放,以使得投放到网页中的广告与网页内容有一定的相关性。
目前,现有技术中一种常见的基于网页内容定位的广告投放技术是基于广告内容与网页内容的相关性的广告投放技术(后文简称基于相关性的广告投放技术)。
基于相关性的广告投放技术实现原理为:广告投放引擎确定根据网页内容生成的文本段落(后文称网页文本段落),以及分别确定待投放的各广告的创意文本段落(创意文本段落一般为描述广告创意的文字信息);利用回归模型,计算网页文本段落分别与各创意文本段落之间的相关性的值;选取最大相关性的值对应的广告投放到网页中。
现有的基于相关性的广告投放技术存在的缺陷在于:需要一一在线计算网页文本段落分别与各创意文本段落之间的相关性的值,从而计算复杂度高,会耗费较多的处理资源。
需要说明的是,当将上述技术应用到对于其他展示信息的投放中时,也存在着上述类似缺陷。
目前,如何在保证网页中展示的展示信息与网页内容相关性的同时,避免耗费较多的处理资源,成为亟待解决的问题。
发明内容
本申请实施例提供一种信息展示方法,用以提供一种保证网页中展示的展示信息与网页内容相关性的同时,避免广告投放引擎耗费较多的处理资源的方案。
本申请实施例还提供一种信息展示装置,用以提供一种保证网页中展示的展示信息与网页内容相关性的同时,避免广告投放引擎耗费较多的处理资源的方案。
本申请实施例采用下述技术方案:
一种信息展示方法,包括:
根据样本网页内容归属的各网页类目,以及预先确定的样本网页内容分别归属于各网页类目的概率值,确定待投放广告的网页归属的网页类目,以及待投放广告的网页归属于其归属的网页类目的概率值;
根据待投放广告的网页归属的网页类目,以及待投放广告的网页归属于其归属的网页类目的概率值,选取与待投放广告的网页归属的网页类目相关的展示信息进行展示;
其中,样本网页内容分别归属于各网页类目的概率值的确定方式包括:
根据样本网页内容与最高级别的网页类目的相关性,确定样本网页内容归属于最高级别的网页类目的概率值;以及
根据不同级别的网页类目之间的相关性,确定样本网页内容归属于非最高级别的网页类目的概率值。
一种信息展示装置,包括:
确定单元,用于根据样本网页内容归属的各网页类目,以及预先确定的样本网页内容分别归属于各网页类目的概率值,确定待投放广告的网页归属的网页类目,以及待投放广告的网页归属于其归属的网页类目的概率值;
信息选取单元,用于根据确定单元确定的待投放广告的网页归属的网页类目,以及待投放广告的网页归属于其归属的网页类目的概率值,选取与待投放广告的网页归属的网页类目相关的展示信息进行展示;
其中,样本网页内容分别归属于各网页类目的概率值的确定方式包括:
根据样本网页内容与最高级别的网页类目的相关性,确定样本网页内容归属于最高级别的网页类目的概率值;以及
根据不同级别的网页类目之间的相关性,确定样本网页内容归属于非最高级别的网页类目的概率值。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
由于预先确定了样本网页内容分别归属于各网页类目的概率值,后续可以从预先确定的概率值中确定待投放广告的网页归属于其归属的网页类目的概率值,从而无需进行在线的复杂计算,避免广告投放引擎耗费较多的处理资源;此外,由于样本网页内容分别归属于各网页类目的概率值均是根据样本网页内容与各网页类目的相关性确定出的,而选取的展示信息与网页类目也是相关的,因此可以保证网页中展示的展示信息与待投放广告的网页内容相关性较高。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种信息展示方法的实现流程示意图;
图2为不同级别的网页类目的关系示意图;
图3为本申请实施例提供的一种信息展示装置的具体结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
实施例1
为了在保证网页中展示的展示信息与网页内容相关性的同时,避免耗费较多的处理资源,本申请实施例1提供一种信息展示方法,该方法的实现流程示意图如图1所示,包括如下主要步骤:
步骤11,根据样本网页内容归属的各网页类目,以及预先确定的样本网页内容分别归属于各网页类目的概率值,确定待投放广告的网页归属的网页类目,以及待投放广告的网页归属于其归属的网页类目的概率值;
其中,样本网页内容分别归属于各网页类目的概率值的确定方式可以包括下述步骤:
步骤一:根据样本网页内容与最高级别的网页类目的相关性,确定样本网页内容归属于最高级别的网页类目的概率值;
步骤二:根据不同级别的网页类目之间的相关性,确定样本网页内容归属于非最高级别的网页类目的概率值。
步骤12,根据待投放广告的网页归属的网页类目,以及待投放广告的网页归属于其归属的网页类目的概率值,选取与待投放广告的网页归属的网页类目相关的展示信息进行展示。
其中,对展示信息进行展示,包括在本地对展示信息进行展示,或者将展示信息发送给终端设备进行展示。
采用本申请实施例1提供的该方法,由于预先确定了样本网页内容分别归属于各网页类目的概率值,后续可以从预先确定的概率值中确定待投放广告的网页归属于其归属的网页类目的概率值,从而无需进行在线的复杂计算,避免广告投放引擎耗费较多的处理资源;此外,由于样本网页内容分别归属于各网页类目的概率值均是根据样本网页内容与各网页类目的相关性确定出的,而选取的展示信息与网页类目也是相关的,因此可以保证网页中展示的展示信息与待投放广告的网页内容相关性较高。
以下分别详细说明上述步骤。
针对步骤11的详细说明包括如下内容:
1、“样本网页内容归属的各网页类目”,可以是预先根据不同样本网页之间的层级别关系,以及与样本网页内容相关的关键词确定的。其中,与样本网页内容相关的关键词可以是样本网页内容中出现次数最高的词,也可以是客户根据样本网页内容所确定的词(确定的该词可以不出现在样本网页中)。
举例而言,若下述假设成立:
第一样本网页为“生活资讯信息网站首页”,其相关的关键词为“生活”。
第二样本网页为第一样本网页的下一级别页面,其相关的关键词为“科技”。比如用户在第一样本网页点击“科技”这一选项,浏览器会跳转到第二样本网页。
第三、第四样本网页均为第二样本网页的下一级别页面,其相关的关键词分别为“手机”和“汽车”。比如用户在第二样本网页点击“最新手机报价”这一选项,浏览器会跳转到第三样本网页;在第二样本网页点击“最新汽车咨询”这一选项,浏览器会跳转到第四样本网页。
则可以确定出如表1所示的网页类目。
表1:
网页类目标识 网页类目级别 网页类目相关的关键词
A 一级别 生活
A-1 二级别 科技
A-1-1 三级别 手机
A-1-2 三级别 汽车
在一种实施方式中,当得到如表1所示的网页类目相关的关键词后,还可以进一步对关键词进行扩充。
比如,可以通过爬取第二样本网页(比如可以利用网页爬取器(gatherer)进行爬取)的方式,从第二样本网页的网页内容中获得相关的其他关键词。这里所说的“相关的其他关键词”可以但不限于是样本网页内容中出现次数大于预设次数阈值的词,等等。本申请实施例中,若规定与网页类目相关的关键词需达到规定数目,则在对关键词进行扩充后,针对数目达不到该规定数目的网页类目相关的关键词而言,可以采用减小上述预设次数阈值等方式,进一步对关键词进行扩充。
本申请实施例1中,假设对表1中的关键词进行扩充后得到的关键词如表2所示。
表2:
网页类目标识 网页类目级别 网页类目相关的关键词
A 一级别 生活、服务
A-1 二级别 科技、技术
A-1-1 三级别 手机、iphone、三星
A-1-2 三级别 汽车、路虎、宝马
本申请实施例中,可以采用现有技术中的任意扩词器实现对网页类目相关的关键词的扩充,本申请实施例对具体采用的关键词扩充方式不进行限定。
需要说明的是,在对关键词进行扩充后,可以从扩充后的关键词中删除不具有特殊性的关键词。其中,这里所说的不具有特殊性的关键词一般包括:太过普遍、难以体现网页特点的词,比如表2第三行中所示的“技术”。本申请实施例中,可以设置“不具有特殊性的关键词词库”,实现对关键词的筛选。
2、“样本网页内容分别归属于各网页类目的概率值”,可以通过前文所述的方式确定。为便于描述,后文将该方式中的“根据样本网页内容与最高级别的网页类目的相关性,确定样本网页内容归属于最高级别的网页类目的概率值”称为“子步骤1”;并将该方式中的“根据不同级别的网页类目之间的相关性,确定样本网页内容归属于非最高级别的网页类目的概率值”称为“子步骤2”。
针对子步骤1而言,在一种实施方式中,子步骤1的具体实现方式可以包括:
根据所有样本网页的总数目,以及各最高级别的网页类目下的样本网页的数目,确定样本网页内容分别归属于各最高级别的网页类目的概率值。其中,“最高级别的网页类目下的样本网页的数目”,是指内容与最高级别的网页类目相关的样本网页的数目。
比如,以表2为例,若假设所有样本网页的总数目为10万(一般可以认为相应的样本网页内容的总数目也为10万),标识为“A”的最高级别的网页类目(后文简称网页类目A)下的样本网页的数目为1万,则相应的样本网页内容归属于该网页类目A的概率值为1/10=0.1。需要说明的是,归属于网页类目A的每个样本网页内容比如可以满足“‘生活’或‘服务’这样的关键词在单个样本网页内容中的出现次数最多”。
需要说明的是,所述1万个样本网页内容中可能会有一部分样本网页内容归属于其他网页类目。比如这1万个样本网页内容中有5000个样本网页内容归属于标识为“B”的最高级别的网页类目。那么,针对网页类目B而言,还可以计算出相应的样本网页内容归属于网页类目B的概率值为0.5/10=0.05。
针对子步骤2而言,在一种实施方式中,子步骤2的具体实现方式可以包括:
根据表示特定级别之上的相邻级别的网页类目之间相关性的值,以及样本网页内容归属于特定级别之上的最高级别的网页类目的概率值,确定样本网页内容归属于特定级别的网络类目的概率值。
比如,本申请实施例中,可以但不限于采用下述公式[1],计算样本网页内容归属于特定级别的网络类目的概率值f(x,ci′):
f ( x , c i ′ ) = init c 1 ( x ) * Π i = 1 i ′ - 1 category _ condition ( c i , c i + 1 ) - - - [ 1 ]
公式[1]中,x表示样本网页内容;i′表示特定级别的网络类目的级别,ci′表示i′级别的网络类目;i表示特定级别之上的一个级别,ci表示i级别的网络类目,ci+1表示i+1级别的网络类目;表示样本网页内容归属于特定级别的网络类目之上的最高级别的网页类目的概率值,其中,特定级别的网络类目与其上的最高级别的网页类目的关系可以如图2所示;category_condition(ci,ci+1)表示特定级别的网络类目之上的相邻两个级别的网页类目之间相关性的值,其中,特定级别的网络类目之上的相邻两个级别的网页类目可以如图2所示。
需要说明的是,公式[1]的上述说明中,特定级别的网页类目之上的其他级别的网页类目,是指范畴覆盖该特定级别的网页类目的网页类目。比如,针对“SUV”和“iphone”这两个网页类目而言,若这两者均属于最低级别的网页类目,且范畴覆盖“SUV”的网页类目为“汽车”,而范畴覆盖“iphone”的网页类目为“手机”,则“SUV”之上的网页类目为“汽车”,而“iphone”之上的网页类目为“手机”。依此类推。
在一种实施方式中,表示相邻两个级别的网页类目之间相关性的值可以包括:样本网页内容归属于相邻两个级别中的一个级别的网页类目的条件下,归属于相邻两个级别中的另一级别的网页类目的概率值。
以前文所述的样本网页内容归属于最高级别的网页类目A的概率值为0.1为例。若假设表2所示的标识为“A-1”的网页类目为特定级别的网页类目,则按照公式[1],可以确定归属于网页类目A-1的样本网页内容归属于网页类目A-1的概率值为0.1×category_condition(1,2)。
进一步地,若假设前文所述的网页类目A下的1万个样本网页中,有1000个样本网页归属于网页类目A-1(即若假设网页类目A-1相关的关键词为“科技”,即这1000个样本网页满足:相应的每个样本网页内容中的“科技”均为出现次数最多的关键词。那么,category_condition(1,2)的具体大小可以为1000/10000=0.1。从而可知,归属于网页类目A-1的样本网页内容归属于网页类目A-1的概率值为0.1×0.1=0.01。
在一种实施方式中,当特定级别的网络类目数量众多,而样本网页内容归属于一些特定级别的网络类目的概率值非常小时,可以忽略该些非常小的概率值,而仅保留前Q个较大的概率值。
在一种实施方式中,上述的具体计算过程可以利用朴素贝叶斯概率模型实现。
具体地,本申请实施例中采用的朴素贝叶斯概率模型如下式[2]所示:
P(ck|x)*P(x)=P(ck)*P(x|ck)    [2]
公式[2]中:
ck表示网页类目;
x表示样本网页内容;
P(ck|x)表示x归属于ck的概率,当ck的级别为1时,P(ck|x)等同于前文所述的
P(x)为x在所有的样本网页内容中的出现概率,比如若样本网页内容的总量为10万,则P(x)一般为10万分之一;
P(ck)表示ck的先验概率,往往是预先确定出的,比如若上述总量为10万的样本网页内容中,归属于ck的样本网页内容的数量为8000,则P(ck)=0.8/10=0.08;
P(x|ck)表示在网页类目为ck的条件下,样本网页内容为x的概率。由于x往往可以理解为一组关键词所构成的组合,因此,本申请实施例中,可以采用下式[3]计算P(x|ck):
P ( x | c k ) = Π j = 1 M P ( t j | c k ) - - - [ 3 ]
公式[3]中,j表示x中包含的关键词的编号;tj表示x中包含的编号为j的关键词;M表示x中包含的关键词的总数目;P(tj|ck)的计算方式可以有两种,分别为基于Bernoulli分布和Multi-nominal的计算方式。
其中,基于Bernoulli分布的计算方式请参照公式[4]:
P ( t j | c k ) = 1 + N ( t j , c k ) 1 + N ( c k ) - - - [ 4 ]
公式[4]中,N(tj,ck)表示归属于ck的所有样本网页内容中,包含有tj的样本网页内容的数量;N(ck)表示归属于ck的样本网页内容的总数量。
基于Multi-nominal分布的计算方式请参照公式[5]:
P ( t j | c k ) = 1 + H ( t j , c k ) I ( t j ) + N ( c k ) - - - [ 5 ]
公式[5]中,H(tj,ck)表示tj在归属于ck的所有样本网页内容中的总出现次数,比如,若tj在归属于ck的所有样本网页内容中均出现2次,则H(tj,ck)=2×(归属于ck且包含有tj的样本网页内容的数量);I(tj)表示tj在所有样本网页内容中的总出现次数;N(ck)表示归属于ck的样本网页内容的总数量。
针对子步骤2而言,在一种实施方式中,该子步骤2还可以进一步包括下述子步骤2.1和子步骤2.2:
子步骤2.1:根据至少一个级别的网页类目(后文称所述至少一个级别的网页类目)对应的各关键词分别归属于所述至少一个级别的网页类目的概率值,以及依据样本网页内容确定出的关键词出现在样本网页内容中的概率值,确定样本网页内容归属于所述至少一个级别的网页类目的待定概率值;
子步骤2.2:根据待定概率值、样本网页内容归属于特定级别的网络类目的概率值,以及表示特定级别的网页类目和所述至少一个级别的网页类目之间相关性的值,确定样本网页内容归属于所述至少一个级别的网页类目的概率值。
其中,上述子步骤2.1中,可以但不限于采用下述公式[6],计算样本网页内容归属于所述至少一个级别的网页类目的待定概率值P(ch|x):
P ( c h | x ) = Σ j P ( c h | t j ) * P ( t j | x ) - - - [ 6 ]
公式[6]中,ch表示所述至少一个级别的网页类目;P(ch|tj)表示在关键词为tj的条件下,网页类目为ch的条件概率,即可以理解为“关键词归属于ch的概率值”;P(tj|x)表示在样本网页内容为x的条件下,关键词为tj的概率,即可以理解为“依据x确定出的关键词出现在x中的概率值”。
针对子步骤2.2而言,可以但不限于采用下述公式[7],计算样本网页内容归属于所述至少一个级别的网页类目的概率值P(ch):
P(ch)=P(ch|x)P(ck|x)category_condition(k,h)    [7]
在公式[7]中,P(ch|x)表示前文所述的待定概率值;P(ck|x)表示前文所述的样本网页内容归属于特定级别的网络类目的概率值,其具体计算方式可以参见公式[2];category_condition(k,h)表示特定级别的网页类目ck和所述至少一个级别的网页类目ch之间相关性的值,其具体计算方式请参照前文说明,此处不再赘述。
本申请实施例中采用子步骤2.2计算P(ch)的目的在于,利用样本网页内容归属于特定级别的网络类目的概率值,以及特定级别的网页类目和所述至少一个级别的网页类目ch之间相关性的值,对所述的待定概率值进行修正,使得计算出的样本网页内容归属于所述至少一个级别的网页类目的概率值体现出:所述至少一个级别的网页类目和其他网页类目(具体而言比如是特定级别的网页类目)的相关性。
基于上述介绍,值得说明的是,本申请实施例中可以在计算出样本网页内容归属于最高级别的网页类目的概率值后,可以根据公式[1],计算出样本网页内容归属于第二级别的网页类目的概率值;进一步地,可以根据公式[6],计算出样本网页内容归属于第三级别的网页类目的待定概率值;进而根据公式[7],利用样本网页内容归属于第二级别的网页类目的概率值、表示第三级别的网页类目与第二级别的网页类目之间的相关性的值,以及样本网页内容归属于第三级别的网页类目的待定概率值,计算出样本网页内容归属于第三级别的网页类目的概率值。通过这样的计算,可以得到样本网页内容分别归属于第二级别和第三级别的网页类目的概率值。
本申请实施例中,计算上述概率值的过程是一般是离线进行的,从而相比于现有技术中需要一一在线计算网页文本段落分别与各创意文本段落之间的相关性的值的方式相比,可以使得广告投放引擎无需利用处理资源进行在线计算。
此外需要说明的是,本申请实施例中,可以但不限于采用项目分类树(taxonomy trees)的方式,实现对样本网页内容分别归属于各网页类目的概率值的管理。
若采用项目分类树对各概率值进行管理,则每个网页类目都可以对应项目分类树的一个节点;每个节点的映射对象包括:不同样本网页内容归属于相应的网页类目的概率值、归属于相应的网页类目的关键词、归属于相应的网页类目的样本网页内容的特征,以及与相应的网页类目相匹配的展示信息。
基于建立的项目分类树,后续可以根据待投放广告的网页内容的特征,以及各节点所映射的样本网页内容的特征,查询到与待投放广告的网页内容的特征相映射的节点;进而再通过步骤12,实现对展示信息的选取与展示。
其中,节点所映射的样本网页内容的特征可以但不限于包括下述信息中的一项或多项:
从样本网页内容中爬取得到的字样(head);描述页面(description);主要内容(content);链接锚文本(anchor text);等等。
以下对步骤12的一些可选的实现方式进行详细介绍:
在一种实施方式中,步骤12的实现过程可以包括下述子步骤Targeting和子步骤Ranking:
子步骤Targeting:根据待投放广告的网页归属的网页类目,确定与待投放广告的网页归属的网页类目相关的候选展示信息;
子步骤Ranking:根据待投放广告的网页归属于其归属的网页类目的概率值,以及候选展示信息归属于待投放广告的网页归属的网页类目的概率值,从所述候选展示信息中选取展示信息进行展示。
以下分别介绍子步骤Targeting和子步骤Ranking的一些可选的实现方式:
针对子步骤Targeting而言,在一种实施方式中,其具体实现方式可以包括下述子步骤a-1和子步骤a-2:
子步骤a-1:根据待投放广告的网页归属的第一特定网页类目,确定与第一特定网页类目相关的候选展示信息;
其中,第一特定网页类目为待投放广告的网页归属的网页类目中级别最低的网页类目。
子步骤a-2:当确定出的与第一特定网页类目相关的候选展示信息的数目小于预定数目时,确定与待投放广告的网页归属的第二特定网页类目相关的候选展示信息。
其中,第二特定网页类目为待投放广告的网页归属的网页类目中的、级别高于第一特定网页类目的其他网页类目。
以项目分类树为例,针对子步骤a-1,具体而言,可以首先根据从待投放广告的网页中爬取到的特征,确定与该特征相映射的、级别最低的节点;进而确定所述级别最低的节点所映射的展示信息。该些展示信息即为候选展示信息。针对子步骤a-2,可以判断候选展示信息的数目是否小预定数目,若是,则可以从待投放广告的网页归属的网页类目中的、级别仅高于所述级别最低的节点中确定节点,并从确定的节点对应的展示信息中选取展示信息,直至选取出的展示信息和候选展示信息的数量和等于预定数目。
针对子步骤Ranking而言,在一种实施方式中,其具体实现方式可以包括:
根据待投放广告的网页归属于其归属的网页类目的概率值,以及候选展示信息归属于待投放广告的网页归属的网页类目的概率值,计算各候选展示信息的分数值;
根据候选展示信息的分数值,从候选展示信息中选取展示信息。
本申请实施例中,可以但不限于采用下述公式[8],实现对候选展示信息的分数值Score(URL,ADS)的计算:
Score(URL,ADS)=∑P(cURL|URL)*P(cADS|ADS)*length(cURL,cADS)    [8]
公式[8]中:
URL表示待投放广告的网页。
ADS表示候选展示信息。
cURL为URL所归属的网页类目。
cADS为ADS所映射的网页类目,一般地,cADS可以与cURL相同,或者,cADS的级别可以比cURL的级别高。
P(cURL|URL)为URL归属于cURL的概率值。例如,当利用项目节点树管理概率值时,该概率值为URL归属的节点所映射的相应概率值。
P(cADS|ADS)为ADS归属于cADS的概率值,即ADS映射于cADS的概率值,也即,与ADS具备映射关系的关键词归属于cADS的概率值。其中,与ADS具备映射关系的关键词可以是预先确定的。比如,当ADS为广告时,广告主可能会期望将该广告展示到包含关键词“SUV”的网页中,从而“SUV”和该广告之间可以被认为具备映射关系。以此为例,若假设共有100个关键词,“SUV”为这100个关键词中的一个,且该关键词仅归属于cADS,那么,相应的P(cADS|ADS)=1/100。
length(cURL,cADS)表示cURL和cADS的相似度的值,其具体计算方式请参见公式[9]:
length ( c URL , c ADS ) = N ( c URL ) N ( c ADS ) - - - [ 9 ]
公式[9]中,N(cURL)表示所有的样本网页内容中,归属于cURL的样本网页内容的数量;N(cADS)表示所有的样本网页内容中,归属于cADS的样本网页内容的数量。
需要说明的是,实施例1所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤11的执行主体可以为设备1,步骤12的执行主体可以为设备2;又比如,步骤12和步骤12的执行主体均为设备1;等等。
实施例2
实施例2提供一种信息展示装置,用以提供一种保证网页中展示的展示信息与网页内容相关性的同时,避免广告投放引擎耗费较多的处理资源的方案。该装置的具体结构示意图如图3所示,包括确定单元31和信息选取单元32。以下详细介绍这两个单元各自的功能。
确定单元31,用于根据样本网页内容归属的各网页类目,以及预先确定的样本网页内容分别归属于各网页类目的概率值,确定待投放广告的网页归属的网页类目,以及待投放广告的网页归属于其归属的网页类目的概率值。
其中,样本网页内容分别归属于各网页类目的概率值的确定方式包括:
根据样本网页内容与最高级别的网页类目的相关性,确定样本网页内容归属于最高级别的网页类目的概率值;以及
根据不同级别的网页类目之间的相关性,确定样本网页内容归属于非最高级别的网页类目的概率值。
信息选取单元32,用于根据确定单元31确定的待投放广告的网页归属的网页类目,以及待投放广告的网页归属于其归属的网页类目的概率值,选取与待投放广告的网页归属的网页类目相关的展示信息进行展示。
采用本申请实施例2提供的该装置,由于预先确定了样本网页内容分别归属于各网页类目的概率值,后续可以从预先确定的概率值中确定待投放广告的网页归属于其归属的网页类目的概率值,从而无需进行在线的复杂计算,避免广告投放引擎耗费较多的处理资源;此外,由于样本网页内容分别归属于各网页类目的概率值均是根据样本网页内容与各网页类目的相关性确定出的,而选取的展示信息与网页类目也是相关的,因此可以保证网页中展示的展示信息与待投放广告的网页内容相关性较高。
在一种实施方式中,根据不同级别的网页类目之间的相关性,确定样本网页内容归属于非最高级别的网页类目的概率值的具体实现方式可以包括:根据表示特定级别以上的相邻级别的网页类目之间相关性的值,以及样本网页内容归属于特定级别以上的最高级别的网页类目的概率值,确定样本网页内容归属于特定级别的网络类目的概率值。
在一种实施方式中,根据不同级别的网页类目之间的相关性,确定样本网页内容归属于非最高级别的网页类目的概率值的具体实现方式还可以包括:
根据至少一个级别的网页类目对应的各关键词分别归属于所述至少一个级别的网页类目的概率值和依据样本网页内容确定出的关键词出现在样本网页内容中的概率值,确定样本网页内容归属于所述至少一个级别的网页类目的待定概率值;
根据所述待定概率值、样本网页内容归属于特定级别的网络类目的概率值,以及表示特定级别的网页类目和所述至少一个级别的网页类目之间相关性的值,确定样本网页内容归属于所述至少一个级别的网页类目的概率值。
在一种实施方式中,信息选取单元32可以包括:候选信息确定子单元和展示信息选取子单元,其中:
候选信息确定子单元,用于根据待投放广告的网页归属的网页类目,确定与待投放广告的网页归属的网页类目相关的候选展示信息;
展示信息选取子单元,用于根据待投放广告的网页归属于其归属的网页类目的概率值,以及候选展示信息归属于待投放广告的网页归属的网页类目的概率值,从候选信息确定子单元确定的候选展示信息中选取展示信息。
在一种实施方式中,候选信息确定子单元可以用于:
根据待投放广告的网页归属的第一特定网页类目,确定与所述第一特定网页类目相关的候选展示信息;其中,所述第一特定网页类目为待投放广告的网页归属的网页类目中级别最低的网页类目;
当确定出的与所述第一特定网页类目相关的候选展示信息的数目小于预定数目时,确定与待投放广告的网页归属的第二特定网页类目相关的候选展示信息;其中,所述第二特定网页类目为待投放广告的网页归属的网页类目中的、级别高于所述第一特定网页类目的其他网页类目。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种信息展示方法,其特征在于,包括:
根据样本网页内容归属的各网页类目,以及预先确定的样本网页内容分别归属于各网页类目的概率值,确定待投放广告的网页归属的网页类目,以及待投放广告的网页归属于其归属的网页类目的概率值;
根据待投放广告的网页归属的网页类目,以及待投放广告的网页归属于其归属的网页类目的概率值,选取与待投放广告的网页归属的网页类目相关的展示信息进行展示;
其中,样本网页内容分别归属于各网页类目的概率值的确定方式包括:
根据样本网页内容与最高级别的网页类目的相关性,确定样本网页内容归属于最高级别的网页类目的概率值;以及
根据不同级别的网页类目之间的相关性,确定样本网页内容归属于非最高级别的网页类目的概率值。
2.如权利要求1所述的方法,其特征在于,根据不同级别的网页类目之间的相关性,确定样本网页内容归属于非最高级别的网页类目的概率值,包括:
根据表示特定级别以上的相邻级别的网页类目之间相关性的值,以及样本网页内容归属于特定级别以上的最高级别的网页类目的概率值,确定样本网页内容归属于特定级别的网络类目的概率值。
3.如权利要求1或2所述的方法,其特征在于,根据不同级别的网页类目之间的相关性,确定样本网页内容归属于非最高级别的网页类目的概率值,还包括:
根据至少一个级别的网页类目对应的各关键词分别归属于所述至少一个级别的网页类目的概率值和依据样本网页内容确定出的关键词出现在样本网页内容中的概率值,确定样本网页内容归属于所述至少一个级别的网页类目的待定概率值;
根据所述待定概率值、样本网页内容归属于特定级别的网络类目的概率值,以及表示特定级别的网页类目和所述至少一个级别的网页类目之间相关性的值,确定样本网页内容归属于所述至少一个级别的网页类目的概率值。
4.如权利要求1所述的方法,其特征在于,根据待投放广告的网页归属的网页类目,以及待投放广告的网页归属于其归属的网页类目的概率值,选取与待投放广告的网页归属的网页类目相关的展示信息,包括:
根据待投放广告的网页归属的网页类目,确定与待投放广告的网页归属的网页类目相关的候选展示信息;
根据待投放广告的网页归属于其归属的网页类目的概率值,以及候选展示信息归属于待投放广告的网页归属的网页类目的概率值,从所述候选展示信息中选取展示信息。
5.如权利要求4所述的方法,其特征在于,根据待投放广告的网页归属的网页类目,确定与待投放广告的网页归属的网页类目相关的候选展示信息,包括:
根据待投放广告的网页归属的第一特定网页类目,确定与所述第一特定网页类目相关的候选展示信息;其中,所述第一特定网页类目为待投放广告的网页归属的网页类目中级别最低的网页类目;
当确定出的与所述第一特定网页类目相关的候选展示信息的数目小于预定数目时,确定与待投放广告的网页归属的第二特定网页类目相关的候选展示信息;其中,所述第二特定网页类目为待投放广告的网页归属的网页类目中的、级别高于所述第一特定网页类目的其他网页类目。
6.一种信息展示装置,其特征在于,包括:
确定单元,用于根据样本网页内容归属的各网页类目,以及预先确定的样本网页内容分别归属于各网页类目的概率值,确定待投放广告的网页归属的网页类目,以及待投放广告的网页归属于其归属的网页类目的概率值;
信息选取单元,用于根据确定单元确定的待投放广告的网页归属的网页类目,以及待投放广告的网页归属于其归属的网页类目的概率值,选取与待投放广告的网页归属的网页类目相关的展示信息进行展示;
其中,样本网页内容分别归属于各网页类目的概率值的确定方式包括:
根据样本网页内容与最高级别的网页类目的相关性,确定样本网页内容归属于最高级别的网页类目的概率值;以及
根据不同级别的网页类目之间的相关性,确定样本网页内容归属于非最高级别的网页类目的概率值。
7.如权利要求6所述的装置,其特征在于,根据不同级别的网页类目之间的相关性,确定样本网页内容归属于非最高级别的网页类目的概率值,包括:
根据表示特定级别以上的相邻级别的网页类目之间相关性的值,以及样本网页内容归属于特定级别以上的最高级别的网页类目的概率值,确定样本网页内容归属于特定级别的网络类目的概率值。
8.如权利要求6或7所述的装置,其特征在于,根据不同级别的网页类目之间的相关性,确定样本网页内容归属于非最高级别的网页类目的概率值,还包括:
根据至少一个级别的网页类目对应的各关键词分别归属于所述至少一个级别的网页类目的概率值和依据样本网页内容确定出的关键词出现在样本网页内容中的概率值,确定样本网页内容归属于所述至少一个级别的网页类目的待定概率值;
根据所述待定概率值、样本网页内容归属于特定级别的网络类目的概率值,以及表示特定级别的网页类目和所述至少一个级别的网页类目之间相关性的值,确定样本网页内容归属于所述至少一个级别的网页类目的概率值。
9.如权利要求6所述的装置,其特征在于,信息选取单元包括:
候选信息确定子单元,用于根据待投放广告的网页归属的网页类目,确定与待投放广告的网页归属的网页类目相关的候选展示信息;
展示信息选取子单元,用于根据待投放广告的网页归属于其归属的网页类目的概率值,以及候选展示信息归属于待投放广告的网页归属的网页类目的概率值,从候选信息确定子单元确定的候选展示信息中选取展示信息。
10.如权利要求9所述的装置,其特征在于,候选信息确定子单元,用于:
根据待投放广告的网页归属的第一特定网页类目,确定与所述第一特定网页类目相关的候选展示信息;其中,所述第一特定网页类目为待投放广告的网页归属的网页类目中级别最低的网页类目;
当确定出的与所述第一特定网页类目相关的候选展示信息的数目小于预定数目时,确定与待投放广告的网页归属的第二特定网页类目相关的候选展示信息;其中,所述第二特定网页类目为待投放广告的网页归属的网页类目中的、级别高于所述第一特定网页类目的其他网页类目。
CN201410690783.0A 2014-11-25 2014-11-25 信息展示方法及装置 Active CN104346748B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410690783.0A CN104346748B (zh) 2014-11-25 2014-11-25 信息展示方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410690783.0A CN104346748B (zh) 2014-11-25 2014-11-25 信息展示方法及装置

Publications (2)

Publication Number Publication Date
CN104346748A true CN104346748A (zh) 2015-02-11
CN104346748B CN104346748B (zh) 2018-05-25

Family

ID=52502299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410690783.0A Active CN104346748B (zh) 2014-11-25 2014-11-25 信息展示方法及装置

Country Status (1)

Country Link
CN (1) CN104346748B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345599A (zh) * 2017-01-23 2018-07-31 阿里巴巴集团控股有限公司 网页类型确定方法、装置及计算机可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127624A (zh) * 2007-09-27 2008-02-20 腾讯科技(深圳)有限公司 广告服务器、广告创意的展示方法和系统
CN100452054C (zh) * 2007-05-09 2009-01-14 崔志明 用于深层网页数据源集成的数据源发现方法
CN101599160A (zh) * 2009-07-14 2009-12-09 清华大学 投放广告的方法及装置
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN103164454A (zh) * 2011-12-15 2013-06-19 百度在线网络技术(北京)有限公司 关键词分组方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100452054C (zh) * 2007-05-09 2009-01-14 崔志明 用于深层网页数据源集成的数据源发现方法
CN101127624A (zh) * 2007-09-27 2008-02-20 腾讯科技(深圳)有限公司 广告服务器、广告创意的展示方法和系统
CN101599160A (zh) * 2009-07-14 2009-12-09 清华大学 投放广告的方法及装置
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN103164454A (zh) * 2011-12-15 2013-06-19 百度在线网络技术(北京)有限公司 关键词分组方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭心语 等: "网络广告定向技术综述", 《华东师范大学学报(自然科学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345599A (zh) * 2017-01-23 2018-07-31 阿里巴巴集团控股有限公司 网页类型确定方法、装置及计算机可读介质
CN108345599B (zh) * 2017-01-23 2021-12-14 阿里巴巴集团控股有限公司 网页类型确定方法、装置及计算机可读介质

Also Published As

Publication number Publication date
CN104346748B (zh) 2018-05-25

Similar Documents

Publication Publication Date Title
US20210374196A1 (en) Keyword and business tag extraction
US7877404B2 (en) Query classification based on query click logs
US8370343B2 (en) Selecting directly bid upon advertisements for display
US9189804B2 (en) Systems and methods for list ranking and ads placement using interaction features
US10102482B2 (en) Factorized models
US8880548B2 (en) Dynamic search interaction
US20160210689A1 (en) Content item configuration optimization
US9678618B1 (en) Using an expanded view to display links related to a topic
CN104750789A (zh) 标签的推荐方法及装置
CN102419776A (zh) 一种满足用户多维度搜索需求的方法和设备
CN102279851A (zh) 一种智能导航方法、装置和系统
CN107590174A (zh) 页面访问方法及装置
CN104951468A (zh) 数据搜索处理方法和系统
CN105335409A (zh) 一种目标用户的确定方法、设备和网络服务器
CN104516950A (zh) 一种兴趣点的查询方法及装置
CN105446989A (zh) 搜索方法及装置、显示装置
US20130325897A1 (en) System and methods for providing content
US9922340B1 (en) Evaluating attribution models based on simulated activity streams
US20110276391A1 (en) Expansion of term sets for use in advertisement selection
US20160335354A1 (en) Predicting real-time change in organic search ranking of a website
KR101331453B1 (ko) 연관어를 이용한 확장 키워드 검색 광고 방법
CN104346748A (zh) 信息展示方法及装置
CN107273362B (zh) 数据处理方法及其设备
US10282357B1 (en) Dynamic resampling for ranking viewer experiences
CN104601670A (zh) 一种用户兴趣对象验证方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230315

Address after: Room 501-502, 5/F, Sina Headquarters Scientific Research Building, Block N-1 and N-2, Zhongguancun Software Park, Dongbei Wangxi Road, Haidian District, Beijing, 100193

Patentee after: Sina Technology (China) Co.,Ltd.

Address before: 100080, International Building, No. 58 West Fourth Ring Road, Haidian District, Beijing, 20 floor

Patentee before: Sina.com Technology (China) Co.,Ltd.

TR01 Transfer of patent right