CN102663026B

CN102663026B - 一种定向投放网络广告的实现方法

Info

Publication number: CN102663026B
Application number: CN201210079020.3A
Authority: CN
Inventors: 韩冬; 田宁; 刘崟; 谭磊
Original assignee: ZHEJIANG PANSHI INFORMATION TECHNOLOGY Co Ltd
Current assignee: Zhejiang Panxing Shuzhi Technology Co.,Ltd.
Priority date: 2012-03-22
Filing date: 2012-03-22
Publication date: 2015-09-23
Anticipated expiration: 2032-03-22
Also published as: CN102663026A

Abstract

一种定向投放网络广告的实现方法，包括如下步骤：步骤S110：将所有的目标网站首先按照主题进行聚类，聚类算法将用向量空间模型来计算网页之间的相似度，根据相似度对网页进行聚类；步骤S120：对每一类网站标上主题，然后对每一个主题下的网页进行人群属性的判断统计，所述人群属性包括性别、年龄、收入、身份、学历、兴趣和家庭状况；步骤S130：对待投放的广告进行分析，分析的内容是广告类型的判断、广告所投放的人群属性的分析；步骤S140：网页广告的匹配是用于根据广告与网页分析的人群属性进行匹配，将广告投放到对应网页上。本发明提供一种提升精确度、实用性良好的定向投放网络广告的实现方法。

Description

一种定向投放网络广告的实现方法

技术领域

本发明涉及计算机互联网技术领域，尤其是一种网络广告定向投放方法。

背景技术

目前广告类垃圾邮件、弹出式广告、插件广告等强迫式的网络广告因不受用户的欢迎而逐渐被淘汰。随着互联网广告业的快速发展，定向广告作为一种新兴的网络广告模式也随之迅速发展，这种广告模块以其准确、及时、高效的特点受到广大网络用户关注。

现在的定向投放网络广告的技术有：根据网页的主题进行定向投放的网站定向广告；根据页面内容的关键词进行定向投放的内容定向广告；从IP地址中提取地域信息，将包含相关地域信息的广告内容展现给用户的地域定向投放广告等。

发明内容

为了克服已有的定向投放网络广告方式的精确度较低、实用性较差的不足，本发明提供一种提升精确度、实用性良好的定向投放网络广告的实现方法。

本发明解决其技术问题所采用的技术方案是：

一种定向投放网络广告的实现方法，所述实现方法包括如下步骤：步骤S110：将所有的目标网站首先按照主题进行聚类，聚类算法将用向量空间模型来计算网页之间的相似度，根据相似度对网页进行聚类；步骤S120：对每一类网站标上主题，然后对每一个主题下的网页进行人群属性的判断统计，所述人群属性包括性别、年龄、收入、身份、学历、兴趣和家庭状况；

步骤S130：对待投放的广告进行分析，分析的内容是广告类型的判断、广告所投放的人群属性的分析，确定广告的类型和人群属性；

步骤S140：网页广告的匹配是用于根据广告与网页分析的人群属性进行匹配，将广告投放到对应网页上，具体过程如下：

(4.1)计算某个人群属性在某种条件下的概率：首先将每个概率值初始化为0.5，若某种条件出现的频率是a，而在这种条件下，某个人群属性的属性值出现的频率是b，则将这个人群属性在这种条件下的概率定义为其中n为这个人群属性的属性值个数；

(4.2)计算关键数据，公式为：

P (a_{1}, a_{2}, \cdot \cdot \cdot, a_{m}) = Π_{i = 1}^{m} P (a_{i} | a_{i - 1}, \cdot \cdot \cdot, a_{1})

表示与属性a_i有关的联合概率有m个。而在贝叶斯网络中，由于存在前述性质，即贝叶斯网络中任意节点a_i条件独立于由a_i的父节点给定的非a_i后代节点构成的任何节点子集。任意随机变量组合的联合条件概率分布被化简成

P (a_{1}, \cdot \cdot \cdot, a_{m}) = Π_{i = 1}^{m} P (a_{i} | Parents (a_{i}))

在这里需要计算的是属性频道与其余属性之间的联合概率，将概率值P(a频道＝浏览，E)和P(b频道＝浏览，E)进行比较，计算在E条件下，浏览所有频道概率值，取其最大值，广告投放到最大概率值所对应的该类网页上。

进一步，所述步骤S110中，利用向量空间模型来计算两个文档之间相似度，用sim(d₁，d₂)表示向量夹角的余弦值，用和分别表示网页d₁和d₂在向量空间中的两个向量，他们之间的相似度由下面的公式计算：

sim (d_{1}, d_{2}) = \frac{\overset{&OverBar;}{V} (d_{1}) \cdot \overset{&OverBar;}{V} (d_{2})}{| \overset{&OverBar;}{V} (d_{1}) | | \overset{&OverBar;}{V} (d_{2}) |}

本发明的技术构思为：根据用户基本属性模型和聚类算法对所有的目标网页按主题进行聚类，聚类算法将用向量空间模型来计算网页之间的相似度，根据该相似度对网页进行聚类；

对于每一类网页簇根据人群属性分析模型，分析每一类网页簇的人群角色，通过鲜明的人群角色得到人群基本属性值；

对广告主的广告进行主题判断，然后对其进行人群基本属性的分析，最终得到与之对应的人群基本属性值；

根据目标网站和广告分别得到人群属性值进行匹配，将广告投放到合适的目标网站上。

本发明的有益效果主要表现在：提升精确度、实用性良好。

附图说明

图1是本发明实现网络广告定向投放的过程流程图；

图2是本发明网页广告匹配的模型图；

图3是本发明分析得到的相关数据；

图4是网络广告定向投放的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图4，一种定向投放网络广告的实现方法，首先将所有的目标网站按照主题以及人群基本属性模型进行聚类，这里的人群基本属性包括性别、年龄、收入、身份、学历、兴趣、家庭状况，聚类算法将用向量空间模型来计算网页之间的相似度，根据相似度对网页进行聚类，然后利用人群基本属性分析模型对每一类网页进行属性分析，与广告分析的得到类型与人群属性基本属性进行匹配，将广告投放到适合的网页上。通过这种方法，可以对投放的广告进行准确定位，向用户提供符合其身份和喜好的广告类型，增加网络广告的点击率，从而提高网络广告的效果。

本发明实施例中对每一类网页中人群基本属性的分析，是根据某一段时间内访问目标网站的用户信息中的某一项或多项属性的取值范围进行划分的，或者是根据第三方提供的相关数据中某一项或多项属性的取值范围进行划分，第三方提供的数据包括：人口统计信息、消费者习惯信息、互联网用户特性信息等。

可根据实际的需要，选择比较有代表性的人群基本属性进行分析。

图1示出了本发明实施例实现网络广告定向投放的方案流程图，主要包括以下步骤：

步骤S110：将所有的目标网站首先按照主题进行聚类，聚类算法将用向量空间模型来计算网页之间的相似度，根据相似度对网页进行聚类。最终网站分类达到的预期目标是具有相同属性的一类人群去浏览这类具有相同主题的目标网站。

上面提到的向量空间模型是计算两个文档之间相似度的经典模型，该模型将文档表示为同一个向量空间中的向量，并用这两个向量之间夹角的余弦值来衡量文档间的相似度，而向量夹角的余弦值可以用两个向量的内积进行计算。用和分别表示文档d₁和d₂在向量空间中的两个向量，他们之间的相似度可以由下面的公式计算：

sim (d_{1}, d_{2}) = \frac{\overset{&OverBar;}{V} (d_{1}) \cdot \overset{&OverBar;}{V} (d_{2})}{| \overset{&OverBar;}{V} (d_{1}) | | \overset{&OverBar;}{V} (d_{2}) |}

步骤S120：对每一类网站标上主题，然后对浏览该类网页的人群根据植入的cookie文件记录的信息按照论文“Demographic PredictionBased on User’s Browsing Behavior”Hu et al，WWW 2007”中提到的方法对每一个主题下的网页进行人群属性(性别、年龄、收入、身份、学历、兴趣、家庭状况)的判断统计，或者是根据第三方提供相关的数据进行统计。如果同一类网站下网页的人群属性有比较大的差别，对网页所属的主题进行人工干预调整。

下面每个人群属性下的属性值：

性别：男、女；

年龄：少年及以下、青年、中年、老年；

收入：高(8000以上)、中(3000-8000)、低(3000以下)

身份：学生、商人、农民、白领(前台、经理等)、蓝领；

学历：初中以下、高中、大专、本科及以上；

兴趣：消费数码、IT及信息产业、汽车金融、首饰饰品、美容及化

妆品、教育培训、游戏、健康医疗、母婴育儿等。

需要说明是各个属性的属性值是根据实际需要进行设定的。上面是针对该专利的一个简单的属性值分类，最终经过分析统计得到图3，在这里兴趣值是根据出现的概率值大小进行取舍的。

步骤S130：广告分析是根据广告主的要求或者是广告要达到的效果进行分析，分析的内容是广告类型的判断、广告所投放的人群属性的分析。广告分析的过程与网页分析类似，而且会比较简单。分析的目的是能够与网页得到主题和人群属性匹配。

步骤S140：网页广告的匹配是用于根据广告与网页分析的人群属性进行匹配，将广告投放到合适的网页上。在这一步用到的模型是贝叶斯网络模型。图2为即为贝叶斯网络模型图。图3为案例分析得到的数据表(只显示其中的一部分)。

下面为根据案例分析得到数据表(图3)来计算贝叶斯网络中各节点间的条件概率，由图2贝叶斯网络模型图需建立的条件概率表有8个：频道、性别；频道、收入；频道、年龄；频道、年龄、家庭状况；年龄、身份；频道、年龄、教育；频道、兴趣；频道、身份、收入。下面根据图3计算出其中两个表中的条件概率(频道、性别；频道、年龄、教育)，其余的依次类推。得到下面的条件概率表：

表1

表2

上面两个表的数据是根据图3得到的。首先在实际需要中只用到浏览该类网页的概率，故不浏览该类网页的概率不用计算。然后是计算的概率值略有不同，因为为了避免出现概率为0的情况，将每个计算初始化为0.5，如当“频道＝浏览，年龄＝老年”时，“性别＝男”的概率p，由图3可得到此时男的个数24，而“频道＝浏览，年龄＝老年”的个数是49，那么此时的概率p＝(24+0.5)/(49+2*0.5)＝0.49。那么就由上面的方法得到节点间的条件概率。

有了上面的数据，接下来需要计算的数据是关键数据，即在某种情况下，浏览该类网页的概率。公式为

P (a_{1}, a_{2}, \cdot \cdot \cdot, a_{m}) = Π_{i = 1}^{m} P (a_{i} | a_{i - 1}, \cdot \cdot \cdot, a_{1})

P (a_{1}, \cdot \cdot \cdot, a_{m}) = Π_{i = 1}^{m} P (a_{i} | Parents (a_{i}))

在这里需要计算的是属性频道与其余属性之间的联合概率。其实这样计算的概率值P(频道＝浏览，E)和P(频道＝浏览，E)之和并不等于1(在这里E表示某种条件)，但是并不影响浏览该类网页的概率值与浏览另一类网页的概率值的比较，所以不用将其标准化，直接将概率值P(a频道＝浏览，E)和P(b频道＝浏览，E)进行比较。当投放广告时，计算在E条件下，浏览所有频道概率值，取其最大值，最终将广告投放到最大概率值所对应的该类网页上。

本实施例在广告主提供广告时，对广告类型及对应的人群属性进行分析后，确定广告类型及对应人群属性。选择相应的人群属性，通过计算并比较该人群属性与目标网页之间的条件概率值，得到条件概率值最大的对应的一类网页，将广告投放到此类网页上。因而广告能够投放到具有特定人群属性的网页上，即能够向用户提供符合其爱好和身份的广告网页，进一步提高了网络广告的点击率和效果。

Claims

1.一种定向投放网络广告的实现方法，其特征在于：所述实现方法包括如下步骤：

步骤S110：将所有的目标网页首先按照主题进行聚类，聚类算法利用向量空间模型来计算网页之间的相似度，根据相似度对网页进行聚类；

步骤S120：对每一类网页标上主题，然后对每一个主题下的网页进行人群属性的判断统计，所述人群属性包括性别、年龄、收入、身份、学历、兴趣和家庭状况；

步骤S130：对待投放的广告进行分析，分析的内容是广告类型的判断、广告所投放的人群属性的分析；

步骤S140:网页广告的匹配是根据广告与网页分析的人群属性进行匹配，将广告投放到对应网页上，具体过程如下：

(4.1)计算某个人群属性在某种条件下的概率：首先将每个概率值初始化为0.5，若某种条件出现的个数是a，而在这种条件下，某个人群属性的属性值出现的个数是b，则将这个人群属性在这种条件下概率定义为其中n为这个人群属性的属性值个数；

(4.2)计算关键数据，公式为：

P (a_{1}, a_{2}, . . ., a_{m}) = Π_{i = 1}^{m} P (a_{i} | a_{i - 1}, . . ., a_{1})

表示与人群属性a_i有关的联合概率有m个；贝叶斯网络中任意节点a_i条件独立于由a_i的父节点给定的非a_i后代节点构成的任何节点子集；任意随机变量组合的联合条件概率分布被化简成

P (a_{1}, a_{2}, . . ., a_{m}) = Π_{i = 1}^{m} P (a_{i} | Parents (a_{i}))

在这里需要计算的是频道属性与其余属性之间的联合概率，将E条件下浏览c频道的概率值和E条件下浏览d频道的概率值进行比较，在这里E表示某种条件，计算在E条件下，浏览所有频道概率值，取其最大值，广告投放到最大概率值所对应的该类网页上。

2.如权利要求1所述的一种定向投放网络广告的实现方法，其特征在于：

所述步骤S110中，利用向量空间模型来计算两个网页之间相似度；用sim(d₁,d₂)表示向量夹角的余弦值，和分别表示网页d₁和d₂在向量空间中的两个向量，他们之间的相似度由下面的公式计算：

sim (d_{1}, d_{2}) = \frac{\overset{&RightArrow;}{V} (d_{1}) . \overset{&RightArrow;}{V} (d_{2})}{| \overset{&RightArrow;}{V} (d_{1}) | | \overset{&RightArrow;}{V} (d_{2}) |} .