发明内容
为了克服已有的定向投放网络广告方式的精确度较低、实用性较差的不足,本发明提供一种提升精确度、实用性良好的定向投放网络广告的实现方法。
本发明解决其技术问题所采用的技术方案是:
一种定向投放网络广告的实现方法,所述实现方法包括如下步骤:步骤S110:将所有的目标网站首先按照主题进行聚类,聚类算法将用向量空间模型来计算网页之间的相似度,根据相似度对网页进行聚类;步骤S120:对每一类网站标上主题,然后对每一个主题下的网页进行人群属性的判断统计,所述人群属性包括性别、年龄、收入、身份、学历、兴趣和家庭状况;
步骤S130:对待投放的广告进行分析,分析的内容是广告类型的判断、广告所投放的人群属性的分析,确定广告的类型和人群属性;
步骤S140:网页广告的匹配是用于根据广告与网页分析的人群属性进行匹配,将广告投放到对应网页上,具体过程如下:
(4.1)计算某个人群属性在某种条件下的概率:首先将每个概率值初始化为0.5,若某种条件出现的频率是a,而在这种条件下,某个人群属性的属性值出现的频率是b,则将这个人群属性在这种条件下的概率定义为其中n为这个人群属性的属性值个数;
(4.2)计算关键数据,公式为:
表示与属性ai有关的联合概率有m个。而在贝叶斯网络中,由于存在前述性质,即贝叶斯网络中任意节点ai条件独立于由ai的父节点给定的非ai后代节点构成的任何节点子集。任意随机变量组合的联合条件概率分布被化简成
在这里需要计算的是属性频道与其余属性之间的联合概率,将概率值P(a频道=浏览,E)和P(b频道=浏览,E)进行比较,计算在E条件下,浏览所有频道概率值,取其最大值,广告投放到最大概率值所对应的该类网页上。
进一步,所述步骤S110中,利用向量空间模型来计算两个文档之间相似度,用sim(d1,d2)表示向量夹角的余弦值,用和分别表示网页d1和d2在向量空间中的两个向量,他们之间的相似度由下面的公式计算:
本发明的技术构思为:根据用户基本属性模型和聚类算法对所有的目标网页按主题进行聚类,聚类算法将用向量空间模型来计算网页之间的相似度,根据该相似度对网页进行聚类;
对于每一类网页簇根据人群属性分析模型,分析每一类网页簇的人群角色,通过鲜明的人群角色得到人群基本属性值;
对广告主的广告进行主题判断,然后对其进行人群基本属性的分析,最终得到与之对应的人群基本属性值;
根据目标网站和广告分别得到人群属性值进行匹配,将广告投放到合适的目标网站上。
本发明的有益效果主要表现在:提升精确度、实用性良好。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图4,一种定向投放网络广告的实现方法,首先将所有的目标网站按照主题以及人群基本属性模型进行聚类,这里的人群基本属性包括性别、年龄、收入、身份、学历、兴趣、家庭状况,聚类算法将用向量空间模型来计算网页之间的相似度,根据相似度对网页进行聚类,然后利用人群基本属性分析模型对每一类网页进行属性分析,与广告分析的得到类型与人群属性基本属性进行匹配,将广告投放到适合的网页上。通过这种方法,可以对投放的广告进行准确定位,向用户提供符合其身份和喜好的广告类型,增加网络广告的点击率,从而提高网络广告的效果。
本发明实施例中对每一类网页中人群基本属性的分析,是根据某一段时间内访问目标网站的用户信息中的某一项或多项属性的取值范围进行划分的,或者是根据第三方提供的相关数据中某一项或多项属性的取值范围进行划分,第三方提供的数据包括:人口统计信息、消费者习惯信息、互联网用户特性信息等。
可根据实际的需要,选择比较有代表性的人群基本属性进行分析。
图1示出了本发明实施例实现网络广告定向投放的方案流程图,主要包括以下步骤:
步骤S110:将所有的目标网站首先按照主题进行聚类,聚类算法将用向量空间模型来计算网页之间的相似度,根据相似度对网页进行聚类。最终网站分类达到的预期目标是具有相同属性的一类人群去浏览这类具有相同主题的目标网站。
上面提到的向量空间模型是计算两个文档之间相似度的经典模型,该模型将文档表示为同一个向量空间中的向量,并用这两个向量之间夹角的余弦值来衡量文档间的相似度,而向量夹角的余弦值可以用两个向量的内积进行计算。用和分别表示文档d1和d2在向量空间中的两个向量,他们之间的相似度可以由下面的公式计算:
步骤S120:对每一类网站标上主题,然后对浏览该类网页的人群根据植入的cookie文件记录的信息按照论文“Demographic PredictionBased on User’s Browsing Behavior”Hu et al,WWW 2007”中提到的方法对每一个主题下的网页进行人群属性(性别、年龄、收入、身份、学历、兴趣、家庭状况)的判断统计,或者是根据第三方提供相关的数据进行统计。如果同一类网站下网页的人群属性有比较大的差别,对网页所属的主题进行人工干预调整。
下面每个人群属性下的属性值:
性别:男、女;
年龄:少年及以下、青年、中年、老年;
收入:高(8000以上)、中(3000-8000)、低(3000以下)
身份:学生、商人、农民、白领(前台、经理等)、蓝领;
学历:初中以下、高中、大专、本科及以上;
兴趣:消费数码、IT及信息产业、汽车金融、首饰饰品、美容及化
妆品、教育培训、游戏、健康医疗、母婴育儿等。
需要说明是各个属性的属性值是根据实际需要进行设定的。上面是针对该专利的一个简单的属性值分类,最终经过分析统计得到图3,在这里兴趣值是根据出现的概率值大小进行取舍的。
步骤S130:广告分析是根据广告主的要求或者是广告要达到的效果进行分析,分析的内容是广告类型的判断、广告所投放的人群属性的分析。广告分析的过程与网页分析类似,而且会比较简单。分析的目的是能够与网页得到主题和人群属性匹配。
步骤S140:网页广告的匹配是用于根据广告与网页分析的人群属性进行匹配,将广告投放到合适的网页上。在这一步用到的模型是贝叶斯网络模型。图2为即为贝叶斯网络模型图。图3为案例分析得到的数据表(只显示其中的一部分)。
下面为根据案例分析得到数据表(图3)来计算贝叶斯网络中各节点间的条件概率,由图2贝叶斯网络模型图需建立的条件概率表有8个:频道、性别;频道、收入;频道、年龄;频道、年龄、家庭状况;年龄、身份;频道、年龄、教育;频道、兴趣;频道、身份、收入。下面根据图3计算出其中两个表中的条件概率(频道、性别;频道、年龄、教育),其余的依次类推。得到下面的条件概率表:
表1
表2
上面两个表的数据是根据图3得到的。首先在实际需要中只用到浏览该类网页的概率,故不浏览该类网页的概率不用计算。然后是计算的概率值略有不同,因为为了避免出现概率为0的情况,将每个计算初始化为0.5,如当“频道=浏览,年龄=老年”时,“性别=男”的概率p,由图3可得到此时男的个数24,而“频道=浏览,年龄=老年”的个数是49,那么此时的概率p=(24+0.5)/(49+2*0.5)=0.49。那么就由上面的方法得到节点间的条件概率。
有了上面的数据,接下来需要计算的数据是关键数据,即在某种情况下,浏览该类网页的概率。公式为
表示与属性ai有关的联合概率有m个。而在贝叶斯网络中,由于存在前述性质,即贝叶斯网络中任意节点ai条件独立于由ai的父节点给定的非ai后代节点构成的任何节点子集。任意随机变量组合的联合条件概率分布被化简成
在这里需要计算的是属性频道与其余属性之间的联合概率。其实这样计算的概率值P(频道=浏览,E)和P(频道=浏览,E)之和并不等于1(在这里E表示某种条件),但是并不影响浏览该类网页的概率值与浏览另一类网页的概率值的比较,所以不用将其标准化,直接将概率值P(a频道=浏览,E)和P(b频道=浏览,E)进行比较。当投放广告时,计算在E条件下,浏览所有频道概率值,取其最大值,最终将广告投放到最大概率值所对应的该类网页上。
本实施例在广告主提供广告时,对广告类型及对应的人群属性进行分析后,确定广告类型及对应人群属性。选择相应的人群属性,通过计算并比较该人群属性与目标网页之间的条件概率值,得到条件概率值最大的对应的一类网页,将广告投放到此类网页上。因而广告能够投放到具有特定人群属性的网页上,即能够向用户提供符合其爱好和身份的广告网页,进一步提高了网络广告的点击率和效果。