CN104317822B - 网络用户的人口属性预测方法和装置 - Google Patents
网络用户的人口属性预测方法和装置 Download PDFInfo
- Publication number
- CN104317822B CN104317822B CN201410515420.3A CN201410515420A CN104317822B CN 104317822 B CN104317822 B CN 104317822B CN 201410515420 A CN201410515420 A CN 201410515420A CN 104317822 B CN104317822 B CN 104317822B
- Authority
- CN
- China
- Prior art keywords
- webpage
- population
- mrow
- value
- ascribed characteristics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种网络用户的人口属性预测方法和装置,其中,所述方法包括:确定网络用户在设定时间段内所访问的若干网页;确定每个网页的人口属性为特定属性值的概率,并确定每个网页所属频道的人口属性为特定属性值的概率;根据每个网页的人口属性为特定属性值的概率、以及每个网页所属频道的人口属性为特定属性值的概率,预测网络用户的人口属性为特定属性值的概率。由于频道通常包含多个网页,频道的访问量相对较多,因此本发明在进行网络用户的人口属性预测时将网络用户所访问过的网页所属频道的人口属性考虑在内,增加了网络用户的人口属性预测的稳定性,相应提高了网络用户的人口属性预测的准确度。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种网络用户的人口属性预测方法和装置。
背景技术
在计算广告学领域,定向广告就是将特定的网络广告发送给特定的人群。发布定向广告首先要制定定向条件,即确定将定向广告“发送给谁”。然后由广告发布系统根据定向条件确定目标人群并将广告发布出去。比如,针对年轻的学生推广一种快速消费品。定向广告一方面可以令广告主对目标人群进行重点宣传,避免了市场费用浪费在非目标人群上;另一方面也可以在一次广告活动中,对不同的人群采取不同的市场策略,以达到更好地广告效果。
其中,广告发布系统根据定向条件确定目标人群主要是根据网络用户的人口属性的统计特征来选取出符合定向条件的网络用户,将选取的这些网络用户作为目标人群进行广告投放。因此,在计算广告领域中网络用户的人口属性预测方面的研究是一项重要的研究内容。通常,网络用户的人口属性有多种,如性别、年龄、兴趣等。若在一个网页的广告位上,定向投放广告A到若干个性别为女性的网络用户,这些性别为女性的网络用户访问该网页时,该网页的广告位上便展示广告A。
目前的研究表明,网络用户的人口属性与其在网络上的浏览行为有很大的关系。针对网络用户的人口属性预测,现在比较通用的方法是根据待预测的网络用户的cookie,记录网络用户在网络上的行为信息,主要包括网络用户的cookie访问了哪些页面等,根据该网络用户访问的页面的人口属性,预测该网络用户的人口属性。具体地,现有的根据网络用户访问的页面的人口属性预测网络用户的人口属性的方法主要包括:对于待预测的网络用户所访问过的每个网页,根据访问该网页的人口属性已知的若干个网络用户的人口属性,确定该网页的人口属性;根据待预测的网络用户所访问的网页的人口属性,确定该网络用户的人口属性。然而,对于一些网页,这些网页的访问量可能较少(或称为数据缺失),导致访问这些网页的属性已知的网络用户也较少,进而会造成确定这些网页的人口属性的准确度不高,因而仅根据网络用户所访问过的网页的人口属性来确定网络用户的人口属性的方式准确度不高。
因此,有必要提供一种能够更为准确地对网络用户的人口属性进行预测的方法。
发明内容
针对上述现有技术存在的缺陷,本发明实施例提供了一种网络用户的人口属性预测方法和装置,用以提高网络用户的人口属性预测的准确度。
本发明实施例提供了一种网络用户的人口属性预测方法,包括:
确定网络用户在设定时间段内所访问的若干网页;
对于确定出的每个网页,确定每个网页的人口属性为特定属性值的概率,并确定每个网页所属频道的人口属性为所述特定属性值的概率;
根据每个网页的人口属性为特定属性值的概率、以及每个网页所属频道的人口属性为所述特定属性值的概率,预测所述网络用户的人口属性为所述特定属性值的概率。
较佳地,所述确定每个网页的人口属性为特定属性值的概率,具体包括:
对于确定出的每个网页,若该网页的访问量小于设定阈值,则根据该网页的特征向量计算该网页的人口属性为所述特定属性值的概率;若该网页的访问量大于等于所述设定阈值,则根据所述设定时间段内访问该网页的属性已知的网络用户的数量、以及访问该网页的人口属性为所述特定属性值的网络用户的数量,计算该网页的人口属性为所述特定属性值的概率;
所述确定每个网页所属频道的人口属性为所述特定属性值的概率,具体包括:
对于确定出的每个网页,根据访问该网页所属频道的人口属性已知的网络用户的数量、以及访问该网页所属频道的人口属性为所述特定属性值的网络用户的数量,计算该网页所属频道的人口属性为所述特定属性值的概率。
较佳地,所述确定每个网页的人口属性为特定属性值的概率还包括:
对于确定出的每个网页,所述得到该网页的人口属性为特定属性值的概率之后,统计所述设定时间段内访问该网页所在网站的人口属性已知的网络用户,计算其中人口属性为所述特定属性值的网络用户所占的比例,使用该比例对该网页的人口属性为所述特定属性值的概率进行纠正处理;
所述确定每个网页所属频道的人口属性为所述特定属性值的概率,还包括:
对于确定出的每个网页,得到该网页所属频道的人口属性为所述特定属性值的概率之后,统计所述设定时间段内访问该网页所属频道所在网站的人口属性已知的网络用户,计算其中人口属性为所述特定属性值的网络用户所占的比例,使用该比例对该网页所属频道的人口属性为所述特定属性值的概率进行纠正处理。
较佳地,所述预测所述网络用户的人口属性为所述特定属性值的概率之后,还包括:
根据预测出的所述网络用户的人口属性为所述特定属性值的概率进行定向广告投放。
较佳地,所述根据该网页的特征向量计算该网页的人口属性为所述特定属性值的概率,具体包括:
对该网页的文档内容进行分词,分别统计分词后的词语落入预先得到的每个词语集合的词语数量;对统计出的各词语数量进行归一化得到该网页的特征向量;根据得到的该网页的特征向量,采用支持向量机分类模型得到该网页的人口属性为所述特定属性值的概率。
本发明实施例还提供了一种网络用户的人口属性预测装置,包括:
网页确定模块,用于确定网络用户在设定时间段内所访问的若干网页;
网页属性确定模块,用于确定所述网页确定模块确定出的每个网页的人口属性为特定属性值的概率;
频道属性确定模块,用于确定所述网页确定模块确定出的每个网页所属频道的人口属性为所述特定属性值的概率;
人口属性预测模块,用于根据每个网页的人口属性为特定属性值的概率、以及每个网页所属频道的人口属性为所述特定属性值的概率,预测所述网络用户的人口属性为所述特定属性值的概率。
较佳地,所述网页属性确定模块具体用于对于所述网页确定模块确定出的每个网页,若该网页的访问量小于设定阈值,则根据该网页的特征向量计算该网页的人口属性为所述特定属性值的概率;若该网页的访问量大于等于所述设定阈值,则根据所述设定时间段内访问该网页的属性已知的网络用户的数量、以及访问该网页的人口属性为所述特定属性值的网络用户的数量,计算该网页的人口属性为所述特定属性值的概率;
所述频道属性确定模块具体用于对于所述网页确定模块确定出的每个网页,根据访问该网页所属频道的属性已知的网络用户的数量、以及访问该网页所属频道的人口属性为所述特定属性值的网络用户的数量,计算该网页所属频道的人口属性为所述特定属性值的概率。
较佳地,所述网页属性确定模块还用于对于所述网页确定模块确定出的每个网页,得到该网页的人口属性为特定属性值的概率之后,统计所述设定时间段内访问该网页所在网站的人口属性已知的网络用户,计算其中人口属性为所述特定属性值的网络用户所占的比例,使用该比例对该网页的人口属性为所述特定属性值的概率进行纠正处理;
所述频道属性确定模块还用于对于所述网页确定模块确定出的每个网页,得到该网页所属频道的人口属性为所述特定属性值的概率之后,统计所述设定时间段内访问该网页所属频道所在网站的人口属性已知的网络用户,计算其中人口属性为所述特定属性值的网络用户所占的比例,使用该比例对该频道的人口属性为所述特定属性值的概率进行纠正处理。
较佳地,还包括:
定向广告投放模块,用于根据预测出的所述网络用户的人口属性为所述特定属性值的概率进行定向广告投放。
较佳地,所述网页属性确定模块具体用于对于所述网页确定模块确定出的每个网页,若判定该网页的访问量小于设定阈值,则对该网页的文档内容进行分词,分别统计分词后的词语落入预先得到的每个词语集合的词语数量;对统计出的各词语数量进行归一化得到该网页的特征向量;根据得到的该网页的特征向量,采用支持向量机分类模型得到该网页的人口属性为所述特定属性值的概率。
本发明的技术方案中,在预测网络用户的人口属性时,基于网络用户访问过的网页的人口属性、以及网络用户访问过的网页所属频道的人口属性,对网络用户的人口属性进行预测。由于频道通常包含多个网页,频道的访问量相对较多,将频道的人口属性考虑在内可以增加网络用户的人口属性预测的稳定性,继而提高了网络用户的人口属性预测的准确度。
附图说明
图1为本发明实施例的网络用户的人口属性预测方法的流程图;
图2为本发明实施例的网络用户的人口属性预测装置的内部结构框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内。
本发明的技术方案中,在预测网络用户的人口属性时,加入对待预测的网络用户所访问过的网页所属频道的人口属性的考虑;从而,基于网络用户访问过的网页的人口属性、以及网络用户访问过的网页所属频道的人口属性,对网络用户的人口属性进行预测。其中,频道指的是诸如新浪网的体育、财经、等频道。由于频道通常包含多个网页,频道的访问量相对较多,将频道的属性考虑在内可以增加网络用户的人口属性预测的准确度的稳定性,继而提高了网络用户的人口属性预测的准确度。
下面结合附图详细说明本发明的技术方案。
上述的网络用户的人口属性是常用的一种定向标签,网络用户的人口属性指的是网络用户自身所具备的相关属性,包括年龄、性别、学历、婚姻、收入水平等。在实际应用中,往往通过网络用户的网络行为分析网络用户的人口属性。
网络用户的人口属性具体可以有多个属性值,例如男性、女性,少年、青年、中年、老年等属性值。本发明在进行网络用户的人口属性预测时,可先确定出网络用户在设定时间段内所访问的若干网页;之后,根据确定出的每个网页的人口属性为特定属性值的概率、以及每个网页所属频道的人口属性为特定属性值的概率,预测出该网络用户的人口属性为特定属性值的概率。例如,当特定属性值为男性时,对于网络用户user1,确定网络用户user1在一个月内所访问的网页,根据网络用户user1在这一个月内所访问的每个网页的人口属性为男性的概率、以及网络用户user1在这一个月内所访问的每个网页所属频道的人口属性为男性的概率,预测出网络用户user1的人口属性为男性的概率。
具体地,本发明实施例提供的网络用户的人口属性预测的方法的流程图,如图1所示,包括如下步骤:
S101:确定网络用户在设定时间段内所访问的若干网页。
网络用户通过客户端浏览器访问服务器时,服务器使用cookie标识该网络用户,从而将该网络用户的浏览行为记录到cookie访问日志中。根据待预测的网络用户的cookie访问日志,可以确定出该网络用户在设定时间段内访问过的网页。
S102:对于确定出的每个网页,确定每个网页的人口属性为特定属性值的概率,并确定每个网页所属频道的人口属性为特定属性值的概率。
具体地,若人口属性的属性值的个数为n,记特定属性值为人口属性的第i个属性值ci,i为1至n的自然数,则对于确定出的每个网页,若该网页的访问量小于设定阈值,则根据该网页的特征向量计算该网页的人口属性为ci的概率;若该网页的访问量大于等于设定阈值,则根据所述设定时间段内访问该网页的属性已知的网络用户的数量、以及访问该网页的人口属性为所述特定属性值的网络用户的数量,计算该网页的人口属性为ci的概率。
对于确定出的访问量小于设定阈值的每个网页,可基于支持向量机分类模型,根据该网页的特征向量计算该网页的人口属性为ci的概率,具体可以为:对于确定出的访问量小于设定阈值的每个网页,对该网页的文档内容进行分词,统计分词后的词语落入预先得到的每个词语集合的词语数量;对统计出的各词语数量进行归一化得到该网页的特征向量[r1,r2,...,rk];根据得到的该网页的特征向量,采用预先训练的支持向量机分类模型得到该网页的人口属性为ci的概率。
其中,lm为分词后的词语落入第m个词语集合的数量,k为预先得到的词语集合的数量,m取值1~k的整数。
上述预先得到k个词语集合的方法具体可以为:收集大量网页的文档内容放入网页集中;对网页集中各网页的文档内容进行分词,并根据分词后的每个词语的TF-IDF值选择设定数量的候选词;采用K-means(K-均值)方法对选择的候选词进行聚类,得到k个类别以及每个类别的词语集合。
上述预先训练支持向量机分类模型的方法具体可以为:对于属性已知的若干网页,对该网页的文档内容进行分词,统计分词后的词语落入预先得到的每个词语集合的词语数量,进而得到该网页的特征向量;对于属性已知的每个网页,根据该网页的特征向量以及该网页的人口属性的属性值对支持向量机分类模型进行训练。其中,属性已知的网页指的是已确定出网页的人口属性的属性值的网页,而且这些属性已知的网页可以根据网络用户通过无线端或PC端等平台进行网页访问的cookie访问日志来确定。例如,对于若干已经确定人口属性的属性值的网络用户,可以获取这些网络用户通过PC端和无线端等平台进行网页访问的cookie访问日志,按照cookie访问日志中的URL进行链接,将对应页面相同的URL按照一定格式生成统一URL,并得到网页与访问该网页的网络用户及其人口属性的属性值的对应关系。从而,基于无线端、PC端等多平台的cookie访问日志,可以有效解决某些网页在单一平台的访问记录较少引起的数据稀疏问题。
对于确定出的访问量大于等于设定阈值的每个网页,可基于统计模型计算该网页的人口属性为的概率,具体可以为:根据设定时间段内访问该网页的属性已知的网络用户的数量、以及访问该网页的人口属性为所述特定属性值的网络用户的数量,计算该网页的人口属性为ci的概率。其中,对于确定出的访问量大于等于设定阈值的第j个网页pagej,根据如下公式1计算出网页pagej的人口属性为ci的概率P(ci/pagej):
(公式1)
公式1中,sum(pagej,ci)表示访问网页pagej的属性已知的网络用户的数量;sum(pagej)表示访问网页pagej的人口属性为ci的网络用户的数量。
由于本发明对于待预测的网络用户所访问过的网页中访问量较少和较多的网页,采用适应访问量的不同模型确定网页的人口属性为ci的概率,因此本发明可以进一步保证网络用户的人口属性的预测准确性。
对于确定出的每个网页所属频道,可基于统计模型得到该网页所属频道的人口属性为ci的概率,具体可以为:对于确定出的每个网页,根据访问该网页所属频道的人口属性已知的网络用户的数量、以及访问该网页所属频道的人口属性为ci的网络用户的数量,计算出该网页所属频道的人口属性为ci的概率。其中,对于第j个网页所属频道channelj,根据如下公式2计算出频道channelj的属性为ci的概率P(ci/channelj):
(公式2)
公式2中,sum(channelj,ci)表示访问频道channelj的属性已知的网络用户的数量;sum(channelj)表示访问频道channelj的人口属性为ci的网络用户的数量。
S103:预测出网络用户的人口属性为ci的概率。
由于网络用户的人口属性取决于其网络行为,因此假设网络用户访问的网页的属性已知,且网络用户访问的各网页是独立的,则网络用户的人口属性可采用朴素贝叶斯估计模型来实现。假设所有网页的先验概率和所有属性的先验概率相等,则基于网页的人口属性得到的网络用户的人口属性为ci的后验概率Ppage(ci|cookie)为:
(公式3)
假设各P(ci)相等,各P(pagej)相等,可进一步对上述公式3进行化简,得到如下公式4:
(公式4)
相同地,基于网页所属频道的人口属性得到的网络用户的人口属性为ci的后验概率Ppage(ci|cookie)为:
(公式5)
这样,如公式6所示,可根据基于页面的属性得到的网络用户的属性为ci的概率Ppage(ci|cookie)、基于网页所属频道的属性得到的网络用户的属性为ci的概率Pchannel(ci|cookie),预测出网络用户的人口属性为ci的概率Pfinal(ci|cookie):
(公式6)
公式6中,β为预设的0到1之间的权重系数。
本发明的发明人进一步考虑到,有些网站的访问数据会存在数据倾斜,例如,某个网站男性访问者的比例远远大于女性访问者,这会导致网站中的每个网页的人口属性都会偏向男性,每个网页所属频道的人口属性也会偏向男性。因此,对于网络用户在设定时间内所访问的若干网页中的每个网页,若直接根据每个网页的人口属性为ci的概率、以及每个网页所属频道的人口属性为ci的概率进行网络用户的人口属性预测的结果不可靠。
较优地,为避免网站的数据倾斜带来的预测结果不可靠的问题,本发明还对确定出的每个网页的人口属性为ci的概率、以及每个网页所属频道的人口属性为ci的概率进行纠正处理。
具体地,对于确定出的每个网页,对该网页的人口属性为ci的概率进行纠正处理的方法可以为:统计出设定时间段内访问该网页所在网站的人口属性已知的网络用户,计算出其中人口属性为ci的网络用户所占的比例,使用该比例对该网页的人口属性为ci的概率进行纠正处理。其中,对于确定出的第j个网页pagej,可根据如下公式7对网页pagej的人口属性为ci的概率P(ci/pagej)进行纠正处理:
(公式7)
公式7中,r(ci)表示设定时间段内访问网页pagej的人口属性为ci的网络用户在访问网页pagej所在网站的属性已知的网络用户中所占的比例;sum(ci)表示设定时间段内访问网页pagej所在网站的人口属性为ci的网络用户的数量;表示设定时间段内访问网页pagej所在网站的属性已知的网络用户的数量;α为设定常数,Padjust(ci/pagej)为经过纠正处理后网页pagej的人口属性为ci的概率,n为人口属性的属性值的个数;i取1~n的自然数。
因此,将上述公式4中的P(ci|pagej)替换为纠正处理后的Padjust(ci/pagej),可得到如下公式8:
(公式8)
对于确定出的每个网页,对该网页所属频道进行纠正处理的方法可以为:统计出设定时间段内访问该网页所属频道所在网站的人口属性已知的网络用户,计算出其中人口属性为ci的网络用户所占的比例,使用该比例对该网页所属频道的人口属性为ci的概率进行纠正处理。其中,对于第j个网页所属频道channelj,根据如下公式9对频道channelj的属性为ci的概率P(ci/channelj)进行纠正处理:
(公式9)
公式9中,r'(ci)表示设定时间段内访问频道channelj的人口属性为ci的网络用户在访问频道channelj所在网站的属性已知的网络用户中所占的比例;sum'(ci)表示设定时间段内访问频道channelj所在网站的属性为ci的网络用户的数量;表示设定时间段内访问频道channelj所在网站的属性已知的网络用户的数量;α为设定常数,Padjust(ci/channelj)为经过纠正处理后频道channelj的属性为ci的概率。
因此,将公式5中的P(ci|channelj)替换为纠正处理后的Padjust(ci/channelj),可得到如下公式10:
(公式10)
这样,如公式11所示,可以根据纠正处理后的每个网页的人口属性为ci的概率、以及纠正处理后的每个网页所属频道的人口属性为ci的概率,预测出该网络用户的人口属性为ci的概率Pfinal(ci|cookie):
(公式11)
这样,可以根据上述方法得到的网络用户的人口属性为每个特定属性值的概率,将最大概率对应的特定属性值作为网络用户的人口属性的属性值。
而且,在实际应用中,可以根据上述预测出的网络用户的人口属性为ci的概率进行定向广告投放。具体地,可根据上述方法得到多个网络用户的人口属性为ci的概率,广告投放系统可从中确定出概率较大的设定个数的网络用户,将相关定向广告投放到确定出的各网络用户。
基于上述的网络用户的人口属性预测方法,本发明实施例的网络用户的人口属性预测装置的内部结构框图,如图2所示,包括:网页确定模块201、网页属性确定模块202、频道属性确定模块203和人口属性预测模块202。
网页确定模块201用于确定出网络用户在设定时间段内访问过的若干网页。
网页属性确定模块202用于确定网页确定模块201确定出的每个网页的人口属性为特定属性值的概率。具体地,对于网页确定模块201确定出的每个网页,若该网页的访问量小于设定阈值,则根据该网页的特征向量计算该网页的人口属性为所述特定属性值的概率;若该网页的访问量大于等于所述设定阈值,则根据所述设定时间段内访问该网页的属性已知的网络用户的数量、以及访问该网页的人口属性为所述特定属性值的网络用户的数量,计算该网页的人口属性为所述特定属性值的概率。较佳地,网页属性确定模块202对于网页确定模块201确定出的每个网页,若判定该网页的访问量小于设定阈值,则对该网页的文档内容进行分词,分别统计分词后的词语落入预先得到的每个词语集合的词语数量;对统计出的各词语数量进行归一化得到该网页的特征向量;根据得到的该网页的特征向量,采用支持向量机分类模型得到该网页的人口属性为所述特定属性值的概率。
频道属性确定模块203用于确定网页确定模块201确定出的每个网页所属频道的人口属性为特定属性值的概率。具体地,频道属性确定模块203对于网页确定模块201确定出的每个网页,根据访问该网页所属频道的属性已知的网络用户的数量、以及访问该网页所属频道的人口属性为所述特定属性值的网络用户的数量,计算该网页所属频道的人口属性为所述特定属性值的概率。
人口属性预测模块204用于根据网页属性确定模块202确定出的每个网页的人口属性为特定属性值的概率、以及频道属性确定模块203确定出的每个网页所属频道的人口属性为所述特定属性值的概率,预测所述网络用户的人口属性为所述特定属性值的概率。
进一步,网页属性确定模块202还用于对于网页确定模块201确定出的每个网页,得到该网页的人口属性为特定属性值的概率之后,统计设定时间段内访问该网页所在网站的人口属性已知的网络用户,计算其中人口属性为所述特定属性值的网络用户所占的比例,使用该比例对该网页的人口属性为所述特定属性值的概率进行纠正处理。
频道属性确定模块203还用于对于网页确定模块201确定出的每个网页,得到该网页所属频道的人口属性为所述特定属性值的概率之后,统计设定时间段内访问该网页所属频道所在网站的人口属性已知的网络用户,计算其中人口属性为所述特定属性值的网络用户所占的比例,使用该比例对该频道的人口属性为所述特定属性值的概率进行纠正处理。
此外,本发明的网络用户的人口属性的确定装置还可包括:定向广告投放模块205。定向广告投放模块205用于根据预测出的网络用户的人口属性为所述特定属性值的概率进行定向广告投放。
本发明在预测网络用户的人口属性时,基于网络用户访问过的网页的人口属性、以及网络用户访问过的网页所属频道的人口属性,对网络用户的人口属性进行预测。由于频道通常包含多个网页,频道的访问量相对较多,将频道的人口属性考虑在内可以增加网络用户的人口属性预测的准确度的稳定性,继而提高了网络用户的人口属性预测的准确度
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读取存储介质中,如:ROM/RAM、磁碟、光盘等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种网络用户的人口属性预测方法,其特征在于,包括:
确定网络用户在设定时间段内所访问的若干网页;
对于确定出的每个网页,确定每个网页的人口属性为特定属性值的概率,并确定每个网页所属频道的人口属性为所述特定属性值的概率;
根据每个网页的人口属性为特定属性值的概率、以及每个网页所属频道的人口属性为所述特定属性值的概率,基于下述公式之一预测所述网络用户的人口属性为所述特定属性值的概率Pfinal(ci|cookie):
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>P</mi>
<mrow>
<mi>f</mi>
<mi>i</mi>
<mi>n</mi>
<mi>a</mi>
<mi>l</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<mi>c</mi>
<mi>o</mi>
<mi>o</mi>
<mi>k</mi>
<mi>i</mi>
<mi>e</mi>
</mrow>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mi>&beta;P</mi>
<mrow>
<mi>p</mi>
<mi>a</mi>
<mi>g</mi>
<mi>e</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<mi>c</mi>
<mi>o</mi>
<mi>o</mi>
<mi>k</mi>
<mi>i</mi>
<mi>e</mi>
</mrow>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<mi>&beta;</mi>
</mrow>
<mo>)</mo>
</mrow>
<msub>
<mi>P</mi>
<mrow>
<mi>c</mi>
<mi>h</mi>
<mi>a</mi>
<mi>n</mi>
<mi>n</mi>
<mi>e</mi>
<mi>l</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<mi>c</mi>
<mi>o</mi>
<mi>o</mi>
<mi>k</mi>
<mi>i</mi>
<mi>e</mi>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<mi>&beta;</mi>
<munder>
<mi>&Pi;</mi>
<mi>j</mi>
</munder>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mi>page</mi>
<mi>j</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<mi>&beta;</mi>
</mrow>
<mo>)</mo>
</mrow>
<munder>
<mi>&Pi;</mi>
<mi>j</mi>
</munder>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mi>channel</mi>
<mi>j</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
或者,
其中,ci为所述特定属性值,Ppage(ci|cookie)为页面的人口属性为ci的概率,Pchannel(ci|cookie)为网页所属频道的人口属性为ci的概率;假定所有网页的先验概率和所有属性的先验概率相等,并且各P(ci)相等,各P(pagej)相等;β为预设的0到1之间的权重系数;Padjust(ci/pagej)为考虑网站的数据倾斜之后Ppage(ci|cookie)的调整值,Padjust(ci/channelj)为考虑网站的数据倾斜之后P(ci|channelj)的调整值。
2.如权利要求1所述的方法,其特征在于,所述确定每个网页的人口属性为特定属性值的概率,具体包括:
对于确定出的每个网页,若该网页的访问量小于设定阈值,则根据该网页的特征向量计算该网页的人口属性为所述特定属性值的概率;若该网页的访问量大于等于所述设定阈值,则根据所述设定时间段内访问该网页的属性已知的网络用户的数量、以及访问该网页的人口属性为所述特定属性值的网络用户的数量,计算该网页的人口属性为所述特定属性值的概率;
所述确定每个网页所属频道的人口属性为所述特定属性值的概率,具体包括:
对于确定出的每个网页,根据访问该网页所属频道的人口属性已知的网络用户的数量、以及访问该网页所属频道的人口属性为所述特定属性值的网络用户的数量,计算该网页所属频道的人口属性为所述特定属性值的概率。
3.如权利要求2所述的方法,其特征在于,所述确定每个网页的人口属性为特定属性值的概率还包括:
对于确定出的每个网页,所述得到该网页的人口属性为特定属性值的概率之后,统计所述设定时间段内访问该网页所在网站的人口属性已知的网络用户,计算其中人口属性为所述特定属性值的网络用户所占的比例,使用该比例对该网页的人口属性为所述特定属性值的概率进行纠正处理;
所述确定每个网页所属频道的人口属性为所述特定属性值的概率,还包括:
对于确定出的每个网页,得到该网页所属频道的人口属性为所述特定属性值的概率之后,统计所述设定时间段内访问该网页所属频道所在网站的人口属性已知的网络用户,计算其中人口属性为所述特定属性值的网络用户所占的比例,使用该比例对该网页所属频道的人口属性为所述特定属性值的概率进行纠正处理。
4.如权利要求1-3任一所述的方法,其特征在于,所述预测所述网络用户的人口属性为所述特定属性值的概率之后,还包括:
根据预测出的所述网络用户的人口属性为所述特定属性值的概率进行定向广告投放。
5.如权利要求2所述的方法,其特征在于,所述根据该网页的特征向量计算该网页的人口属性为所述特定属性值的概率,具体包括:
对该网页的文档内容进行分词,分别统计分词后的词语落入预先得到的每个词语集合的词语数量;对统计出的各词语数量进行归一化得到该网页的特征向量;根据得到的该网页的特征向量,采用支持向量机分类模型得到该网页的人口属性为所述特定属性值的概率。
6.一种网络用户的人口属性预测装置,其特征在于,包括:
网页确定模块,用于确定网络用户在设定时间段内所访问的若干网页;
网页属性确定模块,用于确定所述网页确定模块确定出的每个网页的人口属性为特定属性值的概率;
频道属性确定模块,用于确定所述网页确定模块确定出的每个网页所属频道的人口属性为所述特定属性值的概率;
人口属性预测模块,用于根据每个网页的人口属性为特定属性值的概率、以及每个网页所属频道的人口属性为所述特定属性值的概率,根据下述公式之一预测所述网络用户的人口属性为所述特定属性值的概率Pfinal(ci|cookie):
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>P</mi>
<mrow>
<mi>f</mi>
<mi>i</mi>
<mi>n</mi>
<mi>a</mi>
<mi>l</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<mi>c</mi>
<mi>o</mi>
<mi>o</mi>
<mi>k</mi>
<mi>i</mi>
<mi>e</mi>
</mrow>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mi>&beta;P</mi>
<mrow>
<mi>p</mi>
<mi>a</mi>
<mi>g</mi>
<mi>e</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<mi>c</mi>
<mi>o</mi>
<mi>o</mi>
<mi>k</mi>
<mi>i</mi>
<mi>e</mi>
</mrow>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<mi>&beta;</mi>
</mrow>
<mo>)</mo>
</mrow>
<msub>
<mi>P</mi>
<mrow>
<mi>c</mi>
<mi>h</mi>
<mi>a</mi>
<mi>n</mi>
<mi>n</mi>
<mi>e</mi>
<mi>l</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<mi>c</mi>
<mi>o</mi>
<mi>o</mi>
<mi>k</mi>
<mi>i</mi>
<mi>e</mi>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<mi>&beta;</mi>
<munder>
<mi>&Pi;</mi>
<mi>j</mi>
</munder>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mi>page</mi>
<mi>j</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<mi>&beta;</mi>
</mrow>
<mo>)</mo>
</mrow>
<munder>
<mi>&Pi;</mi>
<mi>j</mi>
</munder>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mi>channel</mi>
<mi>j</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
或者,
其中,ci为所述特定属性值,Ppage(ci|cookie)为页面的人口属性为ci的概率,Pchannel(ci|cookie)为网页所属频道的人口属性为ci的概率;假定所有网页的先验概率和所有属性的先验概率相等,并且各P(ci)相等,各P(pagej)相等;β为预设的0到1之间的权重系数;Padjust(ci/pagej)为考虑网站的数据倾斜之后Ppage(ci|cookie)的调整值,Padjust(ci/channelj)为考虑网站的数据倾斜之后P(ci|channelj)的调整值。
7.如权利要求6所述的装置,其特征在于,
所述网页属性确定模块具体用于对于所述网页确定模块确定出的每个网页,若该网页的访问量小于设定阈值,则根据该网页的特征向量计算该网页的人口属性为所述特定属性值的概率;若该网页的访问量大于等于所述设定阈值,则根据所述设定时间段内访问该网页的属性已知的网络用户的数量、以及访问该网页的人口属性为所述特定属性值的网络用户的数量,计算该网页的人口属性为所述特定属性值的概率;
所述频道属性确定模块具体用于对于所述网页确定模块确定出的每个网页,根据访问该网页所属频道的属性已知的网络用户的数量、以及访问该网页所属频道的人口属性为所述特定属性值的网络用户的数量,计算该网页所属频道的人口属性为所述特定属性值的概率。
8.如权利要求7所述的装置,其特征在于,
所述网页属性确定模块还用于对于所述网页确定模块确定出的每个网页,得到该网页的人口属性为特定属性值的概率之后,统计所述设定时间段内访问该网页所在网站的人口属性已知的网络用户,计算其中人口属性为所述特定属性值的网络用户所占的比例,使用该比例对该网页的人口属性为所述特定属性值的概率进行纠正处理;
所述频道属性确定模块还用于对于所述网页确定模块确定出的每个网页,得到该网页所属频道的人口属性为所述特定属性值的概率之后,统计所述设定时间段内访问该网页所属频道所在网站的人口属性已知的网络用户,计算其中人口属性为所述特定属性值的网络用户所占的比例,使用该比例对该频道的人口属性为所述特定属性值的概率进行纠正处理。
9.如权利要求6-8任一所述的装置,其特征在于,还包括:
定向广告投放模块,用于根据预测出的所述网络用户的人口属性为所述特定属性值的概率进行定向广告投放。
10.如权利要求9所述的装置,其特征在于,
所述网页属性确定模块具体用于对于所述网页确定模块确定出的每个网页,若判定该网页的访问量小于设定阈值,则对该网页的文档内容进行分词,分别统计分词后的词语落入预先得到的每个词语集合的词语数量;对统计出的各词语数量进行归一化得到该网页的特征向量;根据得到的该网页的特征向量,采用支持向量机分类模型得到该网页的人口属性为所述特定属性值的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410515420.3A CN104317822B (zh) | 2014-09-29 | 2014-09-29 | 网络用户的人口属性预测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410515420.3A CN104317822B (zh) | 2014-09-29 | 2014-09-29 | 网络用户的人口属性预测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104317822A CN104317822A (zh) | 2015-01-28 |
CN104317822B true CN104317822B (zh) | 2018-02-27 |
Family
ID=52373054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410515420.3A Active CN104317822B (zh) | 2014-09-29 | 2014-09-29 | 网络用户的人口属性预测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104317822B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202088A (zh) * | 2015-05-04 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 一种匹配业务场景的方法和系统 |
CN106658091B (zh) * | 2016-12-01 | 2020-02-28 | 北京学之途网络科技有限公司 | 一种实现收视信息处理的方法及装置 |
CN108415913A (zh) * | 2017-02-09 | 2018-08-17 | 周孟 | 基于不确定邻居的人群定向方法 |
CN108090607A (zh) * | 2017-12-13 | 2018-05-29 | 中山大学 | 一种基于多模型堆栈融合的社交媒体用户人口属性预测方法 |
CN110019837B (zh) * | 2017-12-22 | 2021-07-16 | 百度在线网络技术(北京)有限公司 | 用户画像的生成方法及装置、计算机设备及可读介质 |
CN112528110A (zh) | 2020-07-24 | 2021-03-19 | 支付宝(杭州)信息技术有限公司 | 确定实体业务属性的方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101034997A (zh) * | 2006-03-09 | 2007-09-12 | 新数通兴业科技(北京)有限公司 | 一种数据信息精确发布的方法和系统 |
CN102663027A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种网页人群属性的预测方法 |
CN102663026A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种定向投放网络广告的实现方法 |
CN103026378A (zh) * | 2010-08-10 | 2013-04-03 | 瑞典爱立信有限公司 | 汇集人口统计分布信息 |
CN103164470A (zh) * | 2011-12-15 | 2013-06-19 | 盛大计算机(上海)有限公司 | 基于用户性别判别结果的定向应用方法及其系统 |
CN103971262A (zh) * | 2013-02-05 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 广告定向设置方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI20085801A0 (fi) * | 2008-08-28 | 2008-08-28 | Xtract Oy | Menetelmä ja järjestely asiakkaan käyttäytymisen ennustamiseksi |
FI20085843A0 (fi) * | 2008-09-08 | 2008-09-08 | Xtract Oy | Menetelmä ja järjestely käyttäjän demografisen tiedon ennustamiseksi |
-
2014
- 2014-09-29 CN CN201410515420.3A patent/CN104317822B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101034997A (zh) * | 2006-03-09 | 2007-09-12 | 新数通兴业科技(北京)有限公司 | 一种数据信息精确发布的方法和系统 |
CN103026378A (zh) * | 2010-08-10 | 2013-04-03 | 瑞典爱立信有限公司 | 汇集人口统计分布信息 |
CN103164470A (zh) * | 2011-12-15 | 2013-06-19 | 盛大计算机(上海)有限公司 | 基于用户性别判别结果的定向应用方法及其系统 |
CN102663027A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种网页人群属性的预测方法 |
CN102663026A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种定向投放网络广告的实现方法 |
CN103971262A (zh) * | 2013-02-05 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 广告定向设置方法及装置 |
Non-Patent Citations (1)
Title |
---|
Demographic Prediction Based on User’s Browsing Behavior;Jian Hu 等;《WWW 2007/Track: Data Mining》;20070512;第151-160页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104317822A (zh) | 2015-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104317822B (zh) | 网络用户的人口属性预测方法和装置 | |
US8572011B1 (en) | Outcome estimation models trained using regression and ranking techniques | |
CN105787061B (zh) | 信息推送方法 | |
Barford et al. | Adscape: Harvesting and analyzing online display ads | |
US20230350958A1 (en) | Prioritizing items from different categories in a news stream | |
CN102902691B (zh) | 推荐方法及系统 | |
Dave et al. | Learning the click-through rate for rare/new ads from similar ads | |
US9798797B2 (en) | Cluster method and apparatus based on user interest | |
US8600809B1 (en) | Predictive model performance | |
US20100010895A1 (en) | Prediction of a degree of relevance between query rewrites and a search query | |
JP7160980B2 (ja) | 情報提供装置、情報提供方法、およびプログラム | |
US20110246286A1 (en) | Click probability with missing features in sponsored search | |
Paulson et al. | Efficient large-scale internet media selection optimization for online display advertising | |
US20160132935A1 (en) | Systems, methods, and apparatus for flexible extension of an audience segment | |
BRPI0809485A2 (pt) | Identificação de conteúdo de perfil aberto | |
US20080250033A1 (en) | System and method for determining an event occurence rate | |
Skoufias et al. | Too little too late: welfare impacts of rainfall shocks in rural Indonesia | |
US20150026105A1 (en) | Systems and method for determining influence of entities with respect to contexts | |
US20120047020A1 (en) | Contextual advertising with user features | |
US8756241B1 (en) | Determining rewrite similarity scores | |
JP6730002B2 (ja) | 抽出装置、抽出方法及び抽出プログラム | |
US8359238B1 (en) | Grouping user features based on performance measures | |
Chandrasekaran et al. | Pricing in the international takeoff of new products | |
US20150161634A1 (en) | Visitor session classification based on clickstreams | |
US20190205702A1 (en) | System and method for recommending features for content presentations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230419 Address after: Room 501-502, 5/F, Sina Headquarters Scientific Research Building, Block N-1 and N-2, Zhongguancun Software Park, Dongbei Wangxi Road, Haidian District, Beijing, 100193 Patentee after: Sina Technology (China) Co.,Ltd. Address before: 100080, International Building, No. 58 West Fourth Ring Road, Haidian District, Beijing, 20 floor Patentee before: Sina.com Technology (China) Co.,Ltd. |
|
TR01 | Transfer of patent right |