CN104620267A

CN104620267A - 用于推断用户人口统计的方法和装置

Info

Publication number: CN104620267A
Application number: CN201380032215.5A
Authority: CN
Inventors: 乌迪·魏因斯博格; 斯姆瑞蒂·巴哈特; 斯特拉蒂斯·约安尼季斯; 尼娜·塔夫脱
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2012-06-21
Filing date: 2013-06-10
Publication date: 2015-05-13
Also published as: US20150112812A1; EP2864938A1; JP2015526795A; WO2013191931A1; KR20150023432A

Abstract

一种仅使用评级来确定新用户的人口统计信息的方法包括：使用训练数据集来训练推断引擎，所述训练数据集包括来自多个其它用户的评级和人口统计信息。新用户输入例如电影评级的评级，推断引擎确定新用户的人口统计信息。接着可以将新用户的人口统计信息用于向新用户提供推荐或提供针对性的广告。

Description

用于推断用户人口统计的方法和装置

技术领域

本申请要求2012年6月21日提交的题为“Method and ApparatusFor Inferring User Demographics Based on Ratings”的美国临时申请No.61/662,609的优先权，出于任何理由通过全文引用将该申请并入本文。

技术领域

本发明一般地涉及推荐者系统中的用户剖析(profiling)和用户隐私。更具体地，本发明涉及人口统计信息推断。

背景技术

在不同背景下并针对多种类型的用户产生数据，已对推断用户的人口统计进行了研究。在交互网络的背景下，已经展示了有助于使用针对博客的基于链接的信息和来自Facebook的社交网络数据推断人口统计的图表结构。其它工作依赖于根据用户的笔迹而得到的文本特征来推断人口统计。

基于文本的推断的主要缺点在于大多用户不提供书面评论，因此这些方法是不可用的。类似地，推荐者系统可能无法找到它们想要推断其详情的用户的社交网络。

可以看出，需要一种基于尽可能少的信息的用户人口统计推断方法。本发明关注于这种推断方法。

发明内容

发明内容是为了以简化的形式介绍对构思的选择，其中将在具体实施方式中详细介绍发明构思。发明内容并非为了标识所要求保护的主题的关键特征或基本特征，也不是为了限制所要求保护的主题的范围。

本发明包括使用新用户的电影排名来确定新用户的人口统计信息的方法和装置。所述方法包括：使用训练数据集来训练用于确定人口统计信息的推断引擎，所述训练数据集包括来自多个其它用户的电影排名和人口统计信息。然后，接收来自新用户的电影排名，其中接收到来自特定用户的电影排名而没有人口统计信息。使用已训练的推断引擎来确定新用户的人口统计信息。推断引擎可以是推荐者系统的一部分，所述推荐者系统利用所确定的人口统计信息向新用户提供推荐或向新用户提供针对性的广告。

参考附图，根据对说明性实施例的以下详细描述，将清楚本发明的其它特征和优点。

附图说明

当结合附图理解时，将更好地理解上述发明内容以及下文对说明性实施例的详细描述，其中附图仅是示例性的，而不是为了限制所要求保护的本发明。

图1示出了根据本发明的多个方面的推断引擎的示例性环境实施例；

图2a描述了针对Flixster训练数据集的不同分类器的受试者工作特征(ROC)图；

图2b描述了针对Movielens训练数据集的不同分类器的受试者工作特征(ROC)图；

图2c描述了根据Flixster训练数据集的规模的精确度增加；

图3示出了根据本发明的多个方面的使用的示例流程图；以及

图4示出了根据本发明的多个方面的示例推断引擎。

具体实施方式

在对多个说明性实施例的以下描述中，参考附图，其中所述附图形成描述的一部分，并且示例性地示出了所述附图，可以实施本发明的多种实施例。应理解，可以使用其他实施例，并且可以进行结构和功能性的修改，而不脱离本发明的范围。

通过人口统计信息(例如，性别、年龄、收入或种族)剖析用户在针对性广告传递和个性化的内容分发中是十分重要的。推荐者系统同样可以从这种信息中获益以提供个性化的推荐。然而，推荐者系统的用户通常不会自愿提供这种信息。这可能是有意的——为了保护他们的隐私，或是无意的——由于懒惰或不感兴趣。这样，从由于收集来自多个用户的用户排名而出现的模式提取有意义信息的传统协同过滤方法避开使用这种信息，而代之以仅依赖于用户提供的评级。

首先，向推荐者系统公开评级可能表现为相当无害的行为。必然存在用户根据该公开获得的功效——即，发现相关内容/项目的能力。不管怎样，已经存在了大量的工作，这些工作指示用户人口统计与社交网络、博客和微博等上的用户行为相关，并因此可以根据社交网络、博客和微博等上的用户行为推断出。因此，询问是否还可以根据向协同过滤系统公开的信息推断出人口统计信息(例如，年龄、性别、种族或甚至政治倾向)是很自然的。实际上，无关于评级值，可以将用户已与项目交互(例如，已观看特定电影、已聆听特定歌曲、或已购买产品)这一事实与人口统计信息相关。

这种推断的潜在成功具有若干重要暗示。一方面，从推荐者的角度，关于人口统计信息来剖析用户为若干应用开启了道路；除了推荐之外，由于广告刊登者主要对针对性的特定人口统计人群感兴趣，这种剖析可以通过广告提供产生附加收入。本发明关注于这种推断技术。假定用户希望推断的信息是他们的性别；尽管如此，当要推断不同人口统计特征(年龄、种族、政治倾向等)时，也可应用本发明的方法。此外，尽管特定实施例针对的是电影评级，然而这仅是示例性的。可以使用任何类型的评级，包括但不限于对歌曲、数字游戏、产品、餐厅等的评级。为了理解的简洁性和清楚性，主要使用利用电影评级来确定人口统计信息的示例，但是还可以应用其它类型的评级。

图1描述了本文所述的推断引擎的示例系统100或环境。其它环境也是可能的。图1的系统100描述了推荐者系统130，所述推荐者系统130向网络120上的用户提供内容推荐。推荐者系统的典型示例包括由例如等内容供应商运行的内容推荐者系统。通常，推荐者系统100向进行订阅的用户提供备选数字内容。这种内容可以包括流传输视频、DVD投递、书、文章和商品。在流传输视频的示例实例中，可以基于用户过去的电影选择或精选的用户分析特征，向用户推荐备选电影。将流传输视频的实例作为一个示例实施例进行考虑。

在本发明的上下文中，推断引擎135可以是可根据由用户125提供的非人口统计信息推断人口统计信息的数据处理设备，其中用户125向推荐者系统130发送电影评级。推断引擎135用于处理由用户125提供的电影评级并推荐人口统计信息。在一个示例实例中，所讨论的人口统计信息是性别。但是本领域技术人员应认识到，根据本发明的多个方面，还可以推断其它人口统计信息。这种人口统计信息可以包括但不限于年龄、种族、政治倾向等。

根据本发明的一个方面，如下所述，推断引擎135使用通过用户1、2到n(分别为105、110到115)获取的训练数据进行操作。这些用户通过推荐者系统130向推断引擎135提供电影评级数据以及人口统计信息。可以随着用户105到115使用推荐者系统，获取训练数据集。备选地，推断引擎可以在通过输入端口136直接输入的一个或更多个数据加载中输入训练数据集。端口136可以用于从网络、硬盘驱动器或包含训练数据的其它数据源输入训练数据集。

推断引擎135使用算法来处理训练数据集。推断引擎135随后使用包含电影评级的用户125(用户X)输入。电影评级包含一个或更多个的电影标识信息，例如，电影片名或电影索引(movie index)或参考编号和评级值，以便推断关于用户125的人口统计信息。本讨论所用的“电影片名”或更广义地“电影标识符”是标识符，例如用户观看的电影、展览、纪录片、电视剧、数字游戏或其它数字内容的名称或题目或数据库索引。评级值是用户125所评判的对所观看数字内容的主观度量。一般情况下，评级值是由用户125进行的质量评估，并在1到5的数值范围内分级；1是较低的主观分数，5是较高的主观分数。本领域技术人员应认识到可以同样使用其它分级，例如，1到10的数字数值范围、字母数值范围、五星数值范围、10个半星数值范围或从“差”到“优秀”的词语数值范围。应注意，根据本发明的多个方面，由用户125提供的信息不包含人口统计信息，推断引擎135仅根据用户125的电影评级确定用户125的人口统计信息。

根据本发明的一个方面，将训练数据集用于教导推断引擎135。训练数据集可用于推荐者系统130和推断引擎135二者。现在设置训练数据集的特征。训练数据集包括N＝{1，...，N}个用户的集合，其中每个用户对类别M中的电影的子集具有给定评级。表示的是电影的集合，针对于该电影集合，用户i∈N的评级在该数据集中，通过r_ij(j∈S_i)来表示用户i∈N对电影j∈M给出的评级。此外，对于每个i∈N，训练集合还包含2进制变量y_i∈{0，1}，指示用户的性别(比特0映射到男性用户)。假定训练数据集是纯粹的：评级或性别标签都未被篡改或混淆。

将贯穿本文的推荐机制假定为是矩阵因式分解，因为这是商业系统通常使用的。尽管将矩阵因式分解用作示例，然而可以使用任何推荐机制。备选的推荐机制包括邻近方法(用户的聚集)、项目的上下文相似性或本领域技术人员所知道的其它机制。可以通过将所提供的评级添加到训练集合的评级矩阵并对其进行因式分解，来产生针对集合M\S₀的评级。更具体地，将每个用户i∈N U{0}与潜在的特征矢量相关联。将每个电影j∈M与潜在特征矢量相关联。正则化均方差被定义为：

其中μ是整个数据集的平均评级。通过在梯度下降上最小化MSE，来构造矢量u_i、v_i。使用d＝20以及λ＝0.3的值。因此对用户和电影二者进行了剖析，通过＜u₀，v_j＞+μ预测用户0对电影的评级。

考虑两个示例训练数据集；Flixster和Movielens。Flixster是用于对电影进行评级和评论的公用在线社交网络。Flixster允许用户将人口统计信息输入到他们的简档中，与他们的朋友和公众共享他们的电影评级和评论。该数据集具有1M个用户，其中只有34.2K个用户共享他们的年龄和性别。考虑该34.2K个用户的子集，这些用户对17K个电影进行评级，并提供了5.8M个评级。12.8K男性和21.4K女性已经分别提供了2.4M个评级和3.4M个评级。Flixster允许用户提供半星评级，然而为了在评估数据集之间一致，将评级向上取整为从1到5的整数。另一数据集是Movielens。该第二数据集是由Grouplens^TM研究小组公开提供的。数据集由3.7K个电影和通过6K个用户进行的1M个评级构成。4331个男性和1709个女性分别提供750K个评级和250K个评级。

为了确定人口统计信息，在推断引擎中使用分类器。如上所述，人口统计信息可以包括多个特性。将把性别确定为示例人口统计特征表现为当前发明的一个实施例。然而，确定用户的不同人口统计特征或多个人口统计特征在本发明的范围内。

为了训练分类器，在特征矢量为的训练集合中，将它们与每个用户i∈N相关联，使得如果j∈S_i且x_ij＝0，则x_ij＝r_ij，否则不成立。考虑到二进制变量y_i指示用户i的性别，将该二进制变量用作分类的因变量。由表示特征矢量的矩阵，通过Y∈{0，1}^N表示性别的矢量。

检验三种不同类型的分类器：贝叶斯分类器、支持矢量机(SVM)以及逻辑回归(logistic regression)。在贝叶斯设置中，检验若干不同生成模型；对于所有模型，假定从相同的联合分布P(x，y)中独立地对点(x_i，y_i)进行采样。如果给定P，则作为特征矢量x的结果的预测标签是具有最大似然性的预测标签，即：

现在描述类别优先分类(class prior classification)，类别优先分类担当用于评估其它分类器性能的基准线方法。给定具有不均匀分布的人口性别类别的数据库，这种基本分类策略将所有用户分类为具有优势的性别。这样等同于在生成模型P(x|y)＝P(y)的情况下使用方程(1)，根据训练集合估计为：

P(y)＝|{i∈N：y_i＝y}|/N. (2)

现在描述伯努利朴素贝叶斯分类。伯努利朴素贝叶斯是忽略实际评级值的简单方法。具体地，假定用户各自对电影进行评级，是否评级的决定是伯努利随机变量。形式上，给定特征矢量x，将评级指示符矢量定义为使得这样捕获对其提供了评级的电影。假定是独立的伯努利，通过给出生成模型，其中P(y)是方程(2)中的类别优先，如下所示地根据训练集合计算条件性的

现描述多项式朴素贝叶斯分类。伯努利朴素贝叶斯的缺点在于它忽略评级值。将它们合并的一种方式是多项式朴素贝叶斯，通常将多项式朴素贝叶斯应用于文档分类任务。直观地，这种方法通过将例如五星评级视为5个伯努利随机变量的5个独立事件，来将伯努利扩展为正整数值。因此，接收较高评级的电影对分类具有较大影响。形式上，由给出生成模型，其中通过方程(3)来根据训练集合计算

根据本发明的方面，现在描述混合朴素贝叶斯。发明人将上述多项式的备选称作混合朴素贝叶斯。该模型是基于假定用户给出正态分布的评级。更具体地，

P (x_{j} | {\tilde{x}}_{j} = 1, y) = {(2 π σ_{y}^{2})}^{- 1 / 2} e^{- {(x_{j} - μ_{yj})}^{2} / 2 σ_{y}^{2}} . - - - (4)

对于每个电影j，对均值μ_ij的估计根据于数据集，作为性别为y的用户对电影j给出的平均评级，将方差估计为性别为y的用户给出的所有评级的方差。从而通过给出方程(1)中使用的联合似然性，其中分别通过方程(2)和(3)来估计P(y)，当提供评级(即，)时，通过方程(4)给出条件性的且一般性地，当没有提供评级时，通过给出条件性的

现在描述当前发明中逻辑回归的使用。所有上述贝叶斯方法的显著缺点在于它们假定电影评级是独立的。为了解决该问题，发明人应用逻辑回归。考虑到线性回归产生系数集合β＝{β₀，β₁，...，β_M}。通过首先计算概率来利用特征矢量x_i执行对用户i∈N的分类。如果p_i＜0.5，则将用户分类为女性，否则分类为男性。值p_i还被用作对用户i进行分类的置信值。使用逻辑回归的最大优点之一在于系数β捕获每个电影和类别之间的相关程度。在当前实例中，较大的正数β_j指示将电影j与男性类别相关，而较小的负数β_j指示将电影j与女性类别相关。选择正则化参数，使得至少具有与每个性别相关联的1000个电影，所述电影具有非零系数。

在机器学习中，支持矢量机(SVM)是具有相关联学习算法的监督式学习模型，并用于进行分类和回归分析，其中所述相关联学习算法分析数据并识别模式。直观上，SVM寻找超平面，如本领域所公知，所述超平面以最小化不正确分类的用户与超平面的距离的方式，来划分属于不同性别的用户。SVM保持逻辑回归的许多优点；它不在特征空间内假定独立性，并产生系数。由于特征空间(电影的数目)已经相当大，线形SVM被用于分类器评估。对参数空间(C)执行对数搜索，发明人发现C＝1给出最优结果。

表格1平均AUC、精确度(P)和查全率(R)

表格2每性别精确度和查全率

在Flixster和Movielens两个数据库上对所有算法进行评估。使用10层交叉验证，针对层之间计算出的两个均值受试者工作特性(ROC)曲线，计算平均精确度和查全率(recall)。对于ROC，将真正(truepositive)比率计算为正确分类的男性占数据集中男性的比率，将假正(false positive)比率计算为错误分类的男性占数据集中女性的比率。表格1提供了对3个量度(AUC、精确度和查全率)的分类结果的汇总。表格2示出了根据每个性别划分的相同结果。图2(a)和图2(b)给出了ROC曲线。表格1提供了针对3个量度(AUC、精确度和查全率)的分类结果的汇总。表格2示出了根据每个性别划分的相同结果。

从ROC曲线可以看出，由于SVM的回归曲线和逻辑回归曲线比其他曲线占优，因此相较于任何贝叶斯模型，SVM和逻辑回归在两个数据集中执行得更好。具体地，逻辑回归针对Flixster执行得最好，而SVM针对Movielens执行得最好。伯努利、混合和多项式模型的性能彼此区别不大。通过表格1中的AUC值进一步确认了这些发现。该表格还示出了简单类别优先模型的弱点，即所有其它方法易于表现超过所述简单类别优先模型。

通常，分类任务的精确度是真正(true positive)的数目(即，被正确标记为属于正类别的项目的数目)除以被标记为属于正类别的要素的总数(即，真正和假正的总和，所述假正是被错误标记为属于该类别的项目)。将上下文中的查全率定义为真正的数目除以实际属于正类别的要素的总数(即，真正和假负(false negative)的总和，所述假负是应该但是没有被标记为属于所述正类别的项目)。

根据精确度和查全率，表格2示出了针对Flixster用户以及两个性别，逻辑回顾优于所有其它模型。对于Movielens用户，SVM执行得比所有其他算法更好，而逻辑回归是第二最佳方法。通常，针对在每个数据集中占优势地位的性别(Flixster中为女性，Movielens中为男性)，推断执行得更好。该现象对于SVM尤其明显，SVM针对优势地位的类别展现高查全率，对不占优势地位的类别展现低查全率。混合模型对伯努利模型进行明显改善，得到与多项式相似的结果。这表示使用Gaussian分布可能不足以准确评估评级的分布。

通过向由表示的二进制矩阵应用逻辑回归和SVM，来评定用户评级相对评级值本身(星星的数目或其它主观等级评价)的影响与简单二进制事件“已观看或没有观看”的关系，其中由1代替评级。表格1示出了这两个方法对X和的性能。有趣的是，当使用X而不是作为输入时，SVM和逻辑回归执行得略好，所有度量值具有小于2％的改善。实际上，表格2表示出尽管针对优势地位的类别使用X比使用执行得更好，然而对于并非优势地位的类别，使用X更差。类似地，同样忽略评级值的伯努利模型执行得相对接近多项式和混合的。这意味着某人简档中是否包括电影几乎与针对该电影给出的星级评级值具有相同影响力。

对训练集合规模的影响进行评估。由于使用10层交叉验证，相对评估集合，训练集合较大。将Flixster数据用于评定训练集合规模中用户的数目对推断准确度的影响。除了在评估集合中给出3000个用户的10层交叉验证之外，还使用300用户评估集合来执行100层交叉验证。此外，逐步增加训练集合，执行从100个用户开始并每次迭代添加100个额外用户。

图2(c)绘出了针对两个评估集合规模，对Flixster的逻辑回归推断的精确度。附图示出了针对两个规模，训练集合中大致300个用户足够于该算法实现大约70％的准确度，而训练集合中5000个用户实现大约74％的准确度。这表示相对较少数目的用户足以用于训练。

考虑到电影-性别关联。通过逻辑回归计算出的系数揭露了与男性和女性最相关的电影。表格3列出了针对Flixster与每个性别相关的10大电影；类似地，针对Movielens列出10大电影。基于电影在10层中的平均评级对电影进行排序。使用平均评级，因为由于系数可以在不同层之间可能明显改变，但是电影的顺序不改变。根据将X或用作输入，性别相关的顶尖电影是完全不同的。例如，针对前100个与男性和女性最相关的电影，在两个输入之间针对男性只有35个是相同的，针对女性有27个是相同的；所述比较分别产生为0.19和0.16的Jaccard距离。两个数据集中的许多电影是符合常规的：动作片和恐怖片电影与男性更相关，而剧情片和爱情片与女性更相关。然而，由于热门电影大部分受到这两个性别人的喜欢，性别推断并不直接。

表格3示出了在这两个数据库中，一些与男性相关顶尖电影具有涉及男性同性恋的剧情(例如，Latter Days、Beautiful Thing和Eating Out)；当使用时，观察到相同的结果。这种现象的主要原因在于所有这些电影具有相对较少数量的评级，评级从几十到几百。在这种情况下，关于类别优先，在性别之间评级分布的较小变化足以令电影与该类别强烈相关。

表格3 Flixster中与男性和女性相关的顶尖电影

由于在两个可用数据集上对SVM和线性回归分类器进行完全表征，并具有有利的结果，发明了新方法和装置以实现推断引擎。图3表示了根据本发明的多个方面的用于根据用户评级产生人口统计信息并将这些信息结果用于有用目的的方法，所述用户评级不具有人口统计信息。使用这种所产生的人口统计信息的最终目的包括：将广告有针对性地投放给用户125，和/或通过推荐者系统130提供增强的推荐。

图3的方法300在步骤305开始，其中向推断引擎输入具有评级和代表多个用户的人口统计信息的训练数据集。图1示出了作为推荐者系统130的一部分的推断引擎135。可以使用所推荐的与网络120的系统连接137来完成该步骤，或可以通过经由端口136到推断引擎135的直接输入来完成该步骤。如果通过所推荐的系统网络连接137进行输入，则训练数据集可以是逐个积累的人口统计和评级信息(电影评级或任何其它数字内容评级)，或者是具有人口统计和评级信息的至少一个用户训练数据集的一个或更多个加载。如果通过输入端口136向推断引擎135直接输入，则数据是对至少一个用户训练数据集的一个或更多个下载。在步骤210，推荐者系统135使用来自训练数据集的信息训练推断引擎。如果推断引擎135通过端口136直接下载，则可以跳过步骤210。在任何情况下，步骤205和210表示利用训练数据集来训练推断引擎135，所述训练数据集包括用户人口统计信息以及用户评级信息。

在步骤315，不在训练数据集中的新用户(例如，用户125)与推荐者系统130进行交互，且仅提供评级。如上所述，这些评级可以是例如具有电影标识符信息以及主观评级值信息的电影评级。由用户125提供的评级没有推断引擎所寻找的人口统计信息。在新用户125向推荐者系统输入她的评级之后，在步骤320，推断引擎135使用分类算法来基于新用户的评级确定该用户的人口统计信息。优选地，分类算法是上述支持矢量机(SVM)或逻辑回归之一。

由于确定了新用户的人口统计信息，可以将所确定的人口统计信息(例如，性别)用于多种有用目的。图3提供了两个示例。在一个示例中，在步骤325，推荐者系统130使用步骤320所确定的人口统计信息向新的用户提供增强的推荐。例如，如果推荐者系统130是电影推荐者系统(例如，由Netflix^TM或Hulu^TM运行)，则例如性别的人口统计信息可用于更严密地选择特定于性别的电影，以由新用户观看。备选地，在步骤330，推荐者系统130可以使用来自步骤320的所确定的人口统计信息，以向新用户针对性地投放特定广告。例如，如果确定新用户的性别，则可以向新的用户针对性地投放特定于性别的广播。这种广告可以包括针对女性的香水购买折扣建议或针对男性的剃须设备购买折扣。推荐者系统可具有对来自内部或外部数据库或网络服务器(未示出)的潜在广告的访问权。

可以将步骤325或330中的每个或其二者看做是为利用从新用户125提供的评级提取的人口统计信息而采取的有用行为。可以针对利用推荐者系统130的服务的每个新用户，重复步骤315到330。从推荐者系统接收增强推荐或广告的用户将会在与该用户(例如，用户125)相关联的显示设备上接收增强推荐或广告。这种用户显示设备是公知的，并包括与家庭电视系统、独立电视、个人计算机和手持设备(例如，个人数字助手、膝上型笔记本、平板、蜂窝电话和网络笔记本)相关联的显示设备。

图4是推断引擎135的示例框图。推断引擎135与图1所述的推荐者系统130进行接口连接。推断引擎接口410用于将推断引擎135的通信组件与推荐者系统130的通信组件相连。如本领域技术人员所知，在405处推荐者系统的推断引擎接口410可以是串行链路或并行链路，或嵌入的或外部的功能。因此，推断引擎可以与推荐者系统相组合，或可以与推荐者系统分离。接口端口405允许推荐者系统130向推断引擎135提供训练数据并向推荐者系统提供推断结果。备选训练数据集接口是输入端口136，其中可以以方便的形式从网络或其它数字数据源(例如，存储介质源)输入训练数据。

处理器420向推断引擎135提供计算功能。处理器可以是任何形式的CPU或控制器，利用推断引擎的元素之间的通信来控制针对推断引擎的通信和计算处理。本领域技术人员应认识到，总线415在推断引擎135的多个元件之间提供通信路径，并且其它点对点互连也是同样可用的。

程序存储器430可以向与图3的方法300相关的存储器，提供资源库。数据存储器440可以提供资源库以用于信息存储，该信息例如训练数据集、下载、上载或暂存中间结果的计算。本领域技术人员应认识到，可以合并或分离存储器430和440，可以集成存储器430和440或将它们集成作为处理器420的一部分。处理器420利用程序存储器的存储和检索特性来执行多个指令(例如，计算机指令)，以便执行方法300的步骤，从而产生由推荐者系统130使用的人口统计信息。

评估器450可以是独立的处理器420或是处理器420的一部分，并用于提供计算资源以便根据新用户的评级确定人口统计信息。这样，评估器450可以针对分类器(优选地，SVM或逻辑回顾)提供计算资源。评估器可以向数据存储器440或处理器420提供临时计算，用于确定新用户的人口统计信息。这种临时计算包括仅给出新用户的评级信息，计算与新用户相关的人口统计信息的可能性。评估器450可以是硬件，但优选的是硬件和固件或软件的组合。

尽管针对图4的推断引擎的实现方式示出了具体架构，然而本领域技术人员应认识到，存在多个实现方案选项，例如，组件的功能分布、组件的整合以及服务器中作为推荐者系统的服务的位置。这种选项等同于所述和所示的布置的功能和结构。

Claims

1.一种使用来自特定用户的评级来确定所述特定用户的人口统计信息的方法，所述方法包括：

使用训练数据集来训练用于确定人口统计信息的推断引擎，所述训练数据集包括来自多个其它用户的评级和人口统计信息；

从所述特定用户接收评级，接收到的来自所述特定用户的评级仅具有评级信息；

根据所述特定用户的评级确定所述特定用户的人口统计信息，所述确定是使用已训练的推断引擎进行的；

使用所确定的人口统计信息来向所述特定用户提供推荐，或向所述特定用户提供针对性的广告。

2.根据权利要求1所述的方法，其中，来自所述特定用户的评级包括电影标识信息。

3.根据权利要求1所述的方法，其中，所述评级包括电影评级、歌曲评级、数字游戏评级、产品评级和餐厅评级之一。

4.根据权利要求1所述的方法，其中，从所述特定用户接收评级包括接收缺少人口统计信息的评级。

5.根据权利要求1所述的方法，其中，所确定的所述特定用户的人口统计信息是性别信息。

6.根据权利要求1所述的方法，其中，所述特定用户不包括在所述训练数据集中。

7.根据权利要求1所述的方法，其中，所述确定步骤包括使用分类器确定所述特定用户的人口统计信息。

8.根据权利要求7所述的方法，其中，所述分类器是支持向量机和逻辑回归算法之一。

9.一种使用来自特定用户的评级来确定所述特定用户的人口统计信息的装置，所述装置包括：

接口，用于输入包括来自多个其它用户的评级和人口统计信息的训练数据集；

处理器，能够访问存储器，执行计算机指令，以使用来自所述特定用户的评级确定人口统计信息，其中，所述来自所述特定用户的评级缺少人口统计信息；以及

到推荐者系统的接口，所述接口向所述推荐者系统提供所确定的人口统计信息，所述推荐者系统基于所确定的人口统计信息向所述特定用户提供针对性的广告。

10.根据权利要求9所述的装置，其中，所述装置是所述推荐者系统的一部分。

11.根据权利要求9所述的装置，其中，用于输入训练数据集的接口还用作所述到推荐者系统的接口。

12.根据权利要求9所述的装置，其中，来自所述特定用户的评级包括电影标识信息和电影评级值。

13.根据权利要求1所述的装置，其中，所确定的所述特定用户的人口统计信息是性别信息。

14.根据权利要求1所述的装置，还包括分类器，用于帮助所述处理器确定所述特定用户的人口统计信息。

15.根据权利要求1所述的装置，其中，所述分类器是支持向量机和逻辑回归算法之一。