CN102200959A

CN102200959A - 信息处理设备、信息处理方法和程序

Info

Publication number: CN102200959A
Application number: CN2011100659316A
Authority: CN
Inventors: 馆野启
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-03-25
Filing date: 2011-03-18
Publication date: 2011-09-28
Also published as: US8510235B2; JP2011203991A; US20110238605A1

Abstract

提供了信息处理设备、信息处理方法和程序。该信息处理设备包括：标签获取部件，获取由用户向多个内容当中选择的内容分配的标签；用户确定性因子设置部件，向用户分配的标签设置用户确定性因子；标签预测学习部件，执行标签预测学习；标签预测部件，预测关于未分配标签的内容的标签，并且计算标签确定性因子，其指的是已预测标签的确定性；用户确定性因子预测部件，执行用户确定性因子预测学习，并预测(关于)未分配标签的内容的(关于)已预测标签的用户确定性因子；以及选择部件，用于在未分配标签的内容当中选择下一个要分配标签的内容。

Description

信息处理设备、信息处理方法和程序

技术领域

本发明涉及信息处理设备、信息处理方法和程序。更具体地说，涉及适用于在主动学习中预测内容标签的信息处理设备、信息处理方法和程序。

背景技术

在现有技术中，已经采用了主动学习(active learning)以便预测内容(例如，文件)的标签(例如，文件种类)(例如，参见日本未审查专利申请公开No.2009-104632)。

在现有的主动学习中，将具有关于由系统预测的标签的低确定性因子(certainty factor)的内容选择为样本，并且用户(分配标签的人)向内容分配标签(在下文中这也称为正确标签)，这导致利用少量样本实现的高效预测性能。

发明内容

然而，在内容包括具有低确定性因子的标签的情况下，即，在系统难以预测内容的标签的情况下，用户通常发现难以向内容分配合适的标签。例如，在用户向内容(音乐数据)分配他/她的内容印象(用户分别从音乐数据中获得)作为内容的标签的情况下，存在这样的可能性：由于用户判断的不一致性，向类似的音乐片段分配了不同的标签，或者向不那么类似的音乐片段分配了类似的标签。在另一情况下，存在这样的可能性：由于多个用户从同一内容获得的印象彼此很不相同，因此多个用户分配的各标签值当中的变化变大。结果，用户分配的正确标签的确定性因子变低，并且在某些情况下，可能难以正确地执行其中系统预测内容标签的学习(例如，参见Ben Hachey等人，“Investigating the Effects of Selective Sampling on the Annotation Task”，Proceedings of the Ninth Conference on Computational Natural Language Learning，University of Michigan，USA，2005年6月，pp.144-151)。结果，内容的预测精度变得更低。

通过考虑上述问题而实现了本发明，并且通过主动学习增大了内容标签的预测精度。

根据本发明实施例的信息处理设备包括：标签获取部件，被配置为获取由用户向多个内容当中选择的内容分配的标签；用户确定性因子设置部件，被配置为设置用户确定性因子，该用户确定性因子指的是由用户分配的标签的确定性；标签预测学习部件，被配置为基于分配了标签的内容的特征值和标签来预测标签；标签预测部件，被配置为基于标签预测学习的结果和内容的特征值，来预测关于未分配标签的内容的标签，并且被配置为计算标签确定性因子，该标签确定性因子指的是已预测标签的确定性；用户确定性因子预测部件，被配置为基于分配了标签的内容的特征值和用户确定性因子来执行用户确定性因子预测学习，以预测用户确定性因子，并且被配置为基于用户确定性因子预测学习的结果和内容的特征值来预测关于未分配标签的内容的已预测标签的用户确定性因子；以及选择部件，被配置为在未分配标签的内容当中选择下一个要分配标签的内容。

在用户确定性因子设置部件中，可以基于直到用户决定要分配给内容的标签为止用户花费的必要时间量和用户进行的标签改变的次数中的至少一个来设置用户确定性因子。

在用户确定性因子设置部件中，可以基于多个用户分配的标签值当中的变化来设置用户确定性因子。

在选择部件中，可以基于如下想法选择下一个要分配标签的内容：标签确定性因子越低且关于内容的已预测标签的用户确定性因子越高，则分配给内容的优先级越高。

在选择部件中，如果标签是内容的评级，则可以基于如下想法选择下一个要分配标签的内容：内容的已预测标签的预测评级值越高，则新分配给内容的另一优先级越高。

在选择部件中，可以基于如下的想法选择下一个要分配标签的内容：向已经由用户在过去使用的内容新分配另一优先级。

根据本发明实施例的信息处理方法包括如下步骤：获取由用户向多个内容当中选择的内容分配的标签；设置用户确定性因子，该用户确定性因子指的是由用户分配的标签的确定性；基于分配了标签的内容的特征值和标签来执行标签预测学习以预测标签；基于标签预测学习的结果和内容的特征值来预测关于未分配标签的内容的标签；计算标签确定性因子，该标签确定性因子指的是已预测标签的确定性；基于分配了标签的内容的特征值和用户确定性因子来执行用户确定性因子预测学习以预测用户确定性因子；基于用户确定性因子预测学习的结果和内容的特征值来预测关于未分配标签的内容的已预测标签的用户确定性因子；以及在未分配标签的内容当中选择下一个要分配标签的内容。

根据本发明实施例的程序使得计算机执行包括如下步骤的处理：获取由用户向多个内容当中选择的内容分配的标签；设置用户确定性因子，该用户确定性因子指的是由用户分配的标签的确定性；基于分配了标签的内容的特征值和标签来执行标签预测学习以预测标签；基于标签预测学习的结果和内容的特征值来预测关于未分配标签的内容的标签；计算标签确定性因子，该标签确定性因子指的是已预测标签的确定性；基于分配了标签的内容的特征值和用户确定性因子来执行用户确定性因子预测学习以预测用户确定性因子；基于用户确定性因子预测学习的结果和内容的特征值来预测关于未分配标签的内容的已预测标签的用户确定性因子；以及在未分配标签的内容当中选择下一个要分配标签的内容。

在本发明的实施例中：获取由用户向多个内容当中选择的内容分配的标签；设置用户确定性因子，该用户确定性因子指的是由用户分配的标签的确定性；基于分配了标签的内容的特征值和标签来执行标签预测学习以预测标签；基于标签预测学习的结果和内容的特征值来预测关于未分配标签的内容的标签；计算标签确定性因子，该标签确定性因子指的是已预测标签的确定性；基于分配了标签的内容的特征值和用户确定性因子来执行用户确定性因子预测学习以预测用户确定性因子；基于用户确定性因子预测学习的结果和内容的特征值来预测关于未分配标签的内容的已预测标签的用户确定性因子；以及在未分配标签的内容当中选择下一个要分配标签的内容。

根据本发明的实施例，可以预测内容的标签。具体地，根据本发明的实施例，可以通过采用主动学习来提高内容的标签的预测精度。

附图说明

图1是示出了根据本发明实施例的信息处理设备的第一配置示例的框图；

图2是用于说明标签预测处理的流程图；

图3是示出了内容的特征值的示例的表；

图4是示出了内容的正确标签和用户确定性因子的示例的表；

图5是示出了已预测标签、标签确定性因子、已预测用户确定性因子和样本选择分数的示例的表；

图6是示出了根据本发明实施例的信息处理设备的第二配置示例的框图；

图7是用于说明评级(rating)预测处理的流程图；以及

图8是示出了根据本发明实施例的计算机的配置示例的框图。

具体实施方式

下面将描述本发明的实施例(在下文中称为实施例)。关于以该顺序的如下主题进行关于实施例的描述。

1.第一实施例(基本配置)

2.第二实施例(应用于内容推荐处理的示例)

<1.第一实施例>

首先，将参照图1到图5描述本发明的第一实施例。

[信息处理设备的配置示例]

图1是示出了根据本发明实施例的信息处理设备1的配置示例的框图。信息处理设备1是用于预测内容标签的设备。这里，内容指示一段图像数据、一段运动图像数据、一段音乐数据、多种商品之一、一段文件数据等。内容不限于属于特定种类的项目。另外，标签是指示内容性质(property)的一条信息，并且例如是内容所属的类型或种类、用户对内容的主观印象(例如，感兴趣、悲伤等)或者指示用户的主观印象的评级值(ranking value)。

信息处理设备1包括内容信息保存单元11、初始样本选择单元12、呈现单元13、正确标签获取单元14、标签信息保存单元15、用户确定性因子设置单元16、标签预测学习单元17、标签预测/确定性因子计算单元18、用户确定性因子预测单元19、完成判断单元20和样本选择单元21。

内容信息保存单元11存储关于多个内容的各种信息片段(例如，名称、类型、性质等)。另外，将关于内容的一些或全部信息片段用作标签预测中的特征值，这将在稍后描述。例如，特征值包括指示内容所属的类型或者内容的特性的关键字。另外，如果由多种信号(例如，图像信号、音乐信号等)指示内容(如，图像数据和音乐数据)，则可以使用这些信号作为特征值。

在内容是可以在内容信息保存单元11中保存的某种类型的内容的情况下，内容本身可以与关于内容的信息一起保存在内容信息保存单元11中。

初始样本选择单元12在内容信息保存单元11中保存的内容当中选择作为初始样本的内容。初始样本是由用户初始地分配了正确标签的目标内容。初始样本选择单元12从内容信息保存单元11获取关于所选择的初始样本的信息，并向呈现单元13提供该信息。

呈现单元13向用户呈现关于由初始样本选择单元12选择的初始样本的信息以及关于由样本选择单元21选择的样本的信息。另外，呈现单元13向正确标签获取单元14提供关于呈现给用户的样本的信息。

正确标签获取单元14获取由用户经由输入装置(未示出)分配给由呈现单元13呈现的样本的正确标签。另外，正确标签获取单元14获取关于在用户向每一个样本分配正确标签时执行的用户行为(user’s conduct)的信息，其中在下文中将该信息称为用户行为信息。正确标签获取单元14使得标签信息保存单元15保存所获取的正确标签以及与相应内容(样本)相关联的用户行为信息。

用户确定性因子设置单元16从标签信息保存单元15获取正确标签以及关于分配了正确标签的每一个样本的用户行为信息。接下来，用户确定性因子设置单元16向由用户分配给每一个样本的正确标签设置用户确定性因子，该用户确定性因子指的是正确标签的确定性。用户确定性因子设置单元16使得标签信息保存单元15与相应内容(样本)相关联地保存所设置的用户确定性因子。

关于内容(样本)的正确标签的用户确定性因子在下文中也可以简称为内容的用户确定性因子。

标签预测学习单元17从内容信息保存单元11获取已经分配了正确标签的内容的特征值，(其中在下文中将该内容称为已评级内容)，并从标签信息获取单元15获取已评级内容的正确标签。接下来，标签预测学习单元17基于已评级内容的特征值和正确标签，通过使用规定的方法执行用于预测每一个内容的标签的学习。标签预测学习单元17向标签预测/确定性因子计算单元18提供标签预测学习的结果。

标签预测/确定性因子计算单元18从内容信息保存单元11获取未分配正确标签的内容的特征值，其中在下文中将该内容称为未评级内容。接下来，标签预测/确定性因子计算单元18基于由标签预测学习单元17执行的标签预测学习的结果和每一个未评级内容的特征值，预测每一个未评级内容的标签。另外，标签预测/确定性因子计算单元18计算标签确定性因子，该标签确定性因子指的是预测的标签(在下文中称为已预测标签)的确定性。标签预测/确定性因子计算单元18使得标签信息保存单元15与相应内容相关联地保存已预测标签。另外，标签预测/确定性因子计算单元18向完成判断单元20提供已预测标签和关于每一个未评级内容的标签确定性因子。另外，标签预测/确定性因子计算单元18向采样选择单元21提供关于每一个未评级内容的已预测标签的标签确定性因子。

在下文中，关于某一内容的已预测标签的标签确定性因子也可以简称为内容的标签确定性因子。

用户确定性因子预测单元19从内容信息保存单元11获取每一个已评级内容的特征值，并且还从标签信息保存单元15获取每一个已评级内容的用户确定性因子。接下来，用户确定性因子预测单元19基于每一个已评级内容的用户确定性因子和特征值，通过使用规定的方法执行用于预测用户确定性因子的学习。另外，用户确定性因子预测单元19从内容信息保存单元11获取每一个未评级内容的特征值。接下来，用户确定性因子预测单元19基于用户确定性因子预测学习的结果和每一个未评级内容的特征值，预测关于每一个未评级内容的已预测标签的用户确定性因子。用户确定性因子预测单元19向样本选择单元21提供关于每一个未评级内容的已预测标签的用户确定性因子(在下文中称为已预测用户确定性因子)。这里，已预测用户确定性因子是已预测值，其是指用户可以多么精确地向每一个未评级内容分配标签。

在下文中，将关于内容的已预测标签的已预测用户确定性因子简称为内容的已预测用户确定性因子。

完成判断单元20判断是否满足标签预测处理的完成条件，并且向样本选择单元21通知判断结果。

样本选择单元21基于标签确定性因子和已预测用户确定性因子，从未评级内容中选择样本。样本选择单元21从内容信息保存单元11获取关于所选择的样本的信息，并向呈现单元13提供该信息。

[标签预测处理]

接着，将参照图2中所示的流程图来描述信息处理设备1执行的标签预测处理。

这里，将假设：关于包括内容C1到C6的内容的信息存储在内容信息保存单元11中，在下文中如图3所示。另外，将假设：关于每一个内容的信息具有三种类型的特征值，即特征量1到特征量3。为了简明起见，在下文中将省略关于内容C1到C6以外的内容的描述。

在步骤S1，初始样本选择单元12在内容信息保存单元11中保存的内容当中选择作为一个或多个初始样本的一个或多个内容。在该初始样本的选择中，初始样本选择单元12可以随机地选择一个或多个初始样本，或者可以选择初始样本以便初始样本的特征值可以分散。另外，所选择的一个或多个初始样本的数量可以任意地设置。初始样本选择单元12从内容信息保存单元11获取关于所选择的一个或多个初始样本的信息，并向呈现单元13提供该信息。

在下面的描述中，将假设：在图3所示的内容当中，选择内容C1和C2作为初始样本。

在步骤S2，呈现单元13向用户呈现样本。用以向用户呈现样本的方法不限于特定方法，并且可以是任意方法。例如，如果内容是图像数据，则呈现单元13通过在显示器上显示图像或缩略图图像来向用户呈现样本。另外，如果内容是音乐数据，则呈现单元13通过实际地从扬声器输出声音或者通过在显示器上显示音乐片段的名称或音乐表演者的姓名来向用户呈现样本。呈现单元13向正确标签获取单元14提供关于所呈现的样本的信息。

在步骤S3，正确标签获取单元14获取正确标签。例如，用户经由输入装置(未示出)输入分配给呈现单元13所呈现的样本的正确标签。正确标签获取单元14获取由用户输入的正确标签。

另外，正确标签获取单元14获取关于当用户分配正确标签时执行的用户行为的用户行为信息。例如，正确标签获取单元14获取直到用户决定要分配给每一个样本的正确标签为止用户花费的必要时间以及用户进行的标签变换的次数作为用户行为信息。正确标签获取单元14使得标签信息保存单元15分别与相应内容(样本)相关联地保存所获取的正确标签和用户行为信息。这里，一个用户可以向内容分配标签，或者多个用户可以向内容分配标签。

在该情况下，将假设：具有值1和0的正确标签分别由一个用户分配给图4所示的内容C1和C2。

在步骤S4，用户确定性因子设置单元16设置用户确定性因子。更具体地说，在步骤S3，用户确定性因子设置单元16获取正确标签，并且在步骤S3获取关于从标签信息保存单元15新分配了正确标签的样本的用户行为信息。接下来，在一个用户向样本分配标签的情况下，如果直到决定要分配给每一个样本的正确标签为止用户花费的时间量较短，则用户确定性因子设置单元16设置较高的用户确定性因子，并且如果直到决定要分配给每一个样本的正确标签为止用户花费的时间量较长，则设置较低的用户确定性因子。另一方面，在多个用户向样本分配标签的情况下，可以基于平均时间量或总时间量来设置用户确定性因子。

替代地，在一个用户向样本分配标签的情况下，如果直到决定要分配给每一个样本的标签为止用户进行的标签改变的次数较小，则用户确定性因子设置单元16设置较高的用户确定性因子，而如果直到决定要分配给每一个样本的标签为止用户进行的标签改变的次数较大，则设置较低的用户确定性因子。另一方面，在多个用户向内容分配标签的情况下，可以基于标签改变的平均次数或标签改变的总次数来设置用户确定性因子。

替代地，在多个用户向样本分配标签的情况下，如果在由多个用户分配给每一个样本的正确标签值当中的变化(例如，方差)较小，则用户确定性因子设置单元16将较高的用户确定性因子设置给每一个样本的正确标签，而如果变化较大，则将较低的用户确定性因子设置给每一个样本的正确标签。

接下来，用户确定性因子设置单元16使得标签信息保存单元15与相应内容(样本)相关联地保存所设置的用户确定性因子。

在如上所述通过使用决定正确标签所需的时间量、标签改变的次数或者正确标签值当中的变化作为索引来设置用户确定性因子的情况下，可以通过使用如果索引变得较小则使得用户确定性因子变得较大的函数(例如，索引的倒数)来计算用户确定性因子。

上述方法是用户确定性因子的计算方法的示例之一，并且替代地，可以使用以上索引以外的索引来进行计算。

另外，替代地，多个索引的组合(例如，决定正确标签所需的时间量和标签改变的次数)可以用于计算用户确定性因子。

替代地，代替由用户确定性因子设置单元16来计算用户确定性因子，用户可以直接分配用户确定性因子。例如，可以在通过使用五个评级级别来评估关于分配给样本的标签的用户确定性因子之后，用户经由输入装置(未示出)来输入所决定的用户确定性因子。在获取用户输入的用户确定性因子之后，用户确定性因子设置单元16使得标签信息保存单元15与相应内容(样本)相关联地保存用户确定性因子。

以这种方式，对于每一个内容(样本)的正确标签设置用户确定性因子(其指示每一个内容(样本)的正确标签有多精确，即正确标签有多可靠)。

在下面的描述中，将假设：如图4所示，分别将关于内容C1和C2的正确标签的用户确定性因子设置为0.2和0.8。

在步骤S5，标签预测学习单元17执行标签预测学习。更具体地说，标签预测学习单元17从内容信息保存单元11获取每一个已评级内容的特征值，并且从标签信息获取单元15获取每一个已评级内容的正确标签。这里，作为该标签预测学习的目标的已评级内容包括在步骤S3新分配了正确标签的样本。接下来，标签预测学习单元17基于每一个已评级内容的特征值和正确标签，通过使用规定方法执行用于预测每一个已评级内容的标签的学习。标签预测学习单元17向标签预测/确定性因子计算单元18提供标签预测学习的结果。

这里，用于标签预测学习的方法不限于特定方法，并且可以采用一般的机器学习方法。例如，如果学习目标的标签具有离散或名称-属性的性质(如内容所属的类型)，则可以采用如SVM(Support Vector Machine：支持向量机)方法、Logistic Regression(象征逻辑回归)方法等的分类学习方法。另一方面，如果学习目标的标签具有连续或序数尺度性质(如，通过使用从1到5的五个级别来指示感兴趣程度因子的标签)，则可以采用如Linear Regression(线性回归)方法、RVR(Relevance Vector Regression：相关性向量回归)方法等的分类学习方法。

例如，在“Thorsten Joachims，‘Text Categorization with Support Vector Machines：Learning with Many Relevant Features’，Machine Learning：ECML-98，Springer Berlin/Heidelberg，1998，Volume 1398/1998，pp.137-142”中描述了SVM的细节。例如，在“Michael E.Tipping，‘The Relevance Vector Machine’，NIPS，2000”中描述了SVM的细节。

在步骤S6，标签预测/确定性因子计算单元18预测内容的标签，并计算已预测标签的确定性因子。具体地说，标签预测/确定性因子计算单元18从内容信息保存单元11获取未分配正确标签的未评级内容的特征值。接下来，标签预测/确定性因子计算单元18基于标签预测学习单元17执行的标签预测学习的结果和每一个未评级内容的特征值，来预测每一个未评级内容的标签。

另外，标签预测/确定性因子计算单元18计算关于每一个未评级内容的已预测标签的标签确定性因子。例如，存在这样的情况：其中，根据标签预测中采用的方法来计算与关于已预测标签的确定性因子对应的值。在这种情况下，标签预测/确定性因子计算单元18将该值设置为标签确定性因子。例如，在Linear Regression(线性回归)或RVR方法中，对于已预测标签计算的后验概率可以被设置为标签确定性因子。另外，在SVM方法中，可以将从鉴别平面到每一个标签的距离设置为每一个标签的标签确定性因子。

以这种方式，预测每一个内容的标签，并且计算用户确定性因子，其指示已预测标签有多精确，即已预测标签有多可靠。

标签预测/确定性因子计算单元18使得标签信息保存单元15与相应内容相关联地保存每一个未评级内容的已预测标签。另外，标签预测/确定性因子计算单元18向完成判断单元20提供每一个未评级内容的已预测标签和标签确定性因子。另外，标签预测/确定性因子计算单元18向样本选择单元21提供每一个未评级内容的标签确定性因子。

在下面的描述中，将假设：分别将未评级内容C3到C6的标签预测为1、1、0和0，并且分别将标签确定性因子计算为0.2、0.8、0.9和0.15，如图5所示。

在步骤S7，用户确定性因子预测单元19执行用户确定性因子预测学习。具体地说，用户确定性因子预测单元19从内容信息保存单元11获取每一个已评级内容的特征值，并从标签信息保存单元15获取每一个已评级内容的用户确定性因子。这里，作为该用户确定性因子预测学习的目标的已评级内容包括在步骤S3新分配了正确标签的样本。接下来，用户确定性因子预测单元19基于每一个已评级内容的用户确定性因子和特征值，通过使用与标签预测学习中使用的方法类似的一般机器学习方法，执行用于预测用户确定性因子的学习。

在步骤S8，用户确定性因子预测单元19预测用户确定性因子。具体地说，用户确定性因子预测单元19从内容信息保存单元11获取每一个已评级内容的特征值。用户确定性因子预测单元19基于用户确定性因子预测学习的结果和每一个未评级内容的特征值，预测关于每一个未评级内容的已预测标签的用户确定性因子。用户确定性因子预测单元19向样本选择单元21提供每一个未评级内容的已预测用户确定性因子。

在下面的描述中，将假设：关于内容C3到C6的已预测用户确定性因子分别被预测为0.1、0.5、0.75和0.8，如图5所示。

对于步骤S5和S6的处理的组合，两个步骤中的一个可以执行得比另一个更早，或者二者可以并行地执行。对于步骤S7和S8的处理的组合同样如此。

在步骤S9，完成判断单元20判断是否满足完成条件。例如，如果由一个或多个用户分别向所有内容分配了正确标签，则完成判断单元20判断满足完成条件。

另一方面，在存在尚未分配正确标签的至少一个内容的情况下，如果所有未评级内容的标签确定性因子等于或大于规定阈值，则完成判断单元20判断满足完成条件，并且如果存在其标签确定性因子小于规定阈值的至少一个未评级内容，则判断不满足完成条件。替代地，完成判断单元20通过使用未评级内容的已预测标签来执行交叉验证。接下来，如果从交叉验证获得的精度等于或大于规定阈值，则完成判断单元20判断满足完成条件，并且如果从交叉验证获得的精度小于规定阈值，则判断不满足完成条件。

当不满足完成条件时，完成判断单元20向样本选择单元21通知判断结果，并且流程进行到步骤S10。

在步骤S10，样本选择单元21选择样本。尽管可以想到的是，最改进预测精度或具有最大参数变化的项用作选择样本的索引，也将对于如下情况进行下面的描述：标签确定性因子和已预测用户确定性因子用作选择样本的索引。

在标签预测学习中，与具有较高标签确定性因子的内容的正确标签相比，具有较低标签确定性因子的内容的正确标签更有价值。例如，这是因为当分类学习方法用于标签预测学习时，具有较低标签确定性因子的内容的位置更靠近鉴别平面，以使得如果获取位置更靠近鉴别平面的内容的正确标签，则可以创建更精确的鉴别平面。因此，在标签预测学习中，优选的是，选择具有较低标签确定性因子的内容作为样本。

另一方面，对于用户来说优选的是选择具有较高的已预测用户确定性因子的内容作为样本。这是因为，内容具有的已预测用户确定性因子越高，则越确定用户可以更快速且更精确地分配标签，以便可以减轻用户的心理和时间负担。

因此，样本选择单元21通过使用关于已预测用户确定性因子单调增大且关于标签确定性因子单调减小的函数，对于每一个未评级内容计算样本选择分数(其用作样本选择的判断标准)。接下来，例如，样本选择单元21以未评级内容的样本选择分数的递减次序选择规定数量的未评级内容。替代地，例如，样本选择单元21选择其样本选择分数大于规定阈值的未评级内容作为样本。以这些方式，优先地选择关于它们的已预测标签具有较低标签确定性因子和较高的已预测用户确定性因子的样本作为样本。

这里，由于具有高标签确定性因子的内容的正确标签在标签预测学习中不是很重要，因此可以从样本选择的候选者中忽略其标签确定性因子大于规定阈值的未评级内容。

接下来，样本选择单元21从内容信息保存单元11获取关于所选择的样本的信息，并向呈现单元13提供该信息。

图5示出了从等式获得的样本选择分数的示例：样本选择分数＝已预测用户确定性因子/标签确定性因子。具体地说，内容C3到C6的样本选择分数分别为0.5、0.625、0.833、5.333。在从内容C3到C6选择一个样本的情况下，从样本的候选者中忽略内容C4和C5，这是因为它们的标签确定性因子0.8和0.9高。由于将内容C6的样本选择分数和内容C3的样本选择分数彼此比较时内容C6的样本选择分数高于内容C3的样本选择分数，因此将内容C6选择为样本。

接下来，流程返回到步骤S2，并且重复从步骤S2到步骤S10的处理，直到在步骤S9判断满足完成条件为止。如上所述，执行关于内容的标签预测的主动学习，并且预测每一个内容的标签。

另一方面，如果在S9判断出满足完成条件，则标签预测处理结束。

以这种方式，变得可以使得关于内容的标签预测的主动学习更快速地收敛，并且同时提高了学习的精度。结果，提高了关于每一个内容的标签的预测精度。另外，可以减轻在给出正确标签时用户的心理和时间负担。

<2.第二实施例>

接着，将参照图6和图7描述本发明的第二实施例。这里，将假设：第二实施例应用于内容分发服务，其中向用户提供多个内容，并且用户使用这些内容(例如，观看它们)，并向这些内容分配标签。

在下面的描述中，将描述这样的示例：其中，向内容分配指示每一个用户的喜好的评级信息作为标签，基于分配的评级信息来预测其他内容的评级，并且向用户推荐内容。这里，例如，以两者(即，喜欢和不喜欢)之间的选择的形式、或者基于喜欢或不喜欢的程度的五个评级级别的形式来分配评级信息。

[信息处理设备的配置示例]

图6是示出了根据本发明实施例的信息处理设备101的配置示例的框图。信息处理设备101包括内容信息保存单元111、初始样本选择单元112、呈现单元113、评级信息获取单元114、评级信息保存单元115、用户确定性因子设置单元116、评级预测学习单元117、评级预测/确定性因子计算单元118、用户确定性因子预测单元119、完成判断单元120、样本选择单元121和推荐项选择单元122。与图1中的各单元对应的图6中的各单元被赋予了与图1中的各单元的附图标记相同的附图标记的后两位，并且为了避免重复，将省略与关于图1中的各单元的处理相同的图6中的各单元的处理的描述。

初始样本选择单元112从内容信息保存单元111中保存其信息的内容当中选择作为初始样本的内容。初始样本选择单元112从内容信息保存单元111获取关于所选的初始样本的信息，并将信息发送到呈现单元113。

呈现单元113向用户呈现关于由初始样本选择单元112选择的初始样本的信息、关于由样本选择单元121选择的样本的信息以及关于由推荐项选择单元122选择的推荐项的信息。另外，呈现单元113向正确标签获取单元114提供关于呈现给用户的内容(样本和推荐项)的信息。

评级信息获取单元114经由输入装置(未示出)获取由用户向推荐项分配的评级信息以及由呈现单元113呈现的样本。另外，评级信息获取单元114获取关于当用户向每一个推荐项和样本分配评级信息时执行的用户行为的信息。评级信息获取单元114使得评级信息保存单元115与相应内容(相应推荐项和样本)相关联地保存所获取的评级信息和用户行为信息。

用户确定性因子设置单元116从评级信息保存单元115获取关于推荐项和样本(向其分配了评级信息)的评级信息和用户行为信息。接下来，用户确定性因子设置单元116设置关于每一个推荐项和样本的评级信息的用户确定性因子。用户确定性因子设置单元116使得标签信息保存单元115与相应内容(相应推荐项和样本)相关联地保存设置的用户确定性因子。

评级预测学习单元117从内容信息保存单元111获取已评级内容(已经向其分配了评级信息)的特征值，并从评级信息保存单元115获取已评级内容的评级信息。接下来，评级预测学习单元117基于已评级内容的特征值和评级信息，通过使用规定方法执行用于预测每一个内容的评级的学习。评级预测学习单元117向评级预测/确定性因子计算单元118提供评级预测学习的结果。

评级预测/确定性因子计算单元118从内容信息保存单元111获取未分配评级信息的未评级内容的特征值。接下来，评级预测/确定性因子计算单元118基于评级预测学习单元117执行的评级预测学习的结果和每一个未评级内容的特征值预测每一个未评级内容的评级。另外，评级预测/确定性因子计算单元118计算评级确定性因子，其是指如上所述预测的每一个未评级内容的评级的确定性，其中在下文中将如上所述预测的已预测评级称为已预测评级值。评级预测/确定性因子计算单元118使得评级信息保存单元115与相应内容相关联地存储每一个未评级内容的已预测评级值。另外，评级预测/确定性因子计算单元118向完成判断单元120提供每一个未评级内容的已预测评级值和评级确定性因子。另外，评级预测/确定性因子计算单元118向样本选择单元121提供每一个未评级内容的评级确定性因子。另外，评级预测/确定性因子计算单元118向推荐项选择单元122提供每一个未评级内容的已预测评级值。

用户确定性因子预测单元119从内容信息保存单元111获取每一个已评级内容的特征值，并且还从评级信息保存单元115获取每一个已评级内容的用户确定性因子。接下来，用户确定性因子预测单元119基于每一个已评级内容的用户确定性因子和特征值，通过使用规定方法执行用于预测用户确定性因子的学习。另外，用户确定性因子预测单元119从内容信息保存单元111获取每一个未评级内容的特征值。接下来，用户确定性因子预测单元119基于用户确定性因子预测学习的结果和每一个未评级内容的特征值，预测每一个未评级内容的用户确定性因子。用户确定性因子预测单元119向样本选择单元121提供每一个未评级内容的用户确定性因子(已预测用户确定性因子)。

完成判断单元120判断是否满足评级预测处理的完成条件，并且向采样选择单元121通知判断结果。

样本选择单元121基于评级确定性因子和已预测用户确定性因子，从未评级内容中选择样本。样本选择单元121从内容信息保存单元111获取关于所选择的样本的信息，并向呈现单元113提供该信息。

推荐项选择单元122通过使用规定的推荐算法，选择作为要推荐给用户的内容的推荐项。推荐项选择单元122从内容信息保存单元111获取关于所选择的推荐项的信息，并向呈现单元113提供该信息。

[评级预测处理]

接着，将参照图7中所示的流程图描述信息处理设备101执行的评级预测处理。

在步骤S101，初始样本选择单元112选择初始样本，如图2中步骤S1的处理的情况那样。初始样本选择单元112从内容信息保存单元111获取关于所选择的初始样本的信息，并向呈现单元113提供该信息。

在步骤S102，推荐项选择单元122通过使用规定的推荐算法选择推荐项。这里，推荐项选择单元122使用的推荐算法不限于特定算法，并且可以采用任意的算法。例如，在不存在由预期用户给出的内容评级历史的情况下(例如，在该处理的第一次循环中)，推荐项选择单元122选择具有由另一用户分配的高平均评级值的内容作为推荐项。在存在由预期的用户给出的内容评级历史的情况下，推荐项选择单元122选择具有通过之后描述的评级预测等而给出的高已预测评级值的内容作为推荐项。

在步骤S103，呈现单元113向用户呈现推荐项和样本。如图2中的步骤S2的处理的情况那样，用以向用户呈现推荐项和样本的方法不限于特定方法，并且可以是任意方法。

然而，具有使得评级预测学习更加高效的目的的样本和具有高已预测评级值的推荐项可能不适合在一起。在这种情况下，如果与推荐项的推荐列表独立地呈现样本，则期望存在用户不向样本分配评级信息的可能性。因此，例如，优选地是，通过在推荐列表的最低行中仅插入一个样本，呈现推荐项和样本，以便自然地向样本分配评级信息。

接下来，呈现单元13向评级信息获取单元114提供关于呈现的推荐项和样本的信息。

在步骤S104，评级信息获取单元114获取评级信息。例如，用户经由输入装置(未示出)输入要分配给由呈现单元113所呈现的推荐项和样本的评级信息。评级信息获取单元114获取由用户输入的评级信息。

另外，评级信息获取单元114获取关于当用户向每一个推荐项和样本分配评级信息时执行的用户行为的用户行为信息。例如，评级信息获取单元114获取直到用户决定要分配给每一个推荐项和样本的评级作为用户行为信息为止用户花费的必要时间以及由用户进行的评级变换次数。评级信息获取单元114使得评级信息保存单元115与相应内容(推荐项和样本)相关联地保存所获取的评级信息和用户行为信息。

然而，在这种情况下，所呈现的推荐项和样本可能未分配评级信息，这与第一实施例的情况不同。

在步骤S105，用户确定性因子设置单元116设置关于分配给推荐项和样本的评级信息的用户确定性因子，如图2中步骤S4的处理的情况那样。接下来，用户确定性因子设置单元116使得评级信息保存单元115与相应内容(相应推荐项和样本)相关联地保存设置的用户确定性因子。

在步骤S106，评级预测学习单元117执行评级预测学习。具体地说，评级预测学习单元117从内容信息保存单元111获取每一个已评级内容的特征值，并且从评级信息保存单元115获取每一个已评级内容的评级信息。这里，作为该评级预测学习的目标的已评级内容包括在步骤S104新分配了评级信息的推荐项和样本。接下来，评级预测学习单元117基于每一个已评级内容的特征值和评级信息，通过规定方法执行用于预测每一个已评级内容的评级的学习。评级预测学习单元117向评级预测/确定性因子计算单元118提供评级预测学习的结果。

这里，用于评级预测学习的方法不限于特定方法，并且如第一实施例的标签预测学习的情况那样，可以采用学习特征量(property amount)与标签之间的关系的一般机器学习方法、协作滤波方法等。

例如，在“Robert M.Bell等人，‘Scalable Collaborative Filtering with Jointly Derived Neighborhood Interpolation Weights’，Proceedings of the 2007Seventh IEEE International Conference on Data Mining，ICDM，2007，pp.43-52”以及“P.Resnick等人，‘GroupLens：An Open Architecture for Collaborative Filtering of Netnews’，Proceedings of the 1994 ACM conference on Computer supported cooperative work table of contents，Computer Supported Cooperative Work，1994，pp.175-186”中描述了协作滤波的细节。

在步骤S107，评级预测/确定性因子计算单元118预测内容的评级，并计算已预测评级的确定性因子。具体地说，评级预测/确定性因子计算单元118从内容信息保存单元111获取未评级内容的特征量。接下来，评级预测/确定性因子计算单元118基于评级预测学习单元117执行的评级预测学习的结果和每一个未评级内容的特征量，来预测每一个未评级内容的评级。

另外，评级预测/确定性因子计算单元118计算关于每一个未评级内容的已预测评级的评级确定性因子。例如，如果用于评级预测的算法与用于第一实施例的标签预测的方法类似，则可以如图2中步骤S6的处理的情况那样计算评级预测因子。

在协作滤波方法用于评级预测的情况下，例如，通过使用由下列等式(1)给出的、作为用户之间的相似程度的函数S_uv的加权平均，计算将由用户u分配给项i的已预测评级值rp_ui。这在以上提及的非专利文档“Robert M.Bell等，‘Scalable Collaborative Filtering with Jointly Derived Neighborhood Interpolation Weights’，Proceedings of the 2007 Seventh IEEE International Conference on Data Mining，ICDM，2007，pp.43-52”中描述。

[公式1]

{rp}_{ui} = {ra}_{u} + \frac{\underset{v}{Σ} s_{uv} (r_{vi} - {ra}_{v})}{\underset{v}{Σ} s_{uv}} \cdot \cdot \cdot (1)

其中ra_u是已经由用户u分配的评级的平均值。

在这种情况下，没有明确地获得与评级确定性因子对应的值。特别地，如果等式(1)右手侧的分子S_uv(r_vi-r_av)或(r_vi-r_av)变化(其方差大)，则难以预测评级。在这种情况下，例如，可以将方差的倒数设置为评级确定性因子。

评级预测/确定性因子计算单元118使得评级信息保存单元115与相应内容相关联地保存每一个未评级内容的已预测评级值。另外，评级预测/确定性因子计算单元118向完成判断单元120提供每一个未评级内容的已预测评级值和评级确定性因子。另外，评级预测/确定性因子计算单元118向样本选择单元121提供每一个未评级内容的评级确定性因子。另外，评级预测/确定性因子计算单元118向推荐项选择单元122提供每一个未评级内容的已预测评级值。

在步骤S108，用户确定性因子预测单元119执行用户确定性因子预测学习。具体地说，用户确定性因子预测单元119从内容信息保存单元111获取每一个已评级内容的特征量，并从评级信息保存单元115获取每一个已评级内容的用户确定性因子。这里，作为该用户确定性因子预测学习的目标的已评级内容包括在步骤S104新分配了评级信息的推荐项和样本。接下来，用户确定性因子预测单元119基于每一个已评级内容的用户确定性因子和特征量，通过使用与评级预测学习中使用的方法类似的方法，执行用于预测用户确定性因子的学习。

在步骤S109，用户确定性因子预测单元119如图2中步骤S8的处理的情况那样，预测关于每一个未评级内容的已预测评级值的用户确定性因子。用户确定性因子预测单元119向完成判断单元120和样本选择单元121提供每一个未评级内容的已预测用户确定性因子。

在步骤S110，完成判断单元120判断是否满足完成条件，如图2中步骤S9的处理的情况那样。当满足完成条件时，流程进行到步骤S111。

在步骤S111，样本选择单元121从未评级内容中选择样本。这里，如图2中步骤S10的处理的情况那样，可以优先地选择具有较低评级确定性因子和较高已预测用户确定性因子的内容作为样本。

另外，例如，优选的是，更适合于用户喜好的内容(即，具有较高已预测评级值的内容)被选择为内容推荐中的样本。因此，除了以上提及的条件，可以优先地选择具有较高已预测评级值的内容。例如，可以以内容的分数的降序选择内容作为样本，其中分数由如下公式计算：已预测用户确定性因子×已预测评级值/评级确定性因子。

另外，在存在记录了用户使用的内容的历史(如，观看历史)的情况下，可以优先地选择过去已经由用户使用的内容，同时考虑以上提及的条件。当变得不熟悉用户尚未使用的样本时，用户必须实际地使用样本，或者参考关于样本的附加信息，以便分配评级信息，从而耗费了劳力和时间。因此，存在向样本分配评级信息的低可能性，从而期望可从样本获得的评级信息减少。另一方面，对于用户曾经使用的熟悉样本，用户可以快速地向样本分配评级信息，而不用实际地使用样本或者不用参照关于样本的附加信息。因此，存在向用户分配评级信息的高可能性，从而期望可从样本获得的评级信息增加。结果，通过优先地选择用户曾经使用的内容作为样本，可以高效地收集评级信息，同时还提高了评级预测学习的精度。

接下来，流程返回到步骤S102，并且重复从步骤S102到步骤S111的处理，直到在步骤S10判断出满足完成条件为止。如上所述，执行关于内容的评级预测的主动学习，预测每一个内容的评级，并且基于内容的已预测评级向用户推荐内容。

另一方面，如果在步骤S110判断出满足完成条件，则评级预测处理完成。这里，尽管完成了评级预测处理，但是内容推荐处理继续，并且连续地选择并向用户呈现推荐项。

以这种方式，可以使得用于内容的评级预测的主动学习更加快速地收敛，并且同时提高学习的精度。结果，提高了关于每一个内容的评级的预测精度，可以推荐更适合于用户喜好的内容，并且用户对于服务的满意程度上升。

这里，用于计算推荐项选择单元122中选择推荐项所使用的预测评级值的算法和用于计算评级预测/确定性因子计算单元118中的已预测评级值的算法可以彼此不同。

上述一系列处理可以由硬件或软件执行。如果由软件执行这一系列处理，则在计算机中安装组成软件的程序。这里，可以想到的是，嵌入在专用硬件中的计算机、由于安装在其上的各种程序而能够执行多种功能的通用计算机等可以扮演如以上提及的计算机的角色。

图8是示出了通过使用程序执行上述一系列处理的计算机的硬件配置示例的框图。

在该计算机中，CPU(中央处理单元)301、ROM(只读存储器)302和RAM(随机存取存储器)303经由总线304彼此连接。

另外，输入/输出接口305也连接到总线304。输入单元306、输出单元307、存储器单元308、通信单元309和驱动器310连接到输入/输出接口305。

输入单元306由键盘、鼠标、麦克风等组成。输出单元307由显示器、扬声器等组成。存储器单元308由硬盘、非易失性存储器等组成。通信单元309由网络接口等组成。驱动器310驱动可拆卸介质311，如磁盘、光盘、磁光盘、半导体存储器等。

在如上所述配置的计算机中，CPU 301例如经由输入/输出接口305和总线304将存储器单元308中存储的程序载入到RAM 303中，并执行载入的程序，结果是执行上述一系列处理。

例如，在将要由计算机(CPU 301)执行的程序存储在可拆卸介质311(其为封装介质等)中之后，可以从可拆卸介质311对于计算机提供该程序。可替代地，可以经由有线或无线传输介质(如，局域网、因特网或数字卫星广播)对于计算机提供程序。

在计算机中，在驱动器310上安装可拆卸介质311之后，可以经由输入/输出接口305在存储器单元308中安装程序。可替代地，在经由有线或无线传输介质由通信单元309接收到程序之后，可以将程序安装在存储器单元308中。另外，可以存在另一种方式：程序预先安装在ROM 302或存储器单元308中。

当对任一个程序进行调用等时，可以以该说明书中描述的时间顺序执行、可以并行地执行或者可以同时执行计算机所执行的程序。

本申请包含与于2010年3月25日向日本专利局提交的日本优先权专利申请JP 2010-070493中公开的主题有关的主题，将其全部内容通过引用的方式合并在此。

在该说明书中，系统是指由多个装置组成的设备总体。

本发明的实施例不限于上述那些，并且在不脱离本发明的精神的情况下，可以进行各种改变。

Claims

1.一种信息处理设备，包括：

标签获取装置，用于获取由用户向多个内容当中选择的内容分配的标签；

用户确定性因子设置装置，用于设置用户确定性因子，所述用户确定性因子指的是由用户分配的所述标签的确定性；

标签预测学习装置，用于基于分配了标签的内容的特征值和所述标签来执行标签预测学习以预测标签；

标签预测装置，用于基于所述标签预测学习的结果和所述内容的特征值来预测关于未分配标签的内容的标签，并且用于计算标签确定性因子，所述标签确定性因子指的是已预测标签的确定性；

用户确定性因子预测装置，用于基于分配了标签的内容的特征值和所述用户确定性因子来执行用户确定性因子预测学习以预测用户确定性因子，并且用于基于所述用户确定性因子预测学习的结果和所述内容的特征值来预测关于未分配标签的内容的已预测标签的用户确定性因子；以及

选择装置，用于在未分配标签的内容当中选择下一个要分配标签的内容。

2.根据权利要求1所述的信息处理设备，其中

所述用户确定性因子设置装置基于直到用户决定要分配给内容的标签为止用户花费的必要时间量和由用户进行的标签改变的次数中的至少一个来设置所述用户确定性因子。

3.根据权利要求1所述的信息处理设备，其中

所述用户确定性因子设置装置基于多个用户分配的标签值之中的变化来设置所述用户确定性因子。

4.根据权利要求1所述的信息处理设备，其中

所述选择装置基于如下想法来选择下一个要分配标签的内容：所述标签确定性因子越低且关于内容的已预测标签的所述用户确定性因子越高，则分配给内容的优先级越高。

5.根据权利要求4所述的信息处理设备，其中

如果所述标签是内容的评级，则所述选择装置基于如下想法来选择下一个要分配标签的内容：内容的已预测标签的已预测评级值越高，则新分配给内容的另一优先级越高。

6.根据权利要求5所述的信息处理设备，其中

所述选择装置基于如下想法来选择下一个要分配标签的内容：向已经由用户在过去使用的内容新分配另一优先级。

7.一种信息处理方法，包括如下步骤：

获取由用户向多个内容当中选择的内容分配的标签；

设置用户确定性因子，所述用户确定性因子指的是由用户分配的标签的确定性；

基于分配了标签的内容的特征值和所述标签来执行标签预测学习以预测标签；

基于所述标签预测学习的结果和内容的特征值来预测关于未分配标签的内容的标签，并且计算标签确定性因子，所述标签确定性因子指的是已预测标签的确定性；

基于分配了标签的内容的特征值和所述用户确定性因子来执行用户确定性因子预测学习以预测所述用户确定性因子；

基于所述用户确定性因子预测学习的结果和内容的特征值来预测关于未分配标签的内容的已预测标签的用户确定性因子；以及

在未分配标签的内容当中选择下一个要分配标签的内容。

8.一种使得计算机执行包括如下步骤的处理的程序：

获取由用户向多个内容当中选择的内容分配的标签；

在未分配标签的内容当中选择下一个要分配标签的内容。

9.一种信息处理设备，包括：

标签获取部件，被配置为获取由用户向多个内容当中选择的内容分配的标签；

用户确定性因子设置部件，被配置为设置用户确定性因子，所述用户确定性因子指的是由用户分配的标签的确定性；

标签预测学习部件，被配置为基于分配了标签的内容的特征值和所述标签来执行标签预测学习以预测标签；

标签预测部件，被配置为基于所述标签预测学习的结果和内容的特征值，来预测关于未分配标签的内容的标签，并且被配置为计算标签确定性因子，所述标签确定性因子指的是已预测标签的确定性；

用户确定性因子预测部件，被配置为基于分配了标签的内容的特征值所述和用户确定性因子来执行用户确定性因子预测学习以预测用户确定性因子，并且被配置为基于所述用户确定性因子预测学习的结果和内容的特征值来预测关于未分配标签的内容的已预测标签的用户确定性因子；以及

选择部件，被配置为在未分配标签的内容当中选择下一个要分配标签的内容。