CN100594496C

CN100594496C - 信息处理装置和方法

Info

Publication number: CN100594496C
Application number: CN200680001299A
Authority: CN
Inventors: 山本则行; 馆野启; 斋藤真里; 角田智弘; 宫嵜充弘
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-09-28
Filing date: 2006-09-15
Publication date: 2010-03-17
Anticipated expiration: 2026-09-15
Also published as: EP1835419A4; US8117211B2; JP4378646B2; US20090077132A1; WO2007037139A1; EP1835419A1; JP2007122683A; KR20080045659A; CN101069184A

Abstract

本发明提供一种信息处理装置和方法，它们能够通过CF方法抑制推荐集中于内容的一部分，并且向具有少量历史信息的用户推荐内容。步骤S11检测向其推荐乐曲的用户A和具有最相似历史信息的另一用户X。步骤S12检测用户X拥有而用户A不拥有的乐曲。步骤S13识别每个集群层中乐曲“a”所属的集群。步骤S14提取被分类到全部所识别的集群的共同乐曲作为推荐候选。此外，步骤S15在推荐候选中选择与乐曲“a”具有最相似的集群信息的一个乐曲。将由此选择的乐曲推荐给用户A。例如，本发明可应用于在因特网上构建的内容销售站点。

Description

信息处理装置和方法

技术领域

本发明涉及一种信息处理装置、信息处理方法和程序，尤其涉及一种将内容分类成集群(cluster)、使用将内容分类成的集群管理内容特征、并在检索或推荐内容时使用该内容特征的信息处理装置和信息处理方法。

背景技术

传统上，已经提出了一种用于基于用户的偏好检索和推荐电视节目和乐曲等内容(所谓的内容个性化)的发明(例如，参见专利文献1)。

对于内容个性化，普遍使用被称为协作过滤(collaborativefiltering，CF)的方法和被称为基于内容过滤(content-basedfiltering，CBF)的方法。

CF方法管理每个用户的购买历史，当向用户A推荐内容时，检测与用户A具有相似购买历史的其他用户X，并推荐其他用户X已购买而用户A未购买的内容。例如，因特网上的邮购销售站点采用CF方法。

CBF方法在提取偏好和推荐内容中直接使用由分发端或销售端预先给予内容的元数据。具体来说，计算表示用户偏好的特征矢量与作为候选的每个乐曲的特征矢量之间的距离(余弦相关等)，并推荐计算出的距离短的乐曲作为适合于该用户偏好的乐曲。

[专利文献1]

日本特开2004-194107号公报

发明内容

本发明要解决的问题

上述CF方法有以下不便：

(1)不能将没有用户购买的内容推荐给任何用户。因此，内容的推荐集中在已准备的大量内容中的一部分，而其余的大多数内容没有被推荐。

(2)当向新用户推荐内容时，有关该用户的购买历史的信息很少。因此，不能检测到具有相似历史信息的其他用户，因而不能推荐内容(所谓的冷开始问题)。

(3)通常，内容的数量和用户的数量在增加。在这种情况下，检测具有相似历史信息的其他用户时的操作量也增加，使得不能快速确定要推荐的内容。

鉴于以上考虑做出本发明，本发明防止了CF方法中推荐集中于内容的一部分，并向具有很少历史信息的用户推荐内容。

用于解决问题的手段

根据本发明的一个方面，提供一种用于从一组内容中选择满足预定条件的内容并将该内容呈现给用户的信息处理装置，该信息处理装置包括：内容分类部件，用于将形成该组内容的每个内容分类成与该内容的元数据相对应的每层中的多个第一集群中的一个；保持部件，用于保持表示每个内容与每个内容分类到的层中的第一集群之间的对应关系的数据库；管理部件，用于管理关于用户的内容的历史信息；生成部件，用于基于用户的历史信息和数据库，以第一集群为单位生成表示用户的偏好的偏好信息；选择部件，选择部件，用于基于所述历史信息和/或所述偏好信息来检测与第一用户具有相似的历史信息或偏好信息的第二用户，以基于所述第一用户和所述第二用户的历史信息和/或偏好信息来识别所述第一用户感兴趣的第一集群，并且用于选择被分类到所识别的所述第一集群的内容；其中，当对于所述第一用户之外不能检测到具有相似历史信息的所述第二用户时，所述选择部件基于所述第一用户的所述偏好信息，将所述第一用户的所述历史信息中存在的内容所属的第一集群设置为所述第一用户感兴趣的第一集群，并选择属于所述第一用户感兴趣的第一集群且在所述第一用户的所述历史信息中不存在的内容。

选择部件可以包括：检测部件，用于检测具有与第一用户的历史信息相似的历史信息的第二用户；识别部件，用于识别第一用户的历史信息中不存在而第二用户的历史信息中存在的内容被分类到的第一集群；以及提取部件，用于提取被分类到所识别的第一集群的内容；以及呈现部件可以向第一用户呈现所提取的内容。

根据本发明的一个方面的信息处理装置还包括：分组部件，用于基于偏好信息对用户进行分组；其中，选择部件可以包括：检测部件，用于检测与第一用户属于同一组的第二用户；识别部件，用于识别第一用户的历史信息中不存在而第二用户的历史信息中存在的内容被分类到第一集群；以及提取部件，用于提取被分类到所识别的第一集群的内容；以及呈现部件可以向第一用户呈现所提取的内容。

根据本发明的一个方面的信息处理装置，选择部件可以包括：检测部件，用于检测具有由偏好信息所表示的与第一用户的偏好相似的偏好的第二用户；识别部件，用于基于第一用户的偏好信息和第二用户的偏好信息，识别感兴趣的第一集群；以及提取部件，用于提取被分类到所识别的第一集群的内容；以及呈现部件可以向第一用户呈现所提取的内容。

检测部件可以包括：标准化部件，用于将用户的偏好信息标准化；权重计算部件，用于根据每个用户标准化后的偏好信息计算针对每个用户每层的权重；以及相似程度计算部件，用于根据每层的权重和偏好信息，计算表示用户中的第一用户和用户中的其他用户之间的偏好相似程度的相似程度；以及根据所计算出的相似程度检测具有与第一用户的偏好相似的偏好的第二用户。

根据本发明的一个方面的信息处理装置还可以包括：分组部件，用于基于偏好信息对用户进行分组；其中，选择部件可以包括：检测部件，用于检测与第一用户属于同一组的第二用户；识别部件，用于基于第一用户的偏好信息和第二用户的偏好信息，识别感兴趣的第一集群；以及提取部件，用于提取被分类到所识别的第一集群的内容；并且呈现部件可以向第一用户呈现所提取的内容。

根据本发明的一个方面的信息处理装置还可以包括：设置部件，用于对通过内容分类部件将元数据分类到的每一第一集群设置关键词；以及原因生成部件，用于生成表示使用通过设置部件所设置的关键词呈现内容的原因的原因文本；其中，呈现部件还可以呈现该原因文本。

该信息处理装置还可以包括元数据分类部件，该元数据分类部件用于将内容的元数据分类到多个第二集群中的一个，并将层分配到第二集群；其中，内容分类部件将每个内容分类到每个所分配的层中的多个第一集群中的一个。

该信息处理装置中的选择部件可以选择被分类到全部层中的全部第一集群当中由偏好信息表示的最大数量的第一集群的内容。

根据本发明的一个方面，提供了一种用于从一组内容选择满足预定条件的内容并将该内容呈现给用户的信息处理装置的信息处理方法，该信息处理方法包括以下步骤：将形成该组内容的每个内容分类到与该内容的元数据相对应的每层中的多个集群中的一个；保持表示每个内容与将每个内容分类到的层中的集群之间的对应关系的数据库；管理关于用户的内容的历史信息；基于用户的历史信息和数据库，以第一集群为单位生成表示用户的偏好的偏好信息；基于历史信息和/或偏好信息来检测与第一用户具有相似的历史信息或偏好信息的第二用户，以基于所述第一用户和所述第二用户的历史信息和/或偏好信息来识别所述第一用户感兴趣的集群，并选择被分类成所识别的集群的内容；以及呈现所选择的内容；其中，当对于所述第一用户之外不能检测到具有相似历史信息的所述第二用户时，基于所述第一用户的所述偏好信息，将所述第一用户的所述历史信息中存在的内容所属的第一集群设置为所述第一用户感兴趣的第一集群，并选择属于所述第一用户感兴趣的第一集群且在所述第一用户的所述历史信息中不存在的内容。

根据本发明的一个方面，提供了一种用于从一组内容选择满足预定条件的内容并向用户推荐该内容的程序，该程序使计算机进行包括以下步骤的处理：将形成该组内容的每个内容分类到与该内容的元数据相对应的每层中的多个集群中的一个；保持表示每个内容与将每个内容分类到的层中的集群之间的对应关系的数据库；管理关于用户的内容的历史信息；基于历史信息识别感兴趣的集群，并选择被分类到所识别的集群的内容；以及呈现所选择的内容。

本发明的一方面，将形成该组内容的每个内容分类成到与该内容的元数据相对应的每层中的多个集群中的一个。然后，保持表示每个内容与每个内容被分类到的层中的集群之间的对应关系的数据库。另外，管理关于用户的内容的历史信息。然后，基于历史信息识别感兴趣的集群，选择被分类到所识别的集群的内容，并呈现所选择的内容。

如上所述，根据本发明的一方面，可以通过CF方法向用户推荐内容。

另外，根据本发明的一方面，可以防止推荐集中于全部内容的一部分。

而且，根据本发明的一方面，甚至可以向具有少量历史信息的用户推荐内容。

附图说明

图1是示出应用本发明的推荐系统的结构的例子的框图。

图2是表示将乐曲的元数据分类成的集群和集群层的概念的图。

图3是示出乐曲-集群对应表的例子的图。

图4是示出集群-乐曲对应表的例子的图。

图5A和图5B是示出用户的偏好矢量的例子的图。

图6是辅助解释离线时的预处理的流程图。

图7是辅助解释第一推荐处理的流程图。

图8是辅助解释第二和第三推荐处理的流程图；

图9是辅助解释第四推荐处理的流程图。

图10是辅助解释第五和第六推荐处理的流程图。

图11是辅助解释第七推荐处理的流程图。

图12是示出通用个人计算机的结构的例子的框图。

图13是示出根据本发明实施例的推荐系统的结构的另一例子的框图。

图14是辅助解释离线时的预处理的另一例子的流程图。

图15是示出乐曲的软聚类后的元数据的例子的图。

图16是示出乐曲的元数据的例子的图。

图17是示出聚类后的乐曲的元数据的例子的图。

图18是示出相似用户检测单元的结构的例子的框图。

图19是辅助解释用于检测具有相似偏好的用户X的处理的流程图。

图20是示出偏好矢量的例子的图。

图21是示出标准化的偏好矢量的例子的图。

图22是示出权重的例子的图。

图23是示出在不进行加权的情况下计算出的相似程度的例子的图。

图24是示出在进行加权的情况下计算出的相似程度的例子的图。

附图标记的说明

1推荐系统、11乐曲DB、12聚类单元、13关键词设置单元、14聚类DB、15集群-乐曲对应表、16乐曲-集群对应表、17用户历史信息DB、18推荐候选选择单元、19偏好矢量生成单元、20相似用户检测单元、21用户分组单元、22差异检测单元、23推荐集群确定单元、24提取单元、25乐曲选择单元、26新乐曲判断单元、27选择原因生成单元、28呈现单元、100个人计算机、101CPU、111记录介质、100元数据聚类单元、202乐曲聚类单元、203相似用户检测单元、231标准化单元、232权重计算单元、233相似程度计算单元

具体实施方式

以下参照附图详细说明应用本发明的具体实施例。

图1示出根据本发明实施例的推荐系统的结构的例子。例如，在因特网上建立的乐曲数据销售站点中，推荐系统1管理用户历史信息(关于乐曲数据的购买、试听、检索和拥有等的信息)，通过使用CF方法来选择要推荐的乐曲，并将乐曲呈现给用户。顺便提及，推荐系统1还可应用于销售例如电视节目、电影和书籍等乐曲以外的内容的销售站点。

推荐系统1包括：乐曲DB(DB)11，其中记录有向用户推荐和销售的众多乐曲数据(以下也简称为乐曲)的元数据；聚类单元12，用于基于记录在乐曲DB11中的乐曲的元数据来聚类乐曲并生成乐曲的集群信息；关键词设置单元13，用于设置表示每个集群层和集群层中每个集群的特征的关键词；以及聚类DB(DB)14，用于保持乐曲的聚类结果。

聚类DB14保持作为聚类结果的用于示出属于每个集群的乐曲的集群-乐曲对应表15和用于示出属于每个乐曲的集群的乐曲-集群对应表16。

推荐系统1还包括：用户历史信息数据库(DB)17，用于管理每个用户的历史信息；推荐候选选择单元18，用于基于用户信息选择多个乐曲作为推荐候选；乐曲选择单元25，用于从所选择的多个乐曲中选择一个乐曲；新乐曲判断单元26，用于判断所选择的乐曲对于向其推荐该乐曲的用户是否是新的；选择原因生成单元27，用于在将所选择的乐曲呈现给用户时生成推荐原因文本；以及呈现单元28，用于向用户呈现所选择的乐曲和推荐原因文本。

推荐候选选择单元18包括偏好矢量生成单元19、用户分组单元20、相似用户检测单元21、差异检测单元22、推荐集群确定单元23、以及提取单元24。

象CDDB(CD数据库)和Music Navi等作为因特网上提供记录在音乐CD上的乐曲的元数据的数据服务器一样，乐曲DB11保持要推荐和销售的乐曲的元数据。

聚类单元12基于乐曲的元数据的每一项(艺术家名字、类型、唱片集、艺术家评论、乐曲评论、标题、音乐速度、拍子、以及节奏等)或它们(音乐速度、拍子和节奏等)的组合，为乐曲DB11中的全部乐曲创建图2所示的集群层(第一到第n层)，并将乐曲分类到每个集群层中所设置的多个集群中的一个或多个集群(聚类)。

尽管以上以乐曲作为例子进行了说明，但是也使用许多元数据将艺术家和唱片集类似地聚类到多个层。对于乐曲推荐、艺术家推荐和唱片集推荐，分别使用乐曲的多层集群、艺术家的多层集群和唱片集的多层集群。

尽管对于聚类可以使用任何方法，但是为每个集群层选择最佳聚类方法和距离测量。例如，当元数据的实际信息是音乐速度等数字属性时，按照原样使用实际信息，然而当实际信息是标题等名称属性时，使用主成分分析的定量方法等将实际信息转换成数值。定义欧几里德距离等距离测量。然后进行聚类。典型的聚类方法包括K均值(K-means)方法、层次聚类(hierarchical clustering)方法(组平均(group average)方法、最远邻居(furthest neighbor)方法和Ward方法)、以及软聚类(softclustering)方法等。

此时，优选进行反映偏好距离的聚类(例如，约束聚类(constrained clustering))。为此，通过初步学习做出正确响应的部分集合(根据偏好等的一组近实际信息和一组远实际信息)，并使用适合于此的数值表达式、距离和聚类方法。而且，优选选择增强所形成的每个集群层的独立性的聚类方法(即，具有不同特征的聚类方法)。

顺便提及，可以将一条实际信息分类到同一集群层中的多个集群中。假定已知同一集群层中存在的集群间的距离(表示相似程度)。后面将说明该聚类方法。然后生成集群信息，并将集群信息输出到聚类DB14，该集群信息由将元数据的每一项的实际信息分类到的集群的集群ID(图2中的CL11等)构成，作为代替元数据表示乐曲的特征的信息。

顺便提及，当不存在适合于分类的集群时，可以设置新的集群。每个集群具有任意大小，并可以包括多条实际信息。顺便提及，可以设置仅将单条实际信息分类到的集群。在这种情况下，可以使用单条可分类的实际信息的ID(艺术家ID、唱片集ID、或标题ID)作为该集群的集群ID。

聚类DB14基于聚类单元12生成的每个乐曲的集群信息，生成集群-乐曲对应表15和乐曲-集群对应表16，并保持集群-乐曲对应表15和乐曲-集群对应表16。聚类DB14还保持通过关键词设置单元13设置给每个集群层和每个集群的关键词。

图3示出乐曲-集群对应表16的例子。例如，图3示出乐曲ID＝ABC123的乐曲的集群信息为(CL12、CL21、CL35、CL47、CL52、...、以及CLn2)。例如，图3还示出乐曲ID＝CTH863的乐曲的集群信息为集群ID(CL11、CL25、CL31、CL42、CL53、...、以及CLn1)。

图4示出与图3所示的乐曲-集群对应表16相对应的集群-乐曲对应表15的例子。例如，图4示出乐曲ID＝CTH863对应于集群ID＝CL11。例如，图4还示出乐曲ID＝ABC123对应于集群ID＝CL21。例如，图4还示出乐曲ID＝XYZ567对应于集群ID＝CL32。

顺便提及，每一次向乐曲DB11添加新的乐曲的元数据时，必须进行聚类单元12、关键词设置单元13和聚类DB14的处理。

返回图1，用户历史信息DB17保持表示每个用户在销售站点上购买、试听或检索过的乐曲、或声称要在某销售站点购买和已拥有的乐曲的历史信息。用户历史信息DB17还保持每个用户的偏好矢量，通过偏好矢量生成单元19生成该偏好矢量。此外，用户历史信息DB17保持用户分组单元20对用户的分组结果，即，表示每个用户属于哪一用户组的信息。

偏好矢量生成单元19基于在用户历史信息DB17中保持的每个用户的历史信息，以全部集群中的每一个作为一个维度，为每个用户生成多维偏好矢量。偏好矢量生成单元19将该偏好矢量输出到用户历史信息DB17。具体地，针对包括在用户的历史信息中的每个乐曲，参考聚类DB14中的乐曲-集群对应表16，对偏好矢量的对应于乐曲所属集群的维度添加预定值。在用户历史信息DB17中管理所生成的每个用户的偏好矢量。当通过购买乐曲等更新用户的历史信息时，也更新偏好矢量。

为了便于说明，假定如图5A和5B所示，作为全部集群，在第一层中仅存在三个集群CL11、CL12和CL13，第二层中存在四个集群CL21、CL22、CL23和CL24，第三层中存在三个集群CL31、CL32和CL33，而第四层中存在三个集群CL41、CL42和CL43。在这种情况下，偏好矢量具有13个维度。

例如，当在用户A的历史信息中记录有购买两个乐曲，并且第一个乐曲所属的集群ID为CL11、CL22、CL33和CL41时，与这些集群ID相对应的每一维度值增加1。当第二个乐曲所属的集群ID为CL12、CL24、CL32和CL43时，与这些集群ID相对应的每一维度值增加1。因而，生成用户A的偏好矢量(1、1、0、0、1、0、1、0、1、1、1、0、1)。

例如，当在用户X的历史信息中记录有购买三个乐曲，并且第一个乐曲所属的集群ID为CL11、CL22、CL32和CL43时，与这些集群ID相对应的每一维度值增加1。当第二个乐曲所属的集群ID为CL12、CL22、CL33和CL42时，与这些集群ID相对应的每一维度值增加1。当第三个乐曲所属的集群ID为CL13、CL24、CL33和CL41时，与这些集群ID相对应的每一维度值增加1。因而，生成用户X的偏好矢量(1、1、1、0、2、0、1、0、1、2、1、1、1)。

顺便提及，可以根据历史信息的类型(即，购买、试听、检索或拥有)改变添加给每一维度的值。例如，对于购买或拥有可以添加1，对于试听可以添加0.5，而对于检索可以添加0.3。

返回图1，用户分组单元20基于保持在用户历史信息DB17中的用户的偏好矢量之间的相似性对全部用户进行分组。然而，为了易于进行用于确定多维偏好矢量之间的相似性的处理，将每个用户的偏好矢量的每一维度的值二值化。也就是说，当每一维度的值等于或大于1时，以1代替该值，而当每一维度的值为0时，该值保持为0。当如此将偏好矢量的每一维度的值二值化时，与未进行二值化的情况相比较，可以减少相似性确定所需的计算量。因此可以容易地进行分组。在用户历史信息DB17中管理分组结果。

相似用户检测单元21通过比较保持在用户历史信息DB17中的每个用户的历史信息来检测与向其推荐乐曲的用户具有相似历史信息的其他用户。另外，相似用户检测单元21通过比较保持在用户历史信息DB17中的每个用户的历史信息来检测与向其推荐乐曲的用户具有相似的偏好矢量的其他用户。差异检测单元22基于保持在用户历史信息DB17中的每个用户的历史信息来检测向其推荐乐曲的用户与相似用户检测单元21检测到的其他用户之间的历史信息中的差异。推荐集群确定单元23基于向其推荐乐曲的用户和相似用户检测单元21检测到的其他用户的偏好矢量之间的差异来确定推荐集群。提取单元24基于相似用户检测单元21到推荐集群确定单元23和聚类DB14的处理结果提取乐曲，作为推荐候选。

乐曲选择单元25根据预定条件从多个所提取的乐曲中选择一个乐曲。例如，乐曲选择单元25选择一个属于较大数量的推荐集群的乐曲，选择一个属于具有预先设定的高优先级的集群层中的推荐集群的乐曲，或随机选择一个乐曲。乐曲选择单元25将选择结果输出到新乐曲判断单元26和选择原因生成单元27。根据向其推荐乐曲的用户的偏好矢量，当偏好矢量与所选择的乐曲所属的集群之间的重叠程度为预定率(例如，30％)或更高时，新乐曲判断单元26判断为不存在新乐曲。当重叠程度低于预定率时，新乐曲判断单元26判断为存在新乐曲。新乐曲判断单元26将判断结果输出到选择原因生成单元27。

选择原因生成单元27从聚类DB14获得对应于所选择的乐曲所属的集群层或集群的关键词，并使用所获得的关键词等生成表示选择原因的选择原因文本。另外，选择原因生成单元27还基于来自新乐曲判断单元26的判断结果，通过例如包括针对新的乐曲的“意外”等词、或针对非新的乐曲的“普通”或“常见”等词来生成选择原因文本。然后，选择原因生成单元27将所生成的选择原因文本和所选择的乐曲的乐曲ID一起输出到呈现单元28。

顺便提及，可以按照原样引用所选择的乐曲的评论文本作为选择原因文本，也可以使用从所选择的乐曲的评论文本中提取的词来生成选择原因文本。顺便提及，可以将Tf/idf方法应用于从评论文本中提取选择原因文本中所使用的词。

呈现单元28从乐曲DB获得关于所选择的乐曲的信息，并将该信息和所生成的选择原因文本一起呈现给用户端。

接着说明推荐系统1的操作。首先，参照图6的流程图说明作为推荐乐曲的处理的准备的离线时的预处理。

在步骤S1，聚类单元12针对乐曲的元数据的每一项将乐曲DB11中的全部乐曲分类到集群层(第一到第n层)中的一个，并将每一项的实际信息分类到分类后的集群层中所设置的多个集群中的一个(聚类)。然后，聚类单元12生成集群信息作为代替元数据表示乐曲的特征的信息，该集群信息由将元数据的每一项的实际信息分类到的集群的集群ID构成。聚类单元12将集群信息输出到聚类DB14。顺便提及，可以省略对已聚类的乐曲的聚类，而仅对未聚类的乐曲进行聚类。聚类DB14基于通过聚类单元12生成的每个乐曲的集群信息，生成集群-乐曲对应表15和乐曲-集群对应表16。

在步骤S2，推荐候选选择单元18中的偏好矢量生成单元19基于保持在用户历史信息DB17中的每个用户的历史信息，生成每个用户的偏好矢量。偏好矢量生成单元19将偏好矢量输出到用户历史信息DB17。在步骤S3，用户分组单元20基于保持在用户历史信息DB17中的每个用户的偏好矢量的相似性，对所有用户进行分组。然而，为了易于进行用于判断多维偏好矢量之间的相似性的处理，将每个用户的偏好矢量的每一维度的值二值化。然后，将分组结果输出到用户历史信息DB17。经过前述处理后，结束离线时的预处理。

作为预处理，通过如此聚类保持在乐曲DB11中的全部乐曲，生成每个用户的偏好矢量，并对所有用户进行分组，可以快捷地进行后述的第一到第七推荐处理。顺便提及，第一到第七推荐处理中的某些不使用用户组信息。因此，当仅进行不使用用户组信息的推荐处理时，可以省略步骤S3的处理。

接着参照图7的流程图说明第一推荐处理。以下，将向其推荐乐曲的用户描述为用户A。例如，当用户A访问销售站点时，开始该处理。

在步骤S11，相似用户检测单元21比较保持在用户历史信息DB17中的用户A的历史信息和其他用户的历史信息，从而检测具有与用户A的历史信息最相似的历史信息的其他用户X。在步骤S12，差异检测单元22基于保持在用户历史信息DB17中的用户A和用户X的历史信息，检测用户X具有(过去购买了或拥有的)而用户A不具有的乐曲。顺便提及，当存在多个满足该条件的乐曲时，例如，随机选择乐曲中的一个。将所选择的乐曲设置为乐曲a。

在步骤S13，推荐集群确定单元23参考聚类DB14中的乐曲-集群对应表16，以识别该乐曲所属的每个集群层中的集群。在步骤S14，提取单元24参考聚类DB14中的集群-乐曲对应表15，以提取被分类到步骤S13的处理中识别出的所有集群的共同乐曲。将该步骤中提取的乐曲设置为推荐候选。可能存在多个推荐候选。顺便提及，当不存在被分类到步骤S13的处理中识别出的所有集群的共同乐曲时，提取被分类到步骤S13的处理中识别出的集群中尽可能多的集群的共同乐曲，并将其设置为推荐候选。

在步骤S15，乐曲选择单元25选择作为推荐候选的乐曲中具有与在步骤S12中检测到的乐曲a的集群信息最相似的集群信息的乐曲。乐曲选择单元25将选择结果输出到新乐曲判断单元26和选择原因生成单元27。在步骤S16，新乐曲判断单元26基于用户A的偏好矢量和所选择的乐曲所属的集群，判断是否存在新乐曲。新乐曲判断单元26将判断结果输出到选择原因生成单元27。选择原因生成单元27从聚类DB14获得与所选择的乐曲所属的集群层或集群相对应的关键词，并使用所获得的关键词等生成表示选择原因的选择原因文本。另外，选择原因生成单元27还基于来自新乐曲判断单元26的判断结果生成选择原因文本。然后，选择原因生成单元27将所生成的选择原因文本和所选择的乐曲的乐曲ID一起输出到呈现单元28。在步骤S17，呈现单元28从乐曲DB获得关于所选择的乐曲的信息，并将该信息和所生成的选择原因文本一起呈现到用户端。经过前述处理后，结束第一推荐处理。

接着参照图8的流程图说明第二和第三推荐处理。首先说明第二推荐处理。例如，当用户A访问销售站点时，开始该处理。

在步骤S21，相似用户检测单元21比较保持在用户历史信息DB17中的用户A的偏好矢量和其他用户的偏好矢量，从而检测具有与用户A的偏好矢量最相似的偏好矢量的其他用户X。顺便提及，例如，通过计算这两个偏好矢量之间的余弦相关值来判断用户A的偏好矢量与其他用户的偏好矢量之间的相似性。

在步骤S22，差异检测单元22检测在用户A的偏好矢量中为0值而在用户X的偏好矢量中不为0值的偏好矢量维度，并将与检测到的维度相对应的集群设置为推荐集群。

例如，当用户A的偏好矢量为图5A所示的(1、1、0、0、1、0、1、0、1、1、1、0、1)，而用户X的偏好矢量为图5B所示的(1、1、1、0、2、0、1、0、1、2、1、1、1)时，将集群CL13和CL42设置为推荐集群，如图5B中的阴影线所示。

在步骤S23，参考用户历史信息DB17和聚类DB14中的集群-乐曲对应表15，提取单元24从分类到推荐集群的全部乐曲中提取用户X具有而用户A不具有的乐曲。提取单元24将所提取的乐曲设置为推荐候选。

在步骤S24，乐曲选择单元25通过以下三种方法中的一种或作为这三种方法的组合的方法，从作为推荐候选的乐曲中选择一个乐曲，然后将选择结果输出到新乐曲判断单元26和选择原因生成单元27。第一种方法是选择属于较大数量的推荐集群的共同乐曲。第二种方法是预先区分集群层的优先级，并选择被分类到属于具有较高优先级的集群层的推荐集群的乐曲。第三种方法是随机选择。

在步骤S25，新乐曲判断单元26基于用户A的偏好矢量和所选择的乐曲所属的集群，判断是否存在新乐曲。新乐曲判断单元26将判断结果输出到选择原因生成单元27。选择原因生成单元27从聚类DB14获得与所选择的乐曲所属的集群层或集群相对应的关键词，并使用所获得的关键词等生成表示选择原因的选择原因文本。另外，选择原因生成单元27还基于来自新乐曲判断单元26的判断结果，生成选择原因文本。然后，选择原因生成单元27将所生成的选择原因文本和所选择的乐曲的乐曲ID一起输出到呈现单元28。在步骤S26，呈现单元28从乐曲DB获得关于所选择的乐曲的信息，并将该信息和所生成的选择原因文本一起呈现到用户端。经过前述处理后，结束第二推荐处理。

接着说明第三推荐处理。在上述第二推荐处理的步骤S23的处理中，第三推荐处理从分类到推荐集群的全部乐曲中提取用户A不具有的乐曲，并将所提取的乐曲设置为推荐候选。也就是说，可以将用户X不具有的乐曲设置为推荐候选。其它处理与第二推荐处理中的相同，因此省略对其说明。

接着参照图9的流程图说明第四推荐处理。例如，当用户A访问销售站点时，开始该处理。

在步骤S41，基于保持在用户历史信息DB17中的用户A的组信息，相似用户检测单元21随机确定与用户A属于同一组的其他用户X。在步骤S42，差异检测单元22基于保持在用户历史信息DB17中的用户A和用户X的历史信息，检测用户X具有而用户A不具有的乐曲。顺便提及，当存在多个满足该条件的乐曲时，例如，随机选择乐曲中的一个。将检测到的乐曲设置为乐曲a。

在步骤S43，推荐集群确定单元23参考聚类DB14中的乐曲-集群对应表16，以识别乐曲a所属的每个集群层中的集群。在步骤S44，提取单元24参考聚类DB14中的集群-乐曲对应表15，以提取分类到步骤S43的处理中识别出的所有集群的共同乐曲。将在该步骤中提取的乐曲设置为推荐候选。可能存在多个推荐候选。顺便提及，当不存在分类到步骤S43的处理中识别出的所有集群的共同乐曲时，提取分类到在步骤S43的处理中识别出的集群中尽可能多的集群的共同乐曲，并将其设置为推荐候选。

在步骤S45，乐曲选择单元25选择作为推荐候选的乐曲中具有最相似于在步骤S42中检测到的乐曲a的集群信息的集群信息的一个乐曲。乐曲选择单元25将选择结果输出到新乐曲判断单元26和选择原因生成单元27。在步骤S46，新乐曲判断单元26基于用户A的偏好矢量和所选择的乐曲所属的集群，判断是否存在新乐曲。新乐曲判断单元26将判断结果输出到选择原因生成单元27。选择原因生成单元27从聚类DB14获得与所选择的乐曲所属的集群层或集群相对应的关键词，并使用所获得的关键词等生成表示选择原因的选择原因文本。另外，选择原因生成单元27还基于来自新乐曲判断单元26的判断结果生成选择原因文本。然后，选择原因生成单元27将所生成的选择原因文本和所选择的乐曲的乐曲ID一起输出到呈现单元28。在步骤S47，呈现单元28从乐曲DB获得关于所选择的乐曲的信息，并将该信息和所生成的选择原因文本一起呈现到用户端。经过前述处理后，结束第四推荐处理。

在第四推荐处理中，使用通过离线时的预处理分组的用户的组信息，因此，可以快速确定具有与用户A的历史相似的历史的用户X。

接着参考图10的流程图说明第五和第六推荐处理。首先说明第五推荐处理。例如，当用户A访问销售站点时，开始该处理。

在步骤S51，基于保持在用户历史信息DB17中的用户A的组信息，相似用户检测单元21随机确定与用户A属于同一组的其他用户X。

在步骤S52，差异检测单元22检测在用户A的偏好矢量中为0值而在用户X的偏好矢量中不为0值的偏好矢量维度，并将与检测到的维度相对应的集群设置为推荐集群。

在步骤S53，参考用户历史信息DB17和聚类DB14中的集群-乐曲对应表15，提取单元24从分类到推荐集群的全部乐曲中提取用户X具有而用户A不具有的乐曲。提取单元24将所提取的乐曲设置为推荐候选。

在步骤S54，乐曲选择单元25通过以下三种方法中的一种或作为这三种方法的组合的方法，从作为推荐候选的乐曲中选择一个乐曲，然后将选择结果输出到新乐曲判断单元26和选择原因生成单元27。第一种方法是选择属于较大数量的推荐集群的共同乐曲。第二种方法是预先区分集群层的优先级，并选择分类到属于具有较高优先级的集群层的推荐集群的乐曲。第三种方法是随机选择。

在步骤S55，新乐曲判断单元26基于用户A的偏好矢量和所选择的乐曲所属的集群判断是否存在新乐曲。新乐曲判断单元26将判断结果输出到选择原因生成单元27。选择原因生成单元27从聚类DB14获得与所选择的乐曲所属的集群层或集群相对应的关键词，并使用所获得的关键词等生成表示选择原因的选择原因文本。另外，选择原因生成单元27还基于来自新乐曲判断单元26的判断结果生成选择原因文本。然后，选择原因生成单元27将所生成的选择原因文本和所选择的乐曲的乐曲ID一起输出到呈现单元28。在步骤S56，呈现单元28从乐曲DB获得关于所选择的乐曲的信息，并将该信息与所生成的选择原因文本一起呈现到用户端。经过前述处理后，结束第五推荐处理。

接着说明第六推荐处理。在上述第五推荐处理的步骤S53的处理中，第六推荐处理从分类到推荐集群的全部乐曲中提取用户A不具有的乐曲，并将所提取的乐曲设置为推荐候选。也就是说，可以将用户X不具有的乐曲设置为推荐候选。其它处理与第五推荐处理中的相同，因此省略对其说明。

在第五和第六推荐处理中，使用通过离线时的预处理分组的用户的组信息，因此可以快速确定具有与用户A的历史相似的历史的用户X。

接着参照图11的流程图说明第七推荐处理。首先说明第七推荐处理。该处理适合于存在非常少量的用户A的历史信息的情况和存在小数量其他用户的情况等，例如，当用户A访问销售站点时，开始该处理。

在步骤S61，差异检测单元22在用户A的偏好矢量的维度中检测其值等于或大于预定值的维度，并将与该维度相对应的集群设置为推荐集群。

在步骤S62，参考用户历史信息DB17和聚类DB14中的集群-乐曲对应表15，提取单元24从分类到推荐集群的全部乐曲中提取用户A不具有的乐曲。提取单元24将所提取的乐曲设置为推荐候选。

在步骤S63，乐曲选择单元25在作为推荐候选的乐曲中选择属于最大数量推荐集群的一个乐曲，然后将选择结果输出到新乐曲判断单元26和选择原因生成单元27。顺便提及，当存在多个属于最大数量推荐集群的乐曲时，例如，从乐曲中随机选择一个乐曲。

在步骤S64，新乐曲判断单元26基于用户A的偏好矢量和所选择的乐曲所属的集群，判断是否存在新乐曲。新乐曲判断单元26将判断结果输出到选择原因生成单元27。选择原因生成单元27从聚类DB14获得与所选择的乐曲所属的集群层或集群相对应的关键词，并使用所获得的关键词等生成表示选择原因的选择原因文本。另外，选择原因生成单元27还基于来自新乐曲判断单元26的判断结果生成选择原因文本。然后，选择原因生成单元27将所生成的选择原因文本和所选择的乐曲的乐曲ID一起输出到呈现单元28。在步骤S65，呈现单元28从乐曲DB获得关于所选择的乐曲的信息，并将该信息和所生成的选择原因文本一起呈现到用户端。经过前述处理后，结束第七推荐处理。

根据上述第一到第七推荐处理，以每个集群作为一个维度，以偏好矢量代替用户的历史信息，并且应用CF方法。因此可以防止推荐给用户A的乐曲集中于乐曲DB11中的全部乐曲中的一部分。还可以向具有少量历史信息的用户推荐乐曲，因此避免了所谓的冷开始问题。此外，还可以向用户A呈现选择所推荐的乐曲的原因，并且，例如，可以告知用户A所推荐的乐曲对于用户A是否是新的。

应该注意，本发明不仅可以应用于推荐乐曲的情况，还可应用于销售例如电视节目、电影和书籍等乐曲以外的内容的销售站点。

不仅可以通过硬件，而且还可以通过软件来实现上述系列处理。当通过软件实现该系列处理时，将构成该软件的程序从记录介质安装到专用设备所包含的计算机上或安装到例如如图12所配置的可通过将各种程序安装在其上来执行各种功能的通用个人计算机。

个人计算机100包括CPU(中央处理单元)101。CPU101通过总线104与输入-输出接口105连接。总线104与ROM(只读存储器)102和RAM(随机存取存储器)103连接。

输入-输出接口105与以下单元连接：输入单元106，其包括键盘和鼠标等输入装置，用户向其输入操作命令；输出单元107，其包括CRT(阴极射线管)和LCD(液晶显示器)等显示器，用于屏幕显示；存储单元108，其包括用于存储程序和各种数据的硬盘驱动器等；以及通信单元109，其包括调制解调器和LAN(局域网)适配器等，通信单元109通过以因特网为代表的网络进行通信处理。输入-输出接口105还与用于从记录介质111读取数据和将数据写到记录介质111的驱动器110连接，记录介质111有磁盘(包括软盘)、光盘(包括CD-ROM(Compact Disc-ReadOnly Memory，紧凑型盘-只读存储器)和DVD(Digital VersatileDisc，数字通用盘))、磁光盘(包括MD(Mini Disc，小型盘))、或半导体存储器等。

以以下状态将用于使个人计算机100执行上述系列处理的程序提供给个人计算机100：该程序存储在记录介质111上，通过驱动器110读取，并安装在存储单元108中所包括的硬盘驱动器上。根据与输入到输入单元106的用户命令相对应的CPU101的指令，从存储单元108将安装在存储单元108中的程序加载到RAM 103中，并执行该程序。

图13示出根据本发明实施例的推荐系统1的结构的另一例子的框图。在图13中，与图1所示相同的部分以相同附图标记来表示，并省略对其说明。

图13所示的推荐系统1包括乐曲DB11、关键词设置单元13、聚类DB14、用户历史信息DB17、推荐候选选择单元18、乐曲选择单元25、新乐曲判断单元26、选择原因生成单元27、呈现单元28、元数据聚类单元201、以及乐曲聚类单元202。

元数据聚类单元201对记录在乐曲DB11中的每个集群的元数据进行聚类。也就是说，元数据聚类单元201将作为内容的乐曲的元数据分类到多个集群中的一个，并将层分配到集群。

元数据聚类单元201将对每个乐曲的元数据的聚类的结果提供给乐曲聚类单元202。

基于元数据聚类单元201对每个乐曲的元数据的聚类结果，象聚类单元12一样，乐曲聚类单元202对每个乐曲进行聚类，并生成每个乐曲的集群信息。也就是说，乐曲聚类单元202根据每个乐曲的聚类结果生成集群信息。乐曲聚类单元202将集群信息输出到聚类DB14。

图13所示的推荐系统1中的推荐候选选择单元18包括偏好矢量生成单元19、用户分组单元20、差异检测单元22、推荐集群确定单元23、提取单元24、以及相似用户检测单元203。

相似用户检测单元203通过比较保持在用户历史信息DB17中的每个用户的偏好矢量来检测具有与向其推荐乐曲的用户相似的偏好矢量的其他用户。更具体地，相似用户检测单元203将作为用户偏好信息的例子的偏好矢量标准化，根据每个用户的标准偏好矢量针对每个用户计算每层的权重，根据每层的权重和偏好矢量计算表示用户之间的偏好相似程度的相似程度，并检测与第一用户具有相似偏好的第二用户。

接着参照图14的流程图说明作为图13所示的推荐系统1中推荐乐曲处理的准备的离线时的预处理的另一例子。

在步骤S201，元数据聚类单元201从乐曲DB11获得乐曲的元数据，并压缩所获得的元数据的维度。例如，在步骤S201，元数据聚类单元201通过LSA(the latent semantic analysis，潜在语义分析)、PLSA(the probabilistic latent semantic analysis，概率潜在语义分析)、或量化方法III(quantification method III)等方法来压缩从乐曲DB11获得的乐曲的元数据的维度。

顺便提及，在步骤S201，元数据聚类单元201可以将乐曲的元数据矢量化。

在步骤S202，元数据聚类单元201对每个乐曲的元数据聚类。例如，在步骤S202，元数据聚类单元201对每个乐曲的元数据进行软聚类。

更具体地，例如，如图15中所示，元数据聚类单元201对每个乐曲的元数据进行软聚类，使得对于每层内各集群的项目权重的总和为1。

例如，属于由乐曲ID ABC123识别的乐曲的元数据的第一层中的第一集群、第二集群、第三集群和第四集群的权重分别为0.0、0.8、0.0和0.2。属于由乐曲ID ABC123识别的乐曲的元数据的第二层中的第五集群、第六集群、第七集群和第八集群的权重分别为0.4、0.6、0.0和0.0。属于由乐曲ID ABC123识别的乐曲的元数据的第三层中的第九集群、第十集群和第十一集群的权重分别为0.0、0.0和1.0。属于由乐曲ID ABC123识别的乐曲的元数据的第n层中的四个集群的权重分别为1.0、0.0、0.0和0.0。

例如，属于由乐曲ID CTH863识别的乐曲的元数据的第一层中的第一集群、第二集群、第三集群和第四集群的权重分别为1.0、0.0、0.0和0.0。属于由乐曲ID CTH863识别的乐曲的元数据的第二层中的第五集群、第六集群、第七集群和第八集群的权重分别为0.0、0.5、0.5和0.0。属于由乐曲ID CTH863识别的乐曲的元数据的第三层中的第九集群、第十集群和第十一集群的权重分别为0.7、0.3和0.0。属于由乐曲ID CTH863识别的乐曲的元数据的第n层中的四个集群的权重分别为0.0、0.8、0.2和0.0。

例如，属于由乐曲ID XYZ567识别的乐曲的元数据的第一层中的第一集群、第二集群、第三集群和第四集群的权重分别为0.0、0.4、0.6和0.0。属于由乐曲ID XYZ567识别的乐曲的元数据的第二层中的第五集群、第六集群、第七集群和第八集群的权重分别为0.0、0.0、0.0和1.0。属于由乐曲ID XYZ567识别的乐曲的元数据的第三层中的第九集群、第十集群和第十一集群的权重分别为0.9、0.0和0.1。属于由乐曲ID XYZ567识别的乐曲的元数据的第n层中的四个集群的权重分别为0.3、0.0、0.0和0.7。

顺便提及，每个乐曲的元数据的软聚类不局限于使得属于每层内的集群的项，即乐曲的权重的总和为1的软聚类。另外，项目可以不属于各层中的任何集群。

在步骤S203，元数据聚类单元201分配集群层。

以下参照图16和图17说明元数据的聚类和集群层的分配。图16是示出元数据的例子的图。为了便于说明，图16中所示的元数据是具有值0或1的分类数据。

元数据1、元数据2和元数据3属于作为较高次序分类的meta-group1。元数据4、元数据5和元数据6属于作为较高次序分类的meta-group2。例如，关于艺术家的元数据属于meta-group1。元数据1代表艺术家的外貌。元数据2代表组。例如，关于类型的元数据属于meta-group2。元数据4代表流行音乐。元数据5代表摇滚音乐。

在图16所示的例子中，由乐曲ID ABC123识别的乐曲的元数据1～6分别为1、1、1、1、1和1。由乐曲ID CTH863识别的乐曲的元数据1～6分别为0、1、0、0、1和1。由乐曲ID XYZ567识别的乐曲的元数据1～6分别为1、1、1、1、1和1。由乐曲IDEKF534识别的乐曲的元数据1～6分别为1、0、1、0、0和1。由乐曲ID OPQ385识别的乐曲的元数据1～6分别为1、0、1、1、0和0。

将通过乐曲ID ABC123～OPQ385识别的乐曲的元数据1作为矢量。类似地，将通过乐曲ID ABC123～OPQ385识别的乐曲的元数据2～6中的每一个作为矢量。也就是说，将多个乐曲的一条元数据的值作为矢量。

讨论矢量之间的距离。

在图16所示的例子中，将元数据1、元数据3和元数据4集合到等于或小于一个Manhattan距离的集群中。将元数据2、元数据5和元数据6集合到等于或小于一个Manhattan距离的另一集群中。

因此，将这些集群设置为新的元数据层次。也就是说，将较近的元数据分配给该层次的每层。

图17示出如此聚类并分配到各层的元数据的例子。在图17所示的例子中，元数据1、元数据3和元数据4属于第一层。元数据2、元数据5和元数据6属于第二层。

因此，由一组高度相关的元数据形成每一层，并在所述层中对内容进行聚类。因此可以反映集群中内容之间的细微差异，这种差异不能通过按照原样将类型和艺术家等设置为层的普通分层来表达。

返回图14，在步骤S204，乐曲聚类单元202聚类每一层中的乐曲。也就是说，乐曲聚类单元202将每个内容分类到每个所分配的层中的多个集群中的一个。

步骤S205和步骤S206分别与图6中的步骤S2和S3相同，因此省略对其说明。

因此，可以以减少的数据量和减少的计算量聚类内容，同时维持元数据表达的内容细节(表达的细节的程度)。

另外，可以通过对元数据进行上述分层来对内容进行聚类，从而很好地表达内容之间的细微差异。

接着详细说明相似用户检测单元203。

图18是示出相似用户检测单元203的结构的例子的框图。相似用户检测单元203包括标准化单元231、权重计算单元232和相似程度计算单元233。

标准化单元231对作为用户偏好信息的例子的偏好矢量进行标准化。权重计算单元232根据每个用户的标准偏好矢量针对每个用户计算每层的权重。相似程度计算单元233根据每层的权重和偏好矢量，计算表示向其推荐乐曲的用户与其他用户之间的偏好相似程度的相似程度。

接着参照图19的流程图说明用于通过相似用户检测单元203检测具有相似偏好的用户X的处理，该处理对应于图8中的步骤S21。

在步骤S231，标准化单元231对每个用户的偏好矢量进行标准化。

参照图20和图21说明偏好矢量的标准化。图20是示出在偏好矢量生成单元19中生成的且保持在用户历史信息DB17中的用户的偏好矢量的例子的图。也就是说，图20示出标准化前的偏好矢量的例子。

在图20中所示的偏好矢量的各元素中，前四个元素属于第一层，其次的四个元素属于第二层，接着的三个元素属于第三层，而最后的四个元素属于第四层。

在图20所示的例子中，由用户ID U001识别的用户的偏好矢量为(0.0、2.8、0.0、2.2、0.4、0.6、0.8、0.0、0.5、0.4、0.4、0.0、0.5、0.4和0.0)。在这种情况下，前四个元素0.0、2.8、0.0和2.2属于第一层，其次的四个元素0.4、0.6、0.8和0.0属于第二层，接着的三个元素0.5、0.4和0.4属于第三层，而最后的四个元素0.0、0.5、0.4和0.0属于第四层。

在图20所示的例子中，由用户ID U002识别的用户的偏好矢量为(0.2、0.8、0.5、0.6、0.0、0.5、0.5、0.0、0.7、0.3、0.6、0.0、0.6、0.2和0.0)。在这种情况下，前四个元素0.2、0.8、0.5和0.6属于第一层，其次的四个元素0.0、0.5、0.5和0.0属于第二层，接着的三个元素0.7、0.3和0.6属于第三层，而最后的四个元素0.0、0.6、0.2和0.0属于第四层。

在图20所示的例子中，由用户ID U003识别的用户的偏好矢量为(0.0、2.2、0.1、1.6、0.0、1.0、2.0、1.4、0.0、1.2、0.1、0.3、0.4、0.6和0.7)。在这种情况下，前四个元素0.0、2.2、0.1和1.6属于第一层，其次的四个元素0.0、1.0、2.0和1.4属于第二层，接着的三个元素0.0、1.2和0.1属于第三层，而最后的四个元素0.3、0.4、0.6和0.7属于第四层。

例如，在步骤S231，标准化单元231对每一偏好矢量进行标准化，使得每层中的范数(norm)为1。

图21是示出通过标准化图20中的偏好矢量使得每层中的标准为1所获得的偏好矢量的例子的图。

在图21所示的例子中，由用户ID U001识别的用户的标准偏好矢量为(0.0、0.8、0.0、0.6、0.4、0.6、0.7、0.0、0.7、0.5、0.5、0.0、0.5、0.4和0.0)。在这种情况下，前四个元素0.0、0.8、0.0和0.6属于第一层，其次的四个元素0.4、0.6、0.7和0.0属于第二层，接着的三个元素0.7、0.5和0.5属于第三层，而最后的四个元素0.0、0.5、0.4和0.0属于第四层。

在图21所示的例子中，由用户ID U002识别的用户的标准偏好矢量为(0.2、0.7、0.4、0.5、0.0、0.7、0.7、0.0、0.7、0.3、0.6、0.0、0.8、0.3和0.0)。在这种情况下，前四个元素0.2、0.7、0.4和0.5属于第一层，其次的四个元素0.0、0.7、0.7和0.0属于第二层，接着的三个元素0.7、0.3和0.6属于第三层，而最后的四个元素0.0、0.8、0.3和0.0属于第四层。

在图21所示的例子中，由用户ID U003识别的用户的标准偏好矢量为(0.0、0.8、0.0、0.6、0.0、0.4、0.8、0.5、0.0、1.0、0.1、0.3、0.2、0.2和0.3)。在这种情况下，前四个元素0.0、0.8、0.0和0.6属于第一层，其次的四个元素0.0、0.4、0.8和0.5属于第二层，接着的三个元素0.0、1.0和0.1属于第三层，而最后的四个元素0.3、0.2、0.2和0.3属于第四层。

返回图19，在步骤S232，权重计算单元232计算每个用户的偏好矢量的每层的权重。例如，在步骤S232，权重计算单元232计算每一层的权重作为属于一个层的元素的变量。

图22是示出作为属于每层的元素的变量的权重的例子的图，其中，针对每个用户的每层计算权重。在图22所示的例子中，由用户ID U001识别的用户的第一层的权重、第二层的权重、第三层的权重和第四层的权重为0.17、0.10、0.01和0.06。

由用户ID U002识别的用户的第一层的权重、第二层的权重、第三层的权重和第四层的权重为0.05、0.17、0.05和0.16。由用户ID U003识别的用户的第一层的权重、第二层的权重、第三层的权重和第四层的权重为0.16、0.10、0.31和0.00。

在步骤S233，相似程度计算单元233计算每个用户加权偏好的相似程度。在步骤S234，相似用户检测单元203从用户中检测具有最高偏好相似程度的用户X。然后结束该处理。

假定在不加权的情况下通过等式(1)计算用户u和用户v的相似程度sim(u、v)，并假定用户X是由用户ID U001识别的用户，则由用户ID U002识别的用户和由用户ID U003识别的用户的相似程度如图23所示。

[等式1]

sim (u, v) = \underset{l &Element; L}{Σ} \underset{c &Element; C (1)}{Σ} h_{ulc} h_{vlc} . . . (1)

在等式(1)中，L为表示偏好矢量的层数的值，1为识别偏好矢量的层的值，C(l)表示偏好矢量的全部集群，c是识别集群的值，而h表示标准偏好矢量的元素的值。

当由用户ID U001识别的用户的偏好矢量的元素中的第一层的元素乘以由用户ID U002识别的用户的偏好矢量的元素中的第一层的相应元素，并将相乘的结果相加时，获得作为图23中的用户ID U002的第一层中所配置的值0.88。同样地，当由用户ID U001识别的用户的偏好矢量的元素中的第二层、第三层和第四层的元素乘以由用户ID U002识别的用户的偏好矢量的元素中的第二层、第三层和第四层的相应元素，并将相乘的结果相加时，获得作为图23中的用户ID U002的第二层、第三层和第四成中所配置的值0.92、0.97和0.50。

最终，由用户ID U001识别的用户与由用户ID U002识别的用户之间的偏好的相似程度为3.27，该值是通过相加分别针对第一层、第二层、第三层和第四层所获得的0.88、0.92、0.97和0.50而得到的值。

同样地，当由用户ID U001识别的用户的偏好矢量的元素中的第一层的元素乘以由用户ID U003识别的用户的偏好矢量的元素中的第一层的相应元素，并将相乘的结果相加时，获得作为图23中的用户ID U003的第一层中所配置的值1.00。同样地，当由用户ID U001识别的用户的偏好矢量的元素中的第二层、第三层和第四层的元素乘以由用户ID U003识别的用户的偏好矢量的元素中的第二层、第三层和第四层的相应元素，并将相乘的结果相加时，获得作为图23中的用户ID U003的第二层、第三层和第四成中所配置的值0.77、0.57和0.15。

最终，由用户ID U001识别的用户与由用户ID U003识别的用户之间的偏好的相似程度为2.50，该值是通过相加分别针对第一层、第二层、第三层和第四层获得的1.00、0.77、0.57和0.15而得到的值。

当在不进行加权的情况下如此计算相似程度时，由用户IDU001识别的用户与由用户ID U002识别的用户之间的相似程度高于由用户ID U001识别的用户与由用户ID U003识别的用户之间的相似程度。因此，将由用户ID U002识别的用户检测为具有最高偏好相似程度的用户X。

另一方面，在步骤S233，相似程度计算单元233计算用户u和用户v的相似程度sim(u，v)，通过等式(2)加权该相似程度sim(u，v)。

[等式2]

sim (u, v) = \underset{l &Element; L}{Σ} \underset{c &Element; C (1)}{Σ} b_{ul} h_{ulc} \cdot b_{vl} h_{vlc} . . . (2)

在等式(2)中，L为表示偏好矢量的层数的值，1为识别偏好矢量的层的值，C(l)表示偏好矢量的全部集群，c是识别集群的值，h表示标准偏好矢量的元素的值，而b表示每层的权重。

图24是示出在用户X是由用户ID U001识别的用户时由用户ID U002识别的用户和由用户ID U003识别的用户的加权相似程度的例子的图。顺便提及，图24中所示的值是通过等式(2)计算的相似程度sim(u，v)的100倍。

当由用户ID U001识别的用户的偏好矢量的元素中的第一层的每一元素乘以由用户ID U001识别的用户的第一层的权重，由用户ID U002识别的用户的偏好矢量的元素中的第一层的每一元素乘以由用户ID U002识别的用户的第一层的权重，相应的元素一起相乘，并将相乘的结果相加时，获得图24中的用户ID U002的第一层中所配置的值0.72。

同样地，当由用户ID U001识别的用户的偏好矢量的元素中的第二层、第三层和第四层的每一元素乘以由用户ID U001识别的用户的第一层、第二层、第三层和第四层的权重，由用户ID U002识别的用户的偏好矢量的元素中的第二层、第三层和第四层的每一元素乘以由用户ID U002识别的用户的第一层的权重，相应的元素一起相乘，并将相乘的结果相加时，获得图24中的用户ID U002的第二层、第三层和第四层中所配置的值1.54、0.03和0.48。

最终，由用户ID U001识别的用户与由用户ID U002识别的用户之间的偏好的加权相似程度为2.76，该值是通过相加分别针对第一层、第二层、第三层和第四层所获得的0.72、1.54、0.03和0.48而得到的值。

同样地，当由用户ID U001识别的用户的偏好矢量的元素中的第一层的每一元素乘以由用户ID U001识别的用户的第一层的权重，由用户ID U003识别的用户的偏好矢量的元素中的第一层的每一元素乘以由用户ID U003识别的用户的第一层的权重，相应的元素一起相乘，并将相乘的结果相加时，获得图24中的用户ID U003的第一层中所配置的值2.74。同样地，当由用户ID U001识别的用户的偏好矢量的元素中的第二层、第三层和第四层的每一元素乘以由用户ID U001识别的用户的第一层、第二层、第三层和第四层的权重，由用户ID U003识别的用户的偏好矢量的元素中的第二层、第三层和第四层的每一元素乘以由用户ID U003识别的用户的第一层的权重，相应的元素一起相乘，并将相乘的结果相加时，获得图24中的用户ID U003的第二层、第三层和第四层中所配置的值0.79、0.10和0.00。

最终，由用户ID U001识别的用户与由用户ID U003识别的用户之间的偏好的加权相似程度为3.64，该值是通过相加分别针对第一层、第二层、第三层和第四层所获得的2.74、0.79、0.10和0.00而得到的值。

结果，当利用所进行的加权来计算相似程度时，由用户IDU001识别的用户与由用户ID U003识别的用户之间的相似程度高于由用户ID U001识别的用户与由用户ID U002识别的用户之间的相似程度。因此，将由用户ID U003识别的用户检测为具有最高偏好相似程度的用户X。

注意图20中所示的偏好矢量，由用户ID U001识别的用户的偏好矢量的元素的值在第一层中比在第二到第四层中变化更大。因此估计第一层中的元素的值比第二到第四层中的元素的值更紧密相关于由用户ID U001识别的用户的偏好。

注意由用户ID U002识别的用户的偏好矢量和由用户IDU003识别的用户的偏好矢量的第一层中的元素的值，与由用户ID U002识别的用户的偏好矢量的第一层中的元素的值相比，由用户ID U003识别的用户的偏好矢量的第一层中的元素的值更接近于由用户ID U001识别的用户的偏好矢量的第一层中的元素的值。因此估计与由用户ID U002识别的用户相比，由用户ID U003识别的用户具有与由用户ID U001识别的用户更相似的偏好。

因此，通过进行加权，基于与估计同用户的偏好关系疏远的值相比、估计与用户偏好更紧密相关的值，可以利用变化更大的紧密相关值获得偏好的相似程度。因此可以更准确地检测具有相似偏好的用户。

应该注意，尽管在以上说明中，例如，在步骤S232，权重计算单元232计算权重作为属于每层的元素的变量，但是本发明不局限于此，并且由于增加了层中的元素的变化，因而本发明足以计算具有更大值的权重。例如，可以通过等式(3)计算熵H，并且可以计算从1减去熵H的结果获得的值，作为权重。

[等式3]

H_{(1)} = \underset{c &Element; C (1)}{Σ} h_{lc} {\log h}_{lc} . . . (3)

因此，可以减少用于选择适当内容的计算量，同时使信息损失最小。还可以在选择内容中呈现确保反映用户关注的信息的内容。

应该注意，在本说明书中，基于程序执行的步骤不仅包括以所述的次序按照时间序列执行的处理，而且还包括并行或单独执行而无需按照时间序列执行的处理。

可以通过单个计算机处理该程序，也可以由多个计算机分布处理该程序。此外，还可以将该程序传送到远程计算机，然后执行该程序。

本说明书中的系统是指作为由多个装置形成的整体的设备。

应该注意，本发明的实施例不局限于上述实施例，在不脱离本发明的精神的情况下，可以进行各种改变。

Claims

1.一种信息处理装置，用于从一组内容中选择满足预定条件的内容并将该内容呈现给用户，所述信息处理装置包括：

内容分类部件，用于将形成所述一组内容的每个内容分类到与所述内容的元数据相对应的每层中的多个第一集群中的一个；

保持部件，用于保持表示每个内容与每个内容分类到的所述层中所述第一集群之间的对应关系的数据库；

管理部件，用于管理关于所述用户的内容的历史信息；

生成部件，用于基于用户的所述历史信息和所述数据库，以所述第一集群为单位生成表示所述用户的偏好的偏好信息；

选择部件，用于基于所述历史信息和/或所述偏好信息来检测与第一用户具有相似的历史信息或偏好信息的第二用户，以基于所述第一用户和所述第二用户的历史信息和/或偏好信息来识别所述第一用户感兴趣的第一集群，并且用于选择被分类到所识别的所述第一集群的内容；以及

呈现部件，用于呈现所选择的所述内容；

其中，当对于所述第一用户之外不能检测到具有相似历史信息的所述第二用户时，所述选择部件基于所述第一用户的所述偏好信息，将所述第一用户的所述历史信息中存在的内容所属的第一集群设置为所述第一用户感兴趣的第一集群，并选择属于所述第一用户感兴趣的第一集群且在所述第一用户的所述历史信息中不存在的内容。

2.根据权利要求1所述的信息处理装置，其特征在于，

所述选择部件包括：

检测部件，用于检测具有与所述第一用户的所述历史信息相似的所述历史信息的所述第二用户；

识别部件，用于识别所述第一用户的所述历史信息中不存在而所述第二用户的所述历史信息中存在的内容被分类到的第一集群；以及

提取部件，用于提取被分类到所识别的所述第一集群的内容；以及

所述呈现部件将所提取的所述内容呈现给所述第一用户。

3.根据权利要求1所述的信息处理装置，其特征在于，还包括：

分组部件，用于基于所述偏好信息对用户进行分组；

其中，所述选择部件包括：

检测部件，用于检测与所述第一用户属于同一组的所述第二用户；

所述呈现部件将所提取的所述内容呈现给所述第一用户。

4.根据权利要求1所述的信息处理装置，其特征在于，所述选择部件包括：

检测部件，用于检测具有由所述偏好信息表示的与所述第一用户的偏好相似的偏好的所述第二用户；

识别部件，用于基于所述第一用户的偏好信息和所述第二用户的偏好信息来识别感兴趣的第一集群；以及

所述呈现部件将所提取的所述内容呈现给所述第一用户。

5.根据权利要求4所述的信息处理装置，其特征在于，

所述检测部件包括：

标准化部件，用于将用户的偏好信息标准化；

权重计算部件，用于根据每个用户的标准化后的偏好信息来计算针对每个用户每层的权重；以及

相似程度计算部件，用于根据每层的权重和所述偏好信息来计算表示用户中的所述第一用户和用户中的其他用户之间的偏好相似程度的相似程度；以及

根据所计算出的相似程度检测具有与所述第一用户的偏好相似的偏好的所述第二用户。

6.根据权利要求1所述的信息处理装置，其特征在于，还包括：

分组部件，用于基于所述偏好信息对用户进行分组；

其中，所述选择部件包括：

所述呈现部件将所提取的所述内容呈现给所述第一用户。

7.根据权利要求1所述的信息处理装置，其特征在于，还包括：

设置部件，用于对通过所述内容分类部件将所述元数据分类到的每一第一集群设置关键词；以及

原因生成部件，用于使用通过所述设置部件设置的所述关键词来生成表示呈现所述内容的原因的原因文本；

其中，所述呈现部件还呈现所述原因文本。

8.根据权利要求1所述的信息处理装置，其特征在于，还包括元数据分类部件，该元数据分类部件用于将内容的元数据分类到多个第二集群中的一个，并将所述层分配到所述第二集群；

其中，所述内容分类部件将每个内容分类到每个分配的所述层中的多个第一集群中的一个。

9.根据权利要求1所述的信息处理装置，其特征在于，所述选择部件选择被分类到全部所述层中的全部所述第一集群当中由所述偏好信息表示的最大数量的所述第一集群的内容。

10.一种信息处理装置的信息处理方法，用于从一组内容中选择满足预定条件的内容并将该内容呈现给用户，所述信息处理方法包括以下步骤：

将形成所述一组内容的每个内容分类到与所述内容的元数据相对应的每层中的多个集群中的一个；

保持表示每个内容与将每个内容分类到的所述层中的所述集群之间的对应关系的数据库；

管理关于所述用户的内容的历史信息；

基于用户的所述历史信息和所述数据库，以所述第一集群为单位生成表示所述用户的偏好的偏好信息；

基于所述历史信息和/或所述偏好信息来检测与第一用户具有相似的历史信息或偏好信息的第二用户，以基于所述第一用户和所述第二用户的历史信息和/或偏好信息来识别所述第一用户感兴趣的集群，并选择被分类到所识别的所述集群的内容；以及

呈现所选择的所述内容；

其中，当对于所述第一用户之外不能检测到具有相似历史信息的所述第二用户时，基于所述第一用户的所述偏好信息，将所述第一用户的所述历史信息中存在的内容所属的第一集群设置为所述第一用户感兴趣的第一集群，并选择属于所述第一用户感兴趣的第一集群且在所述第一用户的所述历史信息中不存在的内容。