CN101840410B - 学习装置和方法、信息处理装置和方法以及程序 - Google Patents

学习装置和方法、信息处理装置和方法以及程序 Download PDF

Info

Publication number
CN101840410B
CN101840410B CN2010101057935A CN201010105793A CN101840410B CN 101840410 B CN101840410 B CN 101840410B CN 2010101057935 A CN2010101057935 A CN 2010101057935A CN 201010105793 A CN201010105793 A CN 201010105793A CN 101840410 B CN101840410 B CN 101840410B
Authority
CN
China
Prior art keywords
data
user preference
preference data
compressed
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010101057935A
Other languages
English (en)
Other versions
CN101840410A (zh
Inventor
高松慎吾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN101840410A publication Critical patent/CN101840410A/zh
Application granted granted Critical
Publication of CN101840410B publication Critical patent/CN101840410B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Abstract

本发明提供了学习装置和方法、信息处理装置和方法以及程序。学习装置包括:第一数据获取单元,获取属于第一数据空间的第一用户喜好数据;第二数据获取单元,获取与第一用户喜好数据共同的用户的第二用户喜好数据,第二用户喜好数据属于与第一数据空间不同的第二数据空间;压缩单元,利用第一参数集合从第一用户喜好数据生成具有较少数据项目数的第一经压缩用户喜好数据;以及学习单元,学习第二参数集合,该第二参数集合被利用来从第二用户喜好数据生成具有与第一经压缩用户喜好数据相同的数据项目数的第二经压缩用户喜好数据,以使得第一经压缩用户喜好数据和第二经压缩用户喜好数据之间的差异在多个用户间较小。

Description

学习装置和方法、信息处理装置和方法以及程序
技术领域
本发明涉及学习装置、学习方法、信息处理装置、数据选择方法、数据累积方法、数据转换方法和程序。
背景技术
近年来,随着信息技术的进步,已经由诸如因特网之类的网络向用户提供诸如音乐、视频、书本和新闻报道之类的各种内容。由于在这种内容提供服务中管理着庞大的内容量,所以用户难以通过其自身找到适合各个用户的适当内容。因此,已利用称为推荐的技术来例如基于用户的诸如购买或观看之类的行动历史来获取用户的喜好,并且选择和提议适合于各个用户的内容。
许多现有推荐技术的共同点之一是根据用户的行动历史来利用通过数字等来指示出用户喜好的用户喜好数据(UP)以执行推荐。例如,在称为协同过滤(collaborative filtering)的推荐算法中,在不同用户之间对用户喜好数据进行比较以便指定具有相似喜好的用户,然后该用户在过去使用的内容将成为推荐对象。在日本专利申请早期公布No.2006-215867和No.2008-077386中公开了该推荐算法的示例。与此同时,例如,在称为基于内容的过滤的推荐算法中,对在共同数据空间中的用户喜好数据和指示出内容属性的内容属性数据进行比较,然后被确定为适合用户喜好的内容可以成为推荐对象。
发明内容
但是,存在如下情况:其中,用户喜好数据或者内容属性数据的数据空间由于例如在要成为推荐对象的内容的领域、生成用户喜好数据的设备类型、供应设备的销售商等方面的差异而彼此不同。当数据空间不同时,能够基于用户喜好数据或内容属性数据而被推荐的内容的范围将受限。另外,存在如下情况:其中,例如由于行动历史累积不充分而使得难以推荐适当内容。
鉴于以上情形,希望提供新颖且改进的学习装置、学习方法、信息处理装置、数据选择方法、数据累积方法、数据转换方法和程序,它们能够在各领域的不同数据空间之间共同管理用户喜好或内容属性。
根据本发明一个实施例,提供了一种学习装置,该学习装置包括:第一数据获取单元,获取属于第一数据空间的第一用户喜好数据;第二数据获取单元,获取与第一用户喜好数据共同的用户的第二用户喜好数据,第二用户喜好数据属于与第一数据空间不同的第二数据空间;压缩单元,利用第一参数集合从第一用户喜好数据生成具有较少数据项目数的第一经压缩用户喜好数据;以及学习单元,学习第二参数集合,该第二参数集合被利用来从第二用户喜好数据生成具有与第一经压缩用户喜好数据相同的数据项目数的第二经压缩用户喜好数据,以使得第一经压缩用户喜好数据和第二经压缩用户喜好数据之间的差异在多个用户间较小。
学习单元可以以由压缩单元生成的第一经压缩用户喜好数据作为第二经压缩用户喜好数据的训练数据来学习第二参数集合。
压缩单元可以根据多主题模型来生成第一经压缩用户喜好数据。
第一参数集合和第二参数集合可以是与多主题模型的主题的固有分布相对应的参数集合。
第一数据空间和第二数据空间可以是与相互不同的内容领域相对应的数据空间。
第一数据空间和第二数据空间可以是由相互不同的设备生成的用户喜好数据的数据空间。
根据本发明另一实施例,提供了一种学习方法,该方法包括以下步骤:获取属于第一数据空间的第一用户喜好数据;获取与第一用户喜好数据共同的用户的第二用户喜好数据,第二用户喜好数据属于与第一数据空间不同的第二数据空间;通过利用第一参数集合来从第一用户喜好数据生成具有较少数据项目数的第一经压缩用户喜好数据;以及学习第二参数集合,该第二参数集合被利用来从第二用户喜好数据生成具有与第一经压缩用户喜好数据相同的数据项目数的第二经压缩用户喜好数据,以使得第一经压缩用户喜好数据和第二经压缩用户喜好数据之间的差异在多个用户间较小。
根据本发明另一实施例,提供了一种程序,该程序使得对信息处理装置进行控制的计算机执行如下功能:第一数据获取单元,获取属于第一数据空间的第一用户喜好数据;第二数据获取单元,获取与所述第一用户喜好数据共同的用户的第二用户喜好数据,所述第二用户喜好数据属于与所述第一数据空间不同的第二数据空间;压缩单元,通过利用第一参数集合从所述第一用户喜好数据生成具有较少数据项目数的第一经压缩用户喜好数据;以及学习单元,学习第二参数集合,所述第二参数集合被利用来从所述第二用户喜好数据生成具有与所述第一经压缩用户喜好数据相同的数据项目数的第二经压缩用户喜好数据,以使得所述第一经压缩用户喜好数据和所述第二经压缩用户喜好数据之间的差异在多个用户间较小。
根据本发明另一实施例,提供了一种信息处理装置,该信息处理装置包括:数据获取单元,获取属于第一数据空间的第一用户喜好数据;压缩单元,通过利用第一参数集合来从第一用户喜好数据生成具有较少数据项目数的第一经压缩用户喜好数据;存储单元,存储具有与第一经压缩用户喜好数据相同的数据项目数的多个数据,所述多个数据是通过利用第二参数集合从属于第二数据空间的第二用户喜好数据或内容属性数据生成的,第二数据空间与第一数据空间不同;以及选择单元,根据与压缩单元所生成的第一经压缩用户喜好数据的相似度来从存储在存储单元中的多个数据中选择至少一个数据,其中,存储在存储单元中的多个数据分别是通过利用第二参数集合来预先生成的数据,该第二参数集合被学习以使得共同用户(common user)的第一经压缩用户喜好数据和从第二用户喜好数据生成的第二经压缩用户喜好数据之间的差异在多个用户间较小。
根据本发明另一实施例,提供了一种数据选择方法,该方法包括以下步骤:获取属于第一数据空间的第一用户喜好数据;通过利用第一参数集合来从第一用户喜好数据生成具有较少数据项目数的第一经压缩用户喜好数据;以及根据与第一经压缩用户喜好数据的相似度来从具有与第一经压缩用户喜好数据相同的数据项目数的多个数据中选择至少一个数据,所述多个数据是通过利用第二参数集合从属于第二数据空间的第二用户喜好数据或内容属性数据生成的,第二数据空间与第一数据空间不同,其中,所述多个数据分别是通过利用第二参数集合来预先生成的数据,该第二参数集合被学习以使得共同用户的第一经压缩用户喜好数据和从第二用户喜好数据生成的第二经压缩用户喜好数据之间的差异在多个用户间较小。
根据本发明另一实施例,提供了一种程序,该程序使得对信息处理装置进行控制的计算机执行如下功能:数据获取单元,获取属于第一数据空间的第一用户喜好数据;压缩单元,通过利用第一参数集合来从所述第一用户喜好数据生成具有较少数据项目数的第一经压缩用户喜好数据;存储单元,存储具有与所述第一经压缩用户喜好数据相同的数据项目数的多个数据,所述多个数据是通过利用第二参数集合从属于第二数据空间的第二用户喜好数据或内容属性数据生成的,所述第二数据空间与所述第一数据空间不同;以及选择单元,根据与所述压缩单元所生成的第一经压缩用户喜好数据的相似度来从存储在所述存储单元中的多个数据中选择至少一个数据,其中,存储在所述存储单元中的多个数据分别是通过利用所述第二参数集合来预先生成的数据,所述第二参数集合被学习以使得共同用户的所述第一经压缩用户喜好数据和从所述第二用户喜好数据生成的第二经压缩用户喜好数据之间的差异在多个用户间较小。
根据本发明另一实施例,提供了一种信息处理装置,该装置包括:第一数据获取单元,获取属于第一数据空间的第一用户喜好数据;第二数据获取单元,获取属于与第一数据空间不同的第二数据空间的第二用户喜好数据;第一压缩单元,通过利用第一参数集合来从第一用户喜好数据生成具有较少的数据项目数的第一经压缩用户喜好数据,并将该第一经压缩用户喜好数据存储在记录介质中;以及第二压缩单元,通过利用第二参数集合来从第二用户喜好数据生成具有与第一经压缩用户喜好数据相同的数据项目数的第二经压缩用户喜好数据,并将该第二经压缩用户喜好数据存储在记录介质上,其中,第一参数集合或第二参数集合是被学习以使得共同用户的第一经压缩用户喜好数据和第二经压缩用户喜好数据之间的差异在多个用户间较小的参数集合。
根据本发明另一实施例,提供了一种数据累积方法,该方法包括以下步骤:获取属于第一数据空间的第一用户喜好数据;获取属于与第一数据空间不同的第二数据空间的第二用户喜好数据;通过利用第一参数集合来从第一用户喜好数据生成具有较少的数据项目数的第一经压缩用户喜好数据,并将该第一经压缩用户喜好数据存储在记录介质中;以及通过利用第二参数集合来从第二用户喜好数据生成具有与第一经压缩用户喜好数据相同的数据项目数的第二经压缩用户喜好数据,并将该第二经压缩用户喜好数据存储在记录介质上,其中,第一参数集合或第二参数集合是被学习以使得共同用户的第一经压缩用户喜好数据和第二经压缩用户喜好数据之间的差异在多个用户间较小的参数集合。
根据本发明另一实施例,提供了一种程序,该程序使得对信息处理装置进行控制的计算机执行如下功能:第一数据获取单元,获取属于第一数据空间的第一用户喜好数据;第二数据获取单元,获取属于与所述第一数据空间不同的第二数据空间的第二用户喜好数据;第一压缩单元,通过利用第一参数集合来从所述第一用户喜好数据生成具有较少的数据项目数的第一经压缩用户喜好数据,并将该第一经压缩用户喜好数据存储在记录介质中;以及第二压缩单元,通过利用第二参数集合来从所述第二用户喜好数据生成具有与所述第一经压缩用户喜好数据相同的数据项目数的第二经压缩用户喜好数据,并将该第二经压缩用户喜好数据存储在记录介质上,其中,所述第一参数集合或所述第二参数集合是被学习以使得共同用户的所述第一经压缩用户喜好数据和所述第二经压缩用户喜好数据之间的差异在多个用户间较小的参数集合。
根据本发明另一实施例,提供了一种信息处理装置,包括:存储单元,存储第一参数集合和第二参数集合,第一参数集合用来从属于第一数据空间的第一用户喜好数据生成具有较少数据项目数的第一经压缩用户喜好数据,第二参数集合用来从属于与第一数据空间不同的第二数据空间的第二用户喜好数据生成具有与第一经压缩用户喜好数据相同的数据项目数的第二经压缩用户喜好数据;以及转换单元,基于存储在存储单元中的第一参数集合和第二参数集合来将第一用户喜好数据转换为第二用户喜好数据,其中,第一参数集合或第二参数集合是被学习以使得共同用户的第一经压缩用户喜好数据和第二经压缩用户喜好数据之间的差异在多个用户间较小的参数集合。
转换单元可以根据第一用户喜好数据的数据项目与第二用户喜好数据的数据项目之间的对应关系来将第一用户喜好数据转换为第二用户喜好数据,所述对应关系是根据第一参数集合和第二参数集合之间的各数据项目的参数值的相似度来确定的。
信息处理装置还可以包括压缩单元,该压缩单元通过利用第一参数集合来从第一用户喜好数据生成第一经压缩用户喜好数据,并且转换单元可以将能够通过利用第二参数集合生成由压缩单元生成的第一经压缩用户喜好数据的似然(likely)第二用户喜好数据确定为从第一用户喜好数据转换得到的第二用户喜好数据。
根据本发明另一实施例,提供了一种数据转换方法,该方法包括:基于第一参数集合和第二参数集合来将第一用户喜好数据转换为第二用户喜好数据的步骤,第一参数集合用来从属于第一数据空间的第一用户喜好数据生成具有较少数据项目数的第一经压缩用户喜好数据,第二参数集合用来从属于与第一数据空间不同的第二数据空间的第二用户喜好数据生成具有与第一经压缩用户喜好数据相同的数据项目数的第二经压缩用户喜好数据,其中,第一参数集合或第二参数集合是被学习以使得共同用户的第一经压缩用户喜好数据和第二经压缩用户喜好数据之间的差异在多个用户间较小的参数集合。
根据本发明另一实施例,提供了一种程序,该程序使得对信息处理装置进行控制的计算机执行如下功能:存储单元,存储第一参数集合和第二参数集合,所述第一参数集合用来从属于第一数据空间的第一用户喜好数据生成具有较少数据项目数的第一经压缩用户喜好数据,所述第二参数集合用来从属于与所述第一数据空间不同的第二数据空间的第二用户喜好数据生成具有与所述第一经压缩用户喜好数据相同的数据项目数的第二经压缩用户喜好数据;以及转换单元,基于存储在所述存储单元中的所述第一参数集合和所述第二参数集合来将所述第一用户喜好数据转换为所述第二用户喜好数据,其中,所述第一参数集合或所述第二参数集合是被学习以使得共同用户的所述第一经压缩用户喜好数据和所述第二经压缩用户喜好数据之间的差异在多个用户间较小的参数集合。
如上所述,根据本发明,可以提供能够在各领域的不同数据空间之间共同管理用户喜好或内容属性的学习装置、学习方法、信息处理装置、数据选择方法、数据累积方法、数据转换方法和程序。
附图说明
图1是图示出应用了与一实施例相关联的推荐技术的系统的概要的示意图;
图2是图示出图1的终端设备的具体配置示例的框图;
图3是图示出图1的信息处理装置的具体配置示例的框图;
图4是图示出从内容属性数据计算用户喜好数据的计算处理的示意图;
图5是图示出根据多主题模型来压缩数据的处理的示意图;
图6是图示出经压缩用户喜好数据和经压缩内容属性数据的示例的示意图;
图7是描述与一实施例相关联的推荐处理的流程的示例的流程图;
图8是图示出根据一实施例的学习处理的概要的示意图;
图9是图示出根据一实施例的学习装置的配置示例的框图;
图10是图示出根据一实施例的执行推荐处理的信息处理装置的配置示例的框图;
图11是图示出根据一实施例的执行数据累积处理的系统的概要的示意图;
图12是图示出图11的终端设备的具体配置示例的框图;
图13是图示出图11的另一终端设备的具体配置示例的框图;
图14是图示出图11的信息处理装置的具体配置示例的框图;
图15是图示出根据一实施例的执行数据转换处理的系统的概要的示意图;
图16是图示出图15的信息处理装置的具体配置示例的框图;
图17是图示出对数据项目之间的对应关系的确定处理的示意图;
图18是图示出用户喜好数据的转换处理的示意图;
图19是图示出根据数据转换装置的修改示例的具体配置的框图;以及
图20是图示出通用计算机的硬件配置的框图。
具体实施方式
下文中,将参考附图详细描述本发明的优选实施例。注意,在本说明书和附图中,用相同标号表示具有基本相同功能和结构的结构元件,并省略对这些结构元件的重复说明。
下文中,将按如下顺序描述本发明的优选实施例。
1.相关技术的描述
2.根据一个实施例的学习装置的描述
3.根据一个实施例的推荐装置的描述
4.根据一个实施例的数据累积装置的描述
5.根据一个实施例的数据转换装置的描述
6.总结
<1.相关技术的描述>
首先,将参考图1至7描述与本发明的后述实施例相关联的推荐技术。
图1是图示出应用了与本发明一实施例相关联的推荐技术的信息处理系统1的概要的示意图。如图1所示,信息处理系统1包括终端设备10、网络20和信息处理装置30。
终端设备10由用户用来从信息处理装置30接收推荐服务的供给。例如,终端设备10可以是诸如个人计算机(PC)和个人数字助理(PDA)之类的信息处理终端、蜂窝电话终端、游戏终端、诸如音乐播放器和电视机之类的数字家用电器等。
图2是图示出终端设备10的更具体配置的示例的框图。如图2所示,终端设备10包括用户接口单元12和处理单元14。
例如,用户接口单元12提供显示手段以通过终端设备10为用户显示信息,并提供输入手段以由用户向终端设备10输入信息。例如,显示手段对应于诸如CRT、PDP、LCD和OLED之类的显示设备。此外,例如,输入手段对应于鼠标、键盘、触摸面板、按钮、开关等。
例如,处理单元14可以是获取因特网上的网页并将网页提供给用户供阅读的浏览器。在该情况下,用户对于诸如购买或观看/收听因特网上的内容之类的用户行动的请求被从处理单元14发送至信息处理装置30。此外,处理单元14可以是在终端设备10处重放或执行内容的应用。在该情况下,有关由用户重放或执行内容的行动的信息被从处理单元14发送至信息处理装置30。这里,处理单元14可在终端设备10内部临时存储用户的各个行动的历史,并在预定定时将所累积的行动历史发送至信息处理装置30。
再次参考图1,将继续对信息处理系统1的描述。
网络20连接终端设备10和信息处理装置30。网络20可以是任意网络,例如因特网、有线或无线局域网(LAN)、广域网(WAN)、租借线路和虚拟私有网络。
信息处理装置30向终端设备10的用户提供推荐服务。例如,信息处理装置30被配置为可访问存储了内容属性数据和用户喜好数据的存储设备的计算机。例如,信息处理装置30可以是提供推荐服务的服务器设备。此外,信息处理装置30可以是PC、工作站、上述数字电器等。
图3是图示出信息处理装置30的更具体配置的示例的框图。如图3所示,信息处理装置30包括用户喜好获取单元32、压缩单元34、推荐单元36和存储单元40。此外,存储单元40包括用户喜好数据库(DB)42、内容属性DB 44、经压缩用户喜好DB 46、经压缩内容属性DB 48和参数DB 50。
用户喜好获取单元32例如根据行动或从终端设备10发送来的行动历史来获取指示出用户喜好的用户喜好数据。例如,要应用于基于内容的过滤的用户喜好数据可以利用与作为用户行动对象的内容的内容领域相对应的数据空间中的内容属性数据的线性和来表示。
图4是图示出根据存储在存储单元40的内容属性DB 44中的内容属性数据来计算用户喜好数据的计算处理的示例的示意图。
在图4的示例中,内容属性DB 44包括被指示为标识符C01、C02和C03的三条内容属性数据。每一内容属性数据具有5个数据项目,即属性A至E。亦即,在这种情况下的内容属性数据的数据空间是具有与属性A至E相对应的五个维度的向量空间。在该向量空间中,内容C01的内容属性数据例如表示为向量(1,0,0,1,0)。然后,内容C02、C03的内容属性数据分别表示为向量(0,0,1,0,1)和(0,0,1,0,0)。此外,在图4中,为内容属性数据分别定义了用于计算用户喜好数据的权重。
在图4的示例中,用户喜好数据的数据空间也具有五个数据项目,即,属性A至E。这五个数据项目的每一个的值例如被计算为存储在作为用户行为对象的内容的内容属性DB 44中的内容属性数据的加权线性和。例如,假设用标识符U01标识的用户已使用内容C01、C02和C03。在这种情况下,用户U01的用户喜好数据具有如下值。属性A的值为0.4(=1×0.4+0×0.9+0×0.4)。属性B的值为0.0(=0×0.4+0×0.9+0×0.4)。属性C的值为1.3(=0×0.4+1×0.9+1×0.4)。属性D  的值为0.4(=1×0.4+0×0.9+0×0.4)。然后,属性E的值为0.9(=0×0.4+1×0.9+0×0.4)。因此,用户U01的用户喜好数据表示为在以属性A至E为其元素的向量空间中的(0.4,0.0,1.3,0.4,0.9)。用户喜好获取单元32计算这样的用户喜好数据,并将其存储在用户喜好DB 42中。
在以上描述的示例中,用户喜好数据被计算为内容属性数据的加权线性和。但是,计算线性和可能不必执行加权。此外,可利用除在内容属性数据的共同数据空间中的线性和以外的方法来计算用户喜好数据。
这里,在图4的示例中描述了仅仅属性A至E这五个数据项目。但是,一般而言,实际内容属性数据(和用户喜好数据)的数据空间具有更高维度。例如,通过利用词条频率(TF:term frequency)/逆文档频率(ID:inverse document frequency)等的方法来对说明了内容的内容描述的文本进行分析或者通过对内容数据自身的音频和/或视频进行分析,来预先给出内容属性数据。这种内容属性数据往往是在高维度向量空间中的在许多数据项目处具有零或空值的稀疏向量。考虑到处理成本、推荐结果的精确度等,这对于诸如基于内容的过滤之类的推荐算法是不利的。因此,内容属性数据或用户喜好数据被图3的压缩单元34压缩为低维度数据。
在图3中,压缩单元34通过利用存储在参数DB 50中的参数集合来从用户喜好数据生成具有较少数目的数据项目的经压缩用户喜好数据。此外,压缩单元34也可通过利用存储在参数DB 50中的参数集合来从内容属性数据生成具有较少数目的数据项目的经压缩内容属性数据。
压缩单元34对用户喜好数据的压缩可根据例如多主题模型(multi-topic model)的概念来执行。多主题模型是利用在数据固有主题空间中的概率分布和分别被分配给元数据空间中的各主题的概率分布的概率模型。具体而言,在Thomas Hofmann的“Probabilistic Potential SemanticIndexing”,Proceedings of the twenty-second Annual International SIGIRConference on Research and Development in Information Retrieval,1999;David M.Blei、Andrew Y.Ng、Michael I.Jordan的“Potential DirichletAllocation”,Journal of Machine Learning Research 3,2003等中已提议了概率模型的多个变体。以下是与本发明相关联的主要部分。
首先,在多主题模型中,多个主题被定义为可能不被直接观测的潜在离散概率变量的实际值。向各个主题分配元数据空间的概率分布。分配给各个主题的元数据空间的概率分布称为主题固有分布。
通过对推荐系统应用多主题模型的概念,通过以内容属性数据和/或用户喜好数据的群组作为学习数据进行统计学习来预先估计主题固有分布。于是,每一个内容属性数据或每一个用户喜好数据具有在作为潜在变量空间的主题空间中的称为主题分布的固有概率分布。例如,在各个内容属性数据或各个用户喜好数据的元数据空间中的概率分布是通过利用主题分布对主题固有分布进行平均而获得的。这里,元数据空间可以是以图4所示的属性A至E作为其元素的向量空间等。
一般而言,主题分布的参数的维度较低。此外,由于主题分布是针对每一个内容属性数据或者针对每一个用户喜好数据确定的,所以从内容属性数据或用户喜好数据生成的主题分布的参数可被视为针对各个数据的维度进行压缩的数据。因此,在本说明书中,与内容属性数据相对应的主题分布的参数称为经压缩内容属性数据,并且与用户喜好数据相对应的主题分布的参数称为经压缩用户喜好数据。
一旦确定了主题固有分布,就能够计算出这种经压缩内容属性数据或者经压缩用户喜好数据。即,作为高维度稀疏向量的内容属性数据或用户喜好数据可根据多主题模型而被压缩为低维度。
图3的压缩单元34例如可利用通过根据多主题模型的概念进行学习而预先确定的主题固有分布的参数,来生成经压缩用户喜好数据作为与用户喜好数据相对应的主题分布。在这种情况下,主题固有分布的参数被预先存储在图3的参数DB 50中。在本说明书的下文中,用于对用户喜好数据或内容属性数据进行压缩的主题固有分布的参数称为模型参数。注意,不限于多主题模型的主题固有分布的参数,用于压缩的参数可以是其它任意参数。
图5是进一步图示出根据多主题模型的概念从用户喜好数据生成具有较少数目的数据项目的经压缩用户喜好数据的处理的示意图。
如图5所示,首先,在作为具有属性1至N这N个元素的向量空间的数据空间D中提供用户喜好数据UP。此外,还提供了k个模型参数Pi(x)(i=1-k),这些模型参数是通过学习在数据空间D中预先确定的。模型参数Pi(x)(i=1-k)对应于分别与数据空间D中的k个主题相对应的概率分布,亦即,对应于主题固有分布。如上所述,一般而言,k小于N。这里,当用户喜好数据UP的预定数据值在数据空间D中的出现概率为P(x)时,利用k个模型参数Pi(x)(i=1-k)通过下式来表示P(x)。
[式1]
P(x)=w1P1(x)+w2P2(x)+…+wkPk(x)---(1)
这里,利用wi(i=1-k)来表示与用户喜好数据UP相对应的主题分布的参数。亦即,各个wi对应于主题混合比。通过利用主题混合比wi(i=1-k),经压缩用户喜好数据UP′被计算为具有主题混合比(w1,w2,…,wk)的元素的向量。注意,可类似地对内容属性数据而不是对用户喜好数据执行这种数据压缩。
再次参考图3,将继续对信息处理装置30的配置的描述。
信息处理装置30的推荐单元36通过利用如上所述维度被压缩单元34压缩了的(即,数据项目数减少了的)经压缩用户喜好数据和经压缩内容属性数据来指定适合用户的内容,然后作为推荐结果来发送给终端设备10。
图6是图示出经压缩用户喜好数据和经压缩内容属性数据的数据示例的示意图。
如图6所示,用户喜好DB 42包括在属性A至E的5个维度的数据空间中的针对用户U01、U02的两条用户喜好数据。同时,经压缩用户喜好DB 46包括分别被压缩为3个维度的两条经压缩用户喜好数据。通过如上所述地对用户喜好数据进行压缩,存在如下情况:在压缩之前相似度较低的两条用户喜好数据在压缩之后表现出高相似度。这是因为具有潜在相关性的不同数据项目的属性值通过利用多主题模型而被聚合成主题混合比的一个值而发生的现象。因此,针对推荐可考虑用户之间的潜在相似性,从而推荐更适合用户喜好的内容。这类似于将对用户喜好数据和内容属性数据进行比较的情况。
在图6的示例中,内容属性DB 44包括在属性A至E的5个维度的数据空间中的针对内容C01、C02的两条内容属性数据。同时,经压缩内容属性DB 48包括分别被压缩为个3维度的两条经压缩内容属性数据。经压缩内容属性数据预先被压缩单元34生成并被存储在经压缩内容属性DB 48中。图3的推荐单元36通过利用经压缩用户喜好数据和经压缩内容属性数据在图7的过程中指定作为推荐对象的内容。
图7是描述由推荐单元36进行的推荐处理的流程的示例的流程图。
如图7所示,首先,推荐单元36从经压缩用户喜好DB 46读取供应推荐服务的目标用户的经压缩用户喜好数据(S2)。接下来,推荐单元36从经压缩内容属性DB 48读取经压缩内容属性数据(S4)。要读取的经压缩内容属性数据可以是例如利用预定提取条件提取的数据的一部分。接下来,推荐单元36计算在步骤S2读取的经压缩用户喜好数据与在步骤S4读取的经压缩内容属性数据之间的相似度(S6)。注意,相似度可以是向量之间的标准内积、符号取反的欧几里德距离、余弦距离等。然后,推荐单元36例如以计算出的相似度的降序来生成预定数目的内容的列表,并将所生成的列表作为推荐结果来发送给终端设备10(S8)。
在以上描述的示例中,推荐单元36根据基于内容的过滤来执行推荐处理。但是,即使在推荐单元36根据诸如协同过滤之类的另一算法来执行推荐处理的情况下,也可以获得上述的数据压缩效果。
到目前为止,已参考图1至7描述了与本发明一实施例相关联的推荐技术。利用这种推荐技术,在根据多主题模型对属于高维度数据空间的用户喜好数据或内容属性数据的维度进行压缩之后执行推荐。因此,执行了更适合用户的推荐,从而可以提高所推荐内容的新鲜度和范围。
在这种相关技术中,由图3的压缩单元34用来压缩用户喜好数据或内容属性数据的模型参数是通过针对用户喜好数据或内容属性数据所属于的各个数据空间进行学习而预先确定的。因此,当包括用户喜好数据或内容属性数据的数据空间彼此不同时,通过相互比较在各自的数据空间中的经压缩数据可能无法执行推荐。相反,通过利用以下将描述的学习方法,变得可以利用不同数据空间的用户喜好数据或内容属性数据来执行交叉领域推荐。
<2.根据一个实施例的学习装置的描述>
[学习装置的概要]
图8是图示出根据本发明一个实施例的学习装置的概要的示意图。
在图8中,图示出了两个不同的数据空间D1、D2。数据空间D1例如用于书籍内容领域。在数据空间D1中,包括n个数据项目A1-An。例如,数据项目A1为“作者X”,数据项目A2为“作者Y”,…,数据项目An为“流派Z”。同时,数据空间D2例如用于电视节目(TV节目)内容领域。在数据空间D2中,包括m个数据项目B1-Bm。例如,数据项目B1为“天才α”,数据项目B2为“天才β”,…,数据项目Bm为“时区ω”。
这里,假设共同用户U1的用户喜好数据在数据空间D1、D2中分别为UP1=(2,1,…,1)和UP2=(0,2,…,0)。在这种假设下,如其所是,用户喜好数据UP1和UP2的维度彼此不同,并且各个元素的含义彼此不相关联。因此,不可直接对用户喜好数据UP1和UP2进行相互比较。然后,首先,假设利用模型参数P1i来从用户喜好数据UP1生成经压缩用户喜好数据UP1′。这里,经压缩用户喜好数据UP1′的维度对应于主题混合比w1-wk的数目,亦即,模型参数P1i的数目。与此同时,通过利用与模型参数P1i相同数目的模型参数P2j来从用户喜好数据UP2生成经压缩用户喜好数据UP2′,经压缩用户喜好数据UP2′的维度将与经压缩用户喜好数据UP1′的维度相同。此外,模型参数P1i或模型参数P2j被确定为使得从用户喜好数据UP1和UP2生成的各组主题混合比w1-wk在多个共同用户之间相等或者至少具有较小差异。其结果是,变得可以相互比较从用户喜好数据UP1生成的经压缩用户喜好数据UP1′和从用户喜好数据UP2生成的经压缩用户喜好数据UP2′。
根据以下描述的一个实施例的学习装置100通过学习来确定模型参数P1i和模型参数P2j之中的模型参数P2j
[学习装置的配置]
图9是图示出学习装置100的逻辑配置的框图。如图9所示,学习装置100包括第一数据获取单元120、压缩单元122、学习单元130和第二数据获取单元140。此外,学习装置100还包括第一用户喜好DB 110、第二用户喜好DB 112、第一参数DB 114、第一经压缩用户喜好DB 124和第二参数DB 132。
当通过学习装置100执行学习处理时,分别在第一用户喜好DB 110、第二用户喜好DB 112和第一参数DB 114中预先准备了要用于学习的数据。第一用户喜好DB 110准备有例如属于图8的数据空间D1的多个第一用户喜好数据。此外,第二用户喜好DB 112准备有与第一用户喜好数据共同的用户的、属于数据空间D2(不同于数据空间D1)的多个第二用户喜好数据。此外,第一参数DB 114准备有用于从第一用户喜好数据生成具有较少数据项目的第一经压缩用户喜好数据的k个模型参数P1i(i=1-k)。
当利用学习装置100的学习处理开始时,首先,第一数据获取单元120从第一用户喜好DB 110获取属于数据空间D1的第一用户喜好数据,并将所获取的数据输出到压缩单元122。接下来,压缩单元122通过利用在第一参数DB 114中准备的k个模型参数P1i来压缩第一用户喜好数据,并生成第一经压缩用户喜好数据。由压缩单元122生成的第一经压缩用户喜好数据被存储在第一经压缩用户喜好DB 124中。这时生成的第一经压缩用户喜好数据被后述学习单元130作为第二经压缩用户喜好数据的训练数据来管理。
与此同时,第二数据获取单元140从第二用户喜好DB 112获取属于数据空间D2的第二用户喜好数据,并输出到学习单元130。然后,学习单元130从第一经压缩用户喜好DB 124读取共同用户的第一经压缩用户喜好数据,并将该第一经压缩用户喜好数据视为对第二用户喜好数据进行压缩的情况的压缩结果(即,训练数据)。然后,学习单元130通过学习来确定用于从上述第二用户喜好数据生成所述训练数据的k个模型参数P2j(j=1-k)并存储在第二参数DB 132中。通过对足够数目的用户执行这种学习处理,即使对于新用户,也可缩小压缩单元122所生成的第一经压缩用户喜好数据与第二经压缩用户喜好数据之间的差异。
注意,在以上描述的示例中,针对数据空间D1的模型参数P1i是固定值,而针对数据空间D2的模型参数P2j将被学习得到。但是,也可以通过学习来同时确定模型参数P1i和模型参数P2j
<3.根据一个实施例的推荐装置的描述>
通过利用由学习装置100确定的模型参数P1i和P2j,属于不同数据空间D1、D2的用户喜好数据和内容属性数据可被压缩为属于共同的经压缩数据空间D′的数据,如图8所示。即,变得可以利用在不同内容领域中提供的用户喜好数据或内容属性数据来执行跨多个领域的交叉领域推荐。因此,以下将描述通过利用由上述的学习装置100确定的模型参数P1i和模型参数P2j来执行内容推荐的信息处理装置(即,推荐装置)。
图10是图示出根据本发明一个实施例、执行推荐处理的信息处理装置200的逻辑配置的框图。如图10所示,信息处理装置200包括数据获取单元210、压缩单元220、推荐单元230和存储单元240。然后,推荐单元230包括选择单元232和发送单元234。此外,存储单元240包括用户喜好DB 242、内容属性DB 244、经压缩用户喜好DB 246、经压缩内容属性DB 248和参数DB 250。
数据获取单元210获取属于与第一内容领域相对应的数据空间D1的第一用户喜好数据。更具体而言,数据获取单元210可以通过利用例如基于与第一内容领域相关的用户的行动或行动历史的、预先准备在内容属性DB 244中的第一内容属性数据,来计算并获取第一用户喜好数据。替代地,数据获取单元210可以从信息处理装置200的内部或外部数据库等获取预先计算出的第一用户喜好数据。数据获取单元210将所获取的第一用户喜好数据存储在用户喜好DB 242中。
压缩单元220通过利用第一参数集合来从第一用户喜好数据生成具有较少数目的数据项目的第一经压缩用户喜好数据。更具体而言,压缩单元220可以例如通过利用存储在参数DB 250中的第一模型参数集合P1i,根据参考图5描述的多主题模型的概念来生成第一经压缩用户喜好数据。压缩单元220将所生成的第一经压缩用户喜好数据存储在经压缩用户喜好DB 246中。
通过利用第二模型参数集合P2j从属于数据空间D2(不同于数据空间D1)的第二用户喜好数据生成的与多个用户相关的第二经压缩用户喜好数据被预先准备在存储单元240的经压缩用户喜好DB 246中。此外,通过利用第二模型参数集合P2j从属于数据空间D2的第二内容属性数据生成的与多个内容相关的第二经压缩内容属性数据被预先准备在经压缩内容属性DB 248中。这里,被利用来生成第二经压缩用户喜好数据和第二经压缩内容属性数据的第二模型参数集合P2j是预先被学习以使得第一经压缩用户喜好数据和第二经压缩用户喜好数据之间的差异在多个用户间较小的参数集合。
推荐单元230的选择单元232根据与压缩单元220所生成的第一经压缩用户喜好数据的相似度,从上述多个第二经压缩用户喜好数据或第二经压缩内容属性数据中选择至少一个数据。更具体而言,选择单元232可以例如根据基于内容的过滤的概念,选择与压缩单元220所生成的第一经压缩用户喜好数据具有高相似度的第二经压缩内容属性数据。这里,相似度例如可作为向量之间的标准内积、符号取反的欧几里德距离、余弦距离等被计算。然后,选择单元232向发送单元234输出与所选择的经压缩内容属性数据的至少一个相对应的内容标识符等。此外,选择单元232可例如根据协同过滤的概念,选择与压缩单元220所生成的第一经压缩用户喜好数据具有高相似度的第二经压缩用户喜好数据。在这种情况下,选择单元232例如输出指定与选择单元232所选择的第二经压缩用户喜好数据相对应的用户在过去使用的内容的内容标识符等。
发送单元234例如根据从选择单元232输入的内容标识符来生成推荐结果(即,内容标识符列表、显示推荐结果的网页等),并将所生成的结果发送至诸如图1的终端设备10之类的外部设备。
从以上描述可想到,信息处理装置200可通过利用在与第一内容领域相对应的数据空间D1中的第一用户喜好数据,来推荐与数据空间D2相对应的第二内容领域的内容。该推荐处理是通过学习能够将两个不同数据空间D1、D2中的数据压缩为共同的经压缩数据空间D′中的数据的模型参数来执行的。利用由信息处理装置200进行的该推荐处理,变得例如可以跨越诸如音乐、视频、书本和新闻报道之类的各种内容领域以交叉领域方式来推荐适合用户的内容。
数据空间D1、D2不限于与不同内容领域相对应的数据空间。亦即,例如,数据空间D1、D2可以是为相同内容领域定义的具有不同数据项目的数据空间。例如,在生成用户喜好数据的诸如PC和音乐播放器之类的设备的类型或制造商不同的情况下,即使用户喜好数据在相同的音乐领域,用户喜好数据的数据空间也可被视为不同。在这种情况下,利用根据本实施例的信息处理装置200,变得也可以通过利用属于一数据空间的用户喜好数据或者内容属性数据、基于在另一数据空间中生成的用户喜好数据来执行推荐。
<4.根据一个实施例的数据累积装置的描述>
此外,当利用由学习装置100确定的模型参数P1i、P2j时,在不同数据空间D1、D2中生成的用户喜好数据和内容属性数据可在被压缩成在共同的经压缩数据空间D′中的数据时被累积。因此,可在一个数据累积装置中累积被分散为各种设备处的不同数据空间中的数据的用户喜好数据,以使得推荐处理的处理结果在精确度方面得到提高。于是,以下将描述一种信息处理装置(即,数据累积装置),该信息处理装置能够通过利用由上述学习装置100确定的模型参数来将在多个设备处生成的用户喜好数据累积为一个经压缩数据空间的数据。
图11是图示出根据本发明一个实施例的、利用数据累积装置的信息处理系统300的概要的示意图。如图11所示,信息处理系统300包括终端设备310、320和信息处理装置330。
在图11中,音乐播放器被图示为终端设备310的一个示例。但是,不限于此示例,终端设备310可以是任意设备。类似地,电视机被图示为终端设备320的一个示例。但是,不限于此示例,终端设备320可以是任意设备。终端设备310、320分别生成属于不同数据空间的用户喜好数据,并将生成的数据发送给信息处理装置330。
图12是图示出终端设备310的逻辑配置的框图。如图12所示,终端设备310包括第一应用单元311、第一数据生成单元312、第一用户喜好DB 313、第一内容属性DB 314和第一数据发送单元315。
第一应用单元311对要成为使用终端设备310的用户的行动对象的内容进行管理。亦即,后面描述的第一用户喜好数据是根据诸如利用第一应用单元311重放或执行内容之类的用户行动而生成的。与用户利用第一应用单元311的行动相关的信息被输出到第一数据生成单元312。
当从第一应用单元311接收到与上述用户行动相关的信息时,第一数据生成单元312通过利用预先存储在第一内容属性DB 314中的第一内容属性数据来生成属于第一数据空间的第一用户喜好数据。在第一应用单元311是用于音乐重放的应用的情况下,第一数据空间例如是与音乐领域相对应的数据空间。第一数据生成单元312对第一用户喜好数据的生成处理例如可以是根据参考图4描述的基于内容的过滤的处理。第一数据生成单元312将所生成的第一用户喜好数据存储在第一用户喜好DB 313中。
第一数据发送单元315例如从第一用户喜好DB 313获取由第一数据生成单元312生成的第一用户喜好数据,并将所获取的数据发送至图11的信息处理装置330。此外,第一数据发送单元315可向信息处理装置330发送从第一内容属性DB 314获取的属于第一数据空间的第一内容属性数据。例如可以在用户使用第一应用单元311时或者以预先确定的特定时间间隔执行第一数据发送单元315向信息处理装置330的数据发送处理。
图13是图示出终端设备320的逻辑配置的框图。如图13所示,终端设备320包括第二应用单元321、第二数据生成单元322、第二用户喜好DB 323、第二内容属性DB 324和第二数据发送单元325。
第二应用单元321对要成为使用终端设备320的用户的行动对象的内容进行管理。亦即,后面描述的第二用户喜好数据是根据诸如利用第二应用单元321重放或执行内容之类的用户行动而生成的。与用户利用第二应用单元321的行动相关的信息被输出到第二数据生成单元322。
当从第二应用单元321接收到与上述用户行动相关的信息时,第二数据生成单元322通过利用预先存储在第二内容属性DB 324中的第二内容属性数据来生成属于第二数据空间的第二用户喜好数据。在第二应用单元321是用于显示电视节目的电视机的情况下,第二数据空间例如是与电视节目领域相对应的数据空间。第二数据生成单元322对第二用户喜好数据的生成处理例如可以是根据参考图4描述的基于内容的过滤的处理。第二数据生成单元322将所生成的第二用户喜好数据存储在第二用户喜好DB323中。
第二数据发送单元325例如从第二用户喜好DB 323获取由第二数据生成单元322生成的第二用户喜好数据,并将所获取的数据发送至图11的信息处理装置330。此外,第二数据发送单元325可向信息处理装置330发送从第二内容属性DB 324获取的属于第二数据空间的第二内容属性数据。类似于上述第一数据发送单元315的发送处理,例如可以在用户使用第二应用单元321时或者以预先确定的特定时间间隔执行第二数据发送单元325向信息处理装置330的数据发送处理。
图14是图示出信息处理装置330的逻辑配置的框图。如图14所示,信息处理装置330包括数据接收单元332、第一数据获取单元334、第二数据获取单元336、第一压缩单元338和第二压缩单元340。此外,信息处理装置330还包括标识符识别DB 350、参数DB 352、经压缩用户喜好DB 354和经压缩内容属性DB 356。
数据接收单元332接收从上述终端设备310和终端设备320发送来的用户喜好数据或内容属性数据。这里,从终端设备310和终端设备320发送来的用户喜好数据中包含的用户标识符或者内容属性数据中包含的内容标识符并不总是在终端设备之间统一。因此,数据接收单元332通过利用预先存储在标识符识别DB 350中的标识符对应表格来识别与所接收的数据相关的用户或内容。然后,数据接收单元332根据与所识别的用户或内容相对应的数据空间,将所接收的数据输出到第一数据获取单元334或第二数据获取单元336。
第一数据获取单元334获取数据接收单元332所接收的数据中的、属于第一数据空间的第一用户喜好数据或第一内容属性数据,并输出到第一压缩单元338。与此同时,第二数据获取单元336获取数据接收单元332所接收的数据中的、属于第二数据空间的第二用户喜好数据或第二内容属性数据,并输出至第二压缩单元340。
第一压缩单元338通过利用预先存储在参数DB 352中的第一参数集合,例如从由第一数据获取单元334输入的第一用户喜好数据生成具有较少数据项目的第一经压缩用户喜好数据。然后,第一压缩单元338将从而生成的第一经压缩用户喜好数据输出到经压缩用户喜好DB 354供存储。另外,第一压缩单元338可对从第一数据获取单元334输入的第一内容属性数据进行压缩并将其存储到经压缩内容属性DB 356中。
第二压缩单元340通过利用预先存储在参数DB 352中的第二参数集合,例如从由第二数据获取单元336输入的第二用户喜好数据生成具有较少数据项目的第二经压缩用户喜好数据。然后,第二压缩单元340将从而生成的第二经压缩用户喜好数据输出到经压缩用户喜好DB 354供存储。另外,第二压缩单元340可对从第二数据获取单元336输入的第二内容属性数据进行压缩并将其存储在经压缩内容属性DB 356中。
这里,预先存储在参数DB 352中的第一和第二参数集合例如对应于由上述学习装置100通过学习处理确定的多主题模型的模型参数等。也就是,根据本实施例的第一和第二参数集合被学习以使得共同用户的第一经压缩用户喜好数据和第二经压缩用户喜好数据之间的差异变为在多个用户间较小。因此,利用根据本实施例的信息处理装置330,由终端设备310、320分别生成的数据可被累积在各数据库中作为属于共同的经压缩数据空间的数据。这里,还可以通过在将共同用户的第一经压缩用户喜好数据和第二经压缩用户喜好数据乘以预定比率之后对它们求和来计算第三经压缩用户喜好数据,并将该第三经压缩用户喜好数据存储在数据库中。与第一经压缩用户喜好数据和第二经压缩用户喜好数据相乘的比率例如可根据各设备的用户历史中包含的历史数目来确定。以这种方式,通过将用户喜好数据和内容属性数据累积为共同的经压缩数据空间中的数据,分散在各种设备中的数据被聚合到一个数据库中以得到高效利用,从而可以提高利用该数据进行的推荐处理的精确度。
应当注意,在以上描述的示例中,终端设备310和终端设备320具有不同类型。但是,即使在例如由于销售商不同和同一类型的终端设备310、320的处置语言不同而使得用户喜好数据等的数据空间不同的情况下,也可以期望由信息处理装置330进行的数据累积的效果。
<5.根据一个实施例的数据转换装置的描述>
由学习装置100确定的模型参数P1i和P2j也可被认为指示出构成各数据空间的数据项目的共同经压缩数据空间中的特征。因此,当与属于不同数据空间的两个数据项目相对应的模型参数P1i和P2j的参数值彼此相似时,认为这两个数据项目之间具有相似性。因此,基于由学习装置100确定的模型参数P1i和P2j,在一数据空间中生成的用户喜好数据或内容属性数据可与属于另一数据空间的数据相映射。于是,通过在不同数据空间中相互转换可以循环利用或者再利用用户喜好数据或内容属性数据。因此,例如可以增加提供推荐服务的机会。因此,以下将描述能够将在一数据空间中生成的用户喜好数据或内容属性数据转换为属于另一数据空间的数据的信息处理装置(即,数据转换装置)。
图15是图示出根据本发明一个实施例、利用数据转换装置的信息处理系统400的概要的示意图。如图15所示,信息处理装置400包括推荐设备410、420,终端设备412、422和信息处理装置430。
推荐设备410通过利用属于数据空间D1的第一内容属性数据和第一用户喜好数据来向终端设备412提供推荐服务。终端设备412从推荐设备410接收与数据空间D1相对应领域的内容的推荐结果,并提议给用户。
同时,推荐设备420通过利用属于数据空间D2(不同于数据空间D1)的第二内容属性数据和第二用户喜好数据来向终端设备422提供推荐服务。终端设备422从推荐设备420接收与数据空间D2相对应领域的内容的推荐结果,并向用户提议所接收的结果。
在这两个推荐设备410、420之间,信息处理装置430将属于第一数据空间的第一用户喜好数据转换为属于与第一数据空间不同的第二数据空间的第二用户喜好数据。
图16是图示出信息处理装置430的逻辑配置示例的框图。如图16所示,信息处理装置430包括参数DB 432、映射单元434和转换单元436。
参数DB 432存储用以从属于数据空间D1的第一用户喜好数据生成第一经压缩用户喜好数据的第一参数集合,以及用以从属于数据空间D2的第二在用户喜好数据生成第二经压缩用户喜好数据的第二参数集合。通过利用上述学习装置100来学习第一和第二参数集合,以使得共同用户的第一经压缩用户喜好数据和第二经压缩用户喜好数据之间的差异变为在多个用户间较小。第一和第二参数集合分别可以是根据多主题模型的模型参数。
映射单元434根据从参数DB 432获取的上述第一和第二参数集合的各自的数据项目的参数值的相似度,来确定第一用户喜好数据的数据项目和第二用户喜好数据的数据项目之间的对应关系。
图17是图示出映射单元434的对应关系确定处理的示意图。
在图17中指示出了作为数据空间D1的数据项目的属性a1-aN以及作为数据空间D2的数据项目的属性b1-bM。此外,还指示出了通过在数据空间D1、D2中的上述学习而确定的第一模型参数Pai(i=1-k)和第二模型参数Pbj(j=1-k)。
在图17中,例如关注数据空间D1的属性a2,与属性a2的共同经压缩数据空间相关的特征由向量(0.1,0.3,…,0.1)指示,向量(0.1,0.3,…,0.1)以第一模型参数Pai的k个参数值作为其元素。在本说明书中,在关注特定数据项目的情况下,其元素为模型参数的参数值的向量称为该数据项目的索引(index)。因此,对于N维度数据空间D1获取了N个数据项目的索引,而对于M维度数据空间D2获取了M个数据项目的索引。
映射单元434从两个不同的数据空间D1、D2获取每一数据项目的索引,并计算各数据项目的索引相似度。例如,索引相似度可以是向量之间的标准内积、符号取反的欧几里德距离、余弦距离等。然后,针对数据空间D2的每一个数据项目,例如,映射单元434分别确定数据空间D1中的具有最高索引相似度的数据项目。
在图17的示例中,数据空间D1中与数据空间D2的属性b1具有最高相似度的数据项目例如是属性a2。数据空间D1中与数据空间D2的属性b2具有最高相似度的数据项目是属性a3。此外,数据空间D1中与数据空间D2的属性bM具有最高相似度的数据项目是属性a1。映射单元434例如将以上确定的从数据空间D1到数据空间D2的数据项目间对应关系输出到转换单元436。
转换单元436根据由映射单元434确定的数据空间D1、D2的数据项目的对应关系,例如将从图15的推荐设备410接收的第一用户喜好数据转换为第二用户喜好数据。
图18是描述转换单元436的数据转换处理的示意图。
在图18中指示出了由映射单元434确定的数据空间D1、D2的数据项目的对应关系。这里数据空间D1的属性a2与数据空间D2的属性b1相对应,数据空间D1的属性a3与数据空间D2的属性b2相对应,并且数据空间D1的属性a1与数据空间D2的属性bM相对应。此外,还在图18中指示出了从图15的推荐设备410接收的第一用户喜好数据UP1。这里,第一用户喜好数据UP1被指示为(1.0,0.0,0.2,…,2.0)。
转换单元436例如根据图18所指示的对应关系从第一用户喜好数据UP1顺序获取与属性b1,b2,…,bM相对应的数据值,并生成第二用户喜好数据UP2。在这种情况下,根据上述对应关系,第二用户喜好数据UP2为(0.0,0.2,…,1.0)。由转换单元436转换得到的第二用户喜好数据UP2例如被输出到图15的推荐设备420。
假设可如上所述地在不同数据空间之间相互转换用户喜好数据,则允许在各设备或系统之间循环利用或再利用可在各种数据空间中生成的用户喜好数据。在这一点上,不必修改在各设备或系统上安装的现有应用或数据库。因此,变得可以通过利用该应用或数据库来增加提供推荐服务的机会而无需额外费用。
[修改例]
图19是图示出根据数据转换装置的修改示例的信息处理装置530的逻辑配置的框图。如图19所示,信息处理装置530包括参数DB 532、压缩单元534和转换单元536。
类似于图16的参数DB 432,参数DB 532存储第一和第二参数集合。通过利用上述学习装置100来学习第一和第二参数集合。第一和第二参数集合分别可以是根据多主题模型的模型参数。
压缩单元534通过利用从参数DB 532获取的上述第一参数集合,从自转换单元536输入的第一用户喜好数据生成第一经压缩用户喜好数据。然后,压缩单元534将所生成的第一经压缩用户喜好数据输出到转换单元536。
当压缩单元534生成第一经压缩用户喜好数据时,转换单元536确定能够通过利用存储在参数DB 532中的第二参数集合,生成与第一经压缩用户喜好数据相等同的第二经压缩用户喜好数据的似然第二用户喜好数据。更具体而言,例如,转换单元536通过预定次数的尝试,根据式1的概率分布来生成能够生成与第一经压缩用户喜好数据相等同的第二经压缩用户喜好数据的第二用户喜好数据。这里,优选地,第一用户喜好数据的所考虑向量的绝对值越大,就将预定尝试次数设定为越大。转换单元536例如可以将如上所述确定的第二用户喜好数据作为对用户喜好数据的转换结果来输出。
<6.总结>
到目前为止,已经参考图8至19详细描述了根据本发明各实施例的学习装置、推荐装置、数据累积装置和数据转换装置。利用这些实施例,变得可以在各领域的不同数据空间之间共同管理用户喜好和内容属性。因此,有利地可望如下优点:执行交叉领域推荐、推荐结果精确度提高、推荐服务提供机会增加等。
注意,无论通过硬件还是软件都可以执行根据本说明书中描述的各实施例的处理序列。在通过软件执行这些处理序列或者一部分处理的情况下,例如通过利用安装到特定硬件中的计算机或者图20的通用计算机来执行构成该软件的程序。
在图20中,中央处理单元(CPU)902控制通用计算机的整体操作。只读存储器(ROM)904存储描述了这些处理序列的一部分或全部的程序或数据。随机访问存储器(RAM)906临时存储CPU 902在处理执行时使用的程序或数据。
CPU 902、ROM 904和RAM 906经由总线910相互连接。另外,输入/输出接口912连接到总线910。
输入/输出接口912将CPU 902、ROM 904和RAM 906与输入设备920、输出设备922、存储设备924、通信设备926和驱动器930相连。
输入设备920例如经由诸如鼠标、键盘、触摸面板、按钮和开关之类的输入器具从用户接收指令或信息处理。输出设备922经由诸如CRT、PDP、LCD和OLED之类的显示器具或者诸如扬声器之类的音频输出器具向用户输出信息。
存储设备924配置有例如硬盘驱动器、闪存等,并存储程序和数据。通信设备926经由诸如LAN和因特网之类的网络执行通信处理。驱动器930按需而被布置在通用计算机中。例如,向驱动器930安装可移除介质932。
在通过软件执行上述处理序列的情况下,例如存储在图20的ROM904、存储设备924或可移除介质932中的程序在执行时被读入RAM 906并被CPU 902执行。
本领域技术人员应当了解,在所附权利要求或其等同物的范围内,可根据设计要求和其它因素进行各种修改、组合、子组合和变更。
在本说明书描述的示例中,能够在与两个不同数据空间相对应的领域之间共同管理用户喜好或内容属性。但是,显然,本发明适用于三个或更多个数据空间。
本申请包含与2009年1月28日向日本专利局提交的日本在先专利申请JP 2009-017190所公开的主题相关的主题,该申请的全部内容通过引用结合于此。

Claims (13)

1.一种学习装置,包括:
第一数据获取单元,获取属于第一数据空间的第一用户喜好数据;
第二数据获取单元,获取与所述第一用户喜好数据共同的用户的第二用户喜好数据,所述第二用户喜好数据属于与所述第一数据空间不同的第二数据空间;
压缩单元,通过利用第一参数集合从所述第一用户喜好数据生成具有较少数据项目数的第一经压缩用户喜好数据;以及
学习单元,学习第二参数集合,所述第二参数集合被利用来从所述第二用户喜好数据生成具有与所述第一经压缩用户喜好数据相同的数据项目数的第二经压缩用户喜好数据,以使得所述第一经压缩用户喜好数据和所述第二经压缩用户喜好数据之间的差异缩小。
2.根据权利要求1所述的学习装置,
其中,所述学习单元以由所述压缩单元生成的所述第一经压缩用户喜好数据作为所述第二经压缩用户喜好数据的训练数据来学习所述第二参数集合。
3.根据权利要求1所述的学习装置,
其中,所述第一数据空间和所述第二数据空间是与相互不同的内容领域相对应的数据空间。
4.根据权利要求1所述的学习装置,
其中,所述第一数据空间和所述第二数据空间是由相互不同的设备生成的用户喜好数据的数据空间。
5.一种学习方法,包括以下步骤:
获取属于第一数据空间的第一用户喜好数据;
获取与所述第一用户喜好数据共同的用户的第二用户喜好数据,所述第二用户喜好数据属于与所述第一数据空间不同的第二数据空间;
通过利用第一参数集合来从所述第一用户喜好数据生成具有较少数据项目数的第一经压缩用户喜好数据;以及
学习第二参数集合,所述第二参数集合被利用来从所述第二用户喜好数据生成具有与所述第一经压缩用户喜好数据相同的数据项目数的第二经压缩用户喜好数据,以使得所述第一经压缩用户喜好数据和所述第二经压缩用户喜好数据之间的差异缩小。
6.一种信息处理装置,包括:
数据获取单元,获取属于第一数据空间的第一用户喜好数据;
压缩单元,通过利用第一参数集合来从所述第一用户喜好数据生成具有较少数据项目数的第一经压缩用户喜好数据;
选择单元,根据与所述第一经压缩用户喜好数据的相似度来从具有与所述第一经压缩用户喜好数据相同的数据项目数的多个数据中选择至少一个数据,其中所述多个数据是通过利用第二参数集合从属于第二数据空间的第二用户喜好数据或内容属性数据生成的,所述第二数据空间与所述第一数据空间不同,
其中,所述多个数据分别是通过利用所述第二参数集合来预先生成的数据,所述第二参数集合被学习以使得共同用户的所述第一经压缩用户喜好数据和从所述第二用户喜好数据生成的第二经压缩用户喜好数据之间的差异缩小。
7.一种数据选择方法,包括以下步骤:
获取属于第一数据空间的第一用户喜好数据;
通过利用第一参数集合来从所述第一用户喜好数据生成具有较少数据项目数的第一经压缩用户喜好数据;以及
根据与所述第一经压缩用户喜好数据的相似度来从具有与所述第一经压缩用户喜好数据相同的数据项目数的多个数据中选择至少一个数据,所述多个数据是通过利用第二参数集合从属于第二数据空间的第二用户喜好数据或内容属性数据生成的,所述第二数据空间与所述第一数据空间不同,
其中,所述多个数据分别是通过利用所述第二参数集合来预先生成的数据,所述第二参数集合被学习以使得共同用户的所述第一经压缩用户喜好数据和从所述第二用户喜好数据生成的第二经压缩用户喜好数据之间的差异缩小。
8.一种信息处理装置,包括:
第一数据获取单元,获取属于第一数据空间的第一用户喜好数据;
第二数据获取单元,获取属于与所述第一数据空间不同的第二数据空间的第二用户喜好数据;
第一压缩单元,通过利用第一参数集合来从所述第一用户喜好数据生成具有较少的数据项目数的第一经压缩用户喜好数据,并将该第一经压缩用户喜好数据存储在记录介质中;以及
第二压缩单元,通过利用第二参数集合来从所述第二用户喜好数据生成具有与所述第一经压缩用户喜好数据相同的数据项目数的第二经压缩用户喜好数据,并将该第二经压缩用户喜好数据存储在记录介质上,
其中,所述第一参数集合或所述第二参数集合是被学习以使得共同用户的所述第一经压缩用户喜好数据和所述第二经压缩用户喜好数据之间的差异缩小的参数集合。
9.一种数据累积方法,包括以下步骤:
获取属于第一数据空间的第一用户喜好数据;
获取属于与所述第一数据空间不同的第二数据空间的第二用户喜好数据;
通过利用第一参数集合来从所述第一用户喜好数据生成具有较少的数据项目数的第一经压缩用户喜好数据,并将该第一经压缩用户喜好数据存储在记录介质中;以及
通过利用第二参数集合来从所述第二用户喜好数据生成具有与所述第一经压缩用户喜好数据相同的数据项目数的第二经压缩用户喜好数据,并将该第二经压缩用户喜好数据存储在记录介质上,
其中,所述第一参数集合或所述第二参数集合是被学习以使得共同用户的所述第一经压缩用户喜好数据和所述第二经压缩用户喜好数据之间的差异缩小的参数集合。
10.一种信息处理装置,包括:
转换单元,基于第一参数集合和第二参数集合来将第一用户喜好数据转换为第二用户喜好数据,其中,所述第一参数集合用来从属于第一数据空间的所述第一用户喜好数据生成具有较少数据项目数的第一经压缩用户喜好数据,所述第二参数集合用来从属于与所述第一数据空间不同的第二数据空间的所述第二用户喜好数据生成具有与所述第一经压缩用户喜好数据相同的数据项目数的第二经压缩用户喜好数据,
其中,所述第一参数集合或所述第二参数集合是被学习以使得共同用户的所述第一经压缩用户喜好数据和所述第二经压缩用户喜好数据之间的差异缩小的参数集合。
11.根据权利要求10所述的信息处理装置,
其中,所述转换单元根据所述第一用户喜好数据的数据项目与所述第二用户喜好数据的数据项目之间的对应关系来将所述第一用户喜好数据转换为第二用户喜好数据,所述对应关系是根据所述第一参数集合和所述第二参数集合之间的各数据项目的参数值的相似度来确定的。
12.根据权利要求10所述的信息处理装置,还包括:
压缩单元,通过利用所述第一参数集合来从所述第一用户喜好数据生成所述第一经压缩用户喜好数据,
其中,所述转换单元将似然第二用户喜好数据确定为从所述第一用户喜好数据转换得到的第二用户喜好数据,其中所述似然第二用户喜好数据能够通过利用所述第二参数集合来生成由所述压缩单元生成的所述第一经压缩用户喜好数据。
13.一种数据转换方法,包括:
基于第一参数集合和第二参数集合来将第一用户喜好数据转换为第二用户喜好数据的步骤,所述第一参数集合用来从属于第一数据空间的所述第一用户喜好数据生成具有较少数据项目数的第一经压缩用户喜好数据,所述第二参数集合用来从属于与所述第一数据空间不同的第二数据空间的所述第二用户喜好数据生成具有与所述第一经压缩用户喜好数据相同的数据项目数的第二经压缩用户喜好数据,
其中,所述第一参数集合或所述第二参数集合是被学习以使得共同用户的所述第一经压缩用户喜好数据和所述第二经压缩用户喜好数据之间的差异缩小的参数集合。
CN2010101057935A 2009-01-28 2010-01-28 学习装置和方法、信息处理装置和方法以及程序 Expired - Fee Related CN101840410B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009017190A JP2010176327A (ja) 2009-01-28 2009-01-28 学習装置、学習方法、情報処理装置、データ選択方法、データ蓄積方法、データ変換方法、及びプログラム
JP2009-017190 2009-01-28

Publications (2)

Publication Number Publication Date
CN101840410A CN101840410A (zh) 2010-09-22
CN101840410B true CN101840410B (zh) 2013-09-11

Family

ID=42354950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101057935A Expired - Fee Related CN101840410B (zh) 2009-01-28 2010-01-28 学习装置和方法、信息处理装置和方法以及程序

Country Status (3)

Country Link
US (1) US8468105B2 (zh)
JP (1) JP2010176327A (zh)
CN (1) CN101840410B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8612463B2 (en) * 2010-06-03 2013-12-17 Palo Alto Research Center Incorporated Identifying activities using a hybrid user-activity model
JP2012098975A (ja) * 2010-11-04 2012-05-24 Hitachi Ltd アイテムの推薦方法及び装置
JP5442586B2 (ja) * 2010-11-30 2014-03-12 日本電信電話株式会社 情報検索装置、情報検索方法及びそのプログラム
US9112926B2 (en) * 2011-04-04 2015-08-18 Qualcomm, Incorporated Recommending mobile content by matching similar users
CN102833295B (zh) * 2011-06-17 2017-11-10 南京中兴新软件有限责任公司 分布式缓存系统中的数据操作方法和装置
CN102959539B (zh) * 2011-06-29 2015-09-23 华为技术有限公司 一种业务交叉时的项目推荐方法及系统
CN102999553B (zh) * 2011-10-11 2016-02-24 微软技术许可有限责任公司 基于用户和数据属性推荐数据
US8996549B2 (en) * 2011-10-11 2015-03-31 Microsoft Technology Licensing, Llc Recommending data based on user and data attributes
US20140074650A1 (en) * 2012-03-01 2014-03-13 Qloo, Inc. Personalized cross-domain recommender system
US20130232412A1 (en) * 2012-03-02 2013-09-05 Nokia Corporation Method and apparatus for providing media event suggestions
US9396758B2 (en) 2012-05-01 2016-07-19 Wochit, Inc. Semi-automatic generation of multimedia content
US20130294746A1 (en) * 2012-05-01 2013-11-07 Wochit, Inc. System and method of generating multimedia content
US9524751B2 (en) 2012-05-01 2016-12-20 Wochit, Inc. Semi-automatic generation of multimedia content
JPWO2014027415A1 (ja) * 2012-08-16 2016-07-25 株式会社Jx通信社 情報提供装置、情報提供方法、及びプログラム
WO2015006942A1 (en) * 2013-07-17 2015-01-22 Nokia Corporation A method and apparatus for learning user preference with preservation of privacy
CN103442269B (zh) * 2013-09-17 2017-03-15 北京奇艺世纪科技有限公司 一种推送节目信息的方法及装置
US10049656B1 (en) * 2013-09-20 2018-08-14 Amazon Technologies, Inc. Generation of predictive natural language processing models
US9553904B2 (en) 2014-03-16 2017-01-24 Wochit, Inc. Automatic pre-processing of moderation tasks for moderator-assisted generation of video clips
US9635529B2 (en) * 2014-06-05 2017-04-25 Empire Technology Development Llc PAPR adjustment using precoder data
US9659219B2 (en) 2015-02-18 2017-05-23 Wochit Inc. Computer-aided video production triggered by media availability
KR102492318B1 (ko) 2015-09-18 2023-01-26 삼성전자주식회사 모델 학습 방법 및 장치, 및 데이터 인식 방법
JP6461856B2 (ja) * 2016-05-11 2019-01-30 日本電信電話株式会社 推定装置、推定方法およびプログラム
JP6456869B2 (ja) * 2016-05-11 2019-01-23 日本電信電話株式会社 属性推定装置、属性推定方法およびプログラム
EP3574713B1 (en) * 2017-01-27 2020-07-22 Signify Holding B.V. Recommendation engine for a lighting system
US10970629B1 (en) * 2017-02-24 2021-04-06 Amazon Technologies, Inc. Encodings for reversible sparse dimensionality reduction
US20190066186A1 (en) * 2017-08-24 2019-02-28 Artivatic Data Labs Private Limited Cross domain recommendation system and method
US20190347349A1 (en) * 2018-05-08 2019-11-14 Comcast Cable Communications, Llc Using contextual data to recommend relevant content
US11604844B2 (en) * 2018-11-05 2023-03-14 Samsung Electronics Co., Ltd. System and method for cross-domain recommendations
US11494734B2 (en) * 2019-09-11 2022-11-08 Ila Design Group Llc Automatically determining inventory items that meet selection criteria in a high-dimensionality inventory dataset
US20210264438A1 (en) * 2020-02-20 2021-08-26 Dell Products L. P. Guided problem resolution using machine learning
JP7424501B2 (ja) 2020-09-02 2024-01-30 日本電気株式会社 結合テーブル特定システム、結合テーブル探索装置、方法およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1460373A (zh) * 2001-04-03 2003-12-03 皇家菲利浦电子有限公司 用于生成基于用户偏好和环境特点的推荐的方法和装置
JP2006215867A (ja) * 2005-02-04 2006-08-17 Sony Corp 情報処理システム、情報提供装置および方法、情報処理装置および方法、並びにプログラム
EP1903460A1 (en) * 2006-09-21 2008-03-26 Sony Corporation Information processing

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352331B2 (en) * 2000-05-03 2013-01-08 Yahoo! Inc. Relationship discovery engine
US20100245361A1 (en) * 2009-03-31 2010-09-30 Microsoft Corporation Context-based management of markers

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1460373A (zh) * 2001-04-03 2003-12-03 皇家菲利浦电子有限公司 用于生成基于用户偏好和环境特点的推荐的方法和装置
JP2006215867A (ja) * 2005-02-04 2006-08-17 Sony Corp 情報処理システム、情報提供装置および方法、情報処理装置および方法、並びにプログラム
EP1903460A1 (en) * 2006-09-21 2008-03-26 Sony Corporation Information processing

Also Published As

Publication number Publication date
US8468105B2 (en) 2013-06-18
US20100191682A1 (en) 2010-07-29
JP2010176327A (ja) 2010-08-12
CN101840410A (zh) 2010-09-22

Similar Documents

Publication Publication Date Title
CN101840410B (zh) 学习装置和方法、信息处理装置和方法以及程序
CN110825957B (zh) 基于深度学习的信息推荐方法、装置、设备及存储介质
US11017024B2 (en) Media content rankings for discovery of novel content
Costa-Montenegro et al. Which App? A recommender system of applications in markets: Implementation of the service for monitoring users’ interaction
CN102999586B (zh) 一种网站推荐的方法和装置
US9088811B2 (en) Information providing system, information providing method, information providing device, program, and information storage medium
CN101271559A (zh) 一种基于用户局部兴趣挖掘的协作推荐系统
US20120005044A1 (en) System And Method To Provide A Table Of Products Based On Ranked User Specified Product Attributes
De Pessemier et al. Context aware recommendations for user-generated content on a social network site
CN103886090A (zh) 基于用户喜好的内容推荐方法及装置
CN104462573A (zh) 一种视频搜索结果展示方法及装置
Zhao et al. Service quality evaluation by exploring social users’ contextual information
CN105677715A (zh) 一种基于多用户的视频推荐方法及装置
US20090177651A1 (en) Information processing device and method, program, and recording medium
CN105718184A (zh) 一种数据处理方法和装置
US9558175B2 (en) Generating an individualized web page template with entities of a web page publisher organization associated with areas of the template
CN103890761A (zh) 自动生成推荐的方法和装置
CN103186595A (zh) 音视频推荐方法及系统
CN101452478A (zh) 信息处理设备和方法、程序以及记录介质
JP4492354B2 (ja) 情報処理装置および方法、並びにプログラム
US20160196593A1 (en) System and method for tracking filter activity and monitoring trends associated with said activity
Akcayol et al. A weighted multi-attribute-based recommender system using extended user behavior analysis
JP6604603B2 (ja) 検索装置、検索方法、及びプログラム
Ren et al. A hybrid recommender approach based on widrow-hoff learning
CN113869971A (zh) 商品推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130911

Termination date: 20160128

EXPY Termination of patent right or utility model