CN102737092B - 内容推荐装置、推荐内容搜索方法和信息处理设备 - Google Patents

内容推荐装置、推荐内容搜索方法和信息处理设备 Download PDF

Info

Publication number
CN102737092B
CN102737092B CN201210078644.3A CN201210078644A CN102737092B CN 102737092 B CN102737092 B CN 102737092B CN 201210078644 A CN201210078644 A CN 201210078644A CN 102737092 B CN102737092 B CN 102737092B
Authority
CN
China
Prior art keywords
content
feature
information
targeted customer
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210078644.3A
Other languages
English (en)
Other versions
CN102737092A (zh
Inventor
上前田直树
宫原正典
高木友博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN102737092A publication Critical patent/CN102737092A/zh
Application granted granted Critical
Publication of CN102737092B publication Critical patent/CN102737092B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • G06F16/437Administration of user profiles, e.g. generation, initialisation, adaptation, distribution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Abstract

本发明提供了一种内容推荐装置、推荐内容搜索方法和程序。该装置基于在目标用户过去选择的第一内容中所包括的第一类型的信息,生成第一特征;基于在所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息,生成第二特征;基于所述第一特征以及所述第二特征,生成表示所述第一内容与所述第二内容之间的关系的关系特征;并且,通过使用在所述目标用户新选择的内容中所包括的第一类型的信息以及所述关系特征,搜索要推荐给所述目标用户的内容。

Description

内容推荐装置、推荐内容搜索方法和信息处理设备
技术领域
本技术涉及一种内容推荐装置、推荐内容搜索方法和程序。
背景技术
近年来,使用网络的商业正在快速发展。例如,诸如可以在线购买产品的网上商店等的系统得到了广泛使用。这些网上商店当中的许多网上商店使用向用户推荐产品的机制。例如,当用户观看产品的详细信息时,将关于与该产品相关的多个产品的信息作为推荐产品呈现给用户。
例如通过使用诸如JP 2003-167901A中所描述的协同过滤(collaborativefiltering)的方法来实现这样的机制。该协同过滤是一种基于许多用户的偏好信息、通过使用具有相似偏好的用户的信息来自动给出推荐的方法。当使用这种协同过滤时,还可以向没有购买历史的新用户提供推荐结果。
此外,也可以将被称作基于内容的过滤的方法用于产品的推荐。该基于内容的过滤是一种将内容的属性与用户的品味相匹配、并由此推荐相关内容的方法。根据这种基于内容的过滤,与协同过滤相比,甚至在使用推荐系统的用户的数目小的状况下也可以提供高度准确的推荐结果。然而,在用于识别目标用户喜欢的内容的信息(例如,购买历史、内容元信息等)缺乏的状况下,使用基于内容的过滤难以获得高度准确的推荐结果。
发明内容
协同过滤和基于内容的过滤均具有其优缺点。例如,基于内容的过滤所具有的优点是可以实现反映了用户的偏好的推荐。另一方面,基于内容的过滤所具有的缺点是其导致了如下状况:仅推荐适合用户的偏好的特定类型的信息,而不推荐对用户而言的新的信息。就协同过滤而言,其具有的优点是可以向用户提供其他用户所偏好的新信息。然而,其他用户所偏好的新信息可能并不适合向其进行推荐的这位用户的偏好。也就是说,协同过滤具有的缺点是存在向用户提供不适合该用户的偏好的信息的可能性。
鉴于以上情况而开发了本技术,并且本技术旨在提供一种新颖且改进的内容推荐装置、推荐内容搜索方法和程序,该内容推荐装置、推荐内容搜索方法和程序能够向用户提供包括了将会适合用户的偏好的新信息的内容。
根据本技术的实施例,提供了一种内容推荐装置,包括:第一特征生成单元,用于基于在目标用户过去选择的第一内容中所包括的第一类型的信息,生成第一特征;第二特征生成单元,用于基于在所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息,生成第二特征;关系特征生成单元,用于基于所述第一特征生成单元所生成的第一特征以及所述第二特征生成单元所生成的第二特征,生成表示所述第一内容与所述第二内容之间的关系的关系特征;以及推荐内容搜索单元,用于通过使用在所述目标用户新选择的内容中所包括的第一类型的信息以及所述关系特征生成单元所生成的关系特征,搜索要推荐给所述目标用户的内容。
所述推荐内容搜索单元可以通过执行从所述第一特征生成单元所生成的第一特征中提取与所述目标用户新选择的内容中所包括的第一类型的信息相对应的第一特征的第一处理、执行从所述关系特征生成单元所生成的关系特征中提取与通过所述第一处理所提取的第一特征相对应的关系特征的第二处理、并且使用通过所述第二处理所提取的关系特征,来搜索要推荐给所述目标用户的内容。
所述第一特征可以由第一特征向量来表示,所述第一特征向量包括形成所述第一类型的信息的多个信息元素并且表征所述第一内容。所述第二特征可以由第二特征向量来表示,所述第二特征向量包括形成所述第二类型的信息的多个信息元素并且表征所述第二内容。
所述第一特征生成单元可以考虑到所述目标用户选择所述第一内容的顺序来生成所述第一特征。
所述第一特征生成单元可以通过参考所述第一内容的元数据的结构而从添加有对应于第一类型的元数据的区域获取信息。所述第二特征生成单元可以通过参考所述第二内容的元数据的结构而从添加有对应于第二类型的元数据的区域获取信息。
所述内容推荐装置还可以包括关系选择请求单元,以用于向所述目标用户呈现所述关系特征生成单元所生成的关系特征中的多于一个关系特征,并使所述目标用户选择关系特征。在所述目标用户选择了关系特征的情况下,所述推荐内容搜索单元通过使用所述目标用户所选择的关系特征来搜索要推荐给所述目标用户的内容。
所述推荐内容搜索单元可以通过根据所述第一内容与所述第二内容之间的关系的强度而计算出得分并考虑所计算的得分,来搜索要推荐给所述目标用户的内容。
所述第一特征生成单元可以在所述目标用户新选择内容之前生成所述第一特征。所述第二特征生成单元可以在所述目标用户新选择内容之前生成所述第二特征。所述关系特征生成单元可以在所述目标用户新选择内容之前生成所述关系特征。
在所述目标用户新选择内容之前,所述推荐内容搜索单元可以通过使用与所述第一类型的信息对应的预定信息来执行提取与该预定信息对应的第一特征的第一处理,执行从所述关系特征生成单元所生成的关系特征中提取与通过所述第一处理所提取的第一特征相对应的关系特征的第二处理,并执行计算通过所述第二处理所提取的关系特征的得分的第三处理。在所述目标用户新选择了内容的情况下,所述推荐内容搜索单元可以执行提取与所述目标用户新选择的内容中所包括的第一类型的信息相对应的预定信息的第四处理,并基于与通过所述第四处理所提取的预定信息相对应的关系特征的得分来搜索要推荐给所述目标用户的内容。
所述第一内容和所述第二内容所属的类别与所述目标用户新选择的内容所属的类别可以是不同的类别。
根据本技术的另一实施例,提供了一种内容推荐装置,包括:特征存储单元,用于存储基于目标用户过去选择的第一内容中所包括的第一类型的信息而生成的第一特征、基于所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息而生成的第二特征、以及基于所生成的第一特征和所生成的第二特征而生成的并且表明所述第一内容与所述第二内容之间的关系的第三特征;以及推荐内容搜索单元,用于通过使用所述目标用户新选择的内容中所包括的第一类型的信息以及所述特征存储单元中所存储的第三特征,来搜索要推荐给所述目标用户的内容。
根据本技术的另一实施例,提供了一种推荐内容搜索方法,包括:基 于在目标用户过去选择的第一内容中所包括的第一类型的信息,生成第一特征;基于在所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息,生成第二特征;基于在生成第一特征的步骤中所生成的第一特征以及在生成第二特征的步骤中所生成的第二特征,生成表示所述第一内容与所述第二内容之间的关系的关系特征;以及通过使用在所述目标用户新选择的内容中所包括的第一类型的信息以及在生成关系特征的步骤中所生成的关系特征,搜索要推荐给所述目标用户的内容。
根据本技术的另一实施例,提供了一种使计算机实现以下功能的程序:第一特征生成功能,用于基于在目标用户过去选择的第一内容中所包括的第一类型的信息,生成第一特征;第二特征生成功能,用于基于在所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息,生成第二特征;关系特征生成功能,用于基于所述第一特征生成功能所生成的第一特征以及所述第二特征生成功能所生成的第二特征,生成表示所述第一内容与所述第二内容之间的关系的关系特征;以及推荐内容搜索功能,用于通过使用在所述目标用户新选择的内容中所包括的第一类型的信息以及所述关系特征生成功能所生成的关系特征,搜索要推荐给所述目标用户的内容。
根据本技术的另一实施例,提供了一种记录有该程序的计算机可读记录介质。
根据以上描述的本技术的实施例,可以向用户提供包括了将会适合用户的偏好的新信息的内容。
附图说明
图1是用于描述四项类推的概念的说明图;
图2是用于描述与四项类推相关的处理的流程的说明图;
图3是用于描述多维化的四项类推的概述的说明图;
图4是用于描述内容元数据的结构的说明图;
图5是用于描述根据本技术的第一实施例的推荐系统的配置的说明图;
图6是用于描述根据本技术的第一实施例的内容特征数据库的结构的说明图;
图7是用于描述根据本技术的第一实施例的用户偏好数据库的结构的说明图;
图8是用于描述根据本技术的第一实施例的事例数据库的结构的说明图;
图9是用于描述根据本技术的第一实施例的事例数据库的创建方法的说明图;
图10是用于描述根据本技术的第一实施例的事例数据库的创建方法的说明图;
图11是用于描述根据本技术的第一实施例的事例数据库的创建方法的说明图;
图12是用于描述根据本技术的第一实施例的事例数据库的创建方法的说明图;
图13是用于描述根据本技术的第一实施例的推荐处理的说明图;
图14是用于描述根据本技术的第一实施例的偏好学习处理的说明图;
图15是用于描述根据本技术的第一实施例的推荐处理的说明图;
图16是用于描述根据本技术的第一实施例的推荐处理的说明图;
图17是用于描述根据本技术的第一实施例的推荐处理的说明图;
图18是用于描述根据本技术的第一实施例的推荐处理的说明图;
图19是用于描述根据本技术的第二实施例的推荐系统的配置的说明图;
图20是用于描述根据本技术的第二实施例的中心数据库的结构的说明图;
图21是用于描述根据本技术的第二实施例的R模式数据库的结构的说明图;
图22是用于描述根据本技术的第二实施例的推荐处理的说明图;
图23是用于描述根据本技术的第二实施例的推荐处理的说明图;
图24是用于描述根据本技术的第二实施例的推荐处理的说明图;
图25是用于描述根据本技术的第二实施例的聚类处理的说明图;
图26是用于描述根据本技术的第二实施例的聚类处理的说明图;
图27是用于描述根据本技术的第二实施例的R模式的选择的说明图;
图28是用于描述根据本技术的第二实施例的推荐处理的说明图;
图29是用于描述根据本技术的第二实施例的推荐处理的说明图;
图30是用于描述根据本技术的第三实施例的推荐系统的配置的说明图;
图31是用于描述根据本技术的第三实施例的推荐列表数据库的结构的说明图;
图32是用于描述根据本技术的第三实施例的离线处理(关系R的得分计算)的说明图;
图33是用于描述根据本技术的第三实施例的离线处理(关系R的得分计算)的说明图;
图34是用于描述根据本技术的第三实施例的离线处理的说明图;
图35是用于描述根据本技术的第三实施例的在线处理的说明图;
图36是用于描述根据本技术的第三实施例的在线处理的说明图;
图37是用于描述根据本技术的第一至第三实施例的技术的示例性应用(交叉类别推荐)的说明图;以及
图38是用于描述能够实现根据本技术的第一至第三实施例的推荐系统的功能的硬件配置的说明图。
具体实施方式
下文中,将参照附图详细描述本公开的优选实施例。注意,在本说明书和附图中,用相同的附图标记表示具有基本相同的功能和配置的结构元件,并省略对这些结构元件的重复说明。
根据本公开实施例,提供了一种内容推荐装置,包括:第一特征生成单元,用于基于在目标用户过去选择的第一内容中所包括的第一类型的信息,生成第一特征;第二特征生成单元,用于基于在所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息,生成第二特征;关系特征生成单元,用于基于所述第一特征生成单元所生成的第一 特征以及所述第二特征生成单元所生成的第二特征,生成表示所述第一内容与所述第二内容之间的关系的关系特征;以及推荐内容搜索单元,用于通过使用在所述目标用户新选择的内容中所包括的第一类型的信息以及所述关系特征生成单元所生成的关系特征,搜索要推荐给所述目标用户的内容。
根据本公开实施例,提供了一种内容推荐装置,包括:特征存储单元,用于存储基于目标用户过去选择的第一内容中所包括的第一类型的信息而生成的第一特征、基于所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息而生成的第二特征、以及基于所生成的第一特征和所生成的第二特征而生成的并且表明所述第一内容与所述第二内容之间的关系的第三特征;以及推荐内容搜索单元,用于通过使用所述目标用户新选择的内容中所包括的第一类型的信息以及所述特征存储单元中所存储的第三特征,来搜索要推荐给所述目标用户的内容。
根据本公开实施例,提供了一种推荐内容搜索方法,包括:基于在目标用户过去选择的第一内容中所包括的第一类型的信息,生成第一特征;基于在所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息,生成第二特征;基于在生成第一特征的步骤中所生成的第一特征以及在生成第二特征的步骤中所生成的第二特征,生成表示所述第一内容与所述第二内容之间的关系的关系特征;以及通过使用在所述目标用户新选择的内容中所包括的第一类型的信息以及在生成关系特征的步骤中所生成的关系特征,搜索要推荐给所述目标用户的内容。
[说明的流程]
这里将简要阐述以下描述的说明的流程。
首先,将描述被用于根据下述实施例的技术的四项类推(four-term analogy)的概念。首先,将参照图1描述四项类推的概念。然后,将参照图2描述与四项类推相关的处理的流程。接着,将参照图3描述多维化四项类推的概述。此外,将参照图4描述在将四项类推应用于特定情况时所使用的内容元数据的结构。
接着,将描述本技术的第一实施例。首先,将参照图5描述根据本技术的第一实施例的推荐系统100的配置。此外,将参照图6描述根据本技术的第一实施例的内容特征数据库104的结构。此外,将参照图7描述根据本技术的第一实施例的用户偏好数据库102的结构。接着,将参照图8 至图12描述根据本技术的第一实施例的事例数据库106的结构及其创建方法。接着,将参照图13至图18描述根据本技术的第一实施例的推荐处理。这里,还将对根据本技术的第一实施例的偏好学习处理给出说明。
接着,将描述本技术的第二实施例。首先,将参照图19描述根据本技术的第二实施例的推荐系统200的配置。接着,将参照图20描述根据本技术的第二实施例的中心数据库(R模式数据库209)的结构。此外,将参照图21描述根据本技术的第二实施例的R模式数据库209的结构。然后,将参照图22至图29描述根据本技术的第二实施例的推荐处理。这里,还将对根据本技术的第二实施例的聚类处理和R模式的选择给出说明。
接着,将描述本技术的第三实施例。首先,将参照图30描述根据本技术的第三实施例的推荐系统300的配置。此外,将参照图31描述根据本技术的第三实施例的推荐列表数据库309的结构。然后,将参照图31至图34描述根据本技术的第三实施例的离线处理。接着,将参照图35和图36描述根据本技术的第三实施例的在线处理。接着,将参照图37描述根据本技术的第一至第三实施例的技术的示例性应用(交叉类别推荐)。然后,将参照图38描述能够实现根据本技术的第一至第三实施例的推荐系统的功能的硬件配置。
最后,将综述这些实施例的技术构思,并简要描述通过这些技术构思而获得的效果。
(描述项)
1:引言
1-1:四项类推
1-2:四项类推的多维化
2:第一实施例
2-1:系统配置
2-2:离线处理的流程
2-3:在线处理的流程
3:第二实施例
3-1:系统配置
3-2:离线处理的流程
3-3:在线处理的流程
4:第三实施例
4-1:系统配置
4-2:离线处理的流程
4-3:在线处理的流程
5:示例性应用(交叉类别推荐)
6:示例性硬件配置
7:综述
<1:引言>
首先,在详细描述根据这些实施例的技术之前,将简要描述四项类推的概念和这些实施例的概述。
[1-1:四项类推]
首先,将参照图1描述四项类推的概念。图1是用于描述四项类推的概念的说明图。
四项类推是一种已被模型化的、由人基于先前知识通过类推来推断事物的过程。当在以“事例:A->B”作为先前知识的情况下对人给出信息C时,人通过类推从信息C推断出哪种信息X呢?例如,当给出词“鱼”作为A并给出词“鳞”作为B时,人可能想到由词“具有”、词“覆盖”等表达的概念来作为A与B之间的关系R。于是,当对此人给出词“鸟”作为信息C并使此人基于关系R通过类推来推断信息X时,假定此人通过类推推断出词“羽毛”、词“翅膀”等。通过使人的这种推断过程模型化来获得四项类推。
作为这种四项类推,如下技术正不断获得关注:该技术在以“事例:A->B”作为先前知识的情况下,估计人通过类推推断出的“事例:C->X”的解(solution)X。另外,在下文中,通过类推而从“事例:A->B”推断出“事例:C->X”的过程可以被表示为“A∶B=C∶X”。作为用于估计“A∶B=C∶X”的解X的技术,例如已知一种被称作结构映射理论(structure-mappingtheory)的估计方法。根据此估计方法,如图1中所示,通过将“事例:A->B”的A(下文中称为状况A)与B(下文中称为 结果B)之间的关系R应用于“事例:C->X”的C(下文中称为状况C),来估计解X(下文中称为结果X)。
也就是说,以上描述的结构映射理论还可以称为将构成先前知识的知识域(下文中称为基本域)的结构映射到获得解X的问题域(下文中称为目标域)的方法。例如,在D.Gentner的“Structure-Mapping:ATheoretical Framework for Analogy”(CognitiveScience,1983)中描述了结构映射理论。
当使用以上描述的结构映射理论时,可以消除在对基本域的结构进行映射时所产生的无用知识,并且可以获得一定程度上适当的推断结果X。例如,在给出词“鱼”作为状况A的情况下,如图1中所示,在估计结果X时可以消除通过类推而从词“鱼”推断出的诸如“蓝”、“小”等的知识。类似地,在给出词“鳞”作为结果B的情况下,在估计结果X时可以消除诸如“硬”、“透明”等的知识。
例如通过图2中所示的处理步骤来执行基于结构映射理论的对结果X的估计处理。首先,如图2中所示,执行对状况A与结果B之间的关系R进行估计的处理(S10)。然后,执行将在步骤S10中估计出的关系R从基本域映射到目标域的处理(S11)。接着,执行将关系R应用于状况C并估计结果X的处理(S12)。在执行了这些步骤S10至S12的处理的情况下,基于“事例:A->B”而估计出了“事例:C->X”的解X。
至此,已经描述了四项类推的概念。Kaneko等人正在研究从模糊理论的角度来系统化以上描述的四项类推的概念,并且报告了研究结果。例如,这些报告包括YosukeKaneko、Kazuhiro Okada、Shinichiro Ito、Takuya Nomura和Tomihiro Takagi的“AProposal of Analogical Reasoning Based on Structural Mapping and ImageSchemas”(5th International Conference on Soft Computing and IntelligentSystems and11th International Symposium on Advanced Intelligent Systems(SCIS&ISIS 10),2010)。在这些报告中,Kaneko等人提出了一种推荐系统,该系统根据词的同现频率(co-occurrence frequency)提取要映射的关系R,并使用词的词性(part-of-speech)信息作为结构。该报告能够帮助理解四项类推的概念。
[1-2:四项类推的多维化]
接着,将参照图3描述将四项类推多维化的方法。图3是用于描述将 四项类推多维化的方法的说明图。另外,作为与四项类推的多维化相关的研究结果,在日本专利申请2011-18787中描述了一种方法。
图1的示例涉及从一个基本域映射到一个目标域的结构。此外,在图1的示例中,状况A、结果B、状况C和结果X分别由一个词来表示。此处扩展了四项类推的概念,并且将考虑如图3中所示的从多个基本域到一个目标域的映射结构的新方法。此外,将考虑通过由一个或更多个词形成的词向量来表示状况A、结果B、状况C和结果X中的每一个的方法。另外,这里要考虑的新方法将被称作“多维四项类推”。下文中,将描述多维四项类推的概念。
如图3中所示,假定n个基本域(基本域1到基本域n)。此外,假定“事例:Ak->Bk”属于基本域k(k=1到n)。此外,假定状况Ak和结果Bk由包括多个词的词向量来表示。此外,假定基本域1到基本域n的结构被映射到一个目标域。此外,假定“事例:C->Xj(j=1到n)”属于该目标域。另外,状况Ak与结果Bk之间的关系Rk被用于估计“事例:C->Xk”的结果Xk。
例如,状况Ak(k=1到n)由如下的词向量来表示:该词向量表征了从人(下文中称为目标用户)过去曾选择的各条内容的群组中所提取出的目标用户的偏好。此外,结果Bk(k=1到n)基于状况Ak,并由表征了目标用户在这个多条内容的群组之后所选择的内容的词向量来表示。此外,关系Rk(k=1到n)由表征状况Ak与结果Bk之间的关系的词向量来表示。此外,状况C由如下词向量来表示:该词向量表征了从包括目标用户新选择的内容的各条内容的群组中所提取出的目标用户的偏好。此外,结果Xk(k=1到n)是表征了基于状况C的词向量和关系R的词向量来通过类推而推断出的内容的词向量。
也就是说,结果X1是使用状况A1与结果B1之间的关系R1以及状况C通过类推而推断出的。类似地,结果X2是根据关系R2和状况C通过类推而推断出的,结果X3是根据关系R3和状况C通过类推而推断出的,...,而结果Xn是根据关系Rn和状况C通过类推而推断出的。另外,例如使用被称为TF-IDF的算法来创建每个词向量。该TF-IDF是用于从文档提取特征词的算法。TF-IDF输出被称为TF-IDF值的索引。该TF-IDF值由TF值与IDF值的乘积来表示,其中TF值指示词的术语频率(term frequency),而IDF值指示逆文档频率(inversedocument frequency)。
例如,在Nj是文档d中的词j的术语频率、N是文档d中包括的词 的总数并且Dj是出现词j的文档的数目的情况下,TF值tf(j,d)由下面的公式(1)来表示。此外,IDF值idf(j)由下面的公式(2)来表示。此外,TF-IDF值tfidf(j,d)由下面的公式(3)来表示。也就是说,一个在许多文档中出现的词的TF-IDF值下降,而一个在特定文档中频繁出现的词的TF-IDF值增大。因此,通过使用该索引,可以提取出表征每个文档的词。此外,通过提取具有高TF-IDF值的多个词,创建了表征文档的词向量。
tf(j,d)=Nj/N ...(1)
idf(j)=1+ln(D/Dj) ...(2)
tfidf(j,d)=tf(j,d)·idf(j) ...(3)
这里,将考虑使用食谱网站作为信息源的示例性实施例。许多食谱网站被配置为使得允许用户自由张贴用户烹调过的菜肴的食谱。此外,这样的食谱网站被配置为使得允许观看过这些食谱网站的其他用户张贴评论。当然,与其它信息网站一样,食谱网站设置有诸如标题、图像和说明的部分。此外,一些食谱网站设置有诸如配料、烹调指导、烹调提示、食谱历史和登记类别的部分。这些部分是通过元数据来定义的。
例如,如图4中所示,食谱网站具有通过标题、图像、描述、配料、烹调过程、烹调过程的诀窍、评价、历史、类别等的元数据而定义的结构。以上各项当中,标题、描述、配料、烹调过程、烹调过程的诀窍、评价和历史的部分包括可用于多维四项类推的信息。
例如,如图4中所示,配料、烹调过程和烹调过程的诀窍的部分可以用作与状况A和状况C相关的信息源。此外,标题、描述和评价的部分可以用作与结果B相关的信息源。此外,历史的部分可以用作与关系R相关的信息源。
也就是说,在指示用户的偏好(在此示例中为配料、烹调指导、烹调提示等)的区域中设置与状况A和状况C相关的信息源。另一方面,在表示实际品尝食谱网站中所描述的食物的结果等的区域中设置与结果B相关的信息源。此外,在表示状况A与结果B之间的关系的区域(在此示例中为导致食谱网站上所张贴的该食谱的背景等)中设置与关系R相关的信息源。如所描述的,通过使用元数据的结构,可以容易地设置与状况A、结果B、状况C和关系R相关的信息源。此外,可以通过使用上述的TF-IDF值等,根据区域中所描述的文档来创建与状况A、结果B或 状况C对应的词向量。
虽然考虑了使用食谱网站作为信息源的示例性实施例,但是对于其它类型的网站也可以通过参考元数据的结构来设置与状况A、结果B、状况C和关系R相关的信息源。另外,在与同结果B相关的信息源相同的元数据所附着的区域中设置与结果X相关的信息源。当以这种方式设置信息源时,可以使用从用户观看的网站历史等提取出的词向量,基于如图3中所示的多维四项类推来估计结果X1至Xn。
根据本实施例的技术涉及上述估计。然而,根据本实施例的技术并非集中于基于多维四项类推来估计结果X1至Xn,而是涉及通过使用关系R1至Rn来搜索适合用户的偏好的推荐内容的技术。此外,本实施例的应用范围不限于食谱网站,并且可以应用于各种类型的内容。
在前文中,已经简要描述了四项类推的概念和本实施例的概述。在下文中,将详细描述根据本实施例的技术。
<2:第一实施例>
将描述根据本技术的第一实施例。
[2-1:系统配置]
首先,将参照图5描述根据本实施例的推荐系统100的系统配置。图5是用于描述根据本实施例的推荐系统100的系统配置的说明图。
如图5所示,推荐系统100主要由偏好提取引擎101、用户偏好数据库102、内容特征提取引擎103、内容特征数据库104、事例关系提取引擎105、事例数据库106和推荐引擎107构成。
另外,偏好提取引擎101、内容特征提取引擎103、事例关系提取引擎105和推荐引擎107的功能是通过图38中所示的硬件配置当中的CPU902等的功能来实现的。此外,用户偏好数据库102、内容特征数据库104和事例数据库106是通过图38中所示的硬件配置当中的ROM 904、RAM906、存储单元920、可拆卸记录介质928等的功能来实现的。此外,推荐系统100的功能可以使用单个硬件或经由网络或专线连接的多个硬件来实现。
(内容特征提取引擎103、内容特征数据库104)
首先,将描述内容特征提取引擎103和内容特征数据库104。
内容特征提取引擎103是用于构造如图6中所示的内容特征数据库 104的装置。内容特征提取引擎103首先获取内容的元数据。然后,内容特征提取引擎103通过参考所获取的元数据的结构来识别形成内容的每个区域,并基于TF-IDF值等来提取表征每个区域的一个或更多个词。此外,内容特征提取引擎103将关于内容的信息、关于区域的信息、关于所提取的词的信息等存储在内容特征数据库104中。
例如,如图6中所示,项目ID、区域ID、特征ID、更新次数以及重要性被存储在内容特征数据库104中。项目ID是用于识别内容的识别信息。此外,区域ID是用于识别形成该内容的每个区域的识别信息。例如,通过区域ID识别图4中所示的标题部分和配料部分。此外,特征ID是用于识别表征对应区域的词的识别信息。此外,更新次数是指示已经更新了对应区域的细节的次数的信息。重要性是指示对应词的重要性的信息。另外,内容特征数据库104由偏好提取引擎101、事例关系提取引擎105和推荐引擎107来使用。
(偏好提取引擎101、用户偏好数据库102)
接着,将描述偏好提取引擎101和用户偏好数据库102。
当用户经由设备10输入信息时,所输入的信息被输入到偏好提取引擎101。例如,将用户的操作日志输入到偏好提取引擎101。当输入了用户的操作日志时,偏好提取引擎101基于所输入的操作日志来提取用户的偏好。用于指示由偏好提取引擎101提取的用户的偏好的信息被存储在用户偏好数据库102中。
用户偏好数据库102具有如图7中所示的结构。如图7中所示,用户ID、区域ID、特征ID和指示重要性的信息被存储在用户偏好数据库102中。用户ID是用于识别用户的识别信息。区域ID是用于识别形成内容的每个区域的识别信息。特征ID是用于识别表征对应区域的词的识别信息。此外,重要性是指示由特征ID指定的词的重要性的信息。此外,在推荐引擎107处使用用户偏好数据库102。
(事例关系提取引擎105、事例数据库106)
接着,将描述事例关系提取引擎105和事例数据库106。
事例关系提取引擎105基于存储在内容特征数据库104中的信息来提取事例关系。该事例关系是指状况A、结果B与关系R之间的关系。用于指示由事例关系提取引擎105提取的事例关系的信息被存储在事例数据库106中。具体地,如图8中所示,状况A的词向量、结果B的词向 量和关系R的词向量被存储在事例数据库106中。在图8的示例中,针对状况A的词向量和结果B的词向量,维数被设置为二。下面将基于该示例性设置来给出说明,但是维数可以是三或更大。
如图6所示,项目ID、区域ID和特征ID彼此相关联地存储在内容特征数据库104中。因此,事例关系提取引擎105提取与被设置为与状况A相关的信息源的区域ID相对应的特征ID的集合(词A1、词A2),并且将该集合设置为状况A的词向量。此外,事例关系提取引擎105提取与被设置为与结果B相关的信息源的区域ID相对应的特征ID集合(词B1、词B2),并且将该集合设置为结果B的词向量。此外,事例关系提取引擎105提取与被设置为与关系R相关的信息源的区域ID相对应的特征ID(词R)。
然后,事例关系提取引擎105将与同一项目ID对应的(词A1、词A2)、(词B1、词B2)和词R相关,并将其存储在事例数据库106中。在图8的示例中,针对状况A的词向量(1,5)和结果B的词向量(2,1)的组合,提取出关系R的词向量(8,3,10,15)。以这种方式,事例关系提取引擎105从内容特征数据库104提取状况A、结果B和关系R的事例关系,并构造事例数据库106。另外,可以针对每个用户构造事例数据库106。由推荐引擎107使用以这种方式构造的事例数据库106。
(推荐引擎107)
接着,将描述推荐引擎107。
当经由设备10从用户接收推荐请求时,推荐引擎107基于存储在用户偏好数据库102、内容特征数据库104和事例数据库106中的信息来提取推荐内容。然后,推荐引擎107将已经提取的各条推荐内容的列表作为推荐结果呈现给用户。例如,当用户选择特定内容(下文中称为新内容)时,将关于新内容的信息输入到推荐引擎107。当输入关于新内容的信息时,推荐引擎107从包括已输入的新内容的各条内容的群组中提取与被设置为与状况C相关的信息源的区域ID相对应的特征ID集合。
也就是说,推荐引擎107针对新内容来提取状况C的词向量。当提取状况C的词向量时,推荐引擎107通过使用所提取的状况C的词向量和存储在事例数据库106中的关系R的词向量来提取推荐内容。此时,推荐引擎107提取多条推荐内容,并计算每条推荐内容的得分。然后,推荐引擎107创建被算出得分的各条推荐内容的列表,并将该列表作为推荐 结果呈现给用户。
在前文中,描述了推荐系统100的系统配置。接着,将详细描述由推荐系统100执行的处理的流程。
[2-2:离线处理的流程]
首先,将参照图9至图12描述由推荐系统100执行的处理当中的离线处理的流程。图9至图12是用于描述由推荐系统100执行的处理当中的离线处理的流程的说明图。另外,这里离线处理是指可以在没有从设备10接收到推荐请求的状态下执行的处理。
(图9:离线处理的概述)
如图9中所示,作为离线处理执行的主要处理是构造事例数据库106。如已经描述的,构造事例数据库106主要是通过使用事例关系提取引擎105来实现的。
将用户过去创建的各条内容的群组用于离线处理。因此,如图9中所示,在离线处理之前,存在用户进行的创建内容((1)用户输入)的处理。在图9的示例中,准备n+1条内容,即内容1到内容n+1。这里,添加到内容上的数目越大,新创建的内容就越多。首先,在n+1条内容当中,事例关系提取引擎105按照从最旧的内容开始的顺序来选择n条内容作为与状况A相关的信息源。此外,事例关系提取引擎105选择最新的内容作为与结果B相关的信息源。这里,被选择作为与状况A相关的信息源的n条内容将被表示为状况A1,而被选择作为与结果B相关的信息源的内容将被表示为结果B1。
类似地,对于q=1,...,m-1,事例关系提取引擎105按照从最旧的内容开始的顺序选择n-q条内容作为与状况A相关的信息源。此外,事例关系提取引擎105选择第q+1新的内容作为与结果B相关的信息源。针对每个q=1,...,m-1,被选择作为与状况A相关的信息源的n-q条内容将被表示为状况A(q+1),而被选择作为与结果B相关的信息源的内容将被表示为结果B(q+1)。另外,m被设置为使得状况Am的内容条数将是预定数目。当提取状况Ak(k=1,...,m)和结果Bk的集合时(2),事例关系提取引擎105针对每个k=1,...,m来创建表征状况Ak与结果Bk之间的关系Rk的词向量。
这里,作为示例,将描述表征状况A1与结果B1之间的关系R1的词向量的创建方法。首先,对于状况A1的n条内容,事例关系提取引擎 105参考被设置为与状况A相关的信息源的区域(下文中称为区域A),并创建表征该区域的词向量(3)。例如,事例关系提取引擎105创建分别表征内容1到内容n的区域A的n个词向量,将n个词向量整合,并将其设置为状况A1的词向量。然后,事例关系提取引擎105从状况A1的词向量中提取词(本示例中为两个词)(4)。另外,在以下说明中,这里提取的词集合有时被称作状况A1的词向量。
接着,对于与结果B1对应的内容,事例关系提取引擎105创建表征被设置为与结果B相关的信息源的区域(下文中称为区域B)的词向量,并将该词向量设置为结果B1的词向量(5)。然后,事例关系提取引擎105从结果B1的词向量中提取词(本示例中为两个词)(6)。另外,在以下说明中,这里提取的词集合有时被称作结果B1的词向量。然后,事例关系提取引擎105搜索在区域A中包括从状况A1的词向量中提取的词并且在区域B中包括从结果B1的词向量中提取的词的内容。
然后,对于由搜索处理提取出的内容,事例关系提取引擎105创建表征被设置为与关系R相关的信息源的区域(下文中称为区域R)的词向量,并将该词向量设置为关系R1的词向量(8)。另外,在搜索处理提取出多条内容的情况下,创建表征各条内容的区域R的多个词向量,将这些个词向量整合,并将其设置为关系R的词向量。以这种方式创建的关系R1的词向量与从状况A1的词向量中提取的词以及从结果B1的词向量中提取的词相关联地存储在事例数据库106中。
另外,存在从词向量中提取的词的多种组合。因此,针对每种不同的词组合执行处理(4)、(6)、(7)和(8)。然后,以上在(8)处创建的词向量被顺序地添加到关系R1的词向量上。此外,不仅对状况A1和结果B1的组合执行以上描述的处理,而且对状况A2,...,Am和结果B2,...,Bm的所有组合执行以上描述的处理。于是,创建了关系R1,..,Rm的词向量。
(图10至图12:离线处理的细节)
离线处理基本如以上所述。在下文中,将更详细地描述作为离线处理执行的处理的流程。
如图10中所示,首先,事例关系提取引擎105按照时间顺序来布置用户过去选择的各条内容,并设置状况A与结果B的组合(S101)。也就是说,事例关系提取引擎105设置属于状况A1,...,Am和结果B1,...,Bm的各条内容。例如,事例关系提取引擎105如图11中所示那样按照从最 旧的内容开始的顺序来布置各条内容re1,...,re4,并且设置属于状况A1,...,A3和结果B1,...,B3的各条内容。
然后,事例关系提取引擎105从属于状况Aj的各条内容的群组中提取具有高重要性的N个词(N是自然数),并创建状况Aj的词向量(S102)。例如,如图11中所示,事例关系提取引擎105从属于状况A1的各条内容re1、re2和re3中提取具有高重要性的N个词,并创建状况A1的词向量。此时,事例关系提取引擎105对每个词的重要性设置权重,使得包括在较新的内容中的词的重要性增加。利用这种权重设置,包括在较新的内容中的特征词更有可能被包括在状况A1的词向量中。
接着,事例关系提取引擎105从属于结果Bj的各条内容的群组中提取具有高重要性的N个词(N是自然数),并创建结果Bj的词向量(S103)。例如,如图11中所示,事例关系提取引擎105从属于结果Bj的内容re4中提取具有高重要性的N个词,并创建结果Bj的词向量。然后,如图12中所示,事例关系提取引擎105从状况Aj的词向量中提取词(本示例中为两个词),并且还从结果Bj的词向量中提取词(本示例中为两个词)(S104)。
接着,事例关系提取引擎105搜索同时出现了步骤S104中所提取的那些词的内容。然后,事例关系提取引擎105从作为搜索结果而提取出的内容的区域R中提取具有高得分的词,并将该词设置为关系Rj的词向量(S105)。在图12的示例中,提取各条内容re1’,...,re8’作为搜索结果。此外,在表征各条内容re1’,...,re8’的区域R的词当中,按照得分的降序来提取词(在图12的示例中为五个词),并且创建关系Rj的词向量。
另外,基于以下公式(4)来计算词ri的得分R(ri)。此外,从状况Aj的词向量中提取的词被表示为ap(p=1,2,...),而从结果Bj的词向量中提取的词被表示为bp(q=1,2,...)。此外,函数ht(x)指示当以词x作为关键词来执行内容搜索时所找到的内容的条数。此外,函数ht(x1,x2)指示当针对同时出现了词x1和词x2的内容来执行搜索时所找到的内容的条数。此外,函数ht(x1,x2,x3)指示当针对同时出现了词x1、词x2和词x3的内容来执行搜索时所找到的内容的条数。此外,以下公式(4)中所包括的score(i,p,q)(得分(i,p,q))是通过以下公式(5)到(8)来定义的。此外,出现在以下公式(6)到(8)中的N是内容的总条数。
score(i,p,q)=s1(i,p)·s 2(i,q)·s3(i,p,q)
...(5)
然后,事例关系提取引擎105将状况Aj、结果Bj和关系Rj的词向量存储在事例数据库106中(S106)。此时,事例关系提取引擎105将在步骤S105中执行搜索时使用的词与关系Rj的词向量彼此相关联地存储在事例数据库106中。然后,事例关系提取引擎105确定j是否等于m(S107)。也就是说,事例关系提取引擎105确定是否已针对步骤S101中设置的关于状况A与结果B的所有组合执行了步骤S102到S106的处理。在j等于m的情况下,事例关系提取引擎105结束系列处理。在j不等于m的情况下,事例关系提取引擎105使j递增一,并返回到步骤S102的处理。
在前文中,描述了离线处理的流程。
[2-3:在线处理的流程]
接着,将参照图13至图18描述由推荐系统100执行的处理当中的在线处理的流程。图13至图18是用于描述由推荐系统100执行的处理当中的在线处理的流程的说明图。另外,这里在线处理是指在从设备10接收到推荐请求时执行的处理。
(图13:在线处理的概述)
如图13中所示,作为在线处理执行的主要处理是由推荐引擎107进行的搜索推荐内容并呈现搜索结果。
如上所述,当接收到推荐请求时,执行在线处理。也就是说,当用户选择新内容时,执行在线处理。当选择新内容时((1)用户输入),推荐引擎107提取状况C的词向量(2)。此时,推荐引擎107首先从用户偏好数据库102提取指示用户的偏好的词向量(下文中称为偏好向量),并通过使用表征被设置为与新内容的状况C相关的信息源的区域(下文中称为区域C)的词来更新偏好向量。然后,推荐引擎107将更新后的偏好向量设置为状况C的词向量。
接着,推荐引擎107从状况C的词向量中提取词(本示例中为两个词)(3)。然后,推荐引擎107参考事例数据库106,并从关系R的词向量中提取词(本示例中为一个词)(4)。然后,推荐引擎107搜索在区域C中出现了从状况C的词向量中提取的词并且在区域R中出现了从关系R的词向量中提取的词的内容(5)。然后,推荐引擎107创建用于指示通过搜索处理提取出的各条内容的项目ID的列表(下文中称为推荐列表)(6)。
存在从状况C的词向量和关系R的词向量中提取的词的多种组合。因此,针对不同组合重复执行推荐列表的创建处理,并创建多个推荐列表。推荐引擎107将这些推荐列表整合,并且还将得分添加到每条推荐内容上。然后,推荐引擎107基于所添加的得分来选择要推荐的各条推荐内容的组合,并创建包括所选择的各条推荐内容的推荐列表(7)。
(图14至图18:在线处理的细节)
如上所述,在线处理被粗略分成对创建状况C的词向量时所使用的偏好向量的更新处理、以及推荐列表的创建处理。
(偏好向量的更新处理)
首先,将参照图14描述偏好向量的更新处理。
如图14中所示,首先,推荐引擎107从用户偏好数据库102提取已执行推荐请求的用户(下文中称为目标用户)的偏好向量(S111)。例如,推荐引擎107在与目标用户的用户ID和区域C的区域ID对应的特征ID当中提取出具有高重要性的预定数目的特征ID,并设置偏好向量。然后,推荐引擎107缩短在步骤S111中提取的目标用户的偏好向量(S112)。例 如,推荐引擎107在偏好向量中所包括的特征ID当中消除预订数目的具有低重要性的特征ID。
然后,推荐引擎107提取表征了目标用户选择的新内容的区域C的词,并将与所提取的词对应的特征ID添加到偏好向量(S113)。另外,在选择多条新内容的情况下,基于按照从最新的内容开始的降序而设置权重的重要性来提取表征区域C的词,并将与该词对应的特征ID添加到偏好向量(参见图16)。接着,推荐引擎107与在步骤S113中被添加了特征ID的偏好向量同步地更新用户偏好数据库102的记录(S114),并结束系列处理。
通过以上处理,获得了由目标用户所选择的新内容的信息来更新的偏好向量。另外,以上描述的用户偏好数据库102的更新处理可以由偏好提取引擎101执行。
(推荐列表的创建处理)
接着,将参照图15至图18描述推荐列表的创建处理。
如图15中所示,首先,推荐引擎107从用户偏好数据库102获取目标用户的偏好向量,并设置状况C的词向量(S121)。另外,以上描述了根据新内容的选择的偏好向量的更新方法,并且图16中示意性地示出了偏好向量(状况C的词向量)的创建方法。接着,推荐引擎107从事例数据库106中选择一个事例,并获取与该事例对应的关系R的词向量(S122)。
接着,如图18的(1)所示,推荐引擎107从状况C的词向量中提取词(本示例中为两个词),从关系R的词向量中提取词(本示例中为一个词),并创建词组合(S123)。然后,对于每个词组合,推荐引擎107搜索同时出现的各条内容的群组,并针对每条内容计算得分(S124)。该得分是基于以下公式(9)计算出的。此外,以下公式(9)中包括的s1、s2和s3是通过以下公式(10)到(12)来定义的。此外,c1和c2表示从状况C的词向量中提取的词。
score(ri)=s1(i)·s2(i)·s3(i)
...(9)
存在从状况C的词向量中提取的词和从关系R的词向量中提取的词的多种组合。因此,推荐引擎107针对每种组合计算上述得分,将每条内容的得分相加,并创建列出每条内容的得分的推荐列表(S125)。然后,推荐引擎107确定是否针对所有事例创建了推荐列表(S126)。
在针对所有事例创建了推荐列表的情况下,推荐引擎107将处理进行到步骤S127。另一方面,在没有针对所有事例创建推荐列表的情况下,推荐引擎107将处理返回到步骤S122,并针对尚未创建推荐列表的事例来创建推荐列表。在处理进行到步骤S127的情况下,推荐引擎107将所有事例的推荐列表组合地呈现给目标用户(S127),并结束系列处理。
(修改示例:用于减小计算量的方法)
在图15中所示的处理步骤中,针对每一种事例创建了推荐列表。然而,如下修改使得能够简化处理。
首先,如图17中所示,推荐引擎107获取状况C的词向量。接着,推荐引擎107从状况C的词向量中提取词(本示例中为两个词)(1)。然后,推荐引擎107参考事例数据库106,并提取状况A、结果B和关系R的集合,其中从状况C的词向量中提取的词(本示例中为两个词)与状况A的词向量(词A1,词A2)匹配(2)。然后,推荐引擎107从所提取的集合中提取关系R的词向量(3)。然后,推荐引擎107将已经提取的关系R的词向量合并,并创建合并向量Rmerge(4)。
接着,如图18中所示,推荐引擎107从状况C的词向量中提取词(本示例中为两个词),并且从合并向量Rmerge中提取词(本示例中为一个词)(1)。接着,推荐引擎107搜索同时出现了所提取的词的集合的内容(2)。然后,推荐引擎107创建通过搜索处理而提取的各条内容的推荐列表(3)。另外,要添加到每条内容的得分的计算方法与以上描述的方法相同。接着,推荐引擎107将以上(3)中创建的推荐列表呈现给用户。利用这些处理步骤,可以减小计算量。
在前文中,描述了本技术的第一实施例。
<3:第二实施例>
接着,将描述本技术的第二实施例。
[3-1:系统配置]
首先,将参照图19描述根据本实施例的推荐系统200的系统配置。图19是用于描述根据本实施例的推荐系统200的系统配置的说明图。
如图19中所示,推荐系统200主要由偏好提取引擎201、用户偏好数据库202、内容特征提取引擎203、内容特征数据库204、事例关系提取引擎205、事例数据库206、推荐引擎207、R模式提取引擎208和R模式数据库209(中心数据库)构成。
另外,偏好提取引擎201、内容特征提取引擎203、事例关系提取引擎205、推荐引擎207和R模式提取引擎208的功能是通过图38中所示的硬件配置当中的CPU 902等的功能来实现的。此外,用户偏好数据库202、内容特征数据库204、事例数据库206和R模式数据库209是通过图38中所示的硬件配置当中的ROM 904、RAM 906、存储单元920、可拆卸记录介质928等的功能来实现的。此外,推荐系统200的功能可以使用单个硬件或经由网络或专线连接的多个硬件来实现。
(内容特征提取引擎203、内容特征数据库204)
首先,将描述内容特征提取引擎203和内容特征数据库204。
内容特征提取引擎203是用于构造内容特征数据库204的装置。内容特征提取引擎203首先获取内容的元数据。然后,内容特征提取引擎203通过参考所获取的元数据的结构来识别形成内容的每个区域,并基于TF-IDF值等来提取表征每个区域的一个或更多个词。此外,内容特征提 取引擎203将关于内容的信息、关于区域的信息、关于所提取的词的信息等存储在内容特征数据库204中。另外,内容特征数据库204的结构基本上与图6中所示的内容特征数据库104的结构相同。该内容特征数据库204由偏好提取引擎201、事例关系提取引擎205和推荐引擎207使用。
(偏好提取引擎201、用户偏好数据库202)
接着,将描述偏好提取引擎201和用户偏好数据库202。
当用户经由设备10输入信息时,所输入的信息被输入到偏好提取引擎201。例如,将用户的操作日志输入到偏好提取引擎201。当输入用户的操作日志时,偏好提取引擎201基于所输入的操作日志来提取用户的偏好。用于指示由偏好提取引擎201提取的用户的偏好的信息被存储在用户偏好数据库202中。另外,用户偏好数据库202的结构基本上与图7中所示的用户偏好数据库102的结构相同。由推荐引擎207使用该用户偏好数据库202。
(事例关系提取引擎205、事例数据库206)
接着,将描述事例关系提取引擎205和事例数据库206。
事例关系提取引擎205基于存储在内容特征数据库204中的信息来提取事例关系。用于指示由事例关系提取引擎205提取的事例关系的信息被存储在事例数据库206中。另外,事例数据库206的结构基本上与图8中所示的事例数据库106的结构相同。由推荐引擎207和R模式提取引擎208使用已被构造的事例数据库206。
(R模式提取引擎208、R模式数据库209)
接着,将描述R模式提取引擎208和R模式数据库209。
R模式提取引擎208使用存储在事例数据库206中的关系R的词向量,针对每个事例执行聚类(clustering)。然后,R模式提取引擎208针对每个聚类,计算关系R的词向量中包括的每个词的术语频率。然后,R模式提取引擎208选择具有最高术语频率的词的集合或具有高术语频率的词的集合作为用于指示聚类的中心的词(下文中称为中心词),并将其登记在R模式数据库209中。此外,R模式提取引擎208将每个聚类与每个事例之间的对应关系登记在R模式数据库209中。
R模式数据库209具有如图20和图21中所示的结构。另外,虽然这里将中心数据库假设为R模式数据库209的一部分,但是可以分开设置 中心数据库和R模式数据库209。现在,中心数据库具有如图20中所示的结构。如图20中所示,聚类ID和中心词ID彼此相关联地存储在中心数据库中。聚类ID是用于识别聚类的识别信息。此外,中心词ID是用于识别中心词的识别信息。
此外,对于聚类与事例之间的关系,R模式数据库209具有如图21中所示的结构。如图21中所示,聚类ID、状况A的词向量、结果B的词向量以及关系R的词向量彼此相关联地存储在R模式数据库209中。由推荐引擎207使用该R模式数据库209。
(推荐引擎207)
接着,将描述推荐引擎207。
当经由设备10从用户接收推荐请求时,推荐引擎207基于存储在用户偏好数据库202、内容特征数据库204、事例数据库206和R模式数据库209中的信息来提取推荐内容。然后,推荐引擎207将已经提取的各条推荐内容的列表作为推荐结果呈现给用户。例如,当用户选择特定内容(下文中称为新内容)时,将关于新内容的信息输入到推荐引擎207。当输入关于新内容的信息时,推荐引擎207从包括已输入的新内容的各条内容的群组中提取状况C的词向量。
当提取状况C的词向量时,推荐引擎207从R模式数据库209中读取关于聚类(下文中称为R模式)的信息,并将该信息呈现给用户。例如,推荐引擎207将中心词呈现给用户。当用户从所呈现的R模式选择R模式时,推荐引擎207提取与所选择的R模式对应的关系R的词向量。此外,推荐引擎207通过使用状况C的词向量和已经提取的关系R的词向量来提取推荐内容。然后,推荐引擎207计算每条推荐内容的得分,并将算出得分的各条推荐内容的列表呈现给用户。
在前文中,描述了推荐系统200的系统配置。接着,将详细描述由推荐系统200执行的处理流程。
[3-2:离线处理的流程]
直到事例数据库206的创建为止,根据本实施例的离线处理基本上与第一实施例的离线处理相同。
首先,如图24中所示(本示例示出了j=1的情况),事例关系提取引擎205从状况Aj的词向量中提取词(本示例中为两个词),并且还从结果Bj的词向量中提取词(本示例中为两个词)。接着,事例关系提取引擎 205搜索同时出现了所提取的词的内容。然后,事例关系提取引擎205从作为搜索结果而提取出的内容的区域R中提取具有高得分的词,并且将该词设置为关系Rj的词向量。以这种方式设置的关系Rj的词向量被存储在事例数据库206中。
本实施例的离线处理与第一实施例的离线处理之间的区别在于存在/不存在构造R模式数据库209的处理。因此,将参照图25和图26描述由R模式提取引擎208执行的构造R模式数据库209的处理。
如图26中所示,R模式提取引擎208首先使用关系R的词向量来针对每个事例执行聚类(参见图25,S211)。然后,R模式提取引擎208计算属于每个聚类的关系R的词向量中所包括的每个词的术语频率(S212)。R模式提取引擎208选择具有步骤S212中所计算出的最高术语频率的词的集合或具有步骤S212中所计算出的高术语频率的词的集合作为中心词,并将其登记在中心数据库(R模式数据库209)中(S213)。接着,R模式提取引擎208将聚类与事例之间的对应关系登记在R模式数据库209中(S214),并且结束与构造R模式数据库209相关的系列处理。
在前文中,描述了离线处理的流程。
[3-3:在线处理的流程]
接着,将参照图22、图23和图27至图29描述由推荐系统200执行的处理当中的在线处理的流程。图22、图23和图27至图29是用于描述由推荐系统200执行的处理当中的在线处理的流程的说明图。
(图22:在线处理的概述)
如图22中所示,作为在线处理执行的主要处理是由推荐引擎207进行R模式呈现、推荐内容搜索以及搜索结果呈现。
如上所述,当接收到推荐请求时,执行在线处理。也就是说,当用户选择新内容时,执行在线处理。当选择新内容时((1)用户输入),推荐引擎207提取状况C的词向量(2)。此时,推荐引擎207首先从用户偏好数据库202提取偏好向量,并通过使用表征新内容的区域C的词来更新偏好向量。然后,推荐引擎207将更新后的偏好向量设置为状况C的词向量。
接着,推荐引擎207从状况C的词向量中提取词(本示例中为两个词)(3)。然后,推荐引擎207从R模式数据库209读取R模式,并将已经读取的R模式呈现给用户。当用户从所呈现的R模式中选择R模式时, 推荐引擎207从与用户所选择的R模式相对应的关系R的词向量中提取词(本示例中为一个词)(4)。然后,推荐引擎207搜索在区域C中出现了从状况C的词向量中提取的词并且在区域R中出现了从关系R的词向量中提取的词的内容(5)。然后,推荐引擎207创建用于指示通过搜索处理提取出的各条内容的项目ID的列表(下文中称为推荐列表)。
存在从状况C的词向量和关系R的词向量中提取的词的多种组合。因此,针对不同组合重复执行推荐列表的创建处理,并创建多个推荐列表。推荐引擎207将这些推荐列表整合,并且还将得分添加到每条推荐内容上。然后,推荐引擎207基于所添加的得分来选择要推荐的各条推荐内容的组合,并创建包括所选择的各条推荐内容的推荐列表(7)。
(图23、图27至图29:在线处理的细节)
如上所述,根据本实施例的在线处理包括由用户执行的选择R模式的处理。这里,将更详细地描述在线处理的流程。
如图23中所示,首先,推荐引擎207从用户偏好数据库202获取目标用户的偏好向量,并且将其设置为状况C的词向量(S201)。另外,根据新内容的选择的偏好向量的更新方法和偏好向量(状况C的词向量)的创建方法基本上与第一实施例中描述的方法相同。然后,如图27中所示,推荐引擎207将多个R模式呈现给用户,并使用户选择一个R模式(S202)。然后,推荐引擎207获取与所选择的R模式对应的关系R的词向量(S203)。
接着,如图29中所示,推荐引擎207从状况C的词向量中提取词(本示例中为两个词),从关系R的词向量中提取词(本示例中为一个词),并创建词组合(S204)。然后,对于每个词组合,推荐引擎207搜索同时出现的各条内容的群组,并针对每条内容计算得分(S205)。另外,得分的计算方法基本上与第一实施例中描述的方法相同。
存在从状况C的词向量中提取的词和从关系R的词向量中提取的词的多种组合。因此,推荐引擎207针对每种组合计算上述得分,将每条内容的得分相加,并创建列出每条内容的得分的推荐列表(S206)。然后,推荐引擎207确定是否针对所有事例创建了推荐列表(S207)。
在针对所有事例创建了推荐列表的情况下,推荐引擎207将处理进行到步骤S208。另一方面,在没有针对所有事例创建推荐列表的情况下,推荐引擎207将处理返回到步骤S203,并针对尚未创建推荐列表的事例 来创建推荐列表。在处理进行到步骤S208的情况下,推荐引擎207将所有事例的推荐列表组合地呈现给目标用户(S208),并结束系列处理。
(修改示例:用于减小计算量的方法)
根据图23中所示的处理步骤,针对每一种事例创建了推荐列表。然而,与第一实施例一样,如下修改使得能够简化处理。
首先,如图28中所示,推荐引擎207获取状况C的词向量。然后,推荐引擎207从状况C的词向量中提取词(本示例中为两个词)(1)。然后,推荐引擎207参考事例数据库206,并提取状况A、结果B和关系R的集合,其中从状况C的词向量中提取的词(本示例中为两个词)与状况A的词向量(词A1,词A2)匹配(2)。另外,从与用户所选择的R模式相对应的事例中提取状况A、结果B和关系R的集合。接着,推荐引擎207从所提取的集合中提取关系R的词向量(3)。然后,推荐引擎207将已经提取的关系R的词向量合并,并创建合并向量Rmerge(4)。
接着,如图29中所示,推荐引擎207从状况C的词向量中提取词(本示例中为两个词),并且从合并向量Rmerge中提取词(本示例中为一个词)(1)。接着,推荐引擎207搜索同时出现了所提取的词的集合的内容(2)。然后,推荐引擎207创建通过搜索处理而提取的各条内容的推荐列表(3)。另外,要添加到每条内容的得分的计算方法与第一实施例中描述的方法相同。接着,推荐引擎207将以上(3)中创建的推荐列表呈现给用户。利用这些处理步骤,可以减小计算量。
在前文中,描述了本技术的第二实施例。
<4:第三实施例>
接着,将描述本技术的第三实施例。
[4-1:系统配置]
首先,将参照图30描述根据本实施例的推荐系统300的系统配置。图30是用于描述根据本实施例的推荐系统300的系统配置的说明图。
如图30中所示,推荐系统300主要由偏好提取引擎301、用户偏好数据库302、内容特征提取引擎303、内容特征数据库304、事例关系提取引擎305、事例数据库306、推荐引擎307、推荐列表计算引擎308和推荐列表数据库309构成。
另外,偏好提取引擎301、内容特征提取引擎303、事例关系提取引擎305、推荐引擎307和推荐列表计算引擎308的功能是通过图38中所示的硬件配置当中的CPU 902等的功能来实现的。此外,用户偏好数据库302、内容特征数据库304、事例数据库306和推荐列表数据库309是通过图38中所示的硬件配置当中的ROM 904、RAM 906、存储单元920、可拆卸记录介质928等的功能来实现的。此外,推荐系统300的功能可以使用单个硬件或经由网络或专线连接的多个硬件来实现。
(内容特征提取引擎303、内容特征数据库304)
首先,将描述内容特征提取引擎303和内容特征数据库304。
内容特征提取引擎303是用于构造内容特征数据库304的装置。内容特征提取引擎303首先获取内容的元数据。然后,内容特征提取引擎303通过参考所获取的元数据的结构来识别形成内容的每个区域,并基于TF-IDF值等来提取表征每个区域的一个或更多个词。此外,内容特征提取引擎303将关于内容的信息、关于区域的信息、关于所提取的词的信息等存储在内容特征数据库304中。另外,内容特征数据库304的结构基本上与图6中所示的内容特征数据库104的结构相同。该内容特征数据库304由偏好提取引擎301、事例关系提取引擎305和推荐引擎307使用。
(偏好提取引擎301、用户偏好数据库302)
接着,将描述偏好提取引擎301和用户偏好数据库302。
当用户经由设备10输入信息时,所输入的信息被输入到偏好提取引擎301。例如,将用户的操作日志输入到偏好提取引擎301。当输入用户的操作日志时,偏好提取引擎301基于所输入的操作日志来提取用户的偏好。用于指示由偏好提取引擎301提取的用户的偏好的信息被存储在用户偏好数据库302中。另外,用户偏好数据库302的结构基本上与图7中所示的用户偏好数据库102的结构相同。由推荐引擎307使用该用户偏好数据库302。
(事例关系提取引擎305、事例数据库306)
接着,将描述事例关系提取引擎305和事例数据库306。
事例关系提取引擎305基于存储在内容特征数据库304中的信息来提取事例关系。用于指示由事例关系提取引擎305提取的事例关系的信息被存储在事例数据库306中。另外,事例数据库306的结构基本上与图8中所示的事例数据库106的结构相同。由推荐引擎307和推荐列表计算引擎 308使用已被构造的事例数据库306。
(推荐列表计算引擎308、推荐列表数据库309)
接着,将描述推荐列表计算引擎308和推荐列表数据库309。
推荐列表计算引擎308基于存储在事例数据库306中的信息来创建推荐列表。另外,推荐列表计算引擎308的推荐列表创建方法基本上与根据第一实施例的推荐引擎107或根据第二实施例的推荐引擎207的推荐列表创建方法相同。然而,与上述推荐引擎107和推荐引擎207不同,推荐列表计算引擎308在离线处理中创建推荐列表。因此,推荐列表计算引擎308使用存储在用户偏好数据库302中的偏好向量或者预定的词的群组来作为状况C的词向量。由推荐列表计算引擎308创建的推荐列表被存储在推荐列表数据库309中。
推荐列表数据库309具有如图31中所示的结构。如图31中所示,推荐列表数据库309中包括了推荐列表中所包括的内容的状况C的词向量、项目ID以及得分。由推荐引擎307使用该推荐列表数据库309。
(推荐引擎307)
接着,将描述推荐引擎307。
当经由设备10从用户接收推荐请求时,推荐引擎307基于存储在用户偏好数据库302、内容特征数据库304、事例数据库306和推荐列表数据库309中的信息来提取推荐列表,并将其作为推荐结果呈现给用户。例如,当用户选择特定内容(下文中称为新内容)时,将关于新内容的信息输入到推荐引擎307。当输入关于新内容的信息时,推荐引擎307从包括新内容的各条内容的群组中提取状况C的词向量。然后,推荐引擎307从已经提取的状况C的词向量中提取词的集合,并从推荐列表数据库309提取与所提取的词的集合对应的推荐列表。然后,推荐引擎307将从推荐列表数据库309提取的推荐列表呈现给用户。
在前文中,描述了推荐系统300的系统配置。接着,将详细描述由推荐系统300执行的处理的流程。
[4-2:离线处理的流程]
直到事例数据库306的创建,根据本实施例的离线处理都基本上与第一实施例的离线处理相同。
首先,如图34中所示(本示例示出了j=1的情况),事例关系提取 引擎305从状况Aj的词向量中提取词(本示例中为两个词),并且还从结果Bj的词向量中提取词(本示例中为两个词)。接着,事例关系提取引擎305搜索同时出现了所提取的词的内容。然后,事例关系提取引擎305从作为搜索结果而提取出的内容的区域R中提取具有高得分的词,并且将该词设置为关系Rj的词向量。以这种方式设置的关系Rj的词向量被存储在事例数据库306中。
本实施例的离线处理与第一实施例的离线处理之间的区别在于:在离线处理中预先创建推荐列表,并将该推荐列表保存在推荐列表数据库309中。如图32中所示,首先,推荐列表计算引擎308从存储在用户偏好数据库302中的偏好向量或预定的词的群组(下文中称为整个词列表C’)中提取词(本示例中为两个词)(1)。然后,推荐列表计算引擎308提取所提取的词的集合与状况A的词向量相互匹配的事例(2)。接着,推荐列表计算引擎308从所提取的事例中提取关系R的词向量(3)。然后,推荐列表计算引擎308合并已经提取的关系R的词向量,并创建合并向量Rmerge(4)。
接着,如图33所示,推荐列表计算引擎308从整个词列表C’中提取词(本示例中为两个词),并且还从合并向量Rmerge中提取词(本示例中为一个词)(1)。然后,推荐列表计算引擎308搜索在区域C中包括从整个词列表C’中提取的词并且在区域R中包括从合并向量Rmerge的词向量中提取的词的内容(2)。然后,推荐列表计算引擎308计算通过搜索处理而提取出的每条内容的得分,并创建推荐列表(3)。
另外,存在上述(1)中提取的词的多种组合。因此,推荐列表计算引擎308针对这多种组合来重复执行上述(2)的搜索处理和上述(3)的推荐列表创建处理。以这种方式创建的推荐列表被存储在推荐列表数据库309中。
在前文中,描述了离线处理的流程。
[4-3:在线处理的流程]
接着,将参照图35和图36描述由推荐系统300执行的处理当中的在线处理的流程。图35和图36是用于描述由推荐系统300执行的处理当中的在线处理的流程的说明图。
(在线处理的概述)
首先,将参照图35。当接收到推荐请求时,执行在线处理。当用户 选择新内容时((1)用户输入),推荐引擎307提取状况C的词向量(2)。此时,推荐引擎307首先从用户偏好数据库302提取偏好向量,并通过使用表征新内容的区域C的词来更新偏好向量。然后,推荐引擎307将更新后的偏好向量设置为状况C的词向量。
接着,推荐引擎307从状况C的词向量中提取词(本示例中为两个词)(3)。然后,推荐引擎307参考推荐列表数据库309,提取与所提取的词的集合对应于同一词向量的各条内容和得分,并通过将这些条内容和得分进行组合来创建推荐列表(4)。存在从状况C的词向量中提取的词和关系R的词向量中提取的词的多种组合。因此,针对不同组合重复执行推荐列表的创建处理,并创建多个推荐列表。推荐引擎307将这些推荐列表整合,并且将其作为推荐结果呈现给用户。
(在线处理的细节)
可以将已参照图35描述的在线处理的流程总结为图36中所示的流程图。如图36中所示,推荐引擎307从状况C的词向量中提取词(本示例中为两个词)的组合(S311)。然后,推荐引擎307从推荐列表数据库309获取与在步骤S311中提取的每种组合对应的推荐得分(S312)。然后,推荐引擎307创建将步骤S312中获取的推荐得分与内容进行组合的推荐列表,并将该推荐列表呈现给用户(S313),并且结束系列处理。以这种方式,通过在离线处理中预先创建推荐列表,大大简化了在线处理。
在前文中,描述了本技术的第三实施例。
<5:示例性应用(交叉类别推荐)>
这里,作为上述第一至第三实施例的示例性应用,将描述在交叉类别推荐中的应用。交叉类别推荐(cross-category recommendation)是指基于跨越类别界限的结构映射来推荐内容。如图37中所示,作为交叉类别推荐的示例,存在如下示例:从介绍食谱的页面中提取状况A与结果B之间的关系R,并通过使用关系R和状况C来推荐介绍了与用户的偏好相匹配的书籍的页面。介绍食谱的页面和介绍书籍的页面是属于不同类别的内容。然而,通过应用上述第一至第三实施例的技术,可以实现所描述的跨越类别界限的推荐。
<6:示例性硬件配置>
上述推荐系统100、200和300的每个结构元件的功能可以例如通过使用图38中所示的信息处理设备的硬件配置来实现。也就是说,可以通 过用计算机程序控制图38中所示的硬件来实现每个结构元件的功能。另外,该硬件的模式是任意的,并且可以是个人计算机、移动信息终端(诸如移动电话、PHS或PDA)、游戏机或各种类型的信息设备。此外,PHS是个人手持电话系统的缩写。此外,PDA是个人数词助理的缩写。
如图38中所示,该硬件主要包括CPU 902、ROM 904、RAM 906、主机总线908和桥910。此外,该硬件包括外部总线912、接口914、输入单元916、输出单元918、存储单元920、驱动器922、连接端口924、以及通信单元926。此外,CPU是中央处理单元的缩写。此外,ROM是只读存储器的缩写。此外,RAM是随机存取存储器的缩写。
CPU 902例如用作算术处理单元或控制单元,并基于记录在ROM904、RAM 906、存储单元920或可拆卸记录介质928上的各种程序来控制每个结构元件的整个操作或部分操作。ROM 904是用于存储例如要加载到CPU 902上的程序或者算术操作中使用的数据等的装置。RAM 906暂时地或永久地存储例如要加载到CPU 902上的程序或在执行程序时任意改变的各种参数等。
这些结构元件例如通过能够执行高速数据传输的主机总线908而彼此连接。就主机总线908本身而言,其例如通过网桥910连接到数据传输速度相对低的外部总线912。此外,输入单元916例如是鼠标、键盘、触摸板、按钮、开关、或操纵杆。此外,输入单元916可以是能够通过使用红外线或其它无线电波来传输控制信号的远程控制。
输出单元918例如是能够以视觉或听觉方式向用户通知所获取的信息的显示装置(诸如CRT、LCD、PDP或ELD)、音频输出装置(诸如扬声器或耳机)、打印机、移动电话、或传真机。此外,CRT是阴极射线管的缩写。LCD是液晶显示器的缩写。PDP是等离子体显示面板的缩写。此外,ELD是电致发光显示器的缩写。
存储单元920是用于存储各种数据的装置。存储单元920例如是磁存储装置(诸如硬盘驱动器(HDD))、半导体存储装置、光存储装置、或磁光存储装置。HDD是硬盘驱动器的缩写。
驱动器922是读取记录在可拆卸记录介质928(诸如磁盘、光盘、磁光盘或半导体存储器)上的信息或将信息写入可拆卸记录介质928的装置。可拆卸记录介质928例如是DVD介质、蓝光(Blu-ray)介质、HD-DVD介质、各种类型的半导体存储介质等。当然,可拆卸记录介质928可以例 如是安装有非接触式IC芯片的IC卡或电子装置。IC是集成电路的缩写。
连接端口924是诸如USB端口、IEEE1394端口、SCSI、RS-232C端口的端口、或诸如光学音频端子的用于连接外部连接装置930的端口。外部连接装置930例如是打印机、移动音乐播放器、数码相机、数码摄像机、或IC记录器。此外,USB是通用串行总线的缩写。此外,SCSI是小型计算机系统接口的缩写。
通信单元926是要连接到网络932的通信装置,并且例如是:用于有线或无线LAN、蓝牙(Bluetooth,注册商标)或WUSB的通信卡,光通信路由器,ADSL路由器,或各种类型的通信的调制解调器。连接到通信单元926的网络932由有线连接的或无线连接的网络构成,并且例如是因特网、家用LAN、红外通信、可见光通信、广播、或卫星通信。此外,LAN是局域网的缩写。此外,WUSB是无线USB的缩写。此外,ADSL是非对称数词用户线路的缩写。
<7.总结>
最后,将简要描述本实施例的技术构思。这里阐述的技术构思可以应用于各种信息处理设备,诸如PC、移动电话、便携式游戏机、便携式信息终端、信息设备、汽车导航系统等。此外,以下描述的信息处理设备的部分或全部功能可以通过诸如云系统等的信息处理系统来实现。
以上提到的信息处理设备的功能配置可表示如下。该信息处理设备包括以下描述的第一特征生成单元、第二特征生成单元、关系特征生成单元和推荐内容搜索单元。以上提到的第一特征生成单元是用于基于在目标用户过去选择的第一内容中所包括的第一类型的信息来生成第一特征的装置。此外,以上提到的第二特征生成单元是用于基于在目标用户在选择第一内容之后选择的第二内容中所包括的第二类型的信息来生成第二特征的装置。
例如,针对目标用户过去选择的每条内容X1,...,Xn,以上描述的第一特征生成单元基于各条内容X1,...,Xn的元数据来识别预先设置的、添加有第一类型的元数据的一个或更多个信息区域。然后,以上描述的第一特征生成单元从所识别的信息区域中提取预定数目的特征信息单位(例如,词等),并创建以这些信息单位作为元素的特征向量(下文中称为第一特征向量)。另外,假定已按照X1,...,Xn的顺序选择了各条内容X1,...,Xn。另一方面,以上描述的第二特征生成单元关注于在目标用户最后选 择的内容Xn之后选择的内容Y。
首先,以上描述的第二特征生成单元基于内容Y的元数据来识别预先设置的、添加有第二类型的元数据的一个或更多个信息区域。然后,以上描述的第二特征生成单元从所识别的信息区域中提取预定数目的特征信息单位(例如,词等),并创建以这些信息单位作为元素的特征向量(下文中称为第二特征向量)。在目标用户过去已选择了各条内容X1,...,Xn的前提条件(下文中称为状况A)下,选择本示例中的内容Y。也就是说,以上提到的第一特征向量表征目标用户的状况A,而以上提到的第二特征向量表征状况A的结果(下文中称为结果B)。
现在,关系特征生成单元是用于基于第一特征生成单元所生成的第一特征以及第二特征生成单元所生成的第二特征来生成表明第一内容与第二内容之间的关系的关系特征的装置。当使用以上示例的表述时,以上描述的关系特征生成单元是用于通过使用第一特征向量和第二特征向量来生成表明状况A与结果B之间的关系的关系特征的装置。
例如,以上描述的关系特征生成单元搜索如下内容:该内容中同时出现了从第一特征向量中提取的预定数目的信息元素以及从第二特征向量中提取的预定数目的信息元素。然后,以上描述的关系特征生成单元从已检测到的内容中提取预定数目的特征信息单位(例如,词等),并创建以这些信息单位作为元素的特征向量(下文中称为关系特征向量)。这里,以上描述的关系特征生成单元可以被配置成从预定信息区域中提取信息单位。在此情况下,以上描述的关系特征生成单元参考添加到内容的元数据,并选择要用于信息单位的提取的信息区域。另外,以上描述的关系特征向量用于表征状况A与结果B之间的关系(下文中称为关系R)。
现在,以上提到的推荐内容搜索单元是用于通过使用在目标用户新选择的内容中所包括的第一类型的信息以及关系特征生成单元所生成的关系特征来搜索要推荐给目标用户的内容的装置。当使用以上示例的表述时,以上描述的推荐内容搜索单元是用于在给出与上述状况A对应的新状况C时通过使用状况C和关系R来搜索要推荐给目标用户的内容的装置。这里应注意,以上描述的推荐内容搜索单元不是用于通过使用关系R来获得与状况C对应的结果X的装置。
如上所述,通过基于目标用户的历史来计算状况A与结果B之间的关系R并通过使用关系R来搜索要推荐的内容,可以获得包括了适合目标用户的偏好的新信息的内容。
(备注)
推荐系统100、200和300是内容推荐装置的示例。事例关系提取引擎105、205和305是第一特征生成单元、第二特征生成单元和关系特征生成单元的示例。推荐引擎107、207和307是推荐内容搜索单元的示例。R模式提取引擎208是关系特征生成单元的示例。推荐引擎207是关系选择请求单元的示例。事例数据库106、206和306是特征存储单元的示例。
本领域的技术人员应理解,可以根据设计要求和其它因素进行各种修改、组合、子组合和变更,只要这些修改、组合、子组合和变更在所附权利要求或其等同的范围之内即可。
本公开包含与2011年3月29日向日本专利局提交的日本优先权专利申请JP 2011-072324中公开的主题相关的主题,该申请全部内容通过引用并入于此。

Claims (12)

1.一种内容推荐装置,包括:
第一特征生成单元,用于基于在目标用户过去选择的第一内容中所包括的第一类型的信息,生成第一特征;
第二特征生成单元,用于基于在所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息,生成第二特征;
关系特征生成单元,用于基于所述第一特征生成单元所生成的第一特征以及所述第二特征生成单元所生成的第二特征,生成表示所述第一内容与所述第二内容之间的关系的关系特征;以及
推荐内容搜索单元,用于通过使用在所述目标用户新选择的内容中所包括的第一类型的信息以及所述关系特征生成单元所生成的关系特征,搜索要推荐给所述目标用户的内容。
2.根据权利要求1所述的内容推荐装置,其中,所述推荐内容搜索单元通过执行从所述第一特征生成单元所生成的第一特征中提取与所述目标用户新选择的内容中所包括的第一类型的信息相对应的第一特征的第一处理,执行从所述关系特征生成单元所生成的关系特征中提取与通过所述第一处理所提取的第一特征相对应的关系特征的第二处理,并且使用通过所述第二处理所提取的关系特征,来搜索要推荐给所述目标用户的内容。
3.根据权利要求1所述的内容推荐装置,
其中,所述第一特征由第一特征向量来表示,所述第一特征向量包括形成所述第一类型的信息的多个信息元素并且表征所述第一内容,并且
其中,所述第二特征由第二特征向量来表示,所述第二特征向量包括形成所述第二类型的信息的多个信息元素并且表征所述第二内容。
4.根据权利要求1所述的内容推荐装置,其中,所述第一特征生成单元考虑到所述目标用户选择所述第一内容的顺序来生成所述第一特征。
5.根据权利要求1所述的内容推荐装置,
其中,所述第一特征生成单元通过参考所述第一内容的元数据的结构,从添加有对应于第一类型的元数据的区域获取信息,并且
其中,所述第二特征生成单元通过参考所述第二内容的元数据的结构,从添加有对应于第二类型的元数据的区域获取信息。
6.根据权利要求1所述的内容推荐装置,还包括:
关系选择请求单元,用于向所述目标用户呈现所述关系特征生成单元所生成的关系特征中的多于一个的关系特征,并使所述目标用户选择关系特征,
其中,在所述目标用户选择了关系特征的情况下,所述推荐内容搜索单元通过使用所述目标用户所选择的关系特征来搜索要推荐给所述目标用户的内容。
7.根据权利要求1所述的内容推荐装置,其中,所述推荐内容搜索单元通过根据所述第一内容与所述第二内容之间的关系的强度而计算出得分并考虑所计算的得分,来搜索要推荐给所述目标用户的内容。
8.根据权利要求1所述的内容推荐装置,
其中,所述第一特征生成单元在所述目标用户新选择内容之前生成所述第一特征,
其中,所述第二特征生成单元在所述目标用户新选择内容之前生成所述第二特征,并且
其中,所述关系特征生成单元在所述目标用户新选择内容之前生成所述关系特征。
9.根据权利要求1所述的内容推荐装置,
其中,在所述目标用户新选择内容之前,所述推荐内容搜索单元通过使用与所述第一类型的信息对应的预定信息来执行提取与该预定信息对应的第一特征的第一处理,执行从所述关系特征生成单元所生成的关系特征中提取与通过所述第一处理所提取的第一特征相对应的关系特征的第二处理,并执行计算通过所述第二处理所提取的关系特征的得分的第三处理,并且
其中,在所述目标用户新选择了内容的情况下,所述推荐内容搜索单元执行提取与所述目标用户新选择的内容中所包括的第一类型的信息相对应的预定信息的第四处理,并基于与通过所述第四处理所提取的预定信息相对应的关系特征的得分来搜索要推荐给所述目标用户的内容。
10.根据权利要求1所述的内容推荐装置,其中,所述第一内容和所述第二内容所属的类别与所述目标用户新选择的内容所属的类别是不同的类别。
11.一种内容推荐装置,包括:
特征存储单元,用于存储基于目标用户过去选择的第一内容中所包括的第一类型的信息而生成的第一特征、基于所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息而生成的第二特征、以及基于所生成的第一特征和所生成的第二特征而生成的并且表明所述第一内容与所述第二内容之间的关系的第三特征;以及
推荐内容搜索单元,用于通过使用所述目标用户新选择的内容中所包括的第一类型的信息以及所述特征存储单元中所存储的第三特征,来搜索要推荐给所述目标用户的内容。
12.一种推荐内容搜索方法,包括:
基于在目标用户过去选择的第一内容中所包括的第一类型的信息,生成第一特征;
基于在所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息,生成第二特征;
基于在生成第一特征的步骤中所生成的第一特征以及在生成第二特征的步骤中所生成的第二特征,生成表示所述第一内容与所述第二内容之间的关系的关系特征;以及
通过使用在所述目标用户新选择的内容中所包括的第一类型的信息以及在生成关系特征的步骤中所生成的关系特征,搜索要推荐给所述目标用户的内容。
CN201210078644.3A 2011-03-29 2012-03-22 内容推荐装置、推荐内容搜索方法和信息处理设备 Expired - Fee Related CN102737092B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-072324 2011-03-29
JP2011072324A JP5691735B2 (ja) 2011-03-29 2011-03-29 コンテンツ推薦装置、推薦コンテンツの検索方法、及びプログラム

Publications (2)

Publication Number Publication Date
CN102737092A CN102737092A (zh) 2012-10-17
CN102737092B true CN102737092B (zh) 2017-04-12

Family

ID=46928731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210078644.3A Expired - Fee Related CN102737092B (zh) 2011-03-29 2012-03-22 内容推荐装置、推荐内容搜索方法和信息处理设备

Country Status (4)

Country Link
US (1) US9864747B2 (zh)
JP (1) JP5691735B2 (zh)
CN (1) CN102737092B (zh)
IN (1) IN2012DE00840A (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102088656B1 (ko) * 2013-01-30 2020-04-14 에스케이플래닛 주식회사 디지털 컨텐츠 선택 경로 분석을 통한 연관 컨텐츠 추천 방법 및 그 장치
KR102131791B1 (ko) * 2013-01-30 2020-07-08 에스케이플래닛 주식회사 추천 컨텐츠 및 연관 컨텐츠 제공 방법
CN104216933A (zh) * 2013-09-29 2014-12-17 北大方正集团有限公司 一种知识点隐性关系获取方法及其系统
CN104516904B (zh) * 2013-09-29 2018-04-03 北大方正集团有限公司 一种关键知识点推荐方法及其系统
CN103617543B (zh) * 2013-11-25 2018-05-08 百度在线网络技术(北京)有限公司 应用程序的推荐方法和装置
US20170097985A1 (en) * 2014-06-13 2017-04-06 Sony Corporation Information processing apparatus, information processing method, and program
US10503793B2 (en) * 2014-09-30 2019-12-10 Oath Inc. Personalized search filter and notification system
WO2016094202A1 (en) * 2014-12-11 2016-06-16 Thomson Licensing Content recommendation user interface
US20160179880A1 (en) * 2014-12-19 2016-06-23 International Business Machines Corporation System and method for determining whether files are appropriate for addition into a collection
CN106708883B (zh) * 2015-11-17 2020-09-29 阿里巴巴集团控股有限公司 推荐方法及装置
JP6780992B2 (ja) * 2016-09-15 2020-11-04 ヤフー株式会社 判定装置、判定方法および判定プログラム
CN106792210B (zh) * 2016-12-07 2020-05-12 Tcl科技集团股份有限公司 一种电视用户的分类方法及系统
WO2018117094A1 (ja) * 2016-12-20 2018-06-28 日本電信電話株式会社 音声認識結果リランキング装置、音声認識結果リランキング方法、プログラム
JP6831719B2 (ja) * 2017-03-06 2021-02-17 ヤフー株式会社 情報処理システム、情報処理方法、およびプログラム
CN110020136B (zh) * 2017-11-10 2023-04-07 阿里巴巴集团控股有限公司 对象推荐方法及相关设备
US10915586B2 (en) * 2017-12-29 2021-02-09 Kensho Technologies, Llc Search engine for identifying analogies
CN109727056B (zh) * 2018-07-06 2023-04-18 平安科技(深圳)有限公司 金融机构推荐方法、设备、存储介质及装置
CN109118330B (zh) * 2018-08-09 2020-09-22 珠海格力电器股份有限公司 一种家电推荐方法、装置、存储介质及服务器
US11163777B2 (en) * 2018-10-18 2021-11-02 Oracle International Corporation Smart content recommendations for content authors
CN113139120A (zh) * 2020-01-20 2021-07-20 佛山市顺德区美的电热电器制造有限公司 电子设备及食谱的推荐方法和装置
CN111552874B (zh) * 2020-04-24 2023-10-27 海信集团有限公司 一种冰箱及食谱推荐方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2672735A1 (en) * 2006-12-13 2008-06-19 Quickplay Media Inc. Mobile media platform
CN101206572A (zh) * 2006-12-18 2008-06-25 国际商业机器公司 用于开发应用程序的设备及方法
CN101408960A (zh) * 2007-10-12 2009-04-15 阿里巴巴集团控股有限公司 一种个性化信息推荐方法和装置
CN101436186A (zh) * 2007-11-12 2009-05-20 北京搜狗科技发展有限公司 一种提供相关搜索的方法及系统

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7949565B1 (en) * 1998-12-03 2011-05-24 Prime Research Alliance E., Inc. Privacy-protected advertising system
CA2377941A1 (en) * 1999-06-28 2001-01-04 United Video Properties, Inc. Interactive television program guide system and method with niche hubs
AUPQ903400A0 (en) * 2000-07-27 2000-08-17 Oh, Young June Navigable search engine
JP4655382B2 (ja) * 2001-02-23 2011-03-23 富士ゼロックス株式会社 情報閲覧支援装置及び情報閲覧支援プログラム
US7103887B2 (en) * 2001-06-27 2006-09-05 Sun Microsystems, Inc. Load-balancing queues employing LIFO/FIFO work stealing
JP2003167901A (ja) 2001-11-29 2003-06-13 Kddi Corp 協調フィルタリング方法、協調フィルタリング装置及び協調フィルタリングプログラム
US8086093B2 (en) * 2002-12-05 2011-12-27 At&T Ip I, Lp DSL video service with memory manager
US7007069B2 (en) * 2002-12-16 2006-02-28 Palo Alto Research Center Inc. Method and apparatus for clustering hierarchically related information
JP4231298B2 (ja) * 2003-01-14 2009-02-25 日本電信電話株式会社 情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム
US20050257242A1 (en) * 2003-03-14 2005-11-17 Starz Entertainment Group Llc Multicast video edit control
JP4833336B2 (ja) * 2007-05-08 2011-12-07 富士通株式会社 キーワード出力プログラム、装置、及び方法
US20080294607A1 (en) * 2007-05-23 2008-11-27 Ali Partovi System, apparatus, and method to provide targeted content to users of social networks
US20090150786A1 (en) * 2007-12-10 2009-06-11 Brown Stephen J Media content tagging on a social network
US20100076847A1 (en) * 2008-07-17 2010-03-25 Robert Heller Internet Marketing Method
US20100114696A1 (en) * 2008-10-31 2010-05-06 Yahoo! Inc. Method of programmed allocation of advertising opportunities for conformance with goals
JP5220629B2 (ja) * 2009-01-20 2013-06-26 ヤフー株式会社 コンテンツ提示装置、コンテンツ提示方法及びプログラム
JP5395461B2 (ja) * 2009-02-27 2014-01-22 株式会社東芝 情報推薦装置、情報推薦方法および情報推薦プログラム
JP2010225115A (ja) * 2009-03-25 2010-10-07 Toshiba Corp コンテンツ推薦装置及び方法
US20110258042A1 (en) * 2010-04-16 2011-10-20 Google Inc. Endorsements Used in Ranking Ads
US20110264522A1 (en) * 2010-04-26 2011-10-27 Webjuice, LLC Direct targeting of advertisements to social connections in a social network environment
US20120005045A1 (en) * 2010-07-01 2012-01-05 Baker Scott T Comparing items using a displayed diagram
JP5244877B2 (ja) * 2010-09-15 2013-07-24 株式会社東芝 コンテンツ処理装置
US8543454B2 (en) * 2011-02-18 2013-09-24 Bluefin Labs, Inc. Generating audience response metrics and ratings from social interest in time-based media

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2672735A1 (en) * 2006-12-13 2008-06-19 Quickplay Media Inc. Mobile media platform
CN101206572A (zh) * 2006-12-18 2008-06-25 国际商业机器公司 用于开发应用程序的设备及方法
CN101408960A (zh) * 2007-10-12 2009-04-15 阿里巴巴集团控股有限公司 一种个性化信息推荐方法和装置
CN101436186A (zh) * 2007-11-12 2009-05-20 北京搜狗科技发展有限公司 一种提供相关搜索的方法及系统

Also Published As

Publication number Publication date
JP5691735B2 (ja) 2015-04-01
IN2012DE00840A (zh) 2015-08-28
US9864747B2 (en) 2018-01-09
CN102737092A (zh) 2012-10-17
JP2012208604A (ja) 2012-10-25
US20120254310A1 (en) 2012-10-04

Similar Documents

Publication Publication Date Title
CN102737092B (zh) 内容推荐装置、推荐内容搜索方法和信息处理设备
US9483741B2 (en) Rule-based item classification
CN104412265B (zh) 更新用于促进应用搜索的搜索索引
CN105874753A (zh) 用于社交数据网络用户行为细分的系统和方法
US20130124536A1 (en) Information processing apparatus, information processing method, and program
CN108228844A (zh) 一种图片筛选方法及装置、存储介质、计算机设备
CN108563690A (zh) 一种基于面向对象聚类的协同过滤推荐方法
CN106528676B (zh) 基于人工智能的实体语义检索处理方法及装置
CN109190030A (zh) 融合node2vec和深度神经网络的隐式反馈推荐方法
CN103744904B (zh) 一种提供信息的方法及装置
CN113254549A (zh) 人物关系挖掘模型的训练方法、人物关系挖掘方法及装置
US11868723B2 (en) Interpreting text-based similarity
Koren Tutorial on recent progress in collaborative filtering
CA3165254A1 (en) Linking individual datasets to a database
Chen et al. Query-free clothing retrieval via implicit relevance feedback
AU2020326389B2 (en) Clustering of matched segments to determine linkage of dataset in a database
Ni et al. Automated medical diagnosis by ranking clusters across the symptom-disease network
Zhang et al. Improving augmented reality using recommender systems
CN115525838A (zh) 一种基于大数据用户画像的健康知识推荐方法及系统
Lim et al. App epidemics: Modelling the effects of publicity in a mobile app ecosystem
WO2023152692A1 (en) Determining relationships of historical data records
CN113204713B (zh) 一种大规模商品销售中核心用户和核心物品的挖掘方法
Kokatnoor et al. Root cause analysis of COVID-19 cases by enhanced text mining process
KR20220101807A (ko) Sns 텍스트 기반의 사용자의 인테리어 스타일 분석 모델 제공 장치 및 방법
Odeh Event detection in heterogeneous data streams

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170412

CF01 Termination of patent right due to non-payment of annual fee