CN1751306A

CN1751306A - 使用其他人的简档的个人推荐器数据库

Info

Publication number: CN1751306A
Application number: CN02819014.9A
Authority: CN
Inventors: S·V·R·古特塔; K·库拉帕蒂
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-09-10
Filing date: 2002-09-10
Publication date: 2006-03-22

Abstract

一种(像推荐电视节目的电子节目指南这样的)数据种类推荐器，当用户反复地选择相同的节目材料时避免用户陷入常规。在一个实施例中，推荐器可以自动地被编程用另一个用户的简档起杠杆作用来扩展该用户的简档。例如，推荐器可以使用与用户在相同家庭中的其他用户的目标描述作为指导来扩展该用户的简档。可替换地，家庭简档可以被用作源材料的过滤器，用于请求来自用户的反馈。这样，不是简单地任意扩展用户的范围，还可以得到来自在某种程度上与该用户相关的其他简档的指导，并且被它起到杠杆作用。注意该“关系”可以包括朋友、代表用户兴趣的公开陈规以及其他。

Description

使用其他人的简档的个人推荐器数据库

本发明涉及通过观察用户的行为来学习用户的偏好并且根据所观察到的偏好来过滤大型数据空间的搜索引擎。这样的系统采用一些算法来从用户行为推断规则，而不是要求用户明确地输入规则。更具体而言，本发明涉及根据用户的选择和其他人的选择来为个别用户进行推荐的搜索引擎。

在必须有效和迅速地使用非常大的数据库的应用中，搜索引擎正变得越来越重要。搜索引擎不仅对于搜索环球网有用，而且对于存储目录、电视节目编排、音乐列表、文件系统等也有用。在所关注的焦点从信息转移到知识的世界中，搜索引擎是一个巨大的发展领域并且具有无限的潜力。

搜索引擎正在寻求获得应用的一个方式是所谓的被动推荐器，它用于观察用户的选择行为并根据该行为进行推荐。这个技术与电子节目指南(EPG)结合起来用于选择电视节目。

电子节目指南(EPG)承诺使从无数的电视和其他媒体观看选择之中进行挑选的任务更加易于管理。被动的搜索引擎建立用户偏好数据库并使用该偏好数据库提出建议；过滤当前或将来的节目信息以便简化选择工作；或者甚至代表用户作出选择。例如，该系统可能在没有来自用户的特殊请求的情况下记录节目，或是突出地显示它推荐的选择。

如上所述，用于建立偏好数据库的一种类型的设备是基于用户立场的被动设备。用户仅仅以正常的方式从原始的EPG数据中作出选择，而该系统通过从这些选择中提取用户行为的模型来逐步建立个人的偏好数据库。然后它使用该模型作出关于用户在将来会更喜欢看什么的预测。这个提取过程能够遵循一些简单的算法，例如通过检测对于相同项目的重复要求来识别明显的喜好，或者该提取过程可以是复杂的机器学习过程，例如具有大量输入(自由度)的决策树技术。一般而言，这种模型寻找用户的交互行为(即，为了作出选择而与用户界面(UI)交互作用)中的模式。

一种直接并且相当健全的从用户的观看模式提取有用信息的技术是产生特征-值计数表。特征的一个例子是“日期时间”并且一个相应的值可能是“早晨”。当作出选择时，表征该选择的特征-值的计数递增。通常，一个给定的挑选具有很多特征-值。还可以通过选择(可选地，同时选择)表演的一个子集来产生一组否定挑选(所述挑选就是从上述表演的子集中被区分出来的)。它们各自的特征-值计数将会递减(或者未被观看的表演的计数递增)。这些数据被发送到贝叶斯预测器(Bayesian predictor)，它使用这些计数作为表征候选者的特征-计数的加权，以便预测用户将会更喜欢一个候选者的可能性。在2000年2月4日提交的序号为09/498,271的美国专利申请中描述了这种类型的建立简档机制(profiling mechanism)，该美国专利申请题为“贝叶斯电视表演推荐器”(“BAYESIAN TV SHOWRECOMMENDER”)，该申请在此全部引入作为参考，就好像它们全部在此阐述一样。相同系统种类中的一种基于规则的推荐器(它根据对用户行为的观察被动地建立简档)也在1999年1月14日公开的题为“智能电子节目指南”(“INTELLIGENT ELECTRONIC PROGRAM GUIDE”)的PCT申请WO99/01984中进行了描述。

第一种类型的另一个例子是MbTV，它是一种通过监视观看者的观看模式来学习他们的电视观看偏好的系统。MbTV透明地进行操作，并建立观看者品味的简档。这个简档被用来提供服务，例如，推荐观看者可能有兴趣观看的电视节目。MbTV学习它的观看者的每个品味，并使用它所学习到的来推荐即将开始的节目。MbTV能够通过提醒观看者所希望的即将开始的节目来帮助观看者安排他们的电视观看时间，并且当观看者不在场时，能用附加的存储设备自动地记录这些节目。

MbTV具有偏好确定引擎和存储管理引擎。它们被用来促进电视节目的过后观看(time-shifted television)。MbTV能够自动记录而不仅仅是建议希望的节目。MbTV的存储管理引擎设法确保存储设备具有最佳的内容。这个过程涉及跟踪哪些记录的节目已经被观看(完全或是部分地)，哪些节目被忽略。观看者能够“锁定”记录的节目以便将来观看，从而防止将其删除。观看者处理节目建议或记录内容的方式向MbTV的偏好引擎提供了附加的反馈，该偏好引擎使用这些信息来改进将来的决定。

MbTV将保留一部分的记录空间用以代表每个“构成兴趣”(“constituent interest”)。这些“兴趣”可以转化为不同的家庭成员或是能够代表不同的品味种类。尽管MbTV不需要用户干预，但是它可由那些想要微调其能力的用户来定制。观看者能够影响不同类型节目的“存储预算”。例如，尽管在家庭中主要是儿童观看电视，但是观看者可以指示只有不超过25％的记录空间将会被儿童节目占据。

第二种类型的设备更加主动。它允许用户通过将特征分级来指定喜欢的和不喜欢的。这些可以是对成对的特征-值(该特征的加权加上一个值；例如，加权＝特征的重要性和优选的或不喜欢的值)进行评分，或是一些其他的规则说明，例如喜欢的节目，成对的特征-值的组合例如就像：“我喜欢记录片，但星期四不行，这天晚上伙伴们会过来”。例如，用户能够通过用户界面来指示喜欢戏剧和动作片并且不喜欢某些演员。这些判据然后可以被应用于从一组节目中预测用户会优选哪些节目。

作为第二种类型的系统的例子，欧洲专利申请(EP 0854645A2)描述了一种使用户能够输入例如优选的节目种类(例如，情景喜剧、戏剧连续剧、老电影等)的一般偏好的系统。该申请还描述了一些偏好模板，其中可以选择偏好简档，例如，10-12岁儿童的偏好简档、十几岁女孩的另一个偏好简档、飞机爱好者的另一个偏好简档等。

第三种类型的系统允许用户以某种方式将节目分级。例如，目前TIVO允许用户给一个表演最多三个赞同或最多三个反对。这个信息在某种程度上与第二种类型的系统相似，所不同的是，它允许给予可以被获得的成对的特征-值的加权具有更细致的分辨等级，并且除了在这个上下文中用户品味的表达更加明确外，与第一种类型相似。(注意：这并不是承认在美国专利申请序号为09/498,271中讨论的贝叶斯技术与用户分级相结合(如在第三种类型的系统中所述)是现有技术。)

PCT申请(WO97/4924，题为“使用电视时间表信息的系统和方法”(“System and Method for Using Television ScheduleInformation”))是第三种类型的一个例子。它描述了一种系统，在其中用户能够通过以通常的表格方式显示的电子节目指南导航并选择各种节目。在每个点上，他/她可以完成各种所述任务中的任何一个，包括选择记录或观看的节目、安排观看节目的提示、以及选择节目将其指定为喜欢。将节目指定为喜欢，大概是为了实现例如“总是显示观看这个表演的选项”的固定规则，或是为了实现重复的提示。在该申请中没有清楚地描述指定喜好的目的。然而，更重要地是，为了创建偏好数据库的目的，当用户选择一个节目以便指定它为喜欢时，她/他可能被提供了指示为什么喜欢该节目的原因的选项。以同其他明显的判据相同的方式指示该原因：通过定义一般的偏好。

第一种类型的系统的优势在于对于用户来说更容易，因为用户不需要提供任何明确的数据。用户只需要与系统相互作用。为了使任何不同的机器学习或预测方法有效，必须可获得大量的相互作用历史以便建立有用的偏好数据库。第二和第三种类型的优势在于提供明确的偏好信息。第二种是可靠的但不是完善的，因为在能够决定哪个判据是好的鉴别器以及给它们提供什么样的加权这点上，用户可能要经历一个艰难的时期来提炼他自己的偏好。第三种没有增加用户的负担，而且可能提供最好的信息质量，但是它的产生就是一个负担并且也许不包含使用第二种可以得到的所有信息，而且像第一种一样还需要关于许多表演的信息。

当用户反复观看相同的节目时，显露出现有技术中建立偏好数据库的一个问题。很大百分比的用户的选择是由非常少的一组数据组成，而从这些选择提取的规则导致定义一个过分窄的推荐范围。该问题接近于落入常规(in a rut)。现有技术的另一个问题是它们不允许轻易地共享用户之间的隐式简档。如果一个用户喜欢朋友的推荐，对于该用户并没有好方法来得到他/她朋友的一些或全部简档并将其以某种方式与他/她自己的相结合。

本发明提供根据其他人的偏好(特别是在相同家庭中的那些用户的偏好)来扩展由用户的偏好简档所提供的选择的机制。根据肯定和/或否定例子来产生和改进选择引擎的各种类型的机制是已知的。一种被称为版本空间(version space)算法的方法保存数据库(即，“选择空间”)中可用的所有可能的选择的两个描述：(1)一个概括描述，它是排除所有否定选择的选择空间的最宽的描述，以及(2)一个专门描述，它是包含选择空间中所有肯定例子的最窄的描述。每次提供一个否定或肯定的例子，它被用于相应地改变专门的或概括的描述。在美国专利申请序号为09/794,445，题为“通过节目内容的概括和专门化的电视节目推荐”(“Television Programming RecommendationsThrough Generalizations And Specialization Of ProgramContent”)中描述了关于版本空间算法的算法和其他细节，这里引入该申请作为参考，就好像全部在此阐述一样。

在电视节目选择范围中，概括描述指示出用户可能感兴趣的所有可能的节目选择。专门描述指示出用户明确地感兴趣的所有可能的节目描述。处在概括描述和专门描述之间的描述范围可能很大。而且，概括描述的范围可能太宽以致于无法将很大的一组选择缩减到一个合理的数量，而专门描述的范围可能过分窄，从而被范围很窄的例子所限制。

现有技术提供了一些其他的方法使得用户脱离这种困境。一种方法是从由概括描述定义的很大空间中随机地选择节目内容，并要求用户将它们分级。但是这种作法能够导致相当愚蠢的运用。例如，假设仅仅提供的例子是英语语言例子。用户没有给出非英语描述空间中内容的任何否定例子。但是大多数用户可能不愿意通过观看电视来扩展他们的语言水平。因此，一个随机选择器会抓取英语语言空间之外的例子并要求用户将它们分级，以便只是为了得到或多或少有用的判据。也就是说，用户不喜欢它是因为它是关于汽车的或是因为它是使用西班牙语的？如果用户被要求对太多不相关的选择进行分级，则他很快就会厌烦的。从比用户的概括描述更窄的描述中提取例子将会更好。根据本发明，这可以通过影响(leverage)专门描述或那些根据某种判据而与该用户相似的其他人(例如，同一家庭中的用户)的描述来实现。

在一个实施例中，把概括-专门描述(generalized-specializeddescription)定义为包含由用户选择的一个或多个其他人的专门描述的全部空间。这种概括-专门描述被用作为一个源过滤器，该源过滤器用于产生与所要征求的用户的肯定和否定反馈有关的测试样本。在另一个实施例中，自动地定义一个组(例如家庭中的所有用户)，并且产生一个新的专门描述，它是包含由所有专门描述所定义的空间的最窄的描述。测试样本是从该新的专门空间类似地导出的。

在上述两个实施例的改进中，将优先权给予那些能区分用户的专门描述中的模糊维(ambiguous dimensions)的测试样本。也就是说，已经取消了来自与用户的专门描述一致的概括-专门描述的样本，而喜爱那些属于该描述之外的样本。在上面较后提及的样本明确地在用户的专门描述与概括-专门描述可以沿其而汇合的那些维中具有更高的区分能力。

上述方法的另一个改进是使用用户的概括描述来使概括-专门描述专门化。因为概括描述是用户不喜欢的存储库，所以它可以被用作过滤概括-专门描述的空间的过滤器。

在另一个实施例中，定义了用户种类，并且以类似于协作式的过滤的方式来概括用户的专门描述，以便包含原型用户的专门描述的空间。例如，服务提供者可以产生陈规(stereotype)的专门描述，例如：“体育狂热者”、“血腥暴力”、“历史怪人”、“多愁善感的”、“科学爱好者”以及“科幻爱好者”。

在另一个实施例中，不是使用其他的专门描述来创建反馈源以便改进用户的描述，而是创建一个影响其他专门描述的新的专门描述。换句话说，用该概括-专门描述替代用户的专门描述。

在一个支持实施例(其中用概括-专门描述替代用户的专门描述)的用户界面中，用户可能被要求试用陈规一段时间。如果用户不喜欢该结果，可以恢复旧的专门描述。可选择地，当陈规描述被用来概括用户的专门描述时，该用户可以保留所得到的反馈的益处。

本发明能够扩展到其他类型的归纳引擎(induction engine)。例如，神经网络能够根据来自其他网络的预测而被训练，以便概括它们对喜欢和不喜欢的预测。决策树可以通过已知的技术扩展，例如通过添加由另一个决策树所产生的样本，或者更直接地，通过共享来自另一个决策树的分支。其他类型的机器学习，即使是还未知的，也可以使用本发明的基本思想，并且应该处在本领域技术人员结合本发明的教导的能力范围内。

将结合某些优选的实施例并参考说明性的附图对本发明进行描述，以便于可以更全面地理解本发明。关于附图，要强调的是所示出的特例只是作为例子，并且只是为了说明性的讨论本发明的优选实施例的目的，并且所示出的特例是为了提供被认为是本发明的原理和概念方面最有用和容易理解的描述而给出的。在这点上，除非是为了基本理解本发明所必需的，没有试图更详细地显示本发明的结构细节，结合附图来描述本发明的若干种形式是如何实际实现的，这对于本领域的技术人员来说是显而易见的。

图1是为了描述一种类型的归纳引擎而图示的概念空间，在该归纳引擎中可以实现本发明。

图2A-2C是集合来自两个专门描述的数据的图示，用以形成用于产生反馈的源过滤器或用以形成替代用户的专门描述的新的专门描述。

图3A-3D是代表集合另一个用户的专门描述与概括和专门描述的图示，用以形成检测目标数据的源过滤器。

图4A和4B说明选择用于专门描述特征的一个标记。

图5是实现本发明的实例硬件环境的图示。

图6是简档引擎的第一种特征-值评分类型和使用的图示。

图7是简档引擎的第二种特征-值评分类型和使用的图示。

参看图1，概念空间100是根据描述形式定义的。例如，图1表示一个基于框架(frame)的数据结构，或者使用维恩类型表示法表示每个框架-槽(slot)中的值的表示语言。为了讨论的目的，基于框架结构中的大量槽被表示为描述符分量(例如基于框架结构中的一个槽)的两个轴x₁和x₂。可以理解的是：所选择的槽可以代表任何参数，而且该图并不想要提出表示它们是独立的建议，或对它们的数量存在任何限制。例如，轴X₁能代表电视表演的类型(喜剧、戏剧、恐怖、体育等)，而轴X₂能代表演员(Tom Cruise、ShellyDuvall、Robert Wagner等)。为了讨论的目的，可以想象存在很多不同的描述符分量，每个描述符分量可以取一个或多个值或值的范围，并且每个描述符分量可以依赖于或者不依赖于另一个描述符分量。

可能的描述的总体(universe)(概念空间100)只受形式的固有偏差的限制。在此，每个可能的描述均被包括在概念空间的最高层处的一个空的概括描述115中。在任何学习过程发生之前，这个独立体(singleton)概括描述115包含每个可能的例子。在概念空间的最低层处是一个只包含用户提供的第一肯定例子130的独立体。

在(例如使用上述引入作为参考的申请中所述的版本空间算法)用肯定和否定例子训练一段时间之后，最近的专门描述170被扩展，以致它是包含所有肯定例子的最窄的描述集。根据定义，它排除所有否定例子。而且，在训练之后，从空的概括描述115中已经得到当前的概括描述165，它是不包含任何否定例子的最宽的可能描述集。通过定义，它包含所有肯定例子。

从当前专门描述170所定义的选择空间进行的选择只包括那些与先前肯定例子相似的选择。因此，如果推荐是从当前专门描述170中得出的，则该推荐将会太窄，并且由于对太窄的一组例子给出肯定反馈，用户会困在他/她的常规(rut)中。在这种情况下，用户可能还具有太宽的概括描述，所以该概括描述可能是一个不能通过扩展而达到的、过于宽阔的空间。在这些极端之间存在被称为版本空间101的空间，当从概括描述移向专门描述时，该空间使用随之增加的确定性来定义用户可能喜欢的主题的可能描述。

现在参看图2A-2C，从用户专门描述280和另一个专门描述285的联合得到新的专门描述290。该另一个专门描述285可以是例如陈规描述或是另一个用户的一个描述。在此，用户集(域110、115、120和125的联合)与另一个集(域210、215、220和225的联合)相结合。其结果是由邻近域250、255、260、265、270和275的联合来定义的一个集，如图2C中所示。更准确地，新的描述是经过了概括的用户专门描述280，因而不致于排除由其他专门描述285包含的主题。注意：概括-专门域优选地包括与该用户在同一个家庭中的其他用户的多个其他的专门域。已经发现在某种程度上与其他家庭用户一致的扩展能比用户自己的简档提供更好的预测。

用户可以有选择地使用附加的用户简档来扩展陷入常规的简档。可以向该用户提供选择一组用户简档、陈规简档、或一个或多个特定简档的选项，以用于扩展用户的选项。可以使用其他简档来永久地修改用户简档，或是仅仅基于使用(use-by-use)来扩展选择范围。另一个可能性是使学习引擎例如通过添加家庭所有成员的专门描述来检测用户简档何时落入常规并采取纠正动作。这可以根据简档类型以不同方式来确定。例如，在特征-值-评分类型的简档中，只有很小数量的特征-值-评分记录的简档可能被识别为落入常规。在概念空间中，被高度专门化的专门描述会指示该简档落入常规。注意，区别相同年龄的家庭成员并只有当成员在相似的年龄种类中时才共享描述是适当的。

正如现有技术中所公知的，系统可以请求关于随机选择的新例子的反馈。然而，这样的策略可能是不实用的，因为它可以包括已经提供否定反馈的材料，并且也许只是包括太大的可能主题空间。很可能会找到大部分否定例子，而用户很可能会变得灰心丧气而且失去兴趣。可替换地，当前的概括描述165能够被用作新例子的过滤器。然而，当前的概括描述165仍然可能定义太大的可能性空间以致于不实用。

解决这个问题的一个方法就是使用另一个用户的专门描述作为过滤器来征求反馈。该系统可以使用另一个用户简档的专门描述作为过滤器，以用于选择新的材料并请求用户对于该新材料的反馈。参看图3A-3D，优选的是将用户已经给出反馈的材料从测试例子中排除。因此，用户概括描述165和用户专门描述170中的相应部分可以从其他专门描述285中移除，以便提供新的用于反馈的模板315。虽然图中只显示一个其他的专门描述170，但是清楚的是任何数量的专门描述的联合也可以用于产生用于反馈的模板。

涉及允许用户使用其他人的简档来增强他/她自己简档的一个重要问题是在该过程期间给予用户一些控制感。可能在此最关心的是使得用户明白她/他可以做什么。有时，可以透明地实现其他简档的影响作用。例如，推荐器可以包括从与用户在同一个家庭中的其他用户简档中得到的推荐，而不是完全依赖于该用户个人的简档。可以在部分时间或是全部时间都这样做。当然，无论何时得到反馈，它都可以被用来改进个别用户的简档。

虽然上述讨论采用了由版本空间算法建议的比喻性术语和附图，但是本发明同样适用于其他类型的推荐系统。假设第一用户喜欢由另一个用户简档推荐的例子。允许第一用户使用其他用户简档来修改他自己的简档的一种方式就是使用其他用户简档来产生使用其他用户简档的建议的表演，并且允许第一用户给出对于它们的反馈。这可以在它们的推荐引擎之间没有任何相容性的情况下进行。

另一种扩展用户简档的策略是用另一个用户的概括描述来替代该用户的概括描述。

参看图5，可以支持本发明的硬件环境的一个例子包括计算机440，使该计算机被配置成用于接收视频信号470和用于控制信道改变功能，并允许用户通过链接到计算机440的调谐器445而不是通过电视机的调谐器430来选择信道。这时用户能够通过使用遥控器410来控制计算机，以便从所显示的节目时间表中突出显示所希望的选择，从而选择要观看的节目。计算机440具有数据链路460，通过它，计算机能够接收更新的节目时间表数据。它可以是可连接到因特网服务提供商的电话线，或是一些其他适合的数据连接。计算机440具有海量存储设备435(例如硬盘)，以便存储节目时间表信息、节目应用和升级以及其他信息。关于用户偏好的信息和其他数据可以通过例如存储卡或盘420的可移动介质而被上载到计算机440。

注意在上述举例的硬件环境中很多替换都是可能的，而且都可以与本发明相结合进行使用。可以用易失存储器或非易失存储器代替海量存储器。数据可以本地存储或是远程存储。实际上，整个计算机440可以被通过链路而在现场外运行的服务器代替。控制器可以通过与携带视频的物理信道分离或与其相同的数据信道460来发送指令，而不是使用遥控器通过红外线端口415来向计算机440发送指令。视频470或其他内容可以用电缆、RF或任何其他宽带物理信道载送，或者从海量存储器或可移动存储介质中得到。可以用例如电话线的交换物理信道、或例如ATM的虚拟交换信道、或其他适合于同步数据通信的网络来载送它们。内容可以是并步的并且容许信号丢失，因此可以使用现在的IP网络。此外，用于接收节目内容的线路上的内容还可以是音频、聊天对话数据、网址或任何其他可能对其有各种选择的内容类型。节目指南数据可以通过不同于分离数据链路460的信道被接收到。例如，可以通过与视频或其他内容相同的物理信道来接收节目指南信息。甚至可以通过例如存储卡或盘420的可移动数据存储介质来提供它们。遥控器410可以被键盘、话音指令接口、3D鼠标、操纵杆或任何其他合适的输入设备代替。可以通过数据传输或经由可移动介质，利用移动高亮显示的指示符，识别用符号表示的选择(例如通过姓名和数字表示)，或是以成批形式进行选择来作出选择。在后一情况下，一个或多个选择可以被以某种形式存储并传送到计算机440，完全绕过显示器170。例如，成批数据可能来自便携式存储设备(例如，个人数字助理、存储卡或智能卡)。这样的设备可能在其上存储有很多用于各种环境的偏好，以便定制要被使用的计算机设备。

某些类型的建立简档机制允许它们的内部目标描述以抽象的形式被显示。例如，在基于框架的数据结构中实际允许一个用户通过将标题与不同的槽联系在一起来检查另一个用户的简档是可能的。虽然在任何一个槽中的选择的影响可能影响在其他槽中允许的选择(这是因为槽不是独立的)，但是向用户提供如何建立简档的有意义的视图的直接任务是没有必要的。例如，用户简档可以包含建议Tom Cruise是用户喜欢的演员的专门描述。但是给出肯定反馈的例子被局限于动作类型电影。因此，不能说用户喜欢Tom Cruise。可以是用户只在某些类型的电影中喜欢Tom Cruise。上述例子很简单。实际的例子可能非常复杂，因此很难呈现给用户。界面必须显示所有链接的槽，任何感兴趣的槽由此定义一个多参数空间。但是考虑到目标并不是100％精确的。目标也许仅仅允许用户只能借用另一个用户简档的某些方面，并且表征该方面可能不需要如此完整。该系统可能根据特定槽来修改用户简档，该特定槽通过基于只处在一个槽中的值来标记该修改从而与很多其他槽耦合。因此，如果系统向第一用户指示第二用户简档显示了对于Tom Cruise的一个有标记的偏好，则第一用户在基于该偏好而接受对他/她自己的简档的修改的情况下能够扩展他/她的简档，从而使得它去推荐与在第二用户简档中隐含的所有附带警告(caveat)相耦合的Tom Cruise例子。换句话说，在给出的例子中，第一用户会被询问：她/他是否想要Tom Cruise以及她/他会得到TomCruise(但只是在动作电影中的Tom Cruise)。

在以版本空间算法为条件的基于框架的数据结构中，用于用户简档的特征的确定标记(例如“Tom Cruise”)可能会通过选择与其他槽中的值结合在一起出现很多次的一个值(例如“Tom Cruise”)来识别。换句话说，在专门描述中那个槽-值有很高的发生率。图4A和4B说明了用于允许用户控制描述信息从一个简档移植到另一个简档的这种机制。在此，用户描述(可以是例如用户专门描述)被扫描，并且根据主要特征对它的不同部分做标记。图中所示的是部分210的标记为“Tom Cruise”。以图形来表示，数据结构x₁的一维可以对应于演员。另一维x₂可以被认为对应于其他参数，例如电影类型或任何其他的参数。与其他参数的多个值联合选出值“Tom Cruise”，所以可以推断出它是个重要的特征-值。

注意，虽然该描述的部分210显示为邻近的闭合空间，就像其他图中表示邻近范围的其他部分一样，但是这样的特征可以表示或不表示在目标描述中表示数据的方式。在基于框架的模型中，每个特征或槽可以取离散的值而且相邻的特征之间可能没有关系，使得数据集倾向于形成闭合的空间，例如210。这只是为了讨论的目的而借用的抽象概念。闭合空间的唯一方面在于：它在330所指示的该维中的长度表示这样的事实：值“Tom Cruise”沿着表示其重要性的维x₂与其他特征的多个值相关联。

在其他类型的数据结构中，用于对简档的部分做标记的机制会很容易地被识别出来。例如，在存储特征-值对的系统中对重要特征做标记并将该特征移植到另一个简档会更加容易。参看图6，在这样的系统中，用户提供反馈以便把一个选择分级为喜欢或不喜欢，并且可选择地，包括喜欢或不喜欢的程度。例如，系统可以使用从1至7的评分，其中4为中性的，1-3表示不喜欢的程度，5-7表示喜欢的程度。用户界面(UI)500被用来将节目列成表，并且接受反馈信息。可替换地，当节目结束或是当用户使该节目被切换掉时，UI 500可以是请求用户给出对该节目的反馈的简单提示。优选地，该提示类型服从于一个偏好集，该偏好集允许用户在希望时可以在一些或所有情况下忽略该提示。

由反馈UI 500的每个实例所产生的信息是一个或多个选择(表演，如果是电视数据库的话)555以及与该选择相关联的评分。它被用来填充包含大量这种项目的反馈历史文档505。然后反馈数据560可以被提供到简档建立装置(profiler)550。可替换地，通过首先在简档建立装置550中缩减数据然后将其存储在反馈简档数据库525中，由此以缩减的格式存储数据。该缩减可以是一组特征-值对465，每一个均具有如2000年2月4日提交的题为“贝叶斯电视表演推荐器(BAYES IAN TV SHOW RECOMMENDER)”的专利申请09/498，271所述的分级。给定的选择可以产生具有相应评分的、数量(M)的特征-值对565。优选地，用户对喜欢和不喜欢的节目都进行评定，以便可以得到肯定和否定的反馈。如果只获得肯定的反馈，就是说因为只对选择用于观看的节目提供反馈，则否定因素就无法提供给数据库。这可以使得系统通过在作出选择的同时选择可得到的表演子集来产生一组否定选择，从而得到改进。优选地，如上所述，用户提供肯定和否定反馈的差额，并且不需要否定选择的自动采样。它们相应的特征-值计数将会递减。在很多选择上存储的该数据可以被存储在反馈简档525数据库中。当推荐器580基于从表演数据库520得到的候选者列表作出推荐时，N个记录555的整体这时是可以得到的。这个过程的最终结果是从表演数据库520可得到的过滤了的和已排序的选择列表575。推荐器可以是贝叶斯过滤器或任何其他预测器。

参看图7，可以使用和图6中非常相似的过程来产生特征-值对简档数据库。这个预测器是在背景技术部分所述的第一种类型。在此，用户对节目选择的选择被推断出来以便指示对于节目选择的肯定评分。用户的给定选择的结果是可选择地具有伴随的评分的特定节目665。这个结果还可以包括根据用户响应的方式推断出来的评分。如果用户观看节目直到完成则评分会很高，而如果只观看很短的时间，则评分可能是否定的。如果节目被观看的时间在这两者之间，则评分可能是中间等级。可替换地，被观看的节目可能收到肯定的评分，而未观看节目的随机样本(可选择地，同时)收到否定评分。

观看历史数据库510存储表演和评分。记录670被提供给简档建立装置595，该装置产生具有伴随评分675的特征-值对，它可以被存储在隐式简档数据库530中。隐式简档数据库530的内容680这时对于推荐器620是可得到的，该推荐器将它们与来自当前表演520的数据相结合，以便产生推荐685。

在这种类型的简档建立装置中，缺乏特征的耦合使得对可能从一个简档移植到另一个简档的数据部分做标记的问题变得简单。因此，特征“演员”和值“Tom Cruise”会很容易地被识别为在目标简档中是突出的(standing out in a target profile)。这是因为该特征-值对具有与它相关联的高分。可能向用户提供使他可以选择另一个用户简档的这个方面以便将其移植到他/她的简档的选项，其结果是将会调整与用户简档中的相应特征-值对相关联的评分。

通过组合特征-值-评分类型的数据来扩展一个其简档落入常规的用户，就会在常规的用户简档中提高那些在非常规的用户数据库中具有很高评分的特征-值对的评分。而且，可以产生用户界面，以便允许常规的用户选择要被修改的特征-值。可替换地，用户可能允许它盲目地进行操作。另一个可选方案只允许暂时地改变以便来尝试这种改变。处理落入常规问题的另一个方式是调整与用户简档相关联的任何非常高的评分。这可以由用户有选择地进行。用户界面可能指示给用户什么特征值具有很高的评分(或者是肯定的或者是否定的)，并且允许用户修改它们。

对于本领域的技术人员来说显而易见的是，本发明并不局限于上述示例性的实施例的细节，而且在没有脱离本发明的精神或基本属性的情况下，本发明可以以其他特定的形式实现。因此，这些实施例在所有方面都被认为是示例性而不是限制性的，本发明的范围由所附的权利要求书而不是上述描述来指示，因此在权利要求书的等同物的意义和范围之内的所有改变都包含在其中。

例如，虽然参考电视推荐器对本发明进行讨论，但是很清楚的是它适用于可以使用搜索引擎的任何类型的介质或数据。因此，例如，本发明可以在因特网搜索工具的环境中使用，或是用于音乐数据库的搜索引擎。

Claims

1.一种修改用于数据种类别推荐器的第一用户的用户简档的方法，该方法包括以下步骤：

接收来自第一用户的属于各种数据种类的评分实例的反馈；

响应于所述反馈而改进所述第一用户的用户简档；

响应于来自第二用户的用户简档的数据而修改所述第一用户的用户简档；

所述修改步骤包括进行修改，使得至少一个数据种类的推荐频率被增加而不会减少任何其他数据种类的推荐频率，由此根据存储在所述第二用户的用户简档中的偏好来扩展所述第一用户的用户简档的范围。

2.如权利要求1所述的方法，其中所述第一用户的用户简档包括喜欢的数据种类的专门目标描述，并且所述修改步骤包括概括所述专门目标描述，使得它包含所述第二用户的用户简档的至少一个专门目标描述。

3.如权利要求2所述的方法，其中所述修改步骤包括用所述第一用户的用户简档和所述第二用户的用户简档的专门描述的至少一个联合来替代所述第一用户的用户简档的所述专门描述。

4.如权利要求2所述的方法，其中所述概括步骤包括用所述第一用户的用户简档和所述第二用户的用户简档的专门描述的至少一个联合来替代所述第一用户的用户简档的所述专门描述。

5.如权利要求1所述的方法，包括以下步骤：

响应于来自至少第二用户的用户简档的数据来选择用于修改所述第一用户的用户简档的测试数据；以及

请求所述第一用户对于所述测试数据的反馈，并且响应于所述反馈来修改所述第一用户的用户简档。

6.如权利要求5所述的方法，其中所述选择步骤包括只选择如下的测试数据，对于该测试数据来说，被结合在所述第一用户的简档中的反馈增加所述第一用户的用户简档的区别能力。

7.如权利要求5所述的方法，其中所述选择包括主要选择如下测试数据，对于该测试数据来说，所述第一用户的用户简档尚不足以使所述推荐器能确定所述测试数据是喜欢的还是不喜欢的。

8.如权利要求5所述的方法，其中所述选择步骤包括通过概念空间的专门描述来过滤数据选择的总体。

9.一种数据种类推荐器，包括：

一个学习引擎(440、550)；

一个可连接到所述学习引擎的用户界面设备(410、420、500、605)；

所述学习引擎可连接到一个包含数据选择的描述的数据源(435、445、520)；

所述学习引擎被编程以便通过所述用户界面接收来自第一用户评价所述数据选择的反馈，以及渐进地产生所述第一用户喜欢和不喜欢的数据选择的描述，由此产生第一用户简档(525、530)；

所述学习引擎还被编程以便响应于所述第一用户简档来为所述第一用户产生数据选择的推荐；

所述学习引擎还被编程以便响应于所述第一用户简档和第二用户的至少一个第二用户简档来为所述第一用户有选择地产生数据选择的推荐。

10.如权利要求9所述的推荐器，其中所述学习引擎被编程，以使得所述第一用户简档包括用于定义目标数据选择的窄的描述和用于定义非目标数据选择的宽的描述，该推荐是从位于所述宽的和窄的描述之间的选择空间中得到的。

11.如权利要求9所述的推荐器，其中所述学习引擎被编程，以使得所述第一用户简档至少包括用于定义目标数据选择的窄的描述；并且所述学习引擎还被编程以便对所述窄的描述中的狭窄水平与一个阈值进行比较，使得所述第一用户简档产生包含比所述阈值更窄的目标数据的范围的推荐；并且所述学习引擎还被编程，以便在响应于对所述水平和所述阈值的如此比较的结果的情况下，响应于所述第一用户简档和所述至少第二用户简档来为所述第一用户有选择地产生数据选择的推荐。