背景技术
硬盘驱动器和数字视频压缩技术创造了时移直播电视(TV)和不必担忧磁带或其他可移动存储媒体的可用性地高质量记录大量TV节目的可能性。同时,视听信号的数字化为普通用户增添了大量内容源。每天在跨越各种服务的互联网上发布了巨量的视频片段,所有主要内容制作商都已经使它们的整个内容库在线可用。其后果是,每天使成千上万的潜在感兴趣节目可用,并且可以记录和存储在本地供以后访问。因此,视听材料的数字化以及高速数据传送的广泛可用性导致了任何消费者可用于消费的内容每时每刻都在增加。视听资产或内容项的大型资料库都已上网,并与TV服务提供商提供的数字、直播TV频道、和视频点播(VoD)库竞争。一般说来,术语“内容项”在这里从代表内容区内的信息的项目的意义上来使用。
但是,鉴于这种所提供内容项的数量巨大,个别内容选择成为重要课题。与用户简档不匹配的信息应该被过滤掉,应该选择符合用户需要和偏爱(例如,用户简档)的正确内容项。
推荐系统通过为某个用户简档估计某个内容项的喜欢度以及自动排序内容项来解决这些问题。这可以通过将内容项的特点(例如,特征、元数据等)与用户简档或与其他用户的类似简档相比较来做到。因此,推荐系统可以被看作是过滤掉不想要内容和使感兴趣内容引起用户关注的工具。
推荐技术的使用正在被稳步地引入市场中。在各种例子当中,网站提供推荐器以支持用户寻找他们喜欢的内容项(例如,电影),以及电子设备(例如,个人录像机)将推荐器用于自动过滤内容项。推荐系统正越来越多地应用于通过了解用户简档将服务和产品个体化或个性化,其中机器学习技术可用于推断对新内容项目的评价。
常用推荐技术是协同过滤和朴素贝叶斯(Bayesian)分类。从而,可以从巨量内容项中检索出只与一个或一群用户的简档(即,用户简档)匹配的那些项目。推荐器通常作为独立服务或单元,或作为加载项(例如,插件)提供给现有服务或单元。它们越来越多地出现在像电视机或录像机那样的消费电子设备,或那些设备使用的服务中。推荐器通常需要用户反馈来了解用户的偏爱。隐性的了解使用户不必显性地评价项目,而是可以通过观察像购买、下载、选择项目加以播放或删除等那样的用户行为得出。检测的用户行为可以由推荐器解释和翻译成评价。例如,推荐器可以将购买行为解释成肯定评价,或在视频项的情况下,超过/低于50%的总观看持续时间可能意味着肯定/否定的评价。通常,用户简档通过收集或推断来自用户的有关他们需要什么的信息来构建,并且通过使用用户对所选内容项的偏爱来细化。
由于消费者选择和欣赏可用内容资产的时间不会增加,所以朝着最感兴趣和适合视听内容适当引导愈发重要。通常,网站、服务提供商、和设备制造商提供通过它们的特定提供手段提供适当引导的孤立解决方案,例如,当观看特定视频时,在完成了项目的播放之后,向用户提示他/她可能喜欢观看的其他视频。但是,在像例如直播电视那样的其他频道上没有他/她可能想观看的跨域建议。
目前允许跨越孤立解决方案搜索的现有手段基于两个要素:
1.合并用户简档(这里,例如,两个站点同意共享针对用户收集的信息,以便提高双方利用另外获得洞察力的对准目标能力)。
2.跨域推荐(这里,将一个用户简档转换到另一个领域,例如,将从网店的购买历史中导出的简档转换成起VoD服务的一部分作用的推荐器可以使用的简档)。
在分立领域或孤岛中构建的用户简档显示了弱的跨孤岛推荐性能。因此,对于直播TV节目来说具有卓越推荐特征的EPG(电子节目指南)站点对于VoD库的资产来说无法显示出相同的推荐性能。由于EPG站点的拥有者不提供VoD推荐,所以再次引发分离,因为不好的推荐尽管只针对VoD资产,但导致了对站点质量的感觉总体下降。
发明内容
本发明的目的是提供使跨域推荐性能得到提高的增强推荐系统。
这个目的是通过如权利要求1或权利要求6所述的方法、如权利要求8或权利要求9所述的装置、和如权利要求10所述的计算机程序产品达到的。
元数据指的是任何媒体中的任何种类的加入要评价的特定内容项中或与要评价的特定内容项相联系的任何信息,即,“关于数据的数据”。一项元数据可以描述单个内容项,或包括多个内容项和/或分层级别的数据集合,例如,数据库方案。另外,元数据可以是提供有关其他一个或一群内容项的信息或其他一个或一群内容项的文档的限定数据。例如,元数据可以归档有关一个或一群内容项的数据元素或属性的数据(名称、大小、数据类型、风格、情调、演员表等)、有关一个或一群内容项的记录或数据结构的数据(长度、字段、列等)、和有关一个或一群内容项的数据的数据(处在什么地方、如何联系、所有权)。元数据还可以包括有关一个或一群内容项的背景、质量和状况、或特点的描述信息。
于是,所建议元数据的转换和/或丰富可以保证所获得用户简档可用于与资产领域无关的推荐。内容元数据是特别为不同内容源的所有领域准备的,保证了跨越不同领域的正确性和一致性。此外,从隐性和/或显性反馈手段中导出的用户经历可以跨领域地保持一致。更具体地说,一致内容元数据的可用性保证了一个相同简档时刻可应用于所有领域来提供最高质量的推荐。在跨越不同领域的交接和交互可能性中推荐质量和用户经历的一致性使推荐引擎可直接应用于各种领域。
按照第一方面,接收元数据的格式可以是,例如,扩展标记语言格式。在这种情况下,可扩展样式表语言转换可以用于转换处理。更具体地说,可以为每个领域或每种格式创建描述如何使接收格式的元数据自动转换成预定公用格式的元数据的专用可扩展样式表语言转换文档。当然,也可以使用存储、传送或转发内容相关元数据的其他(文档)格式。然后,必须根据元数据的使用(文档)格式选择转换处理和可选转换文档。
按照可以与第一方面结合的第二方面,可以检验接收元数据的接收格式是否是已知格式。然后,如果接收格式是未知格式,则放弃接收的元数据,并将相应信息发送给接收格式的源。从而,提示相应内容源将不同格式用于它的元数据。
按照可以与第一和第二方面的任何一个结合的第三方面,可以接收新内容项,并且可以根据与接收内容项有关的接收元数据,检验新内容项是否属于推荐引擎的推荐群的专用范围。然后,如果接收的新内容项不属于任何专用范围,则接收的新内容项可以用于建立新范围,或将接收的新内容项加入现有范围中。
按照可以与第一到第三方面的任何一个结合的第四方面,元数据的丰富可以包含在所提取元数据的文本信息(例如,标题信息等)中搜索至少一个分类术语,并通过推广至少一个分类术语导致新分类参数。
要注意的是,上述控制或推荐装置可以实现成含有分立硬件部件的分立硬件电路,实现成集成芯片,实现成芯片模块的布置,或实现成可以通过存储在存储器中的软件例程或程序控制的信号处理设备或计算机设备或芯片。
具体实施方式
现在根据对像书本、TV节目、电影等那样的内容项生成评价的示范性推荐系统描述本发明的实施例。
图1示出了包含元数据库103的推荐装置或系统的示意性框图,该元数据库103适用于经由一致性处理装置或服务器功能(CPA)102,从诸如提供有关TV节目的元数据的直播TV的EPG服务、视频点播(VoD)类别源、顶级互联网源(例如,视频播客)等的不同领域的多个不同内容源(S1到Sn)101-1到101-n接收内容相关元数据,所述一致性处理装置或服务器功能(CPA)102用于在接收和转换不同内容源101-1到101-n的内容相关元数据以便跨越不同领域地实现或建立一致性和可靠性的中间地点上建立一致性和可靠性。该元数据库103可以与至少一个预选过滤器(F)105连接,预选过滤器(F)105与个性化内容信道相联系和相应地过滤内容项。注意,可以提供任意数量的个性化内容信道。预选过滤器105的输出端与各自推荐引擎(RE)107连接。因此,每个个性化内容信道可以含有与之相联系的自身推荐引擎107。每个推荐引擎107和因此个性化内容信道具有与之相联系的简档(P)109。推荐引擎107的输出端与调度器(SCH)111连接。调度器111与存储设备113(例如,一组硬盘驱动器)以及与选择器(SEL)115连接。
在实施例中,一致性处理装置102可以适用于积极地从内容源101-1到101-n的不同几个中检索元数据。这可以,例如,通过如下手段来实现,即将内容源101-1到101-n的至少一些的地址或接触信息(例如,服务器地址)存储在一致性处理装置102上或从远程源或数据库中导出地址或接触信息,以及使用这个地址或接触信息访问内容源101-1到101-n的相应几个。
除了内容相关元数据之外,内容源101-1到101-n还以广播或点播方式至少提供例如音频/视频信息,同时这还包括通过互联网地址(例如,URI(统一资源标识符))间接提供。内容相关元数据可以是,例如,视频信号的垂直消隐间隔内的EPG信息、或有关特定内容项的分段(例如,电影的场景边界)的MPEG-7元数据、或描述视频博客或播客的不同情节的RSS摘要(RSSfeed)。RSS(最常扩展成“真正简单聚合”)是用于以标准化格式发布像博客条目、新闻标题、音频、和视频那样的频繁更新作品的一族网摘格式(web feedformat)。RSS文档(叫做“摘要”、“网摘”、或“信道”)包括完整或概括文本,加上像发布日期和作者那样的元数据。不同内容源101-1到101-n与包含至少一组内容分离器件(例如,调谐器等)的选择器115连接,该内容分离器件使一个或多个内容项分开以便记录在存储设备113上。选择器115的输出端与存储设备113连接。
在一致性处理装置102上捕获、丰富和排列作为内容源101-1到101-n的可用服务的一部分的资产的元数据,以形成也可以远离推荐引擎107的丰富和一致元数据库103。然后使一致元数据的所得集合可用于前端解决方案,例如,网站或并入或使用推荐系统、将屏幕显示输出用于电视机的设备。然后可以跨越所有已知资产或领域地无缝应用推荐系统,例如,在EPG的背景下训练出来的推荐器可以时刻为VoD资产提供完美推荐。
也可以从选择器115接收选择相关信息的一致用户接口(CUI)106向分类器(CL)104报告有关用户交互的所有相关信息,分类器(CL)104从元数据库103中检索与那些交互有关的元数据。分类器(CL)104将隐性观察的用户行为和显性用户输入翻译成两种设置:1)推荐器(RE)107用于为内容项计算至少一个分数的简档109;以及2)在可用在元数据库103中的所有内容项当中进行潜在感兴趣内容项的预选的过滤器(F)105的设置。
现在描述图1的装置的操作。从各自内容源(例如,互联网服务)中收集,或经由其他手段--例如,经由模拟TV广播信号的垂直消隐间隔中的发送或经由数字视频广播(DVB)传输流,或上述手段的任何组合--获取要在个性化内容信道上播出的当前内容项的元数据,并且在可以在推荐系统或装置的输入端上的中间地点上,或在远程地点上转换它。该内容项可以是TV节目、包含视频和/或音频数据的数据流或节目的片段等。
元数据可以包含像标题、演员、导演和风格那样与内容项有关的多个属性和属性值。每个简档109都基于元数据以及指示用户的“喜欢”或“不喜欢”的数据。“喜欢”和“不喜欢”的评价可以基于传递给相关预选过滤器105的反馈或内容项。这种反馈可以,例如,由使用特定个性化内容信道的用户经由一致用户接口106作为显性评价给出。评价可以以几种方式作出。例如,用户可以使用遥控设备,针对当前所选内容项或当前内容项的给定属性,通过在支持当前内容项的同时按下用户接口(例如,遥控设备)上的适当按钮表示他的评价(“喜欢”或“不喜欢”)。可替代的是,可以观察用户的行为。例如,如果用户观看当前内容项超过预定时间间隔(例如,20分钟),则自动表示“喜欢”。在更高级的设置接口屏幕中,可以为与内容项有关的至少一个属性和属性值提供离散或连续尺度上的显性“喜欢”度,而非仅仅是二元“喜欢”或“不喜欢”的分类。例如,可以将具有值“Clint Eastwood”的属性“电影演员”的喜欢度设置成五颗星。
当内容项的信息数据通过过滤器105时,将这个信息数据转发给推荐引擎107。推荐引擎107根据其相关简档109,为这个随后内容项计算“喜欢”度或评价。然后将与随后内容项相联系的信息数据与计算的评价一起转发给调度器111,调度器111随后计算用于调度将推荐引擎107提供的内容项记录在存储设备113上的记录时间表。尤其,调度器111在仍然为每个个性化内容信道考虑足够多新内容的同时,可能主要考虑高喜欢度或评价的内容项。为此,将调度器111计算的记录时间表用于指示调度器115选择可从内容源101-1到101-n的相关一个中获得的内容项,以便将它们记录在存储设备113上。
使用或用户简档可以使用三种基本方法导出:隐性归档;显性归档;和反馈归档。隐性归档方法从用户的使用历史,例如,观看的和未观看的电视节目的集合中悄悄地导出内容使用简档。显性归档方法从用户回答的问题中导出内容使用简档,这些问题包括有关用户偏爱,例如,强烈偏爱演员“ClintEastwood”的显性问题。反馈归档方法从用户提供喜欢或不喜欢度的评价的内容项中导出使用简档。
一致用户接口106的第一例子可以是,例如,显示屏上的直播节目的个人节目指南。紧挨着直播频道,可以通过简单选择那些直播TV节目之一作为种子节目,然后对这个新观看选项指定特定标记,对可用直播TV节目创建个人视图。进一步,可以评价出现在屏幕的视图中的所有节目,以便细化通过其过滤器设置和简档表征的个性化视图。注意,可以使节目指南适用于无缝列出来自直播TV和VoD服务的节目。
一致用户接口106的第二例子可以是,例如,显示屏上的点播内容项的个人节目指南。在本例中,在个人EPG观看选项的范围内创造的简档的应用提供了按感兴趣的范围与观众的偏爱匹配的可用VoD内容项的瞬时概况。用户通常可以返回到那个屏幕,因为浏览巨大内容库是有效的和极端方便的方式。同时,可以将屏幕实地的一部分用于提示需要廉价抛售(例如,最后机会),或在销售时提供保证金(例如,刚到)的内容项。注意,使用范式与直播TV的上述个人节目指南相同。此外,在这里,用户可以选择出现在屏幕上的任何内容项,并将它用作种子事件以便创建随后可用在VoD中,但也可用在EPG视图中的新个人观看选项。
一致用户接口106的第三例子可以是记录、直播、或点播内容项的个人节目指南。在提供个人视频记录能力的情况下,可以实现汇总内容视图。它可以显示记录内容项、直播TV节目、针对性报价、品牌渠道、和来自VoD库的资产,所有这些都按用户开发的观看选项分组。
作为结论,该实施例使不损害信任或可用性地逐步部署高级内容服务和软件包成为可能,这实现了最大程度的吸收并且从基于背景的学习出发优化目标性能。
图2示出了一致处理装置102的实现例子的示意性框图。转换处理器1023适用于将不同内容源101-1到101-n使用的不同文档格式(DF1)1021和(DF2)1022转换成推荐引擎107使用的公用文档格式(DF A)1026。转换处理可以基于可以存储在一致性处理装置102中的专用格式转换文档1024、1025中。显示在图2中的部件或方块可以实现成硬件电路或部件,或可替代地,实现成存储在计算机或处理设备的存储器中的软件例程。
作为特定但非限制性的例子,可以使用XSLT(可扩展样式表语言转换)将不同领域的元数据转换成公用格式1026。这种示范性方法可以应用在不同领域的元数据作为XML文档来提供,以及一致元数据格式也用XML来表达的情况下。对于每个领域,创建描述如何使元数据从例如如上面例子中那样的领域1和2自动转换到这里叫做A的所希望目标格式的专用XSLT文档1024、1025。
在不使用XML格式的情况下,可以构建专用转换软件块(本地实现上面所描绘XSLT处理器和XSLT x→A格式转换文档的组合)来进行转换。
图3示出了按照一个实施例实现分布式元数据的公用格式的转换处理器1023的处理的流程图。
当在一致性处理装置102上接收到新元数据或将新元数据供应给一致性处理装置102时启动该过程。在步骤S100中,首先检验接收元数据的文档格式是否是已知格式。例如,在转换处理器1023上配备相关转换文档或软件块。对于文档格式已知的文档,在步骤S101中应用专用转换过程,并在步骤S102中分配转换元数据文档。对于文档格式未知的文档(例如,无法适当翻译或缺少重要信息的文档),该过程转到步骤S103,并放弃所有这样的文档(例如,视听内容项的描述未包含最少所需信息的元数据)。其结果是,不可能找到或推荐那些内容项。
如果在步骤S103中放弃失败文档,则将有关未知、缺少或错误格式的信息发送给各自文档源(即,内容源101-1到101-n之一),并将有关缺少信息通知该描述的拥有者或源(例如,制作和发布电影的工作室)和提示他提供这样的信息,以便使他的内容项可在系统中找到。
要提到的是,在可替代实施例中,将有关文档格式未知的文档,或已知格式内还未指定的值通知转换处理器1023的操作者,而不是内容源,使操作者可以直接创建新格式转换文档来纠正转换错误。
图4示出了按照一个实施例对内容项指定推荐范围的处理的流程图。
图4的过程可以在推荐引擎107上实现,以便实现跨越不同领域的一致用户经历(例如,反馈、推荐输入、方式推荐项目、推荐输出)。
推荐的展示总是成群地进行。每个群对应于进一步称为推荐范围的专用节目范围(例如,与特定节目类型和风格相联系,例如,节目类型=电影,风格=动作)。属于这样推荐范围的节目可以通过SQL(结构化查询语言)询问或关于数据集的其他过滤技术容易地识别(例如,在过滤器105上)。与显示推荐内容项的领域无关,图4的过程可以应用于接收的内容项。
如果接收或处理新内容项,则首先在步骤S200中检验内容项是否在推荐范围内。如果是,则在步骤S201中为内容项计算指示这样内容项的假设喜欢度的分数。可选地,可以将内容项作为种子用于新推荐范围(具有利用它将所有相似内容项从当前节目范围移动到新节目范围的选项),或可以将内容项加入另一个推荐范围中(具有利用它将所有相似内容项从当前节目范围移动到新节目范围的选项)。另一方面,如果在步骤S200中确定内容项未在提供的推荐范围内(例如,发现成为搜索的一部分,或节目指南),则该过程转到步骤S202,可选地将内容项作为种子用于新推荐范围,或如果有可能,加入现有推荐范围中。
要注意的是,在各个领域之间共享推荐范围,即,如果在TV领域中通过,例如,播种有关电影的新范围创建新推荐范围,则那个推荐范围现在也时刻存在于,例如,与相关电影类似地瞬时推荐的VoD领域中。
在下文中,描述捕获,丰富或排列内容项的元数据以便获得元数据的一致集合的技术措施。
图5示出了可以在一致性处理装置102或分类器104上实现、按照一个实施例丰富所接收元数据记录的处理的流程图。
对有关资产的元数据的捕获可以是多方面的,例如,可以从直播TV广播信号的数字视频广播服务信息(DVB-SI)中提取元数据,或可以与提供的VoD资产一起例如作为CableLabs ADI1.1文件提供元数据,或可以从包含视听资产的文件中提取元数据,例如,嵌入元数据作为ID3标志,或可以由发布者以例如TVanytime格式独立提供元数据。
这样来自不同源(即,也未必具有不同格式)的数据的排列通过保证值空间之间的适当映射来实现(这样的映射描述可以是在图3中所述的步骤的固有部分)。这样值空间的例子可以是节目类型,其中源格式可能将内容项分类成节目、或连续剧、或新闻、或电影或其他的至少一种,且一致目标格式可能利用体育、或娱乐、或连续剧、或新闻、或电影的数值—在本例中,相互直接映射重叠类型(连续剧/新闻/电影),而将节目映射成娱乐,并转发标记为其他的内容项以便作进一步自动或人工处理。
当接收或处理新元数据时,对于具有源格式的每个分类值,首先在步骤S300中检验在目标分类空间中是否存在相应类别。如果是,则如下所述,在步骤S301中映射重叠类别和在步骤S302中改善元数据。如果在步骤S300中确定未重叠,则该过程转到步骤S303,应用本体处理来丰富分类类型。
元数据的丰富因此自动地,例如,通过应用本体来完成。继续上面的例子,本体可能允许推断“方程式1”、“足球”、“篮球”等都是体育。因此,在源格式中分类成其他的内容项的一条自动映射或丰富规则可以基于检测的标题信息。如果节目或内容标题从允许将其分类成“体育”的词汇之一开始,则自动将节目类型调整成更一般“体育”类别。进一步,本体可以指定“世界杯”是体育事件,因此,如果在分类成“体育”的资产的长文本描述中找到“世界杯”,但其关键词部分和主题圈未将它分类成世界杯事件,则自动将这个附加信息加入资产的元数据中。
注意,本发明可以应用于机顶盒、电视机、移动电话、个人数字助理(PDA)、个人计算机(PC)、和推荐器用于从多个来源中收集、过滤、和向它们的用户展示内容项的所有设备的任何推荐系统。本发明因此不局限于电视或电影内容的推荐器,而是可以应用于音乐、戏剧节目、书籍和可以为其构建推荐器的所有类型产品和服务。
总之,本发明涉及控制不同内容源(101-1到101-n)的内容相关元数据的分配和处理的装置、方法和计算机程序产品,其中将所提取元数据从所提取元数据的接收格式转换成推荐引擎使用的预定公用格式。另外或可替代地,检验所检测分类参数与至少一个存储分类参数之间的重叠,以及通过加入从非重叠元数据的基于本体处理中导出的至少一个新分类参数丰富非重叠元数据。
虽然在附图和上面的描述中已经详细例示和描述了本发明,但这样的例示和描述被认为是例示性的或示范性的而不是限制性的。本发明不局限于公开的实施例。通过阅读本公开,其他修改对于本领域的普通技术人员来说是显而易见的。这样的修改可能牵涉到在现有技术中已知的和可以取代本文已述的特征或除了本文已述的特征之外使用的其他特征。
本领域的普通技术人员可以通过研究附图、公开和所附权利要求书理解和实现公开实施例的变种。在权利要求书中,词汇“包含”并不排除其他元件或步骤,以及不定冠词“一个”或“一种”并不排除多个元件或步骤。单个处理器或其他单元可能根据相应软件例程至少完成图2到5的功能。计算机程序可能存储/分布在像与其他硬件一起或作为其他的一部分供应的光存储媒体或固体媒体那样的适当媒体上,但也可以以其他形式,像经由互联网或其他有线或无线通信系统那样分发。某些措施被列举在相互不同从属权利要求中的仅有事实并不指示不能有利地使用这些措施的组合。权利要求书中的所有标号都不应当理解为限制本发明的范围。