CN101069183A

CN101069183A - 关联内容检索

Info

Publication number: CN101069183A
Application number: CNA2005800414186A
Authority: CN
Inventors: E·M·A·迪德里克斯; B·M·范德斯卢伊斯
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-12-01
Filing date: 2005-11-30
Publication date: 2007-11-07
Also published as: KR20070086806A; WO2006059295A1; JP2008522310A; EP1820126A1

Abstract

提供了一种检索系统。提取包括第一已标识内容项目的维度数据的第一说明数据。此处理可以对添加的可用已标识内容项目重复进行。提取备选说明数据。然后，可以生成每个备选内容项目的一组矢量值，每个矢量值表示第一说明数据的维度(例如，元数据、使用历史、流派、内容类型)的维度数据与备选说明数据的对应维度数据之间的相似度。可以基于由生成的这组矢量值所表示的相似度，从备选内容项目中选择相似的备选内容项目，并提供所述的相似备选内容项目。

Description

关联内容检索

技术领域

本发明涉及内容检索、管理和呈现的领域。

背景技术

存储设备和数据库的存储容量，包括个人计算机上和其他类型存储介质上的硬盘，近年来已经快速地增大。存储容量估计大约每12个月增大一倍，同时网络带宽也在非常快速地增大。结果，存储设备存储了较大量的内容，而用户访问这些内容必须变得更为方便。没有按照对用户透明的方式编索引或组织的内容可能被“丢失”，这与用户所关心的需求相去甚远，并且这些内容不太可能被检索。另一方面，用户可以由于存储在存储设备或数据库上的内容而负担过重，并且不能检索网络(例如，因特网)上可用的内容，除非内容以某种方式进行管理或组织，以便为用户提供便利的访问。

存在各种数据检索的方案。Platt的公开号为2003/0221541的美国专利公开了一种自动播放表发生器，其中，包括“不需要的种子”歌曲的多个种子歌曲被用于产生播放表上的歌曲。Cluts的第5,618,876号美国专利公开了基于编辑预先为每首歌曲编写的“风格标签”来选择类似第一组歌曲的额外歌曲。然而，这些参考文献没有公开向用户提供不同于用户指定的已标识内容项目的内容类型的内容。

当然用户也可以检索内容项目，然而试图确定相似的项目却可以是费时且费力的工作，尤其如果用户不知道或未指定需要的项目的内容类型。而且，因为内容项目在用户控制的存储设备或数据库中持续堆积，所以检索内容项目的工作曾经变得更加困难。

发明内容

提供实施或实现检索系统功能的方法、系统、设备、引擎、装置、以及计算机可读介质。提取包括用户选择的第一内容项目的维度数据的第一说明数据。然后，提取包括备选内容项目的对应维度数据的备选说明数据，每个备选内容项目的内容类型不同于用户选择的内容项目的内容类型。可以生成每个备选内容项目的第一组矢量值，每个矢量值表示第一说明数据的维度的维度数据与备选说明数据的相应维度数据之间的相似度。然后可以基于生成的第一组矢量值所表示的相似度，从多个备选内容项目中选择一备选内容项目。选择的备选内容项目或多个备选内容项目然后通过检索系统来提供，例如经由用户接口。

维度数据的维度表示项目的内容类型、项目的内容风格、项目的流派、项目的元数据、项目的使用历史、项目中表演的表演者、与项目有关的导演、与项目有关的创建者、或项目的再现(rendering)要求。正如在此使用的，元数据可以包括项目的创建时间、项目的创建地点、项目的获取时间、和/或项目的获取地点。

可以只是在第一组矢量值所表示的总相似度超过最小阈值时才选择备选内容项目。

可以选择正如第一组矢量值所表示的具有最高总相似度的备选内容项目。

可以标识添加的内容项目。提取包括第二已标识内容的维度数据的说明数据，所述第二已标识内容项目与第一已标识内容项目集合在一起。然后还基于第二组矢量值，选择备选内容项目，所述第二组矢量值表示第二已标识内容项目的维度数据与相似备选内容项目的维度数据之间的相似度。因此，可以选择备选内容项目，以便第一组矢量值和第二组矢量值被求平均值、求加权平均值、或相加。

还可以挑选公共矢量用于加权的结果。选择公共矢量，即表示第一已标识内容项目的维度数据最接近第二已标识内容项目的维度的矢量，并且在选择备选内容项目中，可以加权公共矢量的值，使其大于第一组矢量值和第二组矢量值的其余矢量值。

可以构造有效内容(virtual content)项目。提取包括用户选择的第一和第二内容项目的维度数据的说明数据。提取包括备选内容项目的对应维度数据的备选说明数据，每个备选内容项目的内容类型不同于用户选择的内容项目的内容类型。然后通过平均或加权平均矢量值的有效项目组来构造有效项目，矢量值的有效项目组中的每个矢量值表示第一说明数据的维度数据的维度与第二说明数据的维度数据的对应维度之间的相似度。可以生成每个备选内容项目的第一组矢量值，每个矢量值表示有效内容项目的维度的维度数据与备选内容项目的相应维度数据之间的相似度。因此可以通过如下方式从这些备选内容项目中选择一个备选内容项目，即通过计算这些备选内容项目的每组矢量值的平均值或加权平均值或总和作为测试值，以及确定其测试值超过阈值的备选内容项目作为被选择的备选内容项目。提供选择的备选内容项目或多个备选内容项目。

附图说明

图1是根据本发明实施例的检索系统的总示意图。

图2A-2C是根据本发明的系统的工作流程图。

图3示出了根据本发明实施例的矢量值的数据图表。

具体实施方式

以下讨论和前述附图描述了发明人目前认为最易理解的申请人发明的实施例，然而将要理解的是，在不脱离本发明精神的前提下，本发明的许多修改是可能的，并且本发明可以体现为其他的形式，并可以用其他的方法来实现。而且，所述实施例的特征在不脱离本发明精神的前提下，可以被省略、有选择地或整体上与其他实施例进行组合，或者用于代替其他实施例的特征或其部分特征。附图和详细说明因此被认为是对本发明各个方面的说明性解释，而不应被认为限制本发明的范围。

如图1所示，检索系统1-1包括多个模块，这些模块将在下面进行说明。检索系统1-1的模块，或者它的部分、和/或整个检索系统，可以由硬件、软件、固件、或前述项目的组合组成，然而，一些模块例如可以由硬件组成，而其他模块可以由软件、固件或其组合组成。

应该理解，检索系统的模块不必都与相同的设备布置在一起或集成为一体。还打算将分布式体系结构用于检索系统，其可以“背载(piggy-back)”由现有设备提供的适宜模块。

下面的说明将参照检索系统1-1，而所述检索系统1-1在物理上与数据库1-2集成为一体，或经由有线或无线连接与数据库1-2连接。数据库1-2可以体现在存储设备上，例如个人计算机、个人录像机、娱乐系统、电子管理器、个人手持设备、Jaz驱动器的硬盘，或可以体现为商用存储设备，例如磁盘驱动器。应该理解，数据库1-2可以包括多个连接的存储设备，从而可以在两个或更多这种设备上管理或集合内容项目。还应理解的是，可以认为数据库包括一个或多个存储介质，例如盘，包括CD、DVD、zip盘、软盘、盒式数据磁带、或相似的东西，它们可以被加载到数据库1-2上，并可以由数据库1-2进行检索。然而应该理解，检索系统1-1还能够经由网络1-9检索内容，例如LAN、WAN、因特网等。

如图1所示，检索系统1-1包括说明数据提取器1-11，其是从内容项目中收集某些类型数据的模块。该内容项目可以是视频、或视频片段、电影、照片、文本文件、音乐数据、音频文件或其他类型的多媒体数据、JPEG文件、或XML数据。例如，视频可以是数字录像机拍摄的家庭录像，电影可以是商业分配的影片数据，例如编码为MPEG(包括MPEG-2、MPEG-3等)的影片，照片可以是数字照片数据、或系列的照片或影集，文本文件可以是文字处理软件形成的文件、电子表格、或计算机代码文件，音乐数据可以是MP3文件等，以及其他等等。

说明数据提取器1-11提取的说明数据包括关于内容项目的信息。这种说明数据描述内容项目的维度。这种维度可以包括下列内容中的任何一项或多项内容：

内容类型，包括介质，例如视频、音频、照片、文本文件等；

内容风格或流派，例如假期电影、个人风景摄影、爵士乐等；

项目的元数据，例如项目的创建时间和/或地点，项目的获取时间和/或地点；

项目的使用历史(例如，播放和/或编辑的最后一次/第一次/倒数第二次等的时间和/或地点和/或环境)，大多数使用的时间周期(例如，该项目主要在晚上使用，或在星期一下午使用，或在上午的6-8点钟使用等)，项目的获取时间，项目的创建地点，项目的获取地点，最后一次使用的地点，以及大多数使用的地点(例如，项目主要在客厅使用，或在用户的家里使用等)；这种使用历史数据有时称为元数据，反之，多种元数据有时称为使用历史数据；以及

与内容项目有关的演员、导演、创建者、画家、表演者、摄影师等。

应该理解，关于项目的这种说明数据可以用各种方法来确定和提取，包括从项目中、从索引或数据库管理文件中、或从外部来源(例如，经由到因特网1-9的有线或无线连接，从检索系统1-1所连接的万维网)中确定和提取这种说明数据。

可以用多个方法中的一种方法标识已标识的内容项目。用户可以指定检索其他项目(有时称为“备选内容项目”)所基于的项目。可替换地，新添加或创建的内容项目可以被自动指定为已标识的内容项目，而基于该已标识内容项目来检索其他项目。

基于说明数据提取器1-11提取的说明数据的这些编辑维度，内容项目标识符1-12通过网络连接或从其他源，在数据库中标识关于它们的说明数据的这些维度相似于第一已标识内容项目的备选内容项目。通过按照如下方式给很多矢量中的每一个矢量分配矢量值，矢量构造器1-13然后创建第一组矢量值：每个矢量对应于一个维度，并且矢量的值反映第一已标识内容项目的维度与备选内容项目的相似度或匹配程度。

例如，如果已标识的内容项目和备选内容项目的流派都是相同的，例如都是“西班牙假期”，则对应于内容项目称为风格或流派的维度的矢量将取高值。1或0的矢量值指示第一已标识内容项目与备选内容项目之间的具体维度几乎没有相关性或几乎不匹配，而9或10的矢量值可以指示高的相似度或匹配程度。例如，当两个内容项目都具有“西班牙假期”的流派时，则将为对应于流派维度的矢量分配9或10的值。可替换地，代替使用1-10的标度，矢量值可以仅仅表示维度的“强”、“正常”、或“弱”匹配。应该理解，在不脱离本发明精神的前提下，可以使用这种矢量值的其他方案。然后将计算一对内容项目的这种一组矢量值的平均值或总和，作为两个内容项目之间的总相似度。

如果第二已标识内容项目是可用的，则矢量构造器1-13可以基于说明数据提取器1-11提取的第二内容的说明数据，类似地构造第二组矢量值，从而此第二组矢量值表示此第二已标识内容项目与备选内容项目的对应维度之间的相似度。可以存在添加的可用已标识内容项目。因此，提取说明数据和生成矢量值组的处理，可以针对任意数量的可用已标识内容项目1-N进行重复，N是大于1的正整数。然后，基于所有这种生成的矢量值组、或它们的平均值，执行备选内容项目的选择。

如果一个以上的已标识内容项目可用，则公共矢量发生器/阈值设置器1-14可以选择第一组和第二组矢量值一贯高的一个或多个矢量。这种矢量值然后可以被加权，使表示两个项目之间总相似度的这组矢量值的平均值或总和大于其他矢量的值。用这种方法，表示第一和第二已标识内容项目、或用于捕获(capture)第一和第二已标识内容项目之间相似性并且因而是集合的特征的维度，将被加权，使其大于其他的矢量值。虽然显示为单个模块1-14的一部分，但是分离的模块、公共矢量发生器模块和阈值设置器模块可以构造为检索系统1-1的一部分，或者这些模块可以并入其他模块。

有效项目构造器1-15将在下面讨论本发明实施例工作的环境中进行描述。

内容项目选择器1-16选择要提供给用户的备选内容项目或多个备选内容项目。此模块还可以处理检索系统工作所必需的其他任务，例如全面控制和协调检索系统1-1的模块。

检索结果输出1-17与其他设备接口，并与外部进行通信，包括与用户(未示出)接口。尤其是检索结果输出1-17发出关于检索系统1-1所检索的内容项目的用户接口的信号。用户接口1-3可以是分离的设备，或可以与另一设备或系统集成为一体，例如个人计算机或个人录像机、或一个或多个存储器和上面列举的其他设备。

现在将参照图1-3描述本发明实施例的工作。如上所述，通过用户经由图1所示的用户接口1-3，或通过系统自动地，例如，通过检测数据库1-2中新增的内容项目或隔离的内容项目，第一内容项目被标识。

检索系统1-1的说明数据提取器1-11提取已标识的第一内容项目的第一说明数据，如图2A的S1所述。图3示出的标注为6-11的方框指的是已标识的内容项目1。在S2，编辑第一已标识内容项目的每个维度的维度数据。应该理解，根据用户的需要，多个或所有上述已标识的维度可以是更相关的，而其他的维度可以是完全不相关的，且不被根据本发明的检索系统使用。而且，在此未明确叙述的其他维度具体可以是相关的，且可以被检索系统1-1使用。

如果添加的第二已标识内容项目(在图3中表示为6-12)可用或已经被识别，则执行步骤S3和S4：在S3提取该已标识内容项目的说明数据，并且在S4，编辑第二已标识内容项目的每个维度的维度数据。如图3所示，很多内容项目可以被标识为内容检索的基础。图3示出了第一已标识内容项目(6-11)、第二已标识内容项目(6-12)、以及已标识的内容项目N(6-14)。因此，此处理将针对第1个-第N个内容项目中的每个内容项目进行重复。

图1的内容项目标识符1-12标识网络上或其它地方的数据库1-2中备选内容项目，而说明数据提取器1-11在S5(图2A)提取每个备选内容项目的说明数据，并且在S6编辑每个备选内容项目的维度数据。如果发现第二备选内容项目(表示为方框6-22)，则在S7执行提取第二备选内容项目的对应说明数据的处理，然后在S8执行第二备选内容项目的维度数据的编辑。

根据本发明的一方面，在S9，根据系统的设置或根据用户的设置或当前的命令，可以决定要构造有效项目作为确定备选内容项目的相似性的基础，而在这样情况下，将进行图2C所示的处理。否则，将进行图2B所示的处理。

基于每个已标识内容项目的每个维度与每个备选内容项目对应维度的相似性或匹配，矢量构造器1-13构造矢量值，如图2B的S11所示。图3示出了表6-1，其具有一组矢量6-3，该组矢量的值反映第一已标识内容项目6-11与第一备选内容项目6-21的对应维度的相似度。类似地，一组矢量值6-4反映第一已标识内容项目6-11与第二备选内容项目6-22的维度的相似性。就第二已标识内容项目6-12而言，矢量值组6-5反映了第一备选内容项目6-21的对应维度的相似度，矢量值组6-6反映了第二已标识内容项目6-12与备选内容项目6-22的维度之间的相似度。

每组矢量值还可以包括在S12基于这组矢量值的算术平均值、众数(mode)、中值或总和的计算而确定的平均矢量值，其反映了一对内容项目的平均相似性。因此，例如，图3的矢量值6-3可以包括第一矢量值、第二矢量值、和第h个矢量值，以及这组矢量值的平均值。

其他标识的内容项目也可以是可用的，并且将继续进行基于与备选内容项目对应维度的相似性而提取维度数据并找到一组矢量值的过程。图3的方框1-14示出了已标识的内容项目N。

而且，可以找到其他备选内容项目，并且对于每一个，可以为每个已标识的内容项目计算矢量值组。方框6-23指的是这种备选内容项目M。

根据本发明的实施例，在S13，基于已标识内容项目之间维度的相似性确定公共矢量值组。因此，大多数相似的维度被标识，并且代表性的矢量可以被加权，使其大于其他的矢量，或者可以被专门使用。用这种方法，表示第一和第二(以及添加的)已标识内容项目的、因而用于捕获已标识内容项目之间相似性的、并且因此是正在形成的集合的特征的维度，将被加权，使其大于其他的矢量值，或将其专门用于确定相似的备选内容项目。

在S14，可以计算另一组矢量值6-8，其通过平均或相加备选内容项目6-21的对应矢量值反映了每个备选内容项目的每个维度的总体相似度。因此，例如通过相加或平均该备选内容项目(栏6-2)的每组矢量值的对应矢量值，获得第一备选内容项目与该维度的已标识内容项目的总相似度。而且，组6-8的所有矢量值可以被相加或求平均值，以便获取该备选内容项目的总相似性值。

应该理解，在此采用的平均值可以包括算术平均值、众数、中值或提供所选值的组合视图(composite view)而适合选择的多个这种其他统计函数。而且，可以使用值的简单总和以及多个这种统计函数。根据内容项目的类型，并根据数据库和用户的需要，该内容项目的某些维度都可以比其它的维度更重要，为此原因可以利于加权对应于某些维度的矢量，使其大于其它维度的对应矢量。这些因子被加权的程度取决于应用和用户的需要。

一旦生成了总相似性组6-8的矢量值，则最小相似性阈值可被用来排除不相似的备选内容项目，如图2B的S15所示。

另外，还应留意，可以根据用户的需要和应用，针对各种矢量采用不同的阈值。因此，矢量值满足或超过阈值的备选内容项目被组群管理器1-17与已标识的内容项目集合在一起，而拒绝其他的备选内容项目。可替换地，可以选择最相似的备选内容项目或预定数量的最相似的备选内容项目与已标识的内容项目集合在一起，而可以拒绝其余的备选内容项目。

根据本发明的一个方面，检索到的内容项目的内容类型不同于用户选择的内容项目的内容类型。例如，如果所述用户选择的内容项目的类型是音乐文件、或MP3，则检索到的内容项目的内容类型可以是摄影数据。用这种方法，例如，某个流派的画可以被检索，以便匹配用户选择的同一流派的音乐。

这个(或这些)选择的备选内容项目在S16被提供给用户或用户接口1-3。可以向数据库1-2直接提供促使到该数据库或到用户接口1-3检索选择的备选项目的信号。可以向用户接口1-3提供通知，以便通知用户(未示出)可检索的内容项目。该通知可以包括要检索的内容项目的标识、内容项目的说明、内容项目的URL或链接、对整个内容项目或部分内容项目的检索、或前述事项的组合。在S17，过程结束。

图2C示出了根据本发明一个方面的另一个过程，其使用有效内容项目。在S21，有效项目构造器1-15分析寻找集合所基于的已标识内容项目的维度。然后在S22，基于已标识内容项目的平均维度或加权平均维度，构造所有已标识内容项目的代表性内容项目(称为有效内容项目6-15)。例如，如果所有已标识内容项目的流派都是“西班牙假期”，则有效内容项目将把“西班牙假期”作为它的流派。然后在S23，基于此有效内容项目与备选内容项目的维度的相似性，生成矢量值组6-7。在S24，在选择中应用阈值，选择相似的备选内容项目，或选择得分最高的备选内容项目或多个备选内容项目。

在S25，基于使用阈值处理选择作为相似的备选内容项目，或基于选择的预定数量的最相似备选内容项目，如所述，检索结果输出1-17提供通知信号。在S26，处理结束。

例如，假定用户正在编辑数据库中表示最新西班牙假期的摄影的数字数据，并想要检索另一连接的存储介质中的或因特网上可用的数据库中可用的具有西班牙主题的其他内容项目。用户可以经由用户接口1-3，选择三个照片分别作为已标识的内容项目1、已标识的内容项目2和已标识的内容项目3。检索系统于是将检索作为所选备选内容项目而发现的表示西班牙音乐的数据文件。用户未必记得西班牙音乐的存在，或到数据库1-2的哪里寻找它，而实际上该数据文件已经被访问数据库1-2的另一用户添加了，或者可能已被检索系统1-1从另一存储设备或从万维网检索到。在任何情况下，用户此刻将被告知检索到的内容项目，和/或检索到的内容项目将与用户选择的内容项目相关联。用户于是将能够边看西班牙假期的摄影，边听西班牙音乐。

在前述描述中提供的本发明实施例仅仅用于作为说明性的例子。然而应该理解，本发明的范围在权利要求中提供。

Claims

1.一种内容检索方法，包括：

提取(S1)第一说明数据，所述第一说明数据包括第一用户选择的内容项目的维度数据；

提取(S5)备选说明数据，所述备选说明数据包括备选内容项目的对应维度数据，每个备选内容项目的内容类型不同于用户选择的内容项目的内容类型；

生成(S11)每个备选内容项目的第一组矢量值，每个矢量值表示第一说明数据的维度的维度数据与备选说明数据的对应维度数据之间的相似度；

基于由生成的第一组矢量值所表示的相似度，从备选内容项目中选择(S15)备选内容项目；以及

提供(S16)选择的备选内容项目。

2.权利要求1的方法，其中，维度数据的维度表示以下之一：项目的内容类型、项目的内容风格、项目的流派、项目的使用历史、项目中表演的表演者、与项目有关的导演、与项目有关的创建者、项目的再现要求、以及项目的任何元数据。

3.权利要求2的方法，其中，元数据表示以下之一：项目的创建时间、最后一次使用的时间、大多数使用的时间周期、项目的获取时间、项目的创建地点、项目的获取地点、最后一次使用的地点、以及大部分使用的地点。

4.权利要求1的方法，其中，只有在由第一组矢量值所表示的总相似度超过最小阈值时才选择备选内容项目。

5.权利要求1的方法，其中，选择具有如第一组矢量值所表示的最高总相似度的备选内容项目。

6.权利要求1的方法，还包括：

提取(S3)说明数据，所述说明数据包括第N个已标识内容项目的维度数据，所述第N个已标识内容项目与第一已标识内容项目集合在一起，N是大于1的任何正整数；以及

还基于第N组矢量值自动选择(S15)备选内容项目，所述第N组矢量值表示第N个已标识内容项目的维度数据与相似备选内容项目的维度数据之间的相似度。

7.权利要求6的方法，其中，选择备选内容项目，以便第一组矢量值和第N组矢量值被执行以下之一的操作：求平均值、求加权平均值、和相加。

8.权利要求6的方法，包括选择表示第一已标识内容项目的维度数据最接近第N个已标识内容项目的维度的矢量作为公共矢量，并且在选择备选内容项目中，加权公共矢量的值，使其大于第一组矢量值和第N组矢量值的其余矢量值。

9.一种内容检索方法，包括：

提取(S3)第N个说明数据，所述第N个说明数据包括第N个用户选择的内容项目的维度数据，N是大于1的正整数；

通过对矢量值的有效项目组执行求平均值和求加权平均值其中之一，构造(S22)有效项目，矢量值的有效项目组中的每个矢量值表示第一说明数据的维度数据的维度与第N个说明数据的维度数据的对应维度之间的相似度；

生成(S23)每个备选内容项目的一组矢量值，每个矢量值表示有效内容项目的维度的维度数据与备选内容项目的对应维度数据之间的相似度；

通过如下方式从备选内容项目中选择(S24)一个备选内容项目，即通过计算备选内容项目的每组矢量值的平均值、加权平均值和总和其中之一作为测试值，以及确定其测试值超过阈值的备选内容项目作为被选择的备选内容项目；以及

提供(S25)选择的备选内容项目。

10.一种内容检索系统，包括：

说明数据提取器(1-11)，被配置成提取包括第一用户选择的内容项目的维度数据的第一说明数据；

所述说明数据提取器(1-11)还被配置成提取包括备选内容项目的对应维度数据的备选说明数据，每个备选内容项目的内容类型不同于用户选择的内容项目的内容类型；

矢量发生器(1-13)，被配置成生成每个备选内容项目的第一组矢量值，每个矢量值表示第一说明数据的维度的维度数据与备选说明数据的对应维度数据之间的相似度；

内容项目选择器(1-16)，被配置成基于由生成的第一组矢量值所表示的相似度，从备选内容项目中选择一个备选内容项目；以及

检索结果输出(1-17)，被配置成提供所选择的备选内容项目。

11.权利要求10的系统，其中，维度数据的维度表示以下之一：项目的内容类型、项目的内容风格、项目的流派、项目的使用历史、项目中表演的表演者、与项目有关的导演、与项目有关的创建者、项目的再现要求、以及项目的任何元数据。

12.权利要求11的系统，其中，元数据表示以下之一：项目的创建时间、最后一次使用的时间、大多数使用的时间周期、项目的获取时间、项目的创建地点、项目的获取地点、最后一次使用的地点、以及大部分使用的地点。

13.权利要求10的系统，其中，所述内容项目选择器(1-16)被配置成只有在由第一组矢量值所表示的总相似度超过最小阈值时才选择备选内容项目。

14.权利要求10的系统，其中，所述内容项目选择器(1-16)被配置成选择具有如第一组矢量值表示的最高总相似度的备选内容项目。

15.权利要求10的系统，其中，所述说明数据提取器(1-11)被配置成提取包括第N个已标识内容项目的维度数据的说明数据，所述第N个已标识内容项目与第一已标识内容项目集合在一起，N是大于1的正整数，以及

所述内容项目选择器(1-16)被配置成还基于第N组矢量值，自动选择备选内容项目，所述第N组矢量值表示第M个已标识内容项目的维度数据与相似备选内容项目的维度数据之间的相似度。

16.权利要求15的系统，其中，所述内容项目选择器(1-16)被配置成选择备选内容项目，以便第一组矢量值和第N组矢量值被执行以下之一的操作：求平均值、求加权平均值、和相加。

17.权利要求15的系统，还包括公共矢量发生器/阈值设置器(1-14)，被配置成选择表示第一已标识内容项目的维度数据的维度最接近第N个已标识内容项目的矢量作为公共矢量，

其中，所述内容项目选择器(1-16)被配置成基于加权公共矢量的值大于第一组矢量值和第N组矢量值的其余矢量值，来选择备选内容项目。