CN101438282A - 基于内容项关联的自动内容组织 - Google Patents
基于内容项关联的自动内容组织 Download PDFInfo
- Publication number
- CN101438282A CN101438282A CNA2005800413501A CN200580041350A CN101438282A CN 101438282 A CN101438282 A CN 101438282A CN A2005800413501 A CNA2005800413501 A CN A2005800413501A CN 200580041350 A CN200580041350 A CN 200580041350A CN 101438282 A CN101438282 A CN 101438282A
- Authority
- CN
- China
- Prior art keywords
- content item
- data
- dimension
- vector
- candidate content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/908—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/40—Data acquisition and logging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供一种关联引擎,用于在逻辑数据库中组织内容项。在数据库中提取(S1)包括第一识别内容项的维度数据的第一描述数据。该过程可对其它可用的识别内容项重复进行(S3)。提取(S5)候选描述数据。然后,可以为每一候选内容项生成(S11)一组矢量值,每一矢量值表示在第一描述数据的一个维度的维度数据与候选描述数据的相应维度数据之间的相似度,所述维度例如是元数据、使用历史、种类、内容类型。基于被生成的矢量组值所表示的相似度,可以从候选内容项中选择(S15)一个相似的候选内容项,并在逻辑数据库的组织中与第一内容项组合在一起。
Description
本发明涉及数据库内容组织和管理领域,以及涉及内容项关联与分组。
包括个人计算机上的硬盘驱动器和其它类型的存储介质的存储设备和数据库的存储容量,近年来一直在迅速增加。据估计,存储容量大约每12个月就翻一番,同时网络带宽也一直在迅速增加。其结果是,存储设备储存了更大量的内容,而这需要提高用户访问这些内容的能力。用户可能会由于存储于存储设备或数据库中的内容而过载,除非这些内容以某种方式管理或组织以供用户方便地访问。另一方面,没有以一种对用户透明的方式分组的内容可能会由于远离用户需求而“丢失”。
存在存储设备组织的各种方案。Lawler的美国专利No.5,905,981公开使介质对象文档的内容与当前新闻文章关联起来,该文档包括一个具有对于每一介质对象的关键字的索引。Obrador的国际公开No.WO 2004/012105公开基于与一个或多个数据结构的相关程度从一个介质对象的集合中来选择介质对象,上述数据结构是从被索引的、临时排序的数据结构中选择出来的。然而,这些系统每个都需要某种索引、预先存在的排序,和/或关键字。
当然对用户而言,手工组织存储设备或数据库的内容项以便获得令人满意的内容项分组,也是可能的。然而,这可能是一项耗时且任务繁重的工作。而且,随着存储设备或数据库中内容项的不断积累,需要对用户部分进行持续地干预以保持数据库中项目方便的和符合逻辑的分组。
提供一种方法、系统、设备、引擎、装置以及计算机可读的介质,它体现或执行用于在逻辑数据库中组织内容项的关联引擎的功能。这可以如下实现。可以在逻辑数据库中提取第一描述数据,其包括用于第一识别内容项的维度数据。该过程可以对其它可用的识别内容项重复进行。可以进一步在逻辑数据库中提取候选描述数据,其包括用于候选内容项的相应维度数据。然后,可以为每一候选内容项生成一组矢量值,每一矢量值表示为在第一描述数据的一个维度的维度数据与候选描述数据的相应维度数据之间的相似度。基于由所生成的矢量值组表示的相似度,可以从候选内容项中选择一个相似的候选内容项。因此,可以将相似的候选内容项与逻辑数据库的组织中的第一内容项组合在一起。
另外,维度数据的维度可以表示该项的内容类型、项的内容风格、项的种类、项元数据、项的使用历史、执行该项的执行者、与项关联的指导者、与项关联的创建者、或者提供项的需求。应该理解,元数据可以表示项的创建时间、项的创建地点、项的采集时间和/或项的采集地点。
只有在由该组矢量值所表示的一个总相似度高于一个最小阈值时,才可以选择相似的候选内容项。该阈值可由用户决定或预先设置,或者由关联引擎依据已发现的结果来提供。另外,当由用户设置时,可以为用户提示一个默认阈值。
进而,可以选择由该组矢量值所表示的具有最高总相似度的一个或多个候选内容项。
如果有可用的其它识别内容项,则可以提取包括与第一识别内容项组合在一起的用于第二识别内容项的维度数据的描述数据。然后,同样基于表示在用于第二识别内容项的维度数据和相似的候选内容项的维度数据之间的相似度的第二组矢量值,可以选择该相似的候选内容项。在这种情况,可以选择该相似的候选内容项,从而对第一组矢量值与第二组矢量值采取平均、加权平均或相加。
另外,可以选择一个表示维度的通用矢量(对于该维度,第一识别内容项的维度数据最接近第二识别内容项),因此,在选择相似的候选内容项时,对通用矢量的值的加权要大于其余的矢量值。
另外,公开了基于分组的虚拟项生成。在逻辑数据库中提取第一描述数据,其包括用于第一识别内容项的维度数据。同样在逻辑数据库中提取第二描述数据,其包括用于第二识别内容项的维度数据。然后,在逻辑数据库中提取候选描述数据,其包括用于候选内容项的相应维度数据。可以通过对矢量值的一个虚拟项组取平均、加权平均或仅仅求和而构建一个虚拟项,这里每一矢量值表示在第一描述数据的维度数据的维度与第二描述数据的维度数据的相应维度之间的相似度。生成用于每一候选内容项的一组矢量值,每一矢量值表示在用于虚拟内容项的一个维度的维度数据与候选内容项的相应维度数据的相应维度之间的相似度。然后,通过对候选内容项的每组矢量值计算平均值、加权平均值和/或总和以作为一个测试值,并通过将测试值高于阈值的候选内容项确定为相似的候选内容项,从候选内容项中选择一个相似的候选内容项。将相似的候选内容项与逻辑数据库的组织中的第一内容项组合在一起。
附图说明
图1是根据本发明的一个实施例的所有关联引擎的示意图。
图2A-2C是根据本发明的一个系统的操作流程图。
图3表示根据本发明的一个实施例矢量值调整的数据图表。
具体实施方式
下面的讨论与上述附图描述申请人的发明的实施例,为本发明人目前的最佳理解,可是应该理解,能够对本发明进行很多修改,或者本发明以其它形式实施或者以其他方式实现,而不偏离本发明的精神。另外,所描述的实施例的特征可能会被省略、选择性地或作为整体与其它实施例组合,或者用来代替其它实施例的特征或其部分,都不偏离本发明的精神。因此,本图示与详细的描述作为本发明的方面的一个例证性的解说,但不应理解为限制本发明的范围。
如图1所示,关联引擎1-1包括几个模块,下面对其进行描述。关联引擎1-1的模块或其一部分,和/或关联引擎整体,可包括硬件、软件、固件或是上述的组合。然而,某些模块例如可以包括硬件,而其它模块可包括软件、固件或其组合。
应当理解,关联引擎的模块不需要全部位于或集成在同一设备内。关联引擎也可采用分布式结构,它可以“背负”在已有设备提供的适当模块上。
以下的描述涉及关联引擎1-1,它在物理上与逻辑数据库1-2集成在一起或者通过有线或无线连接而连接到其上。逻辑数据库1-2可以在一个存储设备上实现,例如个人计算机的硬盘驱动器、个人视频记录器、娱乐系统、电子管理器、个人手持设备、Jaz驱动器,或者可以作为商业存储设施来实现,例如盘驱动器。应该理解,逻辑数据库1-2可以包括几个连接起来的存储设备,使得在两个或更多这样的存储设备上内容项的组织或分组是可能的。进而应当理解,逻辑数据库可理解为包括一种或多种存储介质,比如盘,包括CD、DVD、zip磁盘、软盘、数据盒式磁带等,这些介质能够被逻辑数据库1-2加载和检索。另外,可以对逻辑数据库进行远程访问,例如通过网络或因特网。
如图1所示,关联引擎1-1包括一个描述数据提取器1-11,该提取器是一个用于从内容项中收集某种类型数据的模块。内容项可以是视频或视频剪辑、电影、照片、文本文件、音乐数据、音频文件,或其它类型的多媒体数据、JPEG文件、或者XML数据。例如,视频可以是数字视频记录器上的家用视频镜头(shot),电影可以是商业发行的电影数据,比如以MPEG编码的电影(包括MPEG-2、MPEG-3等),照片可以是数字图片数据,或者系列相片或相片集。文本文件可以是文字处理器生成的文件、电子数据表或者是计算机编码文件。音乐数据可以是MP3文件或类似文件,等等。
由描述数据提取器1-11所提取的描述数据包括内容项的有关信息。这种描述数据描述内容项的维度。该维度可包括:
内容类型,包括介质,诸如视频、音频、照片、文本文件等;
内容风格或种类,如假日电影、个人风景摄影、爵士音乐等;
项的元数据,如项的创建时间和/或位置、项的采集时间和/或地点;
项的使用历史,如上一次/第一次/倒数第二次等、时间和/或位置和/或重放背景和/或编辑、最常使用的时间段(例如,上午6-9点是内容项最常使用的时间段)、上一次使用的地点、以及最常使用的地点(比如,家里或起居室是内容项最常使用的地点);(有时,该使用历史也被称作项的元数据),以及
与内容项关联的演员、导演、编剧、艺术家、表演者、摄影师等。
应该理解,关于项的这种描述数据可以通过多种方式来定位和提取,这些方式包括从该项、从索引或者数据库管理文件、或者从外部源,如从连接到通过有线或无线连接而连接到因特网的关联引擎1-1的万维网中。
被识别的内容项可通过几种方式之一来进行识别。用户可以指定该项作为锚定项,在集合中把其它项围绕该锚定项进行分组。这样,用户可选择该项作为锚定项,围绕该锚定项在逻辑数据库1-2中对由关联引擎1-1所发现的其它相似的项进行分组。另一种方式为,新增加或创建的内容项可以被自动地指定为识别的内容项,基于它来分组逻辑数据库中的其它项。进而,系统可以识别孤立的或未分组的内容项作为识别的内容项并试图选择内容项以便将其组合在一起。
基于由描述数据提取器1-11提取的描述数据的这些编辑后的维度,相似项选择器1-12识别逻辑数据库中的候选内容项,对于它们的描述数据的这些维度而言,这些候选内容项与第一识别内容项相似。然后,矢量构造器1-13通过如下方式为多个矢量的每一个矢量指定矢量值而创建第一组矢量值,即:每一个矢量对应一个维度,并且一个用于该矢量的值反映第一个被识别的内容项维度与候选内容项的相似度或匹配度。
例如,如果该识别的内容项与候选内容项都属于同一种类,例如“西班牙假日”,则一个相应于被称为风格或种类的内容项的维度的矢量将获得一个高值。矢量值为1或0可表示为在第一识别内容项与候选内容项之间的特定维度的相关性或匹配很小或不存在。而矢量值为9或10可表示高相似度或匹配度。例如,当两个内容项都具有为“西班牙假日”的种类,那么对于与该种类维度对应的矢量,则将分配9或10的值。另一种方式为,作为使用1到10的数值范围的替代,矢量值可仅表示对维度的“强”、“正常”或者“弱”匹配。应该理解,可以采用用于这种矢量值的众多其它方案而不偏离本发明的精神。于是,为一对内容项的这样一组矢量值计算平均值或和值,可以作为这两个内容项之间的总相似度。
如果存在可用的第二被识别内容项,则根据由描述数据提取器1-11为第二内容项所提取的描述日期(date),可以由矢量构造器1-13相似地构造第二组矢量值,从而使得该第二组矢量值表示在该第二识别内容项与一个候选内容项的相应维度之间的相似度。也可能存在其它可用的识别内容项。因此,对于可用的识别内容项1-N的任何数目,描述数据提取和矢量值组生成过程可重复进行,N为大于1的正整数。然后,基于所有这样生成的矢量值组或其平均值,执行候选内容项选择。
如果可用的被识别内容项不止一个,那么通用矢量生成器/阈值设置器1-14可以选择其第一组和第二组的矢量值一致高的一个或多个矢量。然后给这种矢量值加权比在表示这两个项之间的总相似度的该组矢量值的平均值或和值中的其它矢量的值大的值。通过这种方式,一个作为第一与第二被识别内容项的代表的维度(该维度或者力图捕获在第一与第二被识别内容项之间相似度并因此表征正被形成的组(基于已在该组中的内容项))将比其他矢量值加权大。虽然被显示为单个模块1-14的一部分,但是分开的模块、通用矢量生成器模块以及阈值设置器模块都可以构造为关联引擎1-1的一部分,或者这种模块可并入其它模块。
虚拟项构造器1-15将在以下对本发明的实施例的操作的讨论中进行描述。
控制器1-16处理为了操作关联引擎所必需的其它任务,如与其它设备接口以及与外界通信,包括与用户接口(未显示)。控制器1-16还处理与关联引擎1-1的模块的总体控制以及协调。
基于由主体关联引擎1-1所获得的矢量值,分组管理器1-17向逻辑数据库1-2提供分组信号。用户接口1-3可以是一个单独的设备,或者与其它设备或系统如个人计算机、个人视频记录器或上述列举的一个或多个存储器及其它设备集成在一起。
现在参考图1-3说明本发明的实施例的操作。如上所述,第一内容项由用户通过图1所示的用户接口1-3、或者由系统例如通过对逻辑数据库1-2中新增加的内容项或者孤立的内容项的检测来识别。
关联引擎1-1的描述数据提取器1-11提取被识别的第一内容项的第一描述数据,如图2A的S1中所述。图3显示参考识别内容项1的被标记为6-11的框。在S2,编辑对于第一被识别的内容项的每个维度的维度数据。应该理解,依赖于数据库或存储设备以及要被分组或组织的内容项的类型,以上所识别的维度的某些或全部可能较相关,而其它维度可能完全不相关,并且不会被根据本发明的关联引擎所使用。另外,这里没有明确阐述的其它维度可能特别相关,并且可被关联引擎1-1使用。
如果有可用的或已被识别的另外的第二识别内容项,如图3中所显示的6-12,则执行步骤S3和S4:在S3提取被识别的内容项的描述数据,在S4编辑第二被识别的内容项的每个维度的维度数据。如图3所示,一些内容项可以被识别为锚定内容项,希望围绕它们来对其它内容项进行分组。图3显示表格6-1,包括第一被识别内容项6-11、第二被识别内容项6-12、以及第N被识别内容项6-14。因此,对第一到第N被识别内容项中的每一个重复这一过程。
图1中的相似内容项选择器1-12识别逻辑数据库1-2中的候选内容项,而描述数据提取器1-11在S5(图2A)提取每一候选内容项的描述数据,并且在S6编辑每一个内容项的维度数据。如果发现提取第二候选内容项的相应描述数据的过程(在框6-22中表示),就在S7执行,然后在S8执行第二候选内容项的维度数据的编辑。
根据本发明的一个方面,在S9,依赖于系统设置、用户设置或当前命令,可以决定:应构造一个虚拟项作为确定候选内容项的相似度的基础,在这种情况下处理将如图2C所示进行。否则,处理将如图2B所示进行。
基于每一被识别内容项的每一维度与每一候选内容项的相应维度的相似度或匹配度,由矢量构造器1-13构建一个矢量值,如图2B的S11所示。图3显示的6-3为一组具有反映第一被识别内容项6-11的相应维度与第一候选内容项6-21的相似度的值的矢量。相似地,矢量值组6-4反映第一被识别内容项6-11的维度与第二候选内容项6-22的相似度。对于第二被识别内容项6-12,矢量值组6-5表示相应维度与第一候选内容项6-21的相似度,而矢量值组6-6反映在第二被识别内容项6-12的维度与候选内容项6-22之间的相似度。
每组矢量值也可以包括在S12基于对该组矢量值的平均值的计算而确定的一个平均矢量值,该平均值反映为该对内容项的平均相似性。本文中贯穿使用的术语“平均值”可包括算术均数、众数(mode)、中位数、和值或者其它类似的统计函数中的一个或多个。因此,例如图3的矢量值组6-3可以包括第一矢量值、第二矢量值、第h矢量值以及该矢量组的平均值。
另外的识别内容项也可以利用,并且,基于与候选内容项的相应维度的相似度,维度数据的提取与矢量组值的查找过程也会继续进行。图3中的框1-14显示被识别内容项M。
同样,可发现另外的候选内容项,对于每一候选内容项,都能够计算出为每个被识别内容项的矢量组值。框6-23参考这样一个候选内容项M。
根据本发明的一个实施例,在S13,基于被识别内容项之间的维度的相似性来确定一个通用矢量值组。因此,最相似的维度被识别,并且具有代表性的矢量比其它矢量加权更大或可被排他地使用。以这种方式,一个代表第一和第二(以及其它的)被识别内容项的维度(该维度因此力图捕捉被识别的内容项之间的相似性、并且从而表征正被形成的组)将比其它矢量值加权更大或被排他地使用,从而确定相似的候选内容项。
在S14,通过对候选内容项6-21的相应矢量值进行平均或相加,可计算出另一组矢量值6-8,该组矢量值反映每个候选内容项的每个维度的总相似性。因此,例如通过对该候选内容项的每组矢量值的相应矢量值相加或进行平均,可为第一候选内容项获得一个与该维度的被识别内容项的总相似度。进而,可以相加或平均矢量组6-8的所有矢量值以获得该候选内容项的总相似值。
应该理解,这里使用的平均值可以包括算术均数、众数、中位数或一些诸如此类的统计函数,对其适当地选择以便提供已选择矢量值的一个综合视图。另外,也可以使用这些矢量值的简单和值以及某个这样的统计函数。依赖于内容项的类型、以及依赖于数据库和用户需要,所有内容项的特定维度可能比其它维度更重要,正因为如此,对相应于特定维度的矢量加权比对其它矢量加权更大可能更有帮助。对这样的要素进行加权的程度将取决于应用和用户需要。
一旦总相似性的矢量组6-8的矢量值被生成,就可以使用一个最小的相似性阈值来去除无相似性的候选内容项,其在图2B的S15表示。
进而,也可以这样设想,依赖于用户需要和程序,可以为不同的矢量使用不同的阈值。因此,用分组管理器1-17将那些其矢量值满足或超过阈值的候选内容项与被识别内容项组合在一起,而其它候选内容项则被拒绝。另外可选择的方案是,可选择最相似的候选内容项或者预定数量的最相似的候选内容项,以用于与被识别内容项组合在一起,而剩余的候选内容项则可以拒绝。
在S16,把这一(或这些)被选择的候选内容项与被识别内容项组合在一起。分组信号可直接提供给数据库1-2,以引起对选出的相似的候选内容项与被识别内容项进行分组或再分组,或可以提供给用户接口1-3以便将所推荐的分组或再分组通知给用户(未显示)。也可以向用户提供一个通知,该通知组成如下:相似内容项的识别、相似内容项的描述、对相似内容项的URL或者链接、整个相似候选内容项或其中一部分的显示或重放、或上述内容的组合。在S17,处理结束。
图2C显示根据本发明的一个方面使用虚拟内容项的一个过程。在S21,虚拟项构造器1-15分析那些可基于其去查找分组的被识别内容项的维度。在S22,基于被识别内容项的平均值或加权平均维度,构造所有被识别内容项的一个代表内容项,其被称为虚拟内容项6-15。例如,如果所有被识别内容项都具有“西班牙假日”种类,那么,该虚拟内容项也将具有“西班牙假日”种类。然后,在S23基于该虚拟内容项的维度与候选内容项的相似性生成矢量值6-7。在S24,在选择相似候选内容项中应用该阈值,或者选择记分值最高的一个或多个候选内容项。
在S25,基于被选择作为相似的使用阈值的候选内容项,或基于所选择的预定数量的最相似的候选内容项,由图1所示的关联引擎1-1的1-17以有线或无线方式传输分组信号。如上述讨论的,该信号可直接提供给数据库1-2,以导致对选出的相似候选内容项与被识别内容项进行分组或再分组,或可以提供给用户接口1-3以便把所推荐的分组或再分组通知给用户(未显示)。在S26,处理结束。
例如,假设用户正在逻辑数据库中编辑表示最近在西班牙度假的照片数字数据,并希望在该数据库中、在相连接的另一存储介质中或在因特网上找到可用的具有西班牙主题的其它内容项。用户可以通过用户接口1-3选择三张照片,分别作为被识别内容项1、被识别内容项2和被识别内容项3。然后,关联引擎将作为相似候选内容项而找到的表示西班牙音乐的一个数据文件与被识别内容项1-3组合在一起。用户可能并不记得西班牙音乐的存在,或在哪儿去找它,确实,该数据文件可能由另一用户通过访问逻辑数据库1-2而添加,或可能由关联引擎1-1从其它存储设备上检索。无论哪种情况,现在都会把该相似内容项通知给用户,和/或把该相似内容项与被识别内容项组合在一起。然后,用户就能够为西班牙假日照片的浏览配上西班牙音乐。
在以上撰写的说明中提供的本发明的实施例仅作为说明性的示例。然而应该理解,本发明的范围在权利要求中给出。
Claims (17)
1.一种在逻辑数据库中组织内容项的方法,该方法包括:
在逻辑数据库中提取(S1)第一描述数据,其包括第一被识别内容项的维度数据;
在逻辑数据库中提取(S5)候选描述数据,其包括候选内容项的相应维度数据;
生成(S11)每一个候选内容项的第一组矢量值,每一矢量值表示在第一描述数据的一个维度的维度数据与候选描述数据的相应维度数据之间的一个相似度。
基于由已生成的第一组矢量值所表示的相似度,从候选内容项中选择(S15)一个相似候选内容项;和
在逻辑数据库的组织中将该相似候选内容项与第一内容项组合(S16)在一起。
2.根据权利要求1的方法,其中,维度数据的一个维度表示下列之一:项的内容类型、项的内容风格、项的种类、项的使用历史、执行该项的执行者、与项关联的指导者、与项关联的创建者、提供项的需求,以及项的任何元数据。
3.根据权利要求2的方法,其中,元数据表示下列中一种:项的创建时间、项的创建地点、项的采集时间、项的采集地点、上次使用的时间、最常使用的时间段、上次使用的地点、以及最常使用的地点。
4.根据权利要求1的方法,其中,只有在由第一组矢量值所表示的总相似度高于最小阈值时,才选择该相似候选内容项。
5.根据权利要求1的方法,其中,选择具有由第一组矢量值所表示的最高总相似度的候选内容项。
6.根据权利要求1的方法,进一步包括:
提取(S3)描述数据,其包括与第一被识别内容项组合在一起的第N被识别内容项的维度数据,N是大于1的任意正整数;和
同样基于表示在第N个被识别内容项的维度数据与相似候选内容项的维度数据之间的相似度的第N组矢量值,自动选择(S15)相似候选内容项。
7.根据权利要求6的方法,其中,选择该相似候选内容项,从而对第一组矢量值与第N组矢量值取平均、加权平均或相加。
8.根据权利要求6的方法,包括选择一个表示一个维度的矢量作为通用矢量,对于该维度,第一被识别内容项的维度数据最接近于第N被识别内容项,并且在选择相似候选内容项时,对通用矢量的值比对第一组矢量值和第N组矢量值的其余矢量值进行更大的加权。
9.一种在逻辑数据库中组织内容项的方法,该方法包括:
在逻辑数据库中提取(S1)第一描述数据,其包括第一被识别内容项的维度数据;
在逻辑数据库中提取(S2)第N描述数据,其包括第N被识别内容项的维度数据,N是大于1的任意正整数;
在逻辑数据库中提取(S5)候选描述数据,其包括候选内容项的相应维度数据;
通过对虚拟项矢量值组采取平均或加权平均方式之一,构造(S22)虚拟项,该虚拟项矢量值组的每一矢量值表示在第一描述数据的维度数据的一个维度与第N描述数据的维度数据的一个相应维度之间的相似度;
生成(S23)每一个候选内容项的一组矢量值,每一矢量值表示在虚拟内容项的一个维度的维度数据与候选内容项的相应维度数据之间的相似度;
通过为候选内容项的每组矢量值计算均值、加权均值或和值以作为测试值,并将该测试值高于某一阈值的候选内容项确定为相似候选内容项,以便从候选内容项中选择(S24)一个相似候选内容项;和
将相似候选内容项与逻辑数据库的组织中第一内容项组合(S24)在一起。
10.在逻辑数据中组织内容项的系统,该系统包括:
描述数据提取器(1-11),配置为在逻辑数据库中提取包括第一被识别内容项的维度数据的第一描述数据;
所述描述数据提取器进一步配置为在逻辑数据库中提取包括候选内容项的相应维度数据的候选描述数据;
矢量构造器(1-13),配置为为每一候选内容项生成第一组矢量值,每一矢量值表示在第一描述数据的一个维度的维度数据和候选描述数据的相应维度数据之间的相似度。
通用矢量生成器/阈值设置器(1-14),配置为基于由已生成的第一组矢量值所表示的相似度从候选内容项中选择相似候选内容项;和
分组管理器(1-17),配置为在逻辑数据库的组织中把相似候选内容项与第一内容项组合在一起。
11.根据权利要求10的系统,其中,维度数据的一个维度表示下列之一:项的内容类型、项的内容风格、项的种类、项的使用历史、执行该项的执行者、与项关联的指导者、与项关联的创建者、提供项的需求,以及项的任何元数据。
12.根据权利要求11的系统,其中,元数据表示下列中一种:项的创建时间、项的创建地点、项的采集时间、项的采集地点、上次使用的时间、最常使用的时间段、上次使用的地点、以及最常使用的地点。
13.根据权利要求10的系统,其中,只有在由第一组矢量值所表示的总相似度高于最小阈值时,才使所述通用矢量生成器/阈值设置器被配置为选择相似候选内容项。
14.根据权利要求10的系统,其中,进一步配置所述通用矢量生成器/阈值设置器以便选择具有由第一组矢量值所表示的最高总相似度的候选内容项作为相似候选内容项。
15.根据权利要求10的系统,其中,进一步配置所述描述数据提取器,以便提取包括与第一被识别内容项组合在一起的第N被识别内容项的维度数据的描述数据,N是大于1的任意正整数,和
配置所述通用矢量生成器/阈值设置器,以便同样基于表示在第N被识别内容项的维度数据与相似候选内容项的维度数据之间的相似度的第N组矢量值来自动选择相似候选内容项。
16.根据权利要求15的系统,其中,配置所述通用矢量生成器/阈值设置器,以便通过对第一组矢量值与第N组矢量值取平均、加权平均或相加来选择相似候选内容项。
17.根据权利要求15的系统,其中,配置所述通用矢量生成器/阈值设置器,以便选择一个表示一个维度的矢量作为通用矢量,对于该维度,第一被识别内容项的维度数据最接近于第N被识别内容项,并且在选择相似候选内容项时,对通用矢量的值比对第一组矢量值和第N组矢量值的其余矢量值进行更大的加权。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63213404P | 2004-12-01 | 2004-12-01 | |
US60/632,134 | 2004-12-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101438282A true CN101438282A (zh) | 2009-05-20 |
Family
ID=36565423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2005800413501A Pending CN101438282A (zh) | 2004-12-01 | 2005-11-30 | 基于内容项关联的自动内容组织 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20080306930A1 (zh) |
EP (1) | EP1839197A2 (zh) |
JP (1) | JP2008522311A (zh) |
KR (1) | KR20070086828A (zh) |
CN (1) | CN101438282A (zh) |
WO (1) | WO2006059297A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015014180A1 (en) * | 2013-07-29 | 2015-02-05 | International Business Machines Corporation | Correlation of data sets using determined data types |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4645676B2 (ja) * | 2008-04-28 | 2011-03-09 | ソニー株式会社 | 情報処理装置、関連アイテムの提供方法、及びプログラム |
US8364722B2 (en) * | 2010-01-19 | 2013-01-29 | Microsoft Corporation | Hosting multiple logical databases contained in physical database |
JP5501178B2 (ja) * | 2010-09-21 | 2014-05-21 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Gui管理の業務管理システム及びその警告表示方法 |
US20120136918A1 (en) * | 2010-11-29 | 2012-05-31 | Christopher Hughes | Methods and Apparatus for Aggregating and Distributing Information |
US8732147B2 (en) | 2011-03-18 | 2014-05-20 | Microsoft Corporation | Data collections on a mobile device |
EP3629173A1 (en) | 2018-09-27 | 2020-04-01 | Koninklijke Philips N.V. | Event log processing |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5619709A (en) * | 1993-09-20 | 1997-04-08 | Hnc, Inc. | System and method of context vector generation and retrieval |
JP3598742B2 (ja) * | 1996-11-25 | 2004-12-08 | 富士ゼロックス株式会社 | 文書検索装置及び文書検索方法 |
US5905981A (en) | 1996-12-09 | 1999-05-18 | Microsoft Corporation | Automatically associating archived multimedia content with current textual content |
US6324129B1 (en) * | 1998-01-08 | 2001-11-27 | Seagate Technology Llc | Near field magneto-optical head having read and write pinhole apertures |
US6326988B1 (en) * | 1999-06-08 | 2001-12-04 | Monkey Media, Inc. | Method, apparatus and article of manufacture for displaying content in a multi-dimensional topic space |
US6728728B2 (en) * | 2000-07-24 | 2004-04-27 | Israel Spiegler | Unified binary model and methodology for knowledge representation and for data and information mining |
KR20030051653A (ko) * | 2000-09-21 | 2003-06-25 | 메르크 파텐트 게엠베하 | 폴리스티렌 마이크로비이드 및 그것의 제조 방법 |
US6987221B2 (en) * | 2002-05-30 | 2006-01-17 | Microsoft Corporation | Auto playlist generation with multiple seed songs |
US7149755B2 (en) | 2002-07-29 | 2006-12-12 | Hewlett-Packard Development Company, Lp. | Presenting a collection of media objects |
GB2395806A (en) * | 2002-11-27 | 2004-06-02 | Sony Uk Ltd | Information retrieval |
-
2005
- 2005-11-30 CN CNA2005800413501A patent/CN101438282A/zh active Pending
- 2005-11-30 WO PCT/IB2005/053988 patent/WO2006059297A2/en active Application Filing
- 2005-11-30 KR KR1020077014990A patent/KR20070086828A/ko not_active Application Discontinuation
- 2005-11-30 US US11/719,993 patent/US20080306930A1/en not_active Abandoned
- 2005-11-30 JP JP2007543979A patent/JP2008522311A/ja active Pending
- 2005-11-30 EP EP05821591A patent/EP1839197A2/en not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015014180A1 (en) * | 2013-07-29 | 2015-02-05 | International Business Machines Corporation | Correlation of data sets using determined data types |
Also Published As
Publication number | Publication date |
---|---|
WO2006059297A3 (en) | 2009-05-28 |
KR20070086828A (ko) | 2007-08-27 |
JP2008522311A (ja) | 2008-06-26 |
US20080306930A1 (en) | 2008-12-11 |
EP1839197A2 (en) | 2007-10-03 |
WO2006059297A2 (en) | 2006-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6285995B1 (en) | Image retrieval system using a query image | |
KR101194705B1 (ko) | 연관된 컨텐츠의 검색에 의한 위치 유사성 문턱값의 적응화 | |
US7831599B2 (en) | Addition of new images to an image database by clustering according to date/time and image content and representative image comparison | |
US6977679B2 (en) | Camera meta-data for content categorization | |
US7953735B2 (en) | Information processing apparatus, method and program | |
JP5340517B2 (ja) | マルチメディア情報に対するメタ・ディスクリプタ | |
US20070094226A1 (en) | Modular intelligent multimedia analysis system | |
WO2012073421A1 (ja) | 画像分類装置、画像分類方法、プログラム、記録媒体、集積回路、モデル作成装置 | |
CN101438282A (zh) | 基于内容项关联的自动内容组织 | |
KR20080045659A (ko) | 정보 처리 장치, 방법, 및 프로그램 | |
KR100644016B1 (ko) | 동영상 검색 시스템 및 방법 | |
CN101069183A (zh) | 关联内容检索 | |
EP1820125A1 (en) | Adaptation of time similarity threshold in associative content retrieval | |
WO2004054253A1 (ja) | 画像記述システムおよびその方法 | |
Farag et al. | Video content-based retrieval techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20090520 |