CN102368255A - 信息存储与检索 - Google Patents

信息存储与检索 Download PDF

Info

Publication number
CN102368255A
CN102368255A CN2011102951830A CN201110295183A CN102368255A CN 102368255 A CN102368255 A CN 102368255A CN 2011102951830 A CN2011102951830 A CN 2011102951830A CN 201110295183 A CN201110295183 A CN 201110295183A CN 102368255 A CN102368255 A CN 102368255A
Authority
CN
China
Prior art keywords
information
search
item
items
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102951830A
Other languages
English (en)
Inventor
D·W·特雷佩斯
J·R·托尔普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Europe Ltd
Original Assignee
Sony United Kingdom Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony United Kingdom Ltd filed Critical Sony United Kingdom Ltd
Publication of CN102368255A publication Critical patent/CN102368255A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Abstract

本发明涉及信息存储与检索。一种用于搜索信息项集合并显示搜索结果的信息检索装置,该信息项各具有表征信息特征的集合。该装置包括搜索处理器,该搜索处理器可操作用于根据用户定义的表征信息特征来搜索信息项,并标识具有与那个用户定义的表征信息特征相对应的表征信息特征的信息项。映射处理器可操作用于生成表示来自在搜索中标识的信息项集合的信息项映射的数据。该映射根据信息项的相互相似性相对于阵列中的位置提供标识的信息项,相似信息项映射到阵列中的相似位置。该装置包括用于显示至少某些标识项的表示的图形用户界面,以及用于选择标识信息项的用户控制。搜索处理器可操作用于精炼搜索,以标识与选择的信息项相关的信息项。同样,给用户提供了这样的便利:通过相对于如在相互相似的阵列内的位置显示的项而标识期望的信息项来精炼搜索。由此,搜索与导航大量数据变得更加容易了。

Description

信息存储与检索
本申请是申请日为2003年11月4日、申请号为200380104487.8、名称为“信息存储与检索”的发明专利申请的分案申请。
技术领域
本发明涉及信息检索装置与方法。
背景技术
有多种已建立用于通过根据关键词搜索来定位信息(例如,文档、图像、电子邮件、专利、互联网内容、或媒体内容诸如音频/视频内容)的系统。例子包括互联网搜索“引擎”,诸如由“Google”TM或“Yahoo”TM提供的搜索引擎,其中通过关键词进行的搜索产生了由该搜索引擎以感觉相关顺序排列的结果列表。
然而,在包含大量内容的系统中(通常称为大量内容集合),很难制定有效的搜索查询以给出搜索“命中”的简短列表。例如,在准备本申请时,以关键词“大量文档集合”进行Google搜索,命中243000个。如果之后重复搜索,则这个命中数还有望增加,因为通过互联网存储的内容量一般随时间增加。查看这种命中列表可能相当耗时。
通常,大量内容集合没有被很好利用的一些原因是:
·用户不知道存在相关内容;
·用户知道存在相关内容,但不知道它在哪;
·用户知道存在内容,但不知道它是相关的;
·用户知道存在相关内容以及如何找到它,但找到该内容要花很长时间。
文章“大量文档集合的自组织”(“Self Organisation of a MassiveDocument Collection”,Kohonen et al,IEEE Transactions on Neural Networks,Vol 11,No.3,May 2000,P574-585)公开了一种使用所谓“自组织映射”(SOM)的技术。其利用了所谓无人监管的自学习神经网络算法,其中表示各文档特性的“特征向量”映射到SOM的节点上。
在Kohonen等人的文章中,第一步是预处理文档文本,并随后从各预处理的文档中导出特征向量。在一种形式中,这可以是显示单词的各大型词典出现频率的直方图。直方图内的各数据值(即,各个词典单词的各出现频率)变成n值向量的值,其中n是词典中候选单词的总数(在这篇文章描述的实例中是43222)。可对n向量值进行加权,或许强调特定单词的增强的相关性或改进的分化。
随后,n值向量被映射到基本小于n的较小维数向量上(即,具有数值为m(在该篇文章中为500)的向量)。这是通过将该向量与由随机数阵列形成的(n×m)“投影矩阵”相乘来实现的。这种技术已经显示出可以生成较小维数的向量,其中任意两个减小维数的向量都具有许多与两个各输入向量相同的向量点积。在文章“通过随机映射的维数缩减:用于聚类的快速相似性计算”(“Dimensionality Reduction by Random Mapping:Fast Similarity Computation for Clustering”,Kaski,Proc IJCNN,P413-418,1998)中描述了这个向量映射过程。
通过将各向量与“模型”(另一向量)相乘的过程,减小维数的向量随后被映射到SOM上的节点(也称为神经元)上。这些模型通过学习过程产生,该学习过程通过相互相似性将它们自动排序在SOM上,这通常表示为节点的二维栅格。这是一个不平凡的过程,对于只在700万文档以下的文档数据库,Kohonen等人在内存为800MB的6个处理器的计算机上花了6周的时间。最后,显示形成SOM的节点栅格,用户可放大映射区域并选择节点,这使用户界面可提供到包含链接到那个节点的文档的网页的链接。
发明内容
本发明的各方面和特征在所附权利要求书中定义。
根据本发明的一方面,提供了一种用于搜索信息项集合并显示搜索结果的信息检索装置,所述信息项各具有表征信息特征集合。所述装置包括搜索处理器,所述搜索处理器可操作用于根据用户定义的表征信息特征来搜索信息项,并标识具有与那个用户定义的表征信息特征相对应的表征信息特征的信息项。映射处理器可操作用于生成表示来自在搜索中标识的信息项集合的信息项映射的数据。所述映射根据信息项的相互相似性相对于阵列中的位置提供标识的信息项,相似信息项映射到阵列内的相似位置。所述装置包括用于显示至少某些标识项的表示的图形用户界面,还包括用于选择标识信息项的用户控制。搜索处理器可操作用于精炼(refine)搜索,以标识与选择的信息项有关的信息项。同样,给用户提供了这样的便利:通过相对于如在相互相似的阵列内的位置所显示的项来标识期望的信息项,来精炼搜索。结合相对于可向用户显示的阵列中位置的信息项的排列,提供了搜索并精炼搜索结果的便利。此外,便于信息项的导航,当信息项的量很大时,这特别有利。
本发明解决了一个定义搜索信息项的搜索查询并精炼信息项搜索的技术问题,这对于搜索导航大量数据特别有利。
表征信息特征可包括描述信息项内容或属性的元数据、视频图像或音频信号或音频元数据、或这些类型表征信息特征的组合。同样,为了精炼信息项的搜索,用户控制可操作用于根据与标识项相关联的元数据、视频图像或音频元数据来选择所标识的信息项。
搜索处理器可操作用于搜索包括相同和/或相似元数据、相同和/或相似视频图像、或相同和/或相似音频元数据的信息项的信息项集合。例如,搜索处理器可比较从与选择的信息项相关联的元数据中形成的特征向量,以找到最靠近这个特征向量的阵列中的位置。随后,搜索处理器可操作用于搜索有关与用户选择的标识信息项相关联的元数据的信息项集合。搜索处理器标识来自所述集合的信息项,所述信息项在来自最靠近所述特征向量的阵列中的位置的阵列内的预定数量位置内。
用户控制可操作用于给用户提供选择多个标识信息项的便利,并根据布尔逻辑指定标识项之间的搜索关系。结果,可根据用户指定的布尔算子来组合多个表征特征以形成搜索查询。同样,可针对用户感兴趣的信息项来进行更多关注的搜索。
根据本发明的另一方面,提供了图形用户界面,它包括用于从信息项集合中选择信息项的场的行。根据与各行相关联的表征信息特征的不同类型,各行定义形成搜索查询的搜索条件。如果在每行提供了多个信息特征,则通过布尔算子指定搜索条件。相应地,用户可根据在界面的不同行中选择的信息项来指定搜索查询。
本发明的其它各方面和特征在所附权利要求书中定义。
附图说明
现在将参考附图仅通过示例的方式来描述本发明的实施例,附图中:
图1示意性地示出了信息存储与检索系统;
图2是显示自组织映射(SOM)生成的示意性流程图;
图3a和3b示意性地示出了项频率直方图;
图4a示意性地示出了原始特征向量;
图4b示意性地示出了减小的特征向量;
图5示意性地示出了SOM;
图6示意性地示出了抖动(dither)过程;
图7-9示意性地示出了提供用户界面以访问由SOM表示的信息的显示屏;
图10提供了根据本发明实施例的信息检索装置的示意性框图;
图11提供了表示生成在搜索中标识的信息项的分层配置过程的部分流程图的说明性表示;
图12提供了提供用于显示图11所示不同层次级的两个区域的屏幕的示意性表示;
图13提供了示例信息项的三种表征信息特征的说明性表示;
图14提供了根据本发明范例性实施例用于形成搜索查询的图形用户界面的示意性说明;
图15提供了根据布尔“AND”运算形成合成特征向量的示意性说明;
图16示出了根据布尔“OR”算子的两个特征向量的组合以及根据布尔“NOT”算子的第三特征向量;
图17示意性地示出了根据图16的布尔算子和特征向量来显示搜索结果的标识信息项的一部分二维映射;
图18(a)和18(b)提供了提供形成搜索查询的两个视频图像的色彩直方图的两个实例的条形图,以及图18(c)提供了通过组合图18(a)和18(b)的色彩直方图而产生的示意性条形图。
具体实施方式
图1是基于通用计算机10的信息存储和检索系统的示意图,该计算机10具有处理器单元20,该处理器单元20包括程序和数据的盘存储器30、连接到网络50(诸如以太网或互联网)的网络接口卡40、诸如阴极射线管设备60的显示设备、键盘70以及诸如鼠标80的用户输入设备。该系统在程序控制下工作,程序存储在盘存储器30上,并例如通过在网络50、移动盘(未示出)或盘存储器30上预先安装来提供。
存储系统工作在两种通用工作模式下。在第一种模式下,信息项集合(例如文本信息项)安装在盘存储器30上或通过网络50连接的网络盘驱动器上,并对其进行分类和索引,准备搜索操作。第二种工作模式是对索引并分类的数据进行实际搜索。
这些实施例可应用于许多类型的信息项。适当类型信息的非穷尽列表包括专利、视频材料、电子邮件、演示、互联网内容、广播内容、商业报告、音频材料、图形和剪辑图、照片等、或这些信息的任意组合或混合。在本描述中将参照文本信息项。文本信息项可与非文本项相关联,或链接到非文本项。因此,例如音频和/或视频材料可与定义文本项中那个材料的文本信息项的“元数据”相关联。
信息项以常规方式加载在盘存储器30上。它们最好存储为允许更容易检索并索引信息项的一部分数据库结构,但这不是必需的。一旦信息以及项如此存储了,就执行图2中示意性示出的配置它们搜索的过程。
要理解到,索引的信息项不必存储在本地盘驱动器30上。信息项可存储在通过网络50连接到系统10的远程驱动器上。作为一种备选方案,可以分布式方式存储信息,例如经过互联网的各种网站。如果信息存储在不同互联网或网络站点上,则信息存储的第二级可用于本地存储一个到远程信息的链接(例如通用资源标识符URI),可能具有相关简介、摘要或与那个链接相关联的元数据。因此,虽然为了下面的技术描述,可将远程保存的信息、或摘要/简介/元数据、或链接/URI认为是“信息项”,但除用户选择的相关链接(例如来自下面要描述的结果列表260)之外,不会访问远程保存的信息。
换言之,“信息项”的形式定义是导出并处理(参见下文)特征向量以提供到SOM映射的项。结果列表260(参见下文)中所示的数据可以是用户寻找的实际信息项(如果是本地保存并足够短便于显示),或者可以是表示和/或针对诸如一个或多个元数据、URI、摘要、关键词集合、代表性关键印记(stamp)图像等的信息项的数据。在通常(尽管不总是)包括列出表示信息项集合数据的操作“列表”中,这是固有的。表示信息项的数据可包括不同类型的信息。各信息项的信息类型和表示各类型的数据被称为表征信息特征。
在另一实例中,信息项可通过联网的工作组(诸如研究组或合法公司)存储。混合方法可包括一些本地存储的信息项、和/或一些通过局域网存储的信息项、和/或一些通过广域网存储的信息项。在这种情况下,该系统在定位例如由大型跨国研究和开发组织中的其他人从事的相似工作中是有用的,相似研究工作倾向于映射到SOM(参见下文)中的相似输出节点上。或者,如果策划新的电视节目,则本技术可用于通过找出具有相似内容的先前节目来检查其独创性。
还要理解到,图1的系统10只是可以使用索引信息项的可能系统的一个示例。虽然设想初始(索引)阶段可由相当强大的计算机来执行,最可能是非便携式计算机,但后面的访问信息阶段可在便携式机器上执行,诸如“个人数字助理”(带有显示器和用户输入设备的数据处理设备的术语,该设备通常适合单手)、诸如膝上型电脑的便携式计算机、或甚至是诸如移动电话、视频编辑装置或摄像机的设备。通常,实际上任何具有显示器的设备都可用于操作的信息访问阶段。
这些过程并不局限于特定数量的信息项。
现在参照图2-6来描述生成信息项的自组织映射(SOM)表示的过程。图2是说明SOM映射过程之前的所谓“特征提取”过程的示意性流程图。
数据提取是将原始数据转换为抽象表示的过程。随后,这些抽象表示可用于诸如模式分类、聚类和识别的过程。在此过程中,生成所谓的“特征向量”,其是文档内所用项频率的抽象表示。
通过创建特征向量来形成可视化的过程包括:
·创建项的“文档数据库词典”;
·基于“文档数据库词典”创建各个文档的“项频率直方图”;
·使用随机映射来减小“项频率直方图”的维数;
·创建信息空间的2维可视化。
更详细地考虑这些步骤,依次打开各文档(信息项)100。在步骤110,从文档中去掉所有“无用词”。无用词是在预先准备列表上极其常用的单词,诸如“a”、“the”、“however”、“about”、“and”和“the”。因为这些单词极其常用,因此它们可能在所有足够长的文档中平均出现的频率差不多。由于这个原因,所以在试图表征特定文档内容时它们的用途很小,并因此应该去掉。
去掉无用词之后,在步骤120对剩下的单词进行词干化(stem),包括找出单词的变形的共同词干。例如,单词“thrower”、“throws”和“throwing”的共同词干是“throw”。
保留在文档中(排除了“无用”词)出现的词干化单词的“词典”。当遇到一个新词时,将其加到词典中,并还记录该词已在整个文档集合(信息项集合)中出现次数的运行计数(running count)。
结果是在集合中的所有文档中所用的项列表,以及那些项出现的频率。不理会出现频率太高或太低的单词,也就是说将它们从词典中去掉,并且不参与下面的分析。频率太低的单词可能是拼错、编造、或与文档集合表示的领域不相关的词。出现频率太高的单词不适于辨别集合内的文档。例如,在与广播相关的文档测试集合中大约所有文档的三分之一中都使用了项“News”,而单词“football”在该测试集合中只有大约2%的文档使用。因此可以假定“football”是比“News”更好的表征文档内容的项。相反,单词“fottball”(“football”的错拼)在整个文档集合中只出现一次,因此由于出现频率太低而被丢弃。这种单词可定义为那些具有出现频率比小于平均出现频率的两个标准偏差低的单词,或是出现频率比大于平均出现频率的两个标准偏差高的单词。
随后,在步骤130生成特征向量。
为了做到这一点,为集合中的每个文档生成项频率直方图。通过对单词在各个文档内的词典(属于那个文档集合)中出现的次数进行计数,来构造项频率直方图。词典中的大多数项不会出现在单一文档中,因此这些项的频率为零。图3a和3b示出了两个不同文档项频率直方图的示意性示例。
从这个实例可以看出直方图是如何表征文档内容的。通过观察这些实例看到,文档1中项“MPEG”和“视频”的出现次数比文档2多,文档2中项“元数据”的出现次数较多。直方图中的许多条目都为零,这是因为在文档中没出现对应的词。
在一个真实例子中,实际项频率直方图具有的项的数量远大于该例中的数量。通常情况下,给直方图超过50000的维数,直方图可描绘超过50000个不同项的频率。如果直方图要用于构建SOM信息空间,则这个直方图的维数需要大大减小。
项频率直方图中的每个条目都被用来表示那个文档特征向量中的相应值。这个过程的结果是一个(50000×1)向量,它包含由词典为文档集合中各文档指定的所有项频率。由于大部分值通常为零,其它大部分词通常为非常小的数(例如1),所以该向量可称为“稀疏向量”。
在步骤140减小特征向量的大小,并因此减小项频率直方图的维数。为减小直方图维数的过程提出了两种方法。
i)随机映射-一种将直方图与随机数矩阵相乘的技术。这是一个计算上很便宜的过程。
ii)隐性语义索引-一种通过寻找文档中同时出现的概率很高的项的组合来减小直方图维数的技术。随后,这些词的组合可被减小为单一参数。这是一个计算上很昂贵的过程。
在本实施例中,所选择的用于减小项频率直方图维数的方法是“随机映射”,上面提到的Kaski文章中对这种方法进行了详细描述。随机映射通过将直方图与随机数矩阵相乘而成功地减小了直方图的维数。
如上所述,“原始”特征向量(图4a中示意性地示出了)一般是大小在50000个值范围内的稀疏向量。这可减小到大约200个(参见示意图4b),并仍保持了特征向量的相对正交特征,即,它的关系,诸如与其它同样处理的特征向量的相对角(向量点积)。因为尽管特定维数的正交向量的数量有限,但几乎正交的向量的数量很大,所以该方法有效。
事实上,随着向量维数的增加,任何给定的随机生成的向量集合几乎都彼此正交。这种性质意味着将保持与随机数矩阵相乘的向量的相对方向。这可通过在随机映射之前和之后通过查看其点积来示出向量的相似性而进行论证。
可用实验的方法示出,通过将稀疏向量从50000个值减小到200个值来保持其相对相似性。然而,这个映射并不完善,但对于以简洁方式表征文档内容而言足够了。
一旦为文档集合生成了特征向量,从而定义了集合的信息空间,就在步骤150将它们投入二维SOM中以创建语义映射。下面部分说明通过使用Kohonen自组织映射对特征向量进行聚类来映射到2D的过程。还参考了图5。
Kohonen自组织映射用于聚类并组织为各文档生成的特征向量。
自组织映射包括显示为二维平面185的节点的二维阵列或栅格中的输入节点170和输出节点180。输入节点与用于训练映射的特征向量中的值一样多。映射上的每个输出节点由加权连接190(一个连接一个加权)连接到输入节点。
开始,每个这些加权都设为随机值,并随后通过迭代过程“训练”加权。通过将每个特征向量呈现到映射的输入节点来训练该映射。通过计算输入向量和与各输出节点相关联的加权之间的欧氏距离来计算“最靠近的”输出节点。
由输入向量和与那个节点相关联的加权之间的最小欧氏距离所标识的最靠近的节点被指定为“胜利者”,并通过稍微改变加权值来训练这个节点的加权,以使它们向“更靠近”输入向量的方向移动。除了获胜节点之外,还训练获胜节点邻域内的节点,并稍微向更靠近输入向量的方向移动。
这不只是训练单个节点加权的过程,而且是训练映射上节点区域加权的过程,其允许一旦映射被训练了就保持节点2D映射中的输入空间的大量拓扑。
一旦训练了映射,各文档就被呈现到该映射上,以查看对于那个文档哪个输出节点最靠近输入特征向量。加权等于特征向量是不太可能的,并且特征向量与映射上其最靠近的节点间的欧氏距离被称为它的“量化误差”。
通过将各文档的特征向量呈现到该映射上,来查看它在哪产生各文档的x、y映射位置。当这些x、y位置与文档ID一起放进查找表时,可用来对文档间的关系进行可视化。
最后,在步骤160加入抖动分量,下面参照图6描述该步骤。
用上述过程的潜在问题是:两个相同或基本相同的信息项可映射到SOM节点阵列中的同一节点。这没有引起处理数据方面的困难,但对显示屏上数据的可视化(下面将描述)没有帮助。特别是,当在显示屏上可视化数据时,已经认识到,对于在特定节点处的单个项上可辨别的多个非常相似的项而言,这是有用的。因此,将“抖动”分量加到各信息项映射的节点位置上。抖动分量是节点间隔的±1/2的随机增加。因此,参照图6,映射过程选择输出节点200的信息项具有添加的抖动分量,以便它实际上可映射到图6上由虚线界定的区域210内的节点200周围的任何映射位置。
因此,可认为信息项映射到了图6平面上的位置,在节点位置而不是SOM过程的“输出节点”。
在任何时候,通过上面概述的步骤(即步骤110-140)并随后将结果减小的特征向量应用到“预训练”的SOM模型上,即,由映射的自组织准备产生的SOM模型集合,可将新的信息项添加到SOM上。因此,对于新添加的信息项,映射一般不被“再训练”;代替步骤150和160用于所有未修改的SOM模型。为再训练SOM每次添加新信息项是计算上很昂贵的,并且对用户也不友好,用户可能已习惯于映射中通常访问的信息项的相对位置。
然而,有可能达到再训练过程是适当的这一点。例如,如果自从首次生成SOM时新项(可能是新闻的新项或新的技术领域)就已经进入了词典,则它们不可能非常好地映射到输出节点的现有集合。在将新近接收的信息项映射到现有SOM的过程中,这可被检测为在检测的所谓“量化误差”中的一个增加。在本实施例中,将量化误差与阈值误差量相比较。如果它大于阈值量,则(a)使用所有其原始信息项和自从其创建所添加的任何项,来自动再训练SOM;或者(b)使用户在方便的时候开始再训练过程。再训练过程使用所有相关信息项的特征向量,并全部再次应用步骤150和160。
图7示意性地示出了显示屏60上的显示。该显示示出了搜索查询250、结果列表260以及SOM显示区270。
在操作中,最初显示区270是空白的。用户在查询区250输入关键词搜索查询。随后,用户例如通过按键盘70上的回车或通过使用鼠标80选择屏幕“按钮”来启动搜索,以开始搜索。随后,使用标准关键词搜索技术,将搜索查询区250中的关键词与数据库中的信息项相比较。这生成结果列表,各结果显示为列表区260中的各个条目280。于是显示区270显示与各结果项相对应的显示点。
因为生成SOM表示的分类过程倾向于在SOM中将相互相似的信息项集中在一起,所以搜索查询结果通常倾向于归入诸如聚类290的聚类中。在此要注意的是,区域270上的各点对应于与结果列表260中的一个结果相关联的SOM中的各条目;并且在区域270中显示的点的位置对应于节点阵列内那些节点的阵列位置。
图8示意性地示出了一种减少“命中”(结果列表中的结果)数的技术。用户用鼠标80在区域270中显示的显示点集合的周围拖出一个边界,在本实例中是矩形框300。在结果列表区260中,只显示了与边界300内的点相对应那些结果。如果这些结果证明是不感兴趣的,则用户可拖出包含不同显示点集合的另一边界。
要注意的是,对于在边界300内显示的显示点并满足单词搜索区250中搜索标准的那些结果,结果区260显示了列表条目。边界300可包含与在节点阵列中填充的节点相对应的其它显示位置,但如果这些不满足搜索标准,则不会显示它们,并因此不会形成在列表260中显示的一部分结果子集。
图9示出了本发明的实施例。参照图9,步骤920,当生成自组织映射SOM时,它没有标签(不象Kohonen的SOM)。用户需要标签以给出研究映射的导引。在本发明的实施例中,自动生成标签以匹配用户的特殊要求。用户生成如参照图7和/或图8描述的搜索结果列表。根据结果自动动态地生成标签,并将其用于标记区域270中显示点的聚类。
交叉-聚类关联/辅助关键词搜索
现在将参照图10、11和12来描述本发明的示范性实施例。
在图10中,包含信息项数据库的数据中心库400通过数据通信网络410连接到搜索处理器404和映射处理器412。映射处理器连接到用户控制414和显示处理器416。图形用户界面418接收显示处理器416的输出,该图形用户界面418对接到显示器420。显示处理器416可操作用于处理来自映射处理器的数据,用于在显示屏上显示。
数据中心库400可单独定位到映射处理器412。相应地,搜索处理器可从数据中心库400、映射处理器412和图10所示用于显示信息的那些部分来单独定位,其中那些部分是指显示处理器416、图形用户界面418和显示器420。备选地,映射处理器412、搜索处理器404以及显示处理器416可以在通用计算机(诸如图1所示的)上运行的软件模块的形式来实现。然而,要理解到,映射处理器、搜索处理器和显示处理器可分别产生和定位。
结合图7、8和9中的说明,图10所示的实施例基本操作为图1所示的存储及检索数据处理器。图7、8和9提供了如何相对于搜索查询来搜索信息项以及如何显示搜索结果的示例说明。相应地,图10所示的实施例配置为接收搜索查询,例如来自用户控制414的关键词。响应该关键词,搜索处理器404处理该搜索,以结合映射处理器来标识对应于标识为搜索结果的信息项的阵列中的x、y位置集合。例如,对于40×40的节点阵列,在方形二维阵列中有1600个位置。如上所述,搜索处理器根据搜索查询来搜索信息项。通过搜索处理器的搜索产生由搜索处理器标识为对应于搜索查询的信息项的x、y位置集合。映射处理器412接收搜索结果的x、y位置。
在备选实施例中,搜索处理器404可配置为搜索信息项并生成搜索结果,该搜索结果标识与搜索查询相对应的信息项。随后,映射处理器412可接收表示标识对应于搜索查询的信息项的搜索结果的数据。随后,映射处理器生成与标识的信息项相对应的阵列中位置的x、y坐标。
映射处理器412可操作用于通过实施k-均值聚类算法来标识在第一全级的信息项聚类。k-均值聚类算法标识聚类以及阵列内该聚类的位置。在标题为“用于模式识别的神经网络”(“Neural Networks for PatternRecognition”,by Christopher M.Bishop,pp 187-188,Oxford UniversityPress)的书中公开了k-均值聚类算法。在如下网址中公开了k-均值聚类算法的更多公开:
http://cne.gmu.edu/modules/dau/stat/clustgalgs/clust5_bdy.html
如图11所示,关键词“表演”的搜索结果可标识与以单词“表演”作为其元数据一部分的信息项相对应的阵列中的位置。因此,在阵列上执行k-均值聚类算法的结果标识了例如“知识竞赛”、“游戏”和“DIY”的三个聚类。信息项的这些聚类形成第一层次级h_level1。显示处理器416接收来自映射处理器412与第一层次级h_level1的信息项聚类相对应的数据。显示处理器416处理数据的第一层次级,以便提供表示这个第一层次级h_level1的二维显示的数据。显示处理器416产生的数据馈送到图形用户界面418,用于在如图12所示的显示屏420上的第一区430中显示。
在一些实施例中,可通过映射处理器412执行进一步操作,以使用k-均值算法来精炼聚类的标识。进一步操作被称为“k-均值聚类与修剪”。已知的k-均值聚类过程标识在表示相似信息项的搜索结果中标识的信息项的阵列位置组合。随后执行进一步修剪过程,该进一步修剪过程确定结果项x、y位置的相邻子聚类是否为同一主聚类的一部分。如果两个子聚类的中心之间的距离小于阈值,则这两个子聚类被认为是同一主聚类的一部分。用已知方法反复地执行修剪,直到聚类稳定。
映射处理器412操作执行对在第一层次级h_level1标识的信息项的各聚类的进一步分析。为了向用户提供单独检查信息项聚类并标识那些信息项内其它聚类的便利,映射处理器412形成另一层次级。相应地,对于信息项的各聚类,对那个聚类执行k-均值聚类算法,以标识信息项的那个第一层次级内的其它聚类。因此,例如如图11所示,如果在“知识竞赛”聚类上执行k-均值算法,则在第二层次级h_level2标识其它三个聚类。
如对于第一层次级所说明的,根据关键词标记各聚类。通过找出最通用的词来标识关键词,最通用的词是指聚类中每个信息项都存在与那个信息项相关联的元数据。因此,例如在第一层次级中,通过词“知识竞赛”、“游戏”和“DIY”标识了三个聚类。
以标记第一层次级h_level1聚类的相应方式,对第二层次级h_level2中的各聚类标识关键词。相应地,三个聚类被标记为“主持人”、“淘汰(wipeout)”以及“对手参与(enemy within)”。这三个聚类每个都包括知识竞赛表演的不同片段。
这是可以理解的,可进行进一步重复分析各聚类。这是通过在第二层次级h_level2标识的各聚类上执行k-均值算法来实现。如图11所示,使用k-均值聚类算法来进一步分析“淘汰”信息聚类。然而,在第三层次级h_level3,只显示了单个信息项,并因此如图11所示,第三层次级h_level3标识了“淘汰”的各个片段。
因此,映射处理器412可操作用于标识在不同层次级信息项的聚类。表示各层次级的数据被馈送到显示处理器416。相应地,结合图形用户界面418,第二区可被显示在例如与第二层次级h_level2相对应的显示器420上。因此,使用缩放控制用户可放大在第一层次级h_level1中显示的聚类。使用用户控制414可操作缩放控制。相应地,放大特定的聚类可对显示信息项的第二层次级h_level2有影响。或者,用户控制414可用于选择第一区内的“当前视图”区域。相应地,相对于在第一显示中所示的第一层次级h_level1标识的“知识竞赛”聚类内所标识的聚类来说明第二显示。
本发明实施例提供的另一优点是:在显示器的第二或后续区域中显示的第二或后续级的配置可设置有其它聚类的指示符。该指示符可将用户指向与在较低层次级观察到的聚类相关联的关键词的备选聚类。因而,在第二显示区440内的较低层次级示出的聚类将有正查看聚类的备选聚类。例如,在图12中,在第一显示区430中,第一层次级示出了三个聚类“知识竞赛”、“游戏”和“DIY”。由于缩放控制用于在“知识竞赛”聚类进行放大,于是第二显示区440提供了“知识竞赛”聚类内的聚类显示,它们是“主持人”、“对手参与”和“淘汰”。然而,“知识竞赛”聚类的备选关键词是如在第一区所示的“DIY”、“恐怖”和“游戏”。相应地,提供箭头444、446和448,以将用户指向与在第二显示区中显示的“知识竞赛”聚类同一层次级的信息项聚类。相应地,如果用户随后想查看来自第一层次级的不同聚类以显示第二层次级中的聚类,则用户可用箭头导航到第一层次级内的备选聚类。此外,有利的是,用出现在第一层次级中聚类的关键词标签来标记箭头。在其它实施例中,为了向用户提供聚类中相对项的数量的说明,于是在与方向指示箭头相关的关键词旁显示这个数量。当鼠标指针MP通过或定位在指示箭头上时,用户控制与显示器可配置为指示这个数量。
一些实施例的其它有利特征是提供了附加关键词列表,即,与第一级聚类内的第二级聚类相关的关键词。如图12所示,对于提供“恐怖”的其它第一级聚类的聚类,当鼠标指针MP定位在与“恐怖”相关的箭头上时,于是生成与那个第一级聚类“恐怖”内的第二级聚类相对应的附加词。结果,在不必查看第二显示区440内的那些聚类的情况下,向用户提供了与第一级聚类相关的信息项内容的非常有效的说明。如图12所示,显示区还可包括通常如450所示的控制图标,其用于在第一显示区430中出现的信息项周围查看并导航。
多模式精炼搜索
现在将参照图10并结合图13-17来描述本发明的另一示范性实施例。图13提供了表征信息特征类型的说明性表示,其以与信息项相关联的方式存储。例如,信息项可以是来自电视节目的一段音频/视频数据。在该实例中,节目提供了足球赛的最精彩部分。相应地,数据项包括视频数据460和音频数据。与音频数据有关的是在框462中示出的音频元数据。音频元数据描述与视频数据相关的音频信号的内容和类型。对于本示例,音频数据包括“音乐”、“评论”、“嘈杂声”,但也可包括指示音频信号类型的一个或多个其它类型的元数据。除视频数据和音频数据外,信息项还可包括描述视频和音频数据内容或属性的其它元数据。对于本示例,元数据在框464内说明了,并显示为包括视频节目内容的描述。是包含在这个元数据中的词用于构建生成SOM的特性向量。然而,在本发明的其它实施例中,可相对于是音频元数据462或在视频数据上的音频数据,来搜索包含在数据中心库400中的信息项集合。为此,可从视频数据460的帧中生成代表性关键印记。
通过形成视频数据各帧的色彩直方图,来生成代表性关键印记RKS。对所有或选择的视频帧的色彩直方图进行组合,并随后进行标准化,以产生合成的色彩直方图,其以如图13中的条形图466的代表性形式进行说明。随后将合成的色彩直方图与各视频帧的色彩直方图相比较。通过对各视频帧色彩直方图的各列与合成直方图的对应列的距离求和,来确定各帧色彩直方图与合成色彩直方图之间的距离。选择相对于合成色彩直方图具有最小距离的色彩直方图的代表性关键印记RKS。对于描述足球赛的节目,则相应产生的代表性关键印记最可能是一部分足球场的视频图像,通过图13所示的代表性关键印记RKS对其进行说明。
在其它实施例中,可通过如下任一方法从视频帧中生成各信息项的RKS:
·用户可选择认为是与信息项的整个内容相对应的最具代表性帧的帧。这个方法可提供改进的可靠性,因为用户确保选择了主观上代表信息项的视频帧。然而,这种方法较费时。
·用户可选择信息项内的第一帧或随机帧。对于选择适当的RKS,这是可靠性较低的方法。
·设想基于图像帧内容来处理视频帧并选择RKS的其它方法。
本发明的实施例可提供基于选择的表征信息特征来产生精炼搜索的便利。在一个实施例中,搜索处理器142可操作用于根据元数据、视频图像或音频数据的项来搜索在第一次搜索中标识的那些信息项。在备选实施例中,可只在元数据、或只在视频数据、或只在音频数据、或其中的任意组合上进行搜索。为了便于搜索查询的形成,图10所示的显示设备420可包括由图14所示的图形用户界面418所提供的另一图形显示。
在图14中,显示区472内的第一行470向用户提供了基于元数据选择查询信息的便利。相应地,如果来自信息项的图像代表性关键印记放在这行的窗口内,则将与这个信息项(如图13所示的)相关的元数据添加到搜索查询中。因此,可将来自不同信息项的一个或多个代表性关键印记引入到类型元数据的表征信息特征的搜索查询中。相应地,引入用户已经选择的第二行474视频帧,以形成一部分搜索查询。例如,用户可浏览视频数据的特定项,并选择感兴趣的帧。用户随后可将这个图像帧放在行474,以形成一部分搜索查询。用户可引入一个或多个视频帧。
用户还可根据信息项内的音频数据来选择要搜索的那个信息项。相应地,显示区内的第三行476向用户提供了这样的便利:引入那个信息项的代表性图像,以标识在音频数据行内搜索查询要包含与搜索查询内的那个信息项相对应的音频数据。
除了根据表征信息特征的类型来选择要搜索的信息项之外,本发明的实施例还提供了根据选择的信息项之间的布尔算子进行搜索的便利。如图14所示,要根据如在前两列478、480之间所示的“AND”算子来搜索已经对于元数据搜索而选择的信息项。然而,在搜索查询中第一元数据与第一视频图像项之间的搜索查询由“OR”算子连接。要对于视频图像数据搜索的两个项由“AND”算子连接。要根据音频数据搜索的信息项还要根据“NOT”算子在搜索查询中搜索。
已经建立了搜索查询,搜索处理器404可操作用于根据从用户作的选择而构建的、并在图14中说明的搜索查询来搜索从关键词搜索中标识的信息项。搜索处理器根据选择的表征信息特征类型来不同地搜索信息项,这将在下面段落中解释。
对于搜索表征信息特征(诸如元数据)的实例,然后对于任意信息项,从元数据生成的那个信息项的特征向量可用于标识与那个特征向量相对应的二维阵列中的点。相应地,阵列中那个所标识位置的预定距离内的信息项可作为搜索查询的结果返回。然而,如果已经在元数据搜索行内选择了多个信息项,则必须以根据选择的布尔算子来搜索这两个项的方式构建搜索查询。
对于“AND”布尔算子的实例,则组合各信息项的特征向量,以形成如图15所示的合成特征向量。为此,将与元数据内每个词相关联的值加到一起,并进行标准化,以产生合成特征向量。因此如图15所示,将与用户选择的元数据相关联的两个特征向量A、B组合在一起形成特征向量C,其中用户选择的元数据具有在元数据搜索查询行470的行470和列478到480中所示的其代表性关键印记。随后,搜索处理器可得到特征向量C,并将其与SOM相比较。标识了与合成特征向量C相对应的阵列中的最靠近的位置,将来自阵列中那个标识位置的阵列内的预定数量位置内的信息项作为搜索查询结果返回。
对于相应元数据搜索的布尔“OR”算子的实例,则对于第一特征向量A和第二特征B,标识那些特征向量在阵列中的相应位置。同样,搜索查询结果要返回阵列中每个那些标识点的预定数量位置内的所有信息项。这在图16和17中说明了。在图17中,在二维阵列中标识与特征向量A相对应并与特征向量B相应的位置。如图17所示,随后可将阵列中在A与B阵列位置的预定半径内的位置作为如搜索查询结果所标识的返回。然而,如果在搜索查询中标识了另一特征向量C,并对这个另一特征向量指定了“NOT”布尔算子,则再次标识对应于特征向量C的阵列中的位置。相应地,可再次标识从C的阵列位置的预定半径内的信息项。然而,作为“NOT”算子的结果,从搜索结果中排除在特征向量C以及A和B的阵列位置的半径之间标识的任何相互包含的阵列位置。因此,搜索处理器配置为返回与从A或B但不是C产生的阵列中的位置相对应的信息项。
对于与作为搜索的表征特征的视频图像数据相对应的搜索查询中的第二行,则搜索处理器可操作用于搜索与用户选择的视频图像相对应的代表性关键印记的视频数据。为此,将与用户选择的视频图像相关联的色彩直方图和与信息项相关联的各代表性关键印记的色彩直方图相比较。计算各信息项的代表性关键印记的色彩直方图与用户指定视频图像的色彩直方图之间的距离。这是通过计算表示那个图像的色彩分量的各列之间的距离并对各列的这些距离求和来实现的。标识与在用户选择的视频图像的色彩直方图和对应于阵列位置的代表性关键印记的色彩直方图之间具有最短距离的信息项相对应的那个阵列位置。查询结果将再次返回具有来自标识阵列位置的预定数量位置内的阵列位置的信息项。
对于布尔算子的情况,则可通过将布尔“AND”算子选择并指定的两个图像的色彩直方图相组合而再次形成色彩直方图。图18示出了形成合成色彩直方图的过程。通过对色彩直方图各列中的值取平均来组合图14所示的显示区内的视频图像搜索查询行的行474和列478、480中提供的第一和第二用户选择的图像的色彩直方图。从而,组合了图18a和18b所示的两个色彩直方图,形成在图18c中形成的色彩直方图。相对于要搜索的信息项的代表性关键印记来搜索的是这个色彩直方图。
对于音频数据的例子,则搜索处理器可从与选择的信息项相关联的音频元数据中形成特征向量。例如,音频元数据可标识存在于音频信号、语音数据中的谐波,或在由音频元数据表示的音频信号内是否存在音乐。此外,元数据可标识在音频信号上是否存在特定的讲演者,例如托尼·布莱尔或特别评论员诸如约翰·莫特森。相应地,可从选择的音频数据中再次生成特征向量,其中该选择的音频数据可相对于特别与音频数据相关的其它特征向量来搜索。以上面说明的相应方法,布尔算子可用于组合多个音频元数据类型的搜索。对于“AND”算子的实例,可组合音频元数据项,以产生合成的元数据项。搜索具有最靠近这个合成项的特征向量的相应信息项将标识一个信息项。当指定“OR”算子时,搜索处理器可随后恢复在两个元数据项的阵列内的预定数量位置内的信息项。再者,“NOT”布尔算子将用来从搜索查询的结果中排除具有匹配音频数据的返回的信息项。
已经提供了精炼从标识的信息项中的搜索的本发明的实施例。然而要理解到,在其它实施例中,可以提供由图14所示的显示而形成的搜索查询以及该搜索查询相对于元数据、视频图像数据和音频数据的应用,以搜索数据中心库400内的整个信息集合。
在不脱离本发明范围的前提下,可对上述实施例进行各种修改。本发明的各方面和特征在所附权利要求书中定义。

Claims (7)

1.一种图形用户界面装置,包括图形显示,该图形显示包括多个字段,每个字段被布置在多个行中的一行上,所述图形显示被配置为显示形成搜索查询的用户选择查询信息,并显示基于所述搜索查询的信息项集合的搜索结果,所述信息项集合被用于形成可以被搜索的特征向量集合,并且所述信息项集合包括代表一个或多个视频图像的数据和/或代表音频信号的数据,所述图形用户界面装置包括:
输入设备,该输入设备被配置为使得用户能够
通过选择一个或多个图像来填充所述图形显示的所述多个字段的每个字段,其中每个图像代表所述信息项之一,并且每个图像与表征信息特征相关联,
描述一单个字段中的两个所选图像之间的布尔关系,以及
描述两个单个字段中的各自图像之间的布尔关系;以及
搜索处理器,该搜索处理器被配置为
基于如下各项来定义所述搜索查询:
用户定义的在所述多个字段中的所选图像之间的布尔关系,以及与每个图像相关联的表征信息特征的各自类型,所述表征信息特征的各自类型是根据所述图像被用户放置到的字段所确定的,以及
基于所述搜索查询来搜索所述信息项集合。
2.如权利要求1所述的图形用户界面装置,其中每个信息项的代表性图像帧与一色彩直方图相关联,所述搜索查询用于搜索信息项集合,所述信息项集合是通过组合与在各个字段中的图像位置相关联的色彩直方图以形成合成特征向量而形成的,并且通过确定所述合成特征向量和针对所述信息项的各个特征向量之间的欧氏距离来执行所述搜索。
3.如权利要求1所述的图形用户界面装置,其中所述信息项被按自组织映射来组织,并且所述图形用户界面装置被布置成显示所述搜索的结果,所述搜索是由搜索处理器所执行的,所述搜索处理器根据所述搜索查询搜索所述信息项,以通过如下方式识别信息项:基于所述搜索查询确定所述自组织映射中的针对合成特征向量的最靠近的节点,并返回在所述最靠近的节点的预定距离以内的信息项,并且所述图形用户界面可操作用于:
根据由映射处理器所生成的数据显示识别出的信息项中的至少一些信息项的表示,所述数据代表来自在所述搜索中识别出的信息项集合的信息项的映射,所述映射根据信息项的相互相似性、相对于阵列中的位置提供识别出的信息项,其中相似信息项映射到阵列中的相似位置。
4.如权利要求1所述的图形用户界面装置,其中所述图形用户界面被布置为显示所述搜索处理器响应于所述搜索查询识别出的信息项的表示,并且响应于用于选择由所述处理器识别出的信息项中的一个或多个的用户控制,所选的信息项被所述搜索处理器用来细化搜索,以识别与所选的信息项相关的信息项。
5.如权利要求1所述的图形用户界面装置,其中所述所选图像是代表性关键印记。
6.一种基于特征向量显示对信息项集合的搜索结果的方法,所述特征向量由所述信息项形成,所述搜索基于由用户所选的查询信息形成的搜索查询,所述信息项集合包括代表一个或多个视频图像的数据和/或代表音频信号的数据,所述方法包括:
通过选择两个或更多个图像来填充图形显示的多个字段,其中每个图像代表所述信息项之一并且与表征信息特征相关联,每个字段被布置在多个行中的一行上;
描述两个图像的选择之间的布尔关系;
基于所定义的两个图像之间的布尔关系以及与每个图像相关联的所述表征信息特征的各自类型来定义所述搜索查询,所述表征信息特征的各自类型由所述图像被放置到的字段所确定;以及
基于所述搜索查询来搜索所述信息项集合。
7.如权利要求6所述的方法,其中每个信息项的代表性图像帧与一色彩直方图相关联,并且用户所选的搜索查询是通过如下方式形成的:
组合与来自各个字段的图像相关联的色彩直方图,以形成合成特征向量,并且搜索所述信息项集合包括:
确定所述合成特征向量与针对信息项的各个特征向量之间的欧氏距离。
CN2011102951830A 2002-11-27 2003-11-04 信息存储与检索 Pending CN102368255A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0227659.0 2002-11-27
GB0227659A GB2395806A (en) 2002-11-27 2002-11-27 Information retrieval

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CNA2003801044878A Division CN1717685A (zh) 2002-11-27 2003-11-04 信息存储与检索

Publications (1)

Publication Number Publication Date
CN102368255A true CN102368255A (zh) 2012-03-07

Family

ID=9948607

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2011102951830A Pending CN102368255A (zh) 2002-11-27 2003-11-04 信息存储与检索
CNA2003801044878A Pending CN1717685A (zh) 2002-11-27 2003-11-04 信息存储与检索

Family Applications After (1)

Application Number Title Priority Date Filing Date
CNA2003801044878A Pending CN1717685A (zh) 2002-11-27 2003-11-04 信息存储与检索

Country Status (7)

Country Link
US (2) US20060095852A1 (zh)
EP (2) EP2060982A1 (zh)
JP (1) JP4569955B2 (zh)
CN (2) CN102368255A (zh)
DE (1) DE60326749D1 (zh)
GB (1) GB2395806A (zh)
WO (1) WO2004049206A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679386A (zh) * 2013-12-25 2014-03-26 深圳市盈富在线信息科技有限公司 一种资讯数据处理方法及资讯数据处理的客户端
CN106560786A (zh) * 2015-09-30 2017-04-12 波音公司 来自多个媒体源的内容的组织与可视化
CN113704300A (zh) * 2020-05-21 2021-11-26 Sap欧洲公司 供数据检索方法使用的数据印记技术

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3250559B2 (ja) * 2000-04-25 2002-01-28 ヤマハ株式会社 歌詞作成装置及び歌詞作成方法並びに歌詞作成プログラムを記録した記録媒体
US8028249B2 (en) 2001-05-23 2011-09-27 Eastman Kodak Company Method and system for browsing large digital multimedia object collections
US6996782B2 (en) 2001-05-23 2006-02-07 Eastman Kodak Company Using digital objects organized according to a histogram timeline
GB2395804A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
RU2331936C2 (ru) * 2003-09-25 2008-08-20 Самсунг Электроникс Ко., Лтд. Устройство и способ для воспроизведения аудио- и видеоданных
JP2006040085A (ja) * 2004-07-29 2006-02-09 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
GB2418038A (en) * 2004-09-09 2006-03-15 Sony Uk Ltd Information handling by manipulating the space forming an information array
WO2006059297A2 (en) * 2004-12-01 2006-06-08 Koninklijke Philips Electronics N.V. Automatic content organization based on content item association
GB2421094A (en) * 2004-12-09 2006-06-14 Sony Uk Ltd Generating reduced feature vectors for information retrieval
US20080189330A1 (en) * 2004-12-15 2008-08-07 Hoos Holger H Probabilistic Audio Networks
US7818350B2 (en) 2005-02-28 2010-10-19 Yahoo! Inc. System and method for creating a collaborative playlist
JP2006244002A (ja) * 2005-03-02 2006-09-14 Sony Corp コンテンツ再生装置およびコンテンツ再生方法
KR100728002B1 (ko) * 2005-07-22 2007-06-14 삼성전자주식회사 라스트 유알아이 생성 방법 및 장치와 그 방법을 수행하는프로그램이 기록된 기록 매체
US20070027895A1 (en) * 2005-07-27 2007-02-01 Lexmark International, Inc. Systems and methods for providing customized multi-function device interfaces using user authentication
WO2007015228A1 (en) * 2005-08-02 2007-02-08 Mobixell Networks Content distribution and tracking
US7844820B2 (en) * 2005-10-10 2010-11-30 Yahoo! Inc. Set of metadata for association with a composite media item and tool for creating such set of metadata
US8145656B2 (en) * 2006-02-07 2012-03-27 Mobixell Networks Ltd. Matching of modified visual and audio media
US7668867B2 (en) * 2006-03-17 2010-02-23 Microsoft Corporation Array-based discovery of media items
US7849078B2 (en) * 2006-06-07 2010-12-07 Sap Ag Generating searchable keywords
US8131722B2 (en) * 2006-11-20 2012-03-06 Ebay Inc. Search clustering
US20080231644A1 (en) * 2007-03-20 2008-09-25 Ronny Lempel Method and system for navigation of text
US20100159437A1 (en) * 2008-12-19 2010-06-24 Xerox Corporation System and method for recommending educational resources
US8457544B2 (en) * 2008-12-19 2013-06-04 Xerox Corporation System and method for recommending educational resources
US8699939B2 (en) * 2008-12-19 2014-04-15 Xerox Corporation System and method for recommending educational resources
US8725059B2 (en) * 2007-05-16 2014-05-13 Xerox Corporation System and method for recommending educational resources
US8195660B2 (en) * 2007-06-29 2012-06-05 Intel Corporation Method and apparatus to reorder search results in view of identified information of interest
CN100433019C (zh) * 2007-07-26 2008-11-12 杭州华三通信技术有限公司 一种数据存储与检索的方法及系统
US8823709B2 (en) 2007-11-01 2014-09-02 Ebay Inc. User interface framework for viewing large scale graphs on the web
CA2666016C (en) * 2008-05-15 2014-07-22 Mathieu Audet Method for building a search algorithm and method for linking documents with an object
US20100075290A1 (en) * 2008-09-25 2010-03-25 Xerox Corporation Automatic Educational Assessment Service
US20100075291A1 (en) * 2008-09-25 2010-03-25 Deyoung Dennis C Automatic educational assessment service
US20100075292A1 (en) * 2008-09-25 2010-03-25 Deyoung Dennis C Automatic education assessment service
US8520242B2 (en) * 2008-12-30 2013-08-27 Jack Technology Inc. Management system of technical literature data and method thereof
US8428348B2 (en) * 2009-04-15 2013-04-23 Microsoft Corporation Image analysis through neural network using image average color
US8189925B2 (en) * 2009-06-04 2012-05-29 Microsoft Corporation Geocoding by image matching
US8190663B2 (en) * 2009-07-06 2012-05-29 Osterreichisches Forschungsinstitut Fur Artificial Intelligence Der Osterreichischen Studiengesellschaft Fur Kybernetik Of Freyung Method and a system for identifying similar audio tracks
US10248697B2 (en) * 2009-07-24 2019-04-02 Raytheon Company Method and system for facilitating interactive review of data
JP5436104B2 (ja) * 2009-09-04 2014-03-05 キヤノン株式会社 画像検索装置及び画像検索方法
JP5744660B2 (ja) * 2010-08-26 2015-07-08 キヤノン株式会社 データ検索結果の表示方法およびデータ検索結果の表示装置、プログラム
US9519705B2 (en) * 2011-01-25 2016-12-13 President And Fellows Of Harvard College Method and apparatus for selecting clusterings to classify a data set
CN103518187B (zh) * 2011-03-10 2015-07-01 特克斯特怀茨有限责任公司 用于信息建模的方法和系统及其应用
US8849811B2 (en) * 2011-06-29 2014-09-30 International Business Machines Corporation Enhancing cluster analysis using document metadata
JP5277296B2 (ja) * 2011-08-31 2013-08-28 楽天株式会社 検索システム、情報処理装置、情報処理装置の制御方法、プログラム、及び情報記憶媒体
US9703755B2 (en) 2012-07-30 2017-07-11 Hewlett Packard Enterprise Development Lp Generating and partitioning polynomials
US8924316B2 (en) 2012-07-31 2014-12-30 Hewlett-Packard Development Company, L.P. Multiclass classification of points
US20140067443A1 (en) * 2012-08-28 2014-03-06 International Business Machines Corporation Business process transformation recommendation generation
US20140250376A1 (en) * 2013-03-04 2014-09-04 Microsoft Corporation Summarizing and navigating data using counting grids
USD757789S1 (en) * 2013-12-31 2016-05-31 Qizhi Software (Beijing) Co. Ltd Display screen with animated graphical user interface
US9438412B2 (en) * 2014-12-23 2016-09-06 Palo Alto Research Center Incorporated Computer-implemented system and method for multi-party data function computing using discriminative dimensionality-reducing mappings
CN105205880B (zh) * 2015-07-17 2018-03-16 广东好帮手电子科技股份有限公司 一种基于地理位置检索数据的方法及其系统
US11308154B2 (en) * 2016-08-17 2022-04-19 Baidu Usa Llc Method and system for dynamically overlay content provider information on images matched with content items in response to search queries
CN106959990A (zh) * 2016-08-30 2017-07-18 智器云南京信息科技有限公司 基于分析模型的情报可视化分析方法、装置及终端
US20180081880A1 (en) * 2016-09-16 2018-03-22 Alcatel-Lucent Canada Inc. Method And Apparatus For Ranking Electronic Information By Similarity Association
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10339407B2 (en) * 2017-04-18 2019-07-02 Maxim Analytics, Llc Noise mitigation in vector space representations of item collections
CN107219970A (zh) * 2017-05-19 2017-09-29 智器云南京信息科技有限公司 可视化分析图表的操作方法及装置、可读存储介质、终端
US11669558B2 (en) 2019-03-28 2023-06-06 Microsoft Technology Licensing, Llc Encoder using machine-trained term frequency weighting factors that produces a dense embedding vector
US11126647B2 (en) * 2019-12-13 2021-09-21 CS Disco, Inc. System and method for hierarchically organizing documents based on document portions

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756652B2 (ja) * 1992-03-24 1995-06-14 インターナショナル・ビジネス・マシーンズ・コーポレイション 動画像のフレーム列の検索
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5893095A (en) * 1996-03-29 1999-04-06 Virage, Inc. Similarity engine for content-based retrieval of images
US5987460A (en) * 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
US5847708A (en) * 1996-09-25 1998-12-08 Ricoh Corporation Method and apparatus for sorting information
US5963965A (en) * 1997-02-18 1999-10-05 Semio Corporation Text processing and retrieval system and method
US6121969A (en) * 1997-07-29 2000-09-19 The Regents Of The University Of California Visual navigation in perceptual databases
US6721449B1 (en) * 1998-07-06 2004-04-13 Koninklijke Philips Electronics N.V. Color quantization and similarity measure for content based image retrieval
CA2404319A1 (en) * 2000-03-31 2001-10-11 Andrei Mikheev Method and system for gathering, organizing, and displaying information from data searches
AU2001294768A1 (en) * 2000-09-26 2002-04-08 Alltrue Networks, Inc. Method and software for graphical representation of qualitative search results
TW501035B (en) * 2001-03-20 2002-09-01 Ulead Systems Inc Interactive image searching method based on local object
JP4889159B2 (ja) * 2001-05-14 2012-03-07 富士通株式会社 データ検索システムおよびデータ検索方法
GB2393271A (en) * 2002-09-19 2004-03-24 Sony Uk Ltd Information storage and retrieval
EP1400903A1 (en) * 2002-09-19 2004-03-24 Sony United Kingdom Limited Information storage and retrieval

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679386A (zh) * 2013-12-25 2014-03-26 深圳市盈富在线信息科技有限公司 一种资讯数据处理方法及资讯数据处理的客户端
CN103679386B (zh) * 2013-12-25 2017-07-04 深圳市盈富在线信息科技有限公司 一种资讯数据处理方法及资讯数据处理的客户端
CN106560786A (zh) * 2015-09-30 2017-04-12 波音公司 来自多个媒体源的内容的组织与可视化
CN113704300A (zh) * 2020-05-21 2021-11-26 Sap欧洲公司 供数据检索方法使用的数据印记技术

Also Published As

Publication number Publication date
JP4569955B2 (ja) 2010-10-27
CN1717685A (zh) 2006-01-04
EP1565846B1 (en) 2009-03-18
EP1565846A1 (en) 2005-08-24
GB2395806A (en) 2004-06-02
EP2060982A1 (en) 2009-05-20
US20060095852A1 (en) 2006-05-04
DE60326749D1 (de) 2009-04-30
GB0227659D0 (en) 2003-01-08
JP2006508446A (ja) 2006-03-09
US20080313179A1 (en) 2008-12-18
WO2004049206A1 (en) 2004-06-10

Similar Documents

Publication Publication Date Title
CN102368255A (zh) 信息存储与检索
US7502780B2 (en) Information storage and retrieval
US20040107221A1 (en) Information storage and retrieval
US8756245B2 (en) Systems and methods for answering user questions
US20080263022A1 (en) System and method for searching and displaying text-based information contained within documents on a database
US7668853B2 (en) Information storage and retrieval
CN100416556C (zh) 信息检索方法和系统、数据处理设备和视频采集处理设备
US20060053176A1 (en) Information handling
GB2592884A (en) System and method for enabling a search platform to users
CN100449534C (zh) 信息存储和检索
US20040107195A1 (en) Information storage and retrieval
Vrochidis et al. Utilizing implicit user feedback to improve interactive video retrieval
Chiu et al. Using rough set theory to construct e-learning faq retrieval infrastructure
Rohini et al. Efficient Term Frequency and Optimal Similarity Measure of Snippet for Web Search Results

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB02 Change of applicant information

Address after: Shire of England

Applicant after: Sony Corporation

Address before: Shire of England

Applicant before: Sony United Kingdom Ltd.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: SONY UNITED KINGDOM LTD. TO: SONY EUROPE LIMITED

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120307