CN100449534C - 信息存储和检索 - Google Patents

信息存储和检索 Download PDF

Info

Publication number
CN100449534C
CN100449534C CNB031255256A CN03125525A CN100449534C CN 100449534 C CN100449534 C CN 100449534C CN B031255256 A CNB031255256 A CN B031255256A CN 03125525 A CN03125525 A CN 03125525A CN 100449534 C CN100449534 C CN 100449534C
Authority
CN
China
Prior art keywords
information
item
node
data
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB031255256A
Other languages
English (en)
Other versions
CN1495647A (zh
Inventor
J·R·托尔佩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony United Kingdom Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB0221774A external-priority patent/GB2393271A/en
Application filed by Sony United Kingdom Ltd filed Critical Sony United Kingdom Ltd
Publication of CN1495647A publication Critical patent/CN1495647A/zh
Application granted granted Critical
Publication of CN100449534C publication Critical patent/CN100449534C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • G06F16/3328Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages using graphical result space presentation or visualisation

Abstract

一种信息检索系统,其中一组不同的信息项通过该信息项的相互相似性而映射到节点阵列中的对应节点,使得相似的信息项映射到该节点阵列中的相似位置处的节点;该信息检索系统包括:数据网络;连接到该数据网络的信息检索客户系统;以及一个或者多个连接到该数据网络的信息项存储节点;其中:每个存储节点包括:用于存储多个信息项的装置和用于将从存储在该存储节点处的信息项所得出的数据通过该数据网络传输到客户系统的索引装置;以及该客户系统包括响应于从存储节点的索引装置中所接收的数据、生成关于由该被接收的数据所代表的每个信息项的节点位置的装置。

Description

信息存储和检索
技术领域
本发明涉及信息存储和检索。
背景技术
有许多已建立的系统被用于通过按照关键字进行搜索来定位信息(比如文件、图像、电子邮件、专利、因特网内容或者象音频/视频内容这样的媒体内容)。实例包括例如由“Google”TM或者“Yahoo”TM等这样的公司提供的因特网搜索“引擎”,其中通过关键字执行的搜索导致一个结果列表,该结果列表被搜索引擎按照所察觉的关联性而进行排序。
然而,在经常被称作大量内容收集的、包括大量内容的系统中,可能很难制定有效的检索查询来给出相对短的搜索“命中”列表。例如,在准备当前申请时,关于关键字“大量文件收集(massive document collection)”的Google搜索就提取了243000个命中。如果以后再重复这个搜索,则预期此命中的数量还将增长,因为通过因特网所存储的内容的数量通常会随着时间而增加。检查这样的命中列表需要耗费高得惊人的时间。
总的来说,大量内容收集没有被很好利用的一些原因是:
·用户不知道存在相关内容
·用户知道相关内容存在但不知道它可能位于哪里
·用户知道该内容存在但不知道它是相关的
·用户知道相关内容存在并知道如何找到它,但找到该内容花费很长时间
在2000年5月有关神经网络的IEEE学报的第11卷第3期的574-585页,Kohonen等人写的论文“Self Organisation ofa Massive Document Collection”(“大量文件收集的自组织”)公开了一种利用所谓的“自组织映射”(SOM)的技术。这些利用了所谓的无人管理的自学习神经网络算法,其中表示每个文件的属性的“特征向量”被映射到SOM的节点上。
在Kohonen等人的论文中,第一步是预处理文件文本,然后从每个被预处理的文件中得到特征向量。在一种格式中,这可以是表示大字典的每个字的发生频率的直方图。在直方图中的每个数据值(也就是对应字典字的发生频率)变成一个n值向量中的值,其中n是在字典中候选字的总数量(在这个文章所述的例子中是43222)。或许可以将加权应用到该n个向量值,以强调某些字的增加的相关性或者改进的分化。
然后该n值向量映射到更小维数的向量上(也就是具有实际上小于n的m个值(在文章的实例中是500)的向量)。这可以通过使该向量乘以一个由随机数的数组所组成的(n×m)“投影矩阵”来实现。这个技术已经表明可生成较小维数的向量,其中任意两个缩小维数的向量具有与两个对应的输入向量几乎相同的向量点积。在1998年IJCNN会刊第413-418页中Kaski所写的论文“Dimensionality Reduction by Random Mapping:Fast Similarity Computation forClustering”(“通过随机映射缩小维数:用于群集的快速相似性计算”)中描述了这个向量映射过程。
然后该缩小维数的向量通过用“模型”(另一个向量)乘以每个向量的过程而被映射到SOM上的节点上(或者被称为神经元)。该模型由学习过程生成,该学习过程按照相互的相似性将该模型自动排序到SOM上,该SOM通常被表示为节点的二维网格。这并不是一个平凡的过程,为了一个只有不到七百万个文件的文件数据库,它使Kohonen等人在具有800MB内存的六处理器计算机上花费了六个星期。最终显示了一个由SOM组成的节点的网格,用户能够移近映射图的区域并选择一个节点,这使得用户界面提供一个到因特网页面的链接,该页面包含了被链接到那个节点的文件。
发明内容
本发明提供了一种信息检索系统,其中一组不同的信息项通过该信息项的相互的相似性而映射到一个节点阵列中的对应节点,使得类似的信息项映射到该节点阵列中在类似位置处的节点;该系统包括:
数据网络;
连接到该数据网络的信息检索客户系统;
一个或者更多(虽然最好是两个或者更多)个连接到该数据网络的信息项存储节点;
其中:
每个存储节点包括:用于存储多个信息项的装置,和用于通过该数据网络将由存储在那个存储节点处的信息项所获得的数据传送到该客户系统的索引装置;和
该客户系统包括响应于从存储节点的索引装置所接收的数据而相对于由该接收数据所表示的每个信息项生成节点位置的装置。
本发明提供了一种在例如因特网这样的网络上操作信息检索系统的有效并且方便的方法。
本发明另外的各个方面和特征在随后的权利要求中定义。
本领域的技术人员将明白,在本说明书中,在单词“列表”的正常使用范围内,“表示信息项的数据”可能是该项自身(如果它具有适用于全部显示的尺寸和特性的话),或者可以是指示该项的数据。
本发明另外的各个方面和特征在随后的权利要求中定义。
附图说明
现在只是作为实例而参考附图来描述本发明的实施例:
图1示意性地图解说明了信息存储和检索系统;
图2是显示自组织映射图(SOM)的生成的示意性流程图;
图3a和3b示意性地图解说明术语频率直方图;
图4a示意性地图解说明未加工的特征向量;
图4b示意性地图解说明减少的特征向量;
图5示意性地图解说明SOM;
图6示意性地图解说明抖动过程;
图7到9示意性地图解说明提供用户界面来访问由SOM所表示的信息的显示屏幕;
图10示意性地图解说明作为视频捕获和/或处理设备实例的摄像机;
图11示意性地图解说明作为便携式数据处理设备实例的个人数字助手;和
图12示意性地图解说明被连网的信息存储和检索系统。
具体实施方式
图1是基于通用计算机10的信息存储和检索系统的示意图,通用计算机10具有一个处理器单元20,后者包括了用于程序和数据的磁盘存储器30、连接到例如以太网或者因特网这样的网络50上的网络接口卡40,通用计算机还具有例如阴极射线管设备这样的显示设备60、键盘70和例如鼠际这样的用户输入设备80。该系统在程序控制下操作,程序被存储在磁盘存储器30上并且通过例如网络50、可移动磁盘(未显示)或者预先安装在磁盘存储器30上来提供。
该存储系统运行在两个普通的操作模式中。在第一个模式中,一系列信息项(例如文本信息项)被集合在磁盘存储器30上或者被集合在通过网络50连接的网络磁盘驱动器上,并且被分类和索引,准备用于搜索操作。操作的第二个模式是针对已被索引和分类的数据的实际搜索。
该实施例可应用于许多类型的信息项。合适的信息类型的非穷尽列表包括专利、视频材料、电子邮件、报告、因特网内容、广播内容、商业报告、音频材料、图形和图片(clipart)、照片等等,或者是这些类型的任意的组合或者混合。在本说明书中,将文本信息项或者至少具有文本内容或关联的信息项作为参考。因此,例如,像音频和/或视频材料这样的一条广播内容可能具有以文本项定义那个材料的关联的“元数据”。
信息项以传统的方式被装载到磁盘存储器30上。优选地,它们可以被存储作为允许更容易地进行项的检索和索引的数据库结构的一部分,但这不是必需的。一旦已经如此存储了信息和项,则在图2中示意性表示被用于排列它们以便进行搜索的过程。
将会理解,被索引的信息数据不必被存储在本地磁盘驱动器30上。数据可存储在经因特网50与系统10相连的远端驱动器上。可替代地,可以以分布的方式存储信息,例如存储在因特网的各种位置上。如果信息被存储在不同的因特网或者网络位置处,则信息存储器的第二级别将被用来在本地存储一条到该远程信息的“链接”(例如,URL),或许具有相关的概要、摘要或者与这个链接相关联的元数据。因此,远程持有的信息将不被访问,除非用户选择了相关链接(例如从将在下面描述的结果列表260中选择),尽管为了随后的技术描述的目的,该远程持有的信息或者该摘要/概要/元数据或者链接/URL可以被认为是“信息项”。
换句话说,“信息项”的正式定义是从中可以获得特征向量并且被处理(见下面)以便提供到SOM的映射的项。在结果列表260(见下面)中表示的数据可以是信息项自身(如果被保持在本地并且对于方便的显示足够短),或者是表示和/或者指向信息项的数据,例如一个或者多个元数据、URL、摘要、一组关键词、表示性的关键标记的图象等。在操作“列表”中这是固有的,操作“列表”虽然不总是但却经常包括列出表示一组项的数据。
在另一个实例中,能够跨越例如一个研究组或者合法公司这样的连网的工作组来存储信息项。一种混合方案可以包括一些本地存储的信息项和/或者一些通过局域网而被存储的信息项和/或者一些通过广域网而被存储的信息项。在这样的情况下,该系统对于例如在大型多国研究与开发组织中定位由其它人进行的相似工作非常有用,相似的研究工作将倾向于被映射到SOM中的相似输出节点上(见下文)。或者如果正在计划一个新的电视节目,则本技术能够被用于通过检测以前具有相似内容的节目来检查其原创性。
还应该理解,图1的系统10仅仅只是能够使用被索引的信息项的可能系统的一个实例。尽管可以想象,可以通过相当强大的计算机,很可能是通过非便携式计算机,来执行初期(编制索引)阶段,但是访问信息的后期阶段可以在例如“个人数字助理”(用于具有显示器和用户输入设备的数字处理设备的术语,通常适合放在一只手中)这样的便携式机器、例如膝上型电脑这样的便携式计算机或者甚至例如移动电话、视频编辑设备或者摄像机这样的设备上执行。通常地,具有显示器的任何设备实际上都能够用于操作的信息访问阶段。
该过程不受信息项的具体数目的限制。
现在将参考图2到6来描述生成信息项的自组织映射(SOM)表示的过程。图2是图解说明后随SOM映射过程的、被称作“特征提取”过程的示意性流程图。
特征提取是将未加工的数据转换成抽象表示的过程。这些抽象表示然后能被用于例如模式分类、聚集和识别这样的过程。在这个过程中,生成所谓的“特征向量”,它是在文件中所用的检索词的频率的抽象表示。
通过创建特征向量来形成显现的过程包括:
·生成检索词的“文件数据库字典”
·根据“文件数据库字典”为每个单独的文件生成“检索词频率直方图”
·利用随机映射来减少“检索词频率直方图”的维数
·创建信息空间的2维显现。
更详细地考虑这些步骤,依次打开每个文件(信息项)100。在步骤110处,从文件中去除全部的“无用词(stop word)”。无用词是在预先准备的列表上的那些非常普通的词,例如“一个”、“这”、“然而”、“关于”、“和”以及“该”等。因为这些词非常普通,所以它们平均起来可能在足够长度的全部文件中表现出相似的频率。因为这个原因,它们在尝试表征特定文件的内容时几乎不起作用,因此应该被删除。
在删除无用词以后,在步骤120处对剩余词提取词干(stem),这包括找到词的变体的共同词干。例如词“投掷器”(thrower)、“投掷”(throws)和“投掷运动”(throwing)具有共同的词干“投掷”(throw)。
维护由出现在文件(除去无用词)中的作为词干的词组成的“字典”。当重新遇到一个词的时候,它被增加到该字典中,并且还记录这个词已经在整个文件收集(信息项组)中出现的次数的游动(running)计数。
所得的结果是在文件组中用于全部文件的检索词列表,以及那些检索词出现的频率。出现频率太高或者太低的词被忽视,也就是说从字典中除去它们并且它们不参与随后的分析。具有太低频率的词可能是拼错的、虚构的或者与文件组所表示的领域不相关的。出现频率太高的词不适合在该组中区分文件。例如,在与广播有关的文件的测试文件组中大约全部文件的三分之一都使用了检索词“新闻”,而其中在测试文件组中只有大约2%的文件使用了词“足球”。因此能够设想和“新闻”相比,“足球”是用于表征文件内容的更好的检索词。相反的,词“fottball”(“足球”(football)的错误拼写)只在整个文件组中出现过一次,因此由于具有太低的出现机率而被删除。此类词可以被定义为那些具有比出现的平均频率低两个标准偏差或者比出现的平均频率高两个标准偏差的出现频率的词。
然后在步骤130中生成特征向量。
为了这样做,而为文件组中的每个文件生成一个检索词频率直方图。通过对存在于字典(与该文件组相关)中的词在单个文件中出现的次数计数来构建检索词频率直方图。在单个文件中,字典中的大部分检索词都不会出现,因此这些检索词将具有零频率。在图3a和3b中表示出用于两个不同文件的检索词频率直方图的示意性实例。
从这个实例中能够看出直方图是如何表征文件内容的。通过观察实例,能够看出文件1比文件2中出现更多的检索词“MPEG”和“视频”,而文件2自身出现了更多的检索词“元数据”。在该直方图中许多条目是零,因为相应的词没有出现在文件中。
在真实的例子中,实际的检索词频率直方图中具有比在实例中大得多的检索词数目。典型地,直方图可以绘制超过50000个不同检索词的频率,定出维数超过50000的直方图。如果要被用在SOM信息空间的建立中,则直方图的维数需要被相当大的缩减。
检索词频率直方图中的每个条目被用作为表示那个文件的特征向量中的对应值。这个过程的结果是一个(50000×1)向量,它包含对于文件收集中的每个文件该字典所规定的全部检索词的频率。该向量被称为稀疏向量,因为典型地大多数值都是零,而其他大多数值是例如1这样的非常低的数目。
在步骤140处减少特征向量的大小,从而减少检索词频率直方图的维数。建议了两种方法用于减少直方图的维数。
i)随机映射-一种借助其而使随机数矩阵乘以直方图的技术。这是计算花费比较低廉的过程。
ii)潜在语义索引-通过寻找在文件中具有很高的同时出现概率的检索词的组来减少直方图维数的技术。然后能够把这些词的组缩减成单一的参数。这是计算花费较高的过程。
在本实施例中被选择用于减少检索词频率直方图的维数的方法是“随机映射”,如在上面提及的Kaski论文中所详细说明的。随机映射通过用随机数的矩阵乘以直方图而成功地减少直方图的维数。
如上所述,“未加工的”特征向量(在图4a中示意性所表示的)是典型的稀疏向量,其大小在具有50000个值的区域中。它能够被减少到大约200(见示意图4b)并且仍然保持该特征向量的相关特性,即,例如与其他被类似处理的特征向量的相关角(向量点积)这样的相互关系。这样之所以行得通是因为尽管限制了特殊维数的正交向量数,但是接近正交的向量的数目非常大。
实际上随着向量维数的增加,任何给定的随机生成的向量组彼此几乎正交。这个特性意味着与这个随机数矩阵相乘的向量的相关方向将被保持。能够通过查看它们的点积而示出在随机映射之前和之后向量的相似性,由此证实这个性质。
能够用试验方式来表明:将稀疏向量从50000个值减少到200个值还可保持它们的相关的相似性。然而,这个映射并不完美,但是对于以简单紧凑的方式来表征文件内容的目的而言已经足够了。
一旦已经对于文件收集生成了特征向量,且因而也定义了该收集的信息空间,在步骤150处就将它们投射到二维SOM来生成语义映射。随后的部分说明了通过利用Kohonen自组织映射来群集该特征向量而映射到2维的过程。还要参考图5。
Kohonen自组织映射被用于群集和组织那些已经被生成用于每个文件的特征向量。
自组织映射由在节点的二维阵列或者网格(如二维平面185所图解说明的)中的输入节点170和输出节点180组成。输入节点的数目与被用于训练该映射的特征向量中的值的数目一样多。映射上的每个输出节点通过被加权的连接190(每个连接一个权重)连接到输入节点。
最初这些权重的每一个被设置成随机值,然后,通过迭代过程而“训练”权重。通过将每个特征向量呈现给映射的输入节点来训练映射。通过计算输入向量和每个输出节点的权重之间的欧几里德距离来计算最近的输出节点。
最近的节点被指定为“获胜者”并且通过轻微改变权重值来训练这个节点的权重以使它们移动得更靠近该输入向量。除了获胜节点以外,还训练该获胜节点邻近的节点,并且使其轻微移动得更靠近该输入向量。
这个训练过程,不只是训练单个节点的权重,而是训练映射上的节点区域的权重,这使得映射一旦被训练,就可以保存节点的2维映射中的输入空间的大部分拓扑结构。
一旦映射被训练,每个文件就能够被呈现在映射中以便观察哪个输出节点最靠近该文件的输入特征向量。权重与特征向量的等同是不大可能的,并且特征向量和它在映射上最近的节点之间的欧几里德距离被称为“量化误差”。
通过将用于每个文件的特征向量呈现在映射上以便观察它位于哪里,产生用于每个文件的x,y映射位置。当这些x,y位置随同文件ID一起被输入查找表中的时候,这些x,y位置能够被用于显现文件之间的关系。
最后,在步骤160处增加抖动部分,将在下面参考图6来描述它。
上述过程的潜在问题是两个相同或者基本上相同的信息项可以被映射到SOM的节点阵列中的相同节点上。这不会带来数据的操纵处理的困难,但是不利于在显示屏上数据的显现(将在下面描述)。尤其是,当在显示屏上显现数据的时候,已经认识到:多个非常相似的项在特定节点处的单个项上是可识别的将会非常有用。因此,在每个信息项映射到的节点位置处增加一个“抖动”部分。该抖动部分是最大可以到节点分隔的±1/2的随机加法。因此,参考图6,映射过程为之选择输出节点200的信息项具有被增加的抖动部分,以便于实际上它可以被映射到在图6中由虚线所限制的区域210中的任何节点位置上。
因此,信息项可以被认为是在不同于SOM过程的“输出节点”的节点位置处映射到图6的平面上的位置。
可替代的方法可以是在上述的SOM映射过程中使用更高密度的“输出节点”。这将不能在绝对相同的信息项之间提供任何区别,但是可以允许差不多相同、但不是完全相同的信息项映射到不同的但是十分接近地分开的输出节点上。
图7示意性图解说明了显示屏60上的显示,其中用图表来说明被分类进入SOM的数据以便在搜索操作中使用。显示器示出了搜索查询250、结果列表260和SOM显示区域270。
在操作中,用户将关键字搜索查询输入到查询区域250中。然后用户开始搜索,例如通过按下键盘70上的回车或者通过使用鼠标80选择屏幕“按钮”来开始搜索。然后,利用标准的关键字搜索技术来比较搜索查询框250中的关键字和数据库中的信息项。这样生成结果列表,在列表窗口260将每一个结果都作为相应条目280显示。同样地,每个结果在节点显示区域270上都具有对应的显示点。
因为用于生成SOM表示的分类过程倾向于在SOM中将互相类似的信息项集合到一起,所以搜索查询的结果一般倾向于落入像群集290这样的群集中。这里,注意到区域270上的每个点对应于SOM中与结果列表260中的一个结果相关的对应条目;并且在区域270中显示该点的位置对应于在节点阵列中那些节点的阵列位置。
图8示意性图解说明用于减少“命中”(结果列表中的结果)数目的技术。用户利用鼠标80围绕着对应于感兴趣的节点的一组显示点画出方框300。在结果列表区域260中,只显示与方框300中的点相对应的那些结果。如果对这些结果不再感兴趣,则用户可以围绕着不同组的显示点画出另一个方框。
注意到,对于在方框300中为之显示了显示点并且满足字搜索区域250中的搜索标准的那些结果,结果区域260为它们显示列表条目。方框300可以包含与位于该节点阵列中的节点相对应的其他显示位置,但是如果这些结果不满足搜索标准,则它们将不被显示并且不会形成在方框260中显示的结果的子集的一部分。
图9示意性图解说明用于在列表窗口260中检测条目的节点位置的技术。在使用图形用户界面领域中的标准技术,尤其在利用所谓的“Windows”TM操作系统的计算机中,用户可以在结果列表窗口中选择一个或者多个条目。在所示的实例中,通过用鼠标点击与相关结果相对应的“检查框”310来完成。然而,这同样可以通过点击以高亮显示整个结果,或者通过双击相关结果等来完成。因为选择了一个结果,所以那些表示节点阵列中的对应节点的相应显示点被用不同的方式显示。这通过对应于在结果区域260中所选结果330的两个显示点320来示意性地示出。
外观的改变可能是以更大尺寸显示该点,或者是以相同显示颜色的更强烈的版本显示该点,或者是以不同的显示颜色显示该点,或者是以这些变化属性的组合来显示该点。
在任何时候,通过遵循上述的步骤(也就是步骤110到140),能够将新的信息项增加到SOM,然后将产生的减少的特征向量应用到“预训练”SOM模型,即由映射的自组织准备所产生的一组SOM模型。因此,对于新增加的信息项,通常不“重新训练”该映射;而是对没有修改的全部SOM模型使用步骤150到160。每次增加新的信息项的时候来重新训练SOM需要昂贵的计算代价,并且有时候对用户还有一些不友善,用户可能要逐渐习惯于该映射中通常被访问的信息项的相对位置。
然而,可能会有一种情况,其中适合重新训练过程。例如,如果自首次生成SOM以来已经将新的检索词(可能是新的新闻项或者新的技术领域)输入到字典中,则它们可能不会非常好地映射到现有的输出节点组。在新接收的信息项被映射到现有的SOM期间,这可以被检测为在检测到的所谓“量化误差”中的增长。在本实施例中,该量化误差与阈值误差量相比较。如果它比该阈值量大,则或者(a)利用所有的原始信息项和自其生成以后被添加的任何项来自动重新训练SOM;或者(b)用户被提示在方便的时间启动重新训练过程。重新训练过程使用全部相关信息项的特征向量并且完全重新应用步骤150和160。
图10示意性图解说明作为视频捕获和/或处理设备实例的摄像机500,摄像机包括具有相关透镜520的图象捕获设备510;数字/信号处理器530;磁带存储器540;磁盘或者其他随机存取存储器550;用户控制器560和具有目镜580的显示设备570。对于那些本领域技术人员来说传统摄像机的其他特征或者其他备选实施方式(例如不同的存储介质或者不同的显示屏幕设备)将是很显而易见的。在使用中,与捕获的视频材料相关的元数据可以被存储在存储器550,在显示设备570上观察与被存储数据相关的SOM,并且如上所述利用用户控制器560来控制它。
图11示意性图解说明个人数字助理(PDA)600,作为便携式数据处理设备的一个实例,它具有包括显示区域620和提供用户控制的触敏区域630的显示屏幕610;以及数据处理和存储(没有显示)。再次地,本领域的技术人员将很清楚替换的实施方式。该PDA可以如上所述地结合图1的系统来使用。
图12示意性图解说明了连网的信息存储和检索设备。该系统可以在如较早所述的软件的控制下进行操作。
在一个连网的系统中,完成图1的布置以及随后描述的功能性,具有一些附加的特征以便提高该连网的系统的使用效率。
概括地,在客户系统800和一个或者多个存储节点810之间划分操作,客户系统和存储节点通过象因特网连接820这样的连网的连接而彼此连接。在图12中显示了在每个存储节点810和客户系统之间的示意性连接。包括因特网在内的许多网络安排将在概念上提供在连接到那个网络的全部节点之间,包括成对的存储节点810之间,的物理连接。然而在图12中的连接旨在表示不同节点之间的逻辑数据通道。
搜索引擎或者因特网搜索提供商(服务器)830,例如著名的GoogleRTM搜索提供商,还可以在逻辑上连接到该客户系统。
客户系统800包括:提供(或者可连接到)如上所述进行操作的用户显示器的显示/用户界面逻辑840、内容组织服务逻辑850和索引服务逻辑860。每个存储节点包括信息存储器(如磁盘存储器)870,可选的元数据提取逻辑880和索引代理逻辑890。除保存在搜索引擎830处的任何信息以外,在这个实施例中存储节点的信息存储器870是信息项的主要储存库。然而,应该理解这只是用于本实例的目的;没有技术原因不能“本地”存储信息项,即存储在该客户系统中。
该客户系统提供如前所述的下列功能性:
·任选地,图2和随后描述的功能性,也就是SOM的生成(尽管SOM表示可能在别处已经被生成)
·图7到9的一些或者全部功能性,也就是SOM表示的显示和在处理SOM表示时与用户的接口
·将新接收的信息项增加到“已经训练”的SOM表示中的至少部分功能性,任选地包括启动重新训练过程的功能性。注意到,可以在存储节点处而不是在客户系统处执行一些步骤,例如步骤110和120。
基本上来说,在每个存储节点处的索引代理从文本素材中得出数据(例如通过和步骤110、120相对应的步骤),该文本素材或者被包含在那个节点处存储的信息项中,或者由元数据抽取逻辑880从这样的信息项(例如关于至少主要包括音频/视频材料的信息项)中得出。然后所产生的数据被转发给客户系统的索引服务逻辑860。可以以一种或多种方式来实施这个过程:
·当检测到信息项要被重新存储或者被重新修改的时候,索引代理能够转发表示从信息项中所得出的数据的一批数据
·索引代理能够转发表示从保存在那个存储节点处的所有信息项中所得出的数据的一批数据,来响应在客户系统处的搜索查询(或者信息检索查询操作)
·索引代理能够转发表示从保存在那个存储节点处的所有信息项中所得出的数据的一批数据,来响应从它上一次这样做之后特定的时间长度已经经过
·索引代理能够维持已经为其将数据转发给该客户系统的那些信息项和还没有将数据转发给客户系统的那些信息项的寄存器。为了响应客户系统中的搜索查询(或者信息检索查询操作),索引代理能够转发一些或者全部“还没有被转发”的数据,作为一批或者多批数据。在存储节点的索引代理处把以这种方式被转发的信息项从“还没有被转发”的列表转移到“已经转发”的列表中。
被转发到客户系统的数据可以是如下的一个或者多个:
(a)信息项自身(或者至少是其文本部分)
(b)从信息项中所得出的元数据(例如文本数据)
(c)如在(a)或者(b)上所执行的步骤110的结果
(d)如在(a)或者(b)上所执行的步骤120的结果
(e)从(a)或者(b)中所得出的特征向量
在客户系统中,当从索引代理中接收到了(a)到(d)中的任何一个的时候,内容组织服务逻辑生成特征向量,并且从其中,生成被存储在客户系统中的SOM映射位置,以及标识信息项存储位置的信息项的标识符(例如URL或者URI-统一资源指示器)。如果接收到(e),则生成SOM映射位置并使其与URL/URI一起被存储在客户系统中。
当用户生成查询的时候,用户控制(输入到逻辑840)被传递到索引服务逻辑860,后者然后将控制分发到与网络连接的节点上。它们以如上所述的数据响应,这些数据被并入SOM表示以便显示给用户。
代替上述的存储节点,索引服务逻辑可以从例如Google RTM这样的因特网搜索引擎中接收类似的数据。用已经描述的相同的方式来处理这个数据。可以用上述任何方式来启动从搜索引擎到索引服务的数据传输。
本发明的优选特征
在下面编号的段落中还定义了本发明的各种优选特征。
1.一种例如参考图12所描述的那样的信息检索系统,其中按照信息项的相互相似性将一组不同的信息项映射到节点阵列中的对应节点上,使相似的信息项映射到节点阵列中相似位置的节点上;该系统包括:用于在用户显示器的显示区中把至少一些节点的表示显示为显示点的二维显示阵列的图形用户界面;用于定义显示区的二维区域的用户控制器;和用于检测位于显示区的二维区域中的那些显示点的检测器;图形用户界面还显示表示信息项的数据的列表,那些信息项被映射到与显示区的二维区中被显示的显示点相对应的节点上。
2.依据段落1的系统,其中根据从每个信息项中所得出的特征向量将信息项映射到该阵列中的节点上。
3.依据段落2的系统,其中用于信息项的特征向量表示每一组信息特征在该信息项中的一组出现频率。
4.依据段落3的系统,其中信息项包括文本信息,用于信息项的特征向量表示一组词的每一个在那个信息项中的一组出现频率。
5.依据段落1或者段落2的系统,其中信息项包括文本信息,按照至少一部分文本信息的相互相似性来映射该节点。
6.依据段落4或者段落5的系统,其中通过排除在该组信息项中出现频率大于阈值频率的词来预处理该信息项用于映射。
7.依据段落4到6的任何一个的系统,其中通过排除在该组信息项中出现频率小于阈值频率的词来预处理该信息项用于映射。
8.依据段落4到7的任何一个的系统,包括:用于执行该信息项的相关词搜索的搜索装置;该搜索装置和图形用户界面被安排成互相合作,使得只显示那些与由该搜索所选择的信息项相对应的显示点。
9.依据任何一个先前段落的系统,其中在信息项和该阵列中的节点之间的映射包括抖动部分,使得基本上相同的信息项倾向于映射到该阵列中距离很近但却不同的节点上。
10.依据任何一个先前段落的系统,包括用于从列表中选择一个或者多个信息项的用户控制器;图形用户界面是可以被操作以改变在对应于所选择的信息项的显示点的显示区域中的显示方式。
11.依据段落10的系统,其中图形用户界面可被操作以便用不同颜色和/或强度显示那些对应于在该列表中所选择的信息项的显示点。
12.一种信息存储系统,其中处理一组不同的信息项以便于按照这些信息项的相互相似性映射到节点阵列中的对应节点上,使得相似的信息项映射到在该节点阵列中的相似位置处的节点上;该系统包括:用于生成从每个信息项中所获得的特征向量的装置,用于信息项的特征向量表示一组信息特征的每个在该信息项中的一组出现频率;和用于将每个特征向量映射到该节点阵列中的节点上的装置,信息项和该阵列中的节点之间的映射包括抖动部分以使得基本上相同的信息项倾向于被映射到该阵列中距离很近但却不同的节点上。
13.依据段落12的系统,包括:用于将新接收的信息项映射到该节点阵列中的节点上的装置;在如此映射新接收的信息项时,用于检测映射错误的装置;和响应映射误差超过阈值误差量的检测,用于启动这组信息项和新接收的信息项的重新映射过程的装置。
17.一种信息存储方法,其中处理一组不同的信息项以便按照这些信息项的相互相似性来映射到节点阵列中的对应节点上,使得相似的信息项映射到节点阵列中的相似位置处的节点上;该方法包括步骤:生成从每个信息中所获得的特征向量,用于信息项的特征向量表示每组信息特征在该信息项中的一组出现频率;和将每个特征向量映射到该节点阵列中的节点上,在信息项和阵列中的节点之间的映射包括抖动部分使得基本上相同的信息项倾向于映射到在阵列中非常靠近但却不同的节点上。
18.一种信息检索方法,其中按照信息项的相互相似性将一组不同的信息项映射到节点阵列中的对应节点上,使得相似的信息项映射到节点阵列中的相似位置处的节点上;该方法包括:把至少一些节点的表示显示为用户显示器上显示区中的显示点的二维显示阵列;利用用户控制器,定义该显示区的二维区域;检测那些位于该显示区的二维区域中的显示点;和显示表示信息项的数据的列表,那些信息项被映射到和该显示区的二维区域中所显示的显示点相对应的节点。

Claims (21)

1.一种信息检索系统,其中一组不同的信息项通过该组不同的信息项中信息项的相互相似性而映射到节点阵列中的对应节点,使得相似的信息项映射到在该节点阵列中相似位置处的节点;该系统包括:
数据网络;
连接到该数据网络的信息检索客户系统;以及
连接到该数据网络的一个或者多个信息项存储节点;
其中:
每个存储节点包括:用于存储多个信息项的装置,和用于通过数据网络将从所述存储的多个信息项得出的数据传输到该客户系统的索引装置;以及
该客户系统包括:响应于从存储节点的索引装置中所接收的数据、而生成关于由该接收的数据所代表的每个信息项的节点位置的装置。
2.依据权利要求1的系统,其中每个存储节点处的索引装置可操作成将数据分批地传输到该客户系统;每一批至少包括从所述存储的多个信息项的子集中得出的数据,所述存储的多个信息项的所述子集包括仍未由所述索引装置将数据传输到客户系统的信息项。
3.依据权利要求1到2的任意一个的系统,其中每个存储节点处的索引装置可操作成响应于该客户系统处的信息检索操作,而将一批从所述多个存储的信息项所得出的数据传输到该客户系统。
4.依据权利要求1到2的任意一个的系统,其中每个存储节点处的索引装置被设置成检测被修改或者被新存储在该存储节点处的信息项,并且响应于这样的检测,而将从该信息项所得出的一批数据发送到该客户系统。
5.依据权利要求1到2的任意一个的系统,其中数据网络是因特网网络。
6.依据权利要求5的系统,其中存储节点中的一个或者多个是因特网搜索服务器。
7.依据权利要求1到2的任意一个的系统,其中:
该信息项至少部分是文本;以及
从被存储的信息项所得出的数据包括该信息项的整个文本内容。
8.依据权利要求1到2的任意一个的系统,其中从被存储的信息项所得出的数据包括指示该被存储的信息项的内容的文本数据。
9.依据权利要求1到2的任意一个的系统,其中客户系统包括图形用户界面,用于在用户显示器的显示区中把至少一些节点的表示显示为显示点的二维显示阵列。
10.依据权利要求9的系统,其中客户系统包括:
用于定义该显示区的二维区域的用户控制器;和
用于检测位于该显示区的二维区域中的那些显示点的检测器。
11.依据权利要求10的系统,其中图形用户界面被设置成显示表示信息项的数据的列表,所说信息项被映射到与该显示区的二维区域中所显示的显示点相对应的节点。
12.依据权利要求11的系统,其中客户系统包括用于从该列表中选择一个或者多个信息项的用户控制器;该图形用户界面被设置成改变与所选择的信息项相对应的显示点的显示区域中的显示方式。
13.依据权利要求1到2的任意一个的系统,其中从信息项所得出的数据包括该信息项的存储位置的标识。
14.依据权利要求13的系统,其中该标识包括统一资源指示器。
15.一种在信息检索系统中使用的信息存储节点,其中一组不同的信息项通过该信息项的相互相似性而映射到节点阵列中的对应节点,使得相似的信息项映射到该节点阵列中相似位置处的节点;该存储节点通过数据网络连接到信息检索客户系统上,该信息检索客户系统具有响应于从该存储节点接收的数据、而生成关于由该被接收的数据所代表的每个信息项的节点位置的装置;该存储节点包括:
用于存储多个信息项的装置,和用于通过该数据网络将从存储在该存储节点处的信息项所得出的数据传输到该客户系统的索引装置。
16.一种信息检索客户系统,其中一组不同的信息项通过该信息项的相互相似性而映射到节点阵列中的对应节点,使得相似的信息项映射到该节点阵列中相似位置处的节点;该客户系统通过数据网络连接到一个或者多个信息项存储节点,每个信息项存储节点都包括:用于存储多个信息项的装置,和用于通过该数据网络将从存储在该存储节点处的信息项所得出的数据传输到该客户系统的索引装置;
该客户系统包括:响应于从存储节点的索引装置中接收的数据、而生成关于由该被接收的数据所代表的每个信息项的节点位置的装置。
17.一种便携式数据处理设备,它包括信息检索客户系统,其中一组不同的信息项通过该信息项的相互相似性而映射到节点阵列中的对应节点,使得相似的信息项映射到该节点阵列中相似位置处的节点;该客户系统通过数据网络连接到一个或者多个信息项存储节点,每个信息项存储节点都包括:用于存储多个信息项的装置,和用于通过该数据网络将从存储在该存储节点处的信息项所得出的数据传输到该客户系统的索引装置;
该客户系统包括:响应于从存储节点的索引装置中接收的数据、而生成关于由该被接收的数据所代表的每个信息项的节点位置的装置。
18.一种视频捕获和/或处理设备,它包括信息检索客户系统,其中一组不同的信息项通过该信息项的相互相似性而映射到节点阵列中的对应节点,使得相似的信息项映射到该节点阵列中相似位置处的节点;该客户系统通过数据网络连接到一个或者多个信息项存储节点,每个信息项存储节点都包括:用于存储多个信息项的装置,和用于通过该数据网络将从存储在该存储节点处的信息项所得出的数据传输到该客户系统的索引装置;
该客户系统包括:响应于从存储节点的索引装置中接收的数据、而生成关于由该被接收的数据所代表的每个信息项的节点位置的装置。
19.一种信息检索方法,其中一组不同的信息项通过该信息项的相互相似性而映射到节点阵列中的对应节点,使得在一个系统中相似的信息项映射到节点阵列的相似位置处的节点,所述系统包括数据网络、连接到该数据网络的信息检索客户系统、以及一个或者多个连接到该数据网络的信息项存储节点;
该方法包括步骤:
每个存储节点存储多个信息项;
每个存储节点将从存储在该存储节点处的信息项所得出的数据通过该数据网络传输到客户系统;以及
该客户系统响应于从存储节点的索引装置接收的数据、而生成关于由该被接收的数据所代表的每个信息项的节点位置。
20.一种用在信息检索系统中的信息存储节点的操作方法,其中一组不同的信息项通过该信息项的相互相似性而映射到节点阵列中的对应节点,使得相似的信息项映射到该节点阵列中的相似位置处的节点;该存储节点通过数据网络连接到一个信息检索客户系统,该信息检索客户系统具有响应于从该存储节点所接收的数据、而生成关于由该被接收的数据所代表的每个信息项的节点位置的装置;该方法包括步骤:
存储多个信息项;以及
将从存储在该存储节点处的信息项所得出的数据通过该数据网络传输到该客户系统。
21.一种信息检索客户系统的操作方法,其中一组不同的信息项通过信息项的相互相似性而映射到节点阵列中的对应节点,使得相似的信息项映射到该节点阵列中相似位置处的节点;该客户系统通过数据网络连接到一个或者多个信息项存储节点,每一个信息项存储节点都包括:用于存储多个信息项的装置,和用于将从存储在该存储节点处的信息项所得出的数据通过该数据网络传输到该客户系统的索引装置;
该方法包括,响应于从存储节点的索引装置中所接收的数据,而生成关于由该被接收的数据所代表的每个信息项的节点位置。
CNB031255256A 2002-09-19 2003-09-19 信息存储和检索 Expired - Fee Related CN100449534C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
GB0221774A GB2393271A (en) 2002-09-19 2002-09-19 Information storage and retrieval
GB0221774.3 2002-09-19
GB0229072A GB2393275A (en) 2002-09-19 2002-12-12 Information storage and retrieval
GB0229072.4 2002-12-12

Publications (2)

Publication Number Publication Date
CN1495647A CN1495647A (zh) 2004-05-12
CN100449534C true CN100449534C (zh) 2009-01-07

Family

ID=31948045

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031255256A Expired - Fee Related CN100449534C (zh) 2002-09-19 2003-09-19 信息存储和检索

Country Status (4)

Country Link
US (1) US20040130569A1 (zh)
EP (1) EP1400903A1 (zh)
JP (1) JP2004110834A (zh)
CN (1) CN100449534C (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2395804A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
GB2395806A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
WO2007026357A2 (en) 2005-08-30 2007-03-08 Nds Limited Enhanced electronic program guides
US8220023B2 (en) 2007-02-21 2012-07-10 Nds Limited Method for content presentation
GB2475473B (en) 2009-11-04 2015-10-21 Nds Ltd User request based content ranking
US8751632B2 (en) * 2010-04-29 2014-06-10 Yahoo! Inc. Methods for web site analysis
US20120166439A1 (en) * 2010-12-28 2012-06-28 Yahoo! Inc. Method and system for classifying web sites using query-based web site models
CN103678384A (zh) * 2012-09-18 2014-03-26 鸿富锦精密工业(深圳)有限公司 顺序索引生成系统及方法
US9582519B2 (en) * 2013-08-15 2017-02-28 Dassault Systemes Simulia Corp. Pattern-enabled data entry and search
TWI650656B (zh) 2017-05-26 2019-02-11 虹光精密工業股份有限公司 於電腦系統搜尋影像檔案之方法、影像檔案搜尋裝置以及電腦系統
CN110858367A (zh) * 2018-08-24 2020-03-03 北京京东尚科信息技术有限公司 销售信息存储方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001075640A2 (en) * 2000-03-31 2001-10-11 Xanalys Incorporated Method and system for gathering, organizing, and displaying information from data searches

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5655080A (en) * 1995-08-14 1997-08-05 International Business Machines Corporation Distributed hash group-by cooperative processing
US6151643A (en) * 1996-06-07 2000-11-21 Networks Associates, Inc. Automatic updating of diverse software products on multiple client computer systems by downloading scanning application to client computer and generating software list on client computer
US6260036B1 (en) * 1998-05-07 2001-07-10 Ibm Scalable parallel algorithm for self-organizing maps with applications to sparse data mining problems
US6742023B1 (en) * 2000-04-28 2004-05-25 Roxio, Inc. Use-sensitive distribution of data files between users
WO2002003256A1 (en) * 2000-07-05 2002-01-10 Camo, Inc. Method and system for the dynamic analysis of data
US6874019B2 (en) * 2001-03-08 2005-03-29 International Business Machines Corporation Predictive caching and highlighting of web pages
US6839769B2 (en) * 2001-05-31 2005-01-04 Intel Corporation Limiting request propagation in a distributed file system
US7440994B2 (en) * 2001-07-06 2008-10-21 Intel Corporation Method and apparatus for peer-to-peer services to shift network traffic to allow for an efficient transfer of information between devices via prioritized list
US7146359B2 (en) * 2002-05-03 2006-12-05 Hewlett-Packard Development Company, L.P. Method and system for filtering content in a discovered topic
US7017186B2 (en) * 2002-07-30 2006-03-21 Steelcloud, Inc. Intrusion detection system using self-organizing clusters
US7096464B1 (en) * 2002-12-02 2006-08-22 Sap Aktiengesellschaft Software update method and apparatus

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001075640A2 (en) * 2000-03-31 2001-10-11 Xanalys Incorporated Method and system for gathering, organizing, and displaying information from data searches

Also Published As

Publication number Publication date
JP2004110834A (ja) 2004-04-08
EP1400903A1 (en) 2004-03-24
US20040130569A1 (en) 2004-07-08
CN1495647A (zh) 2004-05-12

Similar Documents

Publication Publication Date Title
CN100416556C (zh) 信息检索方法和系统、数据处理设备和视频采集处理设备
JP4776894B2 (ja) 情報検索方法
KR101377389B1 (ko) 다차원 검색 시스템, 다차원 검색을 수행하는 컴퓨터 구현 방법 및 컴퓨터 실행가능 시스템
US7502780B2 (en) Information storage and retrieval
JP4569955B2 (ja) 情報格納及び検索方法
EP1426882A2 (en) Information storage and retrieval
Baumgarten et al. User-driven navigation pattern discovery from internet data
JP2005122690A (ja) 情報処理
JP2008276768A (ja) 情報検索装置及び方法
US20090089285A1 (en) Method of detecting spam hosts based on propagating prediction labels
CN100449534C (zh) 信息存储和检索
JP2006127484A (ja) 情報処理方法
Memon et al. Harvesting covert networks: a case study of the iMiner database
CN110580299B (zh) 生成对象的推荐语的配图的方法、系统、设备及存储介质
Tripathy et al. Notice of Violation of IEEE Publication Principles: An efficient method of eliminating noisy information in web pages for data mining
Wang et al. EviRank: An evidence based content trust model for Web spam detection
GB2403559A (en) Index updating system employing self organising maps

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: SONY EUROPE LIMITED

Free format text: FORMER NAME: SONY UNITED KINGDOM LTD.

CP03 Change of name, title or address

Address after: surrey

Patentee after: Sony Corporation

Address before: Shire of England

Patentee before: Sony United Kingdom Ltd.

C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090107

Termination date: 20120919