CN1495646A - 信息存储和检索 - Google Patents

信息存储和检索 Download PDF

Info

Publication number
CN1495646A
CN1495646A CNA031255094A CN03125509A CN1495646A CN 1495646 A CN1495646 A CN 1495646A CN A031255094 A CNA031255094 A CN A031255094A CN 03125509 A CN03125509 A CN 03125509A CN 1495646 A CN1495646 A CN 1495646A
Authority
CN
China
Prior art keywords
information
item
node
mapped
array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA031255094A
Other languages
English (en)
Other versions
CN100416556C (zh
Inventor
D��W�����
D·W·特雷佩斯
ж�
J·R·托尔佩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony United Kingdom Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony United Kingdom Ltd filed Critical Sony United Kingdom Ltd
Publication of CN1495646A publication Critical patent/CN1495646A/zh
Application granted granted Critical
Publication of CN100416556C publication Critical patent/CN100416556C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • G06F16/3328Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages using graphical result space presentation or visualisation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B29WORKING OF PLASTICS; WORKING OF SUBSTANCES IN A PLASTIC STATE IN GENERAL
    • B29CSHAPING OR JOINING OF PLASTICS; SHAPING OF MATERIAL IN A PLASTIC STATE, NOT OTHERWISE PROVIDED FOR; AFTER-TREATMENT OF THE SHAPED PRODUCTS, e.g. REPAIRING
    • B29C2791/00Shaping characteristics in general
    • B29C2791/002Making articles of definite length, i.e. discrete articles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S715/00Data processing: presentation processing of document, operator interface processing, and screen saver display processing
    • Y10S715/961Operator interface with visual structure or function dictated by intended use
    • Y10S715/965Operator interface with visual structure or function dictated by intended use for process control and configuration
    • Y10S715/966Computer process, e.g. operation of computer
    • Y10S715/968Computer process, e.g. operation of computer interface for database querying and retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Abstract

一种信息检索系统,其中一组不同的信息项通过该信息项的相互相似性而映射到节点阵列中的对应节点,使得相似的信息项映射到该节点阵列中相似位置处的节点;该系统包括:用于在用户显示器上的显示区中,把至少一些节点的表示显示为显示点的二维显示阵列的图形用户界面;用于定义该显示区的二维区域的用户控制器;和用于检测位于该显示区的二维区域中的那些显示点的检测器;该图形用户界面还显示表示信息项的数据列表,那些信息项被映射到与该显示区的二维区域中所显示的显示点相对应的节点。

Description

信息存储和检索
技术领域
本发明涉及信息存储和检索。
背景技术
有许多已建立的系统被用于通过按照关键字进行搜索来定位信息(比如文件、图像、电子邮件、专利、因特网内容或者象音频/视频内容这样的媒体内容)。实例包括例如由“Google”TM或者“Yahoo”TM等这样的公司提供的因特网搜索“引擎”,其中通过关键字执行的搜索导致一个结果列表,该结果列表被搜索引擎按照所察觉的关联性而进行排序。
然而,在经常被称作大量内容收集的、包括大量内容的系统中,可能很难制定有效的检索查询来给出相对短的搜索“命中”列表。例如,在准备当前申请时,关于关键字“大量文件收集(massive document collection)”的Google搜索就提取了243000个命中。如果以后再重复这个搜索,则预期此命中的数量还将增长,因为通过因特网所存储的内容的数量通常会随着时间而增加。检查这样的命中列表需要耗费高得惊人的时间。
总的来说,大量内容收集没有被很好利用的一些原因是:
·用户不知道存在相关内容
·用户知道相关内容存在但不知道它可能位于哪里
·用户知道该内容存在但不知道它是相关的
·用户知道相关内容存在并知道如何找到它,但找到该内容花费很长时间
在2000年5月有关神经网络的IEEE学报的第11卷第3期的574-585页,Kohonen等人写的论文“Self Organisation of a Massive Document Collection”(“大量文件收集的自组织”)公开了一种利用所谓的“自组织映射”(SOM)的技术。这些利用了所谓的无人管理的自学习神经网络算法,其中表示每个文件的属性的“特征向量”被映射到SOM的节点上。
在Kohonen等人的论文中,第一步是预处理文件文本,然后从每个被预处理的文件中得到特征向量。在一种格式中,这可以是表示大字典的每个字的发生频率的直方图。在直方图中的每个数据值(也就是对应字典字的发生频率)变成一个n值向量中的值,其中n是在字典中候选字的总数量(在这个文章所述的例子中是43222)。或许可以将加权应用到该n个向量值,以强调某些字的增加的相关性或者改进的分化。
然后该n值向量映射到更小维数的向量上(也就是具有实际上小于n的m个值(在文章的实例中是500)的向量)。这可以通过使该向量乘以一个由随机数的数组所组成的(n×m)“投影矩阵”来实现。这个技术已经表明可生成较小维数的向量,其中任意两个缩小维数的向量具有与两个对应的输入向量几乎相同的向量点积。在1998年IJCNN会刊第413-418页中Kaski所写的论文“Dimensionality Reduction by Random Mapping:Fast Similarity Computation forClustering”(“通过随机映射缩小维数:用于群集的快速相似性计算”)中描述了这个向量映射过程。
然后该缩小维数的向量通过用“模型”(另一个向量)乘以每个向量的过程而被映射到SOM上的节点上(或者被称为神经元)。该模型由学习过程生成,该学习过程按照相互的相似性将该模型自动排序到SOM上,该SOM通常被表示为节点的二维网格。这并不是一个平凡的过程,为了一个只有不到七百万个文件的文件数据库,它使Kohonen等人在具有800MB内存的六处理器计算机上花费了六个星期。最终显示了一个由SOM组成的节点的网格,用户能够移近映射图的区域并选择一个节点,这使得用户界面提供一个到因特网页面的链接,该页面包含了被链接到那个节点的文件。
发明内容
本发明提供了一种信息检索系统,其中一组不同的信息项通过该信息项的相互的相似性而映射到一个节点阵列中的对应节点,使得类似的信息项映射到该节点阵列中在类似位置处的节点;该系统包括:
用于在用户显示器上的显示区中,把至少一些节点的表示显示为显示点的二维显示排列的图形用户界面;
用于定义该显示区的二维区域的用户控制器;
用于检测位于该显示区的二维区域中的那些显示点的检测器;
该图形用户界面还显示代表信息项的数据的列表,那些信息项被映射到和该显示区的二维区域中所显示的显示点相对应的节点上。
那些本领域技术人员将会明白在词“列表”的正常使用中,“代表信息项的数据”可以是该项自身,如果它具有适于全部显示的大小和属性的话,或者它可以是指示该项的数据。
本发明还提供了信息存储系统,在其中处理一组不同的信息项以便于通过该信息项的相互相似性来映射到节点阵列中的对应节点,使得相似的信息项映射到该节点阵列中相似位置处的节点;该系统包括:
用于生成从每个信息项所得出的特征向量的装置,该用于信息项的特征向量表示在那个信息项中一组信息特征中每个信息特征的一组出现频率;和
用于将每个特征向量映射到该节点阵列中的节点的装置,在信息项和阵列中的节点之间的映射包括一个抖动部分,以使得基本上相同的信息项倾向于映射到阵列中非常靠近但却不同的节点。通过提供用户界面以允许用户方便地将屏幕上的显示点与信息项列表中的信息项联系在一起,并且同时允许用户方便地区分相似的信息项,由此而在Kohonen等人论文中所述的过程上建立本发明。
本发明另外的各个方面和特征在随后的权利要求中定义。
附图说明
现在只是作为实例而参考附图来描述本发明的实施例:
图1示意性地图解说明了信息存储和检索系统;
图2是显示自组织映射图(SOM)的生成的示意性流程图;
图3a和3b示意性地图解说明术语频率直方图;
图4a示意性地图解说明未加工的特征向量;
图4b示意性地图解说明减少的特征向量;
图5示意性地图解说明SOM;
图6示意性地图解说明抖动过程;
图7到9示意性地图解说明提供用户界面来访问由SOM所表示的信息的显示屏幕;
图10示意性地图解说明作为视频捕获和/或处理设备实例的摄像机;和
图11示意性地图解说明作为便携式数据处理设备实例的个人数字助手。
具体实施方式
图1是基于通用计算机10的信息存储和检索系统的示意图,通用计算机10具有一个处理器单元20,后者包括了用于程序和数据的磁盘存储器30、连接到例如以太网或者因特网这样的网络50上的网络接口卡40,通用计算机还具有例如阴极射线管设备这样的显示设备60、键盘70和例如鼠标这样的用户输入设备80。该系统在程序控制下操作,程序被存储在磁盘存储器30上并且通过例如网络50、可移动磁盘(未显示)或者预先安装在磁盘存储器30上来提供。
该存储系统运行在两个普通的操作模式中。在第一个模式中,一系列信息项(例如文本信息项)被集合在磁盘存储器30上或者被集合在通过网络50连接的网络磁盘驱动器上,并且被分类和索引,准备用于搜索操作。操作的第二个模式是针对已被索引和分类的数据的实际搜索。
该实施例可应用于许多类型的信息项。合适的信息类型的非穷尽列表包括专利、视频材料、电子邮件、报告、因特网内容、广播内容、商业报告、音频材料、图形和图片(clipart)、照片等等,或者是这些类型的任意的组合或者混合。在本说明书中,将文本信息项或者至少具有文本内容或关联的信息项作为参考。因此,例如,像音频和/或视频材料这样的一条广播内容可能具有以文本项定义那个材料的关联的“元数据”。
信息项以传统的方式被装载到磁盘存储器30上。优选地,它们可以被存储作为允许更容易地进行项的检索和索引的数据库结构的一部分,但这不是必需的。一旦已经如此存储了信息和项,则在图2中示意性表示被用于排列它们以便进行搜索的过程。
将会理解,被索引的信息数据不必被存储在本地磁盘驱动器30上。数据可存储在经因特网50与系统10相连的远端驱动器上。可替代地,可以以分布的方式存储信息,例如存储在因特网的各种位置上。如果信息被存储在不同的因特网或者网络位置处,则信息存储器的第二级别将被用来在本地存储一条到该远程信息的“链接”(例如,URL),或许具有相关的概要、摘要或者与这个链接相关联的元数据。因此,远程持有的信息将不被访问,除非用户选择了相关链接(例如从将在下面描述的结果列表260中选择),尽管为了随后的技术描述的目的,该远程持有的信息或者该摘要/概要/元数据或者链接/URL可以被认为是“信息项”。
换句话说,“信息项”的正式定义是从中可以获得特征向量并且被处理(见下面)以便提供到SOM的映射的项。在结果列表260(见下面)中表示的数据可以是信息项自身(如果被保持在本地并且对于方便的显示足够短),或者是表示和/或者指向信息项的数据,例如一个或者多个元数据、URL、摘要、一组关键词、表示性的关键标记的图象等。在操作“列表”中这是固有的,操作“列表”虽然不总是但却经常包括列出表示一组项的数据。
在另一个实例中,能够跨越例如一个研究组或者合法公司这样的连网的工作组来存储信息项。一种混合方案可以包括一些本地存储的信息项和/或者一些通过局域网而被存储的信息项和/或者一些通过广域网而被存储的信息项。在这样的情况下,该系统对于例如在大型多国研究与开发组织中定位由其它人进行的相似工作非常有用,相似的研究工作将倾向于被映射到SOM中的相似输出节点上(见下文)。或者如果正在计划一个新的电视节目,则本技术能够被用于通过检测以前具有相似内容的节目来检查其原创性。
还应该理解,图1的系统10仅仅只是能够使用被索引的信息项的可能系统的一个实例。尽管可以想象,可以通过相当强大的计算机,很可能是通过非便携式计算机,来执行初期(编制索引)阶段,但是访问信息的后期阶段可以在例如“个人数字助理”(用于具有显示器和用户输入设备的数字处理设备的术语,通常适合放在一只手中)这样的便携式机器、例如膝上型电脑这样的便携式计算机或者甚至例如移动电话、视频编辑设备或者摄像机这样的设备上执行。通常地,具有显示器的任何设备实际上都能够用于操作的信息访问阶段。
该过程不受信息项的具体数目的限制。
现在将参考图2到6来描述生成信息项的自组织映射(SOM)表示的过程。图2是图解说明后随SOM映射过程的、被称作“特征提取”过程的示意性流程图。
特征提取是将未加工的数据转换成抽象表示的过程。这些抽象表示然后能被用于例如模式分类、聚集和识别这样的过程。在这个过程中,生成所谓的“特征向量”,它是在文件中所用的检索词的频率的抽象表示。
通过创建特征向量来形成显现的过程包括:
·生成检索词的“文件数据库字典”
·根据“文件数据库字典”为每个单独的文件生成“检索词频率直方图”
·利用随机映射来减少“检索词频率直方图”的维数
·创建信息空间的2维显现。
更详细地考虑这些步骤,依次打开每个文件(信息项)100。在步骤110处,从文件中去除全部的“无用词(stop word)”。无用词是在预先准备的列表上的那些非常普通的词,例如“一个”、“这”、“然而”、“关于”、“和”以及“该”等。因为这些词非常普通,所以它们平均起来可能在足够长度的全部文件中表现出相似的频率。因为这个原因,它们在尝试表征特定文件的内容时几乎不起作用,因此应该被删除。
在删除无用词以后,在步骤120处对剩余词提取词干(stem),这包括找到词的变体的共同词干。例如词“投掷器”(thrower)、“投掷”(throws)和“投掷运动”(throwing)具有共同的词干“投掷”(throw)。
维护由出现在文件(除去无用词)中的作为词干的词组成的“字典”。当重新遇到一个词的时候,它被增加到该字典中,并且还记录这个词已经在整个文件收集(信息项组)中出现的次数的游动(running)计数。
所得的结果是在文件组中用于全部文件的检索词列表,以及那些检索词出现的频率。出现频率太高或者太低的词被忽视,也就是说从字典中除去它们并且它们不参与随后的分析。具有太低频率的词可能是拼错的、虚构的或者与文件组所表示的领域不相关的。出现频率太高的词不适合在该组中区分文件。例如,在与广播有关的文件的测试文件组中大约全部文件的三分之一都使用了检索词“新闻”,而其中在测试文件组中只有大约2%的文件使用了词“足球”。因此能够设想和“新闻”相比,“足球”是用于表征文件内容的更好的检索词。相反的,词“fottball”(“足球”(football)的错误拼写)只在整个文件组中出现过一次,因此由于具有太低的出现机率而被删除。此类词可以被定义为那些具有比出现的平均频率低两个标准偏差或者比出现的平均频率高两个标准偏差的出现频率的词。
然后在步骤130中生成特征向量。
为了这样做,而为文件组中的每个文件生成一个检索词频率直方图。通过对存在于字典(与该文件组相关)中的词在单个文件中出现的次数计数来构建检索词频率直方图。在单个文件中,字典中的大部分检索词都不会出现,因此这些检索词将具有零频率。在图3a和3b中表示出用于两个不同文件的检索词频率直方图的示意性实例。
从这个实例中能够看出直方图是如何表征文件内容的。通过观察实例,能够看出文件1比文件2中出现更多的检索词“MPEG”和“视频”,而文件2自身出现了更多的检索词“元数据”。在该直方图中许多条目是零,因为相应的词没有出现在文件中。
在真实的例子中,实际的检索词频率直方图中具有比在实例中大得多的检索词数目。典型地,直方图可以绘制超过50000个不同检索词的频率,定出维数超过50000的直方图。如果要被用在SOM信息空间的建立中,则直方图的维数需要被相当大的缩减。
检索词频率直方图中的每个条目被用作为表示那个文件的特征向量中的对应值。这个过程的结果是一个(50000×1)向量,它包含对于文件收集中的每个文件该字典所规定的全部检索词的频率。该向量被称为稀疏向量,因为典型地大多数值都是零,而其他大多数值是例如1这样的非常低的数目。
在步骤140处减少特征向量的大小,从而减少检索词频率直方图的维数。建议了两种方法用于减少直方图的维数。
i)随机映射-一种借助其而使随机数矩阵乘以直方图的技术。这是计算花费比较低廉的过程。
ii)潜在语义索引-通过寻找在文件中具有很高的同时出现概率的检索词的组来减少直方图维数的技术。然后能够把这些词的组缩减成单一的参数。这是计算花费较高的过程。
在本实施例中被选择用于减少检索词频率直方图的维数的方法是“随机映射”,如在上面提及的Kaski论文中所详细说明的。随机映射通过用随机数的矩阵乘以直方图而成功地减少直方图的维数。
如上所述,“未加工的”特征向量(在图4a中示意性所表示的)是典型的稀疏向量,其大小在具有50000个值的区域中。它能够被减少到大约200(见示意图4b)并且仍然保持该特征向量的相关特性,即,例如与其他被类似处理的特征向量的相关角(向量点积)这样的相互关系。这样之所以行得通是因为尽管限制了特殊维数的正交向量数,但是接近正交的向量的数目非常大。
实际上随着向量维数的增加,任何给定的随机生成的向量组彼此几乎正交。这个特性意味着与这个随机数矩阵相乘的向量的相关方向将被保持。能够通过查看它们的点积而示出在随机映射之前和之后向量的相似性,由此证实这个性质。
能够用试验方式来表明:将稀疏向量从50000个值减少到200个值还可保持它们的相关的相似性。然而,这个映射并不完美,但是对于以简单紧凑的方式来表征文件内容的目的而言已经足够了。
一旦已经对于文件收集生成了特征向量,且因而也定义了该收集的信息空间,在步骤150处就将它们投射到二维SOM来生成语义映射。随后的部分说明了通过利用Kohonen自组织映射来群集该特征向量而映射到2维的过程。还要参考图5。
Kohonen自组织映射被用于群集和组织那些已经被生成用于每个文件的特征向量。
自组织映射由在节点的二维阵列或者网格(如二维平面185所图解说明的)中的输入节点170和输出节点180组成。输入节点的数目与被用于训练该映射的特征向量中的值的数目一样多。映射上的每个输出节点通过被加权的连接190(每个连接一个权重)连接到输入节点。
最初这些权重的每一个被设置成随机值,然后,通过迭代过程而“训练”权重。通过将每个特征向量呈现给映射的输入节点来训练映射。通过计算输入向量和每个输出节点的权重之间的欧几里德距离来计算最近的输出节点。
最近的节点被指定为“获胜者”并且通过轻微改变权重值来训练这个节点的权重以使它们移动得更靠近该输入向量。除了获胜节点以外,还训练该获胜节点邻近的节点,并且使其轻微移动得更靠近该输入向量。
这个训练过程,不只是训练单个节点的权重,而是训练映射上的节点区域的权重,这使得映射一旦被训练,就可以保存节点的2维映射中的输入空间的大部分拓扑结构。
一旦映射被训练,每个文件就能够被呈现在映射中以便观察哪个输出节点最靠近该文件的输入特征向量。权重与特征向量的等同是不大可能的,并且特征向量和它在映射上最近的节点之间的欧几里德距离被称为“量化误差”。
通过将用于每个文件的特征向量呈现在映射上以便观察它位于哪里,产生用于每个文件的x,y映射位置。当这些x,y位置随同文件ID一起被输入查找表中的时候,这些x,y位置能够被用于显现文件之间的关系。
最后,在步骤160处增加抖动部分,将在下面参考图6来描述它。
上述过程的潜在问题是两个相同或者基本上相同的信息项可以被映射到SOM的节点阵列中的相同节点上。这不会带来数据的操纵处理的困难,但是不利于在显示屏上数据的显现(将在下面描述)。尤其是,当在显示屏上显现数据的时候,已经认识到:多个非常相似的项在特定节点处的单个项上是可识别的将会非常有用。因此,在每个信息项映射到的节点位置处增加一个“抖动”部分。该抖动部分是最大可以到节点分隔的±1/2的随机加法。因此,参考图6,映射过程为之选择输出节点200的信息项具有被增加的抖动部分,以便于实际上它可以被映射到在图6中由虚线所限制的区域210中的任何节点位置上。
因此,信息项可以被认为是在不同于SOM过程的“输出节点”的节点位置处映射到图6的平面上的位置。
可替代的方法可以是在上述的SOM映射过程中使用更高密度的“输出节点”。这将不能在绝对相同的信息项之间提供任何区别,但是可以允许差不多相同、但不是完全相同的信息项映射到不同的但是十分接近地分开的输出节点上。
图7示意性图解说明了显示屏60上的显示,其中用图表来说明被分类进入SOM的数据以便在搜索操作中使用。显示器示出了搜索查询250、结果列表260和SOM显示区域270。
在操作中,用户将关键字搜索查询输入到查询区域250中。然后用户开始搜索,例如通过按下键盘70上的回车或者通过使用鼠标80选择屏幕“按钮”来开始搜索。然后,利用标准的关键字搜索技术来比较搜索查询框250中的关键字和数据库中的信息项。这样生成结果列表,在列表窗口260将每一个结果都作为相应条目280显示。同样地,每个结果在节点显示区域270上都具有对应的显示点。
因为用于生成SOM表示的分类过程倾向于在SOM中将互相类似的信息项集合到一起,所以搜索查询的结果一般倾向于落入像群集290这样的群集中。这里,注意到区域270上的每个点对应于SOM中与结果列表260中的一个结果相关的对应条目;并且在区域270中显示该点的位置对应于在节点阵列中那些节点的阵列位置。
图8示意性图解说明用于减少“命中”(结果列表中的结果)数目的技术。用户利用鼠标80围绕着对应于感兴趣的节点的一组显示点画出方框300。在结果列表区域260中,只显示与方框300中的点相对应的那些结果。如果对这些结果不再感兴趣,则用户可以围绕着不同组的显示点画出另一个方框。
注意到,对于在方框300中为之显示了显示点并且满足字搜索区域250中的搜索标准的那些结果,结果区域260为它们显示列表条目。方框300可以包含与位于该节点阵列中的节点相对应的其他显示位置,但是如果这些结果不满足搜索标准,则它们将不被显示并且不会形成在方框260中显示的结果的子集的一部分。
图9示意性图解说明用于在列表窗口260中检测条目的节点位置的技术。在使用图形用户界面领域中的标准技术,尤其在利用所谓的“Windows”TM操作系统的计算机中,用户可以在结果列表窗口中选择一个或者多个条目。在所示的实例中,通过用鼠标点击与相关结果相对应的“检查框”310来完成。然而,这同样可以通过点击以高亮显示整个结果,或者通过双击相关结果等来完成。因为选择了一个结果,所以那些表示节点阵列中的对应节点的相应显示点被用不同的方式显示。这通过对应于在结果区域260中所选结果330的两个显示点320来示意性地示出。
外观的改变可能是以更大尺寸显示该点,或者是以相同显示颜色的更强烈的版本显示该点,或者是以不同的显示颜色显示该点,或者是以这些变化属性的组合来显示该点。
在任何时候,通过遵循上述的步骤(也就是步骤110到140),能够将新的信息项增加到SOM,然后将产生的减少的特征向量应用到“预训练”SOM模型,即由映射的自组织准备所产生的一组SOM模型。因此,对于新增加的信息项,通常不“重新训练”该映射;而是对没有修改的全部SOM模型使用步骤150到160。每次增加新的信息项的时候来重新训练SOM需要昂贵的计算代价,并且有时候对用户还有一些不友善,用户可能要逐渐习惯于该映射中通常被访问的信息项的相对位置。
然而,可能会有一种情况,其中适合重新训练过程。例如,如果自首次生成SOM以来已经将新的检索词(可能是新的新闻项或者新的技术领域)输入到字典中,则它们可能不会非常好地映射到现有的输出节点组。在新接收的信息项被映射到现有的SOM期间,这可以被检测为在检测到的所谓“量化误差”中的增长。在本实施例中,该量化误差与阈值误差量相比较。如果它比该阈值量大,则或者(a)利用所有的原始信息项和自其生成以后被添加的任何项来自动重新训练SOM;或者(b)用户被提示在方便的时间启动重新训练过程。重新训练过程使用全部相关信息项的特征向量并且完全重新应用步骤150和160。
图10示意性图解说明作为视频捕获和/或处理设备实例的摄像机500,摄像机包括具有相关透镜520的图象捕获设备510;数字信号处理器530;磁带存储器540;磁盘或者其他随机存取存储器550;用户控制器560和具有目镜580的显示设备570。对于那些本领域技术人员来说传统摄像机的其他特征或者其他备选实施方式(例如不同的存储介质或者不同的显示屏幕设备)将是很显而易见的。在使用中,与捕获的视频材料相关的元数据可以被存储在存储器550,在显示设备570上观察与被存储数据相关的SOM,并且如上所述利用用户控制器560来控制它。
图11示意性图解说明个人数字助理(PDA)600,作为便携式数据处理设备的一个实例,它具有包括显示区域620和提供用户控制的触敏区域630的显示屏幕610;以及数据处理和存储(没有显示)。再次地,本领域的技术人员将很清楚替换的实施方式。该PDA可以如上所述地结合图1的系统来使用。

Claims (21)

1.一种信息检索系统,其中一组不同的信息项通过该信息项的相互相似性而映射到节点阵列中的对应节点,使得相似的信息项映射到该节点阵列中相似位置处的节点;该系统包括:
用于在用户显示器上的显示区中把至少一些节点的表示显示为显示点的二维显示阵列的图形用户界面;
用于定义该显示区的二维区域的用户控制器;以及
用于检测位于在该显示区的二维区域中的那些显示点的检测器;
该图形用户界面还显示代表信息项的数据的列表,那些信息项被映射到与该显示区的二维区域中所显示的显示点相对应的节点。
2.依据权利要求1的系统,其中根据从每个信息项所得出的特征向量将信息项映射到该阵列中的节点上。
3.依据权利要求2的系统,其中用于信息项的特征向量表示在该信息项中一组信息特征中每个信息特征的一组出现频率。
4.依据权利要求3的系统,其中信息项包括文本信息,该用于信息项的特征向量表示在该信息项中一组词中每个词的一组出现频率。
5.依据权利要求1或者2的系统,其中信息项包括文本信息,该节点被按照至少一部分文本信息的相互相似性来映射。
6.依据权利要求4或者5的系统,其中通过排除在该信息项组中出现频率大于阈值频率的词来预处理该信息项用于映射。
7.依据权利要求4到6的任何一个的系统,其中通过排除在该信息项组中出现频率小于阈值频率的词来预处理该信息项用于映射。
8.依据权利要求4到7的任何一个的系统,包括:
用于执行该信息项的相关词搜索的搜索装置;
该搜索装置和图形用户界面被安排成互相合作以便于只显示那些与该搜索所选择的信息项相对应的显示点。
9.依据任何一个先前权利要求的系统,其中信息项和该阵列中的节点之间的映射包括抖动部分,使得基本上相同的信息项倾向于映射到该阵列中非常靠近但却不同的节点上。
10.依据任何一个先前权利要求的系统,包括用于从该列表中选择一个或者多个信息项的用户控制器;该图形用户界面可操作以便于可以改变与所选择的信息项相对应的显示点的显示区域中的显示方式。
11.依据权利要求10的系统,其中图形用户界面可操作以便于以不同颜色和/或强度显示那些与该列表中被选择的信息项相对应的显示点。
12.一种信息存储系统,其中处理一组不同的信息项以便于通过该信息项的相互相似性而映射到节点阵列中的对应节点,以使得相似的信息项映射到在该节点阵列中相似位置处的节点;该系统包括:
用于生成从每个信息项中所得出的特征向量的装置,该用于信息项的特征向量表示在该信息项中一组信息特征中的每个信息特征的一组出现频率;以及
用于将每个特征向量映射到该节点阵列中的节点的装置,信息项和该阵列中的节点之间的映射包括抖动部分,以使得基本上相同的信息项倾向于映射到在该阵列中非常靠近但却不同的节点。
13.依据权利要求12的系统,包括:
用于将新接收的信息项映射到该节点阵列中的节点的装置;
用于在如此映射该新接收的信息项时检测映射误差的装置;和
响应于该映射误差超过阈值误差量的检测而启动该组信息项和该新接收的信息项的重新映射过程的装置。
14.一种便携式数据处理设备,包括一个依据任何一个先前权利要求的系统。
15.一种视频捕获和/或处理设备,包括一个依据任何一个先前权利要求的系统。
16.一种信息存储方法,其中处理一组不同的信息项以便于通过该信息项的相互相似性来映射到节点阵列中的对应节点,使得相似的信息项映射到该节点阵列中相似位置处的节点;该方法包括步骤:
生成从每个信息中所得出的特征向量,该用于信息项的特征向量表示在该信息项中一组信息特征中的每个信息特征的一组出现频率;和
将每个特征向量映射到该节点阵列中的节点,在信息项和该阵列中的节点之间的映射包括抖动部分,以使得基本上相同的信息项倾向于映射到在该阵列中非常靠近但却不同的节点。
17.一种信息检索方法,其中一组不同的信息项通过该信息项的相互相似性而映射到节点阵列中的相应节点,使得相似的信息项映射到该节点阵列中的相似位置处的节点;该方法包括:
在用户显示器上的显示区中,把至少一些节点的表示显示为显示点的二维显示阵列;
利用用户控制器来定义该显示区的二维区域;
检测那些位于该显示区的二维区域中的显示点;和
显示表示信息项的数据的列表,那些信息项被映射到与该显示区的二维区域中所显示的显示点相对应的节点。
18.具有用于执行依据权利要求16和17中的任意一个的方法的程序代码的计算机软件。
19.用于提供依据权利要求18的程序代码的供应媒体。
20.依据权利要求19的媒体,该媒体是存储媒体。
21.依据权利要求19的媒体,该媒体是传输媒体。
CNB031255094A 2002-09-19 2003-09-19 信息检索方法和系统、数据处理设备和视频采集处理设备 Expired - Fee Related CN100416556C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0221774.3 2002-09-19
GB0221774A GB2393271A (en) 2002-09-19 2002-09-19 Information storage and retrieval

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN2008100817657A Division CN101251857B (zh) 2002-09-19 2003-09-19 用于信息存储和检索的系统、设备和方法

Publications (2)

Publication Number Publication Date
CN1495646A true CN1495646A (zh) 2004-05-12
CN100416556C CN100416556C (zh) 2008-09-03

Family

ID=9944396

Family Applications (2)

Application Number Title Priority Date Filing Date
CNB031255094A Expired - Fee Related CN100416556C (zh) 2002-09-19 2003-09-19 信息检索方法和系统、数据处理设备和视频采集处理设备
CN2008100817657A Expired - Fee Related CN101251857B (zh) 2002-09-19 2003-09-19 用于信息存储和检索的系统、设备和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN2008100817657A Expired - Fee Related CN101251857B (zh) 2002-09-19 2003-09-19 用于信息存储和检索的系统、设备和方法

Country Status (5)

Country Link
US (1) US7627820B2 (zh)
EP (2) EP1400902A1 (zh)
JP (1) JP2004164608A (zh)
CN (2) CN100416556C (zh)
GB (2) GB2393271A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847158A (zh) * 2009-03-24 2010-09-29 索尼株式会社 基于上下文的视频查找器
CN101281541B (zh) * 2007-04-06 2011-07-27 株式会社电装 声音数据检索支持设备、声音数据再现设备、以及程序
CN102428467A (zh) * 2009-04-08 2012-04-25 谷歌公司 用于分类的基于相似度的特征集补充
CN111209747A (zh) * 2020-01-16 2020-05-29 北京明略软件系统有限公司 一种词向量文件加载方法、装置、存储介质及电子设备

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2395806A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
GB2395804A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
GB2418038A (en) * 2004-09-09 2006-03-15 Sony Uk Ltd Information handling by manipulating the space forming an information array
EP1755051A1 (en) * 2005-08-15 2007-02-21 Mitsubishi Electric Information Technology Centre Europe B.V. Method and apparatus for accessing data using a symbolic representation space
EP1920546B1 (en) 2005-08-30 2014-04-16 NDS Limited Enhanced electronic program guides
EP2113155A4 (en) 2007-02-21 2010-12-22 Nds Ltd METHOD FOR PRESENTATION OF CONTENT
WO2009129659A1 (en) * 2008-04-25 2009-10-29 Ebay Inc. Matrix view of items
JP5374078B2 (ja) * 2008-06-16 2013-12-25 オリンパス株式会社 画像処理装置、画像処理方法および画像処理プログラム
GB2475473B (en) 2009-11-04 2015-10-21 Nds Ltd User request based content ranking
KR101695490B1 (ko) * 2009-12-23 2017-01-12 삼성전자주식회사 컨텐츠 검색방법
US10515404B2 (en) * 2011-07-13 2019-12-24 Sbb Business Services Ltd. Computer system and method for conducting auctions over a computer network
HUE030528T2 (en) * 2012-03-15 2017-05-29 Cortical Io Gmbh Process, equipment and product for semantic processing of texts
US20140250376A1 (en) * 2013-03-04 2014-09-04 Microsoft Corporation Summarizing and navigating data using counting grids
US9582519B2 (en) * 2013-08-15 2017-02-28 Dassault Systemes Simulia Corp. Pattern-enabled data entry and search
JP6223947B2 (ja) * 2014-10-15 2017-11-01 株式会社toor 情報表示方法及び情報表示装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5655080A (en) * 1995-08-14 1997-08-05 International Business Machines Corporation Distributed hash group-by cooperative processing
US5809490A (en) * 1996-05-03 1998-09-15 Aspen Technology Inc. Apparatus and method for selecting a working data set for model development
US5973692A (en) * 1997-03-10 1999-10-26 Knowlton; Kenneth Charles System for the capture and indexing of graphical representations of files, information sources and the like
US6260036B1 (en) * 1998-05-07 2001-07-10 Ibm Scalable parallel algorithm for self-organizing maps with applications to sparse data mining problems
US7106329B1 (en) * 1999-09-30 2006-09-12 Battelle Memorial Institute Methods and apparatus for displaying disparate types of information using an interactive surface map
WO2001031502A1 (fr) * 1999-10-27 2001-05-03 Fujitsu Limited Dispositif et procede de classement et de rangement d'informations multimedia
EP1360604A2 (en) * 2000-03-31 2003-11-12 Harlequin Ltd. Method and system for gathering, organizing, and displaying information from data searches
JP4049522B2 (ja) 2000-07-25 2008-02-20 富士通株式会社 情報分布装置および情報分布方法
JP2002041571A (ja) 2000-07-28 2002-02-08 Victor Co Of Japan Ltd 情報検索装置
WO2002027508A1 (en) * 2000-09-26 2002-04-04 Alltrue Networks, Inc. Method and software for graphical representation of qualitative search results
AU2002220172A1 (en) * 2000-11-15 2002-05-27 David M. Holbrook Apparatus and method for organizing and/or presenting data

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281541B (zh) * 2007-04-06 2011-07-27 株式会社电装 声音数据检索支持设备、声音数据再现设备、以及程序
CN101847158A (zh) * 2009-03-24 2010-09-29 索尼株式会社 基于上下文的视频查找器
CN102428467A (zh) * 2009-04-08 2012-04-25 谷歌公司 用于分类的基于相似度的特征集补充
CN111209747A (zh) * 2020-01-16 2020-05-29 北京明略软件系统有限公司 一种词向量文件加载方法、装置、存储介质及电子设备
CN111209747B (zh) * 2020-01-16 2023-02-28 北京明略软件系统有限公司 一种词向量文件加载方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
GB0229072D0 (en) 2003-01-15
US7627820B2 (en) 2009-12-01
US20040056886A1 (en) 2004-03-25
EP1400902A1 (en) 2004-03-24
CN101251857A (zh) 2008-08-27
GB2393271A (en) 2004-03-24
EP1906317A3 (en) 2008-06-25
GB2393275A (en) 2004-03-24
CN101251857B (zh) 2012-06-06
GB0221774D0 (en) 2002-10-30
EP1906317A2 (en) 2008-04-02
JP2004164608A (ja) 2004-06-10
CN100416556C (zh) 2008-09-03

Similar Documents

Publication Publication Date Title
CN100416556C (zh) 信息检索方法和系统、数据处理设备和视频采集处理设备
US7502780B2 (en) Information storage and retrieval
US8818916B2 (en) System and method for linking multimedia data elements to web pages
US8266185B2 (en) System and methods thereof for generation of searchable structures respective of multimedia data content
CN102368255A (zh) 信息存储与检索
GB2403636A (en) Information retrieval using an array of nodes
US20070133947A1 (en) Systems and methods for image search
US6606623B1 (en) Method and apparatus for content-based image retrieval with learning function
EP1426882A2 (en) Information storage and retrieval
CN1173675A (zh) 多媒体数据库检索系统
CN1674004A (zh) 可用于数据搜索的数据分类系统和方法
CN1746891A (zh) 信息处理
US20040139105A1 (en) Information storage and retrieval
CN100449534C (zh) 信息存储和检索
Matatov et al. DejaVu: a system for journalists to collaboratively address visual misinformation
Mukherjee et al. Bootstrapping semantic annotation for content-rich html documents
Tsai A review of image retrieval methods for digital cultural heritage resources
Tsikrika et al. Reliability and effectiveness of clickthrough data for automatic image annotation
CN110580299A (zh) 生成对象的推荐语的配图的方法、系统、设备及存储介质
CN1252647C (zh) 一种基于内容的镜头检索方法
CN1326158A (zh) 适用于多媒体内容的数据库构造方法
Dai Class-based image representation for Kansei retrieval considering semantic tolerance relation
Berkovich et al. A fuzzy find matching tool for image text analysis
Haas et al. Relevance feedback methods in content based retrieval and video summarization
Dai et al. A mechanism for large image/videos’ automatic annotation considering semantic tolerance relation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SONY EUROPE LIMITED

Free format text: FORMER OWNER: SONY UNITED KINGDOM LTD.

Effective date: 20111013

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20111013

Address after: surrey

Patentee after: Sony Corporation

Address before: Shire of England

Patentee before: Sony United Kingdom Ltd.

C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080903

Termination date: 20130919