CN1746891A - 信息处理 - Google Patents
信息处理 Download PDFInfo
- Publication number
- CN1746891A CN1746891A CNA2005101036919A CN200510103691A CN1746891A CN 1746891 A CN1746891 A CN 1746891A CN A2005101036919 A CNA2005101036919 A CN A2005101036919A CN 200510103691 A CN200510103691 A CN 200510103691A CN 1746891 A CN1746891 A CN 1746891A
- Authority
- CN
- China
- Prior art keywords
- node
- information
- array
- item
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013507 mapping Methods 0.000 claims abstract description 76
- 238000000034 method Methods 0.000 claims abstract description 66
- 230000002093 peripheral effect Effects 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 53
- 230000010365 information processing Effects 0.000 claims description 4
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 44
- 238000012549 training Methods 0.000 description 23
- 238000005516 engineering process Methods 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 239000000463 material Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000001105 regulatory effect Effects 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005587 bubbling Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003760 hair shine Effects 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010028916 Neologism Diseases 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种信息处理方法,通过信息项的相互相似性将信息项映射到节点阵列中的各个节点,以使相似信息项映射到节点阵列中相似位置的节点;存在信息项内信息特征的每个索引的出现频率与节点阵列中节点之间的映射关系,相对于要处理的信息项该方法包括如下步骤:检测节点阵列中的最近节点,该最近节点是映射关系提供与要处理的信息项的最近匹配的节点;在阵列中选择与最近节点接近的节点组;并修改映射关系,以使最近节点和节点组通常更接近要处理的信息项;其中出于选择节点组的目的,阵列绕回,以将阵列的外围边缘视为邻近阵列的相对的外围边缘。
Description
技术领域
本发明涉及信息处理。
背景技术
有多种已建立用于通过根据关键词搜索来定位信息(例如文档、图像、电子邮件、专利、互联网内容或媒体内容,诸如音频/视频内容)的系统。这些例子包括互联网搜索“引擎”,诸如“Google”TM或“Yahoo”TM提供的搜索引擎,其中通过关键词进行的搜索产生了由该搜索引擎以感觉相关顺序排列的结果列表。
然而,在包含大量内容的系统中(通常称为大量内容集合),很难制定有效的搜索查询以给出搜索“命中”的简短列表。例如,在准备本申请时,以关键词“大量文档集合”进行Google搜索,命中243000个。如果之后重复搜索,则这个命中数还有望增加,因为通过互联网存储的内容量通常随时增加。查看这种命中列表可能相当耗时。
通常,大量内容集合没有被很好利用的一些原因是:
·用户不知道存在相关内容;
·用户知道存在相关内容,但不知道它在哪;
·用户知道存在内容,但不知道它是相关的;
·用户知道存在相关内容以及如何找到它,但找到该内容要花很长时间。
文章“大量文档集合的自组织”(“Self Organisation of a MassiveDocument Collection”,Kohonen et al,IEEE Transactions on NeuralNetworks,Vol 11,No.3,May 2000,P574-585)公开了一种使用所谓“自组织映射”(SOM)的技术。其利用了所谓无人监管的自学习神经网络算法,其中表示各文档特性的“特征向量”被映射到SOM的节点上。
在Kohonen等人的文章中,第一步是预处理文档文本,并随后从各预处理的文档中导出特征向量。在一种形式中,这可以是显示单词的各大型词典出现频率的直方图。直方图内的各数据值(即,各个词典单词的各出现频率)变成n值向量的值,其中n是词典中候选单词的总数(在这篇文章描述的实例中是43222)。可对n向量值进行加权,或许强调特定单词的增强的相关性或改进的分化。
随后,n值向量被映射到基本小于n的较小维数向量上(即,具有数值为m(在该篇文章中为500)的向量)。这是通过将该向量乘以由随机数阵列形成的(n×m)“投影矩阵”实现的。这种技术已经显示出可以生成较小维数的向量,其中任意两个减小维数的向量都具有许多与两个各自输入向量相同的向量点积。在文章“通过随机映射的维数缩减:用于聚类的快速相似性计算”(“DimensionalityReduction by Random Mapping:Fast Similarity Computation forClustering”,Kaski,Proc IJCNN,P413-418,1998)中描述了这个向量映射过程。
通过将各向量与“模型”(另一向量)相乘的过程,减小维数的向量随后被映射到SOM上的节点(也称为神经元)上。这些模型通过学习过程产生,该学习过程通过相互相似性将它们自动排序在SOM上,这通常表示为节点的二维栅格。这是一个不平凡的过程,对于只在700万文档以下的文档数据库,Kohonen等人在内存为800MB的6个处理器的计算机上花了6周的时间。最后,显示形成SOM的节点栅格,用户可放大映射区域并选择节点,这使用户界面可提供到包含链接到那个节点的文档的网页的链接。
在经验试验中已经认识到,虽然上述配置提供了有用的映射,但该映射有多方面的缺点。特别是,可能感觉难以分类的信息项倾向于通过训练过程放在映射的最边上。映射末端的节点的加权因此趋向于反映比与接近映射中心的节点相关联的加权因子更多的极值。由于这个原因,在表示信息项方面位于映射边缘的节点倾向于变得用处不大。
发明内容
本发明提供了一种信息处理方法,其中通过信息项的相互相似性将信息项映射到节点阵列中的各个节点,以使相似信息项映射到节点阵列中相似位置的节点;存在信息项内信息特征每个索引的出现频率与节点阵列中节点之间的映射关系;
所述方法包括如下步骤:
相对于要处理的信息项:
检测节点阵列中的最近节点,所述最近节点是映射关系提供了与要处理的信息项的最近匹配的节点;
在阵列中选择与最近节点接近的节点组;并且
修改所述映射关系,以使最近节点和节点组通常更接近要处理的信息项;
其中出于选择节点组的目的,阵列绕回(wrap around),以将阵列的外围边缘视为邻近阵列的相对外围边缘。
在所附权利要求书中定义了本发明的其它各方面和特征。
附图说明
根据结合附图阅读的说明性实施例的以下详细描述,本发明的以上和其它目的、特征和优点将是明显的,附图中:
图1示意性示出了信息存储与检索系统;
图2是显示自组织映射(SOM)生成的示意性流程图;
图3a和3b示意性示出了项频率直方图;
图4a示意性示出了原始特征向量;
图4b示意性示出了减小的特征向量;
图5示意性地示出了SOM;
图6示意性地示出了抖动(dither)过程;
图7-9示意性地示出了提供用户界面以访问由SOM表示的信息的显示屏;
图10示意性示出作为视频采集和/或处理装置的例子的摄像机;
图11示意性示出作为便携数据处理装置例子的个人数字助理;
图12和13示意性示出了训练过程;
图14示意性地示出了冒泡(bubble)训练曲线;
图15示意性地示出了高斯训练曲线;
图16示意性示出应用到SOM边缘节点的先前建议的训练过程;
图17示意性地示出了SOM;以及
图18和19示意性地示出应用到SOM边缘节点的训练过程。
具体实施方式
图1是基于通用计算机10的信息存储和检索系统的示意图,该计算机10具有处理器单元20,该处理器单元20包括程序和数据的盘存储器30、连接到网络50(诸如以太网或互联网)的网络接口卡40、诸如阴极射线管设备60的显示设备、键盘70以及诸如鼠标80的用户输入设备。该系统在程序控制下工作,程序存储在盘存储器30上,并例如通过在网络50、移动盘(未示出)或盘存储器30上的预先安装来提供。
存储系统工作在两种通用工作模式下。在第一种模式下,信息项集合(例如文本信息项)安装在盘存储器30上或通过网络50连接的网络盘驱动器上,并对其进行分类和索引,准备搜索操作。第二种工作模式是对索引并分类的数据进行实际搜索。
这些实施例可应用于多种类型的信息项。适当类型信息的非穷尽列表包括专利、视频材料、电子邮件、演示、互联网内容、广播内容、商业报告、音频材料、图形和剪辑图、照片等、或这些信息的任意组合或混合。在本描述中将参照文本信息项,或至少具有文本内容或相关内容的信息项。因此,例如诸如音频和/或视频材料的一段广播内容可与定义文本项中那个材料的“元数据”相关联。
信息项以常规方式加载在盘存储器30上。它们最好存储为允许更容易检索并索引信息项的一部分数据库结构,但这不是必需的。一旦信息和项已经如此存储了,就执行图2中示意性示出的配置它们搜索的过程。
要理解到,索引的信息项不必存储在本地盘驱动器30上。数据可存储在通过网络50连接到系统10的远程驱动器上。作为一种备选方案,可以分布式方式存储信息,例如经过互联网的各种网站。如果信息存储在不同互联网或网络站点上,则信息存储的第二级可用于本地存储一个到远程信息的“链接”(例如URL),可能具有相关简介、摘要或与那个链接相关联的元数据。因此,虽然为了下面的技术描述,可将远程保存的信息、或摘要/简介/元数据、或链接/URL看成是“信息项”,但除用户选择的相关链接(例如来自下面要描述的结果列表260)之外,不会访问远程保存的信息。
换言之,“信息项”的形式定义是导出并处理(参见下文)特征向量以提供到SOM映射的项。结果列表260(参见下文)中所示的数据可以是自身的信息项(如果本地保存并足够短便于显示),或者可以是表示和/或针对诸如一个或多个元数据、URL、摘要、关键词集合、代表性关键印记(stamp)图像等的信息项的数据。在通常(虽然不总是)包括列出表示项集合数据的操作“列表”中,这是固有的。
在另一示例中,信息项可通过联网的工作组(诸如研究组或合法公司)存储。混合方法可包括一些本地存储的信息项、和/或一些通过局域网存储的信息项、和/或一些通过广域网存储的信息项。在此情况下,该系统在定位例如由大型跨国研究和开发组织中的其他人从事的相似工作中是有用的,相似研究工作倾向于映射到SOM(参见下文)中的相似输出节点上。或者,如果策划新的电视节目,则本技术可用于通过检测具有相似内容的先前节目来检查其独创性。
还要理解到,图1的系统10只是可以使用索引信息项的可能系统的一个示例。虽然设想初始(索引)阶段可由相当强大的计算机来执行(最可能是非便携式计算机),但后面的访问信息阶段可在便携式机器上执行,诸如“个人数字助理”(带有显示器和用户输入设备的数据处理设备的术语,其通常适合于单手)、诸如膝上型电脑的便携式计算机、乃至诸如移动电话、视频编辑装置或摄像机的设备。通常,实际上任何具有显示器的设备都可用于操作的信息访问阶段。
这些过程并不局限于特定数量的信息项。
现在参照图2-6来描述生成信息项的自组织映射(SOM)表示的过程。图2是说明SOM映射过程之前的所谓“特征提取”过程的示意性流程图。
特征提取是将原始数据转换为抽象表示的过程。随后,这些抽象表示可用于诸如模式分类、聚类和识别的过程。在此过程中,生成所谓的“特征向量”,其是文档内所用项频率的抽象表示。
通过创建特征向量形成可视化的过程包括:
·创建项的“文档数据库词典”;
·基于“文档数据库词典”创建各个文档的“项频率直方图”;
·使用随机映射来减小“项频率直方图”的维数;
·创建信息空间的2维可视化。
更详细地考虑这些步骤,依次打开各文档(信息项)100。在步骤110,从文档中去掉所有“无用词”。无用词是在预先准备列表上极其常用的单词,诸如“a”、“the”、“however”、“about”、“and”和“the”。因为这些词极其常用,因此它们可能在所有足够长的文档中平均出现的频率差不多。因此,在试图表征特定文档内容时它们的用途很小,并因此应该去掉。
去掉无用词后,在步骤120对剩下的词进行词干化,涉及找出单词变形的共同词干。例如,单词“thrower”、“throws”和“throwing”的公共词干是“throw”。
保留在文档中(排除了“无用”词)出现的词干化单词的“词典”。当遇到一个新词时将其加到词典中,并还记录该词已在整个文档集合(信息项集合)中出现次数的运行计数。
结果是在集合中所有文档中所用的项列表,以及那些项出现的频率。不理会出现频率太高或太低的词,也就是说将它们从词典中去掉,并且不参与下面的分析。频率太低的词可能是拼错、编造、或与文档集合表示的领域不相关的词。出现频率太高的词不适于辨别集合内的文档。例如,在与广播相关的文档的测试集合中,大约所有文档的三分之一中都使用了项“News(新闻)”,而单词“football(足球)”在该测试集合中只有大约2%的文档使用。因此可以假定“football”是比“News”更好的表征文档内容的项。相反,单词“fottball”(“football”的错拼)在整个文档集合中只出现一次,因此由于出现频率太低而被丢掉。这种词可定义为那些具有出现频率比小于平均出现频率的两个标准偏差还低的单词,或是出现频率比大于平均出现频率的两个标准偏差还高的单词。
随后,在步骤130生成特征向量。
为此,为集合中的每个文档生成项频率直方图。通过对单词在各个文档内的词典(属于那个文档集合)中出现的次数进行计数,来构造项频率直方图。词典中的大多数项不会出现在单个文档中,因此这些项的频率为零。图3a和3b示出了两个不同文档项频率直方图的示意性示例。
从这个实例可以看出直方图如何表征文档内容。通过观察这些实例看到,文档1中项“MPEG”和“视频”的出现次数比文档2多,文档2中项“元数据”的出现次数较多。直方图中的许多条目都为零,这是因为在文档中没出现相应的词。
在一个真实例子中,实际项频率直方图具有的项数远大于该例中的数量。通常情况下,给直方图超过50000的维数,直方图可描绘超过50000个不同项的频率。如果直方图要用于构建SOM信息空间,则这个直方图的维数需要大大减小。
项频率直方图中的每个条目都用作表示该文档的特征向量中的相应值。该过程的结果是一个(50000×1)向量,包含由词典为文档集合中各文档指定的所有项频率。由于大部分值通常为零,其它大部分词通常为非常小的数(例如1),所以该向量可称为“稀疏向量”。
在步骤140减小特征向量的大小,并因此减小项频率直方图的维数。为减小直方图维数的过程提出了两种方法。
i)随机映射—一种将直方图与随机数矩阵相乘的技术。这是一个计算上很便宜的过程。
ii)隐性语义索引—一种通过寻找文档中同时出现的概率很高的项的组合来减小直方图维数的技术。这些词组合随后可被减小为单一参数。这是一个计算上很昂贵的过程。
在本实施例中,选择用于减小项频率直方图维数的方法是“随机映射”,上面提到的Kaski文章中对这种方法进行了详细描述。随机映射通过将直方图与随机数矩阵相乘而成功减小了直方图的维数。
如上所述,“原始”特征向量(图4a中示意性示出)通常是大小在50000个值范围内的稀疏向量。这可减小到大约200个(参见示意图4b),并仍保持了特征向量的相对特性,即,它的关系,诸如与其它同样处理的特征向量的相对角(向量点积)。因为尽管特定维数的正交向量数有限,但几乎正交的向量的数量很大,所以该方法有效。
事实上,随着向量维数的增加,任何给定的随机生成的向量集合几乎都彼此正交。这种性质意味着将保持与随机数矩阵相乘的向量的相对方向。这可通过在随机映射之前和之后通过查看其点积来示出向量的相似性而进行论证。
可用实验的方法示出,通过将稀疏向量从50000个值减小到200个值来保持其相对相似性。然而,该映射并不完善,但对于以简洁方式表征文档内容而言足够了。
一旦为文档集合生成了特征向量,从而定义了集合的信息空间,就在步骤150将它们投入到二维SOM中,以创建语义映射。下面部分说明通过使用Kohonen自组织映射对特征向量进行聚类来映射到2D的过程。还参考了图5。
Kohonen自组织映射用于聚类并组织为各文档生成的特征向量。
自组织映射包括显示为二维平面185的节点的二维阵列或栅格中的输入节点170和输出节点180。输入节点与用于训练映射的特征向量中的值一样多。映射上的每个输出节点通过加权连接190(一个连接一个加权)连接到输入节点。
开始每个这些加权都设为随机值,并随后通过迭代过程“训练”加权。通过将每个特征向量呈现到映射的输入节点来训练该映射。通过计算输入向量与各输出节点的加权之间的欧氏距离,来计算“最近的”输出节点。
最近节点被指定为“胜利者”,并通过稍微改变加权值来训练这个节点的加权,以使它们向“更靠近”输入向量的方向移动。除获胜节点之外,还训练获胜节点邻域内的节点,并稍微向更靠近输入向量的方向移动。下面将进一步参考图12-19来描述该过程。
这不只是训练单个节点加权的过程,而且是训练映射上节点区域加权的过程,其使映射一旦被训练了就保持节点2D映射中的输入空间的大量拓扑。
一旦训练了映射,各文档就被呈现到该映射上,以查看对于该文档哪个输出节点最靠近输入特征向量。加权等于特征向量是不太可能的,并且特征向量与映射上其最近节点间的欧氏距离被称为其“量化误差”。
通过将各文档的特征向量呈现到该映射上,来查看它在哪产生各文档的x、y映射位置。当这些x、y位置与文档ID一起放进查找表时,可用来对文档间的关系进行可视化。
最后,在步骤160加入抖动分量,这将在下面参照图6描述。
用上述过程的潜在问题是:两个相同或基本相同的信息项可映射到SOM节点阵列中的同一节点。这没有引起处理数据方面的困难,但对显示屏上数据的可视化(下面将描述)没有帮助。特别是,当在显示屏上可视化数据时,已经认识到,对于在特定节点处的单个项上可辨别的多个非常相似的项而言,这是有用的。因此,将“抖动”分量加到各信息项映射的节点位置上。抖动分量是节点间隔的±1/2的随机增加。因此,参照图6,映射过程选择输出节点200的信息项具有添加的抖动分量,以使它实际上可映射到图6上用虚线界定的区域210内的任何节点位置。
因此,可认为信息项映射到了图6平面上的位置,在节点位置而不是SOM过程的“输出节点”。
备选方法可以是在上述SOM映射过程中使用更高密度的“输出节点”。这不会提供绝对相同信息项之间的任何差别,但可使几乎(但不完全)相同的信息项映射到不同(但间隔紧密)的输出节点。
图7示意性示出了显示屏幕60上的显示,其中图示了在搜索操作中所用的分类到SOM中的数据。显示器示出了搜索查询250、结果列表260和SOM显示区270。
在操作中,用户将关键词搜索查询敲入查询区域250。然后用户例如通过按下键盘70上的回车键、或通过使用鼠标80选择屏幕“按钮”起动搜索来开始搜索。然后使用标准关键词搜索技术,比较搜索查询框250中的关键词与数据库中的信息项。这生成结果列表,每个结果显示为列表视图260中的各条目280。同样,每个结果具有节点显示区270上的相应显示点。
因为用于生成SOM表示的分类过程倾向于在SOM中将相互相似的信息项集中在一起,所以搜索查询结果通常倾向于归入诸如聚类290的聚类中。在此要注意的是,区域270上的各点对应于与结果列表260中的一个结果相关联的SOM中的各条目;并且在区域270中显示的点的位置对应于节点阵列内那些节点的阵列位置。
图8示意性示出了一种减少“命中”(结果列表中的结果)数的技术。用户用鼠标80在对应于感兴趣节点的显示点集的周围拖出一个框300。在结果列表区260中,只显示了与框300内的点相对应那些结果。如果这些结果证明是不感兴趣的,则用户可拖出包含不同显示点集合的另一个框。
要注意的是,对于在框300内显示的显示点并满足词搜索区250中搜索标准的那些结果,结果区260显示了列表条目。框300可包含与在节点阵列中填充的节点相对应的其它显示位置,但如果这些不满足搜索标准,则不会显示它们,并因此不会形成在框260中显示的一部分结果子集。
图9示意性示出了检测列表视图260中条目的节点位置的技术。使用图形用户界面领域中的标准技术,特别在使用所谓“Windows”TM操作系统的计算机中,用户可“选择”结果列表视图中的一个或多个条目。在所示的例子中,这是通过鼠标点击与相关结果相关联的“复选框”310实现的。然而,同样可通过加亮整个结果或通过双击相关结果等来实现。当选择一个结果时,以不同方式来显示表示节点阵列中各个节点的相应显示点。示意性示出了对应于结果区260中的选择结果330的两个显示点320。
外观的变化可能是以较大尺寸、或以同一显示颜色的更浓烈版本、或以不同的显示颜色、或以这些变化属性的组合来显示点。
任何时候,都可这样将新的信息项添加到SOM中:通过接着上面概述的步骤(即步骤110至140),并然后将合成的减小的特征向量应用到“预训练”SOM模型,即,从映射的自组织准备中产生的SOM模型集。因此,对于新添加的信息项而言,通常不“重新训练”映射;改为使用步骤150和160,其中并不修正所有的SOM模型。每次要添加新信息项都重新训练SOM的计算量是非常大的,而且对用户也不太友好,用户可能习惯了映射中通常访问的信息项的相对位置。
然而,有可能存在重新训练过程是合适的点。例如,如果自从最初生成SOM以来新的项(可能是新的新闻项或新的技术领域)已经输入词典中,则它们不会特别好地映射到现有输出节点集。这可检测为在将新接收的信息项映射到现有SOM期间所谓“量化误差”的增加。在本实施例中,量化误差与阈值误差量相比较。如果量化误差大于阈值,则(a)使用其所有原始信息项和从其创建以来添加的任何项来自动重新训练SOM;或(b)提示用户在方便时开始重新训练过程。重新训练过程使用所有相关信息项的特征向量,并全部重新应用步骤150和160。
图10示意性地示出作为视频采集和/或处理装置的摄像机,该摄像机包括具有相关镜头520的图像捕获设备510;数据/信号处理器530;带存储器540;盘或其它随机存取存储器550;用户控制560;以及具有目镜580的显示设备570。对于本领域的技术人员,常规摄像机或其它替换物(诸如不同的存储介质或不同的显示屏配置)的其它特征将是明了的。使用中,可将与捕获的视频资料有关的元数据存储在存储器550上,并可在显示设备570上查看与存储的数据有关的SOM,并如上所述使用用户控制560来控制该SOM。
图11示意性地示出个人数字助理(PDA)600,作为便携式数据处理装置的一个例子,其具有包括显示区620和提供用户控制的触摸敏感区630的显示屏610;以及数据处理和存储器(未示出)。本领域技术人员还会想到一些备选物。该PDA可如上面针对图1系统描述的来使用。
现在将参考图12-19更详细地描述之前提到的节点训练过程。
如上所述,在SOM训练过程期间,当找到特定特征向量的“最近”节点时,改变应用到该节点的节点加权。用这样的方法进行改变:改变后,最近的节点略微更可能是最近的节点。此外,同样以这种方式调节邻近的节点:它们调节的加权使它们略微更接近当前信息项的特征向量。
在图12中示意性示出了这个过程。这里,已经标识了最近节点700。调节与该节点相关的加权。调节后,节点700将仍然是最近的节点,并且实际上将略微更接近当前的特征向量。
但除了对最近节点700的加权进行调节之外,还对围绕该最近节点的区域710内的其它邻近节点进行调节。图12所示的简化示例具有在矩形栅格中配置的节点,并且最近节点的±1栅格位置内的任何节点都已经用这种方式调节了其加权。
在自组织映射节点的另一概念性视图中,节点配置在偏斜或六边形栅格中,诸如图13所示的栅格。这具有这样的优点:对于任何特定节点,所有方向的相邻节点距那个节点都是等距的。这使基于直接极距的函数可用于选择要修改的节点。
在图13中,已经标识了最近节点720。在一个示例中,修改与区域730中节点相关联的加权。区域730由与最近节点的距离定义,并包括紧邻最近节点720的所有节点。然而,可使用基于不同距离的函数,例如以将区域740定义为要修改的节点。
图14示意性示出了所谓的“冒泡”训练曲线。对于节点训练配置创造了这个术语,其中相同的修改(例如相同的乘法因子或相同的加法因子)被应用于图13中节点720的某个距离内所有节点的加权。在阈值距离之外的不进行修改。
图15中示意性示出了称为“高斯”训练曲线的备选方案。这里,应用到节点的修改量取决于它与节点720的距离,其中当距离增加时修改量通常减少。
到此为止,配置了已经描述的示例,以使最近的节点(700或720)适当远离SOM的边缘。图16示意性示出了最近节点完全非常接近SOM边缘的情况下会发生什么。要注意到,在图16中示出了更多的节点以帮助阐明该图。
参考图16,已将节点750标识为最近的节点,并选择通常是半圆形的区域760用于加权修改。不修改最近节点750左侧的节点,这是由于在所绘制的映射中不存在这些节点。
在经验试验中已经认识到,虽然图16的配置可提供有用的映射,但该映射具有各种缺点。特别是,训练过程趋向于将可能感觉难以分类的信息项置于映射的最边上。因此,映射末端处节点的加权可能趋向于反映比与接近映射中心的节点相关联的加权因子更多的极值。由于该原因,位于映射边缘的节点在表示信息项的过程中趋向于变得用处不大。
图17中示意性地示出了上述问题的解决方案,还示出了SOM。在该非常简单的配置中,映射被看成在每个边缘处绕回。因此,节点770看作与节点780和节点790相邻。节点770和780看作沿水平方向(如图所示)相邻,而节点770和790看作沿垂直方向相邻。此外,节点770被看作在映射的对角处与节点800相邻。下面将参考图19描述实现这个的方法,但首先参考图18,其示出了该方法的效果。
参考图18,已经标识了最近节点810。选择用于修改的区域内的节点包括四个子区域820、830、840和850内的那些节点。类似地,对于SOM一个边上的节点860,选择用于修改的两个子区域870和880内的节点。
图19示意性地示出了可获得该修正映射的简单方式。如果将特定节点(例如最近节点)标识为在映射边缘的阈值距离内,则转换映射如下。
如果检测到最近节点位于距阵列边缘的阈值距离内(其中阈值距离在适当时例如可以是映射宽度或高度的一半),则重新配置映射,以便在选择用于训练修改的节点组之前有效地分割映射,并使两个相对的边彼此相邻。该过程可沿垂直和水平方向执行,或在需要时可仅沿垂直方向或仅沿水平方向执行。当然,实际上不必移动节点;在训练过程期间,可仅通过暂时改变节点的寻址来执行上述重新配置。图18和19示出了以这种方式重新配置的示例区域890以及区域820...850上重新配置的效果。
发生分割(和重新配置)的映射中的位置是可变的。在图示的示例中,在水平和垂直方向大约一半的位置处分割映射。但该分割位置可有所不同。在每个方向都可分离出包括“最近节点”的部分,并将其象征性地(出于考虑最近节点的目的)重新配置到映射的相对侧上,其中理想的是该部分至少与在训练过程中要修改的节点组的宽度一样宽,并且映射的其余部分也满足同一约束。这里的结果是重新配置的映射中的结果,在映射区之间不分割要修改的节点组。
用于处理映射以使边缘以上述方式绕回的另一种技术是:用水平方向模数为n的映射地址和垂直方向模数为m的映射地址来处理映射,以确定训练过程中要调节的节点,其中n是该位置上映射的水平宽度(以节点为单位),m是该位置上映射的高度(以节点为单位)。
要理解到,引用“垂直”和“水平”方向以及诸如“宽度”的术语,仅用于帮助阐明本描述。它们并不涉及节点阵列的任何物理属性。
最后,在显示映射时,可应用同一类型的技术。也就是说,可以绕回的形式显示映射,以将映射的最边缘的节点显示为邻近相对边的节点。这样,在用户看来映射沿任一方向都是无穷的。
虽然在此已参考附图详细描述了本发明的示意性实施例,但应该理解到,本发明并不局限于那些具体实施例,并且在不脱离所附权利要求书定义的本发明的范围和精神的前提下,本领域技术人员可对其进行各种改动和修改。
Claims (15)
1.一种信息处理方法,其中通过信息项的相互相似性将所述信息项映射到节点阵列中的各个节点,以使相似信息项映射到所述节点阵列中相似位置的节点;存在信息项内信息特征的每个索引的出现频率与所述节点阵列中节点之间的映射关系;
所述方法包括如下步骤:
相对于要处理的信息项:
检测所述节点阵列中的最近节点,所述最近节点是所述映射关系提供了与要处理的信息项的最近匹配的节点;
在所述阵列中选择接近所述最近节点的节点组;并且
修改所述映射关系,以使所述最近节点和所述节点组通常更接近要处理的所述信息项;
其中出于选择所述节点组的目的,所述阵列绕回,以将所述阵列的外围边缘视为邻近所述阵列的相对外围边缘。
2.如权利要求1所述的方法,其中选择所述最近节点的阈值距离内的节点用于修改。
3.如权利要求1所述的方法,包括如下步骤:
生成从要处理的所述信息项中导出的特征向量,信息项的所述特征向量表示那个信息项内信息特征的每个所述索引的出现频率集合;以及
将所述特征向量映射到所述节点阵列中的节点。
4.如权利要求1所述的方法,其中:
所述信息项包括文本信息;并且
所述信息特征包括词。
5.如权利要求4所述的方法,其中所述信息特征包括具有多种可能语言形式的语言词干。
6.如权利要求4所述的方法,其中所述信息特征排除词的预定集合。
7.如权利要求1所述的方法,包括图形用户界面,所述图形用户界面将至少一些所述节点的表示在用户显示器上显示为显示区内显示点的二维显示阵列。
8.如权利要求7所述的方法,其中出于显示所述节点的目的,所述阵列绕回,以便将所述阵列的外围边缘视为邻近所述阵列的相对外围边缘。
9.计算机软件,具有执行如权利要求1所述方法的程序代码。
10.一种提供介质,用于提供如权利要求9所述的程序代码。
11.如权利要求10所述的介质,所述介质是存储介质。
12.如权利要求10所述的介质,所述介质是传输介质。
13.一种信息处理系统,其中通过信息项的相互相似性将所述信息项映射到节点阵列中的各个节点,以使相似信息项映射到所述节点阵列中相似位置的节点;存在信息项内信息特征的每个索引的出现频率与所述节点阵列中节点之间的映射关系;
所述系统包括:
检测器,可操作用于相对于要处理的信息项检测所述节点阵列中的最近节点,所述最近节点是所述映射关系提供了与要处理的信息项的最近匹配的节点;
选择器,在所述阵列中选择接近所述最近节点的节点组;以及
逻辑,其修改所述映射关系,以使所述最近节点和所述节点组通常更接近要处理的所述信息项;
其中出于选择所述节点组的目的,所述阵列绕回,以便将所述阵列的外围边缘视为邻近所述阵列的相对外围边缘。
14.一种便携式数据处理设备,包括如权利要求13所述的系统。
15.视频采集和/或处理装置,包括如权利要求13所述的系统。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0420029.1 | 2004-09-09 | ||
GB0420029A GB2418038A (en) | 2004-09-09 | 2004-09-09 | Information handling by manipulating the space forming an information array |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1746891A true CN1746891A (zh) | 2006-03-15 |
Family
ID=33186737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2005101036919A Pending CN1746891A (zh) | 2004-09-09 | 2005-09-09 | 信息处理 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20060053176A1 (zh) |
EP (1) | EP1635271A1 (zh) |
JP (1) | JP2006127484A (zh) |
CN (1) | CN1746891A (zh) |
GB (1) | GB2418038A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106560786A (zh) * | 2015-09-30 | 2017-04-12 | 波音公司 | 来自多个媒体源的内容的组织与可视化 |
CN108319578A (zh) * | 2018-01-05 | 2018-07-24 | 俞雷 | 一种用于数据记录的介质的生成方法 |
CN109906450A (zh) * | 2016-09-16 | 2019-06-18 | 阿尔卡特朗讯 | 用于通过相似性关联对电子信息排名的方法和装置 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8180713B1 (en) | 2007-04-13 | 2012-05-15 | Standard & Poor's Financial Services Llc | System and method for searching and identifying potential financial risks disclosed within a document |
US8818979B2 (en) * | 2007-05-17 | 2014-08-26 | Valuenex Consulting Inc. | Document retrieving apparatus and document retrieving method |
US8326823B2 (en) * | 2007-11-01 | 2012-12-04 | Ebay Inc. | Navigation for large scale graphs |
TWI358647B (en) * | 2007-12-28 | 2012-02-21 | Ind Tech Res Inst | Data classification system and method for building |
JP5222277B2 (ja) * | 2009-12-28 | 2013-06-26 | 楽天株式会社 | 情報表示装置、情報表示方法、情報表示プログラム、情報提供装置、情報提供方法、情報提供プログラム、及び情報検索システム |
KR101521726B1 (ko) * | 2011-03-30 | 2015-05-19 | 라쿠텐 인코포레이티드 | 정보 제공 장치, 정보 제공 방법, 정보 표시 장치, 정보 표시 방법, 정보 검색 시스템, 및 기록 매체 |
US20160335298A1 (en) * | 2015-05-12 | 2016-11-17 | Extreme Networks, Inc. | Methods, systems, and non-transitory computer readable media for generating a tree structure with nodal comparison fields and cut values for rapid tree traversal and reduced numbers of full comparisons at leaf nodes |
JP7161699B2 (ja) * | 2018-11-15 | 2022-10-27 | 株式会社リコー | 定着装置、及び、画像形成装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3903610B2 (ja) * | 1998-09-28 | 2007-04-11 | 富士ゼロックス株式会社 | 検索装置、検索方法及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
GB2393271A (en) * | 2002-09-19 | 2004-03-24 | Sony Uk Ltd | Information storage and retrieval |
GB2395804A (en) * | 2002-11-27 | 2004-06-02 | Sony Uk Ltd | Information retrieval |
GB2395806A (en) * | 2002-11-27 | 2004-06-02 | Sony Uk Ltd | Information retrieval |
GB2403636A (en) * | 2003-07-02 | 2005-01-05 | Sony Uk Ltd | Information retrieval using an array of nodes |
-
2004
- 2004-09-09 GB GB0420029A patent/GB2418038A/en not_active Withdrawn
-
2005
- 2005-03-24 EP EP05251890A patent/EP1635271A1/en not_active Withdrawn
- 2005-05-16 US US11/129,819 patent/US20060053176A1/en not_active Abandoned
- 2005-09-09 JP JP2005262182A patent/JP2006127484A/ja not_active Withdrawn
- 2005-09-09 CN CNA2005101036919A patent/CN1746891A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106560786A (zh) * | 2015-09-30 | 2017-04-12 | 波音公司 | 来自多个媒体源的内容的组织与可视化 |
CN109906450A (zh) * | 2016-09-16 | 2019-06-18 | 阿尔卡特朗讯 | 用于通过相似性关联对电子信息排名的方法和装置 |
CN108319578A (zh) * | 2018-01-05 | 2018-07-24 | 俞雷 | 一种用于数据记录的介质的生成方法 |
CN108319578B (zh) * | 2018-01-05 | 2021-06-25 | 南京孜博汇信息科技有限公司 | 一种用于数据记录的介质的生成方法 |
Also Published As
Publication number | Publication date |
---|---|
EP1635271A1 (en) | 2006-03-15 |
GB0420029D0 (en) | 2004-10-13 |
JP2006127484A (ja) | 2006-05-18 |
GB2418038A (en) | 2006-03-15 |
US20060053176A1 (en) | 2006-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1746891A (zh) | 信息处理 | |
CN1284107C (zh) | 用于搜索一组信息项的信息检索设备和方法 | |
CN1717685A (zh) | 信息存储与检索 | |
JP4776894B2 (ja) | 情報検索方法 | |
US8718383B2 (en) | Image and website filter using image comparison | |
US20170249339A1 (en) | Selected image subset based search | |
JP2011507099A (ja) | イメージ検索における対話型概念学習 | |
US20040107221A1 (en) | Information storage and retrieval | |
CN1694101A (zh) | 用于搜索术语建议的多种类型数据的加强群集 | |
CN101055585A (zh) | 文档聚类系统和方法 | |
Truong et al. | Marine video kit: a new marine video dataset for content-based analysis and retrieval | |
CN1910581A (zh) | 用于按类别提供关键字输入频率信息的搜索系统及其方法 | |
JP2008276768A (ja) | 情報検索装置及び方法 | |
US20040056886A1 (en) | Information storage and retrieval | |
US20100082607A1 (en) | System and method for aggregating a list of top ranked objects from ranked combination attribute lists using an early termination algorithm | |
Popescu et al. | Semretriev: an ontology driven image retrieval system | |
CN1196071C (zh) | 适用于多媒体内容的数据库构造方法 | |
Vrochidis et al. | Utilizing implicit user feedback to improve interactive video retrieval | |
Sebastine et al. | Semantic web for content based video retrieval | |
Jiang | Convolutional Neural Network‐Based Cross‐Media Semantic Matching and User Adaptive Satisfaction Analysis Model | |
Dai | Class-based image representation for Kansei retrieval considering semantic tolerance relation | |
CN1896989A (zh) | 用于实现交互式浏览的系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |