New! View global litigation for patent families

CN101408887B - 推荐词条以指定本体空间 - Google Patents

推荐词条以指定本体空间 Download PDF

Info

Publication number
CN101408887B
CN101408887B CN 200810166182 CN200810166182A CN101408887B CN 101408887 B CN101408887 B CN 101408887B CN 200810166182 CN200810166182 CN 200810166182 CN 200810166182 A CN200810166182 A CN 200810166182A CN 101408887 B CN101408887 B CN 101408887B
Authority
CN
Grant status
Grant
Patent type
Prior art keywords
recommending
terms
specify
body
space
Prior art date
Application number
CN 200810166182
Other languages
English (en)
Other versions
CN101408887A (zh )
Inventor
大卫·马尔维特
贾瓦哈拉·贾殷
斯特吉奥斯·斯特吉奥
亚历克斯·吉尔曼
B·托马斯·阿德勒
约翰·J·西多罗维奇
雅尼斯·拉布罗
艾伯特·莱因哈德
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRICAL DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/3061Information retrieval; Database structures therefor ; File system structures therefor of unstructured textual data
    • G06F17/30634Querying
    • G06F17/30657Query processing
    • G06F17/3066Query translation
    • G06F17/30672Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRICAL DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/3061Information retrieval; Database structures therefor ; File system structures therefor of unstructured textual data
    • G06F17/30613Indexing
    • G06F17/30616Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRICAL DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/3061Information retrieval; Database structures therefor ; File system structures therefor of unstructured textual data
    • G06F17/30634Querying
    • G06F17/30637Query formulation
    • G06F17/30646Query formulation reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRICAL DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/30861Retrieval from the Internet, e.g. browsers
    • G06F17/30864Retrieval from the Internet, e.g. browsers by querying, e.g. search engines or meta-search engines, crawling techniques, push systems

Abstract

推荐词条以指定本体空间。在一个实施方式中,接收用于搜索的目标搜索词条集。选择候选词条,其中候选词条被选择用于减少该搜索的本体空间。向计算机发送候选词条以推荐候选词条作为搜索词条。在另一个实施方式中,访问存储在一个或更多个有形介质中的文档。接收文档的目标标签集。选择多个词条,其中词条被选择用于减少文档的本体空间。向计算机发送词条以推荐该词条作为标签。

Description

推荐词条以指定本体空间

技术领域

[0001] 本发明总体上涉及词法(lexigraphical)分析,更具体地说,涉及推荐词条以指 定本体空间。

背景技术

[0002] 本申请要求DavidMarvit等人于2007年10月5日提交的发明名称为 "TechniquesforImprovedTagging" 的美国临时申请 60/977, 934 的优先权。

[0003] 尽管数据语料库(corpus)可以保存大量信息,但是要找出相关信息可能仍然很 困难。可以对文档进行标记以便于搜索相关信息。然而,在特定情形中,已知的文档标记技 术在定位信息方面不是很有效。类似的是,已知的搜索技术在定位相关信息方面也不是很 有效。

发明内容

[0004] 本发明涉及一种方法,该方法包括以下步骤:访问存储在一个或更多个有形介质 中的文档;接收所述文档的目标标签集;通过选择与目标标签具有较高亲和度而与其他词 条具有较低亲和度的多个词条,来选择多个词条以缩小所述文档的本体空间;向计算机发 送所述词条以推荐所述词条作为标签;接收所述推荐词条的一个或更多个词条的选择;识 别一个或更多个淘汰词条;以及选择与一个或更多个淘汰词条具有较低亲和度的多个后续 词条。

[0005] 本发明还涉及一种方法,该方法包括以下步骤:接收用于搜索的目标搜索词条集; 通过选择与目标标签具有较高亲和度而与其他词条具有较低亲和度的多个词条,来选择多 个候选词条以缩小所述搜索的本体空间;向计算机发送所述候选词条以推荐所述候选词条 作为搜索词条;接收所述候选词条的一个或更多个词条的选择;识别一个或更多个淘汰词 条;以及选择与所述一个或更多个淘汰词条具有较低亲和度的多个后续词条。

附图说明

[0006] 图1例示了选择文档的标签的系统的一个实施方式;

[0007] 图2例示了可以与图1的系统一起使用的亲和度(affinity)模块的一个实施方 式;

[0008] 图3例示了记录基本亲和度的亲和度矩阵的实施例;

[0009] 图4例示了记录有向亲和度的亲和度矩阵的实施例;

[0010] 图5例示了记录平均亲和度的亲和度矩阵的实施例;

[0011] 图6例示了亲和度图的实施例;

[0012] 图7例示了可以与图1的系统一起使用的聚类模块的一个实施方式;

[0013] 图8例示了可以与图1的系统一起使用的本体(ontology)特征模块的一个实施 方式;

[0014] 图9例示了可以与图1的系统一起使用的标记模块的一个实施方式;

[0015] 图10例示了用于确定话题的统计分布的方法的实施例;

[0016] 图11例示了用于通过分析文档的段落来向该文档指配标签的方法的实施例;以 及

[0017] 图12例示了用于响应于所选择的标签来指配标签的方法的实施例。

具体实施方式

[0018] 图1例示了选择文档的标签的系统10的一个实施方式。标签可以是例如作为元 数据指配给文档的一个或更多个词语。标签可以用来方便电子文档的搜索过程。在具体实 施方式中,可通过用于减少文档所在的本体空间的标签来对文档进行标记。使用这些标签 可以更容易地检索文档。在具体实施方式中,在给定一个文档标签的情况下,可以推荐减少 文档所在的本体空间的其他标签。

[0019] 在具体实施方式中,系统10响应于例如由用户选择的目标标签来指配标签。在这 些实施方式中,系统10推荐文档标签。所推荐的标签可以与目标标签具有较高的亲和度, 并与其它推荐标签具有较低的亲和度,以减少文档的本体空间。系统10可接收各推荐标签 的选项,并且可以响应于该选项来推荐更多的标签。一旦选定了最终标签,系统10就会向 文档指配该最终标签。本实施方式用来向不包括文本的文档和包括文本的文档指配标签。

[0020] 在具体实施方式中,对于给定的词语子集和词典D,可以基于特定反向索引 (invertedindex)II计算有向亲和度,其中索引II包括例如针对词句&和词句Wj的条 目I(Wi)和I(Wj)。一般来说,反向索引是储存从词条(term)到其位置(即,呈现词条的同 现语境)的映射的索引数据结构。对于D中的每对词语DA(i,j)可以被定义为 II中的条目UwD和I(Wj)的合取(conjunction)除以UwD的数目值。一般来说,DA(i, j)无需等于DA(i,j)。可以以任何合适的方式(例如,行方式)储存结果,其中储存D(l, i),接着存储D(2,j),以此类推。对于每行i,可以存储11(wD|,接着是与Wj的合取的基数 (cardinality)〇

[0021] 在具体实施方式中,可以按三个阶段计算有向亲和度。在该实施方式中,每一个 字典词条都被指配了唯一的整数识别符。反向索引的条目对应于该整数识别符。在阶段〇 中,读取对应于D的II条目。对于参数(s,〇)来说,仅保留具有ks+o形式的要素识别符。 值ks+o限定要检查的II条目的子集。按这种方式,可以并行计算有向亲和度。作为一个 实施例,根据参数s的结果,〇(1,0)等于根据参数(3,0)、(3,1)、(3,2)合并计算获得的结 果。该步骤允许计算用于很大反向索引的DA表。

[0022] 在阶段1中,仅针对DA(i,j)以行方式计算合取。在阶段2中,读取计算出的上 三角UTDA矩阵。据此,获取下三角部分,作为UT的转置。在具体实施方式中,可以将相同 维的多个DA阵列合并成单一阵列。可以将大的II上的DA阵列计算为具有参数(s,i)的 suniiUdDA。可以利用计算出的合取来存储附加信息,以便计算有向亲和度。在具体情 况下,可以存储II条目的基数。

[0023] 在具体实施方式中,可以按行方式存储DA,这样AA条目的计算可以与DA条目的计 算并行进行。具体来说,可以通过在从磁盘中读取DA时对DA的行进行求和并且最后用词 典条目的数量将其归一化而生成AA。

[0024] 在所示实施方式中,系统10包括:客户端20、服务器22以及存储器24。客户端20 允许用户与服务器22通信,以使生成语言的本体。客户端20可以向服务器22发送用户输 入,并且可以向用户提供(例如,显示或打印)服务器输出。服务器系统24管理用于生成 语言的本体的应用。存储器24存储服务器系统24使用的数据。

[0025] 在所示实施方式中,存储器24存储有页面50和记录54。页面50 (或文档或同现 语境)可以指词语的集合。页面50的示例包括:文档的一个或更多个页面、一个或更多个 文档、一本或更多本书、一个或更多个网页、信件(例如,电子邮件或即时消息)和/或其它 词语的集合。可以由页面识别符来识别页面50。页面50可以以电子方式存储在一种或更 多种有形计算机可读介质中。页面50可以与任何合适的内容相关联,例如,文本(如字符、 词语和/或数字)、图像(如图形、照片或视频)、音频(如录音或计算机生成的声音)和/ 或软件程序。在具体实施方式中,一组页面50可以属于一个语料库。语料库可以与特定主 题、团体、组织或其它实体相关联。

[0026] 记录54描述页面50。在该实施方式中,记录54包括:索引58、反向索引62、本 体66、以及群集67。索引58包括索引列表,其中,页面50的索引列表指示页面50的词语。 反向索引62包括反向索引列表,其中,词语(或词语集)的反向索引列表指示包括该词语 (或词语集)的页面50。在一个实施例中,列表I包括含有词语Wi的页面50的页面识别 符。列表Wi&Wj包括含有词语wJPWj两者的合取(conjunction)页面50的页面识别符。 列表l+Wj包括含有词语1和、中的任一个的析取(disjunction)页面50的页面识别符。 P(I)是I的页面50的数量,艮P,包括词语wi的页面50的数量。

[0027] 在一个实施方式中,可以将列表(如索引列表或反向索引列表)存储为二值判 决图(BDD:Binarydecisiondiagram)。在一个实施例中,集合I的二值判决图BDD(W) 代表具有词语R的页面50。BDD(Wi)的满足指定计数(satisfyingassignmentcount) Satisf(BDD(Wi))得到具有词语Wi的页面50的数量P(Wi):

[0028] P(ffi) =Satisf(BDDdi))

[0029] 相应地,

[0030] Pdi&ffj) =Satisf(BDDdi)igBDD(ffj))

[0031] P(1+1) =Satisf(BDD(D或BDD(Wj))

[0032] 本体66表不语言的词语和这些词语之间的关系。在一个实施方式中,本体66表 示词语之间的亲和度。在所示实施例中,本体66包括亲和度矩阵和亲和度图。参照图3到 图5,对亲和度矩阵的实施例进行描述。参照图6,对亲和度图的实施例进行描述。群集67 记录了彼此相关的词语的群集。参照图7,对群集进行更详细描述。

[0033] 在所示实施方式中,服务器22包括:亲和度模块30、聚类模块31、本体特征模块 32、以及标记模块35。亲和度模块30可以计算针对词语对的亲和度,在亲和度矩阵中记录 该亲和度,和/或报告该亲和度矩阵。亲和度模块30也可以生成亲和度图。参照图2,对亲 和度模块30进行更详细描述。

[0034] 在具体实施方式中,聚类模块31可以通过识别数据集中的相关要素的群集来发 现该数据集中的模式。在具体实施方式中,聚类模块31可以识别一组词语的群集(例如, 一种语言或一组页面50)。一般来说,群集的词语彼此高度相关,但与该群集以外的词语不 相关。词语的群集可以指定该组词语的主题(或话题)。在具体实施方式中,聚类模块31 根据词语之间的亲和度来识别相关词语的群集。在该实施方式中,群集的词语彼此高度相 关,但与该群集以外的词语不相关。参照图7,对聚类模块31进行更详细地描述。

[0035] 在具体实施方式中,本体特征模块32可以确定一个或更多个词语构成的组(例 如,具体词语或包括词语的文档)的一个或更多个本体特征,并接着可以在多种情形中的 任一种中应用该本体特征。本体特征是将词语集放置在一种语言的本体空间中的词语集特 征。本体特征的实施例包括深度和专度。在具体实施方式中,深度可以指示词语集的文本 复杂性(sophistication)。较深的词语集可能较技术化并且专业化,而较浅的词语集可能 较通用。在具体实施方式中,词语集的专度与词语集的主题的数量有关。较专的词语集可 能具有较少的主题,而不太专的词语集可能具有较多的主题。

[0036] 本体特征模块32可以在任何合适的情形下应用本体特征。合适情形的实施例包 括根据本体特征进行的搜索、分类或选择文档;报告文档的本体特征;以及确定一个或更 多个用户的文档的本体特征。参照图8对本体特征模块32进行更详细地描述。

[0037] 在具体实施方式中,标记模块35可以选择标签来标记文档。可以以任何合适的方 式选择标签。在具体实施方式中,标记模块35将话题建模为话题的相关词语的统计分布。 标记模块35使用该统计分布来识别文档的所选词语具有最高出现概率的话题,并且标记 模块35根据识别的话题来选择该文档的标签。在其他实施方式中,标记模块35识别文档 的段落的候选标签。标记模块35确定这些候选标签与文档的其他候选标签的关联性,并根 据该确定来选择该文档的标签。在再一实施方式中,标记模块35推荐文档的标签。可以基 于与用户或计算机输入或选择的目标标签的亲和度(例如,有向和/或差分亲和度)来推 荐标签。一旦选择了最终标签,标记器314就可以向文档指配选择的标签。参照图9对标 记模块35进行更详细地描述。

[0038] 系统10的组件可以包括接口、逻辑、存储器和/或其他合适元件。接口接收输入、 发送输出、对输入和/或输出进行处理,和/或执行其他合适操作。接口可以包括硬件和/ 或软件。

[0039] 逻辑执行对组件的操作,例如,执行指令以根据输入来生成输出。逻辑可以包括硬 件、软件和/或其他逻辑。逻辑可以以一种或更多种有形介质中进行编码,并且可以当计算 机执行该逻辑时执行操作。诸如处理器的特定逻辑可以管理组件的操作。处理器的实施例 包括一个或更多个计算机、一个或更多个微处理器、一个或更多个应用程序,和/或其他逻 辑。

[0040] 存储器存储信息。存储器可以包括一个或更多个有形的、计算机可读的和/或计 算机可执行的存储介质。存储器的示例包括计算机存储器(例如,随机存取存储器(RAM)或 只读存储器(ROM),)、海量存储介质(例如,硬盘)、可移动存储介质(光盘(CD)或数字视 频光盘0VD))、数据库和/或网络存储器(例如,服务器)以及/或其他计算机可读介质。

[0041] 在不脱离本发明的范围的情况下,可以对系统10进行改进、添加或省略。系统10 的组件可以是集成或分离的。此外,可以通过更多、更少或其他组件来执行系统10的操作。 例如,可以通过一个组件执行生成器42和生成器46的操作,或者可以通过一个以上的组件 来执行亲和度计算器34的操作。另外,可以使用包括软件、硬件的任何合适逻辑和/或其 他逻辑来执行系统10的操作。如本文档中所使用的,"每个"指集合中各成员,或集合的子 集中的各成员。

[0042] 在不脱离本发明的范围的情况下,可以对矩阵的实施例进行改进、添加或省略。矩 阵可以包括更多、更少或其他值。另外,可以以任何合适的顺序来排列矩阵的值。

[0043] 图2例示了可以与图1的系统10 -起使用的亲和度模块30的一个实施方式。亲 和度模块30可以计算词语对的亲和度、将该亲和度记录在亲和度矩阵中、和/或报告该亲 和度矩阵。亲和度模块30还可以生成亲和度图。

[0044] 在所示的实施方式中,亲和度模块30包括亲和度计算器34、本体生成器38以及词 语推荐器48。亲和度计算器34计算针对词语Wi或针对包括第一词语w,和第二词语w」的 词语对的任何合适类型的亲和度。亲和度的实施例包括基本亲和度、有向亲和度、平均亲和 度、差分亲和度和/或其他亲和度。

[0045] 这一个实施方式中,词语推荐器48接收词根,并且识别其与词根的亲和度大于阈 值亲和度的词语。阈值亲和度可以具有任何合适值,例如大于或等于〇. 25、0. 5、0. 75或 0.95。阈值亲和度可以被预编程的或者由用户指定。

[0046] 可以根据包括词语&和/或、的页面50的量(例如,数量)来计算基本亲和度。 合取页面量是指既包括词语Wi又包括词语的页面50的量,而析取页面量是指包括词语 Wi或词语Wj中的任一个的页面50的量。可以通过合取页面量除以析取页面量来给出基本 亲和度。在一个实施例中,合取页面数量指示包括词语Wi和词语的页面的数量,而析取 页面数量指示包括词语^或词语wj勺页面的数量。可以通过合取页面的数量除以析取页 面的数量来给出基本亲和度。

[0047] 亲和度(WpWj) =POVi&ffjO/POVi+Wj)

[0048] 图3例示了记录基本亲和度的亲和度矩阵110的实施例。在所示的实施例中,亲 和度矩阵110记录词语A......W5的逐对亲和度。根据亲和度矩阵110,词语wjpWi之间的 亲和度为〇. 003,词语W(l和w2之间的亲和度为0. 005等。

[0049] 返回参照图1,亲和度组包括彼此具有高亲和度的词语对,并且可以被用来针对页 面内容来捕捉词语^和《2之间的关系。高亲和度可以被指定为高于亲和度组阈值的亲和 度。阈值可以被设置为任何合适的值(例如,大于或等于〇. 50、0. 60、0. 75、0. 90或0. 95)。 一个词语可以属于一个以上的亲和度组。在一个实施方式中,亲和度组可以表示为BDDADD 的指针与该组的每个词语一起被储存在反向索引62中。

[0050] 有向亲和度可以被用来测量词语&对于词语、的重要性。亲和度计算器34根据 包括词语^和词语^的页面50的数量(例如,数目)来计算在给定词语"的情况下词语 Wi的有向亲和度。词语Wj页面数量是指包括词语^的页面50的数量。可以通过合取页面 数量除以词语%页面数量来提供在给定词语^的情况下wi的有向亲和度。例如,词语w^ 页面数量指示包括词语K的页面50的数量。可由合取页面50的数量除以词语wi的页面 50的数量来提供在给定词语Wj的情况下wi的有向亲和度:

[0051] DAffinity(WpWj) =P(Wi&Wj)/P(W)

[0052]DAffinity^,Wj)和DAffinity(Wj,w)不同。词语%和w』之间的高有向亲和度 DAffinityhpWj)表示页面50在包括词语Wj的情况下包括词语Wi的较高概率。在一个实 施例中,页面[1 2 3 4 5 6]包括词语^,而页[4 2]包括词语Wj。包括词语Wj的页面也 包括词语Wp因此从词语%的角度,词语wi具有高重要性。包括词语wi的页面中仅有三分 之一的页面也包括词语%,因此从词语Wi的角度,词语w^具有较低的重要性。

[0053] 图4例示了记录针对词语%,...,w5的有向亲和度的亲和度矩阵120的实施例。 在该实施例中,词语124是A词语,而词语128是B词语。矩阵120的各行记录了在给定A 词语的情况下B词语的亲和度,而亲和度矩阵120的各列记录了在给定A词语的情况下B 词语的亲和度。

[0054] 返回参照图1,针对其他词语%计算词语^的平均亲和度。在一个实施方式中, 平均亲和度可以是词语Wi和各其他词语之间的亲和度的平均值。词语w1在N个词语中 的平均亲和度可以通过下式给出:

[0055]

Figure CN101408887BD00091

[0056] 图5例示了记录平均亲和度的亲和度矩阵140的实施例。行142记录了针对词语 1到词语50, 000的基本亲和度。行144记录了词语1到词语50, 000的平均亲和度。

[0057] 返回参照图1,词语的平均亲和度可以指示词语的深度。具有较低平均亲和度的词 语可以被认为是较深的词语,而具有较高平均亲和度的词语可以被认为是较浅的词语。较 深的词语倾向于更技术化、专属并且更准确。具有较高百分比的较深词语的页面50被认为 是较深页面,而具有较低百分比的较深词语的页面50可以被认为是较浅页面。在一个实施 方式中,用户可以指定要检索的词语和/或页面50的深度。

[0058] 页面50的较深词语可以形成高度相关词语的一个或更多个群集。群集可以表示 共同的思想或主题。页面50的主题的数量可以指示页面50的专度。具有较少主题的页面 50可以被认为较专属页面,而具有较多主题的页面50可以被认为欠专属(lessspecific) 页面。

[0059]词语&对于词语w」的差分亲和度是词语wJPw」之间的有向亲和度减去词语w』 对于所有其他词语的平均亲和度。差分亲和度可以被表达为:

[0060] DiffAff(wj,Wj) =DAffinity(wj,Wj)-AveAff(wj)

[0061] 差分亲和度排除了由词语Wj在页面50中出现的一般趋势而造成的偏差(bias)。 在具体情况下,假定页面包括词语%时,差分亲和度可提供该页面包括词语wi的概率的更 精确指不。

[0062] 差分亲和度可以被用于各种应用中。在一个实施例中,人名之间的差分亲和度可 以被用来研宄社会网络。在另一实施例中,语素之间的差分亲和度可以被用来研宄自然语 言处理。在另一实施例中,产品之间的差分亲和度可以被用来研宄市场策略。

[0063] 亲和度计算器34可以使用任何合适的技术来搜索反向索引列表以计算亲和度。 例如,为了识别既包括词语K又包括w」的页面,亲和度计算器34可以针对公共要素(即, 公共页面识别符)搜索词语Wi的列表Wi和词语的列表W

[0064] 在具体实施方式中,本体生成器38生成语言的本体66 (例如,亲和度矩阵或亲和 度图)。可以根据诸如基本亲和度、有向亲和度、平均亲和度、差分亲和度和/或其他亲和度 中的任何合适亲和度来生成本体。可以以任何合适的方式根据从语言中选择的词语来生成 本体66。例如,可以选择来自语言的公用部分的词语或者与一个或更多个具体主题区域相 关的词语。

[0065] 在所示的实施方式中,本体生成器38包括亲和度矩阵生成器42和亲和度图生成 器46。亲和度矩阵生成器42生成记录词语之间的亲和度的亲和度矩阵。亲和度图生成器 46生成表示词语之间的亲和度的亲和度图。在亲和度图中,节点表示词语,而节点之间的有 向边的权重表示由节点所表示的词语之间的亲和度。亲和度图可以具有任何合适的维数。

[0066] 图6例示了亲和度图150的实施例。亲和度图150包括节点154和链路158。节 点154表示词语。在本实施例中,节点154a表示词语"binary(二进制)"。节点154之间 的有向边的权重表示由节点154表示的词语之间的亲和度。例如,较大的权重表示较大的 亲和度。节点之间的链路158指示由节点154表示的词语之间的亲和度高于亲和度阈值。 亲和度阈值可以具有任何合适的值(例如,大于或等于〇. 25、0. 5、0. 75或0. 95)。

[0067] 图7例示了可以与图1的系统10 -起使用的聚类模块31的一个实施方式。在具 体实施方式中,聚类模块31通过识别数据集中的相关要素的群集来发现数据集中的模式。 在具体实施方式中,聚类模块31可以识别词语集的群集(例如,语言或页面50的集合)。 一般来说,群集的词语彼此高度相关,而与群集以外的词语不高度相关。词语的群集可以指 定词语集的主题(或话题)。

[0068] 在具体实施方式中,聚类模块31根据词语之间的亲和度来识别相关词语的群集。 在这些实施方式中,群集的词语彼此高度相关,但是与群集以外的词语不高度相关。在一个 实施方式中,如果词语充分相关,则可以认为它们高度相关。如果词语满足一个或更多个亲 和度标准(例如,阈值),则词语充分相关,下面提供了其实施例。

[0069] 可以使用任何合适的亲和度来识别群集。在具体实施方式中,聚类模块31使用有 向亲和度。一词语相对于其他词语的有向亲和度表征了词语的共现。群集包括具有类似共 现的词语。在具体实施方式中,聚类模块31使用差分亲和度。差分亲和度旨在去除词语在 页50中出现的一般趋势所导致的偏差。

[0070] 在所示的实施方式中,聚类模块31包括聚类引擎210和聚类分析器214。聚类引 擎210根据亲和度来识别词语的群集,并且群集分析器214应用亲和度聚类以分析各种情 形。

[0071] 聚类引擎210可以根据亲和度以任何合适的方式来识别词语的群集。提出了用于 识别群集的方法的三种实施例:根据词语集构建群集、将词语分类成群集,以及比较词语的 亲和度矢量。在一个实施方式中,聚类引擎210根据词语集构建群集。在一个实施例中,聚 类引擎210根据具有亲和度*Aff(Wi,Wj)的词语{Wi}的集W建立群集S。亲和度值*Aff9Wi, Wj)代表词语力相对于w』的任意合适类型的亲和度,诸如有向亲和度DAffinity(wi,Wj)或 差分亲和度DiffAff(Wi,Wj)。这里提供的亲和度值的某些实施例可以被认为是归一化值。 在该实施例中,AfffOT(Wi,Wj)代表前向亲和度,且Affbadt(Wj,Wi)代表后向亲和度。

[0072] 在本实施例中,群集S以词根Wq开始。当前词语《 !£表示在当前迭代处群集S的正 与来自集合W的词语比较的词语。最初,将当前词语wx设置为词根wq。

[0073] 在迭代期间,当前词语wx被设置为群集S的词语。根据它们与当前词语^的前向 亲和度AfTf^XwpWx)来对集合W的词语&进行分类。从分类集合W的起点开始,识别满足 亲和度标准的候选词语《。。亲和度标准可以包括对于当前词语wx的前向亲和度标准:

[0074]Afffor(wc,wx) > Thcf

[0075] 和对于词根wq的后向亲和度标准:

[0076]Affback(wq,wc) > Thcb

[0077] 其中,1\彦示用于候选词语的前向阈值,而Theb表示用于候选词语的后向阈值。 候选词语0〇的有序集合的第一词语被添加到群集S,添加的词语的数量由参数Size。给 出。阈值ThjPIKb可以是具有从最小值到最大值的任何合适值的浮点参数。在特定实施 例中,可以根据实际亲和度的级别有序列表来确定1\ {和Th&的合适值。例如,可以使用列 表中第200个值。参数Size。可以是具有任何合适值的整数参数。合适值的实施例包括默 认值1、2、3或4。在具体实施方式中,这些参数在具体迭代中可以不同。

[0078] 可以执行任何合适数量的迭代。在一个实施例中,可以在开始执行该方法之前指 定迭代数量。在另一实施例中,可以在方法执行期间计算该数量。例如,可以根据群集S的 大小的增长率来计算该数量。

[0079] 在另一实施方式中,聚类引擎210通过将词语集的词语分类成群集来识别群集。 在一个实施例中,根据亲和度*Aff(Wi,Wj)(例如,差分亲和度或有向亲和度)来对集合W的 词语(Wi)进行分类。在另一实施例中,根据词语Wi与不同词语集Q的各成员的亲和度的累 积函数(例如,求和)来分类词语(w、可以以任何合适方式选择集合W。例如,集合W可 以是与查询最相关的X个词语,其中X可以具有任何合适值(例如,从10到100、100到200 或者等于或大于200的值)。

[0080] 在本实施例中,群集初始为空。来自集合W的第一词语^被放置在群集中。在每 次迭代中,从集合W选择当前词语wx。如果*Aff(wx,wf)满足亲和度阈值Th给出的亲和度 标准,则当前词语^被放置在群集中,其中w,表示该群集中放置的第一词语。阈值Th可以 具有任何合适值(〇. 1至〇. 5范围的值(最小值为0. 0和最大值为1. 0))。如果*Aff(wx, wf)不满足阈值Th,则当前词语wx被放置在空群集中。针对集合W的各词语重复这些迭代。

[0081] 在处理了集合W的词语之后,可以消除小群集。例如,可以消除具有少于Y个词语 的群集。Y可以是任何合适值(例如范围在3到5、5到10、10到25、25到50或者大于等于 50的范围中的值)。

[0082] 如果群集的数量不在令人满意的范围内,则可以利用针对群集布置生成更严格或 更宽松的标准的不同阈值Th来重复该处理。可以通过具有任何合适值的群集数量最小值 和群集数量最大值给出令人满意的范围。合适值的实施例包括最小值在1到5、5到10或 者10或大于或等于10范围的值,以及最大值在10到15、15到20或者20或大于或等于20 的范围中的值。可以增加阈值Th的值,以增加群集的数量,并且可以减小阈值Th的值以减 小群集的数量。

[0083] 在另一实施方式中,聚类引擎210通过比较词语的亲和度矢量来识别群集。在具 体实施方式中,亲和度矩阵的行和列可以产生亲和度矢量〈Wp*Aff(Wpwj,. ..,*Aff(Wp Wj),. . .,*Aff(Wi,wn)>,该亲和度矢量表示词语r相对于词语wj(j= 1,…,n)的亲和度。 亲和度值*Aff(WpWj)表示词语r相对于词语w』的任何合适类型的亲和度(例如,有向亲 和度或差分亲和度)。

[0084] 在具体实施方式中,具有类似亲和度值的亲和度矢量可以表示一个群集。仅出于 描述性目的,可以将亲和度矢量看作是亲和度空间中的词语的亲和度的坐标。即,每个亲和 度值*Aff(Wi,Wj)可以被认为是针对具体维的坐标。具有类似亲和度值的亲和度矢量表示 与这些矢量相关联的词语在亲和度空间中彼此接近。即,这些矢量指示这些词语具有与其 他词语类似的亲和度关系,并因此可以适于同一群集中的成员关系。

[0085] 如果一个亲和度矢量近似于由合适距离函数确定的另一亲和度矢量,则这些亲和 度矢量类似。可以通过亲和度矢量上例如将该距离函数定义为针对给定大小的矢量的标准 欧几里得距离,或者定义为给定大小的矢量的余弦。该距离函数还可以通过聚类引擎210 或者由用户指定。

[0086] 在具体实施方式中,聚类引擎210应用聚类算法来识别具有彼此近似的值的 亲和度矢量。聚类算法的实施例包括直接、重复二等分(repeatedbisection)、聚合 (agglomerative)、偏置聚合、和/或其它合适算法。在一个实施例中,聚类引擎210可以包 括诸如CLUT0的聚类软件。

[0087] 群集分析器214可以在任何合适的应用中使用亲和度聚类来进行分析。在一个实 施方式中,群集分析器214可以使用亲和度聚类来归类页面50。类别可以与群集识别符或 者群集的一个或更多个成员相关联。在一个实施例中,页面50的群集可以被识别,并且接 着可以根据该群集对页面50进行归类。在另一实施例中,可以选择页面50的重要词语,并 接着对包括这些词语的群集进行定位。然后可以根据定位后的群集对页面50归类。

[0088] 在一个实施方式中,群集分析器214可以使用亲和度聚类来分析页面50的语料 库。语料库可以与具体主题、一个或更多个个体的集合(community)、组织或其他实体相关 联。在一个实施例中,群集分析器214可以识别语料库的群集,并根据该群集确定语料库的 语料库字符。语料库字符可以指示与和该语料库相关联的实体相关的词语。如果一个或更 多个页面50具有语料库字符的群集,则页面50与该实体相关。

[0089] 在一个实施方式中,群集分析器214可以使用亲和度聚类来搜索查询歧义消除和 查询扩展。在本实施方式中,群集分析器214识别包括给定搜索查询的搜索词条的群集。群 集提供与给定搜索查询相关的可替换词语和/或类别。在一个实施例中,来自群集的词语 可以被报告给搜索者,以帮助下一搜索查询。在另一实施例中,群集分析器214可以从群集 中选择词语,并自动形成一个或更多个新的搜索查询。群集分析器214可以串行或并行运 行新的查询。

[0090] 在一个实施方式中,群集分析器214可以使用亲和度聚类来研宄社会网络。在一 个实施例中,页面50可以提供对社会网络的深刻见解。这些页面的实施例包括信件(例如 信件、电子邮件以及即时消息)、便笺、文章以及会议记录。这些页面50可以包括含有社会 网络的人员的用户识别符(例如,姓名)的词语。可以识别姓名的群集,以分析网络的人员 之间的关系。在一个实施例中,差分亲和度聚类可用于过滤大多数页50中的出现的名字, 而不提供诸如系统管理员的名字之类的信息。

[0091] 在具体实施方式中,群集分析器214可以通过组合和/或比较数据集的群集来分 析数据集。在一个实施方式中,对重叠的数据集的群集进行比较。来自一个数据集的群集可 以被映射到另一数据集的群集上,这样可以提供对这些数据集之间的关系的深刻见解。例 如,该数据集可以来自对同事组的文档的分析和来自对该组的社会网络研宄。可以将社会 网络群集映射至文档主题群集,来分析社会网络与该主题之间的关系。

[0092] 图8例示了本体特征模块32的一个实施方式。本体特征模块32可以确定一个或 更多个词语(例如,具体词语或包括词语的文档)的集合的一个或更多个本体特征,并且接 着可以在任何不同情形中应用该本体特征。一个或更多个词语的集合可以包括文档的必要 词条。如果与词条t相关的前k个词条中的至少一个也呈现在该文档中,则词条t可以是 必要词条。否则,该词条对于该文档可能不是必不可少的。

[0093] 本体特征是沿一个或更多个特征轴表征文档的可量化测量,所述特征轴可以在给 定区域中从语义上对该文档与其他文档进行区分。例如,文档的深度可以针对它的可理解 性来区分文档、文档的专度可以针对它的关注点来区分文档,而文档的主题可以针对其关 注的话题范围来区分文档。可以以任何合适方式定义本体特征。例如,计算机语言中的独 立算法可以被用来表征文档的可读性或深度。

[0094] 在所示的实施方式中,本体特征模块32包括深度引擎230、主题引擎240、专度引 擎244以及本体特征(OF:ontologyfeature)应用引擎250。深度引擎230可以确定一个 或更多个词语(例如,具体词语或包括词语的文档)的深度。一般来说,深度可以指示词语 的文本复杂性。越深的词语可以是更加技术化的并且更专业的,而越浅的词语可以是更通 用的。在具体实施方式中,深度模块32可以计算文档的词语的深度,并接着根据词语的深 度来计算文档的深度。在具体实施方式中,深度引擎230可以为文档和/或词语指配深度 值和/或深度级别。越深的文档或词语可以被指配越高的深度值或级别,而越浅的文档或 词语可以被指配越低的深度值或级别。

[0095] 深度引擎230可以以任何合适的方式计算词语深度。在具体实施方式中,深度引 擎230根据平均亲和度来计算词语深度。在这些实施方式中,词语的深度是词语的平均亲 和度的函数。较深的词语可以具有较低的平均亲和度,而较浅的词语可以具有较高的平均 亲和度。在具体实施例中,深度引擎230可以通过根据它们的平均亲和度对词语进行排位 来计算词语的深度。对具有较低平均亲和度的词语给予较高的深度级别,而对具有较高平 均亲和度的词语给予越低的深度级别。

[0096] 在具体实施方式中,深度引擎230可以使用聚类分析来计算词语深度。在这些实 施方式中,群集的词语相互高度相关,而与群集以外的词语较低相关。可以根据能够作为深 度指示符的亲和度来测量群集空间中的距离。在具体实施方式中,属于较少数群集或者属 于较小群集和/或离其他群集较远的群集的词语可以被认为较深,而属于较多数群集或者 属于较大群集和/或离其他群集较近的群集的词语被认为较浅。

[0097] 在其他具体实施方式中,深度引擎230可以通过向亲和度图150应用链路分析来 计算词语深度。可以通过任何合适的链路分析算法(例如,PAGERANK)来执行该链路分析。 仅出于描述性目的,图6的亲和度图150可以被用来计算词语深度。亲和度图150包括节 点154和链路158。节点154表示词语。节点154之间的链路158指示由节点154表示的 词语之间的亲和度高于亲和度阈值,即,这些词语令人满意地相关。

[0098] 在具体实施方式中,深度引擎230计算节点154的通用性。较通用的节点154可 以表示较浅的词语,而较不通用的节点154可以表示较深的词语。从第一节点154到第二 节点154的链路136被认为第一节点154对第二节点154的通用性选票。另外,来自较通 用节点154的选票(vote)可以具有比来自较不通用节点154的选票更大的权重。此外,第 一节点154与第二节点154的亲和度加权了该选票。深度引擎230根据节点154的加权后 的选票来计算节点154的通用性。较不通用的词语被认为较深词语,而较通用的词语可以 被认为较浅词语。

[0099] 深度引擎230可以以任何合适方式来计算文档深度。在具体实施方式中,深度引 擎230根据文档中的至少一个、一些或所有词语的深度来计算文档的深度。在具体实施方 式中,词语深度根据平均亲和度给出,因此可以根据文档的词语的平均亲和度来计算文档 深度。例如,文档的浅度可以是文档的词语的平均亲和度的平均值(即,文档中各词语的平 均亲和度的和除以用文档中的词语的总数)。接着,文档的深度可以被计算为文档的浅度的 倒数。

[0100] 在具体实施方式中,可以根据文档的所选词语集的平均深度来计算深度。所选的 集合可以包括文档必要词语(例如,前(最深)X%的词语,其中X可以小于10、10到20、20 到30、30到40、40到50、50到60、60到70,或者大于10)。所选的集合可以排除P%的标准 语法词语和/或Q%的停顿词(stopword),其中P和Q具有任何合适值(例如小于10、10 到 20、20 到 30、30 到 40、40 到 50、50 到 60、60 到 70,或者大于 10)。

[0101] 在具体实施方式中,深度引擎230根据文档中词语深度的分布来计算文档的深 度。在具体实施方式中,较深的文档可以具有较高百分比的较深词语。

[0102] 在具体实施方式中,深度引擎230根据文档亲和度来计算文档的深度。文档之间 的亲和度描述文档之间的关系。在具体实施方式中,平均文档亲和度可以以类似于平均词 语亲和度怎样指示词语深度的方式来指示文档深度。可以以任何合适方式来定义文档亲和 度。在一个实施例中,通用词语的数量p(d1&d2)指示既存在于文档〇1中又存在于文档〇2中 的词语的数量,而分立词语数量POi+Dj指示存在于文档0:或02中词语的数量。文档Di 和D2之间的文档亲和度DocAff可以被定义为:

[0103]DocAff仇,D2) =P(Di&D2)/P(Di+D2)

[0104] 深度引擎230可以以与计算平均词语亲和度类似的方式来计算平均文档亲和度。 具有较低平均亲和度的文档被认为较深,而具有较高平均亲和度的文档被认为较浅。

[0105] 在具体实施方式中,深度引擎230可以通过向文档亲和度图应用链路分析来计算 文档深度。除文档亲和度图的节点表示文档而不是词语之外,文档亲和度图可以与亲和度 图150类似。深度引擎230使用第二文档相对于给定的第一文档的文档亲和度来加权从代 表第一文档的节点到代表第二文档的第二节点的链路。接着,可以对外发链路(outgoing link)的权重进行归一化。

[0106] 在具体实施方式中,深度图可以被显示在用户接口上以示出文档的深度。也可以 显示可以用来选择深度级别的深度滑块。在具体实施方式中,如果文档包括多个部分的较 大文档,则深度图可以指示各部分的深度。

[0107] 在具体实施方式中,深度引擎230可以以任何其他合适方式来计算文档深度(例 如,处理文档的亲和度直方图,和/或基于深度截取不同词语的百分比,接着处理直方图)。 其他方法包括Gunning-Fog、Flesch或Fry方法。

[0108] 在具体实施方式中,深度引擎230可以通过将深度值映射到具体深度级别来计算 深度。在具体实施方式中,范围氏中的深度值可以被映射到级别Lp例如,&={ivrcj 可以被映射到级别1。、!^={r1:cQ<r:<cJ可以被映射到级别Lp...,以及Rn={rn:cn <rn}可以被映射到级别Ln。该范围可以包括任何合适深度值并且不需要具有相同大小。 可以存在任何合适数量的级别(例如小于5、5到7、7或8、8到10、10到20、20到50、50到 100,等于或大于100)。

[0109] 主题引擎240可以确定文档的主题(或话题)。在具体实施方式中,主题引擎240 根据由聚类模块31识别的、文档中词语的群集来确定主题。如上面所讨论的,词语的群集 可以指定词语集的主题(或话题)。文档的主题可以提供关于文档的内容的有用信息。例 如,包括群集{肾脏的(renal)、肾(kidney)、蛋白质、问题}的文档可能关于由于肾功能衰 退而导致的蛋白质流失,而不是芸豆的蛋白质含量。

[0110] 在具体实施方式中,主题引擎240根据主题映射来确定主题。在这些实施方式 中,使用任何合适技术(例如,词条频率-逆文档频率(TF_IDF:termfrequency-inverse documentfrequency)技术)从文档中提取关键词。关键词被用来从主题映射中选择候选 主题。候选主题与文档进行比较,以确定该主题多大程度上与文档匹配。在具体实施例中, 候选主题的直方图可以与文档的直方图进行比较。如果候选主题与文档匹配,则这些主题 可以提供文档的主题的类型估计和数量估计。

[0111] 专度引擎240可以计算文档的专度。在具体实施方式中,专度引擎240可以对文 档指配专度值和/或专度级别。较专属的文档可以被指配较高的专度值或级别,而较不专 属的文档可以被指配较低的专度值或级别。

[0112] 在具体实施方式中,专度引擎240根据文档的主题数量来计算专度。在具体实施 例中,较专属的文档可以具有较少的主题,而较不专属的文档可以具有较多主题。在具体实 施方式中,专度引擎240根据文档的主题数量和这些主题之间的亲和度来计算专度。在具 体实施例中,较专属的文档可以具有较少的主题,且这些主题之间具有较高的亲和度,而较 不专属的文档可以具有较多的主题,且这些主题之间具有较低的亲和度。

[0113] 在具体实施方式中,主题数量可以取决于深度(或级别)。例如,较浅深度处的单 个主题可以表示较大深度处的多个主题。在具体实施方式中,可以通过用户使用深度滑块 来选择深度,或者深度可以是预先确定的。在具体实施方式中,级别可以由用户选择或者可 以被预先确定。例如,可以定义任何合适数量的级别,并且可以根据该级别计算深度。例如, 级别可以是基于领域(例如,工程、医学、新闻、体育或金融领域)、基于专业(例如,心病学、 眼科学或肾脏专业)、基于课题(例如,高血压、胆固醇、搭桥手术或动脉阻断题目)、基于细 节(例如,体位性低血压、慢性高血压或急性高血压细节)、基于消退(resolution)(例如, 老年病因、药学、或遗传消退)、基于个人的(例如,用户查询级别)。

[0114] 本体特征应用引擎250可以应用本体特征(例如深度、主题或专度),来在任何合 适情形中执行本体特征分析。合适的情形的实施例包括:根据本体特征来搜索、分类、推荐 或选择文档;报告文档的本体特征;以及确定一个或更多个用户的文档(或文档集)的本 体特征。在具体实施方式中,本体特征应用引擎250可以使用包括关于本体特征的信息的 索引。在一个实施例中,本体特征应用引擎250使用根据深度级别生成和/或维护的文档 深度(X>Ddocumentdepth)反向索引62。DD反向索引62包括DD反向索引列表,其中词语 的DD反向索引列表列出了包括该词语的文档(或页面50)的文档识别符。文档的文档识 别符可以指示文档的深度。例如,用来编码文档识别符的二进制编码可以指示深度。在一 些情况下,DD反向索引列表可以仅列出具有令人满意的深度的文档。在另一实施例中,除 反向索引62之外,本体特征应用引擎250还使用级别表和深度表。该深度表可以指示文档 的深度。

[0115] 在具体实施方式中,本体特征应用引擎250搜索具有本体特征的指定值(例如,文 档深度或专度的指定值)的文档。该指定值可以由用户预先确定、计算或者选择。在具体 实施方式中,可以使用深度滑块和/或专度滑块来选择这些值。

[0116] 在具体实施方式中,本体特征应用引擎250可以将本体特征用作分类标准来分类 文档。例如,本体特征应用引擎250可以针对主题以及其它分类标准根据文档深度和/或 专度来分类文档。在具体实施例中,本体特征应用引擎250搜索DD反向索引62以获得根 据文档深度分类的文档。在一些实施例中,本体特征应用引擎250使用非DD反向索引62 来搜索文档,并接着根据深度对这些文档分类。

[0117] 在具体实施方式中,本体特征应用引擎250可以向客户端20以图形方式显示本体 特征的值。可以为一些或所有文档(例如,为来自搜索结果的前X%的文档)提供图形显 示。该本体特征值可以以任何合适方式呈现。在一些实施例中,图形指示符(例如,数量、词 语或图标)可以指示该值。例如,图形指示符例如可以靠近搜索结果列表中的项、在线新闻 的标题或文档图标放置。在某些实施例中,现有的插图(iconograph)的变更可以表示值。 例如,图形指示符或文本的大小、字体、类型、颜色可以指示值。在另一实施例中,图表可以 指示值。本体特征直方图可以包括文档数量轴和本体特征轴,且可以指示特定本体特征值 的文档数量。例如,包括文档数量轴和文档深度轴的文档深度直方图可以指示特定文档深 度的文档数量。

[0118] 在具体实施方式中,文档特征应用引擎250可以允许用户请求搜索具有特定本体 特征值的文档。可以允许用户指定用于查询的不同词语的值。在特定实施例中,本体特征 应用引擎250可以为用户提供选项以选择深度,用户然后可以输入所选的深度。这些选项 可以以任意合适的方式呈现,诸如以:(i)绝对词条(例如,代表深度的数值或数值范围); (ii)相对词条(例如,搜索结果相对于深度的比例,诸如,"最深的X%")语义学词 条(例如,'介绍性的'、'浅'、'深'、'很深'和/或'高度专业');(iv)图形词条(例如,滑 块、按钮和/或其他图形元素)或(v)词条的任意合适的组合(例如具有语义学标签的滑 块)。在某些情况下,滑块可以包括浅端和深端。用户可以移动滑动器朝向一端或另一端以 指示所选的深度。当提供搜索结果时,文档深度直方图可以通过滑块呈现,且可以使用滑动 器作为文档深度轴。

[0119] 在具体实施方式中,本体特征应用引擎250可以计算一个或更多个用户的集合的 本体特征字符。本体特征字符可以包括主题上下文中的用户深度和用户专度。本体特征字 符描述了文档的与用户集相关联的本体特征。例如,科学家可以使用比三年级学生更深的 文档。可以针对一个或更多个主题给出本体特征字符。例如,遗传学家可以在遗传学领域 中使用比他在诗歌领域中使用的文档更深的文档。本体特征字符可以被用来确定用户的专 长、为用户自动构建简历,以及分析用户的社会网络。

[0120] 可以分析与用户相关联的任何合适的文档,以估计本体特征字符(例如,信件(例 如,电子邮件和即时消息)、网页、以及搜索历史(例如搜索查询和选择的页面))。在具体 实施方式中,本体特征应用引擎250可以随着时间跟踪本体特征字符,并且可以使用过去 的字符来预测未来的字符。在具体实施例中,本体特征应用引擎250可以假设用户深度和 /或专度总体上随时间和/或区域中的活动而增加。

[0121] 在具体实施方式中,本体特征应用引擎250可以组合某些操作。例如,本体特征应 用引擎250可以监视用户的深度,并且接着根据该用户深度来搜索文档。在一个实施例中, 监视用户深度,并且接着根据该深度向用户提供新闻。预测未来的用户深度,并且提供适合 预测的用户深度的新闻。

[0122] 图9例示了可以选择标签来标记文档的标记模块35的一个实施方式。可以以任 何合适的方式来选择标签。在具体实施方式中,标记模块35将话题(或主题)建模为话题 的相关词语的统计分布。标记模块35使用统计分布来识别文档的高排位的词语中具有最 高出现概率的话题,并且根据识别出的话题来选择文档的标签。在所示的实施方式中,标记 模块35包括话题建模器310和文档标记器314。在具体实施方式中,话题建模器310生成 建模话题的统计分布,而文档标记器314基于该统计分布来选择标签。话题建模器310和 文档标记器314可以利用任何合适方法来建模话题和选择标签。参照图10来描述方法的 实施例。

[0123] 在其他实施方式中,标记模块35通过分析文档的段落来指配标签。在这些实施方 式中,标记模块35识别文档的段落的候选标签。标记模块35确定候选标签与文档的其他 候选标签的关联性,并根据该关联性来选择该文档的标签。参照图11对通过分析文档的段 落来指配标签的方法的实施例进行更详细地说明。

[0124] 在再一实施方式中,标记模块35可以基于由用户或计算机选择的推荐标签来指 配标签。在这些实施方式中,标记模块35推荐文档的标签。推荐词条可以与目标标签具有 较高的亲和度,而彼此之间具有较低的亲和度,以减小文档的本体空间。标记模块35可以 响应于选择的标签来连续推荐标签。一旦已经选择了最终标签,标记模块35就可以对文档 指配所选择的标签。参照图12对用于指配标签的方法的实施例进行更详细地说明。

[0125] 图10例示了用于根据话题的统计分布来指配标签的方法的实施例。可以根据词 语的总体来生成统计分布。可以使用任何合适的总体(例如语言或语料库(例如,因特网) 的词语)。相对于其他词语,与话题相称的词语可能具有相对较高的出现概率。例如,对于 话题"自行车",相对于"砖块"、"桶"以及"披萨"等词语的出现概率来说,"轮胎"、"链条"、 以及"骑乘"等词语可以具有相对更高的出现概率。

[0126] 在步骤410处开始该方法,其中使用任何合适的排位技术来为语料库的文档的词 条进行排位。在排位技术的一个实施例中,根据频率(例如词条频率或者词语频率-逆文 档频率(TF-IDF))对词条进行排位。较高的频率可以产生较高的级别。在排位技术的另 一实施例中,根据在以上随机机会中与其他词条共现的词条的标准差数量来对词条进行排 位。较高的标准差数量可以产生较高的级别。

[0127] 在步骤414,将一个或更多个高排位的词条选作文档的关键词。在一些实施例中, 可以使用排位的前N项,其中N可以是1到5、5到10或者大于等于10的值。在其他实施 例中,可以使用具有高于文档的平均级别的预定距离(例如,一个标准差)的词条。

[0128] 在步骤418,根据它们的关键词来对文档进行聚类,其中各群集与关键词相关联。 针对群集定义的关键词是该群集的话题。如果文档具有N个关键词,则将在N个群集中呈 现该文档。在步骤422移除小群集。小群集可以是未满足大小阈值的群集(例如,表现为 低于M个文档的群集,其中M可以是在范围0到50、50到100,或者大于等于200的值)。 在一些实施例中,可以根据语料库的大小来计算M。例如,M可以是在范围0%到3%、3%到 5%或者大于等于5%的值。

[0129] 在步骤426收集群集的统计,并在步骤428根据该统计来生成群集的统计分布。可 以收集任何合适的统计来生成任何合适的统计分布(例如频率分布和/或概率分布)。在 具体实施例中,针对群集的各词语计算指示群集中的词语频率的词条频率。可以根据群集 中词语出现的数量或者根据在包括该词语的群集中文档的数量来计算词条频率。根据该词 条频率来生成词条分布。在其他实施例中,针对各其他群集计算指示群集的话题与另一群 集的话题的共现的共现值。根据该共现值来生成共现分布。如果在步骤430存在下一群集, 则方法返回到步骤426来收集下一群集的统计。如果在步骤430不存在下一群集,则方法 前进到步骤434。

[0130] 在步骤434处合并具有类似统计分布的群集。可以对统计分布进行比较,并且类 似的统计分布可以被合并入单个频率分布。例如,话题"轿车"和"汽车"的群集可以具有类 似统计分布,因此将它们合并到单个群集。如果分布之间的差异小于差异阈值(difference threshold),则可以认为统计分布是类似的。差异阈值可以具有任何合适值(例如,在小于 或等于1%、5%到10%或者大于等于10%的范围中的值)。较大群集的话题可以被选作合 并后的群集的话题。

[0131] 在步骤438,基于产生的群集将话题重新指配为文档的标签。因为一些群集已经被 合并,而其他群集已经被移除,所以指配给文档的话题可能改变。重新指配的话题可以用作 文档的信息量更大、重复性更少的标签。接着该方法结束。可以在更新语料库的文档时执 行该方法。

[0132] 在步骤442,向文档指配标签。文档标记器314可以根据统计分布以任何合适方式 为文档指配标签。在一些实施例中,文档标记器314可以根据在步骤438处执行的话题的 重新指配来为语料库中的文档指配标签。

[0133] 在其他实施例中,文档标记器314可以为语料库中非必要的文档指配标签。可以 使用统计分布来识别文档的所选词语中具有较高的出现概率的话题,并且识别的话题可以 被选作标签。在这些实施例中,文档标记器314根据任何合适的排位技术(例如上面所讨 论的技术)来对文档的词语排位。从最高排位的词语开始,文档标记器314根据话题的统 计分布来确定该词语对于各话题的频率。文档标记器314接着可以从词语最频繁出现的话 题到词语最少出现的话题对话题进行排位。可以生成该词语针对这些话题的统计分布。

[0134] 在这些实施例中,文档标记器314接着可以针对文档的一个或更多个其他高排位 的词语以类似方式生成统计分布。在具体实施例中,可以例如等同地或者根据词语的级别 来对词语的统计分布进行加权。例如,较高排位的的词语可以具有包括较高权重的统计分 布。统计分布可以被合并,以产生合并的统计分布。在具体实施方式中,可以对加权后的统 计分布求和。例如,对与具体话题相关联的值求和以产生一值,该值表示该话题在文档的给 定高排位的词语中的可能性。文档标记器314可以将一个或更多个可能的话题指配为文档 的标签。

[0135] 图11例示了用于通过分析文档的段落来为文档指配标签的方法的实施例。该方 法可以用于包括微观点(micro-idea)、观点以及学说(hypothesis)的文档。在具体实施方 式中,微观点包括独立、完整的表达单元。一个或更多个相关微观点可以形成观点。一个或 更多个相关观点可以形成学说。在具体实施例中,语句表达微观点、段落表达观点,而一系 列相关段落表达学说。在这些实施例中,段落是相关的,所以段落的核心词条可以具有相对 高的有向亲和度。多个核心词条的一些交集可以被用作标签。

[0136] 在步骤506开始该方法,其中文档的段落?^皮识别为用于分析的文本单元。段落 可以指以任何合适方式(例如,通过固定数量或可变数量的词语、通过段落标志或通过群 集)指定的字符、词语和/或语句的任何合适集合。段落可以被定义为例如包括足够数量 的足够复杂的词语。

[0137] 在步骤510选择段落Pp在步骤514处,针对段落?1建立标签tk的候选标签集Si=〈tpty. . .,tm>。在具体实施方式中,更高排位的的词语可以被选作候选标签。(可以根 据任何合适的排位技术对词语排位。)在具体实施方式中,可以根据期望产生的候选标签的 数量来选择候选标签的初始数量。例如,如果期望产生的数量为k,则初始数量可以为c*k, 其中C> 1。参数C可以具有任何合适值(例如,C= 2、3、4或5)。最高排位的的候选标 签可以被选作用于集合Si的根r^

[0138] 在步骤518,根据任何合适的关联性技术来确定候选标签彼此间的关联性。一般来 说,可以以任何合适方式(例如,使用任何合适亲和度)来测量关联性。例如,与目标标签 更相关的标签可以被认为更相关标签,而与目标标签较少相关的标签可以被认为较不相关 标签。在具体实施方式中,可以(例如,使用有向亲和度和/或差分亲和度)对标签进行聚 类,从而认为群集的标签是相关的。

[0139] 在步骤520为候选标签指配偏好权重。可以根据任何合适排位技术来指配偏好权 重。例如,较大的偏好权重可以被赋予在段落中具有较高频率和/或在文档中具有较大平 均亲和度的倒数的候选标签。在步骤524,从候选标签集中移除与其他候选标签不充分相关 的候选标签。任何合适关联性阈值都可以指明标签是否与其他标签充分相关。在步骤530, 询问是否存在下一段落。如果存在下一段落,则方法返回到步骤510以选择下一段落。如 果不存在下一段落,则方法前进到步骤534。

[0140] 在步骤534,确定不同段落的候选标签集的关联性。可以根据任何合适关联性技术 来确定关联性。在具体实施方式中,与段内分析的情况类似,可以对候选标签进行聚类,并 且可以认为群集中的候选标签充分相关。在其他实施方式中,可以针对各候选标签生成互 相关概况(profile)。互相关概况指示候选标签与其他候选标签(例如,其他候选标签集的 标签)的互关联性。较大的互关联性代表了较大关联性。

[0141] 可以以任何合适方式计算互相关概况。在一些实施例中,根据包括候选标签的候 选标签集的数量生成候选标签的互相关概况,并且候选标签的互相关概况可以考虑候选标 签集中的候选标签的频率。在较多具有较高频率的候选标签集中出现的候选标签可以具有 车父尚互关联性。

[0142] 在其他实施例中,可以根据根和根rj的有向亲和度来确定集合Si(具有根rj相对于其它集合3」(具有根1_)的候选标签的互相关概况。在这些实施例中,可以通过将候 选标签的偏好权重与集合h上的根rq的有向亲和度相乘来计算集合S,和具体集合S」 的候选标签的互关联值。可以通过合并(例如,求和)具体集合的互关联值来计算候选标 签与集合㊀」的互关联性。

[0143] 在再一实施例中,可以根据单独标签1^和tj的有向亲和度来确定集合Si的候选 标签^相对于其他集合3」(具有标签tp的互相关概况。在这些实施例中,通过确定集合 Sjl的标签ti-t」的有向亲和度并对这些有向亲和度求和来计算集合Si和具体集合S」的 候选标签的互关联值。可以通过合并具体集合的互关联值来计算候选标签和集合Sj的互 关联性。

[0144] 在步骤538,从候选标签中选择标签。在具体实施方式中,选择与其他候选标签最 高度相关的候选标签。在一些实施例中,可以选择群集的高排位的候选标签。在其他实施例 中,可以根据互相关概况来选择具有最高互关联性的候选标签。选择的标签的数量k可以 是预定常数,或者可以是根据查询词条的深度确定的值。例如,对于具有较深词条的查询, 可以使用更小或更大的k。随后该方法结束。

[0145]图12例示了用于响应于选择的标签指配标签的方法的实施例。该方法在步骤450 处的初始阶段启动。在初始阶段,文档标记器314接收初始标签作为文档的目标标签。初 始标签可以来自任何合适源。例如,可以通过用户或逻辑(例如,计算机)输入初始标签。 逻辑可以输入从文档的分析产生的标签、与用户相关联的其他文档,或者针对文档选择的 其他标签。文档标记器314可以记录标签的源。

[0146]在具体实施方式中,文档标记器314可以在客户端20处启动图形用户接口的初始 显示,该图形用户接口允许用户与文档标记器314交互。在一些实施例中,接口可以允许用 户请求添加或删除标签。在其他实施例中,接口可以包括图形要素,该图形要素允许用户对 具体词条指示标签应该具有的期望亲和度。例如,接口可以包括滑块,该滑块可以更靠近词 条移动以指示较高亲和度,或者远离词条移动以指示较低亲和度。

[0147]在步骤454处的候选阶段,文档标记器314响应于输入的标签来推荐词条。可以 选择所推荐的词条以将文档与最小本体空间量相关联。例如,所推荐的词条可以与输入标 签具有较高的亲和度,而彼此间具有较低的亲和度。例如,如果输入标签为"树",则推荐标 签可以为"植物"、"族"或者"计算机科学"。

[0148] 推荐词条可以避免多余指定(overspecification)和不足指定 (underspecification)。该多余指定是由于实质上提供了未提供很多额外信息的本体冗 余标签而引起的。例如,如果文档具有标签"树"和"木材",则添加"森林"就没有提供很多 额外信息。该不足指定是由于提供无法消除文档歧义的标签而引起的。例如,文档的标签 "bank(银行、河堤、台边)"无法指明该文档是涉及金融机构、河流还是台球桌的边沿。

[0149]在步骤458处的测试阶段中,文档标记器314监视(例如,由用户)已选择的推荐 词条和未选择或淘汰的词条。例如,文档标记器314接收"流体",并推荐"可适应的"、"灵 活的"、"液体"、"溶液"以及"融化的"。文档标记器314注意到"液体"和"融化的"被淘汰, 因此文档标记器314没有推荐"溶液"。已选词条被添加到目标标签的集合中。

[0150]在具体实施方式中,文档标记器314可以记录标签的源(例如,用户或逻辑(例如 计算机))。源可以具有任何合适的应用。例如,源可以被用来排位搜索结果。在一个实施 例中,对于具有由用户选择的标签的搜索结果分配比具有由逻辑生成的标签的结果更高的 级别。

[0151]在步骤462的演进阶段,文档标记器314评估推荐词条和选择词条之间的差异,以 推荐新的词条。文档标记器314可以推荐与选择词条具有较高亲和度(例如有向亲和度和 /或差分亲和度)和/或与被淘汰词条具有较低亲和度的词条,并且可以避免推荐与被淘汰 词条具有较高亲和度和/或与选择词条具有较低亲和度的词条。在具体实施方式中,文档 标记器314可以移除一个或更多个本体冗余标签。可以针对任何合适数量的迭代(例如1 到5、6到10或者大于等于10个迭代)来推荐和选择标签。

[0152]在步骤466处的指配阶段,文档标记器314向文档指配一个或更多个标签。在具 体实施方式中,文档标记器314可以响应于测试阶段指配标签,或者独立于测试阶段而指 配一个或更多个初始标签。接着该方法结束。

[0153] 在不脱离本发明的范围的情况下,可以对这些方法进行修改、添加或省略。这些方 法可以包括更多、更少或其他步骤。另外,可以以任何合适顺序来执行这些步骤。

[0154] 在具体实施方式中,这些方法可以被执行以选择搜索词条而不是选择标签。可以 在本文档中包括的说明(具体地说,与用于指配标签的方法相关联的说明)中通过用"搜索 词条"替换"标签"来描述这些实施方式。

[0155] 例如,方法可以在初始阶段启动。在初始阶段,初始搜索词条被接收为搜索的目标 搜索词条。初始搜索词条可以来自例如可以由用户或逻辑(例如计算机)输入的任何合适 源。在候选阶段,可以响应于输入的搜索词条来推荐词条。推荐词条可以被选择以将搜索 与最小本体空间量相关联。在测试阶段,可以监视(例如由用户)已选择的推荐词条和未 被选择或被淘汰的词条。在演进阶段,可以评估推荐词条和选择词条之间的差异,以推荐新 的词条。可以针对任何合适数量的迭代(例如1到5、6到10或者大于等于10个迭代)来 推荐和选择搜索词条。可以响应于已选择的搜索词条来选择搜索词条。

[0156] 在不脱离本发明的范围的情况下,可以对这些方法进行修改、添加或省略。这些方 法可以包括更多、更少或其他步骤。另外,可以按任何合适顺序来执行这些步骤。

[0157] 本发明的具体实施方式可以提供一个或更多个技术优点。一个实施方式的技术优 点可以是:通过分析文档的段落来为文档指配标签。向用户推荐可以减少文档的本体空间 的标签。用户可以从推荐的标签中选择标签,并且基于这些选择来推荐更多个标签。标签 可以被指配给不包括文本的文档以及包括文本的文档。

[0158] 尽管根据具体实施方式对该公开进行了说明,但本领域技术人员应当清楚这些实 施方式的改变例和置换例。因此,这些实施方式的上述描述不对本公开构成限制。在不脱 离如下列权利要求所限定的本公开的精神和范围的情况下,可以对本发明进行其它改变、 代替以及变更。

Claims (14)

1. 一种用于选择词条的方法,该方法包括以下步骤: 访问存储在一个或更多个有形介质中的文档; 接收所述文档的目标标签集; 识别多个词条,由于所识别的词条与目标标签具有较高亲和度而与其他所识别的词条 具有较低亲和度,因此每个识别词条被选择以缩小所述文档的本体空间; 经由计算机的用户接口向所述计算机的用户发送所识别的所述多个词条以推荐所识 别的所述多个词条作为标签; 接收所述用户对所识别的所述多个词条中的一个或更多个词条的选择; 确定所识别的所述多个词条中的未被所述用户选择的一个或更多个所识别的词条;以 及 确定与所述未被所述用户选择的一个或更多个所识别的词条具有较低亲和度的多个 后续词条。
2. 根据权利要求1所述的方法,该方法还包括: 将所述被所述用户选择的一个或更多个词条添加到所述目标标签集;并且 其中,确定多个后续词条还包括使用所述目标标签集确定多个后续词条。
3. 根据权利要求1所述的方法,其中,确定多个后续词条包括确定与所述未被所述用 户选择的一个或更多个所识别的词条具有较低亲和度并且与所述被所述用户选择的一个 或更多个词条具有较高亲和度的多个后续词条。
4. 根据权利要求1所述的方法,其中接收所述文档的所述目标标签集还包括: 从由下述源构成的组中选择的源接收所述目标标签集的目标标签: 用户输入;和 计算机分析;以及 记录所述目标标签的源。
5. 根据权利要求1所述的方法,该方法还包括: 建立所述目标标签集的各目标标签的源; 检索多个搜索结果,该搜索结果与目标标签相关联;以及 根据所述目标标签的源对所述搜索结果进行排位。
6. 根据权利要求1所述的方法,该方法还包括: 从所述目标标签集中去除一个或更多个冗余词条。
7. 根据权利要求1所述的方法,该方法还包括根据所述多个词条中的各个词条和所述 目标标签集中的至少一个目标标签之间的亲和度来识别所述多个词条,所述亲和度还包括 从由亲和度、平均亲和度、有向亲和度和差分亲和度所构成的组中选出的一个或更多个亲 和度。
8. -种用于选择词条方法,该方法包括以下步骤: 接收用于搜索的目标搜索词条集; 识别多个词条,由于所识别的词条与目标搜索词条具有较高亲和度而与其他所识别的 词条具有较低亲和度,因此每个识别词条被选择以缩小所述搜索的本体空间; 经由计算机的用户接口向所述计算机的用户发送所识别的所述多个词条以推荐所识 别的所述多个词条作为目标搜索词条; 接收所述用户对所识别的所述多个词条的一个或更多个词条的选择; 确定所识别的所述多个词条中的未被所述用户选择的一个或更多个所识别的词条;以 及 确定与所述未被所述用户选择的一个或更多个所识别的词条具有较低亲和度的多个 后续词条。
9. 根据权利要求8所述的方法,该方法还包括: 将所述被所述用户选择的一个或更多个词条添加到所述目标搜索词条集;并且 其中,确定多个后续词条还包括使用所述目标搜索词条集确定多个后续词条。
10. 根据权利要求8所述的方法,其中,确定多个后续词条包括确定与所述未被所述用 户选择的一个或更多个识别词条具有较低亲和度并且与所述被所述用户选择的一个或更 多个词条具有较高亲和度的多个后续词条。
11. 根据权利要求8所述的方法,所述接收用于搜索的目标搜索词条集的步骤还包括: 从由以下源构成的组中选择的源,接收所述目标搜索词条集的目标搜索词条: 用户输入;和 计算机分析;以及 记录所述目标搜索词条的源。
12. 根据权利要求8所述的方法,该方法还包括: 建立所述目标搜索词条集的各目标搜索词条的源; 检索多个搜索结果,该搜索结果与目标搜索词条相关;以及 根据所述目标搜索词条的源对所述搜索结果进行排位。
13. 根据权利要求8所述的方法,该方法还包括: 从所述目标搜索词条集中去除一个或更多个冗余词条。
14. 根据权利要求8所述的方法,该方法还包括根据所述多个词条中的各个词条和所 述目标搜索词条集中的至少一个目标搜索词条之间的亲和度来识别亲和度来识别所述多 个词条,所述亲和度还包括从由亲和度、平均亲和度、有向亲和度以及差分亲和度所构成的 组中选出的一个或更多个亲和度。
CN 200810166182 2007-10-05 2008-10-06 推荐词条以指定本体空间 CN101408887B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US97793407 true 2007-10-05 2007-10-05
US60/977,934 2007-10-05
US12/243,050 2008-10-01
US12243050 US9081852B2 (en) 2007-10-05 2008-10-01 Recommending terms to specify ontology space

Publications (2)

Publication Number Publication Date
CN101408887A true CN101408887A (zh) 2009-04-15
CN101408887B true CN101408887B (zh) 2015-06-17

Family

ID=40139943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200810166182 CN101408887B (zh) 2007-10-05 2008-10-06 推荐词条以指定本体空间

Country Status (4)

Country Link
US (1) US9081852B2 (zh)
EP (1) EP2045740A1 (zh)
JP (1) JP5391633B2 (zh)
CN (1) CN101408887B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8452725B2 (en) * 2008-09-03 2013-05-28 Hamid Hatami-Hanza System and method of ontological subject mapping for knowledge processing applications
US8606796B2 (en) * 2008-09-15 2013-12-10 Kilac, LLC Method and system for creating a data profile engine, tool creation engines and product interfaces for identifying and analyzing files and sections of files
US20100146010A1 (en) * 2008-12-04 2010-06-10 International Business Machines Corporation Reciprocal tags in social tagging
JP5292336B2 (ja) * 2010-02-19 2013-09-18 日本電信電話株式会社 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム
WO2012042447A3 (en) * 2010-09-30 2012-05-31 Koninklijke Philips Electronics N.V. Medical query refinement system
CN102541921A (zh) * 2010-12-24 2012-07-04 华东师范大学 一种通过扩展标签推荐资源的控制方法及装置
CN102637173B (zh) * 2011-02-10 2015-09-02 北京百度网讯科技有限公司 网络百科内容形成方法、网络服务器和客户端
JP5730413B2 (ja) * 2011-02-25 2015-06-10 エンパイア テクノロジー ディベロップメント エルエルシー オントロジ拡張
CN102768661B (zh) * 2011-05-05 2014-12-17 株式会社理光 从多个网页中抽取对象和网页的方法和设备
US8843497B2 (en) * 2012-02-09 2014-09-23 Linkshare Corporation System and method for association extraction for surf-shopping
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
CN102831185A (zh) * 2012-08-01 2012-12-19 北京百度网讯科技有限公司 一种词条推荐方法及装置
US20140250376A1 (en) * 2013-03-04 2014-09-04 Microsoft Corporation Summarizing and navigating data using counting grids
US9262510B2 (en) 2013-05-10 2016-02-16 International Business Machines Corporation Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
CN103218458B (zh) * 2013-05-13 2016-12-28 百度在线网络技术(北京)有限公司 推荐方法及推荐服务器
CN104252487A (zh) * 2013-06-28 2014-12-31 百度在线网络技术(北京)有限公司 一种用于生成词条信息的方法和装置
US9251136B2 (en) 2013-10-16 2016-02-02 International Business Machines Corporation Document tagging and retrieval using entity specifiers
US9235638B2 (en) 2013-11-12 2016-01-12 International Business Machines Corporation Document retrieval using internal dictionary-hierarchies to adjust per-subject match results
US9444819B2 (en) * 2014-01-16 2016-09-13 International Business Machines Corporation Providing context-based visibility of cloud resources in a multi-tenant environment
US9390196B2 (en) 2014-06-03 2016-07-12 International Business Machines Corporation Adjusting ranges of directed graph ontologies across multiple dimensions
CN104317867B (zh) * 2014-10-17 2018-02-09 上海交通大学 对搜索引擎返回的网页图片进行实体聚类的系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005091825A2 (en) * 2004-03-04 2005-10-06 Yahoo! Inc. Keyword recommendation for internet search engines
WO2007019311A2 (en) * 2005-08-03 2007-02-15 Wink Technologies, Inc. Systems for and methods of finding relevant documents by analyzing tags

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5907836A (en) * 1995-07-31 1999-05-25 Kabushiki Kaisha Toshiba Information filtering apparatus for selecting predetermined article from plural articles to present selected article to user, and method therefore
US6484168B1 (en) * 1996-09-13 2002-11-19 Battelle Memorial Institute System for information discovery
US6023676A (en) * 1996-12-12 2000-02-08 Dspc Israel, Ltd. Keyword recognition system and method
US6038560A (en) * 1997-05-21 2000-03-14 Oracle Corporation Concept knowledge base search and retrieval system
US6175829B1 (en) * 1998-04-22 2001-01-16 Nec Usa, Inc. Method and apparatus for facilitating query reformulation
US6832350B1 (en) * 1998-09-30 2004-12-14 International Business Machines Corporation Organizing and categorizing hypertext document bookmarks by mutual affinity based on predetermined affinity criteria
US6397205B1 (en) * 1998-11-24 2002-05-28 Duquesne University Of The Holy Ghost Document categorization and evaluation via cross-entrophy
US6665681B1 (en) * 1999-04-09 2003-12-16 Entrieva, Inc. System and method for generating a taxonomy from a plurality of documents
US7225182B2 (en) 1999-05-28 2007-05-29 Overture Services, Inc. Recommending search terms using collaborative filtering and web spidering
US6990628B1 (en) * 1999-06-14 2006-01-24 Yahoo! Inc. Method and apparatus for measuring similarity among electronic documents
US6519586B2 (en) * 1999-08-06 2003-02-11 Compaq Computer Corporation Method and apparatus for automatic construction of faceted terminological feedback for document retrieval
US6587848B1 (en) * 2000-03-08 2003-07-01 International Business Machines Corporation Methods and apparatus for performing an affinity based similarity search
JP2001256253A (ja) * 2000-03-13 2001-09-21 Kddi Corp 文書フィルタリング方法および装置
US7028250B2 (en) * 2000-05-25 2006-04-11 Kanisa, Inc. System and method for automatically classifying text
US6687696B2 (en) * 2000-07-26 2004-02-03 Recommind Inc. System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models
US6675159B1 (en) * 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
US6895406B2 (en) * 2000-08-25 2005-05-17 Seaseer R&D, Llc Dynamic personalization method of creating personalized user profiles for searching a database of information
US20040100022A1 (en) * 2000-09-25 2004-05-27 Pasquarelli Felice Antonio Puzzle
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US7133862B2 (en) * 2001-08-13 2006-11-07 Xerox Corporation System with user directed enrichment and import/export control
US7096218B2 (en) * 2002-01-14 2006-08-22 International Business Machines Corporation Search refinement graphical user interface
JP2003241790A (ja) * 2002-02-13 2003-08-29 Internatl Business Mach Corp <Ibm> 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム
US20030182168A1 (en) * 2002-03-22 2003-09-25 Martha Lyons Systems and methods for virtual, real-time affinity diagramming collaboration by remotely distributed teams
US7139695B2 (en) * 2002-06-20 2006-11-21 Hewlett-Packard Development Company, L.P. Method for categorizing documents by multilevel feature selection and hierarchical clustering based on parts of speech tagging
JP4093012B2 (ja) * 2002-10-17 2008-05-28 日本電気株式会社 ハイパーテキスト検査装置および方法並びにプログラム
US7426509B2 (en) * 2002-11-15 2008-09-16 Justsystems Evans Research, Inc. Method and apparatus for document filtering using ensemble filters
US6873996B2 (en) * 2003-04-16 2005-03-29 Yahoo! Inc. Affinity analysis method and article of manufacture
US7734627B1 (en) * 2003-06-17 2010-06-08 Google Inc. Document similarity detection
GB0315505D0 (en) 2003-07-02 2003-08-06 Sony Uk Ltd Information retrieval
US7634482B2 (en) * 2003-07-11 2009-12-15 Global Ids Inc. System and method for data integration using multi-dimensional, associative unique identifiers
US8014997B2 (en) * 2003-09-20 2011-09-06 International Business Machines Corporation Method of search content enhancement
US8788492B2 (en) * 2004-03-15 2014-07-22 Yahoo!, Inc. Search system and methods with integration of user annotations from a trust network
US20060155751A1 (en) * 2004-06-23 2006-07-13 Frank Geshwind System and method for document analysis, processing and information extraction
US7266548B2 (en) * 2004-06-30 2007-09-04 Microsoft Corporation Automated taxonomy generation
US20060074836A1 (en) * 2004-09-03 2006-04-06 Biowisdom Limited System and method for graphically displaying ontology data
US20060053382A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for facilitating user interaction with multi-relational ontologies
US7496593B2 (en) * 2004-09-03 2009-02-24 Biowisdom Limited Creating a multi-relational ontology having a predetermined structure
US8688673B2 (en) * 2005-09-27 2014-04-01 Sarkar Pte Ltd System for communication and collaboration
US20060080315A1 (en) * 2004-10-08 2006-04-13 The Greentree Group Statistical natural language processing algorithm for use with massively parallel relational database management system
US7805300B2 (en) * 2005-03-21 2010-09-28 At&T Intellectual Property Ii, L.P. Apparatus and method for analysis of language model changes
US8346757B1 (en) * 2005-03-28 2013-01-01 Google Inc. Determining query terms of little significance
US7870147B2 (en) * 2005-03-29 2011-01-11 Google Inc. Query revision using known highly-ranked queries
US7636714B1 (en) * 2005-03-31 2009-12-22 Google Inc. Determining query term synonyms within query context
US7844566B2 (en) * 2005-04-26 2010-11-30 Content Analyst Company, Llc Latent semantic clustering
US7912701B1 (en) * 2005-05-04 2011-03-22 IgniteIP Capital IA Special Management LLC Method and apparatus for semiotic correlation
US20060259475A1 (en) * 2005-05-10 2006-11-16 Dehlinger Peter J Database system and method for retrieving records from a record library
US20070011147A1 (en) * 2005-06-22 2007-01-11 Affiniti, Inc. Systems and methods for retrieving data
US20080005064A1 (en) * 2005-06-28 2008-01-03 Yahoo! Inc. Apparatus and method for content annotation and conditional annotation retrieval in a search context
US8312021B2 (en) * 2005-09-16 2012-11-13 Palo Alto Research Center Incorporated Generalized latent semantic analysis
US7792858B2 (en) * 2005-12-21 2010-09-07 Ebay Inc. Computer-implemented method and system for combining keywords into logical clusters that share similar behavior with respect to a considered dimension
US7685198B2 (en) * 2006-01-25 2010-03-23 Yahoo! Inc. Systems and methods for collaborative tag suggestions
US8630627B2 (en) * 2006-02-14 2014-01-14 Sri International Method and apparatus for processing messages in a social network
US20070282684A1 (en) * 2006-05-12 2007-12-06 Prosser Steven H System and Method for Determining Affinity Profiles for Research, Marketing, and Recommendation Systems
CA2652762A1 (en) * 2006-05-19 2008-02-07 My Virtual Model Inc. Simulation-assisted search
US8196039B2 (en) * 2006-07-07 2012-06-05 International Business Machines Corporation Relevant term extraction and classification for Wiki content
US8606779B2 (en) * 2006-09-14 2013-12-10 Nec Corporation Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
US7895210B2 (en) * 2006-09-29 2011-02-22 Battelle Memorial Institute Methods and apparatuses for information analysis on shared and distributed computing systems
US7974976B2 (en) * 2006-11-09 2011-07-05 Yahoo! Inc. Deriving user intent from a user query
US20080201632A1 (en) * 2007-02-16 2008-08-21 Palo Alto Research Center Incorporated System and method for annotating documents
US7685200B2 (en) * 2007-03-01 2010-03-23 Microsoft Corp Ranking and suggesting candidate objects
US20080235216A1 (en) * 2007-03-23 2008-09-25 Ruttenberg Steven E Method of predicitng affinity between entities
US8019707B2 (en) * 2007-09-20 2011-09-13 Deutsche Telekom Ag Interactive hybrid recommender system
US7536637B1 (en) * 2008-02-07 2009-05-19 International Business Machines Corporation Method and system for the utilization of collaborative and social tagging for adaptation in web portals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005091825A2 (en) * 2004-03-04 2005-10-06 Yahoo! Inc. Keyword recommendation for internet search engines
WO2007019311A2 (en) * 2005-08-03 2007-02-15 Wink Technologies, Inc. Systems for and methods of finding relevant documents by analyzing tags

Also Published As

Publication number Publication date Type
CN101408887A (zh) 2009-04-15 application
JP5391633B2 (ja) 2014-01-15 grant
EP2045740A1 (en) 2009-04-08 application
US9081852B2 (en) 2015-07-14 grant
JP2009093649A (ja) 2009-04-30 application
US20090094020A1 (en) 2009-04-09 application

Similar Documents

Publication Publication Date Title
Afantenos et al. Summarization from medical documents: a survey
Sigurbjörnsson et al. Flickr tag recommendation based on collective knowledge
Medelyan et al. Mining meaning from Wikipedia
US20050080780A1 (en) System and method for processing a query
US8010545B2 (en) System and method for providing a topic-directed search
US20130185307A1 (en) Methods and systems of supervised learning of semantic relatedness
US20060259475A1 (en) Database system and method for retrieving records from a record library
Esuli et al. SentiWordNet: a high-coverage lexical resource for opinion mining
Losee Text retrieval and filtering: analytic models of performance
Tang et al. A survey on sentiment detection of reviews
Dakka et al. Answering general time-sensitive queries
Carmel et al. Estimating the query difficulty for information retrieval
US8346701B2 (en) Answer ranking in community question-answering sites
Nie et al. Harvesting visual concepts for image search with complex queries
US20100169331A1 (en) Online relevance engine
US7340466B2 (en) Topic identification and use thereof in information retrieval systems
US20070112761A1 (en) Search engine with augmented relevance ranking by community participation
US20110320470A1 (en) Generating and presenting a suggested search query
US7716207B2 (en) Search engine methods and systems for displaying relevant topics
US20070282940A1 (en) Thread-ranking apparatus and method
US20110191310A1 (en) Method and system for ranking intellectual property documents using claim analysis
US20060184481A1 (en) Method and system for mining information based on relationships
US20050177561A1 (en) Learning search algorithm for indexing the web that converges to near perfect results for search queries
Frank et al. Predicting library of congress classifications from library of congress subject headings
Mylonas et al. Personalized information retrieval based on context and ontological knowledge

Legal Events

Date Code Title Description
C06 Publication
C10 Request of examination as to substance
C14 Granted