CN101404015B - 自动生成词条层次 - Google Patents
自动生成词条层次 Download PDFInfo
- Publication number
- CN101404015B CN101404015B CN2008101661773A CN200810166177A CN101404015B CN 101404015 B CN101404015 B CN 101404015B CN 2008101661773 A CN2008101661773 A CN 2008101661773A CN 200810166177 A CN200810166177 A CN 200810166177A CN 101404015 B CN101404015 B CN 101404015B
- Authority
- CN
- China
- Prior art keywords
- entry
- correlation
- degree
- father
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 description 25
- 238000007621 cluster analysis Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 7
- 206010028980 Neoplasm Diseases 0.000 description 6
- 201000011510 cancer Diseases 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 239000003638 chemical reducing agent Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 208000000913 Kidney Calculi Diseases 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 206010029148 Nephrolithiasis Diseases 0.000 description 3
- 210000003734 kidney Anatomy 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 206010020772 Hypertension Diseases 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 206010012601 diabetes mellitus Diseases 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004660 morphological change Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000004513 sizing Methods 0.000 description 2
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 206010038478 Renal lithiasis Diseases 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 210000001367 artery Anatomy 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 235000012000 cholesterol Nutrition 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000003907 kidney function Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Creation or modification of classes or clusters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及自动生成词条层次。在某些实施方式中,生成词条的层次包括访问包括多个词条的语料库。对一个或多个词条执行以下步骤以产生父子关系:根据有向相关度来标识词条的一个或多个父词条;以及根据该父词条和每个词条来建立一个或多个父子关系。根据这些父子关系而自动生成层次图。
Description
技术领域
本发明总体上涉及词典分析,更具体地涉及自动生成词条层次。
背景技术
数据语料库(corpus)可保存大量信息,然而找到相关的信息可能很难。可以创建词条层次来方便搜索相关信息。然而,在某些场合下,生成词条层次的已知技术在某些场合下效率不高。
附图说明
图1图示了自动生成表示词条层次的层次图的系统的一个实施方式;
图2图示了可用于图1的系统的相关度(affinity)模块的一个实施方式;
图3图示了记录基本相关度的相关度矩阵的示例;
图4图示了记录有向相关度的相关度矩阵的示例;
图5图示了记录平均相关度的相关度矩阵的示例;
图6图示了相关度图的示例;
图7图示了可用于图1的系统的聚类模块的一个实施方式;
图8图示了可用于图1的系统的本体(ontology)特征模块的一个实施方式;
图9图示了可用于图1的系统的层次模块的一个实施方式;
图10图示了层次图的示例;而
图11A和11B图示了可从中移除冗余父子关系的节点。
特定实施方式
概述
在某些实施方式中,生成词条层次包括访问包括多个词条的语料库。对一个或多个词条执行下述步骤以生成父子关系:根据有向相关度来标识词条的一个或多个父词条;以及根据这些父词条和每个词条来建立一个或多个父子关系。根据这些父子关系而自动生成层次图。
示例实施方式
在具体实施方式中,创建和查询域本体可包括下述步骤:
1.收集域中的文档。在具体实施方式中,文档是词条的集合。文档可包括例如《新约圣经》书的可读文本。文档不必包括叙述形式的文本,例如,文档可包括一组用户输入的、单独和共同描述图像内容的标签。文档的集合可被称为“域语料库”。
2.标识域中感兴趣的词条(“词典词条”)。词条的示例包括词(如“树(tree)”)、短语(如“图形算法(graph algorithm)”)、命名实体(如“纽约(New York)”)等。词条(或概念)可以有不同的形式。在某些情况下,不同的词用于相同的概念,例如,“肾结石(kidney stones)”和“肾石病(kidney calculi)”指相同的概念,“肾结石”。在其他情况下,词干可以有许多词形变化,例如,词干“tree”具有词形变化“tree”和“trees”。在具体实施方式中,相同词条的各形式可被认为是映射到相同的词条。词典词条的任何适当形式都可能在文档中出现,但是具体词典词条不必在任何文档中出现。
用于标识词典词条的示例包括使用对于特定域的人类生成的词典,例如医学词典。在具体实施方式中,可以根据语料库中的一组文本串自动生成词典词条的列表。这些串可按频率来索引和分类,并且可选择频率在阈值之上的串。可以使用其他适当的统计方法来确定词条。在具体实施方式中,“词”可与“词条”和“词典词条”互换。
3.计算在给定共现(co-occurrence)上下文中词典词条的共现数量。如果两个词条在相同的共现上下文中都至少出现一次,则它们共现。共现上下文的示例包括文档和段落。
4.创建包括域本体的有向加权图。有向加权图包括作为节点的词典词条和作为边缘权重的相关度。“有向加权图”可用作可由任何适当数据结构表示的相同信息的实际表示,例如矩阵、二进制判决图或二进制判决图的集合。
5.应用查询有向加权图的过程。给定一个或多个词典词条作为输入,该过程输出了与输入词典词条有关的一个或多个词典词条。例如,该过程可输出对一个或多个输入词条具有最高差分有向相关度(下面进行描述)的一个或多个词条的分类列表。在此情况下,输出包括与本体所寻址的域相关的、与输入词条更紧密相关的词条。
可使用任何适当的相关度定义。在具体实施方式中,可使用下述定义:
1.基本相关度
a.词条A与B之间的基本相关度(A)可定义为包括词条A和B两者的共现上下文的数量与包括词条A或B的共现上下文的数量之比:
A(A,B)=|AB|/|A or B|
b.词条A与B之间的基本相关度(A)还可定义为包括词条A和B两者的共现上下文的数量与包括A的共现上下文的数量和包括B的共现上下文的数量中的最大值之比:
A(A,B)=|AB|/max(|A|,|B|)
2.有向相关度
词条A与B之间的有向相关度(DAff)可定义为假定在共现上下文中观察到A的情况下观察到B的条件概率:
DAff(A,B)=|AB|/|A|
即,有向相关度可以是在包括词条A和B两者的共现上下文的数量与包括词条A的共现上下文的数量之比。通常,DAff(A,B)与DAff(B,A)不同。
3.差分有向相关度
词条A与B之间的差分有向相关度(DiffDAff)可定义为词条A与B之间的有向相关度减去考虑到词条B在语料库中的共性的因子。词条B在语料库中的共性可以是词条B对语料库中的其他词条的基本相关度或有向相关度值的统计值。在具体实施方式中,词条B在语料库中的共性可以是词条B的平均相关度(AA),这得出了下面的差分有向相关度的定义:
DiffDAff(A,B)=DA(A,B)-AA(B)
词条B的平均相关度(AA)或平均有向相关度可定义为:
AA(B)=AVERAGE_x DAff(x,B)
即,平均相关度可以是词条B对共现上下文中的其他词条的有向相关度的平均。
图1图示了自动生成表示词条的层次的层次图的系统10的一个实施方式。在具体实施方式中,系统10访问包括多个文档(或页面)的语料库。系统10根据有向相关度来标识语料库的词条的父词条,并且建立各词条之间的父子关系。系统10然后根据父子关系来自动生成层次图。
在某些实施方式中,可对词典D和词的给定子集的特定反向索引II计算有向相关度,其中索引II例如包括词wi和wj的条目I(wi)和I(wj)。通常而言,反向索引是一种存储了从词条到其位置(即,词条出现的共现上下文)的映射的索引数据结构。对于D中的每对词wi和wj,可将II中的条目I(wi)和I(wj)的合取(conjunction)的值除以I(wi)中的值的数量定义为DA(i,j)。通常,DA(i,j)不必等于DA(j,i)。结果可按照例如逐行的任何适当方式进行存储,在逐行方式中,先存储D(1,i),然后存储D(2,j)等等。对于每行i,可以存储|I(wi)|,然后存储与wj合取的基数。
在某些实施方式中,有向相关度可以按三个阶段来计算。在这些实施方式中,为每个词典词条分配了唯一的整数标识符。反向索引的条目对应于这些整数标识符。在阶段0,读取对应于D的II条目。对于参数(s,o),仅保留具有ks+o的形式的元素标识符。值ks+o定义限定了要检查的II条目的子集。这样,就可以并行地计算有向相关度。举例来说,来自参数s,o(1,0)的结果等于对参数(3,0)、(3,1)和(3,2)的计算进行合并而得到的结果。该步骤使得能够针对非常大的反向索引来计算DA表。
在阶段1,仅针对DA(i,j)逐行计算合取。在阶段2,读取计算出的上三角UT DA阵列。据此获得了作为UT的转置的下三角部分。在某些实施方式中,相同维数的多个DA阵列可以合并为单个阵列。大II上的DA阵列可以按带参数(s,i)的sumi=0..(s-1)DA来计算。可与计算出的合取一起存储附加信息,使得能够计算有向相关度。在某些情况下,可以存储II条目的基数。
在某些实施方式中,可逐行存储DA,因此AA条目的计算可以与DA条目的计算并行进行。具体来讲,AA可通过在从盘上读取DA时对它们的各行求和而生成,最后用词典条目的数量进行归一化。
在图示的实施方式中,系统10包括客户机20、服务器22以及存储器24。客户机20允许用户与服务器22进行通信以生成语言的本体。客户机20可将用户输入发送到服务器22,并且可以向用户提供(例如,显示或打印)服务器输出。服务器系统24对用于生成语言的本体的应用进行管理。存储器24存储了服务器系统24所使用的数据。
在图示的实施方式中,存储器24存储了页面50和记录54。页面50(或文档或共现上下文)可指词的集合。页面50的示例包括文档的一个或多个页面、一个或多个文档、一本或多本书、一个或多个web页面、信件(例如电子邮件或即时消息)和/或词的其他词的集合。页面50可以由页面标识符来标识。页面50可以电子地存储在一个或多个有形计算机可读介质中。页面50可以与例如文本(如字符、词和/或数字)、图像(如图片、照片或视频)、音频(如录音或计算机生成的声音)和/或软件程序的任何适当的内容相关联。在某些实施方式中,一组页面50可属于语料库。语料库可与特定的主题、社区、组织或其他实体相关联。
记录54用于描述页面50。在实施方式中,记录54包括索引58、反向索引62、本体66和聚类(cluster)67。索引58包括索引列表,其中页面50的索引列表指示了页面50的词。反向索引62包括反向索引列表,其中词(或一组词)的反向索引列表指示了包括该词(或该组词)的页面50。在一个示例中,列表Wi包括包含词wi的页面50的页面标识符。列表Wi和Wj包括包含词wi和wj二者的合取页面50的页面标识符。列表Wi+Wj包括包含词Wi或Wj的析取页面50的页面标识符。P(Wi)是Wi的页面50的数量,即,包括词wi的页面50的数量。
在一个实施方式中,列表(如,索引列表或反向索引列表)可被存储为二进制判决图(BDD)。在一个示例中,集合Wi的二进制判决图BDD(Wi)表示包含词wi的页面50。BDD(Wi)的满足指定计数Satisf(BDD(Wi))得到了包含词wi的页面50的数量P(Wi):
P(Wi)=Satisf(BDD(Wi))
相应地,
P(Wi&Wj)=Satisf(BDD(Wi)AND BDD(Wi))
P(Wi+Wj)=Satisf(BDD(Wi)OR BDD(Wj))
本体66表示语言的词以及词间的关系。在一个实施方式中,本体66表示词间的相关度。在图示的示例中,本体66包括相关度矩阵和相关度图。相关度矩阵的示例将参照图3到图5来描述。相关度图的示例将参照图6来描述。聚类67记录了彼此相关的词的聚类。聚类将参照图7来更详细地描述。
在图示的实施方式中,服务器22包括相关度模块30、聚类模块31、本体特征模块32和层次模块37。相关度模块30可计算词对的相关度、将相关度记录在相关度矩阵中,和/或报告相关度矩阵。相关度模块30还可生成相关度图。相关度模块30将参照图2来更详细地描述。
在特定实施方式中,聚类模块31可通过标识数据集合中相关元素的聚类来发现数据集合中的模式。在特定实施方式中,聚类模块31可标识一组词的聚类(例如,语言或一组页面50)。通常而言,聚类的词是彼此高度相关的,但是与聚类外的词却并非如此。一聚类词可指定一组词的主题(或话题)。在特定实施方式中,聚类模块31根据词间的相关度来标识相关词的聚类。在这些实施方式中,聚类的词彼此高度相关,但与聚类外的词却并非如此。聚类模块31将参照图7来更详细地描述。
在特定实施方式中,本体特征模块32可确定一个或多个词(例如,特定词或包括多词的文档)的集合的一个或多个本体特征,然后可在各种情况下应用本体特征。本体特征是可将词组放置在语言的本体空间中的词组的特征。本体特征的示例包括深度和具体性(specificity)。在特定实施方式中,深度可表示词组的字面复杂度。较深的词组可以是更技术性和更专业性的,而较浅的词组可以是更普通的。在特定实施方式中,词组的具体性与词组的主题数量相关。较具体的词组可以有较少的主题,而较不具体的词组可以有较多的主题。
本体特征模块32可在任何适当的场合应用本体特征。适当场合的示例包括:根据本体特征来搜索、分类或选择文档;报告文档的本体特征;以及确定一个或多个用户的文档的本体特征。本体特征模块32将参照图8来更详细地描述。
在特定实施方式中,层次模块37自动生成表示词条的层次的层次图。在这些实施方式中,层次模块37访问包括多个文档(或页而)的语料库。层次模块37根据有向相关度来标识语料库的词条的父词条,并且建立词条间的父子关系。层次模块37随后根据父子关系来自动生成层次图。层次模块37将参照图9来更详细地描述。
系统10的组件可包括接口、逻辑、存储器和/或其他适当的元件。接口接收输入、发送输出、处理输入和/或输出,和/或执行其他适当的操作。接口可包括硬件和/或软件。
逻辑执行组件的操作,例如执行根据输入来生成输出的指令。逻辑可包括硬件、软件和/或其他逻辑。逻辑可编码在一个或多个有形介质中,并且在被计算机执行时可执行操作。诸如处理器的某些逻辑可管理组件的操作。处理器的示例包括一个或多个计算机、一个或多个微处理器、一个或多个应用和/或其他逻辑。
存储器存储有信息。存储器可包括一个或多个有形的计算机可读和/或计算机可执行存储介质。存储器的示例包括计算机存储器(例如,随机存取存储器(RAM)或只读存储器(ROM))、大容量存储介质(例如,硬盘)、可移除存储介质(例如,致密盘(CD)或数字视频盘(DVD))、数据库和/或网络存储(例如,服务器)和/或其他计算机可读介质。
可以对系统10进行修改、添加或省略而不会偏离本发明的范围。系统10的组件可以是集成的或分立的。此外,系统10的操作可由更多、更少或其他组件来执行。例如,生成器42和46的操作可由一个组件来执行,或者相关度计算器34的操作可由多于一个组件来执行。此外,系统10的操作可使用包括软件、硬件和/或其他逻辑的任何适当逻辑来执行。在本文中使用时,“每个”是指集合的每个成员或集合的子集的每个成员。
可对矩阵的示例进行修改、添加或省略而不会偏离本发明的范围。矩阵可包括更多、更少或其他值。此外,矩阵的值可按任何适当的顺序排列。
图2图示了可用于图1的系统10的相关度模块30的一个实施方式。相关度模块30可计算词对的相关度、将相关度记录到相关度矩阵中和/或报告相关度矩阵。相关度模块30还可生成相关度图。
在图示的实施方式中,相关度模块30包括相关度计算器34、本体生成器38和词推荐器48。相关度计算器34计算词wi或包括第一词wi和第二词wj的词对的任何适当类型的相关度。相关度的示例包括基本、有向、平均、差分和/或其他相关度。
在一个实施方式中,词推荐器48接收种词(seed word),并且标识与种词的相关度大于阈值相关度的词。阈值相关度可以为任何适当的值,如大于等于0.25、0.5、0.75或0.95。阈值相关度可预编程或由用户指定。
基本相关度可根据包括词wi和/或wj的页面50的量(例如,数量)来计算。合取页面量表示了包括词wi和词wj两者的页面50的量,而析取页面量表示了包括词wi或词wj的页面50的量。基本相关度可通过合取页面量除以析取页面量来给出。在一个示例中,合取页面的数量表示了包括词wi和词wj的页面的数量,而析取页面的数量表示了包括词wi或词wj的页面的数量。基本相关度可通过合取页面的数量除以析取页面的数量来给出:
Affinity(wi,wj)=P(Wi&Wj)/P(Wi+wj)
图3图示了记录基本相关度的相关度矩阵110的示例。在图示的示例中,相关度矩阵110记录了词w1,...,w5的逐对相关度。根据相关度矩阵110,词w0和w1之间的相关度是0.003,词w0和w2之间的相关度是0.005,等等。
回来参照图1,相关度组包括彼此具有高相关度的词对,并且可用于捕获词w1和w2之间相对于页面内容的关系。高相关度可以被指定为高于相关度组阈值的相关度。阈值可设置为任何适当的值,如大于等于0.50、0.60、0.75、0.90或0.95。词可属于多于一个的相关度组。在一个实施方式中,相关度组可表示为BDD。BDD的指针可与该组的每个词一起存储在反向索引62中。
有向相关度可用于测量词wi相对于词wj的重要性。相关度计算器34根据包括词wi和wj的页面50的量(例如,数量)来计算在给定词wj的情况下词wi的有向相关度。词wj页面量表示了包括词wi的页面50的量。给定词wj的情况下词wi的有向相关度可由合取页面量除以词wj页面量来给出。例如,词wj页面的数量表示了包括词wi的页面50的数量。给定词wj的情况下词wi的有向相关度可由合取页面50的数量除以词wi页面50的数量来给出:
DAffinity(wi,wj)=P(Wi&Wj)/P(Wi)
DAffinity(wi,wj)与DAffinity(wj,wi)不同。词wi和wj之间的高有向相关度DAffinity(wi,wj)表示在页面50包括词wj的情况下页面50包括词wi的较高概率。在一个示例中,页面[1 2 3 4 5 6]包括词wi,而页面[4 2]包括词wj。包括词wj的页面也包括词wi,因此从词wj的角度来看,词wi是非常重要的。仅三分之一包括wi的页面也包括词wj,因此从词wi的角度来看,词wj是不重要的。
图4图示了记录了词w0,...,w5的有向相关度的相关度矩阵120的示例。在该示例中,词124是A词,而词128是B词。矩阵120的各行记录了在给定A词的情况下B词的相关度,并且相关度矩阵120的各列记录了在给定B词的情况下A词的相关度。
回来参照图1,词wi的平均相关度是针对其他词wj而计算的。在一个实施方式中,平均相关度可以是词wi和每个其他词wj之间的相关度的平均。词wi对N个词的平均相关度可如下给出:
图5图示了记录了平均相关度的相关度矩阵140的示例。行142记录了词1到词50,000的基本相关度。行144记录了词1到词50,000的平均相关度。
回来参照图1,词的平均相关度可表示词的深度。具有较低平均相关度的词可被认为是较深词,而具有较高平均相关度的词可被认为是较浅词。较深词趋于更技术性、具体和精确。具有较高百分比的较深词的页面50可被认为是较深页面,而具有较低百分比的较深词的页面50可被认为是较浅页面。在一个实施方式中,用户可指定要检索的词和/或页面50的深度。
页面50的较深词可形成较高相关词的一个或多个聚类。聚类可表示共同的想法或主题。页面50的主题数量可以表示页面50的具体性。具有较少主题的页面50可被认为更具体,而具有较多主题的页面50可被认为较不具体。
词wi相对于词wj的差分相关度是词wi与词wj之间的有向相关度减去词wj对于所有其他词的平均相关度。差分相关度可以表达为:
DiffAff(wi,wj)=DAffinity(wi,wj)-AveAff(wj)
差分相关度移除了由词wj在页面50中的出现的一般倾向引起的偏置。在特定环境中,差分相关度可提供在页面包括词wj的情况下该页面包括词wi的概率的更精确表示。
差分相关度可用在各种应用中。在一个示例中,可以使用人名之间的差分相关度来研究社会关系网。在另一示例中,可以使用语言元素之间的差分相关度来研究自然语言处理。在另一示例中,可以使用产品之间的差分相关度来研究市场。
相关度计算器34可使用任何适当的技术来搜索反向索引列表以计算相关度。例如,为了标识包括词wi和wj两者的页面,相关度计算器34可在词wi的列表Wi和词wj的列表Wj中搜索共同元素,即,共同页面标识符。
在特定实施方式中,本体生成器38生成语言的本体66,如相关度矩阵或相关度图。本体可从诸如基本、有向、平均、差分和/或其他相关度中的任何适当相关度生成。本体66可从以任何适当方式从语言中选择的词来生成。例如,可以选择来自与一个或多个特定主题相关的词或语言的共同使用部分的词。
在图示的实施方式中,本体生成器38包括相关度矩阵生成器42和相关度图生成器46。相关度矩阵生成器42生成记录了词之间的相关度的相关度矩阵。相关度图生成器46生成表示词之间的相关度的相关度图。在相关度图中,节点表示词,而各节点之间的有向边缘的权重表示各节点所表示的词之间的相关度。相关度图可以有任何适当的维数。
图6图示了相关度图150的示例。相关度图150包括节点154和链接158。节点154表示词。在该示例中,节点154a表示词“二进制”。各节点154之间的有向边缘的权重表示各节点154所表示的词之间的相关度。例如,较大的权重表示较大的相关度。节点之间的链接158表示节点154所表示的词之间的相关度大于相关度阈值。相关度阈值可以为任何适当的值,例如大于等于0.25、0.5、0.75或0.95。
图7图示了可用于图1的系统10的聚类模块31的一个实施方式。在特定实施方式中,聚类模块31通过标识数据集合中相关元素的聚类来发现数据集中的模式。在特定实施方式中,聚类模块31可标识词的集合的聚类(例如,页面50或语言的集合)。通常,聚类的词彼此高度相关,但是与聚类外的词却并非如此。一聚类词可指定词的集合的主题(或话题)。
在特定实施方式中,聚类模块31根据词之间的相关度来标识相关词的聚类。在该实施方式中,聚类的词彼此高度相关,但是与聚类外的词却并非如此。在一个实施方式中,如果词足够相关,则它们可以被认为是高度相关的。如果它们满足一个或多个相关度准则(如阈值),则它们可以是足够相关的,其示例在下面给出。
任何适当的相关度都可用于标识聚类。在特定实施方式中,聚类模块31使用了有向相关度。词相对于其他词的有向相关度表征了词的共现。聚类包括具有相似共现的词。在某些实施方式中,聚类模块31使用了差分相关度。差分相关度趋于移除由词在页面50中出现的一般倾向造成的偏置。
在图示的实施方式中,聚类模块31包括聚类引擎210和聚类分析器214。聚类引擎210根据相关度来标识词的聚类,而聚类分析器214应用相关度聚类以分析各种情况。
聚类引擎210可按任何适当方式根据相关度来标识词的聚类。标识聚类的方法的三个示例给出如下:根据词的集合来构建聚类,将词排序为聚类,以及比较词的相关度矢量。在一个实施方式中,聚类引擎210根据词的集合来构建聚类。在一个示例中,聚类引擎210根据相关度为*Aff(wi,wj)的词{wi}的集合W构建出聚类S。相关度值*Aff(wi,wj)表示词wi相对于词wj的任何适当类型的相关度,例如有向相关度DAffinity(wi,wj)或差分相关度DiffAff(wi,wj)。这里提供的相关度值的某些示例可以被认为是归一值。在该示例中,Afffor(wi,wj)表示前向相关度,而Affback(wj,wi)表示后向相关度。
在该示例中,聚类S以种词wq开始。当前词wx表示聚类S的在当前迭代中与来自集合W的词进行比较的词。一开始,当前词wx被设置为种词wq。
在迭代过程中,当前词wx被设置为聚类S的词。根据集合W的词wi与当前词wx的前向相关度Afffor(wi,wx)对它们进行排序。以排序过的集合W的起点开始,标识满足相关度准则的候选词wc。相关度准则可包括与当前词wx准则的前向相关度:
Afffor(wc,wx)>Thcf
和与种词wq准则的后向相关度:
Affback(wq,wc)>Thcb
其中Thcf表示候选词的前向阈值,而Thcb表示候选词的后向阈值。候选词{wc}的有序集合的第一个词被添加到聚类S,添加的词的数量由参数Sizec给定。阈值Thcf和Thcb可以是范围从最小值到最大值的任何适当值的浮点参数。在某些示例中,Thcf和Thcb的适当值可以根据实际相关度的有序列表来确定。例如,可使用该列表中的第200个值。参数Sizec可以是任意适当值的整数参数。适当值的示例包括1、2、3或4的缺省值。在特定实施方式中,参数可以在某些迭代时发生变化。
可执行任何适当次数的迭代。在一个示例中,可在方法开始之前指定迭代的次数。在另一示例中,可以在执行方法期间计算次数。例如,可以根据聚类S的大小的增长率来计算次数。
在另一实施方式中,聚类引擎210通过将词的集合中的词排序为聚类来标识聚类。在一个示例中,根据相关度*Aff(wi,wj),例如差分或有向相关度,对集合W的词{wi}进行排序。在另一示例中,根据词wi与不同的词的集合Q的每个成员的相关度的合计功能(如求和)来对词{wi}进行排序。集合W可按任何适当方式来选择。例如,集合W可以是与查询最相关的X个词,其中X可以是任何适当的值,如范围从10到100、100到200,或者200或更大的值。
在该示例中,聚类初始是空的。集合W中的第一个词wi被放置在聚类中。在每次迭代时,从集合W中选择当前词wx。如果*Aff(wx,wf)满足由相关度阈值Th给定的相关度准则,则将当前词wx放置到聚类中,其中wf表示放置在聚类中的第一个词。阈值Th可以为任何适当的值,例如0.1到0.5范围内的值,其最小值为0.0,最大值为1.0。如果*Aff(wx,wf)不满足阈值Th,则将当前词wx放置到空聚类中。对集合W的每个词重复迭代。
在处理了集合W的各词后,可消除小的聚类。例如,可消除少于Y个词的聚类。Y可以为任何适当的值,如3到5、5到10、10到25、25到50,或者50或更大的范围内的值。
如果聚类的数量不在令人满意的范围内,则可用对放置在聚类中产生更严格或更松散的准则的阈值Th的不同值来重复该处理。令人满意的范围可由具有任何适当值的聚类号最小值和聚类号最大值来给定。适当值的示例包括对于最小值而言的1到5、5到10,或者10或更大范围内的值,以及对于最大值而言的10到15、15到20,或者20或更大范围内的值。可增大阈值Th的值以增大聚类的数量,并且可减小阈值TH的值以减小聚类的数量。
在另一实施方式中,聚类引擎210通过比较词的相关度矢量来标识聚类。在某些实施方式中,相关度矩阵的行和列可产生相关度矢量<wi,*Aff(wi,w1),...,*Aff(wi,wj),...,*Aff(wi,wn)>,其表示词wi相对于词wj的相关度,j=1,…,n。相关度值*Aff(wi,wj)表示词wi相对于词wj的任何适当类型的相关度,例如,有向相关度或差分相关度。
在特定实施方式中,具有相似相关度值的相关度矢量可表示一聚类。仅出于描述目的,可以认为相关度矢量是相关度空间中词的相关度的坐标。即,每个相关度值*Aff(wi,wj)都可被认为是特定维的坐标。具有相似相关度值的相关度矢量表示矢量与其相关联的词在相关度空间中彼此接近。即,矢量表示词与其他词具有相似相关度关系,因此可适用于相同聚类中的成员关系。
如果一个相关度矢量邻近由适当距离函数确定的另一相关度矢量,则相关度矢量可能是类似的。距离函数可以在相关度矢量上被定义为例如给定大小的矢量的标准欧几里得距离,或被定义为给定大小的矢量的余弦。距离函数可以由聚类引擎210或用户来指定。
在特定实施方式中,聚类引擎210应用聚类算法来标识值彼此接近的相关度矢量。聚类算法的示例包括直接、重复对分(bisection)、聚集、偏置聚集和/或其他适当算法。在一个示例中,聚类引擎210可包括如CLUTO的聚类软件。
聚类分析器214可使用相关度聚类在任何适当应用中进行分析。在一个实施方式中,聚类分析器214可使用相关度聚类来归类页面50。类别可与聚类标识符或聚类的一个或多个成员相关联。在一个示例中,可标识页面50的聚类,然后可根据这些聚类来对页面50进行归类。在另一示例中,可选择页面50的重要词,然后可定位包括该词的聚类。然后可以根据所定位的聚类对页面50进行归类。
在一个实施方式中,聚类分析器214可使用相关度聚类来分析页面50的语料库。语料库可与特定主题、一个或多个个体的社区、组织或其他实体相关联。在一个示例中,聚类分析器214可标识语料库的聚类,并根据这些聚类来确定语料库的语料库特性。语料库特性可表示涉及与语料库相关联的实体的词。如果一个或多个页面50具有语料库特性的聚类,则该页面50可能与该实体相关。
在一个实施方式中,聚类分析器214可使用相关度聚类来搜索查询解疑和扩展。在该实施方式中,聚类分析器214标识包括给定搜索查询的搜索词条的聚类。聚类提供了与给定搜索查询相关的词和/或分类。在一个示例中,可以将聚类中的词报告给搜索人以帮助下一次搜索查询。在另一示例中,聚类分析器214可从这些聚类中选择词,并且自动形成一个或多个新的搜索查询。聚类分析器214可串行或并行地运行新的查询。
在一个实施方式中,聚类分析器214可使用相关度聚类来研究社会网络。在一个示例中,页面50可提供对社会网络的了解。这种页面的示例包括通讯(如信件、电子邮件以及即时消息)、备忘录、文章和会议记录。这些页面50可包括包含社会网络的人的用户标识符(如姓名)的词。可以标识姓名的聚类以分析网络的人之间的关系。在一个示例中,可使用差分相关度聚类来滤出页面50中出现最多的姓名,而不提供诸如系统管理者姓名的信息。
在特定实施方式中,聚类分析器214可通过组合和/或比较数据集的聚类来分析数据集。在一个实施方式中,对重叠数据集的聚类进行比较。可以将一个数据集的聚类映射到另一数据集的聚类,这可以提供对数据集之间的关系的了解。例如,数据集可来自对同事组的文档的分析和来自对该组的社会关系网的研究。社会网络聚类可被映射到文档主题聚类以分析社会网络与主题之间的关系。
图8图示了本体特征模块32的一个实施方式。本体特征模块32可确定一个或多个词的集合的一个或多个本体特征(例如,特定词或包括多个词的文档),然后可在多种情况下的任何情况下应用本体特征。一个或多个词的集合可包括文档的必要词条。如果与词条t相关的前k个词中的至少一个在文档中也存在,则词条t可能是必要词条。否则,该词条对文档可能是非必要的。
本体特征是在语义含义上而言,沿可将文档与给定区域中的其他文档相区分的一个或多个特征轴来表征文档的可计量的测量结果。例如,文档的深度可针对其可理解度来区分文档,文档的具体性可针对其关注度来区分文档,而文档的主题可针对其主题的可寻址范围来区分文档。本体特征可按任何适当方式来定义。例如,计算语言中的独立算法可用来表征文档的可读性或深度。
在图示的实施方式中,本体特征模块32包括深度引擎230、主题引擎240、具体性引擎244以及本体特征(OF)应用引擎250。深度引擎230可确定一个或多个词(例如,特定词或包括多个词的文档)的深度。通常,深度可表示词的字面复杂度。较深的词可能是较技术和专业化的,而较浅的词可能是较普通的。在特定实施方式中,深度模块32可计算文档的词的深度,然后根据词的深度来计算文档的深度。在特定实施方式中,深度引擎230可将深度值和/或深度等级分配给文档和/或词。较深的文档或词可被分配较高的深度值或等级,而较浅的文档或词可被分配较浅的深度值或等级。
深度引擎230可按任何适当方式来计算词深度。在特定实施方式中,深度引擎230根据平均相关度来计算词深度。在这些实施方式中,词的深度是该词的平均相关度的函数。较深的词可具有较低的平均相关度,而较浅的词可具有较高的平均相关度。在特定示例中,深度引擎230可通过根据多个词的平均相关度对它们进行排序来计算这些词的深度。具有较低平均相关度的词可被赋予较高的深度等级,而具有较高平均相关度的词可被赋予较低的深度等级。
在特定实施方式中,深度引擎230可使用聚类分析来计算词深度。在这些实施方式中,聚类的词彼此高度相关,但与聚类外的词却并非如此。聚类空间中的距离可根据作为深度的指示符的相关度来测量。在特定实施方式中,属于较少的聚类或较小的和/或距其他聚类较远的聚类的词可被认为较深,而属于较多的聚类或较大和/或距其他聚类较近的聚类的词可被认为较浅。
在其他特定实施方式中,深度引擎230可通过向相关度图150应用链接分析来计算词深度。链接分析可通过例如PAGERANK的任何适当的链接分析算法来执行。仅出于描述目的,可使用图6的相关度图150来计算词深度。相关度图150包括节点154和链接158。节点154表示词。节点154之间的链接158表示节点154所表示的词之间的相关度在相关度阈值之上,即,这些词令人满意地相关。
在特定实施方式中,深度引擎230计算节点154的流行度。较流行的节点154可表示较浅的词,而较不流行的节点154可表示较深的词。从第一节点154到第二节点154的链接136被认为是第一节点154对第二节点154的流行度表决(vote)。此外,来自较流行节点154的表决可比来自较不流行节点154的表决具有更高的权重。此外,第一节点154对第二节点154的相关度加权了该表决。深度引擎230根据节点154的加权表决来计算节点154的流行度。较不流行的词可被认为较深,而较流行的词可被认为较浅。
深度引擎230可按任何适当方式来计算文档深度。在特定实施方式中,深度引擎230根据文档的至少一个、一些或全部词的深度来计算文档的深度。在某些实施方式中,词深度由平均相关度给出,因此文档深度可根据文档的词的平均相关度来计算。例如,文档的浅度可以是文档的词的平均相关度的平均,即,文档中每个词的平均相关度的和除以文档中词的总数。文档的深度则可以按文档的浅度的倒数来计算得出。
在特定实施方式中,深度可根据文档的所选词的集合来计算平均深度。所选集合可包括文档的必要的词,如前(最深的)X%的词,其中X可以小于10,在10到20、20到30、30到40、40到50、50到60、60到70之间或大于10。所选集合可排除P%的标准语法词和/或Q%的无用词,其中P和Q为任何适当的值,如小于10,在10到20、20到30、30到40、40到50、50到60、60到70之间或大于10。
在特定实施方式中,深度引擎230根据文档中词深度的分布来计算文档的深度。在特定实施方式中,较深的文档可具有较高百分比的较深词。
在特定实施方式中,深度引擎230根据文档相关度来计算文档的深度。文档之间的相关度描述了文档之间的关系。在某些实施方式中,平均文档相关度可以类似于平均词相关度如何表示词深度的方式来表示文档深度。文档相关度可按任何适当方式来定义。在一个示例中,共同词P(D1&D2)的数量表示了文档D1和D2中都有的词的数量,而独特词P(D1+D2)的数量表示了文档D1或D2中的词的数量。文档D1和D2之间的文档相关度DocAff可定义为:
DocAff(D1,D2)=P(D1&D2)/P(D1+D2)
深度引擎230可按类似于计算平均词相关度的方式来计算平均文档相关度。具有较低平均相关度的文档可被认为较深,而具有较高平均相关度的文档可被认为较浅。
在某些实施方式中,深度引擎230可通过将链接分析应用到文档相关度图来计算文档深度。除了文档相关度图的节点表示文档而不是词以外,文档相关度图可类似于相关度图150。深度引擎230用在给定第一文档的情况下的第二文档的文档相关度,来对从表示第一文档的第一节点到表示第二文档的第二节点的链接进行加权。然后可以对得到的链接的权重进行归一化。
在某些实施方式中,深度图可显示在用户界面上以示出文档的深度。还可以显示可用于选择深度级别的深度滑块。在某些实施方式中,如果文档包括较大文档的一些部分,则深度图可表示这些部分的深度。
在某些实施方式中,深度引擎230可按任何其他适当方式计算文档深度,如处理文档的相关度的直方图和/或基于深度来删减独特的词的百分比然后处理直方图。其他方法包括Gunning-Fog、Flesch或Fry方法。
在某些实施方式中,深度引擎230可通过将深度值映射到特定深度级别来校准深度。在某些实施方式中,范围Ri中的深度值可被映射到级别Li。例如,R0={r0:r0<c0}可被映射到级别L0,R1={r1:c0<r1<c1}可被映射到级别L1,...,而Rn={rn:cn<rn}被映射到级别Ln。范围可包括任何适当的深度值,并且不必为相同大小。可存在任何适当数量的级别,如小于5、5到7、7或8、8到10、10到20、20到50、50到100,或大于100。
主题引擎240可确定文档的主题(或主题)。在某些实施方式中,主题引擎240根据文档中词的聚类来确定主题,这些聚类可通过聚类模块31来标识。如上所述,一聚类词可指示词的集合的主题(或主题)。文档的主题可提供关于文档的内容的有用信息。例如,包括聚类{肾脏,肾,蛋白质,问题}的文档可能关于由于肾脏功能弱化而从肾导致的蛋白质的问题,而不是云豆的蛋白质含量。
在某些实施方式中,主题引擎240根据主题地图来确定主题。在这些实施方式中,使用例如词条频率反向文档频率(TF-IDF)技术的任何适当技术从文档中提取关键词。使用关键词从主题地图中选择候选主题。将候选主题与文档进行比较以确定主题与文档有多匹配。在某些示例中,可以将候选主题的直方图与文档的直方图进行比较。如果候选主题与文档匹配,则这些主题可提供该文档的主题的类型和数量的估计。
具体性引擎240可计算文档的具体性。在特定实施方式中,具体性引擎240可为文档分配具体性值和/或具体性等级。较具体的文档可被分配较高的具体性值或等级,而较不具体的文档可被分配较低的具体性值或等级。
在特定实施方式中,具体性引擎240根据文档的主题的数量来计算具体性。在某些示例中,较具体的文档可以有较少的主题,而较不具体的文档可以有较多的主题。在特定实施方式中,具体性引擎240根据文档的主题的数量和主题之间的相关度来计算具体性。在某些示例中,较具体的文档可以有较少的主题,且各主题之间具有较高的相关度,而较不具体的文档可以有较多的主题,且各主题之间具有较低的相关度。
在特定实施方式中,主题的数量可依赖于深度(或级别)。例如,处于较浅深度的单独主题可表示处于较大深度的多个主题。在某些实施方式中,深度可由用户使用深度滑块来选择或可以是预定的。在某些实施方式中,级别可由用户选择或可以是预定的。例如,可定义任何适当数量的级别,并且可相对于级别来计算深度。例如,级别可以是基于领域的(例如,工程、医疗、新闻、体育或财经领域);基于专业的(例如,心脏病学、眼科学或肾脏学专业);基于主题的(例如,高血压、胆固醇、支路手术或动脉阻塞主题);基于细节的(例如,姿态血压过低、慢性高血压或急性高血压细节);基于解决方案的(例如,老年病因学、医疗或通用解决方案);基于个人的(例如,用户查询级别)。
本体特征应用引擎250可应用本体特征(如,深度、主题或具体性)在任何适当场合下执行本体特征分析。适当场合的示例包括:根据本体特征搜索、排序、推荐或选择文档;报告文档的本体特征;以及确定一个或多个用户的文档(或文档的集合)的本体特征。在特定实施方式中,本体特征应用引擎250可使用包括关于本体特征的信息的索引。在一个示例中,本体特征应用引擎250使用根据深度排序而生成和/或维持的文档深度(DD)反向索引62。DD反向索引62包括DD反向索引列表,其中词的DD反向索引列表列出了包括该词的文档(或页面50)的文档标识符。文档的文档标识符可表示文档的深度。例如,用于编码文档标识符的二进制编码可表示深度。在一些情况下,DD反向索引列表可仅列出深度令人满意的文档。在另一示例中,本体特征应用引擎250除了反向索引62外还使用排序表和深度表。深度表可表示文档的深度。
在特定实施方式中,本体特征应用引擎250在文档中搜索本体特征的特定值,如文档深度或具体性的特定值。特定值可以由用户预定、计算或选择。在特定实施方式中,可使用深度滑块和/或具体性滑块来选择这些值。
在特定实施方式中,本体特征应用引擎250可使用本体特征作为排序准则来排序文档。例如,本体特征应用引擎250可根据关于主题的文档深度和/或具体性以及其他排序准则来排序文档。在某些示例中,本体特征应用引擎250搜索DD反向索引62以获得根据文档深度而排序过的文档。在一些示例中,本体特征应用引擎250使用非DD反向索引62来搜索文档,然后根据深度来排序文档。
在特定实施方式中,本体特征应用引擎250可将本体特征的值图形显示给客户机20。可对一些或全部文档,例如搜索结果的前X%的文档,提供图形显示。本体特征值可按任何适当方式呈现。在一些示例中,如数字、词或图标的图形指示符可表示值。图形指示符可放置得邻近于例如搜索结果的列表中的项目、在线新闻的主题或文档图标。在一些示例中,现有插图的修改可表示值。例如,文本的大小、字体、样式、颜色或图形指示符可表示值。在另一示例中,图形可表示值。本体特征直方图可包括文档量轴和本体特征轴,并且可表示特定本体特征值的文档的量。例如,包括文档量轴和文档深度轴的文档深度直方图可表示特定文档深度的文档量。
在特定实施方式中,本体特征应用引擎250可允许用户请求搜索具有特定本体特征值的文档。用户可被允许为不同词的查询指定值。在某些示例中,本体特征引擎250可为用户提供选择深度的选项,然后用户可输入所选深度。选项可按任何适当方式呈现,如:(i)绝对词条(例如,表示深度的数字或数字范围);(ii)相对词条(例如,搜索结果关于深度的一部分,如“最深的X%”);(iii)语义词条(例如,“介绍性的”、“浅”、“深”、“非常深”和/或“技术含量高”);(iv)图形词条(例如,滑块、按钮和/或其他图形元素);或(v)词条的任何适当组合(例如,具有语义标签的滑块)。在一些情况下,滑块可包括浅端和深端。用户可将滑块朝一端或另一端移动以表示所选深度。在提供搜索结果时,文档深度直方图可通过滑块来表现,并且可使用滑块作为文档深度轴。
在特定实施方式中,本体特征应用引擎250可计算一个或多个用户的集合的本体特征特性。本体特征特性可包括主题的上下文中的用户深度和用户具体性。本体特征特性描述了与用户集合相关联的文档的本体特征。例如,科学家可使用比三年级学生将使用的文档更深的文档。本体特征特性可关于一个或多个主题而给定。例如,遗传学者在遗传学领域可使用比他在诗歌领域中使用的更深的文档。本体特征特性可用于确定用户的专门技能,自动建立用户的简历,并分析用户的社会网络。
与用户关联的任何适当文档都可被分析以估计本体特征特性,例如,通讯(如,电子邮件和即时消息)、web页面以及搜索历史(如,搜索查询和选择的页面)。在特定实施方式中,本体特征应用引擎250可随时间跟踪本体特征特性,并且可使用过去的特性来预测未来的特性。在某些示例中,本体特征应用引擎250可假定用户深度和/或具体性通常随时间和/或该领域的活动而增加。
在特定实施方式中,本体特征应用引擎250可组合某些操作。例如,本体特征应用引擎250可监视用户的深度,然后根据该用户深度来搜索文档。在一个示例中,对用户深度进行监视,并根据深度向用户提供新闻。对未来的用户深度进行预测,并且提供符合预测的用户深度的新闻。
图9图示了可用于图1的系统10的层次模块37的一个实施方式。在特定实施方式中,层次模块37生成表示词条的层次的层次图。在这些实施方式中,层次模块37访问诸如页面50(或文档)的语料图。层次模块37根据有向相关度来标识语料库的词条的父词条,并且建立父子关系。层次模块37然后根据这些父子关系来自动生成层次图。在图示的实施方式中,层次模块37包括图引擎320和层次应用模块322。图引擎320生成层次图350。层次图的示例参照图10来描述。
图10图示了层次图350的示例。在特定实施方式中,层次图350表示了词条的层次。在这些实施方式中,层次图350包括表示词条的节点354和表示从父词条到子词条的父子关系的弧358。在特定实施方式中,在父子关系中,父词条和子词条通过诸如有向相关度的相关度而相关。父词条可以比子词条更一般,相反,子词条可能比父词条更具体。
在特定实施方式中,祖父词条(或曾祖父词条等)与子词条之间的关系也可被称为父子关系。即,父子关系可从父词条开始,经过零、一或更多父/子词条(充当关系中的父词条和子词条),并且以子词条结束。换句话说,父子关系可以有任何适当的代数。
回来参照图9,在图示的实施方式中,图引擎320包括父子标识符324和图缩减器(graph reducer)328。在特定实施方式中,父子标识符324标识了词条之间的父子关系,而图缩减器328缩减层次图350。
在特定示例中,图引擎320为语料库C的文档的集合S生成层次图350。文档可包括一个或多个词条。页面(X,C)表示集合S的包括至少有词条X的一个共现的文档的子集。页面(X+Y,C)表示包括集合S的至少有词条X的一个共现和词条Y的至少一个共现的文档的子集。DocFreq(X,C)表示包括词条X的至少一个共现的文档的数量,并可根据下式来计算:
DocFreq(X,C)=|Pages(X,C)|
如上所述,有向相关度可用于测量给定词条对另一词条有多重要。在特定实施方式中,假定文档有第一词条,有向相关度表示了文档有第二词条的概率。如果概率高,则存在高有向相关度,而如果概率低,则存在低有向相关度。例如,淋巴瘤是一类癌症。包括“淋巴瘤”的文档还可能包括“癌症”。因此,从淋巴瘤到癌症存在高有向相关度。然而,反过来就未必如此。存在若干种类的癌症,所以包括“癌症”的许多文档可能并不包括“淋巴瘤”。因此,从癌症到淋巴瘤存在低有向相关度。
有向相关度可按任何适当方式(例如使用上述表达)来表达。在其他实施方式中,DAff(X,Y,C)表示在语料库C中给定X的情况下Y的有向相关度,并且可根据下式来计算:
DAff(X,Y,C)=DocFreq(X+Y,C)/DocFreq(X,C)
在特定实施方式中,父子标识符324通过对于给定词条X确定候选父词条Yi的集合来标识父子关系。在这些实施方式中,从给定词条X到父词条Yi存在高有向相关度,而父词条Yi出现在没有给出词条X的文档中比出现在有词条X的文档中更多,这表示词条X与父词条Yi相关,但并非对父词条Yi必不可少。
在特定实施方式中,从给定词条X到父词条Yi存在高有向相关度的条件可表达为:
DAff(X,Yi,S)≥Thhigh
其中Thhigh代表表示较高有向相关度的较高有向相关度阈值。较高的有向相关度阈值可以为任何适当的值,如0.5或更大、0.6或更大、0.7或更大的范围内的值。
在特定实施方式中,父词条Yi出现在没有给出词条X的文档中比出现在有词条X的文档中更多的条件且词条X与父词条Yi相关但并非对父词条Yi必不可少的条件可表达为:
DAff(Yi,X,S)≤Thlow
DAff(Yi,X,S)≥Thmin
其中Thlow代表表示较低有向相关度的较低有向相关度阈值,而Thmin代表最小有向相关度阈值。较低有向相关度阈值可以为任何适当的值,如0.5或更低、0.4或更低、或0.1或更低的范围内的值。最小有向相关度阈值可以为任何适当的值,如0.1或更低、0.01或更低、或0.001或更低的范围内的值。满足给定词条的上述条件的候选父词条Yi可被认为是给定词条的父词条,该给定词条可被认为是子词条。
可根据父子关系将表示词条的节点354组织为层次图350。在特定实施方式中,图缩减器328通过移除冗余父子关系来缩减层次图350。参照图11A和11B来描述移除冗余父子关系的示例。
图11A和11B图示了可从中移除冗余父子关系的节点。冗余父子关系可以是与给定父子关系冗余的父子关系。冗余父子关系可提供比给定父子关系所提供的相同或更少的信息。例如,给定父子关系可具有父词条、零个、一个或多个父/子词条以及子词条。冗余父子关系可具有相同父词条、相同父/子词条的子集以及相同子词条,而没有其他词条。换句话说,子词条有彼此链接的两个父词条。
在图示的示例中,给定父子关系有父词条“健康”、父/子词条“疾病”以及子词条“糖尿病”。冗余父子关系有父词条“疾病”与子词条“糖尿病”。图缩减器328可移除该冗余父子关系。
回来参照图9,在特定实施方式中,层次应用模块322应用层次图350。层次模块37可根据任何适当的语料库来生成任何适当的层次图,层次应用模块322可按任何适当方式来应用该语料库。
在特定实施方式中,语料库包括包含词条的文档,并且层次图350充当可用于搜索文档的文档的类别。在实施方式的特定示例中,层次应用模块322将层次图350的父词条发送给客户机。用户可从父词条中选择作为搜索词条的词条。层次应用模块322接收父词条的选择,并将所选父词条的子词条发送给客户机。用户可从这些词条中进行选择,并且可重复这种处理,直到达到层次图350的终点或用户已经指示了最终选择为止。
在实施方式的其他示例中,层次应用模块322接收包括层次图的父词条的搜索查询。层次应用模块322标识父词条的子词条,并使用父词条和子词条来搜索语料库。在实施方式的另一示例中,层次图350的每个图词条都可与包括该图词条的文档相关联。层次应用模块322接收包括层次图350的父词条的搜索查询。层次应用模块322随后检索一个或多个与该父词条或该父词条的子词条相关联的文档。
在特定实施方式中,语料库包括搜索结果,并且层次图350根据搜索结果的父子关系来组织搜索结果。层次图350的词条可表示搜索结果或者搜索结果所出现的聚类的主题。层次应用模块322可将层次图350和/或组织好的搜索结果呈现给用户。
可对该方法进行修改、添加或省略而不偏离本发明的范围。该方法可包括更多、更少或其他的步骤。此外,各步骤可按任何适当顺序来执行。
本发明的某些实施方式可提供一个或更多技术优点。一个实施方式的技术优点可能在于,表示词条层次的层次图是对文档的语料库自动生成的。层次图描述了词条之间的父子关系并且可用于对语料库的文档进行归类。另一实施方式的技术优点可能在于对搜索结果自动生成层次图。层次图可用于组织搜索结果。
尽管就某些实施方式描述了本发明,但是本领域技术人员可以想到这些实施方式的更改和替换。因此,上述实施方式的描述并不限制本公开。其他改变、替代和更改都是可能的,而不会偏离由权利要求书定义的本公开的精神和范围。
本申请在35U.S.C.§119(e)下要求David Marvit等人于2007年10月5日提交的题为“Automatic Generation of a Hierarchy of Terms”的美国临时申请第60/977,840号(律所案号:073338.0551)的优先权。
Claims (20)
1.一种用于自动生成词条层次的方法,可应用于搜索数据语料库,该方法包括以下步骤:
访问存储在一个或多个有形介质中的语料库,该语料库包括多个词条;
对所述多个词条中的每个词条执行下述步骤以产生多个父子关系:
根据有向相关度来标识这多个词条中的一个或多个父词条,所述多个词条包括这一个或多个父词条,所述有向相关度是包括两个词条的共现上下文的数量与包括一个词条的共现上下文的数量之比;以及
根据这一个或多个父词条和这每个词条来建立一个或多个父子关系,其中父词条和与其具有父子关系的词条相比在涵义上更加一般化;以及
根据这多个父子关系来自动生成层次图。
2.根据权利要求1所述的方法,其中,根据有向相关度来标识这多个词条中的一个或多个父词条的步骤还包括以下步骤:
确定从每个词条到候选父词条存在高有向相关度;
确定从该候选父词条到这每个词条存在低非零有向相关度;以及
将该候选父词条标识为这每个词条的父词条。
3.根据权利要求1所述的方法,其中,根据有向相关度来标识这多个词条中的一个或多个父词条的步骤还包括以下步骤:
确定从每个词条到候选父词条的有向相关度大于0.6;
确定从该候选父词条到这每个词条的有向相关度小于0.4且大于0.1;以及
将该候选父词条标识为这每个词条的父词条。
4.根据权利要求1所述的方法,其中根据这多个父子关系来自动生成层次图的步骤还包括通过以下步骤来缩减层次图:
标识该层次图的父子关系和冗余父子关系;以及
从该层次图中移除该冗余父子关系。
5.根据权利要求1所述的方法,其中
该语料库包括多个文档,这多个文档包括所述多个词条;并且
该层次图表示了这多个文档的类别。
6.根据权利要求1所述的方法,其中
该语料库包括多个搜索结果;
所述多个词条表示了搜索结果的话题;并且
该层次图描述了这多个搜索结果的多个父子关系。
7.根据权利要求1所述的方法,其中
该语料库包括被组织为多个聚类的多个搜索结果;
所述多个词条表示了聚类的话题;并且
该层次图描述了这多个搜索结果的多个父子关系。
8.根据权利要求1所述的方法,该方法还包括以下步骤:
将该层次图的多个父词条发送给客户机;
接收父词条的选择,所选父词条具有多个子词条;以及
将这多个子词条发送给该客户机。
9.根据权利要求1所述的方法,该方法还包括以下步骤:
接收包括该层次图的父词条的搜索查询;
标识该父词条的一个或多个子词条;以及
使用该父词条和这一个或多个子词条来搜索该语料库。
10.根据权利要求1所述的方法,其中
该语料库包括多个文档,这多个文档包括所述多个词条;并且
该方法还包括以下步骤:
将该层次图中的每个词条与包括这每个词条的文档相关联;
接收包括父词条的搜索查询;以及
接收与该父词条的子词条相关联的一个或多个文档。
11.一种用于自动生成词条层次的系统,可应用于搜索数据语料库,该系统包括:
用于访问存储在一个或多个有形介质中的语料库的装置,该语料库包括多个词条;
用于对所述多个词条中的每个词条执行下述步骤以产生多个父子关系的装置:
根据有向相关度来标识这多个词条中的一个或多个父词条,所述多个词条包括这一个或多个父词条,所述有向相关度是包括两个词条的共现上下文的数量与包括一个词条的共现上下文的数量之比;以及
根据这一个或多个父词条和这每个词条来建立一个或多个父子关系,其中父词条和与其具有父子关系的词条相比在涵义上更加一般化;以及
用于根据这多个父子关系来自动生成层次图的装置。
12.根据权利要求11所述的系统,还包括用于通过下述步骤根据有向相关度来标识这多个词条的一个或多个父词条的装置:
确定从每个词条到候选父词条存在高有向相关度;
确定从该候选父词条到这每个词条存在低非零有向相关度;
确定从该候选父词条到这每个词条的有向相关度高于最小阈值;以及
将该候选父词条标识为这每个词条的父词条。
13.根据权利要求11所述的系统,还包括用于通过以下步骤根据有向相关度来标识这多个词条的一个或多个父词条的装置:
确定从每个词条到候选父词条的有向相关度大于0.6;
确定从该候选父词条到这每个词条的有向相关度小于0.4且大于0.1;以及
将该候选父词条标识为这每个词条的父词条。
14.根据权利要求11所述的系统,根据这多个父子关系来自动生成层次图的装置还包括通过以下步骤来缩减层次图的装置:
标识该层次图的父子关系和冗余父子关系;以及
从该层次图中移除该冗余父子关系。
15.根据权利要求11所述的系统,其中
该语料库包括多个文档,这多个文档包括所述多个词条;并且
该层次图表示了这多个文档的类别。
16.根据权利要求11所述的系统,其中
该语料库包括多个搜索结果;
所述多个词条表示了搜索结果的话题;并且
该层次图描述了这多个搜索结果的多个父子关系。
17.根据权利要求11所述的系统,其中
该语料库包括被组织为多个聚类的多个搜索结果;
所述多个词条表示了聚类的话题;并且
该层次图描述了这多个搜索结果的多个父子关系。
18.根据权利要求11所述的系统,还包括:
用于将该层次图的多个父词条发送给客户机的装置;
用于接收父词条的选择的装置,所选父词条具有多个子词条;以及
用于将这多个子词条发送给该客户机的装置。
19.根据权利要求11所述的系统,还包括:
用于接收包括该层次图的父词条的搜索查询的装置;
用于标识该父词条的一个或多个子词条的装置;以及
用于使用该父词条和这一个或多个子词条来搜索该语料库的装置。
20.根据权利要求11所述的系统,其中
该语料库包括多个文档,这多个文档包括所述多个词条;并且
该系统还包括:
用于将该层次图中的每个词条与包括这每个词条的文档相关联的装置;
用于接收包括父词条的搜索查询的装置;以及
用于接收与该父词条的子词条相关联的一个或多个文档的装置。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US97784007P | 2007-10-05 | 2007-10-05 | |
US60/977,840 | 2007-10-05 | ||
US12/242,965 US8332439B2 (en) | 2007-10-05 | 2008-10-01 | Automatically generating a hierarchy of terms |
US12/242,965 | 2008-10-01 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101404015A CN101404015A (zh) | 2009-04-08 |
CN101404015B true CN101404015B (zh) | 2012-03-21 |
Family
ID=40524152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101661773A Active CN101404015B (zh) | 2007-10-05 | 2008-10-06 | 自动生成词条层次 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8332439B2 (zh) |
EP (1) | EP2045734A3 (zh) |
JP (1) | JP5332477B2 (zh) |
CN (1) | CN101404015B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8275866B2 (en) * | 2007-11-13 | 2012-09-25 | At&T Intellectual Property I, L.P. | Assigning telecommunications nodes to community of interest clusters |
US7949657B2 (en) * | 2007-12-11 | 2011-05-24 | Microsoft Corporation | Detecting zero-result search queries |
US8584047B2 (en) * | 2010-05-18 | 2013-11-12 | Microsoft Corporation | Orbital representation of hierarchical navigation |
CN102768661B (zh) * | 2011-05-05 | 2014-12-17 | 株式会社理光 | 从多个网页中抽取对象和网页的方法和设备 |
US8719214B2 (en) * | 2011-09-23 | 2014-05-06 | Fujitsu Limited | Combining medical binary decision diagrams for analysis optimization |
US8620854B2 (en) * | 2011-09-23 | 2013-12-31 | Fujitsu Limited | Annotating medical binary decision diagrams with health state information |
TWI456412B (zh) * | 2011-10-11 | 2014-10-11 | Univ Ming Chuan | 製作知識地圖的方法 |
CN102779143B (zh) * | 2012-01-31 | 2014-08-27 | 中国科学院自动化研究所 | 知识谱系的可视化方法 |
WO2013179317A1 (en) * | 2012-05-30 | 2013-12-05 | Naddeo Giuseppe | A method for generating a graphical user interface for the optimization of a research on databases |
US9336302B1 (en) | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
CN103150667B (zh) * | 2013-03-14 | 2016-06-15 | 北京大学 | 一种基于本体结构的个性化推荐方法 |
CN103236074B (zh) * | 2013-03-25 | 2015-12-23 | 深圳超多维光电子有限公司 | 一种2d/3d图像处理方法及装置 |
US9286289B2 (en) * | 2013-04-09 | 2016-03-15 | Softwin Srl Romania | Ordering a lexicon network for automatic disambiguation |
US9460140B2 (en) * | 2013-04-29 | 2016-10-04 | Microsoft Technology Licensing, Llc | Automated librarian as contributor to a collection of content |
US9355163B2 (en) | 2013-06-07 | 2016-05-31 | Vmware, Inc. | Using a graph database of a virtualization infrastructure |
US9460187B2 (en) * | 2013-06-07 | 2016-10-04 | Vmware, Inc. | Creation of a graph database of a virtualization infrastructure |
US10248718B2 (en) * | 2015-07-04 | 2019-04-02 | Accenture Global Solutions Limited | Generating a domain ontology using word embeddings |
GB201514249D0 (en) * | 2015-08-12 | 2015-09-23 | Trw Ltd | Processing received radiation reflected from a target |
US10410008B2 (en) | 2016-03-08 | 2019-09-10 | Oracle International Corporation | Thick client policy caching |
CN105869056A (zh) * | 2016-03-31 | 2016-08-17 | 比美特医护在线(北京)科技有限公司 | 信息处理方法和装置 |
US20170357717A1 (en) | 2016-06-12 | 2017-12-14 | Apple Inc. | Arrangement of Documents In A Document Feed |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
CN110888977B (zh) * | 2018-09-05 | 2024-05-10 | 广州视源电子科技股份有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
JP7200683B2 (ja) * | 2019-01-11 | 2023-01-10 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
MX2022002421A (es) * | 2019-08-30 | 2022-04-11 | Lisa Michelle Shoeibi | Metodo de indexacion y recuperacion de textos. |
US20240097983A1 (en) * | 2022-09-16 | 2024-03-21 | Juniper Networks, Inc. | Translation of a source intent policy model to a target intent policy model |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6996572B1 (en) * | 1997-10-08 | 2006-02-07 | International Business Machines Corporation | Method and system for filtering of information entities |
US6651096B1 (en) * | 1999-04-20 | 2003-11-18 | Cisco Technology, Inc. | Method and apparatus for organizing, storing and evaluating access control lists |
US6587848B1 (en) * | 2000-03-08 | 2003-07-01 | International Business Machines Corporation | Methods and apparatus for performing an affinity based similarity search |
US6925460B2 (en) * | 2001-03-23 | 2005-08-02 | International Business Machines Corporation | Clustering data including those with asymmetric relationships |
US7225183B2 (en) * | 2002-01-28 | 2007-05-29 | Ipxl, Inc. | Ontology-based information management system and method |
US7165024B2 (en) * | 2002-02-22 | 2007-01-16 | Nec Laboratories America, Inc. | Inferring hierarchical descriptions of a set of documents |
US6847966B1 (en) * | 2002-04-24 | 2005-01-25 | Engenium Corporation | Method and system for optimally searching a document database using a representative semantic space |
US7231379B2 (en) * | 2002-11-19 | 2007-06-12 | Noema, Inc. | Navigation in a hierarchical structured transaction processing system |
US7149748B1 (en) * | 2003-05-06 | 2006-12-12 | Sap Ag | Expanded inverted index |
US20040243613A1 (en) * | 2003-05-30 | 2004-12-02 | Mohammad Pourheidari | System and method for creating a custom view from information in a managed data store |
US8676830B2 (en) | 2004-03-04 | 2014-03-18 | Yahoo! Inc. | Keyword recommendation for internet search engines |
US7698270B2 (en) * | 2004-12-29 | 2010-04-13 | Baynote, Inc. | Method and apparatus for identifying, extracting, capturing, and leveraging expertise and knowledge |
US7805300B2 (en) * | 2005-03-21 | 2010-09-28 | At&T Intellectual Property Ii, L.P. | Apparatus and method for analysis of language model changes |
WO2006125271A1 (en) | 2005-05-27 | 2006-11-30 | Damit Australia Pty Ltd | A digital asset management system |
US7693836B2 (en) * | 2005-12-27 | 2010-04-06 | Baynote, Inc. | Method and apparatus for determining peer groups based upon observed usage patterns |
JP2008152324A (ja) * | 2006-12-14 | 2008-07-03 | National Institute Of Information & Communication Technology | 語彙階層構造抽出方法,装置,およびプログラム |
-
2008
- 2008-10-01 US US12/242,965 patent/US8332439B2/en active Active
- 2008-10-02 EP EP08165783A patent/EP2045734A3/en not_active Ceased
- 2008-10-06 JP JP2008259632A patent/JP5332477B2/ja active Active
- 2008-10-06 CN CN2008101661773A patent/CN101404015B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009093652A (ja) | 2009-04-30 |
EP2045734A3 (en) | 2009-08-12 |
US20090094208A1 (en) | 2009-04-09 |
EP2045734A2 (en) | 2009-04-08 |
JP5332477B2 (ja) | 2013-11-06 |
CN101404015A (zh) | 2009-04-08 |
US8332439B2 (en) | 2012-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101404015B (zh) | 自动生成词条层次 | |
CN101692223B (zh) | 响应于用户输入精炼搜索空间 | |
CN101408886B (zh) | 通过分析文档的段落来选择该文档的标签 | |
CN101408885B (zh) | 利用统计分布对主题进行建模 | |
CN101566997B (zh) | 确定与给定的词集相关的词 | |
CN101408887B (zh) | 推荐词条以指定本体空间 | |
CN101404016A (zh) | 确定文档特异性 | |
CN101364239B (zh) | 一种分类目录自动构建方法及相关系统 | |
WO2004013775A2 (en) | Data search system and method using mutual subsethood measures | |
US20100217742A1 (en) | Generating A Domain Corpus And A Dictionary For An Automated Ontology | |
CN101393565A (zh) | 基于本体的面向虚拟博物馆的搜索方法 | |
CN110795613A (zh) | 商品搜索方法、装置、系统及电子设备 | |
CN101088082A (zh) | 全文查询和搜索系统及其使用方法 | |
Rajkumar et al. | Users’ click and bookmark based personalization using modified agglomerative clustering for web search engine | |
CN101493823B (zh) | 根据单词相关度识别单词聚类 | |
CN101408884A (zh) | 确定单词和文档的深度 | |
Irshad et al. | SwCS: Section-Wise Content Similarity Approach to Exploit Scientific Big Data. | |
Xia et al. | Optimizing academic conference classification using social tags | |
Mehta et al. | From Classical to Quantum: Evolution of Information Retrieval Systems | |
Verma et al. | Comparative Study of Multilabel Classifiers on Software Engineering Q&A Community for Tag Recommendation | |
Boughareb et al. | Positioning Tags Within Metadata and Available Papers‟ Sections: Is It Valuable for Scientific Papers Categorization? | |
Yadav et al. | Ontdr: An ontology-based augmented method for document retrieval | |
Yusuf et al. | Web classification using extraction and machine learning techniques | |
CN118820559A (zh) | 一种基于图数据库实现增强检索生成的方法及系统 | |
Wu | Whisk: Web hosted information into summarized knowledge |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |