CN101404016A - 确定文档特异性 - Google Patents

确定文档特异性 Download PDF

Info

Publication number
CN101404016A
CN101404016A CNA2008101661788A CN200810166178A CN101404016A CN 101404016 A CN101404016 A CN 101404016A CN A2008101661788 A CNA2008101661788 A CN A2008101661788A CN 200810166178 A CN200810166178 A CN 200810166178A CN 101404016 A CN101404016 A CN 101404016A
Authority
CN
China
Prior art keywords
document
specificity
word
degree
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008101661788A
Other languages
English (en)
Inventor
大卫·马尔维特
贾瓦哈拉·贾殷
斯特吉奥斯·斯特吉奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN101404016A publication Critical patent/CN101404016A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Creation or modification of classes or clusters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及确定文档特异性。在一种实施方式中,确定文档特异性包括访问记录文档聚类的记录。根据文档的聚类数确定文档的主题数。根据主题数确定文档的特异性。

Description

确定文档特异性
技术领域
本发明总体上涉及词法(lexigraphical)分析,更具体地说,涉及文档特异性(specificity)的确定。
背景技术
一组(corpus)数据可以包含大量信息,然而查找到相关信息却可能比较困难。关键词搜索是查找信息的主要技术。然而,在特定情况下关键词搜索在定位信息时并不有效。
发明内容
附图说明
图1例示了确定文档特异性的系统10的一种实施方式;
图2例示了可与图1的系统一起使用的相关度模块的一种实施方式;
图3例示了记录基本相关度的相关度矩阵的实施例;
图4例示了记录有向相关度的相关度矩阵的实施例;
图5例示了记录平均相关度的相关度矩阵的实施例;
图6例示了相关度图的实施例;
图7例示了可与图1所示的系统一起使用的聚类模块的一种实施方式;
图8例示了可与图1所示的系统一起使用的本题特征模块的一种实施方式;以及
图9的图例示了字深度分布的一个实施例。
具体实施方式
概述
在一种实施方式中,确定文档特异性包括访问记录有文档的聚类的记录。根据文档的聚类数确定文档的主题数。根据主题数确定文档的特异性。
示例实施方式
在具体实施方式中,领域本体的创建及查询包括以下步骤:
1、收集领域中的文档。在具体实施方式中,文档是词条的集合。文档包括可读文本,例如,书《新约》。文档不需要包括叙述性形式的文本,例如,文档可以包括用户输入的一组标注(tag),其单独及共同地描述了图像的内容。文档的集合可称为“领域文集(domain corpus)”。
2、识别该领域中感兴趣的词条(“词典词条”)。词条的实施例包括单词(诸如“树”)、短语(诸如“图形算法”)、命名实体(诸如“纽约”)等。词条(或概念)可具有不同的形式。在特定情况下,不同的单词用于同一概念,例如,“kidney stones(肾结石)”和“kidney calculi(肾结石)”是指同一概念,即“肾结石”。在其它情况下,词干可具有多种词形变化(inflected variant),例如,词干“tree”具有词形变化“tree”和“trees”。在具体实施方式中,同一词条的各种形式可处理为映射到同一词条。词典词条的任意适当形式可出现在文档中,但是具体词典词条不一定出现在任意文档中。
识别词典词条的方法的实施例包括利用用于特定领域的人造词典,例如,医学词典。在具体实施方式中,可根据文档集中的一组文本串自动地生成词典词条的列表。可以按照频度对这些串进行索引及分类,并且可选择频度大于阈值的串。可使用其它合适的统计方法来确定词条。在具体实施方式中,“单词”可与“词条”及“词典词条”互换。
3、计算给定的共现上下文中词典词条的共现(co-occurrence)数量。如果两个词条中的每一个都在同一共现上下文(co-occurrence context)中至少出现一次,则这两个词条共现。共现上下文的实施例包括文档和段落。
4、创建包括该领域本体的有向加权图(directed weighted graph)。该有向加权图包括作为节点的词典词条以及作为边的权重的相关度。“有向加权图”可以用作可由任意合适的数据结构(例如,矩阵、二值判决图、或二值判决图的集合等)代表的同一信息的实际表达。
5、应用查询该有向加权图的过程。给定一个或更多个词典词条作为输入,该过程输出与输入的词典词条有关的一个或更多个词典词条。例如,该过程可输出一个或更多个词条的分类列表,所述一个或更多个词条针对一个或更多个输入词条具有最高的差分有向相关度(如下所述)。在这种情况下,就该本体涉及的领域而言,该输出包括与输入词条较密切相关的词条。
可使用任意适当的相关度定义。在具体的实施方式中,可使用以下定义:
1、基本相关度
a.词条A与B之间的基本相关度(A)可定义为包括词条A和B这两者的共现上下文的数量与包括词条A或B的共现上下文的数量的比值:
A(A,B)=|AB|/|A or B|
b.词条A与B之间的基本相关度(A)还可定义为包括词条A和B这两者的共现上下文的数量与包括A的共现上下文的数量或包括B的共现上下文的数量中的最大值的比值:
A(A,B)=|AB|/max(|A|,|B|)
2、有向相关度
词条A与B之间的有向相关度(DAff)可定义为在假定共现上下文中观察到了A的情况下观察到B的条件概率:
DAff(A,B)=|AB|/|A|
也就是说,有向相关度可以是包括词条A和B这两者的共现上下文的数量与包括词条A的共现上下文的数量的比值。通常,DAff(A,B)与DAff(B,A)不同。
3、差分有向相关度
词条A和B之间的差分有向相关度(DiffDAff)可定义为:词条A与B之间的有向相关度减去代表该文集中的词条B的常见程度(common-ness)的参数。在该文集中的词条B的常见程度可以是词条B与该文集中的其它词条的基本相关度或有向相关度值的统计值。在具体实施方式中,该文集中的词条B的常见程度可以是词条B的平均相关度(AA),这得到以下差分有向相关度的定义:
DiffDAff(A,B)=DA(A,B)-AA(B)
词条B的平均相关度(AA)或平均有向相关度可定义为:
AA(B)=AVERAGE_x DAff(x,B)
也就是说,平均相关度是术语B与共现上下文中的其他术语的有向相关度的平均值。
图1示出了判断文档特异性的系统10的一种实施方式。在特定实施方式中,系统10根据文档的主题数确定文档的特异性。如果文档具有较少的主题数,则文档较特殊。如果文档具有较多的主题数,则文档较不特殊。在特定实施方式中,系统10执行特异性分析。特异性分析的实施例包括获取满足需要的文档特异性的文档,显示指示文档的特异性的图像元素,以及根据用户文档确定用户特异性。在特定实施方式中,可以根据依据单词之间的相关度所确定出的聚类来确定特异性。
在某些实施方式中,对于给定的单词子集和词典D,可以基于特定的反向索引II计算有向相关度,其中索引II例如包括针对单词wi和wj的条目I(wi)和I(wj)。一般而言,反向索引是存储从词条到它的位置(即词条出现的共现上下文)的映射的索引数据结构。对于D中的每对单词wi和wj,DA(i,j)可以被定义为II中的条目I(wi)和I(wj)的合取(conjunction)值除以I(wi)的数目值。一般而言,DA(i,j)不必等于DA(j,i)。结果可以以任意合适的方式例如以行方式存储,其中D(1,i)被存储,然后D(2,i)被存储,依此类推。对于每行i,可以存储|I(wi)|,接着是与wj的合取的基数(cardinality)。
在特定实施方式中,可以在三个阶段中计算有向相关度。在这些实施方式中,每个词典词条被指派以唯一的整数标识符。反向索引的条目对应于整数标识符。在阶段0,对应于D的II条目被读取。对于参数(s,o),仅形式ks+o的元素标识符被保留。值ks+o定义了将被检验的II条目的子集。以这样的方式,可以并行地计算有向相关度。作为示例,来自参数s,o(1,0)的结果相当于根据参数(3,0)、(3,1)、(3,2)合并计算获得的结果。该步骤允许计算用于很大反向索引的DA表。
在阶段1内,仅仅针对DA(i,j)以行的方式计算了合取。在阶段2内,读取计算出的上三角形UT DA阵列。据此获得作为UT置换的下三角形部分。在特定的实施方式中,可以将多个维数相同的DA并成单个阵列。可以以(s,i)为参数按照sumi=0...(s-1)DA来计算与大II相关的DA数组。可以将附加信息与计算的合取存储起来,以便可以计算有向相关度。在一定的情况中,可以存储II项的基数。
在特定的实施方式中,可以以行的方式存储DA,所以AA条目的计算可以与DA条目的计算并行地进行。具体地,可以通过在从盘中读取DA时对DA的行进行累加并且最后通过词典条目的数量归一化而生成AA。
在示出的实施方式中,系统10包括客户端20、服务器22和存储器24。客户端20允许用户与服务器22通信以便生成语言本体。客户端20可以将用户输入发送到服务器22,并且可以将服务器输出提供(例如显示或打印)给用户。服务器系统24管理用于生成语言本体的应用程序。存储器24存储服务器系统24使用的数据。
在示出的实施方式中,存储器24存储页面50和记录54。页面50(或文档或共现上下文)可以指单词集合。页面50的例子包括一个或更多个文档页面、一个或更多个文档、一本或更多本书、一个或更多个网页、信件(例如电子邮件或即时消息和/或其它单词集合。可以通过页面识别符识别页面50。可以将页面50电子地存储中一个或更多个有形计算机可读介质中。页面50可以与任何适当的内容例如文本(例如字符、单词和/或数字)、图像(例如图形、像片或视频)、音频(例如录音或计算机生成的声音)和/或软件程序相联系。在特定的实施方式中,一组页面50可以属于一个文集。该文集可以与具体的主题、团体、组织或其它实体相联系。
记录54描述了页面50。在该实施方式中,记录54包括索引58、反向索引62、本体66以及聚类67。索引58包括索引列表,其中,页面50的索引列表指示页面50的单词。反向索引62包括反向索引列表,其中,单词(或单词集)的反向索引列表指示包括所述单词(或所述单词集)的页面50。在一个实施例中,列表Wi包括包含有单词wi的页面50的页面标识符。列表Wi&Wj包括合取页面50(其包含单词wi和wj这两者)的页面标识符。列表Wi+Wj包括分取(disjunction)页面50(其包含单词wi或wj)的页面标识符。P(Wi)是Wi中页面50的数量,即,包括单词wi的页面50的数量。
在一种实施方式中,列表(诸如索引列表或反向索引列表)可被存储为二值判决图(BDD)。在一个实施例中,集合Wi的二值判决图BDD(Wi)代表具有单词wi的页面50。BDD(Wi)的满足指定计数(satisfyingassignment count)Satisf(BDD(Wi))得到具有单词wi的页面50的数量P(Wi):
P(Wi)=Satisf(BDD(Wi))
因此,
P(Wi&Wj)=Satisf(BDD(Wi)AND BDD(Wj))
P(Wi+Wj)=Satisf(BDD(Wi)OR BDD(Wj))
本体66代表语言的单词以及这些单词之间的关系。在一种实施方式中,本体66代表单词之间的相关度。在例示的实施例中,本体66包括相关度矩阵和相关度图。参照图3到图5来描述相关度矩阵的实施例。参照图6来描述相关度图的实施例。聚类67记录彼此相关的词的聚类。参照图7更详细地描述这些聚类。
在示出的实施方式中,服务器22包括相关度模块30、聚类模块31以及本体特征模块32。相关度模块30可以计算单词对的相关度、记录相关度矩阵中的相关度和/或报告相关度矩阵。相关度模块30还可以产生相关度图。将参照图2更详细地描述相关度模块30。
在特定实施方式中,聚类模块31可以通过识别数据集内相关元素的聚类发现数据集内的模式(pattern)。在特定实施方式中,聚类模块31可以识别一组单词(例如,针对一种语言或一组页面50)的聚类。一般而言,聚类单词彼此高度相关,但是不与聚类外的单词高度相关。单词聚类可以指示单词集的主题(或题目)。在特定实施方式中,聚类模块31根据单词之间的相关度识别相关单词的聚类。在这些实施方式中,聚类单词彼此高度相关,但是不与聚类外的单词高度相关。将参照图7更详细地描述聚类模块31。
在特定实施方式中,本体特征模块32可以确定一组一个或更多个单词(例如,特定单词或包括单词的文档)的一个或更多的本体特征,且然后可以在某种变化的情况下应用本体特征。本体特征是在语言的本体空间中放置单词集的单词集的特征。本体特征的实施例包括深度和特异性。在特定实施方式中,深度可以指示单词集的原文复杂度。较深的单词集可以较技术和专业,而较浅的单词集可以较常见。在具体实施方式中,单词集的特异性涉及单词集的主题数目。较特殊的单词集可以具有较少的主题,而较不特殊的单词集可以具有较多的主题。
本体特征模块32可以在任意合适的情况下应用本体特性。合适的情况的示例包括根据本体特征搜索、分类或选择文档;报告文档的本体特征;以及确定一个或更多个用户的文档的本体特征。将参照图8更详细地描述本体特征模块32。
系统10的组件可以包括接口、逻辑、存储器和/或其他合适的元件。接口接收输入、发送输出,处理输入和/输出,和/或执行其他合适的操作。接口可以包括硬件和/或软件。
逻辑执行这些组件的操作,例如,执行指令以根据输入产生输出。逻辑可以包括硬件、软件和/或其他逻辑。逻辑可以在一个或更多个有形介质中编码且当被计算机执行时可以进行操作。某些逻辑,例如,处理器,可以管理组件的操作。处理器的实施例包括一个或更多个计算机、一个或更多个微处理器、一个或更多个应用和/或其他逻辑。
存储器存储信息。存储器可以包括一个或更多个有形的、计算机可读的和/或计算机可执行的存储介质。存储器的示例包括计算机存储器(例如,随机存取存储器(RAM)或只读存储器(ROM),)、海量存储介质(例如,硬盘)、可移动存储介质(光盘(CD)或数字视频光盘(DVD))、数据库和/或网络存储器(例如,服务器)以及/或其他计算机可读介质。
可以对系统10做出修改、添加或删减而不偏离本发明的范围。系统10的组件可以是集成的或分立的。而且,系统10的操作可以通过更多或更少或其他组件实施。例如,生成器42和46的操作可以通过一个组件执行,或者相关度计算器34的操作可以通过多于一个的组件执行。另外,系统10的操作可以使用任意合适的逻辑实施,包括软件、硬件和/或其他逻辑。当在本文档中使用时,“各个(each)”表示集合中的各个成员或集的子集中的各个成员。
可以对矩阵的实施例做出修改、添加或删减而不偏离本发明的范围。矩阵可以包括更多的、更少的或其他的值。另外,矩阵的值可以以任意合适的顺序布置。
图2示出了可以与图1的系统10一起使用的相关度模块30的一种实施方式。相关度模块30可以为单词对计算相关度、在相关度矩阵中记录相关度以及/或者报告相关度矩阵。相关度模块30还产生相关度图。
在所示出的实施方式中,相关度模块30包括相关度计算器34、本体生成器38和单词推荐器48。相关度计算器34为单词wi或包括第一单词wi和第二单词wj的单词对计算任意类型的相关度。相关度的实施例包括基本相关度、有向相关度、平均相关度、差分相关度和/或其他相关度。
在一种实施方式中,单词推荐器48接收种子单词且识别与该种子单词之间的相关度大于阈值相关度的单词。阈值相关度可以具有任何适当的值,诸如大于或等于0.25、0.5、0.75或0.95。阈值相关度可以被预编程或由用户设定。
基本相关度可以根据包括单词wi和/或wj的页面50的数量(例如,数目)计算。合取页面数量代表包括单词wi和单词wj两者的页面50的数量。分取页面数量代表包括wi或wj的页面50的数量。通过将合取页面数量除以分取页面数量,可以给出基本相关度。在一个实施例中,合取页面数表示包括单词wi和单词wj的页面数,而分取页面数表示包括单词wi或wj的页面数。通过将合取页面数除以分取页面数可以给出基本相关度:
Affinity(wi,wj)=P(Wi&Wj)/P(Wi+Wj)
图3例示了记录基本相关度的相关度矩阵110的实施例。在所例示的实施例中,相关度矩阵110记录单词w1,...,w5的逐对相关度。根据相关度矩阵110,单词w0与w1之间的相关度是0.003,单词w0与w2之间的相关度是0.005,以此类推。
返回参照图1,相关度组包括彼此具有高相关度的单词对,并可用于针对页面内容而获得单词w1和w2之间的关系。较高的相关度可指定为大于相关度组阈值的相关度。阈值可以设定为任意合适的值,例如大于或等于0.50、0.60、0.75、0.90或0.95。一个单词可属于多于一个的相关度组。在一种实施方式中,相关度组可表示为BDD。用于该BDD的指针可与该组的各个单词一起存储在反向索引62中。
有向相关度可用于测量单词wi对于wj的重要性。相关度计算器34根据包括单词wi和wj的页面50的数量(例如,数目)来计算单词wi与给定单词wj的有向相关度。单词wj页面数量表示包括单词wi的页面50的数量。单词wi与给定单词wj的有向相关度可通过合取页面数量除以单词wj页面数量得到。例如,单词wj页面的数量指示包括单词wi的页面50的数量。单词wi与给定单词wj的有向相关度可通过合取页面50的数量除以单词wi页面50的数量得到:
DAffinity(wi,wj)=P(Wi&Wj)/P(Wi)
DAffinity(wi,wj)与DAffinity(wj,wi)不同。单词wi与wj之间的高有向相关度DAffinity(wi,wj)指示在页面50包括单词wj的情况下页面50包括单词wi的概率较高。在一个实施例中,页面[123456]包括单词wi,而页面[42]包括单词wj。包括单词wj的页面也包括单词wi,因此从单词wj的角度,单词wi具有较高的重要性。包括单词wi的页面中仅有三分之一的页面也包括单词wj,因此从单词wi的角度,单词wj具有较低的重要性。
图4例示了记录单词w0,...,w5的有向相关度的相关度矩阵120。在该实施例中,单词124是A单词,而单词128是B单词。矩阵120的各行记录了B单词与给定A单词的相关度,而矩阵120的各列记录了A单词与给定B单词的相关度。
返回参照图1,针对其它单词wj来计算单词wi的平均相关度。在一种实施方式中,平均相关度可以是单词wi与其它各个单词wj之间的相关度的平均。N个单词中的单词wi的平均相关度可由下式给出:
AveAff ( w i ) = 1 N Σ j = 1 N P ( w i | w j )
图5例示了记录平均相关度的相关度矩阵140的实施例。行142记录单词1到单词50,000的基本相关度。行144记录单词1到单词50,000的平均相关度。
返回参照图1,单词的平均相关度可指示该单词的深度(depth)。具有较低平均相关度的单词可认为是较深的单词,而具有较高平均相关度的单词可认为是较浅的单词。较深的单词倾向于更技术、更具体和更精确。较深单词的百分比较高的页面50可被认为是较深的页面,而较深单词的百分比较低的页面50可被认为是较浅的页面。在一种实施方式中,用户可指定要提取的单词和/或页面50的深度。
页面50的较深的单词可形成具有高度相关单词的一个或更多个聚类(cluster)。聚类可表示共同思想或主题。页面50的主题的数量可指示页面50的特异性。具有较少主题的页面50可被认为是较特殊的,而具有较多主题的页面50可被认为是较不特殊的。
单词wi相对单词wj的差分相关度是单词wi与单词wj之间的有向相关度减去单词wi相对其它全部单词的平均相关度。差分相关度可表示为:
DiffAff(wi,wj)=DAffinity(wi,wj)-AveAff(wj)
差分相关度排除了由单词wi在页面50中出现的一般趋势而造成的偏差(bias)。在具体情况下,差分相关度可提供针对给定了页面包括单词wj情况下该页面包括单词wi的概率的更精确指示。
差分相关度可用于多种应用。在一个实施例中,人名之间的差分相关度可用于研究社会网络。在另一实施例中,语言元素之间的差分相关度可用于研究自然语言处理。在另一实施例中,产品之间的差分相关度可用于研究营销。
相关度计算器34可使用任意合适的技术来搜索反向索引列表,以计算相关度。例如,为了识别包括单词wi和单词wj这两者的页面,相关度计算器34可搜索单词wi的列表Wi以及单词wi的列表Wj,以获得公共元素,即公共页面标识符。
在特定实施方式中,本体生成器38产生语言的本体66,诸如相关度矩阵或相关度图。本体可以根据任意合适的相关度产生,诸如根据基本相关度、有向相关度、平均相关度、差分相关度和/或其他相关度产生。本体66可以以任意方式根据从语言中选出的单词产生。例如,可以选择来自于语言的普遍使用部分的单词或涉及一个或更多个特定主题领域的单词。
在所示出的实施方式中,本体生成器38包括相关度矩阵生成器42和相关度图生成器46。相关度矩阵生成器42产生相关度矩阵,该相关度矩阵记录单词之间的相关度。相关度图生成器46产生相关度图,该相关度图代表单词之间的相关度。在相关度图中,节点代表单词,节点之间的有向边的权重代表节点代表的单词之间的相关度。相关度图可以具有任意适当大小的维数。
图6示出了相关度图150的示例。相关度图150包括节点154和链路158。节点154代表单词。在该实施例中,节点154a代表单词“二进制”。节点154之间的节点有向边的权重代表节点154代表的单词之间的相关度。例如,较大的权重代表较大的相关度。节点之间的链路158表示节点154代表的单词之间的相关度大于相关度阈值。相关度阈值可以具有任意合适的值,例如,大于或等于0.25、0.5、0.75或0.95。
图7示出了可以与图1的系统10一起使用的聚类模块31的一种实施方式。在特定实施方式中,聚类模块31通过识别数据集中的相关元素的聚类发现数据集中的图案。在特定实施方式中,聚类模块31可以识别一组单词(例如,语言或一组页面50)的聚类。一般而言,聚类单词彼此高度相关,但是不与聚类之外的单词高度相关。单词的聚类可以指示该组单词的主题(或题目)。
在特定实施方式中,聚类模块31根据单词之间的相关度识别相关单词的聚类。在该实施方式中,聚类的单词彼此高度相关,但是不与聚类外的单词高度相关。在一种实施方式中,如果单词足够相关,它们可以被认为高度相关。如果单词满足一个或更多个相关度标准(例如阈值),单词可以足够相关,标准的实施例在下面提供。
任意合适的相关度都可用于识别聚类。在特定实施方式中,聚类模块31使用有向相关度。单词相对其他单词的有向相关度表征了单词的共现。聚类包括具有相似共现的单词。在特定实施方式中,聚类模块31使用差分相关度。差分相关度旨在去除单词在页面50中出现的一般趋势导致的偏差。
在所示出的实施方式中,聚类模块31包括聚类引擎210和聚类分析器214。聚类引擎210根据相关度识别单词的聚类,且聚类分析器214应用相关度聚类以分析各种情况。
聚类引擎210可以以任意合适方式根据相关度识别单词的聚类。用于识别聚类的方法的三个实施例为:根据一组单词建立聚类,将单词分入聚类,以及比较单词的相关度向量。在一种实施方式中,聚类引擎210根据一组单词建立聚类。在一种实施方式中,聚类引擎210根据具有相关度*Aff(wi,wj)的单词{wi}的集W建立聚类S。相关度值*Aff(wi,wj)代表单词wi相对于wj的任意合适类型的相关度,诸如有向相关度DAffinity(wi,wj)或差分相关度DiffAff(wi,wj)。这里提供的相关度值的某些实施例可以被认为是归一化值。在该实施例中,Afffor(wi,wj)代表前向相关度,且Affback(wj,wi)代表后向相关度。
在该实施例中,聚类S开始于种子单词wq。当前单词wx代表在当前迭代中与来自集W的单词比较的聚类S的单词。最初,当前单词wx被设置为种子单词wq
在迭代中,当前单词wx被设置为聚类S的单词。集W的单词wi根据它们与当前单词wx的前向聚类Afffor(wi,wx)分类。从分类集W的起点开始,识别满足相关度标准的候选单词wc。相关度标准可以包括与当前单词wx的前向相关度标准:
Afffor(wc,wx)>Thcf
以及与种子单词wq的后向相关度标准:
Affback(wq,wc)>Thcb
其中Thcf代表候选单词的前向阈值,Thcb代表候选单词的后向阈值。候选单词{wc}的有序集的第一单词被添加到聚类S,添加的单词数由参数Sizec给出。阈值Thcf和Thcb可以为范围从最小值到最大值的任何适当值的浮点参数。在特定的实施例中,阈值Thcf和Thcb的适当值可以根据实际相关度的等级列表确定。例如,可以使用列表的第200个值。参数Sizec可以是具有任意合适值的整数参数。合适的值的实施例包括缺省值1、2、3或4。在特定实施方式中,参数可以在特定迭代处变化。
可以执行任意合适数目的迭代。在一个实施例中,可以在方法启动之前指定迭代数目。在另一实施例中,可以在方法的执行过程中计算次数。例如,可以根据聚类S的尺寸的生长速度计算次数。
在另一实施方式中,聚类引擎210通过将一组单词中的单词分类成聚类来识别聚类。在一个实施例中,集W的单词{wi}根据相关度*Aff(wi,wj)(诸如差分相关度或有向相关度)分类。在另一实施例中,单词{wi}根据聚集函数分类,例如,根据单词wi的与单词分离集Q中的各个成员的相关度之和分类。集W可以以任意合适的方式选择。例如,集W可以是与查询最相关的X个单词,其中X可以是任意合适的值,诸如从10至100、100至200或等于或大于200的值。
在该实施例中,聚类最初为空。集W的第一单词wi被放置在聚类中。在每次迭代,当前单词wx从集W中选择。如果*Aff(wx,wf)满足相关度阈值Th给出的相关度标准,则当前单词wx被放入到聚类,其中wf代表聚类中放置的第一单词。阈值Th可以具有任意合适的值,例如,0.1至0.5范围的值(最小值为0.0和最大值为1.0)。如果*Aff(wx,wf)不满足阈值Th,则当前单词wx被置于空聚类。针对集W中的每个单词重复该迭代。
在处理了集W的单词之后,小聚类可以被消除。例如,可以消除具有少于Y个单词的聚类。Y可以具有任意合适的值,诸如3至5、5至10、10至25、25至50,或大于等于50的范围中的值。
如果聚类的数目不在满意的范围内,则可以使用不同的阈值Th重复该处理,该不同的阈值Th给出了针对在聚类中进行放置的较严格或较宽松的标准。满意的范围可以由具有任意合适值的聚类数目最小值和聚类数目最大值给出。合适值的实施例包括针对最小值的1至5、5至10或大于或等于10范围的值,以及针对最大值的10至15、15至20或大于或等于20的范围中的值。可以增加阈值Th的值以增加聚类的数目,且可以减小阈值Th的值以减小聚类数目。
在另一实施方式中,聚类引擎210通过比较单词的聚类向量识别聚类。在特定实施方式中,相关度矩阵的行和列可以得出聚类向量<wi,*Aff(wi,w1),...,*Aff(wi,wj),...,*Aff(wi,wn)>,这代表单词wi相对于单词wj的相关度,j=1,...,n。相关度值*Aff(wi,wj)代表单词wi相对于单词wj的任意合适类型的相关度,例如,有向相关度或差分相关度。
在特定实施方式中,具有相似相关度值的相关度向量可以表示聚类。仅用于描述目的,相关度向量可以被认为是相关度空间中单词的相关度的坐标。即,每个相关度值*Aff(wi,wj)可以被认为是特定维数的坐标。具有相似相关度值的相关度向量表示这些向量与之相关的单词在相关度空间彼此靠近。即,这些向量表示这些单词与其他单词具有类似相关度关系,且因而可以适用于相同聚类中的成员关系。
如由合适的距离函数所确定的,如果一个相关度向量接近另一相关度向量,则这些相关度向量相似。距离函数可以基于相关度向量定义为例如针对给定尺寸的向量的标准欧几里得距离,或者给定尺寸的向量的余弦。距离函数可以通过聚类引擎210或通过用户指定。
在特定实施方式中,聚类引擎210应用聚类算法以识别值彼此接近的相关度向量。聚类算法的示例包括直接算法、重复二等分算法、聚合算法、偏差聚合算法和/或其它适当算法。在一个实施例中,聚类引擎210可以包括聚类软件,诸如CLUTO。
聚类分析器214可以在任意合适的应用中使用相关度聚类以用于分析。在一种实施方式中,聚类分析器214可以使用相关度聚类对页面50进行分类。类可以与聚类标识符或一个或更多个聚类成员相关。在一个实施例中,页面50的聚类被识别,然后可以根据聚类对页面50进行分类。在另一实施例中,可以选择页面50的重要单词,然后定位包括该单词的聚类。然后根据定位的聚类对页面50进行分类。
在一种实施方式中,聚类分析器214可以使用相关度聚类来分析页面50的文集。文集可以与特定主题、一个或更多个个体的社团、组织或它们的实体相关。在一个实施例中,聚类分析器214可以识别文集的聚类且根据聚类确定文集的文集特性。文集特性可以表示与实体(所述实体与文集相关)相关的单词。如果一个或更多的页面50具有文集特征的聚类,则页面50可以与该实体相关。
在一种实施方式中,针对搜索查询歧义消除和扩展,聚类分析器214可以使用相关度聚类。在该实施方式中,聚类分析器214识别包括给定搜索查询的搜索词条的聚类。聚类提供与给定搜索查询相关的另选单词和/或分类。在一个实施例中,来自于聚类的单词可以被报告给搜索者以帮助下一次搜索查询。在另一实施例中,聚类分析器214可以从聚类选择单词且自动地形成一个或更多个新的搜索查询。聚类分析器214可以顺序地或并行地运行新的查询。
在一种实施方式中,聚类分析器214可以使用相关度聚类来研究社会网络。在一个实施例中,页面50可以提供对社会网络的了解。这种页面的实施例包括信件(诸如信、电子邮件和即时消息)、备忘录、文章和会议记录。这些页面50可以包括包含社会网络的中的人的用户标识符(诸如名字)的单词。可以识别名字的聚类以分析该网络中的人之间的关系。在一个实施例中,差分相关度聚类可用于过滤页面50中的出现最多的名字,而不提供诸如系统管理员的名字之类的信息。
在特定实施方式中,聚类分析器214可以通过组合和/或比较数据集的聚类来分析数据集。在一种实施方式中,比较交叠数据集的聚类。一个数据集的聚类可以映射到其他数据集的聚类,这可以提供两个数据集之间的关系的洞察。例如,数据集可以来自于对一组同事的文档的分析且来自于该组的社会网络研究。社会网络聚类可以映射到文档主题聚类以分析该社会网络与该主题之间的关系。
图8示出了本体特征模块32的一种实施方式。本体特征模块32可以确定一组一个或更多个单词(例如,特定单词或包括单词的文档)的一个或更多的本体特征,且然后可以在任意各种情况下应用本体特征。一个或更多单词的集合可以包括文档的关键词条。如果与词条t相关的前k个词条中的至少一个也出现在文档中,则词条t可以是关键词条。否则,词条对于文档可能是不关键的。
本体特征是一种量化指标,其在语义学方面沿着可以区分文档的一个或更多个特征轴,将文档从给定领域的其他文档中区别开来。例如,文档的深度可以在可理解性方面对文档进行区分,文档的特异性可以在其侧重点方面对文档进行区分,且文档的主题可以在文档考虑的主题范围方面对文档进行区分。本体特征可以以任意合适的方式定义。例如,计算机语言学中的独立的算法可用于表征文档的可读性或深度。
在所示出的实施方式中,本体特征模块32包括深度引擎230、主题引擎240、特异性引擎244和本体特征(OF)应用引擎250。深度引擎230可以确定一个或更多个单词(例如特定单词或包括单词的文档)的深度。一般而言,深度可以指示单词的原文复杂度。较深的单词可以较技术和专业,而较浅的单词可以较常见。在特定实施方式中,深度模块32可以计算文档的单词的深度且然后根据单词的深度计算文档的深度。在特定实施方式中,深度引擎230可以为文档和/或单词指定深度值和/或深度等级。可以向较深的文档或单词指派较高的深度值或等级,且可以向较浅的文档或单词指派较浅的深度值或等级。
深度引擎230可以以任意合适的方式计算单词深度。在特定实施方式中,深度引擎230根据平均相关度计算单词深度。在实施方式中,单词的深度是单词的平均相关度的函数。较深的单词可以具有较低的平均相关度,而较浅的单词可以具有较高的平均相关度。在特定实施例中,深度引擎230可以通过根据它们的平均相关度排列单词而计算单词的深度。具有较低平均相关度的单词可以被给予较高的深度等级,且具有较高平均相关度的单词可以被给予较低的深度等级。
在特定实施方式中,深度引擎230可以使用聚类分析计算单词深度。在实施方式中,聚类的单词彼此高度相关,但是与聚类外的单词较少相关。可以根据相关度测量聚类空间中的距离,所述相关度可以是深度的指示器。在特定实施方式中,属于较少聚类的单词或属于较小和/或远离其他聚类的聚类的单词可以被认为较深,且属于较多聚类或属于较大和/或与其他聚类靠近的聚类的单词可以被认为较浅。
在其他特定实施方式中,深度引擎230可以通过对相关度图150应用链路分析计算单词深度。可以通过任意合适的链路分析算法(例如PAGERANK)执行所述链路分析。仅用于说明目的,图6的相关度图150可用于计算单词深度。相关度图150包括节点154和链路158。节点154代表单词。节点154之间的链路158指示节点154代表的单词之间的相关度大于相关度阈值,即,该单词令人满意地相关。
在特定实施方式中,深度引擎230计算节点154的普遍性(popularity)。较普遍的节点154可以代表较浅的单词,而较不普遍的节点154可以代表较深的单词。第一节点154到第二节点154之间的链路136被认为是第一节点154对第二节点154的普遍性选票。另外,来自较普遍节点154的选票可以比来自较不普遍的节点154具有更大的权重。而且,第一节点154与第二节点154的相关度加权了该选票。深度引擎230根据对节点154的加权选票计算节点154的普遍性。较不普遍的单词可以被认为较深,且较普遍的单词被认为较浅。
深度引擎230可以以任意合适的方式计算文档深度。在特定实施方式中,深度引擎230根据文档的至少一个、某些或全部单词的深度计算文档的深度。在特定实施方式中,单词深度通过平均相关度给定,使得文档深度可以根据文档的单词的平均相关度计算。例如,文档的浅度可以是文档的单词的平均相关度平均,即,文档的各单词的平均相关度的总和除以文档中的单词的总数。文档的深度然后计算为文档的浅度的倒数。
在特定实施方式中,可以根据文档的一组选定的单词的平均深度计算深度。所选的组可以包括文档的关键性的单词,诸如最高(最深)的X%的单词,其中X可以小于10、10至20、20至30、30至40、40至50、50至60、60至70或大于10。所选的组可以排除P%的标准语法单词和/或Q%的停顿词(stop word),其中P和Q具有任意合适的值,诸如小于10,10至20、20至30、30至40、40至50、50至60、60至70或大于10。
在特定实施方式中,深度引擎230根据文档中单词深度的分布计算文档的深度。在特定实施方式中,较深的文档可以具有较高百分比的较深单词。参照图9更详细地描述单词深度的分布的实施例。
图9是示出了单词深度的分布的实施例的图240。图240示出了具有特定单词深度的文档的单词的百分比。在特定实施方式中,深度引擎230可以丢弃超过最大阈值Thmax的单词深度的单词。在特定实施方式中,深度引擎230可以根据具有这样的单词深度的单词计算文档深度,即该单词深度处于大于处理阈值Thproc且低于最大阈值Thmax(如果存在)的处理范围内。百分比X%代表不处理的单词的百分比,且百分比Y%代表处理的单词的百分比。百分比Y%可以具有任意合适的值,诸如2%至5%、5%至10%、或10%、或更大的范围的值。在某些实施方式中,深度引擎230可以根据所选的单词计算文档深度。例如,深度引擎230可以选择语言中的频率范围内的单词,诸如最前的Z个单词,其中Z可以是10,000至50,000、或大于或等于50,000的范围中的值。
返回图8,在特定实施方式中,深度引擎230根据文档相关度计算文档深度。文档之间的相关度描述了文档之间的关系。在特定实施方式中,平均文档相关度可以以类似于平均单词相关度怎样指示单词深度的方式,指示文档深度。文档相关度可以以任意合适的方式定义。在一个实施例中,公共单词数P(D1&D2)表示文档D1和D2中都存在的单词的数目,而分立单词数P(D1+D2)表示存在于文档D1或D2中的单词的数目。文档D1和D2之间的文档相关度DocAff可以定义为:
DocAff(D1,D2)=P(D1&D2)/P(D1+D2)
深度引擎230可以以类似于计算平均单词相关度的方式计算平均文档相关度。具有较低平均相关度的文档可以被认为是较深的,且具有较高平均相关度的文档可以认为是较浅的。
在特定实施方式中,深度引擎230可以通过向文档相关度图应用链路分析计算文档深度。文档相关度图可以类似于相关度图150,只不过文档相关度图的节点代表文档而不是单词。深度引擎230使用第二文档相对于给定的第一文档的文档相关度来加权从代表第一文档的节点到代表第二文档的第二节点的链路。然后可以归一化外向链路的权重。
在特定实施方式中,深度图可以在用户界面上显示以显示文档的深度。用于选择深度级别的深度滑动器也可以被显示。在某些实施方式中,如果文档包括较大文档的部分,则深度图可以指示这些部分的深度。
在某些实施方式中,深度引擎230可以以任意其他合适的方式计算文档深度,例如处理文档的相关度直方图和/或基于深度而截取不同单词的百分比然后处理直方图。其他方法包括Gunning-Fog、Flesch或Fry方法。
在特定实施方式中,深度引擎230可以通过映射深度值到特定深度级别来校准深度。在某些实施方式中,范围Ri中的深度值可以被映射到级别Li。例如,可以将R0={r0:r0<c0}映射到级别L0,,将R1={r1:c0<r1<c1}映射到级别L1,...,,且将Rn={rn:cn<rn}映射到级别Ln。这些范围可以包括任意合适的深度值且不需要是相同的尺寸。可以存在任意合适的级别数,诸如小于5、5到7、7或8、8到10、10到20、20至50、50至100或大于100。
主题引擎240可以确定文档的主题(或题目)。在特定实施方式中,主题引擎240根据文档的单词的聚类确定主题,该聚类可以通过聚类模块31识别。如上所述,单词的聚类可以指出单词集的主题(或题目)。文档的主题可以提供关于文档的内容的有用信息。例如,例如,包括聚类{肾脏、肾、蛋白质、问题}的文档可能与由于肾功能虚弱导致的蛋白质从肾的流失有关而不是与肾脏(kidney bean)的蛋白质含量有关。
在特定实施方式中,主题引擎240根据主题图确定主题。在这些实施方式中,使用任意合适的技术从文档提取关键词,这些技术例如,词频率-逆向文档频率(TF-IDF)技术。关键词用于根据主题图选择候选主题。候选主题与文档相比较以确定主题与文档的匹配程度。在特定实施例中,候选主题的直方图可以与文档的直方图比较。如果候选主题与文档匹配,则主题可以提供文档的类型和主题的数目的评估。
特异性引擎240可以计算文档的特异性。在特定实施方式中,特异性引擎240可以为文档指派特异性值和/或特异性等级。较特殊的文档可以被指派较高的特异性值或等级,且较不特殊的文档可以指派较低的特异性值或等级。
在特定实施方式中,特异性引擎240根据文档的主题数计算特异性。在特定实施例中,较特殊的文档可以具有较少的主题,且较不特殊的文档可以具有较多的主题。在特定实施方式中,特异性引擎240根据文档的主题数以及这些主题之间的相关度计算特异性。在特定实施例中,较特殊的文档可以具有较少的主题,主题之间具有较高的相关度,且较不特殊的文档可以具有较多的主题,主题之间具有较低的相关度。
在特定实施方式中,主题数可以取决于深度(或级别)。例如,较浅深度的单个主题可以代表较深深度的多个主题。在特定实施方式中,用户可以使用深度滑动器选择级别或可以预先确定级别。在特定实施方式中,级别可以被用户选择或者预定义。例如,可以定义任意合适数目的级别,且可以根据级别计算深度。例如,级别可以是基于领域(例如,工程、医学、新闻、体育或金融领域)、基于专业(例如,低血压、胆固醇、心病学、眼科学或肾脏专业)、基于课题(例如,体位性低血压、搭桥手术或动脉阻断题目)、基于细节(例如,体位性低血压、慢性低血压或急性低血压细节)、基于消退(resolution)(例如,老年病因、药学、或遗传消退)、基于个人的(例如,用户查询级别)。
本体特征应用引擎250可以应用本体特征(诸如深度、主题或特异性)从而在任意合适的情况下执行本体特征分析。合适的情况的示例包括:根据本体特征搜索、分类、推荐或选择文档;报告文档的本体特征;且确定一个或更多个用户的文档(或文集)的本体特征。在具体实施方式中,本体特征应用引擎250可以使用包括关于本体特征的信息的索引。在一个实施例中,本体特征应用引擎250使用根据深度等级产生和/或维持的文档深度(DD)反向索引62。DD反向索引62包括DD反向索引列表,其中用于单词的DD反向索引列表列出了包括该单词的文档(或页面50)的文档标识符。文档的文档标识符可以表示文档的深度。例如,用于编码文档标识符的二进制编码可以表示深度。在某些情况下,DD反向索引列表可以仅列出满意深度的文档。在另一实施例中,除了反向索引62之外,本体特征应用引擎250还使用等级表和深度表。深度表可以表示文档的深度。
在特定实施方式中,本体特征应用引擎250使用本体特征的特定值(诸如文档深度或特异性的指定值)搜索文档。特定值可以被预定义、计算或由用户选择。在特定实施方式中,该值可以使用深度滑动器和/或特异性滑动器选择。
在特定实施方式中,本体特征应用引擎250可以使用本体特征作为分类标准以分类文档。例如,本体特征应用引擎250可以根据文档深度和/或相对于主题的特异性以及其他分类标准分类文档。在某些实施例中,本体特征应用引擎250搜索DD反向索引62以获得根据文档深度分类的文档。在某些实施例中,本体特征应用引擎250使用非DD反向索引62搜索文档且然后根据深度分类文档。
在特定实施方式中,本体特征应用引擎250可以向客户端20图形地显示本体特征的值。图形显示可以提供某些或全部的文档,例如,搜索结果的前X%的文档。本体特征可以以任意合适的方式呈现。在某些实施例中,诸如数字、单词、或图标之类的图形指示符可以指示值。图形指示符例如可以靠近搜索结果列表中的项、在线新闻的标题或文档图标放置。在某些实施例中,现有的图标(iconograph)的变更可以表示值。例如,图形指示符或文本的大小、字体、类型、颜色可以指示值。在另一实施例中,图表可以指示值。本体特征直方图可以包括文档数量轴和本体特征轴,且可以指示特定本体特征值的文档数量。例如,包括文档数量轴和文档深度轴的文档深度直方图可以指示特定文档深度的文档数量。
在特定实施方式中,文档特征应用引擎250可以允许用户请求搜索具有特定本体特征值的文档。可以允许用户指定用于查询的不同单词的值。在特定实施例中,本体特征应用引擎250可以为用户提供选项以选择深度,用户然后可以输入所选的深度。这些选项可以以任意合适的方式呈现,诸如以:(i)绝对词条(例如,代表深度的数值或数值范围);(ii)相对词条(例如,搜索结果相对于深度的比例,诸如,“最深的X%”);(iii)语义学词条(例如,‘介绍性的’、‘浅’、‘深’、‘很深’和/或‘高度专业’);(iv)图形词条(例如,滑动器、按钮和/或其他图形元素)或(v)词条的任意合适的组合(例如具有语义学标签的滑动器)。在某些情况下,滑动器可以包括浅端和深端。用户可以移动滑动器朝向一端或另一端以指示所选的深度。当提供搜索结果时,文档深度直方图可以通过滑动器呈现,且可以使用滑动器作为文档深度轴。
在特定实施方式中,本体特征应用引擎250可以计算一组一个或更多个用户的本体特征特性。本体特征特性可以包括用户深度和主题语境中的用户特异性。本体特征特性描述了与用户设置相关的文档的本体特征。例如,科学家比三年级学生使用更深的文档。可以相对于一个或更多的主题给出本体特征特性。例如,遗传学家在遗传性领域可以比他在诗歌领域使用更深的文档。本体特征特性可用于确定用户的专业技术、自动为用户建立简历,且分析用户社会网络。
可以分析与用户相关的任意合适的文档以评估本体特征特性,例如,信件(诸如电子邮件和即时通讯)、网页和搜索历史(诸如搜索查询和选择的页面)。在具体实施方式中,本体特征应用引擎250可以随时间跟踪本体特征特性,且可以使用过去的特性来预测未来的特性。在特定实施例中,本体特征应用引擎250可以假设用户深度和/或特异性一般随时间和/或在区域中的活动增加。
在特定实施方式中,本体特征应用引擎250可以组合某些操作。例如本体特征应用引擎250可以监控用户的深度且然后根据用户深度搜索文档。在一个实施例中,监控用户深度,且根据该深度,向用户提供新闻。未来的用户深度被预测,且适合该预测出的深度的新闻被提供。
本发明的某些实施方式可以提供一个或更多的技术优点。一种实施方式的技术优点可以是可以根据文档的主题数确定文档的特异性。如果文档具有较少数目的主题,则该文档可能更加特殊。如果文档具有较高数目的主题数,则该文档可能较不特殊。一种实施方式的另一技术优点可以是能执行特异性分析。特异性分析的实施例包括获取满足要求的文档特异性的文档,帮助显示指示该文档特异性的图形元素以及根据用户文档确定用户特异性。本发明的特定实施方式可能不包括上述技术特点,包括上述技术特点的某些或者全部。根据此处包括的附图、说明和权利要求,对于本领域技术人员而言,一个或更多的技术特点是显而易见的。
尽管已经根据某些实施方式描述了本公开,但这些实施方式的变型和改变对于本领域技术人员而言是显见的。因此,实施方式的上述描述并不限制本公开。在不偏离所附权利要求限定的本发明的精神和范围的情况下,可以做出其他变型、替代和变更。
相关申请
本申请要求由David Marvit等于2007年10月5日提交的题目为“文档主题及特异性的确定及应用”的美国临时申请序列号No.60/977,781的优先权。

Claims (22)

1.一种方法,所述方法包括以下步骤:
访问一个或更多个有形介质中存储的记录,该记录记录了多个文档的多个聚类,文档包括多个单词,聚类包括所述多个单词中的多个满意地相关的单词,聚类指示主题;
确定所述多个文档的至少一个子集中的各个文档的主题数;以及
通过下面的步骤根据所述主题数确定所述各个文档的特异性:
如果该个文档具有较少主题数,则确定该个文档较特殊;以及
如果该个文档具有较多主题数,则确定该个文档较不特殊。
2.根据权利要求1所述的方法,所述确定所述多个文档的至少一个子集中的各个文档的主题数还包括以下步骤:
确定所述各个文档的聚类数;以及
根据所述聚类数计算所述各个文档的所述主题数。
3.根据权利要求1所述的方法,所述确定所述多个文档的至少一个子集中的各个文档的主题数还包括以下步骤:
识别针对要确定主题数的深度;以及
针对识别出的深度确定主题数。
4.根据权利要求1所述的方法,所述确定所述多个文档的至少一个子集中的各个文档的主题数还包括以下步骤:
从所述各个文档中选择多个关键词;
识别与所述关键词相关的一个或更多个候选主题;以及
如果所述一个或更多个候选主题与所述文档相匹配,则确定所述一个或更多个候选主题为所述文档的主题。
5.根据权利要求1所述的方法,所述方法还包括通过以下步骤执行特异性分析:
接收包括文档特异性请求的搜索查询;以及
获取所述多个文档中满足所述搜索查询和所述文档特异性请求的一个或更多个文档。
6.根据权利要求1所述的方法,所述方法还包括通过以下步骤执行特异性分析:
对所述多个文档中的各个文档的特异性进行图形显示,所述图形显示包括从图形指示符、图形变更和图表组成的集合中选出的元素。
7.根据权利要求1所述的方法,所述方法还包括通过以下步骤执行特异性分析:
接收搜索查询;
获取满足所述搜索查询的文档集;以及
根据所述文档集的所述文档的特异性来分类所述文档集。
8.根据权利要求1所述的方法:
所述多个文档与一个或更多个用户相关;以及
根据所述主题数确定所述各个文档的特异性还包括根据所述多个文档确定所述一个或更多个用户的用户特异性。
9.根据权利要求1所述的方法:
所述多个文档与一个或更多个用户相关;
根据所述主题数确定所述各个文档的特异性还包括根据所述多个文档确定所述一个或更多个用户的用户特异性;以及
还包括根据所述用户特异性为所述一个或更多个用户选择一个或更多个文档。
10.根据权利要求1所述的方法:
所述多个文档与一个或更多个用户相关;
根据所述主题数确定所述各个文档的特异性还包括根据所述多个文档确定所述一个或更多个用户的用户特异性;以及
还包括监控所述一个或更多个用户的用户特异性。
11.根据权利要求1所述的方法:
所述多个文档与文集相关;
根据所述主题数确定所述各个文档的特异性还包括根据所述多个文档确定所述文集的文集特异性。
12.一个或更多个编码有软件的计算机可读有形介质,当所述软件执行时可操作用以:
访问一个或更多个有形介质中存储的记录,该记录记录了多个文档的多个聚类,文档包括多个单词,聚类包括所述多个单词中的多个满意地相关的单词,聚类指示主题;
确定所述多个文档的至少一个子集中的各个文档的主题数;以及
通过下面的步骤根据所述主题数确定所述各个文档的特异性:
如果该个文档具有较少主题数,则确定该个文档较特殊;以及
如果该个文档具有较多主题数,则确定该个文档较不特殊。
13.根据权利要求12所述的计算机可读有形介质,进一步可操作以通过以下步骤确定所述多个文档的至少一个所述子集的各个文档的主题数:
确定所述各个文档的聚类数;以及
根据所述聚类数计算所述各个文档的所述主题数。
14.根据权利要求12所述的计算机可读有形介质,进一步可操作以通过以下步骤确定所述多个文档的至少一个子集的各个文档的主题数:
识别针对要确定主题数的深度;以及
根据识别出的深度确定所述主题数。
15.根据权利要求12所述的计算机可读有形介质,进一步可操作以通过以下步骤确定所述多个文档的至少一个子集中的各个文档的主题数:
从各个文档选择多个关键词;
识别与所述关键词相关的一个或更多个候选主题;以及
如果所述一个或更多个候选主题与所述文档相匹配,则确定所述一个或更多个候选主题为所述文档的主题。
16.根据权利要求12所述的计算机可读有形介质,进一步可操作以通过以下步骤执行特异性分析:
接收包括文档特异性请求的搜索查询;以及
获取多个文档中的满足所述搜索查询和所述文档特异性请求的一个或更多个文档。
17.根据权利要求12所述的计算机可读有形介质,进一步可操作以通过以下步骤执行特异性分析:
对所述多个文档中的每个文档的特异性进行图形显示,所述图形显示包括从图形指示符、图形变更和图表组成的集合中选出的元素。
18.根据权利要求12所述的计算机可读有形介质,进一步可操作以通过以下步骤执行特异性分析:
接收搜索查询;
获取满足所述搜索查询的文档集;以及
根据所述文档集中的文档的特异性来分类所述文档集。
19.根据权利要求1所述的方法:
所述多个文档与一个或更多个用户相关;以及
所述计算机可读有形介质进一步可操作,通过从所述多个文档确定所述一个或更多个用户的用户特异性,根据所述主题数确定所述各个文档的特异性。
20.根据权利要求1所述的方法:
所述多个文档与一个或更多个用户相关;
所述计算机可读有形介质进一步可操作以:
通过根据所述多个文档确定所述一个或更多个用户的用户特异性,依据所述主题数确定所述各个文档的特异性;以及
根据所述用户特异性为所述一个或更多个用户选择一个或更多个文档。
21.根据权利要求1所述的方法:
所述多个文档与一个或更多个用户相关;
所述计算机可读有形介质进一步操作以:
通过从所述多个文档确定所述一个或更多个用户的用户特异性,根据所述主题数确定所述各个文档的特异性;以及
监控所述一个或更多个用户的用户特异性。
22.根据权利要求1所述的方法:
所述多个文档与文集相关;
所述计算机可读有形介质进一步操作以:
通过从所述多个文档确定所述文集的文集特异性,根据所述主题数确定所述各个文档的特异性。
CNA2008101661788A 2007-10-05 2008-10-06 确定文档特异性 Pending CN101404016A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US97778107P 2007-10-05 2007-10-05
US60/977,781 2007-10-05
US12/243,099 US8543380B2 (en) 2007-10-05 2008-10-01 Determining a document specificity
US12/243,099 2008-10-01

Publications (1)

Publication Number Publication Date
CN101404016A true CN101404016A (zh) 2009-04-08

Family

ID=40282367

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008101661788A Pending CN101404016A (zh) 2007-10-05 2008-10-06 确定文档特异性

Country Status (4)

Country Link
US (1) US8543380B2 (zh)
EP (1) EP2045733A3 (zh)
JP (1) JP5353173B2 (zh)
CN (1) CN101404016A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102780647A (zh) * 2012-07-21 2012-11-14 上海量明科技发展有限公司 通过即时通信工具实现思维图功能的方法、客户端及系统
US11520987B2 (en) * 2015-08-28 2022-12-06 Freedom Solutions Group, Llc Automated document analysis comprising a user interface based on content types

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183535B2 (en) * 2008-07-30 2015-11-10 Aro, Inc. Social network model for semantic processing
US20100031198A1 (en) * 2008-07-30 2010-02-04 Michael Zimmerman Data-Oriented User Interface for Mobile Device
US20100174998A1 (en) * 2009-01-06 2010-07-08 Kiha Software Inc. Calendaring Location-Based Events and Associated Travel
US9235563B2 (en) 2009-07-02 2016-01-12 Battelle Memorial Institute Systems and processes for identifying features and determining feature associations in groups of documents
US8131735B2 (en) * 2009-07-02 2012-03-06 Battelle Memorial Institute Rapid automatic keyword extraction for information retrieval and analysis
US8352469B2 (en) * 2009-07-02 2013-01-08 Battelle Memorial Institute Automatic generation of stop word lists for information retrieval and analysis
US9069862B1 (en) 2010-10-14 2015-06-30 Aro, Inc. Object-based relationship search using a plurality of sub-queries
EP2423866A1 (en) * 2010-08-30 2012-02-29 ETH Zurich Method and devices for targeted distribution of data
US8429099B1 (en) 2010-10-14 2013-04-23 Aro, Inc. Dynamic gazetteers for entity recognition and fact association
US8719214B2 (en) * 2011-09-23 2014-05-06 Fujitsu Limited Combining medical binary decision diagrams for analysis optimization
US8983947B2 (en) * 2011-09-30 2015-03-17 Jive Software, Inc. Augmenting search with association information
US8782058B2 (en) * 2011-10-12 2014-07-15 Desire2Learn Incorporated Search index dictionary
US9916309B2 (en) 2011-10-14 2018-03-13 Yahoo Holdings, Inc. Method and apparatus for automatically summarizing the contents of electronic documents
EP2595065B1 (en) 2011-11-15 2019-08-14 Kairos Future Group AB Categorizing data sets
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
CN104850311B (zh) * 2015-05-26 2018-05-01 中山大学 一种移动应用版本更新的图形化说明生成方法及系统
CN106327469B (zh) * 2015-06-29 2019-06-18 北京航空航天大学 一种语义标签引导的视频对象分割方法
US10474672B2 (en) * 2015-08-25 2019-11-12 Schlafender Hase GmbH Software & Communications Method for comparing text files with differently arranged text sections in documents
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5210869A (en) * 1990-05-24 1993-05-11 International Business Machines Corporation Method and system for automated transmission of failure of delivery message in a data processing system
US6298174B1 (en) * 1996-08-12 2001-10-02 Battelle Memorial Institute Three-dimensional display of document set
US6996572B1 (en) 1997-10-08 2006-02-07 International Business Machines Corporation Method and system for filtering of information entities
US6185592B1 (en) * 1997-11-18 2001-02-06 Apple Computer, Inc. Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds
US6446061B1 (en) * 1998-07-31 2002-09-03 International Business Machines Corporation Taxonomy generation for document collections
US6513027B1 (en) * 1999-03-16 2003-01-28 Oracle Corporation Automated category discovery for a terminological knowledge base
US6701305B1 (en) * 1999-06-09 2004-03-02 The Boeing Company Methods, apparatus and computer program products for information retrieval and document classification utilizing a multidimensional subspace
US6587848B1 (en) 2000-03-08 2003-07-01 International Business Machines Corporation Methods and apparatus for performing an affinity based similarity search
US6687696B2 (en) * 2000-07-26 2004-02-03 Recommind Inc. System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models
US20020026385A1 (en) * 2000-08-31 2002-02-28 Mccloskey John M. System and methods for generating an electronic purchase order for a part using a display of computer-aided design (CAD) drawing and related article and media
JP2002183117A (ja) * 2000-12-13 2002-06-28 Just Syst Corp 文書校正支援装置、文書校正支援方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US7162526B2 (en) * 2001-01-31 2007-01-09 International Business Machines Corporation Apparatus and methods for filtering content based on accessibility to a user
US6993712B2 (en) * 2001-09-28 2006-01-31 Siebel Systems, Inc. System and method for facilitating user interaction in a browser environment
US7644102B2 (en) 2001-10-19 2010-01-05 Xerox Corporation Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
US7145692B2 (en) * 2002-02-07 2006-12-05 Hewlett-Packard Development Company, L.P. System and method for facilitating color adjustment of imaging data
US7158983B2 (en) * 2002-09-23 2007-01-02 Battelle Memorial Institute Text analysis technique
US20080177994A1 (en) * 2003-01-12 2008-07-24 Yaron Mayer System and method for improving the efficiency, comfort, and/or reliability in Operating Systems, such as for example Windows
US7610313B2 (en) * 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
US20050080613A1 (en) 2003-08-21 2005-04-14 Matthew Colledge System and method for processing text utilizing a suite of disambiguation techniques
US7346494B2 (en) * 2003-10-31 2008-03-18 International Business Machines Corporation Document summarization based on topicality and specificity
US7664735B2 (en) * 2004-04-30 2010-02-16 Microsoft Corporation Method and system for ranking documents of a search result to improve diversity and information richness
US7617176B2 (en) * 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
US7548917B2 (en) * 2005-05-06 2009-06-16 Nelson Information Systems, Inc. Database and index organization for enhanced document retrieval
JP2007122510A (ja) * 2005-10-28 2007-05-17 Toyota Central Res & Dev Lab Inc 提示装置及び提示プログラム
US7831597B2 (en) * 2005-11-18 2010-11-09 The Boeing Company Text summarization method and apparatus using a multidimensional subspace
US8037004B2 (en) * 2007-06-11 2011-10-11 Oracle International Corporation Computer-implemented methods and systems for identifying and reporting deviations from standards and policies for contracts, agreements and other business documents
US20090094209A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Determining The Depths Of Words And Documents

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102780647A (zh) * 2012-07-21 2012-11-14 上海量明科技发展有限公司 通过即时通信工具实现思维图功能的方法、客户端及系统
US11520987B2 (en) * 2015-08-28 2022-12-06 Freedom Solutions Group, Llc Automated document analysis comprising a user interface based on content types
US11983499B2 (en) 2015-08-28 2024-05-14 Freedom Solutions Group, Llc Automated document analysis comprising a user interface based on content types

Also Published As

Publication number Publication date
EP2045733A3 (en) 2009-07-22
JP5353173B2 (ja) 2013-11-27
US20090094021A1 (en) 2009-04-09
JP2009093654A (ja) 2009-04-30
EP2045733A2 (en) 2009-04-08
US8543380B2 (en) 2013-09-24

Similar Documents

Publication Publication Date Title
CN101404016A (zh) 确定文档特异性
CN101404015B (zh) 自动生成词条层次
CN101692223B (zh) 响应于用户输入精炼搜索空间
CN101566997B (zh) 确定与给定的词集相关的词
CN101408885B (zh) 利用统计分布对主题进行建模
Kaleel et al. Cluster-discovery of Twitter messages for event detection and trending
CN101408887B (zh) 推荐词条以指定本体空间
CN101408886A (zh) 通过分析文档的段落来选择该文档的标签
CN109829104A (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
US8560485B2 (en) Generating a domain corpus and a dictionary for an automated ontology
US8200671B2 (en) Generating a dictionary and determining a co-occurrence context for an automated ontology
CN111125086B (zh) 获取数据资源的方法、装置、存储介质及处理器
CN101393565A (zh) 基于本体的面向虚拟博物馆的搜索方法
Al-Obaydy et al. Document classification using term frequency-inverse document frequency and K-means clustering
CN113239071B (zh) 面向科技资源学科及研究主题信息的检索查询方法及系统
Petrovich et al. Exploring knowledge dynamics in the humanities. Two science mapping experiments
JP4426041B2 (ja) カテゴリ因子による情報検索方法
CN118245564A (zh) 一种支持语义查重查新的特征比对库构建方法及装置
CN101408884A (zh) 确定单词和文档的深度
CN101088082A (zh) 全文查询和搜索系统及其使用方法
CN101493823B (zh) 根据单词相关度识别单词聚类
Rajkumar et al. Users’ click and bookmark based personalization using modified agglomerative clustering for web search engine
Rana et al. Analysis of web mining technology and their impact on semantic web
ElGindy et al. Enriching user profiles using geo-social place semantics in geo-folksonomies
Irshad et al. SwCS: Section-Wise Content Similarity Approach to Exploit Scientific Big Data.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20090408