CN1535433A - 基于分类的可扩展交互式文档检索系统 - Google Patents

基于分类的可扩展交互式文档检索系统 Download PDF

Info

Publication number
CN1535433A
CN1535433A CNA01823447XA CN01823447A CN1535433A CN 1535433 A CN1535433 A CN 1535433A CN A01823447X A CNA01823447X A CN A01823447XA CN 01823447 A CN01823447 A CN 01823447A CN 1535433 A CN1535433 A CN 1535433A
Authority
CN
China
Prior art keywords
document
search
word
theme
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA01823447XA
Other languages
English (en)
Inventor
弗兰克・梅克
弗兰克·梅克
・维尔舍茨
迈克尔·维尔舍茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
COGISUM INTERMEDIA AG
Original Assignee
COGISUM INTERMEDIA AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by COGISUM INTERMEDIA AG filed Critical COGISUM INTERMEDIA AG
Publication of CN1535433A publication Critical patent/CN1535433A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种集成、自动且开放的信息检索系统(100),其包括基于自动文本分类的语言学和数学方法的混合方法。该系统通过把自动内容识别技术和索引分类的自学习层级方案结合在一起来解决传统系统的问题。响应于请求者提交的单词,所述系统(100)搜索含有该单词的文档,分析这些文档以确定它们的单词配对模式,把这些文档模式与和各个主题相关的数据库模式进行匹配,从而为各个文档指派主题。若所搜索的文档被指派给多于一个主题,则向请求者提供文档主题列表,并且请求者指定相关主题。然后,只允许请求者访问指派到相关主题的文档。为加速将来的搜索,建立并维护将搜索项链接到文档和将文档链接到主题的知识库(1408)。另外,还提供了新的策略,以应付网站的不同更新频率。

Description

基于分类的可扩展交互式文档检索系统
技术领域
本发明一般涉及可高速访问的信息检索(IR)系统的领域,尤其涉及应用于互联网和/或企业内部网域的搜索引擎,其使用自动文本分类技术来检索可访问的文档,以支持在高速网络环境中提供搜索查询结果。
背景技术
随着借助于多个企业网尤其是通过互联网可以访问的公开信息的数量持续增加,帮助人们更好地寻找、过滤和管理这些资源的重要性也在增长。由于所述网络代表了初期的、动态的和尚未很好标准化的市场,其包含着大量未组织的文档和文本资料。特别是由于根本没有可用于检索所存储信息的语法规则,所以互联网作为任何人都可以自由访问的开放媒体,呈现为一个在很大程度上尚未利用的巨大知识库。
互联网(和其它网络)的不充分的信息结构常常受到批评。另外,搜索引擎常常存在覆盖范围不足或提供公开信息的无效链接。可能找不到用户实际上想寻找的东西,或当接收所输入的检索查询的结果时,用户被大量的不当匹配结果所困扰。虽然在这些网络中存在可能得到的所需信息,但却不能容易地获得。同时,获得符合条件的信息的需求在商业和个人领域内都在快速增长。由于互联网和大量企业内部网域内大量的可访问的数字信息,因此,数字媒体的高效索引、检索和管理变得越来越重要。
文本文档的人工索引
图书管理人员和其它经培训的专业人员多年来使用诸如在MedicalSubject Headings(MeSH)、Dewey Decimal、Yahoo!或CyberPatrol等范围内的受控词汇为新项目手工编著索引。例如,Yahoo!目前使用人类专家手工分类其文档。同样,在诸如West Group这样的法律出版社,法律文档也由人类专家手工编著索引。这一过程非常耗时耗钱,从而限制了它的应用。因此,开发自动文本分类技术的重要性一直在增加。与专家系统中所用方法类似的基于规则的方法(参见1990年Hays和Weinstein的用于分类新闻故事的CONSTRUE系统)比较普通,但是这些方法通常需要人工构建规则、对分类的从属关系做出严格的二元判定,并且通常难以修改。
自动文本分类
随着不同领域的知识中可用信息的数量的增长,产生了使部分上述处理自动化的需要。在二十世纪六十年代和七十年代出现了基于自然语言的统计模式的自动索引算法。在二十世纪八十年代,产生了几种计算机辅助索引系统。在二十世纪八十年代后期,几种专家系统被应用于产生基于知识的索引系统,例如国家医学图书馆(National Library ofMedicine)的MedIndeEx系统(Humphrey,1988)。二十世纪九十年代的特征在于World Wide网络(WWW)的出现,其使得可以利用大量的潜在有用的信息。由WWW产生的信息过载促进了可以帮助用户过滤大量文档的可靠的自动索引方法的产生。现在,世界上一些研究者正试图用两种主要方法解决文本分类问题:首先,获取人类交流所用的规则并将其应用于系统当中;其次,采用由已分类文本资料的训练集自动训练分类规则的方法。上述相似的工作主要涉及语音识别,例如在自动电话服务领域。为此要预定义一些主题,且识别系统试图从所输入的文本中检测主题。一旦检测到了主题,则用文本的统计模型来协助语音识别处理。
通常,自动分类方案能够极大地便利分类处理。在多种信息组织和管理任务中,自动文本分类处理(将可电子访问的自然语言文本文档指派至一组简要描述所述文档的内容的预定主题(分类或索引项)的算法分析和自动指派)是一个重要部分。迄今为止,其最广泛的应用在于支持文本的检索、路由和过滤,以向所输入的文档指派主题类别。自动文本分类可以在更灵活的、动态的和个性化的信息管理任务中起着重要作用。
这些任务包括:
—实时地将电子邮件或其它文本文件分类到预定的文件夹层级中,
—主题识别,以支持针对主题的处理操作,
—检索和/或浏览技术的构建,以及
—寻找静态的、长期关注的或更动态的、基于任务而关注的文档。
在任何情况下,分类技术都应该能够支持通用、被普遍接受并且相对静态的分类结构,例如Dewey Decimal或国会图书馆(Library ofCongress)分类系统、Medical Subject Headings(MeSH)或Yahoo!的主题层级、以及那些更动态的并为个人的兴趣或任务定制的系统。
根据该技术的现状,已经可以使用解决自动文本分类的问题的不同解决方法,每种解决方法都根据特定应用环境进行了优化。这些解决办法都基于语言学和/或数学方法。为了说明与所述标准有关的这些解决方法,有必要简单描述信息检索、手工索引和自动文本分类中最重要的传统技术。
最早的信息检索系统是包含数千文档的全文的大型计算机。可以从分时终端对它们进行访问。这种类型的最初期的系统是在二十世纪六十年代开发的,其采用单词列表并通过文档的磁带库线性地检索包含特定单词的那些文档。
到了二十世纪六十年代的中后期,一些更完善的系统首先开发了在一组文档内的可检索单词(不包括诸如“of”、“the”和“and”等不可检索单词)的单词索引。对于每个单词,该单词索引都包括含有该单词的所有文档的文档号。在一些系统中,该文档号还附带有该单词在相应文档中的出现次数,作为每个单词对每个文档相关性的粗略度量。这样的系统简单地要求请求者键入单词列表,然后该系统计算并指派其对于每个文档的相关性、检索并根据相关性的顺序向请求者显示文档。这种系统的一个实例是由加拿大Queens University的Hugh Lawford在IBMCanada支持下开发的QuicLaw系统。通过在检索词组后检查文档并扫描文档,在这种系统上进行词组检索,因此这些词组的检索很慢。
其它系统,例如由Jerome Rubin、Edward Gostsman等开发的Mead DataCentral的LEXIS系统,在其单词索引中包括每个单词的条目,该条目包括文档号(含有该单词的文档)、识别出现该单词的文档节的文档节号、以及识别该单词相对于其它单词在该节中出现的位置的单词位置号。
由William Voedish等在几年后开发的West Group的WESTLAW系统通过引入每个单词的单词索引条目而在此基础上进行了改进。
—段落号(表明单词在节中出现的位置),
—句子号(表明单词在段落中出现的位置),以及
—单词位置号(表明单词在句子中出现的位置)。
这两个系统至今都在使用,它们都允许把逻辑连接符或运算符AND、OR、AND NOT、w/seg(在同一节内)、w/p(在同一段落内)、w/s(在同一句子中)、w/4(在每4个单词中)和pre/4(向前4个单词)用于书写正式的、复杂的检索请求。允许使用括号来控制这些逻辑运算的执行顺序。
另一种系统,尤其是至今仍然在使用的对话系统,是从早期的NASARECON系统发展而来,其把名称指派给先前执行的检索,以将那些检索结合到后面执行的检索中作为参考。
专业图书管理员和法律研究员经常使用所有的这三个系统。但是,这些专家必须接收长时间的培训,以学习如何明确地表达包含括号和逻辑运算符的复杂请求。外行检索者使用这些强大的系统,却达不到同样成功的程度,原因在于他们没有受过正确使用运算符和括号的培训,不知道怎样明确地表达检索请求。这些系统还具有其它不受欢迎的特性。当请求检索由OR连接的多个单词和词组时,这些系统会检索出太多的不需要的文档,所以它们的精确度很差。可以通过在检索请求中添加AND运算符和单词邻近度运算符来提高精确度,但可能错过相关文档,因此降低了这些系统的检出率。为了使未经训练的检索者能够使用这些系统,开发了多种人工智能方案,例如早期的QuicLaw系统,其简单地允许请求者键入单词列表或一个句子,然后产生文档的一些排序和结果。这些系统产生不稳定的结果,且并不特别可靠。某些系统要求请求者选择特定的相关文档,然后使用该文档所包含的单词,并试图找到类似的文档,结果再次产生更混乱的结果。
WESTLAW系统也包含其文档的某些正式索引,其中,将各个文档指派至一个主题,并且在各个主题内,将各个文档指派至对应于该主题要点中的位置的索引号。但是只能在熟练的索引员已经对各个文档进行了手工索引时,才能使用该索引。加进WESTLAW系统的新文档也必须经过手工索引。其它系统为各个文档提供了含有帮助识别和表征该文档的单词和/或词组的节或字段,但是该索引也必须手工完成,并且检索系统处理这些单词和词组的方式与处理该文档中的其它单词和词组的方式相同。随着互联网的发展,已开发出了检索网页的网络搜索器(网络Crawler),其产生数千网页的单词索引,并通过它们的URL(统一资源定位符或网址)和它们所包含的单词和词组,以及通过由文档作者可选地在各个文档的特定区域中所设置的索引项来对文档进行索引。
机器学习技术的理论背景
已经证明机器学习算法在解决许多问题中都很成功,例如,用这种算法已在语音识别方面获得了最好的成效。这些算法通过在将要解决的问题空间上进行检索来进行学习。已经开发了两种机器学习算法:有监督的学习和无监督的学习。有监督的学习算法通过从一组训练实例中学习目标函数,然后将所学习的函数应用于目标集来进行操作。无监督的学习通过试图找到目标集的元素之间的有用关系来进行操作。
自动文本分类可描述为有监督的学习问题。首先,必须由人类索引员正确地分类一组示例性的文档。然后使用该组来训练基于机器学习算法的分类器。随后可以使用所述训练过的分类器来分类目标集。
传统文档分类技术使用不同的方法。通常,可区分为两种不同的方法学派。一方面,许多自动文档分类的解决方案的试验都更基于语言学的方法。另一方面,数学和统计学方法的支持者声称这些方法也可产生很好的结果。
已对不同的机器学习算法进行了探索,以建立文本分类系统,例如决策树(Moulinier,1997年)、神经网络(Weiner等,1995年)、线性分类器(Lewis等,1996年)、k-最近邻算法(Nearest Neighbor algorithm)(Yang,1999年)、支持向量机(Support Vector Machine)(Joachims,1997年)和Na ve Bayes分类器(Lewis和Ringuette,1994年;McCallum等,1998年)等。大多数的这些研究建立分类器而都没有考虑索引项汇的层级结构。近来,一些作者(Koller和Sahami,1997年;McCallum等,1998;Mladènic,1998年)已经开始探索和使用索引项汇的层级结构。借助于语法结构的自动内容识别(语言学方法)
文本分类系统通常借助于识别语法结构来试图提取将要分析的文档的内容,该结构表示其句子或片段(例如,通过另外使用诸如决策树、最大熵模型或神经网络的感知器模型的数学方法)。因此,分离出了句子的独立片段且最终确定了句子的核心语句。如果成功确定了文档中所有句子的核心语句,则可以以很高的概率识别文档的内容,并将其指派给特定类别。
在成功使用该程序之前,这些程序的发明者和程序员必须考虑哪些单词组合涉及特定主题。由于这主要是语言学家的任务,所以称这些程序为基于语言学的程序。它们通常倾向于使用很复杂的算法并且对技术资源(例如涉及处理器的性能和存储容量)具有很高的要求。不过,仅能以一般的成功率管理文档的与内容相关的分类并由此指定类别。借助于统计学技术的自动内容识别(数学方法)
解决自动识别问题的数学方法通常使用统计学技术和模型(例如:Bayesian模型、神经网络)。它们依赖于字母数字字符和/或其称作“字符串”的组合的概率的统计学评估。理论上,假设通过确定特定字符串的存在就能够区分涉及特定主题的文档。在研究了频繁出现哪些与特定主题有关的字符串之后,就可以识别特定文档涉及的是哪个主题。但是,所述统计学方法要求预先识别哪个字符串出现频率涉及特定主题。因此,对于这种方法,需要分析和评估大量文档。在这之前,必须已经把各个将要分析的文档明确地指派给一个或多个主题(例如,由档案管理员或其他授权人员)。然后,分析并存储这些文档的特殊特征(即特定字母数字字符组合的频率)。在此之后,为各个预期类别生成所谓的“摘要”并且永久地存储在数据库中。当系统认识到具有很高概率的属于特定主题的特定字母数字字符组合时,就可以把新文档与所述摘要进行对比。如果新文档显示出与所存储摘要之一具有相似性时(即,特定字符串的类似频率分布),则新文档属于同一类别的概率很高。
应用自动产生分类器的归纳法学习技术的上述策略被频繁使用,该分类器使用标记过的训练数据。由于存在上百万的单词特征,所以文本分类为归纳法学习方法带来了许多挑战。但是,所产生的分类器具有许多优点:它们易于构造和更新,它们只依赖于容易提供的信息(即在类别之内或之外的条目的实例)、可为个人感兴趣的特定类别而定制,并且它们允许用户顺利地估量精确度和依据其任务来检索。越来越多的统计分类和机器学习技术被应用于文本分类,包括多元回归模型(Fuhr等,1991年;Yang和Chute,1994年;Schütze等,1995年)、k-最近邻分类器(Yang,1994年)、概率贝氏模型(probabilistic Bayesian model)(Lewis和Ringuette,1994年)、决策树(Lewis和Ringuette,1994年)、神经网络(Wiener等,1995年;Schütze等,1995年)和符号规则学习(Apte等,1994年;Cohen和Singer,1996年)。更近一些,Joahchims(1998年)已经对使用支持向量机(Support Vector Machine,SVM)的文档分类进行了研究,并取得了有价值的结果。
分类器是将输入的特征矢量 X:=(X1,…,Xn)T∈IRn映射到置信度fk( X)上的函数,如果所输入的特征向量 X属于由K个类组成的集合C:={CK|k=1,…,K}中的特定类别Ck,则可以推导出该分类器。在文本分类的情况下,该特征是在文档中的单词和对应于文本分类的类别。在决策树和Bayesian网络的情况下,在fx( X)是概率分布的意义上,所使用的分类器是随机的。
基本上,很多技术都需要首先从已知(即已经按主题类别)文档中提取特征来学习分类。因此,优选哪个特征和如何进行相似性计算,在每种情况下都不同。一般来说,为此进行文档的预分组和k-最近邻(k-NN)分类。在文献中,大多数自动文本分类的工作都是基于一些著名的文本数据集,例如OHSUMED数据集、REUTERS-21578数据集和TREC-AP数据集。在这些数据集中,文本单元由经训练的专家标定了主题或类别,因此,固定了分类设计。主要的研究工作在于比较不同的分类机器。例如,可通过在同一训练和测试集上训练和测试不同分类机器来比较这些机器。
传统分类方案的主要目标是在诸如决策树、Bayesian网络和支持向量机(SVM)的归纳学习法的辅助下训练所采用的分类器。它们可以用来支持在多种任务中进行灵活的、动态的和个性化的信息访问和管理。由于线性SVM非常精确和快捷,所以它们特别有前景。对于所有这些方法,只需要输入少量标定的训练数据(即,各个分类中的条目的实例)。用该训练数据来“训练”分类模型的参数。在测试或评估阶段,用此前未经预习的实例来测试模型的有效性。经归纳训练的分类器易于构造和更新,并且便于对类别定义进行定制,该定制对于某些应用很重要。
可用特征向量 X:=(X1,…,Xn)T ∈IRn的形式表示各个文档,其中,所述特征向量的分量Xi(1≤i≤n)表示所述文档的单词,如通常在信息检索的向量表示(Salton和McGill,1983年)中所做的那样。对于所述学习算法,充分减少了特征空间,且只使用了二元特征值,即,该单词在文档中出现或不出现。当对文本分类使用机器学习方法时,为效率和功效起见,而广泛使用特征选择。为了减少特征的数量,选择少量基于它们与特定类别的从属关系的特征。Yang和Pedersen(1997年)比较了一些特征选择的方法。这些特征被用作为如上所述的各种归纳学习算法的输入。进行有效特征选择的传统方法
自动文本分类主要包括两个方面:类别设计和分类器设计,两者紧密关联。通常,统计学分类器的性能取决于机器本身的固有能力以及所定义的类别的特征选择和特征向量分布。换句话说,如果借助于类别设计可得到各个类别中的特征向量的更连贯的分布,则简单的分类器可更容易地获得满意的分类精确度。
如上所述,自动文本分类主要是分类问题。文档组中出现的单词和/或单词组合变成了分类问题的变量或特征。大小相对适中的文档组成的组可轻易地具有上万个不同单词的词汇表。文档特征向量X的大小通常太大,而对训练机器学习算法没有用处。许多现有的算法简直不能使用该巨大数目的特征进行工作。因此,必须使用基于文档频率、交互信息、和信息增益的有效特征选择方法来减少单词的数量。但是,如果要考虑的单词数目减少太多,则可能丢失分类任务的关键信息。一般来说,在特征选择后单词的数目仍在几千个单词的范围内。已有潜在地可用于文本分类的几种分类方案。但是,由于上述问题,许多这些现有的方案在文本分类任务中不能很好地适用。
许多机器学习算法的性能和训练时间与用于表示该问题的特征的质量紧密相关。在前面的工作(Ruiz和Srinivasan,1998年)中,使用基于频率的方法来减少条目的数目。条目或特征的数目是影响大多数机器学习算法的收敛和训练时间的重要因素。为此,将条目集合减少到可获得最佳性能的一个最优子集是很重要的。
在文献中提出了两种特征选择方法:过滤器法(filter approach)和封装器法(wrapper approach)(Liu和Motoda,1998年)。封装器法试图使用特殊的算法确定最佳特征子集以使用该特征子集。例如,对于神经网络,封装器法选择一个初始子集并估测网络的性能;然后,它产生一个“改进的特征集”并且使用该特征集估测网络的性能。重复该过程直到它达到终止条件(改进低于预定值,或者该过程已经重复了预定次数的迭代)。随后,选择最终的特征集作为“最佳集”。更为普遍使用的过滤器法试图仅从数据上来评估特征集的优点,而不考虑特定的学习算法。根据训练数据,过滤器法使用分类标准来选择一组特征。
一旦确定了训练集的特征集,则通过表示各个实例(由它的特征集表示)并让算法调整其包含在训练集中的知识的内部表示而开始训练过程。在经过被称为一个时期(epoch)的整个训练集之后,该算法检查其是否达到了训练目标。某些算法诸如Bayesian学习算法只需要一个时期;诸如神经网络的其它算法则需要多个时期来转换。
现在,已训练好的分类器可以用来分类新文档。通常,在不同于训练集的文档集上测试该分类器。
下面,将代表性地概括使用频率最高的用于解决自动文本分类所带来的分类问题的数学方法。
—感知器模型:感知器是一种神经网络,其获取实数值输入的特征向量 X:=(X1,…,Xn)T∈IRn、计算这些输入的线性组合、并且产生单一输出值f( X)。将该输出f( X)计算为以下形式的内积:
Figure A0182344700231
其中 W:=(W1,…Wn)T∈IRn是实数值的权向量;θ是阈值,为了将f( X)设为1,输入的加权组合必须超过该阈值。因此,感知器模型表示了一个经过训练的系统,其判断输入的模式是否属于两类中的一类。感知器模型的学习过程包括在基本的训练实例集的基础上选择Wi(其中1≤i≤n)和θ的最佳值。用几何学的说法来说,在二维中,这两类可由一条直线分开。因此,感知器具有局限性,它们只能对可线性分割的分类问题进行训练。现代的神经网络是由二十世纪五十年代的感知器模型和二十世纪六十年代的最小均方(LMS)学习系统演变而来。感知器模型及其训练程序是由Rosemblatt(1962年)首次提出的,且LMS的现行版本是由Widrow和Hoff(1960年)提出的。Minsky和Papert(1969年)证明了许多问题并不是线性分割的,并且因此感知器和线性判别式方法不能解决这些问题。该工作对于神经网络的研究有很大的影响。例如,Rumelhart、Hinton和Williams(1986年)提出了使用多层神经网络的后向传播学习程序。
—决策树分类法:通过从根节点到某些叶节点对决策树沿整棵树进行排序,以将决策树用来分类实例,该决策树提供了实例的分类。树中的各个节点指定了实例的某些特征的判断标准,并且从该节点传下来的各个分枝对应于该特征的一个可能的值。从决策树的根节点开始对各个实例分类,检验由该节点指定的特征,然后移下到对应于该特征的值的分枝。然后,在该分枝的节点上重复该过程等,直到到达叶节点。对于已广泛应用的诸如C4.5的决策树归纳算法或诸如C4.5规则和RIPPER的规则归纳算法使用决策树,它们可以借助于递归拆分算法来获得,若区别特征的数量巨大,则这些算法不能很好地工作。
-Na ve贝氏分类:Na ve贝氏分类器是一种用来最小化分类错误的机制。若给定新文档的特征向量 X的文档特征值Xi(其中1≤i≤n),则通过使用训练数据来估计各个分类Ck(1≤k≤K)的概率可以产生该分类器。为此,使用贝氏定理以便估计由
P ( C k | X ‾ ) = P ( X ‾ | C k ) · P ( C k ) P ( X ‾ )
给定的预期的后验(有条件的)概率P(Ck| X)。
由于经常不能实际计算P(Ck| X),所以可以大致假设特征值Xi有条件地独立。这就简化了计算,可得:
P ( C k | X ‾ ) = P ( X ‾ | C k ) · P ( C k ) P ( X ‾ ) = P ( C k ) · Π i = 1 n P ( X i | C k ) P ( X i ) ,
其中,上面公式中所用的变量定义如下:
Ck:预定分类或类别,它可表示为一组参考向量,该参考向量由其均值向量 m k和其协方差矩阵
Figure A0182344700243
(其中k∈{1,…,K})来描述;
X:特定文档的特征向量( X∈IRn);
Xi:特征向量的第i分量 X(1≤i≤n);
P( X):特征向量 X的先验(无条件的)概率;
P(Xi):特征向量 X的第i分量的先验(无条件的)概率;
P(Ck):分类Ck的先验(无条件的)概率;
P( X|Ck):在可以将所述特征向量 X指派给分类Ck的条件下,特征向量 X的后验(有条件的)概率;
P(Xi|Ck):在可以将所述分量Xi指派给分类Ck的条件下,特征向量 X的第i分量的后验(有条件的)概率;及
P(Ck| X):在可以将所述特征向量 X指派给分类Ck的条件下,分类Ck的后验(有条件的)概率;
即使在文本分类中普遍使用诸如Rainbow的Na ve贝氏分类技术,所述的独立假设仍然严格地限制了它们的应用。对于一组K个分类,C:={Ck|k=1,…,K},由下式给出了分类所需的判决规则:
X∈Ck,如果P(Ck| X)>P(Cj| X)j∈{1,…,K}∧j≠k其中将特征向量 X指派给具有最大后验(有条件的)概率P(Ck| X)的分类Ck
一最近邻域分类法:如果为各个文档分类Ck(1≤k≤K)使用单个参考向量 Z k,则不能精确描述表示特定文档分类Ck的数据分布。如果可以利用已知分类从属关系的大量预定参考向量 Z r,k(1≤r≤R且1≤k≤K),则可以得到不同分类内的数据分布的更好的表示。在这种情况下,可通过在所存储的参考向量 Z r,k中检索最近邻域来分类未知特征向量 X,最近邻域即具有到未知特征向量 X的最小距离的特定参考向量Z r,k。对于一组K个分类,C:={Ck|k=1,…,K},由下式给出了分类所需的判决规则:
X∈Ck,若
Figure A0182344700251
其中
其中r∈{1,…,R},是分类Ck的所有参考向量 Z r,k的二次欧几里德距离。该距离度量导致分段线性分离函数,籍此,可得到n维数据空间的复杂分区。
—K-最近邻域分类法:K-最近邻域(k-NN)分类法是对各种问题域都很有效的基于实例的学习算法。该算法也曾用于文本分类。该方案的关键因素是能识别特定文档的邻域的相似度量的可用性。K-NN中所用的相似度量的主要缺点在于其在计算距离时使用了所有的特征。在许多文档数据集中,只有全部词汇中的较小数量可用于分类文档。克服该问题的一个可能的方法是对不同的特征(或文档数据集中的单词)改变权值。在该方法中,各个特征都具有一个与其相关的权值。对于一个特征,较高的权值意味着其在分类任务中更重要一些。当权值是0或1时,该方法变得与特征选择相同。
PEBLS是一种使用改进的差值度量(Modified Value DifferenceMetric,MVDM)来确定分类特征的重要性的k-NN分类算法。其中,不同数据点之间的距离是由MVDM决定的。由它们的特征向量 X iX j(i≠j)表示的两个文档之间的距离是根据这些特征向量的分类分布来度量的。根据MVDM,如果 X iX j在不同分类中以相似的相关频率出现,则它们之间的距离很小。如果它们在不同分类中以不同的相关频率出现,则它们之间的距离很大。两个特征向量之间的距离是通过由MVDM所确定的单个特征向量值的距离的平方和来计算的。可在通过判断各个单词在文档中存在或不存在来在文档数据集中使用PEBLS。使用PEBLS的主要问题是它计算独立于所有其它特征的特征的重要性。因此,类似于Na ve贝氏分类技术,其没有考虑不同特征之间的相互作用。VSM是另一种k-NN分类算法,其使用共扼梯度优化来获得得特征权值。与PEBLS不同,VSM根据优化函数改善各个迭代中的权值。为使用欧几里德距离度量而特别开发了该算法。该方法的潜在问题是实际上k-最近邻域分类问题不是线性的(即其优化函数不是二次函数)。因此,如果优化函数有多个局部极小值,在这种类型的问题中共扼梯度优化就没必要收敛于全局极小值。
基于k-NN分类范例的另一种分类算法是可调权值k-最近邻域(WAKNN)分类法。在WAKNN中,使用迭代算法来训练特征的权值。在权值调节步骤中,小步长地扰动各个特征的权值,看该变化是否改善了分类目标函数。识别在目标函数中具有最大改善的特征并更新相应的权值。在相似度测量的计算中使用特征权值,以使重要特征在相似度测量中起到更大的作用。由于其超过了诸如C4.5、RIPPER、Rainbow、PEBLS、和VSM等根据现有技术的传统分类算法的性能,所以在一些真实生活文档数据集上的试验表明WAKNN很有前景。
层级模型
诸如MeSH的词汇表具有使用父子关系或狭义词关系(narrower termrelation)来把它们组织到层级结构中的相关关系。在词汇表中建立这些关系以方便它们的组织和帮助索引编著人员。除极少数工作外,大多数自动文本分类方面的研究者都忽视了这些关系。因为在层级树中的单词排列反映了该领域的概念结构,机器学习算法能够利用它,并且改进它们的性能。
对文档索引编著是一项把多个分类指派给单个文档的任务。在这一点上尽管人类索引编著人员很有效,但是对于机器学习算法却很有挑战性。一些算法甚至做出简单的假设:分类任务是二元的,且一个文档不能属于多于一个的分类。例如,Na ve贝氏学习方法假设一个文档属于单个分类。可通过为各个分类建立一个单一的分类器来解决这个问题,通过这种方法,学习算法学习识别是否应该将一个特定单词(或分类)指派给一个文档。这就将一个多类别指派问题转换为多个二元判断问题。现有技术的解决方法的不足和缺点
如上所述,为特定的目的对所使用的各种信息检索技术进行了优化,由此具有一定的局限性。
传统的搜索引擎可以搜索数千个包含某个单词或词组的文档,但是不能帮助请求者分类所检索到的所有文档。换句话说,它们的精确度很低。将AND运算符引入这些系统,导致它们的检出率降低。所有这些系统都受到甚至更多的基本缺陷的困扰:除了请求者在浏览时偶然遇到新词和词组的情况,它们不能教请求者怎样去检索。它们还不能建议,也不能自动操作,使得索引的应用和使用达到可以使用索引的程度。它们不会询问请求者,为请求者提供另选的途径来继续检索。它们不能自动索引以前未经过人工编著索引的新文档。
由于传统信息检索系统所用的分类方案不统一,从而该不足使得不能很好地满足请求者的信息需求。与基于主题的新闻检索相关的主要问题可以确定为如下几个:
—因为新闻信息是“短时性的”时,网页新闻语料库会受特定约束的困扰,例如快的更新频率或短时间性。通常,新闻文章只在短期内可在发表者的网站得到。因而,参考数据库很容易变得无效。结果,不能对传统信息检索(IR)系统进行优化以应对该约束。
—许多网站是动态建立的,常常在同一个URL中随时间流逝而显示不同的信息内容。这使根据它们的地址从这些网址增量收集新闻的任何策略都失效。
—由于各个发表者有其自己的主题方案,所以也很难与各个发表者所定义的分类主题相匹配。
—将普通统计学习方法直接应用于自动文本分类带来了新闻文章不唯一分类的问题。每篇文章可能被正确地分进几个类目中,反映了其异类性。但是,传统的分类器是用一组正的或负的实例来训练的,并且通常会产生忽略该文章和多个类目之间的潜在关系的二元值。
—新闻分组可以是一个重要的改进,它可对来自不同发表者的关于相同内容的文章提供便利的访问。将文章自动分组到相同主题中需要非常高的可信度,因为对读者来说错误可能会很明显。
为解决上述问题,有必要将专门的检索机制和多类目分类构架集成到一个全局结构中,包括信息和分类可信度阈值的数据模型。
发明内容
考虑到上述说明,本发明的主要目的在于提出一种可高速访问的用于信息检索(IR)系统的使用自动文本分类技术的新颖检索,其适合于在互联网内或任何高速企业网范围内搜索已被索引的文档,该搜索同样也使所述环境内的搜索查询的表达得到改善。所需的信息检索(IR)系统应该包含下列特征:
—该信息检索(IR)系统应该可扩展,而不需要任何附加的人工编著索引。
—其必须能够接受来自请求者的广泛的查询。
—在搜索查询启动后,其应该进入到与请求者的对话中,使用精确的索引细化和集中进行搜索,以显著提高搜索的精确度,从而使浏览时间和错误命中最小化,而不会降低相关文档的检出率。
借助于独立权利要求的特征可达到该目的。在从属权利要求中定义了有利的特征。在下面的详细描述中,本发明的其它目标和优点是很明显的。
根据本发明的信息搜索系统主要致力于自动文档和/或文本分类技术,关心如何能够自动识别任意文本(电子形式文档的内容)并将其指派给预定的类目。这种基础技术可用于多种产品和多种不同的环境。在任何情况下,不考虑潜在的应用和它的环境,使频繁发生的有选择性地搜索可以通过互联网访问的文档的任务变得容易(由于这当中包含多个文档,所以该任务是一个非常耗时的过程)和在后台自动执行该任务是一样的。
因此,根据本发明所提出的解决方法包括产生一种框架,以定义用于搜索、过滤及分类来自互联网和/或企业网域的以常规分类方案组织的文档的服务。为达到该目的,需要专门的信息检索和文本分类工具。
简而言之,本发明是一种交互式文档检索系统,设计该系统来在接收到来自请求者的搜索查询后搜索文档。该系统包含一个含有至少一个将文档单词模式(word pattern)指派给主题的数据结构的知识库。该知识库可从已编索引的文档集中得到。本发明使用了查询处理器,该查询处理器响应于来自请求者的搜索查询的接收,搜索并试图获取至少包含一个与搜索查询相关的单词的文档。如果获得任何文档,则该处理器分析所获得的文档,以确定它们的单词模式,并且随后处理通过比较各个文档的单词模式和数据库中的单词模式对所获得的文档进行分类。当文档的单词模式与数据库中的一个单词模式相似时,处理器将与该相似单词模式相关的主题指派给那个文档。通过这种方式,将各个文档指派给一个或几个主题。接着,向请求者显示指派给所分类文档的主题列表,并且要求请求者从该表中指定至少一个主题作为与请求者的搜索相关的主题。最后,允许请求者访问所获得的并已经分类的文档的子集,该子集已被指派了由请求者所指定的主题。该系统可以依靠与互联网或企业内部网连接的服务器,并且请求者可从配备了网络浏览器的个人计算机访问该系统。
为节省时间,将曾经处理过的查询和由那些查询所搜索的文档列表以及指派给它们的主题一起存储起来。执行周期性的更新和维护搜索,以使系统保持最新,并且省略了在更新和维护期间所执行的分析和分类,以加速后续搜索的性能。通过使系统分析一组已经经过人工索引的文档、在知识库的单词组合表中保存这些文档的单词模式的记录并把这些单词模式与已指派给各个文档的主题联系起来,可以初步建立并训练该系统。这些单词模式可能与成对的可搜索单词(不包括诸如冠词、介词、连词等的不可搜索的单词)邻近,其中在各个这种对中的单词中至少有一个频繁出现在该文档中。
根据本发明的概念的主要理念在于借助于标准的基于自然语言的档案库结构来处理互联网的文档和其中所包含的信息。请求者不再被巨大量不合适的结果所困扰。相反,在普遍适用或个人定义的档案库结构的辅助下,可以交互地将他引向一组合适的结果。展望前景,其能够以最小的技术代价获得便利和快速的可操作性。
只有通过两个基本功能才可实现该目的:
1.必须能够自动分析、分类文档内容,并将其插入到档案库结构中。
2.借助于通过新颖的用户界面执行的交互式查询系统,必须能够直观地把用户引向一组结果。
根据本发明所提出的解决方法提供了一个集成的、自动的和开放的信息检索系统,其包括基于自动文本分类的语言学和数学方法的混合方法。
一方面,借助于根据本发明优选实施例的新颖的互联网档案库可以满足所有互联网用户的要求。本发明可以以快捷、简单并精确的方式提供所需的信息。另一方面,其重要的优势在于单个公司内的数据管理。
新开发的分析工具和分类技术形成了由具体化的语言学规则的框架构成的系统体系结构的基础。因此,能够自动分析、构建和管理任何大小的任意数据。
通过将自动内容识别技术与已索引分类的自学习层级方案结合起来,所提出的系统解决了传统系统所存在的问题。然而,它仍然可快速工作。该系统可用于以上下文相关并且可感知的方式主题性地分析所有可用文档,而不是进行粗略的语意全文搜索。
由于容量的缘故,层级结构的主题搜索原来只能在企业内部网的范围内使用,现在其扩展到了互联网领域。通过这种方式,不同的企业内部网和互联网可一起向具有同类结构的联合数据空间发展。
根据本发明优选实施例的信息检索系统可以灵活地适用于单个公司的档案库结构和数据管理。可通过结合已经可利用的层级结构而读入可用的信息供应,从而与新的信息相关联。这样,通过水平组织的档案的结构可以重建垂直组织的信息链,该水平组织的档案允许永久和分散访问所需的数据供应和文档。
这样,由于根据本发明优选实施例的信息检索系统也可用作企业内部网域和互联网之间的接口,因此给出了单个企业的信息和知识供应的虚拟档案,该虚拟档案在任何时候都可以完全更新。单个企业的内部档案库结构可用于存储在互联网内的所有文档,而不需要额外的花费。因此,该系统使两个领域的搜索一致。
本发明提出了一种交互式文档检索系统,设计该系统用来在接收到来自请求者的搜索查询后搜索文档。因此,所述系统包括:知识库,其含有将单词模式与各个主题联系起来的至少一个数据结构;查询处理器,其响应于来自请求者的搜索查询的接收,执行以下的步骤:
—搜索并试图获得含有至少一个与搜索查询相关的单词的文档,如果获得任何文档,
—分析所获得的文档,以确定它们的单词模式;
—通过比较各个文档的单词模式和知识库中的单词模式,对所获得的文档进行分类;
—如果文档的单词模式与知识库中的某个单词模式相似,则将该相似单词模式的相关主题指派给那个文档。
—向请求者提供指派给所分类文档的至少一个主题列表,以及
—要求请求者从该列表中指定至少一个主题,作为与请求者的搜索相关的主题。
—允许请求者访问所获得的并已经分类的文档的子集,该子集已被指派了请求者所指定的主题。
为此,可以使用基于自动文本分类的语言学和数学方法的混合方法,该混合方法借助于自动内容识别技术和索引分类的自学习层级方案。
附图说明
本发明的其它优点和适用性来自从属权利要求和本发明的两个优选实施例的描述,下面的附图中描述了这两个优选实施例:
图1是根据本发明原理设计的索引可扩充交互式检索系统的总体方框图;
图2显示了支持该检索系统的操作的数据库;
图3是该检索系统建立过程的流程图;
图4是该系统的查询处理程序的流程图;
图5是当遇到一个新的查询词时,由查询处理程序执行的实时搜索程序的流程图;
图6是该系统的更新和维护程序的流程图;
图7到9一起形成了文档分析程序的流程图;
图10是文档分类程序的流程图;
图11显示了系统硬件的总体方框图;
图12显示了根据本发明优选实施例的新颖搜索引擎的总体方框图;
图13显示了根据本发明优选实施例的互联网档案库的系统体系结构和其中所使用的各部分的协作关系;以及
图14显示了根据本发明优选实施例的互联网档案库的工作流程。
具体实施方式
根据本发明的解决方法使用了上述技术中最有效的因素,并代表了其最优综合。根据数学和统计学的基本原理,并结合语言学和基于传统或单个的档案库结构的文档和数据管理模型,重新设计的分类算法能够分析并分类文本。
根据最近的经验,许多语言细节可借助于统计学方法来补偿,然而,如果不具备基础语言的详细知识,则不能充分确定文档的内容。因此,应该将根据本发明优选实施例的方法本身理解为一种综合方法。它执行可用文档的与内容相关的上下文分析,并按主题把这些文档指派给预先定义的分类。
搜索引擎
根据本发明优选实施例的信息检索系统的核心部分是新颖的搜索引擎,其执行上述文档分类。在这里,执行所有的步骤以执行与内容相关的分类和文档的分类,并且将该分类的结果(所谓的“摘录”)永久存储在数据库中:
1.在第一步骤中,这是学习或开始阶段(创建模式),必须借助于新颖搜索引擎学习所需的分类。这可以通过读取并分析已经按主题指派给一个或多个分类的文档来完成。因此,可以由单个公司(例如,若档案库结构已经可用)或经过训练的档案管理员执行文档的指定。将所述分析的结果(即,包含在特定类别的文档中的特征)永久存储在数据库中。它们可随时读取,并因而可以容易地包含在特定公司的数据安全结构中。
2.在第一步骤之后,启动识别或生成阶段(实时模式)。然后把当前提供给根据本发明的优选实施例的新颖搜索引擎的文档(例如,以文本文件、电子邮件等形式)与数据库中存储的已分类信息(摘录)进行比较。若新文档显示出与摘录的已分类信息的相似性,则认为可以把所述文档的内容指派给所述摘录所代表的分类。
在这种情况下,重要的是,需要注意到事实上仅存储了已知文档的参考资料(如含有UNC、URL等的地址),而不是文档的内容。因此,可以大大减少所需的存储器空间。平均来说,在数据库中为各个文档存储了150字节的分类所需信息。对于具有大约6百万文档的公司的网络来说,根据本发明优选实施例的新颖搜索引擎将需要大约860MB的额外存储器。这仅是在文档的平均大小为3KB的基础上由这些文档所占据的全部存储器空间的一小部分(大约5%)。另外,该方法使用户能够在通常存储文档的地方继续存储文档。因此,不会使公司和/或单个顾客的通常的工作流程受到影响。
文档的预分类
虽然在根据本发明优选实施例的新颖搜索引擎的帮助下可以很快地分析文档,但是为进一步提高反应时间,而对特定文档进行预分类。对系统需要了解并分类到特定类别的各个文档进行读取、分析并预分类。然后将这些文档的一对一的识别信息和所述文档所指定的类别归档到数据库中。
预分类的时间根据文档的大小和数量而变化。然而,可以提供大致的标准值。在运行Linux操作系统的具有一般性能的个人计算机上,每天可以分类大约500,000个文档。使用更高效的计算机(例如使用多处理器系统)可以达到该数量的两倍甚至三倍。
另外,为读取所述文档,能够实现对该文档的访问当然是很重要的。因而,不需要改变现有并经过验证的安全结构,而仅在新颖搜索引擎中存储允许在那里存储的那些文档。
连续更新
新设计的更新算法保证了文档分类目录的最新性。所述分类算法有助于处理每天发生的一百万或更多的文档修改,并且基本上保持最新。
该更新算法在后台永久运行。检测文档的修改,如果需要,则启动进一步分析,以使该分类在基本上总是最新的。因此,可以认为避免了熟悉的工作流程受到影响。
此外,该更新算法被设计为可以容易地进行扩展。若由于其有限的性能而使单个计算机不再能应付修改的频率,则可以使用其它计算机接管部分更新处理。
与其它系统的区别
根据本发明优选实施例的信息检索系统在以下几个方面区别于市场上的现有产品:
-可以容易并快速地执行类别的定义,尤其对于单个顾客。预分类任务可在几天内完成。另外,可以准备具有多种主题重点和与内容相关的排列的示例性档案库。
-自动执行在线文本分类,并且不需要维护。用于监视分类的分析工具通知结果的现有质量是否仍然对应于顾客的要求和当前现实情况。可以用很小的代价和很低的费用修改分类系统的缺省参数。在该部分的后续版本中,集成了让顾客能够使根据本发明优选实施例的新颖搜索引擎适合于特定要求的定制功能。
-现有分类能够同时对特定公司的企业网和整个互联网有效。从在单个公司中使用的档案库结构的角度来看,可以对来自互联网的各个文档进行分类。这样,两个领域中的文档的比较变得更加简单。
-与其它技术相比,在根据本发明优选实施例的新颖搜索引擎的帮助下,使其适应于其它语言所需的费用非常低。
-在公司范围内使用根据本发明优选实施例的新颖搜索引擎的技术费用很低。在许多情况下,可以把已有的系统用于其它的分类任务和信息的存储。
-在根据本发明优选实施例的信息检索系统的帮助下,可以支持多种操作系统和数据库。因此,所获得的灵活性使许多公司可以更容易地有利使用所提供的功能。
根据本发明优选实施例的信息检索系统的应用
在单个公司范围内或在互联网范围内的不同地方,可以容易地使用具有核心(新颖搜索引擎)的根据本发明优选实施例的信息检索系统。下面将简要描述这两个重要的应用领域。
1.互联网应用领域
由于根据本发明优选实施例的新颖搜索引擎在分析过程中的高性能(每天几百万个文档)和相对小的存储器需求,本新颖搜索引擎是构建来自互联网的信息的理想基础。
一个可能的应用领域是根据本发明优选实施例的互联网档案库。例如,可以将能够通过互联网访问的6千万德语文档进行分类,并与它们的分类信息一起存储起来,从而可以使用专门设计的新颖搜索引擎。
因此,顾客能够在新颖的交互式用户界面的帮助下输入搜索关键词。以传统方式搜索含有所需的搜索关键词的来自互联网的各个文档。但与先前的方法相比,不再连续显示上千个不相关的搜索命中(hit)。而是在预先定义和普遍验证的档案库结构的帮助下,对所有搜索命中进行分析。相应地,首先显示在其中可以搜索含有所输入的搜索关键词的文档的那些分类。因此,请求者不再因大量结果而受到困扰,而能够容易地在所提供的分类内选择那些他实际上想要搜索的文档。
借助于根据本发明优选实施例的所述互联网档案库的以下特征,可以实现上述应用领域:
-新颖搜索技术:在根据本发明优选实施例的所述信息检索系统中,使用了一种新颖的、含有传统搜索机功能的高性能“搜索和分析(crawling and parsing)”技术。该应用领域被设计为专门优化为预分类提供的文本材料使其满足分类系统在质量和速度方面的需要。
-更新:由于在互联网上的大量网站,每天改变的网站的数量非常巨大。因此,必须考虑每天高达两百万的被修改的网站。为处理这些巨大量的数据,使用了一种专门开发的更新功能,用于根据网站各自的修改周期访问网站并对它们进行进一步的分析。以这种方式执行的更新功能每天24小时运行并保证互联网档案库的最大最新性。
-扩展:考虑到总体性能和对互联网的访问速率,也对应于同时访问互联网的高要求,所使用的系统的体系结构可以分别对使用的硬件和软件进行扩展。可以快速并容易地实现所有所使用的部件的扩展。
根据本发明优选实施例的互联网档案库不是孤立的产品。还可以对它的特征进行修改以适应单个公司的特殊需要。在单个修改的的分类定义以及分类到档案库结构中的基础上,特别地执行所述修改。例如,一个公司可以把已有的自己的档案库结构存储在根据本发明优选实施例的新颖搜索引擎中,并且稍后在所述档案库结构的帮助下搜索互联网。在这种情况下,使用了根据本发明优选实施例的互联网档案库的搜索功能,从而可以保证最优的访问速率和处理结果。
可以照常在单个公司范围内向所述公司的雇员提供分类的文档。可选地,可以屏蔽特定类别的文档,也能够强调其它的分类(排序)。
2.企业网应用领域
在单个公司的企业网或企业内部网内也可以使用根据本发明优选实施例的新颖搜索引擎的能力。因此,该系统的性能基于相同的能够进行文档的与内容相关的分析的核心技术。
与互联网相比,在企业网中只有向根据本发明优选实施例的新颖搜索引擎提供文档的方式不同。在这里,通常不能使用在互联网域使用的传统搜索功能,原因在于存储类型和文件格式两者显著不同于互联网中现有的文档。例如,将要处理的文本不仅可以是这里的HTML文件格式,而且可以是分别象Microsoft Word、Microsoft PowerPoint、MicrosoftRFT、Lotus Ami Pro和WordPerfect等格式。另外,文本也可以是:
-在象ORACLE、Microsoft SQL Server、IBM DB/2等数据库中,
-在邮件或消息服务器(如Lotus Notes、Microsoft Exchange等)中,
-在运行UNIX系统的网络磁盘驱动器中,或
-在大型计算机的存储分区中。
这使得企业网域中的操作更加困难。然而,可以专门配备在应用领域使用的根据本发明优选实施例的新颖搜索引擎的模块化体系结构,以用于本应用领域。如图12所示,首先把将要分析的各个文档提交给所谓的过滤模块。在这里,从文档中摘录实际文本并提供给分析模块。这种技术使得可以确定文档的特定类型(Microsoft Word、MicrosoftPowerPoint、Microsoft RFT、Lotus Ami Pro或WordPerfect),以启动相关过滤模块。为此,只需要修改向新颖搜索引擎的提供方式以适合于特定公司的现有网络基础结构。在某些情况下,可在中央文件服务器中存储最重要和最经常请求的文档,用户可以通过网络磁盘驱动器(在Windows中称为“共享”,在UNIX中称为“输出文件系统”)使用该中央文件服务器。在其它情况下,可在数据库中存储重要数据并且/或者由文档管理系统管理这些重要数据。
无需考虑物理存储器的具体位置和具体的文件格式,也可以提取相关的文本,并且将它传递给根据本发明优选实施例的新颖搜索引擎。
在企业网域中,搜索查询所得的结果的表示形式可以具有很大的差异。对于互联网解决方案(根据本发明的优选实施例的互联网档案库),设计并开发了新颖的用户界面。这种表示形式不必对所有的公司都有效,尽管它经过了非常仔细的考虑以使上述用户界面能够对所获得的结果集进行轻松的访问。
然而,存在一些特定的情况,在这些情况下,在新颖搜索引擎的数据库中存储的信息必须根据特定公司的要求以某种特定的方式读取和/或表示。对于这些情况,定义了一个能够从任意应用程序轻松访问根据本发明优选实施例的新颖搜索引擎的简单应用程序编程接口(API)。
系统结构
根据本发明优选实施例的信息检索系统可以包括多个模块。三个核心模块一起形成该新颖搜索引擎。此外,还可以使用能够根据顾客和应用领域而以不同方式创建的另外的可选模块。
核心模块的性能
从前面的部分可以看出,所有的核心模块都结合在根据本发明优选实施例的新颖搜索引擎内。该新颖搜索引擎包含三个不同的模块:过滤模块、分析模块和知识库,其中这三个模块通过适当定义的界面彼此分开,而且同时设计成能够扩展。
过滤模块
过滤模块表示用于文本过滤器的应用程序的框架,因此可以使用特定的内部结构从文档中提取相关的文本。例如,如果使用HTML过滤器,就会滤去所有的格式指令(HTML标记),而将所搜索文档的纯文本部分分离出来。在很多情况下,还必须另外识别这些文本中的哪些部分是与请求者相关的,因为许多HTML网站包含大量不相关的附加信息,这些信息并不是所述网站的实际内容。
使用其它的文档类型(例如Microsoft Word)也需要去除格式信息。虽然可以很容易得到这些文件结构的相关内容,但是实际上却存在分析范围更广泛的二进制文件的问题。
为了允许最大的可移植性而没有任何性能的损失,可以借助于编程语言C++来实现过滤模块。为了尽可能地避免重写源代码,将依赖于操作系统的元素转换成单独的类,例如,如果程序要在不同的计算机上执行。
另外,为了易于扩展,在模块间采用了由几乎所有的操作系统以相同形式使用的通信机制。因此,可以在第一台计算机上启动过滤模块,而在其它计算机上运行该新颖的搜索引擎的其它模块。
因此,根据本发明优选实施例的新颖搜索引擎可以很容易地适应用户的要求。起初,整个搜索引擎可以在单台计算机上运行。如果这台计算机的性能已不再够用,则可以很容易地使用一台独立的计算机用于过滤模块,以便执行所搜索文档的高性能过滤。
分析模块
同样,对于分析模块也考虑了允许最大的可移植性而没有任何性能的损失。分析模块的所有部分都采用编程语言C++编写,因此,实际的识别算法与操作系统完全无关。
借助于不同的类将与其它模块保持通信的程序的每一部分分开。这样,能够很容易使用进程间通信(IPC),而不是使用传统的通信机制。实现IPC的费用很少。
此外,借助于内部定义的接口,将对根据本发明优选实施例的知识库的访问从分析模块中适当地分离开。对于分析模块的任务而言,数据库的版本是不相关的。因此,仅提出了借助于传统数据库就可以容易地满足的最少要求。
知识库
最后一个核心模块,知识库用于永久存储分类信息、以及已知(主题)和已分析的文档的参考资料,该已分析的文档包括其中所需的含义。所述知识库是一种可以存储在很多数据库系统中的逻辑数据模型。
对于根据本发明优选实施例的互联网档案库,例如可以使用数据库系统ORACLE(8.1.6版),因为它为将要处理的数据量和可能的大量访问提供了合适的操作平台。此外,数据库系统ORACLE还配备有大量可在很大程度上进行扩展的机制。另外,ORACLE适用于许多能够相互通信并交换数据的操作系统(例如,SunSoft Solaris、HP-UX、AIX、Linux、MicrosoftWindows NT/2000、Novell NetWare,等等)。
对于根据本发明优选实施例的知识库的数据模型的设计,有意识地考虑到,可以使用已经在公司中使用的数据库。例如,可以在Microsoft SQLServer(推荐使用7.0及更高版本)中存储数据模型,而无需太多费用。或者,也可以考虑使用Informix或DB/2(由IBM开发)以及其它数据库。
可选模块
除了根据本发明优选实施例的新颖搜索引擎的这些核心模块之外,还提供了多个可选模块。
根据新颖搜索引擎的各个应用领域,以何种方式检索将要分析的文档并将其提供给用户有很大的差异。对于在互联网范围中的应用,推荐使用根据本发明优选实施例的解决方案与现有传统技术相结合的方式。或者,也可以使用用户指定的搜索技术。
对于在企业网范围内的搜索,建议使用代理技术或经过特殊修改的搜索技术。这也适用于结果的表示。
定制的用户界面
在根据本发明优选实施例的信息检索系统的实现过程中所推行的模块化概念也可以用于实现其它部分。这样,除了根据本发明优选实施例的新颖搜索引擎的核心部分之外,还可以创建其他的可选模块。例如,用户界面,可以很容易地使它适应顾客的单独要求。
为互联网应用设计了一个新颖的用户界面。在用户输入搜索关键词之后,所述应用程序接管控制权并且将客户导向所需的结果,该结果具有比传统的搜索引擎更高的质量,因为只显示与用户相关的那些文档。此外,将所获得的结果进行分类。通过基本实施,所选分类的每一个文档都根据其来源(公共场所、媒介和/或百科全书、企业或其它来源)进行了分类。这样,就提供了在任何其它应用程序中都无法获得的区分。
因为可以借助于固定界面(它可以分别定义为PL/SQL数据包或C++类)执行对根据本发明优选实施例的知识库的访问,所以可以非常容易地以不同形式显示这些数据。在理论上,也可以在客户端/服务器体系结构的基础上进行其它访问。在这种情况下,也可以在Microsoft Access中或是通过编程语言Visual Basic对自数据库的信息进行搜索。
此外,还可以在公司中已有的用户界面中实现。这样,也可以从企业的单独入口访问根据本发明优选实施例的知识库的数据。因此,是否能够使用编程语言Java(例如,JServlets)、VBScript(例如,Active ServerPages)或PHP(在Apache网络服务器中)操作该入口就没有关系了。在任何情况下,都可以很容易地搜索数据。
文档搜索和监视
虽然在互联网域中文档的搜索和/或文档更改的监视已经发展到很高的程度,然而,必须说明,这些技术对于内部网域可能不适合。
在这种情况下,“不合适”一词是指用于内部网域的基于在网络中央位置对文档进行归档的所有传统方法。因此,这些文档可以以一种更加简单的方式进行管理,然而,这意味着客户在搜索这些文档时要做更多的工作,并且只能拥有更少的灵活性。基于这些方法的系统会严重地干预工作流程并且需要进行大量的修改。例如,这意味着现有的文档管理软件可能不能与所使用的消息软件(Lotus Notes、Microsoft Exchange,等等)协同工作,因此根本不能在两个系统中进行一致的搜索。
经常造成搜索请求失败的另一个问题是文件存储位置和类型的巨大差异。为实现成功的搜索,必须有一个即使在多种环境下也能够进行搜索的统一机制。
因此,本发明的另一个目的是向用户提供在公司内现有的所有文档和文本(不考虑该数据的存储位置和类型),以使用户不需要确切地知道可以找到文档的位置。只要所述文档存储在知识库中,就能很容易地搜索到它并提供给客户,不过前提条件是该客户所服务的单个公司的安全预防措施批准这样做。
因为对根据本发明优选实施例的新颖搜索引擎适当地定义了界面,所以可以快速并容易地实现对不同平台上不同类型文档的搜索。其基础是所谓的界面与组件的框架,由此,可以很容易地集成新组件。
与互联网的接口
借助于在前面部分中介绍的可用作为可选模块的集成搜索技术,互联网及其数以百万计的可自由访问的文档就可以很容易地进入用户的关注范围。为此,使用了已在根据本发明优选实施例的互联网档案库中使用的那些技术。一方面,它涉及经过完全编程和测试的版本中的已有组件,另一方面,它还涉及表现了应用于本发明的软件的一致特征的组件。
假设一个公司已拥有其自己的档案库结构,则可以将根据本发明优选实施例的新颖搜索引擎中存储的结构从互联网域扩展到文档中,而不需要进行额外的编程。如果一个公司还没有拥有其自身的档案库结构,则可以很容易地进行安装。
这样,就可以实现对所有可访问文档的统一访问,而不管它们来自相应公司的内部网域还是来自互联网。
与专业数据库的接口
除了来自互联网的可自由获取的文档和文本之外(它们表现出重要的优点,因为进行了更好的整理-假设对它们进行了适当的分析和分类),还可以从专业的数据库中接收文本;这是一种必须付费的服务。如果客户输入搜索查询,除了从内部网或任意企业网搜索的文档之外,还会显示对存储在这些数据库中的文档的引用。
为此,已经设计出一些接口,它们可以链接到文档搜索中的框架中,以读取和分类从专业数据库中搜索到的文档的可自由访问的摘要。借助于该方法,可以避免从专业数据库中提取不必要的文本(这对于企业可能非常昂贵),因为客户可以根据基础档案库结构而立即理解所找到的文档是否合适。因此使管理所述系统的费用最小。
下列应用也是可能的:
—多语言:多语言是该系统在大型的、跨国企业中成功应用的基础。
—企业网域中的文档搜索:如上所述,在企业网域中搜索文档比在互联网域中搜索文档要困难得多。因此,需要用于不同操作系统、网络和数据库的类似搜索技术。
—读取更多数据源的过滤方法:为了对企业网域中的文档进行适当处理,就需要能够读取更多数据源的其它数据过滤器。另外,还要求过滤器能够集成到过滤模块(例如,用于能够对Microsoft Exchange或Lotus Notes进行访问)中。
定制的产品修改
—自定义:根据用户的特定要求,必须开发和设计自定义应用程序。例如,它们允许单独地使搜索引擎适应客户的特定需求,只要这在标准方式中可以实现。
—安全结构:通常,每一个企业都拥有它自己的用于其文档的安全结构。因此,其目标是将该系统集成到现有的安全结构中。非常重要的一点同样是与现有服务(例如,Microsoft Active Directory、Novell NDS以及其它基于X.500的服务)的协同工作。
—逻辑数据空间的概念:逻辑数据空间的概念对文档和/或数据源及其安全要求进行了合理的归纳。数据空间是一组逻辑上相关的文档。因此,应该向用户提供多个这种数据空间。然后,管理员可能会单独地打开或关闭这些数据空间。为此,必须完整地开发和实现所述数据空间的概念。
—示范档案库:因为多个客户尚未拥有其自己的档案库,所以能够访问预先定义的示范档案库就非常重要。因此,就可以为客户节省高额的实施成本。尽管如此,客户应该能够自己进行单独的修改。
可以开发和生产一系列辅助产品。其目的是在众多媒介中为用户提供根据本发明的新颖搜索引擎的功能,并同时使得能够对任意形式的文本进行单一结构化访问。
—移动应用:根据本发明优选实施例的互联网档案库可以很容易地集成到移动应用中。因此,计划使搜索键和搜索结果的显示也能用于移动电话设备和个人数字助理(PDA)。这意味着应该开发一个能够应用WAP标准的人机界面。同样,也必须接收使用根据UMTS标准的移动应用的客户的输入,并且必须返回相应的应答。因为UMTS提供了很大的带宽,因此可以应用图形用户界面。
一个性化:用户界面和信息检索系统的更多元素都应进一步适应客户的需求。这样,除了用户界面的特定设计之外,还可以专注于来自特定领域的搜索结果。每一个客户都可以使信息检索系统适应特定的需求,以实现使用系统的更佳的识别效果。这样,即可实现接受程度更高的系统。
—自动语音识别:在今后几年内,借助于语音数据输入进行程序控制的需求将会增长。因此,有必要借助于语音命令来启动搜索查询,该运音命令必须能够被自动识别和解释。此外,搜索结果也应该能够借助于语音数据输出来提供。于是,可以借助于自动语音识别应用程序来控制根据本发明优选实施例的新颖搜索引擎。
—代理技术:应该将新的搜索技术与进一步的定制一起提供给用户。例如,搜索查询应该能够传递到可以在后台连续处理搜索查询的程序(称为“代理”)。这些程序在搜索结束后才会提供所获取的结果。或者,可以开发出对互联网和/或企业网中出现的特定事件做出反应的程序。
本发明的基本概念是使它起到如同请求者与另一个人而不是一台机器交谈的作用。请求者通过输入一个搜索项提出一个问题。然后,检索系统就像人那样做出响应,使用它自己的问题提示请求者从几个建议的主题中做出选择,以缩小搜索范围并使搜索集中,从而提高搜索精度而不会相应降低检出率。通过一个或多个这样的问答,请求者就能够将搜索的范围缩小到包含请求者提供的搜索项的所有文档的小型索引子集。
因此,系统尝试通过对话和使用文档的索引缩小搜索范围,以消除语义二义性。相对精确的索引可以通过阻止以与请求者希望的语义方式不同的语义方式使用搜索项进行的文档搜索,从而极大地提高了精度。但是,因为只会阻挡包含不同语义的搜索项的文档搜索,所以系统的检出率性能相对没有受到影响。
例如,如果请求者将搜索项“高尔夫”输入到系统中,则向请求者提供以不同方式与搜索项“高尔夫”相关联的主题列表(例如,“汽车”、“运动”、“地理”,等等)。如果请求者选择主题“汽车”,然后,将向他或她提供子主题列表(例如“购买和销售汽车”、“技术说明”、“汽车维修”,等等),并且必须选择另一个子主题。最后,将向请求者提供一组与所选主题和搜索项密切相关的主题。
该方法的核心是这样的概念:对每一个文档进行分析并分类(最好预先进行)到主题或索引分类的层级模式中。在首次建立主题并在任意时候找到新文档并对其进行分类时而再次建立主题时,将这些主题合并到系统中。向主题指派文档的这个过程称为知识开发。必须在使系统开始工作时人工地执行一次。随着时间的推移,搜索项及其链接的文档被一起保存,并且构建出指示这些文档的索引的表。任何时候请求者提供一个全新的搜索项时,都会在互联网或内部网域中执行一个未被索引的搜索,然后会自动对找到的新文档进行单词和词组内容的分析,并与系统中已存在的索引文档的单词和词组内容进行比较(分类),并且随后合并到索引数据库中供将来参考。这样,系统会在接收到新问题和遇到新文档时进行学习。因此,随着时间的推移,系统会扩展其索引的知识库,从而在系统运行时提供改进的性能。
参照图11,显示了本发明的一个典型的硬件环境。请求者的PC1102对系统进行访问,PC1102配备有浏览器1104并且包含与请求者的前一个搜索活动有关的状态信息1106,如以下所述。PC1102在互联网或内部网106上,通过防火墙1110和路由器1112,与几个网络服务器1114、1116、1118和1120中的一个进行通信,这些服务器包含图1中的总体视图中描绘的交互式检索系统程序100。
路由器1112将从多个请求者的PC输入的查询统一传送到所有可用的网络服务器。因此,请求者并不知道将要访问哪一台网络服务器,并且通常请求者每次提交一条搜索项或回答系统提出的问题时都会访问不同的网络服务器。因此,每一个网络服务器1114、1116、1118和1120都包含图1中所示的相同的处理程序,但是它依赖于请求者的PC1102来将状态信息1106与每一个提交的搜索项或对系统给出的问题的回答一起提交,并由此通知网络服务器1114(等等)请求者正在完成给定的文档搜索操作和对话的过程中。
网络服务器1114(等等)通过局域网或LAN1122访问数据库引擎1124。数据库引擎1124维护知识库200,图2中显示了知识库200的细节。该知识库包含前面使用的查询项214的列表以及包含那些查询项216和218的文档的索引记录,这些索引记录是由人工或自动索引确定的,如下面将进行解释的。数据库引擎1124也可以可选地包含请求者描述信息和请求者感兴趣的信息的类型。这可用于多种目的,包括与搜索一起显示在请求者的PC1102上的广告的选择,以使广告与请求者的兴趣一致。
当一个网络服务器,例如1114,遇到未包含在数据库200中的新搜索项时,网络服务器1114调用搜索引擎1128来对包含该特定搜索项的文档执行新的互联网或内部网搜索。然后,网络服务器1114以下面所述的方式处理搜索引擎1128返回的结果,从而在知识库200中记录该搜索项(在图2中称为查询词)、所有新找到的文档(在图2中称为URL)和那些文档的索引(在图2中称为主题),以用来执行和加速将来的搜索。
网络服务器1114等等周期性地调用搜索引擎1128来重新检查以前找到的文档,以对数据库200进行更新和维护,以保持整个系统完全可运行并且最新。
现参照图1,总体方框图中显示了组成交互式检索系统100的程序。在一个网址处的网络服务器1114(等等)中的每一个上创建包含HTML和/或Java命令等的可下载网页形式的请求者或用户界面程序102,每一个请求者都可以访问(使用浏览器1104,例如Netscape的Navigator或Microsoft Explorer)该网址,并因此拥有从网络服务器1114(等等)之一下载并显示在请求者的PC1102的显示器上(未显示)的搜索查询表单。在本发明的优选实施例中,显示器显示出请求者假想进行通信的女士的照片,从而向交互式查询过程添加了人性化的色彩,并且简化了向初学者介绍该系统的过程。除了可能的广告之外,该初始的显示通常包含一个窗口,请求者可以在该窗口中输入一个搜索项,然后通过按输入键或点击标记为GO或SUBMIT的按钮,使搜索项通过互联网或内部网传送回网络服务器1114(等等)中的一个。该搜索项通常是单个单词,但是它也可以是几个单词或一个词组。
安装在网络服务器1114等上的检索系统软件的核心是查询处理程序400,图4中显示了其细节。当请求者向查询处理程序400提供一条系统曾经遇到过的搜索项时,该查询处理程序直接与知识库200进行交互以产生针对请求者的问题,这些问题由用户界面程序102显示给请求者或用户,并且它们是主题的列表,这些主题通过各个表链接到包含所提供的搜索项的文档。最后,在提出一个或多个这样的问题并接收到应答之后,系统搜索一系列文档网络地址或URL(统一资源定位符),以在请求者界面102上将它们与文档标题一起显示给请求者,这样请求者就可以浏览这些文档。在以前遇到过的搜索项的情况下,不需要图1中其他软件部件的辅助就能够完成所有这一切。
当接收到一个以前没有处理过的搜索项时,在进行上述处理之前,查询处理程序400使用实时搜索程序500(图5中描述了其细节)在互联网或内部网上启动对该搜索项的实时搜索。然后,分析程序700对该实时搜索获得的文档的单词和词组内容进行分析,并且随后由分类程序1000为它们指派索引主题(或分类)。然后用新文档的URL和这些文档的索引以及新搜索项(或查询词)对知识库200进行更新,然后查询处理400以如上简述的正常方式进行处理。
需要周期性地重新检查文档以查看它们是否仍然存在于网上,并且查看它们中的任何一个是否已经更改。定时器104周期性地触发更新和维护程序600,以使用分析程序700和分类程序1000执行这些功能来对已经更改的文档重新建立索引,并且在对知识库200所做更改使得如果在将来遇到同一个查询项时需要将该查询项搜索作为一个实时搜索重新运行时,也要从数据库200中删除该查询词。
通过使用已经人工索引的小型原始数据库(以使训练数据库中的每一个文档都人工地指派给一个或多个索引项或分类或主题)进行训练来对系统进行初始化。这是通过创建程序300与相同的分析软件700一起完成的,分析软件700用于分析实时搜索的结果并执行上述的更新和维护动作。
创建可操作的交互式检索系统100的第一个步骤是执行创建程序300(图3显示了其细节)。将与图2中所示的知识库中的特定表的描述一起描述程序300。
通过数据库的安装开始创建检索系统的过程,该数据库已经通过将主题指派给文档而人工地进行了索引。索引数据库已商品化。例如,报纸通常具有其所有已经发表的文章的层级结构索引,同时这些文章本身也以全文机器可读的形式存储在计算机上。这样一个现有的数据库都已经可以满足步骤302的要求,步骤302是定义包含在图2中所示的主题表208中的主题的步骤。
当涉及向文档人工指派主题时,目标不是定义非常狭窄的主题(这些狭窄的主题指派给数目非常有限的文档),在这种情况下,阅读这些文档的个人可能会对每篇文档将要指派给的狭小的主题子划分意见不一致。与此相反,主题优选地是广泛并精确地分类,这样几乎没人会对文档的指派提出异议。因此,新闻文档应该根据广泛的主题(例如体育、政治、商业和其它这样广泛的分类)进行分类。该想法是定义可以很容易地指派给文档的主题,而这些主题又能够很精确地将文档划分到单个的分类中,以对数据库进行精确的划分并提高搜索的精度,而不会显著降低相关文档的检出率。
步骤304,即输入到表212中的主题组合的开发,目前是一个旨在提高检索系统性能的人工操作。已经发现,本发明的文本搜索和文本比较方面有时会造成一篇文档被确定为与两个不同的主题同等程度地相关。如果这些主题出现在主题组合表212中,那么该表将指示应该指派该文档的第三个主题。第三个主题可以是这两个主题中的一个,或者它可能是一些不同的主题。已经发现主题组合表非常有用,因为如下所述,借助于文档的单词和词组内容将文档归类到一个主题有时会生成有歧义的结果,使用这种干预可以避免出现这种情况。
图3中的步骤306为每一个主题找到一组文档。在预先存在建立了索引的报纸数据库等的情况下,这一步骤已经完成,只需要生成格式转换软件,该格式转换软件可以读入文档及其索引指派,并且由这些文档创建单词表202、主题表208和单词组合表210。
通过分析程序700对文档集进行分析开始创建这些表的整个过程,图7、8和9中详细描述了分析程序700,分析程序700不仅用于创建该系统,而且还用于将主题指派给作为如图5中所示执行的实时搜索结果发现的文档。后面将描述分析程序700。现在,可以说,分析程序700仔细检查每篇索引文档并从这些文档中提取了每篇文档中最常出现的可查找的单词-即,可用于区分文档的(排除了没有用处的、不能查找的单词,例如冠词、前置词、连词,等等)。然后,将这些单词输入如图2所示的单词表202中,这样就可以向单词中的每一个指派一个单词号码。
接下来,分析程序700在同一个文档中搜寻相同的这些单词以及相邻或相近的可查找单词,并且从每一个文档中选择最常出现的单词对。然后,向当前没有位于单词表202中的这些可查找单词对指派单词表202中的条目,因此它们也被指派了单词号码。
此后,就完成了单词组合表210。首先将所有的主题名输入主题表208中,并且因此而指派了主题号码。因为文档都已被指派给主题,所以与各个文档相关的单词可以随后被指派给已经指派给相应文档的同一个主题号码。因此,将所有的单词对与主题号码一起输入单词组合表210中,该主题号码被指派给其中出现各个单词对的文档。此外,单词组合表210包含所找到的单词对数量的指示。创建程序以这种简单的方式创建了一个将单词对和主题进行关联的单词组合表。主题名出现在主题表中,而单词本身出现在单词表中。单词组合表中只包含对其它两个表进行引用的号码,如图2中的箭头所示。在实质上,单词组合表将文档单词模式与主题联系起来。后面将使用该表将主题指派给在实时搜索中找到的文档,即未人工建立索引的文档。
接下来,在必要时建立主题组合表212,以使看上去与多个主题相关联的文档可以指派给这两个主题中的一个或另一个,或是在将文档指派给单个主题时会出现歧义的情况下将它指派给第三个主题。主题组合表也包含一个系数项作为各个表项目的一部分。在应用主题组合表触发主要主题的另选选择之前,要求单词对在一个文档中分入两个不同主题的出现次数几乎相同,其变化不应该超过该系数值。在表212所示的实例中,系数是0.2,这意味着表示一个主题的这些单词对在文档中的出现数量位于在使用主题组合表之前表示其它主题的单词对的出现次数的0.8(1.0减去0.2)和1.2(1.0加上0.2)倍之间。可以将不同的系数值指派给不同的单词对以优化检索系统的性能,并且也可以使用其它类似的技术。如在单词组合表210的情况下,主题组合表212只包含回调包含主题实际名称的主题表208的主题号码。
这就完成了创建检索系统100的过程。如果需要,并且如果被用来在单词组合表210中创建条目的文档在互联网或内部网中存在并因此向它们指派URL地址,则这些文档以及多达四个的相关主题号码可以先于随后将要搜索的相同文档而输入URL表218,因为它们包含请求者的搜索项。但是该步骤是可选的。在正常的过程中,执行该交互式检索系统最终将导致包含查询搜索项或请求者感兴趣的所有文档随后都被找到,并输入URL表218。在创建过程中把这些文档输入URL表218的一个优点在于随后将把人工指派的主题指派给这些文档,并且自动主题指派程序(后面将描述)不可能产生与人工完成的主题指派有稍微差别的主题指派。然而,创建程序的主要目的不在于用文档加载URL表218,而在于使用表明该文档与特定主题有关的单词的模式来加载单词组合表210。在下面的讨论中,请求者通常是人类用户,他希望执行搜索。请求者也可能是使用本发明作为资源并把它自己的值添加到处理中的一些其它计算机系统。
图4所显示的是本发明所采用的查询处理程序400的详细方框图。提示请求者提供搜索项时,从步骤402开始该过程,搜索项通常是一个单词,但也可能是几个单词或一个词组,或者甚至是带有逻辑连接符的多个单词和多个词组。在此时或在可能更早些的阶段,请求者都可以查询如何在步骤404中限制搜索范围。例如,请求者可能希望只搜索高度权威性的文档,如那些由政府发布的法令、法规或其他公告。请求者可能希望包括权威性较低但总体上仍然属来源可靠的文档,如报刊与杂志中的文章。或者,搜索的范围可以进一步扩大到包括大学与科研机构的学术出版物。更广泛的搜索可包括团体出版物,有较高倾向性和较低可靠性但仍然权威的文档。最后,请求者可能不但希望搜索上述来源,而且希望搜索由个人在个人网站提供的文档,这些文档的可靠性没有必要很高。但这类文档可能仍然有用。可以向请求者显示一个表格,使请求者可以选取他们希望浏览的各种类型或分类的信息的逻辑框。另选地,可以简单地要求请求者确定需要显示的文件的权威性的级别:仅限政府与官方出版物;政府出版物和报刊文章;政府出版物与报刊文章,以及大学与科研文档;这些来源和团体信息;以及所有信息来源,包括在个人网站上找到的信息。
在步骤406,对搜索项进行分析。部分地,该分析涉及对搜索项进行拼写与词尾变化等方面的规范化、名词和动词时态的规范化、以及对性别差异的规范化。其中大部分可能是语言特有的。在德语中,字符“β”可翻译成“ss”,反之亦然。也可以通过对变化的元音单词母(“”、””以及“”)或其他特定语言的音调符号的添加或删减来对词尾变化进行规范化,以达到进行搜索和比较的目的。
接下来,在步骤206中对同义词词典进行检查,以明确搜索项是否存在同义词,这样的搜索可以扩展到包含具有相同语义的多个词,以使那些不包含搜索查询单词但含有相关同义词的文档也可以包括在搜索范围内。
在可能提供多个搜索项时,为了简便起见,随后的讨论将假定只有一个已生成的搜索项是需要处理的。然而,若多个搜索项需要处理,只要简单地对各个搜索项重复下面所说明的步骤,以增加获得、分析和分类的文档的数量。同样地,逻辑连接符的使用也可以增加或减少分析和分类的文件的数量,或它们的应用可能会被推迟到该处理的较后阶段。
在步骤408,要进行一项检查,以明确搜索项是否已经存在于查询单词表214中。通过说明,在每次请求者提交一项新的搜索项时,该搜索项就被作为一条新条目添加到查询单词表214中,然后,如图5所示进行实时互联网或内部网搜索。但是一旦进行这种实时互联网搜索,就在分析和分类所获得的文档的同时,将相关信息保存在URL表218和查询链接表216中,因此,在系统更新之前或者发现一些文件被更改或删除之前,不需要再对相同的搜索项进行实时搜索。因此,若发现查询单词已经存在于查询单词表214中,则可以绕过实时搜索程序500,而采用图2中的知识数据库使用步骤412继续进行处理。在此情况下,不需要实时互联网或内部网搜索。但是,若在查询单词表214中没有发现查询搜索项,则在步骤500,如图5所示进行实时搜索。若在步骤410发现含有查询项的文档,则在步骤412继续进行处理。否则,在步骤411停止搜索过程,并向请求者报告未发现包含所提交的搜索项的文件。
在步骤412,假设已经对搜索项进行了实时搜索,而且已经对含有该搜索项的文档集进行了分析和分类,这将在下文中结合图5的说明一并加以说明。这样,所有含有搜索项的文档和与各个文档相关的多达四个主题一起列在URL表128中。此外,如果该信息存在,则表218还可以包含各个文件的类型的说明(政府出版物、报纸文章、大学或科研出版物,等等)。
在查询单词表214中查找搜索项,然后在查询链接表216中搜索查询单词编号。从查询链接表216中搜索所有与搜索项相关联的URL编号。在同义词的情况下,从查询链接表216中搜索所有同义词的所有URL登记项。
接下来,对URL表218进行检查,对于所获得的每一个URL,都搜索四个主题编号中的第一个。在步骤414,若只有一个主题被指定给所有的文件,则搜索完成,并在步骤419中向请求者显示文档的URL地址列表和标题。然后允许请求者在步骤420中浏览这些URL,显示并浏览这些文档。
若发现指定给这些文档的主题超过一个,则在步骤415向请求者显示在表218中的每一个文件的第一主题的列表,并提示请求者选择其中的一个主题,由此缩小如此索引的文档集的搜索范围。
在步骤416中,请求者选择这些主题中的一个,并将此信息与其他足以向系统100说明请求者所进行的搜索的当前状况的信息一同传送回系统100,这样,网络服务器1114(等等)就不需保留与任何特定请求者以及任何特定搜索的状态有关的任何信息。将该信息作为请求者的PC内的状态信息1106的一部分进行维护。
所选主题将搜索范围缩小为URL表218内的特定URL,该URL表218中含有所选主题的编号。在步骤418,系统接下来转到包含所选主题编号的URL表中的那些文档的四个主题编号中的第二个(在表218的相关主题#s栏中左起第二个,即57),并构成一个不同的第二级主题列表。再一次,若只有一个第二级主题,或者没有,则在步骤419向请求者显示文档URL的列表和名称,并允许请求者浏览它们。然而,若有几个第二级主题,则在步骤415向请求者显示第二级主题列表,并再次要求请求者在步骤416中选择一个主题。
向请求者显示主题列表和要求请求者选择主题或副主题的处理最多发生四次,因为在URL表218中对于每一个文档最多只列有四个主题编号。因此,任何地方都可以有零到四个的这种对话,在对话中,系统要求请求者从主题列表中进行选择,请求者选定单个主题作为响应,以缩小搜索的范围并由此大幅提高搜索精确度,而没有有相关文档的检出率降低的困扰。
在图5中说明了进行实时搜索的过程。在查询单词表214中找不到请求者提交的单词时,这个单词对于系统100来说就是一个新单词,则系统必须采取措施将这个单词添加到其知识库文档中。它还必须对这些文档进行分析和分类,即将它们指派给主题。在步骤502,系统命令常规互联网或内部网搜索引擎1128在互联网或内部网中搜索含有该单词的文档的URL。在系统100的该优选实施例中,系统获得高达但不超过一千个文档。当不采用本发明而进行常规互联网或内部网搜索时,所获得的文档大大超出了一个人类请求者通常希望浏览的数量。因此,本系统可以达到比采用常规互联网或内部网系统所能达到的更高的检出率。当检出率很高时,可以预期在这个阶段所获取的许多,也许是大多数文档将与请求者的意图不相关,因此这个阶段的搜索精确度是相当低的。
接下来,在步骤700中,系统对所搜索到的文档集进行分析,如下文所述。简而言之,本系统确定在各个文件中最经常出现的可搜索单词,然后将这些单词与其他邻接的可搜索单词进行识别配对,由此将一组单词对与各个文档相关联。这组单词对构成了单词模式。该单词模式可以表征各个文档,并且它能够用于将一个文档与其他索引文档相匹配,由此在后面的分类阶段中为一个文档指派一个或更多的主题。
在步骤1000,对文件进行分类,如下文所述。简而言之,表征各个文档的单词与单词组合表210中的单词对进行匹配,该表与主题相关,并由此为各个文档指派多达四个主题。
最后,在步骤504,将查询单词添加到查询单词表214中,并将文档与指派给它们的主题编号和URL标识符一同输入到URL表218中。随后调整查询链接表216,以使所有输入到表218中并由它们的URL编号标识的文档通过表216与查询单词表214中的包含在文档中的查询单词联系起来。通过这种方式,以自动的方式对一千个含有该搜索单词的文档进行搜索、分析和分类,以达到它们的单词模式与人工索引的文件的单词模式相似的程度。这样,将查询单词、文档、以及文档索引输入到知识库中,不仅用于处理该搜索,并且可极大地提高以后对相同单词的搜索处理的速度。当然,在前面的搜索中所遇到的文件已经进行了索引、分类并输入到表218中。只需要调整查询链接表216,以将这些文件与新的查询单词联系起来。
需要定期地查看知识库以对其进行维护和更新,以使它能够反映互联网或内部网中的文档的最新状态。在图6中,描述了更新与维护程序600。如在步骤602所示,该程序600是以定时器104(图1)的某种形式周期性地执行的。然而,与某些主题有关的文档可能相对稳定并且没有变化,而其他与诸如当前新闻事件的某些事情相关的文档可能会每天或更频繁地变化。因此,系统设计者可能会以比其他文档高得多的频率更新某些种类的文档以及与某些主题相关的文档。
通过取得包含在URL表218中的URL地址列表并将该列表提交给搜索引擎1128(图1),以找出这些文档中的哪些被删除了,那些被更新了或者修改了,来开始该更新程序。为了使该处理更加方便,文档URL最好带有从互联网中搜索出的该文档的日期,以便于网络搜索程序确定它们是否被修改。在步骤606,网络搜索程序或搜索引擎1128将那些被删除或更新的以及(可选地)新增加的URL列表返回给一些节点,在这些节点中,这些文档是如此重要,以至系统从那些特定节点预加载所有文档。
在步骤608中,检查所列出的每一个文档,并且根据文件是否被从系统中删除、是否被替代文件更新、或者是否有新文档被添加到系统对新登记项的出现进行检测的节点上,而执行不同的步骤。
在步骤610中,若删除或更新一个文档,就必须将它从知识库中删除。对于每一个这种文档,都将文档的URL编号的所有登记项从查询链接表中删除。此外,还从查询单词表214中删除与被删除的URL相关联的查询单词。因此,在将来,若再次提交这些查询单词中的任何一个,系统将不得不对含有这些查询单词的所有文件重新进行搜索,并对这些文件进行重新分析和重新分类,并且将它们重新输入到URL表218中。
可选地,在步骤612中,若更新一个文件,则可以对其进行分析700并分类1000,并且可以更新它在URL表中的登记项以反映出它目前包含的主题。若采取了这些措施,那么在将来,如果在查询单词表中不存在的一个搜索单词导致进行实时搜索并且作为实时搜索的一部分获得这样的一个文档,则系统将不需要对该文档进行分析和分类,因为该分析和分类已经在URL表218中存在。系统将简单地把搜索单词输入到查询单词表214中,并将文档的URL编号和链接到该查询单词的其他文档的URL编号一起添加到查询链接表216中。
若将系统设计为在特定的节点删除新文件,那么也可以在找到那些文档之前对那些新文档进行分析700和分类1000,以使得可以将它们输入到URL表218中,因为它们包含特定的搜索单词。再一次,在实时搜索以后,对这些文件所含的搜索单词进行的后续搜索将进行得更加迅速,因为文档分析和分类步骤已经完成,并且用于这些文件的URL表218也已经更新。
图7、8、和9显示了分析程序700的方框图,该分析程序识别文件中的关键词与关键词对,并由此识别表征文档信息内容的单词模式。
将文件从其原有的任何格式(通常是带有Java脚本的HTML)转化成纯ASCII文档来开始进行分析,该纯ASCII文档完全没有编程指令,格式指令、以及其他与基于语义信息内容的文档搜索无关的东西。
在步骤704,剔除所有的标点以及其他特殊字符,只留下由一些分隔符(例如空格字符)分开的单词。在步骤706,对由词尾变化中的差异、同义词、附加符号的可变使用、以及其他这种语言特有的问题所导致的单词的多义性进行处理。例如:德语中的“”可以由  “ss”替代、可以添加或剔除变化的元音(“”、””与“”)、调整不规则的拼写、以及为了单词匹配中的一致性而将可以与同义词互换的特定单词归纳为一个特定的单词。
接下来,在步骤708,系统从文本中剔除掉那些常用的、不可搜索的单词(例如“the”、“of”、“and”、“perhaps”)、以及经常出现但在区分文档方面价值很小或没有价值的单词和词组。可以设想,本发明的不同实施过程在处理这些类型的问题方面会有很大差异。
在步骤710,系统对各个剩下的单词在各个文件中使用的次数进行计数。
在图8与9中,步骤712表明根据各个将要进行分析的单个文件来执行步骤714-724。
在步骤714,按照单词在文档中出现的频率来按顺序排列文件中的单词,以使出现频率最高的单词位于列表的项部。在步骤716,以文档单词的顺序形成该文档内的单词的第一个链接。此后,在步骤718,形成最频繁使用的单词的第二个链接,该单词出现在在步骤714中产生的排序列表的顶部。
对分析中所包括的每一个文档中的单词的数量加以限制。在本发明的优选实施例中,在实时搜索的情况下,系统在第二链接中仅保留三十个最频繁使用的单词。
若一个搜索不是实时搜索,而是在创建初始系统的过程中(图3)或在系统更新或维护的过程中(图6)进行的,那么可以将在第二链接中所保留的单词的数量调整为与该文档的大小成比例。在本发明的优选实施例中采用的测试是:若一个特定单词的出现频率除以文件大小(以Kbyte为计量单位)大于或等于0.001,则保留这个单词。否则,将它剔除。
接下来,对于在最频繁出现的单词的第二链接中的单词在文档中的每一次出现,系统都对第一链接(以文档顺序排列的单词的第一链接)进行扫描,找出第二链接中的各个单词的所有出现,然后从第二链接中识别与单词的第一链中每一次出现相邻或邻接的第一链中的单词。通过这种方式,系统识别各个文件中使用最频繁的单词与它们直接邻接的可搜索的相邻者的配对。
在步骤722,对于每一个文档,都要对这样两个单词的各个唯一配对在各个文档中出现的次数进行记数。
在步骤724,只保留这些两个单词的配对中最频繁出现的配对。在本发明的优选实施例中,若配对的出现次数除以配对中的单词的出现次数(该单词是文档中最频繁出现的单词之一)并都乘以一千,其得数大于阈值0.001,则保留这两个单词的配对。否则,剔除该配对。
最后,在步骤726,对每一个文件都形成所保留的单词配对和各个单词配对出现次数的列表。这就完成了文档分析过程。
在图10中以方框图的形式描述分类程序1000。如在步骤1002所示,对每一个文档都分别执行其他的步骤1004至1010。
通过获取文档的每一个保留的单词配对(通过分析产生)并在知识库的单词组合表210中查找该配对来开始进行分类。一些配对可能在单词组合表210中找不到,则剔除这些配对。将可以在表210中找到匹配项的其它配对由表210指派给与那些匹配项相链接的主题。
在步骤1006,对指派给各个主题的单词配对的数量进行总计,选择指派给该文档中最高数量的配对的四个主题,并保留作为表征该文档的主题内容的四个主题。按照各个主题指派的配对的数量按顺序排列这四个主题,具有最多配对的主题排在第一,第二多配对的主题排在第二,等等。
在步骤1008,检查主题组合表212。若文档中的两个主题与几乎相同数量的配对相关联,并且在这两个主题的主题组合表中系数项所表示的范围之内,则选择由主题组合表212所表示的主主题数,并由这两个主题进行替换以表征该文档。
最后,将各个文档的URL与标识文档类型的编号一起输入到URL表218中。亦将由它们的编号标识的四个所选择的主题输入到表218中。这就完成了文档分类过程。
为了更加详细地显示系统是如何工作的,下文中列举了几个标准的但经过简化的系统操作的示例。
假设系统的知识库200包含下列信息:
主题表208中含有:
主题编号 主题
1 “棒球”
2 “药品”
3 “规则”
4 “运动用药”
单词组合表210中含有:
单词编号  相邻单词编号  数量  相关主题编号
3  4  2  3
 2   5   3   2
主题组合表212中含有:
 主要主题编号  主题编号1  主题编号2
 4  1  2
查询单词表214中含有:
  查询单词编号 单词
  1 “投手”
  2 “头疼”
  3 “四分卫”
  4 “底线”
  5 “阿司匹林”
查询链接表216含有:
 查询单词编号  URL编号
 1  47,59,23
 2  19,17
 3  20
文档URL表218含有:
URL编号  URL 分类 主题编号
17  http://… “官方“ 2,9,13
19  http://… “公司” 1,8,33
20  http://… “媒体” 2
23  http://… “个人” 1,3,4
例1-通过多个层级进行搜索
若请求者输入搜索项“头疼”,系统在词典204中查找该单词以确保拼写正确,并处理词尾变化等问题。接着,系统检查同义词表206,若找到任何同义词,则系统扩大该搜索以对两项都进行搜索。当完成所有这些预备步骤时,系统在查询单词表214中查找“头疼”这个单词以了解以前是否搜索过该项。在本例中,以前搜索过该项,因此,“头疼”即作为一个查询单词,并且表214为该查询单词指派查询单词编号2。
在对单词进行识别并发现以前对它进行过搜索之后,系统搜索查询链接表216并从此表中搜索所有含有此单词的文档的URL表218的编号。在此,在查询链接表216中找到了URL编号17和19。
相应地,系统接着查找URL表218中指派给URL编号17和19的文档的登记项,检查指派给文档17与19的主题编号。可以看到,文档17被指派给主题编号2、9、和13,而文档19被指派给主题编号2、8、和33。这些主题的最左边(2和2)在主题的层级中排列较高,因为如前所述,最左边的主题和其它主题相比与文档中更多的单词配对相关联。因此,两个文档都紧密地链接到主题编号2,主题编号2在主题表208中显示为“药品”。
系统现在可以向请求者显示“药品”这个单词,编号2表示找到与所输入的搜索项有关的文档的编号。请求者当然要选择这个主题。(在某些实施中,可因不需要而忽略一个主题)。然后,系统通过显示列在层级的二级中的所有主题来进行响应,在这种情况下,就是编号为8和9的主题(这些主题的名称没有包括在显示的主题表中)。随后将这两个主题显示给请求者,各个都附有与各个主题相关的文档的编号,提示请求者选择一个或另一个。假设请求者选择了主题编号8,则系统向请求者显示与URL表218中指派了URL编号19的文档相应的URL地址和文档名称。不向请求者显示第三层级的主题33。因为它只是剩下的主题,没有理由对其进行显示。
例2-只搜索一个层级
假设现在请求者输入了搜索项“阿司匹林”,系统将首先从例1中所述的词典204和同义词表206中查找该单词,并处理词尾变化及其他问题。在完成所有必要的检查之后,系统转到查询单词表并了解到“阿司匹林”此前已经被搜索过并且指派了查询单词编号。因此,系统随后在查询链接表216中查找这个单词编号并了解到只有一个指派了URL编号20的文档含有此单词。参照URL表218,文档20只被指派给了一个主题编号2。因此,不需要与请求者进行交互。将单个文档的URL地址和文档名称显示给请求者,以使请求者能够确定是否对该文档进行浏览。
例3-搜索项未出现在查询单词表中。
假设请求者输入了“心痛”这个单词,而系统不能在查询单词表214中找到这个单词,因为这项搜索以前从没进行过。在处理拼写、词尾变化、以及同义词问题之后,系统开始进行实时搜索(图5)并获得许多含有“心痛”的文档。
通过分析700(图7、8、9)和分类1000(图10)处理,系统将所有获得的文档和指派的相关主题添加到URL表218中。这个过程包括:找到各个文档中的相邻单词配对;在单词组合表210中查找它们;从表210中搜索相关的主题编号;并且随后完成上述处理为各个文档选择多达四个最相关的主题,并将这四个主题的主题编号与各个文档的URL地址添加到URL表218中。然后,调整查询链接表,以将查询单词表中的“心痛”链接到所找到的文档。
在完成这些步骤之后,系统如上文中例1所述继续完成搜索。
例4-解决语言特定问题
在德语口语中,名词的格之间的拼写是有差异的(主格、所有格、与格、或宾格)。因此,德语名词“Kopfschmerz”词尾变化可以如下:
语法形式 名词变格
主格(单数) “der Kopfschmerz”
所有格(单数) “des Kopfschmerzes”
与格(单数) “dem Kopfschmerz”
宾格(单数) “Den Kopfschmerz”
文档中可能还会含有“Kopfschmerz”的复数形式”dieKopfschmerzen”。则所述名词词尾变化如下:
语法形式 名词变格
主格(复数) “die Kopfschmerzen”
所有格(复数) “der Kopfschmerzen”
与格(复数) “den Kopfschmerzen”
宾格(复数) “die Kopfschmerzen”
为了搜索和比较的目的,所有这些词尾变化的不同形式都向下转换成名词的相同的基本型。
同样,系统还必须处理动词的不同词尾变化。例如:德语的动词“laufen”变化如下(使用现在时):
语法形式  动词变化形式
第一人称(单数) “ich laufe”
第二人称(单数) “du 1 ufst”
第三人称(单数) “er/sie/es 1 uft”
第一人称(复数) “wir laufen”
第二人称(复数) “ihr lauft”
第三人称(复数) “sie laufen”
在分析过程中,所有这些变化的动词形式都必须变成基本型,以减少需要分析的单词的数量和提高系统的语义性能。
在阐述本发明的优选实施例时,可以理解,那些检索系统设计领域的技术人员可以做出很多属于本发明真实主旨和范围内的修改和变化。因此,附加并构成本说明书的一部分的权利要求以精确的措辞限定了本发明及其范围。
如图12所示,根据本发明优选实施例的新颖搜索引擎1204的核心部分是过滤模块1204a(用于HTML,XML,WinWord,PDF,以及其他数据格式)、分析模块1204b、以及新开发的知识库1204c。此外,也可采用可选模块1202和/或1206。具体而言,这些可选模块中包括:
—定制的用户界面1206,
—文档的全文搜索1202和分散的文档监视,
—使用传统搜索引擎和/或新开发的搜索策略的互联网接口,
—专业数据库接口,
—更多的用户应用接口
图13显示了本系统的总体体系结构以及用于根据本发明优选实施例的互联网档案库1300的各部分的协作关系。1308a与1308b部分构成搜索引擎1308,它是上述互联网档案库1300的核心。该体系结构还包括根据本发明的搜索技术1310、更新功能1312以及网站存储器1314。而且,还提供了新颖用户界面1306,新颖用户界面1306由互联网门户1306a和对话控制1306b构成。
因此,搜索查询是根据下列方案进行处理的:用户使用他的网络浏览器通过互联网开始使用根据本发明优选实施例的互联网档案库。由对话控制模块接收用户输入的搜索查询。从数据库中将相关的文档提供给用户,在数据库中存储了已经分析过的文档(网站)的分类信息。
同时,持续地在后台运转更新功能以保持存储在知识库中的信息是最新的。由此,根据本发明的搜索引擎对修改过的和新的文档的内容进行分析。将相应的分类信息存储在所述知识库中。
根据本发明的优选实施例,如图14所示的互联网档案库1400的工作流程是基于以下几个部分:
—应用于互联网的传统搜索引擎1406;
—新设计的搜索引擎1204(见图12);
—专门设计的用于互联网的表示程序,其中包括:用于生成HTML文本的PHP程序,以及所谓的“查找机器”1404,用于集成传统搜索引擎1406和新设计的搜索引擎1204(见图12)。
—一个具有约50个分类以及相关起始文档的通用词库。
当通过用户界面1402输入一项搜索查询时,通过查找机器1404将该搜索查询传递给传统搜索引擎1406。结果,用户接收到许多与含有该搜索项的文档(DocID)相关的引用。查找机器1404启动一项检测,以验证所获得的对存储在根据本发明优选实施例的知识库1408中的文档的引用是否是已知的。然后,将每一项已知的和已有的引用与其相关的分类作为结果返回给查找机器1404。将未知的引用传送到一个列表中,由此要求从互联网上提取这些文件,以对它们进行过滤和分析,并将上述分析结果存储到知识库中。作为更新算法实现的独立程序持续检查上述列表是否被更新,并执行所有必要的步骤。最后,查找机器1404提供所获得的与所输入的搜索项相关的结果。
图1至图14中的由标号指定的符号的意义可以从标号附表中得到。
所描述的特征及其相应标号表
编号 特征
100 交互式信息检索系统的方框图(参见图1)
102 用户界面
104 定时器
106 对互联网或任何企业网的连接
200 知识库(参见图2中的总表)
202 单词表
204 字典
206 同义词
208 主题表
210 单词组合表
212 主题组合表
214 查询单词表
216 查询链接表
218 URL表
300 创建(参见图3中的流程图)
302 定义主题和主题组合的步骤
304 建立主题组合表的步骤
306 为各个主题查找文档集的步骤
308 向单词组合表中添加单词对和主题的步骤,同时将单词和主题输入到单词表和主题表中
400 查询处理(参见图4中的流程图)
402 向用户请求至少一个单词的步骤
404 限制范围(文档类型等)的步骤
406 扩展搜索(使用用同义词等)的步骤
408 扩大搜索范围包括询问单词是否处在查询单词表中
410 扩大搜索范围包括询问是否命中搜索目标
411 停止搜索的步骤
412 使用URL和链接表,并搜索与该URL和查询单词链接的第一层级主
题的步骤
414 扩大搜索范围包括询问是否应该指派一个以上的主题
415 向用户显示主题列表的步骤
416 用户选择其中一个主题的步骤
418 使用URL表并搜索与这些URL和所选主题链接的下一个更低层级的主题的步骤
419 向用户显示URL列表的步骤
420 用户浏览URL的步骤
500 实时搜索(参见图5的流程图)
502 用网络搜索引擎搜索多达1000个含有所输入的查询单词的URL的步骤
504 向查询单词表添加查询单词,并向链接表添加查询单词编号和相关URL编号的步骤
600 更新和维护(参见图6的流程图)
602 测量可能随主题而变化的周期时间间隔的步骤
604 向网络搜索器提供URL列表的步骤
606 接收已删除、更新、或新添加的URL的返回列表的步骤
608 扩大搜索范围包括询问文档是否被删除、更新或新近添加
610 包括为各个文档从查询链接表中删除该文档的URL的所有条目,并从查询单词表中删除与所删除的URL相关的所有单词的循环的步骤
612 扩大搜索范围包括询问是否已更新文档
700 分析所搜索的文档集(参见图7、8和9中的流程图)
702 把文档转换为ASCII文档的步骤
704 剔除标点等,剩下由分隔符分开的单词的步骤
706 处理词尾变形、同义词和其它语言特定问题的步骤
708 去除常用的、不可搜索的单词,例如冠词、前置词和连词等的步骤
710 计算各个文档中各个单词的使用次数的步骤
712 对各个文档循环执行以下步骤714到726
714 按单词出现频率对其进行排序的步骤
716 按文档单词顺序形成单词的第一链接的步骤
718 形成最常用单词的第二链接的步骤(若是实时搜索,则最多保留30个最常用的单词;若不是实时搜索,则按文档大小对所保留的单词数进行调整,从而若其出现频率除以文档大小大于或等于0.001则保留该单词)
720 包括对第二链接中单词的每次出现都查找第一链接中该单词的所有出现,并查找与其它单词的相邻配对的循环的步骤
722 计算相同配对的数量的步骤
724 若配对的出现次数除以该配对中第二链接单词的出现次数,并乘以1000后大于阈值0.01则保留该配对的步骤
726 列出所保留的单词配对和由文档所组织的各个单词配对的出现次数的步骤
1000 文档分类(参见图10)
1002 对各个文档循环执行以下步骤1004到1010
1004 在单词组合表中查找各个单词配对,并识别相关主题的步骤
1006 选择具有最高出现次数的主题的步骤
1008 若两个主题具有几乎相同的出现次数则在主题组合表中查找主题配对,并用主题组合表所建议的主主题替换这两个主题的步骤,从而该表中的系数定义了该步骤中“几乎”的含义
1010 向URL表输入文档URL和主题的步骤
1100 所使用的硬件的总体视图(参见图11)
1102 用户的个人计算机(PC)
1104 浏览器
1106 状态信息
1110 防火墙
1112 路由器
1114 处理查询的网络服务器
1116 处理查询的网络服务器
1118 处理查询的网络服务器
1120 处理查询的网络服务器
1122 局域网(LAN)
1124 数据库引擎
1126 用户特征信息
1128 搜索引擎
1200 新颖搜索引擎总体视图(参见图12)
1202 使用特定工具搜索文档的可选模块
1204 新颖搜索引擎
1204a 新颖搜索引擎的过滤模块
1204b 新颖搜索引擎的分析模块
1204c 新颖搜索引擎的知识库
1206 用于提供所获结果的可选模块
1300 互联网档案库及其所用协作部分的总体视图(参见图13)
1302 用户的PC
1304 互联网
1306 用户界面
1306a 互联网入口
1306b 对话控制
1308 新颖搜索引擎
1308a 新颖搜索引擎的知识库
1308b 过滤和分析模块
1310 搜索技术
1312 更新功能
1314 网站存储器
1400 互联网档案库内的工作流程(参见图14)
1402 用户界面
1404 查找机器
  1406   传统搜索引擎
  1408   知识库

Claims (80)

1.一种交互式文档检索系统(100),其被设计用来在接收到来自请求者的搜索查询后搜索文档,所述系统包括:包含将文本模式与主题联系起来的至少一个数据结构(202、208、210、212、214、216和/或218)的知识库(200);和查询处理器(400),其响应于接收到来自请求者的搜索查询,执行以下的步骤:
-搜索并试图获得含有至少一个与搜索查询相关的搜索项的文档,如果获得任何文档,则
-分析所获得的文档,以确定它们的文本模式;
-通过将各个文档的文本模式与知识库(200)中的文本模式进行比较,对所获得的文档进行分类;
-如果文档的文本模式与知识库(200)中的文本模式相似,则将该文档指定为该相似单词模式的相关主题,
-向请求者提供指派给所分类文档的至少一个主题列表,并且
-要求请求者从该列表中指定至少一个主题,作为与请求者的搜索相关的主题,以及
-允许请求者访问所获得的并已指派了由请求者所指定的主题的分类文档的子集。
2.根据权利要求1所述的交互式文档检索系统,其特征在于查询处理器使用基于自动文本分类的语言学和数学方法的混合方法来执行分析步骤。
3.根据权利要求1或2所述的交互式文档检索系统(100),其中,所述通过分析确定的文本模式是经常出现并且可搜索的词组。
4.根据权利要求1或2所述的交互式文档检索系统(100),其中,所述通过分析确定的文本模式是单词配对,各个配对包含两个可搜索单词。
5.根据权利要求4所述的交互式文档检索系统(100),其中,各个配对中的一个单词在文档中频繁出现,且各个配对中的另一个单词在文档中在所述一个单词附近频繁地出现。
6.根据上述权利要求中任何一项所述的交互式文档检索系统(100),其中,通过以下步骤来初始构建知识库(200):分析先前已经指派了主题且已索引的文档,从而确定已索引的文档的单词模式;然后在知识库(200)中存储这些已索引的文档的单词模式和指派给这些文档的主题;随后将已索引的文档的单词模式与指派给同一个已索引文档的主题相关联。
7.根据上述权利要求中任何一项所述的交互式文档检索系统(100),其中,所述的搜索查询包含词组,并且所搜索的搜索项是该词组。
8.根据权利要求1到6中任何一项所述的交互式文档检索系统(100),其中,所述的搜索查询包含至少一个单词,并且所搜索的搜索项是取自该搜索查询的至少一个可搜索单词。
9.根据权利要求1到6中任何一项所述的交互式文档检索系统(100),其中,所述的搜索查询包含若干单词,所搜索的搜索项是取自该搜索查询的可搜索单词,并且在单独的搜索中搜索所述搜索查询中的若干单词。
10.根据权利要求1到6中任何一项所述的交互式文档检索系统(100),其中,所述的搜索查询包含至少一个运算符和至少一个单词,并且向请求者提供文档的范围由该搜索查询限定。
11.根据上述权利要求中任何一项所述的交互式文档检索系统(100),其中,在知识库(200)中保留前面所搜索的单词、由该先前搜索所获得的文档、以及指派给所获得的文档的索引项的记录,并且知识库(200)还保留先前所搜索的单词与该先前执行的搜索所获得的文档之间的链接,从而当在后面的搜索查询中遇到先前搜索的单词时,可以跳过搜索、分析和分类步骤。
12.根据权利要求11所述的交互式文档检索系统(100),其中,通过以下步骤初始构建知识库(200):分析先前已经指派了主题的已索引文档,从而确定已索引文档的单词模式;随后在知识库(200)中存储已索引文档的这些单词模式和指派给这些文档的主题;随后将已索引文档的单词模式与指派给同一个已索引文档的主题相关联。
13.根据权利要求11所述的交互式文档检索系统(100),其中,通过以下步骤来维护知识库(200):周期性地检查知识库,确定输入到知识库(200)中的文档是否发生改变或从可搜索文档范围内删除,如果是上述情况,则从知识库(200)中删除这些文档的所有引用以及用于获得这些文档的搜索单词,从而,如果在后面的搜索查询再次遇到这些单词,再次重复可能获得这些文档的那些单词的所有搜索。
14.根据权利要求11所述的交互式文档检索系统(100),其中,通过以下步骤来维护知识库(200):周期性地检查知识库,确定输入到知识库(200)中的文档是否发生变化;如果发生了变化,则重新分析并重新分类这些文档,并且还从知识库(200)中去除这些文档和它们不再包含的单词之间的链接。
15.根据上述权利要求中任何一项所述的交互式文档检索系统(100),其中,通过周期性地检查可搜索文档范围内的某些位置的新文档、并且在通过搜索获得那些文档之前分析和分类那些文档,从而更新知识库(200)。
16.根据上述权利要求中任何一项所述的交互式文档检索系统(100),其中,所述知识库(200)包括主题组合表(212),其包含可能出现在所获得的文档中的其它主题的特定组合的替代主题,并被指派给这样的文档,作为所述其它主题的替代,以改善分类。
17.根据上述权利要求中任何一项所述的交互式文档检索系统(100),其中,在分类过程中,将多个主题指派给至少若干文档,并且将该多个主题层级排列并链接到知识库(200)中的所述至少若干文档,将与已分类文档相关联的层级主题一样多的主题列表顺序出示给请求者,使请求者可以指定多个主题和子主题,通过从请求者可以访问的那些文档中排除与请求者所指定的主题不相关的文档来提高搜索精确度。
18.根据权利要求17所述的交互式文档检索系统(100),其中,当所有文档与任何给定的层级上的相同主题相关联时,取消在该层级上向请求者显示主题。
19.根据上述权利要求中任何一项所述的交互式文档检索系统(100),其中,分析包括下列步骤:将文档数据缩减为单词列表;处理词尾变化和同义词问题;排除不可搜索的单词;选择最频繁出现的单词;以及选择文档中那些单词与相邻单词的频繁出现的配对。
20.根据权利要求19所述的交互式文档检索系统(100),其中,选择预定数量的最频繁出现的单词。
21.根据权利要求19所述的交互式文档检索系统(100),其中,如果一个单词在文档中出现的次数除以文档中的单词总数超过预定值,则该单词频繁出现。
22.根据上述权利要求中任何一项所述的交互式文档检索系统(100),其中,如果一个给定文档中给定配对的出现次数除以该文档中该配对的频繁出现的相邻单词的出现次数大于预定值,则该给定配对频繁出现。
23.根据上述权利要求中任何一项所述的交互式文档检索系统(100),其中:
-在连接到互联网或内部网上的至少一个网络服务器中安装查询处理器(400);
-在可访问网络服务器的数据库引擎(1124)上安装知识库(200);
-请求者使用具有浏览器(1104)并连接到互联网或同一个内部网上的计算机(1102)与网络服务器(1114、1116、1118或1120)进行通信;
-由可访问网络服务器(1114、1116、1118或1120)且在互联网或同一个内部网上进行搜索的搜索引擎(1128)来执行搜索。
24.根据权利要求23所述的交互式文档检索系统(100),其中,所述的预定值大约为0.0001。
25.根据权利要求23所述的交互式文档检索系统(100),其中,使用了多个网络服务器(1114、1116、1118或1120),其通过路由器(1112)和防火墙(1110)与互联网或内部网互连;并且将任何给定的搜索程序的状态保留在请求者的计算机(1102)上,并且在请求者每次提交搜索查询或指定时,重新将其提交给一个网络服务器(1114、1116、1118或1120)。
26.根据上述权利要求中任何一项所述的交互式文档检索系统(100),其中,知识库(200)包含单词表(202)、字典(204)和同义词(206)、主题表(208)、单词组合表(210)、主题组合表(212)、查询单词表(214)、查询链接表(216)、及URL表(218)。
27.一种在收到来自请求者的搜索查询后搜索和检索文档的交互式方法,所述方法包括下列步骤:
-提供包含至少一个将文本模式与主题关联起来的数据结构(202、208、210、212、214、216和/或218)的知识库(200);
-响应于接收到来自请求者的搜索查询,搜索并试图获得包含至少一个与搜索查询相关的搜索项的文档,
-如果获得任何文档,则分析所获得的文档,以确定它们的文本模式,
-通过比较各个文档的文本模式和知识库(200)中的文本模式,对所获得的文档进行分类,
-当文档的单词模式与知识库(200)中的文本模式相似时,将与该相似文本模式相关的主题指派给那个文档,
-向请求者提供至少一个指派给所分类文档的主题列表,并且要求请求者从该列表中指定至少一个主题作为与请求者的搜索相关的主题,
-允许请求者访问所获得的并已经指派了由请求者指定的主题的分类文档的子集。
28.根据权利要求27所述的交互式搜索方法,其中,使用基于用于自动文本分类的语言学和数学方法的混合方法来执行分析步骤。
29.根据权利要求27或28所述的交互式搜索方法,其中,所述通过分析确定的文本模式是经常出现并且可搜索的词组。
30.根据权利要求27或28所述的交互式搜索方法,还包括确定包含两个可搜索单词的至少若干单词模式。
31.根据权利要求30所述的交互式搜索方法,还包括使至少若干单词模式包含在文档中频繁出现的一个单词和在该文档中邻近该单词频繁出现的另一个单词。
32.根据权利要求27到31中任何一项所述的交互式搜索方法,还包括通过以下步骤来构建知识库(200):分析先前已经指派了主题的索引文档,从而确定索引文档的单词模式;然后在知识库(200)中存储索引文档的单词模式和指派给这些文档的主题;并且随后将索引文档的单词模式与指派给同一个索引文档的主题相关联。
33.根据权利要求27到31中任何一项所述的交互式搜索方法,其接收包含词组并搜索该词组的搜索查询。
34.根据权利要求27到32中任何一项所述的交互式搜索方法,其接收包含至少一个单词和搜索该单词的搜索查询。
35.根据权利要求27到32中任何一项所述的交互式搜索方法,其接收包含若干单词并在单独的搜索中搜索各个单词的搜索查询。
36.根据权利要求27到32中任何一项所述的交互式搜索方法,其接收至少若干搜索查询,这些所述的搜索查询包含至少一个运算符和至少一个单词,并且搜索所述的单词,并随后使用该运算符来限制提供给请求者的文档范围。
37.根据权利要求27到32中任何一项所述的交互式搜索方法,还包括在知识库(200)中保留前面所搜索的单词、由该先前搜索所获得的文档、和指派给所获得的文档的索引项的记录,并且在知识库(200)中还保留先前所搜索的单词与由该先前执行的搜索所获得的文档之间的链接,从而当在后面的搜索查询中遇到先前搜索的单词时,可以跳过搜索、分析和分类步骤。
38.根据权利要求37所述的交互式搜索方法,还包括通过以下步骤来初始构建知识库(200):分析先前已经指派了主题的已索引的文档,从而确定该索引文档的单词模式;然后在知识库(200)中存储索引文档的这些单词模式和指派给这些文档的主题;以及随后将索引文档的单词模式与指派给同一个索引文档的主题相关联。
39.根据权利要求37所述的交互式搜索方法,还包括通过以下步骤来维护知识库(200):周期性地检查输入到知识库(200)中的文档是否发生改变或被从可搜索文档范围内删除;并且如果是上述情况,则从知识库(200)中删除该文档的所有引用以及用于获得这些文档的搜索单词;从而如果在后面的搜索查询中遇到这些单词,则再次重复可能获得这些文档的这些单词的所有搜索。
40.根据权利要求37所述的交互式搜索方法,还包括通过以下步骤来维护知识库(200):周期性地检查输入到知识库(200)中的文档是否发生改变;如果发生了变化,则重新分析及重新分类这些文档,并且还从知识库(200)中去除这些文档和它们不再包含的单词之间的链接。
41.根据权利要求27到40中任何一项所述的交互式搜索方法,还包括通过周期性地检查可搜索文档范围内的某些位置的新文档,并且在通过搜索获得那些文档之前分析和分类那些文档,来更新知识库(200)。
42.根据权利要求27到41中任何一项所述的交互式搜索方法,还包括在所述知识库(200)中包含主题组合表(212),该表含有可能在所获得的文档中出现的其它主题的特定组合的替代主题,还包括将替代主题指派给这样一个文档,作为所述其它主题的替代,以改善分类。
43.根据权利要求27到42中任何一项所述的交互式搜索方法,还包括在分类过程中将多个主题指派给至少若干文档、将它们层级排列、并将它们链接到知识库(200)中的至少若干文档,并且向请求者按层级顺序提供与分类文档相关联的主题列表一样多的层级主题,以使请求者指定多个主题和子主题,通过从请求者可以访问的那些文档中排除与请求者所指定的主题不相关的文档来提高搜索精确度。
44.根据权利要求43所述的交互式搜索方法,还包括当所有文档与任何给定的层级上的相同主题相关联时,取消在该层级上向请求者出示主题。
45.根据权利要求27到44中任何一项所述的交互式搜索方法,还包括:将文档数据缩减为单词列表;处理词尾变化和同义词问题;排除不可搜索的单词;选择最频繁出现的单词;及选择文档中的那些单词与邻近单词的频繁出现的配对。
46.根据权利要求45所述的交互式搜索方法,还包括选择预定数量的最频繁出现的单词。
47.根据权利要求45所述的交互式搜索方法,还包括通过确定单词在文档中出现的次数除以文档中单词总数是否超过预定值来确定该单词是否频繁出现。
48.根据权利要求45所述的交互式搜索方法,还包括通过确定给定文档中给定配对的出现次数除以文档中该配对的相邻单词的出现次数是否大于预定值来判断该配对是否频繁出现。
49.根据权利要求27到48中任何一项所述的交互式搜索方法,还包括使用互联网协议与请求者进行通信的安排。
50.根据权利要求49所述的交互式搜索方法,还包括为搜索者保持任何给定搜索程序的状态。
51.根据权利要求27到50中任何一项所述的交互式搜索方法,还包括在知识库(200)中建立单词表(202)、字典(204)和同义词(206)、主题表(208)、单词组合表(210)、主题组合表(212)、查询单词表(214)、查询链接表(216)、及URL表(218)。
52.一种计算机软件程序,当在计算装置上运行时,其执行根据权利要求27到51中任何一项所述的方法。
53.根据权利要求1到26中任何一项所述的交互式文档检索系统(100),其特征在于专门设计的用户界面(1402),其向用户提供对所有可访问文档的统一访问,以使得能够在不同的环境下进行搜索,而不论是从任何企业网还是从互联网上来检索它们,并且与它们的文件格式无关。
54.根据权利要求1到26或53中任何一项所述的交互式文档检索系统(100),其特征在于:使用一种专门开发的更新功能(1312),用于根据网站各自的修改周期来访问这些网站并且为它们提供进一步的分析。
55.根据权利要求1到26或52到54中任何一项所述的交互式文档检索系统(100),包括用于识别现有的在各个公司的域中使用的用于保护电子存储数据的安全结构的装置,使所述交互式文档检索系统(100)能够集成到所述安全结构中,而不需要改变它们。
56.根据权利要求1到26和/或52到55中任何一项所述的交互式文档检索系统(100),其中,支持把所述交互式文档检索系统(100)移植到不同的操作系统环境中。
57.根据权利要求1到26和/或52到56中任何一项所述的交互式文档检索系统(100),其中,为用户提供了一组数据空间,各个数据空间包括一组按主题连接的文档。
58.根据权利要求1到26和/或52到57中任何一项所述的交互式文档检索系统(100),其中,使用了专门设计的用户界面(1402),其包括用于产生适合于显示从互联网中搜索到的文档并适当格式化的文本的显示程序。
59.根据权利要求1到26和/或52到58中任何一项所述的交互式文档检索系统(100),其中,使用了在后台连续处理所输入的搜索查询的代理程序。
60.根据权利要求1到26和/或52到59中任何一项所述的交互式文档检索系统(100),
其中,根据各个文档的来源,诸如公用场所、媒体和/或百科全书、企业或其它来源,对所选类别的各个文档进行分类。
61.根据权利要求1到26和/或52到60中任何一项所述的交互式文档检索系统(100),
其中,使用了具有不同分类和相关起始文档的通用辞典。
62.根据权利要求1到26和/或52到61中任何一项所述的交互式文档检索系统(100),
其中,所使用的用户界面包括通过借助于自动语音识别应用程序自动识别并解译的语音命令来输入搜索查询的装置。
63.根据权利要求1到26和/或52到62中任何一项所述的交互式文档检索系统(100),其中,通过语音数据输出来提供搜索结果。
64.根据权利要求1到27和/或52到63中任何一项所述的交互式文档检索系统(100),
其中,所述交互式文档检索系统(100)能够进行多种语言操作。
65.根据权利要求27到51中任何一项所述的交互式搜索方法,其中,为用户提供了对所有可访问文档的统一访问,以使得可以在不同的环境下进行搜索,而不论是从任何企业网还是从互联网上来搜索它们,并且与它们的文件格式无关。
66.根据权利要求27到51或65中任何一项所述的交互式搜索方法,
其中,使用了预定义的示例性档案,其包括一组预分类文档的分类信息,以便节省实施成本,如果必须安装新的档案库结构,则该实施成本将升高。
67.根据权利要求27到51、65或66中任何一项所述的交互式搜索方法,其中,使用了一种专门开发的更新功能(1312),用于根据网站各自的修改周期来访问网站并且为它们提供进一步的分析,从而保证了所使用的互联网档案库结构的最新性。
68.根据权利要求27到51和/或65到67中任何一项所述的交互式搜索方法,其包括用于识别在各个公司的域中使用的用于保护电子存储数据的现有安全结构的装置,使所述交互式文档检索系统(100)能够集成到所述安全结构中,而不需要改变它们。
69.根据权利要求27到51和/或65到68中任何一项所述的交互式搜索方法,其中,支持把所述交互式文档检索系统(100)移植到不同的操作系统环境中。
70.根据权利要求27到51和/或65到69中任何一项所述的交互式搜索方法,其中,为用户提供了一组数据空间,各个数据空间都包括一组按主题连接的文档。
71.根据权利要求27到51和/或65到70中任何一项所述的交互式搜索方法,其中,使用了专门设计的用户界面(1402),其包括用于产生适合于显示从互联网中搜索到的文档的适当格式的文本的显示程序。
72.根据权利要求27到51和/或65到71中任何一项所述的交互式搜索方法,其中,使用了在后台连续处理所输入的搜索查询的代理程序。
73.根据权利要求27到51和/或65到72中任何一项所述的交互式搜索方法,其中,根据各个文档的来源,诸如公用场所、媒体和/或百科全书、企业或其它来源,对所选类别的各个文档进行分类。
74.根据权利要求27到51和/或65到73中任何一项所述的交互式搜索方法,其中,使用了具有不同分类和相关起始文档的通用辞典。
75.根据权利要求27到51和/或65到74中任何一项所述的交互式搜索方法,其中,所使用的用户界面包括通过借助于自动语音识别应用程序自动识别和解译的语音命令来输入搜索查询的装置。
76.根据权利要求27到51和/或65到75中任何一项所述的交互式搜索方法,其中,通过语音数据输出来提供搜索结果。
77.根据权利要求27到51和/或65到76中任何一项所述的交互式搜索方法,其中,所述交互式文档检索系统(100)能够使用多种语言操作。
78.一种移动计算和/或远程通讯设备,其包括能够使用WAP标准从互联网和/或任何企业网访问文档的图形用户界面,其特征在于:根据权利要求1到27和/或52到57中任何一项所述的交互式文档检索系统(100)。
79.一种交互式文档检索系统,其包括
-知识库(1408),用于将已分析文档的标识与主题相关联,
-用户界面(1402),用于输入搜索查询,
-搜索引擎(1406),用于在资源中搜索与输入的搜索查询基本匹配的文档,并输出文档的标识作为搜索结果,
-查找机器(1404),向其提供搜索引擎(1406)的搜索结果,用于
-访问知识库(1408)以检查在搜索结果中所标识的文档是否以前已经经过了分析,
-如果该文档已经经过了分析并且它的标识和与其相关的主题已经存储在知识库(1408)中,则把文档的标识和从知识库(1408)中搜索的相关主题发送给用户界面(1402),及
-如果文档还未被分析以将主题与该文档的标识相关联,则分析该已经过标识的文档,并且把该文档的标识和与其相关的主题发送给用户界面(1402)。
80.一种交互式文档搜索方法,该方法包括下列步骤:
-将已分析文档的标识与数据库中的主题相关联(1408),
-通过用户界面输入搜索查询(1402),
-在资源中搜索与输入的搜索查询基本匹配的文档,并且输出文档的标识作为搜索结果(1406),
-访问数据库(1408),以检查搜索结果中已标识的文档是否以前已经经过了分析,
-如果该文档已经经过了分析并且它的标识和与其相关的主题已经存储在知识库(1408)中,则把文档的标识和从知识库(1408)中搜索的相关主题发送给用户界面(1402),及
-如果文档还未被分析以将主题与该文档的标识相关联,则分析该已标识的文档,并且向用户界面(1402)发送该文档的标识和与其相关的主题。
CNA01823447XA 2001-07-04 2001-07-04 基于分类的可扩展交互式文档检索系统 Pending CN1535433A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2001/007649 WO2003005235A1 (en) 2001-07-04 2001-07-04 Category based, extensible and interactive system for document retrieval

Publications (1)

Publication Number Publication Date
CN1535433A true CN1535433A (zh) 2004-10-06

Family

ID=8164488

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA01823447XA Pending CN1535433A (zh) 2001-07-04 2001-07-04 基于分类的可扩展交互式文档检索系统

Country Status (6)

Country Link
US (1) US20050108200A1 (zh)
EP (1) EP1402408A1 (zh)
JP (1) JP2004534324A (zh)
KR (1) KR20040013097A (zh)
CN (1) CN1535433A (zh)
WO (1) WO2003005235A1 (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100410945C (zh) * 2006-01-26 2008-08-13 腾讯科技(深圳)有限公司 一种实现论坛的方法及系统
CN100419755C (zh) * 2004-11-29 2008-09-17 台湾积体电路制造股份有限公司 用于文件数据分析的方法及系统
CN100446003C (zh) * 2007-01-11 2008-12-24 上海交通大学 意向驱动的博客搜索以及浏览系统
WO2009033339A1 (fr) * 2007-09-14 2009-03-19 Zte Corporation Système de questions/réponses interactif en mode intelligent et procédé de traitement
CN100504869C (zh) * 2005-08-16 2009-06-24 国际商业机器公司 用于管理电子信息的信息共享系统和方法
CN101122909B (zh) * 2006-08-10 2010-06-16 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
CN102063497A (zh) * 2010-12-31 2011-05-18 百度在线网络技术(北京)有限公司 一种开放式知识共享平台及其词条处理方法
CN102073671A (zh) * 2009-11-19 2011-05-25 索尼公司 话题识别系统、装置和方法、客户终端和信息处理方法
CN101116072B (zh) * 2005-02-03 2011-06-01 英国电讯有限公司 用于分类呈现搜索结果的方法和系统
CN102105878A (zh) * 2008-07-29 2011-06-22 雅虎公司 基于研究会话检测的研究工具访问
CN101361068B (zh) * 2005-11-22 2012-04-04 谷歌公司 从用户日志推断搜索类别同义词的方法及系统
CN102411611A (zh) * 2011-10-15 2012-04-11 西安交通大学 一种面向即时交互文本的事件识别与跟踪方法
CN102646108A (zh) * 2011-02-02 2012-08-22 微软公司 使用主题意识文件评级器的信息检索
CN102725759A (zh) * 2010-02-05 2012-10-10 微软公司 用于搜索结果的语义目录
CN102955844A (zh) * 2011-10-13 2013-03-06 微软公司 基于主题版本呈现搜索结果
CN103514170A (zh) * 2012-06-20 2014-01-15 中国移动通信集团安徽有限公司 一种语音识别的文本分类方法和装置
CN103678513A (zh) * 2013-11-26 2014-03-26 安徽科大讯飞信息科技股份有限公司 一种交互式的检索式生成方法及系统
US8903794B2 (en) 2010-02-05 2014-12-02 Microsoft Corporation Generating and presenting lateral concepts
US8983989B2 (en) 2010-02-05 2015-03-17 Microsoft Technology Licensing, Llc Contextual queries
CN105095320A (zh) * 2014-05-23 2015-11-25 邓寅生 基于关系叠加组合的文档的标识、关联、搜索及展现的系统
CN105474166A (zh) * 2013-03-15 2016-04-06 先进元素科技公司 用于有目的计算的方法和系统
CN103327067B (zh) * 2005-12-29 2016-04-27 松下知识产权经营株式会社 分布式网络中管理提供方的在线状态的系统和方法
CN106326224A (zh) * 2015-06-16 2017-01-11 珠海金山办公软件有限公司 一种文件查找方法及装置
CN103823879B (zh) * 2014-02-28 2017-06-16 中国科学院计算技术研究所 面向在线百科的知识库自动更新方法及系统
CN107391718A (zh) * 2017-07-31 2017-11-24 安徽云软信息科技有限公司 一种进出口实时分类方法
CN108351875A (zh) * 2015-08-21 2018-07-31 德穆可言有限公司 音乐检索系统、音乐检索方法、服务器装置和程序
CN108463795A (zh) * 2016-04-05 2018-08-28 汤森路透全球资源无限公司 自助分类系统
CN108475266A (zh) * 2015-06-23 2018-08-31 微软技术许可有限责任公司 用来移除匹配文档的匹配修复
CN109189818A (zh) * 2018-07-05 2019-01-11 四川省烟草公司成都市公司 一种增值服务环境下的烟草数据粒度划分的方法
CN109464199A (zh) * 2017-09-07 2019-03-15 西门子医疗有限公司 确定用于调整检查协议的分类数据的方法和数据处理单元
CN110020153A (zh) * 2017-11-30 2019-07-16 北京搜狗科技发展有限公司 一种搜索方法及装置
CN110321406A (zh) * 2019-05-20 2019-10-11 四川轻化工大学 一种基于VBScript的酒类语料检索方法
US10491536B2 (en) 2013-03-15 2019-11-26 Advanced Elemental Technologies, Inc. Methods and systems for enabling identification and/or evaluation of resources for purposeful computing
US10509907B2 (en) 2013-03-15 2019-12-17 Advanced Elemental Technologies, Inc. Methods and systems for secure and reliable identity-based computing
CN111104510A (zh) * 2019-11-15 2020-05-05 南京中新赛克科技有限责任公司 一种基于词嵌入的文本分类训练样本扩充方法
CN111831910A (zh) * 2020-07-14 2020-10-27 西北工业大学 一种基于异构网络的引文推荐算法
CN112732878A (zh) * 2015-05-11 2021-04-30 斯图飞腾公司 非结构化数据分析系统和方法
CN114386078A (zh) * 2022-03-22 2022-04-22 武汉汇德立科技有限公司 一种基于bim的建设项目电子档案管理方法及装置
US11392568B2 (en) 2015-06-23 2022-07-19 Microsoft Technology Licensing, Llc Reducing matching documents for a search query

Families Citing this family (191)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7284191B2 (en) 2001-08-13 2007-10-16 Xerox Corporation Meta-document management system with document identifiers
US7133862B2 (en) 2001-08-13 2006-11-07 Xerox Corporation System with user directed enrichment and import/export control
GB2383153A (en) * 2001-12-17 2003-06-18 Hemera Technologies Inc Search engine for computer graphic images
US20030115191A1 (en) * 2001-12-17 2003-06-19 Max Copperman Efficient and cost-effective content provider for customer relationship management (CRM) or other applications
JP3791908B2 (ja) * 2002-02-22 2006-06-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索システム、システム、検索方法およびプログラム
JP2003330948A (ja) 2002-03-06 2003-11-21 Fujitsu Ltd ウェブページを評価する装置および方法
US7139750B2 (en) * 2002-03-13 2006-11-21 Agile Software Corporation System and method for where-used searches for data stored in a multi-level hierarchical structure
US7203909B1 (en) * 2002-04-04 2007-04-10 Microsoft Corporation System and methods for constructing personalized context-sensitive portal pages or views by analyzing patterns of users' information access activities
US20030204522A1 (en) * 2002-04-23 2003-10-30 International Business Machines Corporation Autofoldering process in content management
US7266559B2 (en) * 2002-12-05 2007-09-04 Microsoft Corporation Method and apparatus for adapting a search classifier based on user queries
US7111000B2 (en) * 2003-01-06 2006-09-19 Microsoft Corporation Retrieval of structured documents
US8335683B2 (en) * 2003-01-23 2012-12-18 Microsoft Corporation System for using statistical classifiers for spoken language understanding
US20040148170A1 (en) * 2003-01-23 2004-07-29 Alejandro Acero Statistical classifiers for spoken language understanding and command/control scenarios
US20040193596A1 (en) * 2003-02-21 2004-09-30 Rudy Defelice Multiparameter indexing and searching for documents
JP3944102B2 (ja) * 2003-03-13 2007-07-11 株式会社日立製作所 語義関連ネットワークを用いた文書検索システム
US20040260677A1 (en) * 2003-06-17 2004-12-23 Radhika Malpani Search query categorization for business listings search
EP1665093A4 (en) * 2003-08-21 2006-12-06 Idilia Inc SYSTEM AND METHOD FOR ASSOCIATING DOCUMENTS WITH CONTEXTUAL ADVERTISEMENTS
US7383269B2 (en) * 2003-09-12 2008-06-03 Accenture Global Services Gmbh Navigating a software project repository
CN1629835A (zh) * 2003-12-17 2005-06-22 国际商业机器公司 电子文档的计算机辅助写作和浏览的方法及装置
CN1629838A (zh) 2003-12-17 2005-06-22 国际商业机器公司 电子文档的处理、浏览以及信息提取的方法、装置及系统
US7346613B2 (en) * 2004-01-26 2008-03-18 Microsoft Corporation System and method for a unified and blended search
JP2005242904A (ja) * 2004-02-27 2005-09-08 Ricoh Co Ltd 文書群分析装置、文書群分析方法、文書群分析システム、プログラムおよび記録媒体
US7343378B2 (en) * 2004-03-29 2008-03-11 Microsoft Corporation Generation of meaningful names in flattened hierarchical structures
US20050235011A1 (en) * 2004-04-15 2005-10-20 Microsoft Corporation Distributed object classification
JP4251634B2 (ja) * 2004-06-30 2009-04-08 株式会社東芝 マルチメディアデータ再生装置およびマルチメディアデータ再生方法
US7617176B2 (en) * 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
JP4189369B2 (ja) * 2004-09-24 2008-12-03 株式会社東芝 構造化文書検索装置及び構造化文書検索方法
US7496567B1 (en) * 2004-10-01 2009-02-24 Terril John Steichen System and method for document categorization
KR100703697B1 (ko) * 2005-02-02 2007-04-05 삼성전자주식회사 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치
US8660977B2 (en) * 2005-02-04 2014-02-25 Accenture Global Services Limited Knowledge discovery tool relationship generation
US20060179026A1 (en) * 2005-02-04 2006-08-10 Bechtel Michael E Knowledge discovery tool extraction and integration
US7904411B2 (en) * 2005-02-04 2011-03-08 Accenture Global Services Limited Knowledge discovery tool relationship generation
US7392253B2 (en) * 2005-03-03 2008-06-24 Microsoft Corporation System and method for secure full-text indexing
US8468445B2 (en) * 2005-03-30 2013-06-18 The Trustees Of Columbia University In The City Of New York Systems and methods for content extraction
US8412698B1 (en) * 2005-04-07 2013-04-02 Yahoo! Inc. Customizable filters for personalized search
US7548917B2 (en) * 2005-05-06 2009-06-16 Nelson Information Systems, Inc. Database and index organization for enhanced document retrieval
US8782050B2 (en) * 2005-05-06 2014-07-15 Nelson Information Systems, Inc. Database and index organization for enhanced document retrieval
WO2006124027A1 (en) * 2005-05-16 2006-11-23 Ebay Inc. Method and system to process a data search request
US20060288015A1 (en) * 2005-06-15 2006-12-21 Schirripa Steven R Electronic content classification
US20070011020A1 (en) * 2005-07-05 2007-01-11 Martin Anthony G Categorization of locations and documents in a computer network
US20070067403A1 (en) * 2005-07-20 2007-03-22 Grant Holmes Data Delivery System
US20070067268A1 (en) * 2005-09-22 2007-03-22 Microsoft Corporation Navigation of structured data
WO2007038713A2 (en) * 2005-09-28 2007-04-05 Epacris Inc. Search engine determining results based on probabilistic scoring of relevance
US7797282B1 (en) * 2005-09-29 2010-09-14 Hewlett-Packard Development Company, L.P. System and method for modifying a training set
US7917519B2 (en) * 2005-10-26 2011-03-29 Sizatola, Llc Categorized document bases
US7529761B2 (en) * 2005-12-14 2009-05-05 Microsoft Corporation Two-dimensional conditional random fields for web extraction
US7644373B2 (en) 2006-01-23 2010-01-05 Microsoft Corporation User interface for viewing clusters of images
US7836050B2 (en) * 2006-01-25 2010-11-16 Microsoft Corporation Ranking content based on relevance and quality
US7814040B1 (en) 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
US7894677B2 (en) * 2006-02-09 2011-02-22 Microsoft Corporation Reducing human overhead in text categorization
US8195683B2 (en) 2006-02-28 2012-06-05 Ebay Inc. Expansion of database search queries
EP1835418A1 (en) * 2006-03-14 2007-09-19 Hewlett-Packard Development Company, L.P. Improvements in or relating to document retrieval
US8131747B2 (en) * 2006-03-15 2012-03-06 The Invention Science Fund I, Llc Live search with use restriction
US20070239704A1 (en) * 2006-03-31 2007-10-11 Microsoft Corporation Aggregating citation information from disparate documents
US8255376B2 (en) * 2006-04-19 2012-08-28 Google Inc. Augmenting queries with synonyms from synonyms map
US8380488B1 (en) 2006-04-19 2013-02-19 Google Inc. Identifying a property of a document
US8762358B2 (en) * 2006-04-19 2014-06-24 Google Inc. Query language determination using query terms and interface language
US8442965B2 (en) 2006-04-19 2013-05-14 Google Inc. Query language identification
US9529903B2 (en) 2006-04-26 2016-12-27 The Bureau Of National Affairs, Inc. System and method for topical document searching
US20090055373A1 (en) * 2006-05-09 2009-02-26 Irit Haviv-Segal System and method for refining search terms
US7885947B2 (en) * 2006-05-31 2011-02-08 International Business Machines Corporation Method, system and computer program for discovering inventory information with dynamic selection of available providers
US7483894B2 (en) * 2006-06-07 2009-01-27 Platformation Technologies, Inc Methods and apparatus for entity search
US7769776B2 (en) * 2006-06-16 2010-08-03 Sybase, Inc. System and methodology providing improved information retrieval
US8788517B2 (en) * 2006-06-28 2014-07-22 Microsoft Corporation Intelligently guiding search based on user dialog
US20080005095A1 (en) * 2006-06-28 2008-01-03 Microsoft Corporation Validation of computer responses
CN100504868C (zh) * 2006-06-30 2009-06-24 西门子(中国)有限公司 一种具有多行内容节点的树形结构列表显示方法及其装置
WO2008091282A2 (en) * 2006-07-11 2008-07-31 Carnegie Mellon University Apparatuses, systems, and methods to automate procedural tasks
US8001130B2 (en) * 2006-07-25 2011-08-16 Microsoft Corporation Web object retrieval based on a language model
US8266131B2 (en) * 2006-07-25 2012-09-11 Pankaj Jain Method and a system for searching information using information device
US7720830B2 (en) * 2006-07-31 2010-05-18 Microsoft Corporation Hierarchical conditional random fields for web extraction
US7921106B2 (en) * 2006-08-03 2011-04-05 Microsoft Corporation Group-by attribute value in search results
KR100882349B1 (ko) * 2006-09-29 2009-02-12 한국전자통신연구원 기밀문서 유출 방지 방법 및 장치
US7707208B2 (en) * 2006-10-10 2010-04-27 Microsoft Corporation Identifying sight for a location
US7765176B2 (en) * 2006-11-13 2010-07-27 Accenture Global Services Gmbh Knowledge discovery system with user interactive analysis view for analyzing and generating relationships
US20080154896A1 (en) * 2006-11-17 2008-06-26 Ebay Inc. Processing unstructured information
US7496568B2 (en) * 2006-11-30 2009-02-24 International Business Machines Corporation Efficient multifaceted search in information retrieval systems
US7788265B2 (en) * 2006-12-21 2010-08-31 Finebrain.Com Ag Taxonomy-based object classification
US8631005B2 (en) 2006-12-28 2014-01-14 Ebay Inc. Header-token driven automatic text segmentation
US20080294701A1 (en) * 2007-05-21 2008-11-27 Microsoft Corporation Item-set knowledge for partial replica synchronization
WO2008156600A1 (en) * 2007-06-18 2008-12-24 Geographic Services, Inc. Geographic feature name search system
US8505065B2 (en) * 2007-06-20 2013-08-06 Microsoft Corporation Access control policy in a weakly-coherent distributed collection
US7685185B2 (en) * 2007-06-29 2010-03-23 Microsoft Corporation Move-in/move-out notification for partial replica synchronization
US20090006489A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Hierarchical synchronization of replicas
US8856123B1 (en) * 2007-07-20 2014-10-07 Hewlett-Packard Development Company, L.P. Document classification
JP4992592B2 (ja) * 2007-07-26 2012-08-08 ソニー株式会社 情報処理装置及び情報処理方法、並びにプログラム
US20090055368A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content classification and extraction apparatus, systems, and methods
US20090055242A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content identification and classification apparatus, systems, and methods
US7716228B2 (en) * 2007-09-25 2010-05-11 Firstrain, Inc. Content quality apparatus, systems, and methods
KR20090033728A (ko) * 2007-10-01 2009-04-06 삼성전자주식회사 컨텐트 요약 정보 제공 방법 및 그 장치
US7949657B2 (en) * 2007-12-11 2011-05-24 Microsoft Corporation Detecting zero-result search queries
US8001122B2 (en) * 2007-12-12 2011-08-16 Sun Microsystems, Inc. Relating similar terms for information retrieval
WO2009088478A1 (en) * 2007-12-31 2009-07-16 Thomson Reuters Global Resources Systems, methods and sofstware for evaluating user queries
KR100930617B1 (ko) * 2008-04-08 2009-12-09 한국과학기술정보연구원 다중 개체 중심적 통합 검색 시스템 및 방법
US8577884B2 (en) * 2008-05-13 2013-11-05 The Boeing Company Automated analysis and summarization of comments in survey response data
US8712926B2 (en) * 2008-05-23 2014-04-29 International Business Machines Corporation Using rule induction to identify emerging trends in unstructured text streams
US8682819B2 (en) * 2008-06-19 2014-03-25 Microsoft Corporation Machine-based learning for automatically categorizing data on per-user basis
US8285719B1 (en) 2008-08-08 2012-10-09 The Research Foundation Of State University Of New York System and method for probabilistic relational clustering
CA2638558C (en) * 2008-08-08 2013-03-05 Bloorview Kids Rehab Topic word generation method and system
US7996383B2 (en) * 2008-08-15 2011-08-09 Athena A. Smyros Systems and methods for a search engine having runtime components
US20100042589A1 (en) * 2008-08-15 2010-02-18 Smyros Athena A Systems and methods for topical searching
US7882143B2 (en) * 2008-08-15 2011-02-01 Athena Ann Smyros Systems and methods for indexing information for a search engine
US8965881B2 (en) * 2008-08-15 2015-02-24 Athena A. Smyros Systems and methods for searching an index
US9424339B2 (en) 2008-08-15 2016-08-23 Athena A. Smyros Systems and methods utilizing a search engine
US20100049761A1 (en) * 2008-08-21 2010-02-25 Bijal Mehta Search engine method and system utilizing multiple contexts
GB2463669A (en) * 2008-09-19 2010-03-24 Motorola Inc Using a semantic graph to expand characterising terms of a content item and achieve targeted selection of associated content items
CN101727454A (zh) * 2008-10-30 2010-06-09 日电(中国)有限公司 用于对象自动分类的方法和系统
WO2010067142A1 (en) * 2008-12-08 2010-06-17 Pantanelli Georges P A method using contextual analysis, semantic analysis and artificial intelligence in text search engines
CN102460430B (zh) * 2009-04-29 2014-02-19 谷歌公司 简短兴趣点标题生成
US20100299132A1 (en) * 2009-05-22 2010-11-25 Microsoft Corporation Mining phrase pairs from an unstructured resource
US8103650B1 (en) * 2009-06-29 2012-01-24 Adchemy, Inc. Generating targeted paid search campaigns
EP2629211A1 (en) 2009-08-21 2013-08-21 Mikko Kalervo Väänänen Method and means for data searching and language translation
US9405841B2 (en) 2009-10-15 2016-08-02 A9.Com, Inc. Dynamic search suggestion and category specific completion
US8756215B2 (en) * 2009-12-02 2014-06-17 International Business Machines Corporation Indexing documents
KR100969929B1 (ko) * 2009-12-02 2010-07-14 (주)해밀 감속수단을 구비한 피난갱문
US8339094B2 (en) * 2010-03-11 2012-12-25 GM Global Technology Operations LLC Methods, systems and apparatus for overmodulation of a five-phase machine
US8463789B1 (en) 2010-03-23 2013-06-11 Firstrain, Inc. Event detection
US10643227B1 (en) * 2010-03-23 2020-05-05 Aurea Software, Inc. Business lines
US8805840B1 (en) 2010-03-23 2014-08-12 Firstrain, Inc. Classification of documents
US10546311B1 (en) 2010-03-23 2020-01-28 Aurea Software, Inc. Identifying competitors of companies
KR101482151B1 (ko) * 2010-05-11 2015-01-14 에스케이플래닛 주식회사 웹 어플리케이션 실행 장치 및 방법
US9268878B2 (en) * 2010-06-22 2016-02-23 Microsoft Technology Licensing, Llc Entity category extraction for an entity that is the subject of pre-labeled data
US20120016863A1 (en) * 2010-07-16 2012-01-19 Microsoft Corporation Enriching metadata of categorized documents for search
US8775426B2 (en) * 2010-09-14 2014-07-08 Microsoft Corporation Interface to navigate and search a concept hierarchy
US9594845B2 (en) 2010-09-24 2017-03-14 International Business Machines Corporation Automating web tasks based on web browsing histories and user actions
US9069843B2 (en) * 2010-09-30 2015-06-30 International Business Machines Corporation Iterative refinement of search results based on user feedback
CA2718701A1 (en) * 2010-10-29 2011-01-10 Ibm Canada Limited - Ibm Canada Limitee Using organizational awareness in locating business intelligence
US8589375B2 (en) 2011-01-31 2013-11-19 Splunk Inc. Real time searching and reporting
US8412696B2 (en) 2011-01-31 2013-04-02 Splunk Inc. Real time searching and reporting
EP2503477B1 (en) * 2011-03-21 2017-08-30 Tata Consultancy Services Limited A system and method for contextual resume search and retrieval based on information derived from the resume repository
US20120310954A1 (en) * 2011-06-03 2012-12-06 Ebay Inc. Method and system to narrow generic searches using related search terms
CA2832902C (en) 2011-06-22 2017-01-17 Rogers Communications Inc. Systems and methods for creating an interest profile for a user
CN102982034B (zh) * 2011-09-05 2017-06-23 腾讯科技(深圳)有限公司 互联网站内信息的搜索方法和搜索系统
US8782042B1 (en) 2011-10-14 2014-07-15 Firstrain, Inc. Method and system for identifying entities
US8768921B2 (en) * 2011-10-20 2014-07-01 International Business Machines Corporation Computer-implemented information reuse
US20130166563A1 (en) * 2011-12-21 2013-06-27 Sap Ag Integration of Text Analysis and Search Functionality
US9130778B2 (en) 2012-01-25 2015-09-08 Bitdefender IPR Management Ltd. Systems and methods for spam detection using frequency spectra of character strings
US8954519B2 (en) * 2012-01-25 2015-02-10 Bitdefender IPR Management Ltd. Systems and methods for spam detection using character histograms
US9292505B1 (en) 2012-06-12 2016-03-22 Firstrain, Inc. Graphical user interface for recurring searches
CN102760166B (zh) * 2012-06-12 2014-07-09 北大方正集团有限公司 一种支持多语言的xml数据库全文检索方法
CN103488648B (zh) 2012-06-13 2018-03-20 阿里巴巴集团控股有限公司 一种多语种混合检索方法和系统
US9400639B2 (en) * 2012-06-22 2016-07-26 Microsoft Technology Licensing, Llc Generating programs using context-free compositions and probability of determined transformation rules
US9015190B2 (en) 2012-06-29 2015-04-21 Longsand Limited Graphically representing an input query
CN103593365A (zh) * 2012-08-16 2014-02-19 江苏新瑞峰信息科技有限公司 一种基于互联网的实时更新专利数据库装置
US10592480B1 (en) 2012-12-30 2020-03-17 Aurea Software, Inc. Affinity scoring
IL224482B (en) 2013-01-29 2018-08-30 Verint Systems Ltd System and method for keyword spotting using representative dictionary
KR101320509B1 (ko) * 2013-03-13 2013-10-23 국방과학연구소 개체 정보 전달 필터링 방법
US9298814B2 (en) 2013-03-15 2016-03-29 Maritz Holdings Inc. Systems and methods for classifying electronic documents
US11928606B2 (en) 2013-03-15 2024-03-12 TSG Technologies, LLC Systems and methods for classifying electronic documents
IL226056A (en) * 2013-04-28 2017-06-29 Verint Systems Ltd Keyword Finding Systems and Methods by Adaptive Management of Multiple Template Matching Algorithms
US9405822B2 (en) * 2013-06-06 2016-08-02 Sheer Data, LLC Queries of a topic-based-source-specific search system
US9152694B1 (en) * 2013-06-17 2015-10-06 Appthority, Inc. Automated classification of applications for mobile devices
CN104636334A (zh) * 2013-11-06 2015-05-20 阿里巴巴集团控股有限公司 一种关键词推荐方法和装置
WO2015102124A1 (ko) * 2013-12-31 2015-07-09 엘지전자 주식회사 대화 서비스 제공 장치 및 방법
US20150254211A1 (en) * 2014-03-08 2015-09-10 Microsoft Technology Licensing, Llc Interactive data manipulation using examples and natural language
WO2015175548A1 (en) 2014-05-12 2015-11-19 Diffeo, Inc. Entity-centric knowledge discovery
US9959364B2 (en) * 2014-05-22 2018-05-01 Oath Inc. Content recommendations
CN104166644A (zh) * 2014-07-09 2014-11-26 苏州市职业大学 一种基于云计算的术语译文挖掘方法
US10255646B2 (en) * 2014-08-14 2019-04-09 Thomson Reuters Global Resources (Trgr) System and method for implementation and operation of strategic linkages
CN104199970B (zh) * 2014-09-22 2017-11-14 北京国双科技有限公司 网页数据更新处理方法及装置
CN104391835B (zh) * 2014-09-30 2017-09-29 中南大学 文本中特征词选择方法及装置
US9424298B2 (en) * 2014-10-07 2016-08-23 International Business Machines Corporation Preserving conceptual distance within unstructured documents
US20160171122A1 (en) * 2014-12-10 2016-06-16 Ford Global Technologies, Llc Multimodal search response
IL242219B (en) 2015-10-22 2020-11-30 Verint Systems Ltd System and method for keyword searching using both static and dynamic dictionaries
IL242218B (en) 2015-10-22 2020-11-30 Verint Systems Ltd A system and method for maintaining a dynamic dictionary
CN105528437B (zh) * 2015-12-17 2018-11-23 浙江大学 一种基于结构化文本知识提取的问答系统构建方法
US20170185989A1 (en) * 2015-12-28 2017-06-29 Paypal, Inc. Split group payments through a sharable uniform resource locator address for a group
US10078632B2 (en) * 2016-03-12 2018-09-18 International Business Machines Corporation Collecting training data using anomaly detection
CN108108346B (zh) * 2016-11-25 2021-12-24 广东亿迅科技有限公司 文档的主题特征词抽取方法及装置
US10671759B2 (en) * 2017-06-02 2020-06-02 Apple Inc. Anonymizing user data provided for server-side operations
US11106741B2 (en) 2017-06-06 2021-08-31 Salesforce.Com, Inc. Knowledge operating system
CN118551752A (zh) * 2017-08-01 2024-08-27 三星电子株式会社 使用人工智能模型提供概述信息的装置和方法
KR102060176B1 (ko) * 2017-09-12 2019-12-27 네이버 주식회사 문서의 카테고리 분류를 위한 딥러닝 학습 방법 및 그 시스템
US11222027B2 (en) * 2017-11-07 2022-01-11 Thomson Reuters Enterprise Centre Gmbh System and methods for context aware searching
CN108182182B (zh) * 2017-12-27 2021-09-10 传神语联网网络科技股份有限公司 翻译数据库中文档匹配方法、装置及计算机可读存储介质
US10593423B2 (en) * 2017-12-28 2020-03-17 International Business Machines Corporation Classifying medically relevant phrases from a patient's electronic medical records into relevant categories
US10783176B2 (en) * 2018-03-27 2020-09-22 Pearson Education, Inc. Enhanced item development using automated knowledgebase search
US11227231B2 (en) 2018-05-04 2022-01-18 International Business Machines Corporation Computational efficiency in symbolic sequence analytics using random sequence embeddings
US10585922B2 (en) * 2018-05-23 2020-03-10 International Business Machines Corporation Finding a resource in response to a query including unknown words
KR102149917B1 (ko) * 2018-12-13 2020-08-31 줌인터넷 주식회사 스팸 문구가 포함된 스팸뉴스 탐지를 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
US11170017B2 (en) 2019-02-22 2021-11-09 Robert Michael DESSAU Method of facilitating queries of a topic-based-source-specific search system using entity mention filters and search tools
US20210134290A1 (en) * 2019-10-30 2021-05-06 The Seelig Group LLC Voice-driven navigation of dynamic audio files
US11481417B2 (en) * 2019-11-06 2022-10-25 Servicenow, Inc. Generation and utilization of vector indexes for data processing systems and methods
US11468238B2 (en) 2019-11-06 2022-10-11 ServiceNow Inc. Data processing systems and methods
US11455357B2 (en) 2019-11-06 2022-09-27 Servicenow, Inc. Data processing systems and methods
WO2021097515A1 (en) * 2019-11-20 2021-05-27 Canva Pty Ltd Systems and methods for generating document score adjustments
CN111339268B (zh) * 2020-02-19 2023-08-15 北京百度网讯科技有限公司 实体词识别方法和装置
WO2021199052A1 (en) * 2020-03-28 2021-10-07 Telefonaktiebolaget Lm Ericsson (Publ) Methods and systems for searching and retrieving information
CN112417256B (zh) * 2020-10-20 2024-05-24 中国环境科学研究院 一种基于互联网的自然保护地认知评价系统及方法
CN112763550B (zh) * 2020-12-29 2022-10-28 中国科学技术大学 一种具有气味识别功能的集成式气体检测系统
WO2023211093A1 (ko) * 2022-04-24 2023-11-02 박종배 지식교차와 지식연결을 통한 연결지식 생성 방법 및 시스템
US12045576B1 (en) * 2023-10-24 2024-07-23 Nlp Logix, Llc Systems and methods for processing data

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5278980A (en) * 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US5873076A (en) * 1995-09-15 1999-02-16 Infonautics Corporation Architecture for processing search queries, retrieving documents identified thereby, and method for using same
US5987460A (en) * 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
US5924090A (en) * 1997-05-01 1999-07-13 Northern Light Technology Llc Method and apparatus for searching a database of records
US6088594A (en) * 1997-11-26 2000-07-11 Ericsson Inc. System and method for positioning a mobile terminal using a terminal based browser
US6304864B1 (en) * 1999-04-20 2001-10-16 Textwise Llc System for retrieving multimedia information from the internet using multiple evolving intelligent agents
US6389398B1 (en) * 1999-06-23 2002-05-14 Lucent Technologies Inc. System and method for storing and executing network queries used in interactive voice response systems
US6678694B1 (en) * 2000-11-08 2004-01-13 Frank Meik Indexed, extensible, interactive document retrieval system
US6907423B2 (en) * 2001-01-04 2005-06-14 Sun Microsystems, Inc. Search engine interface and method of controlling client searches

Cited By (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100419755C (zh) * 2004-11-29 2008-09-17 台湾积体电路制造股份有限公司 用于文件数据分析的方法及系统
CN101116072B (zh) * 2005-02-03 2011-06-01 英国电讯有限公司 用于分类呈现搜索结果的方法和系统
CN100504869C (zh) * 2005-08-16 2009-06-24 国际商业机器公司 用于管理电子信息的信息共享系统和方法
CN101361068B (zh) * 2005-11-22 2012-04-04 谷歌公司 从用户日志推断搜索类别同义词的方法及系统
CN103327067B (zh) * 2005-12-29 2016-04-27 松下知识产权经营株式会社 分布式网络中管理提供方的在线状态的系统和方法
CN100410945C (zh) * 2006-01-26 2008-08-13 腾讯科技(深圳)有限公司 一种实现论坛的方法及系统
CN101122909B (zh) * 2006-08-10 2010-06-16 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
CN100446003C (zh) * 2007-01-11 2008-12-24 上海交通大学 意向驱动的博客搜索以及浏览系统
WO2009033339A1 (fr) * 2007-09-14 2009-03-19 Zte Corporation Système de questions/réponses interactif en mode intelligent et procédé de traitement
CN102105878B (zh) * 2008-07-29 2015-06-10 雅虎公司 基于研究会话检测的研究工具访问
CN102105878A (zh) * 2008-07-29 2011-06-22 雅虎公司 基于研究会话检测的研究工具访问
US8832098B2 (en) 2008-07-29 2014-09-09 Yahoo! Inc. Research tool access based on research session detection
CN102073671A (zh) * 2009-11-19 2011-05-25 索尼公司 话题识别系统、装置和方法、客户终端和信息处理方法
CN102073671B (zh) * 2009-11-19 2014-06-25 索尼公司 话题识别系统、装置和方法、客户终端和信息处理方法
US8903794B2 (en) 2010-02-05 2014-12-02 Microsoft Corporation Generating and presenting lateral concepts
CN102725759A (zh) * 2010-02-05 2012-10-10 微软公司 用于搜索结果的语义目录
US8983989B2 (en) 2010-02-05 2015-03-17 Microsoft Technology Licensing, Llc Contextual queries
CN102725759B (zh) * 2010-02-05 2015-11-25 微软技术许可有限责任公司 用于搜索结果的语义目录
CN102063497B (zh) * 2010-12-31 2013-07-10 百度在线网络技术(北京)有限公司 一种开放式知识共享平台及其词条处理方法
CN102063497A (zh) * 2010-12-31 2011-05-18 百度在线网络技术(北京)有限公司 一种开放式知识共享平台及其词条处理方法
CN102646108B (zh) * 2011-02-02 2016-07-06 微软技术许可有限责任公司 使用主题意识文件评级器的信息检索
CN102646108A (zh) * 2011-02-02 2012-08-22 微软公司 使用主题意识文件评级器的信息检索
CN102955844B (zh) * 2011-10-13 2016-07-06 微软技术许可有限责任公司 基于主题版本呈现搜索结果
CN102955844A (zh) * 2011-10-13 2013-03-06 微软公司 基于主题版本呈现搜索结果
US9208236B2 (en) 2011-10-13 2015-12-08 Microsoft Technology Licensing, Llc Presenting search results based upon subject-versions
CN102411611B (zh) * 2011-10-15 2013-01-02 西安交通大学 一种面向即时交互文本的事件识别与跟踪方法
CN102411611A (zh) * 2011-10-15 2012-04-11 西安交通大学 一种面向即时交互文本的事件识别与跟踪方法
CN103514170A (zh) * 2012-06-20 2014-01-15 中国移动通信集团安徽有限公司 一种语音识别的文本分类方法和装置
US10853136B2 (en) 2013-03-15 2020-12-01 Advanced Elemental Technologies, Inc. Systems and methods configured to enable an operating system for connected computing that supports user use of suitable to user purpose resources sourced from one or more resource ecospheres
US11216305B2 (en) 2013-03-15 2022-01-04 Advanced Elemental Technologies, Inc. Systems and methods configured to enable an operating system for connected computing that supports user use of suitable to user purpose resources sourced from one or more resource ecospheres
US11922215B2 (en) 2013-03-15 2024-03-05 Advanced Elemental Technologies, Inc. Systems and methods for establishing a user purpose class resource information computing environment
US11847495B2 (en) 2013-03-15 2023-12-19 Advanced Elemental Technologies, Inc. Systems and methods configured to enable an operating system for connected computing that supports user use of suitable to user purpose resources sourced from one or more resource ecospheres
US11822662B2 (en) 2013-03-15 2023-11-21 Advanced Elemental Technologies, Inc. Methods and systems for secure and reliable identity-based computing
US11528233B2 (en) 2013-03-15 2022-12-13 Advanced Elemental Technologies, Inc. Systems and methods for establishing a user purpose fulfillment computing platform
US11514164B2 (en) 2013-03-15 2022-11-29 Advanced Elemental Technologies, Inc. Methods and systems for secure and reliable identity-based computing
US11507665B2 (en) 2013-03-15 2022-11-22 Advanced Elemental Technologies, Inc. Methods and systems for secure and reliable identity-based computing
CN105474166B (zh) * 2013-03-15 2018-08-21 先进元素科技公司 用于有目的计算的方法和系统
CN105474166A (zh) * 2013-03-15 2016-04-06 先进元素科技公司 用于有目的计算的方法和系统
US11017089B2 (en) 2013-03-15 2021-05-25 Advanced Elemental Technologies, Inc. Methods and systems for secure and reliable identity-based computing
US10884803B2 (en) 2013-03-15 2021-01-05 Advanced Elemental Technologies, Inc. Systems and methods for establishing a user purpose class resource information computing environment
US10834014B2 (en) 2013-03-15 2020-11-10 Advanced Elemental Technologies Systems and methods for establishing a user purpose fulfillment computing platform
US10540205B2 (en) 2013-03-15 2020-01-21 Advanced Elemental Technologies Tamper resistant, identity-based, purposeful networking arrangement
US10523582B2 (en) 2013-03-15 2019-12-31 Advanced Elemental Technologies, Inc. Methods and systems for enabling fact reliability
US10509907B2 (en) 2013-03-15 2019-12-17 Advanced Elemental Technologies, Inc. Methods and systems for secure and reliable identity-based computing
US10491536B2 (en) 2013-03-15 2019-11-26 Advanced Elemental Technologies, Inc. Methods and systems for enabling identification and/or evaluation of resources for purposeful computing
US10509672B2 (en) 2013-03-15 2019-12-17 Advanced Elemental Technologies, Inc. Systems and methods enabling a resource assertion environment for evaluating the appropriateness of computer resources for user purposes
CN103678513B (zh) * 2013-11-26 2016-08-31 科大讯飞股份有限公司 一种交互式的检索式生成方法及系统
CN103678513A (zh) * 2013-11-26 2014-03-26 安徽科大讯飞信息科技股份有限公司 一种交互式的检索式生成方法及系统
CN103823879B (zh) * 2014-02-28 2017-06-16 中国科学院计算技术研究所 面向在线百科的知识库自动更新方法及系统
CN105095320A (zh) * 2014-05-23 2015-11-25 邓寅生 基于关系叠加组合的文档的标识、关联、搜索及展现的系统
CN105095320B (zh) * 2014-05-23 2019-04-19 邓寅生 基于关系叠加组合的文档的标识、关联、搜索及展现的系统
CN112732878A (zh) * 2015-05-11 2021-04-30 斯图飞腾公司 非结构化数据分析系统和方法
CN106326224A (zh) * 2015-06-16 2017-01-11 珠海金山办公软件有限公司 一种文件查找方法及装置
US11281639B2 (en) 2015-06-23 2022-03-22 Microsoft Technology Licensing, Llc Match fix-up to remove matching documents
CN108475266A (zh) * 2015-06-23 2018-08-31 微软技术许可有限责任公司 用来移除匹配文档的匹配修复
US11392568B2 (en) 2015-06-23 2022-07-19 Microsoft Technology Licensing, Llc Reducing matching documents for a search query
CN108351875A (zh) * 2015-08-21 2018-07-31 德穆可言有限公司 音乐检索系统、音乐检索方法、服务器装置和程序
CN108463795A (zh) * 2016-04-05 2018-08-28 汤森路透全球资源无限公司 自助分类系统
CN107391718A (zh) * 2017-07-31 2017-11-24 安徽云软信息科技有限公司 一种进出口实时分类方法
CN109464199A (zh) * 2017-09-07 2019-03-15 西门子医疗有限公司 确定用于调整检查协议的分类数据的方法和数据处理单元
CN110020153B (zh) * 2017-11-30 2022-02-25 北京搜狗科技发展有限公司 一种搜索方法及装置
CN110020153A (zh) * 2017-11-30 2019-07-16 北京搜狗科技发展有限公司 一种搜索方法及装置
CN109189818A (zh) * 2018-07-05 2019-01-11 四川省烟草公司成都市公司 一种增值服务环境下的烟草数据粒度划分的方法
CN110321406A (zh) * 2019-05-20 2019-10-11 四川轻化工大学 一种基于VBScript的酒类语料检索方法
CN111104510B (zh) * 2019-11-15 2023-05-09 南京中新赛克科技有限责任公司 一种基于词嵌入的文本分类训练样本扩充方法
CN111104510A (zh) * 2019-11-15 2020-05-05 南京中新赛克科技有限责任公司 一种基于词嵌入的文本分类训练样本扩充方法
CN111831910A (zh) * 2020-07-14 2020-10-27 西北工业大学 一种基于异构网络的引文推荐算法
CN114386078A (zh) * 2022-03-22 2022-04-22 武汉汇德立科技有限公司 一种基于bim的建设项目电子档案管理方法及装置

Also Published As

Publication number Publication date
JP2004534324A (ja) 2004-11-11
US20050108200A1 (en) 2005-05-19
EP1402408A1 (en) 2004-03-31
KR20040013097A (ko) 2004-02-11
WO2003005235A1 (en) 2003-01-16

Similar Documents

Publication Publication Date Title
CN1535433A (zh) 基于分类的可扩展交互式文档检索系统
US8903825B2 (en) Semiotic indexing of digital resources
CN100433007C (zh) 提供搜索结果的方法
Gupta et al. A survey of text mining techniques and applications
US7272558B1 (en) Speech recognition training method for audio and video file indexing on a search engine
Hiemstra Term-specific smoothing for the language modeling approach to information retrieval: the importance of a query term
US20120254143A1 (en) Natural language querying with cascaded conditional random fields
CN1573744A (zh) 进行非结构化信息管理和自动文本分析的系统和方法
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
CN1669029A (zh) 自文件集合中自动搜寻概念层次结构的方法及系统
CN1871597A (zh) 利用一套消歧技术处理文本的系统和方法
Singhal Term weighting revisited
KR102292092B1 (ko) 개인화된 검색 결과 제공 방법 및 그 장치
CN113886604A (zh) 一种职位知识图谱生成方法和系统
Kozlowski et al. Clustering of semantically enriched short texts
KR20230077589A (ko) 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법 및 시스템
Rybchak et al. Analysis of methods and means of text mining
CN116010552A (zh) 一种基于关键词词库的工程造价数据解析系统及其方法
Klochikhin et al. Text analysis
CN1265209A (zh) 使用自然语言处理技术用于处理文本输入的系统
Khalessizadeh et al. Genetic mining: using genetic algorithm for topic based on concept distribution
CN1720524A (zh) 知识系统方法和装置
CN1752966A (zh) 使用本体论和用户查询处理技术解决问题的方法
Husain Critical concepts and techniques for information retrieval system
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication