CN1470047A - 用于文档的向量分析方法 - Google Patents

用于文档的向量分析方法 Download PDF

Info

Publication number
CN1470047A
CN1470047A CNA018175805A CN01817580A CN1470047A CN 1470047 A CN1470047 A CN 1470047A CN A018175805 A CNA018175805 A CN A018175805A CN 01817580 A CN01817580 A CN 01817580A CN 1470047 A CN1470047 A CN 1470047A
Authority
CN
China
Prior art keywords
document
vector
word
section
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA018175805A
Other languages
English (en)
Other versions
CN1227614C (zh
Inventor
¡
川谷隆彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of CN1470047A publication Critical patent/CN1470047A/zh
Application granted granted Critical
Publication of CN1227614C publication Critical patent/CN1227614C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

提供一种用来进行文档表示和文档分析的方法,包括从给定的文档抽取重要句子或确定两个文档之间的相似性。此方法检测在输入文档中出现的词语(11);将输入文档分割为文档段,每个文档段都是大小合适的块;生成文档段向量(14),每个向量包含根据出现于文档段中的词语的出现频率的值作为其元素。此方法计算平方和矩阵(15)的本征值和本征向量(16),其中各个文档段向量的秩以R表示,并且从本征向量中选择多(L)个本征向量用来确定重要性(19)。计算选择的各个本征向量的平方投影加权和。

Description

用于文档的向量分析方法
技术领域
本发明涉及自然语言处理,包含文档的检索、分类和摘要,并且更具体地说,涉及表示文档的方法、从输入的文档中抽取重要部分的方法和确定文档间的相似性的方法。
背景技术
从文档中抽取重要部分的过程是文档摘要过程中的根本过程之一。抽取过程基本上包括定量地对文档的每个句子给予一个重要性和抽取具有高重要性的句子。文档摘要处理的各种普通技术在M.Okumura和E.Nanba发表在Journal of National Language Processing Vol.6 No.6,July 1999中的“Automated Text Summarization:A survey”一文中有描述。此文献列举了用来评估重要性的七个特征,包括(1)文档中词语的出现频率、(2)文档内的位置信息、(3)文档标题信息以及(4)通过对句子之间关系的分析取得的文本结构。特别是,文档中的词语的出现频率信息被看作是基本特征,因为频繁出现的内容词语往往可指示出文档的话题。利用这一信息的一些具体方法包括根据每个词语在输入文档内出现的频率对其给予一个权重并根据包含在每个句子内的词语的权重的和确定每个句子的重要性的方法和对每个词语进行加权时不仅利用词语的出现频率信息还利用在一组文档内包含每个词语的文档的数目的信息的方法。
上述参考文献描述了一种动态文档摘要技术。当将检索结果提供给用户时,该结果向用户指出文档中与用户的查询有关的重要部分作为摘要并且帮助用户迅速准确地确定检索出的文档是否与查询匹配。上述参考文献还描述了一种普通的方法,即检索反映与查询的相关性的重要句子的方法。在此方法中,将利用文档内的词语的出现频率计算出的文档重要性添加到根据查询词语在对象文档内出现的频率的得分之上。
对于自动文档分类和文档检索而言,确定文档相似性的过程是根本的,特别是对于检索与用户指定的文档类似的文档的基于相似性的检索。在确定文档相似性的过程中,文档经常以向量形式表示。在下面的描述中,由整个文档生成的向量称为文档向量,由文档的一部分生成的向量称为文档片段向量,并且,特别是,由一个句子生成的向量称为句子向量。用于确定文档向量的元素值的公知的方法有多种,比如,将相关文档中的每个词语的出现频率与预先确定的值进行比较而赋予每个向量元素1或0的方法、利用出现频率的方法以及给出通过将出现频率乘以相应的词语出现于其中的文档数与总文档数之比的倒数的对数所得到的值的方法。此种文档表示方法通常应用于向量空间模型中。
此种文档向量指示哪些词语在文档中出现及其在文档中出现频率。由于一般认为文档概念是由文档中有哪些词语出现及其出现频率表示的,所以取得的文档向量的方向可以看作是表示文档概念。除此之外,文档中词语的出现频率与向量范数有关。取得的文档向量的平方范数值可看作是表示相关文档的强度或能量。
经常使用两个向量之间的余弦度量的相似性来确定由向量表示的两个文档之间的相似性。这一相似性的定义是两个向量的内积除以每个向量的范数而得到的值。由于文档向量的方向表示上述的概念,此种相似性不反映文档之间的能量差,而的确只反映概念差。
本发明的目的在于提供一种用于从一给定的文档抽取重要句子和/或确定两个文档的相似性的文档分析方法和将文档表示为适于文档分析方法的方法。
在从文档中抽取重要句子时,具有接近有关文档的中心概念的概念的句子应该获得高优先级。因此,确定文档的中心概念和获得每个句子和整个文档之间的概念的关系是根本的。然而,在普通的以每个词语的权重和定义句子重要性的方法中,并非永远清楚句子的重要性如何反映文档的中心概念。结果,较长的句子多半被抽取为重要句子只是因为它们长。除此之外,由于普通的方法得不到每个句子和整个文档之间的概念的关系,就无法保证概念与相关文档的中心概念接近的句子永远可受到抽取。
在从文档中抽取重要并与查询相关的句子时,经常采用一种可获得查询中的词语在目标句子中的频率的方法。在此场合,如查询和目标句子两者不具有同一词语,则得分为零。实际上,即使是在查询和目标句子两者之中不包含共同词语,如果频繁在文档中共同出现的一对词语中的一个包含在查询中,而另一个包含在目标句子中,最好是得到非零相关性。比如,假设有一个文档包含一段引入“Tokyo”和“Ginza”之间的关系的段落。当用户发出一个包含“Tokyo”的查询时,系统最好是能够向用户提供包含“Ginza”的句子以及包含“Tokyo”的句子。
在确定两个文档的相似性时,普通的方法是利用单个向量表示文档。在此种方法中,一直存在向量表示的概念有歧义的问题和不能表示概念的扩展的问题。比如,假设a、b、c和d分别表示一定的词语。包含组合a-b和c-d的文档应该与其他包含组合a-c和b-d的文档互相区别,因为该两个文档似乎表示不同的概念。然而,采用普通的向量表示法时,两个文档的向量将是一样的,这意味着难于区别两个文档。此外,由于文档通常是由很多句子构成的并且每个句子具有其自己的概念,由此文档表示的概念发生扩展。但是,很难利用单个向量表示文档概念的此种扩展。这样,由于在普通的方法中文档概念的表示不精确,在普通的文档检索和分类处理中一直难于正确地取得文档之间的相似性。
发明内容
为了解决上述的问题,根据本发明的一个方面提供一种方法,其构成包括:检测在输入文档中出现的词语;将输入文档分割为文档段,每个文档段都是大小合适的块;生成文档段向量,每个向量包含根据出现于文档段中的词语的出现频率的值作为其元素;并且以文档段向量的平方和矩阵的本征值和本征向量表示一组文档段向量。
根据本发明的另一个方面,从输入文档抽取重要文档段。更具体言之,提供一种方法,其构成包括:检测在输入文档中出现的词语;将输入文档分割为文档段,每个文档段都是大小合适的块;生成文档段向量,每个向量包含根据出现于文档段中的词语的出现频率的值作为其元素;计算平方和矩阵的本征值和本征向量;从本征向量中选择用来确定重要性的多个本征向量;计算各个文档段向量在各个选择的本征向量上的平方投影的加权和;以及根据各个文档段向量的平方投影的计算加权和选择具有显著重要性文档段。
根据本发明的再一个方面,从输入文档检索与查询具有一定相关性的文档段。更具体言之,提供一种方法,其构成包括:检测在输入文档中出现的词语;将输入文档分割为文档段,每个文档段都是大小合适的块;生成文档段向量,每个向量包含根据出现于各个文档段中的词语的出现频率的值作为其元素;计算文档段向量的平方和矩阵的本征值和本征向量以确定子空间;检测出现于查询中的查询词语以生成查询向量,每个向量包含根据各个查询词语的出现频率的值作为其元素以便将查询向量投影到子空间;以及将每个文档段向量投影到子空间以计算查询与每个文档段的相关性。
根据本发明的另外一个方面,确定给定的两个输入文档之间的相似性。更具体言之,提供一种方法,其构成包括:检测在输入文档中出现的词语;将每个输入文档分割为各个文档段,每个文档段都是大小合适的块;生成文档段向量,每个向量包含根据出现于各个文档段中的词语的出现频率的值作为其元素;对每个输入文档计算包含于各个输入文档中的所有文档向量的组合的平方内积;以及根据平方内积的和确定这两个输入文档之间的相似性。
在本发明的用来确定两个输入文档之间的相似性的另一个实施方式中,提供一种方法,其构成包括:计算两个输入文档之一的文档段向量的平方和矩阵的本征值和本征向量;从计算出的本征向量中选择与较大的本征值相对应的本征向量作为基向量;计算两个输入文档中的另一个文档的文档段向量和每个基向量之间的平方内积的加权和;以及根据平方内积的加权和确定这两个输入文档之间的相关性。
在本发明的用来确定两个输入文档之间的相似性的再一个实施方式中,提供一种方法,其构成包括:计算两个输入文档每一个的文档段向量的平方和矩阵的本征值和本征向量;从计算出的两个输入文档中的每一个文档的本征向量中选择与较大的本征值相对应的本征向量作为基向量;计算所选择的基向量的组合的平方内积的加权和;以及根据平方内积的加权和确定这两个输入文档之间的相关性。
附图说明
图1为示出根据本发明的一个实施方式的用来从文档中抽取重要句子的系统的功能方块图。
图2为示出根据本发明的一个实施方式的用来检索与查询有相关性的文档段的系统的功能方块图。
图3为示出根据本发明的一个实施方式的用来确定两个文档之间的相似性的系统的功能方块图。
图4为示出根据本发明的另一个实施方式的用来确定两个文档之间的相似性的另一系统的功能方块图。
图5为示出维数L和概念子空间的代表性例子之间关系的曲线图,其情况为从一篇由58个句子和1100个词构成的新闻文章中抽取名词生成具有146维的句子向量。
图6为示出本征值和本征向量例子的表。
具体实施方式
文档段的表示及重要句子的抽取
在本发明的一个实施方式中,首先定义构成输入文档的每个句子的概念以及文档的中心概念,然后取得每个句子对有关文档的中心概念的贡献以便根据取得的各个贡献的大小确定每个句子的重要性。在此实施方式中,将一个句子用作文档段的一个单位。每个句子的概念可由包含有待利用各个词语在句子中出现的频率信息来确定的值作为其元素的句子向量来表示。基向量的特征在于每个句子向量在基向量上的平方投影值的和大于在基向量以外的任何向量上的平方投影值的和并且基向量是互相正交的这一性质。因此,文档的中心概念可藉助于由一定数目的此种基向量的组合形成的子空间定义。每个句子对文档的中心概念的贡献可利用每个句子向量在此子空间上的平方投影的加权和来确定。
在句子和查询之间的相关性或关联性的确定方法如下:根据查询向量在每个基向量上的平方投影值对每个基向量加权并取得每个句子向量在每个基向量上的平方投影的加权和作为相关性或关联性。
根据本发明的一个实施方式,根据每个句子对文档的中心概念的贡献赋予每个句子的重要性使得从文档中精确抽取重要句子变得容易。重要性也使得可以对句子按照其重要性进行排序并控制所抽取的句子的长度与整个文档的比值。此外,文档的中心概念的范围可通过改变子空间的维数,即有待组合的基向量的数目,进行修改,使得可以控制所抽取的句子的概念的扩展。子空间的维数越少,概念的扩展越窄。
在计算句子和查询之间的相关性时,由于此方法是基于句子和查询之间的概念的共性,可以得到非零相关性,只要句子和查询的概念是共同的,即使是在句子和查询中没有相同词语出现。
图1为示出本发明的一个实施方式的整个过程的功能方块图。这一实施方式可通过在通用计算机上执行程序而实现。
在图1中,有词语检测块11、形态分析块12、文档分割块13、文档段向量生成块14、平方和矩阵计算块15、本征值和本征向量计算块16、子空间判定块17、重要性计算块18、文档段排序块19和文档段选择块20。在此实施方式的下面描述中引用的是英文文档。
首先,词语检测块11从输入文档中检测单词和符号序列,如数字。此处一般将单词和符号序列称为“词语”。在英文文档的场合,容易检测词语,因为在英文正字法中各词语总是分开书写中间留有空格。形态分析块12执行形态分析,如对每个词语赋予词类。
文档分割块13将文档分割为文档段。文档分割的最基本过程是从文档分割为句子。在英文文档的场合,容易将文档分割为句子,因为句子通常以后面至少跟着一个空格的句号结束。也可采用其他的分割方法;比如将数个句子组合形成一个文档段并且所有的文档段都包含同样数目的句子,或是可将文档分割为文档段并使每个文档段都包含同样数目的词语而不管句子之间的任何界限。
文档段向量生成块14计算要从出现在整个文档中的词语生成的向量的维数并确定每个向量元素和每个词语之间的对应关系。应该指出,不需要对出现于文档中的所有各种词语都赋予向量元素。比如,利用赋予词类的过程的结果,就可以只利用在此过程中断定为名词或动词的词语来生成文档段向量。之后,文档段向量生成块14取得出现在每个文档段中的词语的种类及每一类词语的出现频率,并确定相应的向量元素的值而生成文档段向量。也可使用普通的方法对每个元素值赋予权重。
下面假设文档D是由N个句子组成的,其中一组单词由{w1,...,wk}给出,而文档D的第n个句子的向量定义为dn=(dn1,...,dnk),其中dnk表示单词wk在第n个句子中的出现频率或加权值。
平方和矩阵计算块15计算每个文档段向量的平方和矩阵。平方和矩阵A=(Aab)以下面的等式计算: A ab = Σ n = 1 N d na d nb - - - ( 1 )
本征值和本征向量计算块16计算矩阵A的本征值和本征向量。计算出的m维本征向量和本征值分别称为Φm和λm。由于Φm是由一组词语表示的向量,可认为是表示一个概念。可以认为Φm表示第m本征概念,因为它是唯一地对输入文档确定的。在所有的句子段中Φ1表示最共同的概念,因为所有的句子向量在Φ1上的平方投影和大于在任何其他向量上的平方投影和。由于λ1是平方投影和本身,可以认为它表示对Φ1表示的概念的强度或能量。Φ2是在Φ2与Φ1正交的限制下给出最大平方投影和的轴线。对于高阶本征向量,如Φ3等等,同一关系也成立。
如上所述取得的本征向量作为基向量应用于近似一组文档段向量的子空间。如使用L个本征向量,子空间的维数为L,这意味着输入文档的概念已经扩展为L个互相正交的本征概念。子空间可以称为概念子空间。之后子空间判定块17具体判定L的值。假设R是矩阵A的秩,文档将具有R个概念,因为从矩阵A可得到R个本征向量。子空间表示利用R个概念之外的L个概念的中心概念。下面的表达式可表示中心概念占据固有概念达到的程度,换言之,子空间表示整个文档的概念达到的程度。 Σ m = 1 L λ m / Σ m = 1 R λ m - - - ( 2 )
这个表达式可用作实际确定L值的指南。改变L值使得可控制文档的中心概念的扩展,结果控制抽取的重要文档段的概念的扩展。
重要性计算块18计算每个文档段向量在子空间上的投影值的平方以取得文档段的重要性。设zn=(zn1,zn2,...,znL)是dn投影后的向量,在第m个基向量上的投影值znm可由下式给出:
       znm=φm tdn        (3)
在子空间上dn的平方投影值的和可由下式给出: Σ m = 1 L z nm 2 - - - ( 4 )
计算出的在子空间上dn的平方投影值的和表示每个文档段对文档的中心概念的贡献。或者,可根据下式利用基向量的能量作为权重计算在子空间上平方投影值的和: Σ m = 1 L λ m z nm 2 - - - ( 5 )
文档段排序块19按照重要性的降序对文档段进行排序。文档段选择块20选择较高秩文档段作为重要段并将它们输出。这样,可根据文档段对文档的中心概念的贡献的降序对其进行抽取。
计算与查询的相关性
图2为示出用来根据本发明的一个实施方式计算输入文档的文档段和查询之间的相关性及选择句子的系统的整体结构。在图2中,有本征值和本征向量计算块21、子空间投影块22、查询向量化块23、另一子空间投影块24、相关性计算块25、文档段排序块26和文档段选择块27。
利用英文文档作为描述此实施方式的例子。执行与图1所示的实施方式同样的过程一直到计算出本征值和本征向量为止。子空间投影块22将文档段向量投影到第L子空间。设zn为与图1一样的投影之后的向量并且其元素由式(5)给出。查询向量化块23对查询执行与图1中的块11至块14的过程等效的过程。设q是查询的一个向量。子空间投影块24通过将q投影到子空间确定向量y。向量y的第m个元素ym由下式给出:
       ym=Фm tq         (6)
相关性计算块25根据下式计算与第n个文档段的相关性gn
       gn=ytzn/‖q‖    (7)
上面计算出的gn具有正比于zn的范数的值。上述方程式还可以利用下式进一步归一化以便与zn的范数无关。
       ‖zn‖            (8)
这一相关性可以利用方程(7)计算,即使是在文档段和查询中不存在共同词语时。其理由如下:如果存在经常在文档内的文档段中同现的一对词语,这些词语的系数在低阶本征向量中具有同样的符号,而在高阶本征向量中具有不同的符号。换言之,词语之间的差异反映在高阶本征向量中,但不反映在低阶向量中。如反映词语之间的差异的高阶本征向量不包含于L维子空间中,则当在文档中同现的词语对中的一个包含于查询中而另一个包含于相关文档段中时,方程(7)给出非零值。
文档段排序块26按照相关性的降序对文档段排序。文档段选择块27选择较高秩的文档段作为具有高相关性的段并将它们输出。如果要求选择重要的和与查询相关的文档段,利用藉助在通过示于图1中的过程获得的重要性上添加相关性所取得的值执行文档段排序。
或者,相关性也可按如下方式计算。第一,利用如下方程定义第m个本征向量的权重sm
        sm=(Φm tq)2/‖q‖2    (9)
其中sm表示第m个本征向量方向中的查询能量相对查询的总能量的比。查询对文档段n的相关性gn可定义如下: g n = Σ m = 1 L s m ( φ m t d n ) 2 - - - ( 10 )
可见,gn是利用sm作为权重定义为在Φm方向上文档段能量的加权和。于是,在具有大权重的本征向量上具有大投影值的句子趋向于具有较高的相关性。可以利用下面的表达式使gn归一化以便与文档段n的能量无关。
        ‖dn2                (11)
相似性确定
在本发明的另一实施方式中,根据适当大小,比如句子,将两个文档分割为文档段,之后对每个文档段计算向量并最后对两个文档的文档段向量的所有组合计算平方内积和以便确定文档之间的相似性。
在长文档的场合,由于出现于文档中的词语数目增加,文档段向量的维数将很大并且所得到的文档段向量的数目将增加。因此,对文档段向量的所有组合计算内积将会对处理时间和所要求的存储器造成沉重的负担。所以,在此实施方式中,两个文档中的任意一个或是两个文档都以与如上所述的重要句子抽取相同的方式由概念子空间表示。
当两个文档中的一个文档由文档段向量表示而另一个由概念子空间表示时,两个文档之间的相似性是通过文档段向量和基向量的所有的组合的内积的加权和计算而得。当两个文档都由概念子空间表示时,文档的相似性是通过计算文档的基向量的所有的组合的内积加权和而得到的。
在此实施方式中,文档或是由一组文档段向量表示,或是由一个子空间表示。这意味着文档概念是由文档段的一组概念表示,因此文档概念的表示可以比利用单个向量表示文档时更精确。文档概念的扩展也可反映到相似性上,因为两个文档的所有文档段的概念都反映在相似性上。
虽然子空间近似一组文档段向量,已知在文档段向量的平方和矩阵的一组本征向量用作基向量时误差变为最小。因此,从一个文档的文档段向量的所有的组合取得的与另一文档的选择基向量的相似性可以最好地近似从两个文档的文档段向量的所有组合取得的相似性。如上所述,在此场合的子空间表示文档的中心概念。于是,从一个文档的文档段向量的所有的组合取得的与另一文档的选择基向量的文档相似性等于从一个文档的概念和另一个文档的中心概念之间的共同概念取得的相似性。
当两个文档都由概念子空间表示时,所取得的相似性也近似从两个文档的文档段向量的所有可能的组合取得的文档相似性。在此场合,相似性是根据两个文档的中心概念的所有可能的组合的共同概念取得的。因此,当两个文档中的任意一个或是两个文档都由概念子空间表示时,所取得的相似性将是基于文档段向量的所有的组合的相似性的最佳近似。除此之外,文档概念的扩展自然反映于相似性上,因为两个文档的所有文档段的概念都近似地反映在此相似性上。
图3为示出根据本发明的一个实施方式的用来比较文档段向量以便取得文档相似性的系统的功能块图。这一实施方式可通过在通用计算机上执行程序而实现。图3示出利用通用计算机和程序配置的系统的功能块图。
其中有词语检测块11、形态分析块12、文档分割块13、文档段向量生成块14、内积计算块35和相似性计算块36。块11至14与图1所示的块相同。利用英文文档作为描述此实施方式的例子。
在参考图1描述的词语检测块11至文档段向量生成块14中对两个输入文档进行处理而生成文档段向量。
内积计算块35计算两个输入文档的文档段向量的所有组合的内积值并保持这些值。此处假设S和T是输入文档。假设K个词语出现于文档S,T内,文档S的第n个文档段向量sn(n=1,...N)由(sn1,sn2,...,snk)表示,而文档T的第m个文档段向量tm(m=1,...M)由(tm1,tm2,...,tmk)表示。于是文档段sn和tm之间的内积值由下式表示: s n t t m = Σ k = 1 K s nk t mk - - - ( 12 )
其中上标t表示转置。
相似性计算块36计算文档段向量的所有组合的平方内积和并确定两个文档之间的相似性。此相似性r由下式给出: r = { Σ n = 1 N Σ m = 1 M ( S n t t m ) 2 / Σ n = 1 N Σ m = 1 N ( S n t S m ) 2 Σ n = 1 M Σ m = 1 M ( t n t t m ) 2 } 1 / 2 - - - ( 13 )
当文档S和T中没有共同的词语时,相似性将为零,而当两个文档完全相等时,相似性将为1.0。
图4为示出根据本发明的一个实施方式的用来通过比较文档段向量和基向量或比较基向量来计算相似性的一个系统的功能块图。词语检测块11至本征值和本征向量计算块16与图1所示的块相同。除此之外,其中还有主本征向量选择块37,内积计算块38和相似性计算块39。
输入文档S,T(利用与上一个实施方式同样的假设)之间的相似性是通过比较文档T的文档段向量与文档S的基向量计算出的。文档S和T在词语检测块11至文档段向量生成块14中进行处理而分别生成文档段向量。之后,平方和矩阵计算块15对文档S计算每个文档段向量的平方和矩阵。平方和矩阵A=(Aab)以下面的等式计算: A ab = Σ n = 1 N s na s nb - - - ( 14 )
内积计算块38对n和m的所有组合计算文档S的本征向量Φn和文档T的文档段向量tm之间的内积值。相似性计算块39利用每个阶的本征值作为权重根据下式从上面计算的内积值计算相似性: r = { Σ n = 1 L Σ m = 1 M λ n ( φ n t t m ) 2 / Σ n = 1 L λ n 2 Σ n = 1 M Σ m = 1 M ( t n t t m ) 2 } 1 / 2 - - - ( 15 )
虽然根据方程式(15)的相似性是从平方内积的加权和计算得出的,但也可以对文档T的每个文档段取得文档T的文档段和文档S之间的相似性,之后计算其平均值,此平均值就看作是文档T和S之间的相似性。在此场合,相似性由下式给出: r = { Σ m = 1 M Σ n = 1 L λ n ( φ n t t m ) 2 / ( Σ n = 1 L λ n 2 | | t m | | 2 M ) } 1 / 2 - - - ( 16 )
在另一实施方式中,两个文档T和S之间的相似性是通过匹配每个文档的基向量取得的。在此实施方式中,对文档S及文档T的本征值和本征向量利用在平方和矩阵计算块15和本征值和本征向量计算块16中的过程进行计算,之后在主本征向量选择块37中将主本征向量选择为基向量。令γn,τn分别是文档T的平方和矩阵的第n个本征值和本征向量。假设J个本征向量选择为基向量。内积计算块38对n和m的所有组合计算文档S的本征向量Φn和文档T的本征向量τm之间的内积值。之后,相似性计算块29根据下式计算相似性: r = { Σ n = 1 L Σ m = 1 J λ n γ m ( φ n t τ m ) 2 / Σ n = 1 L λ n 2 Σ m = 1 J γ m 2 } 1 / 2 - - - ( 17 )
很清楚,方程(15)和(16)是基于参考图3所描述的文档段的所有组合的相似性(由方程(13)给出的)的近似,因为方程(13)的分子可变换为下面的方程(18)和(19)。 Σ n = 1 N Σ m = 1 M ( S n t t m ) 2 = Σ n = 1 N Σ m = 1 M t m t S n S n t t m = Σ m = 1 M t m t At m = Σ m = 1 M t m t ( Σ n = 1 R λ n φ n φ n t ) t m = Σ m = 1 M Σ n = 1 R λ n ( φ n t t m ) 2 - - - ( 18 ) Σ n = 1 N Σ m = 1 M ( S n t t m ) 2 = Σ m = 1 M Σ n = 1 R λ n ( φ n t t m ) 2 = Σ n = 1 R λ n φ n t ( Σ m = 1 M t m t m t ) φ n = Σ n = 1 R λ n φ n t B φ n = Σ n = 1 R Σ m = 1 Q λ n γ m ( φ n t τ m ) 2 - - - ( 19 )
其中B是文档T的平方和矩阵,而Q是其秩。在上面的方程中利用下面的关系式: A = ( Σ n = 1 R λ n φ n φ n t ) - - - ( 20 )
在方程(18)中,如对文档S使用L个本征向量,将与方程(15)中的分子相同。在方程(19)中,如对文档T使用J个本征向量,将与方程(17)中的分子相同。
为了确定相似性,用户可以在各个文档段向量之间,在文档段向量和基向量之间,或在基向量之间选择使用哪一个组合。不过,只要是涉及长文档,最好是使用基向量组合,因为要求的存储器少和处理时间短。在上述实施方式中,某些过程可以提前执行,但最后的内积和相似性的计算除外。
对本征值和本征向量的观察
下面,通过简单的模拟,介绍如何对给定的词语同现取得本征值和本征向量。假设词语1、2、3和4出现于文档中并且取得如表1中所示的平方和矩阵。
(表1) 10 a 0 0 a 9 b 0 0 b 8 c 0 0 c 7
对角上的元素表示由下面的方程(21)给出的词语能量。词语1的能量最大。参数a、b和c给出词语之间的同现度。参数a给出词语1和2之间的同现度,b给出词语2和3之间的同现度,而c给出词语3和4之间的同现度。设文档段是句子。
句子能量由句子向量的平方范数给出。第n个句子的能量,E(dn),在下面的方程中确定: E ( d n ) = Σ k = 1 K | | f nk | | 2 - - - ( 21 )
与此类似,词语wk的能量,E(wk),在下面的方程中确定: E ( w k ) = Σ n = 1 N | | f nk | | 2 - - - ( 22 )
令E(D)为文档D的总能量。下面的方程成立。此方程示出文档能量等于所有句子能量的和或所有词语能量的和。 E ( D ) = Σ n = 1 N E ( d n ) = Σ k = 1 K E ( w k ) - - - ( 23 )
图6为示出从平方和矩阵取得的本征值和本征向量,其中某些值赋予参数a、b和c。图6示出对在第n个本征向量中的每个词语的本征值λn和系数Φn1、Φn2、Φn3和Φn4。自此之后,将概念是第n个本征向量的方向和能量由第n个本征值给出的虚拟句子称为第n个本征句子。
(1)在a=b=c=0时
这种场合意味着4个词语未同现。在图6中,在第n个本征向量中的词语n的系数是1,而其他词语的系数是0。这表示每个本征向量是每个词语轴线本身。换言之,本征句子的概念是每个词语本身的概念。每个本征值等于平方和矩阵的相应的对角元素的值。就是说,每个本征句子的能量等于每个词语的能量并且取决于每个词语的出现频率。
(2)在a=b=0和c=1时
这种场合意味着词语同现只存在于词语3和4之间。结果,第3和第4本征句子的概念取决于词语3和词语4。采用普通的向量空间模型词语同现不能得到表现,但自然反映在根据本发明的本征句子概念上。第3本征句子的能量大于在a=b=c=0的场合。
(3)在a=b=0和c=3时
观察到在第1本征向量中的Φ13和Φ14具有非零值并且由两个词语3和4确定概念的本征句子的能量最大。这表示本征句子的能量取决于词语的出现频率和词语之间的同现频率两者。
(4)在a=3,b=0和c=3时
在词语1和2之间和在词语3和4之间存在词语同现,但在词语1,2和3,4之间不存在。结果,矩阵S分割为子矩阵。在此场合,本征句子概念由词语1和2的组合或词语3和4的组合确定。
(5)在a=3,b=1和c=3时
当在词语2和3之间存在词语同现时,本征句子的概念取决于所有的词语。词语1不和词语3或4同现。因此,词语1被看作通过词语2和3之间的直接同现关系具有和词语3或词语4的间接同现关系。然而,可以了解,此种间接同现关系影响本征句子的概念。在实际文档中,词语之间的间接同现链以及直接词语同现似乎起着重要的形成文档概念的作用。
图5为示出一个文档的概念子空间的维数L及其代表性的关系曲线图,该文档为一篇由58个句子和1100个词构成的英文新闻文章。从此文档中抽取名词作为词语并构建146维数的58个向量。在此场合,平方和矩阵的秩为58,于是L的最大值是58。概念子空间的代表性可利用方程(2)定义。参考图5,达到代表性的50%的最小维数是8,达到75%的最小维数是20。这意味着显著的维数缩减是可能的。还观察到平均句子向量的代表性(即每个句子在平均向量上的平方投影值和与文档能量的比值)是10.4%,小于第1本征句子的代表性,即12.2%。这意味着第1本征句子具有超过平均向量的代表性。第1本征句子的代表性趋向于随着文档的变长而降低。
本发明的优点在于可提供一种适于文档分析的文档表示方法,这种文档分析包含从给定的文档抽取重要句子和/或确定两个文档之间的相似性。
根据本发明的一个实施方式,抽取重要句子的结果可接近人的感觉,因为抽取过程的执行是利用了词语同现。除此之外,当检索与查询具有相关性的句子时,可根据词语的同现关系检索出具有概念相关性的句子,即使是在句子和查询中不存在共同的词语。
根据本发明的另一个实施方式,可获得高度可靠的相似性,因为两个文档相似性是从文档段的所有组合取得的并且所有文档段的概念都反映在相似性上。
虽然对本发明的描述是参考具体实施方式,但本发明不受限于这些实施方式。

Claims (11)

1.一种利用向量表示输入文档的方法,包括:
检测在所述输入文档中出现的词语;
将所述输入文档分割为文档段,每个文档段都是大小合适的块;以及
生成文档段向量,每个向量包含根据出现于所述文档段中的所述词语的出现频率的值作为其元素,
其中一组所述文档段向量由所述文档段的平方和矩阵的本征值和本征向量表示。
2.如权利要求1所述的方法,其中在所述输入文档中出现K个词语并且所述输入文档分割为N个文档段,所述平方和矩阵A=(Aab)是利用下式计算的: A ab = Σ n = 1 N d na d nb ,
其中dni表示在第n个文档段中第i个词语的出现频率,并且第n个文档段向量dn(n=1,...,N)由(dn1,dn2,..,dnk)表示。
3.一种从输入文档抽取重要文档段的方法,包括:
检测在所述输入文档中出现的词语;
将所述输入文档分割为文档段,每个文档段都是大小合适的块;
生成文档段向量,每个向量包含根据出现于所述文档段中的所述词语的出现频率的值作为其元素;
确定平方和矩阵的本征值和本征向量,其中所述文档段向量的秩以R表示;
从所述本征向量中选择用来确定重要性的多(L)个本征向量;
计算所述文档段向量在所选择的本征向量上的平方投影的加权和;以及
根据所述计算的文档段向量的平方投影的加权和选择具有显著重要性文档段。
4.如权利要求3所述的方法,其中在所述输入文档中出现K个词语并且所述输入文档分割为N个文档段;
其中dni表示在第n个文档段中第i个词语的出现频率,并且第n个文档段向量dn(n=1,...,N)由(dn1,dn2,..,dnk)表示和投影后的向量dn由zn=(zn1,zn2,...,znL)表示,dn在第m本征向量上的投影值由znm=Φm tdn表示,
其中Φm表示第m个本征向量和t表示转置;
在L维子空间上的平方投影和由下式给出: Σ m = 1 L z nm 2
或由下式给出: Σ m = 1 L λ m z nm 2 ,
其中λm表示第m个本征向量的本征值。
5.如权利要求3所述的方法,其中所述本征值和本征向量是利用下面的平方和矩阵计算的: A ab = Σ n = 1 N d na d nb ;
所述L是将文档的中心概念表示为秩R的平方和矩阵的子空间的维数;
所述L的值根据所述输入文档的中心概念与总概念的比值确定,由下式给出: Σ m = 1 L λ m / Σ m = 1 R λ m
6.一种从输入文档检索与查询具有相关性的文档段的方法,包括:
检测在所述输入文档中出现的词语;
将所述输入文档分割为文档段,每个文档段都是大小合适的块;
生成文档段向量,每个向量包含根据出现于所述文档段中的所述词语的出现频率的值作为其元素;
确定所述文档段向量的平方和矩阵的本征值和本征向量以定义子空间;
检测出现于所述查询中的词语;
生成查询向量,每个向量包含根据所述词语的出现频率的值作为其元素,以便将所述查询向量投影到所述子空间;以及
将每个所述文档段向量投影到所述子空间以计算所述查询与所述文档段的相关性。
7.如权利要求6的方法,其中当zn表示所述文档段的投影向量dn在所述子空间上的投影向量,而y表示所述查询向量在所述子空间上的投影向量,第n个文档段和查询之间的相关性gn是根据y和zn的内积取得的,即ytzn,其中t表示转置。
8.如权利要求6的方法,其中第m个本征向量的权重sm是由函数(Φm t q)2定义的,并且与文档段n的相关性gn利用下式取得: g n = Σ m = 1 L s m ( φ m t d n ) 2 ,
其中q表示所述的查询向量,Φm表示第m个所述本征向量,而L表示所述子空间的维数。
9.一种确定给定的两个输入文档之间的相似性的方法,包括:
检测在每个所述输入文档中出现的词语;
将每个所述输入文档分割为文档段,每个文档段都是大小合适的块;
生成文档段向量,每个向量包含根据出现于各个所述文档段中的所述词语的出现频率的值作为其元素;
对两个输入文档中的每个计算包含于各个输入文档中的所述文档段向量的所有组合的平方内积;以及
根据所述平方内积的和确定这两个输入文档之间的所述相似性。
10.一种用来确定给定的两个输入文档之间的相似性的方法,包括:
计算所述两个输入文档之一的文档段向量的平方和矩阵的本征值和本征向量;
从所述计算出的本征向量中选择与较大的本征值相对应的本征向量作为基向量;
计算所述两个输入文档中的另一个文档的文档段向量和所述基向量之间的平方内积的加权和,通过加权对平方内积求和;以及
根据所述平方内积的加权和确定所述两个输入文档之间的相关性。
11.一种用来确定给定的两个输入文档之间的相似性的方法,包括:
计算所述两个输入文档每一个的文档段向量的平方和矩阵的本征值和本征向量;
从所述计算出的所述两个输入文档中的每一个文档的本征向量中选择与较大的本征值相对应的本征向量作为基向量;
计算所选择的所述基向量的组合的平方内积的加权和,通过加权对平方内积求和;以及
根据所述平方内积的加权和确定所述两个输入文档之间的相关性。
CNB018175805A 2000-11-20 2001-11-15 用于文档的向量分析方法 Expired - Fee Related CN1227614C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000353475A JP2002169834A (ja) 2000-11-20 2000-11-20 文書のベクトル解析を行うコンピュータおよび方法
JP353475/2000 2000-11-20

Publications (2)

Publication Number Publication Date
CN1470047A true CN1470047A (zh) 2004-01-21
CN1227614C CN1227614C (zh) 2005-11-16

Family

ID=18826235

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB018175805A Expired - Fee Related CN1227614C (zh) 2000-11-20 2001-11-15 用于文档的向量分析方法

Country Status (5)

Country Link
US (2) US7562066B2 (zh)
EP (3) EP1336174A4 (zh)
JP (1) JP2002169834A (zh)
CN (1) CN1227614C (zh)
WO (1) WO2002041557A2 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100447779C (zh) * 2004-09-21 2008-12-31 株式会社东芝 文档信息处理设备及文档信息处理方法
US7827025B2 (en) 2004-04-06 2010-11-02 Microsoft Corporation Efficient capitalization through user modeling
CN102360372A (zh) * 2011-10-09 2012-02-22 北京航空航天大学 一种跨语种的文档相似性检测方法
CN102385574A (zh) * 2010-09-01 2012-03-21 株式会社理光 从文档抽取句子的方法和装置
CN107239552A (zh) * 2017-06-08 2017-10-10 上海德衡数据科技有限公司 一种针对关键词的网络文档语义检索方法
CN107330044A (zh) * 2017-06-29 2017-11-07 上海德衡数据科技有限公司 一种基于语义的网络文档智能检索架构
CN107330052A (zh) * 2017-06-29 2017-11-07 上海德衡数据科技有限公司 一种基于语义的网络文档智能检索原型
CN117112609A (zh) * 2023-06-29 2023-11-24 南京国电南自轨道交通工程有限公司 一种使用关键元素矩阵提高监控历史数据检索效率的方法

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8241274B2 (en) 2000-01-19 2012-08-14 Medtronic, Inc. Method for guiding a medical device
US7308138B2 (en) * 2000-12-12 2007-12-11 Hewlett-Packard Development Company, L.P. Document segmentation method
US7194461B2 (en) * 2001-03-02 2007-03-20 Hewlett-Packard Development Company, L.P. Document and information retrieval method and apparatus
WO2003017023A2 (en) 2001-08-14 2003-02-27 Quigo Technologies, Inc. System and method for extracting content for submission to a search engine
JP4452012B2 (ja) * 2002-07-04 2010-04-21 ヒューレット・パッカード・カンパニー 文書の特有性評価方法
WO2004010331A1 (en) 2002-07-23 2004-01-29 Quigo Technologies Inc. System and method for automated mapping of keywords and key phrases to documents
JP2004280661A (ja) * 2003-03-18 2004-10-07 Fujitsu Ltd 検索方法及びプログラム
JP2005158010A (ja) * 2003-10-31 2005-06-16 Hewlett-Packard Development Co Lp 分類評価装置・方法及びプログラム
US7426507B1 (en) 2004-07-26 2008-09-16 Google, Inc. Automatic taxonomy generation in search results using phrases
US7711679B2 (en) 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7536408B2 (en) * 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7580929B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase-based personalization of searches in an information retrieval system
US7599914B2 (en) * 2004-07-26 2009-10-06 Google Inc. Phrase-based searching in an information retrieval system
US7580921B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7584175B2 (en) * 2004-07-26 2009-09-01 Google Inc. Phrase-based generation of document descriptions
US7533094B2 (en) * 2004-11-23 2009-05-12 Microsoft Corporation Method and system for determining similarity of items based on similarity objects and their features
US8290962B1 (en) * 2005-09-28 2012-10-16 Google Inc. Determining the relationship between source code bases
DE102005051617B4 (de) * 2005-10-27 2009-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Automatisches, computerbasiertes Ähnlichkeitsberechnungssystem zur Quantifizierung der Ähnlichkeit von Textausdrücken
US8166045B1 (en) 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US8086594B1 (en) 2007-03-30 2011-12-27 Google Inc. Bifurcated document relevance scoring
US8166021B1 (en) 2007-03-30 2012-04-24 Google Inc. Query phrasification
US7925655B1 (en) 2007-03-30 2011-04-12 Google Inc. Query scheduling using hierarchical tiers of index servers
US7702614B1 (en) 2007-03-30 2010-04-20 Google Inc. Index updating using segment swapping
US7693813B1 (en) 2007-03-30 2010-04-06 Google Inc. Index server architecture using tiered and sharded phrase posting lists
US8117223B2 (en) * 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
US8577884B2 (en) * 2008-05-13 2013-11-05 The Boeing Company Automated analysis and summarization of comments in survey response data
EP2128774A1 (en) * 2008-05-29 2009-12-02 Accenture Global Services GmbH Techniques for computing similarity measurements between segments representative of documents
JP2010122823A (ja) * 2008-11-18 2010-06-03 Nec Corp テキスト処理システム、情報処理装置、テキストおよび情報の処理方法ならびに処理プログラム
EP2306339A1 (en) * 2009-09-23 2011-04-06 Adobe Systems Incorporated Algorith and implementation for fast computation of content recommendation
US9015663B2 (en) * 2010-03-15 2015-04-21 Nec Corporation Information processing device, information processing method, and information processing program
WO2012000185A1 (en) * 2010-06-30 2012-01-05 Hewlett-Packard Development Company,L.P. Method and system of determining similarity between elements of electronic document
EP2715474A4 (en) * 2011-05-24 2015-11-18 Namesforlife Llc SEMIOTIC INDEXING OF DIGITAL RESOURCES
US8566156B2 (en) * 2011-07-05 2013-10-22 Yahoo! Inc. Combining segments of users into vertically indexed super-segments
WO2014058433A1 (en) * 2012-10-12 2014-04-17 Hewlett-Packard Development Company, L.P. A combinatorial summarizer
US9501506B1 (en) 2013-03-15 2016-11-22 Google Inc. Indexing system
CN104216894B (zh) 2013-05-31 2017-07-14 国际商业机器公司 用于数据查询的方法和系统
US9483568B1 (en) 2013-06-05 2016-11-01 Google Inc. Indexing system
CN105630767B (zh) * 2015-12-22 2018-06-15 北京奇虎科技有限公司 一种文本相似性的比较方法以及装置
KR20180077690A (ko) * 2016-12-29 2018-07-09 주식회사 엔씨소프트 문서의 내러티브 학습 장치 및 방법, 문서의 내러티브 생성 장치 및 방법
JP6842167B2 (ja) * 2017-05-08 2021-03-17 国立研究開発法人情報通信研究機構 要約生成装置、要約生成方法及びコンピュータプログラム
US10891943B2 (en) * 2018-01-18 2021-01-12 Citrix Systems, Inc. Intelligent short text information retrieve based on deep learning
CN110147533B (zh) * 2019-01-24 2023-08-29 腾讯科技(深圳)有限公司 编码方法、装置、设备及存储介质
CN110147532B (zh) * 2019-01-24 2023-08-25 腾讯科技(深圳)有限公司 编码方法、装置、设备及存储介质
US11829386B2 (en) 2020-01-30 2023-11-28 HG Insights, Inc. Identifying anonymized resume corpus data pertaining to the same individual

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3668702A (en) * 1970-10-30 1972-06-06 Itt Adaptive matched filter for radar signal detector in the presence of colored noise
US5301109A (en) * 1990-06-11 1994-04-05 Bell Communications Research, Inc. Computerized cross-language document retrieval using latent semantic indexing
US5634021A (en) 1991-08-15 1997-05-27 Borland International, Inc. System and methods for generation of design images based on user design inputs
US5983251A (en) * 1993-09-08 1999-11-09 Idt, Inc. Method and apparatus for data analysis
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US6038533A (en) * 1995-07-07 2000-03-14 Lucent Technologies Inc. System and method for selecting training text
US5901244A (en) * 1996-06-18 1999-05-04 Matsushita Electric Industrial Co., Ltd. Feature extraction system and face image recognition system
US5857179A (en) 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
US5819258A (en) * 1997-03-07 1998-10-06 Digital Equipment Corporation Method and apparatus for automatically generating hierarchical categories from large document collections
US6070133A (en) 1997-07-21 2000-05-30 Battelle Memorial Institute Information retrieval system utilizing wavelet transform
US6356864B1 (en) * 1997-07-25 2002-03-12 University Technology Corporation Methods for analysis and evaluation of the semantic content of a writing based on vector length
JP4074687B2 (ja) * 1997-07-28 2008-04-09 株式会社ジャストシステム 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US5930784A (en) * 1997-08-21 1999-07-27 Sandia Corporation Method of locating related items in a geometric space for data mining
US6996572B1 (en) * 1997-10-08 2006-02-07 International Business Machines Corporation Method and system for filtering of information entities
US6134541A (en) * 1997-10-31 2000-10-17 International Business Machines Corporation Searching multidimensional indexes using associated clustering and dimension reduction information
US6347315B1 (en) * 1997-12-12 2002-02-12 Canon Kabushiki Kaisha Method and apparatus for selecting and utilizing one of computers or databases

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7827025B2 (en) 2004-04-06 2010-11-02 Microsoft Corporation Efficient capitalization through user modeling
CN1680935B (zh) * 2004-04-06 2011-05-11 微软公司 通过用户建模的有效大写化文本的方法和系统
CN100447779C (zh) * 2004-09-21 2008-12-31 株式会社东芝 文档信息处理设备及文档信息处理方法
CN102385574A (zh) * 2010-09-01 2012-03-21 株式会社理光 从文档抽取句子的方法和装置
CN102385574B (zh) * 2010-09-01 2014-08-20 株式会社理光 从文档抽取句子的方法和装置
CN102360372A (zh) * 2011-10-09 2012-02-22 北京航空航天大学 一种跨语种的文档相似性检测方法
CN107239552A (zh) * 2017-06-08 2017-10-10 上海德衡数据科技有限公司 一种针对关键词的网络文档语义检索方法
CN107330044A (zh) * 2017-06-29 2017-11-07 上海德衡数据科技有限公司 一种基于语义的网络文档智能检索架构
CN107330052A (zh) * 2017-06-29 2017-11-07 上海德衡数据科技有限公司 一种基于语义的网络文档智能检索原型
CN117112609A (zh) * 2023-06-29 2023-11-24 南京国电南自轨道交通工程有限公司 一种使用关键元素矩阵提高监控历史数据检索效率的方法
CN117112609B (zh) * 2023-06-29 2024-05-10 南京国电南自轨道交通工程有限公司 一种使用关键元素矩阵提高监控历史数据检索效率的方法

Also Published As

Publication number Publication date
US20090216759A1 (en) 2009-08-27
WO2002041557A2 (en) 2002-05-23
EP1944756A2 (en) 2008-07-16
EP1944756A3 (en) 2008-07-23
CN1227614C (zh) 2005-11-16
EP1336174A2 (en) 2003-08-20
EP1944757A3 (en) 2008-07-23
US7562066B2 (en) 2009-07-14
US20040068396A1 (en) 2004-04-08
JP2002169834A (ja) 2002-06-14
EP1336174A4 (en) 2007-05-30
US8171026B2 (en) 2012-05-01
EP1944757A2 (en) 2008-07-16
WO2002041557A3 (en) 2003-01-30

Similar Documents

Publication Publication Date Title
CN1227614C (zh) 用于文档的向量分析方法
US8290975B2 (en) Graph-based keyword expansion
Guevara A regression model of adjective-noun compositionality in distributional semantics
CA2618854C (en) Ranking search results using biased click distance
Singhal Modern information retrieval: A brief overview
US7607083B2 (en) Test summarization using relevance measures and latent semantic analysis
US6789230B2 (en) Creating a summary having sentences with the highest weight, and lowest length
US8171031B2 (en) Index optimization for ranking using a linear model
AU2010236897B2 (en) System and method for ranking search results within citation intensive document collections
US20050210006A1 (en) Field weighting in text searching
JP2009525520A (ja) 検索結果リストにおける電子文書を関連性に基づきランク付けおよびソートする評価方法、およびデータベース検索エンジン
JP2002510076A (ja) 言語モデルに基づく情報検索および音声認識
Jessup et al. Taking a new look at the latent semantic analysis approach to information retrieval
US8380731B2 (en) Methods and apparatus using sets of semantically similar words for text classification
US8375022B2 (en) Keyword determination based on a weight of meaningfulness
JP4074564B2 (ja) コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン装置
Singh et al. Co-occurrence and semantic similarity based hybrid approach for improving automatic query expansion in information retrieval
Phadnis et al. Framework for document retrieval using latent semantic indexing
Bennett et al. A comparative study of probabilistic and language models for information retrieval
US20180225291A1 (en) Identifying Documents
Rodrigues et al. Concept based search using LSI and automatic keyphrase extraction
US20160314125A1 (en) Predictive Coding System and Method
Sormunen A novel method for the evaluation of Boolean query effectiveness across a wide operational range
Transier et al. Out of the box phrase indexing
Sormunen Extensions to the STAIRS study—empirical evidence for the hypothesised ineffectiveness of Boolean queries in large full-text databases

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20051116

Termination date: 20101115