CN1470047A

CN1470047A - 用于文档的向量分析方法

Info

Publication number: CN1470047A
Application number: CNA018175805A
Authority: CN
Inventors: ¡; 川谷隆彦
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 2000-11-20
Filing date: 2001-11-15
Publication date: 2004-01-21
Anticipated expiration: 2021-11-15
Also published as: US20090216759A1; WO2002041557A2; EP1944756A2; EP1944756A3; CN1227614C; EP1336174A2; EP1944757A3; US7562066B2; US20040068396A1; JP2002169834A; EP1336174A4; US8171026B2; EP1944757A2; WO2002041557A3

Abstract

提供一种用来进行文档表示和文档分析的方法，包括从给定的文档抽取重要句子或确定两个文档之间的相似性。此方法检测在输入文档中出现的词语(11)；将输入文档分割为文档段，每个文档段都是大小合适的块；生成文档段向量(14)，每个向量包含根据出现于文档段中的词语的出现频率的值作为其元素。此方法计算平方和矩阵(15)的本征值和本征向量(16)，其中各个文档段向量的秩以R表示，并且从本征向量中选择多(L)个本征向量用来确定重要性(19)。计算选择的各个本征向量的平方投影加权和。

Description

用于文档的向量分析方法

技术领域

本发明涉及自然语言处理，包含文档的检索、分类和摘要，并且更具体地说，涉及表示文档的方法、从输入的文档中抽取重要部分的方法和确定文档间的相似性的方法。

背景技术

从文档中抽取重要部分的过程是文档摘要过程中的根本过程之一。抽取过程基本上包括定量地对文档的每个句子给予一个重要性和抽取具有高重要性的句子。文档摘要处理的各种普通技术在M.Okumura和E.Nanba发表在Journal of National Language Processing Vol.6 No.6，July 1999中的“Automated Text Summarization：A survey”一文中有描述。此文献列举了用来评估重要性的七个特征，包括(1)文档中词语的出现频率、(2)文档内的位置信息、(3)文档标题信息以及(4)通过对句子之间关系的分析取得的文本结构。特别是，文档中的词语的出现频率信息被看作是基本特征，因为频繁出现的内容词语往往可指示出文档的话题。利用这一信息的一些具体方法包括根据每个词语在输入文档内出现的频率对其给予一个权重并根据包含在每个句子内的词语的权重的和确定每个句子的重要性的方法和对每个词语进行加权时不仅利用词语的出现频率信息还利用在一组文档内包含每个词语的文档的数目的信息的方法。

上述参考文献描述了一种动态文档摘要技术。当将检索结果提供给用户时，该结果向用户指出文档中与用户的查询有关的重要部分作为摘要并且帮助用户迅速准确地确定检索出的文档是否与查询匹配。上述参考文献还描述了一种普通的方法，即检索反映与查询的相关性的重要句子的方法。在此方法中，将利用文档内的词语的出现频率计算出的文档重要性添加到根据查询词语在对象文档内出现的频率的得分之上。

对于自动文档分类和文档检索而言，确定文档相似性的过程是根本的，特别是对于检索与用户指定的文档类似的文档的基于相似性的检索。在确定文档相似性的过程中，文档经常以向量形式表示。在下面的描述中，由整个文档生成的向量称为文档向量，由文档的一部分生成的向量称为文档片段向量，并且，特别是，由一个句子生成的向量称为句子向量。用于确定文档向量的元素值的公知的方法有多种，比如，将相关文档中的每个词语的出现频率与预先确定的值进行比较而赋予每个向量元素1或0的方法、利用出现频率的方法以及给出通过将出现频率乘以相应的词语出现于其中的文档数与总文档数之比的倒数的对数所得到的值的方法。此种文档表示方法通常应用于向量空间模型中。

此种文档向量指示哪些词语在文档中出现及其在文档中出现频率。由于一般认为文档概念是由文档中有哪些词语出现及其出现频率表示的，所以取得的文档向量的方向可以看作是表示文档概念。除此之外，文档中词语的出现频率与向量范数有关。取得的文档向量的平方范数值可看作是表示相关文档的强度或能量。

经常使用两个向量之间的余弦度量的相似性来确定由向量表示的两个文档之间的相似性。这一相似性的定义是两个向量的内积除以每个向量的范数而得到的值。由于文档向量的方向表示上述的概念，此种相似性不反映文档之间的能量差，而的确只反映概念差。

本发明的目的在于提供一种用于从一给定的文档抽取重要句子和/或确定两个文档的相似性的文档分析方法和将文档表示为适于文档分析方法的方法。

在从文档中抽取重要句子时，具有接近有关文档的中心概念的概念的句子应该获得高优先级。因此，确定文档的中心概念和获得每个句子和整个文档之间的概念的关系是根本的。然而，在普通的以每个词语的权重和定义句子重要性的方法中，并非永远清楚句子的重要性如何反映文档的中心概念。结果，较长的句子多半被抽取为重要句子只是因为它们长。除此之外，由于普通的方法得不到每个句子和整个文档之间的概念的关系，就无法保证概念与相关文档的中心概念接近的句子永远可受到抽取。

在从文档中抽取重要并与查询相关的句子时，经常采用一种可获得查询中的词语在目标句子中的频率的方法。在此场合，如查询和目标句子两者不具有同一词语，则得分为零。实际上，即使是在查询和目标句子两者之中不包含共同词语，如果频繁在文档中共同出现的一对词语中的一个包含在查询中，而另一个包含在目标句子中，最好是得到非零相关性。比如，假设有一个文档包含一段引入“Tokyo”和“Ginza”之间的关系的段落。当用户发出一个包含“Tokyo”的查询时，系统最好是能够向用户提供包含“Ginza”的句子以及包含“Tokyo”的句子。

在确定两个文档的相似性时，普通的方法是利用单个向量表示文档。在此种方法中，一直存在向量表示的概念有歧义的问题和不能表示概念的扩展的问题。比如，假设a、b、c和d分别表示一定的词语。包含组合a-b和c-d的文档应该与其他包含组合a-c和b-d的文档互相区别，因为该两个文档似乎表示不同的概念。然而，采用普通的向量表示法时，两个文档的向量将是一样的，这意味着难于区别两个文档。此外，由于文档通常是由很多句子构成的并且每个句子具有其自己的概念，由此文档表示的概念发生扩展。但是，很难利用单个向量表示文档概念的此种扩展。这样，由于在普通的方法中文档概念的表示不精确，在普通的文档检索和分类处理中一直难于正确地取得文档之间的相似性。

发明内容

为了解决上述的问题，根据本发明的一个方面提供一种方法，其构成包括：检测在输入文档中出现的词语；将输入文档分割为文档段，每个文档段都是大小合适的块；生成文档段向量，每个向量包含根据出现于文档段中的词语的出现频率的值作为其元素；并且以文档段向量的平方和矩阵的本征值和本征向量表示一组文档段向量。

根据本发明的另一个方面，从输入文档抽取重要文档段。更具体言之，提供一种方法，其构成包括：检测在输入文档中出现的词语；将输入文档分割为文档段，每个文档段都是大小合适的块；生成文档段向量，每个向量包含根据出现于文档段中的词语的出现频率的值作为其元素；计算平方和矩阵的本征值和本征向量；从本征向量中选择用来确定重要性的多个本征向量；计算各个文档段向量在各个选择的本征向量上的平方投影的加权和；以及根据各个文档段向量的平方投影的计算加权和选择具有显著重要性文档段。

根据本发明的再一个方面，从输入文档检索与查询具有一定相关性的文档段。更具体言之，提供一种方法，其构成包括：检测在输入文档中出现的词语；将输入文档分割为文档段，每个文档段都是大小合适的块；生成文档段向量，每个向量包含根据出现于各个文档段中的词语的出现频率的值作为其元素；计算文档段向量的平方和矩阵的本征值和本征向量以确定子空间；检测出现于查询中的查询词语以生成查询向量，每个向量包含根据各个查询词语的出现频率的值作为其元素以便将查询向量投影到子空间；以及将每个文档段向量投影到子空间以计算查询与每个文档段的相关性。

根据本发明的另外一个方面，确定给定的两个输入文档之间的相似性。更具体言之，提供一种方法，其构成包括：检测在输入文档中出现的词语；将每个输入文档分割为各个文档段，每个文档段都是大小合适的块；生成文档段向量，每个向量包含根据出现于各个文档段中的词语的出现频率的值作为其元素；对每个输入文档计算包含于各个输入文档中的所有文档向量的组合的平方内积；以及根据平方内积的和确定这两个输入文档之间的相似性。

在本发明的用来确定两个输入文档之间的相似性的另一个实施方式中，提供一种方法，其构成包括：计算两个输入文档之一的文档段向量的平方和矩阵的本征值和本征向量；从计算出的本征向量中选择与较大的本征值相对应的本征向量作为基向量；计算两个输入文档中的另一个文档的文档段向量和每个基向量之间的平方内积的加权和；以及根据平方内积的加权和确定这两个输入文档之间的相关性。

在本发明的用来确定两个输入文档之间的相似性的再一个实施方式中，提供一种方法，其构成包括：计算两个输入文档每一个的文档段向量的平方和矩阵的本征值和本征向量；从计算出的两个输入文档中的每一个文档的本征向量中选择与较大的本征值相对应的本征向量作为基向量；计算所选择的基向量的组合的平方内积的加权和；以及根据平方内积的加权和确定这两个输入文档之间的相关性。

附图说明

图1为示出根据本发明的一个实施方式的用来从文档中抽取重要句子的系统的功能方块图。

图2为示出根据本发明的一个实施方式的用来检索与查询有相关性的文档段的系统的功能方块图。

图3为示出根据本发明的一个实施方式的用来确定两个文档之间的相似性的系统的功能方块图。

图4为示出根据本发明的另一个实施方式的用来确定两个文档之间的相似性的另一系统的功能方块图。

图5为示出维数L和概念子空间的代表性例子之间关系的曲线图，其情况为从一篇由58个句子和1100个词构成的新闻文章中抽取名词生成具有146维的句子向量。

图6为示出本征值和本征向量例子的表。

具体实施方式

文档段的表示及重要句子的抽取

在本发明的一个实施方式中，首先定义构成输入文档的每个句子的概念以及文档的中心概念，然后取得每个句子对有关文档的中心概念的贡献以便根据取得的各个贡献的大小确定每个句子的重要性。在此实施方式中，将一个句子用作文档段的一个单位。每个句子的概念可由包含有待利用各个词语在句子中出现的频率信息来确定的值作为其元素的句子向量来表示。基向量的特征在于每个句子向量在基向量上的平方投影值的和大于在基向量以外的任何向量上的平方投影值的和并且基向量是互相正交的这一性质。因此，文档的中心概念可藉助于由一定数目的此种基向量的组合形成的子空间定义。每个句子对文档的中心概念的贡献可利用每个句子向量在此子空间上的平方投影的加权和来确定。

在句子和查询之间的相关性或关联性的确定方法如下：根据查询向量在每个基向量上的平方投影值对每个基向量加权并取得每个句子向量在每个基向量上的平方投影的加权和作为相关性或关联性。

根据本发明的一个实施方式，根据每个句子对文档的中心概念的贡献赋予每个句子的重要性使得从文档中精确抽取重要句子变得容易。重要性也使得可以对句子按照其重要性进行排序并控制所抽取的句子的长度与整个文档的比值。此外，文档的中心概念的范围可通过改变子空间的维数，即有待组合的基向量的数目，进行修改，使得可以控制所抽取的句子的概念的扩展。子空间的维数越少，概念的扩展越窄。

在计算句子和查询之间的相关性时，由于此方法是基于句子和查询之间的概念的共性，可以得到非零相关性，只要句子和查询的概念是共同的，即使是在句子和查询中没有相同词语出现。

图1为示出本发明的一个实施方式的整个过程的功能方块图。这一实施方式可通过在通用计算机上执行程序而实现。

在图1中，有词语检测块11、形态分析块12、文档分割块13、文档段向量生成块14、平方和矩阵计算块15、本征值和本征向量计算块16、子空间判定块17、重要性计算块18、文档段排序块19和文档段选择块20。在此实施方式的下面描述中引用的是英文文档。

首先，词语检测块11从输入文档中检测单词和符号序列，如数字。此处一般将单词和符号序列称为“词语”。在英文文档的场合，容易检测词语，因为在英文正字法中各词语总是分开书写中间留有空格。形态分析块12执行形态分析，如对每个词语赋予词类。

文档分割块13将文档分割为文档段。文档分割的最基本过程是从文档分割为句子。在英文文档的场合，容易将文档分割为句子，因为句子通常以后面至少跟着一个空格的句号结束。也可采用其他的分割方法；比如将数个句子组合形成一个文档段并且所有的文档段都包含同样数目的句子，或是可将文档分割为文档段并使每个文档段都包含同样数目的词语而不管句子之间的任何界限。

文档段向量生成块14计算要从出现在整个文档中的词语生成的向量的维数并确定每个向量元素和每个词语之间的对应关系。应该指出，不需要对出现于文档中的所有各种词语都赋予向量元素。比如，利用赋予词类的过程的结果，就可以只利用在此过程中断定为名词或动词的词语来生成文档段向量。之后，文档段向量生成块14取得出现在每个文档段中的词语的种类及每一类词语的出现频率，并确定相应的向量元素的值而生成文档段向量。也可使用普通的方法对每个元素值赋予权重。

下面假设文档D是由N个句子组成的，其中一组单词由{w₁，...，w_k}给出，而文档D的第n个句子的向量定义为d_n＝(d_n1，...，d_nk)，其中d_nk表示单词w_k在第n个句子中的出现频率或加权值。

平方和矩阵计算块15计算每个文档段向量的平方和矩阵。平方和矩阵A＝(A_ab)以下面的等式计算：

A_{ab} = Σ_{n = 1}^{N} d_{na} d_{nb} - - - (1)

本征值和本征向量计算块16计算矩阵A的本征值和本征向量。计算出的m维本征向量和本征值分别称为Φ_m和λ_m。由于Φ_m是由一组词语表示的向量，可认为是表示一个概念。可以认为Φ_m表示第m本征概念，因为它是唯一地对输入文档确定的。在所有的句子段中Φ₁表示最共同的概念，因为所有的句子向量在Φ₁上的平方投影和大于在任何其他向量上的平方投影和。由于λ₁是平方投影和本身，可以认为它表示对Φ₁表示的概念的强度或能量。Φ₂是在Φ₂与Φ₁正交的限制下给出最大平方投影和的轴线。对于高阶本征向量，如Φ₃等等，同一关系也成立。

如上所述取得的本征向量作为基向量应用于近似一组文档段向量的子空间。如使用L个本征向量，子空间的维数为L，这意味着输入文档的概念已经扩展为L个互相正交的本征概念。子空间可以称为概念子空间。之后子空间判定块17具体判定L的值。假设R是矩阵A的秩，文档将具有R个概念，因为从矩阵A可得到R个本征向量。子空间表示利用R个概念之外的L个概念的中心概念。下面的表达式可表示中心概念占据固有概念达到的程度，换言之，子空间表示整个文档的概念达到的程度。

Σ_{m = 1}^{L} λ_{m} / Σ_{m = 1}^{R} λ_{m} - - - (2)

这个表达式可用作实际确定L值的指南。改变L值使得可控制文档的中心概念的扩展，结果控制抽取的重要文档段的概念的扩展。

重要性计算块18计算每个文档段向量在子空间上的投影值的平方以取得文档段的重要性。设z_n＝(z_n1，z_n2，...，z_nL)是d_n投影后的向量，在第m个基向量上的投影值z_nm可由下式给出：

z_nm＝φ_m ^td_n (3)

在子空间上d_n的平方投影值的和可由下式给出：

Σ_{m = 1}^{L} {z_{nm}}^{2} - - - (4)

计算出的在子空间上d_n的平方投影值的和表示每个文档段对文档的中心概念的贡献。或者，可根据下式利用基向量的能量作为权重计算在子空间上平方投影值的和：

Σ_{m = 1}^{L} λ_{m} {z_{nm}}^{2} - - - (5)

文档段排序块19按照重要性的降序对文档段进行排序。文档段选择块20选择较高秩文档段作为重要段并将它们输出。这样，可根据文档段对文档的中心概念的贡献的降序对其进行抽取。

计算与查询的相关性

图2为示出用来根据本发明的一个实施方式计算输入文档的文档段和查询之间的相关性及选择句子的系统的整体结构。在图2中，有本征值和本征向量计算块21、子空间投影块22、查询向量化块23、另一子空间投影块24、相关性计算块25、文档段排序块26和文档段选择块27。

利用英文文档作为描述此实施方式的例子。执行与图1所示的实施方式同样的过程一直到计算出本征值和本征向量为止。子空间投影块22将文档段向量投影到第L子空间。设z_n为与图1一样的投影之后的向量并且其元素由式(5)给出。查询向量化块23对查询执行与图1中的块11至块14的过程等效的过程。设q是查询的一个向量。子空间投影块24通过将q投影到子空间确定向量y。向量y的第m个元素y_m由下式给出：

y_m＝Ф_m ^tq (6)

相关性计算块25根据下式计算与第n个文档段的相关性g_n：

g_n＝y^tz_n/‖q‖ (7)

上面计算出的g_n具有正比于z_n的范数的值。上述方程式还可以利用下式进一步归一化以便与z_n的范数无关。

‖z_n‖ (8)

这一相关性可以利用方程(7)计算，即使是在文档段和查询中不存在共同词语时。其理由如下：如果存在经常在文档内的文档段中同现的一对词语，这些词语的系数在低阶本征向量中具有同样的符号，而在高阶本征向量中具有不同的符号。换言之，词语之间的差异反映在高阶本征向量中，但不反映在低阶向量中。如反映词语之间的差异的高阶本征向量不包含于L维子空间中，则当在文档中同现的词语对中的一个包含于查询中而另一个包含于相关文档段中时，方程(7)给出非零值。

文档段排序块26按照相关性的降序对文档段排序。文档段选择块27选择较高秩的文档段作为具有高相关性的段并将它们输出。如果要求选择重要的和与查询相关的文档段，利用藉助在通过示于图1中的过程获得的重要性上添加相关性所取得的值执行文档段排序。

或者，相关性也可按如下方式计算。第一，利用如下方程定义第m个本征向量的权重s_m。

s_m＝(Φ_m ^tq)²/‖q‖² (9)

其中s_m表示第m个本征向量方向中的查询能量相对查询的总能量的比。查询对文档段n的相关性g_n可定义如下：

g_{n} = Σ_{m = 1}^{L} s_{m} {({φ_{m}}^{t} d_{n})}^{2} - - - (10)

可见，g_n是利用s_m作为权重定义为在Φ_m方向上文档段能量的加权和。于是，在具有大权重的本征向量上具有大投影值的句子趋向于具有较高的相关性。可以利用下面的表达式使g_n归一化以便与文档段n的能量无关。

‖d_n‖² (11)

相似性确定

在本发明的另一实施方式中，根据适当大小，比如句子，将两个文档分割为文档段，之后对每个文档段计算向量并最后对两个文档的文档段向量的所有组合计算平方内积和以便确定文档之间的相似性。

在长文档的场合，由于出现于文档中的词语数目增加，文档段向量的维数将很大并且所得到的文档段向量的数目将增加。因此，对文档段向量的所有组合计算内积将会对处理时间和所要求的存储器造成沉重的负担。所以，在此实施方式中，两个文档中的任意一个或是两个文档都以与如上所述的重要句子抽取相同的方式由概念子空间表示。

当两个文档中的一个文档由文档段向量表示而另一个由概念子空间表示时，两个文档之间的相似性是通过文档段向量和基向量的所有的组合的内积的加权和计算而得。当两个文档都由概念子空间表示时，文档的相似性是通过计算文档的基向量的所有的组合的内积加权和而得到的。

在此实施方式中，文档或是由一组文档段向量表示，或是由一个子空间表示。这意味着文档概念是由文档段的一组概念表示，因此文档概念的表示可以比利用单个向量表示文档时更精确。文档概念的扩展也可反映到相似性上，因为两个文档的所有文档段的概念都反映在相似性上。

虽然子空间近似一组文档段向量，已知在文档段向量的平方和矩阵的一组本征向量用作基向量时误差变为最小。因此，从一个文档的文档段向量的所有的组合取得的与另一文档的选择基向量的相似性可以最好地近似从两个文档的文档段向量的所有组合取得的相似性。如上所述，在此场合的子空间表示文档的中心概念。于是，从一个文档的文档段向量的所有的组合取得的与另一文档的选择基向量的文档相似性等于从一个文档的概念和另一个文档的中心概念之间的共同概念取得的相似性。

当两个文档都由概念子空间表示时，所取得的相似性也近似从两个文档的文档段向量的所有可能的组合取得的文档相似性。在此场合，相似性是根据两个文档的中心概念的所有可能的组合的共同概念取得的。因此，当两个文档中的任意一个或是两个文档都由概念子空间表示时，所取得的相似性将是基于文档段向量的所有的组合的相似性的最佳近似。除此之外，文档概念的扩展自然反映于相似性上，因为两个文档的所有文档段的概念都近似地反映在此相似性上。

图3为示出根据本发明的一个实施方式的用来比较文档段向量以便取得文档相似性的系统的功能块图。这一实施方式可通过在通用计算机上执行程序而实现。图3示出利用通用计算机和程序配置的系统的功能块图。

其中有词语检测块11、形态分析块12、文档分割块13、文档段向量生成块14、内积计算块35和相似性计算块36。块11至14与图1所示的块相同。利用英文文档作为描述此实施方式的例子。

在参考图1描述的词语检测块11至文档段向量生成块14中对两个输入文档进行处理而生成文档段向量。

内积计算块35计算两个输入文档的文档段向量的所有组合的内积值并保持这些值。此处假设S和T是输入文档。假设K个词语出现于文档S，T内，文档S的第n个文档段向量s_n(n＝1，...N)由(s_n1，s_n2，...，s_nk)表示，而文档T的第m个文档段向量t_m(m＝1，...M)由(t_m1，t_m2，...，t_mk)表示。于是文档段s_n和t_m之间的内积值由下式表示：

{s_{n}}^{t} t_{m} = Σ_{k = 1}^{K} s_{nk} t_{mk} - - - (12)

其中上标t表示转置。

相似性计算块36计算文档段向量的所有组合的平方内积和并确定两个文档之间的相似性。此相似性r由下式给出：

r = {Σ_{n = 1}^{N} Σ_{m = 1}^{M} {({S_{n}}^{t} t_{m})}^{2} / \sqrt{Σ_{n = 1}^{N} Σ_{m = 1}^{N} {({S_{n}}^{t} S_{m})}^{2} Σ_{n = 1}^{M} Σ_{m = 1}^{M} {({t_{n}}^{t} t_{m})}^{2}}}^{1 / 2} - - - (13)

当文档S和T中没有共同的词语时，相似性将为零，而当两个文档完全相等时，相似性将为1.0。

图4为示出根据本发明的一个实施方式的用来通过比较文档段向量和基向量或比较基向量来计算相似性的一个系统的功能块图。词语检测块11至本征值和本征向量计算块16与图1所示的块相同。除此之外，其中还有主本征向量选择块37，内积计算块38和相似性计算块39。

输入文档S，T(利用与上一个实施方式同样的假设)之间的相似性是通过比较文档T的文档段向量与文档S的基向量计算出的。文档S和T在词语检测块11至文档段向量生成块14中进行处理而分别生成文档段向量。之后，平方和矩阵计算块15对文档S计算每个文档段向量的平方和矩阵。平方和矩阵A＝(A_ab)以下面的等式计算：

A_{ab} = Σ_{n = 1}^{N} s_{na} s_{nb} - - - (14)

内积计算块38对n和m的所有组合计算文档S的本征向量Φ_n和文档T的文档段向量t_m之间的内积值。相似性计算块39利用每个阶的本征值作为权重根据下式从上面计算的内积值计算相似性：

r = {Σ_{n = 1}^{L} Σ_{m = 1}^{M} λ_{n} {({φ_{n}}^{t} t_{m})}^{2} / \sqrt{Σ_{n = 1}^{L} {λ_{n}}^{2} Σ_{n = 1}^{M} Σ_{m = 1}^{M} {({t_{n}}^{t} t_{m})}^{2}}}^{1 / 2} - - - (15)

虽然根据方程式(15)的相似性是从平方内积的加权和计算得出的，但也可以对文档T的每个文档段取得文档T的文档段和文档S之间的相似性，之后计算其平均值，此平均值就看作是文档T和S之间的相似性。在此场合，相似性由下式给出：

r = {Σ_{m = 1}^{M} Σ_{n = 1}^{L} λ_{n} {({φ_{n}}^{t} t_{m})}^{2} / (\sqrt{Σ_{n = 1}^{L} {λ_{n}}^{2}} | | t_{m} {| |}^{2} M)}^{1 / 2} - - - (16)

在另一实施方式中，两个文档T和S之间的相似性是通过匹配每个文档的基向量取得的。在此实施方式中，对文档S及文档T的本征值和本征向量利用在平方和矩阵计算块15和本征值和本征向量计算块16中的过程进行计算，之后在主本征向量选择块37中将主本征向量选择为基向量。令γ_n，τ_n分别是文档T的平方和矩阵的第n个本征值和本征向量。假设J个本征向量选择为基向量。内积计算块38对n和m的所有组合计算文档S的本征向量Φ_n和文档T的本征向量τ_m之间的内积值。之后，相似性计算块29根据下式计算相似性：

r = {Σ_{n = 1}^{L} Σ_{m = 1}^{J} λ_{n} γ_{m} {({φ_{n}}^{t} τ_{m})}^{2} / \sqrt{Σ_{n = 1}^{L} {λ_{n}}^{2} Σ_{m = 1}^{J} {γ_{m}}^{2}}}^{1 / 2} - - - (17)

很清楚，方程(15)和(16)是基于参考图3所描述的文档段的所有组合的相似性(由方程(13)给出的)的近似，因为方程(13)的分子可变换为下面的方程(18)和(19)。

Σ_{n = 1}^{N} Σ_{m = 1}^{M} {({S_{n}}^{t} t_{m})}^{2}

= Σ_{n = 1}^{N} Σ_{m = 1}^{M} {t_{m}}^{t} S_{n} {S_{n}}^{t} t_{m}

= Σ_{m = 1}^{M} {t_{m}}^{t} {At}_{m}

= Σ_{m = 1}^{M} {t_{m}}^{t} (Σ_{n = 1}^{R} λ_{n} φ_{n} {φ_{n}}^{t}) t_{m}

= Σ_{m = 1}^{M} Σ_{n = 1}^{R} λ_{n} {({φ_{n}}^{t} t_{m})}^{2} - - - (18)

Σ_{n = 1}^{N} Σ_{m = 1}^{M} {({S_{n}}^{t} t_{m})}^{2}

= Σ_{m = 1}^{M} Σ_{n = 1}^{R} λ_{n} {({φ_{n}}^{t} t_{m})}^{2}

= Σ_{n = 1}^{R} λ_{n} {φ_{n}}^{t} (Σ_{m = 1}^{M} t_{m} {t_{m}}^{t}) φ_{n}

= Σ_{n = 1}^{R} λ_{n} {φ_{n}}^{t} B φ_{n}

= Σ_{n = 1}^{R} Σ_{m = 1}^{Q} λ_{n} γ_{m} {({φ_{n}}^{t} τ_{m})}^{2} - - - (19)

其中B是文档T的平方和矩阵，而Q是其秩。在上面的方程中利用下面的关系式：

A = (Σ_{n = 1}^{R} λ_{n} φ_{n} {φ_{n}}^{t}) - - - (20)

在方程(18)中，如对文档S使用L个本征向量，将与方程(15)中的分子相同。在方程(19)中，如对文档T使用J个本征向量，将与方程(17)中的分子相同。

为了确定相似性，用户可以在各个文档段向量之间，在文档段向量和基向量之间，或在基向量之间选择使用哪一个组合。不过，只要是涉及长文档，最好是使用基向量组合，因为要求的存储器少和处理时间短。在上述实施方式中，某些过程可以提前执行，但最后的内积和相似性的计算除外。

对本征值和本征向量的观察

下面，通过简单的模拟，介绍如何对给定的词语同现取得本征值和本征向量。假设词语1、2、3和4出现于文档中并且取得如表1中所示的平方和矩阵。

(表1)

[\begin{matrix} 10 & a & 0 & 0 \\ a & 9 & b & 0 \\ 0 & b & 8 & c \\ 0 & 0 & c & 7 \end{matrix}]

对角上的元素表示由下面的方程(21)给出的词语能量。词语1的能量最大。参数a、b和c给出词语之间的同现度。参数a给出词语1和2之间的同现度，b给出词语2和3之间的同现度，而c给出词语3和4之间的同现度。设文档段是句子。

句子能量由句子向量的平方范数给出。第n个句子的能量，E(d_n)，在下面的方程中确定：

E (d_{n}) = Σ_{k = 1}^{K} {| | f_{nk} | |}^{2} - - - (21)

与此类似，词语w_k的能量，E(w_k)，在下面的方程中确定：

E (w_{k}) = Σ_{n = 1}^{N} {| | f_{nk} | |}^{2} - - - (22)

令E(D)为文档D的总能量。下面的方程成立。此方程示出文档能量等于所有句子能量的和或所有词语能量的和。

E (D) = Σ_{n = 1}^{N} E (d_{n}) = Σ_{k = 1}^{K} E (w_{k}) - - - (23)

图6为示出从平方和矩阵取得的本征值和本征向量，其中某些值赋予参数a、b和c。图6示出对在第n个本征向量中的每个词语的本征值λ_n和系数Φ_n1、Φ_n2、Φ_n3和Φ_n4。自此之后，将概念是第n个本征向量的方向和能量由第n个本征值给出的虚拟句子称为第n个本征句子。

(1)在a＝b＝c＝0时

这种场合意味着4个词语未同现。在图6中，在第n个本征向量中的词语n的系数是1，而其他词语的系数是0。这表示每个本征向量是每个词语轴线本身。换言之，本征句子的概念是每个词语本身的概念。每个本征值等于平方和矩阵的相应的对角元素的值。就是说，每个本征句子的能量等于每个词语的能量并且取决于每个词语的出现频率。

(2)在a＝b＝0和c＝1时

这种场合意味着词语同现只存在于词语3和4之间。结果，第3和第4本征句子的概念取决于词语3和词语4。采用普通的向量空间模型词语同现不能得到表现，但自然反映在根据本发明的本征句子概念上。第3本征句子的能量大于在a＝b＝c＝0的场合。

(3)在a＝b＝0和c＝3时

观察到在第1本征向量中的Φ₁₃和Φ₁₄具有非零值并且由两个词语3和4确定概念的本征句子的能量最大。这表示本征句子的能量取决于词语的出现频率和词语之间的同现频率两者。

(4)在a＝3，b＝0和c＝3时

在词语1和2之间和在词语3和4之间存在词语同现，但在词语1，2和3，4之间不存在。结果，矩阵S分割为子矩阵。在此场合，本征句子概念由词语1和2的组合或词语3和4的组合确定。

(5)在a＝3，b＝1和c＝3时

当在词语2和3之间存在词语同现时，本征句子的概念取决于所有的词语。词语1不和词语3或4同现。因此，词语1被看作通过词语2和3之间的直接同现关系具有和词语3或词语4的间接同现关系。然而，可以了解，此种间接同现关系影响本征句子的概念。在实际文档中，词语之间的间接同现链以及直接词语同现似乎起着重要的形成文档概念的作用。

图5为示出一个文档的概念子空间的维数L及其代表性的关系曲线图，该文档为一篇由58个句子和1100个词构成的英文新闻文章。从此文档中抽取名词作为词语并构建146维数的58个向量。在此场合，平方和矩阵的秩为58，于是L的最大值是58。概念子空间的代表性可利用方程(2)定义。参考图5，达到代表性的50％的最小维数是8，达到75％的最小维数是20。这意味着显著的维数缩减是可能的。还观察到平均句子向量的代表性(即每个句子在平均向量上的平方投影值和与文档能量的比值)是10.4％，小于第1本征句子的代表性，即12.2％。这意味着第1本征句子具有超过平均向量的代表性。第1本征句子的代表性趋向于随着文档的变长而降低。

本发明的优点在于可提供一种适于文档分析的文档表示方法，这种文档分析包含从给定的文档抽取重要句子和/或确定两个文档之间的相似性。

根据本发明的一个实施方式，抽取重要句子的结果可接近人的感觉，因为抽取过程的执行是利用了词语同现。除此之外，当检索与查询具有相关性的句子时，可根据词语的同现关系检索出具有概念相关性的句子，即使是在句子和查询中不存在共同的词语。

根据本发明的另一个实施方式，可获得高度可靠的相似性，因为两个文档相似性是从文档段的所有组合取得的并且所有文档段的概念都反映在相似性上。

虽然对本发明的描述是参考具体实施方式，但本发明不受限于这些实施方式。

Claims

1.一种利用向量表示输入文档的方法，包括：

检测在所述输入文档中出现的词语；

将所述输入文档分割为文档段，每个文档段都是大小合适的块；以及

生成文档段向量，每个向量包含根据出现于所述文档段中的所述词语的出现频率的值作为其元素，

其中一组所述文档段向量由所述文档段的平方和矩阵的本征值和本征向量表示。

2.如权利要求1所述的方法，其中在所述输入文档中出现K个词语并且所述输入文档分割为N个文档段，所述平方和矩阵A＝(A_ab)是利用下式计算的：

A_{ab} = Σ_{n = 1}^{N} d_{na} d_{nb},

其中d_ni表示在第n个文档段中第i个词语的出现频率，并且第n个文档段向量d_n(n＝1，...，N)由(d_n1，d_n2，..，d_nk)表示。

3.一种从输入文档抽取重要文档段的方法，包括：

检测在所述输入文档中出现的词语；

将所述输入文档分割为文档段，每个文档段都是大小合适的块；

生成文档段向量，每个向量包含根据出现于所述文档段中的所述词语的出现频率的值作为其元素；

确定平方和矩阵的本征值和本征向量，其中所述文档段向量的秩以R表示；

从所述本征向量中选择用来确定重要性的多(L)个本征向量；

计算所述文档段向量在所选择的本征向量上的平方投影的加权和；以及

根据所述计算的文档段向量的平方投影的加权和选择具有显著重要性文档段。

4.如权利要求3所述的方法，其中在所述输入文档中出现K个词语并且所述输入文档分割为N个文档段；

其中d_ni表示在第n个文档段中第i个词语的出现频率，并且第n个文档段向量d_n(n＝1，...，N)由(d_n1，d_n2，..，d_nk)表示和投影后的向量d_n由z_n＝(z_n1，z_n2，...，z_nL)表示，d_n在第m本征向量上的投影值由z_nm＝Φ_m ^td_n表示，

其中Φ_m表示第m个本征向量和t表示转置；

在L维子空间上的平方投影和由下式给出：

Σ_{m = 1}^{L} {z_{nm}}^{2}

或由下式给出：

Σ_{m = 1}^{L} λ_{m} {z_{nm}}^{2},

其中λ_m表示第m个本征向量的本征值。

5.如权利要求3所述的方法，其中所述本征值和本征向量是利用下面的平方和矩阵计算的：

A_{ab} = Σ_{n = 1}^{N} d_{na} d_{nb};

所述L是将文档的中心概念表示为秩R的平方和矩阵的子空间的维数；

所述L的值根据所述输入文档的中心概念与总概念的比值确定，由下式给出：

Σ_{m = 1}^{L} λ_{m} / Σ_{m = 1}^{R} λ_{m}

6.一种从输入文档检索与查询具有相关性的文档段的方法，包括：

检测在所述输入文档中出现的词语；

确定所述文档段向量的平方和矩阵的本征值和本征向量以定义子空间；

检测出现于所述查询中的词语；

生成查询向量，每个向量包含根据所述词语的出现频率的值作为其元素，以便将所述查询向量投影到所述子空间；以及

将每个所述文档段向量投影到所述子空间以计算所述查询与所述文档段的相关性。

7.如权利要求6的方法，其中当z_n表示所述文档段的投影向量d_n在所述子空间上的投影向量，而y表示所述查询向量在所述子空间上的投影向量，第n个文档段和查询之间的相关性g_n是根据y和z_n的内积取得的，即y^tz_n，其中t表示转置。

8.如权利要求6的方法，其中第m个本征向量的权重s_m是由函数(Φ_m ^t _q)²定义的，并且与文档段n的相关性g_n利用下式取得：

g_{n} = Σ_{m = 1}^{L} s_{m} {({φ_{m}}^{t} d_{n})}^{2},

其中q表示所述的查询向量，Φ_m表示第m个所述本征向量，而L表示所述子空间的维数。

9.一种确定给定的两个输入文档之间的相似性的方法，包括：

检测在每个所述输入文档中出现的词语；

将每个所述输入文档分割为文档段，每个文档段都是大小合适的块；

生成文档段向量，每个向量包含根据出现于各个所述文档段中的所述词语的出现频率的值作为其元素；

对两个输入文档中的每个计算包含于各个输入文档中的所述文档段向量的所有组合的平方内积；以及

根据所述平方内积的和确定这两个输入文档之间的所述相似性。

10.一种用来确定给定的两个输入文档之间的相似性的方法，包括：

计算所述两个输入文档之一的文档段向量的平方和矩阵的本征值和本征向量；

从所述计算出的本征向量中选择与较大的本征值相对应的本征向量作为基向量；

计算所述两个输入文档中的另一个文档的文档段向量和所述基向量之间的平方内积的加权和，通过加权对平方内积求和；以及

根据所述平方内积的加权和确定所述两个输入文档之间的相关性。

11.一种用来确定给定的两个输入文档之间的相似性的方法，包括：

计算所述两个输入文档每一个的文档段向量的平方和矩阵的本征值和本征向量；

从所述计算出的所述两个输入文档中的每一个文档的本征向量中选择与较大的本征值相对应的本征向量作为基向量；

计算所选择的所述基向量的组合的平方内积的加权和，通过加权对平方内积求和；以及