CN109918496B

CN109918496B - 一种基于多词汇摘要的精确文档检索方法

Info

Publication number: CN109918496B
Application number: CN201910200837.3A
Authority: CN
Inventors: 周元海
Original assignee: Hangzhou Huanxing Intelligent Technology Co ltd
Current assignee: Hangzhou Huanxing Intelligent Technology Co ltd
Priority date: 2018-12-27
Filing date: 2019-03-17
Publication date: 2022-09-16
Anticipated expiration: 2039-03-17
Also published as: CN109918496A

Abstract

本发明公开了一种基于多词汇摘要的精确文档检索方法，步骤如下。第一，准备文章摘要；第二，生成文档摘要；第三，精确检索信息，包括递进的检索、并联检索、串联检索或/和差量检索。本发明给出任意一篇文章Para，核心词汇为Word_p，设定摘要为一个二维向量{S,W}，进而文章题目分词去除介词、副词之后，形成词列表向量Title{T}，文章分词之后，形成文章词组Para{P}，统计全文的高频词汇，依次排开，形成高频词汇向量F{f}。本发明通过重新定义设计摘要，同时利用摘要进行递进、并集、交集、差集、的信息深度检索，并且形成可靠的排序，在复杂限定条件下，迅速找出与检索规则对应的信息文档。

Description

一种基于多词汇摘要的精确文档检索方法

技术领域

本发明涉及一种基于多词汇摘要的精确文档检索方法。

背景技术

现代社会，随着信息量的爆炸式扩容，面对海量的信息资源，检索获取有效的信息，既为全面获取信息的提供了便捷，也为快速准确获取信息增加了负担。如何快速的检索到所需求的有效信息，是尤为重要的。

即使在具备摘要的情况下查询，由于摘要也是海量的，即便在有摘要的情况下，在摘要集合中检索复杂规则的文档，依旧需要较长的时间。

发明内容

本发明为解决现有技术存在的问题，提供一种基于多词汇摘要的精确文档检索方法。

本发明解决现有问题的技术方案是：一种基于多词汇摘要的精确文档检索方法，步骤如下。

第一，准备文章摘要：

a)给出任意一篇文章Para，核心词汇为Word_p，设定摘要为一个二维向量{S,W}，其中S为词汇，W为摘要权重，所述的权重W为浮点数，范围设定在0～100，向量W的全部总和不超过100。

b)文章题目分词去除介词、副词之后，形成词列表向量Title{T}，文章分词之后，形成文章词组Para{P}。

c)统计全文高频词汇，依次排开，形成高频词汇向量F{f}。

d)以核心词汇Word_p为基准，在文章中出现的全部Word_p词汇，向前步长Lw，记录上下文想关性词汇Wr，获得Wr的集合{Wr}。

e)通过步骤a)-d)，得到集合Title{T}Para{P}F{f}{Wr}，去除集合中的介词、连词、副词，以下通过向量，计算{S,W}，作为之后的检索。

第二，生成文档摘要：

a)给出集合Title{T}中的所有元素，对于任意一项元素记为Title，在Para{P}中，如果Title不属于Para{P}集合，则将Title元素从Title{T}集合中删除。

b)给出集合Title{T}中的所有元素，其中任意一项元素记为Title，在F{f}中寻找该词组，如果F{f}中有词组Title，则当前Title元素设置初始权重W(Title)＝Wt*frequency(F(f))，所述的frequency表示当前词汇的频率，为一个浮点数，其中Wt为全局词频权重系数。如果F{f}中没有词组Title，则W(Title)＝Wt*wt，所述的wt为标准词频系数，添加元素S＝Title，W＝W(Title)到集合{S,W}中。

c)给出集合Title{T}中的所有元素，将任意一项元素记为Title，对应Title元素，在集合{Wr}中寻找该元素，如果Title在{Wr}中，则建立一个向量之间的相关性估计，以Title做为主要元素，以Title{T}做为基准向量，以{Wr}r＝{Wr|word＝Title}做为核准向量，进而得到W_rela＝Relationship(Title,Title{T},{Wr}r)，在集合{S,W}中取出S＝Title元素，获得对应W空间，记为Wo，定义Wn＝Wo+W_rela*Wr，将{S,W}中对应W元素值被Wn替代。

d)将{S,W}矩阵变形，修改W的权重，形成{S,W}关键词摘要集合。

第三，精确检索信息，包括递进的检索、并联检索、串联检索或/和差量检索。

作为进一步改进，所述的步骤第一中的c)统计全文高频词汇，认定为出现次数/全文词量>rateA，依次排开，形成高频词汇向量F{f}。

作为进一步改进，所述的步骤第三，精确检索信息，将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input，检索步骤包括有优先级的并集检索。

a)设定优先集合Input中任意两个元素Word_x，Word_y，如果序号x>y，认为Word_x比Word_y的优先级低，进而缩进全部的序列，保证最大化的序列中牵引信息。

b)从Word1开始，在摘要集合{S,W}中寻找使得Word1的W最大的前N个元素，作为集合{S,W}c1，以Word1、Word2为向量，在集合{S,W}c中寻找使得W最大的前N/2个元素，作为集合{S,W}c2。重复从Word1开始，在摘要集合{S,W}中寻找使得W最大的前N个元素，作为集合{S,W}c1，以Word1Word2为向量，在集合{S,W}c中寻找使得W最大的前N/2个元素，作为集合{S,W}c2。对于第三个词汇Word_3亦是如此，得到{S,W}c3。这样{S,W}集合会不断缩小，元素不断减少，直至整个Input中的词汇被使用。

c)如果到其中的一个步骤，{S,W}c集合中的元素个数小于预期最小元素数量Cmin，则停止。最终返回的{S,W}c集合所对应的Para集合，作为结果。

作为进一步改进，所述的步骤第三，精确检索信息，将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input，检索步骤包括，无优先级的并集检索。

a)依次选择Input中的单个元素WI，在摘要集合{S,W}中寻找使得元素WI当前权重W最大的前N个元素，记作{Wi}，由此，Input中的全部元素将形成集合{S,{Wi}}。

b)将集合{S,{Wi}}按照S1＝S2，W＝W1+W2，的规则处理，让词频集合发生并操作。

c)然后在集合{S,{Wi}}中，计算relaW＝rever(WI,S,Wi)，并选取relaW中最大的前M个数值，数值对应{S,{Wi}}中词汇元素形成子集合Sc，Sc集合所指向的para为最终结果。

作为进一步改进，所述的步骤第三，精确检索信息，将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input，检索步骤包括，无优先级的交集检索。

a)框定Input中全部集合元素为交集探索集合{Sd}。

b)在摘要集合{S,W}中，寻找能够属于Sd集合的元素，找到或没有找到属于Sd集合的元素。

c)如果找到了属于Sd集合的元素，且有多项，选取对应W最大的前N项，用S映射为Para集合，作为结果。

d)如果找不到属于Sd集合的元素，则就在{Sd}集合中去掉任意一项，继续在摘要集合{S,W}中，寻找能够满足Sd集合的元素，直到找到匹配的元素，且有多项，选取对应W最大的前N项，用S映射为Para集合(初始条件下，每个核心词汇都有对应于自身的Para集合，把S作为核心词汇就可以获取对应的Para集合)，作为结果，并记录当前结果到一个新的元素(S,W)，将此元素插入到摘要集合{S,W}中，最终返回Sd集合指向的Para元素集合。

作为进一步改进，所述的步骤第三，精确检索信息，将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input，检索步骤包括，无优先级的差集检索。

a)Input中有两个集合：吸引力集合{belong}和排斥力集合{against}，把{belong}集合作为并集检索的Input集合，做并集处理，我们会得到摘要集合{S,W}的一个子集，记作{S,W}1。

b)把{belong}集合作为交集检索的Input集合，做交集处理，我们会得到摘要集合{S,W}的一个子集，记作{S,W}2。

c)将{S,W}1，{S,W}2集合中去除S元素在集合{against}中的部分，形成带有差量的{S,W}1，{S,W}2，记作{S,W}11，{S,W}22。

d)将{S,W}11，{S,W}22按照以下规则排序，将S同属于两个集合的元素取出，并且按照W从大到小排序，形成集合{S}h。将{S,W}11集合对{S}h集合的补集记作{S}m。将{S,W}22集合对{S}h集合的补集记作{S}l。

e)按照{S}h{S}m{S}l的顺序，形成一个新的集合{Ss}，{Ss}集合所对应的Para形成的集合为最终检索结果。

作为进一步改进，所述的步骤第三，精确检索信息，将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input，检索步骤包括，有优先级的递进检索。

a)设置Input中全部元素为递进检索的元素，且按照元素序号变大，其优先级变低，即序号n>m，优先级priority(N)<priority(M)，所述的优先级最大的词汇为W0，在摘要集合{S,W}，中取出以W0最高权重的元素，形成子集合{S,W}c，元素个数为Count。

b)设置递减比例因子为a，按照优先级逐渐变小的顺序，有若干词汇Wx。

c)每次都在摘要集合{S,W}c中取出权重最大的前a*count个元素，作为子集合{S,W}x，将所有Input生成的子集合{S,W}x做逻辑并操作merge，生成集合{S,W}merge；以Input中全部元素作为向量IN，在{S,W}merge中寻找包含IN中全部项目的元素，按照其权重W做排序。

d)在以Input中全部元素作为向量IN，在{S,W}merge中寻找包含IN中全部项目的元素，按照其权重W做排序的基础上，从优先级最低的Input元素开始，逐渐取出优先级低的元素，按照在以Input中全部元素作为向量IN，在{S,W}merge中寻找包含IN中全部项目的元素，按照其权重W做排序的基础上取出元素排序。其中同样长度的IN匹配的元素，按照权重排序。而不同长度IN匹配的元素，长度越长权重越高。按照权重排序或长度越长权重越高的排序规则，生成排序元素(s,w)和其指向的文档para，并形成集合{S,W,Para}o。

e)按照检索要求在集合{S,W,Para}o中取出前N个元素，作为结果。

作为进一步改进，所述的步骤第二中的d)，所述的{S,W}矩阵变形通过高斯函数、开方函数，或者线性函数或常量变形。

本发明与现有技术相比较，给出任意一篇文章Para，核心词汇为Word_p，设定摘要为一个二维向量{S,W}，进而文章题目分词去除介词、副词之后，形成词列表向量Title{T}，文章分词之后，形成文章词组Para{P}，统计全文的高频词汇，依次排开，形成高频词汇向量F{f}，以核心词汇Word_p为基准，在文章的全部Word_p词汇，向前步长Lw，记录上下文想关性词汇Wr，获得Wr的集合{Wr}得到集合Title{T}Para{P}F{f}{Wr}，去除集合中的介词、连词、副词，以下通过向量，计算{S,W}，准备成文章摘要。将{S,W}矩阵变形，修改W的权重，形成{S,W}关键词摘要集合生成文档摘要，进一步便于通过结合相应的精确检索信息，更为快速准确的获得有效信息。其有益效果是本发明通过重新定义设计摘要，同时利用摘要进行递进、并集、交集、差集、的信息深度检索，并且形成可靠的排序，在复杂限定条件下，迅速找出与检索规则对应的信息文档。

具体实施方式

本实施案例包括步骤如下。

第一，准备文章摘要：

c)统计全文高频词汇，最好认定为出现次数/全文词量>rateA依次排开，形成高频词汇向量F{f}。

d)以核心词汇Word_p为基准，在文章的全部Word_p词汇，向前步长Lw，记录上下文想关性词汇Wr，获得Wr的集合{Wr}。

第二，生成文档摘要，

wt词频计算方法，适用wt是文档核心词Title并没有出现在高频词汇中的情形，此时我们统计核心词汇Title在全文中出现的个数为Count_t，然后将文档para中全部词语的数量记为Count_all，文档para中全部词语的种类数量记为Class_all，

wt＝Count_t/Count_all/Class_all*Wt。

c)给出集合Title{T}中的所有元素，将任意一项元素记为Title，对应Title元素，在集合{Wr}中寻找该元素，如果Title在{Wr}中，则建立一个向量之间的相关性估计，以Title做为主要元素，以Title{T}做为基准向量，以{Wr}r＝{Wr|word＝Title}做为核准向量，进而得到W rela＝Relationship(Title,Title{T},{Wr}r)，在集合{S,W}中取出S＝Title元素，获得对应W空间，记为Wo，定义Wn＝Wo+W_rela*Wr，将{S,W}中对应W元素值被Wn替代。Relationship相关性评估方法即通过Title{Title}{Wr}r来计算Wo的方法。{Title}中的每个元素Title，也属于{Wr}r集合，则认为当前的Title词汇在该片段中有效。集合{Title}中有效元素个数与全部元素个数的比值rate。Relationship＝arctan(rate)/(pi/2)，其中arctan为反正切函数，pi为圆周率。

d)将{S,W}矩阵变形，修改W的权重，形成{S,W}关键词摘要集合。{S,W}矩阵变形可通过高斯函数、开方函数，或者线性函数或常量变形。

第三，精确检索信息，包括递进即深度的检索、并联即并集检索、串联即交集检索或/和差量即差集检索。

递进(深度)的检索，如给定初始词汇元素ABC，以及一阶递进词汇EFG、二阶递进词汇HIJ，首先我们框定ABC的范围词汇，有两种评估方法：第一是认为阶数越小，内容就会越重要；第二种与之相反。每次都假定满足上一次检索的集合中，向着下一阶段进行检索。这样就会形成一个漏斗、树状的检索摘要，最后呈现结果也是通过树图的方式呈现。

给出并联(并集)检索，给出词汇A、B、C，然后设定全部包含ABC的词汇的一个词典，这时候我们有互相关的两两组合，三三组合，通过统计资料中的字频，设置为x，然后计算相关词汇之间的文章距离，得到信息y，然后，我们假定。最终，我们筛选出final值最大的项目，并且呈现出结果

给出串联(交集)检索，给出词汇A、B、C，然后我们需要寻找同时满足ABC结果的信息，但是随着信息序列长度的增加，索引过程会变得缓慢，通常也不会有任何结果。所以我们这里给定一种基于引用的检索方式，如果一段信息中的一部分与其他信息有重合，同时这些信息之间存在关联，同时这些信息形成的集合具有完备的ABC串联(同时满足)，那么我们就判定这个结果是可靠的，同时输出全部与之相关的信息。

给出差量(差集)检索，给出索引词汇ABC，给出词汇CDE，我们需要找到一种方法，从信息中筛选出与ABC密切相关，但是与CDE无关联、或者有排斥倾向的的信息集合。

步骤第三，精确检索信息，将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input，检索步骤包括有优先级的并集检索、无优先级的并集检索、无优先级的交集检索、无优先级的差集检索或/和有优先级的递进检索。

有优先级的并集检索：

a)设定优先集合Input中所有元素为Wx，对于任意两个元素Wx，Wy，如果x>y，认为Wx比Wy的优先级低，进而缩进全部的序列，保证最大化的序列中牵引信息。

无优先级的并集检索：

Rever并联相关系数，使用输入词汇WI、当前词汇S、词汇权重Wi补正最终排序词频，由于最终输出结果为抽出前N个rela最大的S，S对应的para为结果。那么在{S,{Wi}}中的Input词汇WI按照其在集合S,{Wi}}中Wi按照从大到小的顺序排列，然后调整WI对应的权重，使其依次插入{S,{Wi}}的前N个元素之间，权重等于WI前后两个元素对应的Wi的中值，从而修正{S,{Wi}}集合。

例如：N＝4，{S,{Wi}}集合Wi前N个Wi对应的S为{S1,S2,S3,S4}，

Input中WI在集合{S,{Wi}}按Wi从大到小排序为{WI_2,WI_4,WI_1,WI_3}，那么修正后就有{S1,WI_2,S2,WI_4,S3,WI_1,S4,WI_3}，这样是为了避免索引词汇在摘要中权重太低而被忽略。

无优先级的交集检索：

a)框定Input中全部集合元素为交集探索集合{Sd}。

b)在摘要集合{S,W}中，寻找能够属于Sd集合的元素，找到或没有找到属于Sd集合的元素：

d)如果找不到属于Sd集合的元素匹配的元素，则就在{Sd}集合中去掉任意一项，继续在摘要集合{S,W}中，寻找能够满足Sd集合的元素，直到找到匹配的元素，且有多项，选取对应W最大的前N项，用S映射为Para集合，初始条件下，每个核心词汇都有对应于自身的Para集合，把S作为核心词汇就可以获取对应的Para集合，作为结果，并记录当前结果到一个新的元素(S,W)，将此元素插入到摘要集合{S,W}中，最终返回Sd集合指向的Para元素集合。

无优先级的差集检索：

a)Input Input中有两个集合：吸引力集合{belong}和排斥力集合{against}，把{belong}集合作为并集检索的Input集合，做并集处理，我们会得到摘要集合{S,W}的一个子集，记作{S,W}1。

c)将{S,W}1，{S,W}2集合中去除S元素在集合{against}中的部分，形成带有差量的{S,W}1，{S,W}2，记作{S,W}11，{S,W}22

有优先级的递进检索：

Merge摘要的归并操作，在有优先级的递进搜索中，需要合并{S,W}c，这个集合表示了全部以中心词汇Word_p为最高权重的文档摘要集合，这些集合中必然可能出现同样的词汇，需要将同词汇的权重合并，合并规则为这些词汇权重的几何平均值Wp。本操作相当于去重操作，将相同的词汇对应的权重在进行均摊，这样多个S元素就会合并为一个元素，权值设置为Wp。这样集合{S,W}c就会简化。

e)按照检索要求在集合{S,W,Para}o中取出前N个元素，作为结果。作为进一步改进，所述的步骤第二中的d)，所述的{S,W}矩阵变形通过高斯函数、开方函数，或者线性函数或常量变形。

本发明中的代号注释如下：

Claims

1.一种基于多词汇摘要的精确文档检索方法，其特征在于：步骤如下，

第一，准备文章摘要，

a)给出任意一篇文章Para，核心词汇为Word_p，设定摘要为一个二维向量{S,W}，其中S为词汇，W为摘要权重，所述的权重W为浮点数，范围设定在0～100，向量W的全部总和不超过100；

b)文章题目分词去除介词、副词之后，形成词列表向量Title{T}，文章分词之后，形成文章词组Para{P}；

c)统计全文高频词汇，依次排开，形成高频词汇向量F{f}；

d)以核心词汇Word_p为基准，在文章的出现的全部Word_p词汇，向前步长Lw，记录上下文相关性词汇Wr，获得Wr的集合{Wr}；

e)通过步骤a)-d)，得到集合Title{T}Para{P}F{f}{Wr}，去除集合中的介词、连词、副词，以下通过向量，计算{S,W}，作为之后的检索；

第二，生成文档摘要，

a)给出集合Title{T}中的所有元素，对于任意一项元素记为Title，在Para{P}中，如果Title不属于Para{P}集合，则将Title元素从Title{T}集合中删除；

b)给出集合Title{T}中的所有元素，其中任意一项元素记为Title，在F{f}中寻找该词组，如果F{f}中有词组Title，则当前Title元素设置初始权重W(Title)＝Wt*frequency(F(f))，所述的frequency表示当前词汇的频率，为一个浮点数，其中Wt为全局词频权重系数；如果F{f}中没有词组Title，则W(Title)＝Wt*wt，所述的wt为标准词频系数，添加元素S＝Title，W＝W(Title)到集合{S,W}中；

c)给出集合Title{T}中的所有元素，将任意一项元素记为Title，对应Title元素，在集合{Wr}中寻找该元素，如果Title在{Wr}中，则建立一个向量之间的相关性估计，以Title做为主要元素，以Title{T}做为基准向量，以{Wr}r＝{Wr|word＝title}做为核准向量，进而得到W_rela＝relationship(title,Title{T},{Wr}r)，在集合{S,W}中取出S＝title元素，获得对应W空间，记为Wo，定义Wn＝Wo+W_rela*Wr，将{S,W}中对应W元素值被Wn替代；

d)将{S,W}矩阵变形，修改W的权重，形成{S,W}关键词摘要集合；

2.如权利要求1所述的基于多词汇摘要的精确文档检索方法，其特征在于：所述的步骤第一中的c)统计全文高频词汇，认定为出现次数/全文词量>rateA，依次排开，形成高频词汇向量F{f}。

3.如权利要求1所述的基于多词汇摘要的精确文档检索方法，其特征在于：所述的步骤第三，精确检索信息，将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input，检索步骤包括有优先级的并集检索，

a)设定优先集合Input中任意两个元素Word_x，Word_y，如果序号x>y，认为Word_x比Word_y的优先级低，进而缩进全部的序列，保证最大化的序列中牵引信息；

b)从Word1开始，在摘要集合{S,W}中寻找使得Word1的W最大的前N个元素，作为集合{S,W}c1，以Word1、Word2为向量，在集合{S,W}c中寻找使得W最大的前N/2个元素，作为集合{S,W}c2。重复从Word1开始，在摘要集合{S,W}中寻找使得W最大的前N个元素，作为集合{S,W}c1，以Word1Word2为向量，在集合{S,W}c中寻找使得W最大的前N/2个元素，作为集合{S,W}c2。对于第三个词汇Word_3亦是如此，得到{S,W}c3。这样{S,W}集合会不断缩小，元素不断减少，直至整个Input中的词汇被使用；

c)如果到其中的一个步骤，{S,W}c集合中的元素个数小于预期最小元素数量Cmin，则停止；最终返回的{S,W}c集合所对应的Para集合，作为结果。

4.如权利要求1或3所述的基于多词汇摘要的精确文档检索方法，其特征在于：所述的步骤第三，精确检索信息，将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input，检索步骤包括，无优先级的并集检索，

a)依次选择Input中的单个元素WI，在摘要集合{S,W}中寻找使得元素WI当前权重W最大的前N个元素，记作{Wi}，由此，Input中的全部元素将形成集合{S,{Wi}}；

b)将集合{S,{Wi}}按照S1＝S2，W＝W1+W2，的规则处理，让词频集合发生并操作；

5.如权利要求4所述的基于多词汇摘要的精确文档检索方法，其特征在于：所述的步骤第三，精确检索信息，将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input，检索步骤包括，无优先级的交集检索，

a)框定Input中全部集合元素为交集探索集合{Sd}；

c)如果找到了属于Sd集合的元素，且有多项，选取对应W最大的前N项，用S映射为Para集合，作为结果；

d)如果找不到属于Sd集合的元素匹配的元素，则就在{Sd}集合中去掉一项，继续在摘要集合{S,W}中，寻找能够满足Sd集合的元素，直到找到匹配的元素，且有多项，选取对应W最大的前N项，用S映射为Para集合，作为结果，并记录当前结果到一个新的元素(S,W)，将此元素插入到摘要集合{S,W}中，最终返回Sd集合指向的Para元素集合。

6.如权利要求5所述的基于多词汇摘要的精确文档检索方法，其特征在于：所述的步骤第三，精确检索信息，将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input，检索步骤包括，无优先级的差集检索，

a)Input中有两个集合：吸引力集合{belong}和排斥力集合{against}，把{belong}集合作为并集检索的Input集合，做并集处理，我们会得到摘要集合{S,W}的一个子集，记作{S,W}1；

b)把{belong}集合作为交集检索的Input集合，做交集处理，我们会得到摘要集合{S,W}的一个子集，记作{S,W}2；

c)将{S,W}1，{S,W}2集合中去除S元素在集合{against}中的部分，形成带有差量的{S,W}1，{S,W}2，记作{S,W}11，{S,W}22；

d)将{S,W}11，{S,W}22按照以下规则排序，将S同属于两个集合的元素取出，并且按照W从大到小排序，形成集合{S}h；将{S,W}11集合对{S}h集合的补集记作{S}m；将{S,W}22集合对{S}h集合的补集记作{S}l；

7.如权利要求5所述的基于多词汇摘要的精确文档检索方法，其特征在于：所述的步骤第三，精确检索信息，将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input，检索步骤包括，有优先级的递进检索，

a)设置Input中全部元素为递进检索的元素，且按照元素序号变大，其优先级变低，即序号n>m，优先级priority(N)<priority(M)，所述的优先级最大的词汇为W0，在摘要集合{S,W}，中取出以W0最高权重的元素，形成子集合{S,W}c，元素个数为Count；

b)设置递减比例因子为a，按照优先级逐渐变小的顺序，有若干词汇Wx；

c)每次都在摘要集合{S,W}c中取出权重最大的前a*count个元素，作为子集合{S,W}x，将所有Input生成的子集合{S,W}x做逻辑并操作merge，生成集合{S,W}merge；以Input中全部元素作为向量IN，在{S,W}merge中寻找包含IN中全部项目的元素，按照其权重W做排序；

d)在以Input中全部元素作为向量IN，在{S,W}merge中寻找包含IN中全部项目的元素，按照其权重W做排序的基础上，从优先级最低的Input元素开始，逐渐取出优先级低的元素，按照在以Input中全部元素作为向量IN，在{S,W}merge中寻找包含IN中全部项目的元素，按照其权重W做排序的基础上取出元素排序；其中同样长度的IN匹配的元素，按照权重排序；而不同长度IN匹配的元素，长度越长权重越高；按照权重排序或长度越长权重越高的排序规则，生成排序元素(s,w)和其指向的文档para，并形成集合{S,W,Para}o；

8.如权利要求1所述的基于多词汇摘要的精确文档检索方法，其特征在于：所述的步骤第二中的d)，所述的{S,W}矩阵变形通过高斯函数、开方函数，或者线性函数或常量变形。