CN109918496B - 一种基于多词汇摘要的精确文档检索方法 - Google Patents
一种基于多词汇摘要的精确文档检索方法 Download PDFInfo
- Publication number
- CN109918496B CN109918496B CN201910200837.3A CN201910200837A CN109918496B CN 109918496 B CN109918496 B CN 109918496B CN 201910200837 A CN201910200837 A CN 201910200837A CN 109918496 B CN109918496 B CN 109918496B
- Authority
- CN
- China
- Prior art keywords
- elements
- title
- word
- retrieval
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多词汇摘要的精确文档检索方法,步骤如下。第一,准备文章摘要;第二,生成文档摘要;第三,精确检索信息,包括递进的检索、并联检索、串联检索或/和差量检索。本发明给出任意一篇文章Para,核心词汇为Word_p,设定摘要为一个二维向量{S,W},进而文章题目分词去除介词、副词之后,形成词列表向量Title{T},文章分词之后,形成文章词组Para{P},统计全文的高频词汇,依次排开,形成高频词汇向量F{f}。本发明通过重新定义设计摘要,同时利用摘要进行递进、并集、交集、差集、的信息深度检索,并且形成可靠的排序,在复杂限定条件下,迅速找出与检索规则对应的信息文档。
Description
技术领域
本发明涉及一种基于多词汇摘要的精确文档检索方法。
背景技术
现代社会,随着信息量的爆炸式扩容,面对海量的信息资源,检索获取有效的信息,既为全面获取信息的提供了便捷,也为快速准确获取信息增加了负担。如何快速的检索到所需求的有效信息,是尤为重要的。
即使在具备摘要的情况下查询,由于摘要也是海量的,即便在有摘要的情况下,在摘要集合中检索复杂规则的文档,依旧需要较长的时间。
发明内容
本发明为解决现有技术存在的问题,提供一种基于多词汇摘要的精确文档检索方法。
本发明解决现有问题的技术方案是:一种基于多词汇摘要的精确文档检索方法,步骤如下。
第一,准备文章摘要:
a)给出任意一篇文章Para,核心词汇为Word_p,设定摘要为一个二维向量{S,W},其中S为词汇,W为摘要权重,所述的权重W为浮点数,范围设定在0~100,向量W的全部总和不超过100。
b)文章题目分词去除介词、副词之后,形成词列表向量Title{T},文章分词之后,形成文章词组Para{P}。
c)统计全文高频词汇,依次排开,形成高频词汇向量F{f}。
d)以核心词汇Word_p为基准,在文章中出现的全部Word_p词汇,向前步长Lw,记录上下文想关性词汇Wr,获得Wr的集合{Wr}。
e)通过步骤a)-d),得到集合Title{T}Para{P}F{f}{Wr},去除集合中的介词、连词、副词,以下通过向量,计算{S,W},作为之后的检索。
第二,生成文档摘要:
a)给出集合Title{T}中的所有元素,对于任意一项元素记为Title,在Para{P}中,如果Title不属于Para{P}集合,则将Title元素从Title{T}集合中删除。
b)给出集合Title{T}中的所有元素,其中任意一项元素记为Title,在F{f}中寻找该词组,如果F{f}中有词组Title,则当前Title元素设置初始权重W(Title)=Wt*frequency(F(f)),所述的frequency表示当前词汇的频率,为一个浮点数,其中Wt为全局词频权重系数。如果F{f}中没有词组Title,则W(Title)=Wt*wt,所述的wt为标准词频系数,添加元素S=Title,W=W(Title)到集合{S,W}中。
c)给出集合Title{T}中的所有元素,将任意一项元素记为Title,对应Title元素,在集合{Wr}中寻找该元素,如果Title在{Wr}中,则建立一个向量之间的相关性估计,以Title做为主要元素,以Title{T}做为基准向量,以{Wr}r={Wr|word=Title}做为核准向量,进而得到W_rela=Relationship(Title,Title{T},{Wr}r),在集合{S,W}中取出S=Title元素,获得对应W空间,记为Wo,定义Wn=Wo+W_rela*Wr,将{S,W}中对应W元素值被Wn替代。
d)将{S,W}矩阵变形,修改W的权重,形成{S,W}关键词摘要集合。
第三,精确检索信息,包括递进的检索、并联检索、串联检索或/和差量检索。
作为进一步改进,所述的步骤第一中的c)统计全文高频词汇,认定为出现次数/全文词量>rateA,依次排开,形成高频词汇向量F{f}。
作为进一步改进,所述的步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括有优先级的并集检索。
a)设定优先集合Input中任意两个元素Word_x,Word_y,如果序号x>y,认为Word_x比Word_y的优先级低,进而缩进全部的序列,保证最大化的序列中牵引信息。
b)从Word1开始,在摘要集合{S,W}中寻找使得Word1的W最大的前N个元素,作为集合{S,W}c1,以Word1、Word2为向量,在集合{S,W}c中寻找使得W最大的前N/2个元素,作为集合{S,W}c2。重复从Word1开始,在摘要集合{S,W}中寻找使得W最大的前N个元素,作为集合{S,W}c1,以Word1Word2为向量,在集合{S,W}c中寻找使得W最大的前N/2个元素,作为集合{S,W}c2。对于第三个词汇Word_3亦是如此,得到{S,W}c3。这样{S,W}集合会不断缩小,元素不断减少,直至整个Input中的词汇被使用。
c)如果到其中的一个步骤,{S,W}c集合中的元素个数小于预期最小元素数量Cmin,则停止。最终返回的{S,W}c集合所对应的Para集合,作为结果。
作为进一步改进,所述的步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括,无优先级的并集检索。
a)依次选择Input中的单个元素WI,在摘要集合{S,W}中寻找使得元素WI当前权重W最大的前N个元素,记作{Wi},由此,Input中的全部元素将形成集合{S,{Wi}}。
b)将集合{S,{Wi}}按照S1=S2,W=W1+W2,的规则处理,让词频集合发生并操作。
c)然后在集合{S,{Wi}}中,计算relaW=rever(WI,S,Wi),并选取relaW中最大的前M个数值,数值对应{S,{Wi}}中词汇元素形成子集合Sc,Sc集合所指向的para为最终结果。
作为进一步改进,所述的步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括,无优先级的交集检索。
a)框定Input中全部集合元素为交集探索集合{Sd}。
b)在摘要集合{S,W}中,寻找能够属于Sd集合的元素,找到或没有找到属于Sd集合的元素。
c)如果找到了属于Sd集合的元素,且有多项,选取对应W最大的前N项,用S映射为Para集合,作为结果。
d)如果找不到属于Sd集合的元素,则就在{Sd}集合中去掉任意一项,继续在摘要集合{S,W}中,寻找能够满足Sd集合的元素,直到找到匹配的元素,且有多项,选取对应W最大的前N项,用S映射为Para集合(初始条件下,每个核心词汇都有对应于自身的Para集合,把S作为核心词汇就可以获取对应的Para集合),作为结果,并记录当前结果到一个新的元素(S,W),将此元素插入到摘要集合{S,W}中,最终返回Sd集合指向的Para元素集合。
作为进一步改进,所述的步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括,无优先级的差集检索。
a)Input中有两个集合:吸引力集合{belong}和排斥力集合{against},把{belong}集合作为并集检索的Input集合,做并集处理,我们会得到摘要集合{S,W}的一个子集,记作{S,W}1。
b)把{belong}集合作为交集检索的Input集合,做交集处理,我们会得到摘要集合{S,W}的一个子集,记作{S,W}2。
c)将{S,W}1,{S,W}2集合中去除S元素在集合{against}中的部分,形成带有差量的{S,W}1,{S,W}2,记作{S,W}11,{S,W}22。
d)将{S,W}11,{S,W}22按照以下规则排序,将S同属于两个集合的元素取出,并且按照W从大到小排序,形成集合{S}h。将{S,W}11集合对{S}h集合的补集记作{S}m。将{S,W}22集合对{S}h集合的补集记作{S}l。
e)按照{S}h{S}m{S}l的顺序,形成一个新的集合{Ss},{Ss}集合所对应的Para形成的集合为最终检索结果。
作为进一步改进,所述的步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括,有优先级的递进检索。
a)设置Input中全部元素为递进检索的元素,且按照元素序号变大,其优先级变低,即序号n>m,优先级priority(N)<priority(M),所述的优先级最大的词汇为W0,在摘要集合{S,W},中取出以W0最高权重的元素,形成子集合{S,W}c,元素个数为Count。
b)设置递减比例因子为a,按照优先级逐渐变小的顺序,有若干词汇Wx。
c)每次都在摘要集合{S,W}c中取出权重最大的前a*count个元素,作为子集合{S,W}x,将所有Input生成的子集合{S,W}x做逻辑并操作merge,生成集合{S,W}merge;以Input中全部元素作为向量IN,在{S,W}merge中寻找包含IN中全部项目的元素,按照其权重W做排序。
d)在以Input中全部元素作为向量IN,在{S,W}merge中寻找包含IN中全部项目的元素,按照其权重W做排序的基础上,从优先级最低的Input元素开始,逐渐取出优先级低的元素,按照在以Input中全部元素作为向量IN,在{S,W}merge中寻找包含IN中全部项目的元素,按照其权重W做排序的基础上取出元素排序。其中同样长度的IN匹配的元素,按照权重排序。而不同长度IN匹配的元素,长度越长权重越高。按照权重排序或长度越长权重越高的排序规则,生成排序元素(s,w)和其指向的文档para,并形成集合{S,W,Para}o。
e)按照检索要求在集合{S,W,Para}o中取出前N个元素,作为结果。
作为进一步改进,所述的步骤第二中的d),所述的{S,W}矩阵变形通过高斯函数、开方函数,或者线性函数或常量变形。
本发明与现有技术相比较,给出任意一篇文章Para,核心词汇为Word_p,设定摘要为一个二维向量{S,W},进而文章题目分词去除介词、副词之后,形成词列表向量Title{T},文章分词之后,形成文章词组Para{P},统计全文的高频词汇,依次排开,形成高频词汇向量F{f},以核心词汇Word_p为基准,在文章的全部Word_p词汇,向前步长Lw,记录上下文想关性词汇Wr,获得Wr的集合{Wr}得到集合Title{T}Para{P}F{f}{Wr},去除集合中的介词、连词、副词,以下通过向量,计算{S,W},准备成文章摘要。将{S,W}矩阵变形,修改W的权重,形成{S,W}关键词摘要集合生成文档摘要,进一步便于通过结合相应的精确检索信息,更为快速准确的获得有效信息。其有益效果是本发明通过重新定义设计摘要,同时利用摘要进行递进、并集、交集、差集、的信息深度检索,并且形成可靠的排序,在复杂限定条件下,迅速找出与检索规则对应的信息文档。
具体实施方式
本实施案例包括步骤如下。
第一,准备文章摘要:
a)给出任意一篇文章Para,核心词汇为Word_p,设定摘要为一个二维向量{S,W},其中S为词汇,W为摘要权重,所述的权重W为浮点数,范围设定在0~100,向量W的全部总和不超过100。
b)文章题目分词去除介词、副词之后,形成词列表向量Title{T},文章分词之后,形成文章词组Para{P}。
c)统计全文高频词汇,最好认定为出现次数/全文词量>rateA依次排开,形成高频词汇向量F{f}。
d)以核心词汇Word_p为基准,在文章的全部Word_p词汇,向前步长Lw,记录上下文想关性词汇Wr,获得Wr的集合{Wr}。
e)通过步骤a)-d),得到集合Title{T}Para{P}F{f}{Wr},去除集合中的介词、连词、副词,以下通过向量,计算{S,W},作为之后的检索。
第二,生成文档摘要,
a)给出集合Title{T}中的所有元素,对于任意一项元素记为Title,在Para{P}中,如果Title不属于Para{P}集合,则将Title元素从Title{T}集合中删除。
b)给出集合Title{T}中的所有元素,其中任意一项元素记为Title,在F{f}中寻找该词组,如果F{f}中有词组Title,则当前Title元素设置初始权重W(Title)=Wt*frequency(F(f)),所述的frequency表示当前词汇的频率,为一个浮点数,其中Wt为全局词频权重系数。如果F{f}中没有词组Title,则W(Title)=Wt*wt,所述的wt为标准词频系数,添加元素S=Title,W=W(Title)到集合{S,W}中。
wt词频计算方法,适用wt是文档核心词Title并没有出现在高频词汇中的情形,此时我们统计核心词汇Title在全文中出现的个数为Count_t,然后将文档para中全部词语的数量记为Count_all,文档para中全部词语的种类数量记为Class_all,
wt=Count_t/Count_all/Class_all*Wt。
c)给出集合Title{T}中的所有元素,将任意一项元素记为Title,对应Title元素,在集合{Wr}中寻找该元素,如果Title在{Wr}中,则建立一个向量之间的相关性估计,以Title做为主要元素,以Title{T}做为基准向量,以{Wr}r={Wr|word=Title}做为核准向量,进而得到W rela=Relationship(Title,Title{T},{Wr}r),在集合{S,W}中取出S=Title元素,获得对应W空间,记为Wo,定义Wn=Wo+W_rela*Wr,将{S,W}中对应W元素值被Wn替代。Relationship相关性评估方法即通过Title{Title}{Wr}r来计算Wo的方法。{Title}中的每个元素Title,也属于{Wr}r集合,则认为当前的Title词汇在该片段中有效。集合{Title}中有效元素个数与全部元素个数的比值rate。Relationship=arctan(rate)/(pi/2),其中arctan为反正切函数,pi为圆周率。
d)将{S,W}矩阵变形,修改W的权重,形成{S,W}关键词摘要集合。{S,W}矩阵变形可通过高斯函数、开方函数,或者线性函数或常量变形。
第三,精确检索信息,包括递进即深度的检索、并联即并集检索、串联即交集检索或/和差量即差集检索。
递进(深度)的检索,如给定初始词汇元素ABC,以及一阶递进词汇EFG、二阶递进词汇HIJ,首先我们框定ABC的范围词汇,有两种评估方法:第一是认为阶数越小,内容就会越重要;第二种与之相反。每次都假定满足上一次检索的集合中,向着下一阶段进行检索。这样就会形成一个漏斗、树状的检索摘要,最后呈现结果也是通过树图的方式呈现。
给出并联(并集)检索,给出词汇A、B、C,然后设定全部包含ABC的词汇的一个词典,这时候我们有互相关的两两组合,三三组合,通过统计资料中的字频,设置为x,然后计算相关词汇之间的文章距离,得到信息y,然后,我们假定。最终,我们筛选出final值最大的项目,并且呈现出结果
给出串联(交集)检索,给出词汇A、B、C,然后我们需要寻找同时满足ABC结果的信息,但是随着信息序列长度的增加,索引过程会变得缓慢,通常也不会有任何结果。所以我们这里给定一种基于引用的检索方式,如果一段信息中的一部分与其他信息有重合,同时这些信息之间存在关联,同时这些信息形成的集合具有完备的ABC串联(同时满足),那么我们就判定这个结果是可靠的,同时输出全部与之相关的信息。
给出差量(差集)检索,给出索引词汇ABC,给出词汇CDE,我们需要找到一种方法,从信息中筛选出与ABC密切相关,但是与CDE无关联、或者有排斥倾向的的信息集合。
步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括有优先级的并集检索、无优先级的并集检索、无优先级的交集检索、无优先级的差集检索或/和有优先级的递进检索。
有优先级的并集检索:
a)设定优先集合Input中所有元素为Wx,对于任意两个元素Wx,Wy,如果x>y,认为Wx比Wy的优先级低,进而缩进全部的序列,保证最大化的序列中牵引信息。
b)从Word1开始,在摘要集合{S,W}中寻找使得Word1的W最大的前N个元素,作为集合{S,W}c1,以Word1、Word2为向量,在集合{S,W}c中寻找使得W最大的前N/2个元素,作为集合{S,W}c2。重复从Word1开始,在摘要集合{S,W}中寻找使得W最大的前N个元素,作为集合{S,W}c1,以Word1Word2为向量,在集合{S,W}c中寻找使得W最大的前N/2个元素,作为集合{S,W}c2。对于第三个词汇Word_3亦是如此,得到{S,W}c3。这样{S,W}集合会不断缩小,元素不断减少,直至整个Input中的词汇被使用。
c)如果到其中的一个步骤,{S,W}c集合中的元素个数小于预期最小元素数量Cmin,则停止。最终返回的{S,W}c集合所对应的Para集合,作为结果。
无优先级的并集检索:
a)依次选择Input中的单个元素WI,在摘要集合{S,W}中寻找使得元素WI当前权重W最大的前N个元素,记作{Wi},由此,Input中的全部元素将形成集合{S,{Wi}}。
b)将集合{S,{Wi}}按照S1=S2,W=W1+W2,的规则处理,让词频集合发生并操作。
c)然后在集合{S,{Wi}}中,计算relaW=rever(WI,S,Wi),并选取relaW中最大的前M个数值,数值对应{S,{Wi}}中词汇元素形成子集合Sc,Sc集合所指向的para为最终结果。
Rever并联相关系数,使用输入词汇WI、当前词汇S、词汇权重Wi补正最终排序词频,由于最终输出结果为抽出前N个rela最大的S,S对应的para为结果。那么在{S,{Wi}}中的Input词汇WI按照其在集合S,{Wi}}中Wi按照从大到小的顺序排列,然后调整WI对应的权重,使其依次插入{S,{Wi}}的前N个元素之间,权重等于WI前后两个元素对应的Wi的中值,从而修正{S,{Wi}}集合。
例如:N=4,{S,{Wi}}集合Wi前N个Wi对应的S为{S1,S2,S3,S4},
Input中WI在集合{S,{Wi}}按Wi从大到小排序为{WI_2,WI_4,WI_1,WI_3},那么修正后就有{S1,WI_2,S2,WI_4,S3,WI_1,S4,WI_3},这样是为了避免索引词汇在摘要中权重太低而被忽略。
无优先级的交集检索:
a)框定Input中全部集合元素为交集探索集合{Sd}。
b)在摘要集合{S,W}中,寻找能够属于Sd集合的元素,找到或没有找到属于Sd集合的元素:
c)如果找到了属于Sd集合的元素,且有多项,选取对应W最大的前N项,用S映射为Para集合,作为结果。
d)如果找不到属于Sd集合的元素匹配的元素,则就在{Sd}集合中去掉任意一项,继续在摘要集合{S,W}中,寻找能够满足Sd集合的元素,直到找到匹配的元素,且有多项,选取对应W最大的前N项,用S映射为Para集合,初始条件下,每个核心词汇都有对应于自身的Para集合,把S作为核心词汇就可以获取对应的Para集合,作为结果,并记录当前结果到一个新的元素(S,W),将此元素插入到摘要集合{S,W}中,最终返回Sd集合指向的Para元素集合。
无优先级的差集检索:
a)Input Input中有两个集合:吸引力集合{belong}和排斥力集合{against},把{belong}集合作为并集检索的Input集合,做并集处理,我们会得到摘要集合{S,W}的一个子集,记作{S,W}1。
b)把{belong}集合作为交集检索的Input集合,做交集处理,我们会得到摘要集合{S,W}的一个子集,记作{S,W}2。
c)将{S,W}1,{S,W}2集合中去除S元素在集合{against}中的部分,形成带有差量的{S,W}1,{S,W}2,记作{S,W}11,{S,W}22
d)将{S,W}11,{S,W}22按照以下规则排序,将S同属于两个集合的元素取出,并且按照W从大到小排序,形成集合{S}h。将{S,W}11集合对{S}h集合的补集记作{S}m。将{S,W}22集合对{S}h集合的补集记作{S}l。
e)按照{S}h{S}m{S}l的顺序,形成一个新的集合{Ss},{Ss}集合所对应的Para形成的集合为最终检索结果。
有优先级的递进检索:
a)设置Input中全部元素为递进检索的元素,且按照元素序号变大,其优先级变低,即序号n>m,优先级priority(N)<priority(M),所述的优先级最大的词汇为W0,在摘要集合{S,W},中取出以W0最高权重的元素,形成子集合{S,W}c,元素个数为Count。
b)设置递减比例因子为a,按照优先级逐渐变小的顺序,有若干词汇Wx。
c)每次都在摘要集合{S,W}c中取出权重最大的前a*count个元素,作为子集合{S,W}x,将所有Input生成的子集合{S,W}x做逻辑并操作merge,生成集合{S,W}merge;以Input中全部元素作为向量IN,在{S,W}merge中寻找包含IN中全部项目的元素,按照其权重W做排序。
Merge摘要的归并操作,在有优先级的递进搜索中,需要合并{S,W}c,这个集合表示了全部以中心词汇Word_p为最高权重的文档摘要集合,这些集合中必然可能出现同样的词汇,需要将同词汇的权重合并,合并规则为这些词汇权重的几何平均值Wp。本操作相当于去重操作,将相同的词汇对应的权重在进行均摊,这样多个S元素就会合并为一个元素,权值设置为Wp。这样集合{S,W}c就会简化。
d)在以Input中全部元素作为向量IN,在{S,W}merge中寻找包含IN中全部项目的元素,按照其权重W做排序的基础上,从优先级最低的Input元素开始,逐渐取出优先级低的元素,按照在以Input中全部元素作为向量IN,在{S,W}merge中寻找包含IN中全部项目的元素,按照其权重W做排序的基础上取出元素排序。其中同样长度的IN匹配的元素,按照权重排序。而不同长度IN匹配的元素,长度越长权重越高。按照权重排序或长度越长权重越高的排序规则,生成排序元素(s,w)和其指向的文档para,并形成集合{S,W,Para}o。
e)按照检索要求在集合{S,W,Para}o中取出前N个元素,作为结果。作为进一步改进,所述的步骤第二中的d),所述的{S,W}矩阵变形通过高斯函数、开方函数,或者线性函数或常量变形。
本发明中的代号注释如下:
Claims (8)
1.一种基于多词汇摘要的精确文档检索方法,其特征在于:步骤如下,
第一,准备文章摘要,
a)给出任意一篇文章Para,核心词汇为Word_p,设定摘要为一个二维向量{S,W},其中S为词汇,W为摘要权重,所述的权重W为浮点数,范围设定在0~100,向量W的全部总和不超过100;
b)文章题目分词去除介词、副词之后,形成词列表向量Title{T},文章分词之后,形成文章词组Para{P};
c)统计全文高频词汇,依次排开,形成高频词汇向量F{f};
d)以核心词汇Word_p为基准,在文章的出现的全部Word_p词汇,向前步长Lw,记录上下文相 关性词汇Wr,获得Wr的集合{Wr};
e)通过步骤a)-d),得到集合Title{T}Para{P}F{f}{Wr},去除集合中的介词、连词、副词,以下通过向量,计算{S,W},作为之后的检索;
第二,生成文档摘要,
a)给出集合Title{T}中的所有元素,对于任意一项元素记为Title,在Para{P}中,如果Title不属于Para{P}集合,则将Title元素从Title{T}集合中删除;
b)给出集合Title{T}中的所有元素,其中任意一项元素记为Title,在F{f}中寻找该词组,如果F{f}中有词组Title,则当前Title元素设置初始权重W(Title)=Wt*frequency(F(f)),所述的frequency表示当前词汇的频率,为一个浮点数,其中Wt为全局词频权重系数;如果F{f}中没有词组Title,则W(Title)=Wt*wt,所述的wt为标准词频系数,添加元素S=Title,W=W(Title)到集合{S,W}中;
c)给出集合Title{T}中的所有元素,将任意一项元素记为Title,对应Title元素,在集合{Wr}中寻找该元素,如果Title在{Wr}中,则建立一个向量之间的相关性估计,以Title做为主要元素,以Title{T}做为基准向量,以{Wr}r={Wr|word=title}做为核准向量,进而得到W_rela=relationship(title,Title{T},{Wr}r),在集合{S,W}中取出S=title元素,获得对应W空间,记为Wo,定义Wn=Wo+W_rela*Wr,将{S,W}中对应W元素值被Wn替代;
d)将{S,W}矩阵变形,修改W的权重,形成{S,W}关键词摘要集合;
第三,精确检索信息,包括递进的检索、并联检索、串联检索或/和差量检索。
2.如权利要求1所述的基于多词汇摘要的精确文档检索方法,其特征在于:所述的步骤第一中的c)统计全文高频词汇,认定为出现次数/全文词量>rateA,依次排开,形成高频词汇向量F{f}。
3.如权利要求1所述的基于多词汇摘要的精确文档检索方法,其特征在于:所述的步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括有优先级的并集检索,
a)设定优先集合Input中任意两个元素Word_x,Word_y,如果序号x>y,认为Word_x比Word_y的优先级低,进而缩进全部的序列,保证最大化的序列中牵引信息;
b)从Word1开始,在摘要集合{S,W}中寻找使得Word1的W最大的前N个元素,作为集合{S,W}c1,以Word1、Word2为向量,在集合{S,W}c中寻找使得W最大的前N/2个元素,作为集合{S,W}c2。重复从Word1开始,在摘要集合{S,W}中寻找使得W最大的前N个元素,作为集合{S,W}c1,以Word1Word2为向量,在集合{S,W}c中寻找使得W最大的前N/2个元素,作为集合{S,W}c2。对于第三个词汇Word_3亦是如此,得到{S,W}c3。这样{S,W}集合会不断缩小,元素不断减少,直至整个Input中的词汇被使用;
c)如果到其中的一个步骤,{S,W}c集合中的元素个数小于预期最小元素数量Cmin,则停止;最终返回的{S,W}c集合所对应的Para集合,作为结果。
4.如权利要求1或3所述的基于多词汇摘要的精确文档检索方法,其特征在于:所述的步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括,无优先级的并集检索,
a)依次选择Input中的单个元素WI,在摘要集合{S,W}中寻找使得元素WI当前权重W最大的前N个元素,记作{Wi},由此,Input中的全部元素将形成集合{S,{Wi}};
b)将集合{S,{Wi}}按照S1=S2,W=W1+W2,的规则处理,让词频集合发生并操作;
c)然后在集合{S,{Wi}}中,计算relaW=rever(WI,S,Wi),并选取relaW中最大的前M个数值,数值对应{S,{Wi}}中词汇元素形成子集合Sc,Sc集合所指向的para为最终结果。
5.如权利要求4所述的基于多词汇摘要的精确文档检索方法,其特征在于:所述的步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括,无优先级的交集检索,
a)框定Input中全部集合元素为交集探索集合{Sd};
b)在摘要集合{S,W}中,寻找能够属于Sd集合的元素,找到或没有找到属于Sd集合的元素:
c)如果找到了属于Sd集合的元素,且有多项,选取对应W最大的前N项,用S映射为Para集合,作为结果;
d)如果找不到属于Sd集合的元素匹配的元素,则就在{Sd}集合中去掉一项,继续在摘要集合{S,W}中,寻找能够满足Sd集合的元素,直到找到匹配的元素,且有多项,选取对应W最大的前N项,用S映射为Para集合,作为结果,并记录当前结果到一个新的元素(S,W),将此元素插入到摘要集合{S,W}中,最终返回Sd集合指向的Para元素集合。
6.如权利要求5所述的基于多词汇摘要的精确文档检索方法,其特征在于:所述的步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括,无优先级的差集检索,
a)Input中有两个集合:吸引力集合{belong}和排斥力集合{against},把{belong}集合作为并集检索的Input集合,做并集处理,我们会得到摘要集合{S,W}的一个子集,记作{S,W}1;
b)把{belong}集合作为交集检索的Input集合,做交集处理,我们会得到摘要集合{S,W}的一个子集,记作{S,W}2;
c)将{S,W}1,{S,W}2集合中去除S元素在集合{against}中的部分,形成带有差量的{S,W}1,{S,W}2,记作{S,W}11,{S,W}22;
d)将{S,W}11,{S,W}22按照以下规则排序,将S同属于两个集合的元素取出,并且按照W从大到小排序,形成集合{S}h;将{S,W}11集合对{S}h集合的补集记作{S}m;将{S,W}22集合对{S}h集合的补集记作{S}l;
e)按照{S}h{S}m{S}l的顺序,形成一个新的集合{Ss},{Ss}集合所对应的Para形成的集合为最终检索结果。
7.如权利要求5所述的基于多词汇摘要的精确文档检索方法,其特征在于:所述的步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括,有优先级的递进检索,
a)设置Input中全部元素为递进检索的元素,且按照元素序号变大,其优先级变低,即序号n>m,优先级priority(N)<priority(M),所述的优先级最大的词汇为W0,在摘要集合{S,W},中取出以W0最高权重的元素,形成子集合{S,W}c,元素个数为Count;
b)设置递减比例因子为a,按照优先级逐渐变小的顺序,有若干词汇Wx;
c)每次都在摘要集合{S,W}c中取出权重最大的前a*count个元素,作为子集合{S,W}x,将所有Input生成的子集合{S,W}x做逻辑并操作merge,生成集合{S,W}merge;以Input中全部元素作为向量IN,在{S,W}merge中寻找包含IN中全部项目的元素,按照其权重W做排序;
d)在以Input中全部元素作为向量IN,在{S,W}merge中寻找包含IN中全部项目的元素,按照其权重W做排序的基础上,从优先级最低的Input元素开始,逐渐取出优先级低的元素,按照在以Input中全部元素作为向量IN,在{S,W}merge中寻找包含IN中全部项目的元素,按照其权重W做排序的基础上取出元素排序;其中同样长度的IN匹配的元素,按照权重排序;而不同长度IN匹配的元素,长度越长权重越高;按照权重排序或长度越长权重越高的排序规则,生成排序元素(s,w)和其指向的文档para,并形成集合{S,W,Para}o;
e)按照检索要求在集合{S,W,Para}o中取出前N个元素,作为结果。
8.如权利要求1所述的基于多词汇摘要的精确文档检索方法,其特征在于:所述的步骤第二中的d),所述的{S,W}矩阵变形通过高斯函数、开方函数,或者线性函数或常量变形。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811614719 | 2018-12-27 | ||
CN2018116147199 | 2018-12-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109918496A CN109918496A (zh) | 2019-06-21 |
CN109918496B true CN109918496B (zh) | 2022-09-16 |
Family
ID=66965215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910200837.3A Active CN109918496B (zh) | 2018-12-27 | 2019-03-17 | 一种基于多词汇摘要的精确文档检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109918496B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111598526B (zh) * | 2020-04-21 | 2023-02-03 | 奇计(江苏)科技服务有限公司 | 一种针对描述科技创新内容的智能比对评审方法 |
CN112417865B (zh) * | 2020-12-02 | 2023-01-31 | 中山大学 | 一种基于文章和标题动态融合的摘要提取方法及系统 |
CN113434642B (zh) * | 2021-08-27 | 2022-01-11 | 广州云趣信息科技有限公司 | 文本摘要生成方法、装置及电子设备 |
CN116401212B (zh) * | 2023-06-07 | 2023-08-11 | 东营市第二人民医院 | 一种基于数据分析的人事文书档案快速查找系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101819578A (zh) * | 2010-01-25 | 2010-09-01 | 青岛普加智能信息有限公司 | 检索方法、索引建立方法和装置及检索系统 |
WO2012052794A1 (en) * | 2010-10-18 | 2012-04-26 | Pingar Lp | Universal search engine interface and application |
-
2019
- 2019-03-17 CN CN201910200837.3A patent/CN109918496B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101819578A (zh) * | 2010-01-25 | 2010-09-01 | 青岛普加智能信息有限公司 | 检索方法、索引建立方法和装置及检索系统 |
WO2012052794A1 (en) * | 2010-10-18 | 2012-04-26 | Pingar Lp | Universal search engine interface and application |
Non-Patent Citations (1)
Title |
---|
基于扩充词汇链改进的关键词提取算法;王小林等;《苏州科技大学学报(自然科学版)》;20170615(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109918496A (zh) | 2019-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918496B (zh) | 一种基于多词汇摘要的精确文档检索方法 | |
US6671683B2 (en) | Apparatus for retrieving similar documents and apparatus for extracting relevant keywords | |
Van Rijsbergen et al. | Document clustering: An evaluation of some experiments with the Cranfield 1400 collection | |
CN101359331B (zh) | 对搜索结果重新排序的方法和系统 | |
US8341159B2 (en) | Creating taxonomies and training data for document categorization | |
JP5746426B2 (ja) | インデックスドキュメントの発見 | |
CN111868710B (zh) | 搜索大规模非结构化数据的随机提取森林索引结构 | |
US20020002550A1 (en) | Process for enabling flexible and fast content-based retrieval | |
US20070073759A1 (en) | Methods and systems for joining database tables using indexing data structures | |
US8346800B2 (en) | Content-based information retrieval | |
KR20080031262A (ko) | 관계 네트워크 | |
EP2631815A1 (en) | Method and device for ordering search results, method and device for providing information | |
US8090720B2 (en) | Method for merging document clusters | |
CN111026710A (zh) | 一种数据集的检索方法及系统 | |
CN110019637B (zh) | 一种标准文献检索的排序算法 | |
JP4215386B2 (ja) | 類似オブジェクト検索方法及び類似オブジェクト検索装置 | |
Veretennikov | Using additional indexes for fast full-text search of phrases that contain frequently used words | |
US6038557A (en) | Method and apparatus for almost-constant-time clustering of arbitrary corpus subsets | |
CN114996552A (zh) | 一种数据获取方法及终端 | |
CN111209378B (zh) | 一种基于业务字典权重的有序分级排序方法 | |
US20180225291A1 (en) | Identifying Documents | |
KR102081867B1 (ko) | 역 색인 구성 방법, 역 색인을 이용한 유사 데이터 검색 방법 및 장치 | |
CN112464639A (zh) | 一种搜索文本折叠处理系统及其方法 | |
CN112199461A (zh) | 基于块索引结构的文档检索方法、装置、介质和设备 | |
CN116680418B (zh) | 一种基于知识图谱的大数据检索方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |