CN109918496B - 一种基于多词汇摘要的精确文档检索方法 - Google Patents

一种基于多词汇摘要的精确文档检索方法 Download PDF

Info

Publication number
CN109918496B
CN109918496B CN201910200837.3A CN201910200837A CN109918496B CN 109918496 B CN109918496 B CN 109918496B CN 201910200837 A CN201910200837 A CN 201910200837A CN 109918496 B CN109918496 B CN 109918496B
Authority
CN
China
Prior art keywords
elements
title
word
retrieval
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910200837.3A
Other languages
English (en)
Other versions
CN109918496A (zh
Inventor
周元海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Huanxing Intelligent Technology Co ltd
Original Assignee
Hangzhou Huanxing Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Huanxing Intelligent Technology Co ltd filed Critical Hangzhou Huanxing Intelligent Technology Co ltd
Publication of CN109918496A publication Critical patent/CN109918496A/zh
Application granted granted Critical
Publication of CN109918496B publication Critical patent/CN109918496B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多词汇摘要的精确文档检索方法,步骤如下。第一,准备文章摘要;第二,生成文档摘要;第三,精确检索信息,包括递进的检索、并联检索、串联检索或/和差量检索。本发明给出任意一篇文章Para,核心词汇为Word_p,设定摘要为一个二维向量{S,W},进而文章题目分词去除介词、副词之后,形成词列表向量Title{T},文章分词之后,形成文章词组Para{P},统计全文的高频词汇,依次排开,形成高频词汇向量F{f}。本发明通过重新定义设计摘要,同时利用摘要进行递进、并集、交集、差集、的信息深度检索,并且形成可靠的排序,在复杂限定条件下,迅速找出与检索规则对应的信息文档。

Description

一种基于多词汇摘要的精确文档检索方法
技术领域
本发明涉及一种基于多词汇摘要的精确文档检索方法。
背景技术
现代社会,随着信息量的爆炸式扩容,面对海量的信息资源,检索获取有效的信息,既为全面获取信息的提供了便捷,也为快速准确获取信息增加了负担。如何快速的检索到所需求的有效信息,是尤为重要的。
即使在具备摘要的情况下查询,由于摘要也是海量的,即便在有摘要的情况下,在摘要集合中检索复杂规则的文档,依旧需要较长的时间。
发明内容
本发明为解决现有技术存在的问题,提供一种基于多词汇摘要的精确文档检索方法。
本发明解决现有问题的技术方案是:一种基于多词汇摘要的精确文档检索方法,步骤如下。
第一,准备文章摘要:
a)给出任意一篇文章Para,核心词汇为Word_p,设定摘要为一个二维向量{S,W},其中S为词汇,W为摘要权重,所述的权重W为浮点数,范围设定在0~100,向量W的全部总和不超过100。
b)文章题目分词去除介词、副词之后,形成词列表向量Title{T},文章分词之后,形成文章词组Para{P}。
c)统计全文高频词汇,依次排开,形成高频词汇向量F{f}。
d)以核心词汇Word_p为基准,在文章中出现的全部Word_p词汇,向前步长Lw,记录上下文想关性词汇Wr,获得Wr的集合{Wr}。
e)通过步骤a)-d),得到集合Title{T}Para{P}F{f}{Wr},去除集合中的介词、连词、副词,以下通过向量,计算{S,W},作为之后的检索。
第二,生成文档摘要:
a)给出集合Title{T}中的所有元素,对于任意一项元素记为Title,在Para{P}中,如果Title不属于Para{P}集合,则将Title元素从Title{T}集合中删除。
b)给出集合Title{T}中的所有元素,其中任意一项元素记为Title,在F{f}中寻找该词组,如果F{f}中有词组Title,则当前Title元素设置初始权重W(Title)=Wt*frequency(F(f)),所述的frequency表示当前词汇的频率,为一个浮点数,其中Wt为全局词频权重系数。如果F{f}中没有词组Title,则W(Title)=Wt*wt,所述的wt为标准词频系数,添加元素S=Title,W=W(Title)到集合{S,W}中。
c)给出集合Title{T}中的所有元素,将任意一项元素记为Title,对应Title元素,在集合{Wr}中寻找该元素,如果Title在{Wr}中,则建立一个向量之间的相关性估计,以Title做为主要元素,以Title{T}做为基准向量,以{Wr}r={Wr|word=Title}做为核准向量,进而得到W_rela=Relationship(Title,Title{T},{Wr}r),在集合{S,W}中取出S=Title元素,获得对应W空间,记为Wo,定义Wn=Wo+W_rela*Wr,将{S,W}中对应W元素值被Wn替代。
d)将{S,W}矩阵变形,修改W的权重,形成{S,W}关键词摘要集合。
第三,精确检索信息,包括递进的检索、并联检索、串联检索或/和差量检索。
作为进一步改进,所述的步骤第一中的c)统计全文高频词汇,认定为出现次数/全文词量>rateA,依次排开,形成高频词汇向量F{f}。
作为进一步改进,所述的步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括有优先级的并集检索。
a)设定优先集合Input中任意两个元素Word_x,Word_y,如果序号x>y,认为Word_x比Word_y的优先级低,进而缩进全部的序列,保证最大化的序列中牵引信息。
b)从Word1开始,在摘要集合{S,W}中寻找使得Word1的W最大的前N个元素,作为集合{S,W}c1,以Word1、Word2为向量,在集合{S,W}c中寻找使得W最大的前N/2个元素,作为集合{S,W}c2。重复从Word1开始,在摘要集合{S,W}中寻找使得W最大的前N个元素,作为集合{S,W}c1,以Word1Word2为向量,在集合{S,W}c中寻找使得W最大的前N/2个元素,作为集合{S,W}c2。对于第三个词汇Word_3亦是如此,得到{S,W}c3。这样{S,W}集合会不断缩小,元素不断减少,直至整个Input中的词汇被使用。
c)如果到其中的一个步骤,{S,W}c集合中的元素个数小于预期最小元素数量Cmin,则停止。最终返回的{S,W}c集合所对应的Para集合,作为结果。
作为进一步改进,所述的步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括,无优先级的并集检索。
a)依次选择Input中的单个元素WI,在摘要集合{S,W}中寻找使得元素WI当前权重W最大的前N个元素,记作{Wi},由此,Input中的全部元素将形成集合{S,{Wi}}。
b)将集合{S,{Wi}}按照S1=S2,W=W1+W2,的规则处理,让词频集合发生并操作。
c)然后在集合{S,{Wi}}中,计算relaW=rever(WI,S,Wi),并选取relaW中最大的前M个数值,数值对应{S,{Wi}}中词汇元素形成子集合Sc,Sc集合所指向的para为最终结果。
作为进一步改进,所述的步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括,无优先级的交集检索。
a)框定Input中全部集合元素为交集探索集合{Sd}。
b)在摘要集合{S,W}中,寻找能够属于Sd集合的元素,找到或没有找到属于Sd集合的元素。
c)如果找到了属于Sd集合的元素,且有多项,选取对应W最大的前N项,用S映射为Para集合,作为结果。
d)如果找不到属于Sd集合的元素,则就在{Sd}集合中去掉任意一项,继续在摘要集合{S,W}中,寻找能够满足Sd集合的元素,直到找到匹配的元素,且有多项,选取对应W最大的前N项,用S映射为Para集合(初始条件下,每个核心词汇都有对应于自身的Para集合,把S作为核心词汇就可以获取对应的Para集合),作为结果,并记录当前结果到一个新的元素(S,W),将此元素插入到摘要集合{S,W}中,最终返回Sd集合指向的Para元素集合。
作为进一步改进,所述的步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括,无优先级的差集检索。
a)Input中有两个集合:吸引力集合{belong}和排斥力集合{against},把{belong}集合作为并集检索的Input集合,做并集处理,我们会得到摘要集合{S,W}的一个子集,记作{S,W}1。
b)把{belong}集合作为交集检索的Input集合,做交集处理,我们会得到摘要集合{S,W}的一个子集,记作{S,W}2。
c)将{S,W}1,{S,W}2集合中去除S元素在集合{against}中的部分,形成带有差量的{S,W}1,{S,W}2,记作{S,W}11,{S,W}22。
d)将{S,W}11,{S,W}22按照以下规则排序,将S同属于两个集合的元素取出,并且按照W从大到小排序,形成集合{S}h。将{S,W}11集合对{S}h集合的补集记作{S}m。将{S,W}22集合对{S}h集合的补集记作{S}l。
e)按照{S}h{S}m{S}l的顺序,形成一个新的集合{Ss},{Ss}集合所对应的Para形成的集合为最终检索结果。
作为进一步改进,所述的步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括,有优先级的递进检索。
a)设置Input中全部元素为递进检索的元素,且按照元素序号变大,其优先级变低,即序号n>m,优先级priority(N)<priority(M),所述的优先级最大的词汇为W0,在摘要集合{S,W},中取出以W0最高权重的元素,形成子集合{S,W}c,元素个数为Count。
b)设置递减比例因子为a,按照优先级逐渐变小的顺序,有若干词汇Wx。
c)每次都在摘要集合{S,W}c中取出权重最大的前a*count个元素,作为子集合{S,W}x,将所有Input生成的子集合{S,W}x做逻辑并操作merge,生成集合{S,W}merge;以Input中全部元素作为向量IN,在{S,W}merge中寻找包含IN中全部项目的元素,按照其权重W做排序。
d)在以Input中全部元素作为向量IN,在{S,W}merge中寻找包含IN中全部项目的元素,按照其权重W做排序的基础上,从优先级最低的Input元素开始,逐渐取出优先级低的元素,按照在以Input中全部元素作为向量IN,在{S,W}merge中寻找包含IN中全部项目的元素,按照其权重W做排序的基础上取出元素排序。其中同样长度的IN匹配的元素,按照权重排序。而不同长度IN匹配的元素,长度越长权重越高。按照权重排序或长度越长权重越高的排序规则,生成排序元素(s,w)和其指向的文档para,并形成集合{S,W,Para}o。
e)按照检索要求在集合{S,W,Para}o中取出前N个元素,作为结果。
作为进一步改进,所述的步骤第二中的d),所述的{S,W}矩阵变形通过高斯函数、开方函数,或者线性函数或常量变形。
本发明与现有技术相比较,给出任意一篇文章Para,核心词汇为Word_p,设定摘要为一个二维向量{S,W},进而文章题目分词去除介词、副词之后,形成词列表向量Title{T},文章分词之后,形成文章词组Para{P},统计全文的高频词汇,依次排开,形成高频词汇向量F{f},以核心词汇Word_p为基准,在文章的全部Word_p词汇,向前步长Lw,记录上下文想关性词汇Wr,获得Wr的集合{Wr}得到集合Title{T}Para{P}F{f}{Wr},去除集合中的介词、连词、副词,以下通过向量,计算{S,W},准备成文章摘要。将{S,W}矩阵变形,修改W的权重,形成{S,W}关键词摘要集合生成文档摘要,进一步便于通过结合相应的精确检索信息,更为快速准确的获得有效信息。其有益效果是本发明通过重新定义设计摘要,同时利用摘要进行递进、并集、交集、差集、的信息深度检索,并且形成可靠的排序,在复杂限定条件下,迅速找出与检索规则对应的信息文档。
具体实施方式
本实施案例包括步骤如下。
第一,准备文章摘要:
a)给出任意一篇文章Para,核心词汇为Word_p,设定摘要为一个二维向量{S,W},其中S为词汇,W为摘要权重,所述的权重W为浮点数,范围设定在0~100,向量W的全部总和不超过100。
b)文章题目分词去除介词、副词之后,形成词列表向量Title{T},文章分词之后,形成文章词组Para{P}。
c)统计全文高频词汇,最好认定为出现次数/全文词量>rateA依次排开,形成高频词汇向量F{f}。
d)以核心词汇Word_p为基准,在文章的全部Word_p词汇,向前步长Lw,记录上下文想关性词汇Wr,获得Wr的集合{Wr}。
e)通过步骤a)-d),得到集合Title{T}Para{P}F{f}{Wr},去除集合中的介词、连词、副词,以下通过向量,计算{S,W},作为之后的检索。
第二,生成文档摘要,
a)给出集合Title{T}中的所有元素,对于任意一项元素记为Title,在Para{P}中,如果Title不属于Para{P}集合,则将Title元素从Title{T}集合中删除。
b)给出集合Title{T}中的所有元素,其中任意一项元素记为Title,在F{f}中寻找该词组,如果F{f}中有词组Title,则当前Title元素设置初始权重W(Title)=Wt*frequency(F(f)),所述的frequency表示当前词汇的频率,为一个浮点数,其中Wt为全局词频权重系数。如果F{f}中没有词组Title,则W(Title)=Wt*wt,所述的wt为标准词频系数,添加元素S=Title,W=W(Title)到集合{S,W}中。
wt词频计算方法,适用wt是文档核心词Title并没有出现在高频词汇中的情形,此时我们统计核心词汇Title在全文中出现的个数为Count_t,然后将文档para中全部词语的数量记为Count_all,文档para中全部词语的种类数量记为Class_all,
wt=Count_t/Count_all/Class_all*Wt。
c)给出集合Title{T}中的所有元素,将任意一项元素记为Title,对应Title元素,在集合{Wr}中寻找该元素,如果Title在{Wr}中,则建立一个向量之间的相关性估计,以Title做为主要元素,以Title{T}做为基准向量,以{Wr}r={Wr|word=Title}做为核准向量,进而得到W rela=Relationship(Title,Title{T},{Wr}r),在集合{S,W}中取出S=Title元素,获得对应W空间,记为Wo,定义Wn=Wo+W_rela*Wr,将{S,W}中对应W元素值被Wn替代。Relationship相关性评估方法即通过Title{Title}{Wr}r来计算Wo的方法。{Title}中的每个元素Title,也属于{Wr}r集合,则认为当前的Title词汇在该片段中有效。集合{Title}中有效元素个数与全部元素个数的比值rate。Relationship=arctan(rate)/(pi/2),其中arctan为反正切函数,pi为圆周率。
d)将{S,W}矩阵变形,修改W的权重,形成{S,W}关键词摘要集合。{S,W}矩阵变形可通过高斯函数、开方函数,或者线性函数或常量变形。
第三,精确检索信息,包括递进即深度的检索、并联即并集检索、串联即交集检索或/和差量即差集检索。
递进(深度)的检索,如给定初始词汇元素ABC,以及一阶递进词汇EFG、二阶递进词汇HIJ,首先我们框定ABC的范围词汇,有两种评估方法:第一是认为阶数越小,内容就会越重要;第二种与之相反。每次都假定满足上一次检索的集合中,向着下一阶段进行检索。这样就会形成一个漏斗、树状的检索摘要,最后呈现结果也是通过树图的方式呈现。
给出并联(并集)检索,给出词汇A、B、C,然后设定全部包含ABC的词汇的一个词典,这时候我们有互相关的两两组合,三三组合,通过统计资料中的字频,设置为x,然后计算相关词汇之间的文章距离,得到信息y,然后,我们假定。最终,我们筛选出final值最大的项目,并且呈现出结果
给出串联(交集)检索,给出词汇A、B、C,然后我们需要寻找同时满足ABC结果的信息,但是随着信息序列长度的增加,索引过程会变得缓慢,通常也不会有任何结果。所以我们这里给定一种基于引用的检索方式,如果一段信息中的一部分与其他信息有重合,同时这些信息之间存在关联,同时这些信息形成的集合具有完备的ABC串联(同时满足),那么我们就判定这个结果是可靠的,同时输出全部与之相关的信息。
给出差量(差集)检索,给出索引词汇ABC,给出词汇CDE,我们需要找到一种方法,从信息中筛选出与ABC密切相关,但是与CDE无关联、或者有排斥倾向的的信息集合。
步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括有优先级的并集检索、无优先级的并集检索、无优先级的交集检索、无优先级的差集检索或/和有优先级的递进检索。
有优先级的并集检索:
a)设定优先集合Input中所有元素为Wx,对于任意两个元素Wx,Wy,如果x>y,认为Wx比Wy的优先级低,进而缩进全部的序列,保证最大化的序列中牵引信息。
b)从Word1开始,在摘要集合{S,W}中寻找使得Word1的W最大的前N个元素,作为集合{S,W}c1,以Word1、Word2为向量,在集合{S,W}c中寻找使得W最大的前N/2个元素,作为集合{S,W}c2。重复从Word1开始,在摘要集合{S,W}中寻找使得W最大的前N个元素,作为集合{S,W}c1,以Word1Word2为向量,在集合{S,W}c中寻找使得W最大的前N/2个元素,作为集合{S,W}c2。对于第三个词汇Word_3亦是如此,得到{S,W}c3。这样{S,W}集合会不断缩小,元素不断减少,直至整个Input中的词汇被使用。
c)如果到其中的一个步骤,{S,W}c集合中的元素个数小于预期最小元素数量Cmin,则停止。最终返回的{S,W}c集合所对应的Para集合,作为结果。
无优先级的并集检索:
a)依次选择Input中的单个元素WI,在摘要集合{S,W}中寻找使得元素WI当前权重W最大的前N个元素,记作{Wi},由此,Input中的全部元素将形成集合{S,{Wi}}。
b)将集合{S,{Wi}}按照S1=S2,W=W1+W2,的规则处理,让词频集合发生并操作。
c)然后在集合{S,{Wi}}中,计算relaW=rever(WI,S,Wi),并选取relaW中最大的前M个数值,数值对应{S,{Wi}}中词汇元素形成子集合Sc,Sc集合所指向的para为最终结果。
Rever并联相关系数,使用输入词汇WI、当前词汇S、词汇权重Wi补正最终排序词频,由于最终输出结果为抽出前N个rela最大的S,S对应的para为结果。那么在{S,{Wi}}中的Input词汇WI按照其在集合S,{Wi}}中Wi按照从大到小的顺序排列,然后调整WI对应的权重,使其依次插入{S,{Wi}}的前N个元素之间,权重等于WI前后两个元素对应的Wi的中值,从而修正{S,{Wi}}集合。
例如:N=4,{S,{Wi}}集合Wi前N个Wi对应的S为{S1,S2,S3,S4},
Input中WI在集合{S,{Wi}}按Wi从大到小排序为{WI_2,WI_4,WI_1,WI_3},那么修正后就有{S1,WI_2,S2,WI_4,S3,WI_1,S4,WI_3},这样是为了避免索引词汇在摘要中权重太低而被忽略。
无优先级的交集检索:
a)框定Input中全部集合元素为交集探索集合{Sd}。
b)在摘要集合{S,W}中,寻找能够属于Sd集合的元素,找到或没有找到属于Sd集合的元素:
c)如果找到了属于Sd集合的元素,且有多项,选取对应W最大的前N项,用S映射为Para集合,作为结果。
d)如果找不到属于Sd集合的元素匹配的元素,则就在{Sd}集合中去掉任意一项,继续在摘要集合{S,W}中,寻找能够满足Sd集合的元素,直到找到匹配的元素,且有多项,选取对应W最大的前N项,用S映射为Para集合,初始条件下,每个核心词汇都有对应于自身的Para集合,把S作为核心词汇就可以获取对应的Para集合,作为结果,并记录当前结果到一个新的元素(S,W),将此元素插入到摘要集合{S,W}中,最终返回Sd集合指向的Para元素集合。
无优先级的差集检索:
a)Input Input中有两个集合:吸引力集合{belong}和排斥力集合{against},把{belong}集合作为并集检索的Input集合,做并集处理,我们会得到摘要集合{S,W}的一个子集,记作{S,W}1。
b)把{belong}集合作为交集检索的Input集合,做交集处理,我们会得到摘要集合{S,W}的一个子集,记作{S,W}2。
c)将{S,W}1,{S,W}2集合中去除S元素在集合{against}中的部分,形成带有差量的{S,W}1,{S,W}2,记作{S,W}11,{S,W}22
d)将{S,W}11,{S,W}22按照以下规则排序,将S同属于两个集合的元素取出,并且按照W从大到小排序,形成集合{S}h。将{S,W}11集合对{S}h集合的补集记作{S}m。将{S,W}22集合对{S}h集合的补集记作{S}l。
e)按照{S}h{S}m{S}l的顺序,形成一个新的集合{Ss},{Ss}集合所对应的Para形成的集合为最终检索结果。
有优先级的递进检索:
a)设置Input中全部元素为递进检索的元素,且按照元素序号变大,其优先级变低,即序号n>m,优先级priority(N)<priority(M),所述的优先级最大的词汇为W0,在摘要集合{S,W},中取出以W0最高权重的元素,形成子集合{S,W}c,元素个数为Count。
b)设置递减比例因子为a,按照优先级逐渐变小的顺序,有若干词汇Wx。
c)每次都在摘要集合{S,W}c中取出权重最大的前a*count个元素,作为子集合{S,W}x,将所有Input生成的子集合{S,W}x做逻辑并操作merge,生成集合{S,W}merge;以Input中全部元素作为向量IN,在{S,W}merge中寻找包含IN中全部项目的元素,按照其权重W做排序。
Merge摘要的归并操作,在有优先级的递进搜索中,需要合并{S,W}c,这个集合表示了全部以中心词汇Word_p为最高权重的文档摘要集合,这些集合中必然可能出现同样的词汇,需要将同词汇的权重合并,合并规则为这些词汇权重的几何平均值Wp。本操作相当于去重操作,将相同的词汇对应的权重在进行均摊,这样多个S元素就会合并为一个元素,权值设置为Wp。这样集合{S,W}c就会简化。
d)在以Input中全部元素作为向量IN,在{S,W}merge中寻找包含IN中全部项目的元素,按照其权重W做排序的基础上,从优先级最低的Input元素开始,逐渐取出优先级低的元素,按照在以Input中全部元素作为向量IN,在{S,W}merge中寻找包含IN中全部项目的元素,按照其权重W做排序的基础上取出元素排序。其中同样长度的IN匹配的元素,按照权重排序。而不同长度IN匹配的元素,长度越长权重越高。按照权重排序或长度越长权重越高的排序规则,生成排序元素(s,w)和其指向的文档para,并形成集合{S,W,Para}o。
e)按照检索要求在集合{S,W,Para}o中取出前N个元素,作为结果。作为进一步改进,所述的步骤第二中的d),所述的{S,W}矩阵变形通过高斯函数、开方函数,或者线性函数或常量变形。
本发明中的代号注释如下:
Figure BDA0001997395960000101
Figure BDA0001997395960000111
Figure BDA0001997395960000121
Figure BDA0001997395960000131

Claims (8)

1.一种基于多词汇摘要的精确文档检索方法,其特征在于:步骤如下,
第一,准备文章摘要,
a)给出任意一篇文章Para,核心词汇为Word_p,设定摘要为一个二维向量{S,W},其中S为词汇,W为摘要权重,所述的权重W为浮点数,范围设定在0~100,向量W的全部总和不超过100;
b)文章题目分词去除介词、副词之后,形成词列表向量Title{T},文章分词之后,形成文章词组Para{P};
c)统计全文高频词汇,依次排开,形成高频词汇向量F{f};
d)以核心词汇Word_p为基准,在文章的出现的全部Word_p词汇,向前步长Lw,记录上下文相 关性词汇Wr,获得Wr的集合{Wr};
e)通过步骤a)-d),得到集合Title{T}Para{P}F{f}{Wr},去除集合中的介词、连词、副词,以下通过向量,计算{S,W},作为之后的检索;
第二,生成文档摘要,
a)给出集合Title{T}中的所有元素,对于任意一项元素记为Title,在Para{P}中,如果Title不属于Para{P}集合,则将Title元素从Title{T}集合中删除;
b)给出集合Title{T}中的所有元素,其中任意一项元素记为Title,在F{f}中寻找该词组,如果F{f}中有词组Title,则当前Title元素设置初始权重W(Title)=Wt*frequency(F(f)),所述的frequency表示当前词汇的频率,为一个浮点数,其中Wt为全局词频权重系数;如果F{f}中没有词组Title,则W(Title)=Wt*wt,所述的wt为标准词频系数,添加元素S=Title,W=W(Title)到集合{S,W}中;
c)给出集合Title{T}中的所有元素,将任意一项元素记为Title,对应Title元素,在集合{Wr}中寻找该元素,如果Title在{Wr}中,则建立一个向量之间的相关性估计,以Title做为主要元素,以Title{T}做为基准向量,以{Wr}r={Wr|word=title}做为核准向量,进而得到W_rela=relationship(title,Title{T},{Wr}r),在集合{S,W}中取出S=title元素,获得对应W空间,记为Wo,定义Wn=Wo+W_rela*Wr,将{S,W}中对应W元素值被Wn替代;
d)将{S,W}矩阵变形,修改W的权重,形成{S,W}关键词摘要集合;
第三,精确检索信息,包括递进的检索、并联检索、串联检索或/和差量检索。
2.如权利要求1所述的基于多词汇摘要的精确文档检索方法,其特征在于:所述的步骤第一中的c)统计全文高频词汇,认定为出现次数/全文词量>rateA,依次排开,形成高频词汇向量F{f}。
3.如权利要求1所述的基于多词汇摘要的精确文档检索方法,其特征在于:所述的步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括有优先级的并集检索,
a)设定优先集合Input中任意两个元素Word_x,Word_y,如果序号x>y,认为Word_x比Word_y的优先级低,进而缩进全部的序列,保证最大化的序列中牵引信息;
b)从Word1开始,在摘要集合{S,W}中寻找使得Word1的W最大的前N个元素,作为集合{S,W}c1,以Word1、Word2为向量,在集合{S,W}c中寻找使得W最大的前N/2个元素,作为集合{S,W}c2。重复从Word1开始,在摘要集合{S,W}中寻找使得W最大的前N个元素,作为集合{S,W}c1,以Word1Word2为向量,在集合{S,W}c中寻找使得W最大的前N/2个元素,作为集合{S,W}c2。对于第三个词汇Word_3亦是如此,得到{S,W}c3。这样{S,W}集合会不断缩小,元素不断减少,直至整个Input中的词汇被使用;
c)如果到其中的一个步骤,{S,W}c集合中的元素个数小于预期最小元素数量Cmin,则停止;最终返回的{S,W}c集合所对应的Para集合,作为结果。
4.如权利要求1或3所述的基于多词汇摘要的精确文档检索方法,其特征在于:所述的步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括,无优先级的并集检索,
a)依次选择Input中的单个元素WI,在摘要集合{S,W}中寻找使得元素WI当前权重W最大的前N个元素,记作{Wi},由此,Input中的全部元素将形成集合{S,{Wi}};
b)将集合{S,{Wi}}按照S1=S2,W=W1+W2,的规则处理,让词频集合发生并操作;
c)然后在集合{S,{Wi}}中,计算relaW=rever(WI,S,Wi),并选取relaW中最大的前M个数值,数值对应{S,{Wi}}中词汇元素形成子集合Sc,Sc集合所指向的para为最终结果。
5.如权利要求4所述的基于多词汇摘要的精确文档检索方法,其特征在于:所述的步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括,无优先级的交集检索,
a)框定Input中全部集合元素为交集探索集合{Sd};
b)在摘要集合{S,W}中,寻找能够属于Sd集合的元素,找到或没有找到属于Sd集合的元素:
c)如果找到了属于Sd集合的元素,且有多项,选取对应W最大的前N项,用S映射为Para集合,作为结果;
d)如果找不到属于Sd集合的元素匹配的元素,则就在{Sd}集合中去掉一项,继续在摘要集合{S,W}中,寻找能够满足Sd集合的元素,直到找到匹配的元素,且有多项,选取对应W最大的前N项,用S映射为Para集合,作为结果,并记录当前结果到一个新的元素(S,W),将此元素插入到摘要集合{S,W}中,最终返回Sd集合指向的Para元素集合。
6.如权利要求5所述的基于多词汇摘要的精确文档检索方法,其特征在于:所述的步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括,无优先级的差集检索,
a)Input中有两个集合:吸引力集合{belong}和排斥力集合{against},把{belong}集合作为并集检索的Input集合,做并集处理,我们会得到摘要集合{S,W}的一个子集,记作{S,W}1;
b)把{belong}集合作为交集检索的Input集合,做交集处理,我们会得到摘要集合{S,W}的一个子集,记作{S,W}2;
c)将{S,W}1,{S,W}2集合中去除S元素在集合{against}中的部分,形成带有差量的{S,W}1,{S,W}2,记作{S,W}11,{S,W}22;
d)将{S,W}11,{S,W}22按照以下规则排序,将S同属于两个集合的元素取出,并且按照W从大到小排序,形成集合{S}h;将{S,W}11集合对{S}h集合的补集记作{S}m;将{S,W}22集合对{S}h集合的补集记作{S}l;
e)按照{S}h{S}m{S}l的顺序,形成一个新的集合{Ss},{Ss}集合所对应的Para形成的集合为最终检索结果。
7.如权利要求5所述的基于多词汇摘要的精确文档检索方法,其特征在于:所述的步骤第三,精确检索信息,将具有唯一的输入集合{Word1,Word2,Word3,…,Word4}设置为Input,检索步骤包括,有优先级的递进检索,
a)设置Input中全部元素为递进检索的元素,且按照元素序号变大,其优先级变低,即序号n>m,优先级priority(N)<priority(M),所述的优先级最大的词汇为W0,在摘要集合{S,W},中取出以W0最高权重的元素,形成子集合{S,W}c,元素个数为Count;
b)设置递减比例因子为a,按照优先级逐渐变小的顺序,有若干词汇Wx;
c)每次都在摘要集合{S,W}c中取出权重最大的前a*count个元素,作为子集合{S,W}x,将所有Input生成的子集合{S,W}x做逻辑并操作merge,生成集合{S,W}merge;以Input中全部元素作为向量IN,在{S,W}merge中寻找包含IN中全部项目的元素,按照其权重W做排序;
d)在以Input中全部元素作为向量IN,在{S,W}merge中寻找包含IN中全部项目的元素,按照其权重W做排序的基础上,从优先级最低的Input元素开始,逐渐取出优先级低的元素,按照在以Input中全部元素作为向量IN,在{S,W}merge中寻找包含IN中全部项目的元素,按照其权重W做排序的基础上取出元素排序;其中同样长度的IN匹配的元素,按照权重排序;而不同长度IN匹配的元素,长度越长权重越高;按照权重排序或长度越长权重越高的排序规则,生成排序元素(s,w)和其指向的文档para,并形成集合{S,W,Para}o;
e)按照检索要求在集合{S,W,Para}o中取出前N个元素,作为结果。
8.如权利要求1所述的基于多词汇摘要的精确文档检索方法,其特征在于:所述的步骤第二中的d),所述的{S,W}矩阵变形通过高斯函数、开方函数,或者线性函数或常量变形。
CN201910200837.3A 2018-12-27 2019-03-17 一种基于多词汇摘要的精确文档检索方法 Active CN109918496B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811614719 2018-12-27
CN2018116147199 2018-12-27

Publications (2)

Publication Number Publication Date
CN109918496A CN109918496A (zh) 2019-06-21
CN109918496B true CN109918496B (zh) 2022-09-16

Family

ID=66965215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910200837.3A Active CN109918496B (zh) 2018-12-27 2019-03-17 一种基于多词汇摘要的精确文档检索方法

Country Status (1)

Country Link
CN (1) CN109918496B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598526B (zh) * 2020-04-21 2023-02-03 奇计(江苏)科技服务有限公司 一种针对描述科技创新内容的智能比对评审方法
CN112417865B (zh) * 2020-12-02 2023-01-31 中山大学 一种基于文章和标题动态融合的摘要提取方法及系统
CN113434642B (zh) * 2021-08-27 2022-01-11 广州云趣信息科技有限公司 文本摘要生成方法、装置及电子设备
CN116401212B (zh) * 2023-06-07 2023-08-11 东营市第二人民医院 一种基于数据分析的人事文书档案快速查找系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819578A (zh) * 2010-01-25 2010-09-01 青岛普加智能信息有限公司 检索方法、索引建立方法和装置及检索系统
WO2012052794A1 (en) * 2010-10-18 2012-04-26 Pingar Lp Universal search engine interface and application

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819578A (zh) * 2010-01-25 2010-09-01 青岛普加智能信息有限公司 检索方法、索引建立方法和装置及检索系统
WO2012052794A1 (en) * 2010-10-18 2012-04-26 Pingar Lp Universal search engine interface and application

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于扩充词汇链改进的关键词提取算法;王小林等;《苏州科技大学学报(自然科学版)》;20170615(第02期);全文 *

Also Published As

Publication number Publication date
CN109918496A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN109918496B (zh) 一种基于多词汇摘要的精确文档检索方法
US6671683B2 (en) Apparatus for retrieving similar documents and apparatus for extracting relevant keywords
Van Rijsbergen et al. Document clustering: An evaluation of some experiments with the Cranfield 1400 collection
CN101359331B (zh) 对搜索结果重新排序的方法和系统
US8341159B2 (en) Creating taxonomies and training data for document categorization
JP5746426B2 (ja) インデックスドキュメントの発見
CN111868710B (zh) 搜索大规模非结构化数据的随机提取森林索引结构
US20020002550A1 (en) Process for enabling flexible and fast content-based retrieval
US20070073759A1 (en) Methods and systems for joining database tables using indexing data structures
US8346800B2 (en) Content-based information retrieval
KR20080031262A (ko) 관계 네트워크
EP2631815A1 (en) Method and device for ordering search results, method and device for providing information
US8090720B2 (en) Method for merging document clusters
CN111026710A (zh) 一种数据集的检索方法及系统
CN110019637B (zh) 一种标准文献检索的排序算法
JP4215386B2 (ja) 類似オブジェクト検索方法及び類似オブジェクト検索装置
Veretennikov Using additional indexes for fast full-text search of phrases that contain frequently used words
US6038557A (en) Method and apparatus for almost-constant-time clustering of arbitrary corpus subsets
CN114996552A (zh) 一种数据获取方法及终端
CN111209378B (zh) 一种基于业务字典权重的有序分级排序方法
US20180225291A1 (en) Identifying Documents
KR102081867B1 (ko) 역 색인 구성 방법, 역 색인을 이용한 유사 데이터 검색 방법 및 장치
CN112464639A (zh) 一种搜索文本折叠处理系统及其方法
CN112199461A (zh) 基于块索引结构的文档检索方法、装置、介质和设备
CN116680418B (zh) 一种基于知识图谱的大数据检索方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant