CN107766419A - 一种基于阈值去噪的TextRank文档摘要方法及装置 - Google Patents

一种基于阈值去噪的TextRank文档摘要方法及装置 Download PDF

Info

Publication number
CN107766419A
CN107766419A CN201710807801.2A CN201710807801A CN107766419A CN 107766419 A CN107766419 A CN 107766419A CN 201710807801 A CN201710807801 A CN 201710807801A CN 107766419 A CN107766419 A CN 107766419A
Authority
CN
China
Prior art keywords
mrow
msub
document
values
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710807801.2A
Other languages
English (en)
Other versions
CN107766419B (zh
Inventor
蔡毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Wangwang Information Technology Co Ltd
Original Assignee
Guangzhou Wangwang Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Wangwang Information Technology Co Ltd filed Critical Guangzhou Wangwang Information Technology Co Ltd
Priority to CN201710807801.2A priority Critical patent/CN107766419B/zh
Publication of CN107766419A publication Critical patent/CN107766419A/zh
Application granted granted Critical
Publication of CN107766419B publication Critical patent/CN107766419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于阈值去噪的TextRank文档摘要方法,包括以下步骤:根据获取到的第一文档语句构建第一图模型;通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值将所有的第一TR值与预设阈值进行大小比对,并将所有小于预设阈值的第一TR值对应的第一文档语句从第一图模型中除去以得第二图模型;并选取若干条第二TR值最高的第二文档语句以形成文档摘要。本发明还提供了一种基于阈值去噪的TextRank文档摘要装置。本发明的基于阈值去噪的TextRank文档摘要的方法能够有效的排除文档中的干扰项,提高权重值的分配准确度,从而提高所生成的摘要的质量。

Description

一种基于阈值去噪的TextRank文档摘要方法及装置
技术领域
本发明涉及一种数据挖掘技术领域,尤其涉及一种基于阈值去噪的TextRank文档摘要方法及装置。
背景技术
现今时代互联网发展迅速,信息急剧膨胀,充斥着人们的生活,带来了极大的便利,人们足不出户便可以了解时事,查找自己所需要的资源和信息。但与此同时,面对新闻网站上纷乱繁杂的原始新闻,为了能够跟上信息更新的速度,将新闻事件报道进行汇总精简、提炼出其中的关键信息,满足快速获取知识的要求成为一个亟待解决的问题。为了解决这一问题,文档自动摘要方法伴随需求而得到发展。近年来,基于图的排序算法已经被应用到文档摘要中,其中应用最为广泛的是Mihalcea和Tarau提出的TextRank模型,它是基于图的摘要模型,其涉及到的背景知识如下:
1.PageRank
PageRank(网页排名)利用网页的链接结构构建Web图模型,从客观上评估网页的相对重要性,有效地衡量用户对网页的兴趣和关注程度。它的基本思想是,一个网页的重要程度取决于链接到该网页的网页数量以及这些网页的重要程度。PageRank应用了两个假设:数量假设和质量假设。数量假设是指在Web图模型中,一个网页所拥有的指向自己的其他网页的数量越多,则该网页的重要程度越高;质量假设是指质量或重要程度越高的网页指向某个网页时,被指向的网页重要程度越高。
PageRank采用投票或推荐机制,即每一个网页会将自己的PR值平均地分配给自己所指向的网页。令G=(V,E)表示由顶点集合V和边集合E组成的图,V中每个顶点表示一个网页,网页Vi指向网页Vj通过E中以顶点Vi为起点、Vj为终点的边来表示;In(Vi)表示以顶点Vi为终点的入边集合,Out(Vi)表示以顶点Vi为起点的出边集合。网页Vi的重要程度定义如下:
其中|Out(Vj)|表示顶点Vj的出度。
以一个例子来说明以上定义。如图1所示,其中PR值为100的网页指向了PR值为53和50的两个网页,则它会将自己的PR值平均分配给这两个网页,而这两个网页又会将自己的PR值平均分配给它们各自所指向的网页,这是一个反复迭代的过程,最终网页的PR值会趋向于正常和稳定。如图2所示,经过反复迭代后,网页的PR值已经收敛。
上述公式存在一个问题:在现实情况中,存在着一些网页,它们彼此互相链接,而没有指向其他网页的链接,这就会导致链接只在一个集合内部旋转,而不指向外界的现象,如图3所示。这种封闭的情况称为Rank Sink。因此,需要进行修正。实际上,用户在浏览网页时,如果他发现一直在同样的几个网页中徘徊时,那么他会离开当前页面,重新打开一个新的网页;用户也不会一直都顺着当前页面的链接前进,也可能会跳跃到完全无关的页面里。基于这一思想,PageRank在上述公式的基础上加入了阻尼系数(damping factor)α,得到如下公式:
其中阻尼系数α表示到达某个页面后继续往后浏览的概率,1-α表示用户停止点击,跳出现在的页面,转至一个新的网页的概率。α的取值范围为[0,1],一般取值为0.85。根据修正后的公式,一个网页的PR值是由其他网页的PR值计算得到的,这是一个不断迭代计算的过程,最终网页的PR值会趋向于正常和稳定。
2.向量空间模型
向量空间模型VSM(Vector Space Model)是文本分析中常用的用于表示文档的模型,它把对文本内容的处理简化为向量空间中的向量运算。
VSM将每篇文档表示为一个标准化的向量其中每一维ti是特征项,表示出现在文档Dm中且能够表示该文档内容的基本语言单位,主要由词或者短语组成,v表示特征项的总数。在文档Dm中,每个特征项都有其权重值,表示该特征项的重要程度,即Dm(t1,w1;t2,w2;…tv,wv),简记为Dm(w1,w2,…,wv),它是v维空间中的一个向量,称为Dm的向量表示。其中wi表示特征项ti的权重。
特征项的权重值有多种计算方法,一般采用TF-IDF(词频-逆文档频率)。词频TF(term frequency)定义为TFim=ni/N,表示第i个特征项在第m篇文档Dm中出现的频率,其中ni表示在Dm中出现的次数,N表示Dm中所包含的总词数;在不同的文档中TF有明显的差别,尤其是在不同类别的文档中,因此TF在文本处理中是一个有价值的信息。逆文档频率IDF(inverse document frequency)定义为IDFi=log(|D|/di),表示第i个特征项的IDF值,|D|表示文档集合D中的文档总数,di表示第i个特征项出现的文档总数;IDF的作用是调整TF,避免一些在文档集合中出现频率很高的特征项具有过高的权重。将TF和IDF相乘的结果作为TF-IDF值,表示特征项的权重值,TF-IDF值越大,说明特征项重要程度越高。
3.余弦相似度
通过VSM,两条句子之间的相似度计算转变为两个向量之间的相似度计算,对此余弦相似度是常用的方法之一。在VSM中,两条句子Si,Sj的余弦相似度定义如下:
其中,wix和wjx分别表示句子Si和Sj第x个特征项的权重值,1≤x≤v。计算得到的余弦值的范围介于0到1之间,它越接近1,表明两个向量越接近0度,即两个向量越相似,其所表示的两条句子之间的相似度越高。当余弦值等于1时,夹角等于0,即两个向量相等,其所表示的两条句子完全一致。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种基于阈值去噪的TextRank文档摘要方法,其能有效去除文档中的干扰项。
本发明的目的之二在于电子设备,其能有效去除文档中的干扰项。
本发明的目的之三在于提供一种计算机可读存储介质,其能有效去除文档中的干扰项。
本发明的目的之四在于提供一种基于阈值去噪的TextRank文档摘要装置,其能有效去除文档中的干扰项。
本发明的目的之一采用如下技术方案实现:
一种基于阈值去噪的TextRank文档摘要方法,包括以下步骤:
获取步骤:根据获取到的第一文档语句构建第一图模型;
计算步骤:通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值;
比对步骤:将所有的第一TR值与预设阈值进行大小比对,并将所有小于预设阈值的第一TR值对应的第一文档语句从第一图模型中除去以得第二图模型;
摘要形成步骤:通过TextRank算法对第二图模型中的第二文档语句进行迭代计算以得第二TR值,并选取若干条第二TR值最高的第二文档语句以形成文档摘要。
进一步地,在获取步骤之前还包括以下步骤:
预处理步骤:对获取到的文档信息进行预处理以得第一文档语句。
进一步地,在摘要形成步骤中采用贪婪算法去除第二图模型中的冗余信息。
进一步地,在计算步骤中采用的迭代计算公式为:
其中,α为阻尼系数,其取值为0-1之间,Si和Sj均表示文档语句,TR(Si)表示文档语句Si对应的TR值,TR(Sj)表示文档语句Sj对应的TR值,wji表示Si和Sj之间的相似度,In(Si)表示以顶点Si为终点的入边集合,Out(Sj)表示以顶点Sj为起点的出边集合。
本发明的目的之二采用如下技术方案实现:
一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获取步骤:根据获取到的第一文档语句构建第一图模型;
计算步骤:通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值;
比对步骤:将所有的第一TR值与预设阈值进行大小比对,并将所有小于预设阈值的第一TR值对应的第一文档语句从第一图模型中除去以得第二图模型;
摘要形成步骤:通过TextRank算法对第二图模型中的第二文档语句进行迭代计算以得第二TR值,并选取若干条第二TR值最高的第二文档语句以形成文档摘要。
进一步地,在获取步骤之前还包括以下步骤:
预处理步骤:对获取到的文档信息进行预处理以得第一文档语句。
进一步地,在摘要形成步骤中采用贪婪算法去除第二图模型中的冗余信息。
进一步地,在计算步骤中采用的迭代计算公式为:
其中,α为阻尼系数,其取值为0-1之间,Si和Sj均表示文档语句,TR(Si)表示文档语句Si对应的TR值,TR(Sj)表示文档语句Sj对应的TR值,wji表示Si和Sj之间的相似度,In(Si)表示以顶点Si为终点的入边集合,Out(Sj)表示以顶点Sj为起点的出边集合。
本发明的目的之三采用如下技术方案实现:
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任意一项所述的方法。
本发明的目的之四采用如下技术方案实现:
一种基于阈值去噪的TextRank文档摘要装置,包括以下模块:
获取模块:用于根据获取到的第一文档语句构建第一图模型;
计算模块:用于通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值;
比对模块:用于将所有的第一TR值与预设阈值进行大小比对,并将所有小于预设阈值的第一TR值对应的第一文档语句从第一图模型中除去以得第二图模型;
摘要形成模块:用于通过TextRank算法对第二图模型中的第二文档语句进行迭代计算以得第二TR值,并选取若干条第二TR值最高的第二文档语句以形成文档摘要。
相比现有技术,本发明的有益效果在于:
本发明的基于阈值去噪的TextRank文档摘要方法能够有效的排除文档中的干扰项,提高权重值的分配准确度,从而提高所生成的摘要的质量。
附图说明
图1为PageRank迭代过程的示例图;
图2为PageRank收敛的示例图;
图3为TextRank图模型示例;
图4为本发明基于阈值去噪的TextRank文档摘要方法的流程图;
图5为本发明基于阈值去噪的TextRank文档摘要装置的结构图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
实施例一:
如图4示,本实施例提供了一种基于阈值去噪的TextRank文档摘要方法,包括以下步骤:
S0:对获取到的文档信息进行预处理以得第一文档语句;数据预处理,包括数据清洗和结构化,本实施例在进行文档摘要实验时,处理的是句子级别的文本单元,因此要对文档集合进行断句,并标记句子原来所在的位置,标记句子原来所在的位置是以便于最后的排序步骤。同时,句子的文本表示是以词语为单位的,所以还需要对得到的句子进行分词,并去除其中的停用词,减少文档中的噪音干扰。得到分词结果后,通过向量空间模型得到文档D中每条句子的结构化表示Si=(t1,t2,…,tv),tx表示句子Si的第x个特征项。
S1:根据获取到的第一文档语句构建第一图模型;
S2:通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值;在步骤S2中采用的迭代计算公式为:
其中,α为阻尼系数,其取值为0-1之间,Si和Sj均表示文档语句,TR(Si)表示文档语句Si对应的TR值,TR(Sj)表示文档语句Sj对应的TR值,wji表示Si和Sj之间的相似度,In(Si)表示以顶点Si为终点的入边集合,Out(Sj)表示以顶点Sj为起点的出边集合。
首先是需要构建图模型G=(V,E),其中顶点集合V中每个顶点表示一条句子,边集合E中包含了句子两两之间所构成的无向边,边的权重为wij=Sim(Si,Sj),表示句子Si和Sj之间的相似关系。In(Si)表示以顶点Si为终点的入边集合,Out(Si)表示以顶点Si为起点的出边集合。
完成图模型的构建后,接下来便是对每个顶点也就是每条句子的权重值的迭代计算,对于句子Si,其TextRank(TR)值在一次迭代中的计算公式如下:
在经过反复迭代后,最终收敛得到每条句子的TR值。
S3:将所有的第一TR值与预设阈值进行大小比对,并将所有小于预设阈值的第一TR值对应的第一文档语句从第一图模型中除去以得第二图模型;通过设置阈值有效的去除一些噪音干扰;除去的做法是直接将该句与其他所有句子的相似度设置为0,即可将该句排除;
S4:通过TextRank算法对第二图模型中的第二文档语句进行迭代计算以得第二TR值,并选取若干条第二TR值最高的第二文档语句以形成文档摘要。通过第二次TextRank对D′中的句子进行排序。在每次迭代中,对于D′中的每条句子Ti,按步骤3中的句子TR值计算公式计算新的TR值,反复迭代最终收敛得到每条句子的TR值,按TR值从大到小的顺序进行排序。
在步骤S4中采用贪婪算法去除第二图模型中的冗余信息。通过贪婪算法去除冗余。一篇文档中可能存在相似的句子,它们最终得到的TR值是相近的,如果仅仅选取出若干条TR值最高的句子构成摘要,将会产生冗余,影响摘要的质量。因此,需要通过贪婪算法筛选句子。
(a)、初始化摘要句子集合B=D′,每条句子都有一个贪婪分值score,初始值为经过两次TextRank后所得到的TR值,这些贪婪分值构成了集合scoreB={T1:score1,T2:score2,…,Tm:scorem};
(b)、按照scoreB对B进行排序;
(c)假设Ti为B中score分值最高的句子,从B中抽取出Ti放到F中,然后对B中剩余的句子Tj,分别计算scoreB(Tj)=scoreB(Tj)-ω×wji×TRD(Ti);
(d)重复步骤(b)和(c),直到为止。
经过上述步骤,最终得到句子的排序集合,然后提取前面若干条句子,按句子原来在文中的位置组合成摘要。
完成该摘要之后,需要对该摘要内容进行验证,本实施例采用ROUGE(RecallOriented Understudy for Gisting Evaluation)作为评价指标。ROUGE自动评价方法目前已经被DUC和TAC(Text Analysis Conference)广泛用于自动摘要的质量评估。它通过将自动摘要和人工摘要进行对比,统计这两者之间的重叠来评估自动摘要的质量。通过验证发现,本实施例的内容具有更为优异的效果相对于没有设置阈值去噪的方式来说。
在使用TextRank方法对句子进行排序时,文档的重要信息和主要内容集中在一部分句子中,而有一部分句子本身并没有包含很重要的信息,将它们也整合到图模型中,会对TextRank抽取摘要句子的实际效果造成噪音干扰。以一个主题是“其他国家对伊朗核能力和核试验的关注态度以及伊朗自身的态度”的新闻文档集合为例,其中包含句子“Husseinreplied:We are not saying that.”显然这条句子并没有包含很重要的内容,但是它与其他句子存在一定的相似关系,这会对权重值的分配造成干扰,从而导致TextRank进行多文档摘要的效果下降。这种句子有长有短,因而无法通过简单的数据预处理排除,因此需要一种新的去噪方法,将这些干扰项从图模型中去除。
通过观察TextRank排序结果发现,这些句子的TR值普遍偏低,由此本发明提出基于阈值去噪的TextRank排序算法,将其应用于多文档摘要。首先通过第一次TextRank得到所有句子的TR值,将TR值低于阈值的句子从图模型中除去,除去的做法是直接将该句与其他所有句子的相似度设置为0,即可将该句排除。新的图模型构建完毕后,重新进行TextRank迭代计算,从而得到每条句子的TR值。
相比于原来的TextRank摘要方法,本实施例的基于阈值去噪的TextRank排序算法能够有效地排除文档中的干扰项,提高权重值的分配准确度,从而提高所生成的摘要的质量。
实施例二
实施例二公开了一种电子设备,该电子设备包括处理器、存储器以及程序,其中处理器和存储器均可采用一个或多个,程序被存储在存储器中,并且被配置成由处理器执行,处理器执行该程序时,实现实施例一的基于阈值去噪的TextRank文档摘要方法。该电子设备可以是手机、电脑、平板电脑等等一系列的电子设备。
实施例三
实施例三公开了一种可读的计算机存储介质,该存储介质用于存储程序,并且该程序被处理器执行时,实现实施例一的基于阈值去噪的TextRank文档摘要方法。
实施例四:
如图5示,本实施例提供了一种基于阈值去噪的TextRank文档摘要装置,包括以下模块:
获取模块:用于根据获取到的第一文档语句构建第一图模型;
计算模块:用于通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值;
比对模块:用于将所有的第一TR值与预设阈值进行大小比对,并将所有小于预设阈值的第一TR值对应的第一文档语句从第一图模型中除去以得第二图模型;
摘要形成模块:用于通过TextRank算法对第二图模型中的第二文档语句进行迭代计算以得第二TR值,并选取若干条第二TR值最高的第二文档语句以形成文档摘要。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims (10)

1.一种基于阈值去噪的TextRank文档摘要方法,其特征在于,包括以下步骤:
获取步骤:根据获取到的第一文档语句构建第一图模型;
计算步骤:通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值;
比对步骤:将所有的第一TR值与预设阈值进行大小比对,并将所有小于预设阈值的第一TR值对应的第一文档语句从第一图模型中除去以得第二图模型;
摘要形成步骤:通过TextRank算法对第二图模型中的第二文档语句进行迭代计算以得第二TR值,并选取若干条第二TR值最高的第二文档语句以形成文档摘要。
2.如权利要求1所述的基于阈值去噪的TextRank文档摘要方法,其特征在于,在获取步骤之前还包括以下步骤:
预处理步骤:对获取到的文档信息进行预处理以得第一文档语句。
3.如权利要求1或2所述的基于阈值去噪的TextRank文档摘要方法,其特征在于,在摘要形成步骤中采用贪婪算法去除第二图模型中的冗余信息。
4.如权利要求1所述的基于阈值去噪的TextRank文档摘要方法,其特征在于,在计算步骤中采用的迭代计算公式为:
<mrow> <mi>T</mi> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&amp;alpha;</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&amp;alpha;</mi> <mo>&amp;times;</mo> <msub> <mi>&amp;Sigma;</mi> <mrow> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>&amp;Element;</mo> <mi>I</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </msub> <mfrac> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mi>i</mi> </mrow> </msub> <mrow> <msub> <mi>&amp;Sigma;s</mi> <mrow> <mi>l</mi> <mo>&amp;Element;</mo> <mi>O</mi> <mi>u</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </msub> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mi>l</mi> </mrow> </msub> </mrow> </mfrac> <mi>T</mi> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
其中,α为阻尼系数,其取值为0-1之间,Si和Sj均表示文档语句,TR(Si)表示文档语句Si对应的TR值,TR(Sj)表示文档语句Sj对应的TR值,wji表示Si和Sj之间的相似度,In(Si)表示以顶点Si为终点的入边集合,Out(Sj)表示以顶点Sj为起点的出边集合。
5.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
获取步骤:根据获取到的第一文档语句构建第一图模型;
计算步骤:通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值;
比对步骤:将所有的第一TR值与预设阈值进行大小比对,并将所有小于预设阈值的第一TR值对应的第一文档语句从第一图模型中除去以得第二图模型;
摘要形成步骤:通过TextRank算法对第二图模型中的第二文档语句进行迭代计算以得第二TR值,并选取若干条第二TR值最高的第二文档语句以形成文档摘要。
6.如权利要求5所述的电子设备,其特征在于,在获取步骤之前还包括以下步骤:
预处理步骤:对获取到的文档信息进行预处理以得第一文档语句。
7.如权利要求5或6所述的电子设备,其特征在于,在摘要形成步骤中采用贪婪算法去除第二图模型中的冗余信息。
8.如权利要求5所述的电子设备,其特征在于,在计算步骤中采用的迭代计算公式为:
<mrow> <mi>T</mi> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&amp;alpha;</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&amp;alpha;</mi> <mo>&amp;times;</mo> <msub> <mi>&amp;Sigma;</mi> <mrow> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>&amp;Element;</mo> <mi>I</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </msub> <mfrac> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mi>i</mi> </mrow> </msub> <mrow> <msub> <mi>&amp;Sigma;s</mi> <mrow> <mi>l</mi> <mo>&amp;Element;</mo> <mi>O</mi> <mi>u</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </msub> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mi>l</mi> </mrow> </msub> </mrow> </mfrac> <mi>T</mi> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
其中,α为阻尼系数,其取值为0-1之间,Si和Sj均表示文档语句,TR(Si)表示文档语句Si对应的TR值,TR(Sj)表示文档语句Sj对应的TR值,wji表示Si和Sj之间的相似度,In(Si)表示以顶点Si为终点的入边集合,Out(Sj)表示以顶点Sj为起点的出边集合。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-4任意一项所述的方法。
10.一种基于阈值去噪的TextRank文档摘要装置,其特征在于,包括以下模块:
获取模块:用于根据获取到的第一文档语句构建第一图模型;
计算模块:用于通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值;
比对模块:用于将所有的第一TR值与预设阈值进行大小比对,并将所有小于预设阈值的第一TR值对应的第一文档语句从第一图模型中除去以得第二图模型;
摘要形成模块:用于通过TextRank算法对第二图模型中的第二文档语句进行迭代计算以得第二TR值,并选取若干条第二TR值最高的第二文档语句以形成文档摘要。
CN201710807801.2A 2017-09-08 2017-09-08 一种基于阈值去噪的TextRank文档摘要方法及装置 Active CN107766419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710807801.2A CN107766419B (zh) 2017-09-08 2017-09-08 一种基于阈值去噪的TextRank文档摘要方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710807801.2A CN107766419B (zh) 2017-09-08 2017-09-08 一种基于阈值去噪的TextRank文档摘要方法及装置

Publications (2)

Publication Number Publication Date
CN107766419A true CN107766419A (zh) 2018-03-06
CN107766419B CN107766419B (zh) 2021-08-31

Family

ID=61265527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710807801.2A Active CN107766419B (zh) 2017-09-08 2017-09-08 一种基于阈值去噪的TextRank文档摘要方法及装置

Country Status (1)

Country Link
CN (1) CN107766419B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363700A (zh) * 2018-03-23 2018-08-03 北京奇虎科技有限公司 新闻标题的质量评估方法及装置
CN109325110A (zh) * 2018-08-24 2019-02-12 广东外语外贸大学 印尼语文档摘要生成方法、装置、存储介质及终端设备
CN113032584A (zh) * 2021-05-27 2021-06-25 北京明略软件系统有限公司 一种实体关联方法、装置、电子设备及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1828608A (zh) * 2006-04-13 2006-09-06 北大方正集团有限公司 一种基于句子关系图的多文档摘要方法
US20080109399A1 (en) * 2006-11-03 2008-05-08 Oracle International Corporation Document summarization
CN102222119A (zh) * 2011-07-28 2011-10-19 成都希创掌中科技有限公司 数字图书系统中的个性化自动文摘方法
CN103020129A (zh) * 2012-11-20 2013-04-03 中兴通讯股份有限公司 一种文本内容提取方法和装置
US20130132827A1 (en) * 2011-11-23 2013-05-23 Esobi Inc. Automatic abstract determination method of document clustering
CN104503958A (zh) * 2014-11-19 2015-04-08 百度在线网络技术(北京)有限公司 文档摘要的生成方法及装置
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN105740310A (zh) * 2015-12-21 2016-07-06 哈尔滨工业大学 一种用于问答系统中的自动答案摘要方法及系统
US20160253369A1 (en) * 2015-02-27 2016-09-01 Vmware, Inc. Graphical lock analysis
CN106126620A (zh) * 2016-06-22 2016-11-16 北京鼎泰智源科技有限公司 基于机器学习的中文自动文摘方法
US20160350404A1 (en) * 2015-05-29 2016-12-01 Intel Corporation Technologies for dynamic automated content discovery
CN106383817A (zh) * 2016-09-29 2017-02-08 北京理工大学 利用分布式语义信息的论文标题生成方法
CN106407182A (zh) * 2016-09-19 2017-02-15 国网福建省电力有限公司 一种用于企业电子公文文档自动摘要的方法
CN106919554A (zh) * 2016-10-27 2017-07-04 阿里巴巴集团控股有限公司 文档中无效词的识别方法及装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1828608A (zh) * 2006-04-13 2006-09-06 北大方正集团有限公司 一种基于句子关系图的多文档摘要方法
US20080109399A1 (en) * 2006-11-03 2008-05-08 Oracle International Corporation Document summarization
CN102222119A (zh) * 2011-07-28 2011-10-19 成都希创掌中科技有限公司 数字图书系统中的个性化自动文摘方法
US20130132827A1 (en) * 2011-11-23 2013-05-23 Esobi Inc. Automatic abstract determination method of document clustering
CN103020129A (zh) * 2012-11-20 2013-04-03 中兴通讯股份有限公司 一种文本内容提取方法和装置
CN104503958A (zh) * 2014-11-19 2015-04-08 百度在线网络技术(北京)有限公司 文档摘要的生成方法及装置
US20160253369A1 (en) * 2015-02-27 2016-09-01 Vmware, Inc. Graphical lock analysis
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
US20160350404A1 (en) * 2015-05-29 2016-12-01 Intel Corporation Technologies for dynamic automated content discovery
CN105740310A (zh) * 2015-12-21 2016-07-06 哈尔滨工业大学 一种用于问答系统中的自动答案摘要方法及系统
CN106126620A (zh) * 2016-06-22 2016-11-16 北京鼎泰智源科技有限公司 基于机器学习的中文自动文摘方法
CN106407182A (zh) * 2016-09-19 2017-02-15 国网福建省电力有限公司 一种用于企业电子公文文档自动摘要的方法
CN106383817A (zh) * 2016-09-29 2017-02-08 北京理工大学 利用分布式语义信息的论文标题生成方法
CN106919554A (zh) * 2016-10-27 2017-07-04 阿里巴巴集团控股有限公司 文档中无效词的识别方法及装置

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
AILIN LI ET.AL: "The Mixture of Textrank and Lexrank Techniques of Single Document Automatic Summarization Research in Tibetan", 《2016 8TH INTERNATIONAL CONFERENCE ON INTELLIGENT HUMAN-MACHINE SYSTEMS AND CYBERNETICS (IHMSC)》 *
WENGEN LI ET.AL: "TextRank Algorithm by Exploiting Wikipedia for Short Text Keywords Extraction", 《2016 3RD INTERNATIONAL CONFERENCE ON INFORMATION SCIENCE AND CONTROL ENGINEERING (ICISCE)》 *
余珊珊等: "基于改进的TextRank的自动摘要提取方法", 《计算机科学》 *
刘海燕 等: "基于LexRank的中文单文档摘要方法", 《兵器装备工程学报》 *
曹洋: "基于TextRank算法的单文档自动文摘研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李航 等: "融合多特征的TextRank关键词抽取方法", 《情报杂志》 *
柳林青等: "一种基于TextRank的单文本关键字提取算法", 《计算机应用研究》 *
蒲梅等: "基于加权TextRank的新闻关键事件主题句提取", 《计算机工程》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363700A (zh) * 2018-03-23 2018-08-03 北京奇虎科技有限公司 新闻标题的质量评估方法及装置
CN109325110A (zh) * 2018-08-24 2019-02-12 广东外语外贸大学 印尼语文档摘要生成方法、装置、存储介质及终端设备
CN113032584A (zh) * 2021-05-27 2021-06-25 北京明略软件系统有限公司 一种实体关联方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN107766419B (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
Papagiannopoulou et al. Local word vectors guiding keyphrase extraction
CN103207899B (zh) 文本文件推荐方法及系统
CN103914494B (zh) 一种微博用户身份识别方法及系统
RU2377645C2 (ru) Способ и система для классификации дисплейных страниц с помощью рефератов
Jafari et al. Automatic text summarization using fuzzy inference
Gleich et al. Tracking the random surfer: empirically measured teleportation parameters in PageRank
CN105975459B (zh) 一种词项的权重标注方法和装置
CN103049470B (zh) 基于情感相关度的观点检索方法
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN103207860A (zh) 舆情事件的实体关系抽取方法和装置
CN108763402A (zh) 基于依存关系、词性和语义词典的类中心向量文本分类法
Lee Unsupervised and supervised learning to evaluate event relatedness based on content mining from social-media streams
JP5273735B2 (ja) テキスト要約方法、その装置およびプログラム
CN101706812B (zh) 一种文档的检索方法和装置
CN107766419A (zh) 一种基于阈值去噪的TextRank文档摘要方法及装置
CN111753167A (zh) 搜索处理方法、装置、计算机设备和介质
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
Manojkumar et al. An experimental investigation on unsupervised text summarization for customer reviews
EP3528144A1 (en) Device and method for keyword extraction from a text stream
Dupret Latent concepts and the number orthogonal factors in latent semantic analysis
Wei et al. Query based summarization using topic background knowledge
US10977332B2 (en) Method for automated categorization of keyword data
CN111177514B (zh) 基于网站特征分析的信源评价方法、装置及存储设备、程序
Cheng et al. Fine-grained topic detection in news search results
Jeong et al. Social community based blog search framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant