CN108595411B - 一种同主题文本集合中多文本摘要获取方法 - Google Patents

一种同主题文本集合中多文本摘要获取方法 Download PDF

Info

Publication number
CN108595411B
CN108595411B CN201810223876.0A CN201810223876A CN108595411B CN 108595411 B CN108595411 B CN 108595411B CN 201810223876 A CN201810223876 A CN 201810223876A CN 108595411 B CN108595411 B CN 108595411B
Authority
CN
China
Prior art keywords
text
sentence
sentences
text set
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810223876.0A
Other languages
English (en)
Other versions
CN108595411A (zh
Inventor
徐小龙
杨春春
段卫华
张洁
朱洁
刘茜萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201810223876.0A priority Critical patent/CN108595411B/zh
Publication of CN108595411A publication Critical patent/CN108595411A/zh
Application granted granted Critical
Publication of CN108595411B publication Critical patent/CN108595411B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种同主题文本集合中多文本摘要获取方法,首先通过对文本进行预处理,包括分词,停用词处理,特征选择,降维等;下一步,利用处理之后的特征词构造空间向量模型,生成距离矩阵;然后在聚类方法中加入样本密度排序的方法,以中心向量为圆心,用向量空间中特征值距离的平均值为半径构造圆,根据圆内排序好的文本内容相似度生成的样本密度来自动确定初始聚类中心,从而自动发现文档集合中的潜在对应的子主题集合的数量;生成对应的子主题集之后,方法对已聚类的子主题文本进行有监督的训练,对句子进行评分,标记,从不同的子主题中抽取中心句作为多文本的摘要,最后,方法输出摘要的内容;提高了多文本摘要的质量。

Description

一种同主题文本集合中多文本摘要获取方法
技术领域
本发明涉及一种同主题文本集合中多文本摘要获取方法,属于自然语言处理、情报科学的交叉技术领域。
背景技术
目前,互联网每天都涌现海量信息,各个领域都出现了信息爆炸的情况,大数据时代已经来临。人们需要快速、准确地从海量信息中找到有用信息。自动摘要技术自动对大规模电子文本快速地进行浓缩、提炼,抽取其中关键信息,生成给定原文的中心内容,使其成为解决当前信息过载问题、加快阅读和获取信息资源的一个准确而高效的手段。随着计算机科学的发展和自然语言处理技术的不断进步,自动摘要技术已经广泛地应用到其他相关领域,比如文本分类、信息检索、问答系统等。它的优势表现在以下两个方面:一是自动摘要技术在准确率和召回率两方面达到了很好的平衡,所抽取的摘要既能包含文本的主要内容,又能保证摘要内容尽可能少的重复,提高了用户浏览信息的效率;二是自动摘要技术注重摘要内容的可读性和摘要的表现形式,方便用户理解信息内涵。
近年来,多文本自动摘要技术成为自动摘要领域的研究热点。多文本自动摘要的研究对象是以同一个主题下的文档集合,特点是文档之间具有很多的相似信息,多文本自动摘要的关键不仅包括如何识别和处理文档之间的共同信息,还要对多篇同一主题的文档集合进行汇总和压缩,最终形成的摘要必须包含所有文档中的关键信息。
目前的多文本自动摘要技术主要存在以下问题:
(1)多文本自动摘要研究中涉及到使用聚类方法,这些聚类方法有一个共同的缺陷,那就是这些聚类方法往往无法自动估计类簇中心的个数,都需要人工给定聚类的数目。人工给定的聚类数目所产生的主题数量会产生偏差,因此无法自动发现文档集隐含的自然的潜在子主题。
(2)现有的摘要抽取这方面,仅仅考虑关键词的出现频率,而忽略描述相关子主题事件文本内容的重要性。所以抽取的摘要冗余度高,重要句子提取不准确,覆盖率低,连贯性差等诸多局限性,而且生成摘要所需要的时间也比较长。
发明内容
本发明所要解决的技术问题是提供一种同主题文本集合中多文本摘要获取方法,不仅提高了生成摘要的准确率和召回率,而且还减少了自动摘要生成的时间。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种同主题文本集合中多文本摘要获取方法,初始化针对文本集合中所有文本进行任意排序,并结合各文本中各句子的顺序,获得文本集合中所有句子的排序;以及结合各句子中各特征项的顺序,获得文本集合对应所有句子中所有特征项的顺序,然后执行如下步骤:
步骤A.获得文本集合中各句子的权重Wi,以及获得文本集合对应所有句子中各特征项的权重Qj,然后进入步骤B;其中,i∈{1、…、I},I表示文本集合中所有句子的总数,j∈{1、…、J},J表示文本集合对应所有句子中所有特征项的总数;
步骤B.根据文本集合中各句子权重Wi,以及文本集合对应所有句子中各特征项权重Qj,获得各句子分别与各特征项之间的相似度Sij,并构建文本向量矩阵S(i,j),然后进入步骤C;
步骤C.根据文本向量矩阵中各句子分别与各特征项之间的相似度Sij,分别获得文本集合中两两句子之间的距离,构建文本集合中所有句子对应的距离矩阵R(i,i'),并进一步获得文本集合中各个句子的空间坐标,然后进入步骤D;其中,i'∈{1、…、I};
步骤D.根据距离矩阵R(i,i'),引入句子密度排序方法,获得文本集合中所有句子所对应聚类中心的数量P,然后进入步骤E;
步骤E.根据文本集合中所有句子所对应聚类中心的数量P,针对文本集合中的所有句子进行聚类,获得P个子主题文档集合,然后进入步骤F;
步骤F.根据预设摘要句子总数,针对P个子主题文档集合,采用卷积神经网络进行处理,获得文本集合中多文本所对应的摘要。
作为本发明的一种优选技术方案,所述步骤A中,根据如下公式:
Figure BDA0001600722970000021
获得文本集合中各句子的权重Wi;其中,fi表示文本集合对应所有句子中第i个句子在其所在文本中的频数;N表示文本集合中文本的数量。
作为本发明的一种优选技术方案,所述步骤A中,根据如下公式:
Qj=log10(1+f(tj))×log10(I/Ij)
获得文本集合对应所有句子中各特征项的权重Qj;其中,f(tj)表示文本集合对应所有句子所有特征项中第j个特征项在其所在句子中的频数,Ij表示文本集合对应所有句子中包含第j个特征项的句子的数量。
作为本发明的一种优选技术方案,所述步骤B中,根据文本集合中各句子权重Wi,以及文本集合对应所有句子中各特征项权重Qj,获得各句子分别与各特征项之间的相似度Sij,并按如下公式:
Figure BDA0001600722970000031
构建文本向量矩阵S(i,j)。
作为本发明的一种优选技术方案,所述步骤C中,根据文本向量矩阵中各句子分别与各特征项之间的相似度Sij,分别获得文本集合中两两句子之间的距离,并根据如下公式:
Figure BDA0001600722970000032
构建文本集合中所有句子对应的距离矩阵R(i,i')。
作为本发明的一种优选技术方案,所述步骤D包括如下步骤:
步骤D1.获得距离矩阵R(i,i')中所有两两句子之间距离的平均值k1,然后进入步骤D2;
步骤D2.分别针对文本集合中的各个句子,以句子的空间坐标为圆心,k1为半径,构建该句子所对应的圆形,并获得位于该圆形范围内句子的数量,作为该句子所对应的文本密度,进而获得文本集合中各个句子分别所对应的文本密度,然后进入步骤D3;
步骤D3.针对文本集合中的所有句子、按所对应文本密度由大至小的顺序进行排序,并基于排序,将对应相同文本密度的各个句子划分为一个集合,即获得按文本密度由大至小顺序所排序的各个句子集合,然后初始化l=1,并进入步骤D4;
步骤D4.按文本密度由大至小顺序,由第l个句子集合中任选一个句子,作为一个凝聚点,并针对l的值进行加1更新,然后进入步骤D5;
步骤D5.判断l是否大于L,是则进入步骤D7;否则进入步骤D6;L表示基于相同文本密度各个句子划分为一个集合操作后所获句子集合的数量;
步骤D6.按文本密度由大至小顺序,由第l个句子集合中任选一个句子,并判断该句子分别与已获得各凝聚点的之间的距离是否均大于2k1,是则将该句子作为一个凝聚点,否则针对l的值进行加1更新,并返回步骤D5;
步骤D7.统计所获凝聚点的数量,即获得文本集合中所有句子所对应聚类中心的数量P。
本发明所述一种同主题文本集合中多文本摘要获取方法采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明设计的同主题文本集合中多文本摘要获取方法,采用改进聚类方法,针对文本集合进行聚类,克服了现有聚类方法往往无法自动估计子主题的个数,需要依赖人的主观经验确定初始聚类中心等问题;设计方法能够从整个文档内容统计信息中,获取必要的参数信息来自动确定初始类别数和聚类中心,自动发现文档集合中的潜在子主题数和对应的子主题的数量,为下一步文本摘要的抽取打下坚实的基础;
(2)本发明设计的同主题文本集合中多文本摘要获取方法,在摘要的抽取方面,深入挖掘文本集中句子的内在联系,更加准确的推断出子主题中心的内容,使得抽取的摘要结果更加准确全面,从而显著地提高了多文本自动摘要的质量。
附图说明
图1是本发明所设计同主题文本集合中多文本摘要获取方法的流程示意图;
图2是本发明所设计同主题文本集合中多文本摘要获取方法的系统架构示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
本发明所设计一种多文本自动摘要方法,(1)多文本自动摘要研究中涉及到使用现有的聚类方法,这些聚类方法有一个共同的缺陷,那就是这些聚类方法往往无法自动估计类簇中心的个数,都需要人工给定聚类的数目。人工给定的聚类数目所产生的主题数量会产生偏差,因此无法自动发现文档集隐含的自然的潜在子主题。(2)现有的摘要方法在抽取这方面,仅仅考虑关键词的出现频率,而忽略描述相关子事件的文本内容的重要性。所以抽取的摘要冗余度高,重要句子提取不准确,覆盖率低,连贯性差等诸多局限性,而且抽取摘要所需要的时间也比较长。具体而言,本发明采用以下方案解决上述技术问题。
如图1和图2所示,本发明设计了一种同主题文本集合中多文本摘要获取方法,初始化针对文本集合中所有文本进行任意排序,并结合各文本中各句子的顺序,获得文本集合中所有句子的排序;以及结合各句子中各特征项的顺序,获得文本集合对应所有句子中所有特征项的顺序,然后执行如下步骤:
在文本处理的过程中,初始的自然文本一般不能被计算机直接处理,必须转化成某些数学或统计模型,才能被计算机所识别。而这一过程叫做文本的形式化表达,即文本的向量化表示。
首先将文本集合中的各个文本通过句子进行切分,将文本表示成为句子的集合。一般情况下,通过标点符号就能将文本切分为句子的集合。其次,对于每个句子,我们建立基于特征项的向量表达式,进而建立一个向量空间模型。
步骤A.根据如下公式:
Figure BDA0001600722970000051
获得文本集合中各句子的权重Wi,其中,fi表示文本集合对应所有句子中第i个句子在其所在文本中的频数;N表示文本集合中文本的数量。
在经过文本分词、停用词处理和稀有词处理等过程之后,从原始文档集合中提取出实词作为特征项,采用这种元数据来形式化的表示文档集合的内容,即根据如下公式:
Qj=log10(1+f(tj))×log10(I/Ij)
获得文本集合对应所有句子中各特征项的权重Qj,其中,f(tj)表示文本集合对应所有句子所有特征项中第j个特征项在其所在句子中的频数,Ij表示文本集合对应所有句子中包含第j个特征项的句子的数量,然后进入步骤B;其中,i∈{1、…、I},I表示文本集合中所有句子的总数,j∈{1、…、J},J表示文本集合对应所有句子中所有特征项的总数。
步骤B.根据文本集合中各句子权重Wi,以及文本集合对应所有句子中各特征项权重Qj,获得各句子分别与各特征项之间的相似度Sij,并按如下公式:
Figure BDA0001600722970000061
构建文本向量矩阵S(i,j),然后进入步骤C。
对于句子与特征项之间的相似度,若句子与特征项之间欧式距离为0时,则其彼此相似度为1;若句子与特征项之间欧式距离为无穷大时,则其彼此相似度为0;即句子与特征项之间欧式距离越大,则其彼此相似度单调下降。
步骤C.根据文本向量矩阵中各句子分别与各特征项之间的相似度Sij,分别获得文本集合中两两句子之间的距离,根据如下公式:
Figure BDA0001600722970000062
构建文本集合中所有句子对应的距离矩阵R(i,i'),并进一步获得文本集合中各个句子的空间坐标,然后进入步骤D;其中,i'∈{1、…、I}。
本发明接下来采用以下方法发现文本中的潜在子主题。方法要从整个文本数据集的内容信息统计中获取参数信息,以中心向量为圆心,用向量空间中特征值距离的平均值为半径构造圆,根据每个圆内样本数据点中的文本密度数量来排序确定初始聚类中心的数目。因此,聚类方法所需要的初始中心数就由程序动态地自动生成,而不需要进行事前设定。
步骤D.根据距离矩阵R(i,i'),引入句子密度排序方法,获得文本集合中所有句子所对应聚类中心的数量P,然后进入步骤E。
其中,上述步骤D具体包括如下步骤:
步骤D1.获得距离矩阵R(i,i')中所有两两句子之间距离的平均值k1,然后进入步骤D2。
步骤D2.分别针对文本集合中的各个句子,以句子的空间坐标为圆心,k1为半径,构建该句子所对应的圆形,并获得位于该圆形范围内句子的数量,作为该句子所对应的文本密度,进而获得文本集合中各个句子分别所对应的文本密度,然后进入步骤D3。
步骤D3.针对文本集合中的所有句子、按所对应文本密度由大至小的顺序进行排序,并基于排序,将对应相同文本密度的各个句子划分为一个集合,即获得按文本密度由大至小顺序所排序的各个句子集合,然后初始化l=1,并进入步骤D4。
步骤D4.按文本密度由大至小顺序,由第l个句子集合中任选一个句子,作为一个凝聚点,并针对l的值进行加1更新,然后进入步骤D5。
步骤D5.判断l是否大于L,是则进入步骤D7;否则进入步骤D6;L表示基于相同文本密度各个句子划分为一个集合操作后所获句子集合的数量。
步骤D6.按文本密度由大至小顺序,由第l个句子集合中任选一个句子,并判断该句子分别与已获得各凝聚点的之间的距离是否均大于2k1,是则将该句子作为一个凝聚点,否则针对l的值进行加1更新,并返回步骤D5。
步骤D7.统计所获凝聚点的数量,即获得文本集合中所有句子所对应聚类中心的数量P。
步骤E.根据文本集合中所有句子所对应聚类中心的数量P,针对文本集合中的所有句子进行聚类,获得P个子主题文档集合,然后进入步骤F。
上述步骤E具体如下:
1.根据给定的文本数据集,首先令I=1表示系统进行第I次聚类。根据上面得到的p个初始聚类中心,Zj(I),j=1,2,3,...,p
2.计算每个文本对象与聚类中心的距离fDis(Mi,Zj(I)),M=1,2,3...n;j=1,2,3,...p;
式子为:
fDis(Mi,Zj(I))=min{fDis(Mi,Zj(I)),i=1,2,3,...n}
3.计算p个新的聚类中心。
Figure BDA0001600722970000071
4.若Zj(I+1)≠Zj(I),j=1,2,3,...p,则I=I+1,返回公式(7);否则,方法结束。
步骤F.根据预设摘要句子总数,针对P个子主题文档集合,采用卷积神经网络进行处理,获得文本集合中多文本所对应的摘要。
得到子主题聚类文本以后,下一步:从各个子主题文本中抽取摘要句子,排序,最后进行格式化输出摘要。摘要抽取模块,本发明采用以下方法进行文本摘要的抽取,主要分两个部分:1.读取聚类后的文本对其进行编码;2.从文本中选择合适的句子,进行摘要的抽取,输出。
对于给定的文本集合D,包含句子序列{S1,…,Sn},选择总数20%句子生成文本摘要。对文本集合D中所有句子进行评分,并且预测文中句子是否属于摘要,通过使用标记tL∈{0,1}。本发明之所以使用有监督训练的目的是最大化标记
Figure BDA0001600722970000081
所有句子的可能性,设定给定输入文档D以及模型参数θ:
Figure BDA0001600722970000082
文本中句子编码过程是由系统自行控制,系统可以有效的训练文本数据集,并能顺利地用于句子分类任务。设定j表示词向量的维数,s是包含词序列(w1,...,wm)的句子,可用它表示为一个列矩阵w∈Rmxj。通过设定w和K∈Rfxj之间的宽度作为f的卷积,如下公式所示:
Figure BDA0001600722970000083
式子(10)中,符号⊙的含义是hadamard乘积,也就是对应元素相乘的结果。α表示的是偏差值,
Figure BDA0001600722970000084
表示第i个特征项中的第k个元素。
下一步,文本编码的部分是通过标准的并行神经网络把文本中的句子组合成文本向量。并行神经网络的隐状态可以用部分列表表示,这些列表一起构成了文本向量集合。设定文档D={s1,...,sn},参数ph是h时刻的隐状态,我们可以按以下公式进行调整:
ih=sigmoid(Wi·[ph-1;sh]+bi)
fh=sigmoid(Wf·[ph-1;sh]+bf)
ph=tanh(ih⊙fh)
上述式子中,符号⊙表示两元素的乘积,Wi,Wf为语义组合的自适应选择向量,参数bi,bf作为删除的历史向量。
下一步,程序读取好句子后,由抽取程序直接抽取中心句作为摘要句。程序抽取关键句子的时候要考虑摘要句与文本内容中心的相关性以及相关冗余特性等因素。设定h时刻编码程序的隐状态为(p1,...,pm),另外抽取程序的隐状态为
Figure BDA0001600722970000085
可以通过当前编码状态与对应编码状态关联,让编码器关注的重点放在中心相关性较高的句子上:
Figure BDA0001600722970000086
其中,MLP代表多层神经网络,用h时刻的隐状态与状态的连接
Figure BDA0001600722970000091
作为程序的输入,然后获取符合文本摘要的句子并且设置它的状态。最后,将抽取符合条件的句子作为多文本的摘要,进行输出展示。
相较于现有的方法,只根据句子的词频判定句子的重要性,所以生成的摘要不准确,覆盖率低,连贯性差。本发明首先通过对文本进行预处理,包括分词,停用词处理,特征选择,降维等。下一步,利用处理之后的特征词构造空间向量模型,生成距离矩阵。然后在聚类方法过程中加入样本密度排序的方法,以中心向量为圆心,用向量空间中特征值距离的平均值为半径构造圆,根据圆内排序好的文本内容相似度生成的样本密度来自动确定初始聚类中心,从而自动发现文档集合中的潜在对应的子主题集合的数量。然后,系统对已聚类的主题文本进行有监督的训练,对句子进行评分,标记,从不同的子主题中抽取相关度较高的句子作为多文本的摘要,最后,方法输出摘要的内容。通过这种方法生成的摘要质量更高,生成摘要的时间比现有的方法要快。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (4)

1.一种同主题文本集合中多文本摘要获取方法,其特征在于:初始化针对文本集合中所有文本进行任意排序,并结合各文本中各句子的顺序,获得文本集合中所有句子的排序;以及结合各句子中各特征项的顺序,获得文本集合对应所有句子中所有特征项的顺序,然后执行如下步骤:
步骤A.根据如下公式:
Figure FDA0003318785930000011
获得文本集合中各句子的权重Wi;其中,fi表示文本集合对应所有句子中第i个句子在其所在文本中的频数;N表示文本集合中文本的数量;以及获得文本集合对应所有句子中各特征项的权重Qj,然后进入步骤B;其中,i∈{1、…、I},I表示文本集合中所有句子的总数,j∈{1、…、J},J表示文本集合对应所有句子中所有特征项的总数;
步骤B.根据文本集合中各句子权重Wi,以及文本集合对应所有句子中各特征项权重Qj,获得各句子分别与各特征项之间的相似度Sij,并按如下公式:
Figure FDA0003318785930000012
构建文本向量矩阵S(i,j),然后进入步骤C;
步骤C.根据文本向量矩阵中各句子分别与各特征项之间的相似度Sij,分别获得文本集合中两两句子之间的距离,构建文本集合中所有句子对应的距离矩阵R(i,i'),并进一步获得文本集合中各个句子的空间坐标,然后进入步骤D;其中,i'∈{1、…、I};
步骤D.根据距离矩阵R(i,i'),引入句子密度排序方法,获得文本集合中所有句子所对应聚类中心的数量P,然后进入步骤E;
步骤E.根据文本集合中所有句子所对应聚类中心的数量P,针对文本集合中的所有句子进行聚类,获得P个子主题文档集合,然后进入步骤F;
步骤F.根据预设摘要句子总数,针对P个子主题文档集合,采用卷积神经网络进行处理,获得文本集合中多文本所对应的摘要。
2.根据权利要求1所述一种同主题文本集合中多文本摘要获取方法,其特征在于,所述步骤A中,根据如下公式:
Qj=log10(1+f(tj))×log10(I/Ij)
获得文本集合对应所有句子中各特征项的权重Qj;其中,f(tj)表示文本集合对应所有句子所有特征项中第j个特征项在其所在句子中的频数,Ij表示文本集合对应所有句子中包含第j个特征项的句子的数量。
3.根据权利要求1所述一种同主题文本集合中多文本摘要获取方法,其特征在于,所述步骤C中,根据文本向量矩阵中各句子分别与各特征项之间的相似度Sij,分别获得文本集合中两两句子之间的距离,并根据如下公式:
Figure FDA0003318785930000021
构建文本集合中所有句子对应的距离矩阵R(i,i')。
4.根据权利要求1所述一种同主题文本集合中多文本摘要获取方法,其特征在于,所述步骤D包括如下步骤:
步骤D1.获得距离矩阵R(i,i')中所有两两句子之间距离的平均值k1,然后进入步骤D2;
步骤D2.分别针对文本集合中的各个句子,以句子的空间坐标为圆心,k1为半径,构建该句子所对应的圆形,并获得位于该圆形范围内句子的数量,作为该句子所对应的文本密度,进而获得文本集合中各个句子分别所对应的文本密度,然后进入步骤D3;
步骤D3.针对文本集合中的所有句子、按所对应文本密度由大至小的顺序进行排序,并基于排序,将对应相同文本密度的各个句子划分为一个集合,即获得按文本密度由大至小顺序所排序的各个句子集合,然后初始化l=1,并进入步骤D4;
步骤D4.按文本密度由大至小顺序,由第l个句子集合中任选一个句子,作为一个凝聚点,并针对l的值进行加1更新,然后进入步骤D5;
步骤D5.判断l是否大于L,是则进入步骤D7;否则进入步骤D6;L表示基于相同文本密度各个句子划分为一个集合操作后所获句子集合的数量;
步骤D6.按文本密度由大至小顺序,由第l个句子集合中任选一个句子,并判断该句子分别与已获得各凝聚点的之间的距离是否均大于2k1,是则将该句子作为一个凝聚点,否则针对l的值进行加1更新,并返回步骤D5;
步骤D7.统计所获凝聚点的数量,即获得文本集合中所有句子所对应聚类中心的数量P。
CN201810223876.0A 2018-03-19 2018-03-19 一种同主题文本集合中多文本摘要获取方法 Active CN108595411B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810223876.0A CN108595411B (zh) 2018-03-19 2018-03-19 一种同主题文本集合中多文本摘要获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810223876.0A CN108595411B (zh) 2018-03-19 2018-03-19 一种同主题文本集合中多文本摘要获取方法

Publications (2)

Publication Number Publication Date
CN108595411A CN108595411A (zh) 2018-09-28
CN108595411B true CN108595411B (zh) 2022-02-01

Family

ID=63626832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810223876.0A Active CN108595411B (zh) 2018-03-19 2018-03-19 一种同主题文本集合中多文本摘要获取方法

Country Status (1)

Country Link
CN (1) CN108595411B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472021A (zh) * 2018-10-12 2019-03-15 北京诺道认知医学科技有限公司 基于深度学习的医学文献中关键句筛选方法及装置
CN109885683B (zh) * 2019-01-29 2022-12-02 桂林远望智能通信科技有限公司 一种基于K-means模型和神经网络模型的生成文本摘要的方法
CN111339303B (zh) * 2020-03-06 2023-08-22 成都晓多科技有限公司 一种基于聚类与自动摘要的文本意图归纳方法及装置
CN111737461B (zh) * 2020-06-03 2023-11-07 新华网股份有限公司 文本的处理方法、装置、电子设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043851A (zh) * 2010-12-22 2011-05-04 四川大学 一种基于频繁项集的多文档自动摘要方法
CN102411621A (zh) * 2011-11-22 2012-04-11 华中师范大学 一种基于云模型的中文面向查询的多文档自动文摘方法
CN103699525A (zh) * 2014-01-03 2014-04-02 江苏金智教育信息技术有限公司 一种基于文本多维度特征自动生成摘要的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043851A (zh) * 2010-12-22 2011-05-04 四川大学 一种基于频繁项集的多文档自动摘要方法
CN102411621A (zh) * 2011-11-22 2012-04-11 华中师范大学 一种基于云模型的中文面向查询的多文档自动文摘方法
CN103699525A (zh) * 2014-01-03 2014-04-02 江苏金智教育信息技术有限公司 一种基于文本多维度特征自动生成摘要的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种改进K-means聚类算法在多文档文摘中的应用;肖华松等;《第三届全国信息检索与内容安全学术会议》;20071101;第319-325页 *

Also Published As

Publication number Publication date
CN108595411A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN105824959B (zh) 舆情监控方法及系统
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN106156204B (zh) 文本标签的提取方法和装置
CN108595411B (zh) 一种同主题文本集合中多文本摘要获取方法
CN105045875B (zh) 个性化信息检索方法及装置
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN104881458B (zh) 一种网页主题的标注方法和装置
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN104077417B (zh) 社交网络中的人物标签推荐方法和系统
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN112836509B (zh) 一种专家系统知识库构建方法及系统
CN103186556B (zh) 得到和搜索结构化语义知识的方法及对应装置
CN108647322A (zh) 基于词网识别大量Web文本信息相似度的方法
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN113177102B (zh) 文本分类方法、装置、计算设备和计算机可读介质
CN110866102A (zh) 检索处理方法
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN111708942A (zh) 多媒体资源推送方法、装置、服务器及存储介质
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN112926340A (zh) 一种用于知识点定位的语义匹配模型
CN110110220A (zh) 融合社交网络和用户评价的推荐模型
CN109446522B (zh) 一种试题自动分类系统及方法
CN104615685B (zh) 一种面向网络话题的热度评价方法
CN110413985B (zh) 一种相关文本片段搜索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant