CN111177365A - 一种基于图模型的无监督自动文摘提取方法 - Google Patents

一种基于图模型的无监督自动文摘提取方法 Download PDF

Info

Publication number
CN111177365A
CN111177365A CN201911321569.7A CN201911321569A CN111177365A CN 111177365 A CN111177365 A CN 111177365A CN 201911321569 A CN201911321569 A CN 201911321569A CN 111177365 A CN111177365 A CN 111177365A
Authority
CN
China
Prior art keywords
sentence
sentences
graph model
sample
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911321569.7A
Other languages
English (en)
Other versions
CN111177365B (zh
Inventor
赵卫东
陈晓露
王铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Guancheng Software Co ltd
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN201911321569.7A priority Critical patent/CN111177365B/zh
Publication of CN111177365A publication Critical patent/CN111177365A/zh
Application granted granted Critical
Publication of CN111177365B publication Critical patent/CN111177365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于图模型的无监督自动文摘提取方法,属自然语言处理领域。本发明使用TF‑IDF模型得到样本特征词的IDF值,输入到PV‑IDF模型训练得到样本句子向量;利用关键词和句子位置等信息得到句子初始权重,生成惩罚矩阵;将句子初始权重输入图模型中初始化节点权重,句子向量相似度作为节点连线权重,迭代图模型得到句子得分并排序;将得分前n个候选文摘句利用惩罚矩阵筛选,得到文摘句;使用PV‑IDF模型训练句子向量计算相似度,初始化图模型节点权重,并使用惩罚矩阵对文摘句进行筛选,解决了现有无监督自动文摘方法语义相关度低,冗余度高的问题,在R1和RL指标有了显著的提高,有效提高了文摘质量。

Description

一种基于图模型的无监督自动文摘提取方法
技术领域
本发明属于自然语言处理领域,具体涉及一种基于图模型的无监督自动文摘提取方法。
背景技术
随着大数据时代的到来,如何从海量的信息中快速准确的提炼出关键信息已经成为一个亟需解决的重要问题。文本摘要在新闻信息提取、科技文献检索、商品评论分析等领域都有重要应用。随着深度学习理论和方法的快速发展,已广泛应用于文本特征提取等自然语言处理领域。自动摘要可以从很多角度进行分类,按照有无监督数据来划分,可以分为有监督和无监督自动文摘方法。有监督摘要方法需要从文件中选取主要内容作为训练数据,将文摘视为句子层面的分类问题,需要大量的注释和标签数据,会消耗大量的人力资源和时间成本。无监督的文本摘要系统不需要任何监督数据,仅通过对文档进行检索即可形成摘要。但是目前的无监督摘要没有充分挖掘和利用语义之间的关系,对文档数据利用不充分,文摘冗余度高,存在诸多局限性,为了解决无监督自动文摘方法存在的主要问题,本发明提出了一种适用于中文文本摘要的自动提取算法。
目前,有关无监督的自动文摘算法的研究有很多。其中,iTextRank算法在图模型节点构建时考虑引入标题、段落、句子位置和长度等信息,有效提高了TextRank算法文摘质量,但并未考虑文本语义信息。而DK-TextRank算法使用Doc2Vec训练句子向量,并使用K-means算法对句子向量进行聚类,该算法考虑了文章语义对文摘的影响,但首先使用K-means聚类会导致信息损失,某些文摘句在输入图模型之前就会被提前删除。杨山等人使用Word2Vec模型训练词向量,并利用句子中词向量叠加求均值作为句子的向量表示,输入TextRank图模型进行迭代,该算法考虑使用了Word2Vec求均值的方法来表示含有语义信息的句子向量,但利用该方法得到的句子向量无法准确表示句子中的语义信息,从而影响文摘质量。
发明内容
针对现有的无监督文摘技术语义相关度低、文摘句冗余度高的问题,本发明提出了一种基于图模型的无监督自动文摘提取方法,提高了现有无监督自动文摘质量。
为了实现上述目的,本发明采用如下技术方案:
一种基于图模型的无监督自动文摘提取方法,包括如下步骤:
步骤1:对测试数据以及语料库的文本进行预处理;
步骤2:使用TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆文档频率指数)模型,训练得到样本特征词频率和逆文档频率;
步骤3:将预处理后的文本和特征词逆文档频率输入到PV-IDF(Inverse DocumentFrequency of Paragraph Vectors,逆文档频率段落向量模型)模型中,训练得到样本句子向量;
步骤4:利用步骤2得到的样本特征词频率,结合句子位置和标题相似度,计算得到样本句子初始权重;
步骤5:利用步骤3训练得到的样本句子向量,计算得到样本句子相似度矩阵ω,利用步骤4得到的样本句子初始权重,计算得到惩罚矩阵ω′;
步骤6:将步骤4得到的样本句子初始权重输入TextRank图模型中作为TextRank图模型节点初始权重,样本句子向量作为TextRank图模型连线权重;
步骤7:迭代TextRank图模型得到权重最高的n个句子,作为候选文摘句;
步骤8:根据步骤5得到的惩罚矩阵ω′,对候选文摘句进行筛选,得到文摘句;
步骤9:将文摘句按照原文的语序输出,并进行平滑处理。
优选地,在步骤1中,对文本进行预处理,主要包括:(1)去除文本中特殊符号、图片、表格以及计算机语言无法识别的文字;(2)文本分割:将文本中句子进行分词处理,并去除停用词,得到有关键词组成的文本句子集合和关键词集;(3)将文本句子集合中的句子进行标号,并特殊标记文章中首段前三句和首段段尾句。
优选地,在步骤4中,具体包括如下步骤:
步骤4.1:根据公式(1)、(2),计算句子si基于标题的权重
Figure BDA0002327277820000021
Figure BDA0002327277820000022
Figure BDA0002327277820000023
其中,σ表示基于标题的初始权重,t表示文章标题,π表示句子维数,wt表示标准化后基于标题的权重;
步骤4.2:根据公式(3),计算句子si基于关键词的权重
Figure BDA0002327277820000024
Figure BDA0002327277820000025
其中,fk表示标号为k的关键词在句子si中的频率,rk表示特征词的逆文档频率,T表示特征词数量;
步骤4.3:根据公式(4),计算句子si基于位置的初始权重
Figure BDA0002327277820000026
Figure BDA0002327277820000031
步骤4.4:根据公式(5),计算样本句子综合权重:
Figure BDA0002327277820000032
其中,α、β、γ为比例参数,W(si)表示句子si的综合权重。
优选地,在步骤5中,具体包括如下步骤:
步骤5.1:根据公式(6),计算样本句子相似度矩阵ω:
Figure BDA0002327277820000033
其中,simij为文本句子集合中标号为i的词和标号为j的句子相似度;
步骤5.2:根据句子初始权重和句子相似度矩阵,以及公式(7)所示的惩罚规则,得到包含删除策略的由0和1组成的惩罚矩阵ω′;
Figure BDA0002327277820000034
优选地,在步骤8中,筛选策略如公式(8)所示:
Figure BDA0002327277820000035
本发明所带来的有益技术效果:
本发明使用PV-IDF模型训练句子向量计算相似度,初始化图模型节点权重,并使用惩罚矩阵对文摘句进行筛选,解决了现有无监督自动文摘方法语义相关度低,冗余度高的问题。实验结果表明,本发明提出的方法在R1和RL指标有了显著的提高,分别达到0.455和0.439,有效提高了文摘质量。
附图说明
图1为PV-IDF模型示意图。
图2为本发明方法的流程图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
一种基于图模型的无监督自动文摘提取方法,其流程如图2所示,包括如下步骤:
步骤1:对测试数据以及语料库的内容进行预处理;
对文本进行预处理,主要包括:(1)去除文本中特殊符号、图片、表格以及计算机语言无法识别的文字;(2)文本分割:将文档中句子进行分词处理,并去除停用词,得到有关键词组成的句子集合和关键词集;(3)将文本句子集合中的句子进行标号,并特殊标记文章中首段前三句和首段段尾句。
步骤2:使用TF-IDF模型,得到样本特征词频率和逆文档频率;
步骤3:将预处理后的文本和特征词逆文档频率输入到PV-IDF模型中,训练得到样本句子向量;
PV-DM(Distributed Memory Model of Paragraph Vectors,分布记忆模型)模型将文档ID与语料库中所有词共同组成定长的初始向量,为了使训练得到的向量包含更加丰富的语义信息的同时,提高句子向量训练效率,本发明申请选用PV-IDF的文档向量表示方法,以输入文档的逆文档频率(Inverse Document Frequency,IDF)作为指标,删除关键词集中与文档相关度较低的词,用以词向量的降维和高信息量聚集。
使用TF-IDF算法训练得到样本,得到文档dj中特征词频率(Term Frequency,TF)
(F1,F2,…,FT)和逆文档频率(r1,r2,…,rT)。TF指的是特征词在指定文档中出现的频率,TF的计算方法如公式(9)所示:
Figure BDA0002327277820000041
其中,ni,j是特征词ti在文件dj中出现的次数,分母∑knk,j是指文档dj中所有词汇出现的次数总和,TFij表示文档dj中单词ti出现的频率。
逆文档频率主要指一个词语普遍重要性的度量,也就是说包含某特征词的文档数越少,其IDF值就越大,则说明该关键词具有很好的类别区分能力,如公式(10)所示:
Figure BDA0002327277820000042
其中,|D|为语料库中的文件总数,|{j:ti∈dj}|表示包含特征词ti的文件数目,IDFij表示文档特征词ti的逆文档频率。
删除文档中逆文档频率低于阈值θ的关键词得到向量A,删除策略如公式(11)所示:
Figure BDA0002327277820000043
将删除后的词集输入到模型PV-IDF模型中用来表示文档特征S,设当前文档中第t个词为中心词,该词的上下文是ct
经过训练可以得到由128向量表示的文摘句子集合S{s1,s2,…,sT}和文摘标题向量t。
根据图1给出的模型训练可以得到包含语义信息的文档句子向量st,句子向量维数为128维。
步骤4:利用步骤2得到的样本特征词频率,结合句子位置和标题相似度,计算得到样本句子初始权重W(si);具体包括如下步骤:
步骤4.1:中文标题往往反映着文本的主题,文本中的一个句子与文本标题的相似度越大,被抽取的可能性就越大,本发明申请选用128维;根据公式(1)、(2),计算句子si基于标题的权重
Figure BDA0002327277820000051
Figure BDA0002327277820000052
Figure BDA0002327277820000053
其中,σ表示基于标题的初始权重,t表示文章标题,π表示句子维数,wt表示标准化后基于标题的权重;
步骤4.2:关键词是通常的反映文章主题的词语,一个句子包含的关键词越多,其信息量越大,句子越重要,根据步骤2得到的关键词逆文档频率,可以得到基于关键词的句子si的权重计算规则,通过统计句子中关键词频率和关键词逆文档频率相乘累加得到文档句子权重,根据公式(3),计算句子si基于关键词的权重
Figure BDA0002327277820000054
Figure BDA0002327277820000055
其中,fk表示标号为k的关键词在句子si中的频率;
Figure BDA0002327277820000056
表示关键词在句子中的权重之和;
步骤4.3:统计表明,反应主题的摘要句出现在文章第一段段首和段尾的可能性较大,其中第一段段首前三句中出现文摘句的可能性最大,根据公式(4),计算句子si基于位置的初始权重
Figure BDA0002327277820000057
Figure BDA0002327277820000058
步骤4.4:综合文章标题、关键词和文章句子权重,根据公式(5),计算样本句子综合权重:
Figure BDA0002327277820000061
其中,α、β、γ为比例参数,W(si)表示句子si的综合权重。
步骤5:利用步骤3训练得到的样本句子向量,计算得到样本句子相似度矩阵ω,利用步骤4得到的样本句子初始权重,计算得到惩罚矩阵ω′;
通过余弦相似度算法计算两个句子之间的相似度sim(A,B),A和B是通过PV-IDF模型训练得到的句子向量,根据步骤1和步骤2得到的文本句子向量集合和逆文档频率可以生成文本句子相似度矩阵。
具体包括如下步骤:
步骤5.1:根据公式(6),计算样本句子相似度矩阵ω:
Figure BDA0002327277820000062
其中,simij为文本句子集合中标号为i的词和标号为j的句子相似度;
步骤5.2:根据句子初始权重和句子相似度矩阵,以及公式(7)所示的惩罚规则,得到包含删除策略的由0和1组成的惩罚矩阵ω′;
Figure BDA0002327277820000063
步骤6:将步骤4得到的样本句子初始权重输入TextRank图模型中作为TextRank图模型节点初始权重,样本句子向量作为TextRank图模型连线权重;
将文章句子作为TextRank图模型节点,构件图模型G=(v,e),其中v为由句子组成的节点集,由步骤1生成的文档组句子集合组成,e为边集合,利用步骤4训练得到的句子相似度矩阵算得,句子相似度大于阈值
Figure BDA0002327277820000064
的句子连接起来作为图模型的边,边的权值为矩阵中得到的句子相似度。将节点Vi的初始权重设置为步骤2得到的句子初始权重,建立图模型。节点Vi的得分定义如公式(12)所示:
Figure BDA0002327277820000071
其中,In(vi)是指向节点i的节点集合,Out(vj)是节点j指向的节点集合。d为阻尼系数,在文本图模型中,句子相似度小于阈值
Figure BDA0002327277820000073
的没有连线,通常情况下,d的取值为0.85。
步骤7:迭代TextRank图模型得到权重最高的n个句子,作为候选文摘句;
根据公式(12)迭代传播各节点的权重,直至收敛,得到各个句子得分并倒序排列,抽取句子得分最高的t个句子作为候选文摘句。
步骤8:根据步骤5得到的惩罚矩阵ω′,对候选文摘句进行筛选,得到文摘句;
由于图模型迭代得到的高分句子存在较大的冗余度,本发明申请利用步骤4得到的惩罚矩阵ω′来筛选候选文摘句中最能表达文章语义且与候选文摘句有最小冗余度的句子,筛选策略如公式(8)所示:
Figure BDA0002327277820000072
步骤9:将文摘句按照原文的语序输出,并进行平滑处理。
本实例是提取新闻类文本摘要,由于本发明的算法具有普适性,所以要求新闻素材选取广泛,选取500篇新闻文本作为样本。
本发明实验语言为Python3.7,在Anaconda环境下进行编程,基于TensorFlow实现PV-IDF模型训练,使用jieba分词工具对语料进行分词,并在样本预处理阶段引入外部停用词词典进行删除操作。
随机选取一篇科技类新闻检测样本β,标题为“自然语言处理的发展历程”
文本β第一段,其内容为:
“自然语言处理是计算机科学领域和人工智能领域中的一个分支,它与计算机和人类之间使用自然语言进行互动密切相关。自然语言处理的最终目标是使计算机能够像人类一样理解语言。它是虚拟助手、语音识别、情感分析、自动文本摘要、机器翻译等的驱动力。自然语言处理是计算机科学、语言学和机器学习的交叉点,它关注计算机与人类之间使用自然语言中的沟通交流。总之,自然语言处理致力于让计算机能够理解和生成人类语言。自然语言处理技术应用可以于多个领域,比如天猫精灵和Siri这样的语音助手,还有机器翻译和文本过滤等。”
如图2所示,一种无监督的自动文摘提取算法,以样本β为例,包括以下步骤:
1、对测试数据集以及语料库的内容预处理:
对文本β预处理后:
[(自然语言/处理/计算机科学/领域/人工智能/领域/分支/计算机/人类/自然语言/互动/密切相关)f1,(自然语言/处理/最终/目标/计算机/人类/理解/语言)f2,(虚拟助手/语音识别/情感分析/自动文本/摘要/机器翻译/驱动力)f3,(自然语言/处理/计算机科学/语言学/机器学习/交叉点)c4,(关注/计算机/人类/自然语言/沟通/交流)c5,(自然语言/处理/计算机/理解/生成/人类语言)c6,(自然语言/处理/技术/应用/领域/天猫精灵/Siri/语音助手/机器翻译/文本过滤)e7]
其中,句子标号f1表示此句为文章第一段段首句,e7表示此句为文章第一段段尾句。
2、对于文本β,利用TF-IDF模型来计算关键词权重。其中,除“自然语言”对应的TF值为0.1272,“处理”对应的TF值为0.0909,其余特征词的TF值均较低。
文本β的部分特征词IDF值如表1:
表1
Figure BDA0002327277820000081
根据TF-IDF算法,并考虑句子在文章中位置和句子与标题相似度,可以得到文章句子的初始权重。
文本β第一段中各个句子初始权重如表2:
表2
Figure BDA0002327277820000082
如上表所示,f1的初始权重较大,主要原因是f1的包含特征词较多,句子位置处于文章第一段句首且与文章标题相似度较高,所以f1作为文摘句的可能较高;f3虽然是文章首段第三句,可是句子中包含关键词数量较少,所以权重较低;e7属于文章首段段尾句,且包含关键词,所以权重较高。
3、利用PV-IDF模型训练得到文档句子向量,该模型利用关键词的逆文档频率作为指标,去掉了句子中冗余或贡献较小的词,得到的句子向量不仅低维稠密,还包含丰富的语义信息。
输入500篇新闻样本,用于训练PV-IDF模型,得到文本β句子向量,使用余弦相似度计算两个句子向量之间的相似程度,并利用其结果与文章中其他句子向量建立相似度矩阵。
Figure BDA0002327277820000091
其中下标n代表着文章中句子的标号,例如:sim45代表着标号为4和标号为5的句子之间的相似程度,也就是句子“(自然语言/处理/计算机科学/语言学/机器学习/交叉点)”和句子“(关注/计算机/人类/自然语言/沟通/交流)”的句义相似度。测试文档β的句子相似度矩阵ωβ如下:
Figure BDA0002327277820000092
经过转化后的矩阵ω′β如下:
Figure BDA0002327277820000093
4、将表2得到的句子初始权重表输入到图模型中作为图模型的句子节点的初始权重,将句子相似度矩阵ωβ作为节点间连线权重,为了减少图模型连线的时间成本,只将句子相似度大于阈值
Figure BDA0002327277820000095
的句子连接起来。
迭代图模型,得到权重最高的n个句子,排名前5的句子标号如表3所示:
表3
Figure BDA0002327277820000094
Figure BDA0002327277820000101
5、将上表中得分最高的n个句子,按照矩阵ω′β的规则进行删减,比如ω′β14=1,ω′β41=0,则保留标号为1的句子,删除标号为4的句子。
6、将筛选后的文摘句按照原文的语序输出,并进行平滑处理,得到输出后的文章β的摘要:
“自然语言处理是计算机科学领域和人工智能领域中的一个分支,它与计算机和人类之间使用自然语言进行互动密切相关。自然语言处理的最终目标是使计算机能够像人类一样理解语言。自然语言处理致力于让计算机能够理解和生成人类语言。随着计算机对语言的理解愈渐完美,将会产生可以处理互联网上全部信息的人工智能,继而产生强人工智能。”
在本发明申请训练所使用的样本中各个类型的新闻数量大致相等的条件下,随机选取200篇新闻样本用于验证自动文摘效果。由于ROUGE属目前自动文摘系统评价的主流方法,所以采用ROUGE中生成摘要与相应参考摘要的一元召回率(R1)、二元召回率(R2)和最长公共序列的召回率(RL)作为文本摘要的评价指标。计算得到200篇新闻样本一元召回率(R1)、二元召回率(R2)和最长公共序列的召回率(RL)的平均值。
本发明申请对比TextRank、LexRank和TF-IDF无监督自动文摘方法,一元召回率、二元召回率及最长公共序列的召回率,如表4所示:
表4
Figure BDA0002327277820000102
对于IDF值较低的特征词,对于文章语义表示关联度较低,本发明采用PV-IDF句子向量表示模型,去掉了冗余或贡献较小的词,利用IDF值较高的关键词来训练句子向量,得到高质量的包含语义信息的句子向量表示。并利用图模型和句子相似度矩阵得到得分较高的句子并通过惩罚矩阵进行筛选。由表4的实验结果表明,本发明申请提出的方法在R1和RL指标有了显著的提高,分别达到0.455和0.439,有效提高了文摘质量。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (5)

1.一种基于图模型的无监督自动文摘提取方法,其特征在于:包括如下步骤:
步骤1:对测试数据以及语料库的文本进行预处理;
步骤2:使用TF-IDF模型,训练得到样本特征词频率和逆文档频率;
步骤3:将预处理后的文本和特征词逆文档频率输入到PV-IDF模型中,训练得到样本句子向量;
步骤4:利用步骤2得到的样本特征词频率,结合句子位置和标题相似度,计算得到样本句子初始权重;
步骤5:利用步骤3训练得到的样本句子向量,计算得到样本句子相似度矩阵ω,利用步骤4得到的样本句子初始权重,计算得到惩罚矩阵ω′;
步骤6:将步骤4得到的样本句子初始权重输入TextRank图模型中作为TextRank图模型节点初始权重,样本句子向量作为TextRank图模型连线权重;
步骤7:迭代TextRank图模型得到权重最高的n个句子,作为候选文摘句;
步骤8:根据步骤5得到的惩罚矩阵ω′,对候选文摘句进行筛选,得到文摘句;
步骤9:将文摘句按照原文的语序输出,并进行平滑处理。
2.根据权利要求1所述的基于图模型的无监督自动文摘提取方法,其特征在于:在步骤1中,对文本进行预处理,主要包括:(1)去除文本中特殊符号、图片、表格以及计算机语言无法识别的文字;(2)文本分割:将文本中句子进行分词处理,并去除停用词,得到有关键词组成的文本句子集合和关键词集;(3)将文本句子集合中的句子进行标号,并特殊标记文章中首段前三句和首段段尾句。
3.根据权利要求1所述的基于图模型的无监督自动文摘提取方法,其特征在于:在步骤4中,具体包括如下步骤:
步骤4.1:根据公式(1)、(2),计算句子si基于标题的权重
Figure FDA0002327277810000011
Figure FDA0002327277810000012
Figure FDA0002327277810000013
其中,σ表示基于标题的初始权重,t表示文章标题,π表示句子维数,wt表示标准化后基于标题的权重;
步骤4.2:根据公式(3),计算句子si基于关键词的权重
Figure FDA0002327277810000014
Figure FDA0002327277810000021
其中,fk表示标号为k的关键词在句子si中的频率,rk表示特征词的逆文档频率,T表示特征词数量;
步骤4.3:根据公式(4),计算句子si基于位置的初始权重
Figure FDA0002327277810000022
Figure FDA0002327277810000023
步骤4.4:根据公式(5),计算样本句子综合权重:
Figure FDA0002327277810000024
其中,α、β、γ为比例参数,W(si)表示句子si的综合权重。
4.根据权利要求1所述的基于图模型的无监督自动文摘提取方法,其特征在于:在步骤5中,具体包括如下步骤:
步骤5.1:根据公式(6),计算样本句子相似度矩阵ω:
Figure FDA0002327277810000025
其中,simij为文本句子集合中标号为i的词和标号为j的句子相似度;
步骤5.2:根据句子初始权重和句子相似度矩阵,以及公式(7)所示的惩罚规则,得到包含删除策略的由0和1组成的惩罚矩阵ω′;
Figure FDA0002327277810000026
5.根据权利要求1所述的基于图模型的无监督自动文摘提取方法,其特征在于:在步骤8中,筛选策略如公式(8)所示:
Figure FDA0002327277810000027
CN201911321569.7A 2019-12-20 2019-12-20 一种基于图模型的无监督自动文摘提取方法 Active CN111177365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911321569.7A CN111177365B (zh) 2019-12-20 2019-12-20 一种基于图模型的无监督自动文摘提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911321569.7A CN111177365B (zh) 2019-12-20 2019-12-20 一种基于图模型的无监督自动文摘提取方法

Publications (2)

Publication Number Publication Date
CN111177365A true CN111177365A (zh) 2020-05-19
CN111177365B CN111177365B (zh) 2022-08-02

Family

ID=70653926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911321569.7A Active CN111177365B (zh) 2019-12-20 2019-12-20 一种基于图模型的无监督自动文摘提取方法

Country Status (1)

Country Link
CN (1) CN111177365B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639175A (zh) * 2020-05-29 2020-09-08 电子科技大学 一种自监督的对话文本摘要方法及系统
CN111651588A (zh) * 2020-06-10 2020-09-11 扬州大学 一种基于有向图的文章摘要信息提取算法
CN111782684A (zh) * 2020-07-14 2020-10-16 广东电网有限责任公司电力调度控制中心 一种配网电子化移交信息匹配方法及装置
CN111813925A (zh) * 2020-07-14 2020-10-23 混沌时代(北京)教育科技有限公司 一种基于语义的无监督自动摘要方法及系统
CN111859950A (zh) * 2020-06-18 2020-10-30 达而观信息科技(上海)有限公司 一种自动化生成讲稿的方法
CN112182210A (zh) * 2020-09-25 2021-01-05 四川华空天行科技有限公司 基于作文论据特征分类器的语言生成模型及写作支持方法
CN112464635A (zh) * 2020-07-27 2021-03-09 上海汇招信息技术有限公司 投标文件自动打分的方法及其系统
CN112784036A (zh) * 2020-12-31 2021-05-11 山西三友和智慧信息技术股份有限公司 基于无监督集成学习的抽取式文本摘要方法
CN112818113A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于异构图网络的文本自动摘要方法
CN112883722A (zh) * 2021-03-04 2021-06-01 中山大学 一种基于云数据中心分布式文本摘要方法
CN113378557A (zh) * 2021-05-08 2021-09-10 重庆邮电大学 一种基于容错粗糙集的自动关键字提取方法、介质及系统
CN113408286A (zh) * 2021-05-28 2021-09-17 浙江工业大学 一种面向机械化工领域的中文实体识别方法和系统
CN113505200A (zh) * 2021-07-15 2021-10-15 河海大学 一种结合文档关键信息的句子级中文事件检测的方法
CN113626584A (zh) * 2021-08-12 2021-11-09 中电积至(海南)信息技术有限公司 一种自动文本摘要生成方法、系统、计算机设备和存储介质
CN113836274A (zh) * 2021-11-25 2021-12-24 平安科技(深圳)有限公司 基于语义解析的摘要提取方法、装置、设备及介质
CN114218923A (zh) * 2021-12-20 2022-03-22 北京中科闻歌科技股份有限公司 文本摘要抽取方法、装置、设备及存储介质
CN114706972A (zh) * 2022-03-21 2022-07-05 北京理工大学 一种基于多句压缩的无监督科技情报摘要自动生成方法
CN115186665A (zh) * 2022-09-15 2022-10-14 北京智谱华章科技有限公司 一种基于语义的无监督学术关键词提取方法及设备
CN116796754A (zh) * 2023-04-20 2023-09-22 浙江浙里信征信有限公司 基于时变上下文语义序列成对比较的可视分析方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216875A (zh) * 2014-09-26 2014-12-17 中国科学院自动化研究所 基于非监督关键二元词串提取的微博文本自动摘要方法
CN105243152A (zh) * 2015-10-26 2016-01-13 同济大学 一种基于图模型的自动文摘方法
CN106528642A (zh) * 2016-10-13 2017-03-22 广东广业开元科技有限公司 一种基于tf‑idf特征提取的短文本分类方法
CN108920466A (zh) * 2018-07-27 2018-11-30 杭州电子科技大学 一种基于word2vec和TextRank的科技文本关键词提取方法
CN109960724A (zh) * 2019-03-13 2019-07-02 北京工业大学 一种基于tf-idf的文本摘要方法
CN110362815A (zh) * 2018-04-11 2019-10-22 北京京东尚科信息技术有限公司 文本向量生成方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216875A (zh) * 2014-09-26 2014-12-17 中国科学院自动化研究所 基于非监督关键二元词串提取的微博文本自动摘要方法
CN105243152A (zh) * 2015-10-26 2016-01-13 同济大学 一种基于图模型的自动文摘方法
CN106528642A (zh) * 2016-10-13 2017-03-22 广东广业开元科技有限公司 一种基于tf‑idf特征提取的短文本分类方法
CN110362815A (zh) * 2018-04-11 2019-10-22 北京京东尚科信息技术有限公司 文本向量生成方法和装置
CN108920466A (zh) * 2018-07-27 2018-11-30 杭州电子科技大学 一种基于word2vec和TextRank的科技文本关键词提取方法
CN109960724A (zh) * 2019-03-13 2019-07-02 北京工业大学 一种基于tf-idf的文本摘要方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LU YAO.ET.L: "Research on News Keyword Extraction Technology Based on TF-IDF and TextRank", 《2019 IEEE/ACIS 18TH INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION SCIENCE (ICIS)》 *
买哈铺热提·外力等: "基于关键词的维吾尔单文档自动文摘技术研究", 《计算机工程与应用》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639175A (zh) * 2020-05-29 2020-09-08 电子科技大学 一种自监督的对话文本摘要方法及系统
CN111639175B (zh) * 2020-05-29 2023-05-02 电子科技大学 一种自监督的对话文本摘要方法及系统
CN111651588A (zh) * 2020-06-10 2020-09-11 扬州大学 一种基于有向图的文章摘要信息提取算法
CN111651588B (zh) * 2020-06-10 2024-03-05 扬州大学 一种基于有向图的文章摘要信息提取算法
CN111859950A (zh) * 2020-06-18 2020-10-30 达而观信息科技(上海)有限公司 一种自动化生成讲稿的方法
CN111813925A (zh) * 2020-07-14 2020-10-23 混沌时代(北京)教育科技有限公司 一种基于语义的无监督自动摘要方法及系统
CN111782684A (zh) * 2020-07-14 2020-10-16 广东电网有限责任公司电力调度控制中心 一种配网电子化移交信息匹配方法及装置
CN111782684B (zh) * 2020-07-14 2023-12-29 广东电网有限责任公司电力调度控制中心 一种配网电子化移交信息匹配方法及装置
CN112464635A (zh) * 2020-07-27 2021-03-09 上海汇招信息技术有限公司 投标文件自动打分的方法及其系统
CN112182210A (zh) * 2020-09-25 2021-01-05 四川华空天行科技有限公司 基于作文论据特征分类器的语言生成模型及写作支持方法
CN112182210B (zh) * 2020-09-25 2023-11-24 四川华空天行科技有限公司 基于作文论据特征分类器的语言生成模型及写作支持方法
CN112784036A (zh) * 2020-12-31 2021-05-11 山西三友和智慧信息技术股份有限公司 基于无监督集成学习的抽取式文本摘要方法
CN112818113A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于异构图网络的文本自动摘要方法
CN112883722B (zh) * 2021-03-04 2023-04-21 中山大学 一种基于云数据中心分布式文本摘要方法
CN112883722A (zh) * 2021-03-04 2021-06-01 中山大学 一种基于云数据中心分布式文本摘要方法
CN113378557A (zh) * 2021-05-08 2021-09-10 重庆邮电大学 一种基于容错粗糙集的自动关键字提取方法、介质及系统
CN113378557B (zh) * 2021-05-08 2022-08-23 重庆邮电大学 一种基于容错粗糙集的自动关键字提取方法、介质及系统
CN113408286A (zh) * 2021-05-28 2021-09-17 浙江工业大学 一种面向机械化工领域的中文实体识别方法和系统
CN113505200A (zh) * 2021-07-15 2021-10-15 河海大学 一种结合文档关键信息的句子级中文事件检测的方法
CN113505200B (zh) * 2021-07-15 2023-11-24 河海大学 一种结合文档关键信息的句子级中文事件检测的方法
CN113626584A (zh) * 2021-08-12 2021-11-09 中电积至(海南)信息技术有限公司 一种自动文本摘要生成方法、系统、计算机设备和存储介质
CN113836274A (zh) * 2021-11-25 2021-12-24 平安科技(深圳)有限公司 基于语义解析的摘要提取方法、装置、设备及介质
CN114218923B (zh) * 2021-12-20 2022-08-30 北京中科闻歌科技股份有限公司 文本摘要抽取方法、装置、设备及存储介质
CN114218923A (zh) * 2021-12-20 2022-03-22 北京中科闻歌科技股份有限公司 文本摘要抽取方法、装置、设备及存储介质
CN114706972A (zh) * 2022-03-21 2022-07-05 北京理工大学 一种基于多句压缩的无监督科技情报摘要自动生成方法
CN115186665A (zh) * 2022-09-15 2022-10-14 北京智谱华章科技有限公司 一种基于语义的无监督学术关键词提取方法及设备
CN116796754A (zh) * 2023-04-20 2023-09-22 浙江浙里信征信有限公司 基于时变上下文语义序列成对比较的可视分析方法及系统

Also Published As

Publication number Publication date
CN111177365B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
CN114065758B (zh) 一种基于超图随机游走的文档关键词抽取方法
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
Saif et al. Reducing explicit semantic representation vectors using Latent Dirichlet Allocation
Weerasinghe et al. Feature Vector Difference based Authorship Verification for Open-World Settings.
Gopan et al. Comparative study on different approaches in keyword extraction
Tahrat et al. Text2geo: from textual data to geospatial information
Silessi et al. Identifying gender from SMS text messages
US8862459B2 (en) Generating Chinese language banners
Heidary et al. Automatic Persian text summarization using linguistic features from text structure analysis
CN115455975A (zh) 基于多模型融合决策提取主题关键词的方法及装置
Tang et al. Text semantic understanding based on knowledge enhancement and multi-granular feature extraction
Wang et al. Course concept extraction in MOOC via explicit/implicit representation
Maylawati et al. Feature-based approach and sequential pattern mining to enhance quality of Indonesian automatic text summarization
CN114996455A (zh) 一种基于双知识图谱的新闻标题短文本分类方法
Thilagavathi et al. Document clustering in forensic investigation by hybrid approach
Ahmad et al. News article summarization: Analysis and experiments on basic extractive algorithms
Li et al. Keyphrase extraction and grouping based on association rules

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231106

Address after: 266000 room 2102, 21 / F, block B, No.1 Keyuan Weiyi Road, Laoshan District, Qingdao City, Shandong Province

Patentee after: Qingdao Guancheng Software Co.,Ltd.

Address before: 579 qianwangang Road, Huangdao District, Qingdao City, Shandong Province

Patentee before: SHANDONG University OF SCIENCE AND TECHNOLOGY

TR01 Transfer of patent right