CN111737453B - 一种基于无监督的多模型融合抽取式文本摘要方法 - Google Patents
一种基于无监督的多模型融合抽取式文本摘要方法 Download PDFInfo
- Publication number
- CN111737453B CN111737453B CN202010476581.1A CN202010476581A CN111737453B CN 111737453 B CN111737453 B CN 111737453B CN 202010476581 A CN202010476581 A CN 202010476581A CN 111737453 B CN111737453 B CN 111737453B
- Authority
- CN
- China
- Prior art keywords
- abstract
- sentence
- document
- sentences
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000004927 fusion Effects 0.000 title claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 60
- 238000004364 calculation method Methods 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 21
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 238000013016 damping Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息抽取领域,公开了一种基于无监督的多模型融合抽取式文本摘要方法,解决了现有的抽取式文本摘要技术,无法考虑到句子的语义信息,抽取的结果无法准确全面地描述文章内容的问题,其技术方案要点是预先对中心度文本摘要模型进行训练优化,优化后对预处理后的待处理文档进行计算得到第一批摘要summary1;用语义相似度捕捉模型对预处理后的待处理文档计算得到第二批摘要summary2;融合第一批摘要summary1和第二批摘要summary2得到候选摘要middle_summary;使用MMR算法对候选摘要middle_summary计算得到最终摘要final_summary,利用多模型融合的方式,对文本内容进行语义理解和分析,充分考虑句子的位置信息,能够准确的计算每个句子的重要程度,提高了摘要结果的准确性、灵活性和多样性。
Description
技术领域
本发明涉及信息抽取领域,更具体地说,它涉及一种基于无监督的多模型融合抽取式文本摘要方法。
背景技术
随着人们的生活节奏的加快,人们对文本阅读的耐心也随之减少,在人们需要读取一长段新闻或者冗长的学术论文时,往往因为文本篇幅过长而失去阅读耐心,所以为了加快阅读速度,目前市场上出现了对文章进行智能重要信息抽取的技术,以便人们可以快速了解到文章中的重点信息,节约阅读时间,提高阅读者的阅读效率。
现有的抽取式文本摘要技术,无法考虑到句子的语义信息,抽取的结果过于单一,信息冗余,丢失部分重要信息,抽取的结果无法准确全面地描述文章内容。
发明内容
本发明的目的是提供一种基于无监督的多模型融合抽取式文本摘要方法,利用多模型融合的方式,对文本内容进行语义理解和分析,充分考虑句子的位置信息,能够准确的计算每个句子的重要程度,提高了摘要结果的准确性、灵活性、多样性。
本发明的上述技术目的是通过以下技术方案得以实现的:一种基于无监督的多模型融合抽取式文本摘要方法,包括以下步骤:
预先对中心度文本摘要模型进行训练优化,优化后对预处理后的待处理文档进行计算得到第一批摘要summary1;用语义相似度捕捉模型对预处理后的待处理文档计算得到第二批摘要summary2;
融合第一批摘要summary1和第二批摘要summary2得到候选摘要middle_summary;
使用MMR算法对候选摘要middle_summary计算得到最终摘要final_summary。
作为本发明的一种优选技术方案,所述中心度文本摘要模型采取的是PacSum模型,在训练优化的过程中得出最优超参数βbest,ηbest,θbest;所述语义相似度捕捉模型采取的是改进的TextRank模型,改进的内容包括使用分布式表示词向量和余弦相似度。
作为本发明的一种优选技术方案,对PacSum模型进行训练优化包括以下步骤:
输入用作训练语料的文档集T;
对文档集T进行文本预处理;
对超参数β,η,θ构造超参数列表,用枚举的方式对超参数的取值进行组合:β从[0.1,0.2,0.3,0.4]取值,η从[-1.0,...,-0.1,0.0,0.1,0.2,...,1.0]取值,θ从[0.0,0.1,0.2,...,1.0]取值,得到超参数列表:P={(βi,ηi,θi)|i=1...924},初始时令i=1,令rouge_list为空列表;
对文档集T中的每篇文档使用超参数βi,ηi,θi计算摘要,所有摘要构成摘要列表;
对摘要列表计算ROUGE评分,摘要列表中每个摘要C的ROUGE评分计算公式,公式如下:
其中,R代表召回率,P代表准确率,F代表F1分值;ri为参考摘要的第i个句子;C为待处理摘要;LCS/lcs表示最长公共子序列,LCS∪表示对C中所有句子和ri求最长公共子序列,结果再合并去重;Nref为参考摘要中所有句子的总词数;Nc为C中所有句子的总词数;γ为常数,取值为1.0;对摘要列表计算平均ROUGE评分得到rouge_i;
把rouge_i加入到列表rouge_list;再令i=i+1,若i<=924,重复执行得到ROUGE评分;若i>924,进行下一步;
从rouge_list中选择最高ROUGE分值,把对应的超参数βbest,ηbest,θbest作为最优超参数。
作为本发明的一种优选技术方案,对待处理文档计算摘要包括以下步骤:
输入:当前待处理文档,超参数β,η,θ;
在训练PacSum模型时,待处理文档代表训练语料中的每一篇文档;超参数β,η,θ代表循环中这3个变量的当前取值βi,ηi,θi;作为计算结果的摘要代表循环中的一次迭代中的临时结果;
在使用训练好的PacSum模型计算摘要时,待处理文档代表最终要为之计算第一批摘要summary1的文档;超参数β,η,θ代表训练好的这3个变量的最优取值βbest,ηbest,θbest;作为计算结果的摘要代表需要计算的第一批摘要summary1;
使用超参数β由待处理文档构造图G;
使用超参数η,θ由图G计算得到摘要。
作为本发明的一种优选技术方案,使用超参数β由待处理文档构造图G包括以下步骤:
输入:当前待处理文档,超参数β;设待处理文档中句子总数为n;
创建有向图G=(V,F),顶点集V是待处理文档中的所有句子构成的集合,即V={Vi|i=1...n},边集F表示句子之间的关系;
对V中的每个句子Vi计算对应的句向量vi,Vi中的每个词w对应的句向量vi中的维度vi(w)为该词w的TF-IDF分值,计算公式如下:
其中tfi(w)为词w在句子Vi中出现的次数,df(w)为待处理文档中包含w的句子总数,n为待处理文档的句子总数;
创建相似度矩阵中i行j列元素,/>为句子Vi和Vj的相似度,通过两个句向量vi、vj的内积计算得到,公式如下:
对相似度矩阵进行规范化,得到图G的邻接矩阵E,计算公式如下:
其中β为超参数;Eij为邻接矩阵E的第i行j列元素,代表顶点i与顶点j之间的边上的权值;分别为最小相似度和最大相似度;至此图G=(V,F)构造完成。
作为本发明的一种优选技术方案,使用超参数η,θ由图G计算得到摘要包括以下步骤:
输入图G、超参数η以及超参数θ;
对图G每个顶点上的句子Vi计算中心度得分centrality(Vi),公式如下:
其中Eij为顶点i和顶点j之间的边上的权值;
按照中心度得分centrality(Vi)从大到小排序,取前L个句子作为摘要,其中L为预先设定的摘要句子数。
作为本发明的一种优选技术方案,用改进的TextRank模型计算得到第二批摘要summary2包括如下子步骤:
输入待处理文档;
创建无向图H=(U,J),顶点集U是待处理文档中所有句子的构成的集合,边集J中的边表示句子之间的关系,图H的邻接矩阵记为M;
加载预训练的word2vec词向量模型,对待处理文档中的每个句子Ui中所有词的词向量求平均得到句向量,所有句向量构成矩阵X,维度为n*m,n为句子总数,,m为每个句向量的维度,m=100...1000;
邻接矩阵M中第i行j列的元素表示顶点Ui到Uj的边上的权值,即为句向量Xi和Xj的余弦相似度,计算公式为:
其中,Xi、Xj分别是第i,j个句子的句向量,i,j=1...n;
利用TextRank分值计算公式迭代计算每个句子Ui的得分WS(Ui),公式如下:
其中i=1...n;d为阻尼系数,取值为d=0.85;In(Ui)为指向顶点Ui的顶点集,Out(Uj)为顶点Uj指向的顶点集;Mji,Mjk分别为入度与出度边的权值;
按照最终得分WS(Ui)从大到小顺序输出前L个句子作为文档的第二批摘要summary2。
作为本发明的一种优选技术方案,使用MMR算法对候选摘要middle_summary计算得到最终摘要final_summary包括以下步骤:
输入:待处理文档,候选摘要middle_summary可表示为middle_summary={siq|q=0...len_middle-1},len_middle为候选摘要middle_summary中的句子个数,siq为候选摘要middle_summary中的第q个句子,其编号为iq;
将候选摘要middle_summary中的第1个句子si0加入最终摘要final_summary句子列表,并把它从候选摘要middle_summary中删除;
加载使用gensim训练的doc2vec模型,计算待处理文档的文档向量doc_vec;设定循环变量初始值:令q=1,对应的句子为si1;令mmr_list为空列表;
用基于word2vec词向量得到候选句子siq的句向量sen_vec和文档向量doc_vec计算余弦相似度,公式为:
对候选句子si的句向量sen_vec与最终摘要final_summary中每个句子的句向量计算余弦相似度,得到列表similarity_list;
计算MMR值,公式如下:
mmr=α*sim-(1-α)*max(similarity_list),
其中α为超参数,在0到1之间取值;
把计算结果mmr放入mmr_list;
令q=q+1,若q<len_middle,则再用文档向量doc_vec和候选句子siq的句向量sen_vec计算余弦相似度,往下循环;若q≥len_middle,则进行下一步;
选择mmr_list中最大MMR值对应的句子加入最终摘要final_summary中,并从候选摘要middle_summary中删除该句子;
重复文档向量doc_vec和候选句子siq的句向量sen_vec计算余弦相似度及之后的步骤,直到最终摘要final_summary中的摘要句子个数达到设定的摘要个数L,停止计算;将最终摘要final_summary中的句子按照位置下标先后顺序进行排序,得到最终摘要final_summary输出结果。
作为本发明的一种优选技术方案,对待处理文档进行文本预处理的方法为:把待处理文档先按句子分割,给每个句子按顺序编号;再对每个句子进行分词处理;去掉停用词及无效的符号。
综上所述,本发明具有以下有益效果:改进的TextRank模型使用分布式表示的词向量计算余弦相似度,提高了所抽取摘要的准确性;PacSum模型使用非对称的有向中心度,可以利用句子的位置信息来更好地反映句子在文档中的重要性,从而也提高了的摘要的准确性;多种模型和算法的融合,结合了多种模型的优点,降低了它们各自缺点的影响,本身就提供了最终提取的摘要结果的灵活性和多样性。同时,MMR算法的使用,降低了摘要的冗余度,也就是提高了结果的多样性。
附图说明
图1是本发明的整体流程图;
图2是本发明的PacSum模型训练流程图;
图3是本发明的PacSum模型抽取摘要流程图;
图4是本发明的TextRank模型抽取摘要流程图;
图5是本发明的MMR算法流程图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
本发明提供一种基于无监督的多模型融合抽取式文本摘要方法,如图1所示,包括以下步骤:
S1、在提取摘要时,首先要对待处理文档进行文本预处理,具体方法为:把待处理文档先按句子分割,给每个句子按顺序编号;再对每个句子进行分词处理,英文可以使用NLTK工具,中文可以使用jieba工具;去掉停用词及无效的符号,停用词包括一些语气词、标点符号、冠词、虚词等无实际意义或对句义基本无影响的词。
S2、预先对中心度文本摘要模型进行训练优化,优化后对待处理文档进行计算得到第一批摘要summary1;具体的,中心度文本摘要模型采取的是PacSum模型,在训练优化的过程中得出最优超参数βbest,ηbest,θbest;PacSum模型的全称是Position-AugmentedCentralitybasedSummarization,即基于位置增强中心度的中心度文本摘要模型。PacSum模型使用非对称的有向中心度,可以利用句子的位置信息来反映句子在文档中的重要性,从而提高了摘要的准确性。
S21、如图2所示,对PacSum模型进行训练优化包括以下步骤:
S211、算法的输入为:用作训练语料的文档集T;
S212、对文档集T进行文本预处理;
S213、对超参数β,η,θ构造超参数列表,用枚举的方式对超参数的取值进行组合:β从[0.1,0.2,0.3,0.4]取值,η从[-1.0,...,-0.1,0.0,0.1,0.2,...,1.0]取值,θ从[0.0,0.1,0.2,...,1.0]取值,得到超参数列表:P={(βi,ηi,θi)|i=1...924},初始时令i=1,令rouge_list为空列表;
S214、对文档集T中的每篇文档使用超参数βi,ηi,θi计算摘要,所有摘要构成摘要列表;
S215、对摘要列表计算ROUGE评分(Recall-Oriented Understudy for GistingEvaluation),摘要列表中每个摘要C的ROUGE评分计算公式公式如下:
其中,R代表召回率(Recall),P代表准确率(Precision),F代表F1分值(F1measure);ri为参考摘要的第i个句子;C为待处理摘要;LCS/lcs表示最长公共子序列,LCS∪表示对C中所有句子和ri求最长公共子序列(LongestCommonSubsequence),结果再合并去重;Nref为参考摘要中所有句子的总词数;Nc为C中所有句子的总词数;γ为常数,取值为1.0;对摘要列表计算平均ROUGE评分得到rouge_i;
S216、把rouge_i加入到列表rouge_list;再令i=i+1,若i<=924,跳到S214,继续执行S214~S216的循环;若i>924,退出循环,继续执行S217;
S217、从rouge_list中选择最高ROUGE分值,把对应的超参数βbest,ηbest,θbest作为最优超参数。
S22、在给定超参数β,η,θ的前提下,使用PacSum模型由文档document计算摘要包括两步,如图3所示:(1)对文档document中构造图G,(2)对图G计算摘要。
所构造的图G就是根据文档的文本构造的一个能表示该文档语义结构的、由“顶点(vertex)”和“边(edge)”组成的抽象“图(graph)”,是一种数学意义上的抽象结构,并非日常所说可以看见的图像。研究“图”的数学分支称为“图论”。图G中的顶点代表文档中的句子,连接顶点与顶点的边代表句子与句子之间的语义关系,每条边上有一个权值,表示两个句子关系的强弱程度。
对待处理文档计算摘要包括以下步骤:需要说明的是,“对待处理文档计算摘要”这一操作在训练PacSum模型时会用到,在使用训练好的PacSum模型计算摘要时也会用到;
S221、输入:当前待处理文档,超参数β,η,θ;
在训练PacSum模型时,待处理文档代表训练语料中的每一篇文档;超参数β,η,θ代表循环中这3个变量的当前取值βi,ηi,θi;作为计算结果的摘要代表循环中的一次迭代中的临时结果;
在使用训练好的PacSum模型计算摘要时,待处理文档代表最终要为之计算第一批摘要summary1的文档;超参数β,η,θ代表训练好的这3个变量的最优取值βbest,ηbest,θbest;作为计算结果的摘要代表需要计算的第一批摘要summary1;
S222、使用超参数β由待处理文档构造图G;
S223、使用超参数η,θ由图G计算得到摘要。
具体的,使用超参数β由待处理文档构造图G包括以下步骤:
S2221、输入:当前待处理文档,超参数β;设待处理文档中句子总数为n;
S2222、创建有向图G=(V,F),顶点集V是待处理文档中的所有句子构成的集合,即V={Vi|i=1...n},边集F表示句子之间的关系;
S2223、对V中的每个句子Vi计算对应的句向量vi,Vi中的每个词w对应的句向量vi中的维度vi(w)为该词w的TF-IDF分值(Term Frequency–Inverse Document Frequency,词频-逆文档频率指数),计算公式如下:
其中tfi(w)为词w在句子Vi中出现的次数,df(w)为待处理文档中包含w的句子总数,n为待处理文档的句子总数;
S2224、创建相似度矩阵中i行j列元素,/>为句子Vi和Vj的相似度,通过两个句向量vi、vj的内积计算得到,公式如下:
S2225、对相似度矩阵进行规范化,得到图G的邻接矩阵E,计算公式如下:
其中β为超参数;Eij为邻接矩阵E的第i行j列元素,代表顶点i与顶点j之间的边上的权值;分别为最小相似度和最大相似度;至此图G=(V,F)构造完成。
具体的使用超参数η,θ由图G计算得到摘要包括以下步骤:
S2231、输入:图G,超参数η,θ;
S2232、对图G每个顶点上的句子Vi计算中心度得分centrality(Vi),公式如下:
其中Eij为顶点i和顶点j之间的边上的权值;式中j<i时,表示文档中句子i前面的句子与对句子i的影响的权重,把这些边叫做forward边;相反,j>i时,表示文档中句子i后面的句子对句子i的影响的权重,把这些边叫做backward边。η是forward边的权重,θ则是backward边的权重。
传统的以无向图为基础的句子中心度计算中,对forward边和backward边是平等对待的,而边上的权值即相似度是一个对称的度量,所以计算出的中心度只考虑了句子之间的连接,而没有考虑句子在文章中的相对位置。实际上,文章中位于后面的句子一般来说是基于前面句义的基础上展开的,因此,前面的句子对后面句子的影响权重更大一些。PacSum模型正是基于这一洞察,采用了基于句子不同前后位置的有向中心度计算方法,可以更好地反映句子在文档中的重要性,从而使提取出来的摘要更准确。
S2233、按照中心度得分centrality(Vi)从大到小排序,取前L个句子作为摘要,其中L为预先设定的摘要句子数,例如L=4。
S3、用带有最优超参数βbest,ηbest,θbest的PacSum模型计算得到待处理文档的第一批摘要summary1。
PacSum模型训练好之后,就可以用训练得到的最优超参数βbest,ηbest,θbest作为公式中的参数,为待处理文档提取第一批摘要summary1,具体提取步骤和前述训练过程中的提取方法S22中内容是相同的,在此不再赘述。
S4、如图4所示,使用语义相似度捕捉模型对预处理后的待处理文档计算得到第二批摘要summary2;
语义相似度捕捉模型采取的是改进的TextRank模型,对TextRank模型的改进点包括但不限于:
(1)使用了预训练的word2vec词向量模型表示句子,而不是原始模型使用的简单的词袋模型(Bag-of-Words,BoW)。(2)同时使用余弦相似度计算句子间的相似度,而不是原始模型使用的公共词频比率。
使用word2vec词向量模型,把词汇表中的所有词嵌入到一个较低维度的向量空间(使用300维),可以有效的避免维度灾难,降低计算复杂度。word2vec词向量模型是一种分布式表示,使用大规模语料的无监督训练之后,能够更好地考虑语句上下文对词义的影响,可以更准确地表示词和句子的语义,避免了词袋模型的语义鸿沟。在此基础上用嵌入向量空间中的句向量之间夹角余弦表示句子间的相似度,从语义层面关注相似度,而非从统计层面,从而能更好地捕获句子间语义本质上的相似性,提高所抽取的摘要的准确性。
用改进的TextRank模型计算得到第二批摘要summary2包括如下子步骤:
S41、输入:待处理文档;
S42、创建无向图H=(U,J),顶点集U是待处理文档中所有句子的构成的集合,边集J中的边表示句子之间的关系,图H的邻接矩阵记为M;
S43、加载预训练的word2vec词向量模型,对待处理文档中的每个句子Ui中所有词的词向量求平均得到句向量,所有句向量构成矩阵X,维度为n*m,n为句子总数,m为每个句向量的维度,m=100...1000,优选取值为m=300;
S44、邻接矩阵M中第i行j列的元素表示顶点Ui到Uj的边上的权值,即为句向量Xi和Xj的余弦相似度,计算公式为:
其中,Xi、Xj分别是第i,j个句子的句向量,i,j=1...n;
S45、利用TextRank分值计算公式迭代计算每个句子Ui的得分WS(Ui),公式如下:
其中i=1...n;d为阻尼系数,一般取值为d=0.85;In(Ui)为指向顶点Ui的顶点集,Out(Uj)为顶点Uj指向的顶点集;Mji,Mjk分别为入度与出度边的权值;
迭代计算时,首先对每个WS(Ui)赋一个初始值,例如全都赋值为赋值为1/n。然后按照上述公式依次迭代计算若干轮次,直到算法收敛。算法收敛的判定规则为:计算出的结果分值与上次迭代的结果的总误差小于预定义的阈值(一般取值为n×10-6),或者达到了预定义最大循环次数(默认1000次),停止迭代,把每个顶点最终的分值作为该顶点重要性的度量。
阻尼系数d表示考虑到了随机地从一个顶点跳到另一个顶点的概率。TextRank的迭代算法源自用于网页搜索引擎领域著名的PageRank算法。在网页跳转场景下,用户点开页面上某个链接的概率为d,而打开一个新页面的概率为1-d。在文本场景,公式右边第二项代表一个句子的重要性以概率d来自它和其它句子的相关性(用相似度度量),或者说其它句子“推荐”了它;第一项则代表作者以概率1-d会开启一个新的主题,写下这个主题的第一个句子,它和其它句子都不相关。
S46、按照最终得分WS(Ui)从大到小顺序输出前L个句子作为文档的第二批摘要summary2。
S5、融合第一批摘要summary1和第二批摘要summary2作为候选摘要middle_summary:首先把两组摘要summary1、summary2合并成一个列表候选摘要middle_summary,再对候选摘要middle_summary去掉句子编号重复的句子并按编号重新排序,作为候选摘要middle_summary。这里所说的编号是指句子在原文中的顺序编号。
例如:假设提取得到的两批摘要为
summary1=[s0,s1,s2,s4],
summary2=[s0,s2,s4,s6],
这里si表示文档中的句子(预处理以后的),数字表示句子在原文中序号。两者合并以后得到新的列表middle_summary=[s0,s1,s2,s4,s0,s2,s4,s6]。去重并排序,得到候选摘要middle_summary为middle_summary=[s0,s1,s2,s4,s6]。
S6、抽取式文本摘要算法的主要目标之一是最大化选中的句子和文章主题的相关性。但在实际生产环境中,处理较长的文本时,只以相关性为目标做摘要会遇到一个很明显的问题:模型会倾向于生成一堆相似度很高的摘要句,这样摘要的冗余度就很高,反而会丢失一些出现次数不多却重要的信息。例如金融领域中的研报或者财报等类型的文本,有些重要信息信息并不会在文本中出现很多次。因此,需要考虑提取尽可能多样化的摘要内容,也就是降低摘要的冗余度。
MMR算法:MMR算法的全称是Maximal Marginal Relevance,即最大边际相关性,MMR算法将相关性和冗余度放在一个目标函数中,使用贪心方法优化目标函数。每次挑选摘要时,除了建模其相关性分数外,还要扣除其与当前已有的摘要集合的冗余度分数,最后挑选综合分数最高的那个加入到摘要集合中。由此可见,MMR算法既考虑了相关性,又兼顾了降低冗余度。在以上两个模型结果的基础上,使用MMR算法综合考虑相关性和冗余度,既最大化摘要和文章主题的相关性,同时降低句子之间的冗余度,得到更好的最终摘要final_summary。
如图5所示,使用MMR算法对候选摘要middle_summary计算得到最终摘要final_summary包括以下步骤:
S61、输入:待处理文档,候选摘要middle_summary可表示为middle_summary={siq|q=0...len_middle-1},len_middle为候选摘要middle_summary中的句子个数,siq为候选摘要middle_summary中的第q个句子,其编号为iq;
S62、将候选摘要middle_summary中的第1个句子si0加入最终摘要final_summary句子列表,并把它从候选摘要middle_summary中删除;
S63、加载使用gensim训练的doc2vec模型,计算待处理文档的文档向量doc_vec;设定循环变量初始值:令q=1,对应的句子为si1;令mmr_list为空列表;
S64、用基于word2vec词向量得到候选句子siq的句向量sen_vec和文档向量doc_vec计算余弦相似度,公式为:
S65、对候选句子si的句向量sen_vec与最终摘要final_summary中每个句子的句向量计算余弦相似度,得到列表similarity_list;
S66、计算MMR值,公式如下:
mmr=α*sim-(1-α)*max(similarity_list),
其中α为超参数,在0到1之间取值,我们取α=0.5;
S67、把计算结果mmr放入mmr_list;
S68、令q=q+1。若q<len_middle,则跳到S64,执行循环;若q≥len_middle则直接执行S69;
S69、选择mmr_list中最大MMR值对应的句子加入最终摘要final_summary中,并从候选摘要middle_summary中删除该句子;
S610、重复步骤S64~S69,直到最终摘要final_summary中的摘要句子个数达到设定的摘要个数L,停止计算;将最终摘要final_summary中的句子按照位置下标先后顺序进行排序,得到最终摘要final_summary输出结果。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (3)
1.一种基于无监督的多模型融合抽取式文本摘要方法,其特征是:包括以下步骤:
预先对中心度文本摘要模型进行训练优化,优化后对预处理后的待处理文档进行计算得到第一批摘要summary1;用语义相似度捕捉模型对预处理后的待处理文档计算得到第二批摘要summary2;所述中心度文本摘要模型采取的是PacSum模型,在训练优化的过程中得出最优超参数βbest,ηbest,θbest;所述语义相似度捕捉模型采取的是改进的TextRank模型,改进的内容包括使用分布式表示词向量和余弦相似度;
融合第一批摘要summary1和第二批摘要summary2得到候选摘要middle_summary;
使用MMR算法对候选摘要middle_summary计算得到最终摘要final_summary;
对PacSum模型进行训练优化包括以下步骤:
输入用作训练语料的文档集T;
对文档集T进行文本预处理;
对超参数β,η,θ构造超参数列表,用枚举的方式对超参数的取值进行组合:β从[0.1,0.2,0.3,0.4]取值,η从[-1.0,...,-0.1,0.0,0.1,0.2,...,1.0]取值,θ从[0.0,0.1,0.2,...,1.0]取值,得到超参数列表:P={(βi,ηi,θi)|i=1...924},初始时令i=1,令rouge_list为空列表;
对文档集T中的每篇文档使用超参数βi,ηi,θi计算摘要,所有摘要构成摘要列表;
对摘要列表计算ROUGE评分,摘要列表中每个摘要C的ROUGE评分计算公式,公式如下:
其中,R代表召回率,P代表准确率,F代表F1分值;ri为参考摘要的第i个句子;C为待处理摘要;LCS/lcs表示最长公共子序列,LCS∪表示对C中所有句子和ri求最长公共子序列,结果再合并去重;Nref为参考摘要中所有句子的总词数;Nc为C中所有句子的总词数;γ为常数,取值为1.0;对摘要列表计算平均ROUGE评分得到rouge_i;
把rouge_i加入到列表rouge_list;再令i=i+1,若i<=924,重复执行得到ROUGE评分;若i>924,进行下一步;
从rouge_list中选择最高ROUGE分值,把对应的超参数βbest,ηbest,θbest作为最优超参数;
对待处理文档计算摘要包括以下步骤:
输入:当前待处理文档,超参数β,η,θ;
在训练PacSum模型时,待处理文档代表训练语料中的每一篇文档;超参数β,η,θ代表循环中这3个变量的当前取值βi,ηi,θi;作为计算结果的摘要代表循环中的一次迭代中的临时结果;
在使用训练好的PacSum模型计算摘要时,待处理文档代表最终要为之计算第一批摘要summary1的文档;超参数β,η,θ代表训练好的这3个变量的最优取值βbest,ηbest,θbest;作为计算结果的摘要代表需要计算的第一批摘要summary1;
使用超参数β由待处理文档构造图G;
使用超参数η,θ由图G计算得到摘要;
使用超参数β由待处理文档构造图G包括以下步骤:
输入:当前待处理文档,超参数β;设待处理文档中句子总数为n;
创建有向图G=(V,F),顶点集V是待处理文档中的所有句子构成的集合,即V={Vi|i=1...n},边集F表示句子之间的关系;
对V中的每个句子Vi计算对应的句向量vi,Vi中的每个词w对应的句向量vi中的维度vi(w)为该词w的TF-IDF分值,计算公式如下:
其中tfi(w)为词w在句子Vi中出现的次数,df(w)为待处理文档中包含w的句子总数,n为待处理文档的句子总数;
创建相似度矩阵中i行j列元素,/>为句子Vi和Vj的相似度,通过两个句向量vi、vj的内积计算得到,公式如下:
对相似度矩阵进行规范化,得到图G的邻接矩阵E,计算公式如下:
其中β为超参数;Eij为邻接矩阵E的第i行j列元素,代表顶点i与顶点j之间的边上的权值;和/>分别为最小相似度和最大相似度;至此图G=(V,F)构造完成;
使用超参数η,θ由图G计算得到摘要包括以下步骤:
输入图G、超参数η以及超参数θ;
对图G每个顶点上的句子Vi计算中心度得分centrality(Vi),公式如下:
其中Eij为顶点i和顶点j之间的边上的权值;
按照中心度得分centrality(Vi)从大到小排序,取前L个句子作为摘要,其中L为预先设定的摘要句子数;
用改进的TextRank模型计算得到第二批摘要summary2包括如下子步骤:
输入待处理文档;
创建无向图H=(U,J),顶点集U是待处理文档中所有句子的构成的集合,边集J中的边表示句子之间的关系,图H的邻接矩阵记为M;
加载预训练的word2vec词向量模型,对待处理文档中的每个句子Ui中所有词的词向量求平均得到句向量,所有句向量构成矩阵X,维度为n*m,n为句子总数,m为每个句向量的维度,m=100...1000;
邻接矩阵M中第i行j列的元素表示顶点Ui到Uj的边上的权值,即为句向量Xi和Xj的余弦相似度,计算公式为:
其中,Xi、Xj分别是第i,j个句子的句向量,i,j=1...n;
利用TextRank分值计算公式迭代计算每个句子Ui的得分WS(Ui),公式如下:
其中i=1...n;d为阻尼系数,取值为d=0.85;In(Ui)为指向顶点Ui的顶点集,Out(Uj)为顶点Uj指向的顶点集;Mji,Mjk分别为入度与出度边的权值;
按照最终得分WS(Ui)从大到小顺序输出前L个句子作为文档的第二批摘要summary2。
2.根据权利要求1所述的一种基于无监督的多模型融合抽取式文本摘要方法,其特征是:使用MMR算法对候选摘要middle_summary计算得到最终摘要final_summary包括以下步骤:
输入:待处理文档,候选摘要middle_summary可表示为middle_summary={siq|q=0...len_middle-1},len_middle为候选摘要middle_summary中的句子个数,siq为候选摘要middle_summary中的第q个句子,其编号为iq;
将候选摘要middle_summary中的第1个句子si0加入最终摘要final_summary句子列表,并把它从候选摘要middle_summary中删除;
加载使用gensim训练的doc2vec模型,计算待处理文档的文档向量doc_vec;设定循环变量初始值:令q=1,对应的句子为si1;令mmr_list为空列表;
用基于word2vec词向量得到候选句子siq的句向量sen_vec和文档向量doc_vec计算余弦相似度,公式为:
对候选句子si的句向量sen_vec与最终摘要final_summary中每个句子的句向量计算余弦相似度,得到列表similarity_list;
计算MMR值,公式如下:
mmr=α*sim-(1-α)*max(similarity_list),
其中α为超参数,在0到1之间取值;
把计算结果mmr放入mmr_list;
令q=q+1,若q<len_middle,则再用文档向量doc_vec和候选句子siq的句向量sen_vec计算余弦相似度,往下循环;若q≥len_middle,则进行下一步;
选择mmr_list中最大MMR值对应的句子加入最终摘要final_summary中,并从候选摘要middle_summary中删除该句子;
重复文档向量doc_vec和候选句子siq的句向量sen_vec计算余弦相似度及之后的步骤,直到最终摘要final_summary中的摘要句子个数达到设定的摘要个数L,停止计算;将最终摘要final_summary中的句子按照位置下标先后顺序进行排序,得到最终摘要final_summary输出结果。
3.根据权利要求1所述的一种基于无监督的多模型融合抽取式文本摘要方法,其特征是:对待处理文档进行文本预处理的方法为:把待处理文档先按句子分割,给每个句子按顺序编号;再对每个句子进行分词处理;去掉停用词及无效的符号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010476581.1A CN111737453B (zh) | 2020-05-29 | 2020-05-29 | 一种基于无监督的多模型融合抽取式文本摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010476581.1A CN111737453B (zh) | 2020-05-29 | 2020-05-29 | 一种基于无监督的多模型融合抽取式文本摘要方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111737453A CN111737453A (zh) | 2020-10-02 |
CN111737453B true CN111737453B (zh) | 2024-04-02 |
Family
ID=72646566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010476581.1A Active CN111737453B (zh) | 2020-05-29 | 2020-05-29 | 一种基于无监督的多模型融合抽取式文本摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737453B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112687097A (zh) * | 2020-11-16 | 2021-04-20 | 招商新智科技有限公司 | 一种高速公路路段级数据中台系统 |
CN113282742B (zh) * | 2021-04-30 | 2022-08-12 | 合肥讯飞数码科技有限公司 | 摘要获取方法以及电子设备、存储装置 |
CN113342928A (zh) * | 2021-05-07 | 2021-09-03 | 上海大学 | 一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法及其系统 |
CN113609262A (zh) * | 2021-08-27 | 2021-11-05 | 中国银行股份有限公司 | 基于智能摘要的自动审计方法及装置 |
CN114064885B (zh) * | 2021-11-25 | 2024-05-31 | 北京航空航天大学 | 一种无监督中文多文档抽取式摘要方法 |
CN114781356B (zh) * | 2022-03-14 | 2024-06-21 | 华南理工大学 | 一种基于输入共享的文本摘要生成方法 |
CN116187307B (zh) * | 2023-04-27 | 2023-07-14 | 吉奥时空信息技术股份有限公司 | 一种政务文章标题关键字提取方法、设备及存储设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776567A (zh) * | 2016-12-22 | 2017-05-31 | 金蝶软件(中国)有限公司 | 一种互联网大数据分析提取方法及系统 |
CN109947931A (zh) * | 2019-03-20 | 2019-06-28 | 华南理工大学 | 基于无监督学习的文本自动摘要方法、系统、设备及介质 |
CN110136699A (zh) * | 2019-07-10 | 2019-08-16 | 南京硅基智能科技有限公司 | 一种基于文本相似度的意图识别方法 |
CN110929024A (zh) * | 2019-12-10 | 2020-03-27 | 哈尔滨工业大学 | 一种基于多模型融合的抽取式文本摘要生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107783960B (zh) * | 2017-10-23 | 2021-07-23 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
-
2020
- 2020-05-29 CN CN202010476581.1A patent/CN111737453B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776567A (zh) * | 2016-12-22 | 2017-05-31 | 金蝶软件(中国)有限公司 | 一种互联网大数据分析提取方法及系统 |
CN109947931A (zh) * | 2019-03-20 | 2019-06-28 | 华南理工大学 | 基于无监督学习的文本自动摘要方法、系统、设备及介质 |
CN110136699A (zh) * | 2019-07-10 | 2019-08-16 | 南京硅基智能科技有限公司 | 一种基于文本相似度的意图识别方法 |
CN110929024A (zh) * | 2019-12-10 | 2020-03-27 | 哈尔滨工业大学 | 一种基于多模型融合的抽取式文本摘要生成方法 |
Non-Patent Citations (1)
Title |
---|
面向查询的自动文本摘要技术研究综述;王凯祥;;计算机科学(第S2期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111737453A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737453B (zh) | 一种基于无监督的多模型融合抽取式文本摘要方法 | |
Bennani-Smires et al. | Simple unsupervised keyphrase extraction using sentence embeddings | |
Wu et al. | Learning to extract coherent summary via deep reinforcement learning | |
Liang et al. | Unsupervised keyphrase extraction by jointly modeling local and global context | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN104834735B (zh) | 一种基于词向量的文档摘要自动提取方法 | |
He et al. | Cross-modal subspace learning via pairwise constraints | |
Viegas et al. | Cluhtm-semantic hierarchical topic modeling based on cluwords | |
CN106484797B (zh) | 基于稀疏学习的突发事件摘要抽取方法 | |
Song et al. | Summarizing answers in non-factoid community question-answering | |
Bhargava et al. | Deep extractive text summarization | |
CN111859961B (zh) | 一种基于改进TopicRank算法的文本关键词抽取方法 | |
CN113962293B (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
Sousa et al. | Word sense disambiguation: an evaluation study of semi-supervised approaches with word embeddings | |
Shen et al. | Practical text phylogeny for real-world settings | |
CN113779246A (zh) | 基于句子向量的文本聚类分析方法及系统 | |
Othman et al. | Improving sentiment analysis in twitter using sentiment specific word embeddings | |
CN117272142A (zh) | 一种日志异常检测方法、系统及电子设备 | |
Tikk et al. | A hierarchical online classifier for patent categorization | |
CN111104508B (zh) | 基于容错粗糙集的词袋模型文本表示方法、系统及介质 | |
Yuan et al. | Efficient representation of text with multiple perspectives | |
Hakami et al. | A Dual Attention Encoder-Decoder Text Summarization Model | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
Gema et al. | It takes two to tango: modification of siamese long short term memory network with attention mechanism in recognizing argumentative relations in persuasive essay |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |