CN111858912A - 一种基于单篇长文本的摘要生成方法 - Google Patents
一种基于单篇长文本的摘要生成方法 Download PDFInfo
- Publication number
- CN111858912A CN111858912A CN202010630431.1A CN202010630431A CN111858912A CN 111858912 A CN111858912 A CN 111858912A CN 202010630431 A CN202010630431 A CN 202010630431A CN 111858912 A CN111858912 A CN 111858912A
- Authority
- CN
- China
- Prior art keywords
- sentence
- text
- sentences
- abstract
- single long
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 239000013598 vector Substances 0.000 claims abstract description 37
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000012937 correction Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 claims description 8
- 230000018109 developmental process Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000011161 development Methods 0.000 claims description 6
- 230000006872 improvement Effects 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 230000003247 decreasing effect Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000000844 transformation Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 1
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 1
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Technology Law (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是一种基于单篇长文本的摘要生成方法。本发明涉及单篇长文本的摘要生成技术领域,本发明通过Bert算法构造文本句子的特征向量,确定句子间的余弦相似度;确定文本句子的权重得分,根据文本句子的位置、长度、与标题相似度特征,对文本句子进行权重修正;采用MMR算法对候选摘要句进行冗余度处理;根据冗余度处理的候选摘要句,进行专利文本的摘要提取。采用本发明所述方法获得摘要在各项指标上均大于其他现有同类方法。本发明所述的摘要生成方法应用于专利检索技术领域,能够有效提高专利降噪的工作效率和准确率。
Description
技术领域
本发明涉及专利摘要生成技术领域,是一种基于单篇长文本的摘要生成方法。
背景技术
随着信息化时代的到来,人们变得越来越依赖互联网获取所需要的信息,但其上的信息呈现爆炸式增长,如何有效地从海量信息中筛选出所需的有用信息成了关键性的技术问题,而在单篇长文本领域,也面临着类似的问题。专利文献作为技术信息最有效的载体,囊括了全球90%以上的最新技术情报,相比一般技术刊物所提供的信息早5-6年,而且70%-80%发明创造只通过专利文献公开,并不见诸于其他科技文献,相对于其他文献形式,专利更具有新颖、实用的特征。专利技术可以促进发明创造,推动技术进步,具有巨大的商业价值,是提升企业竞争力的重要手段。一个企业要想在行业内拥有核心竞争力,一个行业要想引领时代潮流,一个国家要想在立足于国际舞台,技术创新是关键、专利发明是载体。
专利数据库中包含着海量的专利数据,在检索某一技术领域的专利时,目前大多数的专利检索都是基于关键词匹配来获取相关技术领域的专利,检索的结果往往包含很大的噪声,由于原始摘要往往不能准确的表达专利内容所反映的关键技术点,这给后期的专利降噪带来很大的工作量,如何快速、准确地检索出待检索技术领域的专利,成为专利检索领域的难题。
为了解决专利检索方面所遇到的海量数据的问题,本发明参考众研究学者对新闻文本、微博文本中提炼主题思想的方法,研究学者们开始探索自动文本摘要的生成技术。抽取式自动文本摘要技术和生成式自动文本摘要技术构成了目前自动文本摘要任务的主流方法。抽取式文本摘要方法的关键问题是从原文档中抽取出重要性高的若干句子。初期以统计学为支撑,随后提出TF-IDF方法进行单词的重要性识别以及类似的改进;近3年内提出基于语义方面的改进算法。生成式摘要方法不是单纯地利用原文档中的单词或短语组成摘要,而是从原文档中获取主要思想后以不同的表达方式将其表达出来,自2016年起提出各种深度学习相关算法。
综上所述,生成式算法研究深度和研究数量还远远不够,有待进一步深化,同时目前生成式摘要研究均是基于DUC、CNN/DailyMail、English Gigaword、SogouCS等一些较为固定的短文本数据集进行评测,生成的摘要多为一句话,并不适用于具有文本字符量大,多句摘要特征的单篇长文本。
发明内容
本发明针对现有专利检索方面所遇到的海量数据的问题,研发出一种适用于单篇长文本的摘要生成方法,该方法适用于对新闻文本、微博文本、专利文本等单篇长文本进行自动摘要生成,进而便于对海量文本进行进一步筛选、处理。本发明提供了一种基于单篇长文本的摘要生成方法,本发明提供了以下技术方案:
一种基于单篇长文本的摘要生成方法,包括以下步骤:
步骤1:针对待处理的单篇长文本,通过Bert算法构造文本句子的特征向量,确定句子间的余弦相似度;
步骤2:确定文本句子的权重得分,根据文本句子的位置、长度、与标题相似度特征,对文本句子进行权重修正;
步骤3:采用MMR算法对文本句子进行冗余度处理;
步骤4:根据冗余度处理的候选摘要句,进行单篇长文本的摘要生成。
优选地,所述步骤1具体为:
步骤1.1:基于待处理的单篇长文本,选用NLTK库中punkt分隔器中的sent_tokenize()函数来对英文文本进行句子分隔,punkt分隔器中的sent_tokenize()函数运用一种与文本语言无关的无监督方法对句子边界进行检测,使其能够准确地处理单词中带点号的情况;
对句子进行分词、大小写转换、去除停用词、数字和标点处理工作,使用NLTK库中的word_tokenize()函数来进行操作;在分词之后对文中句子进行大小写转换、去除标点和数字,同时使用NLTK库中自带的停用词库来去除停用词,得到单篇长文本特征词集合;
步骤1.2:通过Bert算法构造文本句子的特征向量,根据Bert算法进行语言模型预训练,采用了多层双向Tansformer编码进行预训练,采用微调的方式解决下游预测任务,采用Masked语言模型来学习融合两个不同方向的文本特征,采用Mask掩码来代替原始单词,在预训练过程中进行预测;
基于Pytorch平台,使用Python开发语言中的pytorch_transformers包来进行句向量训练,构造文本句子的特征向量;
将向量夹角的余弦值作为衡量两个个体间差异大小的度量,通过下式表示句子间的余弦相似度cosθ:
其中,X和Y均为单篇长文本向量。
优选地,所述步骤2具体为:
步骤2.1:单篇长文本共有n个句子,前三段共有u个句子,确定句子基于位置的权重调整系数,通过下式表示句子基于位置的权重调整系数Wposition:
权重调整系数值在前u个句子中采用依次递减的方式,剩余句子保持原来的权重值;
步骤2.2:基于句子与标题的相似度的权重改进,提高包含标题关键词语的句子的权重值,通过下式确定权重调整系数Wtitle:
Wtitle=1+sim(Si,Stitle)
其,中sim(Si,Stitle)为句子Si与标题句子Stitle的相似度;
步骤2.3:对句子长度进行过滤,引入长度系数,通过下式确定长度调整系数Wlength:
其中,CL为长度指数,L为当前句子长度,Lm为整篇文档中最长的句子长度,Cave为CL的平均值;
当长度指数CL<0.1时,将不考虑该句子作为摘要候选句,即长度调整系数为0,否则做出权重系数修正。
优选地,通过TextRank算法进行权重迭代计算,对计算得到的权重W进行调整,通过下式表示调整后的权重系数:
W′=W*Wposition*Wtitle*Wlength
其中,W′表示调整后的权重系数。
优选地,所述步骤3具体为:
将每一个句子调整后的权重进行极大极小归一化处理,并将归一化后的值看做句子得分,根据得分将句子从高到低进行排序,依次记为d1,d2,…,dn,其中di表示句子得分排名第i的句子;
根据MMR算法,将句子得分转换成摘要提取任务的公式,确定摘要候选集中句子的MMR(di)值,通过下式表示摘要候选集中句子的MMR(di)值:
MMR(di)=λ·Sim1(di,Q)-(1-λ)·maxSim2(di,dj)
其中,λ∈[0,1],Q表示整篇文档,di表示排序后的句子集合中排名第i的句子,Sim1(di,Q)表示文档中某个句子和整篇文档的相似度,采用归一化后的句子得分来表示,λ·Sim1(di,Q)表示主题相关,maxSim2(di,dj)表示文档中的某个句子和已经抽取的摘要句子的最大相似度,(1-λ)maxSim2(di,dj)表示第i个句子与已选中的摘要的差异性;
设置λ=0.75,Sim2(di,dj)取余弦相似度,设置冗余度阈值θ=0.85,当MMR(di)≤θ且候选摘要数没有超过设定好的摘要句子数,将候选句子添加到候选摘要中,最终获得冗余度的摘要结果集。
优选地,所述步骤4具体为:
步骤4.1:选取ROUGE摘要评测指标,所述指标包括:ROUGE-1、ROUGE-2、ROUGE-L、ROUGE-W和ROUGE-S;
步骤4.2:运用Python的pyrouge包调用ROUGE-1.5.5;
步骤4.3:抽取压缩率为5%的单篇长文本句子构成摘要句。
本发明具有以下有益效果:
本发明选择抽取式摘要方法,面向专利文本,融合Bert算法、TextRank算法、MMR算法以及文本重要句子的位置特征,提出适用于单篇长文本(包括但不局限于专利文本)的摘要提取算法。
本发明抽取压缩率为5%的专利文本句子构成摘要句,使用ROUGE系列指标对本发明方法获得的摘要其进行评价,由于研究学者Lin通过实验验证,这些ROUGE相关指标中,ROUGE-2、ROUGE-L、ROUGE-W、ROUGE-S在单文档摘要任务中表现良好,同时ROUGE-1衡量了文档中的内容被文摘系统能否有效提取的能力。所以本发明将依据ROUGE-1、ROUGE-2、ROUGE-L、ROUGE-W、ROUGE-S这5个指标对生成摘要进行评价。本发明所提出的摘要生成方法在各项指标上均大于其他现有同类方法,体现了本发明的优越性。
本发明所述的基于单篇长文本的摘要生成方法适用于对专利文本(专利文献中的“说明书”)进行摘要生成,采用本发明所述的方法获取的专利文本的摘要比专利文献的原始摘要(专利文献中的“说明摘要”)能够更准确的表达专利内容、并反映关键技术点。在现有专利检索分析技术领域中,对初步检索获得的海量专利文献进行降噪处理,需要有相关专业背景的人员对海量专利文献进行阅读甄别、筛选,该项工作耗时长、难度大,该项工作也是专利检索领域中一直无法节约时间的工作。本发明所述的方法应用于专利检索分析工作中对海量的专利文献做处理获得相应的摘要,然后再进行专利降噪处理能够减少大量的阅读量,进而缩短工作时间,实现快速、准确地筛选出更接近检索目标的专利文献,提高专利检索分析的工作效率专利文本。本发明所述的摘要生成方法应用于专利检索分析领域中,能够解决该领的难题,提高工作效率。
附图说明
图1为基于单篇长文本的摘要生成方法流程图;
图2为文本预处理流程图。
具体实施方式
以下结合具体实施例,对本发明进行了详细说明。
具体实施例一:
如图1所示,本发明提供一种基于单篇长文本的摘要生成方法,包括以下步骤:
一种基于单篇长文本的摘要生成方法,包括以下步骤:
步骤1:针对待处理的单篇长文本,通过Bert算法构造文本句子的特征向量,确定句子间的余弦相似度;
所述步骤1具体为:
步骤1.1:基于待处理的单篇长文本,选用NLTK库中punkt分隔器中的sent_tokenize()函数来对英文文本进行句子分隔,punkt分隔器中的sent_tokenize()函数运用一种与文本语言无关的无监督方法对句子边界进行检测,使其能够准确地处理单词中带点号的情况;
对句子进行分词、大小写转换、去除停用词、数字和标点处理工作,使用NLTK库中的word_tokenize()函数来进行操作;在分词之后对文中句子进行大小写转换、去除标点和数字,同时使用NLTK库中自带的停用词库来去除停用词,得到单篇长文本特征词集合;
步骤1.2:通过Bert算法构造文本句子的特征向量,根据Bert算法进行语言模型预训练,采用了多层双向Tansformer编码进行预训练,采用微调的方式解决下游预测任务,采用Masked语言模型来学习融合两个不同方向的文本特征,采用Mask掩码来代替原始单词,在预训练过程中进行预测;
基于Pytorch平台,使用Python开发语言中的pytorch_transformers包来进行句向量训练,构造文本句子的特征向量;
将向量夹角的余弦值作为衡量两个个体间差异大小的度量,通过下式表示句子间的余弦相似度cosθ:
其中,X和Y均为单篇长文本向量。
步骤2:确定文本句子的权重得分,根据文本句子的位置、长度、与标题相似度特征,对文本句子进行权重修正;
所述步骤2具体为:
步骤2.1:单篇长文本共有n个句子,前三段共有u个句子,确定句子基于位置的权重调整系数,通过下式表示句子基于位置的权重调整系数Wposition:
权重调整系数值在前u个句子中采用依次递减的方式,剩余句子保持原来的权重值;
步骤2.2:基于句子与标题的相似度的权重改进,提高包含标题关键词语的句子的权重值,通过下式确定权重调整系数Wtitle:
Wtitle=1+sim(Si,Stitle)
其,中sim(Si,Stitle)为句子Si与标题句子Stitle的相似度;
步骤2.3:对句子长度进行过滤,引入长度系数,通过下式确定长度调整系数Wlength:
其中,CL为长度指数,L为当前句子长度,Lm为整篇文档中最长的句子长度,Cave为CL的平均值;
当长度指数CL<0.1时,将不考虑该句子作为摘要候选句,即长度调整系数为0,否则做出权重系数修正。
通过TextRank算法进行权重迭代计算,对计算得到的权重W进行调整,通过下式表示调整后的权重系数:
W′=W*Wposition*Wtitle*Wlength
其中,W′表示调整后的权重系数。
步骤3:采用MMR算法对候选摘要句进行冗余度处理;
所述步骤3具体为:将每一个句子调整后的权重进行极大极小归一化处理,并将归一化后的值看做句子得分,根据得分将句子从高到低进行排序,依次记为d1,d2,…,dn,其中di表示句子得分排名第i的句子;
根据MMR算法,将句子得分转换成摘要提取任务的公式,确定摘要候选集中句子的MMR(di)值,通过下式表示摘要候选集中句子的MMR(di)值:
MMR(di)=λ·Sim1(di,Q)-(1-λ)·maxSim2(di,dj)
其中,λ∈[0,1],Q表示整篇文档,di表示排序后的句子集合中排名第i的句子,Sim1(di,Q)表示文档中某个句子和整篇文档的相似度,采用归一化后的句子得分来表示,λ·Sim1(di,Q)表示主题相关,maxSim2(di,dj)表示文档中的某个句子和已经抽取的摘要句子的最大相似度,(1-λ)maxSim2(di,dj)表示第i个句子与已选中的摘要的差异性;
设置λ=0.75,Sim2(di,dj)取余弦相似度,设置冗余度阈值θ=0.85,当MMR(di)≤θ且候选摘要数没有超过设定好的摘要句子数,将候选句子添加到候选摘要中,最终获得冗余度的摘要结果集。
步骤4:根据冗余度处理的候选摘要句,进行单篇长文本的摘要生成并评价。
所述步骤4具体为:
步骤4.1:选取ROUGE摘要评测指标,所述指标包括:ROUGE-1、ROUGE-2、ROUGE-L、ROUGE-W和ROUGE-S;
步骤4.2:运用Python的pyrouge包调用ROUGE-1.5.5;
步骤4.3:抽取压缩率为5%的单篇长文本句子构成摘要句。
使用ROUGE指标对摘要句进行评价。
具体实施例二:
本发明所提出的方法设计过程如图1所示,该方法是基于经典的TextRank算法的设计的,具体如下:
步骤1:针对待处理的单篇长文本,通过Bert算法表达句子特征向量计算余弦相似度;
本发明所述方法是基于TextRank算法的实现的,在经典的TextRank算法中,句子的特征表示是基于内容重叠的方法测量两个句子之间的相似度,这种方法仅仅考虑了词语之间的重叠度,而忽略了句子中语义方面的信息。为了考虑句子语义方面的信息,后期学者开始考虑用Word2Vector模型或者GloVe模型等词嵌入的方式来表达词向量,通过词向量加权平均的方式来表达句向量。这种方式忽略了特征词在不同语境中的不同含义,难以准确得表达文章中句子的特征信息。2018年Google推出的推出的开源自然语言预训练模型,基于Transformer的双向编码表示(Bidirectional Encoder Representations fromTransformers,以下简称“Bert模型”)模型学习时会对句子的两个方向进行学习,即会同时学习到词语的上下文,能够反映出不同的语境对同一个词的不同影响,同时也成为近年来学者的研究热点。
该模型具有两个阶段的训练过程:第一阶段是语言模型预训练,即采用了多层双向Tansformer编码进行预训练,第二阶段则是采用微调的方式解决下游预测任务,来解决一词多义的问题。
BERT模型预训练过程中采用Masked语言模型(Masked Language Model,简称“MLM”)来学习融合两个不同方向的文本特征。具体操作表现为随机选择一些词语将其遮蔽掉,并用“[Mask]”掩码来代替原始单词,然后在预训练过程中对其进行预测。对于BERT模型的输入主要有三部分组成:词语向量(TokenEmbedings)、段向量(SegmentEmbeddings)和位置向量(Positional Embeddings)。
本发明基于Pytorch平台,使用Python开发语言中的pytorch_transformers包来进行句向量训练。pytorch_transformers库中包含BERT、GPT、GPT-2、Transfo-XL、XLNet和XLM等多个模型,并提供了27个预训练模型,文本采用谷歌预训练好的英文BERT-Base模型进行句向量表示,因此BERT模型训练的最优句向量表示为768维。
余弦相似度(Consine Similarity)实际上是将向量空间中两个向量夹角的余弦值作为衡量两个个体间差异大小的度量,其取值在[-1,1].当余弦值越接近于1时,则夹角θ就越接近于0,说明两个向量的相似度越高;当余弦值等于1时,说明两个向量的方向相同;当余弦值等于-1时,说明两个向量的方向相反。其数学表达式为:给定两个向量X、Y,其对应夹角θ的余弦相似度为:
步骤2:根据句子的位置、长度、与标题相似度等特征修正句子权重得分;
使用TextRank算法在进行迭代计算时,各个句子节点的权重初始化为1,使其存在一些问题,主要表现在忽略了句子的位置特点、与标题的相似度、句子的长度信息等。
(1)基于句子位置的权重改进
美国的P.E.Baxendale的调查结果显示:段落的论题是段落首句的概率为85%,是段落末句的概率为7%,因此有必要提高处于特定位置的句子的权值。针对专利文本所具有的特点,即专利文本往往第一段是某发明创造的技术领域,第二段是其技术背景,第三段是其主要技术内容,随后是该发明创造的具体实施方案。因此从专利文本的行文格式可知,前三段内容描述了该发明的核心技术内容,其重要度相对较大,并且重要度呈现出依次递减的趋势。因此文本考虑对前三段的句子中越靠前句子赋予越大的权重修正。
假设某篇专利文本一共有n个句子,前三段共有u个句子,用Wposition来表示句子基于位置的权重调整系数,第s个句子的权重调整系数公式如下:
公式所依据的基本原理为:权重调整系数值在前u个句子中采用依次递减的方式,其余句子保持原来的权重值。本发明设置e1=0.5,为实验验证的通用调整阈值。
(2)基于句子与标题的相似度的权重改进
在很多业务中,规范的标题是作者给出的高度概括原文内容或者主题的短语,在对标题进行分词和过滤操作后,剩下的关键词与原文主题内容有紧密联系,因此需要提高包含标题关键词语的句子的权重值。用Wtitle来表示句子基于位置的权重调整系数,句子Si的权重调整系数公式如下:
Wtitle=1+sim(Si,Stitle)
其中sim(Si,Stitle)为句子Si与标题句子Stitle的相似度。
(3)句子长度过滤
一个句子能否作为摘要候选句,该句子本身的长度也是一个重要的条件,过长或过短的句子都不应该作为要生成的摘要的候选句。例如经过预处理后不包含基本特征的词语,可以将其过滤,在本发明中,引入长度系数的概念,定义长度调整系数Wlength为如下公式:
其中,L为当前句子长度,Lm为整篇文档中最长的句子长度,Cave为CL的平均值,当长度指数CL<0.1时,将不考虑该句子作为摘要候选句,即长度调整系数为0,否则做出权重系数修正。
通过TextRank算法进行权重迭代计算以后,需要对计算得到的权重W进行调整,即迭代后的权重W乘以上面得到的2个权重调整系数Wposition、Wtitle。具体调整公式如下:
W′=W*Wposition*Wtitle*Wlength
其中W′表示调整后的权重系数。这样可以突出重要位置、高主题相关性的句子,尽量减少迭代计算过程中其他句子带来的干扰,保证其作为摘要候选句的合理性。
步骤3:使用MMR算法对候选摘要句进行冗余度处理。
摘要的相关性越高,越能体现原文主题思想。摘要的多样性越高,摘要内容越全面。而高质量的摘要要求相关性和多样性能够达到一个平衡,摘要才便于用户更好地把握原文内容。因为TextRank算法是根据句子相似度进行权重分享,则相似句子的累加权重和必然较高,从而被同时选中为摘要句形成冗余。为了平衡摘要的相关性和多样性,本发明算法引入最大边缘相关(Maximal Marginal Relevance,MMR)算法。MMR的思想是使入选摘要句既与原文主题的相关度较高来保证摘要的相关性,又使该句与已选中摘要句的差异尽可能大来保证摘要的多样性,从而实现提取相关性和多样性平衡的高质量摘要。
本发明在选择摘要内容时,利用余弦相似度来判别冗余信息,采用以下步骤对摘要候选集进行冗余处理:
根据文本中每一个句子调整后的权重,将权重进行极大极小归一化处理,并将归一化后的值看做句子得分,根据得分将句子从高到低进行排序,依次记为d1,d2,…,dn,其中di表示句子得分排名第i的句子。
根据MMR算法,将其转换成适合摘要提取任务的公式,计算摘要候选集中句子的MMR(di)值,具体计算公式如下:
MMR(di)=λ·Sim1(di,Q)-(1-λ)·maxSim2(di,dj)
其中λ∈[0,1],Q表示整篇文档,di表示排序后的句子集合中排名第i的句子,Sim1(di,Q)表示文档中某个句子和整篇文档的相似度,在这里用归一化后的句子得分来表示。λ·Sim1(di,Q)反映了主题相关度,值越大表示该句子与原文主题相关程度越紧密,maxSim2(di,dj)表示文档中的某个句子和已经抽取的摘要句子的最大相似度,(1-λ)maxSim2(di,dj)表示第i个句子与已选中的摘要的差异性,值越大表示该句子与已有摘要差异越大;
将得到的权重调整后的值进行极大极小归一化处理,使其保证在[0,1]范围内。并将归一化的值作为文档中某个句子和整篇文档的相似度Sim1(di,Q)。
设置λ=0.75,Sim2(di,dj)取余弦相似度,设置冗余度阈值θ=0.85,当MMR(di)≤θ且候选摘要数没有超过提前设定好的摘要句子数,就将该句子添加到候选摘要中,最终获得较小冗余度的摘要结果集。
下面,通过建立计算机行业的英文专利文本,分别采用本发明所述的方法与经典的TextRank算法、Glove-TextRank算法分别对所述专利文本进行处理获得相应的模型摘要,并采用工标注的标准摘要与模型摘要进行评测,进而验证本发明所提出方法在单篇长文本上的合理性及实用性。
从壹专利网站检索获取100篇专利文献,所述专利文献涉及计算机技术领域,具体分为4个子领域,分别为通信和卫星传输类、互联网服务类、软件开发类、信息技术服务类,确定了4个子领域所对应的国民经济分类号;根据国民经济分类号从壹专利数据库中检索出对应领域的专利文本,分别从各个子领域筛选出近3年间的英文专利文本进行去重处理;之后从每个领域下载25篇英文专利,保存为word文档,构造最终应用于本发明的实验语料库。
在进行摘要提取之前,首先需要对专利文本进行文本预处理工作,如图2,具体工作如下:(1)将文档的内容分割成句子,形成句子集合;(2)对所有句子进行分词、去除停用词、去除标点和数字、大小写转换等处理工作;(3)最后得到由一个个词项构成的句子集合。本研究使用python开发语言中的NLTK(Natural Language Toolkit)库对英文文本进行预处理工作。
首先,对每一篇专利文本进行分句。本发明选取的是英文专利文本,它的分句不同于中文文本。中文文本主要依据句号、疑问号、感叹号、破折号、省略号等标点符号通过规则匹配的方式,使用python开发语言中的split()函数来进行分句,在这种情况下,只要定义好标点分隔符集合,就能进行准确地分句。但是对于英文文本,表示一句话结束的点号可以被用来标记缩写单词,例如:“Dr.Reichert”表示雷谢尔博士,“Mr.Adam”表示亚当先生,“Co.Ltd.”是股份有限公司的缩写,这些单词中的点号就不能作为分隔句子的标准。因此处理好英文分句的点号尤为重要。在本发明中,选用NLTK库中punkt分隔器中的sent_tokenize()函数来对英文文本进行句子分隔,punkt分隔器中的sent_tokenize()函数运用一种与文本语言无关的无监督方法对句子边界进行检测,使其能够准确地处理单词中带点号的情况。
接着,对句子进行分词、大小写转换、去除停用词、数字和标点等处理工作。英文分词与中文不同,它根据单词之间的空格来分词,在本发明中使用NLTK库中的word_tokenize()函数来进行操作;在分词之后对文中句子进行大小写转换、去除标点和数字,同时使用NLTK库中自带的停用词库来去除停用词,表1列出来部分的停用词。
最终将得到每一个句子中的特征词,以公开号为WO2019231465A1的专利文本为例,表2列出了前10个句子,表3列出此文本前10个句子的特征词集合。
表1部分停用词示例
表2示例专利的前10个句子
表3前10个句子的特征词集合
以公开号为WO2019231465A1的单篇长文本为例,分别用GloVe模型、BERT模型训练出前三个句子,即表2中序列号为1,2,3的句子的句向量表示,对两个句子向量进行对比,见表4所示。
表4示例句子的向量表示
本发明通过建立计算机行业的英文单篇长文本,将本发明提出的算法与经典的TextRank算法、Glove-TextRank算法在单篇长文本上进行实现,将人工标注的标准摘要与模型摘要进行评测,验证了本发明所提出算法在单篇长文本上的合理性及实用性。本发明抽取压缩率为5%的单篇长文本句子构成摘要句,使用ROUGE系列指标对其进行评价,由于研究学者Lin通过实验验证在这些ROUGE相关指标中,ROUGE-2、ROUGE-L、ROUGE-W、ROUGE-S在单文档摘要任务中表现良好,同时ROUGE-1衡量了文档中的内容被文摘系统能否有效提取的能力。所以本发明将依据ROUGE-1、ROUGE-2、ROUGE-L、ROUGE-W、ROUGE-S这5个指标对生成摘要进行评价。所得到的结果如表5所示。从表5可以看出本发明所提出的算法在各项指标上均大于其他算法,体现了本算发的优越性,说明本算发适用于单篇长文本的摘要提取技术。
表5各算法摘要评测结果
以上所述仅是一种基于单篇长文本的摘要生成方法的优选实施方式,一种基于单篇长文本的摘要生成方法的保护范围并不仅局限于上述实施例,凡属于该思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说,在不脱离本发明原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。
Claims (7)
1.一种基于单篇长文本的摘要生成方法,其特征是:包括以下步骤:
步骤1:针对待处理的单篇长文本,通过Bert算法构造文本句子的特征向量,确定句子间的余弦相似度;
步骤2:确定文本句子的权重得分,根据文本句子的位置、长度、与标题相似度特征,对文本句子进行权重修正;
步骤3:采用MMR算法对文本句子进行冗余度处理;
步骤4:根据冗余度处理的文本句子,进行单篇长文本摘要生成。
2.根据权利要求1所述的一种基于单篇长文本的摘要生成方法,其特征是:所述步骤1具体为:
步骤1.1:基于待处理的单篇长文本,选用NLTK库中punkt分隔器中的sent_tokenize()函数来对英文文本进行句子分隔,punkt分隔器中的sent_tokenize()函数运用一种与文本语言无关的无监督方法对句子边界进行检测,使其能够准确地处理单词中带点号的情况;
对句子进行分词、大小写转换、去除停用词、数字和标点处理工作,使用NLTK库中的word_tokenize()函数来进行操作;在分词之后对文中句子进行大小写转换、去除标点和数字,同时使用NLTK库中自带的停用词库来去除停用词,得到单篇长文本特征词集合;
步骤1.2:通过Bert算法构造文本句子的特征向量,根据Bert算法进行语言模型预训练,采用了多层双向Tansformer编码进行预训练,采用微调的方式解决下游预测任务,采用Masked语言模型来学习融合两个不同方向的文本特征,采用Mask掩码来代替原始单词,在预训练过程中进行预测;
基于Pytorch平台,使用Python开发语言中的pytorch_transformers包来进行句向量训练,构造文本句子的特征向量;
将向量夹角的余弦值作为衡量两个个体间差异大小的度量,通过下式表示句子间的余弦相似度cosθ:
其中,X和Y均为单篇长文本向量。
3.根据权利要求1所述的一种基于单篇长文本的摘要生成方法,其特征是:所述步骤2具体为:
步骤2.1:单篇长文本共有n个句子,前三段共有u个句子,确定句子基于位置的权重调整系数,通过下式表示句子基于位置的权重调整系数Wposition:
权重调整系数值在前u个句子中采用依次递减的方式,剩余句子保持原来的权重值;
步骤2.2:基于句子与标题的相似度的权重改进,提高包含标题关键词语的句子的权重值,通过下式确定权重调整系数Wtitle:
Wtitle=1+sim(Si,Stitle)
其,中sim(Si,Stitle)为句子Si与标题句子Stitle的相似度;
步骤2.3:对句子长度进行过滤,引入长度系数,通过下式确定长度调整系数Wlength:
其中,CL为长度指数,L为当前句子长度,Lm为整篇文档中最长的句子长度,Cave为CL的平均值;
当长度指数CL<0.1时,将不考虑该句子作为摘要候选句,即长度调整系数为0,否则做出权重系数修正。
4.根据权利要求3所述的一种基于单篇长文本的摘要生成方法,其特征是:通过TextRank算法进行权重迭代计算,对计算得到的权重W进行调整,通过下式表示调整后的权重系数:
W′=W*Wposition*Wtitle*Wlength
其中,W′表示调整后的权重系数。
5.根据权利要求1所述的一种基于单篇长文本的摘要生成方法,其特征是:所述步骤3具体为:
将每一个句子调整后的权重进行极大极小归一化处理,并将归一化后的值看做句子得分,根据得分将句子从高到低进行排序,依次记为d1,d2,…,dn,其中di表示句子得分排名第i的句子;
根据MMR算法,将句子得分转换成摘要提取任务的公式,确定摘要候选集中句子的MMR(di)值,通过下式表示摘要候选集中句子的MMR(di)值:
MMR(di)=λ·Sim1(di,Q)-(1-λ)·maxSim2(di,dj)
其中,λ∈[0,1],Q表示整篇文档,di表示排序后的句子集合中排名第i的句子,Sim1(di,Q)表示文档中某个句子和整篇文档的相似度,采用归一化后的句子得分来表示,λ·Sim1(di,Q)表示主题相关,maxSim2(di,dj)表示文档中的某个句子和已经抽取的摘要句子的最大相似度,(1-λ)maxSim2(di,dj)表示第i个句子与已选中的摘要的差异性;
设置λ=0.75,Sim2(di,dj)取余弦相似度,设置冗余度阈值θ=0.85,当MMR(di)≤θ且候选摘要数没有超过设定好的摘要句子数,将候选句子添加到候选摘要中,最终获得冗余度的摘要结果集。
6.根据权利要求1所述的一种基于单篇长文本的摘要生成方法,其特征是:所述步骤4具体为:
步骤4.1:选取ROUGE摘要评测指标,所述指标包括:ROUGE-1、ROUGE-2、ROUGE-L、ROUGE-W和ROUGE-S;
步骤4.2:运用Python的pyrouge包调用ROUGE-1.5.5;
步骤4.3:抽取压缩率为5%的单篇长文本句子构成摘要句。
7.根据权利要求1至6任意一项权利要求所述的一种基于单篇长文本的摘要生成方法,其特征是:所述单篇长文本为专利文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010630431.1A CN111858912A (zh) | 2020-07-03 | 2020-07-03 | 一种基于单篇长文本的摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010630431.1A CN111858912A (zh) | 2020-07-03 | 2020-07-03 | 一种基于单篇长文本的摘要生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111858912A true CN111858912A (zh) | 2020-10-30 |
Family
ID=73152781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010630431.1A Pending CN111858912A (zh) | 2020-07-03 | 2020-07-03 | 一种基于单篇长文本的摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858912A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328783A (zh) * | 2020-11-24 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 一种摘要确定方法和相关装置 |
CN112559729A (zh) * | 2020-12-08 | 2021-03-26 | 申德周 | 一种基于层次多维变压器模型的文档摘要计算方法 |
CN112732900A (zh) * | 2021-01-04 | 2021-04-30 | 山东众阳健康科技集团有限公司 | 一种电子病历文本摘要抽取方法 |
CN112861543A (zh) * | 2021-02-04 | 2021-05-28 | 吴俊� | 一种面向研发供需描述文本撮合的深层语义匹配方法和系统 |
CN113553824A (zh) * | 2021-07-07 | 2021-10-26 | 临沂中科好孕智能技术有限公司 | 一种句子向量模型训练方法 |
CN113626582A (zh) * | 2021-07-08 | 2021-11-09 | 中国人民解放军战略支援部队信息工程大学 | 基于内容选择和融合的两阶段摘要生成方法及系统 |
CN114064885A (zh) * | 2021-11-25 | 2022-02-18 | 北京航空航天大学 | 一种无监督中文多文档抽取式摘要方法 |
CN114186066A (zh) * | 2022-02-16 | 2022-03-15 | 子长科技(北京)有限公司 | 一种报告生成方法、系统、存储介质及电子设备 |
CN114201601A (zh) * | 2021-12-10 | 2022-03-18 | 北京金堤科技有限公司 | 舆情文本的摘要抽取方法、装置、设备及计算机存储介质 |
CN114239587A (zh) * | 2021-11-24 | 2022-03-25 | 北京三快在线科技有限公司 | 一种摘要生成方法、装置、电子设备及存储介质 |
CN114357142A (zh) * | 2022-01-12 | 2022-04-15 | 南京题麦壳斯信息科技有限公司 | 一种无监督的英文写作切题评估方法及其系统和设备 |
WO2022262266A1 (zh) * | 2021-06-18 | 2022-12-22 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN115934897A (zh) * | 2023-01-09 | 2023-04-07 | 北京知呱呱科技服务有限公司 | 一种专利用途改写的数据深加工方法及计算机设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030101415A1 (en) * | 2001-11-23 | 2003-05-29 | Eun Yeung Chang | Method of summarizing markup-type documents automatically |
CN110008313A (zh) * | 2019-04-11 | 2019-07-12 | 重庆华龙网海数科技有限公司 | 一种抽取式无监督文本摘要方法 |
CN111090731A (zh) * | 2019-12-20 | 2020-05-01 | 山大地纬软件股份有限公司 | 基于主题聚类的电力舆情摘要提取优化方法及系统 |
-
2020
- 2020-07-03 CN CN202010630431.1A patent/CN111858912A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030101415A1 (en) * | 2001-11-23 | 2003-05-29 | Eun Yeung Chang | Method of summarizing markup-type documents automatically |
CN110008313A (zh) * | 2019-04-11 | 2019-07-12 | 重庆华龙网海数科技有限公司 | 一种抽取式无监督文本摘要方法 |
CN111090731A (zh) * | 2019-12-20 | 2020-05-01 | 山大地纬软件股份有限公司 | 基于主题聚类的电力舆情摘要提取优化方法及系统 |
Non-Patent Citations (3)
Title |
---|
孟令阁等: "基于主题的SVM与MMR融合的会议摘要技术", 《计算机工程与设计》 * |
曹洋: "基于TextRank算法的单文档自动文摘研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
石元兵: "一种基于TextRank的中文自动摘要方法", 《通信技术》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328783A (zh) * | 2020-11-24 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 一种摘要确定方法和相关装置 |
CN112559729A (zh) * | 2020-12-08 | 2021-03-26 | 申德周 | 一种基于层次多维变压器模型的文档摘要计算方法 |
CN112732900B (zh) * | 2021-01-04 | 2022-07-29 | 山东众阳健康科技集团有限公司 | 一种电子病历文本摘要抽取方法 |
CN112732900A (zh) * | 2021-01-04 | 2021-04-30 | 山东众阳健康科技集团有限公司 | 一种电子病历文本摘要抽取方法 |
CN112861543A (zh) * | 2021-02-04 | 2021-05-28 | 吴俊� | 一种面向研发供需描述文本撮合的深层语义匹配方法和系统 |
WO2022262266A1 (zh) * | 2021-06-18 | 2022-12-22 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN113553824A (zh) * | 2021-07-07 | 2021-10-26 | 临沂中科好孕智能技术有限公司 | 一种句子向量模型训练方法 |
CN113626582A (zh) * | 2021-07-08 | 2021-11-09 | 中国人民解放军战略支援部队信息工程大学 | 基于内容选择和融合的两阶段摘要生成方法及系统 |
CN113626582B (zh) * | 2021-07-08 | 2023-07-28 | 中国人民解放军战略支援部队信息工程大学 | 基于内容选择和融合的两阶段摘要生成方法及系统 |
CN114239587A (zh) * | 2021-11-24 | 2022-03-25 | 北京三快在线科技有限公司 | 一种摘要生成方法、装置、电子设备及存储介质 |
CN114064885A (zh) * | 2021-11-25 | 2022-02-18 | 北京航空航天大学 | 一种无监督中文多文档抽取式摘要方法 |
CN114064885B (zh) * | 2021-11-25 | 2024-05-31 | 北京航空航天大学 | 一种无监督中文多文档抽取式摘要方法 |
CN114201601A (zh) * | 2021-12-10 | 2022-03-18 | 北京金堤科技有限公司 | 舆情文本的摘要抽取方法、装置、设备及计算机存储介质 |
CN114357142A (zh) * | 2022-01-12 | 2022-04-15 | 南京题麦壳斯信息科技有限公司 | 一种无监督的英文写作切题评估方法及其系统和设备 |
CN114186066A (zh) * | 2022-02-16 | 2022-03-15 | 子长科技(北京)有限公司 | 一种报告生成方法、系统、存储介质及电子设备 |
CN115934897A (zh) * | 2023-01-09 | 2023-04-07 | 北京知呱呱科技服务有限公司 | 一种专利用途改写的数据深加工方法及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111858912A (zh) | 一种基于单篇长文本的摘要生成方法 | |
CN106997382B (zh) | 基于大数据的创新创意标签自动标注方法及系统 | |
CN113268995B (zh) | 中文学术关键词抽取方法、装置和存储介质 | |
JP4726528B2 (ja) | マルチセンスクエリについての関連語提案 | |
CN103136352B (zh) | 基于双层语义分析的全文检索系统 | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN114065758A (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN114912449B (zh) | 基于代码描述文本的技术特征关键词抽取方法与系统 | |
CN112905768A (zh) | 一种数据交互方法、装置及存储介质 | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN115794995A (zh) | 目标答案获取方法及相关装置、电子设备和存储介质 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN116340502A (zh) | 基于语义理解的信息检索方法和装置 | |
CN110020024B (zh) | 一种科技文献中链接资源的分类方法、系统、设备 | |
CN113505196B (zh) | 基于词性的文本检索方法、装置、电子设备及存储介质 | |
Lin et al. | Enhanced BERT-based ranking models for spoken document retrieval | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
CN117891948A (zh) | 一种基于内部知识提取与对比学习的小样本新闻分类方法 | |
CN117932000A (zh) | 基于主题聚类全局特征的长文档稠密检索方法及系统 | |
CN117057346A (zh) | 一种基于加权TextRank和K-means的领域关键词抽取方法 | |
Gupta et al. | Songs recommendation using context-based semantic similarity between lyrics | |
CN114064855B (zh) | 一种基于变压器知识库的信息检索方法及系统 | |
CN113971403B (zh) | 一种考虑文本语义信息的实体识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |