CN109977220B - 一种基于关键句和关键字的反向生成摘要的方法 - Google Patents
一种基于关键句和关键字的反向生成摘要的方法 Download PDFInfo
- Publication number
- CN109977220B CN109977220B CN201910281699.6A CN201910281699A CN109977220B CN 109977220 B CN109977220 B CN 109977220B CN 201910281699 A CN201910281699 A CN 201910281699A CN 109977220 B CN109977220 B CN 109977220B
- Authority
- CN
- China
- Prior art keywords
- representing
- word
- key
- neural network
- abstract
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims description 70
- 239000013598 vector Substances 0.000 claims description 48
- 230000000306 recurrent effect Effects 0.000 claims description 37
- 230000002457 bidirectional effect Effects 0.000 claims description 28
- 125000004122 cyclic group Chemical group 0.000 claims description 18
- 230000014509 gene expression Effects 0.000 claims description 17
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 abstract description 2
- 230000010332 selective attention Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 8
- 239000003607 modifier Substances 0.000 description 4
- 239000003365 glass fiber Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于关键字和关键句的反向生成摘要的方法。方法包括:构建关键字和关键句的训练和测试数据集,搭建序列到序列的框架网络,通过对关键字和关键句进行编码,再有选择注意力模型对需要提取的地方进行定位和选择,若提取的摘要信息在原文中就选择原文,反之就从字典中选取摘要信息,将定位和选择好的内容放入反向解码器中,再经查重模块,最终得到文本摘要。发明的有益效果是:基于关键字和关键句的摘要提取方法使得文档中的冗余信息降低、对原文中重要信息的辨识能力提高、产生的摘要具有对原文的高度概括且符合中文语法,语句更加流畅,语义也更加符合文意。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于关键句和关键字的反向生成摘要的方法。
背景技术
在自然语言处理领域,文本摘要生成占据着重要的地位,它主要应用于新闻信息服务、文献自动索引、信息检索、搜索引擎等方面。文本摘要生成主要分为提取式和生成式。但随着注意力模型的出现,文本摘要的到了快速的发展。但目前主流的方法是基于序列到序列模型的文本摘要算法。这种算法利用了深度学习技术,使得训练生成的摘要与标准摘要相接近。这种模型的缺点是易出现重复字、对文本冗余信息的识别和处理能力差、对文本的重要信息的辨别能力差且倾向于从文本中直接提取关键信息,当遇到原文中一些需要高度概括的地方时,其创造新词的能力较差,不能形成高度概括的文本摘要。
传统的序列到序列的模型都依靠注意力机制来挑选标准答案的出处。当一些段落没有标准答案的出处时,它就不能准确的找到答案的出处,而是随机的在原文中找一句,最终形成的摘要也就不准确。这就需要去提升注意力模型的定位与选择能力能力。这样该模型才能有高度概括的能力。
生成的摘要也会出现词语之间搭配不准确或不合理,最终导致摘要语句语义、流畅性等受到影响。句子中某些结构是修饰词加中性词的形式。若将其翻转变为中性词在前修饰词在后,从概率论的角度,修饰词更加容易确定。
发明内容
针对语料数据稀疏、注意力模型不能准确定位摘要出处和摘要不能对原文进行高度概括、生成的摘要中词语搭配不合理、摘要中有重复字的技术问题,提供一种基于关键句和关键字的反向生成摘要的方法。
其技术方案为,
1、针对数据稀疏问题,分别用tf-idf算法和用textrank算法提取原文的30个关键字和2个关键句。将这些关键字与答案的关键字用正则表达式进行匹配将不同的关键字加入到30个关键字中。
2、针对注意力模型不能准确定位问题,使用上述这些关键字指引注意力模型在原文中准确定位。
3、针对不能形成高度概括的摘要,在注意力模型上加入选择门,先通过注意力去寻找标准答案出处,若存在则使用该出处生成摘要。若不从在,注意力模型就不用去原文中寻找,直接使用词典中的词造出与标准答案相接近的摘要。
4、针对摘要最后生成阶段有些词与另一些词搭配不合理,采用将标准答案翻转,经训练后形成的摘要也会被翻转,这样一些修饰词更容易被确定,且不破坏句子其他结构。
5、针对重复字问题,在摘要生成过程中查重模块会控制注意力机制。
本方法的具体步骤为:
S1、将获取的语料生成文档;
S2、分别用tf-idf算法和用textrank算法提取原文的若干个关键字和关键句;
S3、用正则表达式比较标准答案与所述S2提取的关键字,将标题中不同的关键字增加到S2提取的关键字中;
S4、将获取的所述关键字和关键句分别输入两个编码器中;
S5、选择注意力模型在编码器或在字典中寻找形成摘要的关键信息;语料在进入网络时,会自动统计关键字和关键句以及标题里的字,将这些字作为字典。
S6、S5挑选好的关键信息进入反向解码器;
S7、用查重模块对注意力模型控制,防止重复定位原文,产生重复字;
S8、最终生成文本摘要。
优选为,所述步骤S2中,用tf-idf算法的具体步骤为:
先计算每个词在文档中出现的频率,再计算每个词的逆向文件频率;将每个字的词频与每个字的逆向文件频率相乘,最终得到每个词的权重,依次取出权重较高的30个词作为关键词;表达式为:
式中ni,j是该词ti在文件dj中的出现次数,而分母则是在文件dj中所有词的出现次数之和;其中|D|是语料库中的文件总数|{j:ti∈dj}|表示包含词语ti的文件数目;tfidfi,j=tfi,j×idfi,其中tfidfi,j表示每个词的权重。
优选为,所述S2中用textrank算法的具体步骤为:
将文档中的每个句子看做一个节点,并将每个句子的句向量的cos值作为边用k-means算法将句子聚类,在每类中用textrank以相同的节点和边的方式对每个句子排序,找出前两个句子作为关键句。
优选为,所述S3中,用正则表达式算法比较关键字的具体步骤为:
正则表达式将所述S2提取的30个关键词与人工摘要的字进行一一对比,发现不同的字输出,将每个文档不同的关键字添加到它对应的提取的30个关键字中。
优选为,所述S4将获取的所述关键字和关键句分别输入两个编码器中的具体步骤为:
利用两个双向循环神经网络的编码器分别对关键句和关键字进行数字化,得到编码向量;具体的方式为使用双向神经网络中的两个反向的循环神经网络,将文章中的每个字依次输入该网络,在最后一个字输入完成时得到字的编码向量,分别作为输入关键字和关键句的编码向量和/>数学表达式如下:
式中表示双向循环神经网络中的前向隐藏层状;/>表示双向循环神经网络中的反向隐藏层状;xt表示关键句中的词;/>表示双向循环神经网络中的前向隐藏层前一状态;/>表示双向循环神经网络中的反向隐藏层前一隐藏层;/>表示双向循环神经网络中的最终隐藏层;GRU表示神经网络;
式中表示关键字双向循环神经网络中的前向隐藏层状;/>表示关键字双向循环神经网络中的反向隐藏层状;xkt表示关键词;/>表示关键字双向循环神经网络中的前向隐藏层前一状态;/>表示关键字双向循环神经网络中的反向隐藏层前一隐藏层;/>表示关键字双向循环神经网络中的最终隐藏层;GRU表示神经网络。
优选为,所述S5注意力模型在编码器或在字典中寻找形成摘要的关键信息;具体步骤为:
利用双向循环神经网络在每一时刻输入关键句和关键字的向量,注意力模型给予关键句的每个字不通的权重,并结合已生成的摘要的字的向量,利用关键字向量去增加被注意力模型捕获到的关键句中字向量的权重,选择需要关注的关键句中的字向量,当原文中没有答案的出处时,注意力模型就从由关键字和关键句组成的字典中选择需要关注的字向量,最终注意力模型将输出的向量Ct给解码器;
式中表示解码器循环神经网络的隐藏层;/>表示解码器循环神经网络的隐层的权重;/>表示关键字和关键句权重;/>表示关键句隐藏层;/>表示关键句隐藏层;ba表示偏置;ai,j表示权重;/>表示关键句的隐藏层;h表示被选定的隐藏层;hdic表示由关键句和关键字组成的字典的隐藏层;kt表示注意力的选择开关,当kt=1时选择关键句,当kt=0时选择字典;Te表示输入序列长度。
优选为,所述S6中,将所述S5挑选好的关键信息进入反向解码器具体步骤为:
利用经关键字辅助注意力模型在关键句中或在字典中选择的每一时刻输入得到的字,经过编码器输出的当前时刻预测到的字,经过一定时刻得到一个完整的摘要;具体的方式为先使用双向循环神经网络模型输入经注意力模型选定的字向量(来自关键句或字典)作为输入,在同一时刻已生成的摘要字向量结合原文本通过结构控制层,结构控制层再结合注意力模型挑选的输入内容,计算条件概率生成摘要的最后一个字,把最后第一个字输入到循环神经网络模型中,得到倒数第二个字,以此类推直到生成一个代表句子结束的标识符,这样就能得到完整的逆序摘要文本;此时循环神经网络还得到了该摘要的逆序解码字向量;其数学公式为:
表示解码器循环神经网络的第一隐藏层;GRU1表示神经网络;yt-1表示解码器已经产生的词向量;/>表示上一时刻解码器循环神经网络的第一隐藏层;/>表示解码器循环神经网络的第二隐藏层;/>表示上一时刻解码器循环神经网络的第二隐藏层;g表示表示t时刻解码器联合隐藏层;/>表示结构控制层的权重;zt表示结构控制层;/>表示第二隐藏层权重;/>表示前一确定隐藏层;/>表示偏置;yt=[yt-1,...,y2,y1]表示产生的反向摘要序列;/>表示联合隐藏层权重;/>表示softmax函数;/>表示偏置。
优选为,所述S7具体步骤为:
将注意力给每个输入的字的权重相加得到向量d,d再与每个注意力权重求最小值,将每一个最小值相加,得到的值加入最后的损失函数中。
优选为,所述S8具体步骤为:
计算得到目标函数的梯度,然后用KL散度算法依照梯度对参数θ进行更新,就可得到目标函数的最大值,最终得到最好的那组摘要即为本方法所需生成的摘要。
优选为,所述S2中分别用tf-idf算法和用textrank算法提取原文的若干个关键字和关键句为,提取N*10个关键字和M个关键句,其中N大于等于3,M大于等于2。
本发明实施例提供的技术方案带来的有益效果是:应用关键句、原文关键字和标题关键字、选择注意力模型处、翻转控制器、查重控制器,使得文档中的冗余信息降低、对原文中重要信息的辨识能力提高、产生的摘要具有对原文的高度概括且符合中文语法,语句更加流畅,语义也更加符合文意,词语搭配也更加合理。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例的框架结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,在不冲突的情况下,本发明创造中的实施例及实施例中的特征可以相互组合。
实施例1
参见图1与图2,本发明提供一种基于关键句和关键字的反向生成摘要的方法,包括步骤
S1、将获取的语料生成文档。
S2、分别用tf-idf算法和用textrank算法提取原文的30个关键字和2个关键句。
用tf-idf算法的具体步骤为:
先计算每个词在文档中出现的频率,再计算每个词的逆向文件频率;将每个字的词频与每个字的逆向文件频率相乘,最终得到每个词的权重,依次取出权重较高的30个词作为关键词;表达式为:
式中ni,j是该词ti在文件dj中的出现次数,而分母则是在文件dj中所有词的出现次数之和;其中|D|是语料库中的文件总数|{j:ti∈dj}|表示包含词语ti的文件数目;tfidfi,j=tfi,j×idfi,其中tfidfi,j表示每个词的权重。
用textrank算法的具体步骤为:
将文档中的每个句子看做一个节点,并将每个句子的句向量的cos值作为边用k-means算法将句子聚类,在每类中用textrank以相同的节点和边的方式对每个句子排序,找出前两个句子作为关键句。
S3、用正则表达式比较标准答案与S2提取的关键字,将标题中不同的关键字增加到S2提取的关键字中。
正则表达式将S2提取的30个关键词与人工摘要的字进行一一对比,发现不同的字输出,将每个文档不同的关键字添加到它对应的提取的30个关键字中。
S4、将获取的关键字和关键句分别输入两个编码器中。
利用两个双向循环神经网络的编码器分别对关键句和关键字进行数字化,得到编码向量;具体的方式为使用双向神经网络中的两个反向的循环神经网络,将文章中的每个字依次输入该网络,在最后一个字输入完成时得到字的编码向量,分别作为输入关键字和关键句的编码向量和/>数学表达式如下:
式中表示双向循环神经网络中的前向隐藏层状;/>表示双向循环神经网络中的反向隐藏层状;xt表示关键句中的词;/>表示双向循环神经网络中的前向隐藏层前一状态;/>表示双向循环神经网络中的反向隐藏层前一隐藏层;/>表示双向循环神经网络中的最终隐藏层;GRU表示神经网络;
式中表示关键字双向循环神经网络中的前向隐藏层状;/>表示关键字双向循环神经网络中的反向隐藏层状;xkt表示关键词;/>表示关键字双向循环神经网络中的前向隐藏层前一状态;/>表示关键字双向循环神经网络中的反向隐藏层前一隐藏层;/>表示关键字双向循环神经网络中的最终隐藏层;GRU表示神经网络。
S5、选择注意力模型在编码器或在字典中寻找形成摘要的关键信息;语料在进入网络时,会自动统计关键字和关键句以及标题里的字,将这些字作为字典。
利用双向循环神经网络在每一时刻输入关键句和关键字的向量,注意力模型给予关键句的每个字不通的权重,并结合已生成的摘要的字的向量,利用关键字向量去增加被注意力模型捕获到的关键句中字向量的权重,选择需要关注的关键句中的字向量,当原文中没有答案的出处时,注意力模型就从由关键字和关键句组成的字典中选择需要关注的字向量,最终注意力模型将输出的向量Ct给解码器;
式中表示解码器循环神经网络的隐藏层;/>表示解码器循环神经网络的隐层的权重;/>表示关键字和关键句权重;/>表示关键句隐藏层;/>表示关键句隐藏层;ba表示偏置;ai,j表示权重;/>表示关键句的隐藏层;h表示被选定的隐藏层;hdic表示由关键句和关键字组成的字典的隐藏层;kt表示注意力的选择开关,当kt=1时选择关键句,当kt=0时选择字典;Te表示输入序列长度。
S6、S5挑选好的关键信息进入反向解码器。
利用经关键字辅助注意力模型在关键句中或在字典中选择的每一时刻输入得到的字,经过编码器输出的当前时刻预测到的字,经过一定时刻得到一个完整的摘要;具体的方式为先使用双向循环神经网络模型输入经注意力模型选定的字向量(来自关键句或字典)作为输入,在同一时刻已生成的摘要字向量结合原文本通过结构控制层,结构控制层再结合注意力模型挑选的输入内容,计算条件概率生成摘要的最后一个字,把最后第一个字输入到循环神经网络模型中,得到倒数第二个字,以此类推直到生成一个代表句子结束的标识符,这样就能得到完整的逆序摘要文本;此时循环神经网络还得到了该摘要的逆序解码字向量;其数学公式为:
表示解码器循环神经网络的第一隐藏层;GRU1表示神经网络;yt-1表示解码器已经产生的词向量;/>表示上一时刻解码器循环神经网络的第一隐藏层;/>表示解码器循环神经网络的第二隐藏层;/>表示上一时刻解码器循环神经网络的第二隐藏层;g表示表示t时刻解码器联合隐藏层;/>表示结构控制层的权重;zt表示结构控制层;/>表示第二隐藏层权重;/>表示前一确定隐藏层;/>表示偏置;yt=[yt-1,...,y2,y1]表示产生的反向摘要序列;/>表示联合隐藏层权重;/>表示softmax函数;/>表示偏置。
S7、用查重模块对注意力模型控制,防止重复定位原文,产生重复字。
将注意力给每个输入的字的权重相加得到向量d,d再与每个注意力权重求最小值,将每一个最小值相加,得到的值加入最后的损失函数中。
S8、最终生成文本摘要。
计算得到目标函数的梯度,然后用KL散度算法依照梯度对参数θ进行更新,就可得到目标函数的最大值,最终得到最好的那组摘要即为本方法所需生成的摘要。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于关键句和关键字的反向生成摘要的方法,其特征在于,包括步骤:
S1、将获取的语料生成文档;
S2、分别用tf-idf算法和用textrank算法提取原文的若干个关键字和关键句;
S3、用正则表达式比较标准答案与所述S2提取的关键字,将标题中不同的关键字增加到S2提取的关键字中;
S4、将获取的所述关键字和关键句分别输入两个编码器中;
S5、选择注意力模型在编码器或在字典中寻找形成摘要的关键信息;
S6、S5挑选好的关键信息进入反向解码器;
S7、用查重模块对注意力模型控制,防止重复定位原文,产生重复字;
S8、最终生成文本摘要;
其中,所述步骤S2中,用tf-idf算法的具体步骤为:
先计算每个词在文档中出现的频率,再计算每个词的逆向文件频率;将每个字的词频与每个字的逆向文件频率相乘,最终得到每个词的权重,依次取出权重较高的词作为关键词;表达式为:
;
;
式中是词t i在文件d j中的出现次数,而分母则是在文件d j中所有词的出现次数之和;其中/>是语料库中的文件总数/>表示包含词语t i的文件数目;,其中/>表示每个词的权重;
所述S2中用textrank算法的具体步骤为:
将文档中的每个句子看做一个节点,并将每个句子的句向量的cos值作为边用k-means算法将句子聚类,在每类中用textrank以相同的节点和边的方式对每个句子排序,找出前两个句子作为关键句;
所述S3中,用正则表达式算法比较关键字的具体步骤为:
正则表达式将所述S2提取的关键词与人工摘要的字进行一一对比,发现不同的字输出,将每个文档不同的关键字添加到它对应的提取的关键字中;
所述S4将获取的所述关键字和关键句分别输入两个编码器中的具体步骤为:
利用两个双向循环神经网络的编码器分别对关键句和关键字进行数字化,得到编码向量;具体的方式为使用双向神经网络中的两个反向的循环神经网络,将文章中的每个字依次输入该网络,在最后一个字输入完成时得到字的编码向量,分别作为输入关键字和关键句的编码向量和/>;数学表达式如下:
;
式中表示双向循环神经网络中的前向隐藏层状;/>表示双向循环神经网络中的反向隐藏层状;/>表示关键句中的词;/>表示双向循环神经网络中的前向隐藏层前一状态;表示双向循环神经网络中的反向隐藏层前一隐藏层;/> 表示双向循环神经网络中的最终隐藏层;/>表示神经网络;
;
式中表示关键字双向循环神经网络中的前向隐藏层状; />表示关键字双向循环神经网络中的反向隐藏层状; />表示关键词;/>表示关键字双向循环神经网络中的前向隐藏层前一状态;/>表示关键字双向循环神经网络中的反向隐藏层前一隐藏层;/>表示关键字双向循环神经网络中的最终隐藏层;/>表示神经网络。
2.基于权利要求1所述的基于关键句和关键字的反向生成摘要的方法,其特征在于,所述S5注意力模型在编码器或在字典中寻找形成摘要的关键信息;具体步骤为:
利用双向循环神经网络在每一时刻输入关键句和关键字的向量,注意力模型给予关键句的每个字不同的权重,并结合已生成的摘要的字的向量,利用关键字向量去增加被注意力模型捕获到的关键句中字向量的权重,选择需要关注的关键句中的字向量,当原文中没有答案的出处时,注意力模型就从由关键字和关键句组成的字典中选择需要关注的字向量,最终注意力模型将输出的向量给解码器;
;
式中表示解码器循环神经网络的隐藏层;/>表示解码器循环神经网络的隐隐藏层的权重;/>表示关键字和关键句权重;/>表示关键字隐藏层;/>表示关键句隐藏层;表示偏置;/>表示权重;/>表示被选定的隐藏层;/>表示由关键句和关键字组成的字典的隐藏层;/>表示注意力的选择开关,当/>=1时选择关键句,当/>=0时选择字典;/>表示输入序列长度。
3.基于权利要求2所述的基于关键句和关键字的反向生成摘要的方法,其特征在于,所述S6中,将所述S5挑选好的关键信息进入反向解码器具体步骤为:
利用经关键字辅助注意力模型在关键句中或在字典中选择的每一时刻输入得到的字,经过编码器输出的当前时刻预测到的字,经过一定时刻得到一个完整的摘要;具体的方式为先使用双向循环神经网络模型输入经注意力模型选定的字向量作为输入,在同一时刻已生成的摘要字向量结合原文本通过结构控制层,结构控制层再结合注意力模型挑选的输入内容,计算条件概率生成摘要的最后一个字,把最后第一个字输入到循环神经网络模型中,得到倒数第二个字,以此类推直到生成一个代表句子结束的标识符,这样就能得到完整的逆序摘要文本;此时循环神经网络还得到了该摘要的逆序解码字向量;其数学公式为:
;
表示解码器循环神经网络的第一隐藏层;/>表示神经网络;/>表示解码器已经产生的词向量;/>表示上一时刻解码器循环神经网络的第一隐藏层; />表示解码器循环神经网络的第二隐藏层;/>表示上一时刻解码器循环神经网络的第二隐藏层;g表示;/>表示t时刻解码器联合隐藏层;/>表示结构控制层的权重;/>表示结构控制层;/>表示第二隐藏层权重;/>表示前一确定隐藏层;/>表示偏置;表示产生的反向摘要序列;/>表示联合隐藏层权重;/>表示softmax函数;/>表示偏置。
4.基于权利要求1所述的基于关键句和关键字的反向生成摘要的方法,其特征在于,所述S7具体步骤为:
将注意力给每个输入的字的权重相加得到向量d,d再与每个注意力权重求最小值,将每一个最小值相加,得到的值加入最后的损失函数中。
5.基于权利要求1所述的基于关键句和关键字的反向生成摘要的方法,其特征在于,所述S8具体步骤为:
计算得到目标函数的梯度,然后用KL散度算法依照梯度对参数进行更新,就可得到目标函数的最大值,最终得到的那组摘要即为本方法所需生成的摘要。
6.基于权利要求1所述的基于关键句和关键字的反向生成摘要的方法,其特征在于,所述S2中分别用tf-idf算法和用textrank算法提取原文的若干个关键字和关键句为,提取N*10个关键字和M个关键句,其中N大于等于3,M大于等于2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910281699.6A CN109977220B (zh) | 2019-04-09 | 2019-04-09 | 一种基于关键句和关键字的反向生成摘要的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910281699.6A CN109977220B (zh) | 2019-04-09 | 2019-04-09 | 一种基于关键句和关键字的反向生成摘要的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109977220A CN109977220A (zh) | 2019-07-05 |
CN109977220B true CN109977220B (zh) | 2024-01-30 |
Family
ID=67083736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910281699.6A Active CN109977220B (zh) | 2019-04-09 | 2019-04-09 | 一种基于关键句和关键字的反向生成摘要的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109977220B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177366B (zh) * | 2019-12-30 | 2023-06-27 | 北京航空航天大学 | 一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统 |
CN111563160B (zh) * | 2020-04-15 | 2023-03-31 | 华南理工大学 | 基于全局语义的文本自动摘要方法、装置、介质及设备 |
CN111966820B (zh) * | 2020-07-21 | 2023-03-24 | 西北工业大学 | 一种生成式摘要模型构建、提取生成式摘要方法及系统 |
US11984113B2 (en) | 2020-10-06 | 2024-05-14 | Direct Cursus Technology L.L.C | Method and server for training a neural network to generate a textual output sequence |
CN112468888B (zh) * | 2020-11-26 | 2023-04-07 | 广东工业大学 | 基于gru网络的视频摘要生成方法与系统 |
CN113536804B (zh) * | 2021-06-29 | 2022-05-03 | 北京理工大学 | 一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104216875B (zh) * | 2014-09-26 | 2017-05-03 | 中国科学院自动化研究所 | 基于非监督关键二元词串提取的微博文本自动摘要方法 |
KR102630668B1 (ko) * | 2016-12-06 | 2024-01-30 | 한국전자통신연구원 | 입력 텍스트를 자동으로 확장하는 시스템 및 방법 |
CN107423290A (zh) * | 2017-04-19 | 2017-12-01 | 厦门大学 | 一种基于层次结构的神经网络机器翻译模型 |
-
2019
- 2019-04-09 CN CN201910281699.6A patent/CN109977220B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109977220A (zh) | 2019-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977220B (zh) | 一种基于关键句和关键字的反向生成摘要的方法 | |
CN111611361B (zh) | 抽取式机器智能阅读理解问答系统 | |
CN108519890B (zh) | 一种基于自注意力机制的鲁棒性代码摘要生成方法 | |
Li et al. | Leveraging linguistic structures for named entity recognition with bidirectional recursive neural networks | |
JP5444308B2 (ja) | 非ローマ文字および単語のスペル修正のためのシステムおよび方法 | |
CN112100351A (zh) | 一种通过问题生成数据集构建智能问答系统的方法及设备 | |
CN113268995B (zh) | 中文学术关键词抽取方法、装置和存储介质 | |
CN110532328B (zh) | 一种文本概念图构造方法 | |
CN111428443B (zh) | 一种基于实体上下文语义交互的实体链接方法 | |
CN112183094A (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN110516145B (zh) | 一种基于句向量编码的信息搜索方法 | |
CN114428850B (zh) | 一种文本检索匹配方法和系统 | |
CN111563375A (zh) | 一种文本生成方法和装置 | |
Liu et al. | Uamner: uncertainty-aware multimodal named entity recognition in social media posts | |
CN112364132A (zh) | 基于依存句法的相似度计算模型和系统及搭建系统的方法 | |
CN112966117A (zh) | 实体链接方法 | |
Li et al. | LSTM-based deep learning models for answer ranking | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
Sarker et al. | Word completion and sequence prediction in Bangla language using trie and a hybrid approach of sequential LSTM and N-gram | |
CN117077655A (zh) | 基于情感知识增强的方面级情感三元组提取方法及系统 | |
CN115794998A (zh) | 一种基于对比学习的专业领域术语挖掘方法 | |
CN114154496A (zh) | 基于深度学习bert模型的煤监类案对比方法及装置 | |
Shao et al. | An efficient expansion word extraction algorithm for educational video | |
Lin et al. | Domain Independent Key Term Extraction from Spoken Content Based on Context and Term Location Information in the Utterances | |
Mohapatra et al. | Domain based chunking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |