CN111651589A - 一种针对长文档的两阶段文本摘要生成方法 - Google Patents
一种针对长文档的两阶段文本摘要生成方法 Download PDFInfo
- Publication number
- CN111651589A CN111651589A CN202010794935.7A CN202010794935A CN111651589A CN 111651589 A CN111651589 A CN 111651589A CN 202010794935 A CN202010794935 A CN 202010794935A CN 111651589 A CN111651589 A CN 111651589A
- Authority
- CN
- China
- Prior art keywords
- sentences
- document
- sentence
- transition
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000007704 transition Effects 0.000 claims abstract description 91
- 238000012805 post-processing Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 69
- 239000013598 vector Substances 0.000 claims description 48
- 238000009826 distribution Methods 0.000 claims description 26
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 125000004122 cyclic group Chemical group 0.000 claims description 15
- 238000005259 measurement Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 5
- 238000011524 similarity measure Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 8
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种针对长文档的两阶段文本摘要生成方法,对长文档进行数据预处理;切分成语句并对语句进行后处理;定义过渡文档候选语句;定义目标增益函数;利用贪心算法依次选取使得所述目标增益函数最大的句子添加进过渡文档候选语句;对过渡文档候选语句按句子的原始顺序重排序获取过渡文档;使用编码器对过渡文档进行编码得到所述过渡文档的最终隐藏表示;解码器中使用集束搜索生成长文档摘要。本发明结合抽取式方法和生成式方法两者的优点,获得的摘要同时满足准确性高、流畅性好的特点,提高了长文档摘要的质量和可读性。
Description
技术领域
本发明属于自然语言处理和自然语言生成技术领域,具体涉及一种针对长文档的两阶段文本摘要生成方法。
背景技术
互联网技术的发展导致文本信息规模快速增长、数据过载问题日益严重,对蕴含重要信息的、不同语言的长文档进行“降维”处理已成为人们关心的重要问题之一。
文本摘要是自然语言处理以及自然语言生成的重要任务,其目的是使用抽取或生成的方式获取给定文档的简短版本,同时保留给定文档的显著信息。现有的文本摘要技术主要分为两种:抽取式方法和生成式方法。抽取式方法直接从给定文档中选择句子组成摘要,具体表现为对句子重要性进行打分并提取重要性较高的若干个句子。生成式方法通过重新组织给定文档的中心思想形成摘要,形式上更类似于人工撰写。
针对长文档进行摘要时,抽取式方法存在以下问题:摘要的长度限制导致抽取出的句子间距较远,严重影响句子之间的流畅性、连贯性、可读性。生成式方法存在以下问题:由于深度神经网络LSTM、GRU、Transformer对长文档编码性能较弱,导致生成的摘要准确性较低,无法很好地反应给定文档的事实细节。
发明内容
为了克服上述现有技术针对长文档摘要的不足,本发明提供一种针对长文档的两阶段文本摘要生成方法,获得的摘要同时满足准确性高、流畅性好的特点。能够解决单独使用抽取式方法或生成式方法存在的准确性低、流畅性差的缺陷。
一种针对长文档的两阶段文本摘要生成方法,包括以下步骤:
步骤1、对待获取摘要的长文档进行数据预处理;
步骤2、将预处理后的长文档切分成语句,并对语句进行后处理;
步骤3、定义过渡文档候选语句,并初始化为空集;
步骤4、定义目标增益函数;
步骤5、利用贪心算法依次选取使得所述目标增益函数最大的句子添加进过渡文档候选语句;
步骤6、对过渡文档候选语句按句子的原始顺序重排序获取过渡文档;
步骤7、使用编码器对步骤6输出的过渡文档进行编码得到所述过渡文档的最终隐藏表示;
步骤8、在解码器中使用集束搜索生成长文档摘要。
如上所述的步骤4包括以下步骤:
步骤41、计算语句的向量表示;
步骤42、对向量表示计算相似度度量获得相似度矩阵;
步骤43、对过渡文档候选语句的覆盖性子方面、冗余性子方面进行建模获得目标次模函数;
步骤44、对所述语句中的每个句子分配重要性度量;
步骤45、对所述语句中的每个句子分配准确性度量;
步骤46、将重要性度量、准确性度量与步骤43中的目标次模函数进行子方面融合获得目标增益函数。
如上所述的步骤42中,相似度度量通过以下公式获得:
如上所述的步骤43中目标次模函数通过以下步骤获得:
步骤431、计算过渡文档候选语句与长文档的相似程度,
其中,为所述过渡文档候选语句与所述长文档的相似程度,分别为句子的索引,为所述过渡文档候选语句,为所述长文档包含的所有句子,为与的差集,为句子对之间的相似度度量,为包含关系,为求和函数,为求最小值函数,为阈值系数;
步骤432、计算过渡文档候选语句之间总的冗余量,
步骤433、建立目标次模函数,
如上所述的步骤44中,重要性度量通过以下公式获得:
如上所述的步骤45中,准确性度量通过以下公式获得:
其中,为长文档,为关键词抽取算法,为关键词,为关键词权重,为包含的关键词数量,为遍历关键词的索引,为句子包含的单词集合,为的单词索引,为句子的单词总数,为并集,为句子包含的关键词索引,为句子的准确性度量。
如上所述的步骤5包括以下步骤:
步骤51、在语句中每次循环选取目标增益函数最大的句子,判断最大目标增益函数的增量是否大于零以及对应的句子与当前过渡文档候选语句的雅卡尔指数是否小于冗余阈值,若满足上述条件,则将目标增益函数最大的句子保留为候选句,若不满足上述条件,则继续下一轮循环;
步骤52:判断候选句添加进过渡文档候选语句后过渡文档候选语句的总长度是否大于预算约束,若大于,则不添加该候选句到过渡文档候选语句,若小于等于,则添加该候选句到过渡文档候选语句,并返回步骤51,当在预算约束已满或所述语句已被全部遍历的情况下退出循环,同时返回过渡文档候选语句。
如上所述的步骤7包括以下步骤:
步骤71、对所述过渡文档中的单词进行映射获得词典索引;
步骤72、对所述词典索引进行词嵌入操作获得词向量;使用循环神经网络中的双向长短时记忆网络或双向门控循环网络作为编码器,在当前时刻,循环神经网络单元接收当前时刻输入单词的词向量和前一时刻循环神经网络单元输出的隐藏层表示生成新的隐藏层状态,并将新的隐藏层状态传递到下一时刻的循环神经网络单元中,直到所述过渡文档的单词全部编码完毕,获得过渡文档的最终隐藏表示;
步骤73、编码完成后,所述过渡文档的最终隐藏表示为正向编码与反向编码的级联。
如上所述的步骤8包括以下步骤:
步骤81、使用单向长短时记忆网络或门控循环网络作为解码器,接收起始符“<bos>”的词向量获得新的解码器状态,同时覆盖度机制初始化覆盖度向量为全零向量;
步骤82、将当前时刻解码器状态与步骤73中所述最终隐藏表示以及步骤81中覆盖度向量经过前馈神经网络后使用函数非线性化获得注意力分数,使用函数计算所述注意力分数的概率分布获得注意力分布,计算所述注意力分布与所述最终隐藏表示的乘积并求和获得上下文向量,同时将覆盖度向量更新为当前时刻前的注意力分布的总和;
步骤83、复制机制将上下文向量、当前时刻解码器状态、当前时刻解码器输入单词的词向量三者经过前馈神经网络后使用函数获得生成单词来源的开关,将与词汇表概率分布相乘,与注意力分布相乘,并将两个相乘的结果相加得到最终词汇表概率分布;
步骤84、根据所述最终词汇表概率分布使用集束搜索在每一时刻输出若干个个较高概率的单词,并将这些单词输入下一时刻解码器继续生成单词,直到生成结束符“<eos>”或达到摘要限制长度停止生成摘要,生成完毕后,在若干个单词序列中选取质量最高的预测文本作为输入进两阶段模型的长文档的摘要。
与现有技术相比,本发明至少具有以下优点:
本发明模拟人类对长文档进行摘要的过程。在第一阶段,定义了融合覆盖性、冗余性、重要性、准确性四个子方面的目标增益函数,同时使用带预算约束和雅卡尔指数的贪心算法在长文档中抽取出重要句子,过滤不重要的、冗余的句子获得过渡文档。在第二阶段,使用生成式方法对所述过渡文档进行编码、解码操作,最后生成摘要。本方法结合抽取式方法和生成式方法两者的优点,获得的摘要同时满足准确性高、流畅性好的特点,提高了长文档摘要的质量和可读性。
附图说明
图1为本发明的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一:
如图1所示,一种针对长文档的两阶段文本摘要生成方法流程图,包括以下步骤:
步骤S1:对待获取摘要的长文档进行数据预处理。
需要说明的是,待获取摘要的长文档可以是任何语种,如:中文、英文、法文、西班牙文、阿拉伯文、德文、俄文、日文等。根据不用语种进行预处理,包括去除HTML标签、去除缺损的句子等。
步骤S2:将预处理后的长文档切分成语句,并对语句进行后处理。
步骤S3:定义过渡文档候选语句,并初始化为空集。
需要说明的是,过渡文档候选语句是指所述长文档的重要句子集合。初始化为空集,在选取到重要句子时,会添加进过渡文档候选语句。
步骤S4:定义融合覆盖性、冗余性、重要性、准确性四个子方面的目标增益函数。
步骤S4的具体实现步骤包括:
步骤S41:对所述语句计算向量表示获取所述语句表示的信息;
步骤S42:对所述向量表示计算相似度度量获得相似度矩阵;
步骤S43:对所述过渡文档候选语句的覆盖性、冗余性子方面进行建模获得目标次模函数;
步骤S44:对所述语句中的每个句子分配重要性度量;
步骤S45:对所述语句中的每个句子分配准确性度量;
步骤S46:将重要性度量、准确性度量与所述目标次模函数进行子方面融合获得目标增益函数。
在步骤S41中,使用TF-ISF算法或预训练词向量获得所述语句的向量表示。
在步骤S42中,使用余弦相似度作为所述语句的向量表示之间的语义相关度指标,具体表示为式1:
计算语句中的所有句子对的相似度度量并建立相似度矩阵;
在步骤S43中,首先将覆盖性子方面定义为度量所述过渡文档候选语句与所述长文档的相似程度,具体建模为式2;然后将冗余性子方面定义为所述过渡文档候选语句之间需尽量避免出现冗余的成分,具体建模为式3;最后将目标次模函数定义为最大化覆盖性子方面以及最小化冗余性子方面,具体建模为式4。
其中,为所述过渡文档候选语句与所述长文档的相似程度,分别为句子的索引,为所述过渡文档候选语句,为所述长文档包含的所有句子,为与的差集,为句子对之间的相似度度量,为包含关系,为求和函数,为求最小值函数,为阈值系数。
在步骤S44中,对所述语句在所述长文档中的相对位置和绝对位置进行建模,给予每个句子一个重要性度量。具体建模为式5;对所有的句子的重要性度量进行归一化得到最终的各个句子对应的重要性度量。
在步骤S45中,对所述语句包含的所述长文档中的关键词权重进行建模,给予每个句子一个准确性度量,具体建模为式6:
其中,为所述长文档,为关键词抽取算法,为关键词,为第个关键词,为关键词权重,为第个关键词对应的关键词权重,为包含的所有关键词数量,为遍历关键词的索引,为句子包含的单词集合,为的单词索引,即为句子包含的单词集合中的第个单词,为句子的单词总数,为并集,为句子包含的关键词索引,为所述关键词索引对应的关键词权重和,即句子的准确性度量。
在步骤S46中,首先对步骤S43中所述目标次模函数制定原始目标增益函数,具体建模为式7;然后将步骤S44中重要性子方面通过乘积的方式融入到所述原始目标增益函数中,具体建模为式8;最后将步骤S45中准确性子方面通过相加的方式融入到所述原始目标增益函数中,具体建模为式9。
原始目标增益函数建模为式7:
融合重要性子方面的目标增益函数建模为式8:
其中,为句子分配得到的重要性度量,为位置偏置权重,其作用是平衡重要性与覆盖性两个子方面,防止引入的重要性度量带来过拟合问题,可根据数据集的性质进行调整。当时,表示不引入重要性子方面,则式8衰减为式7;
融合重要性子方面、准确性子方面的目标增益函数建模为式9:
需要说明的是,只考虑覆盖性和冗余性子方面的目标增益函数不足以代表长文档的原始整体特征,在大量摘要数据集中,句子在长文档中的位置是常见的偏见。例如,在新闻长文档中,通常前中部的句子信息相较于后部的句子信息更为重要,需要给这些处于重要位置的句子一个重要性度量,步骤S44即为句子位置特征进行建模。
需要说明的是,在长文档中,关键词构成了句子的主体,是重要的句子选择指标,摘要撰写者倾向于关注包含关键词的句子以确保摘要的准确性。关键词和摘要都能在一定程度上反映长文档的中心思想,只是使用了单词和句子两种不同粒度的表示方式,关键词是摘要更为抽象的表示,两者之间可以互相弥补信息缺失的问题。例如,在军事类新闻长文档中,“导弹”,“战争”,“冲突”等单词具有较强的权重,需要给包含关键词的句子一个准确性度量,步骤S45即为关键词权重特征进行建模。
步骤S5:设计贪心算法依次选取使得所述目标增益函数最大的句子添加进过渡文档候选语句。
步骤S5的具体实现步骤包括:
步骤S51:在所述语句中每次循环选取目标增益函数最大的句子,判断最大目标增益函数的增量是否大于零以及对应的句子与当前过渡文档候选语句的雅卡尔指数是否小于冗余阈值,若满足上述条件,则将目标增益函数最大的句子保留为候选句,若不满足上述条件,则继续下一轮循环。
步骤S52:判断候选句添加进过渡文档候选语句后过渡文档候选语句的总长度是否大于预算约束,若大于,则不添加该候选句到过渡文档候选语句,若小于等于,则添加该候选句到过渡文档候选语句,并返回步骤S51。当在预算约束已满或所述语句已被全部遍历的情况下退出循环,同时返回过渡文档候选语句。
在步骤S51中,目标增益函数可以选择式7中定义的包含覆盖性、冗余性两个子方面的目标增益函数,也可以选择式9中定义的包含覆盖性、冗余性、重要性、准确性四个子方面的目标增益函数。不同的目标增益函数引入不同的参数,同时获得的过渡文档候选语句也不同。例如,在一次循环中,给定句子集合,使用融合两个子方面的目标增益函数获得的增量为,的增量最高,选择进入过渡文档候选语句,但是,当使用融合四个子方面的目标增益函数时,获得的增量为,的增量最高,此时选择进入过渡文档候选语句。
在步骤S52中,预算约束通常设置为400单词至500单词之间,其原因在于该长度范围内的过渡文档候选语句既能保留长文档的重要信息,也能避免神经网络编码器的“长距离依赖”问题。
步骤S6:对所述过渡文档候选语句按所述句子的原始顺序重排序获取过渡文档。
需要说明的是,过渡文档候选语句中的句子是无序的,若被生成式摘要模型的编码器直接编码,在训练期间,会导致信息的错误对齐问题,在解码期间,会导致获取的摘要前后逻辑不一致的问题。因此,需要使用步骤S6对过渡文档候选语句按所述句子的原始顺序重排序获取语句顺序正确的过渡文档。
步骤S7:使用编码器对步骤S6输出的所述过渡文档进行编码得到所述过渡文档的最终隐藏表示。
步骤S7的具体实现步骤包括:
步骤S71:对所述过渡文档中的单词进行映射获得词典索引。
步骤S72:对所述词典索引进行词嵌入操作获得词向量;使用循环神经网络中的双向长短时记忆网络或双向门控循环网络作为编码器,更好地捕捉双向语义依赖。在当前时刻,循环神经网络单元接收当前时刻输入单词的词向量和前一时刻循环神经网络单元输出的隐藏层表示生成新的隐藏层状态,并将新的隐藏层状态传递到下一时刻的循环神经网络单元中,直到所述过渡文档的单词全部编码完毕,获得过渡文档的最终隐藏表示。
在步骤S72中,获取词向量的训练方式与word2vec类似,长短时记忆网络在当前时刻传递隐藏层状态和细胞状态到下一时刻,门控循环网络舍弃了细胞状态,直接将隐藏层状态传递到下一时刻。
步骤S8:在带注意力机制、复制机制、覆盖度机制的解码器中使用集束搜索生成长文档摘要。
步骤S8的具体实现步骤包括:
步骤S81:使用单向长短时记忆网络或门控循环网络作为解码器,接收起始符“<bos>”的词向量获得新的解码器状态,同时覆盖度机制初始化覆盖度向量为全零向量。
步骤S82:将当前时刻解码器状态与步骤S73中所述最终隐藏表示以及步骤S81中覆盖度向量经过前馈神经网络后使用函数非线性化获得注意力分数,使用函数计算所述注意力分数的概率分布获得注意力分布,计算所述注意力分布与所述最终隐藏表示的乘积并求和获得上下文向量。同时将覆盖度向量更新为当前时刻前的注意力分布的总和。
步骤S83:复制机制将上下文向量、当前时刻解码器状态、当前时刻解码器输入单词的词向量三者经过前馈神经网络后使用函数获得生成单词来源的开关,将与词汇表概率分布相乘,与注意力分布相乘,并将两个相乘的结果相加得到最终词汇表概率分布。
步骤S84:根据所述最终词汇表概率分布使用集束搜索在每一时刻输出若干个个较高概率的单词,并将这些单词输入下一时刻解码器继续生成单词,直到生成结束符“<eos>”或达到摘要限制长度停止生成摘要。生成完毕后,在若干个单词序列中选取质量最高的预测文本作为输入进两阶段模型的长文档的摘要。
本发明实施例提供的一种针对长文档的两阶段文本摘要生成方法,模拟人类对长文档进行摘要的过程。在第一阶段,定义了融合覆盖性、冗余性、重要性、准确性四个子方面的目标增益函数,同时使用带预算约束和雅卡尔指数的贪心算法在长文档中抽取出重要句子,过滤不重要的、冗余的句子获得过渡文档。在第二阶段,使用生成式方法对所述过渡文档进行编码、解码操作,最后生成摘要。本方法结合抽取式方法和生成式方法两者的优点,获得的摘要同时满足准确性高、流畅性好的特点,提高了长文档摘要的质量和可读性。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (10)
1.一种针对长文档的两阶段文本摘要生成方法,其特征在于,包括以下步骤:
步骤1、对待获取摘要的长文档进行数据预处理;
步骤2、将预处理后的长文档切分成语句,并对语句进行后处理;
步骤3、定义过渡文档候选语句,并初始化为空集;
步骤4、定义目标增益函数;
步骤5、利用贪心算法依次选取使得所述目标增益函数最大的句子添加进过渡文档候选语句;
步骤6、对过渡文档候选语句按句子的原始顺序重排序获取过渡文档;
步骤7、使用编码器对步骤6输出的过渡文档进行编码得到所述过渡文档的最终隐藏表示;
步骤8、在解码器中使用集束搜索生成长文档摘要。
2.根据权利要求1所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤4包括以下步骤:
步骤41、计算语句的向量表示;
步骤42、对向量表示计算相似度度量获得相似度矩阵;
步骤43、对过渡文档候选语句的覆盖性子方面、冗余性子方面进行建模获得目标次模函数;
步骤44、对所述语句中的每个句子分配重要性度量;
步骤45、对所述语句中的每个句子分配准确性度量;
步骤46、将重要性度量、准确性度量与步骤43中的目标次模函数进行子方面融合获得目标增益函数。
4.根据权利要求2所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤43中目标次模函数通过以下步骤获得:
步骤431、计算过渡文档候选语句与长文档的相似程度,
其中,为所述过渡文档候选语句与所述长文档的相似程度,分别为句子的索引,为所述过渡文档候选语句,为所述长文档包含的所有句子,为与的差集,为句子对之间的相似度度量,为包含关系,为求和函数,为求最小值函数,为阈值系数;
步骤432、计算过渡文档候选语句之间总的冗余量,
步骤433、建立目标次模函数,
8.根据权利要求1所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤5包括以下步骤:
步骤51、在语句中每次循环选取目标增益函数最大的句子,判断最大目标增益函数的增量是否大于零以及对应的句子与当前过渡文档候选语句的雅卡尔指数是否小于冗余阈值,若满足上述条件,则将目标增益函数最大的句子保留为候选句,若不满足上述条件,则继续下一轮循环;
步骤52:判断候选句添加进过渡文档候选语句后过渡文档候选语句的总长度是否大于预算约束,若大于,则不添加该候选句到过渡文档候选语句,若小于等于,则添加该候选句到过渡文档候选语句,并返回步骤51,当在预算约束已满或所述语句已被全部遍历的情况下退出循环,同时返回过渡文档候选语句。
9.根据权利要求1所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤7包括以下步骤:
步骤71、对所述过渡文档中的单词进行映射获得词典索引;
步骤72、对所述词典索引进行词嵌入操作获得词向量;使用循环神经网络中的双向长短时记忆网络或双向门控循环网络作为编码器,在当前时刻,循环神经网络单元接收当前时刻输入单词的词向量和前一时刻循环神经网络单元输出的隐藏层表示生成新的隐藏层状态,并将新的隐藏层状态传递到下一时刻的循环神经网络单元中,直到所述过渡文档的单词全部编码完毕,获得过渡文档的最终隐藏表示;
步骤73、编码完成后,所述过渡文档的最终隐藏表示为正向编码与反向编码的级联。
10.根据权利要求1所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤8包括以下步骤:
步骤81、使用单向长短时记忆网络或门控循环网络作为解码器,接收起始符“<bos>”的词向量获得新的解码器状态,同时覆盖度机制初始化覆盖度向量为全零向量;
步骤82、将当前时刻解码器状态与步骤73中所述最终隐藏表示以及步骤81中覆盖度向量经过前馈神经网络后使用函数非线性化获得注意力分数,使用函数计算所述注意力分数的概率分布获得注意力分布,计算所述注意力分布与所述最终隐藏表示的乘积并求和获得上下文向量,同时将覆盖度向量更新为当前时刻前的注意力分布的总和;
步骤83、复制机制将上下文向量、当前时刻解码器状态、当前时刻解码器输入单词的词向量三者经过前馈神经网络后使用函数获得生成单词来源的开关,将与词汇表概率分布相乘,与注意力分布相乘,并将两个相乘的结果相加得到最终词汇表概率分布;
步骤84、根据所述最终词汇表概率分布使用集束搜索在每一时刻输出若干个个较高概率的单词,并将这些单词输入下一时刻解码器继续生成单词,直到生成结束符“<eos>”或达到摘要限制长度停止生成摘要,生成完毕后,在若干个单词序列中选取质量最高的预测文本作为输入进两阶段模型的长文档的摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010794935.7A CN111651589B (zh) | 2020-08-10 | 2020-08-10 | 一种针对长文档的两阶段文本摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010794935.7A CN111651589B (zh) | 2020-08-10 | 2020-08-10 | 一种针对长文档的两阶段文本摘要生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111651589A true CN111651589A (zh) | 2020-09-11 |
CN111651589B CN111651589B (zh) | 2020-10-30 |
Family
ID=72346357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010794935.7A Expired - Fee Related CN111651589B (zh) | 2020-08-10 | 2020-08-10 | 一种针对长文档的两阶段文本摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651589B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784585A (zh) * | 2021-02-07 | 2021-05-11 | 新华智云科技有限公司 | 金融公告的摘要提取方法与摘要提取终端 |
CN112818113A (zh) * | 2021-01-26 | 2021-05-18 | 山西三友和智慧信息技术股份有限公司 | 一种基于异构图网络的文本自动摘要方法 |
CN113282742A (zh) * | 2021-04-30 | 2021-08-20 | 合肥讯飞数码科技有限公司 | 摘要获取方法以及电子设备、存储装置 |
CN113449105A (zh) * | 2021-06-25 | 2021-09-28 | 上海明略人工智能(集团)有限公司 | 一种工作总结生成方法、系统、电子设备及介质 |
CN114610871A (zh) * | 2022-05-12 | 2022-06-10 | 北京道达天际科技有限公司 | 基于人工智能算法的情报系统建模分析方法 |
CN114996442A (zh) * | 2022-05-27 | 2022-09-02 | 北京中科智加科技有限公司 | 一种联合抽象程度判别和摘要优化的文本摘要生成系统 |
CN117057321A (zh) * | 2023-10-12 | 2023-11-14 | 长沙丹渥智能科技有限公司 | 语音转文字处理方法、模型训练方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246687A (zh) * | 2012-06-13 | 2013-08-14 | 苏州大学 | 基于特征信息的Blog自动摘要方法 |
CN107783960A (zh) * | 2017-10-23 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
US20190311002A1 (en) * | 2017-04-14 | 2019-10-10 | Salesforce.Com, Inc. | Deep reinforced model for abstractive summarization |
US20190354595A1 (en) * | 2018-05-21 | 2019-11-21 | Hcl Technologies Limited | System and method for automatically summarizing documents pertaining to a predefined domain |
-
2020
- 2020-08-10 CN CN202010794935.7A patent/CN111651589B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246687A (zh) * | 2012-06-13 | 2013-08-14 | 苏州大学 | 基于特征信息的Blog自动摘要方法 |
US20190311002A1 (en) * | 2017-04-14 | 2019-10-10 | Salesforce.Com, Inc. | Deep reinforced model for abstractive summarization |
CN107783960A (zh) * | 2017-10-23 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
US20190354595A1 (en) * | 2018-05-21 | 2019-11-21 | Hcl Technologies Limited | System and method for automatically summarizing documents pertaining to a predefined domain |
Non-Patent Citations (3)
Title |
---|
LIN H等: "A class of submodular functions for", 《PROCEEDINGS OF THE 49TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: HUMAN LANGUAGE TECHNOLOGIES》 * |
LIN H等: "Multi-document summarization via", 《NORTH AMERICAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS/HUMAN LANGUAGE TECHNOLOGY CONFERENCE(NAACL/HLT-2010)》 * |
王恒: "基于大数据的多文档摘要技术研究及其应用", 《中国优秀硕士学位论文(信息科技辑)》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818113A (zh) * | 2021-01-26 | 2021-05-18 | 山西三友和智慧信息技术股份有限公司 | 一种基于异构图网络的文本自动摘要方法 |
CN112784585A (zh) * | 2021-02-07 | 2021-05-11 | 新华智云科技有限公司 | 金融公告的摘要提取方法与摘要提取终端 |
CN113282742A (zh) * | 2021-04-30 | 2021-08-20 | 合肥讯飞数码科技有限公司 | 摘要获取方法以及电子设备、存储装置 |
CN113449105A (zh) * | 2021-06-25 | 2021-09-28 | 上海明略人工智能(集团)有限公司 | 一种工作总结生成方法、系统、电子设备及介质 |
CN114610871A (zh) * | 2022-05-12 | 2022-06-10 | 北京道达天际科技有限公司 | 基于人工智能算法的情报系统建模分析方法 |
CN114610871B (zh) * | 2022-05-12 | 2022-07-08 | 北京道达天际科技有限公司 | 基于人工智能算法的情报系统建模分析方法 |
CN114996442A (zh) * | 2022-05-27 | 2022-09-02 | 北京中科智加科技有限公司 | 一种联合抽象程度判别和摘要优化的文本摘要生成系统 |
CN114996442B (zh) * | 2022-05-27 | 2023-07-11 | 北京中科智加科技有限公司 | 一种联合抽象程度判别和摘要优化的文本摘要生成系统 |
CN117057321A (zh) * | 2023-10-12 | 2023-11-14 | 长沙丹渥智能科技有限公司 | 语音转文字处理方法、模型训练方法、装置、设备及介质 |
CN117057321B (zh) * | 2023-10-12 | 2024-01-05 | 长沙丹渥智能科技有限公司 | 语音转文字处理方法、模型训练方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111651589B (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111651589B (zh) | 一种针对长文档的两阶段文本摘要生成方法 | |
CN110119765B (zh) | 一种基于Seq2seq框架的关键词提取方法 | |
CN112183094B (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN111160031A (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111401079A (zh) | 神经网络机器翻译模型的训练方法、装置及存储介质 | |
CN114385803B (zh) | 一种基于外部知识和片段选择的抽取式阅读理解方法 | |
CN110874536A (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
CN112329482A (zh) | 机器翻译方法、装置、电子设备和可读存储介质 | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN112200664A (zh) | 基于ernie模型和dcnn模型的还款预测方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN113449514A (zh) | 一种适用于特定垂直领域的文本纠错方法及其纠错装置 | |
Liu | Neural question generation based on Seq2Seq | |
CN116955594A (zh) | 语义融合预训练模型构建方法及跨语言摘要生成方法和系统 | |
CN111309896A (zh) | 基于二级注意力的深度学习文本摘要生成方法 | |
CN117973372A (zh) | 一种基于拼音约束的中文语法纠错方法 | |
CN117708644A (zh) | 司法裁判文书摘要生成方法及系统 | |
Chao et al. | Automatic spelling correction for asr corpus in traditional chinese language using seq2seq models | |
CN114357154A (zh) | 一种基于双编码指针混合网络的中文摘要生成方法 | |
CN117407051B (zh) | 一种基于结构位置感知的代码自动摘要方法 | |
CN115114915B (zh) | 短语识别方法、装置、设备和介质 | |
Modrzejewski | Improvement of the Translation of Named Entities in Neural Machine Translation | |
CN115658882B (zh) | 一种结合全局主题信息的摘要生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201030 |