CN111651589A - 一种针对长文档的两阶段文本摘要生成方法 - Google Patents

一种针对长文档的两阶段文本摘要生成方法 Download PDF

Info

Publication number
CN111651589A
CN111651589A CN202010794935.7A CN202010794935A CN111651589A CN 111651589 A CN111651589 A CN 111651589A CN 202010794935 A CN202010794935 A CN 202010794935A CN 111651589 A CN111651589 A CN 111651589A
Authority
CN
China
Prior art keywords
sentences
document
sentence
transition
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010794935.7A
Other languages
English (en)
Other versions
CN111651589B (zh
Inventor
蓝雯飞
周伟枭
覃俊
李子茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South Central Minzu University
Original Assignee
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Central University for Nationalities filed Critical South Central University for Nationalities
Priority to CN202010794935.7A priority Critical patent/CN111651589B/zh
Publication of CN111651589A publication Critical patent/CN111651589A/zh
Application granted granted Critical
Publication of CN111651589B publication Critical patent/CN111651589B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种针对长文档的两阶段文本摘要生成方法,对长文档进行数据预处理;切分成语句并对语句进行后处理;定义过渡文档候选语句;定义目标增益函数;利用贪心算法依次选取使得所述目标增益函数最大的句子添加进过渡文档候选语句;对过渡文档候选语句按句子的原始顺序重排序获取过渡文档;使用编码器对过渡文档进行编码得到所述过渡文档的最终隐藏表示;解码器中使用集束搜索生成长文档摘要。本发明结合抽取式方法和生成式方法两者的优点,获得的摘要同时满足准确性高、流畅性好的特点,提高了长文档摘要的质量和可读性。

Description

一种针对长文档的两阶段文本摘要生成方法
技术领域
本发明属于自然语言处理和自然语言生成技术领域,具体涉及一种针对长文档的两阶段文本摘要生成方法。
背景技术
互联网技术的发展导致文本信息规模快速增长、数据过载问题日益严重,对蕴含重要信息的、不同语言的长文档进行“降维”处理已成为人们关心的重要问题之一。
文本摘要是自然语言处理以及自然语言生成的重要任务,其目的是使用抽取或生成的方式获取给定文档的简短版本,同时保留给定文档的显著信息。现有的文本摘要技术主要分为两种:抽取式方法和生成式方法。抽取式方法直接从给定文档中选择句子组成摘要,具体表现为对句子重要性进行打分并提取重要性较高的若干个句子。生成式方法通过重新组织给定文档的中心思想形成摘要,形式上更类似于人工撰写。
针对长文档进行摘要时,抽取式方法存在以下问题:摘要的长度限制导致抽取出的句子间距较远,严重影响句子之间的流畅性、连贯性、可读性。生成式方法存在以下问题:由于深度神经网络LSTM、GRU、Transformer对长文档编码性能较弱,导致生成的摘要准确性较低,无法很好地反应给定文档的事实细节。
发明内容
为了克服上述现有技术针对长文档摘要的不足,本发明提供一种针对长文档的两阶段文本摘要生成方法,获得的摘要同时满足准确性高、流畅性好的特点。能够解决单独使用抽取式方法或生成式方法存在的准确性低、流畅性差的缺陷。
一种针对长文档的两阶段文本摘要生成方法,包括以下步骤:
步骤1、对待获取摘要的长文档进行数据预处理;
步骤2、将预处理后的长文档切分成语句,并对语句进行后处理;
步骤3、定义过渡文档候选语句,并初始化为空集;
步骤4、定义目标增益函数;
步骤5、利用贪心算法依次选取使得所述目标增益函数最大的句子添加进过渡文档候选语句;
步骤6、对过渡文档候选语句按句子的原始顺序重排序获取过渡文档;
步骤7、使用编码器对步骤6输出的过渡文档进行编码得到所述过渡文档的最终隐藏表示;
步骤8、在解码器中使用集束搜索生成长文档摘要。
如上所述的步骤4包括以下步骤:
步骤41、计算语句的向量表示;
步骤42、对向量表示计算相似度度量获得相似度矩阵;
步骤43、对过渡文档候选语句的覆盖性子方面、冗余性子方面进行建模获得目标次模函数;
步骤44、对所述语句中的每个句子分配重要性度量;
步骤45、对所述语句中的每个句子分配准确性度量;
步骤46、将重要性度量、准确性度量与步骤43中的目标次模函数进行子方面融合获得目标增益函数。
如上所述的步骤42中,相似度度量通过以下公式获得:
Figure 291666DEST_PATH_IMAGE001
其中,
Figure 515974DEST_PATH_IMAGE002
分别为句子
Figure 46313DEST_PATH_IMAGE003
的索引,
Figure 206030DEST_PATH_IMAGE004
为句子
Figure 618556DEST_PATH_IMAGE005
的向量表示,
Figure 177714DEST_PATH_IMAGE006
为句子
Figure 359296DEST_PATH_IMAGE007
的向量表示,
Figure 17811DEST_PATH_IMAGE008
为向量的模,
Figure 61509DEST_PATH_IMAGE009
为句子对
Figure 627619DEST_PATH_IMAGE010
之间的相似度度量,
Figure 194867DEST_PATH_IMAGE011
为点乘,
Figure 227545DEST_PATH_IMAGE012
为乘。
如上所述的步骤43中目标次模函数通过以下步骤获得:
步骤431、计算过渡文档候选语句与长文档的相似程度,
Figure 349085DEST_PATH_IMAGE013
其中,
Figure 656569DEST_PATH_IMAGE014
为所述过渡文档候选语句与所述长文档的相似程度,
Figure 343903DEST_PATH_IMAGE015
分别为句子
Figure 813061DEST_PATH_IMAGE003
的索引,
Figure 953055DEST_PATH_IMAGE016
为所述过渡文档候选语句,
Figure 267493DEST_PATH_IMAGE017
为所述长文档包含的所有句子,
Figure 12595DEST_PATH_IMAGE018
Figure 511710DEST_PATH_IMAGE019
Figure 279946DEST_PATH_IMAGE016
的差集,
Figure 522708DEST_PATH_IMAGE020
为句子对
Figure 794421DEST_PATH_IMAGE021
之间的相似度度量,
Figure 667699DEST_PATH_IMAGE022
为包含关系,
Figure 782285DEST_PATH_IMAGE023
为求和函数,
Figure 704105DEST_PATH_IMAGE024
为求最小值函数,
Figure 220537DEST_PATH_IMAGE025
为阈值系数;
步骤432、计算过渡文档候选语句之间总的冗余量,
Figure 933890DEST_PATH_IMAGE026
其中,
Figure 535773DEST_PATH_IMAGE027
为所述过渡文档候选语句之间总的冗余量,
Figure 323601DEST_PATH_IMAGE028
分别为句子
Figure 569905DEST_PATH_IMAGE029
的索引,
Figure 847303DEST_PATH_IMAGE030
为所述过渡文档候选语句,
Figure 811848DEST_PATH_IMAGE031
为句子对
Figure 934525DEST_PATH_IMAGE021
之间的相似度度量,
Figure 363232DEST_PATH_IMAGE032
为求和函数,
Figure 686897DEST_PATH_IMAGE033
为包含关系;
步骤433、建立目标次模函数,
Figure 997793DEST_PATH_IMAGE034
其中,
Figure 65106DEST_PATH_IMAGE035
为目标次模函数,
Figure 410636DEST_PATH_IMAGE036
为权衡系数,
Figure 967520DEST_PATH_IMAGE037
为阈值系数。
如上所述的步骤44中,重要性度量通过以下公式获得:
Figure 641078DEST_PATH_IMAGE038
其中,
Figure 371136DEST_PATH_IMAGE039
为句子
Figure 712119DEST_PATH_IMAGE040
分配得到的重要性度量,
Figure 236641DEST_PATH_IMAGE041
为句子
Figure 725391DEST_PATH_IMAGE042
的索引,
Figure 868928DEST_PATH_IMAGE043
为句子数量,
Figure 923471DEST_PATH_IMAGE044
为以
Figure 751051DEST_PATH_IMAGE045
为底的指数函数,
Figure 789414DEST_PATH_IMAGE046
为包含关系。
如上所述的步骤45中,准确性度量通过以下公式获得:
Figure 471063DEST_PATH_IMAGE047
其中,
Figure 848954DEST_PATH_IMAGE048
为长文档,
Figure 715279DEST_PATH_IMAGE049
为关键词抽取算法,
Figure 850725DEST_PATH_IMAGE050
为关键词,
Figure 726278DEST_PATH_IMAGE051
为关键词权重,
Figure 630780DEST_PATH_IMAGE052
Figure 933585DEST_PATH_IMAGE053
包含的关键词数量,
Figure 618644DEST_PATH_IMAGE054
为遍历关键词的索引,
Figure 907674DEST_PATH_IMAGE055
为句子
Figure 791317DEST_PATH_IMAGE056
包含的单词集合,
Figure 405969DEST_PATH_IMAGE057
Figure 375062DEST_PATH_IMAGE058
的单词索引,
Figure 202204DEST_PATH_IMAGE059
为句子
Figure 409194DEST_PATH_IMAGE060
的单词总数,
Figure 53802DEST_PATH_IMAGE061
为并集,
Figure 651136DEST_PATH_IMAGE062
为句子
Figure 406603DEST_PATH_IMAGE063
包含的关键词索引,
Figure 871695DEST_PATH_IMAGE064
为句子
Figure 890466DEST_PATH_IMAGE065
的准确性度量。
如上所述的步骤46中,目标增益函数
Figure 834152DEST_PATH_IMAGE066
如以下公式所示:
Figure 268675DEST_PATH_IMAGE067
其中,
Figure 246995DEST_PATH_IMAGE068
为相似程度,
Figure 843193DEST_PATH_IMAGE069
为冗余量,
Figure 477437DEST_PATH_IMAGE065
为参与计算的句子,
Figure 574706DEST_PATH_IMAGE070
为过渡文档候选语句,
Figure 282899DEST_PATH_IMAGE071
为比例因子,
Figure 174631DEST_PATH_IMAGE072
为句子
Figure 233854DEST_PATH_IMAGE073
的长度惩罚项,
Figure 134814DEST_PATH_IMAGE074
为权衡系数,
Figure 431934DEST_PATH_IMAGE075
为句子
Figure 963410DEST_PATH_IMAGE076
分配得到的重要性度量,
Figure 103404DEST_PATH_IMAGE077
为位置偏置权重,
Figure 683421DEST_PATH_IMAGE078
为句子
Figure 490840DEST_PATH_IMAGE063
的准确性度量,
Figure 865321DEST_PATH_IMAGE079
为关键词影响程度参数。
如上所述的步骤5包括以下步骤:
步骤51、在语句中每次循环选取目标增益函数最大的句子,判断最大目标增益函数的增量是否大于零以及对应的句子与当前过渡文档候选语句的雅卡尔指数是否小于冗余阈值,若满足上述条件,则将目标增益函数最大的句子保留为候选句,若不满足上述条件,则继续下一轮循环;
步骤52:判断候选句添加进过渡文档候选语句后过渡文档候选语句的总长度是否大于预算约束,若大于,则不添加该候选句到过渡文档候选语句,若小于等于,则添加该候选句到过渡文档候选语句,并返回步骤51,当在预算约束已满或所述语句已被全部遍历的情况下退出循环,同时返回过渡文档候选语句。
如上所述的步骤7包括以下步骤:
步骤71、对所述过渡文档中的单词进行映射获得词典索引;
步骤72、对所述词典索引进行词嵌入操作获得词向量;使用循环神经网络中的双向长短时记忆网络或双向门控循环网络作为编码器,在当前时刻,循环神经网络单元接收当前时刻输入单词的词向量和前一时刻循环神经网络单元输出的隐藏层表示生成新的隐藏层状态,并将新的隐藏层状态传递到下一时刻的循环神经网络单元中,直到所述过渡文档的单词全部编码完毕,获得过渡文档的最终隐藏表示;
步骤73、编码完成后,所述过渡文档的最终隐藏表示为正向编码与反向编码的级联。
如上所述的步骤8包括以下步骤:
步骤81、使用单向长短时记忆网络或门控循环网络作为解码器,接收起始符“<bos>”的词向量获得新的解码器状态,同时覆盖度机制初始化覆盖度向量为全零向量;
步骤82、将当前时刻解码器状态与步骤73中所述最终隐藏表示以及步骤81中覆盖度向量经过前馈神经网络后使用
Figure 695874DEST_PATH_IMAGE080
函数非线性化获得注意力分数,使用
Figure 938636DEST_PATH_IMAGE081
函数计算所述注意力分数的概率分布获得注意力分布,计算所述注意力分布与所述最终隐藏表示的乘积并求和获得上下文向量,同时将覆盖度向量更新为当前时刻前的注意力分布的总和;
步骤83、复制机制将上下文向量、当前时刻解码器状态、当前时刻解码器输入单词的词向量三者经过前馈神经网络后使用
Figure 213278DEST_PATH_IMAGE082
函数获得生成单词来源的开关
Figure 148873DEST_PATH_IMAGE083
,将
Figure 138826DEST_PATH_IMAGE084
与词汇表概率分布相乘,
Figure 122962DEST_PATH_IMAGE085
与注意力分布相乘,并将两个相乘的结果相加得到最终词汇表概率分布;
步骤84、根据所述最终词汇表概率分布使用集束搜索在每一时刻输出若干个个较高概率的单词,并将这些单词输入下一时刻解码器继续生成单词,直到生成结束符“<eos>”或达到摘要限制长度停止生成摘要,生成完毕后,在若干个单词序列中选取质量最高的预测文本作为输入进两阶段模型的长文档的摘要。
与现有技术相比,本发明至少具有以下优点:
本发明模拟人类对长文档进行摘要的过程。在第一阶段,定义了融合覆盖性、冗余性、重要性、准确性四个子方面的目标增益函数,同时使用带预算约束和雅卡尔指数的贪心算法在长文档中抽取出重要句子,过滤不重要的、冗余的句子获得过渡文档。在第二阶段,使用生成式方法对所述过渡文档进行编码、解码操作,最后生成摘要。本方法结合抽取式方法和生成式方法两者的优点,获得的摘要同时满足准确性高、流畅性好的特点,提高了长文档摘要的质量和可读性。
附图说明
图1为本发明的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一:
如图1所示,一种针对长文档的两阶段文本摘要生成方法流程图,包括以下步骤:
步骤S1:对待获取摘要的长文档进行数据预处理。
需要说明的是,待获取摘要的长文档可以是任何语种,如:中文、英文、法文、西班牙文、阿拉伯文、德文、俄文、日文等。根据不用语种进行预处理,包括去除HTML标签、去除缺损的句子等。
步骤S2:将预处理后的长文档切分成语句,并对语句进行后处理。
需要说明的是,切分成语句指的是按不同语种的标点符号对预处理后的长文档进行切分获得语句,如:中文的切分标准为标点
Figure 639394DEST_PATH_IMAGE086
等,英文的切分标准为标点“.”等。后处理指的是删除句子开头的关系词、删除短语等。
步骤S3:定义过渡文档候选语句,并初始化为空集。
需要说明的是,过渡文档候选语句是指所述长文档的重要句子集合。初始化为空集,在选取到重要句子时,会添加进过渡文档候选语句。
步骤S4:定义融合覆盖性、冗余性、重要性、准确性四个子方面的目标增益函数。
步骤S4的具体实现步骤包括:
步骤S41:对所述语句计算向量表示获取所述语句表示的信息;
步骤S42:对所述向量表示计算相似度度量获得相似度矩阵;
步骤S43:对所述过渡文档候选语句的覆盖性、冗余性子方面进行建模获得目标次模函数;
步骤S44:对所述语句中的每个句子分配重要性度量;
步骤S45:对所述语句中的每个句子分配准确性度量;
步骤S46:将重要性度量、准确性度量与所述目标次模函数进行子方面融合获得目标增益函数。
在步骤S41中,使用TF-ISF算法或预训练词向量获得所述语句的向量表示。
在步骤S42中,使用余弦相似度作为所述语句的向量表示之间的语义相关度指标,具体表示为式1:
Figure 355678DEST_PATH_IMAGE001
(式1)
其中,
Figure 223140DEST_PATH_IMAGE002
分别为句子
Figure 683071DEST_PATH_IMAGE003
的索引,
Figure 54009DEST_PATH_IMAGE004
为句子
Figure 269090DEST_PATH_IMAGE005
的向量表示,
Figure 968056DEST_PATH_IMAGE006
为句子
Figure 621891DEST_PATH_IMAGE007
的向量表示,
Figure 722702DEST_PATH_IMAGE008
为向量的模,
Figure 905422DEST_PATH_IMAGE009
为句子对
Figure 685159DEST_PATH_IMAGE010
之间的相似度度量,
Figure 486893DEST_PATH_IMAGE011
为点乘,
Figure 566844DEST_PATH_IMAGE012
为乘。
计算语句中的所有句子对的相似度度量并建立相似度矩阵;
在步骤S43中,首先将覆盖性子方面定义为度量所述过渡文档候选语句与所述长文档的相似程度,具体建模为式2;然后将冗余性子方面定义为所述过渡文档候选语句之间需尽量避免出现冗余的成分,具体建模为式3;最后将目标次模函数定义为最大化覆盖性子方面以及最小化冗余性子方面,具体建模为式4。
Figure 326990DEST_PATH_IMAGE013
(式2)
其中,
Figure 125182DEST_PATH_IMAGE014
为所述过渡文档候选语句与所述长文档的相似程度,
Figure 727677DEST_PATH_IMAGE015
分别为句子
Figure 662135DEST_PATH_IMAGE087
的索引,
Figure 327603DEST_PATH_IMAGE016
为所述过渡文档候选语句,
Figure 816353DEST_PATH_IMAGE017
为所述长文档包含的所有句子,
Figure 84523DEST_PATH_IMAGE018
Figure 280012DEST_PATH_IMAGE019
Figure 241015DEST_PATH_IMAGE016
的差集,
Figure 623586DEST_PATH_IMAGE020
为句子对
Figure 898709DEST_PATH_IMAGE021
之间的相似度度量,
Figure 73339DEST_PATH_IMAGE022
为包含关系,
Figure 815030DEST_PATH_IMAGE023
为求和函数,
Figure 340689DEST_PATH_IMAGE024
为求最小值函数,
Figure 826028DEST_PATH_IMAGE025
为阈值系数。
Figure 58426DEST_PATH_IMAGE026
(式3)
其中,
Figure 95652DEST_PATH_IMAGE027
为所述过渡文档候选语句之间总的冗余量,
Figure 718395DEST_PATH_IMAGE028
分别为句子
Figure 397638DEST_PATH_IMAGE029
的索引,
Figure 156646DEST_PATH_IMAGE030
为所述过渡文档候选语句,
Figure 833615DEST_PATH_IMAGE031
为句子对
Figure 802708DEST_PATH_IMAGE021
之间的相似度度量,
Figure 644499DEST_PATH_IMAGE032
为求和函数,
Figure 913806DEST_PATH_IMAGE033
为包含关系。
Figure 168201DEST_PATH_IMAGE034
(式4)
其中,
Figure 827852DEST_PATH_IMAGE035
为目标次模函数,
Figure 583319DEST_PATH_IMAGE036
为权衡系数,
Figure 582499DEST_PATH_IMAGE037
为阈值系数。
在步骤S44中,对所述语句在所述长文档中的相对位置和绝对位置进行建模,给予每个句子一个重要性度量。具体建模为式5;对所有的句子的重要性度量进行归一化得到最终的各个句子对应的重要性度量。
Figure 398008DEST_PATH_IMAGE038
(式5)
其中,
Figure 217059DEST_PATH_IMAGE039
为句子
Figure 713900DEST_PATH_IMAGE040
分配得到的重要性度量,
Figure 426641DEST_PATH_IMAGE041
为句子
Figure 553997DEST_PATH_IMAGE042
的索引,
Figure 984978DEST_PATH_IMAGE043
为句子数量,
Figure 957613DEST_PATH_IMAGE044
为以
Figure 728123DEST_PATH_IMAGE045
为底的指数函数,
Figure 885435DEST_PATH_IMAGE046
为包含关系,当
Figure 679079DEST_PATH_IMAGE088
时,
Figure 580039DEST_PATH_IMAGE044
展现出非线性下降趋势的性质。
在步骤S45中,对所述语句包含的所述长文档中的关键词权重进行建模,给予每个句子一个准确性度量,具体建模为式6:
Figure 142738DEST_PATH_IMAGE047
(式6)
其中,
Figure 674214DEST_PATH_IMAGE048
为所述长文档,
Figure 814208DEST_PATH_IMAGE049
为关键词抽取算法,
Figure 391295DEST_PATH_IMAGE050
为关键词,
Figure 198714DEST_PATH_IMAGE089
为第
Figure 651824DEST_PATH_IMAGE054
个关键词,
Figure 951218DEST_PATH_IMAGE051
为关键词权重,
Figure 334926DEST_PATH_IMAGE090
为第
Figure 872218DEST_PATH_IMAGE054
个关键词对应的关键词权重,
Figure 542233DEST_PATH_IMAGE091
Figure 860082DEST_PATH_IMAGE053
包含的所有关键词数量,
Figure 519252DEST_PATH_IMAGE054
为遍历关键词的索引,
Figure 35684DEST_PATH_IMAGE078
为句子
Figure 751968DEST_PATH_IMAGE056
包含的单词集合,
Figure 619429DEST_PATH_IMAGE057
Figure 79361DEST_PATH_IMAGE078
的单词索引,即
Figure 450299DEST_PATH_IMAGE092
为句子
Figure 665380DEST_PATH_IMAGE056
包含的单词集合中的第
Figure 364346DEST_PATH_IMAGE057
个单词,
Figure 18181DEST_PATH_IMAGE059
为句子
Figure 118992DEST_PATH_IMAGE056
的单词总数,
Figure 301712DEST_PATH_IMAGE061
为并集,
Figure 81449DEST_PATH_IMAGE062
为句子
Figure 883183DEST_PATH_IMAGE056
包含的关键词索引,
Figure 963134DEST_PATH_IMAGE078
为所述关键词索引对应的关键词权重和,即句子
Figure 723280DEST_PATH_IMAGE056
的准确性度量。
在步骤S46中,首先对步骤S43中所述目标次模函数制定原始目标增益函数,具体建模为式7;然后将步骤S44中重要性子方面通过乘积的方式融入到所述原始目标增益函数中,具体建模为式8;最后将步骤S45中准确性子方面通过相加的方式融入到所述原始目标增益函数中,具体建模为式9。
原始目标增益函数建模为式7:
Figure 521472DEST_PATH_IMAGE093
(式7)
其中,
Figure 189213DEST_PATH_IMAGE066
为原始目标增益函数,
Figure 264617DEST_PATH_IMAGE068
为式2,
Figure 54718DEST_PATH_IMAGE069
为式3,
Figure 212642DEST_PATH_IMAGE056
为参与计算的句子,
Figure 746392DEST_PATH_IMAGE070
与式2、式3中的定义相同,为所述过渡文档候选语句,
Figure 676302DEST_PATH_IMAGE071
为比例因子,
Figure 574988DEST_PATH_IMAGE072
为句子
Figure 347772DEST_PATH_IMAGE056
的长度惩罚项,
Figure 294999DEST_PATH_IMAGE074
为权衡系数。
融合重要性子方面的目标增益函数建模为式8:
Figure 469629DEST_PATH_IMAGE094
(式8)
其中,
Figure 476899DEST_PATH_IMAGE075
为句子
Figure 471400DEST_PATH_IMAGE056
分配得到的重要性度量,
Figure 550214DEST_PATH_IMAGE077
为位置偏置权重,其作用是平衡重要性与覆盖性两个子方面,防止引入的重要性度量带来过拟合问题,可根据数据集的性质进行调整。当
Figure 454716DEST_PATH_IMAGE095
时,表示不引入重要性子方面,则式8衰减为式7;
融合重要性子方面、准确性子方面的目标增益函数建模为式9:
Figure 757522DEST_PATH_IMAGE067
(式9)
其中,
Figure 380264DEST_PATH_IMAGE078
为句子
Figure 793928DEST_PATH_IMAGE056
的准确性度量,
Figure 880832DEST_PATH_IMAGE079
为关键词影响程度参数,用来减小或者增大
Figure 964326DEST_PATH_IMAGE078
对目标增益函数的影响。当
Figure 933419DEST_PATH_IMAGE096
时,式9衰减为式8,表示不引入准确性子方面。
需要说明的是,只考虑覆盖性和冗余性子方面的目标增益函数不足以代表长文档的原始整体特征,在大量摘要数据集中,句子在长文档中的位置是常见的偏见。例如,在新闻长文档中,通常前中部的句子信息相较于后部的句子信息更为重要,需要给这些处于重要位置的句子一个重要性度量,步骤S44即为句子位置特征进行建模。
需要说明的是,在长文档中,关键词构成了句子的主体,是重要的句子选择指标,摘要撰写者倾向于关注包含关键词的句子以确保摘要的准确性。关键词和摘要都能在一定程度上反映长文档的中心思想,只是使用了单词和句子两种不同粒度的表示方式,关键词是摘要更为抽象的表示,两者之间可以互相弥补信息缺失的问题。例如,在军事类新闻长文档中,“导弹”,“战争”,“冲突”等单词具有较强的权重,需要给包含关键词的句子一个准确性度量,步骤S45即为关键词权重特征进行建模。
步骤S5:设计贪心算法依次选取使得所述目标增益函数最大的句子添加进过渡文档候选语句。
步骤S5的具体实现步骤包括:
步骤S51:在所述语句中每次循环选取目标增益函数最大的句子,判断最大目标增益函数的增量是否大于零以及对应的句子与当前过渡文档候选语句的雅卡尔指数是否小于冗余阈值,若满足上述条件,则将目标增益函数最大的句子保留为候选句,若不满足上述条件,则继续下一轮循环。
步骤S52:判断候选句添加进过渡文档候选语句后过渡文档候选语句的总长度是否大于预算约束,若大于,则不添加该候选句到过渡文档候选语句,若小于等于,则添加该候选句到过渡文档候选语句,并返回步骤S51。当在预算约束已满或所述语句已被全部遍历的情况下退出循环,同时返回过渡文档候选语句。
在步骤S51中,目标增益函数可以选择式7中定义的包含覆盖性、冗余性两个子方面的目标增益函数,也可以选择式9中定义的包含覆盖性、冗余性、重要性、准确性四个子方面的目标增益函数。不同的目标增益函数引入不同的参数,同时获得的过渡文档候选语句也不同。例如,在一次循环中,给定句子集合
Figure 291719DEST_PATH_IMAGE097
,使用融合两个子方面的目标增益函数获得的增量为
Figure 29868DEST_PATH_IMAGE098
Figure 877738DEST_PATH_IMAGE099
的增量最高,选择
Figure 200705DEST_PATH_IMAGE099
进入过渡文档候选语句,但是,当使用融合四个子方面的目标增益函数时,获得的增量为
Figure 956171DEST_PATH_IMAGE100
Figure 955351DEST_PATH_IMAGE101
的增量最高,此时选择
Figure 770860DEST_PATH_IMAGE101
进入过渡文档候选语句。
在步骤S52中,预算约束通常设置为400单词至500单词之间,其原因在于该长度范围内的过渡文档候选语句既能保留长文档的重要信息,也能避免神经网络编码器的“长距离依赖”问题。
步骤S6:对所述过渡文档候选语句按所述句子的原始顺序重排序获取过渡文档。
需要说明的是,过渡文档候选语句中的句子是无序的,若被生成式摘要模型的编码器直接编码,在训练期间,会导致信息的错误对齐问题,在解码期间,会导致获取的摘要前后逻辑不一致的问题。因此,需要使用步骤S6对过渡文档候选语句按所述句子的原始顺序重排序获取语句顺序正确的过渡文档。
步骤S7:使用编码器对步骤S6输出的所述过渡文档进行编码得到所述过渡文档的最终隐藏表示。
步骤S7的具体实现步骤包括:
步骤S71:对所述过渡文档中的单词进行映射获得词典索引。
步骤S72:对所述词典索引进行词嵌入操作获得词向量;使用循环神经网络中的双向长短时记忆网络或双向门控循环网络作为编码器,更好地捕捉双向语义依赖。在当前时刻,循环神经网络单元接收当前时刻输入单词的词向量和前一时刻循环神经网络单元输出的隐藏层表示生成新的隐藏层状态,并将新的隐藏层状态传递到下一时刻的循环神经网络单元中,直到所述过渡文档的单词全部编码完毕,获得过渡文档的最终隐藏表示。
步骤S73:编码完成后,所述过渡文档的最终隐藏表示为正向编码
Figure 324333DEST_PATH_IMAGE102
与反向编码
Figure 86752DEST_PATH_IMAGE103
的级联
Figure 799493DEST_PATH_IMAGE104
在步骤S72中,获取词向量的训练方式与word2vec类似,长短时记忆网络在当前时刻传递隐藏层状态和细胞状态到下一时刻,门控循环网络舍弃了细胞状态,直接将隐藏层状态传递到下一时刻。
步骤S8:在带注意力机制、复制机制、覆盖度机制的解码器中使用集束搜索生成长文档摘要。
步骤S8的具体实现步骤包括:
步骤S81:使用单向长短时记忆网络或门控循环网络作为解码器,接收起始符“<bos>”的词向量获得新的解码器状态,同时覆盖度机制初始化覆盖度向量为全零向量。
步骤S82:将当前时刻解码器状态与步骤S73中所述最终隐藏表示以及步骤S81中覆盖度向量经过前馈神经网络后使用
Figure 926849DEST_PATH_IMAGE105
函数非线性化获得注意力分数,使用
Figure 357831DEST_PATH_IMAGE106
函数计算所述注意力分数的概率分布获得注意力分布,计算所述注意力分布与所述最终隐藏表示的乘积并求和获得上下文向量。同时将覆盖度向量更新为当前时刻前的注意力分布的总和。
步骤S83:复制机制将上下文向量、当前时刻解码器状态、当前时刻解码器输入单词的词向量三者经过前馈神经网络后使用
Figure 330466DEST_PATH_IMAGE107
函数获得生成单词来源的开关
Figure 100976DEST_PATH_IMAGE108
,将
Figure 258288DEST_PATH_IMAGE109
与词汇表概率分布相乘,
Figure 786352DEST_PATH_IMAGE110
与注意力分布相乘,并将两个相乘的结果相加得到最终词汇表概率分布。
步骤S84:根据所述最终词汇表概率分布使用集束搜索在每一时刻输出若干个个较高概率的单词,并将这些单词输入下一时刻解码器继续生成单词,直到生成结束符“<eos>”或达到摘要限制长度停止生成摘要。生成完毕后,在若干个单词序列中选取质量最高的预测文本作为输入进两阶段模型的长文档的摘要。
本发明实施例提供的一种针对长文档的两阶段文本摘要生成方法,模拟人类对长文档进行摘要的过程。在第一阶段,定义了融合覆盖性、冗余性、重要性、准确性四个子方面的目标增益函数,同时使用带预算约束和雅卡尔指数的贪心算法在长文档中抽取出重要句子,过滤不重要的、冗余的句子获得过渡文档。在第二阶段,使用生成式方法对所述过渡文档进行编码、解码操作,最后生成摘要。本方法结合抽取式方法和生成式方法两者的优点,获得的摘要同时满足准确性高、流畅性好的特点,提高了长文档摘要的质量和可读性。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (10)

1.一种针对长文档的两阶段文本摘要生成方法,其特征在于,包括以下步骤:
步骤1、对待获取摘要的长文档进行数据预处理;
步骤2、将预处理后的长文档切分成语句,并对语句进行后处理;
步骤3、定义过渡文档候选语句,并初始化为空集;
步骤4、定义目标增益函数;
步骤5、利用贪心算法依次选取使得所述目标增益函数最大的句子添加进过渡文档候选语句;
步骤6、对过渡文档候选语句按句子的原始顺序重排序获取过渡文档;
步骤7、使用编码器对步骤6输出的过渡文档进行编码得到所述过渡文档的最终隐藏表示;
步骤8、在解码器中使用集束搜索生成长文档摘要。
2.根据权利要求1所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤4包括以下步骤:
步骤41、计算语句的向量表示;
步骤42、对向量表示计算相似度度量获得相似度矩阵;
步骤43、对过渡文档候选语句的覆盖性子方面、冗余性子方面进行建模获得目标次模函数;
步骤44、对所述语句中的每个句子分配重要性度量;
步骤45、对所述语句中的每个句子分配准确性度量;
步骤46、将重要性度量、准确性度量与步骤43中的目标次模函数进行子方面融合获得目标增益函数。
3.根据权利要求2所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤42中,相似度度量通过以下公式获得:
Figure 392253DEST_PATH_IMAGE001
其中,
Figure 79586DEST_PATH_IMAGE002
分别为句子
Figure 283165DEST_PATH_IMAGE003
的索引,
Figure 626422DEST_PATH_IMAGE004
为句子
Figure 65494DEST_PATH_IMAGE006
的向量表示,
Figure 482700DEST_PATH_IMAGE007
为句子
Figure 247393DEST_PATH_IMAGE009
的向量表示,
Figure 750050DEST_PATH_IMAGE010
为向量的模,
Figure 992812DEST_PATH_IMAGE011
为句子对
Figure 858000DEST_PATH_IMAGE012
之间的相似度度量,
Figure 400452DEST_PATH_IMAGE013
为点乘,
Figure 249460DEST_PATH_IMAGE015
为乘。
4.根据权利要求2所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤43中目标次模函数通过以下步骤获得:
步骤431、计算过渡文档候选语句与长文档的相似程度,
Figure 436859DEST_PATH_IMAGE016
其中,
Figure 953291DEST_PATH_IMAGE017
为所述过渡文档候选语句与所述长文档的相似程度,
Figure 669574DEST_PATH_IMAGE018
分别为句子
Figure 5877DEST_PATH_IMAGE003
的索引,
Figure 793705DEST_PATH_IMAGE019
为所述过渡文档候选语句,
Figure 40009DEST_PATH_IMAGE020
为所述长文档包含的所有句子,
Figure 51828DEST_PATH_IMAGE021
Figure 281952DEST_PATH_IMAGE022
Figure 404629DEST_PATH_IMAGE019
的差集,
Figure 771019DEST_PATH_IMAGE023
为句子对
Figure 953739DEST_PATH_IMAGE025
之间的相似度度量,
Figure 467897DEST_PATH_IMAGE027
为包含关系,
Figure 269631DEST_PATH_IMAGE028
为求和函数,
Figure 880741DEST_PATH_IMAGE030
为求最小值函数,
Figure 109728DEST_PATH_IMAGE032
为阈值系数;
步骤432、计算过渡文档候选语句之间总的冗余量,
Figure 111182DEST_PATH_IMAGE033
其中,
Figure 841240DEST_PATH_IMAGE034
为所述过渡文档候选语句之间总的冗余量,
Figure 919573DEST_PATH_IMAGE035
分别为句子
Figure 444096DEST_PATH_IMAGE036
的索引,
Figure 604950DEST_PATH_IMAGE037
为所述过渡文档候选语句,
Figure 138699DEST_PATH_IMAGE038
为句子对
Figure 334188DEST_PATH_IMAGE025
之间的相似度度量,
Figure 29612DEST_PATH_IMAGE039
为求和函数,
Figure 677762DEST_PATH_IMAGE040
为包含关系;
步骤433、建立目标次模函数,
Figure 952886DEST_PATH_IMAGE041
其中,
Figure 861936DEST_PATH_IMAGE042
为目标次模函数,
Figure 869206DEST_PATH_IMAGE043
为权衡系数,
Figure 863707DEST_PATH_IMAGE044
为阈值系数。
5.根据权利要求2所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤44中,重要性度量通过以下公式获得:
Figure 614625DEST_PATH_IMAGE045
其中,
Figure 378182DEST_PATH_IMAGE046
为句子
Figure 556353DEST_PATH_IMAGE047
分配得到的重要性度量,
Figure 303730DEST_PATH_IMAGE049
为句子
Figure 592760DEST_PATH_IMAGE051
的索引,
Figure 476402DEST_PATH_IMAGE052
为句子数量,
Figure 153371DEST_PATH_IMAGE053
为以
Figure 994901DEST_PATH_IMAGE055
为底的指数函数,
Figure 212255DEST_PATH_IMAGE056
为包含关系。
6.根据权利要求2所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤45中,准确性度量通过以下公式获得:
Figure 91350DEST_PATH_IMAGE057
其中,
Figure 735958DEST_PATH_IMAGE059
为长文档,
Figure 67713DEST_PATH_IMAGE060
为关键词抽取算法,
Figure 26442DEST_PATH_IMAGE061
为关键词,
Figure 884676DEST_PATH_IMAGE062
为关键词权重,
Figure 309972DEST_PATH_IMAGE063
Figure 519237DEST_PATH_IMAGE064
包含的关键词数量,
Figure 953760DEST_PATH_IMAGE065
为遍历关键词的索引,
Figure 666501DEST_PATH_IMAGE066
为句子
Figure 856174DEST_PATH_IMAGE067
包含的单词集合,
Figure 896943DEST_PATH_IMAGE069
Figure 994212DEST_PATH_IMAGE070
的单词索引,
Figure 967984DEST_PATH_IMAGE071
为句子
Figure 125296DEST_PATH_IMAGE073
的单词总数,
Figure 981256DEST_PATH_IMAGE074
为并集,
Figure 757582DEST_PATH_IMAGE076
为句子
Figure 444916DEST_PATH_IMAGE077
包含的关键词索引,
Figure 905285DEST_PATH_IMAGE079
为句子
Figure 45280DEST_PATH_IMAGE081
的准确性度量。
7.根据权利要求2所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤46中,目标增益函数
Figure 359717DEST_PATH_IMAGE082
如以下公式所示:
Figure 104819DEST_PATH_IMAGE083
其中,
Figure 603934DEST_PATH_IMAGE084
为相似程度,
Figure 372170DEST_PATH_IMAGE086
为冗余量,
Figure 614932DEST_PATH_IMAGE081
为参与计算的句子,
Figure 886645DEST_PATH_IMAGE088
为过渡文档候选语句,
Figure DEST_PATH_IMAGE089
为比例因子,
Figure 291081DEST_PATH_IMAGE090
为句子
Figure DEST_PATH_IMAGE091
的长度惩罚项,
Figure 77772DEST_PATH_IMAGE092
为权衡系数,
Figure DEST_PATH_IMAGE094
为句子
Figure DEST_PATH_IMAGE095
分配得到的重要性度量,
Figure DEST_PATH_IMAGE096
为位置偏置权重,
Figure DEST_PATH_IMAGE097
为句子
Figure 468433DEST_PATH_IMAGE077
的准确性度量,
Figure DEST_PATH_IMAGE098
为关键词影响程度参数。
8.根据权利要求1所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤5包括以下步骤:
步骤51、在语句中每次循环选取目标增益函数最大的句子,判断最大目标增益函数的增量是否大于零以及对应的句子与当前过渡文档候选语句的雅卡尔指数是否小于冗余阈值,若满足上述条件,则将目标增益函数最大的句子保留为候选句,若不满足上述条件,则继续下一轮循环;
步骤52:判断候选句添加进过渡文档候选语句后过渡文档候选语句的总长度是否大于预算约束,若大于,则不添加该候选句到过渡文档候选语句,若小于等于,则添加该候选句到过渡文档候选语句,并返回步骤51,当在预算约束已满或所述语句已被全部遍历的情况下退出循环,同时返回过渡文档候选语句。
9.根据权利要求1所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤7包括以下步骤:
步骤71、对所述过渡文档中的单词进行映射获得词典索引;
步骤72、对所述词典索引进行词嵌入操作获得词向量;使用循环神经网络中的双向长短时记忆网络或双向门控循环网络作为编码器,在当前时刻,循环神经网络单元接收当前时刻输入单词的词向量和前一时刻循环神经网络单元输出的隐藏层表示生成新的隐藏层状态,并将新的隐藏层状态传递到下一时刻的循环神经网络单元中,直到所述过渡文档的单词全部编码完毕,获得过渡文档的最终隐藏表示;
步骤73、编码完成后,所述过渡文档的最终隐藏表示为正向编码与反向编码的级联。
10.根据权利要求1所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤8包括以下步骤:
步骤81、使用单向长短时记忆网络或门控循环网络作为解码器,接收起始符“<bos>”的词向量获得新的解码器状态,同时覆盖度机制初始化覆盖度向量为全零向量;
步骤82、将当前时刻解码器状态与步骤73中所述最终隐藏表示以及步骤81中覆盖度向量经过前馈神经网络后使用
Figure DEST_PATH_IMAGE100
函数非线性化获得注意力分数,使用
Figure DEST_PATH_IMAGE101
函数计算所述注意力分数的概率分布获得注意力分布,计算所述注意力分布与所述最终隐藏表示的乘积并求和获得上下文向量,同时将覆盖度向量更新为当前时刻前的注意力分布的总和;
步骤83、复制机制将上下文向量、当前时刻解码器状态、当前时刻解码器输入单词的词向量三者经过前馈神经网络后使用
Figure DEST_PATH_IMAGE102
函数获得生成单词来源的开关
Figure DEST_PATH_IMAGE103
,将
Figure DEST_PATH_IMAGE104
与词汇表概率分布相乘,
Figure DEST_PATH_IMAGE106
与注意力分布相乘,并将两个相乘的结果相加得到最终词汇表概率分布;
步骤84、根据所述最终词汇表概率分布使用集束搜索在每一时刻输出若干个个较高概率的单词,并将这些单词输入下一时刻解码器继续生成单词,直到生成结束符“<eos>”或达到摘要限制长度停止生成摘要,生成完毕后,在若干个单词序列中选取质量最高的预测文本作为输入进两阶段模型的长文档的摘要。
CN202010794935.7A 2020-08-10 2020-08-10 一种针对长文档的两阶段文本摘要生成方法 Expired - Fee Related CN111651589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010794935.7A CN111651589B (zh) 2020-08-10 2020-08-10 一种针对长文档的两阶段文本摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010794935.7A CN111651589B (zh) 2020-08-10 2020-08-10 一种针对长文档的两阶段文本摘要生成方法

Publications (2)

Publication Number Publication Date
CN111651589A true CN111651589A (zh) 2020-09-11
CN111651589B CN111651589B (zh) 2020-10-30

Family

ID=72346357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010794935.7A Expired - Fee Related CN111651589B (zh) 2020-08-10 2020-08-10 一种针对长文档的两阶段文本摘要生成方法

Country Status (1)

Country Link
CN (1) CN111651589B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784585A (zh) * 2021-02-07 2021-05-11 新华智云科技有限公司 金融公告的摘要提取方法与摘要提取终端
CN112818113A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于异构图网络的文本自动摘要方法
CN113282742A (zh) * 2021-04-30 2021-08-20 合肥讯飞数码科技有限公司 摘要获取方法以及电子设备、存储装置
CN113449105A (zh) * 2021-06-25 2021-09-28 上海明略人工智能(集团)有限公司 一种工作总结生成方法、系统、电子设备及介质
CN114610871A (zh) * 2022-05-12 2022-06-10 北京道达天际科技有限公司 基于人工智能算法的情报系统建模分析方法
CN114996442A (zh) * 2022-05-27 2022-09-02 北京中科智加科技有限公司 一种联合抽象程度判别和摘要优化的文本摘要生成系统
CN117057321A (zh) * 2023-10-12 2023-11-14 长沙丹渥智能科技有限公司 语音转文字处理方法、模型训练方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246687A (zh) * 2012-06-13 2013-08-14 苏州大学 基于特征信息的Blog自动摘要方法
CN107783960A (zh) * 2017-10-23 2018-03-09 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备
US20190311002A1 (en) * 2017-04-14 2019-10-10 Salesforce.Com, Inc. Deep reinforced model for abstractive summarization
US20190354595A1 (en) * 2018-05-21 2019-11-21 Hcl Technologies Limited System and method for automatically summarizing documents pertaining to a predefined domain

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246687A (zh) * 2012-06-13 2013-08-14 苏州大学 基于特征信息的Blog自动摘要方法
US20190311002A1 (en) * 2017-04-14 2019-10-10 Salesforce.Com, Inc. Deep reinforced model for abstractive summarization
CN107783960A (zh) * 2017-10-23 2018-03-09 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备
US20190354595A1 (en) * 2018-05-21 2019-11-21 Hcl Technologies Limited System and method for automatically summarizing documents pertaining to a predefined domain

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIN H等: "A class of submodular functions for", 《PROCEEDINGS OF THE 49TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: HUMAN LANGUAGE TECHNOLOGIES》 *
LIN H等: "Multi-document summarization via", 《NORTH AMERICAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS/HUMAN LANGUAGE TECHNOLOGY CONFERENCE(NAACL/HLT-2010)》 *
王恒: "基于大数据的多文档摘要技术研究及其应用", 《中国优秀硕士学位论文(信息科技辑)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818113A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于异构图网络的文本自动摘要方法
CN112784585A (zh) * 2021-02-07 2021-05-11 新华智云科技有限公司 金融公告的摘要提取方法与摘要提取终端
CN113282742A (zh) * 2021-04-30 2021-08-20 合肥讯飞数码科技有限公司 摘要获取方法以及电子设备、存储装置
CN113449105A (zh) * 2021-06-25 2021-09-28 上海明略人工智能(集团)有限公司 一种工作总结生成方法、系统、电子设备及介质
CN114610871A (zh) * 2022-05-12 2022-06-10 北京道达天际科技有限公司 基于人工智能算法的情报系统建模分析方法
CN114610871B (zh) * 2022-05-12 2022-07-08 北京道达天际科技有限公司 基于人工智能算法的情报系统建模分析方法
CN114996442A (zh) * 2022-05-27 2022-09-02 北京中科智加科技有限公司 一种联合抽象程度判别和摘要优化的文本摘要生成系统
CN114996442B (zh) * 2022-05-27 2023-07-11 北京中科智加科技有限公司 一种联合抽象程度判别和摘要优化的文本摘要生成系统
CN117057321A (zh) * 2023-10-12 2023-11-14 长沙丹渥智能科技有限公司 语音转文字处理方法、模型训练方法、装置、设备及介质
CN117057321B (zh) * 2023-10-12 2024-01-05 长沙丹渥智能科技有限公司 语音转文字处理方法、模型训练方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111651589B (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111651589B (zh) 一种针对长文档的两阶段文本摘要生成方法
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN112183094B (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN111160031A (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111401079A (zh) 神经网络机器翻译模型的训练方法、装置及存储介质
CN114385803B (zh) 一种基于外部知识和片段选择的抽取式阅读理解方法
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN112329482A (zh) 机器翻译方法、装置、电子设备和可读存储介质
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN113449514A (zh) 一种适用于特定垂直领域的文本纠错方法及其纠错装置
Liu Neural question generation based on Seq2Seq
CN116955594A (zh) 语义融合预训练模型构建方法及跨语言摘要生成方法和系统
CN111309896A (zh) 基于二级注意力的深度学习文本摘要生成方法
CN117973372A (zh) 一种基于拼音约束的中文语法纠错方法
CN117708644A (zh) 司法裁判文书摘要生成方法及系统
Chao et al. Automatic spelling correction for asr corpus in traditional chinese language using seq2seq models
CN114357154A (zh) 一种基于双编码指针混合网络的中文摘要生成方法
CN117407051B (zh) 一种基于结构位置感知的代码自动摘要方法
CN115114915B (zh) 短语识别方法、装置、设备和介质
Modrzejewski Improvement of the Translation of Named Entities in Neural Machine Translation
CN115658882B (zh) 一种结合全局主题信息的摘要生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201030