CN111651589B - 一种针对长文档的两阶段文本摘要生成方法 - Google Patents

一种针对长文档的两阶段文本摘要生成方法 Download PDF

Info

Publication number
CN111651589B
CN111651589B CN202010794935.7A CN202010794935A CN111651589B CN 111651589 B CN111651589 B CN 111651589B CN 202010794935 A CN202010794935 A CN 202010794935A CN 111651589 B CN111651589 B CN 111651589B
Authority
CN
China
Prior art keywords
sentences
document
sentence
transition
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010794935.7A
Other languages
English (en)
Other versions
CN111651589A (zh
Inventor
蓝雯飞
周伟枭
覃俊
李子茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South Central Minzu University
Original Assignee
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Central University for Nationalities filed Critical South Central University for Nationalities
Priority to CN202010794935.7A priority Critical patent/CN111651589B/zh
Publication of CN111651589A publication Critical patent/CN111651589A/zh
Application granted granted Critical
Publication of CN111651589B publication Critical patent/CN111651589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种针对长文档的两阶段文本摘要生成方法,对长文档进行数据预处理;切分成语句并对语句进行后处理;定义过渡文档候选语句;定义目标增益函数;利用贪心算法依次选取使得所述目标增益函数最大的句子添加进过渡文档候选语句;对过渡文档候选语句按句子的原始顺序重排序获取过渡文档;使用编码器对过渡文档进行编码得到所述过渡文档的最终隐藏表示;解码器中使用集束搜索生成长文档摘要。本发明结合抽取式方法和生成式方法两者的优点,获得的摘要同时满足准确性高、流畅性好的特点,提高了长文档摘要的质量和可读性。

Description

一种针对长文档的两阶段文本摘要生成方法
技术领域
本发明属于自然语言处理和自然语言生成技术领域,具体涉及一种针对长文档的两阶段文本摘要生成方法。
背景技术
互联网技术的发展导致文本信息规模快速增长、数据过载问题日益严重,对蕴含重要信息的、不同语言的长文档进行“降维”处理已成为人们关心的重要问题之一。
文本摘要是自然语言处理以及自然语言生成的重要任务,其目的是使用抽取或生成的方式获取给定文档的简短版本,同时保留给定文档的显著信息。现有的文本摘要技术主要分为两种:抽取式方法和生成式方法。抽取式方法直接从给定文档中选择句子组成摘要,具体表现为对句子重要性进行打分并提取重要性较高的若干个句子。生成式方法通过重新组织给定文档的中心思想形成摘要,形式上更类似于人工撰写。
针对长文档进行摘要时,抽取式方法存在以下问题:摘要的长度限制导致抽取出的句子间距较远,严重影响句子之间的流畅性、连贯性、可读性。生成式方法存在以下问题:由于深度神经网络LSTM、GRU、Transformer对长文档编码性能较弱,导致生成的摘要准确性较低,无法很好地反应给定文档的事实细节。
发明内容
为了克服上述现有技术针对长文档摘要的不足,本发明提供一种针对长文档的两阶段文本摘要生成方法,获得的摘要同时满足准确性高、流畅性好的特点。能够解决单独使用抽取式方法或生成式方法存在的准确性低、流畅性差的缺陷。
一种针对长文档的两阶段文本摘要生成方法,包括以下步骤:
步骤1、对待获取摘要的长文档进行数据预处理;
步骤2、将预处理后的长文档切分成语句,并对语句进行后处理;
步骤3、定义过渡文档候选语句,并初始化为空集;
步骤4、定义目标增益函数;
步骤5、利用贪心算法依次选取使得所述目标增益函数最大的句子添加进过渡文档候选语句;
步骤6、对过渡文档候选语句按句子的原始顺序重排序获取过渡文档;
步骤7、使用编码器对步骤6输出的过渡文档进行编码得到所述过渡文档的最终隐藏表示;
步骤8、在解码器中使用集束搜索生成长文档摘要。
如上所述的步骤4包括以下步骤:
步骤41、计算语句的向量表示;
步骤42、对向量表示计算相似度度量获得相似度矩阵;
步骤43、对过渡文档候选语句的覆盖性子方面、冗余性子方面进行建模获得目标次模函数;
步骤44、对所述语句中的每个句子分配重要性度量;
步骤45、对所述语句中的每个句子分配准确性度量;
步骤46、将重要性度量、准确性度量与步骤43中的目标次模函数进行子方面融合获得目标增益函数。
如上所述的步骤42中,相似度度量通过以下公式获得:
Figure 881024DEST_PATH_IMAGE001
其中,
Figure 893104DEST_PATH_IMAGE002
分别为句子
Figure 141683DEST_PATH_IMAGE003
的索引,
Figure 395947DEST_PATH_IMAGE004
为句子
Figure 679161DEST_PATH_IMAGE005
的向量表示,
Figure 236044DEST_PATH_IMAGE006
为句子
Figure 96552DEST_PATH_IMAGE007
的向量表示,
Figure 29873DEST_PATH_IMAGE008
为向量的模,
Figure 292227DEST_PATH_IMAGE009
为句子对
Figure 20012DEST_PATH_IMAGE010
之间的相似度度量,
Figure 243183DEST_PATH_IMAGE011
为点乘,
Figure 72205DEST_PATH_IMAGE012
为乘。
如上所述的步骤43中目标次模函数通过以下步骤获得:
步骤431、计算过渡文档候选语句与长文档的相似程度,
Figure 330011DEST_PATH_IMAGE013
其中,
Figure 353331DEST_PATH_IMAGE014
为所述过渡文档候选语句与所述长文档的相似程度,
Figure 63798DEST_PATH_IMAGE015
分别为句子
Figure 73342DEST_PATH_IMAGE003
的索引,
Figure 310289DEST_PATH_IMAGE016
为所述过渡文档候选语句,
Figure 114297DEST_PATH_IMAGE017
为所述长文档包含的所有句子,
Figure 702273DEST_PATH_IMAGE018
Figure 249929DEST_PATH_IMAGE019
Figure 482327DEST_PATH_IMAGE016
的差集,
Figure 348914DEST_PATH_IMAGE020
为句子对
Figure 33973DEST_PATH_IMAGE021
之间的相似度度量,
Figure 650899DEST_PATH_IMAGE022
为包含关系,
Figure 596859DEST_PATH_IMAGE023
为求和函数,
Figure 273828DEST_PATH_IMAGE024
为求最小值函数,
Figure 305238DEST_PATH_IMAGE025
为阈值系数;
步骤432、计算过渡文档候选语句之间总的冗余量,
Figure 460275DEST_PATH_IMAGE026
其中,
Figure 401687DEST_PATH_IMAGE027
为所述过渡文档候选语句之间总的冗余量,
Figure 374191DEST_PATH_IMAGE028
分别为句子
Figure 768263DEST_PATH_IMAGE029
的索引,
Figure 726992DEST_PATH_IMAGE030
为所述过渡文档候选语句,
Figure 886358DEST_PATH_IMAGE031
为句子对
Figure 905130DEST_PATH_IMAGE021
之间的相似度度量,
Figure 911132DEST_PATH_IMAGE032
为求和函数,
Figure 673552DEST_PATH_IMAGE033
为包含关系;
步骤433、建立目标次模函数,
Figure 323976DEST_PATH_IMAGE034
其中,
Figure 372703DEST_PATH_IMAGE035
为目标次模函数,
Figure 741368DEST_PATH_IMAGE036
为权衡系数,
Figure 900954DEST_PATH_IMAGE037
为阈值系数。
如上所述的步骤44中,重要性度量通过以下公式获得:
Figure 937043DEST_PATH_IMAGE038
其中,
Figure 766459DEST_PATH_IMAGE039
为句子
Figure 514097DEST_PATH_IMAGE040
分配得到的重要性度量,
Figure 352740DEST_PATH_IMAGE041
为句子
Figure 977756DEST_PATH_IMAGE042
的索引,
Figure 368286DEST_PATH_IMAGE043
为句子数量,
Figure 711543DEST_PATH_IMAGE044
为以
Figure 478511DEST_PATH_IMAGE045
为底的指数函数,
Figure 223613DEST_PATH_IMAGE046
为包含关系。
如上所述的步骤45中,准确性度量通过以下公式获得:
Figure 925990DEST_PATH_IMAGE047
其中,
Figure 615597DEST_PATH_IMAGE048
为长文档,
Figure 61622DEST_PATH_IMAGE049
为关键词抽取算法,
Figure 395651DEST_PATH_IMAGE050
为关键词,
Figure 626519DEST_PATH_IMAGE051
为关键词权重,
Figure 944368DEST_PATH_IMAGE052
Figure 787559DEST_PATH_IMAGE053
包含的关键词数量,
Figure 507253DEST_PATH_IMAGE054
为遍历关键词的索引,
Figure 285854DEST_PATH_IMAGE055
为句子
Figure 215632DEST_PATH_IMAGE056
包含的单词集合,
Figure 737880DEST_PATH_IMAGE057
Figure 312081DEST_PATH_IMAGE058
的单词索引,
Figure 386217DEST_PATH_IMAGE059
为句子
Figure 413078DEST_PATH_IMAGE060
的单词总数,
Figure 365116DEST_PATH_IMAGE061
为交集,
Figure 793823DEST_PATH_IMAGE062
为句子
Figure 914226DEST_PATH_IMAGE063
包含的关键词索引,
Figure 818597DEST_PATH_IMAGE064
为句子
Figure 682648DEST_PATH_IMAGE065
的准确性度量。
如上所述的步骤46中,目标增益函数
Figure 965862DEST_PATH_IMAGE066
如以下公式所示:
Figure 647379DEST_PATH_IMAGE067
其中,
Figure 648833DEST_PATH_IMAGE068
为相似程度,
Figure 441208DEST_PATH_IMAGE069
为冗余量,
Figure 578929DEST_PATH_IMAGE065
为参与计算的句子,
Figure 306713DEST_PATH_IMAGE070
为过渡文档候选语句,
Figure 412773DEST_PATH_IMAGE071
为比例因子,
Figure 618626DEST_PATH_IMAGE072
为句子
Figure 876432DEST_PATH_IMAGE073
的长度惩罚项,
Figure 165331DEST_PATH_IMAGE074
为权衡系数,
Figure 610219DEST_PATH_IMAGE075
为句子
Figure 885343DEST_PATH_IMAGE076
分配得到的重要性度量,
Figure 122289DEST_PATH_IMAGE077
为位置偏置权重,
Figure 191876DEST_PATH_IMAGE078
为句子
Figure 514273DEST_PATH_IMAGE063
的准确性度量,
Figure 327508DEST_PATH_IMAGE079
为关键词影响程度参数。
如上所述的步骤5包括以下步骤:
步骤51、在语句中每次循环选取目标增益函数最大的句子,判断最大目标增益函数的增量是否大于零以及对应的句子与当前过渡文档候选语句的雅卡尔指数是否小于冗余阈值,若满足上述条件,则将目标增益函数最大的句子保留为候选句,若不满足上述条件,则继续下一轮循环;
步骤52:判断候选句添加进过渡文档候选语句后过渡文档候选语句的总长度是否大于预算约束,若大于,则不添加该候选句到过渡文档候选语句,若小于等于,则添加该候选句到过渡文档候选语句,并返回步骤51,当在预算约束已满或所述语句已被全部遍历的情况下退出循环,同时返回过渡文档候选语句。
如上所述的步骤7包括以下步骤:
步骤71、对所述过渡文档中的单词进行映射获得词典索引;
步骤72、对所述词典索引进行词嵌入操作获得词向量;使用循环神经网络中的双向长短时记忆网络或双向门控循环网络作为编码器,在当前时刻,循环神经网络单元接收当前时刻输入单词的词向量和前一时刻循环神经网络单元输出的隐藏层表示生成新的隐藏层状态,并将新的隐藏层状态传递到下一时刻的循环神经网络单元中,直到所述过渡文档的单词全部编码完毕,获得过渡文档的最终隐藏表示;
步骤73、编码完成后,所述过渡文档的最终隐藏表示为正向编码与反向编码的级联。
如上所述的步骤8包括以下步骤:
步骤81、使用单向长短时记忆网络或门控循环网络作为解码器,接收起始符“<bos>”的词向量获得新的解码器状态,同时覆盖度机制初始化覆盖度向量为全零向量;
步骤82、将当前时刻解码器状态与步骤73中所述最终隐藏表示以及步骤81中覆盖度向量经过前馈神经网络后使用
Figure 294327DEST_PATH_IMAGE080
函数非线性化获得注意力分数,使用
Figure 160914DEST_PATH_IMAGE081
函数计算所述注意力分数的概率分布获得注意力分布,计算所述注意力分布与所述最终隐藏表示的乘积并求和获得上下文向量,同时将覆盖度向量更新为当前时刻前的注意力分布的总和;
步骤83、复制机制将上下文向量、当前时刻解码器状态、当前时刻解码器输入单词的词向量三者经过前馈神经网络后使用
Figure 845974DEST_PATH_IMAGE082
函数获得生成单词来源的开关
Figure 462900DEST_PATH_IMAGE083
,将
Figure 674438DEST_PATH_IMAGE084
与词汇表概率分布相乘,
Figure 85828DEST_PATH_IMAGE085
与注意力分布相乘,并将两个相乘的结果相加得到最终词汇表概率分布;
步骤84、根据所述最终词汇表概率分布使用集束搜索在每一时刻输出若干个个较高概率的单词,并将这些单词输入下一时刻解码器继续生成单词,直到生成结束符“<eos>”或达到摘要限制长度停止生成摘要,生成完毕后,在若干个单词序列中选取质量最高的预测文本作为输入进两阶段模型的长文档的摘要。
与现有技术相比,本发明至少具有以下优点:
本发明模拟人类对长文档进行摘要的过程。在第一阶段,定义了融合覆盖性、冗余性、重要性、准确性四个子方面的目标增益函数,同时使用带预算约束和雅卡尔指数的贪心算法在长文档中抽取出重要句子,过滤不重要的、冗余的句子获得过渡文档。在第二阶段,使用生成式方法对所述过渡文档进行编码、解码操作,最后生成摘要。本方法结合抽取式方法和生成式方法两者的优点,获得的摘要同时满足准确性高、流畅性好的特点,提高了长文档摘要的质量和可读性。
附图说明
图1为本发明的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一:
如图1所示,一种针对长文档的两阶段文本摘要生成方法流程图,包括以下步骤:
步骤S1:对待获取摘要的长文档进行数据预处理。
需要说明的是,待获取摘要的长文档可以是任何语种,如:中文、英文、法文、西班牙文、阿拉伯文、德文、俄文、日文等。根据不用语种进行预处理,包括去除HTML标签、去除缺损的句子等。
步骤S2:将预处理后的长文档切分成语句,并对语句进行后处理。
需要说明的是,切分成语句指的是按不同语种的标点符号对预处理后的长文档进行切分获得语句,如:中文的切分标准为标点
Figure 117238DEST_PATH_IMAGE086
等,英文的切分标准为标点“.”等。后处理指的是删除句子开头的关系词、删除短语等。
步骤S3:定义过渡文档候选语句,并初始化为空集。
需要说明的是,过渡文档候选语句是指所述长文档的重要句子集合。初始化为空集,在选取到重要句子时,会添加进过渡文档候选语句。
步骤S4:定义融合覆盖性、冗余性、重要性、准确性四个子方面的目标增益函数。
步骤S4的具体实现步骤包括:
步骤S41:对所述语句计算向量表示获取所述语句表示的信息;
步骤S42:对所述向量表示计算相似度度量获得相似度矩阵;
步骤S43:对所述过渡文档候选语句的覆盖性、冗余性子方面进行建模获得目标次模函数;
步骤S44:对所述语句中的每个句子分配重要性度量;
步骤S45:对所述语句中的每个句子分配准确性度量;
步骤S46:将重要性度量、准确性度量与所述目标次模函数进行子方面融合获得目标增益函数。
在步骤S41中,使用TF-ISF算法或预训练词向量获得所述语句的向量表示。
在步骤S42中,使用余弦相似度作为所述语句的向量表示之间的语义相关度指标,具体表示为式1:
Figure 272276DEST_PATH_IMAGE001
(式1)
其中,
Figure 479266DEST_PATH_IMAGE002
分别为句子
Figure 920612DEST_PATH_IMAGE003
的索引,
Figure 580263DEST_PATH_IMAGE004
为句子
Figure 273413DEST_PATH_IMAGE005
的向量表示,
Figure 958079DEST_PATH_IMAGE006
为句子
Figure 711271DEST_PATH_IMAGE007
的向量表示,
Figure 858218DEST_PATH_IMAGE008
为向量的模,
Figure 214113DEST_PATH_IMAGE009
为句子对
Figure 130117DEST_PATH_IMAGE010
之间的相似度度量,
Figure 319790DEST_PATH_IMAGE011
为点乘,
Figure 813088DEST_PATH_IMAGE012
为乘。
计算语句中的所有句子对的相似度度量并建立相似度矩阵;
在步骤S43中,首先将覆盖性子方面定义为度量所述过渡文档候选语句与所述长文档的相似程度,具体建模为式2;然后将冗余性子方面定义为所述过渡文档候选语句之间需尽量避免出现冗余的成分,具体建模为式3;最后将目标次模函数定义为最大化覆盖性子方面以及最小化冗余性子方面,具体建模为式4。
Figure 113619DEST_PATH_IMAGE013
(式2)
其中,
Figure 743184DEST_PATH_IMAGE014
为所述过渡文档候选语句与所述长文档的相似程度,
Figure 103758DEST_PATH_IMAGE015
分别为句子
Figure 959719DEST_PATH_IMAGE087
的索引,
Figure 424460DEST_PATH_IMAGE016
为所述过渡文档候选语句,
Figure 49477DEST_PATH_IMAGE017
为所述长文档包含的所有句子,
Figure 580952DEST_PATH_IMAGE018
Figure 48842DEST_PATH_IMAGE019
Figure 691176DEST_PATH_IMAGE016
的差集,
Figure 295333DEST_PATH_IMAGE020
为句子对
Figure 997710DEST_PATH_IMAGE021
之间的相似度度量,
Figure 828263DEST_PATH_IMAGE022
为包含关系,
Figure 867763DEST_PATH_IMAGE023
为求和函数,
Figure 732951DEST_PATH_IMAGE024
为求最小值函数,
Figure 606229DEST_PATH_IMAGE025
为阈值系数。
Figure 287527DEST_PATH_IMAGE026
(式3)
其中,
Figure 6084DEST_PATH_IMAGE027
为所述过渡文档候选语句之间总的冗余量,
Figure 725778DEST_PATH_IMAGE028
分别为句子
Figure 629012DEST_PATH_IMAGE029
的索引,
Figure 434157DEST_PATH_IMAGE030
为所述过渡文档候选语句,
Figure 221985DEST_PATH_IMAGE031
为句子对
Figure 655240DEST_PATH_IMAGE021
之间的相似度度量,
Figure 870321DEST_PATH_IMAGE032
为求和函数,
Figure 756237DEST_PATH_IMAGE033
为包含关系。
Figure 347755DEST_PATH_IMAGE034
(式4)
其中,
Figure 510884DEST_PATH_IMAGE035
为目标次模函数,
Figure 522964DEST_PATH_IMAGE036
为权衡系数,
Figure 37122DEST_PATH_IMAGE037
为阈值系数。
在步骤S44中,对所述语句在所述长文档中的相对位置和绝对位置进行建模,给予每个句子一个重要性度量。具体建模为式5;对所有的句子的重要性度量进行归一化得到最终的各个句子对应的重要性度量。
Figure 166752DEST_PATH_IMAGE038
(式5)
其中,
Figure 309020DEST_PATH_IMAGE039
为句子
Figure 131483DEST_PATH_IMAGE040
分配得到的重要性度量,
Figure 991992DEST_PATH_IMAGE041
为句子
Figure 659733DEST_PATH_IMAGE042
的索引,
Figure 797454DEST_PATH_IMAGE043
为句子数量,
Figure 915451DEST_PATH_IMAGE044
为以
Figure 138622DEST_PATH_IMAGE045
为底的指数函数,
Figure 610055DEST_PATH_IMAGE046
为包含关系,当
Figure 225450DEST_PATH_IMAGE088
时,
Figure 124136DEST_PATH_IMAGE044
展现出非线性下降趋势的性质。
在步骤S45中,对所述语句包含的所述长文档中的关键词权重进行建模,给予每个句子一个准确性度量,具体建模为式6:
Figure 959237DEST_PATH_IMAGE047
(式6)
其中,
Figure 234361DEST_PATH_IMAGE048
为所述长文档,
Figure 81094DEST_PATH_IMAGE049
为关键词抽取算法,
Figure 540894DEST_PATH_IMAGE050
为关键词,
Figure 738657DEST_PATH_IMAGE089
为第
Figure 551893DEST_PATH_IMAGE054
个关键词,
Figure 643345DEST_PATH_IMAGE051
为关键词权重,
Figure 883834DEST_PATH_IMAGE090
为第
Figure 834472DEST_PATH_IMAGE054
个关键词对应的关键词权重,
Figure 811918DEST_PATH_IMAGE091
Figure 898822DEST_PATH_IMAGE053
包含的所有关键词数量,
Figure 169267DEST_PATH_IMAGE054
为遍历关键词的索引,
Figure 341622DEST_PATH_IMAGE078
为句子
Figure 496660DEST_PATH_IMAGE056
包含的单词集合,
Figure 562705DEST_PATH_IMAGE057
Figure 144996DEST_PATH_IMAGE078
的单词索引,即
Figure 804648DEST_PATH_IMAGE092
为句子
Figure 622431DEST_PATH_IMAGE056
包含的单词集合中的第
Figure 683928DEST_PATH_IMAGE057
个单词,
Figure 702699DEST_PATH_IMAGE059
为句子
Figure 959235DEST_PATH_IMAGE056
的单词总数,
Figure 456076DEST_PATH_IMAGE061
为交集,
Figure 496713DEST_PATH_IMAGE062
为句子
Figure 686386DEST_PATH_IMAGE056
包含的关键词索引,
Figure 55050DEST_PATH_IMAGE078
为所述关键词索引对应的关键词权重和,即句子
Figure 480216DEST_PATH_IMAGE056
的准确性度量。
在步骤S46中,首先对步骤S43中所述目标次模函数制定原始目标增益函数,具体建模为式7;然后将步骤S44中重要性子方面通过乘积的方式融入到所述原始目标增益函数中,具体建模为式8;最后将步骤S45中准确性子方面通过相加的方式融入到所述原始目标增益函数中,具体建模为式9。
原始目标增益函数建模为式7:
Figure 985146DEST_PATH_IMAGE093
(式7)
其中,
Figure 204775DEST_PATH_IMAGE066
为原始目标增益函数,
Figure 60736DEST_PATH_IMAGE068
为式2,
Figure 164958DEST_PATH_IMAGE069
为式3,
Figure 416073DEST_PATH_IMAGE056
为参与计算的句子,
Figure 947548DEST_PATH_IMAGE070
与式2、式3中的定义相同,为所述过渡文档候选语句,
Figure 25226DEST_PATH_IMAGE071
为比例因子,
Figure 792193DEST_PATH_IMAGE072
为句子
Figure 271716DEST_PATH_IMAGE056
的长度惩罚项,
Figure 974093DEST_PATH_IMAGE074
为权衡系数。
融合重要性子方面的目标增益函数建模为式8:
Figure 663700DEST_PATH_IMAGE094
(式8)
其中,
Figure 109725DEST_PATH_IMAGE075
为句子
Figure 833968DEST_PATH_IMAGE056
分配得到的重要性度量,
Figure 707246DEST_PATH_IMAGE077
为位置偏置权重,其作用是平衡重要性与覆盖性两个子方面,防止引入的重要性度量带来过拟合问题,可根据数据集的性质进行调整。当
Figure 759515DEST_PATH_IMAGE095
时,表示不引入重要性子方面,则式8衰减为式7;
融合重要性子方面、准确性子方面的目标增益函数建模为式9:
Figure 366821DEST_PATH_IMAGE067
(式9)
其中,
Figure 820936DEST_PATH_IMAGE078
为句子
Figure 865115DEST_PATH_IMAGE056
的准确性度量,
Figure 529315DEST_PATH_IMAGE079
为关键词影响程度参数,用来减小或者增大
Figure 51563DEST_PATH_IMAGE078
对目标增益函数的影响。当
Figure 625764DEST_PATH_IMAGE096
时,式9衰减为式8,表示不引入准确性子方面。
需要说明的是,只考虑覆盖性和冗余性子方面的目标增益函数不足以代表长文档的原始整体特征,在大量摘要数据集中,句子在长文档中的位置是常见的偏见。例如,在新闻长文档中,通常前中部的句子信息相较于后部的句子信息更为重要,需要给这些处于重要位置的句子一个重要性度量,步骤S44即为句子位置特征进行建模。
需要说明的是,在长文档中,关键词构成了句子的主体,是重要的句子选择指标,摘要撰写者倾向于关注包含关键词的句子以确保摘要的准确性。关键词和摘要都能在一定程度上反映长文档的中心思想,只是使用了单词和句子两种不同粒度的表示方式,关键词是摘要更为抽象的表示,两者之间可以互相弥补信息缺失的问题。例如,在军事类新闻长文档中,“导弹”,“战争”,“冲突”等单词具有较强的权重,需要给包含关键词的句子一个准确性度量,步骤S45即为关键词权重特征进行建模。
步骤S5:设计贪心算法依次选取使得所述目标增益函数最大的句子添加进过渡文档候选语句。
步骤S5的具体实现步骤包括:
步骤S51:在所述语句中每次循环选取目标增益函数最大的句子,判断最大目标增益函数的增量是否大于零以及对应的句子与当前过渡文档候选语句的雅卡尔指数是否小于冗余阈值,若满足上述条件,则将目标增益函数最大的句子保留为候选句,若不满足上述条件,则继续下一轮循环。
步骤S52:判断候选句添加进过渡文档候选语句后过渡文档候选语句的总长度是否大于预算约束,若大于,则不添加该候选句到过渡文档候选语句,若小于等于,则添加该候选句到过渡文档候选语句,并返回步骤S51。当在预算约束已满或所述语句已被全部遍历的情况下退出循环,同时返回过渡文档候选语句。
在步骤S51中,目标增益函数可以选择式7中定义的包含覆盖性、冗余性两个子方面的目标增益函数,也可以选择式9中定义的包含覆盖性、冗余性、重要性、准确性四个子方面的目标增益函数。不同的目标增益函数引入不同的参数,同时获得的过渡文档候选语句也不同。例如,在一次循环中,给定句子集合
Figure 699899DEST_PATH_IMAGE097
,使用融合两个子方面的目标增益函数获得的增量为
Figure 992340DEST_PATH_IMAGE098
Figure 177334DEST_PATH_IMAGE099
的增量最高,选择
Figure 871620DEST_PATH_IMAGE099
进入过渡文档候选语句,但是,当使用融合四个子方面的目标增益函数时,获得的增量为
Figure 992023DEST_PATH_IMAGE100
Figure 132280DEST_PATH_IMAGE101
的增量最高,此时选择
Figure 996330DEST_PATH_IMAGE101
进入过渡文档候选语句。
在步骤S52中,预算约束通常设置为400单词至500单词之间,其原因在于该长度范围内的过渡文档候选语句既能保留长文档的重要信息,也能避免神经网络编码器的“长距离依赖”问题。
步骤S6:对所述过渡文档候选语句按所述句子的原始顺序重排序获取过渡文档。
需要说明的是,过渡文档候选语句中的句子是无序的,若被生成式摘要模型的编码器直接编码,在训练期间,会导致信息的错误对齐问题,在解码期间,会导致获取的摘要前后逻辑不一致的问题。因此,需要使用步骤S6对过渡文档候选语句按所述句子的原始顺序重排序获取语句顺序正确的过渡文档。
步骤S7:使用编码器对步骤S6输出的所述过渡文档进行编码得到所述过渡文档的最终隐藏表示。
步骤S7的具体实现步骤包括:
步骤S71:对所述过渡文档中的单词进行映射获得词典索引。
步骤S72:对所述词典索引进行词嵌入操作获得词向量;使用循环神经网络中的双向长短时记忆网络或双向门控循环网络作为编码器,更好地捕捉双向语义依赖。在当前时刻,循环神经网络单元接收当前时刻输入单词的词向量和前一时刻循环神经网络单元输出的隐藏层表示生成新的隐藏层状态,并将新的隐藏层状态传递到下一时刻的循环神经网络单元中,直到所述过渡文档的单词全部编码完毕,获得过渡文档的最终隐藏表示。
步骤S73:编码完成后,所述过渡文档的最终隐藏表示为正向编码
Figure 545124DEST_PATH_IMAGE102
与反向编码
Figure 226641DEST_PATH_IMAGE103
的级联
Figure 962515DEST_PATH_IMAGE104
在步骤S72中,获取词向量的训练方式与word2vec类似,长短时记忆网络在当前时刻传递隐藏层状态和细胞状态到下一时刻,门控循环网络舍弃了细胞状态,直接将隐藏层状态传递到下一时刻。
步骤S8:在带注意力机制、复制机制、覆盖度机制的解码器中使用集束搜索生成长文档摘要。
步骤S8的具体实现步骤包括:
步骤S81:使用单向长短时记忆网络或门控循环网络作为解码器,接收起始符“<bos>”的词向量获得新的解码器状态,同时覆盖度机制初始化覆盖度向量为全零向量。
步骤S82:将当前时刻解码器状态与步骤S73中所述最终隐藏表示以及步骤S81中覆盖度向量经过前馈神经网络后使用
Figure 754891DEST_PATH_IMAGE105
函数非线性化获得注意力分数,使用
Figure 158190DEST_PATH_IMAGE106
函数计算所述注意力分数的概率分布获得注意力分布,计算所述注意力分布与所述最终隐藏表示的乘积并求和获得上下文向量。同时将覆盖度向量更新为当前时刻前的注意力分布的总和。
步骤S83:复制机制将上下文向量、当前时刻解码器状态、当前时刻解码器输入单词的词向量三者经过前馈神经网络后使用
Figure 885975DEST_PATH_IMAGE107
函数获得生成单词来源的开关
Figure 233780DEST_PATH_IMAGE108
,将
Figure 970792DEST_PATH_IMAGE109
与词汇表概率分布相乘,
Figure 963018DEST_PATH_IMAGE110
与注意力分布相乘,并将两个相乘的结果相加得到最终词汇表概率分布。
步骤S84:根据所述最终词汇表概率分布使用集束搜索在每一时刻输出若干个个较高概率的单词,并将这些单词输入下一时刻解码器继续生成单词,直到生成结束符“<eos>”或达到摘要限制长度停止生成摘要。生成完毕后,在若干个单词序列中选取质量最高的预测文本作为输入进两阶段模型的长文档的摘要。
本发明实施例提供的一种针对长文档的两阶段文本摘要生成方法,模拟人类对长文档进行摘要的过程。在第一阶段,定义了融合覆盖性、冗余性、重要性、准确性四个子方面的目标增益函数,同时使用带预算约束和雅卡尔指数的贪心算法在长文档中抽取出重要句子,过滤不重要的、冗余的句子获得过渡文档。在第二阶段,使用生成式方法对所述过渡文档进行编码、解码操作,最后生成摘要。本方法结合抽取式方法和生成式方法两者的优点,获得的摘要同时满足准确性高、流畅性好的特点,提高了长文档摘要的质量和可读性。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (8)

1.一种针对长文档的两阶段文本摘要生成方法,其特征在于,包括以下步骤:
步骤1、对待获取摘要的长文档进行数据预处理;
步骤2、将预处理后的长文档切分成语句,并对语句进行后处理;
步骤3、定义过渡文档候选语句,并初始化为空集;
步骤4、定义目标增益函数;
步骤5、利用贪心算法依次选取使得所述目标增益函数最大的句子添加进过渡文档候选语句;
步骤6、对过渡文档候选语句按句子的原始顺序重排序获取过渡文档;
步骤7、使用编码器对步骤6输出的过渡文档进行编码得到所述过渡文档的最终隐藏表示;
步骤8、在解码器中使用集束搜索生成长文档摘要,
所述的步骤4包括以下步骤:
步骤41、计算语句的向量表示;
步骤42、对向量表示计算相似度度量获得相似度矩阵;
步骤43、对过渡文档候选语句的覆盖性子方面、冗余性子方面进行建模获得目标次模函数;
步骤44、对所述语句中的每个句子分配重要性度量;
步骤45、对所述语句中的每个句子分配准确性度量;
步骤46、将重要性度量、准确性度量与步骤43中的目标次模函数进行子方面融合获得目标增益函数,
所述的步骤46中,目标增益函数
Figure 628886DEST_PATH_IMAGE001
如以下公式所示:
Figure 463986DEST_PATH_IMAGE002
其中,
Figure 739110DEST_PATH_IMAGE003
为相似程度,
Figure 585843DEST_PATH_IMAGE004
为冗余量,
Figure 278599DEST_PATH_IMAGE005
为参与计算的句子,
Figure 476363DEST_PATH_IMAGE006
为过渡文档候选语句,
Figure 414232DEST_PATH_IMAGE007
为比例因子,
Figure 115471DEST_PATH_IMAGE008
为句子
Figure 621539DEST_PATH_IMAGE009
的长度惩罚项,
Figure 165653DEST_PATH_IMAGE010
为权衡系数,
Figure 782579DEST_PATH_IMAGE011
为句子
Figure 728538DEST_PATH_IMAGE012
分配得到的重要性度量,
Figure 405507DEST_PATH_IMAGE013
为位置偏置权重,
Figure 312283DEST_PATH_IMAGE014
为句子
Figure 358999DEST_PATH_IMAGE015
的准确性度量,
Figure 34831DEST_PATH_IMAGE016
为关键词影响程度参数。
2.根据权利要求1所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤42中,相似度度量通过以下公式获得:
Figure 882701DEST_PATH_IMAGE017
其中,
Figure 401407DEST_PATH_IMAGE018
分别为句子
Figure 360136DEST_PATH_IMAGE019
的索引,
Figure 280688DEST_PATH_IMAGE020
为句子
Figure 33880DEST_PATH_IMAGE021
的向量表示,
Figure 915248DEST_PATH_IMAGE022
为句子
Figure 802302DEST_PATH_IMAGE023
的向量表示,
Figure 452726DEST_PATH_IMAGE024
为向量的模,
Figure 642399DEST_PATH_IMAGE025
为句子对
Figure 374512DEST_PATH_IMAGE026
之间的相似度度量,
Figure 409464DEST_PATH_IMAGE027
为点乘,
Figure 570187DEST_PATH_IMAGE028
为乘。
3.根据权利要求1所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤43中目标次模函数通过以下步骤获得:
步骤431、计算过渡文档候选语句与长文档的相似程度,
Figure 930761DEST_PATH_IMAGE029
其中,
Figure 521143DEST_PATH_IMAGE030
为所述过渡文档候选语句与所述长文档的相似程度,
Figure 749999DEST_PATH_IMAGE031
分别为句子
Figure 375015DEST_PATH_IMAGE019
的索引,
Figure 906491DEST_PATH_IMAGE032
为所述过渡文档候选语句,
Figure 108802DEST_PATH_IMAGE033
为所述长文档包含的所有句子,
Figure 751136DEST_PATH_IMAGE034
Figure 856757DEST_PATH_IMAGE035
Figure 559134DEST_PATH_IMAGE032
的差集,
Figure 124108DEST_PATH_IMAGE036
为句子对
Figure 694766DEST_PATH_IMAGE037
之间的相似度度量,
Figure 28796DEST_PATH_IMAGE038
为包含关系,
Figure 902074DEST_PATH_IMAGE039
为求和函数,
Figure 78977DEST_PATH_IMAGE040
为求最小值函数,
Figure 328693DEST_PATH_IMAGE041
为阈值系数;
步骤432、计算过渡文档候选语句之间总的冗余量,
Figure 641863DEST_PATH_IMAGE042
其中,
Figure 686042DEST_PATH_IMAGE043
为所述过渡文档候选语句之间总的冗余量,
Figure 491187DEST_PATH_IMAGE044
分别为句子
Figure 636604DEST_PATH_IMAGE045
的索引,
Figure 945226DEST_PATH_IMAGE046
为所述过渡文档候选语句,
Figure 160306DEST_PATH_IMAGE047
为句子对
Figure 311802DEST_PATH_IMAGE037
之间的相似度度量,
Figure 637741DEST_PATH_IMAGE048
为求和函数,
Figure 66448DEST_PATH_IMAGE049
为包含关系;
步骤433、建立目标次模函数,
Figure 577064DEST_PATH_IMAGE050
其中,
Figure 91222DEST_PATH_IMAGE051
为目标次模函数,
Figure 79907DEST_PATH_IMAGE052
为权衡系数,
Figure 363120DEST_PATH_IMAGE053
为阈值系数。
4.根据权利要求1所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤44中,重要性度量通过以下公式获得:
Figure 920004DEST_PATH_IMAGE054
其中,
Figure 281977DEST_PATH_IMAGE055
为句子
Figure 215298DEST_PATH_IMAGE056
分配得到的重要性度量,
Figure 477652DEST_PATH_IMAGE057
为句子
Figure 939858DEST_PATH_IMAGE058
的索引,
Figure 428608DEST_PATH_IMAGE059
为句子数量,
Figure 759095DEST_PATH_IMAGE060
为以
Figure 16901DEST_PATH_IMAGE061
为底的指数函数,
Figure 181166DEST_PATH_IMAGE062
为包含关系。
5.根据权利要求1所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤45中,准确性度量通过以下公式获得:
Figure 16267DEST_PATH_IMAGE063
其中,
Figure 25811DEST_PATH_IMAGE064
为长文档,
Figure 755433DEST_PATH_IMAGE065
为关键词抽取算法,
Figure 825020DEST_PATH_IMAGE066
为关键词,
Figure 22784DEST_PATH_IMAGE067
为关键词权重,
Figure 960653DEST_PATH_IMAGE068
Figure 927472DEST_PATH_IMAGE069
包含的关键词数量,
Figure 433539DEST_PATH_IMAGE070
为遍历关键词的索引,
Figure 977653DEST_PATH_IMAGE071
为句子
Figure 594579DEST_PATH_IMAGE072
包含的单词集合,
Figure 540538DEST_PATH_IMAGE073
Figure 217507DEST_PATH_IMAGE074
的单词索引,
Figure 124284DEST_PATH_IMAGE075
为句子
Figure 905420DEST_PATH_IMAGE076
的单词总数,
Figure 846831DEST_PATH_IMAGE077
为交集,
Figure 694702DEST_PATH_IMAGE078
为句子
Figure 213408DEST_PATH_IMAGE015
包含的关键词索引,
Figure 172136DEST_PATH_IMAGE079
为句子
Figure 827109DEST_PATH_IMAGE005
的准确性度量。
6.根据权利要求1所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤5包括以下步骤:
步骤51、在语句中每次循环选取目标增益函数最大的句子,判断最大目标增益函数的增量是否大于零以及对应的句子与当前过渡文档候选语句的雅卡尔指数是否小于冗余阈值,若满足上述条件,则将目标增益函数最大的句子保留为候选句,若不满足上述条件,则继续下一轮循环;
步骤52:判断候选句添加进过渡文档候选语句后过渡文档候选语句的总长度是否大于预算约束,若大于,则不添加该候选句到过渡文档候选语句,若小于等于,则添加该候选句到过渡文档候选语句,并返回步骤51,当在预算约束已满或所述语句已被全部遍历的情况下退出循环,同时返回过渡文档候选语句。
7.根据权利要求1所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤7包括以下步骤:
步骤71、对所述过渡文档中的单词进行映射获得词典索引;
步骤72、对所述词典索引进行词嵌入操作获得词向量;使用循环神经网络中的双向长短时记忆网络或双向门控循环网络作为编码器,在当前时刻,循环神经网络单元接收当前时刻输入单词的词向量和前一时刻循环神经网络单元输出的隐藏层表示生成新的隐藏层状态,并将新的隐藏层状态传递到下一时刻的循环神经网络单元中,直到所述过渡文档的单词全部编码完毕,获得过渡文档的最终隐藏表示;
步骤73、编码完成后,所述过渡文档的最终隐藏表示为正向编码与反向编码的级联。
8.根据权利要求1所述的一种针对长文档的两阶段文本摘要生成方法,其特征在于,所述的步骤8包括以下步骤:
步骤81、使用单向长短时记忆网络或门控循环网络作为解码器,接收起始符“<bos>”的词向量获得新的解码器状态,同时覆盖度机制初始化覆盖度向量为全零向量;
步骤82、将当前时刻解码器状态与步骤73中所述最终隐藏表示以及步骤81中覆盖度向量经过前馈神经网络后使用
Figure 845880DEST_PATH_IMAGE080
函数非线性化获得注意力分数,使用
Figure 727248DEST_PATH_IMAGE081
函数计算所述注意力分数的概率分布获得注意力分布,计算所述注意力分布与所述最终隐藏表示的乘积并求和获得上下文向量,同时将覆盖度向量更新为当前时刻前的注意力分布的总和;
步骤83、复制机制将上下文向量、当前时刻解码器状态、当前时刻解码器输入单词的词向量三者经过前馈神经网络后使用
Figure 614302DEST_PATH_IMAGE082
函数获得生成单词来源的开关
Figure 264726DEST_PATH_IMAGE083
,将
Figure 188820DEST_PATH_IMAGE084
与词汇表概率分布相乘,
Figure 180653DEST_PATH_IMAGE085
与注意力分布相乘,并将两个相乘的结果相加得到最终词汇表概率分布;
步骤84、根据所述最终词汇表概率分布使用集束搜索在每一时刻输出若干个个较高概率的单词,并将这些单词输入下一时刻解码器继续生成单词,直到生成结束符“<eos>”或达到摘要限制长度停止生成摘要,生成完毕后,在若干个单词序列中选取质量最高的预测文本作为输入进两阶段模型的长文档的摘要。
CN202010794935.7A 2020-08-10 2020-08-10 一种针对长文档的两阶段文本摘要生成方法 Active CN111651589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010794935.7A CN111651589B (zh) 2020-08-10 2020-08-10 一种针对长文档的两阶段文本摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010794935.7A CN111651589B (zh) 2020-08-10 2020-08-10 一种针对长文档的两阶段文本摘要生成方法

Publications (2)

Publication Number Publication Date
CN111651589A CN111651589A (zh) 2020-09-11
CN111651589B true CN111651589B (zh) 2020-10-30

Family

ID=72346357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010794935.7A Active CN111651589B (zh) 2020-08-10 2020-08-10 一种针对长文档的两阶段文本摘要生成方法

Country Status (1)

Country Link
CN (1) CN111651589B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818113A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于异构图网络的文本自动摘要方法
CN112784585A (zh) * 2021-02-07 2021-05-11 新华智云科技有限公司 金融公告的摘要提取方法与摘要提取终端
CN113282742B (zh) * 2021-04-30 2022-08-12 合肥讯飞数码科技有限公司 摘要获取方法以及电子设备、存储装置
CN113449105A (zh) * 2021-06-25 2021-09-28 上海明略人工智能(集团)有限公司 一种工作总结生成方法、系统、电子设备及介质
CN114610871B (zh) * 2022-05-12 2022-07-08 北京道达天际科技有限公司 基于人工智能算法的情报系统建模分析方法
CN114996442B (zh) * 2022-05-27 2023-07-11 北京中科智加科技有限公司 一种联合抽象程度判别和摘要优化的文本摘要生成系统
CN117057321B (zh) * 2023-10-12 2024-01-05 长沙丹渥智能科技有限公司 语音转文字处理方法、模型训练方法、装置、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246687B (zh) * 2012-06-13 2016-08-17 苏州大学 基于特征信息的Blog自动摘要方法
US10474709B2 (en) * 2017-04-14 2019-11-12 Salesforce.Com, Inc. Deep reinforced model for abstractive summarization
CN107783960B (zh) * 2017-10-23 2021-07-23 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备
US11074303B2 (en) * 2018-05-21 2021-07-27 Hcl Technologies Limited System and method for automatically summarizing documents pertaining to a predefined domain

Also Published As

Publication number Publication date
CN111651589A (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
CN111651589B (zh) 一种针对长文档的两阶段文本摘要生成方法
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN112183094B (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN111160031A (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN112612871B (zh) 一种基于序列生成模型的多事件检测方法
CN110390049B (zh) 一种面向软件开发问题的答案自动生成方法
CN109992775A (zh) 一种基于高级语义的文本摘要生成方法
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN112329482A (zh) 机器翻译方法、装置、电子设备和可读存储介质
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
Liu Neural question generation based on Seq2Seq
CN113449514A (zh) 一种适用于特定垂直领域的文本纠错方法及其纠错装置
CN111309896A (zh) 基于二级注意力的深度学习文本摘要生成方法
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN114398875A (zh) 一种纠错模型的训练方法、检索词纠错方法、设备及介质
Chao et al. Automatic spelling correction for asr corpus in traditional chinese language using seq2seq models
CN114357154A (zh) 一种基于双编码指针混合网络的中文摘要生成方法
CN115688748A (zh) 问句纠错方法、装置、电子设备及存储介质
CN117407051B (zh) 一种基于结构位置感知的代码自动摘要方法
CN115114915B (zh) 短语识别方法、装置、设备和介质
Chen et al. SR3: Sentence Ranking, Reasoning, and Replication for Scenario-Based Essay Question Answering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant