CN110688479B - 一种用于生成式摘要的评估方法及排序网络 - Google Patents

一种用于生成式摘要的评估方法及排序网络 Download PDF

Info

Publication number
CN110688479B
CN110688479B CN201910764862.4A CN201910764862A CN110688479B CN 110688479 B CN110688479 B CN 110688479B CN 201910764862 A CN201910764862 A CN 201910764862A CN 110688479 B CN110688479 B CN 110688479B
Authority
CN
China
Prior art keywords
abstract
text
model
score
generative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910764862.4A
Other languages
English (en)
Other versions
CN110688479A (zh
Inventor
曹亚男
徐灏
尚燕敏
刘燕兵
谭建龙
郭莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201910764862.4A priority Critical patent/CN110688479B/zh
Publication of CN110688479A publication Critical patent/CN110688479A/zh
Application granted granted Critical
Publication of CN110688479B publication Critical patent/CN110688479B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种用于生成式摘要的评估方法及排序网络。本发明从三个方面来评估摘要质量:第一,运用语言模型来评估语言的流畅度;第二,使用相似度模型评估文本和摘要之间的语义相关性;第三,为了有效评估实体、专有词的复现程度,引入原文信息量模型来评估。本发明从摘要的语言流畅性、摘要与原文的相关性以及摘要所包含的信息量等多个方面来综合评估摘要的质量,大大提高了评估的准确性。

Description

一种用于生成式摘要的评估方法及排序网络
技术领域
本发明属于人工智能技术领域,涉及一种用于生成式摘要的评估方法及排序网络。
背景技术
随着深度学习技术的快速发展,自动文摘成为了可能。目前,评估生成摘要的评测指标是Rouge分数。根据评测粒度(词格)的不同,Rouge分数可以分为Rouge-N、Rouge-L、Rouge-W、Rouge-S等。
第一,Rouge-N,它表示的是生成摘要和真实摘要中n格单词的召回情况,具体的公式是
Figure BDA0002171616040000011
其中分母表示真实摘要中n格单词的个数,分子则表示的是真实摘要和自动摘要共同出现的n格单词的个数。
第二,Rouge-L,L表示的是最长公共序列,其具体公式分别是最长公共子序列的召回率,准确率和F测度:
Figure BDA0002171616040000012
Figure BDA0002171616040000013
其中X是长度为m的真实摘要;而Y是长度为n的生成摘要,β为精确率和召回率的比值。
第三,Rouge-W是在Rouge-L的基础上改变不同的对应权重计算而得到的计算方法。
第四,Rouge-S,S表示skip-grams,即在匹配真实摘要和生成摘要时,允许跳过N个单词,如skip-bigram,即最多允许跳过两个单词。
现有的自动摘要评估指标Rouge分数的本质是匹配原文与摘要的共现程度,生成式摘要模型也采用这种评估指标。但是,Rouge分数忽略了生成式摘要的语言多样性以及文本与摘要的语义相关性,使得基于Rouge分数的评估方法不合理。
发明内容
本发明提出了一种新型的评估生成式摘要质量的评估方法及排序网络,用于评估生成式摘要,其从摘要的语言流畅性、摘要与原文的相关性以及摘要所包含的信息量等多个方面来综合评估摘要的质量,大大提高了评估的准确性。具体来说,本发明从三个方面来评估摘要质量:第一,运用语言模型来评估语言的流畅度。第二,使用相似度模型评估文本和摘要之间的语义相关性。第三,为了有效评估实体、专有词的复现程度,引入原文信息量模型来评估。
本申请提案能从多个层面有效地评估生成式摘要的质量,并且本发明可对不同的数据集进行自适应的调整参数。
本发明提供了一种用于生成式摘要的排序网络,其特征在于,包括语言模型、相似度模型、原文信息量模型和评估模块;其中,
语言模型,用于计算文本的生成式摘要的摘要语言流畅度Score_1;
相似度模型,用于计算文本的生成式摘要与文本的相似度Score_2;
原文信息量模型,用于计算文本的生成式摘要的摘要实体覆盖率Score_3和共现词程度Score_4;
评估模块,用于对文本的生成式摘要的摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4进行加权计算,得到该文本的生成式摘要的评估结果。
排序网络还包括一权重优化模块,用于基于训练集中样本的真实摘要和基于训练集中各样本的生成式摘要的摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4,通过贝叶斯优化算法选择摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4的权重;其中,训练集中每一样本对应一三元组(X,Y′,Y_all),Y_all={Y_1,Y_2,…,Y_m},Y_m为文本X通过第m个生成式摘要系统生成的生成式摘要,Y′为文本X的真实摘要Y′。
本发明用于生成式摘要的排序网络的评估方法为:
步骤1,将每一所选文本X通过多个生成式摘要系统,得到多个摘要,组成摘要候选项Y_all={Y_1,Y_2,…,Y_m},并将文本X,真实摘要Y′和摘要候选项Y_all一一配对,组成训练集。
步骤2,将步骤1中的训练集分别通过已经训练好的语言模型、相似度模型和原文信息量模型得到每一生成式摘要的Score_1,Score_2,Score_3和Score_4。
步骤3,基于所述训练集中样本的真实摘要,通过贝叶斯优化选择该训练集下Score_1,Score_2,Score_3和Score_4的权重比值。可以使用经验值或启发式方法来设计权重比,也可以使用参数网格搜索,随机搜索等算法来实现,贝叶斯优化是为了自动化找到该训练集下最适应的参数,其优化目标,即是最大化验证集上的分数和。
步骤4,使用步骤2的分数和步骤3的权重,加权得到每个文本对应的摘要候选项中每个摘要的分数,最终摘要按分数从高到低输出。
步骤5,对于一待生成摘要的文本a,生成该文本a的多个摘要,并计算每一摘要的Score_1、Score_2、Score_3和Score_4,然后根据步骤3确定的权重加权计算该文本a各摘要的摘要分数,确定该文本a各摘要的评估结果。
所述步骤1中,得到摘要候选项过程如下:
步骤1.1,将文本X经过预处理,与已训练的生成式摘要系统的处理尽可能一致,比如去除特殊字符,数字清理等。
步骤1.2,将步骤1.1处理好的文本送入到m个生成摘要系统中,得到m个摘要Y_all={Y_1,Y_2,…,Y_m},并将其一一配对(X,Y′,Y_all)后,随机切分为训练集、验证集和测试集。
所述步骤2中,如图1所示,包含三个模块,这三个模型可以并行执行。
语言模型
语言模型是对语句的概率分布的建模,衡量了语言序列片段符合真实句子的概率。本模块使用统计语言模型n格语言模型算法来评估摘要的语言流畅性(参考Croft,W.Bruce,and John Lafferty,eds.Language modeling for informationretrieval.Vol.13.Springer Science&Business Media,2013)。给定句子集合S∈Y_i(可以来自一篇或者多篇文档,对于本发明而言S为一个摘要中的句子集合),句子集合S有m个单词,表示为w_1,w_2,···,w_m。由链式法则,可以得到句子概率P(w_1,w_2,…,w_m)=P(w_1)P(w_2│w_1)…P(w_m|w_1…w_(m-1)),根据马尔科夫链假设,当前词i出现的概率只依赖于单词i的前n-1个词,即P(w_i│w_1…w_(i-1))=P(w_i|w_(i-n+1)…w_(i-1)),基于上式,可以得到2格语言语言模型,表示为P(w_1,w_2,···,w_m)=Π_(i-1)^m P(w_i|w_(i-1))。为了采样真实语言分布,本模型所使用的参数是由中文维基百科数据集在语言模型上训练得到的。训练语言模型的工具是Kenlm(参考Heafield,Kenneth."KenLM:Fasterand smaller language model queries."Proceedings of the sixth workshop onstatistical machine translation.Association for Computational Linguistics,2011),训练设置采用默认设置和5格语言语言模型。
在应用阶段,设摘要由m个词组成,表示为y_1,y_2,···,y_m,将其输入到训练好的语言模型中,归一化后得到摘要的语言流畅度Score_1。从这里可以看出,Score_1分数越高,语言流畅度越高。
相似度模型
相似度模型用于评估生成摘要与原文在语义上的相关性。基于语言模型的词表示方法可用于探索自然语言内在的依赖关系并对这种依赖关系进行建模。在训练阶段,使用的词向量特征由上文提到的中文维基百科数据集训练得到,训练词向量所采用的工具是谷歌开源的Word2Vec模型,词向量特征维度设置为k维。
在应用阶段,设文本X由n个词组成,表示为x1,x2,···,xn,摘要由m个词组成,表示为y1,y2,···,ym,其中xi,yj分别表示文本中第i个词的词向量和摘要中第j个词的词向量。使用句子词向量和的平均值来表示句子的向量,那么文本和摘要的向量Xw,Yw分别表示为:
Figure BDA0002171616040000041
Figure BDA0002171616040000042
使用常见的余弦相似度来衡量两个句子的空间距离,即:
Figure BDA0002171616040000043
其中t表示词向量的第t维,归一化得到摘要与文本(原文)的相似度Score_2,可以看出Score_2与相关性成正比。
原文信息量模型
为衡量摘要所包含原文信息程度,分别从摘要所包含文本出现的实体数以及原文和摘要的共现词程度两方面进行考察。为标注摘要所包含原文实体数,使用斯坦福命名实体识别器,其是一个基于条件随机场分类器的实体识别器,分别预设识别人名、地名、机构名、专有名词等。本小节使用SNER来分别标注摘要和原文实体数,有摘要实体覆盖率Score_3=摘要中实体数/文本实体数。而对于摘要的共现词程度,使用原有指标Rougg-L的F-测度,令其为Score_4。
定义最终的分数为S_f=λ1*Score_1+λ2*Score_2+λ3*Score_3+λ4*Score_4,其中λ1,λ2,λ3和λ4是权重参数,用来控制评估摘要质量的侧重角度。
所述步骤3中,权重训练过程如下:
步骤3.1,使用步骤1.2得到的训练集,以最大化S_f为目标,调整各参数的权重,即有Λ*=argmaxλ∈SSf(λ)。其中S是λ的候选参数集。其目标是寻找合适的参数集λ,使得Sf(λ)的值最大化。本步骤中采用贝叶斯优化算法,利用贝叶斯先验知识,通常能够更快地搜索到最佳参数。贝叶斯优化算法的基本思想是先对Sf(λ)假设一个先验分布,然后利用后续获取到的信息,来不断优化假设分布,从而获得最佳模型。具体使用dragonfly工具来优化参数。
步骤3.2,通过采集函数α更新λ:λn+1=argmaxxα(λ,Dn)。
步骤3.3,验证目标函数Sf(n+1)
步骤3.4,更新采样数据Dn+1={Dn,(λn+1,Sf(n+1))}。
步骤3.5,更新优化模型。
步骤3.6,重复步骤3.2至步骤3.6,直至参数达到最优值,得到对应的参数值。
与现有技术相比,本发明的积极效果为:
1、提出了一种用于生成式摘要的排序网络,分别从摘要的语言流畅性、摘要与原文的相关性以及摘要所包含的信息量等多个方面来综合评估摘要的质量,大大提高了评估的准确性;
2、提出了一个参数训练框架,可以动态地增加多个评估模型,以及针对不同的数据集,调整不同模型的权重比例。
本发明是用于评估生成式摘要,在原有的Rouge分数上,引入了摘要的语言流畅性、摘要与原文的相关性以及摘要所包含的信息量等多个方面的评估信息,并提供了不同状况下,动态调整各模型的权重比。甚至,可以动态增加或删减摘要评估模型。
附图说明
图1为一种用于生成式摘要的排序网络模型图;
图2为用于生成式摘要的排序网络流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下参照附图,对本发明作进一步详细说明。
采用两种数据集分别是中文数据集和英文数据集,中文数据集是比较广泛采用的大规模短文本摘要数据集(LCSTS),包含240万来自新浪微博的文本摘要对。英文数据集是多模态句子摘要数据集MMSS,其是个一个包含文本、图像和摘要(X,Y,I)三元组的数据集,其中文本和摘要来自广泛评测摘要系统的Gigawords数据集,图像通过搜索引擎检索获得。最后,经过人工筛选获得(X,Y,I)三元组数据集,其中包括训练集为66000个样本,验证集和测试集分别为2000个样本。
其中生成摘要系统有Seq2Seq+Attention机制的模型,基于强化学习的生成模型和基于生成对抗网络的摘要模型,具体流程如图2所示:
步骤1,将文本X通过多个生成式摘要系统,得到多个摘要,组成摘要候选项Yall={Y1,Y2,…,Ym},并将文本X,真实摘要Y′和摘要候选项Yall一一配对,组成训练集,针对于MMSS数据集,X包含文本和图像共同的特征。
步骤2,将步骤1中的训练集分别通过已经训练好的语言模型、相似度模型和原文信息量模型得到每一生成式摘要的Score1,Score2,Score3和Score4
步骤3,基于所述训练集中样本的真实摘要,通过贝叶斯优化选择该训练集下Score1,Score2,Score3和Score4的权重比值,两个数据集上得到参数均为:λ1=0.2,λ2=0.3,
λ3=0.2和λ4=0.6。
步骤4,使用步骤2的分数和步骤3的权重,加权得到每个文本对应的摘要候选项中每个生成式摘要的分数,最终摘要按分数从高到低输出。
步骤5,对于一待生成摘要的文本a,生成该文本a的多个摘要,并计算每一摘要的Score_1、Score_2、Score_3和Score_4,然后根据步骤3确定的权重加权计算该文本a各摘要的摘要分数,确定该文本a各摘要的评估结果。
为了比较本发明的用于生成式摘要的效果,现分别采用Seq2Seq+Attention机制的模型(ABS),基于强化学习的生成模型(RL)和基于生成对抗网络的摘要模型(GAN)。LCSTS结果样例如表1所示和对应分数如表2所示,MMSS结果样例如表3所示和对应分数如表4所示:
表1在LCSTS数据上多个生成模型生成的样例
R: XX警方确认李xx吸毒被捕(图)
SEQ2SQ: XX警方李xx吸毒被捕系歌手_UNK_UNK_UNK_UNK_UNK
RL: 网传李xx吸毒被抓,李xx是歌手
GAN: XX警方确认李xx吸毒被捕,警方抓获TAGNUM人
表2在LCSTS数据集上各模块的分数
模型 Score<sub>1</sub> Score<sub>2</sub> Score<sub>3</sub> Score<sub>4</sub> S<sub>f</sub>
ABS 0.55 0.58 0.71 0.92 1.049
RL 0.92 0.61 0.76 0.87 1.117
GAN 0.72 0.57 0.82 0.92 1.113
表3在MMSS数据上多个生成模型生成的样例
R: UNK credit union losses at$#$.$#$bln dlrs:central bank
SEQ2SQ: japan credit losses billion
RL: japan credit losses$###$billion yen
GAN: japan's bank losses$###$billion yen
表4在MMSS数据集上各模块的分数
模型 Score<sub>1</sub> Score<sub>2</sub> Score<sub>3</sub> Score<sub>4</sub> S<sub>f</sub>
ABS 0.43 0.63 0.54 0.49 0.731
RL 0.76 0.62 0.72 0.79 1.028
GAN 0.78 0.63 0.84 0.76 1.053
实验结果表明在LCSTS数据集上,该样例采用基于强化学习的模型生成的摘要质量最优,因其对应的语言流畅度分数相对更高。然而,如果根据原来的方案Rouge-L的F-测度,即Score4在ABS和GAN都很高,但是显然,RL的语言流畅度分数要好一些。在MMSS数据集上,该样例采用基于强化学习的模型生成的摘要质量最优,因其对应的实体分数相对更高。
尽管为说明目的公开了本发明的具体内容、实施算法以及附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (6)

1.一种用于生成式摘要的评估方法,其步骤包括:
1)将每一所选文本
Figure DEST_PATH_IMAGE002
通过m个生成式摘要系统,将生成的m个生成式摘要组成摘要候选项
Figure DEST_PATH_IMAGE004
;将文本X及其真实摘要
Figure DEST_PATH_IMAGE006
和摘要候选项
Figure DEST_PATH_IMAGE008
一一配对,生成一三元组(X,
Figure 787960DEST_PATH_IMAGE006
Figure 265953DEST_PATH_IMAGE008
)作为训练集的一样本;其中,
Figure DEST_PATH_IMAGE010
为文本
Figure 232641DEST_PATH_IMAGE002
通过第m个生成式摘要系统生成的生成式摘要;
2)将所述训练集通过训练好的语言模型得到每一样本的生成式摘要的摘要语言流畅度
Figure DEST_PATH_IMAGE012
,将所述训练集通过训练好的相似度模型得到每一样本的生成式摘要与文本的相似度
Figure DEST_PATH_IMAGE014
,将所述训练集通过训练好的原文信息量模型得到每一样本的生成式摘要的摘要实体覆盖率
Figure DEST_PATH_IMAGE016
和共现词程度
Figure DEST_PATH_IMAGE018
;其中,
使用统计语言模型n格语言模型算法评估摘要的语言流畅度Score_1;
计算生成式摘要与文本的相似度Score_2的方法为:设文本
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE022
个词组成,表示为
Figure DEST_PATH_IMAGE024
,文本X的生成式摘要由
Figure DEST_PATH_IMAGE026
个词组成,表示为
Figure DEST_PATH_IMAGE028
;其中
Figure DEST_PATH_IMAGE030
表示文本X中第
Figure DEST_PATH_IMAGE032
个词的词向量,
Figure DEST_PATH_IMAGE034
表示文本X的生成式摘要中第
Figure DEST_PATH_IMAGE036
个词的词向量,文本X的向量
Figure DEST_PATH_IMAGE038
和文本X的生成式摘要的向量
Figure DEST_PATH_IMAGE040
分别表示为:
Figure DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE044
;利用余弦相似度来衡量两个句子的空间距离,即:
Figure DEST_PATH_IMAGE046
,其中t表示词向量的第
Figure DEST_PATH_IMAGE048
维;对
Figure DEST_PATH_IMAGE050
归一化得到文本X的生成式摘要与文本X的相似度
Figure 621990DEST_PATH_IMAGE014
摘要实体覆盖率
Figure DEST_PATH_IMAGE052
共现词程度
Figure 859199DEST_PATH_IMAGE018
为方案Rouge-L中的F-测度;
3)基于所述训练集中样本的真实摘要,选择摘要语言流畅度
Figure 478399DEST_PATH_IMAGE012
、生成式摘要与文本的相似度、摘要实体覆盖率
Figure 374461DEST_PATH_IMAGE016
和共现词程度
Figure 635678DEST_PATH_IMAGE018
的权重;
4)对于一待生成摘要的文本a,生成该文本a的多个摘要,并计算每一摘要的摘要语言流畅度
Figure DEST_PATH_IMAGE054
、摘要与文本的相似度
Figure DEST_PATH_IMAGE056
、摘要实体覆盖率
Figure DEST_PATH_IMAGE058
和共现词程度
Figure DEST_PATH_IMAGE060
,然后根据步骤3)确定的权重加权计算该文本a各摘要的摘要分数,确定该文本a各摘要的评估结果。
2.如权利要求1所述的方法,其特征在于,通过贝叶斯优化算法选择摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率 Score_3和共现词程度Score_4的权重。
3.如权利要求1所述的方法,其特征在于,生成摘要系统包括:Seq2Seq+Attention机制的模型,基于强化学习的生成模型和基于生成对抗网络的摘要模型。
4.一种用于生成式摘要的排序网络,其特征在于,包括语言模型、相似度模型、原文信息量模型和评估模块;其中,
语言模型,用于计算文本的生成式摘要的摘要语言流畅度
Figure 740775DEST_PATH_IMAGE012
;其中,使用统计语言模型n格语言模型算法评估摘要的语言流畅度Score_1;
相似度模型,用于计算文本的生成式摘要与文本的相似度
Figure 796456DEST_PATH_IMAGE014
;其中,所述相似度模型计算生成式摘要与文本的相似度Score_2的方法为:设文本
Figure 613102DEST_PATH_IMAGE020
Figure 412431DEST_PATH_IMAGE022
个词组成,表示为
Figure 499597DEST_PATH_IMAGE024
,文本X的生成式摘要由
Figure 54076DEST_PATH_IMAGE026
个词组成,表示为
Figure 358018DEST_PATH_IMAGE028
;其中
Figure 8309DEST_PATH_IMAGE030
表示文本X中第
Figure 917360DEST_PATH_IMAGE032
个词的词向量,
Figure 377160DEST_PATH_IMAGE034
表示文本X的生成式摘要中第
Figure 669863DEST_PATH_IMAGE036
个词的词向量,文本X的向量
Figure 810994DEST_PATH_IMAGE038
和文本X的生成式摘要的向量
Figure 371289DEST_PATH_IMAGE040
分别表示为:
Figure 205253DEST_PATH_IMAGE042
Figure 716743DEST_PATH_IMAGE044
;利用余弦相似度来衡量两个句子的空间距离,即:
Figure 723882DEST_PATH_IMAGE046
,其中t表示词向量的第
Figure 138683DEST_PATH_IMAGE048
维;对
Figure 645013DEST_PATH_IMAGE050
归一化得到文本X的生成式摘要与文本X的相似度
Figure 145264DEST_PATH_IMAGE014
原文信息量模型,用于计算文本的生成式摘要的摘要实体覆盖率
Figure 628198DEST_PATH_IMAGE016
和共现词程度
Figure 729796DEST_PATH_IMAGE018
;其中,摘要实体覆盖率
Figure 905563DEST_PATH_IMAGE052
;共现词程度
Figure 893110DEST_PATH_IMAGE018
为方案Rouge-L中的F-测度;
评估模块,用于对文本的生成式摘要的摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率 Score_3和共现词程度Score_4进行加权计算,得到该文本的生成式摘要的评估结果。
5.如权利要求4所述的排序网络,其特征在于,还包括一权重优化模块,用于基于训练集中样本的真实摘要和基于训练集中各样本的生成式摘要的摘要语言流畅度
Figure 179735DEST_PATH_IMAGE012
、生成式摘要与文本的相似度
Figure 805014DEST_PATH_IMAGE014
、摘要实体覆盖率
Figure 479578DEST_PATH_IMAGE016
和共现词程度
Figure 718536DEST_PATH_IMAGE018
,通过贝叶斯优化算法选择摘要语言流畅度
Figure 74431DEST_PATH_IMAGE012
、生成式摘要与文本的相似度
Figure 583909DEST_PATH_IMAGE014
、摘要实体覆盖率
Figure 602943DEST_PATH_IMAGE016
和共现词程度
Figure 96242DEST_PATH_IMAGE018
的权重;其中,训练集中每一样本对应一三元组(X,,
Figure 990248DEST_PATH_IMAGE008
),
Figure 112488DEST_PATH_IMAGE004
Figure 800959DEST_PATH_IMAGE010
为文本
Figure 515974DEST_PATH_IMAGE002
通过第m个生成式摘要系统生成的生成式摘要,
Figure DEST_PATH_IMAGE062
为文本X的真实摘要
Figure 43032DEST_PATH_IMAGE006
6.如权利要求4所述的排序网络,其特征在于,通过Seq2Seq+Attention机制的模型、基于强化学习的生成模型或基于生成对抗网络的摘要模型生成文本的生成式摘要。
CN201910764862.4A 2019-08-19 2019-08-19 一种用于生成式摘要的评估方法及排序网络 Active CN110688479B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910764862.4A CN110688479B (zh) 2019-08-19 2019-08-19 一种用于生成式摘要的评估方法及排序网络

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910764862.4A CN110688479B (zh) 2019-08-19 2019-08-19 一种用于生成式摘要的评估方法及排序网络

Publications (2)

Publication Number Publication Date
CN110688479A CN110688479A (zh) 2020-01-14
CN110688479B true CN110688479B (zh) 2022-06-17

Family

ID=69108381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910764862.4A Active CN110688479B (zh) 2019-08-19 2019-08-19 一种用于生成式摘要的评估方法及排序网络

Country Status (1)

Country Link
CN (1) CN110688479B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400487A (zh) * 2020-03-14 2020-07-10 北京工业大学 一种文本摘要的质量评价方法
CN112528598B (zh) * 2020-12-07 2022-04-05 上海交通大学 基于预训练语言模型和信息论的自动化文本摘要评测方法
CN113032569A (zh) * 2021-04-09 2021-06-25 中南大学 一种基于语义相似度的中文自动文本摘要评价方法
CN113139050B (zh) * 2021-05-10 2022-07-19 桂林电子科技大学 基于命名实体识别附加标签和先验知识的文本摘要生成方法
CN113761842A (zh) * 2021-09-07 2021-12-07 联想(北京)有限公司 数据处理方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN109271629A (zh) * 2018-09-07 2019-01-25 中山大学 基于强化学习的生成式文本摘要方法
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016171709A1 (en) * 2015-04-24 2016-10-27 Hewlett-Packard Development Company, L.P. Text restructuring

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN109271629A (zh) * 2018-09-07 2019-01-25 中山大学 基于强化学习的生成式文本摘要方法
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
《Adversarial Reinforcement Learning for Chinese Text Summarization》;Xu H,Cao Y,Jia R,et a1.;《International Conference on Computational Science》;20181231;全文 *
Image caption generation with text-conditional semantic attention;ZHOU L,XU C,KOCH P,et a1;《arXiv preprint arXiv:1606.04621》;20160912;全文 *
Sequence Generative Adversarial Network for Long Text Summarization;Xu H,Cao Y,Jia R,et a1;《2018 IEEE 30th International Conference on Tools with Artificial Intelligence》;20181231;全文 *
基于深度学习的文本自动生成技术研究综述;袁江林;《信息工程大学学报》;20180531;全文 *
基于深度学习的生成式自动摘要技术研究;郭洪杰;《中国优秀硕士学位论文全文数据库》;20190115;全文 *

Also Published As

Publication number Publication date
CN110688479A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
CN110688479B (zh) 一种用于生成式摘要的评估方法及排序网络
Styawati et al. A support vector machine-firefly algorithm for movie opinion data classification
CN109189925B (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
Xu et al. Investigation on the Chinese text sentiment analysis based on convolutional neural networks in deep learning.
Blanc et al. Adaptive sampled softmax with kernel based sampling
Luo et al. Online learning of interpretable word embeddings
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
CN107180084B (zh) 词库更新方法及装置
CN108228541B (zh) 生成文档摘要的方法和装置
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN113268995A (zh) 中文学术关键词抽取方法、装置和存储介质
JP6738769B2 (ja) 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム
Lauly et al. Document neural autoregressive distribution estimation
CN109597995A (zh) 一种基于bm25加权结合词向量的文本表示方法
CN113627151B (zh) 跨模态数据的匹配方法、装置、设备及介质
Law et al. Ltsg: Latent topical skip-gram for mutually learning topic model and vector representations
Melamud et al. A simple language model based on pmi matrix approximations
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN115168580A (zh) 一种基于关键词提取与注意力机制的文本分类方法
CN111581365B (zh) 一种谓词抽取方法
Jiang et al. ROSE: Robust selective fine-tuning for pre-trained language models
CN116304063B (zh) 一种简单的情感知识增强提示调优的方面级情感分类方法
CN113158667A (zh) 基于实体关系级别注意力机制的事件检测方法
CN110348497B (zh) 一种基于WT-GloVe词向量构建的文本表示方法
CN110580286A (zh) 一种基于类间信息熵的文本特征选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant