CN110688479A - 一种用于生成式摘要的评估方法及排序网络 - Google Patents
一种用于生成式摘要的评估方法及排序网络 Download PDFInfo
- Publication number
- CN110688479A CN110688479A CN201910764862.4A CN201910764862A CN110688479A CN 110688479 A CN110688479 A CN 110688479A CN 201910764862 A CN201910764862 A CN 201910764862A CN 110688479 A CN110688479 A CN 110688479A
- Authority
- CN
- China
- Prior art keywords
- abstract
- text
- score
- generative
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种用于生成式摘要的评估方法及排序网络。本发明从三个方面来评估摘要质量:第一,运用语言模型来评估语言的流畅度;第二,使用相似度模型评估文本和摘要之间的语义相关性;第三,为了有效评估实体、专有词的复现程度,引入原文信息量模型来评估。本发明从摘要的语言流畅性、摘要与原文的相关性以及摘要所包含的信息量等多个方面来综合评估摘要的质量,大大提高了评估的准确性。
Description
技术领域
本发明属于人工智能技术领域,涉及一种用于生成式摘要的评估方法及排序网络。
背景技术
随着深度学习技术的快速发展,自动文摘成为了可能。目前,评估生成摘要的评测指标是Rouge分数。根据评测粒度(词格)的不同,Rouge分数可以分为Rouge-N、Rouge-L、Rouge-W、Rouge-S等。
第三,Rouge-W是在Rouge-L的基础上改变不同的对应权重计算而得到的计算方法。
第四,Rouge-S,S表示skip-grams,即在匹配真实摘要和生成摘要时,允许跳过N个单词,如skip-bigram,即最多允许跳过两个单词。
现有的自动摘要评估指标Rouge分数的本质是匹配原文与摘要的共现程度,生成式摘要模型也采用这种评估指标。但是,Rouge分数忽略了生成式摘要的语言多样性以及文本与摘要的语义相关性,使得基于Rouge分数的评估方法不合理。
发明内容
本发明提出了一种新型的评估生成式摘要质量的评估方法及排序网络,用于评估生成式摘要,其从摘要的语言流畅性、摘要与原文的相关性以及摘要所包含的信息量等多个方面来综合评估摘要的质量,大大提高了评估的准确性。具体来说,本发明从三个方面来评估摘要质量:第一,运用语言模型来评估语言的流畅度。第二,使用相似度模型评估文本和摘要之间的语义相关性。第三,为了有效评估实体、专有词的复现程度,引入原文信息量模型来评估。
本申请提案能从多个层面有效地评估生成式摘要的质量,并且本发明可对不同的数据集进行自适应的调整参数。
本发明提供了一种用于生成式摘要的排序网络,其特征在于,包括语言模型、相似度模型、原文信息量模型和评估模块;其中,
语言模型,用于计算文本的生成式摘要的摘要语言流畅度Score_1;
相似度模型,用于计算文本的生成式摘要与文本的相似度Score_2;
原文信息量模型,用于计算文本的生成式摘要的摘要实体覆盖率Score_3和共现词程度Score_4;
评估模块,用于对文本的生成式摘要的摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4进行加权计算,得到该文本的生成式摘要的评估结果。
排序网络还包括一权重优化模块,用于基于训练集中样本的真实摘要和基于训练集中各样本的生成式摘要的摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4,通过贝叶斯优化算法选择摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4的权重;其中,训练集中每一样本对应一三元组(X,Y′,Y_all),Y_all={Y_1,Y_2,…,Y_m},Y_m为文本X通过第m个生成式摘要系统生成的生成式摘要,Y′为文本X的真实摘要Y′。
本发明用于生成式摘要的排序网络的评估方法为:
步骤1,将每一所选文本X通过多个生成式摘要系统,得到多个摘要,组成摘要候选项Y_all={Y_1,Y_2,…,Y_m},并将文本X,真实摘要Y′和摘要候选项Y_all一一配对,组成训练集。
步骤2,将步骤1中的训练集分别通过已经训练好的语言模型、相似度模型和原文信息量模型得到每一生成式摘要的Score_1,Score_2,Score_3和Score_4。
步骤3,基于所述训练集中样本的真实摘要,通过贝叶斯优化选择该训练集下Score_1,Score_2,Score_3和Score_4的权重比值。可以使用经验值或启发式方法来设计权重比,也可以使用参数网格搜索,随机搜索等算法来实现,贝叶斯优化是为了自动化找到该训练集下最适应的参数,其优化目标,即是最大化验证集上的分数和。
步骤4,使用步骤2的分数和步骤3的权重,加权得到每个文本对应的摘要候选项中每个摘要的分数,最终摘要按分数从高到低输出。
步骤5,对于一待生成摘要的文本a,生成该文本a的多个摘要,并计算每一摘要的Score_1、Score_2、Score_3和Score_4,然后根据步骤3确定的权重加权计算该文本a各摘要的摘要分数,确定该文本a各摘要的评估结果。
所述步骤1中,得到摘要候选项过程如下:
步骤1.1,将文本X经过预处理,与已训练的生成式摘要系统的处理尽可能一致,比如去除特殊字符,数字清理等。
步骤1.2,将步骤1.1处理好的文本送入到m个生成摘要系统中,得到m个摘要Y_all={Y_1,Y_2,…,Y_m},并将其一一配对(X,Y′,Y_all)后,随机切分为训练集、验证集和测试集。
所述步骤2中,如图1所示,包含三个模块,这三个模型可以并行执行。
语言模型
语言模型是对语句的概率分布的建模,衡量了语言序列片段符合真实句子的概率。本模块使用统计语言模型n格语言模型算法来评估摘要的语言流畅性(参考Croft,W.Bruce,and John Lafferty,eds.Language modeling for informationretrieval.Vol.13.Springer Science&Business Media,2013)。给定句子集合S∈Y_i(可以来自一篇或者多篇文档,对于本发明而言S为一个摘要中的句子集合),句子集合S有m个单词,表示为w_1,w_2,···,w_m。由链式法则,可以得到句子概率P(w_1,w_2,…,w_m)=P(w_1)P(w_2│w_1)…P(w_m|w_1…w_(m-1)),根据马尔科夫链假设,当前词i出现的概率只依赖于单词i的前n-1个词,即P(w_i│w_1…w_(i-1))=P(w_i|w_(i-n+1)…w_(i-1)),基于上式,可以得到2格语言语言模型,表示为P(w_1,w_2,···,w_m)=Π_(i-1)^m P(w_i|w_(i-1))。为了采样真实语言分布,本模型所使用的参数是由中文维基百科数据集在语言模型上训练得到的。训练语言模型的工具是Kenlm(参考Heafield,Kenneth."KenLM:Fasterand smaller language model queries."Proceedings of the sixth workshop onstatistical machine translation.Association for Computational Linguistics,2011),训练设置采用默认设置和5格语言语言模型。
在应用阶段,设摘要由m个词组成,表示为y_1,y_2,···,y_m,将其输入到训练好的语言模型中,归一化后得到摘要的语言流畅度Score_1。从这里可以看出,Score_1分数越高,语言流畅度越高。
相似度模型
相似度模型用于评估生成摘要与原文在语义上的相关性。基于语言模型的词表示方法可用于探索自然语言内在的依赖关系并对这种依赖关系进行建模。在训练阶段,使用的词向量特征由上文提到的中文维基百科数据集训练得到,训练词向量所采用的工具是谷歌开源的Word2Vec模型,词向量特征维度设置为k维。
在应用阶段,设文本X由n个词组成,表示为x1,x2,···,xn,摘要由m个词组成,表示为y1,y2,···,ym,其中xi,yj分别表示文本中第i个词的词向量和摘要中第j个词的词向量。使用句子词向量和的平均值来表示句子的向量,那么文本和摘要的向量Xw,Yw分别表示为:和使用常见的余弦相似度来衡量两个句子的空间距离,即:其中t表示词向量的第t维,归一化得到摘要与文本(原文)的相似度Score_2,可以看出Score_2与相关性成正比。
原文信息量模型
为衡量摘要所包含原文信息程度,分别从摘要所包含文本出现的实体数以及原文和摘要的共现词程度两方面进行考察。为标注摘要所包含原文实体数,使用斯坦福命名实体识别器,其是一个基于条件随机场分类器的实体识别器,分别预设识别人名、地名、机构名、专有名词等。本小节使用SNER来分别标注摘要和原文实体数,有摘要实体覆盖率Score_3=摘要中实体数/文本实体数。而对于摘要的共现词程度,使用原有指标Rougg-L的F-测度,令其为Score_4。
定义最终的分数为S_f=λ1*Score_1+λ2*Score_2+λ3*Score_3+λ4*Score_4,其中λ1,λ2,λ3和λ4是权重参数,用来控制评估摘要质量的侧重角度。
所述步骤3中,权重训练过程如下:
步骤3.1,使用步骤1.2得到的训练集,以最大化S_f为目标,调整各参数的权重,即有Λ*=argmaxλ∈SSf(λ)。其中S是λ的候选参数集。其目标是寻找合适的参数集λ,使得Sf(λ)的值最大化。本步骤中采用贝叶斯优化算法,利用贝叶斯先验知识,通常能够更快地搜索到最佳参数。贝叶斯优化算法的基本思想是先对Sf(λ)假设一个先验分布,然后利用后续获取到的信息,来不断优化假设分布,从而获得最佳模型。具体使用dragonfly工具来优化参数。
步骤3.2,通过采集函数α更新λ:λn+1=argmaxxα(λ,Dn)。
步骤3.3,验证目标函数Sf(n+1)。
步骤3.4,更新采样数据Dn+1={Dn,(λn+1,Sf(n+1))}。
步骤3.5,更新优化模型。
步骤3.6,重复步骤3.2至步骤3.6,直至参数达到最优值,得到对应的参数值。
与现有技术相比,本发明的积极效果为:
1、提出了一种用于生成式摘要的排序网络,分别从摘要的语言流畅性、摘要与原文的相关性以及摘要所包含的信息量等多个方面来综合评估摘要的质量,大大提高了评估的准确性;
2、提出了一个参数训练框架,可以动态地增加多个评估模型,以及针对不同的数据集,调整不同模型的权重比例。
本发明是用于评估生成式摘要,在原有的Rouge分数上,引入了摘要的语言流畅性、摘要与原文的相关性以及摘要所包含的信息量等多个方面的评估信息,并提供了不同状况下,动态调整各模型的权重比。甚至,可以动态增加或删减摘要评估模型。
附图说明
图1为一种用于生成式摘要的排序网络模型图;
图2为用于生成式摘要的排序网络流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下参照附图,对本发明作进一步详细说明。
采用两种数据集分别是中文数据集和英文数据集,中文数据集是比较广泛采用的大规模短文本摘要数据集(LCSTS),包含240万来自新浪微博的文本摘要对。英文数据集是多模态句子摘要数据集MMSS,其是个一个包含文本、图像和摘要(X,Y,I)三元组的数据集,其中文本和摘要来自广泛评测摘要系统的Gigawords数据集,图像通过搜索引擎检索获得。最后,经过人工筛选获得(X,Y,I)三元组数据集,其中包括训练集为66000个样本,验证集和测试集分别为2000个样本。
其中生成摘要系统有Seq2Seq+Attention机制的模型,基于强化学习的生成模型和基于生成对抗网络的摘要模型,具体流程如图2所示:
步骤1,将文本X通过多个生成式摘要系统,得到多个摘要,组成摘要候选项Yall={Y1,Y2,…,Ym},并将文本X,真实摘要Y′和摘要候选项Yall一一配对,组成训练集,针对于MMSS数据集,X包含文本和图像共同的特征。
步骤2,将步骤1中的训练集分别通过已经训练好的语言模型、相似度模型和原文信息量模型得到每一生成式摘要的Score1,Score2,Score3和Score4。
步骤3,基于所述训练集中样本的真实摘要,通过贝叶斯优化选择该训练集下Score1,Score2,Score3和Score4的权重比值,两个数据集上得到参数均为:λ1=0.2,λ2=0.3,
λ3=0.2和λ4=0.6。
步骤4,使用步骤2的分数和步骤3的权重,加权得到每个文本对应的摘要候选项中每个生成式摘要的分数,最终摘要按分数从高到低输出。
步骤5,对于一待生成摘要的文本a,生成该文本a的多个摘要,并计算每一摘要的Score_1、Score_2、Score_3和Score_4,然后根据步骤3确定的权重加权计算该文本a各摘要的摘要分数,确定该文本a各摘要的评估结果。
为了比较本发明的用于生成式摘要的效果,现分别采用Seq2Seq+Attention机制的模型(ABS),基于强化学习的生成模型(RL)和基于生成对抗网络的摘要模型(GAN)。LCSTS结果样例如表1所示和对应分数如表2所示,MMSS结果样例如表3所示和对应分数如表4所示:
表1在LCSTS数据上多个生成模型生成的样例
R: | XX警方确认李xx吸毒被捕(图) |
SEQ2SQ: | XX警方李xx吸毒被捕系歌手_UNK_UNK_UNK_UNK_UNK |
RL: | 网传李xx吸毒被抓,李xx是歌手 |
GAN: | XX警方确认李xx吸毒被捕,警方抓获TAGNUM人 |
表2在LCSTS数据集上各模块的分数
模型 | Score<sub>1</sub> | Score<sub>2</sub> | Score<sub>3</sub> | Score<sub>4</sub> | S<sub>f</sub> |
ABS | 0.55 | 0.58 | 0.71 | 0.92 | 1.049 |
RL | 0.92 | 0.61 | 0.76 | 0.87 | 1.117 |
GAN | 0.72 | 0.57 | 0.82 | 0.92 | 1.113 |
表3在MMSS数据上多个生成模型生成的样例
R: | UNK credit union losses at$#$.$#$bln dlrs:central bank |
SEQ2SQ: | japan credit losses billion |
RL: | japan credit losses$###$billion yen |
GAN: | japan's bank losses$###$billion yen |
表4在MMSS数据集上各模块的分数
模型 | Score<sub>1</sub> | Score<sub>2</sub> | Score<sub>3</sub> | Score<sub>4</sub> | S<sub>f</sub> |
ABS | 0.43 | 0.63 | 0.54 | 0.49 | 0.731 |
RL | 0.76 | 0.62 | 0.72 | 0.79 | 1.028 |
GAN | 0.78 | 0.63 | 0.84 | 0.76 | 1.053 |
实验结果表明在LCSTS数据集上,该样例采用基于强化学习的模型生成的摘要质量最优,因其对应的语言流畅度分数相对更高。然而,如果根据原来的方案Rouge-L的F-测度,即Score4在ABS和GAN都很高,但是显然,RL的语言流畅度分数要好一些。在MMSS数据集上,该样例采用基于强化学习的模型生成的摘要质量最优,因其对应的实体分数相对更高。
尽管为说明目的公开了本发明的具体内容、实施算法以及附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (10)
1.一种用于生成式摘要的评估方法,其步骤包括:
1)将每一所选文本X通过m个生成式摘要系统,将生成的m个生成式摘要组成摘要候选项Y_all={Y_1,Y_2,…,Y_m};将文本X及其真实摘要Y′和摘要候选项Y_all一一配对,生成一三元组(X,Y′,Y_all)作为训练集的一样本;其中,Y_m为文本X通过第m个生成式摘要系统生成的生成式摘要;
2)将所述训练集通过训练好的语言模型得到每一样本的生成式摘要的摘要语言流畅度Score_1,将所述训练集通过训练好的相似度模型得到每一样本的生成式摘要与文本的相似度Score_2,将所述训练集通过训练好的原文信息量模型得到每一样本的生成式摘要的摘要实体覆盖率Score_3和共现词程度Score_4;
3)基于所述训练集中样本的真实摘要,选择摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4的权重;
4)对于一待生成摘要的文本a,生成该文本a的多个摘要,并计算每一摘要的摘要语言流畅度Score_1、摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4,然后根据步骤3)确定的权重加权计算该文本a各摘要的摘要分数,确定该文本a各摘要的评估结果。
2.如权利要求1所述的方法,其特征在于,通过贝叶斯优化算法选择摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4的权重。
3.如权利要求1所述的方法,其特征在于,生成摘要系统包括:Seq2Seq+Attention机制的模型,基于强化学习的生成模型和基于生成对抗网络的摘要模型。
4.如权利要求1所述的方法,其特征在于,使用统计语言模型n格语言模型算法评估摘要的语言流畅度Score_1。
6.一种用于生成式摘要的排序网络,其特征在于,包括语言模型、相似度模型、原文信息量模型和评估模块;其中,
语言模型,用于计算文本的生成式摘要的摘要语言流畅度Score_1;
相似度模型,用于计算文本的生成式摘要与文本的相似度Score_2;
原文信息量模型,用于计算文本的生成式摘要的摘要实体覆盖率Score_3和共现词程度Score_4;
评估模块,用于对文本的生成式摘要的摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4进行加权计算,得到该文本的生成式摘要的评估结果。
7.如权利要求6所述的排序网络,其特征在于,还包括一权重优化模块,用于基于训练集中样本的真实摘要和基于训练集中各样本的生成式摘要的摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4,通过贝叶斯优化算法选择摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4的权重;其中,训练集中每一样本对应一三元组(X,Y′,Y_all),Y_all={Y_1,Y_2,…,Y_m},Y_m为文本X通过第m个生成式摘要系统生成的生成式摘要,Y′为文本X的真实摘要Y′。
9.如权利要求6所述的排序网络,其特征在于,使用统计语言模型n格语言模型算法评估摘要的语言流畅度Score_1。
10.如权利要求6所述的排序网络,其特征在于,通过Seq2Seq+Attention机制的模型、基于强化学习的生成模型或基于生成对抗网络的摘要模型生成文本的生成式摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910764862.4A CN110688479B (zh) | 2019-08-19 | 2019-08-19 | 一种用于生成式摘要的评估方法及排序网络 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910764862.4A CN110688479B (zh) | 2019-08-19 | 2019-08-19 | 一种用于生成式摘要的评估方法及排序网络 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110688479A true CN110688479A (zh) | 2020-01-14 |
CN110688479B CN110688479B (zh) | 2022-06-17 |
Family
ID=69108381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910764862.4A Active CN110688479B (zh) | 2019-08-19 | 2019-08-19 | 一种用于生成式摘要的评估方法及排序网络 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110688479B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400487A (zh) * | 2020-03-14 | 2020-07-10 | 北京工业大学 | 一种文本摘要的质量评价方法 |
CN112528598A (zh) * | 2020-12-07 | 2021-03-19 | 上海交通大学 | 基于预训练语言模型和信息论的自动化文本摘要评测方法 |
CN113032569A (zh) * | 2021-04-09 | 2021-06-25 | 中南大学 | 一种基于语义相似度的中文自动文本摘要评价方法 |
CN113139050A (zh) * | 2021-05-10 | 2021-07-20 | 桂林电子科技大学 | 基于命名实体识别附加标签和先验知识的文本摘要生成方法 |
CN113761842A (zh) * | 2021-09-07 | 2021-12-07 | 联想(北京)有限公司 | 数据处理方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170249289A1 (en) * | 2015-04-24 | 2017-08-31 | Hewlett-Packard Development Company, L.P. | Text restructuring |
CN108804495A (zh) * | 2018-04-02 | 2018-11-13 | 华南理工大学 | 一种基于增强语义的自动文本摘要方法 |
CN109271629A (zh) * | 2018-09-07 | 2019-01-25 | 中山大学 | 基于强化学习的生成式文本摘要方法 |
CN109635284A (zh) * | 2018-11-26 | 2019-04-16 | 北京邮电大学 | 基于深度学习结合累积注意力机制的文本摘要方法及系统 |
-
2019
- 2019-08-19 CN CN201910764862.4A patent/CN110688479B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170249289A1 (en) * | 2015-04-24 | 2017-08-31 | Hewlett-Packard Development Company, L.P. | Text restructuring |
CN108804495A (zh) * | 2018-04-02 | 2018-11-13 | 华南理工大学 | 一种基于增强语义的自动文本摘要方法 |
CN109271629A (zh) * | 2018-09-07 | 2019-01-25 | 中山大学 | 基于强化学习的生成式文本摘要方法 |
CN109635284A (zh) * | 2018-11-26 | 2019-04-16 | 北京邮电大学 | 基于深度学习结合累积注意力机制的文本摘要方法及系统 |
Non-Patent Citations (5)
Title |
---|
XU H,CAO Y,JIA R,ET A1.: "《Adversarial Reinforcement Learning for Chinese Text Summarization》", 《INTERNATIONAL CONFERENCE ON COMPUTATIONAL SCIENCE》 * |
XU H,CAO Y,JIA R,ET A1: "Sequence Generative Adversarial Network for Long Text Summarization", 《2018 IEEE 30TH INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE》 * |
ZHOU L,XU C,KOCH P,ET A1: "Image caption generation with text-conditional semantic attention", 《ARXIV PREPRINT ARXIV:1606.04621》 * |
袁江林: "基于深度学习的文本自动生成技术研究综述", 《信息工程大学学报》 * |
郭洪杰: "基于深度学习的生成式自动摘要技术研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400487A (zh) * | 2020-03-14 | 2020-07-10 | 北京工业大学 | 一种文本摘要的质量评价方法 |
CN112528598A (zh) * | 2020-12-07 | 2021-03-19 | 上海交通大学 | 基于预训练语言模型和信息论的自动化文本摘要评测方法 |
CN112528598B (zh) * | 2020-12-07 | 2022-04-05 | 上海交通大学 | 基于预训练语言模型和信息论的自动化文本摘要评测方法 |
CN113032569A (zh) * | 2021-04-09 | 2021-06-25 | 中南大学 | 一种基于语义相似度的中文自动文本摘要评价方法 |
CN113139050A (zh) * | 2021-05-10 | 2021-07-20 | 桂林电子科技大学 | 基于命名实体识别附加标签和先验知识的文本摘要生成方法 |
CN113761842A (zh) * | 2021-09-07 | 2021-12-07 | 联想(北京)有限公司 | 数据处理方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110688479B (zh) | 2022-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Styawati et al. | A support vector machine-firefly algorithm for movie opinion data classification | |
CN110688479B (zh) | 一种用于生成式摘要的评估方法及排序网络 | |
Xu et al. | Investigation on the Chinese text sentiment analysis based on convolutional neural networks in deep learning. | |
CN113268995B (zh) | 中文学术关键词抽取方法、装置和存储介质 | |
CN107180084B (zh) | 词库更新方法及装置 | |
CN108228541B (zh) | 生成文档摘要的方法和装置 | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
CN107145560B (zh) | 一种文本分类方法及装置 | |
Hashimoto et al. | Jointly learning word representations and composition functions using predicate-argument structures | |
JP6738769B2 (ja) | 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム | |
US8560466B2 (en) | Method and arrangement for automatic charset detection | |
CN109597995A (zh) | 一种基于bm25加权结合词向量的文本表示方法 | |
CN113627151B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
Zhang et al. | Multifeature named entity recognition in information security based on adversarial learning | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
Das et al. | Group incremental adaptive clustering based on neural network and rough set theory for crime report categorization | |
CN113032556A (zh) | 一种基于自然语言处理形成用户画像的方法 | |
CN110968693A (zh) | 基于集成学习的多标签文本分类计算方法 | |
CN111581365B (zh) | 一种谓词抽取方法 | |
Jiang et al. | ROSE: Robust selective fine-tuning for pre-trained language models | |
CN116304063B (zh) | 一种简单的情感知识增强提示调优的方面级情感分类方法 | |
CN113158667A (zh) | 基于实体关系级别注意力机制的事件检测方法 | |
CN110348497B (zh) | 一种基于WT-GloVe词向量构建的文本表示方法 | |
CN110580286A (zh) | 一种基于类间信息熵的文本特征选择方法 | |
CN108491375B (zh) | 基于CN-DBpedia的实体识别与链接系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |