CN112100365A - 双阶段文本摘要方法 - Google Patents

双阶段文本摘要方法 Download PDF

Info

Publication number
CN112100365A
CN112100365A CN202010896987.5A CN202010896987A CN112100365A CN 112100365 A CN112100365 A CN 112100365A CN 202010896987 A CN202010896987 A CN 202010896987A CN 112100365 A CN112100365 A CN 112100365A
Authority
CN
China
Prior art keywords
text
clause
src
score
original text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010896987.5A
Other languages
English (en)
Inventor
桂盛霖
刘一飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010896987.5A priority Critical patent/CN112100365A/zh
Publication of CN112100365A publication Critical patent/CN112100365A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种双阶段文本摘要方法,涉及自然语言处理领域。该方法首先从原文本中将与文本主题最为相关的子句抽取出,且尽可能的保证这些子句中包含更多文本关键词,然后将抽取出的内容作为生成式文本摘要模型的输入,进行第二阶段的学习和训练。本发明通过抽取重要的子句,去除了文本的无关或冗余内容,使得进入第二个阶段的语句输入尽量少,保证第二阶段输出摘要的质量尽量高。

Description

双阶段文本摘要方法
技术领域
本发明涉及自然语言处理领域,具体涉及一种双阶段文本摘要方法。
背景技术
随着我国社会经济以及互联网技术的高速发展,人们逐渐使用电子设备并通过网络通道进行日常的交流、工作和信息获取等。2019年8月30日,中国互联网络信息中心(CNNIC)在北京发布第44次《中国互联网络发展状况统计报告》。《报告》指出,到2019年6月,我国网民的数量比2018年年底增加了2598万,网民总数量达到了8.54亿,其中手机网民的数量达到了8.47亿,且网民通过手机上网的比例高达99.18%。
如此庞大的互联网使用率导致了数据过载的问题,据统计,互联网数据量已跃至ZB级别,其中,文本信息成为人们使用互联网获取信息的主要来源,导致了文本信息的爆炸式增长,成为互联网数据的“主力军”。而随之出现的一系列营销号题文不对称的现象也让人们深恶痛绝,例如各大社交软件和新闻头条的“标题党”。至此,如何解决低效阅读和数据过载问题,快速获取文本中的关键信息成为当代互联网的首要问题,由此,文本摘要技术应运而生。
目前国内外常用的自动文本摘要技术根据摘要产生的不同方法可以分为三种:抽取式、压缩式和生成式。抽取式方法实现简单,只是从文档中抽取已有的句子形成摘要,可以保留文档中完整的句子,生成的摘要可读性良好,可看作一个组合优化问题。早年抽取式方法应用较为广泛,发展至今,抽取式摘要已经是一种比较成熟的方案,其中Textrank排序算法以其简洁、高效的特点被工业界广泛运用。压缩式方法是同时对原文的句子进行抽取与压缩或抽取与融合,可以有效提高ROUGE值,但会牺牲句子的可读性。而生成式摘要通常需要自然语言理解技术来执行文本的语法和语义分析,融合信息,并使用自然语言生成技术生成新的摘要句子。随着2005年神经网络的二次兴起,深度学习在人工智能领域崛起,基于深度学习的生成式文本摘要方法在摘要生成质量和流畅度上都有了质的飞跃,也成为了摘要生成的主流研究方向,
目前生成式文本摘要方法的做法是将数据集中的原文直接输入模型,让模型学习理解,但事实上原文中通常会包括一些无用信息和冗余信息,如果将这些冗余信息连同关键信息一起输入到生成式文本摘要模型中进行训练,一方面,这些信息会对文本主题的表达造成混乱,使得模型编码器编码得到的语义向量对文本主题的表征有偏差;另一方面,这些信息增加了模型的输入长度,且Seq2Seq模型中的编码器常使用RNN及其变体来实现,它们较适用于短序列,过长的序列一方面会导致文本信息在编码的过程中逐步丢失,另一方面会导致梯度在反向传播的过程中逐渐消失,则模型的效果会受到影响。
发明内容
针对上述问题,本发明提出一种双阶段式文本摘要方法,首先从原文本中将与文本主题最为相关的子句抽取出,且尽可能的保证这些子句中包含更多文本关键词,然后将抽取出的内容作为生成式文本摘要模型的输入,进行第二阶段的学习和训练。
本发明中所使用的文本摘要数据集记为D,D中的每个文本摘要数据对记为(src,tgt),src表示每个文本摘要数据对中的原文,tgt表示每个文本摘要数据对中的标准摘要。
本发明由两个阶段、4个步骤组成,其中第一阶段包括步骤S1)至步骤S3),第二阶段包括步骤S4),第一阶段中抽取子句的主要过程如图1所示。4个步骤的主要内容分别是:
S1)获得关键词概率预测模型:对文本摘要数据集D中的每个文本摘要数据对(src,tgt)进行分析和处理,获得数据集T_W,根据序列标注的思想构建关键词概率预测模型,然后将数据集T_W划分为训练集、验证集和测试集,对关键词概率预测模型进行训练、验证和测试。
S2)获得语义得分预测模型:对文本摘要数据集D中的每个文本摘要数据对(src,tgt)进行分析和处理,获得数据集T_S,根据序列标注的思想构建语义得分预测模型,然后将数据集T_S划分为训练集、验证集和测试集,对语义得分预测模型进行训练、验证和测试。
S3)获得训练集D’:对文本摘要数据集D中的每个文本摘要数据对(src,tgt),根据标点符号“。、?、!”对src进行划分子句,使用步骤S1)中训练完成的关键词概率预测模型和步骤S2)中训练完成的语义得分预测模型分别获得原文src的子句关键词得分序列score_key和语义得分序列score_sim,然后权衡这两个得分,得到src的子句得分序列score,接下来根据此得分对src的子句进行抽取,获得抽取后的原文src’,组成新的文本摘要数据对(src’,tgt),从而获得文本摘要数据集D’。
S4)训练生成式文本摘要模型:构建生成式文本摘要模型,将文本摘要数据集D’划分为训练集、验证集和测试集,对文本摘要模型进行训练、验证和测试。
本发明通过抽取重要的子句,去除了文本的无关或冗余内容,使得进入第二个阶段的语句输入尽量少,保证第二阶段输出摘要的质量尽量高。
附图说明
图1为第一阶段抽取文本子句的主要过程
图2为关键词概率预测模型的结构图
图3为BERT获得子句语义向量的示意图
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明具体实施由两个阶段、4个步骤组成,其中第一阶段包括步骤1至步骤3,第二阶段包括步骤4。4个步骤分别是:
步骤1:获得关键词概率预测模型;
步骤2:获得语义得分预测模型;
步骤3:获得训练集D’;
步骤4:训练生成式文本摘要模型
其中步骤1获得关键词概率预测模型的具体方法为:
步骤1.1:制作数据集T_W,它主要包括以下3个步骤:
步骤1.1.1:对于对文本摘要数据集D中的每个文本摘要数据对(src,tgt),src表示每个文本摘要数据对中的原文,tgt表示每个文本摘要数据对中的标准摘要,使用改进的Textrank算法获得原文src的关键词集合Key,其具体做法为:
a)对原文和标准摘要进行分词、去停用词,形成原文保留词集合和标准摘要保留词集合。使用原文保留词集合中的词语构成候选关键词集合C_k={c_k1,c_k2,…,c_kTx’},其中Tx’是保留的候选关键词的数量,使用原文保留词集合和标准摘要保留词集合交集中的词语构成此篇文档的线索词集合。
b)构建图模型G=(V,E),其中V是图中的节点集合,E是图中的边集合。V中每个节点对应候选关键词集合C_k中的每个候选词,节点的权重代表此词语的重要性。E中每条边的权值即集合C_k中某两个候选词间的关联度。本文用词语间的共现关系来度量词语间的关联度。c)将线索词集合中词语所对应节点的初始权重设置为2,其余节点的初始权重设置为1,根据下式对图中各个节点的权重迭代计算,直至图中各个节点的权重达到收敛。
Figure BDA0002658701510000031
其中WS(vi)表示第i个节点的权重,d是阻尼因子,经验值为0.85。wji表示词语c_kj和词语c_ki之间的关联度,Adj(vi)是图中第i个节点的相邻节点所构成的集合。
d)从各节点最终计算得到的权重中选取出前15个权重最高的词语构成提取出的关键词集合Key={key1,key2,…,key15}。
步骤1.1.2:对原文src进行分词,得到序列x={x1,x2,…,xTx},xt表示原文中的第t个词语,Tx表示原文的词语数。然后使用上述的TextRank算法得到原文的关键词集合Key,然后将原文中属于集合Key中的词语标记为“1”,其余标记为“0”,从而得到原文的一个标签序列x_t={x_t1,x_t2,…,x_tTx}。其中x_tt∈{0,1},表示原文中第t个词语的标签,若xt∈Key,则x_tt=1,否则x_tt=0。
步骤1.1.3:对文本摘要数据集D中的每个文本摘要数据对进行1.1.2的处理,则得到数据集T_W,T_W数据集中每个数据对为(x,x_t)。
步骤1.2:根据序列标注的思想构建关键词概率预测模型,其结构图如图2所示。将数据集T_W划分为训练集、验证集、测试集,对关键词概率预测模型进行训练、验证和测试;
其中步骤2获得子句语义得分预测模型的具体做法为:
步骤2.1:制作数据集T_S,它主要包括以下3个步骤:
步骤2.1.1:根据文本摘要数据对(src,tgt),获得原文src的子句语义向量序列s_v和文本主题向量v。
原文中各子句的语义向量的获得方法是,先对原文src按字符进行切分,获得序列c={c1,c2,…,cTc},c中的每个元素代表原文中的每个字符,Tc代表原文中的字符数量。然后按如下步骤获得文本各子句的语义向量:
a)根据标点符号“。、?、!”将原文本src切分成子句序列s={sub1,sub2,…,subTs},其中Ts是子句数,subk表示src中的第k条子句,再对每个子句按字符进行切分,获得sub_ck={ck 1,ck 2,…,ck Tck},ck m表示第k条子句中的第m个字符,Tck是第k条子句的字符数量;
b)在每两条子句间添加符号‘SEP’,在每条子句开头添加符号‘CLS’,重新将子句整合为一条文本,即c’={’CLS’,c1 1,c1 2,…,ck Tck,‘SEP’,’CLS’,ck+1 1,…};
c)将c’输入到BERT网络中,通过输出‘CLS’所对应位置的向量获得src的子句语义向量序列s_v=[s_v1,s_v2,…,s_vTs],s_vk表示src中第k条子句的语义向量。
图3是一个含有2个子句、4个字符的文本序列使用BERT获得子句语义向量的示意图。其中s_v1是输入序列中第一个’CLS’符号所对应位置的输出,s_v2是输入序列中第二个’CLS’符号所对应位置的输出。
文本主题向量v的获得方法是,将tgt按字符切分,输入到BERT模型中,然后使用BERT输出层末尾位置的输出向量作为tgt的语义向量,即src的主题向量。
步骤2.1.2:根据原文src中每个子句的语义向量序列s_v={s_v1,s_v2,…,s_vTs}和文本主题向量v使用余弦相似度计算得到src中每个子句与文本主题的相似度,然后根据相似性选取出相似性最高的Kss条子句,并得到原文本的一个标签序列s_t={s_t1,s_t2,…,s_tTs}。其中s_tk∈{0,1},表示原文中第k条子句的标签,若它是上述被挑选出的Kss个句子之一,则s_tk=1,否则,s_tk=0。
步骤2.1.3:对文本摘要数据集D中的每个文本摘要数据对进行2.1.2的处理,则得到数据集T_S,T_S数据集中每个数据对为(s_v,s_t)。
步骤2.2:根据序列标注的思想构建语义得分预测模型,其结构图与图2一致,只是此时的输入序列为{s_v1,s_v2,…,s_vTs},输出序列为{s_t1,s_t2,…,s_tTs}。然后将数据集T_S划分为训练集、验证集和测试集,对语义得分预测模型进行训练、验证和测试;
其中步骤3获得数据集D’的具体做法为:
对文本摘要数据集D中每个文本摘要数据对(src,tgt)作如下处理:
步骤3.1:获得src的子句语义得分序列score_sim
首先使用步骤2.1.1中的做法获得src的子句语义向量序列s_v,然后将其输入到上述训练好的语义得分预测模型中,根据模型输出层的结果得到src中每条子句属于标签“1”的概率,则src的子句语义得分序列为score_sim={s_s1,s_s2,…,s_sTs},其中s_sk表示src中第k条子句的语义得分,即语义得分预测模型预测得到的src中第k条子句属于标签“1”的概率。
然后考虑挑选内容的多样性,使用最大边界相关算法(Maximal MarginalRelevance,MM R)对子句的语义得分进行调整,得到文本每条子句的最终语义得分score_sim’。
MMR是一种推荐重排算法,其主要是使用下式使排序结果的相关性和多样性达到平衡。
Figure BDA0002658701510000051
式中Q在本任务中相当于文本的主题含义,即标准摘要的内容;S表示候选集合,si表示候选集合中的第i个元素,在本任务中相当于文本中的每条子句;R表示已得到的以相似度为基础的候选集合;sim1(si,Q)表示候选集合中的元素与查询内容Q的相似度,即si的相关性,在本任务中即使用语义得分模型预测得到的原文中第i个子句的语义得分s_si;sim2(si,sj)表示候选集合中的元素与已选集合中某个元素的相似度,即si的冗余性,在本任务中即根据sr c中第i个子句和第j个子句的子句语义向量s_vi、s_vj,使用余弦相似度计算得到的两者的相似性,λ表示超参数,其值根据实际情况自行设定。
步骤3.2:获得src的子句关键词得分序列score_key,它主要包括以下3个步骤:
步骤3.2.1:对原文src进行分词,得到序列x={x1,x2,…,xTx}并将其输入到上述训练完成的关键词概率预测模型中,根据模型输出层的结果即可得到原文中每个词语属于标签“1”的概率,则得到原文词语属于关键词的概率序列x_p={x_p1,x_p2,…,x_pTx},其中x_pt表示src中第t个词语属于关键词的概率,即关键词概率预测模型预测得到的src中第t个词语属于标签“1”的概率。
步骤3.2.2:对原文进行切分子句,获得s={sub1,sub2,…,subTs},然后再对每个子句按照词语切分,获得sub_xk={xk 1,xk 2,…,xk Tsk},Tsk表示第k个子句的词语数;
步骤3.2.3:对s中的每个子句按照其词语属于关键词的概率进行降序排序,例如psk={pk 1,pk 2,…,pk Tsk},其中pk i表示第k个子句中关键词概率排名第i的词语的关键词概率值,然后根据下式获得第k个子句的关键词得分s_kk,进而获得原文的子句关键词得分序列score_key={s_k1,s_k2,…,s_kTs}。
Figure BDA0002658701510000061
Ksk=0.3*Tsk
步骤3.3:获得src的子句得分序列score
首先使用最大最小归一化方法分别对语义得分score_sim’和关键词得分score_key进行归一化,获得score_sim’和score_key’,然后根据下式,对子句的语义得分和关键词得分进行权衡,获得src的子句得分序列score={s_c1,s_c2,…,s_cTs}。式中α∈(0,1)。
score=α*score_sim″+(1-α)*score_key′
步骤3.4:根据src的子句得分序列score取出src中得分最高的前11个子句并按照它们在src中的位置顺序重新将其整合为一条文本,表示为src’。然后将src’与数据对(src,tgt)中的tgt重新组合成数据对(src’,tgt)。
通过步骤3.1至3.4则可获得数据集D’,数据集D’中的每个数据对为(src’,tgt)。
步骤4构建生成式文本摘要模型,并使用数据集D’进行训练、验证和测试时,生成式文本摘要模型可以是任意一种生成式模型,例如带注意力机制的生成式模型,或者使用指针网络的生成式模型。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合;本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换,均属于本发明的保护范围。

Claims (2)

1.一种双阶段文本摘要方法,其特征在于,第一阶段从原文本中将与文本主题最为相关的子句抽取出,且尽可能的保证这些子句中包含更多文本关键词;然后将抽取出的子句作为生成式文本摘要模型的输入,进行第二阶段的学习和训练,其中第一阶段包括步骤1至步骤3,第二阶段包括步骤4;
该方法具体包括以下步骤:
步骤1:获得关键词概率预测模型;
步骤2:获得语义得分预测模型;
步骤3:获得训练集D’;
步骤4:训练生成式文本摘要模型;
其中步骤1获得关键词概率预测模型的具体方法为:
步骤1.1:制作数据集T_W,它主要包括以下3个步骤:
步骤1.1.1:对于对文本摘要数据集D中的每个文本摘要数据对(src,tgt),src表示每个文本摘要数据对中的原文,tgt表示每个文本摘要数据对中的标准摘要,使用改进的Textrank算法获得原文src的关键词集合Key,其具体做法为:
a)对原文和标准摘要分别进行分词、去停用词,形成原文保留词集合和标准摘要保留词集合,使用原文保留词集合中的词语构成候选关键词集合C_k={c_k1,c_k2,…,c_kTx’},其中Tx’是保留的候选关键词的数量,使用原文保留词集合和标准摘要保留词集合交集中的词语构成此篇文档的线索词集合;
b)构建图模型G=(V,E),其中V是图中的节点集合,E是图中的边集合,V中每个节点对应候选关键词集合C_k中的每个候选词,节点的权重代表此词语的重要性,E中每条边的权值即集合C_k中某两个候选词间的关联度,采用词语间的共现关系来度量词语间的关联度;
c)将线索词集合中词语所对应节点的初始权重设置为2,其余节点的初始权重设置为1,根据下式对图中各个节点的权重迭代计算,直至图中各个节点的权重达到收敛:
Figure FDA0002658701500000011
其中WS(vi)表示第i个节点的权重,d是阻尼因子,经验值为0.85,wji表示词语c_kj和词语c_ki之间的关联度,Adj(vi)是图中第i个节点的相邻节点所构成的集合;
d)从各节点最终计算得到的权重中选取出前15个权重最高的词语构成提取出的关键词集合Key={key1,key2,…,key15};
步骤1.1.2:对原文src进行分词,得到序列x={x1,x2,…,xTx},xt表示原文中的第t个词语,Tx表示原文的词语数,然后使用上述的TextRank算法得到原文的关键词集合Key,然后将原文中属于集合Key中的词语标记为“1”,其余标记为“0”,从而得到原文的一个标签序列x_t={x_t1,x_t2,…,x_tTx},其中x_tt∈{0,1},表示原文中第t个词语的标签,若xt∈Key,则x_tt=1,否则x_tt=0;
步骤1.1.3:对文本摘要数据集D中的每个文本摘要数据对进行步骤1.1.2的处理,则得到数据集T_W,T_W数据集中每个数据对为(x,x_t);
步骤1.2:根据序列标注的思想构建关键词概率预测模型,将数据集T_W划分为训练集、验证集、测试集,对关键词概率预测模型进行训练、验证和测试;
步骤2获得子句语义得分预测模型的具体做法为:
步骤2.1:制作数据集T_S,它主要包括以下3个步骤:
步骤2.1.1:根据文本摘要数据对(src,tgt),获得原文src的子句语义向量序列s_v和文本主题向量v;
原文中各子句的语义向量的获得方法是,先对原文src按字符进行切分,获得序列c={c1,c2,…,cTc},c中的每个元素代表原文中的每个字符,Tc代表原文中的字符数量,然后按如下步骤获得文本各子句的语义向量:
a)根据标点符号“。、?、!”将原文本src切分成子句序列s={sub1,sub2,…,subTs},其中Ts是子句数,subk表示src中的第k条子句,再对每个子句按字符进行切分,获得sub_ck={ck 1,ck 2,…,ck Tck},ck m表示第k条子句中的第m个字符,Tck是第k条子句的字符数量;
b)在每两条子句间添加符号‘SEP’,在每条子句开头添加符号‘CLS’,重新将子句整合为一条文本,即c’={’CLS’,c1 1,c1 2,…,ck Tck,‘SEP’,’CLS’,ck+1 1,…};
c)将c’输入到BERT网络中,通过输出‘CLS’所对应位置的向量获得src的子句语义向量序列s_v=[s_v1,s_v2,…,s_vTs],s_vk表示src中第k条子句的语义向量;
文本主题向量v的获得方法是,将tgt按字符切分,输入到BERT模型中,然后使用BERT输出层末尾位置的输出向量作为tgt的语义向量,即src的主题向量;
步骤2.1.2:根据原文src中每个子句的语义向量序列s_v={s_v1,s_v2,…,s_vTs}和文本主题向量v使用余弦相似度计算得到src中每个子句与文本主题的相似度,然后根据相似性选取出相似性最高的Kss条子句,并得到原文的一个标签序列s_t={s_t1,s_t2,…,s_tTs}。其中s_tk∈{0,1},表示原文中第k条子句的标签,若它是上述被挑选出的Kss个句子之一,则s_tk=1,否则,s_tk=0;
步骤2.1.3:对文本摘要数据集D中的每个文本摘要数据对进行步骤2.1.2的处理,则得到数据集T_S,T_S数据集中每个数据对为(s_v,s_t);
步骤2.2:根据序列标注的思想构建语义得分预测模型,此时的输入序列为{s_v1,s_v2,…,s_vTs},输出序列为{s_t1,s_t2,…,s_tTs},然后将数据集T_S划分为训练集、验证集和测试集,对语义得分预测模型进行训练、验证和测试;
步骤3获得数据集D’的具体做法为:
对文本摘要数据集D中每个文本摘要数据对(src,tgt)作如下处理:
步骤3.1:获得src的子句语义得分序列score_sim
首先使用步骤2.1.1中的做法获得src的子句语义向量序列s_v,然后将其输入到上述训练好的语义得分预测模型中,根据模型输出层的结果得到src中每条子句属于标签“1”的概率,则src的子句语义得分序列为score_sim={s_s1,s_s2,…,s_sTs},其中s_sk表示src中第k条子句的语义得分,即语义得分预测模型预测得到的src中第k条子句属于标签“1”的概率;
然后考虑挑选内容的多样性,使用最大边界相关算法MMR对子句的语义得分进行调整,得到文本每条子句的最终语义得分score_sim’;
最大边界相关算法MMR是一种推荐重排算法,其主要是使用下式使排序结果的相关性和多样性达到平衡:
Figure FDA0002658701500000031
式中Q在本任务中相当于文本的主题含义,即标准摘要的内容;S表示候选集合,si表示候选集合中的第i个元素,在本任务中相当于文本中的每条子句;R表示已得到的以相似度为基础的候选集合;sim1(si,Q)表示候选集合中的元素与查询内容Q的相似度,即si的相关性,在本任务中即使用语义得分模型预测得到的原文中第i个子句的语义得分s_si;sim2(si,sj)表示候选集合中的元素与已选集合中某个元素的相似度,即si的冗余性,在本任务中即根据src中第i个子句和第j个子句的子句语义向量s_vi、s_vj,使用余弦相似度计算得到的两者的相似性,λ表示超参数,其值根据实际情况自行设定;
步骤3.2:获得src的子句关键词得分序列score key,它主要包括以下3个步骤:
步骤3.2.1:对原文src进行分词,得到序列x={x1,x2,…,xTx}并将其输入到上述训练完成的关键词概率预测模型中,根据模型输出层的结果即可得到原文中每个词语属于标签“1”的概率,则得到原文词语属于关键词的概率序列x_p={x_p1,x_p2,…,x_pTx},其中x_pt表示src中第t个词语属于关键词的概率,即关键词概率预测模型预测得到的src中第t个词语属于标签“1”的概率;
步骤3.2.2:对原文进行切分子句,获得s={sub1,sub2,…,subTs},然后再对每个子句按照词语切分,获得sub_xk={xk 1,xk 2,…,xk Tsk},Tsk表示第k个子句的词语数;
步骤3.2.3:对s中的每个子句按照其词语属于关键词的概率进行降序排序psk={pk 1,pk 2,…,pk Tsk},其中pk i表示第k个子句中关键词概率排名第i的词语的关键词概率值,然后根据下式获得第k个子句的关键词得分s_kk,进而获得原文的子句关键词得分序列score_key={s_k1,s_k2,…,s_kTs}。
Figure FDA0002658701500000041
Ksk=0.3*Tsk
步骤3.3:获得src的子句得分序列score
首先使用最大最小归一化方法分别对语义得分score_sim’和关键词得分score_key进行归一化,获得score_sim″和score_key′,然后根据下式,对子句的语义得分和关键词得分进行权衡,获得src的子句得分序列score={s_c1,s_c2,…,s_cTs}。式中α∈(0,1)。
score=α*score_sim″+(1-α)*score_key′
步骤3.4:根据src的子句得分序列score取出src中得分最高的前11个子句并按照它们在src中的位置顺序重新将其整合为一条文本,表示为src’,然后将src’与数据对(src,tgt)中的tgt重新组合成数据对(src’,tgt);
通过步骤3.1至3.4则可获得数据集D’,数据集D’中的每个数据对为(src’,tgt);
步骤4构建生成式文本摘要模型,并使用数据集D’进行训练、验证和测试。
2.根据权利要求1所述的双阶段文本摘要方法,其特征在于,所述步骤4中的所述生成式文本摘要模型为带注意力机制的生成式模型,或者使用指针网络的生成式模型。
CN202010896987.5A 2020-08-31 2020-08-31 双阶段文本摘要方法 Pending CN112100365A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010896987.5A CN112100365A (zh) 2020-08-31 2020-08-31 双阶段文本摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010896987.5A CN112100365A (zh) 2020-08-31 2020-08-31 双阶段文本摘要方法

Publications (1)

Publication Number Publication Date
CN112100365A true CN112100365A (zh) 2020-12-18

Family

ID=73756960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010896987.5A Pending CN112100365A (zh) 2020-08-31 2020-08-31 双阶段文本摘要方法

Country Status (1)

Country Link
CN (1) CN112100365A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732900A (zh) * 2021-01-04 2021-04-30 山东众阳健康科技集团有限公司 一种电子病历文本摘要抽取方法
CN112836016A (zh) * 2021-02-05 2021-05-25 北京字跳网络技术有限公司 会议纪要生成方法、装置、设备和存储介质
CN113157909A (zh) * 2021-04-14 2021-07-23 上海明略人工智能(集团)有限公司 一种文本生成摘要方法、系统、电子设备及存储介质
CN113609287A (zh) * 2021-09-16 2021-11-05 深圳豹耳科技有限公司 一种文本摘要的生成方法、装置、计算机设备和存储介质
CN114398478A (zh) * 2022-01-17 2022-04-26 重庆邮电大学 一种基于bert和外部知识的生成式自动文摘方法
CN115033659A (zh) * 2022-05-26 2022-09-09 华东理工大学 基于深度学习的子句级自动摘要模型系统及摘要生成方法
CN115186649A (zh) * 2022-08-30 2022-10-14 北京睿企信息科技有限公司 一种基于关系模型的超长文本的切分方法及系统
CN115344668A (zh) * 2022-07-05 2022-11-15 北京邮电大学 一种多领域与多学科科技政策资源检索方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘一飞: "网络舆情信息识别与分析的关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732900A (zh) * 2021-01-04 2021-04-30 山东众阳健康科技集团有限公司 一种电子病历文本摘要抽取方法
CN112732900B (zh) * 2021-01-04 2022-07-29 山东众阳健康科技集团有限公司 一种电子病历文本摘要抽取方法
CN112836016A (zh) * 2021-02-05 2021-05-25 北京字跳网络技术有限公司 会议纪要生成方法、装置、设备和存储介质
CN113157909A (zh) * 2021-04-14 2021-07-23 上海明略人工智能(集团)有限公司 一种文本生成摘要方法、系统、电子设备及存储介质
CN113609287A (zh) * 2021-09-16 2021-11-05 深圳豹耳科技有限公司 一种文本摘要的生成方法、装置、计算机设备和存储介质
CN114398478A (zh) * 2022-01-17 2022-04-26 重庆邮电大学 一种基于bert和外部知识的生成式自动文摘方法
CN115033659A (zh) * 2022-05-26 2022-09-09 华东理工大学 基于深度学习的子句级自动摘要模型系统及摘要生成方法
CN115344668A (zh) * 2022-07-05 2022-11-15 北京邮电大学 一种多领域与多学科科技政策资源检索方法及装置
CN115186649A (zh) * 2022-08-30 2022-10-14 北京睿企信息科技有限公司 一种基于关系模型的超长文本的切分方法及系统
CN115186649B (zh) * 2022-08-30 2023-01-06 北京睿企信息科技有限公司 一种基于关系模型的超长文本的切分方法及系统

Similar Documents

Publication Publication Date Title
CN112100365A (zh) 双阶段文本摘要方法
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
Chieu et al. A maximum entropy approach to information extraction from semi-structured and free text
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN105975454A (zh) 一种网页文本的中文分词方法和装置
CN111061861B (zh) 一种基于XLNet的文本摘要自动生成方法
CN108920454A (zh) 一种主题短语抽取方法
JPH04357568A (ja) テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
CN106096664A (zh) 一种基于社交网络数据的情感分析方法
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
CN110019820B (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN109002473A (zh) 一种基于词向量与词性的情感分析方法
CN110929520B (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN105893606A (zh) 文本分类方法和装置
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN109614626A (zh) 基于万有引力模型的关键词自动抽取方法
CN112818110B (zh) 文本过滤方法、设备及计算机存储介质
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN112926340A (zh) 一种用于知识点定位的语义匹配模型
CN114169447B (zh) 基于自注意力卷积双向门控循环单元网络的事件检测方法
CN206451175U (zh) 一种基于藏文句子级别的藏文论文复制检测系统
Uddin et al. Extracting severe negative sentence pattern from bangla data via long short-term memory neural network
CN113657090A (zh) 一种军事新闻长文本层次化事件抽取方法
CN112328469A (zh) 一种基于嵌入技术的函数级缺陷定位方法
Shah et al. An automatic text summarization on Naive Bayes classifier using latent semantic analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201218