CN113157907B - 一种基于语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质 - Google Patents

一种基于语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质 Download PDF

Info

Publication number
CN113157907B
CN113157907B CN202110279942.8A CN202110279942A CN113157907B CN 113157907 B CN113157907 B CN 113157907B CN 202110279942 A CN202110279942 A CN 202110279942A CN 113157907 B CN113157907 B CN 113157907B
Authority
CN
China
Prior art keywords
sentence
vector
edu
sentences
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110279942.8A
Other languages
English (en)
Other versions
CN113157907A (zh
Inventor
埃比
段俊文
王建新
刘姝玥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Huaxin Software Co.,Ltd.
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202110279942.8A priority Critical patent/CN113157907B/zh
Publication of CN113157907A publication Critical patent/CN113157907A/zh
Application granted granted Critical
Publication of CN113157907B publication Critical patent/CN113157907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/146Coding or compression of tree-structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质,所述方法包括:步骤1:将待处理的文档中句子的单词编码成词向量,并针对每个句子,利用Bi‑LSTM模型以及自注意力机制构建句子编码器得到句子向量;步骤2:针对待处理的文档,利用Bi‑LSTM模型以及自注意力机制构建篇章编码器得到篇章向量;步骤3:基于所述篇章向量对句子进行分类得到候选句子;步骤4:将候选句子输入基于RST构建的摘要提取器提取出核心EDU,并将所有候选句子的核心EDU拼接为文本摘要;其中,将候选句子分割为文档单元,再利用文本单元构成语篇结构的层次树,层次树的叶子节点EDU表示被分割的文档单元。本发明引入自注意力机制以及语篇结构提高了摘要提取的准确性。

Description

一种基于语篇结构的层次文本摘要获取方法、系统、终端设备 及可读存储介质
技术领域
本发明属于文本处理技术领域,具体涉及一种语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质。
背景技术
由于互联网上可用数据的数量正在迅速增加,出现了对有效摘要系统的需求,该摘要系统要能够快速,高效地检索重要信息。作为一种补救措施,文本摘要可通过在保留最重要的关键信息的同时生成源文本的简短版本来解决信息过载问题。
文本摘要可以分为抽取式和生成式(AllahyariM,PouriyehS,AssefiM,SafaeiS,TrippeED,GutierrezJB,KochutK(2017)Textsummarizationtechniques:abriefsurvey.arXivpreprintarXiv:170702268)。抽取式摘要技术是从主要文本中提取最重要的短语,这些短语代表整个文本。因此,需要对句子之间的联系有一个全面的了解,以产生高质量的摘要(MunotN,GovilkarSS(2014)Comparativestudyoftextsummarizationmethods.InternationalJournalofComputerApplications102(12))。生成式摘要技术会生成原始文本中不存在的新单词或短语(AllahyariM,PouriyehS,AssefiM,SafaeiS,TrippeED,GutierrezJB,KochutK(2017)Textsummarizationtechniques:abriefsurvey.arXivpreprintarXiv:170702268)。因此,与生成式方法相比,抽取式方法产生的摘要在语法和语言上的精确度要高得多(NallapatiR,ZhaiF,ZhouB(2016)Summarunner:Arecurrentneuralnetworkbasedsequencemodelforextractivesummarizationofdocuments)。相比之下,生成式方法的特征在于它们是通过模拟人类的总结方式去生成摘要的。最近提出了一些混合系统,通过抽取和重写符合摘要要求的句子来组合这两种方法(GehrmannS,DengY,RushAM(2018)Bottom-upabstractivesummarization,XuJ,DurrettG(2019)Neuralextractivetextsummarizationwithsyntacticcompression)。但是,与其他非混合系统相比,这些方法无法达到所需的水平。
传统的抽取式摘要系统基于复杂的特征提取方法来评估句子。这些特征用于摘要决策中,以选择所提取特征所涵盖的最相关的句子(BaralisE,CaglieroL,JabeenS,FioriA,ShahS(2013)Multi-documentsummarizationbasedontheyagoontology.
ExpertSystemswithApplicationsAnInternationalJournal40(17):6976–6984,ConroyJM,O’learyDP(2001)Textsummarizationviahiddenmarkovmodels.In:Proceedingsofthe24thannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval,pp406–407,CarbonellJ,GoldsteinJ(1998)Theuseofmmr,diversity-basedrerankingforreorderingdocumentsandproducingsummaries.In:Proceedingsofthe21stannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval,pp335–336)。这些方法的性能在很大程度上依赖于劳动强度大的特征工程。深度神经网络最近已经实现了许多自然语言处理任务的最新技术,包括情感分析,机器翻译和文本摘要。Singh和Gupta(SinghAK,GuptaM,VarmaV(2017)Hybridmemnetforextractivesummarization.
In:Proceedingsofthe2017ACMonConferenceonInformationandKnowledgeManagement,pp2303–2306)提出了一种混合抽取摘要技术,该技术依赖于卷积bi-LSTM网络与记忆网络的集成。Nallapati和Zhai(NallapatiR,ZhaiF,ZhouB(2016)Summarunner:Arecurrentneuralnetworkbasedsequencemodelforextractivesummarizationofdocuments)提供了一个包含两层RNN单词和句子级别的抽取模型。该模型的总结基于几个标准,例如句子的位置和内容。注意机制的出现促进了抽取性摘要模型的发展。Cheng和Lapata(ChengJ,LapataM(2016)Neuralsummarizationbyextractingsentencesandwords.arXivpreprintarXiv:160307252)使用这种机制来创建一个基于注意力机制的分层模型,该模型包括篇章编码器和句子编码器。尽管这些模型有效,但它们的共同局限性有以下几点。(1)与其他部分相比,篇章的开头会受到更多关注。(2)整个句子中的所有单词尽管具有结构上的关联性,但在全连接层中均受到同等关注。从而导致抽取式摘要模型还有待进一步的研究以提高其可靠性。其中,如何更加有效以及准确地实现抽取式摘要的形成,是本发明研究以及关注的。
发明内容
本发明的目的是提供一种语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质,所述方法引入修辞结构理论RST,将文本单元构建成语篇结构,提取结构中核心的EDU形成文档的最终摘要,更加准确地抽取了文档中核心内容,得到可靠性更高的摘要。
一方面,本发明提供的一种语篇结构的层次文本摘要获取方法,包括如下步骤:
步骤1:将待处理的文档中句子的单词编码成词向量,并针对每个句子,利用Bi-LSTM模型以及自注意力机制构建句子编码器得到句子向量;
步骤2:针对待处理的文档,利用Bi-LSTM模型以及自注意力机制构建篇章编码器得到篇章向量;
步骤3:基于所述篇章向量对句子进行分类得到候选句子;
步骤4:将候选句子输入基于RST构建的摘要提取器提取出核心EDU,并将所有候选句子的核心EDU拼接为文本摘要;
其中,将候选句子分割为文档单元,再利用文本单元构成语篇结构的层次树,层次树的叶子节点EDU表示被分割的文档单元。
本发明提供的所述层次文本摘要获取方法,一方面,其引入自注意力机制,在步骤1中通过注意机制捕获给定句子中的重要部分,在步骤2中通过注意机制关注整个文本中有意义的句子。二方面,其引入语篇结构,利用语篇结构提取核心EDU(基本语篇单元)用于生成最终的摘要,其过程去除了句子中不重要的细节,提高了摘要提取的可靠性。此外,应用语篇结构有助于模型处理多余的细节,从而提高提取摘要的效率。
可选地,步骤4中将候选句子输入基于RST构建的摘要提取器提取出核心EDU的过程如下:
步骤4-1:将候选句子分割为文档单元,再利用文本单元构成语篇结构的层次树;
每个文档单元分别作为层次树的叶子节点EDU;
步骤4-2:将每个EDU对应的文档单元中的单词分别与POS标签的神经嵌入级进行联合计算得到单词在EDU中的嵌入位置
Figure GDA0003105764100000031
进而得到嵌入位置向量
Figure GDA0003105764100000032
Figure GDA0003105764100000033
Figure GDA0003105764100000034
表示在EDU中嵌入字词的位置,pi为POS标签的,
Figure GDA0003105764100000035
是异或运算符号,EDU对应的文档单元中单词集合表示为{w1,w2,..wp},wj为单词集合中第j个单词,p为文档单元中单词个数,emb为词嵌入公式符号;
步骤4-3:将步骤4-2中的嵌入位置向量
Figure GDA0003105764100000036
输入bi-LSTM层得到单词向量
Figure GDA0003105764100000037
再以平均池化计算得到EDU的另一表达Ede
Figure GDA0003105764100000038
式中,
Figure GDA0003105764100000039
为单词向量
Figure GDA00031057641000000310
中第j个单词向量;
步骤4-4:将候选句子对应的所有EDU的另一表达Ede输入bi-LSTM层得到
Figure GDA00031057641000000311
Figure GDA00031057641000000312
其中,q为候选句子对应的EDU个数;
步骤4-5:依据步骤4-1中的层次树以及所有EDU对应的
Figure GDA00031057641000000313
计算出每个EDU的得分,按照如下公式计算:
Figure GDA0003105764100000041
其中,S为EDU的得分,
Figure GDA0003105764100000042
为构建层次树中,EDU对应的前1、x+1个子树的解析表达,W为模型参数,
Figure GDA0003105764100000043
为紧接编码器输出得到的隐层向量,子树的解析表达通过平均池化得到:
Figure GDA0003105764100000044
其中,第x+1个子树的解析表达
Figure GDA0003105764100000045
中的所有EDU表示为:(ei,ei+1,…,ej),
Figure GDA0003105764100000046
等于第x+1个子树中EDU对应在
Figure GDA0003105764100000047
的值;
步骤4-6:依据每个EDU的得分选择核心EDU,其中,得分越高,对应EDU越重要。
可选地,步骤1中利用Bi-LSTM模型以及自注意力机制构建句子编码器得到句子向量的过程如下:
步骤1-1:将句子中单词的词向量输入Bi-LSTM模型获取句子的正向和反向向量,并作为LSTM的隐层状态;
步骤1-2:利用自注意力机制将步骤1-1中LSTM的隐层状态作为输入变量,得到权重向量,再结合步骤1-1中的所述LSTM的隐层状态与所述权重向量得到句子向量;
si=vsHs
si为第i个句子的句子向量,vs为权重向量,Hs为步骤1-1中LSTM的隐层状态;
所述权重向量vs表示为:
Figure GDA0003105764100000048
其中,softmax()是将注意力权重标准化为1的函数,tanh表示激活函数,ls、ws均为可学习参数,T为矩阵的转置符号。
可选地,步骤2中利用Bi-LSTM模型以及自注意力机制构建篇章编码器得到篇章向量的过程如下:
步骤2-1:输入步骤1中的句子向量至Bi-LSTM模型获取文档篇章的正向和反向向量,并作为LSTM的隐层状态;
步骤2-2:利用自注意力机制将步骤2-1中的LSTM的隐层状态作为输入变量,得到权重向量,再结合步骤2-1中的所述LSTM的隐层状态与权重向量得到篇章向量;
d=vdHd
d为篇章向量,vd为权重向量,Hd为步骤2-1中的LSTM的隐层状态;
所述权重向量vd表示为:
Figure GDA0003105764100000051
其中,softmax()是将注意力权重标准化为1的函数,tanh为激活函数,ld、wd均为可学习参数,T为矩阵的转置符号。
可选地,步骤3中基于所述篇章向量对句子进行分类得到候选句子的过程如下:
采用概率分布计算每个句子的概率分布值;
P(yi=1)=σ(Gi+Li+Ti+Ri+d+b))
其中,d为篇章向量,Gi表示句子对整个篇章的重要度、Li为句子在篇章中的位置、Ti表示句子中包含的信息类型,Ri表示相关性;P(yi=1)表示句子的概率分布值;
然后,依据每个句子的概率分布值选定候选句子。
可选地,句子对整个篇章的重要度Gi、句子在篇章中的位置Li、句子中包含的信息类型Ti、相关性Ri的公式如下:
Gi=WgSi
Li=Wlei
Ti=WtSi
Ri=SiWrd
其中,Si表示篇章中的句子,Wg,Wl和Wt、Wr是自动学习的数字权重,用于表示特征的比例重要性,ei表示句子的位置嵌入点。
二方面,本发明提供的一种基于语篇结构的层次文本摘要获取方法的系统,包括:
句子向量生成模块:用于将待处理的文档中句子的单词编码成词向量,并针对每个句子,利用Bi-LSTM模型以及自注意力机制构建句子编码器得到句子向量;
篇章向量生成模块:用于针对待处理的文档,利用Bi-LSTM模型以及自注意力机制构建篇章编码器得到篇章向量;
候选句子获取模块:用于基于所述篇章向量对句子进行分类得到候选句子;
摘要提取模块:用于将候选句子输入基于RST构建的摘要提取器提取出核心EDU,并将所有候选句子的核心EDU拼接为文本摘要;
其中,将候选句子分割为文档单元,再利用文本单元构成语篇结构的层次树,层次树的叶子节点EDU表示被分割的文档单元。
三方面,本发明提供的一种终端设备,包括处理器和存储器,所述存储器存储了计算机程序,所述处理器调用所述计算机程序以执行:所述一种语篇结构的层次文本摘要获取方法的步骤。
四方面,本发明提供的一种可读存储介质,存储了计算机程序,所述计算机程序被处理器调用以执行:所述一种语篇结构的层次文本摘要获取方法的步骤。
有益效果
1.本发明提供的所述层次文本摘要获取方法一方面引入了两个注意机制,对不相关或者相关度低的信息通过降低权重来过滤原始文本,步骤1中在于捕获句子中的重要部分,步骤2中在于捕获文档中的重要句子,通过双重注意机制提高了对文档中重要部分的关注。二方面,引入语篇结构,提前出核心的EDU,去除不重要的细节,进一步提升了模型的优势。
2.将本发明提供的所述层次文本摘要获取方法与现有技术进行比对,结果进一步证实了本发明所述方法的优势。
附图说明
图1为本发明的模型结构示意图;
图2为RST解析器的例子;
图3为使用ROUGE-1,ROUGE-2和ROUGE-L在CNN/每日邮件数据集上的模型比较结果示意图;
图4是使用ROUGE-1,ROUGE-2和ROUGE-L在CNN数据集上的模型比较结果示意图;
图5是本发明的模型与其它模型在Dailymail数据集上使用ROUGE-1、ROUGE-2和ROUGE-L的比较结果示意图。
具体实施方式
本发明提供的一种语篇结构的层次文本摘要获取方法,其引入了修辞结构理论RST,利用其构建了层次树,以便提取出核心EDU。其中,修辞结构理论(RST)(MannWC,ThompsonSA(1988)Rhetoricalstructuretheory:Towardafunctionaltheoryoftextorganization.Text8(3):243–281)是一个分析框架,旨在考虑文本结构的术语。在RST中,文本被解析为层次树。该树的叶节点称为EDU,它们是不重叠且连贯的文本范围,并且通过使用非终端节点来表示关系(WangY,LiS,YangJ(2018)Towardfastandaccurateneuraldiscoursesegmentation)。EDU通过背景,说明和阐述等关系相互链接。这些关系使用两个节点的属性来估计语篇结构中两个节点之间的关系的概率。两个EDU之间的关系采用以下三种类别之一:N-N,N-S或S-N,其中N表示核心关系,S表示附属关系。核心表示最重要的信息单元,而附属则表示用于支持基本信息的其他信息。应用语篇结构有助于模型处理多余的细节,从而提高提取摘要的效率。
下面将结合实施例对本发明做进一步的说明。
本发明实施例提供的一种语篇结构的层次文本摘要获取方法,包括如下步骤:
步骤1:将待处理的文档中句子的单词编码成词向量,并针对每个句子,利用Bi-LSTM模型以及自注意力机制构建句子编码器得到句子向量。
其中,输入一个包含N个句子的文档,如N个句子的文档D=S1,S2,…,SN。其中,Sj(1≤j≤N)表示文档D中的第j个句子。句子Sj中存在m个单词,单词集合E=e1,e2,…,em,其中,ei(1≤i≤m)表示针对第i个单词的单词向量。
本发明首先使用Bi-LSTM模型编码句子中的单词,Bi-LSTM使用正向LSTM从句子sj中左侧e1到右侧em提取信息
Figure GDA0003105764100000071
而使用反向LSTM从句子sj中右侧em到左侧e1提取信息
Figure GDA0003105764100000072
如下:
Figure GDA0003105764100000073
Figure GDA0003105764100000074
其中,LSTM、LSTM分别表示前向和后向LSTM,et为句子中的一个单词向量。Bi-LSTM模型中将信息
Figure GDA0003105764100000075
与信息
Figure GDA0003105764100000076
串联一起作为隐层状态ht
Figure GDA0003105764100000077
假设LSTM的每个方向都包含k个隐层单元,则令Hs∈Rmx2k,它指示整个LSTM隐层状态:Hs=(h1,…ht…,hm)。
由于单词在句子中的贡献是存在差异的,因为,进一步使用自注意力机制,即根据每个单词对句子的贡献来为单词赋予权重,得到的权重向量为:
Figure GDA0003105764100000078
其中,softmax()是将注意力权重标准化为1的函数,tanh为深度学习的一种激活函数,ls、ws均为可学习参数,T为矩阵的转置符号。
从上述公式可知,将LSTM隐层状态:Hs=(h1,h2,…,hm)作为输入生成权重向量,然后再将LSTM的隐层状态与所述权重向量加权得到句子向量si=vsHs
需要说明的是,Bi-LSTM模型中LSTM网络应用于上下文表示已经是现有技术,因此,本发明直接引用其网络对单词进行编码。
步骤2:针对待处理的文档,利用Bi-LSTM模型以及自注意力机制构建篇章编码器得到篇章向量。
同理,类似步骤1,步骤2中将步骤1中得到的句子向量输入至Bi-LSTM模型获取文档篇章的正向和反向向量,并作为LSTM的隐层状态。
Figure GDA0003105764100000081
Figure GDA0003105764100000082
其中,LSTM、LSTM分别表示前向和后向LSTM,sv表示步骤1中得到的句子向量。Bi-LSTM模型中将信息
Figure GDA0003105764100000083
与信息
Figure GDA0003105764100000084
串联一起作为隐层状态hv
Figure GDA0003105764100000085
假设LSTM的每个方向都包含k个隐层单元,则令Hs∈RNx2k,它指示整个LSTM隐层状态::Hd=(h1,…hv…,hN)。
组成篇章的句子对篇章大意的形成有不同的贡献。因此,引入自注意力机制,即根据每个句子对篇章的贡献,对其进行关注,得到的权重向量vd表示为:
Figure GDA0003105764100000086
其中,softmax()函数用于将注意力权重向量归一化,总和为1;ld可学习参数∈Rux2k,wd可学习参数∈Ru,u为任意的超参数。
给定注意力权重向量vd后,通过υd得到的篇章向量d是LSTM(Hd)的全部隐层状态的加权和,表示如下:
d=vdHd
步骤3:基于所述篇章向量对句子进行分类得到候选句子。本实施例中考虑到了以下标准来考虑句子是否为候选句子:从篇章编码器获得的篇章表示d、句子对整个篇章的意义Gi、句子的位置Li、句子中包含的信息类型Ti、以及它与篇章一般意义的相关性Ri
句子(si)对篇章的重要性计算如下所示:
Gi=Wgsi
句子(si)在篇章中的位置如下所示:
Li=Wlei
其中,ei是句子的位置嵌入,它是通过链接句子中前向指标和后向指标在篇章中的位置对应的嵌入来衡量的,即从左至右和从右至左阅读句子将对应两个位置,将两个位置嵌入连接作为参数ei
如下式计算出的句子Ti中包含的信息类型。
Ti=Wtsi
如下式计算出的句子相关性Ri
Ri=SiWrd
式中,Wg,Wr,Wl和Wt是自动学习的数字权重,用来表示特征的比例重要性。结合前面的三个方程,得到句子的最终概率分布,如下所示:
P(yi=1)=σ(Gi+Li+Ti+Ri+d+b))
其中b为偏置,σ为sigmoid函数。然后根据这些概率分布值对篇章中的句子进行排序,确定候选句子。利用softmax层分配相关性的分数。
其中,依据上述概率分布公式得到的最终概率分布的结果要不接近1,要不接近0;其中,接近1表示该句子有可能成为最终摘要的候选句子;接近0表示该句子没有可能成为最终摘要的候选句子。
需要说明书是,上述自动学习的数字权重可以选择是设定的经验值,也可以是通过样本数据进行模型训练得到权重值。
步骤4:将候选句子输入基于RST构建的摘要提取器提取出核心EDU,并将所有候选句子的核心EDU拼接为文本摘要。
候选句子作为摘要提取器的输入数据,首先对其进行分割,将候选句子分割为连贯的、非重叠的文本单元,在层次树中作为EDU形式。其中,分割过程中本实施例应用一个二进制分类器确定候选句子中每个单词后是否是EDU边界。所选用的二进制分类器如伯努利分布的判别分类器,其输出值y为1时,视为该词后面为EDU边界。通过二进制分类器将候选句子分割为多个EDU。
语篇解析器包括两部分。第一部分是用于存储部分解析结果的状态(初始状态设置为空状态,而最后的状态代表完整的结果)。第二部分是操作(三种类型的动作是Shift、Reduce和PopRoot),它们控制状态的转换。Shift操作通过将队列中的第一个EDU移到堆栈中,创建一个单节点的子树。第二个操作(Reduce(R,N)),其中R表示关系标签,如属性、解释和连接,而N表示核心关系(N和S分别指核心和附属)。该操作将堆栈上的两个最前面的子树合并在一起。第三个动作(Poproot)是将堆栈上的头部树删除的操作。这个操作表示解码过程的结束(当堆栈中的一个子树和队列为空时)。
如图2所示,一个候选句子“Donald Trump’s docter says president canreturn to‘pulic engagements’on Saturday despite risk he could still beinfections and finally releases his vital sings-claiming they are allexcellent”,利用二进制分类器对其进行分割得到7个EDU,如下:
EUD1:Donald Trump’s docter says
EUD2:president can return to‘pulic engagements’on Saturday
EUD3:despite risk
EUD4:he could still be infections
EUD5:and finally releases his vital sings-
EUD6:claiming
EUD7:they are all excellent
进而基于7个EDU构建出如图2中右侧的层次树。其中,EDU为叶子节点,内节点表示关系。
本实施例中使用分成的Bi-LSTMs来编码分割阶段的输出(EDU)。
譬如,输出EDU对应的文档单元中的单词表示为:{w1,w2,..wp},wj为单词集合中第j个单词,p为文档单元中单词个数。然后,将每个EDU对应的文档单元中的单词分别与POS标签的神经嵌入级进行联合计算得到单词在EDU中的嵌入位置
Figure GDA0003105764100000101
进而得到嵌入位置向量
Figure GDA0003105764100000102
Figure GDA0003105764100000103
Figure GDA0003105764100000104
表示在EDU中嵌入字词的位置,pi为POS标签的,emb为embedding,表示词嵌入的公式,
Figure GDA0003105764100000105
是异或运算符号。
然后,将步骤4-2中的嵌入位置向量
Figure GDA0003105764100000106
输入bi-LSTM层得到单词向量
Figure GDA0003105764100000107
Figure GDA0003105764100000108
其中,bi-LSTM均为现有网络结构,本发明在实际应用中,可以直接使用已有的网络结构以及参数,也可以根据实际需求对网络参数进行模型训练后进行调整。
在应用第二层bi-LSTM之前,必须获得每个EDU的适当表示。在获得第一层的表征
Figure GDA0003105764100000109
后,得到平均池化以计算EDU的表示形式,表示如下:
Figure GDA00031057641000001010
式中,
Figure GDA00031057641000001011
为单词向量
Figure GDA00031057641000001012
中第j个单词向量。
在获得EDU的表示后,该模型立即应用第二个bi-LSTM层,从而产生以下结果:
Figure GDA00031057641000001013
其中,q为层次树中EDU的个数。
依据步骤4-1中的层次树以及所有EDU对应的
Figure GDA00031057641000001014
计算出每个EDU的得分,按照如下公式计算:
Figure GDA0003105764100000111
其中,S为EDU的得分,
Figure GDA0003105764100000112
为构建层次树的过程中该EDU的前1、x+1个子树的解析表达,W为模型参数,
Figure GDA0003105764100000113
为紧接编码器输出得到的隐层向量,即当前队列中第一个EDU对应在
Figure GDA0003105764100000114
的向量。
其中,将文档划分为若干个EDU后,EDU按照顺序在队列中排序。
Figure GDA0003105764100000115
中,
Figure GDA0003105764100000116
表示队列中第一个EDU的隐层向量,
Figure GDA0003105764100000117
表示队列中最后一个EDU的隐层向量。根据层次树的构建过程,若前一个EDU已从队列出来,则当前队列中的第一个EDU的隐层向量则是下一个。譬如,计算第一个EDU得分时,
Figure GDA0003105764100000118
对应队列中第一个EDU的隐层向量为
Figure GDA0003105764100000119
计算第二个EDU得分时,
Figure GDA00031057641000001110
对应队列中第一个EDU的隐层向量为
Figure GDA00031057641000001111
这是由于第一个EDU已不在队列中。
子树的解析表达通过平均池化得到:
Figure GDA00031057641000001112
其中,每个子树上至少存在一个EDU,若存在多个EDU表示为(ei,ei+1,…,ej),则利用平均池化来计算子树x的表示,
Figure GDA00031057641000001113
则表示对应EDU在
Figure GDA00031057641000001114
中的值。
需要说明的是,本实施例中,将得分S公式中选择前3个以内子树的解析表达参与计算,子树个数超过3个时,选择3个参与计算;不足3个时,选择所有的参与计算。如图2所示,针对EDU1,由于其为第一个EDU,因此计算其得分S时,只有包含EDU1的子树参与计算。针对EDU2,包含EDU1的顶部子树参与计算;针对EDU3,EDU1、EDU2所在子树参与计算;针对EDU4,EDU1、EDU2、EDU3所在子树参与计算;针对EDU5,EDU4、EDU2、EDU3所在子树参与计算,这是由于EDU2、EDU3得到得分较高,而EDU4连接较高的子树;针对EDU6,EDU5、EDU2、EDU3所在子树参与计算;针对EDU7,EDU4、EDU2、EDU5所在的子树参与计算。
步骤4-6:依据每个EDU的得分选择核心EDU,其中,得分越高,对应EDU越重要。
其中,核心EDU的标准是依据实际需求以及实验仿真等手段确定的经验值。
在一些实现方式中,本发明还提供一种基于语篇结构的层次文本摘要获取方法的系统,包括:
句子向量生成模块:用于将待处理的文档中句子的单词编码成词向量,并针对每个句子,利用Bi-LSTM模型以及自注意力机制构建句子编码器得到句子向量;
篇章向量生成模块:用于针对待处理的文档,利用Bi-LSTM模型以及自注意力机制构建篇章编码器得到篇章向量;
候选句子获取模块:用于基于所述篇章向量对句子进行分类得到候选句子;
摘要提取模块:用于将候选句子输入基于RST构建的摘要提取器提取出核心EDU,并将所有候选句子的核心EDU拼接为文本摘要。
其中,各个单元模块的具体实现过程请参照前述方法的对应过程。应当理解,上述单元模块的具体实现过程参照方法内容,本发明在此不进行具体的赘述,且上述功能模块单元的划分仅仅是一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。同时,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
在一些实现方式中,本发明还提供一种终端设备,包括处理器和存储器,所述存储器存储了计算机程序,所述处理器调用所述计算机程序以执行:所述一种语篇结构的层次文本摘要获取方法的步骤。
其中,各个步骤的具体实现过程请参照前述方法内容。
在一些实现方式中,本发明还提供一种可读存储介质,存储了计算机程序,所述计算机程序被处理器调用以执行:所述一种语篇结构的层次文本摘要获取方法的步骤。
其中,各个步骤的具体实现过程请参照前述方法内容。
应当理解,在本发明实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
所述可读存储介质为计算机可读存储介质,其可以是前述任一实施例所述的控制器的内部存储单元,例如控制器的硬盘或内存。所述可读存储介质也可以是所述控制器的外部存储设备,例如所述控制器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述可读存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述可读存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应用实例:
将本发明的所述方法称为:HESDS。本发明HESDS模型使用CNN和DailyMail数据集以及两个数据集的联合版本(CNN/DailyMail)进行评估。CNN/DailyMail数据集最初是由Harmen等人(HermannKM,KociskyT,GrefenstetteE,EspeholtL,KayW,SuleymanM,BlunsomP(2015)Teachingmachinestoredandcomprehend.In:Advancesinneuralinformationprocessingsystems,pp1693–1701)为回答问题任务创建的。之后,这些数据集被用于总结文本的任务,无论是抽取式还是生成式。这些数据集包括新闻文章和相关重点。这些与新闻文章一起提供的重点可以作为这些新闻文章的真实摘要。表1显示了这些数据集的数据的训练、验证和测试情况。
表1
Dataset Traindata Validdata Testdata
DailyMail 196961 12148 10397
CNN 90266 1220 1093
CNN/DailyMail 286722 13362 11480
为了更加充分说明本发明所述方法的优势,将本发明所述方法与现有方法进行了比较:
1.Lead-3:这产生了文档中的前三个句子,并将其作为摘要。该模型作为“CNN/DailyMail数据集”的基准。
2.Cheng等(Conroy JM,O’leary DP(2001)Text summarization via hiddenmarkov models.In:Proceedings of the 24th annual international ACM SIGIRconference on Research and development in information retrieval,pp 406–407),这是在三个数据集中用作基线的提取模型。在这项工作中,他们使用带有注意力机制的编解码器模型,在单词级别上,他们使用CNN来生成句子的表示,而他们使用RNN来生成篇章的表示。基于注意力的分层模型用于预测句子和单词的重要性。
3.抽取模型(SummaRuNNer)(Nallapati R,Zhai F,Zhou B(2016)Summarunner:Arecurrent neural network basedsequence model for extractive summarization ofdocuments)被用作两个数据集中的基线。这项工作使用了两个双向GRU:他们在单词级别使用GRU-RNN来计算句子的表示形式,而在句子级别使用另一个双向GRU来计算篇章的表示形式。
4.See等人(Afsharizadeh M,Ebrahimpour-Komleh H,Bagheri A(2018)Query-oriented text summarization using sentence extraction technique pp 128–132)的抽象模型“Pointer-gen+converge”用作CNN/DailyMail和CNN数据集的抽象模型基线。他们提供了一种混合的指针生成器网络,该网络可以通过指向从主文档复制单词,同时保持其从固定词汇表生成单词的能力。
5.Tan等(Tan J,Wan X,Xiao J(2017)Abstractive document summarizationwith a graph-basedattentional neural model.In:Proceedings of the 55th AnnualMeeting of the Associationfor Computational Linguistics(Volume 1:LongPapers),pp 1171–1181)用作CNN/DailyMail和CNN数据集的抽象模型基线。他们提供了基于编解码器的模型,并基于PageRank算法提供了新的注意力机制。通过计算该句子的隐层状态与其他句子的隐层状态之间的关系程度,使用此工作中的图形模型确定句子重要性的分数。
6.RL,用entraattention(Paulus R,Xiong C,Socher R(2017)A deepreinforced model for abstractive summarization)在CNN/DailyMail数据集上作为抽象基线。这项工作使用带有RL的编码解码器模型,他们在生成最终摘要后使用了teacherforcing算法,该算法使用参考摘要检查单词的错误率。RL算法生成摘要,并使用参考摘要评估最终摘要的质量。
7.YaoK等人(Yao K,Zhang L,Luo T,Wu Y(2018)Deep reinforcement learningfor extractivedocument summarization.Neurocomputing 284(APR.5):52–62)的DQN和NarayanS等人(Narayan S,Cohen SB,Lapata M(2018)Ranking sentences forextractive summarizationwith reinforcement learning)的REFRESH是基于RL的提取模型。DQN提供了一种依赖于深度Q网的模型。分层网络RNN-RNN部署在词和句子级别。他们使用深层Q-net根据某些标准(例如信息内容和冗余度)来确定从篇章中选择哪个句子。同时,REFRESH提供了带有RL的提取模型,根据ROUGE矩阵对篇章中的句子进行摘要评估。RL中的代理在对篇章中的句子进行排序后产生摘要。
8.Zhou等人(Zhou Q,Y ang N,Wei F,Huang S,Zhou M,Zhao T(2018)Neuraldocument summarization by jointly learning to score and select sentences.In:Proceedings of the 56th AnnualMeeting of the Association for ComputationalLinguistics(Volume 1:Long Papers))的NUESUM被用作CNN/DailyMail数据集的提取基线。在以前的系统中,摘要的组成经历两个独立的步骤。第一步是评估篇章中的所有句子。第二步是重新排序并选择要包含在摘要中的高值句子。在此工作中使用了结合了两个步骤的新技术。该技术通过使用分层编码器来生成句子表示,然后通过使用与评分模型结合在一起的选择方法来创建摘要。
9.Xu等人(Xu J,Durrett G(2019)Neural extractive text summarizationwith syntactic compression)的JECS是作为基于压缩的文本摘要模型。该模型提供了一种将句法的提取和压缩相结合的技术来产生摘要。
10.BANDITSUM(Dong Y,Shen Y,Crawford E,van Hoof H,Cheung JCK(2018)Banditsum:Extractivesummarization as a contextual bandit.arXiv preprintarXiv:180909672)是一种基于RL的提取模型。该工作采用策略梯度RL来选择s组提高Rouge矩阵得分的句子。
本发明所述方法应用时,单词嵌入的维数和隐层状态的大小设置为200,一开始将未知单词的嵌入赋值为零,并在模型训练过程中考虑它们的值。句子编码器和篇章编码器中使用了单层bi-LSTM。对于向前和向后方向,每个LSTM的隐层状态的尺寸都等于400。前向和后向LSTM的串联为单词和句子编码器提供了一个800的维度。同样的情况下,句子和单词的注意力上下文向量也设置为800的维度。句子的最大长度为每句90个单词,而篇章的最大长度为每篇章100个句子。采用学习率等于0.0001的Adam(Kingma DP,Ba J(2014)Adam:Amethod for stochastic optimization.arXiv preprintarXiv:14126980)优化器对模型进行训练,批次大小等于64;应用梯度剪裁对模型进行正则化(Pascanu R,Mikolov T,Bengio Y(2013)On the difficulty of training recurrent neuralnetworks.In:International conference on machine learning,pp1310–1318)。对输出的概率进行排列,确定摘要的候选句子,选择获得概率最高的句子,忽略最低值的句子。候选句子被插入到摘要提取器的第一阶段(分割)中,获得所有的EDU后,应用语篇解析器。之后,所有代表篇章最终摘要的核心EDU被提取出来。
其中,选择ROUGE指标评价本发明所述方法与上述现有方法的性能。表2是使用ROUGE-1,ROUGE-2和ROUGE-L在CNN/DailyMail数据集的比对结果,表3是使用ROUGE-1,ROUGE-2和ROUGE-L在每日邮件和CNN数据集上的模型的比较结果。表4是使用和不使用摘要提取器的所有三个Rouge测量的模型结果(R-1、R-2和R-L)。
图3为使用ROUGE-1,ROUGE-2和ROUGE-L在CNN/每日邮件数据集上的模型比较结果示意图;图4是使用ROUGE-1,ROUGE-2和ROUGE-L在CNN数据集上的模型比较结果。图5是本发明的模型与其它模型在Dailymail数据集上使用ROUGE-1、ROUGE-2和ROUGE-L的比较结果。
表2
Figure GDA0003105764100000161
表3
Figure GDA0003105764100000162
表4
Figure GDA0003105764100000163
从上述比对结果可知:(1)与文本摘要的抽取模型相比,得到的结果证明了所提出的模型(HESDS)在三个Rouge度量(R-1、R-2和R-L)上都优于这些模型。这一发现证明了语篇结构在抽取式摘要中的实质性影响。(2)将所提出的模型与生成式模型进行比较,结果证明了所提出的模型的优越性。在所提出的模型中,用EDU表示摘要的候选句子的重要部分,因此,该模型优于其他模型,生成的模型几乎没有冗余的内容。(3)将所提出的模型与基于强化学习的模型进行比较,得到的结果证明了所提出模型的优越性。这一发现证实了在文本摘要中利用篇章的层次性与语篇结构,可以提高摘要的质量。(4)对比结果证实,所提出的模型在这些数据集上取得了很好的结果。这一发现也证实了语篇结构与抽取式摘要的使用可以改善句子和篇章的表达,从而提高生成摘要的效率。(5)比较没有使用摘要提取器形成摘要的层次神经模型与使用摘要提取器的层次神经模型的模型结果,进一步证实了RST解析器对模型结果的改善幅度很大。
综上所述,本发明进一步证明了在文本摘要中使用语篇结构的重要性。其中,注意机制用于句子和篇章的层次,这有助于生成句子和篇章整体的嵌入效果。通过实验,改进的嵌入导致增强的表示形式,这反过来又大大改善了文本摘要任务,并且在三个数据集上的表现都优于SOTA模型。此外,实验证明,将语篇结构与文本摘要结合使用会产生高效的摘要。此发现是由于在选择最重要的信息并表示要包含在最终摘要中的篇章时,最终摘要中的冗余减少了。
需要强调的是,本发明所述的实例是说明性的,而不是限定性的,因此本发明不限于具体实施方式中所述的实例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,不脱离本发明宗旨和范围的,不论是修改还是替换,同样属于本发明的保护范围。

Claims (6)

1.一种语篇结构的层次文本摘要获取方法,其特征在于:包括如下步骤:
步骤1:将待处理的文档中句子的单词编码成词向量,并针对每个句子,利用Bi-LSTM模型以及自注意力机制构建句子编码器得到句子向量;
步骤2:针对待处理的文档,利用Bi-LSTM模型以及自注意力机制构建篇章编码器得到篇章向量;
步骤3:基于所述篇章向量对句子进行分类得到候选句子;
步骤4:将候选句子输入基于RST构建的摘要提取器提取出核心EDU,并将所有候选句子的核心EDU拼接为文本摘要;
其中,将候选句子分割为文档单元,再利用文本单元构成语篇结构的层次树,层次树的叶子节点EDU表示被分割的文档单元;
步骤4中将候选句子输入基于RST构建的摘要提取器提取出核心EDU的过程如下:
步骤4-1:将候选句子分割为文档单元,再利用文本单元构成语篇结构的层次树;
每个文档单元分别作为层次树的叶子节点EDU;
步骤4-2:将每个EDU对应的文档单元中的单词分别与POS标签的神经嵌入级进行联合计算得到单词在EDU中的嵌入位置
Figure FDA0003537258860000011
进而得到嵌入位置向量
Figure FDA0003537258860000012
Figure FDA0003537258860000013
Figure FDA0003537258860000014
表示在EDU中嵌入字词的位置,pi为POS标签,
Figure FDA0003537258860000015
是异或运算符号,EDU对应的文档单元中单词集合表示为{w1,w2,..wp},wj为单词集合中第j个单词,p为文档单元中单词个数,emb为词嵌入公式符号;
步骤4-3:将步骤4-2中的嵌入位置向量
Figure FDA0003537258860000016
输入bi-LSTM层得到单词向量
Figure FDA0003537258860000017
再以平均池化计算得到EDU的另一表达Ede
Figure FDA0003537258860000018
式中,
Figure FDA0003537258860000019
为单词向量
Figure FDA00035372588600000110
中第j个单词向量;
步骤4-4:将候选句子对应的所有EDU的另一表达Ede输入bi-LSTM层得到
Figure FDA00035372588600000111
Figure FDA00035372588600000112
其中,q为候选句子对应的EDU个数;
步骤4-5:依据步骤4-1中的层次树以及所有EDU对应的
Figure FDA00035372588600000113
计算出每个EDU的得分,按照如下公式计算:
Figure FDA0003537258860000021
其中,S为EDU的得分,
Figure FDA0003537258860000022
为构建层次树中,EDU对应的前1、x+1个子树的解析表达,W为模型参数,
Figure FDA0003537258860000023
为紧接编码器输出得到的隐层向量,子树的解析表达通过平均池化得到:
Figure FDA0003537258860000024
其中,第x+1个子树的解析表达
Figure FDA0003537258860000025
中的所有EDU表示为:(ei,ei+1,...,ej),
Figure FDA0003537258860000026
等于第x+1个子树中EDU对应在
Figure FDA0003537258860000027
的值;
步骤4-6:依据每个EDU的得分选择核心EDU,其中,得分越高,对应EDU越重要;
步骤1中利用Bi-LSTM模型以及自注意力机制构建句子编码器得到句子向量的过程如下:
步骤1-1:将句子中单词的词向量输入Bi-LSTM模型获取句子的正向和反向向量,并作为LSTM的隐层状态;
步骤1-2:利用自注意力机制将步骤1-1中LSTM的隐层状态作为输入变量,得到权重向量,再结合步骤1-1中的所述LSTM的隐层状态与所述权重向量得到句子向量;
si=vsHs
si为第i个句子的句子向量,vs为权重向量,Hs为步骤1-1中LSTM的隐层状态;
所述权重向量vs表示为:
Figure FDA0003537258860000028
其中,softmax()是将注意力权重标准化为1的函数,tanh表示激活函数,ls、ws均为可学习参数,T为矩阵的转置符号;
步骤2中利用Bi-LSTM模型以及自注意力机制构建篇章编码器得到篇章向量的过程如下:
步骤2-1:输入步骤1中的句子向量至Bi-LSTM模型获取文档篇章的正向和反向向量,并作为LSTM的隐层状态;
步骤2-2:利用自注意力机制将步骤2-1中的LSTM的隐层状态作为输入变量,得到权重向量,再结合步骤2-1中的所述LSTM的隐层状态与权重向量得到篇章向量;
d=vdHd
d为篇章向量,vd为权重向量,Hd为步骤2-1中的LSTM的隐层状态;
所述权重向量vd表示为:
Figure FDA0003537258860000029
其中,softmax()是将注意力权重标准化为1的函数,tanh是激活函数,ld、wd均为可学习参数,T为矩阵的转置符号。
2.根据权利要求1所述的方法,其特征在于:步骤3中基于所述篇章向量对句子进行分类得到候选句子的过程如下:
采用概率分布计算每个句子的概率分布值;
P(yi=1)=σ(Gi+Li+Ti+Ri+d+b))
其中,d为篇章向量,Gi表示句子对整个篇章的重要度、Li为句子在篇章中的位置、Ti表示句子中包含的信息类型,Ri表示相关性;P(yi=1)表示句子的概率分布值;
然后,依据每个句子的概率分布值选定候选句子。
3.根据权利要求2所述的方法,其特征在于:句子对整个篇章的重要度Gi、句子在篇章中的位置Li、句子中包含的信息类型Ti、相关性Ri的公式如下:
Gi=WgSi
Li=Wlei
Ti=WtSi
Ri=SiWrd
其中,Si表示篇章中的句子,Wg,Wl和Wt、Wr,和是自动学习的数字权重,用于表示特征的比例重要性,ei表示句子的位置嵌入点。
4.一种基于权利要求1-3任一项所述方法的系统,其特征在于:包括:
句子向量生成模块:用于将待处理的文档中句子的单词编码成词向量,并针对每个句子,利用Bi-LSTM模型以及自注意力机制构建句子编码器得到句子向量;
篇章向量生成模块:用于针对待处理的文档,利用Bi-LSTM模型以及自注意力机制构建篇章编码器得到篇章向量;
候选句子获取模块:用于基于所述篇章向量对句子进行分类得到候选句子;
摘要提取模块:用于将候选句子输入基于RST构建的摘要提取器提取出核心EDU,并将所有候选句子的核心EDU拼接为文本摘要;
其中,将候选句子分割为文档单元,再利用文本单元构成语篇结构的层次树,层次树的叶子节点EDU表示被分割的文档单元。
5.一种终端设备,其特征在于:包括处理器和存储器,所述存储器存储了计算机程序,所述处理器调用所述计算机程序以执行:权利要求1-3任一项所述方法的步骤。
6.一种可读存储介质,其特征在于:存储了计算机程序,所述计算机程序被处理器调用以执行:权利要求1-3任一项所述方法的步骤。
CN202110279942.8A 2021-03-16 2021-03-16 一种基于语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质 Active CN113157907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110279942.8A CN113157907B (zh) 2021-03-16 2021-03-16 一种基于语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110279942.8A CN113157907B (zh) 2021-03-16 2021-03-16 一种基于语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113157907A CN113157907A (zh) 2021-07-23
CN113157907B true CN113157907B (zh) 2022-05-03

Family

ID=76887141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110279942.8A Active CN113157907B (zh) 2021-03-16 2021-03-16 一种基于语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113157907B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114116999A (zh) * 2021-11-11 2022-03-01 国网江苏省电力有限公司营销服务中心 一种业务文档驱动的智能客服构造方法
CN114462434A (zh) * 2021-11-22 2022-05-10 北京中科凡语科技有限公司 增强词汇一致性的神经机器翻译方法、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011092465A1 (en) * 2010-01-29 2011-08-04 British Telecommunications Public Limited Company Semantic textual analysis
CN109635282A (zh) * 2018-11-22 2019-04-16 清华大学 用于多方对话的篇章解析方法、装置、介质及计算设备
CN110069636A (zh) * 2019-05-05 2019-07-30 苏州大学 融合依存关系与篇章修辞关系的事件时序关系识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011092465A1 (en) * 2010-01-29 2011-08-04 British Telecommunications Public Limited Company Semantic textual analysis
CN109635282A (zh) * 2018-11-22 2019-04-16 清华大学 用于多方对话的篇章解析方法、装置、介质及计算设备
CN110069636A (zh) * 2019-05-05 2019-07-30 苏州大学 融合依存关系与篇章修辞关系的事件时序关系识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
VIN'ICIUS RODRIGUES UZEˆDA等.A Comprehensive Comparative Evaluation of RST-Based Summarization Methods.《ACM Transactions on Speech and Language Processing》.2010, *
文本摘要常用数据集和方法研究综述;侯圣峦等;《中文信息学报》;20190531;全文 *

Also Published As

Publication number Publication date
CN113157907A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
Chang et al. Chinese named entity recognition method based on BERT
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN109446338B (zh) 基于神经网络的药物疾病关系分类方法
CN109214003B (zh) 基于多层注意力机制的循环神经网络生成标题的方法
Yu et al. Learning composition models for phrase embeddings
CN109635280A (zh) 一种基于标注的事件抽取方法
US10949456B2 (en) Method and system for mapping text phrases to a taxonomy
Yan et al. Named entity recognition by using XLNet-BiLSTM-CRF
CN111221944B (zh) 文本意图识别方法、装置、设备和存储介质
CN113254610B (zh) 面向专利咨询的多轮对话生成方法
CN112989834A (zh) 一种基于平格增强线性转换器的命名实体识别方法和系统
CN110413768B (zh) 一种文章题目自动生成方法
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
Khan et al. Deep recurrent neural networks with word embeddings for Urdu named entity recognition
WO2008109665A1 (en) Fast semantic extraction using a neural network architecture
CN113157907B (zh) 一种基于语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
CN113326374A (zh) 基于特征增强的短文本情感分类方法及系统
CN111723572B (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
Xiao et al. Introduction to Transformers: an NLP Perspective
CN113033153A (zh) 基于Transformer模型融合关键信息的神经机器翻译模型
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
Wei et al. Embedding electronic health records for clinical information retrieval
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
Ghazi Zahedi et al. A deep extraction model for an unseen keyphrase detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230426

Address after: Building G4, China Minmetals Lushan Science and Technology Innovation Park, No. 966 Lushan South Road, Yuelu Street, Yuelu District, Changsha City, Hunan Province, 410006

Patentee after: Hunan Huaxin Software Co.,Ltd.

Address before: Yuelu District City, Hunan province 410083 Changsha Lushan Road No. 932

Patentee before: CENTRAL SOUTH University