CN112347753B - 一种应用于阅读机器人的摘要生成方法及系统 - Google Patents
一种应用于阅读机器人的摘要生成方法及系统 Download PDFInfo
- Publication number
- CN112347753B CN112347753B CN202011264506.5A CN202011264506A CN112347753B CN 112347753 B CN112347753 B CN 112347753B CN 202011264506 A CN202011264506 A CN 202011264506A CN 112347753 B CN112347753 B CN 112347753B
- Authority
- CN
- China
- Prior art keywords
- frame
- article
- representation
- abstract
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Devices For Executing Special Programs (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种应用于阅读机器人的摘要生成方法及系统;包括如下步骤:一、候选摘要抽取单元,在训练集中抽取与当前文章最相似的文章的摘要作为候选摘要;二、框架选择单元,使用框架关系、框架相似度两种度量方法筛选出文章中的重要框架;三、框架编码单元,获取框架的向量表示;四、文章编码单元,获取文章的向量表示;五、框架与文章交互单元,计算框架与文章之间的相互影响,得到最终的文章表示;六、解码单元,根据得到的文章表示生成摘要。本发明首次引入框架语义信息,将其融入到摘要生成模型中,计算了框架与文章之间的相互影响,有效的提升了摘要生成结果。本发明方法思路结构清晰,效果明显,可扩展性强。
Description
技术领域
本发明属于自然语言处理研究领域,具体涉及一种应用于阅读机器人的摘要生成方法及系统。
背景技术
摘要是全面准确地反映某一文本主要内容的简单连贯短文。自动文摘是利用计算机自动地从原始文本中提取摘要,旨在为用户提供文本的简短表示,方便用户快速高效的获取文本信息。该技术广泛应用于各大领域,如军事、公共安全、企业、出版、医疗等。同时面对数据的爆炸式增长,文本摘要生成逐渐成为自然语言处理(NLP)方面的一个热点。
文本摘要技术早期主要是一些基于特征的方法。Knight,K.;and Marcu,D.2002.Summarization beyond sentence extraction:A probabilistic approach tosentence compression.Artificial Intelligence 139(1):91–107.针对摘要生成问题,在解码过程中,借助句法分析工具将文章解析为句法树,然后对句法树进行排序和裁剪,得到最终的文本表示。Zhou,L.;and Hovy,E.2004.Template-filtered headlinesummarization.In Text Summarization Branches Out,56–60.针对标题生成问题,构建了大量的摘要模板及词库,使用不同的规则将词库中的词填充到固定的模板中形成摘要。
近年来,随着大规模数据集的涌现、高性能计算的快速发展,基于深度学习的文本摘要逐渐成为一个研究热点。基于神经网络的方法主要使用编码-解码结构,例如:Rush,A.M.;Chopra,S.;and Weston,J.2015.A Neural Attention Model for AbstractiveSentence Summarization.In Proceedings of the 2015Conference on EmpiricalMethods in Natural Language Processing,379–389.该论文使用了一种局部注意力机制,在生成文档表示的时候考虑了当前解码状态向量的影响。See,A.;Liu,P.J.;andManning,C.D.2017.Get to the point:Summarization with pointer-generatornetworks.arXiv preprint arXiv:1704.04368.针对摘要生成过程中的未登录词和重复问题,分别提出了拷贝机制和覆盖机制,使得模型可以直接从原始输入中复制重要的词,同时防止重复问题。
在编码-解码结构基础上,也有许多工作尝试将外部知识融入到模型中。Nallapati,R.;Zhou,B.;Gulcehre,C.;Xiang,B.;et al.2016.Abstractive textsummarization using sequence-to-sequence rnns and beyond.arXiv preprintarXiv:1602.06023.该论文将一些手工特征(比如:命名实体、词性信息等)直接拼接到文章词向量后,优化文章表示。Cao,Z.;Wei,F.;Li,W.;and Li,S.2018b.Faithful to theOriginal:Fact Aware Neural Abstractive Summarization.In AAAI.该论文抽取实体三元组作为事实描述,将其融合到文章向量中,进一步影响摘要生成,提升模型生成事实的准确性。Gunel,B.;Zhu,C.;Zeng,M.;and Huang,X.2019.Mind The Facts:Knowledge-Boosted Coherent Abstractive Text Summarization.In NeurIPS 2019.该论文从文章中抽取实体形成实体图,经过编码得到每个实体的向量表示,进而影响摘要生成。
尽管已经进行了大量的研究,并且取得了很大的进步,但是以上工作或是直接将外部知识作为词向量特征拼接到文本词向量后,或是抽取了文章中的实体信息指导摘要生成,并且没有用到文章本身蕴含的复杂的语义信息。
发明内容
针对上述阅读机器人的摘要生成问题,本发明提出了一种框架语义指导的摘要生成方法。该方法从整个训练集中筛选候选摘要,根据候选摘要中的框架筛选出文章中的重要框架,然后将筛选出的框架进行编码,并与文章编码进行交互,优化文章表示,进而引导摘要生成。
为达到上述目的,本发明采用了以下技术方案:
一种应用于阅读机器人的摘要生成方法,其特征在于,包括如下步骤:
步骤1:针对文章D,采用一个开源的全文检索引擎工具Lucene,在训练集中查找与当前文章D最相似的一篇文章Dcan,文章Dcan的摘要作为候选摘要Scan;
步骤2:使用汉语框架网标注工具分别抽取文章D和候选摘要Scan中的框架场景和其中表示文章D的第m个框架,表示候选摘要Scan的第n个框架,每个框架又由框架元素Ei构成,以文章框架为例,每个框架又由框架元素Ei构成,以文章框架为例,并筛选出与候选摘要框架Fs相关的文章D中的框架F';
步骤3:将步骤2筛选出的文章框架F'={F1',F2',…,Fk'}融合成一个框架序列F*后,输入预训练模型BERT,获取框架的向量表示Hf;
步骤4:将文章D={x1,x2,…,xl}输入预训练模型BERT,获取文章的向量表示Hd,其中,l表示文章的长度;
步骤5:将步骤4生成的文章表示Hd与步骤3生成的框架表示Hf进行融合,获取最终的文章表示C;
步骤6:将步骤5生成的文章表示C生成摘要。
进一步,所述步骤2中采用基于框架关系的方法、基于框架相似度的方法两种框架筛选方法筛选与候选摘要框架Fs相关的文章D中的框架F':
第一,基于框架关系的方法:如果Fd和Fs中的两个框架有关系,且关系度小于2,那么该框架被筛选;
scorei=[score1,score2,…,scorej,…]
Smax(i)=max(scorei)
其中,cosine指余弦相似度,scorei,j指候选摘要框架与文章框架相似度值,scorei是候选摘要框架与文章所有框架Fd的余弦相似度值集合,Smax(i)指文章中与候选摘要框架相似度值最大的框架,指的向量表示,是取其所有框架元素向量的平均值,具体公式如下:
其中,L是候选框架的框架元素Ei个数,e(Eil)是框架的第l个框架元素Eil的词向量;然后,根据相似度得分Smax得到相应的文章框架,再结合基于框架关系方法筛选出的框架,得到最终被筛选出的文章框架F'={F1',F2',…,Fk'},k表示筛选出的框架个数,并且其大小与候选摘要框架Fs个数一致。
进一步,所述步骤3中汉语框架网(CFN,Chinese Frame Net)是一个汉语词汇语义知识库,通过框架语义可以挖掘到词语背后隐藏的概念结构和语义场景。框架是指由词元和属于它的一系列框架元素构成的表达特定场景的语义结构形式。
进一步,所述步骤3中文章框架F'融合成框架序列F*的具体过程包括:首先,对F'中所有框架按框架覆盖度从大到小排序,框架覆盖度最大的框架作为基准框架Ftmp;然后,遍历剩余的框架,如果当前位置Fi是框架元素,且在Ftmp中与其对应的位置不是框架元素,则用Fi替换其中指Ftmp中第i个位置的信息;最终得到一个框架序列F*=Ftmp。
接下来使用预训练模型BERT作为编码层,获取框架的向量表示Hf,具体公式如下:
Hf=BERT(F*)
进一步,所述步骤5中文章表示Hd和框架表示Hf融合的具体过程包括:首先,计算框架表示Hf对文章表示Hd的影响,具体公式如下:
其中,αtj是t时刻框架对文章的注意力权重,Hf(j')指框架表示Hf第j'个隐藏状态,N指文章的长度,exp指以e为底的指数函数,同理,计算出文章表示Hd对框架表示Hf的影响Cd2f;然后,设计一个门控Hgate用来融合Cf2d和Cd2f的信息,具体公式如下:
其中,θ表示一个非线性函数,C为最终的文章表示。
进一步,所述步骤6具体包括:首先,在每一个解码步骤t,使用LSTM编码之前步骤的输出yt-1和文章表示C,得到当前步骤的解码状态st,具体公式如下:
st=LSTM(yt-1,Ct,st-1)
其中,st-1表示上一时刻的解码状态;然后,计算解码状态st对文章表示Ct的影响:
其中,βti是解码步骤t时刻的注意力权重,表示加权后的文章表示,Ci'指文章表示C的第i'个隐层状态;最后,根据得到的文章表示当前时刻解码状态st和上一时刻的输出yt-1共同预测当前时刻的词的表示Pvocab,具体公式如下:
其中,yt为当前t时刻的输出,W和b是可以学习的参数,Pvocab是预测当前词的概率。
一种应用于阅读机器人的摘要生成系统,其特征在于,该系统包括:候选摘要抽取单元、框架选择单元、框架编码单元、文章编码单元、框架与文章交互单元、解码单元,其中,
候选摘要抽取单元用于在训练集中查找与当前文章D最相似的一篇文章Dcan,文章Dcan的摘要作为候选摘要Scan;
框架选择单元用于使用汉语框架网标注工具分别抽取文章D和候选摘要Scan中的框架场景和其中,表示文章D的第m个框架,表示候选摘要Scan的第n个框架,并筛选出与候选摘要框架Fs相关的文章D中的框架F';
框架编码单元用于将筛选出的文章框架F'={F1',F2',…,Fk'}融合成一个框架序列F*后,输入预训练模型BERT,获取框架的向量表示Hf;
文章编码单元用于将文章D={x1,x2,…,xl}输入预训练模型BERT,获取文章的向量表示Hd,其中,l表示文章的长度;
框架与文章交互单元用于将文章表示Hd和框架表示Hf进行融合,获取最终的文章表示C;
解码单元用于将文章表示C生成摘要。
进一步,所述框架选择单元中采用基于框架关系的方法、基于框架相似度的方法两种框架筛选方法筛选与候选摘要框架Fs相关的文章D中的框架;
第一,基于框架关系的方法:如果Fd和Fs中的两个框架有关系,且关系度小于2,那么该框架被筛选;
scorei=[score1,score2,…,scorej,…]
Smax(i)=max(scorei)
其中,cosine指余弦相似度,scorei,j指候选摘要框架与文章框架相似度值,scorei是候选摘要框架与文章所有框架Fd的余弦相似度值集合,Smax(i)指文章中与候选摘要框架相似度值最大的框架,指的向量表示,是取其所有框架元素向量的平均值,具体公式如下:
其中,L是候选框架的框架元素Ei个数,e(Eil)是框架的第l个框架元素Eil的词向量;然后根据相似度得分Smax得到相应的文章框架,再结合基于框架关系方法筛选出的框架,得到最终被筛选出的文章框架F'={F1',F2',…,Fk'},k表示筛选出的框架个数,并且其大小与候选摘要框架Fs个数一致。
进一步,所述框架编码单元中:首先,对F'中所有框架按框架覆盖度从大到小排序,框架覆盖度最大的框架作为基准框架Ftmp;然后,遍历剩余的框架,如果当前位置Fi是框架元素,且在Ftmp中与其对应的位置不是框架元素,则用Fi替换其中指Ftmp中第i个位置的信息;最终得到一个框架序列F*=Ftmp。
进一步,所述框架与文章交互单元中:首先,计算框架表示Hf对文章表示Hd的影响,具体公式如下:
其中,αtj是t时刻框架对文章的注意力权重,Hf(j')指框架表示Hf第j'个隐藏状态,N指文章的长度,exp指以e为底的指数函数,同理,计算出文章表示Hd对框架表示Hf的影响Cd2f;然后,设计一个门控Hgate用来融合Cf2d和Cd2f的信息,具体公式如下:
其中,θ表示一个非线性函数,C为最终的文章表示。
进一步,所述解码单元中:首先,在每一个解码步骤t,使用LSTM编码之前步骤的输出yt-1和文章表示C,得到当前步骤的解码状态st,具体公式如下:
st=LSTM(yt-1,Ct,st-1)
其中,st-1表示上一时刻的解码状态;然后,计算解码状态st对文章表示Ct的影响:
其中,βti是解码步骤t时刻的注意力权重,表示加权后的文章表示,Ci'指文章表示C的第i'个隐层状态;最后,根据得到的文章表示当前时刻解码状态st和上一时刻的输出yt-1共同预测当前时刻的词的表示Pvocab,具体公式如下:
其中,yt为当前t时刻的输出,W和b是可以学习的参数,Pvocab是预测当前词的概率。
与现有技术相比,本发明具有以下有益效果:
一、本发明针对摘要生成问题,引入了框架语义信息,并将其融合到模型结构中,引导摘要生成。
二、本发明针对摘要生成问题,首次将框架语义信息引入到摘要生成中,有效填补了摘要智能生成中利用框架语义信息方面的空白。
三、本发明针对框架筛选问题,提出了框架关系、框架相似度两个度量方法进行框架筛选,该方法更符合人类推理思路,降低了推理成本。
四、本发明提出了框架语义指导的摘要生成方法,该方法引入了外部语义信息,计算了框架与文章之间的相互影响,有效的提升了摘要生成结果,对自然语言处理相关研究有启发效果。本发明方法思路结构清晰,效果明显,可扩展性强。
附图说明:
图1为本发明的系统流程图;
图2为本发明的关系构造单元具体流程图;
图3为本发明的摘要生成模型示意图;
图4为本发明的摘要示例框架标注示意图;
图5为本发明的摘要示例示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明,附图为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
本发明实施例提供了一种阅读机器人的摘要生成系统,如图1所示,本发明的系统流程图包括:候选摘要抽取单元、框架选择单元、框架编码单元、文章编码单元、框架与文章交互单元、解码单元六部分。
候选摘要抽取单元用于在训练集中抽取当前文章D最相似的一篇文章Dcan,文章Dcan的摘要作为候选摘要Scan,指导摘要生成。综合考虑抽取的准确性和抽取效率后,使用一个开源的全文检索引擎工具Lucene在训练集中检索与当前文章最相似的文章,抽取该文章的摘要作为候选摘要进行后续操作。
框架选择单元用于筛选出文章中的重要框架。使用汉语框架网标注工具分别抽取文章D和候选摘要Scan中的框架场景和 其中m和n分别表示文章框架和候选摘要框架的个数。然后,筛选出与候选摘要框架Fs相关的文章中的框架F'。筛选方法包括框架关系、框架相似度两种。其中,基于框架关系的方法是筛选候选摘要框架与文章框架关系在2度以内的文章中的框架。基于框架相似度的方法是分别计算每个候选摘要框架与所有文章框架的相似度值,选取相似度值最大的文章框架作为候选框架,具体包括:首先,用BERT编码框架元素的定义,使用[CLS]标志的向量作为框架元素的词向量,然后将属于当前框架所有框架元素词向量平均得到框架向量,最后用余弦相似度计算候选摘要框架和文章框架的相似度。
框架编码单元用于将筛选出的文章框架F'={F1',F2',…,Fk'}融合成一个框架序列F*后,输入预训练模型BERT,获取框架的向量表示Hf。
文章编码单元用于将文章D={x1,x2,…,xl}输入预训练模型BERT,获取文章的向量表示Hd,其中,l表示文章的长度。
文本可以看作是一个序列问题,文章词与词之间、句子之间存在依赖关系,BERT模型使用多层的transformer架构,目标任务包含了词语识别、句子预测任务,在超大规模数据上进行了预训练,进一步提升模型泛化能力,并且在不同的下游任务上都取得了最优的结果。本实施例中使用BERT分别对框架和文章进行编码,获取其向量表示。
框架与文章交互单元用于将文章表示Hd和框架表示Hf进行融合,获取最终的文章表示C。该模块分别计算了框架对文章的影响、文章对框架的影响,之后设计了一个门控融合文章和框架信息,该门控用来确定框架及文章中需要保留和舍弃的信息,得到最终的文章表示。
解码单元用于将文章表示C进行解码,生成摘要。首先,在每一个解码步骤t,使用LSTM编码之前步骤的输出yt-1和文章表示C,得到当前步骤的解码状态st;然后,计算解码状态st对文章表示Ct的影响;最后,根据得到的文章表示当前时刻解码状态st和上一时刻的输出yt-1共同预测当前时刻的词的表示Pvocab。
本发明实施例还提供了一种阅读机器人的摘要生成方法,如图2所示,本发明的摘要生成方法具体步骤如下:
101、获取文章(如图5所示)。
102、针对文章D,采用一个开源的全文检索引擎工具Lucene,在训练集中查找与当前文章D最相似的一篇文章Dcan,文章的摘要作为候选摘要Scan。
103、使用汉语框架网标注工具分别抽取文章D和候选摘要Scan中的框架场景和其中m和n分别表示文章框架和候选摘要框架的个数。如图4所示,文章中包含4个框架:陈述、获得、企业、唯一实例,摘要中包含2个框架:企业,接收。文章中的框架“企业”和“获得”与摘要中框架有关,对生成摘要有用。另外两个框架“陈述”和“唯一实例”是冗余框架与摘要生成无关。然后,通过两种框架筛选方法筛选与候选摘要框架Fs相关的文章D中的框架F'。基于框架关系的方法筛选文章和候选摘要中关系度小于2的框架。针对不满足上述方法的框架采用基于框架相似度的方法:首先用BERT编码框架元素的定义,使用[CLS]标志的向量作为框架元素的词向量E,然后将属于当前框架所有框架元素词向量平均得到框架向量,接着用余弦相似度分别计算每个候选摘要框架和所有文章框架的相似度,为每一个候选摘要框架筛选与其相似度最大的文章框架公式如下:
scorei=[score1,score2,…,scorej,…]
Smax(i)=max(scorei)
其中,L是候选框架的框架元素Ei个数,e(Eil)是框架的第l个框架元素Eil的词向量。cosine指余弦相似度,scorei,j指候选摘要框架与文章框架相似度值,scorei是候选摘要框架与文章所有框架Fd的余弦相似度值集合,Smax(i)指文章中与候选摘要框架相似度值最大的框架,指的向量表示,是取其所有框架元素向量的平均值。最后,根据相似度得分Smax得到相应的文章框架,再结合基于框架关系方法筛选出的框架,得到最终被筛选出的文章框架F'={F1',F2',…,Fk'},k表示筛选出的框架个数,并且其大小与候选摘要框架Fs个数一致。
104、根据之前筛选出的文章框架F'={F1',F2',…,Fk'},将所有的框架表示融合成一个框架序列F*。首先,对F'中所有框架按框架覆盖度从大到小排序,框架覆盖度最大的框架作为基准框架Ftmp;然后,遍历剩余的框架,如果当前位置Fi是框架元素,且在Ftmp中与其对应的位置不是框架元素,则用Fi替换其中指Ftmp中第i个位置的信息;最终得到一个框架序列F*=Ftmp。
接下来使用预训练模型BERT作为编码层,获取框架的向量表示Hf,具体公式如下:
Hf=BERT(F*)
105、将文章D={x1,x2,…,xl}输入预训练模型BERT,获取文章向量表示Hd。其中,l表示文章的长度,具体公式如下:
Hd=BERT(D)
106、通过文章表示Hd和框架表示Hf获取最终的文章表示C。首先计算框架表示Hf对文章表示Hd的影响,具体公式如下:
其中,αtj是t时刻框架对文章的注意力权重,Hf(j')指框架表示Hf第j'个隐藏状态,N指文章的长度,exp指以e为底的指数函数,同理,计算出文章表示Hd对框架表示Hf的影响Cd2f;然后,设计一个门控Hgate用来融合Cf2d和Cd2f的信息,具体公式如下:
其中,θ表示一个非线性函数,C为最终的文章表示。
107、将生成的文章表示C生成摘要。首先,在每一个解码步骤t,使用LSTM编码之前步骤的输出yt-1和文章表示C,得到当前步骤的解码状态st,具体公式如下:
st=LSTM(yt-1,Ct,st-1)
其中,st-1表示上一时刻的解码状态。然后计算解码状态st对文章表示Ct的影响。
其中,βti是解码步骤t时刻的注意力权重,表示加权后的文章表示,Ci'指文章表示C的第i'个隐层状态;最后,根据得到的文章表示当前时刻解码状态st和上一时刻的输出yt-1共同预测当前时刻的词的表示Pvocab,具体公式如下:
其中,yt为当前t时刻的输出,W和b是可以学习的参数,Pvocab是预测当前词的概率。
上面结合附图对本发明的实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (6)
1.一种应用于阅读机器人的摘要生成方法,其特征在于,包括如下步骤:
步骤1:针对文章D,在训练集中查找与当前文章D最相似的一篇文章Dcan,文章Dcan的摘要作为候选摘要Scan;
步骤3:将步骤2筛选出的文章框架F'={F1',F2',…,Fk'}融合成一个框架序列F*后,输入预训练模型BERT,获取框架的向量表示Hf;
步骤4:将文章D={x1,x2,…,xl}输入预训练模型BERT,获取文章的向量表示Hd,其中,l表示文章的长度;
步骤5:将步骤4生成的文章表示Hd和步骤3生成的框架表示Hf进行融合,获取最终的文章表示C;
步骤6:将步骤5生成的文章表示C生成摘要;
所述步骤3中文章框架F'融合成框架序列F*的具体过程包括:首先,对F'中所有框架按框架覆盖度从大到小排序,框架覆盖度最大的框架作为基准框架Ftmp;然后,遍历剩余的框架,如果当前位置Fi是框架元素,且在Ftmp中与其对应的位置不是框架元素,则用Fi替换其中指Ftmp中第i个位置的信息;最终得到一个框架序列F*=Ftmp;
所述步骤5中文章表示Hd和框架表示Hf融合的具体过程包括:首先,计算框架表示Hf对文章表示Hd的影响,具体公式如下:
其中,αtj是t时刻框架对文章的注意力权重,Hf(j')指框架表示Hf第j'个隐藏状态,N指文章的长度,exp指以e为底的指数函数,同理,计算出文章表示Hd对框架表示Hf的影响Cd2f;然后,设计一个门控Hgate用来融合Cf2d和Cd2f的信息,具体公式如下:
其中,θ表示一个非线性函数,C为最终的文章表示。
2.根据权利要求1所述的一种应用于阅读机器人的摘要生成方法,其特征在于,所述步骤2中采用基于框架关系的方法、基于框架相似度的方法两种框架筛选方法筛选与候选摘要框架Fs相关的文章D中的框架F':
第一,基于框架关系的方法:如果Fd和Fs中的两个框架有关系,且关系度小于2,那么该框架被筛选;
scorei=[score1,score2,…,scorej,…]
Smax(i)=max(scorei)
其中,cosine指余弦相似度,scorei,j指候选摘要框架与文章框架相似度值,scorei是候选摘要框架与文章所有框架Fd的余弦相似度值集合,Smax(i)指文章中与候选摘要框架相似度值最大的框架,指的向量表示,是取其所有框架元素向量的平均值,具体公式如下:
3.根据权利要求1所述的一种应用于阅读机器人的摘要生成方法,其特征在于,所述步骤6具体包括:首先,在每一个解码步骤t,使用LSTM编码之前步骤的输出yt-1和文章表示C,得到当前步骤的解码状态st,具体公式如下:
st=LSTM(yt-1,Ct,st-1)
其中,st-1表示上一时刻的解码状态;然后,计算解码状态st对文章表示Ct的影响:
其中,βti是解码步骤t时刻的注意力权重,表示加权后的文章表示,Ci'指文章表示C的第i'个隐层状态;最后,根据得到的文章表示当前时刻解码状态st和上一时刻的输出yt-1共同预测当前时刻的词的表示Pvocab,具体公式如下:
其中,yt为当前t时刻的输出,W和b是学习的参数,Pvocab是预测当前词的概率。
4.一种应用于阅读机器人的摘要生成系统,其特征在于,该系统包括:候选摘要抽取单元、框架选择单元、框架编码单元、文章编码单元、框架与文章交互单元、解码单元,其中,
候选摘要抽取单元用于在训练集中查找与当前文章D最相似的一篇文章Dcan,文章Dcan的摘要作为候选摘要Scan;
框架选择单元用于根据通过汉语框架网标注工具抽取出的文章D和候选摘要Scan中的框架场景和其中,表示文章D的第m个框架,表示候选摘要Scan的第n个框架,筛选出与候选摘要框架Fs相关的文章D中的框架F';
框架编码单元用于将筛选出的文章框架F'={F1',F2',…,Fk'}融合成一个框架序列F*后,输入预训练模型BERT,获取框架的向量表示Hf;
文章编码单元用于将文章D={x1,x2,…,xl}输入预训练模型BERT,获取文章的向量表示Hd,其中,l表示文章的长度;
框架与文章交互单元用于将文章表示Hd和框架表示Hf进行融合,获取最终的文章表示C;
解码单元用于将文章表示C生成摘要;
所述框架编码单元中:首先,对F'中所有框架按框架覆盖度从大到小排序,框架覆盖度最大的框架作为基准框架Ftmp;然后,遍历剩余的框架,如果当前位置Fi是框架元素,且在Ftmp中与其对应的位置不是框架元素,则用Fi替换其中指Ftmp中第i个位置的信息;最终得到一个框架序列F*=Ftmp;
所述框架与文章交互单元中:首先,计算框架表示Hf对文章表示Hd的影响,具体公式如下:
其中,αtj是t时刻框架对文章的注意力权重,Hf(j')指框架表示Hf第j'个隐藏状态,N指文章的长度,exp指以e为底的指数函数,同理,计算出文章表示Hd对框架表示Hf的影响Cd2f;然后,设计一个门控Hgate用来融合Cf2d和Cd2f的信息,具体公式如下:
其中,θ表示一个非线性函数,C为最终的文章表示。
5.根据权利要求4所述的一种应用于阅读机器人的摘要生成系统,其特征在于,所述框架选择单元中采用基于框架关系的方法、基于框架相似度的方法两种框架筛选方法筛选与候选摘要框架Fs相关的文章D中的框架;
第一,基于框架关系的方法:如果Fd和Fs中的两个框架有关系,且关系度小于2,那么该框架被筛选;
scorei=[score1,score2,…,scorej,…]
Smax(i)=max(scorei)
其中,cosine指余弦相似度,scorei,j指候选摘要框架与文章框架相似度值,scorei是候选摘要框架与文章所有框架Fd的余弦相似度值集合,Smax(i)指文章中与候选摘要框架相似度值最大的框架,指的向量表示,是取其所有框架元素向量的平均值,具体公式如下:
6.根据权利要求4所述的一种应用于阅读机器人的摘要生成系统,其特征在于,所述解码单元中:首先,在每一个解码步骤t,使用LSTM编码之前步骤的输出yt-1和文章表示C,得到当前步骤的解码状态st,具体公式如下:
st=LSTM(yt-1,Ct,st-1)
其中,st-1表示上一时刻的解码状态;然后,计算解码状态st对文章表示Ct的影响:
其中,βti是解码步骤t时刻的注意力权重,表示加权后的文章表示,Ci'指文章表示C的第i'个隐层状态;最后,根据得到的文章表示当前时刻解码状态st和上一时刻的输出yt-1共同预测当前时刻的词的表示Pvocab,具体公式如下:
其中,yt为当前t时刻的输出,W和b是学习的参数,Pvocab是预测当前词的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011264506.5A CN112347753B (zh) | 2020-11-12 | 2020-11-12 | 一种应用于阅读机器人的摘要生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011264506.5A CN112347753B (zh) | 2020-11-12 | 2020-11-12 | 一种应用于阅读机器人的摘要生成方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112347753A CN112347753A (zh) | 2021-02-09 |
CN112347753B true CN112347753B (zh) | 2022-05-27 |
Family
ID=74363405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011264506.5A Active CN112347753B (zh) | 2020-11-12 | 2020-11-12 | 一种应用于阅读机器人的摘要生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347753B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326866B (zh) * | 2021-04-16 | 2022-05-31 | 山西大学 | 一种融合语义场景的摘要自动生成方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2757391A2 (en) * | 2013-01-22 | 2014-07-23 | Schlumberger Technology B.V. | Automatic processing of ultrasonic data |
CN107832295A (zh) * | 2017-11-08 | 2018-03-23 | 山西大学 | 阅读机器人的标题选择方法及系统 |
CN109948162A (zh) * | 2019-03-25 | 2019-06-28 | 北京理工大学 | 融合序列语法标注框架的生成式文本摘要方法 |
CN111026861A (zh) * | 2019-12-10 | 2020-04-17 | 腾讯科技(深圳)有限公司 | 文本摘要的生成方法、训练方法、装置、设备及介质 |
CN111488726A (zh) * | 2020-03-31 | 2020-08-04 | 成都数之联科技有限公司 | 基于指针网络的非结构文本抽取多任务联合训练方法 |
CN111639174A (zh) * | 2020-05-15 | 2020-09-08 | 民生科技有限责任公司 | 文本摘要生成系统、方法、装置及计算机可读存储介质 |
CN111737974A (zh) * | 2020-08-18 | 2020-10-02 | 北京擎盾信息科技有限公司 | 一种语句的语义抽象化表示方法及装置 |
CN111814465A (zh) * | 2020-06-17 | 2020-10-23 | 平安科技(深圳)有限公司 | 基于机器学习的信息抽取方法、装置、计算机设备及介质 |
CN111859909A (zh) * | 2020-07-10 | 2020-10-30 | 山西大学 | 一种语义场景一致性识别阅读机器人 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929044A (zh) * | 2019-12-03 | 2020-03-27 | 山西大学 | 一种面向学术合作网络的社区检测方法和装置 |
-
2020
- 2020-11-12 CN CN202011264506.5A patent/CN112347753B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2757391A2 (en) * | 2013-01-22 | 2014-07-23 | Schlumberger Technology B.V. | Automatic processing of ultrasonic data |
CN107832295A (zh) * | 2017-11-08 | 2018-03-23 | 山西大学 | 阅读机器人的标题选择方法及系统 |
CN109948162A (zh) * | 2019-03-25 | 2019-06-28 | 北京理工大学 | 融合序列语法标注框架的生成式文本摘要方法 |
CN111026861A (zh) * | 2019-12-10 | 2020-04-17 | 腾讯科技(深圳)有限公司 | 文本摘要的生成方法、训练方法、装置、设备及介质 |
CN111488726A (zh) * | 2020-03-31 | 2020-08-04 | 成都数之联科技有限公司 | 基于指针网络的非结构文本抽取多任务联合训练方法 |
CN111639174A (zh) * | 2020-05-15 | 2020-09-08 | 民生科技有限责任公司 | 文本摘要生成系统、方法、装置及计算机可读存储介质 |
CN111814465A (zh) * | 2020-06-17 | 2020-10-23 | 平安科技(深圳)有限公司 | 基于机器学习的信息抽取方法、装置、计算机设备及介质 |
CN111859909A (zh) * | 2020-07-10 | 2020-10-30 | 山西大学 | 一种语义场景一致性识别阅读机器人 |
CN111737974A (zh) * | 2020-08-18 | 2020-10-02 | 北京擎盾信息科技有限公司 | 一种语句的语义抽象化表示方法及装置 |
Non-Patent Citations (2)
Title |
---|
基于指针生成网络模型的自动摘要研究;肖树一;《中国优秀博硕士论文全文数据库(硕士)信息科技辑》;20200315(第3期);第I138-1653页 * |
框架语义推理技术研究;张旭华;《中国优秀博硕士论文全文数据库(硕士)信息科技辑》;20170615(第6期);第I138-1521页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112347753A (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102577514B1 (ko) | 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체 | |
Li et al. | Leveraging linguistic structures for named entity recognition with bidirectional recursive neural networks | |
CN108628935B (zh) | 一种基于端到端记忆网络的问答方法 | |
CN111324728A (zh) | 文本事件摘要的生成方法、装置、电子设备及存储介质 | |
CN110083729B (zh) | 一种图像搜索的方法及系统 | |
CN113032552B (zh) | 一种基于文本摘要的政策要点抽取方法与提取系统 | |
Farahani et al. | Leveraging ParsBERT and pretrained mT5 for Persian abstractive text summarization | |
Song et al. | Importance estimation from multiple perspectives for keyphrase extraction | |
Chen et al. | Chinese Weibo sentiment analysis based on character embedding with dual-channel convolutional neural network | |
Dhivyaa et al. | Transliteration based generative pre-trained transformer 2 model for Tamil text summarization | |
Wang et al. | Fiction popularity prediction based on emotion analysis | |
CN112347753B (zh) | 一种应用于阅读机器人的摘要生成方法及系统 | |
Moctezuma et al. | Video captioning: a comparative review of where we are and which could be the route | |
Tomer et al. | STV-BEATS: skip thought vector and bi-encoder based automatic text summarizer | |
Kumari et al. | Context-based question answering system with suggested questions | |
CN117076608A (zh) | 一种基于文本动态跨度的整合外部事件知识的脚本事件预测方法及装置 | |
CN117235250A (zh) | 一种对话摘要生成方法、装置和设备 | |
CN116932736A (zh) | 一种基于用户需求结合倒排表的专利推荐方法 | |
Deepak et al. | Automatic image captioning system using a deep learning approach | |
Song et al. | Sentiment analysis technologies in AliMe—an intelligent assistant for e-commerce | |
CN114595370A (zh) | 模型训练、排序方法、装置、电子设备及存储介质 | |
CN114626367A (zh) | 基于新闻文章内容的情感分析方法、系统、设备及介质 | |
CN113157914A (zh) | 一种基于多层循环神经网络的文档摘要提取方法及系统 | |
CN111259159A (zh) | 数据挖掘方法、装置和计算机可读存储介质 | |
Relan et al. | A review on abstractive text summarization Methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |