CN112347753A - 一种应用于阅读机器人的摘要生成方法及系统 - Google Patents

一种应用于阅读机器人的摘要生成方法及系统 Download PDF

Info

Publication number
CN112347753A
CN112347753A CN202011264506.5A CN202011264506A CN112347753A CN 112347753 A CN112347753 A CN 112347753A CN 202011264506 A CN202011264506 A CN 202011264506A CN 112347753 A CN112347753 A CN 112347753A
Authority
CN
China
Prior art keywords
frame
article
representation
abstract
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011264506.5A
Other languages
English (en)
Other versions
CN112347753B (zh
Inventor
关勇
李茹
郭少茹
谭红叶
张虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN202011264506.5A priority Critical patent/CN112347753B/zh
Publication of CN112347753A publication Critical patent/CN112347753A/zh
Application granted granted Critical
Publication of CN112347753B publication Critical patent/CN112347753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开了一种应用于阅读机器人的摘要生成方法及系统;包括如下步骤:一、候选摘要抽取单元,在训练集中抽取与当前文章最相似的文章的摘要作为候选摘要;二、框架选择单元,使用框架关系、框架相似度两种度量方法筛选出文章中的重要框架;三、框架编码单元,获取框架的向量表示;四、文章编码单元,获取文章的向量表示;五、框架与文章交互单元,计算框架与文章之间的相互影响,得到最终的文章表示;六、解码单元,根据得到的文章表示生成摘要。本发明首次引入框架语义信息,将其融入到摘要生成模型中,计算了框架与文章之间的相互影响,有效的提升了摘要生成结果。本发明方法思路结构清晰,效果明显,可扩展性强。

Description

一种应用于阅读机器人的摘要生成方法及系统
技术领域
本发明属于自然语言处理研究领域,具体涉及一种应用于阅读机器人的摘要生成方法及系统。
背景技术
摘要是全面准确地反映某一文本主要内容的简单连贯短文。自动文摘是利用计算机自动地从原始文本中提取摘要,旨在为用户提供文本的简短表示,方便用户快速高效的获取文本信息。该技术广泛应用于各大领域,如军事、公共安全、企业、出版、医疗等。同时面对数据的爆炸式增长,文本摘要生成逐渐成为自然语言处理(NLP)方面的一个热点。
文本摘要技术早期主要是一些基于特征的方法。Knight,K.;and Marcu,D.2002.Summarization beyond sentence extraction:A probabilistic approach tosentence compression.Artificial Intelligence 139(1):91–107.针对摘要生成问题,在解码过程中,借助句法分析工具将文章解析为句法树,然后对句法树进行排序和裁剪,得到最终的文本表示。Zhou,L.;and Hovy,E.2004.Template-filtered headlinesummarization.In Text Summarization Branches Out,56–60.针对标题生成问题,构建了大量的摘要模板及词库,使用不同的规则将词库中的词填充到固定的模板中形成摘要。
近年来,随着大规模数据集的涌现、高性能计算的快速发展,基于深度学习的文本摘要逐渐成为一个研究热点。基于神经网络的方法主要使用编码-解码结构,例如:Rush,A.M.;Chopra,S.;and Weston,J.2015.A Neural Attention Model for AbstractiveSentence Summarization.In Proceedings of the 2015Conference on EmpiricalMethods in Natural Language Processing,379–389.该论文使用了一种局部注意力机制,在生成文档表示的时候考虑了当前解码状态向量的影响。See,A.;Liu,P.J.;andManning,C.D.2017.Get to the point:Summarization with pointer-generatornetworks.arXiv preprint arXiv:1704.04368.针对摘要生成过程中的未登录词和重复问题,分别提出了拷贝机制和覆盖机制,使得模型可以直接从原始输入中复制重要的词,同时防止重复问题。
在编码-解码结构基础上,也有许多工作尝试将外部知识融入到模型中。Nallapati,R.;Zhou,B.;Gulcehre,C.;Xiang,B.;et al.2016.Abstractive textsummarization using sequence-to-sequence rnns and beyond.arXiv preprintarXiv:1602.06023.该论文将一些手工特征(比如:命名实体、词性信息等)直接拼接到文章词向量后,优化文章表示。Cao,Z.;Wei,F.;Li,W.;and Li,S.2018b.Faithful to theOriginal:Fact Aware Neural Abstractive Summarization.In AAAI.该论文抽取实体三元组作为事实描述,将其融合到文章向量中,进一步影响摘要生成,提升模型生成事实的准确性。Gunel,B.;Zhu,C.;Zeng,M.;and Huang,X.2019.Mind The Facts:Knowledge-Boosted Coherent Abstractive Text Summarization.In NeurIPS 2019.该论文从文章中抽取实体形成实体图,经过编码得到每个实体的向量表示,进而影响摘要生成。
尽管已经进行了大量的研究,并且取得了很大的进步,但是以上工作或是直接将外部知识作为词向量特征拼接到文本词向量后,或是抽取了文章中的实体信息指导摘要生成,并且没有用到文章本身蕴含的复杂的语义信息。
发明内容
针对上述阅读机器人的摘要生成问题,本发明提出了一种框架语义指导的摘要生成方法。该方法从整个训练集中筛选候选摘要,根据候选摘要中的框架筛选出文章中的重要框架,然后将筛选出的框架进行编码,并与文章编码进行交互,优化文章表示,进而引导摘要生成。
为达到上述目的,本发明采用了以下技术方案:
一种应用于阅读机器人的摘要生成方法,其特征在于,包括如下步骤:
步骤1:针对文章D,采用一个开源的全文检索引擎工具Lucene,在训练集中查找与当前文章D最相似的一篇文章Dcan,文章Dcan的摘要作为候选摘要Scan
步骤2:使用汉语框架网标注工具分别抽取文章D和候选摘要Scan中的框架场景
Figure BDA0002775676110000031
Figure BDA0002775676110000032
其中
Figure BDA0002775676110000033
表示文章D的第m个框架,
Figure BDA0002775676110000034
表示候选摘要Scan的第n个框架,每个框架又由框架元素Ei构成,以文章框架
Figure BDA0002775676110000035
为例,
Figure BDA0002775676110000036
每个框架又由框架元素Ei构成,以文章框架
Figure BDA0002775676110000037
为例,
Figure BDA0002775676110000038
并筛选出与候选摘要框架Fs相关的文章D中的框架F';
步骤3:将步骤2筛选出的文章框架F'={F1',F2',…,Fk'}融合成一个框架序列F*后,输入预训练模型BERT,获取框架的向量表示Hf
步骤4:将文章D={x1,x2,…,xl}输入预训练模型BERT,获取文章的向量表示Hd,其中,l表示文章的长度;
步骤5:将步骤4生成的文章表示Hd与步骤3生成的框架表示Hf进行融合,获取最终的文章表示C;
步骤6:将步骤5生成的文章表示C生成摘要。
进一步,所述步骤2中采用基于框架关系的方法、基于框架相似度的方法两种框架筛选方法筛选与候选摘要框架Fs相关的文章D中的框架F':
第一,基于框架关系的方法:如果Fd和Fs中的两个框架有关系,且关系度小于2,那么该框架被筛选;
第二,基于框架相似度的方法;针对不满足第一种条件的框架,计算每一个候选摘要框架
Figure BDA0002775676110000041
与所有的文章框架Fd的余弦相似度,然后为每一个候选摘要框架
Figure BDA0002775676110000042
筛选与其相似度最大的文章框架
Figure BDA0002775676110000043
公式如下:
Figure BDA0002775676110000044
scorei=[score1,score2,…,scorej,…]
Smax(i)=max(scorei)
其中,cosine指余弦相似度,scorei,j指候选摘要框架
Figure BDA0002775676110000045
与文章框架
Figure BDA0002775676110000046
相似度值,scorei是候选摘要框架
Figure BDA0002775676110000047
与文章所有框架Fd的余弦相似度值集合,Smax(i)指文章中与候选摘要框架
Figure BDA0002775676110000048
相似度值最大的框架,
Figure BDA0002775676110000049
Figure BDA00027756761100000410
的向量表示,是取其所有框架元素向量的平均值,具体公式如下:
Figure BDA00027756761100000411
其中,L是候选框架
Figure BDA00027756761100000412
的框架元素Ei个数,e(Eil)是框架
Figure BDA00027756761100000413
的第l个框架元素Eil的词向量;然后,根据相似度得分Smax得到相应的文章框架,再结合基于框架关系方法筛选出的框架,得到最终被筛选出的文章框架F'={F1',F2',…,Fk'},k表示筛选出的框架个数,并且其大小与候选摘要框架Fs个数一致。
进一步,所述步骤3中汉语框架网(CFN,Chinese Frame Net)是一个汉语词汇语义知识库,通过框架语义可以挖掘到词语背后隐藏的概念结构和语义场景。框架是指由词元和属于它的一系列框架元素构成的表达特定场景的语义结构形式。
进一步,所述步骤3中文章框架F'融合成框架序列F*的具体过程包括:首先,对F'中所有框架按框架覆盖度从大到小排序,框架覆盖度最大的框架作为基准框架Ftmp;然后,遍历剩余的框架,如果当前位置Fi是框架元素,且在Ftmp中与其对应的位置不是框架元素,则用Fi替换
Figure BDA00027756761100000414
其中
Figure BDA00027756761100000415
指Ftmp中第i个位置的信息;最终得到一个框架序列F*=Ftmp
接下来使用预训练模型BERT作为编码层,获取框架的向量表示Hf,具体公式如下:
Hf=BERT(F*)
进一步,所述步骤5中文章表示Hd和框架表示Hf融合的具体过程包括:首先,计算框架表示Hf对文章表示Hd的影响,具体公式如下:
Figure BDA0002775676110000051
Figure BDA0002775676110000052
其中,αtj是t时刻框架对文章的注意力权重,Hf(j')指框架表示Hf第j'个隐藏状态,N指文章的长度,exp指以e为底的指数函数,同理,计算出文章表示Hd对框架表示Hf的影响Cd2f;然后,设计一个门控Hgate用来融合Cf2d和Cd2f的信息,具体公式如下:
Figure BDA0002775676110000053
Figure BDA0002775676110000054
其中,θ表示一个非线性函数,C为最终的文章表示。
进一步,所述步骤6具体包括:首先,在每一个解码步骤t,使用LSTM编码之前步骤的输出yt-1和文章表示C,得到当前步骤的解码状态st,具体公式如下:
st=LSTM(yt-1,Ct,st-1)
其中,st-1表示上一时刻的解码状态;然后,计算解码状态st对文章表示Ct的影响:
Figure BDA0002775676110000061
Figure BDA0002775676110000062
其中,βti是解码步骤t时刻的注意力权重,
Figure BDA0002775676110000063
表示加权后的文章表示,Ci'指文章表示C的第i'个隐层状态;最后,根据得到的文章表示
Figure BDA0002775676110000064
当前时刻解码状态st和上一时刻的输出yt-1共同预测当前时刻的词的表示Pvocab,具体公式如下:
Figure BDA0002775676110000065
其中,yt为当前t时刻的输出,W和b是可以学习的参数,Pvocab是预测当前词的概率。
一种应用于阅读机器人的摘要生成系统,其特征在于,该系统包括:候选摘要抽取单元、框架选择单元、框架编码单元、文章编码单元、框架与文章交互单元、解码单元,其中,
候选摘要抽取单元用于在训练集中查找与当前文章D最相似的一篇文章Dcan,文章Dcan的摘要作为候选摘要Scan
框架选择单元用于使用汉语框架网标注工具分别抽取文章D和候选摘要Scan中的框架场景
Figure BDA0002775676110000066
Figure BDA0002775676110000067
其中,
Figure BDA0002775676110000068
表示文章D的第m个框架,
Figure BDA0002775676110000069
表示候选摘要Scan的第n个框架,并筛选出与候选摘要框架Fs相关的文章D中的框架F';
框架编码单元用于将筛选出的文章框架F'={F1',F2',…,Fk'}融合成一个框架序列F*后,输入预训练模型BERT,获取框架的向量表示Hf
文章编码单元用于将文章D={x1,x2,…,xl}输入预训练模型BERT,获取文章的向量表示Hd,其中,l表示文章的长度;
框架与文章交互单元用于将文章表示Hd和框架表示Hf进行融合,获取最终的文章表示C;
解码单元用于将文章表示C生成摘要。
进一步,所述框架选择单元中采用基于框架关系的方法、基于框架相似度的方法两种框架筛选方法筛选与候选摘要框架Fs相关的文章D中的框架;
第一,基于框架关系的方法:如果Fd和Fs中的两个框架有关系,且关系度小于2,那么该框架被筛选;
第三,基于框架相似度的方法;针对不满足第一种条件的框架,计算每一个候选摘要框架
Figure BDA0002775676110000071
与所有的文章框架Fd的余弦相似度,然后为每一个候选摘要框架
Figure BDA0002775676110000072
筛选与其相似度最大的文章框架
Figure BDA0002775676110000073
公式如下:
Figure BDA0002775676110000074
scorei=[score1,score2,…,scorej,…]
Smax(i)=max(scorei)
其中,cosine指余弦相似度,scorei,j指候选摘要框架
Figure BDA0002775676110000075
与文章框架
Figure BDA0002775676110000076
相似度值,scorei是候选摘要框架
Figure BDA0002775676110000077
与文章所有框架Fd的余弦相似度值集合,Smax(i)指文章中与候选摘要框架
Figure BDA0002775676110000078
相似度值最大的框架,
Figure BDA0002775676110000079
Figure BDA00027756761100000710
的向量表示,是取其所有框架元素向量的平均值,具体公式如下:
Figure BDA00027756761100000711
其中,L是候选框架
Figure BDA00027756761100000712
的框架元素Ei个数,e(Eil)是框架
Figure BDA00027756761100000713
的第l个框架元素Eil的词向量;然后根据相似度得分Smax得到相应的文章框架,再结合基于框架关系方法筛选出的框架,得到最终被筛选出的文章框架F'={F1',F2',…,Fk'},k表示筛选出的框架个数,并且其大小与候选摘要框架Fs个数一致。
进一步,所述框架编码单元中:首先,对F'中所有框架按框架覆盖度从大到小排序,框架覆盖度最大的框架作为基准框架Ftmp;然后,遍历剩余的框架,如果当前位置Fi是框架元素,且在Ftmp中与其对应的位置不是框架元素,则用Fi替换
Figure BDA0002775676110000081
其中
Figure BDA0002775676110000082
指Ftmp中第i个位置的信息;最终得到一个框架序列F*=Ftmp
进一步,所述框架与文章交互单元中:首先,计算框架表示Hf对文章表示Hd的影响,具体公式如下:
Figure BDA0002775676110000083
Figure BDA0002775676110000084
其中,αtj是t时刻框架对文章的注意力权重,Hf(j')指框架表示Hf第j'个隐藏状态,N指文章的长度,exp指以e为底的指数函数,同理,计算出文章表示Hd对框架表示Hf的影响Cd2f;然后,设计一个门控Hgate用来融合Cf2d和Cd2f的信息,具体公式如下:
Figure BDA0002775676110000085
Figure BDA0002775676110000086
其中,θ表示一个非线性函数,C为最终的文章表示。
进一步,所述解码单元中:首先,在每一个解码步骤t,使用LSTM编码之前步骤的输出yt-1和文章表示C,得到当前步骤的解码状态st,具体公式如下:
st=LSTM(yt-1,Ct,st-1)
其中,st-1表示上一时刻的解码状态;然后,计算解码状态st对文章表示Ct的影响:
Figure BDA0002775676110000088
Figure BDA0002775676110000089
其中,βti是解码步骤t时刻的注意力权重,
Figure BDA0002775676110000091
表示加权后的文章表示,Ci'指文章表示C的第i'个隐层状态;最后,根据得到的文章表示
Figure BDA0002775676110000092
当前时刻解码状态st和上一时刻的输出yt-1共同预测当前时刻的词的表示Pvocab,具体公式如下:
Figure BDA0002775676110000093
其中,yt为当前t时刻的输出,W和b是可以学习的参数,Pvocab是预测当前词的概率。
与现有技术相比,本发明具有以下有益效果:
一、本发明针对摘要生成问题,引入了框架语义信息,并将其融合到模型结构中,引导摘要生成。
二、本发明针对摘要生成问题,首次将框架语义信息引入到摘要生成中,有效填补了摘要智能生成中利用框架语义信息方面的空白。
三、本发明针对框架筛选问题,提出了框架关系、框架相似度两个度量方法进行框架筛选,该方法更符合人类推理思路,降低了推理成本。
四、本发明提出了框架语义指导的摘要生成方法,该方法引入了外部语义信息,计算了框架与文章之间的相互影响,有效的提升了摘要生成结果,对自然语言处理相关研究有启发效果。本发明方法思路结构清晰,效果明显,可扩展性强。
附图说明:
图1为本发明的系统流程图;
图2为本发明的关系构造单元具体流程图;
图3为本发明的摘要生成模型示意图;
图4为本发明的摘要示例框架标注示意图;
图5为本发明的摘要示例示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明,附图为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
本发明实施例提供了一种阅读机器人的摘要生成系统,如图1所示,本发明的系统流程图包括:候选摘要抽取单元、框架选择单元、框架编码单元、文章编码单元、框架与文章交互单元、解码单元六部分。
候选摘要抽取单元用于在训练集中抽取当前文章D最相似的一篇文章Dcan,文章Dcan的摘要作为候选摘要Scan,指导摘要生成。综合考虑抽取的准确性和抽取效率后,使用一个开源的全文检索引擎工具Lucene在训练集中检索与当前文章最相似的文章,抽取该文章的摘要作为候选摘要进行后续操作。
框架选择单元用于筛选出文章中的重要框架。使用汉语框架网标注工具分别抽取文章D和候选摘要Scan中的框架场景
Figure BDA0002775676110000101
Figure BDA0002775676110000102
Figure BDA0002775676110000103
其中m和n分别表示文章框架和候选摘要框架的个数。然后,筛选出与候选摘要框架Fs相关的文章中的框架F'。筛选方法包括框架关系、框架相似度两种。其中,基于框架关系的方法是筛选候选摘要框架与文章框架关系在2度以内的文章中的框架。基于框架相似度的方法是分别计算每个候选摘要框架与所有文章框架的相似度值,选取相似度值最大的文章框架作为候选框架,具体包括:首先,用BERT编码框架元素的定义,使用[CLS]标志的向量作为框架元素的词向量,然后将属于当前框架所有框架元素词向量平均得到框架向量,最后用余弦相似度计算候选摘要框架和文章框架的相似度。
框架编码单元用于将筛选出的文章框架F'={F1',F2',…,Fk'}融合成一个框架序列F*后,输入预训练模型BERT,获取框架的向量表示Hf
文章编码单元用于将文章D={x1,x2,…,xl}输入预训练模型BERT,获取文章的向量表示Hd,其中,l表示文章的长度。
文本可以看作是一个序列问题,文章词与词之间、句子之间存在依赖关系,BERT模型使用多层的transformer架构,目标任务包含了词语识别、句子预测任务,在超大规模数据上进行了预训练,进一步提升模型泛化能力,并且在不同的下游任务上都取得了最优的结果。本实施例中使用BERT分别对框架和文章进行编码,获取其向量表示。
框架与文章交互单元用于将文章表示Hd和框架表示Hf进行融合,获取最终的文章表示C。该模块分别计算了框架对文章的影响、文章对框架的影响,之后设计了一个门控融合文章和框架信息,该门控用来确定框架及文章中需要保留和舍弃的信息,得到最终的文章表示。
解码单元用于将文章表示C进行解码,生成摘要。首先,在每一个解码步骤t,使用LSTM编码之前步骤的输出yt-1和文章表示C,得到当前步骤的解码状态st;然后,计算解码状态st对文章表示Ct的影响;最后,根据得到的文章表示
Figure BDA0002775676110000111
当前时刻解码状态st和上一时刻的输出yt-1共同预测当前时刻的词的表示Pvocab
本发明实施例还提供了一种阅读机器人的摘要生成方法,如图2所示,本发明的摘要生成方法具体步骤如下:
101、获取文章(如图5所示)。
102、针对文章D,采用一个开源的全文检索引擎工具Lucene,在训练集中查找与当前文章D最相似的一篇文章Dcan,文章的摘要作为候选摘要Scan
103、使用汉语框架网标注工具分别抽取文章D和候选摘要Scan中的框架场景
Figure BDA0002775676110000112
Figure BDA0002775676110000113
其中m和n分别表示文章框架和候选摘要框架的个数。如图4所示,文章中包含4个框架:陈述、获得、企业、唯一实例,摘要中包含2个框架:企业,接收。文章中的框架“企业”和“获得”与摘要中框架有关,对生成摘要有用。另外两个框架“陈述”和“唯一实例”是冗余框架与摘要生成无关。然后,通过两种框架筛选方法筛选与候选摘要框架Fs相关的文章D中的框架F'。基于框架关系的方法筛选文章和候选摘要中关系度小于2的框架。针对不满足上述方法的框架采用基于框架相似度的方法:首先用BERT编码框架元素的定义,使用[CLS]标志的向量作为框架元素的词向量E,然后将属于当前框架所有框架元素词向量平均得到框架向量,接着用余弦相似度分别计算每个候选摘要框架和所有文章框架的相似度,为每一个候选摘要框架
Figure BDA0002775676110000121
筛选与其相似度最大的文章框架
Figure BDA0002775676110000122
公式如下:
Figure BDA0002775676110000123
Figure BDA0002775676110000124
scorei=[score1,score2,…,scorej,…]
Smax(i)=max(scorei)
其中,L是候选框架
Figure BDA0002775676110000125
的框架元素Ei个数,e(Eil)是框架
Figure BDA0002775676110000126
的第l个框架元素Eil的词向量。cosine指余弦相似度,scorei,j指候选摘要框架
Figure BDA0002775676110000127
与文章框架
Figure BDA0002775676110000128
相似度值,scorei是候选摘要框架
Figure BDA0002775676110000129
与文章所有框架Fd的余弦相似度值集合,Smax(i)指文章中与候选摘要框架
Figure BDA00027756761100001210
相似度值最大的框架,
Figure BDA00027756761100001211
Figure BDA00027756761100001212
的向量表示,是取其所有框架元素向量的平均值。最后,根据相似度得分Smax得到相应的文章框架,再结合基于框架关系方法筛选出的框架,得到最终被筛选出的文章框架F'={F1',F2',…,Fk'},k表示筛选出的框架个数,并且其大小与候选摘要框架Fs个数一致。
104、根据之前筛选出的文章框架F'={F1',F2',…,Fk'},将所有的框架表示融合成一个框架序列F*。首先,对F'中所有框架按框架覆盖度从大到小排序,框架覆盖度最大的框架作为基准框架Ftmp;然后,遍历剩余的框架,如果当前位置Fi是框架元素,且在Ftmp中与其对应的位置不是框架元素,则用Fi替换
Figure BDA0002775676110000131
其中
Figure BDA0002775676110000132
指Ftmp中第i个位置的信息;最终得到一个框架序列F*=Ftmp
接下来使用预训练模型BERT作为编码层,获取框架的向量表示Hf,具体公式如下:
Hf=BERT(F*)
105、将文章D={x1,x2,…,xl}输入预训练模型BERT,获取文章向量表示Hd。其中,l表示文章的长度,具体公式如下:
Hd=BERT(D)
106、通过文章表示Hd和框架表示Hf获取最终的文章表示C。首先计算框架表示Hf对文章表示Hd的影响,具体公式如下:
Figure BDA0002775676110000133
Figure BDA0002775676110000134
其中,αtj是t时刻框架对文章的注意力权重,Hf(j')指框架表示Hf第j'个隐藏状态,N指文章的长度,exp指以e为底的指数函数,同理,计算出文章表示Hd对框架表示Hf的影响Cd2f;然后,设计一个门控Hgate用来融合Cf2d和Cd2f的信息,具体公式如下:
Figure BDA0002775676110000135
Figure BDA0002775676110000136
其中,θ表示一个非线性函数,C为最终的文章表示。
107、将生成的文章表示C生成摘要。首先,在每一个解码步骤t,使用LSTM编码之前步骤的输出yt-1和文章表示C,得到当前步骤的解码状态st,具体公式如下:
st=LSTM(yt-1,Ct,st-1)
其中,st-1表示上一时刻的解码状态。然后计算解码状态st对文章表示Ct的影响。
Figure BDA0002775676110000141
Figure BDA0002775676110000142
其中,βti是解码步骤t时刻的注意力权重,
Figure BDA0002775676110000143
表示加权后的文章表示,Ci'指文章表示C的第i'个隐层状态;最后,根据得到的文章表示
Figure BDA0002775676110000144
当前时刻解码状态st和上一时刻的输出yt-1共同预测当前时刻的词的表示Pvocab,具体公式如下:
Figure BDA0002775676110000145
其中,yt为当前t时刻的输出,W和b是可以学习的参数,Pvocab是预测当前词的概率。
上面结合附图对本发明的实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (10)

1.一种应用于阅读机器人的摘要生成方法,其特征在于,包括如下步骤:
步骤1:针对文章D,在训练集中查找与当前文章D最相似的一篇文章Dcan,文章Dcan的摘要作为候选摘要Scan
步骤2:使用汉语框架网标注工具分别抽取文章D和候选摘要Scan中的框架场景
Figure FDA0002775676100000011
Figure FDA0002775676100000012
其中,
Figure FDA0002775676100000013
表示文章D的第m个框架,
Figure FDA0002775676100000014
表示候选摘要Scan的第n个框架,并筛选出与候选摘要框架Fs相关的文章D中的框架F';
步骤3:将步骤2筛选出的文章框架F'={F1',F2',…,Fk'}融合成一个框架序列F*后,输入预训练模型BERT,获取框架的向量表示Hf
步骤4:将文章D={x1,x2,…,xl}输入预训练模型BERT,获取文章的向量表示Hd,其中,l表示文章的长度;
步骤5:将步骤4生成的文章表示Hd和步骤3生成的框架表示Hf进行融合,获取最终的文章表示C;
步骤6:将步骤5生成的文章表示C生成摘要。
2.根据权利要求1所述的一种应用于阅读机器人的摘要生成方法,其特征在于,所述步骤2中采用基于框架关系的方法、基于框架相似度的方法两种框架筛选方法筛选与候选摘要框架Fs相关的文章D中的框架F':
第一,基于框架关系的方法:如果Fd和Fs中的两个框架有关系,且关系度小于2,那么该框架被筛选;
第二,基于框架相似度的方法;针对不满足第一种条件的框架,计算每一个候选摘要框架
Figure FDA0002775676100000015
与所有的文章框架Fd的余弦相似度,然后为每一个候选摘要框架
Figure FDA0002775676100000016
筛选与其相似度最大的文章框架
Figure FDA0002775676100000017
公式如下:
Figure FDA0002775676100000018
scorei=[score1,score2,…,scorej,…]
Smax(i)=max(scorei)
其中,cosine指余弦相似度,scorei,j指候选摘要框架
Figure FDA0002775676100000021
与文章框架
Figure FDA0002775676100000022
相似度值,scorei是候选摘要框架
Figure FDA0002775676100000023
与文章所有框架Fd的余弦相似度值集合,Smax(i)指文章中与候选摘要框架
Figure FDA0002775676100000024
相似度值最大的框架,
Figure FDA0002775676100000025
Figure FDA0002775676100000026
的向量表示,是取其所有框架元素向量的平均值,具体公式如下:
Figure FDA0002775676100000027
其中,L是候选框架
Figure FDA0002775676100000028
的框架元素Ei个数,e(Eil)是框架
Figure FDA0002775676100000029
的第l个框架元素Eil的词向量;然后,根据相似度得分Smax得到相应的文章框架,再结合基于框架关系方法筛选出的框架,得到最终被筛选出的文章框架F'={F1',F2',…,Fk'},k表示筛选出的框架个数,并且其大小与候选摘要框架Fs个数一致。
3.根据权利要求1所述的一种应用于阅读机器人的摘要生成方法,其特征在于,所述步骤3中文章框架F'融合成框架序列F*的具体过程包括:首先,对F'中所有框架按框架覆盖度从大到小排序,框架覆盖度最大的框架作为基准框架Ftmp;然后,遍历剩余的框架,如果当前位置Fi是框架元素,且在Ftmp中与其对应的位置不是框架元素,则用Fi替换
Figure FDA00027756761000000210
其中
Figure FDA00027756761000000211
指Ftmp中第i个位置的信息;最终得到一个框架序列F*=Ftmp
4.根据权利要求1所述的一种应用于阅读机器人的摘要生成方法,其特征在于,所述步骤5中文章表示Hd和框架表示Hf融合的具体过程包括:首先,计算框架表示Hf对文章表示Hd的影响,具体公式如下:
Figure FDA00027756761000000212
Figure FDA0002775676100000031
其中,αtj是t时刻框架对文章的注意力权重,Hf(j')指框架表示Hf第j'个隐藏状态,N指文章的长度,exp指以e为底的指数函数,同理,计算出文章表示Hd对框架表示Hf的影响Cd2f;然后,设计一个门控Hgate用来融合Cf2d和Cd2f的信息,具体公式如下:
Figure FDA0002775676100000032
Figure FDA0002775676100000033
其中,θ表示一个非线性函数,C为最终的文章表示。
5.根据权利要求1所述的一种应用于阅读机器人的摘要生成方法,其特征在于,所述步骤6具体包括:首先,在每一个解码步骤t,使用LSTM编码之前步骤的输出yt-1和文章表示C,得到当前步骤的解码状态st,具体公式如下:
st=LSTM(yt-1,Ct,st-1)
其中,st-1表示上一时刻的解码状态;然后,计算解码状态st对文章表示Ct的影响:
Figure FDA0002775676100000034
其中,βti是解码步骤t时刻的注意力权重,
Figure FDA0002775676100000035
表示加权后的文章表示,Ci'指文章表示C的第i'个隐层状态;最后,根据得到的文章表示
Figure FDA0002775676100000036
当前时刻解码状态st和上一时刻的输出yt-1共同预测当前时刻的词的表示Pvocab,具体公式如下:
Figure FDA0002775676100000037
其中,yt为当前t时刻的输出,W和b是可以学习的参数,Pvocab是预测当前词的概率。
6.一种应用于阅读机器人的摘要生成系统,其特征在于,该系统包括:候选摘要抽取单元、框架选择单元、框架编码单元、文章编码单元、框架与文章交互单元、解码单元,其中,
候选摘要抽取单元用于在训练集中查找与当前文章D最相似的一篇文章Dcan,文章Dcan的摘要作为候选摘要Scan
框架选择单元用于根据通过汉语框架网标注工具抽取出的文章D和候选摘要Scan中的框架场景
Figure FDA0002775676100000041
Figure FDA0002775676100000042
其中,
Figure FDA0002775676100000043
表示文章D的第m个框架,
Figure FDA0002775676100000044
表示候选摘要Scan的第n个框架,筛选出与候选摘要框架Fs相关的文章D中的框架F';
框架编码单元用于将筛选出的文章框架F'={F1',F2',…,Fk'}融合成一个框架序列F*后,输入预训练模型BERT,获取框架的向量表示Hf
文章编码单元用于将文章D={x1,x2,…,xl}输入预训练模型BERT,获取文章的向量表示Hd,其中,l表示文章的长度;
框架与文章交互单元用于将文章表示Hd和框架表示Hf进行融合,获取最终的文章表示C;
解码单元用于将文章表示C生成摘要。
7.根据权利要求6所述的一种应用于阅读机器人的摘要生成系统,其特征在于,所述框架选择单元中采用基于框架关系的方法、基于框架相似度的方法两种框架筛选方法筛选与候选摘要框架Fs相关的文章D中的框架;
第一,基于框架关系的方法:如果Fd和Fs中的两个框架有关系,且关系度小于2,那么该框架被筛选;
第二,基于框架相似度的方法;针对不满足第一种条件的框架,计算每一个候选摘要框架
Figure FDA0002775676100000045
与所有的文章框架Fd的余弦相似度,然后为每一个候选摘要框架
Figure FDA0002775676100000051
筛选与其相似度最大的文章框架
Figure FDA0002775676100000052
公式如下:
Figure FDA0002775676100000053
scorei=[score1,score2,…,scorej,…]
Smax(i)=max(scorei)
其中,cosine指余弦相似度,scorei,j指候选摘要框架
Figure FDA0002775676100000054
与文章框架
Figure FDA0002775676100000055
相似度值,scorei是候选摘要框架
Figure FDA0002775676100000056
与文章所有框架Fd的余弦相似度值集合,Smax(i)指文章中与候选摘要框架
Figure FDA0002775676100000057
相似度值最大的框架,
Figure FDA0002775676100000058
Figure FDA0002775676100000059
的向量表示,是取其所有框架元素向量的平均值,具体公式如下:
Figure FDA00027756761000000510
其中,L是候选框架
Figure FDA00027756761000000511
的框架元素Ei个数,e(Eil)是框架
Figure FDA00027756761000000512
的第l个框架元素Eil的词向量;然后根据相似度得分Smax得到相应的文章框架,再结合基于框架关系方法筛选出的框架,得到最终被筛选出的文章框架F'={F1',F2',…,Fk'},k表示筛选出的框架个数,并且其大小与候选摘要框架Fs个数一致。
8.根据权利要求6所述的一种应用于阅读机器人的摘要生成系统,其特征在于,所述框架编码单元中:首先,对F'中所有框架按框架覆盖度从大到小排序,框架覆盖度最大的框架作为基准框架Ftmp;然后,遍历剩余的框架,如果当前位置Fi是框架元素,且在Ftmp中与其对应的位置不是框架元素,则用Fi替换
Figure FDA00027756761000000513
其中
Figure FDA00027756761000000514
指Ftmp中第i个位置的信息;最终得到一个框架序列F*=Ftmp
9.根据权利要求6所述的一种应用于阅读机器人的摘要生成系统,其特征在于,所述框架与文章交互单元中:首先,计算框架表示Hf对文章表示Hd的影响,具体公式如下:
Figure FDA0002775676100000061
Figure FDA0002775676100000062
其中,αtj是t时刻框架对文章的注意力权重,Hf(j')指框架表示Hf第j'个隐藏状态,N指文章的长度,exp指以e为底的指数函数,同理,计算出文章表示Hd对框架表示Hf的影响Cd2f;然后,设计一个门控Hgate用来融合Cf2d和Cd2f的信息,具体公式如下:
Figure FDA0002775676100000063
Figure FDA0002775676100000064
其中,θ表示一个非线性函数,C为最终的文章表示。
10.根据权利要求6所述的一种应用于阅读机器人的摘要生成系统,其特征在于,所述解码单元中:首先,在每一个解码步骤t,使用LSTM编码之前步骤的输出yt-1和文章表示C,得到当前步骤的解码状态st,具体公式如下:
st=LSTM(yt-1,Ct,st-1)
其中,st-1表示上一时刻的解码状态;然后,计算解码状态st对文章表示Ct的影响:
Figure FDA0002775676100000065
Figure FDA0002775676100000066
其中,βti是解码步骤t时刻的注意力权重,
Figure FDA0002775676100000067
表示加权后的文章表示,Ci'指文章表示C的第i'个隐层状态;最后,根据得到的文章表示
Figure FDA0002775676100000068
当前时刻解码状态st和上一时刻的输出yt-1共同预测当前时刻的词的表示Pvocab,具体公式如下:
Figure FDA0002775676100000069
其中,yt为当前t时刻的输出,W和b是可以学习的参数,Pvocab是预测当前词的概率。
CN202011264506.5A 2020-11-12 2020-11-12 一种应用于阅读机器人的摘要生成方法及系统 Active CN112347753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011264506.5A CN112347753B (zh) 2020-11-12 2020-11-12 一种应用于阅读机器人的摘要生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011264506.5A CN112347753B (zh) 2020-11-12 2020-11-12 一种应用于阅读机器人的摘要生成方法及系统

Publications (2)

Publication Number Publication Date
CN112347753A true CN112347753A (zh) 2021-02-09
CN112347753B CN112347753B (zh) 2022-05-27

Family

ID=74363405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011264506.5A Active CN112347753B (zh) 2020-11-12 2020-11-12 一种应用于阅读机器人的摘要生成方法及系统

Country Status (1)

Country Link
CN (1) CN112347753B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326866A (zh) * 2021-04-16 2021-08-31 山西大学 一种融合语义场景的摘要自动生成方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2757391A2 (en) * 2013-01-22 2014-07-23 Schlumberger Technology B.V. Automatic processing of ultrasonic data
CN107832295A (zh) * 2017-11-08 2018-03-23 山西大学 阅读机器人的标题选择方法及系统
CN109948162A (zh) * 2019-03-25 2019-06-28 北京理工大学 融合序列语法标注框架的生成式文本摘要方法
CN110929044A (zh) * 2019-12-03 2020-03-27 山西大学 一种面向学术合作网络的社区检测方法和装置
CN111026861A (zh) * 2019-12-10 2020-04-17 腾讯科技(深圳)有限公司 文本摘要的生成方法、训练方法、装置、设备及介质
CN111488726A (zh) * 2020-03-31 2020-08-04 成都数之联科技有限公司 基于指针网络的非结构文本抽取多任务联合训练方法
CN111639174A (zh) * 2020-05-15 2020-09-08 民生科技有限责任公司 文本摘要生成系统、方法、装置及计算机可读存储介质
CN111737974A (zh) * 2020-08-18 2020-10-02 北京擎盾信息科技有限公司 一种语句的语义抽象化表示方法及装置
CN111814465A (zh) * 2020-06-17 2020-10-23 平安科技(深圳)有限公司 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN111859909A (zh) * 2020-07-10 2020-10-30 山西大学 一种语义场景一致性识别阅读机器人

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2757391A2 (en) * 2013-01-22 2014-07-23 Schlumberger Technology B.V. Automatic processing of ultrasonic data
CN107832295A (zh) * 2017-11-08 2018-03-23 山西大学 阅读机器人的标题选择方法及系统
CN109948162A (zh) * 2019-03-25 2019-06-28 北京理工大学 融合序列语法标注框架的生成式文本摘要方法
CN110929044A (zh) * 2019-12-03 2020-03-27 山西大学 一种面向学术合作网络的社区检测方法和装置
CN111026861A (zh) * 2019-12-10 2020-04-17 腾讯科技(深圳)有限公司 文本摘要的生成方法、训练方法、装置、设备及介质
CN111488726A (zh) * 2020-03-31 2020-08-04 成都数之联科技有限公司 基于指针网络的非结构文本抽取多任务联合训练方法
CN111639174A (zh) * 2020-05-15 2020-09-08 民生科技有限责任公司 文本摘要生成系统、方法、装置及计算机可读存储介质
CN111814465A (zh) * 2020-06-17 2020-10-23 平安科技(深圳)有限公司 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN111859909A (zh) * 2020-07-10 2020-10-30 山西大学 一种语义场景一致性识别阅读机器人
CN111737974A (zh) * 2020-08-18 2020-10-02 北京擎盾信息科技有限公司 一种语句的语义抽象化表示方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张旭华: "框架语义推理技术研究", 《中国优秀博硕士论文全文数据库(硕士)信息科技辑》 *
肖树一: "基于指针生成网络模型的自动摘要研究", 《中国优秀博硕士论文全文数据库(硕士)信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326866A (zh) * 2021-04-16 2021-08-31 山西大学 一种融合语义场景的摘要自动生成方法及系统

Also Published As

Publication number Publication date
CN112347753B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
Bakhtin et al. Real or fake? learning to discriminate machine from human generated text
CN109284357B (zh) 人机对话方法、装置、电子设备及计算机可读介质
Liu et al. Image captioning based on deep neural networks
CN105393263A (zh) 计算机-人交互式学习中的特征完成
CN110083729B (zh) 一种图像搜索的方法及系统
CN113032552B (zh) 一种基于文本摘要的政策要点抽取方法与提取系统
CN110334186A (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
CN113360646A (zh) 基于动态权重的文本生成方法、设备及存储介质
Dhivyaa et al. Transliteration based generative pre-trained transformer 2 model for Tamil text summarization
CN112347753B (zh) 一种应用于阅读机器人的摘要生成方法及系统
Ding et al. A Knowledge-Enriched and Span-Based Network for Joint Entity and Relation Extraction.
Wang et al. Fiction popularity prediction based on emotion analysis
CN117076608A (zh) 一种基于文本动态跨度的整合外部事件知识的脚本事件预测方法及装置
CN117235250A (zh) 一种对话摘要生成方法、装置和设备
CN116932736A (zh) 一种基于用户需求结合倒排表的专利推荐方法
Kumari et al. Context-based question answering system with suggested questions
CN113157914B (zh) 一种基于多层循环神经网络的文档摘要提取方法及系统
CN114595370A (zh) 模型训练、排序方法、装置、电子设备及存储介质
CN114626367A (zh) 基于新闻文章内容的情感分析方法、系统、设备及介质
CN111259159A (zh) 数据挖掘方法、装置和计算机可读存储介质
Li et al. Using big data from the web to train chinese traffic word representation model in vector space
CN117591698B (zh) 视频检索模型的训练方法、视频检索方法、装置及设备
Relan et al. A review on abstractive text summarization Methods
MacRae NOLEdge: Creating an Intelligent Search Tool for the Florida State University Computer Science Departmenbt Using Fine-Tuned Transformers and Data Augmentation
Dangol et al. Short Updates-Machine Learning Based News Summarizer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant