CN116992012A - 文本摘要抽取方法、装置、设备及存储介质 - Google Patents

文本摘要抽取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116992012A
CN116992012A CN202211085499.1A CN202211085499A CN116992012A CN 116992012 A CN116992012 A CN 116992012A CN 202211085499 A CN202211085499 A CN 202211085499A CN 116992012 A CN116992012 A CN 116992012A
Authority
CN
China
Prior art keywords
abstract
text
result
output
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211085499.1A
Other languages
English (en)
Inventor
胡清源
张润波
杨猛
尚晶
江勇
陈卓
陈乐�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202211085499.1A priority Critical patent/CN116992012A/zh
Publication of CN116992012A publication Critical patent/CN116992012A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种文本摘要抽取方法、装置、设备及存储介质,包括:获取待处理文本信息;将所述待处理文本信息输入至摘要生成模型,获取由所述摘要生成模型输出的摘要生成结果;若所述摘要生成结果不满足预设质量评估条件,则对所述待处理文本信息进行句法分析抽取,得到摘要抽取结果,并将所述摘要抽取结果作为最终摘要结果。本发明通过摘要生成模型生成待处理文本信息对应的摘要生成结果,若所述摘要生成结果不满足预设质量评估条件,则对所述待处理文本信息进行句法分析抽取,提高摘要上下句之间的关联性,从而解决了文本摘要的准确率和可读性较低的技术问题,提高摘要抽取的准确性和可读性。

Description

文本摘要抽取方法、装置、设备及存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本摘要抽取方法、装置、设备及存储介质。
背景技术
现有的短文本摘要抽取方法主要分为两大类:抽取式摘要方法和生成式摘要方法,其中,抽取式摘要方法通常是直接拼接原文中的重要句子,生成的摘要过于冗长,并没有考虑句子的句法结构,往往会导致摘要上下句之间没有语义的逻辑关联。另外地,生成式摘要方法是一种基于深度学习的监督方法,由于忽略了文本词语的词性、句法依存信息等信息,通常会出现语义不通顺、前言不搭后语的现象,进而导致文本摘要的准确率和可读性较低。
发明内容
本发明提供一种文本摘要抽取方法、装置、设备及存储介质,旨在提高文本摘要的准确率和可读性。
本发明提供一种文本摘要抽取方法,包括:
获取待处理文本信息;
将所述待处理文本信息输入至摘要生成模型,获取由所述摘要生成模型输出的摘要生成结果;
若所述摘要生成结果不满足预设质量评估条件,则对所述待处理文本信息进行句法分析抽取,得到摘要抽取结果,并将所述摘要抽取结果作为最终摘要结果。
可选地,根据本发明提供的一种文本摘要抽取方法,所述摘要生成模型包括嵌入层、序列生成网络和输出分类层,所述嵌入层包括预训练语言嵌入层、词性嵌入层和依存关系嵌入层;
所述将所述待处理文本信息输入至摘要生成模型,获取由所述摘要生成模型输出的摘要生成结果,包括:
分别将所述待处理文本信息输入至所述预训练语言嵌入层、所述词性嵌入层和所述依存关系嵌入层,得到由所述预训练语言嵌入层输出的语义向量、所述词性嵌入层输出的每个词语的词性向量以及所述依存关系嵌入层输出的词语之间的句法依存向量;
将输入特征序列输入至所述序列生成网络,以利用所述序列生成网络对所述输入特征序列进行编码和解码处理,得到输出特征序列,其中,所述输入特征序列由所述待处理文本信息的语义向量、词性向量和句法依存向量构建形成;
将所述输出特征序列输入至所述分类输出层,得到所述分类输出层输出的摘要生成结果。
可选地,根据本发明提供的一种文本摘要抽取方法,所述对所述待处理文本信息进行句法分析抽取,得到摘要抽取结果,包括:
将所述待处理文本信息进行分割,得到若干个文本短句;
对于任意一个文本短句,提取所述文本短句的句法特征信息,以基于所述句法特征信息,生成句法关系三元组;
在各所述句法关系三元组中提取得到若干个原始摘要单元;
在各所述原始摘要单元中选取得到若干个包含有预先主题词的有效摘要单元;
对各所述有效摘要单元进行扩充处理,得到各目标摘要单元;
将各所述目标摘要单元进行顺序拼接,得到所述摘要抽取结果。
可选地,根据本发明提供的一种文本摘要抽取方法,所述对各所述有效摘要单元进行扩充处理,得到各目标摘要单元,包括:
若任一有效摘要单元中的结尾词为所述预设主题词,则将所述任一有效摘要单元扩充至所述任一有效摘要单元对应的下一个原始摘要单元;
若所述任一有效摘要单元中的开头词为所述预设主题词,则将所述任一有效摘要单元扩充至所述任一有效摘要单元对应的上一个原始摘要单元,形成各所述目标摘要单元。
在所述将所述待处理文本信息输入至摘要生成模型,获取由所述摘要生成模型输出的摘要生成结果之后,还包括:
若所述摘要生成结果满足所述预设质量评估条件,则将所述摘要生成结果作为所述最终摘要结果。
可选地,根据本发明提供的一种文本摘要抽取方法,所述摘要生成模型是基于以下步骤训练得到:
获取若干个原始文本样本,并基于各所述原始文本样本的摘要标签,分别计算得到各所述原始文本样本对应的质量评分值;
选取质量评分值大于预设评分阈值的各个原始文本样本作为待训练文本样本;
基于各所述待训练文本样本,对待训练模型进行迭代训练,得到所述摘要生成模型。
可选地,根据本发明提供的一种文本摘要抽取方法,所述基于各所述待训练文本样本,对待训练模型进行迭代训练,得到所述摘要生成模型,包括:
对于任意一个待训练文本样本,分别将所述待训练文本样本输入至所述预训练语言嵌入层、所述词性嵌入层和所述依存关系嵌入层,得到由所述预训练语言嵌入层输出的训练语义向量、所述词性嵌入层输出的每个词语的训练词性向量以及所述依存关系嵌入层输出的词语之间的训练句法依存向量;
将所述训练语义向量、所述训练词性向量和训练句法依存向量输入至所述序列生成网络,得到所述序列生成网络输出的训练特征序列;
将所述训练特征序列输入至所述输出分类层,得到所述输出分类层输出的预测摘要结果;
计算所述预测摘要结果和所述摘要标签之间的模型损失值;
基于每一次迭代的模型损失值,对所述待训练模型进行参数更新,得到所述摘要生成模型。
本发明还提供一种文本摘要抽取装置,包括:
获取模块,用于获取待处理文本信息;
摘要生成模块,用于将所述待处理文本信息输入至摘要生成模型,获取由所述摘要生成模型输出的摘要生成结果;
摘要抽取模块,用于若所述摘要生成结果不满足预设质量评估条件,则对所述待处理文本信息进行句法分析抽取,得到摘要抽取结果,并将所述摘要抽取结果作为最终摘要结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本摘要抽取方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本摘要抽取方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文本摘要抽取方法。
本发明提供的文本摘要抽取方法、装置、设备及存储介质,通过摘要生成模型生成待处理文本信息对应的摘要生成结果,若所述摘要生成结果不满足预设质量评估条件,证明摘要生成模型生成的结果准确性较低,进而对所述待处理文本信息进行句法分析抽取,从而提高摘要上下句之间的关联性,以及提高摘要抽取的准确性和可读性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的文本摘要抽取方法的流程示意图之一;
图2是本发明提供的文本摘要抽取方法的流程示意图之二;
图3是本发明提供的文本摘要抽取方法的流程示意图之三;
图4是本发明提供的文本摘要抽取方法的流程示意图之四;
图5是本发明实施例中摘要生成模型的模型结构示意图;
图6是本发明提供的文本摘要抽取装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明一个或多个实施例。在本发明一个或多个实施例中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本发明一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
下面结合图1-图5对本发明示例实施方式进行详细说明。
如图1所示的是本发明实施例的一种文本摘要抽取方法的流程图。如图1所示,该文本摘要抽取方法包括:
步骤S10,获取待处理文本信息;
需要说明的是,待处理文本信息是与目标领域相关的一段文本信息,例如,移动通信领域、金融领域或者航空领域等。
步骤S20,将所述待处理文本信息输入至摘要生成模型,获取由所述摘要生成模型输出的摘要生成结果;
具体地,将所述待处理文本信息输入至摘要生成模型,根据摘要生成模型的输出结果,获得摘要生成结果。其中,所述摘要生成模型是基于预先收集的原始文本样本以及所述原始文本样本对应的摘要标签进行迭代训练得到的。可以理解的是,摘要生成模型在通过训练之后能够有效识别文本信息的摘要信息,以获得待处理文本信息对应的摘要生成结果。
本发明实施例中,所述摘要生成模型包括嵌入层、序列生成网络和输出分类层,所述嵌入层包括预训练语言嵌入层、词性嵌入层和依存关系嵌入层。其中,所述预训练语言嵌入层包括GPT、BART和T5等经典预训练语言模型,优选地,选取T5预训练语言模型,序列生成网络包括单向Mask语言模型、双向Mask语言模型、Seq2Seq语言模型(Sequence toSequence,序列到序列的转换模型)以及引入注意力机制的Seq2Seq with attention语言模型,优选地,Seq2Seq with attention语言模型。具体地,将所述待处理文本信息输入至所述嵌入层中,以将待处理文本信息进行向量化处理,得到待处理文本信息的语义向量,并且为了有效地改进摘要不通顺的问题,提高摘要生成的准确性,还可将待处理文本信息中每个词语的词性进行向量化,以及将词语之间的句法依存数据进行向量化,从而得到所述待处理文本信息中每个词语的词性向量以及词语之间的句法依存向量,进而语义向量、词性向量和句法依存向量输入至引入注意力机制的Seq2Seq with attention语言模型,得到所述Seq2Seq with attention语言模型输出的特征序列,进一步地,将特征序列输入至分类输出层,以利用所述分类输出层,得到所述分类输出层输出的摘要生成结果摘要生成结果。
在一个实施例中,在所述将所述待处理文本信息输入至摘要生成模型,获取由所述摘要生成模型输出的摘要生成结果之后,还包括:
步骤S40,若所述摘要生成结果满足所述预设质量评估条件,则将所述摘要生成结果作为所述最终摘要结果。
需要说明的是,所述预设质量评估条件是用于对摘要生成结果的评分指标值进行评估判定的条件。
具体地,通过预先设置的评分指标算法,计算所述待处理文本信息与所述摘要生成结果之间的关联性,得到摘要生成结果对应的评分指标值,其中,所述评分指标算法包括ROUGE-N、ROUGE-L、ROUGE-W和ROUGE-S等算法,进一步地,将所述评分指标值和所述预设评分阈值进行比较,若所述评分指标值大于预设评分阈值,则直接将所述摘要生成模型生成的摘要生成结果作为最终摘要结果,从而无需对所述待处理文本信息进行句法分析抽取。
其中,所述评分指标值ROUGE是在机器翻译、自动摘要、问答生成等领域常见的评估指标。ROUGE通过将模型生成的摘要或者回答与参考答案(一般是人工生成的)进行比较计算,得到对应的评分值,进一步地,所述预设评分阈值可根据实际情况设定,优选地,将所述预设评分阈值设定为0.4。
步骤S30,若所述摘要生成结果不满足预设质量评估条件,则对所述待处理文本信息进行句法分析抽取,得到摘要抽取结果,并将所述摘要抽取结果作为最终摘要结果。
具体地,若所述摘要生成结果的评分指标值不大于预设评分阈值,则对所述待处理文本信息进行句法分析,以提取待处理文本信息中每一个文本短句对应的关键摘要信息,例如,主语、谓语和宾语等信息,进而根据预设主题词对所述各文本短句对应的关键摘要信息进行筛选,得到有效摘要单元,所述预先主题词是根据文本对应的行业领域自定义设置的,例如:对于移电信行业,可定义为充值、套餐、流量、网络和投诉等主题词。从而降低抽取摘要的冗杂性,进一步地,若有效摘要单元中句首或者句尾位置存在预设主题词,则将有效摘要单元进行扩充处理,也即,将有效摘要单元扩充至所述有效摘要单元的上一个关键摘要信息中或者所述有效摘要单元的下一个关键摘要信息,得到多个目标摘要单元,从而有效提高了摘要上下句之间的关联性,进而去除目标摘要单元中的停用词、助词,方位词,连词,非语素字等信息,以缩短摘要的字符长度,并将所有的目标摘要单元进行顺序拼接,生成摘要抽取结果,并将所述摘要抽取结果作为最终摘要结果。
本发明实施例通过上述方案,也即,获取待处理文本信息;将所述待处理文本信息输入至摘要生成模型,获取由所述摘要生成模型输出的摘要生成结果;若所述摘要生成结果不满足预设质量评估条件,则对所述待处理文本信息进行句法分析抽取,得到摘要抽取结果,并将所述摘要抽取结果作为最终摘要结果。实现了通过摘要生成模型生成待处理文本信息对应的摘要生成结果,若所述摘要生成结果不满足预设质量评估条件,证明摘要生成模型生成的结果准确性较低,进而对所述待处理文本信息进行句法分析抽取,从而提高摘要上下句之间的关联性,以及提高摘要抽取的准确性和可读性。
参照图2,在一个实施例中,上述步骤S20:将所述待处理文本信息输入至摘要生成模型,获取由所述摘要生成模型输出的摘要生成结果,包括:
步骤S21,分别将所述待处理文本信息输入至所述预训练语言嵌入层、所述词性嵌入层和所述依存关系嵌入层,得到由所述预训练语言嵌入层输出的语义向量、所述词性嵌入层输出的每个词语的词性向量以及所述依存关系嵌入层输出的词语之间的句法依存向量;
步骤S22,将输入特征序列输入至所述序列生成网络,以利用所述序列生成网络对所述输入特征序列进行编码和解码处理,得到输出特征序列,其中,所述输入特征序列由所述待处理文本信息的语义向量、词性向量和句法依存向量构建形成;
步骤S23,将所述输出特征序列输入至所述分类输出层,得到所述分类输出层输出的摘要生成结果。
需要说明的是,所述预训练语言嵌入层为使用T5预训练语言模型的词嵌入层,本实施例的T5(Text-to-Text Transfer Transformer)模型是一种文本转换模型。所述序列生成网络是Seq2seq with attention模型,Seq2seq with attention模型是加入注意力机制的序列到序列的转换模型,包括Encoder编码模块、Decoder解码模块、Attention注意力机制层和softmax分类输出层,所述Encoder编码模块和Decoder解码模块由双向LSTM长短期记忆网络层和隐状态层组成。
进一步需要说明的是,所述词性向量为将待处理文本信息中每一个词语的词性进行量化得到的特征向量,所述词性包括动词、名词和代词等,所述句法依存向量为将待处理文本信息中词语之间的句法依存数据进行量化得到的特征向量,所述句法依存数据包括宾语、数量修饰词和同位语等。
具体地,将所述待处理文本信息输入所述T5预训练语言模型,以通过所述T5预训练语言模型提取所述待处理文本信息的语义特征,并且通过词性嵌入层提取所述待处理文本信息中每个词语的词性向量,以及通过依存关系嵌入层提取所述待处理文本信息中词语之间的句法依存向量,进而将由所述待处理文本信息的语义向量、词性向量和句法依存向量构建形成的输入特征序列输入至序列生成网络中的Encoder编码模块和所述Decoder解码模块,以利用所述Encoder编码模块对所述原始输入特征进行编码,进而将编码得到的特征序列输入至所述Decoder解码模块,以利用所述Decoder解码模块对所述编码得到的特征进行解码处理,并且在所述Encoder编码模块和所述Decoder解码模块之间引入一个注意力机制,从而提高解码的准确率,最后解码得到特征序列输入至softmax分类输出层,得到最终输出的摘要生成结果。
本发明实施例通过上述方案,也即,分别将所述待处理文本信息输入至所述预训练语言嵌入层、所述词性嵌入层和所述依存关系嵌入层,得到由所述预训练语言嵌入层输出的语义向量、所述词性嵌入层输出的每个词语的词性向量以及所述依存关系嵌入层输出的词语之间的句法依存向量;将输入特征序列输入至所述序列生成网络,以利用所述序列生成网络对所述输入特征序列进行编码和解码处理,得到输出特征序列,其中,所述输入特征序列由所述待处理文本信息的语义向量、词性向量和句法依存向量构建形成;将所述输出特征序列输入至所述分类输出层,得到所述分类输出层输出的摘要生成结果。实现了通过将T5预训练模型引入摘要生成方法中,很大程度上解决了对多义词的有效表征,并且加入文本词语的词性向量和句法依存向量,有效地改进了摘要不通顺的问题,从而提高文本摘要的准确率和可读性。
参照图3,在一个实施例中,上述步骤S30:对所述待处理文本信息进行句法分析抽取,得到摘要抽取结果,包括:
步骤S31,将所述待处理文本信息进行分割,得到若干个文本短句;
步骤S32,对于任意一个文本短句,提取所述文本短句的句法特征信息,以基于所述句法特征信息,生成句法关系三元组;
步骤S33,在各所述句法关系三元组中提取得到若干个原始摘要单元;
步骤S34,在各所述原始摘要单元中选取得到若干个包含有预先主题词的有效摘要单元;
步骤S35,对各所述有效摘要单元进行扩充处理,得到各目标摘要单元;
上述步骤S35,包括:
步骤S351,若任一有效摘要单元中的结尾词为所述预设主题词,则将所述任一有效摘要单元扩充至所述任一有效摘要单元对应的下一个原始摘要单元;若所述任一有效摘要单元中的开头词为所述预设主题词,则将所述任一有效摘要单元扩充至所述任一有效摘要单元对应的上一个原始摘要单元,形成各所述目标摘要单元。
步骤S36,将各所述目标摘要单元进行顺序拼接,得到所述摘要抽取结果。
需要说明的是,所述句法特征信息包括主语信息、谓语信息和宾语信息。具体地,首先将所述待处理文本信息以逗号、句号、问号以及叹号等分隔符进行分割,生成若干个文本短句,进而对每一句文本短句进行句法分析,以提取得到本短句中的主语信息、谓语信息和宾语信息,进而对于任意一个文本短句:将所述文本短句的主语信息和主语信息对应的修饰词进行拼接,得到主语拼接结果,将所述文本短句的谓语信息和谓语信息对应的修饰词进行拼接,得到谓语拼接结果,将所述文本短句的宾语信息和宾语信息对应的修饰词进行拼接,得到宾语拼接结果,进而基于所述文本短句对应的主语拼接结果、谓语拼接结果和宾语拼接结果,形成所述句法关系三元组。
进一步地,对于任意一个文本短句:若所述文本短句的句法关系三元组中存在主语拼接结果和谓语拼接结果,或者当所述文本短句的句法关系三元组中存在谓语拼接结果和宾语拼接结果,则证明所述文本短句是有效短句,进而分别将各个有效短句对应的句法关系三元组进行顺序拼接,得到若干个原始摘要单元。
进一步地,基于预先设置的主题词,在各所述原始摘要单元中选取得到多个包含有预先主题词的有效摘要单元,进而对于任意一个有效摘要单元:若所述有效摘要单元是以所述预设主题词结尾,则将所述有效摘要单元扩充到所述有效摘要单元的下一个原始摘要单元,得到目标摘要单元,若所述有效摘要单元是以所述预设主题词开头,则将所述有效摘要单元扩充到所述有效摘要单元的上一个原始摘要单元,得到各个目标摘要单元。
更进一步地,分别去除各个目标摘要单元中的停用词、助词、方位词、连词和非语素字等信息,以缩短摘要的字符长度,进而将处理后的各个目标摘要单元进行顺序拼接,生成所述摘要抽取结果。
本发明实施例通过上述方案,也即,将所述待处理文本信息进行分割,得到若干个文本短句;对于任意一个文本短句,提取所述文本短句的句法特征信息,以基于所述句法特征信息,生成句法关系三元组;在各所述句法关系三元组中提取得到若干个原始摘要单元;在各所述原始摘要单元中选取得到若干个包含有预先主题词的有效摘要单元;对各所述有效摘要单元进行扩充处理,得到各目标摘要单元;将各所述目标摘要单元进行顺序拼接,得到所述摘要抽取结果。实现了加入主题词概念对摘要单元进行筛选,在一定程度上减小了抽取式摘要的冗杂性,并且针对主题词在首尾的情况自动扩充上下句,提高了抽取摘要上下句之间的关联性。从而提高文本摘要可读性。
参照图4,在一个实施例中,所述摘要生成模型是基于以下步骤训练得到:
步骤A10,获取若干个原始文本样本,并基于各所述原始文本样本的摘要标签,分别计算得到各所述原始文本样本对应的质量评分值;
步骤A20,选取质量评分值大于预设评分阈值的各个原始文本样本作为待训练文本样本;
步骤A30,基于各所述待训练文本样本,对待训练模型进行迭代训练,得到所述摘要生成模型。
所述待训练模型包括嵌入层、序列生成网络和分类输出层,所述嵌入层包括预训练语言嵌入层、词性嵌入层和依存关系嵌入层;所述基于各所述待训练文本样本,对待训练模型进行迭代训练,得到所述摘要生成模型,包括:
步骤A31,对于任意一个待训练文本样本,分别将所述待训练文本样本输入至所述预训练语言嵌入层、所述词性嵌入层和所述依存关系嵌入层,得到由所述预训练语言嵌入层输出的训练语义向量、所述词性嵌入层输出的每个词语的训练词性向量以及所述依存关系嵌入层输出的词语之间的训练句法依存向量;
步骤A32,将所述训练语义向量、所述训练词性向量和训练句法依存向量输入至所述序列生成网络,得到所述序列生成网络输出的训练特征序列;
步骤A33,将所述训练特征序列输入至所述输出分类层,得到所述输出分类层输出的预测摘要结果;
步骤A34,计算所述预测摘要结果和所述摘要标签之间的模型损失值;
步骤A35,基于每一次迭代的模型损失值,对所述待训练模型进行参数更新,得到所述摘要生成模型。
具体地,在网络上搜集已经标注好的原始文本样本,或者对一批文本信息进行人工标注,得到若干个原始文本样本,进而基于各所述原始文本样本的摘要标签,通过预先设置的评分指标算法计算各个原始文本样本对应的质量评分值,其中,所述评分指标算法包括ROUGE-N、ROUGE-L、ROUGE-W和ROUGE-S等算法,从而选取质量评分值大于预设评分阈值的各个原始文本样本作为待训练文本样本,例如,保留质量评分值大于0.4对应的文本,进一步地,参照对于任意一个待训练文本样本,分别将所述待训练文本样本输入至所述预训练语言嵌入层、所述词性嵌入层和所述依存关系嵌入层,得到所述预训练语言嵌入层输出的训练语义向量、所述词性嵌入层输出的每个词语的训练词性向量以及所述依存关系嵌入层输出的词语之间的训练句法依存向量,将所述训练语义向量、所述训练词性向量和训练句法依存向量输入至所述序列生成网络中,得到所述序列生成网络输出的训练特征序列,参照图5,图5为本发明实施例中摘要生成模型的模型结构示意图,Encoder编码模块和Decoder解码模块之间引入一个注意力机制层,以提高解码的准确率。进一步地,将所述训练特征序列输入至所述输出分类层,得到所述输出分类层输出的预测摘要结果,进而通过上述评分指标算法计算所述预测摘要结果和所述摘要标签之间的模型损失值,在其他实施例中,模型损失值计算方法可以根据实际需求进行设置,此处不做具体限定,在计算获得模型损失值之后,本次训练过程结束,更新待训练预测模型中的模型参数,之后再进行下一次训练。在训练的过程中,判断更新后的待训练模型是否均满足预设训练结束条件,若满足,则将更新后的待训练模型作为摘要生成模型,若不满足,则继续训练模型,其中,所述预设训练结束条件包括损失收敛和达到最大迭代次数阈值等。
本发明实施例通过上述方案,实现了通过引入T5预训练模型以及加入文本词语的词性向量和词语之间的句法依存向量,对摘要生成模型进行训练,解决了对多义词的有效表征问题,以及有效地改进摘要不通顺的问题,并且将摘要生成模型的损失值控制在预设的范围内,从而有利于提高摘要生成模型进行摘要生成的精度。
下面对本发明提供的文本摘要抽取装置进行描述,下文描述的文本摘要抽取装置与上文描述的文本摘要抽取方法可相互对应参照。
如图6所示,本发明实施例的一种文本摘要抽取装置,该装置包括:
获取模块10,用于获取待处理文本信息;
摘要生成模块20,用于将所述待处理文本信息输入至摘要生成模型,获取由所述摘要生成模型输出的摘要生成结果;
摘要抽取模块30,用于若所述摘要生成结果不满足预设质量评估条件,则对所述待处理文本信息进行句法分析抽取,得到摘要抽取结果,并将所述摘要抽取结果作为最终摘要结果。
可选地,所述摘要生成模型包括嵌入层、序列生成网络和输出分类层,所述嵌入层包括预训练语言嵌入层、词性嵌入层和依存关系嵌入层;所述摘要生成模块20还用于:
分别将所述待处理文本信息输入至所述预训练语言嵌入层、所述词性嵌入层和所述依存关系嵌入层,得到由所述预训练语言嵌入层输出的语义向量、所述词性嵌入层输出的每个词语的词性向量以及所述依存关系嵌入层输出的词语之间的句法依存向量;
将输入特征序列输入至所述序列生成网络,以利用所述序列生成网络对所述输入特征序列进行编码和解码处理,得到输出特征序列,其中,所述输入特征序列由所述待处理文本信息的语义向量、词性向量和句法依存向量构建形成;
将所述输出特征序列输入至所述分类输出层,得到所述分类输出层输出的摘要生成结果。
可选地,所述摘要抽取模块30还用于:
将所述待处理文本信息进行分割,得到若干个文本短句;
对于任意一个文本短句,提取所述文本短句的句法特征信息,以基于所述句法特征信息,生成句法关系三元组;
在各所述句法关系三元组中提取得到若干个原始摘要单元;
在各所述原始摘要单元中选取得到若干个包含有预先主题词的有效摘要单元;
对各所述有效摘要单元进行扩充处理,得到各目标摘要单元;
将各所述目标摘要单元进行顺序拼接,得到所述摘要抽取结果。
可选地,所述摘要抽取模块30还用于:
若任一有效摘要单元中的结尾词为所述预设主题词,则将所述任一有效摘要单元扩充至所述任一有效摘要单元对应的下一个原始摘要单元;
若所述任一有效摘要单元中的开头词为所述预设主题词,则将所述任一有效摘要单元扩充至所述任一有效摘要单元对应的上一个原始摘要单元,形成各所述目标摘要单元。
可选地,所述文本摘要抽取装置还包括:
若所述摘要生成结果满足所述预设质量评估条件,则将所述摘要生成结果作为所述最终摘要结果。
可选地,所述文本摘要抽取装置还包括:
获取若干个原始文本样本,并基于各所述原始文本样本的摘要标签,分别计算得到各所述原始文本样本对应的质量评分值;
选取质量评分值大于预设评分阈值的各个原始文本样本作为待训练文本样本;
基于各所述待训练文本样本,对待训练模型进行迭代训练,得到所述摘要生成模型。
可选地,所述文本摘要抽取装置还包括:
对于任意一个待训练文本样本,分别将所述待训练文本样本输入至所述预训练语言嵌入层、所述词性嵌入层和所述依存关系嵌入层,得到由所述预训练语言嵌入层输出的训练语义向量、所述词性嵌入层输出的每个词语的训练词性向量以及所述依存关系嵌入层输出的词语之间的训练句法依存向量;
将所述训练语义向量、所述训练词性向量和训练句法依存向量输入至所述序列生成网络,得到所述序列生成网络输出的训练特征序列;
将所述训练特征序列输入至所述输出分类层,得到所述输出分类层输出的预测摘要结果;
计算所述预测摘要结果和所述摘要标签之间的模型损失值;
基于每一次迭代的模型损失值,对所述待训练模型进行参数更新,得到所述摘要生成模型。
在此需要说明的是,本发明实施例提供的上述装置,能够实现上述方法实施例所实现的所有方法步骤,且能够达到相同技术效果,在此不再对本实施例中与方法实施例相同部分及有益效果进行具体赘述。
图7示例了一种电子设备的实体结构示意图,该电子设备可以包括:处理器(processor)610、存储器(memory)620、通信接口(Communications Interface)630和通信总线640,其中,处理器610,存储器620,通信接口630通过通信总线640完成相互间的通信。处理器610可以调用存储器620中的逻辑指令,以执行文本摘要抽取方法,该方法包括:获取待处理文本信息;将所述待处理文本信息输入至摘要生成模型,获取由所述摘要生成模型输出的摘要生成结果;若所述摘要生成结果不满足预设质量评估条件,则对所述待处理文本信息进行句法分析抽取,得到摘要抽取结果,并将所述摘要抽取结果作为最终摘要结果。
此外,上述的存储器620中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的文本摘要抽取方法,该方法包括:获取待处理文本信息;将所述待处理文本信息输入至摘要生成模型,获取由所述摘要生成模型输出的摘要生成结果;若所述摘要生成结果不满足预设质量评估条件,则对所述待处理文本信息进行句法分析抽取,得到摘要抽取结果,并将所述摘要抽取结果作为最终摘要结果。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的文本摘要抽取方法,该方法包括:获取待处理文本信息;将所述待处理文本信息输入至摘要生成模型,获取由所述摘要生成模型输出的摘要生成结果;若所述摘要生成结果不满足预设质量评估条件,则对所述待处理文本信息进行句法分析抽取,得到摘要抽取结果,并将所述摘要抽取结果作为最终摘要结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文本摘要抽取方法,其特征在于,包括:
获取待处理文本信息;
将所述待处理文本信息输入至摘要生成模型,获取由所述摘要生成模型输出的摘要生成结果;
若所述摘要生成结果不满足预设质量评估条件,则对所述待处理文本信息进行句法分析抽取,得到摘要抽取结果,并将所述摘要抽取结果作为最终摘要结果。
2.根据权利要求1所述的文本摘要抽取方法,其特征在于,所述摘要生成模型包括嵌入层、序列生成网络和输出分类层,所述嵌入层包括预训练语言嵌入层、词性嵌入层和依存关系嵌入层;
所述将所述待处理文本信息输入至摘要生成模型,获取由所述摘要生成模型输出的摘要生成结果,包括:
分别将所述待处理文本信息输入至所述预训练语言嵌入层、所述词性嵌入层和所述依存关系嵌入层,得到由所述预训练语言嵌入层输出的语义向量、所述词性嵌入层输出的每个词语的词性向量以及所述依存关系嵌入层输出的词语之间的句法依存向量;
将输入特征序列输入至所述序列生成网络,以利用所述序列生成网络对所述输入特征序列进行编码和解码处理,得到输出特征序列,其中,所述输入特征序列由所述待处理文本信息的语义向量、词性向量和句法依存向量构建形成;
将所述输出特征序列输入至所述分类输出层,得到所述分类输出层输出的摘要生成结果。
3.根据权利要求1所述的文本摘要抽取方法,其特征在于,所述对所述待处理文本信息进行句法分析抽取,得到摘要抽取结果,包括:
将所述待处理文本信息进行分割,得到若干个文本短句;
对于任意一个文本短句,提取所述文本短句的句法特征信息,以基于所述句法特征信息,生成句法关系三元组;
在各所述句法关系三元组中提取得到若干个原始摘要单元;
在各所述原始摘要单元中选取得到若干个包含有预先主题词的有效摘要单元;
对各所述有效摘要单元进行扩充处理,得到各目标摘要单元;
将各所述目标摘要单元进行顺序拼接,得到所述摘要抽取结果。
4.根据权利要求3所述的文本摘要抽取方法,其特征在于,所述对各所述有效摘要单元进行扩充处理,得到各目标摘要单元,包括:
若任一有效摘要单元中的结尾词为所述预设主题词,则将所述任一有效摘要单元扩充至所述任一有效摘要单元对应的下一个原始摘要单元;
若所述任一有效摘要单元中的开头词为所述预设主题词,则将所述任一有效摘要单元扩充至所述任一有效摘要单元对应的上一个原始摘要单元,形成各所述目标摘要单元。
5.根据权利要求1所述的文本摘要抽取方法,其特征在于,在所述将所述待处理文本信息输入至摘要生成模型,获取由所述摘要生成模型输出的摘要生成结果之后,还包括:
若所述摘要生成结果满足所述预设质量评估条件,则将所述摘要生成结果作为所述最终摘要结果。
6.根据权利要求2所述的文本摘要抽取方法,其特征在于,所述摘要生成模型是基于以下步骤训练得到:
获取若干个原始文本样本,并基于各所述原始文本样本的摘要标签,分别计算得到各所述原始文本样本对应的质量评分值;
选取质量评分值大于预设评分阈值的各个原始文本样本作为待训练文本样本;
基于各所述待训练文本样本,对待训练模型进行迭代训练,得到所述摘要生成模型。
7.根据权利要求6所述的文本摘要抽取方法,其特征在于,所述基于各所述待训练文本样本,对待训练模型进行迭代训练,得到所述摘要生成模型,包括:
对于任意一个待训练文本样本,分别将所述待训练文本样本输入至所述预训练语言嵌入层、所述词性嵌入层和所述依存关系嵌入层,得到由所述预训练语言嵌入层输出的训练语义向量、所述词性嵌入层输出的每个词语的训练词性向量以及所述依存关系嵌入层输出的词语之间的训练句法依存向量;
将所述训练语义向量、所述训练词性向量和训练句法依存向量输入至所述序列生成网络,得到所述序列生成网络输出的训练特征序列;
将所述训练特征序列输入至所述输出分类层,得到所述输出分类层输出的预测摘要结果;
计算所述预测摘要结果和所述摘要标签之间的模型损失值;
基于每一次迭代的模型损失值,对所述待训练模型进行参数更新,得到所述摘要生成模型。
8.一种文本摘要抽取装置,其特征在于,包括:
获取模块,用于获取待处理文本信息;
摘要生成模块,用于将所述待处理文本信息输入至摘要生成模型,获取由所述摘要生成模型输出的摘要生成结果;
摘要抽取模块,用于若所述摘要生成结果不满足预设质量评估条件,则对所述待处理文本信息进行句法分析抽取,得到摘要抽取结果,并将所述摘要抽取结果作为最终摘要结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述文本摘要抽取方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本摘要抽取方法。
CN202211085499.1A 2022-09-06 2022-09-06 文本摘要抽取方法、装置、设备及存储介质 Pending CN116992012A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211085499.1A CN116992012A (zh) 2022-09-06 2022-09-06 文本摘要抽取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211085499.1A CN116992012A (zh) 2022-09-06 2022-09-06 文本摘要抽取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116992012A true CN116992012A (zh) 2023-11-03

Family

ID=88525362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211085499.1A Pending CN116992012A (zh) 2022-09-06 2022-09-06 文本摘要抽取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116992012A (zh)

Similar Documents

Publication Publication Date Title
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
CN112836514B (zh) 嵌套实体识别方法、装置、电子设备和存储介质
CN113011189A (zh) 开放式实体关系的抽取方法、装置、设备及存储介质
CN109885683A (zh) 一种基于K-means模型和神经网络模型的生成文本摘要的方法
CN108416058A (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN111061861B (zh) 一种基于XLNet的文本摘要自动生成方法
CN111666764B (zh) 一种基于XLNet的自动摘要方法与装置
CN112084769B (zh) 依存句法模型优化方法、装置、设备及可读存储介质
CN112633007B (zh) 一种语义理解模型构建方法及装置、语义理解方法及装置
CN113705237B (zh) 融合关系短语知识的关系抽取方法、装置和电子设备
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN114118022A (zh) 文本表示方法、装置、电子设备与存储介质
CN115587590A (zh) 训练语料集构建方法、翻译模型训练方法、翻译方法
CN117251524A (zh) 一种基于多策略融合的短文本分类方法
CN111859950A (zh) 一种自动化生成讲稿的方法
CN111831792B (zh) 一种电力知识库构建方法及系统
CN110633468B (zh) 一种关于对象特征提取的信息处理方法及装置
CN114996442B (zh) 一种联合抽象程度判别和摘要优化的文本摘要生成系统
CN114254657B (zh) 一种翻译方法及其相关设备
CN106776590A (zh) 一种获取词条译文的方法及系统
CN116483314A (zh) 一种自动化智能活动图生成方法
CN115169297A (zh) 文本改写方法、装置、电子设备和存储介质
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及系统
CN116992012A (zh) 文本摘要抽取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination