CN114722832A - 一种摘要提取方法、装置、设备以及存储介质 - Google Patents

一种摘要提取方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN114722832A
CN114722832A CN202210355287.4A CN202210355287A CN114722832A CN 114722832 A CN114722832 A CN 114722832A CN 202210355287 A CN202210355287 A CN 202210355287A CN 114722832 A CN114722832 A CN 114722832A
Authority
CN
China
Prior art keywords
abstract
statement
sample
sentence
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210355287.4A
Other languages
English (en)
Inventor
王丙琛
李长亮
李小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Digital Entertainment Co Ltd
Priority to CN202210355287.4A priority Critical patent/CN114722832A/zh
Publication of CN114722832A publication Critical patent/CN114722832A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种摘要提取方法、装置、设备以及存储介质,涉及人工智能技术领域,特别是涉及自然语言处理技术领域。具体实现方案为:对目标文本中的各个语句进行预测处理,得到各个语句的预测结果;其中,所述预测处理用于预测是否属于摘要语句;利用各个预测结果,从所述目标文本中筛选多个目标语句;其中,所述目标语句为被预测为属于摘要语句的语句;构建包含所述多个目标语句的初始摘要;对所述初始摘要进行语义生成处理,得到所述目标文本的摘要;其中,所述语义生成处理用于生成完整语义信息。可见,通过本方案,可以兼顾摘要提取的效率以及准确度。

Description

一种摘要提取方法、装置、设备以及存储介质
技术领域
本发明涉及人工智能技术领域,特别是涉及自然语言处理技术领域,具体涉及一种摘要提取方法、装置、设备以及存储介质。
背景技术
人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,人工智能领域关键技术的发展状况,包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。其中,自然语言处理作为人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
目前,自然语言处理主要应用于机器翻译、摘要提取、文本分类、文本语义对比和语音识别等方面。其中,摘要提取作为一种常见的NLP(Natural Language Processing,自然语言处理)任务,其利用计算机对给定的文本进行处理,产生精炼的内容以概括整篇文本的大意。用户可通过阅读计算机所提取出的摘要来把握文本的主要内容,从而提高用户的阅读效率。
相关技术中,一般采用抽取式或生成式方法进行摘要提取。其中,抽取式方法是将从文本中抽取的句子组成摘要,由于无法建立段落中的完整语义信息,因此,得到的摘要准确度不高;而生成式方法是直接从文本语义表达上生成摘要,难度大,且对于长文本而言提取速度慢。
因此,如何兼顾摘要提取的效率以及准确度,成为亟需解决的问题。
发明内容
本发明实施例的目的在于提供一种摘要提取方法、装置、设备以及存储介质,以实现兼顾摘要提取的效率以及准确度。具体技术方案如下:
第一方面,本发明实施例提供了一种摘要提取方法,所述方法包括:
对目标文本中的各个语句进行预测处理,得到各个语句的预测结果;其中,所述预测处理用于预测是否属于摘要语句;
利用各个预测结果,从所述目标文本中筛选多个目标语句;其中,所述目标语句为被预测为属于摘要语句的语句;
构建包含所述多个目标语句的初始摘要;
对所述初始摘要进行语义生成处理,得到所述目标文本的摘要;其中,所述语义生成处理用于生成完整语义信息。
可选地,所述对目标文本中的各个语句进行预测处理,得到各个语句的预测结果,包括:
对目标文本进行分句处理,得到待处理的各个语句;
利用预先训练完成的、用于预测语句是否属于摘要语句的预测模型,对所述待处理的各个语句进行预测,得到各个语句的预测结果。
可选地,所述预测模型为基于多个样本文本中的各个样本语句以及每一样本语句的第一指定标签,训练得到的模型;其中,每一样本语句的第一指定标签用于表征该样本语句是否属于摘要语句,且每一样本语句的第一指定标签基于该样本语句对应的摘要,对该样本语句进行标签识别得到,该样本语句对应的摘要为人工设定的、针对该样本语句所属的样本文本的摘要。
可选地,所述基于该样本语句对应的摘要,对该样本语句进行标签识别的方式,包括:
获取该样本语句对应的摘要所包含的各个语句;
识别所获取的各个语句中,是否存在与该样本语句的匹配度超过预设阈值的语句;
若存在,将表征该样本语句属于摘要语句的第一标签,确定为该样本语句的第一指定标签,否则,将表征该样本语句不属于摘要语句的第二标签,确定为该样本语句的第一指定标签。
可选地,所述识别所获取的各个语句中,是否存在与该样本语句的匹配度超过预设阈值的语句,包括:
计算所获取的各个语句与该样本语句之间的匹配度,得到各个匹配结果;
从所述各个匹配结果中,确定是否存在匹配度超过预设阈值的匹配结果。
可选地,所述对所述初始摘要进行语义生成处理,得到所述目标文本的摘要,包括:
利用预先训练完成的、用于生成完整语义信息的生成模型,对所述初始摘要进行语义生成处理,得到所述目标文本的摘要;其中,所述生成模型为基于多个样本摘要训练得到的模型,每一样本摘要具有第二指定标签,每一第二指定标签为人工设定的、针对样本摘要所属的样本文本的摘要。
可选地,所述构建包含所述多个目标语句的初始摘要,包括:
按照预设的排序方式,对所述多个目标语句进行排序;
对所述多个目标语句按照排序顺序进行组合,得到初始摘要。
第二方面,本发明实施例提供了一种摘要提取装置,所述装置包括:
处理模块,用于对目标文本中的各个语句进行预测处理,得到各个语句的预测结果;其中,所述预测处理用于预测是否属于摘要语句;
筛选模块,用于利用各个预测结果,从所述目标文本中筛选多个目标语句;其中,所述目标语句为被预测为属于摘要语句的语句;
构建模块,用于构建包含所述多个目标语句的初始摘要;
生成模块,用于对所述初始摘要进行语义生成处理,得到所述目标文本的摘要;其中,所述语义生成处理用于生成完整语义信息。
可选地,所述处理模块,包括:
分句子模块,用于对目标文本进行分句处理,得到待处理的各个语句;
预测子模块,用于利用预先训练完成的、用于预测语句是否属于摘要语句的预测模型,对所述待处理的各个语句进行预测,得到各个语句的预测结果。
可选地,所述预测模型为基于多个样本文本中的各个样本语句以及每一样本语句的第一指定标签,训练得到的模型;其中,每一样本语句的第一指定标签用于表征该样本语句是否属于摘要语句,且每一样本语句的第一指定标签基于该样本语句对应的摘要,对该样本语句进行标签识别得到,该样本语句对应的摘要为人工设定的、针对该样本语句所属的样本文本的摘要。
可选地,所述基于该样本语句对应的摘要,对该样本语句进行标签识别的方式,包括:
获取该样本语句对应的摘要所包含的各个语句;
识别所获取的各个语句中,是否存在与该样本语句的匹配度超过预设阈值的语句;
若存在,将表征该样本语句属于摘要语句的第一标签,确定为该样本语句的第一指定标签,否则,将表征该样本语句不属于摘要语句的第二标签,确定为该样本语句的第一指定标签。
可选地,所述识别所获取的各个语句中,是否存在与该样本语句的匹配度超过预设阈值的语句,包括:
计算所获取的各个语句与该样本语句之间的匹配度,得到各个匹配结果;
从所述各个匹配结果中,确定是否存在匹配度超过预设阈值的匹配结果。
可选地,所述生成模块,具体用于:
利用预先训练完成的、用于生成完整语义信息的生成模型,对所述初始摘要进行语义生成处理,得到所述目标文本的摘要;其中,所述生成模型为基于多个样本摘要训练得到的模型,每一样本摘要具有第二指定标签,每一第二指定标签为人工设定的、针对样本摘要所属的样本文本的摘要。
可选地,所述构建模块,具体用于:
按照预设的排序方式,对所述多个目标语句进行排序;
对所述多个目标语句按照排序顺序进行组合,得到初始摘要。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的摘要提取方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的摘要提取方法的步骤。
本发明实施例有益效果:
本实施例所提供的方案中,通过对目标文本中的各个语句进行预测处理,得到用于预测各个语句是否属于摘要语句的预测结果;接着利用各个预测结果,从目标文本中筛选多个被预测为属于摘要语句的目标语句,并构建包含多个目标语句的初始摘要;然后对该初始摘要进行语义生成处理,得到目标文本的摘要。由于在利用从目标文本中筛选出的各个目标语句构成初始摘要后,进一步对初始摘要进行语义生成处理,使得最终得到的目标文本的摘要包含该初始摘要的完整语义信息,因此,摘要的准确度得到提高;并且,本方案针对初始摘要进行语义生成处理,而不是对整个目标文本进行语义生成处理,摘要生成速度大大提高。可见,通过本方案,可以兼顾摘要提取的效率以及准确度。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
图1为根据本发明实施例所提供的一种摘要提取方法的流程图;
图2是根据本发明实施例所提供的摘要提取方法的另一流程图;
图3是根据本发明实施例所提供的摘要提取方法的一个具体示例的流程图;
图4是根据本发明实施例所提供的一种摘要提取装置的结构示意图;
图5是用来实现本发明实施例所提供的摘要提取方法的电子设备的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本发明保护的范围。
下面,首先对本发明实施例中所涉及的专业术语进行介绍:
Bert(Bidirectional Encoder Representation from Transformers,基于转换器的双向编码表征)模型:Bert是一种预训练语言模型,它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的MLM(masked language model,掩码语言模型),以致能生成深度的双向语言表征;
Seq2Seq(Sequence to Sequence,序列到序列)模型:Seq2Seq模型是一个有监督的编解码模型,已经广泛应用在文本生成领域中。Seq2Seq模型包括编码器和解码器部分,二者通过中间状态向量连接。编码器将一个可变长度的输入序列变为固定长度的向量,解码器将固定长度的向量解码成可变长度的输出序列。
摘要提取作为一种常见的NLP任务,其主要任务是针对给定的文本进行摘要生成,也就是,对给定的文本中的文本内容进行分析,然后提取出能够代表该文本核心内容的句子作为摘要。在实际应用中,利用计算机对给定的文本进行处理,产生精炼的内容以概括整篇文本的大意,该产生的精炼的内容即为给定的文本的摘要。用户可通过阅读计算机所提取出的摘要来把握文本的主要内容,从而提高用户的阅读效率。
相关技术中,一般采用抽取式或生成式方法进行摘要提取。其中,抽取式方法是将从文本中抽取的句子组成摘要,由于无法建立段落中的完整语义信息,因此,得到的摘要准确度不高;而生成式方法是直接从文本语义表达上生成摘要,难度大,且对于长文本而言提取速度慢。
基于上述内容,为了兼顾摘要提取的效率以及准确度,本发明实施例提供了一种摘要提取方法、装置、设备以及存储介质。
下面首先对本发明实施例所提供的一种摘要提取方法进行介绍。
本发明实施例所提供的一种摘要提取方法,可以应用于电子设备。在具体应用中,该电子设备可以为服务器,也可以为终端设备,这都是合理的。在实际应用中,该终端设备可以是:智能手机、平板电脑、台式电脑等等。
具体而言,该摘要提取方法的执行主体可以为摘要提取装置。示例性的,当该摘要提取方法应用于终端设备时,该摘要提取装置可以为运行于终端设备中的功能软件,例如:用于进行摘要提取的功能软件。示例性的,当该摘要提取方法应用于服务器时,该摘要提取装置可以为运行于服务器中的计算机程序,该计算机程序可以用于进行文本摘要的提取。
其中,本发明实施例所提供的一种摘要提取方法,可以包括如下步骤:
对目标文本中的各个语句进行预测处理,得到各个语句的预测结果;其中,所述预测处理用于预测是否属于摘要语句;
利用各个预测结果,从所述目标文本中筛选多个目标语句;其中,所述目标语句为被预测为属于摘要语句的语句;
构建包含所述多个目标语句的初始摘要;
对所述初始摘要进行语义生成处理,得到所述目标文本的摘要;其中,所述语义生成处理用于生成完整语义信息。
本实施例所提供的方案中,通过对目标文本中的各个语句进行预测处理,得到用于预测各个语句是否属于摘要语句的预测结果;接着利用各个预测结果,从目标文本中筛选多个被预测为属于摘要语句的目标语句,并构建包含多个目标语句的初始摘要;然后对该初始摘要进行语义生成处理,得到目标文本的摘要。由于在利用从目标文本中筛选出的各个目标语句构成初始摘要后,进一步对初始摘要进行语义生成处理,使得最终得到的目标文本的摘要包含该初始摘要的完整语义信息,因此,摘要的准确度得到提高;并且,本方案针对初始摘要进行语义生成处理,而不是对整个目标文本进行语义生成处理,摘要生成速度大大提高。可见,通过本方案,可以兼顾摘要提取的效率以及准确度。
下面结合附图,对本发明实施例所提供的摘要提取方法进行介绍。
如图1所示,本发明实施例所提供的摘要提取方法,可以包括步骤S101-S104:
S101,对目标文本中的各个语句进行预测处理,得到各个语句的预测结果;其中,该预测处理用于预测是否属于摘要语句;
其中,目标文本可以为任一存在摘要提取需求的文本,本实施例对于目标文本的具体内容、来源以及文本格式均不做限定。
本实施例中,为了从目标文本中快速、准确地提取出摘要,首先可以对目标文本中的各个语句进行预测处理,以得到各个语句是否属于摘要语句的预测结果。可以理解的是,由于摘要提取是从文本中生成简明流畅的总结,同时保留关键内容和主旨的一项任务,因此,待提取出的摘要与目标文本中的文本内容息息相关,从而可以首先对目标文本中的各个语句进行预测处理,得到各个语句的预测结果。
可选地,在一种实现方式中,预测处理的方式可以包括:确定目标文本中的各个关键词,以及每一关键词的词频,即在目标文本中出现的频率;基于各个语句中出现的关键词的数量和关键词的频率,确定各个语句的预测结果。
示例性的,目标文本中的关键词的确定方式可以包括:首先对目标文本中的各个语句进行分词处理,得到各个分词;统计各个分词在目标文本中的词频,即出现频率;将词频高于指定词频阈值的分词,确定为关键词,或者,按照各个分词的词频高低对各个分词进行排序,将排序靠前的至少一个分词,确定为关键词。当然,目标文本中的关键词的确定方式也可以包括:首先对目标文本中的各个语句进行分词处理,得到各个分词;然后,将各个分词与预定的关键词库进行匹配,将属于关键词库的分词,确定为目标文本中的关键词。需要说明的是,在对目标文本中的各个语句进行分词处理后,会得到大量没有语义的词,例如:介词、代词、连词、助词等,在统计目标文本中的分词的词频时,可以过滤掉这些没有语义的词,即只统计含有语义的分词的词频。
示例性的,在一种实现方式中,基于各个语句中出现的关键词的数量和关键词的频率,确定各个语句的预测结果,可以包括:
将未出现关键词的语句预测结果直接确定为不属于摘要语句;
针对出现关键词的每一语句,基于该语句中出现的至少一个关键词的词频,确定该语句的分数;
将分数高于指定分数阈值的语句的预测结果确定为属于摘要语句,将分数不高于指定分数阈值的语句的预测结果确定为不属于摘要语句;或者,按照分数对各个出现有关键词的语句进行从高到底的排序,选取排序靠前的多个语句,将所选取的语句的预测结果确定为属于摘要语句,其他语句的预测结果确定为不属于摘要语句。其中,指定分数阈值可以根据实际情况设定,本发明实施例对此不做限定。
其中,基于该语句中出现的至少一个关键词的词频,确定该语句的分数的方式也有多种。例如:将该语句中出现的至少一个关键词的词频之和,确定为该语句的分数;或者,将关于词频与分数的映射关系中的、与该语句中出现的至少一个关键词的词频之和所对应的分值,确定为该语句的分数。
另外,可以理解的是,由于文本中的中心句,往往出现在段落中的第一句或最后一句,因此,除了考虑关键词的词频,可以将各个语句出现在目标文本中所属段落的位置,也作为判断该语句的是否为摘要语句的一个依据,以此来确定各个语句的分数。基于该种思路,示例性的,基于该语句中出现的至少一个关键词的词频,确定该语句的分数,可以包括:首先,将该语句中出现的关键词的词频之和,占指定和值的比例,作为该语句的第一分值;其中,指定和值为目标文本中所有关键词的词频的和值;然后,根据该语句在目标文本中的位置是否为段首句、段尾句,对该语句进行打分,得到第二分值;最后,将该第一分值和第二分值进行求和,得到该语句的分数。示例性的,判断语句在目标文本中的位置是否为段首句、段尾句,可以通过判断该语句对应的结束符号,是否为该段落中第一个结束符号或最后一个结束符号,判断该语句是否为段首句或段尾句,该结束符号可以是句号、感叹号等标点符号。
示例性的,预测处理的方式还可以是,利用预先训练的预测模型,对目标文本中的各个语句进行预测。其中,为了方案清楚以及布局清晰,利用预先训练的预测模型进行预测的方式在下文中进行介绍,这里不再赘述。
另外,可以理解的是,在对目标文本中的各个语句进行预测时,在一种可选的实现方式中,摘要提取装置可以首先将目标文本进行语句划分,得到各个语句,然后对各个语句进行预测,得到各个语句的预测结果;在另一种可选的实现方式中,摘要提取装置也可以无需执行语句划分,从而对目标文本中的各个语句进行预测处理,例如:摘要提取装置将目标文本输入指定的分析工具,由分析工具来进行语句划分以及语句预测,其中,指定的分析工具可以为用于进行语句划分以及语句预测的模型系统。
S102,利用各个预测结果,从该目标文本中筛选多个目标语句;其中,该目标语句为被预测为属于摘要语句的语句;
可以理解的是,为了快速从目标文本中提取出摘要,可以在通过步骤S101对目标文本中的各个语句进行预测后,利用各个预测结果,从目标文本的各个语句中筛选出被预测为属于摘要语句的多个目标语句。从而,后续可以对该多个目标语句进行语义生成处理,以获得更为准确的该目标文本的摘要。
示例性的,若按照上述计算各个语句的分数的方式,对目标文本中的各个语句进行预测处理,则利用各个预测结果,从该目标文本中筛选多个目标语句的方式,可以是将所有预测结果为属于摘要语句的语句,均确定为目标语句;或者,从预测结果为摘要语句的各个语句中,对该各个语句进行分数由高到低的排序,然后将分值较高的若干语句,确定为目标语句。示例性的,若利用预先训练的预测模型,对目标文本中的各个语句进行预测,则利用各个预测结果,从该目标文本中筛选多个目标语句的方式,可以是将所有预测结果为属于摘要语句的语句,确定为目标语句;或者,根据各个语句被预测为属于摘要语句类别的概率值,对该各个语句按照属于摘要语句类别的概率值由高到低的排序,然后将该概率值较高的若干语句,确定为目标语句。可以理解的是,若所有预测结果为属于摘要语句的语句的数量较多,例如:数量高于预定阈值,由于摘要字数通常是有限的,因此,利用上述的方式对所有预测结果为属于摘要语句的语句进行进一步筛选,从而得到各个目标语句。
需要说明的是,在筛选目标语句之前,可以预先确定出需要构建的初始摘要的长度范围,然后根据该长度范围,筛选出分值或概率值较高的若干语句,作为目标语句。例如:初始摘要的长度范围为300到400字数,则可以根据该字数要求,从分值或概率值由高到低的排序的各个语句中,筛选出多个目标语句。可以理解的是,由于目前的语义生成处理的相关算法存在针对长文本的语义生成效果不佳的问题,因此,通过根据预先确定出的初始摘要的长度范围对该各个语句进行筛选,可以保证后续在针对该筛选出的多个目标语句进行语义生成处理时,得到的生成结果具有更佳的语义生成效果。
S103,构建包含该多个目标语句的初始摘要;
可以理解的是,由于该多个目标语句均为被预测为属于摘要语句的语句,因此可以构建包含该多个目标语句的初始摘要。
可选地,在一种实现方式中,构建包含该多个目标语句的初始摘要,包括:
按照预设的排序方式,对该多个目标语句进行排序;
对该多个目标语句按照排序顺序进行组合,得到初始摘要。
本实现方式中,预设的排序方式可以是相关技术人员预先设定的一种排序方式,本实施例对该排序方式的具体类型不作具体限定。示例性的,在一种具体的实现方式中,可以按照各个目标语句在目标文本中出现的位置,即各个目标语句出现在目标文本中的索引号顺序,对该各个目标语句进行排序,然后将该各个目标语句按照排序顺序进行组合,得到初始摘要;或者,按照各个目标语句中所包含的所有关键词的词频,对该各个目标语句进行排序,然后对各个目标语句按照排序顺序进行组合,得到初始摘要,等等。可以理解的是,按照各个目标语句在目标文本中的位置,对该各个目标语句进行组合,可以生成可读性较高的初始摘要,后续对该初始摘要进行语义生成处理时,可以较好的学习到该各个语句中的上下文关联语义,从而使得到的摘要更加准确。另外,按照各个目标语句中所包含的所有关键词的词频,对该各个目标语句进行排序的方式,可以是按照各个目标语句中出现的所有关键词的词频,将各个目标语句按照词频大小进行降序排列,从而构成初始摘要。
可以理解的是,通过按照预设的构建方式将该多个目标语句构建成初始摘要,后续可以进一步对该初始摘要进行语义生成处理,生成该初始摘要中完整的语义信息,而不需要对整个目标文本进行语义处理,从而可以快速、准确的提取出初始摘要中的语义信息。
S104,对该初始摘要进行语义生成处理,得到该目标文本的摘要;其中,该语义生成处理用于生成完整语义信息。
可以理解的是,在通过步骤S103获得初始摘要后,由于初始摘要为目标文本中所筛选出的目标语句构成的,其没有对目标文本中的原有内容进行语义上的处理,因此,缺少完整的语义信息,得到的初始摘要的准确度不高。并且,由于构成初始摘要的各个目标语句为被预测为属于摘要语句的语句,该各个目标语句本质上为该目标文本中的关键语句,因此,从该多个目标语句构成的初始摘要中提取出的语义信息,可以表征该目标文本的语义信息,从而对该初始摘要进行语义生成处理,可得到具有完整语义信息的目标文本的摘要。
本实施例中,对该初始摘要进行语义生成处理,以建立初始摘要中完整的语义信息,从而得到目标文本的摘要。可以理解的是,由于对初始摘要进一步进行了语义生成处理,得到的摘要中包含了该初始摘要完整的语义信息,因此,摘要的准确度更高。并且,相比较于对整个目标文本进行语义生成处理,以得到目标文本的摘要的方式而言,本实施例只需针对文本内容更短的初始摘要进行语义生成处理,提取速度更快。
可选地,在一种实现方式中,对该初始摘要进行语义生成处理,得到该目标文本的摘要,可以包括:
利用预先训练完成的、用于生成完整语义信息的生成模型,对该初始摘要进行语义生成处理,得到该目标文本的摘要;其中,该生成模型为基于多个样本摘要训练得到的模型,每一样本摘要具有第二指定标签,每一第二指定标签为人工设定的、针对样本摘要所属的样本文本的摘要。
也就是,为了进一步提高语义生成处理的速度,可以利用预先训练完成的生成模型,对初始摘要进行语义生成处理。示例性的,该生成模型可以是Pointer Networks(指针网络) 模型、seq2seq模型,等等。为了得到较为准确的模型输出结果,可以基于多个样本摘要对初始的生成模型进行训练,该初始的生成模型的训练过程可以包括:将各个样本摘要分别输入初始的生成模型,得到各个摘要生成结果,利用各个样本摘要对应的第二指定标签,计算各个摘要生成结果与其对应的第二指定标签之间的损失值,通过最小化损失值调整该生成模型的参数,直到得到损失值达到预设要求的生成模型。其中,第二指定标签为人工设定的、针对样本摘要所属的样本文本的摘要,其用于表征该样本摘要所属的样本文本的摘要“真值”。
示例性的,在一种具体的实现方式中,对该初始摘要进行语义生成处理,得到该目标文本的摘要,可以包括:利用预先训练完成的、用于生成完整语义信息的seq2seq模型,对该初始摘要进行语义生成处理,得到该目标文本的摘要。
在本实现方式中,seq2seq模型由两个RNN(Recurrent Neural Networks,循环神经网络) 构成,一个RNN作为编码器,另一个RNN作为解码器。利用seq2seq模型对初始摘要进行处理时,可以将初始摘要中的各个语句分别输入到seq2seq模型中,利用该seq2seq模型中的编码器将输入的各个语句分别编码为指定长度的向量,该各个指定长度的向量即为该各个语句的语义。然后,利用该seq2seq模型中的解码器对该各个指定长度的向量进行解码,得到各个输出语句,该各个输出语句即构成目标文本的摘要。
另外,需要说明的是,样本摘要可以是按照与上述的初始摘要的类似构建方式所构建出的摘要,也就是说,样本摘要的构建过程可以是:利用样本文本中的各个目标语句,所构建的摘要,这里的各个目标语句是样本文本中被预测为属于摘要语句的语句。
可以理解的是,由于生成模型对于长文本而言存在生成效果不佳的缺陷,而将初始摘要输入生成模型,初始摘要的文本长度相较于目标文本大大降低,因此,利用生成模型对初始摘要进行语义生成处理,得到的摘要提取效果更好,并且提取速度更快。
需要强调的是,上述的对该初始摘要进行语义生成处理,得到该目标文本的摘要的具体实现方式仅仅作为示例,并不应该构成对本发明实施例的限定。例如,对该初始摘要进行语义生成处理的过程还可以是:利用任一预定的语义生成算法,将该初始摘要进行语义生成处理,从而得到该目标文本的摘要。
为了更好的理解对初始摘要进行语义生成处理的过程,下面结合一个具体示例展示语义生成的效果。采用本实施例步骤S101-S103对一篇报道进行处理,得到的初始摘要如下:“9月12日,运动员A(右)和运动员B在女子跳高个人决赛领奖台上。志愿者A供图9月12日下午,第十四届校运动会女子跳高个人决赛开赛前,赛场外熙熙攘攘的观众等待排队入场。运动员A的精彩表现,使得A班跳高再次“出圈”,这对于跳高运动的推广无疑是好事。从运动员A在校运动会上的一鸣惊人开始,校跳高队的教练们就在刻意保护着她少受外界干扰,好好学习和不断成长是眼下运动员A最重要的事情,这也得到了外界的认可。本报B地9月13日电C报记者A来源:C报2021年09月14日04版点击进入专题:第十四届校运动会责任编辑:编辑B”。
采用本实施例步骤S104,对该初始摘要进行语义生成处理后,得到的摘要如下:“9月 12日,运动员A(右)和运动员B在跳高个人决赛领奖台上。第十四届女子跳高个人决赛开赛前,赛场外熙熙攘攘的观众等待排队入场。运动员A的精彩表现,使得A班跳高再次“出圈”,这对于跳高运动的推广无疑是好事。从运动员A在校运动会上的一鸣惊人开始,校跳高队的教练们就在刻意保护着她少受外界干扰,好好学习和不断成长是眼下运动员A最重要的事情,这也得到了外界的认可。”可见,通过对初始摘要进行进一步的语义生成处理,使得摘要保留了初始摘要中的关键内容和主旨,使得摘要的提取效果更好、可读性更强。
本实施例所提供的方案中,通过对目标文本中的各个语句进行预测处理,得到用于预测各个语句是否属于摘要语句的预测结果;接着利用各个预测结果,从目标文本中筛选多个被预测为属于摘要语句的目标语句,并构建包含多个目标语句的初始摘要;然后对该初始摘要进行语义生成处理,得到目标文本的摘要。由于在利用从目标文本中筛选出的各个目标语句构成初始摘要后,进一步对初始摘要进行语义生成处理,使得最终得到的目标文本的摘要包含该初始摘要的完整语义信息,因此,摘要的准确度得到提高;并且,本方案针对初始摘要进行语义生成处理,而不是对整个目标文本进行语义生成处理,摘要生成速度大大提高。可见,通过本方案,可以兼顾摘要提取的效率以及准确度。
可选地,在本发明的另一实施例中,在图1所示的实施例的基础上,如图2所示,上述步骤S101中,对目标文本中的各个语句进行预测处理,得到各个语句的预测结果,可以包括步骤S201-S202:
S201,对目标文本进行分句处理,得到待处理的各个语句;
本实施例中,首先对目标文本进行分句处理,以得到待处理的各个语句,从而后续可以对该各个语句分别进行预测,得到各个语句的预测结果。其中,分句处理为将目标文本中的文本内容划分为多个语句的处理过程,本发明实施例并不对分句处理的具体实现方式进行限定。示例性的,可以基于特殊符号,对目标文本进行分句处理,得到待处理的各个语句,该特殊符号可以是目标文本中的标点符号、换行符号,等等。需要说明的是,该特殊符号为标点符号时,该标点符号应为用于分割句子的通用符号,例如:逗号、句号、分号,等等,而双引号、破折号等标点符号不作为该特殊符号对目标文本进行分句处理。
S202,利用预先训练完成的、用于预测语句是否属于摘要语句的预测模型,对该待处理的各个语句进行预测,得到各个语句的预测结果。
可以理解的是,为了提高对目标文本中各个语句的预测速度,可以利用预先训练完成的预测模型,对该待处理的各个语句进行预测,得到各个语句的预测结果。示例性的,该预测模型可以是卷积神经网络模型,或者,改造后的Bert模型,等等。需要说明的是,由于Bert模型是一种预训练模型,用于不同任务时,可以根据不同任务设计不同输出层,因此,将Bert模型用于对各个语句进行预测时,可以将Bert模型改造为一个分类网络模型,也就是,在Bert模型后面再连接一些网络层和全连接层,得到改造后的Bert模型。在实际应用过程中,该改造后的Bert模型可以用于将待处理的各个语句分类为属于摘要语句和不属于摘要语句两类,即可以预测各个语句属于每一类别的概率,概率最高的类别为该各个语句的预测结果。另外,对预测模型进行训练的方式可以是有监督学习的训练方式,即每一样本数据具有用于训练的标签,也可以是无监督学习的训练方式,这都是合理的。
可选地,在一种实现方式中,该预测模型为基于多个样本文本中的各个样本语句以及每一样本语句的第一指定标签,训练得到的模型;其中,每一样本语句的第一指定标签用于表征该样本语句是否属于摘要语句,且每一样本语句的第一指定标签基于该样本语句对应的摘要,对该样本语句进行标签识别得到,该样本语句对应的摘要为人工设定的、针对该样本语句所属的样本文本的摘要。
可以理解的是,为了得到较为准确的预测结果,可以基于样本文本中的各个样本语句对初始的预测模型进行训练。该初始的预测模型的训练过程可以包括:将各个样本语句分别输入初始的预测模型,得到各个样本语句的预测结果,利用每一样本语句的第一指定标签,计算各个样本语句的预测结果与其对应的第一指定标签之间的损失值,通过最小化损失值调整该预测模型的参数,直到得到损失值达到预设要求的预测模型。也就是,在利用多个样本文本对预测模型进行训练的过程中,采用有监督学习的训练方式,每一样本语句均具有第一指定标签,该第一指定标签用于表征该样本语句是否为摘要语句。
示例性的,该预测模型可以为改造后的Bert模型,得到该改造后的Bert模型的过程为:首先获取经过大量通用语料预训练得到预训练后的Bert模型,或者直接获取已有的预训练后的Bert模型,再根据具体应用场景,利用相应场景下的训练语料对预训练后的Bert模型进行微调,得到应用于该场景的、改造后的Bert模型。可以理解的是,在NLP的下游任务,比如机器翻译、摘要提取等任务中,可以使用的训练语料是比较少的,这样就使得拿这些训练语料直接训练出来的模型效果比较一般。而使用大量通用语料提前训练好bert模型中、用于处理这些下游任务中底层的、共性的部分模型,之后再利用下游任务各自的训练语料来训练各自的Bert模型时,可以极大地加快模型的收敛速度。
本领域普通技术人员可以知晓,Bert模型在预训练过程中包括两个训练任务。其中一个训练任务是预测通用语料中被去除的词语,通过先去除通用语料中的部分词语,再利用模型来预测被去除的词语,进行模型训练。在预测被去除词语的过程中,模型会利用在其之前的词语和之后的词语,实现对该被去除词语的双向表征,从而加深语义理解。另一个训练任务是,输入两个样本语料,让模型学习该两个样本语料是否为相邻文本,进行模型训练,从而使模型能够捕捉两个样本语句之间的语义联系。
可以理解的是,由于Bert模型在预训练过程中,引入上述两个训练任务,使Bert模型可以较好地理解文本语义,后续利用改造后的Bert模型作为预测模型时,可以大大提高模型预测的准确性。
相应地,在该种实现方式中,基于该样本语句对应的摘要,对该样本语句进行标签识别的方式,包括步骤A1-A3:
A1,获取该样本语句对应的摘要所包含的各个语句;
可以理解的是,为了对样本文本中的各个样本语句进行是否属于摘要语句的预测,可以利用人工设定的、针对该样本语句所属的样本文本的摘要中的各个语句,对该各个样本语句进行预测。因此,本实现方式中,首先获取人工设定的、针对该样本语句所属的样本文本的摘要所包含的各个语句。
A2,识别所获取的各个语句中,是否存在与该样本语句的匹配度超过预设阈值的语句;
在通过步骤A1获取该样本语句对应的摘要所包含的各个语句后,可以根据该摘要所包含的各个语句,对该样本语句进行识别,即识别该样本语句是否与该摘要中所包含的任一语句的匹配度超过预设阈值。其中,该预设阈值可以是人工设定的、用于表征该样本语句被预测为摘要语句的阈值。
可选地,在一种具体的实现方式中,识别所获取的各个语句中,是否存在与该样本语句的匹配度超过预设阈值的语句,包括步骤A21-A22:
A21,计算所获取的各个语句与该样本语句之间的匹配度,得到各个匹配结果;
示例性的,计算所获取的各个语句与该样本语句之间的匹配度的方式可以是:统计该所获取的各个语句中,每一语句与样本语句之间的相同字符的个数,并除以该样本语句的字符个数,作为该所获取的各个语句与该样本语句之间的匹配度,从而得到各个匹配结果。示例性的,计算所获取的各个语句与该样本语句之间的匹配度的方式还可以是:计算所获取的各个语句与该样本语句之间的欧式距离,基于该欧式距离得到各个匹配结果。在实际应用过程中,可以分别将各个语句与样本语句进行编码,得到各个编码向量与样本编码向量,然后分别计算各个编码向量与样本编码向量之间的欧式距离。其中,计算欧式距离的公式为:
Figure BDA0003582263600000151
其中,d(x,y)表征向量x与向量y之间的欧式距离,n为向量x或向量y的维数,xi、yi分别为向量x和向量y中的第i个元素。可以理解的是,在计算各个编码向量与样本编码向量之间的欧式距离后,该欧式距离可以表征编码向量与样本编码向量之间的空间距离,然后将该欧式距离作为匹配结果。
需要强调的是,上述的计算所获取的各个语句与该样本语句之间的匹配度的方式仅仅作为示例,并不应该构成对本发明实施例的限定。例如,计算所获取的各个语句与该样本语句之间的匹配度的方式还可以是:利用贪心匹配算法,对所获取的各个语句与该样本语句进行贪心匹配,从而得到各个匹配结果。
A22,从该各个匹配结果中,确定是否存在匹配度超过预设阈值的匹配结果。
其中,该预设阈值可以是人工设定的、用于表征该样本语句被预测为摘要语句的阈值。可以理解的是,针对样本语句而言,若存在匹配度超过预设阈值的匹配结果,说明该样本语句为与人工设定的摘要中的某一语句相似的语句,该样本语句可以被识别为摘要语句;若不存在匹配度超过预设阈值的匹配结果,说明该样本语句与人工设定的摘要中的任一语句的相似度较低,该样本语句可以被识别为普通语句。
A3,若存在,将表征该样本语句属于摘要语句的第一标签,确定为该样本语句的第一指定标签,否则,将表征该样本语句不属于摘要语句的第二标签,确定为该样本语句的第一指定标签。
示例性的,该第一标签和第二标签可以是用于表征该样本语句是否属于摘要语句的符号、数字,等等。例如:该第一标签可以是“1”,表征是摘要语句,该第二标签可以是“0”,表征不是摘要语句。可以理解的是,将样本语句与该样本语句对应的摘要所包含的各个语句进行识别,可以得到该样本语句是否被识别为摘要语句的识别结果,从而可以将标注该样本语句是否为摘要语句的第一标签与第二标签,确定为该样本语句的第一指定标签,进而后续可以利用该第一指定标签和各个样本语句对预测模型进行训练。
可见,通过本方案,利用预先训练完成的预测模型,对该待处理的各个语句进行预测,可以提高对目标文本中各个语句的预测速度。
为了更好的阐述本发明实施例的内容,下面结合一个具体的示例对本发明实施例所提供的摘要提取方法进行介绍。
如图3所示,针对原始文章(对应于上文中的目标文本)进行摘要提取的过程可以包括如下步骤:
S301,对原始文章进行分句处理,得到待处理的各个语句;
S302,将待处理的各个语句输入预先训练完成的、改造后的Bert模型,使得改造后的Bert 模型对该待处理的各个语句进行是否属于摘要语句的分类,得到各个语句的预测结果;
其中,改造后的Bert模型的训练过程为:将样本文章进行分句处理,得到各个样本语句;使用人工标注的摘要数据,对各个样本语句进行处理,即针对每一样本语句,利用贪心匹配算法,识别人工标注的摘要数据中,是否存在与该样本语句的匹配度超过预设阈值的语句,若存在,将该样本语句标注标签“1”,代表该样本语句为摘要语句,否则将该样本语句标注标签“0”,表征该样本语句为普通语句;将各个样本语句输入改造后的Bert模型,得到各个样本语句的输出结果;计算各个样本语句的输出结果与该样本语句的标签之间的损失值,通过最小化该损失值调整改造后的Bert模型的参数,直到得到损失值达到预设要求的改造后的Bert模型。
S303,从各个语句的预测结果中,筛选出分值靠前的若干个语句,将该筛选出的若干个语句构建为初始摘要;
其中,分值靠前的若干个语句,可以是按照被分类为摘要语句的概率对该各个预测结果进行打分,得到的若干个分值靠前的预测结果所对应的语句。
S304,将初始摘要输入预先训练完成的seq2seq生成模型,得到最终的摘要生成结果。
其中,seq2seq生成模型的训练过程为:针对每一样本摘要,将人工标注的、针对该样本摘要所属的样本文本的摘要,作为该样本摘要的标签;将各个样本摘要输入seq2seq生成模型,得到各个样本摘要的输出结果;计算各个样本摘要的输出结果与该样本摘要的标签之间的损失值,通过最小化该损失值调整seq2seq生成模型的参数,直到得到损失值达到预设要求的seq2seq生成模型。
可见,通过本方案,通过利用改造后的Bert模型对原始文章中的各个语句进行预测,将该原始文章中被预测为摘要语句的若干个语句构成初始摘要,并输入seq2seq生成模型生成该初始摘要的完整语义信息,得到该原始文章的摘要,从而可以兼顾摘要提取的效率以及准确度,解决了相关技术中针对长文本的提取速度慢、提取效果不足的问题。
相应上述方法实施例,本发明实施例还提供了一种摘要提取装置,如图4所示,所述装置包括:
处理模块410,用于对目标文本中的各个语句进行预测处理,得到各个语句的预测结果;其中,所述预测处理用于预测是否属于摘要语句;
筛选模块420,用于利用各个预测结果,从所述目标文本中筛选多个目标语句;其中,所述目标语句为被预测为属于摘要语句的语句;
构建模块430,用于构建包含所述多个目标语句的初始摘要;
生成模块440,用于对所述初始摘要进行语义生成处理,得到所述目标文本的摘要;其中,所述语义生成处理用于生成完整语义信息。
可选地,所述处理模块,包括:
分句子模块,用于对目标文本进行分句处理,得到待处理的各个语句;
预测子模块,用于利用预先训练完成的、用于预测语句是否属于摘要语句的预测模型,对所述待处理的各个语句进行预测,得到各个语句的预测结果。
可选地,所述预测模型为基于多个样本文本中的各个样本语句以及每一样本语句的第一指定标签,训练得到的模型;其中,每一样本语句的第一指定标签用于表征该样本语句是否属于摘要语句,且每一样本语句的第一指定标签基于该样本语句对应的摘要,对该样本语句进行标签识别得到,该样本语句对应的摘要为人工设定的、针对该样本语句所属的样本文本的摘要。
可选地,所述基于该样本语句对应的摘要,对该样本语句进行标签识别的方式,包括:
获取该样本语句对应的摘要所包含的各个语句;
识别所获取的各个语句中,是否存在与该样本语句的匹配度超过预设阈值的语句;
若存在,将表征该样本语句属于摘要语句的第一标签,确定为该样本语句的第一指定标签,否则,将表征该样本语句不属于摘要语句的第二标签,确定为该样本语句的第一指定标签。
可选地,所述识别所获取的各个语句中,是否存在与该样本语句的匹配度超过预设阈值的语句,包括:
计算所获取的各个语句与该样本语句之间的匹配度,得到各个匹配结果;
从所述各个匹配结果中,确定是否存在匹配度超过预设阈值的匹配结果。
可选地,所述生成模块,具体用于:
利用预先训练完成的、用于生成完整语义信息的生成模型,对所述初始摘要进行语义生成处理,得到所述目标文本的摘要;其中,所述生成模型为基于多个样本摘要训练得到的模型,每一样本摘要具有第二指定标签,每一第二指定标签为人工设定的、针对样本摘要所属的样本文本的摘要。
可选地,所述构建模块,具体用于:
按照预设构建方式,对所述多个目标语句进行摘要构建,得到初始摘要;其中,所述预设构建方式为用于按照特定顺序对所述多个目标语句进行排序组合的方式。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现上述实施例中任一所述的摘要提取方法的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA) 总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor, DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的摘要提取方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的摘要提取方法的步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质 (例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (16)

1.一种摘要提取方法,其特征在于,所述方法包括:
对目标文本中的各个语句进行预测处理,得到各个语句的预测结果;其中,所述预测处理用于预测是否属于摘要语句;
利用各个预测结果,从所述目标文本中筛选多个目标语句;其中,所述目标语句为被预测为属于摘要语句的语句;
构建包含所述多个目标语句的初始摘要;
对所述初始摘要进行语义生成处理,得到所述目标文本的摘要;其中,所述语义生成处理用于生成完整语义信息。
2.根据权利要求1所述的方法,其特征在于,所述对目标文本中的各个语句进行预测处理,得到各个语句的预测结果,包括:
对目标文本进行分句处理,得到待处理的各个语句;
利用预先训练完成的、用于预测语句是否属于摘要语句的预测模型,对所述待处理的各个语句进行预测,得到各个语句的预测结果。
3.根据权利要求2所述的方法,其特征在于,所述预测模型为基于多个样本文本中的各个样本语句以及每一样本语句的第一指定标签,训练得到的模型;其中,每一样本语句的第一指定标签用于表征该样本语句是否属于摘要语句,且每一样本语句的第一指定标签基于该样本语句对应的摘要,对该样本语句进行标签识别得到,该样本语句对应的摘要为人工设定的、针对该样本语句所属的样本文本的摘要。
4.根据权利要求3所述的方法,其特征在于,所述基于该样本语句对应的摘要,对该样本语句进行标签识别的方式,包括:
获取该样本语句对应的摘要所包含的各个语句;
识别所获取的各个语句中,是否存在与该样本语句的匹配度超过预设阈值的语句;
若存在,将表征该样本语句属于摘要语句的第一标签,确定为该样本语句的第一指定标签,否则,将表征该样本语句不属于摘要语句的第二标签,确定为该样本语句的第一指定标签。
5.根据权利要求4所述的方法,其特征在于,所述识别所获取的各个语句中,是否存在与该样本语句的匹配度超过预设阈值的语句,包括:
计算所获取的各个语句与该样本语句之间的匹配度,得到各个匹配结果;
从所述各个匹配结果中,确定是否存在匹配度超过预设阈值的匹配结果。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述对所述初始摘要进行语义生成处理,得到所述目标文本的摘要,包括:
利用预先训练完成的、用于生成完整语义信息的生成模型,对所述初始摘要进行语义生成处理,得到所述目标文本的摘要;其中,所述生成模型为基于多个样本摘要训练得到的模型,每一样本摘要具有第二指定标签,每一第二指定标签为人工设定的、针对样本摘要所属的样本文本的摘要。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述构建包含所述多个目标语句的初始摘要,包括:
按照预设的排序方式,对所述多个目标语句进行排序;
对所述多个目标语句按照排序顺序进行组合,得到初始摘要。
8.一种摘要提取装置,其特征在于,所述装置包括:
处理模块,用于对目标文本中的各个语句进行预测处理,得到各个语句的预测结果;其中,所述预测处理用于预测是否属于摘要语句;
筛选模块,用于利用各个预测结果,从所述目标文本中筛选多个目标语句;其中,所述目标语句为被预测为属于摘要语句的语句;
构建模块,用于构建包含所述多个目标语句的初始摘要;
生成模块,用于对所述初始摘要进行语义生成处理,得到所述目标文本的摘要;其中,所述语义生成处理用于生成完整语义信息。
9.根据权利要求8所述的装置,其特征在于,所述处理模块,包括:
分句子模块,用于对目标文本进行分句处理,得到待处理的各个语句;
预测子模块,用于利用预先训练完成的、用于预测语句是否属于摘要语句的预测模型,对所述待处理的各个语句进行预测,得到各个语句的预测结果。
10.根据权利要求8所述的装置,其特征在于,所述预测模型为基于多个样本文本中的各个样本语句以及每一样本语句的第一指定标签,训练得到的模型;其中,每一样本语句的第一指定标签用于表征该样本语句是否属于摘要语句,且每一样本语句的第一指定标签基于该样本语句对应的摘要,对该样本语句进行标签识别得到,该样本语句对应的摘要为人工设定的、针对该样本语句所属的样本文本的摘要。
11.根据权利要求10所述的装置,其特征在于,所述基于该样本语句对应的摘要,对该样本语句进行标签识别的方式,包括:
获取该样本语句对应的摘要所包含的各个语句;
识别所获取的各个语句中,是否存在与该样本语句的匹配度超过预设阈值的语句;
若存在,将表征该样本语句属于摘要语句的第一标签,确定为该样本语句的第一指定标签,否则,将表征该样本语句不属于摘要语句的第二标签,确定为该样本语句的第一指定标签。
12.根据权利要求11所述的装置,其特征在于,所述识别所获取的各个语句中,是否存在与该样本语句的匹配度超过预设阈值的语句,包括:
计算所获取的各个语句与该样本语句之间的匹配度,得到各个匹配结果;
从所述各个匹配结果中,确定是否存在匹配度超过预设阈值的匹配结果。
13.根据权利要求8-12任一项所述的装置,其特征在于,所述生成模块,具体用于:
利用预先训练完成的、用于生成完整语义信息的生成模型,对所述初始摘要进行语义生成处理,得到所述目标文本的摘要;其中,所述生成模型为基于多个样本摘要训练得到的模型,每一样本摘要具有第二指定标签,每一第二指定标签为人工设定的、针对样本摘要所属的样本文本的摘要。
14.根据权利要求8-12任一项所述的装置,其特征在于,所述构建模块,具体用于:
按照预设的排序方式,对所述多个目标语句进行排序;
对所述多个目标语句按照排序顺序进行组合,得到初始摘要。
15.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
CN202210355287.4A 2022-04-06 2022-04-06 一种摘要提取方法、装置、设备以及存储介质 Pending CN114722832A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210355287.4A CN114722832A (zh) 2022-04-06 2022-04-06 一种摘要提取方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210355287.4A CN114722832A (zh) 2022-04-06 2022-04-06 一种摘要提取方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN114722832A true CN114722832A (zh) 2022-07-08

Family

ID=82242317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210355287.4A Pending CN114722832A (zh) 2022-04-06 2022-04-06 一种摘要提取方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN114722832A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115878784A (zh) * 2022-12-22 2023-03-31 北京百度网讯科技有限公司 基于自然语言理解的摘要生成方法、装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115878784A (zh) * 2022-12-22 2023-03-31 北京百度网讯科技有限公司 基于自然语言理解的摘要生成方法、装置及电子设备
CN115878784B (zh) * 2022-12-22 2024-03-15 北京百度网讯科技有限公司 基于自然语言理解的摘要生成方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN110717017B (zh) 一种处理语料的方法
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN107220232B (zh) 基于人工智能的关键词提取方法及装置、设备与可读介质
CN112084337B (zh) 文本分类模型的训练方法、文本分类方法及设备
CN108255805B (zh) 舆情分析方法及装置、存储介质、电子设备
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN110717339A (zh) 语义表示模型的处理方法、装置、电子设备及存储介质
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
CN111738016A (zh) 多意图识别方法及相关设备
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN115859980A (zh) 一种半监督式命名实体识别方法、系统及电子设备
CN114330343A (zh) 词性感知嵌套命名实体识别方法、系统、设备和存储介质
CN116049387A (zh) 一种基于图卷积的短文本分类方法、装置、介质
CN111291551A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
CN116881446A (zh) 一种语义分类方法、装置、设备及其存储介质
WO2023137903A1 (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN114547435A (zh) 内容质量的识别方法、装置、设备及可读存储介质
Adewumi Vector representations of idioms in data-driven chatbots for robust assistance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination