CN112347241A - 一种摘要提取方法、装置、设备及存储介质 - Google Patents
一种摘要提取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112347241A CN112347241A CN202011249202.1A CN202011249202A CN112347241A CN 112347241 A CN112347241 A CN 112347241A CN 202011249202 A CN202011249202 A CN 202011249202A CN 112347241 A CN112347241 A CN 112347241A
- Authority
- CN
- China
- Prior art keywords
- sentence
- sentences
- extracted
- news text
- abstract
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种摘要提取方法、装置、设备及存储介质。该方法包括:获取待提取新闻文本,并对所述待提取新闻文本进行分句处理,得到至少两个句子;根据词语特征工程配置参数从所述待提取新闻文本的句子中选取词语特征数据;根据结构特征工程配置参数从所述待提取新闻文本的句子中选取结构特征数据;根据语义特征工程配置参数从所述待提取新闻文本的句子中选取语义特征数据;将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本的摘要集合,通过本发明的技术方案,以实现能够充分地考虑摘要时的多种因素,提高摘要的质量。
Description
技术领域
本发明实施例涉及自然语言处理技术领域,尤其涉及一种摘要提取方法、装置、设备及存储介质。
背景技术
互联网正在以空前的速度飞速发展,各类资讯平台快速兴起,新闻产生的速度也正在以指数级别增长,而且大多数新闻为是非结构化的文本数据。目前人们可以在互联网平台访问大量信息,但是其中大多数信息冗长且无关紧要。在纷纷扰扰的新闻信息当中,人们往往只关心对自己有帮助或者与自己相关的部分。因此,如何从海量的新闻中获取有效信息是一个亟需解决的问题。由于新闻数量巨大,传统人工处理新闻的方式是不可取的。为了解决该问题,自动文本摘要技术应运而生,它可以帮助人们从新闻中快速获取关键信息,极大地节省了人们的时间。
在自然语言处理的领域中,文本摘要是一项比较复杂却意义重大的任务。摘要是对一则新闻、一篇文章、一个话题的简要概述,它能较为全面、准确地反映出原文本的重点内容。文本摘要技术就是利用计算机和某些算法自动地从文本中提取或生成语义丰富的句子,然后用这些句子组成文章的摘要。根据摘要方式进行分类,文本摘要分为抽取式摘要(Extractive)和生成式摘要(Abstractive)。抽取式摘要基于一个基本假设:一个文本的核心思想可以用文本中的某一句或几句话来概括。因此,抽取式摘要就是通过计算文本中句子与主题的相似度,然后对文本中的句子进行排序,抽取出原文中的句子组成摘要。生成式摘要更偏重于对文本主题的理解,然后生成文本的主题词与句子,最终生成类似于人工的复述,将其作为原文本的摘要。它要求系统理解文本所表达的意思,然后用可读性强的人类语言将其简练地总结出来。生成式摘要包含几个难点:理解文本、可读性强以及简练总结。抽取式摘要的成本较低,而且生成的摘要语法错误较少,具有很大的应用价值。
研究新闻文本的摘要技术是具有很多现实意义的。对于用户来说,人们通常需要阅读冗长的新闻报道来获取有效信息,既浪费时间又耗费体力。而新闻文本摘要技术可以利用概括、简短的语言对新闻报道的主要内容进行概述,使得人们可以花费更少的时间来获取更多的信息,极大地缩短了人们获取信息所需要的时间,提高了人们获取信息的效率。对于新闻媒体公司来说,新闻报道中的新闻导读通常为新闻的摘要,而目前的新闻导读通常是由人工摘要撰写的,新闻文本摘要技术可以一定程度上取代传统的人工摘要,减少公司的成本,提高工作的效率。
较早的新闻文本摘要方法主要依赖于人工制订的规则,当文本中的句子满足了一定的条件时,则将相对应的句子选为摘要。再后来由于数据集合的匮乏,新闻文本摘要所采用的方法主要为无监督学习。一些方法基于图模型来解决新闻文本摘要问题,该类方法将整个文本看作是一张图,图中的每个节点代表一个句子,每个节点之间的边权重代表句子之间的相似性,然后通过迭代计算出句子的重要性得分。还有一些方法采用潜在语义分析模型来解决新闻文本摘要问题,把原始文本空间中的词汇和句子投影在代表潜概念的维度上,从而能够揭示文章的主题,捕捉到隐藏在词汇背后的语义。虽然取得了显著的进步,但无监督学习方法考虑的因素过于单一,而且通常采用基于词频的方法来计算句子之间的相似度,忽略了一词多义以及多词同义。
发明内容
本发明实施例提供一种摘要提取方法、装置、设备及存储介质,以实现能够充分地考虑摘要时的多种因素,提高摘要的质量。
第一方面,本发明实施例提供了一种摘要提取方法,包括:
获取待提取新闻文本,并对所述待提取新闻文本进行分句处理,得到至少两个句子;
根据词语特征工程配置参数从所述待提取新闻文本的句子中选取词语特征数据;
根据结构特征工程配置参数从所述待提取新闻文本的句子中选取结构特征数据;
根据语义特征工程配置参数从所述待提取新闻文本的句子中选取语义特征数据;
将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本的摘要集合。
进一步的,将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本的摘要集合包括:
将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本中每个句子被摘要的概率;
根据每个句子被摘要的概率生成摘要候选集合,其中,所述摘要候选集合中的句子被摘要的概率大于设定阈值;
若预设摘要集合中句子总数量与所述摘要候选集合中的句子数量的差值大于零,则基于最大边缘相关法对剩余句子集合中的句子进行排序得到句子序列,其中,所述剩余句子集合包括:所述待提取新闻文本中除摘要集合中的句子之外的句子;
根据所述句子序列创建扩展集合,其中,所述扩展集合中的句子数量等于所述预设摘要集合中句子总数量与所述摘要候选集合中的句子数量的差值;
生成所述待提取新闻文本的摘要集合,其中,所述摘要集合包括:所述摘要候选集合和所述扩展集合。
进一步的,所述摘要提取模型的训练方法包括:
获取新闻文本数据样本;
对所述新闻文本数据样本进行段落划分;
对分段后的新闻文本数据样本进行分句处理,得到句子样本,所述句子样本携带标签,其中,所述标签包括:摘要标签和非摘要标签;
根据词语特征工程配置参数从所述句子样本中选取词语特征数据样本;
根据结构特征工程配置参数从所述句子样本中选取结构特征数据样本;
根据语义特征工程配置参数从所述句子样本中选取语义特征数据样本;
将所述词语特征数据样本、结构特征数据样本和语义特征数据样本输入至待训练的摘要提取模型,预估句子被摘要的概率;
根据所述句子样本携带的标签和预估句子被摘要的概率形成的目标函数训练所述待训练的摘要提取模型的模型结构和模型参数;
返回执行将所述词语特征数据样本、结构特征数据样本和语义特征数据样本输入至待训练的摘要提取模型,预估句子被摘要的概率的操作,直至得到摘要提取模型。
进一步的,所述词语特征工程配置参数包括:关键词个数、关键词权重之和、名词个数、动词个数、名词比例、动词比例和有效词汇量中的至少一种,所述结构特征工程配置参数包括:句子原始长度、句子有效长度、句子相对长度、句子段落信息和句子位置信息中的至少一种,所述语义特征工程配置参数包括:句子与标题的编辑距离、句子与标题的相似度、句子与标题词汇重叠数和线索词个数中的至少一种。
进一步的,基于最大边缘相关法对剩余句子集合中的句子进行排序得到句子序列包括:
计算剩余句子集合中的句子的位置权重、线索词和转折词权重、标题相似度权重以及关键词权重;
根据所述位置权重、线索词和转折词权重、标题相似度权重以及关键词权重确定句子权重;
获取第一语意向量,其中,所述第一语意向量为经过最大边缘相关算法计算的句子集合中每一个句子的语义向量;
获取第二语意向量,其中,所述第二语意向量为剩余句子集合中的句子进行处理后得到的语义向量;
选择所述第一语意向量与所述第二语意向量的余弦相似度的最大值作为句子相似度;
将所述句子权重和句子相似度输入最大边缘相关算法,获得句子作为摘要的概率;
对所述剩余句子集合中的句子按照摘要概率进行排序得到句子序列。
进一步的,根据所述位置权重、线索词权重、转折词权重、标题相似度权重以及关键词权重确定句子权重,包括:
根据如下公式计算得到句子权重:
weight(Si)=STW(Si)+δ[αLW(Si)+βCC(Si)+γKW(Si)];
其中,Si为待提取新闻文本中的第i个句子,weight(Si)为待提取新闻文本中的第i个句子的句子权重,STW(Si)为待提取新闻文本中的第i个句子的标题相似度权重,LW(Si)为待提取新闻文本中的第i个句子的位置权重,CC(Si)为待提取新闻文本中的第i个句子的线索词和转折词权重,KW(Si)为待提取新闻文本中的第i个句子的关键词权重,α为位置权重的加权系数,β为线索词和转折词权重的加权系数,γ为关键词权重的加权系数,且α+β+γ=1,δ为调节因子。
第二方面,本发明实施例还提供了一种摘要提取装置,该装置包括:
获取模块,用于获取待提取新闻文本,并对所述待提取新闻文本进行分句处理,得到至少两个句子;
第一选取模块,用于根据词语特征工程配置参数从所述待提取新闻文本的句子中选取词语特征数据;
第二选取模块,用于根据结构特征工程配置参数从所述待提取新闻文本的句子中选取结构特征数据;
第三选取模块,用于根据语义特征工程配置参数从所述待提取新闻文本的句子中选取语义特征数据;
摘要集合提取模块,用于将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本的摘要集合。
进一步的,所述摘要集合提取模块具体用于:
将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本中每个句子被摘要的概率;
根据每个句子被摘要的概率生成摘要候选集合,其中,所述摘要候选集合中的句子被摘要的概率大于设定阈值;
若预设摘要集合中句子总数量与所述摘要候选集合中的句子数量的差值大于零,则基于最大边缘相关法对剩余句子集合中的句子进行排序得到句子序列,其中,所述剩余句子集合包括:所述待提取新闻文本中除摘要集合中的句子之外的句子;
根据所述句子序列创建扩展集合,其中,所述扩展集合中的句子数量等于所述预设摘要集合中句子总数量与所述摘要候选集合中的句子数量的差值;
生成所述待提取新闻文本的摘要集合,其中,所述摘要集合包括:所述摘要候选集合和所述扩展集合。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例中任一所述的摘要提取方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的摘要提取方法。
本发明实施例通过获取待提取新闻文本,并对所述待提取新闻文本进行分句处理,得到至少两个句子;根据词语特征工程配置参数从所述待提取新闻文本的句子中选取词语特征数据;根据结构特征工程配置参数从所述待提取新闻文本的句子中选取结构特征数据;根据语义特征工程配置参数从所述待提取新闻文本的句子中选取语义特征数据;将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本的摘要集合,以实现能够充分地考虑摘要时的多种因素,提高摘要的质量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例一中的一种摘要提取方法的流程图;
图1a是本发明实施例一中的一种混合模型摘要流程示意图;
图1b是本发明实施例一中的一种待提取新闻文本的示意图;
图2是本发明实施例二中的一种摘要提取装置的结构示意图;
图3是本发明实施例三中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例一
图1为本发明实施例一提供的一种摘要提取方法的流程图,本实施例可适用于对新闻文本进行摘要提取的情况,该方法可以由本发明实施例中的摘要提取装置来执行,该摘要提取装置可采用软件和/或硬件的方式实现,如图1所示,该摘要提取方法具体包括如下步骤:
S110,获取待提取新闻文本,并对所述待提取新闻文本进行分句处理,得到至少两个句子。
其中,所述待提取新闻文本可以为用户输入的新闻文本,也可以为用户选择的新闻文本,本发明实施例对此不进行限制。
其中,对所述待提取新闻文本进行分句处理的方式可以为:先对待提取新闻文本进行分段处理,在对分段处理后的新闻文本进行分句处理;对所述待提取新闻文本进行分句处理的方式也可以为直接对待提取新闻文本进行分句处理,本发明实施例对此不进行限制。
需要说明的是,对待提取新闻文本进行段落划分的方式可以为以换行符为标识对待提取新闻文本进行分段,对待提取新闻文本进行分句处理的方式可以为以句号、问号和感叹号等作为标识符对待提取新闻文本进行分句处理,本发明实施例对此不进行限制。
示例性的,对所述待提取新闻文本进行分句处理,得到至少两个句子的方式可以为对待提取新闻文本进行分句处理得到构成待提取新闻文本的所有句子。
S120,根据词语特征工程配置参数从所述待提取新闻文本的句子中选取词语特征数据。
其中,所述词语特征工程配置参数包括:关键词个数、关键词权重之和、名词个数、动词个数、名词比例、动词比例和有效词汇量中的至少一种。
示例性的,根据词语特征工程配置参数从所述待提取新闻文本的句子中选取词语特征数据,例如可以是,根据关键词个数、关键词权重之和、名词个数、动词个数、名词比例、动词比例和有效词汇量从待提取新闻文本的句子中选取词语特征数据。
示例性的,对待提取新闻文本中的句子进行特征工程,选取词语方面的特征。首先利用TF-IDF方法计算出待提取新闻文本的关键词及对应的TF-IDF值。
对于关键词而言,本发明实施例选择的特征有两个,分别为句子中的关键词个数以及对应的关键词权重之和:
KWN(Si)=numofkeywords;
对于词性而言,本发明实施例选择四个相关的特征,分别为句子中名词个数、句子中动词的个数、句子中名词的比例和句子中动词的比例:
其中NN与VN分别为句子中名词个数和动词个数,WCS为经过分词、去除停用词之后,句子中的词汇数量。
S130,根据结构特征工程配置参数从所述待提取新闻文本的句子中选取结构特征数据。
其中,所述结构特征工程配置参数包括:句子原始长度、句子有效长度、句子相对长度、句子段落信息和句子位置信息中的至少一种。
示例性的,根据结构特征工程配置参数从所述待提取新闻文本的句子中选取结构特征数据可以为根据句子原始长度、句子有效长度、句子相对长度、句子段落信息和句子位置信息从待提取新闻文本的句子中选取结构特征数据。
示例性的,对待提取新闻文本中的句子进行特征工程,选取结构方面的特征。句子的原始长度即为句子Si不经过任何处理时的长度,记为SL(Si)。句子的有效长度为对句子Si去除特殊字符,并且去除停用词之后的句子长度,记为SLS(Si)。
句子的相对长度记为SLR,对于新闻文本中的句子Si,其相对长度为:
其中,SL(Si)为句子Si的原始长度,SLmax为句子Si所在的待提取新闻文本中最长句子的长度。
本发明实施例将句子的段落信息记为PW,首段与尾段中的句子该值为1,其余句子为0。
本发明实施例用LW表示句子在待提取新闻文本中的位置,对于句子Si,其位置信息的值为:
其中,if in top 15%为处于首段中的句子,if in last 10%为处于尾段中的句子,LW(Si)标识句子Si在待提取新闻文本中的位置。
S140,根据语义特征工程配置参数从所述待提取新闻文本的句子中选取语义特征数据。
其中,所述语义特征工程配置参数包括:句子与标题的编辑距离、句子与标题的相似度、句子与标题词汇重叠数和线索词个数中的至少一种。
示例性的,根据语义特征工程配置参数从所述待提取新闻文本的句子中选取语义特征数据的方式可以为根据句子与标题的编辑距离、句子与标题的相似度、句子与标题词汇重叠数和线索词个数从待提取新闻文本的句子中选取语义特征数据。
示例性的,对待提取新闻文本中的句子进行特征工程,选取语义方面的特征。本发明实施例选取的语义特征共四个,分别为与标题的编辑距离、与标题的相似度、与标题的词汇重叠度和线索词个数。
本发明实施例采用distance库的Levenshtein函数计算待提取新闻文本中句子与标题的编辑距离;计算待提取新闻文本中的句子与标题相似度时,首先使用数据集训练Doc2Vec模型,再使用该模型计算句子与标题的语义向量,使用该语义向量的余弦相似度表示待提取新闻文本中的句子与标题的相似度。
待提取新闻文本中句子Si与标题的词汇重叠度为SWWT(Si):
SWWT(Si)=|Wi∩WT|;
其中,Wi和WT分别为待提取新闻文本中的句子Si和标题T去除停用词后的词集。
对于线索词来说,先构建线索词库,包含“总之”、“但是”、“此外”等线索词。待提取新闻文本中的句子Si中线索词个数记为CCW(Si):
其中,Sicontains ClueWords表示Si中包含线索词,else表示Si中不包含线索词。
S150,将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本的摘要集合。
示例性的,将待提取新闻文本进行分句处理,得到构成待提取新闻文本的至少两个句子,获取每个句子的词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到句子被摘要的概率,根据每个句子被摘要的概率确定待提取新闻文本的摘要集合。
示例性的,用户在输入待提取新闻文本后,对用户输入的待提取新闻文本进行预处理。对用户输入的待提取新闻文本进行分段、分句。使用分词工具对用户输入的待提取新闻文本进行分词;去除标点符号;去除通用停用词;并进行词性标注。例如可以是,分段分句。首先以换行符为标识对文本进行段落划分。然后以句号、问号、感叹号为标识符对文本进行切分,相应地,切分后的句子分别为陈述句、疑问句和感叹句。分词。在上一步结束后,对文本进行分词处理,本发明实施例中使用Jieba分词工具。分完词后,文本中的每个句子转化为了单词集合。同时,可以去掉标点符号,特殊字符和数字。去停用词。首先构建停用词词表,构建通用的新闻文本停用词词表。统计所有词汇的频次,并根据频次去除频次过高和过低的词汇。因为这些词汇大多都是无用词汇。最后,去掉长度小于2的词,本发明实施例中不考虑单个的字。词性标注。本发明实施例使用THULAC词性标注工具对去除停用词后的新闻文本进行词性标注。
在一个具体的例子中,从互联网新闻网站爬取并构建用于训练模型的新闻文本数据样本集合,对新闻文本数据样本进行预处理;得到句子样本对应的词语特征数据样本、结构特征数据样本和语义特征数据样本,以及句子样本对应的被摘要的概率,根据样本数据训练待训练的摘要提取模型,直至得到摘要提取模型,用户输入待提取新闻文本;使用训练好的摘要提取模型预测初始摘要句子集合输出摘要候选集合;使用最大边缘相关算法预测更多摘要句子构成扩展集合;结合摘要候选集合和扩展集合的所有句子作为最终的摘要集合。
在另一个具体的例子中,如图1a所示,获取用户输入的待提取新闻文本,对待提取新闻文本进行预处理,对经过预处理后的待提取新闻文本进行特征工程,将特征工程后的待提取新闻文本输入SVM模型,得到待提取新闻文本中的句子被选为摘要的概率值,根据概率值选取摘要句子,得到候选摘要集合,通过MMR算法进行二次排序,根据预先设定的摘要集合中句子的第一数量,选取第二数量的句子,其中,第二数量为第一数量与候选摘要集合中的句子数量的差值,进而得到最终的摘要集合。
需要说明的是,对用户输入的待提取新闻文本进行分段、分句。使用分词工具对用户输入的待提取新闻文本进行分词去除标点符号,进行去除通用停用词处理;进行词性标注处理,得到至少两个句子。
新闻文本摘要任务可以视为一个二分类问题,所以可通过监督学习的方法来解决二分类问题。近年来,机器学习技术发展迅速,比如支持向量机等模型可以出色地解决多种分类问题。利用机器学习技术在解决新闻文本摘要问题的过程中,在判断一个句子是否属于摘要句时考虑的因素较为全面,而且不需要考虑特征的权重,能更好地解决新闻文本摘要任务。此外,摘要中可能存在冗余信息,比如多个句子都在表达相似的意思,而无监督模型中的最大边缘相关算法可以很好地处理冗余信息。因此,在本发明实施例中,使用支持向量机模型,将最大边缘相关法结合在一起,着重研究新闻文本摘要的一种混合模型。
本发明实施例是一种基于混合模型的新闻文本摘要提取方法,包括构建新闻文本数据集,并针对数据集进行预处理,基于预处理后的数据集,进行特征选择,基于选择的特征训练支持向量机模型,并将最大边缘相关法融入其中。对于用户输入的新闻文本,先进行预处理,接着进行特征工程,将新闻文本转化为向量,然后利用支持向量机模型进行预测,并利用最大边缘相关法进行冗余处理。该方法能不仅能够充分地考虑摘要时的多种因素,而且可以通过冗余处理提高摘要的质量。
可选的,所述词语特征工程配置参数包括:关键词个数、关键词权重之和、名词个数、动词个数、名词比例、动词比例和有效词汇量中的至少一种,所述结构特征工程配置参数包括:句子原始长度、句子有效长度、句子相对长度、句子段落信息和句子位置信息中的至少一种,所述语义特征工程配置参数包括:句子与标题的编辑距离、句子与标题的相似度、句子与标题词汇重叠数和线索词个数中的至少一种。
示例性的,如表1所示,表1为词语特征工程配置参数:
表1
特征 | 特征描述 |
KWN | 关键词个数 |
KWW | 关键词权重之和 |
NN、VN | 名词个数、动词个数 |
NR、VR | 名词比例、动词比例 |
WCS | 有效词汇量 |
如表2所示,表2为结构特征工程配置参数:
表2
如表3所示,表3为语义特征工程配置参数:
特征 | 特征描述 |
LD | 与标题的编辑距离 |
Similar With Title | 与标题的相似度 |
SWWT | 与标题词汇重叠数 |
CC | 线索词个数 |
可选的,将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本的摘要集合包括:
将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本中每个句子被摘要的概率;
根据每个句子被摘要的概率生成摘要候选集合,其中,所述摘要候选集合中的句子被摘要的概率大于设定阈值;
若预设摘要集合中句子总数量与所述摘要候选集合中的句子数量的差值大于零,则基于最大边缘相关法对剩余句子集合中的句子进行排序得到句子序列,其中,所述剩余句子集合包括:所述待提取新闻文本中除摘要集合中的句子之外的句子;
根据所述句子序列创建扩展集合,其中,所述扩展集合中的句子数量等于所述预设摘要集合中句子总数量与所述摘要候选集合中的句子数量的差值;
生成所述待提取新闻文本的摘要集合,其中,所述摘要集合包括:所述摘要候选集合和所述扩展集合。
可选的,基于最大边缘相关法对剩余句子集合中的句子进行排序得到句子序列包括:
计算剩余句子集合中的句子的位置权重、线索词和转折词权重、标题相似度权重以及关键词权重;
根据所述位置权重、线索词和转折词权重、标题相似度权重以及关键词权重确定句子权重;
获取第一语意向量,其中,所述第一语意向量为经过最大边缘相关算法计算的句子集合中每一个句子的语义向量;
获取第二语意向量,其中,所述第二语意向量为剩余句子集合中的句子进行处理后得到的语义向量;
选择所述第一语意向量与所述第二语意向量的余弦相似度的最大值作为句子相似度;
将所述句子权重和句子相似度输入最大边缘相关算法,获得句子作为摘要的概率;
对所述剩余句子集合中的句子按照摘要概率进行排序得到句子序列。
可选的,根据所述位置权重、线索词权重、转折词权重、标题相似度权重以及关键词权重确定句子权重,包括:
根据如下公式计算得到句子权重:
weight(Si)=STW(Si)+δ[αLW(Si)+βCC(Si)+γKW(Si)];
其中,Si为待提取新闻文本中的第i个句子,weight(Si)为待提取新闻文本中的第i个句子的句子权重,STW(Si)为待提取新闻文本中的第i个句子的标题相似度权重,LW(Si)为待提取新闻文本中的第i个句子的位置权重,CC(Si)为待提取新闻文本中的第i个句子的线索词和转折词权重,KW(Si)为待提取新闻文本中的第i个句子的关键词权重,α为位置权重的加权系数,β为线索词和转折词权重的加权系数,γ为关键词权重的加权系数,且α+β+γ=1,δ为调节因子。
在一个具体的例子中,训练好摘要提取模型后,利用该摘要提取模型,并结合最大边缘相关法,输出待提取新闻文本的摘要集合。具体子步骤包括:获取待提取新闻文本,如图1b所示,图1b为待提取新闻文本,对所述待提取新闻文本进行分句处理,得到至少两个句子,对待提取新闻文本的句子进行特征工程,选取词语方面的特征。对待提取新闻文本的句子进行特征工程,选取结构方面的特征。对待提取新闻文本的句子进行特征工程,选取语义方面的特征。基于上面三步得到的句子特征向量表示,并将得到的向量输入摘要提取模型,计算待提取新闻文本中每个句子被摘要的概率。根据概率阈值选取一部分句子作为摘要句子,组成初始摘要候选集合D。使用最大边缘相关法对剩余的句子进行二次排序,再根据阈值选取一部分句子作为摘要句子,与第一次选择的摘要句子共同组成最终的摘要集合。其中,最大边缘相关法如下:
MMRweight(Si)=λweight(Si)-(1-λ)*max[similarity(Si,D)];
其中,D是通过最大边缘相关算法得到的摘要候选集合,λ为控制摘要概括性与冗余性的的一个系数,本发明实施例中λ的取值为0.9。similarity(Si,D)中计算Si和D中每一个句子的相似度方法同计算句子与标题的相似度方法相同。也就是,此外weight(Si)表示句子的权重,由句子的位置权重、线索词和转折词权重、标题相似度权重和关键词权重构成,计算方法如下:
weight(Si)=STW(Si)+δ[αLW(Si)+βCC(Si)+γKW(Si)];
其中,Si为待提取新闻文本中的第i个句子,weight(Si)为待提取新闻文本中的第i个句子的句子权重,STW(Si)为待提取新闻文本中的第i个句子的标题相似度权重,LW(Si)为待提取新闻文本中的第i个句子的位置权重,CC(Si)为待提取新闻文本中的第i个句子的线索词和转折词权重,KW(Si)为待提取新闻文本中的第i个句子的关键词权重,α为位置权重的加权系数,β为线索词和转折词权重的加权系数,γ为关键词权重的加权系数,且α+β+γ=1,δ为调节因子。在新闻数据集合中,LW的取值范围为(0,4),CCW的取值范围为(0,1),KW的取值范围为(0,1)。基于对这三个权重值大小和重要性的考虑,本发明实施例中将α,β,γ的值分别设定为0.2、0.4、0.4。为了保证STW和其他权重处于同一数量级,而且能够动态调整其他影响因素的权重,本发明实施例引入了调节因子δ,且通过滚雪球的方法确定δ的取值为0.18。
可选的,所述摘要提取模型的训练方法包括:
获取新闻文本数据样本;
对所述新闻文本数据样本进行段落划分;
对分段后的新闻文本数据样本进行分句处理,得到句子样本,所述句子样本携带标签,其中,所述标签包括:摘要标签和非摘要标签;
根据词语特征工程配置参数从所述句子样本中选取词语特征数据样本;
根据结构特征工程配置参数从所述句子样本中选取结构特征数据样本;
根据语义特征工程配置参数从所述句子样本中选取语义特征数据样本;
将所述词语特征数据样本、结构特征数据样本和语义特征数据样本输入至待训练的摘要提取模型,预估句子被摘要的概率;
根据所述句子样本携带的标签和预估句子被摘要的概率形成的目标函数训练所述待训练的摘要提取模型的模型结构和模型参数;
返回执行将所述词语特征数据样本、结构特征数据样本和语义特征数据样本输入至待训练的摘要提取模型,预估句子被摘要的概率的操作,直至得到摘要提取模型。
示例性的,获取新闻文本数据样本;对所述新闻文本数据样本进行段落划分;对分段后的新闻文本数据样本进行分句处理,得到句子样本的方式可以为:先对新闻文本数据样本进行分段分句:首先对新闻报道进行段落划分,以换行符为标识对文本进行分段,然后以句号、问号、感叹号为标识符对文本进行分句。对划分好的句子进行中文分词:使用分词工具对新闻文本做分词处理,得到分割开的单词,并去除标点符号等无用信息。进行去停用词处理:首先构建通用的新闻停用词词典,并根据词表从分词结果中去除没有有效信息的词汇。进行词性标注处理:使用词性标注工具对去除停用词后的新闻文本进行词性标注,进而得到句子样本。
示例性的,对新闻文本数据样本中的句子进行特征工程,选取词语方面的特征。对新闻文本数据样本中的句子进行特征工程,选取结构方面的特征。对新闻文本数据样本中的句子进行特征工程,选取语义方面的特征。构建待训练的摘要提取,使用特征工程之后的句子对待训练的摘要提取模型进行训练。
本发明实施例具有如下优点:利用监督学习方法将新闻文本摘要任务定义为一个二分类问题,并选择三方面的特征判断一个句子是否为摘要句,考虑因素较为全面;通过最大边缘相关法,在摘要过程中平衡摘要的概括性与冗余性,提升了摘要的质量;在计算特征的过程中,采用Doc2Vec模型计算句子的句向量,使得文本的语义信息更为准确。
需要明确的是,本发明实施例并不局限于上文所描述并在图中示出的特定配置和处理。并且,为了简明起见,这里省略对已知方法技术的详细描述。当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。
本实施例的技术方案,通过获取待提取新闻文本,并对所述待提取新闻文本进行分句处理,得到至少两个句子;根据词语特征工程配置参数从所述待提取新闻文本的句子中选取词语特征数据;根据结构特征工程配置参数从所述待提取新闻文本的句子中选取结构特征数据;根据语义特征工程配置参数从所述待提取新闻文本的句子中选取语义特征数据;将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本的摘要集合,以实现能够充分地考虑摘要时的多种因素,提高摘要的质量。
实施例二
图2为本发明实施例二提供的一种摘要提取装置的结构示意图。本实施例可适用于摘要提取的情况,该装置可采用软件和/或硬件的方式实现,该装置可集成在任何提供摘要提取功能的设备中,如图2所示,所述摘要提取装置具体包括:获取模块210、第一选取模块220、第二选取模块230、第三选取模块240和摘要集合提取模块250。
其中,获取模块210,用于获取待提取新闻文本,并对所述待提取新闻文本进行分句处理,得到至少两个句子;
第一选取模块220,用于根据词语特征工程配置参数从所述待提取新闻文本的句子中选取词语特征数据;
第二选取模块230,用于根据结构特征工程配置参数从所述待提取新闻文本的句子中选取结构特征数据;
第三选取模块240,用于根据语义特征工程配置参数从所述待提取新闻文本的句子中选取语义特征数据;
摘要集合提取模块250,用于将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本的摘要集合。
可选的,所述摘要集合提取模块具体用于:
将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本中每个句子被摘要的概率;
根据每个句子被摘要的概率生成摘要候选集合,其中,所述摘要候选集合中的句子被摘要的概率大于设定阈值;
若预设摘要集合中句子总数量与所述摘要候选集合中的句子数量的差值大于零,则基于最大边缘相关法对剩余句子集合中的句子进行排序得到句子序列,其中,所述剩余句子集合包括:所述待提取新闻文本中除摘要集合中的句子之外的句子;
根据所述句子序列创建扩展集合,其中,所述扩展集合中的句子数量等于所述预设摘要集合中句子总数量与所述摘要候选集合中的句子数量的差值;
生成所述待提取新闻文本的摘要集合,其中,所述摘要集合包括:所述摘要候选集合和所述扩展集合。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
本实施例的技术方案,通过获取待提取新闻文本,并对所述待提取新闻文本进行分句处理,得到至少两个句子;根据词语特征工程配置参数从所述待提取新闻文本的句子中选取词语特征数据;根据结构特征工程配置参数从所述待提取新闻文本的句子中选取结构特征数据;根据语义特征工程配置参数从所述待提取新闻文本的句子中选取语义特征数据;将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本的摘要集合,以实现能够充分地考虑摘要时的多种因素,提高摘要的质量。
实施例三
图3为本发明实施例三中的一种计算机设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图3显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。另外,本实施例中的计算机设备12,显示器24不是作为独立个体存在,而是嵌入镜面中,在显示器24的显示面不予显示时,显示器24的显示面与镜面从视觉上融为一体。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网Wide AreaNetwork,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的摘要提取方法:
获取待提取新闻文本,并对所述待提取新闻文本进行分句处理,得到至少两个句子;
根据词语特征工程配置参数从所述待提取新闻文本的句子中选取词语特征数据;
根据结构特征工程配置参数从所述待提取新闻文本的句子中选取结构特征数据;
根据语义特征工程配置参数从所述待提取新闻文本的句子中选取语义特征数据;
将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本的摘要集合。
实施例四
本发明实施例四提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的摘要提取方法:
获取待提取新闻文本,并对所述待提取新闻文本进行分句处理,得到至少两个句子;
根据词语特征工程配置参数从所述待提取新闻文本的句子中选取词语特征数据;
根据结构特征工程配置参数从所述待提取新闻文本的句子中选取结构特征数据;
根据语义特征工程配置参数从所述待提取新闻文本的句子中选取语义特征数据;
将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本的摘要集合。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:接收用户输入的源文本,将所述源文本翻译为目标语种对应的目标文本;获取所述用户的历史纠正行为;根据所述历史纠正行为对所述目标文本进行纠正,获得翻译结果,并将所述翻译结果推送至所述用户所在的客户端。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种摘要提取方法,其特征在于,包括:
获取待提取新闻文本,并对所述待提取新闻文本进行分句处理,得到至少两个句子;
根据词语特征工程配置参数从所述待提取新闻文本的句子中选取词语特征数据;
根据结构特征工程配置参数从所述待提取新闻文本的句子中选取结构特征数据;
根据语义特征工程配置参数从所述待提取新闻文本的句子中选取语义特征数据;
将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本的摘要集合。
2.根据权利要求1所述的方法,其特征在于,将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本的摘要集合包括:
将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本中每个句子被摘要的概率;
根据每个句子被摘要的概率生成摘要候选集合,其中,所述摘要候选集合中的句子被摘要的概率大于设定阈值;
若预设摘要集合中句子总数量与所述摘要候选集合中的句子数量的差值大于零,则基于最大边缘相关法对剩余句子集合中的句子进行排序得到句子序列,其中,所述剩余句子集合包括:所述待提取新闻文本中除摘要集合中的句子之外的句子;
根据所述句子序列创建扩展集合,其中,所述扩展集合中的句子数量等于所述预设摘要集合中句子总数量与所述摘要候选集合中的句子数量的差值;
生成所述待提取新闻文本的摘要集合,其中,所述摘要集合包括:所述摘要候选集合和所述扩展集合。
3.根据权利要求1所述的方法,其特征在于,所述摘要提取模型的训练方法包括:
获取新闻文本数据样本;
对所述新闻文本数据样本进行段落划分;
对分段后的新闻文本数据样本进行分句处理,得到句子样本,所述句子样本携带标签,其中,所述标签包括:摘要标签和非摘要标签;
根据词语特征工程配置参数从所述句子样本中选取词语特征数据样本;
根据结构特征工程配置参数从所述句子样本中选取结构特征数据样本;
根据语义特征工程配置参数从所述句子样本中选取语义特征数据样本;
将所述词语特征数据样本、结构特征数据样本和语义特征数据样本输入至待训练的摘要提取模型,预估句子被摘要的概率;
根据所述句子样本携带的标签和预估句子被摘要的概率形成的目标函数训练所述待训练的摘要提取模型的模型结构和模型参数;
返回执行将所述词语特征数据样本、结构特征数据样本和语义特征数据样本输入至待训练的摘要提取模型,预估句子被摘要的概率的操作,直至得到摘要提取模型。
4.根据权利要求1或3所述的方法,其特征在于,所述词语特征工程配置参数包括:关键词个数、关键词权重之和、名词个数、动词个数、名词比例、动词比例和有效词汇量中的至少一种,所述结构特征工程配置参数包括:句子原始长度、句子有效长度、句子相对长度、句子段落信息和句子位置信息中的至少一种,所述语义特征工程配置参数包括:句子与标题的编辑距离、句子与标题的相似度、句子与标题词汇重叠数和线索词个数中的至少一种。
5.根据权利要求2所述的方法,其特征在于,基于最大边缘相关法对剩余句子集合中的句子进行排序得到句子序列包括:
计算剩余句子集合中的句子的位置权重、线索词和转折词权重、标题相似度权重以及关键词权重;
根据所述位置权重、线索词和转折词权重、标题相似度权重以及关键词权重确定句子权重;
获取第一语意向量,其中,所述第一语意向量为经过最大边缘相关算法计算的句子集合中每一个句子的语义向量;
获取第二语意向量,其中,所述第二语意向量为剩余句子集合中的句子进行处理后得到的语义向量;
选择所述第一语意向量与所述第二语意向量的余弦相似度的最大值作为句子相似度;
将所述句子权重和句子相似度输入最大边缘相关算法,获得句子作为摘要的概率;
对所述剩余句子集合中的句子按照摘要概率进行排序得到句子序列。
6.根据权利要求5所述的方法,其特征在于,根据所述位置权重、线索词权重、转折词权重、标题相似度权重以及关键词权重确定句子权重,包括:
根据如下公式计算得到句子权重:
weight(Si)=STW(Si)+δ[αLW(Si)+βCC(Si)+γKW(Si)];
其中,Si为待提取新闻文本中的第i个句子,weight(Si)为待提取新闻文本中的第i个句子的句子权重,STW(Si)为待提取新闻文本中的第i个句子的标题相似度权重,LW(Si)为待提取新闻文本中的第i个句子的位置权重,CC(Si)为待提取新闻文本中的第i个句子的线索词和转折词权重,KW(Si)为待提取新闻文本中的第i个句子的关键词权重,α为位置权重的加权系数,β为线索词和转折词权重的加权系数,γ为关键词权重的加权系数,且α+β+γ=1,δ为调节因子。
7.一种摘要提取装置,其特征在于,包括:
获取模块,用于获取待提取新闻文本,并对所述待提取新闻文本进行分句处理,得到至少两个句子;
第一选取模块,用于根据词语特征工程配置参数从所述待提取新闻文本的句子中选取词语特征数据;
第二选取模块,用于根据结构特征工程配置参数从所述待提取新闻文本的句子中选取结构特征数据;
第三选取模块,用于根据语义特征工程配置参数从所述待提取新闻文本的句子中选取语义特征数据;
摘要集合提取模块,用于将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本的摘要集合。
8.根据权利要求7所述的装置,其特征在于,所述摘要集合提取模块具体用于:
将所述词语特征数据、所述结构特征数据和所述语义特征数据输入摘要提取模型,得到所述待提取新闻文本中每个句子被摘要的概率;
根据每个句子被摘要的概率生成摘要候选集合,其中,所述摘要候选集合中的句子被摘要的概率大于设定阈值;
若预设摘要集合中句子总数量与所述摘要候选集合中的句子数量的差值大于零,则基于最大边缘相关法对剩余句子集合中的句子进行排序得到句子序列,其中,所述剩余句子集合包括:所述待提取新闻文本中除摘要集合中的句子之外的句子;
根据所述句子序列创建扩展集合,其中,所述扩展集合中的句子数量等于所述预设摘要集合中句子总数量与所述摘要候选集合中的句子数量的差值;
生成所述待提取新闻文本的摘要集合,其中,所述摘要集合包括:所述摘要候选集合和所述扩展集合。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011249202.1A CN112347241A (zh) | 2020-11-10 | 2020-11-10 | 一种摘要提取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011249202.1A CN112347241A (zh) | 2020-11-10 | 2020-11-10 | 一种摘要提取方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112347241A true CN112347241A (zh) | 2021-02-09 |
Family
ID=74362534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011249202.1A Pending CN112347241A (zh) | 2020-11-10 | 2020-11-10 | 一种摘要提取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347241A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114201601A (zh) * | 2021-12-10 | 2022-03-18 | 北京金堤科技有限公司 | 舆情文本的摘要抽取方法、装置、设备及计算机存储介质 |
CN114218923A (zh) * | 2021-12-20 | 2022-03-22 | 北京中科闻歌科技股份有限公司 | 文本摘要抽取方法、装置、设备及存储介质 |
CN114239553A (zh) * | 2021-12-23 | 2022-03-25 | 佳源科技股份有限公司 | 基于人工智能的日志审核方法、装置、设备及介质 |
WO2022262266A1 (zh) * | 2021-06-18 | 2022-12-22 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN115935195A (zh) * | 2022-11-08 | 2023-04-07 | 华院计算技术(上海)股份有限公司 | 文本匹配方法及装置、计算机可读存储介质、终端 |
CN116108165A (zh) * | 2023-04-04 | 2023-05-12 | 中电科大数据研究院有限公司 | 文本摘要生成方法、装置、存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
CN106844341A (zh) * | 2017-01-10 | 2017-06-13 | 北京百度网讯科技有限公司 | 基于人工智能的新闻摘要提取方法及装置 |
KR20170088095A (ko) * | 2016-01-22 | 2017-08-01 | 주식회사 와이즈넛 | 고객의 소리 데이터로부터 요약문을 생성하는 방법 |
CN109657054A (zh) * | 2018-12-13 | 2019-04-19 | 北京百度网讯科技有限公司 | 摘要生成方法、装置、服务器及存储介质 |
CN111090731A (zh) * | 2019-12-20 | 2020-05-01 | 山大地纬软件股份有限公司 | 基于主题聚类的电力舆情摘要提取优化方法及系统 |
-
2020
- 2020-11-10 CN CN202011249202.1A patent/CN112347241A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
KR20170088095A (ko) * | 2016-01-22 | 2017-08-01 | 주식회사 와이즈넛 | 고객의 소리 데이터로부터 요약문을 생성하는 방법 |
CN106844341A (zh) * | 2017-01-10 | 2017-06-13 | 北京百度网讯科技有限公司 | 基于人工智能的新闻摘要提取方法及装置 |
CN109657054A (zh) * | 2018-12-13 | 2019-04-19 | 北京百度网讯科技有限公司 | 摘要生成方法、装置、服务器及存储介质 |
CN111090731A (zh) * | 2019-12-20 | 2020-05-01 | 山大地纬软件股份有限公司 | 基于主题聚类的电力舆情摘要提取优化方法及系统 |
Non-Patent Citations (2)
Title |
---|
余骁捷 等: "基于SVM和MMR融合的自动文摘方法", pages 1 - 4, Retrieved from the Internet <URL:https://www.docin.com/p-1269569537.html> * |
程园 等: "基于综合的句子特征的文本自动摘要", 《计算机科学》, vol. 42, no. 4, pages 226 - 229 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022262266A1 (zh) * | 2021-06-18 | 2022-12-22 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN114201601A (zh) * | 2021-12-10 | 2022-03-18 | 北京金堤科技有限公司 | 舆情文本的摘要抽取方法、装置、设备及计算机存储介质 |
CN114218923A (zh) * | 2021-12-20 | 2022-03-22 | 北京中科闻歌科技股份有限公司 | 文本摘要抽取方法、装置、设备及存储介质 |
CN114218923B (zh) * | 2021-12-20 | 2022-08-30 | 北京中科闻歌科技股份有限公司 | 文本摘要抽取方法、装置、设备及存储介质 |
CN114239553A (zh) * | 2021-12-23 | 2022-03-25 | 佳源科技股份有限公司 | 基于人工智能的日志审核方法、装置、设备及介质 |
CN115935195A (zh) * | 2022-11-08 | 2023-04-07 | 华院计算技术(上海)股份有限公司 | 文本匹配方法及装置、计算机可读存储介质、终端 |
CN115935195B (zh) * | 2022-11-08 | 2023-08-08 | 华院计算技术(上海)股份有限公司 | 文本匹配方法及装置、计算机可读存储介质、终端 |
CN116108165A (zh) * | 2023-04-04 | 2023-05-12 | 中电科大数据研究院有限公司 | 文本摘要生成方法、装置、存储介质及电子设备 |
CN116108165B (zh) * | 2023-04-04 | 2023-06-13 | 中电科大数据研究院有限公司 | 文本摘要生成方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102117160B1 (ko) | 모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치 | |
US11216504B2 (en) | Document recommendation method and device based on semantic tag | |
CN112347241A (zh) | 一种摘要提取方法、装置、设备及存储介质 | |
TW202009749A (zh) | 人機對話方法、裝置、電子設備及電腦可讀媒體 | |
JP6335898B2 (ja) | 製品認識に基づく情報分類 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
Chien et al. | Topic-based hierarchical segmentation | |
CN112100354A (zh) | 人机对话方法、装置、设备及存储介质 | |
CN114065758A (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN113282701B (zh) | 作文素材生成方法、装置、电子设备及可读存储介质 | |
CN110874536A (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
US20220365956A1 (en) | Method and apparatus for generating patent summary information, and electronic device and medium | |
CN111950301A (zh) | 一种中译英的英语译文质量分析方法及系统 | |
El Janati et al. | Adaptive e-learning AI-powered chatbot based on multimedia indexing | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
Tahayna et al. | Automatic sentiment annotation of idiomatic expressions for sentiment analysis task | |
US11809804B2 (en) | Text formatter | |
CN113065350A (zh) | 一种基于注意力神经网络的生物医学文本词义消岐方法 | |
Gris et al. | Evaluating OpenAI's Whisper ASR for Punctuation Prediction and Topic Modeling of life histories of the Museum of the Person | |
CN116090450A (zh) | 一种文本处理方法及计算设备 | |
CN111626055B (zh) | 文本处理方法及装置、计算机存储介质、电子设备 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN112905752A (zh) | 一种智能交互方法、装置、设备以及存储介质 | |
Aydinov et al. | Investigation of automatic part-of-speech tagging using CRF, HMM and LSTM on misspelled and edited texts | |
CN117217218B (zh) | 科技风险事件相关舆情的情感词典构建方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |