CN108052686B - 一种摘要提取方法及相关设备 - Google Patents

一种摘要提取方法及相关设备 Download PDF

Info

Publication number
CN108052686B
CN108052686B CN201810081590.3A CN201810081590A CN108052686B CN 108052686 B CN108052686 B CN 108052686B CN 201810081590 A CN201810081590 A CN 201810081590A CN 108052686 B CN108052686 B CN 108052686B
Authority
CN
China
Prior art keywords
sentence
text
abstract
initial
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810081590.3A
Other languages
English (en)
Other versions
CN108052686A (zh
Inventor
曹云波
万小军
苏可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810081590.3A priority Critical patent/CN108052686B/zh
Publication of CN108052686A publication Critical patent/CN108052686A/zh
Application granted granted Critical
Publication of CN108052686B publication Critical patent/CN108052686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Abstract

本发明实施例公开了一种摘要提取方法及相关设备,包括:从文本中提取第一语句生成所述文本的初始摘要;确定所述文本中的每条语句的置信度;根据所述每条语句的所述置信度,确定所述初始摘要的准确度;当所述准确度大于第一阈值时,将所述初始摘要确定为所述文本的目标摘要,当所述准确度不大于所述第一阈值时,从所述文本中选取第二语句替换所述初始摘要中的所述第一语句得到所述文本的所述目标摘要。采用本发明实施例,可以提高摘要提取的准确性。

Description

一种摘要提取方法及相关设备
技术领域
本发明涉及电子技术领域,尤其涉及一种摘要提取方法及相关设备。
背景技术
目前单文档摘要自动提取方法主要基于启发式规则或基于机器学习来对文档中的语句进行评估和抽取,该方法在对文本中的每条语句赋予反映其重要性的权值,然后选取权重最大的若干条语句形成摘要。在此类方法中语句的位置特征与表征语句的其它重要特征混杂在一起,基于预期结果构建学习目标,然后通过机器学习算法来自动发现语句特征的重要性。另一类方法(比如:LEAD方法)直接提取文档的前几条语句作为文档的摘要,该类方法将句子的位置信息作为唯一的考虑因素然。尽管在大多数文档尤其是新闻类文档中,文档内容的重要信息的概要将集中在文档的开头部分,但若仅将位置信息作为摘要提取的唯一考虑因素也势必导致生成的摘要对文档关键内容的覆盖度过低。而在综合考虑句子位置特征与其它表征句子重要性的特征的自动摘要方法中,又将因训练数据与真实数据之间的偏差导致对语句位置信息的利用不够充分,导致提取的摘要的准确性低。
发明内容
本发明实施例提供一种摘要提取方法及相关设备,提高了摘要提取的准确性。
第一方面,本发明实施例提供了一种摘要提取方法,包括:
从文本中提取第一语句生成所述文本的初始摘要;
确定所述文本中的每条语句的置信度;
根据所述每条语句的所述置信度,确定所述初始摘要的准确度;
当所述准确度大于第一阈值时,将所述初始摘要确定为所述文本的目标摘要,当所述准确度不大于所述第一阈值时,从所述文本中选取第二语句替换所述初始摘要中的所述第一语句得到所述文本的所述目标摘要。
其中,所述从文本中提取第一语句生成所述文本的初始摘要包括:
从所述文本的起始部分提取至少一条所述第一语句生成预设长度的所述初始摘要。
其中,所述根据所述每条语句的所述置信度,确定所述初始摘要的准确度包括:
根据所述置信度,确定所述初始摘要中所述第一语句的重要性排名;
根据所述第一语句的所述重要性排名,确定所述初始摘要的所述准确度。
其中,所述从所述文本中选取第二语句替换所述初始摘要中的所述第一语句得到所述文本的目标摘要包括:
确定所述初始摘要中的所述第一语句与所述文本中每条第二语句的相似度、以及各第二语句的重要性排名;
根据所述第一语句与每条第二语句的相似度、以及各第二语句的所述重要性排名,选取第二语句替换所述第一语句。
其中,所述根据所述第一语句与每条第二语句的相似度、以及各第二语句的所述重要性排名,选取第二语句替换所述第一语句,包括:
当第二语句与所述第一语句的相似度大于第二阈值、且第二语句的重要性排名高于第三阈值时,选取该第二语句替换所述第一语句。
其中,所述根据所述第一语句与每条第二语句的相似度、以及各第二语句的所述重要性排名,选取第二语句替换所述第一语句,包括:
当第二语句与所述第一语句的相似度不大于第二阈值、或所述第二语句的重要性排名不高于第三阈值时,删除所述初始摘要中的所述第一语句,并从所述文本中的剩余语句中选取所述重要性排名最高的语句添加到所述初始摘要的结尾部分,所述剩余语句为所述文本中除已被选取的语句以及所述第一语句之外的语句。
其中,所述根据所述第一语句与每条第二语句的相似度、以及各第二语句的所述重要性排名,选取第二语句替换所述第一语句之前,还包括:
确定所述第一语句是否为所述文本的首条语句;
若所述第一语句为所述文本的首条语句,则确定所述第一语句为所述目标摘要中的语句;
若所述第一语句不为所述文本的首条语句,则执行所述根据所述第一语句与每条第二语句的相似度、以及各第二语句的所述重要性排名,选取第二语句替换所述第一语句的操作。
其中,所述确定所述文本中的每条语句的置信度包括:
提取所述文本中的所述每条语句的分类特征,所述分类特征包括语句的位置、语句的长度、语句所包含的词语的词频、语句包含的标题词的数目以及语句之间的相似度中的至少一种;
将所述文本中的所述每条语句的所述分类特征输入到分类器中,确定所述每条语句的所述置信度。
其中,所述当所述准确度大于第一阈值时,将所述初始摘要确定为所述文本的目标摘要,当所述准确度不大于所述第一阈值时,从所述文本中选取第二语句替换所述初始摘要中的所述第一语句得到所述文本的所述目标摘要之后,还包括:
向用户终端发送所述目标摘要,所述目标摘要用于所述用户终端通过语音播报方式提示用户。
其中,所述当所述准确度大于第一阈值时,将所述初始摘要确定为所述文本的目标摘要,当所述准确度不大于所述第一阈值时,从所述文本中选取第二语句替换所述初始摘要中的所述第一语句得到所述文本的所述目标摘要之后,还包括:
向用户终端发送所述目标摘要,所述目标摘要用于所述用户终端在显示界面上显示。
第二方面,本发明实施例提供了一种摘要提取装置,包括:
提取模块,用于从文本中提取第一语句生成所述文本的初始摘要;
确定模块,用于确定所述文本中的每条语句的置信度;
所述确定模块,还用于根据所述每条语句的所述置信度,确定所述初始摘要的准确度;
替换模块,用于当所述准确度大于第一阈值时,将所述初始摘要确定为所述文本的目标摘要,当所述准确度不大于所述第一阈值时,从所述文本中选取第二语句替换所述初始摘要中的所述第一语句得到所述文本的所述目标摘要。
其中,所述提取模块具体用于:
从所述文本的起始部分提取至少一条所述第一语句生成预设长度的所述初始摘要。
其中,所述确定模块具体用于:
根据所述置信度,确定所述初始摘要中所述第一语句的重要性排名;
根据所述第一语句的所述重要性排名,确定所述初始摘要的所述准确度。
其中,所述替换模块具体用于:
确定所述初始摘要中的所述第一语句与所述文本中每条第二语句的相似度、以及各第二语句的重要性排名;
根据所述第一语句与每条第二语句的相似度、以及各第二语句的所述重要性排名,选取第二语句替换所述第一语句。
其中,所述替换模块具体用于:
当第二语句与所述第一语句的相似度大于第二阈值、且第二语句的重要性排名高于第三阈值时,选取该第二语句替换所述第一语句。
其中,所述替换模块还用于:
当第二语句与所述第一语句的相似度不大于第二阈值、或所述第二语句的重要性排名不高于第三阈值时,删除所述初始摘要中的所述第一语句,并从所述文本中的剩余语句中选取所述重要性排名最高的语句添加到所述初始摘要的结尾部分,所述剩余语句为所述文本中除已被选取的语句以及所述第一语句之外的语句。
其中,所述替换模块具体用于:
确定所述第一语句是否为所述文本的首条语句;
若所述第一语句为所述文本的首条语句,则确定所述第一语句为所述目标摘要中的语句;
若所述第一语句不为所述文本的首条语句,则执行所述根据所述第一语句与每条第二语句的相似度、以及各第二语句的所述重要性排名,选取第二语句替换所述第一语句的操作。
其中,所述确定模块具体用于:
提取所述文本中的所述每条语句的分类特征,所述分类特征包括语句的位置、语句的长度、语句所包含的词语的词频、语句包含的标题词的数目以及语句之间的相似度中的至少一种;
将所述文本中的所述每条语句的所述分类特征输入到分类器中,确定所述每条语句的所述置信度。
其中,所述替换模块还用于:
向用户终端发送所述目标摘要,所述目标摘要用于所述用户终端通过语音播报方式提示用户。
其中,所述替换模块还用于:
向用户终端发送所述目标摘要,所述目标摘要用于所述用户终端在显示界面上显示。
第三方面,本发明实施例提供了一种摘要提取设备,包括:处理器、存储器和通信总线,其中,通信总线用于实现处理器和存储器之间连接通信,处理器执行存储器中存储的程序用于实现上述第一方面提供的一种摘要提取方法中的步骤。
在一个可能的设计中,本发明实施例提供的摘要提取设备可以包含用于执行上述方法中行为相对应的模块。模块可以是软件和/或是硬件。
本发明实施例又一方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有多条指令,所述指令适于由处理器加载并执行上述各方面所述的方法。
本发明实施例又一方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
实施本发明实施例,首先从文本中提取第一语句生成文本的初始摘要;接着确定文本中的每条语句的置信度;然后根据每条语句的置信度,确定初始摘要的准确度;最后当准确度大于第一阈值时,将初始摘要确定为文本的目标摘要,当准确度不大于第一阈值时,从文本中选取第二语句替换初始摘要中的第一语句得到文本的目标摘要,从而提高摘要提取的准确性。
附图说明
为了更清楚地说明本发明实施例或背景技术中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图进行说明。
图1是本发明实施例提供的一种摘要提取系统的结构示意图;
图2是本发明实施例提供的一种摘要提取方法的流程示意图;
图3是本发明实施例提供的一种新闻文本的示意图;
图4是本发明另一实施例提供的一种摘要提取方法的流程示意图;
图5是本发明实施例提供的一种信息交互的示意图;
图6是本发明实施例提供的一种摘要提取装置的结构示意图;
图7是本发明实施例提出的一种摘要提取设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
请参见图1,图1是本发明实施例提供的一种摘要提取系统的结构示意图,该摘要提取系统包括文本来源101、服务器102、语音合成工具103、云端104、语音助手105以及用户终端106,其中,文本来源101可以是各类新闻网页,服务器102可以是应用程序服务器,语音合成工具103用于将文字信息实时转化为语音信息,云端104可以是采用应用程序虚拟化技术的软件平台,语音助手105可以是拥有智能对话与即时问答的智能交互应用程序,用户终端106可以是手机,也可以是手表、音箱、机器人等可穿戴设备、智能家居设备、头戴式设备,也可以是常见的个人计算机。具体的包括:服务器102可以从文本来源101提取各类新闻、资讯等文本内容合成摘要并通过人工审核生成一条文字格式的短新闻,或者通过语音合成工具103或人工转录将文字格式的短新闻制作成语音格式的短新闻,并将短新闻存储于云端104。用户终端106可以通过向语音助手105发送语音指令,来读取存储于云端的短新闻。语音助手105根据用户终端106的硬件配置,向用户终端106推送文字格式或语音格式的短新闻。基于上述摘要提取系统,本发明实施例提供了如下解决方案。
请参见图2,图2是本发明实施例提供的一种摘要提取方法的流程示意图,该方法包括但不限于如下步骤:
S201,从文本中提取第一语句生成所述文本的初始摘要。
具体实现中,可以从所述文本的起始部分提取至少一条所述第一语句生成预设长度的所述初始摘要。
本实施例中,预设长度可以是初始摘要包含的语句的句数,即预设长度可以用句数来定义,该句数可以通过标点符号来确定,如一句话表达完整,是以问号,句号,感叹号和省略号结尾的。
例如:当初始摘要的预设长度为2条语句时,提取如图3所示的新闻文本前2条语句生成的该新闻文本的初始摘要,即该新闻文本的初始摘要为“2018年全国XXX工作会议在北京召开。国家ABC委员会主任张三发表讲话。”
在其他实施例中,预设长度还可以是初始摘要包含的字数或词数。
可选的,可以从所述文本的中间部分、结束部分或其他任意指定位置提取所述第一语句生成预设长度的所述初始摘要。
S202,确定所述文本中的每条语句的置信度。其中,所述置信度可以表示为每条语句作为目标摘要的可信度。
具体实现中,可以首先提取所述文本中的每条语句的分类特征,所述分类特征包括语句的位置、语句的长度、语句所包含的词语的词频、语句包含的标题词的数目以及语句之间的相似度中的至少一种;然后将所述文本中的每条语句的所述分类特征输入到分类器中,确定每条语句的所述置信度。其中,分类器可以为支持向量机(Support VectorMachine,SVM)分类器。当然,也可以通过其他分类器来预测每条语句的置信度。其中,可以通过训练分类模型来得到对应的分类器,分类模型的训练过程如下:
首先收集训练集文本并通过人工的方法获得训练集文本的参考摘要;接着为了构造训练样本,需要计算训练集文本中的语句与该训练集文本对应的参考摘要中的每条语句的相似度,其中,语句间的相似度可以是语句间基于词的余弦相似度或基于词向量的相似度。若训练集文本中的语句与参考摘要中相似度最高的语句的相似度超过相似度阈值(比如0.8),则确定该语句为被选入摘要的语句,该语句的分类标签为1,若训练集文本中的语句与参考摘要中相似度最高的语句的相似度未超过相似度阈值,则确定该语句为不被选入摘要的语句,该语句的分类标签为0。将所有语句以及每条语句的分类标签作为训练样本。然后选择分类模型,并利用上述构造好的训练样本训练该分类模型,从而得到需要的分类器。
例如:如图3所示的新闻文本为一个训练集文本,并且该训练集文本的参考摘要可以是“全国XXX会议在京召开。张三发表讲话。”为了构造训练样本,计算该新闻文本中的每条语句与参考摘要中的每条语句的相似度。以下将以计算该新闻文本的第一条语句与参考摘要中的第一条语句的相似度为例说明句间相似度的一种可能的计算方法。首先利用分词工具将该新闻文本的第一条语句“2018年全国XXX工作会议在北京召开。”进行分词得到的分词结果为“2018年/全国/XXX/工作/会议/在/北京/召开/。”,以及参考摘要的第一条语句的分词结果为“全国/XXX/工作/会议/在/京/召开/。”其中“/”为分割符。然后计算该新闻文本的第一条语句与参考摘要的第一条语句之间的余弦相似度。该余弦相似度的具体计算步骤如下:
首先,列出两条语句所包括的全部词语:2018年、全国、XXX、工作、会议、在、北京、京、召开。
然后,分别统计步骤1中列出的每个词在两条语句中出现的次数。统计结果如表1所示次数统计表所示,表1中包括步骤1中列出的词以及每个词在新闻文本的第一条语句和参考摘要的第一条语句中出现的次数,根据次数的统计结果,得到新闻文本的第一条语句对应的向量a=(1,1,1,1,1,1,1,0,1),以及参考摘要的第一条语句对应的向量b=(0,1,1,1,1,1,0,1,1)。
表1.次数统计表
Figure BDA0001560614450000081
最后,计算向量a和b的余弦相似度cos(a,b)作为新闻文本的第一条语句和参考摘要的第一条语句的余弦相似度。其中,cos(a,b)的计算方法如下:
Figure BDA0001560614450000082
利用上述方法计算得到该新闻文本的第一条语句与参考摘要的第二条语句的余弦相似度为0,因此该新闻文本的第一条语句与参考摘要的第一条语句的相似度最高,相似度为0.802。当相似度阈值为0.8时,则确定该语句为被选入摘要的语句,对应的分类标签为1。在确定该新闻文本中的每条语句的分类标签后,可以得到如表2所示的训练样本,表2中包含了训练集文本中的所有语句及其分类标签。然后通过向量空间模型(Vector SpaceModel,VSM)将训练样本转换成向量形式;最后选择SVM分类模型,并将训练样本输入训练工具(如libsvm或liblinear)中对SVM分类模型进行训练,从而得到SVM分类器。
表2.训练样本
Figure BDA0001560614450000091
基于上述SVM分类器,可以首先提取文本中的每条语句的分类特征,然后将分类特征输入到该SVM分类器中,以便确定每条语句的置信度,其中,可以通过以下12个特征维度来提取每条语句的分类特征:
第一,第1个特征维度用于标记语句的位置,1表示文本的首条语句,2表示文本最后一条语句,3表示其他位置的语句。例如,当语句为所述文本的首条语句,即该语句为所述文本开头的第一条语句时,则该语句的所述分类特征的第1个特征维度为1。
第二,第2个特征维度表示语句长度,其中,语句长度表示除去停用词之后语句所包含的词数,停用词包括“比如”、“以便”等可从通用的停用词列表中查找到的词语。例如,首先利用分词器将语句“2018年全国XXX工作会议在北京召开。”进行分词得到“2018年/全国/XXX/工作/会议/在/北京/召开/。”除去停用词“在”之后,该语句的总词数为7,则该语句的所述分类特征的第2个特征维度为7。
第三,第3个特征维度的计算公式如下:
Figure BDA0001560614450000092
其中,l表示语句所包含的总词数,totalwordnum表示语句所在的文本的总词数,wk表示语句的第k个词,count(wk)表示wk在文本中出现的次数,log(x)表示求x以2为底的对数。
第四,第4个特征维度表示语句中的高频词的数目,其中,高频词为所述文本中除停用词外出现次数最多的前5个词。
第五,第5个特征维度标记语句是否包含特殊线索词。如人名、地名、职务名称等,若语句包含特殊线索词则标记为1,若语句不包含特殊线索词则标记为0。
第六,第6到11个特征维度分别表示语句和所述文本的前三条语句和后三条语句的相似度。例如,所述文本共包含10条语句,当提取第4条语句的分类特征时,第6到11个特征维度可以分别表示第4条语句与第1条语句、第4条语句与第2条语句、第4条语句与第3条语句、第4条语句与第8条语句、第4条语句与第9条语句以及第4条语句与第10条语句的余弦相似度。
第七,第12个特征维度为语句包含标题词的数目。例如,在如图3所示的新闻文本中,第一条语句与该新闻文本的标题都包含了“2018年”、“全国”、“XXX”、“工作”、“会议”和“召开”这6个词,因此第一条语句的所述分类特征的第12个特征维度为6。
最后,根据上述12个特征维度的结果生成一个12维的向量来表示分类特征。例如,一条语句的12个特征维度的计算结果分别为3、2、0.8、3、0、0.6、0.7、0.8、0.4、0.6、0.7和6,则该语句的分类特征可以表示为向量(3,2,0.8,3,0,0.6,0.7,0.8,0.4,0.6,0.7,6),可将该向量输入SVM分类器,SVM分类器将输出该语句的分类标签和被选入摘要的置信度。例如,输出(1,0.7),其中1是分类标签,0.7是置信度。
S203,根据所述每条语句的所述置信度,确定所述初始摘要的准确度。
具体实现中,可以首先根据所述置信度,确定所述文本中的每条语句的重要性排名,从而确定所述初始摘要中所述第一语句在所述文本包含的所有语句中的重要性排名,其中,置信度越高的语句重要性排名越靠前。然后根据所述第一语句的所述重要性排名,确定所述初始摘要的所述准确度。
需要说明的是,在初始摘要仅包含一条所述第一语句的情况下,若第一语句的重要性排名高于第四阈值,则确定初始摘要的准确度为1,否则确定初始摘要的准确度为0。在初始摘要包含多条第一语句的情况下,若每条第一语句的重要性排名均高于第四阈值,则确定初始摘要的准确度为1,如果其中只有部分语句的重要性排名高于第四阈值,则可以统计重要性排名高于第四阈值的语句的数量、和重要性排名不高于第四阈值的语句的数量,进而计算初始摘要的准确度。其中,第四阈值可以包括但不限于排名前40%。
例如:文本总共包含7条语句,按照这7条语句在所述文本中的顺序依次将其记为语句1、语句2、…、语句7,从文本中提取语句1和语句2作为初始摘要。如表3所示,表3为一种重要性排名表,置信度越高,重要性排名越高。语句1的置信度为0.91,语句1的置信度高于其他6条语句的置信度,因此语句1的重要性排名为1。语句7的置信度为0.37,语句7的置信度低于其他6条语句,因此语句7的重要性排名为7。从表3可知,语句1的重要性排名在前40%,但是语句2的重要性排名不在前40%,因此,初始摘要的准确度为50%。
表3.重要性排名列表
语句 置信度 重要性排名
语句1 0.91 1
语句2 0.54 6
语句3 0.73 3
语句4 0.58 5
语句5 0.81 2
语句6 0.65 4
语句7 0.37 7
S204,确定所述初始摘要的所述准确度是否大于第一阈值。其中,第一阈值可以包括但不限于99%。若所述初始摘要的所述准确度大于第一阈值,则执行S205。若所述初始摘要的所述准确度不大于第一阈值,则执行S206。
S205,将所述初始摘要确定为所述文本的目标摘要。
S206,从所述文本中选取第二语句替换所述初始摘要中的所述第一语句得到所述文本的所述目标摘要。
具体实现中,可以首先确定所述初始摘要中的所述第一语句与所述文本中每条第二语句的相似度、以及各第二语句的重要性排名;然后根据所述第一语句与每条第二语句的相似度、以及各第二语句的所述重要性排名,选取第二语句替换所述第一语句。
其中,相似度的计算方法可以包括:首先,提取所述第一语句与所述第二语句所包含的全部词语,并统计每个词在所述第一语句中出现的次数从而得到第一向量,以及每个词在所述第二语句中出现的次数从而得到第二向量。然后,计算第一向量和第二向量的余弦相似度作为所述第一语句与所述第二语句的相似度。例如,第一语句和第二语句包含的词语有词语1、词语2、词语3和词语4,其中,词语1、词语2、词语3和词语4在第一语句中出现的次数分别为1、2、0和1,则得到第一向量为(1,2,0,1)。词语1、词语2、词语3和词语4在第二语句中出现的次数分别为1、1、1和0,则得到第二向量为(1,1,1,0),根据向量间的余弦相似度计算公式计算得到第一向量与第二向量的余弦相似度为0.866,从而第一语句和第二语句的相似度为0.866。
需要说明的是,当初始摘要仅包含一条第一语句时,可以直接从文本中选取第二语句替换初始摘要中的第一语句得到文本的目标摘要。当初始摘要包含多条第一语句时,可以首先确定每条第一语句的重要性排名是否高于第四阈值。若是,则确定该第一语句为目标摘要中的语句,将其保留在初始摘要中,若否,则从文本中选取第二语句替换初始摘要中的第一语句得到文本的目标摘要。此外,被选取用于替换的第二语句的开头不能是代词和表示转折或递进关系词。
例如:文本包括如表3所示的7条语句,初始摘要包括语句1和语句2。首先,因为语句1的重要性排名在前40%,可以确定语句1为文本的目标摘要中的语句。语句2的重要性排名不在前40%,所以需要从语句3、语句4、…、语句7中选取一条语句替换语句2。
其中,从所述文本中选取第二语句替换所述初始摘要中的所述第一语句得到所述文本的所述目标摘要包括以下两种可选方式:
第一种可选方式,当第二语句与所述第一语句的相似度大于第二阈值、且第二语句的重要性排名高于第三阈值时,选取该第二语句替换所述第一语句。其中,第二阈值可以包括但不限于0.5,第三阈值可以包括但不限于排名前40%。需要说明的是,第三阈值可以与上述第四阈值相同,也可以与上述第四阈值不同。
例如,已经确定需要从语句3、语句4、…、语句7中选取一条语句替换语句2。则可以首先分别计算语句2与语句3、语句2与语句4、…、语句2与语句7的余弦相似度,通过计算得到语句2与语句3、语句2与语句4、…、语句2与语句7的相似度分别为0.52、0.61、0.24、0.34、0.44,因此可以确定语句2与语句3、语句2与语句4的相似度大于0.5,若语句3和语句4的开头都不是代词和表示转折或递进关系的词,则可选择语句3和语句4为候选语句。然后按照相似度从高到低的顺序,先判断语句4的重要性排名是否在前40%。若语句4的重要性排名在前40%,则选取语句4来替换语句2,若语句4的重要性排名不在前40%,则接着判断语句3的重要性排名是否在前40%。若语句3的重要性排名在前40%,则选取语句3来替换语句2,若语句3的重要性排名不在前40%,则采用第二种可选方式。
第二种可选方式,当第二语句与所述第一语句的相似度不大于第二阈值、或所述第二语句的重要性排名不高于第三阈值时,也就是在无法找到符合替换条件的所述第二语句时,删除所述初始摘要中的所述第一语句,并从所述文本中的剩余语句中选取所述重要性排名最高的语句添加到所述初始摘要的结尾部分,所述剩余语句为所述文本中除已被选取的语句以及所述第一语句之外的语句。其中,已被选取的语句可以为文本中已被用来替换初始摘要中语句的语句。
例如,文本包括如表3所示的7条语句,初始摘要包括语句1、语句2和语句3。假设已经确定语句1为目标摘要中的语句、以及选取语句5替换语句2,则此时语句5为已被选取的语句。通过比较可以得到语句3与语句4、语句3与语句7的相似度大于0.5,因此选取语句4和语句7作为替换语句3的候选语句。但语句4和语句7的重要性排名均不在前40%,于是将语句3从初始摘要中删除,并从文本中剩余的语句4、语句6和语句7(除语句1、语句2、语句3和已被选取的语句5之外)中选择开头不是代词和表示转折或递进关系的词、以及重要性排名最高的语句添加到已将语句2替换为语句5并删除了语句3的初始摘要的后面,从而得到该文本的目标摘要。
在本发明实施例中,首先从文本中提取第一语句生成文本的初始摘要;接着确定文本中的每条语句的置信度;然后根据每条语句的置信度,确定初始摘要的准确度;最后当准确度大于第一阈值时,将初始摘要确定为文本的目标摘要,当准确度不大于第一阈值时,从文本中选取第二语句替换初始摘要中的第一语句得到文本的目标摘要。通过先充分利用语句的位置特征来得到初始摘要,再结合语句的其他特征来选取重要性更高的语句替换初始摘要的语句,提高了摘要提取的准确性。
请参见图4,图4是本发明另一实施例提供的一种摘要提取方法的流程示意图,该方法包括但不限于如下步骤:
S401,从文本中提取第一语句生成所述文本的初始摘要,本步骤与上一实施例的S201相同,本步骤不再赘述。
S402,确定所述文本中的每条语句的置信度,本步骤与上一实施例的S202相同,本步骤不再赘述。
S403,根据所述每条语句的所述置信度,确定所述初始摘要的准确度,本步骤与上一实施例的S203相同,本步骤不再赘述。
S404,确定所述初始摘要的所述准确度是否大于第一阈值。若所述初始摘要的所述准确度大于第一阈值,则执行S405。若所述初始摘要的所述准确度不大于第一阈值,则执行S406。
S405,将所述初始摘要确定为所述文本的目标摘要。
S406,确定所述第一语句是否为所述文本的首条语句。其中,首条语句就是所述文本开头的第一条语句。例如,如图3所示的新闻文本的首条语句就是开头第一条语句“2018年全国XXX工作会议在北京召开。”。针对初始摘要中的每条所述第一语句实施确定所述第一语句是否为所述文本的首条语句的操作。若所述第一语句为文本的首条语句,则执行S407;若所述第一语句不为文本的首条语句,则执行S408。
具体实现中,可以计算第一语句与首条语句的余弦相似度,并根据余弦相似度来确定第一语句是否为首条语句,其中,若余弦相似度为1,则确定第一语句为首条语句,否则,确定第一语句不为首条语句。
S407,确定所述第一语句为所述目标摘要中的语句,保留初始摘要中该第一语句作为目标摘要中的语句。
S408,从所述文本中选取第二语句替换所述初始摘要中的所述第一语句得到所述文本的所述目标摘要,本步骤与上一实施例的S206相同,本步骤不再赘述。在服务器确定目标摘要之后,可以通过以下几种可选方式提示用户,
第一种可选方式,服务器可以向用户终端发送所述目标摘要,所述目标摘要用于所述用户终端通过语音播报方式提示用户。例如,如图5所示,服务器在获得今日头条新闻文本的目标摘要后,将该目标摘要作为的短新闻存储于云端。用户可以通过语音助手向用户终端输入请求消息,例如:“帮我播报今日头条”,语音助手在接收并识别该请求消息之后,从云端读取短新闻,并通过语音助手向用户播报该短新闻的内容。
第二种可选方式,服务器可以向用户终端发送所述目标摘要,所述目标摘要用于所述用户终端在显示界面上显示。例如,服务器确定今日头条新闻文本的目标摘要之后,将该目标摘要作为的短新闻存储于云端。用户终端可以接收用户输入的请求指令,然后根据请求指令向云端发送请求消息,从云端获取短新闻,进而在显示界面上显示该短新闻的内容,以便用户阅读或查看。
第三种可选方式,用户终端接收到服务器发送的所述目标摘要之后,用户终端可以通过语音播放的方式播放该目标摘要,同时可以在显示界面上显示目标摘要。
在本发明实施例中,首先从文本中提取第一语句生成文本的初始摘要;接着确定文本中的每条语句的置信度;然后根据每条语句的置信度,确定初始摘要的准确度;最后当准确度大于第一阈值时,将初始摘要确定为文本的目标摘要,当准确度不大于第一阈值时,从文本中选取第二语句替换初始摘要中的第一语句得到文本的目标摘要。通过先充分利用语句的位置特征来得到初始摘要,再结合语句的其他特征来选取重要性更高的语句替换初始摘要的语句,提高了摘要提取的准确性。
上述详细阐述了本发明实施例的方法,下面提供了本发明实施例的装置。
请参考图6,图6是本发明实施例提供的一种摘要提取装置,如图所示,该摘要提取装置可以包括:
提取模块601,用于从文本中提取第一语句生成所述文本的初始摘要。
具体实现中,可以从所述文本的起始部分、结束部分、中间部分或其他任意指定位置提取至少一条所述第一语句生成预设长度的所述初始摘要。其中,预设长度可以是初始摘要包含的语句的句数,即预设长度可以用句数来定义,该句数可以通过标点符号来确定,如一句话表达完整,是以问号,句号,感叹号和省略号结尾的。
可选的,预设长度还可以是初始摘要包含的字数或词数。
确定模块602,用于确定所述文本中的每条语句的置信度。其中,所述置信度可以表示为每条语句作为目标摘要的可信度。
具体实现中,可以首先提取所述文本中的每条语句的分类特征,所述分类特征包括语句的位置、语句的长度、语句所包含的词语的词频、语句包含的标题词的数目以及语句之间的相似度中的至少一种;然后将所述文本中的每条语句的所述分类特征输入到分类器中,确定所述文本中的每条语句的所述置信度。其中,分类器可以为SVM分类器。当然,也可以通过其他分类器来预测每条语句的置信度。其中,可以通过训练分类模型来得到对应的分类器,分类模型的训练过程如下:
首先收集训练集文本并通过人工的方法获得训练集文本的参考摘要;接着构造训练样本,计算训练集文本中的语句与该训练集文本对应的参考摘要中的每条语句的相似度,其中,语句间的相似度可以是语句间基于词的余弦相似度或基于词向量的相似度。若训练集文本中的语句与参考摘要中相似度最高的语句的相似度超过相似度阈值(比如0.8),则确定该语句为被选入摘要的语句,该语句的分类标签为1,若训练集文本中的语句与参考摘要中相似度最高的语句的相似度未超过相似度阈值,则确定该语句为不被选入摘要的语句,该语句的分类标签为0。将所有语句以及每条语句的分类标签作为训练样本。然后选择分类模型,并利用上述构造好的训练样本训练该分类模型,从而得到需要的分类器。
确定模块602,还用于根据所述每条语句的所述置信度,确定所述初始摘要的准确度。
具体实现中,可以首先根据所述置信度,确定所述文本中的每条语句的重要性排名,从而确定所述初始摘要中所述第一语句在所述文本包含的所有语句中的重要性排名,其中,置信度越高的语句重要性排名越靠前。然后根据所述第一语句的所述重要性排名,确定所述初始摘要的所述准确度。
需要说明的是,在初始摘要仅包含一条所述第一语句的情况下,若第一语句的重要性排名高于第四阈值,则确定初始摘要的准确度为1,否则确定初始摘要的准确度为0。在初始摘要包含多条第一语句的情况下,若每条第一语句的重要性排名均高于第四阈值,则确定初始摘要的准确度为1,如果其中只有部分语句的重要性排名高于第四阈值,可以统计重要性排名高于第四阈值的语句的数量、和重要性排名不高于第四阈值的语句的数量,进而计算初始摘要的准确度。其中,第四阈值可以包括但不限于排名前40%。
替换模块603,用于当所述准确度大于第一阈值时,将所述初始摘要确定为所述文本的目标摘要,当所述准确度不大于所述第一阈值时,从所述文本中选取第二语句替换所述初始摘要中的所述第一语句得到所述文本的所述目标摘要。
具体实现中,当所述准确度不大于所述第一阈值时,可以针对所述初始摘要中的每条第一语句,确定所述第一语句是否为所述文本的首条语句。当所述第一语句为首条语句时,确定所述第一语句为目标摘要中的语句,保留初始摘要中该第一语句作为目标摘要中的语句。
当所述第一语句不为首条语句时,首先确定所述第一语句的重要性排名是否高于第四阈值。当第一语句的重要性排名高于第四阈值时,确定所述第一语句为所述文本的目标摘要中的语句。当第一语句的重要性排名不高于第四阈值时,从所述文本中选取第二语句替换所述初始摘要中的所述第一语句得到所述文本的所述目标摘要,其中,可以首先确定所述初始摘要中的所述第一语句与所述文本中每条第二语句的相似度,然后根据所述第一语句与每条第二语句的相似度、以及各第二语句的所述重要性排名,选取第二语句替换所述第一语句,并且所述第一语句与所述第二语句的所述相似度可以是所述第一语句与所述第二语句之间基于词的余弦相似度。
具体地,从所述文本中选取第二语句替换所述初始摘要中的所述第一语句得到所述文本的所述目标摘要包括以下两种可选的方式:
第一种可选的方式,当第二语句与所述第一语句的相似度大于第二阈值、且第二语句的重要性排名高于第三阈值时,选取该第二语句替换所述第一语句。其中,第二阈值可以包括但不限于0.5,第三阈值可以包括但不限于排名前40%。需要说明的是,第三阈值可以与上述第四阈值相同,也可以与第四阈值不同。
第二种可选的方式,当第二语句与所述第一语句的相似度不大于第二阈值、或所述第二语句的重要性排名不高于第三阈值时,也就是当无法找到符合替换条件的所述第二语句时,删除所述初始摘要中的所述第一语句,并从所述文本中的剩余语句中选取所述重要性排名最高的语句添加到所述初始摘要的结尾部分,所述剩余语句为所述文本中除已被选取的语句以及所述第一语句之外的语句,其中,已被选取的语句可以为文本中已被用来替换初始摘要中语句的语句。
其中,被选取用于替换第一语句的所述第二语句的开头不能是代词和表示装着或递进关系的词。
最后,在服务器确定目标摘要之后,可以通过以下几种可选方式提示用户,
第一种可选方式,服务器可以向用户终端发送所述目标摘要,所述目标摘要用于所述用户终端通过语音播报方式提示用户。例如,如图5所示,服务器在获得今日头条新闻文本的目标摘要后,将该目标摘要作为的短新闻存储于云端。用户可以通过语音助手向用户终端输入请求消息,例如:“帮我播报今日头条”,语音助手在接收并识别该请求消息之后,从云端读取短新闻,并通过语音助手向用户播报该短新闻的内容。
第二种可选方式,服务器可以向用户终端发送所述目标摘要,所述目标摘要用于所述用户终端在显示界面上显示。例如,如图5所示,服务器确定今日头条新闻文本的目标摘要之后,将该目标摘要作为的短新闻存储于云端。用户终端可以接收用户输入的请求指令,然后根据请求指令向云端发送请求消息,从云端获取短新闻,进而在显示界面上显示该短新闻的内容,以便用户阅读或查看。
第三种可选方式,用户终端接收到服务器发送的所述目标摘要之后,用户终端可以通过语音播放的方式播放该目标摘要,同时可以在显示界面上显示目标摘要。
在本发明实施例中,首先从文本中提取第一语句生成文本的初始摘要;接着确定文本中的每条语句的置信度;然后根据每条语句的置信度,确定初始摘要的准确度;最后当准确度大于第一阈值时,将初始摘要确定为文本的目标摘要,当准确度不大于第一阈值时,从文本中选取第二语句替换初始摘要中的第一语句得到文本的目标摘要。通过先充分利用语句的位置特征来得到初始摘要,再结合语句的其他特征来选取重要性更高的语句替换初始摘要的语句,提高了摘要提取的准确性。
请继续参考图7,图7是本发明实施例提出的一种摘要提取设备的结构示意图。其中,摘要提取设备可以为如图1所示的服务器或是其他计算设备。如图所示,该摘要提取设备可以包括:处理器701,通信接口702,存储器703和通信总线704。
其中,处理器701可以是中央处理器单元,通用处理器,数字信号处理器,专用集成电路,现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理器和微处理器的组合等等。通信总线704可以是外设部件互连标准PCI总线或扩展工业标准结构EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信总线704用于实现这些组件之间的连接通信。其中,本发明实施例中设备的通信接口702用于与其他节点设备进行信令或数据的通信。存储器703可以包括易失性存储器,例如非挥发性动态随机存取内存(Nonvolatile Random Access Memory,NVRAM)、相变化随机存取内存(PhaseChange RAM,PRAM)、磁阻式随机存取内存(Magetoresistive RAM,MRAM)等,还可以包括非易失性存储器,例如磁盘存储器件、电子可擦除可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、闪存器件,例如反或闪存(NORflash memory)或是反及闪存(NAND flash memory)、半导体器件,例如固态硬盘(SolidState Disk,SSD)等。存储器703可选的还可以是位于远离前述处理器701的存储装置。存储器703中存储一组程序代码,且处理器701执行存储器703中的程序。
从文本中提取第一语句生成所述文本的初始摘要;
确定所述文本中的每条语句的置信度;
根据所述每条语句的所述置信度,确定所述初始摘要的准确度;
当所述准确度大于第一阈值时,将所述初始摘要确定为所述文本的目标摘要,当所述准确度不大于所述第一阈值时,从所述文本中选取第二语句替换所述初始摘要中的所述第一语句得到所述文本的所述目标摘要。
可选的,处理器701还用于执行如下操作步骤:
从所述文本的起始部分提取至少一条所述第一语句生成预设长度的所述初始摘要。
可选的,处理器701还用于执行如下操作步骤:
根据所述置信度,确定所述初始摘要中所述第一语句的重要性排名;
根据所述第一语句的所述重要性排名,确定所述初始摘要的所述准确度。
可选的,处理器701还用于执行如下操作步骤:
确定所述初始摘要中的所述第一语句与所述文本中每条第二语句的相似度、以及各第二语句的重要性排名;
根据所述第一语句与每条第二语句的相似度、以及各第二语句的所述重要性排名,选取第二语句替换所述第一语句。
可选的,处理器701还用于执行如下操作步骤:
当第二语句与所述第一语句的相似度大于第二阈值、且第二语句的重要性排名高于第三阈值时,选取该第二语句替换所述第一语句。
可选的,处理器701还用于执行如下操作步骤:
当第二语句与所述第一语句的相似度不大于第二阈值、或所述第二语句的重要性排名不高于第三阈值时,删除所述初始摘要中的所述第一语句,并从所述文本中的剩余语句中选取所述重要性排名最高的语句添加到所述初始摘要的结尾部分,所述剩余语句为所述文本中除已被选取的语句以及所述第一语句之外的语句。
可选的,处理器701还用于执行如下操作步骤:
确定所述第一语句是否为所述文本的首条语句;
若所述第一语句为所述文本的首条语句,则确定所述第一语句为所述目标摘要中的语句;
若所述第一语句不为所述文本的首条语句,则执行所述根据所述第一语句与每条第二语句的相似度、以及各第二语句的所述重要性排名,选取第二语句替换所述第一语句的操作。
可选的,处理器701还用于执行如下操作步骤:
提取所述文本中的所述每条语句的分类特征,所述分类特征包括语句的位置、语句的长度、语句所包含的词语的词频、语句包含的标题词的数目以及语句之间的相似度中的至少一种;
将所述文本中的所述每条语句的所述分类特征输入到分类器中,确定所述每条语句的所述置信度。
可选的,处理器701还用于执行如下操作步骤:
向用户终端发送所述目标摘要,所述目标摘要用于所述用户终端通过语音播报方式提示用户。
可选的,处理器701还用于执行如下操作步骤:
向用户终端发送所述目标摘要,所述目标摘要用于所述用户终端在显示界面上显示。
进一步的,处理器还可以与存储器和通信接口相配合,执行上述发明实施例中摘要提取装置的操作。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种摘要提取方法,其特征在于,所述方法包括:
从文本中提取第一语句生成所述文本的初始摘要;
确定所述文本中的每条语句的置信度;
根据所述每条语句的所述置信度,确定所述初始摘要的准确度;
当所述准确度大于第一阈值时,将所述初始摘要确定为所述文本的目标摘要;
当所述准确度不大于所述第一阈值时,确定所述初始摘要中的所述第一语句与所述文本中每条第二语句的相似度、以及各第二语句的重要性排名;
根据所述第一语句与每条第二语句的相似度、以及各第二语句的所述重要性排名,选取第二语句替换所述第一语句,得到所述文本的目标摘要;
所述根据所述第一语句与每条第二语句的相似度、以及各第二语句的所述重要性排名,选取第二语句替换所述第一语句,包括:
当第二语句与所述第一语句的相似度不大于第二阈值、或所述第二语句的重要性排名不高于第三阈值时,删除所述初始摘要中的所述第一语句,并从所述文本中的剩余语句中选取所述重要性排名最高的语句添加到所述初始摘要的结尾部分,所述剩余语句为所述文本中除已被选取的语句以及所述第一语句之外的语句。
2.如权利要求1所述的方法,其特征在于,所述从文本中提取第一语句生成所述文本的初始摘要包括:
从所述文本的起始部分提取至少一条所述第一语句生成预设长度的所述初始摘要。
3.如权利要求1所述的方法,其特征在于,所述根据所述每条语句的所述置信度,确定所述初始摘要的准确度包括:
根据所述置信度,确定所述初始摘要中所述第一语句的重要性排名;
根据所述第一语句的所述重要性排名,确定所述初始摘要的所述准确度。
4.如权利要求1所述的方法,其特征在于,所述根据所述第一语句与每条第二语句的相似度、以及各第二语句的所述重要性排名,选取第二语句替换所述第一语句,包括:
当第二语句与所述第一语句的相似度大于第二阈值、且第二语句的重要性排名高于第三阈值时,选取该第二语句替换所述第一语句。
5.如权利要求1所述的方法,其特征在于,所述根据所述第一语句与每条第二语句的相似度、以及各第二语句的所述重要性排名,选取第二语句替换所述第一语句之前,还包括:
确定所述第一语句是否为所述文本的首条语句;
若所述第一语句为所述文本的首条语句,则确定所述第一语句为所述目标摘要中的语句;
若所述第一语句不为所述文本的首条语句,则执行所述根据所述第一语句与每条第二语句的相似度、以及各第二语句的所述重要性排名,选取第二语句替换所述第一语句的操作。
6.如权利要求1所述的方法,其特征在于,所述确定所述文本中的每条语句的置信度包括:
提取所述文本中的所述每条语句的分类特征,所述分类特征包括语句的位置、语句的长度、语句所包含的词语的词频、语句包含的标题词的数目以及语句之间的相似度中的至少一种;
将所述文本中的所述每条语句的所述分类特征输入到分类器中,确定所述每条语句的所述置信度。
7.如权利要求1-6任一项所述的方法,其特征在于,所述当所述准确度大于第一阈值时,将所述初始摘要确定为所述文本的目标摘要,当所述准确度不大于所述第一阈值时,从所述文本中选取第二语句替换所述初始摘要中的所述第一语句得到所述文本的所述目标摘要之后,还包括:
向用户终端发送所述目标摘要,所述目标摘要用于所述用户终端通过语音播报方式提示用户。
8.如权利要求1-6任一项所述的方法,其特征在于,所述当所述准确度大于第一阈值时,将所述初始摘要确定为所述文本的目标摘要,当所述准确度不大于所述第一阈值时,从所述文本中选取第二语句替换所述初始摘要中的所述第一语句得到所述文本的所述目标摘要之后,还包括:
向用户终端发送所述目标摘要,所述目标摘要用于所述用户终端在显示界面上显示。
9.一种摘要提取装置,其特征在于,所述装置包括:
提取模块,用于从文本中提取第一语句生成所述文本的初始摘要;
确定模块,用于确定所述文本中的每条语句的置信度;
所述确定模块,还用于根据所述每条语句的所述置信度,确定所述初始摘要的准确度;
替换模块,用于当所述准确度大于第一阈值时,将所述初始摘要确定为所述文本的目标摘要,当所述准确度不大于所述第一阈值时,确定所述初始摘要中的所述第一语句与所述文本中第二语句的相似度、以及所述第二语句的重要性排名;根据所述第一语句与每条第二语句的相似度、以及各第二语句的所述重要性排名,选取第二语句替换所述第一语句,得到所述文本的目标摘要;
其中,所述替换模块具体用于当第二语句与所述第一语句的相似度不大于第二阈值、或所述第二语句的重要性排名不高于第三阈值时,删除所述初始摘要中的所述第一语句,并从所述文本中的剩余语句中选取所述重要性排名最高的语句添加到所述初始摘要的结尾部分,所述剩余语句为所述文本中除已被选取的语句以及所述第一语句之外的语句。
10.如权利要求9所述的装置,其特征在于,所述提取模块具体用于:
从所述文本的起始部分提取至少一条所述第一语句生成预设长度的所述初始摘要。
11.如权利要求9或10所述的装置,其特征在于,所述确定模块具体用于:
根据所述置信度,确定所述初始摘要中所述第一语句的重要性排名;
根据所述第一语句的所述重要性排名,确定所述初始摘要的所述准确度。
12.如权利要求9所述的装置,其特征在于,所述替换模块具体用于:
当第二语句与所述第一语句的相似度大于第二阈值、且第二语句的重要性排名高于第三阈值时,选取该第二语句替换所述第一语句。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1-8任一项所述的方法。
14.一种处理器,其特征在于,所述处理器通过读取存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行如权利要求1-8任意一项所述的方法。
CN201810081590.3A 2018-01-26 2018-01-26 一种摘要提取方法及相关设备 Active CN108052686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810081590.3A CN108052686B (zh) 2018-01-26 2018-01-26 一种摘要提取方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810081590.3A CN108052686B (zh) 2018-01-26 2018-01-26 一种摘要提取方法及相关设备

Publications (2)

Publication Number Publication Date
CN108052686A CN108052686A (zh) 2018-05-18
CN108052686B true CN108052686B (zh) 2022-02-11

Family

ID=62124873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810081590.3A Active CN108052686B (zh) 2018-01-26 2018-01-26 一种摘要提取方法及相关设备

Country Status (1)

Country Link
CN (1) CN108052686B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732901A (zh) * 2021-01-15 2021-04-30 联想(北京)有限公司 摘要生成方法、装置、计算机可读存储介质及电子设备
CN113434642B (zh) * 2021-08-27 2022-01-11 广州云趣信息科技有限公司 文本摘要生成方法、装置及电子设备
CN115174285B (zh) * 2022-07-26 2024-02-27 中国工商银行股份有限公司 会议记录生成方法、装置及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005563A (zh) * 2014-04-15 2015-10-28 腾讯科技(深圳)有限公司 一种摘要生成方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7194455B2 (en) * 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
CN102411621B (zh) * 2011-11-22 2014-01-08 华中师范大学 一种基于云模型的中文面向查询的多文档自动文摘方法
CN103246687B (zh) * 2012-06-13 2016-08-17 苏州大学 基于特征信息的Blog自动摘要方法
CN106547742B (zh) * 2016-11-30 2019-05-03 百度在线网络技术(北京)有限公司 基于人工智能的语义解析结果处理方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005563A (zh) * 2014-04-15 2015-10-28 腾讯科技(深圳)有限公司 一种摘要生成方法及装置

Also Published As

Publication number Publication date
CN108052686A (zh) 2018-05-18

Similar Documents

Publication Publication Date Title
CN107204184B (zh) 语音识别方法及系统
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN103971684B (zh) 一种添加标点的方法、系统及其语言模型建立方法、装置
CN107680588B (zh) 智能语音导航方法、装置及存储介质
CN108628906B (zh) 短文本模板挖掘方法、装置、电子设备和可读存储介质
CN113010638B (zh) 实体识别模型生成方法及装置、实体提取方法及装置
WO2022142011A1 (zh) 一种地址识别方法、装置、计算机设备及存储介质
CN108052686B (zh) 一种摘要提取方法及相关设备
CN103577989A (zh) 一种基于产品识别的信息分类方法及信息分类系统
CN110930980A (zh) 一种中英文混合语音的声学识别模型、方法及系统
CN111898643A (zh) 一种语义匹配方法及装置
CN111597800B (zh) 同义句的获取方法及装置、设备及存储介质
CN110795541A (zh) 文本查询方法、装置、电子设备及计算机可读存储介质
WO2019041528A1 (zh) 新闻情感方向判断方法、电子设备及计算机可读存储介质
CN111179904B (zh) 混合文语转换方法及装置、终端和计算机可读存储介质
CN110377708B (zh) 一种多情景对话切换方法及装置
CN112580335B (zh) 多音字消歧方法及装置
CN111507114B (zh) 基于反向翻译的口语文本增强方法及系统
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN111310473A (zh) 文本纠错方法及其模型训练的方法、装置
CN111783433A (zh) 一种文本检索纠错方法和装置
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质
CN110942775B (zh) 数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant