CN111125348A - 一种文本摘要的提取方法及装置 - Google Patents
一种文本摘要的提取方法及装置 Download PDFInfo
- Publication number
- CN111125348A CN111125348A CN201911164417.0A CN201911164417A CN111125348A CN 111125348 A CN111125348 A CN 111125348A CN 201911164417 A CN201911164417 A CN 201911164417A CN 111125348 A CN111125348 A CN 111125348A
- Authority
- CN
- China
- Prior art keywords
- sentence
- sentences
- text
- analyzed
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 115
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims description 22
- 230000011218 segmentation Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 206010041235 Snoring Diseases 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Abstract
本申请提供了一种文本摘要的提取方法及装置,其中,该方法包括:获取待分析文本中各个句子的关键词,并针对每个所述句子,得到该句子中各个关键词的权重;基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量;基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数;基于各个所述句子的重要性分数,从各个句子中确定目标句子,并将所述目标句子确定为所述待分析文本的文本摘要。本申请中,能够从待分析文本中提取出更好的表征待分析文本涵义的目标句子,提高文本摘要提取的准确度。
Description
技术领域
本申请涉及信息技术领域,尤其是涉及一种文本摘要的提取方法及装置。
背景技术
随着互联网技术的不断发展,在为广大用户提供丰富信息的同时,网络上的数据量也与日俱增,为了使用户能够获取目标信息,需要对一些文本信息进行摘要提取处理。
现有技术中,可以通过网页排名(PageRank)的方法对文本信息进行摘要提取,PageRank是谷歌(Google)公司创办人拉里佩奇发明的一种基于图的排序模型,可以将数据之间的关系用图的形式表示,PageRank的研究对象可以是网页、社交网络中的用户乃至文章中的句子或词语,其应用范围十分广泛。
但是,申请人在研究中发现,现有技术中,利用PageRank的方法提取出的文本摘要往往不能够准确地表达出文本的主要信息,造成按照该方法得到的文本摘要存在一定的偏差。
发明内容
本申请至少提供一种文本摘要的提取方法及装置,能够减少文本摘要的提取过程中产生的误差。
第一方面,本申请实施例提供了一种文本摘要的提取方法,包括:
获取待分析文本中各个句子的关键词,并针对每个所述句子,得到该句子中各个关键词的权重;
基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量;
基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数;
基于各个所述句子的重要性分数,从各个句子中确定目标句子,并将所述目标句子确定为所述待分析文本的文本摘要。
一种可选实施方式中,所述获取待分析文本各个句子中的关键词,包括:
对所述待分析文本中各个句子进行分词处理,得到各个句子分别对应的分词词汇;
针对每个所述句子,从该句子对应的分词词汇中,确定该句子的关键词;
所述关键词包括:所述分词词汇中的名词、动词、以及形容词中一种或者多种。
一种可选实施方式中,所述针对每个所述句子,得到该句子中各个关键词的权重,包括:
基于各个关键词在所述句子中的顺序,针对任意连续的N个关键词,建立所述任意连续的N个关键词中,每两个关键词之间建立关联关系;
针对该句子中的任一关键词,基于该任一关键词与其他关键词之间的关联关系,确定以该任一关键词为起点的第一关联关系数,以及以该任一关键词为终点的第二关联关系数;
基于所述第一关联关系数、所述第二关联关系数,得到该任一关键词的权重;
基于得到的任一关键词的权重,进行多轮迭代,直至达到预设迭代截止条件。
一种可选实施方式中,所述基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量,包括:
基于该句子中各个关键词的权重,对该句子中各个关键词的词向量进行加权平均处理,得到该句子对应的句子向量。
一种可选实施方式中,所述基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数,包括:
基于所述待分析文本中各个句子分别对应的句子向量,计算待分析文本中每两个句子之间的相似度;
基于待分析文本中每两个句子之间的相似度,确定所述待分析文本中各个句子分别对应的重要性分数。
一种可选实施方式中,所述基于各个所述句子的重要性分数,从各个句子中确定目标句子,包括:
按照各个所述句子的重要性分数从大到小的顺序,从各个句子中确定预设数量的句子作为所述目标句子。
一种可选实施方式中,还包括:
针对具有标题的待分析文本,基于所述待分析文本中各个句子与标题,确定所述待分析文本中各个句子与标题之间的相似度;
基于所述待分析文本中各个句子与标题之间的相似度,确定所述待分析文本中各个句子分别对应的重要性分数;
基于各个所述句子的重要性分数,从各个句子中确定目标句子。
一种可选实施方式中,所述基于各个所述句子的重要性分数,从各个句子中确定目标句子,包括:
按照各个所述句子的重要性分数从大到小的顺序,从各个句子中确定预设数量的句子作为所述目标句子。
第二方面,本申请实施例还提供一种文本摘要的提取装置,该文本摘要的提取装置包括:获取模块、第一确定模块、第二确定模块以及第三确定模块,其中:
所述获取模块,用于获取待分析文本中各个句子的关键词,并针对每个所述句子,得到该句子中各个关键词的权重;
所述第一确定模块,用于基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量;
所述第二确定模块,用于基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数;
所述第三确定模块,用于基于各个所述句子的重要性分数,从各个句子中确定目标句子,并将所述目标句子确定为所述待分析文本的文本摘要。
一种可选实施方式中,所述获取模块,用于获取待分析文本各个句子中的关键词时,具体用于:
对所述待分析文本中各个句子进行分词处理,得到各个句子分别对应的分词词汇;
针对每个所述句子,从该句子对应的分词词汇中,确定该句子的关键词;
所述关键词包括:所述分词词汇中的名词、动词、以及形容词中一种或者多种。
一种可选实施方式中,所述获取模块,用于针对每个所述句子,得到该句子中各个关键词的权重时,具体用于:
基于各个关键词在所述句子中的顺序,针对任意连续的N个关键词,建立所述任意连续的N个关键词中,每两个关键词之间建立关联关系;
针对该句子中的任一关键词,基于该任一关键词与其他关键词之间的关联关系,确定以该任一关键词为起点的第一关联关系数,以及以该任一关键词为终点的第二关联关系数;
基于所述第一关联关系数、所述第二关联关系数,得到该任一关键词的权重;
基于得到的任一关键词的权重,进行多轮迭代,直至达到预设迭代截止条件。
一种可选实施方式中,所述第一确定模块,用于基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量时,具体用于:
基于该句子中各个关键词的权重,对该句子中各个关键词的词向量进行加权平均处理,得到该句子对应的句子向量。
一种可选实施方式中,所述第二确定模块,用于基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数时,具体用于:
基于所述待分析文本中各个句子分别对应的句子向量,计算待分析文本中每两个句子之间的相似度;
基于待分析文本中每两个句子之间的相似度,确定所述待分析文本中各个句子分别对应的重要性分数。
一种可选实施方式中,所述第三确定模块,用于基于各个所述句子的重要性分数,从各个句子中确定目标句子时,具体用于:
按照各个所述句子的重要性分数从大到小的顺序,从各个句子中确定预设数量的句子作为所述目标句子。
一种可选实施方式中,所述文本摘要的提取装置还包括,第四确定模块、第五确定模块以及第六确定模块,其中:
所述第四确定模块,用于针对具有标题的待分析文本,基于所述待分析文本中各个句子与标题,确定所述待分析文本中各个句子与标题之间的相似度;
所述第五确定模块,用于基于所述待分析文本中各个句子与标题之间的相似度,确定所述待分析文本中各个句子分别对应的重要性分数;
所述第六确定模块,用于基于各个所述句子的重要性分数,从各个句子中确定目标句子。
一种可选实施方式中,所述第六确定模块,用于基于各个所述句子的重要性分数,从各个句子中确定目标句子时,具体用于:
按照各个所述句子的重要性分数从大到小的顺序,从各个句子中确定预设数量的句子作为所述目标句子。
第三方面,本申请实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面、或第一方面中任一种可能的实施方式中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面、或第一方面中任一种可能的实施方式中的步骤。
本申请提供的一种文本摘要的提取方法及装置,通过获取待分析文本中各个句子的关键词,并针对每个所述句子,得到该句子中各个关键词的权重;之后,基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量;再基于上述计算得到的所述待分析文本中各个句子分别对应的句子向量,计算确定各个句子的重要性分数;最后,基于各个所述句子的重要性分数,从各个句子中确定目标句子,并将所述目标句子确定为所述待分析文本的文本摘要,完成对待分析文本的文本摘要提取处理。在该过程中,由于通过计算句子中关键词的词向量及对应的词权重,来确定句子向量,进而,每个句子的句子向量能够更好的表征该句子的涵义,然后根据句子向量,计算每个句子的重要性分数,以此从待分析文本中提取出能够更好的表征待分析文本涵义的目标句子,提高文本摘要提取的准确度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种文本摘要的提取方法的流程图;
图2示出了本申请实施例所提供的一种文本摘要的提取装置的结构示意图;
图3示出了本申请实施例所提供的另一种文本摘要的提取装置的结构示意图;
图4示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到现有技术中的文本摘要的提取方法是利用预先训练好的句子向量并计算其重要性分数,但是在待分析文本相对较短的情况下,不同句子的句子向量之间的相似度没有足够的差异,其计算得出的重要性分数不能很好地反映在待分析文本中的重要性差异,造成文本摘要的提取结果准确性较低。
基于上述研究,本申请提供的一种文本摘要的提取方法及装置,通过获取待分析文本中各个句子的关键词,并针对每个所述句子,得到该句子中各个关键词的权重;之后,基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量;再基于上述计算得到的所述待分析文本中各个句子分别对应的句子向量,计算确定各个句子的重要性分数;最后,基于各个所述句子的重要性分数,从各个句子中确定目标句子,并将所述目标句子确定为所述待分析文本的文本摘要,完成对待分析文本的文本摘要提取处理。在该过程中,由于通过计算句子中关键词的词向量及对应的词权重,来确定句子向量,进而,每个句子的句子向量能够更好的表征该句子的涵义,然后根据句子向量,计算每个句子的重要性分数,以此从待分析文本中提取出能够更好的表征待分析文本涵义的目标句子,提高文本摘要提取的准确度。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案,都应该是发明人在本申请过程中对本申请做出的贡献。
下面将结合本申请中附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本公开实施例所提供的文本摘要的提取方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该文本摘要的提取方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
下面以执行主体为计算机设备为例对本公开实施例提供的文本摘要的提取方法加以说明。
实施例一
参见图1所示,为本申请实施例一提供的一种文本摘要的提取方法的流程图,所述方法包括步骤S101~S104,其中:
S101:获取待分析文本中各个句子的关键词,并针对每个所述句子,得到该句子中各个关键词的权重。
S102:基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量。
S103:基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数。
S104:基于各个所述句子的重要性分数,从各个句子中确定目标句子,并将所述目标句子确定为所述待分析文本的文本摘要。
下面分别对上述S101~S104分别加以详细说明。
一:在上述S101中,各个句子中的关键词,是指能够在一定程度上表征句子涵义的词汇,将这些关键词集合在一起,用于表征整个句子。此处,关键词是句子中的至少一个词语。
本申请实施例中,可以采用下述方法获取待分析文本中各个句子的关键词:
对所述待分析文本中各个句子进行分词处理,得到各个句子分别对应的分词词汇;
针对每个所述句子,从该句子对应的分词词汇中,确定该句子的关键词;
所述关键词包括:所述分词词汇中的名词、动词、以及形容词中一种或者多种。
示例性的,基于获取的待分析文本,将待分析文本按照标点符号,例如根据待分析文本中的句号、顿号、叹号、逗号、问号等,将待分析文本分割成若干个句子。
示例性的,将上述分割得到的句子利用中文分词工具,例如:Jieba等,进行分词处理,得到分词词汇中的名词、动词和/或形容词,作为待分析文本中各个句子的关键词。
在确定了待分析文本中各个句子的关键词后,就可以确定各个关键词句子中的权重。
示例性的,可以采用下述方式确定各个关键词句子中的权重:
基于各个关键词在所述句子中的顺序,针对任意连续的N个关键词,建立所述任意连续的N个关键词中,每两个关键词之间建立关联关系;
针对该句子中的任一关键词,基于该任一关键词与其他关键词之间的关联关系,确定以该任一关键词为起点的第一关联关系数,以及以该任一关键词为终点的第二关联关系数;
示例性的,可以将关键词,例如:挑选出来的动词、名词和形容词,作为图的顶点,并将在N个关键词中共同出现的关键词进行链接。
示例性的,对于任一关键词与其共同出现的关键词进行链接时,确定以该任一关键词为起点的第一关联关系数,以及以该任一关键词为终点的第二关联关系数。
基于所述第一关联关系数、所述第二关联关系数,得到该任一关键词的权重;
示例性的,将计算所得的所述第一关联关系数与所述第二关联关系数带入到对应的计算公式中,得到该任一关键词的权重。
基于得到的任一关键词的权重,进行多轮迭代,直至达到预设迭代截止条件。
示例性的,可以基于训练好的模型,例如:word2vec(word to vector)词向量训练模型、深度神经网络(Deep Neural Networks,DNN)词向量训练模型等,来获取所述关键词对应的词向量。
在确定各个关键词的词向量,例如可以采用基于图的排序模型来实现,也就是将每个关键词作为一个顶点,给每个顶点按照重要性进行排序,每个顶点的权重,即表征其重要性程度。
示例性的,待分析文本为:瑞典研究人员发现,在家饲养宠物可能会增加家中儿童成年后打鼾的风险。
其中,待分析文本中的关键词为:‘瑞典’,‘研究’,‘人员’,‘发现’,‘在家’,‘饲养’,‘宠物’,‘可能’,‘增加’,‘家中’,‘儿童’,‘成年’,‘打鼾’,‘风险’。
TextRank算法的计算公式如下(1):
其中,S(Vj)为该关键词对应的词权重;d为阻尼系数,例如设置为0.85;In(Vj)为所述第一关联关系数所述第二关联关系数;|Out(Vj)|为所述第二关联关系数。
之后,对计算得到的该关键词对应的词权重进行迭代计算,直至达到预设迭代截止条件,确定该关键词对应的词权重。并以此该关键词对应的词权重进行后续计算。
二:在上述S102中,可以采用下述方式,基于该句子中各个关键词的词向量,以及上述计算得出的该句子中所述各个关键词的权重,基于加权计算的方法,确定该句子所对应的句子向量。
示例性的,本申请实施例采用下述方法得到句子对应的句子向量:
基于该句子中各个关键词的权重,对该句子中各个关键词的词向量进行加权平均处理,得到该句子对应的句子向量;
示例性的,对于上述待分析文本,本申请中,计算得到的具有词权重的句子向量为:
句子向量=(瑞典(词向量)×0.53+研究(词向量)×0.308+...+风险(词向量)×0.35)/14(词的数量)。
示例性的,不加入词权重计算得到的句子向量为:
句子向量=(瑞典(词向量)+研究(词向量)+...+风险(词向量))/14(词的数量)。
相比而言,本申请中,对于每一个关键词的词向量都赋予了相应的权重,所计算得出的句子向量准确性更高。
所述目标属性信息包括:品牌、和/或商品种类。
另外,也可以采用其他方式得到句子对应的句子向量,例如对句子中各个关键词的词向量进行加权求和等,具体可以根据实际需要确定。
三:在上述S103中,可以采用下述方式,基于上述步骤S102中确定的所述待分析文本中各个句子分别对应的句子向量,按照下述计算方法,确定各个句子的重要性分数。
所述计算方法,包括:
基于所述待分析文本中各个句子分别对应的句子向量,计算待分析文本中每两个句子之间的相似度;
基于待分析文本中每两个句子之间的相似度,确定所述待分析文本中各个句子分别对应的重要性分数。
示例性的,其计算公式如下(2):
其中,S(Vi)为所述待分析文本中各个句子分别对应的重要性分数;d为阻尼系数,例如设置为0.85;wji为句子i和j的相似度。
之后,将计算得出的句子i和j的相似度改写成矩阵形式(3)。
将改写出来的矩阵进行一系列处理,例如:将所述矩阵的特征值调整为约等于1等,并将所述特征向量确定为最终的重要性分数。
四:在上述S104,基于上述步骤S103中确定的各个所述句子的重要性分数,再从待分析文本的各个句子中,确定目标句子,并将所述目标句子确定为所述待分析文本的文本摘要。
其中,按照各个所述句子的重要性分数从大到小的顺序,从各个句子中确定预设数量的句子作为所述目标句子。
示例性的,将所述句子向量按照各个所述句子的重要性分数从大到小的顺序,并选取句子的重要性分数最高的前几个句子,通常可以选取前三个,作为目标句子,构成文本摘要。
基于上述研究,本申请实施例提供的一种文本摘要的提取方法,通过获取待分析文本中各个句子的关键词,并针对每个所述句子,得到该句子中各个关键词的权重;之后,基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量;再基于上述计算得到的所述待分析文本中各个句子分别对应的句子向量,计算确定各个句子的重要性分数;最后,基于各个所述句子的重要性分数,从各个句子中确定目标句子,并将所述目标句子确定为所述待分析文本的文本摘要,完成对待分析文本的文本摘要提取处理。在该过程中,由于通过计算句子中关键词的词向量及对应的词权重,来确定句子向量,进而,每个句子的句子向量能够更好的表征该句子的涵义,然后根据句子向量,计算每个句子的重要性分数,以此从待分析文本中提取出能够更好的表征待分析文本涵义的目标句子,提高文本摘要提取的准确度。
本申请实施例一还提供的一种文本摘要的提取方法,包括:
针对具有标题的待分析文本,基于所述待分析文本中各个句子与标题,确定所述待分析文本中各个句子与标题之间的相似度;
基于所述待分析文本中各个句子与标题之间的相似度,确定所述待分析文本中各个句子分别对应的重要性分数;
基于各个所述句子的重要性分数,从各个句子中确定目标句子。
其中,基于各个所述句子的重要性分数,从各个句子中确定目标句子,包括:
按照各个所述句子的重要性分数从大到小的顺序,从各个句子中确定预设数量的句子作为所述目标句子。
示例性的,对于具有标题的待分析文本,通常标题可以代表待分析文本的中心内容,因此,可以将标题也加入到对于句子向量重要性分数的计算过程中,并将句子向量与标题的相似度看成一个重要的步骤,与标题相似度越高的句子向量可以获得更多的重要性分数,并进行后续处理,得到文本摘要。
示例性的,若待分析文本中没有标题,也可以使用提取关键词的方法,将最重要的前n个关键词作为标题,然后进行相同的处理过程。
实施例二
参照图2所示,为本申请实施例二提供的一种文本摘要的提取装置的示意图,所述装置包括:获取模块21、第一确定模块22、第二确定模块23以及第三确定模块24,其中:
获取模块21,用于获取待分析文本中各个句子的关键词,并针对每个所述句子,得到该句子中各个关键词的权重;
第一确定模块22,用于基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量;
第二确定模块23,用于基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数;
第三确定模块24,用于基于各个所述句子的重要性分数,从各个句子中确定目标句子,并将所述目标句子确定为所述待分析文本的文本摘要。
基于上述研究,本申请实施例提供的一种文本摘要的提取装置,通过获取待分析文本中各个句子的关键词,并针对每个所述句子,得到该句子中各个关键词的权重;之后,基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量;再基于上述计算得到的所述待分析文本中各个句子分别对应的句子向量,计算确定各个句子的重要性分数;最后,基于各个所述句子的重要性分数,从各个句子中确定目标句子,并将所述目标句子确定为所述待分析文本的文本摘要,完成对待分析文本的文本摘要提取处理。在该过程中,由于通过计算句子中关键词的词向量及对应的词权重,来确定句子向量,进而,每个句子的句子向量能够更好的表征该句子的涵义,然后根据句子向量,计算每个句子的重要性分数,以此从待分析文本中提取出能够更好的表征待分析文本涵义的目标句子,提高文本摘要提取的准确度。
一种可能的实施方式中,所述获取模块21,用于获取待分析文本各个句子中的关键词时,具体用于:
对所述待分析文本中各个句子进行分词处理,得到各个句子分别对应的分词词汇;
针对每个所述句子,从该句子对应的分词词汇中,确定该句子的关键词;
所述关键词包括:所述分词词汇中的名词、动词、以及形容词中一种或者多种。
一种可能的实施方式中,所述获取模块21,用于针对每个所述句子,得到该句子中各个关键词的权重时,具体用于:
基于各个关键词在所述句子中的顺序,针对任意连续的N个关键词,建立所述任意连续的N个关键词中,每两个关键词之间建立关联关系;
针对该句子中的任一关键词,基于该任一关键词与其他关键词之间的关联关系,确定以该任一关键词为起点的第一关联关系数,以及以该任一关键词为终点的第二关联关系数;
基于所述第一关联关系数、所述第二关联关系数,得到该任一关键词的权重;
基于得到的任一关键词的权重,进行多轮迭代,直至达到预设迭代截止条件。
一种可能的实施方式中,所述第一确定模块22,用于基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量时,具体用于:
基于该句子中各个关键词的权重,对该句子中各个关键词的词向量进行加权平均处理,得到该句子对应的句子向量。
一种可能的实施方式中,所述第二确定模块23,用于基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数时,具体用于:
基于所述待分析文本中各个句子分别对应的句子向量,计算待分析文本中每两个句子之间的相似度;
基于待分析文本中每两个句子之间的相似度,确定所述待分析文本中各个句子分别对应的重要性分数。
一种可能的实施方式中,所述第三确定模块24,用于基于各个所述句子的重要性分数,从各个句子中确定目标句子时,具体用于:
按照各个所述句子的重要性分数从大到小的顺序,从各个句子中确定预设数量的句子作为所述目标句子。
参照图3所示,为本申请实施例二提供的另一种文本摘要的提取装置的示意图,所述装置包括:第四确定模块31、第五确定模块32以及第六确定模块33,其中:
所述第四确定模块31,用于针对具有标题的待分析文本,基于所述待分析文本中各个句子与标题,确定所述待分析文本中各个句子与标题之间的相似度;
所述第五确定模块32,用于基于所述待分析文本中各个句子与标题之间的相似度,确定所述待分析文本中各个句子分别对应的重要性分数;
所述第六确定模块33,用于基于各个所述句子的重要性分数,从各个句子中确定目标句子。
一种可能的实施方式中,所述第六确定模块33,用于基于各个所述句子的重要性分数,从各个句子中确定目标句子时,具体用于:
按照各个所述句子的重要性分数从大到小的顺序,从各个句子中确定预设数量的句子作为所述目标句子。
实施例三
本申请实施例还提供了一种计算机设备400,如图4所示,为本申请实施例提供的计算机设备400结构示意图,包括:
处理器41、存储器42、和总线43;存储器42用于存储执行指令,包括内存421和外部存储器422;这里的内存421也称内存储器,用于暂时存放处理器41中的运算数据,以及与硬盘等外部存储器422交换的数据,处理器41通过内存421与外部存储器422进行数据交换,当所述计算机设备400运行时,所述处理器41与所述存储器42之间通过总线43通信,使得所述处理器41在用户态执行以下指令:
获取待分析文本中各个句子的关键词,并针对每个所述句子,得到该句子中各个关键词的权重;
基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量;
基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数;
基于各个所述句子的重要性分数,从各个句子中确定目标句子,并将所述目标句子确定为所述待分析文本的文本摘要。
一种可能的实施方式中,处理器41执行的指令中,所述获取待分析文本各个句子中的关键词,包括:
对所述待分析文本中各个句子进行分词处理,得到各个句子分别对应的分词词汇;
针对每个所述句子,从该句子对应的分词词汇中,确定该句子的关键词;
所述关键词包括:所述分词词汇中的名词、动词、以及形容词中一种或者多种。
一种可能的实施方式中,处理器41执行的指令中,所述针对每个所述句子,得到该句子中各个关键词的权重,包括:
基于各个关键词在所述句子中的顺序,针对任意连续的N个关键词,建立所述任意连续的N个关键词中,每两个关键词之间建立关联关系;
针对该句子中的任一关键词,基于该任一关键词与其他关键词之间的关联关系,确定以该任一关键词为起点的第一关联关系数,以及以该任一关键词为终点的第二关联关系数;
基于所述第一关联关系数、所述第二关联关系数,得到该任一关键词的权重;
基于得到的任一关键词的权重,进行多轮迭代,直至达到预设迭代截止条件。
一种可能的实施方式中,处理器41执行的指令中,所述基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量,包括:
基于该句子中各个关键词的权重,对该句子中各个关键词的词向量进行加权平均处理,得到该句子对应的句子向量。
一种可能的实施方式中,处理器41执行的指令中,所述基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数,包括:
基于所述待分析文本中各个句子分别对应的句子向量,计算待分析文本中每两个句子之间的相似度;
基于待分析文本中每两个句子之间的相似度,确定所述待分析文本中各个句子分别对应的重要性分数。
一种可能的实施方式中,处理器41执行的指令中,所述基于各个所述句子的重要性分数,从各个句子中确定目标句子,包括:
按照各个所述句子的重要性分数从大到小的顺序,从各个句子中确定预设数量的句子作为所述目标句子。
一种可能的实施方式中,处理器41执行的指令中,还包括:
针对具有标题的待分析文本,基于所述待分析文本中各个句子与标题,确定所述待分析文本中各个句子与标题之间的相似度;
基于所述待分析文本中各个句子与标题之间的相似度,确定所述待分析文本中各个句子分别对应的重要性分数;
基于各个所述句子的重要性分数,从各个句子中确定目标句子。
一种可能的实施方式中,处理器41执行的指令中,所述基于各个所述句子的重要性分数,从各个句子中确定目标句子,包括:
按照各个所述句子的重要性分数从大到小的顺序,从各个句子中确定预设数量的句子作为所述目标句子。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的文本摘要的提取方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (11)
1.一种文本摘要的提取方法,其特征在于,包括:
获取待分析文本中各个句子的关键词,并针对每个所述句子,得到该句子中各个关键词的权重;
基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量;
基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数;
基于各个所述句子的重要性分数,从各个句子中确定目标句子,并将所述目标句子确定为所述待分析文本的文本摘要。
2.根据权利要求1所述的方法,其特征在于,所述获取待分析文本各个句子中的关键词,包括:
对所述待分析文本中各个句子进行分词处理,得到各个句子分别对应的分词词汇;
针对每个所述句子,从该句子对应的分词词汇中,确定该句子的关键词;
所述关键词包括:所述分词词汇中的名词、动词、以及形容词中一种或者多种。
3.根据权利要求1所述的方法,其特征在于,所述针对每个所述句子,得到该句子中各个关键词的权重,包括:
基于各个关键词在所述句子中的顺序,针对任意连续的N个关键词,建立所述任意连续的N个关键词中,每两个关键词之间建立关联关系;
针对该句子中的任一关键词,基于该任一关键词与其他关键词之间的关联关系,确定以该任一关键词为起点的第一关联关系数,以及以该任一关键词为终点的第二关联关系数;
基于所述第一关联关系数、所述第二关联关系数,得到该任一关键词的权重;
基于得到的任一关键词的权重,进行多轮迭代,直至达到预设迭代截止条件。
4.根据权利要求1所述的方法,其特征在于,所述基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量,包括:
基于该句子中各个关键词的权重,对该句子中各个关键词的词向量进行加权平均处理,得到该句子对应的句子向量。
5.根据权利要求1所述的方法,其特征在于,所述基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数,包括:
基于所述待分析文本中各个句子分别对应的句子向量,计算待分析文本中每两个句子之间的相似度;
基于待分析文本中每两个句子之间的相似度,确定所述待分析文本中各个句子分别对应的重要性分数。
6.根据权利要求1所述的方法,其特征在于,所述基于各个所述句子的重要性分数,从各个句子中确定目标句子,包括:
按照各个所述句子的重要性分数从大到小的顺序,从各个句子中确定预设数量的句子作为所述目标句子。
7.根据权利要求1所述的方法,其特征在于,还包括:
针对具有标题的待分析文本,基于所述待分析文本中各个句子与标题,确定所述待分析文本中各个句子与标题之间的相似度;
基于所述待分析文本中各个句子与标题之间的相似度,确定所述待分析文本中各个句子分别对应的重要性分数;
基于各个所述句子的重要性分数,从各个句子中确定目标句子。
8.根据权利要求7所述的方法,其特征在于,所述基于各个所述句子的重要性分数,从各个句子中确定目标句子,包括:
按照各个所述句子的重要性分数从大到小的顺序,从各个句子中确定预设数量的句子作为所述目标句子。
9.一种文本摘要的提取装置,其特征在于,包括:
获取模块,用于获取待分析文本中各个句子的关键词,并针对每个所述句子,得到该句子中各个关键词的权重;
第一确定模块,用于基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量;
第二确定模块,用于基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数;
第三确定模块,用于基于各个所述句子的重要性分数,从各个句子中确定目标句子,并将所述目标句子确定为所述待分析文本的文本摘要。
10.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至8任一所述的方法的步骤。
11.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至8任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911164417.0A CN111125348A (zh) | 2019-11-25 | 2019-11-25 | 一种文本摘要的提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911164417.0A CN111125348A (zh) | 2019-11-25 | 2019-11-25 | 一种文本摘要的提取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111125348A true CN111125348A (zh) | 2020-05-08 |
Family
ID=70496559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911164417.0A Pending CN111125348A (zh) | 2019-11-25 | 2019-11-25 | 一种文本摘要的提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111125348A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016296A (zh) * | 2020-09-07 | 2020-12-01 | 平安科技(深圳)有限公司 | 句子向量生成方法、装置、设备及存储介质 |
CN112199942A (zh) * | 2020-09-17 | 2021-01-08 | 深圳市小满科技有限公司 | 一种邮件文本数据分析方法、装置、设备及可存储介质 |
CN112329422A (zh) * | 2020-11-03 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 基于TextRank的摘要获取方法、装置、计算机设备及存储介质 |
WO2021174924A1 (zh) * | 2020-10-15 | 2021-09-10 | 平安科技(深圳)有限公司 | 信息生成方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100145678A1 (en) * | 2008-11-06 | 2010-06-10 | University Of North Texas | Method, System and Apparatus for Automatic Keyword Extraction |
CN106599148A (zh) * | 2016-12-02 | 2017-04-26 | 东软集团股份有限公司 | 一种文摘生成方法及装置 |
CN109325235A (zh) * | 2018-10-17 | 2019-02-12 | 武汉斗鱼网络科技有限公司 | 一种基于词权的文本摘要提取方法及计算装置 |
CN109408826A (zh) * | 2018-11-07 | 2019-03-01 | 北京锐安科技有限公司 | 一种文本信息提取方法、装置、服务器及存储介质 |
CN109739973A (zh) * | 2018-12-20 | 2019-05-10 | 北京奇安信科技有限公司 | 文本摘要生成方法、装置、电子设备及存储介质 |
-
2019
- 2019-11-25 CN CN201911164417.0A patent/CN111125348A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100145678A1 (en) * | 2008-11-06 | 2010-06-10 | University Of North Texas | Method, System and Apparatus for Automatic Keyword Extraction |
CN106599148A (zh) * | 2016-12-02 | 2017-04-26 | 东软集团股份有限公司 | 一种文摘生成方法及装置 |
CN109325235A (zh) * | 2018-10-17 | 2019-02-12 | 武汉斗鱼网络科技有限公司 | 一种基于词权的文本摘要提取方法及计算装置 |
CN109408826A (zh) * | 2018-11-07 | 2019-03-01 | 北京锐安科技有限公司 | 一种文本信息提取方法、装置、服务器及存储介质 |
CN109739973A (zh) * | 2018-12-20 | 2019-05-10 | 北京奇安信科技有限公司 | 文本摘要生成方法、装置、电子设备及存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016296A (zh) * | 2020-09-07 | 2020-12-01 | 平安科技(深圳)有限公司 | 句子向量生成方法、装置、设备及存储介质 |
CN112016296B (zh) * | 2020-09-07 | 2023-08-25 | 平安科技(深圳)有限公司 | 句子向量生成方法、装置、设备及存储介质 |
CN112199942A (zh) * | 2020-09-17 | 2021-01-08 | 深圳市小满科技有限公司 | 一种邮件文本数据分析方法、装置、设备及可存储介质 |
WO2021174924A1 (zh) * | 2020-10-15 | 2021-09-10 | 平安科技(深圳)有限公司 | 信息生成方法、装置、电子设备及存储介质 |
CN112329422A (zh) * | 2020-11-03 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 基于TextRank的摘要获取方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111125348A (zh) | 一种文本摘要的提取方法及装置 | |
CN105045781B (zh) | 查询词相似度计算方法及装置、查询词搜索方法及装置 | |
KR101932618B1 (ko) | 검색 쿼리에 응답하여 유사성 스코어에 기초하여 이미지와 콘텐츠에 대해 평가 및 랭킹을 진행하기 위한 방법 및 시스템 | |
CN106776673B (zh) | 多媒体文档概括 | |
US10068008B2 (en) | Spelling correction of email queries | |
CN104750798B (zh) | 一种应用程序的推荐方法和装置 | |
CN109241526B (zh) | 一种段落分割方法和装置 | |
CN110390106B (zh) | 基于双向关联的语义消歧方法、装置、设备及存储介质 | |
KR101623860B1 (ko) | 문서 요소에 대한 유사도를 산출하는 방법 | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
KR102412158B1 (ko) | 오픈마켓에서의 시장점유율 확대를 위한 키워드 추출 및 분석 방법 | |
CN111159361A (zh) | 获取文章的方法和装置及电子设备 | |
CN112633000A (zh) | 一种文本中实体的关联方法、装置、电子设备及存储介质 | |
CN113094519B (zh) | 一种基于文档进行检索的方法及装置 | |
CN113343101B (zh) | 一种对象排序方法及系统 | |
JP6340351B2 (ja) | 情報検索装置、辞書作成装置、方法、及びプログラム | |
CN111859932B (zh) | 一种文本摘要的生成方法、装置、电子设备及存储介质 | |
CN107665222B (zh) | 关键词的拓展方法和装置 | |
CN111339778B (zh) | 文本处理方法、装置、存储介质和处理器 | |
CN110457707B (zh) | 实词关键词的提取方法、装置、电子设备及可读存储介质 | |
CN110347916B (zh) | 跨场景的项目推荐方法、装置、电子设备及存储介质 | |
CN112182144A (zh) | 搜索词标准化方法、计算设备和计算机可读存储介质 | |
CN112650869B (zh) | 图像检索重排序方法、装置、电子设备及存储介质 | |
CN113641767B (zh) | 实体关系抽取方法、装置、设备及存储介质 | |
JP6495206B2 (ja) | 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200508 |