CN109241272B - 一种中文文本摘要生成方法、计算机可读储存介质及计算机设备 - Google Patents

一种中文文本摘要生成方法、计算机可读储存介质及计算机设备 Download PDF

Info

Publication number
CN109241272B
CN109241272B CN201810825778.4A CN201810825778A CN109241272B CN 109241272 B CN109241272 B CN 109241272B CN 201810825778 A CN201810825778 A CN 201810825778A CN 109241272 B CN109241272 B CN 109241272B
Authority
CN
China
Prior art keywords
word
abstract
text
frequency
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810825778.4A
Other languages
English (en)
Other versions
CN109241272A (zh
Inventor
曾碧卿
周才东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN201810825778.4A priority Critical patent/CN109241272B/zh
Publication of CN109241272A publication Critical patent/CN109241272A/zh
Application granted granted Critical
Publication of CN109241272B publication Critical patent/CN109241272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种文本摘要的生成方法、计算机可读储存介质及计算机设备,包括:分别获得文本的词集合和摘要的词集合;分别计算文本的词集合和摘要的词集合中各词的词频‑逆文档频率,获得文本词表和摘要词表,获得文本词表中各词的融合向量和摘要词表中各词的融合向量;获得待处理文本的词集合;获得待处理文本的词集合中各词的融合向量;生成摘要词向量;根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系,获得摘要词向量对应的词,并将该词输出作为摘要。根据词频‑逆文档频率获得词表,从而使一些频次出现较低但是能反映文本主题的词汇得以保留,减少了超出词表的问题,从而使生成的摘要能更准确地表达文本含义的词汇。

Description

一种中文文本摘要生成方法、计算机可读储存介质及计算机 设备
技术领域
本发明涉及文本数据处理领域,特别是涉及一种文本摘要的生成方法、计算机可读储存介质及计算机设备。
背景技术
随着数据的爆炸性发展,尤其是文本数据的剧增,人们已经无法及时浏览和理解所有感兴趣的文本,但遗漏某些重要的文本数据又会造成很多组织和应用的损失,因此,文本摘要作为总结文本重要数据的信息,成为了人们关注的重点,而如何根据文本数据自动生成摘要也成为了热门研究的课题。
目前,现有的文本摘要自动生成方法,主要是使用机器学习中的编码-解码模型,具体的,该模型先使用循环神经网络(Recurrent Neural Networks,RNN)作为编码器,将原文本进行信息编码压缩和提取,然后使用带有注意力机制的解码器将编码器压缩的信息进行解码,进而生成原文本的摘要;其中,解码器的结构与编码器一致,也是由循环神经网络构成。
但是,通过编码-解码模型生成文本摘要时,解码器每一个时间步都会产生一个词汇,再将这些词汇组合成为句子摘要。而这些词汇的来源则是一个大小为n的词表,从计算时间成本的角度考虑,这个词表通常不会包含训练集中所有的词汇,训练集中的大量低频词汇只能统一用“UNK”字符代替;另一方面,测试集中的词不一定完全在训练集中出现过,当然也未必会在可预测的词表的范围内,这就出现了超出词表(out of vocabulary,简称OOV)的问题。当新的文本中包含一些重要的超出词表的词汇时,由于编码-解码模型仅仅利用在训练集中学到的参数,在生成的时候,逐个预测某一个位置应当选择词表中的哪一个词,因此,在生成摘要时,只能使用“UNK”来代替这些重要的超出词表的词语,进而使得提取出来的摘要不准确的问题。
发明内容
基于此,本发明的目的在于,提供一种文本摘要的生成方法,其具有可使一些频次出现较低但是能反映文本主题的词汇得以保留,减少超出词表的问题,使生成的摘要能更准确地表达文本含义的优点。
一种文本摘要的生成方法,包括如下步骤:
分别对训练集中的文本和摘要进行词切分处理,获得文本的词集合和摘要的词集合;
分别计算文本的词集合和摘要的词集合中各词的词频-逆文档频率,获得文本词表和摘要词表,并分别对文本词表和摘要词表中的各词进行向量化处理,获得文本词表中各词的融合向量和摘要词表中各词的融合向量;
将待处理文本进行词切分处理,获得待处理文本的词集合;
根据文本词表中的各词与文本词表中各词的融合向量之间的映射关系,将待处理文本的词集合中的各词进行词嵌入处理,获得待处理文本的词集合中各词的融合向量;
将待处理文本的词集合中各词的融合向量输入到编码-解码模型中,生成摘要词向量;
根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系,获得摘要词向量对应的词,并将该词输出作为摘要。
相比于现有技术,本发明通过计算各词的词频-逆文档频率,进而根据词频-逆文档频率获得词表,从而使一些频次出现较低但是能反映文本主题的词汇得以保留,减少了超出词表的问题,从而使生成的摘要能更准确地表达文本含义的词汇。
进一步地,所述计算文本的词集合中各词的词频-逆文档频率,获得文本词表时,包括如下步骤:
获取文本的词集合中各词在训练集中的每个文本文档的词频;
获取文本的词集合中各词在训练集中的每个文本文档的逆文档频率;
获取文本的词集合中各词在训练集中的每个文本文档的词频-逆文档频率;
获取文本的词集合中各词在训练集中所有文本文档的词频-逆文档频率;
将文本的词集合中各词的词频-逆文档频率按照由大到小的方式进行排序;
获取排序在第一个设定阈值内的词频-逆文档频率对应的词作为文本词表。
进一步地,所述计算摘要的词集合中各词的词频-逆文档频率,获得摘要词表时,包括如下步骤:
获取摘要的词集合中各词在训练集中的每个摘要文档的词频;
获取摘要的词集合中各词在训练集中的每个摘要文档的逆文档频率;
获取摘要的词集合中各词在训练集中的每个摘要文档的词频-逆文档频率;
获取摘要的词集合中各词在训练集中所有摘要文档的词频-逆文档频率;
将摘要的词集合中各词的词频-逆文档频率按照由大到小的方式进行排序;
获取排序在第二个设定阈值内的词频-逆文档频率对应的词作为摘要词表。
进一步地,所述第一设定阈值和第二设定阈值的大小相同,且所述第一设定阈值和第二设定阈值为排序位置在所有词排序位置的前70%-90%,即获取排序在前70%-90%内的词频-逆文档频率对应的词作为文本词表或摘要词表,通过获取排序在前70%内的词频-逆文档频率对应的词作为文本词表或摘要词表,可减少后续词语的向量处理等工作,提高效率;通过获取排序在前90%内的词频-逆文档频率对应的词作为文本词表或摘要词表,可囊括尽可多的词语作为文本词表或摘要词表,尽可能出现降低超词表的问题。
进一步地,所述对文本词表中的各词进行向量化处理,获得文本词表中各词的融合向量时,包括如下步骤:
将文本词表中的各词分别进行词向量化;
将文本词表中的各词分别进行词性标注,获得文本词表中各词的词性向量;
将文本词表中的各词的词向量和词性向量进行拼接,获得文本词表中各词的融合向量。
通过增加词性特征来表征词特征,进而提高后续摘要生成的准确性。
进一步地,所述对摘要词表中的各词进行向量化处理,获得摘要词表中各词的融合向量时,包括如下步骤:
将摘要词表中的各词分别进行词向量化;
将摘要词表中的各词分别进行词性标注,获得摘要词表中各词的词性向量;
将摘要词表中的各词的词向量和词性向量进行拼接,获得摘要词表中各词的融合向量。
通过增加词性特征来表征词特征,进而提高后续摘要生成的准确性。
进一步地,在获得待处理文本的词集合中各词的融合向量之后,还将待处理文本的词集合中各词的融合向量进行局部注意机制处理,获得加权后的融合向量,再将加权后的融合向量输入到编码-解码模型中,生成摘要词向量,通过增加局部注意机制,可增强文本的重点信息,衰减非重点信息,进而使生成的摘要更加准确。
进一步地,在根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系,获得摘要词向量对应的词时,包括如下步骤:
根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系,判断摘要词向量对应的词是否存在于摘要词表中;
在摘要词向量对应的词存在于摘要词表中时,获得摘要词向量对应的词,并输出作为摘要;
在摘要词向量对应的词不存在于摘要词表中时,计算并比较摘要词向量与摘要词表各词的融合向量的欧几里得距离,且将欧几里得距离最小时对应的摘要词表中的词输出作为摘要。
在超出词表时,通过计算并比较摘要词向量与摘要词表各词的融合向量的欧几里得距离,寻找相似的词汇,并根据词性特征使词性相同的词更接近成为超出词表的替换词,进而使生成的摘要在超出词表的前提下,仍然能保留原语义。
本发明还提供一种计算机可读储存介质,其上储存有计算机程序,该计算机程序被处理器执行时实现如上述所述的文本摘要的生成方法的步骤。
本发明还提供一种计算机设备,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述所述的文本摘要的生成方法的步骤。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明文本摘要的生成方法的流程图。
具体实施方式
请参阅图1,其为本发明文本摘要的生成方法的流程图。所述文本摘要的生成方法,包括如下步骤:
步骤S1:分别对训练集中的文本和摘要进行词切分处理,获得文本的词集合和摘要的词集合。
步骤S2:分别计算文本的词集合和摘要的词集合中各词的词频-逆文档频率,获得文本词表和摘要词表,并分别对文本词表和摘要词表中的各词进行向量化处理,获得文本词表中各词的融合向量和摘要词表中各词的融合向量。
根据词频-逆文档频率来获得文本词表和摘要词表,从而使一些频次出现较低但是能反映文本主题的词汇得以保留,减少了超出词表的问题,从而使生成的摘要能更准确地表达文本含义的词汇。
在一个实施例中,所述计算文本的词集合中各词的词频-逆文档频率,获得文本词表时,包括如下步骤:
步骤S211:获取文本的词集合中各词在训练集中的每个文本文档的词频。
具体的计算方式为:
Figure BDA0001742448810000041
其中,TFw,d代表词w在文本文档d中的词频,nw,d代表词w在文本文档d中出现的次数,{wd}代表文本文档d中出现的所有词的集合。
步骤S212:获取文本的词集合中各词在训练集中的每个文本文档的逆文档频率。
具体的计算方式为:
Figure BDA0001742448810000042
其中,IDFw,d代表逆文档频率,n代表所有的文本文档数,nw代表词w出现过的文本文档数。
步骤S213:获取文本的词集合中各词在训练集中的每个文本文档的词频-逆文档频率。
具体的计算方式为:
Figure BDA0001742448810000051
其中,TF-IDFw代表词w在所有文本文档中的词频-逆文档频率,{W}代表所有文本文档,n代表所有的文本文档数目。
步骤S214:获取文本的词集合中各词在训练集中所有文本文档的词频-逆文档频率。
具体的计算方式为:TF-IDFw,d=TFw,d*IDFw,d,其中,TF-IDFw,d代表词w针对文本文档d的词频-逆文档频率。
步骤S215:将文本的词集合中各词的词频-逆文档频率按照由大到小的方式进行排序。
步骤S216:获取排序在第一个设定阈值内的词频-逆文档频率对应的词作为文本词表。
在一个实施例中,所述计算摘要的词集合中各词的词频-逆文档频率,获得摘要词表时,包括如下步骤:
步骤S221:获取摘要的词集合中各词在训练集中的每个摘要文档的词频;
步骤S222:获取摘要的词集合中各词在训练集中的每个摘要文档的逆文档频率;
步骤S223:获取摘要的词集合中各词在训练集中的每个摘要文档的词频-逆文档频率;
步骤S224:获取摘要的词集合中各词在训练集中所有摘要文档的词频-逆文档频率;
步骤S225:将摘要的词集合中各词的词频-逆文档频率按照由大到小的方式进行排序;
步骤S226:获取排序在第二个设定阈值内的词频-逆文档频率对应的词作为摘要词表。
其中,摘要文档的词集合中各词分别在每个摘要文档的词频、逆文档频率、词频-逆文档频率以及各词在所有摘要文档的词频-逆文档频率,与中文文档的词集合中各词分别在每个中文文档的词频、逆文档频率、词频-逆文档频率以及各词在所有中文文档的词频-逆文档频率的计算方式相同,这里不加以赘述。
下面列举一个具体的例子,以说明文本的词集合和摘要的词集合中各词的词频-逆文档频率的计算方式:
本发明的训练集包括多条数据,每条数据包含文本文档、以及与文本文档对应的摘要文档。在计算词的词频-逆文档频率时,将文本文档的词和摘要文档的词中分开进行计算,比如,训练集共有n条数据,每条数据格式为(doc1,abs1),(doc2,abs2)……,其中,doc1、doc2……表示文本文文档,abs1、abs2……表示摘要文档;假设doc1和doc2中含有词W1,abs1中含有词W2,其他doc文档中不包含词W1,其他abs文档中不包含词W2。则词W1对于文档doc1的词频-逆文档频率为p1,词W1对于文档doc2的词频-逆文档频率为p2,那么最终词W1的词频-逆文档频率final-p(W1)=(p1+p2)/n。词W2对于文档abs1的词频-逆文档频率为p3,文档abs2中不包含词W2,则其词频-逆文档频率为0,那么最终词W2的词频-逆文档频率final-p(W2)=(p3+0)/n。
在一个实施例中,所述第一设定阈值和第二设定阈值的大小相同,且所述第一设定阈值和第二设定阈值为排序位置在所有词排序位置的前70%-90%,即获取排序在前70%-90%内的词频-逆文档频率对应的词作为文本词表或摘要词表,通过获取排序在前70%内的词频-逆文档频率对应的词作为文本词表或摘要词表,可减少后续词语的向量处理等工作,提高效率;通过获取排序在前90%内的词频-逆文档频率对应的词作为文本词表或摘要词表,可囊括尽可多的词语作为文本词表或摘要词表,尽可能出现降低超词表的问题。优选的,获取排序在前80%内的词频-逆文档频率对应的词作为文本词表或摘要词表,以减少向量处理工作而提高效率,同时也可尽可能的降低出现超词表的问题。
在一个实施例中,所述对文本词表中的各词进行向量化处理,获得文本词表中各词的融合向量时,包括如下步骤:
步骤S231:将文本词表中的各词分别进行词向量化。
步骤S232:将文本词表中的各词分别进行词性标注,获得文本词表中各词的词性向量。
步骤S233:将文本词表中的各词的词向量和词性向量进行拼接,获得文本词表中各词的融合向量。
在一个实施例中,所述对摘要词表中的各词进行向量化处理,获得摘要词表中各词的融合向量时,包括如下步骤:
步骤S241:将摘要词表中的各词分别进行词向量化。
在一个实施例中,每个词的词向量大小设置为200维度,可表示为:
{xw,1,xw,2,...,xw,199,xw,200}。
步骤S242:将摘要词表中的各词分别进行词性标注,获得摘要词表中各词的词性向量。
在一个实施例中,每个词的词性向量大小设置为50维度,可表示为:
{posw,1,posw,2,...,posw,49,posw,50}。
步骤S243:将摘要词表中的各词的词向量和词性向量进行拼接,获得摘要词表中各词的融合向量。
在一个实施例中,每个词拼接后获得的融合词向量大小为250维度,可表示为:
Xw={xw,1,xw,2,...,xw,199,xw,200,posw,1,posw,2,...,posw,49,posw,50}。
步骤S3:将待处理文本进行词切分处理,获得待处理文本的词集合。
步骤S4:根据文本词表中的各词与文本词表中各词的融合向量之间的映射关系,将待处理文本的词集合中的各词进行词嵌入处理,获得待处理文本的词集合中各词的融合向量。
步骤S5:将待处理文本的词集合中各词的融合向量输入到编码-解码模型中,生成摘要词向量。
为了增强文本的重点信息,衰减非重点信息,进而使生成的摘要更加准确,在一个更优实施例中,在获得待处理文本的词集合中各词的融合向量之后,还将待处理文本的词集合中各词的融合向量进行局部注意机制处理,获得加权后的融合向量,再将加权后的融合向量输入到编码-解码模型中,生成摘要词向量。
步骤S6:根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系,获得摘要词向量对应的词,并将该词输出作为摘要。
为了使摘要的输出更为准确,更能保留原语义,在一个更优实施例中,在根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系,获得摘要词向量对应的词时,包括如下步骤:
步骤S61:根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系,判断摘要词向量对应的词是否存在于摘要词表中;
步骤S62:在摘要词向量对应的词存在于摘要词表中时,获得摘要词向量对应的词,并输出作为摘要。
步骤S63:在摘要词向量对应的词不存在于摘要词表中时,计算并比较摘要词向量与摘要词表各词的融合向量的欧几里得距离,且将欧几里得距离最小时对应的摘要词表中的词输出作为摘要。
其中,所述欧几里得距离的计算公式如下:
Figure BDA0001742448810000071
其中,{xp,1,xp,2,...,xp,249,xp,250}表示摘要词向量;
Xw={xw,1,xw,2,...,xw,199,xw,200,posw,1,posw,2,...,posw,49,posw,50}表示摘要词表中的词w的融合向量。
本发明还提供一种计算机可读储存介质,其上储存有计算机程序,该计算机程序被处理器执行时实现如上述所述的文本摘要的生成方法的步骤。
本发明还提供一种计算机设备,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述所述的文本摘要的生成方法的步骤。
相比于现有技术,本发明通过计算各词的词频-逆文档频率,进而根据词频-逆文档频率获得词表,从而使一些频次出现较低但是能反映文本主题的词汇得以保留,减少了超出词表的问题,从而使生成的摘要能更准确地表达文本含义的词汇。进一步地,在生成词向量时,通过增加词性特征来表征词特征,提高了摘要生成的准确性;在超出词表时,通过计算并比较摘要词向量与摘要词表各词的融合向量的欧几里得距离,寻找相似的词汇,并根据词性特征使词性相同的词更接近成为超出词表的替换词,进而使生成的摘要在超出词表的前提下,仍然能保留原语义。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (10)

1.一种文本摘要的生成方法,其特征在于,包括如下步骤:
分别对训练集中的文本和摘要进行词切分处理,获得文本的词集合和摘要的词集合;
分别计算文本的词集合和摘要的词集合中各词的词频-逆文档频率,获得文本词表和摘要词表,并分别对文本词表和摘要词表中的各词进行向量化处理,获得文本词表中各词的融合向量和摘要词表中各词的融合向量;
将待处理文本进行词切分处理,获得待处理文本的词集合;
根据文本词表中的各词与文本词表中各词的融合向量之间的映射关系,将待处理文本的词集合中的各词进行词嵌入处理,获得待处理文本的词集合中各词的融合向量;
将待处理文本的词集合中各词的融合向量输入到编码-解码模型中,生成摘要词向量;
根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系,获得摘要词向量对应的词,并将该词输出作为摘要。
2.根据权利要求1所述的文本摘要的生成方法,其特征在于,所述计算文本的词集合中各词的词频-逆文档频率,获得文本词表时,包括如下步骤:
获取文本的词集合中各词在训练集中的每个文本文档的词频;
获取文本的词集合中各词在训练集中的每个文本文档的逆文档频率;
获取文本的词集合中各词在训练集中的每个文本文档的词频-逆文档频率;
获取文本的词集合中各词在训练集中所有文本文档的词频-逆文档频率;
将文本的词集合中各词的词频-逆文档频率按照由大到小的方式进行排序;
获取排序在第一个设定阈值内的词频-逆文档频率对应的词作为文本词表。
3.根据权利要求2所述的文本摘要的生成方法,其特征在于,所述计算摘要的词集合中各词的词频-逆文档频率,获得摘要词表时,包括如下步骤:
获取摘要的词集合中各词在训练集中的每个摘要文档的词频;
获取摘要的词集合中各词在训练集中的每个摘要文档的逆文档频率;
获取摘要的词集合中各词在训练集中的每个摘要文档的词频-逆文档频率;
获取摘要的词集合中各词在训练集中所有摘要文档的词频-逆文档频率;
将摘要的词集合中各词的词频-逆文档频率按照由大到小的方式进行排序;
获取排序在第二个设定阈值内的词频-逆文档频率对应的词作为摘要词表。
4.根据权利要求3所述的文本摘要的生成方法,其特征在于,所述第一个 设定阈值和第二个 设定阈值的大小相同,且所述第一个 设定阈值和第二个 设定阈值为排序位置在所有词排序位置的前70%-90%。
5.根据权利要求1所述的文本摘要的生成方法,其特征在于,所述对文本词表中的各词进行向量化处理,获得文本词表中各词的融合向量时,包括如下步骤:
将文本词表中的各词分别进行词向量化;
将文本词表中的各词分别进行词性标注,获得文本词表中各词的词性向量;
将文本词表中的各词的词向量和词性向量进行拼接,获得文本词表中各词的融合向量。
6.根据权利要求5所述的文本摘要的生成方法,其特征在于,所述对摘要词表中的各词进行向量化处理,获得摘要词表中各词的融合向量时,包括如下步骤:
将摘要词表中的各词分别进行词向量化;
将摘要词表中的各词分别进行词性标注,获得摘要词表中各词的词性向量;
将摘要词表中的各词的词向量和词性向量进行拼接,获得摘要词表中各词的融合向量。
7.根据权利要求1所述的文本摘要的生成方法,其特征在于,在获得待处理文本的词集合中各词的融合向量之后,还将待处理文本的词集合中各词的融合向量进行局部注意机制处理,获得加权后的融合向量,再将加权后的融合向量输入到编码-解码模型中,生成摘要词向量。
8.根据权利要求1所述的文本摘要的生成方法,其特征在于,所述根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系,获得摘要词向量对应的词时,包括如下步骤:
根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系,判断摘要词向量对应的词是否存在于摘要词表中;
在摘要词向量对应的词存在于摘要词表中时,获得摘要词向量对应的词,并输出作为摘要;
在摘要词向量对应的词不存在于摘要词表中时,计算并比较摘要词向量与摘要词表各词的融合向量的欧几里得距离,且将欧几里得距离最小时对应的摘要词表中的词输出作为摘要。
9.一种计算机可读储存介质,其上储存有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至8中任意一项所述的文本摘要的生成方法的步骤。
10.一种计算机设备,其特征在于,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的文本摘要的生成方法的步骤。
CN201810825778.4A 2018-07-25 2018-07-25 一种中文文本摘要生成方法、计算机可读储存介质及计算机设备 Active CN109241272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810825778.4A CN109241272B (zh) 2018-07-25 2018-07-25 一种中文文本摘要生成方法、计算机可读储存介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810825778.4A CN109241272B (zh) 2018-07-25 2018-07-25 一种中文文本摘要生成方法、计算机可读储存介质及计算机设备

Publications (2)

Publication Number Publication Date
CN109241272A CN109241272A (zh) 2019-01-18
CN109241272B true CN109241272B (zh) 2021-07-06

Family

ID=65072294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810825778.4A Active CN109241272B (zh) 2018-07-25 2018-07-25 一种中文文本摘要生成方法、计算机可读储存介质及计算机设备

Country Status (1)

Country Link
CN (1) CN109241272B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914115B (zh) * 2019-05-08 2024-05-28 阿里巴巴集团控股有限公司 一种声音信息的处理方法、装置及电子设备
CN110377808A (zh) * 2019-06-14 2019-10-25 北京达佳互联信息技术有限公司 文档处理方法、装置、电子设备及存储介质
CN110717333B (zh) * 2019-09-02 2024-01-16 平安科技(深圳)有限公司 文章摘要自动生成方法、装置及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081627A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种确定词语在文本中的贡献度的方法及系统
CN106897436A (zh) * 2017-02-28 2017-06-27 北京邮电大学 一种基于变分推断的学术研究热点关键词提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11093557B2 (en) * 2016-08-29 2021-08-17 Zoominfo Apollo Llc Keyword and business tag extraction

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081627A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种确定词语在文本中的贡献度的方法及系统
CN106897436A (zh) * 2017-02-28 2017-06-27 北京邮电大学 一种基于变分推断的学术研究热点关键词提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
An indicative opinion generation model for short texts on social networks;Qingjuan Zha et al.;《Future Generation Computer Systems》;20170527;第1-30页 *

Also Published As

Publication number Publication date
CN109241272A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
US10891427B2 (en) Machine learning techniques for generating document summaries targeted to affective tone
TWI536181B (zh) 在多語文本中的語言識別
CN111930929B (zh) 一种文章标题生成方法、装置及计算设备
WO2019228203A1 (zh) 一种短文本分类方法及系统
CN109241272B (zh) 一种中文文本摘要生成方法、计算机可读储存介质及计算机设备
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN108052630B (zh) 一种基于中文教育视频提取拓展词的方法
KR101717230B1 (ko) 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템
CN111061861A (zh) 一种基于XLNet的文本摘要自动生成方法
CN115048944B (zh) 一种基于主题增强的开放域对话回复方法及系统
WO2019133506A1 (en) Intelligent routing services and systems
CN108256968A (zh) 一种电商平台商品专家评论生成方法
CN113672731B (zh) 基于领域信息的情感分析方法、装置、设备及存储介质
CN111898369A (zh) 文章标题生成方法、模型的训练方法、装置和电子设备
CN115114919A (zh) 呈现提示信息的方法和装置以及存储介质
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
CN113569011A (zh) 文本匹配模型的训练方法、装置、设备及存储介质
CN110889292B (zh) 一种基于句义结构模型的文本数据生成观点摘要的方法及系统
CN110020024B (zh) 一种科技文献中链接资源的分类方法、系统、设备
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN112989816B (zh) 文本内容质量评估方法及系统
Hachey et al. Sequence modelling for sentence classification in a legal summarisation system
Kore et al. Legal document summarization using nlp and ml techniques
CN113836941B (zh) 一种合同导航方法及装置
Mastronardo et al. Enhancing a text summarization system with ELMo

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant