CN109471933A - 一种文本摘要的生成方法、存储介质和服务器 - Google Patents

一种文本摘要的生成方法、存储介质和服务器 Download PDF

Info

Publication number
CN109471933A
CN109471933A CN201811185494.XA CN201811185494A CN109471933A CN 109471933 A CN109471933 A CN 109471933A CN 201811185494 A CN201811185494 A CN 201811185494A CN 109471933 A CN109471933 A CN 109471933A
Authority
CN
China
Prior art keywords
text
keyword
snippet
collection
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811185494.XA
Other languages
English (en)
Other versions
CN109471933B (zh
Inventor
吴壮伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811185494.XA priority Critical patent/CN109471933B/zh
Publication of CN109471933A publication Critical patent/CN109471933A/zh
Application granted granted Critical
Publication of CN109471933B publication Critical patent/CN109471933B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机技术领域,提出一种文本摘要的生成方法、存储介质和服务器。所述文本摘要的生成方法包括:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别提取所述文本集合中每个文本的关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要。本发明预先构建一个带有注意力机制的seq2seq模型,通过提取多个内容相互关联的文本中的关键词,并将提取到的关键词输入该模型,然后将该模型的输出结果作为所述多个文本共同的文本摘要输出,从而解决了现有技术无法生成多篇文章共同的文本摘要的问题。

Description

一种文本摘要的生成方法、存储介质和服务器
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本摘要的生成方法、存储介质和服务器。
背景技术
摘要是能够反映文章中心内容的一段文本,能够帮助人们在阅读长篇的文章时缩短阅读时间。文本摘要生成技术是知识管理系统核心功能之一,近年来得到了迅速的发展。然而,现有的文本摘要生成技术局限于生成某一篇文章的摘要,而在实际需求中,有时候需要针对多篇相同主题的文章生成它们的共同摘要,目前尚无有效的方法能够实现该需求。
发明内容
有鉴于此,本发明实施例提供了一种文本摘要的生成方法、存储介质和服务器,旨在解决现有技术无法生成多篇文章共同的文本摘要的问题。
本发明实施例的第一方面,提供了一种文本摘要的生成方法,包括:
获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;
分别提取所述文本集合中每个文本的关键词;
将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。
本发明实施例的第二方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如本发明实施例的第一方面提出的文本摘要的生成方法的步骤。
本发明实施例的第三方面,提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;
分别提取所述文本集合中每个文本的关键词;
将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。
本发明提出的文本摘要的生成方法包括:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别提取所述文本集合中每个文本的关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要。本发明预先构建一个带有注意力机制的seq2seq模型,通过提取多个内容相互关联的文本中的关键词,并将提取到的关键词输入该模型,然后将该模型的输出结果作为所述多个文本共同的文本摘要输出,从而解决了现有技术无法生成多篇文章共同的文本摘要的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文本摘要的生成方法的第一个实施例的流程图;
图2是本发明实施例提供的一种文本摘要的生成方法的第二个实施例的流程图;
图3是本发明实施例提供的一种文本摘要的生成方法的第三个实施例的流程图;
图4是本发明实施例提供的一种文本摘要的生成装置的一个实施例的结构图;
图5是本发明实施例提供的一种服务器的示意图。
具体实施方式
本发明实施例提供了一种文本摘要的生成方法、存储介质和服务器,旨在解决现有技术无法生成多篇文章共同的文本摘要的问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中一种文本摘要的生成方法的第一个实施例包括:
101、获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;
首先,获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本。具体的,可以搜集多篇相同主题的文章组成所述文本集合,比如不同媒体针对同一事件的多篇新闻报道。
102、分别提取所述文本集合中每个文本的关键词;
在获取到待处理的文本集合之后,分别提取所述文本集合中每个文本的关键词。在进行关键词提取时,可以采用现有技术中各种常用的关键词提取方法,比如TF-IDF关键词提取方法、Topic-model关键词提取方法和RAKE关键词提取方法等。
103、将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要。
在提取到所述文本集合中每个文本的关键词之后,将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,即该文本集合包含的多个文本共同的文本摘要。所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。由于输入该神经网络模型的关键词是从多个文本中提取出来的,即该神经网络模型输出的文本摘要实际上是综合考虑该文本集合中每个文本的特征生成的,因此该神经网络模型输出的文本摘要能够作为这些文本共同的文本摘要。
进一步的,在输出所述文本集合的文本摘要之后,还可以包括:
(1)分别获取所述每个文本的标题;
(2)从所述每个文本的标题中提取第一关键词;
(3)从所述文本集合的文本摘要中提取第二关键词;
(4)将所述第一关键词和所述第二关键词进行匹配;
(5)若所述匹配未通过,则将各个所述关键词输入预先构建的第二神经网络模型,并用所述第二神经网络模型输出的文本摘要替换所述文本集合的文本摘要,所述第二神经网络模型由所述第一关键词训练形成。
对于上述步骤(1),分别获取所述文本集合中每个文本的标题,假设该文本集合中包含的各个文本为具有相同主题的文章,每篇文章具有自身的标题。
对于上述步骤(2),分别从每个文本的标题中提取出关键词,这些关键词组成第一关键词。
对于上述步骤(3),从所述文本集合的文本摘要中提取关键词,称作第二关键词。
对于上述步骤(4),在关键词匹配时,可以采用公式计算所述第一关键词和所述第二关键词之间的共现概率,其中Similarity表示所述共现概率,M∩N表示所述第一关键词和所述第二关键词具有的相同关键词的数量,M表示所述第一关键词的数量,N表示所述第二关键词的数量;若所述共现概率大于或等于预设阈值(比如50%),则判定所述匹配通过;若所述共现概率小于所述预设阈值,则判定所述匹配未通过。
对于上述步骤(5),若所述匹配未通过,则将各个所述关键词(即步骤102中提取到的关键词)输入预先构建的第二神经网络模型,并用所述第二神经网络模型输出的文本摘要替换所述文本集合的文本摘要,所述第二神经网络模型由所述第一关键词训练形成。若从所述文本集合的文本摘要中提取出的关键词和从每个文本的标题中提取出的关键词匹配未通过,则表明在步骤103中通过第一神经网络模型输出的文本摘要的准确度较低,不能作为该多个文本共同的文本摘要,此时将步骤102中提取到的关键词输入由所述第一关键词训练形成的第二神经网络模型,用该第二神经网络模型输出的文本摘要替换所述文本集合的文本摘要,作为该多个文本共同的文本摘要。通过这样设置,能够进一步提高生成的文本摘要的准确度。另外,若所述匹配通过,则表明在步骤103中通过第一神经网络模型输出的文本摘要的准确度较高,可以作为该多个文本共同的文本摘要。
本发明实施例提出的文本摘要的生成方法包括:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别提取所述文本集合中每个文本的关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要。本发明预先构建一个带有注意力机制的seq2seq模型,通过提取多篇内容相互关联的文本中的关键词,并将提取到的关键词输入该模型,然后将该模型的输出结果作为所述多篇文本共同的文本摘要输出,从而解决了现有技术无法生成多篇文章共同的文本摘要的问题。
请参阅图2,本发明实施例中一种文本摘要的生成方法的第二个实施例包括:
201、获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;
步骤201与步骤101相同,具体可参照步骤101的相关说明。
202、分别对所述每个文本进行预处理,所述预处理包括文本分段、文本分句、文本分词、去除停用词以及根据词向量模型将文本转换为词向量;
在获取待处理的文本集合之后,分别对所述文本集合中的每个文本进行预处理,所述预处理包括文本分段、文本分句、文本分词、去除停用词以及根据词向量模型将文本转换为词向量,具体的预处理方法可参照现有技术。
203、将预处理后的所述每个文本分别输入所述第一神经网络模型,输出所述每个文本独立的文本摘要;
预处理后的所述每个文本成为一个个的词向量,将这些词向量分别输入所述第一神经网络模型(即步骤206中的神经网络模型),输出所述每个文本独立的文本摘要。比如,将预处理后的文本A输入该模型,输出A独立的文本摘要;将预处理后的文本B输入该模型,输出B独立的文本摘要,以此类推。
204、对所述独立的文本摘要中的每个词汇进行词性标注;
在获得每个文本独立的文本摘要之后,对这些文本摘要中的每个词汇进行词性标注。词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程,也即标注出每个词汇的词性,比如动词、名词、形容词等。在进行词性标注时,可以采用基于统计模型的词性标注方法、基于规则的词性标注方法等现有方法。
205、将词性标注为动词或名词的词汇从所述独立的文本摘要中提取出来,作为关键词;
在对所述独立的文本摘要中的每个词汇进行词性标注之后,将词性标注为动词或名词的词汇从所述独立的文本摘要中提取出来,作为关键词。
206、将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要。
在提取出关键词之后,将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,即该文本集合包含的多个文本共同的文本摘要。所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。
进一步的,步骤206可以包括:
(1)分别统计各个所述关键词在所述独立的文本摘要中的出现次数;
(2)将各个所述关键词按照所述出现次数由高至低的顺序依次输入所述第一神经网络模型,输出所述文本集合的文本摘要。
比如,该文本集合包含3个文本,分别为A、B和C,通过步骤203获得A独立的文本摘要、B独立的文本摘要和C独立的文本摘要。将这些独立的文本摘要中的动词或名词提取出来作为关键词,然后分别统计各个关键词在这些独立的文本摘要中的出现次数。假设关键词X在该3个独立的文本摘要中总共出现了10次,关键词Y在该3个独立的文本摘要中总共出现了3次,关键词Z在该3个独立的文本摘要中总共出现了8次,则将这几个关键词按照X-Z-Y的顺序依次输入所述第一神经网络模型。由于对于带有注意力机制的seq2seq模型来说,越先输入模型的信息在计算时所占的权重越高,故按照出现次数由高至低的顺序依次输入各个关键词,能够使得出现频率高的关键词获得较高的计算权重,从而得到更准确的文本摘要输出。
本发明实施例提出的文本摘要的生成方法包括:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别对所述每个文本进行预处理,所述预处理包括文本分段、文本分句、文本分词、去除停用词以及根据词向量模型将文本转换为词向量;将预处理后的所述每个文本分别输入所述第一神经网络模型,输出所述每个文本独立的文本摘要;对所述独立的文本摘要中的每个词汇进行词性标注;将词性标注为动词或名词的词汇从所述独立的文本摘要中提取出来,作为关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要。与本发明的第一个实施例相比,本实施例提供了一种具体的提取所述文本集合中每个文本的关键词的方法。
请参阅图3,本发明实施例中一种文本摘要的生成方法的第三个实施例包括:
301、获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;
步骤301与步骤101相同,具体可参照步骤101的相关说明。
302、分别对所述每个文本进行文本分词操作,得到初始词汇集;
在获取待处理的文本集合之后,分别对该文本集合中的每个文本进行文本分词操作,将文本转换为一个个词汇,构成初始词汇集。
303、去除所述初始词汇集中的停用词;
在得到初始词汇集之后,去除所述初始词汇集中的停用词。停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉的某些字或词。
304、将去除停用词后的所述初始词汇集转换为TF-IDF词频矩阵;
然后,将去除停用词后的所述初始词汇集转换为TF-IDF词频矩阵。TF-IDF的含义是词频-逆文档频率,指的是,如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或短语具有很好的分类区分能力,适合用来分类。简单的说,TF-IDF可以反映出语料库中某篇文档中某个词的重要性。
305、将所述词频矩阵中词频最高的预设数量的词汇提取出来,作为关键词;
在得到TF-IDF词频矩阵之后,将所述词频矩阵中词频最高的预设数量(比如10个)的词汇提取出来,作为关键词。换句话说,也就是将各个文本中重要性最高的一定数量的词汇提取出来,作为关键词。
306、将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要。
在提取出关键词之后,将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,即该文本集合包含的多个文本共同的文本摘要。所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。
进一步的,步骤306可以包括:
将各个所述关键词按照所述词频由高至低的顺序依次输入所述第一神经网络模型,输出所述文本集合的文本摘要。
由于对于带有注意力机制的seq2seq模型来说,越先输入模型的信息在计算时所占的权重越高,故按照所述词频由高至低的顺序依次输入各个关键词,能够使得词频高的关键词获得较高的计算权重,从而得到更准确的文本摘要输出。
本发明实施例提出的文本摘要的生成方法包括:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别对所述每个文本进行文本分词操作,得到初始词汇集;去除所述初始词汇集中的停用词;将去除停用词后的所述初始词汇集转换为TF-IDF词频矩阵;将所述词频矩阵中词频最高的预设数量的词汇提取出来,作为关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要。与本发明的第二个实施例相比,本实施例提供了另一种提取所述文本集合中每个文本的关键词的方法。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
上面主要描述了一种文本摘要的生成方法,下面将对一种文本摘要的生成装置进行详细描述。
请参阅图4,本发明实施例中一种文本摘要的生成装置的一个实施例包括:
文本集合获取模块401,用于获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;
关键词提取模块402,用于分别提取所述文本集合中每个文本的关键词;
文本摘要输出模块403,用于将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。
进一步的,所述关键词提取模块可以包括:
预处理单元,用于分别对所述每个文本进行预处理,所述预处理包括文本分段、文本分句、文本分词、去除停用词以及根据词向量模型将文本转换为词向量;
独立文本摘要输出单元,用于将预处理后的所述每个文本分别输入所述第一神经网络模型,输出所述每个文本独立的文本摘要;
词性标注单元,用于对所述独立的文本摘要中的每个词汇进行词性标注;
第一关键词提取单元,用于将词性标注为动词或名词的词汇从所述独立的文本摘要中提取出来,作为关键词。
进一步的,所述文本摘要输出模块可以包括:
次数统计单元,用于分别统计各个所述关键词在所述独立的文本摘要中的出现次数;
第一文本摘要输出单元,用于将各个所述关键词按照所述出现次数由高至低的顺序依次输入所述第一神经网络模型,输出所述文本集合的文本摘要。
进一步的,所述关键词提取模块可以包括:
分词单元,用于分别对所述每个文本进行文本分词操作,得到初始词汇集;
停用词去除单元,用于去除所述初始词汇集中的停用词;
词频矩阵转换单元,用于将去除停用词后的所述初始词汇集转换为TF-IDF词频矩阵;
第二关键词提取单元,用于将所述词频矩阵中词频最高的预设数量的词汇提取出来,作为关键词。
进一步的,所述文本摘要输出模块可以包括:
第二文本摘要输出单元,用于将各个所述关键词按照所述词频由高至低的顺序依次输入所述第一神经网络模型,输出所述文本集合的文本摘要。
进一步的,所述文本摘要的生成装置还可以包括:
标题获取模块,用于分别获取所述每个文本的标题;
标题关键词提取模块,用于从所述每个文本的标题中提取第一关键词;
文本摘要关键词提取模块,用于从所述文本集合的文本摘要中提取第二关键词;
关键词匹配模块,用于将所述第一关键词和所述第二关键词进行匹配;
文本摘要替换模块,用于若所述匹配未通过,则将各个所述关键词输入预先构建的第二神经网络模型,并用所述第二神经网络模型输出的文本摘要替换所述文本集合的文本摘要,所述第二神经网络模型由所述第一关键词训练形成。
更进一步的,所述关键词匹配模块可以包括:
共现概率计算单元,用于采用公式计算所述第一关键词和所述第二关键词之间的共现概率,其中Similarity表示所述共现概率,M∩N表示所述第一关键词和所述第二关键词具有的相同关键词的数量,M表示所述第一关键词的数量,N表示所述第二关键词的数量;
第一判定单元,用于若所述共现概率大于或等于预设阈值,则判定所述匹配通过;
第二判定单元,用于若所述共现概率小于所述预设阈值,则判定所述匹配未通过。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如图1至图3表示的任意一种文本摘要的生成方法的步骤。
本发明实施例还提供一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如图1至图3表示的任意一种文本摘要的生成方法的步骤。
图5是本发明一实施例提供的服务器的示意图。如图5所示,该实施例的服务器5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52。所述处理器50执行所述计算机可读指令52时实现上述各个文本摘要的生成方法实施例中的步骤,例如图1所示的步骤101至103。或者,所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块401至403的功能。
示例性的,所述计算机可读指令52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令52在所述服务器5中的执行过程。
所述服务器5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述服务器5可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是服务器5的示例,并不构成对服务器5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述服务器5还可以包括输入输出设备、网络接入设备、总线等。
所述处理器50可以是中央处理单元(CentraL Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(DigitaL SignaL Processor,DSP)、专用集成电路(AppLication Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieLd-ProgrammabLe Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述服务器5的内部存储单元,例如服务器5的硬盘或内存。所述存储器51也可以是所述服务器5的外部存储设备,例如所述服务器5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure DigitaL,SD)卡,闪存卡(FLash Card)等。进一步地,所述存储器51还可以既包括所述服务器5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机可读指令以及所述服务器所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnLyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文本摘要的生成方法,其特征在于,包括:
获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;
分别提取所述文本集合中每个文本的关键词;
将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。
2.根据权利要求1所述的文本摘要的生成方法,其特征在于,所述分别提取所述文本集合中每个文本的关键词包括:
分别对所述每个文本进行预处理,所述预处理包括文本分段、文本分句、文本分词、去除停用词以及根据词向量模型将文本转换为词向量;
将预处理后的所述每个文本分别输入所述第一神经网络模型,输出所述每个文本独立的文本摘要;
对所述独立的文本摘要中的每个词汇进行词性标注;
将词性标注为动词或名词的词汇从所述独立的文本摘要中提取出来,作为关键词。
3.根据权利要求2所述的文本摘要的生成方法,其特征在于,所述将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要包括:
分别统计各个所述关键词在所述独立的文本摘要中的出现次数;
将各个所述关键词按照所述出现次数由高至低的顺序依次输入所述第一神经网络模型,输出所述文本集合的文本摘要。
4.根据权利要求1所述的文本摘要的生成方法,其特征在于,所述分别提取所述文本集合中每个文本的关键词包括:
分别对所述每个文本进行文本分词操作,得到初始词汇集;
去除所述初始词汇集中的停用词;
将去除停用词后的所述初始词汇集转换为TF-IDF词频矩阵;
将所述词频矩阵中词频最高的预设数量的词汇提取出来,作为关键词。
5.根据权利要求4所述的文本摘要的生成方法,其特征在于,所述将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要包括:
将各个所述关键词按照所述词频由高至低的顺序依次输入所述第一神经网络模型,输出所述文本集合的文本摘要。
6.根据权利要求1至5中任一项所述的文本摘要的生成方法,其特征在于,在输出所述文本集合的文本摘要之后,还包括:
分别获取所述每个文本的标题;
从所述每个文本的标题中提取第一关键词;
从所述文本集合的文本摘要中提取第二关键词;
将所述第一关键词和所述第二关键词进行匹配;
若所述匹配未通过,则将各个所述关键词输入预先构建的第二神经网络模型,并用所述第二神经网络模型输出的文本摘要替换所述文本集合的文本摘要,所述第二神经网络模型由所述第一关键词训练形成。
7.根据权利要求6所述的文本摘要的生成方法,其特征在于,所述将所述第一关键词和所述第二关键词进行匹配包括:
采用公式计算所述第一关键词和所述第二关键词之间的共现概率,其中Similarity表示所述共现概率,M∩N表示所述第一关键词和所述第二关键词具有的相同关键词的数量,M表示所述第一关键词的数量,N表示所述第二关键词的数量;
若所述共现概率大于或等于预设阈值,则判定所述匹配通过;
若所述共现概率小于所述预设阈值,则判定所述匹配未通过。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的文本摘要的生成方法的步骤。
9.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤:
获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;
分别提取所述文本集合中每个文本的关键词;
将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。
10.根据权利要求9所述的服务器,其特征在于,在输出所述文本集合的文本摘要之后,还包括:
分别获取所述每个文本的标题;
从所述每个文本的标题中提取第一关键词;
从所述文本集合的文本摘要中提取第二关键词;
将所述第一关键词和所述第二关键词进行匹配;
若所述匹配未通过,则将各个所述关键词输入预先构建的第二神经网络模型,并用所述第二神经网络模型输出的文本摘要替换所述文本集合的文本摘要,所述第二神经网络模型由所述第一关键词训练形成。
CN201811185494.XA 2018-10-11 2018-10-11 一种文本摘要的生成方法、存储介质和服务器 Active CN109471933B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811185494.XA CN109471933B (zh) 2018-10-11 2018-10-11 一种文本摘要的生成方法、存储介质和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811185494.XA CN109471933B (zh) 2018-10-11 2018-10-11 一种文本摘要的生成方法、存储介质和服务器

Publications (2)

Publication Number Publication Date
CN109471933A true CN109471933A (zh) 2019-03-15
CN109471933B CN109471933B (zh) 2024-05-07

Family

ID=65663984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811185494.XA Active CN109471933B (zh) 2018-10-11 2018-10-11 一种文本摘要的生成方法、存储介质和服务器

Country Status (1)

Country Link
CN (1) CN109471933B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019768A (zh) * 2019-03-28 2019-07-16 北京深海巨鲸信息科技有限公司 生成文本摘要的方法及装置
CN110110330A (zh) * 2019-04-30 2019-08-09 腾讯科技(深圳)有限公司 基于文本的关键词提取方法和计算机设备
CN110264792A (zh) * 2019-06-17 2019-09-20 上海元趣信息技术有限公司 一种针对小学生作文智能辅导系统
CN110442706A (zh) * 2019-07-17 2019-11-12 华南师范大学 一种文本摘要生成的方法、系统、设备及存储介质
CN110929094A (zh) * 2019-11-20 2020-03-27 北京香侬慧语科技有限责任公司 一种视频标题处理方法和装置
CN111274369A (zh) * 2020-01-09 2020-06-12 广东小天才科技有限公司 一种英文单词的识别方法及装置
CN111858908A (zh) * 2020-03-03 2020-10-30 北京市计算中心 一种摘报文本生成方法、装置、服务器及可读存储介质
WO2020253043A1 (zh) * 2019-06-20 2020-12-24 平安科技(深圳)有限公司 智能文本分类方法、装置及计算机可读存储介质
CN112464657A (zh) * 2020-12-07 2021-03-09 上海交通大学 混合式文本摘要生成方法、系统、终端及存储介质
CN112784035A (zh) * 2020-12-31 2021-05-11 山西三友和智慧信息技术股份有限公司 一种多篇文档重点信息提取方法
CN113590763A (zh) * 2021-09-27 2021-11-02 湖南大学 一种基于深度学习的相似文本检索方法、装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140289260A1 (en) * 2013-03-22 2014-09-25 Hewlett-Packard Development Company, L.P. Keyword Determination
CN104503958A (zh) * 2014-11-19 2015-04-08 百度在线网络技术(北京)有限公司 文档摘要的生成方法及装置
CN106919646A (zh) * 2017-01-18 2017-07-04 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN108197111A (zh) * 2018-01-10 2018-06-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN108319630A (zh) * 2017-07-05 2018-07-24 腾讯科技(深圳)有限公司 信息处理方法、装置、存储介质和计算机设备
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
CN108491512A (zh) * 2018-03-23 2018-09-04 北京奇虎科技有限公司 新闻标题的摘要方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140289260A1 (en) * 2013-03-22 2014-09-25 Hewlett-Packard Development Company, L.P. Keyword Determination
CN104503958A (zh) * 2014-11-19 2015-04-08 百度在线网络技术(北京)有限公司 文档摘要的生成方法及装置
CN106919646A (zh) * 2017-01-18 2017-07-04 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN108319630A (zh) * 2017-07-05 2018-07-24 腾讯科技(深圳)有限公司 信息处理方法、装置、存储介质和计算机设备
CN108197111A (zh) * 2018-01-10 2018-06-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
CN108491512A (zh) * 2018-03-23 2018-09-04 北京奇虎科技有限公司 新闻标题的摘要方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
官宸宇: "面向事件的社交媒体文本自动摘要研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 138 - 548 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019768A (zh) * 2019-03-28 2019-07-16 北京深海巨鲸信息科技有限公司 生成文本摘要的方法及装置
CN110110330A (zh) * 2019-04-30 2019-08-09 腾讯科技(深圳)有限公司 基于文本的关键词提取方法和计算机设备
CN110110330B (zh) * 2019-04-30 2023-08-11 腾讯科技(深圳)有限公司 基于文本的关键词提取方法和计算机设备
CN110264792A (zh) * 2019-06-17 2019-09-20 上海元趣信息技术有限公司 一种针对小学生作文智能辅导系统
CN110264792B (zh) * 2019-06-17 2021-11-09 上海元趣信息技术有限公司 一种针对小学生作文智能辅导系统
WO2020253043A1 (zh) * 2019-06-20 2020-12-24 平安科技(深圳)有限公司 智能文本分类方法、装置及计算机可读存储介质
CN110442706B (zh) * 2019-07-17 2023-02-03 华南师范大学 一种文本摘要生成的方法、系统、设备及存储介质
CN110442706A (zh) * 2019-07-17 2019-11-12 华南师范大学 一种文本摘要生成的方法、系统、设备及存储介质
CN110929094A (zh) * 2019-11-20 2020-03-27 北京香侬慧语科技有限责任公司 一种视频标题处理方法和装置
CN110929094B (zh) * 2019-11-20 2023-05-16 北京香侬慧语科技有限责任公司 一种视频标题处理方法和装置
CN111274369A (zh) * 2020-01-09 2020-06-12 广东小天才科技有限公司 一种英文单词的识别方法及装置
CN111858908A (zh) * 2020-03-03 2020-10-30 北京市计算中心 一种摘报文本生成方法、装置、服务器及可读存储介质
CN112464657A (zh) * 2020-12-07 2021-03-09 上海交通大学 混合式文本摘要生成方法、系统、终端及存储介质
CN112464657B (zh) * 2020-12-07 2022-07-08 上海交通大学 混合式文本摘要生成方法、系统、终端及存储介质
CN112784035A (zh) * 2020-12-31 2021-05-11 山西三友和智慧信息技术股份有限公司 一种多篇文档重点信息提取方法
CN113590763A (zh) * 2021-09-27 2021-11-02 湖南大学 一种基于深度学习的相似文本检索方法、装置及存储介质

Also Published As

Publication number Publication date
CN109471933B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
CN109471933A (zh) 一种文本摘要的生成方法、存储介质和服务器
Ghag et al. Comparative analysis of effect of stopwords removal on sentiment classification
CN108536677A (zh) 一种专利文本相似度计算方法
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
Al-Ash et al. Fake news identification characteristics using named entity recognition and phrase detection
Badri et al. Combining fasttext and glove word embedding for offensive and hate speech text detection
Weerasinghe et al. Feature vector difference based neural network and logistic regression models for authorship verification
CN108062351A (zh) 关于特定主题类别的文本摘要提取方法、可读存储介质
Hossain et al. Authorship classification in a resource constraint language using convolutional neural networks
Bhakuni et al. Evolution and evaluation: Sarcasm analysis for twitter data using sentiment analysis
Hasan et al. An empirical study of important keyword extraction techniques from documents
Amin et al. Multiclass classification for bangla news tags with parallel cnn using word level data augmentation
Al Mostakim et al. Bangla content categorization using text based supervised learning methods
Nguyen et al. Kelabteam: A statistical approach on figurative language sentiment analysis in twitter
Dehghani et al. Semi-automatic detection of Persian stopwords using FastText library
Dubey et al. Sentiment analysis of keenly intellective smart phone product review utilizing SVM classification technique
Yan et al. Sentiment Analysis of Short Texts Based on Parallel DenseNet.
Rondon et al. Never-ending multiword expressions learning
Ghasemi et al. Persian text classification via character-level convolutional neural networks
Oljira et al. Sentiment analysis of afaan oromo using machine learning approach
Huangfu et al. An improved sentiment analysis algorithm for Chinese news
Sergienko et al. Text categorization methods application for natural language call routing
Paul et al. Semantic Topic Extraction from Bangla News Corpus Using LDA and BERT-LDA
Nazir et al. The evolution of trends and techniques used for data mining
Toleu et al. Keyvector: Unsupervised keyphrase extraction using weighted topic via semantic relatedness

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant