CN110737768A - 基于深度学习的文本摘要自动生成方法及装置、存储介质 - Google Patents

基于深度学习的文本摘要自动生成方法及装置、存储介质 Download PDF

Info

Publication number
CN110737768A
CN110737768A CN201910984379.7A CN201910984379A CN110737768A CN 110737768 A CN110737768 A CN 110737768A CN 201910984379 A CN201910984379 A CN 201910984379A CN 110737768 A CN110737768 A CN 110737768A
Authority
CN
China
Prior art keywords
sentence
text
corpus
sentences
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910984379.7A
Other languages
English (en)
Other versions
CN110737768B (zh
Inventor
王慜骊
林路
刘卫东
郏维强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUNYARD SYSTEM ENGINEERING Co Ltd
Original Assignee
SUNYARD SYSTEM ENGINEERING Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUNYARD SYSTEM ENGINEERING Co Ltd filed Critical SUNYARD SYSTEM ENGINEERING Co Ltd
Priority to CN201910984379.7A priority Critical patent/CN110737768B/zh
Publication of CN110737768A publication Critical patent/CN110737768A/zh
Application granted granted Critical
Publication of CN110737768B publication Critical patent/CN110737768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开一种基于深度学习的文本摘要自动生成方法及装置、存储介质,其中方法包括如下步骤:构建中文语料库;对语料库中的语料文本进行预处理提取语料文本中的关键词表;分析语料文本中句子之间的和句子本身的句子特征向量,根据句子特征向量构建句子向量化后的特征模型;采用句子向量化后的特征模型对待处理文本进行训练建立模型,生成对应的文本摘要。采用本发明,在保证生成摘要准确率的前提下,可以避免有价值内容的遗漏。

Description

基于深度学习的文本摘要自动生成方法及装置、存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于深度学习的文本摘要自动生成方法及装置、存储介质。
背景技术
现在每天的新闻数据来自各大门户网站,信息越来越多,数据也是爆炸式增长。我们可以快速获取大量信息,但是信息冗余,很难在短时间了解特定的消息,需要花费大量时间剔除无用的信息。现有技术中有自动的工具可以帮忙用户们阅读新闻,然后提取一篇新闻的重要信息。常用的抽取摘要的方法是单纯地利用所抽取的原有文档中的短语组成摘要,所生成的摘要文本准确性不高,且遗漏有价值内容的概率较大。
发明内容
本发明实施例提供一种基于深度学习的文本摘要自动生成方法及装置、存储介质,在保证生成摘要准确率的前提下,可以避免有价值内容的遗漏。
本发明实施例第一方面提供了一种基于深度学习的文本摘要自动生成方法,可包括:
构建中文语料库;
对语料库中的语料文本进行预处理提取语料文本中的关键词表;
分析语料文本中句子之间的和句子本身的句子特征向量,根据句子特征向量构建句子向量化后的特征模型;
采用句子向量化后的特征模型对待处理文本进行训练建立模型,生成对应的文本摘要。
进一步的,上述构建中文语料库,包括:
将所获取的语料文本划分为多个句子;
对所划分的句子进行分词处理,并将分词后的汉字转化为数据序列,标记<EOS>为句子结尾。
进一步的,上述对语料库中的语料文本进行预处理提取语料文本中的关键词表,包括:
对分词处理后的语料文本进行停用词过滤,计算过滤后每个词的TF-IDF权值并放入权值列表LW中;
根据TF-IDF权重的大小选取权值列表中的前N个权值对应的关键词组成待定关键词表;
基于N-gram模型对关键词表进行优化,基于优化的关键词更新待定关键词表得到更新后的关键词表。
进一步的,上述分析语料文本中句子之间的和句子本身的句子特征向量,根据句子特征向量构建句子向量化后的特征模型,包括:
根据关键词表确定语料文本中的关键句,关键句为包含关键词最多的句子;
计算语料文本中句子i与关键句之间的第一特征向量,第一特征向量包括句子i与关键句之间相似度和相关程度;
确定句子本身的第二特征向量,第二特征向量包括句子本身包含LW列表中关键词的数据、句子在语料文本中的位置、句子中的重要连接词、句子的实体名词以及句子长度;
以第一特征向量和第二特征向量作为维度构建句子向量化后的特征模型。
进一步的,上述采用句子向量化后的特征模型对待处理文本进行训练建立模型,生成对应的文本摘要,包括:
基于句子向量特征模型学习待处理文本中句子的权值;
根据待处理文本中句子的权值确定用于组成文本摘要的摘要句子,并组成输出本文摘要。
本发明实施例第二方面提供了一种基于深度学习的文本摘要自动生成装置,可包括:
语料库构建模块,用于构建中文语料库;
关键词提取模块,用于对语料库中的语料文本进行预处理提取语料文本中的关键词表;
特征模型构建模块,用于分析语料文本中句子之间的和句子本身的句子特征向量,根据句子特征向量构建句子向量化后的特征模型;
文本摘要生成模块,用于采用句子向量化后的特征模型对待处理文本进行训练建立模型,生成对应的文本摘要。
进一步的,上述语料库构建模块包括:
句子划分单元,用于将所获取的语料文本划分为多个句子;
句子数据化单元,用于对所划分的句子进行分词处理,并将分词后的汉字转化为数据序列,标记<EOS>为句子结尾。
进一步的,上述关键词提取模块包括:
权值计算单元,用于对分词处理后的语料文本进行停用词过滤,计算过滤后每个词的TF-IDF权值并放入权值列表LW中;
关键词初确定单元,用于根据TF-IDF权重的大小选取权值列表中的前N个权值对应的关键词组成待定关键词表;
关键词优化单元,用于基于N-gram模型对关键词表进行优化,基于优化的关键词更新待定关键词表得到更新后的关键词表。
进一步的,上述特征模型构建模块包括:
关键句确定单元,用于根据关键词表确定语料文本中的关键句,关键句为包含关键词最多的句子;
第一向量计算单元,用于计算语料文本中句子i与关键句之间的第一特征向量,第一特征向量包括句子i与关键句之间相似度和相关程度;
第二向量确定单元,用于确定句子本身的第二特征向量,第二特征向量包括句子本身包含LW列表中关键词的数据、句子在语料文本中的位置、句子中的重要连接词、句子的实体名词以及句子长度;
特征模型构建单元,用于以第一特征向量和第二特征向量作为维度构建句子向量化后的特征模型。
进一步的,上述文本摘要生成模块包括:
句子权值计算单元,用于基于句子向量特征模型学习待处理文本中句子的权值;
文本摘要生成单元,用于根据待处理文本中句子的权值确定用于组成文本摘要的摘要句子,并组成输出本文摘要。
本发明实施例第三方面提供了一种计算机设备,该设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述方面的基于深度学习的文本摘要自动生成方法。
本发明实施例第四方面提供了一种计算机存储介质,该计算机存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方面所述的基于深度学习的文本摘要自动生成方法。
在本发明实施例中,通过语料库构建句子向量化后的特征模型,再据此模型从原文档中获取主要思想后,利用自然语言理解技术对待处理文本进行语法语义的分析,然后对信息进行抽取并且融合,通过自然语言生成的技术生成新的文本摘要,在保证生成摘要准确率的前提下,避免了有价值内容的遗漏。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于深度学习的文本摘要自动生成方法的流程示意图;
图2是本发明实施例提供的一种基于深度学习的文本摘要自动生成装置的结构示意图;
图3是本发明实施例提供的语料库构建模块的结构示意图;
图4是本发明实施例提供的关键词提取模块的结构示意图;
图5是本发明实施例提供的特征模型构建模块的结构示意图;
图6是本发明实施例提供的文本摘要生成模块的结构示意图;
图7是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含,术语“第一”和“第二”仅是为了区别命名,并不代表数字的大小或者排序。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
需要说明的是,本申请提供的基于深度学习的文本摘要自动生成方法可以应用于提取在各平台展示新闻内容的摘要的应用场景。
本发明实施例中,基于深度学习的文本摘要自动生成方法可以应用于计算机设备中,该计算机设备可以是智能手机、平板电脑、PC(Personal Computer,个人计算机)等终端,也可以是其它具备计算处理能力的电子设备。
如图1所示,基于深度学习的文本摘要自动生成方法至少可以包括以下几个步骤:
S101,构建中文语料库。
具体的,计算机设备可以获取大量的语料文本,并据此构建中文语料库。可选的,设备可以将获取到的语料文本划分为多个句子,然后对划分后的句子进行分词处理并将汉字转化为数字序列,标记<EOS>为句子结尾。可以理解的是,每个语料文本都对应一个唯一标识符,划分后的句子也分别对应于该标识符,从而不会导致语料库中的句子混乱。
S102,对语料库中的语料文本进行预处理提取语料文本中的关键词表。
具体的,设备可以读取语料库中的文本数据,并对分词处理后的语料文本进行停用词过滤,滤除无用的停用词。可以理解的是,停用词主要是一些对功能词没有什么实际含义和词汇词即一些高频率、却不反映文本主题的词,过滤掉之后,将提高搜索性能。进一步的,设备可以计算过滤后每个词的TF-IDF权值并放入权值列表LW中,进一步的,可以根据TF-IDF权重的大小选取权值列表中的前N个权值对应的关键词组成待定关键词表。进一步的,可以基于N-gram模型对关键词表进行优化,基于优化的关键词更新待定关键词表得到更新后的关键词表。
在可选实施例中,设备可以利用关键词的评估函数wi进行关键词优化,具体的,评价函数为:
其中,ni,j是词语i在语料文本S中的出现次数,Si是出现关键词i的句子数,K是语料文本包含的总句子数量。具体实现中,在基于上述评价函数进行关键词用户时,利用N-gram对关键词表进行优化,如果N=2,将特征词两两组合形成组合词(wi,wj),同时计算出组合词在新闻中的词频F(wi),F(wj)。如果满足F(wi,wj)2=F(wi)F(wj),组合词作为新的关键词加入关键词表中,同时剔除原有的关键词wi,wj
S103,分析所述语料文本中句子之间的和句子本身的句子特征向量,根据句子特征向量构建句子向量化后的特征模型。
需要说明的是,在分析语料文本中句子之间的句子特征向量之前,设备可以根据关键词表确定语料文本中的关键句,该关键句可以为包含关键词最多的句子。进一步的,可以计算语料文本中句子i与关键句之间的第一特征向量即句子i与关键句之间相似度和相关程度。
可以理解的是,语料文本由句子特征向量组成二维文本特征向量矩阵T,则有T={s1,s2,..,sn},si={f1,f2,..,fn},其中fi表示每个维度的特征值。可以使用TextRank算法计算句子之间相似度,当句子的相似度超过固定阀值,认为相似。如果用图论来形容,将文本中的每个句子分别看做一个节点,如果两个句子有相似性,那么认为这两个句子对应的节点之间存在一条无向有权边,和句子i连接的边越多,该句子的对于全文的重要性也就更大,同时对于作为摘要的可能性也更大。具体实现中可以由下式计算句子i与关键句之间的相似度:
其中,Si,Sj分别表示两个句子词的个数总数,wk表示句子中的词,那么分子部分的意思是同时出现在两个句子中的同一个词的个数,分母是对句子中词的个数求对数和。句子i的相似度是句子i与所有大于阈值的句子相似度的累加和,既
Figure BDA0002236234120000063
K指文本中所有句子的数量。
针对句子i与关键句之间的相关程度:
关键句子代表包含关键词最多的句子。若文本中除关键之外,一个句子与关键句的相似度越高,根据统计,该句子被选取为摘要句子的概率也越高。
在一种实现方式中,设备确定句子本身的第二特征向量即句子本身包含LW列表中关键词的数据、句子在语料文本中的位置、句子中的重要连接词、句子的实体名词以及句子长度。
针对句子本身包含LW列表中关键词的数据,可以根据统计,含有一个或多个关键词的句子对摘要抽取影响比较大。不含关键词的句,权重设定为1,含有关键词的句子,将其特征权重为
KeyWord=1+α1×NN
其中,α1设定为0.3,NN为关键词的数量。
针对句子在语料文本中的位置,可以根据统计,对于首段、最后一段以及每段首段句子,作为摘要的可能性大于其他句子。给予更大首段句子中越靠前的句子赋予越大的权值,末段句子越靠后的句子赋予权值越大,然后将首段句子赋予一个权重,以便于提升摘要的特征值。
针对句子中的重要连接词,句子中连词可以帮助找到句子关系中更大含义的核心,比如通过显示地使用“因此”这样的连词,句子之间可以相互关联。通过统计这种类型的连词以及在句子间的关系,构建连词字典以及对应的映射关系。这类转折词的句子含有更多文本信息,将总结类含义的连词后的句子赋予更多的权值,一般赋值为1.7。
针对句子的实体名词,可以根据历史新闻,统计抽取常用的相关实体名词,对于包含这些实体名词的句子,提高抽取摘要时候的权重。
针对句子长度,长度小于5个字的句子忽略不计,不作为抽取,超过字数的句子的权重为1+γ*(1-5)。
进一步的,设备可以以上述句子特征向量作为维度构建句子向量化后的特征模型。
S104,采用句子向量化后的特征模型对待处理文本进行训练建立模型,生成对应的文本摘要。
在可选实施例中,设备可以基于句子向量特征模型学习待处理文本中句子的权值,然后根据待处理文本中句子的权值确定用于组成文本摘要的摘要句子,并组成输出本文摘要。
在一种优选实现方式中,设备可以基于Encoder-Decoder编码-解码模型训练神经网络,学习抽取权值高的句子作为文本摘要。
其中,在Encoder的过程中,采用了双向长短时记忆循环神经网络+Attention的模型编码生成中间语义向量C。这种编码形式保证了Encode生成的摘要中间语义时,同时包含了当前句子与后面句子两个前后上文本信息(句子)对当前句子的影响和作用。
在Decoder过程中,采用RNN-based模型解码生成文本摘要,其任务是根据中间语义表示C和之前已经生成的历史信息y1,y2….yi-1来生成i时刻要生成yi。模型考虑了在Decoder过程编码时,与传统模型不同的是考虑中间变量与历史的输入文本信息对每个句子的解码输出的的不同影响,而现在是直接利用Attention产生的中间语义变量选择摘要句子。其中Attention Model的特点为:普通的Encoder-Decoder模式中加入了Attention固定的语义向量C换成了根据当前输出摘要来调整成加入注意力模型的变化的Ci,每个Ci可能对应着不同的源句子特征的Attention分配概率分布。针对待处理文本的摘要输出过程如下:
输入待处理文本X={x1,x2,…,xm}
中间语义C={C1,C2,…,Cm}
输出摘要Yi=g(Ci,Y1,Y2,…,Yi-1)。
在本发明实施例中,通过语料库构建句子向量化后的特征模型,再据此模型从原文档中获取主要思想后,利用自然语言理解技术对待处理文本进行语法语义的分析,然后对信息进行抽取并且融合,通过自然语言生成的技术生成新的文本摘要,在保证生成摘要准确率的前提下,避免了有价值内容的遗漏。
下面将结合附图2-附图6,对本发明实施例提供的基于深度学习的文本摘要自动生成装置进行详细介绍。需要说明的是,附图2-附图6所示的摘要自动生成装置,用于执行本发明图1所示实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明图1所示的实施例。
请参见图2,为本发明实施例提供了一种基于深度学习的文本摘要自动生成装置的结构示意图。如图2所示,本发明实施例的摘要自动生成装置10可以包括:语料库构建模块101、关键词提取模块102、特征模型构建模块103和文本摘要生成模块104。其中,语料库构建模块101如图3所示,包括句子划分单元1011和句子数据化单元1012,关键词提取模块102如图4所示,包括权值计算单元1021、关键词初确定单元1022和关键词优化单元1023,特征模型构建模块103如图5所示,包括关键句确定单元1031、第一向量计算单元1032、第二向量确定单元1033和特征模型构建单元1034,文本摘要生成模块104如图6所示,包括句子权值计算单元1041和文本摘要生成单元1042。
语料库构建模块101,用于构建中文语料库。
在可选实施例中,语料库构建模块101包括:
句子划分单元1011,用于将所获取的语料文本划分为多个句子。
句子数据化单元1012,用于对所划分的句子进行分词处理,并将分词后的汉字转化为数据序列,标记<EOS>为句子结尾。
关键词提取模块102,用于对语料库中的语料文本进行预处理提取语料文本中的关键词表。
在可选实施例中,关键词提取模块102包括:
权值计算单元1021,用于对分词处理后的语料文本进行停用词过滤,计算过滤后每个词的TF-IDF权值并放入权值列表LW中。
关键词初确定单元1022,用于根据TF-IDF权重的大小选取权值列表中的前N个权值对应的关键词组成待定关键词表。
关键词优化单元1023,用于基于N-gram模型对关键词表进行优化,基于优化的关键词更新待定关键词表得到更新后的关键词表。
特征模型构建模块103,用于分析语料文本中句子之间的和句子本身的句子特征向量,根据句子特征向量构建句子向量化后的特征模型。
在可选实施例中,特征模型构建模块103包括:
关键句确定单元1031,用于根据关键词表确定语料文本中的关键句,关键句为包含关键词最多的句子。
第一向量计算单元1032,用于计算语料文本中句子i与关键句之间的第一特征向量,第一特征向量包括句子i与关键句之间相似度和相关程度。
第二向量确定单元1033,用于确定句子本身的第二特征向量,第二特征向量包括句子本身包含LW列表中关键词的数据、句子在语料文本中的位置、句子中的重要连接词、句子的实体名词以及句子长度。
特征模型构建单元1034,用于以第一特征向量和第二特征向量作为维度构建句子向量化后的特征模型。
文本摘要生成模块104,用于采用句子向量化后的特征模型对待处理文本进行训练建立模型,生成对应的文本摘要。
在可选实施例中,文本摘要生成模块104包括:
句子权值计算单元1041,用于基于句子向量特征模型学习待处理文本中句子的权值。
文本摘要生成单元1042,用于根据待处理文本中句子的权值确定用于组成文本摘要的摘要句子,并组成输出本文摘要。
需要说明的是,本实施例中摘要自动生成装置中各单元模块的执行过程可以参见上述方法实施例中的介绍,此处不再赘述。
在本发明实施例中,通过语料库构建句子向量化后的特征模型,再据此模型从原文档中获取主要思想后,利用自然语言理解技术对待处理文本进行语法语义的分析,然后对信息进行抽取并且融合,通过自然语言生成的技术生成新的文本摘要,在保证生成摘要准确率的前提下,避免了有价值内容的遗漏。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1所示实施例的方法步骤,具体执行过程可以参见图1所示实施例的具体说明,在此不进行赘述。
本申请实施例还提供了一种计算机设备。如图7所示,计算机设备20可以包括:至少一个处理器201,例如CPU,至少一个网络接口204,用户接口203,存储器205,至少一个通信总线202,可选地,还可以包括显示屏206。其中,通信总线202用于实现这些组件之间的连接通信。其中,用户接口203可以包括触摸屏、键盘或鼠标等等。网络接口204可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通过网络接口204可以与服务器建立通信连接。存储器205可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器,存储器205包括本发明实施例中的flash。存储器205可选的还可以是至少一个位于远离前述处理器201的存储系统。如图7所示,作为一种计算机存储介质的存储器205中可以包括操作系统、网络通信模块、用户接口模块以及程序指令。
需要说明的是,网络接口204可以连接接收器、发射器或其他通信模块,其他通信模块可以包括但不限于WiFi模块、蓝牙模块等,可以理解,本发明实施例中计算机设备也可以包括接收器、发射器和其他通信模块等。
处理器201可以用于调用存储器205中存储的程序指令,并使计算机设备20执行以下操作:
构建中文语料库;
对语料库中的语料文本进行预处理提取语料文本中的关键词表;
分析语料文本中句子之间的和句子本身的句子特征向量,根据句子特征向量构建句子向量化后的特征模型;
采用句子向量化后的特征模型对待处理文本进行训练建立模型,生成对应的文本摘要。
在一些实施例中,设备20在构建中文语料库时,具体用于:
将所获取的语料文本划分为多个句子;
对所划分的句子进行分词处理,并将分词后的汉字转化为数据序列,标记<EOS>为句子结尾。
在一些实施例中,设备20在对语料库中的语料文本进行预处理提取语料文本中的关键词表时,具体用于:
对分词处理后的语料文本进行停用词过滤,计算过滤后每个词的TF-IDF权值并放入权值列表LW中;
根据TF-IDF权重的大小选取权值列表中的前N个权值对应的关键词组成待定关键词表;
基于N-gram模型对关键词表进行优化,基于优化的关键词更新待定关键词表得到更新后的关键词表。
在一些实施例中,设备20在分析语料文本中句子之间的和句子本身的句子特征向量,根据句子特征向量构建句子向量化后的特征模型时,具体用于:
根据关键词表确定语料文本中的关键句,关键句为包含关键词最多的句子;
计算语料文本中句子i与关键句之间的第一特征向量,第一特征向量包括句子i与关键句之间相似度和相关程度;
确定句子本身的第二特征向量,第二特征向量包括句子本身包含LW列表中关键词的数据、句子在语料文本中的位置、句子中的重要连接词、句子的实体名词以及句子长度;
以第一特征向量和第二特征向量作为维度构建句子向量化后的特征模型。
在一些实施例中,设备20在采用句子向量化后的特征模型对待处理文本进行训练建立模型,生成对应的文本摘要时,具体用于:
基于句子向量特征模型学习待处理文本中句子的权值;
根据待处理文本中句子的权值确定用于组成文本摘要的摘要句子,并组成输出本文摘要。
在本发明实施例中,通过语料库构建句子向量化后的特征模型,再据此模型从原文档中获取主要思想后,利用自然语言理解技术对待处理文本进行语法语义的分析,然后对信息进行抽取并且融合,通过自然语言生成的技术生成新的文本摘要,在保证生成摘要准确率的前提下,避免了有价值内容的遗漏。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种基于深度学习的文本摘要自动生成方法,其特征在于,包括:
构建中文语料库;
对语料库中的语料文本进行预处理提取语料文本中的关键词表;
分析所述语料文本中句子之间的和句子本身的句子特征向量,根据所述句子特征向量构建句子向量化后的特征模型;
采用所述句子向量化后的特征模型对待处理文本进行训练建立模型,生成对应的文本摘要。
2.根据权利要求1所述的方法,其特征在于,所述构建中文语料库,包括:
将所获取的语料文本划分为多个句子;
对所划分的句子进行分词处理,并将分词后的汉字转化为数据序列,标记<EOS>为句子结尾。
3.根据权利要求2所述的方法,其特征在于,所述对语料库中的语料文本进行预处理提取语料文本中的关键词表,包括:
对分词处理后的语料文本进行停用词过滤,计算过滤后每个词的TF-IDF权值并放入权值列表LW中;
根据TF-IDF权重的大小选取所述权值列表中的前N个权值对应的关键词组成待定关键词表;
基于N-gram模型对关键词表进行优化,基于优化的关键词更新所述待定关键词表得到更新后的关键词表。
4.根据权利要求3所述的方法,其特征在于,所述分析所述语料文本中句子之间的和句子本身的句子特征向量,根据所述句子特征向量构建句子向量化后的特征模型,包括:
根据所述关键词表确定所述语料文本中的关键句,所述关键句为包含关键词最多的句子;
计算所述语料文本中句子i与所述关键句之间的第一特征向量,所述第一特征向量包括句子i与所述关键句之间相似度和相关程度;
确定句子本身的第二特征向量,所述第二特征向量包括句子本身包含LW列表中关键词的数据、句子在语料文本中的位置、句子中的重要连接词、句子的实体名词以及句子长度;
以所述第一特征向量和所述第二特征向量作为维度构建句子向量化后的特征模型。
5.根据权利要求4所述的方法,其特征在于,所述采用所述句子向量化后的特征模型对待处理文本进行训练建立模型,生成对应的文本摘要,包括:
基于所述句子向量特征模型学习待处理文本中句子的权值;
根据所述待处理文本中句子的权值确定用于组成文本摘要的摘要句子,并组成输出本文摘要。
6.一种基于深度学习的文本摘要自动生成装置,其特征在于,包括:
语料库构建模块,用于构建中文语料库;
关键词提取模块,用于对语料库中的语料文本进行预处理提取语料文本中的关键词表;
特征模型构建模块,用于分析所述语料文本中句子之间的和句子本身的句子特征向量,根据所述句子特征向量构建句子向量化后的特征模型;
文本摘要生成模块,用于采用所述句子向量化后的特征模型对待处理文本进行训练建立模型,生成对应的文本摘要。
7.根据权利要求6所述的装置,其特征在于,所述语料库构建模块包括:
句子划分单元,用于将所获取的语料文本划分为多个句子;
句子数据化单元,用于对所划分的句子进行分词处理,并将分词后的汉字转化为数据序列,标记<EOS>为句子结尾。
8.根据权利要求7所述的装置,其特征在于,所述关键词提取模块包括:
权值计算单元,用于对分词处理后的语料文本进行停用词过滤,计算过滤后每个词的TF-IDF权值并放入权值列表LW中;
关键词初确定单元,用于根据TF-IDF权重的大小选取所述权值列表中的前N个权值对应的关键词组成待定关键词表;
关键词优化单元,用于基于N-gram模型对关键词表进行优化,基于优化的关键词更新所述待定关键词表得到更新后的关键词表。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至5任一项所述的基于深度学习的文本摘要自动生成方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至5任一项所述的基于深度学习的文本摘要自动生成方法。
CN201910984379.7A 2019-10-16 2019-10-16 基于深度学习的文本摘要自动生成方法及装置、存储介质 Active CN110737768B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910984379.7A CN110737768B (zh) 2019-10-16 2019-10-16 基于深度学习的文本摘要自动生成方法及装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910984379.7A CN110737768B (zh) 2019-10-16 2019-10-16 基于深度学习的文本摘要自动生成方法及装置、存储介质

Publications (2)

Publication Number Publication Date
CN110737768A true CN110737768A (zh) 2020-01-31
CN110737768B CN110737768B (zh) 2022-04-08

Family

ID=69270057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910984379.7A Active CN110737768B (zh) 2019-10-16 2019-10-16 基于深度学习的文本摘要自动生成方法及装置、存储介质

Country Status (1)

Country Link
CN (1) CN110737768B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523302A (zh) * 2020-07-06 2020-08-11 成都晓多科技有限公司 一种句法分析方法、装置、存储介质及电子设备
CN111523304A (zh) * 2020-04-27 2020-08-11 华东师范大学 一种基于预训练模型的产品描述文本的自动生成方法
CN111767394A (zh) * 2020-06-24 2020-10-13 中国工商银行股份有限公司 一种基于人工智能专家系统的摘要提取方法及装置
CN111814482A (zh) * 2020-09-03 2020-10-23 平安国际智慧城市科技股份有限公司 文本关键数据的提取方法、系统和计算机设备
CN111832305A (zh) * 2020-07-03 2020-10-27 广州小鹏车联网科技有限公司 一种用户意图识别方法、装置、服务器和介质
CN112101005A (zh) * 2020-04-02 2020-12-18 上海迷因网络科技有限公司 一种快速表达力测试题目生成和动态调整方法
CN112347758A (zh) * 2020-11-06 2021-02-09 中国平安人寿保险股份有限公司 文本摘要的生成方法、装置、终端设备及存储介质
CN112347240A (zh) * 2020-10-16 2021-02-09 小牛思拓(北京)科技有限公司 文本摘要的抽取方法、装置、可读存储介质及电子设备
CN113609287A (zh) * 2021-09-16 2021-11-05 深圳豹耳科技有限公司 一种文本摘要的生成方法、装置、计算机设备和存储介质
WO2022241913A1 (zh) * 2021-05-17 2022-11-24 同济大学 基于异质图的文本摘要方法及装置、存储介质和终端

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN107133213A (zh) * 2017-05-06 2017-09-05 广东药科大学 一种基于算法的文本摘要自动提取方法与系统
US20170364586A1 (en) * 2016-06-20 2017-12-21 International Business Machines Corporation Contextual Content Graph for Automatic, Unsupervised Summarization of Content
CN108090049A (zh) * 2018-01-17 2018-05-29 山东工商学院 基于句子向量的多文档摘要自动提取方法及系统
CN108710613A (zh) * 2018-05-22 2018-10-26 平安科技(深圳)有限公司 文本相似度的获取方法、终端设备及介质
CN109635298A (zh) * 2018-12-11 2019-04-16 平安科技(深圳)有限公司 团体状态识别方法、装置、计算机设备及存储介质
CN109815492A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 一种基于识别模型的意图识别方法、识别设备及介质
CN109960724A (zh) * 2019-03-13 2019-07-02 北京工业大学 一种基于tf-idf的文本摘要方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
US20170364586A1 (en) * 2016-06-20 2017-12-21 International Business Machines Corporation Contextual Content Graph for Automatic, Unsupervised Summarization of Content
CN107133213A (zh) * 2017-05-06 2017-09-05 广东药科大学 一种基于算法的文本摘要自动提取方法与系统
CN108090049A (zh) * 2018-01-17 2018-05-29 山东工商学院 基于句子向量的多文档摘要自动提取方法及系统
CN108710613A (zh) * 2018-05-22 2018-10-26 平安科技(深圳)有限公司 文本相似度的获取方法、终端设备及介质
CN109635298A (zh) * 2018-12-11 2019-04-16 平安科技(深圳)有限公司 团体状态识别方法、装置、计算机设备及存储介质
CN109815492A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 一种基于识别模型的意图识别方法、识别设备及介质
CN109960724A (zh) * 2019-03-13 2019-07-02 北京工业大学 一种基于tf-idf的文本摘要方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DONALD GLOWINSKI 等: "Towards a minimal representation of affective gestures (Extended abstract)", 《2015 INTERNATIONAL CONFERENCE ON AFFECTIVE COMPUTING AND INTELLIGENT INTERACTION (ACII)》 *
程园等: "基于综合的句子特征的文本自动摘要", 《计算机科学》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101005A (zh) * 2020-04-02 2020-12-18 上海迷因网络科技有限公司 一种快速表达力测试题目生成和动态调整方法
CN112101005B (zh) * 2020-04-02 2022-08-30 上海迷因网络科技有限公司 一种快速表达力测试题目生成和动态调整方法
CN111523304B (zh) * 2020-04-27 2022-08-02 华东师范大学 一种基于预训练模型的产品描述文本的自动生成方法
CN111523304A (zh) * 2020-04-27 2020-08-11 华东师范大学 一种基于预训练模型的产品描述文本的自动生成方法
CN111767394A (zh) * 2020-06-24 2020-10-13 中国工商银行股份有限公司 一种基于人工智能专家系统的摘要提取方法及装置
CN111832305A (zh) * 2020-07-03 2020-10-27 广州小鹏车联网科技有限公司 一种用户意图识别方法、装置、服务器和介质
CN111832305B (zh) * 2020-07-03 2023-08-25 北京小鹏汽车有限公司 一种用户意图识别方法、装置、服务器和介质
CN111523302A (zh) * 2020-07-06 2020-08-11 成都晓多科技有限公司 一种句法分析方法、装置、存储介质及电子设备
CN111814482A (zh) * 2020-09-03 2020-10-23 平安国际智慧城市科技股份有限公司 文本关键数据的提取方法、系统和计算机设备
CN112347240A (zh) * 2020-10-16 2021-02-09 小牛思拓(北京)科技有限公司 文本摘要的抽取方法、装置、可读存储介质及电子设备
CN112347758A (zh) * 2020-11-06 2021-02-09 中国平安人寿保险股份有限公司 文本摘要的生成方法、装置、终端设备及存储介质
CN112347758B (zh) * 2020-11-06 2024-05-17 中国平安人寿保险股份有限公司 文本摘要的生成方法、装置、终端设备及存储介质
WO2022241913A1 (zh) * 2021-05-17 2022-11-24 同济大学 基于异质图的文本摘要方法及装置、存储介质和终端
CN113609287A (zh) * 2021-09-16 2021-11-05 深圳豹耳科技有限公司 一种文本摘要的生成方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110737768B (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
CN110737768B (zh) 基于深度学习的文本摘要自动生成方法及装置、存储介质
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
CN110019701B (zh) 用于问答服务的方法、问答服务系统以及存储介质
CN110674271B (zh) 一种问答处理方法及装置
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
CN111310440B (zh) 文本的纠错方法、装置和系统
CN108846138B (zh) 一种融合答案信息的问题分类模型构建方法、装置和介质
CN111144120A (zh) 一种训练语句的获取方法、装置、存储介质及电子设备
CN112395385A (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN103870000A (zh) 一种对输入法所产生的候选项进行排序的方法及装置
WO2023108993A1 (zh) 基于深度聚类算法的产品推荐方法、装置、设备及介质
CN102609424B (zh) 评价信息抽取方法和设备
CN110619051A (zh) 问题语句分类方法、装置、电子设备及存储介质
CN114676704A (zh) 句子情感分析方法、装置、设备以及存储介质
Gao et al. Text classification research based on improved Word2vec and CNN
EP3377983A1 (en) Generating feature embeddings from a co-occurrence matrix
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN111414561A (zh) 用于呈现信息的方法和装置
CN111767394A (zh) 一种基于人工智能专家系统的摘要提取方法及装置
CN111104516A (zh) 一种文本分类方法、装置及电子设备
CN110688540B (zh) 一种作弊账户筛选方法、装置、设备及介质
CN111291551A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Xinyada technology building, 3888 Jiangnan Avenue, Binjiang District, Hangzhou City, Zhejiang Province 310000

Applicant after: Sinyada Technology Co.,Ltd.

Address before: Xinyada technology building, 3888 Jiangnan Avenue, Binjiang District, Hangzhou City, Zhejiang Province 310000

Applicant before: SUNYARD SYSTEM ENGINEERING Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant