CN106919646B - 中文文本摘要生成系统及方法 - Google Patents

中文文本摘要生成系统及方法 Download PDF

Info

Publication number
CN106919646B
CN106919646B CN201710034464.8A CN201710034464A CN106919646B CN 106919646 B CN106919646 B CN 106919646B CN 201710034464 A CN201710034464 A CN 201710034464A CN 106919646 B CN106919646 B CN 106919646B
Authority
CN
China
Prior art keywords
vectors
sentence
paragraph
word
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710034464.8A
Other languages
English (en)
Other versions
CN106919646A (zh
Inventor
俞旸
凌志辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xinktech Information Technology Co ltd
Original Assignee
Nanjing Xinktech Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Xinktech Information Technology Co ltd filed Critical Nanjing Xinktech Information Technology Co ltd
Priority to CN201710034464.8A priority Critical patent/CN106919646B/zh
Publication of CN106919646A publication Critical patent/CN106919646A/zh
Application granted granted Critical
Publication of CN106919646B publication Critical patent/CN106919646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种中文文本摘要生成系统,包括预处理模块、词汇理解模块、句子理解模块、段落理解模块和摘要自动生成模块,其中,预处理模块用于进行分词和原始词向量的形成,词汇理解模块、句子理解模块和段落理解模块分别用于采用双向长短记忆神经网络来对词汇、句子和段落进行深度理解,摘要自动生成模块用于根据词汇理解模块、句子理解模块、段落理解模块理解后的词向量、句子向量和段落向量采用seg2seq生成摘要。本发明还公开了一种中文文本摘要生成方法。本发明利用神经网络让机器真正的去阅读全文,并将理解后的文本表示在神经网络内,再序列化的输出简短摘要,系统在理解文章时,除了语义外,还结合文章的结构表示,更加精细的理解了全文。

Description

中文文本摘要生成系统及方法
技术领域
本发明涉及文本数据处理技术领域,尤其涉及一种中文文本摘要生成系统及方法。
背景技术
文本摘要生成和总结是一个最近随着大数据而出现的科研技术难题。因为随着数据的爆炸性产生,特别是文本数据,人们已经无法及时浏览和理解所有感兴趣的相关文本,但遗漏某些重要的文本信息又会造成很多组织和应用的损失。因此文本摘要自动归纳总结是实际应用中非常需要的应用面非常广的一项技术。比如,用户对商家的评论总结,自动新闻摘要的产生。
目前大部分中文文章摘要自动产生工具的工作方式是进行关键字式的片段提取形成文章总结或摘要。它们主要的方法是寻找文章中的关键字。然后选取含有关键字较多的句子形成摘要。这些方法的主要缺点是不能概括全文,摘要中的句子直接没有很好的自然衔接。最重要的是这些方法都没有真正的理解文章用自己理解后的语言组织成摘要。具体来说,目前主流技术的步骤如下:
1、将原文本拆分为句子,在每个句子中过滤掉停用词(可选),并只保留指定词性的单词(可选)。由此可以得到句子的集合和单词的集合。每个单词作为关联图中的一个节点。设定窗口大小为k,假设一个句子依次由下面的单词组成:w1,w2,w3,w4,w5,..., wn,其中{w1,w2,...,wk},{w2,w3,...,wk+1},{w3,w4,...,wk+2}等都是一个窗口。在一个窗口中的任两个单词对应的节点之间存在一个无向无权的边。基于上面构成图,可以计算出每个单词节点的重要性。最重要的若干单词可以作为关键词。
2、接着是关键短语提取。若原文本中存在若干个关键词相邻的情况,那么这些关键词可以构成一个关键词组。例如,在一篇介绍支持向量机的文章中,可以找到关键词支持、向量、机,通过关键词组提取,可以得到支持向量机。
3、最后是摘要的生成。将每个句子看成图中的一个节点,若两个句子之间有相似性,认为对应的两个节点之间有一个无向有权边,权值是相似度。通过某种算法计算得到的重要性最高的若干句子可以当作摘要。
另外有些方法针对部分特别的结构化的文本,比如网页,XML等。这些技术利用这些结构信息,去估计某些关键位置或关键标签下的句子。最后将这些系统认为重要的句子组合成摘要。其主要缺点是不能概括全文,没有真正的理解文章用自己理解后的语言组织成摘要。除以上缺点之外,目前主流的文本摘要方法都有人为特征定制和提取的工作。
本发明是基于深度学习的Seq2Seq技术,全称Sequence to Sequence。该技术突破了传统的固定大小输入问题框架,开通了将经典深度神经网络模型(DNNs)运用于翻译与智能问答这一类序列型(Sequence Based,项目间有固定的先后关系)任务的先河,并被证实在翻译以及人机短问快答的应用中有着不俗的表现。首先简单介绍下Seq2Seq 模型。
Seq2Seq被提出于2014年,最早由两篇文章独立地阐述了它主要思想,分别是Google Brain团队的《Sequence to Sequence Learning with Neural Networks》和Yoshua Bengio团队的《Learning Phrase Representation using RNN Encoder-Decoderfor Statistical Machine Translation》。这两篇文章针对机器翻译的问题不谋而合地提出了相似的解决思路,Seq2Seq由此产生。Seq2Seq解决问题的主要思路是通过深度神经网络模型(常用的是LSTM,长短记忆网络,一种循环神经网络)将一个作为输入的序列映射为一个作为输出的序列,这一过程由编码输入与解码输出两个环节组成。seq2seq基础模型当应用于文档归纳时,它需要有独特的创新的变化,才能更好的解决特定问题。那么在文档归纳时,除了通常的seq2seq模型需要处理的问题以外,还需要以下注意几个关键特点: 1、文章中句子的主题连续性;2、文章中句子之间的含义跳转;3、文章中段落之间的核心关系。这些现有技术中都没有得以解决。
发明内容
发明目的:本发明针对现有技术存在的问题,提供一种中文文本摘要生成系统及方法。
技术方案:本发明所述的中文文本摘要生成系统包括预处理模块、词汇理解模块、句子理解模块、段落理解模块和摘要自动生成模块,其中:
所述预处理模块,用于将原始文本进行分词,并对每个词都形成对应的原始词向量;
所述词汇理解模块,用于按将原始词向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应词汇的具有上下文背景信息的词向量;
所述句子理解模块,用于将具有上下文背景信息的词向量转换为句子向量,并将句子向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应句子的具有上下文背景信息的句子向量;
所述段落理解模块,用于将句子向量转换为段落向量,并将段落向量集合作为输入,采用双向长短期记忆神经网络按顺序进行处理,得到对应段落的具有上下文背景信息的段落向量;
所述摘要自动生成模块,用于将词汇理解模块生成的词向量、句子理解模块生成的句子向量和段落理解模块生成的段落向量连接成一个总向量,并作为seq2seq模型中解码序列RNN的原始状态,采用seq2seq模型进行逐字逐句的输出,得到文章摘要。
进一步的,所述预处理模块具体用于将原始文本进行分词,并将分词后得到的每个词汇都形成一个原始词向量,并按顺序排列得到原始词向量集合W={wiw|iw=1,2,…,nw},wiw表示第iw 个词向量,nw表示词向量总个数。
进一步的,所述词汇理解模块具体用于按将原始词向量集合W作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应词汇的具有上下文背景信息的词向量wb iw,,形成词向量集合 Wb={wb iw|iw=1,2,…,nw}。
进一步的,所述句子理解模块具体用于按照原始文本中句子的词汇组成方式,将词向量集合Wb转换为句子向量集合S={sis|is=1,2,…,ns},并将句子向量集合S作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应句子的具有上下文背景信息的句子向量sb is,形成句子向量集合Sb={sb is|is=1,2,…,ns},其中,ns表示句子向量总个数。
进一步的,所述段落理解模块具体用于按照原始文本中段落的句子组成方式,将句子向量集合Sb转换为段落向量集合P={pip|ip=1,2,…,np},并将段落向量集合P作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应段落的具有上下文背景信息的段落向量pb ip,形成段落向量集合Pb={pb ip|ip=1,2,…,np},np表示段落向量总个数。
本发明所述的中文文本摘要生成方法包括以下步骤:
(1)将原始文本进行分词,并对每个词都形成对应的原始词向量;
(2)按将原始词向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应词汇的具有上下文背景信息的词向量;
(3)将具有上下文背景信息的词向量转换为句子向量,并将句子向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应句子的具有上下文背景信息的句子向量;
(4)将句子向量转换为段落向量,并将段落向量集合作为输入,采用双向长短期记忆神经网络按顺序进行处理,得到对应段落的具有上下文背景信息的段落向量;
(5)将步骤(2)生成的词向量、步骤(3)生成的句子向量和步骤(4)生成的段落向量连接成一个总向量,并作为seq2seq模型中解码序列RNN的原始状态,采用 seq2seq模型进行逐字逐句的输出,得到文章摘要。
进一步的,步骤(1)具体包括:
将原始文本进行分词,并将分词后得到的每个词汇都形成一个原始词向量,并按顺序排列得到原始词向量集合W={wiw|iw=1,2,…,nw},wiw表示第iw个词向量,nw表示词向量总个数。
进一步的,步骤(2)具体包括:按将原始词向量集合W作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应词汇的具有上下文背景信息的词向量wb iw,形成词向量集合 Wb={wb iw|iw=1,2,…,nw}。
进一步的,步骤(3)具体包括:按照原始文本中句子的词汇组成方式,将词向量集合Wb转换为句子向量集合S={sis|is=1,2,…,ns},并将句子向量集合S作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应句子的具有上下文背景信息的句子向量sb is,形成句子向量集合 Sb={sb is|is=1,2,…,ns},其中,ns表示句子向量总个数。
进一步的,步骤(4)具体包括:按照原始文本中段落的句子组成方式,将句子向量集合Sb转换为段落向量集合P={pip|ip=1,2,…,np},并将段落向量集合P作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应段落的具有上下文背景信息的段落向量pb ip,形成段落向量集合 Pb={pb ip|ip=1,2,…,np},np表示段落向量总个数。
有益效果:本发明与现有技术相比,其显著优点是:本发明模仿人类去通读全文,深层次理解文章总体含义。它的工作方式是模拟人类大脑的神经元,在每读入一个字的时候,会联系上下文形成短语,联系前后句子形成概要性的记忆。该记忆是选择性和持续更新的。当读完整片文章后,它的记忆里保留了对整个文章的一个深度理解概念。最后,它在通过序列化的输出字词序列,形成总结和摘要。再加上系统过去阅读的大量文献所形成的广义的基本常识,系统能够更加全面的总结摘要。
附图说明
图1是本发明的中文文本摘要生成系统的系统框图;
图2是本发明的流程示意图。
具体实施方式
如图1和图2所示,本实施例的中文文本摘要生成系统包括预处理模块、词汇理解模块、句子理解模块、段落理解模块和摘要自动生成模块,其中:
所述预处理模块,用于将原始文本进行分词,并将分词后得到的每个词汇都形成一个原始词向量,并按顺序排列得到原始词向量集合W={wiw|iw=1,2,…,nw},wiw表示第iw个词向量,nw表示词向量总个数;其中,分词具体采用的是现有技术中的分词方法,词汇都形成原始词向量的方法也是现有技术的方法,例如CBOW模型。
所述词汇理解模块,用于将每个词汇的原始词向量wiw作为一个神经单元,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应词汇的具有上下文背景信息的词向量wb iw,,形成词向量集合 Wb={wb iw|iw=1,2,…,nw}。其中,该模块的双向长短期记忆神经网络的主要用途是让系统按顺序通读文章中每个词。双向是指从前往后和从后往前2个方向。递归网络在第t个时间步的判定会影响其在随后的时间步的判定。所以递归网络有来自当下和不久之前的两种输入,此二者的结合决定了网络对于新数据如何反应,与人类日常生活中的情形颇为相似。递归网络与前馈网络的区别便在于这种不断将自身上一刻输出当作输入的反馈循环。人们常说递归网络是有记忆的。为神经网络添加记忆的目的在于:序列本身即带有信息,而递归网络能利用这种信息完成前馈网络无法完成的任务。这些顺序信息保存在递归网络隐藏状态中,不断向前层层传递,跨越许多个时间步,影响每一个新样例的处理。人类记忆会在体内不断进行不可见的循环,对我们的行为产生影响而不显现出完整样貌,而信息也同样会在递归网络的隐藏状态中循环。用数学形式来描述将记忆向前传递的过程是:
ht=φ(Wxt+Uht-1),
即第t个时间步的隐藏状态ht是同一时间步的输入xt的函数,由一个权重矩阵W(和在前馈网络中使用的一样)修正,加上前一时间步的隐藏状态ht-1乘以它自己的隐藏状态到隐藏状态的矩阵U(或称过渡矩阵,与马尔可夫链近似)。其中φ是一个激活函数,常用sigmoid函数。权重矩阵W是决定赋予当前输入及过去隐藏状态多少重要性的筛选器。它们所产生的误差将会通过反向传播返回,用于调整权重,直到误差不能再降低为止。权重输入与隐藏状态之和用函数进行挤压-可能是逻辑S形函数(sigmoid函数) 或双曲正切函数,视具体情况而定-这是将很大或很小的值压缩至一个逻辑空间内的标准工具,同时也用于产生反向传播所能接受的梯度。由于这一反馈循环会在系列的每一个时间步发生,每一个隐藏状态不仅仅跟踪前一个隐藏状态,还包括了记忆能力范围内所有在之前的状态。若输入一系列字母,则递归网络必定会根据第一个字符来决定对第二个字符的感知,例如,第一个字母如果是x,网络就可能推断下一个字母是y,而第一个字母如果是a,则网络可能推断下一个字母是b。由于递归网络具有时间维度,所以可能用动画示意最为清楚(最先出现的节点垂直线可被视为一个前馈网络,随时间展开后变为递归网络)。通过正向和反向的处理,最后就得到了包含前面和后面相关的语境上下文的词向量。
所述句子理解模块,用于按照原始文本中句子的词汇组成方式,将词向量集合Wb转换为句子向量集合S={sis|is=1,2,…,ns},并将每个句子向量sis作为一个神经单元,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应句子的具有上下文背景信息的句子向量sb is,形成句子向量集合 Sb={sb is|is=1,2,…,ns},其中,ns表示句子向量总个数。词向量集合Wb转换的句子向量集合S中句子向量很好的具备了整个句子的信息和内部文字关系。再通过双向长短期记忆网络里,系统会着重的关注句子之间的转换或承接。
所述段落理解模块,用于按照原始文本中段落的句子组成方式,将句子向量集合Sb转换为段落向量集合P={pip|ip=1,2,…,np},并将每个段落向量pip作为一个神经单元,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应段落的具有上下文背景信息的段落向量pb ip,形成段落向量集合 Pb={pb ip|ip=1,2,…,np},np表示段落向量总个数。
所述摘要自动生成模块,用于将词向量集合Wb、句子向量集合Sb、段落向量集合 Pb作为输入,采用seq2seq模型进行逐字逐句的输出,得到文章摘要。本发明将3个向量(词,句子,段落)连接成一个大向量,这个大向量的大小是原来单独向量的3倍。然后把这个合并后的大向量,作为解码序列RNN的原始状态,然后逐步逐词的输出。其思想起源于“NeuralMachine Translation by Jointly Learning to Align and Translate”,但是本创新将它拓展到了中文文本摘要领域,并且为此领域应用做了必要的模型修改。 Seq2seq模型通常是用于自动翻译和自动问题回答,之所以能自动翻译或问题回答,都是经过大量训练得到,例如自动翻译的训练数据就是大量的成对的原文句子和翻译目标语言的句子,同理,自动摘要生成也是需要训练学习,训练数据可以是目前网上或机构内所有的各类文章和它的标题或人工总结的一些要点。更广义的说,只要有了这些成对的所谓的任何sequence输入作为训练,它学到的就是输出目标sequence。句子向量和段落向量的输入是帮助模型理解句子层级和段落层级的关联关系。另外,如果仅将词向量作为输入,生成摘要,很可能会拘泥于过多的单词细节,而忽略了句子和段落之间的承接,因此又将句子向量集合Sb、段落向量集合Pb作为输入,来关注句子和段落之间的承接。
本实施例的中文文本摘要生成方法包括以下步骤:
(1)将原始文本进行分词,并将分词后得到的每个词汇都形成一个原始词向量,并按顺序排列得到原始词向量集合W={wiw|iw=1,2,…,nw},wiw表示第iw个词向量,nw表示词向量总个数;
(2)按将原始词向量集合W作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应词汇的具有上下文背景信息的词向量wb iw,形成词向量集合Wb={wb iw|iw=1,2,…,nw};
(3)按照原始文本中句子的词汇组成方式,将词向量集合Wb转换为句子向量集合S={sis|is=1,2,…,ns},并将句子向量集合S作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应句子的具有上下文背景信息的句子向量sb is,形成句子向量集合Sb={sb is|is=1,2,…,ns},其中,ns表示句子向量总个数;
(4)按照原始文本中段落的句子组成方式,将句子向量集合Sb转换为段落向量集合P={pip|ip=1,2,…,np},并将段落向量集合P作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应段落的具有上下文背景信息的段落向量pb ip,形成段落向量集合Pb={pb ip|ip=1,2,…,np},np表示段落向量总个数;
(5)将词向量集合Wb、句子向量集合Sb、段落向量集合Pb连接成一个总向量,并作为seq2seq模型中解码序列RNN的原始状态,采用seq2seq模型进行逐字逐句的输出,得到文章摘要。
该方法与上述系统一一对应,因此不再赘述。

Claims (10)

1.一种中文文本摘要生成系统,其特征在于:该系统包括预处理模块、词汇理解模块、句子理解模块、段落理解模块和摘要自动生成模块,其中:
所述预处理模块,用于将原始文本进行分词,并对每个词都形成对应的原始词向量;
所述词汇理解模块,用于按将原始词向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应词汇的具有上下文背景信息的词向量;
所述句子理解模块,用于将具有上下文背景信息的词向量转换为句子向量,并将句子向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应句子的具有上下文背景信息的句子向量;
所述段落理解模块,用于将句子向量转换为段落向量,并将段落向量集合作为输入,采用双向长短期记忆神经网络按顺序进行处理,得到对应段落的具有上下文背景信息的段落向量;
所述摘要自动生成模块,用于将词汇理解模块生成的词向量、句子理解模块生成的句子向量和段落理解模块生成的段落向量连接成一个总向量,并作为seq2seq模型中解码序列RNN的原始状态,采用seq2seq模型进行逐字逐句的输出,得到文章摘要。
2.根据权利要求1所述的中文文本摘要生成系统,其特征在于:所述预处理模块具体用于将原始文本进行分词,并将分词后得到的每个词汇都形成一个原始词向量,并按顺序排列得到原始词向量集合W={wiw|iw=1,2,…,nw},wiw表示第iw个词向量,nw表示词向量总个数。
3.根据权利要求2所述的中文文本摘要生成系统,其特征在于:所述词汇理解模块具体用于按将原始词向量集合W作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应词汇的具有上下文背景信息的词向量wb iw,形成词向量集合Wb={wb iw|iw=1,2,…,nw}。
4.根据权利要求3所述的中文文本摘要生成系统,其特征在于:所述句子理解模块具体用于按照原始文本中句子的词汇组成方式,将词向量集合Wb转换为句子向量集合S={sis|is=1,2,…,ns},并将句子向量集合S作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应句子的具有上下文背景信息的句子向量sb is,形成句子向量集合Sb={sb is|is=1,2,…,ns},其中,ns表示句子向量总个数。
5.根据权利要求4所述的中文文本摘要生成系统,其特征在于:所述段落理解模块具体用于按照原始文本中段落的句子组成方式,将句子向量集合Sb转换为段落向量集合P={pip|ip=1,2,…,np},并将段落向量集合P作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应段落的具有上下文背景信息的段落向量pb ip,形成段落向量集合Pb={pb ip|ip=1,2,…,np},np表示段落向量总个数。
6.一种中文文本摘要生成方法,其特征在于:包括以下步骤:
(1)将原始文本进行分词,并对每个词都形成对应的原始词向量;
(2)按将原始词向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应词汇的具有上下文背景信息的词向量;
(3)将具有上下文背景信息的词向量转换为句子向量,并将句子向量集合作为输入,采用双向长短期记忆神经网络进行处理,得到对应句子的具有上下文背景信息的句子向量;
(4)将句子向量转换为段落向量,并将段落向量集合作为输入,采用双向长短期记忆神经网络按顺序进行处理,得到对应段落的具有上下文背景信息的段落向量;
(5)将步骤(2)生成的词向量、步骤(3)生成的句子向量和步骤(4)生成的段落向量连接成一个总向量,并作为seq2seq模型中解码序列RNN的原始状态,采用seq2seq模型进行逐字逐句的输出,得到文章摘要。
7.根据权利要求6所述的中文文本摘要生成方法,其特征在于:步骤(1)具体包括:
将原始文本进行分词,并将分词后得到的每个词汇都形成一个原始词向量,并按顺序排列得到原始词向量集合W={wiw|iw=1,2,…,nw},wiw表示第iw个词向量,nw表示词向量总个数。
8.根据权利要求7所述的中文文本摘要生成方法,其特征在于:步骤(2)具体包括:按将原始词向量集合W作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应词汇的具有上下文背景信息的词向量wb iw,形成词向量集合Wb={wb iw|iw=1,2,…,nw}。
9.根据权利要求8所述的中文文本摘要生成方法,其特征在于:步骤(3)具体包括:按照原始文本中句子的词汇组成方式,将词向量集合Wb转换为句子向量集合S={sis|is=1,2,…,ns},并将句子向量集合S作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应句子的具有上下文背景信息的句子向量sb is,形成句子向量集合Sb={sb is|is=1,2,…,ns},其中,ns表示句子向量总个数。
10.根据权利要求9所述的中文文本摘要生成方法,其特征在于:步骤(4)具体包括:按照原始文本中段落的句子组成方式,将句子向量集合Sb转换为段落向量集合P={pip|ip=1,2,…,np},并将段落向量集合P作为输入,采用双向长短期记忆神经网络按顺序进行正向和反向处理,将最终神经网络中各神经单元的记忆状态作为对应段落的具有上下文背景信息的段落向量pb ip,形成段落向量集合Pb={pb ip|ip=1,2,…,np},np表示段落向量总个数。
CN201710034464.8A 2017-01-18 2017-01-18 中文文本摘要生成系统及方法 Active CN106919646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710034464.8A CN106919646B (zh) 2017-01-18 2017-01-18 中文文本摘要生成系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710034464.8A CN106919646B (zh) 2017-01-18 2017-01-18 中文文本摘要生成系统及方法

Publications (2)

Publication Number Publication Date
CN106919646A CN106919646A (zh) 2017-07-04
CN106919646B true CN106919646B (zh) 2020-06-09

Family

ID=59453469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710034464.8A Active CN106919646B (zh) 2017-01-18 2017-01-18 中文文本摘要生成系统及方法

Country Status (1)

Country Link
CN (1) CN106919646B (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562718B (zh) * 2017-07-24 2020-12-22 科大讯飞股份有限公司 文本规整方法及装置、存储介质、电子设备
CN107861938B (zh) * 2017-09-21 2020-09-25 北京三快在线科技有限公司 一种poi文案生成方法及装置,电子设备
CN107679231A (zh) * 2017-10-24 2018-02-09 济南浪潮高新科技投资发展有限公司 一种垂直领域与开放领域混合型智能问答系统的实现方法
CN107784099A (zh) * 2017-10-24 2018-03-09 济南浪潮高新科技投资发展有限公司 一种自动生成中文新闻摘要的方法
CN109726383B (zh) * 2017-10-27 2023-06-23 普天信息技术有限公司 一种文章语义向量表示方法和系统
CN109753636A (zh) * 2017-11-01 2019-05-14 阿里巴巴集团控股有限公司 机器处理及文本纠错方法和装置、计算设备以及存储介质
CN109783795B (zh) * 2017-11-14 2022-05-06 深圳市腾讯计算机系统有限公司 一种摘要获取的方法、装置、设备及计算机可读存储介质
CN108153864A (zh) * 2017-12-25 2018-06-12 北京牡丹电子集团有限责任公司数字电视技术中心 基于神经网络生成文本摘要的方法
CN108319668B (zh) * 2018-01-23 2021-04-20 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
CN108491372B (zh) * 2018-01-31 2021-06-08 华南理工大学 一种基于seq2seq模型的中文分词方法
CN108334497A (zh) * 2018-02-06 2018-07-27 北京航空航天大学 自动生成文本的方法和装置
CN108376131A (zh) * 2018-03-14 2018-08-07 中山大学 基于seq2seq深度神经网络模型的关键词抽取方法
CN108491382A (zh) * 2018-03-14 2018-09-04 四川大学 一种半监督生物医学文本语义消歧方法
CN108427771B (zh) * 2018-04-09 2020-11-10 腾讯科技(深圳)有限公司 摘要文本生成方法、装置和计算机设备
CN108804611B (zh) * 2018-05-30 2021-11-19 浙江大学 一种基于自我评论序列学习的对话回复生成方法及系统
CN110555198B (zh) * 2018-05-31 2023-05-23 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
CN109766432B (zh) * 2018-07-12 2021-03-30 中国科学院信息工程研究所 一种基于生成对抗网络的中文摘要生成方法和装置
CN110852084B (zh) * 2018-07-27 2021-04-02 杭州海康威视数字技术股份有限公司 文本生成方法、装置及设备
CN109344391B (zh) * 2018-08-23 2022-10-21 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
US10459962B1 (en) * 2018-09-19 2019-10-29 Servicenow, Inc. Selectively generating word vector and paragraph vector representations of fields for machine learning
CN109471933B (zh) * 2018-10-11 2024-05-07 平安科技(深圳)有限公司 一种文本摘要的生成方法、存储介质和服务器
CN109522403B (zh) * 2018-11-05 2023-04-21 中山大学 一种基于融合编码的摘要文本生成方法
CN109284367B (zh) * 2018-11-30 2021-05-18 北京字节跳动网络技术有限公司 用于处理文本的方法和装置
CN109657244B (zh) * 2018-12-18 2023-04-18 语联网(武汉)信息技术有限公司 一种英文长句自动切分方法及系统
CN110147533B (zh) * 2019-01-24 2023-08-29 腾讯科技(深圳)有限公司 编码方法、装置、设备及存储介质
CN109992775B (zh) * 2019-03-25 2021-01-12 浙江大学 一种基于高级语义的文本摘要生成方法
CN111782798B (zh) * 2019-04-03 2024-01-12 阿里巴巴集团控股有限公司 摘要生成方法、装置和设备以及项目管理方法
CN110334196B (zh) * 2019-06-28 2023-06-27 同济大学 基于笔画和自注意力机制的神经网络中文问题生成系统
CN110443482A (zh) * 2019-07-26 2019-11-12 北京小土科技有限公司 一种电影剧本完成度量化评估系统
CN110619043A (zh) * 2019-08-30 2019-12-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于动态词向量的自动文本摘要生成方法
CN110750640B (zh) * 2019-09-17 2022-11-04 平安科技(深圳)有限公司 基于神经网络模型的文本数据分类方法、装置及存储介质
CN111241267B (zh) * 2020-01-10 2022-12-06 科大讯飞股份有限公司 摘要提取和摘要抽取模型训练方法及相关装置、存储介质
CN111274827B (zh) * 2020-01-20 2021-05-28 南京新一代人工智能研究院有限公司 一种基于词袋多目标学习的后缀翻译方法
CN113312473B (zh) * 2021-05-26 2022-06-07 北京理工大学 基于Seq2seq模型的摘要生成方法
CN113220870B (zh) * 2021-05-26 2022-09-06 北京理工大学 一种自然语言的摘要生成方法
CN113590763A (zh) * 2021-09-27 2021-11-02 湖南大学 一种基于深度学习的相似文本检索方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740226A (zh) * 2016-01-15 2016-07-06 南京大学 使用树形神经网络和双向神经网络实现中文分词
CN105930314A (zh) * 2016-04-14 2016-09-07 清华大学 基于编码-解码深度神经网络的文本摘要生成系统及方法
CN106294322A (zh) * 2016-08-04 2017-01-04 哈尔滨工业大学 一种基于lstm的汉语零指代消解方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740226A (zh) * 2016-01-15 2016-07-06 南京大学 使用树形神经网络和双向神经网络实现中文分词
CN105930314A (zh) * 2016-04-14 2016-09-07 清华大学 基于编码-解码深度神经网络的文本摘要生成系统及方法
CN106294322A (zh) * 2016-08-04 2017-01-04 哈尔滨工业大学 一种基于lstm的汉语零指代消解方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Attsum: Joint learning of focusing and summarization with neural attention;Cao Z, Li W, Li S, et al.;《arXiv preprint arXiv》;20161231;全文 *
Cho K, Van Merriënboer B, Gulcehre C, et al..Learning phrase representations using RNN encoder-decoder for statistical machine translation.《arXiv preprint arXiv》.2014,全文. *
Towards abstraction from extraction: Multiple timescale gated recurrent unit for summarization;Kim M, Singh M D, Lee M.;《arXiv preprint arXiv》;20161231;全文 *
基于语义重构的文本摘要算法;张弛;《中国优秀硕士学位论文全文数据库》;20161015;全文 *

Also Published As

Publication number Publication date
CN106919646A (zh) 2017-07-04

Similar Documents

Publication Publication Date Title
CN106919646B (zh) 中文文本摘要生成系统及方法
US11194972B1 (en) Semantic sentiment analysis method fusing in-depth features and time sequence models
TWI732271B (zh) 人機對話方法、裝置、電子設備及電腦可讀媒體
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN111460132B (zh) 一种基于图卷积神经网络的生成式会议摘要方法
CN109325112A (zh) 一种基于emoji的跨语言情感分析方法和装置
CN108628935A (zh) 一种基于端到端记忆网络的问答方法
CN110083710A (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN114428850B (zh) 一种文本检索匹配方法和系统
CN112199503B (zh) 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法
CN110851601A (zh) 基于分层注意力机制的跨领域情感分类系统及方法
CN110232127A (zh) 文本分类方法及装置
CN110321918A (zh) 基于微博的舆论机器人系统情感分析和图像标注的方法
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN114387537A (zh) 一种基于描述文本的视频问答方法
Mathur et al. A scaled‐down neural conversational model for chatbots
Yang Natural language processing based on convolutional neural network and semi supervised algorithm in deep learning
Bhalekar et al. Generation of image captions using VGG and ResNet CNN models cascaded with RNN approach
Ren et al. ABML: attention-based multi-task learning for jointly humor recognition and pun detection
Kumar et al. Augmenting small data to classify contextualized dialogue acts for exploratory visualization
Sawant et al. Analytical and Sentiment based text generative chatbot
KR20200040032A (ko) 양방향 lstm―attention 기반 한국어 게시글 분류 방법
Agrawal et al. Comparative analysis of NLP models for Google Meet Transcript summarization
Amrutha et al. Effortless and beneficial processing of natural languages using transformers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant