CN108509413A - 文摘自动提取方法、装置、计算机设备及存储介质 - Google Patents

文摘自动提取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN108509413A
CN108509413A CN201810191506.3A CN201810191506A CN108509413A CN 108509413 A CN108509413 A CN 108509413A CN 201810191506 A CN201810191506 A CN 201810191506A CN 108509413 A CN108509413 A CN 108509413A
Authority
CN
China
Prior art keywords
sequence
hidden state
word
lstm
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810191506.3A
Other languages
English (en)
Inventor
林林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810191506.3A priority Critical patent/CN108509413A/zh
Priority to US16/645,491 priority patent/US20200265192A1/en
Priority to PCT/CN2018/085249 priority patent/WO2019169719A1/zh
Priority to SG11202001628VA priority patent/SG11202001628VA/en
Priority to JP2019557629A priority patent/JP6955580B2/ja
Publication of CN108509413A publication Critical patent/CN108509413A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文摘自动提取方法、装置、计算机设备及存储介质。该方法包括:依序获取目标文本的字符并按顺序输入至LSTM模型中第一层LSTM结构进行编码,得到隐含状态组成的序列;将隐含状态组成的序列输入至LSTM模型中第二层LSTM结构进行解码得到摘要的字词序列;将摘要的字词序列输入第一层LSTM结构进行编码得到更新后隐含状态组成的序列;根据更新后隐含状态组成的序列中编码器隐藏状态的贡献值获取上下文向量,并获取对应字词的概率分布,将概率最大的字词作为目标文本的摘要。该方法采用LSTM对目标文本进行编码解码后,结合上下文变量得到目标文本的摘要,采取概括方式获取摘要,提高获取准确性。

Description

文摘自动提取方法、装置、计算机设备及存储介质
技术领域
本申请涉及文摘提取技术领域,尤其涉及一种文摘自动提取方法、装置、计算机设备及存储介质。
背景技术
目前,对文章概括文摘时,采用的是基于抽取式的方法。抽取式文摘是提取文章中最有代表性的关键句作为该文章的文摘。具体如下:
1)首先,对文章进行分词,去停用词,获得的组成文章的基本词组。
2)然后,根据计算词频获取高频词,并把高频词所在的句子作为关键句。
3)最后,指定若干数量的关键句即可组合成文摘。
上述抽取式方法比较适用于新闻、议论文等在文中往往出现总结性长句子的文体。例如财经文章,高频词往往是“现金”、“股票”、“央行”、“利息”等,抽取结果就往往是“央行加息导致股价下跌,现金为上已成股民众识”之类的长句子。抽取式方法有很大的局限性,如果处理的文本中缺失代表性的“关键句”,那抽取结果很可能毫无意义,尤其是对话类的文本。
发明内容
本申请提供了一种文摘自动提取方法、装置、计算机设备及存储介质,旨在解决现有技术中采用抽取式方法提取文章中的文摘仅适用于新闻、议论文等在文中出现总结性长句子的文体,对无关键句的文本提取摘要提取结果不准确的问题。
第一方面,本申请提供了一种文摘自动提取方法,其包括:
依序获取目标文本所包括的字符,将字符按顺序输入至LSTM模型中的第一层LSTM结构进行编码,得到隐含状态组成的序列;其中LSTM模型为长短记忆神经网络;
将隐含状态组成的序列输入至LSTM模型中的第二层LSTM结构进行解码,得到摘要的字词序列;
将摘要的字词序列输入至LSTM模型中的第一层LSTM结构进行编码,得到更新后隐含状态组成的序列;
根据更新后隐含状态组成的序列中编码器隐藏状态的贡献值,获取与编码器隐藏状态的贡献值相对应的上下文向量;
根据更新后隐含状态组成的序列及上下文向量,获取更新后隐含状态组成的序列中字词的概率分布,将字词的概率分布中概率最大的字词输出作为目标文本的摘要。
第二方面,本申请提供了一种文摘自动提取装置,其包括:
第一输入单元,用于依序获取目标文本所包括的字符,将字符按顺序输入至LSTM模型中的第一层LSTM结构进行编码,得到隐含状态组成的序列;其中LSTM模型为长短记忆神经网络;
第二输入单元,用于将隐含状态组成的序列输入至LSTM模型中的第二层LSTM结构进行解码,得到摘要的字词序列;
第三输入单元,用于将摘要的字词序列输入至LSTM模型中的第一层LSTM结构进行编码,得到更新后隐含状态组成的序列;
上下文向量获取单元,用于根据更新后隐含状态组成的序列中编码器隐藏状态的贡献值,获取与编码器隐藏状态的贡献值相对应的上下文向量;
摘要获取单元,用于根据更新后隐含状态组成的序列及上下文向量,获取更新后隐含状态组成的序列中字词的概率分布,将字词的概率分布中概率最大的字词输出作为目标文本的摘要。
第三方面,本申请又提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请提供的任一项所述的文摘自动提取方法。
第四方面,本申请还提供了一种存储介质,其中所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行本申请提供的任一项所述的文摘自动提取方法。
本申请提供一种文摘自动提取方法、装置、计算机设备及存储介质。该方法通过依序获取目标文本所包括的字符,将字符按顺序输入至LSTM模型中的第一层LSTM结构进行编码,得到隐含状态组成的序列;其中LSTM模型为长短记忆神经网络;将隐含状态组成的序列输入至LSTM模型中的第二层LSTM结构进行解码,得到摘要的字词序列;将摘要的字词序列输入至LSTM模型中的第一层LSTM结构进行编码,得到更新后隐含状态组成的序列;根据更新后隐含状态组成的序列中编码器隐藏状态的贡献值,获取与编码器隐藏状态的贡献值相对应的上下文向量;根据更新后隐含状态组成的序列及上下文向量,获取更新后隐含状态组成的序列中字词的概率分布,将字词的概率分布中概率最大的字词输出作为目标文本的摘要。该方法采用LSTM模型对目标文本进行编码和解码后,并结合上下文变量,得到目标文本的摘要,采取了概括的方式来总结获取目标文本的摘要,提高了文摘获取的准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文摘自动提取方法的示意流程图;
图2为本申请实施例提供的一种文摘自动提取方法的另一示意流程图;
图3是本申请实施例提供的一种文摘自动提取方法的子流程示意图;
图4为本申请实施例提供的一种文摘自动提取装置的示意性框图;
图5为本申请实施例提供的一种文摘自动提取装置的另一示意性框图;
图6为本申请实施例提供的一种文摘自动提取装置的子单元示意性框图;
图7为本申请实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本申请实施例提供的一种文摘自动提取方法的示意流程图。该方法应用于台式电脑、手提电脑、平板电脑等终端中。如图1所示,该方法包括步骤S101~S105。
S101、依序获取目标文本所包括的字符,将字符按顺序输入至LSTM模型中的第一层LSTM结构进行编码,得到隐含状态组成的序列;其中LSTM模型为长短记忆神经网络。
在本实施例中,先是通过分词来获取目标文本所包括的字符,所获取的字符为中文字符或英文字符,经过上述处理后将目标文本拆分成了多个字符。例如,对一篇中文文章进行分词时,采用如下步骤:
1)、对一个待分词的子串S,按照从左到右的顺序取出全部候选词w1,w2,…,wi,…,wn;
2)、到词典中查出每个候选词的概率值P(wi),并记录每个候选词的全部左邻词;
3)、计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻词;
4)、如果当前词wn是字串S的尾词,且累计概率P(wn)最大,则wn就是S的终点词;
5)、从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即S的分词结果。
依序获取了目标文本所包括的字符后,将其按顺序输入至已根据历史数据训练得到的LSTM模型,就能从多个分词中提炼出能构成摘要的词语组成最终的文摘。具体处理时,可以是以自然段为单位进行上述分词处理,提取当前自然段的关键句,最后将每段的关键句组合形成摘要(本申请中优选这一分词处理方式)。也可以是直接以一整篇文章为单位进行上述分词处理,提取多个关键词后组合成摘要。
在获取了目标文本所包括的字符后,输入LSTM模型进行处理。LSTM模型即长短记忆神经网络,其中LSTM的全称是Long Short-Term Memory,是一种时间递归神经网络,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。通过LSTM模型能目标文本所包括的字符进行编码,进行文本的摘要提取的前序处理。
为了更清楚的理解LSTM模型,下面对LSTM模型进行介绍。
LSTM的关键是元胞状态(Cell State),其可以视为横穿整个元胞顶部的水平线。元胞状态类似于传送带,它直接穿过整个链,同时只有一些较小的线性交互。元胞状态上承载的信息可以很容易地流过而不改变,LSTM有能力对元胞状态添加或者删除信息,上述能力通过门的结构来控制,即门可以选择性让信息通过,其中门结构是由一个Sigmoid神经网络层和一个元素级相乘操作组成。Sigmoid层输出0~1之间的值,每个值表示对应的部分信息是否应该通过。0值表示不允许信息通过,1值表示让所有信息通过。一个LSTM有3个门,来保护和控制元胞状态。
LSTM中至少包括三个门,分别如下:
1)遗忘门,其决定了上一时刻的单元状态有多少保留到当前时刻;
2)输入门,其决定了当前时刻网络的输入有多少保存到单元状态;
3)输入门,其决定了单元状态有多少输出到LSTM的当前输出值。
在一实施例中,所述LSTM模型为门限循环单元,所述门限循环单元的模型如下:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
其中,Wz、Wr、W是训练得到的权值参数值,xt是输入,ht-1是隐含状态,zt是更新状态,rt是重置信号,是与隐含状态ht-1对应的新记忆,ht是输出,σ()是sigmoid函数,tanh()是双曲正切函数。
目标文本所包括的字符通过了第一层LSTM结构进行编码,就转化成隐含状态组成的序列,对其继续进行解码就能获取初次处理后的序列,实现了对待选分词的精准提取。
在一实施例中,如图2所示,所述步骤S101之前还包括:
S101a、将语料库中的多篇历史文本置入第一层LSTM结构,并将历史文本对应的文摘置入第二层LSTM结构,进行训练得到LSTM模型。
LSTM模型的整体框架是固定的,只需要设置其输入层、隐藏层、输出层等各层的参数,就可以得到模型,其中设置输入层、隐藏层、输出层等各层的参数可以通过实验多次来得到最优的参数值。譬如,隐藏层节点有10个节点,那每个节点的数值可以从1取到10,那么就会尝试100种组合来得到100个训练模型,然后用大量数据去训练这100个模型,根据准确率等来得到一个最优的训练模型,这个最优的训练模型对应的节点值等参数就是最优参数(可以理解为上述GRU模型中的Wz、Wr、W就为此处的最优参数)。用最优的训练模型来应用到本方案中作为LSTM模型,这样能确保所提取的文摘更为准确。
S102、将隐含状态组成的序列输入至LSTM模型中的第二层LSTM结构进行解码,得到摘要的字词序列。
如图3所示,该步骤S102包括以下子步骤:
S1021、获取隐含状态组成的序列中概率最大的词,将隐含状态组成的序列中概率最大的词作为摘要的字词序列中的初始位词语;
S1022、将初始位词语中的每个字输入至第二层LSTM结构,与第二层LSTM结构的词表中每一字进行组合得到组合后序列,获取组合后序列中概率最大的词作为隐含状态组成的序列;
S1023、重复执行隐含状态组成的序列中每一字输入至第二层LSTM结构,与第二层LSTM结构的词表中每一字进行组合得到组合后序列,获取组合后序列中概率最大的词作为隐含状态组成的序列的步骤,直至检测到隐含状态组成的序列中的每一字与词表中的终止符组合时停止,并将隐含状态组成的序列作为摘要的字词序列。
在本实施例中,上述过程也即Beam Search算法(Beam Search算法即集束搜索算法),是用于解码隐含状态组成的序列的方法之一,其具体过程如下:
1)获取隐含状态组成的序列中概率最大的词作为摘要的字词序列中的初始位词语;
2)将初始位词语中的每个字与词表中的字进行组合得到第一次组合后序列,获取第一次组合后序列中概率最大的词作第一次更新后序列;重复上述过程直至检测到隐含状态组成的序列中的每一字与词表中的终止符组合时停止,最终输出摘要的字词序列。
Beam Search算法只在实际使用过程中(即test过程中)的时候需要,在训练过程中并不需要。训练的时候由于知道正确答案,并不需要再进行这个搜索。而在实际使用的时候,假设词表大小为3,内容为a,b,c。beam search算法最终输出序列个数(可用size表示最终输出序列个数)是2,decoder(第二层LSTM结构可以视为解码器decoder)解码的时候:
生成第1个词的时候,选择概率最大的2个词,假设为a,c,那么当前序列就是a c;生成第2个词的时候,我们将当前序列a和c,分别与词表中的所有词进行组合,得到新的6个序列aa、ab、ac、ca、cb、cc,然后从其中选择2个得分最高的作为当前序列,假如为aa cb;后面会不断重复这个过程,直至检测到隐含状态组成的序列中的每一字与词表中的终止符组合时停止,最终输出2个得分最高的序列。
将目标文本经过编码和解码后输出摘要的字词序列,此时还未组成一段完整的摘要文字。为了将摘要的字词序列组成一段完整的摘要,需要进行进一步的处理。
在一实施例中,将隐含状态组成的序列输入至LSTM模型中的第二层LSTM结构进行解码,得到摘要的字词序列中,所述摘要的字词序列为与词表大小相同的多项式分布层,并输出向量yt∈RK;其中yt中的第k维代表生成第k个词语的概率,t的取值为正整数,K为历史文本所对应词表的大小。
其中,将目标文本xt设置结束标志(如文本末尾的句号),每次将目标文本中的一个词输入到第一层LSTM结构,当到达目标文本xt的末尾时,则表示目标文本xt编码得到的隐含状态组成的序列(即hidden state vector)将作为第二层LSTM结构的输入进行解码,第二层LSTM结构输出与词表大小相同的softmax层(softmax层即多项式分布层),softmax层中的分量代表每个词语的概率;当LSTM的输出层为softmax时,每个时刻输出会产生向量yt∈RK,K即为词表的大小,yt向量中的第k维代表生成第k个词语的概率。通过向量来表示摘要的字词序列中每一词语的概率,更利于其作为下一次数据处理的输入的参考。
S103、将摘要的字词序列输入至LSTM模型中的第一层LSTM结构进行编码,得到更新后隐含状态组成的序列。
在本实施例中,将摘要的字词序列输入至LSTM模型中的第一层LSTM结构进行编码,是为了二次进行处理,以从摘要的字词序列选取最有可能的字词作为摘要的组成词。
S104、根据更新后隐含状态组成的序列中编码器隐藏状态的贡献值,获取与编码器隐藏状态的贡献值相对应的上下文向量。
在本实施例中,编码器隐藏状态的贡献值代表了他的所有隐藏状态的加权和,其中最高的权重对应了解码器在决定下一个词是考虑的增强隐藏状态的最大贡献以及最重要的隐藏状态。通过这一方式,能更准确的获取能代表文摘的上下文向量。
例如,将更新后隐含状态组成的序列转化为特征向量a,其中a={a1,a2,……,aL},则上下文向量Zt用下式表示:
其中,at,i就是衡量生成第t个词语时,第i个位置的特征向量所占的权重,L为更新后隐含状态组成的序列中字符的个数。
S105、根据更新后隐含状态组成的序列及上下文向量,获取更新后隐含状态组成的序列中字词的概率分布,将字词的概率分布中概率最大的字词输出作为目标文本的摘要。
在本实施例中,对目标文本的每一段文字进行处理,每一段都通过上述步骤来概括摘要,最后组合成一个完成的摘要。
可见,该方法采用LSTM对目标文本进行编码解码后,结合上下文变量得到目标文本的摘要,采取概括方式获取摘要,提高获取准确性。
本申请实施例还提供一种文摘自动提取装置,该文摘自动提取装置用于执行前述任一项文摘自动提取方法。具体地,请参阅图4,图4是本申请实施例提供的一种文摘自动提取装置的示意性框图。文摘自动提取装置100可以安装于台式电脑、平板电脑、手提电脑、等终端中。
如图4所示,文摘自动提取装置100包括第一输入单元101、第二输入单元102、第三输入单元103、上下文向量获取单元104、摘要获取单元105。
第一输入单元101,用于依序获取目标文本所包括的字符,将字符按顺序输入至LSTM模型中的第一层LSTM结构进行编码,得到隐含状态组成的序列;其中LSTM模型为长短记忆神经网络。
在本实施例中,先是通过分词来获取目标文本所包括的字符,所获取的字符为中文字符或英文字符,经过上述处理后将目标文本拆分成了多个字符。例如,对一篇中文文章进行分词时,采用如下步骤:
1)、对一个待分词的子串S,按照从左到右的顺序取出全部候选词w1,w2,…,wi,…,wn;
2)、到词典中查出每个候选词的概率值P(wi),并记录每个候选词的全部左邻词;
3)、计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻词;
4)、如果当前词wn是字串S的尾词,且累计概率P(wn)最大,则wn就是S的终点词;
5)、从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即S的分词结果。
依序获取了目标文本所包括的字符后,将其按顺序输入至已根据历史数据训练得到的LSTM模型,就能从多个分词中提炼出能构成摘要的词语组成最终的文摘。具体处理时,可以是以自然段为单位进行上述分词处理,提取当前自然段的关键句,最后将每段的关键句组合形成摘要(本申请中优选这一分词处理方式)。也可以是直接以一整篇文章为单位进行上述分词处理,提取多个关键词后组合成摘要。
在获取了目标文本所包括的字符后,输入LSTM模型进行处理。LSTM模型即长短记忆神经网络,其中LSTM的全称是Long Short-Term Memory,是一种时间递归神经网络,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。通过LSTM模型能目标文本所包括的字符进行编码,进行文本的摘要提取的前序处理。
为了更清楚的理解LSTM模型,下面对LSTM模型进行介绍。
LSTM的关键是元胞状态(Cell State),其可以视为横穿整个元胞顶部的水平线。元胞状态类似于传送带,它直接穿过整个链,同时只有一些较小的线性交互。元胞状态上承载的信息可以很容易地流过而不改变,LSTM有能力对元胞状态添加或者删除信息,上述能力通过门的结构来控制,即门可以选择性让信息通过,其中门结构是由一个Sigmoid神经网络层和一个元素级相乘操作组成。Sigmoid层输出0~1之间的值,每个值表示对应的部分信息是否应该通过。0值表示不允许信息通过,1值表示让所有信息通过。一个LSTM有3个门,来保护和控制元胞状态。
LSTM中至少包括三个门,分别如下:
1)遗忘门,其决定了上一时刻的单元状态有多少保留到当前时刻;
2)输入门,其决定了当前时刻网络的输入有多少保存到单元状态;
3)输入门,其决定了单元状态有多少输出到LSTM的当前输出值。
在一实施例中,所述LSTM模型为门限循环单元,所述门限循环单元的模型如下:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
其中,Wz、Wr、W是训练得到的权值参数值,xt是输入,ht-1是隐含状态,zt是更新状态,rt是重置信号,是与隐含状态ht-1对应的新记忆,ht是输出,σ()是sigmoid函数,tanh()是双曲正切函数。
目标文本所包括的字符通过了第一层LSTM结构进行编码,就转化成隐含状态组成的序列,对其继续进行解码就能获取初次处理后的序列,实现了对待选分词的精准提取。
在一实施例中,如图5所示,所述文摘自动提取装置100还包括:
历史数据训练单元101a、将语料库中的多篇历史文本置入第一层LSTM结构,并将历史文本对应的文摘置入第二层LSTM结构,进行训练得到LSTM模型。
LSTM模型的整体框架是固定的,只需要设置其输入层、隐藏层、输出层等各层的参数,就可以得到模型,其中设置输入层、隐藏层、输出层等各层的参数可以通过实验多次来得到最优的参数值。譬如,隐藏层节点有10个节点,那每个节点的数值可以从1取到10,那么就会尝试100种组合来得到100个训练模型,然后用大量数据去训练这100个模型,根据准确率等来得到一个最优的训练模型,这个最优的训练模型对应的节点值等参数就是最优参数(可以理解为上述GRU模型中的Wz、Wr、W就为此处的最优参数)。用最优的训练模型来应用到本方案中作为LSTM模型,这样能确保所提取的文摘更为准确。
第二输入单元102,用于将隐含状态组成的序列输入至LSTM模型中的第二层LSTM结构进行解码,得到摘要的字词序列。
如图6所示,所述第二输入单元102包括以下子单元:
初始化单元1021,用于获取隐含状态组成的序列中概率最大的词,将隐含状态组成的序列中概率最大的词作为摘要的字词序列中的初始位词语;
更新单元1022,用于将初始位词语中的每个字输入至第二层LSTM结构,与第二层LSTM结构的词表中每一字进行组合得到组合后序列,获取组合后序列中概率最大的词作为隐含状态组成的序列;
重复执行单元1023,用于重复执行隐含状态组成的序列中每一字输入至第二层LSTM结构,与第二层LSTM结构的词表中每一字进行组合得到组合后序列,获取组合后序列中概率最大的词作为隐含状态组成的序列的步骤,直至检测到隐含状态组成的序列中的每一字与词表中的终止符组合时停止,并将隐含状态组成的序列作为摘要的字词序列。
在本实施例中,上述过程也即Beam Search算法(Beam Search算法即集束搜索算法),是用于解码隐含状态组成的序列的方法之一,其具体过程如下:
1)获取隐含状态组成的序列中概率最大的词作为摘要的字词序列中的初始位词语;
2)将初始位词语中的每个字与词表中的字进行组合得到第一次组合后序列,获取第一次组合后序列中概率最大的词作第一次更新后序列;重复上述过程直至检测到隐含状态组成的序列中的每一字与词表中的终止符组合时停止,最终输出摘要的字词序列。
Beam Search算法只在实际使用过程中(即test过程中)的时候需要,在训练过程中并不需要。训练的时候由于知道正确答案,并不需要再进行这个搜索。而在实际使用的时候,假设词表大小为3,内容为a,b,c。beam search算法最终输出序列个数(可用size表示最终输出序列个数)是2,decoder(第二层LSTM结构可以视为解码器decoder)解码的时候:
生成第1个词的时候,选择概率最大的2个词,假设为a,c,那么当前序列就是a c;生成第2个词的时候,我们将当前序列a和c,分别与词表中的所有词进行组合,得到新的6个序列aa、ab、ac、ca、cb、cc,然后从其中选择2个得分最高的作为当前序列,假如为aa cb;后面会不断重复这个过程,直至检测到隐含状态组成的序列中的每一字与词表中的终止符组合时停止,最终输出2个得分最高的序列。
将目标文本经过编码和解码后输出摘要的字词序列,此时还未组成一段完整的摘要文字。为了将摘要的字词序列组成一段完整的摘要,需要进行进一步的处理。
在一实施例中,将隐含状态组成的序列输入至LSTM模型中的第二层LSTM结构进行解码,得到摘要的字词序列中,所述摘要的字词序列为与词表大小相同的多项式分布层,并输出向量yt∈RK;其中yt中的第k维代表生成第k个词语的概率,t的取值为正整数,K为历史文本所对应词表的大小。
其中,将目标文本xt设置结束标志(如文本末尾的句号),每次将目标文本中的一个词输入到第一层LSTM结构,当到达目标文本xt的末尾时,则表示目标文本xt编码得到的隐含状态组成的序列(即hidden state vector)将作为第二层LSTM结构的输入进行解码,第二层LSTM结构输出与词表大小相同的softmax层(softmax层即多项式分布层),softmax层中的分量代表每个词语的概率;当LSTM的输出层为softmax时,每个时刻输出会产生向量yt∈RK,K即为词表的大小,yt向量中的第k维代表生成第k个词语的概率。通过向量来表示摘要的字词序列中每一词语的概率,更利于其作为下一次数据处理的输入的参考。
第三输入单元103,用于将摘要的字词序列输入至LSTM模型中的第一层LSTM结构进行编码,得到更新后隐含状态组成的序列。
在本实施例中,将摘要的字词序列输入至LSTM模型中的第一层LSTM结构进行编码,是为了二次进行处理,以从摘要的字词序列选取最有可能的字词作为摘要的组成词。
上下文向量获取单元104,用于根据更新后隐含状态组成的序列中编码器隐藏状态的贡献值,获取与编码器隐藏状态的贡献值相对应的上下文向量。
在本实施例中,编码器隐藏状态的贡献值代表了他的所有隐藏状态的加权和,其中最高的权重对应了解码器在决定下一个词是考虑的增强隐藏状态的最大贡献以及最重要的隐藏状态。通过这一方式,能更准确的获取能代表文摘的上下文向量。
例如,将更新后隐含状态组成的序列转化为特征向量a,其中a={a1,a2,……,aL},则上下文向量Zt用下式表示:
其中,at,i就是衡量生成第t个词语时,第i个位置的特征向量所占的权重,L为更新后隐含状态组成的序列中字符的个数。
摘要获取单元105,用于根据更新后隐含状态组成的序列及上下文向量,获取更新后隐含状态组成的序列中字词的概率分布,将字词的概率分布中概率最大的字词输出作为目标文本的摘要。
在本实施例中,对目标文本的每一段文字进行处理,每一段都通过上述步骤来概括摘要,最后组合成一个完成的摘要。
可见,该装置采用LSTM对目标文本进行编码解码后,结合上下文变量得到目标文本的摘要,采取概括方式获取摘要,提高获取准确性。
上述文摘自动提取装置可以实现为一种计算机程序的形式,该计算机程序可以在如图7所示的计算机设备上运行。
请参阅图7,图7是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500设备可以是终端。该终端可以是平板电脑、笔记本电脑、台式电脑、个人数字助理等电子设备。
参阅图7,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种文摘自动提取方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种文摘自动提取方法。
该网络接口505用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:依序获取目标文本所包括的字符,将字符按顺序输入至LSTM模型中的第一层LSTM结构进行编码,得到隐含状态组成的序列;其中LSTM模型为长短记忆神经网络;将隐含状态组成的序列输入至LSTM模型中的第二层LSTM结构进行解码,得到摘要的字词序列;将摘要的字词序列输入至LSTM模型中的第一层LSTM结构进行编码,得到更新后隐含状态组成的序列;根据更新后隐含状态组成的序列中编码器隐藏状态的贡献值,获取与编码器隐藏状态的贡献值相对应的上下文向量;根据更新后隐含状态组成的序列及上下文向量,获取更新后隐含状态组成的序列中字词的概率分布,将字词的概率分布中概率最大的字词输出作为目标文本的摘要。
在一实施例中,处理器502还执行如下操作:将语料库中的多篇历史文本置入第一层LSTM结构,并将历史文本对应的文摘置入第二层LSTM结构,进行训练得到LSTM模型。
在一实施例中,所述LSTM模型为门限循环单元,所述门限循环单元的模型如下:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
其中,Wz、Wr、W是训练得到的权值参数值,xt是输入,ht-1是隐含状态,zt是更新状态,rt是重置信号,是与隐含状态ht-1对应的新记忆,ht是输出,σ()是sigmoid函数,tanh()是双曲正切函数。
在一实施例中,所述摘要的字词序列为与词表大小相同的多项式分布层,并输出向量yt∈RK;其中yt中的第k维代表生成第k个词语的概率,t的取值为正整数,K为历史文本所对应词表的大小。
在一实施例中,处理器502还执行如下操作:获取隐含状态组成的序列中概率最大的词,将隐含状态组成的序列中概率最大的词作为摘要的字词序列中的初始位词语;将初始位词语中的每个字输入至第二层LSTM结构,与第二层LSTM结构的词表中每一字进行组合得到组合后序列,获取组合后序列中概率最大的词作为隐含状态组成的序列;重复执行隐含状态组成的序列中每一字输入至第二层LSTM结构,与第二层LSTM结构的词表中每一字进行组合得到组合后序列,获取组合后序列中概率最大的词作为隐含状态组成的序列的步骤,直至检测到隐含状态组成的序列中的每一字与词表中的终止符组合时停止,并将隐含状态组成的序列作为摘要的字词序列。
本领域技术人员可以理解,图7中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图7所示实施例一致,在此不再赘述。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本申请的另一实施例中提供一种存储介质。该存储介质可以为非易失性的计算机可读存储介质。该存储介质存储有计算机程序,其中计算机程序包括程序指令。该程序指令被处理器执行时实现:依序获取目标文本所包括的字符,将字符按顺序输入至LSTM模型中的第一层LSTM结构进行编码,得到隐含状态组成的序列;其中LSTM模型为长短记忆神经网络;将隐含状态组成的序列输入至LSTM模型中的第二层LSTM结构进行解码,得到摘要的字词序列;将摘要的字词序列输入至LSTM模型中的第一层LSTM结构进行编码,得到更新后隐含状态组成的序列;根据更新后隐含状态组成的序列中编码器隐藏状态的贡献值,获取与编码器隐藏状态的贡献值相对应的上下文向量;根据更新后隐含状态组成的序列及上下文向量,获取更新后隐含状态组成的序列中字词的概率分布,将字词的概率分布中概率最大的字词输出作为目标文本的摘要。
在一实施例中,该程序指令被处理器执行时实现:将语料库中的多篇历史文本置入第一层LSTM结构,并将历史文本对应的文摘置入第二层LSTM结构,进行训练得到LSTM模型。
其中,所述LSTM模型为门限循环单元,所述门限循环单元的模型如下:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
其中,Wz、Wr、W是训练得到的权值参数值,xt是输入,ht-1是隐含状态,zt是更新状态,rt是重置信号,是与隐含状态ht-1对应的新记忆,ht是输出,σ()是sigmoid函数,tanh()是双曲正切函数。
在一实施例中,所述摘要的字词序列为与词表大小相同的多项式分布层,并输出向量yt∈RK;其中yt中的第k维代表生成第k个词语的概率,t的取值为正整数,K为历史文本所对应词表的大小。
在一实施例中,该程序指令被处理器执行时实现:获取隐含状态组成的序列中概率最大的词,将隐含状态组成的序列中概率最大的词作为摘要的字词序列中的初始位词语;将初始位词语中的每个字输入至第二层LSTM结构,与第二层LSTM结构的词表中每一字进行组合得到组合后序列,获取组合后序列中概率最大的词作为隐含状态组成的序列;重复执行隐含状态组成的序列中每一字输入至第二层LSTM结构,与第二层LSTM结构的词表中每一字进行组合得到组合后序列,获取组合后序列中概率最大的词作为隐含状态组成的序列的步骤,直至检测到隐含状态组成的序列中的每一字与词表中的终止符组合时停止,并将隐含状态组成的序列作为摘要的字词序列。
所述存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文摘自动提取方法,其特征在于,包括:
依序获取目标文本所包括的字符,将字符按顺序输入至LSTM模型中的第一层LSTM结构进行编码,得到隐含状态组成的序列;其中LSTM模型为长短记忆神经网络;
将隐含状态组成的序列输入至LSTM模型中的第二层LSTM结构进行解码,得到摘要的字词序列;
将摘要的字词序列输入至LSTM模型中的第一层LSTM结构进行编码,得到更新后隐含状态组成的序列;
根据更新后隐含状态组成的序列中编码器隐藏状态的贡献值,获取与编码器隐藏状态的贡献值相对应的上下文向量;
根据更新后隐含状态组成的序列及上下文向量,获取更新后隐含状态组成的序列中字词的概率分布,将字词的概率分布中概率最大的字词输出作为目标文本的摘要。
2.根据权利要求1所述的文摘自动提取方法,其特征在于,所述依序获取目标文本所包括的字符,将字符按顺序输入至LSTM模型中的第一层LSTM结构进行编码,得到隐含状态组成的序列之前,还包括:
将语料库中的多篇历史文本置入第一层LSTM结构,并将历史文本对应的文摘置入第二层LSTM结构,进行训练得到LSTM模型。
3.根据权利要求1所述的文摘自动提取方法,其特征在于,所述LSTM模型为门限循环单元,所述门限循环单元的模型如下:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1xt])
其中,Wz、Wr、W是训练得到的权值参数值,xt是输入,ht-1是隐含状态,zt是更新状态,rt是重置信号,是与隐含状态ht-1对应的新记忆,ht是输出,σ()是sigmoid函数,tanh()是双曲正切函数。
4.根据权利要求3所述的文摘自动提取方法,其特征在于,所述将隐含状态组成的序列输入至LSTM模型中的第二层LSTM结构进行解码,得到摘要的字词序列中,所述摘要的字词序列为与词表大小相同的多项式分布层,并输出向量yt∈RK;其中yt中的第k维代表生成第k个词语的概率,t的取值为正整数,K为历史文本所对应词表的大小。
5.根据权利要求2所述的文摘自动提取方法,其特征在于,所述将隐含状态组成的序列输入至LSTM模型中的第二层LSTM结构进行解码,得到摘要的字词序列,包括:
获取隐含状态组成的序列中概率最大的词,将隐含状态组成的序列中概率最大的词作为摘要的字词序列中的初始位词语;
将初始位词语中的每个字输入至第二层LSTM结构,与第二层LSTM结构的词表中每一字进行组合得到组合后序列,获取组合后序列中概率最大的词作为隐含状态组成的序列;
重复执行隐含状态组成的序列中每一字输入至第二层LSTM结构,与第二层LSTM结构的词表中每一字进行组合得到组合后序列,获取组合后序列中概率最大的词作为隐含状态组成的序列的步骤,直至检测到隐含状态组成的序列中的每一字与词表中的终止符组合时停止,并将隐含状态组成的序列作为摘要的字词序列。
6.一种文摘自动提取装置,其特征在于,包括:
第一输入单元,用于依序获取目标文本所包括的字符,将字符按顺序输入至LSTM模型中的第一层LSTM结构进行编码,得到隐含状态组成的序列;其中LSTM模型为长短记忆神经网络;
第二输入单元,用于将隐含状态组成的序列输入至LSTM模型中的第二层LSTM结构进行解码,得到摘要的字词序列;
第三输入单元,用于将摘要的字词序列输入至LSTM模型中的第一层LSTM结构进行编码,得到更新后隐含状态组成的序列;
上下文向量获取单元,用于根据更新后隐含状态组成的序列中编码器隐藏状态的贡献值,获取与编码器隐藏状态的贡献值相对应的上下文向量;
摘要获取单元,用于根据更新后隐含状态组成的序列及上下文向量,获取更新后隐含状态组成的序列中字词的概率分布,将字词的概率分布中概率最大的字词输出作为目标文本的摘要。
7.根据权利要求6所述的文摘自动提取装置,其特征在于,还包括:
历史数据训练单元,用于将语料库中的多篇历史文本置入第一层LSTM结构,并将历史文本对应的文摘置入第二层LSTM结构,进行训练得到LSTM模型。
8.根据权利要求7所述的文摘自动提取装置,其特征在于,所述第二输入单元,包括:
初始化单元,用于获取隐含状态组成的序列中概率最大的词,将隐含状态组成的序列中概率最大的词作为摘要的字词序列中的初始位词语;
更新单元,用于将初始位词语中的每个字输入至第二层LSTM结构,与第二层LSTM结构的词表中每一字进行组合得到组合后序列,获取组合后序列中概率最大的词作为隐含状态组成的序列;
重复执行单元,用于重复执行隐含状态组成的序列中每一字输入至第二层LSTM结构,与第二层LSTM结构的词表中每一字进行组合得到组合后序列,获取组合后序列中概率最大的词作为隐含状态组成的序列的步骤,直至检测到隐含状态组成的序列中的每一字与词表中的终止符组合时停止,并将隐含状态组成的序列作为摘要的字词序列。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的文摘自动提取方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的文摘自动提取方法。
CN201810191506.3A 2018-03-08 2018-03-08 文摘自动提取方法、装置、计算机设备及存储介质 Pending CN108509413A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201810191506.3A CN108509413A (zh) 2018-03-08 2018-03-08 文摘自动提取方法、装置、计算机设备及存储介质
US16/645,491 US20200265192A1 (en) 2018-03-08 2018-05-02 Automatic text summarization method, apparatus, computer device, and storage medium
PCT/CN2018/085249 WO2019169719A1 (zh) 2018-03-08 2018-05-02 文摘自动提取方法、装置、计算机设备及存储介质
SG11202001628VA SG11202001628VA (en) 2018-03-08 2018-05-02 Automatic text summarization method, apparatus, computer device, and storage medium
JP2019557629A JP6955580B2 (ja) 2018-03-08 2018-05-02 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810191506.3A CN108509413A (zh) 2018-03-08 2018-03-08 文摘自动提取方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN108509413A true CN108509413A (zh) 2018-09-07

Family

ID=63377345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810191506.3A Pending CN108509413A (zh) 2018-03-08 2018-03-08 文摘自动提取方法、装置、计算机设备及存储介质

Country Status (5)

Country Link
US (1) US20200265192A1 (zh)
JP (1) JP6955580B2 (zh)
CN (1) CN108509413A (zh)
SG (1) SG11202001628VA (zh)
WO (1) WO2019169719A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635302A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 一种训练文本摘要生成模型的方法和装置
CN110032729A (zh) * 2019-02-13 2019-07-19 北京航空航天大学 一种基于神经图灵机的自动摘要生成方法
WO2020103721A1 (zh) * 2018-11-19 2020-05-28 腾讯科技(深圳)有限公司 信息处理的方法、装置及存储介质
CN111797225A (zh) * 2020-06-16 2020-10-20 北京北大软件工程股份有限公司 一种文本摘要生成方法和装置
WO2021042517A1 (zh) * 2019-09-02 2021-03-11 平安科技(深圳)有限公司 基于人工智能的文章主旨提取方法、装置及存储介质
CN113010666A (zh) * 2021-03-18 2021-06-22 京东数字科技控股股份有限公司 摘要生成方法、装置、计算机系统及可读存储介质
CN113268586A (zh) * 2021-05-21 2021-08-17 平安科技(深圳)有限公司 文本摘要生成方法、装置、设备及存储介质
WO2021164231A1 (zh) * 2020-02-18 2021-08-26 平安科技(深圳)有限公司 公文摘要提取方法、装置、设备及计算机可读存储介质

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6842167B2 (ja) * 2017-05-08 2021-03-17 国立研究開発法人情報通信研究機構 要約生成装置、要約生成方法及びコンピュータプログラム
US11334612B2 (en) * 2018-02-06 2022-05-17 Microsoft Technology Licensing, Llc Multilevel representation learning for computer content quality
CN110175323B (zh) * 2018-05-31 2022-05-13 腾讯科技(深圳)有限公司 消息摘要的生成方法和装置
WO2020227970A1 (en) * 2019-05-15 2020-11-19 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for generating abstractive text summarization
CN110210024B (zh) * 2019-05-28 2024-04-02 腾讯科技(深圳)有限公司 一种信息处理方法、装置及存储介质
CN110737769B (zh) * 2019-10-21 2023-07-25 南京信息工程大学 一种基于神经主题记忆的预训练文本摘要生成方法
CN111178053B (zh) * 2019-12-30 2023-07-28 电子科技大学 一种结合语义和文本结构进行生成式摘要抽取的文本生成方法
CN111199727B (zh) * 2020-01-09 2022-12-06 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质
CN113449096A (zh) * 2020-03-24 2021-09-28 北京沃东天骏信息技术有限公司 生成文本摘要的方法和装置
CN111666759B (zh) * 2020-04-17 2024-03-26 北京百度网讯科技有限公司 文本的关键信息的抽取方法、装置、电子设备及存储介质
US11593556B2 (en) * 2020-05-26 2023-02-28 Mastercard International Incorporated Methods and systems for generating domain-specific text summarizations
CN112507188B (zh) * 2020-11-30 2024-02-23 北京百度网讯科技有限公司 候选搜索词的生成方法、装置、设备及介质
KR102539601B1 (ko) * 2020-12-03 2023-06-02 주식회사 포티투마루 텍스트 요약 성능 개선 방법 및 시스템
KR102462758B1 (ko) * 2020-12-16 2022-11-02 숭실대학교 산학협력단 노이즈 추가 기반 커버리지와 단어 연관을 이용한 문서 요약 방법, 이를 수행하기 위한 기록 매체 및 장치
CN113379032A (zh) * 2021-06-08 2021-09-10 全球能源互联网研究院有限公司 基于分层双向lstm序列模型训练方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159890A (zh) * 2014-06-06 2015-12-16 谷歌公司 使用神经网络产生输入序列的表示
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN107526725A (zh) * 2017-09-04 2017-12-29 北京百度网讯科技有限公司 基于人工智能的用于生成文本的方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105940395B (zh) * 2014-01-31 2019-07-16 谷歌有限责任公司 生成文档的矢量表示
CN106383817B (zh) * 2016-09-29 2019-07-02 北京理工大学 利用分布式语义信息的论文标题生成方法
CN106598921A (zh) * 2016-12-12 2017-04-26 清华大学 基于lstm模型的现代文到古诗的转换方法及装置
JP6842167B2 (ja) * 2017-05-08 2021-03-17 国立研究開発法人情報通信研究機構 要約生成装置、要約生成方法及びコンピュータプログラム
CN107484017B (zh) * 2017-07-25 2020-05-26 天津大学 基于注意力模型的有监督视频摘要生成方法
CN107783960B (zh) * 2017-10-23 2021-07-23 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159890A (zh) * 2014-06-06 2015-12-16 谷歌公司 使用神经网络产生输入序列的表示
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN107526725A (zh) * 2017-09-04 2017-12-29 北京百度网讯科技有限公司 基于人工智能的用于生成文本的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TOEKNEE: "[NL系列]RNN & LSTM网络结构及应用", 《HTTPS://WWW.JIANSHU.COM/P/F3BDE26FEBED/》 *
喻丽: "基于卷积神经网络的中文自动文摘方法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020103721A1 (zh) * 2018-11-19 2020-05-28 腾讯科技(深圳)有限公司 信息处理的方法、装置及存储介质
US11977851B2 (en) 2018-11-19 2024-05-07 Tencent Technology (Shenzhen) Company Limited Information processing method and apparatus, and storage medium
CN109635302A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 一种训练文本摘要生成模型的方法和装置
CN109635302B (zh) * 2018-12-17 2022-06-10 北京百度网讯科技有限公司 一种训练文本摘要生成模型的方法和装置
CN110032729A (zh) * 2019-02-13 2019-07-19 北京航空航天大学 一种基于神经图灵机的自动摘要生成方法
WO2021042517A1 (zh) * 2019-09-02 2021-03-11 平安科技(深圳)有限公司 基于人工智能的文章主旨提取方法、装置及存储介质
WO2021164231A1 (zh) * 2020-02-18 2021-08-26 平安科技(深圳)有限公司 公文摘要提取方法、装置、设备及计算机可读存储介质
CN111797225A (zh) * 2020-06-16 2020-10-20 北京北大软件工程股份有限公司 一种文本摘要生成方法和装置
CN111797225B (zh) * 2020-06-16 2023-08-22 北京北大软件工程股份有限公司 一种文本摘要生成方法和装置
CN113010666A (zh) * 2021-03-18 2021-06-22 京东数字科技控股股份有限公司 摘要生成方法、装置、计算机系统及可读存储介质
CN113010666B (zh) * 2021-03-18 2023-12-08 京东科技控股股份有限公司 摘要生成方法、装置、计算机系统及可读存储介质
CN113268586A (zh) * 2021-05-21 2021-08-17 平安科技(深圳)有限公司 文本摘要生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20200265192A1 (en) 2020-08-20
JP6955580B2 (ja) 2021-10-27
SG11202001628VA (en) 2020-03-30
WO2019169719A1 (zh) 2019-09-12
JP2020520492A (ja) 2020-07-09

Similar Documents

Publication Publication Date Title
CN108509413A (zh) 文摘自动提取方法、装置、计算机设备及存储介质
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN104915386B (zh) 一种基于深度语义特征学习的短文本聚类方法
CN110032632A (zh) 基于文本相似度的智能客服问答方法、装置及存储介质
CN108399227A (zh) 自动打标签的方法、装置、计算机设备及存储介质
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及系统
Berger Large scale multi-label text classification with semantic word vectors
CN106570513A (zh) 大数据网络系统的故障诊断方法和装置
CN113220876B (zh) 一种用于英文文本的多标签分类方法及系统
CN111881671B (zh) 一种属性词提取方法
CN103605691B (zh) 用于处理社交网络中发布内容的装置和方法
CN110222184A (zh) 一种文本的情感信息识别方法及相关装置
CN111353303B (zh) 词向量构建方法、装置、电子设备及存储介质
CN107832458A (zh) 一种字符级的基于嵌套深度网络的文本分类方法
CN109598517A (zh) 商品通关处理、对象的处理及其类别预测方法和装置
CN110222329A (zh) 一种基于深度学习的中文分词方法和装置
CN110633467A (zh) 一种基于改进特征融合的语义关系抽取方法
CN109829478A (zh) 一种基于变分自编码器的问题分类方法和装置
WO2021223882A1 (en) Prediction explanation in machine learning classifiers
CN110390001A (zh) 一种观点型机器阅读理解的实现方法、装置
CN114781611A (zh) 自然语言处理方法、语言模型训练方法及其相关设备
CN112966072A (zh) 案件的预判方法、装置、电子装置和存储介质
CN110674642B (zh) 一种用于含噪稀疏文本的语义关系抽取方法
CN115392357A (zh) 分类模型训练、标注数据样本抽检方法、介质及电子设备
CN111738226B (zh) 一种基于cnn和rcnn模型的文本识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180907

RJ01 Rejection of invention patent application after publication