CN106502985A - 一种用于生成标题的神经网络建模方法及装置 - Google Patents
一种用于生成标题的神经网络建模方法及装置 Download PDFInfo
- Publication number
- CN106502985A CN106502985A CN201610916422.2A CN201610916422A CN106502985A CN 106502985 A CN106502985 A CN 106502985A CN 201610916422 A CN201610916422 A CN 201610916422A CN 106502985 A CN106502985 A CN 106502985A
- Authority
- CN
- China
- Prior art keywords
- model
- optimized
- hidden state
- word
- moment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 41
- 239000013598 vector Substances 0.000 claims description 85
- 238000000034 method Methods 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 description 8
- 230000000306 recurrent effect Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 230000002457 bidirectional effect Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000001427 coherent effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种用于生成标题的神经网络建模方法及装置。该用于生成标题的神经网络建模方法包括:获取多个样本文档,以及各样本文档对应的标准标题;将各样本文档输入至所述待优化模型中,由所述待优化模型根据接收到的各样本文档输出与各样本文档对应的参考标题;对各样本文档对应的参考标题和标准标题进行匹配处理,以获取参考标题和标准标题之间的语义差距;根据各样本文档对应的语义差距对所述待优化模型中的目标参数进行优化。本发明实施例基于参考标题和标准标题之间的语义差距,从句子级别对待优化模型中的参数进行优化,与仅在词级别优化待优化模型的现有技术相比,具有提高模型稳定性、提高标题生成准确度的优点。
Description
技术领域
本发明实施例涉及自然语言处理以及文本自动摘要技术领域,具体涉及一种用于生成标题的神经网络建模方法及装置。
背景技术
自动文摘是指利用计算机,自动得到能够涵盖源文本核心思想,且准确、连贯的摘要。自动文当摘要技术主要分为两类:抽取式和摘要式。前者直接从原文档中选择部分句子,组合作为文摘,虽具有简便的特性,但无法在较短的长度限制之内给出一个凝练且连贯的文摘。相反,摘要式文摘试图理解原文档的语义,从而生成一个语句不完全来自于原文档的文摘。当要求文摘的长度特别短,短到一个句子级别时,这个任务被称作标题生成。摘要式文摘需要正确理解原文档并且给出一个适当的表示,然后在这个表示的基础上逐步生成相应的文摘。以往的方法依赖原文档的语言学结构,如语义分析或句法分析,去理解原文档。但由于相关技术的不完善导致文摘质量较差。
近年来,深度学习技术在机器翻译等自然语言处理领域进展迅速,在自动文摘方面也初见成效。如基于神经网络的标题生成模型,通过一个巨大的神经网络,将一篇文档作为模型的输入,为这篇文档输出一个精炼的句子作为其标题。此类模型具有以下优点:1、模型是完全数据驱动的,不需要任何人工标注和额外的语言学信息;2、模型是完全端到端的,无需对潜在的语言学结构建模,从而避免了错误传播。除此之外,引入注意力机制进一步提升了模型效果。
尽管相比于传统的标题生成模型,神经网络标题生成模型进来取得了较大的进展,但仍面临一个严重的问题:现有的神经网络标题生成模型的参数通常在训练数据上通过极大似然估计训练优化。这样的训练方式仅在词级别对模型参数进行优化,难以保证模型的稳定性。除此之外,这种训练方式也没有将评价指标考虑在训练过程中,从而不能把握全局信息。
发明内容
本发明实施例的一个目的是用于解决现有的神经网络模型仅在词级别进行优化,导致生成的标题精确度低的问题。
本发明实施例提出了一种用于生成标题的神经网络建模方法,包括:
获取多个样本文档,以及各样本文档对应的标准标题;
将各样本文档输入至所述待优化模型中,由所述待优化模型根据接收到的各样本文档输出与各样本文档对应的参考标题;
对各样本文档对应的参考标题和标准标题进行匹配处理,以获取参考标题和标准标题之间的语义差距;
根据各样本文档对应的语义差距对所述待优化模型中的目标参数进行优化。
可选地,所述待优化模型根据接收到的各样本文档输出与各样本文档对应的参考标题步骤具体包括:
对样本文档的单词进行向量化处理,获取各单词对应的词向量;
根据各单词对应的词向量获取所述样本文档对应的文档向量,以及输入所述文档向量的过程中待优化模型的各时刻隐藏状态;
根据所述待优化模型的各时刻的隐藏状态,获取所述目标文档的标题。
可选地,所述根据各单词对应的词向量获取所述样本文档对应的文档向量,以及输入所述文档向量的过程中待优化模型的各时刻隐藏状态的步骤具体包括:
判断当前时刻是否为初始时刻;
若是,则获取当前时刻输入的词向量,并根据当前时刻输入的词向量,获取所述待优化模型当前时刻的隐藏状态;
若否,则获取当前时刻输入的词向量和前一时刻的隐藏状态,并根据当前时刻输入的词向量和前一时刻的隐藏状态,获取所述待优化模型当前时刻的隐藏状态。
可选地,所述根据各单词对应的词向量获取所述样本文档对应的文档向量,以及输入所述文档向量的过程中待优化模型的各时刻隐藏状态的步骤具体包括:
获取各时刻输入的词向量,结合以下公式,获取在输入词向量的过程中所述待优化模型各时刻的隐藏状态:
其中,hi为所述待优化模型第i时刻的隐藏状态,hi-1为所述待优化模型第i-1时刻的隐藏状态,zi和h i-1均为第i时刻输入的词向量和第i-1时刻的隐藏状态之间的关系函数。
可选地,所述根据所述待优化模型的各时刻的隐藏状态,获取所述目标文档的标题的步骤具体包括:
判断当前时刻是否为初始时刻;
若是,则根据当前时刻的隐藏状态,获取当前时刻生成各标题词的概率,并根据生成各标题词的概率输出标题词;
若否,则根据当前时刻和前一时刻的隐藏状态,获取当前时刻生成各标题词的概率,并根据生成各标题词的概率输出标题词。
本发明还提出了一种用于生成标题的神经网络建模装置包括:
第一获取模块,用于获取多个样本文档,以及各样本文档对应的标准标题;
第二获取模块,用于获取将各样本文档输入至所述待优化模型中,由所述待优化模型根据接收到的各样本文档输出与各样本文档对应的参考标题;
匹配模块,用于对各样本文档对应的参考标题和标准标题进行匹配处理,以获取参考标题和标准标题之间的语义差距;
优化模块,用于根据各样本文档对应的语义差距对所述待优化模型中的目标参数进行优化。
可选地,所述待优化模型,具体用于对样本文档的单词进行向量化处理,获取各单词对应的词向量;根据各单词对应的词向量获取所述样本文档对应的文档向量,以及输入所述文档向量的过程中待优化模型的各时刻隐藏状态;根据所述待优化模型的各时刻的隐藏状态,获取所述目标文档的标题。
可选地,所述待优化模型,具体用于判断当前时刻是否为初始时刻;若是,则获取当前时刻输入的词向量,并根据当前时刻输入的词向量,获取所述待优化模型当前时刻的隐藏状态;若否,则获取当前时刻输入的词向量和前一时刻的隐藏状态,并根据当前时刻输入的词向量和前一时刻的隐藏状态,获取所述待优化模型当前时刻的隐藏状态。
可选地,所述待优化模型,具体用于获取各时刻输入的词向量,结合以下公式,获取在输入词向量的过程中所述待优化模型各时刻的隐藏状态:
其中,hi为所述待优化模型第i时刻的隐藏状态,hi-1为所述待优化模型第i-1时刻的隐藏状态,zi和h i-1均为第i时刻输入的词向量和第i-1时刻的隐藏状态之间的关系函数。
可选地,所述待优化模型,具体用于判断当前时刻是否为初始时刻;若是,则根据当前时刻的隐藏状态,获取当前时刻生成各标题词的概率,并根据生成各标题词的概率输出标题词;若否,则根据当前时刻和前一时刻的隐藏状态,获取当前时刻生成各标题词的概率,并根据生成各标题词的概率输出标题词。
由上述技术方案可知,本发明实施例提出的一种用于生成标题的神经网络建模方法及装置基于参考标题和标准标题之间的语义差距,从句子级别对待优化模型中的参数进行优化,与仅在词级别优化待优化模型的现有技术相比,具有提高模型稳定性、提高标题生成准确度的优点。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了本发明一实施例提供的一种用于生成标题的神经网络建模方法的流程示意图;
图2示出了本发明一实施例提供的一种用于生成标题的神经网络建模方法中待优化模型的工作流程图;
图3示出了本发明一实施例提供的一种用于生成标题的神经网络建模方法的原理图;
图4示出了本发明一实施例提供的一种用于生成标题的神经网络建模装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明一实施例提供的一种用于生成标题的神经网络建模方法的流程示意图,参见图1,该用于生成标题的神经网络建模方法,包括:
110、获取多个样本文档,以及各样本文档对应的标准标题;
120、将各样本文档输入至所述待优化模型中,由所述待优化模型根据接收到的各样本文档输出与各样本文档对应的参考标题;
130、对各样本文档对应的参考标题和标准标题进行匹配处理,以获取参考标题和标准标题之间的语义差距;
140、根据各样本文档对应的语义差距对所述待优化模型中的目标参数进行优化。
需要说明的是,每一个样本文档均有与之对应的标准标题,基于这种关联关系,以多个样本文档及其标准标题构建样本集;
以样本文档为输入,待优化模型输出参考标题;
对比同一样本文档的参考标题和标准标题,得出参考标题和标准标题的语义差距,并基于语义差距对待优化模型进行优化。
本发明实施例基于参考标题和标准标题之间的语义差距,从句子级别对待优化模型中的参数进行优化,与仅在词级别优化待优化模型的现有技术相比,具有提高模型稳定性、提高标题生成准确度的优点。
图2示出了本发明一实施例提供的一种用于生成标题的神经网络建模方法中待优化模型的工作流程图,下面参照图2对上述待优化模型的工作过程进行详细说明:
210、对样本文档的单词进行向量化处理,获取各单词对应的词向量;
220、根据各单词对应的词向量获取所述样本文档对应的文档向量,以及输入所述文档向量的过程中待优化模型的各时刻隐藏状态;
230、根据所述待优化模型的各时刻的隐藏状态,获取所述目标文档的标题。
本实施例中,步骤220具体包括:
判断当前时刻是否为初始时刻;
若是,则获取当前时刻输入的词向量,并根据当前时刻输入的词向量,获取所述待优化模型当前时刻的隐藏状态;
若否,则获取当前时刻输入的词向量和前一时刻的隐藏状态,并根据当前时刻输入的词向量和前一时刻的隐藏状态,获取所述待优化模型当前时刻的隐藏状态。
其对应的实现公式如下:
其中,hi为所述待优化模型第i时刻的隐藏状态,hi-1为所述待优化模型第i-1时刻的隐藏状态,zi和h i-1均为第i时刻输入的词向量和第i-1时刻的隐藏状态之间的关系函数。
本实施例中,步骤230具体包括:
判断当前时刻是否为初始时刻;
若是,则根据当前时刻的隐藏状态,获取当前时刻生成各标题词的概率,并根据生成各标题词的概率输出标题词;
若否,则根据当前时刻和前一时刻的隐藏状态,获取当前时刻生成各标题词的概率,并根据生成各标题词的概率输出标题词。
图3示出了本发明一实施例提供的一种用于生成标题的神经网络建模方法的原理图,本方案中待优化模型包括:待优化模型包括编码器和解码器;
本实施例采用双向循环神经网络作为编码器,采用单向循环神经网络作为解码器;
下面参照图3对本方案的原理进行详细说明:
A、输入样本文档,采用双向循环神经网络作为编码器,得到文档向量表示;
A1、对输入的样本文档的单词进行向量化处理,得到词向量;
循环神经网络的输入为文档中所有单词所对应的词向量。因此首先需要将每个单词通过一个词向量矩阵映射得到其相应的词向量。令
其中,x表示样本文档,Vx表示输入样本文档大小,xt是0-1向量,1的位置对应该词在词典中的位置,M表示样本文档的长度。
则循环神经网络的输入为:
Ex=(Ex1,Ex2,…,ExM)
其中,为词向量映射矩阵,d表示词向量维度。
A2、采用Gated Recurrent Unit(GRU)作为循环神经网络激活函数。
循环神经网络是对传统前馈神经网络的一种改进,可以处理变长的输入序列。在每一个输入时刻i,其相应的隐藏节点输出不仅考虑这一时刻的输入,还将过去的输出信息融合进来。设hi为i时刻的隐藏状态,其更新公式为:
其中,g是一个光滑的有界函数,如sigmoid函数。尽管这样的循环神经网络可以处理变长序列,但在训练过程中存在梯度消失(gradient vanishing)或梯度爆炸(gradientexploding)的问题,导致模型处理较长的序列时效果。GRU在隐藏状态计算中引入重置门(reset gate)和更新门(update gate)改进这一问题。
在i时刻,隐藏状态hi由
其中,
h i-1=tanh(WExi+U[ri·hi-1])
zi=σ(WzExi+Uzhi-1)
ri=σ(WrExi+Urhi-1)
W,Wz,Wr∈Rn×d和U,Uz,Ur∈Rn×n是权重矩阵,n表示隐藏单元大小。
A3、采用双向循环神经网络对样本文档进行编码,获得固定长度的文档向量。
双向循环神经网络是对单向循环神经网络的进一步改进,不仅考虑过去的信息,还考虑未来的信息。例如在预测一句话的语义时,需要根据上下文进行预测。双向循环神经网络由前向循环神经网络和后向循环神经网络叠加在一起组成,即
其中及分别表示前向网络和后向网络在i时刻由A2中公式计算得到的隐藏状态。则
作为该样本文档的向量表示输入到解码器中。
B、采用单向循环神经网络作为解码器,根据文档向量表示和解码器的隐藏状态,逐步生成标题。
B1、计算在j时刻的隐藏状态;
采用单向循环神经网络作为解码器,则j时刻隐藏的隐藏状态为:
sj=(1-zj)·sj-1+zj·s j-1
s j-1=tanh(WEyj+U[rj·sj-1]+Ccj
zj=σ(WzEyj-1+Uzsj+Czcj)
rj=σ(WrEyj-1+Ursj+Crcj)
其中,W,Wz,Wr∈Rn×d,U,Uz,Ur∈Rn×n和C,Cz,Cr∈Rn×2n是权重矩阵,n表示隐藏单元大小,cj为上下文向量,yj-1是解码器上一步产生的输出。
B2、采用注意力机制定义上下文向量;
上下文向量cj通过编码器部分得到的隐藏状态和解码器在j-1时刻得到的隐藏状态计算,具体如下:
其中,
hi是A3部分定义的编码器隐藏状态,va∈Rp,Wa∈Rp×n,Ua∈Rp×2n是权重矩阵,aj即注意力向量。
B3、定义j时刻产生词yj的概率;
根据解码器隐藏状态sj、上下文向量cj和(j-1)时刻的输出词yj-1定义j时刻产生词yj的概率为:
如此,模型逐词产生标题
的概率为
其中,N<M,vY表示输出标题集词表大小,y<j=(y1,y2,…,yj-1),θ为所有模型参数。
C、利用最小风险训练方法优化待优化模型的目标参数。
C1、定义损失函数;
其中,y(x;θ)表示给定输入文档x和参数θ,模型生成的一组标题,Ey(x;θ)为对应的数学期望。Δ(y′;y)表示标准标题y和模型生成标题y′之间的语义差距,即风险函数。
C2、定义风险函数,并通过随机梯度下降学习和更新模型参数;
由于标题本质上来讲是一个摘要问题,因此我们使用摘要领域的自动评价标准ROUGE来定义风险函数。我们考虑两种ROUGE评测指标,分别是ROUGE-N和ROUGE-L作为风险函数。
其中,
Lcs(y′;y)表示标准标题y和模型生成标题y′之间的最长公共子串。我们定义Δ(y′;y)=-ROUGE-{1,2,L}。
C2、通过随机梯度下降学习和更新模型参数。
可见,本发明实施例不但利用神经网络模型以数据驱动的方式为文档自动生成标题,还可以从句子级别把握全局信息,解决了以往模型仅在词级别学习和更新模型参数的问题,提高模型的稳定性,具有良好的实用性。
对于方法实施方式,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施方式并不受所描述的动作顺序的限制,因为依据本发明实施方式,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施方式均属于优选实施方式,所涉及的动作并不一定是本发明实施方式所必须的。
图4示出了本发明一实施例提供的一种用于生成标题的神经网络建模装置的结构示意图,参见图4,该用于生成标题的神经网络建模装置,包括:第一获取模块41、第二获取模块42、匹配模块43、以及优化模块,其中;
第一获取模块41,用于获取多个样本文档,以及各样本文档对应的标准标题;
第二获取模块42,用于获取将各样本文档输入至所述待优化模型中,由所述待优化模型根据接收到的各样本文档输出与各样本文档对应的参考标题;
匹配模块43,用于对各样本文档对应的参考标题和标准标题进行匹配处理,以获取参考标题和标准标题之间的语义差距;
优化模块44,用于根据各样本文档对应的语义差距对所述待优化模型中的目标参数进行优化。
本发明实施例基于参考标题和标准标题之间的语义差距,从句子级别对待优化模型中的参数进行优化,与仅在词级别优化待优化模型的现有技术相比,具有提高模型稳定性、提高标题生成准确度的优点。
本实施例中,所述待优化模型,具体用于对样本文档的单词进行向量化处理,获取各单词对应的词向量;根据各单词对应的词向量获取所述样本文档对应的文档向量,以及输入所述文档向量的过程中待优化模型的各时刻隐藏状态;根据所述待优化模型的各时刻的隐藏状态,获取所述目标文档的标题。
对于装置实施方式而言,由于其与方法实施方式基本相似,所以描述的比较简单,相关之处参见方法实施方式的部分说明即可。
应当注意的是,在本发明的装置的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或者组合。
本发明的各个部件实施方式可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本装置中,PC通过实现因特网对设备或者装置远程控制,精准的控制设备或者装置每个操作的步骤。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样实现本发明的程序可以存储在计算机可读介质上,并且程序产生的文件或文档具有可统计性,产生数据报告和cpk报告等,能对功放进行批量测试并统计。应该注意的是上述实施方式对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施方式。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种用于生成标题的神经网络建模方法,其特征在于,包括:
获取多个样本文档,以及各样本文档对应的标准标题;
将各样本文档输入至待优化模型中,由所述待优化模型根据接收到的各样本文档输出与各样本文档对应的参考标题;
对各样本文档对应的参考标题和标准标题进行匹配处理,以获取参考标题和标准标题之间的语义差距;
根据各样本文档对应的语义差距对所述待优化模型中的目标参数进行优化。
2.根据权利要求1所述的方法,其特征在于,所述待优化模型根据接收到的各样本文档输出与各样本文档对应的参考标题步骤具体包括:
对样本文档的单词进行向量化处理,获取各单词对应的词向量;
根据各单词对应的词向量获取所述样本文档对应的文档向量,以及输入所述文档向量的过程中待优化模型的各时刻隐藏状态;
根据所述待优化模型的各时刻的隐藏状态,获取所述目标文档的标题。
3.根据权利要求2所述的方法,其特征在于,所述根据各单词对应的词向量获取所述样本文档对应的文档向量,以及输入所述文档向量的过程中待优化模型的各时刻隐藏状态的步骤具体包括:
判断当前时刻是否为初始时刻;
若是,则获取当前时刻输入的词向量,并根据当前时刻输入的词向量,获取所述待优化模型当前时刻的隐藏状态;
若否,则获取当前时刻输入的词向量和前一时刻的隐藏状态,并根据当前时刻输入的词向量和前一时刻的隐藏状态,获取所述待优化模型当前时刻的隐藏状态。
4.根据权利要求2所述的方法,其特征在于,所述根据各单词对应的词向量获取所述样本文档对应的文档向量,以及输入所述文档向量的过程中待优化模型的各时刻隐藏状态的步骤具体包括:
获取各时刻输入的词向量,结合以下公式,获取在输入词向量的过程中所述待优化模型各时刻的隐藏状态:
其中,hi为所述待优化模型第i时刻的隐藏状态,hi-1为所述待优化模型第i-1时刻的隐藏状态,zi和h i-1均为第i时刻输入的词向量和第i-1时刻的隐藏状态之间的关系函数。
5.根据权利要求2所述的方法,其特征在于,所述根据所述待优化模型的各时刻的隐藏状态,获取所述目标文档的标题的步骤具体包括:
判断当前时刻是否为初始时刻;
若是,则根据当前时刻的隐藏状态,获取当前时刻生成各标题词的概率,并根据生成各标题词的概率输出标题词;
若否,则根据当前时刻和前一时刻的隐藏状态,获取当前时刻生成各标题词的概率,并根据生成各标题词的概率输出标题词。
6.一种用于生成标题的神经网络建模装置,其特征在于,包括:
第一获取模块,用于获取多个样本文档,以及各样本文档对应的标准标题;
第二获取模块,用于获取将各样本文档输入至待优化模型中,由所述待优化模型根据接收到的各样本文档输出与各样本文档对应的参考标题;
匹配模块,用于对各样本文档对应的参考标题和标准标题进行匹配处理,以获取参考标题和标准标题之间的语义差距;
优化模块,用于根据各样本文档对应的语义差距对所述待优化模型中的目标参数进行优化。
7.根据权利要求6所述的装置,其特征在于,所述待优化模型,具体用于对样本文档的单词进行向量化处理,获取各单词对应的词向量;根据各单词对应的词向量获取所述样本文档对应的文档向量,以及输入所述文档向量的过程中待优化模型的各时刻隐藏状态;根据所述待优化模型的各时刻的隐藏状态,获取所述目标文档的标题。
8.根据权利要求7所述的装置,其特征在于,所述待优化模型,具体用于判断当前时刻是否为初始时刻;若是,则获取当前时刻输入的词向量,并根据当前时刻输入的词向量,获取所述待优化模型当前时刻的隐藏状态;若否,则获取当前时刻输入的词向量和前一时刻的隐藏状态,并根据当前时刻输入的词向量和前一时刻的隐藏状态,获取所述待优化模型当前时刻的隐藏状态。
9.根据权利要求7所述的装置,其特征在于,所述待优化模型,具体用于获取各时刻输入的词向量,结合以下公式,获取在输入词向量的过程中所述待优化模型各时刻的隐藏状态:
其中,hi为所述待优化模型第i时刻的隐藏状态,hi-1为所述待优化模型第i-1时刻的隐藏状态,zi和h i-1均为第i时刻输入的词向量和第i-1时刻的隐藏状态之间的关系函数。
10.根据权利要求7所述的装置,其特征在于,所述待优化模型,具体用于判断当前时刻是否为初始时刻;若是,则根据当前时刻的隐藏状态,获取当前时刻生成各标题词的概率,并根据生成各标题词的概率输出标题词;若否,则根据当前时刻和前一时刻的隐藏状态,获取当前时刻生成各标题词的概率,并根据生成各标题词的概率输出标题词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610916422.2A CN106502985B (zh) | 2016-10-20 | 2016-10-20 | 一种用于生成标题的神经网络建模方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610916422.2A CN106502985B (zh) | 2016-10-20 | 2016-10-20 | 一种用于生成标题的神经网络建模方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106502985A true CN106502985A (zh) | 2017-03-15 |
CN106502985B CN106502985B (zh) | 2020-01-31 |
Family
ID=58318124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610916422.2A Active CN106502985B (zh) | 2016-10-20 | 2016-10-20 | 一种用于生成标题的神经网络建模方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106502985B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562718A (zh) * | 2017-07-24 | 2018-01-09 | 科大讯飞股份有限公司 | 文本规整方法及装置、存储介质、电子设备 |
CN107844469A (zh) * | 2017-10-26 | 2018-03-27 | 北京大学 | 基于词向量查询模型的文本简化方法 |
CN108280112A (zh) * | 2017-06-22 | 2018-07-13 | 腾讯科技(深圳)有限公司 | 摘要生成方法、装置及计算机设备 |
CN108319980A (zh) * | 2018-02-05 | 2018-07-24 | 哈工大机器人(合肥)国际创新研究院 | 一种基于gru的递归神经网络多标签学习方法 |
CN108920565A (zh) * | 2018-06-21 | 2018-11-30 | 苏州大学 | 一种图片标题生成方法、装置和计算机可读存储介质 |
CN108920455A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种汉语自动生成文本的自动评价方法 |
CN109033413A (zh) * | 2018-03-12 | 2018-12-18 | 上海大学 | 一种基于神经网络的需求文档和服务文档匹配方法 |
CN109214407A (zh) * | 2018-07-06 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 事件检测模型、方法、装置、计算设备及存储介质 |
CN109948140A (zh) * | 2017-12-20 | 2019-06-28 | 普天信息技术有限公司 | 一种词向量嵌入方法及装置 |
CN110019928A (zh) * | 2017-11-17 | 2019-07-16 | 上海全土豆文化传播有限公司 | 视频标题的优化方法及装置 |
CN110209801A (zh) * | 2019-05-15 | 2019-09-06 | 华南理工大学 | 一种基于自注意力网络的文本摘要自动生成方法 |
CN110532344A (zh) * | 2019-08-06 | 2019-12-03 | 北京如优教育科技有限公司 | 基于深度神经网络模型的自动选题系统 |
CN110795930A (zh) * | 2019-10-24 | 2020-02-14 | 网娱互动科技(北京)股份有限公司 | 一种文章标题优化方法、系统、介质及设备 |
CN110795929A (zh) * | 2018-07-17 | 2020-02-14 | 富士施乐株式会社 | 生成用于概括对话文件的标题的系统和方法 |
CN111079402A (zh) * | 2019-12-31 | 2020-04-28 | 北大方正集团有限公司 | 文档层级划分方法、文档层级划分装置和可读存储介质 |
CN111353009A (zh) * | 2020-02-03 | 2020-06-30 | 百度在线网络技术(北京)有限公司 | 建立路线耗时预估模型、预估路线耗时的方法及对应装置 |
CN111898337A (zh) * | 2020-07-13 | 2020-11-06 | 武汉大学 | 一种基于深度学习的单句摘要缺陷报告标题自动生成方法 |
CN112016307A (zh) * | 2020-08-13 | 2020-12-01 | 深圳市欢太科技有限公司 | 一种文本信息的标题生成方法、电子设备和存储介质 |
CN112182976A (zh) * | 2020-10-12 | 2021-01-05 | 上海交通大学 | 一种工业设备剩余寿命预测方法 |
CN112711942A (zh) * | 2021-03-29 | 2021-04-27 | 贝壳找房(北京)科技有限公司 | 房源标题生成模型的训练方法、生成方法、装置以及设备 |
CN113824624A (zh) * | 2020-06-19 | 2021-12-21 | 阿里巴巴集团控股有限公司 | 一种邮件标题生成模型的训练方法及邮件标题生成方法 |
CN115496061A (zh) * | 2022-09-30 | 2022-12-20 | 内蒙古财经大学 | 一种神经网络标题生成模型 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1955979A (zh) * | 2005-10-27 | 2007-05-02 | 富士施乐株式会社 | 文章标题及关联信息的自动抽取装置、抽取方法及抽取程序 |
CN101388006A (zh) * | 2008-10-24 | 2009-03-18 | 中国科学院计算技术研究所 | 一种自动化的文摘实验装置与方法 |
CN101782743A (zh) * | 2010-02-11 | 2010-07-21 | 浙江大学 | 神经网络建模方法及系统 |
CN104113789A (zh) * | 2014-07-10 | 2014-10-22 | 杭州电子科技大学 | 一种基于深度学习的视频摘要在线生成方法 |
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
CN105930314A (zh) * | 2016-04-14 | 2016-09-07 | 清华大学 | 基于编码-解码深度神经网络的文本摘要生成系统及方法 |
-
2016
- 2016-10-20 CN CN201610916422.2A patent/CN106502985B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1955979A (zh) * | 2005-10-27 | 2007-05-02 | 富士施乐株式会社 | 文章标题及关联信息的自动抽取装置、抽取方法及抽取程序 |
CN101388006A (zh) * | 2008-10-24 | 2009-03-18 | 中国科学院计算技术研究所 | 一种自动化的文摘实验装置与方法 |
CN101782743A (zh) * | 2010-02-11 | 2010-07-21 | 浙江大学 | 神经网络建模方法及系统 |
CN104113789A (zh) * | 2014-07-10 | 2014-10-22 | 杭州电子科技大学 | 一种基于深度学习的视频摘要在线生成方法 |
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
CN105930314A (zh) * | 2016-04-14 | 2016-09-07 | 清华大学 | 基于编码-解码深度神经网络的文本摘要生成系统及方法 |
Non-Patent Citations (2)
Title |
---|
JUNYOUNG CHUNG ET AL.: "Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling", 《ARXIV》 * |
李涛等: "《事件挖掘的理论算法及应用》", 31 March 2016, 厦门大学出版社 * |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280112A (zh) * | 2017-06-22 | 2018-07-13 | 腾讯科技(深圳)有限公司 | 摘要生成方法、装置及计算机设备 |
US11409960B2 (en) | 2017-06-22 | 2022-08-09 | Tencent Technology (Shenzhen) Company Limited | Summary generation method, apparatus, computer device, and storage medium |
WO2018233647A1 (zh) * | 2017-06-22 | 2018-12-27 | 腾讯科技(深圳)有限公司 | 摘要生成方法、装置、计算机设备以及存储介质 |
CN107562718A (zh) * | 2017-07-24 | 2018-01-09 | 科大讯飞股份有限公司 | 文本规整方法及装置、存储介质、电子设备 |
CN107844469A (zh) * | 2017-10-26 | 2018-03-27 | 北京大学 | 基于词向量查询模型的文本简化方法 |
CN107844469B (zh) * | 2017-10-26 | 2020-06-26 | 北京大学 | 基于词向量查询模型的文本简化方法 |
CN110019928A (zh) * | 2017-11-17 | 2019-07-16 | 上海全土豆文化传播有限公司 | 视频标题的优化方法及装置 |
CN109948140A (zh) * | 2017-12-20 | 2019-06-28 | 普天信息技术有限公司 | 一种词向量嵌入方法及装置 |
CN109948140B (zh) * | 2017-12-20 | 2023-06-23 | 普天信息技术有限公司 | 一种词向量嵌入方法及装置 |
CN108319980A (zh) * | 2018-02-05 | 2018-07-24 | 哈工大机器人(合肥)国际创新研究院 | 一种基于gru的递归神经网络多标签学习方法 |
CN109033413A (zh) * | 2018-03-12 | 2018-12-18 | 上海大学 | 一种基于神经网络的需求文档和服务文档匹配方法 |
CN109033413B (zh) * | 2018-03-12 | 2022-12-23 | 上海大学 | 一种基于神经网络的需求文档和服务文档匹配方法 |
CN108920455A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种汉语自动生成文本的自动评价方法 |
CN108920565A (zh) * | 2018-06-21 | 2018-11-30 | 苏州大学 | 一种图片标题生成方法、装置和计算机可读存储介质 |
CN108920565B (zh) * | 2018-06-21 | 2022-07-05 | 苏州大学 | 一种图片标题生成方法、装置和计算机可读存储介质 |
CN109214407A (zh) * | 2018-07-06 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 事件检测模型、方法、装置、计算设备及存储介质 |
CN109214407B (zh) * | 2018-07-06 | 2022-04-19 | 创新先进技术有限公司 | 事件检测模型、方法、装置、计算设备及存储介质 |
CN110795929A (zh) * | 2018-07-17 | 2020-02-14 | 富士施乐株式会社 | 生成用于概括对话文件的标题的系统和方法 |
CN110209801B (zh) * | 2019-05-15 | 2021-05-14 | 华南理工大学 | 一种基于自注意力网络的文本摘要自动生成方法 |
CN110209801A (zh) * | 2019-05-15 | 2019-09-06 | 华南理工大学 | 一种基于自注意力网络的文本摘要自动生成方法 |
CN110532344A (zh) * | 2019-08-06 | 2019-12-03 | 北京如优教育科技有限公司 | 基于深度神经网络模型的自动选题系统 |
CN110795930A (zh) * | 2019-10-24 | 2020-02-14 | 网娱互动科技(北京)股份有限公司 | 一种文章标题优化方法、系统、介质及设备 |
CN111079402A (zh) * | 2019-12-31 | 2020-04-28 | 北大方正集团有限公司 | 文档层级划分方法、文档层级划分装置和可读存储介质 |
CN111079402B (zh) * | 2019-12-31 | 2021-10-26 | 北大方正集团有限公司 | 文档层级划分方法、文档层级划分装置和可读存储介质 |
CN111353009A (zh) * | 2020-02-03 | 2020-06-30 | 百度在线网络技术(北京)有限公司 | 建立路线耗时预估模型、预估路线耗时的方法及对应装置 |
US11719550B2 (en) | 2020-02-03 | 2023-08-08 | Baidu Online Network Teghnology (Beiiing) Co., Ltd. | Method and apparatus for building route time consumption estimation model, and method and apparatus for estimating route time consumption |
CN113824624A (zh) * | 2020-06-19 | 2021-12-21 | 阿里巴巴集团控股有限公司 | 一种邮件标题生成模型的训练方法及邮件标题生成方法 |
CN113824624B (zh) * | 2020-06-19 | 2023-10-17 | 阿里巴巴集团控股有限公司 | 一种邮件标题生成模型的训练方法及邮件标题生成方法 |
CN111898337B (zh) * | 2020-07-13 | 2024-01-26 | 武汉大学 | 一种基于深度学习的单句摘要缺陷报告标题自动生成方法 |
CN111898337A (zh) * | 2020-07-13 | 2020-11-06 | 武汉大学 | 一种基于深度学习的单句摘要缺陷报告标题自动生成方法 |
CN112016307A (zh) * | 2020-08-13 | 2020-12-01 | 深圳市欢太科技有限公司 | 一种文本信息的标题生成方法、电子设备和存储介质 |
CN112182976A (zh) * | 2020-10-12 | 2021-01-05 | 上海交通大学 | 一种工业设备剩余寿命预测方法 |
CN112182976B (zh) * | 2020-10-12 | 2023-03-24 | 上海交通大学 | 一种工业设备剩余寿命预测方法 |
CN112711942A (zh) * | 2021-03-29 | 2021-04-27 | 贝壳找房(北京)科技有限公司 | 房源标题生成模型的训练方法、生成方法、装置以及设备 |
CN115496061A (zh) * | 2022-09-30 | 2022-12-20 | 内蒙古财经大学 | 一种神经网络标题生成模型 |
Also Published As
Publication number | Publication date |
---|---|
CN106502985B (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106502985A (zh) | 一种用于生成标题的神经网络建模方法及装置 | |
EP4007951B1 (en) | Multi-lingual line-of-code completion system | |
Chisholm et al. | Learning to generate one-sentence biographies from Wikidata | |
US20230274125A1 (en) | Learning observation representations by predicting the future in latent space | |
Suhaili et al. | Service chatbots: A systematic review | |
Liu et al. | Tree-structured decoding for solving math word problems | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
US11861307B2 (en) | Request paraphrasing system, request paraphrasing model and request determining model training method, and dialogue system | |
CN110737758A (zh) | 用于生成模型的方法和装置 | |
US20220129450A1 (en) | System and method for transferable natural language interface | |
CN112800203B (zh) | 一种融合文本和知识表征的问答匹配方法及系统 | |
US20210125516A1 (en) | Answer training device, answer training method, answer generation device, answer generation method, and program | |
Nagaraj et al. | Kannada to English Machine Translation Using Deep Neural Network. | |
CN109857846B (zh) | 用户问句与知识点的匹配方法和装置 | |
CN111625634A (zh) | 词槽识别方法及装置、计算机可读存储介质、电子设备 | |
CN111611810A (zh) | 一种多音字读音消歧装置及方法 | |
CN111680494A (zh) | 相似文本的生成方法及装置 | |
CN115098634B (zh) | 一种基于语义依存关系融合特征的舆情文本情感分析方法 | |
CN109933792A (zh) | 基于多层双向lstm和验证模型的观点型问题阅读理解方法 | |
CN110442880A (zh) | 一种机器翻译译文的翻译方法、装置及存储介质 | |
CN114722833B (zh) | 一种语义分类方法及装置 | |
Adjeisah et al. | Pseudotext Injection and Advance Filtering of Low‐Resource Corpus for Neural Machine Translation | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN113220996A (zh) | 基于知识图谱的科技服务推荐方法、装置、设备及存储介质 | |
Han et al. | Generative adversarial networks for open information extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |