CN106502985B - 一种用于生成标题的神经网络建模方法及装置 - Google Patents

一种用于生成标题的神经网络建模方法及装置 Download PDF

Info

Publication number
CN106502985B
CN106502985B CN201610916422.2A CN201610916422A CN106502985B CN 106502985 B CN106502985 B CN 106502985B CN 201610916422 A CN201610916422 A CN 201610916422A CN 106502985 B CN106502985 B CN 106502985B
Authority
CN
China
Prior art keywords
model
word
optimized
hidden state
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610916422.2A
Other languages
English (en)
Other versions
CN106502985A (zh
Inventor
孙茂松
阿雅娜
刘知远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201610916422.2A priority Critical patent/CN106502985B/zh
Publication of CN106502985A publication Critical patent/CN106502985A/zh
Application granted granted Critical
Publication of CN106502985B publication Critical patent/CN106502985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Abstract

本发明实施例公开了一种用于生成标题的神经网络建模方法及装置。该用于生成标题的神经网络建模方法包括:获取多个样本文档,以及各样本文档对应的标准标题;将各样本文档输入至所述待优化模型中,由所述待优化模型根据接收到的各样本文档输出与各样本文档对应的参考标题;对各样本文档对应的参考标题和标准标题进行匹配处理,以获取参考标题和标准标题之间的语义差距;根据各样本文档对应的语义差距对所述待优化模型中的目标参数进行优化。本发明实施例基于参考标题和标准标题之间的语义差距,从句子级别对待优化模型中的参数进行优化,与仅在词级别优化待优化模型的现有技术相比,具有提高模型稳定性、提高标题生成准确度的优点。

Description

一种用于生成标题的神经网络建模方法及装置
技术领域
本发明实施例涉及自然语言处理以及文本自动摘要技术领域,具体涉及一种用于生成标题的神经网络建模方法及装置。
背景技术
自动文摘是指利用计算机,自动得到能够涵盖源文本核心思想,且准确、连贯的摘要。自动文当摘要技术主要分为两类:抽取式和摘要式。前者直接从原文档中选择部分句子,组合作为文摘,虽具有简便的特性,但无法在较短的长度限制之内给出一个凝练且连贯的文摘。相反,摘要式文摘试图理解原文档的语义,从而生成一个语句不完全来自于原文档的文摘。当要求文摘的长度特别短,短到一个句子级别时,这个任务被称作标题生成。摘要式文摘需要正确理解原文档并且给出一个适当的表示,然后在这个表示的基础上逐步生成相应的文摘。以往的方法依赖原文档的语言学结构,如语义分析或句法分析,去理解原文档。但由于相关技术的不完善导致文摘质量较差。
近年来,深度学习技术在机器翻译等自然语言处理领域进展迅速,在自动文摘方面也初见成效。如基于神经网络的标题生成模型,通过一个巨大的神经网络,将一篇文档作为模型的输入,为这篇文档输出一个精炼的句子作为其标题。此类模型具有以下优点:1、模型是完全数据驱动的,不需要任何人工标注和额外的语言学信息;2、模型是完全端到端的,无需对潜在的语言学结构建模,从而避免了错误传播。除此之外,引入注意力机制进一步提升了模型效果。
尽管相比于传统的标题生成模型,神经网络标题生成模型进来取得了较大的进展,但仍面临一个严重的问题:现有的神经网络标题生成模型的参数通常在训练数据上通过极大似然估计训练优化。这样的训练方式仅在词级别对模型参数进行优化,难以保证模型的稳定性。除此之外,这种训练方式也没有将评价指标考虑在训练过程中,从而不能把握全局信息。
发明内容
本发明实施例的一个目的是用于解决现有的神经网络模型仅在词级别进行优化,导致生成的标题精确度低的问题。
本发明实施例提出了一种用于生成标题的神经网络建模方法,包括:
获取多个样本文档,以及各样本文档对应的标准标题;
将各样本文档输入至所述待优化模型中,由所述待优化模型根据接收到的各样本文档输出与各样本文档对应的参考标题;
对各样本文档对应的参考标题和标准标题进行匹配处理,以获取参考标题和标准标题之间的语义差距;
根据各样本文档对应的语义差距对所述待优化模型中的目标参数进行优化。
可选地,所述待优化模型根据接收到的各样本文档输出与各样本文档对应的参考标题步骤具体包括:
对样本文档的单词进行向量化处理,获取各单词对应的词向量;
根据各单词对应的词向量获取所述样本文档对应的文档向量,以及输入所述文档向量的过程中待优化模型的各时刻隐藏状态;
根据所述待优化模型的各时刻的隐藏状态,获取所述目标文档的标题。
可选地,所述根据各单词对应的词向量获取所述样本文档对应的文档向量,以及输入所述文档向量的过程中待优化模型的各时刻隐藏状态的步骤具体包括:
判断当前时刻是否为初始时刻;
若是,则获取当前时刻输入的词向量,并根据当前时刻输入的词向量,获取所述待优化模型当前时刻的隐藏状态;
若否,则获取当前时刻输入的词向量和前一时刻的隐藏状态,并根据当前时刻输入的词向量和前一时刻的隐藏状态,获取所述待优化模型当前时刻的隐藏状态。
可选地,所述根据各单词对应的词向量获取所述样本文档对应的文档向量,以及输入所述文档向量的过程中待优化模型的各时刻隐藏状态的步骤具体包括:
获取各时刻输入的词向量,结合以下公式,获取在输入词向量的过程中所述待优化模型各时刻的隐藏状态:
Figure BDA0001134966030000031
其中,hi为所述待优化模型第i时刻的隐藏状态,hi-1为所述待优化模型第i-1时刻的隐藏状态,zih i-1均为第i时刻输入的词向量和第i-1时刻的隐藏状态之间的关系函数。
可选地,所述根据所述待优化模型的各时刻的隐藏状态,获取所述目标文档的标题的步骤具体包括:
判断当前时刻是否为初始时刻;
若是,则根据当前时刻的隐藏状态,获取当前时刻生成各标题词的概率,并根据生成各标题词的概率输出标题词;
若否,则根据当前时刻和前一时刻的隐藏状态,获取当前时刻生成各标题词的概率,并根据生成各标题词的概率输出标题词。
本发明还提出了一种用于生成标题的神经网络建模装置包括:
第一获取模块,用于获取多个样本文档,以及各样本文档对应的标准标题;
第二获取模块,用于获取将各样本文档输入至所述待优化模型中,由所述待优化模型根据接收到的各样本文档输出与各样本文档对应的参考标题;
匹配模块,用于对各样本文档对应的参考标题和标准标题进行匹配处理,以获取参考标题和标准标题之间的语义差距;
优化模块,用于根据各样本文档对应的语义差距对所述待优化模型中的目标参数进行优化。
可选地,所述待优化模型,具体用于对样本文档的单词进行向量化处理,获取各单词对应的词向量;根据各单词对应的词向量获取所述样本文档对应的文档向量,以及输入所述文档向量的过程中待优化模型的各时刻隐藏状态;根据所述待优化模型的各时刻的隐藏状态,获取所述目标文档的标题。
可选地,所述待优化模型,具体用于判断当前时刻是否为初始时刻;若是,则获取当前时刻输入的词向量,并根据当前时刻输入的词向量,获取所述待优化模型当前时刻的隐藏状态;若否,则获取当前时刻输入的词向量和前一时刻的隐藏状态,并根据当前时刻输入的词向量和前一时刻的隐藏状态,获取所述待优化模型当前时刻的隐藏状态。
可选地,所述待优化模型,具体用于获取各时刻输入的词向量,结合以下公式,获取在输入词向量的过程中所述待优化模型各时刻的隐藏状态:
其中,hi为所述待优化模型第i时刻的隐藏状态,hi-1为所述待优化模型第i-1时刻的隐藏状态,zih i-1均为第i时刻输入的词向量和第i-1时刻的隐藏状态之间的关系函数。
可选地,所述待优化模型,具体用于判断当前时刻是否为初始时刻;若是,则根据当前时刻的隐藏状态,获取当前时刻生成各标题词的概率,并根据生成各标题词的概率输出标题词;若否,则根据当前时刻和前一时刻的隐藏状态,获取当前时刻生成各标题词的概率,并根据生成各标题词的概率输出标题词。
由上述技术方案可知,本发明实施例提出的一种用于生成标题的神经网络建模方法及装置基于参考标题和标准标题之间的语义差距,从句子级别对待优化模型中的参数进行优化,与仅在词级别优化待优化模型的现有技术相比,具有提高模型稳定性、提高标题生成准确度的优点。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了本发明一实施例提供的一种用于生成标题的神经网络建模方法的流程示意图;
图2示出了本发明一实施例提供的一种用于生成标题的神经网络建模方法中待优化模型的工作流程图;
图3示出了本发明一实施例提供的一种用于生成标题的神经网络建模方法的原理图;
图4示出了本发明一实施例提供的一种用于生成标题的神经网络建模装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明一实施例提供的一种用于生成标题的神经网络建模方法的流程示意图,参见图1,该用于生成标题的神经网络建模方法,包括:
110、获取多个样本文档,以及各样本文档对应的标准标题;
120、将各样本文档输入至所述待优化模型中,由所述待优化模型根据接收到的各样本文档输出与各样本文档对应的参考标题;
130、对各样本文档对应的参考标题和标准标题进行匹配处理,以获取参考标题和标准标题之间的语义差距;
140、根据各样本文档对应的语义差距对所述待优化模型中的目标参数进行优化。
需要说明的是,每一个样本文档均有与之对应的标准标题,基于这种关联关系,以多个样本文档及其标准标题构建样本集;
以样本文档为输入,待优化模型输出参考标题;
对比同一样本文档的参考标题和标准标题,得出参考标题和标准标题的语义差距,并基于语义差距对待优化模型进行优化。
本发明实施例基于参考标题和标准标题之间的语义差距,从句子级别对待优化模型中的参数进行优化,与仅在词级别优化待优化模型的现有技术相比,具有提高模型稳定性、提高标题生成准确度的优点。
图2示出了本发明一实施例提供的一种用于生成标题的神经网络建模方法中待优化模型的工作流程图,下面参照图2对上述待优化模型的工作过程进行详细说明:
210、对样本文档的单词进行向量化处理,获取各单词对应的词向量;
220、根据各单词对应的词向量获取所述样本文档对应的文档向量,以及输入所述文档向量的过程中待优化模型的各时刻隐藏状态;
230、根据所述待优化模型的各时刻的隐藏状态,获取所述目标文档的标题。
本实施例中,步骤220具体包括:
判断当前时刻是否为初始时刻;
若是,则获取当前时刻输入的词向量,并根据当前时刻输入的词向量,获取所述待优化模型当前时刻的隐藏状态;
若否,则获取当前时刻输入的词向量和前一时刻的隐藏状态,并根据当前时刻输入的词向量和前一时刻的隐藏状态,获取所述待优化模型当前时刻的隐藏状态。
其对应的实现公式如下:
Figure BDA0001134966030000071
其中,hi为所述待优化模型第i时刻的隐藏状态,hi-1为所述待优化模型第i-1时刻的隐藏状态,zih i-1均为第i时刻输入的词向量和第i-1时刻的隐藏状态之间的关系函数。
本实施例中,步骤230具体包括:
判断当前时刻是否为初始时刻;
若是,则根据当前时刻的隐藏状态,获取当前时刻生成各标题词的概率,并根据生成各标题词的概率输出标题词;
若否,则根据当前时刻和前一时刻的隐藏状态,获取当前时刻生成各标题词的概率,并根据生成各标题词的概率输出标题词。
图3示出了本发明一实施例提供的一种用于生成标题的神经网络建模方法的原理图,本方案中待优化模型包括:待优化模型包括编码器和解码器;
本实施例采用双向循环神经网络作为编码器,采用单向循环神经网络作为解码器;
下面参照图3对本方案的原理进行详细说明:
A、输入样本文档,采用双向循环神经网络作为编码器,得到文档向量表示;
A1、对输入的样本文档的单词进行向量化处理,得到词向量;
循环神经网络的输入为文档中所有单词所对应的词向量。因此首先需要将每个单词通过一个词向量矩阵映射得到其相应的词向量。令
Figure BDA0001134966030000073
其中,x表示样本文档,Vx表示输入样本文档大小,xt是0-1向量,1的位置对应该词在词典中的位置,M表示样本文档的长度。
则循环神经网络的输入为:
Ex=(Ex1,Ex2,…,ExM)
其中,
Figure BDA0001134966030000084
为词向量映射矩阵,d表示词向量维度。
A2、采用Gated Recurrent Unit(GRU)作为循环神经网络激活函数。
循环神经网络是对传统前馈神经网络的一种改进,可以处理变长的输入序列。在每一个输入时刻i,其相应的隐藏节点输出不仅考虑这一时刻的输入,还将过去的输出信息融合进来。设hi为i时刻的隐藏状态,其更新公式为:
Figure BDA0001134966030000081
其中,g是一个光滑的有界函数,如sigmoid函数。尽管这样的循环神经网络可以处理变长序列,但在训练过程中存在梯度消失(gradient vanishing)或梯度爆炸(gradientexploding)的问题,导致模型处理较长的序列时效果。GRU在隐藏状态计算中引入重置门(reset gate)和更新门(update gate)改进这一问题。
在i时刻,隐藏状态hi
Figure BDA0001134966030000082
其中,
h i-1=tanh(WExi+U[ri·hi-1])
zi=σ(WzExi+Uzhi-1)
ri=σ(WrExi+Urhi-1)
W,Wz,Wr∈Rn×d和U,Uz,Ur∈Rn×n是权重矩阵,n表示隐藏单元大小。
A3、采用双向循环神经网络对样本文档进行编码,获得固定长度的文档向量。
双向循环神经网络是对单向循环神经网络的进一步改进,不仅考虑过去的信息,还考虑未来的信息。例如在预测一句话的语义时,需要根据上下文进行预测。双向循环神经网络由前向循环神经网络和后向循环神经网络叠加在一起组成,即
Figure BDA0001134966030000091
其中
Figure BDA0001134966030000092
Figure BDA0001134966030000093
分别表示前向网络和后向网络在i时刻由A2中公式计算得到的隐藏状态。则
Figure BDA0001134966030000094
作为该样本文档的向量表示输入到解码器中。
B、采用单向循环神经网络作为解码器,根据文档向量表示和解码器的隐藏状态,逐步生成标题。
B1、计算在j时刻的隐藏状态;
采用单向循环神经网络作为解码器,则j时刻隐藏的隐藏状态为:
sj=(1-zj)·sj-1+zj·s j-1
s j-1=tanh(WEyj+U[rj·sj-1]+Ccj
zj=σ(WzEyj-1+Uzsj+Czcj)
rj=σ(WrEyj-1+Ursj+Crcj)
其中,W,Wz,Wr∈Rn×d,U,Uz,Ur∈Rn×n和C,Cz,Cr∈Rn×2n是权重矩阵,n表示隐藏单元大小,cj为上下文向量,yj-1是解码器上一步产生的输出。
B2、采用注意力机制定义上下文向量;
上下文向量cj通过编码器部分得到的隐藏状态和解码器在j-1时刻得到的隐藏状态计算,具体如下:
Figure BDA0001134966030000101
其中,
Figure BDA0001134966030000106
Figure BDA0001134966030000107
hi是A3部分定义的编码器隐藏状态,va∈Rp,Wa∈Rp×n,Ua∈Rp×2n是权重矩阵,aj即注意力向量。
B3、定义j时刻产生词yj的概率;
根据解码器隐藏状态sj、上下文向量cj和(j-1)时刻的输出词yj-1定义j时刻产生词yj的概率为:
Figure BDA0001134966030000103
如此,模型逐词产生标题
Figure BDA0001134966030000104
的概率为
Figure BDA0001134966030000105
其中,N<M,vY表示输出标题集词表大小,y<j=(y1,y2,…,yj-1),θ为所有模型参数。
C、利用最小风险训练方法优化待优化模型的目标参数。
C1、定义损失函数;
Figure BDA0001134966030000111
其中,y(x;θ)表示给定输入文档x和参数θ,模型生成的一组标题,Ey(x;θ)为对应的数学期望。Δ(y′;y)表示标准标题y和模型生成标题y′之间的语义差距,即风险函数。
C2、定义风险函数,并通过随机梯度下降学习和更新模型参数;
由于标题本质上来讲是一个摘要问题,因此我们使用摘要领域的自动评价标准ROUGE来定义风险函数。我们考虑两种ROUGE评测指标,分别是ROUGE-N和ROUGE-L作为风险函数。
Figure BDA0001134966030000115
其中,
Figure BDA0001134966030000113
Lcs(y′;y)表示标准标题y和模型生成标题y′之间的最长公共子串。我们定义Δ(y′;y)=-ROUGE-{1,2,L}。
C2、通过随机梯度下降学习和更新模型参数。
可见,本发明实施例不但利用神经网络模型以数据驱动的方式为文档自动生成标题,还可以从句子级别把握全局信息,解决了以往模型仅在词级别学习和更新模型参数的问题,提高模型的稳定性,具有良好的实用性。
对于方法实施方式,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施方式并不受所描述的动作顺序的限制,因为依据本发明实施方式,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施方式均属于优选实施方式,所涉及的动作并不一定是本发明实施方式所必须的。
图4示出了本发明一实施例提供的一种用于生成标题的神经网络建模装置的结构示意图,参见图4,该用于生成标题的神经网络建模装置,包括:第一获取模块41、第二获取模块42、匹配模块43、以及优化模块,其中;
第一获取模块41,用于获取多个样本文档,以及各样本文档对应的标准标题;
第二获取模块42,用于获取将各样本文档输入至所述待优化模型中,由所述待优化模型根据接收到的各样本文档输出与各样本文档对应的参考标题;
匹配模块43,用于对各样本文档对应的参考标题和标准标题进行匹配处理,以获取参考标题和标准标题之间的语义差距;
优化模块44,用于根据各样本文档对应的语义差距对所述待优化模型中的目标参数进行优化。
本发明实施例基于参考标题和标准标题之间的语义差距,从句子级别对待优化模型中的参数进行优化,与仅在词级别优化待优化模型的现有技术相比,具有提高模型稳定性、提高标题生成准确度的优点。
本实施例中,所述待优化模型,具体用于对样本文档的单词进行向量化处理,获取各单词对应的词向量;根据各单词对应的词向量获取所述样本文档对应的文档向量,以及输入所述文档向量的过程中待优化模型的各时刻隐藏状态;根据所述待优化模型的各时刻的隐藏状态,获取所述目标文档的标题。
对于装置实施方式而言,由于其与方法实施方式基本相似,所以描述的比较简单,相关之处参见方法实施方式的部分说明即可。
应当注意的是,在本发明的装置的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或者组合。
本发明的各个部件实施方式可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本装置中,PC通过实现因特网对设备或者装置远程控制,精准的控制设备或者装置每个操作的步骤。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样实现本发明的程序可以存储在计算机可读介质上,并且程序产生的文件或文档具有可统计性,产生数据报告和cpk报告等,能对功放进行批量测试并统计。应该注意的是上述实施方式对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施方式。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (6)

1.一种用于生成标题的神经网络建模方法,其特征在于,包括:
获取多个样本文档,以及各样本文档对应的标准标题;
将各样本文档输入至待优化模型中,由所述待优化模型根据接收到的各样本文档输出与各样本文档对应的参考标题;
对各样本文档对应的参考标题和标准标题进行匹配处理,以获取参考标题和标准标题之间的语义差距;
根据各样本文档对应的语义差距对所述待优化模型中的目标参数进行优化;
其中,所述待优化模型根据接收到的各样本文档输出与各样本文档对应的参考标题步骤具体包括:
对样本文档的单词进行向量化处理,获取各单词对应的词向量;
根据各单词对应的词向量获取所述样本文档对应的文档向量,以及输入所述文档向量的过程中待优化模型的各时刻隐藏状态;
根据所述待优化模型的各时刻的隐藏状态,获取目标文档的标题;
所述根据各单词对应的词向量获取所述样本文档对应的文档向量,以及输入所述文档向量的过程中待优化模型的各时刻隐藏状态的步骤具体包括:
获取各时刻输入的词向量,结合以下公式,获取在输入词向量的过程中所述待优化模型各时刻的隐藏状态:
其中,hi为所述待优化模型第i时刻的隐藏状态,hi-1为所述待优化模型第i-1时刻的隐藏状态,zih i-1均为第i时刻输入的词向量和第i-1时刻的隐藏状态之间的关系函数;
其中,
h i-1=tanh(WExi+U[ri·hi-1])
zi=σ(WzExi+Uzhi-1)
ri=σ(WrExi+Urhi-1)
W,Wz,Wr∈Rn×d和U,Uz,Ur∈Rn×n是权重矩阵,n表示隐藏单元大小,xi为第i时刻输入的单词对应的词向量,为0-1向量,E为词向量映射矩阵,d表示词向量维度,R表示向量空间。
2.根据权利要求1所述的方法,其特征在于,所述根据各单词对应的词向量获取所述样本文档对应的文档向量,以及输入所述文档向量的过程中待优化模型的各时刻隐藏状态的步骤具体包括:
判断当前时刻是否为初始时刻;
若是,则获取当前时刻输入的词向量,并根据当前时刻输入的词向量,获取所述待优化模型当前时刻的隐藏状态;
若否,则获取当前时刻输入的词向量和前一时刻的隐藏状态,并根据当前时刻输入的词向量和前一时刻的隐藏状态,获取所述待优化模型当前时刻的隐藏状态。
3.根据权利要求1所述的方法,其特征在于,所述根据所述待优化模型的各时刻的隐藏状态,获取所述目标文档的标题的步骤具体包括:
判断当前时刻是否为初始时刻;
若是,则根据当前时刻的隐藏状态,获取当前时刻生成各标题词的概率,并根据生成各标题词的概率输出标题词;
若否,则根据当前时刻和前一时刻的隐藏状态,获取当前时刻生成各标题词的概率,并根据生成各标题词的概率输出标题词。
4.一种用于生成标题的神经网络建模装置,其特征在于,包括:
第一获取模块,用于获取多个样本文档,以及各样本文档对应的标准标题;
第二获取模块,用于获取将各样本文档输入至待优化模型中,由所述待优化模型根据接收到的各样本文档输出与各样本文档对应的参考标题;
匹配模块,用于对各样本文档对应的参考标题和标准标题进行匹配处理,以获取参考标题和标准标题之间的语义差距;
优化模块,用于根据各样本文档对应的语义差距对所述待优化模型中的目标参数进行优化;
所述待优化模型,具体用于对样本文档的单词进行向量化处理,获取各单词对应的词向量;根据各单词对应的词向量获取所述样本文档对应的文档向量,以及输入所述文档向量的过程中待优化模型的各时刻隐藏状态;根据所述待优化模型的各时刻的隐藏状态,获取目标文档的标题;
其中,所述待优化模型,具体用于获取各时刻输入的词向量,结合以下公式,获取在输入词向量的过程中所述待优化模型各时刻的隐藏状态:
Figure FDA0002265821430000031
其中,hi为所述待优化模型第i时刻的隐藏状态,hi-1为所述待优化模型第i-1时刻的隐藏状态,zih i-1均为第i时刻输入的词向量和第i-1时刻的隐藏状态之间的关系函数;
其中,
h i-1=tanh(WExi+U[ri·hi-1])
zi=σ(WzExi+Uzhi-1)
ri=σ(WrExi+Urhi-1)
W,Wz,Wr∈Rn×d和U,Uz,Ur∈Rn×n是权重矩阵,n表示隐藏单元大小,xi为第i时刻输入的单词对应的词向量,为0-1向量,E为词向量映射矩阵,d表示词向量维度,R表示向量空间。
5.根据权利要求4所述的装置,其特征在于,所述待优化模型,具体用于判断当前时刻是否为初始时刻;若是,则获取当前时刻输入的词向量,并根据当前时刻输入的词向量,获取所述待优化模型当前时刻的隐藏状态;若否,则获取当前时刻输入的词向量和前一时刻的隐藏状态,并根据当前时刻输入的词向量和前一时刻的隐藏状态,获取所述待优化模型当前时刻的隐藏状态。
6.根据权利要求4所述的装置,其特征在于,所述待优化模型,具体用于判断当前时刻是否为初始时刻;若是,则根据当前时刻的隐藏状态,获取当前时刻生成各标题词的概率,并根据生成各标题词的概率输出标题词;若否,则根据当前时刻和前一时刻的隐藏状态,获取当前时刻生成各标题词的概率,并根据生成各标题词的概率输出标题词。
CN201610916422.2A 2016-10-20 2016-10-20 一种用于生成标题的神经网络建模方法及装置 Active CN106502985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610916422.2A CN106502985B (zh) 2016-10-20 2016-10-20 一种用于生成标题的神经网络建模方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610916422.2A CN106502985B (zh) 2016-10-20 2016-10-20 一种用于生成标题的神经网络建模方法及装置

Publications (2)

Publication Number Publication Date
CN106502985A CN106502985A (zh) 2017-03-15
CN106502985B true CN106502985B (zh) 2020-01-31

Family

ID=58318124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610916422.2A Active CN106502985B (zh) 2016-10-20 2016-10-20 一种用于生成标题的神经网络建模方法及装置

Country Status (1)

Country Link
CN (1) CN106502985B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280112B (zh) * 2017-06-22 2021-05-28 腾讯科技(深圳)有限公司 摘要生成方法、装置及计算机设备
CN107562718B (zh) * 2017-07-24 2020-12-22 科大讯飞股份有限公司 文本规整方法及装置、存储介质、电子设备
CN107844469B (zh) * 2017-10-26 2020-06-26 北京大学 基于词向量查询模型的文本简化方法
CN110019928B (zh) * 2017-11-17 2021-07-30 阿里巴巴(中国)有限公司 视频标题的优化方法及装置
CN109948140B (zh) * 2017-12-20 2023-06-23 普天信息技术有限公司 一种词向量嵌入方法及装置
CN109033413B (zh) * 2018-03-12 2022-12-23 上海大学 一种基于神经网络的需求文档和服务文档匹配方法
CN108920455A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种汉语自动生成文本的自动评价方法
CN108920565B (zh) * 2018-06-21 2022-07-05 苏州大学 一种图片标题生成方法、装置和计算机可读存储介质
CN109214407B (zh) * 2018-07-06 2022-04-19 创新先进技术有限公司 事件检测模型、方法、装置、计算设备及存储介质
US20200026767A1 (en) * 2018-07-17 2020-01-23 Fuji Xerox Co., Ltd. System and method for generating titles for summarizing conversational documents
CN110209801B (zh) * 2019-05-15 2021-05-14 华南理工大学 一种基于自注意力网络的文本摘要自动生成方法
CN110532344A (zh) * 2019-08-06 2019-12-03 北京如优教育科技有限公司 基于深度神经网络模型的自动选题系统
CN110795930A (zh) * 2019-10-24 2020-02-14 网娱互动科技(北京)股份有限公司 一种文章标题优化方法、系统、介质及设备
CN111079402B (zh) * 2019-12-31 2021-10-26 北大方正集团有限公司 文档层级划分方法、文档层级划分装置和可读存储介质
CN111353009B (zh) 2020-02-03 2021-10-26 百度在线网络技术(北京)有限公司 建立路线耗时预估模型、预估路线耗时的方法及对应装置
CN113824624B (zh) * 2020-06-19 2023-10-17 阿里巴巴集团控股有限公司 一种邮件标题生成模型的训练方法及邮件标题生成方法
CN111898337B (zh) * 2020-07-13 2024-01-26 武汉大学 一种基于深度学习的单句摘要缺陷报告标题自动生成方法
CN112016307A (zh) * 2020-08-13 2020-12-01 深圳市欢太科技有限公司 一种文本信息的标题生成方法、电子设备和存储介质
CN112182976B (zh) * 2020-10-12 2023-03-24 上海交通大学 一种工业设备剩余寿命预测方法
CN112711942A (zh) * 2021-03-29 2021-04-27 贝壳找房(北京)科技有限公司 房源标题生成模型的训练方法、生成方法、装置以及设备
CN115496061B (zh) * 2022-09-30 2023-06-20 内蒙古财经大学 一种神经网络标题生成模型的构建方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100444194C (zh) * 2005-10-27 2008-12-17 富士施乐株式会社 文章标题及关联信息的自动抽取装置和抽取方法
CN101388006B (zh) * 2008-10-24 2013-03-20 中国科学院计算技术研究所 一种自动化的文摘实验装置与方法
CN101782743A (zh) * 2010-02-11 2010-07-21 浙江大学 神经网络建模方法及系统
CN104113789B (zh) * 2014-07-10 2017-04-12 杭州电子科技大学 一种基于深度学习的视频摘要在线生成方法
CN104834735B (zh) * 2015-05-18 2018-01-23 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN105930314B (zh) * 2016-04-14 2019-02-05 清华大学 基于编码-解码深度神经网络的文本摘要生成系统及方法

Also Published As

Publication number Publication date
CN106502985A (zh) 2017-03-15

Similar Documents

Publication Publication Date Title
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
US11501182B2 (en) Method and apparatus for generating model
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN110162749B (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN111914067B (zh) 中文文本匹配方法及系统
CN111401084B (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN113127624B (zh) 问答模型的训练方法及装置
CN112380863A (zh) 一种基于多头自注意力机制的序列标注方法
CN111680494A (zh) 相似文本的生成方法及装置
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN115495555A (zh) 一种基于深度学习的文献检索方法和系统
CN110569505A (zh) 一种文本输入方法及装置
CN111401081A (zh) 神经网络机器翻译方法、模型及模型形成方法
CN112507337A (zh) 基于语义分析的恶意JavaScript代码检测模型的实现方法
CN111831783B (zh) 一种篇章级关系抽取方法
CN114358201A (zh) 基于文本的情感分类方法和装置、计算机设备、存储介质
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN112528654A (zh) 自然语言处理方法、装置及电子设备
CN114528398A (zh) 一种基于交互双重图卷积网络的情感预测方法及系统
US20230205994A1 (en) Performing machine learning tasks using instruction-tuned neural networks
CN111291565A (zh) 一种用于命名实体识别的方法与装置
JP2017010249A (ja) パラメタ学習装置、文類似度算出装置、方法、及びプログラム
US11941360B2 (en) Acronym definition network
CN113111190A (zh) 一种知识驱动的对话生成方法及装置
CN110717316B (zh) 字幕对话流的主题分割方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant