CN110457714A - 一种基于时序主题模型的自然语言生成方法 - Google Patents

一种基于时序主题模型的自然语言生成方法 Download PDF

Info

Publication number
CN110457714A
CN110457714A CN201910557271.XA CN201910557271A CN110457714A CN 110457714 A CN110457714 A CN 110457714A CN 201910557271 A CN201910557271 A CN 201910557271A CN 110457714 A CN110457714 A CN 110457714A
Authority
CN
China
Prior art keywords
sentence
timing
word
model
indicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910557271.XA
Other languages
English (en)
Other versions
CN110457714B (zh
Inventor
陈渤
鲁瑞颖
郭丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Electronic Science and Technology
Original Assignee
Xian University of Electronic Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Electronic Science and Technology filed Critical Xian University of Electronic Science and Technology
Priority to CN201910557271.XA priority Critical patent/CN110457714B/zh
Publication of CN110457714A publication Critical patent/CN110457714A/zh
Application granted granted Critical
Publication of CN110457714B publication Critical patent/CN110457714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于时序主题模型的自然语言生成方法,包括:获得文档中的每个句子的上下文词袋向量;利用时序主题模型生成所述文档中每个句子的主题分布向量;将每个句子的每个词和相应的主题分布向量输入到时序语言模型中,得到每个词相应的各层隐变量;将各层隐变量拼接在一起,通过归一化指数函数预测当前句子中的下一个单词;利用随机梯度下降法对时序语言模型以及时序主题模型中的编码器参数进行更新;对时序主题模型中的解码器参数进行采样更新。该方法将多层主题模型与多层语言模型相结合,提取文本主题中层次化的语义特征以及层次化的时序信息,低层特征语义范围较小,高层特征语义范围更为广泛。

Description

一种基于时序主题模型的自然语言生成方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于时序主题模型的自然语言生成方法。
背景技术
在自然语言处理领域中,主题模型和语言模型都是广泛应用的文本分析方法。主题模型对文本的词袋形式进行分析,只考虑文档中单词出现的次数而忽略文本内部词与词之间的时序关系。而多层的主题模型能够极大的提高对文本的建模能力,并得到更具有语义信息的隐变量。
语言模型对文本进行时序建模,能够捕捉到文本内部词与词之间的时序关系,从而实现自然语言处理中的各种任务,如文本总结、机器翻译、图像标注等。语言模型通常给定前一个单词,对后一个单词的发生概率进行估计,并选择预测概率最大的单词,这成为单步预测。给定一个起始符输入语言模型,将单步预测输出的单词作为下一个单步预测的输入,一直进行迭代直到终止符或达到足够长度,从而生成一个句子。但语言模型只关注到了文本内部时序信息,而忽略了文本的语义信息。
因此,将主题模型与语言模型结合起来能够同时捕捉到文本的语义信息与时序信息,能够实现在文本主题指导下的语言时序建模。这种互补的结构能够提升主题模型的主题提取能力以及语言模型的预测能力,从而能够针对不同的主题生成相应的句子。
上海交通大学申请的专利“基于主题模型的文章特征抽取方法”(申请号:201511016955.7)中公开了一种基于主题模型的文章特征抽取方法。该方法包括:首先基于原始语料库构建文章的引用关系网络,设定初始文章集合并根据引用关系网络得到新语料库;然后针对新语料库,构建主题模型的生成模型和参数联合表达式;其次根据所述生成模型构建主题模型的推断过程;接着根据主题模型的推断过程,对新语料库采样文章;最后根据采样文章的采样结果提取文章参数。但是该方法只提取了文本的语义信息,而忽略了文本内部的时序结构,无法应用于文本生成等任务中。
华南理工大学申请的专利“一种基于深度学习和主题模型的问答系统实现方法”(申请号:201810330697.7)中公开了一种基于深度学习和主题模型的问答系统实现方法,包括:首先将问句输入Twitter LDA主题模型获得问句的主题类型,并提取相应主题词,将输入问句和主题词表示为词向量;然后将输入问句的词向量输入RNN循环神经网络编码,获取问句的编码隐藏层状态向量;其次解码RNN循环神经网络使用联合注意力机制结合问句的局部和全局混合语义向量,进行解码生成词;之后使用大规模对话语料训练基于编码解码框架的深度学习主题问答模型;最终利用训练的问答模型预测输入问句的答案,生成与问句主题相关的答案。该方法将主题语义信息输入问答系统,弥补了问答模型外源知识的缺失,增加回答的丰富性和多样性,但是单层主题模型没有多层主题模型提取的语义信息完备,同时无法捕捉到句子与句子之间的时序特征。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于时序主题模型的自然语言生成方法。本发明以时序主题模型为指导,对文章中的句子进行时序主题建模,在每句话的主题指导下对句子内部单词进行时序语言建模,对单词进行单步预测。
实现本发明目的的具体思路是,在时序主题模型的主题分布指导下,对文本进行单步预测,利用主题模型的似然函数与文本预测的误差函数作为目标函数,更新主题模型和语言模型的网络参数,从而能够在主题指导下生成相应文本。本发明要解决的技术问题通过以下技术方案实现:
本发明提供了一种基于时序主题模型的自然语言生成方法,包括:
S1:获得文档中的每个句子的上下文词袋向量;
S2:根据所述上下文词袋向量,利用时序主题模型生成所述文档中每个句子的主题分布向量;
S3:将每个句子的每个词和相应的主题分布向量输入到时序语言模型中,得到每个词相应的各层隐变量;
S4:将每个词的所述各层隐变量拼接在一起,通过归一化指数函数预测当前句子中的下一个单词;
S5:利用随机梯度下降法对所述时序语言模型以及时序主题模型中的编码器参数进行更新;
S6:利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述时序主题模型中解码器的参数进行采样更新。
在本发明的一个实施例中,所述S1包括:
将包括J个句子的文档D{s1,s2,...,sj,...,sJ}除去当前第{1,2,...,J}个句子后的文字分别表示为词袋向量d1,d2,...,dj,...,dJ,其中,dj表示除去第j个句子sj后的上下文词袋向量。
在本发明的一个实施例中,所述S2包括:
将所述词袋向量d1,d2,...,dj,...,dJ依次输入L层的循环伽马置信网络模型中,分别得到对应的主题分布θ12,...,θj,...,θJ,其中θj={θj (1)j (2),...,θj (L)},j∈1:J,表示将所述词袋向量dj输入所述循环伽马置信网络模型中获得的L层隐变量。
在本发明的一个实施例中,所述循环伽马置信网络模型由堆叠的循环概率神经网络构成,用于对时序主题模型的各层神经元进行概率建模,所述循环伽马置信网络模型表示为:
其中,表示第l层的隐变量,表示第l层的隐变量之间的转移矩阵,Φ(l)表示所述循环伽马置信网络模型中的各层字典参数,Gam表示伽马分布函数,τ0表示伽马分布的尺度参数。aj (l)、kj (l)、λj (l)表示韦布尔分布中的参数,g(l)表示基本的循环神经网络传递单元,f(l)表示基本的映射函数,用于将sj (l-1)与sj-1 (l)进行整合,sj (1)=dj表示网络的第一层输入为句子的上下文词袋向量,εj (l)表示一个从标准正态分布中采样得到的随机数,其中,由dj输入得到{θj (1)j (2),...,θj (L)}的过程称为编码器,由{θj (1)j (2),...,θj (L)}重构得到dj的过程称为解码器。
在本发明的一个实施例中,所述S3包括:
将所述文档D{s1,s2,...,sj,...,sJ}中的句子及其相应的主题分布θ12,...,θj,...,θJ依次输入时序语言模型;
每个句子表示为Tj表示第j个句子包含单词的个数。输入的第一个词为起始符,输出sj的第一个词yj1,再输入第一个词yj1预测得到第二个词yj2,依此类推直至输出最后一个词将第j个句子的第t个词yjt分别输入时序语言模型,将得到的时序语言模型的各层隐变量分别记为其中,所述时序语言模型具体表示如下:
其中,zt (l)表示第t个时刻第l层的隐单元,ht (l)表示第t个时刻第l层的长短时记忆网络LSTM的隐单元,θ(l)表示该句子对应的第l层的主题分布向量,zt (l-1)表示第t个时刻第l-1层的隐单元,ht-1 (l)表示第t-1个时刻第l层的LSTM隐单元,LSTM(l)表示第l层的LSTM网络,GRU(l)表示门控循环单元的网络,用于将主题分布加入语言模型中指导词的生成。
在本发明的一个实施例中,所述S4包括:
将时序语言模型各隐层拼接起来得到zt,其中rl为第l层隐变量的维度;
在所述时序语言模型中输入归一化指数函数层,得到V维的概率分布向量;
选择所述概率分布向量中值最大的位置在单词表中所对应的单词为最终单步预测的输出结果,目标输出结果为yj,t的下一个词yj,t+1
在本发明的一个实施例中,所述S5包括:
利用随机梯度下降法对所述循环伽马置信网络中的编码器参数和所述时序语言模型中的参数进行更新,目标函数为:
其中,aj (l)=Φ(l+1)θj (l+1)(l)θj-1 (l),dj表示第j个句子的上下文词袋向量,Φ(l)表示所述循环伽马置信网络中中的各层字典参数,yjt表示第j个句子的第t个单词,其中,q(θj (l)|aj (l),dj)=Weibull(kj (l)+aj (l)j (l)),参数aj (l)与λj (l)通过所述循环伽马置信网络映射得到。
在本发明的一个实施例中,所述S6包括:
利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述循环伽马置信网络中的的解码器字典参数和转移矩阵进行Gibbs采样更新。
与现有技术相比,本发明的有益效果在于:
1、本发明的自然语言生成方法将多层主题模型与多层语言模型相结合,提取处文本主题中层次化的语义特征,以及层次化的时序信息,低层特征较为具体,语义范围较小,高层特征更为抽象,语义范围更为广泛。弥补了主题模型缺乏句子内部时序信息,以及语言模型缺乏句子之间的时序信息与语义信息。这种互补的结构不仅提升了主题模型的主题分析能力,同时提高了语言模型的生成能力。
2、本发明在主题模型构建过程中,不仅提取了文本的语义信息,针对每一个句子给定其相应主题分布,同时考虑了句子与句子之间的时序关系,该时序关系由主题模型对文本进行时序建模得到。
3、本发明在文本生成过程中不仅对句子内部词与词之间的时序关系进行建模,同时将句子的相应主题分布引入该建模过程中指导单步预测,克服了缺乏语义指导的文本生成方面的不足,使得本发明能够基于给定的主题生成相应的文本。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明实施例提供的一种基于时序主题模型的自然语言生成方法的流程图;
图2是本发明实施例提供的一种时序主题模型的结构示意图;
图3是本发明实施例提供的一种语言模型的结构示意图;
图4a和图4b是利用本发明实施例方法得到的单层模型结果展示图;
图5a和图5b是利用本发明实施例方法得到的二层模型结果展示图;
图6a和图6b是利用本发明实施例方法得到的三层模型结果展示图。
具体实施方式
为了进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及具体实施方式,对依据本发明提出的一种基于时序主题模型的自然语言生成方法进行详细说明。
有关本发明的前述及其他技术内容、特点及功效,在以下配合附图的具体实施方式详细说明中即可清楚地呈现。通过具体实施方式的说明,可对本发明为达成预定目的所采取的技术手段及功效进行更加深入且具体地了解,然而所附附图仅是提供参考与说明之用,并非用来对本发明的技术方案加以限制。
应当说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
实现本发明目的的具体思路是,在时序主题模型的主题分布指导下,对文本进行单步预测,利用主题模型的似然函数与文本预测的误差函数作为目标函数,更新主题模型和语言模型的网络参数,从而能够在主题指导下生成相应文本。
请参见图1,图1是本发明实施例提供的一种基于时序主题模型的自然语言生成方法的流程图。该基于时序主题模型的自然语言生成方法,包括:
S1:获得文档中的每个句子的上下文词袋向量;
具体地,将包括J个句子的文档D{s1,s2,...,sj,...,sJ}除去当前第{1,2,...,J}个句子后的文字分别表示为词袋向量d1,d2,...,dj,...,dJ,其中,dj∈R1*V表示除去第j个句子sj后的上下文词袋向量,其中V表示预定义字典的维度,由数据集确定,dj某一位置上的数值表示预定义字典对应位置的词在除去第j个句子sj后的上下文中出现的次数。。
S2:根据所述上下文词袋向量,利用时序主题模型生成所述文档中每个句子的主题分布向量;
具体地,请参见图2,图2是本发明实施例提供的一种时序主题模型的结构示意图。将所述词袋向量d1,d2,...,dj,...,dJ依次输入L层的循环伽马置信网络(rGBN)模型中,分别得到对应的主题分布θ12,...,θj,...,θJ,其中θj={θj (1)j (2),...,θj (L)},j∈1:J,表示将所述词袋向量dj输入所述循环伽马置信网络模型中获得的L层隐变量。每一层隐变量θj (l)表示第j句话在第l层主题字典上的主题分布,描述了该句话的语义信息,有利于分析文本的语义特征从而指导自然语言的生成。
在本实施例中,所述循环伽马置信网络模型由堆叠的循环神经网络(RNN)构成,用于对时序主题模型的各层神经元进行概率建模,所述循环伽马置信网络模型表示为:
其中,表示第l层的隐变量,表示第l层的隐变量之间的转移矩阵,Φ(l)表示所述循环伽马置信网络模型中的各层字典参数,Gam表示伽马分布函数,τ0表示伽马分布的尺度参数。aj (l)、kj (l)、λj (l)表示韦布尔分布中的参数,g(l)表示基本的循环神经网络传递单元,f(l)表示基本的映射函数,用于将sj (l-1)与sj-1 (l)进行整合,sj (1)=dj表示网络的第一层输入为句子的上下文词袋向量,εj (l)表示一个从标准正态分布中采样得到的随机数,其中,由dj输入得到{θj (l),θj (2),...,θj (L)}的过程称为编码器,由{θj (l),θj (2),...,θj (L)}重构得到dj的过程称为解码器。
进一步地,aj (l)+kj(l)是韦布尔分布的比例参数,λj (l)是韦布尔分布的形状参数。
S3:将每个句子的每个词和相应的主题分布向量输入到时序语言模型中,得到每个词相应的各层隐变量;
将所述文档D{s1,s2,...,sj,...,sJ}中的句子及其相应的主题分布θ1,θ2,...,θj,...,θJ依次输入时序语言模型;
具体地,请参见图3,图3是本发明实施例提供的一种语言模型的结构示意图。将某个句子表示为(y1,y2,...,yT),T表示该句话包含单词的个数。如图所示,输入的第一个词为起始符,再输入该句话的第一个词y1,依此类推直至输入倒数第二个词yT-1。将第t个时刻的单词yt输入时序语言模型,得到隐变量{zt (1),zt (2),...,zt (L)},具体模型实现如下:
其中,zt (l)表示第t个时刻第l层的隐单元,ht (l)表示第t个时刻第l层的长短时记忆网络LSTM的隐单元,θ(l)表示yt所在句子对应的第l层的主题分布向量,zt (l)表示第t个时刻第l层的隐单元,ht-1 (l)表示第t-1个时刻第l层的LSTM隐单元,LSTM(l)表示第l层的LSTM网络,GRU(l)表示门控循环单元的网络,用于将主题分布加入语言模型中指导词的生成。
在本实施例中,的具体实现过程为:
it (l)=σ(Wi (l)zt (l)+Ui (l)ht-1 (l)+bi (l))
ft (l)=σ(Wf (l)zt (l)+Uf (l)ht-1 (l)+bf (l))
o(l)=σ(Wo (l)zt (l)+Uo (l)ht-1 (l)+bo (l))
ct(l)=tanh(Wc (l)zt (l)+Uc (l)ht-1 (l)+bc (l))
ct (l)=ft (l)⊙ct-1 (l)+it (l)⊙ct(l)
ht (l)=ot (l)⊙tanh(ci (l))
其中,Wi (l),Ui (l),bi (l),Wf (l),Uf (l),bf (l),Wo (l),Uo (l),bo (l),Wc (l),Uc (l),bc (l)是第l层LSTM网络的参数,it (l),ft (l),ot (l)分别表示第l层LSTM网络的输入门,遗忘门,输出门。
进一步地,的具体实现过程为:
et (l)=σ(We (l)θ(l)+Ue (l)ht (l)+be (l))
rt (l)=σ(Wr (l)θ(l)+Ur (l)ht (l)+br (l))
zt(l)=tanh(Wz (l)θ(l)+Uz (l)(rt (l)⊙ht (l))+bz (l))
zt (l)=(1-et (l))⊙ht (l)+et (l)⊙zt(l)
其中,We (l),Ue (l),be (l),Wr (l),Ur (l),br (l),Wz (l),Uz (l),bz (l)是第l层GRU网络的参数,从而实现将θ(l)融合,实现主题模型对语言模型的指导。
S4:将每个词的所述各层隐变量拼接在一起,通过归一化指数函数预测当前句子中的下一个单词;
具体地,将时序语言模型各隐层拼接起来得到zt,其中rl为第l层隐变量的维度;
在所述时序语言模型中将zt输入softmax层,得到V维的概率分布向量,具体实现过程为:其中wz∈Rl×V,得到的为V维向量,再通过得到最终的概率分布向量,其中表示向量中的第i维;
选择所述概率分布向量中值最大的位置在单词表中所对应的单词为最终单步预测的输出结果,目标输出结果为yj,t的下一个词yj,t+1
S5:利用随机梯度下降法对所述时序语言模型以及时序主题模型中的编码器参数进行更新;
具体地,利用随机梯度下降法对所述循环概率伽马置信网络中的编码器参数和所述时序语言模型中的参数进行更新,目标函数为:
其中,aj (l)=Φ(l+1i (l+1)(l)θj-1 (l),dj表示第j个句子的上下文词袋向量,Φ(l)表示所述循环伽马置信网络中中的各层字典参数,yjt表示第j个句子的第t个单词,其中,q(θj (l)|aj (l),dj)=Weibull(kj (l)+aj (l)j (l)),其中,Weibull表示韦布尔分布函数,其参数kj (l),aj (l)与λj (l)通过所述循环伽马置信网络映射得到。
S6:利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述时序主题模型中解码器的参数进行采样更新。
具体地,利用自适应随机梯度马尔可夫链蒙特卡洛采样方法(TLASGR-MCMC)对rGBN中的解码器(decoder)字典参数以及转移矩阵进行Gibbs采样更新。
接着,以下通过示例性实验对本发明实施例的基于时序主题模型的自然语言生成方法的效果进行进一步说明。
本实施例的实验使用的运行系统为Intel(R)Core(TM)i7-8700CPU@3.20GHz,64位Windows操作系统,仿真语言采用Python。使用的实验数据为公开的新闻数据集“APNEWS”。
实验一:
1.1)实验参数
时序主题模型rGBN网络的层数设置为1,主题个数为100。语言模型LSTM网络的层数设置为1,隐单元个数设置为600。
1.2)实验内容
请参见图4a和图4b,图4a为利用单层主题模型rGBN对文本建模获得的主题表示举例,图4b为单层语言模型LSTM生成的文本举例。
由图4a和图4b可见,单层rGBN对于文本可以有效建模,获得的主题与生成的句子较为具体,语义范围较小。
实验二:
2.1)实验参数
时序主题模型rGBN网络的层数设置为2,第一层主题个数为100,第二层主题个数为80。语言模型LSTM网络的层数设置为2,第一层隐单元个数设置为600,第二层隐单元个数设置为512。
2.2)实验内容
请参见图5a和图5b,图5a为二层主题模型rGBN对文本建模获得的主题表示举例,图5b为二层语言模型LSTM生成的文本举例。
由图5a和图5b可见,双层rGBN对于文本可以有效建模,第二层获得的主题与生成的句子较第一层更为抽象,其主题语义范围更大。
实验三:
3.1实验参数
时序主题模型rGBN网络的层数设置为3,第一层主题个数为100,第二层主题个数为80,第二层主题个数为50。
语言模型LSTM网络的层数设置为3,第一层隐单元个数设置为600,第二层隐单元个数设置为512,第三层隐单元个数设置为256。
2.2)实验内容
请参见图6a和图6b,图6a为三层主题模型rGBN对文本建模获得的主题表示举例,图6b为三层语言模型LSTM生成的文本举例。
由图6a和图6b可见,三层rGBN对于文本可以有效建模,高层的主题比底层的主题涵盖的语义范围更大,生成的句子也更为抽象,涵盖内容也更多。
本实施例的自然语言生成方法将多层主题模型与多层语言模型相结合,提取处文本主题中层次化的语义特征,以及层次化的时序信息,低层特征较为具体,语义范围较小,高层特征更为抽象,语义范围更为广泛。弥补了主题模型缺乏句子内部时序信息,以及语言模型缺乏句子之间的时序信息与语义信息。这种互补的结构不仅提升了主题模型的主题分析能力,同时提高了语言模型的生成能力。本实施例在主题模型构建过程中,不仅提取了文本的语义信息,针对每一个句子给定其相应主题分布,同时考虑了句子与句子之间的时序关系,该时序关系由主题模型对文本进行时序建模得到。此外,本实施例在文本生成过程中不仅对句子内部词与词之间的时序关系进行建模,同时将句子的相应主题分布引入该建模过程中指导单步预测,克服了缺乏语义指导的文本生成方面的不足,使得本发明能够基于给定的主题生成相应的文本。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

1.一种基于时序主题模型的自然语言生成方法,其特征在于,包括:
S1:获得文档中的每个句子的上下文词袋向量;
S2:根据所述上下文词袋向量,利用时序主题模型生成所述文档中每个句子的主题分布向量;
S3:将每个句子的每个词和相应的主题分布向量输入到时序语言模型中,得到每个词相应的各层隐变量;
S4:将每个词的所述各层隐变量拼接在一起,通过归一化指数函数预测当前句子中的下一个单词;
S5:利用随机梯度下降法对所述时序语言模型以及时序主题模型中的编码器参数进行更新;
S6:利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述时序主题模型中解码器的参数进行采样更新。
2.根据权利要求1所述的基于时序主题模型的自然语言生成方法,其特征在于,所述S1包括:
将包括J个句子的文档D={s1,s2,...,sj,...,sJ}除去当前第{1,2,...,J}个句子后的文字分别表示为词袋向量d1,d2,...,dj,...,dJ,其中,dj表示除去第j个句子sj后的上下文词袋向量。
3.根据权利要求2所述的基于时序主题模型的自然语言生成方法,其特征在于,所述S2包括:
将所述词袋向量d1,d2,...,dj,...,dJ依次输入L层的循环伽马置信网络模型中,分别得到对应的主题分布θ12,...,θj,...,θJ,其中表示将所述词袋向量dj输入所述循环伽马置信网络模型中获得的L层隐变量。
4.根据权利要求3所述的基于时序主题模型的自然语言生成方法,其特征在于,所述循环伽马置信网络模型由堆叠的循环概率神经网络构成,用于对时序主题模型的各层神经元进行概率建模,所述循环伽马置信网络模型表示为:
其中,表示第l层的隐变量,表示第l层的隐变量之间的转移矩阵,Φ(l)表示所述循环伽马置信网络模型中第l层的字典参数,Gam表示伽马分布函数,τ0表示伽马分布的尺度参数。aj (l)、kj (l)、λj (l)表示韦布尔分布中的参数,g(l)表示基本的循环神经网络传递单元,f(l)表示基本的映射函数,用于将sj (l-1)与sj-1 (l)进行整合,sj (1)=dj表示网络的第一层输入为句子的上下文词袋向量,εj (l)表示一个从标准正态分布中采样得到的随机数。其中,由dj输入得到的过程称为编码器,由重构得到dj的过程称为解码器。
5.根据权利要求4所述的基于时序主题模型的自然语言生成方法,其特征在于,所述S3包括:
将所述文档D{s1,s2,...,sj,...,sJ}中的句子及其相应的主题分布θ12,...,θj,...,θJ依次输入时序语言模型;
每个句子表示为Tj表示第j个句子包含单词的个数,输入的第一个词为起始符,输出sj的第一个词yj1,再输入第一个词yj1预测得到第二个词yj2,依此类推直至输出最后一个词将第j个句子的第t个词yjt分别输入时序语言模型,将得到的时序语言模型的各层隐变量分别记为其中,所述时序语言模型具体表示如下:
其中,zt (l)表示第t个时刻第l层的隐单元,ht (l)表示第t个时刻第l层的长短时记忆网络LSTM的隐单元,θ(l)表示该句子对应的第l层的主题分布向量,zt (l-1)表示第t个时刻第l-1层的隐单元,ht-1 (l)表示第t-1个时刻第l层的LSTM隐单元,LSTM(l)表示第l层的LSTM网络,GRU(l)表示门控循环单元的网络,用于将主题分布加入语言模型中指导词的生成。
6.根据权利要求5所述的基于时序主题模型的自然语言生成方法,其特征在于,所述S4包括:
将时序语言模型各隐层拼接起来得到zt,其中rl为第l层隐变量的维度;
在所述时序语言模型中输入归一化指数函数层,得到V维的概率分布向量;
选择所述概率分布向量中值最大的位置在单词表中所对应的单词为最终单步预测的输出结果,目标输出结果为yj,t的下一个词yj,t+1
7.根据权利要求6所述的基于时序主题模型的自然语言生成方法,其特征在于,所述S5包括:
利用随机梯度下降法对所述循环伽马置信网络中的编码器参数和所述时序语言模型中的参数进行更新,目标函数为:
其中,aj (l)=Φ(l+1)θj (l+1)(l)θj-1 (l),dj表示第j个句子的上下文词袋向量,Φ(l)表示所述循环伽马置信网络中的各层字典参数,yjt表示第j个句子的第t个单词,其中,q(θj (l)|aj (l),dj)=Weibull(kj (l)+aj (l)j (l)),Weibull表示韦布尔分布,其参数kj (l)、aj (l)与λj (l)通过所述循环伽马置信网络映射得到。
8.根据权利要求7所述的基于时序主题模型的自然语言生成方法,其特征在于,所述S6包括:
利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述循环伽马置信网络中的的解码器字典参数和转移矩阵进行采样更新。
CN201910557271.XA 2019-06-25 2019-06-25 一种基于时序主题模型的自然语言生成方法 Active CN110457714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910557271.XA CN110457714B (zh) 2019-06-25 2019-06-25 一种基于时序主题模型的自然语言生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910557271.XA CN110457714B (zh) 2019-06-25 2019-06-25 一种基于时序主题模型的自然语言生成方法

Publications (2)

Publication Number Publication Date
CN110457714A true CN110457714A (zh) 2019-11-15
CN110457714B CN110457714B (zh) 2021-04-06

Family

ID=68480863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910557271.XA Active CN110457714B (zh) 2019-06-25 2019-06-25 一种基于时序主题模型的自然语言生成方法

Country Status (1)

Country Link
CN (1) CN110457714B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353303A (zh) * 2020-05-25 2020-06-30 腾讯科技(深圳)有限公司 词向量构建方法、装置、电子设备及存储介质
CN111414122A (zh) * 2019-12-26 2020-07-14 腾讯科技(深圳)有限公司 一种智能文本处理方法、装置、电子设备及存储介质
CN111539226A (zh) * 2020-06-25 2020-08-14 北京百度网讯科技有限公司 语义理解框架结构的搜索方法和装置
CN113449071A (zh) * 2021-05-31 2021-09-28 中电福富信息科技有限公司 基于二元词主题模型的构建方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102013040A (zh) * 2009-09-07 2011-04-13 索尼公司 信息处理设备、信息处理方法以及程序
CN107169037A (zh) * 2017-04-20 2017-09-15 河海大学 一种结合时序化动态建模和情感语义的个性化搜索方法
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
US20180329884A1 (en) * 2017-05-12 2018-11-15 Rsvp Technologies Inc. Neural contextual conversation learning
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102013040A (zh) * 2009-09-07 2011-04-13 索尼公司 信息处理设备、信息处理方法以及程序
CN107169037A (zh) * 2017-04-20 2017-09-15 河海大学 一种结合时序化动态建模和情感语义的个性化搜索方法
US20180329884A1 (en) * 2017-05-12 2018-11-15 Rsvp Technologies Inc. Neural contextual conversation learning
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
史苇杭 等: "一种联合的时序数据特征序列分类学习算法", 《计算机工程》 *
张学峰 等: "一种基于Dirichelt 过程隐变量支撑向量机模型的目标识别方法", 《电子与信息学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414122A (zh) * 2019-12-26 2020-07-14 腾讯科技(深圳)有限公司 一种智能文本处理方法、装置、电子设备及存储介质
CN111353303A (zh) * 2020-05-25 2020-06-30 腾讯科技(深圳)有限公司 词向量构建方法、装置、电子设备及存储介质
CN111353303B (zh) * 2020-05-25 2020-08-25 腾讯科技(深圳)有限公司 词向量构建方法、装置、电子设备及存储介质
CN111539226A (zh) * 2020-06-25 2020-08-14 北京百度网讯科技有限公司 语义理解框架结构的搜索方法和装置
CN111539226B (zh) * 2020-06-25 2023-07-04 北京百度网讯科技有限公司 语义理解框架结构的搜索方法和装置
CN113449071A (zh) * 2021-05-31 2021-09-28 中电福富信息科技有限公司 基于二元词主题模型的构建方法

Also Published As

Publication number Publication date
CN110457714B (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN110457714A (zh) 一种基于时序主题模型的自然语言生成方法
CN111985245B (zh) 基于注意力循环门控图卷积网络的关系提取方法及系统
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
Nguyen et al. Translating videos to commands for robotic manipulation with deep recurrent neural networks
CN109635109A (zh) 基于lstm并结合词性及多注意力机制的句子分类方法
CN107832400A (zh) 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN106951858A (zh) 一种基于深度卷积网络的人物亲缘关系识别方法与装置
CN106845499A (zh) 一种基于自然语言语义的图像目标检测方法
CN109918510A (zh) 跨领域关键词提取方法
CN106844327B (zh) 文本编码方法及系统
CN108845990A (zh) 基于双向注意力机制的答案选择方法、装置和电子设备
Yu et al. A multi-layer parallel lstm network for human activity recognition with smartphone sensors
CN108563624A (zh) 一种基于深度学习的自然语言生成方法
CN110457674A (zh) 一种主题指导的文本预测方法
JP2022520000A (ja) データ処理方法、データ処理装置、コンピュータプログラム及び電子装置
CN108763542A (zh) 一种基于联合学习的文本情报分类方法、装置及计算机设备
CN111144130A (zh) 一种基于上下文感知的混合神经网络的细粒度情感分类方法
CN110232413A (zh) 基于gru网络的绝缘子图像语义描述方法、系统、装置
How et al. Multiple sequence behavior recognition on humanoid robot using long short-term memory (LSTM)
CN109858046A (zh) 利用辅助损失来学习神经网络中的长期依赖性
Zhou et al. ICRC-HIT: A deep learning based comment sequence labeling system for answer selection challenge
CN110297895A (zh) 一种基于自由文本知识的对话方法及系统
Xiong et al. Decoding sentiments: Enhancing covid-19 tweet analysis through bert-rcnn fusion
CN108364066A (zh) 基于n-gram和wfst模型的人工神经网络芯片及其应用方法
CN111191461A (zh) 一种基于课程学习的远程监督关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant