CN110457674B - 一种主题指导的文本预测方法 - Google Patents

一种主题指导的文本预测方法 Download PDF

Info

Publication number
CN110457674B
CN110457674B CN201910557270.5A CN201910557270A CN110457674B CN 110457674 B CN110457674 B CN 110457674B CN 201910557270 A CN201910557270 A CN 201910557270A CN 110457674 B CN110457674 B CN 110457674B
Authority
CN
China
Prior art keywords
word
layer
representing
model
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910557270.5A
Other languages
English (en)
Other versions
CN110457674A (zh
Inventor
陈渤
鲁瑞颖
郭丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910557270.5A priority Critical patent/CN110457674B/zh
Publication of CN110457674A publication Critical patent/CN110457674A/zh
Application granted granted Critical
Publication of CN110457674B publication Critical patent/CN110457674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于主题指导的文本预测方法,包括:获得每篇文章对应的词袋向量;根据文章的词袋向量,利用主题模型生成文章的主题特征向量;将文章中每个句子中每个词和相应的主题向量输入语言模型中,得到相应的每个词的时序特征向量;根据每个词的时序特征向量,通过归一化指数函数预测下一个词;利用随机梯度下降法对语言模型以及主题模型中的编码器的参数进行更新,同时利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对主题模型中解码器的参数进行采样更新。该方法将多层主题模型与多层语言模型相结合,提取文本主题中层次化的语义特征以及层次化的时序信息,低层特征语义范围较小,高层特征语义范围更为广泛。

Description

一种主题指导的文本预测方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种主题指导的文本预测方法。
背景技术
在自然语言处理领域中,文本预测近年来受到了广泛关注。语言模型对文本进行时序建模,能够捕捉到文本内部词与词之间的时序关系,从而实现自然语言处理中的各种任务,如文本总结、机器翻译、图像标注等。语言模型通常给定前一个单词,对后一个单词的发生概率进行估计,并选择预测概率最大的单词,这成为单步预测。给定一个起始符输入语言模型,将单步预测输出的单词作为下一个单步预测的输入,一直进行迭代直到终止符或达到足够长度,从而生成一个句子。但语言模型只关注到了文本内部时序信息,而忽略了文本的语义信息。
相反的,主题模型通常针对文本的词袋形式进行建模,只考虑文章中单词出现的次数而忽略文本内部词与词之间的时序关系。而多层的主题模型能够极大的提高对文本的建模能力,并得到更具有语义信息的特征向量。
因此,将主题模型与语言模型结合起来能够同时捕捉到文本的语义信息与时序信息,能够实现在文本主题指导下的语言时序建模。这种互补的结构能够提升主题模型的主题提取能力以及语言模型的预测能力,从而能够针对不同的主题生成相应的句子。
北京信息科技大学申请的专利“一种基于主题模型的HSK作文生成方法”(申请号:201811202083.7)中公开了一种作文生成方法,通过训练LDA主题模型,得到句子和文本、词语和文本的分布,并通过计算交叉熵,选择与主题关键词最相近的句子,然后生成文本,且自动生成的文本在连贯性和逻辑性上效果好,语法错误较少,错别字较少,能够很好地完成写作任务,可以很好地满足实际应用的需要。该方法使用最基本的单层LDA主题模型提取语义特征,同时对句子内部的时序信息提取不够充分,无法对文本进行有效的建模。
华南理工大学申请的专利“一种基于深度学习和主题模型的问答系统实现方法”(申请号:201810330697.7)中公开了一种基于深度学习和主题模型的问答系统实现方法,包括:首先将问句输入Twitter LDA主题模型获得问句的主题类型,并提取相应主题词,将输入问句和主题词表示为词向量;然后将输入问句的词向量输入RNN循环神经网络编码,获取问句的编码隐藏层状态向量;其次解码RNN循环神经网络使用联合注意力机制结合问句的局部和全局混合语义向量,进行解码生成词;之后使用大规模对话语料训练基于编码解码框架的深度学习主题问答模型;最终利用训练的问答模型预测输入问句的答案,生成与问句主题相关的答案。该方法将主题语义信息输入问答系统,弥补了问答模型外源知识的缺失,增加回答的丰富性和多样性,但是单层主题模型没有多层主题模型提取的语义信息完备,无法得到层次化的语义特征。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种主题指导的文本预测方法。本发明以主题模型为指导,对文章进行主题建模,在每篇文章的主题指导下对句子内部单词进行语言建模,对单词进行单步预测。
实现本发明目的的具体思路是,在主题模型的语义特征指导下,对文本进行单步预测,利用主题模型的似然函数与文本预测的误差函数作为目标函数,更新主题模型和语言模型的网络参数,从而能够在主题指导下生成相应文本。本发明要解决的技术问题通过以下技术方案实现:
本发明提供了一种基于主题指导的文本预测方法,包括:
S1:获得每篇文章对应的词袋向量;
S2:根据所述文章的词袋向量,利用主题模型生成所述文章的主题特征向量;
S3:将所述文章中每个句子中每个词和相应的主题向量输入语言模型中,得到相应的每个词的时序特征向量;
S4:根据每个词的时序特征向量,通过归一化指数函数预测下一个词;
S5:利用随机梯度下降法对所述语言模型以及主题模型中的编码器的参数进行更新,同时利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述主题模型中解码器的参数进行采样更新。
在本发明的一个实施例中,所述S1包括:
将M篇文章{D1,D2,...Dm,...,DM}分别表示为对应的词袋向量d1,d2,...,dm,...,dM,其中dm∈R1×V表示词汇表中每个词在第m篇文章中出现的次数,V表示字典维度。
在本发明的一个实施例中,所述S2包括:
将所述词袋向量d1,d2,...,dm,...,dM依次输入L层的主题模型中,分别得到对应的语义特征向量θ12,...,θm,...,θM,其中θm={θm (1)m (2),...,θm (L)},m∈1:M,表示第m篇文章的语义特征向量。
在本发明的一个实施例中,所述主题模型表示为:
θ(L)~Gam(r,c(L+1)),...,θ(l)~Gam(Φ(l+1)θ(l+1),c(l+1)),...,
θ(1)~Gam(Φ(2)θ(2),c(2)),d~Pois(Φ(1)θ(1)),
其中,
Figure GDA0002931981270000031
表示第l层的隐变量,r表示主题模型最高层隐变量θ(L)对应伽马分布的形状参数,Φ(l)表示主题模型的第l层字典参数,c(l+1)表示主题模型的第l层隐变量θ(l)对应伽马分布的尺度参数;
Figure GDA0002931981270000032
其中,k(l)、λ(l)表示韦布尔分布中的参数,能够通过神经网络映射得到,g(l)表示基本的RNN传递单元,s(l)表示网络的第l层RNN传递单元的输入,其中,s(1)=d表示网络的第一层输入为文章的词袋向量;
其中,由某一文章Dm输入得到{θ(1)(2),...,θ(L)}的过程称为编码器,由{θ(1)(2),...,θ(L)}重构得到文章Dm的过程称为解码器。
在本发明的一个实施例中,所述S3包括:
将所述文章Dm中的句子{s1,s2,...,sj,...,sJ}及文章Dm的语义特征向量{θ(1)(2),...,θ(L)}依次输入语言模型;
将每个句子表示为
Figure GDA0002931981270000033
Tj表示第j个句子包含词的个数,输入的第一个词为起始符,预测得到sj的第一个词yj1,再输入第一个词yj1预测得到第二个词yj2,依此类推直至输出最后一个词
Figure GDA0002931981270000034
将第j个句子的第t个词yjt分别输入语言模型,得到的语言模型的各层隐变量分别记为
Figure GDA0002931981270000035
其中,所述语言模型具体表示如下:
Figure GDA0002931981270000036
其中,zt (l)表示第t个时刻第l层的隐单元,ht (l)表示第t个时刻第l层的长短时记忆网络LSTM的隐单元,θ(l)表示该单词所在文章对应的第l层的语义特征向量,zt (l-1)表示第t个时刻第l-1层的隐单元,ht-1 (l)表示第t-1个时刻第l层的LSTM隐单元,LSTM(l)表示第l层的LSTM网络,GRU(l)表示门控循环单元的网络,用于将语义特征向量加入语言模型中指导词的生成。
在本发明的一个实施例中,所述S4包括:
将语言模型各隐层
Figure GDA0002931981270000041
拼接起来得到zt,其中
Figure GDA0002931981270000042
表示输入词的时序特征向量,rl为第l层隐变量
Figure GDA0002931981270000043
的维度;
在所述语言模型中将时序特征向量输入归一化指数函数层,得到V维的概率分布向量;
选择所述概率分布向量中值最大的位置在单词表中所对应的单词为最终单步预测的输出结果,目标输出结果为当前输入词的下一个词。
在本发明的一个实施例中,所述S5包括:
利用随机梯度下降法对所述主题模型中的编码器参数和所述语言模型中的参数进行更新,目标函数为:
Figure GDA0002931981270000044
其中d表示文章的词袋向量,Φ(l)表示所述主题模型中的各层字典参数,yt表示输入语言模型的单词,y1:t-1表示在同一个句子中该单词前的所有单词,q(θ(l)|d,Φ(l+1)θ(l+1))=Weibull(k(l)(l+1)θ(l+1)(l)),其中Weibull表示韦布尔分布,参数k(l)与λ(l)能够通过所述主题模型隐层映射得到;
利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述主题模型的的解码器字典参数
Figure GDA0002931981270000045
进行采样更新,获得主题模型各层字典。
与现有技术相比,本发明的有益效果在于:
1、本发明将多层主题模型与多层语言模型相结合,提取处文本主题中层次化的语义特征,以及层次化的时序信息,低层特征较为具体,语义范围较小,高层特征更为抽象,语义范围更为广泛。
2、本发明在文本生成过程中不仅对句子内部的词与词之间的时序关系进行建模,同时将句子的相应语义特征向量引入该建模过程中指导单步预测,克服了缺乏语义指导的文本生成方面的不足,使得本发明能够基于给定的主题生成相应的文本。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明实施例提供的一种基于主题指导的文本预测方法的流程图;
图2是本发明实施例提供的一种主题模型的结构示意图;
图3是本发明实施例提供的一种语言模型的结构示意图;
图4a和图4b是利用本发明实施例方法得到的单层模型结果展示图;
图5a和图5b是利用本发明实施例方法得到的二层模型结果展示图;
图6a和图6b是利用本发明实施例方法得到的三层模型结果展示图。。
具体实施方式
为了进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及具体实施方式,对依据本发明提出的一种基于主题指导的文本预测方法进行详细说明。
有关本发明的前述及其他技术内容、特点及功效,在以下配合附图的具体实施方式详细说明中即可清楚地呈现。通过具体实施方式的说明,可对本发明为达成预定目的所采取的技术手段及功效进行更加深入且具体地了解,然而所附附图仅是提供参考与说明之用,并非用来对本发明的技术方案加以限制。
应当说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
请参见图1,图1是本发明实施例提供的一种基于主题指导的文本预测方法的流程图。
该基于主题指导的文本预测方法包括:
S1:获得每篇文章对应的词袋向量;
具体地,所述S1包括:
将M篇文章{D1,D2,...Dm,...,DM}分别表示为对应的词袋向量d1,d2,...,dm,...,dM,其中dm∈R1×V表示词汇表中每个词在第m篇文章中出现的次数,V表示字典维度。
S2:根据所述文章的词袋向量,利用主题模型生成所述文章的主题特征向量;
具体地,请参见图2,图2是本发明实施例提供的一种主题模型的结构示意图。将将所述词袋向量d1,d2,...,dm,...,dM依次输入L层的主题模型中,分别得到对应的语义特征向量θ12,...,θm,...,θM,其中θm={θm (1)m (2),...,θm (L)},m∈1:M,表示第m篇文章的语义特征向量。
进一步地,所述主题模型表示为:
θ(L)~Gam(r,c(L+1)),...,θ(l)~Gam(Φ(l+1)θ(l+1),c(l+1)),...,
θ(1)~Gam(Φ(2)θ(2),c(2)),d~Pois(Φ(1)θ(1)),
其中,
Figure GDA0002931981270000061
表示第l层的隐变量,r表示主题模型最高层隐变量θ(L)对应伽马分布的形状参数,Φ(l)表示主题模型的第l层字典参数,c(l+1)表示主题模型的第l层隐变量θ(l)对应伽马分布的尺度参数,
Figure GDA0002931981270000062
其中,k(l)、λ(l)表示韦布尔分布中的参数,能够通过神经网络映射得到,g (l)表示基本的RNN传递单元,s(1)=d表示网络的第一层输入为文章的词袋向量,
其中,由某一文章Dm输入得到{θ(1)(2),...,θ(L)}的过程称为编码器,由{θ(1)(2),...,θ(L)}重构得到文章Dm的过程称为解码器。
S3:将所述文章中每个句子中每个词和相应的主题向量输入语言模型中,得到相应的每个词的时序特征向量;
将所述文章Dm中的句子{s1,s2,...,sj,...,sJ}及文章Dm的语义特征向量{θ(1)(2),...,θ(L)}依次输入语言模型;
具体地,请参见图3,图3是本发明实施例提供的一种语言模型的结构示意图。将每个句子表示为
Figure GDA0002931981270000063
Tj表示第j个句子包含词的个数,输入的第一个词为起始符,预测得到sj的第一个词yj1,再输入第一个词yj1预测得到第二个词yj2,依此类推直至输出最后一个词
Figure GDA0002931981270000064
将第j个句子的第t个词yjt分别输入语言模型,得到的语言模型的各层隐变量分别记为
Figure GDA0002931981270000065
其中,所述语言模型具体表示如下:
Figure GDA0002931981270000066
其中,zt (l)表示第t个时刻第l层的隐单元,ht (l)表示第t个时刻第l层的长短时记忆网络LSTM的隐单元,θ(l)表示该单词所在文章对应的第l层的语义特征向量,zt (l-1)表示第t个时刻第l-1层的隐单元,ht-1 (l)表示第t-1个时刻第l层的LSTM隐单元,LSTM(l)表示第l层的LSTM网络,GRU(l)表示门控循环单元的网络,用于将语义特征向量加入语言模型中指导词的生成。
在本实施例中,
Figure GDA0002931981270000067
的具体实现过程为:
ii (l)=σ(Wi (l)Zi (l)+Ui (l)hi-1 (l)+bi (l))
ft (l)=σ(Wf (l)zt (l)+Uf (l)hi-1 (l)+bf (l))
ot (l)=σ(Wo (l)zt (l)+Uo (l)ht-1 (l)+bo (l))
ct (l)=tanh(Wc (l)zt (l)+Uc (l)ht-1 (l)+bc (l))
ci (l)=ft (l)⊙ct-1 (l)+it (l)⊙ct (l)
ht (l)=ot (l)⊙tanh(ct (l))
其中,Wi (l),Ui (l),bi (l),Wf (l),Uf (l),bf (l),Wo (l),Uo (l),bo (l),Wc (l),Uc (l),bc (l)是第l层LSTM网络的参数,it (l),ft (l),ot (l)分别表示第l层LSTM网络的输入门,遗忘门,输出门。
进一步地,
Figure GDA0002931981270000071
的具体实现过程为:
et (l)=σ(We (l)θ(l)+Ue (l)ht (l)+be (l))
ri (l)=σ(Wr (l)θ(l)+Ur (l)ht (l)+br (l))
z′t (l)=tanh(Wz (l)θ(l)+Uz (l)(ri (l)⊙ht (l))+bz (l))
zt (l)=(1-et (l))⊙ht (l)+et (l)⊙z′t (l)
其中,We (l),Ue (l),be (l),Wr (l),Ur (l),br (l),Wz (l),Uz (l),bz (l)是第l层GRU网络的参数,从而实现将θ(l)与ht (l)融合,实现主题模型对语言模型的指导。
S4:根据每个词的时序特征向量,通过归一化指数函数预测下一个词;
具体地,将语言模型各隐层
Figure GDA0002931981270000073
拼接起来得到zt,其中
Figure GDA0002931981270000074
表示输入词的时序特征向量,rl为第l层隐变量
Figure GDA0002931981270000075
的维度;
在所述语言模型中将时序特征向量输入归一化指数函数层,得到v维的概率分布向量;
选择所述概率分布向量中值最大的位置在单词表中所对应的单词为最终单步预测的输出结果,目标输出结果为当前输入词的下一个词。
S5:利用随机梯度下降法对所述语言模型以及主题模型中的编码器的参数进行更新,同时利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述主题模型中解码器的参数进行采样更新;
具体地,利用随机梯度下降法对所述主题模型中的编码器参数和所述语言模型中的参数进行更新,目标函数为:
Figure GDA0002931981270000081
其中d表示文章的词袋向量,Φ(l)表示所述主题模型各层字典参数,yt表示输入语言模型的单词,y1:t-1表示在同一个句子中该单词前的所有单词,q(θ(l)|d,Φ(l+1)θ(l+1))=Weibull(k(l)(l+1)θ(l+1)(l)),其中Weibull表示韦布尔分布,参数k(l)与λ(l)能够通过所述主题模型隐层映射得到;
利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述主题模型的解码器字典参数
Figure GDA0002931981270000082
进行采样更新,获得主题模型各层字典。
本实施例的实验使用的运行系统为Intel(R)Core(TM)i7-8700 CPU@3.20GHz,64位Windows操作系统,仿真语言采用Python。使用的实验数据为公开的英语数据集“BNC”,包含了期刊、书籍、信件、散文、备忘录、新闻和其他类型的文本的摘录。
实验一:
1.1)实验参数
主题模型的层数设置为1,主题个数为100。语言模型LSTM网络的层数设置为1,隐单元个数设置为600。
1.2)实验内容
请参见图4a和图4b,图4a为利用单层主题模型对文本建模获得的主题表示举例,图4b为单层语言模型生成的文本举例。
由图4a和图4b可见,单层模型对于文本可以有效建模,获得的主题与生成的句子较为具体,语义范围较小。
实验二:
2.1)实验参数
主题模型的层数设置为2,第一层主题个数为100,第二层主题个数为80。语言模型的层数设置为2,第一层隐单元个数设置为600,第二层隐单元个数设置为512。
2.2)实验内容
请参见图5a和图5b,图5a为二层主题模型对文本建模获得的主题表示举例,图5b为二层语言模型生成的文本举例。
由图5a和图5b可见,二层模型对于文本可以有效建模,第二层获得的主题与生成的句子较第一层更为抽象,其主题语义范围更大。
实验三:
3.1实验参数
主题模型的层数设置为3,第一层主题个数为100,第二层主题个数为80,第二层主题个数为50。
语言模型的层数设置为3,第一层隐单元个数设置为600,第二层隐单元个数设置为512,第三层隐单元个数设置为256。
2.2)实验内容
请参见图6a和图6b,图6a为三层主题模型对文本建模获得的主题表示举例,图6b为三层语言模型生成的文本举例。
由图6a和图6b可见,三层模型对于文本可以有效建模,高层的主题比底层的主题涵盖的语义范围更大,生成的句子也更为抽象,涵盖内容也更多。
本实施例将多层主题模型与多层语言模型相结合,提取处文本主题中层次化的语义特征,以及层次化的时序信息,低层特征较为具体,语义范围较小,高层特征更为抽象,语义范围更为广泛。另外,本实施例在文本生成过程中不仅对句子内部的词与词之间的时序关系进行建模,同时将句子的相应语义特征向量引入该建模过程中指导单步预测,克服了缺乏语义指导的文本生成方面的不足,使得本发明能够基于给定的主题生成相应的文本。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (3)

1.一种基于主题指导的文本预测方法,其特征在于,包括:
S1:获得每篇文章对应的词袋向量;
所述S1包括:
将M篇文章{D1,D2,...Dm,...,DM}分别表示为对应的词袋向量d1,d2,...,dm,...,dM,其中dm∈R1×V表示词汇表中每个词在第m篇文章中出现的次数,V表示字典维度;
S2:根据所述文章的词袋向量,利用主题模型生成所述文章的主题特征向量;
所述S2包括:
将所述词袋向量d1,d2,...,dm,...,dM依次输入L层的主题模型中,分别得到对应的语义特征向量θ12,...,θm,...,θM,其中θm={θm (1)m (2),...,θm (L)},m∈1:M表示第m篇文章的语义特征向量;
S3:将所述文章中每个句子中每个词和相应的主题向量输入语言模型中,得到相应的每个词的时序特征向量;
所述S3包括:
将所述文章Dm中的句子{s1,s2,...,sj,...,sJ}及文章Dm的语义特征向量{θ(1)(2),...,θ(L)}依次输入语言模型;
将每个句子表示为
Figure FDA0002931981260000011
Tj表示第j个句子包含词的个数,输入的第一个词为起始符,预测得到sj的第一个词yj1,再输入第一个词yj1预测得到第二个词yj2,依此类推直至输出最后一个词
Figure FDA0002931981260000012
将第j个句子的第t个词yjt分别输入语言模型,得到的语言模型的各层隐变量分别记为
Figure FDA0002931981260000013
其中,所述语言模型具体表示如下:
Figure FDA0002931981260000014
其中,zt (l)表示第t个时刻第l层的隐单元,ht (l)表示第t个时刻第l层的长短时记忆网络LSTM的隐单元,θ(l)表示该单词所在文章对应的第l层的语义特征向量,即第l层的隐变量,zt (l-1)表示第t个时刻第l-1层的隐单元,ht-1 (l)表示第t-1个时刻第l层的LSTM隐单元,LSTM(l)表示第l层的LSTM网络,GRU(l)表示门控循环单元的网络,用于将语义特征向量加入语言模型中指导词的生成;
S4:根据每个词的时序特征向量,通过归一化指数函数预测下一个词;
所述S4包括:
将语言模型各隐层
Figure FDA0002931981260000021
拼接起来得到zt,其中
Figure FDA0002931981260000022
表示输入词的时序特征向量,rl为第l层隐变量
Figure FDA0002931981260000023
的维度;
在所述语言模型中将时序特征向量输入归一化指数函数层,得到V维的概率分布向量;
选择所述概率分布向量中值最大的位置在单词表中所对应的单词为最终单步预测的输出结果,目标输出结果为当前输入词的下一个词;
S5:利用随机梯度下降法对所述语言模型以及主题模型中的编码器的参数进行更新,同时利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述主题模型中解码器的参数进行采样更新。
2.根据权利要求1所述的基于主题指导的文本预测方法,其特征在于,所述主题模型表示为:
θ(L)~Gam(r,c(L+1)),...,θ(l)~Gam(Φ(l+1)θ(l+1),c(l+1)),...,
θ(1)~Gam(Φ(2)θ(2),c(2)),d~Pois(Φ(1)θ(1)),
其中,
Figure FDA0002931981260000024
表示第l层的隐变量,r表示主题模型最高层隐变量θ(L)对应伽马分布的形状参数,Φ(l)表示主题模型的第l层字典参数,c(l+1)表示主题模型的第l层隐变量θ(l)对应伽马分布的尺度参数,
Figure FDA0002931981260000025
其中,k(l)、λ(l)表示韦布尔分布中的参数,能够通过神经网络映射得到,g(l)表示基本的RNN传递单元,s(1)=d表示网络的第一层输入为文章的词袋向量,
其中,由某一文章Dm输入得到{θ(1)(2),...,θ(L)}的过程称为编码器,由{θ(1)(2),...,θ(L)}重构得到文章Dm的过程称为解码器。
3.根据权利要求2所述的基于主题指导的文本预测方法,其特征在于,所述S5包括:
利用随机梯度下降法对所述主题模型中的编码器参数和所述语言模型中的参数进行更新,目标函数为:
Figure FDA0002931981260000026
其中d表示文章的词袋向量,Φ(l)表示主题模型中的各层字典参数,yt表示输入语言模型的单词,y1:t-1表示在同一个句子中该单词前的所有单词,q(θ(l)|d,Φ(l+1)θ(l+1))=Weibull(k(l)(l+1)θ(l+1)(l)),其中Weibull表示韦布尔分布,参数k(l)与λ(l)能够通过所述主题模型隐层映射得到;
利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述主题模型的解码器字典参数
Figure FDA0002931981260000031
进行采样更新,获得主题模型各层字典。
CN201910557270.5A 2019-06-25 2019-06-25 一种主题指导的文本预测方法 Active CN110457674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910557270.5A CN110457674B (zh) 2019-06-25 2019-06-25 一种主题指导的文本预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910557270.5A CN110457674B (zh) 2019-06-25 2019-06-25 一种主题指导的文本预测方法

Publications (2)

Publication Number Publication Date
CN110457674A CN110457674A (zh) 2019-11-15
CN110457674B true CN110457674B (zh) 2021-05-14

Family

ID=68480860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910557270.5A Active CN110457674B (zh) 2019-06-25 2019-06-25 一种主题指导的文本预测方法

Country Status (1)

Country Link
CN (1) CN110457674B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909146B (zh) * 2019-11-29 2022-09-09 支付宝(杭州)信息技术有限公司 用于推送反问标签的标签推送模型训练方法、装置及设备
CN111274789B (zh) * 2020-02-06 2021-07-06 支付宝(杭州)信息技术有限公司 文本预测模型的训练方法及装置
CN112036485B (zh) * 2020-08-31 2023-10-24 平安科技(深圳)有限公司 主题分类的方法、装置和计算机设备
CN113420543B (zh) * 2021-05-11 2024-03-22 江苏大学 基于改进Seq2Seq模型的数学试题自动标注方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451118A (zh) * 2017-07-21 2017-12-08 西安电子科技大学 基于弱监督深度学习的句子级情感分类方法
CN107967318A (zh) * 2017-11-23 2018-04-27 北京师范大学 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统
CN109783794A (zh) * 2017-11-14 2019-05-21 北大方正集团有限公司 文本分类方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446117A (zh) * 2016-09-18 2017-02-22 西安电子科技大学 基于泊松‑伽玛置信网络主题模型的文本分析方法
CN107122347A (zh) * 2017-03-17 2017-09-01 清华大学 一种基于深度学习技术的新闻子事件预测方法及装置
CN108694200B (zh) * 2017-04-10 2019-12-20 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
CN108984526B (zh) * 2018-07-10 2021-05-07 北京理工大学 一种基于深度学习的文档主题向量抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451118A (zh) * 2017-07-21 2017-12-08 西安电子科技大学 基于弱监督深度学习的句子级情感分类方法
CN109783794A (zh) * 2017-11-14 2019-05-21 北大方正集团有限公司 文本分类方法及装置
CN107967318A (zh) * 2017-11-23 2018-04-27 北京师范大学 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统

Also Published As

Publication number Publication date
CN110457674A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
Yao et al. An improved LSTM structure for natural language processing
CN110457674B (zh) 一种主题指导的文本预测方法
Keneshloo et al. Deep reinforcement learning for sequence-to-sequence models
Tang et al. Context-aware natural language generation with recurrent neural networks
JP7072585B2 (ja) 文脈固有の単語ベクトルを用いた自然言語処理
CN108920622B (zh) 一种意图识别的训练方法、训练装置和识别装置
CN109844743B (zh) 在自动聊天中生成响应
CN107273355B (zh) 一种基于字词联合训练的中文词向量生成方法
CN107358948B (zh) 基于注意力模型的语言输入关联性检测方法
US20180329884A1 (en) Neural contextual conversation learning
CN110704576B (zh) 一种基于文本的实体关系抽取方法及装置
CN111967266A (zh) 中文命名实体识别模型及其构建方法和应用
CN109344404B (zh) 情境感知的双重注意力自然语言推理方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN108363697A (zh) 文本信息生成方法、装置、存储介质及设备
CN108711420A (zh) 多语言混杂模型建立、数据获取方法及装置、电子设备
Vougiouklis et al. A neural network approach for knowledge-driven response generation
CN107679225A (zh) 一种基于关键词的回复生成方法
Tada et al. Robust understanding of robot-directed speech commands using sequence to sequence with noise injection
CN112131367A (zh) 自审核的人机对话方法、系统及可读存储介质
CN116049387A (zh) 一种基于图卷积的短文本分类方法、装置、介质
CN116050425A (zh) 建立预训练语言模型的方法、文本预测方法及装置
Al-Ibrahim et al. Neural machine translation from Jordanian Dialect to modern standard Arabic
CN108763230A (zh) 利用外部信息的神经机器翻译方法
Maslennikova ELMo Word Representations For News Protection.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant