CN110457674A - 一种主题指导的文本预测方法 - Google Patents

一种主题指导的文本预测方法 Download PDF

Info

Publication number
CN110457674A
CN110457674A CN201910557270.5A CN201910557270A CN110457674A CN 110457674 A CN110457674 A CN 110457674A CN 201910557270 A CN201910557270 A CN 201910557270A CN 110457674 A CN110457674 A CN 110457674A
Authority
CN
China
Prior art keywords
word
vector
article
indicate
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910557270.5A
Other languages
English (en)
Other versions
CN110457674B (zh
Inventor
陈渤
鲁瑞颖
郭丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Electronic Science and Technology
Original Assignee
Xian University of Electronic Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Electronic Science and Technology filed Critical Xian University of Electronic Science and Technology
Priority to CN201910557270.5A priority Critical patent/CN110457674B/zh
Publication of CN110457674A publication Critical patent/CN110457674A/zh
Application granted granted Critical
Publication of CN110457674B publication Critical patent/CN110457674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于主题指导的文本预测方法,包括:获得每篇文章对应的词袋向量;根据文章的词袋向量,利用主题模型生成文章的主题特征向量;将文章中每个句子中每个词和相应的主题向量输入语言模型中,得到相应的每个词的时序特征向量;根据每个词的时序特征向量,通过归一化指数函数预测下一个词;利用随机梯度下降法对语言模型以及主题模型中的编码器的参数进行更新,同时利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对主题模型中解码器的参数进行采样更新。该方法将多层主题模型与多层语言模型相结合,提取文本主题中层次化的语义特征以及层次化的时序信息,低层特征语义范围较小,高层特征语义范围更为广泛。

Description

一种主题指导的文本预测方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种主题指导的文本预测方法。
背景技术
在自然语言处理领域中,文本预测近年来受到了广泛关注。语言模型对文本进行时序建模,能够捕捉到文本内部词与词之间的时序关系,从而实现自然语言处理中的各种任务,如文本总结、机器翻译、图像标注等。语言模型通常给定前一个单词,对后一个单词的发生概率进行估计,并选择预测概率最大的单词,这成为单步预测。给定一个起始符输入语言模型,将单步预测输出的单词作为下一个单步预测的输入,一直进行迭代直到终止符或达到足够长度,从而生成一个句子。但语言模型只关注到了文本内部时序信息,而忽略了文本的语义信息。
相反的,主题模型通常针对文本的词袋形式进行建模,只考虑文章中单词出现的次数而忽略文本内部词与词之间的时序关系。而多层的主题模型能够极大的提高对文本的建模能力,并得到更具有语义信息的特征向量。
因此,将主题模型与语言模型结合起来能够同时捕捉到文本的语义信息与时序信息,能够实现在文本主题指导下的语言时序建模。这种互补的结构能够提升主题模型的主题提取能力以及语言模型的预测能力,从而能够针对不同的主题生成相应的句子。
北京信息科技大学申请的专利“一种基于主题模型的HSK作文生成方法”(申请号:201811202083.7)中公开了一种作文生成方法,通过训练LDA主题模型,得到句子和文本、词语和文本的分布,并通过计算交叉熵,选择与主题关键词最相近的句子,然后生成文本,且自动生成的文本在连贯性和逻辑性上效果好,语法错误较少,错别字较少,能够很好地完成写作任务,可以很好地满足实际应用的需要。该方法使用最基本的单层LDA主题模型提取语义特征,同时对句子内部的时序信息提取不够充分,无法对文本进行有效的建模。
华南理工大学申请的专利“一种基于深度学习和主题模型的问答系统实现方法”(申请号:201810330697.7)中公开了一种基于深度学习和主题模型的问答系统实现方法,包括:首先将问句输入Twitter LDA主题模型获得问句的主题类型,并提取相应主题词,将输入问句和主题词表示为词向量;然后将输入问句的词向量输入RNN循环神经网络编码,获取问句的编码隐藏层状态向量;其次解码RNN循环神经网络使用联合注意力机制结合问句的局部和全局混合语义向量,进行解码生成词;之后使用大规模对话语料训练基于编码解码框架的深度学习主题问答模型;最终利用训练的问答模型预测输入问句的答案,生成与问句主题相关的答案。该方法将主题语义信息输入问答系统,弥补了问答模型外源知识的缺失,增加回答的丰富性和多样性,但是单层主题模型没有多层主题模型提取的语义信息完备,无法得到层次化的语义特征。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种主题指导的文本预测方法。本发明以主题模型为指导,对文章进行主题建模,在每篇文章的主题指导下对句子内部单词进行语言建模,对单词进行单步预测。
实现本发明目的的具体思路是,在主题模型的语义特征指导下,对文本进行单步预测,利用主题模型的似然函数与文本预测的误差函数作为目标函数,更新主题模型和语言模型的网络参数,从而能够在主题指导下生成相应文本。本发明要解决的技术问题通过以下技术方案实现:
本发明提供了一种基于主题指导的文本预测方法,包括:
S1:获得每篇文章对应的词袋向量;
S2:根据所述文章的词袋向量,利用主题模型生成所述文章的主题特征向量;
S3:将所述文章中每个句子中每个词和相应的主题向量输入语言模型中,得到相应的每个词的时序特征向量;
S4:根据每个词的时序特征向量,通过归一化指数函数预测下一个词;
S5:利用随机梯度下降法对所述语言模型以及主题模型中的编码器的参数进行更新,同时利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述主题模型中解码器的参数进行采样更新。
在本发明的一个实施例中,所述S1包括:
将M篇文章{D1,D2,...Dm,...,DM}分别表示为对应的词袋向量d1,d2,...,dm,...,dM,其中dm∈R1×V表示词汇表中每个词在第m篇文章中出现的次数,V表示字典维度。
在本发明的一个实施例中,所述S2包括:
将所述词袋向量d1,d2,...,dm,...,dM依次输入L层的主题模型中,分别得到对应的语义特征向量θ12,...,θm,...,θM,其中表示第m篇文章的语义特征向量。
在本发明的一个实施例中,所述主题模型表示为:
θ(1)~Gam(Φ(2)θ(2),c(2)),d~Pois(Φ(1)θ(1)),
其中,表示第l层的隐变量,r表示主题模型最高层隐变量θ(L)对应伽马分布的形状参数,Φ(l)表示主题模型的第l层字典参数,c(l+1)表示主题模型的第l层隐变量θ(l)对应伽马分布的尺度参数;
其中,k(l)、λ(l)表示韦布尔分布中的参数,能够通过神经网络映射得到,g(l)表示基本的RNN传递单元,s(l)表示网络的第l层RNN传递单元的输入,其中,s(1)=d表示网络的第一层输入为文章的词袋向量;
其中,由某一文章Dm输入得到{θ(1)(2),...,θ(L)}的过程称为编码器,由{θ(1)(2),...,θ(L)}重构得到文章Dm的过程称为解码器。
在本发明的一个实施例中,所述S3包括:
将所述文章Dm中的句子{s1,s2,...,sj,...,sJ}及文章Dm的语义特征向量{θ(1)(2),...,θ(L)}依次输入语言模型;
将每个句子表示为Tj表示第j个句子包含词的个数,输入的第一个词为起始符,预测得到sj的第一个词yj1,再输入第一个词yj1预测得到第二个词yj2,依此类推直至输出最后一个词将第j个句子的第t个词yjt分别输入语言模型,得到的语言模型的各层隐变量分别记为其中,所述语言模型具体表示如下:
其中,zt (l)表示第t个时刻第l层的隐单元,ht (l)表示第t个时刻第l层的长短时记忆网络LSTM的隐单元,θ(l)表示该单词所在文章对应的第l层的语义特征向量,zt (l-1)表示第t个时刻第l-1层的隐单元,ht-1 (l)表示第t-1个时刻第l层的LSTM隐单元,LSTM(l)表示第l层的LSTM网络,GRU(l)表示门控循环单元的网络,用于将语义特征向量加入语言模型中指导词的生成。
在本发明的一个实施例中,所述S4包括:
将语言模型各隐层拼接起来得到zt,其中表示输入词的时序特征向量,rl为第l层隐变量的维度;
在所述语言模型中将时序特征向量输入归一化指数函数层,得到V维的概率分布向量;
选择所述概率分布向量中值最大的位置在单词表中所对应的单词为最终单步预测的输出结果,目标输出结果为当前输入词的下一个词。
在本发明的一个实施例中,所述S5包括:
利用随机梯度下降法对所述主题模型中的编码器参数和所述语言模型中的参数进行更新,目标函数为:
其中d表示文章的词袋向量,Φ(l)表示所述主题模型中的各层字典参数,yt表示输入语言模型的单词,y1:t-1表示在同一个句子中该单词前的所有单词,q(θ(l)|d,Φ(l+1)θ(l+1))=Weibull(k(l)(l+1)θ(l+1)(l)),其中Weibull表示韦布尔分布,参数k(l)与λ(l)能够通过所述主题模型隐层映射得到;
利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述主题模型的的解码器字典参数进行采样更新,获得主题模型各层字典。
与现有技术相比,本发明的有益效果在于:
1、本发明将多层主题模型与多层语言模型相结合,提取处文本主题中层次化的语义特征,以及层次化的时序信息,低层特征较为具体,语义范围较小,高层特征更为抽象,语义范围更为广泛。
2、本发明在文本生成过程中不仅对句子内部的词与词之间的时序关系进行建模,同时将句子的相应语义特征向量引入该建模过程中指导单步预测,克服了缺乏语义指导的文本生成方面的不足,使得本发明能够基于给定的主题生成相应的文本。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明实施例提供的一种基于主题指导的文本预测方法的流程图;
图2是本发明实施例提供的一种主题模型的结构示意图;
图3是本发明实施例提供的一种语言模型的结构示意图;
图4a和图4b是利用本发明实施例方法得到的单层模型结果展示图;
图5a和图5b是利用本发明实施例方法得到的二层模型结果展示图;
图6a和图6b是利用本发明实施例方法得到的三层模型结果展示图。。
具体实施方式
为了进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及具体实施方式,对依据本发明提出的一种基于主题指导的文本预测方法进行详细说明。
有关本发明的前述及其他技术内容、特点及功效,在以下配合附图的具体实施方式详细说明中即可清楚地呈现。通过具体实施方式的说明,可对本发明为达成预定目的所采取的技术手段及功效进行更加深入且具体地了解,然而所附附图仅是提供参考与说明之用,并非用来对本发明的技术方案加以限制。
应当说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
请参见图1,图1是本发明实施例提供的一种基于主题指导的文本预测方法的流程图。
该基于主题指导的文本预测方法包括:
S1:获得每篇文章对应的词袋向量;
具体地,所述S1包括:
将M篇文章{D1,D2,...Dm,...,DM}分别表示为对应的词袋向量d1,d2,...,dm,...,dM,其中dm∈R1×V表示词汇表中每个词在第m篇文章中出现的次数,V表示字典维度。
S2:根据所述文章的词袋向量,利用主题模型生成所述文章的主题特征向量;
具体地,请参见图2,图2是本发明实施例提供的一种主题模型的结构示意图。将将所述词袋向量d1,d2,...,dm,...,dM依次输入L层的主题模型中,分别得到对应的语义特征向量θ12,...,θm,...,θM,其中表示第m篇文章的语义特征向量。
进一步地,所述主题模型表示为:
θ(1)~Gam(Φ(2)θ(2),c(2)),d~Pois(Φ(1)θ(1)),
其中,表示第l层的隐变量,r表示主题模型最高层隐变量θ(L)对应伽马分布的形状参数,Φ(l)表示主题模型的第l层字典参数,c(l+1)表示主题模型的第l层隐变量θ(l)对应伽马分布的尺度参数,
其中,k(l)、λ(l)表示韦布尔分布中的参数,能够通过神经网络映射得到,g(l)表示基本的RNN传递单元,s(1)=d表示网络的第一层输入为文章的词袋向量,
其中,由某一文章Dm输入得到{θ(1)(2),...,θ(L)}的过程称为编码器,由{θ(1)(2),...,θ(L)}重构得到文章Dm的过程称为解码器。
S3:将所述文章中每个句子中每个词和相应的主题向量输入语言模型中,得到相应的每个词的时序特征向量;
将所述文章Dm中的句子{s1,s2,...,sj,...,sJ}及文章Dm的语义特征向量{θ(1)(2),...,θ(L)}依次输入语言模型;
具体地,请参见图3,图3是本发明实施例提供的一种语言模型的结构示意图。将每个句子表示为Tj表示第j个句子包含词的个数,输入的第一个词为起始符,预测得到sj的第一个词yj1,再输入第一个词yj1预测得到第二个词yj2,依此类推直至输出最后一个词将第j个句子的第t个词yjt分别输入语言模型,得到的语言模型的各层隐变量分别记为其中,所述语言模型具体表示如下:
其中,zt (l)表示第t个时刻第l层的隐单元,ht (l)表示第t个时刻第l层的长短时记忆网络LSTM的隐单元,θ(l)表示该单词所在文章对应的第l层的语义特征向量,zt (l-1)表示第t个时刻第l-1层的隐单元,ht-1 (l)表示第t-1个时刻第l层的LSTM隐单元,LSTM(l)表示第l层的LSTM网络,GRU(l)表示门控循环单元的网络,用于将语义特征向量加入语言模型中指导词的生成。
在本实施例中,的具体实现过程为:
其中,Wi (l),Ui (l),bi (l),Wf (l),Uf (l),bf (l),Wo (l),Uo (l),bo (l),Wc (l),Uc (l),bc (l)是第l层LSTM网络的参数,it (l),ft (l),ot (l)分别表示第l层LSTM网络的输入门,遗忘门,输出门。
进一步地,的具体实现过程为:
其中,We (l),Ue (l),be (l),Wr (l),Ur (l),br (l),Wz (l),Uz (l),bz (l)是第l层GRU网络的参数,从而实现将θ(l)融合,实现主题模型对语言模型的指导。
S4:根据每个词的时序特征向量,通过归一化指数函数预测下一个词;
具体地,将语言模型各隐层拼接起来得到zt,其中表示输入词的时序特征向量,rl为第l层隐变量的维度;
在所述语言模型中将时序特征向量输入归一化指数函数层,得到V维的概率分布向量;
选择所述概率分布向量中值最大的位置在单词表中所对应的单词为最终单步预测的输出结果,目标输出结果为当前输入词的下一个词。
S5:利用随机梯度下降法对所述语言模型以及主题模型中的编码器的参数进行更新,同时利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述主题模型中解码器的参数进行采样更新;
具体地,利用随机梯度下降法对所述主题模型中的编码器参数和所述语言模型中的参数进行更新,目标函数为:
其中d表示文章的词袋向量,Φ(l)表示所述主题模型各层字典参数,yt表示输入语言模型的单词,y1:t-1表示在同一个句子中该单词前的所有单词,q(θ(l)|d,Φ(l+1)θ(l+1))=Weibull(k(l)(l+1)θ(l+1)(l)),其中Weibull表示韦布尔分布,参数k(l)与λ(l)能够通过所述主题模型隐层映射得到;
利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述主题模型的解码器字典参数进行采样更新,获得主题模型各层字典。
本实施例的实验使用的运行系统为Intel(R)Core(TM)i7-8700CPU@3.20GHz,64位Windows操作系统,仿真语言采用Python。使用的实验数据为公开的英语数据集“BNC”,包含了期刊、书籍、信件、散文、备忘录、新闻和其他类型的文本的摘录。
实验一:
1.1)实验参数
主题模型的层数设置为1,主题个数为100。语言模型LSTM网络的层数设置为1,隐单元个数设置为600。
1.2)实验内容
请参见图4a和图4b,图4a为利用单层主题模型对文本建模获得的主题表示举例,图4b为单层语言模型生成的文本举例。
由图4a和图4b可见,单层模型对于文本可以有效建模,获得的主题与生成的句子较为具体,语义范围较小。
实验二:
2.1)实验参数
主题模型的层数设置为2,第一层主题个数为100,第二层主题个数为80。语言模型的层数设置为2,第一层隐单元个数设置为600,第二层隐单元个数设置为512。
2.2)实验内容
请参见图5a和图5b,图5a为二层主题模型对文本建模获得的主题表示举例,图5b为二层语言模型生成的文本举例。
由图5a和图5b可见,二层模型对于文本可以有效建模,第二层获得的主题与生成的句子较第一层更为抽象,其主题语义范围更大。
实验三:
3.1实验参数
主题模型的层数设置为3,第一层主题个数为100,第二层主题个数为80,第二层主题个数为50。
语言模型的层数设置为3,第一层隐单元个数设置为600,第二层隐单元个数设置为512,第三层隐单元个数设置为256。
2.2)实验内容
请参见图6a和图6b,图6a为三层主题模型对文本建模获得的主题表示举例,图6b为三层语言模型生成的文本举例。
由图6a和图6b可见,三层模型对于文本可以有效建模,高层的主题比底层的主题涵盖的语义范围更大,生成的句子也更为抽象,涵盖内容也更多。
本实施例将多层主题模型与多层语言模型相结合,提取处文本主题中层次化的语义特征,以及层次化的时序信息,低层特征较为具体,语义范围较小,高层特征更为抽象,语义范围更为广泛。另外,本实施例在文本生成过程中不仅对句子内部的词与词之间的时序关系进行建模,同时将句子的相应语义特征向量引入该建模过程中指导单步预测,克服了缺乏语义指导的文本生成方面的不足,使得本发明能够基于给定的主题生成相应的文本。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (7)

1.一种基于主题指导的文本预测方法,其特征在于,包括:
S1:获得每篇文章对应的词袋向量;
S2:根据所述文章的词袋向量,利用主题模型生成所述文章的主题特征向量;
S3:将所述文章中每个句子中每个词和相应的主题向量输入语言模型中,得到相应的每个词的时序特征向量;
S4:根据每个词的时序特征向量,通过归一化指数函数预测下一个词;
S5:利用随机梯度下降法对所述语言模型以及主题模型中的编码器的参数进行更新,同时利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述主题模型中解码器的参数进行采样更新。
2.根据权利要求1所述的基于主题指导的文本预测方法,其特征在于,所述S1包括:
将M篇文章{D1,D2,...Dm,...,DM}分别表示为对应的词袋向量d1,d2,...,dm,...,dM,其中dm∈R1×V表示词汇表中每个词在第m篇文章中出现的次数,V表示字典维度。
3.根据权利要求2所述的基于主题指导的文本预测方法,其特征在于,所述S2包括:
将所述词袋向量d1,d2,...,dm,...,dM依次输入L层的主题模型中,分别得到对应的语义特征向量θ12,...,θm,...,θM,其中θm={θm (1)m (2),...,θm (L)},m∈1:M,表示第m篇文章的语义特征向量。
4.根据权利要求3所述的基于主题指导的文本预测方法,其特征在于,所述主题模型表示为:
其中,表示第l层的隐变量,r表示主题模型最高层隐变量θ(L)对应伽马分布的形状参数,Φ(l)表示主题模型的第l层字典参数,c(l+1)表示主题模型的第l层隐变量θ(l)对应伽马分布的尺度参数,
其中,k(l)、λ(l)表示韦布尔分布中的参数,能够通过神经网络映射得到,g(l)表示基本的RNN传递单元,s(1)=d表示网络的第一层输入为文章的词袋向量,
其中,由某一文章Dm输入得到{θ(1)(2),...,θ(L)}的过程称为编码器,由{θ(1)(2),...,θ(L)}重构得到文章Dm的过程称为解码器。
5.根据权利要求4所述的基于主题指导的文本预测方法,其特征在于,所述S3包括:
将所述文章Dm中的句子{s1,s2,...,sj,...,sJ}及文章Dm的语义特征向量{θ(1)(2),...,θ(L)}依次输入语言模型;
将每个句子表示为Tj表示第j个句子包含词的个数,输入的第一个词为起始符,预测得到sj的第一个词yj1,再输入第一个词yj1预测得到第二个词yj2,依此类推直至输出最后一个词将第j个句子的第t个词yjt分别输入语言模型,得到的语言模型的各层隐变量分别记为其中,所述语言模型具体表示如下:
其中,zt (l)表示第t个时刻第l层的隐单元,ht (l)表示第t个时刻第l层的长短时记忆网络LSTM的隐单元,θ(l)表示该单词所在文章对应的第l层的语义特征向量,zt (l-1)表示第t个时刻第l-1层的隐单元,ht-1 (l)表示第t-1个时刻第l层的LSTM隐单元,LSTM(l)表示第l层的LSTM网络,GRU(l)表示门控循环单元的网络,用于将语义特征向量加入语言模型中指导词的生成。
6.根据权利要求5所述的基于主题指导的文本预测方法,其特征在于,所述S4包括:
将语言模型各隐层拼接起来得到zt,其中表示输入词的时序特征向量,rl为第l层隐变量的维度;
在所述语言模型中将时序特征向量输入归一化指数函数层,得到V维的概率分布向量;
选择所述概率分布向量中值最大的位置在单词表中所对应的单词为最终单步预测的输出结果,目标输出结果为当前输入词的下一个词。
7.根据权利要求6所述的基于主题指导的文本预测方法,其特征在于,所述S5包括:
利用随机梯度下降法对所述主题模型中的编码器参数和所述语言模型中的参数进行更新,目标函数为:
其中d表示文章的词袋向量,Φ(l)表示主题模型中的各层字典参数,yt表示输入语言模型的单词,y1:t-1表示在同一个句子中该单词前的所有单词,q(θ(l)|d,Φ(l+1)θ(l+1))=Weibull(k(l)(l+1)θ(l+1)(l)),其中Weibull表示韦布尔分布,参数k(l)与λ(l)能够通过所述主题模型隐层映射得到;
利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述主题模型的解码器字典参数进行采样更新,获得主题模型各层字典。
CN201910557270.5A 2019-06-25 2019-06-25 一种主题指导的文本预测方法 Active CN110457674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910557270.5A CN110457674B (zh) 2019-06-25 2019-06-25 一种主题指导的文本预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910557270.5A CN110457674B (zh) 2019-06-25 2019-06-25 一种主题指导的文本预测方法

Publications (2)

Publication Number Publication Date
CN110457674A true CN110457674A (zh) 2019-11-15
CN110457674B CN110457674B (zh) 2021-05-14

Family

ID=68480860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910557270.5A Active CN110457674B (zh) 2019-06-25 2019-06-25 一种主题指导的文本预测方法

Country Status (1)

Country Link
CN (1) CN110457674B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909146A (zh) * 2019-11-29 2020-03-24 支付宝(杭州)信息技术有限公司 用于推送反问标签的标签推送模型训练方法、装置及设备
WO2021155705A1 (zh) * 2020-02-06 2021-08-12 支付宝(杭州)信息技术有限公司 文本预测模型的训练方法及装置
CN113420543A (zh) * 2021-05-11 2021-09-21 江苏大学 基于改进Seq2Seq模型的数学试题自动标注方法
WO2022041898A1 (zh) * 2020-08-31 2022-03-03 平安科技(深圳)有限公司 主题分类的方法、装置和计算机设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446117A (zh) * 2016-09-18 2017-02-22 西安电子科技大学 基于泊松‑伽玛置信网络主题模型的文本分析方法
CN107122347A (zh) * 2017-03-17 2017-09-01 清华大学 一种基于深度学习技术的新闻子事件预测方法及装置
CN107451118A (zh) * 2017-07-21 2017-12-08 西安电子科技大学 基于弱监督深度学习的句子级情感分类方法
CN107967318A (zh) * 2017-11-23 2018-04-27 北京师范大学 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统
WO2018188240A1 (zh) * 2017-04-10 2018-10-18 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
CN108984526A (zh) * 2018-07-10 2018-12-11 北京理工大学 一种基于深度学习的文档主题向量抽取方法
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
CN109783794A (zh) * 2017-11-14 2019-05-21 北大方正集团有限公司 文本分类方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446117A (zh) * 2016-09-18 2017-02-22 西安电子科技大学 基于泊松‑伽玛置信网络主题模型的文本分析方法
CN107122347A (zh) * 2017-03-17 2017-09-01 清华大学 一种基于深度学习技术的新闻子事件预测方法及装置
WO2018188240A1 (zh) * 2017-04-10 2018-10-18 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
CN107451118A (zh) * 2017-07-21 2017-12-08 西安电子科技大学 基于弱监督深度学习的句子级情感分类方法
CN109783794A (zh) * 2017-11-14 2019-05-21 北大方正集团有限公司 文本分类方法及装置
CN107967318A (zh) * 2017-11-23 2018-04-27 北京师范大学 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
CN108984526A (zh) * 2018-07-10 2018-12-11 北京理工大学 一种基于深度学习的文档主题向量抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHANG HAO: "WHAI: WEIBULL HYBRID AUTOENCODING", 《ICLR 2018》 *
黄佳伟: "人机对话系统中用户意图分类方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909146A (zh) * 2019-11-29 2020-03-24 支付宝(杭州)信息技术有限公司 用于推送反问标签的标签推送模型训练方法、装置及设备
CN110909146B (zh) * 2019-11-29 2022-09-09 支付宝(杭州)信息技术有限公司 用于推送反问标签的标签推送模型训练方法、装置及设备
WO2021155705A1 (zh) * 2020-02-06 2021-08-12 支付宝(杭州)信息技术有限公司 文本预测模型的训练方法及装置
WO2022041898A1 (zh) * 2020-08-31 2022-03-03 平安科技(深圳)有限公司 主题分类的方法、装置和计算机设备
CN113420543A (zh) * 2021-05-11 2021-09-21 江苏大学 基于改进Seq2Seq模型的数学试题自动标注方法
CN113420543B (zh) * 2021-05-11 2024-03-22 江苏大学 基于改进Seq2Seq模型的数学试题自动标注方法

Also Published As

Publication number Publication date
CN110457674B (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN110457674A (zh) 一种主题指导的文本预测方法
CN107515674B (zh) 一种基于虚拟现实与增强现实的采矿操作多交互实现方法
CN105955964B (zh) 一种自动生成诗歌的方法和装置
CN109003601A (zh) 一种针对低资源土家语的跨语言端到端语音识别方法
Chen et al. X-llm: Bootstrapping advanced large language models by treating multi-modalities as foreign languages
Beck Ritual, myth, doctrine, and initiation in the mysteries of Mithras: new evidence from a cult vessel
CN109783657A (zh) 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN110534087A (zh) 一种文本韵律层级结构预测方法、装置、设备及存储介质
CN106960206A (zh) 字符识别方法和字符识别系统
CN109785824A (zh) 一种语音翻译模型的训练方法及装置
Cohen Narratology in the Archive of Literature
CN107463609A (zh) 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
Corradini et al. Multimodal input fusion in human-computer interaction
CN107861938A (zh) 一种poi文案生成方法及装置,电子设备
CN110457714A (zh) 一种基于时序主题模型的自然语言生成方法
CN110534092A (zh) 语音音素识别方法和装置、存储介质及电子装置
CN109791549A (zh) 面向对话的机器用户交互
CN107766320A (zh) 一种中文代词消解模型建立方法及装置
CN106844738B (zh) 基于神经网络的食材之间容克关系的分类方法
CN108763542A (zh) 一种基于联合学习的文本情报分类方法、装置及计算机设备
Dethlefs Domain transfer for deep natural language generation from abstract meaning representations
CN110335592A (zh) 语音音素识别方法和装置、存储介质及电子装置
CN108364066B (zh) 基于n-gram和wfst模型的人工神经网络芯片及其应用方法
CN115359394A (zh) 一种基于多模态融合的识别方法及其应用
CN109933773A (zh) 一种多重语义语句解析系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant