CN110457674A

CN110457674A - 一种主题指导的文本预测方法

Info

Publication number: CN110457674A
Application number: CN201910557270.5A
Authority: CN
Inventors: 陈渤; 鲁瑞颖; 郭丹丹
Original assignee: Xian University of Electronic Science and Technology
Current assignee: Xian University of Electronic Science and Technology
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-11-15
Anticipated expiration: 2039-06-25
Also published as: CN110457674B

Abstract

本发明公开了一种基于主题指导的文本预测方法，包括：获得每篇文章对应的词袋向量；根据文章的词袋向量，利用主题模型生成文章的主题特征向量；将文章中每个句子中每个词和相应的主题向量输入语言模型中，得到相应的每个词的时序特征向量；根据每个词的时序特征向量，通过归一化指数函数预测下一个词；利用随机梯度下降法对语言模型以及主题模型中的编码器的参数进行更新，同时利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对主题模型中解码器的参数进行采样更新。该方法将多层主题模型与多层语言模型相结合，提取文本主题中层次化的语义特征以及层次化的时序信息，低层特征语义范围较小，高层特征语义范围更为广泛。

Description

一种主题指导的文本预测方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种主题指导的文本预测方法。

背景技术

在自然语言处理领域中，文本预测近年来受到了广泛关注。语言模型对文本进行时序建模，能够捕捉到文本内部词与词之间的时序关系，从而实现自然语言处理中的各种任务，如文本总结、机器翻译、图像标注等。语言模型通常给定前一个单词，对后一个单词的发生概率进行估计，并选择预测概率最大的单词，这成为单步预测。给定一个起始符输入语言模型，将单步预测输出的单词作为下一个单步预测的输入，一直进行迭代直到终止符或达到足够长度，从而生成一个句子。但语言模型只关注到了文本内部时序信息，而忽略了文本的语义信息。

相反的，主题模型通常针对文本的词袋形式进行建模，只考虑文章中单词出现的次数而忽略文本内部词与词之间的时序关系。而多层的主题模型能够极大的提高对文本的建模能力，并得到更具有语义信息的特征向量。

因此，将主题模型与语言模型结合起来能够同时捕捉到文本的语义信息与时序信息，能够实现在文本主题指导下的语言时序建模。这种互补的结构能够提升主题模型的主题提取能力以及语言模型的预测能力，从而能够针对不同的主题生成相应的句子。

北京信息科技大学申请的专利“一种基于主题模型的HSK作文生成方法”(申请号：201811202083.7)中公开了一种作文生成方法，通过训练LDA主题模型，得到句子和文本、词语和文本的分布，并通过计算交叉熵，选择与主题关键词最相近的句子，然后生成文本，且自动生成的文本在连贯性和逻辑性上效果好，语法错误较少，错别字较少，能够很好地完成写作任务，可以很好地满足实际应用的需要。该方法使用最基本的单层LDA主题模型提取语义特征，同时对句子内部的时序信息提取不够充分，无法对文本进行有效的建模。

华南理工大学申请的专利“一种基于深度学习和主题模型的问答系统实现方法”(申请号：201810330697.7)中公开了一种基于深度学习和主题模型的问答系统实现方法，包括：首先将问句输入Twitter LDA主题模型获得问句的主题类型，并提取相应主题词，将输入问句和主题词表示为词向量；然后将输入问句的词向量输入RNN循环神经网络编码，获取问句的编码隐藏层状态向量；其次解码RNN循环神经网络使用联合注意力机制结合问句的局部和全局混合语义向量，进行解码生成词；之后使用大规模对话语料训练基于编码解码框架的深度学习主题问答模型；最终利用训练的问答模型预测输入问句的答案，生成与问句主题相关的答案。该方法将主题语义信息输入问答系统，弥补了问答模型外源知识的缺失，增加回答的丰富性和多样性，但是单层主题模型没有多层主题模型提取的语义信息完备，无法得到层次化的语义特征。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种主题指导的文本预测方法。本发明以主题模型为指导，对文章进行主题建模，在每篇文章的主题指导下对句子内部单词进行语言建模，对单词进行单步预测。

实现本发明目的的具体思路是，在主题模型的语义特征指导下，对文本进行单步预测，利用主题模型的似然函数与文本预测的误差函数作为目标函数，更新主题模型和语言模型的网络参数，从而能够在主题指导下生成相应文本。本发明要解决的技术问题通过以下技术方案实现：

本发明提供了一种基于主题指导的文本预测方法，包括：

S1：获得每篇文章对应的词袋向量；

S2：根据所述文章的词袋向量，利用主题模型生成所述文章的主题特征向量；

S3：将所述文章中每个句子中每个词和相应的主题向量输入语言模型中，得到相应的每个词的时序特征向量；

S4：根据每个词的时序特征向量，通过归一化指数函数预测下一个词；

S5：利用随机梯度下降法对所述语言模型以及主题模型中的编码器的参数进行更新，同时利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述主题模型中解码器的参数进行采样更新。

在本发明的一个实施例中，所述S1包括：

将M篇文章{D₁,D₂,...D_m,...,D_M}分别表示为对应的词袋向量d₁,d₂,...,d_m,...,d_M，其中d_m∈R^1×V表示词汇表中每个词在第m篇文章中出现的次数，V表示字典维度。

在本发明的一个实施例中，所述S2包括：

将所述词袋向量d₁,d₂,...,d_m,...,d_M依次输入L层的主题模型中，分别得到对应的语义特征向量θ₁,θ₂,...,θ_m,...,θ_M，其中表示第m篇文章的语义特征向量。

在本发明的一个实施例中，所述主题模型表示为：

θ⁽¹⁾～Gam(Φ⁽²⁾θ⁽²⁾,c⁽²⁾),d～Pois(Φ⁽¹⁾θ⁽¹⁾),

其中，表示第l层的隐变量，r表示主题模型最高层隐变量θ^(L)对应伽马分布的形状参数，Φ^(l)表示主题模型的第l层字典参数，c^(l+1)表示主题模型的第l层隐变量θ^(l)对应伽马分布的尺度参数；

其中，k^(l)、λ^(l)表示韦布尔分布中的参数，能够通过神经网络映射得到，g^(l)表示基本的RNN传递单元，s^(l)表示网络的第l层RNN传递单元的输入，其中，s⁽¹⁾＝d表示网络的第一层输入为文章的词袋向量；

其中，由某一文章D_m输入得到{θ⁽¹⁾,θ⁽²⁾,...,θ^(L)}的过程称为编码器，由{θ⁽¹⁾,θ⁽²⁾,...,θ^(L)}重构得到文章D_m的过程称为解码器。

在本发明的一个实施例中，所述S3包括：

将所述文章D_m中的句子{s₁,s₂,...,s_j,...,s_J}及文章D_m的语义特征向量{θ⁽¹⁾,θ⁽²⁾,...,θ^(L)}依次输入语言模型；

将每个句子表示为T_j表示第j个句子包含词的个数，输入的第一个词为起始符，预测得到s_j的第一个词y_j1，再输入第一个词y_j1预测得到第二个词y_j2，依此类推直至输出最后一个词将第j个句子的第t个词y_jt分别输入语言模型，得到的语言模型的各层隐变量分别记为其中，所述语言模型具体表示如下：

其中，z_t ^(l)表示第t个时刻第l层的隐单元，h_t ^(l)表示第t个时刻第l层的长短时记忆网络LSTM的隐单元，θ^(l)表示该单词所在文章对应的第l层的语义特征向量，z_t ^(l-1)表示第t个时刻第l-1层的隐单元，h_t-1 ^(l)表示第t-1个时刻第l层的LSTM隐单元，LSTM^(l)表示第l层的LSTM网络，GRU^(l)表示门控循环单元的网络，用于将语义特征向量加入语言模型中指导词的生成。

在本发明的一个实施例中，所述S4包括：

将语言模型各隐层拼接起来得到z_t，其中表示输入词的时序特征向量，r_l为第l层隐变量的维度；

在所述语言模型中将时序特征向量输入归一化指数函数层，得到V维的概率分布向量；

选择所述概率分布向量中值最大的位置在单词表中所对应的单词为最终单步预测的输出结果，目标输出结果为当前输入词的下一个词。

在本发明的一个实施例中，所述S5包括：

利用随机梯度下降法对所述主题模型中的编码器参数和所述语言模型中的参数进行更新，目标函数为：

其中d表示文章的词袋向量，Φ^(l)表示所述主题模型中的各层字典参数，y_t表示输入语言模型的单词，y_1:t-1表示在同一个句子中该单词前的所有单词，q(θ^(l)|d,Φ^(l+1)θ^(l+1))＝Weibull(k^(l)+Φ^(l+1)θ^(l+1),λ^(l))，其中Weibull表示韦布尔分布，参数k^(l)与λ^(l)能够通过所述主题模型隐层映射得到；

利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述主题模型的的解码器字典参数进行采样更新，获得主题模型各层字典。

与现有技术相比，本发明的有益效果在于：

1、本发明将多层主题模型与多层语言模型相结合，提取处文本主题中层次化的语义特征，以及层次化的时序信息，低层特征较为具体，语义范围较小，高层特征更为抽象，语义范围更为广泛。

2、本发明在文本生成过程中不仅对句子内部的词与词之间的时序关系进行建模，同时将句子的相应语义特征向量引入该建模过程中指导单步预测，克服了缺乏语义指导的文本生成方面的不足，使得本发明能够基于给定的主题生成相应的文本。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种基于主题指导的文本预测方法的流程图；

图2是本发明实施例提供的一种主题模型的结构示意图；

图3是本发明实施例提供的一种语言模型的结构示意图；

图4a和图4b是利用本发明实施例方法得到的单层模型结果展示图；

图5a和图5b是利用本发明实施例方法得到的二层模型结果展示图；

图6a和图6b是利用本发明实施例方法得到的三层模型结果展示图。。

具体实施方式

为了进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及具体实施方式，对依据本发明提出的一种基于主题指导的文本预测方法进行详细说明。

有关本发明的前述及其他技术内容、特点及功效，在以下配合附图的具体实施方式详细说明中即可清楚地呈现。通过具体实施方式的说明，可对本发明为达成预定目的所采取的技术手段及功效进行更加深入且具体地了解，然而所附附图仅是提供参考与说明之用，并非用来对本发明的技术方案加以限制。

应当说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。

请参见图1，图1是本发明实施例提供的一种基于主题指导的文本预测方法的流程图。

该基于主题指导的文本预测方法包括：

S1：获得每篇文章对应的词袋向量；

具体地，所述S1包括：

具体地，请参见图2，图2是本发明实施例提供的一种主题模型的结构示意图。将将所述词袋向量d₁,d₂,...,d_m,...,d_M依次输入L层的主题模型中，分别得到对应的语义特征向量θ₁,θ₂,...,θ_m,...,θ_M，其中表示第m篇文章的语义特征向量。

进一步地，所述主题模型表示为：

其中，表示第l层的隐变量，r表示主题模型最高层隐变量θ^(L)对应伽马分布的形状参数，Φ^(l)表示主题模型的第l层字典参数，c^(l+1)表示主题模型的第l层隐变量θ^(l)对应伽马分布的尺度参数，

其中，k^(l)、λ^(l)表示韦布尔分布中的参数，能够通过神经网络映射得到，g^(l)表示基本的RNN传递单元，s⁽¹⁾＝d表示网络的第一层输入为文章的词袋向量，

具体地，请参见图3，图3是本发明实施例提供的一种语言模型的结构示意图。将每个句子表示为T_j表示第j个句子包含词的个数，输入的第一个词为起始符，预测得到s_j的第一个词y_j1，再输入第一个词y_j1预测得到第二个词y_j2，依此类推直至输出最后一个词将第j个句子的第t个词y_jt分别输入语言模型，得到的语言模型的各层隐变量分别记为其中，所述语言模型具体表示如下：

在本实施例中，的具体实现过程为：

其中，W_i ^(l),U_i ^(l),b_i ^(l),W_f ^(l),U_f ^(l),b_f ^(l),W_o ^(l),U_o ^(l),b_o ^(l),W_c ^(l),U_c ^(l),b_c ^(l)是第l层LSTM网络的参数，i_t ^(l),f_t ^(l),o_t ^(l)分别表示第l层LSTM网络的输入门，遗忘门，输出门。

进一步地，的具体实现过程为：

其中，W_e ^(l),U_e ^(l),b_e ^(l),W_r ^(l),U_r ^(l),b_r ^(l),W_z ^(l),U_z ^(l),b_z ^(l)是第l层GRU网络的参数，从而实现将θ^(l)与融合，实现主题模型对语言模型的指导。

具体地，将语言模型各隐层拼接起来得到z_t，其中表示输入词的时序特征向量，r_l为第l层隐变量的维度；

S5：利用随机梯度下降法对所述语言模型以及主题模型中的编码器的参数进行更新，同时利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述主题模型中解码器的参数进行采样更新；

具体地，利用随机梯度下降法对所述主题模型中的编码器参数和所述语言模型中的参数进行更新，目标函数为：

其中d表示文章的词袋向量，Φ^(l)表示所述主题模型各层字典参数，y_t表示输入语言模型的单词，y_1:t-1表示在同一个句子中该单词前的所有单词，q(θ^(l)|d,Φ^(l+1)θ^(l+1))＝Weibull(k^(l)+Φ^(l+1)θ^(l+1),λ^(l))，其中Weibull表示韦布尔分布，参数k^(l)与λ^(l)能够通过所述主题模型隐层映射得到；

利用自适应随机梯度马尔可夫链蒙特卡洛采样方法对所述主题模型的解码器字典参数进行采样更新，获得主题模型各层字典。

本实施例的实验使用的运行系统为Intel(R)Core(TM)i7-8700CPU@3.20GHz，64位Windows操作系统，仿真语言采用Python。使用的实验数据为公开的英语数据集“BNC”，包含了期刊、书籍、信件、散文、备忘录、新闻和其他类型的文本的摘录。

实验一：

1.1)实验参数

主题模型的层数设置为1，主题个数为100。语言模型LSTM网络的层数设置为1，隐单元个数设置为600。

1.2)实验内容

请参见图4a和图4b，图4a为利用单层主题模型对文本建模获得的主题表示举例，图4b为单层语言模型生成的文本举例。

由图4a和图4b可见，单层模型对于文本可以有效建模，获得的主题与生成的句子较为具体，语义范围较小。

实验二：

2.1)实验参数

主题模型的层数设置为2，第一层主题个数为100，第二层主题个数为80。语言模型的层数设置为2，第一层隐单元个数设置为600，第二层隐单元个数设置为512。

2.2)实验内容

请参见图5a和图5b，图5a为二层主题模型对文本建模获得的主题表示举例，图5b为二层语言模型生成的文本举例。

由图5a和图5b可见，二层模型对于文本可以有效建模，第二层获得的主题与生成的句子较第一层更为抽象，其主题语义范围更大。

实验三：

3.1实验参数

主题模型的层数设置为3，第一层主题个数为100，第二层主题个数为80，第二层主题个数为50。

语言模型的层数设置为3，第一层隐单元个数设置为600，第二层隐单元个数设置为512，第三层隐单元个数设置为256。

2.2)实验内容

请参见图6a和图6b，图6a为三层主题模型对文本建模获得的主题表示举例，图6b为三层语言模型生成的文本举例。

由图6a和图6b可见，三层模型对于文本可以有效建模，高层的主题比底层的主题涵盖的语义范围更大，生成的句子也更为抽象，涵盖内容也更多。

本实施例将多层主题模型与多层语言模型相结合，提取处文本主题中层次化的语义特征，以及层次化的时序信息，低层特征较为具体，语义范围较小，高层特征更为抽象，语义范围更为广泛。另外，本实施例在文本生成过程中不仅对句子内部的词与词之间的时序关系进行建模，同时将句子的相应语义特征向量引入该建模过程中指导单步预测，克服了缺乏语义指导的文本生成方面的不足，使得本发明能够基于给定的主题生成相应的文本。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于主题指导的文本预测方法，其特征在于，包括：

S1：获得每篇文章对应的词袋向量；

2.根据权利要求1所述的基于主题指导的文本预测方法，其特征在于，所述S1包括：

3.根据权利要求2所述的基于主题指导的文本预测方法，其特征在于，所述S2包括：

将所述词袋向量d₁,d₂,...,d_m,...,d_M依次输入L层的主题模型中，分别得到对应的语义特征向量θ₁,θ₂,...,θ_m,...,θ_M，其中θ_m＝{θ_m ⁽¹⁾,θ_m ⁽²⁾,...,θ_m ^(L)},m∈1:M，表示第m篇文章的语义特征向量。

4.根据权利要求3所述的基于主题指导的文本预测方法，其特征在于，所述主题模型表示为：

5.根据权利要求4所述的基于主题指导的文本预测方法，其特征在于，所述S3包括：

6.根据权利要求5所述的基于主题指导的文本预测方法，其特征在于，所述S4包括：

7.根据权利要求6所述的基于主题指导的文本预测方法，其特征在于，所述S5包括：

其中d表示文章的词袋向量，Φ^(l)表示主题模型中的各层字典参数，y_t表示输入语言模型的单词，y_1:t-1表示在同一个句子中该单词前的所有单词，q(θ^(l)|d,Φ^(l+1)θ^(l+1))＝Weibull(k^(l)+Φ^(l+1)θ^(l+1),λ^(l))，其中Weibull表示韦布尔分布，参数k^(l)与λ^(l)能够通过所述主题模型隐层映射得到；