CN108549718B

CN108549718B - 一种通用主题嵌入模型联合训练方法

Info

Publication number: CN108549718B
Application number: CN201810368425.6A
Authority: CN
Inventors: 顾荣; 黄宜华; 赵博; 肖倩; 袁春风
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-04-23
Filing date: 2018-04-23
Publication date: 2019-10-18
Anticipated expiration: 2038-04-23
Also published as: CN108549718A

Abstract

本发明公开了一种通用的主题嵌入模型联合训练方法，包括以下步骤：第一步对输入的原始文档语料进行预处理得到目标文本；第二步对目标文本构建词汇表；第三步初始化网络结构，对模型的参数矩阵进行初始化，并构建负采样表；第四步对主题嵌入模型联合建模、分多次迭代训练模型。每一次迭代过程分为以下三步：第一步，采用期望最大化算法训练主题模型部分；第二步，采用随机梯度下降算法训练嵌入模型部分；第三步，采用完全梯度下降算法训练正则化项部分。本发明可提供一种通用的方式将主题模型与嵌入模型联合训练，解决现有的模型组合方式过于依赖特有模型、通用性不足，很难同时提升两种模型等问题。

Description

一种通用主题嵌入模型联合训练方法

技术领域

本发明涉及人工智能、神经网络与自然语言处理领域，具体是一种通用主题嵌入模型联合训练方法。

背景技术

自然语言处理的核心任务之一就是理解文本的语义，许多下游任务如文本分类、词性标注和机器翻译都把其作为初始化步骤以此提升模型性能。“观其伴而知其意”这是英国著名语言学家J.R.Firth的一句名言，换句话说，如果两个词出现在相似的上下文中，它们就是相似的。这就是著名的分布式假说，推动了许多文本模型的发展。

主题模型和嵌入模型是其中最主要的两类模型，两种模型起源不同，主题模型源于贝叶斯统计，概率潜在语义分析pLSA与潜在狄利克雷分布LDA为目前应用最广泛的两个主题模型；而嵌入模型源于神经网络领域，word2vec与doc2vec是普遍流行的两种嵌入模型。由于多种原因，将两种方法结合起来是一个很有前途的研究方向：首先，目前主流主题模型存在的一大缺陷在于只将词与主题联系起来,没有考虑词共现的信息。而众所周知，以嵌入模型典型的如word2vec模型训练得到的词向量可以很好的提出词语之间的关系尤其是语义上的关系。第二，嵌入模型往往缺乏可解释性，而主题模型有基于概率分布的解释性。第三，以LDA为代表的主题模型认为文档的生成是不同主题混合的结果，而神经网络模型习惯于将文档表示为稠密向量。如果结合前者覆盖范围广和后者维度低的特点生成新的模型，可以做到快速检测，同时对隐含语义的解释也会更好。

Baroni曾经在2014年的调研中提出问题“是否两种模型在各自的缺陷地方存在着互补性，在这种情况下，组合模型可能是一个有趣的途径，这可能是未来的研究工作”，近几年，有很多研究学者试图将两种模型结合，这些研究工作大致可以分为两种，一种以嵌入模型来改善主题模型，另一种基于主题模型来提升嵌入模型，但几乎没有研究能将两种模型联合训练，同时改善它们的性能。另外，已有的研究工作都是提出新的、定制化的算法来改善特定的模型，缺少一个通用的方式将很容易的集成现有的各种各样不同的主题模型与嵌入模型。

发明内容

发明目的：针对上述现有技术存在的问题和不足，本发明的目的是提供一种通用主题嵌入模型联合训练方法，解决现有的模型组合方式过于依赖特有模型、通用性不足，很难同时提升两种模型等问题。

技术方案：为实现上述发明目的，本发明采用的技术方案为一种通用主题嵌入模型联合训练方法，包括以下步骤：

(1)使用查表法预先计算sigmoid和softmax函数值；

(2)扫描语料，统计文档中出现的每个单词的频数；

(3)初始化网络结构，首先初始化主题模型的参数：文档主题分布矩阵Θ和主题单词分布矩阵Φ，然后初始化嵌入模型的参数：所有单词的词向量矩阵V、上下文向量矩阵U、所有主题的主题向量矩阵Y、所有文档的文本向量矩阵G；

(4)对主题模型和嵌入模型联合建模得到组合模型HieraVec，目标函数为一个带正则化项的主题模型中词w生成概率与嵌入模型中词w生成概率联立，因此，给定一个文档集合D，单词集合W，主题模型的参数集为Ψ，嵌入模型的参数集为Ω，则对数似然函数L为：

式中，P_t(w|d,Ψ)是基于参数空间为Ψ的主题模型中，潜在主题t下，文档d中生成词w的概率，而P_e(w|C_w,Ω)为上下文词集合为C_w，参数空间为Ω的嵌入模型产生同样的单词w的概率；θ_d为主题模型中的文档主题概率分布，m_d为通过嵌入模型计算得到的相对应的文档主题模拟分布；同样的，φ_t为主题模型中的主题词概率分布，m_t为通过嵌入模型计算得到的相对应的主题词模拟分布；D_α(p||q)是概率分布p与q的Rényi散度，η和μ是超参数，η和μ的值为实数；

式1是一个通用抽象的算法框架，依赖于所选择的具体主题模型和嵌入模型来决定Ψ和Ω详细的参数以及θ_d，φ_t，C_w，m_d和m_t的计算方式；选择具体的两种模型pLSA和PV-DBOW为组件模型，从而提出组合模型HieraVecPD；设置HieraVecPD的的Rényi散度的α为0.5，使用对应向量点积的softmax函数为模拟分布m_dt和m_tw，HierVecPD的目标函数为：

式中，v，u代表对应的V，U矩阵的行向量，c为上下文词；与式1对应，主题模型的参数集Ψ＝{Θ，Φ}，嵌入模型的参数集Ω＝{V,U,G,Y}；

将式1分成四个部分，得到对应部分的具体含义：

第一部分是L_T＝∑_d∑_wln∑_tθ_dtφ_tw，这是标准的主题模型的对数似然函数；第二部分是L_E＝∑_d∑_wlnP_e(w|C_w,Ω)，这是标准的嵌入模型的对数似然函数；第三部分是R_D＝-η∑_dD_α(m_d||θ_d)，这是一个正则化项，最大化m_d和θ_d之间的相似性；第四部分是R_W＝-μ∑_dD_α(m_t||φ_t)，这是一个正则化项，最大化m_t和φ_t之间的相似性。

进一步地，模型的训练过程需要多轮迭代，采用旋转优化的方式，根据不同部分参数的特性，引进三阶段训练方法，针对式3的目标函数，单一参数优化方法很难同时学习所有的参数，设计一个旋转优化方法三阶段参数训练模式来迭代优化参数，即每个阶段优化一部分参数，而固定其他的参数不变，在不同的阶段使用不同的参数学习方法；第一阶段采用期望最大化算法来更新主题模型参数；第二阶段采用随机梯度下降算法来更新嵌入模型参数；第三阶段利用完全梯度下降算法。

有益效果：本发明提出了一种通用的方式来联合各种各样的已有主题模型和嵌入模型，从而利用两种模型的互补性获取多层上下文信息以得到更好的模型效果。具体地，本发明方法具有如下技术优势：

本发明方法设计的算法框架将主题模型与嵌入模型联合训练，既能感知主题模型的全局信息，又能利用嵌入模型的局部上下文信息。在组合模型的训练过程中，还设计了一个旋转优化的3-stage参数学习过程来有效的训练模型；与现有方法相比，本发明可提供一种通用的方式将主题模型与嵌入模型联合训练，解决现有的模型组合方式过于依赖特有模型、通用性不足，很难同时提升两种模型等问题。

附图说明

图1为本发明总体流程示意图；

图2为HieraVec的概率图模型表示示意图；

图3为HieraVec嵌入模型部分训练样本示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提出了一种通用主题嵌入模型联合训练方法，通过加性正则化的方式将主题模型与嵌入模型联合训练，每个组件模型理论上都可以替换成其他同类模型，不拘泥于模型的特定形式，避免了其他同类组合模型方法中需要针对特定模型定制化的弊端，提高了训练方法的通用性，提升了两种组合模型的训练效果。本模型采用旋转优化模式阶段性的训练模型，使得模型可以根据参数本身的特性选用适合的优化方法。

如图1所示，本发明的完整流程包括文本预处理、构建词汇表、初始化网络结构、主题模型部分训练阶段、嵌入模型部分训练阶段、正则项训练阶段6个部分。提前说明的是，以下所有涉及到的公式中，大写的字母代表矩阵，对应的小写字母代表矩阵的行向量。具体的实施方式分别说明如下：

文本预处理阶段对应技术方案步骤(1)。具体实施方式为：在预处理部分，实现sigmoid和softmax函数值的近似计算。将区间[-bound,bound](bound可自定义值，一般设为7)等距离划分成传入的指数表大小等份，并将每个区间中的sigmoid和softmax值计算好存入到数组中，需要使用时，直接从数组中查找。

构建词汇表阶段对应技术方案步骤(2)。具体实施方式为：读取文件中的每一个词，并在词库中进行查找，若存在该词，则该词的词频加1，如果不存在该词，则在词库中增加该词。在存储词的过程中，存储的是Vocab的对象，包括一个HashMap结构word2id存储词与词的id映射，两个ArrayBuffer结构存储词与词频。

初始化网络结构阶段对应技术方案步骤(3)。具体实施方式为：初始化V，U，G，Y矩阵的时候，首先，生成一个0到1的随机数，然后将其值减去0.5，最终得到的初始化向量的范围为：

式中，n为向量的维度，然后为各个文档里的单词随机分配一个主题，按照对应分配的主题，初始化文档主题分布矩阵Θ和主题单词分布矩阵Φ。

技术方案步骤(4)是主题嵌入模型建模过程，图2为HieraVec的概率图模型，HieraVe模型中语料D一篇文档d的生成过程为：

1)从一个文档向量g_d与主题向量y_t的softmax函数分布中采样出一个多项式分布θ_d，作为该文章在k个主题上的分布；

2)从一个主题向量y_t与单词上下文向量u_w的softmax函数分布中采样出一个多项式分布作为主题t在词w上的分布；

3)对该文章里的每个词w，根据步骤1)中的θ_d分布，采样出一个topic编号来，然后根据此topic-word对应的采样出一个词。

模型的训练过程包括主题模型训练阶段、嵌入模型训练阶段和正则化项训练阶段。主题模型训练阶段具体实施方式为：对于每篇文档d的每个单词w，根据期望最大化EM算法分E和M两个步骤更新参数：

在E步骤中，直接使用贝叶斯公式计算隐变量t在当前参数取值条件下的后验概率，有

式中，γ_dwt代表文档d中词w属于主题t的概率，对于p(w,t|d,θ_d,φ_w)初始随机赋值，后面迭代的过程中取前一轮M步骤中得到的参数值。

在M步骤中，最大化三元组(d_i,w_j,z_k)第i篇文档的第j个单词属于第k个主题的对数似然函数的期望，求得

式中，n_dt＝∑_w∈dγ_dwt为文档d中主题为t的单词个数，n_tw＝∑_dγ_dwt为主题t中单词w的个数。p_i∝q_i是p_i＝q_i/∑_jq_j。(z)₊＝max(z,0)，按照式3更新θ_dt和φ_tw的值。

嵌入模型训练阶段具体实施方式为：对于词w，它的上下文单词包含其左边和右边的单词，这里采用skip-gram方式，从词w中预测它的上下文词，以“The early birdcatches the worm.”为例，如果选定窗口大小为2，则得到图3所示的训练样本。采用亚采样的方式，对于在训练原始文本中遇到的每一个单词，按照式4概率从文本中删掉，被删除的概率p(w)与单词频率f(w)有关；

式中，t是自定义的阀值，一般设为10-⁵，这是一个经验式，可以压缩高频词被训练到的频率，能够提升模型的训练效率；

目标函数是在整个数据集上定义的，使用随机梯度下降对这个函数进行优化，一次使用一个示例，选择通过从一些噪声分布中提取噪声(对比)样本。然后计算这对观察到的和有噪声的例子的损失，通过推导相对于嵌入参数的损失梯度来实现。接着，向梯度方向更新参数。当这个过程在整个训练集上重复时，将对每个单词产生移动('moving')嵌入向量的效果，直到模型成功识别真实单词与噪声单词为止。

正则化项训练阶段具体实施方式为：采用完全梯度下降算法来最大化正则化项，优化G，U，Y，对于每篇文档d中的所有主题t，计算出对于g_d和y_t基于R_D部分的梯度更新，对于每个主题t包含的所有单词w，计算出对于y_t和u_w基于R_W部分的梯度更新。对主题向量的梯度更新合并在一起，优化批处理所有嵌入参数：

式中，A矩阵的维度为(|D|*|T|)，|D|为文档数，|T|为主题数，矩阵元素为a_dt＝o_dt-m_dt，B矩阵的维度为(|T|*|W|)，|W|为单词数，矩阵元素b_tw＝o_tw-m_tw，ξ为学习率，按照式5的方式批量更新矩阵G，U，Y的值

本发明基于scala语言实现了一个算法框架HieraVec(Hierarchy Vectors，模型可生成文档-主题-词三层向量)。通过对两个普遍评价文本分类所采用的语料库Reuters和20News对本发明实现的算法框架进行测试，表1和表2是在相同的硬件条件不同的数据集下对比本方法和其组件模型方法以及目前最好的几个组合模型方法，采用文本分类的常用评价指标：准确度Acc、精度Prec、召回率Rec和F1值，实验结果如表1和表2所示，从表格中看出，HieraVec在所有分类评价指标都能取得较好的效果。

表1基于Reuters语料的分类结果(最好的结果已加粗)

(Reuters)	Acc	Prec	Rec	F1
					BoW	94.5	92.1	90.3	91.2
pLSA	91.0	80.2	72.1	74.0
					LDA	91.1	80.4	72.0	74.1
word2vec	95.1	92.4	89.8	90.6
					doc2vec	86.7	85.1	71.1	70.7
TWE	95.4	92.7	91.1	91.0
					TopicVec	96.1	93.2	91.2	92.0
HieraVec	97.9	95.6	93.0	93.8

表2基于20News语料的分类结果(最好的结果已加粗)

(20News)	Acc	Prec	Rec	F1
					BoW	78.7	78.5	78.1	78.1
pLSA	71.9	69.9	70.4	70.0
					LDA	72.2	70.3	70.6	70.4
word2vec	77.6	75.8	75.6	75.7
					doc2vec	72.4	69.3	69.7	69.5
TWE	80.3	79.7	79.5	79.6
					TopicVec	81.3	80.3	80.0	80.1
HieraVec	82.4	81.9	81.4	81.4

Claims

1.一种通用主题嵌入模型联合训练方法，包括以下步骤：

(1)使用查表法预先计算sigmoid和softmax函数值；

(2)扫描语料，统计文档中出现的每个单词的频数；

(4)对主题模型和嵌入模型联合建模得到组合模型HieraVec，目标函数为一个带正则化项的主题模型中词w生成概率与嵌入模型中词w生成概率联立得到的，因此，给定一个文档集合D，单词集合W，主题模型的参数集为Ψ，嵌入模型的参数集为Ω，则对数似然函数L为：

式中，P_t(w|d，Ψ)是基于参数空间为Ψ的主题模型中，文档d中生成词w的概率，而P_e(w|C_w,Ω)为上下文词集合为C_w，参数空间为Ω的嵌入模型产生同样的单词w的概率；θ_d为主题模型中的文档主题概率分布，m_d为通过嵌入模型计算得到的相对应的文档主题模拟分布；同样的，φ_t为主题模型中的主题词概率分布，m_t为通过嵌入模型计算得到的相对应的主题词模拟分布；D_α(p||q)是概率分布p与q的Rényi散度，η和μ是超参数，η和μ的值为实数；

将式1分成四个部分，得到对应部分的具体含义：

第一部分是L_T＝∑_d∑_wln∑_tθ_dtφ_tw，这是标准的主题模型的对数似然函数；

第二部分是L_E＝∑_d∑_wln P_e(w|C_w,Ω)，这是标准的嵌入模型的对数似然函数；

第三部分是R_D＝-η∑_dD_α(m_d||θ_d)，这是一个正则化项，最大化m_d和θ_d之间的相似性；第四部分是R_W＝-μ∑_dD_α(m_t||φ_t)，这是一个正则化项，最大化m_t和φ_t之间的相似性。

2.根据权利要求1所述一种通用主题嵌入模型联合训练方法，其特征在于：模型的训练过程采用旋转优化的方式，根据不同部分参数的特性，引进三阶段训练方法，针对式2的目标函数，设计一个旋转优化方法三阶段参数训练模式来迭代优化参数：每个阶段优化一部分参数，而固定其他的参数不变，在不同的阶段使用不同的参数学习方法；第一阶段采用期望最大化算法来更新主题模型参数；第二阶段采用随机梯度下降算法来更新嵌入模型参数；第三阶段利用完全梯度下降算法来更新正则化项参数。