CN107220311A

CN107220311A - 一种利用局部嵌入话题建模的文本表示方法

Info

Publication number: CN107220311A
Application number: CN201710332228.4A
Authority: CN
Inventors: 罗森林; 刘望桐; 潘丽敏; 毛炎颖; 魏超
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2017-05-12
Filing date: 2017-05-12
Publication date: 2017-09-29
Anticipated expiration: 2037-05-12
Also published as: CN107220311B

Abstract

本发明涉及一种利用局部嵌入话题建模的文本表示方法，属于计算机科学与信息检索技术领域。在该方法中，根据文本在词空间的欧氏距离选取近邻集，构造局部加权正则项，把正则项加入传统的自编码网络进行训练获得模型，进而构造一个显示映射函数，并最终利用编码网络抽取样本外文档的向量表示。本发明引入局部加权正则项，有效地保持文本所在空间的内部固有几何结构。此外，本发明生成了一个观测空间和低维流形之间的显式嵌入映射，提供了一种从样本外文本提取嵌入向量表示的简便方法。

Description

一种利用局部嵌入话题建模的文本表示方法

技术领域

本发明涉及一种利用局部嵌入话题建模的文本表示方法，属于计算机科学与信息检索技术领域。

背景技术

近年来，网络的快速发展使得文本信息比例急速增长，这对信息检索技术提出了更高的要求。文本表示作为信息检索的关键技术对于提升信息的有效获取具有重要意义。文本表示是将包含大量字符，非结构化的文档集合，转化为半结构或结构化的数据结构，进而方便计算机利用聚类，分类技术进行信息检索。经典的文本表示方法是空间向量模型(VSM)，它将组成文档集合的所有词汇作为特征，并根据每篇文本中每个特征词的词频信息组成一个向量来表示该文本。但是这种表示由于孤立地看待每个词汇，忽略了词的多义和歧义性，因为在实际的信息检索中效果有限。

针对该问题的改进工作包括概率潜层语义分析(PLSA)和隐性狄利克雷分布(LDA)。它们是一种话题模型，即假设每个文本是由一系列潜在话题按照一定比例混合生成，其中，每个话题又是通过词语的某种概率分布决定。和PLSA不同的是，LDA将文本的话题混合比例假设为狄利克雷随机变量来进行建模，这使得LDA能够定义一种文本级别的概率生成模型，可以有效解决样本外文本话题建模问题。但是，它们是将文本空间看作欧式空间来挖掘隐藏话题的，这种做法并没有考虑文档所在的空间的内部固有几何结构，也没有考虑如何提取样本外文本的话题表示。对于利用局部嵌入话题建模的文本表示方法，主要解决：①保持文本所在的空间的内部固有几何结构，以区分文本在词语概率分布上的差异性；②计算观察结果和低维流形之间的嵌入映射y＝f_Θ(x)。

基于PLSA的话题模型包括：拉普拉斯概率潜层语义索引(LapPLSI)、局部连续话题建模(LTM)，和区别性话题模型(DTM)。

在PLSA中，n(di,wj)表示单词wj出现在文本di中的次数，n(di,wj)与K个隐含话题变量{z₁,z₂,…,z_K}中的一个变量有关。形式上，这个生成过程被描述如下：选择一个概率为P(d_i)的文本d_i；选择一个概率为P(z_k|d_i)的潜层话题(类)z_k；产生一个概率为P(w_j|z_k)的单词w_j；

1.拉普拉斯概率潜层语义索引(LapPLSI)：

它的目标是最大化正则对数似然函数，如下所示：

λ是正则化参数，W是一个测量基于词共现的文本对的局部相似度的N×N矩阵。从这些数据点的最邻近曲线，得出边界权重矩阵W，定义如下：

N_p(d_i)表示这组p的最邻近文本d_i.

2.局部连续话题建模(LTM):

LTM采用KL散度作为一个正则项，等式定义如下：

矩阵W和上面的相同，概率分布P(z|d_i)和P(z|d_j)的KL散度是：

主要的区别是LapPLSA用欧式距离构造正则化矩阵，而LTM使用对比散度进行测量。通过最大化表达式(3)相当于最小化它们的正则化矩阵，得到一个在文本流形上充分光滑的条件概率分布函数P(z_k|d)。

3.区别性话题模型(DTM):

DTM进一步考虑了差异文本间关系而且通过相似文本对的距离和PLSA对数似然函数差异文本对的可分辨性定义了一个新的正则项。

其中，λ是正则化参数，W是一个基于词共现测量文本对的局部相似度的N×N矩阵，

HI(d_i d_j)是两个文件的直方图相交(HI).它的计算如下：

n(d_i w_k)通过应用tf-idf权重计划和传统词共现的LI标准获得。

也是一个N×N矩阵用来衡量文本对的局部或者全局差异。

其中，ξ是为了避免分母为零的一个小的正值，是词共现的局部差异矩阵。通过最大化等式5，DTM会把相似的P(z_k|d)给最靠近流形的文本，而分配不同的P(z_k|d)给距文本流形较远的点。

然而，对于这三个模型，都不能提供一种显式的映射函数，无法有效地将已知数据的知识迁移到未知数据，这对于样本外点既不是一个概率密度也不是一个映射。

发明内容

本发明提出一种基于局部加权嵌入的半监督文本表示(L-ETM)，有效地保持文本所在空间的内部固有几何结构，构造了流形的一个显式嵌入映射，提供了一种从样本外文本提取嵌入向量表示的简便方法。

本发明的技术方案包括如下内容：

首先，根据文本在词空间的欧氏距离选取近邻集，然后构造局部加权正则项，把正则项加入传统的自编码网络进行训练获得模型，进而得到嵌入映射函数，最终利用编码网络抽取样本外文本的嵌入向量表示。

步骤1，选取文本近邻集

给定一个语料库Ω＝{x₁,x₂,…,x_i,…,x_N}，其中x_i表示第i个文本的词代表达。X⁽ⁱ⁾的K个近邻表示成S(X⁽ⁱ⁾)＝{…,S^(j),…,S^(K)}，其中S^(j)是第j个较近的近邻且它们有相同的类标签。计算每个实例(X⁽ⁱ⁾,C⁽ⁱ⁾)到其他文本向量的欧式距离，

C(i)是X(i)的标注，服从C(i)＝C(j)和(i≠j)，按d(X⁽ⁱ⁾,X^(j))从最低到最高选择K个最近的实例到S(X⁽ⁱ⁾)。

步骤2，构造局部加权正则项

步骤2.1，通过计算正则化矩阵来近似估计各个近邻的词共现可以保持近邻的几何结构。由于不同近邻的贡献是不同的，为此，我们采用径向基核函数(RBF)为不同近邻分配加权系数在文本X⁽ⁱ⁾和它的近邻S^(j)上的RBF核定义如下：

其中，X⁽ⁱ⁾＝{w₁,w₂,…,w_M}而且w_j是词j的tf权重。||X⁽i⁾-S^(j)||被称作两个文本之间的平方欧几里得距离，σ是一个控制RBF宽度的超参数。

步骤2.2，利用RBF高斯核近似当前文本X⁽ⁱ⁾来加权近邻，正则项表示如下，

当时SSE取得最小值。因此，本发明的联合损失函数表示如下，

步骤3，基于正则性约束，训练自编码网络

通过随机梯度下降算法更新参数W,b,和c使联合损失函数J(W,b,c)最小。给定一个固定的训练集{(X⁽¹⁾,C⁽¹⁾),…(X⁽ⁱ⁾,C⁽ⁱ⁾),…(X^(m),C^(m))}，对于一个单独的训练实例(X⁽ⁱ⁾,C⁽ⁱ⁾),通过随机梯度下降(SGD)训练正则化自动编码网络。基于正则项，对话题建模，给定一个文本d_i，词分布用X⁽ⁱ⁾＝{w₁,w₂,…,w_M}表示，在词分布基础上生成话题分布Y⁽ⁱ⁾＝{p(z₁|x),p(z₂|x),…,p(z_K|x)}，话题分布Y可以通过编码网络生成，对话题分布Y⁽ⁱ⁾重构词分布Z⁽ⁱ⁾＝{p(w₁|z),p(w₂|z),…,p(w_N|z)}。

我们用以下数学符号描述模型拟合：

n_x 输入和输出的大小

n_y 隐藏单元的大小

x_j,j∈{1,2,...,n_x} 第j个输入值，0或1

s_j ^(k) 第j个S^(k)值,词j的tf重量，S^(k)是X⁽ⁱ⁾的第

k个近邻

z_j,j∈{1,2,...,n_x} 第j个输出

y_j,j∈{1,2,...,n_x} 隐藏层的第i个值

W_ij 连接第i个隐藏层和第j个输入的权重

b_i 隐藏层的第i个偏差

c_j 输出层的第j个偏差

θ 任何个别的权重或偏差

X⁽ⁱ⁾和S^(j)之间的加权系数

λ 非负的正则化参数

步骤3.1，联合损失函数可以通过以上所述修改成如下：

其中，z_l＝p(w_l|z)＝σ(W^Ty+c)，y_i＝p(z_i|x)＝σ(WX⁽ⁱ⁾+b)，σ(.)是s型激励函数，W,b,c是随机初始化的模型参数，项是权重衰减项，用于控制W的大小，防止过拟合；

步骤3.2，计算损失函数的偏微分:

步骤3.3，通过SGD算法，参数作如下更新：

其中η是学习速率，是对应变量的偏导数。循环步骤3.1，3.2，3.3，直至联合误差不再减小，此时的最优参数记为W*,b*,c*。

步骤4，利用上一步得到的最优参数构造嵌入映射函数：

p(w_j|z)＝g_θ'(y)＝σ(W^*Ty+b^*T) (20)

其中，σ是s型逻辑函数，然后抽取样本外文本的向量表示。

有益效果

相比于VSM方法，本发明可以构建文本的低维表示向量，适用于大数据环境下的信息检索应用。

相比于pLSA、LDA方法，本发明有效地保持环绕空间的内部固有几何结构，使话题分布在文本的领域变得平滑。

相比于LapPLSI、LTM、DTM方法，本发明生成了一个观察结果和低维流形之间的嵌入映射y＝f_Θ(x)，提供了一种从样本外文本提取嵌入向量表示的简便方法。

相比于其他模型，本发明实用性更广，性能最稳定连贯。

附图说明

图1为本发明的局部嵌入话题建模算法原理图；

图2为实验装置的流程图；

图3为各种模型在20newsgroup上使用1-NN(上)和SVM(下)训练的平均分类性能；

图4为各种模型在RCV1上使用1-NN(上)和SVM(下)训练的平均分类性能；

具体实施方式

为了更好的说明本发明的目的和优点，下面结合附图和实例对本发明方法的实施方式做进一步详细说明。

实验中采用两个广泛应用的英语文本分类语料库(20newsgroup，RCV1)测试本发明。20newsgroup由20个相关联新闻组组成，包括20,000篇文本集合。RCV1是一个大规模多类数据集，它是由路透社获得的超过800,000份的人工分类的新闻专线故事存档。我们提取出4类文本：M11(产权投资市场)、M12(债券市场)、M131(国际银行市场)和M132(外汇交易市场)。表1展示了一些关于这些数据集的统计信息。表1展示了一些关于这些数据集的统计信息。

表1 2个语料库的统计信息，D是文本的总数。W是词汇量，是文本长度的均值，St.Dev是文本长度的标准估计差，D_train是训练集的数目，D_test是测试集的数目。

为了获得一个全面的评价，我们在上述两个数据集上进行了5次实验评价。首先，我们将两个数据集随机地打乱5次，然后把每个数据集分成2部分。对于20newsgroup，我们选取6821个文本作为测试集，其他12000个样本用于构建L-ETM和其他对比模型。而对于RCV1中，我们选取69,808个文本用于测试，其余50,000个文本中训练不同的模型。其次，在第一次运行时，在训练集上进行5折交叉验证(CV)，并根据实验表现确定构建所有模型的最优参数。最后，基于上述最优参数设置，在其他4份训练集上分别构建所有模型。具体实验设置流程图如图1示。

为了验证本发明构建的文本表示在文本检索的改进效果，将生成的嵌入表示向量用于文本分类实验。下面将对上述测试流程逐一进行说明，所有测试均在同一台计算机上完成，具体配置为：Intel双核CPU(主频3.0G)，2.00G内存，Windows7SP1操作系统。

步骤1，执行话题建模：

步骤1.1，通过随机梯度下降最小化等式(5)来训练正则化自动编码网络，并根据在训练集1上的5-CV效果，确定构建模型的最佳参数；

步骤1.2，基于最佳参数构建一个由词空间到嵌入话题空间之间显式映射函数，进而提取测试文本的嵌入向量表示。

步骤2，利用测试文本的嵌入向量表示，通过分类算法对测试文本进行分类预测：

步骤2.1，将已经生成嵌入向量表示的测试文本平分成两份，其中一部分作为测试集，用于评估分类效果，另一部分作为分类器的训练集，我们选择了最常用的两种分类算法：1最近邻(1-NN)和支持向量机(SVM)训练分类模型；

步骤2.2，上述两种分类器通过增量实验训练得到，具体训练集和测试集比例为：1:5，3:5和5:5。最后分类实验结果使用F值的加权平均值进行评估，值越高表示分类性能越好。计算形式如下：

其中c_i是实例在测试集的i类中所占的比例，C是测试集的大小。F_i是分类i中的F值，它可以在精确率P_i和召回率R_i基础上计算得来。精确率P_i,召回率R_i和分类i中的F值F_i定义如下：

图2表示所有方法在20newsgroup数据集上的两种分类算法(1-NN(上)和SVM(下))运行5次得到平均值从左到右的图是当训练大小为10％，30％和50％时的分类性能，图中这些点表示平均值和标准差。当训练集等于测试集(右列)时，L-ETM把平均提升到80.09％(1-NN)和82.09％(SVM)。当训练集和测试集之比为1.5(右列)时，L-ETM的贡献比其他维持在77.83％(1-NN)和80.17％(SVM)的模型更大。图2显示，本发明使分类性能显著提高，且性能始终是最稳定的。这些好性能可以归结于本发明考虑了数据空间的局部一致性。

图3表示所有方法在RCV1上运行5次语料库得到平均值如图3所示。从左到右的图是当训练大小为10％，30％，50％的分类性能，图中这些点表示平均值和标准差。本发明把平均提升到了接近78％，优于其他模型。同时，和其他训练集相比，性能最稳定连贯。

图2和图3证明了本发明对于确定语义标注提供了更好的泛化能力。这是因为本发明不仅近似给定的文本还近似属于相同组的加权近邻。最终，本发明在近邻附近变化平滑，并且对于分布在近邻范围的文本可以分配更相似的嵌入向量表示。此外，和其他流形方法(DTM,LTM和LapPLSI)不同，本发明能够从样本外挖掘嵌入向量表示。这是因为编码器在观察空间和流形空间之间提供了一个明确的映射函数。

Claims

1.一种利用局部嵌入话题建模的文本表示方法，所述方法包括以下步骤：

步骤1，根据文本在词空间的欧氏距离选取近邻集；

步骤2，利用近邻集构造局部加权正则项；

步骤2.1，给定一个文本d_i，词分布用X⁽ⁱ⁾＝{w₁,w₂,…,w_M}表示，在词分布基础上生成话题分布Y⁽ⁱ⁾＝{p(z₁|x),p(z₂|x),…,p(z_K|x)}，对话题分布Y⁽ⁱ⁾重构词分布Z⁽ⁱ⁾＝{p(w₁|z),p(w₂|z),…,p(w_N|z)}，采用径向基核函数(RBF)为不同近邻分配加权系数计算公式如下：

其中，X⁽ⁱ⁾＝{w₁,w₂,…,w_M}，w_j是词j的tf权重，||X⁽ⁱ⁾-S^(j)||是两个文本之间的平方欧几里得距离，σ是RBF函数的非负的宽度参数，取值范围(0,1]，控制了径向作用的范围；

步骤2.2，利用加权系数，通过计算加权均方误差来近似当前文本X⁽ⁱ⁾的各近邻，正则项表示如下：

步骤3，训练自编码网络，模型拟合；

步骤3.1，利用局部加权正则项，构造样本集的联合损失函数：

其中，z_l＝p(w_l|z)＝σ(W^Ty+c)，y_i＝p(z_i|x)＝σ(WX⁽ⁱ⁾+b)，x_l是第l个输入值，σ(.)是s型激励函数，W,b,c是随机初始化的模型参数，1/2||W||²是权重衰减项；

步骤3.2，通过随机梯度下降算法更新训练自编码网络参数W,b和c，使联合损失函数最小；

步骤4，利用自编码网络参数，构造映射函数；

步骤4.1，构造一个观察空间和低维流形空间之间的嵌入映射函数；

步骤4.2，利用编码网络抽取样本外文本的嵌入向量表示。

2.根据权利要求1所述的一种利用局部嵌入话题建模的文本表示方法，其特征在于，步骤3.2所述的通过随机梯度下降算法更新训练自编码网络参数W,b和c，使联合损失函数J(W,b,c)最小的方法为：

计算损失函数的偏微分:▽_WJ(W；X⁽ⁱ⁾)，▽_bJ(b；X⁽ⁱ⁾)，▽_cJ(c；X⁽ⁱ⁾)，计算公式为：

更新参数W,b,c：

W＝W-[▽_WJ(W；X⁽ⁱ⁾)+W]

b＝b-[▽_bJ(b；X⁽ⁱ⁾)]

c＝c-[▽_cJ(c；X⁽ⁱ⁾)]

其中，▽是对应变量的偏导数，将算法训练终止得到的参数记为最优参数W*,b*,c*。

3.根据权利要求1所述的一种利用局部嵌入话题建模的文本表示方法，其特征在于，步骤4中构造映射函数的具体步骤为：

步骤1，通过最优参数W*,b*和c*，构造一个观察空间和低维流形空间之间的嵌入映射函数，嵌入映射函数为：

p(z_i|x)＝σ(W*x+b*)

其中，σ(.)是s型逻辑函数；

步骤2，利用编码网络抽取样本外文本的嵌入向量表示。