CN108470025A

CN108470025A - 局部话题概率生成正则化自编码文本嵌入表示方法

Info

Publication number: CN108470025A
Application number: CN201810235907.4A
Authority: CN
Inventors: 潘丽敏; 董思佳; 罗森林; 魏超
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2018-08-31

Abstract

本发明涉及局部话题概率生成正则化自编码文本嵌入表示方法，属于自然语言处理与机器学习领域。本发明首先实现文本集近邻图的构建，包括计算任意文本词对相似性权重、查找文本对的最大加权匹配距离、计算平均化最大加权匹配距离(NMD)相似度、根据NMD结果选择k最近邻并以NMD结果作为边权构建近邻图；然后通过近邻图上直推式多代理随机游走过程构建子空间，进行子空间判定；最后利用子空间的LDA模型生成伪文本，并将伪文本作为正则约束项，与真实文本一起作为自编码网络的重构对象，指导编码网络对抗局部近邻文本话题概率生成结构变化，构建光滑的仿射映射。本发明可以有效保持局部近邻文本话题概率生成结构的光滑性，从而构建光滑的仿射映射函数，增强样本外文本嵌入表示向量的类内紧凑性及类间分离性，提升文本分类、聚类等应用效果。

Description

局部话题概率生成正则化自编码文本嵌入表示方法

技术领域

本发明涉及局部话题概率生成正则化自编码文本嵌入表示方法，属于自然语言处理与机器学习领域。

背景技术

为了更易估计和使用文本语义特征，文本嵌入表示方法可以通过某种特定的仿射映射来构建文本的嵌入表示向量，其广泛应用于涉及文本聚类和信息检索的信息处理系统中。为了通过保持子空间文本话题的概率生成结构的光滑性，构建光滑的仿射映射函数，增强文本嵌入表示向量的局部光滑性，提升文本聚类和分类的效果，本发明将提供融合局部近邻文本话题概率生成结构的自编码网络文本嵌入表示方法。

现有基于流形学习的文本嵌入表示方法需要解决的基本问题是：如何弥补对于邻域判定十分敏感的缺陷，并有效保持局部近邻文本话题概率生成结构的光滑性。综观现有的基于流形结构特性的文本嵌入表示方法，通常可归为两类：

1.基于矩阵因子分解的流形文本嵌入方法

矩阵因子分解技术的主要思想是通过将给定的高维观测矩阵拆解为数个矩阵的乘积，从而找到一组转换基向量对文本进行嵌入表示，其中最著名的矩阵分解技术是SVD。现有的主要的方法是：

(1)浅层语义索引(Latent Semantic Indexing，LSI)

LSI在传统的向量空间模型的基础上发展起来，该方法的基本原理是通过对VSM表征的文本-词语矩阵进行奇异值分解(SVD)，并以奇异值最大k个特征向量作为潜在语义空间，构造文本的低维语义表示。LSI在SVD的基础上通过保留最大的k个奇异值(k<r)，而丢弃较小的奇异值，就得到k维的潜在语义空间，利用奇异值分解进行反运算，就可以使原矩阵塌陷，找到一个保留潜在语义同时又去除了一定噪声的近似矩阵。图1展示了LSI通过截断奇异值来实现文本降维表示的过程。其中，表示文本词语矩阵，表示文本语义矩阵，表示语义词语矩阵，表示奇异值矩阵。表示利用截断矩阵和S_k经过反运算后得到的近似矩阵。但是该方法奇异值存在负值的情况，使得浅层语义的解释性变差。

(2)非负矩阵分解(NMF)

该方法能够提升浅层语义的解释性，基本原理是给定一个数据矩阵其中x_i是表示每条数据的列向量，然后找到两个非负矩阵和通过这两个矩阵的线性组合可以较好的恢复原始的观测数据，

X≈UV^T (1)

为了衡量这种组合与真实数据的差异，可以利用如下两种形式的损失函数：

1)两个矩阵的均方误差(即Frobenius范数)，

2)两个矩阵的散度，

其中，Y＝[y_ij]＝UV^T。对于一个迭代周期内，参数更新公式如下：

对于参数更新公式如下：

如果限定K＜＜M且K＜＜N，那么U就确定了一个K维的低维空间，该空间以U的每个列向量为基底，而矩阵V的每一行向量就对应着原数据的一个低维表示。

虽然NMF改善了LSI中解释性不强的问题，但是非负约束的引入，限制所有操作必须在原始观测空间上执行，导致NMF无法有效的利用核方法的理论研究成果处理非线性数据的降维表示。

(3)概念分解(Concept Factorization，CF)

该方法在NMF的基础上，将每个基底向量u_k定义为原始数据的非负线性组合，计算公式如下：

其中，w_jk>0，令CF的目的是求解线性近似问题，

X≈UWV^T (8)

通过计算均方误差来衡量近似精确度，

CF模型中参数可以通过以下公式进行迭代式的更新，

其中，K＝X^TX，由于这种乘法规则仅涉及样本的内积操作，所以CF可以比较轻易的利用核方法。

2.基于神经网络的流形文本嵌入表示方法

(1)基于上下文信息构造文本嵌入表示向量

该类方法的代表工作是NNTR，其基本原理是首先将每个词汇进行one-hot编码，每篇文本表示为VSM形式，并将每个词汇与文本组成数据对，作为神经网络的输入，目标输出是二者之间的匹配得分，即如果词汇出现在当前的文本上下文中，那么神经网络就赋予一个较高的得分，反之赋予较低得分。这种做法能够将词汇与上下文之间的依赖关系融入到文本嵌入表示的过程中，相比于VSM等传统模型，可以较好的利用词汇间的语义依赖关系。

(2)基于信息重构构造文本嵌入表示向量

该类方法的代表工作是AE，且研究方法多基于AE学习框架提出。其中降噪编码网络模型(DAE)的基本原理是将含有噪声的信号作为自编码网络的输入，以初始的清洁信号为重构目标，通过自编码的重构学习实现降噪过程，从而更好的提取数据中的本质特征。收缩编码网络模型(CAE)的基本原理是将隐藏层权重的雅克比矩阵的F范数作为正则项，使得构建的文本嵌入表示向量能够对输入数据一定程度的扰动具有收缩性，进而提升文本聚类和分类的表现。LAE模型的基本原理是在AE的框架中加入图拉普拉斯正则项作为优化目标，能够更好的保持低维嵌入表示向量的局部不变性。HSAE模型的基本原理是将海森正则项与稀疏约束共同惩罚项对编码网络施加影响，使得自编码网络同样具有了捕捉数据集局部不变结构的特性。

综上所述，现有基于流形学习的文本嵌入表示方法主要通过保持局部近邻文本的几何结构的光滑性建立仿射映射，这种做法对邻域判定十分敏感，无法有效保持局部近邻文本话题概率生成结构的光滑性，难以有效估计样本外文本的语义特征。所以本发明提出融合局部近邻文本话题概率生成结构的自编码网络文本嵌入表示方法。

发明内容

本发明的目的是为构建针对样本外文本数据的光滑仿射映射以提高文本聚类和分类的效果，提出融合局部近邻文本话题概率生成结构的自编码网络文本嵌入表示方法。

本发明的设计原理为：首先实现文本集近邻图的构建，包括计算任意文本对词对相似性权重、查找文本对的最大加权匹配距离、计算平均化最大加权匹配距离(NMD)相似度、根据NMD结果选择k最近邻并以NMD结果作为边权构建近邻图；然后通过近邻图上直推式多代理随机游走过程构建子空间，进行子空间判定；最后利用子空间的LDA模型生成伪文本，并将伪文本作为正则约束项，与真实文本一起作为自编码网络的重构对象，指导编码网络对抗局部近邻文本话题概率生成结构变化，构建光滑的仿射映射。该发明的算法原理见图2。

本发明的技术方案是通过如下步骤实现的：

步骤1，构建文本集近邻图。

步骤1.1，对任意的文本对计算词对相似性权重。

步骤1.2，查找文本对的最大加权匹配距离。

步骤1.3，通过平均化最大加权匹配距离(NMD)计算文本相似度。

步骤1.4，由NMD结果选择k最近邻并以NMD结果作为边权构建近邻图。

步骤2，采用直推式多代理随机游走方法进行子空间判定。

步骤2.1，设定惩罚系数，利用给定的文本子集训练SVM分离超平面。

步骤2.2，对于每个类别集合记录多代理随机游走结果。

步骤2.3，预测每个近邻文本，记录所有满足预测结果与当前点类别一致的文本，保存选择的已经具有标签且类别一致的近邻文本，记录结果。

步骤2.4，对于原有集合和步骤2.3的结果矩阵中每一列组合情况执行直推式学习，直到找到一种组合使误差最小，指导每个“代理人”判定“落脚点”。

步骤2.5，更新惩罚系数，重新训练SVM分离超平面，并选择非支持向量文本加入到新的标签子集中，重复步骤2.3、2.4、2.5，得到辨识子空间。

步骤3，构建仿射映射。

步骤3.1，利用LDA对辨识子空间进行话题建模，计算伪文本的词分布。

步骤3.2，基于AE正则训练构建光滑仿射映射。

有益效果

相比于基于矩阵因子分解的流形文本嵌入方法，本发明可以有效解决样本外文本嵌入表示问题。

相比于基于神经网络的流形文本嵌入表示方法，本发明可以有效保持局部近邻文本话题概率生成结构的光滑性。

附图说明

图1为背景技术中LSI的奇异值截断降维过程原理图。

图2为局部话题概率生成正则化自编码文本嵌入表示方法的原理图。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合实施例对本发明方法的实施方式做进一步详细说明。

选取20newsgroups、Amazon reviews和RCV1公开数据集，其中20newsgroups包含20个不同主题的新闻讨论组，Amazon reviews由亚马逊网站上关于商品的140多万条评论组成，选取其中10类商品的相关评论，RCV1有超过80万个手动分类的新闻稿故事，选取其中3个子话题的文本。

为验证本发明方法所建立的参数化仿射映射能够提升样本外文本嵌入表示向量的光滑性且提升文本聚类和分类的效果，采用K-means算法进行文本聚类实验和1-NN算法进行文本分类实验。其中对于聚类实验，采用平均互信息(NMI)作为评价指标，对于分类实验，采用加权F值来评估最终结果的准确率。下面将对测试流程逐一说明。

具体流程为：

步骤1，构建文本集近邻图。

步骤1.1，输入一个包含m篇文本的文本集最近邻数目k值和词嵌入集合

步骤1.2，对于任意的文本对(x_i,x_j)，计算词对相似性权重，则δ_st＝max(σ(δ^(s))_t,σ(δ^(t))_s)。

步骤1.3，根据匈牙利算法查找文本对的最大加权匹配距离。

步骤1.4，计算NMD相似度，则

步骤1.5，根据文本对的NMD结果选择k最近邻并以NMD结果作为边权构建近邻图，得到文本集近邻图G＝(X,A)。

步骤2，采用直推式多代理随机游走方法进行子空间判定。

步骤2.1，给定文本集和近邻图，采用增量设置进行子空间划定，从训练集样本中随机选择30％带标签的数据构建初始的分离超平面H₀:Kw^T+b＝0，记作Disc-LDE-30％。

步骤2.2，对于每个类别集合，记作随机选择一个文本x_i作为起始点，记作U_t＝0＝[x_i…,x_i]^T，并开始多代理的随机游走过程，对于类别l，其多代理随机游走记作MARW^l。

步骤2.3，对于每一个MARW^l，在时间步骤时刻，多代理所处当前点的组合情况记作U_t，根据近邻图连通情况，随机的挑选当前点U_t的近邻文本，记作V_t，并利用SVM分离平面H_t-1对每个近邻文本执行预测，记录所有满足预测结果与当前点类别一致的文本，如果选择的近邻文本已经具有标签且类别一致，则直接保存，最后的结果记作它表示一个矩阵，每一列代表一种可能的“落脚点”组合情况。

步骤2.4，对于每一个MARW^l，在时间步骤时刻，采用t-1时刻设定的惩罚系数利用原有集合X^C和中每一列组合情况执行一个直推式学习，直到找到一种组合使取得最优的误差表现，并把此时的组合情况记作然后每个“代理人”游走到即

步骤2.5，对于每一个MARW^l，在时间步骤时刻，设定一个新的惩罚系数其中并利用重新训练SVM分离超平面，记作H_t，根据新的分离平面，选择那些非支持向量文本加入到新的标签子集中，重复步骤2.3、2.4、2.5，直到t＝last或小于一个极小值，算法结束，最终的辨识子空间成员记作

步骤3，构建仿射映射。

步骤3.1，利用LDA对进行话题建模，并计算伪文本的词分布，伪文本的生成表示为其中θ_i是关于伪文本的话题分布，是关于特定话题的词分布。

步骤3.2，基于AE正则训练构建光滑仿射映射。

步骤3.2.1，输入整个训练语料X，并随机初始化参数

步骤3.2.2，当没有满足终止条件时，对所有网络层设定Δw^(l)＝0，Δb^(l)＝0和Δc^(l)＝0，随机选取一个小的批量

步骤3.2.3，对于批量中任意的x_i，执行前向传递，计算每一层的激励输出值。

步骤3.2.4，计算关于输入数据的偏导数，则

步骤3.2.5，计算参数的改变量:

步骤3.2.6，更新参数

步骤3.2.7，构建仿射映射的参数

测试结果：采用K-means聚类算法进行实验时，对于20newsgroups，在50维时NMI达到67.24％，对于Amazon reviews，在100维时NMI达到66.52％，对于RCV1，在80维时达到71.62％。采用1-NN算法进行分类实验时，对于20newsgroups，在60％训练样本数据和180维时达到82.88％，对于Amazon reviews，在300维时达到73.66％，对于RCV1，在120维时达到72.84％。实验测试结果证明了本发明方法不仅增强了类内的紧凑性，而且提升了类间的分离特性，从而使得嵌入表示的辨识性得到了显著改善。本发明可以有效保持局部近邻文本话题概率生成结构的光滑性，从而构建光滑的仿射映射函数，增强样本外文本嵌入表示向量的类内紧凑性及类间分离性，提升文本分类、聚类等应用效果。

Claims

1.局部话题概率生成正则化自编码文本嵌入表示方法，其特征在于所述方法包括如下步骤：

步骤1，构建文本集近邻图；

步骤2，通过近邻图上直推式多代理随机游走过程构建子空间，进行子空间判定；

步骤3，利用子空间的LDA模型生成伪文本，并将伪文本作为正则约束项，与真实文本一起作为自编码网络的重构对象，指导编码网络对抗局部近邻文本话题概率生成结构变化，从而构建光滑的仿射映射，具体包括如下步骤：

步骤3.1，利用LDA对进行话题建模，并计算伪文本的词分布，伪文本的生成表示为其中θ_i是关于伪文本的话题分布，是关于特定话题的词分布；

步骤3.2，基于AE正则训练构建光滑仿射映射。

2.根据权利要求1所述的局部话题概率生成正则化自编码文本嵌入表示方法，其特征在于：步骤1中构建文本集近邻图的具体过程如下：

步骤1.2，对于任意的文本对(x_i，x_j)，计算词对相似性权重，则δ_st＝max(σ(δ^(s))_t，σ(δ^(t))_s)；

步骤1.3，基于匈牙利算法查找文本对的最大加权配距离；

步骤1.4，计算平均最大加权配距离(NMD)相似度，则

步骤1.5，根据文本对的NMD结果选择k最近邻并以NMD结果作为边权构建近邻图，得到文本集近邻图G＝(X，A)。

3.根据权利要求1所述的局部话题概率生成正则化自编码文本嵌入表示方法，其特征在于：步骤2中通过近邻图上直推式多代理随机游走过程构建子空间，进行子空间判定的具体过程如下：

步骤2.1，给定文本集和近邻图，采用增量设置进行子空间划定，从训练集样本中随机选择30％带标签的数据构建初始的分离超平面H₀：Kw^T+b＝0，记作Disc-LDE-30％；

步骤2.2，对于每个类别集合，记作随机选择一个文本x_i作为起始点，记作U_t＝0＝[x_i，...，x_i]^T，并开始多代理的随机游走过程，对于类别l，其多代理随机游走记作MARW^l；

步骤2.3，对于每一个MARW^l，在时间步骤时刻，多代理所处当前点的组合情况记作U_t，根据近邻图连通情况，随机的挑选当前点U_t的近邻文本，记作V_t，并利用SVM分离平面H_t-1对每个近邻文本执行预测，记录所有满足预测结果与当前点类别一致的文本，如果选择的近邻文本已经具有标签且类别一致，则直接保存，最后的结果记作它表示一个矩阵，每一列代表一种可能的“落脚点”组合情况；

4.根据权利要求1所述的局部话题概率生成正则化自编码文本嵌入表示方法，其特征在于：步骤3.2中AE正则训练构建光滑仿射映射的具体过程如下：

步骤3.2.1，输入整个训练语料X，并随机初始化参数

步骤3.2.3，对于批量中任意的x_i，执行前向传递，计算每一层的激励输出值；

步骤3.2.4，计算关于输入数据的偏导数，则

步骤3.2.5，计算参数的改变量:

步骤3.2.6，更新参数：

步骤3.2.7，构建仿射映射的参数