CN108427762A

CN108427762A - 利用随机游走的自编码文档表示方法

Info

Publication number: CN108427762A
Application number: CN201810235975.0A
Authority: CN
Inventors: 罗森林; 赵飞; 赵一飞; 潘丽敏; 魏超
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2018-08-21

Abstract

本发明涉及利用随机游走的自编码文档表示方法，属于自然语言处理与机器学习领域，目的是为解决文本话题建模问题。本文采用自编码网络，对于给定文本集，首先利用稀疏自编码网络构建文本的稀疏话题编码；然后基于文本相似性度量构建文本近邻图，通过对文本近邻图施加低秩约束生成随机游走结构，并以随机游走结构的条件访问概率计算局部近邻文本的加权系数；最后利用局部近邻文本的稀疏话题编码加权嵌入表征文本流形的内在几何结构，并作为正则约束项融合到自编码网络的训练中，建立参数化的话题编码网络对样本外文本进行话题建模。本发明具有准确率高、运行效率高、可对样本外话题建模等特点，适用于要求高精度的文本话题建模领域，对文本表示的发展具有很大的推动作用，具有很好的应用价值和推广价值。

Description

利用随机游走的自编码文档表示方法

技术领域

本发明涉及局部加权嵌入正则化自编码文本话题建模方法，属于自然语言处理与机器学习领域。

背景技术

文本话题建模通过构建话题(隐含变量)和词语(观测变量)的概率生成关系来发现隐含在文本集背后的解释因子，并基于变量之间的概率依赖关系构造文本的低维话题编码，从而高效的存储、表征文本的语义信息。文本话题建模具有较好的解释性和坚实的理论基础，一直受到广泛关注并应用于许多重要的自然语言任务，如情感分析、聚类、文献检索、统计机器翻译等。

一种优良的文本表示需要满足三种特性：1.局部光滑性，即对局部近邻文本变化保持不变性，这种不变形通常代表了对文本语义的合理抽象，有助于构造表现文本内在语义信息的特征表示；2.辨识性，即更好的体现文本之间的相似性、差异性；3.扩展性，即能根据已有文本集建立的模型、知识更好的推广到未知的样本外文本数据。作为文本挖掘技术的基础，关于文本表示的研究可以追溯到20世纪60年代，按照表示形式，可以分为向量模型、序列模型和图模型：

1.基于向量模型的文本表示形式

向量模型是最早提出的一种文本表示形式，它基于信息检索领域的一个简单设定，“词袋假设或词袋模型(Bag-of-Words，BoW)”，即将文本或文本集看作是一堆相互独立词语的集合，而不关心词语之间的顺序搭配关系。基于这种简化，一篇文本就可以通过全局欧式的词袋空间中的一个向量或坐标点进行表示。

2.基于序列模型的文本表示形式

序列模型是将文本看作字符串的序列集合，通过对字符串进行切分、组合等操作，构造出不同的特征表示文本。代表性方法是1994年William提出的N-gram文本表示方法，该方法采用字符的Bi-gram、Tri-gram和Quad-gram作为基本特征组件文本的表示向量，并计算它们逆文档频率作为特征加权。然而，由于字符串组合的多样性，该方法无法有效的降低表示向量的维度。实际上，N-gram方法所采用的特征中通常会存在无意义的字符组合，这些特征不仅不会带来有效的语义信息表示，还会导致特征组合复杂性。为此，Milios于2002年采用C-vlaue计算方法过滤无意义N-gram特征，C-vlaue是一种融合了语言知识的频率计算方法，可以有效挑选出那些嵌套在较长字符串中的有意义的N-gram组合。2012年，Grigori提出一种sn-gram特征，它通过句法树选择那些存在句法依赖关系的字符串作为特征来构建文本的表示向量，进一步提升了表示向量的语义信息。

3.基于图模型的文本表示形式

图模型的基本思想是使用节点来表示文本中的词语或特征，使用边来表示词语或特征之间的关系，并采用图论的相关方法来度量文本间相似性，如最大公共子图等。基于图模型的文本表示方法对于提升文本分类和聚类起到了积极的效果。图模型文本表示方法避免了VSM中各维度独立的问题，但是图模型中节点数量的增加会带来比较严重的高维稀疏问题，因此控制节点数量与表示效果的平衡对于图模型十分重要。

发明内容

本发明的目的是基于流形结构的局部光滑特性利用图的随机游走执行文本话题建模以改善话题建模的质量，提升话题编码的辨识效果，提出利用随机游走的自编码话题建模方法(AERTM)。

本发明的设计原理为：首先利用稀疏自编码网络构建文本的稀疏话题编码；然后基于文本相似性度量构建文本近邻图，通过对文本近邻图施加低秩约束生成随机游走结构，并以随机游走结构的条件访问概率计算局部近邻文本的加权系数；最后利用局部近邻文本的稀疏话题编码加权嵌入表征文本流形的内在几何结构，并作为正则约束项融合到自编码网络的训练中。

本发明的技术方案是通过如下步骤实现的：

步骤1，对文本集进行稀疏话题编码。

步骤1.1，由文本的布尔向量生成文本话题编码的后验概率。

步骤1.2，由文本话题编码的后验概率生成词语分布。

步骤1.3，最小化真实词语分布与生成词语分布之间的伯努利交叉熵。

步骤2，随机游走近邻加权。

步骤2.1，计算文本之间的相似度。

步骤2.2，利用文本之间相似度构建近邻图。

步骤2.3，在近邻图上执行随机游走。

步骤2.4，利用稀疏约束优化模型参数。

步骤3，局部加权近邻融合。

步骤3.1，利用KL散度构建稀疏话题编码。

步骤3.2，使用mini-batch进行优化。

有益效果

近年来的许多方法通过保持全局欧式的词袋空间中特定的统计结构，来挖掘文本集背后隐藏的解释性因子。然而很多研究表明文本数据集中分布在一个光滑的低维流形周围。因此，基于流形结构的局部光滑特性执行文本话题建模，能够改善话题建模的质量，提升话题编码辨识效果。

本文发明采用利用随机游走的自编码文档表示方法，该方法利用低秩近似随机游走结构的条件访问概率计算局部近邻文本的加权系数，并联合稀疏约束指导话题编码进行局部加权嵌入，具有更高的精度以及良好的样本外扩展性，具有很好的应用价值和推广价值。

附图说明

图1为本发明利用随机游走的自编码文档表示方法的原理图。

图2为具体实施方式中文本建模实验结果。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合实例对本发明方法的实施方式做进一步详细说明。

具体流程为：

步骤1，对文本集进行稀疏话题编码。

步骤1.1，给定一篇文本的布尔向量X⁽ⁱ⁾，那么该文本话题编码的后验概率p(t_i|X)可以通过一个由非线性的sigmoid函数组成编码网络生成得到，形式如公式(1)。

p(t_i|X)←f_θ(X)＝σ(WX+b) (1)

步骤1.2，给定文本话题编码Y⁽ⁱ⁾，词语分布Z⁽ⁱ⁾中词语w_j出现的后验概率p(w_j|Y)可以通过一个由非线性的sigmoid函数组成解码网络生成得到，形式如公式(2)。

p(w_j|Y)←g_θ′(Y)＝σ(W^TY+c) (2)

步骤1.3，采用公式(3)所示的伯努利交叉熵对真实词语分布X与生成词语分布Z之间的差异进行度量(自我重构)，记作H_B(X，Z)。通过最小化二者之间的差异，训练自编码网络获得更优的拟合真实词分布的能力。

其中，W是编码网络中的参数，而解码网络中的参数是W^T，即与编码网络是转置共享的关系，b是编码网络的偏置，c是解码网络的偏置。为了自我重构误差的最小化，可以通过误差反向传播算法优化相关参数。随着重构误差的降低，编码网络和解码网络可以更好捕获文本集隐含的数据生成结构。

步骤2，随机游走近邻加权。

步骤2.1，使用softmax函数度量文本中任意词对的相似距离，并使用匈牙利算法进行最大加权，进一步通过公式(4)计算文本之间的相似度。

步骤2.2，给定一个无向的加权图G＝(V，E)，其中，V表示所有点集，E表示图中节点之间的连边集合，为文本之间的相似度，令A记作转移矩阵，a_u，v表示在一个时间步骤内，由节点u到v的转移概率，它与文本之间的相似度成正比。

步骤2.3，AERTM利用一个文本近邻图上t时间步的随机游走过程，选择那些受访节点(文本)作为当前文本d_i的近邻集合，通过公式(5)计算d_i与其近邻之间的条件概率加权系数，

p(d_j|d_i)＝∑_tp^t(d_j|d_i) (5)

其中，p^t(d_j|d_i)表示游走在第t时间步骤时刻访问文本d_j(文本近邻图中的节点)的概率，它反映了d_i与d_j之间的一种概率因果联系，即由节点d_i出发经过一段时间游走之后，到达d_j的可能性。

步骤2.4，利用低秩约束正则化来对截断进行近似，其计算公式如(6)所示：

min{rank(P¹)，...rank(P^t)}，

根据矩阵秩的特性，rank(AB)≤min{rank(A)，rank(B)}，矩阵P⁰是满秩矩阵，所以有公式(7)成立，

min{rank(P¹)，...rank(P^t)}＝min{rank(A)，...rank(A^t)}≤min{rank(A)}，

对公式(7)的最小化可以通过对它的上界的最小化进行松弛化求解。另外，为了表征文本近邻的几何结构，对于那些近邻文本应该具有更高的转移概率，转移概率定义如公式(8)所示：

s.t.，∑_ua_u，v＝1，∑_va_u，v＝1 (8)

其中，dist(X^(u)，X^(v))是关于X^(u)和X^(v)之间差异性的距离度量函数。考虑到文本对X^(u)和X^(v)之间可能出现低共现词汇的情况，这里采用NMD文本相似性距离度量，定义如下，dist(X^(u)，X^(v))＝1-NMD(X^(u)，X^(v))。所以，最终的优化目标如公式(9)所示：

s.t.，∑_ua_u，v＝1，∑_va_u，v＝1 (9)

对公式(9)进行优化。

步骤3，局部加权近邻融合。

步骤3.1，给定文本d_i，如果存在函数P(d)能够提供d_i与其近邻间的概率依赖关系，那么，在执行文本话题建模的过程中应该重视这种概率依赖关系。所以，除了要拟合给定文本中词语的真实分布以外(自我重构)，AERTM还利用局部近邻文本话题几何加权维持近邻文本之间的概率依赖关系。具体来说，AERTM的目标函数如公式(5)所示：

和λ是两个非负的正则化超参数，用于控制正则项对这个模型的影响，h表示话题数目。而“流形正则项”与文本d_i的K最近邻有关，记作N(d_i)＝{...，S^(j)，...S^(K)}，其中S^(j)表示第j个近邻文本，w_i，j是通过随机游走结构近似。

步骤3.2，使用mini-batch进行优化。

测试结果：实验基于利用随机游走的自编码文档表示方法，对样本外文本概率生成结构建模，本发明在大数据量情况下，均可明显提升文本话题建模效果，效果见图2。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.利用随机游走的自编码文档表示方法，其特征在于所述方法包括如下步骤：

步骤1，首先利用稀疏自编码网络构建文本的稀疏话题编码；

步骤2，然后基于文本相似性度量构建文本近邻图，通过对文本近邻图施加低秩约束生成随机游走结构，并以随机游走结构的条件访问概率计算局部近邻文本的加权系数；

步骤3，最后利用局部近邻文本的稀疏话题编码加权嵌入表征文本流形的内在几何结构，并作为正则约束项融合到自编码网络的训练中，建立参数化的话题编码网络对样本外文本进行话题建模。

2.根据权利要求1所述的局部加权嵌入正则化自编码文本话题建模方法，其特征在于：步骤2中给定一个无向的加权图G＝(V，E)，其中，V表示所有点集，E表示图中节点之间的连边集合，为文本之间的相似度，令A记作转移矩阵，a_u，v表示在一个时间步骤内，由节点u到v的转移概率，它与文本之间的相似度成正比。

3.根据权利要求1所述的局部加权嵌入正则化自编码文本话题建模方法，其特征在于：步骤2中AERTM利用一个文本近邻图上t时间步的随机游走过程，选择那些受访节点(文本)作为当前文本d_i的近邻集合，通过公式(1)计算d_i与其近邻之间的条件概率加权系数，

p(d_j|d_i)＝∑_tp^t(d_j|d_i) (1)

4.根据权利要求1所述的局部加权嵌入正则化自编码文本话题建模方法，其特征在于：步骤2中利用低秩约束正则化来对截断进行近似，其计算公式如(2)所示：

min{rank(P¹)，...rank(P^t)}，

根据矩阵秩的特性，rank(AB)≤min{rank(A)，rank(B)}，矩阵P⁰是满秩矩阵，所以有公式(3)成立，

min{rank(P¹)，...rank(P^t)}＝min{rank(A)，...rank(A^t)}≤min{rank(A)}，

对公式(3)的最小化可以通过对它的上界的最小化进行松弛化求解，另外，为了表征文本近邻的几何结构，对于那些近邻文本应该具有更高的转移概率，转移概率定义如公式(4)所示。

s.t.，∑_ua_u，v＝1，∑_va_u，v＝1 (4)。