CN110209758B

CN110209758B - 一种基于张量分解的文本增量降维方法

Info

Publication number: CN110209758B
Application number: CN201910314107.6A
Authority: CN
Inventors: 向阳; 丁玲
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2021-09-03
Anticipated expiration: 2039-04-18
Also published as: CN110209758A

Abstract

本发明涉及一种基于张量分解的文本增量降维方法，通过将文本数据划分为多个子集并对每一个子集构建文本特征图簇，将其表示为二阶张量，然后将多个二阶张量加上特征维度组成三阶张量并对此三阶张量进行分解，根据分解后的关系矩阵可以得到降维后的文本特征是由哪些特征词及特征词关系组成，从而实现增量文本降维的目标。与现有技术相比，本发明具有高效降维、简单精确、适用于大量数据等优点。

Description

一种基于张量分解的文本增量降维方法

技术领域

本发明涉及机器学习与自然语言信息处理领域，尤其是涉及一种基于张量分解的文本增量降维方法。

背景技术

随着互联网、物联网、云计算等信息技术的发展，网络空间中的数据资源正以前所未有的速度不断地增长和积累，世界已经进入了网络化的大数据时代。大数据除在数据量上具有海量化特性以外，在数据属性上还具有离散化、多元化、非结构化等复杂特性，这导致数据“维度灾难”呈爆发趋势，其结果将严重影响数据分析和决策支持的准确性和效率。为了对数据进行更好的利用，需要对数据进行降维处理。数据降维是将数据从高维空间映射到低维空间，去除无关或冗余的数据，保留反映原数据本质的数据。利用降维后的数据进行数据搜索、数据处理、数据挖掘等任务，可以提高效率和准确率。

在互联网时代，文本数据是非常重要和广泛使用的一种数据形式之一，且具有维数高、数据量大、语义丰富等特点。现有的各种数据降维方法，如主成分分析法、线性判别分析、潜在语义分析等大都以统计理论为基础，在结构化数据降维方面效果颇佳，但是忽略了数据中蕴含的语义，往往导致降维结果偏差严重、准确率低下。不研究降维中语义保持问题，将导致语义丢失的降维结果，这对大数据应用将是致命的打击。因此，如何在拓展原有理论和方法的基础上，研究适用于大数据特征的新型数据降维理论与方法成为大数据时代的挑战。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于张量分解的文本增量降维方法。

本发明的目的可以通过以下技术方案来实现：

一种基于张量分解的文本增量降维方法，包括以下步骤：

1)将输入文本数据划分为多个子集，对每个子集进行文本特征图簇的构建，并将每个特征图簇表示为特征词-特征词的二阶张量形式；

2)在二阶张量的基础上增加一个特征维度，构成特征词-特征词-特征的三阶张量形式；

3)采用交替最小二乘法对三阶张量进行Tucker分解降维，获取用以表示各个维度上主成分之间关系的核心张量以及三个因子矩阵；

4)通过特征词维度、特征维度与降维后的关系矩阵获取降维后的文本特征，从而划分出文本特征中的特征词和特征词关系，实现文本增量降维。

所述的步骤1)中，将每个特征图簇表示为特征词-特征词的二阶张量形式具体为：

将文本特征图簇中的特征图按照特征图内的特征词之间的关系表示为|V|行|V|列的方阵形式，则将该|V|行|V|列的方阵作为一个二阶张量，其中，第一阶和第二阶均为唯一化后的特征词，二阶张量中的分量用以表示特征词之间的关系权值。

所述的步骤2)中，构成特征词-特征词-特征的三阶张量形式具体包括：

将多个时间点的文本特征图簇中的特征图形成的二阶张量一起合并为三阶张量；

或将新的文本特征图簇形成的三阶张量与上一个基于张量分解降维的文本特征图簇重构后得到的三阶张量合并为新的三阶张量。

所述的步骤3)中，三阶张量χ∈R^I×J×K的Tucker分解为：

其中，Α∈R^I×P、Β∈R^J×Q、C∈R^K×S分别为张量χ∈R^I×J×K在三个模上的主成分矩阵，即因子矩阵，P、Q、S为三个模上主成分的个数，

为核心张量，×_n为模-n乘运算，

表示外积运算，g_pqs为三阶张量

和矩阵A，B，C模-n乘运算中的系数，a_p、b_q、c_s分别为矩阵A、B、C中相应位置的元素。

所述的步骤3)中，交替最小二乘法的求解目标为：

所述的步骤4)具体包括以下步骤：

41)根据因子矩阵中的特征词-主成分矩阵Β∈R^M×Q和特征-主成分矩阵C∈R^K×S对特征图簇进行重构；

42)根据每个特征词t_m与各个主成分的关系权值，即矩阵B中的元素b_mq的值，获取与之关系最大的主成分，并将属于同一主成分的特征词合并；

43)根据每个特征f_n与各个主成分的关系权值，即矩阵C中的元素c_ns的值，获取与之关系最大的主成分，并将属于同一主成分的特征合并，实现文本特征的增量降维。

与现有技术相比，本发明具有以下优点：

1、高效降维：本发明创新性的提出利用Tucker分解的方法对数据量较大的文本数据或数据流进行增量文本降维方法，在保证数据进行高效降维的同时，还能维持数据中的语义信息。

2、简单精确：本发明将每一个文本特征图表示为二阶张量，将两个或多个文本集的所有文本特征图合并为三阶张量，通过张量Tucker分解得到新的特征与文本特征图中结点的关系，从而重构文本特征图簇，此方法简单高效，复杂度低，精确率高。

3、适用于大量数据：本发明提出的方法具有很好的扩展性，对大量和增量数据具有很好的效果。

附图说明

图1是基于张量分解的增量降维方法流程示意图。

图2是二阶张量合并三阶张量示意图。

图3是三阶张量的Tucker分解示意图。

图4是三阶张量的模-n展开示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

如图1所示，本实施例提供了一种基于张量分解的文本增量降维方法，具体包含以下步骤：

S1：将输入文本数据划分为多个子集，对每一个子集进行文本特征图簇的构建；

S2：在得到多个文本特征图簇后，将每个特征图簇表示成“特征词-特征词”的二阶张量；

S3：随着代表特征的特征图的增多，将二阶张量增加一个特征维度，组成“特征词-特征词-特征”的三阶张量；

S4：采用交替最小二乘法对此三阶张量进行Tucker分解，得到一个较小的核心张量，表示了各个维度上的主成分之间的关系，同时得到三个维度与降维后的主成分的关系矩阵；

S5：通过特征词维度、特征维度与降维后的关系矩阵可以得到降维后的文本特征是由哪些特征词及特征词关系组成，从而实现文本增量降维。

具体的，步骤S1包括需要将输入文本数据划分为多个子集，对每一个子集进行文本特征图簇的构建：对于较大数量的文本数据集，可以将文本集按照固定的数量N进行分割，N个文本为一个子集；对于在线数据，可以按照时间片对文本数据集进行分割，一个固定时间段内的文本数据为一个子集。基于文本特征图簇的增量降维方法就是对每一个子集先进行文本特征图簇的构建，以文本特征图为特征单位，得到每个子集的文本特征。将文本特征用特征图簇的形式表示，特征图簇的构建过程可看作是一个文本降维的过程。把特征图当作是文本特征的单位，文本数据的特征集合就形成了特征图簇。但是文本特征图簇的原始数据来源于文本数据，我们需要首先对其进行关系抽取，才能形成特征图簇。

具体的，步骤S2包括需要将多个文本子集的文本特征图簇表示成“特征词-特征词”的二阶张量。此方法中的基于张量的增量降维方法是一种无监督的降维方法，将文本特征图簇中的特征图按照特征图内的特征词之间的关系表示成|V|行|V|列的方阵的形式。此时，|V|行|V|列的方阵可以看作是一个二阶张量。随着时间的推移，每一个时间点得到的文本特征图簇中的所有特征图都可以表示为二阶张量，其中第一阶和第二阶均为唯一化后的特征词，二阶张量中的分量就表示了特征词之间的关系权值。

具体的，步骤S3包括将二阶张量增加一个特征维度，组成“特征词-特征词-特征”的三阶张量。可以将多个时间点的文本特征图簇中的特征图形成的二阶张量一起合并为三阶张量，也可以将新的文本特征图簇形成的三阶张量与上一个基于张量分解降维的文本特征图簇重构后得到的三阶张量合并为新的三阶张量。

进一步的，合并好的三阶张量就表示了这些时间段内的文本特征图簇，其中，每一个二阶张量为合并好的三阶张量在特征方向上的正面切片。但是由于每个特征图唯一化后的特征词集合元素和个数一般是不相同的，也就是说此时每个二阶张量的行列数是不同的，所以需要对这些二阶张量进行扩展，使得合并后的三阶张量具有相同的特征词。在一个二阶张量对应的矩阵中，对于原本没有的特征词对应的行和列的元素值为0。这样，就将|V_k|行|V_k|列的K个二阶张量都扩展为|V|行|V|列的二阶张量，其中，k＝1,2,…,K，K为特征图的个数，也就是要合并的文本特征图的个数。

需要说明的是，即使打乱特征图或者特征词的顺序，三阶张量内的元素值是不变的，只是位置有变，特征词与特征图、特征词之间的关系也并没有改变，因此不会影响降维效果。多个特征图的二阶张量合并为三阶张量的示意图见图2。

具体的，步骤S4包括采用交替最小二乘法对这个三阶张量进行Tucker分解。张量分解后，原张量被降维成一个比较小的核心张量，表示了各个维度上的主成分之间的关系。同时还会得到三个矩阵，分别是三个维度与降维后的主成分的关系矩阵。

进一步的，三阶张量χ∈R^I×J×K的Tucker分解为：

其中，×_n称为“模-n乘”，三阶张量

和矩阵Α∈R^I×P，Β∈R^J×Q，C∈R^K×S的模-n乘定义为：

其中，Α∈R^I×P，Β∈R^J×Q，C∈R^K×S可以看作是张量χ∈R^I×J×K在三个模上的主成分，P、Q、S是三个模上主成分的个数。

为核心张量，表示了不同成分之间的关系，也就是说，三阶张量χ通过Tucker分解降维成了一个比较小的三阶张量

因此，一个三阶张量就表示成一个核心张量分别模乘三个因子矩阵A、B、C。

需要说明的是，

表示外积，即对于张量

有：

x_ijk＝a_ib_jc_k

模-n乘计算就是运用了向量的外积。因此，三阶张量χ的元素值可以表示为

其中，i＝1,…,I，j＝1,…,J，k＝1,…,K。三阶张量的Tucker分解如图3所示。

进一步的，使用交替最小二乘法求解矩阵A、B、C之前，同样先要把三阶张量矩阵化，也就是三阶张量的模-n展开：

三阶张量的模-n展开示意图见图4。其中，

表示Kronecker积：

求解目标

等于max||χ×₁ A^T×₂ B^T×₃ C^T||，即

也就是最大化G_(n)。

当矩阵A、B、C分别为

和

的前P、Q和S个奇异向量时，便完成了目标的求解，P、Q和S为X₍₁₎、X₍₂₎、X₍₃₎的列秩时，是最优分解，P、Q和S小于X₍₁₎、X₍₂₎、X₍₃₎的列秩时，就不是最优分解，可以使用交替最小二乘法求解。因此，首先，矩阵A、B、C分别被初始化为X₍₁₎ ^TX₍₁₎、X₍₂₎ ^TX₍₂₎和X₍₃₎ ^TX₍₃₎的前P、Q和S个特征向量。然后使用交替最小二乘法重新求解矩阵A、B、C，先求出Y_(n)，

然后求解新的矩阵A、B、C为Y₍₁₎ ^TY₍₁₎、Y₍₂₎ ^TY₍₂₎和Y₍₃₎ ^TY₍₃₎的前P、Q和S个特征向量。重复以上过程，直到收敛。最终，张量被分解为

A,B,C，其中

为

具体地，步骤S5包括通过特征词维度、特征维度与降维后的关系矩阵可以得到降维后的文本特征是由哪些特征词及特征词关系组成，从而实现文本增量降维。

进一步的，对文本特征图簇形成的三阶张量χ∈R^|V|×M×K做Tucker分解后得到的因子矩阵中，本发明利用“特征词-主成分”矩阵Β∈R^M×Q和“特征-主成分”矩阵C∈R^K×S来做特征图簇的重构，Q、S为张量在模-2、模-3上的主成分个数，即特征词和特征降维后的个数。根据每个特征词t_m与各个主成分的关系权值，也就是矩阵B中的元素b_mq的值，找到与之关系最大的主成分，将属于同一主成分的特征词合并，根据每个特征f_n与各个主成分的关系权值，也就是矩阵C中的元素c_ns的值，找到与之关系最大的主成分，将属于同一主成分的特征合并，实现文本特征的增量降维。

具体过程如下：

本发明实施例提供的基于张量分解的文本增量降维方法，在按时间片或按固定数目定期增量得到多个文本特征图簇之后，将每一个特征图表示成“特征词-特征词”的二阶张量。当代表特征的特征图越来越多时，该方法增加一个特征维度，将两个或多个这样的二阶张量加上特征维度，组成“特征词-特征词-特征”的三阶张量，再对整个三阶张量进行分解从而实现降维。该方法具有精度高、效率高、对大数据集有效、简单方便等优点。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于张量分解的文本增量降维方法，其特征在于，包括以下步骤：

1)将输入文本数据划分为多个子集，对每个子集进行文本特征图簇的构建，并将每个特征图簇表示为特征词-特征词的二阶张量形式，将每个特征图簇表示为特征词-特征词的二阶张量形式具体为：

将文本特征图簇中的特征图按照特征图内的特征词之间的关系表示为|V|行|V|列的方阵形式，则将该|V|行|V|列的方阵作为一个二阶张量，其中，第一阶和第二阶均为唯一化后的特征词，二阶张量中的分量用以表示特征词之间的关系权值；

2)在二阶张量的基础上增加一个特征维度，构成特征词-特征词-特征的三阶张量形式，构成特征词-特征词-特征的三阶张量形式具体包括：

或将新的文本特征图簇形成的三阶张量与上一个基于张量分解降维的文本特征图簇重构后得到的三阶张量合并为新的三阶张量；

3)采用交替最小二乘法对三阶张量进行Tucker分解降维，获取用以表示各个维度上主成分之间关系的核心张量以及三个因子矩阵，三阶张量χ∈R^I×J×K的Tucker分解为：

其中，Α∈R^I×P、B∈R^J×Q、C∈R^K×S分别为张量χ∈R^I×J×K在三个模上的主成分矩阵，即因子矩阵，P、Q、S为三个模上主成分的个数，

为核心张量，×_n为模-n乘运算，

表示外积运算，g_pqs为三阶张量

和矩阵A，B，C模-n乘运算中的系数，a_p、b_q、c_s分别为矩阵A、B、C中相应位置的元素；

交替最小二乘法的求解目标为：

4)通过特征词维度、特征维度与降维后的关系矩阵获取降维后的文本特征，从而划分出文本特征中的特征词和特征词关系，实现文本增量降维，具体包括以下步骤：

41)根据因子矩阵中的特征词-主成分矩阵B∈R^M×Q和特征-主成分矩阵C∈R^K×S对特征图簇进行重构；