CN105718440B

CN105718440B - 基于聚合加权矩阵压缩算法的文本语义表示方法

Info

Publication number: CN105718440B
Application number: CN201410728902.7A
Authority: CN
Inventors: 卫金茂; 韦阳; 徐恒鹏; 樊文哲
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2014-12-03
Filing date: 2014-12-03
Publication date: 2019-01-29
Anticipated expiration: 2034-12-03
Also published as: CN105718440A

Abstract

本发明属于数据挖掘技术领域，具体提出了一种基于聚合加权矩阵压缩算法的文本表示方法。该方法通过构建全局平滑语境矩阵，弱化了语用习惯对单词语义的影响；利用单词向量聚合算法加权全局平滑语境，修正了单词向量权重度量方法；最后使用无穷范数压缩算法将全局平滑语境转化为向量来表征文本。相较于已有方法，由于保留了向量各维度的最大可能取值，因此更全面地表征了文本信息。

Description

基于聚合加权矩阵压缩算法的文本语义表示方法

技术领域

本发明属于数据挖掘技术领域，具体提出一种基于聚合加权矩阵压缩算法的文本表示方法。

背景技术

纯文本作为一种广泛存在的数据形式(不同类型的网页、数字化的图书、日志文件等等)，一直以来是自然语言处理、机器学习、人工智能等领域研究的重点。在现今网络数据不断膨胀的条件下，针对文本数据的分析处理技术显得愈发重要。传统文本处理技术的一个共同点是需要将以自然段落呈现的文本数据转换为可计算的数据形式。其中，将文本转化为固定大小的向量形式作为输入是许多文本处理技术的先决条件。以文本聚类分析为例，许多聚类算法的核心思想是，首先将文本转化为向量形式，再通过相似度比较算法比较文档向量两两之间的相似度，最后根据相似度计算结果将相似文档划分为一类。在此类文本聚类算法中，如何将文本转化为向量既是算法的先决条件，也是影响算法效果的关键因素。

文本表示方法的研究长久以来都是国内外许多学者的研究焦点。最早的文本表示法使用“词袋”模型，以自然语言中所有可能出现的单词作为维度，以每一个维度对应的单词在目标文档中出现的次数作为目标文档在该维度上的取值来构建文档向量。使用词袋模型生成的文档向量度量文档间相似度时，文档间重复出现的词越多，文档越相似。该模型的缺陷是当两个文档表达的语义相近，但使用不同的词进行描述时，模型不能发现这两个文档之间的相似性。针对这一问题，学者们提出了不同的解决方案。其中一种方案利用已有的单词向量生成方法，通过单词向量的加权累加生成文档向量。由于单词向量生成方法保证了同义词、近义词的单词向量位于词袋模型生成的特征空间中相邻的位置，因此由这些单词向量加权累加生成的文档向量也位于此特征空间中相邻的位置，从而保证了了语义相近的文档的表征向量也相似。然而，这种基于单词向量的文档向量生成方法通常关注于单词向量的生成方式，却忽略了单词向量的组合方式。加权累加方式倾向于使用权重较大的某些单词向量表征整篇文档，使得生成的文档向量信息缺失，更进一步造成了文档间相似度的错误估计。此外，现有方法在估计单词向量的权值时，并没有考虑单词向量本身的语义相似性，造成了权值估计的偏差。

发明内容

本发明旨在提出一种新的基于单词向量的文档向量生成方法，该方法侧重于对单词向量组合方式的改进。本发明首先通过对数平滑手段构造单词向量，提升了单词向量的语义表征能力；然后利用语料库级别的全局文档频信息和目标文档中的局部词频信息设计了单词向量聚合加权方法计算每个单词向量针对目标文档的权重，最后通过无穷范数求取，即最大值比较方法生成文档向量。该方法以单词向量间的相似性作为权值度量的依据，修正了单词向量权重的度量方法；充分比较了所有单词向量在相同维度的取值，不会盲目倾向于权重较大的单词，捕获了更多的语义信息，以期在实际应用中更具鲁棒性。

本方法首先根据给定的语料库生成单词向量，并保存由单词向量构成的全局平滑语境，具体步骤如下：

根据学界普遍接受的观点——语义相同的单词有相同的语境，量化后的语境是单词语义的有效表示方法。本方法以单词作为维度，以向量的形式量化单词的语义，通过统计单词与任意维度在给定语料库中的共现频率作为该单词在这一维度上的取值。如图1中所示，w_i，v_j是从语料库中抽取的单词，且w_i＝v_i。以单词v_j作为维度，图中矩阵的任意行向量对应单词w_i语义的量化，其中t_i，j是单词w_i与维度v_j的共现频率。这些行向量构成的矩阵被称之为全局语境。而本发明使用自然对数对共现频率进行了平滑处理，因此全局语境被进一步称之为全局平滑语境。图中所示是一个由m个单词向量构成的全局平滑语境矩阵，每一个单词向量的维度也为m。由于在后续每一文档向量的生成过程中均需要使用全局平滑语境，因此把全局平滑语境作为常量保存。

生成全局平滑语境后，在生成任意目标文档向量时，均需度量每一个单词向量针对此文档的权重。本发明考虑到同义词现象使得一些单词有相同或者相近的单词向量，也即是说，这些单词虽然在形式上不同，但它们的语义相同，在构建文档向量时的作用相同，因此应当有相同的权重。本发用以语义相近的单词集合中单个单词文档频的最大值作为集合所包含所有单词的初始权重。因此单词向量权重的计算包含三部分：将相似的单词向量聚为一簇、计算每一簇中文档频的最大值和最终权值的计算。其中前两部分合并为一步，具体步骤如下：

步骤一：单词向量聚合。本步骤采用层次聚类思想对单词向量进行聚合。算法初始化时令每个单词向量自为一簇，并建立映射表，记录向量与簇之间的对应关系，记每一簇的文档频为各自对应单词的文档频。算法首先计算所有向量两两之间的余弦距离。然后选取单词向量中距离最近的两个向量与(i＜j)，计算这两个向量的均值，并更新为该均值。同时，更新映射表，将单词向量与的簇编号均更新为i，并更新第i簇的文档频为向量与对应单词文档频的较大值。第三步需要计算所有向量与更新后的向量之间的余弦距离，并设定所有向量与之间的距离为无穷大。重复这一过程直至簇的数量达到预定值。图2展示了这一聚类过程。

步骤二：单词向量权重计算。步骤一提供了各个簇的文档频和簇与具体单词向量之间的对应关系映射表。在本步骤，首先针对目标文档计算每个单词在该文档中的词频；然后求取各个文档频的逆文档频；最后将单词词频与单词所在簇的逆文档频的乘积作为单词向量的权重。

本方法的最后步骤是利用单词向量的权值压缩全局平滑语境，生成文档向量，具体步骤如下：

依图1所示，全局平滑语境为m行m列的矩阵，针对目标文档将全局平滑语境中的单词向量与其在此目标文档中的权重进行乘法运算，得到加权单词向量。这些加权单词向量构成了新的语境矩阵，由于该矩阵考虑了单词在单个文档中的局部语境，被称之为局部语境矩阵。求取矩阵每一个列向量的无穷范数，m个列向量对应的m个无穷范数构成了新的文档向量。因此新的文档向量是一个维数为m的向量，每一维对应全局平滑矩阵的一个列向量的无穷范数。上述过程实际上求取了所有加权后单词向量在同一维度上的最大值作为文档向量在此维度上的取值。对于生成的文档向量，一个常规操作是对文档向量使用二范数进行归一化，以便消除文档长度不一对文档向量间比较结果的影响。本方法也采纳这一意见，因此后续步骤还包括：计算每一个文档向量的二范数；将文档向量与其对应的二范数进行除法运算，即向量中的每一维均除以该二范数进行归一化。

综上所述，本方法包括全局平滑语境构建、单词向量聚合加权和全局平滑语境压缩三部分。如图3所示，单词向量聚合加权计算包含了聚合单词向量，以便计算单词向量的文档频，和针对具体文档的单词向量权重生成两个关键步骤。全局平滑语境压缩部分的主要内容是使用无穷范数对局部语境矩阵进行压缩。本方法的优点在于通过对数平滑降低了单词使用频率，即语用习惯对语义表征的影响；认识到同义词或近义词的单词向量在特征空间中的同一性，修正了单词向量文档频的度量方法，从而得到了更精确的单词向量权重。传统的加权后累加方法以单词权重作为单词向量重要性的唯一标准，使得文档向量往往近似于某个或某些权重较大单词向量之和，而忽视了权重较小的单词向量，单词向量维度的取值大小在这一过程中没有发挥作用；与之不同，本方法通过采用无穷范数矩阵压缩方法，充分比较了每一维度在单词权重与维度取值相乘后的结果，保留了每一维度针对目标文档的最大可能取值，避免了文档向量趋同于个别单词向量，较好地保留了文档的信息。

附图说明

图1全局平滑语境示意图

图2单词向量聚合示例图

图3算法流程图

具体实施方法

一、与本发明有关的概念和定义。

1.词汇表

对于给定的语料库，由语料库中所有不同的单词v构成的集合称之为词汇表V。

2.文档内词频

对于任意单词w_i，其在任意文档d_k中出现的频率定义为文档内词频，统计方法为：

其中为w_i在文档d_k中出现的次数，l_k为文档d_k的长度。

3.文档频

对于任意单词w_i，其文档频定义为：

其中n为给定语料库中文档个数；n_i为给定语料库中包含单词w_i的文档的数目。

4.逆文档频

文档频倒数的自然对数一般被称为逆文档频：

5.共现频率

对于任意两个单词w_i和v_j，它们在给定语料库中共同出现的频率称之为共现频率，表示为t_i，j，其统计方法为：

其中m＝|V|为词汇表中单词的数目。

6.单词向量

对于目标单词w_i，以词汇表V中的所有单词为维度构成特征空间，以w_i和任意维度v_j的共现频率为w_i在维度v_j上的取值构成的特征向量称之为单词向量：

7.全局语境

以单词向量为行向量，由词汇表中所有单词对应的单词向量构成的矩阵称之为全局语境：

8.文档向量

对于目标文档d_i，以词汇表V中的所有单词为维度构成特征空间，以任意维度v_j在d_i中的权值为d_i在维度v_j上的取值构成的特征向量称之为文档向量：

其中ω_i，j为单词v_j在文档d_i中的权重。

二、与本发明有关的数学定义

1.向量间余弦相似度

对于任意两个向量和其余弦相似度定义为：

其中

2.向量间余弦距离

对于任意两个向量和其余弦距离定义为：

由于向量间余弦相似度的取值范围为[0，1]，所以向量间余弦距离的取值范围也为[0，1]，且向量间余弦相似度越大，向量间余弦距离越小，反之亦然。另外，余弦距离具有对称性，即

3.一范数

对于任意向量其一范数定义为：

4.二范数

对于任意向量其二范数定义为：

通常，将简写为

5.无穷范数

对于任意向量其无穷范数定义为：

6.向量与标量的乘积

对于任意向量其与标量a的乘积为：

7.向量与标量的除法

对于任意向量其与标量a的除法为：

8.二范数归一化

对于任意向量使用二范数对其进行归一化的过程为：

归一化可保证向量的长度为1，即向量在特征空间中对应的点到原点的欧氏距离为1.

三、具体实施步骤

1.全局平滑语境的生成。

根据定义6可知，生成全局平滑语境的核心是度量词语间的共现频率。以此为目标，算法1以原始文档集合作为输入，将其转化为由文档向量构成的文档矩阵D，并计算每篇文档的长度，最后生成全局平滑语境W。

依照步骤2.1，算法首先使用parse()函数解析每一篇文档，统计文档中每一个单词的出现次数，并生成文档向量：

如定义2中所述，为单词v_i在文档d_k中出现的次数，v_i∈V.

所有解析后的文档向量存储在变量D中，构成了一个文档矩阵。步骤3使用rowNorm()函数求取D中行向量的一范数，从而得到每个文档的长度：

L＝(l₁，l₂，...l_n).

步骤4使用context()函数，以D和L作为输入，按照定义5计算单词间的共现频率，并依据定义7生成全局平滑语境。

表1 全局平滑语境生成算法

2.单词向量聚合加权。

算法2以算法1生成的文档矩阵D、文档长度L和全局平滑语境W作为输入，计算全局平滑语境中每一个单词向量针对目标文档的权值。该算法的核心是度量每一个单词向量对于目标文档的重要程度。此重要程度由两部分构成，第一部分是单词向量对应单词在整个语料库中的逆文档频，第二部分是对应单词在目标文档中的出现次数。

考虑到同义词和近义词现象的存在，本方法取语义相近的单词向量对应的单词集合中的最大文档频作为这些单词向量的一致文档频。算法2的第一部分(表2中步骤5至步骤10)即是这一目标的实现过程。该过程采用层次聚类的思想发现单词向量中相似单词向量的集合。

在算法的初始化阶段，步骤5定义了一个向量clusterNo，向量的长度等于单词向量的个数，依照单词向量的次序，clusterNo存储了每个单词向量所属的类别。初始时，每个向量各自为一个类别。步骤6定义了向量docFreq，用于存储包含单词向量对应单词文档的数量，该数量由函数countDocFreq()以文档矩阵D作为输入进行计算。Dist变量记录了各个类别的中心向量两两之间的距离。而clusterCenter记录了每个类别的中心向量，由于初始时各个向量自为一类，因此类别中心向量为单词向量本身。

步骤9使用余弦距离度量了初始时各类别中心向量之间的距离。由数学定义2可知，余弦距离具有对称性，因此Dist(j，i)＝Dist(i，j)。

表2 单词向量聚合加权算法

步骤10采用迭代方法，每次将最相似的两个类别进行聚合，当类别数目达到指定数目时算法停止。其中10.1的fimdNearest()函数寻找当前所有类别中最相似的两个类别i和j；而10.2计算将i和j合并后的新类别的类中心，函数length(clusterNo＝＝i)用于计算类别i中单词向量的数目；步骤10.3至10.8分别用于更新单词向量当前所属类别；类别之间的距离和单词向量当前文档频。

步骤11依据定义2，通过文档矩阵D内包含的单词在文档中出现次数除以L中记录的文档长度，更新文档矩阵D使得文档向量的权值为单词文档内词频。

最后，步骤12将根据定义4计算的单词j的逆文档频与文档矩阵中单词j对应的权值相乘，进一步更新文档矩阵D。

3.全局平滑语境压缩。

本部分利用算法1和算法2生成的全局平滑语境W和加权后文档矩阵D，生成最终的文档向量，所有生成的文档向量重新存储在文档矩阵D中。

本部分算法的详细步骤如表3中所示。通过步骤13.1和13.2算法遍历文档矩阵获取任意单词j在当前目标文档i中的权重D(i，j)，同时遍历全局平滑语境，得到单词j的单词向量cW(j，：)，并对其加权，得到加权单词向量cW(j，：).D(i，j)。针对当前文档i的所有加权单词向量构成的矩阵cW，步骤13.3使用columnNorm()函数求取矩阵每一列的无穷范数，从而得到文档向量在该维度的取值。根据定义，此无穷范数即列向量的最大值，而原矩阵的列向量是所有单词向量在同一维度上的取值，因此该无穷范数即所有单词向量在同一维度上的最大取值。如步骤13.4所示，此时再次使用rowNorm()函数对生成的文档向量进行归一化，并将最终结果更新到文档矩阵D中。

表3 全局平滑语境压缩算法

综上所述，算法1、2和3构成了本发明的主要步骤，这些步骤的核心流程如附图3算法流程图所示。图中第一步，生成全局平滑语境矩阵对应于算法1中所述步骤；聚合单词向量计算文档频对应于算法2中步骤5至步骤10；计算单词向量在文档中权重对应于步骤11至步骤12；局部语境压缩是指将加权后的全局平滑语境转化为一个文档向量，对应于算法3的步骤13.1至步骤13.4。最后一步文档向量的归一化对应于步骤13.6。至此，得到本发明的目标输出，算法结束。

Claims

1.基于聚合加权矩阵压缩算法的文本语义表示方法，其特征在于，所述方法包括：

全局平滑语境生成方法，全局平滑语境是由单词向量构成的矩阵，而单词向量是单词语义的量化表示，具体生成步骤如下：

步骤一：以单词作为维度，以向量的形式量化单词的语义，通过统计单词与任意维度在给定语料库中的共现频率作为该单词在这一维度上的取值，假设w_i，v_j是从语料库中抽取的单词，w_i是目标单词，v_j是任意维度，则单词w_i与维度v_j的共现频率t_i，j为单词w_i在维度v_j上的取值，其度量方法如下：

其中n为给定语料库中文档个数，m为语料库中单词的数目，为单词w_i在文档d_k中出现的次数，l_k为文档d_k的长度；如上式所示，在统计单词频率的基础上，使用自然对数对统计结果进行平滑处理，从而弱化了语用习惯对统计结果的影响；

步骤二：通过重复执行步骤一计算语料库中所有单词的单词向量，这些单词向量构成的矩阵被称之为全局平滑语境，假设语料库中共有m个单词，则单词向量的维数为m，单词向量的数目也为m，构成的全局平滑语境为m×m阶的方阵；

单词向量聚合加权，内容是，同义词现象使得一些单词有相同或者相近的单词向量，将这些近似的单词向量看作一个集合，使用集合中所有单词文档频的最大值作为集合所包含所有单词的文档频，具体步骤如下：

步骤一：单词向量聚合，本步骤采用层次聚类思想对单词向量进行聚合，算法初始化时令每个单词向量自为一簇，并建立映射表，记录向量与簇之间的对应关系，记每一簇的文档频为各自对应单词的文档频，算法首先计算所有向量两两之间的余弦距离，然后选取单词向量中距离最近的两个向量与i＜j，计算这两个向量的均值，并更新为该均值，同时，更新映射表，将单词向量与的簇编号均更新为i，并更新第i簇的文档频为向量与对应单词文档频的较大值，第三步需要计算所有向量与更新后的向量之间的余弦距离，并设定所有向量与之间的距离为无穷大，重复这一过程直至簇的数量达到预定值；

步骤二：单词向量权重计算，步骤一提供了各个簇的文档频和簇与具体单词向量之间的对应关系映射表，在本步骤，首先针对目标文档计算每个单词在该文档中的词频，然后求取各个文档频的逆文档频，最后将单词词频与单词所在簇的逆文档频的乘积作为单词向量的权重；

全局平滑语境压缩，其目标是生成文档向量，具体步骤如下：

步骤一：全局平滑语境为m×m阶的方阵，针对目标文档将全局平滑语境中的单词向量与其在此目标文档中的权重进行乘法运算，得到加权单词向量，由于加权后的单词向量矩阵考虑了单词在单个文档中的局部语境，被称之为局部语境矩阵；

步骤二：求局部语境矩阵每一个列向量的无穷范数，m个列向量对应的m个无穷范数构成了新的文档向量，因此新生成的文档向量是一个维数为m的向量，上述过程概括为下式：

其中ω_i，j为由单词向量聚合加权得到的单词v_j在文档d_i中的权重，t_j，k为单词向量在维度k上的取值，也就是说，对于文档向量它的第k维度上的取值等于所有加权后单词向量在第k维度上取值的最大值；

步骤三：计算每一个文档向量的二范数，将文档向量与其对应的二范数进行除法运算以便归一化文档向量。