CN108595706B

CN108595706B - 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置

Info

Publication number: CN108595706B
Application number: CN201810443084.4A
Authority: CN
Inventors: 陈小军; 王大魁; 时金桥; 白离; 胡兰兰; 文新; 张闯; 马建伟
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2022-05-24
Anticipated expiration: 2038-05-10
Also published as: CN108595706A

Abstract

本发明涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置。该基于主题词类相似性的文档语义表示方法包括：1)使用词向量模型对语料进行训练，得到词向量；2)在语义空间内对词向量进行聚类；3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离，将得到的距离作为待表示文档的语义表示。进而，通过计算文档的语义表示向量之间的相似性，实现文档的分类。本发明依据文本的语义信息和单词频率等信息，通过WMD模型计算文本单词和聚类集合之间的转移代价，将文本表示成一个低维稠密、包含语义信息的向量，能更好地表示文本信息，分类任务准确性高，可应用在信息检索、文本分类等自然语言处理任务中。

Description

一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置

技术领域

本发明属于信息技术领域，具体涉及一种基于主题词类相似性的文档语义表示方法、文本分类方法和相应的装置。

背景技术

文本向量表示是文本挖掘和自然语言处理等领域的关键技术之一，良好的文档语义表示方法，能够提升信息检索、文本分类等任务的效果。

本发明是基于主题词类相似度的文档语义表示方法，是针对词袋模型的高维稀疏、无语义所提出的改进，目前以词袋模型为基础的文档表示方法有：

1)传统词袋模型表示方法(Bag of words,BOW)，将单词出现的频率作为文本表示。

2)词频-逆文档频率模型表示方法(Term Frequency–Inverse DocumentFrequency,TF-IDF)，该模型是在BOW上进行改进的，不仅考虑文本中单词的频率，同时考虑该单词在整个语料库中的重要程度。

3)模糊词袋模型表示方法(Fuzzy bag of words,FBOW)，利用词向量表示文本语义信息，将单词与基础词表的余弦距离作为文本表示。

现有的词袋模型文档表示方法存在一些不足，其中BOW模型仅考虑单词的出现频率，不考虑单词的语义信息；TF-IDF模型通过词频和逆文档频率的组合将文本表示成向量，并没有考虑文本的语义信息，容易遭受数据稀疏的问题；而FBOW模型使用词语在语义空间中的位置关系来表示词语之间的相关性，而没有从文档整体所表示的语义信息进行表示。因此，文档语义向量表示方法还有很大的提升空间。

发明内容

本发明的目的是提出一种基于主题词类相似性的文档语义表示方法、文本分类方法和相应的装置，利用自然语言处理领域的词向量模型、词袋模型和WMD(Word Mover’sDistance)模型等语义分析技术，将文本表示为低维稠密具有语义信息的向量的文档语义表示。

本发明采用的技术方案如下：

一种基于主题词类相似性的文档语义表示方法，其特征在于，包括以下步骤：

1)使用词向量模型对语料进行训练，得到词向量；

2)在语义空间内对词向量进行聚类；

3)使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离，将得到的距离作为待表示文档的语义表示。

进一步地，步骤1)包括：

1-1)将语料集进行数据清洗，去除语料中的标点、停用词信息；

1-2)使用词向量模型训练语料，生成词向量。

进一步地，步骤2)使用高斯混合模型进行所述聚类，包括：

2-1)估计词向量由每个高斯分布生成的概率；通过极大似然估计更新高斯混合模型的参数；并重复迭代，直到高斯混合模型的似然函数收敛为止；

2-2)利用高斯混合模型预测词向量类别，得到词向量类别分布。

进一步地，根据时间、空间、词表大小对采用高斯混合模型进行聚类的聚类大小进行动态设置。

进一步地，步骤3)包括：

3-1)对输入的待表示文档doc进行数据清洗；

3-2)计算doc的权重矩阵d＝[d₁,d₂,…,d_m]，其中m是doc出现的词项个数，d_i代表第i个词项在doc中出现的频率；

3-3)使用WMD算法计算K个聚类类别与doc之间的距离z₁,z₂,…,z_K；

3-4)输出doc的向量表示z＝[z₁,z₂,…,z_K]。

一种基于主题词类相似性的文档语义表示装置，其包括：

词向量训练模块，负责使用词向量模型对语料进行训练，得到词向量；

聚类模块，负责在语义空间内对词向量进行聚类；

语义表示模块，负责使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离，将得到的距离作为待表示文档的语义表示。

一种文本分类方法，包括以下步骤：

1)采用上面所述方法对文档进行语义表示，得到文档的语义表示向量；

2)通过计算文档的语义表示向量之间的相似性，实现文档的分类。相似度大于一定阈值时可认为是一类。

一种文本分类装置，其包括：

文档语义表示模块，负责采用上面所述方法对文档进行语义表示，得到文档的语义表示向量；

分类模块，负责通过计算文档的语义表示向量之间的相似性，实现文档的分类。

与现有技术相比，本发明的有益效果是：

本发明依据文本的语义信息和单词频率等信息，通过WMD模型计算文本单词和聚类集合之间的转移代价，将文本表示成一个低维稠密、包含语义信息的向量，能更好地表示文本信息；与现有的BOW模型、TF-IDF模型和FBOW模型在文本分类上做了对比，本发明在分类任务准确性上都高于这三者，提高了文本分类任务的效果。本发明能够应用在信息检索、文本分类等自然语言处理任务中。

附图说明

图1为本发明实施例中文档语义表示方法的流程图。

图2为本发明与BOW模型、TF-IDF模型和FBOW模型在两个数据集Reuters和WebKB的文本分类任务表现，横轴显示数据集，纵轴显示文本分类准确率。

图3为本发明的聚类大小对文本分类效果的影响分析，横轴x代表聚类大小为100*x，纵轴表示文本分类准确率。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本实施例的基于主题词类相似性的文档语义表示方法，主要包含两个方面：

1)词袋模型聚类：首先使用词向量模型对语料进行训练，得到词向量；将训练好的词向量使用高斯混合模型(Gaussian Mixture Model,GMM)在语义空间内对其进行聚类，将相似语义的单词归属到一个类别中。每一个聚类类别都代表一组语义相关的单词。其中语料可以是英文语料、中文语料(需进行分词)或者其它语言的语料。

2)文本语义表示：将每一个聚类类别视为一个独立的聚类“文本”，使用WMD模型计算文档和每个聚类类别之间的文本转移代价(即WMD距离)。文档的语义表示为给定文档与各个类别“文本”之间的WMD距离，每个维度是该维度所对应的聚类“文本”与给定文本之间的WMD距离。

在词袋模型聚类过程中，使用GMM模型对词向量进行聚类。GMM模型是一种软聚类方法，它不单纯把数据分配给某一个类别，而是计算该数据所属类别的概率。GMM算法假设数据服从高斯分布，通过多个高斯分布拟合数据分布，通过增加聚类大小，GMM算法可以任意拟合任何连续的数据分布。GMM算法假设有K个高斯分布组成，每个高斯分布称为一个“Component”，这些Component线性加成在一起就组成GMM的概率密度函数。具体流程如下：

设输入参数t是训练词向量语料集，K为聚类大小，输出为语料词向量类别分布c和词向量wv。

1.将语料集进行数据清洗，去除语料中标点、停用词信息；

2.训练语料，生成词向量wv。

3.估计词向量由每个Component生成的概率；通过极大似然估计更新GMM模型参数；重复迭代前面两步，直到GMM模型的似然函数收敛为止。

4.用上述GMM模型预测词向量类别，得到词向量类别分布c。

由此可见采用GMM模型对词向量进行聚类，仅仅依赖聚类大小K的设置。实际应用中可根据时间、空间、词表大小进行动态设置。如果设置过小，会影响文本语义表示准确性，设置过大，文本语义效果提升不大，当设置聚类大小为词表10％左右效果较好。

在得到词向量类别分布之后，本发明使用WMD算法计算给定文本和聚类类别之间的距离，以此作为文本语义表示。WMD模型是Kusner等人在2015年提出的Word Mover’sDistance语义相似性计算模型。该模型基于词向量(word2vec)和线性规划模型EMD(EarthMover’s Distance)，该模型不仅包含词语在文章中的上下文信息，而且解释性强，具有稳定的结果。

在文本语义表示生成步骤中，将词袋模型聚类步骤中得到的每个聚类类别视为一个独立的“文本”，该文本中含有一系列语义相近的单词，然后计算待表示文本和每个聚类类别之间的WMD距离，得到的结果用以表示待表示文本和该聚类类别之间的语义相似性。对每个聚类类别重复上述操作，最终得到文本的语义表示。具体生成步骤如图1所示，包括：

设输入参数doc,wv,c,K，其中doc是待表示文本，wv是词向量，参数c是词向量类别分布，K是上述聚类类别大小。

输出结果为文本语义向量z＝[z₁,z₂,…,z_K]，K是聚类大小

1.对输入文本进行数据清洗，去掉文本中标点、停用词信息；

2.计算doc的权重矩阵d＝[d₁,d₂,…,d_m]，其中m是doc出现的词项个数，d_i代表第i个词项在文本doc中出现的频率，计算公式是

3.计算聚类类别与doc之间的距离，现在计算第k个类别与doc之间的距离：

1)设该聚类类别c_k含有n个词项，c_k的权重矩阵为d′＝[d′₁,d′₂,…,d′_n]，n是该类别中的单词个数，其中d′_i代表第i个词项在聚类类别c_k中出现的频率，计算公式是

2)根据doc中出现的单词集合W和聚类类别c_k中出现的单词集合W’，计算集合W和集合W’之间欧式距离矩阵C，矩阵C中的元素c_ij代表doc中第i个单词与聚类类别c_k中第j个词之间的欧式距离。

3)利用WMD算法计算doc和c_k之间的距离，

计算公式如下：

目标函数

约束条件:

4)重复上述步骤1)，2)，3)，直至向量z的K个元素z₁,z₂,…,z_K全部生成。

4.输出doc的向量表示z＝[z₁,z₂,…,z_K]。

下面提供一个具体应用实例。该实例以A为词向量训练语料，以B为待表示文档，假设B＝“The children speaks in the classroom.”：

1)对A进行数据清理，将A中标点符号，如逗号、冒号、分号等去掉；去除A中的停用词，如the、or、is等。

2)使用Google word2vec工具进行训练，得到词向量模型，该模型中每一项对应一个单词和它的向量表示，如

[apple 5.191660 5.183789 1.440009 0.429530 -8.055683 3.9533510.854346 -2.413922 -0.924511 3.460100 -1.180899 -0.173409……-5.3767856.944289 0.971594 -1.491963]

3)根据单词的向量表示，使用GMM算法对词向量模型中的单词进行分类，将每个单词分配给概率最大的类别，如对于单词“apple”，它的类别概率分布时[0.12 0.48 0.360.04]，那么它就被分配给第1类，因为apple属于第1类别的概率最大。

4)对B进行数据清洗，得到B的词项为{children,speak,classroom}。B的权重矩阵

5)循环计算各个类别与B之间的距离，例如计算类别c与D的距离。

a)首先计算c的权重矩阵。假设类别c中有5个词项，为{today,speak,hello,kid,teacher}，c的权重矩阵

b)计算文本B和聚类c单词之间的欧式距离矩阵C，例如C₁₂是文本B中第1个单词“speak”对应的词向量和聚类类别c中第2个单词“hello”对应的词向量之间的欧氏距离。

c)根据文本B的权重矩阵d，类别c的权重矩阵d’，和距离矩阵C，利用WMD算法计算二者之间的距离。

d)计算下一个类别与文本B之间的距离，直至所有的类别都被计算完成。

6)将所有聚类类别与文本B之间的距离顺序存储在向量z中，z即是文本B的语义表示向量。

下面通过两个实验来验证本发明方法的效果：

在第一个实验中，本发明与BOW模型、TF-IDF模型和FBOW模型在两个数据集Reuters和WebKB上，针对文本分类任务做了实验对比。可以由图2看出，本发明的实验效果高于其余三个模型，提高了文本分类的准确率，表明本发明提出的文本语义表示方法能够更加准确地表示文本信息。

在第二个实验中，使用数据集Reuters和WebKB，统计本发明中设置不同的聚类大小对文本分类效果的影响，实验结果表明本发明在低维度下具有良好的语义表示。表1为本发明在不同聚类规模下在数据集Reuters和数据集WebKB上的文本分类准确率统计。图3为聚类大小对文本分类效果的影响分析。可以由表1和图3看出，在聚类大小为1000左右(约为词项个数的10％)时，文本分类准确率达到较高值，若继续增加聚类大小，文本分类准确率基本保持不变。由准确率的变化趋势可以看出，若设置聚类规模太小，会损害文本分类的准确率，若设置太大，并没有明显改善文本分类效果，反而会增加文本表示的维度，实验统计当聚类大小为原有词项的10％左右较好。

表1.不同聚类大小下文本分类准确率统计

本发明中GMM分类方法也可以替换成其他分类方法，如Kmeans分类方法等。

本发明另一实施例提供一种基于主题词类相似性的文档语义表示装置，其包括：词向量训练模块，负责使用词向量模型对语料进行训练，得到词向量；聚类模块，负责在语义空间内对词向量进行聚类；语义表示模块，负责使用WMD算法计算待表示文档和聚类得到的每个类别之间的距离，将得到的距离作为待表示文档的语义表示。

本发明另一实施例提供一种文本分类方法，包括以下步骤：

本发明另一实施例提供一种文本分类装置，其包括：文档语义表示模块，负责采用上面所述方法对文档进行语义表示，得到文档的语义表示向量；分类模块，负责通过计算文档的语义表示向量之间的相似性，实现文档的分类。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。