CN102929906B

CN102929906B - 基于内容特征和主题特征的文本分组聚类方法

Info

Publication number: CN102929906B
Application number: CN201210285275.5A
Authority: CN
Inventors: 卢美莲; 李佳珊; 王明华; 叶小卫; 刘金亮; 曹一鸣
Original assignee: BEIJING GOZAP TECHNOLOGY Co Ltd; Beijing University of Posts and Telecommunications
Current assignee: BEIJING GOZAP TECHNOLOGY Co Ltd; Beijing University of Posts and Telecommunications
Priority date: 2012-08-10
Filing date: 2012-08-10
Publication date: 2015-07-22
Anticipated expiration: 2032-08-10
Also published as: CN102929906A

Abstract

本发明提供一种基于内容特征和主题特征的文本分组聚类方法，包括：提取所述文本的内容特征和主题特征；将所述主题特征转换为二进制主题特征；采用相同的分组算法对文本基于所述内容特征和所述二进制主题特征依次进行分组，获得层次化的文本分组结果；对所述文本分组结果进行聚类。使用本发明提供的基于内容特征和主题特征的文本分组聚类方法对新闻文本进行分组聚类，可以令新闻文本的聚类结果在兼顾新闻事件的针对性的基础上避免聚类结果过多的缺陷。

Description

基于内容特征和主题特征的文本分组聚类方法

技术领域

本发明涉及信息处理技术，尤其涉及一种基于内容特征和主题特征的文本分组聚类方法。

背景技术

文本是信息的主要载体，随着互联网的发展，浏览网络上及时发布的新闻文本成为人们获取信息的重要手段，当前网络上的新闻文本信息数量巨大，为了使人们能够快速、方便地导航和浏览新闻，需要对新闻文本使用文本聚类技术进行聚类。

文本聚类技术能够将文本集自动划分成多个簇，使得处于同一个簇中的文本具有一定的相似性，不同簇中的文本之间的相似性尽可能低。目前的文本聚类方法通常按照以下流程处理：（1）文本特征选择和抽取，（2）文本相似性度量，（3）分组聚类。目前的文本聚类技术主要是基于文本的内容特征或主题特征分别进行聚类，且大多采用向量空间模型来表示文本的内容特征。对于新闻文本而言，文本的内容特征可以很好表达该新闻事件的针对性，但内容特征向量维度很高且具有稀疏性，其中还包含影响聚类效率和准确率的噪声等。而主题特征主要采用主题模型训练的方法来提取，主题特征可以有效避免基于内容特征的聚类中聚类结果过多的问题，但对于新闻事件的针对性不强。

由于内容特征与主题特征的特征数据表达方式不同，无法应用同一种分组聚类的方法基于文本的两种特征数据共同对文本进行分组聚类，目前对新闻文本分组聚类没有很好的解决办法。

发明内容

本发明提供一种基于内容特征和主题特征的文本分组聚类方法，以实现对新闻文本基于内容特征和主题特征依次进行分层次的分组聚类。

本发明提供一种基于内容特征和主题特征的文本分组聚类方法，包括：

提取所述文本的内容特征和主题特征；

将所述主题特征转换为二进制主题特征；

采用相同的分组算法对文本基于所述内容特征和所述二进制主题特征依次进行分组，获得层次化的文本分组结果；

对所述文本分组结果进行聚类。

进一步地，上述文本分组聚类方法，将所述主题特征转换为二进制主题特征，具体可以为：

将主题特征T_i=(w₁,w₂,...,w_m)转换为二进制主题特征T_i′=(w′₁,w′₂,...,w′_m)，

其中，θ是用于判定所述新闻文本是否具有第i种主题上的信息的参数。φ是用于将m维的主题特征转换到二进制空间上的转换参数。

本发明通过对主题特征向量的转化，可以使用相同的分组方法和聚类方法对文本基于内容和主题两种特征依次进行分组聚类，应用本发明提供的分组聚类方法对新闻文本进行聚类，可以令新闻文本的聚类结果在兼顾新闻事件的针对性的基础上避免聚类结果过多的缺陷。

附图说明

图1为本发明基于内容特征和主题特征的文本分组聚类方法实施例一的流程图；

图2为本发明基于内容特征和主题特征的文本分组聚类方法实施例二的流程图；

图3为本发明基于内容特征和主题特征的文本分组聚类方法实施例三的流程图；

图4为本发明基于内容特征和主题特征的文本分组聚类方法具体实施例的流程图。

具体实施方式

图1为本发明基于内容特征和主题特征的文本分组聚类方法实施例一的流程图，如图1所示，本实施例对文本分组聚类的方法可以包括：

步骤S101，提取文本的内容特征和主题特征。

具体地，在提取文本的内容特征和主题特征之前，还需要对文本进行分词处理，上述分词技术为本领域技术人员可知悉的，此处不再赘述。经过分词处理后，将每篇新闻文本分别转化为文本的词语序列，通过选择短语长度，将词语序列转化成内容词语序列，使用特征提取技术将其转化为二进制空间向量形式，即二进制内容特征向量。通过对词语序列进行主题模型训练，生成主题特征向量。

优选地，在本实施例中使用Shingling算法将文本的词语序列转化为shingle片段，将shingle片段加入shingle库，用shingle库中的编号和该shingle在该文本中出现的次数来生成一个该文本的空间向量，用该空间向量表示文本的内容特征，并将其转化到二进制空间上，生成二进制内容特征向量。

优选地，在本实施例中使用LDA主题模型对文本的词语序列进行训练，首先给定主题数，应用LDA主题模型生成该文本的主题特征向量，主题特征向量中的每个值代表该文本在每一主题下的权重。

步骤S102，将上述主题特征转换为二进制主题特征。

具体地，将步骤S101中生成的主题特征向量转化到二进制空间上，生成二进制主题特征向量，使主题特征向量与内容特征向量处于同一个空间上，以便使用相同的分组聚类方法对文本基于内容特征和主题特征依次进行分组聚类。

步骤S103，采用相同的分组算法对文本基于上述内容特征和上述二进制主题特征依次进行分组，获得层次化的文本分组结果。

具体地，由于步骤S101和步骤S102中将内容特征向量与主题特征向量都转换为二进制空间上的向量表达形式，可以使用同一种分组算法基于内容特征和主题特征依次对文本进行分组，其中基于主题的分组结果建立在基于内容的分组结果的基础上，最后输出层次化的分组结果。

步骤S104，对上述文本分组结果进行聚类。

具体地，根据步骤S103对文本基于内容特征向量和主题特征向量的分组结果，使用聚类算法对文本进行聚类，输出文本聚类结果。

本实施例，通过对主题特征向量的转化，可以使用相同的分组方法和聚类方法对文本基于内容和主题两种特征依次进行分组聚类。应用本发明提供的分组聚类方法对新闻文本进行聚类，可以令新闻文本的聚类结果在兼顾新闻事件的针对性的基础上避免聚类结果过多的缺陷。

进一步地，上述步骤S102将主题特征转换为二进制主题特征的方法，具体可以为：

其中，θ是用于判定所述文本是否具有第i种主题上的信息的参数。φ是用于将m维的主题特征转换到二进制空间上的转换参数。

具体地，首先在步骤S101中选取m个主题，对每个文本生成主题特征向量T_i，T_i=(w₁,w₂,...,w_m)，其中w_i表示该文本在第i个主题下的权重，且然后在步骤S102中设定参数θ、φ将特征向量T_i转换为特征向量T_i′，T′_i=(w′₁,w′₂,...,w′_m)，

参数θ用于判定文本是否具有第i种主题上的信息，对于某文本，当一个主题出现的频率大于等于该值时，才认为该文本中包含该主题信息，参数φ是一个转换参数，用于将m维的主题向量转换到二进制空间上。可以将转化后的主题特征向量中的每个主题下的权值看作该主题出现的次数，即可认为有一个新的向量T_i″，该向量用主题的编号与该主题出现的次数来表示。

使用上述将主题特征转换为二进制主题特征的方法，可以将主题特征向量的表达形式转化为和内容特征向量相同的表达形式，以便于用相同的方法对其进行分组聚类。

图2为本发明基于内容特征和主题特征的文本分组聚类方法实施例二的流程图，如图2所示，在对实施例一中对文本基于内容特征和二进制主题特征依次进行分组之前，还可以包括：

步骤S201，将内容特征向量转换为二进制空间上的第一稀疏向量，并将二进制主题特征向量转换为二进制空间上的第二稀疏向量。

具体地，将上述方法实施例一中表示内容特征的二进制空间向量进行编码处理将其转化为二进制空间上的第一稀疏向量，将上述方法实施例一中的主题特征向量用上述编码方式将其转化为二进制空间上的第二稀疏向量。

步骤S202，采用Minhash算法对上述第一稀疏向量和第二稀疏向量进行降维处理。

具体地，获取内容特征向量的特征总数P，选取Minhash值长度M，生成M对随机数(a_j,b_j)，构成一个hash函数(a_jx,b_j)modP，对上述第一稀疏向量的每一维进行hash，其中x表示第一稀疏向量中每一维的维度，得到最小的hash值作为该文本的第j个Minhash值，最终生成M维的Minhash向量，即第一Minhash签名向量。

相同地，对第二稀疏向量进行上述操作，将其转化为M维的Minhash向量，即第二Minhash签名向量。

步骤S203，对文本基于上述内容特征和二进制主题特征依次进行分组，包括：对文本基于内容特征对应的上述第一稀疏向量和二进制主题特征对应的上述第二稀疏向量进行分组。

具体地，对文本基于上述步骤S202中生成的第一稀疏向量和第二稀疏向量使用相同的分组算法进行分组操作。

本实施例，通过将内容特征向量和二进制主题特征向量转化为第一稀疏向量和第二稀疏向量使得可以使用Minhash算法将其降维，降维后生成的第一Minhash签名向量和第二Minhash签名向量维度较低，对文本基于所述第一Minhash签名向量和第二Minhash签名向量进行分组聚类可以降低运算复杂度，提高分组聚类的效率。

图3为本发明基于内容特征和主题特征的文本分组聚类方法实施例三的流程图，如图3所示，本实施例对文本分组聚类的方法可以包括：

步骤S301，采用LSH算法对文本基于第一稀疏向量进行相似度分组，获得基于内容特征的文本分组结果。

具体地，对上述方法实施例二中生成的第一Minhash签名向量进行分段LSH处理，选取相似度门限值τ₁，根据选择整数b₁和r₁，其中b₁为Minhash的分段数，r₁为每段中包含的Minhash值个数，将第一Minhash签名向量分成b₁段，对每段r₁个Minhash值进行hash，hash值相同即分到同一bucket中，对文本集进行b₁次该过程，每篇文本可被分到b₁个bucket中，对每个bucket内的文本对象进行相似度检验，去除相似度未达到门限τ₁的文本对象，并对组内文本对象相似度高于τ₁的bucket进行合并。最后留下的每个bucket即为一个分组，被去除的相似度未达到门限τ₁的文本即为无内容分组文本。由此得到基于内容特征的文本分组结果。

步骤S302，确定上述基于内容特征的文本分组结果中各组的中心文本。

具体地，步骤S301对基于内容特征分组的结果中每组可能包括数个文本，在每组中的数个文本中选取一个文本为该组的中心文本。选取中心文本的方法具体可以为：计算该组中每一文本与另外所有文本的相似度之和，该相似度之和最大的文本即为该组的中心文本。上述方法也可以理解为：在用空间向量表示的特征空间中，一个文本的特征向量与其他各文本的特征向量距离之和为最小值的文本即为该组的中心文本。

步骤S303，采用上述LSH算法对上述基于内容特征的文本分组结果中各组的中心文本以及未分组的文本基于所述第二稀疏向量描述的文本进行相似度分组，获得基于主题特征的文本分组结果。

具体地，将步骤S302中确定的分组结果中每组的中心文本的第二稀疏向量与未分组的文本的第二稀疏向量组成向量矩阵，选取相似度门限值τ₂，采用上述LSH算法对其进行相似度分组。得到基于主题特征的分组与无主题分组文本。

步骤S304，确定上述基于主题特征的文本分组结果中各组的中心文本。

具体地，采用步骤S302中确定中心文本的方法，确定步骤S303分组后各组的中心文本。

步骤S305，对上述文本分组结果进行聚类，包括：对上述基于主题特征的文本分组结果中各组的中心文本进行聚类。

具体地，将步骤S304中确定的各组的中心文本和步骤S303中无主题分组的文本的主题特征向量组成特征矩阵，采用现有的聚类算法对其进行聚类，输出最终聚类结果。

本实施例，通过LSH算法首先对文本基于内容特征对应的第一稀疏向量进行分组，然后对文本基于二进制主题特征对应的第二稀疏向量进行分组，有效降低了分组数量，提高了分组聚类的效率。

进一步地，上述步骤S301获得基于内容特征的文本分组结果之后，还可以包括：对基于内容特征的文本分组结果进行冗余过滤处理；上述步骤S303获得基于主题特征的文本分组结果之后，还可以包括：对基于主题特征的文本分组结果进行冗余过滤处理。

具体地，设定相似度门限值τ₃，比较步骤S301获得的基于内容特征的文本分组结果中各分组之间的相似度，将相似度高于门限值τ₃的分组合并，得到过滤后的基于内容特征的文本分组结果，对该结果进行步骤S302所述的确定分组中心文本操作。设定相似度门限值τ₄，比较步骤S303获得的基于主题特征的文本分组结果中各分组之间的相似度，将相似度高于门限值τ₄的分组合并，得到过滤后的基于主题特征的文本分组结果，对该结果进行步骤S304所述的确定分组中心文本操作。最终得到基于主题特征的文本分组的结果。

通过上述对基于内容特征和基于主题特征的文本分组结果进行冗余过滤处理的操作，有效降低了分组后的分组数量，提高了后续分组聚类算法的效率。

进一步地，上述步骤S301采用LSH算法对文本基于第一稀疏向量进行相似度分组，获得基于内容特征的文本分组结果之前，还可以包括：采用LSH算法对全部文本基于内容特征进行相似度分组，删除各组中的重复文本；采用LSH算法对删除重复文本后的文本基于内容特征进行相似度分组。

具体地，设定相似度门限值τ₅，该相似度门限值τ₅为一高相似度门限，用以检测相似度很高的文本，将其认为是重复文本。采用上述LSH算法对文本基于第一稀疏向量生成的第一Minhash签名向量进行相似度分组。将相似度高于门限值τ₅的文本分为一组，选取每组中长度最大的文本作为该组的代表文本，将每组的代表文本和未分组的文本的内容特征对应的第一Minhash签名向量作为代表文本内容特征的向量，采用上述实施例三的分组聚类方法对其进行分组聚类。

通过上述LSH算法对全部文本基于内容特征进行相似度分组，删除各组中的重复文本，有效降低了内容特征的数量，提高了分组聚类的效率。

需要说明的是，上述实施例中相似度门限值τ₁、τ₂、τ₅可以为Jaccard系数（杰卡德系数），Jaccard系数为样本集的交集与样本集的合集的比值，Jaccard系数常用来表征文本特征的相似度。相似度门限值τ₃、τ₄可以为cosine系数（余弦系数），cosine系数也被用于度量两个词的相关性。

下面通过一具体实施例说明本发明提供的基于内容特征和主题特征的文本分组聚类方法的具体实现步骤。图4为本发明基于内容特征和主题特征的文本分组聚类方法具体实施例的流程图，如图4所示，

步骤S401，创建文本集。本实施例从多个中文门户网站上提取了3天内的15万条新闻文本作为文本集。

步骤S402，分词处理。本实施例通过中国科学院的ICTCLAS汉语分词系统对文本集进行分词处理，保留标记为n、nr、nrf、ns、nsf、nt、nz、nl的词，将文本表示成词语序列，并剔除词语数少于5的文本。每篇文本可表示为：<T_i,<词语₁,词语₂，...,词语_d>>，其中T_i为第i条文本的编号，d为包含的词数。剔除词语数少于5的短新闻后，剩余约14万条文本。

步骤S403，提取内容特征向量。选取Shingle长度为2，即按文中顺序将每两个词组成一个shingle片段，加入shingle库，用shingle库中的编号和该shingle在文本中出现的次数将文本表示为空间向量形式。每条文本可表示为：

< T_{i}, < < {shingle}_{i 1}, f_{i 1} >, < {shingle}_{i 2}, f_{i 2} >, \cdot \cdot \cdot, < {shingle}_{{is}_{i}}, f_{{is}_{i}} > > >

其中T_i为第i条文本的编号，f_ij为文本i第j个shingle出现的次数，s_i为文本i包含的shingle数。

步骤S404，将内容特征向量转化为第一稀疏向量。将步骤S403中文本的特征向量转化为：

<T_i,<shingle₁_1,shingle₁_2,...,shingle₁_f_s1,...,

shingle_s-1,shingle_s-2,...,shingle_s-f_ss>>

其中T_i为第i条文本的编号，shingle_s-f_ss表示将第s个shingle扩展成f_ss个二进制空间上的shingle。将文本集表示成一个由14万个第一稀疏向量组成的内容特征矩阵。

步骤S405，提取主题特征向量。选取主题数为150，通过LDA方法进行主题模型训练，每条文本可表示为：

<T_i,<w_t1,w_t2，...,w_t150>>

其中w_tk表示该文本在第k个主题下的权重，且

步骤S406，将主题特征向量转换为二进制主题特征向量。设定参数θ、φ对主题特征向量进行转化：

<T′_i,<w′_t1,w′_t2,...,w′_t150>>

其中，

将转化后的主题向量中的每个主题下的权值看作该主题出现的次数，即：

<T_i,<<主题₁,w′_t1>,<主题₂,w′_t2>,...,<主题₁₅₀,w′_t150>>>

即为二进制主题特征向量。

步骤S407，将二进制主题特征向量转化为第二稀疏向量。按照步骤S404中的方法将二进制主题向量转化为第二稀疏向量。将文本集表示成一个由14万个第二稀疏向量组成的主题特征矩阵。

步骤S408，对第一稀疏向量和第二稀疏向量降维。选取Minhash值长度M=150，生成150对随机数(a_L，b_L)，获取内容向量的特征总数P，构成一个hash函数(a_Lx,b_L)modP，对第一稀疏向量的每一维进行hash，其中x表示第一稀疏向量中每一维的维度，得到最小的hash值作为该文本的第L个Minhash值，最终生成150维的Minhash向量，即第一Minhash签名向量。将文本集表示成一个14万行，150列的第一Minhash矩阵。使用上述方法将第二稀疏向量转化为第二Minhash签名向量，并将文本集表示成一个14万行，150列的第二Minhash矩阵。

步骤S409，删除重复文本。设定重复文本的Jaccard系数门限为0.5，根据得分段数b₁=10，每段包含的minhash值个数r₁=4，采用LSH算法对第一Minhash矩阵进行计算，得到重复文本数为28972，将重复文本结果存入数据库。每组重复文本中选取长度最大的文本作为该组的代表文本。

步骤S410，对文本基于内容特征进行分组。将非重复的文本的内容特征向量和重复文本分组中的代表文本的内容特征向量组成第三Minhash矩阵，设定内容相似文本的Jaccard系数门限为0.2，根据得分段数b₂＝50，每段包含的minhash值个数r₂＝3，采用LSH算法对第三Minhash矩阵进行计算，得到文本基于内容特征分组数为29361个，无分组的文本75786个，将文本基于内容特征分组结果存入数据库。每组选取中心文本作为该组的代表文本。

步骤S411，对文本基于主题特征进行分组。将步骤S410中无分组的文本的主题特征向量和所有内容分组的代表文本的主题特征向量组成第四Minhash矩阵，设定主题相似文本的Jaccard系数门限为0.25，根据得分段数b₃=50，每段包含的minhash值个数r₃=3，采用LSH算法对第四Minhash矩阵进行计算，得到文本基于主题特征分组数为53468个，无分组的文本335个，将文本基于主题特征分组结果存入数据库。每组选取中心文本作为该组的代表文本。

步骤S412，对文本进行聚类。将无主题分组文本和主题分组的代表文本的主题特征向量组成特征矩阵。采用快速聚类的方法对文本基于该特征矩阵进行聚类，得到1031个聚类。

通过本具体实施例的描述可知，通过本发明提供的分组聚类方法对采集到的新闻文本进行分组聚类后，将提取的15万条新闻文本转化为1031个聚类，聚类数量较少，并且由于进行了冗余过滤、重复删除等操作，聚类的准确性也较高。用户在上网进行新闻浏览时，可以在1031个聚类中选择感兴趣的聚类进行针对性浏览，并且避免了浏览到描述重复内容的新闻文本。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于内容特征和主题特征的文本分组聚类方法，其特征在于，包括：

提取所述文本的内容特征和主题特征；

将所述主题特征转换为二进制主题特征；

对所述文本分组结果进行聚类；

所述将所述主题特征转换为二进制主题特征，具体为：

将主题特征T_i＝(w₁,w₂,...,w_m)转换为二进制主题特征T_i'＝(w′₁,w′₂,...,w′_m)，

其中，θ是用于判定所述文本是否具有第i种主题上的信息的参数，φ是用于将m维的主题特征转换到二进制空间上的转换参数。

2.根据权利要求1所述的方法，其特征在于，对文本基于所述内容特征和所述二进制主题特征进行分组之前，还包括：

将所述内容特征转换为二进制空间上的第一稀疏向量，并将所述二进制主题特征转换为二进制空间上的第二稀疏向量；

采用Minhash算法对所述第一稀疏向量和第二稀疏向量进行降维处理；

对文本基于所述内容特征和所述二进制主题特征依次进行分组，包括：

对文本基于所述内容特征对应的所述第一稀疏向量和所述二进制主题特征对应的所述第二稀疏向量进行分组。

3.根据权利要求2所述的方法，其特征在于，所述对文本基于所述内容特征对应的所述第一稀疏向量和所述二进制主题特征对应的所述第二稀疏向量进行分组，包括：

采用LSH算法对文本基于所述第一稀疏向量进行相似度分组，获得基于内容特征的文本分组结果；

确定所述基于内容特征的文本分组结果中各组的中心文本；

采用所述LSH算法对所述基于内容特征的文本分组结果中各组的中心文本以及未分组的文本基于所述第二稀疏向量进行相似度分组，获得基于主题特征的文本分组结果；

确定所述基于主题特征的文本分组结果中各组的中心文本；

所述对所述文本分组结果进行聚类，包括：

对所述基于主题特征的文本分组结果中各组的中心文本进行聚类。

4.根据权利要求3所述的方法，其特征在于，所述获得基于内容特征的文本分组结果之后，还包括：

对所述基于内容特征的文本分组结果进行冗余过滤处理；

所述获得基于主题特征的文本分组结果之后，还包括：

对所述基于主题特征的文本分组结果进行冗余过滤处理。

5.根据权利要求3或4所述的方法，其特征在于，所述采用LSH算法对文本基于所述第一稀疏向量进行相似度分组，获得基于内容特征的文本分组结果之前，还包括：

采用所述LSH算法对全部文本基于所述内容特征进行相似度计算，删除重复文本；

所述采用LSH算法对文本基于所述内容特征进行相似度分组，包括：

采用LSH算法对删除重复文本后的文本基于内容特征进行相似度分组。