CN111814016B

CN111814016B - 一种混合粒度多视图新闻数据聚类方法

Info

Publication number: CN111814016B
Application number: CN202010668010.8A
Authority: CN
Inventors: 代劲; 胡艳; 李家瑶
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2022-07-12
Anticipated expiration: 2040-07-13
Also published as: CN111814016A

Abstract

本发明属于数据挖掘领域，特别涉及一种混合粒度多视图新闻数据聚类方法，该方法包括：采用TF‑IDF方法对原始的混合粒度多视图新闻数据进行特征选择，得到统一标签粒度的多视图新闻数据；计算该数据的TF‑IDF值，根据TF‑IDF值数据进行映射，得到各个视图的特征向量空间；计算各个视图的信息熵以及各个视图的权重；根据各个视图的权重对特征向量空间中的值进行加权融合，得到各视图的特征矩阵；采用多视图K‑means算法对融合后的特征矩阵进行聚类；本发明通过特征选择对不同粒度进行统一的标签生成处理，使各个视图的特征统一到相同的粒度，同时通过信息熵来反映不同视图对聚类簇结构的贡献程度，从而使聚类后的效果更好。

Description

一种混合粒度多视图新闻数据聚类方法

技术领域

本发明属于数据挖掘领域，特别涉及一种混合粒度多视图新闻数据聚类方法。

背景技术

随着网络媒体渠道的快速发展，每天都产生了海量的新闻数据。新闻数据聚类分析的目的是快速从中获得有价值的信息，可以应用于舆情分析、个性化新闻推荐、情感分析、预警等领域。在实际应用中，数据可能是通过不同的源头采集到的或者是由不同任务的不同特征进行表示的。网络新闻通常是由文本信息、图片信息以及多媒体信息等特征构成，每个特征可以作为数据的一个视图。通过对多视图新闻数据的聚类分析，可以更精准的发现新闻数据之间隐藏的信息。

对于多视图数据，不同的特征(视图)捕获的是数据的不同方面，且可以是相互补充的。因此，提出将各种各样的特征整合起来以提高聚类准确性和鲁棒性的学习算法是极其重要的。目前，基于何时融合来自单个视图的特征以进行聚类，多视图聚类方法可以分为早期融合(特征级融合)、晚期融合(决策级融合)、中期融合三大类。基于早期融合的基本思想是将多个视图的特征表示融合为单一表示，之后应用已有的经典的单视图聚类算法进行聚类。基于晚期融合是先将每个视图单独的聚类，然后将各个视图的聚类结果融合成统一的矩阵，再以应用已有的单视图聚类算法进行聚类。中期融合，即在聚类过程中融合多个视图。

目前对新闻数据聚类分析的研究大多集中在新闻的话题发现、新闻影响力、以及新闻评论的情感分析等方面。例如《一种基于文档图聚类的汉越双语新闻话题发现方法》提出了一种聚类方法，包括：提取汉越新闻文本新闻要素，借助文本中要素相似度计算汉越文本相关度，构建汉越双语文本图模型，获得新闻文本相似度矩阵；然后，借助图模型中文本间的传播特点，采用随机游走算法对相似度矩阵进行调整；最后利用信息传递算法进行聚类。该方法能够取得较好的结果。

但是，该方法在进行新闻数据分析时出现很多关键问题：(1)该方法只针对新闻文本特征进行分析，而未考虑新闻图片和音视频等信息的价值。(2)新闻内容除了直接的文本信息之外，通常使用高度语义概括后的标签信息对新闻中出现的图片、音视频等多媒体信息进行描述，直接导致新闻内容中出现了不同语义层次、不同粒度的内容概念(直接的文本特征与标签特征)描述；若直接将文本特征与标签特征一视同仁进行分析或学习，将严重影响数据挖掘性能。(3)多视图新闻数据中各视图由于采样特征空间的不同，造成了各视图样本并不一定均具有良好的聚类特性，因而各视图的重要性是不同的；当前大多数对于新闻数据的研究，并未考虑不同视图对最终的簇结构的贡献程度不一样。

发明内容

为解决以上现有技术的问题，本发明提出了一种混合粒度多视图新闻数据聚类方法，该方法包括：

S1：实时获取原始的混合粒度多视图新闻数据，采用TF-IDF方法对原始的混合粒度多视图新闻数据进行特征选择，得到统一标签粒度的多视图新闻数据；

S2：计算统一标签粒度的多视图新闻数据的TF-IDF值，根据该值对统一标签粒度的多视图新闻数据进行映射，得到各个视图的特征向量空间；

S3：根据特征向量空间计算各个视图的信息熵，根据信息熵计算各个视图的权重；

S4：根据各个视图的权重对特征向量空间中各维度的值进行加权融合，得到各视图的特征矩阵；

S5：采用多视图K-means算法对融合后的特征矩阵进行聚类，得到聚类结果；

S6：根据新闻聚类结果对新闻进行推荐。

优选的，得到统一标签粒度的多视图新闻数据的过程包括：

S11：对混合粒度多视图新闻数据进行预处理，通过TfidfVectorizer方法获得原始的混合粒度多视图新闻数据的特征向量空间；

S12：计算原始的混合粒度多视图新闻数据的特征向量空间的TF-IDF值；

S13：设置特征选择数量n_features；

S14：根据TF-IDF值的大小确定特征的重要程度，提取TF-IDF值前n_features个样本特征，采用TfidfVectorizer方法对样本特征进行处理，得到特征选择后的特征向量空间；

S15：采用K-means算法对特征选择后的特征向量空间进行聚类；

S16：选取聚类效果最优时所对应的特征作为各视图的标签，得到统一标签粒度的多视图新闻数据。

优选的，特征选择数量n_features的取值范围为[5，50]，步长为5。

优选的，所述计算统一标签粒度的多视图新闻数据的TF-IDF值的公式为：

优选的，计算信息熵的公式为：

优选的，所述根据信息熵计算各个视图的权重的过程包括：

步骤1：根据统一标签粒度的多视图新闻数据的特征向量空间设置超参数λ和最大迭代次数；

步骤2：初始化各个视图的权重，随机选取k个样本数据作为初始化的聚类簇中心，设置当前迭代次数为0；

步骤3：根据初始化的簇中心得到聚类指示矩阵；即当簇中心样本i是属于第k个簇，则聚类指示矩阵第i行的第k列元素值为1，其余元素均为0；

步骤4：将视图v的权重w^(v)看作随机变量，采用信息熵衡量w^(v)的不确定性程度，在多视图k-means目标函数的基础上，将w^(v)ln w^(v)引入到多视图k-均值目标函数中，采用拉格朗日极值求解策略对目标函数进行求解，得到各个视图的加权项；

步骤5：根据各个视图的初始权重以及加权项对各个视图的特征空间向量进行加权融合，采用k-均值算法对融合后的数据进行处理，得到新的聚类中心和聚类指示矩阵；

步骤6：根据新的聚类中心、聚类指示矩阵以及超参数更新各个视图的权重，同时当前迭代次数加1；

步骤7：判断当前迭代次数是否大于最大迭代次数，若大于，则获得最终的权重，否则返回步骤4。

优选的，得到各个视图的加权项的过程包括：

优选的，更新视图的权重的公式为：

进一步的，所述对特征向量空间中各维度的值进行加权融合的公式为：

优选的，所述对融合后的特征矩阵进行聚类的公式为：

本发明通过对对不同粒度进行统一的标签生成处理，并对各个视图进行特征选择，使各个视图的特征统一到相同的粒度，从而使聚类后的效果更好；本发明通过信息熵确定视图间的自适应权重，将三个视图(新闻文本、图片以及视频)更优的融合起来，再进行聚类操作，弱化了类别划分并不明确的特征空间所对应的视图在聚类过程中的影响力。

附图说明

图1为本发明中网络新闻的结构示例图；

图2为本发明的一种混合粒度多视图新闻数据聚类方法流程图；

图3为本发明中获取数据流程图；

图4为本发明中各视图特征选择的流程图；

图5为本发明中计算视图权重的流程图；

图6为本发明中加权融合各视图特征的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明为一种混合粒度多视图新闻数据聚类方法，如图2所述，该方法包括：

S1：采用TF-IDF方法对原始的混合粒度多视图新闻数据进行特征选择，得到统一标签粒度的多视图新闻数据；

S2：计算统一标签粒度的多视图新闻数据的TF-IDF值，并根据该值对统一标签粒度的多视图新闻数据进行映射，得到各个视图的特征向量空间；

S3：根据特征向量空间计算各个视图的信息熵，并根据信息熵计算各个视图的权重；

S5：采用多视图K-means算法对融合后的特征矩阵进行聚类，得到聚类结果。

如图1所示，本发明中的混合粒度多视图新闻数据是指网络新闻内容除了直接的文本信息之外，通常还使用高度语义概括后的标签信息对新闻中出现的图片、音视频等多媒体信息进行描述，使得新闻内容中出现了不同语义层次、不同粒度的内容概念(直接的文本特征与标签特征)描述。其中，文本特征维度通常较高。

如图3所示，获取数据来源以及数据的预处理包括如下步骤：

S301、利用网络爬虫获得新浪和网易的混合粒度多视图新闻数据(文本、图片内容的文字描述以及视频内容的文字描述等)；

S302、对混合粒度多视图新闻数据进行预处理，包括删空、分词以及去停用词。

原始的混合粒度多视图新闻数据包括：文本、图片以及视图数据，采用text_features，picture_features和video_fatures分别表示文本、图片和视频视图的特征数量。

所述得到统一标签粒度的多视图新闻数据的过程包括

S11：对混合粒度多视图新闻数据进行预处理，通过TfidfVectorizer方法获得原始样本的特征向量空间；

S12：计算原始样本的特征向量空间的TF-IDF值；

S13：设置特征选择数量n_features，n_features的取值范围为[5，50]，步长为5；

S15：采用K-means算法对特征选择后的特征向量空间进行聚类；

本发明混合粒度多视图新闻数据的聚类方法中，所述的视图权重，即对多视图数据的每一个视图增加权重参数w^(v)，进而体现不同视图的重要性程度，则多视图K-means聚类的目标函数可以表示成以下形式：

其中，U∈R^N×k表示各个视图共享的聚类指示矩阵，N表示样本数量，k表示簇，w^(v)表示视图的权重，每一行只有一个元素为1，其余元素为0，

表示各个视图的簇中心。

如图4所示，本发明对各视图的特征选择过程为：

S401、对混合粒度多视图新闻数据进行预处理后，获得原始样本空间的TF-IDF特征向量空间；

S402、设置各个视图特征数量的取值在[5，50]区间，同时设步长为5。

S403、在各单独的视图上，用K-means方法对各种特征数量情况下选取出来的特征进行聚类，选取聚类效果最优所对应的特征数量作为各个视图最终的特征数量，使得各个视图的粒度统一。

各个视图的权重为：

其中，f(w^(v))表示加权项，V表示视图的数量，w^(v)ln w^(v)表示用熵来描述视图v的权重的不确定性程度。

如图5所示，计算各个视图的权重的过程包括：

步骤2：初始化各个视图的权重，随机初始化簇中心，并设置当前迭代次数为0；

步骤3：根据初始化的簇中心得到聚类指示矩阵；

步骤4：将各个视图的特征空间向量进行加权融合，融合后进行k-均值算法，得到新的聚类中心和聚类指示矩阵；

步骤5：根据新的聚类中心、聚类指示矩阵以及超参数更新视图的权重，同时当前迭代次数加1；

步骤6：判断当前迭代次数是否大于最大迭代次数，若大于，则获得最终的权重，否则返回步骤4。

多视图k-means目标函数定义如下：

其中，S(U,V,X,W)表示目标函数，U表示聚类指示矩阵，X表示样本数据，W表示视图权重，w^(v)表示视图v的权重，V表示视图的数量，K表示聚类簇的个数，N表示样本数量，U_ik指示着样本i是否属于簇k，

表示视图v的第i个样本，

表示视图v的第k个簇中心，λ表示控制视图权重的超参数，w^(v)ln w^(v)表示视图v的权重的信息熵。

目标函数由两部分组成：首先是在多视图K-means算法的基础上进聚类，使各个视图的信息相互补充。同时，增加了视图权重参数w^(v)，并通过超参数λ控制每个视图的权重的大小。λ的取值对聚类结果有较大的影响，通过网格贪心搜索方法获取。

如图6所示，加权融合各视图特征的过程包括：

S601、各个视图的特征根据更新后的视图权重进行重新加权融合；

S601、根据S601获得的特征向量空间随机运行k-均值算法20次，取其平均值作为最终的实验结果。

上述本发明混合粒度多视图新闻数据的聚类方法中，通过拉格朗日极值求解的相关策略，引入拉格朗日算子β，构造拉格朗日函数对目标函数进行优化求解，拉格朗日函数构造形式及求解过程如下：

1)构造拉格朗日函数，公式如下：

其中，L表示目标函数，λ表示控制视图权重的超参数，β表示拉格朗日算子。

2)通过对1)中的w^(v)求偏导，得到：

其中，

表示对视图权重求偏导。

3)通过Karush-Kuhn-Tucker(KKT)条件，可以得到函数1)的极小值点在2)中的

时取得，即：

4)根据3)以及

推出权重的更新公式如下：

其中，e表示数学常数，是自然对数函数的底数，w^(v)表示视图的权重，e表示数学常数，是自然对数函数的底数，K表示聚类中心的个数，N表示样本数量，

表示视图v的第i个样本，

表示视图v的第k个簇中心，λ表示控制视图权重的超参数，V表示视图的个数，U_ik指示着样本i是否属于簇k。

5)固定视图权重w^(v)，更新每个视图的类中心：

本发明采用多视图K-means算法对融合后的数据进行聚类的过程包括：

步骤1：确定各个视图最终的权重。

步骤2：各视图的特征向量矩阵中各维度的值更新为原来的值乘以所对应视图的权重。

步骤3：将各视图的特征向量矩阵简单的拼接起来，即按列合并，得到。

步骤4：在步骤3的特征向量矩阵的基础上，进行k-means聚类，得到最终的聚类结果。

本发明混合粒度多视图新闻数据聚类方法的基本思路是首先在每个单独的视图上，进行混合粒度的统一操作(针对不同粒度进行统一的标签生成处理)；在此基础上，借助信息熵良好的不确定性表示特性，对不同的视图进行加权融合，最后进行聚类操作。其具体算法步骤如下：

1)输入数据样本

其中V是视图的个数，N表示样本的总数，D_v表示视图v的维度，超参数λ，最大迭代次数t。

2)初始化：随机选取k个聚类中心，权重

迭代次数n_run＝0，样本编号n_sample＝1，各个视图最大的特征数text_features,picture_features,video_features。

3)不同粒度信息的视图进行统一的标签生成处理。

a)WHILE(n_sample>N)DO//当N≥n_sample时，各视图特征选择结束。

①分别提取各个视图的第n_sample个样本的TF-IDF值前text_features、picture_features和video_features的特征；

②n_sample＝n_sample+1；

b)文本视图标签生成处理结束。

c)RETURN新的数据样本x。

4)视图间自适应权重的确定。

a)WHILE(t≥n_run)DO

①计算各个视图的权重w^(v)；

②计算聚类中心

和聚类指数矩阵U^N×k；

③n_run＝n_run+1；

④RETURN U^N×k。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种混合粒度多视图新闻数据聚类方法，其特征在于，包括：

S13：设置特征选择数量n_features；

S15：采用K-means算法对特征选择后的特征向量空间进行聚类；

S16：选取聚类效果最优时所对应的特征作为各视图的标签，得到统一标签粒度的多视图新闻数据；

S31：根据统一标签粒度的多视图新闻数据的特征向量空间设置超参数λ和最大迭代次数；

S32：初始化各个视图的权重，随机选取k个样本数据作为初始化的聚类簇中心，设置当前迭代次数为0；

S33：根据初始化的簇中心得到聚类指示矩阵；即当簇中心样本i是属于第k个簇，则聚类指示矩阵第i行的第k列元素值为1，其余元素均为0；

S34：将视图v的权重w^(v)看作随机变量，采用信息熵衡量w^(v)的不确定性程度，在多视图k-means目标函数的基础上，将w^(v)lnw^(v)引入到多视图k-均值目标函数中，采用拉格朗日极值求解策略对目标函数进行求解，得到各个视图的加权项；

S35：根据各个视图的初始权重以及加权项对各个视图的特征空间向量进行加权融合，采用k-均值算法对融合后的数据进行处理，得到新的聚类中心和聚类指示矩阵；

S36：根据新的聚类中心、聚类指示矩阵以及超参数更新各个视图的权重，同时当前迭代次数加1；

S37：判断当前迭代次数是否大于最大迭代次数，若大于，则获得最终的权重，否则返回S34；

S5：采用多视图K-means算法对融合后的特征矩阵进行聚类，得到新闻聚类结果；

S6：根据新闻聚类结果对新闻进行推荐。

2.根据权利要求1所述的一种混合粒度多视图新闻数据聚类方法，其特征在于，所述特征选择数量n_features的取值范围为[5，50]，步长为5。

3.根据权利要求1所述的一种混合粒度多视图新闻数据聚类方法，其特征在于，所述计算统一标签粒度的多视图新闻数据的TF-IDF值的公式为：

其中，f(w)表示词条w的TF-IDF值，w表示词条的关键字，TF(w)表示词条w在文本中出现的频率，IDF(w)表示逆向文件频率(Inverse Document Frequency)，N表示总文档数目，n(w)表示包含w的文档数目。

4.根据权利要求1所述的一种混合粒度多视图新闻数据聚类方法，其特征在于，计算信息熵的公式为：

其中，H(X)表示信息熵，n是随机变量X的取值类别总数，P(x)表示事件x发生的概率。

5.根据权利要求1所述的一种混合粒度多视图新闻数据聚类方法，其特征在于，所述得到各个视图的加权项的过程包括：

其中，f(w^(v))表示加权项，V表示视图的数量，w^(v)lnw^(v)表示用熵来描述视图v的权重的不确定性程度。

6.根据权利要求1所述的一种混合粒度多视图新闻数据聚类方法，其特征在于，更新视图的权重的公式为：

其中，w^(v)表示视图的权重，e表示数学常数，是自然对数函数的底数，K表示聚类中心的个数，N表示样本数量，

表示视图v的第i个样本，

7.根据权利要求1所述的一种混合粒度多视图新闻数据聚类方法，其特征在于，所述对特征向量空间中各维度的值进行加权融合的公式为：

表示视图v的第i个样本，

8.根据权利要求1所述的一种混合粒度多视图新闻数据聚类方法，其特征在于，所述对融合后的特征矩阵进行聚类的公式为：

其中，F表示目标函数，w^(v)表示视图v的权重，V表示视图的数量，K表示聚类簇中心的数量，N表示样本数量，U_ik表示各个视图共享的聚类指示矩阵，

表示视图v的第i个样本，

表示视图v的簇中心。