CN111814016A - 一种混合粒度多视图新闻数据聚类方法 - Google Patents

一种混合粒度多视图新闻数据聚类方法 Download PDF

Info

Publication number
CN111814016A
CN111814016A CN202010668010.8A CN202010668010A CN111814016A CN 111814016 A CN111814016 A CN 111814016A CN 202010668010 A CN202010668010 A CN 202010668010A CN 111814016 A CN111814016 A CN 111814016A
Authority
CN
China
Prior art keywords
view
clustering
weight
granularity
news data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010668010.8A
Other languages
English (en)
Other versions
CN111814016B (zh
Inventor
代劲
胡艳
李家瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010668010.8A priority Critical patent/CN111814016B/zh
Publication of CN111814016A publication Critical patent/CN111814016A/zh
Application granted granted Critical
Publication of CN111814016B publication Critical patent/CN111814016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据挖掘领域,特别涉及一种混合粒度多视图新闻数据聚类方法,该方法包括:采用TF‑IDF方法对原始的混合粒度多视图新闻数据进行特征选择,得到统一标签粒度的多视图新闻数据;计算该数据的TF‑IDF值,根据TF‑IDF值数据进行映射,得到各个视图的特征向量空间;计算各个视图的信息熵以及各个视图的权重;根据各个视图的权重对特征向量空间中的值进行加权融合,得到各视图的特征矩阵;采用多视图K‑means算法对融合后的特征矩阵进行聚类;本发明通过特征选择对不同粒度进行统一的标签生成处理,使各个视图的特征统一到相同的粒度,同时通过信息熵来反映不同视图对聚类簇结构的贡献程度,从而使聚类后的效果更好。

Description

一种混合粒度多视图新闻数据聚类方法
技术领域
本发明属于数据挖掘领域,特别涉及一种混合粒度多视图新闻数据聚类方法。
背景技术
随着网络媒体渠道的快速发展,每天都产生了海量的新闻数据。新闻数据聚类分析的目的是快速从中获得有价值的信息,可以应用于舆情分析、个性化新闻推荐、情感分析、预警等领域。在实际应用中,数据可能是通过不同的源头采集到的或者是由不同任务的不同特征进行表示的。网络新闻通常是由文本信息、图片信息以及多媒体信息等特征构成,每个特征可以作为数据的一个视图。通过对多视图新闻数据的聚类分析,可以更精准的发现新闻数据之间隐藏的信息。
对于多视图数据,不同的特征(视图)捕获的是数据的不同方面,且可以是相互补充的。因此,提出将各种各样的特征整合起来以提高聚类准确性和鲁棒性的学习算法是极其重要的。目前,基于何时融合来自单个视图的特征以进行聚类,多视图聚类方法可以分为早期融合(特征级融合)、晚期融合(决策级融合)、中期融合三大类。基于早期融合的基本思想是将多个视图的特征表示融合为单一表示,之后应用已有的经典的单视图聚类算法进行聚类。基于晚期融合是先将每个视图单独的聚类,然后将各个视图的聚类结果融合成统一的矩阵,再以应用已有的单视图聚类算法进行聚类。中期融合,即在聚类过程中融合多个视图。
目前对新闻数据聚类分析的研究大多集中在新闻的话题发现、新闻影响力、以及新闻评论的情感分析等方面。例如《一种基于文档图聚类的汉越双语新闻话题发现方法》提出了一种聚类方法,包括:提取汉越新闻文本新闻要素,借助文本中要素相似度计算汉越文本相关度,构建汉越双语文本图模型,获得新闻文本相似度矩阵;然后,借助图模型中文本间的传播特点,采用随机游走算法对相似度矩阵进行调整;最后利用信息传递算法进行聚类。该方法能够取得较好的结果。
但是,该方法在进行新闻数据分析时出现很多关键问题:(1)该方法只针对新闻文本特征进行分析,而未考虑新闻图片和音视频等信息的价值。(2)新闻内容除了直接的文本信息之外,通常使用高度语义概括后的标签信息对新闻中出现的图片、音视频等多媒体信息进行描述,直接导致新闻内容中出现了不同语义层次、不同粒度的内容概念(直接的文本特征与标签特征)描述;若直接将文本特征与标签特征一视同仁进行分析或学习,将严重影响数据挖掘性能。(3)多视图新闻数据中各视图由于采样特征空间的不同,造成了各视图样本并不一定均具有良好的聚类特性,因而各视图的重要性是不同的;当前大多数对于新闻数据的研究,并未考虑不同视图对最终的簇结构的贡献程度不一样。
发明内容
为解决以上现有技术的问题,本发明提出了一种混合粒度多视图新闻数据聚类方法,该方法包括:
S1:实时获取原始的混合粒度多视图新闻数据,采用TF-IDF方法对原始的混合粒度多视图新闻数据进行特征选择,得到统一标签粒度的多视图新闻数据;
S2:计算统一标签粒度的多视图新闻数据的TF-IDF值,根据该值对统一标签粒度的多视图新闻数据进行映射,得到各个视图的特征向量空间;
S3:根据特征向量空间计算各个视图的信息熵,根据信息熵计算各个视图的权重;
S4:根据各个视图的权重对特征向量空间中各维度的值进行加权融合,得到各视图的特征矩阵;
S5:采用多视图K-means算法对融合后的特征矩阵进行聚类,得到聚类结果;
S6:根据新闻聚类结果对新闻进行推荐。
优选的,得到统一标签粒度的多视图新闻数据的过程包括:
S11:对混合粒度多视图新闻数据进行预处理,通过TfidfVectorizer方法获得原始的混合粒度多视图新闻数据的特征向量空间;
S12:计算原始的混合粒度多视图新闻数据的特征向量空间的TF-IDF值;
S13:设置特征选择数量n_features;
S14:根据TF-IDF值的大小确定特征的重要程度,提取TF-IDF值前n_features个样本特征,采用TfidfVectorizer方法对样本特征进行处理,得到特征选择后的特征向量空间;
S15:采用K-means算法对特征选择后的特征向量空间进行聚类;
S16:选取聚类效果最优时所对应的特征作为各视图的标签,得到统一标签粒度的多视图新闻数据。
优选的,特征选择数量n_features的取值范围为[5,50],步长为5。
优选的,所述计算统一标签粒度的多视图新闻数据的TF-IDF值的公式为:
Figure BDA0002581203750000031
优选的,计算信息熵的公式为:
Figure BDA0002581203750000032
优选的,所述根据信息熵计算各个视图的权重的过程包括:
步骤1:根据统一标签粒度的多视图新闻数据的特征向量空间设置超参数λ和最大迭代次数;
步骤2:初始化各个视图的权重,随机选取k个样本数据作为初始化的聚类簇中心,设置当前迭代次数为0;
步骤3:根据初始化的簇中心得到聚类指示矩阵;即当簇中心样本i是属于第k个簇,则聚类指示矩阵第i行的第k列元素值为1,其余元素均为0;
步骤4:将视图v的权重w(v)看作随机变量,采用信息熵衡量w(v)的不确定性程度,在多视图k-means目标函数的基础上,将w(v)ln w(v)引入到多视图k-均值目标函数中,采用拉格朗日极值求解策略对目标函数进行求解,得到各个视图的加权项;
步骤5:根据各个视图的初始权重以及加权项对各个视图的特征空间向量进行加权融合,采用k-均值算法对融合后的数据进行处理,得到新的聚类中心和聚类指示矩阵;
步骤6:根据新的聚类中心、聚类指示矩阵以及超参数更新各个视图的权重,同时当前迭代次数加1;
步骤7:判断当前迭代次数是否大于最大迭代次数,若大于,则获得最终的权重,否则返回步骤4。
优选的,得到各个视图的加权项的过程包括:
Figure BDA0002581203750000041
优选的,更新视图的权重的公式为:
Figure BDA0002581203750000042
进一步的,所述对特征向量空间中各维度的值进行加权融合的公式为:
Figure BDA0002581203750000043
优选的,所述对融合后的特征矩阵进行聚类的公式为:
Figure BDA0002581203750000051
本发明通过对对不同粒度进行统一的标签生成处理,并对各个视图进行特征选择,使各个视图的特征统一到相同的粒度,从而使聚类后的效果更好;本发明通过信息熵确定视图间的自适应权重,将三个视图(新闻文本、图片以及视频)更优的融合起来,再进行聚类操作,弱化了类别划分并不明确的特征空间所对应的视图在聚类过程中的影响力。
附图说明
图1为本发明中网络新闻的结构示例图;
图2为本发明的一种混合粒度多视图新闻数据聚类方法流程图;
图3为本发明中获取数据流程图;
图4为本发明中各视图特征选择的流程图;
图5为本发明中计算视图权重的流程图;
图6为本发明中加权融合各视图特征的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明为一种混合粒度多视图新闻数据聚类方法,如图2所述,该方法包括:
S1:采用TF-IDF方法对原始的混合粒度多视图新闻数据进行特征选择,得到统一标签粒度的多视图新闻数据;
S2:计算统一标签粒度的多视图新闻数据的TF-IDF值,并根据该值对统一标签粒度的多视图新闻数据进行映射,得到各个视图的特征向量空间;
S3:根据特征向量空间计算各个视图的信息熵,并根据信息熵计算各个视图的权重;
S4:根据各个视图的权重对特征向量空间中各维度的值进行加权融合,得到各视图的特征矩阵;
S5:采用多视图K-means算法对融合后的特征矩阵进行聚类,得到聚类结果。
如图1所示,本发明中的混合粒度多视图新闻数据是指网络新闻内容除了直接的文本信息之外,通常还使用高度语义概括后的标签信息对新闻中出现的图片、音视频等多媒体信息进行描述,使得新闻内容中出现了不同语义层次、不同粒度的内容概念(直接的文本特征与标签特征)描述。其中,文本特征维度通常较高。
如图3所示,获取数据来源以及数据的预处理包括如下步骤:
S301、利用网络爬虫获得新浪和网易的混合粒度多视图新闻数据(文本、图片内容的文字描述以及视频内容的文字描述等);
S302、对混合粒度多视图新闻数据进行预处理,包括删空、分词以及去停用词。
原始的混合粒度多视图新闻数据包括:文本、图片以及视图数据,采用text_features,picture_features和video_fatures分别表示文本、图片和视频视图的特征数量。
所述得到统一标签粒度的多视图新闻数据的过程包括
S11:对混合粒度多视图新闻数据进行预处理,通过TfidfVectorizer方法获得原始样本的特征向量空间;
S12:计算原始样本的特征向量空间的TF-IDF值;
S13:设置特征选择数量n_features,n_features的取值范围为[5,50],步长为5;
S14:根据TF-IDF值的大小确定特征的重要程度,提取TF-IDF值前n_features个样本特征,采用TfidfVectorizer方法对样本特征进行处理,得到特征选择后的特征向量空间;
S15:采用K-means算法对特征选择后的特征向量空间进行聚类;
S16:选取聚类效果最优时所对应的特征作为各视图的标签,得到统一标签粒度的多视图新闻数据。
本发明混合粒度多视图新闻数据的聚类方法中,所述的视图权重,即对多视图数据的每一个视图增加权重参数w(v),进而体现不同视图的重要性程度,则多视图K-means聚类的目标函数可以表示成以下形式:
Figure BDA0002581203750000071
其中,U∈RN×k表示各个视图共享的聚类指示矩阵,N表示样本数量,k表示簇,w(v)表示视图的权重,每一行只有一个元素为1,其余元素为0,
Figure BDA0002581203750000072
表示各个视图的簇中心。
如图4所示,本发明对各视图的特征选择过程为:
S401、对混合粒度多视图新闻数据进行预处理后,获得原始样本空间的TF-IDF特征向量空间;
S402、设置各个视图特征数量的取值在[5,50]区间,同时设步长为5。
S403、在各单独的视图上,用K-means方法对各种特征数量情况下选取出来的特征进行聚类,选取聚类效果最优所对应的特征数量作为各个视图最终的特征数量,使得各个视图的粒度统一。
各个视图的权重为:
Figure BDA0002581203750000081
其中,f(w(v))表示加权项,V表示视图的数量,w(v)ln w(v)表示用熵来描述视图v的权重的不确定性程度。
如图5所示,计算各个视图的权重的过程包括:
步骤1:根据统一标签粒度的多视图新闻数据的特征向量空间设置超参数λ和最大迭代次数;
步骤2:初始化各个视图的权重,随机初始化簇中心,并设置当前迭代次数为0;
步骤3:根据初始化的簇中心得到聚类指示矩阵;
步骤4:将各个视图的特征空间向量进行加权融合,融合后进行k-均值算法,得到新的聚类中心和聚类指示矩阵;
步骤5:根据新的聚类中心、聚类指示矩阵以及超参数更新视图的权重,同时当前迭代次数加1;
步骤6:判断当前迭代次数是否大于最大迭代次数,若大于,则获得最终的权重,否则返回步骤4。
多视图k-means目标函数定义如下:
Figure BDA0002581203750000082
其中,S(U,V,X,W)表示目标函数,U表示聚类指示矩阵,X表示样本数据,W表示视图权重,w(v)表示视图v的权重,V表示视图的数量,K表示聚类簇的个数,N表示样本数量,Uik指示着样本i是否属于簇k,
Figure BDA0002581203750000083
表示视图v的第i个样本,
Figure BDA0002581203750000091
表示视图v的第k个簇中心,λ表示控制视图权重的超参数,w(v)ln w(v)表示视图v的权重的信息熵。
目标函数由两部分组成:首先是在多视图K-means算法的基础上进聚类,使各个视图的信息相互补充。同时,增加了视图权重参数w(v),并通过超参数λ控制每个视图的权重的大小。λ的取值对聚类结果有较大的影响,通过网格贪心搜索方法获取。
如图6所示,加权融合各视图特征的过程包括:
S601、各个视图的特征根据更新后的视图权重进行重新加权融合;
S601、根据S601获得的特征向量空间随机运行k-均值算法20次,取其平均值作为最终的实验结果。
上述本发明混合粒度多视图新闻数据的聚类方法中,通过拉格朗日极值求解的相关策略,引入拉格朗日算子β,构造拉格朗日函数对目标函数进行优化求解,拉格朗日函数构造形式及求解过程如下:
1)构造拉格朗日函数,公式如下:
Figure BDA0002581203750000092
其中,L表示目标函数,λ表示控制视图权重的超参数,β表示拉格朗日算子。
2)通过对1)中的w(v)求偏导,得到:
Figure BDA0002581203750000093
其中,
Figure BDA0002581203750000094
表示对视图权重求偏导。
3)通过Karush-Kuhn-Tucker(KKT)条件,可以得到函数1)的极小值点在2)中的
Figure BDA0002581203750000095
时取得,即:
Figure BDA0002581203750000101
4)根据3)以及
Figure BDA0002581203750000102
推出权重的更新公式如下:
Figure BDA0002581203750000103
其中,e表示数学常数,是自然对数函数的底数,w(v)表示视图的权重,e表示数学常数,是自然对数函数的底数,K表示聚类中心的个数,N表示样本数量,
Figure BDA0002581203750000104
表示视图v的第i个样本,
Figure BDA0002581203750000105
表示视图v的第k个簇中心,λ表示控制视图权重的超参数,V表示视图的个数,Uik指示着样本i是否属于簇k。
5)固定视图权重w(v),更新每个视图的类中心:
Figure BDA0002581203750000106
本发明采用多视图K-means算法对融合后的数据进行聚类的过程包括:
步骤1:确定各个视图最终的权重。
步骤2:各视图的特征向量矩阵中各维度的值更新为原来的值乘以所对应视图的权重。
步骤3:将各视图的特征向量矩阵简单的拼接起来,即按列合并,得到。
步骤4:在步骤3的特征向量矩阵的基础上,进行k-means聚类,得到最终的聚类结果。
本发明混合粒度多视图新闻数据聚类方法的基本思路是首先在每个单独的视图上,进行混合粒度的统一操作(针对不同粒度进行统一的标签生成处理);在此基础上,借助信息熵良好的不确定性表示特性,对不同的视图进行加权融合,最后进行聚类操作。其具体算法步骤如下:
1)输入数据样本
Figure BDA0002581203750000107
其中V是视图的个数,N表示样本的总数,Dv表示视图v的维度,超参数λ,最大迭代次数t。
2)初始化:随机选取k个聚类中心,权重
Figure BDA0002581203750000111
迭代次数n_run=0,样本编号n_sample=1,各个视图最大的特征数text_features,picture_features,video_features。
3)不同粒度信息的视图进行统一的标签生成处理。
a)WHILE(n_sample>N)DO//当N≥n_sample时,各视图特征选择结束。
①分别提取各个视图的第n_sample个样本的TF-IDF值前text_features、picture_features和video_features的特征;
②n_sample=n_sample+1;
b)文本视图标签生成处理结束。
c)RETURN新的数据样本x。
4)视图间自适应权重的确定。
a)WHILE(t≥n_run)DO
①计算各个视图的权重w(v)
②计算聚类中心
Figure BDA0002581203750000112
和聚类指数矩阵UN×k
③n_run=nrun+1;
④RETURN UN×k
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种混合粒度多视图新闻数据聚类方法,其特征在于,包括:
S1:实时获取原始的混合粒度多视图新闻数据,采用TF-IDF方法对原始的混合粒度多视图新闻数据进行特征选择,得到统一标签粒度的多视图新闻数据;
S2:计算统一标签粒度的多视图新闻数据的TF-IDF值,根据该值对统一标签粒度的多视图新闻数据进行映射,得到各个视图的特征向量空间;
S3:根据特征向量空间计算各个视图的信息熵,根据信息熵计算各个视图的权重;
S4:根据各个视图的权重对特征向量空间中各维度的值进行加权融合,得到各视图的特征矩阵;
S5:采用多视图K-means算法对融合后的特征矩阵进行聚类,得到新闻聚类结果;
S6:根据新闻聚类结果对新闻进行推荐。
2.根据权利要求1所述的一种混合粒度多视图新闻数据聚类方法,其特征在于,所述得到统一标签粒度的多视图新闻数据的过程包括:
S11:对混合粒度多视图新闻数据进行预处理,通过TfidfVectorizer方法获得原始的混合粒度多视图新闻数据的特征向量空间;
S12:计算原始的混合粒度多视图新闻数据的特征向量空间的TF-IDF值;
S13:设置特征选择数量n_features;
S14:根据TF-IDF值的大小确定特征的重要程度,提取TF-IDF值前n_features个样本特征,采用TfidfVectorizer方法对样本特征进行处理,得到特征选择后的特征向量空间;
S15:采用K-means算法对特征选择后的特征向量空间进行聚类;
S16:选取聚类效果最优时所对应的特征作为各视图的标签,得到统一标签粒度的多视图新闻数据。
3.根据权利要求2所述的一种混合粒度多视图新闻数据聚类方法,其特征在于,所述特征选择数量n_features的取值范围为[5,50],步长为5。
4.根据权利要求1所述的一种混合粒度多视图新闻数据聚类方法,其特征在于,所述计算统一标签粒度的多视图新闻数据的TF-IDF值的公式为:
Figure FDA0002581203740000021
其中,f(w)表示词条w的TF-IDF值,w表示词条的关键字,TF(w)表示词条w在文本中出现的频率,IDF(w)表示逆向文件频率(Inverse Document Frequency),N表示总文档数目,n(w)表示包含w的文档数目。
5.根据权利要求1所述的一种混合粒度多视图新闻数据聚类方法,其特征在于,计算信息熵的公式为:
Figure FDA0002581203740000022
其中,H(X)表示信息熵,n是随机变量X的取值类别总数,P(x)表示事件x发生的概率。
6.根据权利要求1所述的一种混合粒度多视图新闻数据聚类方法,其特征在于,所述根据信息熵计算各个视图的权重的过程包括:
步骤1:根据统一标签粒度的多视图新闻数据的特征向量空间设置超参数λ和最大迭代次数;
步骤2:初始化各个视图的权重,随机选取k个样本数据作为初始化的聚类簇中心,设置当前迭代次数为0;
步骤3:根据初始化的簇中心得到聚类指示矩阵;即当簇中心样本i是属于第k个簇,则聚类指示矩阵第i行的第k列元素值为1,其余元素均为0;
步骤4:将视图v的权重w(v)看作随机变量,采用信息熵衡量w(v)的不确定性程度,在多视图k-means目标函数的基础上,将w(v)ln w(v)引入到多视图k-均值目标函数中,采用拉格朗日极值求解策略对目标函数进行求解,得到各个视图的加权项;
步骤5:根据各个视图的初始权重以及加权项对各个视图的特征空间向量进行加权融合,采用k-均值算法对融合后的数据进行处理,得到新的聚类中心和聚类指示矩阵;
步骤6:根据新的聚类中心、聚类指示矩阵以及超参数更新各个视图的权重,同时当前迭代次数加1;
步骤7:判断当前迭代次数是否大于最大迭代次数,若大于,则获得最终的权重,否则返回步骤4。
7.根据权利要求6所述的一种混合粒度多视图新闻数据聚类方法,其特征在于,所述得到各个视图的加权项的过程包括:
Figure FDA0002581203740000034
其中,f(w(v))表示加权项,V表示视图的数量,w(v)ln w(v)表示用熵来描述视图v的权重的不确定性程度。
8.根据权利要求6所述的一种混合粒度多视图新闻数据聚类方法,其特征在于,更新视图的权重的公式为:
Figure FDA0002581203740000031
其中,w(v)表示视图的权重,e表示数学常数,是自然对数函数的底数,K表示聚类中心的个数,N表示样本数量,
Figure FDA0002581203740000032
表示视图v的第i个样本,
Figure FDA0002581203740000033
表示视图v的第k个簇中心,λ表示控制视图权重的超参数,V表示视图的个数,Uik指示着样本i是否属于簇k。
9.根据权利要求1所述的一种混合粒度多视图新闻数据聚类方法,其特征在于,所述对特征向量空间中各维度的值进行加权融合的公式为:
Figure FDA0002581203740000041
其中,S(U,V,X,W)表示目标函数,U表示聚类指示矩阵,X表示样本数据,W表示视图权重,w(v)表示视图v的权重,V表示视图的数量,K表示聚类簇的个数,N表示样本数量,Uik指示着样本i是否属于簇k,
Figure FDA0002581203740000042
表示视图v的第i个样本,
Figure FDA0002581203740000043
表示视图v的第k个簇中心,λ表示控制视图权重的超参数,w(v)ln w(v)表示视图v的权重的信息熵。
10.根据权利要求1所述的一种混合粒度多视图新闻数据聚类方法,其特征在于,所述对融合后的特征矩阵进行聚类的公式为:
Figure FDA0002581203740000044
其中,F表示目标函数,w(v)表示视图v的权重,V表示视图的数量,K表示聚类簇中心的数量,N表示样本数量,Uik表示各个视图共享的聚类指示矩阵,
Figure FDA0002581203740000045
表示视图v的第i个样本,
Figure FDA0002581203740000046
表示视图v的簇中心。
CN202010668010.8A 2020-07-13 2020-07-13 一种混合粒度多视图新闻数据聚类方法 Active CN111814016B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010668010.8A CN111814016B (zh) 2020-07-13 2020-07-13 一种混合粒度多视图新闻数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010668010.8A CN111814016B (zh) 2020-07-13 2020-07-13 一种混合粒度多视图新闻数据聚类方法

Publications (2)

Publication Number Publication Date
CN111814016A true CN111814016A (zh) 2020-10-23
CN111814016B CN111814016B (zh) 2022-07-12

Family

ID=72843366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010668010.8A Active CN111814016B (zh) 2020-07-13 2020-07-13 一种混合粒度多视图新闻数据聚类方法

Country Status (1)

Country Link
CN (1) CN111814016B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678683A (zh) * 2013-12-26 2014-03-26 浙江省公众信息产业有限公司 一种面向精细农业的加权空间模糊聚类方法和设备
US20150161780A1 (en) * 2011-06-22 2015-06-11 Google Inc. Predicting Tree Species From Aerial Imagery
CN107423337A (zh) * 2017-04-27 2017-12-01 天津大学 基于lda融合模型和多层聚类的新闻话题检测方法
CN108776812A (zh) * 2018-05-31 2018-11-09 西安电子科技大学 基于非负矩阵分解和多样-一致性的多视图聚类方法
US20180344169A1 (en) * 2014-06-13 2018-12-06 Canon Kabushiki Kaisha Photoacoustic apparatus, signal processing method of photoacoustic apparatus, and program
CN110197223A (zh) * 2019-05-29 2019-09-03 北方民族大学 基于深度学习的点云数据分类方法
CN110413924A (zh) * 2019-07-18 2019-11-05 广东石油化工学院 一种半监督多视图学习的网页分类方法
CN110705648A (zh) * 2019-10-12 2020-01-17 中国民航大学 大规模多视图数据自降维K-means算法及系统
US20200151446A1 (en) * 2014-03-19 2020-05-14 Neurala, Inc. Methods and apparatus for autonomous robotic control
CN111340106A (zh) * 2020-02-25 2020-06-26 西北工业大学 基于图学习和视图权重学习的无监督多视图特征选择方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150161780A1 (en) * 2011-06-22 2015-06-11 Google Inc. Predicting Tree Species From Aerial Imagery
CN103678683A (zh) * 2013-12-26 2014-03-26 浙江省公众信息产业有限公司 一种面向精细农业的加权空间模糊聚类方法和设备
US20200151446A1 (en) * 2014-03-19 2020-05-14 Neurala, Inc. Methods and apparatus for autonomous robotic control
US20180344169A1 (en) * 2014-06-13 2018-12-06 Canon Kabushiki Kaisha Photoacoustic apparatus, signal processing method of photoacoustic apparatus, and program
CN107423337A (zh) * 2017-04-27 2017-12-01 天津大学 基于lda融合模型和多层聚类的新闻话题检测方法
CN108776812A (zh) * 2018-05-31 2018-11-09 西安电子科技大学 基于非负矩阵分解和多样-一致性的多视图聚类方法
CN110197223A (zh) * 2019-05-29 2019-09-03 北方民族大学 基于深度学习的点云数据分类方法
CN110413924A (zh) * 2019-07-18 2019-11-05 广东石油化工学院 一种半监督多视图学习的网页分类方法
CN110705648A (zh) * 2019-10-12 2020-01-17 中国民航大学 大规模多视图数据自降维K-means算法及系统
CN111340106A (zh) * 2020-02-25 2020-06-26 西北工业大学 基于图学习和视图权重学习的无监督多视图特征选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
代劲等: "《混合粒度多视图新闻数据聚类方法》", 《小型微型计算机系统》 *
罗爱民等: "《基于聚类分析的C4ISR系统服务关键要素自动提取方法》", 《系统工程与电子技术》 *

Also Published As

Publication number Publication date
CN111814016B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
US9147154B2 (en) Classifying resources using a deep network
JP2022508163A (ja) ユーザタグ生成方法並びにその、装置、コンピュータプログラム及びコンピュータ機器
CN111046275B (zh) 基于人工智能的用户标签确定方法及装置、存储介质
CN110647626B (zh) 基于互联网服务域的rest数据服务聚类方法
Xu et al. Personalized course recommendation system fusing with knowledge graph and collaborative filtering
CN113705299A (zh) 一种视频识别的方法、装置及存储介质
CN111625715B (zh) 信息提取方法、装置、电子设备及存储介质
CN111382283A (zh) 资源类别标签标注方法、装置、计算机设备和存储介质
CN112395487A (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
CN113011172A (zh) 文本处理方法、装置、计算机设备和存储介质
Babu et al. An implementation of the user-based collaborative filtering algorithm
Lee et al. Effective evolutionary multilabel feature selection under a budget constraint
CN110232151B (zh) 一种混合概率分布检测的QoS预测模型的构建方法
CN117494051A (zh) 一种分类处理的方法、模型训练的方法以及相关装置
Jiang et al. Retweet prediction using social-aware probabilistic matrix factorization
CN115374362A (zh) 多路召回模型训练方法、多路召回方法、装置及电子设备
CN112464106A (zh) 对象推荐方法及装置
CN111814016B (zh) 一种混合粒度多视图新闻数据聚类方法
CN115510326A (zh) 基于文本特征和情感倾向的网络论坛用户兴趣推荐算法
CN111538898B (zh) 基于组合特征提取的Web服务包推荐方法及系统
CN115048530A (zh) 融合邻居重要度和特征学习的图卷积推荐系统
Kumar et al. Session-based recommendations with sequential context using attention-driven LSTM
Dokoohaki et al. Mining divergent opinion trust networks through latent dirichlet allocation
CN114328820A (zh) 信息搜索方法以及相关设备
Velivelli et al. Automatic video annotation by mining speech transcripts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant