CN110096596B - 一种基于概念分解的多视图文本聚类方法、装置及设备 - Google Patents

一种基于概念分解的多视图文本聚类方法、装置及设备 Download PDF

Info

Publication number
CN110096596B
CN110096596B CN201910379773.8A CN201910379773A CN110096596B CN 110096596 B CN110096596 B CN 110096596B CN 201910379773 A CN201910379773 A CN 201910379773A CN 110096596 B CN110096596 B CN 110096596B
Authority
CN
China
Prior art keywords
text
view
matrix
data
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910379773.8A
Other languages
English (en)
Other versions
CN110096596A (zh
Inventor
李健强
周郭许
邱育宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910379773.8A priority Critical patent/CN110096596B/zh
Publication of CN110096596A publication Critical patent/CN110096596A/zh
Application granted granted Critical
Publication of CN110096596B publication Critical patent/CN110096596B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于概念分解的多视图文本聚类方法、装置、设备以及计算机可读存储介质,包括:通过多个视角对待分类事件进行数据采集,得到所述待分类事件的文本多视图数据;利用预先构建的概念分解模型对所述文本多视图数据进行分解,得到所述文本多视图数据的一致表征矩阵;利用预设聚类算法对所述一致表征矩阵进行聚类,得到所述待分类事件的聚类结果。本发明所提供的方法、装置、设备以及计算机可读存储介质,利用概念分解模型引入了几何结构的特征图约束,最大限度地挖掘数据中隐含的深层信息,提高了多视图文本聚类的效果。

Description

一种基于概念分解的多视图文本聚类方法、装置及设备
技术领域
本发明涉及聚类技术领域,特别是涉及一种基于概念分解的多视图文本聚类方法、装置、设备以及计算机可读存储介质。
背景技术
随着信息技术的不断发展,人们身边的事物都能以数据的形式被记录下来,因此大数据时代的到来使得我们生活中处处离不开数据。为了处理如此庞大的数据,人们需要一些工具对这些数据进行预处理,将数据中冗余的信息剔除以减少计算机的负荷和提升计算速度。矩阵分解是有效的数据处理工具之一,它能将高维的数据降维到低维空间中,同时能够防止有效信息丢失。
目前由于图约束理论被提出,在矩阵分解的模型中引入图约束,能够突破瓶颈从而获得更好的聚类效果。传统的单视图聚类只能依据属性是否相近而进行聚群,但是实际所收集到的数据可能会出现一些虚假错误的信息,从而干扰了聚类的效果。随着技术的成熟化,科研人员发现了一个全新的聚类新方法:多视图聚类(Multi-View Clustering,MVC),弥补了单视图聚类的不足。多视图聚类通过多个方面对同一事物进行数据采集,其关键是使得信息相互补充,能够解决单一视图可能出现虚假错误信息的现象。
在现有技术中图约束非负矩阵分解多视图聚类算法只对几何结构的数据图作局部约束,虽然此约束在聚类中取得良好的效果,但并没有最大限度地挖掘数据中隐含的深层信息,更进一步取得良好的效果。非负矩阵分解算法在非负约束下能够学习到局部表征,但由于只能允许局部表征作加法运算,因此无法明确地了解原始数据在降维后的空间中的性能效果,例如在再生希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS)。对于已有的基于概念分解的多视图聚类,其仅对几何结构的数据图进行约束,虽然性能有所提升,但是忽略了特征之间的相似性。
综上所述可以看出,如何提高多视图文本聚类的效果,最大限度地挖掘数据中隐含的深层信息是目前有待解决的问题。
发明内容
本发明的目的是提供一种基于概念分解的多视图文本聚类方法、装置、设备以及计算机可读存储介质,以解决现有技术中的非负矩阵分解多视图聚类算法没有最大限度的挖掘数据中隐含的深度信息的问题。
为解决上述技术问题,本发明提供一种基于概念分解的多视图文本聚类方法,包括:通过多个视角对待分类事件进行数据采集,得到所述待分类事件的文本多视图数据;利用预先构建的概念分解模型对所述文本多视图数据进行分解,得到所述文本多视图数据的一致表征矩阵;利用预设聚类算法对所述一致表征矩阵进行聚类,得到所述待分类事件的聚类结果。
优选地,所述利用预先构建的概念分解模型对所述文本多视图数据进行分解,得到所述文本多视图数据的一致表征矩阵包括:
分别将所述文本多视图数据中每个视角所采集的文本视图数据输入至所述概念分解模型的目标函数内,得到每个文本视图数据的关联矩阵和表征矩阵;
对所述每个文本视图数据的关联矩阵分别进行迭代更新,得到所述每个文本视图数据更新后的关联矩阵;
对所述每个文本视图数据的表征矩阵分别进行迭代更新,得到所述每个文本视图数据更新后的表征矩阵;
联合所述每个文本视图数据更新后的表征矩阵,对所述文本多视图数据的一致表征矩阵进行更新,得到所述文本多视图数据更新后的一致表征矩阵。
优选地,所述概念分解模型的目标函数为:
Figure GDA0004005713650000021
s.t.W(v)≥0,H(v)≥0,ωv≥0,∑ωv=1.
其中,X(v)为所述文本多视图数据
Figure GDA0004005713650000022
中第v个视角中所采集的文本数据,nv为所述文本多视图数据的视图总数,
Figure GDA0004005713650000023
mv为第v个视角中所采集的文本数据的特征维度,n为第v个视角中所采集的文本数据的实例个数;W(v)∈Rn×k为第v个视角中所采集的文本数据的关联矩阵,H(v)∈Rn×k为第v个视角中所采集的文本数据的表征矩阵,
Figure GDA0004005713650000031
Figure GDA0004005713650000032
为特征图和数据图的拉普拉斯矩阵,α1和α2为对应图约束的权重;β与ωv分别为控制惩罚项D(H(v),H*)的权重和所述表征矩阵的权重;H*为所述文本多视图数据的一致表征矩阵。
优选地,所述联合所述每个文本视图数据更新后的表征矩阵,对所述文本多视图数据的一致表征矩阵进行更新,得到所述文本多视图数据更新后的一致表征矩阵包括:
利用
Figure GDA0004005713650000033
联合所述每个文本视图数据更新后的表征矩阵,对所述文本多视图数据的一致表征矩阵进行更新,得到所述文本多视图数据更新后的一致表征矩:
Figure GDA0004005713650000034
优选地,所述利用预设聚类算法对所述一致表征矩阵进行聚类,得到所述待分类事件的聚类结果包括:
利用K均值聚类算法对所述一致表征矩阵进行聚类,将所述一致表征矩阵的聚类结果作为所述待分类事件的聚类结果。
本发明还提供了一种基于概念分解的多视图文本聚类装置,包括:
采集模块,用于通过多个视角对待分类事件进行数据采集,得到所述待分类事件的文本多视图数据;
分解模块,用于利用预先构建的概念分解模型对所述文本多视图数据进行分解,得到所述文本多视图数据的一致表征矩阵;
聚类模块,用于利用预设聚类算法对所述一致表征矩阵进行聚类,得到所述待分类事件的聚类结果。
优选地,所述分解模块包括:
分解单元,用于分别将所述文本多视图数据中每个视角所采集的文本视图数据输入至所述概念分解模型的目标函数内,得到每个文本视图数据的关联矩阵和表征矩阵;
关联矩阵更新单元,用于对所述每个文本视图数据的关联矩阵分别进行迭代更新,得到所述每个文本视图数据更新后的关联矩阵;
表征矩阵更新单元,用于对所述每个文本视图数据的表征矩阵分别进行迭代更新,得到所述每个文本视图数据更新后的表征矩阵;
联合单元,用于联合所述每个文本视图数据更新后的表征矩阵,对所述文本多视图数据的一致表征矩阵进行更新,得到所述文本多视图数据更新后的一致表征矩阵。
优选地,所述聚类模块具体用于:
利用K均值聚类算法对所述一致表征矩阵进行聚类,将所述一致表征矩阵的聚类结果作为所述待分类事件的聚类结果。
本发明还提供了一种基于概念分解的多视图文本聚类设备,包括:
存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种基于概念分解的多视图文本聚类方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种基于概念分解的多视图文本聚类方法的步骤。
本发明所提供的基于概念分解的多视图文本聚类方法,利用多个视角对待分类事件进行数据采集,得到所述待分类事件的文本多视图数据。利用概念分解模型对所述文本多视图数据进行分解,得到所述文本多视图数据的一致表征矩阵。对所述一致表征矩阵进行聚类,得到的聚类结果作为所述待分类事件的聚类结果。本发明将概念分解应用到多视图文本聚类中,每个聚类中心作为各个原始数据点的线性组合,且每个重构数据点也是各个聚类中心的线性组合,从而构建为概念模型。概念分解与非负矩阵分解不同之处为概念分解可以应用于包含负值的数据,并且可以在核空间中实现,从而能尽可能地保存原始数据中的有效信息。概念分解运用在多视图文本聚类中,引入了一个几何结构的特征图约束,有效地利用数据和特征中包含的结构信息,提升了文本聚类的收敛速度和数据的拟合度。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的基于概念分解的多视图文本聚类方法的第一种具体实施例的流程图;
图2为本发明所提供的基于概念分解的多视图文本聚类方法的第二种具体实施例的流程图;
图3为本发明实施例提供的一种基于概念分解的多视图文本聚类装置的结构框图。
具体实施方式
本发明的核心是提供一种基于概念分解的多视图文本聚类方法、装置、设备以及计算机可读存储介质,基于概念分解进行多视图文本聚类,提高了多视图文本聚类的效果,最大限度地挖掘了数据中隐含的深层信息。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明所提供的基于概念分解的多视图文本聚类方法的第一种具体实施例的流程图;具体操作步骤如下:
步骤S101:通过多个视角对待分类事件进行数据采集,得到所述待分类事件的文本多视图数据;
在现实世界中,一个物体可以由多个角度观察而得到不同的描述,这些描述也称之为表征。这些表征通常会提供兼容和互补的信息,所以将同一个物体的各个表征组合成集合来获得更好的性能,从而得出多视图聚类算法模型。多视图的学习是利用各个视图的有效信息进行补充,突破单视图聚类的性能瓶颈。待分类事件的文本多视图数据的采集方式是多样的;例如:抽取若干个同时在两个或以上的新闻源中报到的新闻作为多视图数据集,然后将这若干个新闻进行分类;也可以抽取若干个文件,使用它们的不同语言版本作为文本多视图数据,然后再将这若干个文件分类。
步骤S102:利用预先构建的概念分解模型对所述文本多视图数据进行分解,得到所述文本多视图数据的一致表征矩阵;
概念分解的分解形式为X≈XWHT;而现有技术中非负矩阵分解的解形式:X≈WHT
对所述文本多视图数据进行降维分解后,可以去除所述文本多视图数据中一些冗余信息,从而使用概念分解后得到的一致表征矩阵进行聚类的效果比直接使用所述文本多视图数据进行聚类的效果好。
步骤S103:利用预设聚类算法对所述一致表征矩阵进行聚类,得到所述待分类事件的聚类结果。
在本实施例中,可以选用K均值聚类算法对所述一致表征矩阵进行聚类,将所述一致表征矩阵的聚类结果作为所述待分类事件的聚类结果。在本发明的其他实施例中也可以选用其他聚类算法对所述一致表征矩阵进行聚类。
本实施例除了在几何结构中引入了数据图约束外,还引入了特征图约束,有效地利用数据中包含的结构信息和特征,具有比非负矩阵分解算法更强的识别能力。本实施例所体供的多视图文本聚类方法,在特征图约束保证原有的信息不丢失的前提下,最大限度突破瓶颈提升了文本聚类的性能效果。
基于上述实施例,在本实施例中,分别将所述文本多视图数据中每个视角所采集的文本视图数据输入至所述概念分解模型的目标函数内,得到每个文本视图数据的关联矩阵和表征矩阵;联合所述每个文本视图数据的关联矩阵和表征矩阵,得到所述文本多视图数据更新后的一致表征矩阵。请参考图2,图2为本发明所提供的基于概念分解的多视图文本聚类方法的第二种具体实施例的流程图;具体操作步骤如下:
步骤S201:通过多个视角对待分类事件进行数据采集,得到所述待分类事件的文本多视图数据;
步骤S202:分别将所述文本多视图数据中每个视角所采集的文本视图数据输入至所述概念分解模型的目标函数内,得到每个文本视图数据的关联矩阵和表征矩阵;
所述概念分解模型的目标函数为:
Figure GDA0004005713650000071
s.t.W(v)≥0,H(v)≥0,ωv≥0,∑ωv=1.
其中,X(v)为所述文本多视图数据
Figure GDA0004005713650000077
中第v个视角中所采集的文本数据,nv为所述文本多视图数据的视图总数,
Figure GDA0004005713650000072
mv为第v个视角中所采集的文本数据的特征维度,n为第v个视角中所采集的文本数据的实例个数;W(v)∈Rn×k为第v个视角中所采集的文本数据的关联矩阵,H(v)∈Rn×k为第v个视角中所采集的文本数据的表征矩阵,
Figure GDA0004005713650000073
Figure GDA0004005713650000074
为特征图和数据图的拉普拉斯矩阵,α1和α2为对应图约束权重;β与ωv分别为控制惩罚项D(H(v),H*)的权重和所述表征矩阵的权重;H*为所述文本多视图数据的一致表征矩阵。
为了进一步对数据拟合,使用迭代乘子更新法对目标函数进行优化。首先定义核矩阵K(v)=(X(v))TX(v),同时定义R(v)=H(v)-H*。目标函数可以复写为:
Figure GDA0004005713650000075
s.t.W(v)≥0,H(v)≥0,ωv≥0,∑ωv=1.
优化模型时分别对各个视图的因子矩阵进行迭代更新,由于各个视图的更新步骤相似,所以只展示其中一个视图的迭代更新公式,使用K,W,H,LW,LH,ω,R分别简单表示同一视图内的K(v),W(v),H(v)
Figure GDA0004005713650000076
ωv,R(v)。公式中tr()为数学符号trace的缩写,代表矩阵的迹。
步骤S203:对所述每个文本视图数据的关联矩阵分别进行迭代更新,得到所述每个文本视图数据更新后的关联矩阵;
固定H(v)和H*,更新W(v):引入拉格朗日乘子Φ约束W≥0,则关于W的拉格朗日函数L(W,Φ)可以写成为:
L(W,Φ)=-2tr(WTKH)+tr(WTKWHTH)+α1tr(WTLWW)+tr(ΦWT)
对L(W,Φ)进行局部微分可得:
Figure GDA0004005713650000081
使用Karush-Kuhn-Tucker(KKT)条件φijWij=0与图拉普拉斯矩阵LW=DW-SW,因此可得到关于W(v)的更新公式:
Figure GDA0004005713650000082
步骤S204:对所述每个文本视图数据的表征矩阵分别进行迭代更新,得到所述每个文本视图数据更新后的表征矩阵;
固定W(v)和H*,更新H(v):引入拉格朗日乘子Ψ约束H≥0,则关于H的拉格朗日函数L(H,Ψ)可以写成为:
L(H,Ψ)=-2tr(WTKH)+tr(WTKWHTH)+α2tr(HTLHH)+βωtr(RTR)+tr(ΨHT);
对L(H,Ψ)进行局部微分可得:
Figure GDA0004005713650000083
使用KKT条件ψijHij=0与图拉普拉斯矩阵LH=DH-SH,因此可得到关于H(v)的更新公式:
Figure GDA0004005713650000084
步骤S205:联合所述每个文本视图数据更新后的表征矩阵,对所述文本多视图数据的一致表征矩阵进行更新,得到所述文本多视图数据更新后的一致表征矩阵;
固定W(v)和H(v),更新H*:由于H*是关于各个视图的一致表征矩阵,需要联合所有视图的表征矩阵进行求导,H*的函数如下:
Figure GDA0004005713650000085
更新公式:
Figure GDA0004005713650000086
对于W(v)和H(v)的初始化进行随机初始化,H*的初始化则根据
Figure GDA0004005713650000091
ωv则为则根据ωv=1/nv,α1和α2则根据模型的性能进行微调,得到最终所得的一致表征矩阵H*
步骤S206:利用K均值聚类算法对所述一致表征矩阵进行聚类,将所述一致表征矩阵的聚类结果作为所述待分类事件的聚类结果。
本实施例中引入了几何结构的特征图约束,利用图拉普拉斯算子同时在特征空间和数据空间进行正则化,同时学习特征空间和数据空间的几何结构信息,能有效增强学习数据的全局和局部信息的能力,提升了多视图文本的聚类效果。
请参考图3,图3为本发明实施例提供的一种基于概念分解的多视图文本聚类装置的结构框图;具体装置可以包括:
采集模块100,用于通过多个视角对待分类事件进行数据采集,得到所述待分类事件的文本多视图数据;
分解模块200,用于利用预先构建的概念分解模型对所述文本多视图数据进行分解,得到所述文本多视图数据的一致表征矩阵;
聚类模块300,用于利用预设聚类算法对所述一致表征矩阵进行聚类,得到所述待分类事件的聚类结果。
本实施例的基于概念分解的多视图文本聚类装置用于实现前述的基于概念分解的多视图文本聚类方法,因此基于概念分解的多视图文本聚类装置中的具体实施方式可见前文中的基于概念分解的多视图文本聚类方法的实施例部分,例如,采集模块100,分解模块200,聚类模块300,分别用于实现上述基于概念分解的多视图文本聚类方法中步骤S101,S102和S103,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
本发明具体实施例还提供了一种基于概念分解的多视图文本聚类设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种基于概念分解的多视图文本聚类方法的步骤。
本发明具体实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种基于概念分解的多视图文本聚类方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的基于概念分解的多视图文本聚类方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (7)

1.一种基于概念分解的多视图文本聚类方法,其特征在于,包括:
通过多个视角对待分类事件进行数据采集,得到所述待分类事件的文本多视图数据;
利用预先构建的概念分解模型对所述文本多视图数据进行分解,得到所述文本多视图数据的一致表征矩阵,包括:
分别将所述文本多视图数据中每个视角所采集的文本视图数据输入至所述概念分解模型的目标函数内,得到每个文本视图数据的关联矩阵和表征矩阵;
对所述每个文本视图数据的关联矩阵分别进行迭代更新,得到所述每个文本视图数据更新后的关联矩阵;
对所述每个文本视图数据的表征矩阵分别进行迭代更新,得到所述每个文本视图数据更新后的表征矩阵;
联合所述每个文本视图数据更新后的表征矩阵,对所述文本多视图数据的一致表征矩阵进行更新,得到所述文本多视图数据更新后的一致表征矩阵;
利用预设聚类算法对所述一致表征矩阵进行聚类,得到所述待分类事件的聚类结果;
所述概念分解模型的目标函数为:
s.t.W(v)≥0,H(v)≥0,ωv≥0,∑ωv=1.
其中,X(v)为所述文本多视图数据中第v个视角中所采集的文本数据,nv为所述文本多视图数据的视图总数,mv为第v个视角中所采集的文本数据的特征维度,n为第v个视角中所采集的文本数据的实例个数;W(v)∈Rn×k为第v个视角中所采集的文本数据的关联矩阵,H(v)∈Rn×k为第v个视角中所采集的文本数据的表征矩阵,为特征图和数据图的拉普拉斯矩阵,α1和α2为对应图约束权重;β与ωv分别为控制惩罚项D(H(v),H*)的权重和所述表征矩阵的权重;H*为所述文本多视图数据的一致表征矩阵。
2.如权利要求1所述的多视图文本聚类方法,其特征在于,所述联合所述每个文本视图数据更新后的表征矩阵,对所述文本多视图数据的一致表征矩阵进行更新,得到所述文本多视图数据更新后的一致表征矩阵包括:
利用联合所述每个文本视图数据更新后的表征矩阵,对所述文本多视图数据的一致表征矩阵进行更新,得到所述文本多视图数据更新后的一致表征矩阵:
3.如权利要求1至2任一项所述的多视图文本聚类方法,其特征在于,所述利用预设聚类算法对所述一致表征矩阵进行聚类,得到所述待分类事件的聚类结果包括:
利用K均值聚类算法对所述一致表征矩阵进行聚类,将所述一致表征矩阵的聚类结果作为所述待分类事件的聚类结果。
4.一种基于概念分解的多视图文本聚类装置,其特征在于,包括:
采集模块,用于通过多个视角对待分类事件进行数据采集,得到所述待分类事件的文本多视图数据;
分解模块,用于利用预先构建的概念分解模型对所述文本多视图数据进行分解,得到所述文本多视图数据的一致表征矩阵;
所述分解模块包括:
分解单元,用于分别将所述文本多视图数据中每个视角所采集的文本视图数据输入至所述概念分解模型的目标函数内,得到每个文本视图数据的关联矩阵和表征矩阵;
关联矩阵更新单元,用于对所述每个文本视图数据的关联矩阵分别进行迭代更新,得到所述每个文本视图数据更新后的关联矩阵;
表征矩阵更新单元,用于对所述每个文本视图数据的表征矩阵分别进行迭代更新,得到所述每个文本视图数据更新后的表征矩阵;
联合单元,用于联合所述每个文本视图数据更新后的表征矩阵,对所述文本多视图数据的一致表征矩阵进行更新,得到所述文本多视图数据更新后的一致表征矩阵;
聚类模块,用于利用预设聚类算法对所述一致表征矩阵进行聚类,得到所述待分类事件的聚类结果;
所述概念分解模型的目标函数为:
s.t.W(v)≥0,H(v)≥0,ωv≥0,∑ωv=1.
其中,X(v)为所述文本多视图数据中第v个视角中所采集的文本数据,nv为所述文本多视图数据的视图总数,mv为第v个视角中所采集的文本数据的特征维度,n为第v个视角中所采集的文本数据的实例个数;W(v)∈Rn×k为第v个视角中所采集的文本数据的关联矩阵,H(v)∈Rn×k为第v个视角中所采集的文本数据的表征矩阵,为特征图和数据图的拉普拉斯矩阵,α1和α2为对应图约束权重;β与ωv分别为控制惩罚项D(H(v),H*)的权重和所述表征矩阵的权重;H*为所述文本多视图数据的一致表征矩阵。
5.如权利要求4所述的多视图文本聚类装置,其特征在于,所述聚类模块具体用于:
利用K均值聚类算法对所述一致表征矩阵进行聚类,将所述一致表征矩阵的聚类结果作为所述待分类事件的聚类结果。
6.一种基于概念分解的多视图文本聚类设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至3任一项所述一种基于概念分解的多视图文本聚类方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述一种基于概念分解的多视图文本聚类方法的步骤。
CN201910379773.8A 2019-05-08 2019-05-08 一种基于概念分解的多视图文本聚类方法、装置及设备 Active CN110096596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910379773.8A CN110096596B (zh) 2019-05-08 2019-05-08 一种基于概念分解的多视图文本聚类方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910379773.8A CN110096596B (zh) 2019-05-08 2019-05-08 一种基于概念分解的多视图文本聚类方法、装置及设备

Publications (2)

Publication Number Publication Date
CN110096596A CN110096596A (zh) 2019-08-06
CN110096596B true CN110096596B (zh) 2023-05-05

Family

ID=67447285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910379773.8A Active CN110096596B (zh) 2019-05-08 2019-05-08 一种基于概念分解的多视图文本聚类方法、装置及设备

Country Status (1)

Country Link
CN (1) CN110096596B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930934B (zh) * 2020-06-05 2023-12-26 江苏理工学院 一种基于对偶局部一致的约束稀疏概念分解的聚类方法
CN113536184B (zh) * 2021-07-15 2022-05-31 广东工业大学 一种基于多源信息的用户划分方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022351A (zh) * 2016-04-27 2016-10-12 天津中科智能识别产业技术研究院有限公司 一种基于非负字典对学习的鲁棒多视角聚类方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253996B (zh) * 2011-07-08 2013-08-21 北京航空航天大学 一种多视角阶段式的图像聚类方法
CN102508881B (zh) * 2011-10-18 2014-07-02 国网电力科学研究院 一种电力信息系统内存数据库的多节点集群系统
CN109063725B (zh) * 2018-06-13 2021-09-28 江苏理工学院 面向多视图聚类的多图正则化深度矩阵分解方法
CN109508737B (zh) * 2018-10-31 2023-09-22 江苏理工学院 基于深度矩阵的约束概念分解聚类方法
CN109685155A (zh) * 2018-12-29 2019-04-26 广东工业大学 基于多视图的子空间聚类方法、装置、设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022351A (zh) * 2016-04-27 2016-10-12 天津中科智能识别产业技术研究院有限公司 一种基于非负字典对学习的鲁棒多视角聚类方法

Also Published As

Publication number Publication date
CN110096596A (zh) 2019-08-06

Similar Documents

Publication Publication Date Title
US8447120B2 (en) Incremental feature indexing for scalable location recognition
CN107292341B (zh) 基于成对协同正则化和nmf的自适应多视图聚类方法
CN110096596B (zh) 一种基于概念分解的多视图文本聚类方法、装置及设备
DE202015009874U1 (de) Implementierung semistrukturierter Daten als ein Datenbankelement erster Klasse
CN104820708B (zh) 一种基于云计算平台的大数据聚类方法和装置
CN103310460A (zh) 图像特征提取的方法及系统
Tsai et al. A fast particle swarm optimization for clustering
Dong et al. Feature extraction through contourlet subband clustering for texture classification
CN108197656A (zh) 一种基于cuda的属性约简方法
Pérez et al. Early classification: A new heuristic to improve the classification step of k-means
CN114065850A (zh) 基于统一锚点与子空间学习的谱聚类方法及系统
Li et al. Scalable fast rank-1 dictionary learning for fMRI big data analysis
CN111126169A (zh) 基于正交化的图正则非负矩阵分解的人脸识别方法及系统
CN104063230B (zh) 基于MapReduce的粗糙集并行约简方法、装置及系统
Little et al. An analysis of classical multidimensional scaling
CN112800020A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN108629356A (zh) 一种面向用电负荷分类应用的数据存储方法和装置
CN113225300A (zh) 一种基于图像的大数据分析方法
CN106933805B (zh) 一种大数据集中生物事件触发词的识别方法
CN116992488B (zh) 一种差分隐私保护方法及系统
WO2023283781A1 (zh) 用于生成材料的微观结构数据的方法
Tungkasthan et al. A parallel processing framework using MapReduce for content-based image retrieval
KAREEM et al. An Evaluation of Big Data Reduction Approaches.
WO2024004083A1 (ja) データ生成装置、データ生成方法、およびプログラム
Sun et al. Large Scale Text Clustering Method Study Based on MapReduce

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant