CN109784354B - 基于改进分类效用的无参数聚类方法及电子设备 - Google Patents

基于改进分类效用的无参数聚类方法及电子设备 Download PDF

Info

Publication number
CN109784354B
CN109784354B CN201711125165.1A CN201711125165A CN109784354B CN 109784354 B CN109784354 B CN 109784354B CN 201711125165 A CN201711125165 A CN 201711125165A CN 109784354 B CN109784354 B CN 109784354B
Authority
CN
China
Prior art keywords
clustered
instances
class
examples
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711125165.1A
Other languages
English (en)
Other versions
CN109784354A (zh
Inventor
徐家燕
姜伟
冯宜安
位恒曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201711125165.1A priority Critical patent/CN109784354B/zh
Publication of CN109784354A publication Critical patent/CN109784354A/zh
Application granted granted Critical
Publication of CN109784354B publication Critical patent/CN109784354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例中提供一种基于改进分类效用的无参数聚类方法及电子设备,用以解决现有技术中存在通过现有的聚类方法划分类别时得到的聚类结果的准确性较低的技术问题。其中,方法包括确定多个待聚类实例对应的多个类向量;基于由多个类向量确定的相似度矩阵对多个待聚类实例进行至少一次合并,获得至少一个合并结果,并计算每个合并结果对应的分类效用值,分类效用值用于指示多个待聚类实例的基本层次类别;若至少一个合并结果中任一合并结果表明多个待聚类实例对应的类别个数小于等于预设类别个数,或者多个待聚类实例对应的至少两个类别中两两类别之间的最大相似度为零,则输出聚类结果,聚类结果为分类效用值最大时对应的合并结果。

Description

基于改进分类效用的无参数聚类方法及电子设备
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种基于改进分类效用的无参数聚类方法及电子设备。
背景技术
大数据时代的数据膨胀正在改变着社会的各个领域,包括公共政策、科学发现、业务策略,甚至我们的个人生活。面对大规模的数据,如何从中高效、准确地提取出有价值的信息变得更加困难,也更加有意义。聚类作为数据挖掘的重要工具,能够根据数据本身的特征和规律对数据进行分类和整理,无需事先标记数据,也无需事先制定规则,在数据治理、多文档分类、模式挖掘等领域都有着广泛的应用,也吸引了大量的研究目光。同时,聚类不仅可以作为独立的数据挖掘工具对数据进行分析,也可以作为其他数据挖掘算法的预处理过程。
聚类的目的是根据对象之间的相似性将对象划分成多个类别,使得同一类别的对象之间尽可能的相似,而不同类别的对象之间尽可能的相异。在分类学研究中,分类可以看作是一个概念层次结构,不同层次的概念之间是属于关系,研究人员通常利用层次聚类算法去自动抽取文本数据中的概念层次,同时,也有研究人员将层次聚类算法与一些度量方法相结合去寻找最优的类别划分。由此可见,层次聚类算法在分类学习中起着重要的作用。比较经典的层次聚类算法包括T.Zhang等人提出的利用层次方法的平衡迭代约减和聚类(Balanced Iterative Reducing and Clustering Using Hierarchis,BIRCH)算法,GuhaU等人提出的(Clustering Using Representatives,CURE)算法以及George K等人提出的CHAMELEON算法等等。
在现实生活中,类别是有层次结构的,人们在描述一个对象时通常会将其划分到一个合适的类别,划分的角度不同,得到的划分结果也会不同。然而,大多数现有的聚类方法得到的聚类结果对用户来说往往不易理解,例如,给定一个水果相关的数据集,人们通常会将它划分为苹果、橘子、香蕉等类别,但现有的聚类算法有可能会将它划分为红富士、黄元帅、国光等类别,这种情况下得到的划分结果对用户来说就会很难理解,准确性较低。同时,现有的聚类方法都需要用户输入一些敏感的参数,而这些参数又会对聚类结果产生直接的影响,这使得聚类的质量难以控制,准确性较低。而层次聚类方法虽然可以在不同粒度水平上对数据进行分析,并发现类别之间的层次关系,但是它无法自动找到层次关系中最贴近用户的层次类别。
综上可知,现有技术中存在通过现有的聚类方法划分类别时得到的聚类结果的准确性较低的技术问题。
发明内容
本发明实施例提供一种基于改进分类效用的无参数聚类方法及电子设备,用以解决现有技术中的存在的通过现有的聚类方法划分类别时得到的聚类结果的准确性较低的技术问题。
第一方面
本发明实施例提供一种基于改进分类效用的无参数聚类方法,包括:
确定多个待聚类实例对应的多个类向量,其中,一个待聚类实例对应一个类向量,所述一个类向量用于指示相应待聚类实例的类别特征;基于相似度矩阵对所述多个待聚类实例进行至少一次合并,获得至少一个合并结果,并计算每个合并结果对应的分类效用值,其中,所述相似度矩阵由所述多个类向量确定,所述分类效用值用于指示所述多个待聚类实例的基本层次类别;若所述至少一个合并结果中任一合并结果表明所述多个待聚类实例对应的类别个数小于等于预设类别个数,或者所述多个待聚类实例对应的至少两个类别中两两类别之间的最大相似度为零,则输出聚类结果,所述聚类结果为所述分类效用值最大时对应的合并结果。
在一种可能的实现方式中,所述确定多个待聚类实例对应的多个类向量,包括:
获取多个待聚类实例对应的原始数据,所述原始数据包括文本数据、连续型数据中的一个或者多个;
基于数据标准化方法对所述原始数据进行归一化处理,确定所述多个待聚类实例对应的多个类向量。
在一种可能的实现方式中,在所述确定多个待聚类实例对应的多个类向量之后,所述方法还包括:
基于余弦夹角公式及所述多个类向量,确定所述多个待聚类实例中每两个待聚类实例之间的相似度;
基于所述相似度,确定所述相似度矩阵。
在一种可能的实现方式中,所述计算每个合并结果对应的分类效用值通过以下公式进行:
Figure BDA0001468228370000031
其中,ECU(C,F)表示分类效用值,C表示所述多个待聚类实例的类别集合,F表示所述多个待聚类实例对应的特征集合,fi为所述特征集合中的一个特征,H(fi|ck)表示特征fi在类别ck中的熵,|ck|表示类别ck的大小,p(ck)表示一个待聚类实例属于类别ck的概率,所述类别ck属于所述类别集合C,H(fi)表示特征fi在整个数据集中的熵,N表示所述待聚类实例的总数,n表示所述特征集合的特征总数,m表示所述类别集合的类别总数,NH(fi|ck)等于
Figure BDA0001468228370000032
NH(fi)等于
Figure BDA0001468228370000041
在一种可能的实现方式中,所述基于相似度矩阵对所述多个待聚类实例进行至少一次合并,获得至少一个合并结果,包括:
基于所述相似度矩阵,对所述多个待聚类实例中相似度最高的两个待聚类实例进行合并,获得新类别实例;
基于所述新类别实例对应的类向量与所述多个待聚类实例中除所述相似度最高的两个待聚类实例外的待聚类实例对应的类向量,更新所述相似度矩阵,获得更新后的相似度矩阵;
基于所述更新后的相似度矩阵对所述新类别实例及所述多个待聚类实例中除所述相似度最高的两个待聚类实例外的待聚类实例继续进行合并,获得至少一个合并结果。
第二方面
本发明实施例提供一种电子设备,包括:
确定模块,用于确定多个待聚类实例对应的多个类向量,其中,一个待聚类实例对应一个类向量,所述一个类向量用于指示相应待聚类实例的类别特征;
处理模块,用于基于相似度矩阵对所述多个待聚类实例进行至少一次合并,获得至少一个合并结果,并计算每个合并结果对应的分类效用值,其中,所述相似度矩阵由所述多个类向量确定,所述分类效用值用于指示所述多个待聚类实例的基本层次类别;
输出模块,用于若所述至少一个合并结果中任一合并结果表明所述多个待聚类实例对应的类别个数小于等于预设类别个数,或者所述多个待聚类实例对应的至少两个类别中两两类别之间的最大相似度为零,则输出聚类结果,所述聚类结果为所述分类效用值最大时对应的合并结果。
在一种可能的实现方式中,所述确定模块用于:
获取多个待聚类实例对应的原始数据,所述原始数据包括文本数据、连续型数据中的一个或者多个;
基于数据标准化方法对所述原始数据进行归一化处理,确定所述多个待聚类实例对应的多个类向量。
在一种可能的实现方式中,所述处理模块还用于:
在所述确定多个待聚类实例对应的多个类向量之后,基于余弦夹角公式及所述多个类向量,确定所述多个待聚类实例中每两个待聚类实例之间的相似度;
基于所述相似度,确定所述相似度矩阵。
在一种可能的实现方式中,所述处理模块通过以下公式计算每个合并结果对应的分类效用值:
Figure BDA0001468228370000051
其中,ECU(C,F)表示分类效用值,C表示所述多个待聚类实例的类别集合,F表示所述多个待聚类实例对应的特征集合,fi为所述特征集合中的一个特征,H(fi|ck)表示特征fi在类别ck中的熵,|ck|表示类别ck的大小,p(ck)表示一个待聚类实例属于类别ck的概率,所述类别ck属于所述类别集合C,H(fi)表示特征fi在整个数据集中的熵,N表示所述待聚类实例的总数,n表示所述特征集合的特征总数,m表示所述类别集合的类别总数,NH(fi|ck)等于
Figure BDA0001468228370000052
NH(fi)等于
Figure BDA0001468228370000053
在一种可能的实现方式中,所述处理模块用于:
基于所述相似度矩阵,对所述多个待聚类实例中相似度最高的两个待聚类实例进行合并,获得新类别实例;
基于所述新类别实例对应的类向量与所述多个待聚类实例中除所述相似度最高的两个待聚类实例外的待聚类实例对应的类向量,更新所述相似度矩阵,获得更新后的相似度矩阵;
基于所述更新后的相似度矩阵对所述新类别实例及所述多个待聚类实例中除所述相似度最高的两个待聚类实例外的待聚类实例继续进行合并,获得至少一个合并结果。
第三方面
本发明实施例提供一种计算机装置,所述计算机装置包括:
至少一个处理器,以及
与所述至少一个处理器通信连接的存储器、通信接口;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令,利用所述通信接口执行如第一方面所述的方法。
第四方面
本发明实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如第一方面所述的方法。
本发明实施例提供一种基于改进分类效用的无参数聚类方法,通过确定多个待聚类实例对应的多个类向量,然后基于由多个类向量确定的相似度矩阵对多个待聚类实例进行至少一次合并,获得至少一个合并结果并计算每个合并结果对应的分类效用值,若确定任一合并结果表明多个待聚类实例对应的类别个数小于等于预设类别个数,或者对应的至少两个类别中两两类别之间的最大相似度为零,则输出聚类结果,其中,聚类结果为分类效用值最大时对应的合并结果。解决了现有技术中存在通过现有的聚类方法划分类别时得到的聚类结果的准确性较低的技术问题,实现可以从用户的角度对数据进行聚类,自动找到符合人类认知的层次类别,使得聚类结果对用户来说更加自然和容易理解,并且聚类过程不依赖于任何参数。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中提供的一种基于改进分类效用的无参数聚类方法的流程示意图;
图2为本发明实施例中不同类别的多个待聚类实例的合并过程示意图;
图3为本发明实施例中两个文本数据类别的类内相似度比较;
图4为本发明实施例中文本数据和连续型数据的示意图;
图5为本发明实施例中以待聚类的原始数据为连续型数据为例时聚类方法的总体流程示意图;
图6为本发明实施例中电子设备的模块示意图;
图7为本发明实施例中计算机装置的模块示意图。
具体实施方式
为了使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
首先对现有技术中的几种层次聚类算法进行简单的介绍如下。
BIRCH算法用聚类中心和半径代表聚类,通过动态构造聚类特征树实现数据的快速划分。该算法具有很高的效率,空间复杂度也很低,特别适合大规模的数据集,但它的缺点是无法发现任意形状和大小的聚类。
CURE算法回避了用聚类中心和半径来代表聚类,而是用一组固定数目的分布较好的点来代表一个聚类,并将这些点乘以一个适当的收缩因子,使它们更加靠近聚类的中心点。该算法可以发现任意形状的聚类,并且收缩因子的使用大大减小了孤立点对聚类的影响,但是算法本身对收缩因子的取值非常敏感,取值稍有改动可能就会导致完全不同的聚类结果。
CHAMELEON算法在层次聚类过程中采用了动态模型,在开始的时候,先为所有数据点构造一个K-最近邻居图,再通过图的划分算法将构造的邻居图划分为多个子图,每个子图代表一个初始子类,然后用凝聚性的层次聚类算法反复合并子类。CHAMELEON算法可以发现任意形状的聚类,而且它在合并子类时,既考虑了对象之间的相似性,又考虑了对象之间的互联性,大大减小了噪音的影响,可以得到质量很高的聚类,但是CHAMELEON算法的复杂度较高,不适用于大规模的数据集。除了以上三种算法之外,还有其他一些算法从不同的方面对层次聚类算法做出了改进,比如,在计算两个对象之间的相似度时,ROCK算法会考虑周围其他对象的影响,而SBAC算法则会考虑特征对于体现对象本质的重要程度。
此外,Fisher提出了一种增量的概念聚类算法,即COBWEB算法,该算法通过在每个增量步骤最大化评估值来构建类似于分类树的层次结构,其中的评估值使用认知心理学中的分类效用来度量,在每个增量步骤,该算法都会添加一个实例或对象到分类树中。COBWEB算法采用了四种基本操作去构建分类树,而每一步操作的选择都取决于分类效用。Gennari等人对COBWEB算法进行了扩展,提出了一种新的CLASSIT算法,并将其应用到连续型数据的增量聚类中。
Trappey等人提出了一种基于模糊本体的文本聚类算法,该算法通过模糊的逻辑控制方法来匹配合适的文本聚类,引入了聚类中的语义,使得聚类结果更加自然和容易理解,但是,本体的可扩展性和质量会对聚类的性能产生很大的影响。Wen-hao Chen等人将情境信息引入到认知心理学的分类效用中,提出了一种新的基于情境的分类效用函数,并将该函数与层次聚类算法相结合去发现不同情境下的基本层次概念。Wang等人将寻找基本层次类别的问题转化为寻找实物及其概念之间对应关系的问题,先后引入了典型typicality、点互信息(Pointwise Mutual Information,PMI)和NPMI的概念,并利用这些概念去寻找基本层次类别。功能规范可以看作是常识知识存储库的基本层次概念,于是E.Barbu等人提出了一种获得常识知识的方法,并用这种方法去提取语料库中的功能基准,即所谓的基本层次概念。通过研究描述视觉的基本层次概念以及在成千上万的概念中观察上下文相关的基本名称,Mathews等人提出了一种可以预测视觉基本层次概念的方法。
为便于本领域技术人员理解,下面对本发明实施例中的聚类方法的总体思路介绍如下。
在类别层次结构中,有一个中间层次在人们心中占有特殊的地位,人们更容易在这一层次上对事物进行区分,他们将这个层次定义为基本层次,而将这个层次上的类别定义为基本层次类别。基本层次类别是类别层次结构中最符合人类基本认知需求的一组类别,在日常生活中,人们习惯于将一个对象映射到一个基本层次类别中,这个分类过程是自动的、潜意识的。因此,对用户来说,从基本层次类别的粒度上对数据进行划分要比从其他粒度上对数据进行划分更有意义。根据以上分析,我们就可以将聚类问题转化为寻找基本层次类别的问题。
为了对基本层次类别的特征进行量化,心理学家给出了一种“类别良好性”度量,即分类效用(Category Utility,CU),通过大量的实验证明,基本层次类别的特点是具有分类效用的最大值。
根据基本层次类别的这一特点,本发明实施例中对现有的分类效用进行改进,并在改进后的分类效用的基础上,实现本发明实施例中的无参数聚类方法,以实现可以从用户的角度对数据进行聚类,自动找到符合人类认知的基本层次类别,使得聚类结果对用户来说更加准确和容易理解。
下面结合附图对本发明优选的实施例作详细的介绍。
实施例一
请参见图1,本发明实施例提供一种基于改进分类效用的无参数聚类方法,聚类方法的实现过程可以描述如下。
S101:确定多个待聚类实例对应的多个类向量,其中,一个待聚类实例对应一个类向量,一个类向量用于指示相应待聚类实例的类别特征;
S102:基于相似度矩阵对多个待聚类实例进行至少一次合并,获得至少一个合并结果,并计算每个合并结果对应的分类效用值,其中,相似度矩阵由多个类向量确定,分类效用值用于指示多个待聚类实例的基本层次类别;
S103:若至少一个合并结果中任一合并结果表明多个待聚类实例对应的类别个数小于等于预设类别个数,或者多个待聚类实例对应的至少两个类别中两两类别之间的最大相似度为零,则输出聚类结果,聚类结果为分类效用值最大时对应的合并结果。
在S101中,多个待聚类实例中的每个待聚类实例可以作为单独的一个类别,并且可以从每个待聚类实例中构造相应的类向量、用于指示相应待聚类实例的类别特征,即每个类向量为相应待聚类实例的特征向量。
在一种可能的实现方式中,确定多个待聚类实例对应的多个类向量,可以通过但不仅限于以下方式进行:
获取原始数据,其中,原始数据可以包括文本数据、连续型数据中的一种或者多种。在实际应用中,文本数据可以是包括财经、娱乐、社会等多种类型的新闻文本数据,也可以是论文、公告等文本数据;连续型数据可以是在某段时间内采集的多个温度值所构成的数据等。当然,文本数据和连续型数据具体为何种数据可以视实际情况而定,上述只是示例性的解释,并不是对本发明实施例的限定。
然后,可以根据原始数据的数据类型,如文本数据类型和/或连续型数据,使用合适的数据标准化方法对原始数据进行标准化处理,如归一化处理等,以确定多个待聚类实例对应的多个类向量。
数据标准化方法可以为离差标准化(Min-Max normalization)方法,可以对原始数据进行线性变换;或者也可以是标准差标准化(Zero-mean normalization)方法、归一标准化方法等。具体的处理过程,可以参见现有技术,本发明实施例不再赘述。
举例来说,若原始数据为文本数据,假设该文本数据包括20个文本,20个文本中可以包括财经、娱乐、社会等多种类型的文本。可以首先从这20个文本中提取30个特征词,然后分别计算每个特征词在每个文本中出现的比例,作为该文本对应的类向量,即特征向量的一个分量。因此,经过上述标准化处理后,可以确定这20个文本中每个文本对应的类向量,该类向量的维度为30。
而若原始数据为连续型数据,假设该连续型数据包括10个属性,那么可以计算每个属性在该连续型数据中所占的比例,进而确定该连续型数据对应的类向量,该类向量的维度为10。即本发明实施例中的聚类方法可以同时适用于文本数据和连续型数据。
在确定多个待聚类实例对应的多个类向量之后,可以根据公式(1)的余弦夹角公式对多个类向量进行处理,以确定每两个待聚类实例之间的相似度,进而根据相似度,构建相似度矩阵。
Figure BDA0001468228370000111
公式(1)中,simij表示多个待聚类实例中第i个待聚类实例和第j个待聚类实例之间的相似度,xik表示第i个待聚类实例对应的类向量上的第k个分量,xjk表示第j个待聚类实例对应的类向量上的第k个分量,n表示类向量的维度。
在构建相似度矩阵之后,可以进入S102,即可以根据相似度矩阵对多个待聚类实例进行至少一次合并,获得至少一个合并结果,并计算每个合并结果对应的分类效用值。
比如,请参见图2,图2中显示了三个不同类别的多个待聚类实例的合并过程,图2中三个不同类别分别为黑色实心圆、黑色实心五角型和黑色三角形。需要说明的是,在合并之初,每个待聚类实例对应一种类别,即在合并之初,图2中包括22个待聚类实例,对应22个类别。
在合并的过程中,可以根据相似度矩阵,每次选择相似度最高的两个待聚类实例进行合并,每次合并对应一个合并结果,而每个合并结果可以指示当次合并对应的实例类别及当次合并后实例的类别个数,且每次合并后一个类别可以包括1个或者多个实例。
从图2可以看出,在经过第一次合并之后,实例的类别个数为14,其中,类别1包括2个实例,类别2包括2个实例,……,类别6包括1个实例等。
若经至少一次合并后,实例类别的个数为3时,分类效用值达到最大,这时可以认为合并结果就是这22个待聚类实例对应的基本层次类别,即22个待聚类实例对应3个类别,其中,第一个类别包括11个实例,第二个类别包括4个实例,第三个类别包括7个实例。
在一种可能的实现方式中,在对多个待聚类实例进行至少一次合并的过程中,可以不断的对相似度矩阵进行更新。
通过公式(1),可以计算得到多个待聚类实例中每两个待聚类实例之间的相似度,进而可以构成第一相似度矩阵。然后,可以根据第一相似度矩阵,选择相似度最高的两个待聚类实例进行合并,合并之后可以生成一个新类别实例。下一次合并的实例就包括新类别实例和除去合并的相似度最高的两个待聚类实例外的剩余待聚类实例。
这时,可以选择合适的标准化方法对新类别实例进行标准化处理,得到新类别实例对应的类向量,然后同样采用公式(1)计算新类别实例和剩余待聚类实例之间的相似度,获得第二相似度矩阵,即更新后的相似度矩阵,而下一次合并可以以第二相似度矩阵为基础,然后重复上述过程直到合并完成,停止聚类。在上述至少一次合并的过程中,每一次合并都会获得一个合并结果。
在获得至少一个合并结果后,可以计算每个合并结果对应的分类效用值。
现有技术中,分类效用的定义式可以参见公式(2)。
Figure BDA0001468228370000121
公式(2)中,C表示类别集合,F表示特征集合,fi是特征集合中的一个特征,p(fi|ck)表示在类别ck中,一个实例拥有特征fi的概率,p(ck)表示一个实例属于类别ck的概率,p(fi)表示在整个数据集中,一个实例拥有特征fi的概率,n表示特征总数,m表示类别总数。
然而,现有的分类效用至少存在以下两点不足。
第一、不能准确度量类内相似度。
请参见图3,为两个文本数据类别的类内相似度比较。图3中Ci和Cj两个类别具有相同的特征分布,即f1、f2、f3和f4。如果使用现有技术中的分类效用的特征概率来度量类内相似度,这两个类别的类内相似度相等。但是,实际上左边类别的特征取值比较接近,而右边类别的特征取值比较分散,这种情况下,左边类别的类内相似度应该高于右边类别的类内相似度。
第二、无法应用于连续型数据。
请参见图4,图4中的Ci和Cj两个类别具有相同的实例向量,但是Ci类别属于文本数据类别,Cj类别属于连续型数据类别。对于文本数据类别,以根据特征在文本中是否出现来计算特征概率,例如特征f1没有在第三个文本中出现,所以它的条件概率值p(f1|ci)等于2/3。然而,对于连续型数据,它的每个实例在每个属性上都有取值,并不存在是否包含某属性的概念,所以无法对连续型类别计算分类效用中的特征概率,也就无法利用现有的分类效用去寻找连续型数据中的基本层次类别。
因此,针对上述两点不足,本发明实施例对现有的分类效用的定义公式(2)进行了改进,获得改进后的分类效用公式(3),并通过公式(3)来来计算每个合并结果对应的分类效用值。
Figure BDA0001468228370000131
其中,ECU(C,F)表示分类效用值,C表示多个待聚类实例的类别集合,F表示多个待聚类实例对应的特征集合,fi为特征集合中的一个特征,H(fi|ck)表示特征fi在类别ck中的熵,|ck|表示类别ck的大小,p(ck)表示一个待聚类实例属于类别ck的概率,类别ck属于类别集合C,H(fi)表示特征fi在整个数据集中的熵,N表示待聚类实例的总数,n表示特征集合的特征总数,m表示类别集合的类别总数,NH(fi|ck)等于
Figure BDA0001468228370000141
NH(fi)等于
Figure BDA0001468228370000142
也就是说,本发明实施例中的公式(3)可以使用熵来度量类别特征在类别中取值的接近程度,同时考虑了类别的大小,使用log|ck|做归一化,提出了一个特征熵的概念。然后,可以使用特征熵,替代现有的分类效用中的特征概率,并修改相应的指数,提出了一种新的基于熵的分类效用函数(Entropy-based Category Utility,ECU)。
基于以上分析,本发明实施例中可以利用ECU去寻找文本数据和连续型数据中的基本层次类别,提出了一种基于ECU的聚类方法。该方法将ECU作为合并过程中的优化目标,通过在每一次合并后计算ECU的值来找到数据中的基本层次类别,基于ECU的聚类方法可以同时应用于文本数据和连续型数据。
在通过上述方式获得至少一个合并结果,及每个合并结果对应的分类效用值之后,可以进入S103,若可以确定至少一个合并结果中任一合并结果表明多个待聚类实例对应的类别个数小于等于预设类别个数,或者多个待聚类实例对应的至少两个类别中两两类别之间的最大相似度为零,则输出聚类结果,聚类结果为分类效用值最大时对应的合并结果。
举例来说,假设预设类别个数为1,那么在经过至少一次合并之后,任一合并结果表明当然实例的类别个数为1,可以认为待聚类实例之间的合并结束,无法再进行一步的合并。而由于每次合并后都会通过公式(3)计算相应的分类效用值,即ECU值,因此,这时可以比较至少一个合并结果分别对应的分类效用值的大小,并确定分类效用值最大时对应的合并结果为本次聚类的聚类结果。
或者,在对多个待聚类实例进行合并后,获得至少一个合并结果中任一合并结果表明,多个待聚类实例对应了至少两个类别,即将多个待聚类实例合并成了至少两个类别,这时可以计算至少两个类别中两两类别之间的相似度。若最大相似度为零,也可以停止聚类,可以比较至少一个合并结果分别对应的分类效用值的大小,并确定分类效用值最大时对应的合并结果为本次聚类的聚类结果。
在此基础上,可以进一步地根据上述聚类结果重新构建实例对应的类向量,采用上述方式再一次确定基本层次类别。然后,使用可视化的方法分析类别之间的大小以及相似度关系,发现其中真正的基本层次类别和无关的离散类,对于离散中的每个实例,利用邻近算法(K-NearestNeighbor,KNN)原理,找到基本层次类别中与其最近的实例,根据离散中的每个实例所属的类别将其划分到相应的基本层次类别中,最后将基本层次类别输出。
请参见图5,下面以待聚类的原始数据为连续型数据为例,对本发明实施例中的聚类方法的总体流程进行介绍。
S501:输入连续型数据集。该连续型数据集中可以包括多种类型的连续型数据样本,比如温度在预设时间段内的取值等。
S502:使用合适的方法对数据进行标准化处理,然后进入S503。可以根据连续型数据的类型采用前述介绍的合适的标准化方法对数据进行标准化处理,可以得到每类连续型数据样本对应的特征向量,即类向量,可以用于后续相似度的计算。
S503:计算每两个类之间的相似度,将其存储在相似度矩阵中,然后进入S504。
S504:选择最相似的两个类进行合并,更新相似度矩阵。即可以根据S503中确定的相似度矩阵,选择相似度最高的两类连续型数据进行合并,获得新类别的连续型数据,并对相似度矩阵进行更新。
S505:计算S504中合并后ECU值,存储该ECU值及其对应的合并结果。
S506:确定合并结果对应的类别个数是否为1,或者确定合并结果对应的两两类别之间的最大相似度是否为0,若是,则进入S507,否则返回S504;
S507:输出ECU值最大时所对应的合并结果,然后进入S508。
S508:根据合并结果将离散类中的数据划分到基本层次类别中。由于合并结果中可能会存在一些离散类的未划分类别的数据,因此,可以根据合并结果,将这些离散类的数据划分到基本层次类别中。
S509:输出基本层次类别。
综上所述,本发明实施例的一个或者多个技术方案,具有如下技术效果或者优点:
第一、本发明实施例提供一种基于改进分类效用的无参数聚类方法,通过确定多个待聚类实例对应的多个类向量,然后基于由多个类向量确定的相似度矩阵对多个待聚类实例进行至少一次合并,获得至少一个合并结果并计算每个合并结果对应的分类效用值,若确定任一合并结果表明多个待聚类实例对应的类别个数小于等于预设类别个数,或者对应的至少两个类别中两两类别之间的最大相似度为零,则输出聚类结果,其中,聚类结果为分类效用值最大时对应的合并结果。解决了现有技术中存在通过现有的聚类方法划分类别时得到的聚类结果的准确性较低的技术问题,实现可以从用户的角度对数据进行聚类,自动找到符合人类认知的层次类别,使得聚类结果对用户来说更加自然和容易理解,并且聚类过程不依赖于任何参数。
第二、由于本发明实施例中对现有技术中的分类效用的计算公式进行改进,通过在每一次合并后计算分类效用的值来确定聚类数据的基本层次类别,可以同时应用于文本数据和连续型数据。
第三、由于本发明实施例中引入了基本层次类别和分类效用的概念,将聚类问题转化为了寻找基本层次类别的问题,采用层次聚类方法构造类别的层次结构,利用分类效用寻找层次结构中的基本层次类别,并对分类效用的定义公式进行改进,将函数扩展到连续型数据,实现了从用户的角度对数据进行聚类,自动找到符合人类认知的层次类别,解决了传统算法得到的聚类结果不符合人类认知且依赖于用户输入参数的问题。
实施例二
请参见图6,基于同一发明构思,本发明实施例中提供一种电子设备,包括:
确定模块61,用于确定多个待聚类实例对应的多个类向量,其中,一个待聚类实例对应一个类向量,所述一个类向量用于指示相应待聚类实例的类别特征;
处理模块62,用于基于相似度矩阵对所述多个待聚类实例进行至少一次合并,获得至少一个合并结果,并计算每个合并结果对应的分类效用值,其中,所述相似度矩阵由所述多个类向量确定,所述分类效用值用于指示所述多个待聚类实例的基本层次类别;
输出模块63,用于若所述至少一个合并结果中任一合并结果表明所述多个待聚类实例对应的类别个数小于等于预设类别个数,或者所述多个待聚类实例对应的至少两个类别中两两类别之间的最大相似度为零,则输出聚类结果,所述聚类结果为所述分类效用值最大时对应的合并结果。
在一种可能的实现方式中,所述确定模块61用于:
获取多个待聚类实例对应的原始数据,所述原始数据包括文本数据、连续型数据中的一个或者多个;
基于数据标准化方法对所述原始数据进行归一化处理,确定所述多个待聚类实例对应的多个类向量。
在一种可能的实现方式中,所述处理模块62还用于:
在所述确定多个待聚类实例对应的多个类向量之后,基于余弦夹角公式及所述多个类向量,确定所述多个待聚类实例中每两个待聚类实例之间的相似度;
基于所述相似度,确定所述相似度矩阵。
在一种可能的实现方式中,所述处理模块62通过以下公式计算每个合并结果对应的分类效用值:
Figure BDA0001468228370000181
其中,ECU(C,F)表示分类效用值,C表示所述多个待聚类实例的类别集合,F表示所述多个待聚类实例对应的特征集合,fi为所述特征集合中的一个特征,H(fi|ck)表示特征fi在类别ck中的熵,|ck|表示类别ck的大小,p(ck)表示一个待聚类实例属于类别ck的概率,所述类别ck属于所述类别集合C,H(fi)表示特征fi在整个数据集中的熵,N表示所述待聚类实例的总数,n表示所述特征集合的特征总数,m表示所述类别集合的类别总数,NH(fi|ck)等于
Figure BDA0001468228370000182
NH(fi)等于
Figure BDA0001468228370000183
在一种可能的实现方式中,所述处理模块62用于:
基于所述相似度矩阵,对所述多个待聚类实例中相似度最高的两个待聚类实例进行合并,获得新类别实例;
基于所述新类别实例对应的类向量与所述多个待聚类实例中除所述相似度最高的两个待聚类实例外的待聚类实例对应的类向量,更新所述相似度矩阵,获得更新后的相似度矩阵;
基于所述更新后的相似度矩阵对所述新类别实例及所述多个待聚类实例中除所述相似度最高的两个待聚类实例外的待聚类实例继续进行合并,获得至少一个合并结果。
实施例三
请参见图7,基于同一发明构思,本发明实施例中提供一种计算机装置,包括至少一个处理器71,以及与所述至少一个处理器71通信连接的存储器72和通信接口73,图7中以示出一个处理器71为例。
其中,所述存储器72存储有可被所述至少一个处理器71执行的指令,所述至少一个处理器71通过执行所述存储器72存储的指令,利用所述通信接口73执行如实施例一中所述的方法。
实施例四
基于同一发明构思,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如实施例一所述的方法。
在具体的实施过程中,计算机可读存储介质包括:通用串行总线闪存盘(Universal Serial Bus flash drive,USB)、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的存储介质。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元/模块可以是或者也可以不是物理上分开的,作为单元/模块显示的部件可以是或者也可以不是物理单元/模块,即可以位于一个地方,或者也可以分布到多个网络单元/模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (12)

1.一种基于改进分类效用的无参数聚类方法,其特征在于,所述方法包括:
确定多个待聚类实例对应的多个类向量,其中,一个待聚类实例对应一个类向量,所述一个类向量用于指示相应待聚类实例的类别特征;一个待聚类实例为文本实例或者能产生连续型数据的实例,其中,所述连续型数据为在某段时间内采集的多个温度值所构成的数据;
基于相似度矩阵对所述多个待聚类实例进行至少一次合并,获得至少一个合并结果,并计算每个合并结果对应的分类效用值,其中,所述相似度矩阵由所述多个类向量确定,所述分类效用值用于指示所述多个待聚类实例的基本层次类别;
若所述至少一个合并结果中任一合并结果表明所述多个待聚类实例对应的类别个数小于等于预设类别个数,或者所述多个待聚类实例对应的至少两个类别中两两类别之间的最大相似度为零,则输出聚类结果,所述聚类结果为所述分类效用值最大时对应的合并结果。
2.如权利要求1所述的方法,其特征在于,所述确定多个待聚类实例对应的多个类向量,包括:
获取多个待聚类实例对应的原始数据,所述原始数据包括文本数据、连续型数据中的一个或者多个;
基于数据标准化方法对所述原始数据进行归一化处理,确定所述多个待聚类实例对应的多个类向量。
3.如权利要求2所述的方法,其特征在于,在所述确定多个待聚类实例对应的多个类向量之后,所述方法还包括:
基于余弦夹角公式及所述多个类向量,确定所述多个待聚类实例中每两个待聚类实例之间的相似度;
基于所述相似度,确定所述相似度矩阵。
4.如权利要求1-3中任一权项所述的方法,其特征在于,所述计算每个合并结果对应的分类效用值通过以下公式进行:
Figure FDA0002946882510000021
其中,ECU(C,F)表示分类效用值,C表示所述多个待聚类实例的类别集合,F表示所述多个待聚类实例对应的特征集合,fi为所述特征集合中的一个特征,H(fi|ck)表示特征fi在类别ck中的熵,|ck|表示类别ck的大小,p(ck)表示一个待聚类实例属于类别ck的概率,所述类别ck属于所述类别集合C,H(fi)表示特征fi在整个数据集中的熵,N表示所述待聚类实例的总数,n表示所述特征集合的特征总数,m表示所述类别集合的类别总数,NH(fi|ck)等于
Figure FDA0002946882510000022
NH(fi)等于
Figure FDA0002946882510000023
5.如权利要求4所述的方法,其特征在于,所述基于相似度矩阵对所述多个待聚类实例进行至少一次合并,获得至少一个合并结果,包括:
基于所述相似度矩阵,对所述多个待聚类实例中相似度最高的两个待聚类实例进行合并,获得新类别实例;
基于所述新类别实例对应的类向量与所述多个待聚类实例中除所述相似度最高的两个待聚类实例外的待聚类实例对应的类向量,更新所述相似度矩阵,获得更新后的相似度矩阵;
基于所述更新后的相似度矩阵对所述新类别实例及所述多个待聚类实例中除所述相似度最高的两个待聚类实例外的待聚类实例继续进行合并,获得至少一个合并结果。
6.一种电子设备,其特征在于,所述电子设备包括:
确定模块,用于确定多个待聚类实例对应的多个类向量,其中,一个待聚类实例对应一个类向量,所述一个类向量用于指示相应待聚类实例的类别特征;一个待聚类实例为文本实例或者能产生连续型数据的实例,其中,所述连续型数据为在某段时间内采集的多个温度值所构成的数据;
处理模块,用于基于相似度矩阵对所述多个待聚类实例进行至少一次合并,获得至少一个合并结果,并计算每个合并结果对应的分类效用值,其中,所述相似度矩阵由所述多个类向量确定,所述分类效用值用于指示所述多个待聚类实例的基本层次类别;
输出模块,用于若所述至少一个合并结果中任一合并结果表明所述多个待聚类实例对应的类别个数小于等于预设类别个数,或者所述多个待聚类实例对应的至少两个类别中两两类别之间的最大相似度为零,则输出聚类结果,所述聚类结果为所述分类效用值最大时对应的合并结果。
7.如权利要求6所述的电子设备,其特征在于,所述确定模块用于:
获取多个待聚类实例对应的原始数据,所述原始数据包括文本数据、连续型数据中的一个或者多个;
基于数据标准化方法对所述原始数据进行归一化处理,确定所述多个待聚类实例对应的多个类向量。
8.如权利要求7所述的电子设备,其特征在于,所述处理模块还用于:
在所述确定多个待聚类实例对应的多个类向量之后,基于余弦夹角公式及所述多个类向量,确定所述多个待聚类实例中每两个待聚类实例之间的相似度;
基于所述相似度,确定所述相似度矩阵。
9.如权利要求6-8中任一权项所述的电子设备,其特征在于,所述处理模块通过以下公式计算每个合并结果对应的分类效用值:
Figure FDA0002946882510000031
其中,ECU(C,F)表示分类效用值,C表示所述多个待聚类实例的类别集合,F表示所述多个待聚类实例对应的特征集合,fi为所述特征集合中的一个特征,H(fi|ck)表示特征fi在类别ck中的熵,|ck|表示类别ck的大小,p(ck)表示一个待聚类实例属于类别ck的概率,所述类别ck属于所述类别集合C,H(fi)表示特征fi在整个数据集中的熵,N表示所述待聚类实例的总数,n表示所述特征集合的特征总数,m表示所述类别集合的类别总数,NH(fi|ck)等于
Figure FDA0002946882510000041
NH(fi)等于
Figure FDA0002946882510000042
10.如权利要求9所述的电子设备,其特征在于,所述处理模块用于:
基于所述相似度矩阵,对所述多个待聚类实例中相似度最高的两个待聚类实例进行合并,获得新类别实例;
基于所述新类别实例对应的类向量与所述多个待聚类实例中除所述相似度最高的两个待聚类实例外的待聚类实例对应的类向量,更新所述相似度矩阵,获得更新后的相似度矩阵;
基于所述更新后的相似度矩阵对所述新类别实例及所述多个待聚类实例中除所述相似度最高的两个待聚类实例外的待聚类实例继续进行合并,获得至少一个合并结果。
11.一种计算机装置,其特征在于,所述计算机装置包括:
至少一个处理器,以及
与所述至少一个处理器通信连接的存储器、通信接口;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令,利用所述通信接口执行如权利要求1-5中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于:
所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如权利要求1-5中任一项所述的方法。
CN201711125165.1A 2017-11-14 2017-11-14 基于改进分类效用的无参数聚类方法及电子设备 Active CN109784354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711125165.1A CN109784354B (zh) 2017-11-14 2017-11-14 基于改进分类效用的无参数聚类方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711125165.1A CN109784354B (zh) 2017-11-14 2017-11-14 基于改进分类效用的无参数聚类方法及电子设备

Publications (2)

Publication Number Publication Date
CN109784354A CN109784354A (zh) 2019-05-21
CN109784354B true CN109784354B (zh) 2021-07-09

Family

ID=66493779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711125165.1A Active CN109784354B (zh) 2017-11-14 2017-11-14 基于改进分类效用的无参数聚类方法及电子设备

Country Status (1)

Country Link
CN (1) CN109784354B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183567B (zh) * 2019-07-05 2024-02-06 浙江宇视科技有限公司 Birch算法的优化方法、装置、设备及存储介质
CN110765327A (zh) * 2019-09-05 2020-02-07 深圳壹账通智能科技有限公司 数据分析方法、装置、计算机装置及存储介质
CN113553350B (zh) * 2021-05-27 2023-07-18 四川大学 一种相似演化模式聚类及动态时区划分的交通流分区模型

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036024A (zh) * 2014-06-27 2014-09-10 浙江大学 一种基于GACUC和Delaunay三角网的空间聚类方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447738B1 (en) * 2003-11-17 2013-05-21 Medco Health Solutions, Inc. Computer system and method for de-identification of patient and/or individual health and/or medical related information, such as patient micro-data
CN105574005A (zh) * 2014-10-10 2016-05-11 富士通株式会社 对包含多个文档的源数据进行聚类的装置和方法
CN106228188B (zh) * 2016-07-22 2020-09-08 北京市商汤科技开发有限公司 聚类方法、装置及电子设备
CN106372208B (zh) * 2016-09-05 2019-07-12 东南大学 一种基于语句相似度的话题观点聚类方法
CN106850333B (zh) * 2016-12-23 2019-11-29 中国科学院信息工程研究所 一种基于反馈聚类的网络设备识别方法及系统
CN106777285B (zh) * 2016-12-29 2020-03-06 中国移动通信集团江苏有限公司 用户通信消费数据的标签聚类的方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036024A (zh) * 2014-06-27 2014-09-10 浙江大学 一种基于GACUC和Delaunay三角网的空间聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于DPM和显著性区域检测的图像精细分类问题研究;焦振宇;《第十届全国信号和智能信息处理与应用学术会议专刊》;20161021;第284-287页 *

Also Published As

Publication number Publication date
CN109784354A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
Hills et al. Classification of time series by shapelet transformation
Solorio-Fernandez et al. A new unsupervised spectral feature selection method for mixed data: a filter approach
Kohonen Essentials of the self-organizing map
US9176949B2 (en) Systems and methods for sentence comparison and sentence-based search
CA2886581A1 (en) Method and system for analysing sentiments
Nikhath et al. Building a k-nearest neighbor classifier for text categorization
CN109784354B (zh) 基于改进分类效用的无参数聚类方法及电子设备
Misuraca et al. BMS: An improved Dunn index for Document Clustering validation
CN115017315A (zh) 一种前沿主题识别方法、系统及计算机设备
Chen et al. An efficient stacking model with label selection for multi-label classification
Karlos et al. Classification of acoustical signals by combining active learning strategies with semi-supervised learning schemes
Nashipudimath et al. An efficient integration and indexing method based on feature patterns and semantic analysis for big data
Lin et al. A similarity model based on reinforcement local maximum connected same destination structure oriented to disordered fusion of knowledge graphs
Karami Taming wild high dimensional text data with a fuzzy lash
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
Yu et al. Research on text categorization of KNN based on K-means for class imbalanced problem
Li et al. A novel feature selection approach with Pareto optimality for multi-label data
CN116186297A (zh) 一种基于图流形学习的文献关系发现方法及系统
Shen et al. A cross-database comparison to discover potential product opportunities using text mining and cosine similarity
CN114168751B (zh) 一种基于医学知识概念图的医学文本标签识别方法及系统
Tar et al. Enhancing traditional text documents clustering based on ontology
Sakumoto et al. Metadata-Based Clustering and Selection of Metadata Items for Similar Dataset Discovery and Data Combination Tasks
Li et al. A privacy-preserving group decision making expert system for medical diagnosis based on dynamic knowledge base
Lowe et al. Using non-negative tensor decomposition for unsupervised textual influence modeling
Bellandi et al. A Comparative Study of Clustering Techniques Applied on Covid-19 Scientific Literature

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant