CN104516900A - 用于多个序列数据的聚类方法及其装置 - Google Patents

用于多个序列数据的聚类方法及其装置 Download PDF

Info

Publication number
CN104516900A
CN104516900A CN201310455338.1A CN201310455338A CN104516900A CN 104516900 A CN104516900 A CN 104516900A CN 201310455338 A CN201310455338 A CN 201310455338A CN 104516900 A CN104516900 A CN 104516900A
Authority
CN
China
Prior art keywords
cluster
representative
clustering
sequence data
similitude clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310455338.1A
Other languages
English (en)
Inventor
王瑜
严骏驰
田春华
董维山
孙宁
张欣
张超
韩四儿
邵金燕
刘宇航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Utopas insight company
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN201310455338.1A priority Critical patent/CN104516900A/zh
Publication of CN104516900A publication Critical patent/CN104516900A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于多个序列数据的聚类方法,其包括:从所述多个序列数据中选择多个聚类代表,其中所述多个聚类代表之间具有最小的相似性;在所述多个聚类代表中确定所述多个序列数据中的一个的至少一个相似聚类代表;确定所述序列数据对所述至少一个相似聚类代表的更新比例;以及使用所述序列数据和所述更新比例,更新所述至少一个相似聚类代表。

Description

用于多个序列数据的聚类方法及其装置
技术领域
本发明涉及数据的聚类技术,具体地,涉及用于多个序列数据的聚类方法及其装置。
背景技术
序列数据是指按照某一顺序排列的数据,可包括时间序列数据和空间序列数据。时间序列数据是指在不同时间点上收集到的一系列数据,其可用于反映某一事物、现象等随时间的变化状态或程度。当前,时间序列数据广泛存在于各种行业中,例如,涉及仪表读数的行业等。空间序列数据是指按空间位置的先后顺序排列的数据。
聚类是一种常用的分析序列数据的方法。一般地,聚类是指将包括多个对象的对象集合分成由类似的对象组成的多个类的过程,其以相似性为基础。通过聚类分析,可以区分具有不同特性的聚类,从而对不同的聚类进行相应的处理。
图2是时间序列数据的曲线示意图,其示出了例如表示水消耗量读数的15个时间序列数据的曲线。可以看出,当这些时间序列数据被合并在一起时,很难从中获取有效的信息。实际上,这样的时间序列数据的数量是非常巨大的,这进一步增加了分析的难度。为此,期望使用聚类方法以分析这些时间序列数据。
在现有技术中,常用的聚类方法包括K-means法。假定有n个将被聚类的数据对象,聚类的数量为k。首先,从n个数据对象任意选择k个数据对象作为初始聚类中心。接着,对于剩下的其它数据对象,则根据这些数据对象与各聚类中心的相似度(距离),分别将它们分配给与其最相似的聚类(由聚类中心代表)。然后,计算每个新获得的聚类的聚类中心,即该聚类中所有数据对象的均值。重复上述的过程,直到标准测度函数开始收敛为止。一般地,均方差被用作标准测度函数。这样获得的聚类满足:同一聚类中的数据对象的相似度较高,而不同聚类中的数据对象的相似度较小。
然而,在使用K-means法对时间序列数据进行聚类时,如果某个时间序列数据与多个聚类中心的相似度彼此很接近,即与多个聚类相似,则由于根据相似度将各个时间序列数据分配给相应的聚类,因此,该时间序列数据只被分配给最相似的聚类(即距离最短)。但是,在这种情况下,对于该时间序列数据,可能存在某一部分与一个聚类相似,而另一部分与另一个聚类相似。因此,无论将该时间序列数据分配给哪一个聚类,都会使得被分配了该时间序列数据的聚类的聚类中心产生较大的偏移,导致该聚类的模式的破坏。
发明内容
根据本发明的一个方面,提供了一种用于多个序列数据的聚类方法,其包括:从所述多个序列数据中选择多个聚类代表,其中所述多个聚类代表之间具有最小的相似性;在所述多个聚类代表中确定所述多个序列数据中的一个的至少一个相似聚类代表;确定所述序列数据对所述至少一个相似聚类代表的更新比例;以及使用所述序列数据和所述更新比例,更新所述至少一个相似聚类代表。
根据本发明的另一个方面,提供了一种用于多个序列数据的聚类装置,其包括:选择模块,其被配置为从所述多个序列数据中选择多个聚类代表,其中所述多个聚类代表之间具有最小的相似性;相似聚类代表确定模块,其被配置为在所述多个聚类代表中确定所述多个序列数据中的一个的至少一个相似聚类代表;更新比例确定模块,其被配置为确定所述序列数据对所述至少一个相似聚类代表的更新比例;以及更新模块,其被配置为利用所述序列数据和所述更新比例,更新所述至少一个相似聚类代表。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
图2是时间序列数据的曲线示意图;
图3是根据本发明的实施例的用于多个序列数据的聚类方法的示意性流程图;
图4是用于说明聚类代表的示意图;
图5是图3的实施例中初始化聚类代表的步骤的示意性流程图;
图6是图3的实施例中确定相似聚类代表的步骤的示意性流程图;
图7是用于说明确定相似聚类代表的过程的示例图;
图8是图3的实施例中确定序列数据对相似聚类代表的更新比例的步骤的示意性流程图;
图9是分别使用传统的K-means聚类法和本发明的实施例的聚类方法对多个时间序列数据进行聚类的比较图;
图10是根据本发明的实施例的用于多个序列数据的聚类装置的示意性方框图。
具体实施方式
在附图中显示了本公开的一些优选实施方式,下面将参照附图更详细地描述这些优选实施方式。然而,可以以各种形式实现本公开,其不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。
图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图1所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
图3是根据本发明的实施例的用于多个序列数据的聚类方法的示意性流程图。下面结合附图,对本实施例进行详细描述。在以下的实施例的描述中,主要以时间序列数据为例进行说明。本领域的普通技术人员能够理解,本实施例的聚类方法也适用于空间序列数据。
本实施例的方法的基本思想在于:考虑时间序列数据与所有聚类代表之间的关系以及聚类代表之间的关系,获得与时间序列数据相似的所有聚类代表以及对这些聚类代表的更新比例,并进而更新这些相似的聚类代表。
与现有的聚类方法选择某个样本点作为聚类中心点或者使用属于聚类的样本的统计平均作为聚类中心不同,本实施例将使用聚类代表作为聚类的判定标准。
在本实施例中,聚类代表可使用中心值、支持度和散度来描述,其中对于每一个时间点,都存在中心值、支持度和散度。中心值可被定义为聚类中的时间序列数据的统计平均值。支持度可被定义为聚类中的相似比例高于0.5的时间序列数据的加权数量。散度可被定义为聚类中的相似比例高于0.5的时间序列数据的方差。关于相似比例,将在后面详细说明。
图4示出了聚类代表的示例性示意图,其中,粗实线表示中心值,细实线分别表示散度的上限值和下限值,柱状图表示支持度。可以看出,在某个时间点,支持度越高,散度越小,则表明聚类代表所表示的聚类的可信性越高。
如图3所示,在步骤S301,从多个时间序列数据中选择多个聚类代表,其中所选择的多个聚类代表之间具有最小的相似性。一般地,聚类代表的个数可以预先确定。用于选择聚类代表的方法在本领域是已知的,可以使用任意一种选择方法。下面通过图5简要说明本实施例所使用的选择聚类代表的方法。
图5示出了选择聚类代表的步骤S301的示意性流程图。假定n个时间序列数据将被聚类成k个聚类代表。参见图5,在步骤S501,选择任意一个时间序列数据作为第1聚类代表。接着,在步骤S502,对于其它(n-1)个时间序列数据的每一个,计算该时间序列数据与第1聚类代表之间的距离,例如欧几里得(Euclidean)距离、曼哈顿(Manhattan)距离等,作为第1距离。然后,在步骤S503,在(n-1)个时间序列数据中选择上述第1距离最大的时间序列数据作为第2聚类代表。在步骤S504,计算剩余(n-2)个时间序列数据的每一个与第2聚类代表之间的距离,作为第2距离。然后,在步骤S505,对于剩余(n-2)个时间序列数据的每一个,选择其第1距离和第2距离中最小的距离作为其当前距离。然后,在步骤S506,在(n-2)个时间序列数据中,选择当前距离最大的时间序列数据作为第3聚类代表。以此类推,在步骤S510,对于剩余(n-i)个时间序列数据的每一个,计算该时间序列数据与第i个聚类代表之间的距离,作为第i个距离。然后,在步骤S511,对于该时间序列数据,选择第1距离、第2距离、…、第i个距离中最小的距离,作为其当前距离。然后,在步骤S512,在(n-i)个时间序列数据中,选择当前距离最大的时间序列数据作为第(i+1)个聚类代表。重复上述的步骤,直到获取第k个聚类代表。因此,这样获得的k个聚类代表之间具有最小的相似性。
返回图3,在步骤S305,在通过步骤S301获得的多个聚类代表中确定多个时间序列数据中的一个时间序列数据的至少一个相似聚类代表。在本实施例的描述中,相似聚类代表是指与时间序列数据相似的聚类代表。
图6示出了确定相似聚类代表的步骤S305的示意性流程图。如图6所示,在步骤S601,计算多个聚类代表之间的差异,作为聚类间差异。假设有k个聚类代表,则获得k个聚类间差异。在本实施例中,聚类间差异可以使用聚类代表之间的距离表示。如前所述,距离可以是欧几里得距离、曼哈顿距离等。在计算距离时,将使用聚类代表的中心值。然后,在步骤S605,对于时间序列数据i,计算时间序列数据i与各个聚类代表j(j=1,…,k)之间的差异,作为个体-聚类差异。假设有k个聚类代表,则对于时间序列数据i,获得k个个体-聚类差异。在本实施例中,个体-聚类差异可以使用作为个体的单个时间序列数据i与一个聚类代表j之间的距离表示。
接着,在步骤S610,根据所计算的个体-聚类差异和聚类间差异,选择相似聚类代表,以使得时间序列数据与所选择的相似聚类代表之间的个体-聚类差异小于该时间序列数据经由另一个聚类代表与相似聚类代表之间的差异。时间序列数据经由另一个聚类代表与相似聚类代表之间的差异可以通过时间序列数据与另一个聚类代表之间的个体-聚类差异以及另一个聚类代表与相似聚类代表之间的聚类间差异的和表示。
在本实施例中,相似聚类代表是与某一时间序列数据相似的聚类代表,其可以是一个或者多个。在相似聚类代表是多个的情况下,表明时间序列数据i的局部分别与不同的聚类代表的对应部分相似。在一个实施例中,首先,对于时间序列数据i,选择具有最小的个体-聚类差异的聚类代表,作为相似聚类代表。换句话说,距离值最小(与时间序列数据i的相似性最大)的聚类代表首先被选作相似聚类代表。接着,在k个聚类代表中剩余的聚类代表中确定其它相似聚类代表,以使得该相似聚类代表与时间序列数据之间的个体-聚类差异小于该相似聚类代表与先前所选择的相似聚类代表之间的聚类间差异以及时间序列数据与先前所选择的相似聚类代表之间的个体-聚类差异的和。在一个实施例中,可以利用三角形原理确定其它相似聚类代表。具体地,将上述的两个个体-聚类差异和聚类间差异分别作为三个线段的长度,则通过判断这三个线段是否能够构成三角形来判断相应的聚类代表是否是相似聚类代表,即,如果能够构成三角形,则对应的聚类代表被确定为相似聚类代表,否则,该聚类代表不是相似聚类代表。
下面通过一个实例来说明相似聚类代表的确定过程。在该例子中,由三个聚类代表。如图7所示,左侧示出了待处理的时间序列数据的曲线,右侧示出了聚类代表1、聚类代表2和聚类代表3的曲线。根据上述的步骤S601,计算三个聚类代表之间的聚类间差异,其中,聚类代表1与聚类代表2之间的聚类间差异为16,聚类代表2与聚类代表3之间的聚类间差异为15,聚类代表1与聚类代表3之间的聚类间差异为28。然后,根据上述的步骤S605,计算时间序列数据分别与聚类代表1、2、3之间的个体-聚类差异,其中,与聚类代表1之间的个体-聚类差异为11,与聚类代表2之间的个体-聚类差异为12,与聚类代表3之间的个体-聚类差异为40。可以看出,与聚类代表1之间的个体-聚类差异最小,因此,聚类代表1被选择作为相似聚类代表1。然后,判断聚类代表2、3是否也是相似聚类代表。对于聚类代表2,如果以11、12和16表示三个线段的长度,则根据三角形原理,这三个线段能够构成三角形,因此,聚类代表2也被确定为相似聚类代表2。对于聚类代表3,由于长度分别为12、28和40的三个线段不能构成三角形,因此,聚类代表3不是相似聚类代表。
返回图3,在通过步骤S305确定了时间序列数据i的至少一个相似聚类代表后,在步骤S310,确定时间序列数据对其至少一个相似聚类代表的更新比例。如前所述,一个时间序列数据可对应一个或多个相似聚类代表,相应地,该时间序列数据对所对应的相似聚类代表的影响不同。这种影响的大小可使用更新比例表示。因此,在使用该时间序列数据对其相似聚类代表进行更新时,需要对于不同的相似聚类代表使用不同的更新比例,以使得更新不会破坏各相似聚类代表的一般特性。
图8示出了确定更新比例的步骤S310的示意性流程图。如图8所示,在步骤S801,获取时间序列数据i与各个相似聚类代表的相似比例。在本实施例中,相似比例可以反映时间序列数据i与各个相似聚类代表的相似性。相似比例越大,则时间序列数据i与相似聚类代表越相似。
在一个实施例中,首先,根据时间序列数据i与所确定的至少一个相似聚类代表之间的个体-聚类差异,计算至少一个相似聚类代表的各个针对时间序列数据i的权重。在本实施例中,时间序列数据i与k个聚类代表之间满足下列等式(1):
xi=Si1y1+Si2y2+...+Sikyk   (1)
其中,xi表示时间序列数据i,y1,y2,...yk分别表示聚类代表1、2、…、k,则Si1,Si2,...Sik分别表示聚类代表1、2、…、k针对时间序列数据i的权重。在确定了时间序列数据i的相似聚类代表之后,k个聚类代表中不是相似聚类代表的聚类代表的权重为0。对于某一相似聚类代表,其权重可以被计算为时间序列数据i与该相似聚类代表之间的个体-聚类差异在时间序列数据i与所有相似聚类代表之间的个体-聚类差异的总和中的比例。然后,利用所计算的各个相似聚类代表的权重,计算时间序列数据i与各个相似聚类代表之间的相似比例。在一个实施例中,可以根据以下的公式(2)计算相似比例:
R im = 1 e S im / Σ j = 1 j ≤ k e 1 e S ij - - - ( 2 )
其中,Rim表示时间序列数据i与相似聚类代表m之间的相似比例,Sim表示相似聚类代表m针对时间序列数据i的权重。
在上面的例子中,可以计算出聚类代表1的权重S1为11/23,聚类代表2的权重S2为12/23,并进一步地计算时间序列数据与相似聚类代表1的相似比例R1和时间序列数据与相似聚类代表2的相似比例R2
接着,在步骤S805,根据稳定分布函数,基于在步骤S801中获得的时间序列数据与各个相似聚类代表的相似比例,获取时间序列数据对各个相似聚类代表的更新比例。
在本实施例中,稳定分布函数可以是例如高斯分布、诸如利维分布的重尾分布等。例如,在确定时间序列数据i对聚类代表j的更新比例时,首先,计算α=1-Rij,其中,Rij是时间序列数据i与聚类代表j的相似比例,然后,根据高斯分布函数,获取与α对应的函数值β,作为聚类代表j的更新比例。
返回图3,在步骤S315,使用时间序列数据和所获得的更新比例,更新相似聚类代表。在一个实施例中,可使用下面的公式(3)进行相似聚类代表的更新:
yj=β·xi+(1-β)yj   (3)
其中,yj表示聚类代表j,xi表示时间序列数据i。更新后的相似聚类代表替换对应的聚类代表,成为新的聚类代表。
另外,可以对多个时间序列数据中的其它时间序列数据重复执行上述的步骤S305、S310和S315,直到最后一个时间序列数据。这样,在使用全部时间序列数据对相似聚类代表进行了更新后,可获得最终的各个聚类代表。
在以上的本实施例的描述中,对多个时间序列数据的每一个都执行步骤S305、S310和S315,但是,本领域的普通技术人员可以理解,上述的步骤S305、S310和S315也可以只对多个时间序列数据中除了被选择为聚类代表的时间序列数据以外的时间序列数据执行。
通过以上描述可以看出,本实施例的用于时间序列数据的聚类方法使用聚类代表作为聚类的模式,并考虑时间序列数据与聚类代表之间的相似性以及各聚类代表之间的关系,确定与各时间序列数据相似的聚类代表并进而更新相应的聚类代表,即使时间序列数据的不同部分与不同的聚类代表的对应部分相似,也可以实现准确的聚类,而不破坏各个聚类代表的模式。
图9是分别使用传统的K-means聚类法和本发明的实施例的聚类方法对多个时间序列数据进行聚类的示例性比较图。图9(a)是100个时间序列数据的曲线图,图9(b)是使用传统的K-means聚类法获得的聚类的示意图,图9(c)是使用本发明的实施例的聚类方法获得的聚类代表的示意图。在该例子中,期望将100个时间序列数据聚类成4个聚类。可以看出,与图9(b)中所示的4个聚类的曲线相比,图9(c)中所示的4个聚类代表能够更准确地反映原始时间序列数据内的不同特性。
在相同的发明构思下,图10示出了根据本发明的实施例的用于序列数据的聚类装置1000。下面结合附图,对本实施例进行详细描述,其中,对于与前面实施例相同的部分,适当省略其说明。
如图10所示,本实施例的用于多个序列数据的聚类装置1000包括:选择模块1001,其被配置为从多个序列数据中选择多个聚类代表,其中所选择多个聚类代表之间具有最小的相似性;相似聚类代表确定模块1002,其被配置为在多个聚类代表中确定多个序列数据中的一个的至少一个相似聚类代表;更新比例确定模块1003,其被配置为确定序列数据对其至少一个相似聚类代表的更新比例;以及更新模块1004,其被配置为使用所述序列数据和所述更新比例,更新所确定的至少一个相似聚类代表。
在本实施例的聚类装置1000中,选择模块1001可从多个时间序列数据中选择预先确定的数量的聚类代表。选择模块1001所使用的选择方法是本领域的普通技术人员所已知的,例如,可使用如图5所示的选择方法。如前所述,聚类代表可使用中心值、支持度和散度进行描述。
在选择模块1001选择了聚类代表,相似聚类代表确定模块1002确定多个时间序列数据中的一个时间序列数据的相似聚类代表。
在一个实施例中,在相似聚类代表确定模块1002中,首先,计算子模块10021计算多个聚类代表之间的差异,作为聚类间差异。如前所述,聚类间差异可用聚类代表之间的距离表示。接着,计算子模块10021还计算这个时间序列数据与各个聚类代表之间的差异,作为个体-聚类差异。类似地,个体-聚类差异可用单个时间序列数据与聚类代表之间的距离表示。然后,选择子模块10022根据由计算子模块10021计算出的个体-聚类差异和聚类间差异,选择相似聚类代表,以使得时间序列数据与相似聚类代表之间的个体-聚类差异小于时间序列数据经由另一个聚类代表与相似聚类代表之间的差异。如前所述,时间序列数据经由另一个聚类代表与相似聚类代表之间的差异可以通过时间序列数据与另一个聚类代表之间的个体-聚类差异和另一个聚类代表与相似聚类代表之间的聚类间差异之和表示。
在一个实施例中,在选择子模块10022中,选择单元可选择与最小的个体-聚类差异对应的聚类代表,作为相似聚类代表。然后,确定单元确定其它相似聚类代表,以使得其它相似聚类代表与时间序列数据之间的个体-聚类差异小于时间序列数据与所选择的相似聚类代表之间的个体-聚类差异以及其它相似聚类代表与所选择的相似聚类代表之间的聚类间差异的和。在一个实施例中,可通过三角形原理确定其它相似聚类代表。
然后,在通过相似聚类代表确定模块1002获得了时间序列数据的相似聚类代表后,更新比例确定模块1003确定时间序列数据对其相似聚类代表的更新比例。
在更新比例确定模块1003中,首先,相似比例获取子模块10031获取时间序列数据与其至少一个相似聚类代表的相似比例。在一个实施例中,在相似比例获取子模块10031中,权重计算单元根据该时间序列数据与其相似聚类代表之间的个体-聚类差异,计算各个相似聚类代表针对该时间序列数据的权重。接着,相似比例计算单元根据所计算的各个相似聚类代表的权重,计算该时间序列数据与各个相似聚类代表之间的相似比例。
然后,更新比例获取子模块10032根据稳定分布函数,基于通过相似比例获取子模块10031获得的相似比例,获取时间序列数据对其相似聚类代表的更新比例。如前所述,稳定分布函数可以是高斯分布、利维分布等。
然后,时间序列数据、通过相似聚类代表确定模块1002获得的该时间序列数据的相似聚类代表以及通过更新比例确定模块1003获得的该时间序列数据与各个相似聚类代表之间的相似比例被提供给更新模块1004以对相似聚类代表进行更新。更新后的相似聚类代表替换对应的聚类代表,成为新的聚类代表。
然后,对于多个时间序列数据中的其它时间序列数据,相似聚类代表确定模块1002、更新比例确定模块1003和更新模块1004被重复使用,直到最后一个时间序列数据。
应当注意,本实施例的用于时间序列数据的聚类装置1000能够在操作上实现图3、图5、图6和图8所示的用于时间序列数据的聚类方法。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种用于多个序列数据的聚类方法,包括:
从所述多个序列数据中选择多个聚类代表,其中所述多个聚类代表之间具有最小的相似性;
在所述多个聚类代表中确定所述多个序列数据中的一个的至少一个相似聚类代表;
确定所述序列数据对所述至少一个相似聚类代表的更新比例;以及
使用所述序列数据和所述更新比例,更新所述至少一个相似聚类代表。
2.根据权利要求1所述的方法,其中,在所述多个聚类代表中确定所述多个序列数据中的一个的至少一个相似聚类代表包括:
计算所述多个聚类代表之间的差异,作为聚类间差异;
计算所述序列数据与所述多个聚类代表的各个之间的差异,作为个体-聚类差异;
根据所述个体-聚类差异和所述聚类间差异,选择相似聚类代表。
3.根据权利要求2所述的方法,其中,根据所述个体-聚类差异和所述聚类间差异,选择相似聚类代表包括:
选择与最小的个体-聚类差异对应的聚类代表,作为相似聚类代表;以及
确定其它相似聚类代表,以使得所述其它相似聚类代表与所述序列数据之间的个体-聚类差异小于所述序列数据与所选择的相似聚类代表之间的个体-聚类差异以及所述其它相似聚类代表与所选择的相似聚类代表之间的聚类间差异的和。
4.根据权利要求1所述的方法,其中,确定所述序列数据对所述至少一个相似聚类代表的更新比例包括:
获取所述序列数据与所述至少一个相似聚类代表的相似比例;
根据稳定分布函数,基于所述相似比例,获取所述序列数据对所述至少一个相似聚类代表的更新比例。
5.根据权利要求4所述的方法,其中,获取所述序列数据与所述至少一个相似聚类代表的相似比例包括:
根据所述序列数据与所述至少一个相似聚类代表之间的个体-聚类差异,计算所述至少一个相似聚类代表的各个针对所述序列数据的权重;以及
根据所计算的各个相似聚类代表的权重,计算所述序列数据与各个相似聚类代表之间的相似比例。
6.一种用于多个序列数据的聚类装置,包括:
选择模块,其被配置为从所述多个序列数据中选择多个聚类代表,其中所述多个聚类代表之间具有最小的相似性;
相似聚类代表确定模块,其被配置为在所述多个聚类代表中确定所述多个序列数据中的一个的至少一个相似聚类代表;
更新比例确定模块,其被配置为确定所述序列数据对所述至少一个相似聚类代表的更新比例;以及
更新模块,其被配置为使用所述序列数据和所述更新比例,更新所述至少一个相似聚类代表。
7.根据权利要求6所述的装置,其中,所述相似聚类代表确定模块包括:
计算子模块,其被配置为计算所述多个聚类代表之间的差异,作为聚类间差异,以及计算所述序列数据与所述多个聚类代表的各个之间的差异,作为个体-聚类差异;以及
选择子模块,其被配置为根据所述个体-聚类差异和所述聚类间差异,选择相似聚类代表。
8.根据权利要求7所述的装置,其中,所述选择子模块包括:
选择单元,其被配置为选择与最小的个体-聚类差异对应的聚类代表,作为相似聚类代表;以及
确定单元,其被配置为确定其它相似聚类代表,以使得所述其它相似聚类代表与所述序列数据之间的个体-聚类差异小于所述序列数据与所选择的相似聚类代表之间的个体-聚类差异以及所述其它相似聚类代表与所选择的相似聚类代表之间的聚类间差异的和。
9.根据权利要求6所述的装置,其中,所述更新比例确定模块包括:
相似比例获取子模块,其被配置为获取所述序列数据与所述至少一个相似聚类代表的相似比例;以及
更新比例获取子模块,其被配置为根据稳定分布函数,基于所述相似比例,获取所述序列数据对所述至少一个相似聚类代表的更新比例。
10.根据权利要求9所述的装置,其中,所述相似比例获取子模块包括:
权重计算单元,其被配置为根据所述序列数据与所述至少一个相似聚类代表之间的个体-聚类差异,计算所述至少一个相似聚类代表的各个针对所述序列数据的权重;以及
相似比例计算单元,其被配置为根据所计算的各个相似聚类代表的权重,计算所述序列数据与各个相似聚类代表之间的相似比例。
CN201310455338.1A 2013-09-29 2013-09-29 用于多个序列数据的聚类方法及其装置 Pending CN104516900A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310455338.1A CN104516900A (zh) 2013-09-29 2013-09-29 用于多个序列数据的聚类方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310455338.1A CN104516900A (zh) 2013-09-29 2013-09-29 用于多个序列数据的聚类方法及其装置

Publications (1)

Publication Number Publication Date
CN104516900A true CN104516900A (zh) 2015-04-15

Family

ID=52792214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310455338.1A Pending CN104516900A (zh) 2013-09-29 2013-09-29 用于多个序列数据的聚类方法及其装置

Country Status (1)

Country Link
CN (1) CN104516900A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095912A (zh) * 2015-08-06 2015-11-25 北京奇虎科技有限公司 数据聚类的方法及装置
CN106295671A (zh) * 2015-06-11 2017-01-04 深圳市腾讯计算机系统有限公司 一种应用列表聚类方法、装置及计算设备
CN108763462A (zh) * 2018-05-28 2018-11-06 深圳前海微众银行股份有限公司 平行语句库的更新方法、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060053129A1 (en) * 2004-08-30 2006-03-09 Microsoft Corporation Robust detector of fuzzy duplicates
US20060069709A1 (en) * 2004-09-29 2006-03-30 Qian Diao K-means clustering using t-test computation
CN102388390A (zh) * 2009-04-01 2012-03-21 微软公司 按位置聚类视频
CN102985917A (zh) * 2010-07-09 2013-03-20 国际商业机器公司 不确定时间序列之间的相似性的广义符号表示

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060053129A1 (en) * 2004-08-30 2006-03-09 Microsoft Corporation Robust detector of fuzzy duplicates
US20060069709A1 (en) * 2004-09-29 2006-03-30 Qian Diao K-means clustering using t-test computation
CN102388390A (zh) * 2009-04-01 2012-03-21 微软公司 按位置聚类视频
CN102985917A (zh) * 2010-07-09 2013-03-20 国际商业机器公司 不确定时间序列之间的相似性的广义符号表示

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HUANGCHENGKUO等: "Cluster analysis on time series gene expression data", 《INTERNATIONAL JOURNAL OF BUSINESS INTELLIGENCE AND DATA MINING》 *
MIN JI等: "A Dynamic Fuzzy Cluster Algorithm for Time Series", 《ABSTRACT AND APPLIED ANALYSIS》 *
段江娇等: "一种新的基于隐Markov模型的分层时间序列聚类算法", 《计算机研究与发展》 *
蒋涛等: "RQIC:一种高效时序相似搜索算法", 《计算机研究与发展》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295671A (zh) * 2015-06-11 2017-01-04 深圳市腾讯计算机系统有限公司 一种应用列表聚类方法、装置及计算设备
CN106295671B (zh) * 2015-06-11 2020-03-03 深圳市腾讯计算机系统有限公司 一种应用列表聚类方法、装置及计算设备
CN105095912A (zh) * 2015-08-06 2015-11-25 北京奇虎科技有限公司 数据聚类的方法及装置
CN108763462A (zh) * 2018-05-28 2018-11-06 深圳前海微众银行股份有限公司 平行语句库的更新方法、设备及计算机可读存储介质
CN108763462B (zh) * 2018-05-28 2021-11-12 深圳前海微众银行股份有限公司 平行语句库的更新方法、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN109657805B (zh) 超参数确定方法、装置、电子设备及计算机可读介质
US20220027746A1 (en) Gradient-based auto-tuning for machine learning and deep learning models
US11100320B2 (en) Image recognition method and apparatus
CN107610770B (zh) 用于自动化诊断的问题生成系统和方法
CN110968985B (zh) 集成电路修补算法确定方法及装置、存储介质、电子设备
US10540958B2 (en) Neural network training method and apparatus using experience replay sets for recognition
CN110717824A (zh) 基于知识图谱的银行对公客群风险传导测算的方法及装置
EP3115939A1 (en) Alternative training distribution based on density modification
WO2014199920A1 (ja) 予測関数作成装置、予測関数作成方法、及びコンピュータ読み取り可能な記録媒体
CN111125529A (zh) 产品匹配方法、装置、计算机设备及存储介质
Pullin et al. A comparison of marker gene selection methods for single-cell RNA sequencing data
CN104516900A (zh) 用于多个序列数据的聚类方法及其装置
Murray-Watters et al. What is going on inside the arrows? Discovering the hidden springs in causal models
CN111209930A (zh) 一种生成授信策略的方法、装置和电子设备
JP5939587B2 (ja) アノテーションの相関を計算する装置及び方法
Karaaslanli et al. scSGL: kernelized signed graph learning for single-cell gene regulatory network inference
CN111582313A (zh) 样本数据生成方法、装置及电子设备
US11227231B2 (en) Computational efficiency in symbolic sequence analytics using random sequence embeddings
US11410749B2 (en) Stable genes in comparative transcriptomics
CN113807391A (zh) 任务模型的训练方法、装置、电子设备及存储介质
CN110796262B (zh) 机器学习模型的测试数据优化方法、装置及电子设备
US20220343211A1 (en) Method, electronic device, and computer program product for training model
KR102073020B1 (ko) 피쳐 영향 판단 방법 및 그 시스템
US20160379323A1 (en) Behavioral and exogenous factor analytics based user clustering and migration
Shao et al. Applying least angle regression to ELM

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180426

Address after: Valhalla, New York, USA

Applicant after: Utopas insight company

Address before: American New York

Applicant before: International Business Machines Corp.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20150415

RJ01 Rejection of invention patent application after publication