CN104615752A - 信息分类方法与系统 - Google Patents

信息分类方法与系统 Download PDF

Info

Publication number
CN104615752A
CN104615752A CN201510075881.8A CN201510075881A CN104615752A CN 104615752 A CN104615752 A CN 104615752A CN 201510075881 A CN201510075881 A CN 201510075881A CN 104615752 A CN104615752 A CN 104615752A
Authority
CN
China
Prior art keywords
cluster centre
centre point
computing node
information
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510075881.8A
Other languages
English (en)
Inventor
董旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201510075881.8A priority Critical patent/CN104615752A/zh
Publication of CN104615752A publication Critical patent/CN104615752A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例公开了一种信息分类方法和系统,所述方法包括:将信息分配至具有聚类中心点的多个计算节点;在多个计算节点中的每个计算节点上执行:将被分配的信息分类至距离其最近的聚类中心点;以及根据被分类至聚类中心点的信息到聚类中心点的距离以及被分类至聚类中心点的信息的数量,计算对应于每个计算节点的子聚类中心点;根据计算的对应于每个计算节点的子聚类中心点,确定更新的聚类中心点;以及在更新的聚类中心点与聚类中心点之间的距离小于或等于预定阈值时,将更新的聚类中心点确定为最终的聚类中心点。根据本公开的实施例的方法和系统能够解决大数据量下数据分类方案的不可扩展以及速度慢的问题。

Description

信息分类方法与系统
技术领域
本公开的实施例涉及信息处理领域,更具体地,涉及信息分类方法与系统。
背景技术
随着计算机网络技术的迅猛发展,如果一款计算机软件的业务量实现增长,则有可能存在亿万级别的潜在或实际的用户,从而能够收集亿万级别的数据。如何统计和运用这些数据,这就涉及到聚类分析这种技术。
聚类分析是一种数据分类方法,常被用于机器学习、模式识别、数据挖掘等领域。通常认为,聚类是一种无监督式的机器学习方法,它的过程是这样的:在未知样本类别的情况下,通过计算样本彼此间的距离(欧式距离、马式距离、汉明距离、余弦距离等)来自动估计样本所属类别。
现有技术中比较常用的聚类分析方法是kmean算法,其步骤如下:
(1)适当选择c(正整数,例如,3)个类的初始中心;
(2)在第k(正整数)次迭代中,对任意一个样本,求其到c各中心的距离,将该样本归到距离最短的中心所在的类;
(3)利用均值等方法更新该类的中心值;以及
(4)所有的c个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束,否则继续迭代。
然而,诸如kmeans算法的聚类分析方法的缺点至少在于:只能单机运行,无法水平扩展;速度慢,由于单机资源有限,所以需要几天甚至更长时间来处理海量数据;以及不能完全基于内存计算,影响数据迭代速度。
而对于基于智能设备的打车软件,司机和乘客数量日益增多,用户数据量逐渐增大到亿级别,使用传统单机的机器学习方法对乘客信息进行分类已经不切实际,在大数据量下运行快速聚类机器学习算法目前还存在挑战。
由于要对乘客进行类型的划分(如优质客户,补贴敏感客户等),分析与筛选出这些用户,故可以对这些乘客进行最有效的营销方案选择。但由于数据量巨大,单机完成这种任务几乎不可能实现。更不利的是,传统的kmeans聚类算法只能用于单机,但是单台机器的内存、磁盘、CPU可以扩展的范围及其有限,而且价格又十分昂贵。因此亟需一种快速且可扩展的方案来解决上述问题。
发明内容
本公开的实施例提供了一种信息分类方法与系统,以解决大数据量下数据分类方案的不可扩展以及速度慢的问题。
为此,本公开的一个方面提供了一种信息分类方法,包括:将信息分配至具有聚类中心点的多个计算节点;在多个计算节点中的每个计算节点上执行:将被分配的信息分类至距离其最近的聚类中心点;以及根据被分类至聚类中心点的信息到聚类中心点的距离以及被分类至聚类中心点的信息的数量,计算对应于每个计算节点的子聚类中心点;根据计算的对应于每个计算节点的子聚类中心点,确定更新的聚类中心点;以及在更新的聚类中心点与聚类中心点之间的距离小于或等于预定阈值时,将更新的聚类中心点确定为最终的聚类中心点。
在一个实施例中,根据计算的对应于每个计算节点的子聚类中心点,确定更新的聚类中心点可以包括:汇总计算的对应于每个计算节点的子聚类中心点,以确定更新的聚类中心点。
在另一个实施例中,在更新的聚类中心点与聚类中心点之间的距离小于或等于预定阈值时,将更新的聚类中心点确定为最终的聚类中心点可以包括:将更新的聚类中心点分别分配至每个计算节点;以及根据更新的聚类中心点计算更新的子聚类中心点,以使更新的聚类中心点与聚类中心点之间的距离小于或等于预定阈值。
在再一个实施例中,距离可以为欧氏距离。
在再一个实施例中,可以通过均值运算来计算对应于每个计算节点的子聚类中心点并且汇总计算的对应于每个计算节点的子聚类中心点。
在再一个实施例中,该方法还可以包括:在多个计算节点的内存中存储用于计算的数据,以及在服务器的内存中存储用于汇总的数据。
在再一个实施例中,根据被分类至聚类中心点的信息到聚类中心点的距离以及被分类至聚类中心点的信息的数量,计算对应于每个计算节点的子聚类中心点可以包括:对被分类至聚类中心点的信息到聚类中心点的距离求和,并且确定被分类至聚类中心点的信息的数量,以通过均值运算来计算对应于每个计算节点的子聚类中心点。
此外,本公开的另一个方面提供了一种信息分类系统,包括:信息分配装置,被配置为将信息分配至具有聚类中心点的多个计算节点;在多个计算节点中的每个计算节点上的处理装置,被配置为:将被分配的信息分类至距离其最近的聚类中心点;以及根据被分类至聚类中心点的信息到聚类中心点的距离以及被分类至聚类中心点的信息的数量,计算对应于每个计算节点的子聚类中心点;聚类中心点更新装置,被配置为根据计算的对应于每个计算节点的子聚类中心点,确定更新的聚类中心点;以及聚类中心点确定装置,被配置为在更新的聚类中心点与聚类中心点之间的距离小于或等于预定阈值时,将更新的聚类中心点确定为最终的聚类中心点。
在一个实施例中,聚类中心点更新装置可以包括:汇总装置,被配置为汇总计算的对应于每个计算节点的子聚类中心点,以确定更新的聚类中心点。
在另一个实施例中,聚类中心点确定装置可以包括:聚类中心点分配装置,被配置为将更新的聚类中心点分别分配至每个计算节点;以及子聚类中心点更新装置,被配置为根据更新的聚类中心点计算更新的子聚类中心点,以使更新的聚类中心点与聚类中心点之间的距离小于或等于预定阈值。
在再一个实施例中,用于计算的数据可以存储在多个计算节点的内存中,以及用于汇总的数据可以存储在服务器的内存中。
在再一个实施例中,根据被分类至聚类中心点的信息到聚类中心点的距离以及被分类至聚类中心点的信息的数量,计算对应于每个计算节点的子聚类中心点可以包括:对被分类至聚类中心点的信息到聚类中心点的距离求和,并且确定被分类至聚类中心点的信息的数量,以通过均值运算来计算对应于每个计算节点的子聚类中心点。
根据本公开的实施例能够将聚类算法应用于大数据量的数据分类处理中,从而实现可扩展的、快速的数据分类。
附图说明
本公开包括附图,用于提供对示例性实施例的进一步理解,这些附图组成了说明书的一部分,用于描述示例性实施例。
附图中:
图1示出了根据本公开实施例的信息分类方法的流程图;
图2示出了根据本公开另一实施例的信息分类方法的流程图;
图3A-3E示出了根据本公开实施例的信息分类方法的示意图;以及
图4示出了根据本公开实施例的信息分类系统的示意性框图。
具体实施方式
下文将对本公开的具体实施例进行更为详细的描述。应理解,虽然下文中描述的实施例大都针对打车软件,但本公开的实施例还适用于其他软件的数据分类,尤其是存在大数据量的软件环境中。
图1示出了根据本公开实施例的信息分类方法的流程图。
如图1所示,在步骤S101,将信息分配至具有聚类中心点的多个计算节点。这里,聚类中心点是预先设定的初始聚类中心点,也就是说,在将亿万级别的待分类信息分配至数十个、或数百个(甚至更多)的计算节点(具体为计算机)之前,预先设定好若干个初始聚类中心点,并在对整个系统进行初始化时将这些聚类中心点分配给每个计算节点,而对于之后的信息的分配,优选地采用平均分配的方式进行,当然,也可以基于计算节点性能的不同而不平均地分配信息。
然后,在步骤S103,在多个计算节点中的每个计算节点上执行:步骤S111,将被分配的信息分类至距离其最近的聚类中心点;以及步骤S113,根据被分类至聚类中心点的信息到聚类中心点的距离以及被分类至聚类中心点的信息的数量,计算对应于每个计算节点的子聚类中心点。这里,步骤S111中的信息分类可以通过比较其到各聚类中心点的欧式距离来实现,聚类中心点作为每个分类的中心点,汇聚该计算节点中的所有信息。在较特殊的情况下,当一个信息到两个以上聚类中心点的距离相同时,将该信息分类至预先设定、或随机确定的聚类中心点。此外,在已知分类的各信息到其聚类中心点的距离以及信息的数量后,可以优选地通过均值运算计算该计算节点中的子聚类中心点,显然,初始的聚类中心点的数量等于每个计算节点中的子聚类中心点的数量。
之后,在步骤S105,根据计算的对应于每个计算节点的子聚类中心点,确定更新的聚类中心点。这里,可以通过均值运算求得对应于每个计算节点的子聚类中心点的平均值,作为更新的聚类中心点。
之后,在步骤S107,在更新的聚类中心点与聚类中心点之间的距离小于或等于预定阈值时,将更新的聚类中心点确定为最终的聚类中心点。
在一个实施例中,步骤S105可以包括:汇总计算的对应于每个计算节点的子聚类中心点,以确定更新的聚类中心点。
此外,图2示出了根据本公开另一实施例的信息分类方法的流程图。
如图2所示,步骤S107包括:在步骤S215,将更新的聚类中心点分别分配至每个计算节点。这里,更具体地,将更新的聚类中心点返回至每个计算节点,以代替之前分配给每个计算节点的聚类中心点。之后,在步骤S217,根据更新的聚类中心点计算更新的子聚类中心点,以使更新的聚类中心点与聚类中心点之间的距离小于或等于预定阈值。也就是说,基于更新的聚类中心点,重新在每个计算节点中对分配的信息进行如步骤S111所述的分类,之后如步骤S113所述计算更新的子聚类中心点,如此往复迭代,直至更新的聚类中心点与之前的聚类中心点之间的距离小于或等于预定阈值。
下面,为了更为清楚的描述,以一特定实施例来说明本公开实施例的信息分类方法的原理。图3A-3E示出了根据本公开实施例的信息分类方法的示意图。其中,在此示例中,存在9个信息,将这9个信息平均分配至3个计算节点,设定自动将这9个信息分为2类(即,2个聚类中心点),且这些信息仅包含2个参数,如打车软件中的数据包括每个乘客信息的总消费金额和平均消费金额,之所以选择2个参数是因为这样可以按照二维坐标的形式来表示每个乘客信息。当然,这些数字仅为了更清楚的说明,其中信息的数量可以是亿万级别的;计算节点也可以是上万台计算机;而聚类中心点个数一般大于或等于4,例如可以分类为大额消费乘客、小额消费乘客、优惠敏感型乘客、打车时段固定型乘客等;以及信息的参数一般大于或等于4,例如还可以包括平均打车距离、平均优惠金额等。
如图3A所示,首先在初始化时预先设定初始聚类中心点“★”,也即,在对整个系统进行初始化时,将随机或经验设定的初始聚类中心点分配至每个计算节点。这时,对于乘客信息而言,每个计算节点均具有相同的2个聚类中心点“★”。
之后,如图3B所示,将9个乘客信息平均分配至3个计算节点中。其中分配至第一计算节点中的乘客信息用“○”表示,分配至第二计算节点中的乘客信息用“△”表示,分配至第三计算节点中的乘客信息用“□”表示。
之后,如图3C所示,在每个计算节点上均执行如下操作:将被分配的信息分类至距离其最近的聚类中心点。具体而言,对于第一计算节点,左侧的两个乘客信息“○”被分类至左侧的聚类中心点,右侧的一个乘客信息“○”被分类至右侧的聚类中心点;对于第二计算节点,左侧的一个乘客信息“△”被分类至左侧的聚类中心点,右侧的两个乘客信息“△”被分类至右侧的聚类中心点;对于第三计算节点,左侧的一个乘客信息“□”被分类至左侧的聚类中心点,右侧的两个乘客信息“□”被分类至右侧的聚类中心点。由此,9个乘客信息被分类为2类,由虚线框表示。
之后,如图3D所示,继续在每个计算节点上均执行如下操作:根据被分类至聚类中心点的信息到聚类中心点的距离以及被分类至聚类中心点的信息的数量,计算对应于每个计算节点的子聚类中心点。具体而言,对于第一计算节点,第一子聚类中心点为左侧两个“○”的中点“☆”,第二子聚类中心点为右侧一个“○”本身“☆”;对于第二计算节点,第一子聚类中心点为左侧一个“△”本身“☆”,第二子聚类中心点为右侧两个“△”的中点“☆”;对于第三计算节点,第一子聚类中心点为左侧一个“□”本身“☆”,第二子聚类中心点为右侧两个“□”的中点“☆”。
之后,如图3E所示,针对每一类,汇总对应于每个计算节点的子聚类中心点“☆”,并通过均值运算确定更新的聚类中心点“◆”。此后,将更新的聚类中心点“◆”作为聚类中心点“★”继续迭代地进行上述分类运算,直至“◆”与“★”之间的距离小于或等于预定阈值(例如,重合),分类结束。
在再一个实施例中,距离可以为欧氏距离,也可以为马式距离、汉明距离、余弦距离等。
在再一个实施例中,该方法还可以包括:在多个计算节点的内存中存储用于计算的数据,以及在服务器的内存中存储用于汇总的数据。由于本公开实施例中的分类运算涉及非常频繁的迭代,故将计算和汇总的数据存储在内存中可以减少数据调取的时间,加快运算速度。
此外,图4示出了根据本公开实施例的信息分类系统的示意性框图。如图4所示,该信息分类系统400可以包括:信息分配装置401,用于将信息分配至具有聚类中心点的多个计算节点;在多个计算节点中的每个计算节点上的处理装置403,被配置为:将被分配的信息分类至距离其最近的聚类中心点;以及根据被分类至聚类中心点的信息到聚类中心点的距离以及被分类至聚类中心点的信息的数量,计算对应于每个计算节点的子聚类中心点;聚类中心点更新装置405,用于根据计算的对应于每个计算节点的子聚类中心点,确定更新的聚类中心点;以及聚类中心点确定装置407,用于在更新的聚类中心点与聚类中心点之间的距离小于或等于预定阈值时,将更新的聚类中心点确定为最终的聚类中心点。
在一个实施例中,聚类中心点更新装置405可以包括:汇总装置,用于汇总计算的对应于每个计算节点的子聚类中心点,以确定更新的聚类中心点。
在另一个实施例中,聚类中心点确定装置407还可以包括:聚类中心点分配装置,用于将更新的聚类中心点分别分配至每个计算节点;以及子聚类中心点更新装置,用于根据更新的聚类中心点计算更新的子聚类中心点,以使更新的聚类中心点与聚类中心点之间的距离小于或等于预定阈值。
虽然本说明书阐述了本公开的一些实施例,但根据各种修改和改进,所附权利要求覆盖不同于所描述的实施例的本公开的其他实施例。对于本领域技术人员来说,其他应用和结构是显而易见的。

Claims (12)

1.一种信息分类方法,包括:
将信息分配至具有聚类中心点的多个计算节点;
在所述多个计算节点中的每个计算节点上执行:
将被分配的信息分类至距离其最近的聚类中心点;以及
根据被分类至所述聚类中心点的信息到所述聚类中心点的距离以及被分类至所述聚类中心点的信息的数量,计算对应于每个计算节点的子聚类中心点;
根据所述计算的对应于每个计算节点的子聚类中心点,确定更新的聚类中心点;以及
在所述更新的聚类中心点与所述聚类中心点之间的距离小于或等于预定阈值时,将所述更新的聚类中心点确定为最终的聚类中心点。
2.根据权利要求1所述的方法,其中根据所述计算的对应于每个计算节点的子聚类中心点,确定更新的聚类中心点包括:
汇总所述计算的对应于每个计算节点的子聚类中心点,以确定更新的聚类中心点。
3.根据权利要求1所述的方法,其中在所述更新的聚类中心点与所述聚类中心点之间的距离小于或等于预定阈值时,将所述更新的聚类中心点确定为最终的聚类中心点包括:
将所述更新的聚类中心点分别分配至每个计算节点;以及
根据所述更新的聚类中心点计算更新的子聚类中心点,以使所述更新的聚类中心点与所述聚类中心点之间的距离小于或等于所述预定阈值。
4.根据权利要求1所述的方法,其中所述距离为欧氏距离。
5.根据权利要求2所述的方法,其中通过均值运算来计算对应于每个计算节点的子聚类中心点并且汇总所述计算的对应于每个计算节点的子聚类中心点。
6.根据权利要求1所述的方法,还包括:
在所述多个计算节点的内存中存储用于计算的数据,以及在服务器的内存中存储用于汇总的数据。
7.根据权利要求1所述的方法,其中根据被分类至所述聚类中心点的信息到所述聚类中心点的距离以及被分类至所述聚类中心点的信息的数量,计算对应于每个计算节点的子聚类中心点包括:
对被分类至所述聚类中心点的信息到所述聚类中心点的距离求和,并且确定被分类至所述聚类中心点的信息的数量,以通过均值运算来计算对应于每个计算节点的所述子聚类中心点。
8.一种信息分类系统,包括:
信息分配装置,被配置为将信息分配至具有聚类中心点的多个计算节点;
在所述多个计算节点中的每个计算节点上的处理装置,被配置为:
将被分配的信息分类至距离其最近的聚类中心点;以及
根据被分类至所述聚类中心点的信息到所述聚类中心点的距离以及被分类至所述聚类中心点的信息的数量,计算对应于每个计算节点的子聚类中心点;
聚类中心点更新装置,被配置为根据所述计算的对应于每个计算节点的子聚类中心点,确定更新的聚类中心点;以及
聚类中心点确定装置,被配置为在所述更新的聚类中心点与所述聚类中心点之间的距离小于或等于预定阈值时,将所述更新的聚类中心点确定为最终的聚类中心点。
9.根据权利要求8所述的系统,其中所述聚类中心点更新装置包括:
汇总装置,被配置为汇总所述计算的对应于每个计算节点的子聚类中心点,以确定更新的聚类中心点。
10.根据权利要求8所述的系统,其中所述聚类中心点确定装置包括:
聚类中心点分配装置,被配置为将所述更新的聚类中心点分别分配至每个计算节点;以及
子聚类中心点更新装置,被配置为根据所述更新的聚类中心点计算更新的子聚类中心点,以使所述更新的聚类中心点与所述聚类中心点之间的距离小于或等于所述预定阈值。
11.根据权利要求8所述的系统,其中用于计算的数据存储在所述多个计算节点的内存中,以及用于汇总的数据存储在服务器的内存中。
12.根据权利要求8所述的系统,其中根据被分类至所述聚类中心点的信息到所述聚类中心点的距离以及被分类至所述聚类中心点的信息的数量,计算对应于每个计算节点的子聚类中心点包括:
对被分类至所述聚类中心点的信息到所述聚类中心点的距离求和,并且确定被分类至所述聚类中心点的信息的数量,以通过均值运算来计算对应于每个计算节点的所述子聚类中心点。
CN201510075881.8A 2015-02-12 2015-02-12 信息分类方法与系统 Pending CN104615752A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510075881.8A CN104615752A (zh) 2015-02-12 2015-02-12 信息分类方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510075881.8A CN104615752A (zh) 2015-02-12 2015-02-12 信息分类方法与系统

Publications (1)

Publication Number Publication Date
CN104615752A true CN104615752A (zh) 2015-05-13

Family

ID=53150194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510075881.8A Pending CN104615752A (zh) 2015-02-12 2015-02-12 信息分类方法与系统

Country Status (1)

Country Link
CN (1) CN104615752A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203494A (zh) * 2016-06-30 2016-12-07 电子科技大学 一种基于内存计算的并行化聚类方法
CN106599617A (zh) * 2016-12-20 2017-04-26 福建师范大学 一种运行于分布式系统的海量测序数据错误修正方法
CN107358263A (zh) * 2017-07-14 2017-11-17 广东电网有限责任公司电力科学研究院 一种电力用户行为分析的分布式聚类算法及系统
CN109447103A (zh) * 2018-09-07 2019-03-08 平安科技(深圳)有限公司 一种基于硬聚类算法的大数据分类方法、装置及设备
CN109583799A (zh) * 2017-09-28 2019-04-05 北京三快在线科技有限公司 区域划分的方法及装置、电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389966A (zh) * 2012-05-09 2013-11-13 阿里巴巴集团控股有限公司 一种海量数据的处理、搜索、推荐方法及装置
CN103593418A (zh) * 2013-10-30 2014-02-19 中国科学院计算技术研究所 一种面向大数据的分布式主题发现方法及系统
CN103744899A (zh) * 2013-12-25 2014-04-23 浪潮电子信息产业股份有限公司 一种基于分布式环境的海量数据快速分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389966A (zh) * 2012-05-09 2013-11-13 阿里巴巴集团控股有限公司 一种海量数据的处理、搜索、推荐方法及装置
CN103593418A (zh) * 2013-10-30 2014-02-19 中国科学院计算技术研究所 一种面向大数据的分布式主题发现方法及系统
CN103744899A (zh) * 2013-12-25 2014-04-23 浪潮电子信息产业股份有限公司 一种基于分布式环境的海量数据快速分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑苗苗 等: ""DK-Means——分布式聚类算法K-Dmeans的改进"", 《计算机研究与发展》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203494A (zh) * 2016-06-30 2016-12-07 电子科技大学 一种基于内存计算的并行化聚类方法
CN106203494B (zh) * 2016-06-30 2019-12-13 电子科技大学 一种基于内存计算的并行化聚类方法
CN106599617A (zh) * 2016-12-20 2017-04-26 福建师范大学 一种运行于分布式系统的海量测序数据错误修正方法
CN106599617B (zh) * 2016-12-20 2019-02-15 福建师范大学 一种运行于分布式系统的海量测序数据错误修正方法
CN107358263A (zh) * 2017-07-14 2017-11-17 广东电网有限责任公司电力科学研究院 一种电力用户行为分析的分布式聚类算法及系统
CN109583799A (zh) * 2017-09-28 2019-04-05 北京三快在线科技有限公司 区域划分的方法及装置、电子设备
CN109583799B (zh) * 2017-09-28 2021-07-30 北京三快在线科技有限公司 区域划分的方法及装置、电子设备
CN109447103A (zh) * 2018-09-07 2019-03-08 平安科技(深圳)有限公司 一种基于硬聚类算法的大数据分类方法、装置及设备
CN109447103B (zh) * 2018-09-07 2023-09-29 平安科技(深圳)有限公司 一种基于硬聚类算法的大数据分类方法、装置及设备

Similar Documents

Publication Publication Date Title
US11392843B2 (en) Utilizing a machine learning model to predict a quantity of cloud resources to allocate to a customer
US11514347B2 (en) Identifying and remediating system anomalies through machine learning algorithms
CN104615752A (zh) 信息分类方法与系统
US20200265119A1 (en) Site-specific anomaly detection
Solaimani et al. Statistical technique for online anomaly detection using spark over heterogeneous data from multi-source vmware performance data
US10956541B2 (en) Dynamic optimization of software license allocation using machine learning-based user clustering
CN110597719B (zh) 一种用于适配测试的图像聚类方法、装置及介质
WO2016040699A1 (en) Computing instance launch time
US10476742B1 (en) Classification of auto scaling events impacting computing resources
CN106874100B (zh) 计算资源分配方法及装置
US11151246B2 (en) Risk score generation with dynamic aggregation of indicators of compromise across multiple categories
CN105550175A (zh) 恶意账户识别方法及装置
CN105868389A (zh) 一种基于mongoDB的数据沙盒实现方法及系统
CN107273412A (zh) 一种文本数据的聚类方法、装置和系统
US20130254524A1 (en) Automated configuration change authorization
US12010169B2 (en) Dynamic management of locations of modules of a platform hosted by a distributed system
US11863524B2 (en) Autotuning a virtual firewall
US20240143436A1 (en) Techniques to provide self-healing data pipelines in a cloud computing environment
US20230205516A1 (en) Software change analysis and automated remediation
CN105874426A (zh) 一种系统调用命令的批处理方法及装置
CN111949736A (zh) 一种数据库负载均衡方法、装置、电子设备和存储介质
Su et al. Towards optimal decomposition of Boolean networks
CN105872082B (zh) 基于容器集群负载均衡算法的细粒度资源响应系统
US20210319348A1 (en) Artificial Intelligence Techniques for Prediction of Data Protection Operation Duration
CN106897303A (zh) 数据查询方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150513

RJ01 Rejection of invention patent application after publication