CN110928957A - 数据聚类方法及装置 - Google Patents

数据聚类方法及装置 Download PDF

Info

Publication number
CN110928957A
CN110928957A CN201811103301.1A CN201811103301A CN110928957A CN 110928957 A CN110928957 A CN 110928957A CN 201811103301 A CN201811103301 A CN 201811103301A CN 110928957 A CN110928957 A CN 110928957A
Authority
CN
China
Prior art keywords
clustering
data
threshold
clustered
classes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811103301.1A
Other languages
English (en)
Inventor
赵振财
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811103301.1A priority Critical patent/CN110928957A/zh
Publication of CN110928957A publication Critical patent/CN110928957A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种数据聚类方法及装置。其中,该方法包括:获取待聚类数据,并抽取待聚类数据的数据特征;从预设数据库中获取与数据特征相匹配的聚类阈值,其中,预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值;采用聚类阈值对待聚类数据进行数据聚类处理,得到聚类结果。本发明解决了现有技术中数据聚类处理过程中阈值通常是由人工基于经验进行设置,导致聚类效果不佳的技术问题。

Description

数据聚类方法及装置
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据聚类方法及装置。
背景技术
数据聚类(Cluster analysis)是对于静态数据分析的一门技术,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。
当前,聚类技术正在蓬勃发展,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性。
现有的聚类方法的中的阈值多为根据人工经验设定,在整个过程中不可改变,对于不同数据源和场景不能够自动选择合适阈值,聚类效果不佳。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据聚类方法及装置,以至少解决现有技术中数据聚类处理过程中阈值通常是由人工基于经验进行设置,导致聚类效果不佳的技术问题。
为了实现上述目的,根据本申请的一个方面,提供了一种数据聚类方法,该包括:获取待聚类数据,并抽取待聚类数据的数据特征;从预设数据库中获取与数据特征相匹配的聚类阈值,其中,预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值;采用聚类阈值对待聚类数据进行数据聚类处理,得到聚类结果。
进一步地,采用聚类阈值对待聚类数据进行数据聚类处理,得到聚类结果包括:对待聚类数据进行预处理,得到处理后的数据;计算处理后的数据中的各个数据之间的相似度;按照各个数据之间的相似度进行聚类,得到多个类;计算多个类的聚类准确率;基于聚类准确率对待聚类数据进行迭代聚类,得到聚类结果。
进一步地,基于聚类准确率对待聚类数据进行迭代聚类,得到聚类结果包括:若聚类准确率小于预设阈值,基于多个类的聚类准确率和聚类阈值进行学习,更新当前的聚类阈值;采用更新后的聚类阈值对待聚类数据进行数据聚类处理,直到在数据聚类处理后得到的多个类的聚类准确率大于等于预设阈值时,得到聚类结果。
进一步地,若聚类准确率小于预设阈值,则更新聚类阈值之后,方法还包括:将更新后的聚类阈值存储在预设数据库中。
进一步地,按照各个数据之间的相似度进行聚类,得到多个类包括:采用不同的聚类方法对各个数据之间的相似度进行聚类,得到各个聚类方法下的多个类;按照预设的融合策略,对各个聚类方法下的多个类进行融合,得到多个类。
进一步地,采用更新后的聚类阈值对待聚类数据进行数据聚类处理,直到在数据聚类处理后得到的多个类的聚类准确率大于等于预设阈值时,得到聚类结果包括:确定数据特征中的应用场景,其中,所述应用场景为以下至少之一:互联网搜索、电商购物、商业分析、动植物分类、基因分类、保险行业、电子商务;基于应用场景,对数据聚类处理后得到的聚类准确率大于等于预设阈值的多个类的进行排序;按照排序后的次序对各个类进行展示,得到聚类结果。
进一步地,计算多个类的聚类准确率包括:采用戴维森保丁指数算法计算多个类的聚类准确率。
进一步地,数据特征至少包括:数据类型、数据量、数据结构、应用场景。
进一步地,聚类阈值包括以下之一:聚类簇数、相似度阈值、聚类报警阈值。
为了实现上述目的,根据本申请的另一方面,提供了一种数据聚类装置,包括:抽取单元,用于获取待聚类数据,并抽取待聚类数据的数据特征;获取单元,用于从预设数据库中获取与数据特征相匹配的聚类阈值,其中,预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值;聚类单元,采用聚类阈值对待聚类数据进行数据聚类处理,得到聚类结果。
进一步地,聚类单元还包括:处理子单元,对待聚类数据进行预处理,得到处理后的数据;第一计算子单元,计算处理后的数据中的各个数据之间的相似度;第一聚类子单元,按照各个数据之间的相似度进行聚类,得到多个类;第二计算子单元,计算多个类的聚类准确率;第二聚类子单元,基于聚类准确率对待聚类数据进行迭代聚类,得到聚类结果。
进一步地,第二聚类子单元还包括:更新模块,在聚类准确率小于预设阈值的情况下,基于多个类的聚类准确率和聚类阈值进行学习,更新当前的聚类阈值;聚类模块,采用更新后的聚类阈值对待聚类数据进行数据聚类处理,直到在数据聚类处理后得到的多个类的聚类准确率大于等于预设阈值时,得到聚类结果。
进一步地,聚类模块还包括:存储子模块,若聚类准确率小于预设阈值,则更新聚类阈值之后,将更新后的聚类阈值存储在预设数据库中。
进一步地,第一聚类子单元还包括:第四聚类模块,采用不同的聚类方法对各个数据之间的相似度进行聚类,得到各个聚类方法下的多个类;融合模块,用于按照预设的融合策略,对各个聚类方法下的多个类进行融合,得到多个类。
进一步地,聚类模块还包括:确定子模块,确定数据特征中的应用场景,其中,所述应用场景为以下至少之一:互联网搜索、电商购物、商业分析、动植物分类、基因分类、保险行业、电子商务;排序子模块,基于应用场景,对数据聚类处理后得到的聚类准确率大于等于预设阈值的多个类的进行排序;展示子模块,按照排序后的次序对各个类进行展示,得到聚类结果。
进一步地,第二计算子单元还用于采用戴维森保丁指数算法计算多个类的聚类准确率。
进一步地,所述数据特征至少包括:数据类型、数据量、数据结构、应用场景。
进一步地,获取单元中的聚类阈值包括以下之一:聚类簇数、相似度阈值、聚类报警阈值。
根据本发明实施例的一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任意一种数据聚类方法。
根据本申请的另一方面,还提供了一种处理器,处理器用于运行程序,程序运行时执行上述任意一种数据聚类方法。
根据本申请的另一方面,还提供了一种计算机终端,包括:处理器;以及存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:获取待聚类数据,并抽取所述待聚类数据的数据特征;从预设数据库中获取与所述数据特征相匹配的聚类阈值,其中,所述预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值;采用所述聚类阈值对所述待聚类数据进行数据聚类处理,得到聚类结果。
在本发明实施例中,通过获取待聚类数据,并抽取所述待聚类数据的数据特征的方式,通过从预设数据库中获取与所述数据特征相匹配的聚类阈值,其中,所述预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值,采用所述聚类阈值对所述待聚类数据进行数据聚类处理,得到聚类结果,在初始获取聚类阈值时,从预设数据库中获取与所述数据特征相匹配的聚类阈值,提升了获取聚类阈值的效率以及提升聚类效果的目的,进而解决了现有技术中数据聚类处理过程中阈值通常是由人工基于经验进行设置,导致聚类效果不佳的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例提供的一种数据聚类方法的流程图;
图2是根据本发明实施例提供的数据预处理方法的示意图;
图3是根据本发明实施例的提供的一种可选的数据聚类方法的示意图;
图4是根据本发明实施例的提供的一种数据聚类装置的示意图;
图5是根据本发明实施例的计算机终端的硬件结构框图;以及
图6是根据本发明实施例的可选的计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
贪心算法(Greedy algorithm):是一种对某些求最优解问题的更简单、更迅速的设计技术。用贪婪法设计算法的特点是一步一步地进行,常以当前情况为基础根据某个优化测度作最优选择,而不考虑各种可能的整体情况,它省去了为找最优解要穷尽所有可能而必须耗费的大量时间,它采用自顶向下,以迭代的方法做出相继的贪心选择,每做一次贪心选择就将所求问题简化为一个规模更小的子问题,通过每一步贪心选择,可得到问题的一个最优解。
实施例1
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请提供了如图1所示的一种数据聚类方法。图1是根据本发明实施例1的一种数据聚类方法的流程图。
S102:获取待聚类数据,并抽取待聚类数据的数据特征。
在上述方案中,特征提取可以通过映射的方法,将高维的属性空间压缩为低维的属性空间,得到最小的属性集,使得数据类的概念分布尽可能的使用所有属性的原分布,得到的数据挖掘结果与所有特征参加的数据挖掘结果相近或完全一致。对于待聚类数据的各属性来说,特征提取的基本方法包括以下四种,如图2所示:
1、逐步向前选择:该过程由空属性集作为归约集开始,确定原属性集中最好的属性,并将它添加到归约集中。
2、逐步向后删除:该过程由整个属性集开始。在每一步中,删除尚在属性集中最差的属性。
3、逐步向前选择和逐步向后删除的组合,可以将逐步向前选择和逐步向后删除方法结合在一起,每一步选择一个最好的属性,并在剩余属性中删除一个最差的属性。
4、决策树归纳:决策树归纳构造一个类似于流程图的结构,其中每个内部(非树叶)节点表示一个属性上的测试,每个分枝对应于测试的一个结果;每个外部(树叶)节点表示一个类预测。在每个节点上,算法选择“最好”的属性,将数据划分成类。
可选地,数据是信息的表现形式和载体,可以包括符号、文字、数字、语音、图像、视频等。数据和信息是不可分离的,数据是信息的表达,信息是数据的内涵。数据可以是连续的值,比如声音、图像,成为模拟数据,也可以是离散的,比如符号、文字等统称为数字数据。可选地,在本发明实施例中抽取出待聚类数据的数据特征至少包括:数据类型、数据量、数据结构、应用场景。
S104:从预设数据库中获取与数据特征相匹配的聚类阈值,其中,预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值。
可选地,聚类阈值包括以下之一:聚类簇数、相似度阈值、聚类报警阈值。
需要说明的是,在本发明实施例中初始化的阈值是从数据库中获取的与数据特征相匹配的聚类阈值。相比相关技术中基于人工经验设置阈值数值,获取的初始阈值更加准确,更加快速。
例如从预设数据库中获取与数据特征相匹配的初始阈值如下:聚类簇数为K=10,相似度计算阈值S为S=98%,聚类报警阈值为W=30%。
S106:采用聚类阈值对待聚类数据进行聚类处理,得到聚类结果。
可选地,采用聚类阈值对待聚类数据进行数据聚类处理,得到聚类结果包括:对待聚类数据进行预处理,得到处理后的数据;计算处理后的数据中的各个数据之间的相似度;按照各个数据之间的相似度进行聚类,得到多个类;计算多个类的聚类准确率;基于聚类准确率对待聚类数据进行迭代聚类,得到聚类结果。
需要说明的是,在数据聚类整体过程中,海量的原始数据中存在这大量复杂的,重复的,不完整的数据,严重影响到数据聚类的执行效率,甚至可能导致聚类结果的偏差,为此,在数据聚类算法执行之前,必须对收集到的原始数据进行预处理,以改进数据的质量,提高数据聚类过程的效率,精度,性能。可选地,从对不同的源数据进行预处理的功能来分,数据预处理中可以包括数据清理,数据集成,数据变换,数据规约4个基本的功能。需要说明的是,在实际的数据预处理过程中,这4中功能不一定都用得到,而且,它们的使用也没有先后顺序,某种预处理可能先后要多次进行。
例如,对一般的数据清理进行说明,数据清理即要去除待聚类数据的源数据集中的噪声数据和无关数据,处理遗漏数据和清洗“脏”数据,空缺值,识别删除孤立点等。噪声的处理:噪声是一个测量变量中的随即错误和偏差,包括错误的值或偏离期望的孤立点值,对于噪声数据有如下几种处理方法:分箱法,聚类法识别孤立点和回归。空缺值的处理:使用最平均的值填充空缺值,如用一个全局常量替换空缺值,使用属性的平均值填充空缺值或将所有元组按照某些属性分类,然后用同一类中属性的平均值填充空缺值。例如:一个公司职员平均工资收入为3000元,则使用该值替换工资中“基本工资”属性中的空缺值。清洗“脏”数据:异构数据源数据库中的数据并不都是正确的,常常不可避免的存在着不完整,不一致,不精确和重复的数据,这些数据统称为“脏”数据,“脏”数据能使挖掘过程陷入混乱,导致不可靠的输出。清洗“脏”数据可采用下面的方式:1.手工实现方式;2.用专门编写的应用程序;3.采用概率统计学远离查找数值异常的记录;4.对重复记录的检测和删除。
需要说明的是,经过上述方案对待聚类数据进行预处理,可以实现格式标准化,异常数据清除,错误纠正,重复数据的清除等等效果。
可选地,基于预处理过的数据,对待聚类数据进行计算,计算出各个数据间的相似度,用于后续对数据进行数据聚类处理。
可选地,按照各个数据之间的相似度进行聚类,得到多个类包括:采用不同的聚类方法对各个数据之间的相似度进行聚类,得到各个聚类方法下的多个类;按照预设的融合策略,对各个聚类方法下的多个类进行融合,得到多个类。
例如,采用聚类策略A,对各个数据之间的相似度进行聚类后,得到A聚类方法下的多个类;采用聚类策略B,对各个数据之间的相似度进行聚类后,得到B聚类方法下的多个类;采用聚类策略C,对各个数据之间的相似度进行聚类后,得到C聚类方法下的多个类。对A聚类方法下的多个类、B聚类方法下的多个类和C聚类方法下的多个类进行融合处理,得到多个类。
可选地,在本发明实施例中数据聚类方法可以包括划分方法,层次方法,基于密度的方法,基于网格的方法,以及基于模型的方法。
可选地,在本发明实施例中还可以采用K均值(K-Means)聚类算法对待处理数据进行聚类,也可以用其他聚类方法,如BIRCH算法、DBSCAN算法、STING算法、等等,这里不一一列举。
具体地,K-means使用一种度量聚类效果的指标是SSE(Sum of Squared Error,误差平方和)。SSE越小表示数据点越接近它们的质心,聚类效果也最好。它选择初始聚类中心的步骤是(例如,K=10):
(a)未聚类的初始点集,把初始点集分为K=10个聚类簇;
(b)从每个聚类簇中随机选择一个点作为第一个聚类中心;
(c)对于聚类簇中的每个点X,计算它每个聚类中心(指已选择的聚类中心)的距离D(X),根据计算出来的D(X),把该点聚类到离该点最近的聚类中去;
(d)计算每个聚类簇中所有点的坐标平均值,并将这个平均值作为新的聚类中心;
(e)重复(c),计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去;
(f)重复(d),计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心。
可选地,基于聚类准确率对待聚类数据进行迭代聚类,得到聚类结果包括:若聚类准确率小于预设阈值,基于多个类的聚类准确率和聚类阈值进行学习,更新当前的聚类阈值;采用更新后的聚类阈值对待聚类数据进行数据聚类处理,直到在数据聚类处理后得到的多个类的聚类准确率大于等于预设阈值时,得到聚类结果。
具体地,对数据进行聚类处理后,得到聚类结果,需要对聚类结果的准确性做一个评测。可选地,计算多个类的聚类准确率包括:采用戴维森保丁指数算法计算多个类的聚类准确率。
具体地,Davies-Bouldin Index(戴维森堡丁指数)算法计算任意两类别的类内距离平均距离(CP)之和除以两聚类中心距离求最大值,计算出的DB值越小意味着类内距离越小,同时类间距离越大。通过戴维森堡丁指数计算出的DB越小,表明数据聚类效果越好。反之,聚类效果越差。
可选地,聚类效果指标的计算方法除了DBI(戴维森保丁指数)指标之外,还可以采用Compactness(紧密性)(CP)、Separation(间隔性)(SP)、Dunn Validity Index(邓恩指数)(DVI)等其他指标,都是用于表示聚类效果的计算指标,反馈机制中的聚类报警准确率也可以用实际工作生产中可以衡量聚类效果实际价值的指标替代。
需要说明的是,本实施例中,根据计算出的DB值,计算聚类准确率,计算出的聚类准确率与初始化阈值时获取的相似度计算阈值和聚类报警阈值进行比对,如果计算出的聚类准确率小于聚类报警阈值,会直接触发反馈机制对聚类阈值重新预测。根据聚类效果指标和反馈机制中的聚类准确率进行指导,对聚类阈值做出预测,并且根据聚类阈值预测更新各聚类阈值,例如,根据预测的聚类阈值为:聚类簇个数K=11,相似度计算值S=97%,聚类报警阈值W=40%。那么对初始聚类采用的聚类阈值做出更新:由聚类簇个数为K=10簇,相似度计算阈值S为S=98%,聚类报警阈值为W=30%更新为聚类簇个数K=11,相似度计算值S=97%,聚类报警阈值W=40%。
可选地,若聚类准确率小于预设阈值,则更新聚类阈值之后,该方法还包括:将更新后的聚类阈值存储在预设数据库中。
具体地,根据计算出的DB值,计算聚类准确率,如果聚类准确率小于预设相似度计算阈值的情况下,对聚类阈值做出预测并更新,更新后的阈值一方面作为新的阈值进行聚类计算,另一方面还会存储在预设数据库,需要说明的是,预设数据库中除了存储聚类阈值,还可以存储与该聚类阈值对应的数据特征,以及聚类结果的准确率等等,以便后续对待聚类数据进行匹配对应的聚类阈值时,综合数据特征,聚类结果的准确率进行考虑。
可选地,采用更新后的聚类阈值对待聚类数据进行数据聚类处理,直到在数据聚类处理后得到的多个类的聚类准确率大于等于预设阈值时,得到聚类结果包括:确定数据特征中的应用场景,其中,所述应用场景为以下至少之一:互联网搜索、电商购物、商业分析、动植物分类、基因分类、保险行业、电子商务;基于应用场景,对数据聚类处理后得到的聚类准确率大于等于预设阈值的多个类的进行排序;按照排序后的次序对各个类进行展示,得到聚类结果。
由于不同应用场景对聚类后得到的多个类的排序需求不一样,因此,在本发明实施例中,上述的应用场景可以包括:互联网搜索,电商购物,商业分析,动植物分类和基因分类,保险行业或者具体的电子商务等等。基于从待聚类数据中识别出对应的应用场景,对数据聚类处理后得到的聚类准确率大于等于预设阈值的多个类的进行排序;按照排序后的次序对各个类进行展示,得到聚类结果。
例如,在电子商务应用场景下,根据基于应用场景中对聚类后的多个类进行排序后得到的聚类结果,可以快速、直观的了解到商品搜索的排名。
可选地,对本实施例中提供的数据聚类方法提供了另一种流程,如图3所示,步骤如下:步骤一,首先获取待聚类处理的数据;步骤二,对数据进行特征提取,包括对数据类型、数据量、数据结构和应用场景等特征的提取;步骤三,根据预先存储的阈值数值初始化待聚类处理数据的各项阈值,包括聚类簇个数,相似度计算阈值、聚类融合方案、聚类报警阈值等;步骤四,对初始化阈值的数据进行聚类计算,计算包括对待处理数据进行数据预处理、根据相似度计算策略进行处理、选择聚类方法、根据数据融合策略进行数据相似度融合、对处理过的数据进行重排序;步骤五,根据聚类计的数据得到的结果计算聚类效果指标,优选的为戴维森堡丁指数;步骤六,根据计算的聚类效果指标计算聚类准确率,聚类准确率与预存在数据库中的初始阈值进行比对,触发反馈机制;步骤七,根据聚类效果指标与聚类准确率的指导通过反馈机制对聚类阈值进行预测;步骤八,得到预测的阈值,初始阈值被预测得到的阈值更新取代,根据贪心策略,迭代计算重复执行步骤四;步骤九,重复执行步骤四,步骤五,步骤六,步骤七和步骤八,直到计算出的聚类效果指标收敛,基本没有变化后终止迭代,得到最终聚类结果。
在本发明实施例中,通过获取待聚类数据,并抽取所述待聚类数据的数据特征的方式,通过从预设数据库中获取与所述数据特征相匹配的聚类阈值,其中,所述预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值,采用所述聚类阈值对所述待聚类数据进行数据聚类处理,得到聚类结果,在初始获取聚类阈值时,从预设数据库中获取与所述数据特征相匹配的聚类阈值,提升了获取聚类阈值的效率以及提升聚类效果的目的,进而解决了现有技术中数据聚类处理过程中阈值通常是由人工基于经验进行设置,导致聚类效果不佳的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述一种数据聚类装置的实施例,如图4所示,该装置包括:抽取单元410,获取单元420和聚类单元430。
具体地,抽取单元410,用于获取待聚类数据,并抽取待聚类数据的数据特征;获取单元420,用于从预设数据库中获取与数据特征相匹配的聚类阈值,其中,预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值;聚类单元430,采用聚类阈值对待聚类数据进行数据聚类处理,得到聚类结果。
在本申请实施例提供的数据聚类装置中,通过抽取单元410,用于获取待聚类数据,并抽取待聚类数据的数据特征;获取单元420,用于从预设数据库中获取与数据特征相匹配的聚类阈值,其中,预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值;聚类单元430,采用聚类阈值对待聚类数据进行数据聚类处理,得到聚类结果,达到了自动更新聚类阈值,提升聚类准确率的目的,进而解决了现有技术中数据聚类处理过程中阈值通常是由人工基于经验进行设置,导致聚类效果不佳的技术问题。
可选地,在本申请实施例提供的数据聚类装置中,聚类单元430还包括:处理子单元,对待聚类数据进行预处理,得到处理后的数据;第一计算子单元,计算处理后的数据中的各个数据之间的相似度;第一聚类子单元,按照各个数据之间的相似度进行聚类,得到多个类;第二计算子单元,计算多个类的聚类准确率;第二聚类子单元,基于聚类准确率对待聚类数据进行迭代聚类,得到聚类结果。
可选地,在本申请实施例提供的数据聚类装置中,第二聚类子单元还包括:更新模块,在聚类准确率小于预设阈值的情况下,基于多个类的聚类准确率和聚类阈值进行学习,更新当前的聚类阈值;聚类模块,采用更新后的聚类阈值对待聚类数据进行数据聚类处理,直到在数据聚类处理后得到的多个类的聚类准确率大于等于预设阈值时,得到聚类结果。
可选地,在本申请实施例提供的数据聚类装置中,聚类模块还包括:存储子模块,若聚类准确率小于预设阈值,则更新聚类阈值之后,将更新后的聚类阈值存储在预设数据库中。
可选地,在本申请实施例提供的数据聚类装置中,第一聚类子单元还包括:第四聚类模块,采用不同的聚类方法对各个数据之间的相似度进行聚类,得到各个聚类方法下的多个类;融合模块,用于按照预设的融合策略,对各个聚类方法下的多个类进行融合,得到多个类。
可选地,在本申请实施例提供的数据聚类装置中,聚类模块还包括:确定子模块,确定数据特征中的应用场景,其中,所述应用场景为以下至少之一:互联网搜索、电商购物、商业分析、动植物分类、基因分类、保险行业、电子商务;排序子模块,基于应用场景,对数据聚类处理后得到的聚类准确率大于等于预设阈值的多个类的进行排序;展示子模块,按照排序后的次序对各个类进行展示,得到聚类结果。
可选地,在本申请实施例提供的数据聚类装置中,第二计算子单元还用于采用戴维森保丁指数算法计算多个类的聚类准确率。
可选地,在本申请实施例提供的数据聚类装置中,所述数据特征至少包括:数据类型、数据量、数据结构、应用场景。
可选地,在本申请实施例提供的数据聚类装置中,获取单元420中的聚类阈值包括以下之一:聚类簇数、相似度阈值、聚类报警阈值。
此处需要说明的是,上述抽取单元410、获取单元420和聚类单元430对应于实施例1中的步骤S102至步骤S106,三个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。
实施例3
本发明实施例所提供的语音识别方法实施例可以在移动设备、计算机终端或者类似的运算装置中执行。图5示出了一种用于实现语音识别方法的计算机终端的硬件结构框图。如图5所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图5所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本发明实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的语音识别方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的语音识别方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图5所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图5仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
此处需要说明的是,在一些可选实施例中,上述图5所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图5仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动设备等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
图6是根据本发明实施例的一种可选的计算机终端的结构框图。如图6所示,该计算机终端10可以包括:一个或多个(图中仅示出一个)处理器和存储器。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的语音识别方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的语音识别方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取待聚类数据,并抽取所述待聚类数据的数据特征;从预设数据库中获取与所述数据特征相匹配的聚类阈值,其中,所述预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值;采用所述聚类阈值对所述待聚类数据进行数据聚类处理,得到聚类结果。
可选的,采用所述聚类阈值对所述待聚类数据进行数据聚类处理,得到聚类结果包括:对所述待聚类数据进行预处理,得到处理后的数据;计算处理后的数据中的各个数据之间的相似度;按照各个数据之间的相似度进行聚类,得到多个类;计算所述多个类的聚类准确率;基于所述聚类准确率对所述待聚类数据进行迭代聚类,得到所述聚类结果。
可选的,基于所述聚类准确率对所述待聚类数据进行迭代聚类,得到所述聚类结果包括:若所述聚类准确率小于预设阈值,基于所述多个类的聚类准确率和聚类阈值进行学习,更新当前的聚类阈值;采用更新后的聚类阈值对所述待聚类数据进行数据聚类处理,直到在数据聚类处理后得到的多个类的聚类准确率大于等于所述预设阈值时,得到所述聚类结果。
可选的,若所述聚类准确率小于预设阈值,则更新聚类阈值之后,所述方法还包括:将更新后的聚类阈值存储在所述预设数据库中。
可选的,按照各个数据之间的相似度进行聚类,得到多个类包括:采用不同的聚类方法对各个数据之间的相似度进行聚类,得到各个聚类方法下的多个类;按照预设的融合策略,对各个聚类方法下的多个类进行融合,得到所述多个类。
可选的,采用更新后的聚类阈值对所述待聚类数据进行数据聚类处理,直到在数据聚类处理后得到的多个类的聚类准确率大于等于所述预设阈值时,得到所述聚类结果包括:确定所述数据特征中的应用场景,其中,所述应用场景为以下至少之一:互联网搜索、电商购物、商业分析、动植物分类、基因分类、保险行业、电子商务;基于所述应用场景,对数据聚类处理后得到的聚类准确率大于等于所述预设阈值的多个类的进行排序;按照排序后的次序对各个类进行展示,得到所述聚类结果。
可选的,计算所述多个类的聚类准确率包括:采用戴维森保丁指数算法计算所述多个类的聚类准确率。
可选的,所述数据特征至少包括:数据类型、数据量、数据结构、应用场景。
可选的,所述聚类阈值包括以下之一:聚类簇数、相似度阈值、聚类报警阈值。
采用本发明实施例,提供了一种数据聚类处理的方案。通过获取待聚类数据,并抽取所述待聚类数据的数据特征;从预设数据库中获取与所述数据特征相匹配的聚类阈值,其中,所述预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值;采用所述聚类阈值对所述待聚类数据进行数据聚类处理,得到聚类结果,从而达到了自动更新初始阈值进行聚类计算的目的,进而解决了现有技术中数据聚类处理过程中阈值通常是由人工基于经验进行设置,导致聚类效果不佳的技术问题。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的语音识别方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取待聚类数据,并抽取所述待聚类数据的数据特征;从预设数据库中获取与所述数据特征相匹配的聚类阈值,其中,所述预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值;采用所述聚类阈值对所述待聚类数据进行数据聚类处理,得到聚类结果。
可选的,采用所述聚类阈值对所述待聚类数据进行数据聚类处理,得到聚类结果包括:对所述待聚类数据进行预处理,得到处理后的数据;计算处理后的数据中的各个数据之间的相似度;按照各个数据之间的相似度进行聚类,得到多个类;计算所述多个类的聚类准确率;基于所述聚类准确率对所述待聚类数据进行迭代聚类,得到所述聚类结果。
可选的,基于所述聚类准确率对所述待聚类数据进行迭代聚类,得到所述聚类结果包括:若所述聚类准确率小于预设阈值,基于所述多个类的聚类准确率和聚类阈值进行学习,更新当前的聚类阈值;采用更新后的聚类阈值对所述待聚类数据进行数据聚类处理,直到在数据聚类处理后得到的多个类的聚类准确率大于等于所述预设阈值时,得到所述聚类结果。
可选的,若所述聚类准确率小于预设阈值,则更新聚类阈值之后,所述方法还包括:将更新后的聚类阈值存储在所述预设数据库中。
可选的,按照各个数据之间的相似度进行聚类,得到多个类包括:采用不同的聚类方法对各个数据之间的相似度进行聚类,得到各个聚类方法下的多个类;按照预设的融合策略,对各个聚类方法下的多个类进行融合,得到所述多个类。
可选的,采用更新后的聚类阈值对所述待聚类数据进行数据聚类处理,直到在数据聚类处理后得到的多个类的聚类准确率大于等于所述预设阈值时,得到所述聚类结果包括:确定所述数据特征中的应用场景,其中,所述应用场景为以下至少之一:互联网搜索、电商购物、商业分析、动植物分类、基因分类、保险行业、电子商务;基于所述应用场景,对数据聚类处理后得到的聚类准确率大于等于所述预设阈值的多个类的进行排序;按照排序后的次序对各个类进行展示,得到所述聚类结果。
可选的,计算所述多个类的聚类准确率包括:采用戴维森保丁指数算法计算所述多个类的聚类准确率。
可选的,所述数据特征至少包括:数据类型、数据量、数据结构、应用场景。
可选的,所述聚类阈值包括以下之一:聚类簇数、相似度阈值、聚类报警阈值。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离零部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的零部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (21)

1.一种数据聚类方法,其特征在于,包括:
获取待聚类数据,并抽取所述待聚类数据的数据特征;
从预设数据库中获取与所述数据特征相匹配的聚类阈值,其中,所述预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值;
采用所述聚类阈值对所述待聚类数据进行数据聚类处理,得到聚类结果。
2.根据权利要求1所述的数据聚类方法,其特征在于,采用所述聚类阈值对所述待聚类数据进行数据聚类处理,得到聚类结果包括:
对所述待聚类数据进行预处理,得到处理后的数据;
计算处理后的数据中的各个数据之间的相似度;
按照各个数据之间的相似度进行聚类,得到多个类;
计算所述多个类的聚类准确率;
基于所述聚类准确率对所述待聚类数据进行迭代聚类,得到所述聚类结果。
3.根据权利要求2所述的数据聚类方法,其特征在于,基于所述聚类准确率对所述待聚类数据进行迭代聚类,得到所述聚类结果包括:
若所述聚类准确率小于预设阈值,基于所述多个类的聚类准确率和聚类阈值进行学习,更新当前的聚类阈值;
采用更新后的聚类阈值对所述待聚类数据进行数据聚类处理,直到在数据聚类处理后得到的多个类的聚类准确率大于等于所述预设阈值时,得到所述聚类结果。
4.根据权利要求3所述的数据聚类方法,其特征在于,若所述聚类准确率小于预设阈值,则更新聚类阈值之后,所述方法还包括:将更新后的聚类阈值存储在所述预设数据库中。
5.根据权利要求2所述的数据聚类方法,其特征在于,
按照各个数据之间的相似度进行聚类,得到多个类包括:
采用不同的聚类方法对各个数据之间的相似度进行聚类,得到各个聚类方法下的多个类;
按照预设的融合策略,对各个聚类方法下的多个类进行融合,得到所述多个类。
6.根据权利要求3所述的数据聚类方法,其特征在于,采用更新后的聚类阈值对所述待聚类数据进行数据聚类处理,直到在数据聚类处理后得到的多个类的聚类准确率大于等于所述预设阈值时,得到所述聚类结果包括:
确定所述数据特征中的应用场景,其中,所述应用场景为以下至少之一:互联网搜索、电商购物、商业分析、动植物分类、基因分类、保险行业、电子商务;
基于所述应用场景,对数据聚类处理后得到的聚类准确率大于等于所述预设阈值的多个类的进行排序;
按照排序后的次序对各个类进行展示,得到所述聚类结果。
7.根据权利要求2所述的数据聚类方法,其特征在于,计算所述多个类的聚类准确率包括:采用戴维森保丁指数算法计算所述多个类的聚类准确率。
8.根据权利要求1所述的数据聚类方法,其特征在于,所述数据特征至少包括:数据类型、数据量、数据结构、应用场景。
9.根据权利要求1所述的数据聚类方法,其特征在于,所述聚类阈值包括以下之一:聚类簇数、相似度阈值、聚类报警阈值。
10.一种数据聚类装置,其特征在于,包括:
抽取单元,用于获取待聚类数据,并抽取所述待聚类数据的数据特征;
获取单元,用于从预设数据库中获取与所述数据特征相匹配的聚类阈值,其中,所述预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值;
聚类单元,采用所述聚类阈值对所述待聚类数据进行数据聚类处理,得到聚类结果。
11.根据权利要求10所述的数据聚类装置,其特征在于,所述聚类单元还包括:
处理子单元,对所述待聚类数据进行预处理,得到处理后的数据;
第一计算子单元,计算处理后的数据中的各个数据之间的相似度;
第一聚类子单元,按照各个数据之间的相似度进行聚类,得到多个类;
第二计算子单元,计算所述多个类的聚类准确率;
第二聚类子单元,基于所述聚类准确率对所述待聚类数据进行迭代聚类,得到所述聚类结果。
12.根据权利要求11所述的数据聚类装置,其特征在于,所述第二聚类子单元还包括:
更新模块,在所述聚类准确率小于预设阈值的情况下,基于所述多个类的聚类准确率和聚类阈值进行学习,更新当前的聚类阈值;
聚类模块,采用更新后的聚类阈值对所述待聚类数据进行数据聚类处理,直到在数据聚类处理后得到的多个类的聚类准确率大于等于所述预设阈值时,得到所述聚类结果。
13.根据权利要求12所述的数据聚类装置,其特征在于,所述聚类模块还包括:存储子模块,若所述聚类准确率小于预设阈值,则更新聚类阈值之后,将更新后的聚类阈值存储在所述预设数据库中。
14.根据权利要求11所述的数据聚类装置,其特征在于,所述第一聚类子单元还包括:
第四聚类模块,采用不同的聚类方法对各个数据之间的相似度进行聚类,得到各个聚类方法下的多个类;
融合模块,用于按照预设的融合策略,对各个聚类方法下的多个类进行融合,得到所述多个类。
15.根据权利要求12所述的数据聚类装置,其特征在于,所述聚类模块还包括:
确定子模块,确定所述数据特征中的应用场景,其中,所述应用场景为以下至少之一:互联网搜索、电商购物、商业分析、动植物分类、基因分类、保险行业、电子商务;
排序子模块,基于所述应用场景,对数据聚类处理后得到的聚类准确率大于等于所述预设阈值的多个类的进行排序;
展示子模块,按照排序后的次序对各个类进行展示,得到所述聚类结果。
16.根据权利要求11所述的数据聚类装置,其特征在于,所述第二计算子单元还用于采用戴维森保丁指数算法计算所述多个类的聚类准确率。
17.根据权利要求10所述的数据聚类装置,其特征在于,所述数据特征至少包括:数据类型、数据量、数据结构、应用场景。
18.根据权利要求10所述的数据聚类装置,其特征在于,所述获取单元中的聚类阈值包括以下之一:聚类簇数、相似度阈值、聚类报警阈值。
19.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至9中任意一项所述的一种数据聚类方法。
20.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至9中任意一项所述的一种数据聚类方法。
21.一种计算机终端,其特征在于,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取待聚类数据,并抽取所述待聚类数据的数据特征;
从预设数据库中获取与所述数据特征相匹配的聚类阈值,其中,所述预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值;
采用所述聚类阈值对所述待聚类数据进行数据聚类处理,得到聚类结果。
CN201811103301.1A 2018-09-20 2018-09-20 数据聚类方法及装置 Pending CN110928957A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811103301.1A CN110928957A (zh) 2018-09-20 2018-09-20 数据聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811103301.1A CN110928957A (zh) 2018-09-20 2018-09-20 数据聚类方法及装置

Publications (1)

Publication Number Publication Date
CN110928957A true CN110928957A (zh) 2020-03-27

Family

ID=69855596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811103301.1A Pending CN110928957A (zh) 2018-09-20 2018-09-20 数据聚类方法及装置

Country Status (1)

Country Link
CN (1) CN110928957A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111477251A (zh) * 2020-05-21 2020-07-31 北京百度网讯科技有限公司 模型评测方法、装置及电子设备
CN111553383A (zh) * 2020-03-30 2020-08-18 平安医疗健康管理股份有限公司 一种数据风险检测方法、装置及设备
CN111766793A (zh) * 2020-06-29 2020-10-13 滁州学院 基于座椅使用习惯的建模方法、装置、设备及存储介质
CN112749748A (zh) * 2021-01-14 2021-05-04 上海云从汇临人工智能科技有限公司 基于归约的数据增量聚类方法、系统、介质及装置
CN112883096A (zh) * 2021-03-11 2021-06-01 广东工业大学 一种数据预处理方法
CN113298128A (zh) * 2021-05-14 2021-08-24 西安理工大学 基于时间序列聚类的云服务器异常检测方法
CN115019078A (zh) * 2022-08-09 2022-09-06 阿里巴巴(中国)有限公司 数据聚类方法以及装置
CN115200178A (zh) * 2022-06-23 2022-10-18 深圳康佳电子科技有限公司 一种楼宇终端设备控制方法和装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000276478A (ja) * 1999-03-24 2000-10-06 Nippon Telegr & Teleph Corp <Ntt> 時系列データの検出方法、その装置およびそのプログラムを記録した記録媒体
CN103020141A (zh) * 2012-11-21 2013-04-03 北京百度网讯科技有限公司 一种用于提供搜索结果的方法和设备
CN103744935A (zh) * 2013-12-31 2014-04-23 华北电力大学(保定) 一种计算机快速海量数据聚类处理方法
US20140358541A1 (en) * 2013-05-31 2014-12-04 Nuance Communications, Inc. Method and Apparatus for Automatic Speaker-Based Speech Clustering
US20180181834A1 (en) * 2016-12-23 2018-06-28 Nuctech Company Limited Method and apparatus for security inspection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000276478A (ja) * 1999-03-24 2000-10-06 Nippon Telegr & Teleph Corp <Ntt> 時系列データの検出方法、その装置およびそのプログラムを記録した記録媒体
CN103020141A (zh) * 2012-11-21 2013-04-03 北京百度网讯科技有限公司 一种用于提供搜索结果的方法和设备
US20140358541A1 (en) * 2013-05-31 2014-12-04 Nuance Communications, Inc. Method and Apparatus for Automatic Speaker-Based Speech Clustering
CN103744935A (zh) * 2013-12-31 2014-04-23 华北电力大学(保定) 一种计算机快速海量数据聚类处理方法
US20180181834A1 (en) * 2016-12-23 2018-06-28 Nuctech Company Limited Method and apparatus for security inspection

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553383A (zh) * 2020-03-30 2020-08-18 平安医疗健康管理股份有限公司 一种数据风险检测方法、装置及设备
CN111477251B (zh) * 2020-05-21 2023-09-05 北京百度网讯科技有限公司 模型评测方法、装置及电子设备
CN111477251A (zh) * 2020-05-21 2020-07-31 北京百度网讯科技有限公司 模型评测方法、装置及电子设备
CN111766793A (zh) * 2020-06-29 2020-10-13 滁州学院 基于座椅使用习惯的建模方法、装置、设备及存储介质
CN112749748A (zh) * 2021-01-14 2021-05-04 上海云从汇临人工智能科技有限公司 基于归约的数据增量聚类方法、系统、介质及装置
CN112749748B (zh) * 2021-01-14 2023-11-07 上海云从汇临人工智能科技有限公司 基于归约的数据增量聚类方法、系统、介质及装置
CN112883096A (zh) * 2021-03-11 2021-06-01 广东工业大学 一种数据预处理方法
CN112883096B (zh) * 2021-03-11 2024-04-30 广东工业大学 一种数据预处理方法
CN113298128A (zh) * 2021-05-14 2021-08-24 西安理工大学 基于时间序列聚类的云服务器异常检测方法
CN113298128B (zh) * 2021-05-14 2024-04-02 西安理工大学 基于时间序列聚类的云服务器异常检测方法
CN115200178B (zh) * 2022-06-23 2023-06-02 深圳康佳电子科技有限公司 一种楼宇终端设备控制方法和装置、电子设备及存储介质
CN115200178A (zh) * 2022-06-23 2022-10-18 深圳康佳电子科技有限公司 一种楼宇终端设备控制方法和装置、电子设备及存储介质
CN115019078B (zh) * 2022-08-09 2023-01-24 阿里巴巴(中国)有限公司 车辆图像处理方法、计算设备及存储介质
CN115019078A (zh) * 2022-08-09 2022-09-06 阿里巴巴(中国)有限公司 数据聚类方法以及装置

Similar Documents

Publication Publication Date Title
CN110928957A (zh) 数据聚类方法及装置
CN111724211A (zh) 一种线下门店商品销量预测方法、装置和设备
CN109697456B (zh) 业务分析方法、装置、设备及存储介质
CN110991170B (zh) 基于电子病历信息的中文疾病名称智能标准化方法与系统
CN109144964A (zh) 基于机器学习的日志解析方法和装置
CN111444363A (zh) 一种图片检索方法、装置、终端设备及存储介质
CN111931053A (zh) 一种基于聚类和矩阵分解的事项推送方法和装置
US11109085B2 (en) Utilizing one hash permutation and populated-value-slot-based densification for generating audience segment trait recommendations
US10445341B2 (en) Methods and systems for analyzing datasets
US10713573B2 (en) Methods and systems for identifying and prioritizing insights from hidden patterns
CN113111227B (zh) 数据处理方法、装置、电子设备及存储介质
CN106919957A (zh) 处理数据的方法及装置
CN114722091A (zh) 数据处理方法、装置、存储介质以及处理器
CN114780606B (zh) 一种大数据挖掘方法及系统
CN106557178B (zh) 用于更新输入法词条的方法及装置
CN111159481A (zh) 图数据的边预测方法、装置及终端设备
CN113946566A (zh) Web系统指纹库的构建方法、装置和电子设备
CN115879980B (zh) 一种客群圈选与对比分析的方法及装置
CN114969738B (zh) 一种接口异常行为监测方法、系统、装置及存储介质
CN114968933A (zh) 数据中心的日志的分类方法和装置
CN110287218A (zh) 一种税收分类编码匹配的方法、系统及设备
CN114997327A (zh) 目标对象的分类方法、装置、存储介质以及电子设备
CN113920374A (zh) 基于随机森林的用户分类方法、装置、设备及存储介质
CN114678114A (zh) 应用于智慧医疗的大数据挖掘评估方法及大数据挖掘系统
CN109739876B (zh) 基于Sqltoy-orm框架的数据库的数据查询方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination