CN114417095A - 一种数据集划分方法及装置 - Google Patents

一种数据集划分方法及装置 Download PDF

Info

Publication number
CN114417095A
CN114417095A CN202111530779.4A CN202111530779A CN114417095A CN 114417095 A CN114417095 A CN 114417095A CN 202111530779 A CN202111530779 A CN 202111530779A CN 114417095 A CN114417095 A CN 114417095A
Authority
CN
China
Prior art keywords
clustering
data
data set
result
clustering result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111530779.4A
Other languages
English (en)
Inventor
赵毅强
王志刚
齐向东
吴云坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qianxin Technology Group Co Ltd
Secworld Information Technology Beijing Co Ltd
Original Assignee
Qianxin Technology Group Co Ltd
Secworld Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qianxin Technology Group Co Ltd, Secworld Information Technology Beijing Co Ltd filed Critical Qianxin Technology Group Co Ltd
Priority to CN202111530779.4A priority Critical patent/CN114417095A/zh
Publication of CN114417095A publication Critical patent/CN114417095A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据集划分方法及装置,所述方法包括:确定待划分数据集的目标聚类数目,对所述待划分数据集进行聚类,并得到聚类结果,所述目标聚类数目为所述聚类结果的数量;根据预先设定的划分标准,将所述聚类结果划分为有效聚类结果和无效聚类结果,并将所述无效聚类结果中的数据归并到所述有效聚类结果中。本发明所提供的数据集划分方法及装置,通过将无效聚类结果归并到有效聚类结果中,减少了目标聚类数目,只保留有效聚类结果,从而提高了模型训练的效率。

Description

一种数据集划分方法及装置
技术领域
本发明涉及数据聚类领域,尤其涉及一种数据集划分方法及装置。
背景技术
利用机器学习算法识别恶意软件已成为当前安全领域研发的趋势之一,而应用机器学习算法时需要为模型的训练和更新持续提供高质量的标注样本。
VT等样本收集平台利用简单的构建规则来获取粗糙数据集,而该数据集内的数据标记结果纯度较低,为了提高训练模型的效率,现有技术将训练数据集划分为若干个类型的分组来单独训练模型,但若原始数据集的各类数据分布不均衡,对数据集进行分组后得到的多个聚类结果并不能对后续训练模型产生正向作用,而且会增大模型在训练时的开销,降低了模型训练的效率。
因此,如何优化数据集的聚类结果从而提高模型训练时效率是业界亟需解决的重要课题。
发明内容
本发明提供的一种数据集划分方法及装置,用以解决现有技术在划分数据集后得到的多个聚类结果并不能对后续训练模型产生正向作用从而增大模型在训练时的开销的缺陷,使其能够自适应的完成数据划分的过程,提升模型的训练效率。
本发明提供一种数据集划分方法,包括:
确定待划分数据集的目标聚类数目,对所述待划分数据集进行聚类,并得到聚类结果,所述目标聚类数目为所述聚类结果的数量;根据预先设定的划分标准,将所述聚类结果划分为有效聚类结果和无效聚类结果,并将所述无效聚类结果中的数据归并到所述有效聚类结果中。
根据本发明提供的一种数据集划分方法,所述方法还包括:
利用Gap statistic算法获取待划分数据集的目标聚类数目。
利用K-means算法对所述待划分数据集进行k次聚类,并计算不同k值对应的簇内偏差和Dk,其中,k为自然数;获取多个对照数据集,所述对照数据集中包含的数据总数与所述待划分数据集中包含的数据总数相等;利用K-means算法对所述多个对照数据集同时进行k次聚类,计算不同k值对应的多个所述对照数据集上的平均簇内偏差和
Figure BDA0003410649960000024
根据如下公式计算不同k值对应的Gap值:
Figure BDA0003410649960000021
其中,Gap(k)表示第k次聚类时,所述对照数据集的损失与所述待划分数据集的损失的差值,logDk表示第k次聚类时,待划分数据集的损失值,
Figure BDA0003410649960000022
表示第k次聚类时,各对照数据集的损失值的期望值;将所述Gap值中的最大值对应的k值作为待划分数据集的目标聚类数目。
若所述Gap值中的最大值对应的k值小于或等于2,则重新设置所述目标聚类数目为k′,其中,k′为大于2的自然数;利用K-means算法对所述待划分数据集依次进行3至k′次聚类,并计算不同k′值对应的簇内偏差和Dk′;获取多个对照数据集,所述对照数据集中包含的数据总数与所述待划分数据集中包含的数据总数相等;利用K-means算法对所述多个对照数据集同时进行3至k′次聚类,计算不同k′值对应的多个所述对照数据集上的平均簇内偏差和
Figure BDA0003410649960000023
根据如下公式计算不同k′值对应的Gap值:
Figure BDA0003410649960000031
其中,Gap(k′)表示第k′次聚类时,所述对照数据集的损失与所述待划分数据集的损失的差值,logDk′表示第k′次聚类时,待划分数据集的损失值,
Figure BDA0003410649960000032
表示第k′次聚类时,各对照数据集的损失值的期望值;
将所述Gap值中的最大值对应的k′值作为待划分数据集的目标聚类数目。
利用随机模拟的方法生成多个所述对照数据集。
将目标聚类数目作为K-means算法的聚类中心数目,并利用所述K-means算法对所述待划分数据集进行聚类。
确定所述聚类结果不满足所述第一划分标准和所述第二划分标准,则所述聚类结果为有效聚类结果;确定所述聚类结果满足所述第一划分标准或所述第二划分标准,则所述聚类结果为无效聚类结果;
所述第一划分标准为:将每个所述聚类结果和预设的聚类阈值Smin进行对比,若某个所述聚类结果所包含的数据量小于Smin,则该聚类结果为无效聚类结果;所述第二划分标准为:将每个所述聚类结果与预设的聚类占比Qmin进行对比,若某个所述聚类结果所包含的两类数据中较小类别的占比数小于Qmin,则该聚类结果为无效聚类结果。
对所述无效聚类结果中任一数据分别与所有所述有效聚类结果的聚类中心的距离作相似度计算;确定与所述数据的距离最小的聚类中心,并将所述数据归并到所述聚类中心对应的有效聚类结果中。
若所述与所述数据距离最小的聚类中心存在多个时,将所述数据归并到与所述多个聚类中心的任一聚类中心对应的有效聚类结果中。
所述无效聚类结果中任一数据分别与所有所述有效聚类结果的聚类中心的距离为欧氏距离。
本发明还提供一种数据集划分装置,包括:
聚类模块,用于确定待划分数据集的目标聚类数目,对所述待划分数据集进行聚类,并得到聚类结果,所述目标聚类数目为所述聚类结果的数量;优化模块,用于根据预先设定的划分标准,将所述聚类结果划分为有效聚类结果和无效聚类结果,并将所述无效聚类结果中的数据归并到所述有效聚类结果中。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述数据集划分方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述数据集划分方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述数据集划分方法的步骤。
本发明提供的一种数据集划分方法及装置,先确定待划分数据集的目标聚类数,然后根据目标聚类数对待划分数据集聚类,并得到聚类结果,再将聚类结果划分为有效聚类结果和无效聚类结果,并将无效聚类结果归并到有效聚类结果中,从而减少目标聚类数目,只保留有效聚类结果,提高模型训练的效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的数据集划分方法的流程示意图;
图2是本发明实施例提供的数据集划分装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明实施例提供的数据集划分方法,包括:
步骤101、确定待划分数据集的目标聚类数目,对所述待划分数据集进行聚类,并得到聚类结果,所述目标聚类数目为所述聚类结果的数量。
可以理解的是,对数据集进行聚类是指将同一数据集下的不同数据按照相似的属性或特征进行分类,得到不同的分类子集,即得到不同的聚类结果;聚类属于一种无监督学习算法,常见的聚类算法包括K-means聚类算法、层次聚类算法、SOM聚类算法和FCM聚类算法,本实施例是采用K-means算法确定目标聚类数目。
利用K-means算法对数据集A进行聚类的具体步骤为:
(1)根据先验知识随机选取k个聚类中心作为数据集A的初始类别数。
(2)在每次迭代中,分别计算数据集A中的任一数据与k个聚类中心欧式距离,并将该数据归并到距其欧氏距离最短的聚类中心所在的类别中。
(3)利用均值法更新k个类别的中心值。
(4)对于上述k个聚类中心,重复(2)和(3),直至k个类别的中心值满足预设条件时,结束迭代,完成分类。
需要说明的是,在利用K-means算法对数据集进行划分时,需要先确定初始聚类数目,而利用先验知识作为评价准则设置聚类中心时并不能够有效体现数据间的内在联系,使得最终的分类结果中包含同属性的数据纯度并不高,从而影响对模型的训练效果,因此,本实施例不再根据先验知识预设初始聚类数目,而是利用数据集的各个数据间的内在联系并结合K-means算法来确定待划分数据集的初始聚类数。
步骤102、根据预先设定的划分标准,将所述聚类结果划分为有效聚类结果和无效聚类结果,并将所述无效聚类结果中的数据归并到所述有效聚类结果中。
可以理解的是,由于获取的各聚类结果中包含的数据量可能并不相同,在利用样本进行模型训练的过程中,样本的数量对训练结果有着较大的影响,具体来讲,训练样本数过少,模型的训练过程不充分,使训练模型容易陷于过拟合,从而影响模型的预测精度;另外,获取的各聚类结果中包含的正负样本数(对于恶意软件检测的任务而言,这里的正负样本分别为恶意与非恶意两个类别)占该聚类结果包含的总样本数的比例差距过大,具体来讲,若某个聚类结果中,正负样本占比为10:1,则负样本由于数量太少,使得模型在训练过程中无法根据负样本包含的特征学习到更多有用的信息,导致训练得到的模型泛化能力低,对负样本所在类别的其他样本的识别效果较差;本实施例根据聚类结果可能存在的上述情况,设置划分标准对聚类结果分为有效聚类结果和无效聚类结果,然后根据距离最近原则将无效聚类结果中的数据全部归并到其他的有效聚类结果中,从而对各聚类结果进行优化。
本实施例所述方法能够将无效聚类结果归并到有效聚类结果中,从而减少目标聚类数目,只保留有效聚类结果,提高模型训练的效率。
可选的,利用Gap statistic算法获取待划分数据集的目标聚类数目。
可以理解的是,为了充分利用数据集的各个数据间的内在联系,本实施例选取Gapstatistic算法结合K-means算法来确定待划分数据集的初始聚类数。
需要说明的是,Gap statistic算法先获取与待划分数据集相同数据量的对照数据集,然后通过k次聚类分别计算待划分数据集损失与对照数据集损失的差值,多次重复试验后,找到上述多个差值中的最大值对应的k值,作为待划分数据集的初始聚类数目。
本实施例提供了Gap statistic算法结合K-means算法来确定待划分数据集的初始聚类数,不再需要人为地随机设置初始聚类数,就能够有效地利用数据间的内在联系来获取不同的聚类结果。
可选的,利用K-means算法对所述待划分数据集进行k次聚类,并计算不同k值对应的簇内偏差和Dk,其中,k为自然数;获取多个对照数据集,所述对照数据集中包含的数据总数与所述待划分数据集中包含的数据总数相等;利用K-means算法对所述多个对照数据集同时进行k次聚类,计算不同k值对应的多个所述对照数据集上的平均簇内偏差和
Figure BDA0003410649960000071
根据如下公式计算不同k值对应的Gap值:
Figure BDA0003410649960000072
其中,Gap(k)表示第k次聚类时,所述对照数据集的损失与所述待划分数据集的损失的差值,logDk表示第k次聚类时,待划分数据集的损失值,
Figure BDA0003410649960000073
表示第k次聚类时,各对照数据集的损失值的期望值;将所述Gap值中的最大值对应的k值作为待划分数据集的目标聚类数目。
本实施例在获取多个和待划分数据集包含样本数一样多的对照数据集后,先利用K-means聚类对待划分数据进行k次聚类,在每次聚类中,分别计算各数据到聚类中心的距离平方和,即簇内偏差和Dk;然后再利用K-means聚类同时对多个对照数据集进行相同次数的聚类,在每次聚类中,分别计算各数据到聚类中心的距离平方和,然后再计算多个对照数据集的平均距离和,即平均簇内偏差和
Figure BDA0003410649960000081
再分别对上述平均距离和Dk以上述平均距离和
Figure BDA0003410649960000082
取对数后作差运算,将得到的差值作为每次聚类中对照数据集的损失与所述待划分数据集的损失的差值;依次输出k次聚类对应的k个对应差值,并将这些差值中的最大值对应的k值作为本实施所述方法的目标聚类数目。
本实施例具体提供了一种用于自适应确定K-means聚类的初始聚类数的具体方法,充分利用了数据集包含的各数据间的内在联系,无需通过人为预设值来确定初始聚类数,就能将数据集有效划分为若干个聚类结果,提高训练模型的预测精度。
可选的,若所述Gap值中的最大值对应的k值小于或等于2时,重新设置所述目标聚类数目为k′,其中,k′为大于2的自然数;利用K-means算法对所述待划分数据集依次进行3至k′次聚类,并计算不同k′值对应的簇内偏差和Dk′;获取多个对照数据集,所述对照数据集中包含的数据总数与所述待划分数据集中包含的数据总数相等;利用K-means算法对所述多个对照数据集同时进行3至k′次聚类,计算不同k′值对应的多个所述对照数据集上的平均簇内偏差和
Figure BDA0003410649960000083
根据如下公式计算不同k′值对应的Gap值:
Figure BDA0003410649960000084
其中,Gap(k′)表示第k′次聚类时,所述对照数据集的损失与所述待划分数据集的损失的差值,logDk′表示第k′次聚类时,待划分数据集的损失值,
Figure BDA0003410649960000085
表示第k′次聚类时,各对照数据集的损失值的期望值;
将所述Gap值中的最大值对应的k′值作为待划分数据集的目标聚类数目。
可以理解的是,若数据集内各数据分布较为集中或类间差别较小,会导致数据集被划分后只能得到一个或两个不同的聚类结果,针对该种情况,若再利用预设的划分标准进行后续的聚类结果调整,则得到的优化效果并不明显,同时不利于后续的数据运用和节省模型的训练开销,因此,本实施例针对目标聚类数目k较小时,利用先验知识预设一个合理的目标聚类数目k′,k′为大于2的自然数,尽可能的将数据集中类别界限较小的不同数据区分开,再结合Gap statistic算法确定最佳k′值作为后续聚类的初始聚类中心。
需要说明的是,本实施例通过先验知识确定待划分数据集的聚类区间,但仍然是结合Gap statistic算法确定聚类区间中的最佳k′值,使得基于该k′值的每个聚类结果保持了较好的内聚性。
本实施例针对待划分数据集的目标聚类数目较小时,利用先验知识重新设置待划分数据集的初始聚类区间,以保证得到合理的目标聚类数目,为后续基于聚类结果的调整过程提供方便。
可选的,利用随机模拟的方法生成多个所述对照数据集。
可以理解的是,Gap statistic算法需要确定待划分数据集和多个包含相同数据量的对照数据集的平均簇内偏差值,而本实施例采用的随机模拟方法能够生成数据呈均匀分布的多个对照数据集。
本实施例提供了一种生成多个对照数据集的方法,能够生成数据呈均匀分布的多个对照数据集,并与待划分数据集共同确定每次聚类时所需的Gap值。
可选的,将目标聚类数目作为K-means算法的聚类中心数目,并利用所述K-means算法对所述待划分数据集进行聚类。
可以理解的是,本实施例所述方法在获取最佳聚类数目后,以该数目作为K-means算法的初始聚类中心数,对待划分数据集进行聚类,获取对应的聚类结果。
本实施例所述方法是继续利用K-means算法对待划分数据集进行聚类,能够获取与目标聚类数目相同的聚类结果。
可选的,确定所述聚类结果不满足所述第一划分标准和所述第二划分标准,则所述聚类结果为有效聚类结果;确定所述聚类结果满足所述第一划分标准或所述第二划分标准,则所述聚类结果为无效聚类结果。
可以理解的是,为了对聚类的结果进行优化,使其在后续用于单独训练模型时能够得到较好训练效率,本实施例提供了两个筛选条件对聚类结果进行调整,对同时不满足上述两个筛选条件的聚类结果判定为有效聚类结果,该聚类结果能够直接用于对后续模型的训练;对满足上述两个筛选条件中任一条件的聚类结果判定为无效聚类结果,该聚类结果不能直接用于对后续模型的训练,或者在训练时获取的效果较差,需要进行进一步调整。
本实施例提供了一种包含两种划分标准的优化方法对聚类结果进行优化调整,使得优化后的聚类结果更适合用来对后续模型进行训练,以提高模型训练的效率。
所述第一划分标准为:将每个所述聚类结果和预设的聚类阈值Smin进行对比,若某个所述聚类结果所包含的数据量小于Smin,则该聚类结果为无效聚类结果;所述第二划分标准为:将每个所述聚类结果与预设的聚类占比Qmin进行对比,若某个所述聚类结果所包含的两类数据中较小类别的占比数小于Qmin,则该聚类结果为无效聚类结果。
可以理解的是,由于聚类结果中包含的样本数的多少影响着训练模型后的预测效果,本实施例需要设置第一划分标准来筛选因数据过少而不能直接用来训练模型的聚类结果;例如,若本实施例根据Gap statistic算法结合K-means算法确定数据集A的最佳聚类数为3,A中包含的样本数为5000,对A进行聚类后分别得到a,b,c,d,e共5个子数据集,其中,a,b,c,d,e包含的数据量分别为1000,1200,1200,1500,100而本实施例规定:若某个聚类结果包含的数据量低于200时,该聚类结果被视为无效聚类结果,则根据第一划分标准可判定e为无效聚类结果。
另外,由于获取的各聚类结果中包含的正负样本占比可能有较大的差距,同样会对后续模型的训练过程产生消极的影响,本实施例需要设置第二划分标准来筛选因包含的正负样本占比差距过大而不能直接用来训练模型的聚类结果;例如,基于上述实施例中数据子集a,b,c,d,其中,a中包含的正负样本占比为:1:1,b中包含的正负样本占比为:6:1,c中包含的正负样本占比为:4:3,d中包含的正负样本占比为:2:1,而本实施例规定:若某个聚类结果包含的正负样本占比的最小值低于0.2时,该聚类结果被视为无效聚类结果,则根据第二划分标准可判定b为无效聚类结果;由于a和c均不满足上述第一划分标准和第二划分标准,则a和c被视为有效聚类结果。
本实施例提供一种对聚类结果进行划分的具体方法,通过第一划分标准和第二划分标准将聚类结果划分为有效聚类结果和无效聚类结果,以便于对数据集的聚类结果进行调整,使得到的各聚类结果中包含数据量以及正负样本占比数相对均衡。
可选的,对所述无效聚类结果中任一数据分别与所有所述有效聚类结果的聚类中心的距离作相似度计算;确定与所述数据的距离最小的聚类中心,并将所述数据归并到所述聚类中心对应的有效聚类结果中。
可以理解的是,为了不改变数据集包含样本的总数,实现将无效聚类结果中包含的数据归并到有效聚类结果中,需要对无效聚类结果中的每个数据分别与所有有效结果的聚类中心的距离作相似度计算,所述距离越小,说明该数据表征的属性和对应距离最小的聚类中心所在类别的属性越相似,则将该数据从所在的无效聚类结果中重新划分到与该数据距离最小的聚类中心所在类别中,最终可将无效聚类结果中的所有数据重新分配到各有效聚类结果中,此时,数据集的聚类结果只剩下有效聚类结果,可直接用于后续的模型训练过程。
需要说明的是,对无效聚类结果中的每个数据分别与所有效结果的聚类中心的距离作相似度计算,此处的距离度量包括:欧氏距离(Euclidean Distance)、曼哈顿距离(Manhattan Distance)和切比雪夫距离(Chebyshev Distance)等。
本实施例所述方法将无效聚类结果中的数据按照最近距离原则重新分配到个有效聚类结果中,只保留有效聚类结果,提升了数据集内标记数据纯度,同时,也通过调整初始聚类结果的数量节省了对后续模型的训练成本。
可选的,若所述与所述数据距离最小的聚类中心存在多个时,将所述数据归并到与所述多个聚类中心的任一聚类中心对应的有效聚类结果中。
可以理解的是,本实施例根据数据与聚类中心的距离大小来作为数据能否划分至对应聚类中心的衡量标准,而实际情况是,根据聚类后各聚类中心与其他数据的分布特点,某个无效聚类结果中包含的数据可能同时与多个有效聚类结果的聚类中心的最近距离相等,也就是说,该无效聚类结果中的数据被划分至任一与之距离最短的聚类中心所在的有效聚类结果中都是合理的。
本实施例提供了一种聚类结果调整办法,解决了一个数据同时存在多个最短距离的聚类中心时该数据的归属问题。
可选的,所述无效聚类结果中任一数据分别与所有所述有效聚类结果的聚类中心的距离为欧氏距离。
可以理解的是,由于欧氏距离不受数据维度的限制,更适用于多维数据间的距离计算,而用于模型训练的样本数据一般包含多维特征,例如,用于模型训练的样本数据需要包含n个特征信息供模型学习,即数据集内的每个样本数据的维度为n,在利用距离作为相似度计算时,选用欧氏距离能够在n维空间上计算两个不同数据间的距离作为度量标准,而本实施例待划分的数据集经过聚类优化后得到的不同聚类结果被用于模型的训练过程,则需要利用欧氏距离完成距离的相似度计算。
本实施例提供了一种以欧氏距离作为度量计算的数据集划分方法,能够通过欧氏距离对高维训练样本进行相似度计算,从而完成聚类结果的优化调整。
结合图2对本发明实施例提供的一种数据集划分装置进行描述,下文描述的一种数据集划分装置与上文描述的一种数据集划分方法可相互对应参照。
本发明提供的一种数据集划分装置,包括:
聚类模块201,用于确定待划分数据集的目标聚类数目,对所述待划分数据集进行聚类,并得到聚类结果,所述目标聚类数目为所述聚类结果的数量;
优化模块202,用于根据预先设定的划分标准,将所述聚类结果划分为有效聚类结果和无效聚类结果,并将所述无效聚类结果中的数据归并到所述有效聚类结果中。
本实施例所述装置通过聚类模块201先获取待划分的数据集的目标聚类数目,并按照目标聚类数目对待划分数据集进行聚类,得到聚类结果;然后通过优化模块202根据预设的划分标准对上述聚类结果划分为有效聚类结过和无效聚类结果,再将无效聚类结果中的数据重新归并到各有效聚类结果中,保留有效聚类结果,作为对待划分数据集的最终聚类结果。本实施例所述装置能够将无效聚类结果归并到有效聚类结果中,从而减少目标聚类数目,只保留有效聚类结果,提高模型训练的效率。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行一种数据集划分方法,该方法包括:确定待划分数据集的目标聚类数目,对所述待划分数据集进行聚类,并得到聚类结果,所述目标聚类数目为所述聚类结果的数量;根据预先设定的划分标准,将所述聚类结果划分为有效聚类结果和无效聚类结果,并将所述无效聚类结果中的数据归并到所述有效聚类结果中。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的一种数据集划分方法,该方法包括:确定待划分数据集的目标聚类数目,对所述待划分数据集进行聚类,并得到聚类结果,所述目标聚类数目为所述聚类结果的数量;根据预先设定的划分标准,将所述聚类结果划分为有效聚类结果和无效聚类结果,并将所述无效聚类结果中的数据归并到所述有效聚类结果中。
本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的一种数据集划分方法,该方法包括:确定待划分数据集的目标聚类数目,对所述待划分数据集进行聚类,并得到聚类结果,所述目标聚类数目为所述聚类结果的数量;根据预先设定的划分标准,将所述聚类结果划分为有效聚类结果和无效聚类结果,并将所述无效聚类结果中的数据归并到所述有效聚类结果中。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (15)

1.一种数据集划分方法,其特征在于,包括:
确定待划分数据集的目标聚类数目,对所述待划分数据集进行聚类,并得到聚类结果,所述目标聚类数目为所述聚类结果的数量;
根据预先设定的划分标准,将所述聚类结果划分为有效聚类结果和无效聚类结果,并将所述无效聚类结果中的数据归并到所述有效聚类结果中。
2.根据权利要求1所述的数据集划分方法,其特征在于,所述确定待划分数据集的目标聚类数目,包括:利用Gap statistic算法获取待划分数据集的目标聚类数目。
3.根据权利要求2所述的数据集划分方法,其特征在于,所述利用Gap statistic算法获取待划分数据集的目标聚类数目,具体包括:
利用K-means算法对所述待划分数据集进行k次聚类,并计算不同k值对应的簇内偏差和Dk,其中,k为自然数;
获取多个对照数据集,所述对照数据集中包含的数据总数与所述待划分数据集中包含的数据总数相等;
利用K-means算法对所述多个对照数据集同时进行k次聚类,计算不同k值对应的多个所述对照数据集上的平均簇内偏差和
Figure FDA0003410649950000013
根据如下公式计算不同k值对应的Gap值:
Figure FDA0003410649950000011
其中,Gap(k)表示第k次聚类时,所述对照数据集的损失与所述待划分数据集的损失的差值,logDk表示第k次聚类时,待划分数据集的损失值,
Figure FDA0003410649950000012
表示第k次聚类时,各对照数据集的损失值的期望值;
将所述Gap值中的最大值对应的k值作为待划分数据集的目标聚类数目。
4.根据权利要求3所述的数据集划分方法,其特征在于,若所述Gap值中的最大值对应的k值小于或等于2,则重新设置所述目标聚类数目为k′,其中,k′为大于2的自然数;
利用K-means算法对所述待划分数据集依次进行3至k′次聚类,并计算不同k′值对应的簇内偏差和Dk′
获取多个对照数据集,所述对照数据集中包含的数据总数与所述待划分数据集中包含的数据总数相等;
利用K-means算法对所述多个对照数据集同时进行3至k′次聚类,计算不同k′值对应的多个所述对照数据集上的平均簇内偏差和
Figure FDA0003410649950000021
根据如下公式计算不同k′值对应的Gap值:
Figure FDA0003410649950000022
其中,Gap(k′)表示第k′次聚类时,所述对照数据集的损失与所述待划分数据集的损失的差值,logDk′表示第k′次聚类时,待划分数据集的损失值,
Figure FDA0003410649950000023
表示第k′次聚类时,各对照数据集的损失值的期望值;
将所述Gap值中的最大值对应的k′值作为待划分数据集的目标聚类数目。
5.根据权利要求2-4任一项所述的数据集划分方法,其特征在于,所述获取多个对照数据集,包括:
利用随机模拟的方法生成多个所述对照数据集。
6.根据权利要求1所述的数据集划分方法,其特征在于,所述对所述待划分数据集进行聚类,包括:
将目标聚类数目作为K-means算法的聚类中心数目,并利用所述K-means算法对所述待划分数据集进行聚类。
7.根据权利要求1所述的数据集划分方法,其特征在于,根据预先设定的划分标准,将所述聚类结果划分为有效聚类结果和无效聚类结果,具体包括:
确定所述聚类结果不满足所述第一划分标准和所述第二划分标准,则所述聚类结果为有效聚类结果;
确定所述聚类结果满足所述第一划分标准或所述第二划分标准,则所述聚类结果为无效聚类结果。
8.根据权利要求7所述的数据集划分方法,其特征在于,所述第一划分标准为:将每个所述聚类结果和预设的聚类阈值Smin进行对比,若某个所述聚类结果所包含的数据量小于Smin,则该聚类结果为无效聚类结果;
所述第二划分标准为:将每个所述聚类结果与预设的聚类占比Qmin进行对比,若某个所述聚类结果所包含的两类数据中较小类别的占比数小于Qmin,则该聚类结果为无效聚类结果。
9.根据权利要求1-8任一项所述的数据集划分方法,其特征在于,所述将所述无效聚类结果中的数据归并到所述有效聚类结果中包括:
对所述无效聚类结果中任一数据分别与所有所述有效聚类结果的聚类中心的距离作相似度计算;
确定与所述数据的距离最小的聚类中心,并将所述数据归并到所述聚类中心对应的有效聚类结果中。
10.根据权利要求9所述的数据集划分方法,其特征在于,若所述与所述数据距离最小的聚类中心存在多个时,将所述数据归并到与所述多个聚类中心的任一聚类中心对应的有效聚类结果中。
11.根据权利要求9所述的数据集划分方法,其特征在于,所述无效聚类结果中任一数据分别与所有所述有效聚类结果的聚类中心的距离为欧氏距离。
12.一种数据集划分装置,其特征在于,包括:
聚类模块,用于确定待划分数据集的目标聚类数目,对所述待划分数据集进行聚类,并得到聚类结果,所述目标聚类数目为所述聚类结果的数量;
优化模块,用于根据预先设定的划分标准,将所述聚类结果划分为有效聚类结果和无效聚类结果,并将所述无效聚类结果中的数据归并到所述有效聚类结果中。
13.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至11任一项所述数据集划分方法的步骤。
14.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11任一项所述数据集划分方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11任一项所述数据集划分方法的步骤。
CN202111530779.4A 2021-12-14 2021-12-14 一种数据集划分方法及装置 Pending CN114417095A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111530779.4A CN114417095A (zh) 2021-12-14 2021-12-14 一种数据集划分方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111530779.4A CN114417095A (zh) 2021-12-14 2021-12-14 一种数据集划分方法及装置

Publications (1)

Publication Number Publication Date
CN114417095A true CN114417095A (zh) 2022-04-29

Family

ID=81267387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111530779.4A Pending CN114417095A (zh) 2021-12-14 2021-12-14 一种数据集划分方法及装置

Country Status (1)

Country Link
CN (1) CN114417095A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116257760A (zh) * 2023-05-11 2023-06-13 浪潮电子信息产业股份有限公司 一种数据划分方法、系统、设备及计算机可读存储介质
CN117479306A (zh) * 2023-09-20 2024-01-30 广东省电信规划设计院有限公司 一种数字孪生的数据处理方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116257760A (zh) * 2023-05-11 2023-06-13 浪潮电子信息产业股份有限公司 一种数据划分方法、系统、设备及计算机可读存储介质
CN116257760B (zh) * 2023-05-11 2023-08-11 浪潮电子信息产业股份有限公司 一种数据划分方法、系统、设备及计算机可读存储介质
CN117479306A (zh) * 2023-09-20 2024-01-30 广东省电信规划设计院有限公司 一种数字孪生的数据处理方法及系统
CN117479306B (zh) * 2023-09-20 2024-04-30 广东省电信规划设计院有限公司 一种数字孪生的数据处理方法及系统

Similar Documents

Publication Publication Date Title
US11741361B2 (en) Machine learning-based network model building method and apparatus
CN106570178B (zh) 一种基于图聚类的高维文本数据特征选择方法
Parker et al. Accelerating fuzzy-c means using an estimated subsample size
WO2022042123A1 (zh) 图像识别模型生成方法、装置、计算机设备和存储介质
US9058540B2 (en) Data clustering method and device, data processing apparatus and image processing apparatus
CN109960808B (zh) 一种文本识别方法、装置、设备及计算机可读存储介质
CN108021908B (zh) 人脸年龄段识别方法及装置、计算机装置及可读存储介质
CN109086654B (zh) 手写模型训练方法、文本识别方法、装置、设备及介质
CN114417095A (zh) 一种数据集划分方法及装置
WO2018036547A1 (zh) 一种数据处理的方法以及装置
CN115578248B (zh) 一种基于风格引导的泛化增强图像分类算法
WO2021189830A1 (zh) 样本数据优化方法、装置、设备及存储介质
CN114819069A (zh) 基于dbscan聚类的客户端选择联邦学习方法
CN115310554A (zh) 基于深度聚类的品项分配策略、系统、存储介质和设备
CN108154186B (zh) 一种模式识别方法和装置
CN114547365A (zh) 一种图像检索方法和设备
Diao et al. Clustering by detecting density peaks and assigning points by similarity-first search based on weighted K-nearest neighbors graph
CN111382760B (zh) 图片类别的识别方法、装置及计算机可读存储介质
Lim et al. More powerful selective kernel tests for feature selection
CN110047509B (zh) 一种两级子空间划分方法及装置
CN107203916B (zh) 一种用户信用模型建立方法及装置
WO2015109781A1 (zh) 基于期望最大确定统计模型参数的方法和装置
CN114862404A (zh) 基于聚类样本与极限梯度的信用卡欺诈检测方法及设备
CN110288604B (zh) 基于K-means的图像分割方法和装置
CN112766403A (zh) 一种基于信息增益权重的增量聚类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 332, 3 / F, Building 102, 28 xinjiekouwei street, Xicheng District, Beijing 100088

Applicant after: Qianxin Technology Group Co.,Ltd.

Applicant after: Qianxin Wangshen information technology (Beijing) Co., Ltd

Address before: Room 332, 3 / F, Building 102, 28 xinjiekouwei street, Xicheng District, Beijing 100088

Applicant before: Qianxin Technology Group Co.,Ltd.

Applicant before: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc.

CB02 Change of applicant information