CN108446738A - 一种聚类方法、装置及电子设备 - Google Patents

一种聚类方法、装置及电子设备 Download PDF

Info

Publication number
CN108446738A
CN108446738A CN201810247267.9A CN201810247267A CN108446738A CN 108446738 A CN108446738 A CN 108446738A CN 201810247267 A CN201810247267 A CN 201810247267A CN 108446738 A CN108446738 A CN 108446738A
Authority
CN
China
Prior art keywords
sample
feature
cluster
distribution information
space distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810247267.9A
Other languages
English (en)
Inventor
吴鲲
杨汇成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201810247267.9A priority Critical patent/CN108446738A/zh
Publication of CN108446738A publication Critical patent/CN108446738A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种聚类方法,包括:基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;基于划分结果计算下一次聚类的初始点。本发明还公开一种聚类装置及电子设备。

Description

一种聚类方法、装置及电子设备
技术领域
本发明涉及数据处理技术,尤其涉及一种聚类方法、装置及电子设备。
背景技术
机器学习(ML,Machine Learning)是一门多领域交叉技术,在实际工业领域中不断获得应用。
在进行机器学习时,存在对样本进行分类前需要对样本进行聚类的操作;在对样本进行聚类时,通过对样本随机采样获得聚类的初始点,导致聚出的类别可能在聚类算法上是最优的,但是与实际业务需求偏差较大;或者聚类算法进行多次迭代收敛非常缓慢,而聚类结果却没有实际应用价值。
发明内容
本发明实施例提供一种聚类方法、装置及电子设备,能至少解决现有技术中存在的上述问题。
本发明实施例的技术方案是这样实现的:
第一方面,本发明实施例提供一种聚类方法,包括:基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;基于划分结果计算下一次聚类的初始点。
上述方案中,所述基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息,包括:
初始化各样本的特征对应的权重,形成特征对应的初始化权重;
计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;
基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。
上述方案中,所述基于所述各样本的空间分布信息,对所述样本集中各样本进行划分,包括:
将样本的特征加权和与预设的多个阈值进行匹配;
对所述各样本的空间分布信息中满足相同阈值条件的样本进行划分。
上述方案中,所述基于划分结果计算下一次聚类的初始点,包括:
计算划分得到的每个簇中各样本的特征加权和的平均值,得到每个簇的质心;
确定每个簇的质心为下一次聚类的初始点。
上述方案中,所述基于划分结果计算下一次聚类的初始点之后,还包括:
以每个簇的质心作为初始点,对所述样本集中的样本进行聚类。
上述方案中,所述方法还包括:
标记聚类形成的簇对应的标签;
基于所述样本集中的样本及所述标签训练机器学习模型,使得所述机器学习模型具有根据所述样本预测相应的标签的性能。
第二方面,本发明实施例还提供一种聚类装置,包括:
构建单元,用于基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;
划分单元,用于基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;
计算单元,用于基于划分结果计算下一次聚类的初始点。
上述方案中,所述构建单元,具体用于初始化各样本的特征对应的权重,形成特征对应的初始化权重;
计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;
基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。
第三方面,本发明实施例还提供一种电子设备,所述电子设备包括:
存储器,用于存储可执行程序;
处理器,用于通过执行所述存储器中存储的可执行程序时实现:
基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;
基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;
基于划分结果计算下一次聚类的初始点。
上述方案中,所述处理器,具体用于初始化各样本的特征对应的权重,形成特征对应的初始化权重;
计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;
基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。
本发明实施例提供的聚类方法、装置及电子设备,基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;基于划分结果计算下一次聚类的初始点。如此,通过基于样本的特征及特征对应的初始化权重对样本集中的样本进行划分,以获得下一次聚类的初始点,避免了对样本随机采样作为聚类的初始点导致的聚类结果与实际业务需求偏差大、聚类结果没有实际应用价值等问题,能够快速的将各样本聚类到相应的簇中,提高了聚类效率和聚类效果。
附图说明
图1为本发明实施例电子设备的一个可选的硬件结构示意图;
图2为本发明实施例一提供的聚类方法的处理流程示意图;
图3为本发明实施例构建各样本的空间分布信息的处理流程示意图;
图4为本发明实施例样本的空间分布信息示意图;
图5-1为本发明实施例对样本进行划分的示意图一;
图5-2为本发明实施例对样本进行划分的示意图二;
图6为本发明实施例二提供的聚类方法的处理流程示意图;
图7为本发明实施例三提供的聚类方法的处理流程示意图;
图8为本发明实施例四提供的聚类装置的组成结构示意图。
具体实施方式
对本发明进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)机器学习(Machine Learning):对训练集的样本分析,获得能够对样本的目标变量进行预测的机器学习模型(下文中也简称为参数)的过程。
2)无监督学习,通过对无标记训练样本的学习来揭示数据的内在性质及规律,为数据分析提供基础。
3)样本集,采用无监督方式训练机器学习模型所采用的样本(也称为训练样本)的集合。
4)聚类,将数据集中的样本,按照样本间的相似性划分为若干个不相交的子集,每个子集成为一个簇。
本发明实施例可提供为聚类方法以及聚类装置,实际应用中,聚类装置中的各功能模块可以由电子设备(如终端设备、服务器或服务器集群)的硬件资源,如处理器等计算资源、通信资源(如用于支持实现光缆、蜂窝等各种方式通信)协同实现。图1示例性示出了电子设备10的一个可选的硬件结构示意图,包括处理器11、输入/输出接口13(例如显示器、键盘、触摸屏、扬声器麦克风中的一个或多个),存储器14以及网络接口12,组件可以经系统总线15连接通信。
当然,本发明实施例不局限于提供为方法和硬件,还可有多种实现方式,例如提供为存储介质(存储有用于执行本发明实施例提供的聚类方法的指令),以下再对不同的实现方式举例说明。
一、移动端应用程序及模块
本发明实施例可提供为使用C/C++、Java等编程语言设计的软件模块,嵌入到基于Android或iOS等系统的各种移动端Apps中(例如微信等)(以可执行指令的存储在移动端的存储介质中,由移动端的处理器执行),从而直接使用移动端自身的计算资源完成相关的聚类任务,并且定期或不定期地通过各种网络通信方式将数据、中间结果或最终结果传送给远程的服务器,或者在移动端本地保存。
二、服务器应用程序及平台
本发明实施例可提供使用C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块,运行于服务器端(以可执行指令的方式在服务器端的存储介质中存储,并由服务器端的处理器运行),将接收到的来自其它设备的各种原始数据、各级中间数据和最终结果中的至少一种,与服务器上已有的某些数据或结果综合起来计算得到更新的结果,然后实时或非实时地输出给其他应用程序或模块使用,也可以写入服务器端数据库或文件进行存储。
本发明实施例还可以提供为在多台服务器构成的分布式、并行计算平台上,搭载定制的、易于交互的网络(Web)界面或其他各用户界面(UI,User Interface),形成供个人、群体或企业使用的数据挖掘平台和信用评估平台(用于评估用户的信用)等。使用者可以将已有的数据包批量上传给此平台以获得各种计算结果,也可以将实时的数据流传输给此平台来实时计算和刷新各级结果。
三、服务器端应用程序接口(API,Application Program Interface)及插件
本发明实施例可提供为实现服务器端的API、软件开发套件(SDK,SoftwareDevelopment Toolkit)或插件,供其他的服务器端应用程序开发人员调用,并嵌入到各类应用程序中。
四、移动设备客户端API及插件
本发明实施例还可提供为移动设备端的API、SDK或插件,供其他的移动端应用程序开发人员调用,并嵌入到各类应用程序中。
试对本发明实施例提供的聚类方法及装置能够适用应用场景进行举例说明,当然不局限于以下所给出的场景示例。
场景1)信用评估:从用户的各种数据如总逾期金额、当前敞口金额、客户风险等级、是否为我司黑名单中提取出能够反映用户的还款能力、还款意愿的信息等用于评定用户的信用评分(或信用等级)的信息。
场景2)数据挖掘:基于用户的各种行为日志、广告物料的文本描述等海量数据,判断用户感兴趣的产品。各种电商网站的商品推荐系统,需要从用户的搜索、收藏、浏览和评论行为,以及商品的各种描述,商家的交易历史等海量数据中挖掘有价值的信息,预测当前用户潜在可能对哪些商品感兴趣(如服饰类、数码产品类),并推荐给该用户。
下面结合附图和具体实施例对本发明作进一步详细说明。
实施例一
本发明实施例一提供的聚类方法的处理流程示意图,如图2所示,包括:
步骤S101,基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息。
在本发明可选实施例中,样本集中的样本包括特征,特征为样本的多个维度的属性。举例来说,在某一特定应用场景,特征包括:客户总资产、客户工程机械资产、总逾期金额、当前敞口金额、客户风险等级、是否为我司黑名单等。
电子设备构建各样本的空间分布信息的处理流程,如图3所示,包括:
步骤S201,初始化各样本的特征对应的权重,形成特征对应的初始化权重。
在一示例中,电子设备通过设置各样本的特征对应的权重,形成特征对应的初始化权重。
步骤S202,计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和。
在一示例中,电子设备对样本的特征进行量化;举例来说,当样本对应的特征为是否为我司黑名单时,特征对应的量化值为1或0;其中,1表示为我司黑名单,0表示不是我司黑名单;当样本对应的特征为客户风险等级时,特征对应的量化值可以是1(低风险)、2(中风险)和3(高风险)。
本实施例中,X表示样本的特征量化值,W表示特征对应的初始化权重,则样本的特征加权和A为:
步骤S203,基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。
在一示例中,利用二维坐标来表示样本的空间分布信息,如图4所示,X轴坐标表示样本的特征加权和,Y轴坐标表示特征加权和对应的样本的数量;如此,形成了以样本的特征加权和及特征加权和对应的样本数量为维度的样本的空间分布信息。
步骤S102,基于所述各样本的空间分布信息,对所述样本集中各样本进行划分。
本发明实施例中,预先设置多个与样本的特征加权和对应的阈值,将计算得到的样本的特征加权和与预设的多个阈值进行匹配;对所述各样本的空间分布信息中满足相同阈值条件的样本进行划分。
在一可选实施方式中,如图5-1所示,A1、A2、A3和A4为预设阈值,相应的,样本的特征加权用A表示,阈值条件包括:A<A1,A1<A<A2,A2<A<A3,A3<A<A4,A>A4。因此,基于样本的空间分布信息及阈值条件,将样本的特征加权和与预设的多个阈值进行匹配,将匹配得到的特征加权和小于A1的样本划分为第一簇,将匹配得到的特征加权和小于A2且大于A1的样本划分为第二簇,将匹配得到的特征加权和小于A3且大于A2的样本划分为第三簇,将匹配得到的特征加权和小于A4且大于A3的样本划分为第四簇,将匹配得到的特征加权和大于A4的样本划分为第五簇。
在另一可选实施方式中,如图5-2所示,A5和A6为样本的空间分布信息中的拐点,样本的特征加权用A表示,相应的阈值条件包括:A<A5,A5<A<A6,A>A6;因此,基于样本的空间分布信息及阈值条件,将样本的特征加权和与预设的多个阈值进行匹配,将匹配得到的特征加权和小于A5的样本划分为第六簇,将匹配得到的特征加权和小于A6且大于A5的样本划分为第七簇,将匹配得到的特征加权和大于A6的样本划分为第八簇。
本发明实施例中,基于所述各样本的空间分布信息,对所述样本集中各样本进行划分时采用的阈值,除了上述预设的阈值及空间分布信息的拐点外,还可以是基于其他因素获得的阈值,这里不做限定。
步骤S103,基于划分结果计算下一次聚类的初始点。
在一可选实施方式中,基于图5-1所示样本的空间分布信息计算划分得到的第一簇、第二簇、第三簇、第四簇及第五簇中各样本的特征加权和的平均值,分别得到第一簇、第二簇、第三簇、第四簇及第五簇的质心,将得到的第一簇、第二簇、第三簇、第四簇及第五簇的质心作为下一次聚类的初始点。
在另一可选实施方式中,基于图5-2所示样本的空间分布信息计算划分得到的第六簇、第七簇及第八簇中各样本的特征加权和的平均值,分别得到第六簇、第七簇及第八簇的质心,将得到的第六簇、第七簇及第八簇的质心作为下一次聚类的初始点。
本发明实施例中,基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;基于所述各样本的空间分布信息,对所述样本集中各样本进行划分的结果,作为计算下一次聚类的初始点的参考,使得能够较快的使各样本聚集到相应的簇中,减少聚类算法中迭代次数,实现聚类算法的快速收敛;避免随机选择的样本作为聚类的初始点导致的聚类算法多次迭代收敛缓慢的问题,以及避免聚类结果不符合实际业务、陷入局部最优的问题。
实施例二
本发明实施例二提供的聚类方法的处理流程示意图,如图6所示,包括:
步骤S301,基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息。
在本发明可选实施例中,样本集中的样本包括特征,特征为样本的多个维度的属性。举例来说,在某一特定应用场景,特征包括:客户总资产、客户工程机械资产、总逾期金额、当前敞口金额、客户风险等级、是否为我司黑名单等。
构建各样本的空间分布信息的处理流程,如图3所示。
步骤S302,基于所述各样本的空间分布信息,对所述样本集中各样本进行划分。
本发明实施例中,预先设置多个与样本的特征加权和对应的阈值,将计算得到的样本的特征加权和与预设的多个阈值进行匹配;对所述各样本的空间分布信息中满足相同阈值条件的样本进行划分,将样本划分为不同的簇。
步骤S303,基于划分结果计算下一次聚类的初始点。
在一实施例中,计算将样本划分的每个簇中各样本的特征加权和的平均值,得到每个簇的质心,将得到的每个簇的质心作为下一次聚类的初始点。
步骤S304,以每个簇的质心作为初始点,对所述样本集中的样本进行聚类。
本发明实施例中,以每个簇的质心作为初始点,将样本的各个特征进行量化,计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;基于样本的特征加权和与质心的距离对样本集中的样本进行聚类。
示例性的,将特征加权和与质心的距离满足预设的距离阈值的样本聚类为一个簇。
实施例三
本发明实施例三提供的聚类方法的处理流程示意图,如图7所示,包括:
步骤S401,基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息。
在本发明可选实施例中,样本集中的样本包括特征,特征为样本的多个维度的属性。举例来说,在某一特定应用场景,特征包括:客户总资产、客户工程机械资产、总逾期金额、当前敞口金额、客户风险等级、是否为我司黑名单等。
构建各样本的空间分布信息的处理流程,如图3所示。
步骤S402,基于所述各样本的空间分布信息,对所述样本集中各样本进行划分。
本发明实施例中,预先设置多个与样本的特征加权和对应的阈值,将计算得到的样本的特征加权和与预设的多个阈值进行匹配;对所述各样本的空间分布信息中满足相同阈值条件的样本进行划分,将样本划分为不同的簇。
步骤S403,基于划分结果计算下一次聚类的初始点。
在一实施例中,计算将样本划分的每个簇中各样本的特征加权和的平均值,得到每个簇的质心,将得到的每个簇的质心作为下一次聚类的初始点。
步骤S404,以每个簇的质心作为初始点,对所述样本集中的样本进行聚类。
本发明实施例中,以每个簇的质心作为初始点,将样本的各个特征进行量化,计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;基于样本的特征加权和与质心的距离对样本集中的样本进行聚类。
示例性的,将特征加权和与质心的距离满足预设的距离阈值的样本聚类为一个簇。
本发明实施例中,可以对样本进行两次以上的迭代聚类,直至相邻两次聚类的结果相同或相似便停止聚类;每次迭代聚类可以基于相同的因子进行聚类,也可以基于不同的因子进行聚类。举例来说,在第一次聚类时,可以基于样本的特征加权和进行聚类;在第二次聚类时,可以基于样本的特征加权和进行聚类,也可以基于特定的一个样本特征进行聚类;如此,通过基于不同的因此进行聚类,能够避免聚类结果局部最优。
步骤S405,标记聚类形成的簇对应的标签。
示例性的,在本发明实施例提供的聚类方法应用于信用评估时,簇对应的簇标签可以包括信用等级良好、信用等级一般、信用等级差等。
在本发明实施例提供的聚类方法应用于数据挖掘时,簇对应的簇标签可以包括数码产品类用户、服饰类用户、母婴产品类用户等。
步骤S406,基于所述样本集中的样本及所述标签训练机器学习模型,使得所述机器学习模型具有根据所述样本预测相应的标签的性能。
本发明可选实施例中,当机器学习模型采用XGBoost模型为分类器时,由于XGBoost模型支持对于样本以特征为粒度进行并行的训练,例如对于相同特征的样本分配一个或多个线程,在硬件实现上使用多线程的处理器进行训练,这样,不同(类型)特征的样本可以被并行地用于对机器学习模型进行训练,显著缩短了机器学习模型的训练时间,提升了机器学习模型的训练效率。
实施例四
本发明实施例四提供一种聚类装置,所述聚类装置的组成结构示意图,如图8所示,包括:
构建单元101,用于基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息。
在本发明可选实施例中,样本集中的样本包括特征,特征为样本的多个维度的属性。举例来说,在某一特定应用场景,特征包括:客户总资产、客户工程机械资产、总逾期金额、当前敞口金额、客户风险等级、是否为我司黑名单等。
在一示例中,利用二维坐标来表示样本的空间分布信息,如图4所示,X轴坐标表示样本的特征加权和,Y轴坐标表示特征加权和对应的样本的数量;如此,形成了以样本的特征加权和及特征加权和对应的样本数量为维度的样本的空间分布信息。
划分单元102,用于基于所述各样本的空间分布信息,对所述样本集中各样本进行划分。
在一可选实施方式中,如图5-1所示,A1、A2、A3和A4为预设阈值,相应的,样本的特征加权用A表示,阈值条件包括:A<A1,A1<A<A2,A2<A<A3,A3<A<A4,A>A4。因此,基于样本的空间分布信息及阈值条件,将样本的特征加权和与预设的多个阈值进行匹配,将匹配得到的特征加权和小于A1的样本划分为第一簇,将匹配得到的特征加权和小于A2且大于A1的样本划分为第二簇,将匹配得到的特征加权和小于A3且大于A2的样本划分为第三簇,将匹配得到的特征加权和小于A4且大于A3的样本划分为第四簇,将匹配得到的特征加权和大于A4的样本划分为第五簇。
在另一可选实施方式中,如图5-2所示,A5和A6为样本的空间分布信息中的拐点,样本的特征加权用A表示,相应的阈值条件包括:A<A5,A5<A<A6,A>A6;因此,基于样本的空间分布信息及阈值条件,将样本的特征加权和与预设的多个阈值进行匹配,将匹配得到的特征加权和小于A5的样本划分为第六簇,将匹配得到的特征加权和小于A6且大于A5的样本划分为第七簇,将匹配得到的特征加权和大于A6的样本划分为第八簇。
本发明实施例中,基于所述各样本的空间分布信息,对所述样本集中各样本进行划分时采用的阈值,除了上述预设的阈值及空间分布信息的拐点外,还可以是基于其他因素获得的阈值,这里不做限定。
计算单元103,用于基于划分结果计算下一次聚类的初始点。
在一实施例中,所述构建单元101,具体用于初始化各样本的特征对应的权重,形成特征对应的初始化权重;
计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;
基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。
在一实施例中,所述划分单元102,具体用于将样本的特征加权和与预设的多个阈值进行匹配;
对所述各样本的空间分布信息中满足相同阈值条件的样本进行划分。
在一实施例中,所述计算单元103,具体用于计算划分得到的每个簇中各样本的特征加权和的平均值,得到每个簇的质心;
确定每个簇的质心为下一次聚类的初始点。
在一实施例中,所述装置还包括:聚类单元104,用于以每个簇的质心作为初始点,对所述样本集中的样本进行聚类。
本发明实施例中,以每个簇的质心作为初始点,将样本的各个特征进行量化,计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;基于样本的特征加权和与质心的距离对样本集中的样本进行聚类。
示例性的,将特征加权和与质心的距离满足预设的距离阈值的样本聚类为一个簇。
在一实施例中,所述装置还包括:训练单元105,用于标记聚类形成的簇对应的标签;
基于所述样本集中的样本及所述标签训练机器学习模型,使得所述机器学习模型具有根据所述样本预测相应的标签的性能。
本发明可选实施例中,当机器学习模型采用XGBoost模型为分类器时,由于XGBoost模型支持对于样本以特征为粒度进行并行的训练,例如对于相同特征的样本分配一个或多个线程,在硬件实现上使用多线程的处理器进行训练,这样,不同(类型)特征的样本可以被并行地用于对机器学习模型进行训练,显著缩短了机器学习模型的训练时间,提升了机器学习模型的训练效率。
实施例五
本发明实施例五提供一种电子设备,包括:
存储器,用于存储可执行程序;
处理器,用于通过执行所述存储器中存储的可执行程序时实现:
基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;
基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;
基于划分结果计算下一次聚类的初始点。
在一实施例中,所述处理器,具体用于初始化各样本的特征对应的权重,形成特征对应的初始化权重;
计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;
基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。
在一实施例中,所述处理器,具体用于将样本的特征加权和与预设的多个阈值进行匹配;
对所述各样本的空间分布信息中满足相同阈值条件的样本进行划分。
在一实施例中,所述处理器,具体用于计算划分得到的每个簇中各样本的特征加权和的平均值,得到每个簇的质心;
确定每个簇的质心为下一次聚类的初始点。
在一实施例中,所述处理器,还用于以每个簇的质心作为初始点,对所述样本集中的样本进行聚类。
在一实施例中,所述处理器,还用于标记聚类形成的簇对应的标签;
基于所述样本集中的样本及所述标签训练机器学习模型,使得所述机器学习模型具有根据所述样本预测相应的标签的性能。
可以理解,存储器可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器702旨在包括但不限于这些和任意其它适合类型的存储器。
上述本发明实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,电子设备可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
相应的,本发明实施例还提供一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器运行时,执行:
基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;
基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;
基于划分结果计算下一次聚类的初始点。
在一实施例中,所述计算机程序被处理器运行时,还执行:初始化各样本的特征对应的权重,形成特征对应的初始化权重;
计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;
基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。
在一实施例中,所述计算机程序被处理器运行时,还执行:将样本的特征加权和与预设的多个阈值进行匹配;
对所述各样本的空间分布信息中满足相同阈值条件的样本进行划分。
在一实施例中,所述计算机程序被处理器运行时,还执行:计算划分得到的每个簇中各样本的特征加权和的平均值,得到每个簇的质心;
确定每个簇的质心为下一次聚类的初始点。
在一实施例中,所述计算机程序被处理器运行时,还执行:以每个簇的质心作为初始点,对所述样本集中的样本进行聚类。
在一实施例中,所述计算机程序被处理器运行时,还执行:标记聚类形成的簇对应的标签;
基于所述样本集中的样本及所述标签训练机器学习模型,使得所述机器学习模型具有根据所述样本预测相应的标签的性能。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序命令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种聚类方法,其特征在于,包括:
基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;
基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;
基于划分结果计算下一次聚类的初始点。
2.如权利要求1所述的方法,其特征在于,所述基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息,包括:
初始化各样本的特征对应的权重,形成特征对应的初始化权重;
计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;
基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。
3.如权利要求1所述的方法,其特征在于,所述基于所述各样本的空间分布信息,对所述样本集中各样本进行划分,包括:
将样本的特征加权和与预设的多个阈值进行匹配;
对所述各样本的空间分布信息中满足相同阈值条件的样本进行划分。
4.如权利要求1所述的方法,其特征在于,所述基于划分结果计算下一次聚类的初始点,包括:
计算划分得到的每个簇中各样本的特征加权和的平均值,得到每个簇的质心;
确定每个簇的质心为下一次聚类的初始点。
5.如权利要求4所述的方法,其特征在于,所述基于划分结果计算下一次聚类的初始点之后,还包括:
以每个簇的质心作为初始点,对所述样本集中的样本进行聚类。
6.如权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
标记聚类形成的簇对应的标签;
基于所述样本集中的样本及所述标签训练机器学习模型,使得所述机器学习模型具有根据所述样本预测相应的标签的性能。
7.一种聚类装置,其特征在于,包括:
构建单元,用于基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;
划分单元,用于基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;
计算单元,用于基于划分结果计算下一次聚类的初始点。
8.如权利要求7所述的装置,其特征在于,所述构建单元,具体用于初始化各样本的特征对应的权重,形成特征对应的初始化权重;
计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;
基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。
9.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行程序;
处理器,用于通过执行所述存储器中存储的可执行程序时实现:
基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;
基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;
基于划分结果计算下一次聚类的初始点。
10.如权利要求9所述的电子设备,其特征在于,所述处理器,具体用于初始化各样本的特征对应的权重,形成特征对应的初始化权重;
计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;
基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。
CN201810247267.9A 2018-03-23 2018-03-23 一种聚类方法、装置及电子设备 Pending CN108446738A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810247267.9A CN108446738A (zh) 2018-03-23 2018-03-23 一种聚类方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810247267.9A CN108446738A (zh) 2018-03-23 2018-03-23 一种聚类方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN108446738A true CN108446738A (zh) 2018-08-24

Family

ID=63196967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810247267.9A Pending CN108446738A (zh) 2018-03-23 2018-03-23 一种聚类方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN108446738A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657056A (zh) * 2018-11-14 2019-04-19 金色熊猫有限公司 目标样本获取方法、装置、存储介质及电子设备
CN113298184A (zh) * 2021-06-21 2021-08-24 哈尔滨工程大学 用于小样本图像识别的样本抽取、扩充方法及存储介质
CN113397562A (zh) * 2021-07-20 2021-09-17 电子科技大学 基于深度学习的睡眠纺锤波检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140149412A1 (en) * 2012-11-26 2014-05-29 Ricoh Company, Ltd. Information processing apparatus, clustering method, and recording medium storing clustering program
CN106056136A (zh) * 2016-05-20 2016-10-26 浙江工业大学 一种聚类中心快速确定的数据聚类方法
CN106897918A (zh) * 2017-02-24 2017-06-27 上海易贷网金融信息服务有限公司 一种混合式机器学习信用评分模型构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140149412A1 (en) * 2012-11-26 2014-05-29 Ricoh Company, Ltd. Information processing apparatus, clustering method, and recording medium storing clustering program
CN106056136A (zh) * 2016-05-20 2016-10-26 浙江工业大学 一种聚类中心快速确定的数据聚类方法
CN106897918A (zh) * 2017-02-24 2017-06-27 上海易贷网金融信息服务有限公司 一种混合式机器学习信用评分模型构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XINGANG WANG 等: "Research on Intrusion Detection Based on Feature Extraction of Autoencoder and the Improved K-means Algorithm", 《2017 10TH INTERNATIONAL SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE AND DESIGN》 *
张健沛 等: "基于最优划分的K-Means初始聚类中心选取算法", 《系统仿真学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657056A (zh) * 2018-11-14 2019-04-19 金色熊猫有限公司 目标样本获取方法、装置、存储介质及电子设备
CN113298184A (zh) * 2021-06-21 2021-08-24 哈尔滨工程大学 用于小样本图像识别的样本抽取、扩充方法及存储介质
CN113397562A (zh) * 2021-07-20 2021-09-17 电子科技大学 基于深度学习的睡眠纺锤波检测方法

Similar Documents

Publication Publication Date Title
TWI818999B (zh) 針對新場景的預測模型訓練方法及裝置
CN110363449B (zh) 一种风险识别方法、装置及系统
CN108629687B (zh) 一种反洗钱方法、装置及设备
CN112148987B (zh) 基于目标对象活跃度的消息推送方法及相关设备
CN107358247B (zh) 一种确定流失用户的方法及装置
CN110110012A (zh) 用户预期价值评估方法、装置、电子设备及可读介质
CN111383030B (zh) 一种交易风险的检测方法、装置及设备
CN110069545B (zh) 一种行为数据评估方法及装置
CN111325619A (zh) 一种基于联合学习的信用卡欺诈检测模型更新方法及装置
CN110046986A (zh) 基于大数据的借款逾期客户分群方法及装置
WO2018142753A1 (ja) ディープラーニングを用いる情報処理装置、情報処理方法及び情報処理プログラム
CN110097450A (zh) 车贷风险评估方法、装置、设备和存储介质
CN107909141A (zh) 一种基于灰狼优化算法的数据分析方法及装置
CN108446738A (zh) 一种聚类方法、装置及电子设备
CN109087138A (zh) 数据处理方法及系统、计算机系统和可读存储介质
CN111369258A (zh) 实体对象类型的预测方法、装置及设备
CN112785005A (zh) 多目标任务的辅助决策方法、装置、计算机设备及介质
CN110363654A (zh) 一种优惠信息推送方法、装置和电子设备
CN109947811A (zh) 通用特征库生成方法及装置、存储介质、电子设备
CN113934851A (zh) 用于文本分类的数据增强方法、装置及电子设备
CA3135466A1 (en) User loan willingness prediction method and device and computer system
CN112561681A (zh) 确定潜在贷款企业的方法、装置、电子设备及存储介质
CN110134860B (zh) 用户画像生成方法、装置和设备
CN109783381B (zh) 一种测试数据生成方法、装置及系统
CN113144624B (zh) 一种数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180824

RJ01 Rejection of invention patent application after publication