CN111046902B - 基于聚类算法的分类方法、装置、计算机设备及存储介质 - Google Patents
基于聚类算法的分类方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111046902B CN111046902B CN201911045314.2A CN201911045314A CN111046902B CN 111046902 B CN111046902 B CN 111046902B CN 201911045314 A CN201911045314 A CN 201911045314A CN 111046902 B CN111046902 B CN 111046902B
- Authority
- CN
- China
- Prior art keywords
- classified
- index data
- characteristic index
- data
- analysis group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000003860 storage Methods 0.000 title claims description 12
- 238000004445 quantitative analysis Methods 0.000 claims abstract description 96
- 238000004451 qualitative analysis Methods 0.000 claims abstract description 69
- 238000012545 processing Methods 0.000 claims abstract description 33
- 239000013598 vector Substances 0.000 claims description 34
- 238000010606 normalization Methods 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 238000003491 array Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000001172 regenerating effect Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 230000004069 differentiation Effects 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 abstract 1
- 238000011161 development Methods 0.000 description 12
- 206010010356 Congenital anomaly Diseases 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 210000001503 joint Anatomy 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本申请揭示了基于聚类算法的分类方法,包括:采集待分类目标物的特征指标数据;将特征指标数据按照预设方式加工成待分类目标物对应的标签因子;根据标签因子通过预设聚类算法对待分类目标物进行归类,匹配指定目标物所属的第一定量分析群;获取指定目标物所属的第一定性分析群,其中,第一定性分析群包含于所有定性分析群中,定性分析群根据待分类目标物的画像特征形成,画像特征包括成长型变化特征;判断第一定性分析群与第一定量分析群是否匹配;若匹配,则将指定目标物归类与第一定性分析群。通过对目标物分类中的定性分类和定量分类相匹配,提高分类的精准度,而且定性分类中加入了成长型变化特征,进一步提高分类的精准性。
Description
技术领域
本申请涉及到计算机领域,特别是涉及到基于聚类算法的分类方法、装置、计算机设备及存储介质。
背景技术
现有管理体系中对目标物的类型进行划分,无法根据目标物定性和定量两个方面的数据特征进行综合分类,尤其是没有将动态发展变化的特点纳入到管理体系的分类系统中,或没有对分类特征进行量化,仅凭经验进行分类,难以真正对目标物形成持续发展与更新的分类评价。
发明内容
本申请的主要目的为提供基于聚类算法的分类方法,旨在解决现有分类系统中不能对目标物形成持续发展与更新的分类评价的技术问题。
本申请提出一种基于聚类算法的分类方法,包括:
采集待分类目标物的特征指标数据,其中,所述特征指标数据包括定量数据;
将所述特征指标数据按照预设方式加工成所述待分类目标物对应的标签因子;
根据所述标签因子通过预设聚类算法对所述待分类目标物进行归类,匹配指定目标物所属的第一定量分析群,其中,所述指定目标物包含于所有所述待分类目标物中,所述第一定量分析群包含于所有定量分析群中,各所述定量分析群与所述预设聚类算法对应的各聚类簇一一对应;
获取所述指定目标物所属的第一定性分析群,其中,所述第一定性分析群包含于所有定性分析群中,所述定性分析群根据所述待分类目标物的画像特征形成,所述画像特征包括成长型变化特征;
判断所述第一定性分析群与所述第一定量分析群是否匹配;
若匹配,则将所述指定目标物归类与所述第一定性分析群。
优选地,所述判断所述第一定性分析群与所述第一定量分析群是否匹配的步骤之后,包括:
若不匹配,则判断第一特征指标数据是否具有区分度,其中,所述第一特征指标数据包含于所述指定目标物对应的特征指标数据中;
若第一特征指标数据具有区分度,则根据所述第一定量分析群,将所述指定目标物所属的第一定性分析群变更为第二定性分析群,其中,所述第二定性分析群与所述第一定量分析群相匹配。
优选地,所述判断第一特征指标数据是否具有区分度的步骤之后,包括:
若第一特征指标数据不具有区分度,则获取预设业务规则中所述第一特征指标数据的重要性排序;
根据所述重要性排序,判断所述第一特征指标数据对应的指定特征项是否为分类必要项;
若是,则将所述第一特征指标数据更换为第二特征指标数据,其中,所述第二特征指标数据具有区分度,且同为标识所述指定特征项的数据;
根据更换第二特征指标数据后的特征指标数据,重新生成所述待分类目标物对应的标签因子,并重新进行聚类计算。
优选地,所述判断第一特征指标数据是否具有区分度的步骤,包括:
分别计算各所述特征指标数据对应的方差;
将各所述方差按照数值大小降序排列成方差列;
判断所述第一特征指标数据对应的方差是否排布在所述方差列的预设排号前;
若是,则判定所述第一特征指标数据具有区分度。
优选地,所述将所述特征指标数据按照预设方式加工成所述待分类目标物对应的标签因子的步骤,包括:
判断所述特征指标数据中是否包括需要数据转换的第一类数据,其中,所述第一类数据包括全文字表述的数据;
若是,则将所有所述第一类数据进行数据转换,将所述特征指标数据对应成各指定数组,其中,每个指定数组与每个目标物的样本数据相对应;
判断各所述指定数组中是否包括需要归一化处理的第二类数据;
若是,则将所述第二类数据进行归一化处理,得到各所述指定数组分别对应的多维向量;
将各所述多维向量分别作为各所述待分类目标物对应的标签因子。
优选地,所述根据所述标签因子通过预设聚类算法对所述待分类目标物进行归类,匹配指定目标物所属的第一定量分析群的步骤,包括:
获取预先设定的分组数量;
根据所述预先设定的分组数量随机分配相等数量的初始值,作为各分组分别对应的初始中心点;
根据所有所述待分类目标物分别对应的标签因子到各所述初始中心点的距离,将所有所述待分类目标物分别分配到各所述初始中心点对应的分组中;
计算第一次分组后各所述分组分别对应的第一中心点;
根据所有所述待分类目标物分别对应的标签因子到各所述第一中心点的距离,将所有所述待分类目标物分别重新分配到各所述第一中心点对应的分组中;
判断是否达到预设的终止迭代聚类分组的条件;
若是,则终止聚类迭代,并将当前所述指定目标物所属的分组作为所述第一定量分析群。
优选地,所述指定目标物对应的标签因子中包括多个特征项,根据所有所述待分类目标物分别对应的标签因子到各所述初始中心点的距离,将所有所述待分类目标物分别分配到各所述初始中心点对应的分组中的步骤,包括:
计算各所述特征项分别到第一初始中心点的第一距离值,其中,所述第一初始中心点包含于所有所述初始中心点中;
将各所述第一距离值加和,得到所述指定目标物对应的标签因子与所述第一初始中心点的距离值;
比较所述指定目标物对应的标签因子分别与各所述初始中心点的距离值大小;
将所述指定目标物分配到距离值最小时对应的第二初始中心点所在分组;
根据所述指定目标物分配分组的过程,对应分配所有待分类目标物的分组。
本申请还提供了一种基于聚类算法的分类装置,包括:
采集模块,用于采集待分类目标物的特征指标数据,其中,所述特征指标数据包括定量数据;
加工模块,用于将所述特征指标数据按照预设方式加工成所述待分类目标物对应的标签因子;
匹配模块,用于根据所述标签因子通过预设聚类算法对所述待分类目标物进行归类,匹配指定目标物所属的第一定量分析群,其中,所述指定目标物包含于所有所述待分类目标物中,所述第一定量分析群包含于所有定量分析群中,各所述定量分析群与所述预设聚类算法对应的各聚类簇一一对应;
第一获取模块,用于获取所述指定目标物所属的第一定性分析群,其中,所述第一定性分析群包含于所有定性分析群中,所述定性分析群根据所述待分类目标物的画像特征形成,所述画像特征包括成长型变化特征;
第一判断模块,用于判断所述第一定性分析群与所述第一定量分析群是否匹配;
归类模块,用于若匹配,则将所述指定目标物归类与所述第一定性分析群。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请通过对目标物分类中的定性分类和定量分类相匹配,使聚类算法得到的分类得到验证,提高分类的精准度,而且定性分类中加入了成长型变化特征,使分类系统具有跟随时间发展进行更新优化的功能,进一步提高分类的精准性。
附图说明
图1本申请一实施例的基于聚类算法的分类方法流程示意图;
图2本申请一实施例的基于聚类算法的分类装置结构示意图;
图3本申请一实施例的计算机设备内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例的基于聚类算法的分类方法,包括:
S1:采集待分类目标物的特征指标数据,其中,所述特征指标数据包括定量数据;
S2:将所述特征指标数据按照预设方式加工成所述待分类目标物对应的标签因子;
S3:根据所述标签因子通过预设聚类算法对所述待分类目标物进行归类,匹配到所述指定目标物所属的第一定量分析群,其中,所述指定目标物包含于所有所述待分类目标物中,所述第一定量分析群包含于所有定量分析群中,各所述定量分析群与所述预设聚类算法对应的各聚类簇一一对应;
S4:获取所述指定目标物所属的第一定性分析群,其中,所述第一定性分析群包含于所有定性分析群中,所述定性分析群根据所述待分类目标物的画像特征形成,所述画像特征包括成长型变化特征;
S5:判断所述第一定性分析群与所述第一定量分析群是否匹配;
S6:若匹配,则将所述指定目标物归类与所述第一定性分析群。
本实施例的待分类目标物包括人员、生长中的农作物、动物等包括成长型特征的群体,本实施例以对成长型的销售人员分类为例,上述待分类目标物即为待分类目标物,指定目标物即为指定目标物。上述成长型特征指根据时间发展有提升变化的动态特征,影响对目标物的画像以及定性归类。通过对人员分类中的定性分类和定量分类相匹配,使聚类算法得到的分类得到验证,提高分类的精准度。本实施例的定性分析数据,来自线下深入业务前线访谈绩优销售人员的汇总数据,汇总数据包括不同销售人员的性格特点、兴趣爱好、个人家庭背景、展业特点以及、每个典型绩优人员的成长发展路径,上述画像特征中包括了销售经验值等成长型特征。上述访谈人数不少于100人,通过收集足够数量的访问数据,提炼出几类典型人员的特点,并从业务角度为上述几类典型人员做出画像和描述,给出每类典型人员的几个关键指标。比如通过设计几个展业关键节点,如获客、与客户互动、促成转化等,将每个节点总结出10个左右典型动作,如有的销售人员偏好线上获客、有的偏好线下陌生拜访获客等,与销售主管进行对接确认,根据确认后的动作组合形成每类典型人员的画像,画像特征包括每类典型人员中共有的特征,比如偏好线下陌生拜访获客的典型群体的共性为均有销售经历或销售经验年限比较长。上述销售经历或销售经验年限等销售经验值为成长型特征,通过定性分类中加入了成长型变化特征,使分类系统具有跟随时间发展进行更新优化的功能,进一步提高分类的精准性。模型完成后,完全根据销售人员自身特点进行聚类,不施加人为干预,并且分群可以通过后台部署自动完成,只选取绩优销售人员的先天特点和展业特征进行深度挖掘,并以此为依据进行分群,避免了收入因素对销售人缘分群的影响,为每个销售人员选择最适合他的培养路径进行指导。本实施例的特征指标数据包括销售人员的基本信息,使用APP的点击浏览记录,各种拜访客户的记录,出现地点等数据,需要进行数据清洗后,并且按月对特征指标数据进行整合,如根据APP的登陆记录,加工成APP月均登录次数等标签因子。本实施例通过第一定性分析群与所述第一定量分析群包含人员的主要特征项均相同或50%以上相同,则为匹配。
进一步地,所述判断所述第一定性分析群与所述第一定量分析群是否匹配的步骤S5之后,包括:
S7:若不匹配,则判断第一特征指标数据是否具有区分度,其中,所述第一特征指标数据包含于所述指定目标物对应的特征指标数据中;
S8:若第一特征指标数据具有区分度,则根据所述第一定量分析群,将所述指定目标物所属的第一定性分析群变更为第二定性分析群,其中,所述第二定性分析群与所述第一定量分析群相匹配。
本实施例中,当第一定性分析群与所述第一定量分析群包含人员的主要特征差异较大,比如50%以上的特征项均不相同,则不匹配。则判断聚类数据是否合理,如果聚类数据不具有区分度,则不合理,比如,所有人员均具有的特征项本科学历,则此特征项对应的特征指标数据用于聚合算法则不合理。但如果数据具有区分度,则要看定性分析划分的组是否合理,可通过调整前线的定性分析的划分标准,使定性分析和定量分析相匹配,以便更好的通过定性分析验证定量分析,且可指导线下访谈方案的调整。
进一步地,所述判断第一特征指标数据是否具有区分度的步骤S7之后,包括:
S71:若第一特征指标数据不具有区分度,则获取预设规则中所述第一特征指标数据的重要性排序;
S72:根据所述重要性排序,判断所述第一特征指标数据对应的指定特征项是否为分类必要项;
S73:若是,则将所述第一特征指标数据更换为第二特征指标数据,其中,所述第二特征指标数据具有区分度,且同为标识所述指定特征项的数据;
S74:根据更换第二特征指标数据后的特征指标数据,重新生成所述待分类目标物对应的标签因子,并重新进行聚类计算。
本实施例中,若所选定的特征项对应的特征指标数据不具有区分度,则可根据特征项在预设规则中的重要排序判断取舍,上述预设规则为业务规则,跟业务特点相关,比如不重要可舍弃,以便影响精准的分组。当不具有区分度的特征项是必选项,则需要对特征项再限定,使经过再限定的特征项对应的特征指标数据具有区分度,比如特征项为学历,对应的特征指标数据为本科,在所有人员中不具有区分度,即所有人均为本科学历,可通过限定特征项为211本科或985本科,实现区分,并根据限定特征项对应的特征指标数据,重新生成标签因子,进行聚类分组。
进一步地,所述判断第一特征指标数据是否具有区分度的步骤S72,包括:
S721:分别计算各所述特征指标数据对应的方差;
S722:将各所述方差按照数值大小降序排列成方差列;
S723:判断所述第一特征指标数据对应的方差是否排布在所述方差列的预设排号前;
S724:若是,则判定所述第一特征指标数据具有区分度。
本实施例中,对于数值型数据,可通过计算各特征项对应的特征指标数据的方差,判断特征指标数据的区分度。比如,排在降序排列成方差列的后面20%的特征项不具有区分度,或者排在降序排列成方差列的前面20%的特征项具有区分度。
进一步地,所述将所述特征指标数据按照预设方式加工成所述待分类目标物对应的标签因子的步骤S2,包括:
S21:判断所述特征指标数据中是否包括需要数据转换的第一类数据,其中,所述第一类数据包括全文字表述的数据;
S22:若是,则将所有所述第一类数据进行数据转换,将所述特征指标数据对应成各指定数组,其中,每个指定数组与每个目标物的样本数据相对应;
S23:判断各所述指定数组中是否包括需要归一化处理的第二类数据;
S24:若是,则将所述第二类数据进行归一化处理,得到各所述指定数组分别对应的多维向量;
S25:将各所述多维向量分别作为各所述待分类目标物对应的标签因子。
本实施例通过对特征指标数据中的各种数据进行处理,形成每个销售人员对应的多维向量,以成为标注每个销售人员的标签因子。本实施例的特征指标数据包括先天因子、后天展业行为因子、结果因子。先天性因子,如年龄,学历等;后天性展业行为因子,如出勤率,日均拜访数等;结果因子即绩效因子,如月均收入,月均出单件数等。有些是带有量纲的数值型数据,有些是文字表述类数据,需要对上述数据进行处理形成对应的向量。对于文字表述类数据通过数据转换成对应的数值,比如文字记录月均出单四十件,则通过提取转换为40件,再比如文字记载学历为本科,可通过在学历项是本科时赋值1,不是本科时赋值0,实现二进制赋值转换。然后将带有量纲的数据50岁、28天等,通过归一化实现数据归一,归一化公式为:归一化值=(当前特征值-该特征项的最小值)/(该特征项的最大值-该特征项的最小值),或者归一化值=︱当前特征值-该特征项的最大值︱/(该特征项的最大值-该特征项的最小值)。比如当前待分类人员的特征指标数据表示为:本科学历、年龄30岁、收入5000元、身高180cm,则对应的指定数组表示为{1,30,5000,180},若年龄项最大为60岁,最小为21岁;收入项最大为10000元,最小为1000元;身高项最大为185cm,最小为165cm;则通过归一化值=(当前特征值-该特征项的最小值)/(该特征项的最大值-该特征项的最小值)归一化后,生成了对应的四维向量:{1,0.23,0.44,0.75},上述四维向量则为当前待分类人员的标签因子,上述四维向量的各特征项的排序不作限定,只要所有的到分类人员的特征项排序相同即可。
进一步地,所述根据所述标签因子通过预设聚类算法对所述待分类目标物进行归类,匹配到所述指定目标物所属的第一定量分析群的步骤S3,包括:
S31:获取预先设定的分组数量;
S32:根据所述预先设定的分组数量随机分配相等数量的初始值,作为各分组分别对应的初始中心点;
S33:根据所有所述待分类目标物分别对应的标签因子到各所述初始中心点的距离,将所有所述待分类目标物分别分配到各所述初始中心点对应的分组中;
S34:计算第一次分组后各所述分组分别对应的第一中心点;
S35:根据所有所述待分类目标物分别对应的标签因子到各所述第一中心点的距离,将所有所述待分类目标物分别重新分配到各所述第一中心点对应的分组中;
S36:判断是否达到预设的终止迭代聚类分组的条件;
S37:若是,则终止聚类迭代,并将当前所述指定目标物所属的分组作为所述第一定量分析群。
本实施例中,聚类方法如下:首先,根据业务规则中预先设定的分组数量,选择一些分类或分组来使用,并随机地初始化分类或分组各自的中心点,上述中心点是与分类或分组中的每个数据点的向量具有相同长度的向量。每个标签因子通过计算其和每个组中心之间的距离进行分类,然后将标签因子分类为距离值最接近的分类或分组。通过初始聚类分组后,每个分类或分组包含了分配的人员,根据分类或分组包含的人员的标签因子重新计算各分类或分组对应的第一中心点,然后将原初始分配中的结果清空,重新根据第一中心点进行分组,每个标签因子通过计算其和每个组的第一中心点之间的距离进行分类,然后将标签因子分类为距离值最接近的分类或分组。依次迭代进行,直到所有标签因子均与各自分组或分类的中心点的距离最小,和其他分组或分类的中心点的距离最大,则认为实现理想分组。
进一步地,所述指定目标物对应的标签因子中包括多个特征项,根据所有所述待分类目标物分别对应的标签因子到各所述初始中心点的距离,将所有所述待分类目标物分别分配到各所述初始中心点对应的分组中的步骤S33,包括:
S331:计算各所述特征项分别到第一初始中心点的第一距离值,其中,所述第一初始中心点包含于所有所述初始中心点中;
S332:将各所述第一距离值加和,得到所述指定目标物对应的标签因子与所述第一初始中心点的距离值;
S333:比较所述指定目标物对应的标签因子分别与各所述初始中心点的距离值大小;
S334:将所述指定目标物分配到距离值最小时对应的第二初始中心点所在分组;
S335:根据所述指定目标物分配分组的过程,对应分配所有待分类目标物的分组。
本实施例的标签因子包括多个特征项对应的向量值,通过分别计算各特征项对应中心点的欧式距离值,其中,n表示空间维度,i和j分别表示各特征项对应向量值和中心点的向量值。然后将各特征项到中心点的欧式距离值加和,得到标签因子到中心点的距离值。然后依次计算当前指定待分类人员的标签因子到各分组中心点的距离值,选择距离标签因子距离最小的分组或分类作为指定待分类人员对应的分组。
参照图2,本申请一实施例的基于聚类算法的分类装置,包括:
采集模块1,用于采集待分类目标物的特征指标数据,其中,所述特征指标数据包括定量数据;
加工模块2,用于将所述特征指标数据按照预设方式加工成所述待分类目标物对应的标签因子;
匹配模块3,用于根据所述标签因子通过预设聚类算法对所述待分类目标物进行归类,匹配到所述指定目标物所属的第一定量分析群,其中,所述指定目标物包含于所有所述待分类目标物中,所述第一定量分析群包含于所有定量分析群中,各所述定量分析群与所述预设聚类算法对应的各聚类簇一一对应;
第一获取模块4,用于获取所述指定目标物所属的第一定性分析群,其中,所述第一定性分析群包含于所有定性分析群中,所述定性分析群根据所述待分类目标物的画像特征形成,所述画像特征包括成长型变化特征;
第一判断模块5,用于判断所述第一定性分析群与所述第一定量分析群是否匹配;
归类模块6,用于若匹配,则将所述指定目标物归类与所述第一定性分析群。
本实施例的待分类目标物包括人员、生长中的农作物、动物等包括成长型特征的群体,本实施例以对成长型的销售人员分类为例,上述待分类目标物即为待分类目标物,指定目标物即为指定目标物。上述成长型特征指根据时间发展有提升变化的动态特征,影响对目标物的画像以及定性归类。通过对人员分类中的定性分类和定量分类相匹配,使聚类算法得到的分类得到验证,提高分类的精准度。本实施例的定性分析数据,来自线下深入业务前线访谈绩优销售人员的汇总数据,汇总数据包括不同销售人员的性格特点、兴趣爱好、个人家庭背景、展业特点以及、每个典型绩优人员的成长发展路径,上述画像特征中包括了销售经验值等成长型特征。上述访谈人数不少于100人,通过收集足够数量的访问数据,提炼出几类典型人员的特点,并从业务角度为上述几类典型人员做出画像和描述,给出每类典型人员的几个关键指标。比如通过设计几个展业关键节点,如获客、与客户互动、促成转化等,将每个节点总结出10个左右典型动作,如有的销售人员偏好线上获客、有的偏好线下陌生拜访获客等,与销售主管进行对接确认,根据确认后的动作组合形成每类典型人员的画像,画像特征包括每类典型人员中共有的特征,比如偏好线下陌生拜访获客的典型群体的共性为均有销售经历或销售经验年限比较长。上述销售经历或销售经验年限等销售经验值为成长型特征,通过定性分类中加入了成长型变化特征,使分类系统具有跟随时间发展进行更新优化的功能,进一步提高分类的精准性。模型完成后,完全根据销售人员自身特点进行聚类,不施加人为干预,并且分群可以通过后台部署自动完成,只选取绩优销售人员的先天特点和展业特征进行深度挖掘,并以此为依据进行分群,避免了收入因素对销售人缘分群的影响,为每个销售人员选择最适合他的培养路径进行指导。本实施例的特征指标数据包括销售人员的基本信息,使用APP的点击浏览记录,各种拜访客户的记录,出现地点等数据,需要进行数据清洗后,并且按月对特征指标数据进行整合,如根据APP的登陆记录,加工成APP月均登录次数等标签因子。本实施例通过第一定性分析群与所述第一定量分析群包含人员的主要特征项均相同或50%以上相同,则为匹配。
一实施例中,基于聚类算法的分类装置,包括:
第二判断模块,用于若不匹配,则判断第一特征指标数据是否具有区分度,其中,所述第一特征指标数据包含于所述指定目标物对应的特征指标数据中;
变更模块,用于若第一特征指标数据具有区分度,则根据所述第一定量分析群,将所述指定目标物所属的第一定性分析群变更为第二定性分析群,其中,所述第二定性分析群与所述第一定量分析群相匹配。
本实施例中,当第一定性分析群与所述第一定量分析群包含人员的主要特征差异较大,比如50%以上的特征项均不相同,则不匹配。则判断聚类数据是否合理,如果聚类数据不具有区分度,则不合理,比如,所有人员均具有的特征项本科学历,则此特征项对应的特征指标数据用于聚合算法则不合理。但如果数据具有区分度,则要看定性分析划分的组是否合理,可通过调整前线的定性分析的划分标准,使定性分析和定量分析相匹配,以便更好的通过定性分析验证定量分析,且可指导线下访谈方案的调整。
另一实施例中,基于聚类算法的分类装置,包括:
第二获取模块,用于若第一特征指标数据不具有区分度,则获取预设规则中所述第一特征指标数据的重要性排序;
第三判断模块,用于根据所述重要性排序,判断所述第一特征指标数据对应的指定特征项是否为分类必要项;
更换模块,用于若是,则将所述第一特征指标数据更换为第二特征指标数据,其中,所述第二特征指标数据具有区分度,且同为标识所述指定特征项的数据;
生成模块,用于根据更换第二特征指标数据后的特征指标数据,重新生成所述待分类目标物对应的标签因子,并重新进行聚类计算。
本实施例中,若所选定的特征项对应的特征指标数据不具有区分度,则可根据特征项在预设规则中的重要排序判断取舍,上述预设规则为业务规则,跟业务特点相关,比如不重要可舍弃,以便影响精准的分组。当不具有区分度的特征项是必选项,则需要对特征项再限定,使经过再限定的特征项对应的特征指标数据具有区分度,比如特征项为学历,对应的特征指标数据为本科,在所有人员中不具有区分度,即所有人均为本科学历,可通过限定特征项为211本科或985本科,实现区分,并根据限定特征项对应的特征指标数据,重新生成标签因子,进行聚类分组。
进一步地,第二判断模块,包括:
第一计算单元,用于分别计算各所述特征指标数据对应的方差;
排列单元,用于将各所述方差按照数值大小降序排列成方差列;
第一判断单元,用于判断所述第一特征指标数据对应的方差是否排布在所述方差列的预设排号前;
判定单元,用于若是,则判定所述第一特征指标数据具有区分度。
本实施例中,对于数值型数据,可通过计算各特征项对应的特征指标数据的方差,判断特征指标数据的区分度。比如,排在降序排列成方差列的后面20%的特征项不具有区分度,或者排在降序排列成方差列的前面20%的特征项具有区分度。
进一步地,加工模块2,包括:
第二判断单元,用于判断所述特征指标数据中是否包括需要数据转换的第一类数据,其中,所述第一类数据包括全文字表述的数据;
第一对应单元,用于若是,则将所有所述第一类数据进行数据转换,将所述特征指标数据对应成各指定数组,其中,每个指定数组与每个目标物的样本数据相对应;
第三判断单元,用于判断各所述指定数组中是否包括需要归一化处理的第二类数据;
归一化单元,用于若是,则将所述第二类数据进行归一化处理,得到各所述指定数组分别对应的多维向量;
第一作为单元,用于将各所述多维向量分别作为各所述待分类目标物对应的标签因子。
本实施例通过对特征指标数据中的各种数据进行处理,形成每个销售人员对应的多维向量,以成为标注每个销售人员的标签因子。本实施例的特征指标数据包括先天因子、后天展业行为因子、结果因子。先天性因子,如年龄,学历等;后天性展业行为因子,如出勤率,日均拜访数等;结果因子即绩效因子,如月均收入,月均出单件数等。有些是带有量纲的数值型数据,有些是文字表述类数据,需要对上述数据进行处理形成对应的向量。对于文字表述类数据通过数据转换成对应的数值,比如文字记录月均出单四十件,则通过提取转换为40件,再比如文字记载学历为本科,可通过在学历项是本科时赋值1,不是本科时赋值0,实现二进制赋值转换。然后将带有量纲的数据50岁、28天等,通过归一化实现数据归一,归一化公式为:归一化值=(当前特征值-该特征项的最小值)/(该特征项的最大值-该特征项的最小值),或者归一化值=︱当前特征值-该特征项的最大值︱/(该特征项的最大值-该特征项的最小值)。比如当前待分类人员的特征指标数据表示为:本科学历、年龄30岁、收入5000元、身高180cm,则对应的指定数组表示为{1,30,5000,180},若年龄项最大为60岁,最小为21岁;收入项最大为10000元,最小为1000元;身高项最大为185cm,最小为165cm;则通过归一化值=(当前特征值-该特征项的最小值)/(该特征项的最大值-该特征项的最小值)归一化后,生成了对应的四维向量:{1,0.23,0.44,0.75},上述四维向量则为当前待分类人员的标签因子,上述四维向量的各特征项的排序不作限定,只要所有的到分类人员的特征项排序相同即可。
进一步地,匹配模块3,包括:
获取单元,用于获取预先设定的分组数量;
第二作为单元,用于根据所述预先设定的分组数量随机分配相等数量的初始值,作为各分组分别对应的初始中心点;
分配单元,用于根据所有所述待分类目标物分别对应的标签因子到各所述初始中心点的距离,将所有所述待分类目标物分别分配到各所述初始中心点对应的分组中;
第二计算单元,用于计算第一次分组后各所述分组分别对应的第一中心点;
第二对应单元,用于根据所有所述待分类目标物分别对应的标签因子到各所述第一中心点的距离,将所有所述待分类目标物分别重新分配到各所述第一中心点对应的分组中;
第四判断单元,用于判断是否达到预设的终止迭代聚类分组的条件;
终止单元,用于若是,则终止聚类迭代,并将当前所述指定目标物所属的分组作为所述第一定量分析群。
本实施例中,聚类方法如下:首先,根据业务规则中预先设定的分组数量,选择一些分类或分组来使用,并随机地初始化分类或分组各自的中心点,上述中心点是与分类或分组中的每个数据点的向量具有相同长度的向量。每个标签因子通过计算其和每个组中心之间的距离进行分类,然后将标签因子分类为距离值最接近的分类或分组。通过初始聚类分组后,每个分类或分组包含了分配的人员,根据分类或分组包含的人员的标签因子重新计算各分类或分组对应的第一中心点,然后将原初始分配中的结果清空,重新根据第一中心点进行分组,每个标签因子通过计算其和每个组的第一中心点之间的距离进行分类,然后将标签因子分类为距离值最接近的分类或分组。依次迭代进行,直到所有标签因子均与各自分组或分类的中心点的距离最小,和其他分组或分类的中心点的距离最大,则认为实现理想分组。
进一步地,所述指定目标物对应的标签因子中包括多个特征项,分配单元,包括:
计算子单元,用于计算各所述特征项分别到第一初始中心点的第一距离值,其中,所述第一初始中心点包含于所有所述初始中心点中;
加和子单元,用于将各所述第一距离值加和,得到所述指定目标物对应的标签因子与所述第一初始中心点的距离值;
比较子单元,用于比较所述指定目标物对应的标签因子分别与各所述初始中心点的距离值大小;
第一分配子单元,用于将所述指定目标物分配到距离值最小时对应的第二初始中心点所在分组;
第二分配子单元,用于根据所述指定目标物分配分组的过程,对应分配所有待分类目标物的分组。
本实施例的标签因子包括多个特征项对应的向量值,通过分别计算各特征项对应中心点的欧式距离值,其中,n表示空间维度,i和j分别表示各特征项对应向量值和中心点的向量值。然后将各特征项到中心点的欧式距离值加和,得到标签因子到中心点的距离值。然后依次计算当前指定待分类人员的标签因子到各分组中心点的距离值,选择距离标签因子距离最小的分组或分类作为指定待分类人员对应的分组。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储聚类算法的分类过程需要的所有数据。该计算机设备的网络接口用于与外部的端通过网络连接通信。该计算机程序被处理器执行时以实现基于聚类算法的分类方法。
上述处理器执行上述基于聚类算法的分类方法,采集待分类目标物的特征指标数据,其中,所述特征指标数据包括定量数据;将所述特征指标数据按照预设方式加工成所述待分类目标物对应的标签因子;根据所述标签因子通过预设聚类算法对所述待分类目标物进行归类,匹配指定目标物所属的第一定量分析群,其中,所述指定目标物包含于所有所述待分类目标物中,所述第一定量分析群包含于所有定量分析群中,各所述定量分析群与所述预设聚类算法对应的各聚类簇一一对应;获取所述指定目标物所属的第一定性分析群,其中,所述第一定性分析群包含于所有定性分析群中,所述定性分析群根据所述待分类目标物的画像特征形成,所述画像特征包括成长型变化特征;判断所述第一定性分析群与所述第一定量分析群是否匹配;若匹配,则将所述指定目标物归类与所述第一定性分析群。
上述计算机设备,通过对目标物分类中的定性分类和定量分类相匹配,使聚类算法得到的分类得到验证,提高分类的精准度,而且定性分类中加入了成长型变化特征,使分类系统具有跟随时间发展进行更新优化的功能,进一步提高分类的精准性。
在一个实施例中,上述处理器判断所述第一定性分析群与所述第一定量分析群是否匹配的步骤之后,包括:若不匹配,则判断第一特征指标数据是否具有区分度,其中,所述第一特征指标数据包含于所述指定目标物对应的特征指标数据中;若第一特征指标数据具有区分度,则根据所述第一定量分析群,将所述指定目标物所属的第一定性分析群变更为第二定性分析群,其中,所述第二定性分析群与所述第一定量分析群相匹配。
在一个实施例中,上述处理器判断第一特征指标数据是否具有区分度的步骤之后,包括:若第一特征指标数据不具有区分度,则获取预设业务规则中所述第一特征指标数据的重要性排序;根据所述重要性排序,判断所述第一特征指标数据对应的指定特征项是否为分类必要项;若是,则将所述第一特征指标数据更换为第二特征指标数据,其中,所述第二特征指标数据具有区分度,且同为标识所述指定特征项的数据;根据更换第二特征指标数据后的特征指标数据,重新生成所述待分类目标物对应的标签因子,并重新进行聚类计算。
在一个实施例中,上述处理器判断第一特征指标数据是否具有区分度的步骤,包括:分别计算各所述特征指标数据对应的方差;将各所述方差按照数值大小降序排列成方差列;判断所述第一特征指标数据对应的方差是否排布在所述方差列的预设排号前;若是,则判定所述第一特征指标数据具有区分度。
在一个实施例中,上述处理器将所述特征指标数据按照预设方式加工成所述待分类目标物对应的标签因子的步骤,包括:判断所述特征指标数据中是否包括需要数据转换的第一类数据,其中,所述第一类数据包括全文字表述的数据;若是,则将所有所述第一类数据进行数据转换,将所述特征指标数据对应成各指定数组,其中,每个指定数组与每个目标物的样本数据相对应;判断各所述指定数组中是否包括需要归一化处理的第二类数据;若是,则将所述第二类数据进行归一化处理,得到各所述指定数组分别对应的多维向量;将各所述多维向量分别作为各所述待分类目标物对应的标签因子。
在一个实施例中,上述处理器根据所述标签因子通过预设聚类算法对所述待分类目标物进行归类,匹配指定目标物所属的第一定量分析群的步骤,包括:获取预先设定的分组数量;根据所述预先设定的分组数量随机分配相等数量的初始值,作为各分组分别对应的初始中心点;根据所有所述待分类目标物分别对应的标签因子到各所述初始中心点的距离,将所有所述待分类目标物分别分配到各所述初始中心点对应的分组中;计算第一次分组后各所述分组分别对应的第一中心点;根据所有所述待分类目标物分别对应的标签因子到各所述第一中心点的距离,将所有所述待分类目标物分别重新分配到各所述第一中心点对应的分组中;判断是否达到预设的终止迭代聚类分组的条件;若是,则终止聚类迭代,并将当前所述指定目标物所属的分组作为所述第一定量分析群。
在一个实施例中,所述指定目标物对应的标签因子中包括多个特征项,上述处理器根据所有所述待分类目标物分别对应的标签因子到各所述初始中心点的距离,将所有所述待分类目标物分别分配到各所述初始中心点对应的分组中的步骤,包括:计算各所述特征项分别到第一初始中心点的第一距离值,其中,所述第一初始中心点包含于所有所述初始中心点中;将各所述第一距离值加和,得到所述指定目标物对应的标签因子与所述第一初始中心点的距离值;比较所述指定目标物对应的标签因子分别与各所述初始中心点的距离值大小;将所述指定目标物分配到距离值最小时对应的第二初始中心点所在分组;根据所述指定目标物分配分组的过程,对应分配所有待分类目标物的分组。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于聚类算法的分类方法,采集待分类目标物的特征指标数据,其中,所述特征指标数据包括定量数据;将所述特征指标数据按照预设方式加工成所述待分类目标物对应的标签因子;根据所述标签因子通过预设聚类算法对所述待分类目标物进行归类,匹配指定目标物所属的第一定量分析群,其中,所述指定目标物包含于所有所述待分类目标物中,所述第一定量分析群包含于所有定量分析群中,各所述定量分析群与所述预设聚类算法对应的各聚类簇一一对应;获取所述指定目标物所属的第一定性分析群,其中,所述第一定性分析群包含于所有定性分析群中,所述定性分析群根据所述待分类目标物的画像特征形成,所述画像特征包括成长型变化特征;判断所述第一定性分析群与所述第一定量分析群是否匹配;若匹配,则将所述指定目标物归类与所述第一定性分析群。
上述计算机可读存储介质,通过对目标物分类中的定性分类和定量分类相匹配,使聚类算法得到的分类得到验证,提高分类的精准度,而且定性分类中加入了成长型变化特征,使分类系统具有跟随时间发展进行更新优化的功能,进一步提高分类的精准性。
在一个实施例中,上述处理器判断所述第一定性分析群与所述第一定量分析群是否匹配的步骤之后,包括:若不匹配,则判断第一特征指标数据是否具有区分度,其中,所述第一特征指标数据包含于所述指定目标物对应的特征指标数据中;若第一特征指标数据具有区分度,则根据所述第一定量分析群,将所述指定目标物所属的第一定性分析群变更为第二定性分析群,其中,所述第二定性分析群与所述第一定量分析群相匹配。
在一个实施例中,上述处理器判断第一特征指标数据是否具有区分度的步骤之后,包括:若第一特征指标数据不具有区分度,则获取预设业务规则中所述第一特征指标数据的重要性排序;根据所述重要性排序,判断所述第一特征指标数据对应的指定特征项是否为分类必要项;若是,则将所述第一特征指标数据更换为第二特征指标数据,其中,所述第二特征指标数据具有区分度,且同为标识所述指定特征项的数据;根据更换第二特征指标数据后的特征指标数据,重新生成所述待分类目标物对应的标签因子,并重新进行聚类计算。
在一个实施例中,上述处理器判断第一特征指标数据是否具有区分度的步骤,包括:分别计算各所述特征指标数据对应的方差;将各所述方差按照数值大小降序排列成方差列;判断所述第一特征指标数据对应的方差是否排布在所述方差列的预设排号前;若是,则判定所述第一特征指标数据具有区分度。
在一个实施例中,上述处理器将所述特征指标数据按照预设方式加工成所述待分类目标物对应的标签因子的步骤,包括:判断所述特征指标数据中是否包括需要数据转换的第一类数据,其中,所述第一类数据包括全文字表述的数据;若是,则将所有所述第一类数据进行数据转换,将所述特征指标数据对应成各指定数组,其中,每个指定数组与每个目标物的样本数据相对应;判断各所述指定数组中是否包括需要归一化处理的第二类数据;若是,则将所述第二类数据进行归一化处理,得到各所述指定数组分别对应的多维向量;将各所述多维向量分别作为各所述待分类目标物对应的标签因子。
在一个实施例中,上述处理器根据所述标签因子通过预设聚类算法对所述待分类目标物进行归类,匹配指定目标物所属的第一定量分析群的步骤,包括:获取预先设定的分组数量;根据所述预先设定的分组数量随机分配相等数量的初始值,作为各分组分别对应的初始中心点;根据所有所述待分类目标物分别对应的标签因子到各所述初始中心点的距离,将所有所述待分类目标物分别分配到各所述初始中心点对应的分组中;计算第一次分组后各所述分组分别对应的第一中心点;根据所有所述待分类目标物分别对应的标签因子到各所述第一中心点的距离,将所有所述待分类目标物分别重新分配到各所述第一中心点对应的分组中;判断是否达到预设的终止迭代聚类分组的条件;若是,则终止聚类迭代,并将当前所述指定目标物所属的分组作为所述第一定量分析群。
在一个实施例中,所述指定目标物对应的标签因子中包括多个特征项,上述处理器根据所有所述待分类目标物分别对应的标签因子到各所述初始中心点的距离,将所有所述待分类目标物分别分配到各所述初始中心点对应的分组中的步骤,包括:计算各所述特征项分别到第一初始中心点的第一距离值,其中,所述第一初始中心点包含于所有所述初始中心点中;将各所述第一距离值加和,得到所述指定目标物对应的标签因子与所述第一初始中心点的距离值;比较所述指定目标物对应的标签因子分别与各所述初始中心点的距离值大小;将所述指定目标物分配到距离值最小时对应的第二初始中心点所在分组;根据所述指定目标物分配分组的过程,对应分配所有待分类目标物的分组。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (7)
1.一种基于聚类算法的分类方法,其特征在于,包括:
采集待分类目标物的特征指标数据,其中,所述特征指标数据包括定量数据;
将所述特征指标数据按照预设方式加工成所述待分类目标物对应的标签因子;
根据所述标签因子通过预设聚类算法对所述待分类目标物进行归类,匹配指定目标物所属的第一定量分析群,其中,所述指定目标物包含于所有所述待分类目标物中,所述第一定量分析群包含于所有定量分析群中,各所述定量分析群与所述预设聚类算法对应的各聚类簇一一对应;
获取所述指定目标物所属的第一定性分析群,其中,所述第一定性分析群包含于所有定性分析群中,所述定性分析群根据所述待分类目标物的画像特征形成,所述画像特征包括成长型变化特征;
判断所述第一定性分析群与所述第一定量分析群是否匹配;
若匹配,则将所述指定目标物归类与所述第一定性分析群;
所述将所述特征指标数据按照预设方式加工成所述待分类目标物对应的标签因子的步骤,包括:
判断所述特征指标数据中是否包括需要数据转换的第一类数据,其中,所述第一类数据包括全文字表述的数据;
若是,则将所有所述第一类数据进行数据转换,将所述特征指标数据对应成各指定数组,其中,每个指定数组与每个目标物的样本数据相对应;
判断各所述指定数组中是否包括需要归一化处理的第二类数据;
若是,则将所述第二类数据进行归一化处理,得到各所述指定数组分别对应的多维向量;
将各所述多维向量分别作为各所述待分类目标物对应的标签因子;
所述根据所述标签因子通过预设聚类算法对所述待分类目标物进行归类,匹配指定目标物所属的第一定量分析群的步骤,包括:
获取预先设定的分组数量;
根据所述预先设定的分组数量随机分配相等数量的初始值,作为各分组分别对应的初始中心点;
根据所有所述待分类目标物分别对应的标签因子到各所述初始中心点的距离,将所有所述待分类目标物分别分配到各所述初始中心点对应的分组中;
计算第一次分组后各所述分组分别对应的第一中心点;
根据所有所述待分类目标物分别对应的标签因子到各所述第一中心点的距离,将所有所述待分类目标物分别重新分配到各所述第一中心点对应的分组中;
判断是否达到预设的终止迭代聚类分组的条件;
若是,则终止聚类迭代,并将当前所述指定目标物所属的分组作为所述第一定量分析群;
所述指定目标物对应的标签因子中包括多个特征项,根据所有所述待分类目标物分别对应的标签因子到各所述初始中心点的距离,将所有所述待分类目标物分别分配到各所述初始中心点对应的分组中的步骤,包括:
计算各所述特征项分别到第一初始中心点的第一距离值,其中,所述第一初始中心点包含于所有所述初始中心点中;
将各所述第一距离值加和,得到所述指定目标物对应的标签因子与所述第一初始中心点的距离值;
比较所述指定目标物对应的标签因子分别与各所述初始中心点的距离值大小;
将所述指定目标物分配到距离值最小时对应的第二初始中心点所在分组;
根据所述指定目标物分配分组的过程,对应分配所有待分类目标物的分组。
2.根据权利要求1所述的基于聚类算法的分类方法,其特征在于,所述判断所述第一定性分析群与所述第一定量分析群是否匹配的步骤之后,包括:
若不匹配,则判断第一特征指标数据是否具有区分度,其中,所述第一特征指标数据包含于所述指定目标物对应的特征指标数据中;
若第一特征指标数据具有区分度,则根据所述第一定量分析群,将所述指定目标物所属的第一定性分析群变更为第二定性分析群,其中,所述第二定性分析群与所述第一定量分析群相匹配。
3.根据权利要求2所述的基于聚类算法的分类方法,其特征在于,所述判断第一特征指标数据是否具有区分度的步骤之后,包括:
若第一特征指标数据不具有区分度,则获取预设规则中所述第一特征指标数据的重要性排序;
根据所述重要性排序,判断所述第一特征指标数据对应的指定特征项是否为分类必要项;
若是,则将所述第一特征指标数据更换为第二特征指标数据,其中,所述第二特征指标数据具有区分度,且同为标识所述指定特征项的数据;
根据更换第二特征指标数据后的特征指标数据,重新生成所述待分类目标物对应的标签因子,并重新进行聚类计算。
4.根据权利要求2或3所述的基于聚类算法的分类方法,其特征在于,所述判断第一特征指标数据是否具有区分度的步骤,包括:
分别计算各所述特征指标数据对应的方差;
将各所述方差按照数值大小降序排列成方差列;
判断所述第一特征指标数据对应的方差是否排布在所述方差列的预设排号前;
若是,则判定所述第一特征指标数据具有区分度。
5.一种基于聚类算法的分类装置,其特征在于,包括:
采集模块,用于采集待分类目标物的特征指标数据,其中,所述特征指标数据包括定量数据;
加工模块,用于将所述特征指标数据按照预设方式加工成所述待分类目标物对应的标签因子;
匹配模块,用于根据所述标签因子通过预设聚类算法对所述待分类目标物进行归类,匹配指定目标物所属的第一定量分析群,其中,所述指定目标物包含于所有所述待分类目标物中,所述第一定量分析群包含于所有定量分析群中,各所述定量分析群与所述预设聚类算法对应的各聚类簇一一对应;
第一获取模块,用于获取所述指定目标物所属的第一定性分析群,其中,所述第一定性分析群包含于所有定性分析群中,所述定性分析群根据所述待分类目标物的画像特征形成,所述画像特征包括成长型变化特征;
第一判断模块,用于判断所述第一定性分析群与所述第一定量分析群是否匹配;
归类模块,用于若匹配,则将所述指定目标物归类与所述第一定性分析群;
所述加工模块,包括:
第二判断单元,用于判断所述特征指标数据中是否包括需要数据转换的第一类数据,其中,所述第一类数据包括全文字表述的数据;
第一对应单元,用于若是,则将所有所述第一类数据进行数据转换,将所述特征指标数据对应成各指定数组,其中,每个指定数组与每个目标物的样本数据相对应;
第三判断单元,用于判断各所述指定数组中是否包括需要归一化处理的第二类数据;
归一化单元,用于若是,则将所述第二类数据进行归一化处理,得到各所述指定数组分别对应的多维向量;
第一作为单元,用于将各所述多维向量分别作为各所述待分类目标物对应的标签因子;
所述匹配模块,包括:
获取单元,用于获取预先设定的分组数量;
第二作为单元,用于根据所述预先设定的分组数量随机分配相等数量的初始值,作为各分组分别对应的初始中心点;
分配单元,用于根据所有所述待分类目标物分别对应的标签因子到各所述初始中心点的距离,将所有所述待分类目标物分别分配到各所述初始中心点对应的分组中;
第二计算单元,用于计算第一次分组后各所述分组分别对应的第一中心点;
第二对应单元,用于根据所有所述待分类目标物分别对应的标签因子到各所述第一中心点的距离,将所有所述待分类目标物分别重新分配到各所述第一中心点对应的分组中;
第四判断单元,用于判断是否达到预设的终止迭代聚类分组的条件;
终止单元,用于若是,则终止聚类迭代,并将当前所述指定目标物所属的分组作为所述第一定量分析群;
所述分配单元,包括:
计算子单元,用于计算各所述特征项分别到第一初始中心点的第一距离值,其中,所述第一初始中心点包含于所有所述初始中心点中;
加和子单元,用于将各所述第一距离值加和,得到所述指定目标物对应的标签因子与所述第一初始中心点的距离值;
比较子单元,用于比较所述指定目标物对应的标签因子分别与各所述初始中心点的距离值大小;
第一分配子单元,用于将所述指定目标物分配到距离值最小时对应的第二初始中心点所在分组;
第二分配子单元,用于根据所述指定目标物分配分组的过程,对应分配所有待分类目标物的分组。
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911045314.2A CN111046902B (zh) | 2019-10-30 | 2019-10-30 | 基于聚类算法的分类方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911045314.2A CN111046902B (zh) | 2019-10-30 | 2019-10-30 | 基于聚类算法的分类方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111046902A CN111046902A (zh) | 2020-04-21 |
CN111046902B true CN111046902B (zh) | 2024-02-02 |
Family
ID=70232551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911045314.2A Active CN111046902B (zh) | 2019-10-30 | 2019-10-30 | 基于聚类算法的分类方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111046902B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678422A (zh) * | 2012-09-25 | 2014-03-26 | 北京亿赞普网络技术有限公司 | 网页分类方法和装置、网页分类器的训练方法和装置 |
CN106650763A (zh) * | 2016-07-05 | 2017-05-10 | 国网内蒙古东部电力有限公司电力科学研究院 | 一种电力缴费渠道分析的指标选择、权值优化与渠道规划的计算方法 |
WO2018041168A1 (zh) * | 2016-08-31 | 2018-03-08 | 腾讯科技(深圳)有限公司 | 信息推送方法、存储介质和服务器 |
CN108108451A (zh) * | 2017-12-27 | 2018-06-01 | 合肥美的智能科技有限公司 | 群体的群体用户画像获取方法和装置 |
CN109086787A (zh) * | 2018-06-06 | 2018-12-25 | 平安科技(深圳)有限公司 | 用户画像获取方法、装置、计算机设备以及存储介质 |
CN109872036A (zh) * | 2019-01-10 | 2019-06-11 | 平安科技(深圳)有限公司 | 基于分类算法的任务分配方法、装置及计算机设备 |
-
2019
- 2019-10-30 CN CN201911045314.2A patent/CN111046902B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678422A (zh) * | 2012-09-25 | 2014-03-26 | 北京亿赞普网络技术有限公司 | 网页分类方法和装置、网页分类器的训练方法和装置 |
CN106650763A (zh) * | 2016-07-05 | 2017-05-10 | 国网内蒙古东部电力有限公司电力科学研究院 | 一种电力缴费渠道分析的指标选择、权值优化与渠道规划的计算方法 |
WO2018041168A1 (zh) * | 2016-08-31 | 2018-03-08 | 腾讯科技(深圳)有限公司 | 信息推送方法、存储介质和服务器 |
CN108108451A (zh) * | 2017-12-27 | 2018-06-01 | 合肥美的智能科技有限公司 | 群体的群体用户画像获取方法和装置 |
CN109086787A (zh) * | 2018-06-06 | 2018-12-25 | 平安科技(深圳)有限公司 | 用户画像获取方法、装置、计算机设备以及存储介质 |
CN109872036A (zh) * | 2019-01-10 | 2019-06-11 | 平安科技(深圳)有限公司 | 基于分类算法的任务分配方法、装置及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111046902A (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086787B (zh) | 用户画像获取方法、装置、计算机设备以及存储介质 | |
CN106355449B (zh) | 用户选取方法和装置 | |
CN110503531A (zh) | 时序感知的动态社交场景推荐方法 | |
Kant et al. | LeaderRank based k-means clustering initialization method for collaborative filtering | |
CN107609063A (zh) | 一种多标签分类的手机应用推荐系统及其方法 | |
CN112329843B (zh) | 基于决策树的呼叫数据处理方法、装置、设备及存储介质 | |
CN110880006B (zh) | 用户分类方法、装置、计算机设备和存储介质 | |
US10909465B2 (en) | Method of website optimisation for a website hosted on a server system, and a server system | |
CN110389970A (zh) | 用户意向预测方法、装置、计算机设备及存储介质 | |
CN111429161B (zh) | 特征提取方法、特征提取装置、存储介质及电子设备 | |
CN110674178B (zh) | 构建用户画像标签的方法及其系统 | |
CN109254980A (zh) | 客户分数排序的方法、装置、计算机设备和存储介质 | |
CN110516558A (zh) | 样本数据获取方法、装置、计算机设备及存储介质 | |
CN117057852B (zh) | 一种基于人工智能技术的互联网营销系统及方法 | |
CN115687786A (zh) | 一种个性化推荐方法、系统以及存储介质 | |
WO2023225529A2 (en) | Predictive systems and processes for product attribute research and development | |
CN110968780B (zh) | 页面内容推荐方法、装置、计算机设备和存储介质 | |
CN109583712B (zh) | 一种数据指标分析方法及装置、存储介质 | |
Duarte et al. | Machine Learning and Marketing: A Literature Review. | |
CN118013120A (zh) | 基于聚类标签优化推荐给用户的产品的方法、介质和设备 | |
CN113486225A (zh) | 一种基于大数据的企业画像展现方法及系统 | |
CN111046902B (zh) | 基于聚类算法的分类方法、装置、计算机设备及存储介质 | |
CN111784403A (zh) | 基于网上商城的用户类别分析方法、装置和计算机设备 | |
CN111291795A (zh) | 人群特征分析方法、装置、存储介质和计算机设备 | |
CN115358797A (zh) | 基于聚类分析法的综合能源用户用能行为分析方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |