CN111126419A - 网点聚类方法及装置 - Google Patents
网点聚类方法及装置 Download PDFInfo
- Publication number
- CN111126419A CN111126419A CN201811277166.2A CN201811277166A CN111126419A CN 111126419 A CN111126419 A CN 111126419A CN 201811277166 A CN201811277166 A CN 201811277166A CN 111126419 A CN111126419 A CN 111126419A
- Authority
- CN
- China
- Prior art keywords
- clustering
- algorithm
- result
- feature set
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 295
- 238000011156 evaluation Methods 0.000 claims abstract description 31
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 238000012216 screening Methods 0.000 claims abstract description 18
- 230000000007 visual effect Effects 0.000 claims description 6
- 238000007621 cluster analysis Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 35
- 238000010586 diagram Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 11
- 238000009826 distribution Methods 0.000 description 7
- 239000000463 material Substances 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 235000018185 Betula X alpestris Nutrition 0.000 description 3
- 235000018212 Betula X uliginosa Nutrition 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004806 packaging method and process Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 235000014676 Phragmites communis Nutrition 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种网点聚类方法及装置,该方法包括:获取多个网点的运单数据;从运单数据中提取至少一个特征集;利用聚类算法集合中聚类算法对每个特征集进行聚类分析,得到聚类结果集合;根据聚类算法评估标准对聚类结果集合进行评分,得到算法评分结果列表;基于算法评分结果列表从聚类算法集合中筛选符合业务目标的聚类算法子集;比较第一聚类结果,根据比较结果得到目标算法和目标特征集。本申请实施例提供的网点聚类方法,通过对聚类算法的聚类结果进行评价及比较,确定目标算法和目标特征集,使得通过得到的目标算法及目标特征集对多个网点聚类时,能够实现网点的科学分类。
Description
技术领域
本申请一般涉及物流技术领域,具体涉及网点聚类方法及装置。
背景技术
随着电子商务及快递物流产业的发展,快递运营网点数量与规模的不断扩大,需要对大量的网点业务进行有效的管理。
目前,对网点进行业务管理时,首先根据地域标准对网点划分,在划分后,对处于同一区域内的网点进行统一标准的管理。例如,在进行物料管控时,在全国范围内,或在某个地区范围内,通过比较该地区范围的物料消耗,采取统一的分配管理。
但是,影响网点业务的因素很多,如工业区或生活区内的网点,由于客户种类和数量导致该网点的收件的类别和数量差别很大。因此,简单粗暴地按照区域对网点划分后,然后,对同一区域内的网点采用统一的标准进行管理,这导致网点的管理效果不理想。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种网点聚类方法及装置,以提高网点分类的科学性,并提高管理效率。
本申请实施例提供一种网点聚类方法,包括:获取多个网点的运单数据;
从该运单数据中提取该多个网点的至少一个第一特征集;
利用聚类算法集合中每一个聚类算法对每个该第一特征集进行聚类分析,得到第一聚类结果集合;
根据聚类算法评估标准对该第一聚类结果集合中每个进行评分,得到算法评分结果列表;
基于该算法评分结果列表从该聚类算法集合中筛选符合业务目标的聚类算法子集;
对该聚类算法子集所对应的第一聚类结果进行比较;
根据比较结果确定目标算法及目标特征集,该目标特征集用于表征该网点的共性特征。
第二方面,本申请实施例提供一种网点聚类装置,包括:
获取模块,用于获取多个网点的运单数据;
提取模块,用于从该运单数据中提取该多个网点的至少一个第一特征集;
聚类模块,用于利用聚类算法集合中每一个聚类算法对每个该第一特征集进行聚类分析,得到第一聚类结果集合;
评分模块,用于根据聚类算法评估标准对该第一聚类结果集合中每个进行评分,得到算法评分结果列表;
筛选模块,用于基于该算法评分结果列表从该聚类算法集合中筛选符合业务目标的聚类算法子集;
比较模块,用于对该聚类算法子集所对应的第一聚类结果进行比较;
确定模块,用于根据比较结果确定目标算法及目标特征集,该目标特征集用于表征该网点的共性特征。
综上,本申请实施例提供的网点聚类方法及装置,从采集到的多个网点的运单数据中提取至少一个特征集,然后,利用多个聚类算法对网点的每个特征集进行聚类分析,并对聚类结果进行评价,进一步对初步筛选的聚类算法子集对应的聚类结果进行比较,从而可以得到聚类效果最好的目标算法及特征集,使得利用该目标算法及目标特征集对多个网点在特定业务目标下的聚类,提高了网点分类的科学性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请的实施例的网点的聚类方法的流程示意图;
图2为本申请的又一实施例的网点的聚类方法的方法流程示意图;
图3为本申请的实施例的网点聚类算法的聚类结果示意图;
图4为本申请的实施例的网点聚类算法的聚类结果示意图;
图5为本申请的实施例的网点聚类算法的聚类结果示意图;
图6为本申请的实施例的网点聚类算法的聚类结果示意图;
图7为本申请的实施例的网点的聚类装置的结构示意图;
图8为本申请的实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
可以理解,实际中,快递速运营业务部、营业点、营业站及合作点等网点中存在大量业务特征相似的网点,即网点具有共性特征,因此,可以根据影响业务特征的因素,对网点进行科学的聚类。例如,可以基于大数据挖掘、机器学习技术的网点聚类方法,自动将某区域内某种业务场景下的类似网点迅速划分成类,并且可以在很短的时间内完成分类结果的更新和迭代,以供后续的业务预测和异常分析等。
还可以理解,本申请实施例提供的网点的聚类方法及装置,可以利用网点的运单数据,在多种业务场景下实现的网点聚类,结果可用于网点的业务管理。如物料预测、业务量预测及物料异常检测等,为供应链库存管理与优化,物料成本管控提供依据。
为了便于理解和说明,在本申请中,以网点的物料消耗成本管理的业务场景为例,来解释说明本申请提供的网点聚类方法。
可以理解,为了实现网点的物料消耗成本管理的业务场景下,对网点进行聚类。需要选择一组能够表征网点物料消耗,即外包装消耗量这一网点共性特征的目标特征集,以及对应的聚类算法,使得利用选择的目标算法及目标特征集对网点进行聚类后,每个类中的网点的外包装消耗量具有相似的趋势和分布。
为了便于理解和说明,下面通过图1至图8详细解释本申请实施例提供的网点聚类方法及装置。
图1为本申请的实施例的网点的聚类方法的流程示意图,如图1所示,该方法可以包括:
S1,获取多个网点的运单数据。
S2,从该运单数据中提取该至少一个网点的第一特征集。
S3,利用聚类算法集合中每一个聚类算法对第一特征集进行聚类分析,得到第一聚类结果集合。
S4,根据聚类算法评估标准对该第一聚类结果集合进行评分,得到算法评分结果列表。
S5,基于该算法评分结果列表从该聚类算法集合中筛选符合业务目标的聚类算法子集。
S6,对该聚类算法子集所对应的第一聚类结果进行比较。
S7,根据比较结果确定目标算法及目标特征集,该目标特征集用于表征该网点的共性特征。
具体的,本申请实施例提供的网点聚类方法,首先可以采集多个网点的运单数据,包括与网点的外包装消耗量正相关的多种运单数据。例如,网点的快件量、托寄物的重量、体积、类型及用户自包装等运单数据。
对于提取到的网点的运单数据,可以根据不同的特征组合进行预处理,得到一个或多个不同的特征集,每个特征集中包括多个特征。
得到所有网点的不同特征组合的多个特征集后,可以利用不同的算法依次对每个特征集进行聚类处理,得到多个聚类结果,即第一聚类结果集合。该第一聚类结果集合中包括每个特征集对应的每个算法的聚类结果。
可以理解,本申请实施例中提供的聚类算法集合中的算法可以为均值漂移算法(Mean-shift),K均值算法(Mini Batch K-means),层次聚类算法(AgglomerativeClustering),谱聚类算法(Spectral Clustering),迭代聚类算法(Birch),基于密度聚类算法(DBSCAN),吸引子传播聚类算法(Affinity Propagation)等。可以理解,上述所列的聚类算法,只是示例性说明,本申请对此不做限制。
在得到第一聚类结果集合后,可以根据聚类算法评估标准对第一聚类结果集中的聚类结果进行评价,得到每个算法对应的评分结果列表。即利用不同算法处理相同的特征集后,对得到的结果进行评价,从而可以根据得到的评分结果对多各种算法进行初步的筛选,选择符合业务目标的聚类算法子集。如符合外包装消耗量业务目标的聚类算法子集。
可以理解,对于同一个特征集,不同的聚类算法具有不同的聚类结果,对于同一个聚类算法,不同的特征集具有不同的聚类结果。因此,上述筛选得到的聚类算法子集,是针对每个特征集对应的所有聚类算法中,根据每个聚类算法的聚类结果的评分标准,筛选出对每个特征集聚类效果较好的算法,即每个特征集对应的较好聚类算法。
在得到聚类算法子集后,可以进一步对聚类算法子集进行筛选,以得到目标算法和目标特征集。即在每个特征集对应的算法子集中,可以比较每个算法子集中所有算法对应的聚类结果,并可以根据比较结果确定出每个特征集对应的目标算法。最后,在确定了每个特征集对应的目标算法后,可以比较每个特征集对应的聚类结果,根据比较结果确定目标特征集。即实现了目标算法及目标特征集的确定。
本申请实施例提供的网点聚类方法,可以通过采集网点的运单数据,获取多不同组合的特征集,并通过不同的算法对每个特征集进行聚类处理,可以通过评价多个算法对应的聚类结果,实现对算法的初步筛选,最后通过比较筛选后的所有聚类结果,确定目标算法及目标特征集,从而可以在实际中利用选取的目标算法及目标特征集对网点进行科学的划分,以提高业务管理效果。
可以理解,本申请实施例提供的网点聚类方法,如果两个网点的托寄物重量分布、体积分布以及对应的类型和件量分布等数据都相似,则这两个网点的外包装消耗量应该有相同的分布。
为了更好的理解本申请实施例提供的网点聚类方法,下面通过图2详细解释本申请实施例提供的网点聚类方法。
图2为本申请的又一实施例的网的聚类方法的方法流程示意图。如图2所示,该方法包括:
S10,获取多个网点的运单数据。
具体的,对于从数据库中提取的数据,由于某些网点的数据有缺失,则可以将缺失的数据补充完整。或者,对于需要转换格式的数据,进行格式转换。即对提取的数据进行清洗。
例如,在实际中的网点进行收件时,部分用户可能自己包装托寄物,则不需要网点提供额外的外包装,但网点没有统计该情形的托寄物的外包装数据;或者,邮寄子母件时,各个子件对应的重量及托寄物类型的信息没有及时登记;或者,网点没有及时统计填写托寄物类型。这些情况都可能导致数据缺失,需要做补充处理。
S20,对运单数据进行预处理,得到至少一个第一特征集。
具体的,在清洗完成后,可以对数据进行预处理,得到不同组合的特征集。
例如,对于包括网点分子母件及分重量件量数据特征组合的数据集,根据该数据集中的特征组合,对数据预处理后,可以得到多个特征。分重量件量数据,如1-2kg有多少件快件,2-4kg有多少件快件,这里的1-2kg及2-4kg就是两个特征。
在另外的特征组合中,还可以分托寄物类型件量数据,如包裹类有多少件,文件类有多少件,这里的包裹就是一个特征,文件就是一个特征。
在另外的特征组合中,还可以有网点单元区域类及网点规模等特征。
通过上述操作,可以得到一个或多个特征组合对应的不同的特征集,每个特征集中包括多个特征。
例如,本申请实施例中,多个第一特征集中的特征组合可以为以下几种:
包括网点分子母件,分重量件量数据。特征数可以为316个;
包括网点分子母件,分重量,分托寄物类型件量数据,特征数可以为916个;
包括网点分子母件,分重量,分托寄物类型件量数据,方差组合特征,特征数可以为1038个。
包括网点分子母件,分重量,分托寄物类型件量数据,网点单元区域类,网点大客户一级分类,网点规模特征,特征数可以为1680个。
可以理解,上述所列的特征集中的特征组合及每个特征集中的特征数,只是示例性说明,本申请对此不做限制。
在本申请实施例中,假如选择的特征就是上述每个特征集中的特征数。则可以执行S30。
S30,利用聚类算法集合中每一个聚类算法对每个第一特征集进行聚类分析,得到第一聚类结果集合。
具体的,可以利用聚类算法集中每个聚类算法对每个特征集中的特征数据进行聚类分析,从而可以得到多个聚类结果。
可以利用上述实施例中的多种算法,对S20中得到的每个特征集进行聚类分析。例如,对上述的五个特征集依次进行聚类分析,可以得到总共35种聚类结果,即第一聚类结果集合。
S40,改变聚类算法集合中每个算法的参数,利用改变参数后的每个聚类算法对每个第一特征集进行聚类分析,得到第二聚类结果集合。
具体的,在得到第一聚类结果集合后,可以对每个聚类算法进行调参,使得每个算法的模型达到最好效果。例如,调整如K-MEANS算法的K值,然后利用调参后的聚类算法再对每个特征集进行聚类分析,得到相应的第二聚类集合。如可以重新得到35个聚类结果。本申请实施例中通过改变聚类算法的参数,提高了算法的聚类效果
可以理解,在得到新的聚类结果集合后,可以对第二聚类结果集合进行评价,以确定目标算法及目标特征集,即执行S50。
还可以理解,每个算法的参数,可以为预设的多套。对于聚类算法的参数调整,可以根据实际情况确定。例如,在某算法的一套参数下聚类后,可以直接将聚类结果进行可视化显示,判断该聚类结果是否符合业务目标。例如,具有相同外包装消耗量的网点是否被归为一类。通过判断可以确定是否需要对参数作进一步的改变,即是否需要将算法的参数改变为下一套。在实际中,可以根据第一聚类结果,仅仅调整其中某些聚类算法的参数,或者,可以进行多次的参数调整。又或者,可以根据第一聚类结果集合,确定不执行该步骤,直接根据聚类结果进行特征的调整,即在S30后,执行S50。
S50,根据聚类算法评估标准对聚类结果集合进行评价,得到第一算法评分结果列表。
具体的,在S30中得到第一聚类结果集合后,可以先进行算法参数的调整,并在调参后得到第二聚类结果集合,然后可以对该第二聚类结果集合进行评估,得到多个聚类算法的第一算法评分结果列表。
或者,在S30中得到第一聚类结果集合后,可以直接对该第一聚类结果集合进行评价。如对上述得到的35个聚类结果进行评价,得到多个聚类算法的第一算法评分结果列表。
可选的,该算法评估标准可以包括轮廓系数(Silhouette Coefficient)评估标准和未知真实index的模型(Calinski-Harabaz Index)评估标准。
例如,可以采用轮廓系数评估标准衡量样本点与其他样本点之间的平均距离,即计算距离某个样本点最近的另一类样本点之间平均距离的关系,分数越高,聚类效果越好。采用未知真实index的模型衡量的是同类样本点分散矩阵的迹与不同类之间分散矩阵的迹的关系,分数越高,聚类效果越好。
可以理解,在对第一聚类结果集合或第二聚类结果集合进行评价后,可以直接执行S70,筛选聚类算法子集,或者,可以执行S60,对每个第一特征集中的特征进行调整,又或者,还可以执行S40,继续对聚类算法的参数进行调整。
S60,根据算法评分结果列表调整每个第一特征集中的特征,得到至少一个第二特征集。
具体的,当需要在每个第一特征集中增加特征时,可以返回S10及S20,对数据库中提取的网点的运单数据进行清洗。并对清洗后的数据预处理,将得到的特征加入到得到每个特征集中。
例如,对于多个第一特征集中的某个特征集,可以增加特征,如对于重量特征来说,可以继续增加一个0~1kg的特征。
当需要减少特征时,可以直接从当前的某个第一特征集中,剔除某些特征,例如,剔除每个第一特征集中的0~1kg的特征。
通过上述特征的增加或删减,可以得到多个第二数据特征集。此时,可以执行S61。
S61,利用聚类算法集合中每一个聚类算法对每个第二特征集进行聚类分析,得到第三聚类结果集合。
具体的,在对多个第一特征集中的特征增减,得到对应的第二特征集后,可以利用聚类算法集中的每个算法重新对每个第二特征集进行聚类分析,得到第三聚类结果集合。可以理解,本实施例中通过调整特征集中的特征,可以提高算法的聚类效果。
S62,根据聚类算法评估标准对第三聚类结果集合进行评价,得到第三算法评分结果列表。
同样的,可以采用S50中的方法对多个第三聚类结果集合进行评价,得到第三算法评分结果列表。
可以理解,在对该第三聚类结果集合进行评价后,可以返回S60,继续增减特征集中的特征,或者,还可以返回S40,对聚类算法进行调参,或者可以根据评分结果筛选聚类算法,即执行S70。
S70,根据算法评分结果列表确定符合业务目标的聚类算法子集。
具体的,可以对调参后得到的第二聚类结果集合进行评价,得到第二算法评分结果列表。
或者,在对特征集合中的特征进行增减后,可以对得到的第三聚类结果集合进行评价,得到第三算法评分结果列表。
进而可以根据上述得到的评分结果,对多个聚类算法进行初步的筛选。
例如,对于某个特征集对应的上述七种算法得到的七个聚类结果,首先可以选择轮廓系数评估标准分数高的算法,如选择分数排在前三的聚类算法。对于轮廓系数评估标准分数相同的算法,则再采用未知真实index的模型进行评价,选择分数高的。如排在第三位的有两个聚类算法,则可以根据未知真实index模型选择其中一个聚类算法,最后可以得到三个聚类算法,放入聚类算法子集中。对于另外的特征集,同样可以得到评分靠前的聚类算法。
最后,可以筛选出每个特征集对应的评分排前的聚类算法。可以理解,每个特征集对应的聚类算法子集可能相同,也可能不同。
可以理解,在进行聚类算法评价时,可以结合业务目标及实际效果。
例如,在本实施例中,可以直接输出可视化的聚类结果,然后结合实际网点的外包装消耗量,直观的确定每个算法的聚类效果。
S81,改变聚类算法子集中每个算法的参数。
S82,利用改变参数后的每个聚类算法对每个特征集进行聚类分析,得到聚类结果集合,即第四聚类结果集合。
S90,对聚类结果集合进行比较,得到比较结果,然后根据比较结果确定目标算法及目标特征集。
具体的,在通过算法评分结果列表得到聚类算法子集后,可以进一步确定是否对聚类算法子集中的算法的参数进行微调。如果需要,则对每个聚类算法的参数进行微调,然后利用微调参数后的每个聚类算法对每个未增减特征的第一特征集或增减处理后特征的第二特征集进行聚类分析,得到第四聚类结果集合。然后可以执行S90,即对聚类结果集合进行比较,得到比较结果,然后根据比较结果确定目标算法及目标特征集,该目标特征集用于表征该网点的共性特征。
可以理解,在对每个算法的参数进行微调时,可以将调整后的聚类结果进行可视化输出,或者可以采用其他方法确定聚类结果是否符合业务目标,从而可以确定是否需要对参数做进一步调整。
可以理解,还可以不用对聚类算法子集中的算法参数进行微调,直接执行S90,即对上述得到第二聚类结果集合或第三聚类结果集合进行比较。
在S90中,对聚类结果集合进行比较,并通过比较结果确定目标算法及目标特征集时,可以通过以下方法结合,来确定目标算法及目标特征集,或者可以单独使用某种方法确定目标算法及目标特征集。
可选的,可以将每个聚类算法对应的聚类结果进行可视化输出,即直接显示多个网点的聚类结果图表,然后可以根据显示结果,可以判断每个类中的网点的外包装消耗量是否具有相同的趋势。以确定目标算法和目标特征集。
可选的,在另外一种比较方法中,可以根据person相关系数度量该第一特征集合或业务特征的相关程度,根据该相关程度确定所述目标算法或目标特征集。
具体的,首先可以利用皮尔森相关系数,度量所有网点的业务特征的相关程度,即外包装消耗量特征的相关程度,并计算阈值在0.95以上的网点,将这些网点放在一个簇内,再将相连的簇进行合并,从而可以得到一个以外包装消耗量为特征划分的网点分类,即第一分类结果。
然后可以计算以外包装消耗量为特征划分的聚类结果与每个聚类算法对应的聚类结果的调整兰德系数(Ajusted Random Index,ARI),最后可以比较每个算法的ARI分数,选择最高的ARI分数对应的聚类算法为目标算法。
可以理解,在上述步骤中,通过评分结果确定的聚类算法子集,即每个特征集对应的评分排前的聚类算法。则在该步骤中,可以根据ARI分数,从评分排前的聚类算法中选择一个聚类算法,作为该特征集对应的目标算法。可以理解,每个特征集可以对应有一个目标算法,则多个特征集的目标算法构成目标算法集。
例如,对最后一个特征集来说,在根据评分结果确定聚类算法子集中包括Agglomerative Ward与Birch两个聚类算法。进而可以根据ARI分数确定Birch算法为目标算法。对于其他的特征集来说,可能目标算法为Agglomerative Ward,或其他的聚类算法。
进一步,可以利用皮尔森相关系数,度量每个特征集中所有特征的相关程度,计算阈值在0.95以上的网点,并将这些网点放在一个簇内,再将相连的簇进行合并,从而可以得到相应的以特征集合划分的网点分类,即第二分类结果集合。
可以计算每个特征集合划分网点分类与该特征集合对应的通过目标算法得出的聚类结果的ARI,然后比较每个特征集合的ARI分数,最后选择分数最高的特征集合。
例如,对于上述的五个特征集对应的聚类结果,可以计算得到每个聚类结果与特征集对应的目标算法得到的聚类结果的ARI分数,然后可以比较得到的5个ARI分数,确定ARI分数最高的特征集及其目标算法,即为最后的目标特征集。
可选的,还可以根据ARI分数,验证所选的确定最后的目标特征集及目标算法。
例如,在本申请提供的上述聚类算法和特征集中,最后确定Agglomerative Ward为目标算法,包括1680个特征的特征集为目标特征集。
通过上述确定的目标算法和目标特征集,将中国范围内的共8689个网点聚成170个类。图3至图6为聚类后,其中四个类的可视化结果示意图。图中左侧为某个编号的类中的子母件量的分布,右侧为外包装消耗的分布,由图可知,每个类中网点的子母件量及外包装消耗量具有相同的分布。
图7为本申请的实施例的网点的聚类装置的结构示意图。如图7所示,该装置700可以包括:
获取模块710,用于获取多个网点的运单数据。
提取模块720,用于从该运单数据中提取该至少一个网点的多个第一特征集;
聚类模块730,用于利用聚类算法集合中每一个聚类算法对每个该第一特征集进行聚类分析,得到第一聚类结果集合。
评分模块740,用于根据聚类算法评估标准对该第一聚类结果集合中每个进行评分,得到算法评分结果列表。
筛选模块750,用于基于该算法评分结果列表从该聚类算法集合中筛选符合业务目标的聚类算法子集。
比较模块760,用于对该聚类算法子集所对应的第一聚类结果进行比较。
确定模块770,用于根据比较结果确定目标算法及目标特征集,该目标特征集用于表征该网点的共性特征。
优选的,本申请实施例提供的网点聚类装置,该筛选模块具体用于:
改变该聚类算法集合中每一个聚类算法的参数。
利用改变参数后的每一个聚类算法对每个该第一特征集进行聚类分析,得到第二聚类结果集合。
根据该聚类算法评估标准对该第二聚类结果集合中每个进行评价,得到第二算法评分结果列表。
根据该第二算法评分结果列表确定符合业务目标的聚类算法子集。
优选的,本申请实施例提供的网点聚类装置,该筛选模块具体用于:
根据该第一算法评分结果列表增加或减少每个该第一特征集中的特征,得到至少一个第二特征集。
利用聚类算法集合中的每一个聚类算法对每个该第二特征集进行聚类分析,得到第三聚类结果集合。
根据该聚类算法评估标准对该第三聚类结果集合进行评价,得到第三算法评分结果列表。
根据该第三算法评分结果列表确定符合业务目标的聚类算法子集。
可选的,本申请实施例提供的网点聚类装置,该评分模块具体用于根据轮廓系数评估标准和未知真实index的模型评估标准对该第一聚类结果集合进行评分,得到算法评分结果。
可选的,本申请实施例提供的网点聚类装置,还包括微调模块780,用于:
用于改变该聚类算法子集中每个算法的参数;
利用改变参数后的每一个聚类算法对每个该第一特征集进行聚类分析,得到第四聚类结果集合。
可选的,本申请实施例提供的网点聚类装置,该确定模块具体用于:
根据该第一聚类结果集合或第四聚类结果集合生成多个网点分类的可视化结果,对所述可视化结果进行比较来确定目标算法及目标特征集;
或者
根据person相关系数度量该第一特征集或业务特征的相关程度,对所述相关程度进行比较来确定该目标算法或目标特征集。
可选的,本申请实施例提供的网点聚类装置,该确定模块具体用于:
利用根据person相关系数度量多个网点的业务特征,并将多个网点按照该业务特征分类,得到第一分类结果。
计算该第一分类结果与该第一聚类结果集合中每个第一聚类结果之间的第一调整兰德系数。
比较每个第一聚类结果对应的该第一调整兰德系数的分数来确定目标算法集。
利用person相关系数度量多个网点的每个该第一特征集,并将多个网点按照第一特征集分类,得到第二分类结果。
计算该第二分类结果集合中每个与该第一聚类结果集合中与该目标算法集中相对应的每个之间的第二调整兰德系数。
比较每个第一聚类结果对应的该第二调整兰德系数的分数来确定目标算法和目标特征集。
可以理解,本申请实施例还提供一种服务器,用于执行上述网点聚类方法。
下面参考图8,其示出了适于用来实现本申请实施例的服务器的计算机系统800的结构示意图。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口808也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口808。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,上文参考图1-2描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,该计算机程序包含用于执行图1-2的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、提取模块、聚类模块、评分模块、筛选模块、比较模块及确定模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,确定模块还可以被描述为“用于根据比较模块得到的比较结果确定目标算法及目标特征集的模块”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中前述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,前述程序被一个或者一个以上的处理器用来执行描述于本申请的网点聚类方法。
综上所述,本申请实施例提供的网点聚类方法及装置,通过采集多个网点的运单数据,并从该运单数据中提取多个特征集,进而利用多个聚类算法对网点的特征集进行聚类,并对聚类结果进行评价,进行聚类算法的初步筛选,最后通过对聚类结果的比较,确定目标算法和目标特征集,从而可以利用该目标算法及目标特征集对多个网点在特定业务目标下的聚类,提高了网点分类的科学性。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (12)
1.一种网点聚类方法,其特征在于,包括:
获取多个网点的运单数据;
从所述运单数据中提取所述多个网点的至少一个第一特征集;
利用聚类算法集合中每一个聚类算法对每个所述第一特征集进行聚类分析,得到第一聚类结果集合;
根据聚类算法评估标准对所述第一聚类结果集合中每个进行评分,得到第一算法评分结果列表;
基于所述第一算法评分结果列表从所述聚类算法集合中筛选符合业务目标的聚类算法子集;
对所述聚类算法子集所对应的第一聚类结果进行比较;
根据比较结果确定目标算法及目标特征集,所述目标特征集用于表征所述网点的共性特征。
2.根据权利要求1所述的网点聚类方法,其特征在于,所述基于所述第一算法评分结果列表从所述聚类算法集合中筛选符合业务目标的聚类算法子集包括:
改变所述聚类算法集合中每一个聚类算法的参数;
利用改变参数后的每一个聚类算法对每个所述第一特征集进行聚类分析,得到第二聚类结果集合,
根据所述聚类算法评估标准对所述第二聚类结果集合中每个进行评价,得到第二算法评分结果列表,
根据所述第二算法评分结果列表确定所述聚类算法子集;
或者,
根据所述第一算法评分结果列表调整每个所述第一特征集中的特征,得到至少一个第二特征集,
利用所述聚类算法集合中每一个聚类算法对每个所述第二特征集进行聚类分析,得到第三聚类结果集合,
根据所述聚类算法评估标准对所述第三聚类结果集合进行评价,得到第三算法评分结果列表,
根据所述第三算法评分结果列表确定所述聚类算法子集。
3.根据权利要求1或2所述的网点聚类方法,其特征在于,所述聚类算法评估标准包括轮廓系数评估标准和未知真实index的模型评估标准。
4.根据权利要求1所述的网点聚类方法,其特征在于,在基于所述第一算法评分结果列表从所述聚类算法集合中筛选符合业务目标的聚类算法子集之后,对所述聚类算法子集所对应的第一聚类结果进行比较之前,还包括:
改变所述聚类算法子集中每个算法的参数;
利用改变参数后的所述聚类算法子集中每一个聚类算法对每个所述第一特征集进行聚类分析,得到第四聚类结果集合。
5.根据权利要求1所述的网点聚类方法,其特征在于,所述对所述聚类算法子集所对应的第一聚类结果进行比较包括:
根据所述第一聚类结果集合生成可视化结果,对所述可视化结果进行比较;
或者
根据person相关系数度量所述第一特征集及业务特征的相关程度,对所述相关程度进行比较。
6.根据权利要求5所述的网点聚类方法,其特征在于,所述对所述相关程度进行比较包括:
利用person相关系数度量所述多个网点的所述业务特征,并将所述多个网点按照所述业务特征分类,得到第一分类结果;
计算所述第一分类结果与所述第一聚类结果集合中每个第一聚类结果之间的第一调整兰德系数;
比较所述第一调整兰德系数的分数;
利用person相关系数度量每个所述第一特征集,并将所述多个网点按照所述第一特征集分类,得到第二分类结果集合;
计算所述第二分类结果集合中每个与所述第一聚类结果集合中与所述目标算法集中相对应的每个之间的第二调整兰德系数;
比较所述第二调整兰德系数的分数。
7.一种网点聚类装置,其特征在于,包括:
获取模块,用于获取多个网点的运单数据;
提取模块,用于从所述运单数据中提取所述多个网点的至少一个第一特征集;
聚类模块,用于利用聚类算法集合中每一个聚类算法对每个所述第一特征集进行聚类分析,得到第一聚类结果集合;
评分模块,用于根据聚类算法评估标准对所述第一聚类结果集合中每个进行评分,得到算法评分结果列表;
筛选模块,用于基于所述算法评分结果列表从所述聚类算法集合中筛选符合业务目标的聚类算法子集;
比较模块,用于对所述聚类算法子集所对应的第一聚类结果进行比较;
确定模块,用于根据比较结果确定目标算法及目标特征集,,所述目标特征集用于表征所述网点的共性特征。
8.根据权利要求7所述的网点聚类装置,其特征在于,所述筛选模块具体用于:
改变所述聚类算法集合中每一个聚类算法的参数,
利用改变参数后的每一个聚类算法对每个所述第一特征集进行聚类分析,得到第二聚类结果集合,
根据所述聚类算法评估标准对所述第二聚类结果集合中每个进行评价,得到第二算法评分结果列表,
根据所述第二算法评分结果列表确定所述聚类算法子集;
或者,
根据所述第一算法评分结果列表调整每个所述第一特征集中的特征,得到至少一个第二特征集,
利用所述聚类算法集合中的每一个聚类算法对每个所述第二特征集进行聚类分析,得到第三聚类结果集合,
根据所述聚类算法评估标准对所述第三聚类结果集合进行评价,得到第三算法评分结果列表,
根据所述第三算法评分结果列表确定所述聚类算法子集。
9.根据权利要求7或8所述的网点聚类装置,其特征在于,所述评分模块具体用于根据轮廓系数评估标准和未知真实index的模型评估标准对所述第一聚类结果集合进行评分,得到算法评分结果。
10.根据权利要求7所述的网点聚类装置,其特征在于,还包括微调模块,用于改变所述聚类算法子集中每个算法的参数;
利用改变参数后的所述聚类算法子集中每一个聚类算法对每个所述第一特征集进行聚类分析,得到第四聚类结果集合。
11.根据权利要求7所述的网点聚类装置,其特征在于,所述比较模块具体用于:
根据所述第一聚类结果集合生成多个网点分类的可视化结果,对所述可视化结果进行比较;
或者,
根据person相关系数度量所述第一特征集或业务特征的相关程度,对所述相关程度进行比较。
12.根据权利要求11所述的网点聚类装置,其特征在于,所述比较模块具体用于:
利用根据person相关系数度量所述多个网点的所述业务特征,并将所述多个网点按照所述业务特征分类,得到第一分类结果;
计算所述第一分类结果与所述第一聚类结果集合中每个第一聚类结果之间的第一调整兰德系数;
比较所述第一调整兰德系数的分数;
利用person相关系数度量每个所述第一特征集,并将所述多个网点按照所述第一特征集分类,得到第二分类结果集合;
计算所述第二分类结果集合中每个与所述第一聚类结果集合中与所述目标算法集中相对应的每个之间的第二调整兰德系数;
比较所述第二调整兰德系数的分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811277166.2A CN111126419B (zh) | 2018-10-30 | 2018-10-30 | 网点聚类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811277166.2A CN111126419B (zh) | 2018-10-30 | 2018-10-30 | 网点聚类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126419A true CN111126419A (zh) | 2020-05-08 |
CN111126419B CN111126419B (zh) | 2023-12-01 |
Family
ID=70484447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811277166.2A Active CN111126419B (zh) | 2018-10-30 | 2018-10-30 | 网点聚类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126419B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101574A (zh) * | 2020-11-20 | 2020-12-18 | 成都数联铭品科技有限公司 | 一种机器学习有监督模型解释方法、系统及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002095533A2 (en) * | 2001-05-18 | 2002-11-28 | Biowulf Technologies, Llc | Model selection for cluster data analysis |
US20130073490A1 (en) * | 2011-09-16 | 2013-03-21 | International Business Machines Corporation | Choosing pattern recognition algorithms and data features |
US20140143012A1 (en) * | 2012-11-21 | 2014-05-22 | Insightera Ltd. | Method and system for predictive marketing campigns based on users online behavior and profile |
CN104767692A (zh) * | 2015-04-15 | 2015-07-08 | 中国电力科学研究院 | 一种网络流量分类方法 |
US9152703B1 (en) * | 2013-02-28 | 2015-10-06 | Symantec Corporation | Systems and methods for clustering data samples |
CN105844303A (zh) * | 2016-04-08 | 2016-08-10 | 云南大学 | 一种基于局部和全局信息的采样式聚类集成方法 |
CN107958268A (zh) * | 2017-11-22 | 2018-04-24 | 用友金融信息技术股份有限公司 | 一种数据模型的训练方法及装置 |
CN108573274A (zh) * | 2018-03-06 | 2018-09-25 | 华南理工大学 | 一种基于数据稳定性的选择性聚类集成方法 |
-
2018
- 2018-10-30 CN CN201811277166.2A patent/CN111126419B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002095533A2 (en) * | 2001-05-18 | 2002-11-28 | Biowulf Technologies, Llc | Model selection for cluster data analysis |
US20130073490A1 (en) * | 2011-09-16 | 2013-03-21 | International Business Machines Corporation | Choosing pattern recognition algorithms and data features |
US20140143012A1 (en) * | 2012-11-21 | 2014-05-22 | Insightera Ltd. | Method and system for predictive marketing campigns based on users online behavior and profile |
US9152703B1 (en) * | 2013-02-28 | 2015-10-06 | Symantec Corporation | Systems and methods for clustering data samples |
CN104767692A (zh) * | 2015-04-15 | 2015-07-08 | 中国电力科学研究院 | 一种网络流量分类方法 |
CN105844303A (zh) * | 2016-04-08 | 2016-08-10 | 云南大学 | 一种基于局部和全局信息的采样式聚类集成方法 |
CN107958268A (zh) * | 2017-11-22 | 2018-04-24 | 用友金融信息技术股份有限公司 | 一种数据模型的训练方法及装置 |
CN108573274A (zh) * | 2018-03-06 | 2018-09-25 | 华南理工大学 | 一种基于数据稳定性的选择性聚类集成方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101574A (zh) * | 2020-11-20 | 2020-12-18 | 成都数联铭品科技有限公司 | 一种机器学习有监督模型解释方法、系统及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111126419B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105786860B (zh) | 一种数据建模中的数据处理方法及装置 | |
CN107169768B (zh) | 异常交易数据的获取方法和装置 | |
CN112258093A (zh) | 风险等级的数据处理方法及装置、存储介质、电子设备 | |
CN106651057A (zh) | 一种基于安装包序列表的移动端用户年龄预测方法 | |
CN110689368B (zh) | 一种移动应用内广告点击率预测系统设计方法 | |
CN108170769A (zh) | 一种基于决策树算法的装配制造质量数据处理方法 | |
CN108470022A (zh) | 一种基于运维管理的智能工单质检方法 | |
CN109472075B (zh) | 一种基站性能分析方法及系统 | |
CN112241494A (zh) | 基于用户行为数据的关键信息推送方法及装置 | |
CN112800115B (zh) | 数据处理方法及数据处理装置 | |
JP5391637B2 (ja) | データ類似度計算システム、データ類似度計算方法およびデータ類似度計算プログラム | |
CN114638498A (zh) | Esg评价方法、系统、电子设备及存储设备 | |
CN111126419B (zh) | 网点聚类方法及装置 | |
US7139770B2 (en) | Spatial data analysis apparatus and spatial data analysis method | |
CN112217908B (zh) | 基于迁移学习的信息推送方法、装置及计算机设备 | |
CN111461630B (zh) | 派送快递包裹的监控方法、装置、设备及存储介质 | |
CN113591947A (zh) | 基于用电行为的电力数据聚类方法、装置和存储介质 | |
CN110807159B (zh) | 数据标记方法、装置、存储介质及电子设备 | |
CN110196797B (zh) | 适于信用评分卡系统的自动优化方法和系统 | |
CN104732246B (zh) | 一种半监督协同训练高光谱图像分类方法 | |
CN115952150A (zh) | 一种多源异构的数据融合方法及装置 | |
CN113298442A (zh) | 客户数据的聚类分析方法、装置、设备及存储介质 | |
CN112927092A (zh) | 理赔趋势预测方法、装置、设备及存储介质 | |
CN112308419A (zh) | 数据处理方法、装置、设备及计算机存储介质 | |
CN113448955B (zh) | 数据集质量评估方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |