CN108648046B - 一种基于改进二分k-均值算法的订单分组方法 - Google Patents

一种基于改进二分k-均值算法的订单分组方法 Download PDF

Info

Publication number
CN108648046B
CN108648046B CN201810398061.6A CN201810398061A CN108648046B CN 108648046 B CN108648046 B CN 108648046B CN 201810398061 A CN201810398061 A CN 201810398061A CN 108648046 B CN108648046 B CN 108648046B
Authority
CN
China
Prior art keywords
order
cluster
orders
reference center
ith
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810398061.6A
Other languages
English (en)
Other versions
CN108648046A (zh
Inventor
张艳伟
岑鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201810398061.6A priority Critical patent/CN108648046B/zh
Publication of CN108648046A publication Critical patent/CN108648046A/zh
Application granted granted Critical
Publication of CN108648046B publication Critical patent/CN108648046B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing
    • G06Q30/0635Processing of requisition or of purchase orders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于改进二分k‑均值算法的订单分组方法,采用改进的二分k‑均值算法求解对配送中心订单分批问题,从k值选取、初始中心值的选取、异常点处理三个方面对k‑means聚类算法进行了改善,避免算法陷入局部最优,使得求解出的订单分组方案更加有效合理,从而有效提高订单分拣效率。

Description

一种基于改进二分k-均值算法的订单分组方法
技术领域
本发明涉及一种分组方法,具体是一种基于改进二分k-均值算法的订单分组方法。
背景技术
随着电商的发展,电商每天会接收到大量的订单,而这些订单呈小批量、多品种、多批次的特点。对于这些大规模的订单,电商的物流中心压力日益增大。
订单分组是将收集到的客户订单按照特定的规则进行分组,将同一组的订单安排在同一个工作台进行分拣,以缩短订单拣选时间,提高拣选效率。目前,订单分组策略有:1、种子算法,2、节约算法,3、优先规则算法,4、启发式算法,5、数据挖掘算法。
种子算法的初始种子数据难以找到较优的值,对于大规模的订单难以求出最优分组方案;优选规则算法是将客户订单进行分级,按照订单的优先级进分组,但其没有考虑订单之间的关联性,获得的分组方案往往不能有效缩减分拣效率;而一般的启发式算法并不能适用于大规模的订单集合;对于数据挖算法,现阶段用于订单分组问题的主要有两种算法:关联规则挖掘、k-means聚类算法。这两种算法适用于大规模的订单集合分组问题,但目前基于k-means算法的订单分组方案,并没有合理改进算法的三个限制:1、k值的确定,2、初始中心的确定,3、异常数据点的处理,使得现阶段的方案并没能有效提高系统的分拣效率。
发明内容
本发明的目的在于提供一种基于改进二分k-均值算法的订单分组方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于改进二分k-均值算法的订单分组方法,包括如下步骤:对订单数据集进行处理,获得订单集列表T={t1,t2…ti…tw};其中,ti表示第i个订单,第i个订单所包含的货品向量化表达为ti={aw1,aw2,…awi…awL};ti表示第i个订单,awi表示第w个订单包含第i种货品;
根据订单数量设置阈值TA的值;
在订单构成的簇类中选取参考订单:将该簇类中订单长度最大的订单作为第一个参考中心订单,计算簇类中其他订单与第一个参考中心订单的相似度,并在与第一个参考订单中心相似度最小的订单中,选择订单长度最大的订单作为第二个参考中心订单;
计算每个订单到每个参考中心订单的相似度rij,并将每个订单划分到与多个参考中心订单其中一者相似最大的一组;
对本次分组产生的所有簇类进行检测,查看是否满足预设的第一条件;
将满足第一条件的簇类标记为异常簇类,将异常簇类的参考中心订单标记为异常订单标记,并计算异常簇类中的所有订单与其他簇类参考中心订单的相似度,并将每个订单划分到与其他簇类参考中心订单相似度最大的簇类中;
将剩下的所有簇类按照其SSi的值大小进行降序排序,将前N个簇类进行k-means二次聚类(k=2),使得簇类数量保持不变;SSi为第i个簇类的订单相似度平方差的均值;
更新每个簇类的参考中心订单,并按照前述步骤进行进行分组迭代,直至参考中心订单不再发生改变或迭代次数达到最大迭代数;
判断现阶段最大SSi值是否小于等于TA,若是,则结束迭代,得出迭代分组结果TAST={G1…Gi…Gk},Gi表示第i个订单组;若否,则继续迭代,重复前述步骤,直至SSi值小于等于TA。
其中,第i个簇类的订单相似度平方差的均值为
Figure BDA0001645041580000021
其中,两个订单之间相似度为
Figure BDA0001645041580000031
其中,第一条件的公式表示为:∣(ZLi-AG)∣≥2*STD;
其中,
Figure BDA0001645041580000032
AG为本次迭代中所有簇类的长度的均值;STD为本轮迭代中所有簇类长度的标准差;ZLi为第i个簇类的订单数。
其中,更新每个簇类的参考中心订单的更新公式为:
Figure BDA0001645041580000033
其中,在订单构成的簇类中选取参考订单的步骤之前,将所有订单看作为一个簇类,并对于进行k-means聚类,k=2,使其一分为二。
与现有技术相比,本发明的有益效果是:本发明采用改进的二分k-均值算法求解对配送中心订单分批问题,从k值选取、初始中心值的选取、异常点处理三个方面对k-means聚类算法进行了改善,避免算法陷入局部最优,使得求解出的订单分组方案更加有效合理,从而有效提高订单分拣效率。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明提供的一种基于改进二分k-均值算法的订单分组方法的逻辑示意图。
图2为本发明提供的一种基于改进二分k-均值算法的订单分组方法的流程示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
请参阅图1和图2,本发明实施例提供了一种基于改进二分k-均值算法的订单分组方法,包括如下步骤:
对订单数据集进行处理,获得订单集列表T={t1,t2…ti…tw};其中,ti表示第i个订单,第i个订单所包含的货品向量化表达为ti={aw1,aw2,…awi…awL};ti表示第i个订单,awi表示第w个订单包含第i种货品;
根据订单数量设置阈值TA的值;
在订单构成的簇类中选取参考订单:将该簇类中订单长度最大的订单作为第一个参考中心订单,计算簇类中其他订单与第一个参考中心订单的相似度,并在与第一个参考订单中心相似度最小的订单中,选择订单长度最大的订单作为第二个参考中心订单;
计算每个订单到每个参考中心订单的相似度rij,并将每个订单划分到与多个参考中心订单其中一者相似最大的一组;
对本次分组产生的所有簇类进行检测,查看是否满足预设的第一条件;
将满足第一条件的簇类标记为异常簇类,将异常簇类的参考中心订单标记为异常订单标记,并计算异常簇类中的所有订单与其他簇类参考中心订单的相似度,并将每个订单划分到与其他簇类参考中心订单相似度最大的簇类中;
将剩下的所有簇类按照其SSi的值大小进行降序排序,将前N个簇类进行k-means二次聚类(k=2),使得簇类数量保持不变;SSi为第i个簇类的订单相似度平方差的均值;
更新每个簇类的参考中心订单,并按照前述步骤进行进行分组迭代,直至参考中心订单不再发生改变或迭代次数达到最大迭代数;
判断现阶段最大SSi值是否小于等于TA,若是,则结束迭代,得出迭代分组结果TAST={G1…Gi…Gk},Gi表示第i个订单组;若否,则继续迭代,重复前述步骤,直至SSi值小于等于TA。
其中,第i个簇类的订单相似度平方差的均值为
Figure BDA0001645041580000041
其中,两个订单之间相似度为
Figure BDA0001645041580000051
其中,第一条件的公式表示为:∣(ZLi-AG)∣≥2*STD;
其中,
Figure BDA0001645041580000052
AG为本次迭代中所有簇类的长度的均值;STD为本轮迭代中所有簇类长度的标准差;ZLi为第i个簇类的订单数。
其中,更新每个簇类的参考中心订单的更新公式为:
Figure BDA0001645041580000053
其中,在订单构成的簇类中选取参考订单的步骤之前,将所有订单看作为一个簇类,并对于进行k-means聚类,k=2,使其一分为二。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.一种基于改进二分k-均值算法的订单分组方法,其特征在于,包括如下步骤:
对订单数据集进行处理,获得订单集列表T={t1,t2…ti…tw};其中,ti表示第i个订单,第i个订单所包含的货品向量化表达为ti={aw1,aw2,…awi…awL};ti表示第i个订单,awi表示第w个订单包含第i种货品;
根据订单数量设置阈值TA的值;
在订单构成的簇类中选取参考订单:将该簇类中订单长度最大的订单作为第一个参考中心订单,计算簇类中其他订单与第一个参考中心订单的相似度,并在与第一个参考订单中心相似度最小的订单中,选择订单长度最大的订单作为第二个参考中心订单;
计算每个订单到每个参考中心订单的相似度rij,并将每个订单划分到与多个参考中心订单其中一者相似最大的一组;
对本次分组产生的所有簇类进行检测,查看是否满足预设的第一条件;
将满足第一条件的簇类标记为异常簇类,将异常簇类的参考中心订单标记为异常订单标记,并计算异常簇类中的所有订单与其他簇类参考中心订单的相似度,并将每个订单划分到与其他簇类参考中心订单相似度最大的簇类中;
将剩下的所有簇类按照其SSi的值大小进行降序排序,将前N个簇类进行k-means二次聚类(k=2),使得簇类数量保持不变;SSi为第i个簇类的订单相似度平方差的均值;
更新每个簇类的参考中心订单,并按照前述步骤进行进行分组迭代,直至参考中心订单不再发生改变或迭代次数达到最大迭代数;
判断现阶段最大SSi值是否小于等于TA,若是,则结束迭代,得出迭代分组结果TAST={G1…Gi…Gk},Gi表示第i个订单组;若否,则继续迭代,重复前述步骤,直至SSi值小于等于TA。
2.根据权利要求1所述的基于改进二分k-均值算法的订单分组方法,其特征在于,第i个簇类的订单相似度平方差的均值为
Figure FDA0003105444490000021
3.根据权利要求1所述的基于改进二分k-均值算法的订单分组方法,其特征在于,
两个订单之间相似度为
Figure FDA0003105444490000022
4.根据权利要求1所述的基于改进二分k-均值算法的订单分组方法,其特征在于,
第一条件的公式表示为:∣(ZLi-AG)∣≥2*STD;
其中,
Figure FDA0003105444490000023
AG为本次迭代中所有簇类的长度的均值;STD为本轮迭代中所有簇类长度的标准差;ZLi为第i个簇类的订单数。
5.根据权利要求1所述的基于改进二分k-均值算法的订单分组方法,其特征在于,更新每个簇类的参考中心订单的更新公式为:
Figure FDA0003105444490000024
6.根据权利要求1所述的基于改进二分k-均值算法的订单分组方法,其特征在于,在订单构成的簇类中选取参考订单的步骤之前,将所有订单看作为一个簇类,并对于进行k-means聚类,k=2,使其一分为二。
CN201810398061.6A 2018-04-28 2018-04-28 一种基于改进二分k-均值算法的订单分组方法 Active CN108648046B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810398061.6A CN108648046B (zh) 2018-04-28 2018-04-28 一种基于改进二分k-均值算法的订单分组方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810398061.6A CN108648046B (zh) 2018-04-28 2018-04-28 一种基于改进二分k-均值算法的订单分组方法

Publications (2)

Publication Number Publication Date
CN108648046A CN108648046A (zh) 2018-10-12
CN108648046B true CN108648046B (zh) 2021-08-10

Family

ID=63748488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810398061.6A Active CN108648046B (zh) 2018-04-28 2018-04-28 一种基于改进二分k-均值算法的订单分组方法

Country Status (1)

Country Link
CN (1) CN108648046B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711933B (zh) * 2018-12-18 2021-03-16 山东财经大学 一种基于avs/rs面向b2c电商订单排序方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3260840A (en) * 1961-12-28 1966-07-12 Ibm Variable mode arithmetic circuits with carry select
CN101251859A (zh) * 2008-03-17 2008-08-27 北京科文书业信息技术有限公司 基于购物行为的商品聚类系统及其方法
CN101821761A (zh) * 2005-05-18 2010-09-01 德国证券交易所 自动中介订单执行系统
CN102663681A (zh) * 2012-03-11 2012-09-12 西安电子科技大学 基于排序k-均值算法的灰度图像分割方法
CN103164499A (zh) * 2012-04-12 2013-06-19 哈尔滨理工大学 一种产品规划中的订单聚类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3260840A (en) * 1961-12-28 1966-07-12 Ibm Variable mode arithmetic circuits with carry select
CN101821761A (zh) * 2005-05-18 2010-09-01 德国证券交易所 自动中介订单执行系统
CN101251859A (zh) * 2008-03-17 2008-08-27 北京科文书业信息技术有限公司 基于购物行为的商品聚类系统及其方法
CN102663681A (zh) * 2012-03-11 2012-09-12 西安电子科技大学 基于排序k-均值算法的灰度图像分割方法
CN103164499A (zh) * 2012-04-12 2013-06-19 哈尔滨理工大学 一种产品规划中的订单聚类方法

Also Published As

Publication number Publication date
CN108648046A (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
US10073906B2 (en) Scalable tri-point arbitration and clustering
US10776400B2 (en) Clustering using locality-sensitive hashing with improved cost model
Zhou et al. A clustering-Based KNN improved algorithm CLKNN for text classification
CN109242184B (zh) 一种基于层次聚类的订单拣货优化方法
CN113378954B (zh) 一种基于粒子群改进k均值算法的负荷曲线聚类方法及系统
CN108648046B (zh) 一种基于改进二分k-均值算法的订单分组方法
Hazarika et al. Genetic algorithm approach for machine cell formation with alternative routings
CN108983722B (zh) 一种用于集成电路芯片最终测试的优化调度方法
CN104536387B (zh) 一种液晶电视机的生产装配过程的优化调度方法
JP7440395B2 (ja) 最適解探索装置及び最適解探索プログラム
Qi et al. Improved K-means clustering algorithm and its applications
CN110765216A (zh) 数据挖掘方法、装置、计算机设备及计算机可读存储介质
Bin et al. A genetic clustering method based on variable length string
CN108346287A (zh) 基于影响因素分析的交通流量序列模式匹配方法
CN104408116A (zh) 基于遗传算法从大规模高维数据中检测离群数据的方法
CN115705545A (zh) 用于评估半导体设备生产能力的方法及其装置
CN107392921A (zh) 一种基于切比雪夫距离的半监督多目标聚类图像分割方法
CN113946621A (zh) 一种基于关联规则的制丝车间数据波动关系的挖掘方法
CN103164499A (zh) 一种产品规划中的订单聚类方法
Umam et al. Application of hybrid clustering using parallel k-means algorithm and DIANA algorithm
CN112580606A (zh) 基于聚类分组的大规模人体行为识别方法
CN115795335B (zh) 物流网点异常识别方法、装置及电子设备
CN108614903B (zh) 集成电路仿真数据相关性建模方法及装置
CN111553505A (zh) 一种电力物资入库数量预测方法
CN104462238B (zh) 一种基于数据离散度无关性的数据立方体构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant