CN108648046B - 一种基于改进二分k-均值算法的订单分组方法 - Google Patents
一种基于改进二分k-均值算法的订单分组方法 Download PDFInfo
- Publication number
- CN108648046B CN108648046B CN201810398061.6A CN201810398061A CN108648046B CN 108648046 B CN108648046 B CN 108648046B CN 201810398061 A CN201810398061 A CN 201810398061A CN 108648046 B CN108648046 B CN 108648046B
- Authority
- CN
- China
- Prior art keywords
- order
- cluster
- orders
- reference center
- ith
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 230000002159 abnormal effect Effects 0.000 claims abstract description 15
- 238000003064 k means clustering Methods 0.000 claims abstract description 6
- 238000005457 optimization Methods 0.000 abstract description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于改进二分k‑均值算法的订单分组方法,采用改进的二分k‑均值算法求解对配送中心订单分批问题,从k值选取、初始中心值的选取、异常点处理三个方面对k‑means聚类算法进行了改善,避免算法陷入局部最优,使得求解出的订单分组方案更加有效合理,从而有效提高订单分拣效率。
Description
技术领域
本发明涉及一种分组方法,具体是一种基于改进二分k-均值算法的订单分组方法。
背景技术
随着电商的发展,电商每天会接收到大量的订单,而这些订单呈小批量、多品种、多批次的特点。对于这些大规模的订单,电商的物流中心压力日益增大。
订单分组是将收集到的客户订单按照特定的规则进行分组,将同一组的订单安排在同一个工作台进行分拣,以缩短订单拣选时间,提高拣选效率。目前,订单分组策略有:1、种子算法,2、节约算法,3、优先规则算法,4、启发式算法,5、数据挖掘算法。
种子算法的初始种子数据难以找到较优的值,对于大规模的订单难以求出最优分组方案;优选规则算法是将客户订单进行分级,按照订单的优先级进分组,但其没有考虑订单之间的关联性,获得的分组方案往往不能有效缩减分拣效率;而一般的启发式算法并不能适用于大规模的订单集合;对于数据挖算法,现阶段用于订单分组问题的主要有两种算法:关联规则挖掘、k-means聚类算法。这两种算法适用于大规模的订单集合分组问题,但目前基于k-means算法的订单分组方案,并没有合理改进算法的三个限制:1、k值的确定,2、初始中心的确定,3、异常数据点的处理,使得现阶段的方案并没能有效提高系统的分拣效率。
发明内容
本发明的目的在于提供一种基于改进二分k-均值算法的订单分组方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于改进二分k-均值算法的订单分组方法,包括如下步骤:对订单数据集进行处理,获得订单集列表T={t1,t2…ti…tw};其中,ti表示第i个订单,第i个订单所包含的货品向量化表达为ti={aw1,aw2,…awi…awL};ti表示第i个订单,awi表示第w个订单包含第i种货品;
根据订单数量设置阈值TA的值;
在订单构成的簇类中选取参考订单:将该簇类中订单长度最大的订单作为第一个参考中心订单,计算簇类中其他订单与第一个参考中心订单的相似度,并在与第一个参考订单中心相似度最小的订单中,选择订单长度最大的订单作为第二个参考中心订单;
计算每个订单到每个参考中心订单的相似度rij,并将每个订单划分到与多个参考中心订单其中一者相似最大的一组;
对本次分组产生的所有簇类进行检测,查看是否满足预设的第一条件;
将满足第一条件的簇类标记为异常簇类,将异常簇类的参考中心订单标记为异常订单标记,并计算异常簇类中的所有订单与其他簇类参考中心订单的相似度,并将每个订单划分到与其他簇类参考中心订单相似度最大的簇类中;
将剩下的所有簇类按照其SSi的值大小进行降序排序,将前N个簇类进行k-means二次聚类(k=2),使得簇类数量保持不变;SSi为第i个簇类的订单相似度平方差的均值;
更新每个簇类的参考中心订单,并按照前述步骤进行进行分组迭代,直至参考中心订单不再发生改变或迭代次数达到最大迭代数;
判断现阶段最大SSi值是否小于等于TA,若是,则结束迭代,得出迭代分组结果TAST={G1…Gi…Gk},Gi表示第i个订单组;若否,则继续迭代,重复前述步骤,直至SSi值小于等于TA。
其中,第i个簇类的订单相似度平方差的均值为
其中,两个订单之间相似度为
其中,第一条件的公式表示为:∣(ZLi-AG)∣≥2*STD;
其中,
AG为本次迭代中所有簇类的长度的均值;STD为本轮迭代中所有簇类长度的标准差;ZLi为第i个簇类的订单数。
其中,更新每个簇类的参考中心订单的更新公式为:
其中,在订单构成的簇类中选取参考订单的步骤之前,将所有订单看作为一个簇类,并对于进行k-means聚类,k=2,使其一分为二。
与现有技术相比,本发明的有益效果是:本发明采用改进的二分k-均值算法求解对配送中心订单分批问题,从k值选取、初始中心值的选取、异常点处理三个方面对k-means聚类算法进行了改善,避免算法陷入局部最优,使得求解出的订单分组方案更加有效合理,从而有效提高订单分拣效率。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明提供的一种基于改进二分k-均值算法的订单分组方法的逻辑示意图。
图2为本发明提供的一种基于改进二分k-均值算法的订单分组方法的流程示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
请参阅图1和图2,本发明实施例提供了一种基于改进二分k-均值算法的订单分组方法,包括如下步骤:
对订单数据集进行处理,获得订单集列表T={t1,t2…ti…tw};其中,ti表示第i个订单,第i个订单所包含的货品向量化表达为ti={aw1,aw2,…awi…awL};ti表示第i个订单,awi表示第w个订单包含第i种货品;
根据订单数量设置阈值TA的值;
在订单构成的簇类中选取参考订单:将该簇类中订单长度最大的订单作为第一个参考中心订单,计算簇类中其他订单与第一个参考中心订单的相似度,并在与第一个参考订单中心相似度最小的订单中,选择订单长度最大的订单作为第二个参考中心订单;
计算每个订单到每个参考中心订单的相似度rij,并将每个订单划分到与多个参考中心订单其中一者相似最大的一组;
对本次分组产生的所有簇类进行检测,查看是否满足预设的第一条件;
将满足第一条件的簇类标记为异常簇类,将异常簇类的参考中心订单标记为异常订单标记,并计算异常簇类中的所有订单与其他簇类参考中心订单的相似度,并将每个订单划分到与其他簇类参考中心订单相似度最大的簇类中;
将剩下的所有簇类按照其SSi的值大小进行降序排序,将前N个簇类进行k-means二次聚类(k=2),使得簇类数量保持不变;SSi为第i个簇类的订单相似度平方差的均值;
更新每个簇类的参考中心订单,并按照前述步骤进行进行分组迭代,直至参考中心订单不再发生改变或迭代次数达到最大迭代数;
判断现阶段最大SSi值是否小于等于TA,若是,则结束迭代,得出迭代分组结果TAST={G1…Gi…Gk},Gi表示第i个订单组;若否,则继续迭代,重复前述步骤,直至SSi值小于等于TA。
其中,第i个簇类的订单相似度平方差的均值为
其中,两个订单之间相似度为
其中,第一条件的公式表示为:∣(ZLi-AG)∣≥2*STD;
其中,
AG为本次迭代中所有簇类的长度的均值;STD为本轮迭代中所有簇类长度的标准差;ZLi为第i个簇类的订单数。
其中,更新每个簇类的参考中心订单的更新公式为:
其中,在订单构成的簇类中选取参考订单的步骤之前,将所有订单看作为一个簇类,并对于进行k-means聚类,k=2,使其一分为二。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (6)
1.一种基于改进二分k-均值算法的订单分组方法,其特征在于,包括如下步骤:
对订单数据集进行处理,获得订单集列表T={t1,t2…ti…tw};其中,ti表示第i个订单,第i个订单所包含的货品向量化表达为ti={aw1,aw2,…awi…awL};ti表示第i个订单,awi表示第w个订单包含第i种货品;
根据订单数量设置阈值TA的值;
在订单构成的簇类中选取参考订单:将该簇类中订单长度最大的订单作为第一个参考中心订单,计算簇类中其他订单与第一个参考中心订单的相似度,并在与第一个参考订单中心相似度最小的订单中,选择订单长度最大的订单作为第二个参考中心订单;
计算每个订单到每个参考中心订单的相似度rij,并将每个订单划分到与多个参考中心订单其中一者相似最大的一组;
对本次分组产生的所有簇类进行检测,查看是否满足预设的第一条件;
将满足第一条件的簇类标记为异常簇类,将异常簇类的参考中心订单标记为异常订单标记,并计算异常簇类中的所有订单与其他簇类参考中心订单的相似度,并将每个订单划分到与其他簇类参考中心订单相似度最大的簇类中;
将剩下的所有簇类按照其SSi的值大小进行降序排序,将前N个簇类进行k-means二次聚类(k=2),使得簇类数量保持不变;SSi为第i个簇类的订单相似度平方差的均值;
更新每个簇类的参考中心订单,并按照前述步骤进行进行分组迭代,直至参考中心订单不再发生改变或迭代次数达到最大迭代数;
判断现阶段最大SSi值是否小于等于TA,若是,则结束迭代,得出迭代分组结果TAST={G1…Gi…Gk},Gi表示第i个订单组;若否,则继续迭代,重复前述步骤,直至SSi值小于等于TA。
6.根据权利要求1所述的基于改进二分k-均值算法的订单分组方法,其特征在于,在订单构成的簇类中选取参考订单的步骤之前,将所有订单看作为一个簇类,并对于进行k-means聚类,k=2,使其一分为二。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810398061.6A CN108648046B (zh) | 2018-04-28 | 2018-04-28 | 一种基于改进二分k-均值算法的订单分组方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810398061.6A CN108648046B (zh) | 2018-04-28 | 2018-04-28 | 一种基于改进二分k-均值算法的订单分组方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108648046A CN108648046A (zh) | 2018-10-12 |
CN108648046B true CN108648046B (zh) | 2021-08-10 |
Family
ID=63748488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810398061.6A Active CN108648046B (zh) | 2018-04-28 | 2018-04-28 | 一种基于改进二分k-均值算法的订单分组方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108648046B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711933B (zh) * | 2018-12-18 | 2021-03-16 | 山东财经大学 | 一种基于avs/rs面向b2c电商订单排序方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3260840A (en) * | 1961-12-28 | 1966-07-12 | Ibm | Variable mode arithmetic circuits with carry select |
CN101251859A (zh) * | 2008-03-17 | 2008-08-27 | 北京科文书业信息技术有限公司 | 基于购物行为的商品聚类系统及其方法 |
CN101821761A (zh) * | 2005-05-18 | 2010-09-01 | 德国证券交易所 | 自动中介订单执行系统 |
CN102663681A (zh) * | 2012-03-11 | 2012-09-12 | 西安电子科技大学 | 基于排序k-均值算法的灰度图像分割方法 |
CN103164499A (zh) * | 2012-04-12 | 2013-06-19 | 哈尔滨理工大学 | 一种产品规划中的订单聚类方法 |
-
2018
- 2018-04-28 CN CN201810398061.6A patent/CN108648046B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3260840A (en) * | 1961-12-28 | 1966-07-12 | Ibm | Variable mode arithmetic circuits with carry select |
CN101821761A (zh) * | 2005-05-18 | 2010-09-01 | 德国证券交易所 | 自动中介订单执行系统 |
CN101251859A (zh) * | 2008-03-17 | 2008-08-27 | 北京科文书业信息技术有限公司 | 基于购物行为的商品聚类系统及其方法 |
CN102663681A (zh) * | 2012-03-11 | 2012-09-12 | 西安电子科技大学 | 基于排序k-均值算法的灰度图像分割方法 |
CN103164499A (zh) * | 2012-04-12 | 2013-06-19 | 哈尔滨理工大学 | 一种产品规划中的订单聚类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108648046A (zh) | 2018-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10073906B2 (en) | Scalable tri-point arbitration and clustering | |
US10776400B2 (en) | Clustering using locality-sensitive hashing with improved cost model | |
Zhou et al. | A clustering-Based KNN improved algorithm CLKNN for text classification | |
CN109242184B (zh) | 一种基于层次聚类的订单拣货优化方法 | |
CN113378954B (zh) | 一种基于粒子群改进k均值算法的负荷曲线聚类方法及系统 | |
CN108648046B (zh) | 一种基于改进二分k-均值算法的订单分组方法 | |
Hazarika et al. | Genetic algorithm approach for machine cell formation with alternative routings | |
CN108983722B (zh) | 一种用于集成电路芯片最终测试的优化调度方法 | |
CN104536387B (zh) | 一种液晶电视机的生产装配过程的优化调度方法 | |
JP7440395B2 (ja) | 最適解探索装置及び最適解探索プログラム | |
Qi et al. | Improved K-means clustering algorithm and its applications | |
CN110765216A (zh) | 数据挖掘方法、装置、计算机设备及计算机可读存储介质 | |
Bin et al. | A genetic clustering method based on variable length string | |
CN108346287A (zh) | 基于影响因素分析的交通流量序列模式匹配方法 | |
CN104408116A (zh) | 基于遗传算法从大规模高维数据中检测离群数据的方法 | |
CN115705545A (zh) | 用于评估半导体设备生产能力的方法及其装置 | |
CN107392921A (zh) | 一种基于切比雪夫距离的半监督多目标聚类图像分割方法 | |
CN113946621A (zh) | 一种基于关联规则的制丝车间数据波动关系的挖掘方法 | |
CN103164499A (zh) | 一种产品规划中的订单聚类方法 | |
Umam et al. | Application of hybrid clustering using parallel k-means algorithm and DIANA algorithm | |
CN112580606A (zh) | 基于聚类分组的大规模人体行为识别方法 | |
CN115795335B (zh) | 物流网点异常识别方法、装置及电子设备 | |
CN108614903B (zh) | 集成电路仿真数据相关性建模方法及装置 | |
CN111553505A (zh) | 一种电力物资入库数量预测方法 | |
CN104462238B (zh) | 一种基于数据离散度无关性的数据立方体构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |