CN114638276A - 物流网点分类方法、装置、计算机设备和存储介质 - Google Patents

物流网点分类方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN114638276A
CN114638276A CN202011483281.2A CN202011483281A CN114638276A CN 114638276 A CN114638276 A CN 114638276A CN 202011483281 A CN202011483281 A CN 202011483281A CN 114638276 A CN114638276 A CN 114638276A
Authority
CN
China
Prior art keywords
data
logistics network
matrix
network point
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011483281.2A
Other languages
English (en)
Inventor
赵玲
李玮萱
张英驰
董珊
谢宇昕
陈才
陈志文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SF Technology Co Ltd
Original Assignee
SF Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SF Technology Co Ltd filed Critical SF Technology Co Ltd
Priority to CN202011483281.2A priority Critical patent/CN114638276A/zh
Publication of CN114638276A publication Critical patent/CN114638276A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • G06Q10/0838Historical data

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Development Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种物流网点分类方法、装置、计算机设备和存储介质,其中,方法包括:获取物流网点关联数据,构建包含多个维度的物流网点特征数据的原始数据矩阵,对原始数据矩阵进行基于PCA的降维处理,得到降维的数据集;对降维的数据集进行聚类,得到物流网点分类结果。整个过程中,一方面获取多个维度的物流网点特征数据,使得这些数据能够准确表征物流网点的真实情况;另一方面,采用PCA降维处理,实现数据降维,从中提取主要的、具有代表性的多个维度数据,有效减小数据处理量,最终基于降维的数据集进行聚类,能够得到准确的物流网点分类结果。

Description

物流网点分类方法、装置、计算机设备和存储介质
技术领域
本申请涉及大数据处理技术领域,特别是涉及一种物流网点分类方法、装置、计算机设备和存储介质。
背景技术
电商行业的快速发展,给物流行业也带来了飞速的发展,目前国内现有的物流公司都有快递业务,快递大多数都是加盟承包或者直营,这就产生了千千万万的物流网点。
随着快递的迅速发展,这些物流网点也在发生着非常大的变化,不同的物流企业对物流网点的分类各有标准,有些根据区域特征、有些根据营收情况、或者根据其他特征对物流网点进行分类,但是这种分类方式容易造成分类结果不准确。
发明内容
基于此,有必要针对上述技术问题,提供一种分类结果准确的物流网点分类方法、装置、计算机设备和存储介质。
一种物流网点分类方法,方法包括:
获取物流网点关联数据;
根据物流网点关联数据,提取多个维度的物流网点特征数据,构建原始数据矩阵;
对原始数据矩阵进行基于PCA(Principal Component Analysis,主成分分析)的降维处理,得到降维的数据集;
对降维的数据集进行聚类,得到物流网点分类结果。
在其中一个实施例中,对原始数据矩阵进行基于PCA的降维处理,得到降维的数据集包括:
对原始数据矩阵进行基于Robust PCA的降维处理,得到降维的数据集。
在其中一个实施例中,上述物流网点分类还包括:
采用Robust PCA技术对原始数据矩阵进行分解,得到与原始数据矩阵对应的低秩矩阵;
根据低秩矩阵中的特征数据进行聚类,得到物流网点分类结果。
在其中一个实施例中,采用Robust PCA技术对原始数据矩阵进行分解,得到与原始数据矩阵对应的低秩矩阵包括:
采用Robust PCA技术对原始数据矩阵进行分解,得到初始低秩矩阵、初始稀疏矩阵以及原始数据矩阵之间的函数多项式;
将求解函数多项式的问题转换成求解松弛的凸优化问题,得到变形后的函数多项式;
采用拉格朗日乘子法求解变形后的函数多项式,得到与原始数据矩阵对应的低秩矩阵。
在其中一个实施例中,采用拉格朗日乘子法求解变形后的函数多项式,得到与原始数据矩阵对应的低秩矩阵包括:
根据变形后的函数多项式,构造对应的增广拉格朗日函数;
获取变形后的函数多项式中预设惩罚因子以及增广拉格朗日函数中预设约束项惩罚因子与拉格朗日乘子更新系数,并初始化增广拉格朗日函数中拉格朗日乘子;
根据预设惩罚因子、预设约束项惩罚因子以及拉格朗日乘子更新系数,迭代求解变形后的函数多项式;
当迭代求解次数达到预设迭代次数时,根据迭代求解结果得到与原始数据矩阵对应的低秩矩阵。
在其中一个实施例中,根据物流网点关联数据,提取多个维度的物流网点特征数据,构建原始数据矩阵包括:
根据物流网点关联数据,提取多个维度的初始物流网点特征数据;
将初始物流网点特征数据中存在关联维度的特征数据叠加,形成交叉特征数据;
将交叉特征数据加入至初始物流网点特征数据,得到更新的初始物流网点特征数据;
对更新的初始物流网点特征数据进行数据清洗,得到物流网点特征数据;
根据物流网点特征数据,构建原始数据矩阵。
在其中一个实施例中,对降维的数据集进行聚类,得到物流网点分类结果包括:
采用k-means聚类法对降维的数据集进行聚类,得到聚类结果;
通过Calinski-Harabasz Score得分评价聚类结果中最佳聚类个数;
根据最佳聚类个数,得到物流网点分类结果。
一种物流网点分类装置,装置包括:
数据获取模块,用于获取物流网点关联数据;
矩阵构建模块,用于根据物流网点关联数据,提取多个维度的物流网点特征数据,构建原始数据矩阵;
降维处理模块,用于对原始数据矩阵进行基于PCA的降维处理,得到降维的数据集;
聚类模块,用于对降维的数据集进行聚类,得到物流网点分类结果。
另外,本申请还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取物流网点关联数据;
根据物流网点关联数据,提取多个维度的物流网点特征数据,构建原始数据矩阵;
对原始数据矩阵进行基于PCA的降维处理,得到降维的数据集;
对降维的数据集进行聚类,得到物流网点分类结果。
另外,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取物流网点关联数据;
根据物流网点关联数据,提取多个维度的物流网点特征数据,构建原始数据矩阵;
对原始数据矩阵进行基于PCA的降维处理,得到降维的数据集;
对降维的数据集进行聚类,得到物流网点分类结果。
上述物流网点分类方法、装置、计算机设备和存储介质,获取物流网点关联数据,构建包含多个维度的物流网点特征数据的原始数据矩阵,对原始数据矩阵进行基于PCA的降维处理,得到降维的数据集;对降维的数据集进行聚类,得到物流网点分类结果。整个过程中,一方面获取多个维度的物流网点特征数据,使得这些数据能够准确表征物流网点的真实情况;另一方面,采用PCA降维处理,实现数据降维,从中提取主要的、具有代表性的多个维度数据,有效减小数据处理量,最终基于降维的数据集进行聚类,能够得到准确的物流网点分类结果。
附图说明
图1为一个实施例中物流网点分类方法的应用环境图;
图2为一个实施例中物流网点分类方法的流程示意图;
图3为一个实施例中采用Robust PCA技术对原始数据矩阵进行分解,得到与原始数据矩阵对应的低秩矩阵步骤的流程示意图;
图4为一个实施例中上述图3中S360的子流程示意图;
图5为一个实施例中图2中S800的子流程示意图;
图6为一个应用实例中k-means聚类流程示意图;
图7为一个实施例中物流网点分类装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的物流网点分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102将物流网点关联数据采集,并且将采集到的数据统一上传至服务器104,服务器104获取物流网点关联数据,构建包含多个维度的物流网点特征数据的原始数据矩阵,对原始数据矩阵进行基于PCA的降维处理,得到降维的数据集;对降维的数据集进行聚类,得到物流网点分类结果。进一步的,服务器104还可以将物流网点分类结果反馈至终端102,或者可以反馈至第三方管理者终端,以使用户(管理者)了解到最新的物流网点分类结果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可以理解的是,本申请提供的物流网点分类方法还可以直接应用于终端,其处理过程与上述类似,在此不再赘述。
在一个实施例中,如图2所示,提供了一种物流网点分类方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
S200:获取物流网点关联数据。
物流网点具体可以物流基层网点。在一个物流系统中,物流基层网点是最接近于用户的,为了给用户带来便捷的服务,采用大数据方式深度研究物流基层网点的意义最大。另外,物流基层网点在物流系统中网点的数量也是最多的,对其进行分类的复杂程度和难度也最大,因此常规的分类方式都会存在分类不准确的缺陷。具体来说,物流网点关联数据主要包括在物流网点正常运转过程一些相关的数据,例如网点营业额、派件量、揽件量、服务客户数、投诉率、准时率、地理位置、网点员工数量、网点开支、网点规模等等方面的数据,这些数据具体基于物流网点日常运行日志数据、维护数据中提取得到,另外还可以直接授权的第三方管理者进行调整和修正。
S400:根据物流网点关联数据,提取多个维度的物流网点特征数据,构建原始数据矩阵。
在物流网点关联数据中包含有大量的数据,从这些数据中提取多个维度的物流网点特征数据。非必要的,可以针对每个样本物流网点作为一个数据集,在这个数据集中包含有针对该网点的多个维度的物流网点特征数据,构建原始数据矩阵,例如可以采集46200网点的62个维度特征数据来构建原始数据矩阵。具体来说,多个维度的物流网点特征数据主要包括业务量、收入、损坏情况、理赔情况、客诉率、客户类型、网点区域特征等。
更具体来说,可以获取所有网点一个月的业务量(包括集收、仓收以及散收,因此业务量有3个维度的特征),对派件业务量进行特征处理,具体包括收入、损坏量、理赔量、理赔金额、客诉率等,其中,客诉率可以取过去3个月该网点的客诉率,处理方法是首先以客户角度取每个客户过去3个月的客诉情况区分投诉损坏、投诉时效、投诉服务、以及催收、催派情况;其次通过统计每个网点下客户的客诉情况,将这部分特征处理为某网点过去3个月是否有时效客诉,某网点过去3个月的时效客诉率,某网点过去3个月是否有损坏客诉,某网点过去3个月的损坏客诉率,某网点过去3个月是否有服务客诉,某网点过去3个月的服务客诉率,某网点过去3个月是否有催收,某网点过去3个月的催收率,某网点过去3个月是否有催派,某网点过去3个月的催派率(客诉率=客诉次数/总业务量,催收(派)率=催收次数/总业务量),网点工作人员的特征,其可以取过去3个月收派件量的时间,通过数据分析方法处理出一些特征,例如某网点按规定1小时内收件的工作人员(快递小哥)数量,工作人员接到收件通知0-30min上门收件小哥数量,30-60min上门收件的工作人员数量,超过1小时上门收件的工作人员数量,某网点派件知会客户的工作人员数量,派件交接后1小时内派件的工作人员数量,2小时内派件的工作人员数量,超过2小时的工作人员数量,派件做过滞留操作的工作人员数量,将这些提取的特征数据结合起来形成原始数据矩阵。
S600:对原始数据矩阵进行基于PCA的降维处理,得到降维的数据集。
PCA是指主成分分析,是图像处理中经常用到的降维方法。它不仅仅是对高维数据进行降维,更重要的是经过降维去除了噪声,发现数据中的模式。PCA把原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的m个特征互不相关。在本申请中,将PCA应用于对物流网点特征数据的降维,减小特征之间的相关性,使复杂的原始数据矩阵简化,以在能够准确表征物流网点特征的同时,尽量减小数据处理量,得到降维的数据集。
S800:对降维的数据集进行聚类,得到物流网点分类结果。
针对降维的数据集进行聚类,具体可以采用常规的聚类算法或者聚类模型进行,最终存在明显相关性和/或相似度较高的物流网点就聚类到一起,得到物流网点分类结果。
在其中一个实施例中,可以采用k-means聚类法对降维的数据集进行聚类。k-means聚类法是一种成熟、且聚类效果佳的聚类算法,采用该方式可以得到准确的物流网点分类结果。
上述物流网点分类方法,获取物流网点关联数据,构建包含多个维度的物流网点特征数据的原始数据矩阵,对原始数据矩阵进行基于PCA的降维处理,得到降维的数据集;对降维的数据集进行聚类,得到物流网点分类结果。整个过程中,一方面获取多个维度的物流网点特征数据,使得这些数据能够准确表征物流网点的真实情况;另一方面,采用PCA降维处理,实现数据降维,从中提取主要的、具有代表性的多个维度数据,有效减小数据处理量,最终基于降维的数据集进行聚类,能够得到准确的物流网点分类结果。
在其中一个实施例中,对原始数据矩阵进行基于PCA的降维处理,得到降维的数据集包括:对原始数据矩阵进行基于Robust PCA的降维处理,得到降维的数据集。
在本实施例中,应用Robust PCA技术实现数据降维,其降维去噪效果更佳。具体来说,当观测数据较大时,PCA降维结果往往不尽人意,而实际观测到的数据量大且数据稀疏、噪声污染较大,Robust PCA能够恢复出本质上低秩的数据。在原始数据矩阵D中包含结构信息,也包含噪声。可以将这个矩阵分解为两个矩阵相加D=A+E,A是低秩的(由于内部有一定的结构信息造成各行或列间是线性相关的(例如:件量与收入是线性相关的)),E是稀疏的(含有噪声,则是稀疏的),则Robust PCA可以写成以下的优化问题:
Figure BDA0002838695440000071
在其中一个实施例中,上述物流网点分类还包括:采用Robust PCA技术对原始数据矩阵进行分解,得到与原始数据矩阵对应的低秩矩阵;根据低秩矩阵中的特征数据进行聚类,得到物流网点分类结果。
在本实施例中将应用Robust PCA技术处理数据,Robust PCA模型实际是构造了核范数以及噪声稀疏项的最小化问题,对原始数据矩阵D进行分解,恢复出与原数据有极大相似性的部分(低秩矩阵A)和稀疏矩阵E,其中稀疏E属于噪音数据,需要将其剔除,只针对低秩矩阵A中特征数据进行聚类,来得到最终的物流网点分类结构。
如图3所示,在其中一个实施例中,采用Robust PCA技术对原始数据矩阵进行分解,得到与原始数据矩阵对应的低秩矩阵包括:
S320:采用Robust PCA技术对原始数据矩阵进行分解,得到初始低秩矩阵、初始稀疏矩阵以及原始数据矩阵之间的函数多项式;
S340:将求解函数多项式的问题转换成求解松弛的凸优化问题,得到变形后的函数多项式;
S360:采用拉格朗日乘子法求解变形后的函数多项式,得到与原始数据矩阵对应的低秩矩阵。
Robust PCA的本质是找到一个低秩矩阵A和一个稀疏矩阵E,使得A+E=D,其具体如下述公式(1)。如上述已述的,Robust PCA模型实际是构造了核范数以及噪声稀疏项的最小化问题(具体表征如下公式2),对原始数据矩阵D进行分解,恢复出与原数据有极大相似性的部分(低秩矩阵A)和稀疏矩阵E。Robust PCA的本质是找到一个低秩矩阵A和一个稀疏矩阵E,使得A+E=D,即如下所示:
Figure BDA0002838695440000081
由于rank和L0范数在优化上存在非凸和非光滑特性,所以一般将这个NP(Nondeterministic polynominal,非确定性多项式)问题转换成求解一个松弛的凸优化问题,得到变形后的下述公式(2):
Figure BDA0002838695440000082
其中,||A||*是矩阵A的核范数,核范数是所有奇异值的和,通过对核范数的最小化约束可以得到原始数据的最低秩表示;||E||1=∑i,j(Ei,j)是矩阵E的L1范数,在这里增加惩罚因子λ>0用来平衡公式(2)中的低秩约束和稀疏约束,采用拉格朗日乘子法求解公式(2),得到与原始数据矩阵对应的低秩矩阵以及稀疏矩阵。
如图4所示,在其中一个实施例中,上述S360包括:
S362:根据变形后的函数多项式,构造对应的增广拉格朗日函数;
S364:获取变形后的函数多项式中预设惩罚因子以及增广拉格朗日函数中预设约束项惩罚因子与拉格朗日乘子更新系数,并初始化增广拉格朗日函数中拉格朗日乘子;
S366:根据预设惩罚因子、预设约束项惩罚因子以及拉格朗日乘子更新系数,迭代求解变形后的函数多项式;
S368:当迭代求解次数达到预设迭代次数时,根据迭代求解结果得到与原始数据矩阵对应的低秩矩阵。
求解上述公式(2)这类问题优选的采用增广拉格朗日乘子法,构造公式(3)的拉格朗日函数:
Figure BDA0002838695440000091
其中Y∈Rm×n是线性约束的拉格朗日乘子,μ>0是对约束项的惩罚因子。增广拉格朗日函数比一般的拉格朗日函数多了一个对约束条件的惩罚项。利用增广拉格朗日乘子方法求解公式(3),即求解得到最终的低秩矩阵A和稀疏矩阵E。具体来说,先读取已经得到的原始数据矩阵以及预设惩罚因子λ;再初始化
Figure BDA0002838695440000092
Figure BDA0002838695440000093
时运行(:具体迭代运行以下计算:
1)、固定其他变量,通过优化下面函数更新A:
Figure BDA0002838695440000094
2)、固定其他变量,通过优化下面函数更新E:
Figure BDA0002838695440000101
3)、更新拉格朗日乘子Y:
Yk+1=Ykk(D-Ak+1-Ek+1)
4)、更新参数μ:μk+1=ρ×μk
5)、更新迭代次数k:k=k+1
当最新迭代次数迭代k=K时结束,其中K为预设迭代次数,输出低秩矩阵A和稀疏矩阵E。
在其中一个实施例中,根据物流网点关联数据,提取多个维度的物流网点特征数据,构建原始数据矩阵包括:
根据物流网点关联数据,提取多个维度的初始物流网点特征数据;将初始物流网点特征数据中存在关联维度的特征数据叠加,形成交叉特征数据;将交叉特征数据加入至初始物流网点特征数据,得到更新的初始物流网点特征数据;对更新的初始物流网点特征数据进行数据清洗,得到物流网点特征数据;根据物流网点特征数据,构建原始数据矩阵。
提取的初始物流网点特征数据是包含多个维度的特征数据,在这些维度数据中可能存在某些维度之间存在相关性,在这里将这些关联温度的特征数据提取出来,并且将这些数据叠加形成交叉特征数据。在将交叉特征数据作为物流网点特征数据中的一部分,加入至初始物流网点特征数据,得到更新的初始物流网点特征数据。这些数据叠加具体是可以先将量化的单个特征的数据分段,在基于分段结果相互叠加形成交叉特征数据。在实际应用中,初始物流网点特征数据中存在部分交叉特征,如某网点过去3个月内是否同时做过滞留操作且产生损坏件,某网点是否同时产生损坏和客诉,这种交叉特征优先都是收集单个特征的数据,按照数理统计的方法给每个特征分段,如:滞留次数可分为0次,1-2次,3-4次,5-10次,大于等于10次,同时将损坏量也进行分段可分为0票,1-10票,10-20票,20-50票,50-100票,大于100票,结合这两个特征的分段产生新的数据特征该网点是否同时做过滞留操作且产生损坏件,该网点做过滞留操作且产生损坏的等级,在这里将滞留次数为0次同时损坏为0票的网点记为0等级,依次向上叠加等级产生新的交叉特征。针对其他物流网点特征可以采用上述相同或相似的方式,其他物流网点特征包括但不限于客户类型(大客户量、散客量、月结客户量)、网点区域特征(是否工业区、是否住宅区、是否CBD)、以及网点收派量较多的时间点等。另外,在本实施例中,还对数据进行清洗,剔除一些含有异常数据(如某一网点只有业务量且业务量较少,无其他有效数据,则剔除该数据),确保数据准确的同时,进一步减小数据处理量。
如图5所示,在其中一个实施例中,S800包括:
S820:采用k-means聚类法对降维的数据集进行聚类,得到聚类结果。
S840:通过Calinski-Harabasz Score得分评价聚类结果中最佳聚类个数。
S860:根据最佳聚类个数,得到物流网点分类结果。
具体来说,如图6所示,在其中一个应用实例中k-means聚类具体包括以下步骤:
(1)从降维的数据集D中随机选择k个样本(每个网点作为一个样本)作为初始的k个质心向量:{μ12,…,μk}。
(2)对于n=1,2,…,N,其具体包括下处理子步骤:
(a)将簇划分C初始化为Ct=φ,t=1,2,…,k;
(b)对于i=1,2,…,m,计算样本xi和各个质心向量μj(j=1,2,…,k)的距离:
Figure BDA0002838695440000111
将xi标记最小的为dij所对应的类别λi,同时将{xi}添加到
Figure BDA0002838695440000112
簇中即:
Figure BDA0002838695440000113
(c)对于j=1,2,…,k,对Cj中所有的样本点重新计算新的质心
Figure BDA0002838695440000114
(e)如果所有的k个质心向量都没有发生变化,则转到步骤(3)。
(3)输出网点聚类后簇划分C={C1,C2,…,Ck}。
具体来说,Calinski-Harabasz Score得分评价最佳的聚类个数具体包括以下内容:
在其中一个应用实例中,应用K-means聚类算法时会多次试验确定k的取值,方案中应用Calinski-Harabasz Score得分评价最佳的聚类个数k(Calinski-Harabasz Score得分越高越好),其中Calinski-Harabasz Score是通过评估类之间方差和类内方差来计算得分,其计算方式如下:
Figure BDA0002838695440000121
其中k代表聚类类别数,N代表样本量,SSB是类间方差,SSW是类内方差。在实际使用的过程中,类别越少,Calinski-Harbasz Score的分数越高,当k=2时,分数达到最高。但是大量数据分成2类显然不可能,当k=2时,需要一个个去测试k值,找到一个local maxium(局部最高)的分数,这个分数对应的k值就是当前最佳的分类。
应该理解的是,虽然上述各流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
如图7所示,本申请还提供一种物流网点分类装置,装置包括:
数据获取模块200,用于获取物流网点关联数据;
矩阵构建模块400,用于根据物流网点关联数据,提取多个维度的物流网点特征数据,构建原始数据矩阵;
降维处理模块600,用于对原始数据矩阵进行基于PCA的降维处理,得到降维的数据集;
聚类模块800,用于对降维的数据集进行聚类,得到物流网点分类结果。
上述物流网点分类装置,获取物流网点关联数据,构建包含多个维度的物流网点特征数据的原始数据矩阵,对原始数据矩阵进行基于PCA的降维处理,得到降维的数据集;对降维的数据集进行聚类,得到物流网点分类结果。整个过程中,一方面获取多个维度的物流网点特征数据,使得这些数据能够准确表征物流网点的真实情况;另一方面,采用PCA降维处理,实现数据降维,从中提取主要的、具有代表性的多个维度数据,有效减小数据处理量,最终基于降维的数据集进行聚类,能够得到准确的物流网点分类结果。
在其中一个实施例中,降维处理模块600还用于对原始数据矩阵进行基于RobustPCA的降维处理,得到降维的数据集。
在其中一个实施例中,降维处理模块600还用于采用Robust PCA技术对原始数据矩阵进行分解,得到与原始数据矩阵对应的低秩矩阵;聚类模块800还用于根据低秩矩阵中的特征数据进行聚类,得到物流网点分类结果。
在其中一个实施例中,降维处理模块600还用于采用Robust PCA技术对原始数据矩阵进行分解,得到初始低秩矩阵、初始稀疏矩阵以及原始数据矩阵之间的函数多项式;将求解函数多项式的问题转换成求解松弛的凸优化问题,得到变形后的函数多项式;采用拉格朗日乘子法求解变形后的函数多项式,得到与原始数据矩阵对应的低秩矩阵。
在其中一个实施例中,降维处理模块600还用于根据变形后的函数多项式,构造对应的增广拉格朗日函数;获取变形后的函数多项式中预设惩罚因子以及增广拉格朗日函数中预设约束项惩罚因子与拉格朗日乘子更新系数,并初始化增广拉格朗日函数中拉格朗日乘子;根据预设惩罚因子、预设约束项惩罚因子以及拉格朗日乘子更新系数,迭代求解变形后的函数多项式;当迭代求解次数达到预设迭代次数时,根据迭代求解结果得到与原始数据矩阵对应的低秩矩阵。
在其中一个实施例中,矩阵构建模块400还用于根据物流网点关联数据,提取多个维度的初始物流网点特征数据;将初始物流网点特征数据中存在关联维度的特征数据叠加,形成交叉特征数据;将交叉特征数据加入至初始物流网点特征数据,得到更新的初始物流网点特征数据;对更新的初始物流网点特征数据进行数据清洗,得到物流网点特征数据;根据物流网点特征数据,构建原始数据矩阵。
在其中一个实施例中,聚类模块800还用于采用k-means聚类法对降维的数据集进行聚类,得到聚类结果;通过Calinski-Harabasz Score得分评价聚类结果中最佳聚类个数;根据最佳聚类个数,得到物流网点分类结果。
关于物流网点分类装置的具体限定可以参见上文中对于物流网点分类方法的限定,在此不再赘述。上述物流网点分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史记录下的物流网点相关的数据以及预设聚类算法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种物流网点分类方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取物流网点关联数据;
根据物流网点关联数据,提取多个维度的物流网点特征数据,构建原始数据矩阵;
对原始数据矩阵进行基于PCA(Principal Component Analysis,主成分分析)的降维处理,得到降维的数据集;
对降维的数据集进行聚类,得到物流网点分类结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对原始数据矩阵进行基于Robust PCA的降维处理,得到降维的数据集。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
采用Robust PCA技术对原始数据矩阵进行分解,得到与原始数据矩阵对应的低秩矩阵;根据低秩矩阵中的特征数据进行聚类,得到物流网点分类结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
采用Robust PCA技术对原始数据矩阵进行分解,得到初始低秩矩阵、初始稀疏矩阵以及原始数据矩阵之间的函数多项式;将求解函数多项式的问题转换成求解松弛的凸优化问题,得到变形后的函数多项式;采用拉格朗日乘子法求解变形后的函数多项式,得到与原始数据矩阵对应的低秩矩阵。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据变形后的函数多项式,构造对应的增广拉格朗日函数;获取变形后的函数多项式中预设惩罚因子以及增广拉格朗日函数中预设约束项惩罚因子与拉格朗日乘子更新系数,并初始化增广拉格朗日函数中拉格朗日乘子;根据预设惩罚因子、预设约束项惩罚因子以及拉格朗日乘子更新系数,迭代求解变形后的函数多项式;当迭代求解次数达到预设迭代次数时,根据迭代求解结果得到与原始数据矩阵对应的低秩矩阵。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据物流网点关联数据,提取多个维度的初始物流网点特征数据;将初始物流网点特征数据中存在关联维度的特征数据叠加,形成交叉特征数据;将交叉特征数据加入至初始物流网点特征数据,得到更新的初始物流网点特征数据;对更新的初始物流网点特征数据进行数据清洗,得到物流网点特征数据;根据物流网点特征数据,构建原始数据矩阵。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
采用k-means聚类法对降维的数据集进行聚类,得到聚类结果;通过Calinski-Harabasz Score得分评价聚类结果中最佳聚类个数;根据最佳聚类个数,得到物流网点分类结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取物流网点关联数据;
根据物流网点关联数据,提取多个维度的物流网点特征数据,构建原始数据矩阵;
对原始数据矩阵进行基于PCA(Principal Component Analysis,主成分分析)的降维处理,得到降维的数据集;
对降维的数据集进行聚类,得到物流网点分类结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对原始数据矩阵进行基于Robust PCA的降维处理,得到降维的数据集。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
采用Robust PCA技术对原始数据矩阵进行分解,得到与原始数据矩阵对应的低秩矩阵;根据低秩矩阵中的特征数据进行聚类,得到物流网点分类结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
采用Robust PCA技术对原始数据矩阵进行分解,得到初始低秩矩阵、初始稀疏矩阵以及原始数据矩阵之间的函数多项式;将求解函数多项式的问题转换成求解松弛的凸优化问题,得到变形后的函数多项式;采用拉格朗日乘子法求解变形后的函数多项式,得到与原始数据矩阵对应的低秩矩阵。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据变形后的函数多项式,构造对应的增广拉格朗日函数;获取变形后的函数多项式中预设惩罚因子以及增广拉格朗日函数中预设约束项惩罚因子与拉格朗日乘子更新系数,并初始化增广拉格朗日函数中拉格朗日乘子;根据预设惩罚因子、预设约束项惩罚因子以及拉格朗日乘子更新系数,迭代求解变形后的函数多项式;当迭代求解次数达到预设迭代次数时,根据迭代求解结果得到与原始数据矩阵对应的低秩矩阵。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据物流网点关联数据,提取多个维度的初始物流网点特征数据;将初始物流网点特征数据中存在关联维度的特征数据叠加,形成交叉特征数据;将交叉特征数据加入至初始物流网点特征数据,得到更新的初始物流网点特征数据;对更新的初始物流网点特征数据进行数据清洗,得到物流网点特征数据;根据物流网点特征数据,构建原始数据矩阵。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
采用k-means聚类法对降维的数据集进行聚类,得到聚类结果;通过Calinski-Harabasz Score得分评价聚类结果中最佳聚类个数;根据最佳聚类个数,得到物流网点分类结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种物流网点分类方法,其特征在于,所述方法包括:
获取物流网点关联数据;
根据所述物流网点关联数据,提取多个维度的物流网点特征数据,构建原始数据矩阵;
对所述原始数据矩阵进行基于PCA的降维处理,得到降维的数据集;
对所述降维的数据集进行聚类,得到物流网点分类结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始数据矩阵进行基于PCA的降维处理,得到降维的数据集包括:
对所述原始数据矩阵进行基于Robust PCA的降维处理,得到降维的数据集。
3.根据权利要求1所述的方法,其特征在于,还包括:
采用Robust PCA技术对所述原始数据矩阵进行分解,得到与所述原始数据矩阵对应的低秩矩阵;
根据所述低秩矩阵中的特征数据进行聚类,得到物流网点分类结果。
4.根据权利要求3所述的方法,其特征在于,所述采用Robust PCA技术对所述原始数据矩阵进行分解,得到与所述原始数据矩阵对应的低秩矩阵包括:
采用Robust PCA技术对所述原始数据矩阵进行分解,得到初始低秩矩阵、初始稀疏矩阵以及所述原始数据矩阵之间的函数多项式;
将求解所述函数多项式的问题转换成求解松弛的凸优化问题,得到变形后的函数多项式;
采用拉格朗日乘子法求解所述变形后的函数多项式,得到与所述原始数据矩阵对应的低秩矩阵。
5.根据权利要求4所述的方法,其特征在于,所述采用拉格朗日乘子法求解所述变形后的函数多项式,得到与所述原始数据矩阵对应的低秩矩阵包括:
根据所述变形后的函数多项式,构造对应的增广拉格朗日函数;
获取所述变形后的函数多项式中预设惩罚因子以及所述增广拉格朗日函数中预设约束项惩罚因子与拉格朗日乘子更新系数,并初始化所述增广拉格朗日函数中拉格朗日乘子;
根据所述预设惩罚因子、所述预设约束项惩罚因子以及所述拉格朗日乘子更新系数,迭代求解所述变形后的函数多项式;
当迭代求解次数达到预设迭代次数时,根据迭代求解结果得到与所述原始数据矩阵对应的低秩矩阵。
6.根据权利要求1所述的方法,其特征在于,所述根据所述物流网点关联数据,提取多个维度的物流网点特征数据,构建原始数据矩阵包括:
根据物流网点关联数据,提取多个维度的初始物流网点特征数据;
将所述初始物流网点特征数据中存在关联维度的特征数据叠加,形成交叉特征数据;
将所述交叉特征数据加入至所述初始物流网点特征数据,得到更新的初始物流网点特征数据;
对所述更新的初始物流网点特征数据进行数据清洗,得到物流网点特征数据;
根据所述物流网点特征数据,构建原始数据矩阵。
7.根据权利要求1所述的方法,其特征在于,所述对所述降维的数据集进行聚类,得到物流网点分类结果包括:
采用k-means聚类法对所述降维的数据集进行聚类,得到聚类结果;
通过Calinski-Harabasz Score得分评价所述聚类结果中最佳聚类个数;
根据所述最佳聚类个数,得到物流网点分类结果。
8.一种物流网点分类装置,其特征在于,所述装置包括:
数据获取模块,用于获取物流网点关联数据;
矩阵构建模块,用于根据所述物流网点关联数据,提取多个维度的物流网点特征数据,构建原始数据矩阵;
降维处理模块,用于对所述原始数据矩阵进行基于PCA的降维处理,得到降维的数据集;
聚类模块,用于对所述降维的数据集进行聚类,得到物流网点分类结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011483281.2A 2020-12-16 2020-12-16 物流网点分类方法、装置、计算机设备和存储介质 Pending CN114638276A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011483281.2A CN114638276A (zh) 2020-12-16 2020-12-16 物流网点分类方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011483281.2A CN114638276A (zh) 2020-12-16 2020-12-16 物流网点分类方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN114638276A true CN114638276A (zh) 2022-06-17

Family

ID=81945127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011483281.2A Pending CN114638276A (zh) 2020-12-16 2020-12-16 物流网点分类方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN114638276A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115131068A (zh) * 2022-07-08 2022-09-30 连连(杭州)信息技术有限公司 一种店铺分类方法、装置和计算机存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115131068A (zh) * 2022-07-08 2022-09-30 连连(杭州)信息技术有限公司 一种店铺分类方法、装置和计算机存储介质
CN115131068B (zh) * 2022-07-08 2023-12-26 连连(杭州)信息技术有限公司 一种店铺分类方法、装置和计算机存储介质

Similar Documents

Publication Publication Date Title
WO2019214248A1 (zh) 一种风险评估方法、装置、终端设备及存储介质
US6581058B1 (en) Scalable system for clustering of large databases having mixed data attributes
CN109284372B (zh) 用户操作行为分析方法、电子装置及计算机可读存储介质
WO1999062007A1 (en) A scalable system for clustering of large databases having mixed data attributes
Biard et al. Automated detection of weather fronts using a deep learning neural network
CN110674636B (zh) 一种用电行为分析方法
CN110910991B (zh) 一种医用自动图像处理系统
CN111709397A (zh) 一种基于多头自注意力机制的无人机变尺寸目标检测方法
CN111008726A (zh) 一种电力负荷预测中类图片转换方法
CN112419202A (zh) 基于大数据及深度学习的野生动物图像自动识别系统
CN112330078A (zh) 用电量预测方法、装置、计算机设备和存储介质
CN114066073A (zh) 电网负荷预测方法
CN110704371A (zh) 大规模数据管理与数据分发系统及方法
CN110543996A (zh) 一种职位薪资评估方法、装置、服务器和存储介质
CN111882034A (zh) 神经网络处理及人脸识别方法、装置、设备和存储介质
CN114638276A (zh) 物流网点分类方法、装置、计算机设备和存储介质
CN117150138A (zh) 一种基于高维空间映射的科技资源组织方法及系统
CN114495137B (zh) 票据异常检测模型生成方法与票据异常检测方法
CN116260866A (zh) 基于机器学习的政务信息推送方法、装置和计算机设备
CN116579468A (zh) 基于云系记忆的台风生成预测方法、装置、设备及介质
CN114463673B (zh) 素材推荐方法、装置、设备及存储介质
CN114331665A (zh) 用于预定申请人的信用判定模型的训练方法、装置和电子设备
CN114818849A (zh) 基于大数据信息的卷积神经网络和遗传算法的反窃电方法
CN112465189A (zh) 一种基于时空关联性分析的法院收结案数量预测方法
CN115209441A (zh) 基站退服告警预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination