CN114493443A - 数据处理方法、装置、电子设备和计算机可读存储介质 - Google Patents
数据处理方法、装置、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN114493443A CN114493443A CN202210101752.1A CN202210101752A CN114493443A CN 114493443 A CN114493443 A CN 114493443A CN 202210101752 A CN202210101752 A CN 202210101752A CN 114493443 A CN114493443 A CN 114493443A
- Authority
- CN
- China
- Prior art keywords
- order
- data
- parameters
- initial
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 39
- 230000008569 process Effects 0.000 claims abstract description 18
- 230000032683 aging Effects 0.000 claims description 90
- 238000012549 training Methods 0.000 claims description 29
- 238000012795 verification Methods 0.000 claims description 19
- 238000012731 temporal analysis Methods 0.000 claims description 18
- 238000000700 time series analysis Methods 0.000 claims description 18
- 230000007704 transition Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 230000001932 seasonal effect Effects 0.000 claims description 10
- 238000007621 cluster analysis Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 5
- 238000010200 validation analysis Methods 0.000 claims description 4
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical group C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 9
- 238000001914 filtration Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 241000728173 Sarima Species 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
- G06Q10/0838—Historical data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
- G06Q10/0834—Choice of carriers
- G06Q10/08345—Pricing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种数据处理方法、装置、电子设备和计算机可读存储介质,所述方法通过获取历史订单数据,基于时间序列模型对所述历史订单数据进行分析确定订单初始参数,基于参数确定模型对所述订单初始参数进行处理,以确定订单基础参数,基于聚类算法对所述历史订单数据进行聚类分析确定订单时效类别,并根据所述订单时效类别确定目标订单参数对应的时效数据,由此,通过上述处理过程实现订单基础参数和目标订单参数对应时效数据的自动化确定,进而提高数据处理效率,降低数据处理成本。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种数据处理方法、装置、电子设备和计算机可读存储介质。
背景技术
物流行业的订单参数和时效数据的准确预估,对于协同上下游生产和销售活动以及为供应链上下游赋能具有重要意义。然而,现有的人工接单、报价以及人工配货运输无法实现订单参数和时效数据的自动化确定,数据处理效率低,数据处理成本高。
发明内容
有鉴于此,本发明实施例提供一种数据处理方法、装置、电子设备和计算机可读存储介质,以提高订单数据处理效率,降低数据处理成本。
第一方面,本发明实施例提供一种数据处理方法,所述方法包括:
获取历史订单数据;
基于时间序列模型对所述历史订单数据进行分析,以确定订单初始参数;
基于参数确定模型对所述订单初始参数进行处理,以确定订单基础参数,所述订单基础参数与订单初始参数相对应;
基于聚类算法对所述历史订单数据进行聚类分析,确定订单时效类别;
根据所述订单时效类别确定目标订单参数对应的时效数据,所述目标订单参数包含于所述订单基础参数。
进一步地,所述时间序列模型基于以下的步骤确定:
获取训练样本数据;
根据所述训练样本数据生成第一时间序列,所述第一时间序列用于表征按时间顺序排列组成的订单参数序列;
对所述第一时间序列进行时间序列分析,以建立初始分析模型;
对所述第一时间序列进行平稳化处理,确定第二时间序列;
根据所述第二时间序列对所述初始分析模型进行优化,直至优化后的初始分析模型的输出数据满足预设条件,并将满足预设条件的初始分析模型确定为所述时间序列模型。
进一步地,所述对所述第一时间序列进行时间序列分析包括:
构建初始分析模型结构;
对所述第一时间序列进行时间序列分析,确定所述初始分析模型结构对应的模型初始参数;
将所述模型初始参数应用于所述初始分析模型结构,以建立所述初始分析模型。
进一步地,所述对所述第一时间序列进行平稳化处理,确定第二时间序列包括:
分离所述第一时间序列中的季节和趋势-周期特征项,并将分离后的时间序列数据确定为第二时间序列。
进一步地,所述训练样本数据包括验证输入数据和验证输出数据;
所述预设条件为:
将所述验证输入数据输入至所述初始分析模型得到的输出结果与所述验证输出数据之间的拟合度大于预设值。
进一步地,所述根据第二时间序列对所述初始分析模型进行优化包括:
对所述第二时间序列进行时间序列分析,确定过渡参数;
根据所述模型初始参数和过渡参数划分网格;
基于网格搜索方法对所述初始分析模型中的模型初始参数进行优化。
进一步地,所述参数确定模型基于最优估计算法确定。
进一步地,所述基于聚类算法对所述历史订单数据进行聚类分析,确定订单时效类别包括:
根据所述历史订单数据中的订单参数数据和对应的订单时效数据构建样本数据集;
根据所述目标订单参数和样本数据集确定初始聚类中心;
基于预设的聚类算法和所述初始聚类中心确定出预设数量的聚类中心;
根据各所述聚类中心确定对应的订单时效类别。
进一步地,所述根据所述订单时效类别确定目标订单参数对应的时效数据包括:
根据所述样本数据集中的各样本数据与各聚类中心的距离确定各样本数据所属的订单时效类别;
根据各订单时效类别中的样本数据对对应的聚类中心进行优化,以确定新的聚类中心;
确定目标订单参数与各新的聚类中心的距离,并将距离最近的聚类中心对应的时效数据确定为所述目标订单参数对应的时效数据。
第二方面,本发明实施例提供一种数据处理系统,所述系统包括:
获取模块,被配置为获取历史订单数据;
时间序列分析模块,被配置为基于时间序列模型对所述历史订单数据进行分析,以确定订单初始参数;
最优估计模块,被配置为基于参数确定模型对所述订单初始参数进行处理,以确定订单基础参数,所述订单基础参数与订单初始参数相对应;
聚类分析模块,被配置为基于聚类算法对所述历史订单数据进行聚类分析,确定订单时效类别;
时效确定模块,被配置为根据所述订单时效类别确定目标订单参数对应的时效数据,所述目标订单参数包含于所述订单基础参数。
第三方面,本发明实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如上任一项所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的方法步骤。
本发明实施例的技术方案通过获取历史订单数据,基于时间序列模型对所述历史订单数据进行分析确定订单初始参数,基于参数确定模型对所述订单初始参数进行处理,实现订单基础参数的自动化确定。同时,在确定订单基础参数后,基于聚类算法对所述历史订单数据进行聚类分析确定订单时效类别,并根据所述订单时效类别确定目标订单参数对应的时效数据,进而实现目标订单参数对应时效数据的自动化确定,提高订单数据处理效率,降低数据处理成本。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例的数据处理方法的流程图;
图2是本发明实施例的确定时间序列模型的流程图;
图3是本发明实施例的确定初始分析模型的流程图;
图4是本发明实施例的对初始分析模型进行优化的流程图;
图5是本发明实施例的构建时间序列模型的流程图;
图6是本发明实施例的确定订单时效类别的流程图;
图7是本发明实施例的确定目标订单参数对应时效数据的流程图;
图8是本发明实施例的数据处理方法具体实施的流程图;
图9是本发明实施例的数据处理装置的示意图;
图10是本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本实施例中,以物流行业中的订单基础参数和对应时效的自动化确定过程为例进行说明。其中,订单基础参数为订单基础成本,指的是订单对应的每公里运输成本,每公里运输成本根据订单整体运输成本和对应的运输距离确定。物流订单时效是指从下订单开始计算到收到货物为止的时间。
目前,汽车整车物流领域存在订单报价时间长、运输参数高、资源利用率低、运力返空率高和配载能力弱等问题,客户的满意度不高,汽车供应链的良性发展受到了一定程度的制约。在这些问题中,订单报价时效及运输参数是下单客户最关心的问题。然而,由于物流参数具有明显的季节性,周期性和地域性,且受偶发性因素影响的情况较多,因此其参数及价格波动较为明显。现有的人工接单、报价及人工配货运输,根本无法实现订单基础参数和实现数据的自动化确定,数据处理效率低,数据处理成本高。
有鉴于此,本发明实施例提供一种数据处理方法,以实现订单参数和时效数据的自动化确定,进而能够实时准确预测物流参数和预估物流订单价格,提高订单数据处理效率,降低数据处理成本。同时,通过实时准确预测物流订单参数和物流时效数据,对于物流企业尤其是整车物流企业具有重要意义,能够极大提升集货及物流调度效率,提高企业的物流服务能力,进而极大地改善用户的下单体验。
图1是本发明实施例的数据处理方法的流程图。如图1所示,本实施例中的数据处理方法包括以下步骤:
在步骤S100,获取历史订单数据。
本实施例中,历史订单数据类型包括各历史订单对应的距离数据、价格数据、订单成本数据和时效数据。距离数据用于表征订单对应起始地和目的地之间的距离。订单成本数据用于表征订单对应的每公里成本。时效数据用于表征订单从起始地到达目的地所用的时长。
在步骤S200,基于时间序列模型对历史订单数据进行分析,以确定订单初始参数。
本实施例中,订单初始参数为订单初始成本,订单初始成本为基于历史订单数据预测得到的当前时刻之后的运输成本。通过时间序列模型对历史订单中的订单成本数据进行分析,确定订单初始成本。
可选地,本实施例中的时间序列模型可以为预先训练得到的,也可以是基于当前时刻对应的历史订单数据实时训练得到的。
在步骤S300,基于参数确定模型对订单初始参数进行处理,以确定订单基础参数,订单基础参数与订单初始参数相对应。
本实施例中,参数确定模型基于最优估计算法确定。由于订单初始参数受多种因素影响,为提高订单成本预测的准确度,通过参数确定模型对订单初始参数进行处理,能够消除订单初始参数中的一些干扰因素,并得到更加准确的订单基础参数。应理解,订单基础参数是订单初始参数去除干扰因素之后对应的每公里运输成本。
在步骤S400,基于聚类算法对历史订单数据进行聚类分析,确定订单时效类别。
在步骤S500,根据订单时效类别确定目标订单参数对应的时效数据,目标订单参数包含于订单基础参数。
本发明实施例的技术方案通过获取历史订单数据,基于时间序列模型对所述历史订单数据进行分析确定订单初始参数,基于参数确定模型对所述订单初始参数进行处理,实现订单基础参数的自动化确定。同时,在确定订单基础参数后,基于聚类算法对所述历史订单数据进行聚类分析确定订单时效类别,并根据所述订单时效类别确定目标订单参数对应的时效数据,进而实现目标订单参数对应时效数据的自动化确定。由此,通过上述处理过程,在实现订单基础参数和目标订单参数对应时效数据的自动化确定的同时,能够提高订单数据的数据处理效率,降低数据处理成本。
可选地,本实施例中的时间序列模型为ARIMA模型。ARIMA模型(AutoregressiveIntegrated Moving Average Model)为差分整合移动平均自回归模型。ARIMA模型常通过ARIMA(p,d,q)来表示。其中,AR是自回归过程,MA为滑动平均过程。进一步地,本实施例中的时间序列模型可以是预先训练确定的,也可以根据历史订单数据实时训练得到。具体地,为进一步提高订单参数预测的准确性,本实施例中的时间序列模型是基于历史订单数据实时训练确定的。
图2是本发明实施例的确定时间序列模型的流程图,如图2所示,本实施例中在确定时间序列模型,基于以下步骤实现。
在步骤S210,获取训练样本数据。
可选地,本实施例中训练样本数据采用当前时刻对应的历史订单数据。训练样本数据包括训练数据和验证数据。其中,训练数据用于确定和优化初始分析模型,验证数据用于验证优化后的初始分析模型是否可以作为时间序列模型。
可选地,为便于后续初始分析模型的验证,本实施例中的训练数据为距离当前时刻较远的预设时间段内的历史订单数据。例如,当前时间为2021年12月,历史订单数据包括2018年12月到2021年12月的全部订单数据,则训练数据可以采用2018年12月到2021年9月对应的历史订单数据,验证数据则采用2021年9月到2021年12月对应的历史订单数据。
在步骤S220,根据训练样本数据生成第一时间序列,第一时间序列用于表征按时间顺序排列组成的订单参数序列。
本实施例中,在获取到训练样本数据中的训练数据后,根据训练数据中的订单对应的订单价格数据和距离数据确定各订单对应的每公里订单成本,并根据时间顺序对各订单对应的每公里订单成本数据进行整理,生成第一时间序列。
在步骤S230,对第一时间序列进行时间序列分析,以建立初始分析模型。
进一步地,如图3所示,在对第一时间序列进行时间序列分析时,执行以下步骤。
在步骤S310,构建初始分析模型结构。
本实施例中,初始分析模型采用ARIMA模型,ARIMA模型的一般表达式为:
其中,
θ(B)=1-θ1(t)B-…θq(t)Bq
{xt}(t=1,2,…)为每公里成本的时间序列,B为延迟算子,为自回归项,p为自回归项数,θ(B)为移动平均项,q为滑动平均项数,{et}为均值为0,方差为δ2的白噪音过程。k为差分算子,d为差分阶数。
在步骤S320,对第一时间序列进行时间序列分析,确定初始分析模型结构对应的模型初始参数。
本实施例中,通过SPSS、MATLAB等工具计算并绘制出第一时间序列中的数据对应的自相关图和偏自相关图,基于图像中的自相关特征(ACF)和偏自相关特征(PACF)对ARIMA模型进行定阶和估计,确定出与初始分析模型结构对应的模型初始参数p0,d0和q0。
在步骤S330,将模型初始参数应用于初始分析模型结构,以建立所述初始分析模型。
本实施例中,将模型初始参数p0,d0和q0应用于初始分析模型结构,即可确定出初始分析模型。
在步骤S240,对第一时间序列进行平稳化处理,确定第二时间序列。
本实施例中,第一时间序列是包含季节、趋势和周期特征的数据序列,第二时间序列是与第一时间序列对应的去除季节项和趋势-周期特征项后的数据序列。对第一时间序列进行平稳化处理,确定第二时间序列包括:分离第一时间序列中的季节和趋势-周期特征项,并将分离后的时间序列数据确定为第二时间序列。以下是分离出的特征项的表达式:
yt=St×Tt×Rt
其中,St表示季节项,Tt表示趋势周期项,Rt表示残差项。进一步地,通过对季节及趋势-周期进行建模,将其从第一时间序列中剔除,以确定第一时间序列对应的第二时间序列。
在步骤S250,根据第二时间序列对初始分析模型进行优化,直至优化后的初始分析模型的输出数据满足预设条件,并将满足预设条件的初始分析模型确定为时间序列模型。
本实施例中,训练样本数据中的验证数据包括验证输入数据和验证输出数据。预设条件为:将验证输入数据输入至初始分析模型得到的输出结果与验证输出数据之间的拟合度大于预设值。
进一步地,如图4所示,在根据第二时间序列对初始分析模型进行优化时,执行以下步骤。
在步骤S410,对第二时间序列进行时间序列分析,确定过渡参数。
本实施例中,采用SARIMA模型对第二时间序列进行分析,确定过渡参数。其中,SARIMA模型为前述季节性模型(也即,ARIMA模型)的延伸,但模型输入数据中去除了季节性和其他趋势的影响。SARIMA模型通常具有如下表示方式:
ARIMA(p,d,q)×(P,D,Q)s
其中,P,D,Q分别是非季节性模型中的自回归过程、差分过程和滑动平均过程的阶数,s表示周期。
同时,采用与前述确定初始模型参数相同的方法,确定SARIMA模型中的过渡参数P0,D0和Q0。
在步骤S420,根据模型初始参数和过渡参数划分网格。
本实施例中,根据模型初始参数p0,d0和q0和过渡参数P0,D0和Q0划分网格。应理解,为加快优化速度,可以结合模型初始参数、模型过渡参数以及人工经验因素来划分网格,而不单单局限于模型初始参数和过渡参数。
在步骤S430,基于网格搜索方法对初始分析模型中的模型初始参数进行优化。
本实施例中,通过网格搜索方法在网格内搜索遍历多个模型参数之间的不同组合,通过计算不同参数组合下模型输出与历史订单数据中对应数据的拟合度,确定当前参数组合下的初始分析模型是否可以应用于数据处理过程。
可选地,通过计算网格内全部不同参数组合下对应初始分析模型的拟合度,将拟合度最高的模型确定为最终优化后的初始分析模型,并将该模型应用于数据处理过程中。
可选地,在对初始分析模型进行优化的过程中,每次确定一种参数组合后,获取初始分析模型在当前参数组合下输入验证输入后对应的输出数据,并确定当前输出数据与验证输出数据之间的拟合度是否大于预设值。若当前对应的拟合度值大于预设值,则将当前初始分析模型作为时间序列模型。若当前对应的拟合度值小于等于预设值,则继续寻找其他参数组合,直至优化后的初始分析模型的输出数据与验证输出数据之间的拟合度大于预设值,并将拟合度大于预设值时的初始分析模型确定为时间序列模型。
图5是本发明实施例的构建时间序列模型的流程图。如图5所示,通过以下步骤构建时间序列模型。
在步骤S510,获取训练样本数据。
本实施例中,训练样本数据为历史订单数据中的部分连续数据。训练样本数据包括训练数据和验证数据。其中,训练数据用于确定和优化初始分析模型,验证数据用于验证优化后的初始分析模型是否可以作为时间序列模型。
在步骤S520,根据训练样本数据生成第一时间序列。
在步骤S530,构建初始分析模型结构。
在步骤S540,对第一时间序列进行时间序列分析,确定初始分析模型。
在步骤S550,确定第二时间序列。
在步骤S560,对第二时间序列进行时间序列分析,确定过渡参数。
在步骤S570,根据模型初始参数和过渡参数划分网格。
在步骤S580,基于网格搜索方法对初始分析模型中的模型初始参数进行优化,确定时间序列模型。
本实施例的技术方案通过上述处理过程实现订单基础参数和目标订单参数对应时效数据的自动化确定,进而提高数据处理效率,降低数据处理成本。
进一步地,本实施例在确定时间序列分析模型后,基于时间序列模型对历史订单数据进行分析,得到订单初始参数。同时基于参数确定模型对订单初始参数进行处理,确定订单基础参数。
可选地,本实施例中的参数确定模型采用kalman滤波模型。Kalman滤波模型的运动过程和测量方程可以表达为以下公式:
xt=Ftxt-1+wt
zt=Htxt-1+vt
其中,Ft是xt-1上的状态变换矩阵,wt为过程噪音,服从正态分布。Ht为观测矩阵,vt为观测噪音向量,并且,令x1(t)=x(t),x2(t)=x(t-1),…,xp(t)=x(t-p-1)。
在确定订单初始参数后,根据时间序列模型输出的订单初始参数构建订单初始成本对应的p维向量:[x1(t) x2(t) … xp(t)]T。
将上述p维向量输入至kalman滤波模型中,可表达为:
[zt]=,1 0 … 0]×[x1(t) x2(t) … xp(t)]T
由此,通过kalman滤波模型对时间序列模型输出的订单初始参数进行噪音数据滤波,并根据最优参数和观测值确定订单基础参数。
可选地,本实施例中可以通过调整kalman滤波模型中的模型参数来确定获取当前时刻之后的连续的多个或单个订单基础参数。例如,当以天为时间单位时,本实施例可以确定未来10天的订单基础参数,也可以只确定下一天的订单基础参数。
本实施例中,在确定订单基础参数后,根据订基础参数中的目标订单参数确定其对应的时效数据。在确定时效数据时,先基于历史订单数据确定订单时效类别,再根据订单时效类别确定目标订单参数对应的订单时效数据,并且,目标订单参数为订单基础参数中的某个订单基础参数。
图6是本发明实施例的确定订单时效类别的流程图。如图6所示,在基于聚类算法对所述历史订单数据进行聚类分析,确定订单时效类别时,执行以下步骤。
在步骤S610,根据历史订单数据中的订单参数数据和对应的订单时效数据构建样本数据集。
本实施例中,样本集D为表示为D={x1,x2,…,xm},其中,xi为由订单对应的成本数据和时效数据组成的二维向量。
在步骤S620,根据目标订单参数和样本数据集确定初始聚类中心。
本实施例中,选取订单基础参数预设范围内候选的订单,计算候选订单时效数据中四分位数区间内的均值,并将样本数据集中时效数据与该均值最接近的样本确定为初始聚类中心。例如,假设候选订单的时效数据分别为1天、3天、2天和4天,则订单时效数据四分位数为2天、3天和4天,均值为3天。此时将订单时效为3天或最接近与3天的订单对应的样本确定为初始聚类中心。
在步骤S630,基于预设的聚类算法和初始聚类中心确定出预设数量的聚类中心。
可选地,本实施例中的聚类算法采用K-means++算法。其中,K-means++算法的一般表达式如下:
在确定K个聚类中心时,包括以下步骤:
1、计算样本集中每个样本与当前已有聚类中心的最短距离D(x);
2、计算每一个样本被选为下个聚类中心的概率:
3、按照轮盘法选择出下一个聚类中心;
4、重复步骤2和3直到选择出K个聚类中心。
在步骤S640,根据各聚类中心确定对应的订单时效类别。
本实施例中,一个聚类中心对应一个订单时效类别,根据已确定的各聚类中心确定其对应的订单时效类别。
进一步地,在确定各聚类中心对应的订单时效类别后,基于图7所示的步骤确定目标订单参数对应的时效数据,具体包括:
在步骤S710,根据样本数据集中的各样本数据与各聚类中心的距离确定各样本数据所属的订单时效类别。
本实施例中,针对样本集D中的每个样本,分别计算各样本到K个聚类中心的距离,并将各样本分别划分到其距离最短的聚类中心对应的订单时效类别中。
在步骤S720,根据各订单时效类别中的样本数据对对应的聚类中心进行优化,以确定新的聚类中心。
本实施例中,针对各订单时效类别,基于订单时效类别中的样本数据,重新计算该订单时效类别对应的聚类中心,即属于该类的所有样本的质心。
应理解,当步骤S710和步骤S720可以重复执行,直至确定出的新的聚类中心的位置不再变化。
在步骤S730,确定目标订单参数与各新的聚类中心的距离,并将距离最近的聚类中心对应的时效数据确定为目标订单参数对应的时效数据。
本步骤中,在确定出各订单时效类别对应的新的聚类中心后,以目标订单参数的值对应的位置线为基准,分别计算各聚类中心与目标订单参数的垂直距离,并以距离最近的聚类中心作为目标订单参数的时效参考。
图8是本发明实施例的数据处理方法具体实施的流程图。如图8所示,本实施例的数据处理方法包括以下步骤:
在步骤S810,获取历史订单数据。
本步骤中,历史订单数据包括当前时刻之前的各历史订单的距离数据、价格数据、订单成本数据和时效数据。
在步骤S820,建立初始分析模型。
本步骤中,首先构建初始分析模型结构,根据历史订单数据中的训练数据构建第一时间序列,通过对第一时间序列进行时间序列分析,确定初始分析模型结构对应的模型初始参数,并将模型初始参数应用于初始分析模型结构中,以建立初始分析模型。
在步骤S830,确定第二时间序列。
本步骤中,在建立初始分析模型后,分离第一时间序列中的季节和趋势-周期特征项,确定第二时间序列。
在步骤S840,确定初始分析模型拟合度是否达到预设要求。
本步骤中,基于历史订单数据中的验证数据确定每次优化后的初始分析模型的拟合度,并确定该拟合度是否达到预设要求。若初始分析模型的拟合度达到预设要求,则执行步骤S860;若初始分析模型的拟合度未达到预设要求,则执行步骤S850。
在步骤S850,参数网格搜索。
本步骤中,对第二时间序列进行时间序列分析,确定过渡参数,再根据初始分析模型中的模型初始参数和过渡参数划分网格,基于网格搜索方法对初始分析模型中的模型初始参数进行优化,直至优化后的初始分析模型的拟合度是否达到预设要求。
在步骤S860,生成时间序列模型,确定订单初始参数。
本步骤中,将满足拟合度的优化后的初始分析模型确定为时间序列模型,将历史订单数据输入时间序列模型中,并输出订单初始参数。
在步骤S870,将订单初始参数导入kalman滤波器,确定订单基础参数。
本步骤中,通过将订单初始参数导入kalman滤波器,并由kalman滤波模型对时间序列模型输出的订单初始参数进行噪音数据滤波,确定订单基础参数。
在步骤S880,确定聚类中心。
本步骤中,根据历史订单数据中的订单参数数据和对应的订单时效数据构建样本数据集,并根据目标订单参数和样本数据集确定初始聚类中心,再基于预设的聚类算法和初始聚类中心确定出预设数量的聚类中心。同时,为了提高时效数据预测的准确度,本步骤在确定出预设数量的聚类中心后,根据各聚类中心确定对应的订单时效类别,根据样本数据集中的各样本数据与各聚类中心的距离确定各样本数据所属的订单时效类别,再根据各订单时效类别中的样本数据对对应的聚类中心进行优化,以确定新的聚类中心,并将新的聚类中心作为最终的聚类中心。
在步骤S890,确定目标订单参数对应的订单时效数据。
本步骤中,在确定出各订单时效类别对应的新的聚类中心后,确定目标订单参数与各新的聚类中心的距离,并将距离最近的聚类中心对应的时效数据确定为目标订单参数对应的时效数据。
本实施例的技术方案通过上述处理过程实现订单基础参数和目标订单参数对应的订单时效数据的自动化确定,解决现有的人工接单、报价及人工配货运输中存在的问题,有利于根据订单基础参数和目标订单参数提升物流调度效率,进而提高企业的物流服务能力,改善用户的下单体验。
图9是本发明实施例的数据处理装置的示意图。如图9所示,本实施例中的数据处理装置包括获取模块1、时间序列分析模块2、最优估计模块3、聚类分析模块4和时效确定模块5。其中,获取模块1被配置为获取历史订单数据。时间序列分析模块2被配置为基于时间序列模型对历史订单数据进行分析,以确定订单初始参数。最优估计模块3被配置为基于参数确定模型对订单初始参数进行处理,以确定订单基础参数,订单基础参数与订单初始参数相对应。聚类分析模块4被配置为基于聚类算法对历史订单数据进行聚类分析,确定订单时效类别。时效确定模块5被配置为根据订单时效类别确定目标订单参数对应的时效数据,目标订单参数包含于订单基础参数。
图10是本发明实施例的电子设备的示意图。如图10所示,图10所示的电子设备为通用数据处理装置,其包括通用的计算机硬件结构,其至少包括处理器101和存储器102。处理器101和存储器102通过总线103连接。存储器102适于存储处理器101可执行的指令或程序。处理器101可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器101通过执行存储器102所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线103将上述多个组件连接在一起,同时将上述组件连接到显示控制器104和显示装置以及输入/输出(I/O)装置105。输入/输出(I/O)装置105可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置105通过输入/输出(I/O)控制器106与系统相连。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
本发明的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种数据处理方法,其特征在于,所述方法包括:
获取历史订单数据;
基于时间序列模型对所述历史订单数据进行分析,以确定订单初始参数;
基于参数确定模型对所述订单初始参数进行处理,以确定订单基础参数,所述订单基础参数与订单初始参数相对应;
基于聚类算法对所述历史订单数据进行聚类分析,确定订单时效类别;
根据所述订单时效类别确定目标订单参数对应的时效数据,所述目标订单参数包含于所述订单基础参数。
2.根据权利要求1所述的数据处理方法,其特征在于,所述时间序列模型基于以下的步骤确定:
获取训练样本数据;
根据所述训练样本数据生成第一时间序列,所述第一时间序列用于表征按时间顺序排列组成的订单参数序列;
对所述第一时间序列进行时间序列分析,以建立初始分析模型;
对所述第一时间序列进行平稳化处理,确定第二时间序列;
根据所述第二时间序列对所述初始分析模型进行优化,直至优化后的初始分析模型的输出数据满足预设条件,并将满足预设条件的初始分析模型确定为所述时间序列模型。
3.根据权利要求2所述的数据处理方法,其特征在于,所述对所述第一时间序列进行时间序列分析包括:
构建初始分析模型结构;
对所述第一时间序列进行时间序列分析,确定所述初始分析模型结构对应的模型初始参数;
将所述模型初始参数应用于所述初始分析模型结构,以建立所述初始分析模型。
4.根据权利要求2所述的数据处理方法,其特征在于,所述对所述第一时间序列进行平稳化处理,确定第二时间序列包括:
分离所述第一时间序列中的季节和趋势-周期特征项,并将分离后的时间序列数据确定为第二时间序列。
5.根据权利要求2所述的数据处理方法,其特征在于,所述训练样本数据包括验证输入数据和验证输出数据;
所述预设条件为:
将所述验证输入数据输入至所述初始分析模型得到的输出结果与所述验证输出数据之间的拟合度大于预设值。
6.根据权利要求3所述的数据处理方法,其特征在于,所述根据第二时间序列对所述初始分析模型进行优化包括:
对所述第二时间序列进行时间序列分析,确定过渡参数;
根据所述模型初始参数和过渡参数划分网格;
基于网格搜索方法对所述初始分析模型中的模型初始参数进行优化。
7.根据权利要求1所述的数据处理方法,其特征在于,所述参数确定模型基于最优估计算法确定。
8.根据权利要求1所述的数据处理方法,其特征在于,所述基于聚类算法对所述历史订单数据进行聚类分析,确定订单时效类别包括:
根据所述历史订单数据中的订单参数数据和对应的订单时效数据构建样本数据集;
根据所述目标订单参数和样本数据集确定初始聚类中心;
基于预设的聚类算法和所述初始聚类中心确定出预设数量的聚类中心;
根据各所述聚类中心确定对应的订单时效类别。
9.根据权利要求8所述的数据处理方法,其特征在于,所述根据所述订单时效类别确定目标订单参数对应的时效数据包括:
根据所述样本数据集中的各样本数据与各聚类中心的距离确定各样本数据所属的订单时效类别;
根据各订单时效类别中的样本数据对对应的聚类中心进行优化,以确定新的聚类中心;
确定目标订单参数与各新的聚类中心的距离,并将距离最近的聚类中心对应的时效数据确定为所述目标订单参数对应的时效数据。
10.一种数据处理系统,其特征在于,所述系统包括:
获取模块,被配置为获取历史订单数据;
时间序列分析模块,被配置为基于时间序列模型对所述历史订单数据进行分析,以确定订单初始参数;
最优估计模块,被配置为基于参数确定模型对所述订单初始参数进行处理,以确定订单基础参数,所述订单基础参数与订单初始参数相对应;
聚类分析模块,被配置为基于聚类算法对所述历史订单数据进行聚类分析,确定订单时效类别;
时效确定模块,被配置为根据所述订单时效类别确定目标订单参数对应的时效数据,所述目标订单参数包含于所述订单基础参数。
11.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现权利要求1-9中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-9中任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210101752.1A CN114493443A (zh) | 2022-01-27 | 2022-01-27 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210101752.1A CN114493443A (zh) | 2022-01-27 | 2022-01-27 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114493443A true CN114493443A (zh) | 2022-05-13 |
Family
ID=81475926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210101752.1A Pending CN114493443A (zh) | 2022-01-27 | 2022-01-27 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114493443A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116342168A (zh) * | 2023-05-23 | 2023-06-27 | 山东灵动电子商务有限公司 | 一种信息大数据智能采集管理系统 |
CN117009754A (zh) * | 2023-09-20 | 2023-11-07 | 中交四航局第一工程有限公司 | 一种下穿隧道施工期间对上部既有桥梁桩基的安全预警监控方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105321345A (zh) * | 2015-09-18 | 2016-02-10 | 浙江工业大学 | 一种基于ARIMA模型和kalman滤波的道路交通流预测方法 |
CN106652460A (zh) * | 2017-03-08 | 2017-05-10 | 吉林大学 | 一种高速公路交通状态判别方法及系统 |
WO2021135212A1 (zh) * | 2020-01-03 | 2021-07-08 | 北京三快在线科技有限公司 | 订单处理 |
-
2022
- 2022-01-27 CN CN202210101752.1A patent/CN114493443A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105321345A (zh) * | 2015-09-18 | 2016-02-10 | 浙江工业大学 | 一种基于ARIMA模型和kalman滤波的道路交通流预测方法 |
CN106652460A (zh) * | 2017-03-08 | 2017-05-10 | 吉林大学 | 一种高速公路交通状态判别方法及系统 |
WO2021135212A1 (zh) * | 2020-01-03 | 2021-07-08 | 北京三快在线科技有限公司 | 订单处理 |
Non-Patent Citations (3)
Title |
---|
王晓阳著: "《数据挖掘原理与实践 进阶篇》", 31 January 2021, 机械工业出版社, pages: 7 * |
田穗等著: "《非正态分布价格异动条件下的ETF期权价值评估》", 31 March 2021, 西安电子科学技术大学出版社, pages: 89 - 93 * |
覃新闻等著: "《塔河流域干旱预警及灾害效应风险评估》", 30 June 2013, 东南大学出版社, pages: 200 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116342168A (zh) * | 2023-05-23 | 2023-06-27 | 山东灵动电子商务有限公司 | 一种信息大数据智能采集管理系统 |
CN117009754A (zh) * | 2023-09-20 | 2023-11-07 | 中交四航局第一工程有限公司 | 一种下穿隧道施工期间对上部既有桥梁桩基的安全预警监控方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114493443A (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
JP6459968B2 (ja) | 商品推薦装置、商品推薦方法、及び、プログラム | |
CN108133222A (zh) | 为数据库确定卷积神经网络cnn 模型的装置和方法 | |
CN114549046A (zh) | 基于融合模型的销售预测方法、系统、设备及存储介质 | |
CN103984998A (zh) | 基于云服务平台大数据挖掘的销售预测方法 | |
CN110428270A (zh) | 基于逻辑回归算法的渠道潜在偏好客户识别方法 | |
CN108256802B (zh) | 基于人群搜索算法的多供应商订单分配云处理方法 | |
CN111899059A (zh) | 一种基于区块链的航司收益管理动态定价方法 | |
CN110991739A (zh) | 一种行业电量需求预测模型的构建方法及预测方法 | |
CN113554307B (zh) | 一种基于rfm模型的用户分组方法、装置及可读介质 | |
JP7078053B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
CN109801094B (zh) | 一种商业分析管理推荐预测模型的方法及系统 | |
JP4386973B2 (ja) | 階層的予測モデル構築装置及びその方法 | |
CN113763031B (zh) | 一种商品推荐方法、装置、电子设备及存储介质 | |
KR101606322B1 (ko) | 중고차량 가치 평가 방법 및 장치 | |
JP5831363B2 (ja) | 製造工期予測装置、製造工期予測方法、及びコンピュータプログラム | |
CN113780913B (zh) | 一种安全库存信息的生成方法和装置 | |
CN115936184B (zh) | 一种适应多用户类型的负荷预测匹配方法 | |
CN111353797A (zh) | 资源分配方法、装置以及电子设备 | |
CN113657945A (zh) | 用户价值预测方法、装置、电子设备和计算机存储介质 | |
CN115409225A (zh) | 配送时长确定方法、装置、电子设备及可读存储介质 | |
Nababan et al. | Prediction Of Hotel Booking Cancellation Using K-Nearest Neighbors (K-Nn) Algorithm And Synthetic Minority Over-Sampling Technique (Smote) | |
CN110956528A (zh) | 一种电商平台的推荐方法及系统 | |
CN111047438A (zh) | 数据处理方法、装置和计算机可读存储介质 | |
CN118467931B (zh) | 汽车出口数据信息处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |