CN117455340B

CN117455340B - 基于one record供应链订单物流货运运输信息共享及推送方法

Info

Publication number: CN117455340B
Application number: CN202311784258.0A
Authority: CN
Inventors: 邱斌; 闫加盼; 马亚涛
Original assignee: Yifeiruite E Commerce Beijing Co ltd
Current assignee: Yifeiruite E Commerce Beijing Co ltd
Priority date: 2023-12-23
Filing date: 2023-12-23
Publication date: 2024-03-08
Anticipated expiration: 2043-12-23
Also published as: CN117455340A

Abstract

本申请公开了基于one record供应链订单物流货运运输信息共享及推送方法，涉及物流技术领域，包括步骤S1，获取物流数据管理的多个信息模块，多个信息模块包括数据标准模块、数据共享模块、数据推送模块、权限控制模块、数据交换模块；步骤S2，根据多个信息模块，确定得到每个信息模块的数据处理集；步骤S3，将多个数据处理集输入到数据共享平台中，建立与参与方的共享连接；共享连接包括参与方的用户信息、参与方的共享需求；步骤S4，根据共享连接，确定决策树，根据决策树的第一特征和第二特征，确定输出的共享连接路径；能够将订单数据按照设置的决策树进行分类，提高订单决策的效果。

Description

基于one record供应链订单物流货运运输信息共享及推送方法

技术领域

本发明涉及物流技术领域，尤其涉及基于one record供应链订单物流货运运输信息共享及推送方法。

背景技术

随着科学技术水平的提高，物流运输运用新设备和新技术提高运输效率和运输质量，而仓储管理作为物流运输链中的重要环节，深入研究物流仓储管理方法对于降低运输成本，提高运输效率有着十分重要的意义。

目前，对于仓储管理的分析主要是针对单一节点的仓储优化，通过对单一企业的仓储需求进行分析，然后建立中心仓库、分销中心，从而满足企业对仓储管理的需求。然而，随着供应链的不断完善，产品生产链中涉及的企业越来越多，彼此业务交融，在仓储管理的过程中无法仅仅针对一家企业进行管理，需要通过仓储信息共享，从而提高管理效率。

但是，现有技术中无法根据不同节点的信息增益调整物流数据的共享，从而导致物流数据的管理困难，难以根据物流数据进行共享决策。

发明内容

本申请实施例通过提供一种基于one record供应链订单物流货运运输信息共享及推送方法，解决了现有技术中数据共享效果差的问题，提高了物流决策的效果。

本申请实施例提供了一种基于one record供应链订单物流货运运输信息共享及推送方法，包括：

步骤S1，获取物流数据管理的多个信息模块，多个信息模块包括数据标准模块、数据共享模块、数据推送模块、权限控制模块、数据交换模块；

步骤S2，根据多个信息模块，确定得到每个信息模块的数据处理集；

步骤S3，将多个数据处理集输入到数据共享平台中，建立与参与方的共享连接；共享连接包括参与方的用户信息、参与方的共享需求；

步骤S4，根据共享连接，确定决策树，根据决策树的第一特征和第二特征，确定输出的共享连接路径。

所述步骤S4还包括以下步骤，

步骤S201，获取每个信息模块的数据处理集，形成决策树的共享决策集，根据共享决策集中的订单数据，提取订单数据对应的目标特征和目标变量，将目标特征和目标变量分离，获取训练集和测试集；

步骤S202，根据订单数据对应的目标特征和目标变量，获取影响最大的目标特征，作为决策树的根节点，构建决策树；

步骤S203，使用训练集训练决策树，将训练好的决策树对测试集的订单数据进行预测，根据订单的属性，确定共享连接路径。

所述步骤S202还包括以下步骤，

步骤S301，获取第一数据集；第一数据集是从共享决策集的子集中，任选一部分数据组合而成；

步骤S302，根据订单数据对应的目标特征和目标变量，确定每个特征对应的类别，根据每个目标特征的类别，获取第一数据集的信息熵；

步骤S303，根据第一数据集的信息熵，获取每个目标特征对应的条件熵；条件熵是表示在已知类别的前提下，每个类别中特征的影响程度；

步骤S304，基于第一数据集的信息熵和每个目标特征的条件熵，输出每个特征对应的信息增益；选择信息增益最大的目标特征作为决策树的根节点，输出为第一特征。

所述步骤S202还包括以下步骤，

步骤S401，根据第一数据集的目标特征，获取目标特征的基尼指数；

步骤S402，根据目标特征的基尼指数，获取目标特征的基尼不纯度，将基尼不纯度最小的目标特征作为第二特征输出，将第二特征作为决策树的根节点；

步骤S403，比较第一特征与第二特征，若第一数据集中可取值的数量大于预设阈值，选择第一特征进行输出；若第一数据集中可取值数量小于预设阈值，选择第二特征输出。

所述步骤S203还包括以下步骤，

步骤S501，获取输出的第一特征和第二特征，根据特征选择指标，确定最终输出的分类指标；

步骤S502，若输出的为第一特征，基于特征选择指标，获取第一特征对应的分类指标；

步骤S503，若输出的为第二特征，基于特征选择指标，获取第二特征对应的分类指标；

步骤S504，计算设定空间内第一特征和第二特征之间的皮尔逊相关系数，根据第一特征和第二特征的皮尔逊相关系数，确定共享连接路径。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明通过对决策树的获取方式进行修改，将信息增益和基尼不纯度同时作为决策树划分的指标，使得决策树可以应付特征取值多和少的状况，去除冗余和不相关的特征，以提高预测性能，提高对决策分类识别的效果。

通过对决策树添加特征选择指标和皮尔逊相关系数，使得参与方可以根据决策树提供的共享连接路径得到感兴趣的数据，以帮助数据共享方更好的管理共享数据，助于解释模型的决策路径和特征对预测的贡献程度，增强模型的可解释性。

附图说明

图1为基于one record供应链订单物流货运运输信息共享及推送方法的流程示意图；

图2为基于one record供应链订单物流货运运输信息共享及推送方法的步骤S4的流程示意图；

图3为基于one record供应链订单物流货运运输信息共享及推送方法的步骤S202的一种实现方式的流程示意图；

图4为基于one record供应链订单物流货运运输信息共享及推送方法的步骤S202的另一种实现方式的流程示意图；

图5为基于one record供应链订单物流货运运输信息共享及推送方法的步骤S203的流程示意图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本申请进行更全面的描述；附图中给出了本发明的较佳实施方式，但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施方式；相反地，提供这些实施方式的目的是使对本发明的公开内容理解的更加透彻全面。

需要说明的是，本文所使用的术语“垂直”、“水平”、“上”、“下”、“左”、“右”以及类似的表述只是为了说明的目的，并不表示是唯一的实施方式。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同；本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是旨在于限制本发明；本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1所示，本申请基于one record供应链订单物流货运运输信息共享及推送方法，包括：

步骤S1，获取物流数据管理的多个信息模块，多个信息模块包括数据标准模块、数据共享模块、数据推送模块、权限控制模块、数据交换模块。数据标准模块用于将物流数据标准化：将订单、物流和货运运输信息标准化为one record格式，one record格式提供了一套统一的数据结构和字段，以确保不同参与方之间的数据可以互相理解和交换，这些数据可以包括Order、Shipment、Transport等相关实体。

数据共享模块用于建立数据共享平台，用于不同的参与方进行数据共享。

数据推送模块用于将订单物流信息及时推送给相关的参与方。

权限控制模块用于保护订单、物流和货运运输信息的安全性和隐私性，对物流数据进行权限控制。

数据交换模块用于获取参与方相关的数据交换协议，便于数据交换的准确性和安全性。

具体而言，将信息模块对数据的处理结果得到数据处理集，数据处理集是通过多个信息模块得到的数据组合而成，数据处理集包括有标准处理化的数据、需要被共享的数据、以及对权限控制的数据。

步骤S3，将多个数据处理集输入到数据共享平台中，建立与参与方的共享连接；共享连接包括参与方的用户信息、参与方的共享需求。

步骤S4，根据共享连接，确定决策树，根据决策树的第一特征和第二特征，确定输出的共享连接路径；

具体的，在确定好共享连接后，根据不同共享方分享数据的大小、类型、优先级，按照顺序依次进行共享，根据参与方与数据共享平台建立的共享连接，获取到参与方的共享需求；以参与方的共享需求为输入，以决策树的决策结果为基础，输出参与方需要的内容，共享连接路径指向的就是参与方需要的信息。

在本发明的一个实施例中，如图2所示，步骤S4中根据共享连接，确定决策树，具体实现方式如下所示：

步骤S201，获取每个信息模块的数据处理集，形成决策树的共享决策集，根据共享决策集中的订单数据，提取订单数据对应的目标特征和目标变量，将目标特征和目标变量分离，获取训练集和测试集；目标特征包括订单的属性，例如订单金额、客户等级、订单处理时间、延误情况；目标变量是对应特征的值；根据特征预测订单的优先级，优先级分为三个等级：高，中，低。

步骤S202，根据订单数据对应的目标特征和目标变量，获取影响最大的目标特征，作为决策树的根节点，构建决策树。

根据选取的目标特征，将共享决策集分为多个子集，每个子集对应目标特征的一个值；例如，对于订单金额，可以将订单金额小于1000的订单划分为一个子集，大于1000且小于5000的订单划分为另一个子集，以此类推。然后，对每个子集递归地应用上述步骤，构建出一棵完整的决策树。

优选的，在上述的决策树构建时，为了减少订单数据的不确定性，对于任意一个目标特征，获取目标特征的信息增益，根据目标特征的信息增益来获取整个数据集的信息熵，以及目标特征对应数据集的条件熵，根据数据集的信息熵和目标特征的条件熵来确定目标特征的信息增益，并选择信息增益大的目标特征作为决策树的根节点。

具体的，图3所示，步骤S202的一种实现方式：

步骤S301，获取第一数据集；第一数据集是从共享决策集的子集中，任选一部分数据组合而成。

步骤S302，根据订单数据对应的目标特征和目标变量，确定每个特征对应的类别，根据每个目标特征的类别，获取第一数据集的信息熵。

第一数据集的信息熵的表现是根据每个特征在第一数据集内的概率分布获得，对于连续的特征，根据概率密度计算得到第一数据集的信息熵。

具体的，第一数据集的信息熵可以通过以下方式获取：

Entropy(D) = -Σ(p(i) * log2(p(i)))

其中，D为第一数据集的样本总数，Entropy(D)为第一数据集的信息熵，p(i)为第i个类别在第一数据集中出现的概率。

通过获取第一数据集的信息熵，将每个订单数据根据特征分为多个类别，从而在获取信息增益后，得到每个类别对应的信息熵大小，进而知道对当前订单影响最大的数据类别。

步骤S303，根据第一数据集的信息熵，获取每个目标特征对应的条件熵；条件熵是表示在已知类别的前提下，每个类别中特征的影响程度。

具体的，条件熵的获取方式如下所示：

Conditional Entropy(D|A) = Σ(|Dv|/|D|) * Entropy(Dv)

其中，D为第一数据集的样本总数，Dv为目标特征中特征值为v的样本数目，Conditional Entropy(D|A)为目标特征的条件熵，Entropy(Dv)为目标特征中特征值为v的信息熵。

步骤S304，基于第一数据集的信息熵和每个目标特征的条件熵，输出每个特征对应的信息增益；选择信息增益最大的目标特征作为决策树的根节点，输出为第一特征。第一特征是表示信息增益最大的目标特征，第一特征用于将目标特征按照特征值和类别进行分类。

具体的，信息增益的获取方式如下所示：

Gain(A) = Entropy(D) - Conditional Entropy(D|A)

其中，Gain(A)为目标特征的信息增益，Entropy(D)为第一数据集的信息熵，Conditional Entropy(D|A)为目标特征的条件熵。

信息增益是用于度量特征的指标，信息增益越大，越能减少目标变量的不确定性，从而能获取更好的分类效果，将更多的特征分到各个对应分类下，提高决策树的使用效果；并且信息增益是基于特征固有信息进行处理的，可以避免偏好具有较多取值的特征。

进一步，为了提高目标特征对样本划分的能力，使得样本在某个节点上划分后的子集的同质性与一致性程度更高，基于目标特征的特征纯度，将目标特征进行筛选得到第二特征。

具体的，如图4所示，步骤S202中的另一种实现方式：

具体的，目标特征的基尼指数获取方式如下所示：

Gini(D) = 1 - Σ(p(i)^2)

Gini(D|A) = Σ(|Dv|/|D|) * Gini(Dv)

其中，p(i)为第i个类别在第一数据集中出现的概率，Gini(D)为第一数据集的基尼指数，Gini(D|A)为第一数据集中目标特征的基尼指数，Gini(Dv)为特征值为v的基尼指数，D为第一数据集的样本总数，Dv为目标特征中特征值为v的样本数目。

步骤S402，根据目标特征的基尼指数，获取目标特征的基尼不纯度，将基尼不纯度最小的目标特征作为第二特征输出，将第二特征作为决策树的根节点。

具体的，基尼不纯度的获取方式如下所示：

Gini Index(A) = Gini(D) - Gini(D|A)

其中，Gini Index(A)为目标特征的基尼不纯度，Gini(D)为第一数据集的基尼指数，Gini(D|A)为第一数据集中目标特征的基尼指数。

此步骤是将满足信息增益的第一特征与满足基尼不纯度的第二特征进行比较，根据当前决策树中可取值的数量确定最终输出的特征，预设阈值的大小根据第一数据集的特点和具体问题来确定，例如，可以将阈值设置为5，表示特征的取值数量小于等于5时使用基尼不纯度。

需要说明的是，基尼不纯度与信息增益的场景存在以下差异：

敏感性差异：基尼不纯度对于异常值和噪声的敏感性较低，相对较稳健。而信息增益对于特征取值较多的特征有所偏好，容易受到特征取值数目的影响。

计算效率：基尼不纯度的计算相对简单，只需计算每个特征划分的基尼指数即可。而信息增益需要计算每个特征划分前后的信息熵，计算量较大。

多分类问题：基尼不纯度在处理多分类问题时更为常用，而信息增益在二分类问题上表现较好。

按照上述对基尼不纯度和信息增益之间不同之处的描写，基尼不纯度擅长处理特征取值较少的数据集，而信息增益则处理特征取值较多的数据集，本发明是将基尼不纯度与信息增益共同使用，来提高决策树对不同分类问题的处理效率，从而得到更为方便的处理效果。

优选的，基于步骤S301-S304输出的第一特征，作为目标特征取值多时决策树的根节点，负责区分数据量多、且取值多的订单数据。第一特征是用于处理数据处理集的子集中特征值多的部分。

优选的，基于步骤S401、S402输出的第二特征，作为目标特征取值少时，决策树的根节点，负责区分数据取值少的数据。

优选的，基于第一特征和第二特征，对于数据的处理方法采取一对一形式，每个第一特征和第二特征均对应一个共享连接，且确定共享连接时，以one record标准进行数据传输。

进一步，在本发明的一个实施例中，如图5所示，为了提高决策树与one record标准的适配性，根据输出的第一特征和第二特征确定共享连接路径；步骤S203的共享连接路径确定方式如下所示：

具体的，获取一个自定义的特征选择指标；例如，特征选择指标可以为货物的体积、重量、价值等属性来衡量特征的重要性，记为Importance(A)。根据特征选择指标对信息增益和基尼不纯度进行调整，使得最终输出的特征的纯度更好，进而提高决策树对分类的划分效果，更能体现对物流信息的优化结果。

步骤S501，获取输出的第一特征和第二特征，根据特征选择指标，确定最终输出的分类指标；分类指标是用于作为决策树的根节点，控制第一数据集的分类，同时分类指标也是用于确定决策树中间节点和叶节点以开发决策树；

步骤S502，若输出的为第一特征，基于特征选择指标，获取第一特征对应的分类指标。

具体的，获取第一特征对应的分类指标表现为：

Gain(A) = Importance(A) * (Entropy(D) - Conditional Entropy(D|A))

其中，Importance(A)为特征选择指标，Gain(A)为第一特征对应的分类指标，(Entropy(D) - Conditional Entropy(D|A))为第一特征对应的信息增益。

第一特征的分类指标表现形式为通过对第一特征对应的信息增益与特征选择指标的乘积作为第一特征对应的分类指标。

步骤S503，若输出的为第二特征，基于特征选择指标，获取第二特征对应的分类指标。

具体的，第二特征对应的分类指标表示为：

Gini Index(A) = Importance(A) * (Gini(D) - Gini(D|A))

其中，Gini Index(A)为第二特征对应的分类指标，Importance(A)为特征选择指标，Gini(D) - Gini(D|A)为第二特征对应的基尼不纯度。

根据特征选择指标对第一特征与第二特征进行调整，使得分类指标更符合onerecord标准，更便于对数据进行分类处理。

优选的，特征指标的获取方式为：

Importance(A) = 1 / (标准差(A))

其中，特征选择指标为第二特征的标准差的倒数；

使用特征选择指标对第一特征与第二特征进行调整的原因在于，特征选择指标能提供更好的数据分割和处理，使得在进行决策树进行分类时得到更好的结果；特征选择指标表示的是数据集整体的标准差，使得对数据集整体的把握更加精准，标准差的倒数更能度量数据的集中程度，从而衡量特征是否稳定。

假设我们有一批one record数据，其中特征A表示货物的重量，特征B表示货物的体积，特征C表示货物的类型（类别型），特征D表示货物的发货日期（时间型）。

首先，我们需要计算特征A的标准差。假设我们有100个订单的one record数据，每个订单的重量数据如下：

Order 1: 100 kg

Order 2: 150 kg

Order 3: 200 kg

...

Order 100: 120 kg

根据这些数据，我们可以计算特征A的标准差。假设我们的标准差计算公式为：

标准差(A) = sqrt((Σ(Ai - μ)^2) / n)

其中，Ai表示第i个订单的重量，μ表示重量的平均值，n表示订单数量。

通过计算，我们可以得到特征A的标准差。

然后，根据上述定义的Importance(A)表达式，我们可以计算特征A的重要性。

例如，如果特征A的标准差为10 kg，则Importance(A) = 1 / 10 = 0.1。

通过这种方式，我们可以根据one record数据的特点，定义特征的重要性度量，并基于此进行特征选择和决策树构建。

进一步，为了确定one record数据中相关性，在获取分类指标时，确定目标特征之间的相关性，提高对数据的处理效果，具体的实现方式如下所示：

步骤S504，计算设定空间内第一特征和第二特征之间的皮尔逊相关系数，根据第一特征和第二特征的皮尔逊相关系数，确定共享连接路径；第一特征和第二特征包含：货物重量、货物体积、货物类型、发货地、目的地、运输方式等订单属性。设定空间是根据共享连接选择的范围，根据共享连接中的共享需求，确定共享连接路径。

具体的，验证设定空间内第一特征和第二特征之间的关系，计算每个第一特征和第二特征的皮尔逊相关系数，同时对皮尔逊相关系数进行验证，确定皮尔逊相关系数的分布情况，选择第一特征和第二特征中皮尔逊相关系数较大的作为判断共享连接路径的基础。

例如，第一特征和第二特征之间的皮尔逊相关系数表现为：

r = Σ((Ai - μA) * (Bi - μB)) / (n * σA * σB)

其中，r为皮尔逊相关系数，Ai和Bi分别表示第i个订单的第一特征和第二特征的取值，μA和μB分别表示第一特征和第二特征的平均值，σA和σB分别表示第一特征和第二特征的标准差，n表示订单数量。

根据订单和体积之间的皮尔逊相关系数可以知道第一特征和第二特征之间的相关性，当皮尔逊相关系数值大于0.7时，表示第一特征和第二特征之间相关性高，当皮尔逊相关系数为0.3到0.7时，第一特征和第二特征之间相关性较高，当皮尔逊相关系数为0到0.3时，第一特征和第二特征之间相关性较低。

优选的，将输出的第一特征和第二特征，根据第一特征与第二特征之间的皮尔逊相关系数依次进行排序，将皮尔逊相关系数最高的第一特征和第二特征作为确定共享连接路径的依据。

根据目标特征的皮尔逊相关系数，确定输出的共享决策树，根据共享决策树与参与方的共享连接，将对应的数据发送给参与方，帮助确定在决策树中选择哪些特征作为划分节点，去除冗余和不相关的特征，以提高预测性能，从而提高参与方获取的数据效果，有助于解释模型的决策路径和特征对预测的贡献程度，增强模型的可解释性。

上述本申请实施例中的技术方案，至少具有如下的技术效果或优点：

以上所述仅为本发明的优选实施方式，并不用于限制本发明，对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明精神和原则内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于one record供应链订单物流货运运输信息共享及推送方法，其特征在于，包括：步骤S1，获取物流数据管理的多个信息模块，多个信息模块包括数据标准模块、数据共享模块、数据推送模块、权限控制模块、数据交换模块；

所述步骤S4还包括以下步骤，

步骤S203，使用训练集训练决策树，将训练好的决策树对测试集的订单数据进行预测，根据订单的属性，确定共享连接路径；

所述步骤S202还包括以下步骤，

步骤S304，基于第一数据集的信息熵和每个目标特征的条件熵，输出每个特征对应的信息增益；选择信息增益最大的目标特征作为决策树的根节点，输出为第一特征；

所述步骤S202还包括以下步骤，

2.如权利要求1所述的基于one record供应链订单物流货运运输信息共享及推送方法，其特征在于，所述步骤S203还包括以下步骤，

3.如权利要求1所述的基于one record供应链订单物流货运运输信息共享及推送方法，其特征在于，数据标准模块用于将物流数据标准化：将订单、物流和货运运输信息标准化为one record格式；

数据共享模块用于建立数据共享平台，用于不同的参与方进行数据共享；

数据推送模块用于将订单物流信息及时推送给相关的参与方；

权限控制模块用于保护订单、物流和货运运输信息的安全性和隐私性，对物流数据进行权限控制；

数据交换模块用于获取参与方相关的数据交换协议。

4.如权利要求1所述的基于one record供应链订单物流货运运输信息共享及推送方法，其特征在于，基于步骤S301-S304输出的第一特征，作为目标特征取值多时决策树的根节点，负责区分数据量多、且取值多的订单数据。

5.如权利要求1所述的基于one record供应链订单物流货运运输信息共享及推送方法，其特征在于，基于步骤S401、S402输出的第二特征，作为目标特征取值少时，决策树的根节点，负责区分数据取值少的数据。

6.如权利要求2所述的基于one record供应链订单物流货运运输信息共享及推送方法，其特征在于，基于第一特征和第二特征，对于数据的处理方法采取一对一形式，每个第一特征和第二特征均对应一个共享连接，且确定共享连接时，以one record标准进行数据传输。

7.如权利要求2所述的基于one record供应链订单物流货运运输信息共享及推送方法，其特征在于，将输出的第一特征和第二特征，根据第一特征与第二特征之间的皮尔逊相关系数依次进行排序，将皮尔逊相关系数最高的第一特征和第二特征作为确定共享连接路径的依据。