CN115204274A

CN115204274A - 基于平台的相似子市场聚类方法、系统、设备及存储介质

Info

Publication number: CN115204274A
Application number: CN202210726054.0A
Authority: CN
Inventors: 陈朝晖; 李大学; 张超; 李凡
Original assignee: Jiangsu Manyun Software Technology Co Ltd
Current assignee: Jiangsu Manyun Software Technology Co Ltd
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-10-18

Abstract

本发明提供了基于平台的相似子市场聚类方法、系统、设备及存储介质，该方法包括以下步骤：为每个子市场建立一个三维的路线向量，路线向量的三个维度的最大值各自是出发城市总数、目标城市总数、代表车辆运载能力的车辆级别总数；根据子市场的特征建立定义训练数据集合；根据训练数据集合每条记录的子市场，可以把训练数据切片到各个子市场；将所有子市场归入m个相似的子市场聚类中，并在每个聚类中训练一个算法模型；基于用户的历史路线数据获得至少一属于同一子市场的路线任务，推送给用户。本发明能够通过深度学习特征嵌入的方法来向用户提供相似子市场对应的运输路线，大大提高车货匹配的准确性。

Description

基于平台的相似子市场聚类方法、系统、设备及存储介质

技术领域

本发明涉及车货匹配技术领域，尤其涉及一种基于平台的相似子市场聚类方法、系统、设备及存储介质。

背景技术

随着移动互联网技术的发展，基于位置的服务(LBS)和实际业务场景的结合正在变得越来越可行且重要。数字货运市场是一个典型的LBS服务，也是一个典型的双边市场，它服务货主和司机两类客户。货主把货运需求信息发布到平台上，这些信息中最为键的内容包括货源出发地、目的地、品类、重量、体积、包装方式、装货时间等。司机在寻找合适自己承运的货源时，通常最关心的因素是货物的装、卸货地点、货物的重量、体积、品类、包装方式以及装货时间等。同时司机普遍还会考虑一个重要的因素：他从空车位置开始，到达下一票货源的“空驶距离”。上述因素决定了司机货运业务的单位时间经济效益，以及他所承担的风险。

而且，物流是一个复杂的系统，司机为了保证稳定的利益，不愿意去接新的运输任务，现有的推送方法主要根据司机历史数据推送近似的任务，容易造成信息茧房，这种推送方式也导致了部分热门路线，司机资源的过多，货物资源不足；部分区域(可能是新发展的地区)货物资源过多，司机资源相对不足。如果为了鼓励司机接单，平台可能还要提供额外奖励，这些都暴露了现有物流匹配算法的缺点和漏洞。

有鉴于此，本发明提供了一种基于平台的相似子市场聚类方法、系统、设备及存储介质。

需要说明的是，上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

针对现有技术中的问题，本发明的目的在于提供基于平台的相似子市场聚类方法、系统、设备及存储介质，克服了现有技术的困难，能够通过深度学习特征嵌入的方法来向用户提供相似子市场对应的运输路线，大大提高车货匹配的准确性。

本发明的实施例提供一种基于平台的相似子市场聚类方法，包括以下步骤：

为每个子市场建立一个三维的路线向量，所述路线向量的三个维度的最大值各自是出发城市总数、目标城市总数、代表车辆运载能力的车辆级别总数，并定义第k个子市场的独热编码为SM(k)；

定义训练数据集合为

T∶＝{(y(i)|x₁(i)，…，x_N(i)，SM(i))}

其中y(i)为第i条训练数据的标签取值，x₁(i)，…，x_N(i)为各个特征的取值，N为定义训练数据集合中的特征总数，SM(i)为所处的子市场，i＝1，…，|T|，|T|定义为训练数据集合的大小；

根据训练数据集合每条记录的子市场，可以把训练数据切片到各个子市场：

T(k)∶＝{(y(i)|x_t(i)，…，x_N(i)，SM(i)＝SM(k))}

|T(k)|定义为每个子市场之内的训练数据子集的大小，每个子市场的训练数据采样按照实际各个子市场中的交易数据量等比例抽取；

将所有子市场{SM(1)，…，SM(k)，…，SM(K)}归入M个相似的子市场聚类{G(1)，…，G(m)，…，G(M)}中，并在每个聚类中训练一个算法模型

Y＝FG_m(X₁，…，X_N)

其中M为预设参数，m为1至M之间的自然数，G(m)是第m个子市场聚类，K为预设参数，k为1至K之间的自然数，FG_m是聚类中的一个算法模型函数，X_N是函数中的各个特征的取值；

基于用户的历史路线数据获得至少一属于同一子市场的路线任务，推送给所述用户。

优选地，所述为每个子市场建立一个三维的路线向量，所述路线向量的三个维度的最大值各自是出发城市总数、目标城市总数、代表车辆运载能力的车辆级别总数，并定义第k个子市场的独热编码为SM(k)，还包括：

所述出发城市总数、目标城市总数均为目标区域的城市总数，所述车辆级别总数为根据车身长度划分的5个区间。

所述独热编码为SM(k)代表(0，0，0，...，1，0，0，...0)，仅第k位为1，其余都是0。

优选地，所述将所有子市场{SM(1)，…，SM(k)，…，SM(K)}归入M个相似的子市场聚类{G(1)，…，G(m)，…，G(M)}中，并在每个聚类中训练一个算法模型，包括：

定义全量训练数据T∶＝{(y(i)|x₁(i)，…，x_N(i)，SM(i))}为缺省聚类，训练一个缺省模型：

Y＝FG₀(X₁，…，X_N)

FG₀是聚类中的一个缺省模型函数，根据训练数据在每个子市场的数据量分布|T(k)|，选择数据量最大的M个子市场，分别为每个子市场训练一个模型G(m)＝T(k)，m＝0，...M，训练Y＝FG_m(X₁，…，X_N)；

根据训练数据在M+1个算法模型上平均误差的大小，将子市场训练数据归入平均误差最小的那个子市场聚类中。

优选地，所述根据训练数据在每个子市场的数据量分布|T(k)|，选择数据量最大的M个子市场，分别为每个子市场训练一个模型G(m)＝T(k),还包括：

计算每个子市场k＝1，...K中的训练数据分别采用这M+1个模型来预测时的平均误差，其中m＝0为缺省模型。

优选地，所述根据训练数据在M+1个算法模型上平均误差的大小，将子市场训练数据归入平均误差最小的那个子市场聚类中，包括：

遍历每个算法模型，子市场聚类初始设为空集；

遍历每个子市场，为每个子市场匹配一误差最小的算法模型；

将该子市场数据并入该算法模型对应的所述子市场聚类；

将该子市场训练误差计入总误差；

循环训练，直到总误差最小化；

获得M个相似的子市场聚类{G(1)，…，G(m)，…，G(M)}。

优选地，所述基于用户的历史路线数据获得至少一属于同一子市场的路线任务，推送给所述用户，包括：

获得用户的各条历史路线数据对应的子市场聚类的统计；

将次数最高的前若干项所述子市场聚类的集合作为备选路线集合；

至少基于用户的当前位置，自所述备选路线集合中匹配至少一子市场对应的运输路线任务反馈给所述用户。

优选地，所述基于用户的历史路线数据获得至少一属于同一子市场的路线任务，推送给所述用户，还包括：

监控备选路线集合中各子市场的运输路线任务的热度，优先将匹配成功率低的运输路线任务进行匹配，从而使得不同地区的运力匹配均匀化，避免少数地区长期无人接单，作为司机由于接收到的依然是与其熟悉的历史运输任务高度相似的新的运输任务，所以也保护的司机利益，但不以此为限。

本发明的实施例还提供一种基于平台的相似子市场聚类系统，用于实现上述的基于平台的相似子市场聚类方法，基于平台的相似子市场聚类系统包括：

路线向量化模块，为每个子市场建立一个三维的路线向量，所述路线向量的三个维度的最大值各自是出发城市总数、目标城市总数、代表车辆运载能力的车辆级别总数，并定义第k个子市场的独热编码为SM(k)；

训练数据集合模块，定义训练数据集合为

T∶＝{(y(i)|x₁(i)，…，x_N(i)，SM(i))}

训练数据切片模块，根据训练数据集合每条记录的子市场，可以把训练数据切片到各个子市场：

T(k)∶＝{(y(i)|x₁(i)，…，x_N(i)，SM(i)＝SM(k))}

算法模型训练模块，将所有子市场：

{SM(1)，…，SM(k)，…，SM(K)}归入M个相似的子市场聚类{G(1)，…，G(m)，…，G(M)}中，并在每个聚类中训练一个算法模型

Y＝FG_m(X₁，…，X_N)

路线任务推送模块，基于用户的历史路线数据获得至少一属于同一子市场的路线任务，推送给所述用户。

本发明的实施例还提供一种基于平台的相似子市场聚类设备，包括：

处理器；

存储器，其中存储有处理器的可执行指令；

其中，处理器配置为经由执行可执行指令来执行上述基于平台的相似子市场聚类方法的步骤。

本发明的实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现上述基于平台的相似子市场聚类方法的步骤。

本发明的基于平台的相似子市场聚类方法、系统、设备及存储介质，能够通过深度学习特征嵌入的方法来向用户提供相似子市场对应的运输路线，大大提高车货匹配的准确性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1是本发明的基于平台的相似子市场聚类方法的流程图。

图2是本发明的基于平台的相似子市场聚类方法的一种实施过程景的示意图。

图3是本发明的基于平台的相似子市场聚类系统的结构示意图。

图4是本发明的基于平台的相似子市场聚类设备的结构示意图。以及

图5是本发明一实施例的计算机可读存储介质的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本申请所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用系统，本申请中的各项细节也可以根据不同观点与应用系统，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

下面以附图为参考，针对本申请的实施例进行详细说明，以便本申请所属技术领域的技术人员能够容易地实施。本申请可以以多种不同形态体现，并不限定于此处说明的实施例。

在本申请的表示中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的表示意指结合该实施例或示例表示的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，表示的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本申请中表示的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于表示目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的表示中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

为了明确说明本申请，省略与说明无关的器件，对于通篇说明书中相同或类似的构成要素，赋予了相同的参照符号。

在通篇说明书中，当说某器件与另一器件“连接”时，这不仅包括“直接连接”的情形，也包括在其中间把其它元件置于其间而“间接连接”的情形。另外，当说某种器件“包括”某种构成要素时，只要没有特别相反的记载，则并非将其它构成要素排除在外，而是意味着可以还包括其它构成要素。

当说某器件在另一器件“之上”时，这可以是直接在另一器件之上，但也可以在其之间伴随着其它器件。当对照地说某器件“直接”在另一器件“之上”时，其之间不伴随其它器件。

虽然在一些实例中术语第一、第二等在本发明中用来表示各种元件，但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如，第一接口及第二接口等表示。再者，如同在本发明中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

此处使用的专业术语只用于言及特定实施例，并非意在限定本申请。此处使用的单数形态，只要语句未明确表示出与之相反的意义，那么还包括复数形态。在说明书中使用的“包括”的意义是把特定特性、区域、整数、步骤、作业、要素及/或成份具体化，并非排除其它特性、区域、整数、步骤、作业、要素及/或成份的存在或附加。

虽然未不同地定义，但包括此处使用的技术术语及科学术语，所有术语均具有与本申请所属技术领域的技术人员一般理解的意义相同的意义。普通使用的字典中定义的术语追加解释为具有与相关技术文献和当前提示的内容相符的意义，只要未进行定义，不得过度解释为理想的或非常公式性的意义。

图1是本发明的基于平台的相似子市场聚类方法的流程图。如图1所示，本发明的实施例提供一种基于平台的相似子市场聚类方法，包括以下步骤：

S110、为每个子市场建立一个三维的路线向量，路线向量的三个维度的最大值各自是出发城市总数、目标城市总数、代表车辆运载能力的车辆级别总数，并定义第k个子市场的独热编码为SM(k)。

S120、定义训练数据集合为

T∶＝{(y(i)|x₁(i)，…，x_N(i)，SM(i))}

其中y(i)为第i条训练数据的标签取值，x₁(i)，…，x_N(i)为各个特征的取值，N为定义训练数据集合中的特征总数，SM(i)为所处的子市场，i＝1，…，|T|，|T|定义为训练数据集合的大小。

S130、根据训练数据集合每条记录的子市场，可以把训练数据切片到各个子市场：

T(k)∶＝{(y(i)|x₁(i)，…，x_N(i)，sm(i)＝SM(k))}

|T(k)|定义为每个子市场之内的训练数据子集的大小，每个子市场的训练数据采样按照实际各个子市场中的交易数据量等比例抽取。

S140、将所有子市场{SM(1)，…，SM(k)，…，SM(K)}归入M个相似的子市场聚类{G(1)，…，G(m)，…，G(M)}中，并在每个聚类中训练一个算法模型

Y＝FG_m(X₁，…，X_N)

其中，M为预设参数，m为1至M之间的自然数，G(m)是第m个子市场聚类，K为预设参数，k为1至K之间的自然数，FG_m是聚类中的一个算法模型函数，X_N是函数中的各个特征的取值。

S150、基于用户的历史路线数据获得至少一属于同一子市场的路线任务，推送给用户。

在一个优选实施例中，步骤S110还包括：

出发城市总数、目标城市总数均为目标区域的城市总数，车辆级别总数为根据车身长度划分的5个区间。

在一个优选实施例中，步骤S110还包括：

独热编码为SM(k)代表(0，0，0，...，1，0，0，...0)，仅第k位为1，其余都是0。

在一个优选实施例中，步骤S130包括：

S131、根据训练数据集合每条记录的子市场，可以把训练数据根据对应的出发城市编码、目标城市编码、以及训练数据中车辆对应的车辆级别编码切片到各个子市场：

T(k)∶＝{(y(i)|x₁(i)，…，x_N(i)，sm(i)＝SM(k))}

在一个优选实施例中，步骤S140包括：

S141、定义全量训练数据T∶＝{(y(i)|x₁(i)，…，x_N(i)，SM(i))}为缺省聚类，训练一个缺省模型：

Y＝FG₀(X₁，…，X_N)

FG₀是聚类中的一个缺省模型函数；

S142、根据训练数据在每个子市场的数据量分布|T(k)|，选择数据量最大的M个子市场，分别为每个子市场训练一个模型G(m)＝T(k)，m＝0，...M，训练Y＝FG_m(X₁，…，X_N)。

S143、根据训练数据在M+1个算法模型上平均误差的大小，将子市场训练数据归入平均误差最小的那个子市场聚类中。

在一个优选实施例中，步骤S142还包括：

在一个优选实施例中，步骤S143包括：

S1431、遍历每个算法模型，子市场聚类初始设为空集。

S1432、遍历每个子市场，为每个子市场匹配一误差最小的算法模型。

S1433、将该子市场数据并入该算法模型对应的子市场聚类。

S1434、将该子市场训练误差计入总误差。

S1435、循环训练，直到总误差最小化。

S1436、获得M个相似的子市场聚类{G(1)，…，G(m)，…，G(M)}。

在一个优选实施例中，步骤S150包括：

S151、获得用户的各条历史路线数据对应的子市场聚类的统计。

S152、将次数最高的前若干项子市场聚类的集合作为备选路线集合。

S153、至少基于用户的当前位置，自备选路线集合中匹配至少一子市场对应的运输路线任务反馈给用户。

在一个优选实施例中，监控备选路线集合中各子市场的运输路线任务的热度，优先将匹配成功率低的运输路线任务进行匹配，从而使得不同地区的运力匹配均匀化，避免少数地区长期无人接单，作为司机由于接收到的依然是与其熟悉的历史运输任务高度相似的新的运输任务，所以也保护的司机利益，但不以此为限。

本发明的基于平台的相似子市场聚类方法能够通过深度学习特征嵌入的方法来向用户提供相似子市场对应的运输路线，大大提高车货匹配的准确性。

从全局宏观的角度来看，全国公路货运市场是一个彼此联通的大网络。然而在实际运营中，对于各种运力产品而言，线路(出发地+目的地)以及在一条线路上运行的典型车辆(主要由车长、车型所刻画)之间的可替代性有限。举例来说，某司机驾驶一辆9米6的厢式货车在A地到B地之间跑运输，该司机选择这条线路以及购买该型车辆的主要原因通常是在线路上有相对固定的货源资源，比较熟悉该线路的道路和停车地点，历史经验表明他的商业闭环有利润空间，要他轻易地改变线路是比较困难的，因为其中涉及了成本和其他风险的提高。

全国公路货运市场在某个具体时间段内，无论是运输需求的货源组成，还是运力数量和分布，乃至于运输价格及价格的波动趋势都非常明确地显示出由线路所决定的特征。大量数据充分说明，司机选择的运输线路虽然存在一定的漫游可能性，但更多的司机会倾向于在自己熟悉的线路上拉货。现象背后的主要原因在于公路货运的本质是一个B2B(公司对公司)业务，而B2B服务根本的盈利模式是“重复成功的行为”。重复才能带来的效率的提高、时间和其他成本的节约以及风险的下降，从而保证盈利空间。

基于上述观察，通过把整个公路货运市场定义为大量“部分可替代子市场”的集合，并定义一个子市场的颗粒度为“线路(出发地城市+目的地城市)x车长”。全国目前有333座地级市，4个直辖市，如果车长按照典型数据分为5段，那么就有337*337*5＝567845个子市场。一个运输需求(货源信息)在从它被发布到平台上开始，到它被某个司机接单为止的全部生命周期中，根据其所处的子市场不同，供需、价格的分布存在巨大的差异，这对于司机接单决策、平台调度都有深远的影响。

从数据角度看，全国公路货运市场在各个子市场之间存在高度分化，有些子市场内供需旺盛，且相对平衡，数据量饱满；有些子市场供需高度不平衡；还有一些子市场则长年仅有零星的货运交易，数据高度稀疏。在数据稀疏的子市场上，难以形成有效的统计值、并基于统计达成共识(标准化)；因此，非常有必要把行为相似的子市场加以合并，从数量和质量两个方面保证统计值的合理性。

由于公路货运市场是典型的“线路级市场”，运输需求的货源组成、运力数量和分布、乃至于运输价格及价格的波动趋势都非常明确地显示出由线路所决定的特征。如通过在上文中提到，如果定义一个子市场的颗粒度为“线路(出发地城市+目的地城市)x车长”，那么全国就有337*337*5＝567845个子市场。除了少量子市场的业务数据相对饱满，大部分子市场的数据都是高度稀疏的。

另一方面，目前工业界所采用的机器学习和深度学习算法普遍基于海量特征以及海量数据来建模；当模型中遇到某些特征存在大量无顺序离散取值，也就是所谓“高基数(high cardinality)”特征时，例如线路中的出发地城市ID和目的地城市ID，算法极度依赖增加模型复杂度和加大训练数据集的方案，会导致最终所得的模型规模庞大且缺乏可解释性，服务器算力消耗巨大。相似子市场的挖掘和归并，可以避免在模型中引入上述高基数特征，保证模型规模受控、物理意义更加明确、可解释性提高。这是本发明所要解决的当前算法所面临的主要技术缺陷。

本发明的实施过程如下：

(1)公路货运子市场的独热编码(One-hot Encoding)

定义一个子市场的颗粒度为“线路(出发地城市+目的地城市)x车长”，这样一个具体子市场的主键就由(from_city_id,to_city_id，truck_length_id)的取值唯一决定。全国目前有333座地级市，4个直辖市，如果车长按照典型数据分为5段，那么就有337*337*5＝567845个子市场。

所谓独热编码就是每个子市场由一个567845维的向量表示。对于一个具体的子市场而言，其中567844个元素为0，仅有一个维度的值为1，它代表了当前的子市场。对于第k个子市场，它的独热编码就是如下向量，(0,0,0,...,1,0,0,...0)，仅第k位为1，其余都是0。每个子市场的独热编码是唯一的。

定义第k个子市场的独热编码为SM(k)，而全局市场定义为全部子市场的集合

GM：＝{SM(1),…,SM(k),…,SM(K)}

因此，K＝|GM|＝567845为需要所关心的子市场的总数。

2)监督训练数据集合

机器学习的目标是用一组输入特征来预测一个输出值，在公路货运场景下，输出结果可能是成交概率[0,1]，成交与否(0/1)，或者成交的价格[0,]等等。

由于公路货运市场是典型的“线路级市场”，各个车长之间的可替代性偏弱，因此前述定义的子市场SM(k)是一个重要的输入特征。

整个监督学习的目标是建立一个算法模型

Y＝F(X₁,…,X_N,SM)

其中，X₁,…,X_N,SM是模型训练的输入特征集合，Y为输出结果。其中SM为数据所处的子市场，是一个高基数特征。如果SM作为一个输入特征来建模，所得算法模型的复杂度会很高，可解释性变差。

定义训练数据集合为

T：＝{(y(i)|x₁(i),…,x_N(i),sm(i))}

其中y(i)为第i条训练数据的标签取值,x₁(i),…,x_N(i)为各个特征的取值，sm(i)为所处的子市场。|T|为训练数据集合的大小，i＝1,…,|T|。根据训练数据集合每条记录的子市场，可以把训练数据切片到各个子市场：

T(k)：＝{(y(i)|x₁(i),…,x_N(i),sm(i)＝SM(k))}

|T(k)|定义为每个子市场之内的训练数据子集的大小。每个子市场的训练数据采样按照实际各个子市场中的交易数据量等比例抽取。

(3)对训练特征的特殊考虑

由于全国公路货运市场是一个天然的LBS(Location Based Service基于地理位置的服务)，实际地理位置，例如出发地的区域、省份、城市，目的地的区域、省份、城市等的分布对于各个子市场之间的相似性有重要的影响。基于上述假设，在训练数据的特征集合{X₁,…,X_N}中，有意识地引入出发地经纬度、目的地经纬度、出发地到目的地的极坐标方向等连续数值型的特征。

为了进一步刻画子市场的属性，还需在训练数据的特征中引入分时段的子市场需求、供给统计量，出发城市需求、供给统计量，出发省份需求、供给统计量等统计特征。实际经验中，这些统计量对于预测输出量Y有很强的相关性。

(4)模型训练过程

如前述，整个监督学习的目标是建立一个算法模型

Y＝F(X₁,…,X_N,SM)

本发明的目标是把所有子市场{SM(1),…,SM(k),…,SM(K)}归入M个相似的子市场聚类{G(1),…,G(m),…,G(M)}中，并在每个聚类中训练一个算法模型

Y＝FG_m(X₁,…,X_N)

其中m＝1,…,M。

如果简单地通过事前的无监督聚类算法来获取这M个子市场聚类，很难把所谓的“相似性”按照最终的目标函数定义清楚。这里所谓的“相似”是基于对Y预测的准确性来定义的。以下是本发明的算法：

Step 0,训练缺省模型

初始时，定义全量训练数据T：＝{(y(i)|x₁(i),…,x_N(i),SM(i))}为缺省聚类，训练一个缺省模型：

Y＝FG₀(X₁,…,X_N)

根据所需输出结果的不同，例如成交概率[0,1]，成交与否(0/1)，或者成交的价格[0,]，训练方法可采用传统机器学习、深度学习所采用的线性或非线性分类、聚类算法。

Step 1,训练M个模型(M是一个选定的常数，例如300)

根据训练数据在每个子市场的数据量分布|T(k)|，选择数据量最大的M个子市场，这里的M就是最终期望产出的聚类数目。为每个子市场训练一个模型

For m＝1,...M

G(m)＝T(k)##采用训练数据量最大的M个子市场数据

训练Y＝FG_m(X₁,…,X_N)##训练模型

这样就有了m＝0,...M一共M+1个训练好的算法模型，其中m＝0为缺省模型。计算每个子市场k＝1,...K中的训练数据分别采用这M+1个模型来预测时的平均误差

本发明中，可以采用现有的训练模型集合，对各个子市场数据进行训练，通过统计不同训练模型的误差，将误差最小的训练模型作为该子市场的训练模型，此处不再赘述。

Step 2,数据归类，计算整体误差

根据训练数据在上述M+1个算法模型上平均误差的大小，将子市场训练数据归入误差最小的那个子市场聚类中，

Step 3,循环训练，直到误差停止下降

(5)模型输出

从上述训练过程可以看到，这个方法最终会得到M个相似的子市场聚类{G(1),…,G(m),…,G(M)}，以及1个缺省聚类。在每个子市场聚类上，对应一个算法模型

Y＝FG_m(X₁,…,X_N),m＝0,…M

这里所谓的“相似”是指在定义的误差函数上，总体误差最小化。

图2是本发明的基于平台的相似子市场聚类方法的一种实施过程景的示意图。如图2所示，通过上述步骤，自定义训练数据集合2中获得了若干个聚类，然后基于车辆1的历史数据的订单信息11、12、13、14、15、16进行完成了各类子市场聚类的次数统计，其中车辆1完成的聚类21、22的次数第一、第二多，则将聚类21、22对应的子市场聚类的集合作为备选路线集合3。最后，自备选路线集合3中来挑选对应的运输路线任务31，至少基于用户的当前位置，自备选路线集合3中匹配一运输路线任务31反馈给车辆1的用户，使得用户能够匹配到一个与其熟悉的历史运输任务高度相似的新的运输任务，避免了用户冒险随意挑选新的运输任务，而造成的风险，提高了客户匹配的准确性，但不以此为限。

在另一个变形例子中，通过在备选路线集合3进行运输路线任务的热度监控，可以将一些冷门的任务发送给合适的司机，从而使得不同地区的运力匹配均匀化，避免少数地区长期无人接单，作为司机由于接收到的依然是与其熟悉的历史运输任务高度相似的新的运输任务，所以也保护的司机利益，但不以此为限。

本方案涉及同时维护M+1个子市场聚类，以及M+1个算法模型。算法高度依赖海量数据的处理能力，对算力的要求非常高。每一个子市场聚类所采用的机器学习方法可以复杂也可以相对简单。通过消除了整体模型中的高基数特征，每个模型的复杂度下降，可解释性提高。

从计算复杂度的角度看，由于固定了聚类的总数M，每次迭代用于估计误差的计算量由单个模型的|P|次计算变为M·|P|次，为线性增长。每个模型的复杂度因为仅在子市场聚类上训练，总的计算量增加不大。合理选择M，可以有效地挖掘相似子市场，并且保证训练高效地进行。

本发明的基础是平台拥有足够的货源量和大量的司机行为数据，这是一个天然的壁垒，没有足够的网络密度，或者对于那些仅有少量线路运营的货运专线，拆分子市场聚类将变得几乎没有意义。

本发明所解决的问题部分可以通过深度学习特征嵌入(Embedding)的方法来解决，但是普通的特征嵌入与最终要预测的输出值本身往往难以建立起直接的关联关系。加入了特征嵌入的深度学习算法模型在可解释性上有天然的不足。本发明是一种端到端的训练方法，所得模型比较简单，可解释性有较大提升。

作为一个算法类的专利，本发明的实际使用效果高度依赖于所要解决的问题与线路和线路聚类的相关性，以及所选取的输入特征集合和要所预测的输出值本身，这需要对海量的实际数据进行持续的分析和探索，因此该发明对简单的侵权有一定的天然障碍。

由于公路货运市场是典型的“线路级市场”，线下业务的实际运营通常是按照线路来组织的,运输需求的货源组成、运力数量和分布、乃至于运输价格及价格波动趋势明确地显示出由线路所决定的特征，跨线路、跨车长的运力可替代性偏低。另一方面，虽然全国公路运输的总体量巨大，但是分散到大量的线路上，存在众多数据极为稀疏的线路，很难基于这些数据建立这些线路上车货匹配和价格预测的数学模型。

本发明提出了一种有效的端到端训练方法，通过可控的计算量增加，可以获得公路货运市场中相似子市场的合理估计。在本算法所产生的相似的子市场聚类中，数据稀疏的问题得到了有效的解决，车货匹配、货源定价算法的性能大幅提高，算法模型的可解释性也更强，对于平台核心业务有重大价值。

图3是本发明的基于平台的相似子市场聚类系统的结构示意图。如图3所示，本发明的基于平台的相似子市场聚类系统5，包括：

路线向量化模块51，为每个子市场建立一个三维的路线向量，路线向量的三个维度的最大值各自是出发城市总数、目标城市总数、代表车辆运载能力的车辆级别总数，并定义第k个子市场的独热编码为SM(k)；

训练数据集合模块52，定义训练数据集合为

P：＝{(y(i)|x₁(i)，…，x_N(i)，SM(i))}

训练数据切片模块53，根据训练数据集合每条记录的子市场，可以把训练数据切片到各个子市场：

T(k)：＝{(y(i)|x₁(i)，…，x_N(i)，sm(i)＝SM(k))}

算法模型训练模块54，将所有子市场{SM(1)，…，SM(k)，…，SM(K)}归入M个相似的子市场聚类{G(1)，…，G(m)，…，G(M)}中，并在每个聚类中训练一个算法模型

Y＝FG_m(X₁，…，X_N)

其中，M为预设参数，m为1至M之间的自然数，G(m)是第m个子市场聚类，K为预设参数，k为1至K之间的自然数，FG_m是聚类中的一个算法模型函数，X_N是函数中的各个特征的取值；

路线任务推送模块55，基于用户的历史路线数据获得至少一属于同一子市场的路线任务，推送给用户。

在一个优选实施例中，路线向量化模块51中出发城市总数、目标城市总数均为目标区域的城市总数，车辆级别总数为根据车身长度划分的5个区间。

在一个优选实施例中，路线向量化模块51中独热编码为SM(k)代表(0，0，0，...，1，0，0，...0)，仅第k位为1，其余都是0。

在一个优选实施例中，算法模型训练模块54被配置为定义全量训练数据T：＝{(y(i)|x₁(i)，…，x_N(i)，SM(i))}为缺省聚类，训练一个缺省模型：

Y＝FG₀(X₁，…，X_N)

FG₀是聚类中的一个缺省模型函数；

根据训练数据在每个子市场的数据量分布|T(k)|，选择数据量最大的M个子市场，分别为每个子市场训练一个模型G(m)＝T(k)，m＝0，...M，训练Y＝FG_m(X₁，…，X_N)；

在一个优选实施例中，算法模型训练模块54中计算每个子市场k＝1，...K中的训练数据分别采用这M+1个模型来预测时的平均误差，其中m＝0为缺省模型。

在一个优选实施例中，算法模型训练模块54还被配置为遍历每个算法模型，子市场聚类初始设为空集；遍历每个子市场，为每个子市场匹配一误差最小的算法模型；将该子市场数据并入该算法模型对应的子市场聚类；将该子市场训练误差计入总误差；循环训练，直到总误差最小化；获得M个相似的子市场聚类{G(1)，…，G(m)，…，G(M)}。

在一个优选实施例中，路线任务推送模块55被配置为获得用户的各条历史路线数据对应的子市场聚类的统计；将次数最高的前若干项子市场聚类的集合作为备选路线集合；至少基于用户的当前位置，自备选路线集合中匹配至少一子市场对应的运输路线任务反馈给用户。

本发明的基于平台的相似子市场聚类系统，能够通过深度学习特征嵌入的方法来向用户提供相似子市场对应的运输路线，大大提高车货匹配的准确性。

本发明实施例还提供一种基于平台的相似子市场聚类设备，包括处理器。存储器，其中存储有处理器的可执行指令。其中，处理器配置为经由执行可执行指令来执行的基于平台的相似子市场聚类方法的步骤。

如上，本发明的基于平台的相似子市场聚类设备能够通过深度学习特征嵌入的方法来向用户提供相似子市场对应的运输路线，大大提高车货匹配的准确性。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。

图4是本发明的基于平台的相似子市场聚类设备的结构示意图。下面参照图4来描述根据本发明的这种实施方式的电子设备600。图4显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，存储单元存储有程序代码，程序代码可以被处理单元610执行，使得处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现的基于平台的相似子市场聚类方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。

如上所示，该实施例的计算机可读存储介质的程序在执行时，能够通过深度学习特征嵌入的方法来向用户提供相似子市场对应的运输路线，大大提高车货匹配的准确性。

图5是本发明的计算机可读存储介质的结构示意图。参考图5所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上，本发明的基于平台的相似子市场聚类方法、系统、设备及存储介质，能够通过深度学习特征嵌入的方法来向用户提供相似子市场对应的运输路线，大大提高车货匹配的准确性。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于平台的相似子市场聚类方法，其特征在于，包括如下步骤：

定义训练数据集合为

T：＝{(y(i)|x₁(i)，...，x_N(i)，SM(i))}

其中y(i)为第i条训练数据的标签取值，x₁(i)，...，x_N(i)为各个特征的取值，N为定义训练数据集合中的特征总数，SM(i)为所处的子市场，i＝1，...，|T|，|T|定义为训练数据集合的大小；

T(k)：＝{(y(i)|x₁(i)，...，x_N(i)，SM(i)＝SM(k))}

|T(k)|定义为每个子市场之内的训练数据子集的大小；

将所有子市场{SM(1)，...，SM(k)，...，SM(K)}归入M个相似的子市场聚类{G(1)，...，G(m)，...，G(M)}中，并在每个聚类中训练一个算法模型

Y＝FG_m(X₁，...，X_N)

其中M为预设参数，m为1至M之间的自然数，G(m)是第m个子市场聚类，K为预设参数，k为1至K之间的自然数，FG_m是聚类中的一个算法模型函数，X_N是函数中的各个特征的取值，基于用户的历史路线数据获得至少一属于同一子市场的路线任务，推送给所述用户。

2.如权利要求1所述的基于平台的相似子市场聚类方法，其特征在于，所述为每个子市场建立一个三维的路线向量，所述路线向量的三个维度的最大值各自是出发城市总数、目标城市总数、代表车辆运载能力的车辆级别总数，并定义第k个子市场的独热编码为SM(k)，还包括：

3.如权利要求1所述的基于平台的相似子市场聚类方法，其特征在于，所述为每个子市场建立一个三维的路线向量，所述路线向量的三个维度的最大值各自是出发城市总数、目标城市总数、代表车辆运载能力的车辆级别总数，并定义第k个子市场的独热编码为SM(k)，还包括：

4.如权利要求1所述的基于平台的相似子市场聚类方法，其特征在于，所述将所有子市场{SM(1)，...，SM(k)，...，SM(K)}归入M个相似的子市场聚类{G(1)，...，G(m)，...，G(M)}中，并在每个聚类中训练一个算法模型，包括：

定义全量训练数据T：＝{(y(i)|x₁(i)，...，x_N(i)，SM(i))}为缺省聚类，训练一个缺省模型：

Y＝FG₀(X₁，...，X_N)

FG₀是聚类中的一个缺省模型函数，根据训练数据在每个子市场的数据量分布|T(k)|，选择数据量最大的M个子市场，分别为每个子市场训练一个模型G(m)＝T(k)，训练Y＝FG_m(X₁，...，X_N)；

5.如权利要求4所述的基于平台的相似子市场聚类方法，其特征在于，所述根据训练数据在每个子市场的数据量分布|T(k)|，选择数据量最大的M个子市场，分别为每个子市场训练一个模型G(m)＝T(k)，还包括：

计算每个子市场中的训练数据分别采用这M+1个模型来预测时的平均误差，其中m＝0为缺省模型。

6.如权利要求5所述的基于平台的相似子市场聚类方法，其特征在于，所述根据训练数据在M+1个算法模型上平均误差的大小，将子市场训练数据归入平均误差最小的那个子市场聚类中，包括：

遍历每个算法模型，子市场聚类初始设为空集；

将该子市场数据并入该算法模型对应的所述子市场聚类；

将该子市场训练误差计入总误差；

循环训练，直到总误差最小化；

获得M个相似的子市场聚类{G(1)，...，G(m)，...，G(M)}。

7.如权利要求1所述的基于平台的相似子市场聚类方法，其特征在于，所述基于用户的历史路线数据获得至少一属于同一子市场的路线任务，推送给所述用户，包括：

获得用户的各条历史路线数据对应的子市场聚类的统计；

监控备选路线集合中各子市场的运输路线任务的热度，至少基于用户的当前位置，自所述备选路线集合中匹配至少一子市场对应的运输路线任务反馈给所述用户，优先将匹配成功率低的运输路线任务进行匹配。

8.一种基于平台的相似子市场聚类系统，其特征在于，所述系统包括：

训练数据集合模块，定义训练数据集合为

T：＝{(y(i)|x₁(i)，...，x_N(i)，SM(i))}

T(k)：＝{(y(i)|x₁(i)，...，x_N(i)，SM(i)＝SM(k))}

算法模型训练模块，将所有子市场{SM(1)，...，SM(k)，...，SM(K)}归入M个相似的子市场聚类{G(1)，...，G(m)，...，G(M)}中，并在每个聚类中训练一个算法模型

Y＝FG_m(X₁，...，X_N)

9.一种基于平台的相似子市场聚类设备，其特征在于，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任一项所述的基于平台的相似子市场聚类方法的步骤。

10.一种计算机可读存储介质，用于存储程序，其特征在于，所述程序被执行时实现权利要求1至7中任一项所述的基于平台的相似子市场聚类方法的步骤。