CN113052534A

CN113052534A - 基于半监督聚类的地址分配方法、装置、设备及存储介质

Info

Publication number: CN113052534A
Application number: CN202110338276.0A
Authority: CN
Inventors: 杨天宇; 李培吉
Original assignee: Dongpu Software Co Ltd
Current assignee: Dongpu Software Co Ltd
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-06-29
Anticipated expiration: 2041-03-30
Also published as: CN113052534B

Abstract

本发明涉及人工智能领域，公开了基于半监督聚类的地址分配方法、装置、设备及存储介质，用于提高预测聚类点的准确率，从而提高地址分配的准确率。基于半监督聚类的地址分配方法包括：获取待分单地址数据，并对所述待分单地址数据进行向量化处理，生成目标待分单地址向量；获取多个历史地址向量，并基于所述目标待分单地址向量在多个历史地址向量中进行向量提取，得到多个提取后的历史地址向量；根据所述目标待分单地址向量和所述多个提取后的历史地址向量进行半监督聚类和聚类点过滤，得到目标地址聚类点；基于所述目标地址聚类点和预置的分配标准，将所述待分单地址数据分配至对应的目标业务员。

Description

基于半监督聚类的地址分配方法、装置、设备及存储介质

技术领域

本发明涉及机器学习领域，尤其涉及一种基于半监督聚类的地址分配方法、装置、设备及存储介质。

背景技术

物流系统包括很多业务节点，例如揽件扫描、用户地址清洗、货物分配、货物配送等，每个业务节点都伴随一些问题，例如，在一个物流系统中存在大量的用户地址，如何高效的对用户地址进行清洗，已经成为了一大难题，又例如，在货物分配时，如何高效的基于地址进行货物分配，也成为了分配的一大难题。

货物分配主要是基于地址进行分配，可以将货物分配理解为地址分配，在现有技术中，为了高效的进行地址分配，首先将地址归结到某个聚类点上，并且将该聚类点返回给整体分单推荐系统，结合该点上最近揽件的业务员，配合对应情况的推荐算法进行业务员揽件推荐。但是在使用K-MEANS算法对地址向量聚类的过程中，由于在聚类时基于地址向量缺乏业务边界信息的使用，导致预测聚类点精确率较低的问题，从而导致地址分配的准确率也较低。

发明内容

本发明提供了一种基于半监督聚类的地址分配方法、装置、设备及存储介质，用于提高预测聚类点的准确率，从而提高地址分配的准确率。

本发明第一方面提供了一种基于半监督聚类的地址分配方法，包括：获取待分单地址数据，并对所述待分单地址数据进行向量化处理，生成目标待分单地址向量；获取多个历史地址向量，并基于所述目标待分单地址向量在多个历史地址向量中进行向量提取，得到多个提取后的历史地址向量；根据所述目标待分单地址向量和所述多个提取后的历史地址向量进行半监督聚类和聚类点过滤，得到目标地址聚类点；基于所述目标地址聚类点和预置的分配标准，将所述待分单地址数据分配至对应的目标业务员。

可选的，在本发明第一方面的第一种实现方式中，所述获取待分单地址数据，并对所述待分单地址数据进行向量化处理，生成目标待分单地址向量包括：获取待分单地址数据，并将所述待分单地址数据输入预置的向量化模型中，生成初始待分单地址向量；采用预置的主分量分析算法对所述初始待分单地址向量进行降维压缩，生成目标待分单地址向量。

可选的，在本发明第一方面的第二种实现方式中，所述获取多个历史地址向量，并基于所述目标待分单地址向量在多个历史地址向量中进行向量提取，得到多个提取后的历史地址向量包括：获取多个历史地址向量，并分别计算所述多个历史地址向量和所述目标待分单地址向量的距离，生成多个向量距离；将目标向量距离小于或者等于距离阈值的历史地址向量确定为初始历史地址向量，得到多个初始历史地址向量；按照向量数量阈值对所述多个初始历史地址向量进行提取，得到多个提取后的历史地址向量。

可选的，在本发明第一方面的第三种实现方式中，所述根据所述目标待分单地址向量和所述多个提取后的历史地址向量进行半监督聚类和聚类点过滤，得到目标地址聚类点包括：将所述目标待分单地址向量和所述多个提取后的历史地址向量输入提前训练好的半监督聚类模型中进行半监督聚类，生成多个地址聚类点相似度，一个地址聚类点相似度对应一个提取后的历史地址向量；基于所述多个地址聚类点相似度和所述多个提取后的历史地址向量对多个预置的地址聚类点进行聚类点过滤，得到目标地址聚类点。

可选的，在本发明第一方面的第四种实现方式中，所述将所述目标待分单地址向量和所述多个提取后的历史地址向量输入提前训练好的半监督聚类模型中进行半监督聚类，生成多个地址聚类点相似度，一个地址聚类点相似度对应一个提取后的历史地址向量包括：基于所述目标待分单地址向量和每个提取后的历史地址向量进行向量计算，生成与每个提取后的历史地址向量对应的新目标地址向量；基于每个新目标地址向量、每个提取后的历史地址向量、所述目标待分单地址向量和预置的相似度计算公式，进行相似度计算，生成与每个提取后的历史地址向量对应的地址聚类点相似度，得到多个地址聚类点相似度。

可选的，在本发明第一方面的第五种实现方式中，所述基于所述多个地址聚类点相似度和所述多个提取后的历史地址向量对多个预置的地址聚类点进行聚类点过滤，得到目标地址聚类点包括：过滤掉目标提取后的历史地址向量，得到目标历史地址向量，所述目标提取后的历史地址向量为地址聚类点相似度大于相似度阈值的提取后的历史地址向量；读取目标历史地址向量的目标聚类点标签，并将所述目标聚类点标签对应的地址聚类点确定为目标地址聚类点。

可选的，在本发明第一方面的第六种实现方式中，在所述获取待分单地址数据，并对所述待分单地址数据进行向量化处理，生成目标待分单地址向量之前，还包括：获取聚类点训练数据集和聚类点测试数据集，并基于所述聚类点训练数据集进行模型训练，生成初始半监督聚类模型；基于所述聚类点测试数据集和所述初始半监督聚类模型进行交叉熵计算和参数调整，生成提前训练好的半监督聚类模型。

本发明第二方面提供了一种基于半监督聚类的地址分配装置，包括：获取与向量化模块，用于获取待分单地址数据，并对所述待分单地址数据进行向量化处理，生成目标待分单地址向量；提取模块，用于获取多个历史地址向量，并基于所述目标待分单地址向量在多个历史地址向量中进行向量提取，得到多个提取后的历史地址向量；聚类与过滤模块，用于根据所述目标待分单地址向量和所述多个提取后的历史地址向量进行半监督聚类和聚类点过滤，得到目标地址聚类点；分配模块，用于基于所述目标地址聚类点和预置的分配标准，将所述待分单地址数据分配至对应的目标业务员。

可选的，在本发明第二方面的第一种实现方式中，所述获取与向量化模块还可以具体用于：获取待分单地址数据，并将所述待分单地址数据输入预置的向量化模型中，生成初始待分单地址向量；采用预置的主分量分析算法对所述初始待分单地址向量进行降维压缩，生成目标待分单地址向量。

可选的，在本发明第二方面的第二种实现方式中，所述提取模块还可以具体用于：获取多个历史地址向量，并分别计算所述多个历史地址向量和所述目标待分单地址向量的距离，生成多个向量距离；将目标向量距离小于或者等于距离阈值的历史地址向量确定为初始历史地址向量，得到多个初始历史地址向量；按照向量数量阈值对所述多个初始历史地址向量进行提取，得到多个提取后的历史地址向量。

可选的，在本发明第二方面的第三种实现方式中，所述聚类与过滤模块包括：聚类单元，用于将所述目标待分单地址向量和所述多个提取后的历史地址向量输入提前训练好的半监督聚类模型中进行半监督聚类，生成多个地址聚类点相似度，一个地址聚类点相似度对应一个提取后的历史地址向量；过滤单元，用于基于所述多个地址聚类点相似度和所述多个提取后的历史地址向量对多个预置的地址聚类点进行聚类点过滤，得到目标地址聚类点。

可选的，在本发明第二方面的第四种实现方式中，聚类单元还可以具体用于：基于所述目标待分单地址向量和每个提取后的历史地址向量进行向量计算，生成与每个提取后的历史地址向量对应的新目标地址向量；基于每个新目标地址向量、每个提取后的历史地址向量、所述目标待分单地址向量和预置的相似度计算公式，进行相似度计算，生成与每个提取后的历史地址向量对应的地址聚类点相似度，得到多个地址聚类点相似度。

可选的，在本发明第二方面的第五种实现方式中，所述过滤单元还可以具体用于：过滤掉目标提取后的历史地址向量，得到目标历史地址向量，所述目标提取后的历史地址向量为地址聚类点相似度大于相似度阈值的提取后的历史地址向量；读取目标历史地址向量的目标聚类点标签，并将所述目标聚类点标签对应的地址聚类点确定为目标地址聚类点。

可选的，在本发明第二方面的第五种实现方式中，所述基于半监督聚类的地址分配装置还包括：训练模块，用于获取聚类点训练数据集和聚类点测试数据集，并基于所述聚类点训练数据集进行模型训练，生成初始半监督聚类模型；计算与调整模块，用于基于所述聚类点测试数据集和所述初始半监督聚类模型进行交叉熵计算和参数调整，生成提前训练好的半监督聚类模型。

本发明第三方面提供了一种基于半监督聚类的地址分配设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于半监督聚类的地址分配设备执行上述的基于半监督聚类的地址分配方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于半监督聚类的地址分配方法。

本发明提供的技术方案中，获取待分单地址数据，并对所述待分单地址数据进行向量化处理，生成目标待分单地址向量；获取多个历史地址向量，并基于所述目标待分单地址向量在多个历史地址向量中进行向量提取，得到多个提取后的历史地址向量；根据所述目标待分单地址向量和所述多个提取后的历史地址向量进行半监督聚类和聚类点过滤，得到目标地址聚类点；基于所述目标地址聚类点和预置的分配标准，将所述待分单地址数据分配至对应的目标业务员。本发明实施例中，将待分单地址数据向量化为目标待分单地址向量，然后结合提取后的历史地址向量(业务边界信息)进行半监督聚类和聚类点过滤，得到目标地址聚类点，并基于该目标地址聚类点进行待分单地址数据的分配，在地址分配中提高了预测聚类点的准确率，从而提高了地址分配的准确率。

附图说明

图1为本发明实施例中基于半监督聚类的地址分配方法的一个实施例示意图；

图2为本发明实施例中基于半监督聚类的地址分配方法的另一个实施例示意图；

图3为本发明实施例中的链接关系图；

图4为本发明实施例中基于半监督聚类的地址分配装置的一个实施例示意图；

图5为本发明实施例中基于半监督聚类的地址分配装置的另一个实施例示意图；

图6为本发明实施例中基于半监督聚类的地址分配设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于半监督聚类的地址分配方法、装置、设备及存储介质，用于提高预测聚类点的准确率，从而提高地址分配的准确率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于半监督聚类的地址分配方法的一个实施例包括：

101、获取待分单地址数据，并对待分单地址数据进行向量化处理，生成目标待分单地址向量；

服务器获取货物的待分单地址数据，然后将待分单地址数据向量化为目标待分单地址向量。

为了便于说明，本方案主要针对一个待分单地址数据进行详细说明，当对多个待分单地址数据进行地址分配时，按照同样的方法进行地址分配。待分单地址数据为经纬度数据，服务器在获取为经纬度数据的待分单地址数据之后，对待分单地址数据进行向量化处理，生成待分单地址向量，在本实施例中，待分单地址向量以矩阵的形式呈现，其中矩阵左边的字母表示地址的节点，假设某待分单地址对应的待分单地址向量如下所示：

a[333]

在本实施例中，为了便于说明，假设待分单地址向量为3维向量，节点a对应的行向量为地址a对应的待分单地址向量。

可以理解的是，本发明的执行主体可以为基于半监督聚类的地址分配装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

102、获取多个历史地址向量，并基于目标待分单地址向量在多个历史地址向量中进行向量提取，得到多个提取后的历史地址向量；

服务器获取多个历史地址向量，并根据目标待分单地址向量和多个历史地址向量中确定多个提取后的历史地址向量。

在服务器将待分单地址数据处理为目标待分单地址向量之后，服务器可以对每个历史地址向量和目标待分单地址向量进行计算，从而得到每个历史地址向量和目标待分单地址向量之间的距离，然后提取几个距离较小的历史地址向量作为提取后的历史地址向量。多个提取后的历史地址向量与目标待分单地址向量的存在形式是相同的，例如，

其中，b对应的行向量为一个提取后的历史地址向量，c对应的行向量为一个提取后的历史地址向量，d对应的行向量为一个提取后的历史地址向量。

103、根据目标待分单地址向量和多个提取后的历史地址向量进行半监督聚类和聚类点过滤，得到目标地址聚类点；

服务器根据目标待分单地址向量和多个提取后的历史地址向量进行半监督聚类和聚类点的过滤，从而得到目标地址聚类点。

在本实施例中，可以将半监督聚类和聚类点过滤的过程看作一个清洗聚类点的过程，提取后的历史地址向量分别有对应的聚类点，服务器半监督聚类的过程可以理解为计算每个提取后的历史地址向量与目标待分单地址向量之间的相似度，然后基于得到的相似度对多个提取后的历史地址向量进行过滤，即对多个提取后的历史地址向量对应的聚类点进行过滤，从而得到目标地址聚类点。假设多个提取后的历史地址向量分别为上海市浦东新区A路1号的地址向量、上海市青浦区B路2号以及上海市青浦区C路3号，目标待分单地址向量为上海市青浦区C路3号，服务器对这些地址对应的向量进行半监督聚类和聚类点过滤之后，过滤掉上海市浦东新区A路1号的地址向量、上海市青浦区B路2号对应的聚类点，得到上海市青浦区C路3号的聚类点。

104、基于目标地址聚类点和预置的分配标准，将待分单地址数据分配至对应的目标业务员。

服务器基于目标地址聚类点和预置的分配标准将待分单地址数据分配至对应的目标业务员。

预置的分配标准至少包括派送范围标准和匹配关系，例如业务员D与上海市青浦区C路对应的聚类点相匹配，服务器则判断目标地址聚类点是否在业务员D的配送范围内，如果目标地址聚类点在业务员D的配送范围内，则将目标待分单地址数据分配至业务员D，从而由业务员D配送与待分单地址数据对应的货物。

本发明实施例中，将待分单地址数据向量化为目标待分单地址向量，然后结合提取后的历史地址向量(业务边界信息)进行半监督聚类和聚类点过滤，得到目标地址聚类点，并基于该目标地址聚类点进行待分单地址数据的分配，在地址分配中提高了预测聚类点的准确率，从而提高了地址分配的准确率。

请参阅图2，本发明实施例中基于半监督聚类的地址分配方法的另一个实施例包括：

201、获取聚类点训练数据集和聚类点测试数据集，并基于聚类点训练数据集进行模型训练，生成初始半监督聚类模型；

服务器获取聚类点训练数据集，该聚类点训练数据集至少包括多个地址数据和对应的业务员，需要说明的是，为了防止业务员的揽派范围发生冲突和变化，需要分别选取近几天内的地址数据和对应的业务员作为一部分聚类点训练数据集，以及选取其他时段内的地址数据和对应的业务员作为另一部分聚类点训练数据集，在本实施例中，选取3天内的地址数据和对应的业务员作为聚类点训练数据集，在其他实施例中，还可以选取5天内或者7天内的地址数据和对应的业务员作为聚类点训练数据集，对比不做具体限定。

模型训练的过程为：将多个地址数据转换为多个地址向量，并读取对应的业务员的揽派信息，通过判断目标地址向量与其他地址向量的距离远近和相似度来进行半监督聚类的训练，从而得到目标地址向量数据所属的聚类点，然后在基于该聚类点确定业务员，从而得到一个初始半监督聚类模型。

202、基于聚类点测试数据集和初始半监督聚类模型进行交叉熵计算和参数调整，生成提前训练好的半监督聚类模型；

服务器在得到初始半监督聚类模型之后，采用聚类点测试数据集进行参数调整，主要是采用损失函数进行交叉熵计算，再采用梯度下降的方式对模型中的参数进行调整，从而生成提前训练好的半监督聚类模型。

为了便于理解，结合步骤201进行举例说明：

假设聚类点训练数据集包括E数据集和F数据集，其中E数据集为3天内的数据集，F数据集为除这3天内以外，两个月内的数据集，采用E数据集和F数据集进行模型训练，得到初始半监督聚类模型。然后在E数据集中将经过确认后的某个地址实际揽派的业务员标签转换为ONE-HOT向量，同该地址在初始半监督聚类模型下的输出进行交叉熵LOSS值计算，以梯度下降的方式对初始半监督聚类模型中的参数进行调整，从而生成提前训练好的半监督聚类模型。

203、获取待分单地址数据，并对待分单地址数据进行向量化处理，生成目标待分单地址向量；

a[333]

具体的，服务器获取待分单地址数据，并将待分单地址数据输入预置的向量化模型中，生成初始待分单地址向量；服务器采用预置的主分量分析算法对初始待分单地址向量进行降维压缩，生成目标待分单地址向量。

服务器首先获取待分单地址数据，然后将待分单地址数据输入预置的向量化模型中进行向量化处理，生成初始待分单地址向量，初始待分单地址向量为768维的向量。在本实施例中，预置的向量化模型为现有的向量化模型，因此不做过多说明。由于待分单地址数据大部分都不会超过64个字，因此在生成初始待分单地址向量之后，将768维度的初始待分单地址向量进行压缩，采用主分量分析算法压缩初始待分单地址向量的规模，将初始待分单地址向量的维数降低，挑选出最少的维数来概括最重要特征，得到128维的目标待分单地址向量，从而在保证精确度的情况下节省计算机资源。

204、获取多个历史地址向量，并基于目标待分单地址向量在多个历史地址向量中进行向量提取，得到多个提取后的历史地址向量；

具体的，服务器获取多个历史地址向量，并分别计算多个历史地址向量和目标待分单地址向量的距离，生成多个向量距离；服务器将目标向量距离小于或者等于距离阈值的历史地址向量确定为初始历史地址向量，得到多个初始历史地址向量；服务器按照向量数量阈值对多个初始历史地址向量进行提取，得到多个提取后的历史地址向量。

服务器获取多个历史地址向量，分别计算每个历史地址向量和目标待分单地址向量之间的距离，生成多个向量距离，假设有5个历史地址向量，分别为b、c、d、e和f，服务器计算得到5个对应的向量距离，将这5个向量距离与距离阈值进行对比，假设f对应的向量距离大于距离阈值，则将f过滤掉，保留b、c、d、e作为初始历史地址向量，然后将按照向量数量阈值在多个初始历史地址向量中进行提取，假设向量数量阈值为3，服务器在按照向量距离从小到大的顺序提取3个初始历史地址向量作为提取后的历史地址向量，假设多个提取后的历史地址向量为b、c、d。

205、根据目标待分单地址向量和多个提取后的历史地址向量进行半监督聚类和聚类点过滤，得到目标地址聚类点；

具体的，服务器将目标待分单地址向量和多个提取后的历史地址向量输入提前训练好的半监督聚类模型中进行半监督聚类，生成多个地址聚类点相似度，一个地址聚类点相似度对应一个提取后的历史地址向量；服务器基于多个地址聚类点相似度和多个提取后的历史地址向量对多个预置的地址聚类点进行聚类点过滤，得到目标地址聚类点。

服务器将目标待分单地址向量和多个提取后的历史地址向量输入预先训练好的半监督聚类模型中进行半监督聚类，其中预先训练好的半监督聚类模型为：

Z＝f(X,B)＝softmax(BReLU(BXW⁽⁰⁾)W⁽¹⁾)

其中，Z为地址聚类点相似度，B为预先训练好的半监督聚类模型中的某一神经网络层的输出，BX为下一神经网络层的输入向量，W⁽⁰⁾和W⁽¹⁾为半监督聚类模型中可以调整的参数。在计算得到多个地址聚类点相似度之后，将每个地址聚类点相似度与相似度阈值进行比对，如果地址聚类点相似度超过相似度阈值，服务器将该地址聚类点相似度阈值对应的历史地址向量进行删除，即过滤掉了改历史地址向量对应的地址聚类点，从而保留目标地址聚类。

服务器将目标待分单地址向量和多个提取后的历史地址向量输入预先训练好的半监督聚类模型中进行半监督聚类，生成多个地址聚类点相似度，地址聚类点相似度对应一个提取后的历史地址向量包括：

服务器基于目标待分单地址向量和每个提取后的历史地址向量进行向量计算，生成与每个提取后的历史地址向量对应的新目标地址向量；服务器基于每个新目标地址向量、每个提取后的历史地址向量、目标待分单地址向量和预置的相似度计算公式，进行相似度计算，生成与每个提取后的历史地址向量对应的地址聚类点相似度，得到多个地址聚类点相似度。

服务器首先将目标待分单地址向量和多个提取后的历史地址向量整合到一起，形成一个向量矩阵X，如下所示：

在预先训练好的半监督聚类模型中基于该向量矩阵X构建链接关系图，具体如图3所示，并基于图3生成邻接矩阵A，具体如下所示：

服务器在邻接矩阵A上添加单位矩阵l，生成

矩阵，如下所示：

在邻接矩阵A上添加单位矩阵l的目的是为了邻接矩阵A在乘以向量矩阵X后得到的向量合并矩阵能够加上自身的向量；在生成

矩阵之后，采用degree矩阵即D矩阵来进行表示，生成权重矩阵D，权重矩阵D如下所示：

然后对权重矩阵D进行求逆计算，生成权重矩阵的逆D^-1，具体如下所示：

为了平滑处理各个节点的分散程度，服务器再基于上述矩阵进行平滑处理，生成第一层输入向量，具体如下：

为了便于表示，采用B代表

那么第一层输入向量为BX，然后将上述相关矩阵输入预先训练好的半监督聚类模型中，生成多个地址聚类点相似度，预先训练好的半监督聚类模型为：

Z＝f(X,B)＝softmax(BReLU(BXW⁽⁰⁾)W⁽¹⁾)。

服务器基于多个地址聚类点相似度和多个提取后的历史地址向量对多个预置的地址聚类点进行聚类点过滤，得到目标地址聚类点包括：

服务器过滤掉目标提取后的历史地址向量，得到目标历史地址向量，目标提取后的历史地址向量为地址聚类点相似度大于相似度阈值的提取后的历史地址向量；服务器读取目标历史地址向量的目标聚类点标签，并将目标聚类点标签对应的地址聚类点确定为目标地址聚类点。

假设相似度阈值为0.9，服务器计算提取后的历史地址向量b、提取后的历史地址向量c、提取后的历史地址向量d得到的地址聚类点相似度分别为0.8、0.92、0.95，服务器过滤掉提取后的历史地址向量c、提取后的历史地址向量d，保留提取后的历史地址向量b作为目标历史地址向量，然后读取目标历史地址向量的目标聚类点标签，假设该目标聚类点标签为“上海市青浦区C路3号”，服务器则将该标签对应的地址聚类点“上海市青浦区C路3号”确定为目标地址聚类点。

206、基于目标地址聚类点和预置的分配标准，将待分单地址数据分配至对应的目标业务员。

上面对本发明实施例中基于半监督聚类的地址分配方法进行了描述，下面对本发明实施例中基于半监督聚类的地址分配装置进行描述，请参阅图4，本发明实施例中基于半监督聚类的地址分配装置一个实施例包括：

获取与向量化模块401，用于获取待分单地址数据，并对所述待分单地址数据进行向量化处理，生成目标待分单地址向量；

提取模块402，用于获取多个历史地址向量，并基于所述目标待分单地址向量在多个历史地址向量中进行向量提取，得到多个提取后的历史地址向量；

聚类与过滤模块403，用于根据所述目标待分单地址向量和所述多个提取后的历史地址向量进行半监督聚类和聚类点过滤，得到目标地址聚类点；

分配模块404，用于基于所述目标地址聚类点和预置的分配标准，将所述待分单地址数据分配至对应的目标业务员。

请参阅图5，本发明实施例中基于半监督聚类的地址分配装置的另一个实施例包括：

可选的，获取与向量化模块401还可以具体用于：

获取待分单地址数据，并将所述待分单地址数据输入预置的向量化模型中，生成初始待分单地址向量；

采用预置的主分量分析算法对所述初始待分单地址向量进行降维压缩，生成目标待分单地址向量。

可选的，提取模块402还可以具体用于：

获取多个历史地址向量，并分别计算所述多个历史地址向量和所述目标待分单地址向量的距离，生成多个向量距离；

将目标向量距离小于或者等于距离阈值的历史地址向量确定为初始历史地址向量，得到多个初始历史地址向量；

按照向量数量阈值对所述多个初始历史地址向量进行提取，得到多个提取后的历史地址向量。

可选的，聚类与过滤模块403包括：

聚类单元4031，用于将所述目标待分单地址向量和所述多个提取后的历史地址向量输入提前训练好的半监督聚类模型中进行半监督聚类，生成多个地址聚类点相似度，一个地址聚类点相似度对应一个提取后的历史地址向量；

过滤单元4032，用于基于所述多个地址聚类点相似度和所述多个提取后的历史地址向量对多个预置的地址聚类点进行聚类点过滤，得到目标地址聚类点。

可选的，聚类单元4031还可以具体用于：

基于所述目标待分单地址向量和每个提取后的历史地址向量进行向量计算，生成与每个提取后的历史地址向量对应的新目标地址向量；

基于每个新目标地址向量、每个提取后的历史地址向量、所述目标待分单地址向量和预置的相似度计算公式，进行相似度计算，生成与每个提取后的历史地址向量对应的地址聚类点相似度，得到多个地址聚类点相似度。

可选的，过滤单元4032还可以具体用于：

过滤掉目标提取后的历史地址向量，得到目标历史地址向量，所述目标提取后的历史地址向量为地址聚类点相似度大于相似度阈值的提取后的历史地址向量；

读取目标历史地址向量的目标聚类点标签，并将所述目标聚类点标签对应的地址聚类点确定为目标地址聚类点。

可选的，基于半监督聚类的地址分配装置还包括：

训练模块405，用于获取聚类点训练数据集和聚类点测试数据集，并基于所述聚类点训练数据集进行模型训练，生成初始半监督聚类模型；

计算与调整模块406，用于基于所述聚类点测试数据集和所述初始半监督聚类模型进行交叉熵计算和参数调整，生成提前训练好的半监督聚类模型。

上面图4和图5从模块化功能实体的角度对本发明实施例中的基于半监督聚类的地址分配装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于半监督聚类的地址分配设备进行详细描述。

图6是本发明实施例提供的一种基于半监督聚类的地址分配设备的结构示意图，该基于半监督聚类的地址分配设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)610(例如，一个或一个以上处理器)和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于半监督聚类的地址分配设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在基于半监督聚类的地址分配设备600上执行存储介质630中的一系列指令操作。

基于半监督聚类的地址分配设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的基于半监督聚类的地址分配设备结构并不构成对基于半监督聚类的地址分配设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种基于半监督聚类的地址分配设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述基于半监督聚类的地址分配方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于半监督聚类的地址分配方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于半监督聚类的地址分配方法，其特征在于，所述基于半监督聚类的地址分配方法包括：

获取待分单地址数据，并对所述待分单地址数据进行向量化处理，生成目标待分单地址向量；

获取多个历史地址向量，并基于所述目标待分单地址向量在多个历史地址向量中进行向量提取，得到多个提取后的历史地址向量；

根据所述目标待分单地址向量和所述多个提取后的历史地址向量进行半监督聚类和聚类点过滤，得到目标地址聚类点；

基于所述目标地址聚类点和预置的分配标准，将所述待分单地址数据分配至对应的目标业务员。

2.根据权利要求1所述的基于半监督聚类的地址分配方法，其特征在于，所述获取待分单地址数据，并对所述待分单地址数据进行向量化处理，生成目标待分单地址向量包括：

3.根据权利要求1所述的基于半监督聚类的地址分配方法，其特征在于，所述获取多个历史地址向量，并基于所述目标待分单地址向量在多个历史地址向量中进行向量提取，得到多个提取后的历史地址向量包括：

4.根据权利要求1所述的基于半监督聚类的地址分配方法，其特征在于，所述根据所述目标待分单地址向量和所述多个提取后的历史地址向量进行半监督聚类和聚类点过滤，得到目标地址聚类点包括：

将所述目标待分单地址向量和所述多个提取后的历史地址向量输入提前训练好的半监督聚类模型中进行半监督聚类，生成多个地址聚类点相似度，一个地址聚类点相似度对应一个提取后的历史地址向量；

基于所述多个地址聚类点相似度和所述多个提取后的历史地址向量对多个预置的地址聚类点进行聚类点过滤，得到目标地址聚类点。

5.根据权利要求4所述的基于半监督聚类的地址分配方法，其特征在于，所述将所述目标待分单地址向量和所述多个提取后的历史地址向量输入提前训练好的半监督聚类模型中进行半监督聚类，生成多个地址聚类点相似度，一个地址聚类点相似度对应一个提取后的历史地址向量包括：

6.根据权利要求4所述的基于半监督聚类的地址分配方法，其特征在于，所述基于所述多个地址聚类点相似度和所述多个提取后的历史地址向量对多个预置的地址聚类点进行聚类点过滤，得到目标地址聚类点包括：

7.根据权利要求1-6中任一项所述的基于半监督聚类的地址分配方法，其特征在于，在所述获取待分单地址数据，并对所述待分单地址数据进行向量化处理，生成目标待分单地址向量之前，还包括：

获取聚类点训练数据集和聚类点测试数据集，并基于所述聚类点训练数据集进行模型训练，生成初始半监督聚类模型；

基于所述聚类点测试数据集和所述初始半监督聚类模型进行交叉熵计算和参数调整，生成提前训练好的半监督聚类模型。

8.一种基于半监督聚类的地址分配装置，其特征在于，所述基于半监督聚类的地址分配装置包括：

获取与向量化模块，用于获取待分单地址数据，并对所述待分单地址数据进行向量化处理，生成目标待分单地址向量；

提取模块，用于获取多个历史地址向量，并基于所述目标待分单地址向量在多个历史地址向量中进行向量提取，得到多个提取后的历史地址向量；

聚类与过滤模块，用于根据所述目标待分单地址向量和所述多个提取后的历史地址向量进行半监督聚类和聚类点过滤，得到目标地址聚类点；

分配模块，用于基于所述目标地址聚类点和预置的分配标准，将所述待分单地址数据分配至对应的目标业务员。

9.一种基于半监督聚类的地址分配设备，其特征在于，所述基于半监督聚类的地址分配设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于半监督聚类的地址分配设备执行如权利要求1-7中任意一项所述的基于半监督聚类的地址分配方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述基于半监督聚类的地址分配方法。