CN111325495B

CN111325495B - 异常件分类方法及系统

Info

Publication number: CN111325495B
Application number: CN201811543788.5A
Authority: CN
Inventors: 曾庆维; 陈正
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2023-12-01
Anticipated expiration: 2038-12-17
Also published as: CN111325495A

Abstract

本申请公开了一种异常件分类方法及系统，包括：根据异常件的寄件地址的经纬度，获取预设时间段内寄件地址与经纬度相同的历史寄件数据；依历史寄件数据中的相同特征，将历史寄件数据划分为多组处理数据，各组处理数据均包括多种物品类别及各物品类别对应的物品数量；基于各组处理数据分配的权重，对各组处理数据的同一物品类别对应的物品数量进行加权求和，并将最大值所对应的物品类别作为异常件的类别，实现了对异常件进行分类。

Description

异常件分类方法及系统

技术领域

本发明一般涉及物流领域，具体涉及物品分类领域，尤其涉及一种异常件分类方法及系统。

背景技术

现在人们寄快递的时候，必须在运单上填写托寄物名称，对托寄物进行分类不仅可以构建用户画像系统，而且后续还可以对用户进行智能推荐，分析公司业务增长趋势等等。

有些托寄物名称写得不清楚，如托寄物名称为：“物品”，无法根据托寄物名称对托寄物进行分类。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种对不清楚的托寄物进行分类的异常件分类方法及系统。

第一方面，本发明的异常件分类方法，包括：

根据异常件的寄件地址的经纬度，获取预设时间段内寄件地址与经纬度相同的历史寄件数据；

依历史寄件数据中的相同特征，将历史寄件数据划分为多组处理数据，各组处理数据均包括多种物品类别及各物品类别对应的物品数量；

基于各组处理数据分配的权重，对各组处理数据的同一物品类别对应的物品数量进行加权求和，并将最大值所对应的物品类别作为异常件的类别。

第二方面，本发明的异常件分类系统，包括：

获取模块：用于根据异常件的寄件地址的经纬度，获取预设时间段内寄件地址与经纬度相同的历史寄件数据；

划分模块：用于依历史寄件数据中的相同特征，将历史寄件数据划分为多组处理数据，各组处理数据均包括多种物品类别及各物品类别对应的物品数量；

分类模块：用于基于各组处理数据分配的权重，对各组处理数据的同一物品类别对应的物品数量进行加权求和，并将最大值所对应的物品类别作为异常件的类别。

根据本申请实施例提供的技术方案，通过将与异常件的寄件地址相关的历史寄件数据划分为多组处理数据，基于各组处理数据分配的权重，对各组处理数据的同一物品类别对应的物品数量进行加权求和，并将最大值所对应的物品类别作为异常件的类别，能够解决现有技术无法对异常件进行分类的问题。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本发明的实施例的异常件分类方法的流程示意图；

图2为本发明的实施例的异常件分类系统的结构示意图；

图3为适于用来实现本发明实施例的终端设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明的其中一个实施例为，请参考图1，本发明的异常件分类方法，包括：根据异常件的寄件地址的经纬度，获取预设时间段内寄件地址与经纬度相同的历史寄件数据。

在寄快递时，需要填写托寄物名称，通常托寄物名称会对应托寄物分类，例如托寄物为手机，则与手机对应的托寄物分类为“3C电子”，当然，托寄物分类可以是多级分类，多级分类的范围会逐渐变小，例如托寄物为手机，则与手机对应的一级分类为“3C电子”，二级分类为“手机通讯”，三级分类为“手机”，将托寄物分类相差不大的快递进行统一运输，能够提高运输效率，降低运输成本。

在实际工作中，时常会遇到快递的托寄物名称填写不规范，并且托寄物名称极其模糊，导致无法分类的情况，例如托寄物名称为“物品”、“东西”、“货物”等，则将此类无法分类的快递统称为异常件，也就是，异常件无法通过填写的托寄物名称来对其进行分类。

根据异常件的寄件地址，查找与异常件的寄件地址相关的历史寄件数据，在快递员收件时，通常会使用巴枪来录入寄件信息，而巴枪能够自动上传寄件地址的经纬度，通过匹配数据库中的历史寄件数据与异常件的寄件地址的经纬度，来获取历史寄件数据。当然，也可以通过输入异常件的寄件地址来定位异常件的寄件地址的经纬度。获取的历史寄件数据都是与异常件的寄件地址的经纬度相同的历史寄件数据，通过筛选符合条件的历史寄件数据，减少历史寄件数据的数量，从而降低后续步骤的运算量，能够提高处理速度以及处理效率，同时，也能够提高分类的准确性。

依历史寄件数据中的相同特征，将历史寄件数据划分为多组处理数据，各组处理数据均包括多种物品类别及各物品类别对应的物品数量。

历史寄件数据仅仅是与异常件的寄件地址相关的历史寄件数据，也就是与异常件的寄件地址的经纬度相同的历史寄件数据，通过经纬度来筛选历史寄件数据，能够获得更加全面的数据。

寄件信息通常包括寄件人姓名、寄件地址、寄件人联系方式、寄件公司，也就是历史寄件数据中，可以分别按照寄件人姓名、寄件地址、寄件人联系方式、寄件公司来进行分组，由于同一个寄件人姓名，可能对应不同的寄件地址、不同的寄件人联系方式、不同的寄件公司；同一个寄件地址，可能对应不同的寄件人姓名、不同的寄件人联系方式、不同的寄件公司；同一个寄件人联系方式，可能对应不同的寄件人姓名、不同的寄件地址、不同的寄件公司；同一个寄件公司，可能对应不同的寄件人姓名、不同的寄件地址、不同的寄件人联系方式，因此，需要将历史寄件数据按照寄件人姓名、寄件地址、寄件人联系方式、寄件公司来进行分组。不同的分组进行不同的数据处理，能够提高异常件分类的准确性。例如，从历史寄件数据中划分出具有相同的寄件地址的处理数据，其中物品类别有日用品、食品和化妆品，其中日用品有100件，食品有50件，化妆品有30件，以此类推，从历史寄件数据中划分出具有相同的寄件公司、寄件人姓名、寄件人联系方式的处理数据，分别统计各组处理数据中的物品类别以及各物品类别对应的物品数量。

各个特征在对最后的分类结果影响大小不同，因此各个特征会有对应的权重，也就是在寄件地址、寄件公司、寄件人姓名、寄件人联系方式会对应不同的权重，可以但不仅仅为寄件公司对应的权重大于寄件地址对应的权重，寄件地址的权重大于寄件人姓名的权重以及寄件人联系方式的权重，当然具体的权重数值大小可以根据实际情况进行调整，合理的设置各个特征的权重能够使得分类更加准确。

通过对各组处理数据的同一物品类别对应的物品数量进行加权求和，获得权重值之和，来对异常件进行分类。例如，寄件公司维度对应的权重为w₁，寄件公司维度相关的第一被寄物品分类有A、B、C，其中，类别为A的第一被寄物品数量有M₁，类别为B的第一被寄物品数量有M₂，类别为C的第一被寄物品数量有M₃，寄件地址维度对应的权重为w₂，寄件地址维度相关的第一被寄物品分类有A、B、C，其中，类别为A的第一被寄物品数量有N₁，类别为B的第一被寄物品数量有N₂，类别为C的第一被寄物品数量有N₃，寄件人姓名维度对应的权重为w₃，寄件人姓名维度相关的第一被寄物品分类有A、B、C，其中，类别为A的第一被寄物品数量有O₁，类别为B的第一被寄物品数量有O₂，类别为C的第一被寄物品数量有O₃，寄件人联系方式维度对应的权重为w₄，寄件人联系方式维度相关的第一被寄物品分类有A、B、C，其中，类别为A的第一被寄物品数量有P₁，类别为B的第一被寄物品数量有P₂，类别为C的第一被寄物品数量有P₃，则类别A的权重值之和为W₁*M₁+W₂*N₁+W₃*O₁+W₄*P₁，类别B的权重值之和为W₁*M₂+W₂*N₂+W₃*O₂+W₄*P₂，类别C的权重值之和为W₁*M₃+W₂*N₃+W₃*O₃+W₄*P₃。比较类别A的权重值之和、类别B的权重值之和、类别C的权重值之和的大小，将异常件归类为最大的权重值之和对应的第一被寄物品分类，如果类别A的权重值之和最大，那么就将异常件归类为类别A，如果类别B的权重值之和最大，那么就将异常件归类为类别B，如果类别C的权重值之和最大，那么就将异常件归类为类别C。

进一步的，根据位于异常件的寄件地址的移动终端或者根据异常件的寄件地址，获取异常件的寄件地址的经纬度。

在本发明的实施例中，根据异常件的寄件地址，查找与异常件的寄件地址相关的历史寄件数据，在快递员收件时，通常会使用巴枪来录入寄件信息，巴枪带有自动定位系统，能够自动上传寄件地址的经纬度，通过匹配数据库中的历史寄件数据与异常件的寄件地址的经纬度，来获取历史寄件数据。如果用户将异常件送至服务点自寄，可以将异常件的寄件地址输入相应的经纬度信息查询软件，来获取异常件的寄件地址的经纬度，将查询后的异常件的寄件地址对应的经纬度上传，从而进行匹配数据库中的历史寄件数据。获取的历史寄件数据都是与异常件的寄件地址的经纬度相同的历史寄件数据，通过筛选符合条件的历史寄件数据，减少历史寄件数据的量，从而降低后续步骤的运算量，能够提高处理速度以及处理效率。

进一步的，历史寄件数据的特征为寄件公司、寄件地址、寄件人姓名和寄件人联系方式中的任意一种或者多种的组合。

在本发明的实施例中，历史寄件数据的特征为寄件公司、寄件地址、寄件人姓名和寄件人联系方式中的任意一种或者多种的组合，通常寄件信息包括寄件公司、寄件地址、寄件人姓名和寄件人联系方式。按照上述特征来将历史寄件数据进行分组，提高了异常件分类的准确性。

进一步的，对各组处理数据分别进行交集合并处理。

对各组处理数据分别进行交集合并处理，以寄件地址为例，存在四个寄件地址“顺丰科技软件产业基地”，“软件产业基地”，“顺丰科技停车场”，“横垛工业园区”，将每个寄件地址进行分词，获得以下地址[[‘顺丰科技’,‘软件’,‘产业’,‘基地’],[‘软件’,‘产业’,‘基地’],[‘顺丰科技’,‘停车场’],[‘横垛’,‘工业园区’]]，将上述地址进行聚类，获得[[‘顺丰科技’,‘软件’,‘产业’,‘基地’],[‘顺丰科技’,‘停车场’],[‘横垛’,‘工业园区’]]，将获得的结果进行交集合并处理，也就是如果某个分词在多个地址中出现，就将含有同一个分词的多个地址合并成一个新地址，例如[[‘顺丰科技’,‘软件’,‘产业’,‘基地’],[‘顺丰科技’,‘停车场’],[‘横垛’,‘工业园区’]]，第一项和第二项同时存在‘顺丰科技’，那么把这两个地址再次合并，最终的地址为：[[‘顺丰科技’,‘软件’,‘产业’,‘基地’,‘停车场’]，[‘横垛’,‘工业园区’]]。寄件地址的数量会减少，也就是在各组处理数据中，可以将相关的数据一起进行处理。举例来说，对于同样的历史寄件数据，在交集合并处理之前在寄件公司特征上有200个公司，而在交集合并处理之后在寄件公司特征上只有150个公司。对处理数据的同一物品类别对应的物品数量进行加权求和时，需要对在交集合并处理之前在寄件公司特征上的200个公司名称进行逐一处理，或者需要对在交集合并处理之后在寄件公司特征上的150个公司名称进行逐一处理。对各组处理数据分别进行交集合并处理，能够减少计算机的运行量，提高运行效率。同样的，在寄件地址上，也可以采用上述方法进行交集合并处理。当然，在寄件人姓名维度和寄件人联系方式维度，相同的数据可以进行合并，不同的则不用合并，因为寄件人姓名维度、寄件人联系方式维度的数据相对来说比较简单，容易进行处理。

从历史寄件数据筛选出与多维度的第二寄件信息相关的第三历史寄件数据，其中，第三历史寄件数据包括第二被寄物品分类和第二被寄物品数量。

对处理后的各组处理数据的同一物品类别对应的物品数量进行加权求和，并将最大值所对应的物品类别作为异常件的类别。

进一步的，对各组处理数据分别进行交集合并处理，包括，对各组处理数据分别进行切词处理，提取多个核心词集合，合并存在交集的核心词集合对应的处理数据。

在本发明的实施例中，对各组处理数据分别进行交集合并处理，以寄件地址为例，存在四个寄件地址“顺丰科技软件产业基地”，“软件产业基地”，“顺丰科技停车场”，“横垛工业园区”，将每个寄件地址进行分词，获得以下地址[[‘顺丰科技’,‘软件’,‘产业’,‘基地’],[‘软件’,‘产业’,‘基地’],[‘顺丰科技’,‘停车场’],[‘横垛’,‘工业园区’]]，将上述地址进行聚类，获得[[‘顺丰科技’,‘软件’,‘产业’,‘基地’],[‘顺丰科技’,‘停车场’],[‘横垛’,‘工业园区’]]，将获得的结果进行交集合并处理，也就是如果某个分词在多个地址中出现，就将含有同一个分词的多个地址合并成一个新地址，例如[[‘顺丰科技’,‘软件’,‘产业’,‘基地’],[‘顺丰科技’,‘停车场’],[‘横垛’,‘工业园区’]]，第一项和第二项同时存在‘顺丰科技’，那么把这两个地址再次合并，最终的地址为：[[‘顺丰科技’,‘软件’,‘产业’,‘基地’,‘停车场’]，[‘横垛’,‘工业园区’]]。

在对寄件公司以及寄件地址进行切词时，需要剔除垃圾词，来获得核心词集合，在对寄件公司进行切词时，大部分公司名称会包含行政区以及“有限公司”“股份公司”等缺乏信息量的词，在提取核心词集合时，需要先将这些缺乏信息量的垃圾词先剔除。同样的，在对寄件地址进行切词时，也会出现类似的垃圾词，可以建立垃圾词数据库，来进行剔除，从而提高系统运行速度以及准确性。

进一步的，在合并存在交集的核心词集合对应的处理数据之前，对多个核心词集合进行聚合处理。

在本发明的实施例中，在交集合并处理之前先进行聚合处理，例如，[[‘顺丰科技’,‘软件’,‘产业’,‘基地’],[‘软件’,‘产业’,‘基地’],[‘顺丰科技’,‘停车场’],[‘横垛’,‘工业园区’]]，将上述地址进行聚类，获得[[‘顺丰科技’,‘软件’,‘产业’,‘基地’],[‘顺丰科技’,‘停车场’],[‘横垛’,‘工业园区’]]，从而减少交集合并处理的数据量，进而提高处理速度和处理效率。

本发明的另一个实施例为，参考图2，异常件分类系统，包括：

获取模块：用于根据异常件的寄件地址的经纬度，获取预设时间段内寄件地址与经纬度相同的历史寄件数据。

划分模块：用于依历史寄件数据中的相同特征，将历史寄件数据划分为多组处理数据，各组处理数据均包括多种物品类别及各物品类别对应的物品数量。

进一步的，获取模块：用于根据位于异常件的寄件地址的移动终端或者根据异常件的寄件地址，获取异常件的寄件地址的经纬度。

进一步的，分类模块：用于对各组处理数据分别进行交集合并处理。

进一步的，分类模块：用于对各组处理数据分别进行切词处理，提取多个核心词集合，合并存在交集的核心词集合对应的处理数据。

进一步的，分类模块：用于在合并存在交集的核心词集合对应的处理数据之前，对多个核心词集合进行聚合处理。

下面参考图3，其示出了适用于用来实现本申请实施例的终端设备或服务器的计算机系统500的结构示意图。

如图3所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中，还存储有系统500操作所需的各种程序和数据。CPU501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明的实施例，上文参考流程图1描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、划分单元及分类单元。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，获取单元还可以被描述为“用于获取预设时间段内寄件地址与所述经纬度相同的历史寄件数据的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的异常件分类方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种异常件分类方法，其特征在于，包括：

根据异常件的寄件地址的经纬度，获取预设时间段内寄件地址与所述经纬度相同的历史寄件数据；

依所述历史寄件数据中的相同特征，将所述历史寄件数据划分为一组，从而生成多组处理数据，各组所述处理数据均包括多种物品类别及各所述物品类别对应的物品数量；

基于各组所述处理数据分配的权重，对各组所述处理数据的同一物品类别对应的所述物品数量进行加权求和，并将最大值所对应的所述物品类别作为异常件的类别。

2.根据权利要求1所述的异常件分类方法，其特征在于，包括：

根据位于所述异常件的寄件地址的移动终端或者根据所述异常件的寄件地址，获取所述异常件的寄件地址的经纬度。

3.根据权利要求1所述的异常件分类方法，其特征在于，所述历史寄件数据的特征为寄件公司、寄件地址、寄件人姓名和寄件人联系方式中的任意一种或者多种的组合。

4.根据权利要求1所述的异常件分类方法，其特征在于，对各组所述处理数据分别进行交集合并处理，对处理后的各组所述处理数据的同一物品类别对应的所述物品数量进行加权求和，并将最大值所对应的所述物品类别作为异常件的类别，其中，所述交集合并处理包括，对各组所述处理数据分别进行切词处理，提取多个核心词集合，合并存在交集的所述核心词集合对应的所述处理数据。

5.根据权利要求4所述的异常件分类方法，其特征在于，在所述合并存在交集的所述核心词集合对应的所述处理数据之前，对多个所述核心词集合进行聚合处理。

6.一种异常件分类系统，其特征在于，包括：

获取模块：用于根据异常件的寄件地址的经纬度，获取预设时间段内寄件地址与所述经纬度相同的历史寄件数据；

划分模块：用于依所述历史寄件数据中的相同特征，将所述历史寄件数据划分为一组，从而生成多组处理数据，各组所述处理数据均包括多种物品类别及各所述物品类别对应的物品数量；

分类模块：用于基于各组所述处理数据分配的权重，对各组所述处理数据的同一物品类别对应的所述物品数量进行加权求和，并将最大值所对应的所述物品类别作为异常件的类别。

7.根据权利要求6所述的异常件分类系统，其特征在于，所述获取模块：用于根据位于所述异常件的寄件地址的移动终端或者根据所述异常件的寄件地址，获取所述异常件的寄件地址的经纬度。

8.根据权利要求6所述的异常件分类系统，其特征在于，所述分类模块：用于对各组所述处理数据分别进行交集合并处理，对处理后的各组所述处理数据的同一物品类别对应的所述物品数量进行加权求和，并将最大值所对应的所述物品类别作为异常件的类别，还用于，对各组所述处理数据分别进行切词处理，提取多个核心词集合，合并存在交集的所述核心词集合对应的所述处理数据。