CN113590781A - 末端快递编码预测方法、系统、电子设备及可读存储介质 - Google Patents

末端快递编码预测方法、系统、电子设备及可读存储介质 Download PDF

Info

Publication number
CN113590781A
CN113590781A CN202110813469.7A CN202110813469A CN113590781A CN 113590781 A CN113590781 A CN 113590781A CN 202110813469 A CN202110813469 A CN 202110813469A CN 113590781 A CN113590781 A CN 113590781A
Authority
CN
China
Prior art keywords
address
express
vector
code
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110813469.7A
Other languages
English (en)
Inventor
杨周龙
王豹
李斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongpu Software Co Ltd
Original Assignee
Dongpu Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongpu Software Co Ltd filed Critical Dongpu Software Co Ltd
Priority to CN202110813469.7A priority Critical patent/CN113590781A/zh
Publication of CN113590781A publication Critical patent/CN113590781A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Human Computer Interaction (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种末端快递编码预测方法、系统、电子设备及可读存储介质。其中末端快递编码预测方法具体包括:获取待派送快件的地址信息;根据预先训练的地址向量模型,对地址信息进行向量化处理,生成相应的第一地址向量;根据第一地址向量,于预先训练的向量搜索模型中进行相似向量搜索,获取相似程度最高的第二地址向量;获取第二地址向量对应的所述末端快递编码,并将该末端快递编码作为待派送快件的末端快递编码。通过本申请提出的技术方案,将收件地址信息借助中间向量映射到末端快递编码,对比传统预测方法能够大幅度提升地址识别率和预测准确率,并同时提升预测速度,具有可推广价值。

Description

末端快递编码预测方法、系统、电子设备及可读存储介质
技术领域
本发明涉及快递运输管理的技术领域,具体地,公开了一种末端快递编码预测方法、系统、电子设备及可读存储介质。
背景技术
随着电商行业的蓬勃发展,人们可以足不出户对自己心仪的商品进行选购,并能够享受到商品送货上门的人性化服务。显而易见的是,高速发展的电商行业对快递物流行业产生了极大的利好影响,快递物流网点日常揽收件量和派发件量随着人们购买需求的增长而与日俱增。
但是,随着业务数量的增加,对于各个快递网点的分发和派件效率也提出了更高的要求。为了方便快递人员对快件进行投递区域划分和派发,末端快递编码应运而生。末端快递编码指的是送达快递柜或是快递驿站的地区代码,与快递收件地址相挂钩,快递派发人员可以根据末端快递编码来实现对于快件的精准投递,而无需根据快件的收件地址进行逐一识别并根据记忆进行派发区域分拣,大大提升了快递派发人员的分拣和派发效率。
作为快件最终被准确送达客户手中的重要信息载体,对于末端快递编码如何根据文字地址信息进行请准及时的推算是业内当前面临的一大难题:传统的预测和生成方法主要包含地址关键字预测和地址围栏预测,但地址关键字预测容易因地址统计补全导致识别准确率不高,对于重复性高的建筑物或是路段名称等情形都会导致准确率降低;而地址围栏预测则容易因为经纬度漂移以及地理环境等因素导致准确率和识别率处于较低水平。而近些年兴起的基于神经网络的文本分类预测方法虽然能够显著提升准确率和识别率,但由于末端快递编码的数量十分庞大,进行文本分类的计算量巨大,导致预测时间偏长,难以满足大流量快递的实时预测需求。基于上述现有问题,亟需一种能够快速准确对末端快递编码进行预测生成的预测方法及系统。
发明内容
针对现有技术中存在的上述缺陷,本发明提供一种末端快递编码预测方法、系统、电子设备及可读存储介质。
在本申请的第一方面提供了一种末端快递编码预测方法,具体包括:
获取待派送快件的地址信息;
根据预先训练的地址向量模型,对地址信息进行向量化处理,生成相应的第一地址向量;
根据第一地址向量,于预先训练的向量搜索模型中进行相似向量搜索,获取相似程度最高的第二地址向量;
获取第二地址向量对应的末端快递编码,并将末端快递编码作为待派送快件的末端快递编码。
其中,地址向量模型和向量搜索模型基于同一训练样本训练得到。
在上述第一方面的一种可能的实现中,地址向量模型通过以下步骤训练得到:
获取训练样本,训练样本中包含多条历史收件地址和多条历史末端快递编码,历史收件地址和历史末端快递编码一一对应;
对历史收件地址进行文本特征提取,获取历史收件地址对应的特征信息;
根据特征信息执行向量化操作,生成相应的地址向量,地址向量和历史末端快递编码一一对应;
其中,相近的历史收件地址具有相近的地址向量。
在上述第一方面的另一种可能的实现中,地址向量模型通过以下步骤训练得到:
获取训练样本,训练样本中包含多条历史收件地址和多条历史末端快递编码,历史收件地址和历史末端快递编码一一对应;
基于预设的神经网络框架模型和文本分类算法,通过训练样本获取历史收件地址与历史末端快递编码的映射关系;
提取神经网络框架模型中的中间层的输出作为地址向量,地址向量和历史末端快递编码一一对应。
在上述第一方面的一种可能的实现中,进一步地,训练样本的获取步骤包括:
获取预设省份的多条快递数据信息;
对快递数据信息进行第一清洗处理,剔除与末端快递编码不相关联的快递数据信息,获得第一清洗数据;
对第一清洗数据进行信息提取,获取第一清洗数据中快递数据信息的特征信息,特征信息包括历史收件地址信息、签收时间信息和历史末端快递编码信息;
对特征信息进行第二清洗处理,依据签收时间信息对特征信息进行逆序排序并从中剔除包含重复的历史收件地址信息和/或包含空白信息的特征信息,获得第二清洗数据;
将第二清洗数据作为训练样本。
在上述第一方面的一种可能的实现中,进一步地,地址向量模型和向量搜索模型与预设省份相关联;
每个预设省份对应一个地址向量模型。
在上述第一方面的一种可能的实现中,向量搜索模型通过以下步骤训练得到:
获取训练样本对应的地址向量;
基于的预设向量搜索框架模型,根据地址向量和地址向量对应的历史末端快递编码构建向量搜索矩阵,向量搜索矩阵包括历史末端快递编码的有序值。
在上述第一方面的一种可能的实现中,于获取第二地址向量对应的末端快递编码之后,末端快递编码预测方法还包括:
判断第一地址向量和第二地址向量的相似程度是否大于预设阈值;
在第一地址向量和第二地址向量的相似程度大于预设阈值的情况下,将末端快递编码作为待派送快件的末端快递编码。
本申请的第二方面提供了一种末端快递编码预测系统,应用于前述第一方面提供的末端快递编码预测方法中,该种末端快递编码预测系统具体包括:
获取模块,用于获取待派送快件的地址信息;
向量生成模块,连接获取模块,用于根据预先训练的地址向量模型,对地址信息进行向量化处理,生成相应的第一地址向量;
向量搜索模块,连接向量生成模块,用于根据识别结果,在监测图像存在堵塞情况时,生成相应的提示信息。
预测模块,连接向量搜索模块,用于获取第二地址向量对应的末端快递编码,并将末端快递编码作为待派送快件的末端快递编码。
本申请的第三方面提供了一种电子设备,包括:
存储器,存储器用于存储处理程序;
处理器,处理器执行处理程序时实现前述第一方面所提供的末端快递编码预测方法。
本申请的第四方面提供了一种可读存储介质,该种可读存储介质上存储有处理程序,处理程序被处理器执行时实现前述第一方面所提供的末端快递编码预测方法。
与现有技术相比,本申请具有如下的有益效果:
通过本申请提出的技术方案,能够根据历史数据建立地址文本信息与末端快递编码之间的映射关系:通过将地址文本信息转换至地址向量,每个地址向量通过历史数据中获取的映射关系在预测模型中进行向量搜索更新,使得一个末端快递编码对应多个相似的地址向量,以实现地址文本信息借助中间地址向量映射到末端快递编码,从而实现对于末端快递编码的预测。通过上述技术方案,能够在保障地址文本信息识别率和末端快递编码预测准确率的同时,极大地提升预测速度,具有可推广价值。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1根据本申请实施例,示出了一种末端快递编码预测方法的流程示意图;
图2a根据本申请实施例,示出了一种对地址向量模型进行训练的流程示意图;
图2b根据本申请实施例,示出了一种对地址向量模型进行训练的流程示意图;
图3根据本申请实施例,示出了一种对训练样本进行获取的流程示意图;
图4根据本申请实施例,示出了一种对向量搜索模型进行训练的流程示意图;
图5根据本申请实施例,示出了一种末端快递编码预测方法中,获取预测的末端快递编码的流程示意图;
图6根据本申请实施例,示出了一种对地址向量模型和向量搜索模型的训练框架图;
图7根据本申请实施例,示出了一种末端快递编码预测系统的结构示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
为了解决现有技术中存在的地址文本信息的识别率低、末端快递编码预测准确率低以及末端快递编码预测速度慢的问题,本申请提出了一种末端快递编码预测方法、系统、电子设备及可读存储介质。通过该种末端快递编码预测方法,能够根据历史数据建立地址文本信息与末端快递编码之间的映射关系:通过将地址文本信息转换至地址向量,每个地址向量通过历史数据中获取的映射关系在预测模型中进行向量搜索更新,使得一个末端快递编码对应多个相似的地址向量,以实现地址文本信息借助中间地址向量映射到末端快递编码,从而实现对于末端快递编码的预测。通过上述技术方案,能够在保障地址文本信息识别率和末端快递编码预测准确率的同时,极大地提升预测速度,具有可推广价值。
具体地,图1根据本申请的一些实施例,示出了一种末端快递编码预测方法的流程示意图,具体包括:
步骤101:获取待派送快件的地址信息。可以理解的是,在进行末端快递编码预测需要基于待派送快件的地址信息,待派送快件的地址信息可以是从快递运单系统直接导入的,也可以是由快递派发人员进行手动输入的,在此不做限定。
步骤102:根据预先训练的地址向量模型,对地址信息进行向量化处理,生成相应的第一地址向量。其中,地址向量模型的训练方式将于后文中进行说明。
步骤103:根据第一地址向量,于预先训练的向量搜索模型中进行相似向量搜索,获取相似程度最高的第二地址向量。其中,向量搜索模型的训练方式将于后文中进行说明。
步骤104:获取第二地址向量对应的末端快递编码,并将末端快递编码作为待派送快件的末端快递编码。可以理解的是,于步骤104中,第二地址向量作为与第一地址向量的最接近向量,其对应的末端快递编码也可以作为待派送快件的末端快递编码,
可以理解的是,于上述实施例中,地址向量模型和向量搜索模型均是预先根据训练样本训练得到的,地址向量模型和向量搜索模型基于同一训练样本训练得到,有关地址向量模型和向量搜索模型的具体训练过程将于后文中进行具体说明。本技术方案通过地址向量作为收件地址文本和末端快递编码之间的中间量,通过对地址向量进行向量搜索来缩减单个末端快递编码的预测时间,以下将对该种末端快递编码预测方法的具体实现进行说明。
在本申请的一些实施例中,具体地,如图2a所示,前述地址向量模型可以通过以下步骤训练得到:
步骤201a:获取训练样本。其中,进行地址向量模型的训练需要训练样本中包含多条历史收件地址和多条历史末端快递编码,历史收件地址和历史末端快递编码一一对应。
步骤202a:对历史收件地址进行文本特征提取,获取历史收件地址对应的特征信息。具体地,可以采用N-gram方法对于历史收件地址进行切分,当N取值为2时,即将历史收件地址中的每两个词合并成一组词,再通过词义解析等方式进行后续的地址向量化操作。
步骤203a:根据特征信息执行向量化操作,生成相应的地址向量。可以理解的是,生成的地址向量与训练样本中的历史末端快递编码一一对应,但是由于末端快递编码代表的是某一快递柜或是某个小区的集中取件驿站,于实际应用中一个末端快递编码可以对应多个地址向量。
可以理解的是,于上述具体实施例中,可以根据映射关系,通过损失值的梯度下降不断更新每组拆分词语所对应的地址向量,使得地址向量最终与历史末端快递编码之间的对应概率足够大,从而实现准确的地址向量化,使得相近的历史收件地址具有相近的地址向量。
在本申请的另一些实施例中,具体地,地址向量模型还可以通过以下步骤训练得到:
步骤201b:获取训练样本。可以理解的是,同样地,基于前述步骤201a中相同的理由,步骤201b中训练样本中同样包含历史收件地址和历史末端快递编码,且历史收件地址和历史末端快递编码一一对应。
步骤202b:基于预设的神经网络框架模型和文本分类算法,通过训练样本获取历史收件地址与历史末端快递编码的映射关系。具体地,可以使用BERT或TextCNN文本分类算法来实现映射关系的训练。其中:Bert作为一个预训练的语言表征模型,强调了不再采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是生成具有深度的双向语言表征,该模型同时还具有只需对输出层进行微调即可应对各类特定任务而不需要对BERT的主结构进行修改的优势。而TextCNN则是建立在卷积神经网络上,通过一维卷积来获取句子中拆分文本的特征表示,其对于文本浅层特征的抽取能力很强,在针对收件地址文本这类的短文本领域时应用效果较佳且训练速度快。本领域技术人员可以根据实际需要选择相应的神经网络框架模型和文本分类算法,在此不做限定。
步骤203b:提取神经网络框架模型中的中间层的输出作为地址向量。可以理解的是,基于前述步骤203a中相同的理由,步骤203b中生成的地址向量与训练样本中的历史末端快递编码一一对应,在此不做赘述。
于上述实施例中,并未采用具体的地址向量框架模型进行对应训练,而是采用了现有的文本分类算法,直接训练收件地址文本和末端快递编码之间的关系,而后根据训练得到的有关文本分类的神经网络模型,从中提取神经网络的中间层作为对应的地址向量。可以理解的是,于上述训练过程中,同样可以根据收件地址文本和末端快递编码之间的映射关系,通过损失值的梯度下降不断更新中间层输出的地址向量,使得地址向量最终与历史末端快递编码之间的对应概率足够大,从而实现准确的地址向量化,使得后续输出的相似的收件地址文本能够生成相近似的地址向量。
在本申请的一些实施例中,进一步地,图3示出了一种对训练样本进行获取的流程示意图,其中具体步骤包括:
步骤301:获取预设省份的多条快递数据信息。于本实施例中,以省级行政区划为单位进行训练样本的获取,下文中将对以省级行政区划作为地址向量模型的训练单位的原因进行具体说明。
步骤302:对快递数据信息进行第一清洗处理,剔除与末端快递编码不相关联的快递数据信息,获得第一清洗数据。可以理解的是,并不是去全部的快递收据信息均涉及末端快递编码,末端快递编码一般是应用于派件人员对快件的派发业务环节,对于一些城际通或是同城面单闪送的快递,则无需应用到末端快递编码;同样地,针对投诉件、拦截件、退回件、发货失败件、改址件等特殊情况快递,同样与末端快递编码不相关联,故而在训练样本的生成过程中需要对这些与末端快递编码不相关联的快递数据信息进行剔除,避免对于地址向量模型的训练过程出现影响。
步骤303:对第一清洗数据进行信息提取,获取第一清洗数据中快递数据信息的特征信息,特征信息包括历史收件地址信息、签收时间信息和历史末端快递编码信息。可以理解的是,快递数据中往往包括快递全生命周期的信息,例如快递的发件方、发件时间、物流中转信息等,这些信息对于末端快递编码的预测并无作用,无需引入地址向量模型的训练过程,因此需要从清洗后的快递数据中进行数据提取,提取的特征数据与末端快递编码的预测相关,可以包括历史收件地址信息、签收时间信息和历史末端快递编码信息。
步骤304:对特征信息进行第二清洗处理,依据签收时间信息对特征信息进行逆序排序并从中剔除包含重复的历史收件地址信息和/或包含空白信息的特征信息,获得第二清洗数据。可以理解的是,对于提取得到的特征信息还需要进行二次数据清洗,其中需要删除其中字段为空的特征信息,保证训练样本中不能出现空白字段,同时需要根据签收时间进行逆排序删除数据中存在的重复地址信息以优化训练过程。可以理解的是,末端快递编码的设置会随着时间的改变而发生变化,某一投递站点的变更均会导致末端快递编码发生变化,采用临近的最新历史数据进行模型训练和后续预测能够提升对于末端快递编码预测的准确性。
步骤305:将第二清洗数据作为训练样本。通过上述步骤301至步骤305能够获得最近时间段中最新的末端快递编码和收件地址文本之间的关系,在训练阶段为提升该种末端快递编码预测方法的预测准确性打下了坚实的基础。
可以理解的是,进一步地,于上述实施例中,地址向量模型和向量搜索模型与预设省份相关联,每个预设省份均对应一个地址向量模型和一个向量搜索模型。这是因为全国的快递地址收发量过于庞大,以全国的快递收发信息建立一个地址向量模型和向量搜索模型存在数据量过大难以收敛且训练时间过长的问题,而若是以地级市为单位建立地址向量模型和向量搜索模型,在全国范围内则需要建立293个独立的地址向量模型和向量搜索模型,不仅训练耗繁琐耗时漫长,同时不利于对这些数量庞大的地址向量模型的后续更新和维护,因此以省级行政区划作为地址向量模型和向量搜索模型的训练单位是相对合适的,每个省份均对应一个地址向量模型和一个向量搜索模型。例如,在本申请的具体实施例中,可以以某快递公司广东省的签收订单数据作为训练原始数据,以2021年5月15日至2021年5月21日一周的时间作为数据选取时段,可获得训练原始数据超1.1亿条,这样庞大的数据量足以支撑对于地址向量模型和向量搜索模型的神经网络训练。而在本申请的另一些实施例中,用户还可以根据实际需要确定训练样本对应的签收数据样本范围,在此不做限定。
于前述实施例的相关描述中,对于地址向量模型的具体训练过程做出了阐释和说明。可以理解的是,向量搜索模型与地址向量模型由相同训练样本获得且高度关联,以下将对末端快递编码预测过程中可能出现的预测不准确情况的应对方式进行具体说明。
在本申请的一些实施例中,图4示出了一种对向量搜索模型进行训练的流程示意图,其中具体步骤包括:
步骤401:获取训练样本对应的地址向量。可以理解的是,向量搜索模型和地址向量模型基于同一训练样本获得,向量搜索模型和地址向量模型相关联,在向量搜索模型的训练过程中需要应用到地址向量模型中所得到的地址向量作为训练样本之一。
步骤402:基于的预设向量搜索框架模型,根据地址向量和地址向量对应的历史末端快递编码构建向量搜索矩阵。可以理解的是,于上述步骤402中,向量搜索矩阵包括历史末端快递编码的有序值。
具体地,图6示出了一种地址向量模型和向量搜索模型的训练框架,可以看出,地址向量模型和向量搜索模型基于统一训练样本得到且相互关联。在上述实施例中,向量搜索模型中可以设置有个索引项,一个索引项对应一个历史末端快递编码同时对应至少一个地址向量。可以理解的是,一个末端快递编码对应的一个投递区域,一个投递区域可能对应多个地址向量,即一个索引项可以是对应至少一个地址向量。
可以理解的是,于上述实施例中,关于预设向量搜索框架模型的选择可以采用Faiss、NMSLIB或HNSWLIB等向量搜索框架模型中的一种或是多种或是多种的组合,用户可以根据实际应用需要选择相应的向量搜索框架模型并对其进行训练,在此不做限定。
可以理解的是,于上述实施例中,于步骤401中,在获取训练样本对应的地址向量的过程中,还可以对获得的地址向量执行去重操作,去除相近收件地址文本对应的同一地址向量,进一步减少向量搜索模型中包含的地址向量数量,有助于向量搜索模型训练构建中的轻量化实现,从而一定程度上减少对于单个末端快递编码的预测所需时间。
于前述实施例的相关描述中,对于本申请提出的末端快递编码预测方法中各个步骤的具体实现均已做出了阐释和说明,以下将对末端快递编码预测过程中可能出现的预测不准确情况的应对方式进行具体说明。
在本申请的一些实施例中,于前述步骤104中获取第二地址向量对应的末端快递编码之后,如图5所示,本申请提出的末端快递编码预测方法还包括:
步骤501:判断第一地址向量和第二地址向量的相似程度是否大于预设阈值。若相似程度大于预设阈值,则说明第二地址向量可以作为第一地址向量的最近似向量,进而转向步骤502;若相似程度未大于预设阈值,则说明第二地址向量与第一地址向量之间存在一定的差异性,进而转向步骤503。
于上述实施例中,预设阈值可以是95%,也可以是90%,有关预设阈值的确认可以是由用户根据实际使用过程中对于末端快递编码的预测时间和预测准确率的浮动变化进行自由调整的,在预测准确率偏低的情况下可以适当地提升预设阈值的取值,在此不做限定。
步骤502:在第一地址向量和第二地址向量的相似程度大于预设阈值的情况下,将末端快递编码作为待派送快件的末端快递编码。可以理解的是,在第二地址向量作为第一地址向量的最近似向量的情况下,第二地址向量对应的索引项所指向的末端快递编码,也就是第一地址向量所对应的末端快递编码,从而实现基于历史数据的向量搜索来对末端快递编码的预测。
步骤503:在第一地址向量和第二地址向量的相似程度小于等于预设阈值的情况下,将末端快递编码作为待派送快件的可能末端快递编码。可以理解的是,“待派送快件的可能末端快递编码”有别于前述“待派送快件的末端快递编码”,其代表生成的末端快递编码仅供派件人员进行参考,其准确性并不能得以保障。有关“可能末端快递编码”的具体生成及显示提示将于后文中进行详细说明。
可以理解的是,于上述实施例中,即使采用了本申请对应的技术方案对末端快递编码进行预测,也不能保证对末端快递编码的预测准确率达到100%,即可能出现预测不准确的情况。例如出现历史数据中不存在的新地址或是收件地址文本中出现难以进行向量化的生僻字符等,都会导致本申请所提出的末端快递编码预测方法出现预测失败的情况,其表现在向量搜索模型层面即为寻找不到与第一地址向量高度相似的第二地址向量。
具体地,在第一地址向量和第二地址向量的相似程度小于等于预设阈值的情况下,说明待派发快件的收件地址与历史数据中的第二地址向量存在一定的相似性,但也存在一定的差异性。此时由本申请提出的末端快递编码预测方式获得的预测编码可能存在不准确的情况,需要由派件人员根据收件地址信息做出进一步的投递区域判断。在此情况下,本申请提出的末端编码预测方法可以给出一个“可能末端快递编码”,并在显示界面显示该“可能末端快递编码”存在预测不准确的风险,提示需要派件人员根据实际的收件地址文本进行核实查验,可以有效防止派件人员因为末端快递编码的预测失误出现误投递的情况,进一步保障了该种末端快递编码预测方法在实际应用过程中的可适用性。
在本申请的一些实施例中,还可以基于对向量搜索方式的优化,对本申请提出的末端快递编码预测方法进行进一步优化,例如可以通过对地址向量的邻向量的众数索引项进行获取等方式来进一步提升预测的准确率:对于一个收件地址文本对应的地址向量而言,可能存在多个地址向量均与其相近似,可以通过获取这些邻向量中对应的索引项的众数的方式来获取其中概率最高的索引项指向的末端快递编码,进而提升向量搜索的预测效果。
在本申请的具体实施例中,采用同一测试集对于上述末端快递编码预测方法的预测准确率以及预测耗时进行了对照试验,对照试验的结果如下表所示:
Figure BDA0003169072790000111
于上述具体实施例中,可以看出,传统预测方法采用了地址关键字预测方法对测试集进行了测试,可以看出虽然传统预测方法对于末端快递编码的单个预测耗时最少,但在对于地址文本的识别率和预测准确率上均存在较大缺憾。
于上述具体实施例中,可以看出,基于神经网络的文本分类预测方法相较于传统预测方法,地址文本识别率和预测准确率有了显著的提升,但是对于末端快递编码的单个预测耗时过长,难以适应快递流量日益增加的末端快递编码的预测需求。
通过上述实施例可以看出,本申请提出的末端快递编码预测方法,不仅地址文本识别率和预测准确率相较传统预测方法有了明显的提升,同时在对于末端快递编码的单个预测耗时上相较于基于神经网络的文本分类预测有了大幅度的缩减,能够适应于对于末端快递编码的实时预测,在预测效果和预测效率的综合评价上具有优势,值得于业内进行推广。
在本申请的一些实施例中,图7示出了一种末端快递编码预测系统,应用于前述实施例所提供的末端快递编码预测方法中。具体地,如图7所示,该种末端快递编码预测系统具体包括:
获取模块1,用于获取待派送快件的地址信息;
向量生成模块2,连接获取模块1,用于根据预先训练的地址向量模型,对地址信息进行向量化处理,生成相应的第一地址向量;
向量搜索模块3,连接向量生成模块2,用于根据识别结果,在监测图像存在堵塞情况时,生成相应的提示信息。
预测模块4,连接向量搜索模块3,用于获取第二地址向量对应的末端快递编码,并将末端快递编码作为待派送快件的末端快递编码。
可以理解的是,上述末端快递编码预测系统中各个功能模块执行与前述末端快递编码预测方法中相同的步骤流程,在此不做赘述。
在本申请的一些实施例中,还提供了一种电子设备。该种电子设备中包含存储器和处理器,其中存储器用于对处理程序进行存储,处理器则根据指令对处理程序进行执行。当处理器对处理程序进行执行时,使得前述实施例中的末端快递编码预测方法得以实现。
在本申请的一些实施例中,还提供了一种可读存储介质,该可读存储介质可以为非易失性可读存储介质,也可以为易失性可读存储介质。该可读存储介质中存储有指令,当该指令在计算机上运行时,使得包含该种可读存储介质的电子设备执行前述的末端快递编码预测方法。
可以理解的是,对于前述末端快递编码预测系统中的各个功能模块,如果均以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-only memory,ROM)、随机存取存储器(Random accessmemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,基于前述实施例的描述可以看出,本申请提出的技术方案,能够根据历史数据建立地址文本信息与末端快递编码之间的映射关系,并根据上述映射关系实现对于末端快递编码的快速预测。在通过测试集进行验证后,本申请提出的技术方案在地址文本识别率和末端快递编码的预测准确率上,均高于传统的地址关键字预测或是地址围栏预测方法,同时在单个末端快递编码的预测时间上大大小于文本分类预测方法所需的预测时间,在预测准确率和预测效率上均取得了较佳的优化,具有可推广价值。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种末端快递编码预测方法,其特征在于,所述末端快递编码预测方法包括:
获取待派送快件的地址信息;
根据预先训练的地址向量模型,对所述地址信息进行向量化处理,生成相应的第一地址向量;
根据所述第一地址向量,于预先训练的向量搜索模型中进行相似向量搜索,获取相似程度最高的第二地址向量;
获取所述第二地址向量对应的所述末端快递编码,并将所述末端快递编码作为所述待派送快件的所述末端快递编码。
其中,所述地址向量模型和所述向量搜索模型基于同一训练样本训练得到。
2.如权利要求1所述的末端快递编码预测方法,其特征在于,所述地址向量模型通过以下步骤训练得到:
获取所述训练样本,所述训练样本中包含多条历史收件地址和多条历史末端快递编码,所述历史收件地址和所述历史末端快递编码一一对应;
对所述历史收件地址进行文本特征提取,获取所述历史收件地址对应的特征信息;
根据所述特征信息执行向量化操作,生成相应的所述地址向量,所述地址向量和所述历史末端快递编码一一对应;
其中,相近的所述历史收件地址具有相近的所述地址向量。
3.如权利要求1所述的末端快递编码预测方法,其特征在于,所述地址向量模型通过以下步骤训练得到:
获取所述训练样本,所述训练样本中包含多条历史收件地址和多条历史末端快递编码,所述历史收件地址和所述历史末端快递编码一一对应;
基于预设的神经网络框架模型和文本分类算法,通过训练样本获取所述历史收件地址与所述历史末端快递编码的映射关系;
提取所述神经网络框架模型中的中间层的输出作为所述地址向量,所述地址向量和所述历史末端快递编码一一对应。
4.如权利要求2或3中任意一项所述的末端快递编码预测方法,其特征在于,所述训练样本的获取步骤包括:
获取预设省份的多条快递数据信息;
对所述快递数据信息进行第一清洗处理,剔除与所述末端快递编码不相关联的所述快递数据信息,获得第一清洗数据;
对所述第一清洗数据进行信息提取,获取所述第一清洗数据中所述快递数据信息的特征信息,所述特征信息包括历史收件地址信息、签收时间信息和历史末端快递编码信息;
对所述特征信息进行第二清洗处理,依据所述签收时间信息对所述特征信息进行逆序排序并从中剔除包含重复的所述历史收件地址信息和/或包含空白信息的特征信息,获得第二清洗数据;
将所述第二清洗数据作为所述训练样本。
5.如权利要求4所述的末端快递编码预测方法,其特征在于,所述地址向量模型和所述向量搜索模型与所述预设省份相关联;
每个所述预设省份对应一个所述地址向量模型。
6.如权利要求2至5中任意一项所述的末端快递编码预测方法,其特征在于,所述向量搜索模型通过以下步骤训练得到:
获取所述训练样本对应的所述地址向量;
基于的预设向量搜索框架模型,根据所述地址向量和所述地址向量对应的所述历史末端快递编码构建向量搜索矩阵,所述向量搜索矩阵包括所述历史末端快递编码的有序值。
7.如权利要求1所述的末端快递编码预测方法,其特征在于,于获取所述第二地址向量对应的所述末端快递编码之后,所述末端快递编码预测方法还包括:
判断所述第一地址向量和所述第二地址向量的相似程度是否大于预设阈值;
在所述第一地址向量和所述第二地址向量的相似程度大于所述预设阈值的情况下,将所述末端快递编码作为所述待派送快件的所述末端快递编码。
8.一种末端快递编码预测系统,其特征在于,应用于如权利要求1至7中任意一项所述的末端快递编码预测方法中,所述末端快递编码预测系统具体包括:
获取模块,用于获取待派送快件的地址信息;
向量生成模块,连接所述获取模块,用于根据预先训练的地址向量模型,对所述地址信息进行向量化处理,生成相应的第一地址向量;
向量搜索模块,连接所述向量生成模块,用于根据所述识别结果,在所述监测图像存在所述堵塞情况时,生成相应的提示信息。
预测模块,连接所述向量搜索模块,用于获取所述第二地址向量对应的所述末端快递编码,并将所述末端快递编码作为所述待派送快件的所述末端快递编码。
9.一种电子设备,其特征在于,包括:
存储器,所述存储器用于存储处理程序;
处理器,所述处理器执行所述处理程序时实现如权利要求1至7中任意一项所述的末端快递编码预测方法。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有处理程序,所述处理程序被处理器执行时实现如权利要求1至7中任意一项所述的末端快递编码预测方法。
CN202110813469.7A 2021-07-19 2021-07-19 末端快递编码预测方法、系统、电子设备及可读存储介质 Pending CN113590781A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110813469.7A CN113590781A (zh) 2021-07-19 2021-07-19 末端快递编码预测方法、系统、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110813469.7A CN113590781A (zh) 2021-07-19 2021-07-19 末端快递编码预测方法、系统、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113590781A true CN113590781A (zh) 2021-11-02

Family

ID=78248024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110813469.7A Pending CN113590781A (zh) 2021-07-19 2021-07-19 末端快递编码预测方法、系统、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113590781A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114862304A (zh) * 2022-04-14 2022-08-05 圆通速递有限公司 基于地址标记映射的末端配送站点快递建包方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114862304A (zh) * 2022-04-14 2022-08-05 圆通速递有限公司 基于地址标记映射的末端配送站点快递建包方法和系统

Similar Documents

Publication Publication Date Title
CN109255564B (zh) 一种取件点地址推荐方法及装置
CN109325116B (zh) 一种基于深度学习的城市事件自动分类派发方法及装置
CN112184525B (zh) 通过自然语义分析实现智能匹配推荐的系统及方法
CN107657267B (zh) 产品潜在用户挖掘方法及装置
CN111144723A (zh) 人岗匹配推荐方法及系统、存储介质
CN111552870A (zh) 对象推荐方法、电子装置及存储介质
CN111125343A (zh) 适用于人岗匹配推荐系统的文本解析方法及装置
CN109598517B (zh) 商品通关处理、对象的处理及其类别预测方法和装置
CN111105209A (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
CN111368175B (zh) 一种事件抽取方法和系统及实体分类模型
CN114819924B (zh) 一种基于画像分析的企业信息推送处理方法及设备
CN109740642A (zh) 发票类别识别方法、装置、电子设备及可读存储介质
CN111737485A (zh) 基于知识图谱、深度学习的人岗匹配方法、人岗匹配系统
CN113434688B (zh) 用于舆情分类模型训练的数据处理方法和装置
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN115130711A (zh) 一种数据处理方法、装置、计算机及可读存储介质
CN113360768A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN117077628A (zh) 舆情应对预案生成方法、装置、服务器及存储介质
CN116701584A (zh) 基于电力用户画像的智能问答方法、装置以及电子设备
CN104077288B (zh) 网页内容推荐方法和网页内容推荐设备
CN113590781A (zh) 末端快递编码预测方法、系统、电子设备及可读存储介质
CN113537878A (zh) 包裹派送方法、装置、设备及存储介质
CN114036921A (zh) 一种政策信息匹配方法和装置
CN111325495B (zh) 异常件分类方法及系统
CN112232036A (zh) 报销单生成方法、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination