CN111881795A - 运单号识别方法及装置 - Google Patents

运单号识别方法及装置 Download PDF

Info

Publication number
CN111881795A
CN111881795A CN202010699600.7A CN202010699600A CN111881795A CN 111881795 A CN111881795 A CN 111881795A CN 202010699600 A CN202010699600 A CN 202010699600A CN 111881795 A CN111881795 A CN 111881795A
Authority
CN
China
Prior art keywords
logistics
waybill number
regular expression
identified
waybill
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010699600.7A
Other languages
English (en)
Other versions
CN111881795B (zh
Inventor
江培明
李毅有
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongpu Software Co Ltd
Original Assignee
Dongpu Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongpu Software Co Ltd filed Critical Dongpu Software Co Ltd
Priority to CN202010699600.7A priority Critical patent/CN111881795B/zh
Publication of CN111881795A publication Critical patent/CN111881795A/zh
Application granted granted Critical
Publication of CN111881795B publication Critical patent/CN111881795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Multimedia (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Medical Informatics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种运单号识别方法及装置、电子设备、计算机可读存储介质,所述方法包括:获取样本运单号数据,所述样本运单号数据包括运单号及其对应的物流商;构建机器学习模型,学习所述样本运单号数据,获取用于运单号识别的多个正则表达式;在接收到第一用户对应的待识别运单号后,从所述多个正则表达式中确定所述第一用户对应的第一正则表达式组;根据所述第一正则表达式组确定所述待识别运单号对应的物流商。在业务员上传运单号后,通过正则表达式识别运单号对应的物流商,业务员无需频繁切换手持设备及APP即可识别多家物流商的运单号,提高末端网点的工作效率;筛选上传用户对应的部分正则表达式,减少识别过程的计算量,提高识别速度。

Description

运单号识别方法及装置
技术领域
本申请涉及信息处理的技术领域,尤其涉及运单号识别方法及装置、电子设备、计算机可读存储介质。
背景技术
近年来,伴随着电商下沉和渠道下沉,网购在县城、乡镇和农村已经较为普遍。但由于各地的经济发展不平衡,很多末端网点的快递单量有限,在多家物流商的加剧竞争下,派送费不断下滑,导致一线网点及业务员的收入减少,于是催生了末端快递共同配送的新业态。在末端共配网点存在多家物流商的快件混装混扫的情况,网点及业务员使用各家物流商的手机APP、巴枪等手持设备采集快件上的纸质面单的单号并上传至各自快递系统。业务员需要频繁切换手持设备及APP,耗费非常多的人力物力,效率很低。
发明内容
本申请的目的在于提供运单号识别方法及装置、电子设备、计算机可读存储介质,解决多家物流商的快件混装混扫时,业务员需要频繁切换手持设备及APP的问题。
本申请的目的采用以下技术方案实现:
第一方面,本申请提供了一种运单号识别方法,所述方法包括:获取样本运单号数据,所述样本运单号数据包括运单号及其对应的物流商;构建机器学习模型,学习所述样本运单号数据,获取用于运单号识别的多个正则表达式;在接收到第一用户对应的待识别运单号后,从所述多个正则表达式中确定所述第一用户对应的第一正则表达式组;根据所述第一正则表达式组确定所述待识别运单号对应的物流商。该技术方案的有益效果在于,采集样本运单号数据,通过机器学习的方式学习样本运单号数据,获取用于运单号识别的正则表达式,在业务员使用手持设备或APP扫描运单并上传运单号后,通过正则表达式识别运单号对应的物流商,提高末端共配网点的业务操作信息化水平,由此在多家物流商的快件混装混扫时,使业务员无需频繁切换手持设备及APP即可识别多家物流商的运单号,提高末端网点的工作效率;另一方面,通过上传运单号的用户来缩小正则表达式的范围,从全部正则表达式中筛选上传用户对应的部分正则表达式,由此大大减少识别过程的计算量,提高识别速度。
在一些可能的实现方式中,所述多个正则表达式对应的运单号长度包括以下至少一种:L1、L2、……、LN,N是大于1的正整数,L1、L2、……、LN是两两不等的正整数;对应的运单号长度是K的正则表达式的位次包括以下至少一种:Z1、Z2、……、ZK-1、ZK,K是L1、L2、……、LN中任意一个,ZM是运单号中从左至右第M位,M是不大于K的正整数。该技术方案的有益效果在于,提供对应不同运单号长度的正则表达式,并且对应每种运单号长度提供不同位次的正则表达式。
在一些可能的实现方式中,所述从所述多个正则表达式中确定所述第一用户对应的第一正则表达式组,包括:获取所述第一用户对应的第一物流商组;从所述多个正则表达式中确定所述第一物流商组对应的第一正则表达式组。该技术方案的有益效果在于,在实际应用中,单个网点用户或者业务员用户往往服务于部分物流商,而非市面上的全部物流商,因此可以通过当前用户所服务的物流商来筛选用于识别上述物流商的正则表达式。
在一些可能的实现方式中,所述从所述多个正则表达式中确定所述第一物流商组对应的第一正则表达式组,包括:获取所述待识别运单号的长度作为第一长度;从所述多个正则表达式中确定对应所述第一物流商组且对应所述第一长度的第一正则表达式组。该技术方案的有益效果在于,通过运单号长度进一步缩小正则表达式的范围,提升识别速度。
在一些可能的实现方式中,所述从所述多个正则表达式中确定对应所述第一物流商组且对应所述第一长度的第一正则表达式组,包括:从所述多个正则表达式中确定对应所述第一物流商组且对应所述第一长度的若干个正则表达式;对所述若干个正则表达式中每个正则表达式与所述待识别运单号进行正则匹配,获取所述若干个正则表达式中每个正则表达式与所述待识别运单号的匹配位次;获取与所述待识别运单号的匹配位数最多的第一正则表达式组。该技术方案的有益效果在于,通过位次匹配获取匹配位数最多的正则表达式,进一步缩小正则表达式的范围。
在一些可能的实现方式中,所述根据所述第一正则表达式组确定所述待识别运单号对应的物流商,包括:获取所述第一正则表达式组中每个正则表达式对应的物流商及其概率;根据所述第一正则表达式组中每个正则表达式对应的物流商及其概率确定所述待识别运单号对应的物流商。该技术方案的有益效果在于,通过正则表达式对应各物流商的概率确定待识别运单号对应的物流商,例如可以确定概率最大的物流商作为识别结果。
在一些可能的实现方式中,所述获取所述第一正则表达式组中每个正则表达式对应的物流商及其概率,包括:获取所述待识别运单号的长度作为第一长度;针对所述第一正则表达式组中每个正则表达式执行以下操作:获取所述正则表达式对应的第二物流商组;对所述正则表达式与所述待识别运单号进行正则匹配,获取所述正则表达式与所述待识别运单号的第一匹配位次;使用Softmax回归模型和至少一个维度的历史数据中所述第二物流商组中每个物流商对应的运单号数量占所有运单号数量的比例,计算所述正则表达式对应所述每个物流商的概率,所述至少一个维度的历史数据包括以下至少一种:所有网点级用户对应的历史数据、所述第一用户对应的网点级用户对应的历史数据、所述第一用户对应的业务员级用户对应的历史数据、所有网点级用户对应的人工修改历史数据、所述第一用户对应的网点级用户对应的人工修改历史数据、所述第一用户对应的业务员级用户对应的人工修改历史数据、对应所有网点级用户且对应所述第一长度的历史数据、对应所述第一用户对应的网点级用户且对应所述第一长度的历史数据、对应所述第一用户对应的业务员级用户且对应所述第一长度的历史数据、对应所述第一长度且对应所述第一匹配位次的历史数据。该技术方案的有益效果在于,使用Softmax回归模型来计算正则表达式对应物流商的概率,Softmax回归模型适用于标签互斥的情况,例如运单号的标签包括韵达、申通和中通,这三类之间是没有关系的,运单号只能属于其中一个标签,当运单号属于韵达时就不能再属于申通,符合实际应用中的需求;使用至少一种维度的数据来计算概率,充分考虑不同用户对应各物流商的概率不同的影响因素,使识别结果的准确性更高。
在一些可能的实现方式中,所述根据所述第一正则表达式组中每个正则表达式对应的物流商及其概率确定所述待识别运单号对应的物流商,包括:根据所述第一正则表达式组中每个正则表达式对应的物流商及其概率获取所述待识别运单号对应的第一待定物流商;根据所述第一正则表达式组中每个正则表达式对应的物流商及其概率获取所述待识别运单号对应的第二待定物流商;若所述第一待定物流商与所述第二待定物流商一致,则使用贝叶斯公式计算所述待识别运单号归属所述第一待定物流商的第一概率;若所述第一概率大于预定概率,则确定所述第一待定物流商作为所述待识别运单号对应的物流商。该技术方案的有益效果在于,正则表达式的识别结果可能包括多个物流商,使用贝叶斯公式筛选出其中可能性最大的物流商。
在一些可能的实现方式中,所述若所述第一概率大于预定概率,则确定所述第一待定物流商作为所述待识别运单号对应的物流商,包括:若所述第一概率大于所述预定概率,则将所述第一待定物流商放入所述待识别运单号对应的待定物流商组;若所述待定物流商组中物流商的数量大于1个,则向所述第一用户展示所述待定物流商组中的物流商;接收第一用户选择物流商的第一操作,响应于所述第一操作,确定所述待识别运单号对应的物流商。该技术方案的有益效果在于,使用贝叶斯公式的筛选结果仍然可能包括一个以上物流商,此时可以通过人工手动选择确定运单号对应的物流商,智能化和人工手动结合,进一步提升识别结果的准确性。
第二方面,本申请提供了一种运单号识别装置,所述装置包括:数据获取模块,用于获取样本运单号数据,所述样本运单号数据包括运单号及其对应的物流商;机器学习模块,用于构建机器学习模型,学习所述样本运单号数据,获取用于运单号识别的多个正则表达式;表达式筛选模块,用于在接收到第一用户对应的待识别运单号后,从所述多个正则表达式中确定所述第一用户对应的第一正则表达式组;物流商确定模块,用于根据所述第一正则表达式组确定所述待识别运单号对应的物流商。
在一些可能的实现方式中,所述多个正则表达式对应的运单号长度包括以下至少一种:L1、L2、……、LN,N是大于1的正整数,L1、L2、……、LN是两两不等的正整数;对应的运单号长度是K的正则表达式的位次包括以下至少一种:Z1、Z2、……、ZK-1、ZK,K是L1、L2、……、LN中任意一个,ZM是运单号中从左至右第M位,M是不大于K的正整数。
在一些可能的实现方式中,所述表达式筛选模块用于:获取所述第一用户对应的第一物流商组;从所述多个正则表达式中确定所述第一物流商组对应的第一正则表达式组。
在一些可能的实现方式中,所述表达式筛选模块还用于:获取所述待识别运单号的长度作为第一长度;从所述多个正则表达式中确定对应所述第一物流商组且对应所述第一长度的第一正则表达式组。
在一些可能的实现方式中,所述表达式筛选模块还用于:从所述多个正则表达式中确定对应所述第一物流商组且对应所述第一长度的若干个正则表达式;对所述若干个正则表达式中每个正则表达式与所述待识别运单号进行正则匹配,获取所述若干个正则表达式中每个正则表达式与所述待识别运单号的匹配位次;获取与所述待识别运单号的匹配位数最多的第一正则表达式组。
在一些可能的实现方式中,所述物流商确定模块用于:获取所述第一正则表达式组中每个正则表达式对应的物流商及其概率;根据所述第一正则表达式组中每个正则表达式对应的物流商及其概率确定所述待识别运单号对应的物流商。
在一些可能的实现方式中,所述物流商确定模块还用于:获取所述待识别运单号的长度作为第一长度;针对所述第一正则表达式组中每个正则表达式执行以下操作:获取所述正则表达式对应的第二物流商组;对所述正则表达式与所述待识别运单号进行正则匹配,获取所述正则表达式与所述待识别运单号的第一匹配位次;使用Softmax回归模型和至少一个维度的历史数据中所述第二物流商组中每个物流商对应的运单号数量占所有运单号数量的比例,计算所述正则表达式对应所述每个物流商的概率,所述至少一个维度的历史数据包括以下至少一种:所有网点级用户对应的历史数据、所述第一用户对应的网点级用户对应的历史数据、所述第一用户对应的业务员级用户对应的历史数据、所有网点级用户对应的人工修改历史数据、所述第一用户对应的网点级用户对应的人工修改历史数据、所述第一用户对应的业务员级用户对应的人工修改历史数据、对应所有网点级用户且对应所述第一长度的历史数据、对应所述第一用户对应的网点级用户且对应所述第一长度的历史数据、对应所述第一用户对应的业务员级用户且对应所述第一长度的历史数据、对应所述第一长度且对应所述第一匹配位次的历史数据。
在一些可能的实现方式中,所述物流商确定模块还用于:根据所述第一正则表达式组中每个正则表达式对应的物流商及其概率获取所述待识别运单号对应的第一待定物流商;根据所述第一正则表达式组中每个正则表达式对应的物流商及其概率获取所述待识别运单号对应的第二待定物流商;若所述第一待定物流商与所述第二待定物流商一致,则使用贝叶斯公式计算所述待识别运单号归属所述第一待定物流商的第一概率;若所述第一概率大于预定概率,则确定所述第一待定物流商作为所述待识别运单号对应的物流商。
在一些可能的实现方式中,所述物流商确定模块还用于:若所述第一概率大于所述预定概率,则将所述第一待定物流商放入所述待识别运单号对应的待定物流商组;若所述待定物流商组中物流商的数量大于1个,则向所述第一用户展示所述待定物流商组中的物流商;接收第一用户选择物流商的第一操作,响应于所述第一操作,确定所述待识别运单号对应的物流商。
第三方面,本申请提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项方法的步骤。
附图说明
下面结合附图和实施例对本申请进一步说明。
图1是本申请实施例提供的一种运单号识别方法的流程示意图;
图2是本申请实施例提供的一种获取样本运单号数据的流程示意图;
图3是本申请实施例提供的一种使用正则表达式识别运单号对应物流商的流程示意图;
图4是本申请实施例提供的一种计算正则表达式对应每个物流商概率的流程示意图;
图5是本申请实施例提供的一种使用贝叶斯公式获取识别结果的流程示意图;
图6是本申请实施例提供的一种运单号识别方法的流程示意图;
图7是本申请实施例提供的一种运单号识别方法的流程示意图;
图8是本申请实施例提供的一种运单号识别装置的结构示意图;
图9是本申请实施例提供的一种电子设备的结构示意图;
图10是本申请实施例提供的一种用于实现运单号识别方法的程序产品的结构示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本申请做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
参见图1,本申请实施例提供了一种运单号识别方法,应用于多家物流商的快件混装混扫的场合,用于根据运单号确定归属的物流商,所述方法包括步骤S101~S104。
步骤S101:获取样本运单号数据,所述样本运单号数据包括运单号及其对应的物流商。运单号的位数一般而言是多位,用数字、字母和符号中的至少一种表示,例如是1900011116666或者YD800060006000。物流商例如是韵达、申通、中通、圆通、顺丰、百世、德邦和EMS中的至少一种。
参见图2,获取运单号的方式可以包括以下至少一种:通过手机APP、巴枪、快手(狂扫)设备扫描;Excel、Csv文件导入;人工录入。图中,快手是指快手(狂扫)设备,是一种自动称重扫描传送一体机。应到件是指应该到达的快件。拦截件是指被拦截的快件。问题件是指发生问题的快件。人工整理录入的数据文件例如是Excel文件或者Csv文件。staging area是指Git的暂存区,Git是一种分布式版本控制系统。ETL是指数据仓库。微批/流处理是指微批处理或者流处理。
在获取运单号后,可以对运单号进行物流商标注,形成数据集并存储于样本运单号数据库中,以便进行机器学习。由此,可以通过历史数据和外部数据源获得并更新数据集,还可以在本方法的实际应用中通过末端网点持续获得并更新数据集。
步骤S102:构建机器学习模型,学习所述样本运单号数据,获取用于运单号识别的多个正则表达式。所述多个正则表达式可以存储于正则表达式数据库。当样本运单号数据更新时,机器学习所获取的正则表达式也可以进行持续优化更新。
其中,所述多个正则表达式对应的运单号长度可以包括以下至少一种:L1、L2、……、LN,N是大于1的正整数,L1、L2、……、LN是两两不等的正整数;对应的运单号长度是K的正则表达式的位次可以包括以下至少一种:Z1、Z2、……、ZK-1、ZK,K是L1、L2、……、LN中任意一个,ZM是运单号中从左至右第M位,M是不大于K的正整数。N例如是3,L1、L2、……、LN例如分别是12、13、16,K例如是13,对应的运单号长度是13的正则表达式的位次例如是以下其中一种:Z1;Z2;……;Z12;Z13;Z1、Z2;Z1、Z3;……;Z1、Z13;Z2、Z3;Z2、Z4;……;Z2、Z13;……;Z12、Z13;Z1、Z2、Z3;……;Z11、Z12、Z13;Z1、Z2、Z3、Z4;……;Z10、Z11、Z12、Z13;……;Z1、Z2、Z3、……、Z13。由此提供对应不同运单号长度的正则表达式,并且对应每种运单号长度提供不同位次的正则表达式。例如当对应的运单号长度是13的正则表达式的位次是Z1、Z2、Z3时,该正则表达式例如是(190)\d{10},使用该正则表达式将匹配出长度为13位且前三位次分别是1、9、0的运单号。
步骤S103:在接收到第一用户对应的待识别运单号后,从所述多个正则表达式中确定所述第一用户对应的第一正则表达式组。其中,第一用户例如是网点级用户或者业务员级用户,接收第一用户对应的待识别运单号的方式可以是接收第一用户通过第一设备上传的待识别运单号,或者接收导入的第一用户对应的待识别运单号,第一设备可以是手持设备或者安装有APP的手机、平板电脑、智能穿戴设备,手持设备例如是巴枪或者快手(狂扫)设备。
在实际应用中,单个网点或者业务员往往服务于部分物流商,而非市面上的全部物流商,例如某网点和三家物流商建立合作关系,服务于韵达、中通和申通。在一些可能的实现方式中,可以通过当前用户所服务的物流商来筛选用于识别上述物流商的正则表达式。所述从所述多个正则表达式中确定所述第一用户对应的第一正则表达式组的步骤,可以包括:获取所述第一用户对应的第一物流商组;从所述多个正则表达式中确定所述第一物流商组对应的第一正则表达式组。其中,第一正则表达式组中每个正则表达式对应第一物流商组中至少一个物流商。对上述服务于韵达、中通和申通的网点来说,可以将该网点对应的物流商组配置为韵达、中通和申通,从全部正则表达式中筛选韵达、中通和申通中至少一个对应的正则表达式。在实际应用中,用于扫描运单号的用户设备的本地数据库可以存储有当前用户对应的物流商组所对应的正则表达式。
在一些可能的实现方式中,可以通过运单号长度进一步缩小正则表达式的范围,提升识别速度。所述从所述多个正则表达式中确定所述第一物流商组对应的第一正则表达式组的步骤,可以包括:获取所述待识别运单号的长度作为第一长度;从所述多个正则表达式中确定对应所述第一物流商组且对应所述第一长度的第一正则表达式组。第一物流商组例如是韵达、中通和申通,待识别运单号的长度例如是13,由此可以筛选出对应韵达、中通和申通三家物流商且对应的运单号长度是13的正则表达式。
在一些可能的实现方式中,可以通过位次匹配获取匹配位数最多的正则表达式,进一步缩小正则表达式的范围。所述从所述多个正则表达式中确定对应所述第一物流商组且对应所述第一长度的第一正则表达式组的步骤,可以包括:从所述多个正则表达式中确定对应所述第一物流商组且对应所述第一长度的若干个正则表达式;对所述若干个正则表达式中每个正则表达式与所述待识别运单号进行正则匹配,获取所述若干个正则表达式中每个正则表达式与所述待识别运单号的匹配位次;获取与所述待识别运单号的匹配位数最多的第一正则表达式组。例如上述若干个正则表达式中与某待识别运单号的匹配位数的最大值是3,匹配位数是3的正则表达式有2个,第一正则表达式组包括正则表达式A、B,正则表达式A与待识别运单号的匹配位次是Z1、Z2、Z3,正则表达式B与待识别运单号的匹配位次是Z1、Z2、Z4
步骤S104:根据所述第一正则表达式组确定所述待识别运单号对应的物流商。
在业务员使用手持设备或APP扫描运单并上传运单号后,通过正则表达式识别运单号对应的物流商,提高末端共配网点的业务操作信息化水平,由此在多家物流商的快件混装混扫时,使业务员无需频繁切换手持设备及APP即可识别多家物流商的运单号,提高末端网点的工作效率;另一方面,通过上传运单号的用户来缩小正则表达式的范围,从全部正则表达式中筛选上传用户对应的部分正则表达式,由此大大减少识别过程的计算量,提高识别速度。
在一些可能的实现方式中,可以通过正则表达式对应各物流商的概率确定待识别运单号对应的物流商,例如可以确定概率最大的物流商作为识别结果。具体而言,参见图3,所述步骤S104可以包括步骤S201~S202。
步骤S201:获取所述第一正则表达式组中每个正则表达式对应的物流商及其概率。
步骤S202:根据所述第一正则表达式组中每个正则表达式对应的物流商及其概率确定所述待识别运单号对应的物流商。
例如正则表达式A对应的物流商有3个,其中,物流商A的概率是80%,物流商B的概率是15%,物流商C的概率是5%,在一种实际应用中可以确定待识别运单号对应的物流商是物流商A。
在一些可能的实现方式中,可以使用Softmax回归模型来计算正则表达式对应物流商的概率。具体而言,参见图4,所述步骤S201可以包括步骤S301~S304。
步骤S301:获取所述待识别运单号的长度作为第一长度。
针对所述第一正则表达式组中每个正则表达式执行步骤S302~S304。
步骤S302:获取所述正则表达式对应的第二物流商组。
步骤S303:对所述正则表达式与所述待识别运单号进行正则匹配,获取所述正则表达式与所述待识别运单号的第一匹配位次。
步骤S304:使用Softmax回归模型和至少一个维度的历史数据中所述第二物流商组中每个物流商对应的运单号数量占所有运单号数量的比例,计算所述正则表达式对应所述每个物流商的概率,所述至少一个维度的历史数据包括以下至少一种:所有网点级用户对应的历史数据、所述第一用户对应的网点级用户对应的历史数据、所述第一用户对应的业务员级用户对应的历史数据、所有网点级用户对应的人工修改历史数据、所述第一用户对应的网点级用户对应的人工修改历史数据、所述第一用户对应的业务员级用户对应的人工修改历史数据、对应所有网点级用户且对应所述第一长度的历史数据、对应所述第一用户对应的网点级用户且对应所述第一长度的历史数据、对应所述第一用户对应的业务员级用户且对应所述第一长度的历史数据、对应所述第一长度且对应所述第一匹配位次的历史数据。
其中,第一维度,所有网点级用户对应的历史数据中每个物流商对应的运单号数量占所有运单号数量的比例的计算方式如下:
获取全部网点级用户所配置的需要识别的n个物流商中每个物流商对应的运单号数量分别为a1、a2、a3、……、an,计算每个物流商对应的运单号数量占全部物流商对应的运单号数量的比例是
Figure BDA0002592542290000111
第二维度,每个网点级用户对应的历史数据中每个物流商对应的运单号数量占所有运单号数量的比例的计算方式如下:
分别获取每个网点级用户所配置的需要识别的n个物流商中每个物流商对应的运单号数量分别为b1、b2、b3、……、bn,计算每个物流商对应的运单号数量占全部物流商对应的运单号数量的比例是
Figure BDA0002592542290000112
第三维度,每个业务员级用户对应的历史数据中每个物流商对应的运单号数量占所有运单号数量的比例的计算方式如下:
分别获取每个业务员级用户所配置的需要识别的n个物流商中每个物流商对应的运单号数量分别为c1、c2、c3、……、cn,计算每个物流商对应的运单号数量占全部物流商对应的运单号数量的比例是
Figure BDA0002592542290000113
第四维度,所有网点级用户对应的人工修改历史数据中每个物流商对应的运单号数量占所有运单号数量的比例的计算方式如下:
获取全部网点级用户所配置的需要识别的n个物流商中每个物流商对应的运单号数量分别为d1、d2、d3、……、dn,计算每个物流商对应的运单号数量占全部物流商对应的运单号数量的比例是
Figure BDA0002592542290000114
第五维度,每个网点级用户对应的人工修改历史数据中每个物流商对应的运单号数量占所有运单号数量的比例的计算方式如下:
分别获取每个网点级用户所配置的需要识别的n个物流商中每个物流商对应的运单号数量分别为e1、e2、e3、……、en,计算每个物流商对应的运单号数量占全部物流商对应的运单号数量的比例是
Figure BDA0002592542290000115
第六维度,每个业务员级用户对应的人工修改历史数据中每个物流商对应的运单号数量占所有运单号数量的比例的计算方式如下:
分别获取每个业务员级用户所配置的需要识别的n个物流商中每个物流商对应的运单号数量分别为f1、f2、f3、……、fn,计算每个物流商对应的运单号数量占全部物流商对应的运单号数量的比例是
Figure BDA0002592542290000121
第七维度,对应所有网点级用户且对应每个运单号长度的历史数据中每个物流商对应的运单号数量占所有运单号数量的比例的计算方式如下:
针对每个运单号长度,获取全部网点级用户所配置的需要识别的n个物流商中每个物流商对应的运单号数量分别为g1、g2、g3、……、gn,计算每个物流商对应的运单号数量占全部物流商对应的运单号数量的比例是
Figure BDA0002592542290000122
第八维度,对应每个网点级用户且对应每个运单号长度的历史数据中每个物流商对应的运单号数量占所有运单号数量的比例的计算方式如下:
针对每个运单号长度,分别获取每个网点级用户所配置的需要识别的n个物流商中每个物流商对应的运单号数量分别为h1、h2、h3、……、hn,计算每个物流商对应的运单号数量占全部物流商对应的运单号数量的比例是
Figure BDA0002592542290000123
第九维度,对应每个业务员级用户且对应每个运单号长度的历史数据中每个物流商对应的运单号数量占所有运单号数量的比例的计算方式如下:
针对每个运单号长度,分别获取每个业务员级用户所配置的需要识别的n个物流商中每个物流商对应的运单号数量分别为r1、r2、r3、……、rn,计算每个物流商对应的运单号数量占全部物流商对应的运单号数量的比例是
Figure BDA0002592542290000124
第十维度,对应每个运单号长度且对应每种匹配位次的历史数据中每个物流商对应的运单号数量占所有运单号数量的比例的计算方式如下:
针对每个运单号长度,分别获取每种匹配位次对应的全部网点级用户所配置的需要识别的n个物流商中每个物流商对应的运单号数量分别为s1、s2、s3、……、sn,计算每个物流商对应的运单号数量占全部物流商对应的运单号数量的比例是
Figure BDA0002592542290000125
通过广义线性模型拟合上述第一维度至第十维度的数据集,针对第一正则表达式组中每个正则表达式,使用Softmax回归模型计算出该正则表达式对应每个物流商的概率,计算结果可以存入Redis缓存数据库。计算过程如下所示:
对于m个已标记的样本组成的数据训练集{(x1,y1),(x2,y2),…,(xm,ym)},类别标签yi取值为{1,2,3,....,k},使用假设函数针对每一个类别j估算出概率值p(y=j|x),即假设函数将要输出一个k维的向量来表示这k个估计的概率值,假设函数形式如下:
Figure BDA0002592542290000131
其中,T是常数,θ1、θ2、θ3、……、θk为模型参数,一共有k个类别。其中每个θj为一个向量,表示类别等于j时的每个特征分量的权重;
对于每个样本估计其所属的类别的概率为:
Figure BDA0002592542290000132
在Softmax回归算法的损失函数中引入指示函数1(.),则Softmax回归算法的损失函数如下:
Figure BDA0002592542290000133
其中,当y(i)属于第j类时,1{y(i)=j}=1,否则1{y(i)=j}=0;
使用梯度下降法求解J(θ)的最小值,经过求导,得到梯度公式如下:
Figure BDA0002592542290000134
通过最小化J(θ),就能实现一个可用的Softmax回归模型。
Softmax回归模型适用于标签互斥的情况,例如所有网点级用户对应的历史数据中所有运单号对应的全部物流商包括韵达、申通、中通、圆通、顺丰、百世、德邦和EMS,单个运单号只能属于其中一个标签,当运单号属于韵达时就不能再属于申通,符合实际应用中的需求;使用至少一种维度的数据来计算概率,充分考虑不同用户对应各物流商的概率不同的影响因素,使识别结果的准确性更高。
在一些可能的实现方式中,正则表达式的识别结果可能包括多个物流商,使用贝叶斯公式筛选出其中可能性最大的物流商。贝叶斯公式如下所示:
Figure BDA0002592542290000141
具体而言,参见图5,所述步骤S202可以包括步骤S401~S404。
步骤S401:根据所述第一正则表达式组中每个正则表达式对应的物流商及其概率获取所述待识别运单号对应的第一待定物流商。
步骤S402:根据所述第一正则表达式组中每个正则表达式对应的物流商及其概率获取所述待识别运单号对应的第二待定物流商。
步骤S403:若所述第一待定物流商与所述第二待定物流商一致,则使用贝叶斯公式计算所述待识别运单号归属所述第一待定物流商的第一概率。
步骤S404:若所述第一概率大于预定概率,则确定所述第一待定物流商作为所述待识别运单号对应的物流商。其中,预定概率是预先设定的概率,例如是90%或者95%。
例如第一正则表达式组中有正则表达式A、B、C,正则表达式A对应韵达、中通和申通的概率分别是80%、15%和5%,正则表达式B对应韵达、中通和申通的概率分别是75%、20%和5%,正则表达式C对应韵达和中通的概率分别是65%、35%,根据正则表达式A对应的物流商及其概率获取待识别运单号对应的第一待定物流商和第二待定物流商都是韵达,此时可以使用贝叶斯公式计算该待识别运单号归属韵达的概率,如果计算出的概率大于预定概率,则将韵达作为识别结果输出。
在一些可能的实现方式中,使用贝叶斯公式的筛选结果仍然可能包括一个以上物流商,此时可以通过人工手动选择确定运单号对应的物流商,智能化和人工手动结合,进一步提升识别结果的准确性。所述步骤S404可以包括:若所述第一概率大于所述预定概率,则将所述第一待定物流商放入所述待识别运单号对应的待定物流商组;若所述待定物流商组中物流商的数量大于1个,则向所述第一用户展示所述待定物流商组中的物流商;接收第一用户选择物流商的第一操作,响应于所述第一操作,确定所述待识别运单号对应的物流商。其中,还可以向所述第一用户展示所述待定物流商组与所述第一物流商组的交集。第一物流商组是第一用户对应的物流商的集合,在实际应用中可以由用户手动配置,因此待识别运单号一般而言应该归属其中一个物流商。当运单号的物流商识别结果在一个以上时,可以将全部结果列出,网点级用户或者业务员级用户可以手动选择该运单号所属的物流商,还可以将该运单号及其归属的物流商告知管理员级用户。
在一些可能的实现方式中,用于运单号识别的多个正则表达式的来源除了机器学习获取的正则表达式外,还可以包括第二用户人工维护的正则表达式。所述方法还可以包括:接收第二用户发送正则表达式的第二操作,响应于所述第二操作,将第二用户发送的正则表达式放入所述多个正则表达式中。例如当出现无法识别的运单号时,网点级用户或者业务员级用户可以人工修改该运单号为其归属的物流商,并告知管理员级用户,管理员级用户通过人工学习和人工整理的方式获取正则表达式并添加到正则表达式数据库。具体而言,所述接收第二用户发送正则表达式的第二操作,响应于所述第二操作,将第二用户发送的正则表达式放入所述多个正则表达式中,可以包括:当所述待识别运单号对应未知物流商时,接收第二用户发送正则表达式的第二操作,响应于所述第二操作,将第二用户发送的正则表达式放入所述多个正则表达式中。其中,第二用户可以与第一用户一致,也可以与第一用户不一致。
尽管机器学习能够自动生成正则表达式,但在实际应用中可能会出现运单号无法识别或者识别结果大于1个的情况,此时可以通过人工干预的方式将未识别物流商的运单号修改成对应的物流商,由管理员级用户人工生成对应的正则表达式并维护到正则表达式数据库,由此,通过机器学习和人工干预两种方式生成正则表达式,使用正则表达式对待识别运单号进行正则匹配,快速识别出待识别运单号所归属的物流商,提高末端网点的工作效率。其中人工干预的方式可以进一步提高识别容错能力,提升可用性。
随着实际应用中样本运单号数据集不断丰富,在机器学习的过程中可以自动分析对应未知物流商的运单号和需要人工修改物流商的运单号,生成新的正则表达式或者对原有的正则表达式进行更新,不断完善正则表达式数据库,进一步提高识别准确率,提高机器学习的准确性,持续降低人工干预的频率。所述方法还可以包括:当所述待识别运单号对应未知物流商或者对应大于1个物流商时,获取所述待识别运单号对应的人工维护的物流商。具体而言,所述获取所述待识别运单号对应的人工维护的物流商的步骤,可以包括:向所述第一用户展示所述第一用户对应的第一物流商组,接收所述第一用户从所述第一物流商组中选择物流商的第三操作,响应于所述第三操作,确定所述待识别运单号对应的人工维护的物流商。
所述方法还可以进一步包括:使用机器学习模型,学习所述待识别运单号及其人工维护的物流商,生成新的正则表达式或者对原有的正则表达式进行更新。
参见图6,本申请实施例还提供了一种运单号识别方法,所述方法包括步骤S501~S510。
步骤S501:开始。
步骤S502:机器学习模型学习历史运单号数据集。
步骤S503:生成正则表达式,即运单号规则。
步骤S504:本地同步当前设备对应的用户所配置的物流商对应的正则表达式。
步骤S505:将待识别单号进行正则匹配。
步骤S506:判断识别结果,若识别结果是唯一物流商则执行步骤S507,若识别结果是未知物流商或者物流商大于1个则执行步骤S508。
步骤S507:输出识别结果。
步骤S508:人工选择物流商,执行步骤S507。
步骤S509:人工学习、整理正则表达式。
步骤S510:结束。
参见图7,本申请实施例还提供了一种运单号识别方法,所述方法包括步骤S601~S622。
步骤S601:开始。
步骤S602:将运单号数据存储至运单号数据库。
步骤S603:对运单号数据库中的运单号进行数据标注,标注每个运单号对应的物流商。
步骤S604:取出运单号数据库中的运单号数据。
步骤S605:检测取出的运单号数据是否已标注对应的物流商,若已标注则执行步骤S606,否则执行步骤S621。
步骤S606:调用机器学习模型。
步骤S607:生成正则表达式。
步骤S608:检测Redis缓存数据库中是否存在该正则表达式,若存在则执行步骤S609,否则执行步骤S610。
步骤S609:结束。
步骤S610:将正则表达式存储至Redis缓存数据库,执行步骤S611和步骤S612。
步骤S611:将Redis缓存数据库中的正则表达式存储至正则表达式数据库。
步骤S612:将Redis缓存数据库中的正则表达式推送至终端设备进行更新。
步骤S613:将正则表达式存储至终端设备的本地数据库。
步骤S614:使用本地数据库的正则表达式对待识别运单号进行识别。
步骤S615:检测是否识别成功,若是则执行步骤S616,否则执行步骤S619。
步骤S616:输出识别结果,执行步骤S617和S618。
步骤S617:同步至对应数据库或者对应业务系统。
步骤S618:将识别结果存储至Excel文件。
步骤S619:人工修改,手动确定运单号对应的物流商,执行步骤S616。
步骤S620:人工直报正则表达式,执行步骤S608。
步骤S621:舍弃。
步骤S622:结束。
参见图8,本申请实施例还提供了一种运单号识别装置,所述装置包括:数据获取模块101,用于获取样本运单号数据,所述样本运单号数据包括运单号及其对应的物流商;机器学习模块102,用于构建机器学习模型,学习所述样本运单号数据,获取用于运单号识别的多个正则表达式;表达式筛选模块103,用于在接收到第一用户对应的待识别运单号后,从所述多个正则表达式中确定所述第一用户对应的第一正则表达式组;物流商确定模块104,用于根据所述第一正则表达式组确定所述待识别运单号对应的物流商。
在一些可能的实现方式中,所述多个正则表达式对应的运单号长度包括以下至少一种:L1、L2、……、LN,N是大于1的正整数,L1、L2、……、LN是两两不等的正整数;对应的运单号长度是K的正则表达式的位次包括以下至少一种:Z1、Z2、……、ZK-1、ZK,K是L1、L2、……、LN中任意一个,ZM是运单号中从左至右第M位,M是不大于K的正整数。
在一些可能的实现方式中,所述表达式筛选模块103用于:获取所述第一用户对应的第一物流商组;从所述多个正则表达式中确定所述第一物流商组对应的第一正则表达式组。
在一些可能的实现方式中,所述表达式筛选模块103还用于:获取所述待识别运单号的长度作为第一长度;从所述多个正则表达式中确定对应所述第一物流商组且对应所述第一长度的第一正则表达式组。
在一些可能的实现方式中,所述表达式筛选模块103还用于:从所述多个正则表达式中确定对应所述第一物流商组且对应所述第一长度的若干个正则表达式;对所述若干个正则表达式中每个正则表达式与所述待识别运单号进行正则匹配,获取所述若干个正则表达式中每个正则表达式与所述待识别运单号的匹配位次;获取与所述待识别运单号的匹配位数最多的第一正则表达式组。
在一些可能的实现方式中,所述物流商确定模块104用于:获取所述第一正则表达式组中每个正则表达式对应的物流商及其概率;根据所述第一正则表达式组中每个正则表达式对应的物流商及其概率确定所述待识别运单号对应的物流商。
在一些可能的实现方式中,所述物流商确定模块104还用于:获取所述待识别运单号的长度作为第一长度;针对所述第一正则表达式组中每个正则表达式执行如下操作:获取所述正则表达式对应的第二物流商组;对所述正则表达式与所述待识别运单号进行正则匹配,获取所述正则表达式与所述待识别运单号的第一匹配位次;使用Softmax回归模型和至少一个维度的历史数据中所述第二物流商组中每个物流商对应的运单号数量占所有运单号数量的比例,计算所述正则表达式对应所述每个物流商的概率,所述至少一个维度的历史数据包括以下至少一种:所有网点级用户对应的历史数据、所述第一用户对应的网点级用户对应的历史数据、所述第一用户对应的业务员级用户对应的历史数据、所有网点级用户对应的人工修改历史数据、所述第一用户对应的网点级用户对应的人工修改历史数据、所述第一用户对应的业务员级用户对应的人工修改历史数据、对应所有网点级用户且对应所述第一长度的历史数据、对应所述第一用户对应的网点级用户且对应所述第一长度的历史数据、对应所述第一用户对应的业务员级用户且对应所述第一长度的历史数据、对应所述第一长度且对应所述第一匹配位次的历史数据。
在一些可能的实现方式中,所述物流商确定模块104还用于:根据所述第一正则表达式组中每个正则表达式对应的物流商及其概率获取所述待识别运单号对应的第一待定物流商;根据所述第一正则表达式组中每个正则表达式对应的物流商及其概率获取所述待识别运单号对应的第二待定物流商;若所述第一待定物流商与所述第二待定物流商一致,则使用贝叶斯公式计算所述待识别运单号归属所述第一待定物流商的第一概率;若所述第一概率大于预定概率,则确定所述第一待定物流商作为所述待识别运单号对应的物流商。
在一些可能的实现方式中,所述物流商确定模块104还用于:若所述第一概率大于所述预定概率,则将所述第一待定物流商放入所述待识别运单号对应的待定物流商组;若所述待定物流商组中物流商的数量大于1个,则向所述第一用户展示所述待定物流商组中的物流商;接收第一用户选择物流商的第一操作,响应于所述第一操作,确定所述待识别运单号对应的物流商。
参见图9,本申请实施例还提供了一种电子设备200,电子设备200包括至少一个存储器210、至少一个处理器220以及连接不同平台系统的总线230。
存储器210可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)211和/或高速缓存存储器212,还可以进一步包括只读存储器(ROM)213。
其中,存储器210还存储有计算机程序,计算机程序可以被处理器220执行,使得处理器220执行本申请实施例中运单号识别方法的步骤(如图1所示)。存储器210还可以包括具有一组(至少一个)程序模块215的程序/实用工具214,这样的程序模块包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
相应的,处理器220可以执行上述计算机程序,以及可以执行程序/实用工具214。
总线230可以为表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。
电子设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信,还可与一个或者多个能够与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且,电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质用于存储计算机程序,所述计算机程序被执行时实现本申请实施例中运单号识别方法的步骤(如图1所示)。图10示出了本实施例提供的用于实现上述方法的程序产品300,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品300不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品300可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言诸如Java、C++等,还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本申请从使用目的上,效能上,进步及新颖性等观点进行阐述,其设置有的实用进步性,已符合专利法所强调的功能增进及使用要件,本申请以上的说明及附图,仅为本申请的较佳实施例而已,并非以此局限本申请,因此,凡一切与本申请构造,装置,特征等近似、雷同的,即凡依本申请专利申请范围所作的等同替换或修饰等,皆应属本申请的专利申请保护的范围之内。

Claims (10)

1.一种运单号识别方法,其特征在于,所述方法包括:
获取样本运单号数据,所述样本运单号数据包括运单号及其对应的物流商;
构建机器学习模型,学习所述样本运单号数据,获取用于运单号识别的多个正则表达式;
在接收到第一用户对应的待识别运单号后,从所述多个正则表达式中确定所述第一用户对应的第一正则表达式组;
根据所述第一正则表达式组确定所述待识别运单号对应的物流商。
2.根据权利要求1所述的运单号识别方法,其特征在于,所述多个正则表达式对应的运单号长度包括以下至少一种:L1、L2、……、LN,N是大于1的正整数,L1、L2、……、LN是两两不等的正整数;
对应的运单号长度是K的正则表达式的位次包括以下至少一种:Z1、Z2、……、ZK-1、ZK,K是L1、L2、……、LN中任意一个,ZM是运单号中从左至右第M位,M是不大于K的正整数。
3.根据权利要求1所述的运单号识别方法,其特征在于,所述从所述多个正则表达式中确定所述第一用户对应的第一正则表达式组,包括:
获取所述第一用户对应的第一物流商组;
从所述多个正则表达式中确定所述第一物流商组对应的第一正则表达式组。
4.根据权利要求3所述的运单号识别方法,其特征在于,所述从所述多个正则表达式中确定所述第一物流商组对应的第一正则表达式组,包括:
获取所述待识别运单号的长度作为第一长度;
从所述多个正则表达式中确定对应所述第一物流商组且对应所述第一长度的第一正则表达式组。
5.根据权利要求4所述的运单号识别方法,其特征在于,所述从所述多个正则表达式中确定对应所述第一物流商组且对应所述第一长度的第一正则表达式组,包括:
从所述多个正则表达式中确定对应所述第一物流商组且对应所述第一长度的若干个正则表达式;
对所述若干个正则表达式中每个正则表达式与所述待识别运单号进行正则匹配,获取所述若干个正则表达式中每个正则表达式与所述待识别运单号的匹配位次;
获取与所述待识别运单号的匹配位数最多的第一正则表达式组。
6.根据权利要求1所述的运单号识别方法,其特征在于,所述根据所述第一正则表达式组确定所述待识别运单号对应的物流商,包括:
获取所述第一正则表达式组中每个正则表达式对应的物流商及其概率;
根据所述第一正则表达式组中每个正则表达式对应的物流商及其概率确定所述待识别运单号对应的物流商。
7.根据权利要求6所述的运单号识别方法,其特征在于,所述获取所述第一正则表达式组中每个正则表达式对应的物流商及其概率,包括:
获取所述待识别运单号的长度作为第一长度;
针对所述第一正则表达式组中每个正则表达式执行以下操作:
获取所述正则表达式对应的第二物流商组;
对所述正则表达式与所述待识别运单号进行正则匹配,获取所述正则表达式与所述待识别运单号的第一匹配位次;
使用Softmax回归模型和至少一个维度的历史数据中所述第二物流商组中每个物流商对应的运单号数量占所有运单号数量的比例,计算所述正则表达式对应所述每个物流商的概率,所述至少一个维度的历史数据包括以下至少一种:所有网点级用户对应的历史数据、所述第一用户对应的网点级用户对应的历史数据、所述第一用户对应的业务员级用户对应的历史数据、所有网点级用户对应的人工修改历史数据、所述第一用户对应的网点级用户对应的人工修改历史数据、所述第一用户对应的业务员级用户对应的人工修改历史数据、对应所有网点级用户且对应所述第一长度的历史数据、对应所述第一用户对应的网点级用户且对应所述第一长度的历史数据、对应所述第一用户对应的业务员级用户且对应所述第一长度的历史数据、对应所述第一长度且对应所述第一匹配位次的历史数据。
8.根据权利要求6所述的运单号识别方法,其特征在于,所述根据所述第一正则表达式组中每个正则表达式对应的物流商及其概率确定所述待识别运单号对应的物流商,包括:
根据所述第一正则表达式组中每个正则表达式对应的物流商及其概率获取所述待识别运单号对应的第一待定物流商;
根据所述第一正则表达式组中每个正则表达式对应的物流商及其概率获取所述待识别运单号对应的第二待定物流商;
若所述第一待定物流商与所述第二待定物流商一致,则使用贝叶斯公式计算所述待识别运单号归属所述第一待定物流商的第一概率;
若所述第一概率大于预定概率,则确定所述第一待定物流商作为所述待识别运单号对应的物流商。
9.根据权利要求8所述的运单号识别方法,其特征在于,所述若所述第一概率大于预定概率,则确定所述第一待定物流商作为所述待识别运单号对应的物流商,包括:
若所述第一概率大于所述预定概率,则将所述第一待定物流商放入所述待识别运单号对应的待定物流商组;
若所述待定物流商组中物流商的数量大于1个,则向所述第一用户展示所述待定物流商组中的物流商;
接收第一用户选择物流商的第一操作,响应于所述第一操作,确定所述待识别运单号对应的物流商。
10.一种运单号识别装置,其特征在于,所述装置包括:
数据获取模块,用于获取样本运单号数据,所述样本运单号数据包括运单号及其对应的物流商;
机器学习模块,用于构建机器学习模型,学习所述样本运单号数据,获取用于运单号识别的多个正则表达式;
表达式筛选模块,用于在接收到第一用户对应的待识别运单号后,从所述多个正则表达式中确定所述第一用户对应的第一正则表达式组;
物流商确定模块,用于根据所述第一正则表达式组确定所述待识别运单号对应的物流商。
CN202010699600.7A 2020-07-20 2020-07-20 运单号识别方法及装置 Active CN111881795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010699600.7A CN111881795B (zh) 2020-07-20 2020-07-20 运单号识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010699600.7A CN111881795B (zh) 2020-07-20 2020-07-20 运单号识别方法及装置

Publications (2)

Publication Number Publication Date
CN111881795A true CN111881795A (zh) 2020-11-03
CN111881795B CN111881795B (zh) 2022-06-21

Family

ID=73154630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010699600.7A Active CN111881795B (zh) 2020-07-20 2020-07-20 运单号识别方法及装置

Country Status (1)

Country Link
CN (1) CN111881795B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537900A (zh) * 2021-07-27 2021-10-22 畅销家(深圳)科技有限公司 一种物流单号的识别方法以及相关设备
CN116662620A (zh) * 2023-01-12 2023-08-29 深圳市帝盟网络科技有限公司 一种提高相似物流单号识别精度的算法和物流查询系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130282739A1 (en) * 2012-04-18 2013-10-24 International Business Machines Corporation Generating a log parser by automatically identifying regular expressions matching a sample log
CN104866985A (zh) * 2015-05-04 2015-08-26 小米科技有限责任公司 快递单号识别方法、装置及系统
CN105512835A (zh) * 2014-09-26 2016-04-20 深圳前海百递网络有限公司 一种提取物流单号的方法及装置
CN106845880A (zh) * 2015-12-03 2017-06-13 阿里巴巴集团控股有限公司 运单号归属的识别方法及装置
CN110909160A (zh) * 2019-10-11 2020-03-24 平安科技(深圳)有限公司 正则表达式生成方法、服务器及计算机可读存储介质
CN111401356A (zh) * 2019-01-02 2020-07-10 南京大学 一种基于深度学习的快递单手写体电话号码识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130282739A1 (en) * 2012-04-18 2013-10-24 International Business Machines Corporation Generating a log parser by automatically identifying regular expressions matching a sample log
CN105512835A (zh) * 2014-09-26 2016-04-20 深圳前海百递网络有限公司 一种提取物流单号的方法及装置
CN104866985A (zh) * 2015-05-04 2015-08-26 小米科技有限责任公司 快递单号识别方法、装置及系统
CN106845880A (zh) * 2015-12-03 2017-06-13 阿里巴巴集团控股有限公司 运单号归属的识别方法及装置
CN111401356A (zh) * 2019-01-02 2020-07-10 南京大学 一种基于深度学习的快递单手写体电话号码识别方法
CN110909160A (zh) * 2019-10-11 2020-03-24 平安科技(深圳)有限公司 正则表达式生成方法、服务器及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陆承佳: "基于Python的网络爬虫在物流信息追踪中的应用", 《信息与电脑(理论版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537900A (zh) * 2021-07-27 2021-10-22 畅销家(深圳)科技有限公司 一种物流单号的识别方法以及相关设备
CN116662620A (zh) * 2023-01-12 2023-08-29 深圳市帝盟网络科技有限公司 一种提高相似物流单号识别精度的算法和物流查询系统
WO2024149368A1 (zh) * 2023-01-12 2024-07-18 深圳市帝盟网络科技有限公司 一种提高相似物流单号识别精度的算法和物流查询系统
CN116662620B (zh) * 2023-01-12 2024-08-06 深圳市帝盟网络科技有限公司 一种提高相似物流单号识别精度的方法和物流查询系统

Also Published As

Publication number Publication date
CN111881795B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
Rodríguez-Pérez et al. NanoCLUST: a species-level analysis of 16S rRNA nanopore sequencing data
CN110019486B (zh) 数据采集方法、装置、设备及存储介质
US10671933B2 (en) Method and apparatus for evaluating predictive model
CN111027707B (zh) 模型的优化方法、装置及电子设备
CN109754105A (zh) 一种预测方法及终端、服务器
CN111881795B (zh) 运单号识别方法及装置
CN109388675A (zh) 数据分析方法、装置、计算机设备及存储介质
CN111814056A (zh) 基于信息处理的供应商推荐方法及相关设备
Diallo et al. Ancestors 1.0: a web server for ancestral sequence reconstruction
CN113298634A (zh) 基于时序特征和图神经网络的用户风险预测方法及装置
CN112381563A (zh) 一种自动化标签生成方法、装置和电子设备
Fernández-de-Bobadilla et al. PATO: pangenome analysis toolkit
Landerer et al. AnaCoDa: analyzing codon data with Bayesian mixture models
Emelichev et al. Stability analysis of the Pareto optimal solutions for some vector boolean optimization problem
Manica et al. COSIFER: a Python package for the consensus inference of molecular interaction networks
CN111325614B (zh) 电子对象的推荐方法、装置和电子设备
CN112989050A (zh) 一种表格分类方法、装置、设备及存储介质
CN116048463A (zh) 基于标签管理的需求项内容智能推荐方法及装置
CN111966822A (zh) 用于确定评价信息的情感类别的方法和装置
CN114282121A (zh) 业务节点推荐方法、系统、设备及存储介质
CN110442767B (zh) 一种确定内容互动平台标签的方法、装置及可读存储介质
CN112329883A (zh) 模型训练系统、方法、设备及存储介质
CN112906723A (zh) 一种特征选择的方法和装置
CN110942350A (zh) 一种数据处理方法、装置、设备及存储介质
Dang et al. markophylo: Markov chain analysis on phylogenetic trees

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant