CN104866985B - 快递单号识别方法、装置及系统 - Google Patents
快递单号识别方法、装置及系统 Download PDFInfo
- Publication number
- CN104866985B CN104866985B CN201510221336.5A CN201510221336A CN104866985B CN 104866985 B CN104866985 B CN 104866985B CN 201510221336 A CN201510221336 A CN 201510221336A CN 104866985 B CN104866985 B CN 104866985B
- Authority
- CN
- China
- Prior art keywords
- odd numbers
- express delivery
- title
- company
- express
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000011524 similarity measure Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 10
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 12
- 230000014509 gene expression Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开是关于一种快递单号识别方法、装置及系统,属于计算机技术领域。所述方法包括:获取本次查询的目标快递单号;根据目标快递单号,查询预先建立的快递数据组与快递公司名称的对应关系;对应关系中的每个快递数据组对应一个快递公司名称,且每个快递数据组包括至少一条单号模板;若对应关系中记录有与目标快递单号匹配的单号模板,将匹配的单号模板所在的快递数据组所对应的快递公司名称确定为目标快递单号对应的快递公司名称。本公开通过预先建立的快递数据组与快递公司名称的对应关系来获取目标快递单号对应的快递公司名称,解决了相关技术中操作步骤繁琐,查询效率较低的问题;达到了用户无需输入快递公司名称的效果。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种快递单号识别方法、装置及系统。
背景技术
随着电子商务的兴起,快递行业迅速发展,在快递运输的过程中,用户可以根据快递单号在互联网上查询快递的运输状态。
相关技术中,用户可以先在查询终端(如手机、电脑等)上输入快递公司名称的相关信息,查询终端根据用户的输入信息识别快递单号对应的快递公司名称,然后用户再输入快递单号,相应的服务器根据查询终端识别出的快递公司名称,在该快递公司名称所对应的快递公司的数据库中,查询得到该快递单号所对应的快递的运输状态,最终由查询终端显示该运输状态。
发明内容
本公开提供了一种快递单号识别方法、装置及系统。
根据本公开的第一方面,提供一种快递单号识别方法,该方法包括:
获取本次查询的目标快递单号;
根据目标快递单号,查询预先建立的快递数据组与快递公司名称的对应关系;对应关系中的每个快递数据组对应一个快递公司名称,且每个快递数据组包括至少一条单号模板,单号模板是根据预先获取的快递单号所生成的模板;
若对应关系中记录有与目标快递单号匹配的单号模板,将匹配的单号模板所在的快递数据组所对应的快递公司名称确定为目标快递单号对应的快递公司名称。
可选的,该方法还包括:
若对应关系中没有记录与目标快递单号匹配的单号模板,在对应关系中记录的快递数据组中确定与目标快递单号相似性最大的单号模板;
若与目标快递单号相似性最大的单号模板为一个,将目标公司名称确定为目标快递单号对应的快递公司名称,目标公司名称为与目标快递单号相似性最大的单号模板所在的快递数据组所对应的快递公司名称;
若与目标快递单号相似性最大的单号模板为至少两个,将目标公司名称中使用概率最高的快递公司名称确定为目标快递单号对应的快递公司名称。
可选的,该方法还包括:
获取历史时间段内的快递数据集合,快递数据集合中每条数据包括:快递单号、快递公司名称;
将每条数据中的快递单号转换为以预设形式表示的单号,以预设形式表示的单号包括转换前的快递单号中存在标识含义的内容;
将处理后的快递数据集合按照快递公司名称的不同划分为至少一个快递数据组得到对应关系,其中,每个快递数据组对应一个快递公司名称,且每个快递数据组包括至少一条单号模板,每条单号模板包括处理后的快递数据集合中的单号形式相同且对应同一快递公司名称的单号。
可选的,在对应关系中记录的快递数据组中确定与目标快递单号相似性最大的单号模板,包括:
根据相似性计算公式,计算任一单号模板中与目标快递单号的相似性K,相似性计算公式为:
K=H/L;
其中,H为任一单号模板中与目标快递单号相同的字符的个数,L为目标快递单号的字符个数。
可选的,将目标公司名称中使用概率最高的快递公司名称确定为目标快递单号对应的快递公司名称,包括:
获取目标公司名称中任一快递公司名称的使用概率;
若目标公司名称中使用概率最高的快递公司名称有一个,将目标公司名称中使用概率最高的快递公司名称确定为目标快递单号对应的快递公司名称;
若目标公司名称中使用概率最高的快递公司名称有至少两个,将目标公司名称中使用概率最高且时间优先级最高的快递公司名称确定为目标快递单号对应的快递公司名称。
可选的,获取目标公司名称中任一快递公司名称的使用概率,包括:
获取目标快递单号相似性最大的任一单号的模板使用概率M,模板使用概率M为:
M=n/Q;
根据先验概率公式获取与目标快递单号相似性最大的任一单号模板所在的快递数据组的先验概率X,先验概率公式为:
X=Q/Z;
使用概率公式获取与目标快递单号相似性最大的任一单号模板所在的快递数据组所对应的快递公司名称的使用概率P,概率公式为:
P=X*M;
其中,n为与目标快递单号相似性最大的任一单号模板对应的单号的总数,Q为与目标快递单号相似性最大的任一单号模板所在的快递数据组对应的单号的总数,Z为快递数据集合对应的单号的总数。
可选的,将目标公司名称中使用概率最高且时间优先级最高的快递公司名称确定为目标快递单号对应的快递公司名称,包括:
获取任一目标单号模板所对应的起始时间戳中离目标时刻最近的起始时间戳T,起始时间戳用于指示快递的寄出时间,目标单号模板为目标公司名称中使用概率最高的快递公司名称所对应的与目标快递单号相似性最大的单号模板;
根据时间优先级计算公式计算任一目标单号模板所对应的快递公司名称的时间优先级L,时间优先级计算公式为:
L=(1-|W-T|/W),
其中,W为目标时刻的时间戳;
将目标公司名称中使用概率最高且时间优先级最大的快递公司名称确定为目标快递单号对应的快递公司名称。
可选的,将目标公司名称中使用概率最高且时间优先级最高的快递公司名称确定为目标快递单号对应的快递公司名称,包括:
获取目标快递单号相似性最大的任一单号的模板使用概率M,模板使用概率M为:
M=n/Q;
根据先验概率公式获取与目标快递单号相似性最大的任一单号模板所在的快递数据组的先验概率X,先验概率公式为:
X=Q/Z;
根据综合概率公式获取与目标快递单号相似性最大的任一单号模板所在的快递数据组所对应的快递公司名称的综合概率Y,综合概率公式Y为:
Y=X*M*(1-|W-T|/W);
将目标公司名称中综合概率最大的快递公司名称确定为目标快递单号;
其中,n为与目标快递单号相似性最大的任一单号模板对应的单号的总数,Q为与目标快递单号相似性最大的任一单号模板所在的快递数据组对应的单号的总数,Z为快递数据集合对应的单号的总数,T为与目标快递单号相似性最大的任一单号模板所对应的起始时间戳中离目标时刻最近的起始时间戳,起始时间戳用于指示快递的寄出时间。
根据本公开的第二方面,提供一种快递单号识别装置,该装置包括:
单号获取模块,被配置为获取本次查询的目标快递单号;
对应查询模块,被配置为根据目标快递单号,查询预先建立的快递数据组与快递公司名称的对应关系;对应关系中的每个快递数据组对应一个快递公司名称,且每个快递数据组包括至少一条单号模板,单号模板是根据预先获取的快递单号所生成的模板;
名称确定模块,被配置为若对应关系中记录有与目标快递单号匹配的单号模板,将匹配的单号模板所在的快递数据组所对应的快递公司名称确定为目标快递单号对应的快递公司名称。
可选的,该装置还包括:
相似性确定模块,被配置为若对应关系中没有记录与目标快递单号匹配的单号模板,在对应关系中记录的快递数据组中确定与目标快递单号相似性最大的单号模板;若与目标快递单号相似性最大的单号模板为一个,将目标公司名称确定为目标快递单号对应的快递公司名称,目标公司名称为与目标快递单号相似性最大的单号模板所在的快递数据组所对应的快递公司名称;若与目标快递单号相似性最大的单号模板为至少两个,将目标公司名称中使用概率最高的快递公司名称确定为目标快递单号对应的快递公司名称。
可选的,该装置还包括:关系建立模块,被配置为获取历史时间段内的快递数据集合,快递数据集合中每条数据包括:快递单号、快递公司名称;将每条数据中的快递单号转换为以预设形式表示的单号,以预设形式表示的单号包括转换前的快递单号中存在标识含义的内容;将处理后的快递数据集合按照快递公司名称的不同划分为至少一个快递数据组得到对应关系,其中,每个快递数据组对应一个快递公司名称,且每个快递数据组包括至少一条单号模板,每条单号模板包括处理后的快递数据集合中的单号形式相同且对应同一快递公司名称的单号。
可选的,相似性确定模块,被配置为:
根据相似性计算公式,计算任一单号模板中与目标快递单号的相似性K,相似性计算公式为:
K=H/L;
其中,H为任一单号模板中与目标快递单号相同的字符的个数,L为目标快递单号的字符个数。
可选的,相似性确定模块,包括:
使用概率获取子模块,被配置为获取目标公司名称中任一快递公司名称的使用概率;
第一概率子模块,被配置为若目标公司名称中使用概率最高的快递公司名称有一个,将目标公司名称中使用概率最高的快递公司名称确定为目标快递单号对应的快递公司名称;
第二概率子模块,被配置为若目标公司名称中使用概率最高的快递公司名称有至少两个,将目标公司名称中使用概率最高且时间优先级最高的快递公司名称确定为目标快递单号对应的快递公司名称。
可选的,使用概率获取子模块,被配置为:
获取目标快递单号相似性最大的任一单号的模板使用概率M,模板使用概率M为:
M=n/Q;
根据先验概率公式获取与目标快递单号相似性最大的任一单号模板所在的快递数据组的先验概率X,先验概率公式为:
X=Q/Z;
使用概率公式获取与目标快递单号相似性最大的任一单号模板所在的快递数据组所对应的快递公司名称的使用概率P,概率公式为:
P=X*M;
其中,n为与目标快递单号相似性最大的任一单号模板对应的单号的总数,Q为与目标快递单号相似性最大的任一单号模板所在的快递数据组对应的单号的总数,Z为快递数据集合对应的单号的总数。
可选的,第二概率子模块,被配置为:
获取任一目标单号模板所对应的起始时间戳中离目标时刻最近的起始时间戳T,起始时间戳用于指示快递的寄出时间,目标单号模板为目标公司名称中使用概率最高的快递公司名称所对应的与目标快递单号相似性最大的单号模板;
根据时间优先级计算公式计算任一目标单号模板所对应的快递公司名称的时间优先级L,时间优先级计算公式为:
L=(1-|W-T|/W),
其中,W为目标时刻的时间戳;
将目标公司名称中使用概率最高且时间优先级最大的快递公司名称确定为目标快递单号对应的快递公司名称。
可选的,第二概率子模块,被配置为:
获取目标快递单号相似性最大的任一单号的模板使用概率M,模板使用概率M为:
M=n/Q;
根据先验概率公式获取与目标快递单号相似性最大的任一单号模板所在的快递数据组的先验概率X,先验概率公式为:
X=Q/Z;
根据综合概率公式获取与目标快递单号相似性最大的任一单号模板所在的快递数据组所对应的快递公司名称的综合概率Y,综合概率公式Y为:
Y=X*M*(1-|W-T|/W);
将目标公司名称中综合概率最大的快递公司名称确定为目标快递单号;
其中,n为与目标快递单号相似性最大的任一单号模板对应的单号的总数,Q为与目标快递单号相似性最大的任一单号模板所在的快递数据组对应的单号的总数,Z为快递数据集合对应的单号的总数,T为与目标快递单号相似性最大的任一单号模板所对应的起始时间戳中离目标时刻最近的起始时间戳,起始时间戳用于指示快递的寄出时间。
根据本公开的第三方面,提供一种快递单号识别装置,该装置包括:
处理器;
用于存储处理器的可执行指令的存储器;
其中,处理器被配置为:
获取本次查询的目标快递单号;
根据目标快递单号,查询预先建立的快递数据组与快递公司名称的对应关系;对应关系中的每个快递数据组对应一个快递公司名称,且每个快递数据组包括至少一条单号模板,单号模板是根据预先获取的快递单号所生成的模板;
若对应关系中记录有与目标快递单号匹配的单号模板,将匹配的单号模板所在的快递数据组所对应的快递公司名称确定为目标快递单号对应的快递公司名称。
本公开提供的技术方案带来的有益效果是:
通过预先建立的快递数据组与快递公司名称的对应关系来获取目标快递单号对应的快递公司名称,解决了相关技术中需要用户先输入快递公司名称的相关信息,查询终端根据用户的选择来识别快递单号对应的快递公司名称,操作步骤繁琐,查询效率较低的问题;达到了用户无需输入快递公司名称的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开各个实施例涉及的实施环境示意图;
图2是根据一示例性实施例示出的一种快递单号识别方法的流程图;
图3-1是根据一示例性实施例示出的另一种快递单号识别方法的流程图;
图3-2是图3-1示出的快递单号识别方法中的对应关系的建立过程的流程图;
图3-3是快递的寄出时间示意图;
图3-4是快递公司名称对应的数据组中的快递单号、预设形式表示的单号、单号模板和快递公司名称的对应关系示意图;
图3-5是图3-1示出的快递单号识别方法中确定与目标快递单号相似性最大的单号模板,及目标快递单号对应的快递公司名称的流程图;
图4-1是根据一示例性实施例示出的另一种快递单号识别方法的流程图;
图4-2是图4-1示出的快递单号识别方法中获取目标公司名称中任一快递公司名称的使用概率的流程图;
图4-3是图4-1示出的快递单号识别方法中将目标公司名称中使用概率最高且时间优先级最高的快递公司名称确定为目标快递单号对应的快递公司名称的流程图;
图5是根据一示例性实施例示出的一种快递单号识别装置的结构框图;
图6-1是根据一示例性实施例示出的另一种快递单号识别装置的结构框图;
图6-2是图6-1示出的示出的快递单号识别装置中相似性确定模块的结构框图;
图7是本公开实施例提供的快递单号识别装置结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
图1是本公开各个实施例涉及的实施环境示意图,该实施环境可以包括:查询终端110、服务器120和数据库130。
查询终端110可以是具有网络连接功能的装置,比如智能手机、平板电脑或台式计算机等等。
服务器120可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
数据库130可以是各个快递公司存储有快递单号数据的装置,多个快递公司可以共用一个数据库130,也可以各自拥有一个数据库130。
查询终端110、服务器120和数据库130之间可以建立有无线连接或有线连接。服务器120可以在识别出快递单号对应的快递公司名称后,通过查询终端110获取用户输入的目标快递单号,服务器120在数据库130中确定查询终端110识别出的快递公司名称所对应的快递公司的数据库,在该数据库中查询得到该目标快递单号所对应的快递的运输状态。
图2是根据一示例性实施例示出的一种快递单号识别方法的流程图,本实施例以该快递单号识别方法应用于识别目标快递单号举例说明。该快递单号识别方法可以包括如下几个步骤:
在步骤201中,获取本次查询的目标快递单号。
在步骤202中,根据目标快递单号,查询预先建立的快递数据组与快递公司名称的对应关系;对应关系中的每个快递数据组对应一个快递公司名称,且每个快递数据组包括至少一条单号模板,单号模板是根据预先获取的快递单号所生成的模板。
在步骤203中,若对应关系中记录有与目标快递单号匹配的单号模板,将匹配的单号模板所在的快递数据组所对应的快递公司名称确定为目标快递单号对应的快递公司名称。
综上所述,本公开实施例提供的快递单号识别方法,通过预先建立的快递数据组与快递公司名称的对应关系来获取目标快递单号对应的快递公司名称,解决了相关技术中需要用户先输入快递公司名称的相关信息,查询终端根据用户的选择来识别快递单号对应的快递公司名称,操作步骤繁琐,查询效率较低的问题;达到了用户无需输入快递公司名称的效果。
图3-1是根据一示例性实施例示出的另一种快递单号识别方法的流程图,本实施例以该快递单号识别方法应用于图1所示的实施环境中举例说明。该快递单号识别方法可以包括如下几个步骤:
在步骤301中,根据历史时间段内的快递数据集合,建立快递数据组与快递公司名称的对应关系。
在本公开实施例提供的快递单号识别方法中,通常可以首先根据历史时间段内的快递数据集合,建立该对应关系,其中,历史时间段表示当前时刻之前的一段时间,如图3-2所示,对应关系的建立过程可以包括下面三个步骤:
在子步骤3011中,获取历史时间段内的快递数据集合,快递数据集合中每条数据包括:快递单号和快递公司名称。示例性的,服务器可以从数据库中获取最近一周内各大快递公司的所有快递单号的数据集合,可选的,每条数据还可以包括快递单号对应的快递的寄出时间,即快递状态出现时间。如图3-3所示,其中时刻A(2015-03-0219:00)即为快递的寄出时间。
在子步骤3012中,将每条数据中的快递单号转换为以预设形式表示的单号,以预设形式表示的单号包括转换前的快递单号中存在标识含义的内容。
快递公司在生成快递单号时,通常会将快递单号首位开始的几位设置为前缀,末位开始的几位设置为后缀,该前缀和后缀通常用来标识该快递公司,除前缀和后缀的部分为流水号或时间序号,其中前缀和后缀即可以认为是快递单号中存在标识含义的内容。
可选的,该预设形式可以为正则表达式。正则表达式,又称正规表示法、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。示例性的,快递单号“x805425496us”的正则表达式可以为:“^x80[0-9]{7}us$”,该正则表达式表示所有前三位为x80,后两位为us,中间有7个0至9的数字的快递单号,或“^x805[0-9]{6}us$”,该正则表达式表示所有前4位为x805,后面跟着6个0至9的数字的快递单号,其中^表示字符串开始,$表示字符串结束,[]前面的部分称为前缀,{}后面的部分称为后缀,而前缀的位数与后缀的位数可以根据快递公司的实际情况进行设定。
在子步骤3013中,将处理后的快递数据集合按照快递公司名称的不同划分为至少一个快递数据组,其中,每个快递数据组对应一个快递公司名称,且每个快递数据组包括至少一条单号模板,每条单号模板包括处理后的快递数据集合中的单号形式相同且对应同一快递公司名称的单号。
示例性的,如图3-4所示,其为一个快递公司名称对应的数据组中的快递单号、预设形式表示的单号、单号模板和快递公司名称的对应关系示意图。其中快递公司A包含有模板“^x80[0-9]{7}us$”和模板“^d80[0-9]{7}cn$”,这两个模板组成一个快递数据组,且都分别对应多个预设形式表示的快递单号,每个预设形式表示的快递单号又都与一个快递单号对应。
需要说明的是,本公开实施例各个步骤的执行主体可以是服务器。
在步骤302中,获取本次查询的目标快递单号。
在根据历史时间段内的快递数据集合,建立对应关系之后,可以获取本次查询的目标快递单号,示例性的,可以是用户通过查询终端直接输入所要查询的快递单号,该快递单号为目标快递单号。
在步骤303中,根据目标快递单号,查询预先建立的快递数据组与快递公司名称的对应关系。
在获取目标快递单号后,可以查询预先建立的快递数据组与快递公司名称的对应关系,以图3-4所示的对应关系为例,可以查询目标快递单号是否与模板“^x80[0-9]{7}us$”或模板“^d80[0-9]{7}cn$”对应。
在步骤304中,若对应关系中记录有与目标快递单号匹配的单号模板,将匹配的单号模板所在的快递数据组所对应的快递公司名称确定为目标快递单号对应的快递公司名称。
在对应关系中记录有与目标快递单号匹配的单号模板时,可以直接确定匹配的单号模板所在的快递数据组所对应的快递公司名称为目标快递单号对应的快递公司名称,以图3-4所示的对应关系为例,如果目标快递单号与单号模板“^x80[0-9]{7}us$”匹配,则将快递公司A确定为目标快递单号对应的快递公司名称。
在步骤305中,若对应关系中没有记录与目标快递单号匹配的单号模板,在对应关系中记录的快递数据组中确定与目标快递单号相似性最大的单号模板,并确定该单号模板所在的快递数据组对应的快递公司名称为目标快递单号对应的快递公司名称。
由于快递公司可能更改快递单号的命名方式,因而可能存在对应关系中没有记录与目标快递单号匹配的单号模板的情况,而在对应关系中没有记录与目标快递单号匹配的单号模板时,由于同一个快递公司的快递单号命名方式的更改通常不会过大,可以在对应关系中记录的快递数据组中确定与目标快递单号相似性最大的单号模板,其中,相似性可以是目标快递单号与单号模板相同位置相同字符的个数(也称长度)与目标快递单号的个数的比值。可选的,如图3-5所示,本步骤可以分为下面3个子步骤:
在子步骤3051中,若对应关系中没有记录与目标快递单号匹配的单号模板,根据相似性计算公式,计算任一单号模板中与目标快递单号的相似性K,相似性计算公式为:
K=H/L。
其中,H为任一单号模板中与目标快递单号相同的字符的个数,L为目标快递单号的字符个数。本步骤的计算方式还可以表示为:
Sim(exp,pat)=(|SamePrefix(exp,pat)|+|SameSuffix(exp,pat)|)/|exp|
其中Sim(字符串,字符串)表示“,”两边的字符串的相似性,|字符串|表示绝对值符号中的字符串的长度(本公开实施例中字符串的长度均指字符串中字符的个数),exp表示目标快递单号,pat表示快递数据组中的任一单号模板,SamePrefix(字符串,字符串)表示“,”两边的字符串的前缀的相似部分,SameSuffix(字符串,字符串)表示“,”两边的字符串的后缀的相似部分。
示例性的:目标快递单号为“x815425496us”,单号模板为“^x80[0-9]{7}us$”,则从首位开始相同的字符数为2,从末位开始相同的字符数为2,H=2+2=4,L=12,K=4/12=1/3。可以以此方法算出所有单号模板与目标快递单号的相似性K。即本步骤为比较目标快递单号与单号模板的前缀与后缀的相似性。
在子步骤3052中,通过比较所有单号模板与当前快递单号的相似性的大小,确定与当前快递单号相似性最大的单号模板。
在算出所有单号模板与目标快递单号的相似性K后,确定与目标快递单号相似性最大的单号模板。
在子步骤3053中,确定与所当前快递单号相似性最大的单号模板所在的快递数据组对应的快递公司名称为目标快递单号对应的快递公司名称。
需要说明的是,在子步骤3051之前,可以先检测任一单号模板的长度与目标快递单号的长度是否相同,若相同,则执行步骤3051,若不相同字符,可以认为该单号模板与目标快递单号的相似性为0,则可以更换单号模板重新检测。以单号模板“^x80[0-9]{7}us$”为例,该单号模板所匹配的快递单号的长度为x80的长度、7个0至9任意数字的长度和us的长度之和,为3+7+2=12,假设目标快递单号为“x8155496us”,其长度为10,则单号模板“^x80[0-9]{7}us$”与目标快递单号“x8155496us”的相似度为0。
可选的,本步骤的检测方式以字符形式表示为:
Sim(exp,pat)=0if|exp|!=|pat|,含义为如果目标快递单号exp的长度与该任一快递模板pat的长度不相同,则目标快递单号与该单号模板的相似度为零,其中Sim(字符串,字符串)表示“,”两边的字符串的相似性,|字符串|表示绝对值符号中的字符串的长度。还需要说明的是,在目标快递单号的长度与一个单号模板所匹配的快递单号的长度相同时,可以检测目标快递单号与该单号模板是存在相同的字符,在存在相同的字符时,执行步骤3051,在不存在相同的字符时,可以更换单号模板重新检测。
在步骤306中,根据确定的目标快递单号对应的快递公司名称从对应数据库查询目标快递单号的详细信息。
在确定的目标快递单号对应的快递公司名称后,可以根据目标快递单号对应的快递公司名称从对应数据库查询目标快递单号的运输状态的信息。示例性的,如图3-3所示,其中快递单号的运输状态的信息可以为该图中地点和跟踪进度栏中的信息。
需要补充说明的是,本公开实施例提供的快递单号识别方法,通过在对应关系中没有记录与目标快递单号匹配的单号模板时,以快递数据组中与目标快递单号相似性最大的单号模板所在的快递数据组对应的快递公司名称为目标快递单号对应的快递公司,达到了即使快递公司使用了新的快递单号命名规则,也能识别快递公司名称的效果。
综上所述,本公开实施例提供的快递单号识别方法,通过预先建立的快递数据组与快递公司名称的对应关系来获取目标快递单号对应的快递公司名称,解决了相关技术中需要用户先输入快递公司名称的相关信息,查询终端根据用户的选择来识别快递单号对应的快递公司名称,操作步骤繁琐,查询效率较低的问题;达到了用户无需输入快递公司名称的效果。
下面一个实施例以对应关系中没有记录与目标快递单号匹配的单号模板的情况为例进行说明。
图4-1是根据一示例性实施例示出的另一种快递单号识别方法的流程图,本实施例以该快递单号识别方法应用于图1所示的实施环境中举例说明。该快递单号识别方法可以包括如下几个步骤:
在步骤401中,根据历史时间段内的快递数据集合,建立快递数据组与快递公司名称的对应关系。
在本公开实施例提供的快递单号识别方法中,通常可以首先根据历史时间段内的快递数据集合,建立对应关系,对应关系的建立过程可以参照图3-2。
在步骤402中,获取本次查询的目标快递单号。
在根据历史时间段内的快递数据集合,建立对应关系之后,可以获取本次查询的目标快递单号,示例性的,可以是用户直接输入所要查询的快递单号,该快递单号为目标快递单号。
在步骤403中,根据目标快递单号,查询预先建立的快递数据组与快递公司名称的对应关系。
在获取目标快递单号后,可以查询预先建立的快递数据组与快递公司名称的对应关系。
在步骤404中,若对应关系中没有记录与目标快递单号匹配的单号模板,在对应关系中记录的快递数据组中确定与目标快递单号相似性最大的单号模板。
在对应关系中没有记录与目标快递单号匹配的单号模板时,可以在对应关系中记录的快递数据组中确定与目标快递单号相似性最大的单号模板,其中,相似性可以是目标快递单号与单号模板相同位置相同字符的个数。
在步骤405中,若与目标快递单号相似性最大的单号模板为一个,将目标公司名称确定为目标快递单号对应的快递公司名称,目标公司名称为与目标快递单号相似性最大的单号模板所在的快递数据组所对应的快递公司名称。
在步骤406中,若与目标快递单号相似性最大的单号模板为至少两个,则获取目标公司名称中任一快递公司名称的使用概率。
在与目标快递单号相似性最大的单号模板为至少两个时,可以获取目标公司名称中任一快递公司名称的使用概率。如图4-2所示,本步骤可以分为下面3个子步骤:
在子步骤4061中,获取目标快递单号相似性最大的任一单号的模板使用概率M,模板使用概率M为:M=n/Q。其中,n为与目标快递单号相似性最大的任一单号模板对应的快递单号的总数,Q为与目标快递单号相似性最大的任一单号模板所在的快递数据组对应的单号的总数。以图3-4示出的对应关系为例,如果有f个快递单号对应于单号模板“^x80[0-9]{7}us$”,则该单号模板的n=f。
需要说明的是,模板使用概率可以直接包含于单号模板中。在单号模板中包含模板使用概率时,可以直接提取该模板使用概率,加快查询速度。此外,单号模板中还可以包含有离当前时刻最近的起始时间戳T,起始时间戳T用于指示与快递单号对应的快递的寄出时间。其中目标时刻为目标快递单号对应的快递的寄出时刻。
需要说明的是,时间戳(timestamp),或称Unix时间(Unix time),是一种时间表示方式,定义为从格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总秒数。本公开实施例中,离当前时刻最近的起始时间戳T,也可以认为是与历史时刻最远的起始时间戳T,该历史时刻为格林威治时间1970年01月01日00时00分00秒。
在子步骤4062中,根据先验概率公式获取与目标快递单号相似性最大的任一单号模板所在的快递数据组的先验概率X,先验概率公式为:X=Q/Z。
其中,Z为快递数据集合对应的单号的总数,Q为与目标快递单号相似性最大的任一单号模板所在的快递数据组对应的单号的总数。
在子步骤4063中,根据概率公式获取与目标快递单号相似性最大的任一单号模板所在的快递数据组所对应的快递公司名称的使用概率P,概率公式为P=X*M,其中X表示与目标快递单号相似性最大的任一单号模板所在的快递数据组的先验概率,M表示与目标快递单号相似性最大的任一单号的模板使用概率。假设目标快递单号满足任一个单号模板为事件B,该单号模板属于任一快递公司的名称为事件C,则根据概率乘法公式,P(C|B)=P(C)*P(B|C)/P(B),其中P(事件)表示括号内事件的发生概率,由于P(B)对于任一快递公司的名称都一致,因而P(C|B)等价于P(C)*P(B|C),又因为P(C)=X,P(B|C)=M,因而X*M等价于目标快递单号满足任一单号模板时,该单号模板属于任一快递公司的名称的概率。
在获取各个目标快递公司名称的使用概率后,可以通过比较得到使用概率P最大的目标公司名称。
需要说明的是,若与目标快递单号相似性最大的至少两个单号模板对应于同一个快递公司名称时,可以确定该快递公司名称为目标快递单号对应的快递公司名称。
步骤407,若目标公司名称中使用概率最高的快递公司名称有一个,将目标公司名称中使用概率最高的快递公司名称确定为目标快递单号对应的快递公司名称。
步骤408,若目标公司名称中使用概率最高的快递公司名称有至少两个,将目标公司名称中使用概率最高且时间优先级最高的快递公司名称确定为目标快递单号对应的快递公司名称。
在目标公司名称中使用概率最高的快递公司名称为至少两个时,可以将目标公司名称中使用概率最高且时间优先级最高的快递公司名称确定为目标快递单号对应的快递公司名称。如图4-3所示,本步骤可以分为下面几个子步骤:
在子步骤4081中,若目标公司名称中使用概率最高的快递公司名称有至少两个,则获取任一目标单号模板所对应的起始时间戳中离目标时刻最近的起始时间戳T,起始时间戳用于指示快递的寄出时间,目标单号模板为目标公司名称中使用概率最高的快递公司名称所对应的与目标快递单号相似性最大的单号模板。
在子步骤4082中,根据时间优先级计算公式计算任一目标单号模板所对应的快递公司名称的时间优先级L,时间优先级计算公式为:
L=(1-|W-T|/W)。
其中,W为目标时刻的时间戳,T为任一目标单号模板所对应的起始时间戳中离目标时刻最近的起始时间戳T。
需要说明的是,
确定目标快递单号对应的快递公司名称可以有子步骤4083a,以及子步骤4083b至子步骤4084b两种方式:
在子步骤4083a中,将目标公司名称中使用概率最高且时间优先级最大的快递公司名称确定为目标快递单号对应的快递公司名称。
在子步骤4083b中,根据综合概率公式获取与目标快递单号相似性最大的任一单号模板所在的快递数据组所对应的快递公司名称的综合概率Y,综合概率公式Y为:
Y=X*M*(1-|W-T|/W)
其中,W为目标时刻的时间戳,T为任一目标单号模板所对应的起始时间戳中离目标时刻最近的起始时间戳T。由于W与T越相近,|W-T|/W就与0越相近,而1-|W-T|/W也就越大,因而W与T越相近时,综合概率Y就越大。
在子步骤4084b中,将目标公司名称中综合概率最大的快递公司名称确定为目标快递单号。
在X*M相等或是非常接近时,可以使用子步骤4083b的方式以时间来进行微调。
在步骤409中,根据确定的目标快递单号对应的快递公司名称从对应数据库查询目标快递单号的详细信息。
需要补充说明的是,本公开实施例提供的快递单号识别方法,通过在对应关系中没有记录与目标快递单号匹配的单号模板时,将目标公司名称中使用概率最高且时间优先级最高的快递公司名称确定为目标快递单号对应的快递公司名称,达到了即使快递公司使用了新的快递单号命名规则,也能识别快递公司名称的效果。
综上所述,本公开实施例提供的快递单号识别方法,通过预先建立的快递数据组与快递公司名称的对应关系来获取目标快递单号对应的快递公司名称,解决了相关技术中需要用户先输入快递公司名称的相关信息,查询终端根据用户的选择来识别快递单号对应的快递公司名称,操作步骤繁琐,查询效率较低的问题;达到了用户无需输入快递公司名称的效果。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图5是根据一示例性实施例示出的一种快递单号识别装置的结构框图,本实施例以该快递单号识别装置可以是图1示出的实施环境中的服务器120。该快递单号识别装置可以包括:
单号获取模块510,被配置为获取本次查询的目标快递单号。
对应查询模块520,被配置为根据目标快递单号,查询预先建立的快递数据组与快递公司名称的对应关系;对应关系中的每个快递数据组对应一个快递公司名称,且每个快递数据组包括至少一条单号模板,单号模板是根据预先获取的快递单号所生成的模板。
名称确定模块530,被配置为若对应关系中记录有与目标快递单号匹配的单号模板,将匹配的单号模板所在的快递数据组所对应的快递公司名称确定为目标快递单号对应的快递公司名称。
综上所述,本公开实施例提供的快递单号识别装置,通过预先建立的快递数据组与快递公司名称的对应关系来获取目标快递单号对应的快递公司名称,解决了相关技术中需要用户先输入快递公司名称的相关信息,查询终端根据用户的选择来识别快递单号对应的快递公司名称,操作步骤繁琐,查询效率较低的问题;达到了用户无需输入快递公司名称的效果。
图6-1是根据一示例性实施例示出的另一种快递单号识别装置的结构框图,该快递单号识别装置可以是图1示出的实施环境中的服务器120。该快递单号识别装置可以包括:
单号获取模块510,被配置为获取本次查询的目标快递单号。
对应查询模块520,被配置为根据目标快递单号,查询预先建立的快递数据组与快递公司名称的对应关系;对应关系中的每个快递数据组对应一个快递公司名称,且每个快递数据组包括至少一条单号模板,单号模板是根据预先获取的快递单号所生成的模板。
名称确定模块530,被配置为若对应关系中记录有与目标快递单号匹配的单号模板,将匹配的单号模板所在的快递数据组所对应的快递公司名称确定为目标快递单号对应的快递公司名称。
可选的,该装置还包括:
相似性确定模块540,被配置为若对应关系中没有记录与目标快递单号匹配的单号模板,在对应关系中记录的快递数据组中确定与目标快递单号相似性最大的单号模板;若与目标快递单号相似性最大的单号模板为一个,将目标公司名称确定为目标快递单号对应的快递公司名称,目标公司名称为与目标快递单号相似性最大的单号模板所在的快递数据组所对应的快递公司名称;若与目标快递单号相似性最大的单号模板为至少两个,将目标公司名称中使用概率最高的快递公司名称确定为目标快递单号对应的快递公司名称。
可选的,该装置还包括:
关系建立模块550,被配置为获取历史时间段内的快递数据集合,快递数据集合中每条数据包括:快递单号、快递公司名称。
将每条数据中的快递单号转换为以预设形式表示的单号,以预设形式表示的单号包括转换前的快递单号中存在标识含义的内容。
将处理后的快递数据集合按照快递公司名称的不同划分为至少一个快递数据组,其中,每个快递数据组对应一个快递公司名称,且每个快递数据组包括至少一条单号模板,每条单号模板包括处理后的快递数据集合中的单号形式相同且对应同一快递公司名称的单号。
可选的,相似性确定模块540,被配置为:
根据相似性计算公式,计算任一单号模板中与目标快递单号的相似性K,相似性计算公式为:
K=H/L。
其中,H为任一单号模板中与目标快递单号相同的字符的个数,L为目标快递单号的字符个数。
可选的,如图6-2所示,相似性确定模块540,包括:
使用概率获取子模块541,被配置为获取目标公司名称中任一快递公司名称的使用概率。
第一概率子模块542,被配置为若目标公司名称中使用概率最高的快递公司名称有一个,将目标公司名称中使用概率最高的快递公司名称确定为目标快递单号对应的快递公司名称。
第二概率子模块543,被配置为若目标公司名称中使用概率最高的快递公司名称有至少两个,将目标公司名称中使用概率最高且时间优先级最高的快递公司名称确定为目标快递单号对应的快递公司名称。
可选的,使用概率获取子模块540,被配置为:
获取目标快递单号相似性最大的任一单号的模板使用概率M,模板使用概率M为:
M=n/Q。
根据先验概率公式获取与目标快递单号相似性最大的任一单号模板所在的快递数据组的先验概率X,先验概率公式为:
X=Q/Z。
使用概率公式获取与目标快递单号相似性最大的任一单号模板所在的快递数据组所对应的快递公司名称的使用概率P,概率公式为:
P=X*M。
其中,n为与目标快递单号相似性最大的任一单号模板对应的单号的总数,Q为与目标快递单号相似性最大的任一单号模板所在的快递数据组对应的单号的总数,Z为快递数据集合对应的单号的总数。
可选的,第二概率子模块543,被配置为:
获取任一目标单号模板所对应的起始时间戳中离目标时刻最近的起始时间戳T,起始时间戳用于指示快递的寄出时间,目标单号模板为目标公司名称中使用概率最高的快递公司名称所对应的与目标快递单号相似性最大的单号模板;
根据时间优先级计算公式计算任一目标单号模板所对应的快递公司名称的时间优先级L,时间优先级计算公式为:
L=(1-|W-T|/W),
其中,W为目标时刻的时间戳。
将目标公司名称中使用概率最高且时间优先级最大的快递公司名称确定为目标快递单号对应的快递公司名称。
可选的,第二概率子模块543,被配置为:
获取目标快递单号相似性最大的任一单号的模板使用概率M,模板使用概率M为:
M=n/Q。
根据先验概率公式获取与目标快递单号相似性最大的任一单号模板所在的快递数据组的先验概率X,先验概率公式为:
X=Q/Z。
根据综合概率公式获取与目标快递单号相似性最大的任一单号模板所在的快递数据组所对应的快递公司名称的综合概率Y,综合概率公式Y为:
Y=X*M*(1-|W-T|/W)。
将目标公司名称中综合概率最大的快递公司名称确定为目标快递单号。
其中,n为与目标快递单号相似性最大的任一单号模板对应的单号的总数,Q为与目标快递单号相似性最大的任一单号模板所在的快递数据组对应的单号的总数,Z为快递数据集合对应的单号的总数,T为与目标快递单号相似性最大的任一单号模板所对应的起始时间戳中离目标时刻最近的起始时间戳,起始时间戳用于指示快递的寄出时间。
需要补充说明的是,本公开实施例提供的快递单号识别装置,通过在对应关系中没有记录与目标快递单号匹配的单号模板时,将目标公司名称中使用概率最高且时间优先级最高的快递公司名称确定为目标快递单号对应的快递公司名称,达到了即使快递公司使用了新的快递单号命名规则,也能识别快递公司名称的效果。
综上所述,本公开实施例提供的快递单号识别装置,通过预先建立的快递数据组与快递公司名称的对应关系来获取目标快递单号对应的快递公司名称,解决了相关技术中需要用户先输入快递公司名称的相关信息,查询终端根据用户的选择来识别快递单号对应的快递公司名称,操作步骤繁琐,查询效率较低的问题;达到了用户无需输入快递公司名称的效果。
图7是根据一示例性实施例示出的一种用于快递单号识别的装置700的框图。例如,装置700可以被提供为一服务器。参照图7,装置700包括处理组件722,其进一步包括一个或多个处理器,以及由存储器732所代表的存储器资源,用于存储可由处理部件722执行的指令,例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件722被配置为执行指令,以执行上述快递单号识别方法。
装置700还可以包括一个电源组件726,被配置为执行装置700的电源管理,一个有线或无线网络接口750被配置为将装置700连接到网络,和一个输入输出(I/O)接口758。装置700可以操作基于存储在存储器732的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (13)
1.一种快递单号识别方法,其特征在于,所述方法包括:
获取本次查询的目标快递单号;
根据所述目标快递单号,查询预先建立的快递数据组与快递公司名称的对应关系;所述对应关系中的每个所述快递数据组对应一个快递公司名称,且每个所述快递数据组包括至少一条单号模板,所述单号模板是根据预先获取的快递单号所生成的模板;
若所述对应关系中记录有与所述目标快递单号匹配的单号模板,将所述匹配的单号模板所在的快递数据组所对应的快递公司名称确定为所述目标快递单号对应的快递公司名称;
若所述对应关系中没有记录与所述目标快递单号匹配的单号模板,在所述对应关系中记录的快递数据组中确定与所述目标快递单号相似性最大的单号模板;
若与所述目标快递单号相似性最大的单号模板为一个,将目标公司名称确定为所述目标快递单号对应的快递公司名称,所述目标公司名称为与所述目标快递单号相似性最大的单号模板所在的快递数据组所对应的快递公司名称;
若与所述目标快递单号相似性最大的单号模板为至少两个,获取所述目标公司名称中任一快递公司名称的使用概率,若所述目标公司名称中使用概率最高的快递公司名称有一个,将所述目标公司名称中使用概率最高的快递公司名称确定为所述目标快递单号对应的快递公司名称,若所述目标公司名称中使用概率最高的快递公司名称有至少两个,将所述目标公司名称中使用概率最高且时间优先级最高的快递公司名称确定为所述目标快递单号对应的快递公司名称。
2.根据权利要求1所述的方法,其特征在于,所述在所述对应关系中记录的快递数据组中确定与所述目标快递单号相似性最大的单号模板,包括:
根据相似性计算公式,计算任一所述单号模板中与所述目标快递单号的相似性K,所述相似性计算公式为:
K=H/L;
其中,所述H为任一所述单号模板中与所述目标快递单号相同的字符的个数,所述L为所述目标快递单号的字符个数。
3.根据权利要求1所述的方法,其特征在于,所述获取所述目标公司名称中任一快递公司名称的使用概率,包括:
获取所述目标快递单号相似性最大的任一单号的模板使用概率M,所述模板使用概率M为:
M=n/Q;
根据先验概率公式获取与所述目标快递单号相似性最大的任一单号模板所在的快递数据组的先验概率X,所述先验概率公式为:
X=Q/Z;
使用概率公式获取与所述目标快递单号相似性最大的任一单号模板所在的快递数据组所对应的快递公司名称的使用概率P,所述概率公式为:
P=X*M;
其中,所述n为与所述目标快递单号相似性最大的任一单号模板对应的单号的总数,所述Q为与所述目标快递单号相似性最大的任一单号模板所在的快递数据组对应的单号的总数,所述Z为快递数据集合对应的单号的总数,所述快递数据集合中每条数据包括:快递单号、快递公司名称。
4.根据权利要求1所述的方法,其特征在于,所述将所述目标公司名称中使用概率最高且时间优先级最高的快递公司名称确定为所述目标快递单号对应的快递公司名称,包括:
获取任一目标单号模板所对应的起始时间戳中离目标时刻最近的起始时间戳T,所述起始时间戳用于指示快递的寄出时间,所述目标单号模板为所述目标公司名称中使用概率最高的快递公司名称所对应的与所述目标快递单号相似性最大的单号模板;
根据时间优先级计算公式计算所述任一目标单号模板所对应的快递公司名称的时间优先级L,所述时间优先级计算公式为:
L=(1-|W-T|/W),
其中,所述W为目标时刻的时间戳;
将所述目标公司名称中使用概率最高且所述时间优先级最大的快递公司名称确定为所述目标快递单号对应的快递公司名称。
5.根据权利要求1所述的方法,其特征在于,所述将所述目标公司名称中使用概率最高且时间优先级最高的快递公司名称确定为所述目标快递单号对应的快递公司名称,包括:
获取所述目标快递单号相似性最大的任一单号的模板使用概率M,所述模板使用概率M为:
M=n/Q;
根据先验概率公式获取与所述目标快递单号相似性最大的任一单号模板所在的快递数据组的先验概率X,所述先验概率公式为:
X=Q/Z;
根据综合概率公式获取与所述目标快递单号相似性最大的任一单号模板所在的快递数据组所对应的快递公司名称的综合概率Y,所述综合概率公式Y为:
Y=X*M*(1-|W-T|/W);
将所述目标公司名称中综合概率最大的快递公司名称确定为所述目标快递单号对应的快递公司名称;
其中,所述n为与所述目标快递单号相似性最大的任一单号模板对应的单号的总数,所述Q为与所述目标快递单号相似性最大的任一单号模板所在的快递数据组对应的单号的总数,所述Z为所述快递数据集合对应的单号的总数,所述T为与所述目标快递单号相似性最大的任一单号模板所对应的起始时间戳中离目标时刻最近的起始时间戳,所述起始时间戳用于指示快递的寄出时间,所述W为所述目标时刻的时间戳。
6.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:
获取历史时间段内的快递数据集合,所述快递数据集合中每条数据包括:快递单号、快递公司名称;
将所述每条数据中的快递单号转换为以预设形式表示的单号,所述以预设形式表示的单号包括转换前的快递单号中存在标识含义的内容;
将处理后的所述快递数据集合按照快递公司名称的不同划分为至少一个快递数据组得到所述对应关系,其中,每个所述快递数据组对应一个快递公司名称,且每个所述快递数据组包括至少一条单号模板,每条所述单号模板包括处理后的所述快递数据集合中的单号形式相同且对应同一快递公司名称的单号。
7.一种快递单号识别装置,其特征在于,所述装置包括:
单号获取模块,被配置为获取本次查询的目标快递单号;
对应查询模块,被配置为根据所述目标快递单号,查询预先建立的快递数据组与快递公司名称的对应关系;所述对应关系中的每个所述快递数据组对应一个快递公司名称,且每个所述快递数据组包括至少一条单号模板,所述单号模板是根据预先获取的快递单号所生成的模板;
名称确定模块,被配置为若所述对应关系中记录有与所述目标快递单号匹配的单号模板,将所述匹配的单号模板所在的快递数据组所对应的快递公司名称确定为所述目标快递单号对应的快递公司名称;
相似性确定模块,被配置为若所述对应关系中没有记录与所述目标快递单号匹配的单号模板,在所述对应关系中记录的快递数据组中确定与所述目标快递单号相似性最大的单号模板;若与所述目标快递单号相似性最大的单号模板为一个,将目标公司名称确定为所述目标快递单号对应的快递公司名称,所述目标公司名称为与所述目标快递单号相似性最大的单号模板所在的快递数据组所对应的快递公司名称;若与所述目标快递单号相似性最大的单号模板为至少两个,则所述相似性确定模块,包括:使用概率获取子模块,被配置为获取所述目标公司名称中任一快递公司名称的使用概率,第一概率子模块,被配置为若所述目标公司名称中使用概率最高的快递公司名称有一个,将所述目标公司名称中使用概率最高的快递公司名称确定为所述目标快递单号对应的快递公司名称,第二概率子模块,被配置为若所述目标公司名称中使用概率最高的快递公司名称有至少两个,将所述目标公司名称中使用概率最高且时间优先级最高的快递公司名称确定为所述目标快递单号对应的快递公司名称。
8.根据权利要求7所述的装置,其特征在于,所述相似性确定模块,被配置为:
根据相似性计算公式,计算任一所述单号模板中与所述目标快递单号的相似性K,所述相似性计算公式为:
K=H/L;
其中,所述H为任一所述单号模板中与所述目标快递单号相同的字符的个数,所述L为所述目标快递单号的字符个数。
9.根据权利要求7所述的装置,其特征在于,所述使用概率获取子模块,被配置为:
获取所述目标快递单号相似性最大的任一单号的模板使用概率M,所述模板使用概率M为:
M=n/Q;
根据先验概率公式获取与所述目标快递单号相似性最大的任一单号模板所在的快递数据组的先验概率X,所述先验概率公式为:
X=Q/Z;
使用概率公式获取与所述目标快递单号相似性最大的任一单号模板所在的快递数据组所对应的快递公司名称的使用概率P,所述概率公式为:
P=X*M;
其中,所述n为与所述目标快递单号相似性最大的任一单号模板对应的单号的总数,所述Q为与所述目标快递单号相似性最大的任一单号模板所在的快递数据组对应的单号的总数,所述Z为快递数据集合对应的单号的总数,所述快递数据集合中每条数据包括:快递单号、快递公司名称。
10.根据权利要求7所述的装置,其特征在于,所述第二概率子模块,被配置为:
获取任一目标单号模板所对应的起始时间戳中离目标时刻最近的起始时间戳T,所述起始时间戳用于指示快递的寄出时间,所述目标单号模板为所述目标公司名称中使用概率最高的快递公司名称所对应的与所述目标快递单号相似性最大的单号模板;
根据时间优先级计算公式计算所述任一目标单号模板所对应的快递公司名称的时间优先级L,所述时间优先级计算公式为:
L=(1-|W-T|/W),
其中,所述W为目标时刻的时间戳;
将所述目标公司名称中使用概率最高且所述时间优先级最大的快递公司名称确定为所述目标快递单号对应的快递公司名称。
11.根据权利要求7所述的装置,其特征在于,所述第二概率子模块,被配置为:
获取所述目标快递单号相似性最大的任一单号的模板使用概率M,所述模板使用概率M为:
M=n/Q;
根据先验概率公式获取与所述目标快递单号相似性最大的任一单号模板所在的快递数据组的先验概率X,所述先验概率公式为:
X=Q/Z;
根据综合概率公式获取与所述目标快递单号相似性最大的任一单号模板所在的快递数据组所对应的快递公司名称的综合概率Y,所述综合概率公式Y为:
Y=X*M*(1-|W-T|/W);
将所述目标公司名称中综合概率最大的快递公司名称确定为所述目标快递单号对应的快递公司名称;
其中,所述n为与所述目标快递单号相似性最大的任一单号模板对应的单号的总数,所述Q为与所述目标快递单号相似性最大的任一单号模板所在的快递数据组对应的单号的总数,所述Z为所述快递数据集合对应的单号的总数,所述T为与所述目标快递单号相似性最大的任一单号模板所对应的起始时间戳中离目标时刻最近的起始时间戳,所述起始时间戳用于指示快递的寄出时间,所述W为所述目标时刻的时间戳。
12.根据权利要求7至11任一所述的装置,其特征在于,所述装置还包括:
关系建立模块,被配置为获取历史时间段内的快递数据集合,所述快递数据集合中每条数据包括:快递单号、快递公司名称;将所述每条数据中的快递单号转换为以预设形式表示的单号,所述以预设形式表示的单号包括转换前的快递单号中存在标识含义的内容;将处理后的所述快递数据集合按照快递公司名称的不同划分为至少一个快递数据组得到所述对应关系,其中,每个所述快递数据组对应一个快递公司名称,且每个所述快递数据组包括至少一条单号模板,每条所述单号模板包括处理后的所述快递数据集合中的单号形式相同且对应同一快递公司名称的单号。
13.一种快递单号识别装置,其特征在于,所述装置包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:
获取本次查询的目标快递单号;
根据所述目标快递单号,查询预先建立的快递数据组与快递公司名称的对应关系;所述对应关系中的每个所述快递数据组对应一个快递公司名称,且每个所述快递数据组包括至少一条单号模板,所述单号模板是根据预先获取的快递单号所生成的模板;
若所述对应关系中记录有与所述目标快递单号匹配的单号模板,将所述匹配的单号模板所在的快递数据组所对应的快递公司名称确定为所述目标快递单号对应的快递公司名称;
若所述对应关系中没有记录与所述目标快递单号匹配的单号模板,在所述对应关系中记录的快递数据组中确定与所述目标快递单号相似性最大的单号模板;
若与所述目标快递单号相似性最大的单号模板为一个,将目标公司名称确定为所述目标快递单号对应的快递公司名称,所述目标公司名称为与所述目标快递单号相似性最大的单号模板所在的快递数据组所对应的快递公司名称;
若与所述目标快递单号相似性最大的单号模板为至少两个,获取所述目标公司名称中任一快递公司名称的使用概率,若所述目标公司名称中使用概率最高的快递公司名称有一个,将所述目标公司名称中使用概率最高的快递公司名称确定为所述目标快递单号对应的快递公司名称,若所述目标公司名称中使用概率最高的快递公司名称有至少两个,将所述目标公司名称中使用概率最高且时间优先级最高的快递公司名称确定为所述目标快递单号对应的快递公司名称。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510221336.5A CN104866985B (zh) | 2015-05-04 | 2015-05-04 | 快递单号识别方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510221336.5A CN104866985B (zh) | 2015-05-04 | 2015-05-04 | 快递单号识别方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104866985A CN104866985A (zh) | 2015-08-26 |
CN104866985B true CN104866985B (zh) | 2019-03-08 |
Family
ID=53912805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510221336.5A Active CN104866985B (zh) | 2015-05-04 | 2015-05-04 | 快递单号识别方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104866985B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363044A (zh) * | 2018-04-11 | 2019-10-22 | 苏宁易购集团股份有限公司 | 快递单号的录入方法及系统 |
CN110363457A (zh) * | 2018-04-11 | 2019-10-22 | 苏宁易购集团股份有限公司 | 基于快递单号匹配快递公司名称的方法及系统 |
CN109614834A (zh) * | 2018-12-03 | 2019-04-12 | 深圳市迅秒科技有限公司 | 一种自动识别快递信息的方法、设备及系统 |
CN111415113A (zh) * | 2020-02-20 | 2020-07-14 | 深圳前海百递网络有限公司 | 虚假快递单号识别方法、装置、计算机设备和存储介质 |
CN111582786A (zh) * | 2020-04-29 | 2020-08-25 | 上海中通吉网络技术有限公司 | 基于机器学习的快递单号识别方法、装置和设备 |
CN111881795B (zh) * | 2020-07-20 | 2022-06-21 | 上海东普信息科技有限公司 | 运单号识别方法及装置 |
CN111967932A (zh) * | 2020-08-10 | 2020-11-20 | 上海中通吉网络技术有限公司 | 快递单号的生成方法及系统 |
CN114492434B (zh) * | 2022-01-27 | 2022-10-11 | 圆通速递有限公司 | 一种基于运单号自动识别模型智能识别运单号方法 |
CN116611803A (zh) * | 2023-01-12 | 2023-08-18 | 深圳市帝盟网络科技有限公司 | 一种通过邮件查询物流单号的方法和物流查询系统 |
CN116720964B (zh) * | 2023-08-08 | 2023-12-05 | 建信金融科技有限责任公司 | 交易信息的处理方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101984422A (zh) * | 2010-10-18 | 2011-03-09 | 百度在线网络技术(北京)有限公司 | 一种容错文本查询的方法和设备 |
CN103793285A (zh) * | 2012-10-29 | 2014-05-14 | 百度在线网络技术(北京)有限公司 | 一种处理线上异常的方法及平台服务器 |
CN103902682A (zh) * | 2014-03-21 | 2014-07-02 | 百度在线网络技术(北京)有限公司 | 信息查询方法和装置 |
CN103914570A (zh) * | 2014-04-25 | 2014-07-09 | 北京中讯爱乐科技有限公司 | 基于字符串相似度算法的智能客服搜索方法与系统 |
CN104462055A (zh) * | 2013-09-23 | 2015-03-25 | 北京捷软世纪信息技术有限公司 | 一种名称相似度获取方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004026423A (ja) * | 2002-06-26 | 2004-01-29 | Casio Comput Co Ltd | 配送管理装置およびプログラム |
CN102184169B (zh) * | 2011-04-20 | 2013-06-19 | 北京百度网讯科技有限公司 | 用于确定字符串信息间相似度信息的方法、装置和设备 |
CN102610119B (zh) * | 2012-03-22 | 2014-04-02 | 广州杰赛科技股份有限公司 | 反向寻车的方法及反向寻车的系统 |
CN103136653A (zh) * | 2013-03-18 | 2013-06-05 | 江苏乐买到网络科技有限公司 | 一种查询运单信息的方法 |
CN103530751B (zh) * | 2013-10-09 | 2017-12-22 | 北京奇虎科技有限公司 | 提供运单信息的方法及装置 |
-
2015
- 2015-05-04 CN CN201510221336.5A patent/CN104866985B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101984422A (zh) * | 2010-10-18 | 2011-03-09 | 百度在线网络技术(北京)有限公司 | 一种容错文本查询的方法和设备 |
CN103793285A (zh) * | 2012-10-29 | 2014-05-14 | 百度在线网络技术(北京)有限公司 | 一种处理线上异常的方法及平台服务器 |
CN104462055A (zh) * | 2013-09-23 | 2015-03-25 | 北京捷软世纪信息技术有限公司 | 一种名称相似度获取方法及装置 |
CN103902682A (zh) * | 2014-03-21 | 2014-07-02 | 百度在线网络技术(北京)有限公司 | 信息查询方法和装置 |
CN103914570A (zh) * | 2014-04-25 | 2014-07-09 | 北京中讯爱乐科技有限公司 | 基于字符串相似度算法的智能客服搜索方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104866985A (zh) | 2015-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104866985B (zh) | 快递单号识别方法、装置及系统 | |
US11727053B2 (en) | Entity recognition from an image | |
CN107797982B (zh) | 用于识别文本类型的方法、装置和设备 | |
CN107679119B (zh) | 生成品牌衍生词的方法和装置 | |
CN109522328B (zh) | 一种数据处理方法及其装置、介质、终端 | |
WO2014056337A1 (zh) | 搜索词获取方法、服务器、搜索词推荐系统 | |
CN111831911A (zh) | 查询信息的处理方法、装置、存储介质和电子装置 | |
CN108170650B (zh) | 文本比较方法以及文本比较装置 | |
JP2019145093A (ja) | 情報を生成するための方法及び装置 | |
US20190163699A1 (en) | Method and apparatus for information interaction | |
CN111400504A (zh) | 企业关键人的识别方法和装置 | |
WO2016101811A1 (zh) | 一种信息排序方法及装置 | |
US11244153B2 (en) | Method and apparatus for processing information | |
WO2022105119A1 (zh) | 意图识别模型的训练语料生成方法及其相关设备 | |
US11182681B2 (en) | Generating natural language answers automatically | |
CN106202440B (zh) | 数据处理方法、装置及设备 | |
CN115017107A (zh) | 基于保护隐私的数据检索方法、装置、计算机设备及介质 | |
CN110019714A (zh) | 基于历史结果的多意图查询方法、装置、设备及存储介质 | |
CN106257449B (zh) | 一种信息确定方法和装置 | |
CN111339566B (zh) | 区块摘要方法、装置、计算机设备和存储介质 | |
CN112100491A (zh) | 基于用户数据的信息推荐方法、装置、设备及存储介质 | |
CN102289456B (zh) | Web爬行的差异检测 | |
CN104573132A (zh) | 歌曲查找方法及装置 | |
CN106204207A (zh) | 一种账单生成方法和装置 | |
CN113656466A (zh) | 保单数据查询方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |