CN106651232B - 运单号数据分析方法及装置 - Google Patents
运单号数据分析方法及装置 Download PDFInfo
- Publication number
- CN106651232B CN106651232B CN201510736191.2A CN201510736191A CN106651232B CN 106651232 B CN106651232 B CN 106651232B CN 201510736191 A CN201510736191 A CN 201510736191A CN 106651232 B CN106651232 B CN 106651232B
- Authority
- CN
- China
- Prior art keywords
- probability
- waybill number
- logistics
- determining
- waybill
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000007405 data analysis Methods 0.000 title claims description 10
- 238000012549 training Methods 0.000 claims abstract description 65
- 238000012545 processing Methods 0.000 claims description 15
- 238000013480 data collection Methods 0.000 claims description 5
- 238000012423 maintenance Methods 0.000 abstract description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000013145 classification model Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000013479 data entry Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了运单号数据分析方法及装置,其中,所述方法包括:收集原始数据,原始数据包括运单号及其对应的物流商信息;按照至少一个预置的特征维度对原始数据进行统计,确定各特征维度上对应的相关概率;从原始数据中确定训练样本数据,根据统计的结果,确定训练样本数据中的运单号对应的至少一个可能的物流商,并分别确定当该运单号与可能的物流商对应时,在各特征维度上对应的概率;将计算出的各所述特征维度上的概率以及期望的预测结果输入到预置的模型训练机中进行训练,得到预测模型;利用统计的结果以及预测模型,对待预测运单号所属的物流商进行预测。通过该方法,可以更加高效准确的预测运单号所属的物流商,同时降低了维护的难度。
Description
技术领域
本申请涉及物流信息处理技术领域,特别是涉及运单号数据分析方法及装置。
背景技术
在电子商务应用广泛普及的今天,物流服务在产品提供商,电子商务平台,以及购买产品的终端用户间承担了不可或缺的角色,例如多数实体产品的运输,都要通过物流服务来完成。在电子商务的相关应用中,经常会存在根据物流包裹的运单号判断属于哪家物流服务提供商(以下称为“物流商”)的需求,例如在为了方便终端用户对包裹的跟踪,一些电子商务平台推出了查询网站或者应用,或者将查询功能以模块的方式集成在应用中。为了方便用户的应用,简化查询流程,系统可以对用户输入的运单号自动匹配其物流商,进而完成物流进度的查询,省去了用户选择物流商的步骤。
运单号是快递包裹的唯一标识代码,通常由数字和字母组成。通过运单号,使得物流商、发件人以及收件人可以实时跟踪快递包裹的状态。通常情况下,特定物流商的使用的运单号其编码方式都是有特定规律的,因此,在实现运单号与物流商的匹配时,技术人员可以根据各物流商所使用的运单号的特定规律,设计匹配的实现方式。例如,某物流商的运单号由13位字母和数字组成,前后各两位英文,固定第一位是E,最后是CS。另一物流商使用的运单号由10位字母数字组成,常见以数字1、8或字母D等开头,等等。
现有技术中,通常根据不同运营商使用的运单号的不同规律,人工编写可与这些不同规律的运单号相匹配的正则表达式,实现运单号与运营商进行匹配。但是,这种人编写规则的方式有诸多方面的缺陷,例如维护成本高,当某一物流商使用不同的规则的运单号时,可能导致大面积的维护;无法及时发现运单号规律的变化导致匹配规则不能及时更新,无法顾及所有可能性而导致的低匹配精度等等。因此,如何更准确、高效地根据运单号进行物流商的预测,成为需要本领域技术人员解决的技术问题。
发明内容
本申请提供了运单号数据分析方法及装置,可以更加高效准确的预测运单号所属的物流商,同时更加易于维护。
本申请提供了如下方案:
一种运单号数据分析方法,包括:
收集原始数据,所述原始数据包括运单号及其对应的物流商信息;
按照至少一个预置的特征维度对所述原始数据进行统计,确定各所述特征维度上对应的相关概率,其中,所述预置的特征维度包括运单号特征维度,对应的相关概率包括:对于特定运单号特征,对应的运单号可能属于各物流商的概率;
从所述原始数据中确定训练样本数据,根据所述统计的结果,确定训练样本数据中的运单号对应的至少一个可能的物流商,并分别确定当该运单号与所述可能的物流商对应时,在各所述特征维度上对应的概率;
将计算出的各所述特征维度上的概率以及期望的预测结果输入到预置的模型训练机中进行训练,得到预测模型;
利用所述统计的结果以及所述预测模型,对待预测运单号所属的物流商进行预测。
一种运单号数据分析装置,包括:
原始数据收集单元,用于收集原始数据,所述原始数据包括运单号及其对应的物流商信息;
数据统计单元,用于按照至少一个预置的特征维度对所述原始数据进行统计,确定各所述特征维度上对应的相关概率,其中,所述预置的特征维度包括运单号特征维度,对应的相关概率包括:对于特定运单号特征,对应的运单号可能属于各物流商的概率;
样本数据处理单元,用于从所述原始数据中确定训练样本数据,根据所述统计的结果,确定训练样本数据中的运单号对应的至少一个可能的物流商,并分别确定当该运单号与所述可能的物流商对应时,在各所述特征维度上对应的概率;
预测模型获取单元,用于将计算出的各所述特征维度上的概率以及期望的预测结果输入到预置的模型训练机中进行训练,得到预测模型;
运单号预测单元,用于利用所述统计的结果以及所述预测模型,对待预测运单号所属的物流商进行预测。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
通过本申请实施例,可以按照至少一个预置的特征维度对所述原始数据进行统计,确定各特征维度上对应的相关概率,再利用样本数据中运单号与可能的物流商对应时,在各特征维度上对应的概率作为训练数据,这些训练数据实际上反应了运单号与可能的物流商对应时在统计学上的特征,利用训练数据训练得到预测模型,进而使用预测模型,对未知物流商的待预测数据进行其所述物流商的预测。本方法通过对原始数据的数据挖掘获得样本数据的统计学特征,并利用这些统计结果进行机器学习,得到能够准确预测的自动化预测模型,利用预测模型可以对待预测运单号进行准确高效的预测,提高了预测的准确性和效率的同时,作为预测工具的预测模型相比较现有方法也更易于维护,减少维护成本。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的方法的流程图;
图2是本申请实施例提供的装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了运单号数据分析方法,如图1所示,为该运单号数据分析方法的流程图,如图所示,该方法可以包括以下步骤:
S101:收集原始数据,所述原始数据包括运单号及其对应的物流商信息;
首先,可以对原始数据进行收集,其中,原始数据包括了运单号以及运单号对应的物流商信息,也即运单号以及对应的物流商信息一般成对收集。对原始数据的收集可以在物流服务数据中提取,以收集真实有效的包括运单号及其对应的物流商信息的原始数据。例如,当商户与终端购买用户通过电商平台进行交易时,在商户通过特定物流商将产品成功配送给终端购买用户后,从物流过程中产生的物流服务数据中,可以提取运单号以及对应的物流商信息。成功将原始数据收集到后,可以将其保存为特定格式的计算机数据,例如保存为如下实例格式的数据库条目,如表1所示:
表1
Tracking_No. | Logistics |
D2015001153335 | YD |
2012748964005441 | SF |
… | … |
其中,Tracking_No.列中的数据为所收集到的原始数据中的运单号,Logistics列中的数据所收集到的各运单号分别对应的物流商代码,也即物流商信息。
S102:按照至少一个预置的特征维度对所述原始数据进行统计,确定各所述特征维度上对应的相关概率,其中,所述预置的特征维度包括运单号特征维度,对应的相关概率包括:对于特定运单号特征,对应的运单号可能属于各物流商的概率;
收集到要求的原始数据后,可以按照至少一个预置的特征维度对原始数据进行统计,确定在每个预置的特征维度上对应的概率。例如,预置的特征维度可以包括运单号特征维度,即选定的某个运单号特征作为一个维度,如运单号中预置位置处预置长度的字符特征维度,和/或运单号的长度特征维度等等。运单号中预置位置处预置长度的字符特征维度例如,可以将样本数据中运单号中前N位字符组成的前缀,和对应的物流商出现的规律作为一个特征维度。在以此维度作为预置的特征维度,具体实现该维度上的对应的相关概率时,可以首先统计运单号中前N位字符组成的前缀中各前缀的出现次数A;统计同一前缀对应的运单号中,每个物流商出现的次数B;确定该前缀出现时,属于对应物流商的概率为B/A;其中,N、A、B均为正整数。在该维度上实现样本数据的统计时,同一前缀可能对应一个或者多个物流商,在同一前缀对应多个物流商时,该前缀对应各物流商的统计概率可能不同。以N取1位字符的各个前缀为例,统计结果的示例如表2所示:
表2
表2给出了上述实现方式中前缀位数N取1位字符的统计结果的示例,其中,在前缀第一位字符为Y的情况下,对应出现了三个物流商,根据统计结果,在该前缀Y出现时,属于对应物流商的概率分别为概率1,概率2以及概率3;实例表格2中的其他统计数据以此类推。在实际应用中,根据实际的需要,运单号中预置位置处预置长度的字符特征维度,还可以分别包括运单号中前2位,3位,4位…等等字符组成的前缀的字符特征维度,前缀字符可以包括字母,数字,其它字符,以及不同类型字符的组合等等,其统计方法和统计结果的示例与前述表2的统计方法和统计结果类似,在此就不再一一赘述了。
另外,预置的特征维度还可以包括运单号的长度特征维度,即将样本数据中各运单号的长度和对应的物流商的出现规律作为一个特征维度。具体在实现在运单号的长度特征维度上确定对应的相关概率时,可以统计长度为M的运单号出现次数C,统计长度为M的运单号中各物流商的出现次数D,然后确定运单号长度为M时,属于对应物流商的概率为D/C;其中,M、C、D均为正整数。在运单号的长度特征维度上实现样本数据的统计时,同一运单号长度可能对应一个或者多个物流商,在同一运单号长度对应多个物流商时,该运单号长度对应各物流商的统计概率可能不同。在运单号的长度特征维度上实现样本数据统计的统计结果如表3所示的示例:
表3
表3给出了在运单号的长度特征维度上实现样本数据的统计,确定在运单号的长度特征维度上对应的相关概率的示例,其中例如,在原始数据中运单号长度为12的运单号,对应出现了三个物流商,其数据统计结果为属于对应物流商的概率分别为概率6,概率7以及概率8;表格3中的其他统计数据以此类推,就不再一一赘述了。
以上所介绍的预置的特征维度,包括运单号中预置位置处预置长度的字符特征维度,以及运单号的长度特征维度,是从运单号的角度选取的特征维度,此外,在实际应用中,还可以从物流商的统计特征的角度选取特征维度,即预置的特征维度还可以包括物流商特征维度。例如,可以对原始数据进行统计,确定各物流商在全部原始数据中的出现概率,以及,结合运单号的某些特征(如运单号的特定前缀,运单号长度等等),还可以确定对于特定物流商,各种运单号特征的出现概率等统计结果。以下进行具体的举例说明。
在以预置的物流商特征维度进行数据统计时,可以获取的相关概率可以包括各物流商在全部原始数据中的出现概率,具体的确定方法可以是统计各物流商对应的数据数量,将各物流商对应的数据数量与原始数据的总数据量的比值,确定为对应的物流商在全部原始数据中的出现概率。
另外,还可以统计出对于特定物流商,各种运单号长度的出现概率。该统计结果的示例可以参见如下表4
表4
表4给出了根据对于特定物流商,各种运单号长度的出现概率,实现样本数据统计的示例,确定对于特定物流商,各种运单号长度的出现概率,可以首先确定原始数据中特定物流商对应的数据量E,以及对于该特定物流商,各个运单号长度,对应的数据量E1,E2,E3…,根据E1,E2,E3…与原始数据中该特定物流商对应的数据量E的比值,来确定对应的概率。例如,表4中,对于物流商1,假设其在原始数据中的数据量为10k个条目,其对应的运单号长度分别包括了11,12,以及14,假设物流商1的10k个条目中运单号长度为11的数据量为5.4k,则概率11应为:
5.4k/10k=54%
需要说明的是,以上所介绍的按照至少一个预置的特征维度对原始数据进行统计的方法,其选取的特征维度以及对应的数据处理的方法皆为示例性的,旨在便于对上述步骤或过程的理解,并不应该被视为对本申请实施例的限制,在实际应用中,还可以根据实际的需要,选择其他的特征维度对原始数据进行统计,本申请实施例对此并没有限制。
S103:从所述原始数据中确定训练样本数据,根据所述统计的结果,确定训练样本数据中的运单号对应的至少一个可能的物流商,并分别确定当该运单号与所述可能的物流商对应时,在各所述特征维度上对应的概率;
在对原始数据按照上述至少一个预置的特征维度完成统计,并得到相应的统计数据后,可以从原始数据中确定训练样本数据,从原始数据中确定样本数据可以有多种实现方式,以达到更好的训练效果,使预测模型更加准确,可以采用更能保证样本数据覆盖面的方式实现。例如可以根据样本数据的采集时间,在一个较大的时间跨度上选择原始数据作为样本数据;另外,也可以根据原始数据中的物流商字段进行选择,尽量覆盖所有出现的物流商,并且对于每个物流商足够的数据量作为样本;还可以对原始数据进行覆盖面的评估,如果评估结果能够达到实际应用需要的覆盖面,也可以将全部原始数据作为样本数据。
然后,可以根据统计的结果,确定训练样本数据中的运单号对应的至少一个可能的物流商,具体实现时,可以首先根据训练样本数据中的各运单号,分别查询某个特征维度上的统计数据,例如可以查询表2或表3中的以运单号特征维度上的统计数据,确定出样本数据中每个运单号对应的一个或多个可能的物流商。进而,还可以根据统计结果,分别确定当该运单号与可能的物流商对应时,在各特征维度上对应的概率,以下进行具体的举例说明。
例如,预置的特征维度包括了以下列举的7个特征维度,其中前4个为预置位置处预置长度的字符特征维度:
运单第一位字符的字符特征维度;
运单前二位字符的字符特征维度;
运单前三位字符的字符特征维度;
运单前四位字符的字符特征维度;
运单号的长度特征维度;
物流商特征维度1(各物流商在全部原始数据中的出现概率);
物流商特征维度2(对应对于特定物流商各种运单号特征的出现概率)。
在从原始数据中提取训练样本数据后,分别确定当该运单号与所述可能的物流商对应时,各个特征维度上的相关概率信息,可以包括对于该运单号与可能的物流商,确定该运单号前N位字符组成的前缀以及该运单号的长度;确定该前缀出现时,属于该物流商的概率;确定该运单号长度对应该物流商的概率;确定该物流商对应该运单号长度的概率;确定该物流商出现的概率。
例如有如下样本数据:
Y2015001153335-物流商1;
其中Y2015001153335为运单号,物流商1为该运单号对应的正确的物流商。
首先,可以以该运单号查询预选的统计结果,确定在统计结果中该运单号对应的所有可能的物流商,如可以经过查询4个在字符特征维度上的统计结果,得到该运单号可能对应的三个物流商,分别为物流商1,物流商2,以及物流商3,这样就得到了该运单号在某些特征上与可能的物流商之间的对应关系,也即确定了该运单号对应的一个或多个可能的物流商。接下来,可以根据统计结果,分别确定当该运单号与可能的物流商对应时,在各特征维度上对应的概率,可以得到该运单号与上述三个物流商分别对应时的三组数据,每一组都由7个概率数据组成,例如当该运单号与可能的物流商1对应时,可以得到在各特征维度上的一组数据:
<V1-1,V1-2,V1-3,V1-4,V1-5,V1-6,V1-7>;
当该运单号与其他两个可能的物流商1和物流商2对应时,同样可以确定在各特征维度上的成组数据,即各维度上的概率:
<V2-1,V2-2,V2-3,V2-4,V2-5,V2-6,V2-7>,以及
<V3-1,V3-2,V3-3,V3-4,V3-5,V3-6,V3-7>。
以此类推,对于所有样本数据,可以确定出其中的运单号对应的可能的物流商,并分别确定当该运单号与可能的物流商对应时,在各特征维度上对应的概率数据,这样一组数据实际上是反应运单号统计学特征的数据,可以用于机器学习分类的样本数据。在特定运单号对应多个物流商时,其中只有一个正确的物流商,其它的物流商仅仅是根据统计数据可能对应的物流商,为了提供充足的训练数据,或者满足预测模型需求,在训练样本数据中运单号可以对应一个正确的物流商,以及至少一个错误的物流商,这样,在确定当该运单号与所有可能的物流商对应时,在各特征维度上的相关概率时,可以确定当该运单号与正确的物流商对应时,在各特征维度上的相关概率;以及,确定当该运单号与其中一个错误的物流商对应时,在各特征维度上的相关概率,其中,对于正确或错误的物流商,在将相关概率信息输入模型训练机中训练时,对应的期望值不同。对于正确和错误的物流商的期望值,请参考后续步骤S104中的内容。
S104:将计算出的各所述特征维度上的概率以及期望的预测结果输入到预置的模型训练机中进行训练,得到预测模型;
在分别确定当样本数据各运单号与可能的物流商对应时,各个特征维度上的相关概率信息后,可以将计算出的各所述特征维度上的概率信息以及期望的预测结果输入到预置的模型训练机中进行训练,得到预测模型。以步骤S104中的样本数据条目为例,Y2015001153335作为样本运单号,与可能的三个物流商分别对应有三组数据,而该运单号对应的正确的物流商为其中的物流商1,可以将物流商1作为期望的预测结果。计算出的概率信息以及期望的预测结果的数据关系可以参见表5中的示例:
表5
在本申请实施例中,预置的模型训练机可以采用支持向量机(support vectormachine,SVM)来实现,支持向量机是一种基于统计学习的自动化分类器工具,可以在输入样本后将样本自动的进行分类,在小样本、非线性及高维模式识别等方面,相较于其它分类器具有更加高效准确的优势。具体实现时,可以在得到样本数据各运单号与可能的物流商对应时,各个特征维度上的相关概率信息后,将反应各运单号的统计学特征的各组概率数据,以及期望的预测结果数据到预置的支持向量机中,可选的,还可以将期望结果为False的概率数据也输入支持向量机进行学习或优化,以提高最终预测模型的准确性。经过支持向量机对样本数据的机器学习,可以获得准确的分类模型,所得到的分类模型常常表现为一个或者一组函数数据。所得到的分类模型可以用来对未知的运单号进行分类预测,分析其所属的物流商或分别属于不同物流商的概率。
S105:利用所述统计的结果以及所述预测模型,对待预测运单号所属的物流商进行预测。
在得到预测模型后,可以利用预测模型,以及步骤S102中的统计结果,对未知的运单号,即待预测的运单号进行其所属物流商的预测。具体实现时,可以首先确定待预测的运单号,例如接收用户通过浏览器,移动设备应用APP等提交的待预测的运单号,按照运单号特征维度提取待预测的运单号特征,根据提取出的运单号特征,确定该待预测的运单号对应的至少一个可能的物流商,例如,可以根据运单号预置位置的字符,运单号的长度等运单号特征,查询签署的统计结果,确定待预测运单号对应的可能的物流商,然后可以根据统计出的概率信息,确定当待预测的运单号对应各个可能的物流商时,各个特征维度上对应的相关概率,该相关概率反应为类似前述的<概率数据组>形式的一组数据,接下来可以将计算出的相关概率输入到预测模型中,由预测模型计算出该待待测运单号对应的物流商,或者输出该待预测运单号对应各可能物流商的概率,根据概率的排序,确定出最可能对应的正确的物流商。
以上对本申请实施例公开的运单号数据分析方法进行了详细的介绍,通过该方法,可以按照至少一个预置的特征维度对所述原始数据进行统计,确定各特征维度上对应的相关概率,再利用样本数据中运单号与可能的物流商对应时,在各特征维度上对应的概率作为训练数据,这些训练数据实际上反应了运单号与可能的物流商对应时在统计学上的特征,利用训练数据训练得到预测模型,进而使用预测模型,对未知物流商的待预测数据进行其所述物流商的预测。本方法通过对原始数据的数据挖掘获得样本数据的统计学特征,并利用这些统计结果进行机器学习,得到能够准确预测的自动化预测模型,利用预测模型可以对待预测运单号进行准确高效的预测,提高了预测的准确性和效率的同时,作为预测工具的预测模型相比较现有方法也更易于维护,减少维护成本。
与本申请公开的运单号数据分析方法相对应,还公开了运单号数据分析装置,如图2所示,该装置可以包括:
原始数据收集单元201,用于收集原始数据,原始数据包括运单号及其对应的物流商信息;
数据统计单元202,用于按照至少一个预置的特征维度对原始数据进行统计,确定各特征维度上对应的相关概率,其中,预置的特征维度包括运单号特征维度,对应的相关概率包括:对于特定运单号特征,对应的运单号可能属于各物流商的概率;
样本数据处理单元203,用于从原始数据中确定训练样本数据,根据统计的结果,确定训练样本数据中的运单号对应的至少一个可能的物流商,并分别确定当该运单号与可能的物流商对应时,在各特征维度上对应的概率;
预测模型获取单元204,用于将计算出的各特征维度上的概率以及期望的预测结果输入到预置的模型训练机中进行训练,得到预测模型;
运单号预测单元205,用于利用统计的结果以及预测模型,对待预测运单号所属的物流商进行预测。
其中,运单号特征维度可以包括:
运单号中预置位置处预置长度的字符特征维度,和/或运单号的长度特征维度。
在这种实现方式下,运单号中预置位置处预置长度的字符特征,可以包括运单号中前N位字符组成的前缀的字符特征维度;
在这种实现方式下,数据统计单元可以包括第一数据统计子单元,用于:
统计运单号中前N位字符组成的前缀中各前缀的出现次数A;
统计同一前缀对应的运单号中,每个物流商出现的次数B;
确定该前缀出现时,属于对应物流商的概率为B/A;
其中,N、A、B均为正整数。
对于运单号的长度特征维度,数据统计单元可以包括第二数据统计子单元,用于:
统计长度为M的运单号出现次数C;
统计长度为M的运单号中,各物流商的出现次数D;
确定运单号长度为M时,属于对应物流商的概率为D/C;
其中,M、C、D均为正整数。
此外,预置的特征维度还可以包括物流商特征维度,对应的相关概率包括:对于特定物流商,各种运单号特征的出现概率,和/或,各物流商在全部原始数据中的出现概率。
在这种实现方式下,对于特定物流商,各种运单号特征的出现概率可以包括:对于特定物流商,各种运单号长度的出现概率。
在这种实现方式下,在从原始数据中提取训练样本数据后,样本数据处理单元可以包括第一样本数据处理子单元,用于:
对于该运单号与可能的物流商,确定该运单号前N位字符组成的前缀以及该运单号的长度;
确定该前缀出现时,属于该物流商的概率;
确定该运单号长度对应该物流商的概率;
确定该物流商对应该运单号长度的概率;
确定该物流商出现的概率。
在另一种实现方式下,训练样本数据中的运单号对应的至少一个可能的物流商中,可以包括一个正确的物流商,以及至少一个错误的物流商;样本数据处理单元可以包括第二样本数据处理子单元,用于:
确定当该运单号与正确的物流商对应时,在各特征维度上的相关概率;以及,
确定当该运单号与其中一个错误的物流商对应时,在各特征维度上的相关概率;
其中,对于正确或错误的物流商,在将相关概率信息输入模型训练机中训练时,对应的期望值不同。
运单号预测单元,具体可以用于:
确定待预测的运单号;
按照运单号特征维度提取待预测的运单号特征,根据提取出的运单号特征,确定该待预测的运单号对应的至少一个可能的物流商,并根据统计出的概率信息,确定当待预测的运单号对应各个可能的物流商时,各个特征维度上对应的相关概率;
将计算出的相关概率输入到预测模型中,输出该待预测运单号对应各可能物流商的概率。
以上对本申请实施例公开的运单号数据分析装置进行了介绍,通过该装置,可以按照至少一个预置的特征维度对所述原始数据进行统计,确定各特征维度上对应的相关概率,再利用样本数据中运单号与可能的物流商对应时,在各特征维度上对应的概率作为训练数据,这些训练数据实际上反应了运单号与可能的物流商对应时在统计学上的特征,利用训练数据训练得到预测模型,进而使用预测模型,对未知物流商的待预测数据进行其所述物流商的预测。本装置通过对原始数据的数据挖掘获得样本数据的统计学特征,并利用统计结果进行机器学习,得到能够准确预测的自动化预测模型,利用预测模型可以对待预测运单号进行准确高效的预测,提高了预测的准确性和效率的同时,相对于现有技术,作为预测工具的预测模型也更易于维护。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的运单号数据分析方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。
Claims (18)
1.一种运单号数据分析方法,其特征在于,包括:
收集原始数据,所述原始数据包括运单号及其对应的物流商信息;
按照至少一个预置的特征维度对所述原始数据进行统计,确定各所述特征维度上对应的相关概率,其中,所述预置的特征维度包括运单号特征维度,对应的相关概率包括:对于特定运单号特征,对应的运单号可能属于各物流商的概率;
从所述原始数据中确定训练样本数据,根据统计的结果,确定训练样本数据中的运单号对应的至少一个可能的物流商,并分别确定当该运单号与所述可能的物流商对应时,在各所述特征维度上对应的概率;
将计算出的各所述特征维度上的概率以及期望的预测结果输入到预置的模型训练机中进行训练,得到预测模型;
利用所述统计的结果以及所述预测模型,对待预测运单号所属的物流商进行预测。
2.根据权利要求1所述的方法,其特征在于,所述运单号特征维度,包括:
运单号中预置位置处预置长度的字符特征维度,和/或运单号的长度特征维度。
3.根据权利要求2所述的方法,其特征在于,所述运单号中预置位置处预置长度的字符特征,包括运单号中前N位字符组成的前缀的字符特征维度;
所述确定各所述特征维度上对应的相关概率,包括:
统计运单号中前N位字符组成的前缀中各前缀的出现次数A;
统计同一前缀对应的运单号中,每个物流商出现的次数B;
确定该前缀出现时,属于对应物流商的概率为B/A;
其中,N、A、B均为正整数。
4.根据权利要求2所述的方法,其特征在于,对于所述运单号的长度特征维度,所述确定各所述特征维度上对应的相关概率,包括:
统计长度为M的运单号出现次数C;
统计长度为M的运单号中,各物流商的出现次数D;
确定运单号长度为M时,属于对应物流商的概率为D/C;
其中,M、C、D均为正整数。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述预置的特征维度还包括物流商特征维度,对应的相关概率包括:对于特定物流商,各种运单号特征的出现概率,和/或,各物流商在全部原始数据中的出现概率。
6.根据权利要求5所述的方法,其特征在于,所述对于特定物流商,各种运单号特征的出现概率,包括:对于特定物流商,各种运单号长度的出现概率。
7.根据权利要求6所述的方法,其特征在于,在从所述原始数据中提取训练样本数据后,所述分别确定当该运单号与所述可能的物流商对应时,各个特征维度上的相关概率信息,包括:
对于该运单号与可能的物流商,确定该运单号前N位字符组成的前缀以及该运单号的长度;
确定该前缀出现时,属于该物流商的概率;
确定该运单号长度对应该物流商的概率;
确定该物流商对应该运单号长度的概率;
确定该物流商出现的概率。
8.根据权利要求1所述的方法,其特征在于,所述训练样本数据中的运单号对应的至少一个可能的物流商中,包括一个正确的物流商,以及至少一个错误的物流商;所述分别确定当该运单号与所述可能的物流商对应时,在各所述特征维度上的相关概率,包括:
确定当该运单号与所述正确的物流商对应时,在各所述特征维度上的相关概率;以及,
确定当该运单号与其中一个错误的物流商对应时,在各所述特征维度上的相关概率;
其中,对于正确或错误的物流商,在将相关概率信息输入模型训练机中训练时,对应的期望值不同。
9.根据权利要求1至4、6至8任一项所述的方法,其特征在于,所述利用所述统计的结果以及所述预测模型,对待预测运单号所属的物流商进行预测,包括:
确定待预测的运单号;
按照所述运单号特征维度提取所述待预测的运单号特征,根据提取出的运单号特征,确定该待预测的运单号对应的至少一个可能的物流商,并根据统计出的概率信息,确定当待预测的运单号对应各个可能的物流商时,各个特征维度上对应的相关概率;
将计算出的相关概率输入到所述预测模型中,输出该待预测运单号对应各可能物流商的概率。
10.一种运单号数据分析装置,其特征在于,包括:
原始数据收集单元,用于收集原始数据,所述原始数据包括运单号及其对应的物流商信息;
数据统计单元,用于按照至少一个预置的特征维度对所述原始数据进行统计,确定各所述特征维度上对应的相关概率,其中,所述预置的特征维度包括运单号特征维度,对应的相关概率包括:对于特定运单号特征,对应的运单号可能属于各物流商的概率;
样本数据处理单元,用于从所述原始数据中确定训练样本数据,根据统计的结果,确定训练样本数据中的运单号对应的至少一个可能的物流商,并分别确定当该运单号与所述可能的物流商对应时,在各所述特征维度上对应的概率;
预测模型获取单元,用于将计算出的各所述特征维度上的概率以及期望的预测结果输入到预置的模型训练机中进行训练,得到预测模型;
运单号预测单元,用于利用所述统计的结果以及所述预测模型,对待预测运单号所属的物流商进行预测。
11.根据权利要求10所述的装置,其特征在于,所述运单号特征维度,包括:
运单号中预置位置处预置长度的字符特征维度,和/或运单号的长度特征维度。
12.根据权利要求11所述的装置,其特征在于,所述运单号中预置位置处预置长度的字符特征,包括运单号中前N位字符组成的前缀的字符特征维度;
所述数据统计单元,包括第一数据统计子单元,用于:
统计运单号中前N位字符组成的前缀中各前缀的出现次数A;
统计同一前缀对应的运单号中,每个物流商出现的次数B;
确定该前缀出现时,属于对应物流商的概率为B/A;
其中,N、A、B均为正整数。
13.根据权利要求11所述的装置,其特征在于,对于所述运单号的长度特征维度,所述数据统计单元,包括第二数据统计子单元,用于:
统计长度为M的运单号出现次数C;
统计长度为M的运单号中,各物流商的出现次数D;
确定运单号长度为M时,属于对应物流商的概率为D/C;
其中,M、C、D均为正整数。
14.根据权利要求10至13任一项所述的装置,其特征在于,所述预置的特征维度还包括物流商特征维度,对应的相关概率包括:对于特定物流商,各种运单号特征的出现概率,和/或,各物流商在全部原始数据中的出现概率。
15.根据权利要求14所述的装置,其特征在于,所述对于特定物流商,各种运单号特征的出现概率,包括:对于特定物流商,各种运单号长度的出现概率。
16.根据权利要求15所述的装置,其特征在于,在从所述原始数据中提取训练样本数据后,所述样本数据处理单元,包括第一样本数据处理子单元,用于:
对于该运单号与可能的物流商,确定该运单号前N位字符组成的前缀以及该运单号的长度;
确定该前缀出现时,属于该物流商的概率;
确定该运单号长度对应该物流商的概率;
确定该物流商对应该运单号长度的概率;
确定该物流商出现的概率。
17.根据权利要求10所述的装置,其特征在于,所述训练样本数据中的运单号对应的至少一个可能的物流商中,包括一个正确的物流商,以及至少一个错误的物流商;所述样本数据处理单元,包括第二样本数据处理子单元,用于:
确定当该运单号与所述正确的物流商对应时,在各所述特征维度上的相关概率;以及,
确定当该运单号与其中一个错误的物流商对应时,在各所述特征维度上的相关概率;
其中,对于正确或错误的物流商,在将相关概率信息输入模型训练机中训练时,对应的期望值不同。
18.根据权利要求10至13、15至17任一项所述的装置,其特征在于,所述运单号预测单元,用于:
确定待预测的运单号;
按照所述运单号特征维度提取所述待预测的运单号特征,根据提取出的运单号特征,确定该待预测的运单号对应的至少一个可能的物流商,并根据统计出的概率信息,确定当待预测的运单号对应各个可能的物流商时,各个特征维度上对应的相关概率;
将计算出的相关概率输入到所述预测模型中,输出该待预测运单号对应各可能物流商的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510736191.2A CN106651232B (zh) | 2015-11-02 | 2015-11-02 | 运单号数据分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510736191.2A CN106651232B (zh) | 2015-11-02 | 2015-11-02 | 运单号数据分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106651232A CN106651232A (zh) | 2017-05-10 |
CN106651232B true CN106651232B (zh) | 2021-01-12 |
Family
ID=58809434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510736191.2A Active CN106651232B (zh) | 2015-11-02 | 2015-11-02 | 运单号数据分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106651232B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256903A (zh) * | 2017-12-29 | 2018-07-06 | 上海泰歌物流有限公司 | 基于物流平台的订单计费方法及装置 |
CN108520335A (zh) * | 2018-03-20 | 2018-09-11 | 顺丰科技有限公司 | 抽检对象预测方法、装置、设备及其存储介质 |
CN109034710A (zh) * | 2018-08-28 | 2018-12-18 | 深圳市鼎昇贸易有限公司 | 仓库订单物流管理方法及相关产品 |
CN113988761A (zh) * | 2020-07-21 | 2022-01-28 | 上海寻梦信息技术有限公司 | 物流轨迹查询更新方法、装置、设备及存储介质 |
CN112016842B (zh) * | 2020-09-01 | 2023-08-15 | 中国平安财产保险股份有限公司 | 基于贝叶斯算法自动分配配送任务的方法和装置 |
CN112948646B (zh) * | 2021-04-01 | 2022-12-13 | 支付宝(杭州)信息技术有限公司 | 数据识别方法和装置 |
CN116151542A (zh) * | 2022-11-30 | 2023-05-23 | 上海韵达高新技术有限公司 | 物流订单实时监控方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101569883A (zh) * | 2009-05-22 | 2009-11-04 | 顺丰速运(集团)有限公司 | 一种运单的分发方法、装置及系统 |
CN103455621A (zh) * | 2013-09-12 | 2013-12-18 | 金蝶软件(中国)有限公司 | 一种物流运单号的解析方法、装置和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8812543B2 (en) * | 2011-03-31 | 2014-08-19 | Infosys Limited | Methods and systems for mining association rules |
-
2015
- 2015-11-02 CN CN201510736191.2A patent/CN106651232B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101569883A (zh) * | 2009-05-22 | 2009-11-04 | 顺丰速运(集团)有限公司 | 一种运单的分发方法、装置及系统 |
CN103455621A (zh) * | 2013-09-12 | 2013-12-18 | 金蝶软件(中国)有限公司 | 一种物流运单号的解析方法、装置和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106651232A (zh) | 2017-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106651232B (zh) | 运单号数据分析方法及装置 | |
CN111291816B (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
CN107657267B (zh) | 产品潜在用户挖掘方法及装置 | |
CN105787025B (zh) | 网络平台公共账号分类方法及装置 | |
RU2010125682A (ru) | Способы и устройство обеспечения системы прогнозирования групповой торговли | |
US9875486B2 (en) | Extracting product purchase information from electronic messages | |
CN109583966A (zh) | 一种高价值客户识别方法、系统、设备及存储介质 | |
CN106095972B (zh) | 一种信息分类方法及装置 | |
CN110532351A (zh) | 推荐词展示方法、装置、设备及计算机可读存储介质 | |
CN113360768A (zh) | 基于用户画像的产品推荐方法、装置、设备及存储介质 | |
CN109325845A (zh) | 一种金融产品智能推荐方法及系统 | |
CN112182207A (zh) | 基于关键词提取和快速文本分类的发票虚抵风险评估方法 | |
CN109389321A (zh) | 一种价格评估方法及装置 | |
CN106845880B (zh) | 运单号归属的识别方法及装置 | |
CN111538909A (zh) | 一种信息推荐方法及装置 | |
CN111091409B (zh) | 客户标签的确定方法、装置和服务器 | |
CN104615910A (zh) | 基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法 | |
CN114399367A (zh) | 保险产品推荐方法、装置、设备及存储介质 | |
CN113609020A (zh) | 一种测试用例推荐方法及装置 | |
CN113327132A (zh) | 多媒体推荐方法、装置、设备及存储介质 | |
CN108711073B (zh) | 用户分析方法、装置及终端 | |
CN110555168B (zh) | 信息推送的方法及装置 | |
CN110909212B (zh) | 一种银行标识代码的匹配方法和设备 | |
CN116579351B (zh) | 一种用户评价信息的分析方法及装置 | |
CN108460049A (zh) | 一种确定信息类别的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20180411 Address after: Four story 847 mailbox of the capital mansion of Cayman Islands, Cayman Islands, Cayman Applicant after: CAINIAO SMART LOGISTICS HOLDING Ltd. Address before: Cayman Islands Grand Cayman capital building a four storey No. 847 mailbox Applicant before: ALIBABA GROUP HOLDING Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |