CN106845880A - 运单号归属的识别方法及装置 - Google Patents

运单号归属的识别方法及装置 Download PDF

Info

Publication number
CN106845880A
CN106845880A CN201510882629.8A CN201510882629A CN106845880A CN 106845880 A CN106845880 A CN 106845880A CN 201510882629 A CN201510882629 A CN 201510882629A CN 106845880 A CN106845880 A CN 106845880A
Authority
CN
China
Prior art keywords
sample
air way
mark
way bill
waybill data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510882629.8A
Other languages
English (en)
Other versions
CN106845880B (zh
Inventor
王秋子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cainiao Smart Logistics Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510882629.8A priority Critical patent/CN106845880B/zh
Publication of CN106845880A publication Critical patent/CN106845880A/zh
Application granted granted Critical
Publication of CN106845880B publication Critical patent/CN106845880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了运单号归属的识别方法及装置,其中,所述方法包括:收集样本运单数据;根据各样本运单数据运单号中的字符以及字符出现顺序,提取各样本运单数据的样本特征标记,将所提取到的所述样本特征标记组成特征空间;将各样本运单数据对应物流商标识以及样本特征标记,输入到预置的分类学习机中,通过分类学习分别确定各物流商标识对应的特征空间中,各样本特征标记权重系数;根据待识别运单号的字符以及字符出现顺序,提取待识别运单号的特征标记;根据待识别运单号的特征标记,匹配各物流商标识对应的所述特征空间中各样本特征标记对应的权重系数,确定待识别运单号的归属。通过该方法可以更准确高效的识别运单号的归属。

Description

运单号归属的识别方法及装置
技术领域
本申请涉及物流信息处理技术领域,特别是涉及运单号归属的识别方法及装置。
背景技术
在电子商务应用广泛普及的今天,物流服务在产品提供商,电子商务平台,以及购买产品的终端用户三者之间承担了不可或缺的角色,多数实体产品的运输,都依赖于物流服务来完成。在电子商务的相关应用中,经常存在根据物流包裹的运单号判断属于哪家物流服务提供商(以下称为“物流商”)的需求。例如在一些电子商务平台推出的查询网站或者应用中,系统可以对用户输入的运单号自动识别和匹配其对应的物流商,从而简化查询流程,节约查询操作的时间成本。
运单号是快递包裹的唯一标识代码,通常由数字和字母组成,通常情况下,特定物流商的使用的运单号的编码方式具有特定规律。例如,某物流商的运单号由12位字母和数字组成,前后各两位英文,固定第一位是E,最后是CS等等。在实现运单号与物流商的匹配时,技术人员可以运单号的特定规律,设计匹配的实现方式,例如可以编写与这些不同规律的运单号相匹配的正则表达式,实现运单号与物流商的匹配。但是,这种人编写规则的方式常常无法顾及所有可能性而导致的匹配准确度不高,对属于不同物流商但规律相似的运单号常常无法有效分辨,而且维护成本高,当某一物流商使用不同的规则的运单号时,可能导致大面积的修改。另一种运单号归属的识别方式是,根据用户输入的运单号对所有可能的物流商的服务器进行轮询,根据各服务器是否及时返回有效来确定对应的物流商,这种方式的缺陷是,对物流商服务器的压力和依赖性太大,在物流商服务器信息更新滞后的情况下,难以保证用户查询到及时有效的结果。
因此,如何更准确、高效地根据确定运单号所归属的物流商,成为需要本领域技术人员解决的技术问题。
发明内容
本申请提供了运单号归属的识别方法及装置,更准确高效的识别运单号的归属,并且更加易于更新维护。
本申请提供了如下方案:
一种运单号归属的识别方法,包括:
收集样本运单数据,所述样本运单数据中的条目包括运单号及其对应的物流商标识;
根据各样本运单数据的运单号中的字符以及字符出现顺序,提取各样本运单数据的样本特征标记,将所提取到的所述样本特征标记组成特征空间;
将各样本运单数据对应物流商标识以及样本特征标记,输入到预置的分类学习机中,通过分类学习分别确定各物流商标识对应的所述特征空间中,各样本特征标记对应的权重系数;
在需要对运单号归属进行识别时,根据待识别运单号的字符以及字符出现顺序,提取待识别运单号的特征标记;
根据所提取的待识别运单号的特征标记,匹配各物流商标识对应的所述特征空间中各样本特征标记对应的权重系数,根据所匹配到的各权重系数,确定待识别运单号的归属。
一种运单号归属的识别装置,包括:
样本收集单元,用于收集样本运单数据,所述样本运单数据中的条目包括运单号及其对应的物流商标识;
样本标记提取单元,用于根据各样本运单数据的运单号中的字符以及字符出现顺序,提取各样本运单数据的样本特征标记,将所提取到的所述样本特征标记组成特征空间;
分类学习单元,用于将各样本运单数据对应物流商标识以及样本特征标记,输入到预置的分类学习机中,通过分类学习分别确定各物流商标识对应的所述特征空间中,各样本特征标记对应的权重系数;
识别标记提取单元,用于在需要对运单号归属进行识别时,根据待识别运单号的字符以及字符出现顺序,提取待识别运单号的特征标记;
运单号归属确定单元,用于根据所提取的待识别运单号的特征标记,匹配各物流商标识对应的所述特征空间中各样本特征标记对应的权重系数,根据所匹配到的各权重系数,确定待识别运单号的归属。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
通过本申请实施例,可以收集样本运单数据;根据各样本运单数据运单号中的字符以及字符出现顺序,以预置的提取方法提取各样本运单数据的样本特征标记,将所提取到的所述样本特征标记组成特征空间;将各样本运单数据对应物流商标识以及样本特征标记,输入到预置的分类学习机中,通过分类学习分别确定各物流商标识对应的特征空间中,各样本特征标记权重系数;各样本特征标记对应的权重系数,实际上反应了各样本特征标记的统计学规律,同时也从量化的角度准确的体现了不同物流商所使用运单号的客观规律,能够有效的运用于对运单号归属的预测,并且,分类学习的成本低,预测精度高。根据待识别运单号的字符以及字符出现顺序,提取待识别运单号的特征标记;根据待识别运单号的特征标记,匹配各物流商标识对应的所述特征空间中各样本特征标记对应的权重系数,确定待识别运单号的归属。通过该方法可以更准确高效的识别运单号的归属,并且更加易于维护和更新。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的方法的流程图;
图2是本申请实施例提供的装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了运单号归属的识别方法,实现了基于自动分类学习模型的运单号归属的识别,通过样本训练生成分类器,利用分类器对待识别运单号的归属进行自动识别,具有识别精确度高,易于更新和维护等优点,下面对本申请实施例提供运单号归属的识别方法进行详细的介绍。请参看图1,为该运单号归属的识别方法的流程图,如图1所示,该方法可以包括以下步骤:
S101:收集样本运单数据,所述样本运单数据中的条目包括运单号及其对应的物流商标识;
首先可以对样本运单数据进行收集,其中,样本运单数据通常包括多个条目,每个条目中包括了运单号以及对应的物流商标识信息,运单号和对应的物流商标识一般成对收集。
具体在实现样本运单数据的收集时,可以在终端购买用户购买的过程中产生的物流服务数据中提取,例如可以收集物流业务中的运单号以及对应的物流商标识作为原始运单数据,其中包括了物流服务中产生的运单号以及对应的物流商标识等信息,通过对原始运单数据进行数据清洗和抽样,得到样本运单数据。其中,对原始运单数据进行数据清洗可以包括去除无效或无用的信息,去除重复收集的信息等过程;而对原始运单数据的抽样,可以有多种实现方式,本着样本运单数据全面覆盖的原则,可以根据原始运单数据的采集时间,在一个较大的时间跨度上选择原始运单数据作为样本运单数据;另外,也可以根据原始运单数据中的物流商标识进行选择,尽量覆盖所有出现的物流商,并且对于每个物流商都有足够数据量的样本运单数据。
所收集到的样本运单数据的条目中,包括了运单号及其对应的物流商标识,样本运单数据可以保存为特定格式的计算机数据,例如保存为表1所示的格式的数据库条目:
表1
样本运单数据 运单号 物流商标识
样本运单数据001 运单号001 SF
样本运单数据002 运单号002 SF
样本运单数据003 运单号003 UC
样本运单数据004 运单号004 YTO
其中,运单号列中的数据为收集到的样本运单数据中的运单号,物流商标识列中的数据为所收集到样本运单数据中的运单号对应的物流商标识。
S102:根据各样本运单数据的运单号中的字符以及字符出现顺序,提取各样本运单数据的样本特征标记,将所提取到的所述样本特征标记组成特征空间;
在确定了样本运单数据后,可以对样本运单数据中各运单号的特征进行提取,在本申请实施例提供的方法中,根据特定物流商的使用的运单号的编码方式具有特定规律的特点,可以根据各样本运单数据的运单号中的字符以及字符出现顺序进行样本运单数据特征的提取。具体的,可以根据各样本运单数据的运单号中的字符以及字符出现顺序,以预置的提取方法提取各样本运单数据的样本特征标记。例如,物流商标识为SF的某一运单号如下:
100365321372;
该运单号中的前4位“1003”为该物流商在某一时间段内固定使用的前缀标识,基于运单号中的字符以及字符出现顺序进行的特征提取,可以通过大量的运单号特征标记的统计结果反应出该固有特征标记,应用这些统计结果进行分类学习,就可以通过得到的分类学习机进行运单号归属的预测。
在实际应用中,根据各样本运单数据的运单号中的字符以及字符出现顺序,以预置的提取方法提取各样本运单数据的样本特征标记时,可以在样本运单数据的字符串中,依位次以预置窗口长度滚动截取的方式,提取各样本运单数据的样本特征标记。例如上述物流商标识为SF的运单号100365321372,在以窗口长度3进行依位次的滚动截取时,可以得到的样本特征标记包括:
{100,003,036,365,653,532,321,213,137,372};
可见,通过依位次以预置窗口长度滚动截取的方式,所提取各样本运单数据的样本特征标记,是根据样本运单数据的运单号中的字符以及字符出现顺序所提取的特征标记,这些样本特征标记中,总会至少有一部分能够反应出特定物流商使用的运单号的编码方式的固有特点或规律,通过对大量运单号提取的分类学习,就可以找出这些特点和规律。
在依位次以预置窗口长度滚动截取的方式提取样本运单数据的样本特征标记时,可以根据各样本运单数据的运单号中的字符以及字符出现顺序,使用N元文法N-gram方法,提取各样本运单数据样本特征标记。N-gram方法是一种用于连续词汇识别的一种语言模型,在本申请实施例提供的方法中,可以利用N-gram方法中对词汇的抽取的部分,依位次以预置窗口长度滚动截取的方式提取样本运单数据的样本特征标记。N-gram方法中的N代表了元数,应用于本方法则对应了预置的窗口长度,例如上述在以窗口长度3进行依位次的滚动截取的示例。在实际应用中,可以使用二元文法Bi-gram方法,或三元文法Tri-gram方法,提取各样本运单数据的样本特征标记,也可以对该两种方法进行叠加使用,提取各样本运单数据的样本特征标记。之所以使用Bi-gram方法,和/或三元文法Tri-gram方法,一则对于较大数据量的样本运单数据,这两种已经能够提取出足够多和足够有效的样本特征标记,同时还兼顾了样本特征标记提取以及分类学习训练的效率需求,所得到的分类学习机也能够达到期望的精度需求。如果使用N-gram方法中N>=4,则计算量通常会增长几个数量级,其时间成本较高,同时对预测结果精度的提升却并不显著。
此外,由于特定物流商的使用的运单号的编码规律通常体现在运单号的特定位置,例如运单号的开始几位或者结束的几位,在进行各样本运单数据的样本特征标记的提取时,还可以通过所提取的样本特征标记,来突出运单号在特定位置上的这些规律和特点。具体实现时,可以在依位次以预置窗口长度滚动截取时,确定所截取字符串在样本运单数据中的位置,在依位次以预置窗口长度滚动截取时,在截取得到的样本特征标记中加入对应的位置标记。例如对于运单号:
100365321372;
以Tri-gram方法,即依位次以预置窗口长度3进行滚动截取,同时在截取得到的样本特征标记中加入对应的位置标记后,可以得到的样本特征标记包括:
{1&4-100,2&5-003,3&6-036,4&7-365,…};
在这些样本特征标记中,诸如“1&4-”的前缀,也即所加入的位置标记,标识出了该样本特征标记在运单号中的位置。
此外,对于一些比较特殊的位置,例如运单号的开始和结束的位置的字段,即对于样本运单数据字符串中开始字段和结束字段,在依位次以预置窗口长度滚动截取时,还在对应的样本特征标记中分别加入开始标记和结束标记。例如对于运单号:
100365321372;
以Tri-gram方法,即依位次以预置窗口长度3进行滚动截取时,在样本运单数据字符串中开始字段和结束字段对应的样本特征标记中,分别加入开始标记和结束标记后,可以得到的样本特征标记包括:
{B-100,E372};
在这些样本特征标记中,诸如“B-”,“E-”的前缀,标识出了这些样本分别为样本运单数据字符串中的开始字段和结束字段。
在实际应用中,对样本特征标记的提取也可以结合使用上述的多种方式。如可以在依位次以预置窗口长度滚动截取的方式,提取各样本运单数据不带有其他信息的样本特征标记,同时对于样本运单数据字符串中开始字段和结束字段,提取分别加入开始标记和结束标记的样本特征标记,同时还可以确定所截取字符串在样本运单数据中的位置,提取加入位置标记的样本特征标记。例如对于上述运单号:100365321372,同时使用上述三种提取方法进行特征标记的提取时,可以得到的样本特征标记包括:
{100,003,036,365,653,532,321,213,137,372,1&4-100,2&5-003,3&6-036,4&7-365,…,B-100,E372};
可见,在根据各样本运单数据的运单号中的字符以及字符出现顺序,以预置的提取方法提取各样本运单数据的样本特征标记后,可以得到一个包括多个无重复的样本特征标记的集合,即可以将所提取到的样本特征标记组成一个特征空间。当从多个样本运单数据中提取样本特征标记,经过去重后,就可以得到将各样本运单数据的样本特征标记组成的特征空间。
以下结合具体的计算机程序示例,对根据各样本运单数据的运单号中的字符以及字符出现顺序,提取各样本运单数据的样本特征标记的实现进行详细说明。在本示例中,同时使用了二元文法Bi-gram方法,以及三元文法Tri-gram方法进行样本特征标记的提取,同时还提取了加入开始标记和结束标记的样本特征标记,以及加入了位置标记的样本特征标记。其中有如下定义:
输入:快递面单号,例如100365321372;
minNGramLeng,最小窗口长度,例如2;
maxNGramLeng,最大窗口长度,例如3;
输出:特征空间。
所使用的计算机程序示例代码如下:
以下为基于上述计算机程序示例,对几个模拟运单号进行样本特征标记提取得到的样本特征标记的列表,请参看表2:
表2
如表2所提取到的样本特征标记,经过去重后,可以组成由这些样本特征标记组成的特征空间。其中,含有“678”的运单号所提取的样本特征标记包括了1&3-67,67,1&4-678,678,2&4-78,78等,以“567”开头的运单号所提取的样本特征标记包括了B-56,0&2-56,56,B-567,0&3-567,567等,以“784”结尾的运单号所提取的样本特征标记包括了E-784,2&5-784,784,E-84,3&5-84,84等,可见,当特定物流商的使用的运单号的编码方式具有特定规律时,这些不同物流商对应的特定规律,可以通过所得到的特征空间中的一些样本特征标记体现出来,反过来,当通过对大量样本数据提取到的样本特征标记按照不同的物流商进行统计,获得其在统计学上的规律后,这种规律就可以用于对运单号的归属进行预测。
S103:将各样本运单数据对应物流商标识以及样本特征标记,输入到预置的分类学习机中,通过分类学习分别确定各物流商标识对应的所述特征空间中,各样本特征标记对应的权重系数;
样本空间,实质上是一组样本特征标记的集合,通俗的讲也可以视为一组样本特征标记的命名空间,对于每一条样本运单数据中提取的样本特征标记,都可以映射为样本空间的一个实例,例如通过表2中样本运单号的样本特征标记提取,可以提取到32个不重复的样本特征标记,这些样本特征标记可以组成一个样本空间,示例如下:
<S1,S2,S3,S4,S5,…,S31,S32>;
对于一条样本运单数据中提取的所有样本特征标记,通常是这个样本空间的一个子集,且通常是真子集,可以将这个子集映射到样本空间中,若该子集中存在与样本空间中相同的元素,则将对应位置为1,否则可以置为0,这样,可以将样本运单数据中提取的样本特征标记映射为一个32维的向量表示。
例如某样本运单数据中提取的所有样本特征标记映射到样本空间可以表示为:
<1,1,1,0,1,0,……,1,0,1>;
在将所有的样本运单数据的样本特征标记进行向量表示后,可以将各样本运单数据对应物流商标识以及样本特征标记,输入到预置的分类学习机中,如前所述,特定物流商的使用的运单号的编码方式具有特定规律,这种特定规律可以通过样本数据的样本特征标记的统计数据体现出来,例如对于某一物流商,其运单号通常以数字“56”开始,那么在对该物流商对应的运单号进行样本特征标记的统计时,必然会大量出现一些向量,其对应位置相应的数据为1。利用分类学习机,可以将这中规律量化,进而形成判断运单号归属的有效工具。
分类学习机的实现方式可以有多种,例如贝叶斯分类器,支持向量机等等,在本申请实施例提供的方法中,主要使用LBFG-QN拟牛顿算法实现的分类学习机,在实际应用中,也可以使用随机梯度下降,牛顿法,以及其他的拟牛顿算法实现。而LBFG-QN拟牛顿算法实现的分类学习机,具有内存占用小,实现简洁高效的特点,其预测结果也能满足运单号归属预测的精度需求,所以在本申请实施例提供的方法中,主要使用LBFG-QN拟牛顿算法实现的分类学习机。在应用该分类学习时,可以通过分类学习机的分类学习,分别确定各物流商标识对应的特征空间中,各样本特征标记对应的权重系数。例如表2的示例中,共有32个样本特征标记组成样本空间,同时,还包括SF和ZT两个物流商分类,通过LBFG-QN拟牛顿算法分类学习机的分类学习,可以得到各物流商标识对应的所述特征空间中,各样本特征标记对应的权重系数。其形式表示如下:
SF:<W1-1,W1-2,W1-3,W1-4,W1-5,…,W1-31,W1-32>;
ZT:<W2-1,W2-2,W2-3,W2-4,W2-5,…,W2-31,W2-32>;
其中,W为各物流商标识对应的所述特征空间中,各样本特征标记对应的权重系数,与样本空间中的样本特征标具有一一对应的关系。
S105:在需要对运单号归属进行识别时,根据待识别运单号的字符以及字符出现顺序,提取待识别运单号的特征标记;
通过分类学习机的分类学习,得到了各物流商标识对应的所述特征空间中,各样本特征标记对应的权重系数,接下来,在需要对运单号归属进行识别时,就可以根据待识别运单号的字符以及字符出现顺序,提取待识别运单号的特征标记。在提取待识别运单号的特征标记时,为了实现与样本空间中的样本特征标记的一致性,可以使用步骤S120中所述的预置的提取方法,如可以在待识别运单号的字符串中,依位次以预置窗口长度滚动截取的方式,提取待识别运单号的特征标记。在待识别运单号中提取的特征标记与前述样本空间中的样本特征标记具有对应关系,且通常为样本空间的真子集。例如样本空间表示为:
<S1,S2,S3,S4,S5,…,S31,S32>;
在某一待识别运单号中提取的特征标记可以表示为:
<T1,T2,T3,N/A,N/A,…,N/A,T32>;
其中,在该待识别运单号中提取的特征标记T1,T2,T3分别与样本空间中的样本特征标记S1,S2,S3对应,而N/A则表示对应的样本特征标记在该待识别运单号中并没有被提取到。
S105:根据所提取的待识别运单号的特征标记,匹配各物流商标识对应的所述特征空间中各样本特征标记对应的权重系数,根据所匹配到的各权重系数,确定待识别运单号的归属。
在根据待识别运单号的字符以及字符出现顺序,提取待识别运单号的特征标记后,可以根据在待识别运单号中提取的特征标记,匹配各物流商标识对应的特征空间中各样本特征标记对应的权重系数,根据所匹配到的各权重系数,确定待识别运单号的归属。例如前述的某一待识别运单号中提取的特征标记可以表示为:
<T1,T2,T3,N/A,N/A,…,N/A,T32>;
其中的特征标记与样本空间
<S1,S2,S3,S4,S5,…,S31,S32>;
中的样本特征标记存在对应关系。同时,待识别运单号中提取的特征标记,与经过步骤S140的分类学习,得到的各物流商标识对应的所述特征空间中,各样本特征标记对应的权重系数:
SF:<W1-1,W1-2,W1-3,W1-4,W1-5,…,W1-31,W1-32>;
ZT:<W2-1,W2-2,W2-3,W2-4,W2-5,…,W2-31,W2-32>;
同样存在对应关系,进而可以根据所提取的待识别运单号的特征标记,匹配各物流商标识对应的特征空间中各样本特征标记对应的权重系数,根据所匹配到的各权重系数,确定待识别运单号的归属。各物流商标识对应的特征空间中各样本特征标记对应的权重系数,反应的是物流商标识对应的特征空间中各样本特征标记的统计学规律,在进行统计时往往数据平滑性较差,为了提高数据的平滑性,通常在进行机器学习的过程中,或者在根据所匹配到的各权重系数确定待识别运单号的归属的过程中做一些处理,例如对各权重系数进行以10或者常数e为底的对数计算等。
在实际应用中,也可能出现待识别运单号的特征标记未匹配任何所述特征空间中各样本特征标记的情况,例如一些比较特殊的运单号,或者新近出现的运单号其规律并未在训练样本中出现过,对于这些运单号中提取的特征标记,可以将该标记的权重系数置为预置的非零值,例如0.5。此外,为了提高使用的便利性和识别效率,后台服务可以不比等待用户输入完整的待识别运单号,而是根据用户的输入字符串动态实时的进行识别,如可以根据用户实时输入字符串中字符以及字符出现顺序,动态提取待识别运单号的特征标记,进而根据所提取的待识别运单号的特征标记,匹配各物流商标识对应的特征空间中各样本特征标记对应的权重系数,根据所匹配到的各权重系数,动态地确定待识别运单号的归属,方便用户使用。
以上对运单号归属的识别方法进行了详细的介绍,通过该方法,可以根据各样本运单数据的运单号中的字符以及字符出现顺序,以预置的提取方法提取各样本运单数据的样本特征标记,将所提取到的样本特征标记组成特征空间;进而将各样本运单数据对应物流商标识以及样本特征标记,输入到预置的分类学习机中,通过分类学习分别确定各物流商标识对应的所述特征空间中,各样本特征标记对应的权重系数,各样本特征标记对应的权重系数,实际上反应了各样本特征标记的统计学规律,同时也从量化的角度准确的体现了不同物流商所使用运单号的客观规律,能够有效的运用于对运单号归属的预测,并且,分类学习的成本低,预测精度高。在需要对运单号归属进行识别时,根据待识别运单号的字符以及字符出现顺序,提取待识别运单号的特征标记;根据所提取的待识别运单号的特征标记,匹配各物流商标识对应的特征空间中各样本特征标记对应的权重系数,根据所匹配到的各权重系数,就可以确定待识别运单号的归属。该方法实现了一种自动化学习分类以及识别运单号归属,相比较现有技术,具有自动化程度高,预测准确,易于维护,更新及时等优势。
与本申请实施例提供的运单号归属的识别方法相对应,本申请实施例还提供了一种运单号归属的识别装置,如图2所示,该装置可以包括:
样本收集单元201,用于收集样本运单数据,样本运单数据中的条目包括运单号及其对应的物流商标识;
样本标记提取单元202,用于根据各样本运单数据的运单号中的字符以及字符出现顺序,提取各样本运单数据的样本特征标记,将所提取到的样本特征标记组成特征空间;
分类学习单元203,用于将各样本运单数据对应物流商标识以及样本特征标记,输入到预置的分类学习机中,通过分类学习分别确定各物流商标识对应的特征空间中,各样本特征标记对应的权重系数;
识别标记提取单元204,用于在需要对运单号归属进行识别时,根据待识别运单号的字符以及字符出现顺序,提取待识别运单号的特征标记;
运单号归属确定单元205,用于根据所提取的待识别运单号的特征标记,匹配各物流商标识对应的特征空间中各样本特征标记对应的权重系数,根据所匹配到的各权重系数,确定待识别运单号的归属。
其中,样本收集单元201可以包括:
原始数据收集单元,用于收集物流业务中的运单号以及对应的物流商标识作为原始运单数据;以及,
原始数据处理单元,用于对原始运单数据进行数据清洗和抽样后得到样本运单数据。
在另一种实现方式下,样本标记提取单元202可以包括:
样本标记提取子单元,用于在样本运单数据的字符串中,依位次以预置窗口长度滚动截取的方式,提取各样本运单数据的样本特征标记。
其中,样本标记提取子单元,具体用于:
根据各样本运单数据的运单号中的字符以及字符出现顺序,使用N元文法N-gram方法,提取各样本运单数据样本特征标记。
具体的,样本标记提取子单元可以用于:
使用二元文法Bi-gram方法,和/或三元文法Tri-gram方法,提取各样本运单数据的样本特征标记。
在另一种实现方式下,该运单号归属的识别装置还可以包括:
第一标记单元,用于对于样本运单数据字符串中开始字段和结束字段,在依位次以预置窗口长度滚动截取时,在对应的样本特征标记中分别加入开始标记和结束标记。
此外,该运单号归属的识别装置还可以包括:
第二标记单元,用于确定所截取字符串在样本运单数据中的位置,在依位次以预置窗口长度滚动截取时,在截取得到的样本特征标记中加入对应的位置标记。
另外,预置的分类学习机可以包括使用LBFG-QN拟牛顿算法实现的分类学习机。
为了处理待识别运单号提取到的特征空间中没有出现的标记,该运单号归属的识别装置还可以包括:
特殊标记处理单元,用于如果待识别运单号的特征标记未匹配任何特征空间中各样本特征标记,则将该标记的权重系数置为预置的非零值。
此外,识别标记提取单元204还可以包括:
识别标记提取子单元,用于根据用户实时输入字符串中字符以及字符出现顺序,动态提取待识别运单号的特征标记,以提高该装置的响应的实时性。
以上对运单号归属的识别装置进行了详细的介绍,通过该装置,可以根据各样本运单数据的运单号中的字符以及字符出现顺序,以预置的提取方法提取各样本运单数据的样本特征标记,将所提取到的样本特征标记组成特征空间;进而将各样本运单数据对应物流商标识以及样本特征标记,输入到预置的分类学习机中,通过分类学习分别确定各物流商标识对应的所述特征空间中,各样本特征标记对应的权重系数,各样本特征标记对应的权重系数,实际上反应了各样本特征标记的统计学规律,同时也从量化的角度准确的体现了不同物流商所使用运单号的客观规律,能够有效的运用于对运单号归属的预测。在需要对运单号归属进行识别时,根据待识别运单号的字符以及字符出现顺序,提取待识别运单号的特征标记;根据所提取的待识别运单号的特征标记,匹配各物流商标识对应的特征空间中各样本特征标记对应的权重系数,根据所匹配到的各权重系数,就可以确定待识别运单号的归属。该方法实现了一种自动化学习分类以及识别运单号归属,相比较现有技术,具有自动化程度高,预测准确,易于维护,更新及时的特点。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的运单号归属的识别方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (20)

1.一种运单号归属的识别方法,其特征在于,包括:
收集样本运单数据,所述样本运单数据中的条目包括运单号及其对应的物流商标识;
根据各样本运单数据的运单号中的字符以及字符出现顺序,提取各样本运单数据的样本特征标记,将所提取到的所述样本特征标记组成特征空间;
将各样本运单数据对应物流商标识以及样本特征标记,输入到预置的分类学习机中,通过分类学习分别确定各物流商标识对应的所述特征空间中,各样本特征标记对应的权重系数;
在需要对运单号归属进行识别时,根据待识别运单号的字符以及字符出现顺序,提取待识别运单号的特征标记;
根据所提取的待识别运单号的特征标记,匹配各物流商标识对应的所述特征空间中各样本特征标记对应的权重系数,根据所匹配到的各权重系数,确定待识别运单号的归属。
2.根据权利要求1所述的方法,其特征在于,所述收集样本运单数据,包括:
收集物流业务中的运单号以及对应的物流商标识作为原始运单数据;
对所述原始运单数据进行数据清洗和抽样后得到所述样本运单数据。
3.根据权利要求1所述的方法,其特征在于,所述根据各样本运单数据的运单号中的字符以及字符出现顺序,提取各样本运单数据的样本特征标记,包括:
在样本运单数据的字符串中,依位次以预置窗口长度滚动截取的方式,提取各样本运单数据的样本特征标记。
4.根据权利要求3所述的方法,其特征在于,所述在样本运单数据的字符串中,依位次以预置窗口长度滚动截取的方式,提取各样本运单数据的样本特征标记,包括:
根据各样本运单数据的运单号中的字符以及字符出现顺序,使用N元文法N-gram方法,提取各样本运单数据样本特征标记。
5.根据权利要求4所述的方法,其特征在于,所述使用N元文法N-gram方法,提取各样本运单数据样本特征标记,包括:
使用二元文法Bi-gram方法,和/或三元文法Tri-gram方法,提取各样本运单数据的样本特征标记。
6.根据权利要求3至5任一项所述的方法,其特征在于,还包括:
对于样本运单数据字符串中开始字段和结束字段,在依位次以预置窗口长度滚动截取时,在对应的样本特征标记中分别加入开始标记和结束标记。
7.根据权利要求3至5任一项所述的方法,其特征在于,还包括:
确定所截取字符串在样本运单数据中的位置,在依位次以预置窗口长度滚动截取时,在截取得到的样本特征标记中加入对应的位置标记。
8.根据权利要求1所述的方法,其特征在于,所述预置的分类学习机包括使用LBFG-QN拟牛顿算法实现的分类学习机。
9.根据权利要求1至5任一项所述的方法,其特征在于,还包括:
如果待识别运单号的特征标记未匹配任何所述特征空间中各样本特征标记,则将该标记的权重系数置为预置的非零值。
10.根据权利要求1至5任一项所述的方法,其特征在于,所述在需要对运单号归属进行识别时,根据待识别运单号的字符以及字符出现顺序,提取待识别运单号的特征标记,包括:
根据用户实时输入字符串中字符以及字符出现顺序,动态提取待识别运单号的特征标记。
11.一种运单号归属的识别装置,其特征在于,包括:
样本收集单元,用于收集样本运单数据,所述样本运单数据中的条目包括运单号及其对应的物流商标识;
样本标记提取单元,用于根据各样本运单数据的运单号中的字符以及字符出现顺序,提取各样本运单数据的样本特征标记,将所提取到的所述样本特征标记组成特征空间;
分类学习单元,用于将各样本运单数据对应物流商标识以及样本特征标记,输入到预置的分类学习机中,通过分类学习分别确定各物流商标识对应的所述特征空间中,各样本特征标记对应的权重系数;
识别标记提取单元,用于在需要对运单号归属进行识别时,根据待识别运单号的字符以及字符出现顺序,提取待识别运单号的特征标记;
运单号归属确定单元,用于根据所提取的待识别运单号的特征标记,匹配各物流商标识对应的所述特征空间中各样本特征标记对应的权重系数,根据所匹配到的各权重系数,确定待识别运单号的归属。
12.根据权利要求11所述的装置,其特征在于,所述样本收集单元,包括:
原始数据收集单元,用于收集物流业务中的运单号以及对应的物流商标识作为原始运单数据;
原始数据处理单元,用于对所述原始运单数据进行数据清洗和抽样后得到所述样本运单数据。
13.根据权利要求11所述的装置,其特征在于,所述样本标记提取单元,包括:
样本标记提取子单元,用于在样本运单数据的字符串中,依位次以预置窗口长度滚动截取的方式,提取各样本运单数据的样本特征标记。
14.根据权利要求13所述的装置,其特征在于,所述样本标记提取子单元,具体用于:
根据各样本运单数据的运单号中的字符以及字符出现顺序,使用N元文法N-gram方法,提取各样本运单数据样本特征标记。
15.根据权利要求14所述的装置,其特征在于,所述样本标记提取子单元,具体用于:
使用二元文法Bi-gram方法,和/或三元文法Tri-gram方法,提取各样本运单数据的样本特征标记。
16.根据权利要求13至15任一项所述的装置,其特征在于,还包括:
第一标记单元,用于对于样本运单数据字符串中开始字段和结束字段,在依位次以预置窗口长度滚动截取时,在对应的样本特征标记中分别加入开始标记和结束标记。
17.根据权利要求13至15任一项所述的装置,其特征在于,还包括:
第二标记单元,用于确定所截取字符串在样本运单数据中的位置,在依位次以预置窗口长度滚动截取时,在截取得到的样本特征标记中加入对应的位置标记。
18.根据权利要求11所述的装置,其特征在于,所述预置的分类学习机包括使用LBFG-QN拟牛顿算法实现的分类学习机。
19.根据权利要求11至15任一项所述的装置,其特征在于,还包括:
特殊标记处理单元,用于如果待识别运单号的特征标记未匹配任何所述特征空间中各样本特征标记,则将该标记的权重系数置为预置的非零值。
20.根据权利要求11至15任一项所述的装置,其特征在于,所述识别标记提取单元,包括:
识别标记提取子单元,用于根据用户实时输入字符串中字符以及字符出现顺序,动态提取待识别运单号的特征标记。
CN201510882629.8A 2015-12-03 2015-12-03 运单号归属的识别方法及装置 Active CN106845880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510882629.8A CN106845880B (zh) 2015-12-03 2015-12-03 运单号归属的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510882629.8A CN106845880B (zh) 2015-12-03 2015-12-03 运单号归属的识别方法及装置

Publications (2)

Publication Number Publication Date
CN106845880A true CN106845880A (zh) 2017-06-13
CN106845880B CN106845880B (zh) 2020-10-30

Family

ID=59149760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510882629.8A Active CN106845880B (zh) 2015-12-03 2015-12-03 运单号归属的识别方法及装置

Country Status (1)

Country Link
CN (1) CN106845880B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861328A (zh) * 2020-07-21 2020-10-30 上海寻梦信息技术有限公司 建立物流识别库的方法、物流轨迹查询更新方法及设备
CN111861292A (zh) * 2019-04-25 2020-10-30 北京京东尚科信息技术有限公司 运单号生成方法、装置、服务器和存储介质
CN111881795A (zh) * 2020-07-20 2020-11-03 上海东普信息科技有限公司 运单号识别方法及装置
CN113449760A (zh) * 2020-03-27 2021-09-28 北京沃东天骏信息技术有限公司 一种字符识别方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7337411B1 (en) * 2003-03-31 2008-02-26 Unisys Corporation Logistics management system having user interface with tiered data entry
CN102419843A (zh) * 2012-01-09 2012-04-18 陈东平 一种国际物流信息跟踪方法及其系统
KR20130029311A (ko) * 2011-09-14 2013-03-22 종 진 임 개인정보 보호를 위한 운송장 인쇄 방법 및 그 방법을 수행하는 장치
CN103455621A (zh) * 2013-09-12 2013-12-18 金蝶软件(中国)有限公司 一种物流运单号的解析方法、装置和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7337411B1 (en) * 2003-03-31 2008-02-26 Unisys Corporation Logistics management system having user interface with tiered data entry
KR20130029311A (ko) * 2011-09-14 2013-03-22 종 진 임 개인정보 보호를 위한 운송장 인쇄 방법 및 그 방법을 수행하는 장치
CN102419843A (zh) * 2012-01-09 2012-04-18 陈东平 一种国际物流信息跟踪方法及其系统
CN103455621A (zh) * 2013-09-12 2013-12-18 金蝶软件(中国)有限公司 一种物流运单号的解析方法、装置和系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861292A (zh) * 2019-04-25 2020-10-30 北京京东尚科信息技术有限公司 运单号生成方法、装置、服务器和存储介质
CN113449760A (zh) * 2020-03-27 2021-09-28 北京沃东天骏信息技术有限公司 一种字符识别方法和装置
CN111881795A (zh) * 2020-07-20 2020-11-03 上海东普信息科技有限公司 运单号识别方法及装置
CN111881795B (zh) * 2020-07-20 2022-06-21 上海东普信息科技有限公司 运单号识别方法及装置
CN111861328A (zh) * 2020-07-21 2020-10-30 上海寻梦信息技术有限公司 建立物流识别库的方法、物流轨迹查询更新方法及设备

Also Published As

Publication number Publication date
CN106845880B (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN106651057B (zh) 一种基于安装包序列表的移动端用户年龄预测方法
CN106651232B (zh) 运单号数据分析方法及装置
CN107704512B (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN109558541B (zh) 一种信息处理的方法、装置及计算机存储介质
CN106845880A (zh) 运单号归属的识别方法及装置
CN106844407B (zh) 基于数据集相关性的标签网络产生方法和系统
CN105550227B (zh) 一种命名实体识别方法及装置
CN105335496A (zh) 基于余弦相似度文本挖掘算法的客服重复来电处理方法
CN107291755B (zh) 一种终端推送方法及装置
CN104978354B (zh) 文本分类方法和装置
CN110347791B (zh) 一种基于多标签分类卷积神经网络的题目推荐方法
CN109389321A (zh) 一种价格评估方法及装置
CN112528315A (zh) 识别敏感数据的方法和装置
CN110705281B (zh) 一种基于机器学习的简历信息抽取方法
CN113360768A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN104077288B (zh) 网页内容推荐方法和网页内容推荐设备
CN110287495A (zh) 一种电力营销专业词识别方法及系统
CN108764995A (zh) 一种数据价值确定系统和方法
CN108073567A (zh) 一种特征词提取处理方法、系统及服务器
CN108460049A (zh) 一种确定信息类别的方法和系统
CN107944589A (zh) 广告点击率的预测方法和预测装置
CN115759014A (zh) 一种动态智能化分析方法、系统及电子设备
CN108763258A (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN111191049B (zh) 信息推送方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1237511

Country of ref document: HK

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180411

Address after: Four story 847 mailbox of the capital mansion of Cayman Islands, Cayman Islands, Cayman

Applicant after: CAINIAO SMART LOGISTICS HOLDING Ltd.

Address before: Cayman Islands Grand Cayman capital building a four storey No. 847 mailbox

Applicant before: ALIBABA GROUP HOLDING Ltd.

GR01 Patent grant
GR01 Patent grant