CN110427365A

CN110427365A - 提高合单准确性的地址合并方法及系统

Info

Publication number: CN110427365A
Application number: CN201910553367.9A
Authority: CN
Inventors: 赵兴
Original assignee: New Tech Co Ltd
Current assignee: New Tech Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-11-08

Abstract

本发明提供了一种提高合单准确性的地址合并方法及系统。所述方法通过提取海量地址中的关键词信息，并根据关键词类别分类以形成若干层级关键词地址子库，将待识别第一地址、第二地址按照所述关键词地址子库分别划分成若干层级关键词字段，并计算所述第二地址和第一地址间所有层级关键词字段编辑距离的总和，进而将编辑距离的总和小于预设阈值的不同地址进行合并。这样，通过建立若干层级地址关键词子库，并将待处理地址按照各层级地址关键词子库进行划分，计算出两者间的编辑距离，继而判断是否可以合并，从而可以帮助物流公司更加精准地刻画是否可以合单，解决了派送地址是否为同一个的问题，降低了用工成本，保证了绩效计算的合理性和准确性。

Description

提高合单准确性的地址合并方法及系统

技术领域

本发明实施例涉及信息技术领域，具体涉及一种提高合单准确性的地址合并方法及系统。

背景技术

作为劳动密集型产业，绩效计提对整个物流公司的发展至关重要。如果绩效计算的太少，导致员工收入少，就会给公司的人才储备和物流服务质量带来问题；如果绩效计算的太多，会造成物流公司的成本过高，导致公司发展缓慢甚至无以为继。因而，合理而又公平的绩效计算对一个公司的发展至关重要。

物流行业当中在派件过程中的计费方式往往是通过派件数量与派件重量来计算绩效的。一般来说，派送每件快递都会产生一个基本绩效提成费用；如果货物超过一定重量，绩效费用会相应增加，用以补偿快递员在送货当中所遇到和面临的困难。

在计算绩效时，如果派送的多单，其派送地址是同一个，则会将这几单进行合单，视为一单，以进行计算绩效。而实际当中，因为派送地址书写的不规范，往往造成了提成费用在一定程度的失真。不同的寄件人在邮寄同一个地址的时候，由于个人书写偏好，往往造成地址在一定程度上的差异。比如收件方是“深圳市人民政府”，其地址可以是“深圳市福田区福中三路市民中心C区”，也可以写成“深圳市福田区市民中心C区”，甚至可以简化为“深圳市市民中心C区”。这几种地址书写方式快递员都可以完成快递的妥投；不过这三个地方的收件单位是一样的，收件地址理论上也是相同，派送员到达的只有一个地点，因而在计算绩效的时候应该作为一个地址来计算，而不是作为多单来计算。这样可以有效地描述派单难度，让绩效更加真实地反映派件的劳动强度。而现状是因为无法对地址进行智能解析，这些单将会被分为多单计算计提，造成了公司成本的上升。

发明内容

鉴于上述问题，本发明提供了一种提高合单准确性的地址合并方法及系统，克服了上述问题或者至少部分地解决了上述问题。

根据本发明实施例的一个方面，提供了一种提高合单准确性的地址合并方法，包括：

建立关键词地址库，所述关键词地址库包括，通过提取海量地址中的关键词信息，并根据关键词类别分类以形成的若干层级关键词地址子库；

将待识别的第一地址、第二地址按照所述关键词地址子库分别划分成若干层级关键词字段；

计算所述第二地址和第一地址间各对应层级的关键词字段的编辑距离；

计算所述第二地址和第一地址间所有层级关键词字段编辑距离的总和；

若所述编辑距离的总和小于预设阈值，则将所述第二地址和第一地址进行合并。

优选的，所述计算所述第一地址和第二地址间所有层级关键词字段编辑距离的总和包括：

获取各层级关键词地址子库预设权重，从而相应得到所述第一地址和第二地址中各层级关键词字段的权重；

第二地址和第一地址间各对应层级的关键词字段的编辑距离与对应各层级关键词字段的权重先相乘，再依次相加求和。

优选的，所述各层级关键词地址子库预设权重，按照各层级关键词地址子库表现出的地址范围由大到小，权重依次设置为由小到大。

优选的，所述第一地址为待识别地址中出现频率最高的地址，将第一地址设置为标杆地址；所述第二地址为待识别地址中除所述第一地址之外的地址。

根据本发明实施例的另一方面，提供了一种提高合单准确性的地址合并系统，所述系统包括：

地址库模块，用于建立关键词地址库，所述关键词地址库包括，通过提取海量地址中的关键词信息，并根据关键词类别分类以形成的若干层级关键词地址子库；

地址分级模块，用于将待识别的第一地址、第二地址按照所述关键词地址子库分别划分成若干层级关键词字段；

计算模块，用于计算所述第二地址和第一地址间各对应层级的关键词字段的编辑距离，并计算所述第二地址和第一地址间所有层级关键词字段编辑距离的总和；

判断模块，用于判断所述编辑距离的总和是否小于预设阈值；

地址合并模块，用于当所述编辑距离的总和小于预设阈值时，将所述第二地址和第一地址进行合并。

优选的，所述计算模块包括：

权重获取单元，用于获取各层级关键词地址子库预设权重，从而相应得到所述第一地址和第二地址中各层级关键词字段的权重；

编辑距离总和计算单元，用于将第二地址和第一地址间各对应层级的关键词字段的编辑距离与对应各层级关键词字段的权重先相乘，再依次相加求和。

优选的，所述计算模块还包括权重预设单元，用于预设所述各层级关键词地址子库的权重，并按照各层级关键词地址子库表现出的地址范围由大到小，权重依次设置为由小到大。

优选的，所述地址库模块还用于将待识别地址中出现频率最高的地址作为第一地址，并将第一地址设置为标杆地址，以及将待识别地址中除所述第一地址之外的地址作为第二地址。

本发明提供了一种提高合单准确性的地址合并方法及系统，通过建立若干层级地址关键词子库，并将待处理地址按照各层级地址关键词子库进行划分，计算出两者间的编辑距离，继而判断是否可以合并，从而可以帮助物流公司更加精准地刻画是否可以合单，解决了派送地址是否为同一个的问题，降低了用工成本，保证了绩效计算的合理性和准确性。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明地址合并方法的流程图；

图2示出了本发明中编辑距离的总和的计算流程图；

图3示出了本发明地址合并系统的结构示意图；

图4示出了图3中计算模块实施例的结构示意图；

图5示出了图3中计算模块另一实施例的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1展示了本发明一种提高合单准确性的地址合并方法的实施例的流程图。在本实施例中，如图1所示，该提高合单准确性的地址合并方法包括以下步骤：

步骤S1，建立关键词地址库，所述关键词地址库包括，通过提取海量地址中的关键词信息，并根据关键词类别分类以形成的若干层级关键词地址子库。

不同于业界常见的对地址按照三级或四级行政规划进行划分，本技术方案在建立关键词地址子库时，将行政区划关键词划分为属于同一层级，如关键词“广东”、“深圳”、“宝安”划分为同一层级；然后，根据实际业务需要，将重要性相似、易混淆的关键词划分为到同一层级，如“大厦”与“大楼”，“工业区”与“工业园”。

以下举例具体进行说明，通过对地址进行解读，并对地址关键词进行提取和分类，可形成不同层级的关键词地址子库，本示例为7个层级地址子库，具体为：

(1)省|市|区|镇；

(2)街道|街|大道|路|巷|辅道XX号|社区；

(3)大厦|大楼|写字楼|工业园|物流园|工业区|工业城|产业园|生态园|开发区|园区|仓库|仓储|厂房|馆、村|花园|酒店|公寓|小区；

(4)机场|火车站|大学|高中|小学|幼儿园|局|医院|客运站|公交站|公司；

(5)号楼|栋|幢|座；

(6)楼/层；

(7)号|室|房|单元|铺。

依照上述原则，关键词地址字库建立后，根据实际业务情况，还可以对每一层级的关键词进行增减调整，具体为

(1)将实际业务中不存在的关键词放至同一层级，如任何一个公司在一个城市的派送地址中包含的关键词不会同时包括“大学”和“校园”，则这样的两个关键词可以被放至到同一级；

(2)将原属于同一层级的关键词，调整为区分到两个层级中。以上面7级地址子库为例，若新增件一个客户公司，其有两个不同的派件地址，分别包括“深圳大学”和“深圳医院”，那么由于“大学”和“医院”都属于第4级，第1级关键词又都是“深圳”，这种划分方法将导致两个不同的地址在该级别被认定相同，如果其他级别也无法区分这两个地址，那么就会造成错误合单，如果有这种实例，那么第4级中的“大学”和“医院”需要被拆分成两级以区分。

步骤S2，将待识别的第一地址、第二地址按照所述关键词地址子库分别划分成若干层级关键词字段。

本方案中待识别的地址为派件地址，依据上述7级关键词地址子库的示例，举例说明将待识别第一地址和第二地址按照所述关键词地址子库分别划分成7个层级关键词字段，具体为：

将“广东省深圳市宝安区福园一路天瑞工业园A6栋6楼”作为第一地址，所述第一地址按照所述关键词地址子库进行层级关键词字段切分，具体如下：

-(1)广东，深圳，宝安；

-(2)福园一；

-(3)天瑞；

-(4)(空)；

-(5)A6；

-(6)6；

-(7)(空)。

将“广东省深圳市宝安区福永福园一路天瑞工业区A6栋6楼”作为第二地址，所述第二地址按照所述关键词地址子库进行层级关键词字段切分，具体如下：

-(1)广东，深圳，宝安；

-(2)福永福园一；

-(3)天瑞；

-(4)(空)；

-(5)A6；

-(6)6；

-(7)(空)。

以上，当地址所对应层级的关键词字段存在空缺，可以标注为空。

步骤S3，计算所述第二地址和第一地址间各对应层级的关键词字段的编辑距离。

具体的，在前述示例中，所述第二地址和第一地址中的第一个层级关键词字段都为“广东，深圳，宝安”，则第二地址和第一地址的第一层级关键词字段的编辑距离为0；所述第二地址中第二个层级关键词字段“福永福园一”需要变动最少两个字符才能成为所述第一地址中第二层级关键词字段“福园一”，所以第二地址和第一地址的第二层级关键词字段的编辑距离为2；同理，其他层级关键词字段的编辑距离均为0。具体如下表1：

表1编辑距离

层级	第二地址	第一地址	编辑距离
				1	广东，深圳，宝安	广东，深圳，宝安	0
2	福永福园一	福园一	2
				3	天瑞	天瑞	0
4	(空)	(空)	0
				5	A6	A6	0
6	6	6	0
				7	(空)	(空)	0

步骤S4，计算所述第二地址和第一地址间所有层级关键词字段编辑距离的总和。

将第二地址和第一地址间所有层级关键词字段编辑距离进行相加，即得到编辑距离的总和。

进一步的，对各层级关键词地址字库设置权重，相应的，两个地址间所有层级关键词字段编辑距离总的计算发生变化。

具体的，请参考图2，所述计算所述第一地址和第二地址间所有层级关键词字段编辑距离的总和包括：

步骤41，获取各层级关键词地址子库预设权重，从而相应得到所述第一地址和第二地址中各层级关键词字段的权重；

其中，各层级关键词地址子库预设权重，按照各层级关键词地址子库表现出的地址范围由大到小，权重依次设置为由小到大。权重的设置，将不同层级关键词字段的变化对结果的影响加以区分。本实施例中，按照“大范围地址设置较小的权重，小范围的地址设置较大的权重”的匹配原则，对各层级关键词设置相应权重。在依照此原则基础上，各层级关键词具体权重值的分配根据实际业务需要进行设定。

两个地址间编辑距离的大小，决定了地址是否能合并，具体到本方案中，会影响到判断两个派件地址是否相同，是否可进行合单。由于派件过程一般不会跨省以及跨市，同时员工的派送区域都是固定的，所以同一个员工的派件地址中包含的大范围地址信息“省、市、区以及镇”可能都是不变的，对两个地址是否能合并的结果影响较低；而派送地址中包含的小范围地址信息“大厦、小区以及楼号”等是否相同，却对两个地址是否能合并的结果影响较高，因此，按照“大范围地址设置较小的权重，小范围的地址设置较大的权重”，为各级关键词地址子库设置权重，有效区分了各级关键词对地址合并结果的影响力，从而使得对地址合并的判断更加准确。

步骤42，第二地址和第一地址间各对应层级的关键词字段的编辑距离与对应各层级关键词字段的权重先相乘，再依次相加求和。

其中，本实施例为保证地址合并的准确性，将采用编辑距离和权重两个因素进行综合计算。

具体的，编辑距离的总和的计算公式为：

w＝b₁*p₁+b₂*p₂+.......+b_n*p_n，

所述w为编辑距离的总和，所述b₁、b₂、….b_n分别为第二地址和第一地址中第一层级至第n层级的关键词字段间的编辑距离，所述p₁、p₂、….p_n为第一层级至第n层级关键词字段的权重。

为了表达准确，延续之前示例再次进行说明，所述示例采用七个地址层级，该七个地址层级的编辑距离和权重请参见表2。其中，所述编辑距离是通过计算得到，所述权重值是根据业务需要进行设定。

表2编辑距离与权重

根据编辑距离的总和的计算公式以及表1中数据，可以得到示例中编辑距离的总和为：w₀＝0×1+2×2+0×3+0×4+0×10+0×20+0×40＝4。

步骤S5，判断所述编辑距离的总和是否小于预设阈值。

其中，所述阈值为判断是否可以合并地址的标准，阈值的设定是通过众多历史地址数据不断的计算并调节试错，最终根据历史地址数据的合并结果进行判断，直到得到满意的结果，具有很强的稳定性，当所述编辑距离的总和小于预设阈值时，则执行步骤S6。

具体的，根据之前示例的情况，将阈值设为18，即编辑距离的总和在18之上的地址将不可以合并，而编辑距离的总和在18及以下的地址将可以合并。根据这个阈值可以判断，所述示例中的第二地址和第一地址为可以合并的地址。

步骤S6，将所述第二地址和所述第一地址合并。

当两个派件地址经计算可以合并，则表示该派件地址对应的两个派单可以按照一个派单进行计算，从而为实现对派送员的派送绩效进行准确计提提供有效的数据计算基础。

在实际的业务场景中，会对多个地址进行识别合并计算，以判断当中有多少个地址进行合并。针对存在多个地址时，可以采取以下合并计算方式：在一种实施例中，第一地址为待识别地址中出现频率最高的地址，则将第一地址设置为标杆地址；第二地址为待识别地址中除第一地址之外的地址。第一地址之外的地址均与标杆地址，也即第一地址分别进行合并计算，即执行步骤S2-S6；经过合并计算后，在剩下的无法与第一地址合并的地址中，再选出出现频率相对较高的地址设置为第一地址，同时该第一地址为新的标杆地址，其余地址为第二地址，然后执行步骤S2-S6；依此规则，直至剩余无法合并地址的数量为2，则多地址合并计算结束。

例如，某物流公司的某员工在2019年5月份共派送了11个地址，所以在计算该员工的绩效时，首先判断这11个待处理的地址是否可以合并，根据历史地址数据，从11个待处理地址中将出现频率最高的一个地址作为第一地址，该第一地址作为标杆地址，其余10个地址作为第二地址，将第二地址中的10个地址依次与标杆地址进行比对，即执行步骤S2-S6；经过合并计算，如果第二地址中有6个地址可以合并，4个地址不可合并，那么针对这4个不可合并的地址，再次进行第一地址和第二地址的选定，然后执行步骤S2-S6进行合并计算；如此，直到发现第二地址的数量为1并且与第一地址不可合并，即此时剩余2个无法合并的地址，则多地址合并计算到此结束。

本发明的提高合单准确性的地址合并方法，通过建立若干层级地址关键词子库，并将待处理地址按照各层级地址关键词子库进行划分，计算出两者间的编辑距离，继而判断是否可以合并，从而可以帮助物流公司更加精准地刻画是否可以合单，解决了派送地址是否为同一个的问题，降低了用工成本，保证了绩效计算的合理性和准确性。

根据本发明实施例的另一方面，提供了一种提高合单准确性的地址合并系统，请参考图3，所述系统包括地址库模块11、地址分级模块12、计算模块13、判断模块14以及地址合并模块15。

其中，所述地址库模块11，用于建立关键词地址库，所述关键词地址库包括，通过提取海量地址中的关键词信息，并根据关键词类别分类以形成的若干层级关键词地址子库；所述地址分级模块12，用于将待识别的第一地址、第二地址按照所述关键词地址子库分别划分成若干层级关键词字段；所述计算模块13，用于计算所述第二地址和第一地址间各对应层级的关键词字段的编辑距离，并计算所述第二地址和第一地址间所有层级关键词字段编辑距离的总和；所述判断模块14，用于判断所述编辑距离的总和是否小于预设阈值；所述地址合并模块，用于当所述编辑距离的总和小于预设阈值时，将所述第二地址和第一地址进行合并。

进一步的，请参考图4，所述计算模块13包括权重获取单元132和编辑距离总和计算单元133。其中，所述权重获取单元132，用于获取各层级关键词地址子库预设权重，从而相应得到所述第一地址和第二地址中各层级关键词字段的权重；所述编辑距离总和计算单元133，用于将第二地址和第一地址间各对应层级的关键词字段的编辑距离与对应各层级关键词字段的权重先相乘，再依次相加求和。

进一步的，请参考图5，所述计算模块13还包括权重预设单元131，用于预设所述各层级关键词地址子库的权重，并按照各层级关键词地址子库表现出的地址范围由大到小，权重依次设置为由小到大。

优选的，所述地址库模块13还用于将待识别地址中出现频率最高的地址作为第一地址，并将第一地址设置为标杆地址，以及将待识别地址中除所述第一地址之外的地址作为第二地址。

关于上述实施例地址合并系统中各模块实现技术方案的其他细节，可参见上述实施例中的地址合并的方法中的描述，此处不再赘述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对发明的具体实施方式进行了详细说明，但其只作为范例，本发明并不限制于以上描述的具体实施方式。对于本领域的技术人员而言，任何对该发明进行的等同修改或替代也都在本发明的范畴之中，因此，在不脱离本发明的精神和原则范围下所作的均等变换和修改、改进等，都应涵盖在本发明的范围内。

Claims

1.一种提高合单准确性的地址合并方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述计算所述第一地址和第二地址间所有层级关键词字段编辑距离的总和包括：

3.根据权利要求2所述的方法，其特征在于，所述各层级关键词地址子库预设权重，按照各层级关键词地址子库表现出的地址范围由大到小，权重依次设置为由小到大。

4.根据权利要求1所述的方法，其特征在于，所述第一地址为待识别地址中出现频率最高的地址，将第一地址设置为标杆地址；所述第二地址为待识别地址中除所述第一地址之外的地址。

5.一种提高合单准确性的地址合并系统，其特征在于，所述系统包括：

6.根据权利要求5所述的系统，其特征在于，所述计算模块包括：

7.根据权利要求6所述的系统，其特征在于，所述计算模块还包括权重预设单元，用于预设所述各层级关键词地址子库的权重，并按照各层级关键词地址子库表现出的地址范围由大到小，权重依次设置为由小到大。

8.根据权利要求7所述的系统，其特征在于，所述地址库模块还用于将待识别地址中出现频率最高的地址作为第一地址，并将第一地址设置为标杆地址，以及将待识别地址中除所述第一地址之外的地址作为第二地址。