CN111401051B

CN111401051B - 快递信息解析方法及系统

Info

Publication number: CN111401051B
Application number: CN202010268803.0A
Authority: CN
Inventors: 龚毅; 徐春军; 车朋朋
Original assignee: Dongpu Software Co Ltd
Current assignee: Dongpu Software Co Ltd
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2023-07-28
Anticipated expiration: 2040-04-08
Also published as: CN111401051A

Abstract

本申请公开了快递信息解析方法及系统、快递信息解析设备、计算机可读存储介质，该方法包括：获取包含寄件人信息或者收件人信息的文本信息；通过正则表达式辨识所述文本信息中的联系电话；判断所述联系电话是否位于中间位置；若所述联系电话位于中间位置，则根据所述联系电话将所述文本信息截断为三部分，所述联系电话及其之前、之后各为一部分，将联系电话以外的两部分中较短的部分作为姓名，较长的部分作为联系地址。用户提供的文字不再需要遵循固定的顺序并严格按照指定的分隔符间隔，只要联系电话位于文本信息的中间位置，就能精确识别姓名和地址，操作环境对用户更加友好，大大改善用户的操作体验并提高效率。

Description

快递信息解析方法及系统

技术领域

本申请涉及数据处理技术领域，尤其涉及快递信息解析方法及系统、快递信息解析设备、计算机可读存储介质。

背景技术

物流是物品从供应地向接收地的流动过程中，根据实际需要，将运输、储存、装卸、搬运、包装、流通加工、配送、信息处理等功能有机结合起来实现用户要求的过程。互联网的发展使得网络购物成为人们生活的一部分，例如快递、外卖、跑腿、到家等配送上门的服务更是使人可以足不出户而享受到各种便利。

用户在线寄件的时候需要填写收寄件地址，通常是采用表单填写的方式完成录入，该方式信息准确性高但用户需要操作的步骤多且不够灵活。例如好友通过微信等工具将收件地址发给用户时，表单填写方式则需要用户一边看微信文字一边填写表单，因此导致填写方式不够友好且效率低下。

一个完整的收寄件(快递)地址信息包括人名、地址和电话。现有技术已经能够实现简单的快递地址信息解析功能，形式上为一个大的文字输入区域，用户将地址文字剪切填入文本框，经服务端解析后会自动填入地址表单，它要求用户提供的文字要遵循固定的顺序并严格按照指定的分隔符间隔，从而使用户填写的信息能够被正确识别，但这增加了用户整理文字的操作，对用户非常不友好，而若用户忽略了要求(例如，人名、地址和电话未按照规定的顺序填写，或者将地址进行了简写等)，则最终解析得到的结果也将偏差巨大，从而不得不进行手工重新录入，造成用户体验较差。因此，如何在对用户更加友好的录入环境下，准确地从用户提供的信息中识别人名、地址和电话等收寄件所需的信息，成为亟待解决的问题。

发明内容

本申请的目的在于提供快递信息解析方法及系统、快递信息解析设备、计算机可读存储介质，解决现有技术的不足，用户提供的文字不再需要遵循固定的顺序并严格按照指定的分隔符间隔，只要联系电话位于文本信息的中间位置，就能精确识别姓名和地址，解决了快递信息的录入方式效率低以及对用户不友好的问题。

本申请的目的采用以下技术方案实现：

第一方面，本申请提供了一种快递信息解析方法，所述方法包括：

获取包含寄件人信息或者收件人信息的文本信息；

通过正则表达式辨识所述文本信息中的联系电话；

判断所述联系电话是否位于中间位置；若所述联系电话位于中间位置，则根据所述联系电话将所述文本信息截断为三部分，其中所述联系电话为第二部分，所述联系电话之前的部分为第一部分，所述联系电话之后的部分为第三部分，将所述第一部分和所述第三部分中较短的部分作为姓名，将所述第一部分和所述第三部分中较长的部分作为联系地址。

用户提供的文字不再需要遵循固定的顺序并严格按照指定的分隔符间隔，只要联系电话位于文本信息的中间位置，就能精确识别姓名和地址，由此在对用户更加友好的录入环境下，准确地从用户提供的信息中识别人名、地址和电话等收寄件所需的信息，用户只需要确认或做微调即可完成下单，大大改善用户的操作体验并提高效率。

可选地，所述通过正则表达式辨识所述文本信息中的联系电话，包括：

通过第一正则表达式辨识所述文本信息中是否存在手机号码；

若存在手机号码，则将辨识到的手机号码作为所述联系电话；

若不存在手机号码，则通过第二正则表达式辨识所述文本信息中是否存在座机号码；若存在座机号码，则将辨识到的座机号码作为所述联系电话。

由于当前移动电话的普及，用户填写手机号码作为联系电话的可能性远远大于座机号码，因此可以首先判断文本信息中的联系电话是手机号码，若不存在手机号码再考虑座机号码，由此提高对联系电话的辨识效率。

可选地，所述第一正则表达式是/^[1][3,4,5,7,8][0-9]{9}$/。

由于当前各大运营商开放的号段集中在13、14、15、17、18打头的手机号码，因此通过该正则表达式识别手机号码的方法方便准确，提高了初始手机号码获取效率，以便后续对该初始手机号码进行进一步地处理。

可选地，所述方法还包括：

若所述联系电话不位于中间位置，则从所述文本信息中扣除所述联系电话，并将扣除所述联系电话的所述文本信息记为第一文本信息；通过省级行政区码表辨识所述第一文本信息中的省级行政区，并判断所述省级行政区是否位于开头位置；

若位于开头位置，则通过姓氏码表辨识所述第一文本信息中的姓氏；根据所述姓氏将所述第一文本信息截断为两部分；将较短的部分作为所述姓名，将较长的部分作为所述联系地址，或者，将所述姓氏之前的部分作为所述联系地址，将所述姓氏及所述姓氏之后的部分作为所述姓名；

若不位于开头位置，则根据所述省级行政区将所述第一文本信息截断为两部分；将较短的部分作为所述姓名，将较长的部分作为所述联系地址，或者，将所述省级行政区之前的部分作为所述姓名，将所述省级行政区及所述省级行政区之后的部分作为所述联系地址。

当用户提供的文字中联系电话不处于中间位置时，分别考虑省级行政区位于姓名前、省级行政区位于姓名后的情况，当省级行政区位于姓名后时可以通过省级行政区的位置直接确定姓名部分和联系地址部分，当省级行政区位于姓名前时则利用姓氏码表辨识姓氏，利用姓氏确定联系地址部分和姓名部分，因此，用户提供的文字中姓名、地址、电话将不再要求任何顺序，无论三者之间如何排序都能够精准识别文字信息中的姓名、地址、电话，使录入环境更加友好，进一步改善用户的操作体验。

可选地，所述通过姓氏码表辨识所述第一文本信息中的姓氏，包括：

通过长姓码表辨识所述第一文本信息中是否存在长姓；

若存在长姓，则将辨识到的长姓作为所述姓氏；

若不存在长姓，则通过百家姓码表辨识所述第一文本信息的最后三位字符中是否存在百家姓；若存在，则将辨识到的百家姓作为所述姓氏；若不存在，则通过百家姓码表辨识所述第一文本信息的最后四位字符中是否存在百家姓，若存在，则将辨识到的百家姓作为所述姓氏。

姓氏码表包括长姓码表和百家姓码表，长姓码表中的姓氏数量较少，当文本信息中的姓氏是百家姓时，即使先采用长姓码表对文本信息中的姓氏进行比对，也不会耗费太多时间；反过来说，当文本信息中的形式是长姓时，如果先采用百家姓码表进行比对，则需要将百家姓码表遍历一遍，运算量大大增加。因此优先采用长姓码表进行比对，若不存在长姓再采用百家姓码表对文本信息中的姓氏进行比对，提高姓氏的辨识效率，减少运算资源的浪费。

可选地，在辨识到可作为姓氏的第一字符后，判断所述文本信息中是否存在包含所述第一字符且作为地址的字符段；若不存在，则辨识所述第一字符是所述姓氏。

为了防止将联系地址中的字符误当做姓氏，因此可以采取地址优选的策略，即某一字符不用于地址时，才作为姓氏，例如“海”字，当字符串中未出现“上海”、“青海”、“海南”等作为地址的字符段时，才辨识其为姓氏，由此，通过省级行政区码表辨识联系地址，以及通过姓氏码表辨识姓氏，两者相互配合使用，相互验证，提高文本信息中姓名、地址识别的准确性。

可选地，所述方法还包括：

对经过辨识的所述文本信息进行切割，并从中抽取出包含所述姓名、所述联系电话和所述联系地址的结构化信息。

结构化信息是信息经过分析后可分解成多个互相关联的组成部分，各组成部分间有明确的层次结构，可通过数据库进行管理，较之未结构化的信息来说便于管理和维护。

可选地，所述方法还包括：

根据所述联系地址确定完整地址；

获取所述完整地址对应的地理位置编码，并将所述地理位置编码替换到所述结构化信息中。

基于地理位置进行编码，并以地理位置编码为基础生成相应的快递信息编码，用户通过这样的快递信息编码收发快递，可以在整个电子商务或收发快递的过程中，不需要涉及到除快递信息编码之外的任何个人信息，可以完全杜绝个人信息泄露的安全问题。

可选地，所述根据所述联系地址确定完整地址，包括：

判断所述联系地址与地址库中的行政区划名称是否匹配；

若不匹配，则调用所述地址库或者调用地图供应商提供的查询接口，获取所述联系地址匹配的行政区划名称，并根据所获取的行政区划名称补全所述联系地址以得到所述完整地址。

由于习惯的原因，人们常常会对地址进行简写或者缩写，对省市区等行政级别也容易出现漏写的情况，因此，需要对简写、简称、漏写的联系地址进行补全。

第二方面，本申请提供了一种快递信息解析系统，所述系统包括文本信息获取模块和辨识模块，其中：

所述文本信息获取模块用于获取包含寄件人信息或者收件人信息的文本信息；

所述辨识模块包括：

电话辨识单元，用于通过正则表达式辨识所述文本信息中的联系电话；

位置判断单元，用于判断所述联系电话是否位于中间位置；

电话截断单元，用于若所述联系电话位于中间位置，则根据所述联系电话将所述文本信息截断为三部分，其中所述联系电话为第二部分，所述联系电话之前的部分为第一部分，所述联系电话之后的部分为第三部分，将所述第一部分和所述第三部分中较短的部分作为姓名，将所述第一部分和所述第三部分中较长的部分作为联系地址。

可选地，所述电话辨识单元包括：

手机辨识子单元，用于通过第一正则表达式辨识所述文本信息中是否存在手机号码；

手机号码子单元，用于若存在手机号码，则将辨识到的手机号码作为所述联系电话；

座机辨识子单元，用于若不存在手机号码，则通过第二正则表达式辨识所述文本信息中是否存在座机号码；若存在座机号码，则将辨识到的座机号码作为所述联系电话。

可选地，所述第一正则表达式是/^[1][3,4,5,7,8][0-9]{9}$/。

可选地，所述辨识模块还包括：

地址辨识单元，用于若所述联系电话不位于中间位置，则从所述文本信息中扣除所述联系电话，并将扣除所述联系电话的所述文本信息记为第一文本信息；通过省级行政区码表辨识所述第一文本信息中的省级行政区，并判断所述省级行政区是否位于开头位置；

姓氏辨识单元，用于若位于开头位置，则通过姓氏码表辨识所述第一文本信息中的姓氏；根据所述姓氏将所述第一文本信息截断为两部分；将较短的部分作为所述姓名，将较长的部分作为所述联系地址，或者，将所述姓氏之前的部分作为所述联系地址，将所述姓氏及所述姓氏之后的部分作为所述姓名；

地址截断单元，用于若不位于开头位置，则根据所述省级行政区将所述第一文本信息截断为两部分；将较短的部分作为所述姓名，将较长的部分作为所述联系地址，或者，将所述省级行政区之前的部分作为所述姓名，将所述省级行政区及所述省级行政区之后的部分作为所述联系地址。

通过长姓码表辨识所述第一文本信息中是否存在长姓；

若存在长姓，则将辨识到的长姓作为所述姓氏；

可选地，姓氏辨识单元在辨识到可作为姓氏的第一字符后，判断所述文本信息中是否存在包含所述第一字符且作为地址的字符段；若不存在，则辨识所述第一字符是所述姓氏。

可选地，所述快递信息解析系统还包括抽取模块，用于对经过辨识的所述文本信息进行切割，并从中抽取出包含所述姓名、所述联系电话和所述联系地址的结构化信息。

可选地，所述快递信息解析系统还包括地址确定模块和地理位置编码模块；

所述地址确定模块用于根据所述联系地址确定完整地址；

所述地理位置编码模块用于获取所述完整地址对应的地理位置编码，并将所述地理位置编码替换到所述结构化信息中。

可选地，所述地址确定模块包括：

查询单元，用于判断所述联系地址与地址库中的行政区划名称是否匹配；

补全单元，用于若不匹配，则调用所述地址库或者调用地图供应商提供的查询接口，获取所述联系地址匹配的行政区划名称，并根据所获取的行政区划名称补全所述联系地址以得到所述完整地址。

第三方面，本申请提供了一种快递信息解析设备，包括处理器和存储器，所述存储器用于存储所述处理器的可执行指令，所述处理器被配置为经由执行所述可执行指令来执行上述快递信息解析方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现上述快递信息解析方法的步骤。

与现有技术相比，本申请的技术效果包括：

本申请公开了快递信息解析方法及系统、快递信息解析设备、计算机可读存储介质，用户提供的文字不再需要遵循固定的顺序并严格按照指定的分隔符间隔，只要联系电话位于文本信息的中间位置，就能精确识别姓名和地址，由此在对用户更加友好的录入环境下，准确地从用户提供的信息中识别人名、地址和电话等收寄件所需的信息，用户只需要确认或做微调即可完成下单，大大改善用户的操作体验并提高效率。

附图说明

下面结合附图和实施例对本申请进一步说明。

图1是第一实施例提供的快递信息解析方法的一种流程图；

图2是第一实施例提供的快递信息解析方法的一种流程示意图；

图3是图1中步骤S20的一种流程图；

图4是图1中步骤S30的一种流程图的一部分；

图5是通过姓氏码表辨识所述第一文本信息中的姓氏的方法的一种流程图；

图6是第二实施例提供的快递信息解析方法的一种流程图；

图7是第三实施例提供的快递信息解析方法的一种流程图；

图8是图7中步骤S51的一种流程图；

图9是第四实施例提供的快递信息解析系统2的一种结构框图；

图10是图9中辨识模块22的一种结构框图；

图11是图10中电话辨识单元221的一种结构框图；

图12是图9中地址确定模块24的一种结构框图；

图13是第五实施例提供的快递信息解析设备3的一种结构框图；

图14是第六实施例提供的用于实现快递信息解析方法的程序产品4的一种结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本申请做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

参见图1和图2，第一实施例提供了一种快递信息解析方法，所述方法包括步骤S10～S30。

快递信息包括姓名、联系电话和联系地址等。姓名例如是张三，联系电话例如是13866669999，联系地址例如是上海盈港东路6697号。

步骤S10：获取包含寄件人信息或者收件人信息的文本信息。

寄件人信息可以包括寄件人姓名、寄件人联系电话、寄件人联系地址等。收件人信息可以包括收件人姓名、收件人联系电话、收件人联系地址等。其中，所述文本信息可以是寄件人在终端提供的文本框内手动打字输入的，也可以是经由剪贴板粘贴导入的，用户可以直接录入文字信息，也可以录入语音信息、由系统自动识别出文字信息。由于寄件人输入的寄件人信息或者收件人信息不一定满足输入规则的要求，因此需要对其进行识别。所述文本信息例如是“张三，13866669999，上海盈港东路6697号”，或者“13866669999、张三、上海盈港东路6697号”，或者“上海盈港东路6697号；张三；13866669999”等。其中，终端例如是寄件人终端或者快递员终端，寄件人终端例如是手机、平板电脑、计算机、智能穿戴设备或者其他智能终端设备，快递员终端例如是巴枪、手机、平板电脑、计算机、智能穿戴设备或者其他智能终端设备。

步骤S20：通过正则表达式辨识所述文本信息中的联系电话。

其中，正则表达式(regular expression)是一种字符串匹配的模式，可以用来检查一个字符串是否含有某种子串、将匹配的子串做替换或者从某个字符串中取出符合某个条件的子串等。正则表达式是对字符串进行操作的一种逻辑公式，用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式，该模式描述在搜索文本时要匹配的一个或多个字符串。

具体地，参见图3，所述步骤S20可以包括步骤S21～S23。

步骤S21：通过第一正则表达式辨识所述文本信息中是否存在手机号码。

进一步优选地，所述第一正则表达式可以是/^[1][3,4,5,7,8][0-9]{9}$/。其中，“^”表示字符串的开始位置，[1]表示以1开头，[3,4,5,7,8]表示第二位可能是3、4、5、7或8等的任意一个，[0-9]{9}表示9个数字、每个数字从0-9中取值，“$”代表字符串的结束位置，也即电话号码加起来11位结束。由于当前各大运营商开放的号段集中在13、14、15、17、18打头的手机号码，因此通过该正则表达式识别手机号码的方法方便准确，提高了初始手机号码获取效率，以便后续对该初始手机号码进行进一步地处理。通过该正则表达式可以辨识出上述文本信息中的联系电话包括：13866669999。

步骤S22：若存在手机号码，则将辨识到的手机号码作为所述联系电话。

步骤S23：若不存在手机号码，则通过第二正则表达式辨识所述文本信息中是否存在座机号码；若存在座机号码，则将辨识到的座机号码作为所述联系电话。

座机是指固定电话，座机号码例如是010-88883333。由于当前移动电话的普及，用户填写手机号码作为联系电话的可能性远远大于座机号码，因此可以首先判断文本信息中的联系电话是手机号码，若不存在手机号码再考虑座机号码，由此提高对联系电话的辨识效率。

步骤S30：判断所述联系电话是否位于中间位置；若所述联系电话位于中间位置，则根据所述联系电话将所述文本信息截断为三部分，其中所述联系电话为第二部分，所述联系电话之前的部分为第一部分，所述联系电话之后的部分为第三部分，将所述第一部分和所述第三部分中较短的部分作为姓名，将所述第一部分和所述第三部分中较长的部分作为联系地址。

文本信息例如是“张三，13866669999，上海盈港东路6697号”，联系电话“13866669999”位于中间位置，将文本信息截断为三部分，“13866669999”是第二部分，“13866669999”之前的“张三”是第一部分，“13866669999”之后的“上海盈港东路6697号”是第三部分，将第一部分和第三部分中较短的部分“张三”作为姓名，将较长的部分“上海盈港东路6697号”作为联系地址。

具体地，参见图4，所述步骤S30还可以包括步骤S31～S33。

步骤S31：若所述联系电话不位于中间位置，则从所述文本信息中扣除所述联系电话，并将扣除所述联系电话的所述文本信息记为第一文本信息；通过省级行政区码表辨识所述第一文本信息中的省级行政区，并判断所述省级行政区是否位于开头位置。

该步骤考虑的是联系地址、姓名在联系电话同一侧的情况。文本信息例如是“上海盈港东路6697号；张三；13866669999”，联系电话不位于中间位置，从文本信息中扣除联系电话后得到第一文本信息：“上海盈港东路6697号；张三”。

其中，省级行政区码表包括省、自治区、直辖市、特别行政区的名称，省级行政区是我国行政地位与省相同行政区的总称，为一级行政区，包括省、自治区、直辖市、特别行政区。本实施例中，省级行政区码表可以替换为地址库。地址库中收录了中国乃至全球所有行政区划名称及其简称、历史曾用名和别名，行政区划名称最小单位为村或者街道门牌号。当检查到文本中的某一段或者几段字符与省级行政区划名称相同或者相近时，则辨识该一段或者几段字符为联系地址。例如，当检查到文本中出现上海、上海市、申城或者魔都时，将上述字符段辨识为联系地址的组成部分。通过地址库可以辨识出上述文本信息中的联系地址包括：上海盈港东路6697号。

步骤S32：若所述省级行政区位于开头位置，则通过姓氏码表辨识所述第一文本信息中的姓氏；根据所述姓氏将所述第一文本信息截断为两部分(从姓氏之前截断)；将较短的部分作为所述姓名，将较长的部分作为所述联系地址，或者，将所述姓氏之前的部分作为所述联系地址，将所述姓氏及所述姓氏之后的部分作为所述姓名。

该步骤考虑的是联系地址在前、姓名在后的情况。其中，姓氏码表是事先收录的包含有全部姓氏的文本。当检查到文本中一个或者多个连续出现的字符，其与姓氏码表中收录的姓氏相对应时，则辨识该一个或者多个连续出现的字符为姓氏。通过姓氏码表可以辨识出上述文本信息中的姓氏为：张，由“张”将第一文本信息“上海盈港东路6697号；张三”截断为两部分，“上海盈港东路6697号”和“张三”，较短的部分“张三”作为姓名，较长的部分“上海盈港东路6697号”作为联系地址，或者，将姓氏“张”之前的部分“上海盈港东路6697号”作为联系地址，将姓氏“张”及“张”之后的部分“张三”作为姓名。

在一种优选的情况，姓氏码表包括长姓码表和百家姓码表，长姓码表收录姓氏长度在三位及三位以上的姓氏，例如是吐谷浑、叶赫那拉、爱新觉罗等。长姓码表中的姓氏数量较少，当文本信息中的姓氏是百家姓时，即使先采用长姓码表对文本信息中的姓氏进行比对，也不会耗费太多时间；反过来说，当文本信息中的形式是长姓时，如果先采用百家姓码表进行比对，则需要将百家姓码表遍历一遍，运算量大大增加。因此优先采用长姓码表进行比对，若不存在长姓再采用百家姓码表对文本信息中的姓氏进行比对，提高姓氏的辨识效率，减少运算资源的浪费。

具体地，参见图5，所述步骤S32中，所述通过姓氏码表辨识所述第一文本信息中的姓氏的步骤，可以包括步骤S321～S323。

步骤S321：通过长姓码表辨识所述第一文本信息中是否存在长姓。

步骤S322：若存在长姓，则将辨识到的长姓作为所述姓氏。

步骤S323：若不存在长姓，则通过百家姓码表辨识所述第一文本信息的最后三位字符中是否存在百家姓；若存在，则将辨识到的百家姓作为所述姓氏；若不存在，则通过百家姓码表辨识所述第一文本信息的最后四位字符中是否存在百家姓，若存在，则将辨识到的百家姓作为所述姓氏。

一般人的姓名是三位字符或者两位字符，例如“王大帅”、“李阳”等，复姓和少数名字三个字的人其姓名可能达到四个字符，例如“欧阳丽丽”、“赵王忆如”等，在未采用长姓的前提下，通常不会出现超过五个字的人名。因此可以优先采用三位字符的校验方式，从文本信息的最后三位字符开始辨识，若能辨识到百家姓，则就此确认姓氏，若不能，再从最后四位字符开始辨识。

进一步优选地，在辨识到可作为姓氏的第一字符后，判断所述文本信息中是否存在包含所述第一字符且作为地址的字符段；若不存在，则辨识所述第一字符是所述姓氏。为了防止将联系地址中的字符误当做姓氏，因此可以采取地址优选的策略，即某一字符不用于地址时，才作为姓氏，例如“海”字，当字符串中未出现“上海”、“青海”、“海南”等作为地址的字符段时，才辨识其为姓氏，由此，通过省级行政区码表辨识联系地址，以及通过姓氏码表辨识姓氏，两者相互配合使用，相互验证，提高文本信息中姓名、地址识别的准确性。

在上述辨识出代表姓氏、联系地址和联系电话的字符后，还可以确定与姓氏相邻且位于姓氏之后且不属于联系地址、联系电话的字符为名，名与姓氏结合从而确定出姓名。即，可以辨识出上述文本信息中的姓名为：张三。

步骤S33：若所述省级行政区不位于开头位置，则根据所述省级行政区将所述第一文本信息截断为两部分(从省级行政区之前截断)；将较短的部分作为所述姓名，将较长的部分作为所述联系地址，或者，将所述省级行政区之前的部分作为所述姓名，将所述省级行政区及所述省级行政区之后的部分作为所述联系地址。

综上所述，用户提供的文字不再需要遵循固定的顺序并严格按照指定的分隔符间隔，只要联系电话位于文本信息的中间位置，就能精确识别姓名和地址，由此在对用户更加友好的录入环境下，准确地从用户提供的信息中识别人名、地址和电话等收寄件所需的信息，用户只需要确认或做微调即可完成下单，大大改善用户的操作体验并提高效率。

第一实施例还可以提供多个快递信息批量解析的功能，预先设定快递信息之间的分隔规则，例如用分号或者括号进行间隔，再对多个快递信息进行批量解析。获取多个快递信息的方式可以是录入或者批量导入。

采用分号进行间隔的多个快递信息例如是：张三，13866669999，上海盈港东路6697号；李四，15100008888，北京市海淀区学院路77号；王五，18511112222，深圳深南大道10000号；赵六，17733335555，成都市武侯区武侯祠大街231号附1号。

采用括号进行间隔的多个快递信息例如是：{张三，13866669999，上海盈港东路6697号}{李四，15100008888，北京市海淀区学院路77号}{王五，18511112222，深圳深南大道10000号}{赵六，17733335555，成都市武侯区武侯祠大街231号附1号}。

参见图6，第二实施例提供了一种快递信息解析方法，在第一实施例的基础上，所述方法还包括步骤S40。

步骤S40：对经过辨识的所述文本信息进行切割，并从中抽取出包含所述姓名、所述联系电话和所述联系地址的结构化信息。

结构化信息是信息经过分析后可分解成多个互相关联的组成部分，各组成部分间有明确的层次结构，可通过数据库进行管理，并有一定的操作规范，较之未结构化的信息来说便于管理和维护。对于本实施例，从文本信息中抽取出的结构化信息包括姓名、联系电话和联系地址，并且还可以按照快递单的格式将上述的三类信息进行排序，例如通常是姓名在第一行，联系电话在第二行，联系地址在第三行。

对于文本信息“上海盈港东路6697号；张三；13866669999”，从中抽取出的结构化信息如下所示：

姓名：张三

联系电话：13866669999

联系地址：上海盈港东路6697号

参见图7，第三实施例提供了一种快递信息解析方法，在第二实施例的基础上，所述方法还可以包括步骤S51～S52。

步骤S51：根据所述联系地址确定完整地址。

由于习惯的原因，人们常常会对地址进行简写或者缩写，例如，上海和青浦，其行政区划名称的全称应当是上海市和青浦区；或者使用简称沪的，其全称也应当是上海市。对省市区等行政级别也容易出现漏写的情况，例如上海盈港东路6697号，其行政区划名称的全程应当是上海市青浦区，漏写了青浦区。因此，需要对简写、简称、漏写的联系地址进行补全。

具体地，参见图8，所述步骤S51可以包括步骤S511～S512。

步骤S511：判断所述联系地址与地址库中的行政区划名称是否匹配。

检查是否可以将结构化信息中的联系地址匹配到地址库，即检查步骤S41所抽取的结构化信息中联系地址与地址库中收录的行政区划名称是否相同，不相同则不匹配。对于文本信息“上海盈港东路6697号；张三；13866669999”，地址库中收录的行政区划名称是“上海市”，结构化信息中的联系地址是“上海”，视为所述联系地址与地址库中的行政区划名称不匹配。

步骤S512：若不匹配，则调用所述地址库或者调用地图供应商提供的查询接口，获取所述联系地址匹配的行政区划名称，并根据所获取的行政区划名称补全所述联系地址以得到所述完整地址。

地址库中收录的行政区划名称是“上海市”，结构化信息中出现的“上海”与其不同，需要补全。可以理解的是，沪、申城、魔等简称、别名等都应当补全为上海市。同时，结构化信息中出现的“盈港东路6697号”在地址库中具有隶属关系，其属于“青浦区”，因此也应当进行补全。具体地，用“上海市”替换“上海”，为“盈港东路6697号”补充上级行政区划“青浦区”，从而补全为“上海市青浦区盈港东路6697号”。该步骤称为地址归集，可以通过地址归集服务器进行查询。

在一种用户填写的信息较为规范的情况，例如文本信息是“张三，13866669999，上海市青浦区盈港东路6697号”，则结构化信息中的联系地址是“上海市青浦区盈港东路6697号”；此时所抽取的结构化信息中出现的“上海市青浦区”与地址库中收录的行政区划名称相同，因此判断所述联系地址与地址库中的行政区划名称匹配，可确定完整地址即“上海市青浦区盈港东路6697号”。

进一步优选地，还可以再度调用地址库或者调用地图供应商提供的查询接口，检查补全后的完整地址与完整的行政区划名称是否匹配，是则执行S52，否则排除结构化信息中的联系地址不用。

本实施例中，补全后的完整地址与地址库或者地图供应商提供的查询接口中的行政区划名称一致。故地址补全后的结构化信息为：

姓名：张三

联系电话：13866669999

联系地址：上海市青浦区盈港东路6697号

需要注意的是，由于用户填写失误等原因，可能出现补全后的完整地址与完整的行政区划名称不匹配的情况，例如文本信息是“上海海淀区盈港东路6697号”，则补全后的完整地址是“上海市海淀区盈港东路6697号”，调用地址库或者调用地图供应商提供的查询接口，查询到“盈港东路6697号”对应的行政区域名称是“上海市青浦区”，检查补全后的完整地址“上海市海淀区盈港东路6697号”与完整的行政区域名称“上海市青浦区”名称不匹配，此时对结构化信息中的联系地址“上海市海淀区盈港东路6697号”予以不采用的处理。

步骤S52：获取所述完整地址对应的地理位置编码，并将所述地理位置编码替换到所述结构化信息中。

以地理位置进行编码的方式可以有很多方案，例如邮政编码则是一种对地址位置进行编码的较为通用的方法。邮政编码是以地理位置进行的数字区划，但是，六位数的邮政编码所覆盖的范围还是很大的。例如邮政编码为201700，前两位基本上是省、市、自治区省级区划级别，中间两位基本上是市、县、区县级单位区划，后两位代表具体投递区域，基本上就是一个镇或一个派出所辖区这么大的范围，可见邮政编码所确定的最终范围太大，不适合于需要较精确位置的快递投递的服务要求。所以，现在的邮政编码仅仅是一个区域数字，现有的快递还是需要填写详细的收件地址，而邮政编码完全形同鸡肋。

本实施例在六位邮政编码的基础上，可以增加更加细化的区域代码，以适用于快递投递的位置精度要求。例如对每一个投递区域内的街道、行政村进行编码，用两位阿拉伯数字进行编码，如此即可以更加精确；还可以将具体的门牌号乃至单元号、楼宇编号、楼层号以及房间号编入。由此，在统一的编码规则下，将结构化信息中完整的联系地址编码后，经过快递系统处理，最终依然能够对应到准确的地理位置。

第一实施例至第三实施例中的快递信息解析方法在不限制用户必须使用指定分隔符分隔文字内容且不限制信息片段的顺序关系的情况下，对用户输入的地址信息解析出收寄件人联系电话、姓名、联系地址三要素信息，主要通过正则表达式定位电话号码(含手机号码和座机号码)，再通过地址数据库和姓氏码表协作判断出姓名和地址的信息片段。对行政区划不完善的地址数据可以做智能补全，最终形成结构化的地址数据，回显页面供用户确认并使用，以此大大改善用户的操作体验并提高效率。

参见图9，第四实施例提供了一种快递信息解析系统2，快递信息解析系统2包括文本信息获取模块21和辨识模块22，文本信息获取模块21与辨识模块22进行数据交互。

所述文本信息获取模块21用于获取包含寄件人信息或者收件人信息的文本信息。例如通过程序在寄件人终端(或者快递员终端)的显示设备上配置一个文本框，用户可以在其中直接输入或者粘贴录入，编辑完成后，文本框将其内的文本信息发送给辨识模块22；或者文本信息获取模块21还可以是一个通信模块，通过有线或者无线通信的方式，从其他设备接收编辑好的文本信息。

所述辨识模块22用于辨识出文本信息中的联系电话、联系地址和姓名。参见图10，所述辨识模块22包括电话辨识单元221、位置判断单元222和电话截断单元223，电话辨识单元221与位置判断单元222进行数据交互，位置判断单元222还与电话截断单元223进行数据交互。

电话辨识单元221用于通过正则表达式辨识所述文本信息中的联系电话。

位置判断单元222用于判断所述联系电话是否位于中间位置。

电话截断单元223用于若所述联系电话位于中间位置，则根据所述联系电话将所述文本信息截断为三部分，其中所述联系电话为第二部分，所述联系电话之前的部分为第一部分，所述联系电话之后的部分为第三部分，将所述第一部分和所述第三部分中较短的部分作为姓名，将所述第一部分和所述第三部分中较长的部分作为联系地址。

进一步优选地，参见图11，所述电话辨识单元221可以包括手机辨识子单元221a、手机号码子单元221b和座机辨识子单元221c，手机辨识子单元221a分别与手机号码子单元221b、座机辨识子单元221c进行数据交互。

手机辨识子单元221a用于通过第一正则表达式辨识所述文本信息中是否存在手机号码。具体地，所述第一正则表达式可以是/^[1][3,4,5,7,8][0-9]{9}$/。

手机号码子单元221b用于若存在手机号码，则将辨识到的手机号码作为所述联系电话。

座机辨识子单元221c用于若不存在手机号码，则通过第二正则表达式辨识所述文本信息中是否存在座机号码；若存在座机号码，则将辨识到的座机号码作为所述联系电话。

进一步优选地，继续参见图10，所述辨识模块22还可以包括地址辨识单元224、姓氏辨识单元225和地址截断单元226，地址辨识单元224分别与姓氏辨识单元225、地址截断单元226进行数据交互。地址辨识单元224还与位置判断单元222进行数据交互。

地址辨识单元224用于若所述联系电话不位于中间位置，则从所述文本信息中扣除所述联系电话，并将扣除所述联系电话的所述文本信息记为第一文本信息；通过省级行政区码表辨识所述第一文本信息中的省级行政区，并判断所述省级行政区是否位于开头位置。

姓氏辨识单元225用于若位于开头位置，则通过姓氏码表辨识所述第一文本信息中的姓氏；根据所述姓氏将所述第一文本信息截断为两部分；将较短的部分作为所述姓名，将较长的部分作为所述联系地址，或者，将所述姓氏之前的部分作为所述联系地址，将所述姓氏及所述姓氏之后的部分作为所述姓名。

地址截断单元226用于若不位于开头位置，则根据所述省级行政区将所述第一文本信息截断为两部分；将较短的部分作为所述姓名，将较长的部分作为所述联系地址，或者，将所述省级行政区之前的部分作为所述姓名，将所述省级行政区及所述省级行政区之后的部分作为所述联系地址。

进一步优选地，姓氏辨识单元225通过姓氏码表辨识所述第一文本信息中的姓氏的过程可以包括：通过长姓码表辨识所述第一文本信息中是否存在长姓；若存在长姓，则将辨识到的长姓作为所述姓氏；若不存在长姓，则通过百家姓码表辨识所述第一文本信息的最后三位字符中是否存在百家姓；若存在，则将辨识到的百家姓作为所述姓氏；若不存在，则通过百家姓码表辨识所述第一文本信息的最后四位字符中是否存在百家姓，若存在，则将辨识到的百家姓作为所述姓氏。

进一步优选地，姓氏辨识单元225在辨识到可作为姓氏的第一字符后，判断所述文本信息中是否存在包含所述第一字符且作为地址的字符段；若不存在，则辨识所述第一字符是所述姓氏。

进一步优选地，继续参见图9，所述快递信息解析系统2还可以包括抽取模块23，用于对经过辨识的所述文本信息进行切割，并从中抽取出包含所述姓名、所述联系电话和所述联系地址的结构化信息。抽取模块23的主要作用是将非结构化的文本信息转化为包含特定类型信息的结构化信息。抽取模块23与辨识模块22进行数据交互。

进一步优选地，继续参见图9，所述快递信息解析系统2还可以包括地址确定模块24和地理位置编码模块25，地址确定模块24和地理位置编码模块25进行数据交互，地址确定模块24还与抽取模块23进行数据交互。

所述地址确定模块24用于根据所述联系地址确定完整地址。

所述地理位置编码模块25用于获取所述完整地址对应的地理位置编码，并将所述地理位置编码替换到所述结构化信息中。

进一步优选地，参见图12，所述地址确定模块24可以包括查询单元241和补全单元242，查询单元241与补全单元242进行数据交互。

查询单元241用于判断所述联系地址与地址库中的行政区划名称是否匹配。

补全单元242用于若不匹配，则调用所述地址库或者调用地图供应商提供的查询接口，获取所述联系地址匹配的行政区划名称，并根据所获取的行政区划名称补全所述联系地址以得到所述完整地址。

参见图13，第五实施例提供了一种快递信息解析设备3，包括至少一个存储单元31、至少一个处理单元32、连接不同平台系统的总线33以及显示单元34。

其中，存储单元31存储有程序代码，程序代码可以被处理单元32执行，使得处理单元32执行上述实施例中快递信息解析方法的步骤。例如，处理单元可以执行如图1及图2中所示的步骤。同时，由显示单元34将处理单元32执行程序代码的最终结果予以显示。

存储单元31可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)311和/或高速缓存存储单元312，还可以进一步包括只读存储单元(ROM)313。

存储单元还可以包括具有一组(至少一个)程序模块315的程序/实用工具314，这样的程序模块包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线33可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

快递信息解析设备3也可以与一个或多个外部设备35例如键盘、指向设备、蓝牙设备等通信，还可与一个或者多个能够与该快递信息解析设备3交互的设备通信，和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口36进行。并且，快递信息解析设备3还可以通过网络适配器37与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器37可以通过总线33与快递信息解析设备3的其它模块通信。应当明白，尽管图13中未示出，可以结合快递信息解析设备3使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

参见图14，第六实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现上述实施例中快递信息解析方法的步骤。图14描述了根据本发明的实施方式的用于实现上述方法的程序产品4，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本申请的程序产品4不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品4可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言诸如Java、C++等，还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本申请从使用目的上，效能上，进步及新颖性等观点进行阐述，其设置有的实用进步性，已符合专利法所强调的功能增进及使用要件，本申请以上的说明及附图，仅为本申请的较佳实施例而已，并非以此局限本申请，因此，凡一切与本申请构造，装置，特征等近似、雷同的，即凡依本申请专利申请范围所作的等同替换或修饰等，皆应属本申请的专利申请保护的范围之内。

Claims

1.一种快递信息解析方法，其特征在于，所述方法包括：

获取包含寄件人信息或者收件人信息的文本信息；

通过正则表达式辨识所述文本信息中的联系电话；

判断所述联系电话是否位于中间位置；若所述联系电话位于中间位置，则根据所述联系电话将所述文本信息截断为三部分，其中所述联系电话为第二部分，所述联系电话之前的部分为第一部分，所述联系电话之后的部分为第三部分，将所述第一部分和所述第三部分中较短的部分作为姓名，将所述第一部分和所述第三部分中较长的部分作为联系地址；

2.根据权利要求1所述的快递信息解析方法，其特征在于，所述通过正则表达式辨识所述文本信息中的联系电话，包括：

3.根据权利要求2所述的快递信息解析方法，其特征在于，所述第一正则表达式是/^[1][3,4,5,7,8][0-9]{9}$/。

4.根据权利要求1所述的快递信息解析方法，其特征在于，所述通过姓氏码表辨识所述第一文本信息中的姓氏，包括：

通过长姓码表辨识所述第一文本信息中是否存在长姓；

若存在长姓，则将辨识到的长姓作为所述姓氏；

5.根据权利要求4所述的快递信息解析方法，其特征在于，在辨识到可作为姓氏的第一字符后，判断所述文本信息中是否存在包含所述第一字符且作为地址的字符段；若不存在，则辨识所述第一字符是所述姓氏。

6.根据权利要求1-5任一项所述的快递信息解析方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的快递信息解析方法，其特征在于，所述方法还包括：

根据所述联系地址确定完整地址；

8.根据权利要求7所述的快递信息解析方法，其特征在于，所述根据所述联系地址确定完整地址，包括：

判断所述联系地址与地址库中的行政区划名称是否匹配；

9.一种快递信息解析系统，其特征在于，所述系统包括文本信息获取模块和辨识模块，其中：

所述辨识模块包括：

位置判断单元，用于判断所述联系电话是否位于中间位置；

电话截断单元，用于若所述联系电话位于中间位置，则根据所述联系电话将所述文本信息截断为三部分，其中所述联系电话为第二部分，所述联系电话之前的部分为第一部分，所述联系电话之后的部分为第三部分，将所述第一部分和所述第三部分中较短的部分作为姓名，将所述第一部分和所述第三部分中较长的部分作为联系地址；