CN103984735B - 一种用于生成推荐配送地点名称的方法和装置 - Google Patents

一种用于生成推荐配送地点名称的方法和装置 Download PDF

Info

Publication number
CN103984735B
CN103984735B CN201410215906.5A CN201410215906A CN103984735B CN 103984735 B CN103984735 B CN 103984735B CN 201410215906 A CN201410215906 A CN 201410215906A CN 103984735 B CN103984735 B CN 103984735B
Authority
CN
China
Prior art keywords
dispensing
place name
participle
address
interim
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410215906.5A
Other languages
English (en)
Other versions
CN103984735A (zh
Inventor
韩松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an jingxundi Supply Chain Technology Co., Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201410215906.5A priority Critical patent/CN103984735B/zh
Publication of CN103984735A publication Critical patent/CN103984735A/zh
Application granted granted Critical
Publication of CN103984735B publication Critical patent/CN103984735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Remote Sensing (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于生成推荐配送地点名称的方法,主要是针对一已知地址进行文本分词、分词拼接、数据库查重、计算匹配频度和频度阈值重置等步骤。本发明还公开了一种用于生成推荐配送地点名称的装置。利用本发明可自动、及时、快速、准确地生成可推荐的配送地点名称。

Description

一种用于生成推荐配送地点名称的方法和装置
技术领域
本发明涉及物流技术领域,具体涉及一种用于生成推荐配送地点名称的方法和装置。
背景技术
随着网络购物的蓬勃发展,物流中的包裹配送速度已成为提升网络购物体验的瓶颈环节。通常,物流公司利用分拣配送系统制定包裹配送路线规划,该系统基于生产配送地点名称数据库,将包裹的收货地址按就近原则对应到公司的配送站点,然后将包裹分拣并配送到配送站点,由配送站点的配送人员将包裹配送到具体的收货地址,如XX大厦、XX小区、XX街道等。在此过程中,分拣配送系统中预存的生产配送地点名称丰富与否,制约着分拣配送系统的自动化程度。为了维护分拣配送系统中的生产配送地点名称数据库,需定期或不定期将新增的配送地点名称添加到数据库中,供分拣配送系统完成包裹配送路线规划。
当前,对生产配送地点名称数据库的维护更新大多依靠人工手动完成,参见图1,当希望向数据库中添加某一配送地点名称时,首先,操作人员将该配送地点名称(一般包括省、市、区(县)、乡(社区)四级行政区域名称和具体地址名称)手动输入到分拣配送系统中,分拣配送系统在原数据库中查询是否已存在该配送地点名称,如果存在,不添加该名称,提示输入其它名称或结束流程;如果不存在,将该名称添加到数据库中,或者是先添加到推荐列表中,经人工审核后再存入数据库,进入生产系统。
上述处理方式存在以下弊端:首先,人工手动添加方式要求必须有人员不断地执行添加配送地点名称的动作,人力资源投入大,成本高。其次,随着城市化进程加速,城市建筑规模不断扩大,城市内大楼、小区、商场等地点名称更新频繁,配送地点名称的数量增长迅速,人工手动添加必然存在信息更新的延迟,这种低效的方式不但造成资源(人力、物力、财力)浪费,还将使新配送地点名称的推荐被延迟,配送地点名称不能及时丰富,制约分拣配送系统的分拣配送处理能力,影响物流配送系统的整体效率。
发明内容
有鉴于此,本发明提供一种用于生成推荐配送地点名称的方法和装置,通过对已知地址进行分词、拼接和匹配频度控制等处理,生成可推荐的配送地点名称。
一方面,本发明提供一种用于生成推荐配送地点名称的方法,包括:第一步,将已知配送地址切分为多个分词,其中所述多个分词按预定顺序排列;第二步,将多个分词中的第一分词和第二分词拼接,形成第一临时配送地点名称,其中第二分词和第一分词相邻;第三步,查询生产配送地点名称数据库,如果数据库中存在第一临时配送地点名称,舍弃所述已知配送地址;如果数据库中不存在第一临时配送地点名称,执行第四步;第四步,将第一临时配送地点名称与历史配送地址库进行匹配,获得第一临时配送地点名称在历史配送地址库中的匹配频度,该匹配频度小于或等于预定频度阈值时,执行第五步,反之执行第六步;第五步,将第一临时配送地点名称确定为推荐配送地点名称;第六步,降低预定频度阈值,得到新的频度阈值,并将第一临时配送地点名称与第三分词拼接,形成第二临时配送地点名称,返回第三步,其中以新的频度阈值代替预定频度阈值,并以第二临时配送地点名称代替第一临时配送地点名称;如此循环,直至当前匹配频度小于或等于当前频度阈值;其中第三分词和第二分词相邻。
优选地,在第一步将已知配送地址切分为多个分词之前,所述方法还包括:查询所述已知配送地址中是否含有特定配送地址,如果含有特定配送地址,舍弃所述已知配送地址;其中特定配送地址指在历史配送地址库中对应的记录数超过预定值的地址。
优选地,在第一步将已知配送地址切分为多个分词之前,所述方法还包括:将已知配送地址中的行政区域地址全部舍弃;在第二步将多个分词中的第一分词和第二分词拼接之后,所述方法还包括:将已舍弃的行政区域地址拼接在第一分词和第二分词之前,形成第一临时配送地点名称。
优选地,在第一步将已知配送地址切分为多个分词之后,所述方法还包括:查询多个分词中是否含有一级词根,如果含有一级词根,将排列在该一级词根之后的分词全部舍弃,基于剩余的分词执行第二步;其中一级词根的地址仅对应一个配送站点。
优选地,如果所述多个分词中不含有一级词根,所述方法还包括:查询多个分词中是否含有二级词根,如果含有二级词根,将排列在该二级词根之后的分词全部舍弃,基于剩余的分词执行第二步;如果不含有二级词根,舍弃所述已知配送地址;其中二级词根的地址对应至少两个配送站点。
优选地,在确定推荐配送地点名称之后,所述方法还包括:按照预定规则修改所述推荐配送地点名称。
优选地,修改所述推荐配送地点名称包括:如果所述推荐配送地点名称中含有切割词,将排列在该切割词之前的分词全部舍弃,其中切割词含有阿拉伯数字,位于推荐配送地点名称的中部。
优选地,修改所述推荐配送地点名称包括:如果所述推荐配送地点名称中含有黑名单词,舍弃该黑名单词,其中黑名单词含有阿拉伯数字,位于推荐配送地点名称的首部。
优选地,在确定推荐配送地点名称之后,所述方法还包括:验证推荐配送地点名称的长度是否符合长度限制条件,如果不符合,舍弃推荐配送地点名称。
另一方面,本发明还提供一种用于生成推荐配送地点名称的方法,包括:第一步,查询一已知配送地址中是否含有特定配送地址,如果含有特定配送地址,舍弃所述已知配送地址;如果不含有特定配送地址,执行第二步;其中特定配送地址指在历史配送地址库中对应的记录数超过预定值的地址;第二步,将所述已知配送地址中的行政区域地址全部舍弃;第三步,将所述已知配送地址中的剩余文本切分为多个分词,其中所述多个分词按预定顺序排列;第四步,查询所述多个分词中是否含有一级词根,如果含有一级词根,将排列在该一级词根之后的分词全部舍弃,基于剩余的分词执行第五步;如果所述多个分词中不含有一级词根,查询所述多个分词中是否含有二级词根,如果含有二级词根,将排列在该二级词根之后的分词全部舍弃,基于剩余的分词执行第五步;如果不含有二级词根,舍弃所述剩余文本;其中一级词根的地址仅对应一个配送站点,二级词根的地址对应至少两个配送站点;第五步,将所述剩余的分词中的第一分词和第二分词拼接,并将已舍弃的行政区域地址拼接在第一分词和第二分词之前,形成第一临时配送地点名称;其中第二分词和第一分词相邻;第六步,查询生产配送地点名称数据库,如果数据库中存在第一临时配送地点名称,舍弃所述已知配送地址;如果数据库中不存在第一临时配送地点名称,执行第七步;第七步,将第一临时配送地点名称与历史配送地址库进行匹配,获得第一临时配送地点名称在历史配送地址库中的匹配频度,该匹配频度小于或等于预定频度阈值时,执行第八步,反之执行第九步;第八步,将第一临时配送地点名称确定为推荐配送地点名称;第九步,降低预定频度阈值,得到新的频度阈值,并将第一临时配送地点名称与第三分词拼接,形成第二临时配送地点名称,返回第六步,其中以新的频度阈值代替预定频度阈值,并以第二临时配送地点名称代替第一临时配送地点名称;如此循环,直至当前匹配频度小于或等于当前频度阈值,执行第十步;其中第三分词和第二分词相邻;第十步,查询推荐配送地点名称中是否含有切割词,如果含有切割词,将排列在该切割词之前的分词全部舍弃,执行第十一步;否则直接执行第十一步;其中切割词含有阿拉伯数字,位于推荐配送地点名称的中部;第十一步,查询推荐配送地点名称中是否含有黑名单词,如果含有黑名单词,舍弃该黑名单词,执行第十二步;否则直接执行第十二步;其中黑名单词含有阿拉伯数字,位于推荐配送地点名称的首部;第十二步,查询推荐配送地点名称中的分词是否全部属于预设的词根集合,如果全部属于预设的词根集合,舍弃所述已知配送地址,如果不全部属于预设的词根集合,执行第十三步;其中所述预设的词根集合包含所述一级词根和所述二级词根;第十三步,验证推荐配送地点名称的长度是否符合长度限制条件,如果不符合,舍弃该推荐配送地点名称。
另一方面,本发明还提供一种用于生成推荐配送地点名称的装置,包括:分词处理模块,用于将已知配送地址切分为多个分词,其中所述多个分词按预定顺序排列;第一拼接处理模块,用于将多个分词中的第一分词和第二分词拼接,形成第一临时配送地点名称,其中第二分词和第一分词相邻;查重处理模块,用于查询生产配送地点名称数据库,如果该数据库中存在第一临时配送地点名称,舍弃所述已知配送地址;匹配频度获取模块,用于当该数据库中不存在第一临时配送地点名称时,将第一临时配送地点名称与历史配送地址库进行匹配,获得第一临时配送地点名称在历史配送地址库中的匹配频度;地点名称确认模块,用于当该匹配频度小于或等于预定频度阈值时,将第一临时配送地点名称确定为推荐配送地点名称;频度阈值重置模块,用于当该匹配频度大于预定频度阈值时,降低预定频度阈值,得到新的频度阈值;第二拼接处理模块,用于将第一临时配送地点名称与第三分词拼接,形成第二临时配送地点名称,其中第三分词和第二分词相邻;循环处理模块,用于将所述第二临时配送地点名称发送给所述查重处理模块和所述匹配频度获取模块,其中以第二临时配送地点名称代替第一临时配送地点名称;还用于将所述新的频度阈值发送给所述地点名称确认模块,其中以新的频度阈值代替预定频度阈值,直至当前匹配频度小于或等于当前频度阈值。
另一方面,本发明还提供一种用于生成推荐配送地点名称的装置,包括:特定配送地址处理模块,用于查询一已知配送地址中是否含有特定配送地址,如果含有特定配送地址,舍弃所述已知配送地址;其中特定配送地址指在历史配送地址库中对应的记录数超过预定值的地址;行政区域地址处理模块,用于当所述已知配送地址中不含有特定配送地址时,将所述已知配送地址中的行政区域地址全部舍弃;分词处理模块,用于将所述已知配送地址中的剩余文本切分为多个分词,其中所述多个分词按预定顺序排列;一级词根处理模块,用于查询所述多个分词中是否含有一级词根,如果含有一级词根,将排列在该一级词根之后的分词全部舍弃,得到剩余的分词;二级词根处理模块,用于当所述多个分词中不含有一级词根时,查询所述多个分词中是否含有二级词根,如果含有二级词根,将排列在该二级词根之后的分词全部舍弃,得到剩余的分词;还用于当所述多个分词中不含有二级词根时,舍弃所述剩余文本;其中一级词根的地址仅对应一个配送站点,二级词根的地址对应至少两个配送站点;第一拼接处理模块,用于将所述剩余的分词中的第一分词和第二分词拼接,并将所述行政区域地址处理模块舍弃的行政区域地址拼接在第一分词和第二分词之前,形成第一临时配送地点名称;其中第二分词和第一分词相邻;查重处理模块,用于查询生产配送地点名称数据库,如果该数据库中存在第一临时配送地点名称,舍弃所述已知配送地址;匹配频度获取模块,用于当该数据库中不存在第一临时配送地点名称时,将第一临时配送地点名称与历史配送地址库进行匹配,获得第一临时配送地点名称在历史配送地址库中的匹配频度;地点名称确认模块,用于当匹配频度小于或等于预定频度阈值时,将第一临时配送地点名称确定为推荐配送地点名称;频度阈值重置模块,用于当该匹配频度大于预定频度阈值时,降低预定频度阈值,得到新的频度阈值;第二拼接处理模块,用于将第一临时配送地点名称与第三分词拼接,形成第二临时配送地点名称;其中第三分词和第二分词相邻;循环处理模块,用于将所述第二临时配送地点名称发送给所述查重处理模块和所述匹配频度获取模块,其中以第二临时配送地点名称代替第一临时配送地点名称;还用于将所述新的频度阈值发送给所述地点名称确认模块,其中以新的频度阈值代替预定频度阈值,直至当前匹配频度小于或等于当前频度阈值;切割词处理模块,用于查询推荐配送地点名称中是否含有切割词,如果含有切割词,将排列在该切割词之前的分词全部舍弃;其中切割词含有阿拉伯数字,位于推荐配送地点名称的中部;黑名单词处理模块,用于查询推荐配送地点名称中是否含有黑名单词,如果含有黑名单词,舍弃该黑名单词;其中黑名单词含有阿拉伯数字,位于推荐配送地点名称的首部;分词校验模块,用于查询推荐配送地点名称中的分词是否全部属于预设的词根集合,如果全部属于预设的词根集合,舍弃所述已知配送地址;其中所述预设的词根集合包含所述一级词根和所述二级词根;以及,长度校验模块,用于当推荐配送地点名称中的分词不全部属于预设的词根集合时,验证推荐配送地点名称的长度是否符合长度限制条件,如果不符合,舍弃该推荐配送地点名称。
本发明的有益效果:利用本发明可自动、及时、快速、准确地生成新的推荐配送地点名称,用以更新生产配送地点名称数据库,处理效率高,可为分拣配送系统更多更快地推荐配送地址名称,丰富生产环境的配送地点名称数量,提升包裹分拣系统的处理能力和自动化程度。
附图说明
图1是现有技术中人工手动添加配送地点名称的处理流程。
图2是本发明实施例的用于生成推荐配送地点名称的方法流程图。
图3是本发明一个实施例中多种处理方式叠加的处理流程图。
图4是本发明另一实施例中多种处理方式叠加的处理流程图。
图5是本发明一个实施例的用于生成推荐配送地点名称的装置结构框图。
图6是本发明另一实施例的用于生成推荐配送地点名称的装置结构框图。
图7是本发明又一实施例的用于生成推荐配送地点名称的装置结构框图。
具体实施方式
以下结合附图以及具体实施例,对本发明的技术方案进行详细描述。
为描述方便,以下给出本发明中使用到的部分词汇释义。
配送站点:物流企业中最细小的派送机构,负责包裹的一线送达工作,配送站点分布在全国各地。
配送地点名称:具体的收货地点的名称,如XX大厦、XX大楼、XX小区等,配送地点名称通常与配送站点相对应,一个配送站点通常负责多个配送地点的包裹派送工作。
行政区域地址:
一级地址:省、直辖市、自治区。
二级地址:市。
三级地址:区、县。
四级地址:社区、乡、镇。
本发明的用于生成推荐配送地点名称的方案基于一已知的地址,例如选取历史配送地址库中的地址或任意其它地址,生成的推荐配送地点名称应为一个不存在于当前生产配送地点名称数据库中的新的名称。方案的核心思想是从一个已知地址中截取不存在于生产配送地点名称数据库中的地点名称,控制该地点名称在历史配送地址库中的匹配频度,将满足条件的地点名称作为推荐配送地点名称。将推荐配送地点名称添加到生产配送地点名称数据库之后,分拣配送系统可查询到该地点名称,用于制定包裹配送路线规划。
图2示出了本发明实施例的用于生成推荐配送地点名称的方法流程图,包括:
S101,将已知配送地址切分为多个分词,多个分词按预定顺序排列。
在本发明的实施例中,以一个已知的历史配送地点为例:上海市黄浦区河南南路398弄太阳都市花园,对该历史配送地点做分词处理,得到一个分词数组,数组中各个分词从前到后(也可视为从左到右)排列:上海、黄浦区、内环以内、上海市、黄浦区、河南、南路、398弄、太阳、都市、花园。
这里,分词处理可利用已有中文分词算法进行操作,主要是将包含多个中文词的地址名按最小地址要素切分,切分后的多个分词形成一个分词数组。
S102,将分词数组中的第一分词和第二分词拼接,形成第一临时配送地点名称,其中第二分词和第一分词相邻。
在本实施例中,将分词数组中最后两个分词“都市”和“花园”进行拼接,得到“都市花园”作为临时配送地点名称。
S103,查询生产配送地点名称数据库,如果其中存在第一临时配送地点名称,舍弃该已知配送地址;如果列表中不存在第一临时配送地点名称,执行下一步。
在本实施例中,如果生产配送地点名称数据库中已经存在“都市花园”,说明不需要做再次推荐,结束流程;如果列表中不存在“都市花园”,说明其为一个新地点,应当向系统推荐,执行S104。
S104,将第一临时配送地点名称与历史配送地址库进行匹配,获得第一临时配送地点名称在历史配送地址库中的匹配频度,匹配频度小于或等于预定阈值时执行S105,反之执行S106。
S105,将第一临时配送地点名称确定为推荐配送地点名称。
S106,将预定阈值衰减预定百分比,得到新的阈值,并将第一临时配送地点名称与第三分词拼接,形成第二临时配送地点名称,其中第三分词和第二分词相邻;返回S103,其中以新的阈值代替预定阈值,以第二临时配送地点名称代替第一临时配送地点名称;如此循环,直至当前匹配频度小于或等于当前阈值。
在本实施例中,可基于已有的中文文本检索功能查询历史配送地址库,获得“都市花园”的匹配频度,如利用Lucene或Solr开源项目搭建全文检索服务,在历史配送地址库中查询“都市花园”出现的次数,这个次数的值就是“都市花园”在历史配送地址库中的匹配频度。
在本实施例中,假设“都市花园”在历史配送地址库中的匹配频度为150,预先设定的频度阈值为100,则“都市花园”的匹配频度大于频度阈值,此时需重新设定频度阈值,例如设置为衰减20%,新的频度阈值为80;同时还需重新设定临时配送地点名称,将“太阳”拼接在“都市花园”之前,得到新的临时配送地点名称“太阳都市花园”,返回S103,在历史配送地址库中查询“太阳都市花园”的匹配频度,与阈值80相比较,看是否小于阈值80。
这里,由于地址名称的字数增多(即查询检索的关键字增多),所以匹配频度将降低。如果“太阳都市花园”的匹配频度还是大于新的频度阈值80,就需要再次衰减阈值并再拼接一个分词。因为如果匹配频度过大,说明截取的地点名称与大量其它地址发生重叠,说明这个地点名称代表一个确切地址的可能性较低,通过增加关键字降低匹配频度,同时调整频度阈值,可获得更合适的新的推荐地点名称。
按照上述处理方式,逆序地遍历分词数组,直到当前推荐地址名称的匹配频度小于或等于当前频度阈值为止,将当次获得的临时配送地点名称作为推荐配送地点名称。
在本实施例中,假设“太阳都市花园”的匹配频度小于阈值80,满足了跳转条件,转入S105,将“太阳都市花园”作为推荐的配送地点名称。随后可以根据实际需求,将“太阳都市花园”存入推荐列表,经操作人员审核后保存到生产配送地点名称数据库,也可直接保存到生产配送地点名称数据库,进行数据库更新。
利用上述方案可自动、及时、快速、准确地生成新的推荐配送地点名称,用来更新生产配送地点名称数据库,处理效率高,可为分拣配送系统更多更快地推荐配送地址名称,快速丰富生产环境的配送地点名称数量,提升包裹分拣系统的处理能力和自动化程度。
进一步地,由于有些配送地址中存在一些特殊的地址,如XX医院、XX学校、XX学院、XX大学等,这些地址在一个区域范围内是共识的地点,这些地方人群较为集中,网络购物比较频繁,也因此在历史配送地址库中对应的地址记录很多,处理这种配送地址不但不能推荐出新的配送地点名称,反而会占用推荐流程的处理时间,影响推荐系统的处理性能。
为避免拖累推荐系统的性能,本发明规定在历史配送地址库中对应的地址记录超过某个值时(例如地址记录超过200个),将这个地址作为特定配送地址,在对已知配送地址做分词处理之前,查询已知配送地址中是否含有这些特定配送地址,对于含有特定配送地址的情况,不做处理,舍弃该地址,结束流程。也可以设置为定期对待选的若干已知配送地址做过滤处理,将含有特定配送地址的地址全部过滤掉。
进一步地,对于一个包含了行政区域地址的已知配送地址,例如在“上海黄浦区内环以内上海市黄浦区河南南路398弄太阳都市花园”中,“上海黄浦区内环以内上海市黄浦区”属于这类行政区域地址(通常由系统添加或客户手动输入),本发明在对这种已知配送地址做分词处理之前,将其中表示行政区域地址的部分(如一级、二级、三级和四级行政区域地址)全部剔除,只留下后面的较小范围的地址,可以缩小后续的分词数组的规模。本例中将“上海黄浦区内环以内上海市黄浦区”舍弃,保留“河南南路398弄太阳都市花园”。
在分词拼接步骤S102中,本发明还进一步将已舍弃的行政区域地址拼接在已拼接分词的前面,作为临时配送地点名称。本例中将“上海黄浦区内环以内上海市黄浦区”拼接到“都市花园”前,以“上海黄浦区内环以内上海市黄浦区都市花园”作为临时配送地点名称。
进一步地,对于一个包含了例如街道或门牌号数的已知配送地址,例如在“上海市黄浦区河南南路398弄太阳都市花园2号楼9楼D室”中,“2号楼9楼D室”是住宅门牌号数,由于分拣配送系统在制定包裹配送路线规划过程中并不需要这类门牌号数的信息,本发明在推荐配送地址时将这类信息剔除,一方面可以提高推荐配送地址的准确度,另一方面也可以缩小分词数组的规模,以下详细描述剔除方法。
本发明将地址分词数组中的分词进行细分,分为一级词根和二级词根,原则上,一级词根的地址粒度较小,地点涵盖范围小,只对应一个配送站点,例如:小区、大厦、社区、产业园、花园、商场、商店、园区、数码广场和商业街等。二级词根的地址粒度较大,是一个较大范围内的地点集合,可能对应多个配送站点,例如:街、小街、大街、路、中路、弄、道、大道等。
基于一级词根和二级词根的定义,在处理流程中,在将已知配送地址分词处理得到分词数组之后,查询分词数组中是否含有一级词根,如果含有一级词根,将排列在该一级词根后的分词全部舍弃,基于剩余分词执行下一步。进一步地,如果分词数组中没有一级词根,则查询是否含有二级词根,如果含有二级词根,将排列在二级词根后方的分词全部舍弃,基于剩余的多个分词执行下一步。如果分词数组中既没有一级词根也没有二级词根,表明该已知配送地址中没有适合推荐的地点分词,舍弃该已知配送地址,结束流程。具体到针对“上海市黄浦区河南南路398弄太阳都市花园2号楼9楼D室”的实施例中,“花园”属于一级词根,故在进行S102分词拼接步骤之前,应将“花园”之后的“2号楼9楼D室”从整个地址中剔除。
进一步地,在得到推荐配送地点名称之后,可按照实际需求制定规则,对推荐配送地点名称进行修正,提高准确度。为此,本发明定义了地址分词数组中可能包含的“切割词”和“黑名单词”。
具体地,切割词含有阿拉伯数字,如1号、2弄、3巷、……、X号等,位于推荐配送地点名称的中段位置,其前方大多为根据一级词根剔除分词后的地址,后方大多是根据二级词根剔除分词后的地址。在处理流程中,查询推荐配送地点名称中是否包含切割词,如果包含,将切割词前方的分词舍弃,例如假设推荐配送地点名称是“河南南路398弄太阳都市花园”,其中“398弄”是切割词,则该推荐配送地点名称在切割词处可分成前后两段:“河南南路”和“太阳都市花园”(前段地址范围大,对应多个配送站点;后段地址范围小,对应单个配送站点),将前端地址分词“河南南路”舍弃,将后段地址“太阳都市花园”作为推荐配送地点名称。
对于黑名单词,其含有阿拉伯数字,大多在推荐配送地点名称的首位置,主要有:州、镇、号、乡、巷、弄、栋、幢、座、桥、寺、鎮和/或號等,在实际处理流程中,如果推荐配送地点名称中含有黑名单词,应将黑名单词剔除。例如假设“398弄太阳都市花园”为推荐配送地点名称,其中“398弄”是黑名单词,将该黑名单词剔除,得到新的推荐配送地点名称“太阳都市花园”。
进一步地,对于得到推荐配送地点名称,如果推荐配送地点名称包含的分词全部是词根(即前述一级词根和二次词根的集合),应舍弃该推荐配送地点名称。这是因为,一级词根和二次词根对应的是通用的地址信息,不代表实际地址,只有推荐配送地点名称中含有除词根之外的信息,才能代表一个确切地点。例如在“太阳都市花园”中,“花园”为词根,“太阳”和“都市”两者不是词根,如果推荐配送地点名称为“花园”,则由于不知道是哪个花园,使得这个地址没有实际意义,本次推荐失败;而对于“太阳都市花园”这类携带了个性信息的地点名称,其适合作为推荐配送地点名称。
进一步地,本发明还可设置推荐配送地点名称的长度,仅在名称长度符合长度要求时,保留推荐配送地点名称,否则舍弃。例如设置名称的字符数不超过10,“太阳都市花园”符合要求,可以推荐。
以上描述了本发明在生成推荐配送地点名称的过程中可采用的多种处理方式的实施例,对于不同的实际情况,可针对性地选用一种处理方式或多种处理方式叠加,生成新的推荐配送地点名称。
图3示出了本发明一个实施例中将多种处理方式叠加的情况,关注了流程前期对已知配送地址的过滤和分词处理阶段。具体来看,首先查询已知配送地址中是否含有特定配送地址,如果含有特定配送地址,舍弃该地址,流程结束;如果不含有特定配送地址,将该已知配送地址中的行政区域地址全部删除,对剩余的地址做分词处理,得到分词数组,查询分词数组中是否含有一级词根,如果含有一级词根,截取并保留一级词根及其前方的所有分词,舍弃后方的分词;如果不含有一级词根,继续查询分词数组中是否含有二级词根,如果含有二级词根,截取并保留二级词根及其前方的所有分词,舍弃后方的分词;如果不含有二级词根,舍弃该已知配送地址,流程结束。然后,基于经过一级词根或二级词根查询过滤之后剩余的分词数组,转入图2的处理流程,对分词数组中的多个分词进行遍历拼接等步骤,直至得到推荐配送地点名称。
图4示出了本发明另一实施例中将多种处理方式叠加的情况,关注了流程后期对推荐配送地点名称进行修正的阶段。具体来看,对于经过图2处理流程得到的推荐配送地点名称,验证其中是否含有切割词,如果含有切割词,将推荐配送地点名称切割为两段地址文本,保留后段,然后验证后段地址文本中是否含有黑名单词(如果不含切割词,直接验证是否含有黑名单词),如果含有黑名单词,将黑名单词删除,之后验证剩余文本的分词是否全部为词根(如果不含黑名单词,直接验证是否全部为词根),如果全为词根,舍弃该推荐配送地点名称,流程结束;如果不是全为词根,验证剩余文本的长度是否符合长度限制,将符合长度限制的剩余文本作为最终的推荐配送地点名称,添加到推荐列表或生产配送地点名称数据库中,将不符合长度限制的文本舍弃,结束流程。
此外,本发明还提供一种用于生成推荐配送地点名称的装置100,参见图5,包括:
分词处理模块10,用于将已知配送地址切分为多个分词,其中所述多个分词按预定顺序排列;
第一拼接处理模块12,用于将多个分词中的第一分词和第二分词拼接,形成第一临时配送地点名称,其中第二分词和第一分词相邻;
查重处理模块14,用于查询生产配送地点名称数据库,如果该数据库中存在第一临时配送地点名称,舍弃所述已知配送地址;
匹配频度获取模块16,用于当该数据库中不存在第一临时配送地点名称时,将第一临时配送地点名称与历史配送地址库进行匹配,获得第一临时配送地点名称在历史配送地址库中的匹配频度;
地点名称确认模块18,用于当该匹配频度小于或等于预定频度阈值时,将第一临时配送地点名称确定为推荐配送地点名称;
频度阈值重置模块20,用于当该匹配频度大于预定频度阈值时,降低预定频度阈值,得到新的频度阈值;
第二拼接处理模块22,用于将第一临时配送地点名称与第三分词拼接,形成第二临时配送地点名称,其中第三分词和第二分词相邻;
循环处理模块24,用于将所述第二临时配送地点名称发送给所述查重处理模块和所述匹配频度获取模块,其中以第二临时配送地点名称代替第一临时配送地点名称;还用于将所述新的频度阈值发送给所述地点名称确认模块,其中以新的频度阈值代替预定频度阈值,直至当前匹配频度小于或等于当前频度阈值。
进一步地,该装置还可包括特定配送地址处理模块26,参见图6的装置200,特定配送地址处理模块26用于在所述分词处理模块将已知配送地址切分为多个分词之前,查询所述已知配送地址中是否含有特定配送地址,如果含有特定配送地址,舍弃所述已知配送地址;其中特定配送地址指在历史配送地址库中对应的记录数超过预定值的地址。
进一步地,该装置还可包括行政区域地址处理模块,用于在所述分词处理模块将已知配送地址切分为多个分词之前,将已知配送地址中的行政区域地址全部舍弃;还用于在第一拼接处理模块将多个分词中的第一分词和第二分词拼接之后,将舍弃的行政区域地址拼接在第一分词和第二分词之前,形成第一临时配送地点名称。
进一步地,该装置还可包括一级词根处理模块,用于所述分词处理模块将已知配送地址切分为多个分词之后,查询多个分词中是否含有一级词根,如果含有一级词根,将排列在该一级词根之后的分词全部舍弃,所述第一拼接处理模块基于剩余的分词执行拼接处理;其中一级词根的地址仅对应一个配送站点。
进一步地,该装置还可包括二级词根处理模块,用于当所述多个分词中不含有一级词根时,查询多个分词中是否含有二级词根,如果含有二级词根,将排列在该二级词根之后的分词全部舍弃,所述第一拼接处理模块基于剩余的分词执行拼接处理;如果不含有二级词根,舍弃所述已知配送地址;其中二级词根的地址对应至少两个配送站点。
进一步地,该装置还可包括地点名称修改模块,用于在所述地点名称确认模块确定推荐配送地点名称之后,按照预定规则修改所述推荐配送地点名称。
进一步地,该地点名称修改模块可包括切割词处理子模块,用于当所述推荐配送地点名称中含有切割词时,将排列在该切割词之前的分词全部舍弃,其中切割词含有阿拉伯数字,位于推荐配送地点名称的中部。
进一步地,该地点名称修改模块可包括黑名单词处理子模块,用于当所述推荐配送地点名称中含有黑名单词时,舍弃该黑名单词,其中黑名单词含有阿拉伯数字,位于推荐配送地点名称的首部。
进一步地,该装置还可包括长度校验模块,用于验证推荐配送地点名称的长度是否符合长度限制条件,如果不符合,舍弃推荐配送地点名称。
除此之外,本发明还提供一种用于生成推荐配送地点名称的装置300,参见图7,包括:
特定配送地址处理模块30,用于查询一已知配送地址中是否含有特定配送地址,如果含有特定配送地址,舍弃所述已知配送地址;其中特定配送地址指在历史配送地址库中对应的记录数超过预定值的地址;
行政区域地址处理模块32,用于当所述已知配送地址中不含有特定配送地址时,将所述已知配送地址中的行政区域地址全部舍弃;
分词处理模块34,用于将所述已知配送地址中的剩余文本切分为多个分词,其中所述多个分词按预定顺序排列;
一级词根处理模块36,用于查询所述多个分词中是否含有一级词根,如果含有一级词根,将排列在该一级词根之后的分词全部舍弃,得到剩余的分词;
二级词根处理模块38,用于当所述多个分词中不含有一级词根时,查询所述多个分词中是否含有二级词根,如果含有二级词根,将排列在该二级词根之后的分词全部舍弃,得到剩余的分词;还用于当所述多个分词中不含有二级词根时,舍弃所述剩余文本;其中一级词根的地址仅对应一个配送站点,二级词根的地址对应至少两个配送站点;
第一拼接处理模块40,用于将所述剩余的分词中的第一分词和第二分词拼接,并将所述行政区域地址处理模块舍弃的行政区域地址拼接在第一分词和第二分词之前,形成第一临时配送地点名称;其中第二分词和第一分词相邻;
查重处理模块42,用于查询生产配送地点名称数据库,如果该数据库中存在第一临时配送地点名称,舍弃所述已知配送地址;
匹配频度获取模块44,用于当该数据库中不存在第一临时配送地点名称时,将第一临时配送地点名称与历史配送地址库进行匹配,获得第一临时配送地点名称在历史配送地址库中的匹配频度;
地点名称确认模块46,用于当匹配频度小于或等于预定频度阈值时,将第一临时配送地点名称确定为推荐配送地点名称;
频度阈值重置模块48,用于当该匹配频度大于预定频度阈值时,降低预定频度阈值,得到新的频度阈值;
第二拼接处理模块50,用于将第一临时配送地点名称与第三分词拼接,形成第二临时配送地点名称;其中第三分词和第二分词相邻;
循环处理模块52,用于将所述第二临时配送地点名称发送给所述查重处理模块和所述匹配频度获取模块,其中以第二临时配送地点名称代替第一临时配送地点名称;还用于将所述新的频度阈值发送给所述地点名称确认模块,其中以新的频度阈值代替预定频度阈值,直至当前匹配频度小于或等于当前频度阈值;
切割词处理模块54,用于查询推荐配送地点名称中是否含有切割词,如果含有切割词,将排列在该切割词之前的分词全部舍弃;其中切割词含有阿拉伯数字,位于推荐配送地点名称的中部;
黑名单词处理模块56,用于查询推荐配送地点名称中是否含有黑名单词,如果含有黑名单词,舍弃该黑名单词;其中黑名单词含有阿拉伯数字,位于推荐配送地点名称的首部;
分词校验模块58,用于查询推荐配送地点名称中的分词是否全部属于预设的词根集合,如果全部属于预设的词根集合,舍弃所述已知配送地址;其中所述预设的词根集合包含所述一级词根和所述二级词根;以及,
长度校验模块60,用于当推荐配送地点名称中的分词不全部属于预设的词根集合时,验证推荐配送地点名称的长度是否符合长度限制条件,如果不符合,舍弃该推荐配送地点名称。
以上,结合具体实施例对本发明的技术方案进行了详细介绍,所描述的具体实施例用于帮助理解本发明的思想。本领域技术人员在本发明具体实施例的基础上做出的推导和变型也属于本发明保护范围之内。

Claims (20)

1.一种用于生成推荐配送地点名称的方法,其特征在于,包括:
第一步,将已知配送地址切分为多个分词,其中所述多个分词按预定顺序排列;
第二步,将多个分词中的第一分词和第二分词拼接,形成第一临时配送地点名称,其中第二分词和第一分词相邻;
第三步,查询生产配送地点名称数据库,如果数据库中存在第一临时配送地点名称,舍弃所述已知配送地址;如果数据库中不存在第一临时配送地点名称,执行第四步;
第四步,将第一临时配送地点名称与历史配送地址库进行匹配,获得第一临时配送地点名称在历史配送地址库中的匹配频度,该匹配频度小于或等于预定频度阈值时,执行第五步,反之执行第六步;
第五步,将第一临时配送地点名称确定为推荐配送地点名称;
第六步,降低预定频度阈值,得到新的频度阈值,并将第一临时配送地点名称与第三分词拼接,形成第二临时配送地点名称,返回第三步,其中以新的频度阈值代替预定频度阈值,并以第二临时配送地点名称代替第一临时配送地点名称;如此循环,直至当前匹配频度小于或等于当前频度阈值;其中第三分词和第二分词相邻。
2.如权利要求1所述的用于生成推荐配送地点名称的方法,其特征在于,在第一步将已知配送地址切分为多个分词之前,所述方法还包括:
查询所述已知配送地址中是否含有特定配送地址,如果含有特定配送地址,舍弃所述已知配送地址;其中特定配送地址指在历史配送地址库中对应的记录数超过预定值的地址。
3.如权利要求1所述的用于生成推荐配送地点名称的方法,其特征在于,在第一步将已知配送地址切分为多个分词之前,所述方法还包括:将已知配送地址中的行政区域地址全部舍弃;在第二步将多个分词中的第一分词和第二分词拼接之后,所述方法还包括:将已舍弃的行政区域地址拼接在第一分词和第二分词之前,形成第一临时配送地点名称。
4.如权利要求1所述的用于生成推荐配送地点名称的方法,其特征在于,在第一步将已知配送地址切分为多个分词之后,所述方法还包括:
查询多个分词中是否含有一级词根,如果含有一级词根,将排列在该一级词根之后的分词全部舍弃,基于剩余的分词执行第二步;其中一级词根的地址仅对应一个配送站点,所述一级词根为对应一个配送站点的分词。
5.如权利要求4所述的用于生成推荐配送地点名称的方法,其特征在于,如果所述多个分词中不含有一级词根,所述方法还包括:
查询多个分词中是否含有二级词根,如果含有二级词根,将排列在该二级词根之后的分词全部舍弃,基于剩余的分词执行第二步;
如果不含有二级词根,舍弃所述已知配送地址;其中二级词根的地址对应至少两个配送站点,所述二级词根为对应至少两个配送站点的分词,所述二级词根的地址粒度大于所述一级词根的地址粒度。
6.如权利要求1所述的用于生成推荐配送地点名称的方法,其特征在于,在确定推荐配送地点名称之后,所述方法还包括:
按照预定规则修改所述推荐配送地点名称。
7.如权利要求6所述的用于生成推荐配送地点名称的方法,其特征在于,修改所述推荐配送地点名称包括:
如果所述推荐配送地点名称中含有切割词,将排列在该切割词之前的分词全部舍弃,其中切割词含有阿拉伯数字,位于推荐配送地点名称的中部。
8.如权利要求6所述的用于生成推荐配送地点名称的方法,其特征在于,修改所述推荐配送地点名称包括:
如果所述推荐配送地点名称中含有黑名单词,舍弃该黑名单词,其中黑名单词含有阿拉伯数字,位于推荐配送地点名称的首部。
9.如权利要求1所述的用于生成推荐配送地点名称的方法,其特征在于,在确定推荐配送地点名称之后,所述方法还包括:
验证推荐配送地点名称的长度是否符合长度限制条件,如果不符合,舍弃推荐配送地点名称。
10.一种用于生成推荐配送地点名称的方法,其特征在于,包括:
第一步,查询一已知配送地址中是否含有特定配送地址,如果含有特定配送地址,舍弃所述已知配送地址;如果不含有特定配送地址,执行第二步;其中特定配送地址指在历史配送地址库中对应的记录数超过预定值的地址;
第二步,将所述已知配送地址中的行政区域地址全部舍弃;
第三步,将所述已知配送地址中的剩余文本切分为多个分词,其中所述多个分词按预定顺序排列;
第四步,查询所述多个分词中是否含有一级词根,如果含有一级词根,将排列在该一级词根之后的分词全部舍弃,基于剩余的分词执行第五步;如果所述多个分词中不含有一级词根,查询所述多个分词中是否含有二级词根,如果含有二级词根,将排列在该二级词根之后的分词全部舍弃,基于剩余的分词执行第五步;如果不含有二级词根,舍弃所述剩余文本;其中一级词根的地址仅对应一个配送站点,二级词根的地址对应至少两个配送站点,所述一级词根为对应一个配送站点的分词,所述二级词根为对应至少两个配送站点的分词,所述二级词根的地址粒度大于所述一级词根的地址粒度;
第五步,将所述剩余的分词中的第一分词和第二分词拼接,并将已舍弃的行政区域地址拼接在第一分词和第二分词之前,形成第一临时配送地点名称;其中第二分词和第一分词相邻;
第六步,查询生产配送地点名称数据库,如果数据库中存在第一临时配送地点名称,舍弃所述已知配送地址;如果数据库中不存在第一临时配送地点名称,执行第七步;
第七步,将第一临时配送地点名称与历史配送地址库进行匹配,获得第一临时配送地点名称在历史配送地址库中的匹配频度,该匹配频度小于或等于预定频度阈值时,执行第八步,反之执行第九步;
第八步,将第一临时配送地点名称确定为推荐配送地点名称;
第九步,降低预定频度阈值,得到新的频度阈值,并将第一临时配送地点名称与第三分词拼接,形成第二临时配送地点名称,返回第六步,其中以新的频度阈值代替预定频度阈值,并以第二临时配送地点名称代替第一临时配送地点名称;如此循环,直至当前匹配频度小于或等于当前频度阈值,执行第十步;其中第三分词和第二分词相邻;
第十步,查询推荐配送地点名称中是否含有切割词,如果含有切割词,将排列在该切割词之前的分词全部舍弃,执行第十一步;否则直接执行第十一步;其中切割词含有阿拉伯数字,位于推荐配送地点名称的中部;
第十一步,查询推荐配送地点名称中是否含有黑名单词,如果含有黑名单词,舍弃该黑名单词,执行第十二步;否则直接执行第十二步;其中黑名单词含有阿拉伯数字,位于推荐配送地点名称的首部;
第十二步,查询推荐配送地点名称中的分词是否全部属于预设的词根集合,如果全部属于预设的词根集合,舍弃所述已知配送地址,如果不全部属于预设的词根集合,执行第十三步;其中所述预设的词根集合包含所述一级词根和所述二级词根;
第十三步,验证推荐配送地点名称的长度是否符合长度限制条件,如果不符合,舍弃该推荐配送地点名称。
11.一种用于生成推荐配送地点名称的装置,其特征在于,包括:
分词处理模块,用于将已知配送地址切分为多个分词,其中所述多个分词按预定顺序排列;
第一拼接处理模块,用于将多个分词中的第一分词和第二分词拼接,形成第一临时配送地点名称,其中第二分词和第一分词相邻;
查重处理模块,用于查询生产配送地点名称数据库,如果该数据库中存在第一临时配送地点名称,舍弃所述已知配送地址;
匹配频度获取模块,用于当该数据库中不存在第一临时配送地点名称时,将第一临时配送地点名称与历史配送地址库进行匹配,获得第一临时配送地点名称在历史配送地址库中的匹配频度;
地点名称确认模块,用于当该匹配频度小于或等于预定频度阈值时,将第一临时配送地点名称确定为推荐配送地点名称;
频度阈值重置模块,用于当该匹配频度大于预定频度阈值时,降低预定频度阈值,得到新的频度阈值;
第二拼接处理模块,用于将第一临时配送地点名称与第三分词拼接,形成第二临时配送地点名称,其中第三分词和第二分词相邻;
循环处理模块,用于将所述第二临时配送地点名称发送给所述查重处理模块和所述匹配频度获取模块,其中以第二临时配送地点名称代替第一临时配送地点名称;还用于将所述新的频度阈值发送给所述地点名称确认模块,其中以新的频度阈值代替预定频度阈值,直至当前匹配频度小于或等于当前频度阈值。
12.如权利要求11所述的用于生成推荐配送地点名称的装置,其特征在于,还包括:特定配送地址处理模块,用于在所述分词处理模块将已知配送地址切分为多个分词之前,查询所述已知配送地址中是否含有特定配送地址,如果含有特定配送地址,舍弃所述已知配送地址;其中特定配送地址指在历史配送地址库中对应的记录数超过预定值的地址。
13.如权利要求11所述的用于生成推荐配送地点名称的装置,其特征在于,还包括:行政区域地址处理模块,用于在所述分词处理模块将已知配送地址切分为多个分词之前,将已知配送地址中的行政区域地址全部舍弃;还用于在第一拼接处理模块将多个分词中的第一分词和第二分词拼接之后,将舍弃的行政区域地址拼接在第一分词和第二分词之前,形成第一临时配送地点名称。
14.如权利要求11所述的用于生成推荐配送地点名称的装置,其特征在于,还包括:一级词根处理模块,用于所述分词处理模块将已知配送地址切分为多个分词之后,查询多个分词中是否含有一级词根,如果含有一级词根,将排列在该一级词根之后的分词全部舍弃,所述第一拼接处理模块基于剩余的分词执行拼接处理;其中一级词根的地址仅对应一个配送站点,所述一级词根为对应一个配送站点的分词。
15.如权利要求14所述的用于生成推荐配送地点名称的装置,其特征在于,还包括:二级词根处理模块,用于当所述多个分词中不含有一级词根时,查询多个分词中是否含有二级词根,如果含有二级词根,将排列在该二级词根之后的分词全部舍弃,所述第一拼接处理模块基于剩余的分词执行拼接处理;如果不含有二级词根,舍弃所述已知配送地址;其中二级词根的地址对应至少两个配送站点,所述二级词根为对应至少两个配送站点的分词,所述二级词根的地址粒度大于所述一级词根的地址粒度。
16.如权利要求11所述的用于生成推荐配送地点名称的装置,其特征在于,还包括:地点名称修改模块,用于在所述地点名称确认模块确定推荐配送地点名称之后,按照预定规则修改所述推荐配送地点名称。
17.如权利要求16所述的用于生成推荐配送地点名称的装置,其特征在于,所述地点名称修改模块包括切割词处理子模块,用于当所述推荐配送地点名称中含有切割词时,将排列在该切割词之前的分词全部舍弃,其中切割词含有阿拉伯数字,位于推荐配送地点名称的中部。
18.如权利要求16所述的用于生成推荐配送地点名称的装置,其特征在于,所述地点名称修改模块包括黑名单词处理子模块,用于当所述推荐配送地点名称中含有黑名单词时,舍弃该黑名单词,其中黑名单词含有阿拉伯数字,位于推荐配送地点名称的首部。
19.如权利要求11所述的用于生成推荐配送地点名称的装置,其特征在于,还包括:长度校验模块,用于验证推荐配送地点名称的长度是否符合长度限制条件,如果不符合,舍弃推荐配送地点名称。
20.一种用于生成推荐配送地点名称的装置,其特征在于,包括:
特定配送地址处理模块,用于查询一已知配送地址中是否含有特定配送地址,如果含有特定配送地址,舍弃所述已知配送地址;其中特定配送地址指在历史配送地址库中对应的记录数超过预定值的地址;
行政区域地址处理模块,用于当所述已知配送地址中不含有特定配送地址时,将所述已知配送地址中的行政区域地址全部舍弃;
分词处理模块,用于将所述已知配送地址中的剩余文本切分为多个分词,其中所述多个分词按预定顺序排列;
一级词根处理模块,用于查询所述多个分词中是否含有一级词根,如果含有一级词根,将排列在该一级词根之后的分词全部舍弃,得到剩余的分词,所述一级词根为对应一个配送站点的分词;
二级词根处理模块,用于当所述多个分词中不含有一级词根时,查询所述多个分词中是否含有二级词根,如果含有二级词根,将排列在该二级词根之后的分词全部舍弃,得到剩余的分词;还用于当所述多个分词中不含有二级词根时,舍弃所述剩余文本;其中一级词根的地址仅对应一个配送站点,二级词根的地址对应至少两个配送站点,所述二级词根为对应至少两个配送站点的分词,所述二级词根的地址粒度大于所述一级词根的地址粒度;
第一拼接处理模块,用于将所述剩余的分词中的第一分词和第二分词拼接,并将所述行政区域地址处理模块舍弃的行政区域地址拼接在第一分词和第二分词之前,形成第一临时配送地点名称;其中第二分词和第一分词相邻;
查重处理模块,用于查询生产配送地点名称数据库,如果该数据库中存在第一临时配送地点名称,舍弃所述已知配送地址;
匹配频度获取模块,用于当该数据库中不存在第一临时配送地点名称时,将第一临时配送地点名称与历史配送地址库进行匹配,获得第一临时配送地点名称在历史配送地址库中的匹配频度;
地点名称确认模块,用于当匹配频度小于或等于预定频度阈值时,将第一临时配送地点名称确定为推荐配送地点名称;
频度阈值重置模块,用于当该匹配频度大于预定频度阈值时,降低预定频度阈值,得到新的频度阈值;
第二拼接处理模块,用于将第一临时配送地点名称与第三分词拼接,形成第二临时配送地点名称;其中第三分词和第二分词相邻;
循环处理模块,用于将所述第二临时配送地点名称发送给所述查重处理模块和所述匹配频度获取模块,其中以第二临时配送地点名称代替第一临时配送地点名称;还用于将所述新的频度阈值发送给所述地点名称确认模块,其中以新的频度阈值代替预定频度阈值,直至当前匹配频度小于或等于当前频度阈值;
切割词处理模块,用于查询推荐配送地点名称中是否含有切割词,如果含有切割词,将排列在该切割词之前的分词全部舍弃;其中切割词含有阿拉伯数字,位于推荐配送地点名称的中部;
黑名单词处理模块,用于查询推荐配送地点名称中是否含有黑名单词,如果含有黑名单词,舍弃该黑名单词;其中黑名单词含有阿拉伯数字,位于推荐配送地点名称的首部;
分词校验模块,用于查询推荐配送地点名称中的分词是否全部属于预设的词根集合,如果全部属于预设的词根集合,舍弃所述已知配送地址;其中所述预设的词根集合包含所述一级词根和所述二级词根;以及,
长度校验模块,用于当推荐配送地点名称中的分词不全部属于预设的词根集合时,验证推荐配送地点名称的长度是否符合长度限制条件,如果不符合,舍弃该推荐配送地点名称。
CN201410215906.5A 2014-05-21 2014-05-21 一种用于生成推荐配送地点名称的方法和装置 Active CN103984735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410215906.5A CN103984735B (zh) 2014-05-21 2014-05-21 一种用于生成推荐配送地点名称的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410215906.5A CN103984735B (zh) 2014-05-21 2014-05-21 一种用于生成推荐配送地点名称的方法和装置

Publications (2)

Publication Number Publication Date
CN103984735A CN103984735A (zh) 2014-08-13
CN103984735B true CN103984735B (zh) 2017-02-15

Family

ID=51276708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410215906.5A Active CN103984735B (zh) 2014-05-21 2014-05-21 一种用于生成推荐配送地点名称的方法和装置

Country Status (1)

Country Link
CN (1) CN103984735B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978403B (zh) * 2015-06-04 2018-08-24 无锡天脉聚源传媒科技有限公司 一种视频专辑名称的生成方法及装置
CN104991924B (zh) * 2015-06-26 2018-10-09 百度在线网络技术(北京)有限公司 用于确定新供应点的地址的方法和装置
CN106372821B (zh) * 2015-07-21 2020-05-08 菜鸟智能物流控股有限公司 确定服务站点信息的方法及装置
CN105373588B (zh) * 2015-10-14 2019-05-24 浙江百世技术有限公司 快递分拣装置及方法
CN107025531B (zh) * 2016-01-29 2021-06-29 菜鸟智能物流控股有限公司 地址修改信息处理方法及装置
CN105808784B (zh) * 2016-03-31 2020-07-07 北京星选科技有限公司 推荐方法和装置
CN106127327B (zh) * 2016-05-17 2019-12-31 北京京东尚科信息技术有限公司 基于gis的配送站点选址方法和系统
CN106875264A (zh) * 2017-03-31 2017-06-20 北京京东尚科信息技术有限公司 订单信息管理方法、装置和订单分拣系统
CN108256718B (zh) * 2017-05-04 2022-04-29 平安科技(深圳)有限公司 保单服务任务分配方法、装置、计算机设备和存储设备
CN108875743B (zh) * 2017-05-15 2022-02-22 创新先进技术有限公司 一种文本识别方法及装置
CN107194791A (zh) * 2017-06-23 2017-09-22 上海捷超脚手架有限公司 一种盘扣式脚手架商业运营模式
CN107291695B (zh) * 2017-06-28 2019-01-11 三角兽(北京)科技有限公司 信息处理装置及其分词处理方法
CN109255565B (zh) * 2017-07-14 2022-12-16 菜鸟智能物流控股有限公司 地址的归属识别和物流任务的分发方法及其装置
CN107967332A (zh) * 2017-11-28 2018-04-27 厦门市美亚柏科信息股份有限公司 企业地址识别方法及识别系统
CN109919532B (zh) * 2017-12-13 2023-06-27 菜鸟智能物流控股有限公司 一种物流节点确定方法及装置
CN110009284A (zh) * 2019-04-03 2019-07-12 拉扎斯网络科技(上海)有限公司 信息处理方法、装置、存储介质和电子设备
CN112100161B (zh) * 2019-09-17 2021-05-28 上海寻梦信息技术有限公司 数据处理方法及系统、电子设备及存储介质
CN111859956B (zh) * 2020-07-09 2021-08-27 睿智合创(北京)科技有限公司 一种用于金融行业的地址分词方法
CN112101878B (zh) * 2020-11-11 2021-02-19 万邑通商(北京)信息科技有限公司 一种自动校验和修正全球地址的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350012A (zh) * 2007-07-18 2009-01-21 北京灵图软件技术有限公司 一种地址匹配的方法和系统
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
CN101996247A (zh) * 2010-11-10 2011-03-30 百度在线网络技术(北京)有限公司 地址数据库的建构方法及装置
CN103605752A (zh) * 2013-11-21 2014-02-26 武大吉奥信息技术有限公司 一种基于语义识别的地址匹配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350012A (zh) * 2007-07-18 2009-01-21 北京灵图软件技术有限公司 一种地址匹配的方法和系统
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
CN101996247A (zh) * 2010-11-10 2011-03-30 百度在线网络技术(北京)有限公司 地址数据库的建构方法及装置
CN103605752A (zh) * 2013-11-21 2014-02-26 武大吉奥信息技术有限公司 一种基于语义识别的地址匹配方法

Also Published As

Publication number Publication date
CN103984735A (zh) 2014-08-13

Similar Documents

Publication Publication Date Title
CN103984735B (zh) 一种用于生成推荐配送地点名称的方法和装置
CN103785616B (zh) 一种基于地理信息系统的邮件预分拣装置
CN111192004A (zh) 用于当前待办任务和后续待办工作流程展示的方法
CN105630938A (zh) 一种智能问答系统
CN104077308A (zh) 一种物流服务范围确定方法及装置
CN109510824A (zh) 一种接口报文的校验方法及装置
CN106875264A (zh) 订单信息管理方法、装置和订单分拣系统
CN105095320A (zh) 基于关系叠加组合的文档的标识、关联、搜索及展现的系统
CN105677864A (zh) 电网调度结构化数据的检索方法及装置
CN103995908A (zh) 一种数据导入方法及装置
CN106269528A (zh) 提供地址分拣信息的方法及装置
CN102314645A (zh) 一种地址匹配方法及匹配系统
CN108628811A (zh) 地址文本的匹配方法和装置
CN105740465A (zh) 一种灵活的自定义比对方法
CN103064909A (zh) 一种基于Drools规则引擎的基站数据库核查方法
CN110570113A (zh) 一种工单处理方法及系统
TW201333722A (zh) 大量多元資料篩選管理的機制與方法
CN106528641A (zh) 一种数据存储方法、装置及通信网关机
CN106897437A (zh) 一种知识系统的高阶规则多分类方法及其系统
CN105931093A (zh) 一种产品设计互联网平台
CN105653576A (zh) 信息搜索的方法及装置、人工座席服务方法及系统
CN104102694B (zh) 树形节点排序方法和树形节点排序装置
CN103678513B (zh) 一种交互式的检索式生成方法及系统
CN109462403A (zh) 一种实现寄递地址编码的方法及系统
CN104699753A (zh) 一种基于云数据库的知识产权查询系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200518

Address after: 710100 Building 5, center square, aerospace city, No. 666, East Chang'an Street, national civil aerospace industry base, Xi'an City, Shaanxi Province

Patentee after: Xi'an jingxundi Supply Chain Technology Co., Ltd

Address before: 100080, Beijing, Suzhou Street, No. 20, building 2, No. 2, Haidian District

Co-patentee before: BEIJING JINGDONG CENTURY TRADING Co.,Ltd.

Patentee before: BEIJING JINGDONG SHANGKE INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right