CN111198954B - 一种下单地址结构化解析方法和系统 - Google Patents

一种下单地址结构化解析方法和系统 Download PDF

Info

Publication number
CN111198954B
CN111198954B CN201911189592.5A CN201911189592A CN111198954B CN 111198954 B CN111198954 B CN 111198954B CN 201911189592 A CN201911189592 A CN 201911189592A CN 111198954 B CN111198954 B CN 111198954B
Authority
CN
China
Prior art keywords
information
text
sub
address
city
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911189592.5A
Other languages
English (en)
Other versions
CN111198954A (zh
Inventor
赵兴
陈才宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Leap New Technology Co ltd
Original Assignee
Shenzhen Leap New Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Leap New Technology Co ltd filed Critical Shenzhen Leap New Technology Co ltd
Priority to CN201911189592.5A priority Critical patent/CN111198954B/zh
Publication of CN111198954A publication Critical patent/CN111198954A/zh
Application granted granted Critical
Publication of CN111198954B publication Critical patent/CN111198954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种下单地址结构化解析方法和系统。其中方法包括:S1、将待解析下单地址文本项作预处理后,分割成包含地址信息和姓名信息在内的多个子文本项;该多个子文本项依预处理前的文本顺序依次排序;S2、将子文本项依次与省市集合数据集作省市匹配,直至提取出有效省市信息;S3、从该多个子文本项中提取出姓名信息;S4、根据含有效省市信息的子文本项和含姓名信息的子文本项间的位置关系,提取出地址信息。通过上述方式,无需调用地图接口就匹配识别出省市地址信息,既节约计算资源与调用成本,又缩短接口响应时间。另外,将信息杂糅在一起的待解析下单地址分割成多个子文本项,实现各类信息切分,从而准确识别出地址信息,提高解析精度。

Description

一种下单地址结构化解析方法和系统
技术领域
本发明涉及地址解析技术领域,更具体而言,涉及一种下单地址结构化解 析方法和系统。
背景技术
随着电商行业的飞速发展,越来越多的人选择网上购物,而在网上下单时 最令人烦恼的便是地址信息的填写。智能地址解析工具的出现解决了这一问题, 其能根据客户复制粘贴过来的地址文本自动解析出相应的省份、城市、市区、 电话以及名字等关键词信息。然而提升地址解析准确度仍然是行业的难点,其 主要难点之一是文本关键词分词不准确,所谓文本关键词指的是客户姓名、电话、地址、备注等信息。很多用户在输入这些信息时并没有标点符号或者空格, 使得文本关键词信息杂糅在一起,造成了语句结构的混乱;同时,部分文本也 存在着关键词信息的缺失,这些都给地址解析模型的准确率带来了困难和挑战。 目前的地址解析工具大都需要调用地图接口来进行地址匹配,但采用地图接口 进行地址匹配,不仅对于解析地址中包含的其它关键词信息无法区分,而且数 据响应时间较长;此外,用户输入的下单地址信息中的非地址关键词信息与地址关键词文本杂糅在一起,往往也会对地图接口返回的结构化地址准确度产生 负面影响。
发明内容
本发明要解决的技术问题是提供一种下单地址结构化解析方法和系统,以 解决现有的地址解析模型或工具需要依赖地图接口造成地址匹配响应时间较长、 关键词信息缺失,以及下单地址信息杂糅在一起时解析精度下降的问题。
为了解决上述技术问题,本发明第一方面提供了一种下单地址结构化解析 方法,包括如下步骤:
S1、将待解析下单地址文本项作预处理后,分割成包含地址信息和姓名信 息在内的多个子文本项;所述多个子文本项依预处理前的文本顺序依次排序;
S2、将子文本项依次与省市集合数据集作省市匹配,直至提取出有效省市 信息;
S3、从所述多个子文本项中提取出姓名信息;
S4、根据含有效省市信息的子文本项和含姓名信息的子文本项间的位置关 系,提取出地址信息。
作为本发明的进一步改进,所述步骤S1包括:
S11、根据预设匹配规则,识别出待解析下单地址文本项中的预处理信息; 所述预处理信息包含预设关键字段、数字信息以及标点符号;
S12、使用预设间隔符替代所述待解析下单地址文本项中的预处理信息,将 待解析下单地址文本项分割成包含地址信息和姓名信息在内的多个子文本项。
作为本发明的进一步改进,所述步骤S3包括:
S31、选取不含有效省市信息的子文本项中文本长度为2至4的子文本项;
S32、将所述文本长度为2至4的子文本项依次与预设姓氏集合数据集作姓 氏匹配,直至提取出姓名信息;
S33、若步骤S32未匹配成功,则将含有效省市信息的子文本项与预设姓氏 集合数据集作姓氏匹配,提取出姓名信息。
作为本发明的进一步改进,所述步骤S4包括:
S41、若所述含姓名信息的子文本项在含有效省市信息的子文本项之前,则 提取所述含有效省市信息的子文本项之后的所有子文本项作为地址信息;
S42、若所述含姓名信息的子文本项在含有效省市信息的子文本项之后,则 提取所述含姓名信息的子文本项与含有效省市信息的子文本项之间的所有子文 本项作为地址信息;
S43、若所述含姓名信息的子文本项与含有效省市信息的子文本项为同一个,
作为本发明的进一步改进,所述步骤S2中的有效省市信息包括城市名称信 息,或省份和城市名称信息,且省份信息的文本顺序在城市名称信息文本顺序 之前。
为了进一步解决上述问题,本发明第二方面提供了一种下单地址结构化解 析系统,包括:
预处理模块,用于将待解析下单地址文本项作预处理后,分割成包含地址 信息和姓名信息在内的多个子文本项;所述多个子文本项依预处理前的文本顺 序依次排序;
省市信息提取模块,用于将子文本项依次与省市集合数据集作省市匹配, 直至提取出有效省市信息;
姓名信息提取模块,用于从所述多个子文本项中提取出姓名信息;
地址信息提取模块,用于根据含有效省市信息的子文本项和含姓名信息的 子文本项间的位置关系,提取出地址信息。
作为本发明的进一步改进,所述预处理模块包括:
识别单元,用于根据预设匹配规则,识别出待解析下单地址文本项中的预 处理信息;所述预处理信息包含预设关键字段、数字信息以及标点符号;
预处理单元,用于使用预设间隔符替代所述待解析下单地址文本项中的预 处理信息,将待解析下单地址文本项分割成包含地址信息和姓名信息在内的多 个子文本项。
作为本发明的进一步改进,所述姓名提取模块包括:
选取单元,用于选取不含有效省市信息的子文本项中文本长度为2至4的 子文本项;
匹配单元,用于将所述文本长度为2至4的子文本项依次与预设姓氏集合 数据集作姓氏匹配,直至提取出姓名信息;
所述匹配单元,还用于若将所述文本长度为2至4的子文本项依次与预设 姓氏集合数据集作姓氏匹配未成功,则将含有效省市信息的子文本项与预设姓 氏集合数据集作姓氏匹配,提取出姓名信息。
作为本发明的进一步改进,所述地址信息提取模块包括:
第一地址信息提取单元,用于若所述含姓名信息的子文本项在含有效省市 信息的子文本项之前,则提取所述含有效省市信息的子文本项之后的所有子文 本项作为地址信息;
第二地址信息提取单元,用于若所述含姓名信息的子文本项在含有效省市 信息的子文本项之后,则提取所述含姓名信息的子文本项与含有效省市信息的 子文本项之间的所有子文本项作为地址信息;
第三地址信息提取单元,用于若所述含姓名信息的子文本项与含有效省市 信息的子文本项为同一个,则提取该子文本项中姓名信息与有效省市信息之间 的文本作为地址信息。
作为本发明的进一步改进,所述有效省市信息包括城市名称信息,或省份 和城市名称信息,且省份信息的文本顺序在城市名称信息文本顺序之前。
与现有技术相比,本发明提供的下单地址结构化解析方法和系统,通过建 立独立的省市集合数据集,可以无需调用地图接口就可从待解析下单地址文本 项中匹配识别出省市地址信息,既节约计算资源与调用成本,又缩短接口响应 时间,并可以识别出关键词信息。另外,通过对待解析下单地址文本项进行预 处理,将信息杂糅在一起的待解析下单地址文本项分割成多个子文本项,实现各类信息切分,从而准确识别出地址信息,提高地址解析精度。
附图说明
图1是本发明实施例提供的一种下单地址结构化解析方法的流程示意图;
图2是本发明实施例提供的第一种下单地址结构化解析系统的结构示意图;
图3是本发明实施例提供的第二种下单地址结构化解析系统的结构示意图;
图4是本发明实施例提供的第三种下单地址结构化解析系统的结构示意图;
图5是本发明实施例提供的第四种下单地址结构化解析系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具 体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。
为了使本揭示内容的叙述更加详尽与完备,下文针对本发明的实施方式与 具体实施例提出了说明性的描述;但这并非实施或运用本发明具体实施例的唯 一形式。实施方式中涵盖了多个具体实施例的特征以及用以建构与操作这些具 体实施例的方法步骤与其顺序。然而,亦可利用其它具体实施例来达成相同或 均等的功能与步骤顺序。
为了解决现有的地址解析模型或工具需要依赖地图接口造成地址匹配响应 时间较长、关键词信息缺失,以及下单地址信息杂糅在一起时解析精度下降的 问题,本发明提供了一种下单地址结构化解析方法,请参阅图1所示,图1为本发明实施例提供的一种下单地址结构化解析方法的流程示意图,在该实施例 中,该方法包括以下步骤:
步骤S1:将待解析下单地址文本项作预处理后,分割成包含地址信息和姓 名信息在内的多个子文本项。
可选地,在步骤S1中,先根据预设匹配规则,识别出待解析下单地址文本 项中的预处理信息;然后使用预设间隔符替代该待解析下单地址文本项中的预 处理信息,从而将待解析下单地址文本项分割成包含地址信息和姓名信息在内 的多个子文本项,该多个子文本项依预处理前的文本顺序依次排序。
可选地,上述预处理信息包含预设关键字段、数字信息以及标点符号。
可选地,该预设关键字段包含注释类字段和货物数量单位字段,注释类字 段包含“收件人”、“手机”或“邮编”等字段中的任意一种或多种字段信息, 货物数量单位字段包含“箱”、“件”、“盒”、“筐”、“份”或“包”等字段中的 任意一种或多种字段信息。
可选地,数字信息包括电话号码、邮政编码或数量等数字信息中的任意一 种或多种数字信息。可选地,电话号码和邮政编码类的数字信息基于预设的正 则表达式进行识别。数量类的数字信息基于从该待解析下单地址文本项中提取 的货物数量单位字段来进行解析,即提取到货物数量单位字段后,从该货物数 量单位字段往前匹配数字,直到所识别到的字符不是数字为止。
可选地,该预设间隔符为空格、“/”等,此处不作限制。
现对上述预处理过程进行举例说明,假设待解析下单地址文本项为“广东 省深圳市宝安区**街道**小区××栋××单元,收件人张三;手机166××××××××, 邮编518×××,42箱,备注:请尽快发货”;预设关键字段包括“收件人”、“箱”、 “邮编”和“手机”。
首先识别出货物数量单位“箱”,再从“箱”字所在位置往前匹配数字直到 所识别的字符不是数字为止,如此可识别出货物数量“42”。同理,从该待解析 下单地址中找到注释类字段、以及其所在的位置,如此可识别出注释类字段包 括:“收件人”、“手机”和“邮编”。
通常情况下,电话号码类的数字信息包括7位或8位的固定电话号码和11 位的手机号码信息,基于该规律,利用正则表达式从该待解析下单地址中解析 出电话号码类信息,在该举例中,如此可识别出手机号码“166××××××××”。同 理,邮政编码通常由6位数字组成,也利用正则表达式从该待解析下单地址中 解析出邮政编码信息,在该举例中,如此可识别出邮政编码“518×××”。
继续识别出标点符号后,再使用预设间隔符进行替代上述识别出的所有信 息,在本实施例中,采用预设间隔符为空格,则利用空格替代上述识别出的“42 箱”、“收件人”、“手机”、“邮编”、“166××××××××”、“518×××”和标点符号, 并以该空格作为分隔标志,将该待解析下单地址文本项分割成包含地址信息和 姓名信息在内的多个子文本项,该多个子文本项依预处理前的文本顺序排列, 如下所示:[广东省深圳市宝安区**街道**小区××栋××单元张三备注请尽快 发货]。通过如此的预处理方式,对信息糅杂在一起的待解析下单地址文本项进 行切分,实现各类信息切分,从而有利于后序识别出地址信息,提高地址解析 精度。
步骤S2:将该多个子文本项依次与省市集合数据集作省市匹配,直至提取 出有效省市信息。
可选地,该省市集合数据集根据国家行政区划建立,并且,该数据集中的 城市和省份的对应关系可以通过全国国家行政区划进行数据维护。可选地,该 有效省市信息包括城市名称信息,或省份和城市名称信息。需要说明的是,当 提取出的省市信息包括省份和城市名称信息时,需判断省份和城市名称之间的 先后位置,只有当省份信息的文本顺序要在城市名称信息文本顺序之前,才视为提取出的省市信息有效。承接步骤S1中的举例说明,通过步骤S1得到的待 解析下单地址文本项为:[广东省深圳市宝安区**街道**小区××栋××单元张三 备注请尽快发货],将此待解析下单地址文本项中的各个子文本项依次与建立的 省市数据集作省市匹配,从而提取出第一个子文本项中的省份信息“广东省”, 提取出第二子文本项中的城市名称信息“深圳市”,且省份信息出现在城市名称 信息之前,表明此时提取出的省份信息和城市名称信息是有效的。
进一步的,当提取出的省市信息包括省份和城市名称信息,但省份信息的 文本顺序要在城市名称信息文本顺序之后时,若城市名称信息位于其所在子文 本项的开头,则可将省份信息除去,保留下来的城市信息即为有效省市信息。 例如,现有待解析下单地址文本项为“南宁市**区广东顺德菜馆,李四 133××××××××”,预处理后得到的按序排列的多个子文本项为[南宁市**区广东顺 德菜馆李四];进行省市信息提取得到“南宁市”和“广东”,“南宁市”在“广东”前面,但是,“南宁市”在其所在子文本项“南宁市**区广东顺德菜馆”的 开头,则去除省份信息“广东”,保留下来的城市信息“南宁市”即为有效省市 信息。
可选地,提取出有效省市信息后,记录含有该省市信息的子文本项在待解 析下单地址文本项中的位置。
可选地,若得到的有效省市信息仅包括城市名称信息,则可通过建立的省 市集合数据集中省份和城市的对应关系进行省份补全,另外,若得到的有效城 市信息为县级市,则还可通过建立省市集合数据集进行补全地级市或者副省级 市。
在本实施例中,通过建立独立的省市集合数据集,可以无需调用地图接口 即可自动识别出省市信息,既节约计算资源与调用成本,又缩短接口响应时间。 同时,还能对省份信息或地级市、副省级市信息进行补全,以显示完整的地址 信息,避免货物配送方向与预期地点偏离较远,耽误配送进度以及浪费物流资 源。
步骤S3:从该多个子文本项中提取出姓名信息。
可选地,在步骤S3中,针对提取有效省市信息后的待解析下单地址文本项 中的多个子文本项,先选取不含有效省市信息的子文本项中文本长度为2至4 的子文本项;然后将该文本长度为2至4的子文本项依次与预设姓氏集合数据 集作姓氏匹配,直至提取出姓名信息。可选地,在将文本长度为2至4的子文 本项依次与预设姓氏集合数据集作姓氏匹配过程中主要依次判断各个子文本项的前一个中文汉字或者前两个中文汉字是否为姓氏,若为姓氏,则表明匹配上, 将该子文本项判定为名字,并记录该姓名信息子文本项在待解析下单地址文本 项中的位置。
若未匹配成功,可能是因为名字存在已经提取的有效省市信息的子文本项 里面,则将含有效省市信息的子文本项与预设姓氏集合数据集作姓氏匹配,提 取出姓名信息,具体为:从含有有效省市信息的子文本项中从后往前寻找姓名, 如只要判断该子文本项的倒数第二个汉字、倒数第三个汉字、倒数第二、第三 两个汉字、或者倒数第三第四两个汉字是否为姓氏,若为姓氏,则从该子文本项中提取出姓名信息。例如,待解析下单地址文本项为“广东省深圳市宝安区 **街道**小区××栋××单元张三;手机166××××××××;备注:请尽快发货”,经 预处理后,该待解析下单地址文本项为[广东省深圳市宝安区**街道**小区××栋 ××单元张三备注请尽快发货],通过省市信息提取后得到的含有效省市信息子 文本项为[广东省深圳市宝安区**街道**小区××栋××单元张三];姓名信息提取 时,先选取不含有有效省市信息子本文项[备注请尽快发货]依次与预设姓氏集 合数据集作姓氏匹配,则会出现匹配失败,那么这种情况下,则从含有有效省市信息的子文本项[广东省深圳市宝安区**街道**小区××栋××单元张三]中从后 往前寻找姓名,通过匹配该子文本项倒数第二个汉子“张”为姓氏,则从该子文本项中提取出姓名信息[张三],并记录该姓名信息子文本项在待解析下单地址文本项中的位置。
可选地,该预设姓氏集合数据集基于百家姓建立。
步骤S4:根据该含有效省市信息的子文本项和含姓名信息的子文本项间的 位置关系,提取出地址信息。
可选地,在步骤S4中,若该含姓名信息的子文本项在含有效省市信息的子 文本项之前,则提取该含有效省市信息的子文本项之后的所有子文本项作为地 址信息;若该含姓名信息的子文本项在含有效省市信息的子文本项之后,则提 取该含姓名信息的子文本项与含有效省市信息的子文本项之间的所有子文本项作为地址信息。
承接步骤S1中的举例说明,待解析下单地址为“广东省深圳市宝安区**街 道**小区××栋××单元,收件人张三;手机166××××××××,邮编518×××,42箱, 备注:请尽快发货”,通过步骤S1得到依预处理前的文本顺序排列多个子文本 项为:[广东省深圳市宝安区**街道**小区××栋××单元张三备注请尽快发货]; 通过步骤S2以及步骤S3提取有效省市信息和姓名信息后,得到有效省市信息 子文本项为“广东省深圳市”,姓名信息为“张三”,通过二者的位置判断出该 含有有效省市信息子文本项在含有姓名信息的子文本项之前,则提取二者之间 所有子文本项作为地址信息,即[宝安区**街道**小区××栋××单元]作为地址信 息。
可选地,在提取出地址信息之后,还可以从地址信息中提取出区信息或镇 信息。具体可以为从截取出来的地址信息文本中的前五个汉字字符中判断是否 有“区”或“镇”等关键字存在(一般市区或镇的名称长度不超过五个汉字字 符),若存在则截取从地址信息文本的开头到“区”或“镇”字这一段文本作为 市区名称或镇名称。
本发明提供的下单地址结构化解析方法通过建立独立的省市集合数据集, 可以无需调用地图接口就可从待解析下单地址文本项中匹配识别出省市地址信 息,既节约计算资源与调用成本,又缩短接口响应时间,并可以识别出关键词 信息。另外,通过对待解析下单地址文本项进行预处理,将信息糅杂在一起的 待解析下单地址文本项分割成多个子文本项,实现各类信息切分,从而准确识别出地址信息,提高解析精度。
为了进一步解决问题,本发明还提供了一种下单地址结构化解析系统,用 于实现上述实施例中所述的下单地址结构化解析方法。请参阅图2所示,该系 统包括:预处理模块1、省市信息提取模块2、姓名信息提取模块3和地址信息 提取模块4。其中,预处理模块1,用于将待解析下单地址文本项作预处理后, 分割成包含地址信息和姓名信息在内的多个子文本项;该多个子文本项依预处 理前的文本顺序依次排序;省市信息提取模块2,用于将子文本项依次与省市集 合数据集作省市匹配,直至提取出有效省市信息;姓名信息提取模块3,用于从 该多个子文本项中提取出姓名信息;地址信息提取模块4,用于根据含有效省市信息的子文本项和含姓名信息的子文本项间的位置关系,提取出地址信息。
在上述实施例的基础上,其他实施例中,如图3所示,预处理模块1还包 括识别单元11和预处理单元12。其中,识别单元11,用于根据预设匹配规则, 识别出待解析下单地址文本项中的预处理信息,该预处理信息包含预设关键字 段、数字信息以及标点符号;预处理单元12,用于使用预设间隔符替代该待解 析下单地址文本项中的预处理信息,将待解析下单地址分割成包含地址信息和姓名信息在内的多个子文本项。
在上述实施例的基础上,其他实施例中,如图4所示,姓名提取模块3还 包括选取单元31和匹配单元32。其中,选取单元31,用于选取不含有效省市 信息的子文本项中文本长度为2至4的子文本项;匹配单元32,用于将该文本 长度为2至4的子文本项依次与预设姓氏集合数据集作姓氏匹配,直至提取出姓名信息;该匹配单元32,还用于若将该文本长度为2至4的子文本项依次与 预设姓氏集合数据集作姓氏匹配未成功,则将含有效省市信息的子文本项与预 设姓氏集合数据集作姓氏匹配,提取出姓名信息。
在上述实施例的基础上,其他实施例中,如图5所示,该地址信息提取模 块41还包括第一地址信息提取单元41、第二地址信息提取单元42和第三地址 信息提取单元43。其中,第一地址信息提取单元41,用于若该含姓名信息的子 文本项在含有效省市信息的子文本项之前,则提取该含有效省市信息的子文本 项之后的所有子文本项作为地址信息;第二地址信息提取单元42,用于若该含 姓名信息的子文本项在含有效省市信息的子文本项之后,则提取该含姓名信息的子文本项与含有效省市信息的子文本项之间的所有子文本项作为地址信息; 第三地址信息提取单元43,用于若该含姓名信息的子文本项与含有效省市信息 的子文本项为同一个,则提取该子文本项中姓名信息与有效省市信息之间的文 本作为地址信息。
在上述实施例的基础上,其他实施例中,该有效省市信息包括城市名称信 息,或省份和城市名称信息,且省份信息的文本顺序在城市名称信息文本顺序 之前。
关于上述五个实施例提供的下单地址结构化解析系统中各模块实现技术方 案的其他细节,可参见上述实施例中的下单地址结构化解析方法中的描述,此 处不再赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实 施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部 分互相参见即可。对于系统类实施例而言,由于其与方法实施例基本相似,所 以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (8)

1.一种下单地址结构化解析方法,其特征在于,包括如下步骤:
S1、将待解析下单地址文本项作预处理后得到预处理信息,使用预设间隔符替代所述待解析下单地址文本项中的预处理信息,分割成包含地址信息和姓名信息在内的多个子文本项;所述多个子文本项依预处理前的文本顺序依次排序;
S2、将子文本项依次与省市集合数据集作省市匹配,直至提取出有效省市信息;
S3、从所述多个子文本项中提取出姓名信息;
S4、根据含有效省市信息的子文本项和含姓名信息的子文本项间的位置关系,提取出地址信息,包括:
S41、若所述含姓名信息的子文本项在含有效省市信息的子文本项之前,则提取所述含有效省市信息的子文本项之后的所有子文本项作为所述地址信息;
S42、若所述含姓名信息的子文本项在含有效省市信息的子文本项之后,则提取所述含姓名信息的子文本项与含有效省市信息的子文本项之间的所有子文本项作为所述地址信息;
S43、若所述含姓名信息的子文本项与含有效省市信息的子文本项为同一个,则提取该子文本项中姓名信息与有效省市信息之间的文本作为所述地址信息。
2.根据权利要求1所述的下单地址结构化解析方法,其特征在于,所述步骤S1包括:
S11、根据预设匹配规则,识别出待解析下单地址文本项中的预处理信息;所述预处理信息包含预设关键字段、数字信息以及标点符号;
S12、使用预设间隔符替代所述待解析下单地址文本项中的预处理信息,将待解析下单地址文本项分割成包含地址信息和姓名信息在内的多个子文本项。
3.根据权利要求1或2所述的下单地址结构化解析方法,其特征在于,所述步骤S3包括:
S31、选取不含有效省市信息的子文本项中文本长度为2至4的子文本项;
S32、将所述文本长度为2至4的子文本项依次与预设姓氏集合数据集作姓氏匹配,直至提取出姓名信息;
S33、若步骤S32未匹配成功,则将含有效省市信息的子文本项与预设姓氏集合数据集作姓氏匹配,提取出姓名信息。
4.根据权利要求1所述的下单地址结构化解析方法,其特征在于,所述步骤S2中的有效省市信息包括城市名称信息,或省份和城市名称信息,且省份信息的文本顺序在城市名称信息文本顺序之前。
5.一种下单地址结构化解析系统,其特征在于,包括:
预处理模块,用于将待解析下单地址文本项作预处理后得到预处理信息,使用预设间隔符替代所述待解析下单地址文本项中的预处理信息,分割成包含地址信息和姓名信息在内的多个子文本项;所述多个子文本项依预处理前的文本顺序依次排序;
省市信息提取模块,用于将子文本项依次与省市集合数据集作省市匹配,直至提取出有效省市信息;
姓名信息提取模块,用于从所述多个子文本项中提取出姓名信息;
地址信息提取模块,用于根据含有效省市信息的子文本项和含姓名信息的子文本项间的位置关系,提取出地址信息;
所述地址信息提取模块包括:
第一地址信息提取单元,用于若所述含姓名信息的子文本项在含有效省市信息的子文本项之前,则提取所述含有效省市信息的子文本项之后的所有子文本项作为所述地址信息;
第二地址信息提取单元,用于若所述含姓名信息的子文本项在含有效省市信息的子文本项之后,则提取所述含姓名信息的子文本项与含有效省市信息的子文本项之间的所有子文本项作为所述地址信息;
第三地址信息提取单元,用于若所述含姓名信息的子文本项与含有效省市信息的子文本项为同一个,则提取所述子文本项中姓名信息与有效省市信息之间的文本作为所述地址信息。
6.根据权利要求5所述的下单地址结构化解析系统,其特征在于,所述预处理模块包括:
识别单元,用于根据预设匹配规则,识别出待解析下单地址文本项中的预处理信息;所述预处理信息包含预设关键字段、数字信息以及标点符号;
预处理单元,用于使用预设间隔符替代所述待解析下单地址文本项中的预处理信息,将待解析下单地址文本项分割成包含地址信息和姓名信息在内的多个子文本项。
7.根据权利要求5或6所述的下单地址结构化解析系统,其特征在于,所述姓名提取模块包括:
选取单元,用于选取不含有效省市信息的子文本项中文本长度为2至4的子文本项;
匹配单元,用于将所述文本长度为2至4的子文本项依次与预设姓氏集合数据集作姓氏匹配,直至提取出姓名信息;
所述匹配单元,还用于若将所述文本长度为2至4的子文本项依次与预设姓氏集合数据集作姓氏匹配未成功,则将含有效省市信息的子文本项与预设姓氏集合数据集作姓氏匹配,提取出姓名信息。
8.根据权利要求5所述的下单地址结构化解析系统,其特征在于,所述有效省市信息包括城市名称信息,或省份和城市名称信息,且省份信息的文本顺序在城市名称信息文本顺序之前。
CN201911189592.5A 2019-11-28 2019-11-28 一种下单地址结构化解析方法和系统 Active CN111198954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911189592.5A CN111198954B (zh) 2019-11-28 2019-11-28 一种下单地址结构化解析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911189592.5A CN111198954B (zh) 2019-11-28 2019-11-28 一种下单地址结构化解析方法和系统

Publications (2)

Publication Number Publication Date
CN111198954A CN111198954A (zh) 2020-05-26
CN111198954B true CN111198954B (zh) 2023-08-22

Family

ID=70746372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911189592.5A Active CN111198954B (zh) 2019-11-28 2019-11-28 一种下单地址结构化解析方法和系统

Country Status (1)

Country Link
CN (1) CN111198954B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0957199A (ja) * 1995-08-21 1997-03-04 Toshiba Corp 宛名読取装置及び郵便物区分装置
KR20130116577A (ko) * 2012-04-16 2013-10-24 송성운 지도 기반의 택배 물품 위치 조회 시스템 및 방법
CN105224622A (zh) * 2015-09-22 2016-01-06 中国搜索信息科技股份有限公司 面向互联网的地名地址提取与标准化方法
CN105787682A (zh) * 2014-12-25 2016-07-20 中国移动通信集团公司 一种物流业务信息处理方法及相关设备与系统
CN107025232A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 物流系统中地址信息的处理方法及装置
CN107292227A (zh) * 2017-05-03 2017-10-24 浙江百世技术有限公司 一种收/寄件信息提取方法及系统
CN108062295A (zh) * 2016-11-09 2018-05-22 北京国双科技有限公司 内容处理方法和装置
CN109255565A (zh) * 2017-07-14 2019-01-22 菜鸟智能物流控股有限公司 地址的归属识别和物流任务的分发方法及其装置
CN110070872A (zh) * 2019-04-22 2019-07-30 南京邮电大学 一种基于智能语音识别的物流填单方法
CN110378145A (zh) * 2019-06-10 2019-10-25 华为技术有限公司 一种分享内容的方法和电子设备
CN110427365A (zh) * 2019-06-25 2019-11-08 深圳市跨越新科技有限公司 提高合单准确性的地址合并方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0957199A (ja) * 1995-08-21 1997-03-04 Toshiba Corp 宛名読取装置及び郵便物区分装置
KR20130116577A (ko) * 2012-04-16 2013-10-24 송성운 지도 기반의 택배 물품 위치 조회 시스템 및 방법
CN105787682A (zh) * 2014-12-25 2016-07-20 中国移动通信集团公司 一种物流业务信息处理方法及相关设备与系统
CN105224622A (zh) * 2015-09-22 2016-01-06 中国搜索信息科技股份有限公司 面向互联网的地名地址提取与标准化方法
CN107025232A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 物流系统中地址信息的处理方法及装置
CN108062295A (zh) * 2016-11-09 2018-05-22 北京国双科技有限公司 内容处理方法和装置
CN107292227A (zh) * 2017-05-03 2017-10-24 浙江百世技术有限公司 一种收/寄件信息提取方法及系统
CN109255565A (zh) * 2017-07-14 2019-01-22 菜鸟智能物流控股有限公司 地址的归属识别和物流任务的分发方法及其装置
CN110070872A (zh) * 2019-04-22 2019-07-30 南京邮电大学 一种基于智能语音识别的物流填单方法
CN110378145A (zh) * 2019-06-10 2019-10-25 华为技术有限公司 一种分享内容的方法和电子设备
CN110427365A (zh) * 2019-06-25 2019-11-08 深圳市跨越新科技有限公司 提高合单准确性的地址合并方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于OpenCV手机拍照快递单文字识别的研究;马玲玉;中国优秀硕士论文电子期刊网(第3期);全文 *

Also Published As

Publication number Publication date
CN111198954A (zh) 2020-05-26

Similar Documents

Publication Publication Date Title
US10095711B2 (en) Method and apparatus of recommending candidate terms based on geographical location
US9619119B2 (en) Information prompt method, apparatus and terminal device
CN103186524B (zh) 一种地名识别方法和装置
US8161381B2 (en) System and method for presenting message threads
CN103368992B (zh) 一种信息推送方法及装置
US20110258193A1 (en) Method for calculating entity similarities
CN101313300A (zh) 本地搜索
CN101645086B (zh) 检索方法
CN107633081A (zh) 一种失信用户信息的查询方法及系统
CN108899015B (zh) 一种向通话中的用户提供语音反馈信息的方法和装置
CN105282344B (zh) 一种信息管理方法、信息显示方法及终端
US6631368B1 (en) Methods and apparatus for operating on non-text messages
CN101441549A (zh) 一种字符识别方法、系统及电子终端
US20170017350A1 (en) Communication terminal and method of providing unified interface to the same
CN109685417B (zh) 寄件信息确定方法及装置
CN102036198A (zh) 一种在短信内容中增加附加信息的方法及装置
CN105320691A (zh) 一种账号信息的识别方法及装置
CN111198954B (zh) 一种下单地址结构化解析方法和系统
CN111124714A (zh) 地址信息填写方法、设备及计算机可读存储介质
CN105681523A (zh) 一种自动发送生日祝福短信的方法及装置
CN111401051B (zh) 快递信息解析方法及系统
CN102567121B (zh) 实现融合通信的方法和装置
CN115409553A (zh) 一种基于大数据和位置信息的广告投放系统及其方法
JP4872433B2 (ja) 言語処理装置、携帯端末及び言語処理方法
CN1996293A (zh) 一种分析门户系统及分析门户业务的实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518000 floor 4, building a, Lufthansa aviation Park, hourui community, Hangcheng street, Bao'an District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Leap New Technology Co.,Ltd.

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant before: Shenzhen Leap New Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant