CN114444502A - 中文地址检测方法及其装置、设备、介质、产品 - Google Patents
中文地址检测方法及其装置、设备、介质、产品 Download PDFInfo
- Publication number
- CN114444502A CN114444502A CN202210105936.5A CN202210105936A CN114444502A CN 114444502 A CN114444502 A CN 114444502A CN 202210105936 A CN202210105936 A CN 202210105936A CN 114444502 A CN114444502 A CN 114444502A
- Authority
- CN
- China
- Prior art keywords
- address
- enumeration
- text
- chinese
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 62
- 230000011218 segmentation Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 21
- 238000003860 storage Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 12
- 238000012937 correction Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000004132 cross linking Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请公开一种中文地址检测方法及其装置、设备、介质、产品,所述方法包括:获取客户端设备提交的中文的地址信息,根据地址信息生成初始地址文本;按照预设步长以固定窗口滑动提取所述初始地址文本获得多个分词,以构成初始地址文本的地址特征;计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离,确定其中编辑距离最小的枚举地址为推荐地址文本;向所述客户端设备推送包含所述推荐地址文本的通知消息。本申请的技术方案能够提升电商订单中的地址信息识别的准确率,引导用户修正错误的地址信息,提升电商订单执行效率。
Description
技术领域
本申请涉及电商信息处理技术领域,尤其涉及一种中文地址检测方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
背景技术
物流服务体系在电商领域中特别重要。物流服务是从接收顾客订单开始到将商品送到顾客手中为止所发生的所有服务活动,可使交易的产品或服务实现增值。其本质是更好地满足顾客需求,即保证顾客需要的商品在顾客要求的时间内准时送达,服务能达到顾客所要求的水平等。
在电商领域的物流服务平台中,物流服务根据用户提供的地址文本进行识别提取,并规整输出各个行政层级相对应的地名,以便协助实现商品的物流送达。
现实中,由于用户习惯以及部分非平台订单缺少地址校验机制等原因,用户留下来的地址存在各种小错误,商家在自主使用物流系统发货的时候,发现系统无法正确识别地址,导致不能正常发货。
现有技术中存在多种识别中文地址相对应的技术方案,但此类方案或依赖于大数据训练而成的神经网络模型导致成本较高,或由于企图兼容多种语言而导致对中文地址的检测准确度有限,或因未考虑特定的应用场景而导致与电商领域的实际需求不匹配等,所起作用有限,因此,本申请尝试探索更贴近实际需求以提升电商领域中的中文地址检测效率的方案。
发明内容
本申请的首要目的在于解决上述问题至少之一而提供一种中文地址检测方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种中文地址检测方法,包括如下步骤:
获取客户端设备提交的中文的地址信息,根据地址信息生成初始地址文本;
按照预设步长以固定窗口滑动提取所述初始地址文本获得多个分词,以构成初始地址文本的地址特征;
计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离,确定其中编辑距离最小的枚举地址为推荐地址文本;
向所述客户端设备推送包含所述推荐地址文本的通知消息。
深化的实施例中,获取客户端设备提交的中文的地址信息,根据地址信息生成初始地址文本,包括如下步骤:
获取客户端设备提交的电商订单的中文的地址信息,所述地址信息包含与目标地区的多个行政层级相对应的多个地名;
根据该目标地区的行政层级有序拼接所述多个地名,以生成初始地址文本。
深化的实施例中,计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离的步骤之前,包括如下步骤:
获取预设的行政地名库,该行政地名库包含目标地区的每个行政层级下的所有可能的中文地名;
根据行政层级的隶属关系,对所述行政地名库中的各个行政层级的中文地名进行有序拼接,获得由所有行政层级穷举组合而成的全量枚举地址;
针对每个所述的枚举地址,按照预设步长以固定窗口滑动提取该枚举地址以获得多个分词,构成该枚举地址相应的地址特征,与该枚举地址构造为映射关系数据;
将全量枚举地址及其地址特征所构成的映射关系数据存储于枚举地址库中。
深化的实施例中,计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离,确定其中编辑距离最小的枚举地址为推荐地址文本,包括如下步骤:
计算初始地址文本的地址特征的分词数量;
计算枚举地址库中的任意一个目标枚举地址的地址特征的分词数量;
计算初始地址文本的分词数量与目标枚举地址两者的分词数量的和值与两者之间相同分词数量的两倍数之间的差值,作为两者之间的编辑距离;
根据所述编辑距离对枚举地址库中的所有枚举地址进行自小至大的排序,确定其中排序第一位的枚举地址为推荐地址文本。
扩展的实施例中,向所述客户端设备推送包含所述推荐地址文本的通知消息的步骤之后,包括如下步骤:
响应基于该通知消息提交的地址修正指令,以所述推荐地址文本作为送货地址修正所述电商订单中的地址信息。
具体化的实施例中,以所述推荐地址文本作为送货地址修正所述电商订单中的地址信息,包括如下步骤:
根据所述推荐地址文本对应各个行政层级而设置的地名,替换所述电商订单的地址信息中的各个相应行政层级的地名;
调用预设的物流计费服务,根据所述电商订单中的地址信息中各行政层级的地名相对应的费率计算出该电商订单的物流成本;
将该物流成本作为所述电商订单的关联项推送至所述的客户端设备显示。
适应本申请的目的之一而提供的一种中文地址检测装置,包括:初始地址获取模块、分词特征提取模块、编辑距离优选模块,以及推荐地址推送模块,其中,所述初始地址获取模块,用于获取客户端设备提交的中文的地址信息,根据地址信息生成初始地址文本;所述分词特征提取模块,用于按照预设步长以固定窗口滑动提取所述初始地址文本获得多个分词,以构成初始地址文本的地址特征;所述编辑距离优选模块,用于计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离,确定其中编辑距离最小的枚举地址为推荐地址文本;所述推荐地址推送模块,用于向所述客户端设备推送包含所述推荐地址文本的通知消息。
深化的实施例中,所述初始地址推送模块,包括:地名提取子模块,用于获取客户端设备提交的电商订单的中文的地址信息,所述地址信息包含与目标地区的多个行政层级相对应的多个地名;地址拼接子模块,用于根据该目标地区的行政层级有序拼接所述多个地名,以生成初始地址文本。
深化的实施例中,本申请的中文地址检测装置,还包括先于所述编辑距离优选模块调用运行的如下模块:
地名库调用模块,用于获取预设的行政地名库,该行政地名库包含目标地区的每个行政层级下的所有可能的中文地名;
地址枚举模块,用于根据行政层级的隶属关系,对所述行政地名库中的各个行政层级的中文地名进行有序拼接,获得由所有行政层级穷举组合而成的全量枚举地址;枚举地址提取模块,用于针对每个所述的枚举地址,按照预设步长以固定窗口滑动提取该枚举地址以获得多个分词,构成该枚举地址相应的地址特征,与该枚举地址构造为映射关系数据;地址库构建模块,用于将全量枚举地址及其地址特征所构成的映射关系数据存储于枚举地址库中。
深化的实施例中,所述编辑距离优选模块,包括:第一计算子模块,用于计算初始地址文本的地址特征的分词数量;第二计算子模块,用于计算枚举地址库中的任意一个目标枚举地址的地址特征的分词数量;距离计算子模块,用于计算初始地址文本的分词数量与目标枚举地址两者的分词数量的和值与两者之间相同分词数量的两倍数之间的差值,作为两者之间的编辑距离;地址推荐子模块,用于根据所述编辑距离对枚举地址库中的所有枚举地址进行自小至大的排序,确定其中排序第一位的枚举地址为推荐地址文本。
扩展的实施例中,本申请的中文地址检测装置,还包括后于所述推荐地址推送模块调用运行的如下模块:电商订单修正模块,用于响应基于该通知消息提交的地址修正指令,以所述推荐地址文本作为送货地址修正所述电商订单中的地址信息。
具体化的实施例中,所述电商订单修正模块,包括:地名替换子模块,用于根据所述推荐地址文本对应各个行政层级而设置的地名,替换所述电商订单的地址信息中的各个相应行政层级的地名;物流计费子模块,用于调用预设的物流计费服务,根据所述电商订单中的地址信息中各行政层级的地名相对应的费率计算出该电商订单的物流成本;订单完善子模块,用于将该物流成本作为所述电商订单的关联项推送至所述的客户端设备显示。
适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的中文地址检测方法的步骤。
适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的中文地址检测方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
适应本申请的另一目的而提供的一种计算机程序产品,包括计算机程序/ 指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。
相对于现有技术,本申请的优势如下:
首先,本申请基于统计原理,以根据目标地区的行政层级相对应的地名所构造的枚举地址库中的枚举地址为参照,将客户端设备的提交的初始地址文本与各个枚举地址计算编辑距离,确定编辑距离最小的枚举地址为该初始地址文本相对应的推荐地址文本,其中,所处理的初始地址文本是中文地址,由于中文表达通常每个字都有其独立的字义,并且字与字之间的组词非常灵活,且中文字名可以包含两字、三字或更长,所以基于统计原理,在为初始地址文本确定推荐地址文本的过程中,利用固定窗口和预设步长对地址进行分词构造其地址特征,利用地址特征之间的编辑距离便可快速确定出与初始地址文本最为相似的枚举地址文本作为推荐地址文本,适合中文通常以两字以上组词作为地名的具体情况,发挥统计学意义,从而获得更为精准的检测结果,辅以提升检测效率。
其次,本申请的技术方案在计算两个地址文本之间的编辑距离时,是基于统计实现的算法,无需依赖大数据进行高成本的训练,执行效率更高,而实现成本则更为低廉,适于部署于后台服务器响应海量的并发需求,从而获取规模经济效应。
此外,本申请的技术方案适用于电商平台中为电商订单的地址信息进行纠错,使得电商订单的地址信息及据此所计算的物流成本更为精准,从而提升电商交易过程中的交互效率,使消费者用户和商家用户提升基于电商订单的作业效率。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的中文地址检测方法的典型实施例的流程示意图;
图2为本申请实施例中根据地址信息生成初始地址文本的流程示意图;
图3为本申请的中文地址检测方法的一个示例性应用的原理框图;
图4为本申请实施例中构建枚举地址库过程的流程示意图;
图5为本申请实施例中计算编辑距离的过程的流程示意图;
图6为本申请的中文地址检测方法的扩展实施例的流程示意图;
图7为本申请的扩展实施例中根据修正后的地址信息计算物流成本过程的流程示意图;
图8为本申请的中文地址检测装置的原理框图;
图9为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS (Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种中文地址检测方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如在本申请的电商平台应用场景中,一般部署在服务器中实施,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
请参阅图1,本申请的中文地址检测方法在其典型实施例中,包括如下步骤:
步骤S1100、获取客户端设备提交的中文的地址信息,根据地址信息生成初始地址文本:
对于电商平台而言,需要对中文地址进行检测的情况可能出现在各种不同的具体业务场景中,例如,当商家用户需要根据消费者用户的订单向物流服务接口发送送达地址时,或反之物流服务接口接收该送达地址时;又如消费者用户在订单页面或者送货地址编辑页面输入其地址信息提交至服务器时,诸如此类,均可触发对送达地址的检测。本申请被检测的地址,特指以中文表达的地址,包括繁体中文和简体中文均可。
不同变通实施例中,本申请的地址信息,可以由消费者用户在客户端设备访问电商平台的对应页面例如地址编辑页面或者订单编辑页面,在其中输入进行提交;也可由商家用户在客户端设备中访问某些专门页面中提交其指定的某一个或多个目标地址相对应的地址信息以实施检测。不难理解,根据不同的具体业务场景,所述地址信息的来源相应也不同,本领域技术人员对此均应知晓。
所述的地址信息,通常以地区为单位进行管理,一般而言,每个地区都包含多个行政级别,每个行政级别都包含多个地名,客户端设备提交的所述地址信息在结构上便是由这些行政级别相对应的地名有序排列构成的中文文本。例如,“广东省广州市黄埔区某某路……”,这一地址为中国境内相对应的地址,其中包含省、市、区等行政层级相对应的地名即“广东省”、“广州市”、“黄埔区”。根据该示例可知,在客户端设备提交的待检测的地址信息,最终呈现的格式是按照各地区对地址信息的习惯性用法,由相应的地区的行政层级有序排列而成,而成为待检测的初始地址文本。
步骤S1200、按照预设步长以固定窗口滑动提取所述初始地址文本获得多个分词,以构成初始地址文本的地址特征:
将用户提交的地址信息按照地区相应的格式转换为所述初始地址文本之后,便可对初始地址文本进行分词,以便获得多个分词构造为该初始地址文本相对应的地址特征。
考虑到中文以单字作为基本单位,通常由两个以上的单字构成表意单元用于表示各种专有名词的事实,一个实施例中,采用具有固定窗口长度的滑动窗口对所述初始地址文本进行滑动分词,该滑动窗口的窗口长度设置为2个单字,考虑到单字为基本单位的特点,该滑动窗口预设的滑动步长可为1个单字,由此,自初始地址文本的首字开始滑动加窗,每次获得一个分词,然后推进一个单字继续获取下一分词,以此类推,直接滑动窗口到达最后一个单字,获得N- 1个分词,其中N为初始地址文本的总字数。这些分词的集合便构成该初始特征文本的地址特征。
另一实施例中,可直接采用基于统计语言模型算法的Bi-Gram模型来实施前一实施例所阐述的过程并取得相同的效果,由此可避免自行开发相关代码,提升开发效率。
步骤S1300、计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离,确定其中编辑距离最小的枚举地址为推荐地址文本:
为方便根据所述初始地址文本的地址特征匹配出更优的推荐地址文本,适应任意一个所述的地区,作为目标地区,而预构造有一个枚举地址库,该枚举地址库存储有该目标地区范围内的所有可能的有效地址,即枚举地址。当然,该枚举地址也是以中文表述的。所述的枚举地址可以由本领域技术人员预先采集制备,同理,由该目标地区的各个行政层级相对应的地名有序排列而成。除此之外,在该枚举地址库中,也存储有每个枚举地址相对应的地址特征,该地址特征同理可以前一步骤S1200中揭示的多种实施例对枚举地址进行分词提取构造而成。本申请后续的一个实施例将进一步揭示该枚举地址库的制备过程,此处暂且不表。
据此可知,枚举地址库中,存在目标地区范围内的全量有效地址,由于其在制备阶段已经进行了标准化,因此,理论上,如果初始地址文本中出现个别错字或者漏字、赘字等,可以将与所述初始地址文本最为相似的枚举地址用来修正该初始地址文本。
本实施例中,推荐使用编辑距离算法来计算所述初始地址文本的地址特征与所述枚举地址的地址特征之间的编辑距离,从而获得各个枚举地址相对应的编辑距离,其中编辑距离最小者,即为与所述初始地址文本最相似也即最相近的一项,意味着该项枚举地址相对于初始地址文本而言,具有最少的错字、漏字、赘字等,由此,可将编辑距离最小的枚举地址确定为用于推荐给客户端设备的推荐地址文本。
步骤S1400、向所述客户端设备推送包含所述推荐地址文本的通知消息:
服务器确实出与所述初始地址文本相对应的推荐地址文本之后,便可将该推荐地址文本封装于通知消息中推送至客户端设备,根据当前正在执行的具体业务场景相对应的业务逻辑,展现和使用该推荐地址文本。例如,当处于由消费者用户编辑地址信息的业务场景中时,可以在其客户端设备显示该推荐地址文本,提醒用户是否替换当前输入的地址信息。又如,当处于后台修正电商订单的送货地址的业务场景中时,可以将该推荐地址文本替换电商订单中原始的送货地址向操作用户所在的客户端设备中输出相应的通知信息以示提醒,在该通知消息中包含该推荐地址文本。诸如此类,本领域技术人员可根据具体业务场景的不同,灵活利用所述推荐地址文本,最终使其展示到客户端设备中被用户感知。
根据本申请的典型实施例及其变通实施例可以知晓,本申请的技术方案存在多方面优势,包括但不限于如下各方面:
首先,本申请基于统计原理,以根据目标地区的行政层级相对应的地名所构造的枚举地址库中的枚举地址为参照,将客户端设备的提交的初始地址文本与各个枚举地址计算编辑距离,确定编辑距离最小的枚举地址为该初始地址文本相对应的推荐地址文本,其中,所处理的初始地址文本是中文地址,由于中文表达通常每个字都有其独立的字义,并且字与字之间的组词非常灵活,且中文字名可以包含两字、三字或更长,所以基于统计原理,在为初始地址文本确定推荐地址文本的过程中,利用固定窗口和预设步长对地址进行分词构造其地址特征,利用地址特征之间的编辑距离便可快速确定出与初始地址文本最为相似的枚举地址文本作为推荐地址文本,适合中文通常以两字以上组词作为地名的具体情况,发挥统计学意义,从而获得更为精准的检测结果,辅以提升检测效率。
其次,本申请的技术方案在计算两个地址文本之间的编辑距离时,是基于统计实现的算法,无需依赖大数据进行高成本的训练,执行效率更高,而实现成本则更为低廉,适于部署于后台服务器响应海量的并发需求,从而获取规模经济效应。
此外,本申请的技术方案适用于电商平台中为电商订单的地址信息进行纠错,使得电商订单的地址信息及据此所计算的物流成本更为精准,从而提升电商交易过程中的交互效率,使消费者用户和商家用户提升基于电商订单的作业效率。
请参阅图2,深化的实施例中,所述步骤S1100、获取客户端设备提交的中文的地址信息,根据地址信息生成初始地址文本,包括如下步骤:
步骤S1110、获取客户端设备提交的电商订单的中文的地址信息,所述地址信息包含与目标地区的多个行政层级相对应的多个地名:
本实施例进一步将本申请的应用场景约束到更为具体的电商订单处理环节,当消费者用户在其客户端设备下单购买相应的商品时,进入下单页面,在下单显示生成的电商订单,其中包含送货地址一项,该项可以显示消费者用户事先设定的默认地址信息。若不存在所述的默认地址信息,也可允许用户对地址信息进行实时编辑并提交。最终,在该电商订单页面中将包含作为送货地址的地址信息。
所述的地址信息,一种实施例中,根据预设的目标地区,一般是客户端设备所在的实际地区,根据该目标地区官方所设定的行政层级,提供各个行政层级相对应的地名的输入框,例如就中国地区而言,通过提供省、市、县、镇相对应的输入框,便可用于接收构成地址信息所需的各个行政层级相对应的地名。另一种实施例中,允许用户一次性以完整的字符串的形式输入所述的地址信息,一般而言,用户将按各个行政层级之间的上下级关系输入相应的地名序列。于是,最终形成的地址信息,便会包含与目标地区的多个行政层级相对应的多个地名。
步骤S1120、根据该目标地区的行政层级有序拼接所述多个地名,以生成初始地址文本:
一般来说,根据各个地区不同的使用习惯,对地址信息中各个行政层级的排列方向可能各有区别,但就中文地址信息的表达而言,一般是按照行政层级地理范围由大到小有序排列,据此,可将用户输出的地址信息所提供的各个地名,对应其行政层级,按照该目标地区的使用习惯,对所述各个地名进行有序拼接,例如,图3所示的香港地区地址中,按照大区、中区、小区三个行政级别分别对应输入“九龙”、“油尖旺”、“大角嘴”三个地名构成地址信息,据此,便可将该地址信息中的三个地名有序拼接为“九龙油尖旺大角嘴”这一初始地址文本。
本实施例中,适应电商平台的下单过程中编辑地址信息所需,对用户输入进行预处理,形成标准化的初始地址文本,方便后续步骤对初始地址文本进行地址有效性进行标准化流程的检测,可使本申请的技术方案更便于标准接口化处理,从而提升电商平台检测地址信息有效性的效率。
请参阅图4,为了确保对地址信息进行检测的准确性,深化的实施例中,所述步骤S1300、计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离的步骤之前,包括如下步骤:
步骤S2100、获取预设的行政地名库,该行政地名库包含目标地区的每个行政层级下的所有可能的中文地名:
各地区的行政区划均以法定的形式公布,因此,可以很容易地收集到各个地区相对应的行政地名库,行政地名库可以地区为单位进行地名存储,例如按照中国香港地区、中国台湾地区分别进行建库。每个行政地名库中,可存储其相应的目标地区的每个行政层级之下的所有可能的中文地名,且根据地名之间的管辖关系建立各个行政层级之间的隶属关系,从而完成该行政地名库的构建。由于上一行政层级的地名与其所下辖的行政层级的地名之间一般是一对多的关系,因此,一种更具体的实施例中,推荐采用树状存储结构或有向图结构来存储所述的各个行政层级的地名,使得树状存储结构或有向图结构中的根节点到其末端节点之间形成的路径所经过的每个节点的地名的有序拼接结果即构成该目标地区的一个有效地址。
步骤S2200、根据行政层级的隶属关系,对所述行政地名库中的各个行政层级的中文地名进行有序拼接,获得由所有行政层级穷举组合而成的全量枚举地址:
在具备所述的行政地名库的基础上,便可非常便利地获得目标地区的全量的有效地址,具体而言,可根据行政地名库中,上级的地名与下级的地名之间的管辖隶属关系,逐级将各级中文地名进行有序拼接,从而,完成对目标地区的有效地址的枚举,即获得目标地区全量的枚举地址。结合前文所述的树状存储结构或有向图结构的示例,根据此类结构自其根节点到达其每一末端节点所经过的路径所确定的地名所拼接而成的字符串,即为一个枚举地址,对应多个末端节点便有多个枚举地址。
步骤S2300、针对每个所述的枚举地址,按照预设步长以固定窗口滑动提取该枚举地址以获得多个分词,构成该枚举地址相应的地址特征,与该枚举地址构造为映射关系数据:
为便于后续将各个枚举地址用于计算与初始地址文本之间的编辑距离,本实施例也采用与所述初始地址文本获得地址特征相同的方法,以2个单字为滑动窗口固定长度,以1个单字为预设滑动步长,对每个枚举进行适用滑动窗口进行滑动分词,从而获得每个枚举地址相对应的分词集构成相应的地址特征,并将每个枚举地址与其地址特征构造为映射关系数据。由此,每个枚举地址均有一个相应的地址特征与之相对应。同理,在计算枚举地址的地址特征时,也可采用Bi-Gram模型实施。
步骤S2400、将全量枚举地址及其地址特征所构成的映射关系数据存储于枚举地址库中:
为了便于本申请在检测初始地址文本的有效性时计算比较编辑距离,对于前一步骤中获得的枚举地址与地址特征之间的映射关系数据,可将其存储于一个数据库中,构成本申请所述的枚举地址库供调用。
本实施例根据行政地名库进行全量枚举生成枚举地址库,枚举地址库中存储其相应的目标地区的全量的有效的枚举地地址,在枚举地址库中为各个枚举地址提供了预先分词制备的地址特征,可供初始地址文本检测时用于计算编辑距离,由于枚举地址库是根据采集法定地名构成的行政地名库构成的,因此枚举地址库中的枚举地址的有效性和准确性得以权威保证,据此检测初始地址文本的有效性,更为准确可信。
请参阅图5,深化的实施例中,所述步骤S1300、计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离,确定其中编辑距离最小的枚举地址为推荐地址文本,包括如下步骤:
步骤S1310、计算初始地址文本的地址特征的分词数量:
如图3所示,本实施例中,可采用如前所述的滑动窗口的方式,或者采用 Bi-Gram模型,先行计算所述初始地址文本的分词数量,由于文本“九龙油尖旺大角嘴”包含7个分词,因而其分词数量为7。
步骤S1320、计算枚举地址库中的任意一个目标枚举地址的地址特征的分词数量:
同理,采用与前一步骤完全相同的方式计算地址库中任意一个目标枚举地址的地址特征,例如有效的枚举地址“九龙油尖旺区大角咀”,其包含8个分词,攻其分词数量为8。当然,在其他实施例中,每个枚举地址的分词数量也可预先计算出并存储于所述的枚举地址库中,此时在本步骤中无需另行计算,直接调用即可。
步骤S1330、计算初始地址文本的分词数量与目标枚举地址两者的分词数量的和值与两者之间相同分词数量的两倍数之间的差值,作为两者之间的编辑距离:
沿用前一步骤的枚举地址的示例,确定所述初始地址文本与所述枚举地址彼此的地址特征所包含的分词数量之后,便可用于确定初始地址文本与该枚举地址之间的分词数量计算彼此之间的编辑距离。具体而言,先计算初始地址文本与枚举地址两者对应的分词数量之和即7+8=15,然后将其减去两者共有的分词的总量的两位数,即两者彼此之间有5个分词是相同故总是相同分词为10,因此,15-10=5,也即枚举地址“九龙油尖旺区大角咀”与初始地址文本“九龙油尖旺大角嘴”之间的编辑距离为5。
步骤S1340、根据所述编辑距离对枚举地址库中的所有枚举地址进行自小至大的排序,确定其中排序第一位的枚举地址为推荐地址文本:
不难理解,按照在先各个步骤,针对枚举地址库中的每个枚举地址,均可计算出其与初始地址文本之间的编辑距离。据此,对应所述枚举地址库中的各个枚举地址,便获得了一个编辑距离序列,对该编辑距离序列按照编辑距离从小到大进行排序,排序居于第一位的编辑距离所对应枚举地址即是与所述初始地址文本差异最小的目标枚举地址,由此便可将其确定为用于对所述初始地址文本相对应的地址信息进行纠错修正的推荐地址文本。
本实施例给出了基于初始地址文本与枚举地址两者的分词数量确定两者之间的编辑距离,再根据编辑距离中的最小值确定推荐枚举地址的方式,可见,采用这种方式实现,计算简便快速,对计算机运行资源的占用较低,可以较为迅速地获得计算结果,使得地址检测过程既准确又高效。
请参阅图6,扩展的实施例中,所述步骤S1400、向所述客户端设备推送包含所述推荐地址文本的通知消息的步骤之后,包括如下步骤:
步骤S1500、响应基于该通知消息提交的地址修正指令,以所述推荐地址文本作为送货地址修正所述电商订单中的地址信息:
对于消费者用户下单场景而言,当其基于其电商订单中的地址信息获得本实施前述各实施例所推送的通知消息,获得该通知消息中的推荐地址文本之后,用户可以确定是否以该推荐地址文本替换其事先选定或录入的地址信息,当其确定修正后,便触发一个地址修正指令提到给服务器,服务器于是可在后台修改该电商订单对应的数据,将其中的送货地址中的地址信息,替换为所述推荐地址文本中对应的内容,从而实现根据检测结果对用户输入的地址信息的智能化纠错,提升电商订单的地址检测和纠错准确率。
请参阅图7,作为彰显本申请的应用优势的一方面,具体化的实施例中,所述步骤S1500中,以所述推荐地址文本作为送货地址修正所述电商订单中的地址信息,包括如下步骤:
步骤S1510、根据所述推荐地址文本对应各个行政层级而设置的地名,替换所述电商订单的地址信息中的各个相应行政层级的地名:
更为具体的,当消费者用户提交所述的地址修正指令后,服务器便根据相对应的推荐地址文本去修正该消费者用户的电商订单中的相应地址信息。如前所述,由于推荐地址文本是由各个行政层级相对应的地名所构成的,因此,可以对应所述的行政地名库,确定各个行政层级相对应的地名,据此,可直接实现对该电商订单中原有的地址信息中的各个相应行政层级的地名的替换。
步骤S1520、调用预设的物流计费服务,根据所述电商订单中的地址信息中各行政层级的地名相对应的费率计算出该电商订单的物流成本:
电商平台的物流系统,可实现一个物流计费服务并开放接口供电商平台内部调用,以便根据电商平台提供的地址信息为其计算电商订单相对应的物流成本,因此,在完成所述的电商订单的地址信息的修正后,便可调用所述的物流计费服务,在该物流计费服务所实现的内部业务逻辑的业务下,根据修正后的所述地址信息,解析出其中的各个行政层级相对应的地名,根据各个地名确定相对应的费率,最终根据该地址信息所到达的各个物流站点的费率综合出整个电商订单对应的物流成本,俗称快递费。
步骤S1530、将该物流成本作为所述电商订单的关联项推送至所述的客户端设备显示:
为便于消费者用户确认,进一步可将该物流成本作为所述电商订单的关联项,推送至所述消费者用户所在的客户端设备处显示,消费者用户知悉电商订单相应的送货地址、物流成本、商品价格等信息后,便可确认提交电商订单,进入支付环节,直至最终完成下单。
本实施例进一步根据纠正后的地址信息进行物流成本计费,使得关于运费的计算更为准确,确保电商交易信息的准确性,有利于电商平台的稳健发展。
请参阅图8,适应本申请的目的之一而提供的一种中文地址检测装置,是对本申请的中文地址检测方法的功能化体现,该装置包括:初始地址获取模块 1100、分词特征提取模块1200、编辑距离优选模块1300,以及推荐地址推送模块1400,其中,所述初始地址获取模块1100,用于获取客户端设备提交的中文的地址信息,根据地址信息生成初始地址文本;所述分词特征提取模块 1200,用于按照预设步长以固定窗口滑动提取所述初始地址文本获得多个分词,以构成初始地址文本的地址特征;所述编辑距离优选模块1300,用于计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离,确定其中编辑距离最小的枚举地址为推荐地址文本;所述推荐地址推送模块1400,用于向所述客户端设备推送包含所述推荐地址文本的通知消息。
深化的实施例中,所述初始地址推送模块,包括:地名提取子模块,用于获取客户端设备提交的电商订单的中文的地址信息,所述地址信息包含与目标地区的多个行政层级相对应的多个地名;地址拼接子模块,用于根据该目标地区的行政层级有序拼接所述多个地名,以生成初始地址文本。
深化的实施例中,本申请的中文地址检测装置,还包括先于所述编辑距离优选模块1300调用运行的如下模块:
地名库调用模块,用于获取预设的行政地名库,该行政地名库包含目标地区的每个行政层级下的所有可能的中文地名;
地址枚举模块,用于根据行政层级的隶属关系,对所述行政地名库中的各个行政层级的中文地名进行有序拼接,获得由所有行政层级穷举组合而成的全量枚举地址;枚举地址提取模块,用于针对每个所述的枚举地址,按照预设步长以固定窗口滑动提取该枚举地址以获得多个分词,构成该枚举地址相应的地址特征,与该枚举地址构造为映射关系数据;地址库构建模块,用于将全量枚举地址及其地址特征所构成的映射关系数据存储于枚举地址库中。
深化的实施例中,所述编辑距离优选模块1300,包括:第一计算子模块,用于计算初始地址文本的地址特征的分词数量;第二计算子模块,用于计算枚举地址库中的任意一个目标枚举地址的地址特征的分词数量;距离计算子模块,用于计算初始地址文本的分词数量与目标枚举地址两者的分词数量的和值与两者之间相同分词数量的两倍数之间的差值,作为两者之间的编辑距离;地址推荐子模块,用于根据所述编辑距离对枚举地址库中的所有枚举地址进行自小至大的排序,确定其中排序第一位的枚举地址为推荐地址文本。
扩展的实施例中,本申请的中文地址检测装置,还包括后于所述推荐地址推送模块1400调用运行的如下模块:电商订单修正模块,用于响应基于该通知消息提交的地址修正指令,以所述推荐地址文本作为送货地址修正所述电商订单中的地址信息。
具体化的实施例中,所述电商订单修正模块,包括:地名替换子模块,用于根据所述推荐地址文本对应各个行政层级而设置的地名,替换所述电商订单的地址信息中的各个相应行政层级的地名;物流计费子模块,用于调用预设的物流计费服务,根据所述电商订单中的地址信息中各行政层级的地名相对应的费率计算出该电商订单的物流成本;订单完善子模块,用于将该物流成本作为所述电商订单的关联项推送至所述的客户端设备显示。
为解决上述技术问题,本申请实施例还提供计算机设备。如图9所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种中文地址检测方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的中文地址检测方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图9 中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图8中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的中文地址检测装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的中文地址检测方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read- Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请的技术方案能够提升电商订单中的地址信息识别的准确率,引导用户修正错误的地址信息,提升电商订单执行效率。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种中文地址检测方法,其特征在于,包括如下步骤:
获取客户端设备提交的中文的地址信息,根据地址信息生成初始地址文本;
按照预设步长以固定窗口滑动提取所述初始地址文本获得多个分词,以构成初始地址文本的地址特征;
计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离,确定其中编辑距离最小的枚举地址为推荐地址文本;
向所述客户端设备推送包含所述推荐地址文本的通知消息。
2.根据权利要求1所述的中文地址检测方法,其特征在于,获取客户端设备提交的中文的地址信息,根据地址信息生成初始地址文本,包括如下步骤:
获取客户端设备提交的电商订单的中文的地址信息,所述地址信息包含与目标地区的多个行政层级相对应的多个地名;
根据该目标地区的行政层级有序拼接所述多个地名,以生成初始地址文本。
3.根据权利要求1所述的中文地址检测方法,其特征在于,计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离的步骤之前,包括如下步骤:
获取预设的行政地名库,该行政地名库包含目标地区的每个行政层级下的所有可能的中文地名;
根据行政层级的隶属关系,对所述行政地名库中的各个行政层级的中文地名进行有序拼接,获得由所有行政层级穷举组合而成的全量枚举地址;
针对每个所述的枚举地址,按照预设步长以固定窗口滑动提取该枚举地址以获得多个分词,构成该枚举地址相应的地址特征,与该枚举地址构造为映射关系数据;
将全量枚举地址及其地址特征所构成的映射关系数据存储于枚举地址库中。
4.根据权利要求1所述的中文地址检测方法,其特征在于,计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离,确定其中编辑距离最小的枚举地址为推荐地址文本,包括如下步骤:
计算初始地址文本的地址特征的分词数量;
计算枚举地址库中的任意一个目标枚举地址的地址特征的分词数量;
计算初始地址文本的分词数量与目标枚举地址两者的分词数量的和值与两者之间相同分词数量的两倍数之间的差值,作为两者之间的编辑距离;
根据所述编辑距离对枚举地址库中的所有枚举地址进行自小至大的排序,确定其中排序第一位的枚举地址为推荐地址文本。
5.根据权利要求2所述的中文地址检测方法,其特征在于,向所述客户端设备推送包含所述推荐地址文本的通知消息的步骤之后,包括如下步骤:
响应基于该通知消息提交的地址修正指令,以所述推荐地址文本作为送货地址修正所述电商订单中的地址信息。
6.根据权利要求5中所述的中文地址检测方法,其特征在于,以所述推荐地址文本作为送货地址修正所述电商订单中的地址信息,包括如下步骤:
根据所述推荐地址文本对应各个行政层级而设置的地名,替换所述电商订单的地址信息中的各个相应行政层级的地名;
调用预设的物流计费服务,根据所述电商订单中的地址信息中各行政层级的地名相对应的费率计算出该电商订单的物流成本;
将该物流成本作为所述电商订单的关联项推送至所述的客户端设备显示。
7.一种中文地址检测装置,其特征在于,包括:
初始地址获取模块,用于获取客户端设备提交的中文的地址信息,根据地址信息生成初始地址文本;
分词特征提取模块,用于按照预设步长以固定窗口滑动提取所述初始地址文本获得多个分词,以构成初始地址文本的地址特征;
编辑距离优选模块,用于计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离,确定其中编辑距离最小的枚举地址为推荐地址文本;
推荐地址推送模块,用于向所述客户端设备推送包含所述推荐地址文本的通知消息。
8.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至6中任意一项所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至6中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至6任意一项中所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210105936.5A CN114444502A (zh) | 2022-01-28 | 2022-01-28 | 中文地址检测方法及其装置、设备、介质、产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210105936.5A CN114444502A (zh) | 2022-01-28 | 2022-01-28 | 中文地址检测方法及其装置、设备、介质、产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114444502A true CN114444502A (zh) | 2022-05-06 |
Family
ID=81369685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210105936.5A Pending CN114444502A (zh) | 2022-01-28 | 2022-01-28 | 中文地址检测方法及其装置、设备、介质、产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114444502A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110892394A (zh) * | 2017-06-29 | 2020-03-17 | 亚马逊科技公司 | 对包裹交付的不正确地址的标识 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170213183A1 (en) * | 2016-01-22 | 2017-07-27 | Alibaba Group Holding Limited | Logistics system and logistics distribution method and system |
CN110968654A (zh) * | 2018-09-29 | 2020-04-07 | 阿里巴巴集团控股有限公司 | 文本数据的地址类目确定方法、设备以及系统 |
CN111079386A (zh) * | 2019-11-11 | 2020-04-28 | 浙江省北大信息技术高等研究院 | 地址识别方法、装置、设备及存储介质 |
CN111538796A (zh) * | 2020-03-26 | 2020-08-14 | 中国平安人寿保险股份有限公司 | 地址规范化处理方法、装置、设备及存储介质 |
CN111966766A (zh) * | 2020-02-18 | 2020-11-20 | 上海寻梦信息技术有限公司 | 地址信息的检测方法、系统、电子设备和存储介质 |
-
2022
- 2022-01-28 CN CN202210105936.5A patent/CN114444502A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170213183A1 (en) * | 2016-01-22 | 2017-07-27 | Alibaba Group Holding Limited | Logistics system and logistics distribution method and system |
CN110968654A (zh) * | 2018-09-29 | 2020-04-07 | 阿里巴巴集团控股有限公司 | 文本数据的地址类目确定方法、设备以及系统 |
CN111079386A (zh) * | 2019-11-11 | 2020-04-28 | 浙江省北大信息技术高等研究院 | 地址识别方法、装置、设备及存储介质 |
CN111966766A (zh) * | 2020-02-18 | 2020-11-20 | 上海寻梦信息技术有限公司 | 地址信息的检测方法、系统、电子设备和存储介质 |
CN111538796A (zh) * | 2020-03-26 | 2020-08-14 | 中国平安人寿保险股份有限公司 | 地址规范化处理方法、装置、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110892394A (zh) * | 2017-06-29 | 2020-03-17 | 亚马逊科技公司 | 对包裹交付的不正确地址的标识 |
CN110892394B (zh) * | 2017-06-29 | 2023-11-17 | 亚马逊科技公司 | 对包裹交付的不正确地址的标识 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107798571B (zh) | 恶意地址/恶意订单的识别系统、方法及装置 | |
US20230102337A1 (en) | Method and apparatus for training recommendation model, computer device, and storage medium | |
CN111352907A (zh) | 流水文件解析方法、装置、计算机设备和存储介质 | |
CN108305050B (zh) | 报案信息及服务需求信息的提取方法、装置、设备及介质 | |
US8838610B2 (en) | Listing tune-up system | |
CN112861527A (zh) | 一种事件抽取方法、装置、设备及存储介质 | |
US20230153781A1 (en) | Transaction data processing method and apparatus | |
CN112434501A (zh) | 工单智能生成的方法、装置、电子设备及介质 | |
US20140280352A1 (en) | Processing semi-structured data | |
CN115292344A (zh) | 数据字典构建方法、装置、电子设备及存储介质 | |
CN114444502A (zh) | 中文地址检测方法及其装置、设备、介质、产品 | |
CN112069230B (zh) | 数据分析方法、装置、设备及存储介质 | |
CN115204889A (zh) | 文本处理方法、装置、计算机设备及存储介质 | |
CN109697224B (zh) | 一种账单消息处理方法、装置和存储介质 | |
CN109324963B (zh) | 自动测试收益结果的方法及终端设备 | |
CN111639903A (zh) | 一种针对架构变更的评审处理方法及相关设备 | |
CN113515332B (zh) | 一种数据生成方法、装置、设备及存储介质 | |
CN105630761B (zh) | 公式处理方法及装置 | |
CN115129804A (zh) | 地址联想方法及其装置、设备、介质、产品 | |
CN114971766A (zh) | 商品推荐方法及其装置、设备、介质、产品 | |
CN114528364A (zh) | 地址信息检测方法及其装置、设备、介质、产品 | |
CN112767013A (zh) | 一种业务报表拆分方法、装置、服务器及存储介质 | |
CN114693396A (zh) | 地址信息匹配方法及其装置、设备、介质、产品 | |
CN112561558A (zh) | 快递时间画像的生成方法、生成装置、设备及存储介质 | |
US20240046042A1 (en) | Method and device for information processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |