CN112836497A - 地址纠正方法、装置、电子设备及存储介质 - Google Patents

地址纠正方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112836497A
CN112836497A CN202110127661.0A CN202110127661A CN112836497A CN 112836497 A CN112836497 A CN 112836497A CN 202110127661 A CN202110127661 A CN 202110127661A CN 112836497 A CN112836497 A CN 112836497A
Authority
CN
China
Prior art keywords
address
field
element field
character
quasi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110127661.0A
Other languages
English (en)
Inventor
周筠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xunmeng Information Technology Co Ltd
Original Assignee
Shanghai Xunmeng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xunmeng Information Technology Co Ltd filed Critical Shanghai Xunmeng Information Technology Co Ltd
Priority to CN202110127661.0A priority Critical patent/CN112836497A/zh
Publication of CN112836497A publication Critical patent/CN112836497A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • G06Q10/0838Historical data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Remote Sensing (AREA)
  • Mathematical Physics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种地址纠正方法、装置、电子设备及存储介质,地址纠正方法,包括:接收用于进行物流路由的地址信息;提取地址信息的至少一个设定元素字段;对每一设定元素字段执行地址纠正步骤,地址纠正步骤包括:判断该设定元素字段是否与一标准地址元素库中的标准地址元素匹配;若否,则对设定元素字段中的至少一个字,自一同音同形字表中,获取该字的同音字和/或同形字,作为替换字,以在设定元素字段中将该字替换为替换字,形成准设定元素字段;判断准设定元素字段是否与标准地址元素库中的标准地址元素匹配;若是,则基于准设定元素字段纠正地址信息。本发明对计算物流路由的地址信息进行纠正,避免物流路由出错。

Description

地址纠正方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机应用领域,尤其涉及一种地址纠正方法、装置、电子设备及存储介质。
背景技术
目前,在用户通过物流供应商寄件的场景中,当用户确定物流订单后,物流供应商的服务器需要要根据用户填写的收发件地址进行物流路由的计算,从而依据所计算的物流路由实现用户寄件包裹的物流流转,以此实现寄件包裹的运输和送达。类似地,在电商场景中,当用户对商品下单后,电商系统自动生成对应的物流订单,电商系统或物流供应商的服务器也需要要根据用户填写的收发件地址进行物流路由的计算。
由此可见,用户提供的收发件地址信息对物流路由的计算以及物流包裹的运输起到了至关重要的作用。然而,目前用户提供的收发件地址信息可能存在各类信息错误,从而容易导致物流路由计算错误,影响物流包裹的流转和运输,增加物流运输成本,且降低用户物流体验。
由此,如何实现地址纠正,从而使得收发件地址信息准确,避免物流路由计算错误,保证物流包裹的流转和运输的正常运行,减少由于物流运输错误导致的物流运输成本,同时,提高用户物流体验,是本领域亟待解决的技术问题。
发明内容
本发明为了克服上述相关技术存在的缺陷,提供一种地址纠正方法、装置、电子设备及存储介质,进而实现地址纠正,从而使得收发件地址信息准确,避免物流路由计算错误,保证物流包裹的流转和运输的正常运行,减少由于物流运输错误导致的物流运输成本,同时,提高用户物流体验。
根据本发明的一个方面,提供一种地址纠正方法,包括:
接收用于进行物流路由的地址信息;
提取所述地址信息的至少一个设定元素字段;
对每一所述设定元素字段执行地址纠正步骤,所述地址纠正步骤包括:
判断该设定元素字段是否与一标准地址元素库中的标准地址元素匹配;
若否,则对所述设定元素字段中的至少一个字,自一同音同形字表中,获取该字的同音字和/或同形字,作为替换字,以在所述设定元素字段中将该字替换为所述替换字,形成准设定元素字段;
判断所述准设定元素字段是否与所述标准地址元素库中的标准地址元素匹配;
若是,则基于所述准设定元素字段纠正所述地址信息。
在本发明的一些实施例中,所述对所述设定元素字段中的至少一个字,自一同音同形字表中,获取该字的同音字和/或同形字,作为替换字,以于所述设定元素字段中将该字替换为所述替换字,形成准设定元素字段包括:
对所述设定元素字段中的多个字,自所述同音同形字表中,分别获取该多个字的同音字和/或同形字,作为替换字;
基于所述替换字对该多个字中的一个或多个字的替换,形成多个候选字段;
自该多个候选字段中选取多个字段作为所述准设定元素字段。
在本发明的一些实施例中,所述自该多个候选字段中选取至少一个字段作为所述准设定元素字段包括:
计算每一候选字段与所述设定元素字段之间的编辑距离;
将编辑距离小于预定距离阈值的候选字段作为所述准设定元素字段。
在本发明的一些实施例中,所述判断该设定元素字段是否与一标准地址元素库中的标准地址元素匹配包括:
基于所述地址信息自所述标准地址元素库中确定用于匹配所述设定元素字段的区域地址元素库;
使所述设定元素字段与所述区域地址元素库进行匹配。
在本发明的一些实施例中,所述基于所述地址信息自所述标准地址元素库中确定用于匹配所述设定元素字段的区域地址元素库包括:
基于所述设定元素字段的上级地址字段,自所述标准地址元素库中确定用于匹配所述设定元素字段的区域地址元素库,所述上级地址字段指示的地区范围包含所述设定元素字段指示的地区范围,所述标准地址元素库按地址级别储存所述区域地址元素库。
在本发明的一些实施例中,所述设定元素字段的上级地址字段为经地址纠正的设定元素字段。
在本发明的一些实施例中,所述设定元素字段按其指示的区域大小,形成级别关系,所述对每一所述设定元素字段执行地址纠正步骤包括:
按指示的区域由大至小,逐级对每一所述设定元素字段执行地址纠正步骤。
在本发明的一些实施例中,所述同音同形字表中还保存同音字和/或同形字之间的转换权重,所述对所述设定元素字段中的至少一个字,自一同音同形字表中,获取该字的同音字和/或同形字,作为替换字包括:
对所述设定元素字段中的至少一个字,基于该字在所述同音同形字表中与其同音字和/或同形字之间的转换权重,获取该字的同音字和/或同形字,作为替换字。
在本发明的一些实施例中,所述基于所述准设定元素字段纠正所述地址信息之后还包括:
于所述同音同形字表中,增加所述准设定元素字段中的替换字和所述设定元素字段中的被替换字之间的转换权重。
在本发明的一些实施例中,所述地址信息包括发件地址和/或收件地址。
在本发明的一些实施例中,所述设定元素字段包括兴趣点、道路名、镇名、街道名中的一项或多项。
根据本发明的又一方面,还提供一种地址纠正装置,包括:
接收模块,配置成接收用于进行物流路由的地址信息;
提取模块,配置成提取所述地址信息的至少一个设定元素字段;
纠正模块,配置成对每一所述设定元素字段执行地址纠正步骤,所述地址纠正步骤包括:
判断该设定元素字段是否与一标准地址元素库中的标准地址元素匹配;
若否,则对所述设定元素字段中的至少一个字,自一同音同形字表中,获取该字的同音字和/或同形字,作为替换字,以在所述设定元素字段中将该字替换为所述替换字,形成准设定元素字段;
判断所述准设定元素字段是否与所述标准地址元素库中的标准地址元素匹配;
若是,则基于所述准设定元素字段纠正所述地址信息。
根据本发明的又一方面,还提供一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述的步骤。
根据本发明的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的步骤。
相比现有技术,本发明的优势在于:
本发明通过基于标准地址元素库中的标准地址元素匹配,确定地址信息是否需要纠正,若需要纠正则基于同音同形字表进行元素字段的替换,并再次与标准地址元素库进行匹配,直到能够命中标准地址元素,由此,实现地址信息的纠正,从而使得收发件地址信息准确,避免物流路由计算错误,保证物流包裹的流转和运输的正常运行,减少由于物流运输错误导致的物流运输成本,提高用户物流体验;同时,算法便于实现,对系统算力需求较低,可应用于各类系统和各类场景中。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1示出了根据本发明实施例的地址纠正方法的流程图。
图2示出了根据本发明实施例的对所述设定元素字段中的至少一个字,自一同音同形字表中,获取该字的同音字和/或同形字,作为替换字,以于所述设定元素字段中将该字替换为所述替换字,形成准设定元素字段的流程图。
图3示出了根据本发明实施例的自该多个候选字段中选取多个字段作为所述准设定元素字段的流程图。
图4示出了根据本发明实施例的判断该设定元素字段是否与一标准地址元素库中的标准地址元素匹配的流程图。
图5示出了根据本发明实施例的地址纠正装置的模块图。
图6示意性示出本发明示例性实施例中一种计算机可读存储介质示意图。
图7示意性示出本发明示例性实施例中一种电子设备示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此,实际执行的顺序有可能根据实际情况改变。
在本发明的各个实施例中,本发明提供的地址纠正方法可以应用于电商平台中,但本发明的应用场景并非以此为限制,在此不予赘述。
图1示出了根据本发明实施例的地址纠正方法的流程图。地址纠正方法包括如下步骤:
步骤S110:接收用于进行物流路由的地址信息。
具体而言,所述地址信息可以为发件地址。所述地址信息可以为收件地址。在另一些实施例中,所述地址信息也可以为发件地址和收件地址。本发明可以采用各种路由算法以基于地址信息实现物流路由,在此不予赘述。
步骤S120:提取所述地址信息的至少一个设定元素字段。
具体而言,所述设定元素字段可以包括兴趣点、道路名、镇名、街道名中的一项或多项。本发明并非以此为限制,省、市、区、县等区域范围更大的元素字段作为设定元素字段也在本发明的保护范围之内。
步骤S130:对每一所述设定元素字段执行地址纠正步骤。
所述地址纠正步骤包括:
步骤S131:判断该设定元素字段是否与一标准地址元素库中的标准地址元素匹配。
具体而言,标准地址元素库可以由地图供应商提供,也可以由其它第三方能够供标准地址字段元素的数据库提供,本发明并非以此为限制。
若所述步骤S131判断为是,则表示设定元素字段准确无需进行纠正。由此,通过步骤S131可以对是否需要纠正的设定元素字段进行筛选,减少后续纠正的数据处理量。
若所述步骤S131判断为否,则执行步骤S132:对所述设定元素字段中的至少一个字,自一同音同形字表中,获取该字的同音字和/或同形字,作为替换字,以在所述设定元素字段中将该字替换为所述替换字,形成准设定元素字段。
具体而言,所述设定元素字段维护每个字的同音字、同形字或者同音字和同形字。其中,同音字可以用于纠正由于拼音输入法、语音输入等经由拼音输入的文字产生的同音不同字(例如山和陕)的地址信息错误情况;同形字可以用于纠正手写输入等经由字形输入产生的自形类似但不同字(例如侠和陕)的地址信息错误情况。进一步地,同一字的同音字和同形字可能存在交集,本发明不限制同音字和同形字的交集属于同音字或同形字。但在具体的实现中,为了避免重复替换,可以将同音字和同形字的交集归属于其中一类,并自另一类中删除。
具体而言,步骤S132中,可以每次替换所述设定元素字段中的一个字,也可以同时替换所述设定元素字段的多个字,本发明并非以此为限制。在本发明的一些优选例中,可以首先以一个字为单位进行字的替换,当替换后仍无法与所述标准地址元素库中的标准地址元素匹配,则可以以两个字为单位进行替换(包括连续的两个字和/或间隔的两个字),以此类推。由此,可以为每个设定元素字段的字的替换设置替换算法和替换规律,以便于系统执行,加快替换和匹配效率。
步骤S133:判断所述准设定元素字段是否与所述标准地址元素库中的标准地址元素匹配。
具体而言,步骤S133的执行可以与步骤S131按相同的方式执行,在此不予赘述。
若所述步骤S133判断为否,则可以再次执行步骤S132以替换另一字或者替换多个字,此时可以按预先设置的替换算法和替换规律进行替换,在此不予赘述。
若所述步骤S133判断为是,则执行步骤S134:基于所述准设定元素字段纠正所述地址信息。
具体而言,步骤S134将地址信息中的设定元素字段替换为所述准设定元素字段以实现地址信息的纠正。
在本发明的一些具体实现中,由于需要对每个设定元素字段执行步骤S131至步骤S134的地址纠正步骤,由此,所述地址信息中的各设定元素字段可以依据其是否需要纠正,以及经过字替换后获得的准设定元素字段进行字段替换,当所有的设定元素字段的地址纠正步骤执行完成后,地址信息的纠正才得以完成,此时,获得的地址信息为最终纠正的地址信息(理论上认为是准确的地址信息)。
在本发明提供的地址纠正方法中,通过基于标准地址元素库中的标准地址元素匹配,确定地址信息是否需要纠正,若需要纠正则基于同音同形字表进行元素字段的替换,并再次与标准地址元素库进行匹配,直到能够命中标准地址元素,由此,实现地址信息的纠正,从而使得收发件地址信息准确,避免物流路由计算错误,保证物流包裹的流转和运输的正常运行,减少由于物流运输错误导致的物流运输成本,提高用户物流体验;同时,算法便于实现,对系统算力需求较低,可应用于各类系统和各类场景中。
下面参见图2,图2示出了根据本发明实施例的对所述设定元素字段中的至少一个字,自一同音同形字表中,获取该字的同音字和/或同形字,作为替换字,以于所述设定元素字段中将该字替换为所述替换字,形成准设定元素字段的流程图。图2共示出如下步骤:
步骤S1321:对所述设定元素字段中的多个字,自所述同音同形字表中,分别获取该多个字的同音字和/或同形字,作为替换字。
具体而言,在步骤S1321中,可以对所述设定元素字段中的每个字,自述同音同形字表中,分别获取该多个字的同音字和/或同形字,作为替换字。本发明并非以此为限制,在一些变化例中,也可以设定一些无需进行替换的字和字位(如最后一个字为路,最后两个字为大厦,最后两个字为街坊等),由此,可以减少进行替换的字的数量,减少数据处理量,提高替换和匹配效率。
步骤S1322:基于所述替换字对该多个字中的一个或多个字的替换,形成多个候选字段。
具体而言,当获得多个替换字后,可以按该些字在所述设定元素字段的位置,进行排列组合,以获得多个候选字段。在本实施例中,可以将基于替换的所有可能的字段都作为候选字段。本发明并非以此为限制。
步骤S1323:自该多个候选字段中选取多个字段作为所述准设定元素字段。
具体而言,通过步骤S1323的对候选字段的选取,可以进一步进行字段筛选,从而减少用于匹配的准设定元素字段的数量,进一步数据处理量,提高替换和匹配效率。
下面参见图3,图3示出了根据本发明实施例的自该多个候选字段中选取多个字段作为所述准设定元素字段的流程图。图3示出如下步骤:
步骤S13231:计算每一候选字段与所述设定元素字段之间的编辑距离。
具体而言,编辑距离(Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。步骤S13231可以基于编辑距离算法计算出每一候选字段与所述设定元素字段之间的编辑距离。
步骤S13232:将编辑距离小于预定距离阈值的候选字段作为所述准设定元素字段。
具体而言,考虑到用户无论通过何种方式输入的错误地址信息的设定元素字段与准确的元素字段之间的差距通常不会太大,因此,步骤步骤S13232通过距离阈值,以将需要通过多次编辑才能获得的候选字段阈值剔除,以在减少用于匹配的准设定元素字段的数量,进一步数据处理量,提高替换和匹配效率的同时,避免准确的候选字段被删除,提高准设定元素字段包含准确的元素字段的概率。预定距离阈值可以按需设定,本发明并非以此为限制。
下面参见图4,图4示出了根据本发明实施例的判断该设定元素字段是否与一标准地址元素库中的标准地址元素匹配的流程图。具体而言,图1中的步骤S131和步骤S133皆可以按图4所示的步骤执行。图4示出如下步骤:
步骤S1311:基于所述地址信息自所述标准地址元素库中确定用于匹配所述设定元素字段的区域地址元素库。
步骤S1312:使所述设定元素字段与所述区域地址元素库进行匹配。
具体而言,标准地址元素库可以按区域划分为多个区域地址元素库。例如,可以按市划分为多个市地址元素库;可以按区划分为多个区地址元素库。由此,可以首先通过区域的匹配,来获得一个匹配范围更小的区域地址元素库,相较于整个标准地址元素库的匹配,仅执行其中一区域地址元素库的匹配的效率,显然是更高的。
在上述的实施例中,步骤S1311基于所述地址信息自所述标准地址元素库中确定用于匹配所述设定元素字段的区域地址元素库可以包括如下步骤:基于所述设定元素字段的上级地址字段,自所述标准地址元素库中确定用于匹配所述设定元素字段的区域地址元素库,所述上级地址字段指示的地区范围包含所述设定元素字段指示的地区范围,所述标准地址元素库按地址级别储存所述区域地址元素库。
具体而言,所述标准地址元素库可以按地址级别逐级储存所述区域地址元素库。例如,标准地址元素库可以按省划分为多个一级区域地址元素库;对该多个一级区域地址元素库按市划分为多个二级区域地址元素库;对该多个二级区域地址元素库按区划分为多个三级区域地址元素库,以此类推。用于划分标准地址元素库的地址级别的数量可以按需设置,本发明并非以此为限制。在一些优选的实施例中,每一级区域地址元素库仅储存该级区域包含的下一级地址字段。换言之,一级区域地址元素库仅储存市级字段;二级区域地址元素库仅储存区级字段,以此类推。
由此,在上述实施例中,当设定地址元素字段为区级字段,则可以获取地址信息中该区级字段的上级地址字段(市级字段),根据市级字段自标准地址元素库查找对应的二级区域地址元素库,并于二级区域地址元素库中进行区级字段的匹配。通过标准地址元素库的储存结构的设置以及逐级区域地址元素库的匹配,能够大大提升设定元素字段的匹配效率。
在上述实施例的一些具体实现中,所述设定元素字段的上级地址字段为经地址纠正的设定元素字段。具体而言,将上级地址字段为经地址纠正的设定元素字段以避免上级地址字段错误,从而导致无法查询到准确的区域地址元素库进行匹配。
进一步地,在上述实施例的一些具体实现中,所述设定元素字段按其指示的区域大小,形成级别关系。由此,所述对每一所述设定元素字段执行地址纠正步骤包括:按指示的区域由大至小,逐级对每一所述设定元素字段执行地址纠正步骤。
换言之,该实施例可以实现逐级纠正后的逐级匹配。例如,可以首先获取市级字段作为设定元素字段,自标准地址元素库中基于市级字段所在的省,查找一级区域地址元素库进行市级字段的匹配,若匹配成功,则表示该市级字段无误;若匹配失败,则通过步骤S130对市级字段进行纠正。然后,获取区级字段作为设定元素字段,自标准地址元素库中基于区级字段所在的市(经纠正的市级字段),查找二级区域地址元素库进行区级字段的匹配,若匹配成功,则表示该区级字段无误;若匹配失败,则通过步骤S130对区级字段进行纠正。依次类推,通过逐级的方式,提高匹配效率和纠正准确率。
在本发明的一些实施例中,所述同音同形字表中还可以保存同音字和/或同形字之间的转换权重。由此,所述步骤S132对所述设定元素字段中的至少一个字,自一同音同形字表中,获取该字的同音字和/或同形字,作为替换字可以包括如下步骤:对所述设定元素字段中的至少一个字,基于该字在所述同音同形字表中与其同音字和/或同形字之间的转换权重,获取该字的同音字和/或同形字,作为替换字。具体而言,所述同音同形字表一个字转换为另一个字的可能性越高(该另一个字被错误的输入为该一个字的概率越大),转换权重越高,因此,可以基于转换权重,优选采用高转换权重的替换字进行替换,以提高在替换前期就能够成功匹配的概率,总体提升匹配效率。
进一步地,在一些具体实现中,可以从一个字开始,自转换权重最大至转换权重最小(或者可以设定转换权重下限)的字开始进行替换;然后进行两个字的替换,自转换权重总和最大至转换权重总和最小(或者可以设定转换权重总和下限)的字开始进行替换,以此类推。在另一些具体实现中,可以从转换权重最大的一个字开始,以该字为基准,依次进行一个字、两个字至多个字的替换,若皆无法匹配,则以转换权重次大的一个字开始,以该字为基准,依次进行一个字、两个字至多个字的替换,以此类推。在该实施例中,当以每个字为基准时的多个字的替换,也可以自转换权重最大(转换权重之和最大)的开始。本发明可以依据转换权重实现更多的变化方式,在此不予赘述。
进一步地,转换权重可以基于各类深度学习模型、机器学习模型进行学习和预测,以储存在同音同形字表中。转换权重也可以依据经验进行人为的设定。本领域技术人员可以实现更多的转换权重的设置方式,在此不予赘述。
在上述实施例中,所述步骤S134基于所述准设定元素字段纠正所述地址信息之后还可以包括:于所述同音同形字表中,增加所述准设定元素字段中的替换字和所述设定元素字段中的被替换字之间的转换权重。
换言之,上述步骤通过地址信息的纠正,从而对同音同形字表中字与字之间的转换权重进行学习和调整,从而使得同音同形字表中的转换权重更适用于地址信息邻域。
在一些具体实施例中,可以设置次数阈值,也就是同一字被同一另一字替换的次数大于设定的次数阈值时,才于所述同音同形字表中,增加所述准设定元素字段中的替换字和所述设定元素字段中的被替换字之间的转换权重。本发明可以实现更多不同的转换权重的调整方式,在此不予赘述。
以上仅仅是本发明的地址纠正方法的多个具体实现方式,各实现方式可以独立或组合来实现,本发明并非以此为限制。进一步地,本发明的流程图仅仅是示意性地,各步骤之间的执行顺序并非以此为限制,步骤的拆分、合并、顺序交换、其它同步或异步执行的方式皆在本发明的保护范围之内。
下面参见图5,图5示出了根据本发明实施例的地址纠正装置的模块图。地址纠正装置200包括接收模块210、提取模块220以及纠正模块230。
接收模块210配置成接收用于进行物流路由的地址信息。
提取模块220配置成提取所述地址信息的至少一个设定元素字段。
纠正模块230配置成对每一所述设定元素字段执行地址纠正步骤。所述地址纠正步骤包括:
判断该设定元素字段是否与一标准地址元素库中的标准地址元素匹配;
若否,则对所述设定元素字段中的至少一个字,自一同音同形字表中,获取该字的同音字和/或同形字,作为替换字,以在所述设定元素字段中将该字替换为所述替换字,形成准设定元素字段;
判断所述准设定元素字段是否与所述标准地址元素库中的标准地址元素匹配;
若是,则基于所述准设定元素字段纠正所述地址信息。
在本发明的示例性实施方式的地址纠正装置中,通过基于标准地址元素库中的标准地址元素匹配,确定地址信息是否需要纠正,若需要纠正则基于同音同形字表进行元素字段的替换,并再次与标准地址元素库进行匹配,直到能够命中标准地址元素,由此,实现地址信息的纠正,从而使得收发件地址信息准确,避免物流路由计算错误,保证物流包裹的流转和运输的正常运行,减少由于物流运输错误导致的物流运输成本,提高用户物流体验;同时,算法便于实现,对系统算力需求较低,可应用于各类系统和各类场景中。
图5仅仅是示意性的分别示出本发明提供的地址纠正装置200,在不违背本发明构思的前提下,模块的拆分、合并、增加都在本发明的保护范围之内。本发明提供的地址纠正装置200可以由软件、硬件、固件、插件及他们之间的任意组合来实现,本发明并非以此为限。
在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被例如处理器执行时可以实现上述任意一个实施例中所述地址纠正方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述所述地址纠正方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在租户计算设备上执行、部分地在租户设备上执行、作为一个独立的软件包执行、部分在租户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到租户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本发明的示例性实施例中,还提供一种电子设备,该电子设备可以包括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中所述地址纠正方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图7来描述根据本发明的这种实施方式的电子设备500。图7显示的电子设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:至少一个处理单元510、至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530、显示单元540等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述所述地址纠正方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图1至图2任一幅或多幅附图所示的步骤。
所述存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(ROM)5203。
所述存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备500也可以与一个或多个外部设备600(例如键盘、指向设备、蓝牙设备等)通讯,还可与一个或者多个使得租户能与该电子设备500交互的设备通讯,和/或与使得该电子设备500能与一个或多个其它计算设备进行通讯的任何设备(例如路由器、调制解调器等等)通讯。这种通讯可以通过输入/输出(I/O)接口550进行。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通讯。网络适配器560可以通过总线530与电子设备500的其它模块通讯。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明实施方式的上述所述地址纠正方法。
相比现有技术,本发明的优势在于:
本发明通过基于标准地址元素库中的标准地址元素匹配,确定地址信息是否需要纠正,若需要纠正则基于同音同形字表进行元素字段的替换,并再次与标准地址元素库进行匹配,直到能够命中标准地址元素,由此,实现地址信息的纠正,从而使得收发件地址信息准确,避免物流路由计算错误,保证物流包裹的流转和运输的正常运行,减少由于物流运输错误导致的物流运输成本,提高用户物流体验;同时,算法便于实现,对系统算力需求较低,可应用于各类系统和各类场景中。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。

Claims (14)

1.一种地址纠正方法,其特征在于,包括:
接收用于进行物流路由的地址信息;
提取所述地址信息的至少一个设定元素字段;
对每一所述设定元素字段执行地址纠正步骤,所述地址纠正步骤包括:
判断该设定元素字段是否与一标准地址元素库中的标准地址元素匹配;
若否,则对所述设定元素字段中的至少一个字,自一同音同形字表中,获取该字的同音字和/或同形字,作为替换字,以在所述设定元素字段中将该字替换为所述替换字,形成准设定元素字段;
判断所述准设定元素字段是否与所述标准地址元素库中的标准地址元素匹配;
若是,则基于所述准设定元素字段纠正所述地址信息。
2.如权利要求1所述的地址纠正方法,其特征在于,所述对所述设定元素字段中的至少一个字,自一同音同形字表中,获取该字的同音字和/或同形字,作为替换字,以于所述设定元素字段中将该字替换为所述替换字,形成准设定元素字段包括:
对所述设定元素字段中的多个字,自所述同音同形字表中,分别获取该多个字的同音字和/或同形字,作为替换字;
基于所述替换字对该多个字中的一个或多个字的替换,形成多个候选字段;
自该多个候选字段中选取多个字段作为所述准设定元素字段。
3.如权利要求2所述的地址纠正方法,其特征在于,所述自该多个候选字段中选取至少一个字段作为所述准设定元素字段包括:
计算每一候选字段与所述设定元素字段之间的编辑距离;
将编辑距离小于预定距离阈值的候选字段作为所述准设定元素字段。
4.如权利要求1所述的地址纠正方法,其特征在于,所述判断该设定元素字段是否与一标准地址元素库中的标准地址元素匹配包括:
基于所述地址信息自所述标准地址元素库中确定用于匹配所述设定元素字段的区域地址元素库;
使所述设定元素字段与所述区域地址元素库进行匹配。
5.如权利要求4所述的地址纠正方法,其特征在于,所述基于所述地址信息自所述标准地址元素库中确定用于匹配所述设定元素字段的区域地址元素库包括:
基于所述设定元素字段的上级地址字段,自所述标准地址元素库中确定用于匹配所述设定元素字段的区域地址元素库,所述上级地址字段指示的地区范围包含所述设定元素字段指示的地区范围,所述标准地址元素库按地址级别储存所述区域地址元素库。
6.如权利要求5所述的地址纠正方法,其特征在于,所述设定元素字段的上级地址字段为经地址纠正的设定元素字段。
7.如权利要求6所述的地址纠正方法,其特征在于,所述设定元素字段按其指示的区域大小,形成级别关系,所述对每一所述设定元素字段执行地址纠正步骤包括:
按指示的区域由大至小,逐级对每一所述设定元素字段执行地址纠正步骤。
8.如权利要求1所述的地址纠正方法,其特征在于,所述同音同形字表中还保存同音字和/或同形字之间的转换权重,所述对所述设定元素字段中的至少一个字,自一同音同形字表中,获取该字的同音字和/或同形字,作为替换字包括:
对所述设定元素字段中的至少一个字,基于该字在所述同音同形字表中与其同音字和/或同形字之间的转换权重,获取该字的同音字和/或同形字,作为替换字。
9.如权利要求8所述的地址纠正方法,其特征在于,所述基于所述准设定元素字段纠正所述地址信息之后还包括:
于所述同音同形字表中,增加所述准设定元素字段中的替换字和所述设定元素字段中的被替换字之间的转换权重。
10.如权利要求1至9任一项所述的地址纠正方法,其特征在于,所述地址信息包括发件地址和/或收件地址。
11.如权利要求1至9任一项所述的地址纠正方法,其特征在于,所述设定元素字段包括兴趣点、道路名、镇名、街道名中的一项或多项。
12.一种地址纠正装置,其特征在于,包括:
接收模块,配置成接收用于进行物流路由的地址信息;
提取模块,配置成提取所述地址信息的至少一个设定元素字段;
纠正模块,配置成对每一所述设定元素字段执行地址纠正步骤,所述地址纠正步骤包括:
判断该设定元素字段是否与一标准地址元素库中的标准地址元素匹配;
若否,则对所述设定元素字段中的至少一个字,自一同音同形字表中,获取该字的同音字和/或同形字,作为替换字,以在所述设定元素字段中将该字替换为所述替换字,形成准设定元素字段;
判断所述准设定元素字段是否与所述标准地址元素库中的标准地址元素匹配;
若是,则基于所述准设定元素字段纠正所述地址信息。
13.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行:
如权利要求1至11任一项所述的地址纠正方法。
14.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行:
如权利要求1至11任一项所述的地址纠正方法。
CN202110127661.0A 2021-01-29 2021-01-29 地址纠正方法、装置、电子设备及存储介质 Pending CN112836497A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110127661.0A CN112836497A (zh) 2021-01-29 2021-01-29 地址纠正方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110127661.0A CN112836497A (zh) 2021-01-29 2021-01-29 地址纠正方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112836497A true CN112836497A (zh) 2021-05-25

Family

ID=75930985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110127661.0A Pending CN112836497A (zh) 2021-01-29 2021-01-29 地址纠正方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112836497A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113112353A (zh) * 2021-06-15 2021-07-13 红盾大数据(北京)有限公司 地址信息完善方法、装置、电子设备及可读存储介质
CN113704574A (zh) * 2021-08-27 2021-11-26 北京市律典通科技有限公司 地址标准化的方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000057258A2 (en) * 1999-03-19 2000-09-28 Cybersource Corporation Method and apparatus for verifying address information
CN102750351A (zh) * 2012-06-11 2012-10-24 迪尔码国际营销服务(北京)有限公司 基于规则的地址信息匹配方法
CN104464736A (zh) * 2014-12-15 2015-03-25 北京百度网讯科技有限公司 语音识别文本的纠错方法和装置
CN105760538A (zh) * 2016-03-14 2016-07-13 广州神马移动信息科技有限公司 一种基于浏览器地址栏的url输入方法和一种浏览器
CN107436691A (zh) * 2016-05-26 2017-12-05 北京搜狗科技发展有限公司 一种输入法进行纠错的方法、客户端、服务器及装置
CN111008625A (zh) * 2019-12-06 2020-04-14 中国建设银行股份有限公司 一种地址校正方法、装置、设备及存储介质
CN111062205A (zh) * 2019-12-16 2020-04-24 北京大学 一种中文自动语法纠错中的动态掩码训练方法
CN111079412A (zh) * 2018-10-18 2020-04-28 北京嘀嘀无限科技发展有限公司 文本纠错方法及装置
CN111274785A (zh) * 2020-01-21 2020-06-12 北京字节跳动网络技术有限公司 一种文本纠错方法、装置、设备及介质
CN111695355A (zh) * 2020-05-26 2020-09-22 平安银行股份有限公司 地址文本识别方法、装置、介质、电子设备
CN111724110A (zh) * 2020-06-16 2020-09-29 苏宁云计算有限公司 地址信息处理方法、装置、计算机设备和存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000057258A2 (en) * 1999-03-19 2000-09-28 Cybersource Corporation Method and apparatus for verifying address information
CN102750351A (zh) * 2012-06-11 2012-10-24 迪尔码国际营销服务(北京)有限公司 基于规则的地址信息匹配方法
CN104464736A (zh) * 2014-12-15 2015-03-25 北京百度网讯科技有限公司 语音识别文本的纠错方法和装置
CN105760538A (zh) * 2016-03-14 2016-07-13 广州神马移动信息科技有限公司 一种基于浏览器地址栏的url输入方法和一种浏览器
CN107436691A (zh) * 2016-05-26 2017-12-05 北京搜狗科技发展有限公司 一种输入法进行纠错的方法、客户端、服务器及装置
CN111079412A (zh) * 2018-10-18 2020-04-28 北京嘀嘀无限科技发展有限公司 文本纠错方法及装置
CN111008625A (zh) * 2019-12-06 2020-04-14 中国建设银行股份有限公司 一种地址校正方法、装置、设备及存储介质
CN111062205A (zh) * 2019-12-16 2020-04-24 北京大学 一种中文自动语法纠错中的动态掩码训练方法
CN111274785A (zh) * 2020-01-21 2020-06-12 北京字节跳动网络技术有限公司 一种文本纠错方法、装置、设备及介质
CN111695355A (zh) * 2020-05-26 2020-09-22 平安银行股份有限公司 地址文本识别方法、装置、介质、电子设备
CN111724110A (zh) * 2020-06-16 2020-09-29 苏宁云计算有限公司 地址信息处理方法、装置、计算机设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113112353A (zh) * 2021-06-15 2021-07-13 红盾大数据(北京)有限公司 地址信息完善方法、装置、电子设备及可读存储介质
CN113112353B (zh) * 2021-06-15 2021-11-23 红盾大数据(北京)有限公司 地址信息完善方法、装置、电子设备及可读存储介质
CN113704574A (zh) * 2021-08-27 2021-11-26 北京市律典通科技有限公司 地址标准化的方法及装置
CN113704574B (zh) * 2021-08-27 2024-02-09 北京市律典通科技有限公司 地址标准化的方法及装置

Similar Documents

Publication Publication Date Title
US8868479B2 (en) Natural language parsers to normalize addresses for geocoding
CN111460083A (zh) 文档标题树的构建方法、装置、电子设备及存储介质
JP2018510410A (ja) 住所テキストを処理する方法及び機器
CN111739514B (zh) 一种语音识别方法、装置、设备及介质
CN106326233B (zh) 地址提示方法及装置
CN110990520B (zh) 一种地址编码方法、装置、电子设备和存储介质
CN112818685A (zh) 地址匹配方法、装置、电子设备及存储介质
CN112836497A (zh) 地址纠正方法、装置、电子设备及存储介质
US11182665B2 (en) Recurrent neural network processing pooling operation
CN111460117B (zh) 对话机器人意图语料生成方法、装置、介质及电子设备
CN110888577A (zh) 字符纠正方法、装置、设备以及存储介质
KR20240067971A (ko) 음성 인식 방법, 음성 인식 장치, 전자장비, 저장매체 및 컴퓨터 프로그램
JP7194759B2 (ja) 翻訳用データ生成システム
CN111581344A (zh) 一种接口信息审核方法、装置、计算机设备及存储介质
US9378466B2 (en) Data reduction in nearest neighbor classification
CN113723890B (zh) 信息处理方法、装置、设备及存储介质
CN113204613B (zh) 地址生成方法、装置、设备和存储介质
CN112818684B (zh) 地址元素排序方法、装置、电子设备及存储介质
CN111339448B (zh) 查询改写方法、系统、设备及存储介质
CN114036414A (zh) 兴趣点的处理方法、装置、电子设备、介质及程序产品
CN112818665A (zh) 结构化地址信息的方法、装置、电子设备及存储介质
CN107203512B (zh) 用于从用户的自然语言输入中提取关键元素的方法
CN112488200A (zh) 物流地址特征提取方法、系统、设备及存储介质
CN111753548A (zh) 信息获取方法及装置、计算机存储介质、电子设备
CN112818667B (zh) 地址纠正方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination