CN112818666A - 地址识别方法、装置、电子设备和存储介质 - Google Patents
地址识别方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112818666A CN112818666A CN202110127708.3A CN202110127708A CN112818666A CN 112818666 A CN112818666 A CN 112818666A CN 202110127708 A CN202110127708 A CN 202110127708A CN 112818666 A CN112818666 A CN 112818666A
- Authority
- CN
- China
- Prior art keywords
- address
- identified
- invalid
- target
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000012790 confirmation Methods 0.000 claims description 11
- 238000012986 modification Methods 0.000 claims description 11
- 230000004048 modification Effects 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 10
- 239000010931 gold Substances 0.000 description 10
- 229910052737 gold Inorganic materials 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/387—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
- G06Q10/0838—Historical data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Remote Sensing (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Library & Information Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及物流技术领域,提供一种地址识别方法、装置、电子设备和存储介质。所述地址识别方法包括:接收地址信息;获得所述地址信息中的对应目标地址级别的目标地址,及位于所述目标地址之后的待识别地址;根据所述目标地址对应的地址识别模型,对所述待识别地址进行识别,获得所述待识别地址为有效地址或无效地址的识别结果。本发明能够在接收到地址信息后,快速准确地识别出地址是否有效,从而确保后续的物流流转,提高物流公司和电商平台的服务质量,并提升用户的购物体验。
Description
技术领域
本发明涉及物流技术领域,具体地说,涉及一种地址识别方法、装置、电子设备和存储介质。
背景技术
在物流领域,收货地址的有效性是包裹正常流转的重要基础,关系到物流公司和电商平台的服务质量以及用户的购物体验。
用户在电商平台下单时,需要在详细地址的填写框中输入详细地址。由于各种原因,常会出现详细地址无效的情况。例如,有些用户记错了地址,导致详细地址无效;有些用户输入了错别字,导致详细地址无效;甚至,有些用户会随意填写没有地址意义的信息,导致详细地址无效。
目前,电商平台收到用户输入的详细地址后,并不会进行识别,而直接生成收货地址,导致影响后续的物流流转。
需要说明的是,上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种地址识别方法、装置、电子设备和存储介质,能够在接收到地址信息后,快速准确地识别出地址是否有效,从而确保后续的物流流转,提高物流公司和电商平台的服务质量,并提升用户的购物体验。
本发明的一个方面提供一种地址识别方法,包括:接收地址信息;获得所述地址信息中的对应目标地址级别的目标地址,及位于所述目标地址之后的待识别地址;根据所述目标地址对应的地址识别模型,对所述待识别地址进行识别,获得所述待识别地址为有效地址或无效地址的识别结果。
在一些实施例中,所述地址信息包括自系统分级地址中选择的第一地址信息和输入的第二地址信息;所述系统分级地址具有多个地址级别,所述目标地址级别为所述系统分级地址中的一地址级别,所述待识别地址为所述第二地址信息。
在一些实施例中,所述根据所述目标地址对应的地址识别模型,对所述待识别地址进行识别,获得所述待识别地址为有效地址或无效地址的识别结果,包括:获得所述目标地址对应的地址识别模型,所述地址识别模型基于统计语言模型构建;对所述待识别地址进行分词,获得包括多个地址段的地址段序列;将所述地址段序列输入所述地址识别模型,输出根据每个地址段的概率形成的所述地址段序列的概率值;判断所述概率值是否达到第一阈值,若是则判定所述待识别地址为有效地址,若否则判定所述待识别地址为无效地址。
在一些实施例中,地址级别为所述目标地址级别的每个地址区域对应有一地址识别模型;每个所述地址识别模型以隶属于其对应的地址区域的历史有效地址数据为样本数据,进行训练;每个所述地址识别模型根据对其样本数据的识别结果的精准率和召回率,进行优化。
在一些实施例中,当所述概率值未达到所述第一阈值,所述地址识别模型还输出概率小于第二阈值的地址段;所述地址识别方法还包括替换步骤,所述替换步骤包括:判断所述待识别地址中是否存在一兴趣点地址,所述兴趣点地址位于所述目标地址的地址池中、且能唯一确定所述待识别地址中包含输出的至少部分地址段的至少局部地址区间,所述地址池由隶属于所述目标地址的历史有效地址数据组成;若存在,自所述地址池中获取所述兴趣点地址对应的历史有效地址数据,替换由所述兴趣点地址唯一确定的至少局部地址区间,并向输入所述待识别地址的客户端返回供确认替换后的待识别地址的确认信息。
在一些实施例中,所述替换步骤还包括:若不存在,且所述地址识别模型输出的第一个地址段由文字组成,将所述第一个地址段作为无效地址段;自所述地址池中,获得地址级别与所述无效地址段相同的历史有效地址数据,形成替换地址池;根据输入所述无效地址段的输入法,自所述替换地址池中获取与所述无效地址段匹配的历史有效地址数据,替换所述无效地址段,并向所述客户端返回供确认替换后的待识别地址的确认信息。
在一些实施例中,所述自所述替换地址池中获取与所述无效地址段匹配的历史有效地址数据,包括:根据所述输入法,遍历计算所述替换地址池中各历史有效地址数据与所述无效地址段之间的相似度;判断计算获得的一最高相似度是否达到相似度阈值;若是,将所述最高相似度对应的历史有效地址数据作为与所述无效地址段匹配的历史有效地址数据;若否,向所述客户端返回供修改所述待识别地址的提醒信息。
在一些实施例中,所述遍历计算所述替换地址池中各历史有效地址数据与所述无效地址段之间的相似度,包括:当所述输入法为拼音输入法,根据字音遍历计算所述替换地址池中各历史有效地址数据与所述无效地址段之间的相似度;当所述输入法为五笔输入法,根据字型遍历计算所述替换地址池中各历史有效地址数据与所述无效地址段之间的相似度。
在一些实施例中,所述替换步骤还包括:若不存在,且所述地址识别模型输出的第一个地址段包含非文字部分,向所述客户端返回供修改所述待识别地址的提醒信息。
在一些实施例中,所述提醒信息携带有对应输出的地址段及其依赖地址段的修改插件。
本发明的另一个方面提供一种地址识别装置,包括:地址接收模块,配置为接收地址信息;目标获取模块,配置为获得所述地址信息中的对应目标地址级别的目标地址,及位于所述目标地址之后的待识别地址;地址识别模块,配置为根据所述目标地址对应的地址识别模型,对所述待识别地址进行识别,获得所述待识别地址为有效地址或无效地址的识别结果。
本发明的再一个方面提供一种电子设备,包括:一处理器;一存储器,存储有可执行指令;其中,所述可执行指令被所述处理器执行时,实现上述任意实施例所述的地址识别方法。
本发明的又一个方面提供一种计算机可读的存储介质,存储有计算机程序,所述计算机程序被执行时实现上述任意实施例所述的地址识别方法。
本发明与现有技术相比的有益效果至少包括:
在接收到地址信息后,获得对应目标地址级别的目标地址和位于目标地址之后的待识别地址,进而选取目标地址对应的地址识别模型对待识别地址进行识别,快速准确地获得待识别地址是否有效的识别结果;当待识别地址为无效地址时,可进一步通过自动纠错或提醒用户修改,确保后续的物流流转;
从而,本发明的地址识别方法、装置、电子设备和存储介质,能够提高物流公司和电商平台的服务质量,提升用户的购物体验,且在电商物流多种实际业务场景下都具有应用价值。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本发明实施例中地址识别方法的步骤示意图;
图2示出本发明实施例中地址识别模型的生成过程示意图;
图3示出本发明实施例中替换步骤的步骤示意图;
图4示出本发明实施例中地址识别装置的模块示意图;
图5示出本发明实施例中电子设备的结构示意图;以及
图6示出本发明实施例中计算机可读的存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式。相反,提供这些实施方式使本发明全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
下面实施例中的步骤序号仅用于表示不同的执行内容,并不严格限定步骤之间的执行顺序。具体描述时使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。需要说明的是,在不冲突的情况下,本发明的实施例及不同实施例中的特征可以相互组合。
图1示出实施例中地址识别方法的主要步骤,参照图1所示,本实施例中地址识别方法包括:在步骤S110中,接收地址信息;在步骤S120中,获得地址信息中的对应目标地址级别的目标地址,及位于目标地址之后的待识别地址;在步骤S130中,根据目标地址对应的地址识别模型,对待识别地址进行识别,获得待识别地址为有效地址或无效地址的识别结果。
以用户在电商平台下单的场景为例。在收货地址填写页面,通常包括所在地区的选择框和详细地址的填写框。所在地区的选择框供用户自系统分级地址中选择对应的地址,详细地址的填写框供用户输入具体的详细地址。从而,本实施例中,地址信息包括自系统分级地址中选择的第一地址信息和输入的第二地址信息。
系统分级地址通常具有多个地址级别,所述的地址级别采用行政区划的地址级别。例如,电商平台根据行政区划的三级地址级别,提供系统分级地址,具体包括:一级地址级别对应的省级行政区,包括省、自治区、直辖市等;二级地址级别对应的地级行政区,包括地级市、地区、自治州等;三级地址级别对应的县级行政区,包括市辖区、县级市、县等。用户填写收货地址时,先从系统分级地址中按照三级地址级别选择对应的地址,形成的第一地址信息例如:“上海/上海市-上海市-徐汇区”;然后再输入具体的详细信息,形成的第二地址信息例如:漕溪北路333号中金国际广场B座1505室。
上述列举的第一地址信息“上海/上海市-上海市-徐汇区”是在一级地址为直辖市时的一种特殊情况。关于直辖市的三级地址划分,可采用其他已有的电商平台的三级地址划分模式。当一级地址为普通省份,则采用常规的三级地址划分模式。例如,在一个实施例中,生成的第一地址信息为:江苏省南京市鼓楼区。
下文中举例时,将第一地址信息“上海/上海市-上海市-徐汇区”简称为“上海市徐汇区”。
在其他实施例中,系统分级地址也可根据实际需要进行调整。例如,在三级地址级别之后,还可进一步包括对应乡级行政区的四级地址级别。
目标地址级别为系统分级地址中的一地址级别,待识别地址为第二地址信息。例如,在一个实施例中,目标地址级别为二级地址级别。以地址信息为“上海市徐汇区漕溪北路333号中金国际广场B座1505室”为例,获得的对应目标地址级别的目标地址即“上海市”,待识别地址即用户输入的“漕溪北路333号中金国际广场B座1505室”。进而,选取目标地址对应的地址识别模型对待识别地址进行识别,能够快速准确地获得待识别地址是否有效的识别结果。
将目标地址级别设定为二级地址级别,能够兼顾每个地址识别模型的识别速度和准确性,以及所有地址识别模型的数据量。具体来说,地址级别为目标地址级别的每个地址区域对应有一地址识别模型,每个地址识别模型经过训练,能够快速准确地识别出待识别地址是否是其区域范围内的有效地址。当目标地址级别为二级地址级别时,则每个二级地址(例如上海市,再如南京市)各自有一地址识别模型。并且,各个二级地址的地址识别模型的数据量可控。
在其他实施例中,根据实际需要,也可将目标地址级别设定为其他的地址级别,但优选地在系统分级地址的地址级别中进行设定。以此,能够在用户自系统分级地址中选择对应的地址时,即获取到对应目标地址级别的目标地址,从而自存储地址识别模型的服务器中调用目标地址对应的地址识别模型;当根据用户的输入获得待识别地址后,即可根据调用的地址识别模型对待识别地址进行识别,从而提高地址识别速度,快速获得识别结果。
当待识别地址为有效地址,则可直接根据地址信息生成收货地址,用于后续的物流流转;当待识别地址为无效地址时,可进一步通过自动纠错或提醒用户修改,确保后续的物流流转。
在一个实施例中,根据目标地址对应的地址识别模型,对待识别地址进行识别,获得待识别地址为有效地址或无效地址的识别结果,具体包括:获得目标地址对应的地址识别模型,地址识别模型基于统计语言模型构建;对待识别地址进行分词,获得包括多个地址段的地址段序列;将地址段序列输入地址识别模型,输出根据每个地址段的概率形成的地址段序列的概率值;判断概率值是否达到第一阈值,若是则判定待识别地址为有效地址,若否则判定待识别地址为无效地址。
获得目标地址对应的地址识别模型的方式可参照上述的模型调用过程,此处不再重复。
地址识别模型基于统计语言模型构建,具体可采用N-gram模型。N-gram模型根据前(N-1)个词预测第N个词的出现概率,最终获得词序列的联合概率。本实施例中,N-gram模型具体可采用Bi-gram(N=2)模型或Tri-gram(N=3)模型。N-gram模型的原理是已有的技术,因此不再展开。
对待识别地址进行分词时,根据地址级别进行分词,此处的地址级别具体包括目标地址级别的下级行政区对应的地址级别以及具有实际地址意义的地址级别,例如“街道”、“路”、“号”、“园区”、“广场”、“村”、“组”等等。此处的地址级别可在模型训练时从历史有效地址数据中提取获得。以待识别地址为“漕溪北路333号中金国际广场B座1505室”为例,获得的地址段序列例如为:“漕溪北路,333号,中金国际广场,B座,1505室”。
在待识别地址无法根据地址级别分词时,可按照固定长度进行分词。
将地址段序列输入训练好的地址识别模型,地址识别模型经过计算,输出由每个地址段的概率联合形成的地址段序列的概率值。当概率值达到设定的第一阈值,则判定待识别地址有效,否则判定待识别地址无效。
如上所述,地址级别为目标地址级别的每个地址区域对应有一地址识别模型;每个地址识别模型以隶属于其对应的地址区域的历史有效地址数据为样本数据进行训练;且每个地址识别模型根据对其样本数据的识别结果的精准率和召回率进行优化。
图2示出一个实施例中,在解决地址识别问题时,生成地址识别模型的主要过程,参照图2所示,包括:
步骤S210,对无效地址进行特征分析,将地址识别问题抽象为统计语言模型问题。其中,无效地址可以自电商平台的历史失败运单中获取,提取历史失败运单的收货地址形成无效地址。
步骤S220,获取历史有效地址数据,用于模型训练和评估。历史有效地址数据自电商平台的历史有效运单中获取,提取历史有效运单的签收地址形成历史有效地址数据。
步骤S230,形成二级地址级别对应的每个二级地址的样本数据,每个二级地址的样本数据为隶属于该二级地址的历史有效地址数据。并且,对每个二级地址的样本数据进行适当的清洗和扩充,使每个二级地址都具有准确且完善的样本数据。
步骤S240,根据各个二级地址的样本数据批量训练N-gram统计语言模型,生成各个二级地址的地址识别模型。
步骤S250,使用每个地址识别模型对其样本数据进行识别,根据识别结果的评估指标对地址识别模型进行优化。评估指标具体包括精准率和召回率。
通过上述步骤,获得了对应每个二级地址,即地址级别为目标地址级别的地址区域的地址识别模型,从而可以根据地址信息中的目标地址,调用对应的地址识别模型对其待识别地址进行快速准确的识别。
进一步地,在一个实施例中,当待识别地址为无效地址时,还通过自动纠错或提醒用户修改,确保后续的物流流转。
具体来说,地址识别模型输出地址段序列的概率值时,若判断概率值未达到第一阈值,还输出概率小于第二阈值的地址段;地址识别方法还通过替换步骤,实现自动纠错或提醒用户修改。
图3示出实施例中替换步骤的主要过程,参照图3所示,替换步骤包括:S310,判断待识别地址中是否存在一兴趣点地址,兴趣点地址位于目标地址的地址池中、且能唯一确定待识别地址中包含输出的至少部分地址段的至少局部地址区间,地址池由隶属于目标地址的历史有效地址数据组成;S320,若存在,自地址池中获取兴趣点地址对应的历史有效地址数据,替换由兴趣点地址唯一确定的至少局部地址区间,并向输入待识别地址的客户端返回供确认替换后的待识别地址的确认信息。
以目标地址为“上海市”,待识别地址为“草席北路333号中金国际广场B座1505室”,地址段序列为“草席北路,333号,中金国际广场,B座,1505室”,输出的地址段至少包括“草席北路”和“333号”为例。
目标地址的地址池,即隶属于“上海市”的所有真实有效地址。判断待识别地址中是否存在满足条件的兴趣点地址时,可以先自待识别地址中选出兴趣点地址“中金国际广场”;然后判断该兴趣点地址是否在目标地址的地址池中,经判断“中金国际广场”是隶属于“上海市”的真实有效地址;再判断该兴趣点地址对应的历史有效地址数据是否能唯一确定待识别地址中包含输出的至少部分地址段的至少局部地址区间,经判断地址池中“中金国际广场”对应的历史有效地址数据“漕溪北路331~375号”能够唯一确定包含输出的地址段“草席北路”和“333号”的局部地址区间。此处的唯一是指兴趣点地址在地址池中仅对应一条历史有效地址数据。并且此处,可根据地址级别,包括“路”和“号”,判断兴趣点地址对应的历史有效地址数据是否能确定包含输出的至少部分地址段的至少局部地址区间。
经判断,存在满足条件的兴趣点地址“中金国际广场”,因此将由兴趣点地址唯一确定的局部地址区间“草席北路333号”替换为兴趣点地址对应的历史有效地址数据“漕溪北路331~375号”,形成替换后的待识别地址“漕溪北路331~375号中金国际广场B座1505室”,并将包含该替换后的待识别地址的确认信息发送至客户端,供用户确认替换后的待识别地址。确认信息中可携带确认插件和修改插件,修改插件可对应替换的地址段,用户若点击确认插件,系统可根据替换后的待识别地址生成收货地址;用户若点击修改插件,可对对应的地址段进行修改,系统再根据用户修改后的地址信息生成收货地址。
当待识别地址中不存在兴趣点地址,无法根据兴趣点地址进行有效替换时,结合用户输入待识别地址的输入法,预测无效地址段对应的正确字段。
具体来说,继续参照图3,在一个实施例中,替换步骤还包括:S330,若不存在兴趣点地址,且地址识别模型输出的第一个地址段由文字组成,将第一个地址段作为无效地址段;S340,自目标地址的地址池中,获得地址级别与无效地址段相同的历史有效地址数据,形成替换地址池;S350,根据输入无效地址段的输入法,自替换地址池中获取与无效地址段匹配的历史有效地址数据,替换无效地址段,并向客户端返回供确认替换后的待识别地址的确认信息。
以目标地址为“上海市”,待识别地址为“草席北路333号1505室”,地址段序列为“草席北路,333号,1505室”,输出的地址段至少包括“草席北路”和“333号”为例。
地址识别模型输出的第一个地址段为“草席北路”。自目标地址的地址池中,获得所有关于地址级别“路”的历史有效地址数据,形成由“上海市”下属的各个路名组成的替换地址池。接着,根据用户输入无效地址段的输入法,自替换地址池中获取与无效地址段匹配的历史有效地址数据。
获取与无效地址段匹配的历史有效地址数据的过程具体包括:根据输入法,遍历计算替换地址池中各历史有效地址数据与无效地址段之间的相似度;判断计算获得的一最高相似度是否达到相似度阈值;若是,将最高相似度对应的历史有效地址数据作为与无效地址段匹配的历史有效地址数据;若否,向客户端返回供修改待识别地址的提醒信息。
举例来说,当用户输入无效地址段的输入法为拼音输入法,根据字音遍历计算替换地址池中各历史有效地址数据与无效地址段之间的相似度;当用户输入无效地址段的输入法为五笔输入法,根据字型遍历计算替换地址池中各历史有效地址数据与无效地址段之间的相似度。
在其他实施例中,根据其他输入法的编码规则,采用对应的方式遍历计算替换地址池中各历史有效地址数据与无效地址段之间的相似度。
具体实现时,可通过在详细地址的填写框中设置输入法识别插件,识别用户输入详细地址时使用的输入法。例如,识别发现用户输入“草席北路”时使用的输入法为拼音输入法,则根据字音,遍历计算替换地址池中各历史有效地址数据的字音与无效地址段的字音“cao xi bei lu”之间的相似度,并经最高相似度的判断,最终获得与无效地址段匹配的历史有效地址数据“漕溪北路”,以此替换无效地址段,并向客户端返回包含替换后的待识别地址的确认信息。
当经相似度计算,没有与无效地址段匹配的历史有效地址数据,则向客户端返回包含待识别地址的修改提醒信息,提醒用户对无效的待识别地址进行修改。提醒信息中,可携带对应输出的地址段及其依赖地址段的修改插件,以方便用户点击修改插件直接修改,例如当修改插件被点击时生成弹出框,用户可在弹出框内对对应的地址段进行修改,且系统根据用户修改后的地址信息快速生成收货地址。在一些实施例中,还可对用户修改后的地址信息再次进行识别。
其中,依赖地址段是指地址识别模型在计算输出的地址段的出现概率时,所依赖的地址段。以输出的地址段为第N个地址段为例,则依赖地址段为其前(N-1)个地址段。
进一步地,参照图3,在替换步骤中,若判断不存在兴趣点地址,且地址识别模型输出的第一个地址段包含非文字部分,则执行S360,向客户端返回供修改待识别地址的提醒信息。
举例来说,待识别地址为“漕溪北路3333号1505室”,地址段序列为“漕溪北路,3333号,1505室”,输出的第一个地址段为“3333号”。此时,无法准确预测无效地址段对应的正确字段,因此提醒用户进行修改。
综上,上述各实施例的地址识别方法,在接收到地址信息后,调用对应目标地址级别的目标地址的地址识别模型,对目标地址级别之后的待识别地址进行识别,快速准确地获得待识别地址是否有效的识别结果;当待识别地址为无效地址时,可进一步通过自动纠错或提醒用户修改,确保后续的物流流转,从而提高物流公司和电商平台的服务质量,提升用户的购物体验,且在电商物流多种实际业务场景下都具有应用价值。
本发明实施例还提供一种地址识别装置,可用于实现上述任意实施例描述的地址识别方法。上述任意实施例描述的地址识别方法的特征和原理均可应用至下面的地址识别装置实施例。在下面的地址识别装置实施例中,对已经阐明的关于地址识别的特征和原理不再重复说明。
图4示出实施例中地址识别装置的主要模块,参照图4所示,本实施例中地址识别装置400包括:地址接收模块410,配置为接收地址信息;目标获取模块420,配置为获得地址信息中的对应目标地址级别的目标地址,及位于目标地址之后的待识别地址;地址识别模块430,配置为根据目标地址对应的地址识别模型,对待识别地址进行识别,获得待识别地址为有效地址或无效地址的识别结果。
进一步地,地址识别装置400还可包括实现上述各地址识别方法实施例的其他流程步骤的模块,各个模块的具体原理可参照上述各地址识别方法实施例的描述,此处不再重复说明。
如上所述,本发明的地址识别装置,能够在接收到地址信息后,调用对应目标地址级别的目标地址的地址识别模型,对目标地址级别之后的待识别地址进行识别,快速准确地获得待识别地址是否有效的识别结果;当待识别地址为无效地址时,可进一步通过自动纠错或提醒用户修改,确保后续的物流流转,从而提高物流公司和电商平台的服务质量,提升用户的购物体验,且在电商物流多种实际业务场景下都具有应用价值。
本发明实施例还提供一种电子设备,包括处理器和存储器,存储器中存储有可执行指令,可执行指令被处理器执行时,实现上述任意实施例描述的地址识别方法。
如上所述,本发明的电子设备能够在接收到地址信息后,调用对应目标地址级别的目标地址的地址识别模型,对目标地址级别之后的待识别地址进行识别,快速准确地获得待识别地址是否有效的识别结果;当待识别地址为无效地址时,可进一步通过自动纠错或提醒用户修改,确保后续的物流流转,从而提高物流公司和电商平台的服务质量,提升用户的购物体验,且在电商物流多种实际业务场景下都具有应用价值。
图5是本发明实施例中电子设备的结构示意图,应当理解的是,图5仅仅是示意性地示出各个模块,这些模块可以是虚拟的软件模块或实际的硬件模块,这些模块的合并、拆分及其余模块的增加都在本发明的保护范围之内。
如图5所示,电子设备600以通用计算设备的形式表现。电子设备600的组件包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行上述任意实施例描述的地址识别方法的步骤。例如,处理单元610可以执行如图1至图3所示的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一个或多个程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700通信,外部设备700可以是键盘、指向设备、蓝牙设备等设备中的一种或多种。这些外部设备700使得用户能与该电子设备600进行交互通信。电子设备600也能与一个或多个其它计算设备进行通信,所示计算机设备包括路由器、调制解调器。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本发明实施例还提供一种计算机可读的存储介质,用于存储程序,程序被执行时实现上述任意实施例描述的地址识别方法。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行上述任意实施例描述的地址识别方法。
如上所述,本发明的计算机可读的存储介质能够在接收到地址信息后,调用对应目标地址级别的目标地址的地址识别模型,对目标地址级别之后的待识别地址进行识别,快速准确地获得待识别地址是否有效的识别结果;当待识别地址为无效地址时,可进一步通过自动纠错或提醒用户修改,确保后续的物流流转,从而提高物流公司和电商平台的服务质量,提升用户的购物体验,且在电商物流多种实际业务场景下都具有应用价值。
图6是本发明的计算机可读的存储介质的结构示意图。参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子包括但不限于:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读的存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备,例如利用因特网服务提供商来通过因特网连接。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (13)
1.一种地址识别方法,其特征在于,包括:
接收地址信息;
获得所述地址信息中的对应目标地址级别的目标地址,及位于所述目标地址之后的待识别地址;
根据所述目标地址对应的地址识别模型,对所述待识别地址进行识别,获得所述待识别地址为有效地址或无效地址的识别结果。
2.如权利要求1所述的地址识别方法,其特征在于,所述地址信息包括自系统分级地址中选择的第一地址信息和输入的第二地址信息;
所述系统分级地址具有多个地址级别,所述目标地址级别为所述系统分级地址中的一地址级别,所述待识别地址为所述第二地址信息。
3.如权利要求1所述的地址识别方法,其特征在于,所述根据所述目标地址对应的地址识别模型,对所述待识别地址进行识别,获得所述待识别地址为有效地址或无效地址的识别结果,包括:
获得所述目标地址对应的地址识别模型,所述地址识别模型基于统计语言模型构建;
对所述待识别地址进行分词,获得包括多个地址段的地址段序列;
将所述地址段序列输入所述地址识别模型,输出根据每个地址段的概率形成的所述地址段序列的概率值;
判断所述概率值是否达到第一阈值,若是则判定所述待识别地址为有效地址,若否则判定所述待识别地址为无效地址。
4.如权利要求3所述的地址识别方法,其特征在于,地址级别为所述目标地址级别的每个地址区域对应有一地址识别模型;
每个所述地址识别模型以隶属于其对应的地址区域的历史有效地址数据为样本数据,进行训练;
每个所述地址识别模型根据对其样本数据的识别结果的精准率和召回率,进行优化。
5.如权利要求3所述的地址识别方法,其特征在于,当所述概率值未达到所述第一阈值,所述地址识别模型还输出概率小于第二阈值的地址段;
所述地址识别方法还包括替换步骤,所述替换步骤包括:
判断所述待识别地址中是否存在一兴趣点地址,所述兴趣点地址位于所述目标地址的地址池中、且能唯一确定所述待识别地址中包含输出的至少部分地址段的至少局部地址区间,所述地址池由隶属于所述目标地址的历史有效地址数据组成;
若存在,自所述地址池中获取所述兴趣点地址对应的历史有效地址数据,替换由所述兴趣点地址唯一确定的至少局部地址区间,并向输入所述待识别地址的客户端返回供确认替换后的待识别地址的确认信息。
6.如权利要求5所述的地址识别方法,其特征在于,所述替换步骤还包括:
若不存在,且所述地址识别模型输出的第一个地址段由文字组成,将所述第一个地址段作为无效地址段;
自所述地址池中,获得地址级别与所述无效地址段相同的历史有效地址数据,形成替换地址池;
根据输入所述无效地址段的输入法,自所述替换地址池中获取与所述无效地址段匹配的历史有效地址数据,替换所述无效地址段,并向所述客户端返回供确认替换后的待识别地址的确认信息。
7.如权利要求6所述的地址识别方法,其特征在于,所述自所述替换地址池中获取与所述无效地址段匹配的历史有效地址数据,包括:
根据所述输入法,遍历计算所述替换地址池中各历史有效地址数据与所述无效地址段之间的相似度;
判断计算获得的一最高相似度是否达到相似度阈值;
若是,将所述最高相似度对应的历史有效地址数据作为与所述无效地址段匹配的历史有效地址数据;
若否,向所述客户端返回供修改所述待识别地址的提醒信息。
8.如权利要求7所述的地址识别方法,其特征在于,所述遍历计算所述替换地址池中各历史有效地址数据与所述无效地址段之间的相似度,包括:
当所述输入法为拼音输入法,根据字音遍历计算所述替换地址池中各历史有效地址数据与所述无效地址段之间的相似度;
当所述输入法为五笔输入法,根据字型遍历计算所述替换地址池中各历史有效地址数据与所述无效地址段之间的相似度。
9.如权利要求5所述的地址识别方法,其特征在于,所述替换步骤还包括:
若不存在,且所述地址识别模型输出的第一个地址段包含非文字部分,向所述客户端返回供修改所述待识别地址的提醒信息。
10.如权利要求7或9所述的地址识别方法,其特征在于,所述提醒信息携带有对应输出的地址段及其依赖地址段的修改插件。
11.一种地址识别装置,其特征在于,包括:
地址接收模块,配置为接收地址信息;
目标获取模块,配置为获得所述地址信息中的对应目标地址级别的目标地址,及位于所述目标地址之后的待识别地址;
地址识别模块,配置为根据所述目标地址对应的地址识别模型,对所述待识别地址进行识别,获得所述待识别地址为有效地址或无效地址的识别结果。
12.一种电子设备,其特征在于,包括:
一处理器;
一存储器,存储有可执行指令;
其中,所述可执行指令被所述处理器执行时,实现如权利要求1-10任一项所述的地址识别方法。
13.一种计算机可读的存储介质,存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1-10任一项所述的地址识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110127708.3A CN112818666A (zh) | 2021-01-29 | 2021-01-29 | 地址识别方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110127708.3A CN112818666A (zh) | 2021-01-29 | 2021-01-29 | 地址识别方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112818666A true CN112818666A (zh) | 2021-05-18 |
Family
ID=75860255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110127708.3A Pending CN112818666A (zh) | 2021-01-29 | 2021-01-29 | 地址识别方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818666A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113438280A (zh) * | 2021-06-03 | 2021-09-24 | 多点生活(成都)科技有限公司 | 车辆启动控制方法和装置 |
CN114979074A (zh) * | 2022-07-22 | 2022-08-30 | 北京连星科技有限公司 | 一种企业IPv6地址分级管理方法、系统及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110069626A (zh) * | 2017-11-09 | 2019-07-30 | 菜鸟智能物流控股有限公司 | 一种目标地址的识别方法、分类模型的训练方法以及设备 |
CN110197284A (zh) * | 2019-04-30 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 一种虚假地址识别方法、装置及设备 |
CN110334162A (zh) * | 2019-05-09 | 2019-10-15 | 德邦物流股份有限公司 | 地址识别方法及装置 |
CN110377686A (zh) * | 2019-07-04 | 2019-10-25 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN110928971A (zh) * | 2019-11-21 | 2020-03-27 | 深圳无域科技技术有限公司 | 一种提高地址识别精确度的方法及装置 |
CN111695355A (zh) * | 2020-05-26 | 2020-09-22 | 平安银行股份有限公司 | 地址文本识别方法、装置、介质、电子设备 |
CN111966766A (zh) * | 2020-02-18 | 2020-11-20 | 上海寻梦信息技术有限公司 | 地址信息的检测方法、系统、电子设备和存储介质 |
CN112001172A (zh) * | 2020-08-25 | 2020-11-27 | 杭州橙鹰数据技术有限公司 | 识别方法及装置 |
-
2021
- 2021-01-29 CN CN202110127708.3A patent/CN112818666A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110069626A (zh) * | 2017-11-09 | 2019-07-30 | 菜鸟智能物流控股有限公司 | 一种目标地址的识别方法、分类模型的训练方法以及设备 |
CN110197284A (zh) * | 2019-04-30 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 一种虚假地址识别方法、装置及设备 |
CN110334162A (zh) * | 2019-05-09 | 2019-10-15 | 德邦物流股份有限公司 | 地址识别方法及装置 |
CN110377686A (zh) * | 2019-07-04 | 2019-10-25 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN110928971A (zh) * | 2019-11-21 | 2020-03-27 | 深圳无域科技技术有限公司 | 一种提高地址识别精确度的方法及装置 |
CN111966766A (zh) * | 2020-02-18 | 2020-11-20 | 上海寻梦信息技术有限公司 | 地址信息的检测方法、系统、电子设备和存储介质 |
CN111695355A (zh) * | 2020-05-26 | 2020-09-22 | 平安银行股份有限公司 | 地址文本识别方法、装置、介质、电子设备 |
CN112001172A (zh) * | 2020-08-25 | 2020-11-27 | 杭州橙鹰数据技术有限公司 | 识别方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113438280A (zh) * | 2021-06-03 | 2021-09-24 | 多点生活(成都)科技有限公司 | 车辆启动控制方法和装置 |
CN114979074A (zh) * | 2022-07-22 | 2022-08-30 | 北京连星科技有限公司 | 一种企业IPv6地址分级管理方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110196894B (zh) | 语言模型的训练方法和预测方法 | |
WO2021017679A1 (zh) | 地址信息解析方法、装置、系统及数据获取方法 | |
US9390084B2 (en) | Natural language parsers to normalize addresses for geocoding | |
US11055327B2 (en) | Unstructured data parsing for structured information | |
CN110674255B (zh) | 文本内容审核方法及装置 | |
CN112036162B (zh) | 文本纠错的适配方法、装置、电子设备及存储介质 | |
CN111739514B (zh) | 一种语音识别方法、装置、设备及介质 | |
CN109637000B (zh) | 发票检验方法及装置、存储介质、电子终端 | |
CN108305050B (zh) | 报案信息及服务需求信息的提取方法、装置、设备及介质 | |
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN113064964A (zh) | 文本分类方法、模型训练方法、装置、设备以及存储介质 | |
CN112818666A (zh) | 地址识别方法、装置、电子设备和存储介质 | |
CN112818685A (zh) | 地址匹配方法、装置、电子设备及存储介质 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN112835899A (zh) | 地址库索引方法、地址匹配方法以及相关设备 | |
CN113342977B (zh) | 发票图像分类方法、装置、设备及存储介质 | |
CN114036921A (zh) | 一种政策信息匹配方法和装置 | |
CN116501846A (zh) | 开放式对话方法、装置、电子设备及介质 | |
CN113221558B (zh) | 一种快递地址纠错方法、装置、存储介质及电子设备 | |
CN114297235A (zh) | 风险地址识别方法、系统及电子设备 | |
CN113011162A (zh) | 一种指代消解方法、装置、电子设备及介质 | |
CN114492396A (zh) | 用于汽车专有名词的文本错误纠正方法及可读存储介质 | |
CN112488200A (zh) | 物流地址特征提取方法、系统、设备及存储介质 | |
CN114065762A (zh) | 一种文本信息的处理方法、装置、介质及设备 | |
CN112818665A (zh) | 结构化地址信息的方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |