CN112818685A - 地址匹配方法、装置、电子设备及存储介质 - Google Patents

地址匹配方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112818685A
CN112818685A CN202110126030.7A CN202110126030A CN112818685A CN 112818685 A CN112818685 A CN 112818685A CN 202110126030 A CN202110126030 A CN 202110126030A CN 112818685 A CN112818685 A CN 112818685A
Authority
CN
China
Prior art keywords
address information
matched
candidate
similarity
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110126030.7A
Other languages
English (en)
Other versions
CN112818685B (zh
Inventor
王亚奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xunmeng Information Technology Co Ltd
Original Assignee
Shanghai Xunmeng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xunmeng Information Technology Co Ltd filed Critical Shanghai Xunmeng Information Technology Co Ltd
Priority to CN202110126030.7A priority Critical patent/CN112818685B/zh
Publication of CN112818685A publication Critical patent/CN112818685A/zh
Application granted granted Critical
Publication of CN112818685B publication Critical patent/CN112818685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • G06Q10/0838Historical data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Remote Sensing (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种地址匹配方法、装置、电子设备及存储介质,地址匹配方法,包括:获取待匹配地址信息;获取地址库中的多个候选地址信息;提取所述待匹配地址信息以及多个候选地址信息的特征数据;融合至少两个相似度算法、基于所述待匹配地址信息以及多个候选地址信息的特征数据,分别计算所述待匹配地址信息与多个候选地址信息的文本相似度;以及将多个所述候选地址信息按所述文本相似度由高至低进行排序。本发明对计算物流路由的地址信息进行匹配,保证匹配准确率的同时,减少算法复杂度,提高系统算法执行效率,以便于基于所匹配的地址进行相关的物流信息处理,从而提高用户物流体验。

Description

地址匹配方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机应用领域,尤其涉及一种地址匹配方法、装置、电子设备及存储介质。
背景技术
目前,在用户个人寄件场景中以及在电商寄件场景中,都需要获得用户的收发件地址,在进行实际物流运输和相关诸如物流轨迹预测的物流信息处理中,由于用户输入的收发件地址可能存在同一地址不同表述的情况,因此,需要进行地址匹配,从而获得标准地址,以根据该标准地址以及该标准地址对应的地理坐标信息等进行处理,并可基于此提供更完善和优质的的物流服务。
然而,目前地址匹配方式中,部分匹配方式过于复杂,对系统算力要求较高,且算法耗时较长;部分匹配方式过于简单,匹配准确率较低。
由此,如何实现地址匹配,保证匹配准确率的同时,减少算法复杂度,提高系统算法执行效率,以便于基于所匹配的地址进行相关的物流信息处理,从而提高用户物流体验,是本领域亟待解决的技术问题。
发明内容
本发明为了克服上述相关技术存在的缺陷,提供一种地址匹配方法、装置、电子设备及存储介质,进而实现地址匹配,保证匹配准确率的同时,减少算法复杂度,提高系统算法执行效率,以便于基于所匹配的地址进行相关的物流信息处理,从而提高用户物流体验。
根据本发明的一个方面,提供一种地址匹配方法,包括:
获取待匹配地址信息;
获取地址库中的多个候选地址信息;
提取所述待匹配地址信息以及多个候选地址信息的特征数据;
融合至少两个相似度算法、基于所述待匹配地址信息以及多个候选地址信息的特征数据,分别计算所述待匹配地址信息与多个候选地址信息的文本相似度;以及
将多个所述候选地址信息按所述文本相似度由高至低进行排序。
在本发明的一些实施例中,获取地址库中的多个候选地址信息包括:
获取所述待匹配地址信息至少部分区域信息;
将所述地址库中与所述至少部分区域信息一致的多个地址信息作为所述候选地址信息。
在本发明的一些实施例中,所述将所述地址库中与所述至少部分区域信息一致的多个地址信息作为所述候选地址信息包括:
判断所述地址库中与所述至少部分区域信息一致的地址信息的数量是否大于预定数量阈值;
若否,则将该多个地址信息作为所述候选地址信息;
若是,则基于一个相似度算法,计算所述待匹配地址信息与该多个地址信息的文本相似度;
将文本相似度最高的预定数量阈值的地址信息作为所述候选地址信息。
在本发明的一些实施例中,用于计算所述待匹配地址信息与该多个地址信息的文本相似度的相似度算法为用于计算所述待匹配地址信息与多个候选地址信息的文本相似度的至少两个相似度算法中的一个。
在本发明的一些实施例中,所述提取所述待匹配地址信息以及多个候选地址信息的特征数据包括:
对所述待匹配地址信息以及多个候选地址信息进行分词;
基于分词结果获得所述待匹配地址信息以及多个候选地址信息的多个地址字段;
获取多个地址字段的字段拼音;
将所述待匹配地址信息以及多个候选地址信息的多个地址字段以及字段拼音作为特征数据。
在本发明的一些实施例中,所述地址字段包括兴趣点、路名、道路号、楼号、社区名中的一个或多个字段。
在本发明的一些实施例中,所述融合至少两个相似度算法、基于所述待匹配地址信息以及多个候选地址信息的特征数据,分别计算所述待匹配地址信息与多个候选地址信息的文本相似度包括:
对于每一候选地址信息:
根据至少两个相似度算法、基于所述待匹配地址信息以及该候选地址信息的特征数据,分别计算所述待匹配地址信息与该候选地址信息的多个准文本相似度;
根据所述相似度算法的权值,对所述待匹配地址信息与该候选地址信息的准文本相似度进行加权求和,获得所述待匹配地址信息与该候选地址信息的文本相似度。
在本发明的一些实施例中,所述将多个所述候选地址信息按所述文本相似度由高至低进行排序之后包括:
获取排序在前N个的所述候选地址信息的地理坐标数据,N为大于等于1的整数;
根据排序在前N个的所述候选地址信息的地理坐标数据确定所述待匹配地址信息的地理坐标数据。
在本发明的一些实施例中,所述根据排序在前N个的所述候选地址信息的地理坐标数据确定所述待匹配地址信息的地理坐标数据之后包括:
接收反馈信息,所述反馈信息包括所述待匹配地址信息的实际地理坐标数据。
在本发明的一些实施例中,所述接收反馈信息之后包括:
判断所述待匹配地址信息的实际地理坐标数据是否命中排序在前N个的所述候选地址信息的地理坐标数据;
若否,则分别基于所述至少两个相似度算法计算所述待匹配地址信息与多个候选地址信息的文本相似度,以分别获得至少两个所述候选地址信息的排序结果;
确定所述待匹配地址信息的实际地理坐标数据分别在至少两个所述候选地址信息的排序结果中的排序序号;
根据所述排序序号调整至少一个相似度算法的权重。
在本发明的一些实施例中,所述根据所述排序序号调整至少一个相似度算法的权重包括:
增加所述排序序号更小的相似度算法的权重;和/或
降低所述排序序号更大的相似度算法的权重。
在本发明的一些实施例中,所述相似度算法包括如下算法中的一项或多项:
F值相似方法、最长公共子序列相似方法、Jaccard相似方法、BM25相似方法、最小编辑距离相似方法以及最多相同文本相似方法。
根据本发明的又一方面,还提供一种地址匹配装置,包括:
第一获取模块,配置成获取待匹配地址信息;
第二获取模块,配置成获取地址库中的多个候选地址信息;
提取模块,配置成提取所述待匹配地址信息以及多个候选地址信息的特征数据;
计算模块,配置成融合至少两个相似度算法、基于所述待匹配地址信息以及多个候选地址信息的特征数据,分别计算所述待匹配地址信息与多个候选地址信息的文本相似度;以及
排序模块,配置成将多个所述候选地址信息按所述文本相似度由高至低进行排序。
根据本发明的又一方面,还提供一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述的步骤。
根据本发明的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的步骤。
相比现有技术,本发明的优势在于:
本发明通过获取地址库中的多个候选地址信息,以减少所要匹配的地址信息的数据量;通过融合至少两个相似度算法、基于所述待匹配地址信息以及多个候选地址信息的特征数据,分别计算所述待匹配地址信息与多个候选地址信息的文本相似度,以将多个所述候选地址信息按所述文本相似度由高至低进行排序,从而基于至少两个相似度计算方式,对候选地址信息进行排序,从而可以基于排序结果确定所匹配的地址信息。由此,实现地址信息的匹配,保证匹配准确率的同时,减少算法复杂度,提高系统算法执行效率,以便于基于所匹配的地址进行相关的物流信息处理,从而提高用户物流体验。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1示出了根据本发明实施例的地址匹配方法的流程图。
图2示出了根据本发明实施例的获取地址库中的多个候选地址信息的流程图。
图3示出了根据本发明实施例的将所述地址库中与所述至少部分区域信息一致的多个地址信息作为所述候选地址信息的流程图。
图4示出了根据本发明实施例的提取所述待匹配地址信息以及多个候选地址信息的特征数据的流程图。
图5示出了根据本发明实施例的提取所述融合至少两个相似度算法、基于所述待匹配地址信息以及多个候选地址信息的特征数据,分别计算所述待匹配地址信息与多个候选地址信息的文本相似度的流程图。
图6示出了根据本发明实施例的接收反馈信息后调整权重的流程图。
图7示出了根据本发明实施例的地址匹配装置的模块图。
图8示意性示出本发明示例性实施例中一种计算机可读存储介质示意图。
图9示意性示出本发明示例性实施例中一种电子设备示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此,实际执行的顺序有可能根据实际情况改变。
在本发明的各个实施例中,本发明提供的地址匹配方法可以应用于物流平台、电商平台或任何第三方需要使用地址信息的平台,但本发明的应用场景并非以此为限制,在此不予赘述。
图1示出了根据本发明实施例的地址匹配方法的流程图。地址匹配方法包括如下步骤:
步骤S110:获取待匹配地址信息。
具体而言,待匹配地址信息可以是用户输入的地址信息,可以是用户历史使用过的地址信息,或者通过数据获取接口自其它系统获取的地址信息,本发明可以对各来源的待匹配地址信息进行匹配,并不限制待匹配地址信息的获取方式,
步骤S120:获取地址库中的多个候选地址信息。
具体而言,本发明可以采用一些筛选逻辑和筛选规则,自地址库中获取多个候选地址信息,由此,以减少用于匹配的候选地址信息的数量,减少系统匹配负载,提高系统匹配效率。
进一步地,在下文结合一些具体的实施例,描述本发明提供的一些筛选逻辑和筛选规则,但本发明并非以此为限制。
步骤S130:提取所述待匹配地址信息以及多个候选地址信息的特征数据。
具体而言,步骤S130执行了地址信息的特征数据的提取。所要提取的特征数据可以依据步骤S140中所采用的相似度算法而确定,但本发明并非以此为限制。
步骤S140:融合至少两个相似度算法、基于所述待匹配地址信息以及多个候选地址信息的特征数据,分别计算所述待匹配地址信息与多个候选地址信息的文本相似度。
具体而言,所述相似度算法可以包括如下算法中的一项或多项:F值相似方法、最长公共子序列相似方法、Jaccard相似方法、BM25相似方法、最小编辑距离相似方法以及最多相同文本相似方法。这些相似度算法仅仅是示意性地,本发明还可以结合其他的相似度算法计算地址信息的特征数据,在此不予赘述。
步骤S150:将多个所述候选地址信息按所述文本相似度由高至低进行排序。
具体而言,步骤150通过对候选地址信息的排序,可以便于实现地址信息的匹配,例如,将排名第一的候选地址信息作为所匹配地址信息;或者获取排序在前的多个候选地址信息,并进行进一步的匹配判断,本发明可以实现更多变化方式,在此不予赘述。
在本发明提供的地址匹配方法中,通过获取地址库中的多个候选地址信息,以减少所要匹配的地址信息的数据量;通过融合至少两个相似度算法、基于所述待匹配地址信息以及多个候选地址信息的特征数据,分别计算所述待匹配地址信息与多个候选地址信息的文本相似度,以将多个所述候选地址信息按所述文本相似度由高至低进行排序,从而基于至少两个相似度计算方式,对候选地址信息进行排序,从而可以基于排序结果确定所匹配的地址信息。由此,实现地址信息的匹配,保证匹配准确率的同时,减少算法复杂度,提高系统算法执行效率,以便于基于所匹配的地址进行相关的物流信息处理,从而提高用户物流体验。
下面参见图2,图2示出了根据本发明实施例的获取地址库中的多个候选地址信息的流程图。图2共示出如下步骤:
步骤S121:获取所述待匹配地址信息至少部分区域信息。
步骤S122:将所述地址库中与所述至少部分区域信息一致的多个地址信息作为所述候选地址信息。
具体而言,步骤S121和步骤S122可以基于较大范围的地址信息(诸如省级地址信息、市级地址信息、区级地址信息)等,一般不会填错的地址信息,自地址库中获取与待匹配地址信息的省级地址信息、市级地址信息、区级地址信息中的一项或多项一致的地址信息作为候选地址信息。进一步地,在一些实施例中,所述地址库可以按不同级别的地址信息进行划分和储存,从而便于进行部分区域信息的匹配和筛选,提高系统执行效率。
下面参见图3,图3示出了根据本发明实施例的将所述地址库中与所述至少部分区域信息一致的多个地址信息作为所述候选地址信息的流程图。图3共示出如下步骤:
步骤S1221:判断所述地址库中与所述至少部分区域信息一致的地址信息的数量是否大于预定数量阈值。
具体而言,在本实施例中,预定数量阈值为候选地址信息的设定数量。预定数量阈值可以按需设定,例如,当预定数量阈值设置的越小,用于进行匹配的候选地址信息越少,系统执行速度越快;当预定数量阈值设置的越大,用于进行匹配的候选地址信息越多,匹配结果越准确。
若步骤S1221判断为否,则执行步骤S1222:将该多个地址信息作为所述候选地址信息。
具体而言,若步骤S1221判断所述地址库中与所述至少部分区域信息一致的地址信息的数量不大于预定数量阈值时,表示候选地址信息已足够,因此,可以直接将该多个地址信息作为候选地址信息。
若步骤S1221判断为是,则执行步骤S1223:基于一个相似度算法,计算所述待匹配地址信息与该多个地址信息的文本相似度。
具体而言,若步骤S1221判断所述地址库中与所述至少部分区域信息一致的地址信息的数量大于预定数量阈值时,表示目前的候选地址信息太多,因此,还需要通过步骤S1223和步骤S1224进行进一步地的筛选。
执行步骤S1224:将文本相似度最高的预定数量阈值的地址信息作为所述候选地址信息。
具体而言,步骤S1223和步骤S1224通过一个相似度算法对待匹配地址信息与该多个地址信息的文本相似度进行计算,并依据该相似度进行初步的筛选。考虑到步骤S1223和步骤S1224仅用于初步筛选,匹配精度和相似度准确性要求不高,因此,仅采用一个相似度算法进行计算,由此,一个相似度算法便于实现,计算效率高,实现相对便捷,从而提高初步筛选的效率。
进一步地,在实施例的一些具体实现中中,用于计算所述待匹配地址信息与该多个地址信息的文本相似度的相似度算法为用于计算所述待匹配地址信息与多个候选地址信息的文本相似度的至少两个相似度算法中的一个。由此,通过相似度算法的复用,一方面,可以减少系统所需要储存的相似度算法的相关代码,减少代码数量;另一方面,还可以提高系统整体匹配效率。
下面参见图4,图4示出了根据本发明实施例的提取所述待匹配地址信息以及多个候选地址信息的特征数据的流程图。图4共示出如下步骤:
步骤S131:对所述待匹配地址信息以及多个候选地址信息进行分词。
具体而言,本发明可以采用各种分词算法对地址信息进行分词。在本发明的一些优选例中,本发明可以基于标准的地址词库来实现地址信息的分词,由此,提高地址信息的分词的有效性和准确率。标准的地址词库可以由第三方系统提供,也可以由系统自行生成和维护,本发明并非以此为限制。
步骤S132:基于分词结果获得所述待匹配地址信息以及多个候选地址信息的多个地址字段。
具体而言,由于候选地址信息已经经过筛选,因此,对于待匹配地址信息和候选地址信息是否相似,最重要的是多个地址字段是否相似。因此,可以设置使获得的地址字段包括兴趣点、路名、道路号、楼号、社区名中的一个或多个字段,本发明并非以此为限制。
步骤S133:获取多个地址字段的字段拼音。
具体而言,考虑到待匹配地址信息中,可能由于输入错误,产生同音不同字的错别字,为了在匹配中将该情况容纳进来,避免错别字导致的匹配准确率下降的情况,因此,步骤S133还获取字段拼音,从而在步骤S134中作为特征数据。
步骤S134:将所述待匹配地址信息以及多个候选地址信息的多个地址字段以及字段拼音作为特征数据。
图4仅仅是示意性地描述本发明提取的地址信息的特征数据,本发明并非以此为限制,其它特征数据,诸如字段位置、字段排序等,也可以作为特征数据,以便进一步提高匹配准确率。
下面参见图5,图5示出了根据本发明实施例的提取所述融合至少两个相似度算法、基于所述待匹配地址信息以及多个候选地址信息的特征数据,分别计算所述待匹配地址信息与多个候选地址信息的文本相似度的流程图。,图5对于每一候选地址信息示出了如下步骤:
步骤S141:根据至少两个相似度算法、基于所述待匹配地址信息以及该候选地址信息的特征数据,分别计算所述待匹配地址信息与该候选地址信息的多个准文本相似度。
步骤S142:根据所述相似度算法的权值,对所述待匹配地址信息与该候选地址信息的准文本相似度进行加权求和,获得所述待匹配地址信息与该候选地址信息的文本相似度。
具体而言,通过步骤S141和步骤S142对多个相似度算法计算出的相似度以加权求和的形式进行融合,从而能够更好的利用各个相似算法的优点,降低各相似度算法的缺点对匹配结果的影响。同时可以对各相似度算法权重大小进行按匹配结果调整,从而达到了优化地址相似度排序的匹配目的。
具体而言,在本发明的一些实施例中,图1中的步骤S150:将多个所述候选地址信息按所述文本相似度由高至低进行排序之后还可以包括如下步骤:获取排序在前N个的所述候选地址信息的地理坐标数据,N为大于等于1的整数;根据排序在前N个的所述候选地址信息的地理坐标数据确定所述待匹配地址信息的地理坐标数据。
具体而言,在上述实施例中,候选地址信息的地理坐标数据与候选地址信息关联的保存在地址库中。在本发明的一个优选例中,N可以为1,由此,可以将排序在第一的候选地址信息的地理坐标数据作为待匹配地址信息的地理坐标数据。在另一些实施例中,也可以将N设置为多个,由此,可以求出排序在前N的候选地址信息的地理坐标数据的中心坐标数据,作为待匹配地址信息的地理坐标数据。本发明可以实现更多的变化方式,在此不予赘述。
在本发明的一些实施例中,所述根据排序在前N个的所述候选地址信息的地理坐标数据确定所述待匹配地址信息的地理坐标数据之后还可以包括如下步骤:接收反馈信息,所述反馈信息包括所述待匹配地址信息的实际地理坐标数据。由此,通过反馈信息可以对匹配方法进行修正,以提高匹配准确率。具体而言,反馈信息可以是用户、物流揽收员、物流派件员、物流服务器等提供的,本发明可以实现不同的反馈信息的提供方式,在此不予赘述。
下面参见图,6,图6示出了根据本发明实施例的接收反馈信息后调整权重的流程图。图6共示出如下步骤:
步骤S161:判断所述待匹配地址信息的实际地理坐标数据是否命中排序在前N个的所述候选地址信息的地理坐标数据。
具体而言,若所述待匹配地址信息的实际地理坐标数据存在于(命中)排序在前N个的所述候选地址信息的地理坐标数据,则表示目前的匹配算法较为准确,无需进行修正。
若步骤S161判断为否,则执行步骤S162:分别基于所述至少两个相似度算法计算所述待匹配地址信息与多个候选地址信息的文本相似度,以分别获得至少两个所述候选地址信息的排序结果。
具体而言,若步骤S161判断为否,则表示目前的匹配算法中各相似度算法的权重需要进行调整。为了确定调整方式,因此,步骤S162通过各相似度计算方式计算相似度,从而获得多个排序结果。
步骤S163:确定所述待匹配地址信息的实际地理坐标数据分别在至少两个所述候选地址信息的排序结果中的排序序号。
具体而言,步骤S163通过多个排序结果,确定实际地理坐标数据在各排序结果中的排序序号,由此,判断各相似度算法哪一个的相似度计算更为准确。
步骤S164:根据所述排序序号调整至少一个相似度算法的权重。
具体而言,步骤S164可以根据如下步骤实现:增加所述排序序号更小的相似度算法的权重;和/或降低所述排序序号更大的相似度算法的权重。
具体而言,排序序号更小,则表示该相似度算法获得的结果更为准确,因此,可以提高该相似度算法的权重。排序序号更大,则表示该相似度算法获得的结果相对不准确,因此,可以降低该相似度算法的权重。在一些具体的实现中,可以仅增加所述排序序号更小的相似度算法的权重或者仅降低所述排序序号更大的相似度算法的权重。在一些变化例中,可以同时增加所述排序序号更小的相似度算法的权重和降低所述排序序号更大的相似度算法的权重。进一步地,每次调整的权重时,可以按预定步长进行调整。在一些变化例中,还可以按各相似度算法中排序结果的实际地理坐标数据的排序序号的差异,确定增加/降低的权重的程度。本发明可以实现更多的变化方式,并非以此为限制。
以上仅仅是本发明的地址匹配方法的多个具体实现方式,各实现方式可以独立或组合来实现,本发明并非以此为限制。进一步地,本发明的流程图仅仅是示意性地,各步骤之间的执行顺序并非以此为限制,步骤的拆分、合并、顺序交换、其它同步或异步执行的方式皆在本发明的保护范围之内。
下面参见图7,图7示出了根据本发明实施例的地址匹配装置的模块图。地址匹配装置200包括第一获取模块210、第二获取模块220、提取模块230、计算模块240以及排序模块250。
第一获取模块210配置成获取待匹配地址信息;
第二获取模块220配置成获取地址库中的多个候选地址信息;
提取模块230配置成提取所述待匹配地址信息以及多个候选地址信息的特征数据;
计算模块240配置成融合至少两个相似度算法、基于所述待匹配地址信息以及多个候选地址信息的特征数据,分别计算所述待匹配地址信息与多个候选地址信息的文本相似度;以及
排序模块250配置成将多个所述候选地址信息按所述文本相似度由高至低进行排序。
在本发明的示例性实施方式的地址匹配装置中,通过获取地址库中的多个候选地址信息,以减少所要匹配的地址信息的数据量;通过融合至少两个相似度算法、基于所述待匹配地址信息以及多个候选地址信息的特征数据,分别计算所述待匹配地址信息与多个候选地址信息的文本相似度,以将多个所述候选地址信息按所述文本相似度由高至低进行排序,从而基于至少两个相似度计算方式,对候选地址信息进行排序,从而可以基于排序结果确定所匹配的地址信息。由此,实现地址信息的匹配,保证匹配准确率的同时,减少算法复杂度,提高系统算法执行效率,以便于基于所匹配的地址进行相关的物流信息处理,从而提高用户物流体验。
图7仅仅是示意性的分别示出本发明提供的地址匹配装置200,在不违背本发明构思的前提下,模块的拆分、合并、增加都在本发明的保护范围之内。本发明提供的地址匹配装置200可以由软件、硬件、固件、插件及他们之间的任意组合来实现,本发明并非以此为限。
在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被例如处理器执行时可以实现上述任意一个实施例中所述地址匹配方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述所述地址匹配方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图8所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在租户计算设备上执行、部分地在租户设备上执行、作为一个独立的软件包执行、部分在租户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到租户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本发明的示例性实施例中,还提供一种电子设备,该电子设备可以包括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中所述地址匹配方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图9来描述根据本发明的这种实施方式的电子设备500。图9显示的电子设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:至少一个处理单元510、至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530、显示单元540等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述所述地址匹配方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图1至图2任一幅或多幅附图所示的步骤。
所述存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(ROM)5203。
所述存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备500也可以与一个或多个外部设备600(例如键盘、指向设备、蓝牙设备等)通讯,还可与一个或者多个使得租户能与该电子设备500交互的设备通讯,和/或与使得该电子设备500能与一个或多个其它计算设备进行通讯的任何设备(例如路由器、调制解调器等等)通讯。这种通讯可以通过输入/输出(I/O)接口550进行。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通讯。网络适配器560可以通过总线530与电子设备500的其它模块通讯。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明实施方式的上述所述地址匹配方法。
相比现有技术,本发明的优势在于:
本发明通过获取地址库中的多个候选地址信息,以减少所要匹配的地址信息的数据量;通过融合至少两个相似度算法、基于所述待匹配地址信息以及多个候选地址信息的特征数据,分别计算所述待匹配地址信息与多个候选地址信息的文本相似度,以将多个所述候选地址信息按所述文本相似度由高至低进行排序,从而基于至少两个相似度计算方式,对候选地址信息进行排序,从而可以基于排序结果确定所匹配的地址信息。由此,实现地址信息的匹配,保证匹配准确率的同时,减少算法复杂度,提高系统算法执行效率,以便于基于所匹配的地址进行相关的物流信息处理,从而提高用户物流体验。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。

Claims (15)

1.一种地址匹配方法,其特征在于,包括:
获取待匹配地址信息;
获取地址库中的多个候选地址信息;
提取所述待匹配地址信息以及多个候选地址信息的特征数据;
融合至少两个相似度算法、基于所述待匹配地址信息以及多个候选地址信息的特征数据,分别计算所述待匹配地址信息与多个候选地址信息的文本相似度;以及
将多个所述候选地址信息按所述文本相似度由高至低进行排序。
2.如权利要求1所述的地址匹配方法,其特征在于,所述获取地址库中的多个候选地址信息包括:
获取所述待匹配地址信息至少部分区域信息;
将所述地址库中与所述至少部分区域信息一致的多个地址信息作为所述候选地址信息。
3.如权利要求2所述的地址匹配方法,其特征在于,所述将所述地址库中与所述至少部分区域信息一致的多个地址信息作为所述候选地址信息包括:
判断所述地址库中与所述至少部分区域信息一致的地址信息的数量是否大于预定数量阈值;
若否,则将该多个地址信息作为所述候选地址信息;
若是,则基于一个相似度算法,计算所述待匹配地址信息与该多个地址信息的文本相似度;
将文本相似度最高的预定数量阈值的地址信息作为所述候选地址信息。
4.如权利要求3所述的地址匹配方法,其特征在于,用于计算所述待匹配地址信息与该多个地址信息的文本相似度的相似度算法为用于计算所述待匹配地址信息与多个候选地址信息的文本相似度的至少两个相似度算法中的一个。
5.如权利要求1所述的地址匹配方法,其特征在于,所述提取所述待匹配地址信息以及多个候选地址信息的特征数据包括:
对所述待匹配地址信息以及多个候选地址信息进行分词;
基于分词结果获得所述待匹配地址信息以及多个候选地址信息的多个地址字段;
获取多个地址字段的字段拼音;
将所述待匹配地址信息以及多个候选地址信息的多个地址字段以及字段拼音作为特征数据。
6.如权利要求5所述的地址匹配方法,其特征在于,所述地址字段包括兴趣点、路名、道路号、楼号、社区名中的一个或多个字段。
7.如权利要求1所述的地址匹配方法,其特征在于,所述融合至少两个相似度算法、基于所述待匹配地址信息以及多个候选地址信息的特征数据,分别计算所述待匹配地址信息与多个候选地址信息的文本相似度包括:
对于每一候选地址信息:
根据至少两个相似度算法、基于所述待匹配地址信息以及该候选地址信息的特征数据,分别计算所述待匹配地址信息与该候选地址信息的多个准文本相似度;
根据所述相似度算法的权值,对所述待匹配地址信息与该候选地址信息的准文本相似度进行加权求和,获得所述待匹配地址信息与该候选地址信息的文本相似度。
8.如权利要求7所述的地址匹配方法,其特征在于,所述将多个所述候选地址信息按所述文本相似度由高至低进行排序之后包括:
获取排序在前N个的所述候选地址信息的地理坐标数据,N为大于等于1的整数;
根据排序在前N个的所述候选地址信息的地理坐标数据确定所述待匹配地址信息的地理坐标数据。
9.如权利要求8所述的地址匹配方法,其特征在于,所述根据排序在前N个的所述候选地址信息的地理坐标数据确定所述待匹配地址信息的地理坐标数据之后包括:
接收反馈信息,所述反馈信息包括所述待匹配地址信息的实际地理坐标数据。
10.如权利要求9所述的地址匹配方法,其特征在于,所述接收反馈信息之后包括:
判断所述待匹配地址信息的实际地理坐标数据是否命中排序在前N个的所述候选地址信息的地理坐标数据;
若否,则分别基于所述至少两个相似度算法计算所述待匹配地址信息与多个候选地址信息的文本相似度,以分别获得至少两个所述候选地址信息的排序结果;
确定所述待匹配地址信息的实际地理坐标数据分别在至少两个所述候选地址信息的排序结果中的排序序号;
根据所述排序序号调整至少一个相似度算法的权重。
11.如权利要求10所述的地址匹配方法,其特征在于,所述根据所述排序序号调整至少一个相似度算法的权重包括:
增加所述排序序号更小的相似度算法的权重;和/或
降低所述排序序号更大的相似度算法的权重。
12.如权利要求1至11任一项所述的地址匹配方法,其特征在于,所述相似度算法包括如下算法中的一项或多项:
F值相似方法、最长公共子序列相似方法、Jaccard相似方法、BM25相似方法、最小编辑距离相似方法以及最多相同文本相似方法。
13.一种地址匹配装置,其特征在于,包括:
第一获取模块,配置成获取待匹配地址信息;
第二获取模块,配置成获取地址库中的多个候选地址信息;
提取模块,配置成提取所述待匹配地址信息以及多个候选地址信息的特征数据;
计算模块,配置成融合至少两个相似度算法、基于所述待匹配地址信息以及多个候选地址信息的特征数据,分别计算所述待匹配地址信息与多个候选地址信息的文本相似度;以及
排序模块,配置成将多个所述候选地址信息按所述文本相似度由高至低进行排序。
14.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行:
如权利要求1至12任一项所述的地址匹配方法。
15.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行:
如权利要求1至12任一项所述的地址匹配方法。
CN202110126030.7A 2021-01-29 2021-01-29 地址匹配方法、装置、电子设备及存储介质 Active CN112818685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110126030.7A CN112818685B (zh) 2021-01-29 2021-01-29 地址匹配方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110126030.7A CN112818685B (zh) 2021-01-29 2021-01-29 地址匹配方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112818685A true CN112818685A (zh) 2021-05-18
CN112818685B CN112818685B (zh) 2024-07-26

Family

ID=75860194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110126030.7A Active CN112818685B (zh) 2021-01-29 2021-01-29 地址匹配方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112818685B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642313A (zh) * 2021-09-02 2021-11-12 阿里巴巴达摩院(杭州)科技有限公司 地址文本的处理方法、装置、设备、存储介质及程序产品
CN113723890A (zh) * 2021-09-07 2021-11-30 上海寻梦信息技术有限公司 信息处理方法、装置、设备及存储介质
CN113743080A (zh) * 2021-08-16 2021-12-03 南京星云数字技术有限公司 一种分层级地址文本相似度比对方法、装置及介质
CN113987114A (zh) * 2021-09-17 2022-01-28 上海燃气有限公司 一种基于语义分析的地址匹配方法、装置和电子设备
CN115687870A (zh) * 2023-01-03 2023-02-03 四川易利数字城市科技有限公司 一种基于矩阵运算的地名匹配方法
CN118296405A (zh) * 2024-06-05 2024-07-05 深圳航天智慧城市系统技术研究院有限公司 地址相似度计算方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760360A (zh) * 2014-12-16 2016-07-13 高德软件有限公司 一种地址纠正方法和装置
CN106598953A (zh) * 2016-12-28 2017-04-26 上海博辕信息技术服务有限公司 地址解析方法及装置
CN108804398A (zh) * 2017-05-03 2018-11-13 阿里巴巴集团控股有限公司 地址文本的相似度计算方法及装置
CN110569322A (zh) * 2019-07-26 2019-12-13 苏宁云计算有限公司 地址信息解析方法、装置、系统及数据获取方法
CN111079386A (zh) * 2019-11-11 2020-04-28 浙江省北大信息技术高等研究院 地址识别方法、装置、设备及存储介质
CN111522838A (zh) * 2020-04-23 2020-08-11 数网金融有限公司 地址相似度计算方法及相关装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760360A (zh) * 2014-12-16 2016-07-13 高德软件有限公司 一种地址纠正方法和装置
CN106598953A (zh) * 2016-12-28 2017-04-26 上海博辕信息技术服务有限公司 地址解析方法及装置
CN108804398A (zh) * 2017-05-03 2018-11-13 阿里巴巴集团控股有限公司 地址文本的相似度计算方法及装置
CN110569322A (zh) * 2019-07-26 2019-12-13 苏宁云计算有限公司 地址信息解析方法、装置、系统及数据获取方法
CN111079386A (zh) * 2019-11-11 2020-04-28 浙江省北大信息技术高等研究院 地址识别方法、装置、设备及存储介质
CN111522838A (zh) * 2020-04-23 2020-08-11 数网金融有限公司 地址相似度计算方法及相关装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743080A (zh) * 2021-08-16 2021-12-03 南京星云数字技术有限公司 一种分层级地址文本相似度比对方法、装置及介质
CN113642313A (zh) * 2021-09-02 2021-11-12 阿里巴巴达摩院(杭州)科技有限公司 地址文本的处理方法、装置、设备、存储介质及程序产品
CN113642313B (zh) * 2021-09-02 2024-03-29 阿里巴巴达摩院(杭州)科技有限公司 地址文本的处理方法、装置、设备、存储介质及程序产品
CN113723890A (zh) * 2021-09-07 2021-11-30 上海寻梦信息技术有限公司 信息处理方法、装置、设备及存储介质
CN113723890B (zh) * 2021-09-07 2024-03-26 上海寻梦信息技术有限公司 信息处理方法、装置、设备及存储介质
CN113987114A (zh) * 2021-09-17 2022-01-28 上海燃气有限公司 一种基于语义分析的地址匹配方法、装置和电子设备
CN115687870A (zh) * 2023-01-03 2023-02-03 四川易利数字城市科技有限公司 一种基于矩阵运算的地名匹配方法
CN118296405A (zh) * 2024-06-05 2024-07-05 深圳航天智慧城市系统技术研究院有限公司 地址相似度计算方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112818685B (zh) 2024-07-26

Similar Documents

Publication Publication Date Title
CN112818685B (zh) 地址匹配方法、装置、电子设备及存储介质
CN109783490B (zh) 数据融合方法、装置、计算机设备及存储介质
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
CN109710951B (zh) 基于翻译历史的辅助翻译方法、装置、设备及存储介质
CN112835899B (zh) 地址库索引方法、地址匹配方法以及相关设备
CN114116973A (zh) 多文档的文本查重方法、电子设备及存储介质
CN108932323A (zh) 实体答案的确定方法、装置、服务器及存储介质
CN112612887A (zh) 日志处理方法、装置、设备和存储介质
CN111639493A (zh) 一种地址信息标准化方法、装置、设备及可读存储介质
CN113986950A (zh) 一种sql语句处理方法、装置、设备及存储介质
CN111753029A (zh) 实体关系抽取方法、装置
CN112836497A (zh) 地址纠正方法、装置、电子设备及存储介质
CN114091570A (zh) 业务处理系统方法、装置和电子设备
CN110929499B (zh) 文本相似度获取方法、装置、介质及电子设备
CN110348581B (zh) 用户特征群中用户特征寻优方法、装置、介质及电子设备
CN112818666A (zh) 地址识别方法、装置、电子设备和存储介质
CN107656927B (zh) 一种特征选择方法及设备
CN112417860A (zh) 训练样本增强方法、系统、设备及存储介质
CN112818684B (zh) 地址元素排序方法、装置、电子设备及存储介质
CN111460224A (zh) 评论数据的质量标注方法、装置、设备及存储介质
CN113723890B (zh) 信息处理方法、装置、设备及存储介质
CN110852078A (zh) 生成标题的方法和装置
CN114237588A (zh) 一种代码仓库选择方法、装置、设备及存储介质
CN114490400A (zh) 一种处理测试用例的方法和装置
CN113590754A (zh) 应用于社群互动的大数据分析方法及大数据分析服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant