CN113377893B - Poi融合、poi融合阈值确定方法、装置、设备及介质 - Google Patents

Poi融合、poi融合阈值确定方法、装置、设备及介质 Download PDF

Info

Publication number
CN113377893B
CN113377893B CN202110852821.8A CN202110852821A CN113377893B CN 113377893 B CN113377893 B CN 113377893B CN 202110852821 A CN202110852821 A CN 202110852821A CN 113377893 B CN113377893 B CN 113377893B
Authority
CN
China
Prior art keywords
poi
fusion
matching
main
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110852821.8A
Other languages
English (en)
Other versions
CN113377893A (zh
Inventor
李明凯
刘凡华
苏畅
孙立野
肖健
李根明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Meihang Technology Co ltd
Original Assignee
Shenyang Meihang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Meihang Technology Co ltd filed Critical Shenyang Meihang Technology Co ltd
Publication of CN113377893A publication Critical patent/CN113377893A/zh
Application granted granted Critical
Publication of CN113377893B publication Critical patent/CN113377893B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种POI融合、POI融合阈值确定方法、装置、设备及介质。所述方法包括:获取待融合的第一全量数据集和第二全量数据集,并确定第一主POI;确定所述第一全量数据集和所述第二全量数据集之间的匹配方法顺序,和所述匹配方法顺序中单项匹配方法对应的融合阈值;按照所述匹配方法顺序依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,确定各所述第一主POI的第一融合类型;根据各所述第一主POI的第一融合类型,存储各所述第一主POI;所述单项匹配方法包括下述至少一项:距离匹配方法、名称匹配方法和地址匹配方法。本发明实施例可以降低POI数据整合的人工成本,以及提高POI数据整合的效率。

Description

POI融合、POI融合阈值确定方法、装置、设备及介质
本申请要求在2020年10月29日提交中国专利局、申请号为202011182458.5的中国专利申请的优先权,该申请的全部内容通过引用结合在本申请中。
技术领域
本发明实施例涉及图像处理领域,尤其涉及一种POI融合、POI融合阈值确定方法、装置、设备及介质。
背景技术
随着社会的快速发展,数据出现了爆炸式的增长。随之而来的,在不同的社会领域中产生了多家数据提供商,他们将自己涉足的领域进行数据整合,对外提供他们的数据服务。
目前可以采用人工的方式进行数据整合。
上述方法效率低下,同时人工成本高。
发明内容
本发明实施例提供一种POI融合、POI融合阈值确定方法、装置、设备及介质,可以降低POI数据整合的人工成本,以及提高POI数据整合的效率。
第一方面,本发明实施例提供了一种POI融合方法,包括:
获取待融合的第一全量数据集和第二全量数据集,并确定第一主POI;
确定所述第一全量数据集和所述第二全量数据集之间的匹配方法顺序,和所述匹配方法顺序中单项匹配方法对应的融合阈值;
按照所述匹配方法顺序依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,确定各所述第一主POI的第一融合类型;
根据各所述第一主POI的第一融合类型,存储各所述第一主POI;
所述单项匹配方法包括下述至少一项:距离匹配方法、名称匹配方法和地址匹配方法。
第二方面,本发明实施例提供了一种POI融合阈值的确定方法,包括:
获取第一数据提供商提供的第一全量数据集和第二提供商提供的第二全量数据集;
对所述第一全量数据集和所述第二全量数据集进行数据格式统一得到标准第一数据集和标准第二数据集;
对所述标准第一数据集和所述标准第二数据集确定主POI源和候选POI源;
对所述主POI源和所述候选POI源进行融合得到第一POI融合集;
根据所述第一POI融合集确定最小距离和检索距离阈值;
根据所述检索距离阈值和所述第一POI融合集得到第二POI融合集;
根据所述最小距离、预设的半径增长量,以及所述第二POI融合集中第三主POI和第三候选POI确定匹配距离阈值。
第三方面,本发明实施例还提供了一种POI融合装置,包括:
全量数据集获取模块,用于获取待融合的第一全量数据集和第二全量数据集,并确定第一主POI;
匹配方法顺序确定模块,用于确定所述第一全量数据集和所述第二全量数据集之间的匹配方法顺序,和所述匹配方法顺序中单项匹配方法对应的融合阈值;
融合类型确定模块,用于按照所述匹配方法顺序依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,确定各所述第一主POI的第一融合类型;
POI融合模块,用于根据各所述第一主POI的第一融合类型,存储各所述第一主POI;所述单项匹配方法包括下述至少一项:距离匹配方法、名称匹配方法和地址匹配方法。
第四方面,本发明实施例还提供了一种POI融合阈值的确定装置,包括:
获取模块,用于获取第一数据提供商提供的第一全量数据集和第二提供商提供的第二全量数据集;
控制处理模块,用于对所述第一全量数据集和所述第二全量数据集进行数据格式统一得到标准第一数据集和标准第二数据集;所述控制处理模块还用于对所述标准第一数据集和所述标准第二数据集确定主POI源和候选POI源;所述控制处理模块还用于对所述主POI源和所述候选POI源进行融合得到第一POI融合集;所述控制处理模块还用于根据所述第一POI融合集确定最小距离和检索距离阈值;所述控制处理模块还用于根据所述检索距离阈值和所述第一POI融合集得到第二POI融合集;所述控制处理模块还用于根据所述最小距离、预设的半径增长量,以及所述第二POI融合集中第三主POI和第三候选POI确定匹配距离阈值。
第五方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述程序时实现如本发明实施例中任一所述的POI融合方法,或实现如本发明实施例中任一所述的POI融合阈值的确定方法。
第六方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的POI融合方法,或实现如本发明实施例中任一所述的POI融合阈值的确定方法。
本发明实施例通过在待融合的第一全量数据集和第二全量数据集中,确定第一主POI,确定两个数据集之间的匹配方法顺序,以及每个单项匹配方法对应的融合阈值,采用匹配方法顺序依次选择单项匹配方法以及对应的融合阈值,确定每个第一主POI第一融合类型,并根据第一融合类型对第一主POI进行存储,将存在匹配关系的第一主POI存入另一个全量数据集中匹配的POI所在的组,实现两个数据集中的POI之间的融合,解决了现有技术中人工进行POI数据整合效率低,以及成本高的问题,可以根据两个全量数据集,针对性采用匹配方法顺序确定第一主POI的融合类型,将第一主POI存储在正确的位置,以实现两个数据集中的POI之间的融合,提高POI数据的融合准确率,同时降低融合POI数据的人工成本,并提高POI数据的融合效率。
附图说明
图1是本发明实施例一中的一种POI融合方法的流程图;
图2a是本发明实施例二中的一种POI融合阈值确定方法的流程图;
图2b是本发明实施例二中的一个示例中对主POI源中的主POI获取对应的候选POI的示意图;
图3是本发明实施例三中的一种POI融合装置的结构示意图;
图4是本发明实施例四中的一种POI融合阈值确定装置的结构示意图;
图5是本发明实施例五中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一中的一种POI融合方法的流程图,本实施例可适用于将两个数据集的POI进行融合存储的情况,该方法可以由本发明实施例提供的POI融合装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成计算机设备中等。如图1所示,本实施例的方法具体包括:
S110,获取待融合的第一全量数据集和第二全量数据集,并确定第一主POI。
POI为兴趣点。全量数据集包括POI数据,两个数据集由不同数据提供方提供。融合可以是指,将表示相同地理位置的POI进行合并和表示不同地理位置的POI进行分类。在本发明实施例中,可以将表示相同地理位置的POI存入同一组,并将表示不同地理位置的POI存入不同组。根据第一全量数据集和第二全量数据集,确定已入库全量数据集和未入库全量数据集,其中,已入库全量数据集包括的POI为已存入融合库中的POI;未入库全量数据集包括的POI为未存入融合库中待融合的POI。已入库全量数据集预先按照预设格式进行处理,将处理后的已入库全量数据集包括的POI形成的集合,确定为第一候选POI的集合,处理后的已入库全量数据集确定为第一候选POI的集合,并将第一候选POI的集合存入库中。在第一候选POI的集合存入库之后,对未入库全量数据集按照前述相同格式进行处理,将处理后的未入库全量数据集包括的POI,确定为第一主POI。其中,按照相同格式对已入库全量数据集和未入库全量数据集进行处理,实现统一第一全量数据集和第二全量数据集的格式。
需要说明的是,在只有一个全量数据集时,可以将包括的POI直接存入数据库,并针对每个POI建立独立的一个组,即不同POI存入不同组。其中,已入库全量数据集可以是第一全量数据集或第二全量数据集;在已入库全量数据集为第一全量数据集的情况下,未入库全量数据集为第二全量数据集;在已入库全量数据集为第二全量数据集的情况下,未入库全量数据集为第一全量数据集。
S120,确定所述第一全量数据集和所述第二全量数据集之间的匹配方法顺序,和所述匹配方法顺序中单项匹配方法对应的融合阈值;所述单项匹配方法包括下述至少一项:距离匹配方法、名称匹配方法和地址匹配方法。
匹配方法顺序可以是指单项匹配方法的应用顺序。融合阈值可以是指对应的单项匹配方法在应用过程中,用于确定主POI与候选POI匹配关系,所需要采用的阈值。单项匹配方法可以理解为一个单独的模块或组件等。处理器或控制器将融合阈值提供给单项匹配方法对应的模块,模块根据融合阈值,对待检测的第一主POI进行检测,确定第一主POI的融合类型以及与第一主POI存在匹配关系的第一候选POI。在单项匹配方法中,距离匹配方法用于在第一主POI的第一候选POI中,根据POI的距离确定第一主POI是否有且仅存在一个匹配的第一候选POI。名称匹配方法用于在第一主POI的第一候选POI中,根据POI的名称确定第一主POI是否有且仅存在一个匹配的第一候选POI。地址匹配方法用于在第一主POI的第一候选POI中,根据POI的地址确定第一主POI是否有且仅存在一个匹配的第一候选POI。当第一主POI有且仅存在一个匹配的第一候选POI,表明第一主POI与该第一候选POI存在匹配关系,即该第一候选POI与该第一主POI匹配。其中,名称和地址都是文本信息。距离匹配方法对应的融合阈值为匹配距离阈值。名称匹配方法对应的融合阈值为匹配名称阈值。地址匹配方法对应的融合阈值为匹配地址阈值。其中,距离匹配方法对应的融合阈值为匹配距离阈值,匹配距离阈值通过本发明实施例任一项的POI融合阈值的确定方法确定。
根据第一全量数据集和第二全量数据集确定的第一POI融合集,计算每个单项匹配方法结合每个预设融合阈值的匹配错误率,并据此筛选出对应的融合阈值集合。其中,第一POI融合集为根据第一全量数据集和第二全量数据集确定的样本数据,用于匹配方法顺序的确定及各单项匹配方法对应的融合阈值的确定的POI数据集合。第一POI融合集包括主POI和主POI的候选POI,,并且每个主POI都有一个匹配的候选POI。
匹配方法顺序的确定方式可以是,选择至少一个单项匹配方法,以及从单项匹配方法对应的融合阈值集合中选择任意一个融合阈值,进行排列组合。例如,两个单项匹配方法,甲和乙,方法顺序包括甲乙和乙甲,第一单项匹配方法对应的融合阈值集合包括2个融合阈值,A和B,第二单项匹配方法对应的融合阈值包括3个融合阈值,C、D和E。每个融合阈值集合中分别取一个,与不同方法顺序进行组合,形成的排列组合包括甲A乙C、甲A乙D、甲A乙E、甲B乙C、甲B乙D、甲B乙E、乙C甲A、乙D甲A、乙E甲A、乙C甲B、乙D甲B和乙E甲B。
计算每种排列组合在样本数据的匹配错误率和正确率,并据此筛选出一个符合需要的排列组合,确定为第一全量数据集和第二全量数据集之间的匹配方法顺序和其中每个单项匹配方法对应的融合阈值。
可选的,所述确定所述第一全量数据集和所述第二全量数据集之间的匹配方法顺序,和所述匹配方法顺序中单项匹配方法对应的融合阈值,包括:根据所述第一全量数据集和所述第二全量数据集,确定第一POI融合集;根据所述第一POI融合集,确定各所述单项匹配方法对应的融合阈值集合;对所述各单项匹配方法及各所述单项匹配方法对应的融合阈值集合进行排列组合,得到组合匹配方法;计算各所述组合匹配方法的匹配正确率和匹配错误率;根据预设的第一匹配错误率阈值、所述匹配正确率和所述匹配错误率,在各所述组合匹配方法中筛选得到目标匹配方法;将所述目标匹配方法中单项匹配方法顺序确定为匹配方法顺序,将各所述单项匹配方法对应的阈值,确定为所述匹配方法顺序中单项匹配方法对应的融合阈值。
单项匹配方法及各单项匹配方法对应的融合阈值集合进行排列组合,是指对单项匹配方法排列出不同顺序,同时,从融合阈值集合中为每个顺序配置不同的融合阈值,可以得到以一个顺序排列的单项匹配方法,以及在该顺序下,每个单项匹配方法对应的融合阈值,并确定为一个组合匹配方法。
在一个具体的例子中,单项匹配方法:距离匹配方法、名称匹配方法和地址匹配方法。融合阈值集合:匹配距离阈值集合、匹配名称阈值集合和匹配地址阈值集合。根据上面已知的单项匹配方法与阈值集合,利用排列组合的方式,组成多个组合匹配方法。单项匹配方法共有3个,那么排序组合共有3!=1*2*3=6种情况,即组合匹配方法的数量为6个。
例如:1.匹配方法顺序按照从先到后依次为:距离匹配方法、名称匹配方法和地址匹配方法;2.距离匹配方法、地址匹配方法和名称匹配方法……在单项排列组合的基础上,并添加融合阈值集合扩大排列组合的种类。例如:假设匹配距离阈值集合有5个值,匹配名称阈值集合有2个值,匹配地址阈值集合有2个值。在已知的单项匹配方法的排列组合有6种的基础上,可知6*5*2*2=120种排列组合。
匹配正确POI:在第一POI融合集内,某个主POI与其多个候选POI通过单项匹配方法计算出的存在匹配关系的候选POI与人工融合确定存在匹配关系的候选POI相同,该主POI称为匹配正确POI。匹配正确率:匹配正确POI的数量占样本数据中主POI总数的比例。匹配错误POI:在第一POI融合集内,某个主POI与其多个候选POI通过单项匹配方法计算出的存在匹配关系的候选POI与人工融合确定存在匹配关系的候选POI不一致,该主POI称为匹配错误POI。匹配错误率:匹配错误POI的数量占样本数据中主POI总数的比例。其中,匹配正确率与匹配错误率之和通常小于等于1。匹配正确率与匹配错误率是在匹配成功的情况下计算得到的正确率和错误率,此外,还可以有匹配不成功的情况。匹配失败率为某个主POI未计算出存在唯一匹配关系的候选POI。由此,匹配正确率、匹配错误率和匹配失败率之和通常等于1。在匹配失败率为0时,匹配正确率和匹配错误率之和等于1。
将第一POI融合集作为组合匹配方法的输入数据。将输入数据输入到组合匹配方法中的首个单项匹配方法中,并基于对应的融合阈值,检测存在匹配关系的主POI,并将剩余主POI(即不存在匹配关系的主POI)输入到组合匹配方法的匹配方法顺序中下一个相邻单项匹配方法中,依次类推,直至最后一个单项匹配方法检测完成。获取存在唯一匹配关系的主POI以及与该主POI存在匹配关系的候选POI,并将该候选POI与预先人工标注的该主POI对应的唯一存在匹配关系的候选POI进行比较,统计相同的主POI数量,和统计不同的主POI数量。其中,相同的数量与第一POI融合集也即输入数据中主POI的数量的比值,确定为匹配正确率。不同的数量与第一POI融合集中主POI的数量的比值,确定为匹配错误率。
需要说明的是,在每种顺序中,只要任一单项匹配方法可以确定主POI与某一个候选POI匹配,则直接确定主POI存在匹配的候选POI,可以减少后续单项匹配方法中的检测数据量,提高检测效率。不同顺序的检测具有不同的检测效率,选择最佳的顺序,可以最大程度上提高检测效率,由此,针对两个全量数据集可以确定出最适配最高检测效率的顺序,极大提高了POI融合的效率和融合精准性。
第一匹配错误率阈值,用于筛选目标匹配方法。例如将匹配错误率小于等于第一匹配错误率阈值的组合方法,确定为目标匹配方法,从而相应确定匹配方法顺序和每个单项匹配方法对应的融合阈值。
通过对不同单项匹配方法和融合阈值进行组合,得到多个组合匹配方法,并计算第一POI融合集在不同组合匹配方法下的匹配正确率和匹配错误率,筛选出目标匹配方法,从而筛选出匹配方法顺序和对应的融合阈值,可以针对两个全量数据集确定适配的匹配方法顺序和融合阈值,提高融合的准确率和效率。
可选的,根据预设的第一匹配错误率阈值、匹配正确率和匹配错误率,筛选到目标匹配方法可以包括:
将匹配错误率大于设定阈值的组合匹配方法剔除;从剩下的组合匹配方法中,按照匹配正确率降序的规则对组合匹配方法进行排序;如果在排序结果中最高匹配正确率的组合匹配方法的数量为至少两个,则按照匹配错误率升序的规则对最高匹配正确率的各组合匹配方法进行排序,筛选出最低匹配错误率的组合匹配方法,确定为目标匹配方法,也即先按照正确率降序进行排序,针对相同正确率的匹配方法,按照匹配错误率升序进行排序。最后选择排名第1的匹配方法作为目标匹配方法,将该目标匹配方法中顺序确定为匹配方法顺序,将目标匹配方法中融合阈值,确定为单项匹配方法对应的融合阈值。其中,将匹配错误率大于设定阈值的组合匹配方法剔除;从剩下的组合匹配方法中,首先选取匹配正确率最高的组合匹配方法,如果存在相同匹配正确率的组合匹配方法,则选取错误率低的组合匹配方法,作为目标匹配方法。
可选的,所述根据所述第一全量数据集和所述第二全量数据集,确定第一POI融合集,包括:对所述第一全量数据集和所述第二全量数据集进行数据格式统一得到标准第一数据集和标准第二数据集;对所述标准第一数据集和所述标准第二数据集确定主POI源和候选POI源;对所述主POI源进行抽样;以抽样得到的目标主POI为圆心,以常识距离阈值为半径,确定第一圆,并确定所述候选POI源中处于所述第一圆范围内的目标候选POI,形成目标数据集;在所述候选POI源中处于所述第一圆范围内的目标候选POI为空的情况下,在所述目标数据集中剔除对应的目标主POI;获取所述目标数据集中的目标主POI,与所述候选POI源中处于所述第一圆范围内的目标候选POI之间的人工融合校验结果;在所述目标数据集中剔除人工融合校验结果为失败的所述目标主POI和处于剔除的目标主POI确定的第一圆范围内的目标候选POI,得到第一POI融合集。
其中,对全量数据集进行数据格式统一,得到标准第一数据集和标准第二数据集,二者的数据格式相同,易于提取格式相同的主POI和候选POI,降低主POI和候选POI的匹配检测复杂度。其中,主POI源:某个领域下POI融合集外的数据源,待融合到POI融合集中。候选POI源:某个领域下POI融合集内的数据源,是主POI源的候选对象。可以将标准第一数据集和标准第二数据集中,根据未入库的标准数据集中的全部POI,生成主POI源;根据已入库的标准数据集中的全部POI,生成候选POI源。主POI:待融合到POI融合集中的POI,属于主POI源。候选POI:属于候选POI源中的POI可以理解为与某个主POI疑似存在匹配关系的候选对象,用于检测主POI唯一匹配的候选POI。例如,主POI为POI-1,存入数据库的即候选POI源中的POI包括POI-2、POI-3和POI-4,可以从候选POI源的POI中筛选出POI-1的候选POI,如POI-3和POI-4,筛选得到的POI-1的候选POI,用于继续筛选得出POI-1唯一匹配的候选POI,如POI-4。
其中,对主POI源进行抽样,从大量的主POI中筛选出少部分的主POI,确定为目标主POI。例如,从10万个主POI的主POI源中抽样得到1千个目标主POI。
抽样之后进行第一步筛选:针对每个目标主POI,以当前选择的目标主POI为圆心,常识距离阈值为半径,确定第一圆,从候选POI源中筛选出处于第一圆范围内的目标候选POI,并与目标主POI共同添加到目标数据集中。其中,从候选POI源中筛选出处于第一圆范围内的目标候选POI的数量为0或者非0。此时,处于第一圆范围内的目标候选POI的数量为0的目标主POI,也即不存在目标候选POI的目标主POI,已存在于目标数据集中。
从候选POI源中筛选出处于第一圆范围内的目标候选POI的数量为0,即从候选POI源中筛选出处于第一圆范围内的目标候选POI的数量为空,表明目标主POI不存在目标候选POI,此时,确定目标主POI不存在匹配的目标候选POI。由于生成的第一POI融合集用于筛选出可以准确快速确定匹配的候选POI的匹配方法顺序,不存在匹配的目标候选POI的主POI不适用于筛选匹配方法顺序,可以将不存在目标候选POI的目标主POI从目标数据集中剔除,减少冗余,以及提高匹配方法顺序的筛选准确率。
在从候选POI源中筛选出处于第一圆范围内的目标候选POI的数量不为空的情况下,基于人工融合校验结果对目标数据集中的数据进行筛选。人工融合校验是指采用人工方式针对目标主POI,检验处于第一圆范围内的至少一个目标候选POI中是否存在与目标主POI匹配的目标候选POI。人工融合校验结果为人工对目标主POI与处于第一圆范围内的目标候选POI进行融合校验,检测目标主POI是否存在匹配的目标候选POI的结果,也即检测目标主POI是否能够与处于第一圆范围内的至少一个目标候选POI中的某个目标候选POI进行融合的结果。人工融合校验结果包括校验通过结果和校验失败结果。校验通过结果可以是指,目标主POI与处于第一圆范围内某个目标候选POI之间存在匹配关系。校验失败结果可以是指,目标主POI与处于第一圆范围内的全部目标候选POI之间均不存在匹配关系。
人工融合校验结果为失败的目标主POI,表明,候选POI源中处于第一圆范围内的目标候选POI与目标主POI不存在匹配关系,从而,无法在目标候选POI中查询到与目标主POI之间存在匹配关系的目标候选POI,同样需要从目标数据集中剔除。除了剔除对应的目标主POI,还需要剔除处于该剔除的目标主POI确定的第一圆范围内的目标候选POI,减少目标数据集中的冗余数据。
通过对第一全量数据集和第二全量数据集进行清洗,及对主POI源进行抽样融合,可以得到第一POI融合集,通过多个维度对主POI进行筛选,精简了第一POI融合集的数据量,同时为融合阈值的检测提供了更准确的数据保障,提高阈值确定的准确率。
可选的,所述单项匹配方法包括名称匹配方法或地址匹配方法;所述确定所述单项匹配方法对应的融合阈值集合,包括:根据所述第一POI融合集确定检索距离阈值;根据所述检索距离阈值和所述第一POI融合集得到第二POI融合集;根据目标领域的停用词,计算所述第二POI融合集中第二主POI和第二候选POI之间的最大相似度和匹配相似度,所述停用词包括名称停用词或地址停用词,所述最大相似度包括名称最大相似度或地址最大相似度,所述匹配相似度包括名称匹配相似度或地址匹配相似度;根据预设的相似度区间、预设的第二匹配错误率阈值以及所述第二POI融合集中第二主POI和第二候选POI之间的最大相似度和匹配相似度确定融合阈值,并生成所述单项匹配方法对应的融合阈值集合。
检索距离阈值用于从第一POI融合集筛选出第二POI融合集。从第一POI融合集中获取所有主POI及其匹配的候选POI,并计算每对主POI及其匹配的候选POI之间的距离,计算方法可以是Haversine方法;筛选出最大距离,根据最大距离和预设的膨胀系数确定检索距离阈值,例如,最大距离与膨胀系数的乘积的计算结果为检索距离阈值。根据检索距离阈值和第一POI融合集得到第二POI融合集,在第一POI融合集中,针对每个主POI,以当前选择的主POI为圆心,以检索距离阈值为半径,在第一POI融合集中该主POI的候选POI中确定一个圆,筛选出圆内的候选POI,并将圆外的的候选POI从第一融合集中剔除,形成第二POI融合集,减少第二POI融合集的处理的数据量,提高处理效率。
停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉的字或词。停用词用于剔除,提高检索效率。目标领域为用户指定的领域,通常第一全量数据集和第二全量数据集包括该目标领域的POI数据。第二主POI是指第二POI融合集包括的主POI;第二候选POI是指第二POI融合集包括的候选POI。
最大相似度,可以是指第二主POI与各第二候选POI之间的相似度的最大值。匹配相似度,可以是指第二主POI与匹配的第二候选POI之间的相似度。相似度区间为预设的相似度范围,例如100%-90%,100%-80%……100%-0%,具体的区间设定可根据实际情况调整,这里不进行限定。在每个相似度区间都可能确定一个融合阈值,将多个融合阈值形成的集合,确定为匹配方法对应的融合阈值集合。
单项匹配方法为名称匹配方法,停用词为名称停用词,最大相似度为名称最大相似度,以及匹配相似度为名称匹配相似度。单项匹配方法为地址匹配方法,停用词为地址停用词,最大相似度为地址最大相似度,以及匹配相似度为地址匹配相似度。
在一个具体的例子中,文本相似度计算方法是一种计算两个文本输入的相似度的方法,主要用于下面的相似度计算和地址相似度计算。文本相似度计算方法借助了如下文本公式进行计算:
1.Damerau-Levenshtein距离公式,利用此公式得到文本距离,获取距离占文本中最长的一个的距离占比,采用1减去该距离占比得到相似度。
2.Jaro-Winkler相似度公式。
进行文本相似度计算之前,为了去除文本中的噪声点,采用停用词的处理方法。用停用词将一个原始文本衍生出多个文本,可以增加计算相似度的结果,从而提供文本的相似度。停用词原理如下:
1、一个领域下有一套独立的停用词词汇。
2、停用词词汇需要分为多层。例如:在加油站领域下,停用词分组如下:停用词:加油站、加气站和加油加气站;站A和站B。
3、使用组合公式的方法,将多层停用词分出2^n-1种组合。例如:假设停用词有n组,根据组合公式C(n,m)可知,总共有C(n,1)+C(n,2)+…+C(n,n-1)+C(n,n)=2^n-1种组合。
4、对文本分别进行每组停用词的置空处理,即可得到一组衍生文本(原始文本也要保留);例如:文本ABCD,经过停用词组合A、B置空处理后,得到文本CD一种衍生文本;同理,经过停用词组合A置空处理后,得到文本BCD一种衍生文本;最终,全部停用词组合处理后,会得到ABCD的衍生文本列表。
文本相似度方法的具体实现如下:
1、进行相似度计算的两个文本进行停用词置空处理,分别得到衍生文本;
2、两组衍生文本依次取值使用Damerau-Levenshtein和Jaro-Winkler计算相似度,直到所有相似度计算完毕,从中取最大值作为两个原始文本的相似度;例如:文本1的衍生文本有a、b,文本2的衍生文本有c、d。进行两两相似度计算,a-c、a-d、b-c、b-d的各自相似度计算完成后,取最大值作为最终结果。
相似度区间为将最低相似度和最高相似度进行划分形成的区间,通常划分方式为预设的,可以根据需要进行设定。
预设的第二匹配错误率阈值用于筛选融合阈值。其中,融合阈值为相似度区间的端点最小值。在每个相似度区间中,计算最大相似度和匹配相似度相同,且相似度为最大相似度的候选POI的数量大于1的第二主POI的数量。在每个相似度区间中,计算符合前述条件的第二主POI数量与第二融合集中第二主POI的总数量的比值,可以确定相似度区间的匹配错误率。根据预设的第二匹配错误率阈值筛选出符合条件的匹配错误率对应的相似度区间,将区间中的某个点的数值确定为融合阈值。将得到的所有融合阈值,生成融合阈值集合,例如,可以将区间端点的最小值,确定为融合阈值。
通过筛选出第二POI融合集,减少数据量,并根据的停用词,计算第二POI融合集中第二主POI和第二候选POI之间的最大相似度和匹配相似度,并根据相似度区间内匹配错误的第二主POI的数量和预设的第二匹配错误率阈值,筛选出相似度区间,并将相似度区间的任意一个相似度值确定融合阈值,实现根据匹配关系的第二主POI和第二候选POI准确确定融合阈值,同时筛选出确定匹配关系的融合阈值,提高主POI的融合类型的检测准确率,从而提高融合准确率。
可选的,所述根据预设的相似度区间、预设的第二匹配错误率阈值以及所述第二POI融合集中第二主POI和第二候选POI之间的最大相似度和匹配相似度确定融合阈值,包括:根据所述第二POI融合集中每个第二主POI对应的匹配相似度,将各所述第二主POI划分到预设的相似度区间内;在各所述预设的相似度区间内,统计最大相似度与匹配相似度相同,且存在至少两个第二候选POI的第二主POI数量;根据在各所述预设的相似度区间内第二主POI数量,得到不同预设的相似度区间下的匹配错误率;根据不同预设的相似度区间下的匹配错误率和预设的第二匹配错误率阈值得到融合阈值。
匹配相似度为第二主POI与存在匹配关系的第二候选POI之间的相似度。将各第二主POI划分到对应的匹配相似度所在的相似度区间内,用于统计每个相似度区间包括的匹配相似度所对应的第二主POI。最大相似度与匹配相似度相同,且存在至少两个第二候选POI的第二主POI,是指,第二主POI匹配的第二候选POI的匹配相似度与最大相似度相同,且第二候选POI的数量至少2个。实际上,在某个融合阈值下,最大相似度与匹配相似度相同,且存在至少两个第二候选POI的第二主POI,表示该第二主POI为匹配错误的主POI;而主POI有且仅存在一个候选POI与该主POI匹配,也即,最大相似度与匹配相似度相同,且有且仅有一个第二候选POI的第二主POI,表示该第二主POI为匹配正确的主POI。匹配错误率为最大相似度与匹配相似度相同,且存在至少两个第二候选POI的第二主POI的数量,与第二POI融合集中主POI的数量的比值。匹配正确率为相似度区间内最大相似度与匹配相似度相同,且有且仅有一个第二候选POI的第二主POI的数量,与第二POI融合集中主POI的数量的比值,匹配失败率为相似度区间内最大相似度大于匹配相似度的第二主POI的数量,与第二POI融合集中主POI的数量的比值。通常,匹配正确率、匹配失败率和匹配错误率之和为1。
预设的第二匹配错误率阈值,用于筛选融合阈值。可以统计得到每个相似度区间下的匹配错误率,筛选出匹配错误率小于等于预设的第二匹配错误率阈值的相似度区间,并将筛选的相似度区间选择一个相似度值,确定为融合阈值,例如将区间端点的最小值确定为融合阈值。
通过统计每个相似度区间中不能唯一确定匹配的第二候选POI的主POI的数量,以计算匹配错误率,并根据预设的匹配错误率阈值,筛选出相似度区间,在筛选的相似度区间中选择一个相似度值为融合阈值,从而可以确定用于确定匹配关系的主POI的融合阈值,从而提高融合效率及准确率。
可选的,所述根据目标领域的停用词,计算所述第二POI融合集中第二主POI和第二候选POI之间的最大相似度和匹配相似度,包括:根据目标领域的停用词,计算所述第二POI融合集中第二主POI和第二候选POI之间的文本相似度;根据所述第二主POI与各第二候选POI之间的所述文本相似度,确定所述第二主POI对应的最大相似度;获取与所述第二主POI存在匹配关系的第二候选POI,并将所述第二主POI与所述存在匹配关系的第二候选POI之间的文本相似度,确定为所述第二主POI对应的匹配相似度。
文本相似度可以是指第二主POI的与任意一个第二候选POI的之间的相似度。文本相似度用于描述第二主POI与第二候选POI的相似程度,通常,文本相似度越高,第二主POI的与第二候选POI的越相似;文本相似度越低,第二主POI的与第二候选POI的越不相似。可以通过计算第二POI融合集中第二主POI与各第二候选POI之间的相似度,得到第二主POI的多个文本相似度。在文本相似度中,将最大值确定为第二主POI对应的最大相似度。
在一个具体的例子中,在名称相似度计算中,使用了上文提到的文本相似度计算方法计算两个POI名称之间的相似度。下面具体介绍名称相似度计算方法,步骤如下:
1、从两个全量数据集中取出第一POI融合集;
2、计算主POI与各个候选POI的距离,将距离超过检索距离阈值的候选POI剔除,相当于以主POI为圆心,以检索距离阈值为半径,确定一个圆,筛选出圆内的候选POI,并将圆外的候选POI从第一融合集中剔除。
3、对其他主POI进行步骤2的候选POI剔除,直到主POI全部处理完毕,形成第二POI融合集;
4、计算主POI与各个候选POI的名称相似度,从中取最大相似度(称为名称最大相似度),主POI与匹配的候选POI的名称相似度(称为名称匹配相似度),并统计名称匹配相似度等于名称最大相似度的候选POI的数量。例如:第二主POI与第二候选POIA之间的相似度为95%;第二主POI与第二候选POIB之间的相似度为85%;第二主POI与第二候选POIC之间的相似度为95%。假设甲与B是匹配关系,那么结论如下:名称匹配相似度为85%,名称最大相似度为95%,名称最大相似度数量为2。
5、对其他主POI进行步骤4的相似度计算,直到主POI全部计算完毕;
6、对名称匹配相似度划分到对应的名称相似度区间中,再分别计算每个名称相似度区间下第二主POI的数量,以及各名称相似度区间占样本比例,名称相似度区间划分规则如下:名称相似度区间包括:100%、100%-95%、100%-90%…100%-0%。可根据实际情况进行调整,这里不做限定。
7、对名称匹配相似度的每个名称相似度区间进行分组计数,以及各组占样本比例,分组规则如下:a)名称匹配相似度=名称最大相似度;b)名称匹配相似度<名称最大相似度;
8、再对步骤7的a)进行一次分组计数,以及各组占样本比例,分组规则如下:i)名称最大相似度的数量=1;ii)名称最大相似度的数量>1;通过步骤4到步骤8得到如表1:
表1
9、各组实际意义分析如下:a)名称匹配相似度<名称最大相似度,代表最大相似度的候选POI与主POI不匹配,因此这种情况需要人工处理找到真正匹配POI,此时,名称匹配相似度<名称最大相似度的主POI的数量与所属名称相似度区间包括的主POI数量的比值为匹配失败率;b)名称匹配相似度=名称最大相似度下的名称最大相似度的数量=1,代表唯一的最大相似度的候选POI与主POI是匹配关系,代表匹配正确数量和匹配正确率;c)名称匹配相似度=名称最大相似度下的名称最大相似度的数量>1,代表多个最大相似度相同的候选POI可能名称一样,代表匹配错误数量和匹配错误率。
10、找出匹配错误率小于预设匹配错误率阈值的所有名称相似度区间,将名称相似度区间一端的最小值全部找出,确定为匹配名称阈值,将多个匹配名称阈值形成集合,这个集合定义为匹配名称阈值集合。
通过计算第二POI融合集中,第二主POI与每个第二候选POI的文本相似度,并从中筛选出最大相似度和匹配相似度,从而准确确定融合阈值。
S130,按照所述匹配方法顺序依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,确定各所述第一主POI的第一融合类型。
第一融合类型用于确定第一主POI的存储方式,存储方式可以是包括单独存储在一个组中,存储在已有POI的组,或是存储在人工库等,相应的,融合类型包括匹配类型、插入类型和人工类型。可选的,当第一融合类型为匹配类型时,第一主POI存入匹配的候选POI所在的组;当第一融合类型为插入类型时,第一主POI单独存储在一个组中;当第一融合类型为人工类型时,第一主POI存入人工库中。
第一融合类型的确定方式具体是:在采用匹配方法顺序进行检测之前,优先检测第一主POI是否存在第一候选POI,将不存在第一候选POI的第一主POI的第一融合类型确定为插入类型。在存在第一候选POI的第一主POI中,采用匹配方法顺序进行检测,根据检测结果继续确定第一融合类型。
其中,检测第一主POI是否存在第一候选POI,包括:以主POI为圆心,检索距离阈值为半径,在第一候选POI源的数据中确定一个圆,若圆中POI的数量不为0,则第一主POI存在第一候选POI,若圆中POI的数量为0,则第一主POI不存在第一候选POI,为插入类型。
匹配方法中单项匹配方法的数量为至少一个;根据匹配方法顺序,按顺序采用各单项匹配方法以及对应的融合阈值,计算第一主POI中是否存在匹配的第一候选POI,并根据检测结果,确定第一主POI的第一融合类型。
针对存在第一候选POI的第一主POI,匹配方法顺序中存在至少两个单项匹配方法,按照顺序采用单项匹配方法检测第一主POI的至少一个第一候选POI中是否存在与第一主POI之间存在匹配关系的第一候选POI;并采用顺序相邻的下一单项匹配方法,检测上一单项匹配方法的检测结果中未存在匹配关系的第一主POI的至少一个第一候选POI中是否存在与第一主POI之间存在匹配关系的第一候选POI,以此类推,直至匹配方法顺序最后的单项匹配方法检测完成,得到最终的检测结果,并根据检测结果确定第一融合类型,例如,存在匹配关系的第一主POI的第一融合类型为匹配类型;不存在匹配关系的第一主POI的第一融合类型为人工类型。其中,存在匹配关系的两个POI表示相同地理位置。存在匹配关系的第一主POI是指与某个第一候选POI存在匹配关系,匹配的第一候选POI可以是指与存在匹配关系的第一主POI表示相同地理位置的第一候选POI。
示例性的,单项匹配方法的检测过程具体为:针对距离匹配方法,具体匹配过程可以包括:1、计算出主POI与诸多候选POI的距离(通过经纬度计算);2、统计各距离小于匹配距离阈值的候选POI数量,也即统计以主POI的经纬度为圆心,以匹配距离阈值为半径确定的圆内的候选POI的数量;当候选POI的数量为1时,确定此候选POI与主POI是匹配的。距离匹配方法为,当以主POI经纬度为圆心,以匹配距离阈值为半径,有且仅有一个该主POI的候选POI在圆内时,确定该候选POI与主POI是匹配关系,否则确定该候选POI与主POI为不匹配关系,或者该候选POI与主POI不是匹配关系。
针对名称匹配方法,具体匹配过程可以包括:1、计算出主POI与诸多候选POI的名称相似度(运用文本相似度计算方法);2、统计各相似度大于等于匹配名称阈值的候选POI数量,也即统计相似度100%与匹配名称阈值形成的相似度区间内的候选POI数量。当候选POI数量只有一个时,可以确定这个候选POI与主POI是匹配的关系。名称匹配方法为,在主POI与各个候选POI的名称相似度集合中,有且仅有一个主POI的候选POI与主POI的名称相似度属于相似度100%与匹配名称阈值形成的相似度区间时,确定此候选POI与主POI是匹配关系,否则确定该候选POI与主POI为不匹配关系。
针对地址匹配方法,可以参考名称匹配方法,此处不再赘述。
可选的,所述确定各所述第一主POI的第一融合类型,包括:在各所述第一主POI中选择当前POI,并检测所述当前POI是否存在第一候选POI;在所述当前POI不存在第一候选POI的情况下,确定所述当前POI的第一融合类型为插入类型;在所述当前POI存在第一候选POI的情况下,按照所述匹配方法顺序依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,检测是否存在与所述当前POI匹配的第一候选POI;在存在与所述当前POI是匹配关系的第一候选POI的情况下,确定所述当前POI的第一融合类型为匹配类型;在不存在与所述当前POI是匹配关系的第一候选POI的情况下,确定所述当前POI的第一融合类型为人工类型;返回执行在各所述第一主POI中选择当前POI的步骤,直至全部第一主POI确定完成。
逐个选择第一主POI确定为当前POI,直至全部第一主POI均选择完成。其中,检测当前POI是否存在第一候选POI,具体可以包括:以当前POI为圆心,以检索距离阈值为半径,确定一个圆,并将第一候选POI的集合中处于该圆范围内的第一候选POI确定为当前POI存在的第一候选POI;如果处于该圆范围内的第一候选POI的数量大于等于1,则确定当前POI存在第一候选POI;如果数量等于0,则确定当前POI不存在第一候选POI。
在一个具体的例子中,以主POI经纬度为圆心,以两个数据源的融合方法的检索距离阈值为半径确定一个圆;将圆内所有的候选数据源的POI全部取出,这些POI全部作为候选POI。例如:假设第一全量数据集S1和第二全量数据集S2,已知S1与S2的匹配方法顺序,其中检索距离阈值为200m,此时要为S1中的POI-A选取候选POI,步骤如下:1、以A的经纬度为圆心,以S1与S2的检索距离阈值200m为半径画圆;2、将圆内S2的所有POI取出,作为POI-A的候选POI。如果候选POI的数量大于等于1,则确定POI-A存在候选POI;如果数量小于1,则确定POI-A不存在候选POI。
插入类型,表明不存在候选POI的主POI,即主POI与其他各候选POI都不同,可以单独存储于新组中。匹配类型,表明存在主POI的候选POI,且主POI的候选POI中存在匹配的候选POI,即主POI与某个候选POI表示相同的地理位置,可以存储在同一组中。人工类型,表明主POI的候选POI存在,但按照匹配方法顺序的单项匹配方法未查询到匹配的候选POI,此时可以标注为人工类型,以便后续人工进行判断。
不存在第一候选POI的当前POI与其他各候选POI都不同,即当前POI与各候选POI表示的地理位置都不同,可以单独存储于新组中,确定当前POI的第一融合类型为插入类型。存在匹配的第一候选POI的当前POI,实际与该匹配的候选POI表示的地理位置相同,可以与唯一匹配的第一候选POI存储于同一组,确定当前POI的第一融合类型为匹配类型。在存在匹配的第一候选POI的当前POI,但查询匹配的第一候选POI为空,需要人工介入,确定当前POI的第一融合类型为人工类型。
在一个具体的例子中,匹配方法顺序确定后,该匹配方法起始位置要追加一个是否含有候选POI的判断规则,因为如果该匹配方法在执行时,连一个候选POI都没有,那么无论怎么计算,主POI都是插入的结果。匹配方法顺序的结构最终为:1、判断主POI是否有候选POI,如果没有,则直接返回主POI第一融合类型为插入类型;如果有则进行后续判断。2、按照已经选定最佳的匹配方法顺序,进行各个单项匹配方法的计算,任何一项单项匹配方法如果计算出主POI与某一个候选POI匹配,那么直接返回主POI第一融合类型为匹配类型。3、如果所有单项匹配方法都没有计算出匹配的候选POI,那么直接返回主POI第一融合类型为人工类型。
其中,当有任何两家数据源的POI进行融合时,未入库数据源的POI向已入库数据源POI的融合过程称为正向融合,此时,确定第一主POI的第一融合类型的方式为正向融合计算:已知的融合方法,输入主POI与候选POI,最终计算出第一融合类型的检测结果,包括:
例如:条件1:有数据源S1、S2,S1中的A为主POI。条件2:S1与S2的融合方法为正向检测候选POI,匹配方法顺序为:匹配方法顺序为距离匹配计算(匹配距离阈值20m)、名称匹配计算(匹配名称阈值为95%)和地址匹配计算(匹配地址阈值为90%)。
例1:当条件1和条件2都成立时,根据检索距离阈值判断,如果不存在候选POI,则A的第一融合类型为插入类型。
例2:当条件1和条件2都成立,以及S2中的甲、乙、丙为候选POI时,采用匹配方法顺序进行融合计算,甲、乙、丙与A在距离、名称和地址的各单项匹配方法计算中都不匹配,得到A的第一融合类型为人工类型。
例3:当条件1和条件2都成立,以及S2中的甲、乙、丙为候选POI时,进行融合计算,甲与A在至少一个单项匹配方法的计算中是匹配关系,那么A的第一融合类型为匹配类型,匹配的候选POI为甲。
通过针对全部主POI依次判断是否存在候选POI以及根据各单项匹配方法确定是否存在匹配的候选POI,可以精准确定主POI的第一融合类型,从而提高主POI的融合准确率,并在出错时提供人工介入方法,提高融合系统的稳定性和容错性。
当正向的第一融合类型为插入类型或者人工类型时,直接可以认定在这两个数据源融合中,当前POI的第一融合类型就是插入类型或者人工类型;相反,如果正向第一融合类型为匹配类型时,还需要其他处理过程继续处理。实际上,当确认是主POI和一个候选POI是匹配关系时,已入库数据源中该候选POI再次与未入库数据源的主POI进行融合,此过程称为反向融合。
可选的,所述确定所述当前POI的第一融合类型为匹配类型,包括:在所述融合库中与所述当前POI存在匹配关系的第一候选POI所在组中存在同源POI的情况下,将所述当前POI的第一融合类型确定为人工类型;在所述融合库中与所述当前POI存在匹配关系的第一候选POI所在组中不存在同源POI的情况下,确定所述当前POI的第一融合类型为匹配类型。
实际上,同一个全量数据集中不存在代表相同地理位置的多个主POI,从而,不存在多个主POI同时与一个候选POI匹配。如果存在,则表明,全量数据集中的数据存在错误。第一候选POI所在组中存在同源POI,是指与当前POI属于相同的全量数据集,此时确定当前POI的第一融合类型为人工类型,需要人工介入。
在检测当前POI的第一融合类型时,还需要进行同源验证。其中,同源验证,用于检测是否存在属于同一个数据源的多个主POI与同一个候选POI同时匹配。由于当前POI与哪个第一候选POI匹配,在本发明实施例的正向融合计算中得到,接下来,需要确认融合库中,匹配的第一候选POI所在组内是否已经存在与当前POI属于相同数据源的其他主POI。融合库中所述当前POI存在匹配关系的第一候选POI所在组中存在同源POI,表明存在两个主POI同时与一个候选POI匹配,存在同源冲突;融合库中与所述当前POI存在匹配关系的第一候选POI所在组中不存在同源POI,表明仅有一个主POI与一个候选POI匹配。
例如:条件1:有数据源S1、S2,S1中的A为主POI,S2中的甲与A在正向融合过程中确定存在唯一匹配关系。
例1:当条件1成立的情况下,此时融合库中S2的甲所属组中,存在S1的B,即S2的甲与S1的B已经在同组关系。此时A与B都是来自数据源S1,那么说明A与B存在同源冲突,因此此时A的第一融合类型不能为匹配类型,而是人工类型。在S1与S2融合中,A的第一融合类型为人工类型。
例2:当条件1成立的情况下,此时融合库中S2的甲所属组中,不存在S1的任何POI,那么A与甲之间的唯一匹配关系稳定,没有同源冲突,确定A的第一融合类型为匹配类型。
通过检测匹配的第一候选POI所在组是否存储同源POI,以检测当前POI的第一融合类型是否为人工类型,可以进一步对当前POI与匹配的第一候选POI的关系进行验证,提高第一融合类型的检测准确率,并在出错时提供人工介入方法,提高融合系统的稳定性和容错性。
可选的,所述确定所述当前POI的第一融合类型为匹配类型,包括:将所述存在匹配关系的第一候选POI确定为反向第一主POI;确定所述反向第一主POI对应的反向第一候选POI;依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,检测是否存在与所述反向第一主POI存在匹配关系的反向第一候选POI;在所述存在匹配关系的反向第一候选POI为所述当前POI的情况下,将所述当前POI的第一融合类型确定为匹配类型;在所述存在匹配关系的反向第一候选POI不为所述当前POI,或者所述反向第一主POI不存在匹配关系的反向第一候选POI的情况下,将所述当前POI的第一融合类型确定为人工类型。
可以不进行同源验证直接进行反向融合验证;或者可以在融合库中与当前POI存在匹配关系的第一候选POI所在组中不存在同源POI的情况下,即在正向融合之后,进行反向融合验证。反向融合验证用于将存在匹配关系的第一候选POI确定为反向第一主POI,以互换第一主POI和匹配的第一候选POI,以检测匹配的第一候选POI在第一主POI的数据集中是否能够唯一确定该第一主POI,以达到反向融合计算的目的。
其中,确定反向第一主POI对应的反向第一候选POI包括:以反向第一主POI为圆心,以检索距离阈值为半径,确定第二圆,并将在主POI源中处于第二圆范围内的第一主POI确定为反向第一主POI的反向第一候选POI,其中,第二圆范围内的第一主POI的数量为至少一个,相应的,反向第一主POI的反向第一候选POI的数量为至少一个。
在反向第一候选POI为空,或者存在至少一个第一反向候选POI不包括当前POI的情况下,表明反向第一候选POI与反向第一主POI不是一一匹配的关系,从而,可以确定第一候选POI在第一主POI的数据集中不能唯一确定该第一主POI,从而,匹配类型的检测结果错误,将当前POI的第一融合类型确定为人工类型,以通过人工融合POI。
在至少一个反向第一候选POI包括当前POI的情况下,依次采用匹配方法顺序中各单项匹配方法,根据各单项匹配方法对应的融合阈值,检测是否存在与所述反向第一主POI存在唯一匹配关系的反向第一候选POI。
存在唯一匹配关系的反向第一候选POI,且该唯一匹配关系的反向第一候选POI是当前POI,表明反向第一候选POI与反向第一主POI一一匹配,从而,可以确定第一候选POI在第一主POI的数据集中唯一匹配该第一主POI,从而,匹配类型的检测结果正确,将当前POI的第一融合类型确定为匹配类型。
存在唯一匹配关系的反向第一候选POI不是当前POI,表明反向第一候选POI与反向第一主POI不是一一匹配的关系,从而,可以确定第一候选POI在第一主POI的数据集中不能唯一匹配该第一主POI,将当前POI的第一融合类型确定为人工类型,以通过人工融合POI。
在一个具体的例子中,在同源验证之后,还需要进行反向融合计算。具体的,反向融合计算的步骤如下:1、按照选取候选POI的方法,以正向匹配确定的候选POI为圆心,以检索距离阈值为半径画圆,将主POI数据源内所有在圆内的POI抽取出来,当作反向融合计算的候选POI。2、运用前述匹配方法顺序,输入匹配的候选POI和反向融合计算的候选POI进行反向融合计算。3、检测反向融合计算中匹配的候选POI与主POI是否一致。
例如:条件1:有数据源S1、S2,S1中的A为主POI,S2中的甲为正向融合计算中匹配的候选POI。条件2:S1与S2的融合方法为候选POI检测、距离匹配计算(匹配距离阈值20m)、名称匹配计算(匹配名称阈值为95%)和地址匹配计算(匹配地址阈值为90%)。条件3:反向融合计算的候选POI为S1中的A、B。
例1:当条件1、2、3都成立时,已知A与甲是正向匹配,当甲与反向候选POI的A、B进行反向融合计算,得出甲与B是匹配的,那么此时正向匹配关系与反向匹配关系不同,那么在S1与S2的融合中A的第一融合类型为人工类型。
例2:当条件1、2、3都成立时,已知A与甲是正向匹配,当甲与反向候选POI的A、B进行反向融合计算,得出甲与A是匹配的,那么此时正向匹配关系与反向匹配关系相同,那么在S1与S2的融合中A与甲之间存在匹配关系,A的第一融合类型为匹配类型。
综上,确定第一全量数据集和第二全量数据集中主POI的融合类型,分为匹配类型、插入类型和人工类型等。检测条件如下:1、匹配类型:当主POI与匹配的候选POI在正反融合计算中的结果一致时(此时,主POI与匹配的候选POI所属组内的其他POI没有发生同源冲突),该主POI的融合类型为匹配类型;2、插入类型:为主POI选取候选POI时,没有满足条件的候选POI的主POI的融合类型为插入类型;3、人工类型:不满足上述1和2的主POI的融合类型为人工类型。
通过反向判断第一候选POI是否与第一主POI匹配,可以进一步确定第一主POI和第一候选POI是否唯一匹配,从而,确定第一主POI的第一融合类型,提高主POI的融合类型的检测准确率,从而准确融合POI。
S140,根据各所述第一主POI的第一融合类型,存储各所述第一主POI。
实际上,存储第一主POI,是指根据第一融合类型,确定第一主POI的存储位置,并根据存储位置存储第一主POI,其中,存储位置与第一主POI的第一融合类型对应。例如,存储在匹配的第一候选POI所在组的第一主POI的第一融合类型为匹配类型,即存在匹配关系的第一主POI和第一候选POI存储于同一组。
存储各所述第一主POI用于将不存在第一候选POI的第一主POI存储于新组,将存在匹配关系的第一主POI和与匹配的第一候选POI存储于同一组,以及将存在第一候选POI,且不存在匹配关系的第一主POI存储于人工库。从而表示不同地理位置的第一主POI存储于不同组,同时表示同一地理位置的存在匹配关系的第一主POI和匹配的第一候选POI存储于同一组。将第一主POI进行存储于候选POI所在的数据库,相当于是将第一主POI与候选POI进行融合,也即将第一全量数据集和第二全量数据集进行融合。
可选的,所述根据各所述第一主POI的第一融合类型,存储各所述第一主POI,包括:将所述插入类型的第一主POI存入融合库中的新组中;将所述匹配类型的第一主POI存入所述融合库中存在匹配的关系的第一候选POI所在的组中;将所述人工类型的第一主POI存入人工库中。
融合库用于存储融合后的POI,存在匹配关系的POI存储在同一组,不存在匹配关系的POI存储在不同组。人工库用于存储匹配方法不能确定匹配类型的POI,以便人工进行融合到融合库中,进一步提高融合准确率。融合库和人工库中的数据独立存储。融合库可以和人工库不同。
通过提供融合库以及人工库,可以实现将代表相同地理位置以及匹配的POI存放在一起,将代表不同地理位置以及不能匹配的POI放在不同位置,提高融合准确性,并在不能匹配时存储人工库,以便人工融合,提高融合系统的稳定性和容错性。
本发明实施例通过在待融合的第一全量数据集和第二全量数据集中,确定第一主POI,确定两个数据集之间的匹配方法顺序,以及每个单项匹配方法对应的融合阈值,采用匹配方法顺序依次选择单项匹配方法以及对应的融合阈值,确定每个第一主POI第一融合类型,并根据第一融合类型对第一主POI进行存储,将存在匹配关系的第一主POI存入另一个全量数据集中匹配的POI所在的组,实现两个数据集中的POI之间的融合,解决了现有技术中人工进行POI数据整合效率低,以及成本高的问题,可以根据两个全量数据集,针对性采用匹配方法顺序确定第一主POI的融合类型,将第一主POI存储在正确的位置,以实现两个数据集中的POI之间的融合,提高POI数据的融合准确率,同时降低融合POI数据的人工成本,并提高POI数据的融合效率。
有些应用场景中存在多个数据源进行融合。
可选的,所述存储各所述第一主POI,包括:在存在至少一个待融合的第三全量数据集的情况下,确定各所述第一主POI在各所述第三全量数据集下的至少一个第二融合类型,所述各所述第三全量数据集与所述第一全量数据集已进行融合,或各所述第三全量数据集与所述第二全量数据集已进行融合;根据各所述第一主POI的第一融合类型、各所述第二融合类型、以及已融合全量数据集中每两个数据集中POI之间的匹配关系,存储各所述第一主POI,所述已融合全量数据集包括各所述第三全量数据集与所述第一全量数据集,或各所述第三全量数据集与所述第二全量数据集,所述第一主POI所属的全量数据集与所述已融合全量数据集不同。
第三全量数据集为已入库的全量数据集,且与第一全量数据集和第二全量数据集中已入库的全量数据集已进行融合。在第一全量数据集和第二全量数据集中存在一个未入库数据集和一个已入库数据集。第三全量数据集为已入库数据集。第三全量数据集与第一全量数据集和第二全量数据集中的已入库数据集进行融合存储。
第二融合类型为第一主POI针对第三全量数据集的融合类型。每个第三全量数据集可以确定一个第二融合类型,也即第二融合类型的数量与第三全量数据集的数量相同。已融合全量数据集为已入库的全量数据集,包括第三全量数据集,同时还包括第一全量数据集或第二全量数据集。第三全量数据集与第一全量数据集或第二全量数据集已进行融合,表明第三全量数据集的POI与第一全量数据集或第二全量数据集中的POI之间的匹配关系确定,示例性的,存储于同一组的第三全量数据集的POI与第一全量数据集的POI匹配,或存储于同一组的第三全量数据集的POI与第二全量数据集中的POI匹配。
在存在至少两个已融合全量数据集的情况下,在存储第一主POI时,需要根据各第一主POI的第一融合类型、各第二融合类型、以及已融合全量数据集中每两个数据集中POI之间的匹配关系,确定第一主POI与不同数据源的POI之间的匹配关系,从而,确定第一主POI的存储组,对第一主POI进行存储,实现将第一主POI与已融合全量数据集中POI进行融合。
在一个具体的例子中,在存在多个全量数据集时,先将第一个全量数据集的POI存入融合库中,每个POI单独成组,即将第一个全量数据集入库,已入库的全量数据集确定为已融合的全量数据集;在剩余的全量数据集中,选择一个全量数据集,计算包括的POI针对已融合的全量数据集的融合类型,并根据融合类型存储包括的POI。继续在剩余的全量数据集中,选择一个全量数据集,计算包括的POI针对每个已融合的全量数据集的融合类型,并根据每两个已融合的全量数据集中存在匹配关系的POI,存储包括的POI,以此类推,直至全部全量数据集入库。
在已融合全量数据集的数量为至少两个时,其中,已融合全量数据集包括第三全量数据集。针对未入库全量数据集,将未入库全量数据集包括的POI确定为第一主POI,针对每个已入库的全量数据集,分别确定第一主POI的第一候选POI,以及从中确定匹配的第一候选POI,针对未入库全量数据集与每个已融合全量数据集,分别确定第一主POI的融合类型,包括第一融合类型和至少一个第二融合类型,同时获取每两个已融合全量数据集中POI之间的匹配关系,最终根据第一融合类型、至少一个第二融合类型和每两个已融合全量数据集中POI之间的匹配关系,存储第一主POI,即将第一主POI入库。
通过配置至少三个全量数据集,并针对每个第三全量数据集,确定主POI的第二融合类型,并根据第一融合类型、各第二融合类型和每两个已融合全量数据集中POI之间的匹配关系,存储主POI,可以增加应用场景,实现多个数据集的POI融合,增加POI的融合范围。
可选的,所述根据各所述第一主POI的第一融合类型、各所述至少一个第二融合类型、以及已融合全量数据集中每两个数据集中POI之间的匹配关系,存储各所述第一主POI,包括:在所述第一融合类型和各所述第二融合类型中存在至少一个人工类型的情况下,将所述第一主POI存入人工库中;在所述第一融合类型和各所述第二融合类型中均为插入类型的情况下,将所述第一主POI存入融合库中的新组中;在所述第一融合类型和各所述第二融合类型仅包括匹配类型和插入类型,所述第一主POI在已融合全量数据集下存在匹配关系的匹配候选POI,且每两个匹配候选POI之间存在匹配关系,且所述目标组有且仅有所述第一主POI在已融合全量数据集下存在匹配关系的匹配候选POI的情况下,将所述第一主POI存入所述融合库中的所述目标组中;或者将所述第一主POI存入人工库中。
存在至少一个人工类型,表明第一主POI在至少一个全量数据集中不能唯一确定匹配的第一候选POI,此时确定第一主POI需要人工处理,可以确定第一主POI的融合类型为人工类型,将第一主POI存入人工库中。具体的,第一融合类型和各第二融合类型中存在至少一个人工类型,则确定第一主POI需要人工处理。如果全部融合类型为插入类型,表明第一主POI在每个全量数据集中都不存在第一候选POI,可以确定第一主POI的全部融合类型为插入类型,可以直接存储在融合库中的新组中。
第一融合类型和各第二融合类型仅包括匹配类型和插入类型是指,第一融合类型和各第二融合类型均为匹配类型,或者第一融合类型和各第二融合类型为匹配类型和插入类型。在存在插入类型和匹配类型的情况下,表明第一主POI在至少一个全量数据集中存在匹配的匹配候选POI,而在至少一个全量数据集中不存在第一候选POI。目标组为,第一主POI匹配的匹配候选POI在融合库中的存储位置,其中,各匹配候选POI在融合库中属于同一个组,该组即为目标组。需要检测属于不同数据源的各匹配候选POI之间是否存在匹配关系,并且,检测存储匹配的候选POI的目标组内是否仅存储有第一主POI在不同全量数据集中的匹配的匹配候选POI,除此之外不包括其他候选POI,也即检测目标组包括的每个匹配候选POI是否均与第一主POI匹配。如果第一主POI在已融合全量数据集下存在匹配关系的匹配候选POI,且每两个不同数据源的匹配候选POI之间存在匹配关系,且目标组仅包括第一主POI在已融合全量数据集下存在匹配关系的匹配候选POI,表明第一主POI和该组的第一候选POI均表示同一地理位置,可以确定多家融合类型为融合类型,可以将第一主POI存入该目标组。
此外还有一些其他情况,均可以认为是需要人工处理,将第一主POI存入人工库。其他情况例如,在存在插入类型和匹配类型的情况下,第一主POI匹配的各候选POI存储于不同组,或者该目标组除了第一主POI匹配的各候选POI之外,还存储其他与第一主POI不匹配的POI等。实际上,除了所述第一融合类型和各所述第二融合类型中存在至少一个人工类型,所述第一融合类型和各所述第二融合类型中均为插入类型,以及所述第一融合类型和各所述第二融合类型仅包括匹配类型和插入类型,所述第一主POI在已融合全量数据集下存在匹配关系的匹配候选POI,且每两个匹配候选POI之间存在匹配关系,且所述目标组有且仅有所述第一主POI在已融合全量数据集下存在匹配关系的匹配候选POI等情况,其他均认为第一主POI需要人工处理,将第一主POI存入人工库。
通过第一主POI针对各全量数据集的第一融合类型和第二融合类型,以及第一主POI分别在多个全量数据集中匹配的第一候选POI是否在同目标组,以及该目标组包括的POI与第一主POI的匹配关系,确定第一主POI的融合方式,可以适配不同情况,将第一主POI准确与表示相同地理位置的POI进行融合,提高多数据集的融合准确率,丰富POI融合的应用场景,增加POI的融合适用数据集范围。
在一个具体的例子中,按照多个数据源融合时录入到融合库的顺序,确定多个数据源的融合方式:
1、第一家数据源融合入库:在第一家数据源融合入库前,融合库是空,对于第一家数据源来说没有可参考的候选POI,因此,第一家数据源的POI在用本发明实施例所述的融合方法时,得到的融合关系都是插入,这些POI全部直接存入到融合库中,并且每个POI都是单独成立一个组。之后在融合库中用组来表示后续的数据源中哪些POI可以融合。
例如:条件1:融合库为空,最先融合的是数据源S1,S1中有A、B、C。
当条件1成立时,由于只有一个数据源,无法构成融合的操作,因此,将S1中的A、B、C直接存入到融合库中。插入完成后的融合库数据如下:第1组包括S1数据源的A、第2组包括S2数据源的B、和第3组包括S3数据源的C。如表2所示:
表2
POI 数据源
A S1 1
B S1 2
C S1 3
2、第二家数据源融合入库
在第一家数据源完成融合入库后,融合库中已经有数据。此时,第二家数据源进行融合时,检测第二家数据源包括的第一主POI与第一家数据源包括的候选POI之间的匹配关系,即本发明实施例所述的第一主POI的第一融合类型确定的操作。在第二家数据源中确定各第一主POI的第一融合类型之后,按照第一融合类型存入到融合库或者人工库中。
例如:条件1:数据源S1的A、B、C已经完成融合,并且存入到融合库中,融合库数据如表3所示:
表3
POI 数据源
A S1 1
B S1 2
C S1 3
人工库数据如表4所示:
表4
POI 数据源
条件2:数据源S2为第二家数据源,准备与第一家数据源S1的POI进行融合,S2中含有甲、乙和丙。
例1:当条件1与2都成立,且确定S2的甲与S1的A之间的关系是匹配关系时,则确定甲的第一融合类型为匹配类型,那么将甲存入到融合库中与A同组。融合库数据如表5所示:
表5
人工库数据如表6所示:
表6
POI 数据源
例2:当条件1与2都成立,且S2的乙没有任何候选POI时,确定乙的第一融合类型为插入类型,并将乙存入到融合库中单独成立一组。融合库数据如表7所示:
表7
POI 数据源
A S1 1
B S1 2
C S1 3
S2 4
人工库数据如表8所示:
表8
POI 数据源
例3:当条件1与2都成立,且S2的丙有候选POI时,如果在两个数据源融合关系确定的运算中,确定丙的第一融合类型是人工类型,则将丙存入到人工库中。融合库数据如表9所示:
表9
POI 数据源
A S1 1
B S1 2
C S1 3
人工库数据如表10所示:
表10
POI 数据源
S2
例1到例3都融合完成后,融合库数据如表11所示:
表11
人工库数据如表12所示:
表12
POI 数据源
S2
3、后续多家数据源融合入库
至此,融合库中已经有两家数据源的数据,之后再进来的第三家数据源、第四家数据源等等更多家,它们的融合方法都与第三家一样,下面仅按照第三家数据源融合的方法来陈述融合的过程,具体步骤如下:
1.将第三家数据源分别与第一家数据源、第二家数据源进行两个数据源融合关系确认的计算。此时,第一家数据源和第二家数据源中的POI为第一候选POI,第三家数据源中的POI为第一主POI。
2.根据下述规则识别第三家数据源中第一主POI的融合类型,识别的规则与顺序如下:a)如果多个融合类型中任一融合类型是人工类型,则第三家数据源的融合类型为人工类型;b)如果多个融合类型中全部融合类型都是插入类型,则第三家数据源的融合类型为插入类型;c)如果多个融合类型中满足下面全部条件时,则第三家数据源的融合类型为匹配类型;
i.多个融合类型中至少有一个是匹配类型,其余融合类型都是插入类型;
ii.多个融合类型中是匹配类型的融合结果都有一个匹配的候选POI,在融合库中检测各匹配的候选POI是否都来自同一个组;
iii.在融合库中查询到只有一个组的情况下,检测融合库中组内的全部POI是否与匹配的候选POI都是一一对应的,即:融合库组内POI与匹配候选POI的两个数据集合是相同。
d)除了上述外的其他情况,第三家数据源的多家融合类型为人工类型。
下面将分别举例说明上面步骤2的检测规则:
例1(a步骤——人工类型):
1.融合前数据源S1与数据源S2的数据库内容如下:
融合库如表13所示:
表13
人工库数据如表14所示:
表14
POI 数据源
S2
数据源包含的POI如表15所示:
表15
数据源 POI
S1 A、B、C
S2 甲、乙、丙
S3 a
2.假设数据源S3的a开始与S1、S2分别进行融合,获取的候选POI结果如表16所示:
表16
S3-POI 数据源 候选POI
a S1 A、B
a S2 甲、乙
3.假设a(S3)与S1、S2的两方融合关系如表17所示:
表17
4.根据上文所述规则,按照顺序进行检测时,发现由于a(S3)与S1的融合关系为人工类型,其满足多个融合类型中有任意一个融合类型为人工类型的规则,因此a(S3)与S1、S2的多个融合类型为人工类型,如表18所示:
表18
S3-POI 数据源 融合类型
a S1、S2、S3 人工类型
5.a(S3)需要存入到人工库中。数据库结果如下:
融合库如表19所示:
表19
人工库数据如表20所示:
表20
POI 数据源
S2
a S3
例2(b步骤——插入类型):
1.融合前数据源S1与数据源S2的数据库形态如下:
融合库如表13所示;人工库如表14所示;数据源包含的POI如表15所示。
2.假设数据源S3的a开始与S1、S2分别进行融合,获取的候选POI结果如表21所示:
表21
S3-POI 数据源 候选POI
a S1
a S2
3.假设a(S3)与S1、S2的两方融合关系如表22所示:
表22
S3-POI 数据源 融合类型 匹配的POI
a S1 插入类型
a S2 插入类型
4.根据上文所述规则,按照顺序进行检测,两个融合类型中没有任何人工的类型,因此规则a)不满足,进行规则b)的检测,发现多个融合类型都是插入类型,正好满足b)规则,因此a(S3)与S1、S2的融合类型为插入类型,如表23所示:
表23
S3-POI 数据源 融合类型
a S1、S2、S3 插入类型
5.a(S3)需要创建新的组存入到融合库中。数据库结果如下:
融合库如表24所示:
表24
人工库如表14所示。
例3(c步骤——匹配类型):
1.融合前数据源S1与数据源S2的数据库内容如下:
融合库如表13所示;人工库如表14所示;数据源包含的POI如表15所示。
2.假设数据源S3的a开始与S1、S2分别进行融合,获取的候选POI结果如表25所示:
表25
S3-POI 数据源 候选POI
a S1 A、B
a S2 甲、乙、丙
3.假设a(S3)与S1、S2的两方融合类型如表26所示:
表26
S3-POI 数据源 融合类型 匹配的POI
a S1 匹配类型 A
a S2 匹配类型
4.根据上文所述规则,按照顺序进行检测,如果a(S3)的多个融合类型中没有人工类型或全部都是插入类型,则不满足规则a)和b),需要根据规则c)进行判断,根据已经得出的多个融合类型,可以确定其满足c)—i的规则,即:至少含有一个匹配类型,其他融合类型如果存在则都是插入类型。
5.根据c)—ii的规则进行检测,确定a(S3)匹配的A(S1)和甲(S2)在融合库中是同一组(1组),因此满足此规则。
融合库内A(S1)和甲(S2)情况如表27所示:
表27
/>
6.根据c)—iii的规则进行检测,确定a(S3)匹配的全部候选POI为A(S1)和甲(S2),且各候选POI均属于组1,在融合库中组1内也只包含A(S1)和甲(S2),因此满足此规则。具体如表28所示:
表28
来源 POI组成
计算出的匹配POI A、甲
融合库中组1内的POI A、甲
7.综上,a(S3)满足c)的全部规则,因此a(S3)在S1、S2、S3的融合类型为匹配类型。具体如表29所示:
表29
S3-POI 数据源 融合类型
a S1、S2、S3 匹配类型
8.a(S3)需要存入到融合库的组1中。数据库结果如下:
融合库如表30所示:
表30
人工库不变,如表14所示。
例4(c步骤——人工类型,c)—ii的反例):
1.融合前数据源S1与数据源S2的数据库内容如下:
融合库如表13所示;人工库如表14所示;数据源包含的POI如表15所示。
2.假设数据源S3的a开始与S1、S2分别进行融合,获取的候选POI结果如表25所示。
3.假设a(S3)与S1、S2的两方融合类型如表31所示:
表31
S3-POI 数据源 融合类型 匹配的POI
a S1 匹配类型 A
a S2 匹配类型
4.根据上文所述规则,按照顺序进行检测,确定a(S3)的多个融合类型中没有人工类型或全部都是插入类型的情况,那么必然不满足规则a)和b),需要根据规则c)进行判断,首先根据已经得出的多个融合类型,可以确定其满足c)—i的规则,即:至少含有一个匹配类型,其他都是插入类型。
5.在根据c)—ii的规则进行检测,确定a(S3)匹配的A(S1)和甲(S2)在融合库中分别来自组1和组4,因此不满足此规则。
融合库内A(S1)和甲(S2)情况如表32所示:
表32
POI 数据源
A S1 1
S2 4
6.因此a(S3)不能满足c)的全部规则,因此a(S3)在S1、S2、S3的融合类型为人工类型。具体如表33所示:
表33
S3-POI 数据源 融合类型
a S1、S2、S3 人工类型
7.a(S3)需要存入到人工库中。数据库结果如下:
融合库不变,如表13所示;人工库如表34:
表34
POI 数据源
S2
a S3
例5(c步骤——人工结果,c)—iii的反例):
1.融合前数据源S1与数据源S2的数据库形态,如下:
融合库如表13所示;人工库如表14所示;数据源包含的POI如表15所示。
2.假设数据源S3的a(POI)开始与S1、S2分别进行融合,获取的候选POI结果如表25所示。
3.假设a(S3)与S1、S2的两方融合类型如表35所示:
表35
S3-POI 数据源 融合类型 匹配的POI
a S1 匹配类型 A
a S2 插入类型
4.根据上文所述规则,按照顺序进行检测,确定a(S3)的多个融合类型中没有人工类型或全部都是插入类型的情况,那么必然不满足规则a)和b),需要根据规则c)进行判断,首先根据已经得出的多个融合类型,可以确定其满足c)—i的规则,即:至少含有一个匹配类型,其他都是插入类型。
5.在根据c)—ii的规则进行检测,确定a(S3)匹配POI只有A(S1)一个,在融合库中也只可能来自一个组,因此满足这条规则。
融合库内A(S1)情况如表36所示:
表36
POI 数据源
A S1 1
6.根据c)—iii的规则进行检测,确定a(S3)匹配的全部候选POI只有A(S1),但A所在的组1,在融合库中包含A(S1)和甲(S2),因此不满足此规则。具体如表37所示:
表37
来源 POI组成
计算出的匹配POI A
融合库中组1内的POI A、甲
7.因此a(S3)不能满足c)的全部规则,因此a(S3)在S1、S2、S3的融合类型为人工类型。具体如表38所示:
表38
S3-POI 数据源 融合类型
a S1、S2、S3 人工类型
8.a(S3)需要存入到人工库中。数据库结果如下:
融合库不变,如表13所示;人工库如表39:
表39
POI 数据源
S2
a S3
实施例二
图2a为本发明实施例二中的一种目标图像确定方法的流程图,本实施例以上述实施例为基础进行具体化。将获取多个模板图像,具体化为:在模板库中获取多个初始图像;获取待检测物体的图像;计算所述待检测物体的图像与各所述初始图像之间的相似度;根据各所述相似度,在各所述初始图像中,选择模板图像。
POI融合集:已经完成POI融合的结果集合。主POI和候选POI组成POI融合集。
主POI源:POI融合集内两个POI数据源中,任意所指定其中一个POI数据源。
候选POI源:POI融合集内两个POI数据源中,主POI源以外的另一个POI数据源。
主POI:所在数据源中的一个对象。
候选POI:所在数据源中一个候选对象。
常识距离:相同POI在两个不同数据源之间的最大距离。例如同一加油站在数据源A与数据源B中,二者的距离不可能超过1km,超出了就不是同一个加油站,那么称1km为常识距离。常识距离与前述实施例中常识距离阈值相同。
检索距离阈值:在检索距离阈值内的候选POI才有可能与主POI匹配,距离外的一切候选POI不可能与主POI匹配。
匹配距离阈值:在错误率允许的范围内,主POI为圆心,某个半径下候选POI有且只有一个与主POI(融合集内)匹配,最大半径值为匹配距离的阈值。
本实施例的方法具体包括:
S210,获取第一数据提供商提供的第一全量数据集和第二提供商提供的第二全量数据集。
本发明实施例中未详细介绍的描述可以参考上述实施例的描述。
具体地,定义第一数据提供商为提供商A,定义第二数据提供商为提供商B。提供商A提供的第一全量数据集中的数据格式彼此统一,提供商B提供的第二全量数据集中数据格式彼此统一,但第一全量数据集中的数据和第二全量数据集中数据之间数据格式不统一,例如表40,提供商A和提供商B提供的数据格式示例。
表40
提供商A 提供商B
名称 名称
地址 地址
经纬度 经纬度
油号 行政区
价格 电话
S220,对所述第一全量数据集和所述第二全量数据集进行数据格式统一得到标准第一数据集和标准第二数据集。
其中,数据格式统一的方式包括经纬度规格统一、行政区统一、电话号码格式统一、地址格式统一等等。
例如标准格式定义如表41:
表41
属性 标准要求
名称 POI官方全称
地址 地址
经纬度 采用国家规定的gcj02坐标系
行政区 采用现行国家规定的标准版本(例如:东陵区改名为浑南区)
电话 手机标准11位,座机:区号-电话
S230,对所述标准第一数据集和所述标准第二数据集确定主POI源和候选POI源。
具体地,从提供商A和提供商B中任选一个为主POI源,则另一个为候选POI源。
S240,对所述主POI源和所述候选POI源进行融合得到第一POI融合集。
具体地,可以通过对主POI源和候选POI源进行第一步融合,以便后续对数据融合的结果进行验证。其中,第一步融合的过程包括:分层抽样、第三主POI的候选对象准备和样本数据融合。
S4-1:分层抽样,是将总体单位按其属性特征分成若干类型或层,然后在类型或层中随机抽取样本单位。分层抽样与简单随机抽样相比,往往选择分层抽样,因为它有显著的潜在统计效果。也就是说,如果从相同的总体中抽取两个样本,一个是分层样本,另一个是简单随机抽样样本,相对来说,分层样本的误差更小些。另一方面,如果目标是获得一个确定的抽样误差水平,那么更小的分层样本将达到这一目标。样本数确定方法,本实施例采用分层定比。即各层样本数与该层总体数的比值相等。例如,样本大小n=50,总体N=500,则n/N=0.1即为样本比例,每层均按这个比例确定该层样本数。
分层抽样的具体步骤如下:
S4-1-1:对于第三主POI数据进行行政区分层。
全国各级行政区数量如表42,全国各级行政区数量表:
表42
行政区等级 数量
省、自治区、直辖市 30多个
地级市 300多个
区县级 3600多个
分层原则:根据样本数量选择行政区等级进行分层,避免出现某一层抽取了0条样本,必须保证每层都有样本抽出,从而保证样本的代表性。例如当样本数为1000条时,根据分层原则应该按照地级市对数据进行分层。
S4-1-2:根据样本数量,再计算出样本比例。例如样本数量为10000条,样本比例为1000/10000=0.1。
S4-1-3:每层按照样本比例计算抽取数(四舍五入保留整数部分),再进行随机抽取。
S4-2:第三主POI的候选对象准备,为第三主POI样本的每条数据提供可能的第三候选POI,具体步骤如下:
S4-2-1:以第三主POI经纬度为圆心点,以预设的常识距离为半径画圆,确定第三候选POI的范围。
S4-2-4:其他第三主POI按照步骤S4-2-1查找第三候选POI,直到所有第三主POI的候选POI查找完成。
S4-3:样本数据融合,将样本数据进行融合,并对融合后的结果进行校对,确保融合的准确性。给出的融合结论只有匹配或者新增,新增可以理解为前述实施例中的插入。
例如第三主POI包括数据:甲。第三候选POI包括数据:A和B。如果人工确认甲与A是匹配关系,甲的融合状态记录为匹配。
例如第三主POI包括数据:乙。第三候选POI包括数据:C和D。如果人工确认乙与任何第三候选POI没有关系,乙的融合状态记录为新增。
将融合完成后,融合状态为匹配的第三主POI及其常识距离下的第三候选POI保留,融合状态为新增的第三主POI舍弃,得到第一POI融合集。
S250,根据所述第一POI融合集确定最小距离和检索距离阈值。
在本发明的一个实施例中,步骤S250包括:
S5-1:从所述第一POI融合集中获取所有第三主POI及其匹配的第三候选POI。
S5-2:计算所述第一POI融合集中的所有第三主POI及其匹配的第三候选POI的距离,从所有计算出的距离中确定最小距离和最大距离。
具体地,采用Haversine方法计算出每一个第三主POI与匹配的第三候选POI之间的距离,从而可以得到最小距离和最大距离。
S5-3:根据最大距离和预设的膨胀系数确定检索距离阈值。
具体地,由于再优秀的样本也存在小部分的局限,因此乘以膨胀系数即可弥补样本的局限,即对最大距离再乘以一个膨胀系数得到检索距离阈值。示例性地,膨胀系数默认为1.1(根据具体情况具体取值)。
S260,根据所述检索距离阈值和所述第一POI融合集得到第二POI融合集。
具体地,对第一POI集中的每一个第三主POI,将与其距离在检索距离阈值范围的第三候选POI保留,距离超过检索范围的第三候选POI舍弃,得到第二POI融合集。
S270,根据所述最小距离、预设的半径增长量,以及所述第二POI融合集中第三主POI和第三候选POI确定匹配距离阈值。
其中,匹配距离阈值为前述实施例中距离匹配方法对应的融合阈值。在本发明的一个实施例中,步骤S270包括:
S7-1:以最小距离为起点,以检索距离阈值为终点,从起点开始按照预设的半径增长量依次递增取值,直到最大取值小于终点为止,产生的数值集合定义为半径集合。所述半径增长量根据具体情况取值。
在本发明的一个示例中,最小距离为8m,检索距离阈值为20米,增长量为5米,则半径集合为{8,13,18},最大取值18小于检索距离阈值20,23m超过检索距离20m舍去。
S7-2:以第二POI融合集中所有第三主POI为圆心,统计半径集合内不同半径下有且仅有一个第三候选POI的第三主POI数量。
具体地,步骤S7-2包括:
S7-2-1:从半径集合取值作为半径(例如从{8,13,18}中取8m作为半径),从第三主POI源选取一个第三主POI,以选取的第三主POI的经纬度为圆心,计算在圆内第三候选POI数量。
S7-2-2:半径不变的情况下,从样本中取新的第三主POI,按照S7-2-1的方式计算新选取的第三主POI的第三候选POI数量,直至第三主POI源内的所有第三主POI得到在这个半径下的第三候选POI数量为止。
S7-2-3:从半径集合中取新的半径(例如从{8,13,18}中先取13m作为新的半径,在取18米作为新的半径),完成步骤S7-2-1至步骤S7-2-2的计算,得到新的半径下第三主POI源中的所有第三主POI的第三候选POI的数量。
图2b为本发明一个示例中对第三主POI源中的第三主POI获取对应的第三候选POI的示意图。如图2b所示,r来自半径集合,圆形o为当前选取的第三主POI,点A和点B为圆内第三候选POI,此时的第三候选POI数量为2。通过半径r不断变化,计算每个第三主POI的第三候选POI在圆内的数量。
S7-3:根据半径集合内不同半径下仅有一个第三候选POI的第三主POI数量和第二POI融合集中的第三主POI数量得到不同半径下的匹配正确率和匹配错误率,根据不同半径下的匹配正确率、匹配错误率和预设的匹配错误率阈值得到匹配距离阈值。
具体地,步骤S7-3包括:
S7-3-1:一层分组:在一个半径下,对第三主POI进行分组计数,并计算各组数量在样本中的比重,分组规则包括:
圆内第三候选POI数量=0;
圆内第三候选POI数量=1;
圆内第三候选POI数量>1。
S7-3-2:对其他的半径下的第三主POI完成步骤S7-3-1的分组计算,直到全部计算完成。
S7-3-3:二层分组:在一个半径下,对各组的第三主POI数量再进行分组计数,并计算各组数量在样本中的比重,分组规则为匹配的第三候选POI是在圆内还是圆外,具体包括:
圆内第三候选POI数量=0时,匹配的第三候选POI在圆外;
圆内第三候选POI数量=1时,匹配的第三候选POI在圆内;
圆内第三候选POI数量=1时,匹配的第三候选POI在圆外;
圆内第三候选POI数量>1时,匹配的第三候选POI在圆内;
圆内第三候选POI数量>1时,匹配的第三候选POI在圆外。
S7-3-4:对其他的半径下的第三主POI完成步骤S7-3-3的二层分组计算,直到全部计算完成。
S7-3-5:通过二层分组后,可以得到:
圆内第三候选POI数量=0时,匹配的第三候选POI在圆外时,无法单纯地通过半径来确定哪个第三候选POI与第三主POI是匹配关系,没有实际意义;
圆内第三候选POI数量=1时,匹配的第三候选POI在圆内时,在某半径下圆内唯一的第三候选POI与第三主POI是匹配关系的第三主POI正确数量和匹配正确率;
圆内第三候选POI数量=1时,匹配的第三候选POI在圆外时,在某半径下圆内唯一的第三候选POI与第三主POI是匹配关系的第三主POI错误数量和匹配错误率;
圆内第三候选POI数量>1时,匹配的第三候选POI在圆内时,在某半径下圆内多个第三候选POI存在一个与第三主POI是匹配关系,没有实际意义;
圆内第三候选POI数量>1时,匹配的第三候选POI在圆外时,没有实际意义。
S7-3-6:使用折线图将上述结论中的匹配正确率、匹配错误率展示出来,从折线图中确定错误率在实际需求可接受的条件下的最大的半径长度,即为匹配距离阈值。
在步骤S270之后,可以根据匹配距离阈值对想要进行POI融合的目标第三主POI源和目标第三候选POI源进行数据融合。
本发明实施例通过对数据的样本进行不断的分析和挖掘,从而发现数据中的各种特征,再将各个特征通过运算转化为具体的阈值,以在在POI融合计算时,可以直接运用计算得到的阈值来完成融合工作,融合效率高,准确度高。
实施例三
图3为本发明实施例三中的一种POI融合装置的示意图。实施例三是实现本发明上述实施例提供的POI融合方法的相应装置,该装置可采用软件和/或硬件的方式实现,并一般可集成计算机设备中。
相应的,本实施例的装置可以包括:
全量数据集获取模块310,用于获取待融合的第一全量数据集和第二全量数据集,并确定第一主POI;
匹配方法顺序确定模块320,用于确定所述第一全量数据集和所述第二全量数据集之间的匹配方法顺序,和所述匹配方法顺序中单项匹配方法对应的融合阈值;
融合类型确定模块330,用于按照所述匹配方法顺序依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,确定各所述第一主POI的第一融合类型;
POI融合模块340,用于根据各所述第一主POI的第一融合类型,存储各所述第一主POI;所述单项匹配方法包括下述至少一项:距离匹配方法、名称匹配方法和地址匹配方法。
本发明实施例通过在待融合的第一全量数据集和第二全量数据集中,确定第一主POI,确定两个数据集之间的匹配方法顺序,以及每个单项匹配方法对应的融合阈值,采用匹配方法顺序依次选择单项匹配方法以及对应的融合阈值,确定每个第一主POI第一融合类型,并根据第一融合类型对第一主POI进行存储,将存在匹配关系的第一主POI存入另一个全量数据集中匹配的POI所在的组,实现两个数据集中的POI之间的融合,解决了现有技术中人工进行POI数据整合效率低,以及成本高的问题,可以根据两个全量数据集,针对性采用匹配方法顺序确定第一主POI的融合类型,将第一主POI存储在正确的位置,以实现两个数据集中的POI之间的融合,提高POI数据的融合准确率,同时降低融合POI数据的人工成本,并提高POI数据的融合效率。
进一步的,所述匹配方法顺序确定模块320,具体用于:根据所述第一全量数据集和所述第二全量数据集,确定第一POI融合集;根据所述第一POI融合集,确定各所述单项匹配方法对应的融合阈值集合;对所述各单项匹配方法及各所述单项匹配方法对应的融合阈值集合进行排列组合,得到组合匹配方法;计算各所述组合匹配方法的匹配正确率和匹配错误率;根据预设的第一匹配错误率阈值、所述匹配正确率和所述匹配错误率,在各所述组合匹配方法中筛选得到目标匹配方法;将所述目标匹配方法中单项匹配方法顺序确定为匹配方法顺序,将各所述单项匹配方法对应的阈值,确定为所述匹配方法顺序中单项匹配方法对应的融合阈值。
进一步的,所述匹配方法顺序确定模块320,具体用于:对所述第一全量数据集和所述第二全量数据集进行数据格式统一得到标准第一数据集和标准第二数据集;对所述标准第一数据集和所述标准第二数据集确定主POI源和候选POI源;对所述主POI源进行抽样;以抽样得到的目标主POI为圆心,以常识距离阈值为半径,确定第一圆,并确定所述候选POI源中处于所述第一圆范围内的目标候选POI,形成目标数据集;在所述候选POI源中处于所述第一圆范围内的目标候选POI为空的情况下,在所述目标数据集中剔除对应的目标主POI;获取所述目标数据集中的目标主POI,与所述候选POI源中处于所述第一圆范围内的目标候选POI之间的人工融合校验结果;在所述目标数据集中剔除人工融合校验结果为失败的所述目标主POI和处于剔除的目标主POI确定的第一圆范围内的目标候选POI,得到第一POI融合集。
进一步的,所述单项匹配方法包括名称匹配方法或地址匹配方法;所述匹配方法顺序确定模块320,具体用于:根据所述第一POI融合集确定检索距离阈值;根据所述检索距离阈值和所述第一POI融合集得到第二POI融合集;根据目标领域的停用词,计算所述第二POI融合集中第二主POI和第二候选POI之间的最大相似度和匹配相似度,所述停用词包括名称停用词或地址停用词,所述最大相似度包括名称最大相似度或地址最大相似度,所述匹配相似度包括名称匹配相似度或地址匹配相似度;根据预设的相似度区间、预设的第二匹配错误率阈值以及所述第二POI融合集中第二主POI和第二候选POI之间的最大相似度和匹配相似度确定融合阈值,并生成所述单项匹配方法对应的融合阈值集合。
进一步的,所述匹配方法顺序确定模块320,具体用于:根据所述第二POI融合集中每个第二主POI对应的匹配相似度,将各所述第二主POI划分到预设的相似度区间内;在各所述预设的相似度区间内,统计最大相似度与匹配相似度相同,且存在至少两个第二候选POI的第二主POI数量;根据在各所述预设的相似度区间内第二主POI数量,得到不同预设的相似度区间下的匹配错误率;根据不同预设的相似度区间下的匹配错误率和预设的第二匹配错误率阈值得到融合阈值。
进一步的,所述融合类型确定模块330,具体用于:在各所述第一主POI中选择当前POI,并检测所述当前POI是否存在第一候选POI;在所述当前POI不存在第一候选POI的情况下,确定所述当前POI的第一融合类型为插入类型;在所述当前POI存在第一候选POI的情况下,按照所述匹配方法顺序依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,检测是否存在与所述当前POI匹配的第一候选POI;在存在与所述当前POI是匹配关系的第一候选POI的情况下,确定所述当前POI的第一融合类型为匹配类型;在不存在与所述当前POI是匹配关系的第一候选POI的情况下,确定所述当前POI的第一融合类型为人工类型;返回执行在各所述第一主POI中选择当前POI的步骤,直至全部第一主POI确定完成。
进一步的,所述融合类型确定模块330,具体用于:在所述融合库中与所述当前POI存在匹配关系的第一候选POI所在组中存在同源POI的情况下,将所述当前POI的第一融合类型确定为人工类型;在所述融合库中与所述当前POI存在匹配关系的第一候选POI所在组中不存在同源POI的情况下,确定所述当前POI的第一融合类型为匹配类型。
进一步的,所述融合类型确定模块330,具体用于:将所述存在匹配关系的第一候选POI确定为反向第一主POI;确定所述反向第一主POI对应的反向第一候选POI;依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,检测是否存在与所述反向第一主POI存在匹配关系的反向第一候选POI;在所述存在匹配关系的反向第一候选POI为所述当前POI的情况下,将所述当前POI的第一融合类型确定为匹配类型;在所述存在匹配关系的反向第一候选POI不为所述当前POI,或者所述反向第一主POI不存在匹配关系的反向第一候选POI的情况下,将所述当前POI的第一融合类型确定为人工类型。
进一步的,所述POI融合模块340,具体用于:将所述插入类型的第一主POI存入融合库中的新组中;将所述匹配类型的第一主POI存入所述融合库中存在匹配的关系的第一候选POI所在的组中;将所述人工类型的第一主POI存入人工库中。
进一步的,所述POI融合装置,还包括:多数据集融合模块,用于在存在至少一个待融合的第三全量数据集的情况下,确定各所述第一主POI在各所述第三全量数据集下的至少一个第二融合类型,所述各所述第三全量数据集与所述第一全量数据集已进行融合,或各所述第三全量数据集与所述第二全量数据集已进行融合;根据各所述第一主POI的第一融合类型、各所述第二融合类型、以及已融合全量数据集中每两个数据集中POI之间的匹配关系,存储各所述第一主POI,所述已融合全量数据集包括各所述第三全量数据集与所述第一全量数据集,或各所述第三全量数据集与所述第二全量数据集,所述第一主POI所属的全量数据集与所述已融合全量数据集不同。
进一步的,所述POI融合模块340,具体用于:在所述第一融合类型和各所述第二融合类型中存在至少一个人工类型的情况下,将所述第一主POI存入人工库中;在所述第一融合类型和各所述第二融合类型中均为插入类型的情况下,将所述第一主POI存入融合库中的新组中;在所述第一融合类型和各所述第二融合类型仅包括匹配类型和插入类型,所述第一主POI在已融合全量数据集下存在匹配关系的匹配候选POI,且每两个匹配候选POI之间存在匹配关系,且所述目标组仅包括所述第一主POI在已融合全量数据集下存在匹配关系的匹配候选POI的情况下,将所述第一主POI存入所述融合库中的所述目标组中;或者将所述第一主POI存入人工库中。
上述装置可执行本发明实施例所提供的方法,具备执行方法相应的功能组件和有益效果。
实施例四
图4为本发明实施例四中的一种POI融合阈值的确定装置的示意图。实施例四是实现本发明上述实施例提供的POI融合阈值的确定方法的相应装置,该装置可采用软件和/或硬件的方式实现,并一般可集成计算机设备中。
相应的,本实施例的装置可以包括:
获取模块410,用于获取第一数据提供商提供的第一全量数据集和第二提供商提供的第二全量数据集;
控制处理模块420,用于对所述第一全量数据集和所述第二全量数据集进行数据格式统一得到标准第一数据集和标准第二数据集;所述控制处理模块还用于对所述标准第一数据集和所述标准第二数据集确定第三主POI源和第三候选POI源;所述控制处理模块还用于对所述第三主POI源和所述第三候选POI源进行融合得到第一POI融合集;所述控制处理模块还用于根据所述第一POI融合集确定最小距离和检索距离阈值;所述控制处理模块还用于根据所述检索距离阈值和所述第一POI融合集得到第二POI融合集;所述控制处理模块还用于根据所述最小距离、预设的半径增长量,以及所述第二POI融合集中第三主POI和第三候选POI确定匹配距离阈值。
本发明实施例通过对数据的样本进行不断的分析和挖掘,从而发现数据中的各种特征,再将各个特征通过运算转化为具体的阈值,以在在POI融合计算时,可以直接运用计算得到的阈值来完成融合工作,融合效率高,准确度高。
在本发明的一个实施例中,控制处理模块420还用于从第一POI融合集中获取所有第三主POI及其匹配的第三候选POI。控制处理模块420还用于计算第一POI融合集中的所有第三主POI及其匹配的第三候选POI的距离,从所有计算出的距离中确定最小距离和最大距离。控制处理模块420还用于根据最大距离和预设的膨胀系数确定检索距离阈值。其中,第三主POI为所在数据源中的一个对象,第三候选POI为所在数据源中一个候选对象。
进一步的,控制处理模块420还用于以最小距离为起点,以检索距离阈值为终点,从起点开始按照预设的半径增长量依次递增取值,直到终点为止,产生的数值集合定义为半径集合。进一步的,控制处理模块420还用于以第二POI融合集中所有第三主POI为圆心,统计半径集合内不同半径下有且仅有一个第三候选POI的第三主POI数量。控制处理模块420还用于根据半径集合内不同半径下仅有一个第三候选POI的第三主POI数量和第二POI融合集中的第三主POI数量得到不同半径下的匹配正确率和匹配错误率,根据不同半径下的匹配正确率、匹配错误率和预设的匹配错误率阈值得到匹配距离阈值。
进一步的,控制处理模块420还用于对第一POI融合集中的每一个第三主POI,将与其距离在检索距离阈值范围的第三候选POI保留,距离超过检索范围的第三候选POI舍弃,得到第二POI融合集。
上述装置可执行本发明实施例所提供的方法,具备执行方法相应的功能组件和有益效果。
实施例五
图5为本发明实施例五提供的一种计算机设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图5显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。计算机设备12可以是挂接在总线上的设备。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(PerIPheral Component Interconnect,PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM),数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序组件,这些程序组件被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序组件42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序组件42包括但不限于操作系统、一个或者多个应用程序、其它程序组件以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序组件42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网(Wide Area Network,WAN)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它组件通信。应当明白,尽管图5中未示出,可以结合计算机设备12使用其它硬件和/或软件组件,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列(Redundant Arrays of Inexpensive Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明任意实施例所提供的方法。
实施例六
本发明实施例六提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的POI匹配方法:
也即,该程序被处理器执行时实现:获取待融合的第一全量数据集和第二全量数据集,并确定第一主POI;确定所述第一全量数据集和所述第二全量数据集之间的匹配方法顺序,和所述匹配方法顺序中单项匹配方法对应的融合阈值;按照所述匹配方法顺序依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,确定各所述第一主POI的第一融合类型;根据各所述第一主POI的第一融合类型,存储各所述第一主POI;所述单项匹配方法包括下述至少一项:距离匹配方法、名称匹配方法和地址匹配方法。
或实现如本申请所有发明实施例提供的POI融合阈值的确定方法:获取第一数据提供商提供的第一全量数据集和第二提供商提供的第二全量数据集;对所述第一全量数据集和所述第二全量数据集进行数据格式统一得到标准第一数据集和标准第二数据集;对所述标准第一数据集和所述标准第二数据集确定主POI源和候选POI源;对所述主POI源和所述候选POI源进行融合得到第一POI融合集;根据所述第一POI融合集确定最小距离和检索距离阈值;根据所述检索距离阈值和所述第一POI融合集得到第二POI融合集;根据所述最小距离、预设的半径增长量,以及所述第二POI融合集中第三主POI和第三候选POI确定匹配距离阈值。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、只读存储器(Read OnlyMemory,ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、无线电频率(RadioFrequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括LAN或WAN——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (15)

1.一种POI融合方法,其特征在于,包括:
获取待融合的第一全量数据集和第二全量数据集,并确定第一主POI;
确定所述第一全量数据集和所述第二全量数据集之间的匹配方法顺序,和所述匹配方法顺序中单项匹配方法对应的融合阈值;
所述确定所述第一全量数据集和所述第二全量数据集之间的匹配方法顺序,和所述匹配方法顺序中单项匹配方法对应的融合阈值,包括:
根据所述第一全量数据集和所述第二全量数据集,确定第一POI融合集;
根据所述第一POI融合集,确定各所述单项匹配方法对应的融合阈值集合;
对所述各单项匹配方法及各所述单项匹配方法对应的融合阈值集合进行排列组合,得到组合匹配方法;计算各所述组合匹配方法的匹配正确率和匹配错误率;
根据预设的第一匹配错误率阈值、所述匹配正确率和所述匹配错误率,在各所述组合匹配方法中筛选得到目标匹配方法;
将所述目标匹配方法中单项匹配方法顺序确定为匹配方法顺序,将各所述单项匹配方法对应的阈值,确定为所述匹配方法顺序中单项匹配方法对应的融合阈值;
按照所述匹配方法顺序依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,确定各所述第一主POI的第一融合类型;
根据各所述第一主POI的第一融合类型,存储各所述第一主POI;
所述单项匹配方法包括下述至少一项:距离匹配方法、名称匹配方法和地址匹配方法。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一全量数据集和所述第二全量数据集,确定第一POI融合集,包括:
对所述第一全量数据集和所述第二全量数据集进行数据格式统一得到标准第一数据集和标准第二数据集;
对所述标准第一数据集和所述标准第二数据集确定主POI源和候选POI源;
对所述主POI源进行抽样;
以抽样得到的目标主POI为圆心,以常识距离阈值为半径,确定第一圆,并确定所述候选POI源中处于所述第一圆范围内的目标候选POI,形成目标数据集;
在所述候选POI源中处于所述第一圆范围内的目标候选POI为空的情况下,在所述目标数据集中剔除对应的目标主POI;
获取所述目标数据集中的目标主POI,与所述候选POI源中处于所述第一圆范围内的目标候选POI之间的人工融合校验结果;
在所述目标数据集中剔除人工融合校验结果为失败的所述目标主POI和处于剔除的目标主POI确定的第一圆范围内的目标候选POI,得到第一POI融合集。
3.根据权利要求1所述的方法,其特征在于,所述单项匹配方法包括名称匹配方法或地址匹配方法;
所述确定所述单项匹配方法对应的融合阈值集合,包括:
根据所述第一POI融合集确定检索距离阈值;
根据所述检索距离阈值和所述第一POI融合集得到第二POI融合集;
根据目标领域的停用词,计算所述第二POI融合集中第二主POI和第二候选POI之间的最大相似度和匹配相似度,所述停用词包括名称停用词或地址停用词,所述最大相似度包括名称最大相似度或地址最大相似度,所述匹配相似度包括名称匹配相似度或地址匹配相似度;
根据预设的相似度区间、预设的第二匹配错误率阈值以及所述第二POI融合集中第二主POI和第二候选POI之间的最大相似度和匹配相似度确定融合阈值,并生成所述单项匹配方法对应的融合阈值集合。
4.根据权利要求3所述的方法,其特征在于,根据预设的相似度区间、预设的第二匹配错误率阈值以及所述第二POI融合集中第二主POI和第二候选POI之间的最大相似度和匹配相似度确定融合阈值,包括:
根据所述第二POI融合集中每个第二主POI对应的匹配相似度,将各所述第二主POI划分到预设的相似度区间内;
在各所述预设的相似度区间内,统计最大相似度与匹配相似度相同,且存在至少两个第二候选POI的第二主POI数量;
根据在各所述预设的相似度区间内第二主POI数量,得到不同预设的相似度区间下的匹配错误率;
根据不同预设的相似度区间下的匹配错误率和预设的第二匹配错误率阈值得到融合阈值。
5.根据权利要求1所述的方法,其特征在于,所述确定各所述第一主POI的第一融合类型,包括:
在各所述第一主POI中选择当前POI,并检测所述当前POI是否存在第一候选POI;
在所述当前POI不存在第一候选POI的情况下,确定所述当前POI的第一融合类型为插入类型;
在所述当前POI存在第一候选POI的情况下,按照所述匹配方法顺序依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,检测是否存在与所述当前POI匹配的第一候选POI;
在存在与所述当前POI是匹配关系的第一候选POI的情况下,确定所述当前POI的第一融合类型为匹配类型;
在不存在与所述当前POI是匹配关系的第一候选POI的情况下,确定所述当前POI的第一融合类型为人工类型;
返回执行在各所述第一主POI中选择当前POI的步骤,直至全部第一主POI确定完成。
6.根据权利要求5所述的方法,其特征在于,所述确定所述当前POI的第一融合类型为匹配类型,包括:
在融合库中与所述当前POI存在匹配关系的第一候选POI所在组中存在同源POI的情况下,将所述当前POI的第一融合类型确定为人工类型;
在所述融合库中与所述当前POI存在匹配关系的第一候选POI所在组中不存在同源POI的情况下,确定所述当前POI的第一融合类型为匹配类型。
7.根据权利要求5或6所述的方法,其特征在于,所述确定所述当前POI的第一融合类型为匹配类型,包括:
将所述存在匹配关系的第一候选POI确定为反向第一主POI;
确定所述反向第一主POI对应的反向第一候选POI;
依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,检测是否存在与所述反向第一主POI存在匹配关系的反向第一候选POI;
在所述存在匹配关系的反向第一候选POI为所述当前POI的情况下,将所述当前POI的第一融合类型确定为匹配类型;
在所述存在匹配关系的反向第一候选POI不为所述当前POI,或者所述反向第一主POI不存在匹配关系的反向第一候选POI的情况下,将所述当前POI的第一融合类型确定为人工类型。
8.根据权利要求1所述的方法,其特征在于,所述根据各所述第一主POI的第一融合类型,存储各所述第一主POI,包括:
将插入类型的第一主POI存入融合库中的新组中;
将匹配类型的第一主POI存入所述融合库中存在匹配的关系的第一候选POI所在的组中;
将人工类型的第一主POI存入人工库中。
9.根据权利要求1所述的方法,其特征在于,所述存储各所述第一主POI,包括:
在存在至少一个待融合的第三全量数据集的情况下,确定各所述第一主POI在各所述第三全量数据集下的至少一个第二融合类型,所述各所述第三全量数据集与所述第一全量数据集已进行融合,或各所述第三全量数据集与所述第二全量数据集已进行融合;
根据各所述第一主POI的第一融合类型、各所述第二融合类型、以及已融合全量数据集中每两个数据集中POI之间的匹配关系,存储各所述第一主POI,所述已融合全量数据集包括各所述第三全量数据集与所述第一全量数据集,或各所述第三全量数据集与所述第二全量数据集,所述第一主POI所属的全量数据集与所述已融合全量数据集不同。
10.根据权利要求9所述的方法,其特征在于,所述根据各所述第一主POI的第一融合类型、各所述至少一个第二融合类型、以及已融合全量数据集中每两个数据集中POI之间的匹配关系,存储各所述第一主POI,包括:
在所述第一融合类型和各所述第二融合类型中存在至少一个人工类型的情况下,将所述第一主POI存入人工库中;
在所述第一融合类型和各所述第二融合类型中均为插入类型的情况下,将所述第一主POI存入融合库中的新组中;
在所述第一融合类型和各所述第二融合类型仅包括匹配类型和插入类型,所述第一主POI在已融合全量数据集下存在匹配关系的匹配候选POI,且每两个匹配候选POI之间存在匹配关系,且目标组仅包括所述第一主POI在已融合全量数据集下存在匹配关系的匹配候选POI的情况下,将所述第一主POI存入所述融合库中的所述目标组中;或者
将所述第一主POI存入人工库中。
11.一种POI融合阈值的确定方法,其特征在于,包括:
获取第一数据提供商提供的第一全量数据集和第二提供商提供的第二全量数据集;
对所述第一全量数据集和所述第二全量数据集进行数据格式统一得到标准第一数据集和标准第二数据集;
对所述标准第一数据集和所述标准第二数据集确定主POI源和候选POI源;
对所述主POI源和所述候选POI源进行融合得到第一POI融合集;
根据所述第一POI融合集确定最小距离和检索距离阈值;
所述根据所述第一POI融合集确定最小距离和检索距离阈值,包括:
从所述第一POI融合集中获取所有第三主POI及其匹配的第三候选POI;
计算所述第一POI融合集中的所有第三主POI及其匹配的第三候选POI的距离,从所有计算出的距离中确定所述最小距离和最大距离;
根据所述最大距离和预设的膨胀系数确定所述检索距离阈值;
根据所述检索距离阈值和所述第一POI融合集得到第二POI融合集;
根据所述最小距离、预设的半径增长量,以及所述第二POI融合集中第三主POI和第三候选POI确定匹配距离阈值;
所述根据所述最小距离、预设的半径增长量,以及所述第二POI融合集中第三主POI和匹配的第三候选POI确定匹配距离阈值,包括:
以所述最小距离为起点,以所述检索距离阈值为终点,从所述起点开始按照所述预设的半径增长量依次递增取值,直到所述终点为止,产生的数值集合定义为半径集合;
以所述第二POI融合集中所有第三主POI为圆心,统计半径集合内不同半径下有且仅有一个第三候选POI的第三主POI数量;
根据所述半径集合内不同半径下仅有一个第三候选POI的第三主POI数量和所述第二POI融合集中的第三主POI数量得到不同半径下的匹配正确率和匹配错误率,根据不同半径下的匹配正确率、匹配错误率和预设的匹配错误率阈值得到匹配距离阈值。
12.一种POI融合装置,其特征在于,包括:
全量数据集获取模块,用于获取待融合的第一全量数据集和第二全量数据集,并确定第一主POI;
匹配方法顺序确定模块,用于确定所述第一全量数据集和所述第二全量数据集之间的匹配方法顺序,和所述匹配方法顺序中单项匹配方法对应的融合阈值;
所述匹配方法顺序确定模块,具体用于:根据所述第一全量数据集和所述第二全量数据集,确定第一POI融合集;根据所述第一POI融合集,确定各所述单项匹配方法对应的融合阈值集合;对所述各单项匹配方法及各所述单项匹配方法对应的融合阈值集合进行排列组合,得到组合匹配方法;计算各所述组合匹配方法的匹配正确率和匹配错误率;根据预设的第一匹配错误率阈值、所述匹配正确率和所述匹配错误率,在各所述组合匹配方法中筛选得到目标匹配方法;将所述目标匹配方法中单项匹配方法顺序确定为匹配方法顺序,将各所述单项匹配方法对应的阈值,确定为所述匹配方法顺序中单项匹配方法对应的融合阈值;
融合类型确定模块,用于按照所述匹配方法顺序依次采用各所述单项匹配方法,根据各所述单项匹配方法对应的融合阈值,确定各所述第一主POI的第一融合类型;
POI融合模块,用于根据各所述第一主POI的第一融合类型,存储各所述第一主POI;所述单项匹配方法包括下述至少一项:距离匹配方法、名称匹配方法和地址匹配方法。
13.一种POI融合阈值的确定装置,其特征在于,包括:
获取模块,用于获取第一数据提供商提供的第一全量数据集和第二提供商提供的第二全量数据集;
控制处理模块,用于对所述第一全量数据集和所述第二全量数据集进行数据格式统一得到标准第一数据集和标准第二数据集;所述控制处理模块还用于对所述标准第一数据集和所述标准第二数据集确定主POI源和候选POI源;所述控制处理模块还用于对所述主POI源和所述候选POI源进行融合得到第一POI融合集;所述控制处理模块还用于根据所述第一POI融合集确定最小距离和检索距离阈值;所述控制处理模块还用于根据所述检索距离阈值和所述第一POI融合集得到第二POI融合集;所述控制处理模块还用于根据所述最小距离、预设的半径增长量,以及所述第二POI融合集中第三主POI和第三候选POI确定匹配距离阈值;
所述控制处理模块,还用于:从所述第一POI融合集中获取所有第三主POI及其匹配的第三候选POI;计算所述第一POI融合集中的所有第三主POI及其匹配的第三候选POI的距离,从所有计算出的距离中确定所述最小距离和最大距离;根据所述最大距离和预设的膨胀系数确定所述检索距离阈值;
所述控制处理模块,还用于:以所述最小距离为起点,以所述检索距离阈值为终点,从所述起点开始按照预设的半径增长量依次递增取值,直到所述终点为止,产生的数值集合定义为半径集合;以所述第二POI融合集中所有第三主POI为圆心,统计半径集合内不同半径下有且仅有一个第三候选POI的第三主POI数量;根据所述半径集合内不同半径下仅有一个第三候选POI的第三主POI数量和所述第二POI融合集中的第三主POI数量得到不同半径下的匹配正确率和匹配错误率,根据不同半径下的匹配正确率、匹配错误率和预设的匹配错误率阈值得到所述匹配距离阈值。
14.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-10中任一所述的POI融合方法,或实现如权利要求11中的POI融合阈值的确定方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一所述的POI融合方法,或实现如权利要求11中的POI融合阈值的确定方法。
CN202110852821.8A 2020-10-29 2021-07-27 Poi融合、poi融合阈值确定方法、装置、设备及介质 Active CN113377893B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011182458.5A CN112214568A (zh) 2020-10-29 2020-10-29 Poi融合阈值的确定方法、装置和电子设备
CN2020111824585 2020-10-29

Publications (2)

Publication Number Publication Date
CN113377893A CN113377893A (zh) 2021-09-10
CN113377893B true CN113377893B (zh) 2023-10-13

Family

ID=74057520

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202011182458.5A Pending CN112214568A (zh) 2020-10-29 2020-10-29 Poi融合阈值的确定方法、装置和电子设备
CN202110852821.8A Active CN113377893B (zh) 2020-10-29 2021-07-27 Poi融合、poi融合阈值确定方法、装置、设备及介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202011182458.5A Pending CN112214568A (zh) 2020-10-29 2020-10-29 Poi融合阈值的确定方法、装置和电子设备

Country Status (1)

Country Link
CN (2) CN112214568A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216895A (zh) * 2013-05-31 2014-12-17 高德软件有限公司 一种生成poi数据的方法及装置
CN110263117A (zh) * 2019-06-25 2019-09-20 深圳市腾讯计算机系统有限公司 一种用于确定兴趣点poi数据的方法与装置
CN110390045A (zh) * 2018-04-12 2019-10-29 腾讯大地通途(北京)科技有限公司 基于位置服务的兴趣点推荐方法及装置
CN111400422A (zh) * 2020-03-16 2020-07-10 中国测绘科学研究院 一种多重判据约束的poi匹配方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008300B (zh) * 2019-04-11 2021-07-09 北京百度网讯科技有限公司 Poi别名的确定方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216895A (zh) * 2013-05-31 2014-12-17 高德软件有限公司 一种生成poi数据的方法及装置
CN110390045A (zh) * 2018-04-12 2019-10-29 腾讯大地通途(北京)科技有限公司 基于位置服务的兴趣点推荐方法及装置
CN110263117A (zh) * 2019-06-25 2019-09-20 深圳市腾讯计算机系统有限公司 一种用于确定兴趣点poi数据的方法与装置
CN111400422A (zh) * 2020-03-16 2020-07-10 中国测绘科学研究院 一种多重判据约束的poi匹配方法及装置

Also Published As

Publication number Publication date
CN112214568A (zh) 2021-01-12
CN113377893A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN108363698B (zh) 兴趣点关系识别方法及装置
KR101945749B1 (ko) 데이터베이스 검색방법, 네비게이션 장치 및 인덱스 구조 생성 방법
US9720986B2 (en) Method and system for integrating data into a database
CN107203526B (zh) 一种查询串语义需求分析方法及装置
CN103714092A (zh) 一种地理位置的搜索方法和装置
CN113434623A (zh) 一种基于多源异构空间规划数据的融合方法
CN105608113B (zh) 判断文本中poi数据的方法及装置
CN110688434B (zh) 一种兴趣点处理方法、装置、设备和介质
CN111930793A (zh) 目标行为挖掘与检索分析方法、系统、计算机设备及应用
US8996501B2 (en) Optimally ranked nearest neighbor fuzzy full text search
CN110990651B (zh) 地址数据处理方法、装置、电子设备及计算机可读介质
CN113626558B (zh) 一种基于智能推荐的字段标准化的方法和系统
Wiseso et al. Performance analysis of Neo4j, MongoDB, and PostgreSQL on 2019 national election big data management database
CN114201480A (zh) 一种基于nlp技术的多源poi融合方法、装置及可读存储介质
CN113377893B (zh) Poi融合、poi融合阈值确定方法、装置、设备及介质
CN106959960B (zh) 数据获取方法及装置
CN116303870A (zh) 一种用于燃气管网数据治理的气量值映射方法与系统
CN111325235B (zh) 面向多语种的通用地名语义相似度计算方法及其应用
CN111428482B (zh) 一种信息识别方法和装置
CN114513550A (zh) 一种地理位置信息的处理方法、装置及电子设备
CN111460325B (zh) Poi搜索方法、装置与设备
CN113360789A (zh) 兴趣点数据处理方法、装置、电子设备及存储介质
CN109241208B (zh) 地址定位、地址监测、信息处理方法及装置
CN112069273A (zh) 地址文本的分类方法、装置、电子设备及存储介质
CN110968690A (zh) 词语的聚类划分方法和装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 110000 No. 861-6, shangshengou village, Hunnan District, Shenyang City, Liaoning Province

Applicant after: Shenyang Meihang Technology Co.,Ltd.

Address before: 110167 E06, international software park, No. 860-1, shangshengou, Hunnan New District, Shenyang City, Liaoning Province

Applicant before: SHENYANG MXNAVI Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant