CN116306638A

CN116306638A - Poi数据匹配方法、电子设备及存储介质

Info

Publication number: CN116306638A
Application number: CN202310572108.7A
Authority: CN
Inventors: 孟壮; 张茂洪; 陶闯; 裘靖宇
Original assignee: Shanghai Weizhi Zhuoxin Information Technology Co ltd
Current assignee: Shanghai Weizhi Zhuoxin Information Technology Co ltd
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-06-23
Anticipated expiration: 2043-05-22
Also published as: CN116306638B

Abstract

本申请实施例涉及电子地图技术领域，公开了一种POI数据匹配方法、电子设备及存储介质。其中的POI数据匹配方法包括获取第一POI数据与第二POI数据；对第一POI数据与第二POI数据中的文本进行分词；判断第一POI数据与第二POI数据是否存在名称文本，若第一POI数据与第二POI数据均存在名称文本，则计算第一POI数据中的名称文本与第二POI数据中的名称文本之间的相似度，并判断第一POI数据中的名称文本与第二POI数据中的名称文本之间的相似度是否超过阈值。本申请实施例提供的POI数据匹配方法、电子设备及存储介质，能够提升POI数据的匹配准确性。

Description

POI数据匹配方法、电子设备及存储介质

技术领域

本申请实施例涉及电子地图技术领域，特别涉及一种POI数据匹配方法、电子设备及存储介质。

背景技术

POI（point of interest，兴趣点），泛指互联网电子地图中的点类数据，它可以是一栋房子，一个旅游景点，一所学校，一个公交车站，一个ATM取款机，一个商铺等等。一般，一个点类数据通常包含名称、地址、坐标、类别四个属性方面的信息。同时，还有可能包含电话、评价等信息。

为了提高电子地图的数据丰富性，需要不断地更新POI数据所包含的信息，使得新产生的POI数据能够与原有的POI数据进行融合，从而为用户提供全面而周详的信息服务。而在进行POI数据的融合时，需要对不同的POI数据进行匹配，以便判断不同的POI数据是否需要进行融合。也就是说，匹配的准确性会影响到POI数据的融合。因此，如何提升POI数据的匹配准确性，是一个重要的问题。

发明内容

本申请实施方式的目的在于提供一种POI数据匹配方法、电子设备及存储介质，能够提升POI数据的匹配准确性。

为解决上述技术问题，本申请的实施方式提供了一种POI数据匹配方法，POI数据匹配方法包括：

获取第一POI数据与第二POI数据；

对第一POI数据与第二POI数据中的文本进行分词；

判断第一POI数据与第二POI数据是否存在名称文本，若第一POI数据与第二POI数据均存在名称文本，则计算第一POI数据中的名称文本与第二POI数据中的名称文本之间的相似度，并判断第一POI数据中的名称文本与第二POI数据中的名称文本之间的相似度是否超过阈值。

本申请的实施方式还提供了一种电子设备，电子设备包括处理器，以及与处理器通信连接的存储器，存储器存储有可被处理器执行的指令，指令被处理器执行，以使处理器能够执行上述的POI数据匹配方法。

本申请的实施方式还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述的POI数据匹配方法。

本申请的实施方式提供的POI数据匹配方法、电子设备及计算机可读存储介质，在对POI数据进行匹配时，根据各POI数据的文本分词结果，判断不同POI数据中的文本所包含的名称分词信息，再对不同POI数据的文本中所包含的名称文本进行相似度判断。这样，可以准确地定位出不同POI数据所指向的实体对象名称，避免了将不同POI数据做整体文本的相似度判断而带来的准确性较低的问题。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本申请一些实施例提供的POI数据匹配方法的流程图；

图2是本申请一些实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本申请各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本申请的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。

在本申请实施例的描述中，技术术语“第一”“第二”等仅用于区别不同对象，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

在本申请实施例的描述中，除非另有明确的规定和限定，技术术语“安装”“相连”“连接”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；也可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请实施例中的具体含义。

随着移动通信技术的快速发展，人们每天都面临着海量的数据，不断有新的数据产生。因此，数据融合的重要性也越来越高。通过数据融合，可以将来自不同数据源的数据，根据某一标准，结合成一个新的数据。在此基础上将信息传递给用户，以满足用户的需求。随着互联网的内容快速增长，用户对数据的要求更加全面准确，这也要求数据融合的准确性需要得到提升。

POI数据作为地理信息系统中用户日常需求较高的一类数据，可以用来表示各种不同的实体对象。为了使用户能够得到高质量的服务，需要不断融合更新POI数据，从而为用户提供路况介绍以及周边建筑的详细介绍，方便用户查询所要到达的地方的详尽信息，以便进行选择与规划。

POI数据融合时，需要对不同的POI数据进行匹配，以便判断不同的POI数据是否指向同一个实体对象，即属于同一POI。在对不同POI数据进行匹配的过程中，会使用到文本相似度的判断方法。但是，目前在对不同POI数据的文本进行相似度判断的过程中，通常以不同POI数据的整个文本为对象，进而通过一定的相似度判断方法，来实现不同POI数据之间的相似度判断。由于POI数据的文本中包含的信息较多，不仅包含名称、地址、类别等信息，还会包含电话、评价等其他信息，因此从整体文本的相似度判断上较难实现不同POI数据的匹配，会影响匹配的准确性。

为了提升不同POI数据匹配时的准确性，本申请一些实施例提供了一种POI数据匹配方法。在进行不同POI数据的匹配时，根据各POI数据的文本分词结果，判断不同POI数据中的文本所包含的分词信息，再对不同POI数据的文本中所包含的分词文本进行相似度判断。这样，避免了将两个POI数据做整体文本的相似度判断而带来的准确性较低的问题。

下面结合图1，说明本申请一些实施例提供的一种POI数据匹配方法。

如图1所示，本申请一些实施例提供的POI数据匹配方法，包括如下步骤：

步骤S100、获取第一POI数据与第二POI数据。

具体地，POI数据可以从不同数据提供方获取。POI数据可以包括地址、名称、经纬度等能够表示一个实体对象在电子地图上的具体信息的内容，也可以包括电话、评价等其他信息。通过POI数据，用户可以获取关于一个实体对象的具体信息。

步骤S200、对第一POI数据与第二POI数据中的文本进行分词。

具体地，POI数据中的文本在经过分词后，会被划分为不同的分词词语，而通过各分词词语所传达的内容，可以获知POI数据中包含了哪些具体信息。例如，POI数据在经过分词后，通过对分词词语所传达的信息的判断，可能包含名称、地址、类别、电话、评价等表示不同内容的分词词语。

在一些实施例中，步骤S200中的对第一POI数据与第二POI数据中的文本进行分词，可以包括如下步骤：

步骤S210、创建词典库，对词典库中的每个词语进行类型标注，类型包括名称、地址、类别和其他。

具体地，词典库中可以对POI数据中可能出现的具体词语进行类型标注，以便后续判断POI数据中文本的分词词语的所属类型。

步骤S220、依据第一POI数据与第二POI数据中文本的分词词语在词典库中所标注的类型，将第一POI数据与第二POI数据中文本的分词词语划分成不同类型。

具体地，不同的POI数据会包含不同的文本信息，并且，不同的POI数据的文本中表达同一信息内容的分词词语也可能会不同。因此，通过将不同的POI数据中文本的分词词语划分成不同类型，有利于后续进行不同POI数据之间的相似度判断。

另外，在完成分词类型划分后，还可以丢弃掉第一POI数据与第二POI数据的文本中属于其他类型的分词词语。这样，可以避免POI数据的文本中的其他词语对相似度计算的影响，降低计算量。

步骤S300、判断第一POI数据与第二POI数据是否存在名称文本，若第一POI数据与第二POI数据均存在名称文本，则计算第一POI数据中的名称文本与第二POI数据中的名称文本之间的相似度，并判断第一POI数据中的名称文本与第二POI数据中的名称文本之间的相似度是否超过阈值。

具体地，在文本相似度匹配的计算方法中，可以采用levenstein距离算法、jaro距离算法与jaccard相似方法。其中，levenstein距离算法是一种用于计算字符串编辑距离的算法，可以用来衡量两个字符串之间的相似性。jaro距离算法同样可以用来计算两个字符串之间的相似度，通过一定的匹配系数对两个字符串之间的相似度进行计算。jaccard相似方法可以通过两个字符串差异性与分散性的统计概率，来比较两个字符串的相似性。

同时，针对每种相似度计算方法，可以设置一定的阈值，来对两个POI数据是否匹配进行判断。如果两个POI数据在经过相似度计算后，计算结果超过阈值，那么则可以判断这两个POI数据在信息内容上属于同一个实体对象。进而可以对这两个POI数据在内容上进行融合，从而形成内容更加完整的POI融合数据。

通过定位不同POI数据文本中的名称信息，可以准确地获知POI数据所指向的实体对象。而通过计算两个POI数据中的名称文本之间的相似度，可以准确地判断出两个POI数据是否匹配。也就是说，当两个POI数据中的名称文本之间的相似度过高，即超过阈值时，可以判断出这两个POI数据属于同一个POI。进而可以对这两个POI数据进行融合。

例如，在一个POI数据包含“环东联华超市（环东路店）”的文本，另一个POI数据包含“张江镇环东联华”的文本时，通过判断两个POI数据中的名称文本环东与联华之间的相似度，可以准确地判断出这两个POI数据属于同一个POI。

实际情形中，“环东联华超市（环东路店）”的文本在分词时会被分为：

“环东联华超市环东路店”。

其中，环东与联华会被划分为名称类型，超市会被划分为类别类型，环东路点会被划分为地址类型。

而“张江镇环东联华”的文本在分词时会被分为：

“张江镇环东联华”。

其中，张江镇会被划分为地址类型，环东与联华会被分为名称类型。

这样，通过一定的相似度判断方式，可以获知这两个文本表示的是同一个实体对象。

另外，若第一POI数据与第二POI数据中仅有一者存在名称文本，则第一POI数据与第二POI数据之间的相似度为0。也就是说，当部分POI数据不存在名称文本时，则无需进行融合，而直接判断两个POI数据互不关联。

本申请一些实施例提供的POI数据匹配方法，在对POI数据进行匹配时，根据各POI数据的文本分词结果，判断不同POI数据中的文本所包含的名称分词信息，再对不同POI数据的文本中所包含的名称文本进行相似度判断。这样，可以准确地定位出不同POI数据所指向的实体对象名称，避免了将不同POI数据做整体文本的相似度判断而带来的准确性较低的问题。

在本申请的一些实施例中，可以采用jaccard相似方法来进行文本之间的相似度判断。具体地，步骤S300中的计算第一POI数据中的名称文本与第二POI数据中的名称文本之间的相似度，可以包括如下步骤：

步骤S310、提取第一POI数据中的名称文本形成第一数据集。

步骤S320、提取第二POI数据中的名称文本形成第二数据集。

步骤S330、将第一数据集与第二数据集的交集数量值除以二者的并集数量值，得到第一POI数据中的名称文本与第二POI数据中的名称文本之间的相似度。

例如，在“环东联华超市（环东路店）”的文本中，分词后形成的名称文本包含环东与联华。也就是说，由提取的名称文本所形成的数据集中包含环东与联华两个元素。在“张江镇环东联华”的文本中，分词后形成的名称文本同样包含环东与联华，由此形成的数据集中同样包含环东与联华两个元素。那么，在计算二者的名称文本的相似度时，可以看出由二者的名称文本所形成的数量集的交集数量值为2，由二者的名称文本所形成的数量集的并集数量值也为2。即二者的名称文本之间的相似度为1，说明二者的文本表达了同一POI信息。

在本申请的一些实施例中，为了提高文本相似度的准确性，还可以对POI数据中文本的分词词语的相似度进行单独判断。这样一来，可以避免在匹配时剔除构成不同但表达同一信息的分词词语所带来的相似度计算误差。

具体地，在步骤S320中的提取第二POI数据中的名称文本形成第二数据集之后，以及在步骤S330中的将第一数据集与第二数据集的交集数量值除以二者的并集数量值之前，还包括如下步骤：

步骤i、对第一数据集与第二数据集作笛卡尔积，形成不同的数据组。

步骤ii、计算各数据组中的两个名称文本之间的相似度。

步骤iii、判断各数据组中的两个名称文本之间的相似度是否超过预设值，若某一数据组中的两个名称文本之间的相似度超过预设值，则将第一数据集与第二数据集的交集数量值加一，将第一数据集与第二数据集的并集数量值减一。

例如，第一数据集A包括“炬芯、维智、icbc”三个元素，第二数据集包括“炬创芯、维智”两个元素。在采用jaccard相似方法计算第一数据集A与第二数据集B之间的相似度时，两个数据集的交集结果为“维智”，两个数据集的并集结果为“炬芯、维智、icbc、炬创芯”。也就是说，第一数据集A与第二数据集B之间的相似度为1/4。但是，这种计算方式忽略了“炬芯”与“炬创芯”之间的相似性。在实际情形中，可能存在忽略了词语构成不同但实际指向同一信息内容的情况。

因此，可以加入对数据集内的分词词语元素之间的相似度进行判断。也就是说，第一数据集A与第二数据集B在作笛卡尔积，形成不同的数据组后，会出现包含“炬芯、炬创芯”的数据组。此时，可以对该数据组内的两个分词词语的相似度进行判断。判断方式可以采用jaccard相似方法。同样，可以设定一个预设值，以判断某一数据组内的两个分词词语元素是否指向同一信息。若判断出“炬芯”与“炬创芯”指向同一信息时，那么此时第一数据集A与第二数据集B的交集数量值为2，第一数据集A与第二数据集B的并集数量值为3，第一数据集A与第二数据集B之间的相似度为2/3。这样，可以提高两个POI数据相似度判断结果的准确性。

在本申请的一些实施例中，在步骤S200中的对第一POI数据与第二POI数据中的文本进行分词之后，还可以包括如下步骤：

判断第一POI数据与第二POI数据是否存在类别文本，若第一POI数据与第二POI数据中均存在类别文本，则判断第一POI数据与第二POI数据中的类别文本是否存在交集；若第一POI数据与第二POI数据中的类别文本存在交集，则判断第一POI数据与第二POI数据是否存在名称文本；若第一POI数据与第二POI数据中的类别文本不存在交集，则第一POI数据与第二POI数据之间的相似度为0。

也就是说，在进行不同POI数据的名称文本之间的相似度判断之前，还可以通过各POI数据的类别文本提前进行匹配筛选。例如，在两个POI数据均存在“超市”这个类别文本时，那么可以通过两个POI数据的名称文本之间的相似度来判断两个POI数据是否匹配。在一个POI数据存在“超市”类别文本，而另一个POI数据存在“学校”类别文本时，可以直接判断这两个POI数据互不关联。

在本申请的一些实施例中，在步骤S300中的计算第一POI数据中的名称文本与第二POI数据中的名称文本之间的相似度之前，还可以包括如下步骤：

判断第一POI数据与第二POI数据是否存在属于同一品牌的名称文本，若第一POI数据与第二POI数据中存在属于同一品牌的名称文本，则第一POI数据与第二POI数据之间的相似度为1。

也就是说，对于不同的POI数据，若存在属于同一品牌的名称文本，则说明虽然在文本的分词词语构成上会存在不同，但实际却是指向同一个POI。因此，可以通过不同POI数据中是否存在属于同一品牌的名称文本，来快速判断不同POI数据之间的相似度。

如图2所示，本申请一些实施例还提供了一种电子设备，电子设备包括处理器101和与处理器101通信连接的存储器102，存储器102存储有可被处理器执行的指令，指令被处理器101执行，以使处理器101能够执行上述的POI数据匹配方法。

其中，存储器102和处理器101采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器101和存储器102的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器101处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器101。

处理器101负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器102可以被用于存储处理器101在执行操作时所使用的数据。

本申请一些实施例还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述的POI数据匹配方法。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本申请的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种POI数据匹配方法，其特征在于，包括：

获取第一POI数据与第二POI数据；

对所述第一POI数据与所述第二POI数据中的文本进行分词；

判断所述第一POI数据与所述第二POI数据是否存在类别文本，若所述第一POI数据与所述第二POI数据中均存在类别文本，则判断所述第一POI数据与所述第二POI数据中的类别文本是否存在交集；

若所述第一POI数据与所述第二POI数据中的类别文本存在交集，则判断所述第一POI数据与所述第二POI数据是否存在名称文本；

若所述第一POI数据与所述第二POI数据均存在名称文本，则计算所述第一POI数据中的名称文本与所述第二POI数据中的名称文本之间的相似度，并判断所述第一POI数据中的名称文本与所述第二POI数据中的名称文本之间的相似度是否超过阈值。

2.根据权利要求1所述的POI数据匹配方法，其特征在于，所述计算所述第一POI数据中的名称文本与所述第二POI数据中的名称文本之间的相似度，包括：

提取所述第一POI数据中的名称文本形成第一数据集；

提取所述第二POI数据中的名称文本形成第二数据集；

将所述第一数据集与所述第二数据集的交集数量值除以二者的并集数量值，得到所述第一POI数据中的名称文本与所述第二POI数据中的名称文本之间的相似度。

3.根据权利要求2所述的POI数据匹配方法，其特征在于，在所述提取所述第二POI数据中的名称文本形成第二数据集之后，所述将所述第一数据集与所述第二数据集的交集数量值除以二者的并集数量值之前，还包括：

对所述第一数据集与所述第二数据集作笛卡尔积，形成不同的数据组；

计算各数据组中的两个名称文本之间的相似度；

判断各数据组中的两个名称文本之间的相似度是否超过预设值，若某一所述数据组中的两个名称文本之间的相似度超过所述预设值，则将所述第一数据集与所述第二数据集的交集数量值加一，将所述第一数据集与所述第二数据集的并集数量值减一。

4.根据权利要求1所述的POI数据匹配方法，其特征在于，若所述第一POI数据与所述第二POI数据中的类别文本不存在交集，则所述第一POI数据与所述第二POI数据之间的相似度为0。

5.根据权利要求1所述的POI数据匹配方法，其特征在于，若所述第一POI数据与所述第二POI数据中仅有一者存在名称文本，则所述第一POI数据与所述第二POI数据之间的相似度为0。

6.根据权利要求1所述的POI数据匹配方法，其特征在于，在所述计算所述第一POI数据中的名称文本与所述第二POI数据中的名称文本之间的相似度之前，还包括：

判断所述第一POI数据与所述第二POI数据中是否存在属于同一品牌的名称文本，若所述第一POI数据与所述第二POI数据中存在属于同一品牌的名称文本，则所述第一POI数据与所述第二POI数据之间的相似度为1。

7.根据权利要求6所述的POI数据匹配方法，其特征在于，所述对所述第一POI数据与所述第二POI数据中的文本进行分词，包括：

创建词典库，对所述词典库中的每个词语进行类型标注，所述类型包括名称、地址、类别和其他；

依据所述第一POI数据与所述第二POI数据中文本的分词词语在所述词典库中所标注的类型，将所述第一POI数据与所述第二POI数据中文本的分词词语划分成不同类型。

8.根据权利要求7所述的POI数据匹配方法，其特征在于，在所述将所述第一POI数据与所述第二POI数据中文本的分词词语划分成不同类型之后，还包括：

丢弃所述第一POI数据与所述第二POI数据的文本中属于其他类型的分词词语。

9.一种电子设备，其特征在于，包括：

处理器；

与所述处理器通信连接的存储器，所述存储器存储有可被所述处理器执行的指令，所述指令被所述处理器执行，以使所述处理器能够执行如权利要求1至8任一项所述的POI数据匹配方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的POI数据匹配方法。