CN105808609B - 一种信息点数据冗余的判别方法和设备 - Google Patents

一种信息点数据冗余的判别方法和设备 Download PDF

Info

Publication number
CN105808609B
CN105808609B CN201410854997.7A CN201410854997A CN105808609B CN 105808609 B CN105808609 B CN 105808609B CN 201410854997 A CN201410854997 A CN 201410854997A CN 105808609 B CN105808609 B CN 105808609B
Authority
CN
China
Prior art keywords
poi
address
pois
similarity
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410854997.7A
Other languages
English (en)
Other versions
CN105808609A (zh
Inventor
杨自华
张文斗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Autonavi Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Autonavi Software Co Ltd filed Critical Autonavi Software Co Ltd
Priority to CN201410854997.7A priority Critical patent/CN105808609B/zh
Publication of CN105808609A publication Critical patent/CN105808609A/zh
Application granted granted Critical
Publication of CN105808609B publication Critical patent/CN105808609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息点数据冗余的判别方法和设备,内容包括:将电子地图数据库中的POI进行两两配对;针对每个配对,执行以下步骤:根据所述配对中两个POI的经纬度坐标,计算两个POI的距离;判断所述距离是否大于等于预置的距离阈值;若是,则确定该两个POI不为冗余数据;若否,则根据该两个POI的属性信息计算POI相似度,并判断POI相似度是否大于等于预置的相似度阈值,若是则确定两个POI为冗余数据,若否则确定两个POI不为冗余数据。本方案能够在数据融合阶段确定出配对的两个POI数据是否是冗余数据,不仅减少了POI存储的数据量,而且还能够节省POI占用的存储资源,改善系统的性能。

Description

一种信息点数据冗余的判别方法和设备
技术领域
本发明涉及导航电子地图技术领域,尤其涉及一种信息点(POI,Point ofInterest)数据冗余的判别方法和设备。
背景技术
随着科学技术的发展,人们对数据量的需求越来越多,海量数据随之产生。例如:导航电子地图中的POI,一个POI的属性信息主要包括以下内容:名称、地址、类别(如酒店、医院、加油站、停车场、餐饮等)、位置(例如:经纬度坐标)、电话、营业时间、周围环境(例如:附近的酒店、饭店、商铺等)等。
但是,由于获取POI数据的数据来源较多,如现场采集、第三方购买、网络抓取等,不同的来源数据其数据格式、文字描述等存在差异,因此,很有可能存在描述同一POI的不同来源的POI数据存在差异,从而导致在电子地图数据库中针对同一个POI存储有多条POI数据,如某一个位于望京街的肯德基店,用于描述该POI的多条POI可能分别为“肯德基(望京店)”、“望京街**号肯德基”、“望京国际商业中心B座肯德基店”,从而导致POI数据大量冗余,如何能够将电子地图数据库中的冗余POI数据识别出来,则成为目前亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种信息点数据冗余的判别方法和设备,用于解决现有技术中信息点数据冗余较为严重的问题。
一种信息点数据冗余的判别方法,包括:
将电子地图数据库中的POI进行两两配对;
针对每个配对,执行以下步骤:
根据所述配对中两个POI的经纬度坐标,计算两个POI的距离;
判断所述两个POI的距离是否大于等于预置的距离阈值;
若是,则确定所述配对中的两个POI不为冗余数据;
若否,则根据所述配对中的两个POI的属性信息计算POI相似度,并判断所述POI相似度是否大于等于预置的相似度阈值,若是则确定所述两个POI为冗余数据,若否则确定所述两个POI不为冗余数据。
一种信息点数据冗余的判别设备,包括:
匹配单元,用于将电子地图数据库中的POI进行两两配对;
距离计算单元,用于针对每个配对,根据所述配对中两个POI的经纬度坐标,计算两个POI的距离,并触发判断单元;
所述判断单元,用于判断所述两个POI的距离是否大于等于预置的距离阈值;若是,则确定所述配对中的两个POI不为冗余数据;若否,则触发所述相似判决单元;
所述相似判决单元,用于根据所述配对中的两个POI的属性信息计算POI相似度,并判断所述POI相似度是否大于等于预置的相似度阈值,若是则确定所述两个POI为冗余数据,若否则确定所述两个POI不为冗余数据。
本发明有益效果如下:
本发明实施例通过将电子地图数据库中的POI进行两两配对;针对每个配对,执行以下步骤:根据所述配对中两个POI的经纬度坐标,计算两个POI的距离;判断所述两个POI的距离是否大于等于预置的距离阈值;若是,则确定所述配对中的两个POI不为冗余数据;若否,则根据所述配对中的两个POI的属性信息计算POI相似度,并判断所述POI相似度是否大于等于预置的相似度阈值,若是则确定所述两个POI为冗余数据,若否则确定所述两个POI不为冗余数据。本方案能够确定出电子地图数据库中的POI冗余数据,通过对电子地图数据库中的POI进行冗余判别,在确定出属于冗余数据的多个POI时,及时将冗余的POI进行合并,不仅减少了POI存储的数据量,而且还能够节省POI占用的存储资源,改善系统的性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1A为本发明实施例中信息点数据冗余的判别方法的流程图之一;
图1B为本发明实施例中信息点数据冗余的判断方法的流程图之二;
图2A为本发明实施例中信息点数据冗余的判别设备的结构示意图之一;
图2B为本发明实施例中信息点数据冗余的判别设备的结构示意图之二。
具体实施方式
为了实现本发明的目的,本发明实施例提供了一种信息点数据冗余的判别方法和设备,将电子地图数据库中的POI进行两两配对;针对每个配对,执行以下步骤:根据所述配对中两个POI的经纬度坐标,计算两个POI的距离;判断所述两个POI的距离是否大于等于预置的距离阈值;若是,则确定所述配对中的两个POI不为冗余数据;若否,则根据所述配对中的两个POI的属性信息计算POI相似度,并判断所述POI相似度是否大于等于预置的相似度阈值,若是则确定所述两个POI为冗余数据,若否则确定所述两个POI不为冗余数据,本方案能够确定出电子地图数据库中的POI冗余数据,通过对电子地图数据库中的POI进行冗余判别,在确定出属于冗余数据的多个POI时,及时将冗余的POI进行合并,不仅减少了POI存储的数据量,而且还能够节省POI占用的存储资源,改善系统的性能。
需要说明的是,本发明实施例的信息点数据冗余的判别方法主要可以应用于:导航POI数据库生产及更新时排重;第三方数据融合时排重、融合同时获取别名信息;客户端上传时排重;检索时的结果排重;人为错误(如错字等)造成的数据冗余排重;可以减少大量人工排重的工作,同时由于程序运算效率高,可以适用于大数据处理过程中的海量信息点数据冗余的判决运算中。
下面结合说明书附图对本发明各个实施例作进一步地详细描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一:
如图1A所示,为本发明实施例一提供的一种信息点数据冗余的判决方法的流程示意图,所述方法可以如下所述。
步骤101:将电子地图数据库中的POI进行两两配对。
针对每个配对,执行以下步骤102~步骤108:
步骤102:根据所述配对中两个POI的经纬度坐标,计算两个POI的距离;
步骤103:判断所述两个POI的距离是否大于等于预置的距离阈值,若是,则执行步骤104,若否则执行步骤105;
步骤104:确定所述配对中的两个POI不为冗余数据;
步骤105:根据所述配对中的两个POI的属性信息计算POI相似度;
步骤106:判断所述POI相似度是否大于等于预置的相似度阈值,若是则执行步骤107,若否则执行步骤108;
步骤107:确定所述两个POI为冗余数据;
步骤108:确定所述两个POI不为冗余数据。
其中步骤104、步骤107和步骤108之后,针对下一配对重新执行步骤102。
优选地,本发明实施例,为进一步提高POI冗余判断的准确性,本发明实施例中,还可以在前述图1A所示的方法流程的步骤101之前,还包括步骤100,如图1B所示:
步骤100:对所述电子地图数据库中的POI的属性信息进行预处理。
本发明实施例中,所述POI的属性信息至少包括以下属性信息中的一种:
POI名称、POI地址、电话号码、POI类型。前述步骤100中,对POI的属性信息中的POI名称进行预处理,具体包括:
步骤a1、根据预置的行政区划前缀表,确定POI名称是否包含名称前缀,若包含则记录POI名称的名称前缀以及名称前缀标识。
具体地,对于电子数据库中的POI,在确定该POI中包含POI名称时,根据预置的行政区划前缀表,确定该POI中包含的POI名称是否包含行政区划前缀,若该POI中包含的POI名称中包含行政区划前缀,则记录该POI中包含的POI名称中包含的行政区划前缀,并确定该行政区划前缀的标识。
例如:POI为“北京市海龙大厦”,其中,“北京市”为该POI的行政区划前缀,并记录“北京市”的标识。
这里涉及到的行政区划前缀可以是多个。
需要说明的是,在判断POI中包含的POI名称是否包含行政区划前缀的过程中,若确定POI名称中包含至少两个行政区划前缀,例如“北京市湖北大厦”中出现的“北京市”和“湖北”,此时,以首先出现的行政区划前缀作为该POI的名称前缀,并将该行政区划前缀的标识作为该POI的名称前缀标识,即将“北京市”的标识作为“北京市湖北大厦”的名称前缀标识。
如表1所示,为一张预置的行政区划前缀表:
行政区划前缀 标识 行政区划前缀 标识
安阳 100009 巴中 100013
安阳市 100009 巴中市 100013
林州市 100009 平昌县 100013
安阳县 100009 南江县 100013
内黄县 100009 通江县 100013
汤阴县 100009 巴州区 100013
滑县 100009
表1
步骤a2、根据预置的后缀表,确定POI名称是否包含名称后缀,若包含则记录POI名称的名称后缀以及名称后缀标识。
具体地,按照末端最大匹配规则,将POI中包含的POI名称的末端文字与后缀表进行匹配,根据匹配结果确定该POI中包含的POI名称中是否包含名称后缀。若匹配结果是该POI中包含的POI名称中包含名称后缀,则记录POI名称的名称后缀以及名称后缀标识。
如表2所示,为一张预置的后缀表:
Figure BDA0000650486160000061
表2
例如:若POI为“高德软件公司”,将该POI的末端文字与后缀表进行匹配,匹配的结果是该POI中包含“公司”,那么记录该POI的名称后缀以及“公司”对应的名称后缀标识;若POI为“高德软件有限公司”,将该POI的末端文字与后缀表进行匹配,匹配的结果是该POI中包含“有限公司”,那么记录该POI的名称后缀以及“有限公司”对应的名称后缀标识。
步骤a3、判断所述POI名称中是否包含括号,若包含则将括号及括号内的内容从POI名称中删除,并记录括号内容。
具体地,若POI名称中包含括号,且括号在POI名称的结尾,则将括号以及括号内的内容删除,并记录括号内的内容。
例如:“海龙大厦(中关村大街)”,预处理之后变成“海龙大厦”,并记录“中关村大街”。
步骤a4、根据预置的连锁店名称表,判断POI名称中是否包含连锁店名称,若包含则将该连锁点名称替换为所述POI名称。
具体地,将POI的POI名称与连锁店名称表进行比较,若比较结果是该POI的POI名称中包含连锁店名称,则将匹配到的连锁店名称替换该POI名称。
例如:若POI名称为“肯德基餐饮有限公司”或“肯德基餐厅”,该POI名称中包含连锁店名称“肯德基”,则将POI名称“肯德基餐饮有限公司”或“肯德基餐厅”替换成为“肯德基”。
如表3所示,为一张预置的名称连锁店名称表:
名称连锁店数据 标识 名称连锁店数据 标识
肯德基 100001 九头鹰 100005
麦当劳 100002 必胜客 100006
海底捞 100003 俏江南 100007
东来顺 100004
表3
需要说明的是,若连锁店名称出现POI名称中包含的括号之中,此时,将括号以及括号内的连锁店名称删除,并记录括号内的连锁店名称,并不需要将匹配到的连锁店名称替换该POI名称。
例如:“海龙大厦(肯德基XXX店旁)”,预处理之后变成“海龙大厦”,并记录“肯德基XXX店旁”。
需要说明的是,在对POI数据的名称数据进行预处理时,对于名称连锁店数据的处理方式可以放置在名称前缀处理以及名称后缀处理之后进行。
步骤a5、根据预置的同义词简称表,判断POI名称中是否包含同义词或简称词,若包含,则用同义词简称表中与该同义词或简称词对应的默认词替换POI名称中的相应同义词或简称词。
具体地,将POI的POI名称与同义词简称表进行匹配,判断POI名称中是否存在同义词或简称部分,若存在,则利用同义词简称表中定义的默认值代替该POI中包含的POI名称中的同义词部分,保持其他部分不变。
如表4所示,为一张预置的同义词简称表:
同义词/简称词 标识 默认值
中国科学研究院 100001 Y
中科院 100001
中国科学院 100001
咨询 100002 Y
资讯 100002
表4
表4中,标识为默认值Y的词为与该词同义或为该词的简称词的默认词,如POI名称为“北京市中科院”,则该POI名称中包含简称词“中科院”,则利用该简称词对应的默认词“中国科学研究院”替换POI名称中的简称词,将POI名称预处理为“北京中国科学研究院”。
步骤a6、根据预置的名称别名表,判断POI名称中是否包含别名词,若包含则将名称别名表中与该别名词对应的默认词替换所述POI名称中的相应别名词。
具体地,将POI的POI名称与名称别名表进行匹配,判断POI名称中是否存在别名词,若存在,则利用别名表中定义的默认值代替该POI名称中的别名词,保持其他部分不变。
如表5所示,为一张预置的别名表:
别名 标识 默认值
国家体育场 100003 Y
鸟巢 100003
北京师范大学 Y
北师大
表5
表5中,标识为默认值Y的词为该词的别名词的默认词,如POI名称为“北京市海淀区北师大”,则该POI名称中包含别名词“北师大”,则利用该别名词的默认词“北京师范大学”替换POI名称中的别名词,将POI名称预处理为“北京市海淀区北京师范大学”。
优选地,为进一步提高对POI名称进行预处理的准确性,本发明实施例中在对POI的POI名称进行预处理之前,还需要对POI中包含的POI名称的有效性进行检验、全角半角字体转换、繁简字体转换等预处理。
具体地,步骤100中对POI的属性信息中的POI地址进行预处理,具体包括:
步骤b1、根据预置的行政区划前缀表,确定POI地址是否包含地址前缀,若包含则记录POI地址的地址前缀以及地址前缀标识。
这里的判断方式与POI名称是否包含名称前缀的方式相同,这里不做详细描述。
例如:POI地址为“北京市北四环西路”,进行地址前缀预处理之后,确定POI地址的地址前缀为“北京市”。
本发明实施例中,POI地址可能会同时包含多个行政区划前缀。在判断POI地址中包含的地址前缀中是否包含行政区划前缀的过程中,若POI地址中包含至少两个行政区划前缀,例如“上海市南京路25号”中出现的“上海市”和“南京”,此时,以首先出现的行政区划前缀作为该POI地址的地址前缀,并将该行政区划前缀的标识作为该POI的地址前缀标识,即将“上海市”的标识作为“上海市南京路25号”的地址前缀标识。
步骤b2、判断所述POI地址中是否包含括号,若包含则将括号及括号内的内容从POI地址中删除。
步骤b3、根据预置的同义词简称表,判断POI地址中是否包含同义词或简称词,若包含,则用同义词简称表中与该同义词或简称词对应的默认词替换POI地址中的相应同义词或简称词。
步骤b4、根据预置的地址别名表,判断POI地址中是否包含别名词,若包含则将地址别名表中与该别名词对应的默认词替换所述POI地址中相应的别名词。
需要说明的是,对于POI地址中是否包含括号、是否包含同义词、是否包含别名词的处理方式与POI中包含的POI名称中是否包含括号、是否包含同义词、是否包含别名词的处理方式,与前述对POI名称进行预处理的方式相同,这里不做具体描述。
优选地,为进一步提高对POI地址进行预处理的准确性,本发明实施例在对POI地址进行预处理之前,还需要对POI地址的有效性进行检验、全角半角字体转换、繁简字体转换等处理。
具体地,步骤100中对POI属性信息中的电话号码进行预处理,具体包括:
将POI的电话号码按照预置的电话号码格式进行转换。
具体地,将POI的电话号码的格式进行转换,变换成统一格式。
具体地,步骤101中将电子地图数据库中的POI进行两两配对,主要包括:
从电子地图数据库中选择任意两个POI,确定该两个POI是否为冗余数据的操作。如电子地图数据库中包括POI1、POI2、POI3、POI4,则对该电子地图数据库中的POI进行两两配对的结果为:POI1和POI2,POI1和POI3,POI1和POI4,POI2和POI3,POI2和POI4,POI3和POI4。
在步骤105中,当属性信息包括POI名称时,计算所述两个POI的名称相似度;当属性信息包括POI地址时,计算所述两个POI的地址相似度;当所述属性信息包括电话号码时,计算所述两个POI的电话号码相似度;当所述属性信息包括POI类型时,计算所述两个POI的类型相似度。
具体地,本发明实施例中计算所述两个POI的名称相似度,具体包括:判断所述两个POI的名称前缀标识是否一致;若不一致,则确定两个POI的名称相似度为0;若一致,则确定两个POI的名称前缀相似度为1,并计算两个POI的主体相似度、名称后缀相似度、括号内容相似度,并根据所述主体相似度、名称后缀相似度、括号内容相似度计算所述两个POI的名称相似度。其中,所述主体是指POI名称中除名称前缀、名称后缀和括号内容之外的部分内容。
具体地,由于POI名称前缀的个数不确定,可能多个、也可能一个或者也可能没有名称前缀,判断所述两个POI的名称前缀标识是否一致时,包括以下几种情况:
情况1:两个POI名称均包含名称前缀,若两个POI名称的名称前缀标识相同则确定两个POI名称前缀一致,若两个POI名称的名称前缀标识不相同则确定两个POI名称前缀不一致;
情况2、当两个POI名称,其中一个POI名称包含名称前缀,另外一个不包含名称前缀,则确定两个POI名称前缀一致。
情况3、当两个POI名称均不包含名称前缀,则确定两个POI名称前缀一致。
具体地,在确定两个POI的名称前缀相似度为1时,计算两个POI的主体相似度、名称后缀相似度、括号内容相似度,并根据所述主体相似度、名称后缀相似度、括号内容相似度计算所述两个POI的名称相似度。
计算两个POI的名称后缀相似度,包括:判断所述两个POI的名称后缀标识是否一致,若一致,则确定所述两个POI的名称后缀相似度为1;若不一致,则确定所述两个POI的名称后缀相似度为0。
判断所述两个POI的名称后缀标识是否一致时,包括以下几种情况:
情况1:两个POI名称均包含名称后缀,若两个POI名称的名称后缀标识相同则确定两个POI名称后缀一致,若两个POI名称的名称后缀标识不相同则确定两个POI名称后缀不一致;
情况2、当两个POI名称,其中一个POI名称包含名称后缀,另外一个不包含名称后缀,则确定两个POI名称后缀一致。
情况3、当两个POI名称均不包含名称后缀,则确定两个POI名称后缀一致。
具体地,所述两个POI的POI名称中的括号内容的相似度,通过以下公式计算得到:
Figure BDA0000650486160000121
其中,A表示两个POI中的其中一个POI的名称中的括号内容,|A|表示A的字符串长度,B表示另外一个POI的名称中的括号内容,|B|表示B的字符串长度,Edit(A,B)表示利用编辑距离方式得到的A与B之间的编辑距离值。
具体地,所述计算所述两个POI的主体相似度,具体可通过以下公式得到:
Figure BDA0000650486160000122
其中,α是预置的加权调和系数(例如:取值为0.8,这里不限),S1为基于编辑距离计算的所述两个POI的POI名称的主体相似度,具体为
Figure BDA0000650486160000123
A表示两个POI中的其中一个POI的名称中的主体内容,|A|表示A的字符串长度,B表示另外一个POI的名称中的主体内容,|B|表示B的字符串长度,Edit(A,B)表示利用编辑距离方式得到的A与所述B之间的编辑距离值,S2为基于Jaccard系数计算的所述两个POI的POI名称的主体相似度,具体为
Figure BDA0000650486160000131
A∩B表示A与B中相同的字符集,|A∩B|表示A∩B的字符集中字符的个数,A∪B表示A与B的所有字符集,|A∪B|表示A∪B的字符集中字符的个数。
需要说明的是,编辑距离是指一个字符串经过插入和删除操作变成另一字符串的最少操作次数。
例如:A对应的字符串为abcd,B对应的字符串为abdd,那么|A|=4,|B|=4,Edit(A,B)=2,|A∩B|=3,|A∪B|=4。
在计算得到所述两个POI的主体相似度、名称后缀相似度、括号内容相似度时,通过以下方式计算得到所述两个POI的名称相似度:
S名称=S后缀*w后缀权重+S主体*w主体权重+S括号内容*w括号内容权重
其中,S名称表示所述两个POI的名称相似度,S后缀表示所述两个POI的名称后缀相似度,S主体表示所述两个POI的主体相似度,S括号内容表示所述两个POI的括号内容相似度,w后缀权重表示所述两个POI的名称后缀相似度的权重值,w主体权重表示所述两个POI的主体相似度的权重值,w括号内容权重表示所述两个POI的括号内容相似度的权重值,其中,w后缀权重+w主体权重+w括号内容权重=1。
需要说明的是,各个权重值可以根据经验确定,也可以根据实际需要确定,这里不做限定,但是一般“主体权重”的权重值取值较大,高于“后缀权重”以及“括号内容权重”。
例如:“主体权重”对应的权重值为0.8,“后缀权重”对应的权重值为0.1,括号内容权重”对应的权重值为0.1等。
本发明实施例中,计算所述两个POI的地址相似度,具体包括:判断所述两个POI的地址前缀标识是否一致;若不一致,则确定两个POI的地址相似度为0;若一致,则确定两个POI的地址前缀相似度为1,并计算两个POI的主体相似度、地址子序列相似度,并根据主体相似度、地址子序列相似度计算所述两个POI的地址相似度。其中,所述主体是指POI地址中除地址前缀、地址后缀和括号内容之外的部分内容。
具体地,由于POI地址前缀的个数不确定,可能多个、也可能一个或者也可能没有地址前缀,在判断所述两个POI的地址前缀标识是否一致时,包括以下几种情况:
情况1:两个POI地址均包含地址前缀,若两个POI地址的地址前缀标识相同则确定两个POI地址前缀一致,若两个POI地址的地址前缀标识不相同则确定两个POI地址前缀不一致;
情况2、当两个POI地址,其中一个POI地址包含地址前缀,另外一个不包含地址前缀,则确定两个POI地址前缀一致。
情况3、当两个POI地址均不包含地址前缀,则确定两个POI地址前缀一致。
具体地,在确定两个POI的地址前缀相似度为1,计算两个POI的主体相似度、地址子序列相似度,并根据主体相似度、地址子序列相似度计算所述两个POI的地址相似度。
由于POI的POI地址在进行预处理时,除了POI地址的地址前缀、和地址后缀之外的部分可以被视为POI地址的主体。
具体地,计算两个POI地址的主体相似度,可通过以下公式计算得到:
Figure BDA0000650486160000141
其中SMiddA(A,B)为两个POI对应的主体相似度,A为两个POI地址中的其中一个POI地址的主体,B为另一个POI地址的主体,m为对主体A进行分词得到的地址元素的数目,n为对主体B进行分词得到的地址元素的数目,ai为主体A中第i个地址元素与主体B中各地址元素的相似度中的最大相似度,bj为主体B中第j个地址元素与主体A中各地址元素的相似度中的最大相似度;其中,主体A与主体B中的地址元素的相似度根据下式得到:
Figure BDA0000650486160000151
其中,S(Ai,Bj)表示主体A中第i个地址元素与主体B中第j个地址元素的相似度,|Ai|和|Bj|分别为地址元素Ai与Bj的长度,Edit(Ai,Bj)为地址元素Ai与Bj的编辑距离。
需要时说明的是,两个POI的POI地址之间可能存在一个包含关系,因此,在计算两个POI的主体相似度之外,还需要计算两个POI的地址子序列相似度。
需要说明的是,地址子序列是指一个地址字符串中包含另一个地址字符串,即两个POI中一个POI的POI地址中地址字符串包含另一个POI的POI地址中的地址字符串。
本发明实施例中,计算两个POI的地址子序列相似度,具体包括:
判断所述两个POI的POI地址中,是否存在其中一个POI的地址完全包含在另一个POI的地址中,若是则确定所述两个POI的地址子序列相似度为1,若否则确定所述两个POI的地址子序列相似度为0。
例如:两个POI地址分别为“中关村大街135”与“中关村大街35号”,该两个POI地址之间不存在包含关系,两个POI地址的地址子序列的相似度为0。
在计算得到两个POI的主体相似度、地址子序列相似度时,根据主体相似度、地址子序列相似度计算所述两个POI的地址相似度,包括:
当所述两个POI的地址子序列相似度为0时,计算所述两个POI的地址相似度为计算得到的两个POI的主体相似度;
当所述两个POI的地址子序列相似度为1时,通过以下方式得到所述两个POI的地址相似度:
Figure BDA0000650486160000152
其中,SMiddA(A,B)表示所述两个POI的主体相似度,S地址子序列表示所述两个POI的地址子序列相似度,取值为1,
Figure BDA0000650486160000161
表示所述两个POI的主体相似度的权重值,w地址子序列权重表示所述两个POI的地址子序列相似度的权重值,其中,
Figure BDA0000650486160000162
需要说明的是,“MiddA权重”对应的权重值和“地址子序列权重”对应的权重值可以根据实际需要确定,还可以根据经验值确定,这里不做限定。例如:“MiddA权重”对应的权重值为0.6,“地址子序列权重”对应的权重值为0.4。
本发明实施例中,计算所述两个POI的电话号码相似度,具体包括:判断所述两个POI的电话号码是否一致;若一致,则确定两个POI的电话号码相似度为1;若不一致,则确定两个POI的电话号码相似度为0。
本发明实施例中,计算所述两个POI的类型相似度,具体包括:判断所述两个POI的POI类型是否一致;若一致,则确定两个POI的类型相似度为1;若不一致,则确定两个POI的类型相似度为0。
本发明实施例中,计算两个POI的POI相似度,根据其包含的属性信息的相似度计算得到,即将包含的属性信息的相似度与该属性信息对应的权重值的乘积值的和值确定为两个POI的POI相似度,其中属性信息对应的权重值的和值为1。以属性信息包括名称、地址、电话号码和类型为例,根据计算得到名称相似度、地址相似度、电话号码相似度、类型相似度,计算得到所述两个POI的POI相似度,具体可通过以下公式计算得到:
S=S名称*W名称权重+S地址*W地址权重+S电话号码*W电话号码权重+S类型*W类型权重
其中,S名称表示所述两个POI的名称相似度,S地址表示所述两个POI的地址相似度,S电话号码表示所述两个POI的电话号码相似度,S类型表示所述两个POI的类型相似度,w名称权重表示所述两个POI的名称相似度的权重值,w地址权重表示所述两个POI的地址相似度的权重值,w电话号码权重表示所述两个POI的电话号码相似度的权重值,w类型权重表示所述两个POI的类型相似度的权重值,其中,W名称权重+W地址权重+W电话号码权重+W类型权重=1。
优选地,为进一步提高两个POI的相似度的准确性,本发明实施例中,在计算两个POI相似度时还考虑两个POI的距离相似度,当两个POI的距离大于等于预置的距离阈值是则确定该两个POI的距离相似度为0,当两个POI的距离小于预置的距离阈值时则确定该两个POI的距离相似度为1,具体可如下:
S=(S名称*w名称权重+S地址*w地址权重+S距离*w距离权重+S电话号码*w电话号码权重+S类型*w类型权重)*100
其中,S名称表示所述两个POI的名称相似度,S地址表示所述两个POI的地址相似度,S距离表示所述两个POI的距离相似度,S电话号码表示所述两个POI的电话号码相似度,S类型表示所述两个POI的类型相似度,w名称权重表示所述两个POI的名称相似度的权重值,w地址权重表示所述两个POI的地址相似度的权重值,w距离权重表示所述两个POI的距离相似度的权重值,w电话号码权重表示所述两个POI的电话号码相似度的权重值,w类型权重表示所述两个POI的类型相似度的权重值,其中,w名称权重+w地址权重+w距离权重+w电话号码权重+w类型权重=1。
需要说明的是,“名称权重”对应的权重值,“地址权重”对应的权重值,“距离权重”对应的权重值,“电话号码权重”对应的权重值以及“类型权重”对应的权重值可以根据实际需要确定,也可以根据实验数据确定,这里不做限定,通常“名称权重”对应的权重值和“地址权重”对应的权重值大于“距离权重”对应的权重值、“电话号码权重”对应的权重值以及“类型权重”对应的权重值。
例如:“名称权重”对应的权重值为0.45,“地址权重”对应的权重值为0.45,“距离权重”对应的权重值为0,“电话号码权重”对应的权重值为0.05以及“类型权重”对应的权重值为0.05。
本发明实施例中,当通过前述图1A或图2A所示的方法确定出电子地图数据库中的冗余数据后,还可包括以下步骤:对确定出的冗余数据进行处理,去除电子地图数据库中的冗余数据。例如:确定出POI1与POI2是冗余数据;确定出POI1与POI3是冗余数据;确定出POI2与POI8是冗余数据;……。通过传递性可知POI1、POI2、POI3和POI8……为冗余数据,此时需要对POI1、POI2、POI3和POI8……进行处理,可以是将POI1、POI2、POI3和POI8……合并为一个POI;也可以从POI1、POI2、POI3和POI8……中选择最优的一条POI作为POI1、POI2、POI3和POI8……最终的一条POI,删除其他POI。
通过本发明实施例一的方案,将电子地图数据库中的POI进行两两配对;针对每个配对,执行以下步骤:根据所述配对中两个POI的经纬度坐标,计算两个POI的距离;判断所述两个POI的距离是否大于等于预置的距离阈值;若是,则确定所述配对中的两个POI不为冗余数据;若否,则根据所述配对中的两个POI的属性信息计算POI相似度,并判断所述POI相似度是否大于等于预置的相似度阈值,若是则确定所述两个POI为冗余数据,若否则确定所述两个POI不为冗余数据。本方案,能够确定出电子地图数据库中的POI冗余数据,通过对电子地图数据库中的POI进行冗余判别,在确定出属于冗余数据的多个POI时,及时将冗余的POI进行合并,不仅减少了POI存储的数据量,而且还能够节省POI占用的存储资源,改善系统的性能。
实施例二:
如图2A所示,为本发明实施例二提供的一种信息点的相似度计算设备的结构示意图,本发明实施例二所述的计算设备具有执行本发明实施例一中所述的方法,所述计算设备包括:匹配单元21、距离计算单元22、判断单元23和相似判决单元24,其中:
匹配单元21,用于将电子地图数据库中的POI进行两两配对;
距离计算单元22,用于根据所述配对中两个POI的经纬度坐标,计算两个POI的距离,并触发判断单元23;
所述判断单元23,用于判断所述两个POI的距离是否大于等于预置的距离阈值;若是,则确定所述配对中的两个POI不为冗余数据;若否,则触发所述相似判决单元24;
相似判决单元24,用于根据所述配对中的两个POI的属性信息计算POI相似度,并判断所述POI相似度是否大于等于预置的相似度阈值,若是则确定所述两个POI为冗余数据,若否则确定所述两个POI不为冗余数据。
具体地,POI的属性信息至少包括以下一种:POI名称、POI地址、电话号码、POI类型;
所述相似判决单元24根据所述配对中的两个POI的属性信息计算相似度,具体包括:当属性信息包括POI名称时,计算所述两个POI的名称相似度;当属性信息包括POI地址时,计算所述两个POI的地址相似度;当所述属性信息包括电话号码时,计算所述两个POI的电话号码相似度;当所述属性信息包括POI类型时,计算所述两个POI的类型相似度;根据计算得到名称相似度、地址相似度、电话号码相似度、类型相似度,计算得到所述两个POI的POI相似度。
可选地,所述判别设备还包括预处理单元25,如图2B所示,其中:
所述预处理单元25,用于在匹配单元21将电子地图数据库中的POI进行两两配对之前,对所述电子地图数据库中的POI的属性信息进行预处理。
具体地,所述预处理单元25对POI的属性信息中的POI名称进行预处理,具体包括:根据预置的行政区划前缀表,确定POI名称是否包含名称前缀,若包含则记录POI名称的名称前缀以及名称前缀标识;根据预置的后缀表,确定POI名称是否包含名称后缀,若包含则记录POI名称的名称后缀以及名称后缀标识;判断所述POI名称中是否包含括号,若包含则将括号及括号内的内容从POI名称中删除,并记录括号内容;根据预置的连锁店名称表,判断POI名称中是否包含连锁店名称,若包含则将该连锁点名称替换为所述POI名称;根据预置的同义词简称表,判断POI名称中是否包含同义词或简称词,若包含,则用同义词简称表中与该同义词或简称词对应的默认词替换POI名称中的相应同义词或简称词;根据预置的名称别名表,判断POI名称中是否包含别名词,若包含则将名称别名表中与该别名词对应的默认词替换所述POI名称中的相应别名词;
所述相似判决单元24计算所述两个POI的名称相似度,具体包括:判断所述两个POI的名称前缀标识是否一致;若不一致,则确定两个POI的名称相似度为0;若一致,则确定两个POI的名称前缀相似度为1,并计算两个POI的主体相似度、名称后缀相似度、括号内容相似度,并根据所述主体相似度、名称后缀相似度、括号内容相似度计算所述两个POI的名称相似度,其中所述主体是指POI名称中除名称前缀、名称后缀和括号内容之外的部分内容。
具体地于,所述预处理单元25对POI的属性信息中的POI地址进行预处理,具体包括:根据预置的行政区划前缀表,确定POI地址是否包含地址前缀,若包含则记录POI地址的地址前缀以及地址前缀标识;判断所述POI地址中是否包含括号,若包含则将括号及括号内的内容从POI地址中删除;根据预置的同义词简称表,判断POI地址中是否包含同义词或简称词,若包含,则用同义词简称表中与该同义词或简称词对应的默认词替换POI地址中的相应同义词或简称词;根据预置的地址别名表,判断POI地址中是否包含别名词,若包含则将地址别名表中与该别名词对应的默认词替换所述POI地址中相应的别名词;
所述相似判决单元24计算所述两个POI的地址相似度,具体包括:判断所述两个POI的地址前缀标识是否一致;若不一致,则确定两个POI的地址相似度为0;若一致,则确定两个POI的地址前缀相似度为1,并计算两个POI的主体相似度、地址子序列相似度,并根据主体相似度、地址子序列相似度计算所述两个POI的地址相似度,其中所述主体是指POI地址中除地址前缀、地址后缀和括号内容之外的部分内容。
具体地,所述相似判决单元24计算两个POI的主体相似度,根据下式计算得到:
Figure BDA0000650486160000211
其中SMiddA(A,B)为两个POI对应的主体相似度,A为其中一个POI的主体,B为另一个POI的主体,m为对主体A进行分词得到的地址元素的数目,n为对主体B进行分词得到的地址元素的数目,ai为主体A中第i个地址元素与主体B中各地址元素的相似度中的最大相似度,bj为主体B中第j个地址元素与主体A中各地址元素的相似度中的最大相似度;
其中,主体A与主体B中的地址元素的相似度根据下式得到:
Figure BDA0000650486160000212
其中S(Ai,Bj)表示主体A中第i个地址元素与主体B中第j个地址元素的相似度,|Ai|和|Bj|分别为地址元素Ai与Bj的长度,
Figure BDA0000650486160000213
为地址元素Ai与Bj的编辑距离;
和/或,
所述计算两个POI的地址子序列相似度,具体包括:
判断所述两个POI中,是否存在其中一个POI的地址完全包含在另一个POI的地址中,若是则确定所述两个POI的地址子序列相似度为1,若否则确定所述两个POI的地址子序列相似度为0。
具体地,所述预处理单元25对POI属性信息中的电话号码进行预处理,具体包括:
将POI的电话号码按照预置的电话号码格式进行转换;
所述相似判决单元24计算所述两个POI的电话号码相似度,具体包括:判断所述两个POI的电话号码是否一致;若一致,则确定两个POI的电话号码相似度为1;若不一致,则确定两个POI的电话号码相似度为0。
具体地,所述相似判决单元24计算所述两个POI的类型相似度,具体包括:判断所述两个POI的POI类型是否一致;若一致,则确定两个POI的类型相似度为1;若不一致,则确定两个POI的类型相似度为0。
需要说明的是,本发明实施例所述的计算设备可以通过硬件方式实现,也可以通过软件方式实现,这里不做具体限定。
本发明实施例所述的计算设备能够在数据融合阶段确定两个或者多个POI数据是否是冗余数据,若是冗余数据,及时将冗余的POI数据进行合并,不仅减少了POI数据存储的数据量,而且还能够节省POI数据占用的系统资源,改善系统的性能。
本领域的技术人员应明白,本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种信息点数据冗余的判别方法,其特征在于,包括:
将电子地图数据库中的POI进行两两配对;
针对每个配对,执行以下步骤:
根据所述配对中两个POI的经纬度坐标,计算两个POI的距离;
判断所述两个POI的距离是否大于等于预置的距离阈值;
若是,则确定所述配对中的两个POI不为冗余数据;
若否,则根据所述配对中的两个POI的属性信息计算POI相似度,并判断所述POI相似度是否大于等于预置的相似度阈值,若是则确定所述两个POI为冗余数据,若否则确定所述两个POI不为冗余数据;
POI的属性信息至少包括以下一种:POI名称、POI地址、电话号码、POI类型;
将电子地图数据库中的POI进行两两配对之前,还包括:
对所述电子地图数据库中的POI的属性信息进行预处理;
对POI的属性信息中的POI地址进行预处理,具体包括:
根据预置的行政区划前缀表,确定POI地址是否包含地址前缀,若包含则记录POI地址的地址前缀以及地址前缀标识;
判断所述POI地址中是否包含括号,若包含则将括号及括号内的内容从POI地址中删除;
根据预置的同义词简称表,判断POI地址中是否包含同义词或简称词,若包含,则用同义词简称表中与该同义词或简称词对应的默认词替换POI地址中的相应同义词或简称词;
根据预置的地址别名表,判断POI地址中是否包含别名词,若包含则将地址别名表中与该别名词对应的默认词替换所述POI地址中相应的别名词;
所述计算所述两个POI的地址相似度,具体包括:
判断所述两个POI的地址前缀标识是否一致;
若不一致,则确定两个POI的地址相似度为0;
若一致,则确定两个POI的地址前缀相似度为1,并计算两个POI的主体相似度、地址子序列相似度,并根据主体相似度、地址子序列相似度计算所述两个POI的地址相似度,其中所述主体是指POI地址中除地址前缀、地址后缀和括号内容之外的部分内容;
其中,所述地址子序列相似度,用于判断所述两个POI中,是否存在其中一个POI的地址完全包含在另一个POI的地址。
2.如权利要求1所述的方法,其特征在于,根据所述配对中的两个POI的属性信息计算相似度,具体包括:
当属性信息包括POI名称时,计算所述两个POI的名称相似度;
当属性信息包括POI地址时,计算所述两个POI的地址相似度;
当所述属性信息包括电话号码时,计算所述两个POI的电话号码相似度;
当所述属性信息包括POI类型时,计算所述两个POI的类型相似度;
根据计算得到名称相似度、地址相似度、电话号码相似度、类型相似度,计算得到所述两个POI的POI相似度。
3.如权利要求2所述的方法,其特征在于,对POI的属性信息中的POI名称进行预处理,具体包括:
根据预置的行政区划前缀表,确定POI名称是否包含名称前缀,若包含则记录POI名称的名称前缀以及名称前缀标识;
根据预置的后缀表,确定POI名称是否包含名称后缀,若包含则记录POI名称的名称后缀以及名称后缀标识;
判断所述POI名称中是否包含括号,若包含则将括号及括号内的内容从POI名称中删除,并记录括号内容;
根据预置的连锁店名称表,判断POI名称中是否包含连锁店名称,若包含则使用该连锁店名称替换所述POI名称;
根据预置的同义词简称表,判断POI名称中是否包含同义词或简称词,若包含,则用同义词简称表中与该同义词或简称词对应的默认词替换POI名称中的相应同义词或简称词;
根据预置的名称别名表,判断POI名称中是否包含别名词,若包含则将名称别名表中与该别名词对应的默认词替换所述POI名称中的相应别名词;
所述计算所述两个POI的名称相似度,具体包括:
判断所述两个POI的名称前缀标识是否一致;
若不一致,则确定两个POI的名称相似度为0;
若一致,则确定两个POI的名称前缀相似度为1,并计算两个POI的主体相似度、名称后缀相似度、括号内容相似度,并根据所述主体相似度、名称后缀相似度、括号内容相似度计算所述两个POI的名称相似度,其中所述主体是指POI名称中除名称前缀、名称后缀和括号内容之外的部分内容。
4.如权利要求1所述的方法,其特征在于,所述计算两个POI的主体相似度,具体包括:
根据下式计算两个POI的主体相似度:
Figure FDA0002222067520000031
其中SMiddA(A,B)为两个POI对应的主体相似度,A为其中一个POI的主体,B为另一个POI的主体,m为对主体A进行分词得到的地址元素的数目,n为对主体B进行分词得到的地址元素的数目,ai为主体A中第i个地址元素与主体B中各地址元素的相似度中的最大相似度,bj为主体B中第j个地址元素与主体A中各地址元素的相似度中的最大相似度;
其中,主体A与主体B中的地址元素的相似度根据下式得到:
Figure FDA0002222067520000032
其中,S(Ai,Bj)表示主体A中第i个地址元素与主体B中第j个地址元素的相似度,|Ai|和|Bj|分别为地址元素Ai与Bj的长度,
Figure FDA0002222067520000033
为地址元素Ai与Bj的编辑距离;
和/或,
所述计算两个POI的地址子序列相似度,具体包括:
判断所述两个POI中,是否存在其中一个POI的地址完全包含在另一个POI的地址中,若是则确定所述两个POI的地址子序列相似度为1,若否则确定所述两个POI的地址子序列相似度为0。
5.如权利要求1所述的方法,其特征在于,对POI属性信息中的电话号码进行预处理,具体包括:
将POI的电话号码按照预置的电话号码格式进行转换;
计算所述两个POI的电话号码相似度,具体包括:
判断所述两个POI的电话号码是否一致;
若一致,则确定两个POI的电话号码相似度为1;
若不一致,则确定两个POI的电话号码相似度为0。
6.如权利要求1所述的方法,其特征在于,计算所述两个POI的类型相似度,具体包括:
判断所述两个POI的POI类型是否一致;
若一致,则确定两个POI的类型相似度为1;
若不一致,则确定两个POI的类型相似度为0。
7.一种信息点数据冗余的判别设备,其特征在于,包括:
匹配单元,用于将电子地图数据库中的POI进行两两配对;
距离计算单元,用于针对每个配对,根据所述配对中两个POI的经纬度坐标,计算两个POI的距离,并触发判断单元;
所述判断单元,用于判断所述两个POI的距离是否大于等于预置的距离阈值;若是,则确定所述配对中的两个POI不为冗余数据;若否,则触发相似判决单元;
所述相似判决单元,用于根据所述配对中的两个POI的属性信息计算POI相似度,并判断所述POI相似度是否大于等于预置的相似度阈值,若是则确定所述两个POI为冗余数据,若否则确定所述两个POI不为冗余数据;
POI的属性信息至少包括以下一种:POI名称、POI地址、电话号码、POI类型;
所述判别设备还包括:预处理单元,其中:
所述预处理单元,用于在所述匹配单元将电子地图数据库中的POI进行两两配对之前,对所述电子地图数据库中的POI的属性信息进行预处理;
所述预处理单元对POI的属性信息中的POI地址进行预处理,具体包括:
根据预置的行政区划前缀表,确定POI地址是否包含地址前缀,若包含则记录POI地址的地址前缀以及地址前缀标识;
判断所述POI地址中是否包含括号,若包含则将括号及括号内的内容从POI地址中删除;
根据预置的同义词简称表,判断POI地址中是否包含同义词或简称词,若包含,则用同义词简称表中与该同义词或简称词对应的默认词替换POI地址中的相应同义词或简称词;
根据预置的地址别名表,判断POI地址中是否包含别名词,若包含则将地址别名表中与该别名词对应的默认词替换所述POI地址中相应的别名词;
所述相似判决单元计算所述两个POI的地址相似度,具体包括:
判断所述两个POI的地址前缀标识是否一致;
若不一致,则确定两个POI的地址相似度为0;
若一致,则确定两个POI的地址前缀相似度为1,并计算两个POI的主体相似度、地址子序列相似度,并根据主体相似度、地址子序列相似度计算所述两个POI的地址相似度,其中所述主体是指POI地址中除地址前缀、地址后缀和括号内容之外的部分内容;
其中,所述地址子序列相似度,用于判断所述两个POI中,是否存在其中一个POI的地址完全包含在另一个POI的地址。
8.如权利要求7所述的判别设备,其特征在于,所述相似判决单元根据所述配对中的两个POI的属性信息计算相似度,具体包括:
当属性信息包括POI名称时,计算所述两个POI的名称相似度;
当属性信息包括POI地址时,计算所述两个POI的地址相似度;
当所述属性信息包括电话号码时,计算所述两个POI的电话号码相似度;
当所述属性信息包括POI类型时,计算所述两个POI的类型相似度;
根据计算得到名称相似度、地址相似度、电话号码相似度、类型相似度,计算得到所述两个POI的POI相似度。
9.如权利要求8所述的判别设备,其特征在于,所述预处理单元对POI的属性信息中的POI地址进行预处理,具体包括:
根据预置的行政区划前缀表,确定POI地址是否包含地址前缀,若包含则记录POI地址的地址前缀以及地址前缀标识;
判断所述POI地址中是否包含括号,若包含则将括号及括号内的内容从POI地址中删除;
根据预置的同义词简称表,判断POI地址中是否包含同义词或简称词,若包含,则用同义词简称表中与该同义词或简称词对应的默认词替换POI地址中的相应同义词或简称词;
根据预置的地址别名表,判断POI地址中是否包含别名词,若包含则将地址别名表中与该别名词对应的默认词替换所述POI地址中相应的别名词;
所述相似判决单元计算所述两个POI的地址相似度,具体包括:
判断所述两个POI的地址前缀标识是否一致;
若不一致,则确定两个POI的地址相似度为0;
若一致,则确定两个POI的地址前缀相似度为1,并计算两个POI的主体相似度、地址子序列相似度,并根据主体相似度、地址子序列相似度计算所述两个POI的地址相似度,其中所述主体是指POI地址中除地址前缀、地址后缀和括号内容之外的部分内容;
其中,所述地址子序列相似度,用于判断所述两个POI中,是否存在其中一个POI的地址完全包含在另一个POI的地址。
10.如权利要求7所述的判别设备,其特征在于,所述相似判决单元计算两个POI的主体相似度,具体包括:
根据下式计算两个POI的主体相似度:
Figure FDA0002222067520000071
其中SMiddA(A,B)为两个POI对应的主体相似度,A为其中一个POI的主体,B为另一个POI的主体,m为对主体A进行分词得到的地址元素的数目,n为对主体B进行分词得到的地址元素的数目,ai为主体A中第i个地址元素与主体B中各地址元素的相似度中的最大相似度,bj为主体B中第j个地址元素与主体A中各地址元素的相似度中的最大相似度;
其中,主体A与主体B中的地址元素的相似度根据下式得到:
Figure FDA0002222067520000072
其中S(Ai,Bj)表示主体A中第i个地址元素与主体B中第j个地址元素的相似度,|Ai|和|Bj|分别为地址元素Ai与Bj的长度,
Figure FDA0002222067520000073
为地址元素Ai与Bj的编辑距离;
和/或,
所述计算两个POI的地址子序列相似度,具体包括:
判断所述两个POI中,是否存在其中一个POI的地址完全包含在另一个POI的地址中,若是则确定所述两个POI的地址子序列相似度为1,若否则确定所述两个POI的地址子序列相似度为0。
11.如权利要求7所述的判别设备,其特征在于,所述预处理单元对POI属性信息中的电话号码进行预处理,具体包括:
将POI的电话号码按照预置的电话号码格式进行转换;
所述相似判决单元所述两个POI的电话号码相似度,具体包括:
判断所述两个POI的电话号码是否一致;
若一致,则确定两个POI的电话号码相似度为1;
若不一致,则确定两个POI的电话号码相似度为0。
12.如权利要求7所述的判别设备,其特征在于,所述相似判决单元计算所述两个POI的类型相似度,具体包括:
判断所述两个POI的POI类型是否一致;
若一致,则确定两个POI的类型相似度为1;
若不一致,则确定两个POI的类型相似度为0。
CN201410854997.7A 2014-12-31 2014-12-31 一种信息点数据冗余的判别方法和设备 Active CN105808609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410854997.7A CN105808609B (zh) 2014-12-31 2014-12-31 一种信息点数据冗余的判别方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410854997.7A CN105808609B (zh) 2014-12-31 2014-12-31 一种信息点数据冗余的判别方法和设备

Publications (2)

Publication Number Publication Date
CN105808609A CN105808609A (zh) 2016-07-27
CN105808609B true CN105808609B (zh) 2020-04-14

Family

ID=56465195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410854997.7A Active CN105808609B (zh) 2014-12-31 2014-12-31 一种信息点数据冗余的判别方法和设备

Country Status (1)

Country Link
CN (1) CN105808609B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106959958B (zh) 2016-01-11 2020-04-07 阿里巴巴集团控股有限公司 地图兴趣点简称获取方法和装置
CN108345609A (zh) * 2017-01-24 2018-07-31 腾讯科技(深圳)有限公司 一种处理poi信息的方法和装置
CN110110015B (zh) * 2018-01-10 2023-12-12 腾讯科技(深圳)有限公司 信息点数据处理方法、处理装置及计算机可读存储介质
CN108846111B (zh) * 2018-06-22 2020-04-24 阿里巴巴集团控股有限公司 一种检测店铺位置正确性的方法及装置
CN108959609B (zh) * 2018-07-16 2021-09-21 创新先进技术有限公司 店铺地址的更新方法及装置
CN109284393B (zh) * 2018-08-28 2020-11-06 合肥工业大学 一种针对家谱人物属性名称的融合方法
CN109376205B (zh) * 2018-09-07 2022-03-29 顺丰科技有限公司 挖掘地址兴趣点关系的方法、装置、设备及存储介质
CN109525664B (zh) * 2018-11-15 2021-06-01 中国联合网络通信集团有限公司 位置获取方法、装置和存储介质
CN109992727A (zh) * 2019-02-22 2019-07-09 上海晶赞融宣科技有限公司 Poi的信息搜集方法及装置、存储介质、终端
CN109947881B (zh) * 2019-02-26 2023-10-27 广州城市规划技术开发服务部有限公司 一种poi判重方法、装置、移动终端及计算机可读存储介质
CN110288023A (zh) * 2019-06-26 2019-09-27 广州小鹏汽车科技有限公司 融合方法及装置、检测方法、获取方法、服务器和车辆
CN110347776A (zh) * 2019-07-17 2019-10-18 北京百度网讯科技有限公司 兴趣点名称匹配方法、装置、设备及存储介质
CN112307142A (zh) * 2020-06-05 2021-02-02 北京沃东天骏信息技术有限公司 地理信息系统中信息点的确定方法和装置以及存储介质
CN111726860B (zh) * 2020-06-09 2022-04-08 北京无限向溯科技有限公司 基于poi空间距离的定位方法、装置、设备和存储介质
CN112507223B (zh) * 2020-12-10 2023-06-23 北京百度网讯科技有限公司 数据处理方法、装置、电子设备及可读存储介质
CN113609715B (zh) * 2021-10-11 2022-02-22 深圳奥雅设计股份有限公司 一种数字孪生背景下的多元模型数据融合方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388023A (zh) * 2008-09-12 2009-03-18 北京搜狗科技发展有限公司 电子地图兴趣点数据冗余检测方法和系统
CN101871784A (zh) * 2009-04-24 2010-10-27 环达电脑(上海)有限公司 过滤poi的系统及其方法
CN101963962A (zh) * 2009-07-23 2011-02-02 高德软件有限公司 兴趣点数据关联方法及装置
CN101963961A (zh) * 2009-07-23 2011-02-02 高德软件有限公司 兴趣点数据关联方法及装置
CN102473181A (zh) * 2009-07-31 2012-05-23 三菱电机株式会社 设施检索装置
CN104050196A (zh) * 2013-03-15 2014-09-17 阿里巴巴集团控股有限公司 一种兴趣点数据冗余检测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682128B (zh) * 2012-05-17 2017-08-29 厦门雅迅网络股份有限公司 一种用于兴趣点信息的排重方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388023A (zh) * 2008-09-12 2009-03-18 北京搜狗科技发展有限公司 电子地图兴趣点数据冗余检测方法和系统
CN101871784A (zh) * 2009-04-24 2010-10-27 环达电脑(上海)有限公司 过滤poi的系统及其方法
CN101963962A (zh) * 2009-07-23 2011-02-02 高德软件有限公司 兴趣点数据关联方法及装置
CN101963961A (zh) * 2009-07-23 2011-02-02 高德软件有限公司 兴趣点数据关联方法及装置
CN102473181A (zh) * 2009-07-31 2012-05-23 三菱电机株式会社 设施检索装置
CN104050196A (zh) * 2013-03-15 2014-09-17 阿里巴巴集团控股有限公司 一种兴趣点数据冗余检测方法及装置

Also Published As

Publication number Publication date
CN105808609A (zh) 2016-07-27

Similar Documents

Publication Publication Date Title
CN105808609B (zh) 一种信息点数据冗余的判别方法和设备
US20200349175A1 (en) Address Search Method and Device
CN107656913B (zh) 地图兴趣点地址提取方法、装置、服务器和存储介质
CN108628811B (zh) 地址文本的匹配方法和装置
CN107832325B (zh) 一种poi数据校验方法与设备
CN106033416A (zh) 一种字符串处理方法及装置
CN104679801B (zh) 一种兴趣点搜索方法和装置
TWI673617B (zh) 使用者背景資訊的收集方法及裝置
CN105224660A (zh) 一种地图兴趣点poi数据的处理方法和装置
CN108228657B (zh) 一种关键字检索的实现方法及装置
JP2018537760A (ja) アドレス情報に基づいたアカウントマッピングの方法及び装置
CN108446280A (zh) 数据更新方法及装置
CN110688434B (zh) 一种兴趣点处理方法、装置、设备和介质
CN111931077B (zh) 数据处理方法、装置、电子设备及存储介质
CN116414823A (zh) 一种基于分词模型的地址定位方法和装置
CN112818072A (zh) 旅游知识图谱更新方法、系统、设备及存储介质
JP4510792B2 (ja) 所在地解析装置、所在地解析方法及びそのプログラム並びに記録媒体
JP2009048340A (ja) 文書監視プログラム、文書監視装置、文書監視方法
CN105159940A (zh) 挖掘地理信息的方法、装置以及服务器
JP4510780B2 (ja) 所在地解析装置、所在地解析方法及びそのプログラム並びに記録媒体
JP5806974B2 (ja) 近隣情報検索装置及び方法及びプログラム
Berman et al. Historical gazetteer system integration: Chgis, regnum francorum, and geonames
JP6106070B2 (ja) 地名推定方法、地名推定装置及び地名推定プログラム
CN105786922B (zh) 一种缺失电子地图数据的确定方法和设备
CN110457705B (zh) 一种兴趣点数据处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200420

Address after: 310012 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 102200, No. 8, No., Changsheng Road, Changping District science and Technology Park, Beijing, China. 1-5

Patentee before: AUTONAVI SOFTWARE Co.,Ltd.

TR01 Transfer of patent right