CN101963962B - 兴趣点数据关联方法及装置 - Google Patents

兴趣点数据关联方法及装置 Download PDF

Info

Publication number
CN101963962B
CN101963962B CN200910089542.XA CN200910089542A CN101963962B CN 101963962 B CN101963962 B CN 101963962B CN 200910089542 A CN200910089542 A CN 200910089542A CN 101963962 B CN101963962 B CN 101963962B
Authority
CN
China
Prior art keywords
interest point
point data
title
address
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200910089542.XA
Other languages
English (en)
Other versions
CN101963962A (zh
Inventor
王涛
杨东见
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Autonavi Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Autonavi Software Co Ltd filed Critical Autonavi Software Co Ltd
Priority to CN200910089542.XA priority Critical patent/CN101963962B/zh
Publication of CN101963962A publication Critical patent/CN101963962A/zh
Application granted granted Critical
Publication of CN101963962B publication Critical patent/CN101963962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种兴趣点数据关联方法及装置。所述方法包括:读取一条待关联兴趣点数据;对所述待关联兴趣点数据的属性进行处理,得到新的待关联兴趣点数据;从预置的目标关联兴趣点数据集中,获取所述新的待关联兴趣点数据的目标关联兴趣点数据子集;用所述新的待关联兴趣点数据的属性与所述目标关联兴趣点数据子集中兴趣点数据的属性进行比较,得到相同的兴趣点数据。相应地,本发明实施例还提供了一种兴趣点数据关联装置。采用本发明实施例提供的方法或者装置可以关联出不同批次兴趣点数据中相同的数据,有效地解决了兴趣点数据重复的问题。

Description

兴趣点数据关联方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种兴趣点数据关联方法及装置。
背景技术
目前,在地理信息系统(Geographic Information System,GIS)中,兴趣点(Point Of Interest,POI)的采集方式主要有实地采集,互联网采集等。由于采集POI数据时,采集人员并不会考虑该POI数据是否已被采集过,因此,造成不同批次采集的POI数据之间存在很多重复的POI数据。
在对现有技术的研究和实践过程中,发明人发现由于重复POI数据的存在,使POI数据的应用出现了一些问题。比如,在某网站提供的电子地图服务中以“赛迪”为关键词查找与之相关的POI数据,电子地图显示的POI数据查询结果中,在复兴路有两个距离很近的“赛迪咨询顾问公司”和“赛迪资讯顾问有限公司”,虽然这两个POI数据的名称不完全相同,但它们的地址都是“海淀区复兴路戊12号”,这两个POI数据属于重复数据,这样的查询结果很容易使用户产生误解。因此,发明人认为目前亟需提供一种能够将相同POI数据关联在一起的技术,以便有效地解决POI数据重复的问题,使POI数据的应用更为完美。
发明内容
本发明实施例要解决的技术问题是提供一种能够关联出相同兴趣点关联的兴趣点数据关联方法及装置。
为解决上述技术问题,本发明的目的是通过以下技术方案实现的:
本发明实施例提供了一种兴趣点数据关联方法,该方法包括:
读取一条待关联兴趣点数据;
对所述待关联兴趣点数据的属性进行处理,得到新的待关联兴趣点数据;
从预置的目标关联兴趣点数据集中,获取所述新的待关联兴趣点数据的目标关联兴趣点数据子集;
用所述新的待关联兴趣点数据的属性与所述目标关联兴趣点数据子集中兴趣点数据的属性进行比较,得到相同的兴趣点数据。
相应地,本发明实施例还提供了一种兴趣点数据关联装置,该装置包括:
数据读取单元,用于读取一条待关联兴趣点数据;
数据处理单元,用于对所述待关联兴趣点数据的属性进行处理,得到新的待关联兴趣点数据;
数据子集获取单元,用于从预置的目标关联兴趣点数据集中,获取所述新的待关联兴趣点数据的目标关联兴趣点数据子集;
数据关联单元,用于用所述新的待关联兴趣点数据的属性与所述目标关联兴趣点数据子集中兴趣点数据的属性进行比较,若满足预设的关联条件,则将新的待关联兴趣点数据与目标关联兴趣点数据标记为相同的兴趣点数据。
上述技术方案具有如下有益效果:
本发明提供的兴趣点数据关联方法,该方法对待关联POI数据的属性进行处理,得到新的待关联POI数据,从预置的目标关联POI数据集中,获取新的待关联POI数据的目标关联POI数据子集,通过将新的待关联POI数据的属性与目标关联POI数据子集中POI数据的属性进行比较,得到相同的POI数据,有效地解决POI数据重复的问题。
附图说明
图1为本发明实施例提供的POI数据关联方法流程图;
图2为本发明实施例提供的待关联POI数据的属性处理过程示意图;
图3为本发明实施例提供的对待关联POI数据的名称进行处理的方法流程图;
图4为本发明实施例提供的对待关联POI数据的地址进行处理的方法流程图;
图5为本发明实施例提供的对待关联POI数据的坐标进行处理的方法流程图;
图6为本发明实施例提供的第一种划定关联范围的方法流程图;
图7为本发明实施例提供的第二种划定关联范围的方法流程图;
图8为本发明实施例提供的第三种划定关联范围的方法流程图;
图9为本发明实施例提供的第一种在划定关联范围进行POI关联的方法流程图;
图10为本发明实施例提供的第二种在划定关联范围进行POI关联的方法流程图;
图11为本发明实施例提供的第三种在划定关联范围进行POI关联的方法流程图;
图12为本发明实施例提供的兴趣点数据关联装置组成示意图。
具体实施方式
为使本发明实施例的目的、技术方案、及优点更加清楚明白,以下参照附图对本发明实施例提供的技术方案进行详细说明。
请参见图1,为本发明实施例提供的POI数据关联方法流程图,该方法包括:
步骤101:从待关联POI数据集中读取一条待关联POI数据;
步骤102:对该待关联POI数据的属性进行处理,得到新的待关联POI数据;
步骤103:从预置的目标关联POI数据集中,获取新的待关联POI数据的目标关联POI数据子集;
在本发明实施例中,目标关联POI数据的属性预先进行过处理,处理方法与本发明实施例提供的对待关联POI数据的处理方法基本相同。
步骤104:将新的待关联POI数据的属性与目标关联POI数据子集中POI数据的属性进行比较,若满足预设的关联条件,则进入步骤105,否则,进入步骤106:
步骤105:将新的待关联POI数据与满足关联条件的目标关联POI数据标记为相同的POI数据;
步骤106:判断待关联POI数据集中是否还有待关联POI数据,如果有,则返回步骤101,如果没有,则结束该关联流程。
以上为本发明实施例提供的POI数据关联方法,该方法对待关联POI数据的属性进行处理,得到新的待关联POI数据,从预置的目标关联POI数据集中,获取新的待关联POI数据的目标关联POI数据子集,通过将新的待关联POI数据的属性与目标关联POI数据子集中POI数据的属性进行比较,得到相同的POI数据,有效地解决POI数据重复的问题。
请参见图2,为本发明实施例提供的待关联POI数据的属性处理过程示意图,该过程包括:
对待关联POI数据的名称进行处理,得到至少一条新的待关联POI数据的名称处理过程201;
对待关联POI数据的地址进行处理,得到至少一条新的待关联POI数据的地址处理过程202;
对待关联POI数据的坐标进行处理,得到至少一条新的待关联POI数据的坐标处理过程203;
其中,上述三个处理过程是三个相互独立的处理过程,在实际应用中,这三个处理过程可以同时进行,也可以不同时进行,并不影响本发明实施例的实现。
以下结合附图,对本发明实施例提供的待关联POI数据的属性处理过程进行详细介绍。
请参见图3,为本发明实施例提供的对待关联POI数据的名称进行处理的方法流程图,该方法包括:
步骤301:判断待关联POI数据的名称是否以括号为结尾,如果不是,则进入步骤303,如果是,则进入步骤302:
步骤302:删除名称中的括号及括号内的字符;
比如,“海龙大厦(中关村大街)”处理以后将变成“海龙大厦”。
步骤303:判断名称是否以预置的行政区划表中的行政区划为前缀,如果是,则进入步骤304,如果不是,则进入步骤306;
表1为本发明实施例提供的行政区划表示例,行政区划表用于记录城市的名称及其区县名称。
    CITY     COUNTY
    1     重庆市     重庆市
    2     重庆市     市辖区
    3     重庆市     万州区
    4     重庆市     涪陵区
    5     重庆市     渝中区
    6     重庆市     大渡口区
    7     重庆市     江北区
    8     重庆市     沙坪坝区
    9     重庆市     九龙坡区
表1行政区划表
具体实现时,判断名称是否以行政区划表中的行政区划为前缀的优选方式为:
第一步:从行政区划表中取出一个行政区划;
第二步:从名称的第一个字开始截取与行政区划长度相同的字符串,
第三步:将截取出的字符串与行政区划进行匹配,若匹配,则说明名称以该行政区划为前缀,结束该流程,若不匹配,则进入第四步;
第四步:判断行政区划表中是否还有行政区划,如果有,则返回第一步,如果没有,则结束该流程。
比如,名称为“北京市海龙大厦”,提取的行政区划为“北京市”,则从“北京市海龙大厦”的第一个字“北”开始截取3个字符,即“北京市”,截取出的字符串和提取的行政区划一致,故“北京市海龙大厦”是以行政区划表中的“北京市”为前缀。
进一步,本发明实施例还提供了另一种判断名称是否以行政区划为前缀的方式为:
第一步:从名称的末尾删除n个字符,取剩余部分与行政区划表中的行政区划进行匹配,若匹配到,,则说明名称以行政区划为前缀,若没有匹配到,则进入第二步;
第二步:将n替换为n+1,判断n是否大于名称的长度减1,如果小于,则返回第一步,如果大于,则结束该流程。
步骤304:判断前缀相邻的词是否为预置后缀表中的词,如果不是,则进入步骤305,如果是,则进入步骤306;
步骤305:删除名称的前缀;
在判断得到名称以行政区划为前缀后,执行步骤304的原因如下:
若与行政区划相邻的词是后缀表中的词,删除该前缀则会影响名称的含义。比如,北京大学餐厅,该名称的前缀为行政区划“北京”,而与其相邻的词“大学”为后缀表中的词,如果删除前缀“北京”,则会影响该名称的含义,因此,在判断得到名称以行政区划为前缀后需要执行步骤304,并且步骤304在判断得到名称为“行政区划+后缀+其他词”的情况时,对名称不做任何处理直接进入步骤306。
步骤306:判断名称是否以后缀表中的词为后缀,如果是,则进入步骤307,如果不是,则进入步骤309;
表2,为本发明实施例提供的后缀表示例,后缀表用于记录名称中可能出现的所有主语后缀及其标识,多个后缀可以对应同一个标识。比如,“公司”、“有限公司”和“股份有限公司”等的标识都是“10001”。
  NAME     ID
    1   股份有限公司     10001
    2   分公司     10001
    3   有限公司     10001
    4   股份制有限责任公司     10001
    5   股份公司     10001
    6     公司     10001
    7     餐饮有限公司     10001
    8     餐饮公司     10001
    9     餐饮股份有限公司     10001
表2为后缀表
具体实现时,判断名称是否以预置后缀表中的词为后缀的优选方式为:按照末端匹配原则,判断名称是否以预置的后缀表中的词为后缀,具体包括:
第一步:从名称的前面删除n个字,取名称的剩余部分与预置的后缀表中的词进行匹配,若匹配到,则说明所述名称以后缀表中的词为后缀,若没有匹配到,则进入第二步;
第二步:将n替换为n+1,判断n是否大于名称的长度减1,如果大于,则结束该流程,如果小于,则返回第一步。
比如,“高德软件有限公司”按照末端匹配原则查找到的后缀“有限公司”。
步骤307:判断名称后缀相邻的词是否为预置的行政区划表中的词,如果不是,进入步骤308,如果是,则进入步骤309;
步骤308:删除名称的后缀;
在判断得到名称以后缀表中的词为后缀,执行步骤307的原因如下:
若后缀相邻的词是行政区划,删除后缀则会影响该名称的含义。比如,北京大学,该名称的后缀为“大学”,而与其相邻的词“北京”为行政区划,如果删除“大学”,则会影响该名称的含义,故步骤307在判断得到名称为“其他词+行政区划+后缀”的情况时,对名称不做任何处理直接进入步骤309。
步骤309:判断名称中的词在预置的同义词表中是否有对应的同义词,如果有,则进入步骤310,如果没有,则进入步骤311;
表3为本发明实施例提供的同义词表示例,该同义词表中用于记录词的同义词、词的别称或词的简称等,词和词的同义词,词和词的简称,词和词的别称在同义词表对应相同的标识。比如,“中国科学院”和“中科院”等的标识为“10001”,“首都体育馆”和“首体”的标识为“10002”。
    SHORTNAME     SHORTID
    1     中科院     10001
    2     中国科学院     10001
    3     中国科学研究所     10001
    4     首体南路     10002
    5     首都体育馆南路     10002
    6     西直门外大街     10003
    7     西外大街     10006
    8     建国门外大街     10004
    9     建外大街     10004
表3同义词表
在具体实现时,判断名称中的词是否在同义词表中有对应的同义词的方式优选为减字查找法。假设初始时i等于名称的长度,j=0,所述减字查找法具体包括:
第一步:从名称中的第j位开始取出i个字符;
第二步:将i个字符与同义词表中的词进行匹配,若匹配到,则进入第三步,若没有匹配到,则进入第四步;
第三步:从同义词表中取出与i个字符匹配的词以及与该词具有相同标识的词;
第四步:判断j是否大于名称的长度减去i,如果小于,则j=j+1,返回第一步,如果大于,则进入第五步;
第五步:判断i是否小于1,如果小于,则结束该流程,如果大于1,则i=i-1,j=0,返回第一步。
此外,在上述流程中,为了提高POI数据的关联速度和效率,在第三步从同义词表中取出词之后可以不再执行第三步和第四步,而是直接结束该流程,并不影响本发明实施例的实现。
步骤310:将名称中的词用它的同义词替换,得到新名称,并用该新名称与待关联POI数据的其他字段(比如,地址字段,坐标字段等)构成新的待关联POI数据;
比如,“北京大学餐厅”,“北京大学”的同义词为“北大”,则用“北大”替换“北京大学”得到新名称为“北大餐厅”,该“新名称”与待关联POI数据的其他字段构成一条新的待关联POI数据。
步骤311:判断名称中是否有包含预置的连锁店表中记录的连锁店名称,如果包含,则进入步骤312,如果不包含,则输出前一步骤得到的新的待关联POI数据,结束该流程;
表4为本发明实施例提供的连锁店表示例,该连锁店表用于记录连锁店的名称。比如“肯德基”、“麦当劳”等。
    MULTIPLENAME
    1     肯德基
    2     麦当劳
    3     海底捞
    4     东来顺
    5     九头鹰
    6     九头鸟
    7     必胜客
    8     俏江南
    9     沸腾鱼乡
表4连锁店表
在本发明实施例中,判断名称中是否包含连锁店名称的优选方式为减字查找法,减字查找法的详细内容请参见前文名称处理中的相关部分,此处不再赘述。
步骤312:用连锁店名称与待关联POI数据的其他字段构成一条新的待关联POI数据。
比如,“肯德基中关村店”中包含连锁店名称“肯德基”,则用“肯德基”与待关联POI数据的其他字段构成一条新的待关联POI数据。
以上为本发明实施例提供的一种对待关联POI数据的名称进行处理流程,在本发明其他实施例中,名称处理流程亦可不按照图3所示流程进行,只要保证名称括号处理在名称后缀处理,名称同义词处理及名称连锁店处理之前即可。
请参见图4,是本发明实施例提供的对待关联POI数据的地址进行处理的方法流程图,该方法包括:
步骤401:判断待关联POI数据的地址中是否以预置的行政区划表中的行政区划为前缀,如果不是,则进入步骤403,如果是,则进入步骤402;
步骤402:删除地址中的行政区划;
比如,“北京市北四环西路”,经过步骤401和402的处理后,将变成“北四环西路”。
在本发明实施例中,判断地址是否以行政区划为前缀的具体方法请参见前文名称处理中的相关部分,此处不再赘述。
步骤403:在地址中从左至右查找数字,若第一个查找到的数字没有位于地址的首位,则进入步骤404,若地址中没有数字,则进入步骤407;
步骤404:删除第一个查找到的数字及其右侧的字符;
步骤405:判断第一个查找到的数字左侧的字符是否为天干和/或特殊符号,如果是,则进入步骤406,如果不是,则进入步骤407;
在本发明实施例中,天干是指:甲、乙、丙、丁、戊等,特殊符号是指:“—”,“_”,“-”,“字”等。
步骤406:删除地址中第一个查找到的数字左侧的字符;
比如,“中关村大街12号”,“中关村大街甲-12号”经过处理后将变成“中关村大街”。
步骤407:判断地址中的词在预置的同义词表中是否有对应的同义词,如果有,则进入步骤408,如果没有,则进入步骤409;
在本发明实施例中,判断地址中的词是否有同义词优选减字查找法,详细内容请参见前文名称处理中的相关部分,此处不再赘述。
步骤408:将地址中的词用同义词替换,得到新地址,用该新地址与待关联POI数据的其他字段构成新的待关联POI数据;
步骤409:判断地址中是否包含预置的路名表中的道路名称,如果是,则进入步骤410,如果不是,则输出前一步骤处理得到新的待关联POI数据,结束该流程;
其中,判断地址中是否包含预置的路名表中的道路名称也优选减字查找法,具体内容请参见前文名称处理的相关部分,此处不再赘述。
表5为本发明实施例提供的路名表示例,路名表用于记录道路名称。比如“中山路”,“解放路”等。
    NAME
    1     碚峡西路
    2     中山路
    3     云泉路
    4     胜利街
    5     解放路
    6     辽宁路
表5路名表
步骤410:用道路名称与待关联POI数据的其他字段构成新的待关联POI数据。
请参见图5,为本发明实施例提供的对待关联POI数据的坐标进行处理的方法流程图,该方法包括:
步骤501:从待关联POI数据中提取出坐标经纬度;
步骤502:将坐标经纬度拆分为经度坐标x0和纬度坐标y0,并转换为数字型;
步骤503:用x0和y0与待关联POI数据的其他字段构成一条新的待关联POI数据。
以上为本发明实施例提供对待关联POI数据的属性进行处理方法。在本发明实施例中,预先对目标关联POI数据的属性进行处理方法与待关联POI数据的处理方法基本相同,其区别仅在于,经过处理的目标关联POI数据需要存入预处理表构成目标关联POI数据集,而待关联POI数据经过处理后形成的多条新的待关联POI数据循环与预置的目标关联POI数据进行关联。
以上结合附图,对本发明实施例提供的待关联POI数据属性处理方法进行了详细介绍,以下结合附图对如何从目标关联POI数据集中划定关联范围(目标关联POI数据子集)的方法进行详细介绍。
请参见图6,为本发明实施例提供的第一种从目标关联POI数据集中划定关联范围的方法流程图,若待关联POI数据的经纬度坐标准确,则适用该方法划定关联范围,该方法包括:
步骤601:将经过图5所示流程处理得到的新的待关联POI数据的经度坐标x0和纬度坐标y0代入如下公式,计算得到x1和y1;
ry=(y0*π)/180.0/3600000.0;
sx = sin ( s r * 1000.0 * 2.0 ) ;
x 1 = ar cos ( 1 - 2 sx 2 - sin 2 ( ry ) ) cos 2 ( ry ) ) / ( π / 180.0 / 3600000.0 ) ;
y 1 = ( ar cos ( 1 - 2 s x 2 ) ) * 3600000.0 π / 180 ;
其中,r为地球半径,s为关联距离,经、纬度坐标的单位为毫秒;
步骤602:在预置的目标关联POI数据集中,选择经度坐标大于(x0-x1),小于(x0+x1),且纬度坐标大于(y0-y1),小于(y0+y1)的目标关联POI数据构成目标关联POI数据子集。
请参见图7,为本发明实施例提供的第二种从目标关联数据集中划定关联范围的方法流程图,若待关联POI数据集的类型准确,则适用该方法划定关联范围,该方法具体包括:
步骤701:从新的待关联数据中提取类型代码;
步骤702:在预置的类型规则配置表中,查找类型代码对应的经度坐标x1和纬度坐标y1;
请参见表6,为本发明实施例提供的类型规则配置表示例。DIS1表示关联距离,x1和y1分别表示关联距离为DIS1时,x和y的数值差,通过x1和y1可以提高关联速度。EXTERN表示关联规则。
  KEY_TYPE   NAME   DIS1   x1   y1   DIS2   x2   y2   EXTERN
  36   150902   室外停车场   10   420   324   3
  38   150100   飞机场   10   420   324   3
  39   150200   火车站   10   420   324   3
31 150700   公交车站相关   10 420 324 1
32 150701   旅游专线车站   10 420 324 1
  33   150702   普通公交站   10   420   324   1
  29   200300   公共厕所   10   420   324   0
  27   200100   报刊亭   10   420   324   0
  35   150901   室内停车场   10   420   324   0
  34   150900   停车场相关   10   420   324   0
  24   190401   地名门牌   10   0   0   0
表6类型规则配置表
步骤703:在预置的目标关联POI数据集中,选择经度坐标大于x0-x1,小于x0+x1,且纬度坐标大于y0-y1,小于y0+y1的目标关联数据构成目标关联POI数据子集。
请参见图8,本发明实施例还提供了第三种从目标关联POI数据集中划定关联范围的方法,若待关联POI数据在图6或图7所示方法划定的关联范围内关联不到相同的POI数据,则需要采用图8所示的方法再次划定关联范围,图8所示方法利用减字查找法,从目标关联POI数据集中划定关联范围,假设初始时i等于地址的长度,j=0,该方法具体包括:
步骤801:从新的待关联POI数据地址的第j位开始取出i个字符;
步骤802:判断预置的目标关联POI数据集中是否有目标关联POI数据的地址与所述i个字符匹配,如果有,则进入步骤803,如果没有,则进入步骤804;
步骤803:将地址匹配的目标关联POI数据添加到目标关联POI数据子集中;
步骤804:判断j是否大于地址的长度减去i,如果小于,则进入步骤805,如果大于,则进入步骤806;
步骤805:j=j+1,并返回步骤801
步骤806:判断i是否小于1,如果小于,则结束该流程,如果大于1,则进入步骤807;
步骤807:i=i-1,j=0,返回步骤801。
以上介绍了本发明实施例提供的三种划定关联范围的方法,针对上述三种方法划定的关联范围,本发明实施例提供了以下几种在划定范围内进行POI数据关联的方法。
请参见图9,为本发明实施例提供的第一种通过比较POI数据的名称进行POI数据关联的方法流程,该方法适用于在图6、图7或图8所示任一方法划定的关联范围内进行POI数据关联,该方法具体包括:
步骤901:判断目标关联POI数据子集中POI数据的名称与新的待关联POI数据的名称是否有末端对齐包含关系,如果有,则进入步骤902,如果没有,则结束该流程;
步骤902:将新的待关联POI数据与相应的目标关联POI数据标记为相同的POI数据。
在本发明实施例中,名称末端对齐包含关系具体指:如果两个名称a和b,a等于b,或者a的后半部分等于b,或者b的后半部分等于a,则认为a和b存在末端对齐的包含关系。
在实际应用中,可以采用如下方法判断两个名称是否具有末端对齐包含关系:
比较两个名称的长度值,若两个长度值一样,则判断两个名称是否一致,如果一致,则认为二者具有末端对齐包含关系;若两个长度值不一样,则选择长度值大的名称,从该名称的最后一个字开始截取n个字符(n等于另一个名称的长度值),判断截取的n个字符和另一个名称是否一致,如果一致,则认为二者具有末端对齐包含关系。
例如,“中关村海龙大厦”和“海龙大厦”则存在末端对齐的包含关系,而“海龙大厦物业部”和“海龙大厦”则不存在上述关系。
请参见图10,为本发明实施例提供的第二种通过比较POI数据的类型代码进行POI数据关联的方法流程,该方法适用于类型准确的待关联POI数据集,该方法包括:
步骤110:将新的待关联POI数据的类型代码与目标关联POI数据子集中的POI数据的类型代码进行匹配,若一致,则进入步骤111,若不一致,则结束该流程,转入读取下一条待关联POI数据;
步骤111:将新的待关联POI数据与目标关联POI数据标记为相同的POI数据。
请参见图11,为本发明实施例提供的第三种通过比较POI数据的名称,类型代码进行POI数据关联的方法流程,该方法适用于类型准确的待关联POI数据集,具体包括:
步骤120:将新的待关联POI数据的名称与目标关联POI数据子集中的POI数据的名称进行匹配,若名称完全一致,则进入步骤122,若不一致,则结束该流程,转入读取下一条待关联POI数据;
步骤121:将两个POI数据的类型代码进行匹配,若一致,则进入步骤123,若不一致,则结束该流程,转入下读取一条待关联POI数据的处理;
步骤122:将新的待关联POI数据与目标关联POI数据标记为相同的POI数据。
以上为本发明实施例提供的三种在划定范围内进行POI数据关联的方法。
在实际应用中,对于类型准确的可以预先在类型规则配置表中配置上述三种关联方法的调用方式。比如,待关联POI数据的类型准确,则先采用图3,图4和图5所示对该POI数据的名称,地址和坐标分别进行处理,得到至少3条新的待关联POI数据,然后,根据新的待关联POI数据的经纬度坐标,采用图7所示方法划定关联范围,在划定关联范围的同时可以根据新的待关联POI数据的类型代码,查询类型规则配置表的EXTERN的字段,若EXTERN字段为“0”,“0”表示不匹配名称,直接比较类型代码和距离,则调用图10所示方法进行POI数据关联;若EXTERN字段为“1”,“1”表示名称必须完全一致,同时类型和距离需满足要求,则调用图11所示方法进行POI数据关联;若EXTERN字段没有定义,则调用图9所示方法进行POI数据关联。以上数字的含义仅为更清楚地说明本发明实施例不应视为对本发明的限制,在本发明其他实施例中,亦可采用其他数字代表不同的规则,并不影响本发明实施例的实现。若待关联POI数据在图7所示方法划定的关联范围内未关联到相同的POI数据,则需要进一步采用图8所示方法重新划定关联范围,再按照EXTERN字段定义的规则,在重新划定的范围内关联POI数据。
此外,对于类型准确的待关联POI数据,若需要精确的x1和y1值,也可以将根据待关联POI数据的类型代码查询到的关联距离DIS1,代入前文所述公式实时计算精确的x1和y1值,并不影响本发明实施例的实现。
对于坐标准确的经纬度数据,则先采用图3,图4和图5所示对该POI数据的名称,地址和坐标分别进行处理,得到至少3条新的待关联POI数据,然后,根据新的待关联POI数据的经纬度坐标,采用图6所示方法划定关联范围,再采用图9所示方法进行POI数据关联,若为关联到相同的POI数据,则采用图8所示方法划定关联范围,再采用图9所示方法进行POI数据关联。
以上介绍了本发明实施例提供的POI数据关联方法,以下结合附图对本发明实施例提供的POI数据关联装置进行详细介绍。
请参见图12,为本发明实施例提供的POI数据关联装置,该装置包括:
数据读取单元130,用于读取一条待关联POI数据;
数据处理单元131,用于对所述待关联POI数据的属性进行处理,得到新的待关联POI数据;
数据子集获取单元132,用于从预置的目标关联POI数据集中,获取所述新的待关联POI数据的目标关联POI数据子集;
数据关联单元133,用于用所述新的待关联POI数据的属性与所述目标关联POI数据子集中POI数据的属性进行比较,若满足预设的关联条件,则将新的待关联POI数据与目标关联POI数据标记为相同的POI数据。
在实际应用中,数据处理单元具体包括131:
数据名称处理单元,对所述待关联POI数据的名称进行处理,得到至少一条新的待关联POI数据;
数据地址处理单元,对所述待关联POI数据的地址进行处理,得到至少一条新的待关联POI数据;
数据坐标处理单元,对所述待关联POI数据的坐标进行处理,得到至少一条新的待关联POI数据。
其中,所述数据名称处理单元具体包括:
括号处理单元,用于判断待关联POI数据的名称是否以括号为结尾,如果是,则删除名称中的括号及括号内的字符;
名称前缀处理单元,用于判断经过所述括号处理单元处理的名称是否以预置的行政区划表中的行政区划为前缀,如果是,则判断前缀相邻的词是否为预置的后缀表中的词,如果不是,则删除名称的前缀;
名称后缀处理单元,用于判断经过所述名称前缀处理单元处理的名称是否以后缀表中的词为后缀,如果是,则判断后缀相邻的词是否为行政区划表中的词,如果否,则删除名称的后缀;
名称同义词处理单元,用于判断经过所述名称后缀处理单元处理的名称中的词在预置的同义词表中是否有对应的同义词,如果有,则将名称中的词用同义词替换,得到新名称,用所述新名称与所述待关联POI数据的其他字段构成新的待关联POI数据;
连锁店处理单元,用判断经过所述名称同义词处理单元处理的名称是否包含预置的连锁店表中的连锁店名称,如果包含,则用所述连锁店名称与待关联POI数据的其他字段构成新的待关联POI数据。
其中,所述数据地址处理单元具体包括:
地址前缀处理单元,用于判断所述待关联POI数据的地址中是否以预置的行政区划表中的行政区划为前缀,如果是,则删除地址中的行政区划;
数字处理单元,用于在经过所述地址前缀处理单元处理的地址中从左至右查找数字,若第一个查找到的数字没有位于地址的首位,则删除地址中所述数字及其右侧的字符,若所述数字左侧的字符为天干和/或特殊符号,则从地址中删除所述天干和/或特殊符号;
地址同义词处理单元,用于判断经过所述数字处理单元处理的地址中的词在预置的同义词表中是否有对应的同义词,如果有,则将地址中的词用同义词替换,得到新地址,用所述新地址与待关联POI数据的其他字段构成新的待关联POI数据;
道路名称处理单元,用于判断经过所述地址同义词处理单元处理的地址中是否包含预置路名表中的道路名称,如果是,则用所述道路名称与待关联POI数据的其他字段构成新的待关联POI数据。
其中,所述数据坐标处理单元具体包括:
坐标提取单元,用于从所述待关联POI数据中提取坐标经纬度;
坐标处理单元,用于将所述坐标提取单元提取的坐标经纬度拆分为经度坐标x0和纬度坐标y0,并用经度坐标x0和纬度坐标y0与待关联POI数据的其他字段构成新的待关联POI数据。
对于经纬度坐标准确的待关联POI数据,本发明实施例提供的数据子集获取单元132具体包括:
坐标计算单元,用于将新的待关联POI数据的经度坐标x0和纬度坐标y0代入
ry=(y0*π)/180.0/3600000.0
sx = sin ( s r * 1000.0 * 2.0 )
x 1 = ar cos ( 1 - 2 sx 2 - sin 2 ( ry ) ) cos 2 ( ry ) ) / ( π / 180.0 / 3600000.0 )
y 1 = ( ar cos ( 1 - 2 s x 2 ) ) * 3600000.0 π / 180 , 计算得到x1和y1,其中,r为地球半径,s为关联距离;
目标关联数据子集获取单元,用于在预置的目标关联POI数据集中,选择经度坐标大于x0-x1,小于x0+x1,且纬度坐标大于y0-y1,小于y0+y1的目标关联POI数据构成目标关联POI数据子集。
对于类型准确的待关联POI数据,本发明实施例提供的数据子集获取单元132具体包括:
类型代码提取单元,用于从所述新的待关联数据中提取类型代码;
坐标查询单元,用于在预置的类型规则配置表中,查找所述类型代码对应的经度坐标x1和纬度坐标y1;
目标关联数据子集获取单元,用于在预置的目标关联POI数据集中,选择经度坐标大于x0-x1,小于x0+x1,且纬度坐标大于y0-y1,小于y0+y1的目标关联POI数据构成目标关联POI数据子集。
若待关联POI数据在前两种数据子集获取单元132划定的关联范围内无法关联到相同的POI数据,本发明实施例还提供了一种数据子集获取单元132,该单元具体包括:
字符获取单元,用于从新的待关联POI数据的地址的第j位开始取出i个字符;
其中,i的初始值为POI数据地址的长度值,j的初始值为0;
地址匹配单元,用于判断预置的目标关联POI数据集中是否有目标关联POI数据的地址与所述i个字符匹配,如果有,则目标关联数据添加单元,如果没有,则触发第一状态判断单元;
目标关联数据添加单元,用于将目标关联POI数据加入所述新的待关联POI数据的目标关联POI数据子集中;
第一状态判断单元,用于判断j是否大于地址的长度减去i,如果小于,则j=j+1,并触发所述字符获取单元,如果大于,则触发第二状态判断单元;
第二状态判断单元,用于判断i是否小于1,如果小于1,则结束,如果大于1,则i=i-1,j=0,触发所述字符获取单元。
本发明实施例提供的第一种数据关联单元133具体为末端对齐数据关联单元:
所述末端对齐数据关联单元,用于将新的待关联POI数据的名称与目标关联POI数据子集中POI数据的名称进行比较,若两个名称有末端对齐的包含关系,则将新的待关联POI数据与目标关联POI数据标记为相同的POI数据。
本发明实施例提供第二种数据关联单元133为类型一致数据关联单元:
所述类型一致数据关联单元,用于将所述新的待关联POI数据的类型代码与所述目标关联POI数据子集中的POI数据的类型代码进行比较,若两个类型代码一致,则将新的待关联POI数据与目标关联POI数据标记为相同的POI数据。
本发明实施例提供的第三种数据关联单元133具体包括:
名称一致数据关联单元,用于将所述新的待关联POI数据的名称与所述目标关联POI数据子集中的POI数据的名称进行比较,若两个名称完全一致,则触发类型一致数据关联单元;
所述类型一致数据关联单元,用于将两个POI数据的类型代码进行比较,若两个类型代码一致,则将新的待关联POI数据与目标关联POI数据标记为相同的POI数据。
以上各个单元的具体应用方式请参见前文方法描述,此处不再赘述。
以上对本发明所提供的一种兴趣点数据关联方法及装置进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (20)

1.一种兴趣点数据关联方法,其特征在于,包括:
读取一条待关联兴趣点数据;
对所述待关联兴趣点数据的名称、地址及坐标分别进行处理,得到新的待关联兴趣点数据,具体包括:
从待关联兴趣点数据的名称中,删除名称结尾处的括号及括号内的内容、删除预置的行政区划表中的行政区划前缀、删除预置的后缀表中的后缀;将剩余的名称中的词用同义词替换,得到新名称,用新名称与待关联兴趣点数据中的其他字段构成新的待关联兴趣点数据,或者,将剩余的名称中的连锁店名称作为名称字段与待关联兴趣点数据的其他字段构成新的待关联兴趣点数据,其中,被删除行政区划前缀的相邻词不是后缀、被删除后缀的相邻词不是行政区划前缀;
从待关联兴趣点数据的地址中,删除行政区划前缀、删除从左至右查找到的且没有位于地址首位的第一个数字、删除所述第一个数字右侧的字符及所述第一个数字左侧的天干和/或特殊符号;将剩余的地址中的词用同义词替换得到新地址,将所述新地址与待关联兴趣点数据中的其他字段构成新的待关联兴趣点数据,或者将剩余地址中的道路名称作为地址字段与待关联兴趣点数据的其他字段构成新的待关联兴趣点数据;
从待关联兴趣点数据的坐标中,提取经度坐标和纬度坐标,将所述经度坐标和纬度坐标作为坐标字段与待关联兴趣点数据的其他字段构成新的待关联兴趣点数据;
从预置的目标关联兴趣点数据集中,获取与所述新的待关联兴趣点数据的坐标相同或相近、地址相同或相似的目标关联兴趣点数据子集;
用所述新的待关联兴趣点数据的属性与所述目标关联兴趣点数据子集中兴趣点数据的属性进行比较,得到相同的兴趣点数据。
2.如权利要求1所述的兴趣点数据关联方法,其特征在于,所述方法具体包括:
判断待关联兴趣点数据的名称是否以括号为结尾,如果是,则删除名称中的括号及括号内的字符,再判断名称是否以预置的行政区划表中的行政区划为前缀;如果名称不是以括号为结尾,则判断名称是否以预置的行政区划表中的行政区划为前缀;
如果名称不是以行政区划表中的行政区划为前缀,则判断名称是否以预置后缀表中的词为后缀;
如果名称是以行政区划表中的行政区划为前缀,则判断前缀相邻的词是否为预置的后缀表中的词,如果前缀相邻的词不是后缀表中的后缀,则删除名称中的前缀,再判断删除前缀的名称是否以预置后缀表中的词为后缀;如果前缀相邻的词是后缀表中的后缀,则判断名称是否以后缀表中的词为后缀;
如果名称不是以后缀表中的词为后缀,则判断名称中的词在预置的同义词表中是否有对应的同义词;
如果名称是以后缀表中的词为后缀,则判断后缀相邻的词是否为行政区划表中的词,如果后缀相邻的词不是行政区划表中的词,则删除名称的后缀,再判断名称中的词在预置的同义词表中是否有对应的同义词;如果后缀相邻的词是行政区划表中的词,则判断名称中的词在预置的同义词表中是否有对应的同义词;
如果名称中的词在同义词表中有同义词,则将名称中的词用同义词替换,得到新名称,用所述新名称与所述待关联兴趣点数据的其他字段构成新的待关联兴趣点数据,再判断名称是否包含预置的连锁店表中的连锁店名称,如果包含,则用所述连锁店名称作为名称字段与所述待关联兴趣点数据的其他字段构成新的待关联兴趣点数据,如果不包含连锁店名称,则结束;
如果名称中的词在同义词表中没有同义词,则判断名称是否包含预置的连锁店表中的连锁店名称,如果包含,则用所述连锁店名称作为名称字段与待关联兴趣点数据的其他字段构成新的待关联兴趣点数据,如果不包含,则结束。
3.如权利要求2所述的兴趣点数据关联方法,其特征在于,所述方法具体包括:
判断所述待关联兴趣点数据的地址中是否以预置的行政区划表中的行政区划为前缀,如果是,则删除地址中的行政区划,再从地址中从左至右查找数字,如果否,则在地址中从左至右查找数字;
若没有查找到数字,则判断地址中的词在预置的同义词表中是否有对应的同义词;
若第一个查找到的数字没有位于地址的首位,则删除地址中所述数字及其右侧的字符,再判断所述数字左侧的字符是否为天干和/或特殊符号,若所述数字左侧的字符为天干和/或特殊符号,则从地址中删除所述天干和/或特殊符号,再判断地址中的词在预置的同义词表中是否有对应的同义词;若所述数字左侧的字符不是天干和/或特殊符号,则判断地址中的词在预置的同义词表中是否有对应的同义词;
如果地址中的词在预置的同义词表中有对应的同义词,则将地址中的词用同义词替换,得到新地址,用所述新地址与待关联兴趣点数据的其他字段构成新的待关联兴趣点数据,再判断地址中是否包含预置的路表名中的道路名称,如果包含,则用道路名称作为地址字段与所述待关联兴趣点数据的其他字段构成新的待关联兴趣点数据,如果不包含,则结束;
如果地址中的词在预置的同义词表中没有对应的同义词,则判断地址中是否包含预置路名表中的道路名称,如果包含,则用所述道路名称作为地址字段与待关联兴趣点数据的其他字段构成新的待关联兴趣点数据,如果不包含,则结束。
4.如权利要求3所述的兴趣点数据关联方法,其特征在于,所述方法具体包括:
从所述待关联兴趣点数据中提取坐标经纬度;
将所述坐标经纬度拆分为经度坐标x0和纬度坐标y0;
用经度坐标x0和纬度坐标y0作为坐标字段与待关联兴趣点数据的其他字段构成新的待关联兴趣点数据。
5.如权利要求4所述的兴趣点数据关联方法,从预置的目标关联兴趣点数据集中,获取与所述新的待关联兴趣点数据的坐标相同或相近、地址相同或相似的目标关联兴趣点数据子集具体包括:
将新的待关联兴趣点数据的经度坐标x0和纬度坐标y0代入
ry=(y0*π)/180.0/3600000.0
sx = sin ( s r * 1000.0 * 2.0 )
x 1 = ar cos ( 1 - 2 sx 2 - sin 2 ( ry ) cos 2 ( ry ) ) / ( π / 180.0 / 3600000.0 )
Figure FDA0000374610950000043
计算得到x1和y1,其中,r为地球半径,s为关联距离;
在预置的目标关联兴趣点数据集中,选择经度坐标大于x0-x1,小于x0+x1,且纬度坐标大于y0-y1,小于y0+y1的目标关联兴趣点数据构成目标关联兴趣点数据子集。
6.如权利要求4所述的兴趣点数据关联方法,其特征在于,若所述待关联兴趣点数据的类型准确,则从预置的目标关联兴趣点数据集中,获取与所述新的待关联兴趣点数据的坐标相同或相近、地址相同或相似的目标关联兴趣点数据子集具体包括:
从所述新的待关联数据中提取类型代码;
在预置的类型规则配置表中,查找所述类型代码对应的经度坐标x1和纬度坐标y1;
在预置的目标关联兴趣点数据集中,选择经度坐标大于x0-x1,小于x0+x1,且纬度坐标大于y0-y1,小于y0+y1的目标关联兴趣点数据构成目标关联兴趣点数据子集。
7.如权利要求4所述的兴趣点数据关联方法,其特征在于,从预置的目标关联兴趣点数据集中,获取与所述新的待关联兴趣点数据的坐标相同或相近、地址相同或相似的目标关联兴趣点数据子集具体包括:
第一步:从新的待关联兴趣点数据的地址的第j位开始取出i个字符;
其中,i的初始值为新的待关联兴趣点数据地址的长度值,j的初始值为0;
第二步:判断预置的目标关联兴趣点数据集中是否有目标关联兴趣点数据的地址与所述i个字符匹配,如果有,则进入第三步,如果没有,则进入第四步;
第三步:将目标关联兴趣点数据加入所述新的待关联兴趣点数据的目标关联兴趣点数据子集中;
第四步:判断j是否大于地址的长度减去i,如果小于,则j=j+1,并返回第一步,如果大于,则进入第五步;
第五步:判断i是否小于1,如果小于1,则结束,如果大于1,则i=i-1,j=0,返回第一步。
8.如权利要求5或6或7所述的兴趣点数据关联方法,其特征在于,所述将新的待关联兴趣点数据的属性与所述目标关联兴趣点数据子集中兴趣点数据的属性进行比较,得到相同的兴趣点数据具体包括:
将新的待关联兴趣点数据的名称与目标关联兴趣点数据子集中兴趣点数据的名称进行比较,若两个名称有末端对齐的包含关系,则将新的待关联兴趣点数据与目标关联兴趣点数据标记为相同的兴趣点数据,其中,所述两个名称的末端对齐包含关系是指:两个名称相同或者一个名称是另一个名称的后半部分。
9.如权利要求6所述的兴趣点数据关联方法,其特征在于,所述将新的待关联兴趣点数据的属性与所述目标关联兴趣点数据子集中兴趣点数据的属性进行比较,得到相同的兴趣点数据具体包括:
将所述新的待关联兴趣点数据的类型代码与所述目标关联兴趣点数据子集中的兴趣点数据的类型代码进行比较,若两个类型代码一致,则将新的待关联兴趣点数据与目标关联兴趣点数据标记为相同的兴趣点数据。
10.如权利要求6所述的兴趣点数据关联方法,其特征在于,所述将新的待关联兴趣点数据的属性与所述目标关联兴趣点数据子集中兴趣点数据的属性进行比较,得到相同的兴趣点数据具体包括:
将所述新的待关联兴趣点数据的名称与所述目标关联兴趣点数据子集中的兴趣点数据的名称进行比较,若两个名称完全一致,则将两个兴趣点数据的类型代码进行比较,若两个类型代码一致,则将新的待关联兴趣点数据与目标关联兴趣点数据标记为相同的兴趣点数据。
11.一种兴趣点数据关联装置,其特征在于,包括:
数据读取单元,用于读取一条待关联兴趣点数据;
数据处理单元,用于对所述待关联兴趣点数据的名称、地址及坐标分别进行处理,得到新的待关联兴趣点数据,具体包括:
数据名称处理单元,用于从待关联兴趣点数据的名称中,删除名称结尾处的括号及括号内的内容、删除预置的行政区划表中的行政区划前缀、删除预置的后缀表中的后缀;将剩余的名称中的词用同义词替换,得到新名称,用新名称与待关联兴趣点数据中的其他字段构成新的待关联兴趣点数据,或者,将剩余的名称中的连锁店名称作为名称字段与待关联兴趣点数据的其他字段构成新的待关联兴趣点数据,其中,被删除行政区划前缀的相邻词不是后缀、被删除后缀的相邻词不是行政区划前缀;
数据地址处理单元,用于从待关联兴趣点数据的地址中,删除行政区划前缀、删除从左至右查找到的且没有位于地址首位的第一个数字、删除所述第一个数字右侧的字符及所述第一个数字左侧的天干和/或特殊符号;将剩余的地址中的词用同义词替换得到新地址,将所述新地址与待关联兴趣点数据中的其他字段构成新的待关联兴趣点数据,或者将剩余地址中的道路名称作为地址字段与待关联兴趣点数据的其他字段构成新的待关联兴趣点数据;
数据坐标处理单元,用于从待关联兴趣点数据的坐标中,提取经度坐标和纬度坐标,将所述经度坐标和纬度坐标作为坐标字段与待关联兴趣点数据的其他字段构成新的待关联兴趣点数据;
数据子集获取单元,用于从预置的目标关联兴趣点数据集中,获取与所述新的待关联兴趣点数据的坐标相同或者相近、地址相同或者相似的目标关联兴趣点数据子集;
数据关联单元,用于用所述新的待关联兴趣点数据的属性与所述目标关联兴趣点数据子集中兴趣点数据的属性进行比较,得到相同的兴趣点数据。
12.如权利要求11所述的兴趣点数据关联装置,其特征在于,所述数据名称处理单元具体包括:
括号处理单元,用于判断待关联兴趣点数据的名称是否以括号为结尾,如果不是,则触发名称前缀处理单元,如果是,则删除名称中的括号及括号内的字符,再触发名称前缀处理单元;
名称前缀处理单元,用于判断经过所述括号处理单元处理的名称是否以预置的行政区划表中的行政区划为前缀,如果不以行政区划表中的行政区划为前缀,则触发名称后缀处理单元,如果是以行政区划表中的行政区划为前缀,则判断前缀相邻的词是否为预置的后缀表中的词,如果前缀相邻的词不是后缀表中的词,则删除名称的前缀,再触发名称后缀处理单元,如果是前缀相邻的词是后缀表中的词,则触发名称后缀处理单元;
名称后缀处理单元,用于判断经过所述名称前缀处理单元处理的名称是否以后缀表中的词为后缀,如果不是,则触发名称同义词处理单元,如果是,则判断后缀相邻的词是否为行政区划表中的词,如果是行政区划表中的词,则触发名称同义词处理单元,如果不是行政区划表中的词,则删除名称的后缀,再触发名称同义词处理单元;
名称同义词处理单元,用于判断经过所述名称后缀处理单元处理的名称中的词在预置的同义词表中是否有对应的同义词,如果有,则将名称中的词用同义词替换,得到新名称,用所述新名称与所述待关联兴趣点数据的其他字段构成新的待关联兴趣点数据,如果没有,则触发连锁店处理单元;
连锁店处理单元,用判断经过所述名称同义词处理单元处理的名称是否包含预置的连锁店表中的连锁店名称,如果包含,则用所述连锁店名称作为名称字段与待关联兴趣点数据的其他字段构成新的待关联兴趣点数据,如果不包含,则结束。
13.如权利要求12所述的兴趣点数据关联装置,其特征在于,所述数据地址处理单元具体包括:
地址前缀处理单元,用于判断所述待关联兴趣点数据的地址中是否以预置的行政区划表中的行政区划为前缀,如果否,则触发数字处理单元,如果是,则删除地址中的行政区划,再触发数字处理单元;
数字处理单元,用于在经过所述地址前缀处理单元处理的地址中从左至右查找数字,若没有查找到数字,则触发地址同义词处理单元,若第一个查找到的数字没有位于地址的首位,则删除地址中所述数字及其右侧的字符,再判断所述数字左侧的字符是否为天干和/或特殊符号;若所述数字左侧的字符为天干和/或特殊符号,则从地址中删除所述天干和/或特殊符号,再触发地址同义词处理单元,若所述数字左侧的字符不是天干和/或特殊符号,则触发地址同义词处理单元;
地址同义词处理单元,用于判断经过所述数字处理单元处理的地址中的词在预置的同义词表中是否有对应的同义词,如果有,则将地址中的词用同义词替换,得到新地址,用所述新地址与待关联兴趣点数据的其他字段构成新的待关联兴趣点数据,如果没有,则触发道路名称处理单元;
道路名称处理单元,用于判断经过所述地址同义词处理单元处理的地址中是否包含预置路名表中的道路名称,如果是,则用所述道路名称作为地址字段与待关联兴趣点数据的其他字段构成新的待关联兴趣点数据,如果否,则结束。
14.如权利要求13所述的兴趣点数据关联装置,其特征在于,所述数据坐标处理单元具体包括:
坐标提取单元,用于从所述待关联兴趣点数据中提取坐标经纬度;
坐标处理单元,用于将所述坐标提取单元提取的坐标经纬度拆分为经度坐标x0和纬度坐标y0,并用经度坐标x0和纬度坐标y0作为坐标字段与待关联兴趣点数据的其他字段构成新的待关联兴趣点数据。
15.如权利要求14所述的兴趣点数据关联装置,其特征在于,所述数据子集获取单元具体包括:
坐标计算单元,用于将新的待关联兴趣点数据的经度坐标x0和纬度坐标y0代入
ry=(y0*π)/180.0/3600000.0
sx = sin ( s r * 1000.0 * 2.0 )
x 1 = ar cos ( 1 - 2 sx 2 - sin 2 ( ry ) cos 2 ( ry ) ) / ( π 180.0 / 3600000.0 )
Figure FDA0000374610950000092
计算得到x1和y1,其中,r为地球半径,s为关联距离;
目标关联数据子集获取单元,用于在预置的目标关联兴趣点数据集中,选择经度坐标大于x0-x1,小于x0+x1,且纬度坐标大于y0-y1,小于y0+y1的目标关联兴趣点数据构成目标关联兴趣点数据子集。
16.如权利要求14所述的兴趣点数据关联装置,其特征在于,若所述待关联兴趣点数据的类型准确,则所述数据子集获取单元具体包括:
类型代码提取单元,用于从所述新的待关联数据中提取类型代码;
坐标查询单元,用于在预置的类型规则配置表中,查找所述类型代码对应的经度坐标x1和纬度坐标y1;
目标关联数据子集获取单元,用于在预置的目标关联兴趣点数据集中,选择经度坐标大于x0-x1,小于x0+x1,且纬度坐标大于y0-y1,小于y0+y1的目标关联兴趣点数据构成目标关联兴趣点数据子集。
17.如权利要求14所述的兴趣点数据关联装置,其特征在于,所述数据子集获取单元具体包括:
字符获取单元,用于从新的待关联兴趣点数据的地址的第j位开始取出i个字符;
其中,i的初始值为新的待关联兴趣点数据地址的长度值,j的初始值为0;
地址匹配单元,用于判断预置的目标关联兴趣点数据集中是否有目标关联兴趣点数据的地址与所述i个字符匹配,如果有,则触发目标关联数据添加单元,如果没有,则触发第一状态判断单元;
目标关联数据添加单元,用于将目标关联兴趣点数据加入所述新的待关联兴趣点数据的目标关联兴趣点数据子集中;
第一状态判断单元,用于判断j是否大于地址的长度减去i,如果小于,则j=j+1,并触发所述字符获取单元,如果大于,则触发第二状态判断单元;
第二状态判断单元,用于判断i是否小于1,如果小于1,则结束,如果大于1,则i=i-1,j=0,触发所述字符获取单元。
18.如权利要求15或16或17所述的兴趣点数据关联装置,其特征在于,所述数据关联单元具体为末端对齐数据关联单元:
所述末端对齐数据关联单元,用于将新的待关联兴趣点数据的名称与目标关联兴趣点数据子集中兴趣点数据的名称进行比较,若两个名称有末端对齐的包含关系,则将新的待关联兴趣点数据与目标关联兴趣点数据标记为相同的兴趣点数据,其中,所述两个名称的末端对齐包含关系是指:两个名称相同或者一个名称是另一个名称的后半部分。
19.如权利要求16所述的兴趣点数据关联装置,其特征在于,所述数据关联单元具体为类型一致数据关联单元:
所述类型一致数据关联单元,用于将所述新的待关联兴趣点数据的类型代码与所述目标关联兴趣点数据子集中的兴趣点数据的类型代码进行比较,若两个类型代码一致,则将新的待关联兴趣点数据与目标关联兴趣点数据标记为相同的兴趣点数据。
20.如权利要求16所述的兴趣点数据关联装置,其特征在于,所述数据关联单元具体包括:
名称一致数据关联单元,用于将所述新的待关联兴趣点数据的名称与所述目标关联兴趣点数据子集中的兴趣点数据的名称进行比较,若两个名称完全一致,则触发类型一致数据关联单元;
所述类型一致数据关联单元,用于将两个兴趣点数据的类型代码进行比较,若两个类型代码一致,则将新的待关联兴趣点数据与目标关联兴趣点数据标记为相同的兴趣点数据。
CN200910089542.XA 2009-07-23 2009-07-23 兴趣点数据关联方法及装置 Active CN101963962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910089542.XA CN101963962B (zh) 2009-07-23 2009-07-23 兴趣点数据关联方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910089542.XA CN101963962B (zh) 2009-07-23 2009-07-23 兴趣点数据关联方法及装置

Publications (2)

Publication Number Publication Date
CN101963962A CN101963962A (zh) 2011-02-02
CN101963962B true CN101963962B (zh) 2014-02-26

Family

ID=43516836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910089542.XA Active CN101963962B (zh) 2009-07-23 2009-07-23 兴趣点数据关联方法及装置

Country Status (1)

Country Link
CN (1) CN101963962B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750282B (zh) * 2011-04-19 2014-10-22 北京百度网讯科技有限公司 同义词模板的挖掘方法和装置以及同义词挖掘方法和装置
CN103514199A (zh) * 2012-06-25 2014-01-15 高德软件有限公司 Poi数据处理方法及其装置、poi检索方法及其装置
CN104216895B (zh) * 2013-05-31 2018-01-30 高德软件有限公司 一种生成poi数据的方法及装置
CN103473290B (zh) * 2013-08-30 2017-10-31 百度在线网络技术(北京)有限公司 兴趣点的属性数据的处理方法及装置
CN104572645B (zh) * 2013-10-11 2020-07-10 阿里巴巴(中国)有限公司 兴趣点数据关联方法及装置
CN103678655B (zh) * 2013-12-23 2017-02-08 国网浙江省电力公司 一种信息校核方法和装置
CN105808609B (zh) * 2014-12-31 2020-04-14 高德软件有限公司 一种信息点数据冗余的判别方法和设备
CN104699835B (zh) * 2015-03-31 2016-09-28 北京奇虎科技有限公司 用于确定网页页面中包括兴趣点poi数据的方法及装置
CN105279246A (zh) * 2015-09-30 2016-01-27 北京奇虎科技有限公司 一种判断网页中是否包含指定兴趣点poi的方法和装置
CN105825510B (zh) * 2016-03-17 2017-05-17 中南大学 一种兴趣点与道路网的自动配准方法
CN106503071B (zh) * 2016-09-30 2020-05-29 百度在线网络技术(北京)有限公司 Poi信息的处理方法及装置
CN110968654B (zh) * 2018-09-29 2023-10-20 阿里巴巴集团控股有限公司 文本数据的地址类目确定方法、设备以及系统
CN113568951A (zh) * 2021-07-30 2021-10-29 拉扎斯网络科技(上海)有限公司 一种数据挖掘、处理方法和装置,存储介质和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299217A (zh) * 2008-06-06 2008-11-05 北京搜狗科技发展有限公司 一种地图信息处理的方法、装置和系统
CN101388023A (zh) * 2008-09-12 2009-03-18 北京搜狗科技发展有限公司 电子地图兴趣点数据冗余检测方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299217A (zh) * 2008-06-06 2008-11-05 北京搜狗科技发展有限公司 一种地图信息处理的方法、装置和系统
CN101388023A (zh) * 2008-09-12 2009-03-18 北京搜狗科技发展有限公司 电子地图兴趣点数据冗余检测方法和系统

Also Published As

Publication number Publication date
CN101963962A (zh) 2011-02-02

Similar Documents

Publication Publication Date Title
CN101963962B (zh) 兴趣点数据关联方法及装置
CN109145169B (zh) 一种基于统计分词的地址匹配方法
CN101313300B (zh) 本地搜索
US9652474B2 (en) Providing regional content by matching geographical properties
CN103200520B (zh) 一种利用Wi-Fi的移动终端快速精确定位方法
CN101777082A (zh) 一种文字信息与地理信息的关联方法及系统
CN106294458A (zh) 一种地图兴趣点更新方法及装置
CN106874287A (zh) 一种兴趣点poi地址编码的处理方法及装置
CN102147795A (zh) 兴趣点检索方法、兴趣点检索装置和导航系统
CN104699835A (zh) 用于确定网页页面中包括兴趣点poi数据的方法及装置
CN109492066B (zh) 一种兴趣点分支名称的确定方法、装置、设备及存储介质
CN103714092A (zh) 一种地理位置的搜索方法和装置
CN101794277B (zh) 一种网络文字信息中嵌入地理标签的方法及系统
CN104899243A (zh) 检测兴趣点poi数据准确性的方法及装置
Ahlers et al. Location-based Web search
Ahlers et al. Retrieving address-based locations from the web
CN107908627A (zh) 一种多语言的地图poi 搜索系统
CN103902672A (zh) 问答系统及其问答处理方法
CN113360789A (zh) 兴趣点数据处理方法、装置、电子设备及存储介质
Srivastava et al. A geocoding framework powered by delivery data
Moura et al. Reference data enhancement for geographic information retrieval using linked data
CN108959609A (zh) 店铺地址的更新方法及装置
CN106155998A (zh) 一种数据处理方法及装置
Watters et al. GeoSearcher: Location‐based ranking of search engine results
EP3150962B1 (en) Indexing and searching of a second soi object with respect to a first soi object

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200515

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing city Haidian District No. three Suzhou Street Daheng Technology Building South 18

Patentee before: AUTONAVI SOFTWARE Co.,Ltd.