CN105045880A - 一种不同数据源的兴趣点的模糊匹配方法 - Google Patents

一种不同数据源的兴趣点的模糊匹配方法 Download PDF

Info

Publication number
CN105045880A
CN105045880A CN201510430517.9A CN201510430517A CN105045880A CN 105045880 A CN105045880 A CN 105045880A CN 201510430517 A CN201510430517 A CN 201510430517A CN 105045880 A CN105045880 A CN 105045880A
Authority
CN
China
Prior art keywords
point
interest
address
matched
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510430517.9A
Other languages
English (en)
Other versions
CN105045880B (zh
Inventor
郭文忠
陈羽中
於志勇
赵水源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201510430517.9A priority Critical patent/CN105045880B/zh
Publication of CN105045880A publication Critical patent/CN105045880A/zh
Application granted granted Critical
Publication of CN105045880B publication Critical patent/CN105045880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种不同数据源的兴趣点的模糊匹配方法,包括以下步骤:1、分别从两个不同的网站中采集兴趣点数据构成数据集A、B;2、提取名称完全匹配的兴趣点配对形成数据样本,通过数据样本计算平均位置偏差并确定匹配范围;3、分别从数据集A、B中取待匹配点和待匹配集;4、对待匹配点和待匹配集中所有兴趣点的名称进行逐级地址分词,然后通过地址词典过滤名称中的地址信息;5、采用KMP算法对待匹配点和待匹配集中每个兴趣点进行匹配,通过匹配率判断兴趣点是否相同;6、同理,对数据集A中的其他兴趣点,在数据集B中找出与其匹配的兴趣点。该方法有利于精确匹配不同数据源的兴趣点数据,过滤重复的数据。

Description

一种不同数据源的兴趣点的模糊匹配方法
技术领域
本发明涉及字符串模糊匹配技术领域,特别涉及一种不同数据源的兴趣点的模糊匹配方法。
背景技术
随着大数据时代的到来,智慧城市服务项目受到了许多国内外学者的关注。数以百万的用户提供了大量的兴趣点数据及签到数据,这些数据为智慧城市服务项目提供了数据源。但是不同源提供的兴趣点数据存在重复的可能,导致数据库存储时产生冗余,并且可能影响计算结果的准确性。不同数据源的兴趣点数据的经纬度采用的是不同的标准,所以很难通过兴趣点的经纬度直接对相同的兴趣点进行匹配,进而需要一种方法来匹配不同数据源的兴趣点数据。
发明内容
本发明的目的在于提供一种不同数据源的兴趣点的模糊匹配方法,该方法有利于精确匹配不同数据源的兴趣点数据,过滤重复的数据。
为实现上述目的,本发明的技术方案是:一种不同数据源的兴趣点的模糊匹配方法,包括以下步骤:
步骤S1:分别从两个不同的网站中采集兴趣点数据,其中包括兴趣点的名称、地址、经度、纬度信息,构成数据集A和数据集B;
步骤S2:从所述数据集A、B中找出名称完全匹配的兴趣点配对形成数据样本,计算数据样本中所有配对的兴趣点之间的位置偏差,所述位置偏差包括两兴趣点之间的偏差距离和偏差角度;去噪处理后,计算平均位置偏差,包括平均偏差距离和平均偏差角度,并确定匹配范围;
步骤S3:取数据集A中的一个兴趣点作为待匹配点,根据步骤S2获得的平均偏差距离d、平均偏差角度o,找出数据集B中所有在待匹配点匹配范围内的兴趣点组成待匹配集;
步骤S4:对地址分词字段建立逐级的父子关系,并根据地址分词字段之间的关系对所述待匹配点的地址进行逐级地址分词,并采用地址分词得到的地址字段形成临时的地址词典,然后通过所述临时的地址词典过滤待匹配点和待匹配集中所有兴趣点的名称中的地址信息;
步骤S5:基于已过滤掉地址信息的名称,采用KMP算法对待匹配点和待匹配集中每个兴趣点进行匹配,当某个兴趣点使匹配率最大且所述匹配率大于设定值时,则判定该兴趣点与待匹配点属于同一个兴趣点;
步骤S6:对数据集A中的其他兴趣点,按步骤S3~S5的方法,在数据集B中找出与其匹配的兴趣点。
进一步的,所述待匹配点匹配范围为:以与待匹配点偏差的距离为平均偏差距离d、偏差的角度为平均偏差角度o的点为中心,以匹配半径r为半径的圆。
进一步的,步骤S2中,形成数据样本并确定平均位置偏差和匹配范围的方法为:
步骤S201:找出所述数据集A、B中名称完全匹配的兴趣点,配对形成数据样本集合{TS(a1,b1),TS(a2,b2),…,TS(ai,bi),…,TS(an,bn)},TS(ai,bi)表示第i个完全匹配对,即数据集A的兴趣点ai与数据集B的兴趣点bi的名称完全匹配,i∈{1,2,…,n},n为集合长度;
步骤S202:对每个完全匹配对TS(ai,bi)求ai与bi之间的偏差距离和偏差角度,得到与数据样本集合对应的偏差距离集合{d1,d2,…,di,…,dn}和偏差角度集合{o1,o2,…,oi,…,on},di表示ai与bi之间的偏差距离,oi表示ai与bi之间的偏差角度;计算方法如下:
上式中,lat(ai)、lat(bi)分别为兴趣点ai、bi的纬度,lon(ai)、lon(bi)分别为兴趣点ai、bi的经度,R为地球半径;
上式中,Rj为极半径;
步骤S203:分别去除所述偏差距离集合和偏差角度集合的噪声点,得到去噪后的偏差距离集合{dp|p∈D}和去噪后的偏差角度集合{oq|q∈O},其中D为所述偏差距离集合中非噪声点的下标的集合,O为所述偏差角度集合中非噪声点的下标的集合,保留下标同时存在于集合D和集合O中的偏差距离和偏差角度,形成处理后的偏差距离集合{dj|j∈N}和处理后的偏差角度集合{oj|j∈N},其中N=D∩O,即为同时存在于集合D和集合O中的下标集合;
步骤S204:求取处理后的偏差距离集合的平均偏差距离d和处理后的偏差角度集合的平均偏差角度o,所述平均偏差距离d和平均偏差角度o确定了匹配范围的中心,求取处理后的偏差距离集合中两两距离差,最大的距离差r即为匹配范围的匹配半径,计算方法为:
上式中,dj∈{dj|j∈N},oj∈{oj|j∈N},len(N)表示下标集合N的长度,x、y∈N且x≠y。
进一步的,在步骤S203中,采用3倍均方差法去除所述偏差距离集合和偏差角度集合的噪声点,计算方法为:
上式中,当APi大于0时,则di为所述偏差距离集合的噪声点,去除;
上式中,当BPi大于0时,则oi为所述偏差角度集合的噪声点,去除。
进一步的,步骤S4中,进行逐级地址分词的方法如下:
步骤S401:地址分词字段包括省级字段F1、市级字段F2、县区级字段F3、乡镇级字段F3、社区级字段F4和路级字段F5;
令F2从属父级别F1;F3从属父级别F1、F2;F4从属父级别F1、F2、F3;F5从属父级别F1、F2、F3、F4;F6从属父级别F1、F2、F3、F4、F5,从而建立地址分词字段之间的父子关系;
步骤S402:对兴趣点的地址执行F1级别的分词操作,分出省级的地址字段,然后依次执行F2、F3、F4、F5、F6级别的分词操作,依次分出市级、县区级、乡镇级、社区级和路级的地址字段,若某级别不存在,则继续进行下一级别的分词操作。
本发明的有益效果是将兴趣点的名称和地址相结合,提出了一种对不同数据源的兴趣点数据进行模糊匹配的方法,该方法修正了位置偏差并去除了兴趣点名称中的地址干扰,能够精确匹配不同数据源的兴趣点数据,过滤重复的兴趣点,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例的实现流程图。
图2是本发明实施例中确定平均位置偏差和匹配范围的流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明将兴趣点地址和名称相结合,通过不同数据源的兴趣点名称和地址进行模糊匹配。由于不同数据源的兴趣点位置偏差较大,进行大范围搜索耗时太多,所以需要缩小匹配范围,进一步的,由于一些兴趣点名称包含地址信息,而一些兴趣点名称不包含地址信息,使得匹配率较低,所以需要去除兴趣点名称中的地址干扰。本发明通过处理位置偏差和地址干扰对不同数据源的兴趣点进行匹配。
本发明为一种不同数据源的兴趣点的模糊匹配方法,如图1所示,包括以下步骤:
步骤S1:分别从两个不同的网站中采集兴趣点数据,其中包括兴趣点的名称、地址、经度、纬度等信息,构成数据集A和数据集B。
步骤S2:从所述数据集A、B中找出名称完全匹配的兴趣点配对形成数据样本,计算数据样本中所有配对的兴趣点之间的位置偏差,所述位置偏差包括两兴趣点之间的偏差距离和偏差角度;去噪处理后,计算平均位置偏差,包括平均偏差距离和平均偏差角度,并确定匹配范围。所述待匹配点匹配范围为:以与待匹配点偏差的距离为平均偏差距离d、偏差的角度为平均偏差角度o的点为中心,以匹配半径r为半径的圆。如图2所示,形成数据样本并确定平均位置偏差和匹配范围的具体方法为:
步骤S201:找出所述数据集A、B中名称完全匹配的兴趣点,配对形成数据样本集合{TS(a1,b1),TS(a2,b2),…,TS(ai,bi),…,TS(an,bn)},TS(ai,bi)表示第i个完全匹配对,即数据集A的兴趣点ai与数据集B的兴趣点bi的名称完全匹配,i∈{1,2,…,n},n为集合长度。
步骤S202:对每个完全匹配对TS(ai,bi)求ai与bi之间的偏差距离和偏差角度,得到与数据样本集合对应的偏差距离集合{d1,d2,…,di,…,dn}和偏差角度集合{o1,o2,…,oi,…,on},di表示ai与bi之间的偏差距离,oi表示ai与bi之间的偏差角度;计算方法如下:
上式中,lat(ai)、lat(bi)分别为兴趣点ai、bi的纬度,lon(ai)、lon(bi)分别为兴趣点ai、bi的经度,R为地球半径6378.137;
上式中,lat(ai)、lat(bi)分别为兴趣点ai、bi的纬度,lon(ai)、lon(bi)分别为兴趣点ai、bi的经度,R为地球半径6378.137,Rj为极半径6356.725。
步骤S203:分别采用3倍均方差法去除所述偏差距离集合和偏差角度集合的噪声点,得到去噪后的偏差距离集合{dp|p∈D}和去噪后的偏差角度集合{oq|q∈O},其中D为所述偏差距离集合中非噪声点的下标的集合,O为所述偏差角度集合中非噪声点的下标的集合,保留下标同时存在于集合D和集合O中的偏差距离和偏差角度,形成处理后的偏差距离集合{dj|j∈N}和处理后的偏差角度集合{oj|j∈N},其中N=D∩O,即为同时存在于集合D和集合O中的下标集合。
例如,去噪得到的偏差距离集合为{d1,d2,d4,…,dp,…},去噪得到的偏差角度集合{o1,o4,o5,…,oq,…},然后扫描两个集合,保留下标同时存在的偏差距离和偏差角度,形成处理后的偏差距离集合{d1,d4,…,dj,…}和处理后的偏差角度集合{o1,o4,…,oj,…},其中下标集合N为{1,4,…,j,…}。
在本实施例中,采用3倍均方差法去除所述偏差距离集合和偏差角度集合的噪声点的计算方法为:
上式中,当APi大于0时,则di为所述偏差距离集合的噪声点,去除;
上式中,当BPi大于0时,则oi为所述偏差角度集合的噪声点,去除。
步骤S204:求取处理后的偏差距离集合的平均偏差距离d和处理后的偏差角度集合的平均偏差角度o,所述平均偏差距离d和平均偏差角度o确定了匹配范围的中心,求取处理后的偏差距离集合中两两距离差,最大的距离差r即为匹配范围的匹配半径,计算方法为:
上式中,dj∈{dj|j∈N},oj∈{oj|j∈N},len(N)表示下标集合N的长度,x、y∈N且x≠y。
步骤S3:取数据集A中的一个兴趣点作为待匹配点,根据步骤S2获得的平均偏差距离d、平均偏差角度o,找出数据集B中所有在待匹配点匹配范围内的兴趣点组成待匹配集。
步骤S4:对地址分词字段建立逐级的父子关系,并根据地址分词字段之间的关系对所述待匹配点的地址进行逐级地址分词,并采用地址分词得到的地址字段形成临时的地址词典,然后通过所述临时的地址词典过滤待匹配点和待匹配集中所有兴趣点的名称中的地址信息。
具体的,进行逐级地址分词的方法如下:
步骤S401:地址分词字段包括省级字段F1、市级字段F2、县区级字段F3、乡镇级字段F3、社区级字段F4和路级字段F5,如:
F1=[省,直辖市]
F2=[市]
F3=[区,县]
F4=[街道,镇,乡]
F5=[社区,村,小区,大厦,里,弄,园,支弄,一区,二区,西里,公寓,宾馆,市场,广场,饭店,花园,特区,中心,西区,一里,二里,三里,四里,五里,寺,苑]
F6=[路,街,巷,头条,二条,三条];
令F2从属父级别F1;F3从属父级别F1、F2;F4从属父级别F1、F2、F3;F5从属父级别F1、F2、F3、F4;F6从属父级别F1、F2、F3、F4、F5,从而建立地址分词字段之间的父子关系;
步骤S402:对兴趣点的地址执行F1级别的分词操作,分出省级的地址字段,然后依次执行F2、F3、F4、F5、F6级别的分词操作,依次分出市级、县区级、乡镇级、社区级和路级的地址字段,若某级别不存在,则继续进行下一级别的分词操作;如待匹配点A的地址为“福建省福州市宝龙城市广场”,则分词结果为“福建省”、“福州市”、“宝龙城市广场”。
本发明是先通过对一个兴趣点的地址信息进行分词,如上例所述分词后得到“福建省”、“福州市”、“宝龙城市广场”,这几个词形成临时的地址词典,假设待匹配点A的名称为“肯德基(宝龙城市广场)”,这时候根据分词结果可将名称中的地址信息去除,得到“肯德基”,而待匹配集中的兴趣点B的名称为“肯德基”,地址信息去除后名称不变。这里表述的地址词典对于不同兴趣点是不一样的,并不是标准存在的,而是根据该兴趣点的地址分离出来的。因为如果采用标准的地址词典集合,每次兴趣点的名称去除地址信息的过程需要遍历整个地址词典集合,耗时太多。所以采取临时形成的地址词典。
步骤S5:基于已过滤掉地址信息的名称,采用KMP算法对待匹配点和待匹配集中每个兴趣点进行匹配,当某个兴趣点使匹配率最大且所述匹配率大于设定值时,则判定该兴趣点与待匹配点属于同一个兴趣点。KMP算法的核心在于对于每一个模式串会事先计算出模式串的内部匹配信息,在匹配失败时最大的移动模式串,以减少匹配次数,其计算方法为在已经匹配的模式串子串中,找出最长的相同的前缀和后缀,然后移动使它们重叠。
步骤S6:对数据集A中的其他兴趣点,按步骤S3~S5的方法,在数据集B中找出与其匹配的兴趣点。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (5)

1.一种不同数据源的兴趣点的模糊匹配方法,其特征在于,包括以下步骤:
步骤S1:分别从两个不同的网站中采集兴趣点数据,其中包括兴趣点的名称、地址、经度、纬度信息,构成数据集A和数据集B;
步骤S2:从所述数据集A、B中找出名称完全匹配的兴趣点配对形成数据样本,计算数据样本中所有配对的兴趣点之间的位置偏差,所述位置偏差包括两兴趣点之间的偏差距离和偏差角度;去噪处理后,计算平均位置偏差,包括平均偏差距离和平均偏差角度,并确定匹配范围;
步骤S3:取数据集A中的一个兴趣点作为待匹配点,根据步骤S2获得的平均偏差距离d、平均偏差角度o,找出数据集B中所有在待匹配点匹配范围内的兴趣点组成待匹配集;
步骤S4:对地址分词字段建立逐级的父子关系,并根据地址分词字段之间的关系对所述待匹配点的地址进行逐级地址分词,并采用地址分词得到的地址字段形成临时的地址词典,然后通过所述临时的地址词典过滤待匹配点和待匹配集中所有兴趣点的名称中的地址信息;
步骤S5:基于已过滤掉地址信息的名称,采用KMP算法对待匹配点和待匹配集中每个兴趣点进行匹配,当某个兴趣点使匹配率最大且所述匹配率大于设定值时,则判定该兴趣点与待匹配点属于同一个兴趣点;
步骤S6:对数据集A中的其他兴趣点,按步骤S3~S5的方法,在数据集B中找出与其匹配的兴趣点。
2.根据权利要求1所述的一种不同数据源的兴趣点的模糊匹配方法,其特征在于,所述待匹配点匹配范围为:以与待匹配点偏差的距离为平均偏差距离d、偏差的角度为平均偏差角度o的点为中心,以匹配半径r为半径的圆。
3.根据权利要求2所述的一种不同数据源的兴趣点的模糊匹配方法,其特征在于,步骤S2中,形成数据样本并确定平均位置偏差和匹配范围的方法为:
步骤S201:找出所述数据集A、B中名称完全匹配的兴趣点,配对形成数据样本集合{TS(a1,b1),TS(a2,b2),…,TS(ai,bi),…,TS(an,bn)},TS(ai,bi)表示第i个完全匹配对,即数据集A的兴趣点ai与数据集B的兴趣点bi的名称完全匹配,i∈{1,2,…,n},n为集合长度;
步骤S202:对每个完全匹配对TS(ai,bi)求ai与bi之间的偏差距离和偏差角度,得到与数据样本集合对应的偏差距离集合{d1,d2,…,di,…,dn}和偏差角度集合{o1,o2,…,oi,…,on},di表示ai与bi之间的偏差距离,oi表示ai与bi之间的偏差角度;计算方法如下:
上式中,lat(ai)、lat(bi)分别为兴趣点ai、bi的纬度,lon(ai)、lon(bi)分别为兴趣点ai、bi的经度,R为地球半径;
上式中,Rj为极半径;
步骤S203:分别去除所述偏差距离集合和偏差角度集合的噪声点,得到去噪后的偏差距离集合{dp|p∈D}和去噪后的偏差角度集合{oq|q∈O},其中D为所述偏差距离集合中非噪声点的下标的集合,O为所述偏差角度集合中非噪声点的下标的集合,保留下标同时存在于集合D和集合O中的偏差距离和偏差角度,形成处理后的偏差距离集合{dj|j∈N}和处理后的偏差角度集合{oj|j∈N},其中N=D∩O,即为同时存在于集合D和集合O中的下标集合;
步骤S204:求取处理后的偏差距离集合的平均偏差距离d和处理后的偏差角度集合的平均偏差角度o,所述平均偏差距离d和平均偏差角度o确定了匹配范围的中心,求取处理后的偏差距离集合中两两距离差,最大的距离差r即为匹配范围的匹配半径,计算方法为:
上式中,dj∈{dj|j∈N},oj∈{oj|j∈N},len(N)表示下标集合N的长度,x、y∈N且x≠y。
4.根据权利要求3所述的一种不同数据源的兴趣点的模糊匹配方法,其特征在于,在步骤S203中,采用3倍均方差法去除所述偏差距离集合和偏差角度集合的噪声点,计算方法为:
上式中,当APi大于0时,则di为所述偏差距离集合的噪声点,去除;
上式中,当BPi大于0时,则oi为所述偏差角度集合的噪声点,去除。
5.根据权利要求1所述的一种不同数据源的兴趣点的模糊匹配方法,其特征在于,步骤S4中,进行逐级地址分词的方法如下:
步骤S401:地址分词字段包括省级字段F1、市级字段F2、县区级字段F3、乡镇级字段F3、社区级字段F4和路级字段F5;
令F2从属父级别F1;F3从属父级别F1、F2;F4从属父级别F1、F2、F3;F5从属父级别F1、F2、F3、F4;F6从属父级别F1、F2、F3、F4、F5,从而建立地址分词字段之间的父子关系;
步骤S402:对兴趣点的地址执行F1级别的分词操作,分出省级的地址字段,然后依次执行F2、F3、F4、F5、F6级别的分词操作,依次分出市级、县区级、乡镇级、社区级和路级的地址字段,若某级别不存在,则继续进行下一级别的分词操作。
CN201510430517.9A 2015-07-22 2015-07-22 一种不同数据源的兴趣点的模糊匹配方法 Active CN105045880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510430517.9A CN105045880B (zh) 2015-07-22 2015-07-22 一种不同数据源的兴趣点的模糊匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510430517.9A CN105045880B (zh) 2015-07-22 2015-07-22 一种不同数据源的兴趣点的模糊匹配方法

Publications (2)

Publication Number Publication Date
CN105045880A true CN105045880A (zh) 2015-11-11
CN105045880B CN105045880B (zh) 2018-09-18

Family

ID=54452427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510430517.9A Active CN105045880B (zh) 2015-07-22 2015-07-22 一种不同数据源的兴趣点的模糊匹配方法

Country Status (1)

Country Link
CN (1) CN105045880B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919601A (zh) * 2015-12-25 2017-07-04 北京奇虎科技有限公司 从查询词中提取兴趣点的方法和装置
CN107196919A (zh) * 2017-04-27 2017-09-22 北京小米移动软件有限公司 一种匹配数据的方法和装置
CN107193884A (zh) * 2017-04-27 2017-09-22 北京小米移动软件有限公司 一种匹配数据的方法和装置
CN109657019A (zh) * 2018-11-13 2019-04-19 斑马网络技术有限公司 地图数据融合方法、服务器、系统、存储介质及电子设备
CN114322985A (zh) * 2021-12-24 2022-04-12 深圳依时货拉拉科技有限公司 电子地图推荐点展示方法、装置、设备及存储介质
CN114861062A (zh) * 2022-05-26 2022-08-05 北京百度网讯科技有限公司 信息过滤方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120066316A1 (en) * 2010-03-03 2012-03-15 Waldeck Technology, Llc Status update propagation based on crowd or poi similarity
CN102682128A (zh) * 2012-05-17 2012-09-19 厦门雅迅网络股份有限公司 一种用于兴趣点信息的排重方法
CN104102667A (zh) * 2013-04-11 2014-10-15 北京四维图新科技股份有限公司 一种poi信息差分方法和装置
CN104699818A (zh) * 2015-03-25 2015-06-10 武汉大学 一种多源异构的多属性poi融合方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120066316A1 (en) * 2010-03-03 2012-03-15 Waldeck Technology, Llc Status update propagation based on crowd or poi similarity
CN102682128A (zh) * 2012-05-17 2012-09-19 厦门雅迅网络股份有限公司 一种用于兴趣点信息的排重方法
CN104102667A (zh) * 2013-04-11 2014-10-15 北京四维图新科技股份有限公司 一种poi信息差分方法和装置
CN104699818A (zh) * 2015-03-25 2015-06-10 武汉大学 一种多源异构的多属性poi融合方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张巍等: "空间位置信息的多源POI数据融合", 《中国海洋大学学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919601A (zh) * 2015-12-25 2017-07-04 北京奇虎科技有限公司 从查询词中提取兴趣点的方法和装置
CN106919601B (zh) * 2015-12-25 2021-01-12 北京奇虎科技有限公司 从查询词中提取兴趣点的方法和装置
CN107196919A (zh) * 2017-04-27 2017-09-22 北京小米移动软件有限公司 一种匹配数据的方法和装置
CN107193884A (zh) * 2017-04-27 2017-09-22 北京小米移动软件有限公司 一种匹配数据的方法和装置
CN107196919B (zh) * 2017-04-27 2021-01-01 北京小米移动软件有限公司 一种匹配数据的方法和装置
CN109657019A (zh) * 2018-11-13 2019-04-19 斑马网络技术有限公司 地图数据融合方法、服务器、系统、存储介质及电子设备
CN114322985A (zh) * 2021-12-24 2022-04-12 深圳依时货拉拉科技有限公司 电子地图推荐点展示方法、装置、设备及存储介质
CN114322985B (zh) * 2021-12-24 2024-04-12 深圳依时货拉拉科技有限公司 电子地图推荐点展示方法、装置、设备及存储介质
CN114861062A (zh) * 2022-05-26 2022-08-05 北京百度网讯科技有限公司 信息过滤方法和装置

Also Published As

Publication number Publication date
CN105045880B (zh) 2018-09-18

Similar Documents

Publication Publication Date Title
CN105045880B (zh) 一种不同数据源的兴趣点的模糊匹配方法
CN107133262B (zh) 一种基于多影响嵌入的个性化poi推荐方法
CN104866593A (zh) 一种基于知识图谱的数据库搜索方法
CN102253972B (zh) 基于网络爬虫的地名数据库维护方法
CN107256230B (zh) 一种基于多元化地理信息点的融合方法
CN103440311A (zh) 一种地名实体识别的方法及系统
CN105893524B (zh) 一种智能问答方法及装置
CN102737042B (zh) 建立问句生成模型的方法和装置以及问句生成方法和装置
CN106021336A (zh) 一种对批量地址信息进行自动行政区划划分的方法
CN103605752A (zh) 一种基于语义识别的地址匹配方法
CN106598965B (zh) 一种基于地址信息的账户映射方法及装置
CN111639253B (zh) 一种数据判重方法、装置、设备及存储介质
CN104699835A (zh) 用于确定网页页面中包括兴趣点poi数据的方法及装置
CN103885937A (zh) 基于核心词相似度判断企业中文名称重复的方法
CN106021556A (zh) 地址信息处理方法及装置
CN106203494A (zh) 一种基于内存计算的并行化聚类方法
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
CN106372118A (zh) 面向大规模媒体文本数据的在线语义理解搜索系统及方法
CN107577744A (zh) 非标地址自动匹配模型、匹配方法以及模型建立方法
CN108536825A (zh) 一种识别房源数据是否重复的方法
CN103714081A (zh) 一种专有地名的识别方法和装置
CN104615782A (zh) 基于滑动窗口最大匹配算法的地址匹配方法
CN104252525A (zh) 基于地理定位坐标设定区域的数据检索
CN103559177A (zh) 一种地名识别方法及装置
CN102323950A (zh) 基于投诉信息的地点识别的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant