CN112287055A - 根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法 - Google Patents

根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法 Download PDF

Info

Publication number
CN112287055A
CN112287055A CN202011213266.6A CN202011213266A CN112287055A CN 112287055 A CN112287055 A CN 112287055A CN 202011213266 A CN202011213266 A CN 202011213266A CN 112287055 A CN112287055 A CN 112287055A
Authority
CN
China
Prior art keywords
poi
data
buffer
cosine similarity
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011213266.6A
Other languages
English (en)
Inventor
王新博
田鹏飞
孙伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yijing Zhilian Beijing Technology Co Ltd
Original Assignee
Yijing Zhilian Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yijing Zhilian Beijing Technology Co Ltd filed Critical Yijing Zhilian Beijing Technology Co Ltd
Priority to CN202011213266.6A priority Critical patent/CN112287055A/zh
Publication of CN112287055A publication Critical patent/CN112287055A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,包括如下步骤:S1、首先将多数据源海量数据融合在一起,根据POI数据所属城市和区县字段对数据进行分组分类,以此减少一次计算所使用的数据量;S2、根据分组数据,对每组POI数据的名称字段进行切词获取词频,在计算其名称文本余弦相似度,剔除掉相似度一致的重复数据;S3、在根据POI的位置信息字段生成200米范围的缓冲区范围,并且判断POI缓冲区是否相交;S4、最后验证相交缓冲区POI的有效性予以保留或者剔除,海量POI数据校验清洗工作无法通过人工方式予以快速高效实现,通过本发明方法,利用计算机的高效计算能力可大量减少人力资源,同时又避免人工校验的不准确性。

Description

根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法
技术领域
本发明涉及智能控制技术领域,具体为根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法。
背景技术
随着POI(兴趣点)数据量的增长,对数据的整理、查询、统计分析的需求不断增加,通过清洗无效、冗余数据并通过对这些数据的分析和挖掘,能够有效对商业选址一类需求提供有效的数据辅助决策作用;
由于POI(兴趣点)数据来源众多,数据质量参差不齐,数以万计的POI数据无法完全通过人工方式进行清洗校验,如何有效剔除无效冗余数据是一个难题。
发明内容
本发明提供根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,可以有效解决上述背景技术中提出由于POI(兴趣点)数据来源众多,数据质量参差不齐,数以万计的POI数据无法完全通过人工方式进行清洗校验,如何有效剔除无效冗余数据是一个难题的问题。
为实现上述目的,本发明提供如下技术方案:根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,包括如下步骤:
S1、首先将多数据源海量数据融合在一起,根据POI数据所属城市和区县字段对数据进行分组分类,以此减少一次计算所使用的数据量;
S2、根据分组数据,对每组POI数据的名称字段进行切词获取词频,在计算其名称文本余弦相似度,剔除掉相似度一致的重复数据;
S3、在根据POI的位置信息字段生成200米范围的缓冲区范围,并且判断POI缓冲区是否相交;
S4、最后验证相交缓冲区POI的有效性予以保留或者剔除。
根据上述技术方案,所述S2中余弦相似度通过测量两个向量的夹角的余弦值来度量它们之间的相似性;
0度角的余弦值是1,而其他任何角度的余弦值都不大于1,并且其最小值是-1;
从而两个向量之间的角度的余弦值确定两个向量是否指向相同的方向;
两个向量有相同的指向时,余弦相似度的值为1;
两个向量夹角为90°时,余弦相似度的值为0;
两个向量指向完全相反的方向时,余弦相似度的值为-1,这是与向量的长度无关的,仅仅与向量的指向方向相关;
余弦相似度通常用于正空间,因此给出的值为-1到1之间。
根据上述技术方案,所述S2中余弦相似度相近POI,根据POI数据的经纬度字段生成半径200米的Buffer缓冲区范围,可以通过调整设置缓冲区半径来调优缓冲区相交概率;
找到相交的缓冲区,判断POI文本名称和其他属性信息的相似性来予以决定保留或是剔除。
根据上述技术方案,所述缓冲区是指以点、线、面实体为基础,自动建立其周围一定宽度范围内的缓冲区多边形图层,然后建立该图层与目标图层的叠加,进行分析而得到所需结果;
是用来解决邻近度问题的空间分析工具。
根据上述技术方案,所述S4中最终将清洗过后的有效数据保存到新的数据库中,用以后续查询、分析、统计。
根据上述技术方案,所述S2中余弦相似度公式为:
Figure BDA0002757899980000031
其中cos(θ)为余弦相似度数值;
A为第一范围点;
B为第二范围点。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,海量POI数据校验清洗工作无法通过人工方式予以快速高效实现,通过本发明方法,利用计算机的高效计算能力可大量减少人力资源,同时又避免人工校验的不准确性;
且使用余弦相似度算法可以有效剔除重复数据,确定名称相似的POI数据,提高清洗效率,计算相似POI数据Buffer缓冲区范围,查看Buffer缓冲区交集,对交集POI予以确认,提升POI数据质量。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的算法流程示意图;
图2是缓冲区相交判断冗余数据示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
如图1所示,本发明提供技术方案,根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,包括如下步骤:
S1、首先将多数据源海量数据融合在一起,根据POI数据所属城市和区县字段对数据进行分组分类,以此减少一次计算所使用的数据量;
S2、根据分组数据,对每组POI数据的名称字段进行切词获取词频,在计算其名称文本余弦相似度,剔除掉相似度一致的重复数据;
S3、在根据POI的位置信息字段生成200米范围的缓冲区范围,并且判断POI缓冲区是否相交;
S4、最后验证相交缓冲区POI的有效性予以保留或者剔除。
根据上述技术方案,S2中余弦相似度通过测量两个向量的夹角的余弦值来度量它们之间的相似性;
0度角的余弦值是1,而其他任何角度的余弦值都不大于1,并且其最小值是-1;
从而两个向量之间的角度的余弦值确定两个向量是否指向相同的方向;
两个向量有相同的指向时,余弦相似度的值为1;
两个向量夹角为90°时,余弦相似度的值为0;
两个向量指向完全相反的方向时,余弦相似度的值为-1,这是与向量的长度无关的,仅仅与向量的指向方向相关;
余弦相似度通常用于正空间,因此给出的值为-1到1之间。
根据上述技术方案,S2中余弦相似度相近POI,根据POI数据的经纬度字段生成半径200米的Buffer缓冲区范围,可以通过调整设置缓冲区半径来调优缓冲区相交概率;
找到相交的缓冲区,判断POI文本名称和其他属性信息的相似性来予以决定保留或是剔除。
根据上述技术方案,缓冲区是指以点、线、面实体为基础,自动建立其周围一定宽度范围内的缓冲区多边形图层,然后建立该图层与目标图层的叠加,进行分析而得到所需结果;
是用来解决邻近度问题的空间分析工具。
根据上述技术方案,S4中最终将清洗过后的有效数据保存到新的数据库中,用以后续查询、分析、统计。
根据上述技术方案,S2中余弦相似度公式为:
Figure BDA0002757899980000051
其中cos(θ)为余弦相似度数值;
A为第一范围点;
B为第二范围点。
实施例2:
如图2所示,本发明提供技术方案,根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,包括如下步骤:
S1、配置Postgres数据库,通过配置JDBC连接数据库,创建索引专用的表空间,调整表空间大小,将多数据源数据按城市和区县字段分类保存到各个表中。
S2、将每个表中POI数据名称进行分词得到名称文本的词频向量,如两个相同名称POI点(华龙小区),华龙小区被分词为【华龙,小区】,华龙词频为1,小区词频为1。
S3、再根据名称文本的词频向量计算余弦相似度,上述POI华龙小区计算过后相似度一致的重复数据予以剔除。
根据上述技术方案,华龙小区、华龙小区(东门)根据POI数据的经纬度字段生成半径200米的Buffer缓冲区范围,可以通过调整设置缓冲区半径来调优缓冲区相交概率,找到相交的缓冲区,判断POI文本名称和其他属性信息的相似性来予以决定保留或是剔除。
根据上述技术方案,S2中余弦相似度公式为:
Figure BDA0002757899980000061
其中cos(θ)为余弦相似度数值;
A为第一范围点;
B为第二范围点。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,海量POI数据校验清洗工作无法通过人工方式予以快速高效实现,通过本发明方法,利用计算机的高效计算能力可大量减少人力资源,同时又避免人工校验的不准确性;
且使用余弦相似度算法可以有效剔除重复数据,确定名称相似的POI数据,提高清洗效率,计算相似POI数据Buffer缓冲区范围,查看Buffer缓冲区交集,对交集POI予以确认,提升POI数据质量。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,其特征在于:包括如下步骤:
S1、首先将多数据源海量数据融合在一起,根据POI数据所属城市和区县字段对数据进行分组分类,以此减少一次计算所使用的数据量;
S2、根据分组数据,对每组POI数据的名称字段进行切词获取词频,在计算其名称文本余弦相似度,剔除掉相似度一致的重复数据;
S3、在根据POI的位置信息字段生成200米范围的缓冲区范围,并且判断POI缓冲区是否相交;
S4、最后验证相交缓冲区POI的有效性予以保留或者剔除。
2.根据权利要求1所述的根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,其特征在于,所述S2中余弦相似度通过测量两个向量的夹角的余弦值来度量它们之间的相似性;
从而两个向量之间的角度的余弦值确定两个向量是否指向相同的方向;
两个向量有相同的指向时,余弦相似度的值为1;
两个向量夹角为90°时,余弦相似度的值为0;
两个向量指向完全相反的方向时,余弦相似度的值为-1,这是与向量的长度无关的,仅仅与向量的指向方向相关;
余弦相似度通常用于正空间,因此给出的值为-1到1之间。
3.根据权利要求1所述的根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,其特征在于,所述S2中余弦相似度相近POI,根据POI数据的经纬度字段生成半径200米的Buffer缓冲区范围,可以通过调整设置缓冲区半径来调优缓冲区相交概率;
找到相交的缓冲区,判断POI文本名称和其他属性信息的相似性来予以决定保留或是剔除。
4.根据权利要求3所述的根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,其特征在于,所述缓冲区是指以点、线、面实体为基础,自动建立其周围一定宽度范围内的缓冲区多边形图层,然后建立该图层与目标图层的叠加,进行分析而得到所需结果;
是用来解决邻近度问题的空间分析工具。
5.根据权利要求1所述的根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,其特征在于,所述S4中最终将清洗过后的有效数据保存到新的数据库中,用以后续查询、分析、统计。
6.根据权利要求1所述的根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,其特征在于,所述S2中余弦相似度公式为:
Figure FDA0002757899970000021
其中cos(θ)为余弦相似度数值;
A为第一范围点;
B为第二范围点。
CN202011213266.6A 2020-11-03 2020-11-03 根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法 Pending CN112287055A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011213266.6A CN112287055A (zh) 2020-11-03 2020-11-03 根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011213266.6A CN112287055A (zh) 2020-11-03 2020-11-03 根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法

Publications (1)

Publication Number Publication Date
CN112287055A true CN112287055A (zh) 2021-01-29

Family

ID=74352162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011213266.6A Pending CN112287055A (zh) 2020-11-03 2020-11-03 根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法

Country Status (1)

Country Link
CN (1) CN112287055A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127759A (zh) * 2021-04-16 2021-07-16 深圳集智数字科技有限公司 兴趣点处理方法、装置、计算设备及计算机可读存储介质
CN114911787A (zh) * 2022-05-31 2022-08-16 南京大学 一种融合位置和语义约束的多源poi数据清洗方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103716587A (zh) * 2013-12-12 2014-04-09 深圳先进技术研究院 基于gis网络分析与缓冲区分析的视频追踪方法
CN104050196A (zh) * 2013-03-15 2014-09-17 阿里巴巴集团控股有限公司 一种兴趣点数据冗余检测方法及装置
WO2018046959A1 (en) * 2016-09-12 2018-03-15 University Of Leicester Image storage and retrieval
CN111090630A (zh) * 2019-12-16 2020-05-01 中科宇图科技股份有限公司 基于多源空间点数据的数据融合处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050196A (zh) * 2013-03-15 2014-09-17 阿里巴巴集团控股有限公司 一种兴趣点数据冗余检测方法及装置
CN103716587A (zh) * 2013-12-12 2014-04-09 深圳先进技术研究院 基于gis网络分析与缓冲区分析的视频追踪方法
WO2018046959A1 (en) * 2016-09-12 2018-03-15 University Of Leicester Image storage and retrieval
CN111090630A (zh) * 2019-12-16 2020-05-01 中科宇图科技股份有限公司 基于多源空间点数据的数据融合处理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127759A (zh) * 2021-04-16 2021-07-16 深圳集智数字科技有限公司 兴趣点处理方法、装置、计算设备及计算机可读存储介质
CN114911787A (zh) * 2022-05-31 2022-08-16 南京大学 一种融合位置和语义约束的多源poi数据清洗方法
CN114911787B (zh) * 2022-05-31 2023-10-27 南京大学 一种融合位置和语义约束的多源poi数据清洗方法

Similar Documents

Publication Publication Date Title
CN109947881B (zh) 一种poi判重方法、装置、移动终端及计算机可读存储介质
CN112287055A (zh) 根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法
CN101930483B (zh) 应用参数化设计模型化简数字地图居民地多边形的方法
CN105630988A (zh) 一种快速检测空间数据变化并更新的方法及系统
CN111337044B (zh) 一种基于通行权值的城市道路路径规划方法
CN104462155A (zh) 一种兴趣点父子关系的建立方法及装置
CN113724279B (zh) 路网自动划分交通小区的系统、方法、设备及存储介质
CN114328780A (zh) 基于六角格的智慧城市地理信息更新方法、设备及介质
Cho et al. A GPS trajectory map-matching mechanism with DTG big data on the HBase system
Liu et al. M: N Object matching on multiscale datasets based on MBR combinatorial optimization algorithm and spatial district
Van Hunnik Extensive comparison of trajectory simplification algorithms
Agarwal et al. Advances in indexing for mobile objects
CN110619134B (zh) 解决路网数据飞点、点密度问题一体化检测及修复方法
Deng et al. Hausdorff measure of Cartesian product of the ternary Cantor set
Frentzos et al. On the effect of location uncertainty in spatial querying
CN111460325B (zh) Poi搜索方法、装置与设备
He et al. CIRCE: correcting imprecise readings and compressing excrescent points for querying common patterns in uncertain sensor streams
CN110347938B (zh) 地理信息处理方法、装置、电子设备及介质
Li et al. Design and implementation of trajectory data management and analysis technology framework based on spatiotemporal grid model
Zhou et al. A Distributed Storage Strategy For Trajectory Data Based On Nosql Database
Wang Construction of Alumni Information Analysis Model Based on Big Data
Ma et al. Complex buildings orientation recognition and description based on vector reconstruction
CN115292962B (zh) 基于轨迹抽稀的路径相似度匹配方法、设备及存储介质
Hu et al. Analysis and Application of the Shortest Path Algorithm based on Geographic Information System
Cao et al. Demo Abstract: Walkway Discovery from Large Scale Crowdsensing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210129