CN112287055A - 根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法 - Google Patents
根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法 Download PDFInfo
- Publication number
- CN112287055A CN112287055A CN202011213266.6A CN202011213266A CN112287055A CN 112287055 A CN112287055 A CN 112287055A CN 202011213266 A CN202011213266 A CN 202011213266A CN 112287055 A CN112287055 A CN 112287055A
- Authority
- CN
- China
- Prior art keywords
- poi
- data
- buffer
- cosine similarity
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,包括如下步骤:S1、首先将多数据源海量数据融合在一起,根据POI数据所属城市和区县字段对数据进行分组分类,以此减少一次计算所使用的数据量;S2、根据分组数据,对每组POI数据的名称字段进行切词获取词频,在计算其名称文本余弦相似度,剔除掉相似度一致的重复数据;S3、在根据POI的位置信息字段生成200米范围的缓冲区范围,并且判断POI缓冲区是否相交;S4、最后验证相交缓冲区POI的有效性予以保留或者剔除,海量POI数据校验清洗工作无法通过人工方式予以快速高效实现,通过本发明方法,利用计算机的高效计算能力可大量减少人力资源,同时又避免人工校验的不准确性。
Description
技术领域
本发明涉及智能控制技术领域,具体为根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法。
背景技术
随着POI(兴趣点)数据量的增长,对数据的整理、查询、统计分析的需求不断增加,通过清洗无效、冗余数据并通过对这些数据的分析和挖掘,能够有效对商业选址一类需求提供有效的数据辅助决策作用;
由于POI(兴趣点)数据来源众多,数据质量参差不齐,数以万计的POI数据无法完全通过人工方式进行清洗校验,如何有效剔除无效冗余数据是一个难题。
发明内容
本发明提供根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,可以有效解决上述背景技术中提出由于POI(兴趣点)数据来源众多,数据质量参差不齐,数以万计的POI数据无法完全通过人工方式进行清洗校验,如何有效剔除无效冗余数据是一个难题的问题。
为实现上述目的,本发明提供如下技术方案:根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,包括如下步骤:
S1、首先将多数据源海量数据融合在一起,根据POI数据所属城市和区县字段对数据进行分组分类,以此减少一次计算所使用的数据量;
S2、根据分组数据,对每组POI数据的名称字段进行切词获取词频,在计算其名称文本余弦相似度,剔除掉相似度一致的重复数据;
S3、在根据POI的位置信息字段生成200米范围的缓冲区范围,并且判断POI缓冲区是否相交;
S4、最后验证相交缓冲区POI的有效性予以保留或者剔除。
根据上述技术方案,所述S2中余弦相似度通过测量两个向量的夹角的余弦值来度量它们之间的相似性;
0度角的余弦值是1,而其他任何角度的余弦值都不大于1,并且其最小值是-1;
从而两个向量之间的角度的余弦值确定两个向量是否指向相同的方向;
两个向量有相同的指向时,余弦相似度的值为1;
两个向量夹角为90°时,余弦相似度的值为0;
两个向量指向完全相反的方向时,余弦相似度的值为-1,这是与向量的长度无关的,仅仅与向量的指向方向相关;
余弦相似度通常用于正空间,因此给出的值为-1到1之间。
根据上述技术方案,所述S2中余弦相似度相近POI,根据POI数据的经纬度字段生成半径200米的Buffer缓冲区范围,可以通过调整设置缓冲区半径来调优缓冲区相交概率;
找到相交的缓冲区,判断POI文本名称和其他属性信息的相似性来予以决定保留或是剔除。
根据上述技术方案,所述缓冲区是指以点、线、面实体为基础,自动建立其周围一定宽度范围内的缓冲区多边形图层,然后建立该图层与目标图层的叠加,进行分析而得到所需结果;
是用来解决邻近度问题的空间分析工具。
根据上述技术方案,所述S4中最终将清洗过后的有效数据保存到新的数据库中,用以后续查询、分析、统计。
根据上述技术方案,所述S2中余弦相似度公式为:
其中cos(θ)为余弦相似度数值;
A为第一范围点;
B为第二范围点。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,海量POI数据校验清洗工作无法通过人工方式予以快速高效实现,通过本发明方法,利用计算机的高效计算能力可大量减少人力资源,同时又避免人工校验的不准确性;
且使用余弦相似度算法可以有效剔除重复数据,确定名称相似的POI数据,提高清洗效率,计算相似POI数据Buffer缓冲区范围,查看Buffer缓冲区交集,对交集POI予以确认,提升POI数据质量。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的算法流程示意图;
图2是缓冲区相交判断冗余数据示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
如图1所示,本发明提供技术方案,根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,包括如下步骤:
S1、首先将多数据源海量数据融合在一起,根据POI数据所属城市和区县字段对数据进行分组分类,以此减少一次计算所使用的数据量;
S2、根据分组数据,对每组POI数据的名称字段进行切词获取词频,在计算其名称文本余弦相似度,剔除掉相似度一致的重复数据;
S3、在根据POI的位置信息字段生成200米范围的缓冲区范围,并且判断POI缓冲区是否相交;
S4、最后验证相交缓冲区POI的有效性予以保留或者剔除。
根据上述技术方案,S2中余弦相似度通过测量两个向量的夹角的余弦值来度量它们之间的相似性;
0度角的余弦值是1,而其他任何角度的余弦值都不大于1,并且其最小值是-1;
从而两个向量之间的角度的余弦值确定两个向量是否指向相同的方向;
两个向量有相同的指向时,余弦相似度的值为1;
两个向量夹角为90°时,余弦相似度的值为0;
两个向量指向完全相反的方向时,余弦相似度的值为-1,这是与向量的长度无关的,仅仅与向量的指向方向相关;
余弦相似度通常用于正空间,因此给出的值为-1到1之间。
根据上述技术方案,S2中余弦相似度相近POI,根据POI数据的经纬度字段生成半径200米的Buffer缓冲区范围,可以通过调整设置缓冲区半径来调优缓冲区相交概率;
找到相交的缓冲区,判断POI文本名称和其他属性信息的相似性来予以决定保留或是剔除。
根据上述技术方案,缓冲区是指以点、线、面实体为基础,自动建立其周围一定宽度范围内的缓冲区多边形图层,然后建立该图层与目标图层的叠加,进行分析而得到所需结果;
是用来解决邻近度问题的空间分析工具。
根据上述技术方案,S4中最终将清洗过后的有效数据保存到新的数据库中,用以后续查询、分析、统计。
根据上述技术方案,S2中余弦相似度公式为:
其中cos(θ)为余弦相似度数值;
A为第一范围点;
B为第二范围点。
实施例2:
如图2所示,本发明提供技术方案,根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,包括如下步骤:
S1、配置Postgres数据库,通过配置JDBC连接数据库,创建索引专用的表空间,调整表空间大小,将多数据源数据按城市和区县字段分类保存到各个表中。
S2、将每个表中POI数据名称进行分词得到名称文本的词频向量,如两个相同名称POI点(华龙小区),华龙小区被分词为【华龙,小区】,华龙词频为1,小区词频为1。
S3、再根据名称文本的词频向量计算余弦相似度,上述POI华龙小区计算过后相似度一致的重复数据予以剔除。
根据上述技术方案,华龙小区、华龙小区(东门)根据POI数据的经纬度字段生成半径200米的Buffer缓冲区范围,可以通过调整设置缓冲区半径来调优缓冲区相交概率,找到相交的缓冲区,判断POI文本名称和其他属性信息的相似性来予以决定保留或是剔除。
根据上述技术方案,S2中余弦相似度公式为:
其中cos(θ)为余弦相似度数值;
A为第一范围点;
B为第二范围点。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,海量POI数据校验清洗工作无法通过人工方式予以快速高效实现,通过本发明方法,利用计算机的高效计算能力可大量减少人力资源,同时又避免人工校验的不准确性;
且使用余弦相似度算法可以有效剔除重复数据,确定名称相似的POI数据,提高清洗效率,计算相似POI数据Buffer缓冲区范围,查看Buffer缓冲区交集,对交集POI予以确认,提升POI数据质量。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,其特征在于:包括如下步骤:
S1、首先将多数据源海量数据融合在一起,根据POI数据所属城市和区县字段对数据进行分组分类,以此减少一次计算所使用的数据量;
S2、根据分组数据,对每组POI数据的名称字段进行切词获取词频,在计算其名称文本余弦相似度,剔除掉相似度一致的重复数据;
S3、在根据POI的位置信息字段生成200米范围的缓冲区范围,并且判断POI缓冲区是否相交;
S4、最后验证相交缓冲区POI的有效性予以保留或者剔除。
2.根据权利要求1所述的根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,其特征在于,所述S2中余弦相似度通过测量两个向量的夹角的余弦值来度量它们之间的相似性;
从而两个向量之间的角度的余弦值确定两个向量是否指向相同的方向;
两个向量有相同的指向时,余弦相似度的值为1;
两个向量夹角为90°时,余弦相似度的值为0;
两个向量指向完全相反的方向时,余弦相似度的值为-1,这是与向量的长度无关的,仅仅与向量的指向方向相关;
余弦相似度通常用于正空间,因此给出的值为-1到1之间。
3.根据权利要求1所述的根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,其特征在于,所述S2中余弦相似度相近POI,根据POI数据的经纬度字段生成半径200米的Buffer缓冲区范围,可以通过调整设置缓冲区半径来调优缓冲区相交概率;
找到相交的缓冲区,判断POI文本名称和其他属性信息的相似性来予以决定保留或是剔除。
4.根据权利要求3所述的根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,其特征在于,所述缓冲区是指以点、线、面实体为基础,自动建立其周围一定宽度范围内的缓冲区多边形图层,然后建立该图层与目标图层的叠加,进行分析而得到所需结果;
是用来解决邻近度问题的空间分析工具。
5.根据权利要求1所述的根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法,其特征在于,所述S4中最终将清洗过后的有效数据保存到新的数据库中,用以后续查询、分析、统计。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011213266.6A CN112287055A (zh) | 2020-11-03 | 2020-11-03 | 根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011213266.6A CN112287055A (zh) | 2020-11-03 | 2020-11-03 | 根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112287055A true CN112287055A (zh) | 2021-01-29 |
Family
ID=74352162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011213266.6A Pending CN112287055A (zh) | 2020-11-03 | 2020-11-03 | 根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287055A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113127759A (zh) * | 2021-04-16 | 2021-07-16 | 深圳集智数字科技有限公司 | 兴趣点处理方法、装置、计算设备及计算机可读存储介质 |
CN114911787A (zh) * | 2022-05-31 | 2022-08-16 | 南京大学 | 一种融合位置和语义约束的多源poi数据清洗方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103716587A (zh) * | 2013-12-12 | 2014-04-09 | 深圳先进技术研究院 | 基于gis网络分析与缓冲区分析的视频追踪方法 |
CN104050196A (zh) * | 2013-03-15 | 2014-09-17 | 阿里巴巴集团控股有限公司 | 一种兴趣点数据冗余检测方法及装置 |
WO2018046959A1 (en) * | 2016-09-12 | 2018-03-15 | University Of Leicester | Image storage and retrieval |
CN111090630A (zh) * | 2019-12-16 | 2020-05-01 | 中科宇图科技股份有限公司 | 基于多源空间点数据的数据融合处理方法 |
-
2020
- 2020-11-03 CN CN202011213266.6A patent/CN112287055A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050196A (zh) * | 2013-03-15 | 2014-09-17 | 阿里巴巴集团控股有限公司 | 一种兴趣点数据冗余检测方法及装置 |
CN103716587A (zh) * | 2013-12-12 | 2014-04-09 | 深圳先进技术研究院 | 基于gis网络分析与缓冲区分析的视频追踪方法 |
WO2018046959A1 (en) * | 2016-09-12 | 2018-03-15 | University Of Leicester | Image storage and retrieval |
CN111090630A (zh) * | 2019-12-16 | 2020-05-01 | 中科宇图科技股份有限公司 | 基于多源空间点数据的数据融合处理方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113127759A (zh) * | 2021-04-16 | 2021-07-16 | 深圳集智数字科技有限公司 | 兴趣点处理方法、装置、计算设备及计算机可读存储介质 |
CN114911787A (zh) * | 2022-05-31 | 2022-08-16 | 南京大学 | 一种融合位置和语义约束的多源poi数据清洗方法 |
CN114911787B (zh) * | 2022-05-31 | 2023-10-27 | 南京大学 | 一种融合位置和语义约束的多源poi数据清洗方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Su et al. | A survey of trajectory distance measures and performance evaluation | |
CN101477523B (zh) | 超大型指纹库的索引结构和检索方法 | |
CN109947881B (zh) | 一种poi判重方法、装置、移动终端及计算机可读存储介质 | |
CN112287055A (zh) | 根据余弦相似度和Buffer缓冲区计算冗余POI数据的算法 | |
CN101930483B (zh) | 应用参数化设计模型化简数字地图居民地多边形的方法 | |
CN105630988A (zh) | 一种快速检测空间数据变化并更新的方法及系统 | |
CN111337044B (zh) | 一种基于通行权值的城市道路路径规划方法 | |
CN110458174A (zh) | 一种无序点云关键特征点精确提取方法 | |
CN104469932B (zh) | 一种基于支持向量机的位置指纹定位方法 | |
CN113724279B (zh) | 路网自动划分交通小区的系统、方法、设备及存储介质 | |
Zhou et al. | Experimental analysis of various types of road intersections for interchange detection | |
CN114328780A (zh) | 基于六角格的智慧城市地理信息更新方法、设备及介质 | |
CN103177189A (zh) | 一种众源位置签到数据质量分析方法 | |
CN105354264A (zh) | 一种基于局部敏感哈希的主题标签快速赋予方法 | |
Liu et al. | M: N Object matching on multiscale datasets based on MBR combinatorial optimization algorithm and spatial district | |
CN115292962B (zh) | 基于轨迹抽稀的路径相似度匹配方法、设备及存储介质 | |
Agarwal et al. | Advances in indexing for mobile objects | |
CN110619134B (zh) | 解决路网数据飞点、点密度问题一体化检测及修复方法 | |
Deng et al. | Hausdorff measure of Cartesian product of the ternary Cantor set | |
Van Hunnik | Extensive comparison of trajectory simplification algorithms | |
CN110347938B (zh) | 地理信息处理方法、装置、电子设备及介质 | |
Zhou et al. | A distributed storage strategy for trajectory data based on nosql database | |
CN104111965A (zh) | 基于差别矩阵的ogc地理信息服务描述词汇约简方法 | |
CN114707511B (zh) | 一种基于开源时空数据的时空目标描述文字生成方法 | |
CN111400891B (zh) | 管道巡检点偏差程度获取方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210129 |