CN115329035A

CN115329035A - 一种关于兴趣点的全文检索方法及系统

Info

Publication number: CN115329035A
Application number: CN202210607634.8A
Authority: CN
Inventors: 姬英杰; 姚霄飞; 田壮; 张轩; 杨帅
Original assignee: Xi'an Innovation Port Information Technology Co ltd; CETC 15 Research Institute; 61540 Troops of PLA
Current assignee: Xi'an Innovation Port Information Technology Co ltd; CETC 15 Research Institute; 61540 Troops of PLA
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-11-11

Abstract

本发明涉及一种关于兴趣点的全文检索方法和系统，属于数据检索技术领域。本发明提供的关于兴趣点的全文检索方法，基于全文检索引擎利用兴趣点数据进行空间数据索引库的构建，能够提高全文检索的精确度。并且，通过将空间要素的经纬度坐标映射为一维莫顿码，实现二维空间数据到一维数据的转换，能够显著提高检索效率。

Description

一种关于兴趣点的全文检索方法及系统

技术领域

本发明涉及数据检索技术领域，特别是涉及一种关于兴趣点的全文检索方法及系统。

背景技术

空间数据获取方式日新月异，随之而来的便是数据量的井喷式增长。如何高效、便捷地组织与精准检索数据是空间数据管理面临的核心问题。传统空间数据大多基于数据库关键字匹配模式，检索方式单一、效率低下，难以满足海量空间数据快速检索需求。

随着全文搜索与自然语言处理技术不断发展，形成全文搜索引擎(Lucene) 以及基于Lucene框架的LIUS、Egothor、Compass等广泛应用的开源搜索引擎。但Lucene仅支持文本及少量语种，效率与性能有待提高，LIUS、Egothor、 Compass在支持文件类型及语种方面进行了优化，但在跨平台软件研制方面存在不足。

发明内容

为解决现有技术存在的上述问题，本发明提供了一种关于兴趣点的全文检索方法及系统。

为实现上述目的，本发明提供了如下方案：

一种关于兴趣点的全文检索方法，包括：

获取兴趣点数据；

将所述兴趣点数据按使用方式进行筛选得到兴趣点要素属性信息；所述兴趣点要素属性信息包括：分词属性和查询属性；

将所述兴趣点数据转换为GeoJson对象集合，结合所述兴趣点要素属性信息为文档集合提供属性值；所述属性值包括：分词属性值和查询属性值；所述文档集合包括：分词文档集合、属性文档集合和日期文档集合；

在所述文档集合中补充GeoHash字段构建基础空间索引；

基于所述基础空间索引采用前缀匹配法检索预设范围内的空间要素；所述空间要素为与兴趣点对应的地理信息；

将所述空间要素的经纬度坐标映射为一维莫顿码；

对所述一维莫顿码进行数据映射得到GeoHash编码；

基于所述GeoHash编码和所述基础空间索引生成空间数据索引库；

获取用户输入的查询条件；

根据所述查询条件检索所述空间数据索引库，得到检索结果。

优选地，所述将所述兴趣点数据按使用方式进行筛选得到兴趣点要素属性信息，具体包括：

将所述兴趣点数据中用于关键字检索的属性筛选为分词属性；所述分词属性包括：名称和地址；

将所述兴趣点数据中拟参与查询的字段筛选为查询属性；所述查询属性包括：坐标范围、类别和行政区编号。

优选地，所述将所述空间要素的经纬度坐标映射为一维莫顿码，具体包括：

将所述空间要素的经纬度坐标转换为二进制序列；

基于所述二进制序列生成所述一维莫顿码；所述一维莫顿码的偶数位为经度，所述一维莫顿码的奇数位为维度。

优选地，采用经纬度逼近算法将所述空间要素的经纬度坐标转换为二进制序列。

优选地，所述对所述一维莫顿码进行数据映射得到GeoHash编码，具体包括：

利用十进制与Base32编码间的映射关系，将所述一维莫顿码由高位到低位进行转换映射得到所述GeoHash编码。

优选地，将所述一维莫顿码由高到低每5位进行一次转换映射得到所述 GeoHash编码。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供的关于兴趣点的全文检索方法，基于全文检索引擎利用兴趣点数据进行空间数据索引库的构建，能够提高全文检索的精确度。并且，通过将空间要素的经纬度坐标映射为一维莫顿码，实现二维空间数据到一维数据的转换，能够显著提高检索效率。

对应于上述提供的关于兴趣点的全文检索方法，本发明提供了一种关于兴趣点的全文检索系统，该系统包括：

数据源层，用于生成兴趣点数据；

用户接口层，用于输入查询条件；

检索层，分别与所述数据源层和所述用户接口层连接，用于根据兴趣点数据生成空间数据索引库，并基于查询条件检索所述空间数据索引库得到检索结果。

优选地，所述检索层包括：

检索模块，用于基于查询条件检索所述空间数据索引库得到检索结果。

因本发明提供的关于兴趣点的全文检索系统达到的技术效果与上述提供的关于兴趣点的全文检索方法达到的技术效果相同，故在此不再进行赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的关于兴趣点的全文检索方法的流程图；

图2为本发明提供的关于兴趣点的全文检索系统的结构示意图；

图3为本发明实施例提供的Xapian功能构建流程图；

图4为本发明实施例提供的空间数据索引库的构建流程图；

图5为本发明实施例提供的POI多模式检索流程图；

图6为本发明实施例提供的POI检索效率分析结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种关于兴趣点的全文检索方法及系统，能够在提高检索精确性的同时，提高检索效率。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供的关于兴趣点的全文检索方法，包括：

步骤100：获取兴趣点数据。

步骤101：将兴趣点数据按使用方式进行筛选得到兴趣点要素属性信息。例如，将兴趣点数据中用于关键字检索的属性筛选为分词属性。将兴趣点数据中拟参与查询的字段筛选为查询属性。分词属性包括：名称和地址。查询属性包括：坐标范围、类别和行政区编号。

步骤102：将兴趣点数据转换为GeoJson对象集合，结合兴趣点要素属性信息为文档集合提供属性值。属性值包括：分词属性值和查询属性值。文档集合包括：分词文档集合、属性文档集合和日期文档集合，如图4所示。

步骤103：在文档集合中补充GeoHash字段构建基础空间索引。

步骤104：基于基础空间索引采用前缀匹配法检索预设范围内的空间要素。空间要素为与兴趣点对应的地理信息。

步骤105：将空间要素的经纬度坐标映射为一维莫顿码。例如，将空间要素的经纬度坐标转换为二进制序列。基于二进制序列生成一维莫顿码。一维莫顿码的偶数位为经度，一维莫顿码的奇数位为维度。在进行二进制序列转换时，采用经纬度逼近算法将空间要素的经纬度坐标转换为二进制序列。

步骤106：对一维莫顿码进行数据映射得到GeoHash编码。具体的，引入 GeoHash字段，通过经纬度逼近编码、莫顿组码、Base32编码将经纬度信息映射为可排序、可比较的GeoHash编码。例如，利用十进制与Base32编码间的映射关系，将一维莫顿码由高到低每5位进行一次转换映射得到GeoHash 编码。

步骤107：基于GeoHash编码和基础空间索引生成空间数据索引库。

步骤108：获取用户输入的查询条件。本发明的查询条件即为检索条件。

步骤109：根据查询条件检索空间数据索引库，得到检索结果。

考虑到空间数据全文检索需求，对应于上述提供的关于兴趣点的全文检索方法，将本发明提供的关于兴趣点的全文检索系统空间数据全文检索系统设计为数据源层、检索层和用户接口层三层。如图2所示，数据源层用于生成兴趣点数据。用户接口层用于输入查询条件。检索层分别与数据源层和用户接口层连接，检索层用于根据兴趣点数据生成空间数据索引库，并基于查询条件检索空间数据索引库得到检索结果。其中，检索层包括有：检索模块。检索模块用于基于查询条件检索空间数据索引库得到检索结果。

进一步，在实施过程中，数据源层包含点、线、面多类型空间数据及其它多媒体空间辅助数据，以空间数据资源仓库模式进行组织。检索层包含索引建立和检索两个核心业务流程。检索层作为空间数据组织与检索体系中核心内容，索引建立是指对资源仓库中资源进行解析，对检索内容进行预处理，形成索引和空间数据信息填充至索引库中；检索层中的检索流程通过检索条件预分析生成检索对象，检索对象到索引库进行搜索得到检索结果，相关性模型分析排序后返回至用户层。

为了进一步提高系统使用效率，可以在用户接口层中设置多条件查询、同义词查询、拼写纠正等多模式检索功能以及显示接口。

下面以采用Xapian这一全文检索方法为例，对上述提供的关于兴趣点的全文检索方法及系统的具体实施过程进行说明，在实际应用时不限于此。

Xapian遵循GPL协议，是一套性能优异的开源全文检索框架，它将记录、索引、检索、分词器等诸多要素抽象为具体类，且模块间高内聚、低耦合的特点，能够为开发人员提供高级索引构建及多模式信息检索，尤其是索引构建过程与分词器无关，易于开发。

利用Xapian构建全文检索引擎的一般过程为：首先，解析数据源，构建索引库形成检索目标；然后，利用用户输入条件构建查询对象检索索引库并进行相关性排序，返回查询结果。

Xapian引擎业务流程如图3所示，主要包含Database、Document、 TermGenrator、QueryParser、Query、Enquire等业务类。Database即索引库，支持Flint、Chert、Brass、Remote等类型数据库，可根据实际使用需求灵活选择；Database由海量Dcoument对象组成，任何需要检索的内容都必须转换或映射为Document对象；TermGenrator即分词关系生成器，将Document中分词细则存储Database中去，为数据检索、相关性排序提供依据；QueryParser 将用户输入的查询条件映射为具体Query(查询对象)，由Enquire(查询会话)运行Query对象并返回检索结果。

通常在信息检索系统中，作为索引建立与检索公共基础模块，中文分词模块应确保其高度一致性，确保索引与检索效果。通过对比分析，本实施例选择 MMSEG实现中文分词，该模式具有简单、高效、实用等特点。MMSEG基于最大匹配算法实现，准确率达到99.69％，93.21％的歧义能被算法中消除歧义规则消除。MMSEG分词相比IK具有更高的开源热度，算法相对成熟，拥有比Paoding分词更多的参考文献。相比Imdict分词算法实现难度大且不支持用户词库，MMSEG更加易于实现并完成词库扩展。

POI(pointofinterest)，即兴趣点、热点，是局部范围内具有地理标志意义的空间要素，可按类别分为政府部门、商业机构、旅游景点等，属于空间数据的核心构成，不同于其他类型空间数据检索，POI检索具有更强灵活性和多态性。因此，本实施例基于Xapian利用POI组织与检索，可充分验证Xapian 引擎各项功能和性能指标，可为其他类型空间数据全文检索打下夯实基础。

基于此，本实施例提供的关于兴趣点的全文检索方法和系统的具体实施过程为：

步骤1、POI数据解析与组织

GDAL(GeospatialDataAbstractionLibrary)是一个遵循X/MIT许可协议的空间数据转换开源库，几乎所有地理信息系统软件底层均使用GDAL来解析、转换空间数据，其转换流程成熟、性能优异。因此，将GDAL作为数据解析与转换底层实现工具。GeoJson基于Javascript的实现，支持多种地理数据的数据交换格式，存储结构清晰，便于空间要素高效解析与存储。因此，确定 GeoJson为原型系统物理存储形式。

POI属性因类别不同而异，按使用方式(频度、热度)进行分词属性、查询属性筛选及数据转换，如图4所示。筛选用于关键字检索的属性成为分词属性，利用中文分词模块，将目标GeoHash编码(名称，拼音)进行分词，对应Document::Term，例如：名称，地址等；筛选拟参与查询的字段作为查询属性，是复合查询及结果筛选与排序的依据，对应Document::Value，例如：坐标范围、类别、行政区编号等。POI数据通过GDAL转换为GeoJson对象集合，结合属性筛选类别细则，为Document::Data(日期文档集合)、Document::Value (属性文档集合)、Document::Term(分词文档集合)提供属性值。

步骤2、POI属性组织优化

利用现有POI要素属性信息为基础从空间索引及坐标信息便捷存取与空间计算角度考虑，补充GeoHash字段用于构建基础空间索引，可利用前缀匹配法初步检索附近空间要素；同时，将经纬度坐标映射为一维莫顿码，相比二维空间计算更便捷。

步骤2-1、GeoHash编码

GeoHash地理编码由GustavoNiemeyer提出，利用GeoHash编码来表示空间要素经纬度，每个编码代表一个区域。在区域内的所有点，均可用同一 GeoHash编码表示，GeoHash编码越长，区域范围表示越精确，属于四叉树线性编码范畴，易于空间索引建立。引入GeoHash字段，通过经纬度逼近编码、莫顿组码、Base32编码将经纬度信息映射为可排序、可比较的GeoHash编码，以[116.389550，39.928167]为例进行编码过程说明。

步骤2-11、经纬度逼近编码

经度、纬度区间分别是[-180，180]、[-90，90]，可以依托区间特性进行逼近编码。

第一步，将经度区间二分为[-180，0)、[0，180]，即左右区间，可以确定116.389550属于右区间[0，180]，标记为1；

第二步，将[0，180]进行二分为[0，90)、[90，180]，可以确定116.389550 属于右区间[90，180)，标记为1；

第三步，递归上述过程116.389550总是属于某个区间[a，b]或[a，b)。经多次迭代，区间范围逐渐缩小，且逐渐逼近116.389550。纬度计算模式相同，从而产生比特序列1101001011(经度)，1011100011(纬度)，详情如表1 所示。

表1经纬度逼近编码示例表

步骤2-12、莫顿组码与Base32编码

利用上述经纬度二进制序列，将偶数位放经度，奇数位放纬度，莫顿组码生成：11100111010010001111。利用十进制与Base32映射关系，结合莫顿组码从高到低每5位逐一转换映射，得到最终字符串wx4g，映射关系如表2所示。

表2十进制与Base32映射关系表

十进制	0	1	3	4	5	6	7	8	9	10	11	12	13	14	15	16
																	base32	0	1	2	3	4	5	6	7	8	9	b	c	d	e	f	g
十进制	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31
																	base32	h	j	k	m	n	p	q	r	s	t	u	v	w	x	y	z

表3GeoHash编码长度与精度范围表

GeoHash长度	Lat位数	Lng位数	Lat区间	Lng区间	Km区间
						1	2	3	±23	±23	±2500
2	5	5	±2.8	±5.6	±630
						3	7	8	±0.70	±0.7	±78
4	10	10	±0.087	±0.18	±20
						5	12	13	±0.022	±0.022	±2.4
6	15	15	±0.0027	±0.0055	±0.61
						7	17	18	±0.00068	±0.00068	±0.076
8	20	20	±0.000086	±0.000172	±0.01911
						9	22	23	±0.000021	±0.000021	±0.00478
10	25	25	±0.00000268	±0.00000536	±0.0005971
						11	27	28	±0.00000067	±0.00000067	±0.0001492
12	30	30	±0.00000008	±0.00000017	±0.0000186

其中，Latitude的范围：-90至90；Longitude的范围：-180至180；参考球体的周长：40075016.68米。

由表3可以看出，GeoHash编码可轻松应对不同级别区域查询。

步骤2-2、坐标编码

建立经纬度坐标与32位整数(360°与232)映射关系，用尽32位有符号整数。因此，经纬度坐标映射在–231≤x<231(经度)和–230≤y<230(纬度) 范围内。

莫顿码将两个数值经度(x)和纬度(y)转换为一维编码，唯一标识POI要素。编码详细过程如下：

获取经纬度二进制序列

X＝X31X30…X1X0和Y＝Y30…Y1Y0；

莫顿编码

Z＝X31Y30X30…Y1X1Y0X0；

转换实例

例如：漆树朳(110.178882，33.190662)

整数映射换算：

X＝110.178882*(232/360)＝1314485263.6106752；

Y＝33.190662*(232/360)＝395980021.72941653333333333333333；

转换为二进制：

X＝01001110010110010111010000001111；

Y＝0010111100110100010110011110101；

莫顿编码：

Z＝0010010011111101001001111001001000111011011000010101 01001110111＝1332665031744072311(十进制)＝127E93C91DB0AA77(十六进制)。

莫顿码坐标相比传统二维坐标存储模式，在确保同样坐标精度的同时进行属性字段删减，有利于提高数据组织与空间分析效率。

步骤3、POI数据检索

POI全文检索原型系统支持多类型检索模式，检索流程如图6所示。第一步，将查询条件中检索关键词进行中文分词预处理，获得多个Terms(词集)， TermMatcher会在数据库中寻找包含对应Terms的文档，返回初步结果列表；第二步，若查询条件中还包括字段查询条件(Fileds)，例如：“经纬度范围： (112，33)至(112.2，33.20)”，需要RangeMatcher遍历初步结果列表，按空间范围逐文档筛选，得到进一步结果列表；第三步，可利用MatchDecider 根据DocumentValues(Fileds)进行高性能筛选形成最终检索结果。

采用本发明提供的关于兴趣点的全文检索方法和系统对全国范围内929 万个POI数据进行组织管理与查询实验，以验证本发明的优越性。

查询测试样本(分为单字、多字)及产生耗时情况如表4所示。

表4POI全文检索测试样本表

依托ubuntu操作系统，分别在2G、4G、6G内存状态对单纯模糊查询耗时情况进行对比测试。测试情况表明检索耗时不随内存减小而线性增加且影响甚微；随着数据量逐渐加大，耗时增长也逐渐趋于平稳。如图6所示，总体来讲，绝大多数查询耗时在1s以内，效率较高。

本发明在分析全文检索引擎结构和特点的基础上，结合空间数据的特性，进行方案设计，实现对海量POI数据的组织与管理。通过测试与分析，具有高效可行的有限。并且，本发明利用已有空间数据全文检索原型系统，通过交叉编译，可方便扩展至其他特定领域的应用平台，应用于军事、交通、航天等领域。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种关于兴趣点的全文检索方法，其特征在于，包括：

获取兴趣点数据；

在所述文档集合中补充GeoHash字段构建基础空间索引；

将所述空间要素的经纬度坐标映射为一维莫顿码；

对所述一维莫顿码进行数据映射得到GeoHash编码；

获取用户输入的查询条件；

2.根据权利要求1所述的关于兴趣点的全文检索方法，其特征在于，所述将所述兴趣点数据按使用方式进行筛选得到兴趣点要素属性信息，具体包括：

3.根据权利要求1所述的关于兴趣点的全文检索方法，其特征在于，所述将所述空间要素的经纬度坐标映射为一维莫顿码，具体包括：

将所述空间要素的经纬度坐标转换为二进制序列；

4.根据权利要求3所述的关于兴趣点的全文检索方法，其特征在于，采用经纬度逼近算法将所述空间要素的经纬度坐标转换为二进制序列。

5.根据权利要求1所述的关于兴趣点的全文检索方法，其特征在于，所述对所述一维莫顿码进行数据映射得到GeoHash编码，具体包括：

6.根据权利要求5所述的关于兴趣点的全文检索方法，其特征在于，将所述一维莫顿码由高到低每5位进行一次转换映射得到所述GeoHash编码。

7.一种关于兴趣点的全文检索系统，其特征在于，包括：

数据源层，用于生成兴趣点数据；

用户接口层，用于输入查询条件；

8.根据权利要求7所述的关于兴趣点的全文检索系统，其特征在于，所述检索层包括：