CN114491056A

CN114491056A - 数字警务场景下的改进poi搜索的方法和系统

Info

Publication number: CN114491056A
Application number: CN202111510006.XA
Authority: CN
Inventors: 王明光; 钟浩; 蒋维; 王西标; 高有光; 徐佳申
Original assignee: New Wisdom Daoshu Shanghai Technology Co ltd
Current assignee: New Wisdom Daoshu Shanghai Technology Co ltd
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-05-13

Abstract

本发明提供了一种数字警务场景下的改进POI搜索的方法和系统，包括：获取用户搜索信息，其中，所述用户搜索信息包括查询语句、原点坐标；引入警务知识图谱对所述查询语句进行分词，得到搜索词条；将词项之间的距离作为排名因子，利用搜索引擎针对所述搜索词条进行POI搜索，得到搜索排名结果；利用所述原点坐标，对所述搜索排名结果进行调整。本发明优化了分词器，通过将词项之间的距离使得返回给用户的结果更加能符合人的排名认知，还针对POI地理位置的搜索，还加入了与原点坐标的空间距离因子，来提高本发明的搜索结果的与搜索内容的空间相似性。

Description

数字警务场景下的改进POI搜索的方法和系统

技术领域

本发明涉及数字警务领域，具体地，涉及数字警务场景下的改进POI搜索的方法和系统。

背景技术

在数字警务的业务场景下，很多信息的录入、采集都需要相应的兴趣点POI(Pointof Interest)信息搜索来辅助，以确定类似发案地、嫌疑人位置、行驶路径等，较好的用户体验能大幅提升相关的录入，采集的效率，以及准确性。

以往的POI的搜索是基于全文搜索，通过将POI的地址、名称等文本内容建立索引，用户通过搜索语句从索引库中获得结果，如图1所示。

整个方案分为两部分内容，索引建立与索引搜索。索引建立：将相关POI内容提取出信息，例如名称、地址等。索引搜索：解析用户的查询请求，在已经创建的索引库中进行搜索，返回相应的查询结果。

通常一种解决方案的实现是将名称或者地址信息，存放在数据库表中不同的字段，然后在数据库层面建立数据库索引，用户通过标准查询语句来进行精确或模糊信息查询。

另一种解决方案是将文字信息利用索引引擎建立全文索引，然后使用搜索引擎进行查询，这是一种模糊搜索。例如传统的Lucene搜索引擎。

这里主要讨论的解决方案是基于第二种，利用全文检索和搜索引擎实现的搜索。那么在索引建立以及查询解析阶段都要使用分词工具。在创建索引阶段会将文本内容分词后分别建立倒排索引，在查询阶段会将查询内容进行分词，按照不同的词条索引查询到匹配文档，然后聚合不同词条的匹配文档得到一个最终的返回结果。

基于现有全文索引/搜索引擎的搜索方法，存在以下几个缺点：

1、分词工具训练本身是使用互联网数据来训练，本身没有对POI相关信息加强，导致分词效果不理想。在数字警务的业务场景下，会有专用词条以及特有词条，脱敏信息等。如果无法正确的识别，那么会同时在索引建立和搜索时产生负面的影响。

2、搜索结果的排名，现在比较流行的方法是使用查询内容与文档内容的相似度来确定对应的排名结果，相似度得分高的排在前，反之在后。主流采用的文本相似度算法是BM25。但是由于引入了分词，原本的搜索内容会被分成多个独立的词条，相似度也会被分个成多个分词的相似度，分词的相似度无法完整的表达搜索内容的相似度，且没有在合并时考虑到原始搜索内容的因素，没有考虑到分词之前出现在同个文档中的距离因素，即分词距离越近，相似度应越高。导致搜索结果的与实际想要的结果存在较大的差距。

3、对于特殊领域POI的搜索，没有将其地理位置特性进行考虑，而数字警务的地域性较强，在业务场景中例如报警时，通常需要通过报警人的相邻基站或者描述的地标POI的经纬度来调节搜索的推荐结果的排名。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种数字警务场景下的改进POI搜索的方法和系统。

根据本发明提供的一种数字警务场景下的改进POI搜索的方法，包括：

步骤S1：获取用户搜索信息，其中，所述用户搜索信息包括查询语句、原点坐标；

步骤S2：引入警务知识图谱对所述查询语句进行分词，得到搜索词条；

步骤S3：将词项之间的距离作为排名因子，利用搜索引擎针对所述搜索词条进行POI搜索，得到搜索排名结果；

步骤S4：利用所述原点坐标，对所述搜索排名结果进行调整。

优选地，在所述步骤S1中：

利用用户在报警时获得的手机基站信息或者用户提供的地标性位置，获得相应的坐标，以此坐标为原点坐标。

优选地，在所述步骤S2中：

所述警务知识图谱中的词条包括：从POI数据中提取文档中地址词性的词条，从警务增强数据源中的文本信息提取出的警务特有词条、警务专业词条、区域POI词条，将这些词条进行聚合后保存到警务知识图谱中；

利用警务知识图谱优化Lucene分词器进行分词。

优选地，在所述步骤S3中：

对所述搜索词条进行联想，得到联想词条，若文档中出现联想词条，则提高该文档的排名等级；其中，联想词条为所述警务知识图谱中依托标准地址、实有人口、实有房屋和实有单位的一标三实数据构建的标准地址网络；

在搜索中使用精排层；其中，所述精排层用来计算搜索词条与目标词条之间的相似度；相似度越高，则搜索排名越高；

对于使用到最小单位为一个汉字缩写来进行查询的情况，使用单个汉字或者单个符号来作为词项之间的距离；词项之间的距离越近，则搜索排名越高。

优选地，在所述步骤S4中：

通过调整Geohash编码位数来圈画不同大小的方格，从而获得不同距离的POI数据点，然后利用POI数据点与原点坐标之间的距离来调整所述搜索排名结果；距离越近，则搜索排名越提高。

根据本发明提供的一种数字警务场景下的改进POI搜索的系统，包括：

模块M1：获取用户搜索信息，其中，所述用户搜索信息包括查询语句、原点坐标；

模块M2：引入警务知识图谱对所述查询语句进行分词，得到搜索词条；

模块M3：将词项之间的距离作为排名因子，利用搜索引擎针对所述搜索词条进行POI搜索，得到搜索排名结果；

模块M4：利用所述原点坐标，对所述搜索排名结果进行调整。

优选地，在所述模块M1中：

优选地，在所述模块M2中：

利用警务知识图谱优化Lucene分词器进行分词。

优选地，在所述模块M3中：

优选地，在所述模块M4中：

与现有技术相比，本发明具有如下的有益效果：

1、首先，本发明在分词方面，利用分词工具LAC，分词结果增加对词性的识别，可以较好的识别出POI数据中与地址相关的内容，从警务增强数据源中提取出来的专用词条、特殊词条、特殊信息词条，以这些内容构建的警务知识图谱，可以帮助我们在使用Lucene分词器时提高识别的准确率，同时Lucene在搜索的时候和构建索引分词索引的时候是可以使用相同分词器的，那么在搜索的时候也能准确识别用户搜索内容中最关心的地址维度、特殊维度的分词。

2、其次，在搜索获得数据后，Lucene会计算分词与文档相似度，高版本默认使用BM25，该公式的前提二个假设中，假设2：文档中词的出现与否是独立的。因此该方法没有考虑到分词之间的距离、分词的排名、分词在文档中的位置，对文档相似度的影响。本发明通过将词项之间的距离、分词在文档中的位置，作为影响最后搜索结果排名因子，从而使得返回给用户的结果更加能符合人的排名认知，同时数字警务知识图谱中提供专用词条和特殊词条也能帮助我们在检索过程中进行联想，以帮助我们在联想词条组时调整相应的排名顺序。

3、此外，本发明针对POI地理位置的搜索，还加入了与原点坐标的空间距离因子，原点坐标的获得，在警务具体的业务场景中按照报警人的手机基站坐标，或描述周围关键地标来确定和影响相应的推荐信息排名顺序，来提高本发明的搜索结果的与搜索内容的空间相似性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为现有技术中全文搜索的原理示意图。

图2为本发明中优化分词器的原理示意图。

图3为本发明中综合优化搜索排名结果的原理示意图。

图4为通过Geohash修正搜索排名结果的原理示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

步骤S1：获取用户搜索信息，其中，所述用户搜索信息包括查询语句、原点坐标；在所述步骤S1中：利用用户在报警时获得的手机基站信息或者用户提供的地标性位置，获得相应的坐标，以此坐标为原点坐标。

步骤S2：引入警务知识图谱对所述查询语句进行分词，得到搜索词条；在所述步骤S2中：所述警务知识图谱中的词条包括：从POI数据中提取文档中地址词性的词条，从警务增强数据源中的文本信息提取出的警务特有词条、警务专业词条、区域POI词条，将这些词条进行聚合后保存到警务知识图谱中；利用警务知识图谱优化Lucene分词器进行分词。具体而言，使用第三方分词工具从POI数据中提取文档中地址词性的词，从警务增强数据源中获取文本信息，然后使用第三方分词工具提取出警务中特有的专业、特有的词条，聚合二者词条合并保存到警务的知识图谱中，在后续循环中，在分词时引入警务知识图谱从而提高分词效果。如图2所示。警务知识图谱的初始化信息包含，数字警务特有词条、专业词条、区域POI词条。这些数据需要通过警务专家，国家标准等汇聚而成。

步骤S3：将词项之间的距离作为排名因子，利用搜索引擎针对所述搜索词条进行POI搜索，得到搜索排名结果。本发明对搜索中的相似度计算进行了优化。在单个词条获得相似度得分后，追加分词词条间物理距离的权重系数。词条之间的排名调整规则如下：例如搜索ABC，分词后为得到：A，B，C三个词条。如果文档包含了A，B，C三个词条；那么词条与词条之间距离数值越大，排名会下降，例如ABC距离最小为0，又如ADBC距离为1，那么它相较ABC距离较大，ABC排名高于ADBC。且ABC出现在文档中的位置越靠前排名越靠前。词条出现的顺序也会影响到排名，ABC>ACB>CAB>CBA。如果文档没有全部包含A，B，C三个词条，那么包含越多排名越高。

此外，本发明在所述步骤S3中：对所述搜索词条进行联想，得到联想词条，若文档中出现联想词条，则提高该文档的排名等级；其中，联想词条为所述警务知识图谱中依托标准地址、实有人口、实有房屋和实有单位的一标三实数据构建的标准地址网络。具体地，利用索引阶段积累的警务相关的知识图谱，对联想词组的结果也会有相应的排名调整，例如当联想到某些特殊词条，我们将推高该文档的排名等级。警务知识图谱中，包含了依托标准地址、实有人口、实有房屋和实有单位的一标三实数据构建的标准地址网络，本发明会将查询词条在标准地址网络里获得相似度较高的词条作为联想词条，例如由同音字“天通苑”，联想到“天通苑南区”、“天通苑北区”等等，本发明会将一些较短的词条进行有限的联想扩展。

同时，本发明在搜索中使用精排层；其中，所述精排层用来计算搜索词条与目标词条之间的相似度；相似度越高，则搜索排名越高。具体而言，本发明在搜索阶段加入精排层，接入精排层的目的是为了解决基于BM25算法得分排名上的不合理问题，例如搜索词条在文档中出现位置对排名的影响。所述精排层使用欧几里德距离公式二维算法来计算排名得分，并且结合编辑距离算法计算搜索词条与目标词条之间的相似度。具体如下：

p为点(x₁，y₁)与点(x₂，y₂)之间的欧式距离；

以文档左边作为原点，即(x₂，y₂)＝(0，0),那么就的到了公式：

y=lenght(doc)-index(key)+Simi(key，tag)

P表示为点(x,y)到原点的距离；

Doc表示文档；

length表示文档的长度；

index表示搜索词条首字符在文档中首次出现的位置；

key表示搜索词条；

Simi表示编辑距离相似度算法；

Tag表示从index开始,长度为搜索词条长度的词条；

文档的长度减去搜索词位置，加上搜索词条与以搜索词条首字符起点截取文档中与搜索词条等长的tag词条相似度,该相似度计算使用：编辑距离Levenshtein算法；x＝index(key)为搜索词条在文本中的起始位置。代入公式得：

然后对p进行倒序。这里要提到的是需要对文档集合数据进行对齐。

另外，对于使用到最小单位为一个汉字缩写来进行查询的情况，使用单个汉字或者单个符号来作为词项之间的距离；词项之间的距离越近，则搜索排名越高。

Lucene是一个成熟的全文检索引擎工具包，其提供了完整的查询引擎和索引引擎。但是Lucene默认的相似性评分算法不足，导致在检索过程中的用于体验有待提高。

针对Lucene默认的相似性评分算法不足，现有的主流技术是将BM25应用到Lucene来优化查询结果的评分计算，其中，BM25是二元独立模型BIM的扩展,是一种用来评价搜索词和文档之间相关性的算法。但是，该主流算法只考虑到查询词条在文档中的词频,而忽视查询词条在文档中的距离特征。

对此，《山东师范大学学报(自然科学版)》刊登的“一种基于分词距离改进的lucene排名算法”，首先,对查询串和文档进行数据预处理，其次,通过在文档中标识关键词和查询词条的位置,从而实现查询词条与关键词之间分词距离的计算,进而得出查询串和整篇文档的相似性评分。

但是，“一种基于分词距离改进的lucene排名算法”的不足之处在于，不适合POI的短文档特性场景，POI信息作为一个文档，它的文档意图并不是按照“强弱降序排名”的，地址信息特别如此。在警务场景中无法满足警务场景的需求，原因是因为警务场景有一个特殊性是很多场景需要使用到最小单位为一个汉字缩写来进行查询，而该算法是基于“分词个数”来作为词项之间的距离，该特殊性导致该算法如果用到警务场景中会存在命中率过低的问题。而本发明针对该特殊性，作出的改进是使用单个汉字或者单个符号来作为词项之间的距离。

步骤S4：利用所述原点坐标，对所述搜索排名结果进行调整。在所述步骤S4中：通过调整Geohash编码位数来圈画不同大小的方格，从而获得不同距离的POI数据点，然后利用POI数据点与原点坐标之间的距离来调整所述搜索排名结果；距离越近，则搜索排名越提高。具体而言，利用用户在报警时获得的手机基站信息或者其提供的明确的地标性位置，获得相应的坐标，以此坐标为坐标原点，通过调整Geohash编码位数来圈画不同大小的方格，从而获得不同距离的POI数据点，然后利用与坐标原点距离来调整推荐的排名。现在大部分地区使用的是4G基站，在城区情况下一般有效半径为500m，本发明选择Geohash编码位数6位。那么就可以得到一个1.2km*609m的长方形区域，报警人理论上应该落在这个长方形区域中。在警务报警业务中会询问报警人是否在案发地，如果获得肯定回答，我们将首先返回这个长方形区域内的POI数据点，这样将大大提高搜索的效率和命中率。如果报警人并不在案发地，其能提供标志性地标时，会考虑将标志性地标作为原点坐标获取对应的Geohash编码得到长方形区域，来作为修正搜索结果的条件。

本发明还提供一种数字警务场景下的改进POI搜索的系统。所述数字警务场景下的改进POI搜索的系统可以通过执行所述数字警务场景下的改进POI搜索的方法的步骤流程实现，本领域技术人员可以将所述数字警务场景下的改进POI搜索的方法理解为所述数字警务场景下的改进POI搜索的系统的一个具体的实现方式。

优选地，在所述模块M1中：

优选地，在所述模块M2中：

利用警务知识图谱优化Lucene分词器进行分词。

优选地，在所述模块M3中：

优选地，在所述模块M4中：

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种数字警务场景下的改进POI搜索的方法，其特征在于，包括：

2.根据权利要求1所述的数字警务场景下的改进POI搜索的方法，其特征在于，在所述步骤S1中：

3.根据权利要求1所述的数字警务场景下的改进POI搜索的方法，其特征在于，在所述步骤S2中：

利用警务知识图谱优化Lucene分词器进行分词。

4.根据权利要求1所述的数字警务场景下的改进POI搜索的方法，其特征在于，在所述步骤S3中：

5.根据权利要求1所述的数字警务场景下的改进POI搜索的方法，其特征在于，在所述步骤S4中：

6.一种数字警务场景下的改进POI搜索的系统，其特征在于，包括：

7.根据权利要求6所述的数字警务场景下的改进POI搜索的系统，其特征在于，在所述模块M1中：

8.根据权利要求6所述的数字警务场景下的改进POI搜索的系统，其特征在于，在所述模块M2中：

利用警务知识图谱优化Lucene分词器进行分词。

9.根据权利要求6所述的数字警务场景下的改进POI搜索的系统，其特征在于，在所述模块M3中：

10.根据权利要求6所述的数字警务场景下的改进POI搜索的系统，其特征在于，在所述模块M4中：