CN114491056A - 数字警务场景下的改进poi搜索的方法和系统 - Google Patents

数字警务场景下的改进poi搜索的方法和系统 Download PDF

Info

Publication number
CN114491056A
CN114491056A CN202111510006.XA CN202111510006A CN114491056A CN 114491056 A CN114491056 A CN 114491056A CN 202111510006 A CN202111510006 A CN 202111510006A CN 114491056 A CN114491056 A CN 114491056A
Authority
CN
China
Prior art keywords
search
terms
poi
police
ranking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111510006.XA
Other languages
English (en)
Inventor
王明光
钟浩
蒋维
王西标
高有光
徐佳申
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Wisdom Daoshu Shanghai Technology Co ltd
Original Assignee
New Wisdom Daoshu Shanghai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New Wisdom Daoshu Shanghai Technology Co ltd filed Critical New Wisdom Daoshu Shanghai Technology Co ltd
Priority to CN202111510006.XA priority Critical patent/CN114491056A/zh
Publication of CN114491056A publication Critical patent/CN114491056A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数字警务场景下的改进POI搜索的方法和系统,包括:获取用户搜索信息,其中,所述用户搜索信息包括查询语句、原点坐标;引入警务知识图谱对所述查询语句进行分词,得到搜索词条;将词项之间的距离作为排名因子,利用搜索引擎针对所述搜索词条进行POI搜索,得到搜索排名结果;利用所述原点坐标,对所述搜索排名结果进行调整。本发明优化了分词器,通过将词项之间的距离使得返回给用户的结果更加能符合人的排名认知,还针对POI地理位置的搜索,还加入了与原点坐标的空间距离因子,来提高本发明的搜索结果的与搜索内容的空间相似性。

Description

数字警务场景下的改进POI搜索的方法和系统
技术领域
本发明涉及数字警务领域,具体地,涉及数字警务场景下的改进POI搜索的方法和系统。
背景技术
在数字警务的业务场景下,很多信息的录入、采集都需要相应的兴趣点POI(Pointof Interest)信息搜索来辅助,以确定类似发案地、嫌疑人位置、行驶路径等,较好的用户体验能大幅提升相关的录入,采集的效率,以及准确性。
以往的POI的搜索是基于全文搜索,通过将POI的地址、名称等文本内容建立索引,用户通过搜索语句从索引库中获得结果,如图1所示。
整个方案分为两部分内容,索引建立与索引搜索。索引建立:将相关POI内容提取出信息,例如名称、地址等。索引搜索:解析用户的查询请求,在已经创建的索引库中进行搜索,返回相应的查询结果。
通常一种解决方案的实现是将名称或者地址信息,存放在数据库表中不同的字段,然后在数据库层面建立数据库索引,用户通过标准查询语句来进行精确或模糊信息查询。
另一种解决方案是将文字信息利用索引引擎建立全文索引,然后使用搜索引擎进行查询,这是一种模糊搜索。例如传统的Lucene搜索引擎。
这里主要讨论的解决方案是基于第二种,利用全文检索和搜索引擎实现的搜索。那么在索引建立以及查询解析阶段都要使用分词工具。在创建索引阶段会将文本内容分词后分别建立倒排索引,在查询阶段会将查询内容进行分词,按照不同的词条索引查询到匹配文档,然后聚合不同词条的匹配文档得到一个最终的返回结果。
基于现有全文索引/搜索引擎的搜索方法,存在以下几个缺点:
1、分词工具训练本身是使用互联网数据来训练,本身没有对POI相关信息加强,导致分词效果不理想。在数字警务的业务场景下,会有专用词条以及特有词条,脱敏信息等。如果无法正确的识别,那么会同时在索引建立和搜索时产生负面的影响。
2、搜索结果的排名,现在比较流行的方法是使用查询内容与文档内容的相似度来确定对应的排名结果,相似度得分高的排在前,反之在后。主流采用的文本相似度算法是BM25。但是由于引入了分词,原本的搜索内容会被分成多个独立的词条,相似度也会被分个成多个分词的相似度,分词的相似度无法完整的表达搜索内容的相似度,且没有在合并时考虑到原始搜索内容的因素,没有考虑到分词之前出现在同个文档中的距离因素,即分词距离越近,相似度应越高。导致搜索结果的与实际想要的结果存在较大的差距。
3、对于特殊领域POI的搜索,没有将其地理位置特性进行考虑,而数字警务的地域性较强,在业务场景中例如报警时,通常需要通过报警人的相邻基站或者描述的地标POI的经纬度来调节搜索的推荐结果的排名。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种数字警务场景下的改进POI搜索的方法和系统。
根据本发明提供的一种数字警务场景下的改进POI搜索的方法,包括:
步骤S1:获取用户搜索信息,其中,所述用户搜索信息包括查询语句、原点坐标;
步骤S2:引入警务知识图谱对所述查询语句进行分词,得到搜索词条;
步骤S3:将词项之间的距离作为排名因子,利用搜索引擎针对所述搜索词条进行POI搜索,得到搜索排名结果;
步骤S4:利用所述原点坐标,对所述搜索排名结果进行调整。
优选地,在所述步骤S1中:
利用用户在报警时获得的手机基站信息或者用户提供的地标性位置,获得相应的坐标,以此坐标为原点坐标。
优选地,在所述步骤S2中:
所述警务知识图谱中的词条包括:从POI数据中提取文档中地址词性的词条,从警务增强数据源中的文本信息提取出的警务特有词条、警务专业词条、区域POI词条,将这些词条进行聚合后保存到警务知识图谱中;
利用警务知识图谱优化Lucene分词器进行分词。
优选地,在所述步骤S3中:
对所述搜索词条进行联想,得到联想词条,若文档中出现联想词条,则提高该文档的排名等级;其中,联想词条为所述警务知识图谱中依托标准地址、实有人口、实有房屋和实有单位的一标三实数据构建的标准地址网络;
在搜索中使用精排层;其中,所述精排层用来计算搜索词条与目标词条之间的相似度;相似度越高,则搜索排名越高;
对于使用到最小单位为一个汉字缩写来进行查询的情况,使用单个汉字或者单个符号来作为词项之间的距离;词项之间的距离越近,则搜索排名越高。
优选地,在所述步骤S4中:
通过调整Geohash编码位数来圈画不同大小的方格,从而获得不同距离的POI数据点,然后利用POI数据点与原点坐标之间的距离来调整所述搜索排名结果;距离越近,则搜索排名越提高。
根据本发明提供的一种数字警务场景下的改进POI搜索的系统,包括:
模块M1:获取用户搜索信息,其中,所述用户搜索信息包括查询语句、原点坐标;
模块M2:引入警务知识图谱对所述查询语句进行分词,得到搜索词条;
模块M3:将词项之间的距离作为排名因子,利用搜索引擎针对所述搜索词条进行POI搜索,得到搜索排名结果;
模块M4:利用所述原点坐标,对所述搜索排名结果进行调整。
优选地,在所述模块M1中:
利用用户在报警时获得的手机基站信息或者用户提供的地标性位置,获得相应的坐标,以此坐标为原点坐标。
优选地,在所述模块M2中:
所述警务知识图谱中的词条包括:从POI数据中提取文档中地址词性的词条,从警务增强数据源中的文本信息提取出的警务特有词条、警务专业词条、区域POI词条,将这些词条进行聚合后保存到警务知识图谱中;
利用警务知识图谱优化Lucene分词器进行分词。
优选地,在所述模块M3中:
对所述搜索词条进行联想,得到联想词条,若文档中出现联想词条,则提高该文档的排名等级;其中,联想词条为所述警务知识图谱中依托标准地址、实有人口、实有房屋和实有单位的一标三实数据构建的标准地址网络;
在搜索中使用精排层;其中,所述精排层用来计算搜索词条与目标词条之间的相似度;相似度越高,则搜索排名越高;
对于使用到最小单位为一个汉字缩写来进行查询的情况,使用单个汉字或者单个符号来作为词项之间的距离;词项之间的距离越近,则搜索排名越高。
优选地,在所述模块M4中:
通过调整Geohash编码位数来圈画不同大小的方格,从而获得不同距离的POI数据点,然后利用POI数据点与原点坐标之间的距离来调整所述搜索排名结果;距离越近,则搜索排名越提高。
与现有技术相比,本发明具有如下的有益效果:
1、首先,本发明在分词方面,利用分词工具LAC,分词结果增加对词性的识别,可以较好的识别出POI数据中与地址相关的内容,从警务增强数据源中提取出来的专用词条、特殊词条、特殊信息词条,以这些内容构建的警务知识图谱,可以帮助我们在使用Lucene分词器时提高识别的准确率,同时Lucene在搜索的时候和构建索引分词索引的时候是可以使用相同分词器的,那么在搜索的时候也能准确识别用户搜索内容中最关心的地址维度、特殊维度的分词。
2、其次,在搜索获得数据后,Lucene会计算分词与文档相似度,高版本默认使用BM25,该公式的前提二个假设中,假设2:文档中词的出现与否是独立的。因此该方法没有考虑到分词之间的距离、分词的排名、分词在文档中的位置,对文档相似度的影响。本发明通过将词项之间的距离、分词在文档中的位置,作为影响最后搜索结果排名因子,从而使得返回给用户的结果更加能符合人的排名认知,同时数字警务知识图谱中提供专用词条和特殊词条也能帮助我们在检索过程中进行联想,以帮助我们在联想词条组时调整相应的排名顺序。
3、此外,本发明针对POI地理位置的搜索,还加入了与原点坐标的空间距离因子,原点坐标的获得,在警务具体的业务场景中按照报警人的手机基站坐标,或描述周围关键地标来确定和影响相应的推荐信息排名顺序,来提高本发明的搜索结果的与搜索内容的空间相似性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为现有技术中全文搜索的原理示意图。
图2为本发明中优化分词器的原理示意图。
图3为本发明中综合优化搜索排名结果的原理示意图。
图4为通过Geohash修正搜索排名结果的原理示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
根据本发明提供的一种数字警务场景下的改进POI搜索的方法,包括:
步骤S1:获取用户搜索信息,其中,所述用户搜索信息包括查询语句、原点坐标;在所述步骤S1中:利用用户在报警时获得的手机基站信息或者用户提供的地标性位置,获得相应的坐标,以此坐标为原点坐标。
步骤S2:引入警务知识图谱对所述查询语句进行分词,得到搜索词条;在所述步骤S2中:所述警务知识图谱中的词条包括:从POI数据中提取文档中地址词性的词条,从警务增强数据源中的文本信息提取出的警务特有词条、警务专业词条、区域POI词条,将这些词条进行聚合后保存到警务知识图谱中;利用警务知识图谱优化Lucene分词器进行分词。具体而言,使用第三方分词工具从POI数据中提取文档中地址词性的词,从警务增强数据源中获取文本信息,然后使用第三方分词工具提取出警务中特有的专业、特有的词条,聚合二者词条合并保存到警务的知识图谱中,在后续循环中,在分词时引入警务知识图谱从而提高分词效果。如图2所示。警务知识图谱的初始化信息包含,数字警务特有词条、专业词条、区域POI词条。这些数据需要通过警务专家,国家标准等汇聚而成。
步骤S3:将词项之间的距离作为排名因子,利用搜索引擎针对所述搜索词条进行POI搜索,得到搜索排名结果。本发明对搜索中的相似度计算进行了优化。在单个词条获得相似度得分后,追加分词词条间物理距离的权重系数。词条之间的排名调整规则如下:例如搜索ABC,分词后为得到:A,B,C三个词条。如果文档包含了A,B,C三个词条;那么词条与词条之间距离数值越大,排名会下降,例如ABC距离最小为0,又如ADBC距离为1,那么它相较ABC距离较大,ABC排名高于ADBC。且ABC出现在文档中的位置越靠前排名越靠前。词条出现的顺序也会影响到排名,ABC>ACB>CAB>CBA。如果文档没有全部包含A,B,C三个词条,那么包含越多排名越高。
此外,本发明在所述步骤S3中:对所述搜索词条进行联想,得到联想词条,若文档中出现联想词条,则提高该文档的排名等级;其中,联想词条为所述警务知识图谱中依托标准地址、实有人口、实有房屋和实有单位的一标三实数据构建的标准地址网络。具体地,利用索引阶段积累的警务相关的知识图谱,对联想词组的结果也会有相应的排名调整,例如当联想到某些特殊词条,我们将推高该文档的排名等级。警务知识图谱中,包含了依托标准地址、实有人口、实有房屋和实有单位的一标三实数据构建的标准地址网络,本发明会将查询词条在标准地址网络里获得相似度较高的词条作为联想词条,例如由同音字“天通苑”,联想到“天通苑南区”、“天通苑北区”等等,本发明会将一些较短的词条进行有限的联想扩展。
同时,本发明在搜索中使用精排层;其中,所述精排层用来计算搜索词条与目标词条之间的相似度;相似度越高,则搜索排名越高。具体而言,本发明在搜索阶段加入精排层,接入精排层的目的是为了解决基于BM25算法得分排名上的不合理问题,例如搜索词条在文档中出现位置对排名的影响。所述精排层使用欧几里德距离公式二维算法来计算排名得分,并且结合编辑距离算法计算搜索词条与目标词条之间的相似度。具体如下:
Figure BDA0003404877760000061
p为点(x1,y1)与点(x2,y2)之间的欧式距离;
以文档左边作为原点,即(x2,y2)=(0,0),那么就的到了公式:
Figure BDA0003404877760000062
y=lenght(doc)-index(key)+Simi(key,tag)
P表示为点(x,y)到原点的距离;
Doc表示文档;
length表示文档的长度;
index表示搜索词条首字符在文档中首次出现的位置;
key表示搜索词条;
Simi表示编辑距离相似度算法;
Tag表示从index开始,长度为搜索词条长度的词条;
文档的长度减去搜索词位置,加上搜索词条与以搜索词条首字符起点截取文档中与搜索词条等长的tag词条相似度,该相似度计算使用:编辑距离Levenshtein算法;x=index(key)为搜索词条在文本中的起始位置。代入公式得:
Figure BDA0003404877760000071
然后对p进行倒序。这里要提到的是需要对文档集合数据进行对齐。
另外,对于使用到最小单位为一个汉字缩写来进行查询的情况,使用单个汉字或者单个符号来作为词项之间的距离;词项之间的距离越近,则搜索排名越高。
Lucene是一个成熟的全文检索引擎工具包,其提供了完整的查询引擎和索引引擎。但是Lucene默认的相似性评分算法不足,导致在检索过程中的用于体验有待提高。
针对Lucene默认的相似性评分算法不足,现有的主流技术是将BM25应用到Lucene来优化查询结果的评分计算,其中,BM25是二元独立模型BIM的扩展,是一种用来评价搜索词和文档之间相关性的算法。但是,该主流算法只考虑到查询词条在文档中的词频,而忽视查询词条在文档中的距离特征。
对此,《山东师范大学学报(自然科学版)》刊登的“一种基于分词距离改进的lucene排名算法”,首先,对查询串和文档进行数据预处理,其次,通过在文档中标识关键词和查询词条的位置,从而实现查询词条与关键词之间分词距离的计算,进而得出查询串和整篇文档的相似性评分。
但是,“一种基于分词距离改进的lucene排名算法”的不足之处在于,不适合POI的短文档特性场景,POI信息作为一个文档,它的文档意图并不是按照“强弱降序排名”的,地址信息特别如此。在警务场景中无法满足警务场景的需求,原因是因为警务场景有一个特殊性是很多场景需要使用到最小单位为一个汉字缩写来进行查询,而该算法是基于“分词个数”来作为词项之间的距离,该特殊性导致该算法如果用到警务场景中会存在命中率过低的问题。而本发明针对该特殊性,作出的改进是使用单个汉字或者单个符号来作为词项之间的距离。
步骤S4:利用所述原点坐标,对所述搜索排名结果进行调整。在所述步骤S4中:通过调整Geohash编码位数来圈画不同大小的方格,从而获得不同距离的POI数据点,然后利用POI数据点与原点坐标之间的距离来调整所述搜索排名结果;距离越近,则搜索排名越提高。具体而言,利用用户在报警时获得的手机基站信息或者其提供的明确的地标性位置,获得相应的坐标,以此坐标为坐标原点,通过调整Geohash编码位数来圈画不同大小的方格,从而获得不同距离的POI数据点,然后利用与坐标原点距离来调整推荐的排名。现在大部分地区使用的是4G基站,在城区情况下一般有效半径为500m,本发明选择Geohash编码位数6位。那么就可以得到一个1.2km*609m的长方形区域,报警人理论上应该落在这个长方形区域中。在警务报警业务中会询问报警人是否在案发地,如果获得肯定回答,我们将首先返回这个长方形区域内的POI数据点,这样将大大提高搜索的效率和命中率。如果报警人并不在案发地,其能提供标志性地标时,会考虑将标志性地标作为原点坐标获取对应的Geohash编码得到长方形区域,来作为修正搜索结果的条件。
本发明还提供一种数字警务场景下的改进POI搜索的系统。所述数字警务场景下的改进POI搜索的系统可以通过执行所述数字警务场景下的改进POI搜索的方法的步骤流程实现,本领域技术人员可以将所述数字警务场景下的改进POI搜索的方法理解为所述数字警务场景下的改进POI搜索的系统的一个具体的实现方式。
根据本发明提供的一种数字警务场景下的改进POI搜索的系统,包括:
模块M1:获取用户搜索信息,其中,所述用户搜索信息包括查询语句、原点坐标;
模块M2:引入警务知识图谱对所述查询语句进行分词,得到搜索词条;
模块M3:将词项之间的距离作为排名因子,利用搜索引擎针对所述搜索词条进行POI搜索,得到搜索排名结果;
模块M4:利用所述原点坐标,对所述搜索排名结果进行调整。
优选地,在所述模块M1中:
利用用户在报警时获得的手机基站信息或者用户提供的地标性位置,获得相应的坐标,以此坐标为原点坐标。
优选地,在所述模块M2中:
所述警务知识图谱中的词条包括:从POI数据中提取文档中地址词性的词条,从警务增强数据源中的文本信息提取出的警务特有词条、警务专业词条、区域POI词条,将这些词条进行聚合后保存到警务知识图谱中;
利用警务知识图谱优化Lucene分词器进行分词。
优选地,在所述模块M3中:
对所述搜索词条进行联想,得到联想词条,若文档中出现联想词条,则提高该文档的排名等级;其中,联想词条为所述警务知识图谱中依托标准地址、实有人口、实有房屋和实有单位的一标三实数据构建的标准地址网络;
在搜索中使用精排层;其中,所述精排层用来计算搜索词条与目标词条之间的相似度;相似度越高,则搜索排名越高;
对于使用到最小单位为一个汉字缩写来进行查询的情况,使用单个汉字或者单个符号来作为词项之间的距离;词项之间的距离越近,则搜索排名越高。
优选地,在所述模块M4中:
通过调整Geohash编码位数来圈画不同大小的方格,从而获得不同距离的POI数据点,然后利用POI数据点与原点坐标之间的距离来调整所述搜索排名结果;距离越近,则搜索排名越提高。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种数字警务场景下的改进POI搜索的方法,其特征在于,包括:
步骤S1:获取用户搜索信息,其中,所述用户搜索信息包括查询语句、原点坐标;
步骤S2:引入警务知识图谱对所述查询语句进行分词,得到搜索词条;
步骤S3:将词项之间的距离作为排名因子,利用搜索引擎针对所述搜索词条进行POI搜索,得到搜索排名结果;
步骤S4:利用所述原点坐标,对所述搜索排名结果进行调整。
2.根据权利要求1所述的数字警务场景下的改进POI搜索的方法,其特征在于,在所述步骤S1中:
利用用户在报警时获得的手机基站信息或者用户提供的地标性位置,获得相应的坐标,以此坐标为原点坐标。
3.根据权利要求1所述的数字警务场景下的改进POI搜索的方法,其特征在于,在所述步骤S2中:
所述警务知识图谱中的词条包括:从POI数据中提取文档中地址词性的词条,从警务增强数据源中的文本信息提取出的警务特有词条、警务专业词条、区域POI词条,将这些词条进行聚合后保存到警务知识图谱中;
利用警务知识图谱优化Lucene分词器进行分词。
4.根据权利要求1所述的数字警务场景下的改进POI搜索的方法,其特征在于,在所述步骤S3中:
对所述搜索词条进行联想,得到联想词条,若文档中出现联想词条,则提高该文档的排名等级;其中,联想词条为所述警务知识图谱中依托标准地址、实有人口、实有房屋和实有单位的一标三实数据构建的标准地址网络;
在搜索中使用精排层;其中,所述精排层用来计算搜索词条与目标词条之间的相似度;相似度越高,则搜索排名越高;
对于使用到最小单位为一个汉字缩写来进行查询的情况,使用单个汉字或者单个符号来作为词项之间的距离;词项之间的距离越近,则搜索排名越高。
5.根据权利要求1所述的数字警务场景下的改进POI搜索的方法,其特征在于,在所述步骤S4中:
通过调整Geohash编码位数来圈画不同大小的方格,从而获得不同距离的POI数据点,然后利用POI数据点与原点坐标之间的距离来调整所述搜索排名结果;距离越近,则搜索排名越提高。
6.一种数字警务场景下的改进POI搜索的系统,其特征在于,包括:
模块M1:获取用户搜索信息,其中,所述用户搜索信息包括查询语句、原点坐标;
模块M2:引入警务知识图谱对所述查询语句进行分词,得到搜索词条;
模块M3:将词项之间的距离作为排名因子,利用搜索引擎针对所述搜索词条进行POI搜索,得到搜索排名结果;
模块M4:利用所述原点坐标,对所述搜索排名结果进行调整。
7.根据权利要求6所述的数字警务场景下的改进POI搜索的系统,其特征在于,在所述模块M1中:
利用用户在报警时获得的手机基站信息或者用户提供的地标性位置,获得相应的坐标,以此坐标为原点坐标。
8.根据权利要求6所述的数字警务场景下的改进POI搜索的系统,其特征在于,在所述模块M2中:
所述警务知识图谱中的词条包括:从POI数据中提取文档中地址词性的词条,从警务增强数据源中的文本信息提取出的警务特有词条、警务专业词条、区域POI词条,将这些词条进行聚合后保存到警务知识图谱中;
利用警务知识图谱优化Lucene分词器进行分词。
9.根据权利要求6所述的数字警务场景下的改进POI搜索的系统,其特征在于,在所述模块M3中:
对所述搜索词条进行联想,得到联想词条,若文档中出现联想词条,则提高该文档的排名等级;其中,联想词条为所述警务知识图谱中依托标准地址、实有人口、实有房屋和实有单位的一标三实数据构建的标准地址网络;
在搜索中使用精排层;其中,所述精排层用来计算搜索词条与目标词条之间的相似度;相似度越高,则搜索排名越高;
对于使用到最小单位为一个汉字缩写来进行查询的情况,使用单个汉字或者单个符号来作为词项之间的距离;词项之间的距离越近,则搜索排名越高。
10.根据权利要求6所述的数字警务场景下的改进POI搜索的系统,其特征在于,在所述模块M4中:
通过调整Geohash编码位数来圈画不同大小的方格,从而获得不同距离的POI数据点,然后利用POI数据点与原点坐标之间的距离来调整所述搜索排名结果;距离越近,则搜索排名越提高。
CN202111510006.XA 2021-12-10 2021-12-10 数字警务场景下的改进poi搜索的方法和系统 Pending CN114491056A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111510006.XA CN114491056A (zh) 2021-12-10 2021-12-10 数字警务场景下的改进poi搜索的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111510006.XA CN114491056A (zh) 2021-12-10 2021-12-10 数字警务场景下的改进poi搜索的方法和系统

Publications (1)

Publication Number Publication Date
CN114491056A true CN114491056A (zh) 2022-05-13

Family

ID=81492317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111510006.XA Pending CN114491056A (zh) 2021-12-10 2021-12-10 数字警务场景下的改进poi搜索的方法和系统

Country Status (1)

Country Link
CN (1) CN114491056A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114911787A (zh) * 2022-05-31 2022-08-16 南京大学 一种融合位置和语义约束的多源poi数据清洗方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114911787A (zh) * 2022-05-31 2022-08-16 南京大学 一种融合位置和语义约束的多源poi数据清洗方法
CN114911787B (zh) * 2022-05-31 2023-10-27 南京大学 一种融合位置和语义约束的多源poi数据清洗方法

Similar Documents

Publication Publication Date Title
CN109145169B (zh) 一种基于统计分词的地址匹配方法
CN111353030B (zh) 基于旅游领域知识图谱的知识问答检索方法及装置
CN111783419B (zh) 地址相似度计算方法、装置、设备和存储介质
CN112035730B (zh) 一种语义检索方法、装置及电子设备
CN102395965B (zh) 用于在数据库中搜索对象的方法
CN107203526B (zh) 一种查询串语义需求分析方法及装置
US8682646B2 (en) Semantic relationship-based location description parsing
CN105956053B (zh) 一种基于网络信息的搜索方法及装置
WO2021052148A1 (zh) 基于人工智能的合同敏感词校验方法、装置、计算机设备及存储介质
CN102279889B (zh) 一种基于地理信息的问题推送方法及系统
CN106844571B (zh) 识别同义词的方法、装置和计算设备
US9798776B2 (en) Systems and methods for parsing search queries
CN103491205A (zh) 一种基于视频搜索的关联资源地址的推送方法和装置
CN104199965A (zh) 一种语义信息检索方法
CN108536667B (zh) 中文文本识别方法及装置
CN113722478B (zh) 多维度特征融合相似事件计算方法、系统及电子设备
CN103488787B (zh) 一种基于视频搜索的在线播放入口对象的推送方法和装置
CN107153687B (zh) 一种社交网络文本数据的索引方法
CN113761890A (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN116414823A (zh) 一种基于分词模型的地址定位方法和装置
CN110727769A (zh) 语料库生成方法及装置、人机交互处理方法及装置
CN114491056A (zh) 数字警务场景下的改进poi搜索的方法和系统
CN116662583B (zh) 一种文本生成方法、地点检索方法及相关装置
CN105677664A (zh) 基于网络搜索的紧密度确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination