CN102385597A - 一种poi的容错搜索方法 - Google Patents
一种poi的容错搜索方法 Download PDFInfo
- Publication number
- CN102385597A CN102385597A CN2010102729569A CN201010272956A CN102385597A CN 102385597 A CN102385597 A CN 102385597A CN 2010102729569 A CN2010102729569 A CN 2010102729569A CN 201010272956 A CN201010272956 A CN 201010272956A CN 102385597 A CN102385597 A CN 102385597A
- Authority
- CN
- China
- Prior art keywords
- poi
- spelling
- result
- index
- weights
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明一种POI容错搜索的方法,是在习有的汉字分词索引的基础上建立全拼索引,只有在用户输入的汉字关键字通过汉字分词索引出现无搜索结果的时候,进一步将该关键字转换成对应的全拼组合,利用全拼索引搜索算法查找出与所述关键字拼音相同或相似的POI结果;本发明弥补了传统搜索算法的不足,能够在用户错误输入搜索关键字的同音字的情况下,返回满足用户要求的结果,提高了POI搜索的容错能力。
Description
技术领域
本发明属于信息检索技术领域,尤其涉及一种POI(兴趣点)的容错搜索方法。
技术背景
当前社会信息的快速增长给人们的生活带来的巨大的变化。人们身边都充斥着大量的信息,在这些海量信息中快速找到需要的信息,将很大程度地提高人们的工作效率。信息检索技术的出现,逐步满足了人们的要求。
信息检索一词出现于20世纪50年代,又称为信息存储与检索或者情报检索,是指将信息按照一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术。也就是说,包括“存”和“取”两个环节和内容,狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找到所需要的信息的过程,也就是我们常说的信息查询(Information Search或Information Seek)。
信息检索的主要环节如下:
信息内容分析和编码,产生信息记录及检索标识;
组织存储,将全部记录按照文件、数据库等形式组成有序的信息集合;
用户提交搜索请求,搜索和检索结果的输出。
关键部分是信息提问和信息集合的匹配和选择,即对给定检索请求与集合中的记录进行相似性比较,根据一定的匹配标准选出有关信息。
POI(兴趣点)搜索是导航产品中重要的组成部分,而POI的数量达到了千万,面对如此巨大的信息量,需要使用信息检索技术来组织和检索POI的信息。
通常,POI的原始数据由地图厂商提供,我们根据导航产品的实际情况重新组织和存储数据,建立索引文件。
传统的检索技术基于关键词匹配进行检索,往往存在查不全,查不准,检索质量不高的现象。特别是在POI检索方面,用户在导航之前需要查找目的地,而往往用户在需要导航的时候,经常是在一个陌生的地方,当查找某个POI的时候,用户很可能并不知道POI准确的名字,这就增加了用户输入错误关键字的可能性。传统的方法只根据用户输入的关键字去搜索,很可能得不到用户想要的结果,
发明内容
本发明的目的在于提供一种当用户输入与POI信息发音相同或相似的错误关键字时,仍能返回满足用户要求的POI结果的容错搜索方法。
本发明一种POI的容错搜索方法,是在习有的汉字分词索引的基础上建立全拼索引,只有在输入的汉字关键字通过汉字分词索引出现无搜索结果的时侯,进一步将关键字转换成对应的全拼组合,利用全拼索引搜索算法查找出与所述关键字拼音相同或相似的POI结果。
所述的建立全拼索引,就是根据GBK字库统计出汉字标准发音的种类,并将该标准发音按照字典排序方式排序,形成全拼索引项表;然后查看POI信息中各个汉字的发音,如果汉字的发音与全拼索引项表中某个发音相同,就将此POI信息的编号插入到全拼索引项表对应发音的表中,依次建立POI全拼索引。
所述的全拼索引搜索算法,就是分别将全拼组合中每个字的拼音与全拼索引项表进行匹配,获得包含POI信息的索引号,再取交集得到包含POI结果的索引号,并计算POI结果的权值,将这个权值作为排序的依据。
所述的POI结果的权值的计算方法如下:
如果检索出来的POI结果名字的全拼和关键字的全拼完全匹配,则此POI结果的权值为1;
如果检索出来的POI结果名字的全拼和关键字的全拼前缀匹配,则此POI结果的权值为2;
如果关键字的全拼在POI结果名字的全拼中的中间或者后缀,则此POI结果的权值为3;
如果关键字的全拼在POI结果名字的全拼中都有,并且是按照顺序排序的,这样的POI结果的权值就是4;
如果关键字的全拼在POI结果名字的全拼中都有,但先后顺序不同,这样的POI结果的权值为5;
最后,按照POI结果的权值从1至5进行排序。
本发明一种POI容错搜索方法,是在习有的汉字分词索引的基础上建立全拼索引,只有在用户输入的汉字关键字通过汉字分词索引出现无搜索结果的时候,进一步将该关键字转换成对应的全拼组合,利用全拼索引查找出与所述关键字拼音相同或相似的POI结果;本发明弥补了传统搜索算法的不足,能够在用户错误输入搜索关键字的同音字的情况下,仍然可以返回满足用户要求的结果,提高了POI搜索的容错能力。
附图说明
图1为本发明中倒排文件索引结构;
图2为本发明的流程示意图。
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
POI搜索是建立在索引文件的基础上实施的。POI搜索面对大量用户的检索请求,尽可能地将大运算量的工作在索引建立时完成,检索时运算尽可能的少,对POI索引文件结构采用倒排索引技术,如图1所示。
倒排文件是大型信息检索中使用最广泛的文件索引方式,“倒排”表示依据检索属性来列举相关文件,对POI搜索系统来说,倒排文件就是描述一个索引项集合元素和一个POI集合元素对应关系的数据结构。
创建倒排索引包括建立正向索引和反向索引。分析完POI源数据后,得到以POI源数据为主键的正向索引表,如图1(a)所示。当反向索引建立后,得到图1(b)。这是一个表重组的过程,最终得到以索引词为主键的最终的倒排文件索引,即反向索引。
一般的POI搜索都支持关键字的搜索,都建立了关键字的分词索引,用户输入关键字,搜索服务器在索引文件中查找相应的结果。在输入错误的情况下,不能找到用户想知道的POI信息。例如,厦门的地名“扬厝”,不熟悉的用户可能错误地输入成“羊厝”或“杨厝”,由于没有这样的POI信息,所以就找不到搜索结果。
本发明一种POI的容错搜索方法,主要是在习有的汉字分词索引的基础上建立全拼索引,只有在输入的汉字关键字通过汉字分词索引出现无搜索结果的时侯,进一步将关键字转换成对应的全拼组合,利用全拼索引搜索算法查找出与所述关键字拼音相同或相似的POI结果。
按照信息检索的方法,具体实施过程分为数据的组织和用户检索的过程.具体包括以下几个步骤:
(1)建立全拼索引
由于POI搜索是基于文件搜索方式实现的,本发明建立全拼索引,就是将所有的POI信息,按发音相同或者相似的要求组织成为一个索引文件存放。目前,电脑上用到的汉字字库一般都支持GBK字库,该GBK包含了20902个汉,涵盖了大陆GBK2312简体字和台湾BIG5繁体字。
根据GBK字库汉字发音的统计,目前汉字的发音为414种(去除音调的不同),在建立全拼索引时,先将这414种标准发音按照字典排序方式排序,形成全拼索引项表;
然后查看POI各个汉字的发音,如果汉字的发音与全拼索引项表中某个发音相同,就将此POI的编号插入到此项的表中,按照此方法完成POI全拼索引。
在建立全拼索引文件的时候,也要注意发音相似的情况,特别是如下的发音:
加h卷舌音:如z,c,s与zh,ch,sh的区别;
汉字拼音后面有无g的情况:如shan和shang;
汉字拼音中n和l的区别.如nian和lian。
以下结合具体例子来说明全拼索引的建立方法。
例如:POI原始数据如下(只取名字和全拼字段,其他信息略)
POI信息:肯德基(ken de ji)
在建立全拼索引的时候,已经知道414个标准拼音的顺序,如POI信息“肯德基”有三个发音ken、de、ji,ken在全拼索引项表中为154位,de在全拼索引项表中为64位,ji在全拼索引项表中为133位,所以POI信息“肯德基”的索引号就分别加入到全拼索引项表的这三个位置上,其他的POI在建立索引的时候用相同的方法来组织数据。
(2)全拼索引搜索算法的实现
如图2所示,当用户输入汉字关键字,通过汉字分词索引进行搜索,若无搜索结果,则将该关键字转换成全拼组合,分别将全拼组合中每个字的拼音与全拼索引项表进行匹配,获得包含POI信息的索引号,再取交集得到包含POI结果的索引号。当含有多音字的时候,需要转换成若干组的全拼组合,并将该多音字的多个全拼组合分别进行搜索,这样可以提高返回POI信息的准确度。
如用户输入关键字“肯德鸡”,首先直接按照这个关键字通过汉字分词索引进行搜索,将得不到结果;本发明进一步将“肯德鸡”转换成它的全拼组合“ken”,“de”,“ji”,按照全拼索引,分别找到第154位的“ken”,64位的“de”和133位的“ji”,分别取出它们包含的POI结果信息的索引号,再取交集,这样就可以找到POI结果的索引号,以及此索引号对应的POI信息“肯德基”,并且此POI结果的权值为1。
(3)搜索结果排序
搜索结果排序是搜索算法很重要的组成部分,是将最后满足检索要求的搜索结果呈现给用户,好的排序能够给用户带来较好的体验。
搜索结果排序的时候,先计算满足要求POI结果的权值,将这个权值作为排序的依据。
所述的POI结果的权值的计算方法如下:
如果检索出来的POI结果名字的全拼和关键字的全拼完全匹配,则此POI结果的权值为1;
如果检索出来的POI结果名字的全拼和关键字的全拼前缀匹配,则此POI结果的权值为2;
如果关键字的全拼在POI结果名字的全拼中的中间或者后缀,则此POI结果的权值为3;
如果关键字的全拼在POI结果名字的全拼中都有,并且是按照顺序排序的,这样的POI结果的权值就是4;
如果关键字的全拼在POI结果名字的全拼中都有,但先后顺序不同,这样的POI结果的权值为5;
最后,按照POI结果的权值从1至5进行排序。
例如:
格式为<搜索关键字>VS<POI结果名字>
<肯德鸡>VS<肯德基>,此POI结果的权值为1;
<肯德鸡>VS<肯德基远大路店>,此POI结果的权值为2;
<肯德鸡>VS<北京肯德基远大路店>,此POI结果的权值为3;
<亚讯>VS<亚马迅巴西烧烤>,此POI结果的权值为4;
<海沧建行>VS<中国建设银行海沧支行>,此POI结果的权值为5。
本发明的发明重点在于:在习有的汉字分词索引的基础上建立全拼索引,只有在用户输入的汉字关键字通过汉字分词索引出现无搜索结果的时候,进一步将该关键字转换成对应的全拼组合,利用全拼索引搜索算法查找出与所述关键字拼音相同或相似的POI结果;本发明弥补了传统搜索算法的不足,能够在用户错误输入搜索关键字的同音字的情况下,返回满足用户要求的结果,提高了POI搜索的容错能力。
Claims (4)
1.一种POI的容错搜索方法,其特征在于:在习有的汉字分词索引的基础上建立全拼索引,只有在输入的汉字关键字通过汉字分词索引出现无搜索结果的时侯,进一步将关键字转换成对应的全拼组合,利用全拼索引搜索算法查找出与所述关键字拼音相同或相似的POI结果。
2.根据权利要求1所述的一种POI的容错搜索方法,其特征在于:所述的建立全拼索引,就是根据GBK字库统计出汉字标准发音的种类,并将该标准发音按照字典排序方式排序,形成全拼索引项表;然后查看POI信息中各个汉字的发音,如果汉字的发音与全拼索引项表中某个发音相同,就将此POI信息的编号插入到全拼索引项表对应发音的表中,依次建立POI全拼索引。
3.根据权利要求1所述的一种POI的容错搜索方法,其特征在于:所述的全拼索引搜索算法,就是分别将全拼组合中每个字的拼音与全拼索引项表进行匹配,获得包含POI信息的索引号,再取交集得到包含POI结果的索引号,并计算POI结果的权值,将这个权值作为排序的依据。
4.根据权利要求3所述的一种POI的容错搜索方法,其特征在于所述的POI结果的权值的计算方法如下:
如果检索出来的POI结果名字的全拼和关键字的全拼完全匹配,则此POI结果的权值为1;
如果检索出来的POI结果名字的全拼和关键字的全拼前缀匹配,则此POI结果的权值为2;
如果关键字的全拼在POI结果名字的全拼中的中间或者后缀,则此POI结果的权值为3;
如果关键字的全拼在POI结果名字的全拼中都有,并且是按照顺序排序的,这样的POI结果的权值就是4;
如果关键字的全拼在POI结果名字的全拼中都有,但先后顺序不同,这样的POI结果的权值为5;
最后,按照POI结果的权值从1至5进行排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010272956.9A CN102385597B (zh) | 2010-08-31 | 2010-08-31 | 一种poi的容错搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010272956.9A CN102385597B (zh) | 2010-08-31 | 2010-08-31 | 一种poi的容错搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102385597A true CN102385597A (zh) | 2012-03-21 |
CN102385597B CN102385597B (zh) | 2016-04-27 |
Family
ID=45825017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010272956.9A Active CN102385597B (zh) | 2010-08-31 | 2010-08-31 | 一种poi的容错搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102385597B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103389976A (zh) * | 2012-05-07 | 2013-11-13 | 宇龙计算机通信科技(深圳)有限公司 | 用于终端的搜索方法及系统 |
CN106844779A (zh) * | 2017-03-09 | 2017-06-13 | 携程旅游网络技术(上海)有限公司 | 针对无搜索结果场景的引导方法及系统 |
CN107870919A (zh) * | 2016-09-23 | 2018-04-03 | 伊姆西Ip控股有限责任公司 | 管理索引的方法和设备 |
CN109033370A (zh) * | 2018-07-27 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 一种查找相似店铺的方法及装置、店铺接入的方法及装置 |
CN111460325A (zh) * | 2019-01-22 | 2020-07-28 | 阿里巴巴集团控股有限公司 | Poi搜索方法、装置与设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6298343B1 (en) * | 1997-12-29 | 2001-10-02 | Inventec Corporation | Methods for intelligent universal database search engines |
CN101685021A (zh) * | 2008-09-24 | 2010-03-31 | 高德软件有限公司 | 一种兴趣点信息获取方法及装置 |
CN101794307A (zh) * | 2010-03-02 | 2010-08-04 | 光庭导航数据(武汉)有限公司 | 基于互联网分词思想的车载导航poi搜索引擎 |
-
2010
- 2010-08-31 CN CN201010272956.9A patent/CN102385597B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6298343B1 (en) * | 1997-12-29 | 2001-10-02 | Inventec Corporation | Methods for intelligent universal database search engines |
CN101685021A (zh) * | 2008-09-24 | 2010-03-31 | 高德软件有限公司 | 一种兴趣点信息获取方法及装置 |
CN101794307A (zh) * | 2010-03-02 | 2010-08-04 | 光庭导航数据(武汉)有限公司 | 基于互联网分词思想的车载导航poi搜索引擎 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103389976A (zh) * | 2012-05-07 | 2013-11-13 | 宇龙计算机通信科技(深圳)有限公司 | 用于终端的搜索方法及系统 |
CN107870919A (zh) * | 2016-09-23 | 2018-04-03 | 伊姆西Ip控股有限责任公司 | 管理索引的方法和设备 |
CN106844779A (zh) * | 2017-03-09 | 2017-06-13 | 携程旅游网络技术(上海)有限公司 | 针对无搜索结果场景的引导方法及系统 |
CN109033370A (zh) * | 2018-07-27 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 一种查找相似店铺的方法及装置、店铺接入的方法及装置 |
CN111460325A (zh) * | 2019-01-22 | 2020-07-28 | 阿里巴巴集团控股有限公司 | Poi搜索方法、装置与设备 |
CN111460325B (zh) * | 2019-01-22 | 2023-06-27 | 阿里巴巴集团控股有限公司 | Poi搜索方法、装置与设备 |
Also Published As
Publication number | Publication date |
---|---|
CN102385597B (zh) | 2016-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800284B (zh) | 一种面向任务的非结构化信息智能问答系统构建方法 | |
CN101542475B (zh) | 用于对具有象形表意内容的数据进行搜索和匹配的系统和方法 | |
CN108829658B (zh) | 新词发现的方法及装置 | |
CN100437585C (zh) | 基于倒排表进行检索提示的方法 | |
CN107704102B (zh) | 一种文本输入方法及装置 | |
CN103365925B (zh) | 获取多音字拼音、基于拼音检索的方法及其相应装置 | |
CN101930435B (zh) | 机构名称检索方法及系统 | |
CN101819578B (zh) | 检索方法、索引建立方法和装置及检索系统 | |
CN103605752A (zh) | 一种基于语义识别的地址匹配方法 | |
CN104199965A (zh) | 一种语义信息检索方法 | |
CN101794307A (zh) | 基于互联网分词思想的车载导航poi搜索引擎 | |
CN102750949B (zh) | 语音识别方法和装置 | |
CN101324439B (zh) | 能对兴趣点进行检索的导航装置及其检索兴趣点的方法 | |
CN101162146A (zh) | 一种联网车载导航设备中兴趣点按拼音首字母检索的方法 | |
CN102867511A (zh) | 自然语音识别方法和装置 | |
CN111428494A (zh) | 专有名词的智能纠错方法、装置、设备及存储介质 | |
CN102314461B (zh) | 一种导航提示方法及系统 | |
CN103150356B (zh) | 一种应用的泛需求检索方法及系统 | |
CN104252484A (zh) | 一种拼音纠错方法及系统 | |
CN101685021A (zh) | 一种兴趣点信息获取方法及装置 | |
CN107145545A (zh) | 一种基于位置的社交网络中Top‑k区域用户文本数据推荐方法 | |
CN102385597B (zh) | 一种poi的容错搜索方法 | |
CN106205613B (zh) | 一种导航语音识别方法及系统 | |
CN101493340B (zh) | 一种车辆导航系统中兴趣点信息的快速检索方法 | |
CN102831224A (zh) | 一种数据索引库的建立方法、搜索建议生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |