CN101131326A - 电子导航系统的信息检索装置 - Google Patents

电子导航系统的信息检索装置 Download PDF

Info

Publication number
CN101131326A
CN101131326A CNA2007101452519A CN200710145251A CN101131326A CN 101131326 A CN101131326 A CN 101131326A CN A2007101452519 A CNA2007101452519 A CN A2007101452519A CN 200710145251 A CN200710145251 A CN 200710145251A CN 101131326 A CN101131326 A CN 101131326A
Authority
CN
China
Prior art keywords
unit
term
participle
vocabulary
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101452519A
Other languages
English (en)
Inventor
姜德荣
孙竹平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Autonavi Software Co Ltd
Original Assignee
Autonavi Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Autonavi Software Co Ltd filed Critical Autonavi Software Co Ltd
Priority to CNA2007101452519A priority Critical patent/CN101131326A/zh
Publication of CN101131326A publication Critical patent/CN101131326A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种电子导航系统的信息检索装置包括输入单元,用于接收检索词;分词单元,用于对所述输入单元接收的检索词进行分词处理以获得若干词元;匹配单元,用于在导航电子地图数据库中找出所述检索词或者所述词元匹配的字段;显示单元,用于显示与所述匹配单元找出的字段相关的信息。采用本发明的技术方案使得不用输入全称即可检索到所需信息,从而大大提高了检索的响应时间和精度。

Description

电子导航系统的信息检索装置
技术领域
本发明涉及电子导航领域,尤指一种电子导航系统的信息检索装置。
背景技术
现有的车载卫星导航系统普遍都提供了在导航电子地图数据库中的信息检索方法,包括接收输入的检索词;在导航电子地图数据库中找出与检索词相匹配字段;显示出与所述字段相关的信息。所述导航电子地图数据库用于存放电子地图的信息,例如地点的名称、坐标等等。
现有技术的缺点是:由于采用在数据库中找出与检索词相匹配的字段,也就是将检索词的所有字符作为一个关键字来进行匹配,例如:用户输入:“中国科学院国家计划委员会地理研究所”这个检索词,在数据库中找到与“中国科学院国家计划委员会地理研究所”完全一致的字段,如若用户不记得全称,只是其中的几个字如“国家计划委员会”,那么,现有技术就检索不出来,因此现有技术检索精度低。
发明内容
本发明要解决的问题是提供一种检索精度高的电子导航系统的信息检索装置。
为了解决上述问题,本发明电子导航系统的信息检索装置包括:
输入单元,用于接收检索词;
分词单元,用于对所述输入单元接收的检索词进行分词处理以获得若干词元;
匹配单元,用于在导航电子地图数据库中找出所述检索词或者所述词元匹配的字段;
显示单元,用于显示与所述匹配单元找出的字段相关的信息。
所述分词单元进一步包括:
词汇判断单元,判断检索词是否为可分类词汇;
查找单元,若检索词为可分类词汇,则在指针集合中查找检索词,若为一般词汇,则在词库集合中查找检索词;
第一判断单元,用于判断所述查找单元是否找到所述检索词;
检索词处理单元,若从所述第一判断单元接收的信息为“否”则减小所述检索词的长度并将减小长度后的检索词送给所述查找单元;
存放单元,用于存放所述检索词处理单元截取掉的字符和将查找到的检索词作为一个词元存储;
第二判断单元,判断所述存放单元中是否还有未分词的部分,若还有则将未分词的部分送给所述查找单元,否则将词元输出。
所述显示单元进一步包括:
排序单元,用于按照匹配度的高低对所述匹配单元检索出的字段进行排序;
相关显示单元,用于按照排序单元所排的顺序显示与所述字段相关的信息。
与现有技术相比,本发明电子导航系统的信息检索装置的有益效果为:
由于采用了分词处理,缩短了信息检索的响应时间,使得用户不用输入全称即可检索到所需信息,大大提高了检索精度。
附图说明
图1是本发明电子导航系统的信息检索装置的结构图;
图2是图1中的分词单元的结构示意图;
图3是词库结构示意图;
图4是词库的举例示意图。
具体实施方式
如图1所示,本发明电子导航系统的信息检索装置包括:
输入单元100,用于接收检索词;
分词单元101,用于对所述检索词进行分类并进行分词处理以获得若干词元;
匹配单元102,用于在数据库中找出与所述检索词或者所述词元匹配的字段,
显示单元103,用于显示与所述匹配单元102找出的字段相关的信息。
所述分词单元101进一步包括:
词汇判断单元1015,判断检索词是否为可分类词汇;
查找单元1010,对于可分类词汇,在指针集合中查找检索词;对于一般词汇,在整个词库集合中查找检索词;
第一判断单元1011,用于判断所述查找单元1010是否找到所述检索词;
检索词处理单元1012,若从所述第一判断单元1011接收的信息为“否”则减小所述检索词的长度并将减小长度后的检索词送给所述查找单元1010;
存放单元1013,用于存放所述检索词处理单元1012截取掉的字符和将查找到的检索词作为一个词元存储;
第二判断单元1014,判断所述存放单元1013中是否还有未分词的部分,若还有则将未分词的部分送给所述查找单元1010,否则将词元输出。
所述显示单元103进一步包括:
排序单元1030,用于按照匹配度的高低对所述匹配单元102检索出的字段进行排序;
相关显示单元1031,用于按照排序单元所排的顺序显示与所述字段相关的信息。
其中,实现词汇判断单元1015的伪代码为:
String key=“检索词”;
Int length=key.length();                      //得到检索词的字符串长度
String type=key.subString(length-2);         //取得检索词的最后两个字
Dictionary dic=new Dictionary(″SDIC.txt″);//加载类别表
HashMap hm=new HashMap()
while((s=in.readLine())!=null)
{
 words=s.split(″\t″);
 Integer freq=new Integer(words[1]);
  hm.put(words[0],freq);                 //存入类别名称
}
boolean bfind=hm.containsKey(type);  //是否找到类别名称
实现查找单元1010的伪代码为:
String key=“检索词”;
Set resultset=“得到的检索集合”;  //若为可分类词汇,则此集合为该类别的指针集合,若为一般词汇,则此集合指整个词库中的内容
boolean bool=resultset.containsKey(key);//判断检索词是否在检索集合中
实现检索词处理单元1012的伪代码为:
String key=“检索词”;
If(没有找到检索词){
   key=原检索词长度减小1后的结果;
   执行1010单元;
}
现假没用户输入的检索词是“中国人民银行”实现排序单元1030的伪代码为:
int num=用户输入的检索词经过分词后得到的词元个数;
int[]length=每个词元的字符串长度;
int len=搜索出的每个记录的名字长度;
if(num=1){//分词结果为该词本身
   len与length比较。len越大,结果越靠后;
   //实现:“中国人民银行”排在“中国人民银行昌平分行”前面的功能
}
else{
   num越大,表示该记录包含的词元数量越多,结果应靠前显示。
   当num一样时,则比较记录的长度,长度小的靠前显示;
   //实现“中国人民银行昌平分行”排在“中国人民银行建设路分行”前面的功能}
其中,所述可分类词汇指可划分到某个行业种类里面的词汇。例如:检索词为“王府饭店”,则这个检索词就为可分类词汇,其类型名称为:饭店。
导航信息检索的特点之一为,用户检索的内容95%以上为各种地点的名称,而中文短句的中心词通常是最后两个字,例如:××饭店,××宾馆,利用这个特点,首先在词库中建立一个类别表,里面存放“饭店”,“宾馆”,“超市”等类型名称。进行类型判断时首先取出检索词的最后两个字,在类别表中查找,如果找到,则该检索词属于可分类词汇,类型名称为检索词的最后两个字。
传统的词库都是按照词元的汉语拼音字母的顺序进行排序,本系统的词库采用类别和字母顺序相结合的方式进行词元的排序。对于可分类词汇,每个类别内部以及各个类别之间的词元采用汉语拼音字母的顺序进行排序,并且分布在词库中词元列表的前面,减少可分类词汇的检索时间;对于一般词汇,则只按照词元的汉语拼音字母的顺序进行排序,并且分布在可分类词汇的后面。
词库中内容的片断截取如下:
银行14_1                                  (可分类词汇)
中国工商14_1_1
中国建设14_1_2
中国农业14_1_3
........
癌23_1                                     (一般词汇)
癌细胞23_2
癌症23_3
癌肿23_4
矮23_5
矮矮23_6
矮秆作物23_7
类别表主要负责记录各种类别及其索引编号,以供查找。类别表的结构大体与词库相似,但内容要少很多,所以查询类别表花费的时间很少,基本可以忽略。
类别表内容的片断截取如下:
商场10_1
超市10_2
专卖店10_3
如图3所示,词汇分类时采用从大类到小类的方式进行分类,也方便进行词库的管理。根据日常生活的特点,首先确定几个大的类别,为每一个大类确定一个索引前缀,目的是唯一标识此大类,以便添加更小的类别(如:娱乐休闲,索引前缀为11);然后对此大类进行进一步细分,划分出更加详细的小类别,并且在大类索引前缀的后面添加类别编号,完成此小类的索引前缀(如:酒吧,索引前缀为11_2)。
对于词库,以“银行”为例,它属于一个小类别,对应的大类为“金融机构”,其索引前缀为“14”,“银行”在大类中的编号是“1”,这样,就可以确定“银行”这一小类别的索引前缀为“14_1”。然后为“银行”这一类别中添加具体内容和索引指针,
例如:
(名称)(指针/指针集合)
银行14_1,14_1_1,14_1_2,14_1_3...
中国工商14_1_1
中国建设14_1_2
中国农业14_1_3
例如:用户开始输入的检索词为“北京威帝科技大厦”,进入分词单元,首先进行检索词的类型判定,经过分析判定为建筑物(索引前缀20,如图3和4所示)-大厦(索引前缀2013,如图3和4所示),在词库中查找数据区域为“大厦”的词元,得到该索引区域的指针集合。在指针集合中查找“北京威帝科技”,集合中如果没有找到这个词,则字符串长度减小一个字,变成“北京威帝科”,再去集合中查找,如果没有,再减小一个,变成“北京威帝”,这次如果在词库中找到了这个词,则“北京威帝”是分词结果的一部分;现在用户输入的检索词经过分词只剩下了“科技”,将“科技”这个词继续在指针集合中查找,如找到,则最终将用户输入的检索词分词为:“北京威帝”,“科技”,“大厦”,若在指针集合中无法找到与“北京威帝科技”相关的内容,则将“北京威帝科技大厦”作为一般词汇,进行词库查找。分词成功后,在导航电子地图数据库中查找出所有包含“北京威帝”,“科技”,“大厦”三个关键字的记录,并按照与用户输入的检索词“北京威帝科技大厦”的匹配度高低进行排序,然后把结果显示给用户。
例如在导航电子地图数据库中检索有关“中国人民银行”的信息,输入单元100接收检索词“中国人民银行”后,首先对检索词进行分类,分类结果为:金融场所(索引前缀15)-银行(索引前缀15_4),将分类结果送给查找单元1010,查找单元1010取得“银行”的索引区域的指针集合,并在指针集合中查找是否存在该词,如果某个指针对应的数据区域内容刚好是“中国人民”则分词结束;如果所有指针对应的数据区域内容都不满足“中国人民”,则逐个减小“中国人民”字符串的长度,在指针集合中查找,如仍然没有找到,则将“中国人民银行”作为一般词汇进行检索,得到最终的分词结果。
综上所述,由于本发明将检索词进行分词处理得到若干词元,将词元作为关键字在导航电子数据库中检索,能够检索到更多的信息,从而大大提高了检索的效率和精度。

Claims (3)

1.一种电子导航系统的信息检索装置,其特征在于,包括:
输入单元,用于接收检索词;
分词单元,用于对所述输入单元接收的检索词进行分词处理以获得若干词元;
匹配单元,用于在导航电子地图数据库中找出所述检索词或者所述词元匹配的字段;
显示单元,用于显示与所述匹配单元找出的字段相关的信息。
2.如权利要求1所述的电子导航系统的信息检索装置,其特征在于,所述分词单元进一步包括:
词汇判断单元,判断检索词是否为可分类词汇;
查找单元,若检索词为可分类词汇,则在指针集合中查找检索词,若为一般词汇,则在词库集合中查找检索词;
第一判断单元,用于判断所述查找单元是否找到所述检索词;
检索词处理单元,若从所述第一判断单元接收的信息为“否”则减小所述检索词的长度并将减小长度后的检索词送给所述查找单元;
存放单元,用于存放所述检索词处理单元截取掉的字符和将查找到的检索词作为一个词元存储;
第二判断单元,判断所述存放单元中是否还有未分词的部分,若还有则将未分词的部分送给所述查找单元,否则将词元输出。
3.如权利要求2所述的电子导航系统的信息检索装置,其特征在于,所述显示单元进一步包括:
排序单元,用于按照匹配度的高低对所述匹配单元检索出的字段进行排序;
相关显示单元,用于按照排序单元所排的顺序显示与所述字段相关的信息。
CNA2007101452519A 2006-08-25 2007-08-17 电子导航系统的信息检索装置 Pending CN101131326A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007101452519A CN101131326A (zh) 2006-08-25 2007-08-17 电子导航系统的信息检索装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200620132006 2006-08-25
CN200620132006.5 2006-08-25
CNA2007101452519A CN101131326A (zh) 2006-08-25 2007-08-17 电子导航系统的信息检索装置

Publications (1)

Publication Number Publication Date
CN101131326A true CN101131326A (zh) 2008-02-27

Family

ID=39128677

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101452519A Pending CN101131326A (zh) 2006-08-25 2007-08-17 电子导航系统的信息检索装置

Country Status (1)

Country Link
CN (1) CN101131326A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102692233A (zh) * 2011-03-23 2012-09-26 北京四维图新科技股份有限公司 可变信息标志应用系统、电子导航装置和方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102692233A (zh) * 2011-03-23 2012-09-26 北京四维图新科技股份有限公司 可变信息标志应用系统、电子导航装置和方法
CN102692233B (zh) * 2011-03-23 2014-11-05 北京四维图新科技股份有限公司 可变信息标志应用系统、电子导航装置和方法

Similar Documents

Publication Publication Date Title
CN100562713C (zh) 电子导航系统的信息检索方法及装置
CN101206121B (zh) 地名检索装置
US7693853B2 (en) Method and apparatus for retrieving data representing a postal address from a plurality of postal addresses
US8078601B1 (en) Determining unambiguous geographic references
US8799772B2 (en) System and method for gathering, indexing, and supplying publicly available data charts
US8271495B1 (en) System and method for automating categorization and aggregation of content from network sites
US20120166414A1 (en) Systems and methods for relevance scoring
CN1983255A (zh) 一种互联网搜索方法
CN103678576A (zh) 基于动态语义分析的全文检索系统
JPH11120203A (ja) データベースを合併する方法およびデータベースからドキュメントを検索する装置
CN101169327B (zh) 信息检索装置
CN108984521A (zh) 一种新闻事件中人物观点抽取方法
US20050065920A1 (en) System and method for similarity searching based on synonym groups
CN101149271B (zh) 交叉点路口检索装置
US20050065947A1 (en) Thesaurus maintaining system and method
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
CN101131326A (zh) 电子导航系统的信息检索装置
CN101206120B (zh) 广场检索装置
CN101169328B (zh) 立交桥检索装置
JPH06348757A (ja) 文書検索装置および方法
CN111325235B (zh) 面向多语种的通用地名语义相似度计算方法及其应用
CN111709237A (zh) 一种基于地学分支学科专家知识的逻辑结构树构建方法
CN109783607A (zh) 一种在任意文本中匹配识别海量关键词的方法
US20080243790A1 (en) Software method for data storage and retrieval
CN101206122B (zh) 环岛检索装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080227