CN107908627A - 一种多语言的地图poi 搜索系统 - Google Patents
一种多语言的地图poi 搜索系统 Download PDFInfo
- Publication number
- CN107908627A CN107908627A CN201710284207.XA CN201710284207A CN107908627A CN 107908627 A CN107908627 A CN 107908627A CN 201710284207 A CN201710284207 A CN 201710284207A CN 107908627 A CN107908627 A CN 107908627A
- Authority
- CN
- China
- Prior art keywords
- poi
- result
- search
- region
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种多语言的地图POI搜索系统,系统包括POI数据索引构建、POI搜索、结果排序3个部分,POI数据索引构建部分负责对数据库中的POI数据进行预处理,以生成便于检索的POI特征。POI搜索部分负责分析用户提交的待搜索文本,在POI数据库中进行检索匹配,生成候选结果集合,结果排序部分负责综合分析候选结果与用户查询文本之间的关联程度和POI本身的特征,生成按优先级排序的最终呈现给用户搜索结果序列。该系统能够处理多种语言及输入习惯的POI搜索请求,提供了一种简洁高效的POI搜索系统。
Description
技术领域
本发明涉及信息检索技术领域,具体为一种多语言的地图POI搜索系统。
背景技术
随着Internet和交通的迅速发展,电子地图在人们生活中的地位日益提 高,例如交通导航、地点搜索等。以及在数据分析中,基于地图的数据可视 化展示也在为商业和政策决策提供了信息支持。POI(Point Of Interest) 即兴趣点,在广义上可以指代所有可以在地图上标注出来的地理对象,例如 机场、店铺、交通枢纽、建筑等。这些人们感兴趣的地理对象在人们生活中 起着非常重要的作用,地图中的POI点可以帮助人们进行定位、路程规划、 辅助决策。
POI的搜索是指是用户通过输入一串短文本,如建筑名称、街道门牌号、 机构名称等,来获得该文本所指代地理对象的位置及其它属性信息。由于可 能存在不同的地理对象之间重名、用户输入待搜索文本不准确等,系统需要 返回有序的搜索结果序列,用户更期望的搜索目标排在靠前的位置。
尽管许多的研究学者和地图服务公司在POI搜索方面做出了大量工作, 提出了各种POI搜索方法,但这些方法都存在着一定的局限性。比如对于多 语言的支持程度不够,处理过于复杂不适合在小规模单机地图服务系统上运 行等。
发明内容
为实现上述目的,本发明提供如下技术方案:一种多语言地图POI搜索 系统,包括如下步骤:
(S1)POI数据索引构建:对数据库中的POI数据进行预处理,以生成便 于检索的POI特征;
(S2)POI搜索:分析用户提交的待搜索文本,在POI数据库中进行检索 匹配,生成候选结果集合;
(S3)结果排序:负责综合分析候选结果与用户查询文本之间的关联程 度和POI本身的特征,生成按优先级排序的最终呈现给用户搜索结果序列;
有选的,所述步骤(S1)中的POI特征构建包含:POI之间的空间关系、 POI自身的名称特征和POI自身的属性特征;所述POI之间的空间关系是根据 POI点与区域、路线与区域、区域与区域之间的地理位置,将POI之间的空间 关系分为包含、相交、无关;所述POI自身的属性特征是对POI属性特征进 行分类,包括各级行政区划、道路、城市功能区、交通枢纽、社会机构、自 然区域、店铺、住宅;所述POI自身的名称特征是对POI名称字符串进行标 准化,整理成统一的形式。
有选的,所述POI名称字符串进行标准化的方法包括:去除固定后缀、 缩略语替换、去处冠词和不同书写习惯统一化;所述去除固定后缀为带有固 定后缀的同一类型地名,添加去除后缀后的别名;所述缩略语替换是将其中 的可能存在缩略形式的部分,统一替换为指定的缩略形式;所述不同书写习 惯统一化是指某些国家语言中对于同一词语会有不同的书写习惯,将其统一 化。
有选的,所述步骤(S2)中的POI搜索包含以下步骤:
(S201)文本分割:将待搜索文本按逗号分割,记为phrases;
(S202)标准化:对于phrases中的每个元素phrases[i],进行POI名 称的标准化,将其转化为标准形式;
(S203)单词分割:对于phrases中的每个元素phrases[i],生成一个 集合tokens[i],集合中每个元素均为其按照空格进行的某一种任意分割得到 的字符串序列;
(S204)数据库查询:对于tokens[i]中的每一个元素tokens[i][j], 在数据库POI特征中检索,得到的结果为一个以tokens[i][j]为特征的地理 POI点集合,记为terms[tokens[i][j]];
(S205)单词片段获取:对于phrases中的每一个元素phrases[i],生 成一个集合pSets[i],集合中每个元素均为其按照空格进行的某一种任意分 割得到的字符串序列;
(S206)符合性判断:对于pSets[i]中的每个字符串集合,逐个处理每 个字符串s,那么terms[s]即为该字符串所对应的候选POI点,对于一种字 符串分割,将其每一子串的候选POI结果之间进行组合,如果组合中任意两 个候选结果不存在这样的冲突:不是同一POI的不同指称,且不存在地理位 置上相互包含的关系,那么,保留这样的组合,选取中最小的地理对象r作 为最终结果;否则抛弃。
有选的,所述步骤(S3)中的结果排序采用了以下主要特征:POI热度, 搜索结果汇聚性和POI类型;所述POI热度是地图用户对于POI点的每一次 查看,包括点击搜索结果、点击地图标志该:点的图标,都会在数据库中为 该点的热度加1;所述搜索结果汇聚性是指某个POI一定距离内其它搜索结果 的数量。通常在某一个区域内会有较多包含相同关键词的POI点,该特征一 定程度上可以表示这个区域更有可能是用户期望的搜索结果;所述POI类型 是指不同的POI类型有不同的权重;包括各级行政区划、道路、城市功能区、 交通枢纽、社会机构、自然区域、店铺和住宅。
有选的,所述步骤(3)中的结果排序采用了以下减分特征:查询语序异 常和词语遗漏;所述查询语序异常是针对用户输入的查询文本的语言:对于 习惯采用由大到小描述地名的语言,查询结果不是按照由大到小的范围排列; 或对于习惯采用由小到大描述地名的语言,查询结果不是按照由小到大的范 围排列;所述词语遗漏是指用户输入的查询文本,存在某些词语没有在查询 结果中出现。
与现有技术相比,本发明的有益效果是:本发明可以适用于常见各种语 言POI的搜索,搜索计算量较少,搜索性能较高。
附图说明
图1是本发明POI搜索系统体系结构。
图2是本发明POI名称标准化的主要方法和例子。
图3是本发明POI按照属性进行分类。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
如图1至图3所示,本系统的体系结构包括三个部分:
(一)POI数据索引构建。对数据库中的POI数据进行预处理,以生成便 于检索的POI特征。
POI之间的空间关系分析,即根据POI点与区域、路线与区域、区域与区 域之间的地理位置,将POI之间的空间关系分为包含、相交、无关。
POI自身的属性特征分析,即对POI属性特征进行分类,包括各级行政区 划、道路、城市功能区、交通枢纽、社会机构、自然区域、店铺、住宅、其 它。
POI名称标准化处理,以便与检索的POI特征对比,这些处理包括:
(5)为带有固定后缀的同一类型(如同一级行政区划)地名,添加去除 后缀后的别名,例如:
山东省=>山东
济南市=>济南
海淀区=>海淀
(6)将其中的可能存在缩略形式的部分,统一替换为指定的缩略形式, 例如:
university=>univ(英语)
south west=>sw(英语)
khu du lich=>kdl(越南语)
(7)去除其中的冠词,例如:
the(英语)
das(德语)
(8)某些国家语言文字的不同书写习惯统一化,例如:
ae=>a(德语)
sss=>ss(德语)
ie=>i(俄语)
整理后的字符串既作为特征存入数据库中。
(二)POI搜索子系统。分析用户提交的待搜索文本,在POI数据库中进 行检索匹配,生成搜索结果集合。主要包含以下步骤:
(1)将待搜索文本按逗号分割,记为phrases;
(2)对于phrases中的每个元素phrases[i],进行POI数据索引构建时 对数据库中POI名称进行的处理,将其转化为标准形式;
(3)对于phrases中的每个元素phrases[i],生成一个集合tokens[i], 集合中每个元素均为其按照空格进行的某一种任意分割得到的字符串序列; 例如:
(3)对于tokens[i]中的每一个元素tokens[i][j],在数据库POI特征 中检索,得到的结果为一个以tokens[i][j]为特征的地理POI点集合,记为 terms[tokens[i][j]]。
(4)对于phrases中的每一个元素phrases[i],生成一个集合pSets[i], 集合中每个元素均为其按照空格进行的某一种任意分割得到的字符串序列; 例如:
(5)对于pSets[i]中的每个字符串集合,逐个处理每个字符串s,那么 terms[s]即为该字符串所对应的候选POI点。对于一种字符串分割,将其每 一子串的候选POI结果之间进行组合,如果组合中任意两个候选结果不存在 这样的冲突:不是同一POI的不同指称,且不存在地理位置上相互包含的关 系。那么,保留这样的组合,选取中最小的地理对象r作为最终结果(例如{“中 国”“北京”}中应选取“北京”),并记录该组合group[r]以供结果评分排序 使用;否则抛弃。
如此即得到搜索结果集合。
(三)结果排序子系统。综合分析候选结果与用户提交的待搜索文本之 间的关联程度和POI本身的特征,生成按优先级排序的最终呈现给用户搜索 结果序列。
结果评分采用了若干特征,对于一个结果r,包括:
(1)该POI点的热度
地图用户对于POI点的每一次查看,包括点击搜索结果、点击地图标志 该点的图标,都会在数据库中为该点的热度加1。
(2)该POI点一定距离内,其它搜索结果的数量
通常在某一个区域内会有较多包含相同关键词的POI点,该特征一定程 度上可以表示这个区域更有可能是用户期望的搜索结果。
(3)该POI点的类型
不同的POI类型有不同的权重。如一个城市通常比同名的道路更有可能 是用户的搜索目标。这些类型按照从高到低的评分顺序包括:国家及同等级 行政区划;省及其同等级行政区划;市及其同等级行政区划;岛屿;县及其 同等级行政区划;城镇;村庄;公路;铁路;工业园区;住宅区;商业区; 机场;交通枢纽;社会机构(大学、医院、图书馆、公安局、银行、公园、 电影院、艺术馆、商场、餐馆等);自然区域(山峰、森林、湖泊、河流、瀑 布等);店铺;住宅(门牌号);其它。
另外,对于具有某些特征的结果降低其评分,这些负向特征包括:
(1)查询语序异常。
针对用户输入的查询文本的语言:对于习惯采用由大到小描述地名的语 言(如汉语“中国北京昌平区白各庄新村”),group[r]不是按照由大到小的 范围排列;或对于习惯采用由小到大描述地名的语言(如英语“Hangzhou Zhejiang Province China.”),group[r]不是按照由小到大的范围排列。
(2)有词语遗漏
用户输入的查询文本,存在某些词语没有在r中出现。。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节, 而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实 现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且 是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨 在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。 不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (6)
1.一种多语言地图POI搜索系统,其特征在于,包括如下步骤:
(S1)POI数据索引构建:对数据库中的POI数据进行预处理,以生成便于检索的POI特征;
(S2)POI搜索:分析用户提交的待搜索文本,在POI数据库中进行检索匹配,生成候选结果集合;
(S3)结果排序:负责综合分析候选结果与用户查询文本之间的关联程度和POI本身的特征,生成按优先级排序的最终呈现给用户搜索结果序列。
2.根据权利要求1所述的一种多语言地图POI搜索系统,其特征在于,所述步骤(S1)中的POI特征构建包含:POI之间的空间关系、POI自身的名称特征和POI自身的属性特征;所述POI之间的空间关系是根据POI点与区域、路线与区域、区域与区域之间的地理位置,将POI之间的空间关系分为包含、相交、无关;所述POI自身的属性特征是对POI属性特征进行分类,包括各级行政区划、道路、城市功能区、交通枢纽、社会机构、自然区域、店铺、住宅;所述POI自身的名称特征是对POI名称字符串进行标准化,整理成统一的形式。
3.根据权利要求2所述的一种多语言地图POI搜索系统,其特征在于,所述POI名称字符串进行标准化的方法包括:去除固定后缀、缩略语替换、去处冠词和不同书写习惯统一化;所述去除固定后缀为带有固定后缀的同一类型地名,添加去除后缀后的别名;所述缩略语替换是将其中的可能存在缩略形式的部分,统一替换为指定的缩略形式;所述不同书写习惯统一化是指某些国家语言中对于同一词语会有不同的书写习惯,将其统一化。
4.根据权利要求1所述的一种多语言地图POI搜索系统,其特征在于,所述步骤(S2)中的POI搜索包含以下步骤:
(S201)文本分割:将待搜索文本按逗号分割,记为phrases;
(S202)标准化:对于phrases中的每个元素phrases[i],进行POI名称的标准化,将其转化为标准形式;
(S203)单词分割:对于phrases中的每个元素phrases[i],生成一个集合tokens[i],集合中每个元素均为其按照空格进行的某一种任意分割得到的字符串序列;
(S204)数据库查询:对于tokens[i]中的每一个元素tokens[i][j],在数据库POI特征中检索,得到的结果为一个以tokens[i][j]为特征的地理POI点集合,记为terms[tokens[i][j]];
(S205)单词片段获取:对于phrases中的每一个元素phrases[i],生成一个集合pSets[i],集合中每个元素均为其按照空格进行的某一种任意分割得到的字符串序列;
(S206)符合性判断:对于pSets[i]中的每个字符串集合,逐个处理每个字符串s,那么terms[s]即为该字符串所对应的候选POI点,对于一种字符串分割,将其每一子串的候选POI结果之间进行组合,如果组合中任意两个候选结果不存在这样的冲突:不是同一POI的不同指称,且不存在地理位置上相互包含的关系,那么,保留这样的组合,选取中最小的地理对象r作为最终结果;否则抛弃。
5.根据权利要求1所述的一种多语言地图POI搜索系统,其特征在于,所述步骤(S3)中的结果排序采用了以下主要特征:POI热度,搜索结果汇聚性和POI类型;所述POI热度是地图用户对于POI点的每一次查看,包括点击搜索结果、点击地图标志该:点的图标,都会在数据库中为该点的热度加1;所述搜索结果汇聚性是指某个POI一定距离内其它搜索结果的数量。通常在某一个区域内会有较多包含相同关键词的POI点,该特征一定程度上可以表示这个区域更有可能是用户期望的搜索结果;所述POI类型是指不同的POI类型有不同的权重;包括各级行政区划、道路、城市功能区、交通枢纽、社会机构、自然区域、店铺和住宅。
6.根据权利要求1所述的一种多语言地图POI搜索系统,其特征在于,所述步骤(3)中的结果排序采用了以下减分特征:查询语序异常和词语遗漏;所述查询语序异常是针对用户输入的查询文本的语言:对于习惯采用由大到小描述地名的语言,查询结果不是按照由大到小的范围排列;或对于习惯采用由小到大描述地名的语言,查询结果不是按照由小到大的范围排列;所述词语遗漏是指用户输入的查询文本,存在某些词语没有在查询结果中出现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710284207.XA CN107908627A (zh) | 2017-04-26 | 2017-04-26 | 一种多语言的地图poi 搜索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710284207.XA CN107908627A (zh) | 2017-04-26 | 2017-04-26 | 一种多语言的地图poi 搜索系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107908627A true CN107908627A (zh) | 2018-04-13 |
Family
ID=61840023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710284207.XA Pending CN107908627A (zh) | 2017-04-26 | 2017-04-26 | 一种多语言的地图poi 搜索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107908627A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359249A (zh) * | 2018-09-29 | 2019-02-19 | 清华大学 | 基于学者科研成果挖掘的学者精准定位方法及装置 |
CN109740070A (zh) * | 2018-12-13 | 2019-05-10 | 平安科技(深圳)有限公司 | 基于智能穿戴设备的救助方法、装置及存储介质 |
CN110647623A (zh) * | 2018-06-11 | 2020-01-03 | 百度在线网络技术(北京)有限公司 | 用于更新信息的方法及装置 |
CN111460325A (zh) * | 2019-01-22 | 2020-07-28 | 阿里巴巴集团控股有限公司 | Poi搜索方法、装置与设备 |
CN111694919A (zh) * | 2020-06-12 | 2020-09-22 | 北京百度网讯科技有限公司 | 生成信息的方法、装置、电子设备及计算机可读存储介质 |
CN113255398A (zh) * | 2020-02-10 | 2021-08-13 | 百度在线网络技术(北京)有限公司 | 兴趣点判重方法、装置、设备和存储介质 |
-
2017
- 2017-04-26 CN CN201710284207.XA patent/CN107908627A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647623A (zh) * | 2018-06-11 | 2020-01-03 | 百度在线网络技术(北京)有限公司 | 用于更新信息的方法及装置 |
CN109359249A (zh) * | 2018-09-29 | 2019-02-19 | 清华大学 | 基于学者科研成果挖掘的学者精准定位方法及装置 |
CN109359249B (zh) * | 2018-09-29 | 2020-07-10 | 清华大学 | 基于学者科研成果挖掘的学者精准定位方法及装置 |
CN109740070A (zh) * | 2018-12-13 | 2019-05-10 | 平安科技(深圳)有限公司 | 基于智能穿戴设备的救助方法、装置及存储介质 |
CN109740070B (zh) * | 2018-12-13 | 2024-05-07 | 平安科技(深圳)有限公司 | 基于智能穿戴设备的救助方法、装置及存储介质 |
CN111460325A (zh) * | 2019-01-22 | 2020-07-28 | 阿里巴巴集团控股有限公司 | Poi搜索方法、装置与设备 |
CN111460325B (zh) * | 2019-01-22 | 2023-06-27 | 阿里巴巴集团控股有限公司 | Poi搜索方法、装置与设备 |
CN113255398A (zh) * | 2020-02-10 | 2021-08-13 | 百度在线网络技术(北京)有限公司 | 兴趣点判重方法、装置、设备和存储介质 |
CN113255398B (zh) * | 2020-02-10 | 2023-08-18 | 百度在线网络技术(北京)有限公司 | 兴趣点判重方法、装置、设备和存储介质 |
CN111694919A (zh) * | 2020-06-12 | 2020-09-22 | 北京百度网讯科技有限公司 | 生成信息的方法、装置、电子设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107908627A (zh) | 一种多语言的地图poi 搜索系统 | |
CN109145169B (zh) | 一种基于统计分词的地址匹配方法 | |
Marine-Roig et al. | Tourism analytics with massive user-generated content: A case study of Barcelona | |
Silva et al. | Adding geographic scopes to web resources | |
CN102395965B (zh) | 用于在数据库中搜索对象的方法 | |
CN105224622A (zh) | 面向互联网的地名地址提取与标准化方法 | |
WO2006133538A1 (en) | System and method for ranking web content | |
KR101221959B1 (ko) | 맵 인터페이스와 지식처리를 활용한 지역관련정보 통합검색방법 | |
Chuang et al. | Enabling maps/location searches on mobile devices: Constructing a POI database via focused crawling and information extraction | |
JP2010128806A (ja) | 情報分析装置 | |
US20130275454A1 (en) | Full Text Search Using R-Trees | |
WO2015018247A1 (zh) | 事件多维度信息显示装置和方法 | |
Christen et al. | A probabilistic geocoding system based on a national address file | |
CN105975477B (zh) | 一种基于网络自动构建地名数据集的方法 | |
Almendros-Jiménez et al. | Integrating and querying OpenStreetMap and linked geo open data | |
CN114780680A (zh) | 基于地名地址数据库的检索与补全方法及系统 | |
Shi et al. | Extraction of geospatial information on the Web for GIS applications | |
Borges et al. | Ontology-driven discovery of geospatial evidence in web pages | |
EP2783308B1 (en) | Full text search based on interwoven string tokens | |
Shi et al. | Thematic data extraction from Web for GIS and applications | |
Zhang et al. | A graph-based approach for representing addresses in geocoding | |
Oliveira et al. | Gazetteer enrichment for addressing urban areas: A case study | |
Bui | Automatic construction of POI address lists at city streets from geo-tagged photos and web data: a case study of San Jose City | |
Venkateswaran et al. | Exploring and visualizing differences in geographic and linguistic web coverage | |
CN111191084B (zh) | 一种基于图结构的地名地址的解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180413 |
|
WD01 | Invention patent application deemed withdrawn after publication |