CN105159940A - 挖掘地理信息的方法、装置以及服务器 - Google Patents

挖掘地理信息的方法、装置以及服务器 Download PDF

Info

Publication number
CN105159940A
CN105159940A CN201510483191.6A CN201510483191A CN105159940A CN 105159940 A CN105159940 A CN 105159940A CN 201510483191 A CN201510483191 A CN 201510483191A CN 105159940 A CN105159940 A CN 105159940A
Authority
CN
China
Prior art keywords
text message
longitude
latitude
address information
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510483191.6A
Other languages
English (en)
Inventor
王智广
傅彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510483191.6A priority Critical patent/CN105159940A/zh
Publication of CN105159940A publication Critical patent/CN105159940A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9554Retrieval from the web using information identifiers, e.g. uniform resource locators [URL] by using bar codes

Abstract

本发明公开了挖掘地理信息的方法、装置以及服务器,本发明涉及计算机技术领域,该方法包括:在文本信息中查找地址信息标识;当在文本信息中查找到地址信息标识时,在文本信息中查找关键词;从查找到的关键词两侧开始依次检测文本信息中字符是否为结束标识,当在两侧分别检测到结束标识时,提取检测到的结束标识间的文本信息;将提取的文本信息确定为地址信息,输出所述地址信息。本发明解决了,采用人工收集地址信息的方式,造成成本过高和效率低下的问题;取得了降低地址信息提取成本和提高地址信息提取效率的有益效果。

Description

挖掘地理信息的方法、装置以及服务器
技术领域
本发明涉及计算机技术领域,具体涉及一种挖掘地理信息的方法、装置以及服务器。
背景技术
随着计算机技术的发展,电子地图被越来越多的使用。在制作电子地图时,需要使用地址信息。举例而言,地址信息可以为POI(兴趣点,PointofInterest),一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。
在现有技术中,获取地址信息的方法包括,派遣工作人员到现场对采样点进行经纬度测量,并现场确定采样点的地址,即地址信息。将测量的经纬度与采样点的地址进行对应。根据测量的经纬度和采样点的地址在电子地图中标识出采样点,并将采样点与地址信息对应。可见,现有技术中通过人工方式进行地址信息收集。但是,由于地址信息数量的庞大,采用人工收集地址信息的方式,造成成本过高和效率低下的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的挖掘地理信息的方法、装置以及服务器。
依据本发明的一个方面,提供了一种挖掘地址信息的方法,该方法包括:
在文本信息中查找地址信息标识;
当在文本信息中查找到地址信息标识时,在文本信息中查找关键词;
从查找到的关键词两侧开始依次检测文本信息中字符是否为结束标识,当在两侧分别检测到结束标识时,提取检测到的结束标识间的文本信息;
将提取的文本信息确定为地址信息,输出所述地址信息。
可选地,所述方法还包括:
在将提取的文本信息确定为地址信息之前,对提取的文本信息进行经纬度解析;
所述将提取的文本信息确定为地址信息,进一步包括:
将所提取的通过经纬度解析取得对应经纬度的文本信息,确定为地址信息。
可选地,所述对提取的文本信息进行经纬度解析,进一步包括:
对提取的文本信息进行切词,获得所述提取的文本信息对应的分词;
利用所述分词从经纬度解析数据库中查询所述提取的文本信息对应的经纬度。
可选地,所述利用所述分词从经纬度解析数据库中查询所述提取的文本信息对应的经纬度,进一步包括:
当利用所述分词在经纬度解析数据库中查找到与所述提取的文本信息完全匹配的采样点时,将完全匹配的采样点对应的经纬度确定为所述提取的文本信息对应的经纬度。
可选地,所述利用所述分词从经纬度解析数据库中查询所述提取的文本信息对应的经纬度,进一步包括:
当利用所述分词在经纬度解析数据库中查找到与所述提取的文本信息部分匹配的采样点时,根据部分匹配的采样点对应的经纬度和所提取的文本信息确定所述提取的文本信息对应的经纬度。
可选地,所述地址信息标识至少包括如下词汇中一个词:地址、地区、区域。
可选地,所述关键词至少包括如下词汇中一个词:路、道、街、巷、胡同。
可选地,所述结束标识至少包括如下字符中一种:空格字符、标点字符、回车字符、分割字符。
根据本发明的另一方面,提供了一种挖掘地址信息的装置,该装置包括:
查找模块,适于在文本信息中查找地址信息标识,以及当在文本信息中查找到地址信息标识时,在文本信息中查找关键词;
提取模块,适于从查找到的关键词两侧开始依次检测文本信息中字符是否为结束标识,当在两侧分别检测到结束标识时,提取检测到的结束标识间的文本信息;
输出模块,适于将提取的文本信息确定为地址信息,输出所述地址信息。
可选地,所述装置还包括:
解析模块,适于在将提取的文本信息确定为地址信息之前,对提取的文本信息进行经纬度解析;
所述输出模块,进一步适于将所提取的通过经纬度解析取得对应经纬度的文本信息,确定为地址信息。
可选地,所述解析模块,进一步包括:
分词子模块,适于对提取的文本信息进行切词,获得所述提取的文本信息对应的分词;
查询子模块,适于利用所述分词从经纬度解析数据库中查询所述提取的文本信息对应的经纬度。
可选地,所述查询子模块,进一步适于当利用所述分词在经纬度解析数据库中查找到与所述提取的文本信息完全匹配的采样点时,将完全匹配的采样点对应的经纬度确定为所述提取的文本信息对应的经纬度。
可选地,所述查询子模块,进一步适于当利用所述分词在经纬度解析数据库中查找到与所述提取的文本信息部分匹配的采样点时,根据部分匹配的采样点对应的经纬度和所提取的文本信息确定所述提取的文本信息对应的经纬度。
可选地,所述地址信息标识至少包括如下词汇中一个词:地址、地区、区域。
可选地,所述关键词至少包括如下词汇中一个词:路、道、街、巷、胡同。
可选地,所述结束标识至少包括如下字符中一种:空格字符、标点字符、回车字符、分割字符。
依据本发明的又一个方面,提供了一种挖掘地址信息的服务器,该服务器包括:上述任一所述的装置。
根据本发明的技术方案,可以在文本信息中查找地址信息标识,当在文本信息中查找到地址信息标识时,在文本信息中查找关键词,从查找到的关键词两侧开始依次检测文本信息中字符是否为结束标识,当在两侧分别检测到结束标识时,提取检测到的结束标识间的文本信息,将提取的文本信息确定为地址信息,输出所述地址信息。由此解决了,采用人工收集地址信息的方式,造成成本过高和效率低下的问题。采用本发明中技术方案,能够自动从文本信息中提取地址信息,取得了降低地址信息提取成本和提高地址信息提取效率的有益效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的挖掘地址信息的方法的流程图;
图2示出了根据本发明一个实施例的网页的局部内容示意图;
图3示出了根据本发明一个实施例的对提取的文本信息进行经纬度解析的操作的流程图;
图4示出了根据本发明一个实施例的挖掘地址信息的方法的流程图;
图5示出了根据本发明一个实施例的网页的局部内容示意图;
图6示出了根据本发明一个实施例的挖掘地址信息的装置的结构图;以及
图7示出了根据本发明一个实施例的挖掘地址信息的装置的结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的挖掘地址信息的方法的流程图。该方法适于各种服务器,如图1所述,该方法包括如下步骤S110-S140。
在步骤S110中,在文本信息中查找地址信息标识。
在一实施例中,地址信息标识至少包括如下词汇中一个词:地址、地区、区域。
举例而言,一网页中包括如图2所示的内容。从网页中提取文本信息,文本信息中第一行内容为“地址”,可见该网页的文本信息中包括词汇“地址”。以“地址”为地址信息标识,在网页的文本信息中查找该词汇,并在文本信息中查找到地址信息标识“地址”。
在步骤S120中,当在文本信息中查找到地址信息标识时,在文本信息中查找关键词。
在一实施例中,关键词至少包括如下词汇中一个词:路、道、街、巷、胡同。
举例而言,在上述网页的文本信息中查找关键词“路、道、街、巷、胡同”,当在文本信息中查找到其中一个词时,确定在文本信息中查找到关键词。例如,一网页中包括如图2所示的内容,第二栏中内容为“1□上海麦当劳陆家嘴餐厅陆家嘴路168号上海市021-50170081”,其中“□”为空格符号,为回车符号。在网页的文本信息中进行查找,可以在上述第二栏中查找到关键词“路”。
在步骤S130中,从查找到的关键词两侧开始依次检测文本信息中字符是否为结束标识,当在两侧分别检测到结束标识时,提取检测到的结束标识间的文本信息。
结束标识至少包括如下字符中一种:空格字符、标点字符、回车字符、分割字符。
举例而言,在上述文本信息的第二栏内容中查找到关键词“路”,从关键词“路”两侧开始依次检测文本信息中字符是否为结束标识“空格字符、标点字符、回车字符、分割字符”之一。从关键词“路”开始,向左查找到回车字符向右查找到回车字符提取左右两个回车字符间的文本信息“陆家嘴路168号上海市”。
在步骤S140中,将提取的文本信息确定为地址信息,输出地址信息。
举例而言,将在上述网页中提取的文本信息“陆家嘴路168号上海市”确定为地址信息,输出确定的地址信息。
本实施例解决了,采用人工收集地址信息的方式,造成成本过高和效率低下的问题。采用本实施例中技术方案,能够自动从文本信息中提取地址信息,取得了降低地址信息提取成本和提高地址信息提取效率的有益效果。
在一实施例中,上述方法还包括:在将提取的文本信息确定为地址信息之前,对提取的文本信息进行经纬度解析。
所述将提取的文本信息确定为地址信息,进一步包括:将所提取的通过经纬度解析取得对应经纬度的文本信息,确定为地址信息。
进一步地,所述对提取的文本信息进行经纬度解析,如图3所示,具体包括步骤S310和步骤S320。
在步骤S310中,对提取的文本信息进行切词,获得提取的文本信息对应的分词。
在步骤S320中,利用分词从经纬度解析数据库中查询提取的文本信息对应的经纬度。
其中,所述利用分词从经纬度解析数据库中查询提取的文本信息对应的经纬度,可包括:当利用所述分词在经纬度解析数据库中查找到与提取的文本信息完全匹配的采样点时,将完全匹配的采样点对应的经纬度确定为提取的文本信息对应的经纬度。
其中,所述利用分词从经纬度解析数据库中查询提取的文本信息对应的经纬度,可包括:当利用所述分词在经纬度解析数据库中查找到与提取的文本信息部分匹配的采样点时,根据部分匹配的采样点对应的经纬度和所提取的文本信息确定提取的文本信息对应的经纬度。具体地,所述根据部分匹配的采样点对应的经纬度和所提取的文本信息确定提取的文本信息对应的经纬度可包括:根据所提取的文本信息中方位词和距离词修改部分匹配的采样点对应的经纬度,将修改后的经纬度确定为提取的文本信息对应的经纬度。
举例而言,在进行地图绘制时,会对地图中采样点进行经纬度测量。例如,对“北京朝阳区酒仙桥路”,对该路上各个采样点进行经纬度测量,测量出“北京朝阳区酒仙桥路1号”经纬度为XXX,“北京朝阳区酒仙桥路2号”经纬度为XXX,……,“北京朝阳区酒仙桥路n号”经纬度为XXX。此外,还可以将一些标志性建筑作为采样点,测量经纬度,例如,将“乐天玛特超市”作为采样点,测量出其经纬度为XXX。如此,可以取得地图中采样点对应的经纬度。各个采样点和对应的经纬度作为数据信息存储到数据库中。
将提取的文本信息进行切词,例如,将提取的文本信息“北京市朝阳区酒仙桥路6号院”进行切词,切词后所得分词包括“北京市”、“朝阳区”、“酒仙桥路6号院”。依据上述分词到数据库中进行查找,查找到与上述分词完全匹配的采样点,将完全匹配的采样点的经纬度作为该提取的文本信息的经纬度。于是,将文本信息“北京市朝阳区酒仙桥路6号院”确定为地址信息。
又例如,将提取的文本信息“北京市京藏高速公路小营桥路口往东300米”进行切词,切词后所得分词包括“北京市”、“高速公路”、“小营桥路口往东300米”。依据上述分词到数据库中进行查找,查找到与上述分词部分匹配的采样点“北京市京藏高速公路小营桥路口”,根据分词“小营桥路口往东300米”中方位词“东”和距离词“300米”对部分匹配的采样点的经纬度进行修改,将修改后的经纬度作为该提取的文本信息的经纬度。于是,将文本信息“北京市京藏高速公路小营桥路口往东300米”确定为地址信息。
在本实施例中,对提取的文本信息进行经纬度解析,将所提取的通过经纬度解析取得对应经纬度的文本信息,确定为地址信息;如此,能够将一些非地址信息筛除掉,进一步提高了提取地址信息的准确性。
图4示出了根据本发明一个实施例的挖掘地址信息的方法的流程图。在本实施例中,网页包括如图5所示内容,在该网页对应的文本信息中提取地址信息。如图4所示,该方法包括如下步骤。
在步骤S410中,在文本信息中查找地址信息标识。
其中,地址信息标识包括:地址、地区、以及区域。
在包括如图5所示内容的网页的文本信息中查找地址信息标识“地址”、“地区”和“区域”,查找到“地址”和“地区”。因此,可以确定文本信息中包括地址信息标识。
在步骤S420中,当在文本信息中查找到地址信息标识时,在文本信息中查找关键词。
其中,关键词包括:路、道、街、巷、以及胡同。
在包括如图5所示内容的网页的文本信息中查找关键词“路”、“道”、“街”、“巷”和“胡同”。文本信息中包括内容“……□南京栖霞供电营业厅□南京市和燕路2号□南京雨花供电营业厅□南京市雨花南路32号□南京江宁供电营业厅□南京市上元大街598号□……”其中,“□”为空格字符。在上述文本信息中分别查找到“和燕路”中包括的关键词“路”,“雨花南路”中包括的关键词“路”,以及“上元大街”中包括的关键词“街”。
在步骤S430中,从查找到的关键词两侧开始依次检测文本信息中字符是否为结束标识,当在两侧分别检测到结束标识时,提取检测到的结束标识间的文本信息。
其中,结束标识包括:空格字符、标点字符、回车字符、以及分割字符。
以查找到的关键词为中心,从两侧开始依次检测文本信息中字符是否为“空格字符”、“标点字符”、“回车字符”和“分割字符”,提取检测到的字符间的文本信息。例如,分别以上述查找到的关键词“路”、“路”和“街”为中心,向两侧依次检测字符是否为“空格字符”、“标点字符”、“回车字符”和“分割字符”,检测到空格字符后,提取空格字符间文本信息。提取的文本信息包括:“南京市和燕路2号”、“南京市雨花南路32号”和“南京市上元大街598号”。上述查找各个关键词和对应关键词检测结束标识的过程可以依次串行进行,也可并行进行,本发明对此没有限制。
在步骤S440中,对提取的文本信息进行切词,获得提取的文本信息对应的分词。
例如,提取的文本信息“南京市和燕路2号”切词所得分词为“南京市”和“和燕路2号”;提取的文本信息“南京市雨花南路32号”切词所得分词为“南京市”和“雨花南路32号”;提取的文本信息“南京市上元大街598号”切词所得分词为“南京市”和“上元大街598号”。
在步骤S450中,在经纬度解析数据库中查找提取的文本信息对应的分词。
对应于提取的文本信息“南京市和燕路2号”,在经纬度数据库中查找对应分词“南京市”和“和燕路2号”;对应于提取的文本信息“南京市雨花南路32号”,在经纬度数据库中查找对应分词“南京市”和“雨花南路32号”;对应于提取的文本信息“南京市上元大街598号”,在经纬度数据库中查找对应分词“南京市”和“上元大街598号”。
在步骤S460中,当在经纬度解析数据库中查找到与提取的文本信息完全匹配的采样点时,将完全匹配的采样点对应的经纬度确定为提取的文本信息对应的经纬度。
在经纬度解析数据库中查找到与提取的文本信息“南京市和燕路2号”、南京市雨花南路32号”、“南京市上元大街598号”完全匹配的采样点,将各个完全匹配的采样点的经纬度确定为各个提取的文本信息对应的经纬度。
在步骤S470中,将所提取的通过经纬度解析取得对应经纬度的文本信息,确定为地址信息。
上述仅为本发明的挖掘地址信息的方法的实例性说明,本发明不限于此。凡在本发明的精神或原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
图6示出了根据本发明一个实施例的挖掘地址信息的装置的结构图。该装置适于各种服务器,如图6所述,该方法包括如下模块。
查找模块610,适于在文本信息中查找地址信息标识,以及当在文本信息中查找到地址信息标识时,在文本信息中查找关键词;
提取模块620,适于从查找到的关键词两侧开始依次检测文本信息中字符是否为结束标识,当在两侧分别检测到结束标识时,提取检测到的结束标识间的文本信息;
输出模块630,适于将提取的文本信息确定为地址信息,输出所述地址信息。
其中,所述地址信息标识至少包括如下词汇中一个词:地址、地区、区域。
所述关键词至少包括如下词汇中一个词:路、道、街、巷、胡同。
所述结束标识至少包括如下字符中一种:空格字符、标点字符、回车字符、分割字符。
举例而言,一网页中包括如图2所示的内容。从网页中提取文本信息,文本信息中第一行内容为“地址”,可见该网页的文本信息中包括词汇“地址”。查找模块610以“地址”为地址信息标识,在网页的文本信息中查找该词汇,并在文本信息中查找到地址信息标识“地址”。
查找模块610在上述网页的文本信息中查找关键词“路、道、街、巷、胡同”,当在文本信息中查找到其中一个词时,确定在文本信息中查找到关键词。例如,一网页中包括如图2所示的内容,第二栏中内容为“1□上海麦当劳陆家嘴餐厅陆家嘴路168号上海市021-50170081”,其中“□”为空格符号,为回车符号。查找模块610在网页的文本信息中进行查找,可以在上述第二栏中查找到关键词“路”。
提取模块620在上述文本信息的第二栏内容中查找到关键词“路”,从关键词“路”两侧开始依次检测文本信息中字符是否为结束标识“空格字符、标点字符、回车字符、分割字符”之一。从关键词“路”开始,向左查找到回车字符向右查找到回车字符提取左右两个回车字符间的文本信息“陆家嘴路168号上海市”。
输出模块630将在上述网页中提取的文本信息“陆家嘴路168号上海市”确定为地址信息,输出确定的地址信息。
在一实施例中,如图7所示,所述装置还包括:
解析模块710,适于在将提取的文本信息确定为地址信息之前,对提取的文本信息进行经纬度解析;
输出模块630,进一步适于将所提取的通过经纬度解析取得对应经纬度的文本信息,确定为地址信息。
进一步地,所述解析模块710,包括:
分词子模块712,适于对提取的文本信息进行切词,获得所述提取的文本信息对应的分词;
查询子模块714,适于利用所述分词从经纬度解析数据库中查询所述提取的文本信息对应的经纬度。
其中,所述查询子模块714,进一步适于当在经纬度解析数据库中查找到与所述提取的文本信息完全匹配的采样点时,将完全匹配的采样点对应的经纬度确定为所述提取的文本信息对应的经纬度。
其中,所述查询子模块714,进一步适于当在经纬度解析数据库中查找到与所述提取的文本信息部分匹配的采样点时,根据部分匹配的采样点对应的经纬度和所提取的文本信息确定所述提取的文本信息对应的经纬度。具体地,所述查询子模块714,进一步适于根据所提取的文本信息中方位词和距离词修改部分匹配的采样点对应的经纬度,将修改后的经纬度确定为提取的文本信息对应的经纬度。
举例而言,在进行地图绘制时,会对地图中采样点进行经纬度测量。例如,对“北京朝阳区酒仙桥路”,对该路上各个采样点进行经纬度测量,测量出“北京朝阳区酒仙桥路1号”经纬度为XXX,“北京朝阳区酒仙桥路2号”经纬度为XXX,……,“北京朝阳区酒仙桥路n号”经纬度为XXX。此外,还可以将一些标志性建筑作为采样点,测量经纬度,例如,将“乐天玛特超市”作为采样点,测量出其经纬度为XXX。如此,可以取得地图中采样点对应的经纬度。各个采样点和对应的经纬度作为数据信息存储到数据库中。
分词子模块712将提取的文本信息进行切词,例如,分词子模块712将提取的文本信息“北京市朝阳区酒仙桥路6号院”进行切词,切词后所得分词包括“北京市”、“朝阳区”、“酒仙桥路6号院”。查询子模块714依据上述分词到数据库中进行查找,查找到与上述分词完全匹配的采样点,将完全匹配的采样点的经纬度作为该提取的文本信息的经纬度。于是,输出模块630将文本信息“北京市朝阳区酒仙桥路6号院”确定为地址信息。
又例如,分词子模块712将提取的文本信息“北京市京藏高速公路小营桥路口往东300米”进行切词,切词后所得分词包括“北京市”、“高速公路”、“小营桥路口往东300米”。查询子模块714依据上述分词到数据库中进行查找,查找到与上述分词部分匹配的采样点“北京市京藏高速公路小营桥路口”,根据分词“小营桥路口往东300米”中方位词“东”和距离词“300米”对部分匹配的采样点的经纬度进行修改,将修改后的经纬度作为该提取的文本信息的经纬度。于是,输出模块630将文本信息“北京市京藏高速公路小营桥路口往东300米”确定为地址信息。
本发明还公开了一种挖掘地址信息的服务器,该服务器包括:如上任一所述的装置。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的挖掘地理信息的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种挖掘地址信息的方法,该方法包括:
在文本信息中查找地址信息标识;
当在文本信息中查找到地址信息标识时,在文本信息中查找关键词;
从查找到的关键词两侧开始依次检测文本信息中字符是否为结束标识,当在两侧分别检测到结束标识时,提取检测到的结束标识间的文本信息;
将提取的文本信息确定为地址信息,输出所述地址信息。
2.根据权利要求1所述的方法,其中,所述方法还包括:
在将提取的文本信息确定为地址信息之前,对提取的文本信息进行经纬度解析;
所述将提取的文本信息确定为地址信息,进一步包括:
将所提取的通过经纬度解析取得对应经纬度的文本信息,确定为地址信息。
3.根据权利要求1或2所述的方法,其中,所述对提取的文本信息进行经纬度解析,进一步包括:
对提取的文本信息进行切词,获得所述提取的文本信息对应的分词;
利用所述分词从经纬度解析数据库中查询所述提取的文本信息对应的经纬度。
4.根据权利要求1至3任一所述的方法,其中,所述利用所述分词从经纬度解析数据库中查询所述提取的文本信息对应的经纬度,进一步包括:
当利用所述分词在经纬度解析数据库中查找到与所述提取的文本信息完全匹配的采样点时,将完全匹配的采样点对应的经纬度确定为所述提取的文本信息对应的经纬度。
5.根据权利要求1至4任一所述的方法,其中,所述利用所述分词从经纬度解析数据库中查询所述提取的文本信息对应的经纬度,进一步包括:
当利用所述分词在经纬度解析数据库中查找到与所述提取的文本信息部分匹配的采样点时,根据部分匹配的采样点对应的经纬度和所提取的文本信息确定所述提取的文本信息对应的经纬度。
6.根据权利要求1至5任一所述的方法,其中,所述地址信息标识至少包括如下词汇中一个词:地址、地区、区域。
7.根据权利要求1至6任一所述的方法,其中,所述关键词至少包括如下词汇中一个词:路、道、街、巷、胡同。
8.根据权利要求1至7任一所述的方法,其中,所述结束标识至少包括如下字符中一种:空格字符、标点字符、回车字符、分割字符。
9.一种挖掘地址信息的装置,该装置包括:
查找模块,适于在文本信息中查找地址信息标识,以及当在文本信息中查找到地址信息标识时,在文本信息中查找关键词;
提取模块,适于从查找到的关键词两侧开始依次检测文本信息中字符是否为结束标识,当在两侧分别检测到结束标识时,提取检测到的结束标识间的文本信息;
输出模块,适于将提取的文本信息确定为地址信息,输出所述地址信息。
10.一种挖掘地址信息的服务器,该服务器包括:如权利要求9所述的装置。
CN201510483191.6A 2015-08-03 2015-08-03 挖掘地理信息的方法、装置以及服务器 Pending CN105159940A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510483191.6A CN105159940A (zh) 2015-08-03 2015-08-03 挖掘地理信息的方法、装置以及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510483191.6A CN105159940A (zh) 2015-08-03 2015-08-03 挖掘地理信息的方法、装置以及服务器

Publications (1)

Publication Number Publication Date
CN105159940A true CN105159940A (zh) 2015-12-16

Family

ID=54800796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510483191.6A Pending CN105159940A (zh) 2015-08-03 2015-08-03 挖掘地理信息的方法、装置以及服务器

Country Status (1)

Country Link
CN (1) CN105159940A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359249A (zh) * 2018-09-29 2019-02-19 清华大学 基于学者科研成果挖掘的学者精准定位方法及装置
CN109918480A (zh) * 2019-03-01 2019-06-21 陈包容 一种从文本抽取地址的方法
CN110609880A (zh) * 2018-06-15 2019-12-24 北京搜狗科技发展有限公司 一种信息查询方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100023259A1 (en) * 2008-07-22 2010-01-28 Microsoft Corporation Discovering points of interest from users map annotations
CN101727464A (zh) * 2008-10-29 2010-06-09 北京搜狗科技发展有限公司 获取别称匹配对的方法及装置
CN101782923A (zh) * 2009-01-15 2010-07-21 罗伯特·博世有限公司 使用自然语言文档中的地理信息的基于位置的系统
CN103514234A (zh) * 2012-06-30 2014-01-15 北京百度网讯科技有限公司 一种页面信息提取方法和装置
CN104280042A (zh) * 2014-09-30 2015-01-14 深圳市微思客技术有限公司 获取导航信息的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100023259A1 (en) * 2008-07-22 2010-01-28 Microsoft Corporation Discovering points of interest from users map annotations
CN101727464A (zh) * 2008-10-29 2010-06-09 北京搜狗科技发展有限公司 获取别称匹配对的方法及装置
CN101782923A (zh) * 2009-01-15 2010-07-21 罗伯特·博世有限公司 使用自然语言文档中的地理信息的基于位置的系统
CN103514234A (zh) * 2012-06-30 2014-01-15 北京百度网讯科技有限公司 一种页面信息提取方法和装置
CN104280042A (zh) * 2014-09-30 2015-01-14 深圳市微思客技术有限公司 获取导航信息的方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609880A (zh) * 2018-06-15 2019-12-24 北京搜狗科技发展有限公司 一种信息查询方法、装置及电子设备
CN109359249A (zh) * 2018-09-29 2019-02-19 清华大学 基于学者科研成果挖掘的学者精准定位方法及装置
CN109359249B (zh) * 2018-09-29 2020-07-10 清华大学 基于学者科研成果挖掘的学者精准定位方法及装置
CN109918480A (zh) * 2019-03-01 2019-06-21 陈包容 一种从文本抽取地址的方法

Similar Documents

Publication Publication Date Title
CN107656913B (zh) 地图兴趣点地址提取方法、装置、服务器和存储介质
CN104699835A (zh) 用于确定网页页面中包括兴趣点poi数据的方法及装置
CN101918945B (zh) 用于执行自动扩展的语言搜索的方法和系统
US10415987B2 (en) Identifying, processing and displaying data point clusters
CN108628811B (zh) 地址文本的匹配方法和装置
CN105869513B (zh) 在电子地图界面上显示关联标注点的方法和装置
CN104899243A (zh) 检测兴趣点poi数据准确性的方法及装置
CN105808609A (zh) 一种信息点数据冗余的判别方法和设备
CN104572955A (zh) 一种基于聚类确定poi名称的系统及方法
CN105468583A (zh) 一种实体关系的获取方法及装置
CN105608113B (zh) 判断文本中poi数据的方法及装置
CN103258057A (zh) 在电子地图界面上展示兴趣点poi的方法和装置
CN105069076A (zh) 确定官网首页中的地址信息的方法及装置
WO2014163977A1 (en) Systems, methods and computer-readable media for interpreting geographical search queries
CN105183908A (zh) 一种兴趣点poi数据的分类方法和装置
CN102646124A (zh) 一种自动识别地址信息的方法
CN108228657B (zh) 一种关键字检索的实现方法及装置
CN105159940A (zh) 挖掘地理信息的方法、装置以及服务器
CN105550169A (zh) 一种基于字符长度识别兴趣点名称的方法和装置
CN103914455A (zh) 一种兴趣点检索方法和装置
CN101604317A (zh) 搜索引擎的检索结果重排序方法及系统
CN105069079A (zh) 筛选兴趣点poi数据的方法及装置
CN109522335B (zh) 一种信息获取方法、装置及计算机可读存储介质
CN101149271A (zh) 交叉点路口检索装置
CN105159921A (zh) 地图中兴趣点poi数据去重的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151216