CN101350012B - 一种地址匹配的方法和系统 - Google Patents
一种地址匹配的方法和系统 Download PDFInfo
- Publication number
- CN101350012B CN101350012B CN 200710119220 CN200710119220A CN101350012B CN 101350012 B CN101350012 B CN 101350012B CN 200710119220 CN200710119220 CN 200710119220 CN 200710119220 A CN200710119220 A CN 200710119220A CN 101350012 B CN101350012 B CN 101350012B
- Authority
- CN
- China
- Prior art keywords
- address
- matching
- word segmentation
- result
- segmentation result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000011218 segmentation Effects 0.000 claims description 143
- VMXUWOKSQNHOCA-UKTHLTGXSA-N ranitidine Chemical compound [O-][N+](=O)\C=C(/NC)NCCSCC1=CC=C(CN(C)C)O1 VMXUWOKSQNHOCA-UKTHLTGXSA-N 0.000 claims description 45
- 238000007726 management method Methods 0.000 abstract description 5
- 238000007405 data analysis Methods 0.000 abstract description 3
- 238000012384 transportation and delivery Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 14
- 238000005520 cutting process Methods 0.000 description 7
- 230000008878 coupling Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 239000012467 final product Substances 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000013011 mating Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000010408 sweeping Methods 0.000 description 2
- 101100109212 Arabidopsis thaliana APXS gene Proteins 0.000 description 1
- 238000001371 alpha-particle X-ray spectroscopy Methods 0.000 description 1
- 239000011449 brick Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000005405 multipole Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种地址匹配的方法和系统,所述方法可以包括:接收原始地址信息;对所述原始地址信息进行分词,获得包括地址要素和门牌号的分词结果;依据所述分词结果中的地址要素和门牌号,在预置的第一数据库中进行检索,获得匹配结果,并根据匹配结果,赋予各匹配结果相应的第二匹配度;所述匹配结果包括地理坐标信息。本发明能够非常简单、方便将文字性描述的地理位置信息转化成可以被GIS系统利用的地理坐标,它将极大的方便数据人员的采集工作,大规模的扩充地理数据。它提供的地址匹配服务也将为邮递员投递、114查询、数据分析、客户信息管理等很多应用方面提供基础平台。
Description
技术领域
本发明涉及地理信息数据处理领域,特别是涉及一种地址匹配的方法和系统。
背景技术
地理信息系统(GIS,Geographic Information System)是一种基于计算机的工具,它可以对在地球上存在的东西和发生的事件进行成图和分析。GIS技术把地图这种独特的视觉化效果和地理分析功能与一般的数据库操作(例如查询和统计分析等)集成在一起。这种能力使GIS与其他信息系统相区别,从而使其在广泛的公众和个人、企事业单位中解释事件、预测结果、规划战略等中具有实用价值。
地理信息系统技术的应用已经从专业领域走到社会生活和工作的方方面面,从城市的规划管理,到投递员的投递线路,凡是与地理位置相关的信息,都可以利用地理信息系统技术来管理。没有地图,就无从谈及地理信息系统。由此,引申了这样一个问题——这些地图从哪里来?我们通常说的地图,是由国家专业的职能部门来完成各种比例尺地图的生产和制作,这些地图表现了基本的地理面貌——山川河流的分布,城市道路、街区分布等等。但是,仅仅是这样地图信息是远远不能适应我们的需求,很多人文、经济信息都与地理位置相关,而这些信息是无法在基础地图中得到的。这些信息的原始载体都是地址——学校、医院、各类工商企业、居住地址等等,这些地址信息都在相关的专业部门管理,但这些载有地理位置的地址仅仅是文字描述,并没有转化成地理空间位置,这些信息的空间地理位置图该怎样得到?传统的方法,我们称之为“扫街”,就是通过人工的方法,到实地去采集地址的坐标(如利用手持GPS定位仪等等),然后再将这些采集的坐标点制作成图。“扫街”的方法有很多弊端,最明显的就是生产周期长,人力资源成本高。而且,对于每个单位来说,扫街采集地址位置还存在实施的难度,对于大数据量的点位分布图,几乎无法满足实际应用的需要。
因此,迫切需要本领域技术人员解决的技术问题之一就是:如何提出一种地址匹配的解决方案,能够由计算机自动执行,简单、方便地将文字性描述的地理位置信息转化成可以被GIS系统利用的地理坐标。
发明内容
本发明所要解决的技术问题是提供一种地址匹配的方法和系统,能够非常简单、方便将文字性描述的地理位置信息转化成可以被GIS系统利用的地理坐标。
为了解决上述问题,依据本发明的实施例,公开了一种地址匹配的方法,包括:接收原始地址信息;对所述原始地址信息进行分词,获得包括地址要素和门牌号的分词结果;所述地址要素依据预置的地址分词库对所述原始地址信息分词得到;所述地址分词库中存储有多个标准地址要素;依据所述分词结果中的地址要素和门牌号,在预置的第一数据库中进行检索,获得匹配结果,并根据匹配结果,赋予各匹配结果相应的第二匹配度;所述匹配结果包括地理坐标信息。
进一步,当分词结果包括至少两个地址要素时,还包括:判断前后两个地址要素是否符合预置的父子级别关系,并根据判断结果,赋予该分词结果相应的第一匹配度。
进一步,当所述分词结果中还包括地物名称时,该方法还包括:获取所述分词结果中最大程度上能够正确匹配到的地址要素的地理坐标;确定包含该地理坐标的地理范围;依据所确定的地理范围,以所述分词结果中包括的地物名称为关键词,在预置的第二数据库中进行地理空间和关键词的组合搜索,获得匹配结果,并依据匹配情况赋予通过在预置的第二数据库中进行地理空间和关键词的组合搜索获得的匹配结果相应的第三匹配度。
进一步,当所述原始地址信息中还包括属性信息时,该方法还包括:依据该属性信息,对所得的匹配结果进行过滤。
进一步,该方法还包括:计算每条匹配结果的综合匹配度,并排序输出。
依据本发明的另一实施例,还公开了一种地址匹配的方法,包括:接收原始地址信息;对所述原始地址信息进行分词,获得包括地址要素和地物名称的分词结果;所述地址要素依据预置的地址分词库对所述原始地址信息分词得到;所述地址分词库中存储有多个标准地址要素及其相应的地理坐标;获取所述分词结果中最大程度上能够正确匹配到的地址要素的地理坐标;确定包含所述分词结果中最大程度上能够正确匹配到的地址要素的地理坐标的地理范围;依据所确定的地理范围,以所述分词结果中包括的地物名称为关键词,在预置的第二数据库中进行地理空间和关键词的组合搜索,获得匹配结果,并依据匹配情况赋予该匹配结果相应的第三匹配度;所述匹配结果包括地理坐标信息。
优选的,当分词结果包括至少两个地址要素时,该方法还包括:判断前后两个地址要素是否符合预置的父子级别关系,并根据判断结果,赋予该分词结果相应的第一匹配度。
优选的,当分词结果还包括门牌号时,该方法还包括:依据所述分词结果中的地址要素和门牌号,在预置的第一数据库中进行检索,获得匹配结果,并根据匹配结果,赋予各匹配结果相应的第二匹配度;所述通过在预置的第一数据库中进行检索获得的匹配结果包括地理坐标信息。
优选的,当所述原始地址信息中还包括属性信息时,该方法还包括:依据该属性信息,对所得的匹配结果进行过滤。
优选的,该方法还包括:计算每条匹配结果的综合匹配度,并排序输出。
依据本发明的另一实施例,还公开了一种地址匹配的方法,包括:接收原始地址信息;对所述原始地址信息进行分词,获得包括至少两个地址要素的分词结果;所述地址要素依据预置的地址分词库对所述原始地址信息分词得到;所述地址分词库中存储有多个标准地址要素;判断所述分词结果中前后两个地址要素是否符合预置的父子级别关系,并根据判断结果,赋予各分词结果相应的第一匹配度;如果所述分词结果中还包括门牌号,则依据所述分词结果中的地址要素和门牌号,在预置的第一数据库中进行检索,获得匹配结果,并依据匹配情况赋予该匹配结果相应的第二匹配度;所述匹配结果包括地理坐标信息;如果所述分词结果中还包括地物名称,则获取所述分词结果中最大程度上能够正确匹配到的地址要素的地理坐标;确定包含该地理坐标的地理范围;依据所确定的地理范围,以所述分词结果中包括的地物名称为关键词,在预置的第二数据库中进行地理空间和关键词的组合搜索,获得匹配结果,并依据匹配情况赋予通过在预置的第二数据库中进行地理空间和关键词的组合检索获得的匹配结果相应的第三匹配度;所述通过在预置的第二数据库中进行地理空间和关键词的组合检索获得的匹配结果包括地理坐标信息;针对各匹配结果计算综合匹配度,排序输出。
优选的,当所述原始地址信息中还包括属性信息时,还包括:依据该属性信息,对所得的匹配结果进行过滤。
相应的,本发明还提供了一种地址匹配的系统,包括:接收器,用于接收原始地址信息;地址分词器,用于对所述原始地址信息进行分词,获得包括地址要素和门牌号的分词结果;所述地址要素依据预置的地址分词库对所述原始地址信息分词得到;所述地址分词库中存储有多个标准地址要素;门牌检索器,用于依据所述分词结果中的地址要素和门牌号,在预置的第一数据库中进行检索,获得匹配结果,并根据匹配结果,赋予各匹配结果相应的第二匹配度;所述匹配结果包括地理坐标信息。
进一步,当分词结果包括至少两个地址要素时,该系统还包括:位于地址分词器中的判断模块,用于判断前后两个地址要素是否符合预置的父子级别关系,并根据判断结果,赋予该分词结果相应的第一匹配度。
进一步,当所述分词结果中还包括地物名称时,该系统还包括空间搜索器,所述空间搜索器进一步包括:获取模块,用于获取所述分词结果中最大匹配要素最大程度上能够正确匹配到的地址要素的地理坐标;确定模块,用于确定包含该地理坐标的地理范围;搜索模块,用于依据所确定的地理范围,以所述分词结果中包括的地物名称为关键词,在预置的第二数据库中进行地理空间和关键词的组合搜索,获得匹配结果,并依据匹配情况赋予通过在预置的第二数据库中进行地理空间和关键词的组合搜索获得的匹配结果相应的第三匹配度。
进一步,所述系统还可以包括:过滤器,用于依据所述原始地址信息所包括的属性信息,对所得的匹配结果进行过滤。
进一步,所述系统还可以包括:匹配度计算器,用于计算每条匹配结果的综合匹配度;结果输出器,用于将各匹配结果排序输出。
依据本发明的其他实施例,还公开了一种地址匹配的系统,包括:
接收器,用于接收原始地址信息;
地址分词器,用于对所述原始地址信息进行分词,获得包括地址要素和地物名称的分词结果;所述地址要素依据预置的地址分词库对所述原始地址信息分词得到;所述地址分词库中存储有多个标准地址要素及其相应的地理坐标;
空间搜索器,所述空间搜索器进一步包括:获取模块,用于获取所述分词结果中最大程度上能够正确匹配到的地址要素的地理坐标;确定模块,用于确定包含所述分词结果中最大程度上能够正确匹配到的地址要素的地理坐标的地理范围;搜索模块,用于依据所确定的地理范围,以所述分词结果中包括的地物名称为关键词,在预置的第二数据库中进行地理空间和关键词的组合搜索,获得匹配结果,并依据匹配情况赋予该匹配结果相应的第三匹配度;所述匹配结果包括地理坐标信息。
本发明还公开了一种地址匹配的系统,包括:
接收器,接收原始地址信息;
地址分词器,对所述原始地址信息进行分词,获得包括至少两个地址要素的分词结果;所述地址要素依据预置的地址分词库对所述原始地址信息分词得到;所述地址分词库中存储有多个标准地址要素;
判断器,用于判断所述分词结果中前后两个地址要素是否符合预置的父子级别关系,并根据判断结果,赋予各分词结果相应的第一匹配度;
门牌检索器,用于当所述分词结果中还包括门牌号时,依据所述分词结果中的地址要素和门牌号,在预置的第一数据库中进行检索,获得匹配结果,并依据匹配情况赋予该匹配结果相应的第二匹配度;所述匹配结果包括地理坐标信息;
空间搜索器,用于当所述分词结果中还包括地物名称时,获取所述分词结果中最大程度上能够正确匹配到的地址要素的地理坐标;确定包含该地理坐标的地理范围;依据所确定的地理范围,以所述分词结果中包括的地物名称为关键词,在预置的第二数据库中进行地理空间和关键词的组合搜索,获得匹配结果,并依据匹配情况赋予通过在预置的第二数据库中进行地理空间和关键词的组合搜索获得的匹配结果相应的第三匹配度;所述通过在预置的第二数据库中进行地理空间和关键词的组合搜索获得的匹配结果包括地理坐标信息;
匹配度计算器,用于针对各匹配结果计算综合匹配度;
结果输出器,用于将各匹配结果排序输出。
优选的,所述系统还可以包括:过滤器,用于依据所述原始地址信息所包括的属性信息,对所得的匹配结果进行过滤。
与现有技术相比,本发明具有以下优点:
本发明提供的基于地址分词库的地址匹配方法和系统,可进行各种地址信息的匹配和编码(在地理信息系统,将给定的地址转化成地理坐标的过程也称之为编码),提供了一种有效的基于程序自动方式的地理数据采集方法,它将极大的方便数据人员的采集工作,大规模的扩充地理数据。它提供的地址匹配服务也将为邮递员投递、114查询、数据分析、客户信息管理等很多应用方面提供基础平台。
其次,本发明建立的地址分词库,其中包括有地址词条和非地址词条,以及地址要素之间的父子级别关系,从而不仅能够准确、有效的拆分原始地理信息,并且可以通过判断前后两个地址要素的父子级别关系,进一步保证拆分的准确性。再者,本发明还提供了进一步的门牌号匹配、区域搜索、信息过滤等辅助手段与地址分词相结合,从而能够保证采用本发明地址匹配后获得的地理坐标的准确性。
附图说明
图1是本发明一种地址匹配的方法实施例1的步骤流程图;
图2是本发明一种地址匹配的方法实施例4的步骤流程图;
图3是本发明一种地址匹配的方法实施例5的步骤流程图;
图4是本发明一种地址匹配的系统实施例的结构框图;
图5是本发明另一种地址匹配的系统实施例的结构框图;
图6是本发明另一种地址匹配的系统实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明可以应用在很多场景下,例如,114查询台拥有非常多的企事业地址信息,但是电话查询的时候,只能提供文字地址信息,而用户仍然无法知道具体在哪里,或者怎么去。而采用本发明之后,可以将114查询台所拥有的所有原始地址信息都由计算机批量、自动的匹配得到相应的地理坐标信息,从而更好的为用户服务,例如,将地理坐标信息发送给用户的导航终端,则就可以帮助用户方便的找到目的地。再例如,某个企业拥有非常多的企事业地址信息,希望作进一步的数据分析或者客户信息管理时,通过本发明就可以很方便的将这些文字的地址信息转换为相应的空间地理位置。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
参照图1,示出了本发明一种地址匹配的方法实施例1,所述地址匹配是指将文字性的描述地址与其空间的地理位置坐标建立起对应关系的过程。该方法实施例具体可以包括以下步骤:
步骤101、接收原始地址信息;例如,从管理部门得到的多个原始地址信息中的一条为“中关村软件园5号楼”。
步骤102、对所述原始地址信息进行分词,得到的分词结果包括地址要素和门牌号;所述地址要素依据预置的地址分词库对所述原始地址信息分词得到;所述地址分词库中存储有多个标准地址要素。例如,地址要素为“中关村软件园”,门牌号为“5号楼”。
所述地址要素一般是指最小拆分的地址单元,例如,北京市、海淀区、海龙大厦、国贸桥等具有较强地理属性的词条。所述地址分词库中的标准地址要素需要根据需要进行修改和完善。由于一个地址分词库中的标准地址要素不可能十全十美,而且,原始地址信息由于来源复杂,也可能存在很多的不统一或者不标准之处,所以在本实施例中,优选的,将地址要素和门牌号结合进行匹配。
下面对中文分词技术进行简单介绍。
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am astudent,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词。例如,我是一个学生,分词的结果是:我是一个学生。下面介绍一些常用的分词方法:
1、基于字符串匹配的分词方法:是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
2、基于特征扫描或标志切分的分词方法:是指优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率;或者将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而提高切分的准确率。
3、基于理解的分词方法:是指通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。
4、基于统计的分词方法:是指,中文信息中由于字与字相邻共现的频率或概率能够较好的反映成词的可信度,所以可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息,以及计算两个汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典。
对于本发明而言,由于地址要素词条一般都比较特殊,因此,主要采用词典的方式进行,一般可以在所述的地址分词库中预置存储多个标准地址要素。例如,在地址分词库中预先存储有一个标准地址要素——“中关村软件园”,则根据二者的匹配关系,可以从原始地址信息“中关村软件园5号楼”中识别出一个地址要素“中关村软件园”。
优选的,地址分词库可以采用多个字段进行存储,例如,包括标准地址要素的名称、地址级别、父地址所在位置序号、经纬度信息、城市ID号、别名地址位置序号等等。其中,地址级别可以用来确定该地址要素是区域(面)、道路(线)或者具体位置(点);城市ID号和父地址所在位置序号可以用来判定父子级别关系是否正确。
对于本发明中的门牌号识别,则可以采用基于特征扫描或标志切分的分词方法,因为一般地门牌号表示方式比较固定,例如,一般都是由阿拉伯数字加中文“号”字构成(如,5号楼),或者由特定中文字符+阿拉伯数字+中文“号”字构成(如,甲12号)等。
总之,对于具体的分词过程,本发明不需要加以限定,本领域技术人员可以根据需要选用或者组合使用上述方法。
通过步骤102的分词过程,可能针对原始地址信息得到一个或多个分词结果,从中选取符合预置条件的分词结果进行下一步骤即可。
步骤103、依据所述分词结果中的地址要素和门牌号,在预置的第一数据库中进行检索,获得匹配结果,并根据匹配结果,赋予各匹配结果相应的第二匹配度;所述匹配结果包括地理坐标信息。所述第一数据库中可以存储有与地址分词库中相同的标准地址要素、地址要素的父地址名称、以及该标准地址要素所涉及的门牌、以及各门牌对应的地理坐标等(例如,经纬度信息等等)。
整个检索过程通过门牌索引和门牌数据来完成,门牌索引可以包含父级别名称、数字门牌号的起点、文字门牌号的起点、所有门牌号的结束点等等。门牌数据包括经过排序后的数字门牌和文字门牌,以及相应的地理坐标信息等。具体检索门牌号的时候,可以通过就近原则、二分查找等算法完成。
优选的,将每条道路的门牌号分为数字门牌和文字门牌,例如,16号-数字门牌和甲10号-文字门牌,以满足各种门牌号的需要;并可以将这些门牌号按照内码进行排序,提高检索效率。
通过步骤103得到的匹配结果可能为一个(例如,准确匹配),也可能为多个,例如,有多个分词结果,则可能对应多个匹配结果;或者,在第一数据库中完全匹配的门牌号不存在,但是同等相近的有多个,则也会出现多个匹配结果。
为了评价所得到的匹配结果是否准确,则可以根据匹配结果,赋予各匹配结果相应的第二匹配度,通过匹配度来说明各个匹配结果的准确程度。
匹配结果的匹配度,可以用来自动的选择哪些匹配结果应该作为正确结果存储起来,例如,匹配度大于一定阈值的匹配结果可以直接入库。对于匹配度小于一定预置的匹配结果可以丢弃,也可以进一步由人工审核、匹配。
本实施例通过预置的标准地址要素将所述的原始地址信息切分得到合适的地址要素,并进一步通过门牌号查询得到合适的匹配结果,从而可以实现将原始地址信息(文字信息)与其相应的地理坐标对应起来。当然,其对应关系可以通过文字列表的方式展示,或者也可以通过图示的方式展示,本发明不需要对匹配结果的展示方式加以限制。
在本发明的实施例2中,对实施例1作了进一步的改进,为了增加分词结果的准确度,进而保证匹配结果的准确,实施例2还包括以下步骤:当分词结果包括至少两个地址要素时,需要判断前后两个地址要素是否符合预置的父子级别关系,并根据判断结果,赋予该分词结果相应的第一匹配度。当然,赋予相应的第一匹配度仅仅是本发明的优选实现方式,在此还可以提供其他的实现方式,例如,直接结束针对该分词结果的流程,进入对其他分词结果的处理;或者,提供多个经过自动修正的记录,请用户手动选择等等。
例如,对于“北京市海淀区中关村软件园”,通过分词可以得到三个地址要素“北京市”、“海淀区”和“中关村软件园”,其中,“北京市”可以不用进行父子级别关系判断,因为其已经是最大的父级别了;对于“海淀区”,该地址要素和其前面的地址要素“北京市”属于正确的父子级别关系,可以赋予地址要素“海淀区”较高的匹配参数;对于“中关村软件园”,该地址要素和其前面的地址要素“海淀区”也属于正确的父子级别关系,故也可以赋予较高的匹配参数。则分词结果“北京市”、“海淀区”和“中关村软件园”的第一匹配度就可以由上述“海淀区”的匹配参数和“中关村软件园”的匹配参数计算得到。分词结果的匹配度可以反映该分词结果的准确程度,从而间接反映依据该分词结果得到的匹配结果的准确度。
再例如:待匹配地址是:北京市海淀区亚运村华堂商场,则通过判断父子级别关系,发现地址要素“亚运村”与其上级地址要素“海淀区”不符合父子级别关系,因为实际中的“亚运村”属于“朝阳区”,因此,可以赋予该分词结果较低的匹配度。
本发明所提供的实施例3可以在实施例2或者实施例1之上作进一步的改进,当所述分词结果中还包括地物名称时,实施例3还可以包括:获取所述分词结果中最大匹配要素(即最大程度上能够正确匹配到的地址要素)的地理坐标;确定包含该地理坐标的地理范围;依据所确定的地理范围,以所述分词结果中包括的地物名称为关键词,在预置的第二数据库中进行地理空间和关键词的组合搜索,获得匹配结果,并依据匹配情况赋予该匹配结果相应的第三匹配度。所述匹配结果包括地理坐标信息。
例如,对于分词结果“北京市”、“海淀区”、“中关村软件园”和“汉王大厦”,由于“汉王大厦”没有作为标准地址要素存储在地址分词库中,所以将其作为地物名称处理。由于前面三个地址要素都是完全匹配,并且均满足父子级别,所以取最大匹配要素为“中关村软件园”,然后通过另外的数据库获得“中关村软件园”所对应的地理坐标,或者也可以直接从地址分词库中获得。由于“中关村软件园”所对应的地理坐标本身就是一个区域,因此,可以直接确定一个相同的地理范围用于搜索,然后通过空间搜索技术,在预置的第二数据库中进行地理空间和关键词的组合搜索,获得匹配结果。
再例如,待匹配地址为:北京市海淀区五道口华清商务会馆。如果经过地址分词以后,能够识别到“五道口”这一级,那么“五道口”地址要素就是最大匹配要素。剩下的匹配步骤,就是以该点为中心,到周边查找“华清商务会馆”。
如果待匹配地址为:北京市海淀区亚运村华堂商场,经过地址分词以后,能够识别到“海淀区”和“亚运村”,本来应该将“亚运村”作为最大匹配要素,但是由于“海淀区”和“亚运村”之间的父子关系错误,所以此时,可以通过预置规则的限定,将“海淀区”作为最大匹配要素,或者将“亚运村”作为最大匹配要素,或者同时以“海淀区”和“亚运村”分别对“华堂商场”进行空间搜索。
如果待匹配地址为:北京市海淀区海亚村华堂商场,经过地址分词以后,由于“海亚村”无法正确匹配,所以将“海淀区”作为最大匹配要素,进行空间搜索。
空间搜索一般可以通过建立空间索引的方式实现,空间索引是指在存储空间数据时依据空间对象的位置和形状或空间对象之间的某种空间关系,按一定顺序排列的一种数据结构,其中包含空间对象的概要信息如对象的标识、外接矩形及指向空间对象实体的指针等。目前GIS中常用的索引方式有格网索引,R树索引、四叉树索引等。通过空间索引的筛选作用,可以迅速排除大量与特定空间操作无关的空间对象,从而提高空间操作的速度和效率。
以四叉树索引为例,四叉树索引的思想就是将所有要素的总范围划分为2×2的网格,分析每一个网格只要该网格内的要素个数大于规定值就将该网格进一步分割,即树的深度加1。四叉树缺点是当要素各图形范围大小差异很大或要素空间分布不均匀是,四叉树的分割层次可能很深,但是对于地图而言恰好是非常合适。
假设针对中国整个地图建立的四叉树索引,则顶层网格就是将中国这个大区域均等划分成一定数量的大网格(比如每个大网格可以是6个经度,5个纬度),四叉网格则是在每个大网格之下进行的多极四叉细分。
例如,依据“中关村软件园”所对应的地理坐标区域,从四叉树索引中获取所涉及的所有地物的存储位置,然后依据关键词(地物名称,如前述的“汉王大厦”)在地物基础数据库中的相应位置进行搜索匹配。地物基础数据库是用来存储地物名称及其各种属性信息的。
再例如,对于分词结果“北京市”、“海淀区”、“中关村软件园”、“5号楼”和“汉王大厦”,则由于“5号楼”在门牌检索中也是完全匹配的,所以“5号楼”也可以作为最大匹配要素,获取其相应的地理坐标之后,可以以该地理坐标为中心,500米为半径,确定待检索的地理范围。需要说明的是,在一些情况下,如果通过门牌检索,得到了“北京市”、“海淀区”、“中关村软件园”、“5号楼”相应的地理坐标信息,则可以不进行后面针对“汉王大厦”的进一步空间搜索,因为大多数情况下“5号楼”和“汉王大厦”是并列的描述同一空间位置的词条,故可以简化计算步骤。当然,具体的门牌检索和进一步空间检索的关系,可以由本领域技术人员根据需要选择使用即可,本发明不需要在此加以限定。
进一步,当所述原始地址信息中还包括属性信息时,例如,还包括“电话5920××××”,前述的实施例1、2和3则都还可以包括:获取匹配结果对应的属性信息(例如,从地物基础数据库获取),然后依据关键词“电话5920××××”对匹配结果进行过滤,或者进行匹配度的调整。当然,对于实施例3,则可以将该过滤步骤集成在关键词搜索过程中一并完成。
优选的,前述的各个实施例还可以包括:计算每条匹配结果的综合匹配度,并排序输出。因为当前述的多个实施例单独实施或者组合实施的时候,一条匹配结果可能对应有多个匹配度,因此,需要计算一综合匹配度。
参照图2,示出了一种地址匹配的方法实施例4,具体可以包括:
步骤401、接收原始地址信息;
步骤402、对所述原始地址信息进行分词,得到的分词结果包括地址要素和地物名称;所述地址要素依据预置的地址分词库对所述原始地址信息分词得到;所述地址分词库中存储有多个标准地址要素及其相应的地理坐标;
步骤403、获取所述分词结果中最大匹配要素的地理坐标;
步骤404、确定包含该地理坐标的地理范围;
步骤405、依据所确定的地理范围,以所述分词结果中包括的地物名称为关键词,在预置的第二数据库中进行地理空间和关键词的组合搜索,获得匹配结果,并依据匹配情况赋予该匹配结果相应的第三匹配度;所述匹配结果包括地理坐标信息。
本实施例与实施例1的主要区别在于,本实施例将地址要素分词和空间搜索结合起来,而实施例1是将地址要素分词和门牌号搜索结合起来,二者都在一定程度上可以提高地址匹配的准确度。实施例1主要适用于原始地址信息包括地址元素和门牌号的情况,而本实施例主要适用于原始地址信息包括地址元素和其他地物名称的情况。
对于经过本实施例之后,已经得到了符合预置条件的匹配结果时,是否还还需要进行门牌号的检索呢?实际上,本领域技术人员根据需要设定即可。例如,对于分词结果“北京市”、“海淀区”、“中关村软件园”、“5号楼”和“汉王大厦”,如果“汉王大厦”属于地址分词库中的一个标准地址要素,则经过本实施例的匹配过程之后,可以得到“北京市海淀区中关村软件园汉王大厦”较为准确的地理坐标信息。此时,如果为了简化步骤、节约计算资源,则可以不需要针对门牌号“5号楼”的检索步骤。然而,如果为了进一步的精确搜索,或者需要比较门牌搜索和空间搜索得到的匹配结果的匹配度,以期望获得更准确的地理坐标信息,则可以进一步执行针对门牌号“5号楼”的检索步骤。
针对实施例1的改进之处也可以应用在本实施例中,例如,当所述原始地址信息中还包括属性信息时,还包括:依据该属性信息,对所得的匹配结果进行过滤。或者,在结果输出时还可以包括:计算每条匹配结果的综合匹配度,并排序输出。
前述的实施例2改进之处:对父子级别关系的判断,也可以应用在实施例4上,为了节约篇幅,在此不再重复。
参照图3,示出了一种地址匹配的方法实施例5,具体可以包括:
步骤501、接收原始地址信息;
步骤502、对所述原始地址信息进行分词,得到的分词结果包括至少两个地址要素;所述地址要素依据预置的地址分词库对所述原始地址信息分词得到;所述地址分词库中存储有多个标准地址要素;
步骤503、判断所述分词结果中前后两个地址要素是否符合预置的父子级别关系,并根据判断结果,赋予各分词结果相应的第一匹配度;
步骤504、如果所述分词结果中还包括门牌号,则依据所述分词结果中的地址要素和门牌号,在预置的第一数据库中进行检索,获得匹配结果,并依据匹配情况赋予该匹配结果相应的第二匹配度;所述匹配结果包括地理坐标信息;
步骤505、如果所述分词结果中还包括地物名称,则获取所述分词结果中最大匹配要素的地理坐标;确定包含该地理坐标的地理范围;依据所确定的地理范围,以所述分词结果中包括的地物名称为关键词,在预置的第二数据库中进行地理空间和关键词的组合搜索,获得匹配结果,并依据匹配情况赋予该匹配结果相应的第三匹配度;所述匹配结果包括地理坐标信息;
步骤506、针对各匹配结果计算综合匹配度,排序输出。
实施例5是本发明的一个优选实施例,可以满足大多数的地址匹配情况,因为一般情况下,原始地址信息由管理部门或者企业自行收集获得,比较详细,通常都会包括两个或者两个以上的地址元素。并且,一般的原始地址信息都是采用门牌号方式或者地物名称方式的,所以应用本实施例即可完成大多数的地址匹配任务。
优选的,当所述原始地址信息中还包括属性信息时,实施例5还可以包括:依据该属性信息,对所得的匹配结果进行过滤。
进一步,如果经过步骤504之后得到的匹配结果的综合匹配度或者第二匹配度能够达到预定条件,则可以省略步骤505,直接排序输出。
参照图4,示出了一种地址匹配的系统实施例,具体可以包括:
接收器601,用于接收原始地址信息;
地址分词器602,用于对所述原始地址信息进行分词,得到的分词结果包括地址要素和门牌号;所述地址要素依据预置的地址分词库6021对所述原始地址信息分词得到;所述地址分词库中存储有多个标准地址要素;
门牌检索器603,用于依据所述分词结果中的地址要素和门牌号,在预置的第一数据库中进行检索,获得匹配结果,并根据匹配结果,赋予各匹配结果相应的第二匹配度;所述匹配结果包括地理坐标信息。
在本发明的另一实施例中,还可以包括:位于地址分词器中的判断模块,用于判断前后两个地址要素是否符合预置的父子级别关系,并根据判断结果,赋予该分词结果相应的第一匹配度。当第一匹配度低于一定阈值时,可以过滤该分词结果。
在本发明的另一实施例中,还包括空间搜索器,用于进一步完成在一定空间范围内的POI(Point of Interest,兴趣点)搜索。所述空间搜索器进一步包括:获取模块,用于获取所述分词结果中最大匹配要素的地理坐标;确定模块,用于确定包含该地理坐标的地理范围;搜索模块,用于依据所确定的地理范围,以所述分词结果中包括的地物名称为关键词,在预置的第二数据库中进行地理空间和关键词的组合搜索,获得匹配结果,并依据匹配情况赋予该匹配结果相应的第三匹配度。
优选的,前述的各个实施例还可以进一步包括:过滤器,用于依据所述原始地址信息所包括的属性信息,对所得的匹配结果进行过滤。以及,匹配度计算器,用于计算每条匹配结果的综合匹配度;结果输出器,用于将各匹配结果排序输出。
参照图5,示出了另一种地址匹配的系统实施例,具体可以包括:
接收器701,用于接收原始地址信息;
地址分词器702,用于对所述原始地址信息进行分词,得到的分词结果包括地址要素和地物名称;所述地址要素依据预置的地址分词库7021对所述原始地址信息分词得到;所述地址分词库中存储有多个标准地址要素及其相应的地理坐标;
空间搜索器703,所述空间搜索器进一步包括:
获取模块7031,用于获取所述分词结果中最大匹配要素的地理坐标;
确定模块7032,用于确定包含该地理坐标的地理范围;
搜索模块7033,用于依据所确定的地理范围,以所述分词结果中包括的地物名称为关键词,在预置的第二数据库中进行地理空间和关键词的组合搜索,获得匹配结果,并依据匹配情况赋予该匹配结果相应的第三匹配度;所述匹配结果包括地理坐标信息。
前述各实施例的改进之处也可以应用在本实施例中,在此不再赘述。
参照图6,示出了另一种地址匹配的系统实施例,具体可以包括:
接收器801,接收原始地址信息;
地址分词器802,对所述原始地址信息进行分词,得到的分词结果包括至少两个地址要素;所述地址要素依据预置的地址分词库8021对所述原始地址信息分词得到;所述地址分词库中存储有多个标准地址要素;
判断器803,用于判断所述分词结果中前后两个地址要素是否符合预置的父子级别关系,并根据判断结果,赋予各分词结果相应的第一匹配度;
门牌检索器804,用于当所述分词结果中还包括门牌号时,依据所述分词结果中的地址要素和门牌号,在预置的第一数据库中进行检索,获得匹配结果,并依据匹配情况赋予该匹配结果相应的第二匹配度;所述匹配结果包括地理坐标信息;
空间搜索器805,用于当所述分词结果中还包括地物名称时,获取所述分词结果中最大匹配要素的地理坐标;确定包含该地理坐标的地理范围;依据所确定的地理范围,以所述分词结果中包括的地物名称为关键词,在预置的第二数据库中进行地理空间和关键词的组合搜索,获得匹配结果,并依据匹配情况赋予该匹配结果相应的第三匹配度;所述匹配结果包括地理坐标信息;
过滤器806,用于依据所述原始地址信息所包括的属性信息,对所得的匹配结果进行过滤;
匹配度计算器807,用于针对各匹配结果计算综合匹配度;
结果输出器808,用于将各匹配结果排序输出。
在实际应用的过程中,本实施例还可以包括:地址匹配管理器,用于协调、控制各个模块;以及,参数解析器,用于对外部传来的参数进行解析,获得所需的原始地址信息。所述的外部参数中可能包括匹配结果的页面显示参数等其他参数。比如:start(起始页),pagecap(每页的条数)等。
下面对应用上述实施例进行地址匹配的过程进行简单介绍:
1、终端发送匹配请求至服务端;
2、服务端经过apache的处理,记录下查询日志;
3、由参数解析器对接收的参数字符进行解析,提取原始地址信息、地物名称、电话、匹配模式、分页等信息;
4、针对原始地址信息,利用地址分词库进行分词,得到分词结果;
5、如果分词结果能够满足父子级别关系,则执行下一步,否则,扫描下一分词结果;
6、进行门牌号检索,如果门牌号匹配成功(例如,匹配度大于一定阈值),则直接返回匹配结果,并计算相应的匹配度;
7、根据地址要素中的最大匹配要素确定其大致范围,然后在该区域内进行POI空间搜索,返回匹配结果,并计算相应的匹配度;
8、如果所接收的参数字符中还包括电话等属性信息,则依据这些属性信息对匹配结果进行过滤;
9、获取各匹配结果的经纬度、匹配度信息,对匹配结果集,按照分页情况构建XML字符串并返回终端。
其中的服务器可以采用Apache HTTP服务器,该类服务器是一个模块化(或说积木式)的程序,管理员可以选择一些模块来增加服务器的某些功能。这些模块,可以在创建服务器程序时静态地编译到HTTP服务器的二进制代码中,也可以编译成一些独立于服务器程序的Dynamic Shared Objects(DSO)文件。其中,DSO文件可以在编译服务器程序时创建,也可以在以后利用Apache扩展工具APXS来单独创建。
总的来说,本发明将地址分词、门牌搜索和/或空间搜索结合起来,提出了一种简单易行的、准确率较高的地址匹配方法。其次,本发明采用了全新的地址分词方案,不仅能够准确的分词,而且能够根据前后两个地址要素的父子级别关系,来判断是否需要这样拆分,提高地址分词的准确率。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明所提供的一种地址匹配的方法和系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (12)
1.一种地址匹配的方法,其特征在于,包括:
接收原始地址信息;
对所述原始地址信息进行分词,获得包括地址要素和门牌号的分词结果;所述地址要素依据预置的地址分词库对所述原始地址信息分词得到;所述地址分词库中存储有多个标准地址要素;
依据所述分词结果中的地址要素和门牌号,在预置的第一数据库中进行检索,获得匹配结果,并根据匹配结果,赋予各匹配结果相应的第二匹配度;所述匹配结果包括地理坐标信息。
2.如权利要求1所述的方法,其特征在于,当分词结果包括至少两个地址要素时,还包括:
判断前后两个地址要素是否符合预置的父子级别关系,并根据判断结果,赋予该分词结果相应的第一匹配度。
3.如权利要求1所述的方法,其特征在于,当所述分词结果中还包括地物名称时,该方法还包括:
获取所述分词结果中最大程度上能够正确匹配到的地址要素的地理坐标;
确定包含该地理坐标的地理范围;
依据所确定的地理范围,以所述分词结果中包括的地物名称为关键词,在预置的第二数据库中进行地理空间和关键词的组合搜索,获得匹配结果,并依据匹配情况赋予通过在预置的第二数据库中进行地理空间和关键词的组合搜索获得的匹配结果相应的第三匹配度。
4.一种地址匹配的方法,其特征在于,包括:
接收原始地址信息;
对所述原始地址信息进行分词,获得包括地址要素和地物名称的分词结果;所述地址要素依据预置的地址分词库对所述原始地址信息分词得到;所述地址分词库中存储有多个标准地址要素及其相应的地理坐标;
获取所述分词结果中最大程度上能够正确匹配到的地址要素的地理坐标;
确定包含所述分词结果中最大程度上能够正确匹配到的地址要素的地理坐标的地理范围;
依据所确定的地理范围,以所述分词结果中包括的地物名称为关键词,在预置的第二数据库中进行地理空间和关键词的组合搜索,获得匹配结果,并依据匹配情况赋予该匹配结果相应的第三匹配度;所述匹配结果包括地理坐标信息。
5.如权利要求4所述的方法,其特征在于,当分词结果包括至少两个地址要素时,该方法还包括:
判断前后两个地址要素是否符合预置的父子级别关系,并根据判断结果,赋予该分词结果相应的第一匹配度。
6.如权利要求4所述的方法,其特征在于,当分词结果还包括门牌号时,该方法还包括:
依据所述分词结果中的地址要素和门牌号,在预置的第一数据库中进行检索,获得匹配结果,并根据匹配结果,赋予各匹配结果相应的第二匹配度;所述通过在预置的第一数据库中进行检索获得的匹配结果包括地理坐标信息。
7.一种地址匹配的方法,其特征在于,包括:
接收原始地址信息;
对所述原始地址信息进行分词,获得包括至少两个地址要素的分词结果;所述地址要素依据预置的地址分词库对所述原始地址信息分词得到;所述地址分词库中存储有多个标准地址要素;
判断所述分词结果中前后两个地址要素是否符合预置的父子级别关系,并根据判断结果,赋予各分词结果相应的第一匹配度;
如果所述分词结果中还包括门牌号,则依据所述分词结果中的地址要素和门牌号,在预置的第一数据库中进行检索,获得匹配结果,并依据匹配情况赋予该匹配结果相应的第二匹配度;所述匹配结果包括地理坐标信息;
如果所述分词结果中还包括地物名称,则获取所述分词结果中最大程度上能够正确匹配到的地址要素的地理坐标;确定包含该地理坐标的地理范围;依据所确定的地理范围,以所述分词结果中包括的地物名称为关键词,在预置的第二数据库中进行地理空间和关键词的组合搜索,获得匹配结果,并依据匹配情况赋予通过在预置的第二数据库中进行地理空间和关键词的组合搜索获得的匹配结果相应的第三匹配度;所述通过在预置的第二数据库中进行地理空间和关键词的组合搜索获得的匹配结果包括地理坐标信息;
针对各匹配结果计算综合匹配度,排序输出。
8.一种地址匹配的系统,其特征在于,包括:
接收器,用于接收原始地址信息;
地址分词器,用于对所述原始地址信息进行分词,获得包括地址要素和门牌号的分词结果;所述地址要素依据预置的地址分词库对所述原始地址信息分词得到;所述地址分词库中存储有多个标准地址要素;
门牌检索器,用于依据所述分词结果中的地址要素和门牌号,在预置的第一数据库中进行检索,获得匹配结果,并根据匹配结果,赋予各匹配结果相应的第二匹配度;所述匹配结果包括地理坐标信息。
9.如权利要求8所述的系统,其特征在于,当分词结果包括至少两个地址要素时,该系统还包括:
位于地址分词器中的判断模块,用于判断前后两个地址要素是否符合预置的父子级别关系,并根据判断结果,赋予该分词结果相应的第一匹配度。
10.如权利要求8所述的系统,其特征在于,当所述分词结果中还包括地物名称时,该系统还包括空间搜索器,所述空间搜索器进一步包括:
获取模块,用于获取所述分词结果中最大程度上能够正确匹配到的地址要素的地理坐标;
确定模块,用于确定包含该地理坐标的地理范围;
搜索模块,用于依据所确定的地理范围,以所述分词结果中包括的地物名称为关键词,在预置的第二数据库中进行地理空间和关键词的组合搜索,获得匹配结果,并依据匹配情况赋予通过在预置的第二数据库中进行地理空间和关键词的组合搜索获得的匹配结果相应的第三匹配度。
11.一种地址匹配的系统,其特征在于,包括:
接收器,用于接收原始地址信息;
地址分词器,用于对所述原始地址信息进行分词,获得包括地址要素和地物名称的分词结果;所述地址要素依据预置的地址分词库对所述原始地址信息分词得到;所述地址分词库中存储有多个标准地址要素及其相应的地理坐标;
空间搜索器,所述空间搜索器进一步包括:
获取模块,用于获取所述分词结果中最大程度上能够正确匹配到的地址要素的地理坐标;
确定模块,用于确定包含所述分词结果中最大程度上能够正确匹配到的地址要素的地理坐标的地理范围;
搜索模块,用于依据所确定的地理范围,以所述分词结果中包括的地物名称为关键词,在预置的第二数据库中进行地理空间和关键词的组合搜索,获得匹配结果,并依据匹配情况赋予该匹配结果相应的第三匹配度;所述匹配结果包括地理坐标信息。
12.一种地址匹配的系统,其特征在于,包括:
接收器,接收原始地址信息;
地址分词器,对所述原始地址信息进行分词,获得包括至少两个地址要素的分词结果;所述地址要素依据预置的地址分词库对所述原始地址信息分词得到;所述地址分词库中存储有多个标准地址要素;
判断器,用于判断所述分词结果中前后两个地址要素是否符合预置的父子级别关系,并根据判断结果,赋予各分词结果相应的第一匹配度;
门牌检索器,用于当所述分词结果中还包括门牌号时,依据所述分词结果中的地址要素和门牌号,在预置的第一数据库中进行检索,获得匹配结果,并依据匹配情况赋予该匹配结果相应的第二匹配度;所述匹配结果包括地理坐标信息;
空间搜索器,用于当所述分词结果中还包括地物名称时,获取所述分词结果中最大程度上能够正确匹配到的地址要素的地理坐标;确定包含该地理坐标的地理范围;依据所确定的地理范围,以所述分词结果中包括的地物名称为关键词,在预置的第二数据库中进行地理空间和关键词的组合搜索,获得匹配结果,并依据匹配情况赋予通过在预置的第二数据库中进行地理空间和关键词的组合搜索获得的匹配结果相应的第三匹配度;所述通过在预置的第二数据库中进行地理空间和关键词的组合搜索获得的匹配结果包括地理坐标信息;
匹配度计算器,用于针对各匹配结果计算综合匹配度;
结果输出器,用于将各匹配结果排序输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200710119220 CN101350012B (zh) | 2007-07-18 | 2007-07-18 | 一种地址匹配的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200710119220 CN101350012B (zh) | 2007-07-18 | 2007-07-18 | 一种地址匹配的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101350012A CN101350012A (zh) | 2009-01-21 |
CN101350012B true CN101350012B (zh) | 2013-01-16 |
Family
ID=40268807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200710119220 Expired - Fee Related CN101350012B (zh) | 2007-07-18 | 2007-07-18 | 一种地址匹配的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101350012B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615782A (zh) * | 2015-03-02 | 2015-05-13 | 武汉工程大学 | 基于滑动窗口最大匹配算法的地址匹配方法 |
US11853452B2 (en) | 2021-11-05 | 2023-12-26 | International Business Machines Corporation | Keeping databases compliant with data protection regulations by sensing the presence of sensitive data and transferring the data to compliant geographies |
Families Citing this family (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719128B (zh) * | 2009-12-31 | 2012-05-23 | 浙江工业大学 | 一种基于模糊匹配的中文地理编码确定方法 |
CN102867004B (zh) * | 2011-07-06 | 2016-06-29 | 高德软件有限公司 | 一种地址匹配的方法及设备 |
CN102289467A (zh) * | 2011-07-22 | 2011-12-21 | 浙江百世技术有限公司 | 确定目标网点的方法和装置 |
CN102955832B (zh) * | 2011-08-31 | 2015-11-25 | 深圳市华傲数据技术有限公司 | 一种通讯地址识别、标准化的系统 |
CN102314645A (zh) * | 2011-09-26 | 2012-01-11 | 深圳市络道科技有限公司 | 一种地址匹配方法及匹配系统 |
CN103150313A (zh) * | 2012-03-05 | 2013-06-12 | 苏州盛景数字技术服务有限公司 | 基于空间插值的地址定位方法 |
CN103714081B (zh) * | 2012-09-29 | 2018-10-16 | 北京百度网讯科技有限公司 | 一种专有地名的识别方法和装置 |
CN103714092A (zh) * | 2012-09-29 | 2014-04-09 | 北京百度网讯科技有限公司 | 一种地理位置的搜索方法和装置 |
CN103853769B (zh) * | 2012-12-03 | 2018-11-09 | 北京百度网讯科技有限公司 | 一种地图查询请求处理方法及装置 |
CN104252507B (zh) * | 2013-06-28 | 2017-06-27 | 北京华傲达数据技术有限公司 | 一种企业数据匹配方法和装置 |
CN103353894A (zh) * | 2013-07-19 | 2013-10-16 | 武汉睿数信息技术有限公司 | 一种基于语义分析的数据搜索方法和系统 |
CN103558926A (zh) * | 2013-11-12 | 2014-02-05 | 金蝶软件(中国)有限公司 | 一种地名录入方法及装置 |
CN103559177A (zh) * | 2013-11-12 | 2014-02-05 | 金蝶软件(中国)有限公司 | 一种地名识别方法及装置 |
CN103744854A (zh) * | 2013-11-15 | 2014-04-23 | 北京正图数创信息技术有限公司 | 一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台 |
CN104657361A (zh) * | 2013-11-18 | 2015-05-27 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及装置 |
CN103605752A (zh) * | 2013-11-21 | 2014-02-26 | 武大吉奥信息技术有限公司 | 一种基于语义识别的地址匹配方法 |
CN104679801B (zh) * | 2013-12-03 | 2019-02-12 | 高德软件有限公司 | 一种兴趣点搜索方法和装置 |
CN103763122A (zh) * | 2013-12-25 | 2014-04-30 | 北京大唐融合通信技术有限公司 | 一种故障信息的处理方法和服务系统 |
CN103984735B (zh) * | 2014-05-21 | 2017-02-15 | 北京京东尚科信息技术有限公司 | 一种用于生成推荐配送地点名称的方法和装置 |
CN104166679B (zh) * | 2014-07-08 | 2018-10-09 | 北京迪威特科技有限公司 | 一种用于分拣的地址匹配方法 |
CN105468632B (zh) * | 2014-09-05 | 2019-08-09 | 高德软件有限公司 | 一种地理编码方法及装置 |
CN105528372B (zh) * | 2014-09-30 | 2019-05-24 | 华为技术有限公司 | 一种地址搜索方法和设备 |
CN105701133B (zh) * | 2014-11-28 | 2021-03-30 | 方正国际软件(北京)有限公司 | 一种地址输入的方法和设备 |
CN105740253A (zh) * | 2014-12-09 | 2016-07-06 | 北京四维图新科技股份有限公司 | 一种地址信息的处理方法及装置 |
CN104504045A (zh) * | 2014-12-18 | 2015-04-08 | 国家电网公司 | 一种基于电力客户地址分词检索的gis定位分析系统 |
CN106326233B (zh) * | 2015-06-18 | 2019-10-11 | 菜鸟智能物流控股有限公司 | 地址提示方法及装置 |
CN106547770B (zh) * | 2015-09-21 | 2020-06-02 | 阿里巴巴集团控股有限公司 | 一种基于用户地址信息的用户分类、用户识别方法及装置 |
CN105205173A (zh) * | 2015-10-14 | 2015-12-30 | 浙江百世技术有限公司 | 基于关键词数据库检索的快递分拣装置及方法 |
US10373103B2 (en) | 2015-11-11 | 2019-08-06 | International Business Machines Corporation | Decision-tree based address-station matching |
CN105404686B (zh) * | 2015-12-10 | 2018-08-31 | 湖南科技大学 | 一种基于地理特征层次分词的新闻事件地名地址匹配方法 |
CN106920461B (zh) * | 2015-12-24 | 2020-02-07 | 北京四维图新科技股份有限公司 | 一种生成电子眼分布地图的方法及装置 |
CN105786800A (zh) * | 2016-03-23 | 2016-07-20 | 苏州数字地图信息科技股份有限公司 | 一种警用标准地址获取方法及系统 |
CN108073564B (zh) * | 2016-11-09 | 2021-05-14 | 北京国双科技有限公司 | 法院名称的统计方法及装置 |
CN108204816B (zh) * | 2016-12-20 | 2020-06-02 | 北京四维图新科技股份有限公司 | 定位导航的地址精细化处理方法及装置、物流导航系统及终端 |
CN108875982A (zh) * | 2017-05-15 | 2018-11-23 | 北京嘀嘀无限科技发展有限公司 | 网络约车地点的搜索方法和装置 |
CN109241208B (zh) * | 2017-07-10 | 2022-05-27 | 阿里巴巴集团控股有限公司 | 地址定位、地址监测、信息处理方法及装置 |
CN107463711B (zh) * | 2017-08-22 | 2020-07-28 | 山东浪潮云服务信息科技有限公司 | 一种数据的标签匹配方法及装置 |
CN110020224B (zh) * | 2017-12-28 | 2021-07-23 | 中国移动通信集团辽宁有限公司 | 地图兴趣点数据的关联方法、装置、设备及介质 |
WO2019227288A1 (en) * | 2018-05-28 | 2019-12-05 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for parent-child relationship determination for points of interest |
CN109102303B (zh) * | 2018-06-28 | 2021-06-08 | 招联消费金融有限公司 | 风险检测方法和相关装置 |
CN110795512B (zh) * | 2018-07-17 | 2023-08-01 | 中国移动通信集团重庆有限公司 | 地址匹配方法、装置、设备及存储介质 |
CN109344263B (zh) * | 2018-08-01 | 2022-07-19 | 昆明理工大学 | 一种地址匹配方法 |
CN109145073A (zh) * | 2018-08-28 | 2019-01-04 | 成都市映潮科技股份有限公司 | 一种基于分词算法的地址解析方法及装置 |
CN110909110B (zh) * | 2018-09-17 | 2023-05-30 | 阿里巴巴集团控股有限公司 | 地址的标准化方法、装置、存储介质及处理器 |
CN109388634B (zh) * | 2018-09-18 | 2024-05-03 | 平安科技(深圳)有限公司 | 地址信息的处理方法、终端设备及计算机可读存储介质 |
CN109597989B (zh) * | 2018-11-14 | 2023-02-03 | 金色熊猫有限公司 | 诊断词归一方法及装置、存储介质、电子设备 |
CN111427977B (zh) * | 2019-01-10 | 2023-12-19 | 阿里巴巴集团控股有限公司 | 电子眼数据的处理方法及装置 |
CN109871422A (zh) * | 2019-01-24 | 2019-06-11 | 杭州志远科技有限公司 | 一种地理信息系统的地址自动分析匹配系统 |
CN110060472B (zh) * | 2019-04-09 | 2020-12-15 | 浙江大华技术股份有限公司 | 道路交通事件定位方法、系统、可读存储介质和设备 |
CN110175216B (zh) * | 2019-05-15 | 2021-05-11 | 腾讯科技(深圳)有限公司 | 坐标纠错方法、装置和计算机设备 |
CN112861532B (zh) * | 2019-11-12 | 2024-04-02 | 北京四维图新科技股份有限公司 | 地址标准化处理方法、装置、设备及在线搜索系统 |
CN111061824B (zh) * | 2019-11-27 | 2023-07-25 | 北京中交兴路信息科技有限公司 | 基于改进四叉树的范围判断方法、装置、设备 |
CN111259996A (zh) * | 2019-12-27 | 2020-06-09 | 福建陆海工程勘察设计有限公司 | 一种公路养护管理对象的身份识别方法及系统 |
CN111881371B (zh) * | 2020-05-21 | 2024-06-21 | 北京嘀嘀无限科技发展有限公司 | 一种建立poi父子点对的方法和系统 |
CN111950280A (zh) * | 2020-05-27 | 2020-11-17 | 西交利物浦大学 | 地址匹配方法及装置 |
CN112307169B (zh) * | 2020-10-30 | 2023-12-15 | 中国平安财产保险股份有限公司 | 地址数据的匹配方法、装置、计算机设备及存储介质 |
CN112732719A (zh) * | 2021-01-11 | 2021-04-30 | 浪潮云信息技术股份公司 | 一种地名地址空间定位及管理方法 |
CN112783963B (zh) * | 2021-03-17 | 2023-04-28 | 上海数喆数据科技有限公司 | 基于商圈划分的企业线下与线上多源数据整合方法及装置 |
CN113361233B (zh) * | 2021-06-08 | 2024-01-26 | 广州城市规划技术开发服务部有限公司 | 一种标准地址与建筑物关联匹配方法及装置 |
CN114513550B (zh) * | 2021-12-30 | 2024-03-08 | 天翼云科技有限公司 | 一种地理位置信息的处理方法、装置及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1794241A (zh) * | 2006-01-04 | 2006-06-28 | 高峰 | 基于地理信息系统的纳税人定位方法 |
CN1945213A (zh) * | 2006-11-02 | 2007-04-11 | 武汉大学 | 基于可量测实景图像的可视化位置服务的实现方法 |
-
2007
- 2007-07-18 CN CN 200710119220 patent/CN101350012B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1794241A (zh) * | 2006-01-04 | 2006-06-28 | 高峰 | 基于地理信息系统的纳税人定位方法 |
CN1945213A (zh) * | 2006-11-02 | 2007-04-11 | 武汉大学 | 基于可量测实景图像的可视化位置服务的实现方法 |
Non-Patent Citations (1)
Title |
---|
李军,李琦,毛东军,郭玲玲.北京市地理编码数据库的研究.《计算机工程与应用》.2004,(第2期),1-3,6. * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615782A (zh) * | 2015-03-02 | 2015-05-13 | 武汉工程大学 | 基于滑动窗口最大匹配算法的地址匹配方法 |
CN104615782B (zh) * | 2015-03-02 | 2017-10-10 | 武汉工程大学 | 基于滑动窗口最大匹配算法的地址匹配方法 |
US11853452B2 (en) | 2021-11-05 | 2023-12-26 | International Business Machines Corporation | Keeping databases compliant with data protection regulations by sensing the presence of sensitive data and transferring the data to compliant geographies |
Also Published As
Publication number | Publication date |
---|---|
CN101350012A (zh) | 2009-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101350012B (zh) | 一种地址匹配的方法和系统 | |
CN104750799B (zh) | 一种基于地址解析数据的建设用地类型快速识别方法 | |
CN101350013A (zh) | 一种地理信息的搜索方法和系统 | |
CN107526786A (zh) | 基于多源数据的地名地址数据整合的方法和系统 | |
CN103514235B (zh) | 一种增量码库的建立方法和装置 | |
CN109933797A (zh) | 基于Jieba分词及地址词库的地理编码方法和系统 | |
KR102184048B1 (ko) | Gis 기반 토지 이용 계획 검토 시스템 및 방법 | |
CN112988715B (zh) | 一种基于开源方式的全球网络地名数据库的构建方法 | |
CN105975477B (zh) | 一种基于网络自动构建地名数据集的方法 | |
Moradi et al. | Exploring five indicators for the quality of OpenStreetMap road networks: A case study of Québec, Canada | |
Ciepłuch et al. | Building generic quality indicators for OpenStreetMap | |
Cetl et al. | A comparison of address geocoding techniques–case study of the city of Zagreb, Croatia | |
CN112328910A (zh) | 一种涵盖aoi和poi标准地址匹配引擎的方法及系统 | |
CN108345662A (zh) | 一种考虑用户分布区域差异的签到微博数据加权统计方法 | |
Chatterjee et al. | SAGEL: smart address geocoding engine for supply-chain logistics | |
van Erp et al. | Georeferencing animal specimen datasets | |
CN117787209A (zh) | 一种基于自然语言进行地址结构化算法的治理系统 | |
Ma et al. | OSMsc: a framework for semantic 3D city modeling using OpenStreetMap | |
David et al. | Smart geocoding of objects | |
CN114513550A (zh) | 一种地理位置信息的处理方法、装置及电子设备 | |
Ladra et al. | A toponym resolution service following the OGC WPS standard | |
CN116578676B (zh) | 一种地名时空演化查询方法及系统 | |
Goodchild | COVID-19 and the Science of Where | |
Rasdorf | Spatial data quality | |
Zhang et al. | Construction and Application of Place Name and Address Management System Based on Elasticsearch |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130116 |
|
CF01 | Termination of patent right due to non-payment of annual fee |