CN105468632B - 一种地理编码方法及装置 - Google Patents
一种地理编码方法及装置 Download PDFInfo
- Publication number
- CN105468632B CN105468632B CN201410450111.2A CN201410450111A CN105468632B CN 105468632 B CN105468632 B CN 105468632B CN 201410450111 A CN201410450111 A CN 201410450111A CN 105468632 B CN105468632 B CN 105468632B
- Authority
- CN
- China
- Prior art keywords
- participle
- matched
- prestores
- result
- available
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明公开一种地理编码方法及装置。所述方法包括:对待匹配地理地址进行分词;针对每个分词,从预置的门址库中获取与该分词匹配的预存分词;根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中;从每个分词对应的每一个聚类集合中,选取一个预存分词作为该分词的可用预存分词;将可用预存分词按照其对应分词在待匹配地理位置中的语序进行组合,生成待匹配地理地址的待匹配结果,并从待匹配结果中选取一个待匹配结果作为最终匹配结果并进行地理编码,得到地理编码结果。通过本发明,可实现自动化地理编码,无需人工干预,并且提高了地理编码的处理效率和匹配效率。
Description
技术领域
本发明涉及地理信息系统领域,尤其涉及一种地理编码方法及装置。
背景技术
在电子地图领域中,通过地理编码将用户输入的待匹配地理地址转化为地理位置,以便于在电子地图上显示该待匹配地理地址,方便用户了解该待匹配地理地址所处的地理位置。
目前,地理编码的具体实现如下:首先,对用户输入的待匹配地理地址进行分词;其次,针对每一个分词,将该分词与预置的门址库中的预存分词进行匹配,得到与该分词匹配的至少一个预存分词;再其次,按照各分词在待匹配地理地址中的语序,对各分词对应的预存分词进行组合,得到多个组合;将各种组合结果展示给用户以便用户进行选择,根据用户选择的组合结果进行地理编码。如待匹配地理地址为C1C2C3C4,对其进行分词后得到分词为C1、C2、C3和C4,其中门址库中与C2匹配的预存分词包括X1和X2,门址库中与C4匹配的预存分词包括Y1和Y2,则进行组合后,得到以下组合:C1X1C3C4、C1X2C3C4、C1X1C3Y1、C1X1C3Y2、C1X2C3Y1、C1X2C3Y2C4、C1C2C3Y1、C1C2C3Y2;将组合反馈给用户选择,根据用户选择的组合进行地理编码,以得到待匹配地理地址的编码结果。
目前的地理编码方式,由于直接将各分词对应的预存分词进行组合,因此得到的组合结果数量较多,并且将所有组合结果反馈给用户选择,根据用户选择的组合结果去做地理编码,该种方式,一方面,每次进行地理编码需要用户参与,不能实现自动化的地理编码;另一方面,通过用户从大量的组合结果中选取组合结果,时延较长,效率较低。
发明内容
本发明的目的是提供一种地理编码方法及装置,以克服现有技术中地理编码需要人工参与而无法实现自动化地理编码的问题,以及地理编码效率较低的问题。
本发明提供一种地理编码方法,包括:
对待匹配地理地址进行分词;
针对每个分词,将该分词与预置的门址库中的预存分词进行匹配,得到至少一个与该分词匹配的预存分词;
根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中;
针对每个分词,从该分词对应的每一个聚类集合中,选取距离该聚类集合中预存分词的几何中心位置最近的一个预存分词作为该分词的可用预存分词;
将可用预存分词按照其对应分词在待匹配地理位置中的语序进行组合,生成待匹配地理地址的待匹配结果,并从待匹配结果中选取一个待匹配结果作为最终匹配结果;
根据所述待匹配地理地址的最终匹配结果进行地理编码,得到地理编码结果。
本发明还提供一种地理编码装置,包括:
分词模块,用于对待匹配地理地址进行分词;
预存分词获取模块,用于针对每个分词,将该分词与预置的门址库中的预存分词进行匹配,得到至少一个与该分词匹配的预存分词;
聚类模块,用于根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中;
可用预存分词选择模块,用于针对每个分词,从该分词对应的每一个聚类集合中,选取距离该聚类集合中预存分词的几何中心位置最近的一个预存分词作为该分词的可用预存分词;
最终匹配结果选择模块,用于将可用预存分词按照其对应分词在待匹配地理位置中的语序进行组合,生成待匹配地理地址的待匹配结果,并从待匹配结果中选取一个待匹配结果作为最终匹配结果;
地理编码模块,用于根据所述待匹配地理地址的最终匹配结果进行地理编码,得到地理编码结果。
本发明至少具有以下有益效果:本方案,一方面,将与分词匹配的预存分词进行聚类,再从聚类集合中选取一个预存分词作为与该分词对应的可用预存分词,然后,再将可用预存分词按照其对应分词在待匹配地理位置中的语序进行组合,生成待匹配地理地址的待匹配结果,本方案由于将与分词匹配的预存分词进行聚类,然后从聚类中选取一个预存分词作为可用预存分词,相当于从多个预存分词中选取一个具有代表性的预存分词参与待匹配结果的生成,而不是将所有与分词对应的预存分词均参与待匹配结果的生成,因此,本方案相对于现有技术直接将与分词匹配的可用分词按照其对应分词在待匹配地理位置中的语序进行组合来生成待匹配地理地址的待匹配结果,本方案,能够在很大程度上降低了待匹配结果的数量,从少量的待匹配结果中确定一个最终匹配结果,能够降低时延,从而从整体上提高了地理编码的处理效率和匹配效率;另一方面,在得到待匹配结果之后,从该待匹配结果中选取一个作为最终匹配结果,然后根据最终匹配结果进行地理编码,从而实现自动化选取一条最终匹配结果,相对于现有技术每次地理编码均需要通过人工选取最终匹配结果而言,本方案不需要人工选取匹配结果,降低人工干预的程度。
附图说明
图1为本发明实施例中地理编码方法的流程图之一;
图2为本发明实施例中地理编码方法的流程图之二;
图3为本发明实施例中地理编码方法的流程图之三;
图4为本发明实施例中地理编码装置的示意图之一;
图5为本发明实施例中地理编码装置的示意图之二。
具体实施方式
以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。需要说明的是,本发明实施例提供的各种表及表中数据仅用于示例性解释说明,并不用于限定本发明实施例。
本发明实施例提供一种地理编码方法及装置,本方案,一方面,将与分词匹配的预存分词进行聚类,再从聚类集合中选取一个预存分词作为与该分词对应的可用预存分词,然后,再将可用预存分词按照其对应分词在待匹配地理位置中的语序进行组合,生成待匹配地理地址的待匹配结果,本方案由于将与分词匹配的预存分词进行聚类,然后从聚类中选取一个预存分词作为可用预存分词,相当于从多个预存分词中选取一个具有代表性的预存分词参与待匹配结果的生成,而不是将所有与分词对应的预存分词均参与待匹配结果的生成,因此,本方案相对于现有技术直接将与分词匹配的可用分词按照其对应分词在待匹配地理位置中的语序进行组合来生成待匹配地理地址的待匹配结果,本方案,能够在很大程度上降低了待匹配结果的数量,从少量的待匹配结果中确定一个最终匹配结果,能够降低时延,从而从整体上提高了地理编码的处理效率和匹配效率;另一方面,在得到待匹配结果之后,从该待匹配结果中选取一个作为最终匹配结果,然后根据最终匹配结果进行地理编码,从而实现自动化选取一条最终匹配结果,相对于现有技术每次地理编码均需要通过人工选取最终匹配结果而言,本方案不需要人工选取匹配结果,降低人工干预的程度。
下面对本发明实施例中提供的地理编码方法进行详细说明。
实施例一
如图1所示,为本发明实施例提供的地理编码方法的流程图,该方法包括步骤101-步骤106:
步骤101:对待匹配地理地址进行分词。
步骤102:针对每个分词,将该分词与预置的门址库中的预存分词进行匹配,得到至少一个与该分词匹配的预存分词。
步骤103:根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中。
步骤104:针对每个分词,从该分词对应的每一个聚类集合中,选取距离该聚类集合中预存分词的几何中心位置最近的一个预存分词作为该分词的可用预存分词。
步骤105:将可用预存分词按照其对应分词在待匹配地理位置中的语序进行组合,生成待匹配地理地址的待匹配结果,并从待匹配结果中选取一个待匹配结果作为最终匹配结果。
步骤106:根据所述待匹配地理地址的最终匹配结果进行地理编码,得到地理编码结果。
下面对以上各步骤进行详细说明:
一、在步骤101中
其中,待匹配地理地址中可以包括名称词和数字词中的至少一项。其中名称词顾名思义为表示名称的词,例如市名、街道名称、区名称(如海淀区)、建筑物名称等。数字词顾名思义为用于表示编号的词,例如几号院、小区内的楼栋号、门牌号等。本发明实施例中门址库中存储的预存分词为对POI数据库中存储的POI名称进行分词所得到,一条POI名称通过切分能够得到多个预存分词,如对POI名称“北京市海淀区建材城西路16号新希望学校7号501”进行分词,得到预存分词“北京市”、“海淀区”、“建材城西路”、“16号”、“新希望学校”、“7”、“501”;在该门址库中存储各预存分词的相关属性信息,包括:预存分词的ID(identification,唯一标识码,该ID是指编制在门址库中该预存分词的编号)、名称、父ID(父ID是指在同一POI名称中该预存分词的前一预存分词的ID,如表1中,ID为4的预存分词“16号”的父ID是指在POI名称中“北京市海淀区建材城西路16号新希望学校7栋501”位于16号之前的分词“建材城西路”的ID(即3))、行政代码、空间位置信息(如经纬度坐标)、地理层次和精度。
如表1所示为一门址库的示例,但并不仅限于表1的内容和格式:
表1门址库示例
门址库中预存分词的精度是指预存分词的地理位置信息的精确度。门址库中预存分词的地理层次根据地物的地理区域范围的大小所设定的参数,地理区域范围越大则地理层次越高,例如行政省的地理层次高于归属于该行政省的行政县的地理层次,居民小区的地理层次高于居民小区内一栋楼的地理层次。其中,地理层次设置表如表2所示。
表2地理层次设置示例
地理层次 | 类型 |
1 | 国级(如中国) |
2 | 省级 |
3 | 地级市 |
4 | 区县 |
5 | 乡镇 |
6 | 村 |
7 | 开发区 |
8 | 山 |
9 | 河、湖 |
10 | 街道 |
... | ... |
需要说明的是,为便于对待匹配地理地址进行分词,根据门址库中为名词的预存分词建立字典,该字典的格式与门址库的格式一致,字典与门址库的区别在于,字典不包括门址库中为数字词的预存分词。例如由表1所示的门址库建立的字典如表3所示。
表3字典示例
这里对步骤101中的分词过程进行举例说明:若待匹配地理地址为“北京市海淀区建材城西路16号新希望学校7栋501”时,将该待匹配地理地址根据字典进行分词,得到待匹配地理地址的名称词为:“北京市”、“海淀区”、“建材城西路”、“新希望学校”;对于该待匹配地理地址中剩余的词“16号”、“7栋”、“501”通过例如数字识别技术得到以下数字词:“16号”“7栋”“501”。
二、在步骤102中
分词与门址库中预存的预存分词是否匹配成功,可通过以下方式确定:若分词包含的字符与预存分词包含的字符完全一致,则确定该分词与该预存分词匹配;或者,分词与预存分词中相同的字符的个数,与分词包含的字符的个数的比率大于等于预设比率,则确定该分词与该预存分词匹配。例如分词中包含10个字符,而预存分词包含这10个字符中的8个字符,则二者之间的比率为0.8(8除以10),大于预设比率0.7,则说明分词与预存分词匹配。
其中,在一个实施例中,步骤102可具体执行为:当所述分词为名称词时,将该分词与预置的门址库中的预存分词进行匹配,将匹配成功的预存分词确定为与所述分词匹配的预存分词;当所述分词为数字词时,将该分词与预置的门址库中的预存分词进行匹配,若匹配成功的预存分词仅为一个,则将该预存分词确定为与所述分词匹配的预存分词,若匹配成功的预存分词为多个,则将该多个预存分词的预置父ID与所述分词的前一个分词匹配的预存分词的ID进行比对,将比对一致的预存分词确定为与所述分词匹配的预存分词;其中,一条地址中按语序相邻的两个预存分词中前一预存分词的ID是后一预存分词的父ID。
继续使用步骤101中的例子,待匹配地理地址“北京市海淀区建材城西路16号新希望学校7栋501”中,名称词“北京市”在表1中匹配的预存分词为“北京市”,名称词“新希望学校”在表1中会匹配到三个预存分词。与此同时,还可以通过表1中的门址库获得各预存分词的至少一项或多项属性信息。
对于数字词“16号”,若门址库中只有一个预存分词“16号”时,则该预存分词为与该数字词匹配的预存分词;当门址库中有多个“16号”时,首先取得该数字词的前一分词“建材城西路”对应的预存分词“建材城西路”的ID(3),然后以该ID为父ID作为限制查询条件,取父ID为3的“16号”,作为与数字词“16号”匹配的预存分词。当数字词在门址库中有多个匹配的预存分词时,通过将数字词的前一分词对应的预存分词的ID作为限制匹配条件,可以提高得到数字词匹配的预存分词的准确性。通过该种方式有利于排除掉与待匹配地理地址不相关的预存分词,减少匹配得到预存分词的数量,从而有利于减少在之后的步骤中进行处理的对象,提高地理编码的效率的准确性。
三、在步骤103中
预存分词之间的空间距离为根据预存分词的空间位置信息计算得到的距离。
其中,根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中,可以通过现有较为常规的空间聚类算法实现,例如k-平均(k-means)算法、kl中心点(k—medoids)算法和EM(expectationmaximization)算法等,任何能够使每一个聚类集合中的预存分词之间的空间距离小于预置的第一距离阈值的聚类算法均适用于本发明实施例,在此不做限定。
优选地,为进一步提高对分词匹配的预存分词进行聚类的准确性,本方案,还可以在步骤103之前,根据所述分词匹配的预存分词的属性信息中的地理层次,将与所述分词匹配的预存分词中属于同一地理层次的预存分词划分为一组;此时,步骤103可执行为:针对每一组预存分词,从预置的地理层次与第一距离阈值的对应关系中,获取与该组预存分词所属地理层次对应的第一距离阈值,并执行所述根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中的步骤。通过将属于同一地理层次的预存分词划分为一组,然后再对一组中的预存分词按照与该组的地理层次对应的第一距离阈值进行聚类,使得聚类结果更加准确合理。
四、在步骤104中
其中,在一个实施例中,步骤104可通过以下步骤A1-A2实现:
步骤A1:针对所述分词对应的每一个聚类集合,根据该聚类集合包含的预存分词属性信息中的空间位置信息,计算几何中心位置点。
如空间位置信息为经纬度坐标,则聚类集合对应的几何中心位置点的经度为该聚类集合中所有预存分词的经度的平均值,几何中心位置点的纬度为该聚类集合中所有预存分词的纬度的平均值。
步骤A2:计算聚类集合中的每个预存分词距离所述几何中心位置点的空间距离,将空间距离最小的预存分词作为所述分词的可用预存分词。
其中,当有多个预存分词与几何中心位置点最近时,可以从该多个预存分词中随机选择一个预存分词作为可用预存分词。
通过选择距离集合中心位置点最近的预存分词为可用预存分词,使得选择的可用预存分词更具有代表性,从而能够提高生成待匹配地理地址的最终匹配结果的准确性,从而提高地理编码过程中的匹配效率。
五、在步骤105中
其中,将可用预存分词按照其对应分词在待匹配地理位置中的语序进行组合,例如,若待匹配地理地址为“海淀区创新路”,将该“海淀区创新路”分词为“海淀区”和“创新路”,其中,门址库中与“海淀区”匹配的两个可用预存分词分别为A1和A2,与“创新路”匹配的两个可用预存分词分别为B1和B2,则按照语序组合后生成的待匹配结果有如下四种:A1B1、A1B2、A2B1和A2B2。
其中,在一个实施例中,还可以对待匹配结果进行优化,此时,步骤105可通过以下步骤B1-步骤B3实现:
步骤B1:针对每一条待匹配结果,根据待匹配结果中的可用预存分词的属性信息中的行政代码、空间位置信息,确定待匹配结果中的可用预存分词是否为异常分词,若是则将该异常分词从待匹配结果中剔除。
步骤B2:针对异常分词处理后的每一条待匹配结果,判断该待匹配结果中的可用预存分词是否均包含在其他一条待匹配结果中,若是则删除该条待匹配结果。
步骤B3:从保留的待匹配结果中选取一条作为待匹配地理地址的最终匹配结果。
通过剔除待匹配结果中的异常预存分词,可以提高对待匹配地理地址进行匹配的精度,提高待匹配地理地址的待匹配结果的质量;通过删除可用预存分词是否均包含在其他一条待匹配结果中的待匹配结果,将重合的待匹配结果剔除掉,减少了待匹配结果的数量,提高从待匹配结果中选择最终匹配结果的效率,从而整体上提高地理编码的效率。
其中,在一个实施例中,上述步骤B1中根据待匹配结果中的可用预存分词的属性信息中的行政代码、空间位置信息,确定待匹配结果中的可用预存分词是否为异常分词,可通过以下步骤C1-步骤C2实现:
步骤C1:遍历待匹配结果中的可用预存分词,若该可用预存分词的前一个可用预存分词为正常分词,根据该可用预存分词与其前一个可用预存分词的属性信息中的行政代码,判断该可用预存分词与其前一可用预存分词不具有行政上下级关系,且根据该可用预存分词与其前一可用预存分词的空间位置信息计算得到的空间距离大于等于预置的第二距离阈值时,则确定该可用预存分词为异常分词。
其中,在一个实施例中,第二距离阈值对于每一个可用预存分词可以是一个固定的值,也可以随可用预存分词所在的地理层次不同而不同的值。例如,当判断可用预存分词A是否为异常分词时,则第二距离阈值为可用预存分词A所属的地理层次对应设定的第二距离阈值,该第二距离阈值可以与第一距离阈值相同,也可以不同。当然,当判断可用预存分词A是否为异常分词时,第二距离阈值还可以是可用预存分词A的前一个可用预存分词B所属的地理层次对应的第二距离阈值,当然,该第二距离阈值可以与第一距离阈值相同,也可以不同。
步骤C2:若该可用预存分词的前一个可用预存分词为异常分词,根据该可用预存分词与前一个最近正常分词的属性信息中的行政代码,判断该可用预存分词与前一个最近正常分词不具有行政上下级关系,且根据该可用预存分词与前一个最近正常分词的空间位置信息计算得到的空间距离大于等于预置的第二距离阈值时,则确定该可用预存分词为异常分词。
可以实现结合现实的情况,合理的设定第二距离阈值,以便于提高确定异常分词的准确性,从而提高得到待匹配结果的准确性。
下面用一个例子对待匹配结果进行优化的过程进行说明。继续沿用前述的例子,假若待匹配地理地址“北京市海淀区建材城西路16号新希望学校7栋501”根据表1中的内容执行完步骤104获得可用预存分词之后,如表4所示。在表4中,例如C5(A)与C5(B)分别表示与C5匹配的两个预存分词。
表4实施例一中各分词对应可用预存分词编码表
根据表3,执行步骤105将可用预存分词按照其对应分词在待匹配地理位置中的语序进行组合,生成待匹配地理地址的待匹配结果,则可以得到待匹配地理地址“北京市海淀区建材城西路16号新希望学校7栋501”的待匹配结果有两个,分别为:C1(x11,y11)-C2(x21,y21)-C3(x31,y31)-C4(x41,y41)-C5(x51,y51)-C6(x61,y61)-C7(x71,y71)(标记为分支1)和C1(x11,y11)-C2(x21,y21)-C3(x31,y31)-C4(x41,y41)-C5(x52,y52)-C6(x61,y61)-C7(x71,y71)(标记为分支2)。
对前述两个待匹配结果进行异常分词处理,具体如下:
对于分支1,C1(x11,y11)、C2(x21,y21)、C3(x31,y31)、C4(x41,y41)、C5(x51,y51)、C6(x61,y61)、C7(x71,y71)都分别为一个可用预存分词;第一个可用预存分词C1(x11,y11)之前没有可用预存分词,因此可以将C1(x11,y11)作为正常分词;对于第二个可用预存分词C2(x21,y21),根据表1中的行政代码可知,C1(x11,y11)与C2(x21,y21)为行政区上下级关系,因此C2(x21,y21)为正常分词;对于C3(x31,y31),若根据C2(x21,y21)与C3(x31,y31)的行政代码确定C2(x21,y21)与C3(x31,y31)不具有行政区上下级关系但根据C2(x21,y21)与C3(x31,y31)的空间位置信息计算得到的空间距离小于预置的第二距离阈值,则确定C3(x31,y31)为正常分词;对于C4(x41,y41),若根据C4(x41,y41)与C3(x31,y31)的行政代码确定C4(x41,y41)与C3(x31,y31)不具有行政区上下级关系但根据C3(x31,y31)和C4(x41,y41)的空间位置信息计算得到的空间距离小于预置的第二距离阈值,则C4(x41,y41)为正常分词,继续用相同的方法判断C4(x41,y41)和C5(x51,y51),若C5(x51,y51)为异常分词,则将C5(x51,y51)从分支1中剔除,继续判断C4(x41,y41)和C6(x61,y61),若C6(x61,y61)为正常分词,则继续判断C6(x61,y61)和C7(x71,y71),若C7(x71,y71)为正常分词,则得到异常分词处理后的分支1为C1(x11,y11)-C2(x21,y21)-C3(x31,y31)-C4(x41,y41)-C6(x61,y61)-C7(x71,y71);以同样的方法得到异常分词处理后的分支2为C1(x11,y11)-C2(x21,y21)-C3(x31,y31)-C4(x41,y41)-C5(x52,y52)-C6(x61,y61)-C7(x71,y71)。
判断异常处理分词后的分支1中的所有可用预存分词都包含在异常处理后的分支2中,因此可以剔除异常分词处理后的分支1,保留异常分词处理后的分支2。
如果保留的待匹配结果仅有一条,则直接将该保留的待匹配结果作为最终匹配结果;如果保留的待匹配结果为多条,则从保留的待匹配结果中选取一条作为待匹配地理地址的最终匹配结果,具体实现如步骤D1-步骤D3:
步骤D1:针对保留的每一条待匹配结果,根据预置的个体可信度评价公式,计算该条待匹配结果中每一个可用预存分词的个体可信度。
步骤D2:根据每一个可用预存分词的个体可信度与预置的总体可信度评价公式,确定该条待匹配结果的总体可信度。
步骤D3:从保留的待匹配结果中,选择总体可信度最高的待匹配结果作为待匹配地理地址的最终匹配结果。
其中,个体可信度评价公式如公式(1)所示:
其中,Pi表示所述待匹配结果中的第i个可用预存分词的个体可信度;Z表示预设系数;m表示所述第i个可用预存分词所属的聚类集合中所包含的预存分词的总数量;n表示所述第i个可用预存分词对应的分词所匹配的预存分词的总数量;
其中,总体可信度评价公式如公式(2)所示:
其中,Qj表示第j条待匹配结果的总体可信度;Pi表示所述第j条待匹配结果中第i个可用预存分词的个体可信度;λi表示第i个可用预存分词对应的地理层次的预设权重值;N表示第j条待匹配结果所包含的可用预存分词的总数量。
通过个体可信度评价使得对每一个分词的可用预存分词的可信度可以进行量化和评估,通过个体可信度评价公式可以看出聚合了预存分词最多的聚类集合中的可用预存分词的个体可信度最高。通过总体可信度评价,可以进一步的对保留的待匹配结果的总体可信度进行量化和评估,从而便于替代人工干预的过程,实现自动化选择最终匹配结果,通过将总体可信度最高的待匹配结果作为最终匹配结果,提高了选择最终匹配结果的准确性,提高了地理编码的处理效率和匹配效率。
下面通过几个简单的实施例对本发明实施例中地理编码方法进行详细说明。
实施例二
例如,预先在门址库中存储的信息如表5所示。
表5实施例二中的门址库预存信息示例
下面以对待匹配地理地址“北京市朝阳区建国路93号院万达广场10号楼702室”为例,对本发明实施例中地理编码方法进行详细说明,如图2所示,包括步骤201-步骤210:
步骤201:对待匹配地理地址进行分词,获得名称词:“北京市”、“朝阳区”、“建国路”、“万达广场”。
步骤202:对待匹配地理地址进行分词,获得数字词:“93号院”、“10号楼”、“702室”。
步骤203:获取预存分词:对于名称词,将该分词与预置的门址库中的预存分词进行匹配,将匹配成功的预存分词确定为与所述分词匹配的预存分词;对于数字词,将该分词与预置的门址库中的预存分词进行匹配,若匹配成功的预存分词仅为一个,则将该预存分词确定为与所述分词匹配的预存分词,若匹配成功的预存分词为多个,则将该多个预存分词的预置父ID与所述分词的前一个分词匹配的预存分词的ID进行比对,将比对一致的预存分词确定为与所述分词匹配的预存分词。
其中,将各分词与表5中的门址库进行匹配后得到的预存分词如表6所示:其中,可以以预存分词的ID唯一表示该预存分词。从表6可知分词“万达广场”对应3个预存分词。
表6实施例二中各分词预存分词结果表
分词 | 预存分词ID |
北京市 | 1 |
朝阳区 | 2 |
建国路 | 3 |
93号院 | 4 |
万达广场 | 5、6、7 |
10号楼 | 8 |
702室 | 9 |
步骤204:针对任一分词,根据所述分词的匹配的预存分词的属性信息中的地理层次,将与所述分词匹配的预存分词中属于同一地理层次的预存分词划分为一组。
步骤205:针对每一组预存分词,从预置的地理层次与第一距离阈值的对应关系中,获取与该组预存分词所属地理层次对应的第一距离阈值,并根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中。
其中,以分词“万达广场”为例,对该分词的预存分词执行步骤205后得到两个聚类集合,分别为:聚类集合1,该集合包含一个预存分词,该预存分词的ID为5,从表5得到其空间位置信息为(120.23,60.56);聚类集合2,该集合包含两个预存分词,该两个预存分词的ID分别为6和7,其中从表5得到ID为6的预存分词的空间位置信息为(119.21,59.00),从表5得到ID为7的预存分词的空间位置信息为(119.40,59.01)。
步骤206:针对每个分词,针对所述分词对应的每一个聚类集合,根据该聚类集合包含的预存分词属性信息中的空间位置信息,计算几何中心位置点;并计算聚类集合中的每个预存分词距离所述几何中心位置点的空间距离,将空间距离最小的预存分词作为所述分词的可用预存分词。
其中,聚类集合1中只有一个预存分词,因此该预存分词为聚类集合1的可用预存分词,对于聚类集合2由于只有两个预存分词,因此每个预存分词距离几何中心位置点的空间距离均相等,则假设随机选择到ID为6的预存分词为可用预存分词。
其中,为便于理解,在选择可用预存分词后,对各分词进行编码,得到各分词及对应的可用预存分词的如表7所示:在表7中,以分词“C5”为例对表中的信息进行说明,该分词的两个可用预存分词分别表示为C5(X51,Y51)和C5(X52,Y52)。其中,(X51,Y51)表示可用预存分词C5(X51,Y51)的空间位置信息。
表7实施例二中各分词对应可用预存分词编码表
步骤207:将可用预存分词按照其对应分词在待匹配地理位置中的语序进行组合,生成待匹配地理地址的待匹配结果。
其中,根据表7可知,待匹配地理地址“北京市朝阳区建国路93号院万达广场10号楼702室”得到两条待匹配结果,分别为待匹配结果1和待匹配结果2。
其中,待匹配结果1:C1(X11,Y11)-C2(X21,Y21)-C3(X31,Y31)-C4(X41,Y41)-C5(X52,Y52);其中,由于C6的父ID为5即对应于可用预存分词C5(X51,Y51)、C7的父ID为8即对应于C6,因此分支C中不包括C6和C7这两个可用预存分词。
匹配结果2:C1(X11,Y11)-C2(X21,Y21)-C3(X31,Y31)-C4(X41,Y41)-C5(X51,Y51)-C6(X61,Y61)-C7(X71,Y71)。
步骤208:异常分词处理:针对每一条待匹配结果,遍历待匹配结果中的可用预存分词,若该可用预存分词的前一个可用预存分词为正常分词,根据该可用预存分词与其前一个可用预存分词的属性信息中的行政代码,判断该可用预存分词与其前一可用预存分词不具有行政上下级关系,且根据该可用预存分词与其前一可用预存分词的空间位置信息计算得到的空间距离大于等于预置的第二距离阈值时,则确定该可用预存分词为异常分词;若该可用预存分词的前一个可用预存分词为异常分词,根据该可用预存分词与前一个最近正常分词的属性信息中的行政代码,判断该可用预存分词与前一个最近正常分词不具有行政上下级关系,且根据该可用预存分词与前一个最近正常分词的空间位置信息计算得到的空间距离大于等于预置的第二距离阈值时,则确定该可用预存分词为异常分词。
假设执行步骤208后,确定了待匹配结果1中C5(X52,Y52)为异常分词。待匹配结果2中不存在异常分词。则进行异常分词处理后,待匹配结果1变为:C1(X11,Y11)-C2(X21,Y21)-C3(X31,Y31)-C4(X41,Y41);待匹配结果2不变。
步骤209:针对异常分词处理后的每一条待匹配结果,判断该待匹配结果中的可用预存分词是否均包含在其他一条待匹配结果中,若是则删除该条待匹配结果。
其中,执行步骤209后,待匹配结果1中的可以预存分词均包含在了待匹配结果2中,因此将待匹配结果1删除,保留待匹配结果2。
步骤210:从保留的待匹配结果中选取一条作为待匹配地理地址的最终匹配结果。
执行步骤210后,待匹配结果2为唯一的一条保留的待匹配结果,因此待匹配结果2为最终匹配结果。
实施例三
当存在多条保留的待匹配结果时,以通过可信度评价,选择一条最终匹配结果为例,对本发明实施例中地理编码方法进行详细说明,如图3所示,包括步骤301-步骤312:
例如,预先在门址库中存储的信息如表8所示。
表8实施例三中门址库预存信息示例
ID | 名称 | 父ID | 行政代码 | X坐标 | Y坐标 | 地理层次 | 精度 |
1 | 北京市 | 0 | 110000 | 120.12 | 60.89 | 1 | 1 |
2 | 朝阳区 | 0 | 110105 | 120.12 | 60.89 | 2 | 2 |
3 | 建国路 | 0 | 110105 | 120.34 | 60.76 | 6 | 6 |
4 | 93 | 3 | 110105 | 120.23 | 60.56 | 21 | 8 |
5 | 万达广场 | 0 | 110105 | 120.23 | 60.56 | 31 | 8 |
6 | 万达广场 | 0 | 110105 | 119.21 | 59.00 | 31 | 8 |
7 | 万达广场 | 0 | 110105 | 119.40 | 59.01 | 31 | 8 |
8 | 10 | 5 | 110105 | 120.23 | 60.56 | 32 | 8 |
9 | 702 | 8 | 110105 | 120.23 | 60.56 | 41 | 9 |
10 | 10 | 6 | 110105 | 119.21 | 59.00 | 32 | 8 |
11 | 702 | 10 | 110105 | 119.21 | 59.00 | 41 | 9 |
… | … | … | … | … | … | … | … |
继续沿用实施例二中的待匹配地理地址“北京市朝阳区建国路93号院万达广场10号楼702室”为例,对该待匹配地理地址执行以下步骤:
步骤301:对待匹配地理地址进行分词,获得名称词:“北京市”、“朝阳区”、“建国路”、“万达广场”。
步骤302:对待匹配地理地址进行分词,获得数字词:“93号院”、“10号楼”、“702室”。
步骤303:获取预存分词:对于名称词,将该分词与预置的门址库中的预存分词进行匹配,将匹配成功的预存分词确定为与所述分词匹配的预存分词;对于数字词,将该分词与预置的门址库中的预存分词进行匹配,若匹配成功的预存分词仅为一个,则将该预存分词确定为与所述分词匹配的预存分词,若匹配成功的预存分词为多个,则将该多个预存分词的预置父ID与所述分词的前一个分词匹配的预存分词的ID进行比对,将比对一致的预存分词确定为与所述分词匹配的预存分词。
其中,执行步骤303后将各分词与表8中的门址库进行匹配后得到的预存分词如表9所示:其中,可以以预存分词的ID唯一表示该预存分词。从表8可知:分词“万达广场”对应3个预存分词;分词“10号楼”对应2个预存分词;分词“702室”对应2个预存分词。
表9实施例三中各分词预存分词结果表
分词 | 预存分词ID |
北京市 | 1 |
朝阳区 | 2 |
建国路 | 3 |
93号院 | 4 |
万达广场 | 5、6、7 |
10号楼 | 8、10 |
702室 | 9、11 |
步骤304:针对任一分词,根据所述分词的匹配的预存分词的属性信息中的地理层次,将与所述分词匹配的预存分词中属于同一地理层次的预存分词划分为一组。
步骤305:针对每一组预存分词,从预置的地理层次与第一距离阈值的对应关系中,获取与该组预存分词所属地理层次对应的第一距离阈值,并根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中。
步骤306:针对每个分词,针对所述分词对应的每一个聚类集合,根据该聚类集合包含的预存分词属性信息中的空间位置信息,计算几何中心位置点;并计算聚类集合中的每个预存分词距离所述几何中心位置点的空间距离,将空间距离最小的预存分词作为所述分词的可用预存分词。
其中,为便于理解,在选择可用预存分词后,对各分词进行编码,得到各分词及对应的可用预存分词的如表10所示:在表10中,以分词“C5”为例对表中的信息进行说明,该分词的两个可用预存分词分别表示为C5(X51,Y51)和C5(X52,Y52)。其中,(X51,Y51)表示可用预存分词C5(X51,Y51)的空间位置信息。
表10实施例三中各分词对应可用预存分词
分词 | 分词编码 | 可用预存分词 |
北京市 | C<sub>1</sub> | C<sub>1(X11,Y11)</sub> |
朝阳区 | C<sub>2</sub> | C<sub>2(X21,Y21)</sub> |
建国路 | C<sub>3</sub> | C<sub>3(X31,Y31)</sub> |
93号院 | C<sub>4</sub> | C<sub>4(X41,Y41)</sub> |
万达广场 | C<sub>5</sub> | C<sub>5(X51,Y51</sub>),C<sub>5(X52,Y52)</sub> |
10号楼 | C<sub>6</sub> | C<sub>6(X61,Y61</sub>),C<sub>6(X62,Y62)</sub> |
702室 | C<sub>7</sub> | C<sub>7(X71,Y71</sub>),C<sub>7(X72,Y72)</sub> |
步骤307:将可用预存分词按照其对应分词在待匹配地理位置中的语序进行组合,生成待匹配地理地址的待匹配结果。
其中,待匹配地理地址的待匹配结果有两个,分别为:
待匹配结果1:C1(X11,Y11)-C2(X21,Y21)-C3(X31,Y31)-C4(X41,Y41)-C5(X52,Y52)-C6(X62,Y62)-C7(X72,Y72),其中,由于C6(X62,Y62)的父ID为6即对应与聚类中心C5(X62,Y62)、C7(X72,Y72)的父ID为10即对应于C6,因此该待匹配结果中因存在C5(X52,Y52),则不会包括C6(X61,Y61)和C7(X71,Y71)两个可用预存分词。
待匹配结果2:C1(X11,Y11)-C2(X21,Y21)-C3(X31,Y31)-C4(X41,Y41)-C5(X51,Y51)-C6(X61,Y61)-C7(X71,Y71)。同上,该待匹配结果因包括C5(X51,Y51),则不会包括C6(X62,Y62)和C7(X72,Y72)这两个可用预存分词。
步骤308:异常分词处理:针对每一条待匹配结果,遍历待匹配结果中的可用预存分词,若该可用预存分词的前一个可用预存分词为正常分词,根据该可用预存分词与其前一个可用预存分词的属性信息中的行政代码,判断该可用预存分词与其前一可用预存分词不具有行政上下级关系,且根据该可用预存分词与其前一可用预存分词的空间位置信息计算得到的空间距离大于等于预置的第二距离阈值时,则确定该可用预存分词为异常分词;若该可用预存分词的前一个可用预存分词为异常分词,根据该可用预存分词与前一个最近正常分词的属性信息中的行政代码,判断该可用预存分词与前一个最近正常分词不具有行政上下级关系,且根据该可用预存分词与前一个最近正常分词的空间位置信息计算得到的空间距离大于等于预置的第二距离阈值时,则确定该可用预存分词为异常分词。
其中,假设待匹配结果1和待匹配结果2中均不存在异常分词。
步骤309:针对异常分词处理后的每一条待匹配结果,判断该待匹配结果中的可用预存分词是否均包含在其他一条待匹配结果中,若是则删除该条待匹配结果。
其中,执行步骤309后,得到的保留的待匹配结果仍为待匹配结果1和待匹配结果2。
步骤310:针对保留的每一条待匹配结果,根据预置的个体可信度评价公式,计算该条待匹配结果中每一个可用预存分词的个体可信度。
步骤311:根据每一个可用预存分词的个体可信度与预置的总体可信度评价公式,确定该条待匹配结果的总体可信度。
步骤312:从保留的待匹配结果中,选择总体可信度最高的待匹配结果作为待匹配地理地址的最终匹配结果。
本发明实施例通过可信度评价,自动选择总体可信度最高的待匹配结果作为最终匹配结果。从而减少人工参与选择的程度,实现自动化选择匹配结果的目的。
本发明实施例中还提供一种地理编码装置,如图4所示,为本发明实施例中地理编码装置的示意图,该装置包括:
分词模块401,用于对待匹配地理地址进行分词;
预存分词获取模块402,用于针对每个分词,将该分词与预置的门址库中的预存分词进行匹配,得到至少一个与该分词匹配的预存分词;
聚类模块403,用于根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中;
可用预存分词选择模块404,用于针对每个分词,从该分词对应的每一个聚类集合中,选取距离该聚类集合中预存分词的几何中心位置最近的一个预存分词作为该分词的可用预存分词;
最终匹配结果选择模块405,用于将可用预存分词按照其对应分词在待匹配地理位置中的语序进行组合,生成待匹配地理地址的待匹配结果,并从待匹配结果中选取一个待匹配结果作为最终匹配结果;
地理编码模块406,用于根据所述待匹配地理地址的最终匹配结果进行地理编码,得到地理编码结果。
其中,在一个实施例中,所述装置还包括地理层次分组模块407,如图5所示,其中:
地理层次分组模块407,用于在所述聚类模块403根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中之前,根据所述分词的匹配的预存分词的属性信息中的地理层次,将与所述分词匹配的预存分词中属于同一地理层次的预存分词划分为一组;
所述聚类模块403,用于针对每一组预存分词,从预置的地理层次与第一距离阈值的对应关系中,获取与该组预存分词所属地理层次对应的第一距离阈值,并执行所述根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中的步骤。
其中,在一个实施例中,所述可用预存分词选择模块404,具体包括:
中心位置点确定单元,用于针对所述分词对应的每一个聚类集合,根据该聚类集合包含的预存分词属性信息中的空间位置信息,计算几何中心位置点;
可用预存分词选择单元,用于计算聚类集合中的每个预存分词距离所述几何中心位置点的空间距离,将空间距离最小的预存分词作为所述分词的可用预存分词。
其中,在一个实施例中,所述最终匹配结果选择模块405,具体包括:
异常分词剔除单元,用于针对每一条待匹配结果,根据待匹配结果中的可用预存分词的属性信息中的行政代码、空间位置信息,确定待匹配结果中的可用预存分词是否为异常分词,若是则将该异常分词从待匹配结果中剔除;
待匹配结果剔除单元,用于针对异常分词处理后的每一条待匹配结果,判断该待匹配结果中的可用预存分词是否均包含在其他一条待匹配结果中,若是则删除该条待匹配结果;
最终匹配结果选择单元,用于从保留的待匹配结果中选取一条作为待匹配地理地址的最终匹配结果。
其中,在一个实施例中,所述异常分词剔除单元,具体包括:
异常分词确定子单元,用于遍历待匹配结果中的可用预存分词,若该可用预存分词的前一个可用预存分词为正常分词,根据该可用预存分词与其前一个可用预存分词的属性信息中的行政代码,判断该可用预存分词与其前一可用预存分词不具有行政上下级关系,且根据该可用预存分词与其前一可用预存分词的空间位置信息计算得到的空间距离大于等于预置的第二距离阈值时,则确定该可用预存分词为异常分词;若该可用预存分词的前一个可用预存分词为异常分词,根据该可用预存分词与前一个最近正常分词的属性信息中的行政代码,判断该可用预存分词与前一个最近正常分词不具有行政上下级关系,且根据该可用预存分词与前一个最近正常分词的空间位置信息计算得到的空间距离大于等于预置的第二距离阈值时,则确定该可用预存分词为异常分词;
剔除子单元,用于将异常分词确定子单元确定的异常分词从待匹配结果中剔除。
其中,在一个实施例中,所述最终匹配结果选择单元,具体包括:
个体可信度评价子单元,用于针对保留的每一条待匹配结果,根据预置的个体可信度评价公式,计算该条待匹配结果中每一个可用预存分词的个体可信度;
总体可信性评价子单元,用于根据每一个可用预存分词的个体可信度与预置的总体可信度评价公式,确定该条待匹配结果的总体可信度;
最终匹配结果选择子单元,用于从保留的待匹配结果中,选择总体可信度最高的待匹配结果作为待匹配地理地址的最终匹配结果;
其中,所述个体可信度评价公式为:
其中,Pi表示所述待匹配结果中的第i个可用预存分词的个体可信度;Z表示预设系数;m表示所述第i个可用预存分词所属的聚类集合中所包含的预存分词的总数量;n表示所述第i个可用预存分词对应的分词所匹配的预存分词的总数量;
其中,所述总体可信度评价公式为:
其中,Qj表示第j条待匹配结果的总体可信度;Pi表示所述第j条待匹配结果中第i个可用预存分词的个体可信度;λi表示第i个可用预存分词对应的地理层次的预设权重值;N表示第j条待匹配结果所包含的可用预存分词的总数量。
其中,在一个实施例中,所述预存分词获取模块402,具体用于:
当所述分词为名称词时,将该分词与预置的门址库中的预存分词进行匹配,将匹配成功的预存分词确定为与所述分词匹配的预存分词;
当所述分词为数字词时,将该分词与预置的门址库中的预存分词进行匹配,若匹配成功的预存分词仅为一个,则将该预存分词确定为与所述分词匹配的预存分词,若匹配成功的预存分词为多个,则将该多个预存分词的预置父ID与所述分词的前一个分词匹配的预存分词的ID进行比对,将比对一致的预存分词确定为与所述分词匹配的预存分词;其中,一条地址中按语序相邻的两个预存分词中前一预存分词的ID是后一预存分词的父ID。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (14)
1.一种地理编码方法,其特征在于,所述方法包括:
对待匹配地理地址进行分词;
针对每个分词,将该分词与预置的门址库中的预存分词进行匹配,得到至少一个与该分词匹配的预存分词;
根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中,空间距离为与待匹配地理地址的每一个分词匹配的预存分词之间的空间距离;
针对每个分词,从该分词对应的每一个聚类集合中,选取距离该聚类集合中预存分词的几何中心位置最近的一个预存分词作为该分词的可用预存分词;
将可用预存分词按照其对应分词在待匹配地理位置中的语序进行组合,生成待匹配地理地址的待匹配结果,并从待匹配结果中选取一个待匹配结果作为最终匹配结果;
根据所述待匹配地理地址的最终匹配结果进行地理编码,得到地理编码结果。
2.根据权利要求1所述的方法,其特征在于,所述根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中之前,还包括:
针对待匹配地理地址进行分词后的每个分词执行:
根据该分词的匹配的预存分词的属性信息中的地理层次,将与该分词匹配的预存分词中属于同一地理层次的预存分词划分为一组;
针对每一组预存分词,从预置的地理层次与第一距离阈值的对应关系中,获取与该组预存分词所属地理层次对应的第一距离阈值,并执行所述根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中的步骤。
3.根据权利要求1所述的方法,其特征在于,针对每个分词,从该分词对应的每一个聚类集合中,选取距离该聚类集合中预存分词的几何中心位置最近的一个预存分词作为该分词的可用预存分词,具体包括:
针对待匹配地理地址进行分词后的每个分词执行:
该分词对应的每一个聚类集合,根据该聚类集合包含的预存分词属性信息中的空间位置信息,计算几何中心位置点;
计算聚类集合中的每个预存分词距离所述几何中心位置点的空间距离,将空间距离最小的预存分词作为该分词的可用预存分词。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述从待匹配结果中选取一个待匹配结果作为最终匹配结果,具体包括:
针对每一条待匹配结果,根据待匹配结果中的可用预存分词的属性信息中的行政代码、空间位置信息,确定待匹配结果中的可用预存分词是否为异常分词,若是则将该异常分词从待匹配结果中剔除;
针对异常分词处理后的每一条待匹配结果,判断该待匹配结果中的可用预存分词是否均包含在其他一条待匹配结果中,若是则删除该条待匹配结果;
从保留的待匹配结果中选取一条作为待匹配地理地址的最终匹配结果。
5.根据权利要求4所述的方法,其特征在于,所述根据待匹配结果中的可用预存分词的属性信息中的行政代码、空间位置信息,确定待匹配结果中的可用预存分词是否为异常分词,具体包括:
遍历待匹配结果中的可用预存分词,若该可用预存分词的前一个可用预存分词为正常分词,根据该可用预存分词与其前一个可用预存分词的属性信息中的行政代码,判断该可用预存分词与其前一可用预存分词不具有行政上下级关系,且根据该可用预存分词与其前一可用预存分词的空间位置信息计算得到的空间距离大于等于预置的第二距离阈值时,则确定该可用预存分词为异常分词;
若该可用预存分词的前一个可用预存分词为异常分词,根据该可用预存分词与前一个最近正常分词的属性信息中的行政代码,判断该可用预存分词与前一个最近正常分词不具有行政上下级关系,且根据该可用预存分词与前一个最近正常分词的空间位置信息计算得到的空间距离大于等于预置的第二距离阈值时,则确定该可用预存分词为异常分词。
6.根据权利要求4所述的方法,其特征在于,从保留的待匹配结果中选取一条作为待匹配地理地址的最终匹配结果,具体包括:
针对保留的每一条待匹配结果,根据预置的个体可信度评价公式,计算该条待匹配结果中每一个可用预存分词的个体可信度;
根据每一个可用预存分词的个体可信度与预置的总体可信度评价公式,确定该条待匹配结果的总体可信度;
从保留的待匹配结果中,选择总体可信度最高的待匹配结果作为待匹配地理地址的最终匹配结果;
其中,所述个体可信度评价公式为:
其中,Pi表示所述待匹配结果中的第i个可用预存分词的个体可信度;Z表示预设系数;m表示所述第i个可用预存分词所属的聚类集合中所包含的预存分词的总数量;n表示所述第i个可用预存分词对应的分词所匹配的预存分词的总数量;
其中,所述总体可信度评价公式为:
其中,Qj表示第j条待匹配结果的总体可信度;Pi表示所述第j条待匹配结果中第i个可用预存分词的个体可信度;λi表示第i个可用预存分词对应的地理层次的预设权重值;N表示第j条待匹配结果所包含的可用预存分词的总数量。
7.根据权利要求1~3任一项所述的方法,其特征在于,所述针对每个分词,将该分词与预置的门址库中的预存分词进行匹配,得到至少一个与该分词匹配的预存分词,具体包括:
针对待匹配地理地址进行分词后的每个分词执行:
当该分词为名称词时,将该分词与预置的门址库中的预存分词进行匹配,将匹配成功的预存分词确定为与该分词匹配的预存分词;
当该分词为数字词时,将该分词与预置的门址库中的预存分词进行匹配,若匹配成功的预存分词仅为一个,则将该预存分词确定为与该分词匹配的预存分词,若匹配成功的预存分词为多个,则将该多个预存分词的预置父ID与该分词的前一个分词匹配的预存分词的ID进行比对,将比对一致的预存分词确定为与该分词匹配的预存分词;其中,一条地址中按语序相邻的两个预存分词中前一预存分词的ID是后一预存分词的父ID。
8.一种地理编码装置,其特征在于,所述装置包括:
分词模块,用于对待匹配地理地址进行分词;
预存分词获取模块,用于针对每个分词,将该分词与预置的门址库中的预存分词进行匹配,得到至少一个与该分词匹配的预存分词;
聚类模块,用于根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中,空间距离为与待匹配地理地址的每一个分词匹配的预存分词之间的空间距离;
可用预存分词选择模块,用于针对每个分词,从该分词对应的每一个聚类集合中,选取距离该聚类集合中预存分词的几何中心位置最近的一个预存分词作为该分词的可用预存分词;
最终匹配结果选择模块,用于将可用预存分词按照其对应分词在待匹配地理位置中的语序进行组合,生成待匹配地理地址的待匹配结果,并从待匹配结果中选取一个待匹配结果作为最终匹配结果;
地理编码模块,用于根据所述待匹配地理地址的最终匹配结果进行地理编码,得到地理编码结果。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
地理层次分组模块,用于在所述聚类模块根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中之前,针对待匹配地理地址进行分词后的每个分词执行:
根据该分词的匹配的预存分词的属性信息中的地理层次,将与该分词匹配的预存分词中属于同一地理层次的预存分词划分为一组;
所述聚类模块,用于针对每一组预存分词,从预置的地理层次与第一距离阈值的对应关系中,获取与该组预存分词所属地理层次对应的第一距离阈值,并执行所述根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中的步骤。
10.根据权利要求8所述的装置,其特征在于,所述可用预存分词选择模块,具体包括:
中心位置点确定单元,针对待匹配地理地址进行分词后的每个分词执行:
用于该分词对应的每一个聚类集合,根据该聚类集合包含的预存分词属性信息中的空间位置信息,计算几何中心位置点;
可用预存分词选择单元,用于计算聚类集合中的每个预存分词距离所述几何中心位置点的空间距离,将空间距离最小的预存分词作为该分词的可用预存分词。
11.根据权利要求8-10中任一项所述的装置,其特征在于,所述最终匹配结果选择模块,具体包括:
异常分词剔除单元,用于针对每一条待匹配结果,根据待匹配结果中的可用预存分词的属性信息中的行政代码、空间位置信息,确定待匹配结果中的可用预存分词是否为异常分词,若是则将该异常分词从待匹配结果中剔除;
待匹配结果剔除单元,用于针对异常分词处理后的每一条待匹配结果,判断该待匹配结果中的可用预存分词是否均包含在其他一条待匹配结果中,若是则删除该条待匹配结果;
最终匹配结果选择单元,用于从保留的待匹配结果中选取一条作为待匹配地理地址的最终匹配结果。
12.根据权利要求11所述的装置,其特征在于,所述异常分词剔除单元,具体包括:
异常分词确定子单元,用于遍历待匹配结果中的可用预存分词;若该可用预存分词的前一个可用预存分词为正常分词,根据该可用预存分词与其前一个可用预存分词的属性信息中的行政代码,判断该可用预存分词与其前一可用预存分词不具有行政上下级关系,且根据该可用预存分词与其前一可用预存分词的空间位置信息计算得到的空间距离大于等于预置的第二距离阈值时,则确定该可用预存分词为异常分词;若该可用预存分词的前一个可用预存分词为异常分词,根据该可用预存分词与前一个最近正常分词的属性信息中的行政代码,判断该可用预存分词与前一个最近正常分词不具有行政上下级关系,且根据该可用预存分词与前一个最近正常分词的空间位置信息计算得到的空间距离大于等于预置的第二距离阈值时,则确定该可用预存分词为异常分词;
剔除子单元,用于将异常分词确定子单元确定的异常分词从待匹配结果中剔除。
13.根据权利要求11所述的装置,其特征在于,所述最终匹配结果选择单元,具体包括:
个体可信度评价子单元,用于针对保留的每一条待匹配结果,根据预置的个体可信度评价公式,计算该条待匹配结果中每一个可用预存分词的个体可信度;
总体可信性评价子单元,用于根据每一个可用预存分词的个体可信度与预置的总体可信度评价公式,确定该条待匹配结果的总体可信度;
最终匹配结果选择子单元,用于从保留的待匹配结果中,选择总体可信度最高的待匹配结果作为待匹配地理地址的最终匹配结果;
其中,所述个体可信度评价公式为:
其中,Pi表示所述待匹配结果中的第i个可用预存分词的个体可信度;Z表示预设系数;m表示所述第i个可用预存分词所属的聚类集合中所包含的预存分词的总数量;n表示所述第i个可用预存分词对应的分词所匹配的预存分词的总数量;
其中,所述总体可信度评价公式为:
其中,Qj表示第j条待匹配结果的总体可信度;Pi表示所述第j条待匹配结果中第i个可用预存分词的个体可信度;λi表示第i个可用预存分词对应的地理层次的预设权重值;N表示第j条待匹配结果所包含的可用预存分词的总数量。
14.根据权利要求8-10任一项所述的装置,其特征在于,所述预存分词获取模块,具体用于:
针对待匹配地理地址进行分词后的每个分词执行:
当该分词为名称词时,将该分词与预置的门址库中的预存分词进行匹配,将匹配成功的预存分词确定为与该分词匹配的预存分词;
当该分词为数字词时,将该分词与预置的门址库中的预存分词进行匹配,若匹配成功的预存分词仅为一个,则将该预存分词确定为与该分词匹配的预存分词,若匹配成功的预存分词为多个,则将该多个预存分词的预置父ID与该分词的前一个分词匹配的预存分词的ID进行比对,将比对一致的预存分词确定为与该分词匹配的预存分词;其中,一条地址中按语序相邻的两个预存分词中前一预存分词的ID是后一预存分词的父ID。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410450111.2A CN105468632B (zh) | 2014-09-05 | 2014-09-05 | 一种地理编码方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410450111.2A CN105468632B (zh) | 2014-09-05 | 2014-09-05 | 一种地理编码方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105468632A CN105468632A (zh) | 2016-04-06 |
CN105468632B true CN105468632B (zh) | 2019-08-09 |
Family
ID=55606337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410450111.2A Active CN105468632B (zh) | 2014-09-05 | 2014-09-05 | 一种地理编码方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105468632B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273375A (zh) * | 2016-04-07 | 2017-10-20 | 中兴通讯股份有限公司 | 兴趣点数据显示方法及终端 |
CN108536695B (zh) * | 2017-03-02 | 2021-06-04 | 北京嘀嘀无限科技发展有限公司 | 一种地理位置信息点的聚合方法以及装置 |
CN108304423B (zh) * | 2017-03-29 | 2021-09-28 | 腾讯科技(深圳)有限公司 | 一种信息识别方法及装置 |
CN109165273B (zh) * | 2018-08-24 | 2021-10-26 | 安徽讯飞智能科技有限公司 | 一种面向大数据环境的通用中文地址匹配方法 |
CN110348730A (zh) * | 2019-07-04 | 2019-10-18 | 创新奇智(南京)科技有限公司 | 风险用户判断方法及其系统、电子设备 |
CN111310072B (zh) * | 2020-01-17 | 2021-10-26 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置和计算机可读存储介质 |
CN112069276B (zh) * | 2020-08-31 | 2024-03-08 | 平安科技(深圳)有限公司 | 地址编码方法、装置、计算机设备及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350012A (zh) * | 2007-07-18 | 2009-01-21 | 北京灵图软件技术有限公司 | 一种地址匹配的方法和系统 |
CN102169498A (zh) * | 2011-04-14 | 2011-08-31 | 中国测绘科学研究院 | 一种地址模型的构建方法,以及地址匹配的方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1567956A4 (en) * | 2002-11-08 | 2007-12-05 | Dun & Bradstreet Inc | SYSTEM AND METHOD FOR BROWSING AND COMPARING DATA BANKS |
-
2014
- 2014-09-05 CN CN201410450111.2A patent/CN105468632B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350012A (zh) * | 2007-07-18 | 2009-01-21 | 北京灵图软件技术有限公司 | 一种地址匹配的方法和系统 |
CN102169498A (zh) * | 2011-04-14 | 2011-08-31 | 中国测绘科学研究院 | 一种地址模型的构建方法,以及地址匹配的方法和系统 |
Non-Patent Citations (3)
Title |
---|
Assessing the Gertainty of Locations Produced by an Address Geocoding System;Clodoveu A.Davis etal.;《Geoinformatica》;20070331;第11卷(第1期);第103-129页 * |
一种基于地址分词的自动地理编码算法;马照亭等;《测绘通报》;20111231;第2011年卷(第2期);第59-62页 * |
一种基于规则的模糊中文地址分词匹配方法;程昌秀等;《地理与地理信息科学》;20110531;第27卷(第3期);第26-29页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105468632A (zh) | 2016-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105468632B (zh) | 一种地理编码方法及装置 | |
CN107547633B (zh) | 一种用户常驻点的处理方法、装置和存储介质 | |
CN106488400B (zh) | 生成地理围栏的方法及装置 | |
CN104991924B (zh) | 用于确定新供应点的地址的方法和装置 | |
CN109615122B (zh) | 配送范围的生成方法、装置、电子设备和存储介质 | |
CN108540929B (zh) | 基于rssi信号强度排序的室内指纹定位方法 | |
CN112861972B (zh) | 一种展业区域的选址方法、装置、计算机设备和介质 | |
CN106651603A (zh) | 基于位置服务的风险评估方法及装置 | |
CN108304427A (zh) | 一种用户客群分类方法和装置 | |
CN109446186A (zh) | 一种基于移动轨迹的社会关系判断方法 | |
CN104850649B (zh) | 一种在地图上进行兴趣点采样的方法及系统 | |
CN105227618B (zh) | 一种通信站点位置信息处理方法及系统 | |
CN108540988A (zh) | 一种场景划分方法及装置 | |
CN110020144A (zh) | 一种推荐模型建立方法及其设备、存储介质、服务器 | |
CN104636457B (zh) | 一种位置搜索认知的方法及装置 | |
CN108345609A (zh) | 一种处理poi信息的方法和装置 | |
CN106488401B (zh) | 生成无缝相邻的地理围栏的方法及装置 | |
CN103218419B (zh) | 网络标签聚类方法和系统 | |
CN110807546A (zh) | 社区网格人口变化预警方法及系统 | |
WO2017000817A1 (zh) | 获取数据之间的匹配关系的方法和装置 | |
Dawod et al. | GIS-based public services analysis based on municipal election areas: A methodological approach for the city of Makkah, Saudi Arabia | |
CN109918468A (zh) | 基于墨卡托投影的物联网设备位置数据区域筛选方法 | |
CN117172633A (zh) | 一种面向工业互联网平台的制造服务子图仿真方法及系统 | |
Wu et al. | Urban functional area recognition based on unbalanced clustering | |
CN104156475B (zh) | 地理信息读取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200421 Address after: 310012 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Patentee after: Alibaba (China) Co.,Ltd. Address before: 102200, No. 8, No., Changsheng Road, Changping District science and Technology Park, Beijing, China. 1-5 Patentee before: AUTONAVI SOFTWARE Co.,Ltd. |
|
TR01 | Transfer of patent right |