CN103514235A

CN103514235A - 一种增量码库的建立方法和装置

Info

Publication number: CN103514235A
Application number: CN201210227185.0A
Authority: CN
Inventors: 林锡通; 段建国
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-06-30
Filing date: 2012-06-30
Publication date: 2014-01-15
Anticipated expiration: 2032-06-30
Also published as: CN103514235B

Abstract

本发明提供了一种增量码库的建立方法和装置，该方法包括：利用获取的更新数据与历史增量数据库中的历史增量数据进行比较，将关键属性相异的更新数据确定为非冗余数据；提取所述非冗余数据中描述地理对象的信息，添加到候选码库中；对所述候选码库中各候选数据的地理对象名称和空间位置进行判断，将描述同一个地理对象且空间位置在预设阈值范围内的多个候选数据归为同一个判重组；对同一个判重组内的多个候选数据，根据各候选数据的数据来源的可信度计算各候选数据的权值；将权值最高的候选数据作为该判重组的码库数据，构成增量码库。相较于现有技术，本发明能提高数据挖掘处理的效率，通过对多个候选数据进行判重和校验，提高准确性。

Description

一种增量码库的建立方法和装置

【技术领域】

本发明涉及地理信息技术领域，特别涉及一种增量码库的建立方法和装置。

【背景技术】

码库，又称为地理编码参考数据库（geocode reference dataset），是为识别点、线、面的位置和属性而设置的编码数据库，它将全部实体按照预先拟定的分类系统，选择最适宜的量化方法，按实体的属性特征和集合坐标的数据结构记录在计算机的储存设备上。在进行地理编码时，通常是根据各数据点的地理坐标或空间地址（如省市、街区、楼层、房间等），将数据库中的数据与其在地图上相对应的图形元素一一对应，即给每个数据赋予X和Y坐标值（经度/纬度值），从而确定该数据标在图上的位置的过程。

随着基于位置的定位技术的不断发展，特别是导航和移动设备的普及，用户对地理空间数据的准确性、完整性和实时性提出了更高的要求。因此，空间数据提供商会对地理空间数据库进行持续不断的更新，并向数据用户分发更新信息，以提高地理空间数据的实时性。现有空间数据提供商的更新服务可分为批量式更新和增量式更新两种方式：批量式更新向用户提供新版数据的全部内容，这种更新方式存在传输效率低、用户端更新困难等诸多问题；增量式更新只向客户提供发生变化的信息，这种更新方式更加科学，是一种更有效的更新信息发布方式。

当空间数据提供商发布更新信息后，空间数据的用户也需要相应地将更新信息挖掘成对应的码库信息。无论空间数据提供商提供的是批量式更新数据还是增量式更新数据，现有的码库挖掘方法均是通过对所有数据进行一次性的挖掘，即全量挖掘，以生成地理编码数据。这种全量挖掘的方式首先是效率低，每次有数据更新都需要重新对所有数据运行一遍挖掘流程；其次是无法继承人工修改的数据，也就是上次纠正的数据会在下一次全量挖掘过程中需要重新进行人工修改，导致浪费人力物力。

【发明内容】

有鉴于此，本发明提供了一种增量码库的建立方法和装置，能够有效区分更新数据中的冗余数据，利用非冗余数据形成增量码库，提高了数据处理的效率，能对人工修改的结果进行继承，节省资源，并通过对多个候选数据进行判重和校验，提高了数据的准确性。

具体技术方案如下：

一种增量码库的建立方法，该方法包括以下步骤：

S1、获取数据图的更新数据；

S2、利用所获取的更新数据与历史增量数据库中的历史增量数据进行比较，将关键属性相异的更新数据确定为非冗余数据；

S3、提取所述非冗余数据中描述地理对象的信息，添加到候选码库中；

S4、对所述候选码库中各候选数据的地理对象名称和空间位置进行判断，将描述同一个地理对象且空间位置在预设阈值范围内的多个候选数据归为同一个判重组；

S5、对同一个判重组内的多个候选数据，根据各候选数据的数据来源的可信度计算各候选数据的权值；

S6、将权值最高的候选数据作为该判重组的码库数据，构成增量码库。

根据本发明一优选实施例，在所述步骤S 1之后，还包括：

对所获取的更新数据的格式进行预处理，转换成预定义的数据格式。

根据本发明一优选实施例，所述关键属性包括：

数据的名称、地址、数据来源、可信度和空间位置；

所述关键属性相异的更新数据是指与所述历史增量数据相比，至少有一种关键属性相异的数据。

根据本发明一优选实施例，在所述步骤S2之后，还包括：

将所确定的非冗余数据添加到所述历史增量数据库中。

根据本发明一优选实施例，所述步骤S3包括：

步骤S3_1、对所述非冗余数据的名称或地址进行分词；

步骤S3_2、从名称或地址的分词结果中按照预定义的规则进行规范化处理后，得到描述地理对象的地理对象名称；

步骤S3_3、关联确定所述地理对象名称对应的属性信息，组成一条候选数据，添加到候选码库中；

其中，所述对应的属性信息至少包括：该地理对象的空间位置。

根据本发明一优选实施例，所述关联确定所述地理对象名称对应的属性信息，包括：

将所述地理对象名称所在的非冗余数据中包含的属性信息，确定为该地理对象名称所在的候选数据对应的属性信息；

根据所述空间位置，对所述候选数据进行最小外接矩形计算，预估所述候选数据的范围大小。

根据本发明一优选实施例，在所述根据各候选数据的数据来源的可信度计算各候选数据的数据权值之前，还包括：

判断所述判重组中的候选数据是否正确。

根据本发明一优选实施例，所述判断所述判重组中的候选数据是否正确，具体包括：

对提供数据来源的各个数据提供商提供的数据质量进行评估，确定可信来源的数据提供商；

判断同一个判重组中是否有可信来源的数据，如果有，则认为该判重组中的数据正确，否则，计算判重组中各个候选数据的数据权值，如果判重组中的数据权值不小于预设阈值，则认为该判重组中的数据正确，否则，认为该判重组中的数据错误。

根据本发明一优选实施例，所述根据各候选数据的数据来源的可信度计算各候选数据的数据权值，具体包括：

根据各候选数据的数据来源确定各个候选数据的可信度；

对提供数据来源的各个数据提供商提供的数据质量进行评估，将可信来源的数据作为校验数据；

统计各候选数据关联到的校验数据的数量；

利用各个候选数据和关联到的校验数据的数量，计算得到各候选数据的数据权值。

根据本发明一优选实施例，所述将数据权值最高的候选数据作为该判重组的码库数据，具体包括：

将数据权值最高的候选数据中的地理对象名称和空间位置作为该判重组的码库数据对应的属性值；

根据预设的类别优先级配置文件，从该判重组中所有的类别中确定出该判重组的码库数据的类别；

对于类别为道路类的码库数据，选择包含点最多的候选数据的几何形状作为对应的属性值，并对该判重组中所有的最小外接矩形求并集，得到的结果作为该码库数据的最小外接矩形的属性值，其余的属性对应选择该判重组中数据权值最高的属性值作为对应的属性值；

对于类别为非道路类的码库数据，所有属性均对应选择数据权值最高的属性值作为对应的属性值。

根据本发明一优选实施例，所述步骤S4之前，还包括：

将增量码库中已有的码库数据添加到所述候选码库中。

一种增量码库的建立装置，该装置包括：

数据获取模块，用于获取数据图的更新数据；

同源比对模块，用于利用所获取的更新数据与历史增量数据库中的历史增量数据进行比较，将关键属性相异的更新数据确定为非冗余数据；

地理对象提取模块，用于提取所述非冗余数据中描述地理对象的信息，添加到候选码库中；

判重分类模块，用于对所述候选码库中各候选数据的地理对象名称和空间位置进行判断，将描述同一个地理对象且空间位置在预设阈值范围内的多个候选数据归为同一个判重组；

权值计算模块，用于对同一个判重组内的多个候选数据，根据各候选数据的数据来源的可信度计算各候选数据的权值；

整合模块，用于将权值最高的候选数据作为该判重组的码库数据，构成增量码库。

根据本发明一优选实施例，该装置还包括：

预处理模块，用于对所述数据获取模块获取的更新数据的格式进行预处理，转换成预定义的数据格式。

根据本发明一优选实施例，所述关键属性包括：

数据的名称、地址、数据来源、可信度和空间位置；

根据本发明一优选实施例，所述同源比对模块在确定非冗余数据之后，还包括：

将所确定的非冗余数据添加到所述历史增量数据库中。

根据本发明一优选实施例，所述地理对象提取模块，包括：

分词单元，用于对所述非冗余数据的名称或地址进行分词；

规范化单元，用于从名称或地址的分词结果中按照预定义的规则进行规范化处理后，得到描述地理对象的地理对象名称；

属性关联单元，用于关联确定所述地理对象名称对应的属性信息，组成一条候选数据，添加到候选码库中；

根据本发明一优选实施例，所述属性关联单元关联确定所述地理对象名称对应的属性信息，具体配置包括：

根据本发明一优选实施例，该装置还包括：

校验模块，用于判断所述判重分类模块得到的判重组中的候选数据是否正确；

将判断正确的候选数据提供给所述权值计算模块。

根据本发明一优选实施例，所述校验模块判断所述判重组中的候选数据是否正确，具体配置为：

根据本发明一优选实施例，所述权值计算模块根据各候选数据的数据来源的可信度计算各候选数据的数据权值，具体配置为：

根据各候选数据的数据来源确定各个候选数据的可信度；

统计各候选数据关联到的校验数据的数量；

根据本发明一优选实施例，所述整合模块将数据权值最高的候选数据作为该判重组的码库数据，具体配置为：

根据本发明一优选实施例，所述判重分类模块在进行判重之前，还包括：

将增量码库中已有的码库数据添加到所述候选码库中。

由以上技术方案可以看出，本发明提供的增量码库的建立方法和装置，利用记录的历史增量数据库，能有效区分更新数据中的冗余数据，达到同源继承的目的，从而利用非冗余数据形成增量数据库，提高了效率，对输入的更新数据进行统一的格式预处理，能对人工修改的结果进行继承，节省资源，并通过对多个候选数据进行判重和校验，提高了码库数据的准确性。

【附图说明】

图1为本发明实施例一提供的增量码库的建立方法流程图；

图2为本发明实施例一提供的最小外接矩形的计算方法示意图；

图3为本发明实施例二提供的增量码库的建立方法流程图；

图4为本发明实施例三提供的增量码库的建立装置示意图；

图5为本发明实施例四提供的增量码库的建立装置示意图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例一、

图1是本实施例提供的增量码库的建立方法流程图，如图1所示，该方法包括：

步骤S101、获取数据图的更新数据。

数据图的更新数据一般是由数据提供商提供，通常包括：名称、类别、地址、数据提供商（Content Provider，CP）、空间位置或几何形状等属性信息。或者，也可以是经过人工校正后的更新数据。

其中，空间位置通常以X和Y坐标值表示，几何形状通常以点集合或折线集合表示。

如下表1和表2所示，是由数据提供商NavInfo和MapBar提供的部分更新数据的示意。

表1

名称	类别	地址	数据提供商	X	Y
						百度大厦	大厦	NavInfo	12947504.87	4846455.968
百度	公司		NavInfo	12947504.87	4846455.968

表2

步骤S102、利用所获取的更新数据与历史增量数据库中的历史增量数据进行比较，将关键属性相异的更新数据确定为非冗余数据。

历史增量数据库是对所有获取的更新数据的累积，在初次获取更新数据时，历史增量数据库为空，因而将初次获取的更新数据全部添加至历史增量数据库中，以便判断后续的更新数据是否为冗余数据，将关键属性相同的更新数据过滤掉，进行同源继承。

其中，关键属性包括：数据的名称、地址、数据来源、可信度和空间位置等属性。关键属性相异的更新数据是指与所述历史增量数据相比，至少有一种关键属性相异的数据。

如果一条更新数据的关键属性均与历史增量数据中某一数据的关键属性对应相同，则认为该条更新数据为冗余数据，予以删除。

步骤S103、提取所述非冗余数据中描述地理对象的信息，添加到候选码库中。

其中，所述对应的属性信息包括：该地理对象的空间位置、类别、数据提供商和可信度等信息。该些信息的提取过程，具体包括：

步骤S103_1、对所述非冗余数据的名称或地址进行分词。

采用现有分词方法对非冗余数据中的名称或地址进行分词。例如，“北京市肯德基中关村店”分词结果为“北京市/肯德基/中关村店”。

步骤S103_2、从名称或地址的分词结果中按照预定义的规则进行规范化处理后，得到描述地理对象的地理对象名称。

进行规范化的目的在于去除掉一些在进行地址匹配（geocoding）时不需要用到的数据，使得各地理对象的名称简练准确。地址匹配是利用码库数据中的地址名称直接匹配或插值后，生成地图坐标的过程，即打点过程。用户的打点需求（即查询需求query）中的地址名称一般不包含分支机构、行政区划等信息，例如搜索“中关村肯德基”。对此需求进行分词处理后，利用码库数据进行地址匹配，码库中会有“中关村”这样一个区域，地址匹配通过在该区域内匹配“肯德基”进行打点，这样根据关联信息也可以召回该地理对象的相关位置信息。因而，码库中地理对象的名称可以去掉分支机构、行政区划等无用信息。

根据上述打点规则预先设定对应规范化的预定义规则，从名称或地址中提取出道路名称、门牌等关键信息，去除掉分支机构、行政区划等无用信息。例如，“海淀区上地十街10号”，提取出“上地十街”和“10号”，建立关联，可以将“上地十街”存入基本码库，“10号”存入详情码库并且保存“上地十街”的数据名称。

根据预定义的规则和规范化后的分词结果确定该地理对象的类别。例如，将“上地十街”确定为道路类别。

步骤S103_3、关联确定所述地理对象名称对应的属性信息，组成一条候选数据，添加到候选码库中。

其中，关联确定所述地理对象名称对应的属性信息，包括：

将所述地理对象名称所在的非冗余数据中包含的属性信息，确定为该地理对象名称所在的候选数据对应的属性信息。

例如，从表2“百度大厦”的地址信息中可以提取到描述地理对象的名称“上地十街”，将该名称及“百度大厦”这条更新信息中的数据提供商、空间位置等信息对应到该名称“上地十街”对应的属性信息下，构成一条候选数据。

同理，还可以从表2“首创空间”的地址信息中提取到“东北旺”，并关联到对应的属性信息，构成另一条候选数据。

根据所述空间位置，对所述候选数据进行最小外接矩形（MBR）计算，预估所述候选数据的范围大小。

图2为本实施例提供的最小外接矩形的计算方法示意图，如图2所示，最小外接矩形的计算方法具体包括：

将所述候选数据的空间位置设为初始中心点，如图2中心区域的三角形。

扫描出与该初始中心点为距离d范围内的点（如图中的圆点）放入点集合中，其中d为预设距离，可以根据不同的类别配置一个距离d的大小，比如“大厦”类别是100米，“小区”是500米等。

利用距离为d的两条扫描线sx和ex构建x轴方向的扫描窗口。

利用距离为d的两条扫描线sy和ey构建y轴方向的扫描窗口，与在x轴方向的扫描窗口划定的区域范围构成一个矩形区域，统计落入该矩形区域中点的个数。

移动x轴方向的扫描窗口或y轴方向的扫描窗口，枚举出矩形区域，将矩形区域中点的个数最多且该矩形区域的中心点与所述初始中心点最靠近的矩形区域作为该数据最小外接矩形。

最后，通常采用最终确定的矩形区域的两个对角点的坐标来表示最小外接矩形的区域。

对所有地理对象关联对应属性信息并计算完最小外接矩形后，得到候选数据如下表3所示，添加到候选码库中。

表3

名称	类别	数据提供商	可信度	X	Y	最小外接矩形
							百度大厦	大厦	NavInfo	9	12947504.87	4846455.968	......
百度	公司	NavInfo	9	12947504.87	4846455.968	......
							百度大厦	大厦	MapBar	8	12947481.16	4846457.556	......
首创空间	大厦	MapBar	8	12946719.61	4846267.929	......
							上地十街	道路	MapBar	8	12947481.16	4846457.556	......
东北旺	区域	MapBar	8	12946719.61	4846267.929	......

步骤S104、对所述候选码库中各候选数据的地理对象名称和空间位置进行判断，将描述同一个地理对象且空间位置在预设阈值范围内的多个候选数据归为同一个判重组。

所述预设阈值范围可以根据实际情形设定，针对不同的类别，设定不同的阈值范围。而后，根据空间位置和最小外接矩形判断各候选数据的范围是否在预设阈值范围内。

选取名称相同且空间位置相近的候选数据，并认为该些候选数据是描述同一个地理对象的数据，归为同一个判重组。从上述表3中选出一个判重组，如下表4所示。

表4

名称

类别

数据提供商

可信度

X

Y

最小外接矩形

百度大厦

大厦

NavInfo

9

12947504.87

4846455.968

......

百度大厦

大厦

MapBar

8

12947481.16

4846457.556

......

对于地理对象名称或空间位置信息不同的其他候选数据，可以认为单一个的候选数据为一个判重组，进行后续处理。

步骤S105、对同一个判重组内的多个候选数据，根据各候选数据的数据来源的可信度计算各候选数据的权值。具体包括：

根据各候选数据的数据来源确定各个候选数据的可信度。可以根据实际经验预设设定各数据提供商的可信度，同一个数据提供商具有相同的可信度。

对提供数据来源的各个数据提供商提供的数据质量进行评估，将可信来源的数据作为校验数据。这一评估过程通常是预先进行的，经过对一定数量的数据进行评估，形成一份所有已有可信数据和人工数据组成的校验数据库，以便于对没有可信数据的判重组可能可以在校验数据文件中找到相关信息，达到校验效果。

统计各候选数据关联到的校验数据的数量。例如，名称为“百度大厦”的候选数据，假设提供的都不是可信的数据提供商，即当没有可信数据来源时，在将该候选数据与校验数据库进行匹配关联，如果在校验数据库中可以提取到“名称：百家尧大酒店地址：辉煌国际大厦（百度大厦斜对面）1楼”的数据信息，从该地址中可以找到“百度大厦”，并且两者的空间位置（X/Y坐标值）在一定距离内，则该“百家尧大酒店”是“百度大厦”关联到的一条校验数据，关联到的校验数据越多，说明该“百度大厦”的候选数据越为可信。

利用各个候选数据和关联到的校验数据的数量，计算得到各候选数据的数据权值。具体可以但不限于采用：

数据权值=数据可信度+数据可以关联到的校验数据数量

即，将判重组中的各个数据可信度加上该数据可以关联到的校验数据数量的数值之和作为各候选数据的数据权值。比如，一条数据可信度为7，可以关联到5条校验数据，则总权值为7+5=12。

步骤S106、将权值最高的候选数据作为该判重组的码库数据，构成增量码库。具体包括：

将数据权值最高的候选数据作为基准数据中，将基准数据中的地理对象名称和空间位置作为该判重组的码库数据对应的属性值。

根据预设的类别优先级配置文件，从该判重组中所有的类别中确定出该判重组的码库数据的类别，选择优先级最高的类别。

对于类别为道路类的码库数据，选择包含点最多的候选数据的几何形状作为对应的属性值，并对该判重组中所有的最小外接矩形求并集，得到的结果作为该码库数据的最小外接矩形的属性值，其余的属性对应选择该判重组中数据权值最高的属性值作为对应的属性值。

码库数据的内容包括：名称、类别、空间位置、数据提供商、可信度、几何形状和最小外接矩形等多种属性，可以但不限于采用如下表5所示的形式进行存储：

表5

名称	类别	数据提供商	可信度	X	Y	最小外接矩形
							百度大厦	大厦	NavInfo	9	12947504.87	4846455.968	......
百度	公司	NavInfo	9	12947504.87	4846455.968	......
							首创空间	大厦	MapBar	8	12946719.61	4846267.929	......
上地十街	道路	MapBar	8	12947481.16	4846457.556	......
							东北旺	区域	MapBar	8	12946719.61	4846267.929	......

表5是对表1和表2在历史增量数据库为空的情形下，经过上述步骤的处理后得到的码库数据的最终结果。

实施例二、

图3是本实施例提供的增量码库的建立方法流程图，如图3所示，包括：

步骤S301、获取数据图的更新数据。

本步骤与实施例一中的步骤S101相同。

在本实施例中，以获取到如下表6、表7和表8所示的由数据提供商NavInfo、MapBar和人工数据提供的更新数据进行说明，且以实施例一中的数据为历史数据。

表6

表7

表8

步骤S302、对所获取的更新数据的格式进行预处理，转换成预定义的数据格式。

由于不同数据提供商提供的数据在文件格式、数据字段、字段含义和取值范围有所差异。例如，有些数据提供商以midmif文件格式提供数据，数据的文本信息和空间信息分在两个文件；而有些数据提供商则直接提供txt文件。另外，一般数据提供商对数据的分类编号和体系是不同的，例如，有些数据提供商的类别“酒店”分类编号是“5080”而有些则是“0301”，因而，有必要对这些数据进行预处理。

将数据格式转换成预定义的数据格式，通常会对文本字段（名称地址）进行大小写转换、半角字符转全角字符，再将各类别转换为统一的类别表示。

通常，在这个过程中，还会对根据数据提供商的不同为各个更新数据打上一个可信度评分。通常情况下，人工数据的可信度最高。

最后，将更新数据的各个属性按照固定格式输出。

步骤S303、利用预处理后的更新数据与历史增量数据库中的历史增量数据进行比较，将关键属性相异的更新数据确定为非冗余数据。

本步骤与实施例一中步骤S102相同。历史增量数据库为下表9所示：

表9

经过本步骤处理后，得到非冗余数据为下表10所示：

表10

步骤S304、将所确定的非冗余数据添加到所述历史增量数据库中。

即，将上表10的内容添加至表9中。

步骤S305、提取所述非冗余数据中描述地理对象的信息，添加到候选码库中。

本步骤与实施例一中步骤S103相同，于此不再赘述。

步骤S306、将增量码库中已有的码库数据添加到所述候选码库中。

候选码库中的数据可以进行累积，也可不进行累积。本步骤是针对候选码库数据不累积的情形，而对于累积的情形可以不需要执行本步骤。

由于增量码库数据实际为历史权值最高的候选数据，只需要将其与新增的候选数据相比较即可判断是否要生成新的码库数据，可以提高效率。

此时，候选码库中的数据如下表11所示：

表11

名称	类别	数据提供商	X	Y	最小外接矩形
						百度大厦	大厦	NavInfo	12947504.87	4846455.968	......
百度	公司	NavInfo	12947504.87	4846455.968	......
						首创空间	大厦	MapBar	12946719.61	4846267.929	......
上地十街	道路	MapBar	12947481.16	4846457.556	......
						东北旺	区域	MapBar	12946719.61	4846267.929	......
首创空间	大厦	NavInfo	12946719.64	4846267.931	......
						百度烤肉八里桥店	中餐	NavInfo	12985469	4827209.698	......
中关村软件园	区域	NavInfo	12946719.64	4846267.931	......
						百度烤肉八里桥店	中餐	MapBar	12985464.21	4827207.673	......
城关镇	乡镇	MapBar	12985464.21	4827207.673	......
						百度大厦	大厦	Manual	12947481	4846457	......

步骤S307、对所述候选码库中各候选数据的地理对象名称和空间位置进行判断，将描述同一个地理对象且空间位置在预设阈值范围内的多个候选数据归为同一个判重组。

本步骤与实施例一中步骤S104相同，于此不再赘述。

步骤S308、判断所述判重组中的候选数据是否正确，如果是，则进入步骤S309，否则，进入步骤S311，直接删除该判重组中的所有候选数据，以保证码库数据的正确性。

各个数据提供商的数据质量是不同的，通常会预先对一定数量的数据进行质量评估，将较为可信的数据作为校验数据，形成一份所有已有可信数据和人工数据组成的校验数据库。

在校验时，如果判重组中存在可信来源的数据，就认为该判重组正确；如果不存在可信来源数据，但是判重组中的各个数据可信度加上该数据可以关联到的校验数据数量的数值之和大于设定阈值，也认为该判重组正确；其他情况，则该判重组是错误的。例如，一条数据可信度为7，关联到5条校验数据，则总权值为7+5=12大于设定阈值10，认为该判重组正确。

同理，对于单一个候选数据为一个判重组的数据，进行判断是否为可信来源数据，或者关联到的校验数据的数量是否达到预设阈值，如果否，则删除该候选数据。

步骤S309、对同一个判重组内的多个候选数据，根据各候选数据的数据来源的可信度计算各候选数据的权值。

本步骤与实施例一中步骤S105相同。

步骤S310、将权值最高的候选数据作为该判重组的码库数据，构成增量码库。

本步骤与实施例一中步骤S106相同，如果新增的候选数据的数据权重大于原增量码库中对应数据的权重，则将新增的候选数据覆盖于对应数据上。

通常情况下，在整合时如果发现有人工数据，则认为该数据较为可信，进行优先选择，而后增量码库中对应的数据被人工数据覆盖。

最后结果，如下表12所示：

表12

名称	类别	数据提供商	X	Y	最小外接矩形
						百度大厦	大厦	Manual	12947481	4846457	......
百度	公司	NavInfo	12947504.87	4846455.968	......
						首创空间	大厦	NavInfo	12946719.64	4846267.931	......
上地十街	道路	MapBar	12947481.16	4846457.556	......
						东北旺	区域	MapBar	12946719.61	4846267.929	......
百度烤肉八里桥店	中餐	NavInfo	12985469	4827209.698	......
						城关镇	乡镇	MapBar	12985464.21	4827207.673	......
中关村软件园	区域	NavInfo	12946719.64	4846267.931	......

以上是对本发明所提供的方法进行的详细描述，下面对本发明提供的增量码库的建立装置进行详细描述。

实施例三

图4是本实施例提供的增量码库的建立装置示意图。如图4所示，该装置包括：

数据获取模块401，用于获取数据图的更新数据。

数据图的更新数据一般是由数据提供商提供，通常包括：名称、类别、地址、数据提供商、空间位置或几何形状等属性信息。或者，也可以是经过人工校正后的更新数据。

如表1和表2所示，是由数据提供商NavInfo和MapBar提供的部分更新数据的示意。

同源比对模块402，用于利用数据获取模块401获取的更新数据与历史增量数据库中的历史增量数据进行比较，将关键属性相异的更新数据确定为非冗余数据。

地理对象提取模块403，用于提取所述非冗余数据中描述地理对象的信息，添加到候选码库中。

其中，所述对应的属性信息包括：该地理对象的空间位置、类别、数据提供商和可信度等信息。地理对象提取模块403具体包括：

分词单元，用于对所述非冗余数据的名称或地址进行分词。

规范化单元，用于从名称或地址的分词结果中按照预定义的规则进行规范化处理后，得到描述地理对象的地理对象名称。

属性关联单元，用于关联确定所述地理对象名称对应的属性信息，组成一条候选数据，添加到候选码库中。

属性关联单元关联确定地理对象名称对应的属性信息，具体配置包括：

属性关联单元根据所述空间位置，对所述候选数据进行最小外接矩形（MBR）计算，预估所述候选数据的范围大小。计算方法具体包括：

利用距离为d的两条扫描线sx和ex构建x轴方向的扫描窗口。

对所有地理对象关联对应属性信息并计算完最小外接矩形后，得到候选数据如表3所示，添加到候选码库中。

判重分类模块404，用于对所述候选码库中各候选数据的地理对象名称和空间位置进行判断，将描述同一个地理对象且空间位置在预设阈值范围内的多个候选数据归为同一个判重组。

选取名称相同且空间位置相近的候选数据，并认为该些候选数据是描述同一个地理对象的数据，归为同一个判重组。从表3中选出一个判重组，如表4所示。

对于地理对象名称或空间位置信息不同的其他候选数据，可以认为单一个的候选数据为一个判重组，提供给后续模块进行处理。

权值计算模块405，用于对同一个判重组内的多个候选数据，根据各候选数据的数据来源的可信度计算各候选数据的权值。具体配置为：

权值计算模块405根据各候选数据的数据来源确定各个候选数据的可信度。可以根据实际经验预设设定各数据提供商的可信度，同一个数据提供商具有相同的可信度。

权值计算模块405利用各个候选数据和关联到的校验数据的数量，计算得到各候选数据的数据权值。具体可以但不限于采用：

数据权值=数据可信度+数据可以关联到的校验数据数量

整合模块406，用于将权值最高的候选数据作为该判重组的码库数据，构成增量码库。具体配置包括：

整合模块406将数据权值最高的候选数据作为基准数据中，将基准数据中的地理对象名称和空间位置作为该判重组的码库数据对应的属性值。

整合模块406根据预设的类别优先级配置文件，从该判重组中所有的类别中确定出该判重组的码库数据的类别，选择优先级最高的类别。

码库数据的内容包括：名称、类别、空间位置、数据提供商、可信度、几何形状和最小外接矩形等多种属性，可以但不限于采用如表5所示的形式进行存储。

表5是对表1和表2在历史增量数据库为空的情形下，经过上述模块的处理后得到的码库数据的最终结果。

实施例四、

图5是本实施例提供的增量码库的建立装置示意图，如图5所示，包括：

数据获取模块501，用于获取数据图的更新数据。

本模块与实施例三中的模块401相同。

在本实施例中，以获取到如表6、表7和表8所示的由数据提供商NavInfo、MapBar和人工数据提供的更新数据进行说明。

预处理模块502，用于对数据获取模块501获取的更新数据的格式进行预处理，转换成预定义的数据格式。

预处理模块502将数据格式转换成预定义的数据格式，通常会对文本字段（名称地址）进行大小写转换、半角字符转全角字符，再将各类别转换为统一的类别表示。

通常，在这个过程中，还会对根据数据提供商的不同为各个更新数据打上一个可信度评分。一般，人工数据的可信度最高。

最后，预处理模块502将更新数据的各个属性按照固定格式输出。

同源比对模块503，用于利用预处理后的更新数据与历史增量数据库中的历史增量数据进行比较，将关键属性相异的更新数据确定为非冗余数据。

本模块的具体配置与实施例三中模块402相同。经过与如表9所示的历史增量数据库对比后，得到非冗余数据如表10所示。

同源比对模块503还将所确定的非冗余数据添加到所述历史增量数据库中。即，将表10的内容添加至表9中。

地理对象提取模块504，用于提取所述非冗余数据中描述地理对象的信息，添加到候选码库中。

本模块的具体配置与实施例三中模块403相同。

地理对象提取模块504还将增量码库中已有的码库数据添加到所述候选码库中。

由于候选码库中的数据可以进行累积，也可不进行累积。由于增量码库数据实际为历史权值最高的候选数据，如果只将其与新增的候选数据相比较即可判断是否要生成新的码库数据，可以提高效率。针对这种候选码库数据不累积的情形，则需要将已有的码库数据添加到所述候选码库中。此时，候选码库中的数据如表11所示。

判重分类模块505，用于对所述候选码库中各候选数据的地理对象名称和空间位置进行判断，将描述同一个地理对象且空间位置在预设阈值范围内的多个候选数据归为同一个判重组。

本模块的具体配置与实施例三中模块404的配置相同，于此不再赘述。

校验模块506，用于判断所述判重组中的候选数据是否正确，如果是，则将数据提供给后续权值计算模块507，否则，直接删除该判重组中的所有候选数据，以保证码库数据的正确性。

权值计算模块507，用于对同一个判重组内的多个候选数据，根据各候选数据的数据来源的可信度计算各候选数据的权值。

本模块的具体配置与实施例三中模块405的配置相同，于此不再赘述。。

整合模块508，用于将权值最高的候选数据作为该判重组的码库数据，构成增量码库。

本模块的具体配置与实施例三中模块406的配置相同，如果新增的候选数据的数据权重大于原增量码库中对应数据的权重，则将新增的候选数据覆盖于对应数据上。

通常情况下，在整合时如果发现有人工数据，则认为该数据较为可信，进行优先选择，而后增量码库中对应的数据被人工数据覆盖。对于如表11所示的候选码库经过本模块的处理后，结果如表12所示。

本发明提供的增量码库的建立方法和装置，利用同源继承实现更新数据的码库挖掘形成增量数据库，通过不断记录的历史增量数据库，去除已有的冗余数据，达到同源继承的目的，提高了数据处理的效率，并通过对多个候选数据进行判重和校验，提高了码库数据的准确性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种增量码库的建立方法，其特征在于，包括以下步骤：

S1、获取数据图的更新数据；

2.根据权利要求1所述的方法，其特征在于，在所述步骤S1之后，还包括：

3.根据权利要求1所述的方法，其特征在于，所述关键属性包括：

数据的名称、地址、数据来源、可信度和空间位置；

4.根据权利要求1所述的方法，其特征在于，在所述步骤S2之后，还包括：

将所确定的非冗余数据添加到所述历史增量数据库中。

5.根据权利要求1所述的方法，其特征在于，所述步骤S3包括：

步骤S3_1、对所述非冗余数据的名称或地址进行分词；

6.根据权利要求5所述的方法，其特征在于，所述关联确定所述地理对象名称对应的属性信息，包括：

7.根据权利要求1所述的方法，其特征在于，在所述根据各候选数据的数据来源的可信度计算各候选数据的数据权值之前，还包括：

判断所述判重组中的候选数据是否正确。

8.根据权利要求7所述的方法，其特征在于，所述判断所述判重组中的候选数据是否正确，具体包括：

9.根据权利要求1所述的方法，其特征在于，所述根据各候选数据的数据来源的可信度计算各候选数据的数据权值，具体包括：

根据各候选数据的数据来源确定各个候选数据的可信度；

统计各候选数据关联到的校验数据的数量；

10.根据权利要求1所述的方法，其特征在于，所述将数据权值最高的候选数据作为该判重组的码库数据，具体包括：

11.根据权利要求1所述的方法，其特征在于，所述步骤S4之前，还包括：

将增量码库中已有的码库数据添加到所述候选码库中。

12.一种增量码库的建立装置，其特征在于，包括：

数据获取模块，用于获取数据图的更新数据；

同源比对模块，用于利用所述数据获取模块获取的更新数据与历史增量数据库中的历史增量数据进行比较，将关键属性相异的更新数据确定为非冗余数据；

13.根据权利要求12所述的装置，其特征在于，该装置还包括：

14.根据权利要求12所述的装置，其特征在于，所述关键属性包括：

数据的名称、地址、数据来源、可信度和空间位置；

15.根据权利要求12所述的装置，其特征在于，所述同源比对模块在确定非冗余数据之后，还包括：

将所确定的非冗余数据添加到所述历史增量数据库中。

16.根据权利要求12所述的装置，其特征在于，所述地理对象提取模块，包括：

分词单元，用于对所述非冗余数据的名称或地址进行分词；

17.根据权利要求16所述的装置，其特征在于，所述属性关联单元关联确定所述地理对象名称对应的属性信息，具体配置包括：

18.根据权利要求12所述的装置，其特征在于，该装置还包括：

将判断正确的候选数据提供给所述权值计算模块。

19.根据权利要求18所述的装置，其特征在于，所述校验模块判断所述判重组中的候选数据是否正确，具体配置为：

20.根据权利要求12所述的装置，其特征在于，所述权值计算模块根据各候选数据的数据来源的可信度计算各候选数据的数据权值，具体配置为：

根据各候选数据的数据来源确定各个候选数据的可信度；

统计各候选数据关联到的校验数据的数量；

21.根据权利要求12所述的装置，其特征在于，所述整合模块将数据权值最高的候选数据作为该判重组的码库数据，具体配置为：

22.根据权利要求12所述的装置，其特征在于，所述判重分类模块在进行判重之前，还包括：

将增量码库中已有的码库数据添加到所述候选码库中。