CN113220812B - 一种基于多源地图平台交叉验证的数据空间化方法及装置 - Google Patents
一种基于多源地图平台交叉验证的数据空间化方法及装置 Download PDFInfo
- Publication number
- CN113220812B CN113220812B CN202110485041.4A CN202110485041A CN113220812B CN 113220812 B CN113220812 B CN 113220812B CN 202110485041 A CN202110485041 A CN 202110485041A CN 113220812 B CN113220812 B CN 113220812B
- Authority
- CN
- China
- Prior art keywords
- geographic
- candidate
- coordinate
- coordinates
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002790 cross-validation Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000006243 chemical reaction Methods 0.000 claims description 48
- 238000010187 selection method Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 3
- 230000002411 adverse Effects 0.000 abstract description 5
- 230000002829 reductive effect Effects 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 description 20
- 230000000694 effects Effects 0.000 description 15
- 238000004590 computer program Methods 0.000 description 10
- 238000007726 management method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000013439 planning Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于多源地图平台交叉验证的数据空间化方法及装置。该多源地图平台用于提供多种地理编码方式。该方法包括:获取待编码的地点描述信息;通过多种地理编码方式对待编码的地点描述信息进行编码,得到待编码的地点描述信息对应的多个候选地理坐标以及候选地理坐标的置信度;采用基于交叉验证的目标坐标选择方式根据候选地理坐标的置信度,从多个候选地理坐标中选取待编码的地点描述信息对应的目标地理坐标。采用本方法可降低仅选择一种地理编码方式所带来的误差对地理编码的不利影响,有利于提高地理编码的准确性。
Description
技术领域
本申请涉及地理编码技术领域,特别是涉及一种基于多源地图平台交叉验证的数据空间化方法及装置。
背景技术
随着基于位置的服务(Location Based Services,LBS)的广泛应用,大量的地点描述信息以各种地理坐标的形式表达。地理坐标是赋予地物空间位置信息的重要工具。通常,采用数据空间化方法将地点描述信息转换为地理坐标。
传统技术中,数据空间化方法通常是根据用户的实际需求,从多种地理编码方式中择一选取进行地理编码,但是,采用该方法获得的地理坐标的误差可能较大,存在地理编码准确性较低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高地理编码准确性的基于多源地图平台交叉验证的数据空间化方法、装置、计算机设备和存储介质。
一种基于多源地图平台交叉验证的数据空间化方法,所述方法包括:
获取待编码的地点描述信息;
通过多种地理编码方式对所述待编码的地点描述信息进行编码,得到所述待编码的地点描述信息对应的多个候选地理坐标以及所述候选地理坐标的置信度;
采用基于交叉验证的目标坐标选择方式根据所述候选地理坐标的置信度,从所述多个候选地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标。
在其中一个实施例中,所述采用基于交叉验证的目标坐标选择方式根据所述候选地理坐标的置信度,从所述多个候选地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标,包括:
计算所述多个候选地理坐标中两两候选地理坐标之间的相对距离;
从所述多个候选地理坐标中选取所述相对距离满足第一距离接近度条件的两个候选地理坐标;
根据所述两个候选地理坐标的置信度,从所述两个候选地理坐标中选取所述置信度较高的候选地理坐标,确定为所述待编码的地点描述信息对应的目标地理坐标。
在其中一个实施例中,所述采用基于交叉验证的目标坐标选择方式根据所述候选地理坐标的置信度,从所述多个候选地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标,包括:
根据所述候选地理坐标的置信度以及多个地理坐标样本的置信度,计算所述候选地理坐标与所述多个地理坐标样本之间的多个置信度相异度;
根据所述多个置信度相异度,从所述多个地理坐标样本中选取置信度相异度较小的预设数量的地理坐标样本;
根据所述预设数量的地理坐标样本对应的地理编码方式的类别,从所述多个候选地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标。
在其中一个实施例中,所述采用基于交叉验证的目标坐标选择方式根据所述候选地理坐标的置信度,从所述多个候选地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标,包括:
根据所述候选地理坐标的置信度,以及根据置信度与地理坐标的误差位于多个误差范围内的多个第一概率以及地理坐标为最小距离点的第二概率之间的对应关系,确定每个候选地理坐标的误差位于多个误差范围内的多个第一概率以及每个候选地理坐标为最小距离点的第二概率;
根据所述每个候选地理坐标的误差位于多个误差范围内的多个第一概率及所述多个第一概率对应的多个权重,以及每个候选地理坐标为最小距离点的第二概率及所述第二概率对应的权重,计算所述每个候选地理坐标的准确度;
从所述多个候选地理坐标中选取准确度满足预设准确度条件的候选地理坐标,确定为所述待编码的地点描述信息对应的目标地理坐标。
在其中一个实施例中,所述方法还包括:
获取多个基于交叉验证的坐标选择方式;
通过所述多个基于交叉验证的坐标选择方式分别对多个样本地理坐标进行处理,得到多个预测地理坐标;
根据所述多个预测地理坐标与实际地理坐标之间计算得到的多个误差,从所述多个基于交叉验证的坐标选择方式中选取基于交叉验证的目标坐标选择方式。
在其中一个实施例中,所述采用基于交叉验证的目标坐标选择方式根据所述候选地理坐标的置信度,从所述多个候选地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标,包括:
根据目标转换公式,将所述多个候选地理坐标转换为第一坐标系下的多个转换后的地理坐标;
将所述候选地理坐标的置信度确定为所述转换后的地理坐标的置信度;
采用基于交叉验证的目标坐标选择方式根据所述转换后的地理坐标的置信度,从所述多个转换后的地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标。
在其中一个实施例中,所述目标转换公式的获取方法包括:
将所述第一坐标系下的第一地理坐标转换为第二坐标系下的第二地理坐标,其中,所述第二坐标系为所述候选地理坐标所属的坐标系;
获取多个候选转换公式,通过所述多个候选转换公式将所述第二地理坐标转换为所述第一坐标系下的多个第三地理坐标;
计算所述多个第三地理坐标与所述第一地理坐标之间的多个相对距离;
根据所述多个相对距离,从所述多个候选转换公式中选取相对距离满足第二距离接近度条件的候选转换公式,确定为所述目标转换公式。
在其中一个实施例中,所述通过多种地理编码方式对所述待编码的地点描述信息进行编码,得到所述待编码的地点描述信息对应的多个候选地理坐标以及所述候选地理坐标的置信度,包括:
获取第一用户账户对应的秘钥信息,其中,所述秘钥信息包括所述多种地理编码方式中每种地理编码方式的秘钥以及秘钥调用额度;
若所述第一用户账户对应的秘钥信息中,目标地理编码方式的秘钥调用额度为零,则从秘钥管理池中获取第二用户账户对应的目标地理编码方式的秘钥,其中,所述第二用户账户对应的目标地理编码方式的秘钥调用额度为正整数;
基于所述第二用户账户对应的目标地理编码方式的秘钥以及所述第一用户账户对应的秘钥调用额度为正整数的地理编码方式的秘钥,通过多种地理编码方式对所述待编码的地点描述信息进行编码,得到所述待编码的地点描述信息对应的多个候选地理坐标以及所述候选地理坐标的置信度。
在其中一个实施例中,所述采用基于交叉验证的目标坐标选择方式根据所述候选地理坐标的置信度,从所述多个候选地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标,包括:
从所述多个候选地理坐标中选取位于目标地理区域内的候选地理坐标,其中,所述目标地理区域是根据所述待编码的地点描述信息确定的;
采用基于交叉验证的目标坐标选择方式根据所述位于目标地理区域内的候选地理坐标的置信度,从所述位于目标地理区域内的候选地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标。
一种基于多源地图平台交叉验证的数据空间化方法装置,所述多源地图平台用于提供多种地理编码方式;所述装置包括:
描述信息获取模块,用于获取待编码的地点描述信息;
描述信息编码模块,用于通过多种地理编码方式对所述待编码的地点描述信息进行编码,得到所述待编码的地点描述信息对应的多个候选地理坐标以及所述候选地理坐标的置信度;
地理坐标确定模块,用于采用基于交叉验证的目标坐标选择方式根据所述候选地理坐标的置信度,从所述多个候选地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待编码的地点描述信息;
通过多种地理编码方式对所述待编码的地点描述信息进行编码,得到所述待编码的地点描述信息对应的多个候选地理坐标以及所述候选地理坐标的置信度;
采用基于交叉验证的目标坐标选择方式根据所述候选地理坐标的置信度,从所述多个候选地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待编码的地点描述信息;
通过多种地理编码方式对所述待编码的地点描述信息进行编码,得到所述待编码的地点描述信息对应的多个候选地理坐标以及所述候选地理坐标的置信度;
采用基于交叉验证的目标坐标选择方式根据所述候选地理坐标的置信度,从所述多个候选地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标。
上述基于多源地图平台交叉验证的数据空间化方法、装置、计算机设备和存储介质,首先采用多种地理编码方式对待编码的地点描述信息进行编码得到多个候选地理坐标以及候选地理坐标的置信度,然后根据候选地理坐标的置信度从多个候选地理坐标中择优选取待编码的地点描述信息对应的目标地理坐标。本申请可降低仅选择一种地理编码方式所带来的误差对地理编码的不利影响,有利于提高地理编码的准确性。
附图说明
图1为一个实施例中基于多源地图平台交叉验证的数据空间化方法的流程示意图;
图2为一个实施例中采用目标坐标选择方式采用基于交叉验证的目标坐标选择方式根据候选地理坐标的置信度,从多个候选地理坐标中选取待编码的地点描述信息对应的目标地理坐标的补充方案的流程示意图;
图3为另一个实施例中采用目标坐标选择方式采用基于交叉验证的目标坐标选择方式根据候选地理坐标的置信度,从多个候选地理坐标中选取待编码的地点描述信息对应的目标地理坐标的补充方案的流程示意图;
图4为又一个实施例中采用目标坐标选择方式采用基于交叉验证的目标坐标选择方式根据候选地理坐标的置信度,从多个候选地理坐标中选取待编码的地点描述信息对应的目标地理坐标的补充方案的流程示意图;
图5为另一个实施例中基于多源地图平台交叉验证的数据空间化方法的流程示意图;
图6为一个实施例中两度坐标转换法的示意图;
图7为一个实施例中距离比对及置信度选择的示意图;
图8为一个实施例中算法提升前后的地理坐标绝对精度分布的示意图;
图9为一个实施例中基于多源地图平台交叉验证的数据空间化装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于多源地图平台交叉验证的数据空间化方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤S102,获取待编码的地点描述信息。
其中,地点描述信息是指用于描述地方所在位置的信息。可选地,地点描述信息包括地址或地点中的一种或多种。例如,地址可以是广州市海珠区工业大道北XX号;地点可以是广州市XXX广场。
具体地,用户可通过终端输入待编码的地点描述信息并发送给服务器。服务器接收该待编码的地点描述信息。可选地,服务器也可以从其存储器中读取待编码的地点描述信息。
可选地,用户通过终端输入的待编码的地点描述信息可以是文本形式的信息。
步骤S104,通过多种地理编码方式对待编码的地点描述信息进行编码,得到待编码的地点描述信息对应的多个候选地理坐标以及候选地理坐标的置信度。
其中,多源地图平台用于提供多种地理编码方式。多源地图平台可以理解为多个地图平台。例如,地图平台可以是腾讯地图,百度地图等。
其中,置信度用于表征地理编码(也可以称之为空间落点)的准确性。例如,若采用腾讯地图的地理编码服务,则置信度可以通过级别(level)参数确定。若采用百度地图的地理编码服务,则置信度可以通过理解(comprehension)参数确定。
具体地,服务器通过多种地理编码方式中的每种地理编码方式对待编码的地点描述信息进行编码,这样,通过每种地理编码方式可得到一个候选地理坐标,同时,通过每种地理编码方式还可以得到该地理编码方式下候选地理坐标的置信度。例如,若采用腾讯地图的地理编码服务,则通过腾讯地图的地理编码方式将待编码的地点描述信息转换为一个候选地理坐标,并且获得通过级别(level)参数确定的该候选地理坐标的置信度。
步骤S106,采用基于交叉验证的目标坐标选择方式根据候选地理坐标的置信度,从多个候选地理坐标中选取待编码的地点描述信息对应的目标地理坐标。
具体地,服务器采用基于交叉验证的目标坐标选择方式根据候选地理坐标的置信度,从多个候选地理坐标中选取待编码的地点描述信息对应的目标地理坐标。可选地,基于交叉验证的目标坐标选择方式可以是服务器从多个基于交叉验证的坐标选择方式中筛选得到的。
其中,交叉验证是指基于多种不同类型的验证指标来进行坐标选择。例如,若验证指标包括候选地理坐标的置信度以及多个候选地理坐标中两两候选地理坐标之间的相对距离,则服务器根据候选地理坐标的置信度以及多个候选地理坐标中两两候选地理坐标之间的相对距离,从多个候选地理坐标中选取待编码的地点描述信息对应的目标地理坐标。可选地,若验证指标包括候选地理坐标的置信度以及多个地理坐标样本的置信度,则服务器根据候选地理坐标的置信度以及多个地理坐标样本的置信度,从多个候选地理坐标中选取待编码的地点描述信息对应的目标地理坐标。其中,该地理坐标样本及其置信度可以是预先设定的。
上述基于多源地图平台交叉验证的数据空间化方法,首先采用多种地理编码方式对待编码的地点描述信息进行编码得到多个候选地理坐标以及候选地理坐标的置信度,然后根据候选地理坐标的置信度从多个候选地理坐标中择优选取待编码的地点描述信息对应的目标地理坐标。本方法可降低仅选择一种地理编码方式所带来的误差对地理编码的不利影响,有利于提高地理编码的准确性。
示例性地,基于交叉验证的目标坐标选择方式的实现过程包括多种,具体如下:
可选地,在一个实施例中,如图2所示,步骤S106具体可以通过以下步骤实现:
步骤S212,计算多个候选地理坐标中两两候选地理坐标之间的相对距离;
步骤S214,从多个候选地理坐标中选取相对距离满足第一距离接近度条件的两个候选地理坐标;
步骤S216,根据两个候选地理坐标的置信度,从两个候选地理坐标中选取置信度较高的候选地理坐标,确定为待编码的地点描述信息对应的目标地理坐标。
具体地,服务器计算多个候选地理坐标中两两候选地理坐标之间的相对距离。例如:假设多个候选地理坐标包括A(x1,y1),B(x2,y2)和C(x3,y3),那么,服务器需计算A和B之间的相对距离AB,B和C之间的相对距离BC以及A和C之间的相对距离AC。
然后,服务器根据该相对距离,从多个候选地理坐标中选取相对距离满足第一距离接近度条件的两个候选地理坐标。可选地,第一距离接近度条件可以是相对距离最短;第一距离接近度条件可以是相对距离次短;或者第一距离接近度条件可以是相对距离小于相对距离阈值。若相对距离满足第一距离接近度条件的候选地理坐标包括多对候选地理坐标,则从多对候选地理坐标中任意选取一对候选地理坐标,即两个候选地理坐标。
最后,服务器比较两个候选地理坐标的置信度,并从两个候选地理坐标中选取置信度较高的候选地理坐标,确定为待编码的地点描述信息对应的目标地理坐标。
本实施例中,通过先选取相对距离较近的两个候选地理坐标,再从这两个候选地理坐标中选取置信度较高的作为目标地理坐标,使得目标地理坐标更接近于实际地理坐标,有利于提高地理编码的准确性。
可选地,在另一个实施例中,如图3所示,步骤S106具体可以通过以下步骤实现:
步骤S222,根据候选地理坐标的置信度以及多个地理坐标样本的置信度,计算候选地理坐标与多个地理坐标样本之间的多个置信度相异度;
步骤S224,根据多个置信度相异度,从多个地理坐标样本中选取置信度相异度较小的预设数量的地理坐标样本;
步骤S226,根据预设数量的地理坐标样本对应的地理编码方式的类别,从多个候选地理坐标中选取待编码的地点描述信息对应的目标地理坐标。
其中,置信度相异度用于表征不同地理坐标的置信度之间的区别程度。
具体地,服务器根据候选地理坐标的置信度以及多个地理坐标样本的置信度,计算候选地理坐标分别与多个地理坐标样本之间的多个置信度相异度。可选地,服务器根据候选地理坐标的置信度以及多个地理坐标样本的置信度,计算候选地理坐标的置信度分别与多个地理坐标样本的置信度的多个欧式距离,并将该欧式距离作为置信度相异度。可选地,服务器计算候选地理坐标的置信度与多个地理坐标样本的置信度之间的多个差值,并将该差值作为置信度相异度。
然后,服务器根据多个置信度相异度,从多个地理坐标样本中选取置信度相异度较小的预设数量的地理坐标样本。可选地,服务器对多个置信度相异度进行升序排列,获取位于前列的且满足预设数量的地理坐标样本,作为置信度相异度较小的预设数量的地理坐标样本。可选地,服务器对多个置信度相异度进行降序排列,获取位于后列的且满足预设数量的地理坐标样本,作为置信度相异度较小的预设数量的地理坐标样本。
最后,由于每个地理坐标样本也是通过对应的地理编码方式编码得到的,因此每个地理坐标样本可关联地理编码方式的类别,例如:该类别可以是表示腾讯地图的地理编码方式的类别,例如用字符“t”表示;该类别可以是表示百度地图的地理编码方式的类别,例如用字符“b”表示。服务器根据预设数量的地理坐标样本对应的地理编码方式的类别,统计各类别的地理坐标样本的个数,并从多个候选地理坐标中选取地理坐标样本的个数最多的类别对应的候选地理坐标,确定为待编码的地点描述信息对应的目标地理坐标。可选地,服务器也可以从多个候选地理坐标中选取地理坐标样本的个数次多的类别对应的候选地理坐标,确定为待编码的地点描述信息对应的目标地理坐标。当然,服务器可以通过计算各类别的地理坐标样本的频率来选择出目标地理坐标。
本实施例中,先选取与候选地理坐标置信度相异度较小的多个地理坐标样本,这样选取的地理坐标样本与候选地理坐标的置信度是相似的,进而根据多个地理坐标样本对应的地理编码方式的类别,选取地理坐标样本的个数较多的类别对应的候选地理坐标作为目标地理坐标,使得目标地理坐标更接近于实际地理坐标,有利于提高地理编码的准确性。
可选地,在又一个实施例中,如图4所示,步骤S106具体可以通过以下步骤实现:
步骤S232,根据候选地理坐标的置信度,以及根据置信度与地理坐标的误差位于多个误差范围内的多个第一概率以及地理坐标为最小距离点的第二概率之间的对应关系,确定每个候选地理坐标的误差位于多个误差范围内的多个第一概率以及每个候选地理坐标为最小距离点的第二概率;
步骤S234,根据每个候选地理坐标的误差位于多个误差范围内的多个第一概率及多个第一概率对应的多个权重,以及每个候选地理坐标为最小距离点的第二概率及第二概率对应的权重,计算每个候选地理坐标的准确度;
步骤S236,从多个候选地理坐标中选取准确度满足预设准确度条件的候选地理坐标,确定为待编码的地点描述信息对应的目标地理坐标。
其中,最小距离点是指通过多种地理编码方式对地点描述信息进行编码得到的多个地理坐标中,与实际地理坐标的相对距离最小的地理坐标。
其中,准确度用于表征地理坐标相对实际地理坐标的准确性。
具体地,服务器根据候选地理坐标的置信度,以及根据置信度与地理坐标的误差位于多个误差范围内的多个第一概率以及地理坐标为最小距离点的第二概率之间的对应关系,确定每个候选地理坐标的误差位于多个误差范围内的多个第一概率以及每个候选地理坐标为最小距离点的第二概率。例如:地理坐标的误差位于多个误差范围内可以是地理坐标的误差位于30米误差范围内,100米误差范围内以及500米内误差范围内。也即地理坐标与实际地理坐标相距30米,100米以及500米。对应地,通过对历史地理坐标数据的统计分析,可计算出地理坐标的误差位于30米误差范围内的第一概率,位于100米误差范围内的第一概率以及位于500米误差范围内的第一概率。因此,服务器基于前述数据,可建立地理坐标的置信度与地理坐标的误差位于多个误差范围内的多个第一概率以及地理坐标为最小距离点的第二概率之间的对应关系。
然后,服务器根据每个候选地理坐标的误差位于多个误差范围内的多个第一概率及多个第一概率对应的多个权重,以及每个候选地理坐标为最小距离点的第二概率及第二概率对应的权重,计算每个候选地理坐标的准确度。通常,误差范围越大,对应权重越小。可选地,服务器可先计算各第一概率与其权重的乘积以及第二概率与其权重的乘积,进而将各乘积结果累加得到每个候选地理坐标的准确度。
最后,服务器从多个候选地理坐标中选取准确度满足预设准确度条件的候选地理坐标,确定为待编码的地点描述信息对应的目标地理坐标。可选地,服务器从多个候选地理坐标中选取准确度最高的候选地理坐标,确定为待编码的地点描述信息对应的目标地理坐标。可选地,服务器从多个候选地理坐标中选取准确度次高的候选地理坐标,确定为待编码的地点描述信息对应的目标地理坐标。可选地,服务器从多个候选地理坐标中选取准确度大于准确度阈值的候选地理坐标,确定为待编码的地点描述信息对应的目标地理坐标。若准确度满足预设准确度条件的候选地理坐标的个数为多个,则从多个候选地理坐标中任意选取一个候选地理坐标,确定为目标地理坐标。
本实施例中,采用候选地理坐标的误差位于不同误差范围内的第一概率以及候选地理坐标为最小距离点的第二概率,可计算出每个候选地理坐标的准确度,进而选取准确度较高的候选地理坐标作为目标地理坐标,使得目标地理坐标更接近于实际地理坐标,有利于提高地理编码的准确性。尤其是在候选地理坐标的置信度相近的情况下,可有效区分候选地理坐标的准确性,进而选取出较高准确性的目标地理坐标。
在一个实施例中,该方法还包括:服务器获取多个基于交叉验证的坐标选择方式,通过多个基于交叉验证的坐标选择方式分别对多个样本地理坐标进行处理,得到多个预测地理坐标,然后根据多个预测地理坐标与实际地理坐标之间计算得到的多个误差,从多个基于交叉验证的坐标选择方式中选取基于交叉验证的目标坐标选择方式。
本实施例中,通过对多个基于交叉验证的坐标选择方式进行重新测试,从而选取坐标选择效果最好的目标坐标选择方式进行更新,有利于提高坐标选择的准确性,进而提高地址编码的准确性。尤其是在预设更新周期(例如1个月)内进行坐标选择方式的更新,降低更新前的坐标选择方式因为过时而带来的不利影响。
在一个实施例中,涉及上述步骤S106“采用基于交叉验证的目标坐标选择方式根据候选地理坐标的置信度,从多个候选地理坐标中选取待编码的地点描述信息对应的目标地理坐标”的一种可能的实现方式。在上述实施例的基础上,步骤S106具体可以通过以下步骤实现:
步骤S1062,根据目标转换公式,将多个候选地理坐标转换为第一坐标系下的多个转换后的地理坐标;
步骤S1064,将候选地理坐标的置信度确定为转换后的地理坐标的置信度;
步骤S1066,采用基于交叉验证的目标坐标选择方式根据转换后的地理坐标的置信度,从多个转换后的地理坐标中选取待编码的地点描述信息对应的目标地理坐标。
其中,第一坐标系可以是多个候选地理坐标中任一候选地理坐标所属的坐标系。当然,第一坐标系也可以是除候选地理坐标所属的坐标系之外的坐标系。
具体地,为了方便候选地理坐标的空间运算,服务器根据目标转换公式,将多个候选地理坐标转换为第一坐标系下的多个转换后的地理坐标。可选地,目标转换公式可以是服务器从多个候选转换公式筛选得到的。目标转换公式可预先存储在服务器中。然后,服务器将候选地理坐标的置信度确定为转换后的地理坐标的置信度。最后,服务器根据转换后的地理坐标的置信度,从多个转换后的地理坐标中选取待编码的地点描述信息对应的目标地理坐标。可选地,服务器采用采用基于交叉验证的目标坐标选择方式根据转换后的地理坐标的置信度,从多个转换后的地理坐标中选取待编码的地点描述信息对应的目标地理坐标。其中,目标坐标选择方式的实现过程可参考上述实施例,在此不再赘述。
在一具体示例中,以腾讯地图的地理编码方式和百度地图的地理编码方式为例,腾讯地图的地理编码方式采用火星坐标系(也称之为国测局坐标系,GCJ-02),百度地图的地理编码方式采用百度坐标系(BD09)。第一坐标系可以是无偏移坐标系,例如可以是GPS全球定位系统坐标系(World Geodetic System 1984,WGS84)。基于此,服务器根据目标转换公式,将腾讯地图的地理编码方式得到的火星坐标系下的候选地理坐标转换为GPS全球定位系统坐标系下的转换后的地理坐标,并将百度地图的地理编码方式得到的百度坐标系下的候选地理坐标转换为GPS全球定位系统坐标系下的转换后的地理坐标。然后,服务器将候选地理坐标的置信度确定为转换后的地理坐标的置信度。最后,服务器采用目标坐标选择方式根据转换后的地理坐标的置信度,从多个转换后的地理坐标中选取待编码的地点描述信息对应的目标地理坐标。
本实施例中,将不同坐标系下的候选地理坐标转换为统一坐标系下的地理坐标,有利于后续地理坐标的空间运算,提高地理编码的速率。
在一个实施例中,涉及目标转换公式的获取方法。在上述实施例的基础上,该获取方法具体可以通过以下步骤实现:
步骤S112,将第一坐标系下的第一地理坐标转换为第二坐标系下的第二地理坐标;
步骤S114,获取多个候选转换公式,通过多个候选转换公式将第二地理坐标转换为第一坐标系下的多个第三地理坐标;
步骤S116,计算多个第三地理坐标与第一地理坐标之间的多个相对距离;
步骤S118,根据多个相对距离,从多个候选转换公式中选取相对距离满足第二距离接近度条件的候选转换公式,确定为目标转换公式。
其中,第二坐标系为候选地理坐标所属的坐标系。
在一具体示例中,继续以腾讯地图的地理编码方式和百度地图的地理编码方式,第一坐标系为GPS全球定位系统坐标系为例,服务器将GPS全球定位系统坐标系下的第一地理坐标转换为火星坐标系和百度坐标系下的第二地理坐标。可选地,服务器可通过腾讯地图的地理编码服务和百度地图的地理编码服务分别将第一地理坐标转换为火星坐标系和百度坐标系下的第二地理坐标。
然后,服务器获取多个候选转换公式,通过多个候选转换公式分别对火星坐标系和百度坐标系下的第二地理坐标进行GPS全球定位系统坐标系的转换,得到多个第三地理坐标。
之后,服务器计算多个第三地理坐标与第一地理坐标之间的多个相对距离。
最后,服务器根据多个相对距离,从多个候选转换公式中选取相对距离满足第二距离接近度条件的候选转换公式,确定为目标转换公式。可选地,第二距离接近度条件可以是相对距离最短;第二距离接近度条件可以是相对距离次短;或者第二距离接近度条件可以是相对距离小于相对距离阈值。若相对距离满足第二距离接近度条件的候选转换公式为多个,则从多个候选转换公式中任意选取一个候选转换公式作为目标转换公式。
本实施例中,从多个候选转换公式中选取转换准确性较高的目标转换公式,有利于提高地理坐标转换的准确性,进而提高地理编码的准确性。
在一个实施例中,涉及上述步骤S104“通过多种地理编码方式对待编码的地点描述信息进行编码,得到待编码的地点描述信息对应的多个候选地理坐标以及候选地理坐标的置信度”的一种可能的实现方式。在上述实施例的基础上,步骤S104具体可以通过以下步骤实现:
步骤S1042,获取第一用户账户对应的秘钥信息;
步骤S1044,若第一用户账户对应的秘钥信息中,目标地理编码方式的秘钥调用额度为零,则从秘钥管理池中获取第二用户账户对应的目标地理编码方式的秘钥;
步骤S1046,基于第二用户账户对应的目标地理编码方式的秘钥以及第一用户账户对应的秘钥调用额度为正整数的地理编码方式的秘钥,通过多种地理编码方式对待编码的地点描述信息进行编码,得到待编码的地点描述信息对应的多个候选地理坐标以及候选地理坐标的置信度。
其中,秘钥信息包括多种地理编码方式中每种地理编码方式的秘钥以及秘钥调用额度。秘钥用于获取使用地理编码方式的权限。秘钥调用额度是指使用地理编码方式的次数。
其中,第二用户账户对应的目标地理编码方式的秘钥调用额度为正整数。
其中,秘钥管理池中存储了不同用户账户的多种地理编码方式中每种地理编码方式的秘钥以及秘钥调用额度,且不同用户账户对应的秘钥是共享的。也就是说,每个用户账户可以使用秘钥管理池中所有的秘钥。
具体地,服务器获取第一用户账户对应的秘钥信息,若第一用户账户对应的秘钥信息中,目标地理编码方式的秘钥调用额度为零,表明第一用户账户已经无法使用目标地理编码方式,则从秘钥管理池中,获取第二用户账户对应的目标地理编码方式的秘钥,该秘钥的秘钥调用额度为正整数,表明该秘钥是可以继续使用的。然后,服务器基于第二用户账户对应的目标地理编码方式的秘钥以及第一用户账户对应的秘钥调用额度为正整数的地理编码方式的秘钥,获得包含目标地理编码方式在内的多种地理编码方式的使用权限,从而通过多种地理编码方式对待编码的地点描述信息进行编码,得到待编码的地点描述信息对应的多个候选地理坐标以及候选地理坐标的置信度。
本实施例中,考虑到单个用户账户进行地理编码受到其秘钥调用额度的限制,能够编码的数据较少,而每个用户账户并非在秘钥调用额度更新前使用完其秘钥的使用次数进行地理编码,那么这些空余的秘钥调用额度可以调度给有编码需求的用户账户,对此,通过秘钥管理池对多个用户账户的秘钥及秘钥调用额度进行汇总及统一管理,众筹额度,灵活分配,从而将多个用户账户的秘钥及秘钥调用额度进行共享使用,可提高秘钥的利用率,降低秘钥的空置率,增加地理编码稳定性以及放大整体编码性能。
在一个实施例中,涉及上述步骤S106“采用基于交叉验证的目标坐标选择方式根据候选地理坐标的置信度,从多个候选地理坐标中选取待编码的地点描述信息对应的目标地理坐标”的一种可能的实现方式。在上述实施例的基础上,步骤S106具体可以通过以下步骤实现:
步骤S106a,从多个候选地理坐标中选取位于目标地理区域内的候选地理坐标;
步骤S106b,采用基于交叉验证的目标坐标选择方式根据位于目标地理区域内的候选地理坐标的置信度,从位于目标地理区域内的候选地理坐标中选取待编码的地点描述信息对应的目标地理坐标。
其中,目标地理区域是根据待编码的地点描述信息确定的。
在一具体示例中,以待编码的地点描述信息为广州市XXX广场为例,目标地理区域可以是广州市的行政区域,也可以是包含广州市的多边形,例如矩形。可选地,服务器从多个候选地理坐标中选取位于广州市的行政区域内的候选地理坐标,采用基于交叉验证的目标坐标选择方式根据位于目标地理区域内的候选地理坐标的置信度,从位于目标地理区域内的候选地理坐标中选取待编码的地点描述信息对应的目标地理坐标。
本实施例中,由于目标地理区域是基于地点描述信息确定的,因此目标地理区域与地点描述信息在空间位置上具有很强的关联性。进而采用越界检查的方式,筛选出位于正确空间边界范围(即目标地理区域)内的候选地理坐标,可剔除偏差较大的候选地理坐标,有利于进一步提高地理编码的准确性。
下面结合一个具体的应用场景来介绍本申请的一个实施例,具体参见图5所示,该方法包括如下步骤:
步骤S301,对初始地点描述文本进行预处理,得到目标地点描述文本。
其中,该目标地点描述文本包含待编码的地点描述信息。
可选地,服务器根据非法字符集剔除初始地点描述文本中的非法字符(例如#、@、!、¥、%等),得到质量较高的目标地点描述文本,且可以避免因这些非法字符导致的地图服务(可进行地理编码)请求失败的问题。
步骤S302,从秘钥管理池中获取多个地理编码方式的秘钥,基于该秘钥通过多种地理编码方式对待编码的地点描述信息进行编码,得到待编码的地点描述信息对应的多个候选地理坐标以及候选地理坐标的置信度。
具体地,服务器从秘钥管理池中获取可用的秘钥,并且调用主流的且地址库及地理编码技术较成熟的百度、高德、腾讯三种地图服务的地理编码接口(例如API),通过百度、高德、腾讯三种地图的地理编码服务,可根据对应的地理编码方式对待编码的地点描述信息进行编码,得到待编码的地点描述信息对应的多个候选地理坐标以及候选地理坐标的置信度。可选地,地理编码服务会对待编码的地点描述信息进行容错处理,例如将错别字更正(如将广州市乐蜂广场更正为为广州市乐峰广场),选取相近的地址等处理,最终映射为候选地理坐标。例如,广州市海珠区乐峰广场转换为113.258688,23.088929。
可选地,服务器对不同地图服务返回的置信度参数进行统一化,使得根据置信度参数确定的置信度之间具有可比性。根据三种地图服务返回候选地理坐标都具备的置信度参数,对于腾讯地图和高德地图选择level参数,即地理坐标对应的精度级别信息,如兴趣点(POI)、道路交叉口、村、区县等,分别为11个和16个精度级别,根据该精度级别构建字典映射,将其重新设置为1-10级的精度级别,对于百度地图使用comprehension参数,其得分范围为1-100分,则将其同样映射为1-10级的范围(但允许保留小数,避免影响原始数值精度),便于进行对比评估和后续的模型使用。
步骤S303,根据目标转换公式,将多个候选地理坐标转换为第一坐标系下的多个转换后的地理坐标,将候选地理坐标的置信度确定为转换后的地理坐标的置信度。
具体地,由于百度、高德、腾讯三种地图的地理编码服务采用不同的坐标系,因此候选地理坐标之间需要先通过统一坐标系后才能进行空间运算。其中,百度地图使用百度坐标系,腾讯地图和高德地图使用火星坐标系。第一坐标系选择WGS84坐标系。基于此,服务器根据目标转换公式,将百度坐标系和火星坐标系下的多个候选地理坐标转换为WGS84坐标系下的多个转换后的地理坐标,并将候选地理坐标的置信度确定为转换后的地理坐标的置信度。
可选地,如图6所示,目标转换公式的选择可通过“两度坐标转换法”以及随机数据模拟,进行转换精度的评估,申请人研究发现对百度坐标、火星坐标转换为WGS84的平均误差约1米,90%分位的误差约在2-3米以内,满足实际使用需要。
步骤S304,从多个转换后的地理坐标中选取位于目标地理区域内的地理坐标。
具体地,为了进一步筛选在正确空间边界范围内的地理坐标,由于部分地图服务的地理编码接口中城市参数并不限制坐标召回城市,因此使用越界检查进一步过滤偏差很大的地理坐标。可选地,目标地理区域可以使用矩形框定的坐标范围,也可使用针对特定研究使用行政区划边界等比较复杂的空间边界。若位于目标地理区域内的地理坐标的个数为1个(S=1),表明该候选地理坐标在三个候选地理坐标中最准确,则直接输出该候选地理坐标;若位于目标地理区域内的地理坐标的个数为2个或3个(S=2/3),则执行步骤S305。
步骤S305,采用基于交叉验证的目标坐标选择方式根据转换后的地理坐标的置信度,从地理坐标中选取待编码的地点描述信息对应的目标地理坐标。
一种实现方式为:服务器基于规则设计的算法,即基于人工识别、评估并设定选择规则,来最终决定目标地理坐标。该算法中采用了距离比对和置信度两个衡量因素。其中,距离比对方式,是指分别计算三个候选地理坐标间的相对距离,并选取相对距离较近的候选地理坐标对。该方式有利于将明显偏离的候选地理坐标剔除掉,从而提升地理编码的准确性。置信度是另一个可反映空间落点准确性的指标,在距离比对剔除偏差点的基础上,基于置信度进行候选地理坐标的择优。即,该算法从三个候选地理坐标中使用距离比对,选择距离最近的两个候选地理坐标,剔除相对偏移较大的候选地理坐标后,根据置信度高低从剩下的两个候选地理坐标中选择置信度较高的作为目标地理坐标。如图7所示。
另一种实现方式为:服务器基于k近邻算法,即监督学习算法的一种,基于已知的历史数据对未来出现的现象判断结果。该算法利用已知结果的地理坐标样本进行训练,根据三个候选地理坐标的置信度作为特征,基于不同地理坐标样本间多个特征的欧式距离,并使用地理坐标样本中与候选地理坐标最接近的前k个地理坐标样本作为代表,选择其中出现频率最高的类别(百度、高德、腾讯)对应的候选地理坐标作为目标地理坐标。具体方式为:计算候选地理坐标与各个地理坐标样本之间的欧式距离,按照距离的递增关系进行排序,选取距离最小的K个地理坐标样本,确定前K个地理坐标样本所在类别的出现频率,返回前K个地理坐标样本中出现频率最高的类别作为目标地理坐标的预测分类。
对于该算法,由于不同置信度代表的精度可能有所区别,因此分别给每个置信度都赋予了权重w。故在训练时,需针对不同的样本集大小、k值大小、权重向量w的多种组合进行多次训练以获得最合适的训练结果。其中涉及的公式(1)和(2)如下:
zbi=wb*scorebi; (2)
其中b、a、q分别表示百度地图的地理编码服务、高德地图的地理编码服务、腾讯地图的地理编码服务,i表示不同的地理坐标样本,j表示候选地理坐标,score表示置信度,w表示置信度赋予的权重,z表示特征值。
表1 K近邻选择
序号 | 总样本 | 训练集比例 | k | 权重 |
1. | 72353 | 0.3 | 30 | (0.26,0.72,0.02) |
2. | 72353 | 0.4 | 50 | (0.1,0.7,0.2) |
3. | 72353 | 0.4 | 70 | (0.1,0.7,0.2) |
4. | 72353 | 0.4 | 10 | (0.0,0.05,0.95) |
5. | 72353 | 0.3 | 50 | (0.05,0.05,0.9) |
6. | 72353 | 0.3 | 110 | (0.1,0.3,0.6) |
7. | … | … | … | … |
表2多次训练中控制变量运行参数表
又一种实现方式为:服务器基于置信度权重的选择模型,该模型先统计了不同地图服务平台下不同置信度的地理坐标在30米、100米和500米内的概率以及最小距离点的概率,确定分别代表不同置信度下高精度、中等精度、精度较低、最小距离点的概率情况。这是考虑到可能估算最小距离点仅靠置信度进行选择不够,尤其是置信度相近的情况时,对此增加不同精度范围内的概率进行考量。增加权重来平衡不同地图服务间置信度的差异,以置信度对应的“误差<30m概率”“误差<100m概率”“误差<500m概率”“最小距离点概率”作为自变量X,将权重wi作为需要估计的参数,构建损失函数(4):
s.t.∑iwi=1 (5)
其中,xij作为该模型的自变量,表示样本n通过第j个地图服务平台返回结果中置信度对应的“误差<30m概率”“误差<100m的概率”“误差<500m的概率”以及“最小距离点概率”;wi表示自变量的权重,是该模型需要估计的参数;式(5)为该模型的约束条件,即权重之和应等于1;式(4)作为本模型的损失函数,当第j个地理坐标jn与真实地理坐标间的距离和所有地图服务平台返回地理坐标中与真实地理坐标距离最近点(即与minDn)的差值越小,则该模型返回地理坐标的准确性越高。最终,使用训练好权重的模型,即式(3)进一步计算每个候选地理坐标的准确度,选取准确度最高的候选地理坐标作为目标地理坐标。
可选地,由于随着时间推移,地图服务商返回的候选地理坐标及其置信度可能是变化的,例如地址库的更新、置信度范围和分布的更新等,都可能导致原有模型的过时。因此,采用模型算法池收纳作为候选的选择模型/算法,在实际研发、测试过程中验证过其选择效果较优的算法都可以进行纳入。该模块每隔一定周期进行重新训练和评估选择最新适合的模型,如设定周期T为1个月,则每个月进行多个模型的再次训练、测试效果,并将新的效果最好的一个选择模型/算法用于坐标选择步骤(即步骤S106)中。
步骤S306,将目标地理坐标通过调用python实现原有数据的空间矢量化,转化为矢量数据导出,支持直接加入到地理信息系统软件进行数据存储、管理、分析、制图,支撑规划分析、研究、设计等工作。
本实施例中,采用多源数据、多重方法学习择优的方式,提高地理编码的精确度,解决规划领域相关政务等数据空间分析的落点难、不准确的问题。一方面综合多源地图服务平台的数据库和API,另一方面综合多种建模、机器学习的方法对比动态择优,最后结合GIS地理空间数据分析功能实现数据格式空间化。
本申请实施例可从三个角度衡量其整体技术效果:
(1)最小距离点概率:最小距离点概率是算法的目标,即选中的地理坐标是三个地理坐标中最接近真实坐标的概率。以置信度+权重的交叉验证方法为例,相较于使用单一落点方式提升了11.1%-16.6%,相对提升比例为原来效果的29.6%-51.9%。如表3所示。
序号 | 落点方式 | 最小距离点概率 |
1 | 百度 | 37.50% |
2 | 高德 | 32.00% |
3 | 腾讯 | 33.80% |
4 | 基于“置信度+权重”的交叉验证方法 | 48.6%↑ |
表3置信度权重算法的最小距离点概率提升效果
(2)绝对误差:应用交叉验证算法后,地理解析结果的误差分布整体左移,尤其是在高精度范围内的部分提升明显。同时对误差较大情况的数据能够实现大量减少,如落点2000米外的数据量下降将近一半。如图8所示。
(3)达到理论极限的效果:由于不同的地区、不同时间、不同类型的数据集(包括数据集质量、数量)等都会影响解析结果,因此其实不同实验间很难做出真正有意义的比较。因此,应将算法应用前后的效果进行比较,并且由于地址库可能本身就不具备该地理坐标或者地址库中地理坐标本来就都偏移较大,需计算原有三种地理坐标中距离真实地理坐标最近的地理坐标(定为最小距离点)与真实地理坐标之间的距离,这是选择算法理论上所能达到的最优结果,即选中了距离真实地理坐标最近的地理坐标,并统计此时在不同精度范围内的最小距离点累积百分比的分布情况作为参考。可以发现,应用交叉验证算法综合多源坐标结果后,准确率可达到理论极限的约80%,整体相对于应用算法前有较大的提升,在精度较高的范围内提升明显,随着精度降低,最小距离点的累积百分比也迅速接近理论极限值,适用于规划领域空间分析的需要。如表4所示。
表4算法提升前后效果与理论极限效果的对比
应该理解的是,虽然图1-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-5中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种基于多源地图平台交叉验证的数据空间化装置,该多源地图平台用于提供多种地理编码方式,包括:描述信息获取模块402、描述信息编码模块404和地理坐标确定模块406,其中:
该描述信息获取模块402,用于获取待编码的地点描述信息;
该描述信息编码模块404,用于通过多种地理编码方式对待编码的地点描述信息进行编码,得到待编码的地点描述信息对应的多个候选地理坐标以及候选地理坐标的置信度;
该地理坐标确定模块406,用于采用基于交叉验证的目标坐标选择方式根据候选地理坐标的置信度,从多个候选地理坐标中选取待编码的地点描述信息对应的目标地理坐标。
上述基于多源地图平台交叉验证的数据空间化装置中,首先采用多种地理编码方式对待编码的地点描述信息进行编码得到多个候选地理坐标以及候选地理坐标的置信度,然后根据候选地理坐标的置信度从多个候选地理坐标中择优选取待编码的地点描述信息对应的目标地理坐标。本装置可降低仅选择一种地理编码方式所带来的误差对地理编码的不利影响,有利于提高地理编码的准确性。
在一个实施例中,该地理坐标确定模块406具体用于计算多个候选地理坐标中两两候选地理坐标之间的相对距离;从多个候选地理坐标中选取相对距离满足第一距离接近度条件的两个候选地理坐标;根据两个候选地理坐标的置信度,从两个候选地理坐标中选取置信度较高的候选地理坐标,确定为待编码的地点描述信息对应的目标地理坐标。
在一个实施例中,该地理坐标确定模块406具体用于根据候选地理坐标的置信度以及多个地理坐标样本的置信度,计算候选地理坐标与多个地理坐标样本之间的多个置信度相异度;根据多个置信度相异度,从多个地理坐标样本中选取置信度相异度较小的预设数量的地理坐标样本;根据预设数量的地理坐标样本对应的地理编码方式的类别,从多个候选地理坐标中选取待编码的地点描述信息对应的目标地理坐标。
关于基于多源地图平台交叉验证的数据空间化装置的具体限定可以参见上文中对于基于多源地图平台交叉验证的数据空间化方法的限定,在此不再赘述。上述基于多源地图平台交叉验证的数据空间化装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于多源地图平台交叉验证的数据空间化方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于多源地图平台交叉验证的数据空间化方法,其特征在于,所述多源地图平台用于提供多种地理编码方式;所述方法包括:
获取待编码的地点描述信息;
获取第一用户账户对应的秘钥信息,其中,所述秘钥信息包括所述多种地理编码方式中每种地理编码方式的秘钥以及秘钥调用额度;
若所述第一用户账户对应的秘钥信息中,目标地理编码方式的秘钥调用额度为零,则从秘钥管理池中获取第二用户账户对应的目标地理编码方式的秘钥,其中,所述第二用户账户对应的目标地理编码方式的秘钥调用额度为正整数;
基于所述第二用户账户对应的目标地理编码方式的秘钥以及所述第一用户账户对应的秘钥调用额度为正整数的地理编码方式的秘钥,通过多种地理编码方式对所述待编码的地点描述信息进行编码,得到所述待编码的地点描述信息对应的多个候选地理坐标以及所述候选地理坐标的置信度;
采用基于交叉验证的目标坐标选择方式根据所述候选地理坐标的置信度,从所述多个候选地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标。
2.根据权利要求1所述的方法,其特征在于,所述采用基于交叉验证的目标坐标选择方式根据所述候选地理坐标的置信度,从所述多个候选地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标,包括:
计算所述多个候选地理坐标中两两候选地理坐标之间的相对距离;
从所述多个候选地理坐标中选取所述相对距离满足第一距离接近度条件的两个候选地理坐标;
根据所述两个候选地理坐标的置信度,从所述两个候选地理坐标中选取所述置信度较高的候选地理坐标,确定为所述待编码的地点描述信息对应的目标地理坐标。
3.根据权利要求1所述的方法,其特征在于,所述采用基于交叉验证的目标坐标选择方式根据所述候选地理坐标的置信度,从所述多个候选地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标,包括:
根据所述候选地理坐标的置信度以及多个地理坐标样本的置信度,计算所述候选地理坐标与所述多个地理坐标样本之间的多个置信度相异度;
根据所述多个置信度相异度,从所述多个地理坐标样本中选取置信度相异度较小的预设数量的地理坐标样本;
根据所述预设数量的地理坐标样本对应的地理编码方式的类别,从所述多个候选地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标。
4.根据权利要求1所述的方法,其特征在于,所述采用基于交叉验证的目标坐标选择方式根据所述候选地理坐标的置信度,从所述多个候选地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标,包括:
根据所述候选地理坐标的置信度,以及根据置信度与地理坐标的误差位于多个误差范围内的多个第一概率以及地理坐标为最小距离点的第二概率之间的对应关系,确定每个候选地理坐标的误差位于多个误差范围内的多个第一概率以及每个候选地理坐标为最小距离点的第二概率;
根据所述每个候选地理坐标的误差位于多个误差范围内的多个第一概率及所述多个第一概率对应的多个权重,以及每个候选地理坐标为最小距离点的第二概率及所述第二概率对应的权重,计算所述每个候选地理坐标的准确度;
从所述多个候选地理坐标中选取准确度满足预设准确度条件的候选地理坐标,确定为所述待编码的地点描述信息对应的目标地理坐标。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个基于交叉验证的坐标选择方式;
通过所述多个基于交叉验证的坐标选择方式分别对多个样本地理坐标进行处理,得到多个预测地理坐标;
根据所述多个预测地理坐标与实际地理坐标之间计算得到的多个误差,从所述多个基于交叉验证的坐标选择方式中选取基于交叉验证的目标坐标选择方式。
6.根据权利要求1所述的方法,其特征在于,所述采用基于交叉验证的目标坐标选择方式根据所述候选地理坐标的置信度,从所述多个候选地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标,包括:
根据目标转换公式,将所述多个候选地理坐标转换为第一坐标系下的多个转换后的地理坐标;
将所述候选地理坐标的置信度确定为所述转换后的地理坐标的置信度;
采用基于交叉验证的目标坐标选择方式根据所述转换后的地理坐标的置信度,从所述多个转换后的地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标。
7.根据权利要求6所述的方法,其特征在于,所述目标转换公式的获取方法包括:
将所述第一坐标系下的第一地理坐标转换为第二坐标系下的第二地理坐标,其中,所述第二坐标系为所述候选地理坐标所属的坐标系;
获取多个候选转换公式,通过所述多个候选转换公式将所述第二地理坐标转换为所述第一坐标系下的多个第三地理坐标;
计算所述多个第三地理坐标与所述第一地理坐标之间的多个相对距离;
根据所述多个相对距离,从所述多个候选转换公式中选取相对距离满足第二距离接近度条件的候选转换公式,确定为所述目标转换公式。
8.根据权利要求1所述的方法,其特征在于,所述秘钥调用额度为使用地理编码方式的次数。
9.根据权利要求1所述的方法,其特征在于,所述采用基于交叉验证的目标坐标选择方式根据所述候选地理坐标的置信度,从所述多个候选地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标,包括:
从所述多个候选地理坐标中选取位于目标地理区域内的候选地理坐标,其中,所述目标地理区域是根据所述待编码的地点描述信息确定的;
采用基于交叉验证的目标坐标选择方式根据所述位于目标地理区域内的候选地理坐标的置信度,从所述位于目标地理区域内的候选地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标。
10.一种基于多源地图平台交叉验证的数据空间化装置,其特征在于,所述多源地图平台用于提供多种地理编码方式;所述装置包括:
描述信息获取模块,用于获取待编码的地点描述信息;
描述信息编码模块,用于获取第一用户账户对应的秘钥信息,其中,所述秘钥信息包括所述多种地理编码方式中每种地理编码方式的秘钥以及秘钥调用额度;若所述第一用户账户对应的秘钥信息中,目标地理编码方式的秘钥调用额度为零,则从秘钥管理池中获取第二用户账户对应的目标地理编码方式的秘钥,其中,所述第二用户账户对应的目标地理编码方式的秘钥调用额度为正整数;基于所述第二用户账户对应的目标地理编码方式的秘钥以及所述第一用户账户对应的秘钥调用额度为正整数的地理编码方式的秘钥,通过多种地理编码方式对所述待编码的地点描述信息进行编码,得到所述待编码的地点描述信息对应的多个候选地理坐标以及所述候选地理坐标的置信度;
地理坐标确定模块,用于采用基于交叉验证的目标坐标选择方式根据所述候选地理坐标的置信度,从所述多个候选地理坐标中选取所述待编码的地点描述信息对应的目标地理坐标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110485041.4A CN113220812B (zh) | 2021-04-30 | 2021-04-30 | 一种基于多源地图平台交叉验证的数据空间化方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110485041.4A CN113220812B (zh) | 2021-04-30 | 2021-04-30 | 一种基于多源地图平台交叉验证的数据空间化方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113220812A CN113220812A (zh) | 2021-08-06 |
CN113220812B true CN113220812B (zh) | 2022-03-29 |
Family
ID=77090609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110485041.4A Active CN113220812B (zh) | 2021-04-30 | 2021-04-30 | 一种基于多源地图平台交叉验证的数据空间化方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113220812B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106469201A (zh) * | 2016-08-31 | 2017-03-01 | 成都数联铭品科技有限公司 | 一种基于异步加载的企业地理信息展示方法 |
CN108717422A (zh) * | 2018-04-23 | 2018-10-30 | 中国水产科学研究院渔业工程研究所 | 一种数据处理方法及装置 |
CN110070279A (zh) * | 2019-04-10 | 2019-07-30 | 广东省城乡规划设计研究院 | 基于多源数据的用地效率量化评估方法、系统和存储介质 |
CN110276022A (zh) * | 2019-05-31 | 2019-09-24 | 北京摩拜科技有限公司 | 地图处理方法、装置、设备、地图中间件及可读存储介质 |
CN110795512A (zh) * | 2018-07-17 | 2020-02-14 | 中国移动通信集团重庆有限公司 | 地址匹配方法、装置、设备及存储介质 |
CN111914123A (zh) * | 2019-05-08 | 2020-11-10 | 百度在线网络技术(北京)有限公司 | 信息推广方法、装置、电子设备和存储介质 |
CN112699284A (zh) * | 2021-01-11 | 2021-04-23 | 四川大学 | 一种基于多源数据的公交站点优化可视化方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846290A (zh) * | 2018-07-06 | 2018-11-20 | 佛山市灏金赢科技有限公司 | 一种密码生成方法及装置 |
US20210026893A1 (en) * | 2019-07-24 | 2021-01-28 | Pitney Bowes Software Inc. | System and method for improving geocoding performance |
CN112287048A (zh) * | 2020-09-28 | 2021-01-29 | 珠海大横琴科技发展有限公司 | 一种地图服务处理方法和装置 |
CN112468302A (zh) * | 2020-10-23 | 2021-03-09 | 湖南天河国云科技有限公司 | 基于可验证多方秘密分享的可编辑区块链 |
-
2021
- 2021-04-30 CN CN202110485041.4A patent/CN113220812B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106469201A (zh) * | 2016-08-31 | 2017-03-01 | 成都数联铭品科技有限公司 | 一种基于异步加载的企业地理信息展示方法 |
CN108717422A (zh) * | 2018-04-23 | 2018-10-30 | 中国水产科学研究院渔业工程研究所 | 一种数据处理方法及装置 |
CN110795512A (zh) * | 2018-07-17 | 2020-02-14 | 中国移动通信集团重庆有限公司 | 地址匹配方法、装置、设备及存储介质 |
CN110070279A (zh) * | 2019-04-10 | 2019-07-30 | 广东省城乡规划设计研究院 | 基于多源数据的用地效率量化评估方法、系统和存储介质 |
CN111914123A (zh) * | 2019-05-08 | 2020-11-10 | 百度在线网络技术(北京)有限公司 | 信息推广方法、装置、电子设备和存储介质 |
CN110276022A (zh) * | 2019-05-31 | 2019-09-24 | 北京摩拜科技有限公司 | 地图处理方法、装置、设备、地图中间件及可读存储介质 |
CN112699284A (zh) * | 2021-01-11 | 2021-04-23 | 四川大学 | 一种基于多源数据的公交站点优化可视化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113220812A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108446281B (zh) | 确定用户亲密度的方法、装置及存储介质 | |
WO2021218314A1 (zh) | 基于位置定位的事件识别方法、装置、设备及存储介质 | |
WO2022105111A1 (zh) | 区域画像图生成方法、装置、计算机设备及存储介质 | |
CN110019568B (zh) | 基于空间聚类的选址方法、装置、计算机设备及存储介质 | |
US9323779B2 (en) | Reverse geocoding system using combined street segment and point datasets | |
Wu et al. | Modified data-driven framework for housing market segmentation | |
CN110489507B (zh) | 确定兴趣点相似度的方法、装置、计算机设备和存储介质 | |
WO2019201135A1 (zh) | 基于全局路网特征的数据匹配方法、装置及存储介质 | |
CN111460508A (zh) | 一种基于差分隐私技术的轨迹数据保护方法 | |
CN110399569A (zh) | 一种基于大数据评估土地价值的方法及评估装置 | |
Murphy | Estimating neighborhood variability with a binary comparison matrix | |
Ruiz-Lendínez et al. | Automatic positional accuracy assessment of geospatial databases using line-based methods | |
CN110716998B (zh) | 一种精细尺度人口数据空间化方法 | |
US20170299424A1 (en) | Measuring and diagnosing noise in an urban environment | |
CN113220812B (zh) | 一种基于多源地图平台交叉验证的数据空间化方法及装置 | |
CN110472736B (zh) | 一种裁剪神经网络模型的方法和电子设备 | |
CN116701734A (zh) | 地址文本的处理方法、设备及计算机可读存储介质 | |
CN114237265B (zh) | 最优日常巡检路线的规划方法、系统、计算机及存储介质 | |
CN115190587A (zh) | Wifi位置确定方法、装置、电子设备及存储介质 | |
CN115271564A (zh) | 一种公路边坡灾害空间危险性区划方法及终端机 | |
CN111737374B (zh) | 位置坐标确定方法、装置、电子设备及存储介质 | |
CN110475198B (zh) | 一种城市道路用户轨迹纠偏处理方法及装置 | |
Zhou et al. | A version-similarity based trust degree computation model for crowdsourcing geographic data | |
CN111858543B (zh) | 商业地图的质量评估方法、装置及计算设备 | |
CN116612421B (zh) | 一种融合多源空间数据的建成环境识别方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 510290 No. 483, Nanzhou Road, Haizhu District, Guangzhou City, Guangdong Province Patentee after: Guangdong Urban and Rural Planning and Design Institute Technology Group Co.,Ltd. Country or region after: China Address before: No. 483, Nanzhou Road, Haizhu District, Guangzhou, Guangdong 510300 Patentee before: Guangdong urban and rural planning and Design Institute Co.,Ltd. Country or region before: China |