CN115100322B

CN115100322B - 一种监督学习支持的多化简算法协同的线要素自适应化简方法及装置

Info

Publication number: CN115100322B
Application number: CN202210870579.1A
Authority: CN
Inventors: 杜佳威; 武芳; 钱海忠; 翟仁健; 邱越; 李安平; 殷吉崇
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2022-07-23
Filing date: 2022-07-23
Publication date: 2023-05-12
Anticipated expiration: 2042-07-23
Also published as: CN115100322A

Abstract

本发明公开一种监督学习支持的多化简算法协同的线要素自适应化简方法及装置，该方法包含三个主要过程：线要素优选化简方案案例的获取，监督学习支持的面向线化简方案优选任务的分类器构建与拟合，以及基于分类器的线要素渐进剖分与自适应化简。本发明避免了单一化简算法及固定化简参数值的针对性和局限性，实现了算法级、参数级更为丰富的多化简算法协同应用；基于数据驱动的监督学习策略，克服了主观分配化简算法的模糊性和不完备性；达到了曲线级、弧段级更细粒度的线要素自适应化简，提升了线要素自动化简效果，增强了线要素自动化简的可用性和实用性。

Description

一种监督学习支持的多化简算法协同的线要素自适应化简方法及装置

技术领域

本发明涉及空间数据处理、地图综合技术领域，尤其涉及一种监督学习支持的多化简算法协同的线要素自适应化简方法及装置。

背景技术

线要素化简是空间数据处理、地图综合中的重要研究内容和经典研究问题之一，已经积累了大量的自动化简算法。但是，这些化简算法往往各有侧重，适用于不同的特定化简任务。例如，有的化简算法针对某种几何形状的线要素，有的适用于某一特定地理环境，有的则面向某一具体制图应用。但在实际应用中，线要素形态多样，存在于各种地理环境交叉的复杂化简，且面向各种需求混合的应用场景，单一化简算法往往不能取得良好效果，成为制约自动化简应用的“最后一公里”的重要问题。研究能够合理协同多种化简算法、实现不同化简算法的优势互补的化简方法成为解决这一问题的关键，当前主要存在以下两种研究思路：一是，从原理上将不同化简算法组合成新的自动化简算法，实现优势互补；二是，区分不同线要素或线要素内的不同弧段，有针性地人为约定化简算法，实现多化简算法的协同应用和优势互补。虽然这两种思路都能协同部分化简算法，但必须建立在对已有化简算法清晰、准确理解基础上，往往只能协同少量化简算法，本质上无法避免线要素分类不完备的主观影响且不符合算法边界模糊的客观实际。

随着以机器学习为代表的智能方法在拟合主观分类、解决非线性问题、实现自适应优化等应用中效果良好，研究人员尝试利用机器学习方法自适应地选择与线要素相适应的化简算法，实现多种化简算法的自适应协同和优势互补。基于此思路的研究十分匮乏，且至少存在以下三点不足：一是，适用的化简对象单一，局限于对某种线要素不同化简算法的协同化简应用。发表于《International Journal of Geographical InformationScience》2022年第2期上一篇名为《A hybrid approach to building simplificationwith an evaluator from a backpropagation neural network》的论文利用人工神经网络从四种建筑物化简算法中选择恰当化简算法，但仅对建筑物轮廓一种线要素的化简研究，难以应用于类型各异、形态多样的各种线要素。二是，适用的化简算法片面，局限于对某类自动化简算法的协同应用。发表于《Pattern Recognition Letter》2011年第9期上一篇名为《Hybrid line simplification for cartographic generalization》的论文利用k-Means聚类算法自适应匹配化简弧段与化简算法以实现对建筑物、道路和水系混合的线要素化简应用，但是该方法只适于协同顶点取舍类的自动化简算法，无法合理协同包含新顶点生成、强调整体相似性保持的自动化简算法。三是，自适应程度相对粗糙，局限于对不同线要素自动匹配不同化简算法自适应研究，忽略了线要素内不同弧段、化简算法不同化简参数等更细粒度的自适应协同。具体而言：不同化简算法化简效果不同，适用于不同化简应用，而同一化简算法采用不同化简参数也可得到不同化简效果，也适用于不同化简应用；不同线要素几何形态、地理特征各部相同，需要匹配与之适应的化简算法及化简参数，而一条蜿蜒绵长的线要素内不同弧段的几何形态、地理特征也未必相同，各弧段也需要匹配与之相适应的化简算法及化简参数。

发明内容

本发明针对已有线要素化简方法局限性强、普适性弱、自适应程度不足等问题，提出一种监督学习支持的多化简算法协同的线要素自适应化简方法及装置，通过设计恰当的化简效果评价机制，使其适用于合理协同各种化简算法；通过大量样本的监督学习，构建从曲线形态特征到化简算法及化简参数选择的匹配器，使其适用于各种线要素的化简应用；设计基于匹配器的线要素渐进剖分方法，对待化简线要素不同弧段自适应选择最优化简算法及化简参数，实现更细粒度的自适应化简应用。

为了实现上述目的，本发明采用以下技术方案：

本发明一方面提出一种监督学习支持的多化简算法协同的线要素自适应化简方法，包括：

步骤1：基于已有多尺度矢量数据自动提取线要素优选化简方案的案例。基于积累的大量综合前后线要素和各种待协同的化简方案(即采用不同化简参数的不同化简算法)，自动提取海量线要素优选化简方案的案例。

步骤2：监督学习支持的面向线化简方案优选任务的分类器构建与拟合。将线化简方案优选的任务抽象为数学模型，并构建与数学模型相适应的分类器模型；通过对线要素优选化简方案的案例进行有监督学习，使分类器能够拟合从线要素特征到化简方案的映射。

步骤3：基于分类器的线要素渐进剖分与自适应化简。利用训练、测试后的分类器渐进剖分待化简线要素，并对各剖分结果采用分类器计算的化简算法及化简参数进行化简，完成线要素自适应化简。

进一步地，所述步骤1包括：

步骤1.1：从多尺度矢量数据成果中提取出与化简任务比例尺相一致的综合前、后线要素，记为{l₁}和{l₂}；

步骤1.2：匹配空间数据集{l₁}和{l₂}，并提取出1:1的匹配结果，记为{<l_t,l_t'>},其中且t∈[1,η]，η表示集合{<l_t,l_t'>}内<l_t,l_t'>的数量；

步骤1.3：分别利用多种化简方案(含m种化简算法，每种化简算法有u种参数设置方案)化简线要素l_t，记录各化简结果及时间消耗，其中m为采用的线要素化简算法总个数，每种化简算法的化简参数值有u 种设置方案，共有mu种化简方案，ε_k表示第k种化简方案对应的化简参数值，表示采用第j种线要素化简算法、第k种化简参数值得出的线要素化简结果；

步骤1.4：度量和l_t'的相似性，从中选择相似度最高、执行速度最快的化简结果F_{ε}(l_t)，F_{ε}(l_t)采用的化简方案即为最优化简方案；

步骤1.5：重复步骤1.3～1.4遍历{<l_t,l_t'>}，得到所有线要素优选化简方案的案例集合{<l_t,F_{ε}(l_t)>|t∈[1,η]}，其中l_t∈{l₁}。

进一步地，所述步骤2包括：

步骤2.1：设计、抽象线化简方案优选任务的数学模型。线化简方案优选任务旨在构建从线要素到最优化简方案的映射，即顾及数值计算需要，令{Ch_e(l_i)|e∈[1,r]} 表示对线要素l_i的r种特征项的量化度量，表示化简方案对应的数值编码。基于此，可进一步转换为

步骤2.2：构建与数学模型相适应的监督学习分类器。该分类器能够计算基于特征值{Ch_e(l_i)|e∈[1,r]}条件下选择化简方案的概率(即其中e∈[1,r])；进一步地，基于概率最大值确定最优化简方案，具体机制如下：

步骤2.3：从案例中提取与监督学习分类器相适应的样本集合。

步骤2.4：利用样本集合训练、测试监督学习分类器，使其能够用于拟合基于线要素特征的化简方案优选任务，训练、测试后的分类器基于线要素特征计算出概率最大的最优化简方案，具有较高的准确性。

进一步地，所述步骤3包括：

步骤3.1：对于任意由p(p>2)个顶点构成的线要素l＝{v₁,v₂,v₃,…,v_p}，利用训练、测试好的分类器对逐顶点渐进增长的弧段判定最优化简方案，当分类器计算的优选方案概率足够大且不再增大时停止增长并进行剖分，并记录分类器对各剖分弧段计算的优选化简方案编码；以剖分点作为新起点重复弧段渐增和概率计算，得到基于分类器的线要素剖分结果。

步骤3.2：根据化简方案编码中的对应关系，将分类器对各剖分弧段计算的优选化简方案编码解码为化简方案，利用化简方案对应的化简算法及化简参数对各剖分弧段进行化简，得到最终化简结果，完成线要素化简。

进一步地，所述步骤1.4包括：

步骤1.4.1：遍历利用整体相似性指标(如缓冲区限差、符号重叠率等)量化度量和l_t'的整体相似程度。若整体相似度最大的化简结果唯一，则整体相似度最大的化简结果即为F_{ε}(l_t)，其采用的化简方案即为最优化简方案；否则，将整体相似度未达到最大值的化简结果从中删除，执行下一步。

步骤1.4.2：遍历利用极限相似性指标(如 Hausdorff距离、Fréche距离等)量化度量和l_t'的极限相似程度，若极限相似度最大的化简结果唯一，则极限相似度最大的化简结果即为F_{ε}(l_t)，其采用的化简方案即为最优化简方案；否则，将极限相似度未达到最大值的化简结果从中删除，执行下一步。

步骤1.4.3：依据已记录的各化简方案时间消耗，从中选择时间消耗最小的化简结果，此化简结果即为F_{ε}(l_t)，其采用的化简方案即为最优化简方案。

进一步地，所述步骤2.1中线要素特征量化和化简方案数值编码包括：

步骤2.1.1：线要素特征的量化计算。其中，线要素的属性特征包括线要素类别、等级等，采用可解码的数值编码方法对属性特征进行编码及归一化处理；线要素的几何特征可从曲线整体、弯曲、邻近顶点三个层次进行度量，从曲线整体上可度量线要素长度、基线长度、高度等几何特征，从弯曲层次可度量弯曲数量、弯曲高度变异系数、弯曲对称度统计值等几何特征，从邻近顶点层次可度量顶点角度的变异系数、直线长度的均值等几何特征。

步骤2.1.2：化简方案的数值编码。采用可解码的数值编码方法(如独热编码)对各种化简方案进行数值编码，确保编码值与化简方案一一对应。

进一步地，所述步骤2.2包括：

步骤2.2.1：根据线要素的量化特征确定模型输入。

步骤2.2.2：根据化简方案数量及编码确定模型输出。

步骤2.2.3：选择合适的机器学习模型(如多层人工神经网络模型、贝叶斯模型等)构建从输入到输出的映射。

进一步地，所述步骤2.3包括：

步骤2.3.1：利用所述步骤2.1.1方法和2.1.2中方法计算l_t的特征项和F_{ε}(l_t) 的数值编码，遍历{<l_t,F_{ε}(l_t)>|t∈[1,η]}，得到{<{Ch_e(l_t)|e∈[1,r]},En(F_{ε}(l_t))>|t ∈[1,η]}。

步骤2.3.2：遍历各特征项，对每种特征项的所有特征值进行归一化处理，得到样本集{<{Nor(Ch_e(l_t))|e∈[1,r]},En(F_{ε}(l_t))>|t∈[1,η]}。其中，对l_t第e种特征项的归一化处理方法如下：

进一步地，所述步骤2.4包括：

步骤2.4.1：基于样本集和构建的监督学习分类器模型结构设计模型训练、测试策略。

步骤2.4.2：依训练、测试策略进行模型训练，自适应调整模型参数，且保证最终固化的模型参数在泛化应用中也具有较高的准确率。

进一步地，所述步骤3.1中，按照如下方式对线要素l进行渐进剖分：

步骤3.1.1：新建空集合res用于存储各剖分弧段，新建弧段l_i且令l_i＝{v₁,v₂}，新建变量z、x且令z＝3、x＝0。此外，预先设定阈值Thr以确保分类器预测结果足够可靠。

步骤3.1.2：若z≤p，则执行下一步；否则，执行步骤3.1.8。

步骤3.1.3：若对于任意e∈[1,r]存在Max{Ch_e(l_t),t∈[1,η]}]，则执行下一步；否则，执行步骤3.1.6。

步骤3.1.4：若分类器计算的同时大于x和Thr，则将顶点v_z加入弧段l_i中，令z＝z+1，并令执行步骤3.1.7；否则，固定l_i作为剖分弧段并加入剖分弧段集合res，执行下一步。

步骤3.1.5：若z＝p，则执行步骤3.1.8；否则，重新初始化l_i，令l_i＝{v_z,v_z+1}，再令z＝z+2，执行步骤3.1.7。

步骤3.1.6：将顶点v_z加入弧段l_i中，并令z＝z+1，执行下一步。

步骤3.1.7：若z>p，固定l_i作为剖分弧段并加入剖分弧段集合res，执行下一步；否则，返回步骤3.1.2。

步骤3.1.8：返回剖分弧段集合res＝{l_i}，并终止。

本发明另一方面还提出一种监督学习支持的多化简算法协同的线要素自适应化简装置，包括：

优选化简方案自动提取模块，用于基于已有多尺度矢量数据自动提取线要素优选化简方案的案例：基于积累的综合前后线要素和各种待协同的化简方案，自动提取海量线要素优选化简方案的案例；

监督学习分类器构建与拟合模块，用于监督学习支持的面向线要素化简方案优选任务的分类器构建与拟合：将线要素化简方案优选的任务抽象为数学模型，并构建与数学模型相适应的分类器模型；通过对线要素优选化简方案的案例进行有监督学习，使分类器能够拟合从线要素特征到化简方案的映射；

线要素渐进剖分与自适应化简模块，用于基于分类器的线要素渐进剖分与自适应化简：利用训练、测试后的分类器渐进剖分待化简线要素，并对各剖分结果采用分类器对应的线要素化简化简算法及化简参数进行化简，完成线要素自适应化简。

进一步地，所述优选化简方案自动提取模块具体用于：

步骤1.1、从多尺度矢量数据中提取出与化简任务比例尺相一致的综合前、后线要素集合{l₁}、{l₂}；

步骤1.2、匹配{l₁}和{l₂}，并提取出1:1的匹配结果，记为{<l_t,l_t'>},其中且t∈[1,η]，η表示集合{<l_t,l_t'>}内<l_t,l_t'>的数量；

步骤1.3、分别利用多种化简方案化简线要素l_t，记录各化简结果及时间消耗；其中m为采用的线要素化简算法总个数，每种化简算法的化简参数值有u种设置方案，共有mu种化简方案，ε_k表示第k 种化简方案对应的化简参数值，表示采用第j种线要素化简算法、第k种化简参数值得出的线要素化简结果；

步骤1.4、度量和l_t'的相似性，从中选择相似度最高、执行速度最快的化简结果F_{ε}(l_t)，F_{ε}(l_t)采用的化简方案即为最优化简方案；

步骤1.5、重复步骤1.3～1.4遍历{<l_t,l_t'>}，得到所有线要素优选化简方案的案例集合{<l_t,F_{ε}(l_t)>|t∈[1,η]}，其中l_t∈{l₁}；

所述步骤1.4包括：

步骤1.4.1、遍历利用整体相似性指标量化度量和l_t'的整体相似程度，若整体相似度最大的化简结果唯一，则整体相似度最大的化简结果即为F_{ε}(l_t)，其采用的化简方案即为最优化简方案；否则，将整体相似度未达到最大值的化简结果从中删除，执行下一步；

步骤1.4.2、遍历利用极限相似性指标量化度量和l_t'的极限相似程度，若极限相似度最大的化简结果唯一，则极限相似度最大的化简结果即为F_{ε}(l_t)，其采用的化简方案即为最优化简方案；否则，将极限相似度未达到最大值的化简结果从中删除，执行下一步；

步骤1.4.3、依据已记录的各化简方案时间消耗，从中选择时间消耗最小的化简结果，此化简结果即为F_{ε}(l_t)，其采用的化简方案即为最优化简方案。

进一步地，所述监督学习分类器构建与拟合模块具体用于：

步骤2.1、设计、抽象线要素化简方案优选任务的数学模型：其中{Ch_e(l_i)|e ∈[1,r]}表示对线要素l_i的r种特征项的量化度量，表示化简方案对应的数值编码；

步骤2.2、基于机器学习模型构建与数学模型相适应的监督学习分类器：

其中表示概率最大值；

步骤2.3、从案例中提取与监督学习分类器相适应的样本集合；

步骤2.4、利用样本集合训练、测试监督学习分类器，使其能够用于拟合基于线要素特征的化简方案优选任务，训练、测试后的分类器基于线要素特征计算出概率最大的最优化简方案；

所述步骤2.3包括：

步骤2.3.1、利用线要素特征量化计算方法计算l_t的特征项{Ch_e(l_t)|e∈[1,r]}，利用化简方案数值编码方法获取F_{ε}(l_t)的数值编码En(F_{ε}(l_t))，遍历{<l_t,F_{ε}(l_t)>| t∈[1,η]}，得到{<{Ch_e(l_t)|e∈[1,r]},En(F_{ε}(l_t))>|t∈[1,η]}；

步骤2.3.2、遍历各特征项，对每种特征项的所有特征值进行归一化处理，得到样本集{<{Nor(Ch_e(l_t))|e∈[1,r]},En(F_{ε}(l_t))>|t∈[1,η]}，其中，对l_t第e种特征项的归一化处理方法如下：

进一步地，所述监督学习分类器构建与拟合模块中，按照如下方式进行线要素特征量化：

采用可解码的数值编码方法对线要素的属性特征进行编码及归一化处理；

从曲线整体、弯曲、邻近顶点三个层次对线要素的几何特征进行度量，从曲线整体上度量得到的线要素几何特征包括曲线长度、基线长度、曲线高度、曲线与基线交点数量，从弯曲层次度量得到的线要素几何特征包括弯曲数量、弯曲高度的变异系数、弯曲对称度统计值，从邻近顶点层次度量顶点角度得到的线要素几何特征包括变异系数、顶点到曲线基线距离的平均值。

进一步地，所述监督学习分类器构建与拟合模块中，采用可解码的数值编码方法对各种化简方案进行数值编码，确保编码值与化简方案一一对应。

进一步地，所述线要素渐进剖分与自适应化简模块具体用于：

步骤3.1、对于任意由p个顶点构成的线要素l＝{v₁,v₂,v₃,…,v_p}，其中p>2，利用训练、测试好的分类器对逐顶点渐进增长的弧段判定最优化简方案，当分类器计算的优选方案概率足够大且不再增大时停止增长并进行剖分，并记录分类器对各剖分弧段计算的优选化简方案编码；以剖分点作为新起点重复弧段渐增和概率计算，得到基于分类器的线要素剖分结果；

步骤3.2、根据化简方案编码中的对应关系，将分类器对各剖分弧段计算的优选化简方案编码解码为化简方案，利用化简方案对应的化简算法及化简参数对各剖分弧段进行化简，得到最终化简结果，完成线要素化简；

所述步骤3.1中，按照如下方式对线要素l进行渐进剖分：

步骤3.1.1、新建空集合res用于存储各剖分弧段，新建弧段l_i且令l_i＝{v₁,v₂}，新建变量z、x且令z＝3、x＝0，预先设定阈值Thr；

步骤3.1.2、若z≤p，则执行下一步；否则，执行步骤3.1.8；

步骤3.1.3、若对于任意e∈[1,r]存在Max{Ch_e(l_t),t∈[1,η]}]，则执行下一步；否则，执行步骤3.1.6；

步骤3.1.4、若分类器计算的同时大于x和Thr，则将顶点v_z加入弧段l_i中，令z＝z+1，并令执行步骤3.1.7；否则，固定l_i作为剖分弧段并加入剖分弧段集合res，执行下一步；

步骤3.1.5、若z＝p，则执行步骤3.1.8；否则，重新初始化l_i，令l_i＝{v_z,v_z+1}，再令z＝z+2，执行步骤3.1.7；

步骤3.1.6、将顶点v_z加入弧段l_i中，并令z＝z+1，执行下一步；

步骤3.1.7、若z>p，固定l_i作为剖分弧段并加入剖分弧段集合res，执行下一步；否则，返回步骤3.1.2；

步骤3.1.8、返回剖分弧段集合res＝{l_i}，并终止。

与现有技术相比，本发明具有的有益效果：

(1)统筹协调了具有不同化简参数值的不同化简算法，有效集约了已有算法资源，克服了单一化简算法及固定化简参数值的针对性，实现了化简算法、化简参数的自适应选择，提高了自动化简效果，增强了自动化简方法的可用性和实用性。

(2)采用数据驱动的监督学习策略，从数据成果中学习线要素特征与化简算法、化简参数值的对应关系，减少了人工干预，降低了主观认识模糊性、不完备性等对化简算法选择的影响。

(3)设计了从线要素整体相似性、极限相似性和化简方案效率等多层次评价化简方案化简效果的评价策略，适用于基于顶点取舍、弯曲化简、新顶点插入等常见化简策略的各种化简算法，具有更加广泛的普适性，为进一步协同各种化简方法打下了基础。

(4)实现了粒度更细的弧段级线要素自适应化简，利用拟合的从线要素特征到化简方案抉择的映射指导弧段渐进剖分，以达到化简方案与剖分弧段充分适应的最优效果，实现了对不同线要素内不同弧段选用恰当化简算法及化简参数值的更细粒度自适应化简应用。

附图说明

图1为本发明实施例一种监督学习支持的多化简算法协同的线要素自适应化简方法流程的示意图；

图2为发明实施例中示例展示的1:25万和1:100万的道路、河流及区域边线；

图3为本发明实施例中基于人工神经网络构建的面向线化简方案优选的监督学习分类器示意图；

图4为利用本实施例构建的神经网络模型基于图2示例数据中提取出的1:1 匹配的综合前、后线要素对表4中10种化简方案进行监督学习过程中损失值的变化图；

图5为本发明实施例中利用面向线化简方案优选的分类器对某线要素进行渐进剖分过程的示意图；

图6为本发明实施例一种监督学习支持的多化简算法协同的线要素自适应化简装置结构示意图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

如图1所示，一种监督学习支持的多化简算法协同的线要素自适应化简方法，包含三个主要过程：线要素优选化简方案案例的获取，监督学习支持的面向线化简方案优选任务的分类器构建与拟合，以及基于分类器的线要素渐进剖分与自适应化简。

1、线要素优选化简方案的案例获取

基于积累的大量综合前后线要素和各种待协同的化简方案(即采用不同化简参数的不同化简算法)，自动提取大量线要素优选化简方案的案例，包括：

1.1)从多尺度矢量数据成果中提取出与化简任务比例尺相一致的综合前、后线要素，记为{l₁}和{l₂}。例如，将化简任务设定为从1:25万到1:100万线要素化简，则可从多尺度数量数据成果中检索出1:25万的河流、道路、区域边线等各种类型线要素以及对应的1:100万线要素，分别作为{l₁}和{l₂}。图2中(a)、 (b)、(c)分别展示了采用德国某地区1:25万和1:100万的道路、河流和区域边线三种线要素数据，其中，{l₁}包含了3种类型线要素共59525条，{l₂}包含了3 种类型线要素共22753条。

1.2)本实施例采用利用缓冲区匹配和长度匹配方法，从{l₁}和{l₂}中匹配出缓冲区重叠度大于70％且长度容差小于20％的1:1的线要素分别作为综合前、后线要素，记为{<l_t,l_t'>}，其中且t∈[1,η]，η表示集合{<l_t,l_t'>} 内<l_t,l_t'>的数量。依据于此，可从图2示例的{l₁}、{l₂}中提取出1:1匹配的综合前、后线要素共9063对，其中，1:1匹配道路2102对、河流4650对、区域边线 2311对。

1.3)明确待协同的各种化简方案(含m种化简算法，每种化简算法的化简参数值有u种设置方案)，并分别利用所设定的各种化简方案化简线要素l_t，记录各化简结果{F_j{εk}(l_t)|j∈[1,m],k∈[1,mu]}及时间消耗，具体包括：

(1)化简方案的选择和设置。化简方案集合是由采用不同化简参数值的化简算法构成的，化简算法和化简参数设置方法如下：

①化简算法选择。选择的化简算法既要足够丰富以应对各种化简情况，又要具有足够的代表性以便于模型学习。例如，选择Douglas-Peucker算法(详见1973 年发表于《Cartographica》期刊第10卷名为《Algorithms for the reduction of the number ofpoints required to represent a digitised line or its caricature》的论文)、 Li-Openshaw算法(详见1992年发表于《International Journal of GeographicalInformation Systems》期刊第6卷名为《Algorithms for automated linegeneralization based on a natural principle of objective generalization》的论文)、三元组法(详见 2017年发表于《武汉大学学报(信息科学版)》期刊第42卷名为《采用三元弯曲组划分的线要素化简方法》的论文)、六角格网法(详见2013年发表于《Cartographyand Geographic Information Science》期刊第40卷名为《Scale-specific automatedline simplification by vertex clustering on a hexagonal tessellation》的论文)四种化简算法，这四种化简方法是基于不同方法、策略的代表性化简方法：既有基于顶点的化简方法，又有基于弯曲的化简方法，既有通过取舍原顶点简化原线要素设计的化简方法，又有基于新顶点插入拟合化简后线要素设计的化简方法。

②化简参数设置。根据对化简尺度及化简算法的经验、认识，确定化简参数范围；采用等间距或不等间距分割的策略，从连续范围内选出具有代表性的离散值作为化简参数值。其中，化简参数范围可以适当放大些、离散值选择可以适当密集些，以涵盖各种化简情况；但无意义的放大化简参数范围或加密离散值，将增大学习成本、影响学习准确性。根据制图经验，一般认为化简参数范围在目标尺度下0.1mm～0.6mm之间；根据认知规律，小于图上0.05m的细微变化人眼基本难以辨别，离散值间距一般不小于图上0.05m。例如，面向从1:25万到1:100 万的化简应用，Douglas-Peucker算法化简参数值的范围在100m～600m(对应1:100万图上0.1mm～0.6mm)，以间距50m(对应1:100万图上0.05m)取12离散值100m、150m、…、55m、600m作为该算法的化简参数值。

③构建化简方案集合。若已选择m种化简算法，且每种化简算法采用u种化简参数值，则有mu个化简方案，构成了化简方案集合。

需要说明的是，以上设计的化简方案选择、参数值设置等适用于一般情况。在某些特殊情况下，在以上化简方案构建的基础上，可根据专家经验有选择的补充或剔除一些化简参数数值设置选项。例如，拟协同Douglas-Peucker算法、 Li-Openshaw算法、三元组法、六角格网法四种算法，采用以上方法自动设置参数值，包含48种化简方案；根据专家经验，仅利用从图2示例数据中提取出的 1:1匹配的9063综合前、后线要素难以对如此多化简方案进行学习、拟合；且根据已有经验知识，三元组法中常用的弯曲宽度阈值和深度阈值往往并不相等。因此，可在自动构建化简方案的基础上，选择代表性的10种作为最终化简方案，如表1所示。

表1 构建的化简方案示例

(2)依次执行各种化简方案化简线要素l_t，记录各化简结果及时间消耗。

1.4)度量和l_t'的相似性，从中选择相似度最高、执行速度最快的化简结果F_{ε}(l_t)，F_{ε}(l_t)采用的化简方案即为最优化简方案，具体包括：

(1)比较整体相似性。遍历利用整体相似性指标量化度量和l_t'的整体相似程度。若集合内整体相似度最大的化简结果唯一，则整体相似度最大的化简结果即为F_{ε}(l_t)，其采用的化简方案即为最优化简方案；否则，将整体相似度未达到最大值的化简结果从中删除，进一步比较极限相似性。

作为一种可实施方式，本实施例中，采用缓冲区限差作为度量和l_t' 整体相似程度的指标。缓冲区限差的具体计算参照2022年网络出版于期刊《Cartography andGeographic Information Science》名为《Polyline simplification based on theartificial neural network with constraints of generalization knowledge》的论文。例如，对于1:25万的线要素，以37.5m(图上0.1mm)作为缓冲区半径对l_t'构建缓冲区，中包含于该缓冲区内弧段占总长度的比值即为缓冲区限差。计算的缓冲区限差值越大，与l_t'的整体相似度就越大。

(2)比较极限相似性。遍历利用极限相似性指标量化度量和l_t'的极限相似程度，若极限相似度最大的化简结果唯一，则极限相似度最大的化简结果即为F_{ε}(l_t)，其采用的化简方案即为最优化简方案；否则，将极限相似度未达到最大值的化简结果从中删除，进一步比较时间消耗。

作为一种可实施方式，本实施例中采用Hausdorff距离作为度量和l_t' 极限相似程度的指标。为提高计算效率，本实施例中Hausdorff距离的计算具体参照2015年出版于《IEEE Transactions On Pattern Analysis And Machine Intelligence》期刊第37卷名为《An efficient algorithm for calculating the exact Hausdorff distance》的论文。计算的与l_t'间的Hausdorff距离越大，和l_t'极限相似程度越小。

(3)比较时间消耗。依据已记录的各化简方案时间消耗，从中选择时间消耗最小的化简结果，且此化简结果即为 F_{ε}(l_t)，其采用的化简方案即为最优化简方案。

1.5)遍历{<l_t,l_t'>}，依次利用1.3)中选定的化简方案化简l_t得到各种化简结果，再利用1.4)中方法从各化简方案化简结果中选择最优化简方案F_{ε}(l_t)，得到所有线要素优选化简方案的案例集合{<l_t,F_{ε}(l_t)>|t∈[1,η]}。

2、监督学习支持的面向线化简方案优选的分类器构建与拟合

将线化简方案优选的任务抽象为数学模型，并构建与数学模型相适应的分类器模型；通过对线要素优选化简方案的案例进行有监督学习，使分类器能够拟合从线要素特征到化简方案的映射；包括：

2.1)设计、抽象线化简方案优选任务的数学模型。线化简方案优选任务旨在构建从线要素到最优化简方案的映射，即顾及数值计算需要，令{Ch_e(l_i)|e∈[1,r]} 表示对线要素l_i的r种特征项的量化度量，表示化简方案对应的数值编码。基于此，可进一步转换为

其中，线要素特征量化和化简方案数值编码包括：

(1)线要素特征的量化计算。线要素包含属性特征和几何特征，需要对线要素的属性特征和几何特征进行量化。具体包括：

①线要素的属性特征包括线要素名称、类别、等级等，采用可解码的数值编码方法对属性特征进行编码及归一化处理。例如，采用独热编码对河流、道路、区域边线四种线要素进行编码，依次为[1,0,0]、[0,1,0]、[0,0,1]。受数据采集不确定性影响，已有数据中线要素属性特征容易缺失。此外，通常情况下，属性特征也不是决定线化简方案选择的关键因素。例如，经典的Douglas-Peucker算法即适用于道路要素，也适用于曲折的河流要素。因此，属性特征的量化作为可选项，不做强制要求。本实施例中，不对属性特征进行量化。

②线要素的几何特征包括线要素长度、光滑程度、曲折程度、复杂程度等，是影响化简算法、化简参数值选择的关键因素，是强制需要量化的必选项。本实例中，采用39种量化指标(记为Ch₁(l)～Ch₃₉(l)，详见表2)，从曲线整体、弯曲、邻近顶点三个层次对线要素几何特征进行度量。

表2 度量线要素几何特征的量化指标

(2)化简方案的数值编码。采用可解码的数值编码方法对各种化简方案进行数值编码，确保编码值与化简方案一一对应。本实施例中，采用独热(one-hot) 编码对m种化简算法、u种化简参数值构成的mu种化简方案进行数值编码，并构建编码表，如表3所示。基于此，对于表2化简方案进行数值编码的示例如表 4所示。

表3 化简方案的数值编码表

表4 对于表2化简方案进行数值编码的示例

2.2)构建与数学模型相适应的监督学习分类器。该分类器能够计算基于特征值{Ch_e(l_i)|e∈[1,r]}条件下选择化简方案的概率(即其中e∈[1,r])；进一步地，基于概率最大值确定最优化简方案，具体机制如下：

本实施例中，采用多层神经网络构建此监督学习分类器模型，如图3所示，包括：

(1)根据线要素的量化特征确定神经网络的输入层。本实施例中量化计算的线要素几何特征39项，Ch₁(l)～Ch₃₉(l)；因此，将神经网络分类器模型的输入层设置为39个输入神经元，与39个几何特征指标一一对应。

(2)根据化简方案数量及编码确定模型输出。本实施例中量化编码的线要素化简方案mu项；因此，将神经网络分类器模型的输出层设置为mu个输出神经元，与mu种化简方案一一对应。

(3)输入层和输出层之间包含多个隐藏层，通过全连接实现从输入到输出的映射。本实施例中，构建的全连接神经网络包含两个隐藏层，线要素l计算的几何特征值Ch₁(l)～Ch₃₉(l)被输入神经元接收，经由两个隐藏层到达输出层，计算结果为[value₁,…,value_mu]。训练过程中，输出神经元接收此线要素采用的最优化简方案的数值编码，并与[value₁,…,value_mu]比较自适应调整全连接神经网络参数；应用过程中，对[value₁,…,value_mu]进行解码，得到神经网络分类器选中的最优化简方案。本实施例中，设置2个隐藏层，其中，连接输出层的激活函数采用Softmax 函数，确保value₁,…,value_mu的和为1，同时使value₁,…,value_mu能够反映化简方案的概率值；其他神经层间连接都采用ReLu函数作为激活函数。

2.3)从案例中提取与监督学习分类器相适应的样本集合，具体包括：

(1)利用线要素特征的量化计算方法计算l_t的特征项，利用化简方案的数值编码方法对F_{ε}(l_t)的数值编码，遍历{<l_t,F_{ε}(l_t)>|t∈[1,η]}，得到每条线要素的特征值和对应最优化简方案的编码值。本实施例中，{<{Ch_e(l_t)|e∈[1,39]}, En(F_{ε}(l_t))>|t∈[1,η]}。

(2)遍历各特征项，对每种特征项的所有特征值进行归一化处理。本实施例中，对l_t第e种特征项的归一化处理方法如下：

得到样本集{<{Nor(Ch_e(l_t))|e∈[1,39]},En(F_{ε}(l_t))>|t∈[1,η]}。

2.4)利用样本集合训练、测试监督学习分类器，使其能够用于拟合基于线要素特征的化简方案优选任务，确保训练、测试后的分类器基于线要素特征计算出概率最大的最优化简方案，具有较高的准确性；具体包括：

(1)基于样本集和构建的监督学习分类器模型结构设计模型训练、测试策略。本实施例中，采用机器学习中常用的十折交叉验证方法进行训练和测试，直至所有分类的测试精度都大于阈值thr后终止训练。

(2)依训练、测试策略进行模型训练，自适应调整模型参数，确保最终固化的模型参数在泛化应用中也具有较高的准确率。本实施例中，采用交叉熵函数作为损失函数，采用Adam算法(详见https://arxiv.org/abs/1412.6980)自适应调整模型参数，且初始学习率设置为0.01。基于此，利用本实施例构建的神经网络模型，基于从图2示例数据中提取出的1:1匹配的9063综合前、后线要素，采用批量训练策略对表4中10种化简方案进行监督学习，令thr＝80％，经过1000 次循环就已达到要求。批量训练中批次内样本数量为128，训练过程中损失值变化如图4所示。

3、基于分类器的线要素渐进剖分与自适应化简

对于任意由p(p>2)个顶点构成的线要素l＝{v₁,v₂,v₃,…,v_p}，利用训练、测试好的分类器渐进剖分线要素，对各剖分弧段选用最优化简方案进行化简，实现线要素自适应化简应用，包括：

3.1)利用训练、测试好的分类器对逐顶点渐进增长的弧段判定最优化简方案，当分类器计算的优选方案概率足够大且不再增大时停止增长并进行剖分，并记录分类器对各剖分弧段计算的优选化简方案编码；以剖分点作为新起点重复弧段渐增和概率计算，得到基于分类器的线要素剖分结果。具体步骤如下：

步骤①：新建空集合res用于存储各剖分弧段，新建弧段l_i且令l_i＝{v₁,v₂}，新建变量z、x且令z＝3、x＝0。此外，预先设定阈值Thr以确保分类器预测结果足够可靠。其中，Thr需满足Thr>thr。

步骤②：若z≤p，则执行下一步；否则，执行步骤⑧。

步骤③：若对于任意e∈[1,r]存在Max{Ch_e(l_t),t∈[1,η]}]，则执行下一步；否则，执行步骤⑥。

步骤④：若分类器计算的同时大于x和Thr，则将顶点v_z加入弧段l_i中，令z＝z+1，并令执行步骤⑦；否则，固定l_i作为剖分弧段并加入剖分弧段集合res，执行下一步。

步骤⑤：若z＝p，则执行步骤⑧；否则，重新初始化l_i，令l_i＝{v_z,v_z+1}，再令z＝z+2，执行步骤⑦。

步骤⑥：将顶点v_z加入弧段l_i中，并令z＝z+1，执行下一步。

步骤⑦：若z>p，固定l_i作为剖分弧段并加入剖分弧段集合res，执行下一步；否则，返回步骤②。

步骤⑧：返回剖分弧段集合res＝{l_i}，并终止。

作为一种可实施方式，本实施例中，令Thr＝90％。本实施例基于以上步骤，对某线要素进行剖分的示意过程如图5所示。其中，弧段从{v₁,v₂,v₃}到{v₁,…,v₁₀} 逐顶点增长过程中，分类器对弧段预测化简方案的准确程度逐渐增加，直至超过 90％，得到第一分段，即l₁＝{v₁,…,v₁₀}；弧段从{v₁₀,v₁₁,v₁₂}到{v₁₁,…,v₁₄}逐顶点增长过程中，分类器对弧段预测化简方案的准确程度逐渐增加，但当增长至 {v₁₁,…,v₁₅}时分类器对弧段预测化简方案的准确程度不再增长，得到第二分段，即l₂＝{v₁₁,…,v₁₄}；类似地，弧段从{v₁₄,v₁₅,v₁₆}继续逐顶点增长直至终止顶点，得到第三分段，即l₃＝{v₁₄,…,v₁₈}。

3.2)根据化简方案编码中的对应关系，将分类器对各剖分弧段计算的优选化简方案编码解码为化简方案，本实施例中，按照表2解码化简方案。最后，利用化简方案对应的化简算法及化简参数对各剖分弧段进行化简，得到最终化简结果，完成线要素自适应化简应用。如图5所示，剖分弧段l₁采用第2种化简算法中的第2种参数设置值进行自动化简，弧段l₂采用第3种化简算法中的第2种参数设置值进行自动化简，弧段l₃采用第4种化简算法中的第1种参数设置值进行自动化简。

在上述实施例的基础上，如图6所示，本发明还提出一种监督学习支持的多化简算法协同的线要素自适应化简装置，包括：

综上，本发明：

第一方面统筹协调了具有不同化简参数值的不同化简算法，有效集约了已有算法资源，克服了单一化简算法及固定化简参数值的针对性，实现了化简算法、化简参数的自适应选择，提高了自动化简效果，增强了自动化简方法的可用性和实用性。

第二方面采用数据驱动的监督学习策略，从数据成果中学习线要素特征与化简算法、化简参数值的对应关系，减少了人工干预，降低了主观认识模糊性、不完备性等对化简算法选择的影响。

第三方面设计了从线要素整体相似性、极限相似性和化简方案效率等多层次评价化简方案化简效果的评价策略，适用于基于顶点取舍、弯曲化简、新顶点插入等常见化简策略的各种化简算法，具有更加广泛的普适性，为进一步协同各种化简方法打下了基础。

第四方面实现了粒度更细的弧段级线要素自适应化简，利用拟合的从线要素特征到化简方案抉择的映射指导弧段渐进剖分，以达到化简方案与剖分弧段充分适应的最优效果，实现了对不同线要素内不同弧段选用恰当化简算法及化简参数值的更细粒度自适应化简应用。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰(例如，将本实施例中面向线化简方案优选的分类器模型所采用的神经网络模型更换为其他机器学习模型，或更改监督学习模型的超参数及训练策略，或利用其他已知相似性指标度量自动化简结果与目标尺度线要素的相似性，或增加、改用其他已知线要素特征量化指标度量线要素特征，等等)，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种监督学习支持的多化简算法协同的线要素自适应化简方法，其特征在于，包括：

步骤1、基于已有多尺度矢量数据自动提取线要素优选化简方案的案例：基于积累的综合前后线要素和各种待协同的化简方案，自动提取海量线要素优选化简方案的案例；

步骤2、监督学习支持的面向线要素优选化简方案的分类器构建与拟合：将线要素化简方案优选的任务抽象为数学模型，并构建与数学模型相适应的分类器模型；通过对线要素优选化简方案的案例进行有监督学习，使分类器能够拟合从线要素特征到化简方案的映射；

步骤3、基于分类器的线要素渐进剖分与自适应化简：利用训练、测试后的分类器渐进剖分待化简线要素，并对各剖分结果采用分类器对应的线要素化简化简算法及化简参数进行化简，完成线要素自适应化简；

所述步骤1包括：

步骤1.2、匹配{l₁}和{l₂}，并提取出1:1的匹配结果，记为{<l_t,l_t'>},其中

且

t∈[1,η]，η表示集合{<l_t,l_t'>}内<l_t,l_t'>的数量；

步骤1.3、分别利用多种化简方案化简线要素l_t，记录各化简结果

及时间消耗；其中m为采用的线要素化简算法总个数，每种化简算法的化简参数值有u种设置方案，共有mu种化简方案，ε_k表示第k种化简方案对应的化简参数值，

表示采用第j种线要素化简算法、第k种化简参数值得出的线要素化简结果；

步骤1.4、度量

和l_t'的相似性，从

中选择相似度最高、执行速度最快的化简结果F_{ε}(l_t)，F_{ε}(l_t)采用的化简方案即为最优化简方案；

所述步骤2包括：

步骤2.1、设计、抽象线要素化简方案优选任务的数学模型：

其中{Ch_e(l_i)|e∈[1,r]}表示对线要素l_i的r种特征项的量化度量，

表示化简方案

对应的数值编码；

其中

表示概率最大值；

所述步骤3包括：

步骤3.2、根据化简方案编码中的对应关系，将分类器对各剖分弧段计算的优选化简方案编码解码为化简方案，利用化简方案对应的化简算法及化简参数对各剖分弧段进行化简，得到最终化简结果，完成线要素化简。

2.根据权利要求1所述的一种监督学习支持的多化简算法协同的线要素自适应化简方法，其特征在于，所述步骤1.4包括：

步骤1.4.1、遍历

利用整体相似性指标量化度量

和l_t'的整体相似程度，若整体相似度最大的化简结果唯一，则整体相似度最大的化简结果即为F_{ε}(l_t)，其采用的化简方案即为最优化简方案；否则，将整体相似度未达到最大值的化简结果从

中删除，执行下一步；

步骤1.4.2、遍历

利用极限相似性指标量化度量

和l_t'的极限相似程度，若极限相似度最大的化简结果唯一，则极限相似度最大的化简结果即为F_{ε}(l_t)，其采用的化简方案即为最优化简方案；否则，将极限相似度未达到最大值的化简结果从

中删除，执行下一步；

步骤1.4.3、依据已记录的各化简方案时间消耗，从

中选择时间消耗最小的化简结果，此化简结果即为F_{ε}(l_t)，其采用的化简方案即为最优化简方案。

3.根据权利要求1所述的一种监督学习支持的多化简算法协同的线要素自适应化简方法，其特征在于，所述步骤2.1中，按照如下方式进行线要素特征量化：

4.根据权利要求3所述的一种监督学习支持的多化简算法协同的线要素自适应化简方法，其特征在于，所述步骤2.1中，采用可解码的数值编码方法对各种化简方案进行数值编码，确保编码值与化简方案一一对应。

5.根据权利要求4所述的一种监督学习支持的多化简算法协同的线要素自适应化简方法，其特征在于，所述步骤2.3包括：

步骤2.3.1、利用线要素特征量化计算方法计算l_t的特征项{Ch_e(l_t)|e∈[1,r]}，利用化简方案数值编码方法获取F_{ε}(l_t)的数值编码En(F_{ε}(l_t))，遍历{<l_t,F_{ε}(l_t)>|t∈[1,η]}，得到{<{Ch_e(l_t)|e∈[1,r]},En(F_{ε}(l_t))>|t∈[1,η]}；