CN112508376A

CN112508376A - 一种指标体系构建方法

Info

Publication number: CN112508376A
Application number: CN202011374120.XA
Authority: CN
Inventors: 易琳; 钱静; 邢秀为; 陈朝亮; 陈曦
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-16

Abstract

本申请属于资源与环境技术领域，特别是涉及一种指标体系构建方法。现有SDGs本土化评估方法，缺乏一种相对普适的自适应区域特征的指标体系构建方法。本申请提供了一种指标体系构建方法，包括构建数据组织体系，搭建区域专题数据库；对指标体系进行整理，按照子目标、子目标对应的子指标进行文本结构组织，并分别对目标和子指标进行分词，构建多层语义树；构建基于深度学习的特征词解析模型，从多层语义树提取出与最基本数据单元专题相关的关键词，形成语义特征集，对特征集进行处理，确定指标特征集；根据专题分类关键词，对指标特征集进行综合、归纳处理，生成指标体系。该方法扩大了适用范围，具有普适性。

Description

一种指标体系构建方法

技术领域

本申请属于资源与环境技术领域，特别是涉及一种指标体系构建方法。

背景技术

2015年，联合国所有会员国通过了可持续发展目标(Sustainable DevelopmentGoals，简称SDGs)，以呼吁到2030年前终结贫困、保护地球、确保所有人都能享受和平与繁荣，并提出了17个一体化的可持续发展目标，平衡社会、经济和环境的可持续性，旨在实现零贫困、零饥饿、零艾滋病及零对妇女和女孩的歧视。而实现这一宏伟目标，需要来自社会各方的创造力、专业知识、技术和财政资源，需要政府、私营部门、民间社会和公民共同合作。

联合国提出的各联合国可持续发展目(Sustainable Development Goals，SDGs)监测子目标多针对国家层面用一系列单一指标值来对国家的整体情况进行描述，旨在解决全球社会、经济和环境三个维度的发展问题。而指导、决策某个国家/地区的区域可持续发展，需要对其整个发展过程进行监测，了解各类地理单元的可持续发展特征；而各个国家/地区的地域特征和发展情况存在差异，SDGs监测的全面实施进展在不同国家和地区也存在较大差异。目前只有大约45％的SDGs指标实现了既有方法又有数据，约39％处于有方法无数据状态，还有多达16％的SDGs指标既没有统一的方法也没有数据。显然，指标数据的获取成为了影响SDGs全面实施的关键。

虽然，联合国强调要发挥地理空间信息在SDGs评估监测中的作用，并且IAEG-SDGs地理信息工作组提炼了最需使用地理信息的24个SDG指标，地球观测组织(GEO)成立了“对地观测支撑SDGs”计划。但统计和地理信息相结合的SDGs研究跨学科且涉及多机构协调，具有全球指标体系的科学理解、海量时空数据的融合处理、顾及地理视角的指标计算、基于事实的SDGs分析评估等诸多技术需求，尚处于概念设计、方法探讨和小范围试点阶段。

发明内容

1.要解决的技术问题

基于现有SDGs本土化评估方法多选择具体的某个或某几个子目标，结合具体研究区域的特征进行本土化研究，缺乏一种相对普适的自适应区域特征的指标体系构建方法的问题，本申请提供了一种指标体系构建方法。

2.技术方案

为了达到上述的目的，本申请提供了一种指标体系构建方法，所述方法包括如下步骤：步骤1：构建数据组织体系，搭建区域专题数据库；步骤2：对指标体系进行整理，按照子目标、子目标对应的子指标进行文本结构组织，并分别对目标和子指标进行分词，构建多层语义树；步骤3：构建基于深度学习的特征词解析模型，从所述多层语义树提取出与最基本数据单元专题相关的关键词，形成语义特征集，对所述特征集进行处理，确定指标特征集；步骤4：根据所述专题分类关键词，对所述指标特征集进行综合、归纳处理，生成指标体系。

本申请提供的另一种实施方式为：所述步骤1中对研究区可获取数据渠道进行梳理，对照通用数据类型构建本地数据库，针对所述数据获取容易程度设定专题类别分别为公共专题和特殊专题，通过与定义的目标层关键词进行模糊匹配，筛选剔除相关度极低的目标层关键词，得到数据可支撑的目标。

本申请提供的另一种实施方式为：所述数据库包括国家统计数据、以遥感为主要获取手段的地理空间数据和地面观测数据，所述公共专题包括国家统计数据目录和主要地理空间数据专题名称。

本申请提供的另一种实施方式为：所述步骤2通过文本分割、标注、关联模糊分类对指标文档进行处理和组织，构建所述多层语义树。

本申请提供的另一种实施方式为：所述文本分割是在停用词表整理基础上进行的，删除通用停用词、助词、语气词和标点。

本申请提供的另一种实施方式为：所述步骤3对特征集进行平滑处理和聚类，确定最终的指标特征集。

本申请提供的另一种实施方式为：所述步骤4对指标特征集进行模糊匹配、聚类、归纳综合和属性关联，进而自适应地生成区域指标体系。

本申请提供的另一种实施方式为：所述特征词解析模型为三层贝叶斯概率模型。

本申请提供的另一种实施方式为：所述步骤4根据所述三层贝叶斯概率模型输出的各主题对应的关键词的概率，进行聚类、归纳和总结得出各主题对应的关键词和短语，通过循环遍历所有所述关键词和短语，依次判断同一个主题对应的特征词是否同属相同目标、相同子指标并进行处理，得到可行的指标体系。

本申请提供的另一种实施方式为：所述处理包括对满足条件的所述关键词和短语，若所述关键词和短语数目等于对应主题的特征词数目，而且目标标识唯一，则用所述目标和子指标对应的原始指标全文替代所述多层语义树中对应的原始指标，同时删除所述主题对应的记录；若所述关键词和短语目标标识不唯一，则用对应指标全文替代的同时，保留当前关键词和短语做为新指标集的一部分，继续循环遍历。

3.有益效果

与现有技术相比，本申请提供的一种指标体系构建方法的有益效果在于：

本申请提供的指标体系构建方法，为一种基于机器学习的自适应区域特征的可持续发展(SDGs)指标体系构建方法。

本申请提供的指标体系构建方法，搭建一个基于机器学习算法的模型框架，自适应地根据获取的区域的社会统计数据、遥感数据、野外调查数据等多种指标数据源，匹配研究区域本土特征，遴选出适合该区域的本土化SDGs评估指标体系。

本申请提供的指标体系构建方法，于深度学习思路自适应区域数据特征的构建可实现指标体系，该方法扩大了适用范围，具有普适性，可加快各研究区域指标体系本土化，推动SDGs评估工作进程。

本申请提供的指标体系构建方法，基于深度学习思路构建的技术流程更具普适性，不单局限于特定尺度空间、特定研究区域。

本申请提供的指标体系构建方法，根据数据特征自适应地匹配提出的指标关键词形成新的指标体系，回避了人工筛选指标的主观性，减轻了复杂工作量。

本申请提供的指标体系构建方法，在归纳基于遥感手段可获取的地理信息数据和官方发布国家统计数据特征基础上，针对SDGs各子目标，基于机器学习算法构建自适应匹配算法，遴选出可实现的SDGs监测目标，自适应地建立区域SDGs指标体系。

附图说明

图1是本申请的指标体系构建方法流程示意图；

图2是本申请的数据可支撑的目标获取流程示意图；

图3是本申请的SDGs17个目标层关键词提取示意图；

图4是本申请的SDGs多层指标内涵特征解析流程示意图；

图5是本申请的多层语义树组织架构示意图；

图6是本申请的LDA主题模型原理与流程示意图。

具体实施方式

在下文中，将参考附图对本申请的具体实施例进行详细地描述，依照这些详细的描述，所属领域技术人员能够清楚地理解本申请，并能够实施本申请。在不违背本申请原理的情况下，各个不同的实施例中的特征可以进行组合以获得新的实施方式，或者替代某些实施例中的某些特征，获得其它优选的实施方式。

当前SDGs评估研究主要围绕如何根据研究区的区域特色实现指标数据或指标测算方法的本土化。根据评估指标数据源的不同，可将指标集本土化研究分为基于统计数据的、基于地理空间信息的和基于二者结合的本土化SDGs指标集；但这些指标体系的遴选思路局限于特定研究区，不同国家区域特征存在一定差异，难以直接借鉴。一些国家和组织利用统计信息结合研究区地域特征进行了SDGs评估监测，联合国西亚经社会专家根据20年时间序列统计信息完成了22个阿拉伯国家的SDGs进展与趋势评价,来自SustainableDevelopment Solutions Network(SDSN)的专家利用世界银行数据库和参考塔斯曼基金会与指示板进行了149个国家SDGs基准线评估，南非专家利用世界银行和粮农组织统计数据库进行了非洲南部农业可持续性评估等。

鉴于联合国可持续发展指标体系(SDGs)是考虑全球普适性、为国家层面实施而设计的，而基于国家这种行政区划组织的体系不能更好地描述完整地理单元的可持续发展过程。加之，不同国家和地区的地域特征和发展程度存在较大差异，致使指标数据获取难易程度不一致、不能充分反映不同国家和地区的特殊情况，难以直接应用到指定研究区域，阻碍了SDGs监测在不同发展水平国家之间的全面推进实施。联合国所有会员国通过的可持续发展目标(SDGs)旨在截至2030年，实现零贫困、零饥饿、零艾滋病及零对妇女和女孩的歧视。为实现这一宏伟目标，提出了涉及经济、环境、社会多个维度的领域，由17项目标，169项具体目标和超过230个指标构成的庞大指标体系。国数据获取难易度不一致，阻碍了该目标的全面实施。现有可持续发展目标(SDGs)评估指标本土化主要是围绕特定研究区，基于统计数据、地理空间信息和二者结合的三种思路分别构建本土化SDGs指标集。

如何根据各国/地区的区域特征，构建可实施的恰当指标体系，才能更好地指导国家实现这一宏伟目标，有助于促进SDGs监测工作的全面实施。

参见图1～6，本申请提供一种指标体系构建方法，所述方法包括如下步骤：步骤1：构建数据组织体系，搭建区域专题数据库；步骤2：对指标体系进行整理，按照子目标、子目标对应的子指标进行文本结构组织，并分别对目标和子指标进行分词，构建多层语义树；步骤3：构建基于深度学习的特征词解析模型，从所述多层语义树提取出与最基本数据单元专题相关的关键词，形成语义特征集，对所述特征集进行处理，确定指标特征集；步骤4：根据所述专题分类关键词，对所述指标特征集进行综合、归纳处理，生成指标体系。

梳理研究区基于遥感手段可获得的专题数据名，并根据专题名分类、关联已有官方统计数据，按专题、时间、数据类型构建数据组织体系，搭建区域专题数据库。并根据专题数据库的专题分类关键词，剔除不相关的SDGs目标。二、对SDGs指标体系进行整理，按照子目标、子目标对应的子指标进行文本结构组织，并分别对目标和子指标进行分词。三、构建基于深度学习的特征词解析模型，提取出与最基本数据单元专题相关的关键词，形成语义特征集。对特征集进行平滑处理和聚类，确定最终的指标特征集，如人口、灾害、土地退化、森林覆盖、用水量等。四、根据专题数据库的专题分类关键词，对指标特征集进行模糊匹配、聚类、归纳综合和属性关联等操作，进而自适应地生成区域SDGs指标体系。

进一步地，所述步骤1中对研究区可获取数据渠道进行梳理，对照通用数据类型构建本地数据库，针对所述数据获取容易程度设定专题类别分别为公共专题和特殊专题，通过与定义的目标层关键词进行模糊匹配，筛选剔除相关度极低的目标层关键词，得到数据可支撑的目标。

进一步地，所述数据库包括国家统计数据、以遥感为主要获取手段的地理空间数据和地面观测数据，所述公共专题包括国家统计数据目录和主要地理空间数据专题名称。

进一步地，所述步骤2通过文本分割、标注、关联模糊分类等数据清理和数据预处理操作对指标文档进行处理和组织，构建多层语义树。

进一步地，所述文本分割是在停用词表整理基础上进行的，删除通用停用词、助词、语气词和标点。

进一步地，所述步骤3对特征集进行平滑处理和聚类，确定最终的指标特征集。

进一步地，所述步骤4对指标特征集进行模糊匹配、聚类、归纳综合和属性关联，进而自适应地生成区域指标体系。

进一步地，所述特征词解析模型为三层贝叶斯概率模型。

进一步地，所述步骤4根据所述三层贝叶斯概率模型输出的各主题对应的关键词的概率，进行聚类、归纳和总结得出各主题对应的关键词和短语，通过循环遍历所有所述关键词和短语，依次判断同一个主题对应的特征词是否同属相同目标、相同子指标并进行处理，得到可行的指标体系。

进一步地，所述处理包括对满足条件的所述关键词和短语，若所述关键词和短语数目等于对应主题的特征词数目，而且目标标识唯一，则用所述目标和子指标对应的原始指标全文替代所述多层语义树中对应的原始指标，同时删除所述主题对应的记录；若所述关键词和短语目标标识不唯一，则用对应指标全文替代的同时，保留当前关键词和短语做为新指标集的一部分，继续循环遍历。

实施例

联合国提出的各SDGs监测子目标多针对国家层面用一系列单一指标值来对国家的整体情况进行描述，旨在解决全球社会、经济和环境三个维度的发展问题。而各个国家/地区的地域特征和发展情况存在差异，SDGs监测的全面实施进展在不同国家和地区也存在较大差异。如何根据各国/地区的区域特征，构建可实施的恰当的指标体系，有助于促进SDGs监测工作的全面实施。在梳理特定研究区域地理特征和社会经济发展水平基础上，对SDGs指标进行语义解析，通过与区域已有数据库特征进行匹配、关联，从而建立适合区域特征的可操作的SDGs指标体系(图1)。

SDGs涉及经济、环境、社会多个维度的领域，由17项目标，169项具体目标和超过230个指标构成，该体系复杂、多样、动态且相互关联。联合国根据目标评估操作和数据可获取的难易程度，对各项指标进行了分级。其中第一级定义为指标概念清晰，有国际公认的方法和标准，数据定期由各国编制(至少由50％的国家和人口编制)；第二级指标概念清晰，有国际公认的方法和标准，各国不定期的提供数据；第三级则为目前尚无国际公认的方法或标准作为指标，但方法学/标准正在(或)将被)开发或测试。

研究区域指标专题可支撑性分析，即根据SDGs的goal目标层，先剔除掉不具有适应性的评估目标，在下一个环节构建多层语义树的时候就降低了计算复杂度、减少了计算工作量。其具体流程见图2，首先对研究区可获取数据渠道进行梳理，对照通用数据类型构建本地数据库，即主要涉及国家统计数据、以遥感为主要获取手段的地理空间数据和地面观测数据；针对数据获取容易程度设定专题类别分别为公共专题和特殊专题，分别提取国家统计数据目录、主要地理空间数据专题名称作为公共专题，如地形、具体土地覆被类型(林地、草地、耕地、水域、道路等)；若研究区有地面观测数据等其他数据可根据数据内容定义数据专题。通过与定义的SDGs目标层关键词(如图3，包括气候变化、贫困、海洋、消费和生产、灾害、经济、司法机构、水和环境、陆地生态系统、全球伙伴关系、饥饿、国家发展、能源、性别、人类居住区和生活)进行模糊匹配，筛选剔除相关度极低的目标层关键词(如研究区统计目录不包括海洋/海域、陆地生态系统，对应目标层里剔除相应内容)，得到数据可支撑的SDGs目标。

深度学习能够有效的利用无监督数据，经过对数据的多层次建模从而得到数据的分布式表示，这样避免大量的手工特征提取工作，从而具有良好的泛化能力。如图4所示的SDGs多层指标内涵特征解析流程可知，先通过文本分割、标注、关联模糊分类等数据清理和数据预处理操作对SDGs指标文档进行处理和组织，并构建多层语义树，进而基于深度学习的思路识别和提取关键词，从而解析SDGs多层指标的内涵特征。

其中文本分割是在停用词表整理基础上进行的，删除通用停用词、助词、语气词、标点等。多层语义树构建见图5，通过空格、标点符号对各指标进行分词，并按照指标-若干词/短语组织字典(一个具体的指标为一个d)，并对该字典内的每个词/短语标注所属指标层、目标层和字典中词/短语的数目。通过输入字典、词袋模型生成的词袋、主题数、模型训练次数，对LDA主题模型(图6)进行迭代训练，直至模型收敛；输出最优学习结果。LDA(Latent Dirichlet Allocation)是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，一篇文章的每个词都是通过"以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语"这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。

LDA是一种非监督机器学习技术，可以用来识别大规模文档集(documentcollection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

最后根据LDA模型输出的各主题对应的关键词的概率，进行聚类、归纳和总结得出最终得各主题对应的关键词和短语。通过循环遍历所有关键词和短语，依次判断同一个主题对应的特征词是否同属相同SDGs目标、相同子指标，且满足条件的关键词和短语数目等于num标识、SDGs目标标识唯一，则用该目标和子指标对应的原始指标全文替代该指标，同时删除该主题对应的该条记录；若满足前面的条件但SDGs目标标识不唯一，则用对应指标全文替代的同时，保留当前关键词和短语做为新指标集的一部分，继续循环遍历。最终整理输出结果，即得到该区域可行性的指标体系。

尽管在上文中参考特定的实施例对本申请进行了描述，但是所属领域技术人员应当理解，在本申请公开的原理和范围内，可以针对本申请公开的配置和细节做出许多修改。本申请的保护范围由所附的权利要求来确定，并且权利要求意在涵盖权利要求中技术特征的等同物文字意义或范围所包含的全部修改。

Claims

1.一种指标体系构建方法，其特征在于：所述方法包括如下步骤：

步骤1：构建数据组织体系，搭建区域专题数据库；

步骤2：对指标体系进行整理，按照子目标、子目标对应的子指标进行文本结构组织，并分别对目标和子指标进行分词，构建多层语义树；

步骤3：构建基于深度学习的特征词解析模型，从所述多层语义树提取出与最基本数据单元专题相关的关键词，形成语义特征集，对所述特征集进行处理，确定指标特征集；

步骤4：根据所述专题分类关键词，对所述指标特征集进行综合、归纳处理，生成指标体系。

2.如权利要求1所述的指标体系构建方法，其特征在于：所述步骤1中对研究区可获取数据渠道进行梳理，对照通用数据类型构建本地数据库，针对所述数据获取容易程度设定专题类别分别为公共专题和特殊专题，通过与定义的目标层关键词进行模糊匹配，筛选剔除相关度极低的目标层关键词，得到数据可支撑的目标。

3.如权利要求2所述的指标体系构建方法，其特征在于：所述数据库包括国家统计数据、以遥感为获取手段的地理空间数据和地面观测数据，所述公共专题包括国家统计数据目录和地理空间数据专题名称。

4.如权利要求1所述的指标体系构建方法，其特征在于：所述步骤2通过文本分割、标注、关联模糊分类对指标文档进行处理和组织，构建所述多层语义树。

5.如权利要求4所述的指标体系构建方法，其特征在于：所述文本分割是在停用词表整理基础上进行的，删除通用停用词、助词、语气词和标点。

6.如权利要求1所述的指标体系构建方法，其特征在于：所述步骤3对特征集进行平滑处理和聚类，确定最终的指标特征集。

7.如权利要求1所述的指标体系构建方法，其特征在于：所述步骤4对指标特征集进行模糊匹配、聚类、归纳综合和属性关联，进而自适应地生成区域指标体系。

8.如权利要求1所述的指标体系构建方法，其特征在于：所述特征词解析模型为三层贝叶斯概率模型。

9.如权利要求8所述的指标体系构建方法，其特征在于：所述步骤4根据所述三层贝叶斯概率模型输出的各主题对应的关键词的概率，进行聚类、归纳和总结得出各主题对应的关键词和短语，通过循环遍历所有所述关键词和短语，依次判断同一个主题对应的特征词是否同属相同目标、相同子指标并进行处理，得到可行的指标体系。

10.如权利要求9所述的指标体系构建方法，其特征在于：所述处理包括对满足条件的所述关键词和短语，若所述关键词和短语数目等于对应主题的特征词数目，而且目标标识唯一，则用所述目标和子指标对应的原始指标全文替代所述多层语义树中对应的原始指标，同时删除所述主题对应的记录；若所述关键词和短语目标标识不唯一，则用对应指标全文替代的同时，保留当前关键词和短语做为新指标集的一部分，继续循环遍历。