CN110689230A

CN110689230A - 一种区域的贫困程度确定方法、电子装置及存储介质

Info

Publication number: CN110689230A
Application number: CN201910823330.3A
Authority: CN
Inventors: 陈娴娴; 阮晓雯; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2020-01-14
Anticipated expiration: 2039-09-02
Also published as: CN110689230B

Abstract

一种区域的贫困程度确定方法、电子装置和存储介质，可根据待分析贫困区域的数据进行贫困区域画像得到第一贫困区域画像；对该画像进行数据异常筛查和异常恢复处理得到第二贫困区域画像；对第二贫困区域画像降维得到第三贫困区域画像；利用随机森林模型分析第三贫困区域画像，得到各待分析贫困区域的贫困等级的第一分类结果，将该结果作为新的画像维度加、入第三贫困区域画像得到第四贫困区域画像，通过GRU模型分析第四贫困区域画像，得到各待分析贫困区域的贫困等级的第二分类结果，上述降维处理降低了计算机的数据处理量和资源占用量，而画像的异常筛查和异常恢复处理，结合随机森林模型和GRU模型的组合，有效提升了贫困程度的分析准确度。

Description

一种区域的贫困程度确定方法、电子装置及存储介质

技术领域

本申请涉及数据分析领域，尤其涉及一种区域的贫困程度确定方法、电子装置及存储介质。

背景技术

在我国，脱贫仍是需要长时间关注的问题，经各地核实，截至2018年第三季度，需救治建档立卡的贫困患者还有约1000万人，其中未脱贫患者还有接近500万人，如河北省、贵州省以及甘肃省等部分省市的贫困情况仍比较严峻。在全国20余省、市和自治区中，不同区域贫困人口数量和贫困原因等都不尽相同，不能一概而论。而实际上，贫困的帮扶资源、空间以及时间等都有不同的局限性，如何确定各个区域的实际贫困程度，进而合理地进行贫困程度的先后帮扶规划，成为非常重要的规划研究点。

相关技术中，准确确定多个区域的贫困程度，需要对贫困区域的数量繁多的贫困相关的信息进行分析，例如贫困人口数量、地理位置、贫困原因以及家庭成员情况等等，这些数据在分析的过程中可能又会衍生出更多的数据，所以如何在保证对贫困程度的划分准确性的同时，还降低分析的数据量是需要解决的问题。

发明内容

本申请实施例提供一种区域的贫困程度确定方法、电子装置及存储介质，可保证对区域的贫困程度的划分准确度，并有效降低划分贫困程度时需要分析的数据量。

本申请实施例第一方面提供一种区域的贫困程度确定方法，该方法包括：

获取若干待分析贫困区域的贫困情况调研数据，根据所述贫困情况调研数据，对各所述待分析贫困区域进行贫困区域画像得到第一贫困区域画像；

对所述第一贫困区域画像进行数据异常筛查，对筛查出的异常数据进行异常恢复处理，得到满足预设规范的第二贫困区域画像，其中，所述预设规范为不存在画像数据缺失，且画像数据的分布与正态分布的差异在预设范围内；

对所述第二贫困区域画像的画像维度进行降维处理得到第三贫困区域画像，其中，所述第三贫困区域画像的画像维度的数量低于所述第二贫困区域画像的画像维度的数量；

利用预设的随机森林模型基于所述第三贫困区域画像，对各所述待分析贫困区域的贫困程度进行分析，得到各所述待分析贫困区域的贫困等级的第一分类结果，将各所述待分析贫困区域的贫困等级作为新的画像维度集成到所述第三贫困区域画像中得到第四贫困区域画像，通过GRU神经网络模型基于所述第四贫困区域画像对各所述待分析贫困区域的贫困程度进行分析，得到各所述待分析贫困区域的贫困等级的第二分类结果；

根据所述第二分类结果，确定各所述待分析贫困区域的贫困程度。

可选的，所述对所述第二贫困区域画像的画像维度进行降维处理得到第三贫困区域画像包括：

采用预设的学习模型对所述第二贫困区域画像进行分析，得到所述第二贫困区域画像的画像维度的特征重要性；

基于所述特征重要性，保留所述第二贫困区域画像的画像维度中所述特征重要性满足预设条件的画像维度，删除其它画像维度，得到第三贫困区域画像。

可选的，所述对所述第一贫困区域画像进行数据异常筛查，对筛查出的异常数据进行异常恢复处理，得到满足预设规范的第二贫困区域画像包括：

对所述第一贫困区域画像的各列数据进行筛查，确定原始缺失数据值和未缺失的数据值中的异常数据值，将所述异常数据值删除；

基于预设的填充算法对所述第一贫困区域画像中实际缺失的数据值进行填充，得到第二贫困区域画像。

可选的，所述对所述第一贫困区域画像的各列数据进行筛查，确定原始缺失数据值和未缺失的数据值中的异常数据值，将所述异常数据值删除包括：

识别所述第一贫困区域画像的各列数据中的原始缺失数据值；

对所述第一贫困区域画像的所述各列数据，通过以下步骤a和b进行异常数据值的检验：

步骤a、对于所述第一贫困区域画像的列数据a₁,…,a_n，通过min＝Q₂-k×IQR以及max＝Q₁+k×IQR公式计算得到所述列数据的数据值中的max值与min值，其中，所述Q₁为所述列数据的上四分位数，Q₂为所述列数据的下四分位数，IQR＝Q₁-Q₂，所述k表示对异常值的忍耐度；

步骤b、识别所述列数据中满足a_m<min或者a_m>max的数据值，将识别出的数据值确认为异常数据值；

将确认出的所述异常数据值删除。

可选的，所述基于预设的填充算法对所述第一贫困区域画像中实际缺失的数据值进行填充，得到第二贫困区域画像包括：

确定所述第一贫困区域画像中缺失数据值的列数据，作为目标列数据；

基于预设的填充算法，根据各所述目标列数据中未缺失的数据值，推测对应的目标列数据中实际缺失的数据值；

将推测出的数据值，填充在所述第一贫困区域画像中的对应于所述推测出的数据值的目标列数据中，得到第二贫困区域画像。

可选的，所述获取若干待分析贫困区域的贫困情况调研数据包括：

获取若干待分析贫困区域的识别信息；

基于所述识别信息从预设数据库中，获取对应的待分析贫困区域的贫困情况调研数据。

可选的，在所述根据所述第二分类结果，确定各所述待分析贫困区域的贫困程度后，还包括：

基于各所述待分析贫困区域的贫困程度，确定各所述待分析贫困区域的扶贫先后顺序。

本申请实施例第二方面提供一种电子装置，该电子装置包括：

分析模块，用于获取若干待分析贫困区域的贫困情况调研数据，根据所述贫困情况调研数据，对各所述待分析贫困区域进行贫困区域画像得到第一贫困区域画像；

数据处理模块，用于对所述第一贫困区域画像进行数据异常筛查，对筛查出的异常数据进行异常恢复处理，得到满足预设规范的第二贫困区域画像，其中，所述预设规范为不存在画像数据缺失，且画像数据的分布与正态分布的差异在预设范围内；

降维模块，用于对所述第二贫困区域画像的画像维度进行降维处理得到第三贫困区域画像，其中，所述第三贫困区域画像的画像维度的数量低于所述第二贫困区域画像的画像维度的数量；

分级模块，用于利用预设的随机森林模型基于所述第三贫困区域画像，对各所述待分析贫困区域的贫困程度进行分析，得到各所述待分析贫困区域的贫困等级的第一分类结果，将各所述待分析贫困区域的贫困等级作为新的画像维度集成到所述第三贫困区域画像中得到第四贫困区域画像，通过GRU神经网络模型基于所述第四贫困区域画像对各所述待分析贫困区域的贫困程度进行分析，得到各所述待分析贫困区域的贫困等级的第二分类结果；

确定模块，用于根据所述第二分类结果，确定各所述待分析贫困区域的贫困程度。

本申请实施例第三方面提供一种电子装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本申请实施例第一方面的方法中的步骤。

本申请实施例第四方面提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现本申请实施例第一方面的方法中的步骤。

本申请实施例公开了一种区域的贫困程度确定方法、电子装置和存储介质，根据获取的待分析贫困区域的贫困情况调研数据，对各待分析贫困区域进行贫困区域画像得到第一贫困区域画像；对第一贫困区域画像进行数据异常筛查，对筛查出的异常数据进行异常恢复处理，得到满足预设规范的第二贫困区域画像；对第二贫困区域画像的画像维度进行降维处理得到第三贫困区域画像；利用预设的随机森林模型基于第三贫困区域画像，对各待分析贫困区域的贫困程度进行分析，得到各待分析贫困区域的贫困等级的第一分类结果，将各待分析贫困区域的贫困等级作为新的画像维度集成到第三贫困区域画像中得到第四贫困区域画像，通过GRU神经网络模型基于第四贫困区域画像对各待分析贫困区域的贫困程度进行分析，得到各待分析贫困区域的贫困等级的第二分类结果；根据第二分类结果，确定各待分析贫困区域的贫困程度，在上述对待分析贫困区域的分析过程中，画像维度的降维处理可以有效降低划分贫困程度时需要分析的数据量，降低计算机的资源占用量，提升计算机的处理效率，而画像的异常筛查和异常恢复处理，提升了数据质量，再结合随机森林模型和GRU神经网络模型的组合，有效提升了对待分析贫困区域的贫困程度的分析准确度。

附图说明

图1为本申请提供的一种电子装置的硬件结构示意图；

图2为本申请第一实施例提供的区域的贫困程度确定方法的流程示意图；

图3为本申请第一实施例中，一个画像中的列数据中划分

以及

的示意图；

图4为本申请第二实施例提供的一种电子装置的结构示意图；

图5为本申请第二实施例提供的另一种电子装置的结构示意图。

具体实施方式

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图1，图1示出了一种电子装置的结构框图。本发明实施例提供的区域的贫困程度确定方法可应用于如图1所示的电子装置10中，电子装置10包括但不限于：移动终端如智能手机和笔记本电脑等，以及固定终端如台式电脑、服务器及智能电视等等。

如图1所示，电子装置10包括存储器101、存储控制器102，一个或多个(图中仅示出一个)处理器103、外设接口104及触控屏幕105。这些组件通过一条或多条通讯总线/信号线106相互通讯。

可以理解，图1所示的结构仅为示意，其并不对电子装置的结构造成限定。电子装置10还可包括比图1所示更多或者更少的组件，或者具有与图1所示不同的配置。图1所示的各组件可以采用硬件、软件或其组合实现。

存储器101可用于存储软件程序以及模块，如本发明实施例中的区域的贫困程度确定方法及电子装置对应的程序指令/模块，处理器103通过运行存储在存储器101内的软件程序以及模块，从而执行各种功能应用以及数据处理，例如实现上述的贫困程度确定方法。

存储器101可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器101可进一步包括相对于处理器103远程设置的存储器，这些远程存储器可以通过网络连接至电子装置10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。处理器103以及其他可能的组件对存储器101的访问可在存储控制器102的控制下进行。

外设接口104将各种输入/输入装置耦合至CPU以及存储器101。处理器103运行存储器101内的各种软件、指令以执行电子装置10的各种功能以及进行数据处理。

在一些实施例中，外设接口104，处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

触控屏幕105在电子装置与用户之间同时提供一个输出及输入界面。具体地，触控屏幕105向用户显示视频输出，这些视频输出的内容可包括文字、图形、视频、及其任意组合。触控屏幕105的一些输出结果是对应于一些用户界面对象。触控屏幕105还接收用户的输入，例如用户的点击、滑动等手势操作，以便用户界面对象对这些用户的输入做出响应。检测用户输入的技术可以是基于电阻式、电容式或者其他任意可能的触控检测技术。触控屏幕105显示单元的具体实例包括但并不限于液晶显示器或发光聚合物显示器。

基于上述电子装置描述本发明实施例中的贫困程度确定方法。

第一实施例：

参见图2，本实施例示出了一种区域的贫困程度确定方法，该方法包括：

步骤201、获取若干待分析贫困区域的贫困情况调研数据，根据贫困情况调研数据，对各待分析贫困区域进行贫困区域画像得到第一贫困区域画像；

本实施例中，待分析贫困区域可以是以任意方法划分的区域，例如可以是以省、市、县、区等行政区域划分的区域，也可以是以经度、纬度等信息划分的区域。可选的，本实施例中对待分析贫困区域的数量、大小和地理位置等没有任何限制。在一个示例中，贫困情况调研数据中包含了与待分析贫困区域的贫困情况相关的信息。而与待分析贫困区域的贫困情况相关的信息包括但不限于可以反映待分析贫困区域的贫困现状的信息(例如待分析贫困区域的地理环境、贫困人口占比、人均GDP、贫困人口的年龄分布、性别分布和学历水平分布等等信息)，以及可以反映待分析贫困区域的贫困原因的信息(例如待分析贫困区域是否是因病致贫，待分析贫困区域的交通便利性、学龄儿童的辍学比例，以及最高文化水平为初中至大学等各个阶段的人口比例等等)。

本实施例中，获取若干待分析贫困区域的贫困情况调研数据包括：获取若干待分析贫困区域的识别信息；基于识别信息从预设数据库中，获取对应的待分析贫困区域的贫困情况调研数据。其中，识别信息可以是待分析贫困区域的名称，或者地理范围等等。

可选的，第一贫困区域画像的画像维度可以根据实际需要任意选择和设置，本实施例对此没有限制，例如可以对待分析贫困区域进行坐标省、市和自治区的区域画像，GDP等经济指标的画像，贫困人口数量、贫困人口占比、因病致贫比例等贫困信息的画像等等，全方位地筛查各待分析贫困区域的画像信息。并且第一贫困区域画像的画像维度的数量不限，可以是100或200等任意正数。

步骤202、对第一贫困区域画像进行数据异常筛查，对筛查出的异常数据进行异常恢复处理，得到满足预设规范的第二贫困区域画像，其中，预设规范为不存在画像数据缺失，且画像数据的分布与正态分布的差异在预设范围内；

本实施例中，画像数据的分布与正态分布的差异在预设范围内，可以理解为第一贫困区域画像的各维度的画像数据(即各列数据)的分布与正太分布的差异在预设范围内，以保证各维度的画像数据(即各列数据)的分布与正太分布相似。

可选的，本实施例中，可以通过填充算法与模型相结合的模式，对第一贫困区域画像的画像数据中部分异常数据值、或原本缺失的数据值进行填充。其中，填充算法可以是求平均算法、Rpart填充算法以及KNN(k-Nearest Neighbor，K最近邻)算法等等，本实施例对此没有限制。

可选的，对第一贫困区域画像进行数据异常筛查，对筛查出的异常数据进行异常恢复处理，得到满足预设规范的第二贫困区域画像包括：对第一贫困区域画像的各列数据进行筛查，确定原始缺失数据值和未缺失的数据值中的异常数据值，将异常数据值删除；基于预设的填充算法对第一贫困区域画像中实际缺失的数据值进行填充，得到第二贫困区域画像。

在一个实施例中，可以基于四分位数对第一贫困区域画像进行数据异常的检测。分位数是将总体的全部数据按大小顺序排列后，处于各等分位置的变量值。本实施例中，Q₁为第一贫困区域画像的某一列数据的上四分位数，Q₂为该列数据的下四分位数。IQR＝Q₁-Q₂，为上下四分位数之差，包含了全部观测值的一半，K值表示对异常值的忍耐程度，一般地，取k＝1.5，但是在实际中，k并不局限于1.5，可以根据需要设置k的值。

可选的，对第一贫困区域画像的各列数据进行筛查，确定原始缺失数据值和未缺失的数据值中的异常数据值，将异常数据值删除包括：

识别第一贫困区域画像的各列数据中的原始缺失数据值；

对第一贫困区域画像的各列数据，通过以下步骤a和b进行异常数据值的检验：

步骤a、对于第一贫困区域画像的列数据a₁,…,a_n，通过min＝Q₂-k×IQR以及max＝Q₁+k×IQR公式计算得到列数据的数据值中的max值与min值；

步骤b、识别列数据a₁,…,a_n中满足a_m<min或者a_m>max的数据值，将识别出的数据值确认为异常数据值；

将确认出的异常数据值删除。

其中，将确认出的异常数据值删除包括：将确认出的异常数据值赋值为NAN，即填充为空值。

上述缺失值处理方法能够帮助我们剔除数据列中偏离数据正常取值范围中的数据，使得整体上各维度数据更平滑，为后续数据建模作结构化数据预处理准备，在数据维度上提升模型准确率等评估的可调式空间，在很大程度上能提升整体建模效果。

可选的，本实施例中基于预设的填充算法对第一贫困区域画像中实际缺失的数据值进行填充，得到第二贫困区域画像包括：确定第一贫困区域画像中缺失数据值的列数据，作为目标列数据；基于预设的填充算法，根据各目标列数据中未缺失的数据值，推测对应的目标列数据中实际缺失的数据值；将推测出的数据值，填充在第一贫困区域画像中的与推测出的数据值对应的目标列数据中，得到第二贫困区域画像。

针对原始缺失数据值以及异常值检测后数据出现的缺失值，部分模型无法处理这样带有缺失值的画像数据，因此我们可以借助上述的预设的填充算法来进行填充。例如，选择求平均算法作为预设的填充算法，对于各目标列数据，求其平均值，作为缺失的数据值的填充值。当然，在其他示例中还可以选择如Rpart填充算法以及KNN(k-Nearest Neighbor，K最近邻)算法等算法作为预设的填充算法，本实施例对此没有限制。

在一个示例中，选择树模型算法(即missForest算法)作为预设的填充算法进行填充。可选的，基于预设的填充算法，根据各目标列数据中未缺失的数据值，推测对应的目标列数据中实际缺失的数据值包括步骤c-f：

步骤c、将第一贫困区域画像中的列数据看作一个矩阵n*p的特征矩阵X，X＝(X1,X2,...,Xp)，变量Xs(1≤s≤p)是目标列数据的变量，其表示第一贫困区域画像中的某一个维度的数据，将第一贫困区域画像中的列数据分为四部分以及

分别表示变量Xs的观测值(未缺失的值)、Xs的缺失值、Xs以外的变量中与Xs的观测值在相同行的观测值、以及Xs以外的变量中与Xs的缺失值在相同行的观测值；

参见图3，图3为作为示例说明的，列数据中划分的

以及

的示意图。

步骤d、对所有的变量Xs进行初始填充；

其中，在初始填充时，若变量Xs为连续型值，可利用变量Xs的中位数或平均数代替变量Xs的缺失值，若变量Xs为离散型，可利用变量Xs的众数代替变量Xs的缺失值；

步骤e、通过和

不断训练随机森林模型，使得随机训练模型学习和

之间的对应关系，不断基于

预测并根据每一次迭代之后预测的

以及该次迭代之前的一次迭代中预测的

(在第一次训练时，是根据训练后预测得到的

以及原始的

)，计算随机森林模型的收敛指标，其中，该收敛指标表示迭代中前后相邻的两次预测的的变化大小，对于连续型变量，收敛指标为

对于离散型变量，收敛指标为

其中Nnan表示在离散变量中的总的缺失值数量，X_new为本次迭代后预测的

X_old为前一次迭代后预测的

步骤f、若随机森林模型的收敛指标低于预设指标阈值，则确定随机森林训练完成；将Xs以外的变量的

输入训练完成的随机森林模型，得到对应的

将

作为的变量Xs(即目标列数据)中缺失的数据值的填充值。

上述将推测出的数据值，填充在第一贫困区域画像中的与推测出的数据值对应的目标列数据中，得到第二贫困区域画像包括：将随机森林模型得到的

填充在对应的目标列数据中，得到第二贫困区域画像。

可选的，本实施例中，上述步骤e中的随机森林模块和下列步骤204中的随机森林模型不同。

可选的，对于画像而言，画像字段(画像的列数据)的饱和度是画像数据质量分析中比较基础的一项。举个例子来说坐标省市自治区等区域画像，包含区域面积、是否属于西部、是否属于东部、是否是自治区、地貌等画像字段(可以理解为画像维度)，而每一列数据都可能会存在缺失值，假设某一列一共有1w行，但其中有200行数据是缺失的，则该列的字段饱和度为98％。假设第一贫困区域画像的某一列有缺失值(意味着对应的贫困区域缺失该列的数据)。

在一个实施例中，上述对第一贫困区域画像进行数据异常筛查还包括：确定第一贫困区域画像的各列数据的字段饱和度，将字段饱和度低于预设阈值的列数据删除。该示例中删除列数据的方案可以在上述对缺失数据值和异常数据值的筛查和填充步骤之前进行。

步骤203、对第二贫困区域画像的画像维度进行降维处理得到第三贫困区域画像，其中，第三贫困区域画像的画像维度的数量低于第二贫困区域画像的画像维度的数量；

可选的，一个示例中，对第二贫困区域画像的画像维度进行降维处理得到第三贫困区域画像包括：采用预设的学习模型对第二贫困区域画像进行分析，得到第二贫困区域画像的画像维度的特征重要性；基于特征重要性，保留第二贫困区域画像的画像维度中特征重要性满足预设条件的画像维度，删除其它画像维度，得到第三贫困区域画像。

在实际中，贫困区域的贫困区域画像的维度一般来说包括地域画像、经济指标画像、贫困信息画像等等，再加上一些特征衍生的方法，譬如说矩阵行简单计算如求平均、最大最小值、方差、标准差，以及可能涉及一些特征衍生的算法，譬如说采用tsfresh包进行特征扩充。这一类特征扩充算法完成后，贫困区域画像的整个维度(也就是画像数据表格的列)已经非常多了，可能达到千位数，但是这么多数据一起输入模型会使得计算量非常大，因此我们要采用一些方法进行筛选，把质量好的画像列数据保留，质量差的画像列数据筛除，实现画像数据降维，降低计算机的数据处理量，提升计算机的数据处理效率。

其中，满足预设条件的画像维度可以是特征重要性排列在前的预设数量的画像维度。

可选的，本实施例中可以选取Xgboost模型(但并不限于这个模型)作为预设的学习模型进行第二贫困区域画像的分析，Xgboost模型在学习的过程中会输出第二贫困区域画像的各个列数据(画像维度)的重要程度，譬如Xgboost模型输出的结果为最重要的画像维度的feature importance为0.3，次之的画像维度的feature importance为0.1，再次之的画像维度的feature importance为0.03等等，我们通过对特征重要性的排序，可以选择排列在前的一定数量的画像维度(例如选择前50的画像维度)作为第三贫困区域画像的画像维度，从而得到第三贫困区域画像。当然还可以选择feature importance的数值在预设的重要性阈值之上的画像维度作为第三贫困区域画像的画像维度，从而得到第三贫困区域画像。

步骤204、利用预设的随机森林模型(RandomForest模型)基于第三贫困区域画像，对各待分析贫困区域的贫困程度进行分析，得到各待分析贫困区域的贫困等级的第一分类结果，将各待分析贫困区域的贫困等级作为新的画像维度集成到第三贫困区域画像中得到第四贫困区域画像，通过GRU神经网络模型基于第四贫困区域画像对各待分析贫困区域的贫困程度进行分析，得到各待分析贫困区域的贫困等级的第二分类结果；

本实施例中，对贫困等级的设置没有限制，可以根据实际情况确定，例如贫困等级分为10个等级，相对而言贫困程度最高的区域的贫困等级是1级，贫困程度最低的区域的贫困等级为10级。

上述GRU(门控循环单元)神经网络模型在长短期记忆网络(LSTM)模型上进行简化得到。

可选的，上述RandomForest模型和GRU神经网络模型组成一个集成模型，第三贫困区域画像的画像数据输入到RandomForest模型中，通过模型训练，得到RandomForest预测输出的对于贫困区域的贫困等级的分类结果，例如如贫困地区A1，等级是1，代表急需扶贫。譬如贫困地区A2，等级是10，代表扶贫急切程度非常低……以此下去，我们可以得到一个向量，这个向量可以看成是一个n*1列的画像，也就是说，把RandomForest模型的预测输出，作为添加的一列画像列，集成到第三贫困区域画像的画像列的矩阵中，例如，假设第三贫困区域画像的画像矩阵是m列的，如今变成了m+1列。然后继续将这m+1列画像输入到GRU神经网络模型中，让其进行学习和训练，最后预测出最终的贫困等级的分类结果。

步骤205、根据第二分类结果，确定各待分析贫困区域的贫困程度。

可选的，本实施例中，在根据第二分类结果，确定各待分析贫困区域的贫困程度后，还包括：基于各待分析贫困区域的贫困程度，确定各待分析贫困区域的扶贫先后顺序。

本实施例公开了一种区域的贫困程度确定方法，可以根据获取的待分析贫困区域的贫困情况调研数据，对各待分析贫困区域进行贫困区域画像得到第一贫困区域画像；对第一贫困区域画像进行数据异常筛查，对筛查出的异常数据进行异常恢复处理，得到满足预设规范的第二贫困区域画像；对第二贫困区域画像的画像维度进行降维处理得到第三贫困区域画像；利用预设的随机森林模型基于第三贫困区域画像，对各待分析贫困区域的贫困程度进行分析，得到各待分析贫困区域的贫困等级的第一分类结果，将各待分析贫困区域的贫困等级作为新的画像维度集成到第三贫困区域画像中得到第四贫困区域画像，通过GRU神经网络模型基于第四贫困区域画像对各待分析贫困区域的贫困程度进行分析，得到各待分析贫困区域的贫困等级的第二分类结果；根据第二分类结果，确定各待分析贫困区域的贫困程度，在上述对待分析贫困区域的分析过程中，画像维度的降维处理可以有效降低划分贫困程度时需要分析的数据量，降低计算机的资源占用量，提升计算机的处理效率，而画像的异常筛查和异常恢复处理，提升了数据质量，再结合随机森林模型和GRU神经网络模型的组合，有效提升了对待分析贫困区域的贫困程度的分析准确度。

第二实施例：

参见图4，本实施例公开了一种电子装置，该电子装置包括：

分析模块401，用于获取若干待分析贫困区域的贫困情况调研数据，根据贫困情况调研数据，对各待分析贫困区域进行贫困区域画像得到第一贫困区域画像；

数据处理模块402，用于对第一贫困区域画像进行数据异常筛查，对筛查出的异常数据进行异常恢复处理，得到满足预设规范的第二贫困区域画像，其中，预设规范为不存在画像数据缺失，且画像数据的分布与正态分布的差异在预设范围内；

降维模块403，用于对第二贫困区域画像的画像维度进行降维处理得到第三贫困区域画像，其中，第三贫困区域画像的画像维度的数量低于第二贫困区域画像的画像维度的数量；

分级模块404，用于利用预设的随机森林模型基于第三贫困区域画像，对各待分析贫困区域的贫困程度进行分析，得到各待分析贫困区域的贫困等级的第一分类结果，将各待分析贫困区域的贫困等级作为新的画像维度集成到第三贫困区域画像中得到第四贫困区域画像，通过GRU神经网络模型基于第四贫困区域画像对各待分析贫困区域的贫困程度进行分析，得到各待分析贫困区域的贫困等级的第二分类结果；

确定模块405，用于根据第二分类结果，确定各待分析贫困区域的贫困程度。

可选的，降维模块403，用于采用预设的学习模型对第二贫困区域画像进行分析，得到第二贫困区域画像的画像维度的特征重要性；基于特征重要性，保留第二贫困区域画像的画像维度中特征重要性满足预设条件的画像维度，删除其它画像维度，得到第三贫困区域画像。

可选的，数据处理模块402，用于对第一贫困区域画像的各列数据进行筛查，确定原始缺失数据值和未缺失的数据值中的异常数据值，将异常数据值删除；基于预设的填充算法对第一贫困区域画像中实际缺失的数据值进行填充，得到第二贫困区域画像。

可选的，数据处理模块402，具体用于识别第一贫困区域画像的各列数据中的原始缺失数据值；对第一贫困区域画像的各列数据，通过以下步骤a和b进行异常数据值的检验：步骤a、对于第一贫困区域画像的列数据a₁,…,a_n，通过min＝Q₂-k×IQR以及max＝Q₁+k×IQR公式计算得到列数据的数据值中的max值与min值，其中，Q₁为列数据的上四分位数，Q₂为列数据的下四分位数，IQR＝Q₁-Q₂，k表示对异常值的忍耐度；步骤b、识别列数据中满足a_m<min或者a_m>max的数据值，将识别出的数据值确认为异常数据值；将确认出的异常数据值删除。

可选的，数据处理模块402，具体用于确定第一贫困区域画像中缺失数据值的列数据，作为目标列数据；基于预设的填充算法，根据各目标列数据中未缺失的数据值，推测对应的目标列数据中实际缺失的数据值；将推测出的数据值，填充在第一贫困区域画像中的对应于推测出的数据值的目标列数据中，得到第二贫困区域画像。

可选的，分析模块401，用于获取若干待分析贫困区域的识别信息；基于识别信息从预设数据库中，获取对应的待分析贫困区域的贫困情况调研数据。

可选的，本实施的电子装置还包括扶贫先后确定模块，用于在根据第二分类结果，确定各待分析贫困区域的贫困程度后，基于各待分析贫困区域的贫困程度，确定各待分析贫困区域的扶贫先后顺序。

可选的，如图5所示，本实施例还提供另一种电子装置，该电子装置主要包括：存储器501、处理器502、总线503及存储在存储器501上并可在处理器502上运行的计算机程序，存储器501和处理器502通过总线503连接。处理器502执行该计算机程序时，实现图2所示实施例中的区域的贫困程度确定方法。其中，处理器的数量可以是一个或多个，本实施例对此没有限制。

存储器501可以是高速随机存取记忆体(RAM，Random Access Memory)存储器，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器501用于存储可执行程序元素，处理器502与存储器501耦合。

进一步的，本申请实施例还提供了一种存储介质，该存储介质可以是设置于上述各实施例中的电子装置中，该存储介质可以是前述图5所示实施例中的存储器。

该存储介质上存储有计算机程序，该程序被处理器执行时实现图2所示实施例中的区域的贫困程度确定方法。进一步的，该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序元素的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的可读存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序元素的介质。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本申请所提供的区域的贫困程度确定方法、电子装置及存储介质的描述，对于本领域的技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种区域的贫困程度确定方法，其特征在于，包括：

2.根据权利要求1所述的区域的贫困程度确定方法，其特征在于，所述对所述第二贫困区域画像的画像维度进行降维处理得到第三贫困区域画像包括：

3.根据权利要求1所述的区域的贫困程度确定方法，其特征在于，所述对所述第一贫困区域画像进行数据异常筛查，对筛查出的异常数据进行异常恢复处理，得到满足预设规范的第二贫困区域画像包括：

4.根据权利要求3所述的区域的贫困程度确定方法，其特征在于，所述对所述第一贫困区域画像的各列数据进行筛查，确定原始缺失数据值和未缺失的数据值中的异常数据值，将所述异常数据值删除包括：

步骤a、对于所述第一贫困区域画像的列数据a₁，…，a_n，通过min＝Q₂-k×IQR以及max＝Q₁+k×IQR公式计算得到所述列数据的数据值中的max值与min值，其中，所述Q₁为所述列数据的上四分位数，Q₂为所述列数据的下四分位数，IQR＝Q₁-Q₂，所述k表示对异常值的忍耐度；

步骤b、识别所述列数据中满足a_m＜min或者a_m＞max的数据值，将识别出的数据值确认为异常数据值；

将确认出的所述异常数据值删除。

5.根据权利要求3所述的区域的贫困程度确定方法，其特征在于，所述基于预设的填充算法对所述第一贫困区域画像中实际缺失的数据值进行填充，得到第二贫困区域画像包括：

6.根据权利要求1-5任一项所述的区域的贫困程度确定方法，其特征在于，所述获取若干待分析贫困区域的贫困情况调研数据包括：

获取若干待分析贫困区域的识别信息；

基于所述识别信息，从预设数据库中获取对应的待分析贫困区域的贫困情况调研数据。

7.根据权利要求1-5任一项所述的区域的贫困程度确定方法，其特征在于，在所述根据所述第二分类结果，确定各所述待分析贫困区域的贫困程度后，还包括：

8.一种电子装置，其特征在于，包括：

9.一种电子装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现权利要求1-7中任意一项所述方法中的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1-7中的任意一项所述方法中的步骤。