CN116308963B

CN116308963B - 一种政务数据分析方法及系统

Info

Publication number: CN116308963B
Application number: CN202310565112.0A
Authority: CN
Inventors: 冯锐; 郑怡; 经博源; 刘淑颖; 朱思橙; 庄跃成; 刘立波
Original assignee: Beijing Ten Ring Information Co ltd
Current assignee: Beijing Ten Ring Information Co ltd
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-07-18
Anticipated expiration: 2043-05-19
Also published as: CN116308963A

Abstract

本发明涉及数据处理技术领域，提出了一种政务数据分析方法及系统，包括：采集用于政务服务的多个维度的环境数据，并组成若干条数据；根据每个维度不同时刻的环境数据获取每个维度的若干极值点，根据极值点及条数据获取若干极值点条数据，以及每个极值点条数据的第一偏离度；对所有条数据聚类得到若干类别，根据条数据及每个类别中心获取每个条数据的实际偏离度，根据实际偏离度及极值点条数据的第一偏离度获取若干候选K值及每个K值的优先度，得到最佳K值并获取降维后的环境数据；根据降维后的环境数据进行异常分析，完成政务数据分析。本发明旨在解决大量政务数据降维后异常分析精度较低的问题。

Description

一种政务数据分析方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种政务数据分析方法及系统。

背景技术

温度、湿度、空气质量等环境数据，常被收集用于支持政府决策和公共服务，这些数据需要实时采集传输，而环境数据通常数据量较大，因此在实际对数据进行分析时，通常需要对数据进行降维处理，进而对降维后的数据进行异常分析，完成政务数据的分析。

现有技术中，由于局部线性嵌入（LLE）方法可以在保持数据流形结构的同时进行降维，即保留了原始数据的形状特征，有助于后续的异常数据分析，因此被广泛应用；但其中参数k的选取对降维结果的影响较大，因此需要通过对可能的异常数据进行初步计算，结合异常数据在降维后的检测灵敏度，实现LLE中对初始K值的选取，使得异常数据在降维后的检测灵敏度较高，从而提高后续异常分析的准确性和精度。

发明内容

本发明提供一种政务数据分析方法及系统，以解决现有的大量政务数据降维后异常分析精度较低的问题，所采用的技术方案具体如下：

第一方面，本发明一个实施例提供了一种政务数据分析方法，该方法包括以下步骤：

采集每个时刻多个维度的环境数据，将同一时刻的各个维度的环境数据组成每个时刻的条数据，得到若干条数据；

根据每个维度不同时刻的环境数据获取每个维度的若干极值点，将包含极值点的条数据记为极值点条数据，将极值点条数据中每个极值点对应维度记为每个极值点的极值维度，根据每个极值点及极值维度下不同时刻的环境数据，获取每个极值点每个极值维度的初始偏离度，将每个极值点的所有初始偏离度的最大值作为每个极值点的第一偏离度；

根据任意两个条数据之间的余弦相似度获取任意两个条数据之间的相似距离，根据相似距离对所有条数据聚类得到若干类别，根据相似距离及类别获取每个条数据的实际偏离度，根据实际偏离度及第一偏离度，获取每个极值点条数据的偏离率及若干待校正条数据，根据待校正条数据对应时刻近邻范围内其他条数据，获取每个待校正条数据的候选K值序列，根据候选K值序列及偏离率获取每个候选K值的优先度，将优先度最大的候选K值作为最佳K值，根据最佳K值对所有条数据降维得到降维后的环境数据；

根据降维后的环境数据进行异常分析，完成政务数据分析。

可选的，所述根据每个维度不同时刻的环境数据获取每个维度的若干极值点，包括的具体方法为：

以任意一个维度为目标维度，目标维度采集到的所有环境数据按照时间顺序排列得到了目标维度的时间序列数据，通过梯度下降法对目标维度的时间序列数进行检测，得到了目标维度的时间序列数据中的若干极值点；

获取每个维度的若干极值点。

可选的，所述获取每个极值点每个极值维度的初始偏离度，包括的具体方法为：

以任意一个极值点条数据为目标极值点条数据，目标极值点条数据中的任意一个极值点为目标极值点，目标极值点对应的极值维度记为目标极值维度，获取目标极值点在目标极值维度对应的时间序列数据中左侧距离最近的极值点以及右侧距离最近的极值点，计算得到左侧距离最近的极值点与右侧距离最近的极值点之间的所有目标极值维度的数据值均值，记为目标极值点条数据中目标极值维度的参考数据，目标极值点条数据中目标极值维度的初始偏离度的计算方法为：

其中，表示目标极值点条数据目标该极值维度对应极值点的数据值，表示目标极值点条数据中目标极值维度的参考数据，表示求绝对值，表示以自然常数为底的指数函数。

可选的，所述根据相似距离及类别获取每个条数据的实际偏离度，包括的具体方法为：

以任意一个类别为目标类别，获取目标类别中任意两个条数据之间的相似距离，将与目标类别中其他条数据之间的相似距离之和最小的条数据作为目标类别的类别中心，获取每个类别的类别中心；

将每个条数据与所属类别中心的相似距离与的乘积作为每个条数据的实际偏离度。

可选的，所述获取每个极值点条数据的偏离率及若干待校正条数据，包括的具体方法为：

获取每个极值点条数据的第一偏离度与实际偏离度的差值绝对值，得到的差值绝对值记为每个极值点条数据的偏离率；

将偏离率大于等于预设第一阈值的极值点条数据记为待校正条数据。

可选的，所述获取每个待校正条数据的候选K值序列，包括的具体方法为：

以任意一个待校正条数据为目标待校正条数据，以目标待校正条数据对应的时刻为中心，获取预设窗口内所有其他时刻的条数据，作为目标待校正条数据的近邻条数据；

提取每个近邻条数据的实际偏离度，将其中实际偏离度大于目标待校正条数据的实际偏离度的近邻条数据，记为目标待校正条数据的参考条数据；

以任意一个参考条数据为目标参考条数据，获取目标参考条数据与目标待校正条数据对应时刻的差值绝对值与采样时间间隔的比值，得到的比值记为目标参考条数据与目标待校正条数据的时间距离；获取目标待校正条数据与每个参考条数据的时间距离，将时间距离从小到大升序排列，得到的序列记为目标待校正条数据的候选K值序列；

获取每个待校正条数据的候选K值序列。

可选的，所述根据候选K值序列及偏离率获取每个候选K值的优先度，包括的具体方法为：

以任意一个候选K值为目标候选K值，目标候选K值的优先度的计算方法为：

其中，表示候选K值序列的数量，表示包括目标候选K值的候选K值序列的数量，表示第个包括目标候选K值的候选K值序列对应的待校正条数据的偏离率，将记为目标候选K值的参考程度，表示所有候选K值的参考程度中的最大值；

获取每个候选K值的优先度。

第二方面，本发明另一个实施例提供了一种政务数据分析系统，该系统包括：

数据采集模块，采集每个时刻多个维度的环境数据，将同一时刻的各个维度的环境数据组成每个时刻的条数据，得到若干条数据；

数据降维模块：根据每个维度不同时刻的环境数据获取每个维度的若干极值点，将包含极值点的条数据记为极值点条数据，将极值点条数据中每个极值点对应维度记为每个极值点的极值维度，根据每个极值点及极值维度下不同时刻的环境数据，获取每个极值点每个极值维度的初始偏离度，将每个极值点的所有初始偏离度的最大值作为每个极值点的第一偏离度；

数据分析模块，根据降维后的环境数据进行异常分析，完成政务数据分析。

本发明的有益效果是：本发明通过梯度下降法计算得到不同维度下的极值点，进而得到每个极值点条数据的第一偏离度，即得到了降维后的环境数据需要保留的特征时刻；通过对条数据进行聚类得到若干类别，根据条数据与类别中心的相似距离得到每个条数据的实际偏离度，通过极值点条数据的实际偏离度与第一偏离度的差异获取待校正条数据，根据待校正条数据时间上一定近邻范围内其他条数据的实际偏离度获取到若干候选K值，进而得到最佳K值；最佳K值在不改变数据降维过程情况下，最大限度保留了异常数据的异常性，且计算过程中是以条数据为基本数据进行计算，没有破坏不同数据之间的关联性，使得降维后的数据保留了不同维度数据的关联特征，进而大大提高了后续的异常分析的准确性和精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所提供的一种政务数据分析方法流程示意图；

图2为本发明另一个实施例所提供的一种政务数据分析系统结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明一个实施例所提供的一种政务数据分析方法流程图，该方法包括以下步骤：

步骤S001、采集用于政务服务的多个维度的环境数据，并组成若干条数据。

本实施例的目的是对大量的政务数据降维并进行异常分析，本实施例中通过为政府决策提供服务的大量环境数据为例来进行叙述，因此需要对环境监测的多种数据进行采集，每种数据即为一个维度的环境数据，多个维度的环境数据包括温度、湿度、空气质量以及污染物浓度等环境数据，其中多种环境数据的采样频率一致，即每个时刻均对应了多个不同维度的数据，环境数据的具体采集方法均为现有技术，本实施例不再赘述；本实施例采样时间间隔以30分钟进行采集，获取近30天的环境数据；获取到大量的环境数据后，将同一时刻的各个维度的环境数据组成一个条数据，则每个时刻分别对应一个条数据，每个条数据中包含了同一时刻下的不同维度的环境数据。

至此，获取了多个维度的环境数据，并得到了若干条数据。

需要说明的是，传统的LLE方法在对参数K进行确定时，是通过K值逐渐变大，计算重构误差最小K值作为最终K值。但可能导致异常区域的明显程度，或者说异常性变小，进而影响后续的异常分析结果的准确性及精度；而在对数据进行分析时，为了体现时间上的变化，往往是对时间序列数据进行分析，同时不同维度的数据之间往往存在关联性，因此将不同维度的数据组成高维数据，对连续时刻的高维数据进行分析；但是由于高维数据中某个维度的数据在发生异常时，通过相似度计算的方法往往难以检测得到异常数据，因此通过对每个时刻构建条数据，通过对某个维度发生异常，但整体难以检测到异常的条数据作为K值选取的依据，进而使得降维后的数据在对单个维度下的异常数据检测也可以检测得到，提高数据异常分析的检测灵敏度。

步骤S002、根据每个维度不同时刻的环境数据获取每个维度的若干极值点，根据极值点及条数据获取若干极值点条数据，以及每个极值点条数据的第一偏离度。

需要说明的是，由于每个维度的环境数据均是按照时间顺序进行采集，则每个维度的若干环境数据组成了对应维度的时间序列数据，可以根据时间序列数据获取每个维度的若干极值点，而极值点通常为异常数据的概率较大，通过极值点确定对应的极值点条数据，根据后续条数据聚类过程中极值点条数据是否靠近类别边缘，若不靠近类别边缘，则需要从时间上近邻的其他靠近类别边缘的条数据来进行表示，进而在数据降维后可以保证极值点条数据的异常性，从而在对降维后的数据进行异常分析是可以保证结果的准确性及精度。

具体的，以任意一个维度采集到的所有环境数据为例，该维度的所有环境数据按照时间顺序排列得到了该维度的时间序列数据，通过梯度下降法对该维度的时间序列数进行检测，得到了该维度的时间序列数据中的若干极值点，其中通过梯度下降法获取极值点为现有技术，本实施例不再赘述；按照上述方法获取每个维度的若干极值点，此时极值点为某个时刻的条数据中的一个元素，则将所有维度的极值点对应的条数据记为极值点条数据，即某个时刻的所有维度的环境数据中存在极值点，则该时刻的条数据记为极值点条数据，则得到了若干极值点条数据。

进一步的，对于任意一个极值点条数据，将该极值点条数据中每个极值点的对应维度记为该极值点条数据的极值维度，对于该极值点条数据的任意一个极值点及其极值维度，获取该极值点在该极值维度对应的时间序列数据中左侧距离最近的极值点以及右侧距离最近的极值点，计算得到左侧距离最近的极值点与右侧距离最近的极值点之间的所有该极值维度的数据值均值，记为该极值点条数据中该极值维度的参考数据，则对于该极值点条数据中该极值维度的初始偏离度的计算方法为：

其中，表示该极值点条数据中该极值维度对应极值点的数据值，表示该极值点条数据中该极值维度的参考数据，表示求绝对值，表示以自然常数为底的指数函数，分母加1的目的是避免分母为0影响计算结果；极值点的数据值与参考数据的差异越大，初始偏离度就越大，本实施例通过函数来呈现反比例关系及归一化处理，实施者可根据实际情况选择反比例函数及归一化函数；按照上述方法获取该极值点条数据中每个极值维度的初始偏离度，将初始偏离度中的最大值记为该极值点条数据的第一偏离度；按照上述方法获取每个极值点条数据的第一偏离度。

至此，获取到了每个极值点条数据的第一偏离度，用于与后续通过聚类得到的每个极值点条数据的实际偏离度进行对比，并根据对比结果进行相应处理，从而保证极值点条数据的异常性。

步骤S003、对所有条数据聚类得到若干类别，根据条数据及每个类别中心获取每个条数据的实际偏离度，根据实际偏离度及极值点条数据的第一偏离度获取若干候选K值及每个K值的优先度，得到最佳K值并获取降维后的环境数据。

需要说明的是，通过对所有条数据根据相似度聚类得到若干类别，即是对每个条数据进行整体的异常分析，此时越靠近类别边缘的条数据其异常性越大，同时在步骤S002中获取到的若干极值点条数据中，其可能由于极值点数量较少而在整体的异常性上表现不明显，进而不靠近类别边缘，为了保证这些极值点条数据也能在降维后保证较大的异常性，则需要根据每个极值点条数据中近邻一定时间范围内实际偏离度较大的条数据来进行校正，从而获取若干候选K值并得到最佳K值，完成环境数据的降维，并保证了降维后的环境数据中极值点条数据的异常性。

具体的，首先获取任意两个条数据之间的余弦相似度，将1减去余弦相似度得到的差值记为两个条数据之间的相似距离，根据条数据之间的相似距离对所有条数据进行 DBSCAN聚类，聚类得到若干类别；对于任意一个类别，获取该类别中任意两个条数据之间的相似距离，将与该类别中其他条数据之间的相似距离之和最小的条数据作为该类别的类别中心；按照上述方法获取每个类别的类别中心；需要说明的是，极值点条数据的第一偏离度的值域范围是，条数据之间的相似距离的值域范围是，为了统一量化偏离度，将每个条数据与所属类别中心的相似距离与的乘积作为每个条数据的实际偏离度，则得到了每个条数据的实际偏离度。

进一步的，获取每个极值点条数据的第一偏离度与实际偏离度的差值绝对值，得到的差值绝对值记为每个极值点条数据的偏离率，给出预设第一阈值用于判断不靠近类别边缘的极值点条数据，本实施例预设第一阈值采用0.3进行计算，将偏离率大于等于预设第一阈值的极值点条数据记为待校正条数据；需要说明的是，待校正条数据的偏离率较大，需要保证其在LEE算法的K近邻范围内至少有一个实际偏离度大于该待校正条数据的实际偏离度的条数据，才可以使得在降维后，待校正条数据的极值点表现的异常性仍能被异常分析检测得到。

进一步的，以任意一个待校正条数据为例，设定预设窗口，预设窗口大小采用101个时刻进行叙述，以该待校正条数据对应的时刻为中心，获取预设窗口内所有其他时刻的条数据，作为该待校正条数据的近邻条数据，即获取了待校正条数据时间上左右各50个条数据来为待校正条数据提供参考，其中预设窗口大小实施者可根据实际情况进行设定；获取到该待校正条数据的若干近邻条数据后，提取每个近邻条数据的实际偏离度，将其中实际偏离度大于该待校正条数据的实际偏离度的近邻条数据，记为该待校正条数据的参考条数据；对于任意一个参考条数据，获取该参考条数据与该待校正条数据对应时刻的差值绝对值与采样时间间隔的比值，得到的比值记为该参考条数据与该待校正条数据的时间距离；按照上述方法获取该待校正条数据与每个参考条数据的时间距离，将时间距离从小到大升序排列，得到的序列记为该待校正条数据的候选K值序列；需要说明的是，每个时间距离即为一个候选K值，该待校正条数据的所有时间距离即所有候选K值组成了该待校正条数据的候选K值序列，存在一个时间距离对应两个该待校正条数据的参考条数据的情况，其不会影响后续计算，本实施例不再进行特殊说明及处理；按照上述方法获取每个待校正条数据的候选K值序列，则得到了若干个候选K值序列，所有候选K值序列包括的元素组成了所有的候选K值。

进一步的，对于任意一个候选K值，其优先度的计算方法为：

其中，表示候选K值序列的数量，表示包括该候选K值的候选K值序列的数量，表示第个包括该候选K值的候选K值序列对应的待校正条数据的偏离率，将记为该候选K值的参考程度，表示所有候选K值的参考程度中的最大值；该候选K值在不同候选 K值序列中出现的次数越多，其对于越多的待校正条数据可以得到参考条数据，优先度越大；该候选K值出现的候选K值序列对应的待校正条数据的偏离率越大，需要考虑该待校正条数据越多，则需要越大的参考程度，则需要更大的优先度来保证偏离率较大的待校正条数据可以获取参考条数据从而保证异常性；按照上述方法获取每个候选K值的优先度，将优先度最大的候选K值作为最佳K值。

进一步的，LEE算法中是获取每个样本点的K个最近邻并进行后续降维处理，本实施例中样本点即为每个条数据，则根据获取到的最佳K值及每个条数据，通过LEE算法进行降维，得到的降维结果记为降维后的环境数据，其中LEE算法为现有技术，本实施例不再赘述；需要说明的是，每个条数据对应一个时刻，每个条数据包含若干元素，即每个时刻分别对应多种环境数据，对数据降维是指降维后的每个时刻对应的环境数据种类变少，时刻数量不会发生改变，同时根据最佳K值进行LEE算法降维得到的数据，可以最大程度地保留极值点条数据对应时刻的异常性。

至此，获取到了用于LEE算法降维的最佳K值，并获取到了降维后的环境数据。

步骤S004、根据降维后的环境数据进行异常分析，完成政务数据分析。

获取到降维后的环境数据后，通过卷积神经网络进行数据的异常分析，例如VGG网络结构，其中网络的训练数据集由大量的历史环境数据组成，即相较于采集的环境数据更早的环境数据来进行网络的训练，并根据训练好的网络对降维后的环境数据进行异常分析，卷积神经网络进行数据异常分析为现有技术，本实施例不再赘述；则完成了对于环境数据的异常分析。

至此，完成了以环境数据为例的政务数据分析。

请参阅图2，其示出了本发明另一个实施例所提供的一种政务数据分析系统结构框图，该系统包括：

数据采集模块S101，采集用于政务服务的多个维度的环境数据，并组成若干条数据。

数据降维模块S102：

（1）根据每个维度不同时刻的环境数据获取每个维度的若干极值点，根据极值点及条数据获取若干极值点条数据，以及每个极值点条数据的第一偏离度；

（2）对所有条数据聚类得到若干类别，根据条数据及每个类别中心获取每个条数据的实际偏离度，根据实际偏离度及极值点条数据的第一偏离度获取若干候选K值及每个K值的优先度，得到最佳K值并获取降维后的环境数据。

数据分析模块S103，根据降维后的环境数据进行异常分析，完成政务数据分析。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种政务数据分析方法，其特征在于，该方法包括以下步骤：

根据降维后的环境数据进行异常分析，完成政务数据分析。

2.根据权利要求1所述的一种政务数据分析方法，其特征在于，所述根据每个维度不同时刻的环境数据获取每个维度的若干极值点，包括的具体方法为：

获取每个维度的若干极值点。

3.根据权利要求1所述的一种政务数据分析方法，其特征在于，所述获取每个极值点每个极值维度的初始偏离度，包括的具体方法为：

其中，表示目标极值点条数据目标该极值维度对应极值点的数据值，/>表示目标极值点条数据中目标极值维度的参考数据，/>表示求绝对值，/>表示以自然常数为底的指数函数。

4.根据权利要求1所述的一种政务数据分析方法，其特征在于，所述根据相似距离及类别获取每个条数据的实际偏离度，包括的具体方法为：

5.根据权利要求1所述的一种政务数据分析方法，其特征在于，所述获取每个极值点条数据的偏离率及若干待校正条数据，包括的具体方法为：

6.根据权利要求1所述的一种政务数据分析方法，其特征在于，所述获取每个待校正条数据的候选K值序列，包括的具体方法为：

获取每个待校正条数据的候选K值序列。

7.根据权利要求1所述的一种政务数据分析方法，其特征在于，所述根据候选K值序列及偏离率获取每个候选K值的优先度，包括的具体方法为：

其中，表示候选K值序列的数量，/>表示包括目标候选K值的候选K值序列的数量，/>表示第/>个包括目标候选K值的候选K值序列对应的待校正条数据的偏离率，将/>记为目标候选K值的参考程度，/>表示所有候选K值的参考程度中的最大值；

获取每个候选K值的优先度。

8.一种政务数据分析系统，其特征在于，该系统包括：