CN117648657B - 一种城市规划多源数据优化处理方法 - Google Patents
一种城市规划多源数据优化处理方法 Download PDFInfo
- Publication number
- CN117648657B CN117648657B CN202311717530.3A CN202311717530A CN117648657B CN 117648657 B CN117648657 B CN 117648657B CN 202311717530 A CN202311717530 A CN 202311717530A CN 117648657 B CN117648657 B CN 117648657B
- Authority
- CN
- China
- Prior art keywords
- dimension
- region
- dimension group
- data
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 238000005457 optimization Methods 0.000 title abstract description 19
- 238000001514 detection method Methods 0.000 claims abstract description 32
- 230000000875 corresponding effect Effects 0.000 claims description 73
- 230000001419 dependent effect Effects 0.000 claims description 38
- 230000002776 aggregation Effects 0.000 claims description 30
- 238000004220 aggregation Methods 0.000 claims description 30
- 238000000034 method Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 14
- 230000005856 abnormality Effects 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 6
- 238000013139 quantization Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种城市规划多源数据优化处理方法,该方法包括:获取预设城市内每个待检测区域在预设时刻下的目标多源数据;确定两个预设维度之间的皮尔逊相关系数;根据每个相关维度组包括的自变量维度和因变量维度下所有的维度数据进行直线拟合;确定每个待检测区域在每个相关维度组下的目标离散程度;对待检测区域进行划分;确定每个相关维度组下的目标相关系数;根据所有目标多源数据和所有相关维度组下的目标相关系数,通过孤立森林算法,对预设时刻下的所有待检测区域进行异常检测。本发明通过对所有目标多源数据进行数据处理,提高了数据异常检测的准确度和多源数据优化处理的准确度。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种城市规划多源数据优化处理方法。
背景技术
随着城市化进程的加速和数据获取技术的不断发展,城市规划中涉及的数据源也越来越多样化。往往需要更加全面地考虑不同数据源中的数据进行城市规划,主要需要根据城市中局部区域的多源数据分析局部是否可优化,找到城市中的异常区域,也称感兴趣点。因此,对区域进行异常检测至关重要。目前,通常采用孤立森林进行异常检测。当采用孤立森林进行异常检测时,往往需要获取不同维度之间的相关性,以便在孤立森林对数据进行划分时能够更加准确地进行划分,目前,通常采用皮尔逊相关系数表示不同维度之间的相关性。
然而,当采用皮尔逊相关系数表示不同维度之间的相关性时,经常会存在如下技术问题:
由于皮尔逊相关系数往往只考虑了不同维度之间线性相关情况,但对多源数据进行分析时,往往不是只有两个维度下的数据在变化,其他维度下的数据变化可能也会影响这两个维度之间的相关性,比如,对于噪音水平和人口数量这两个维度,在小区内噪音水平和人口数量往往呈强相关关系;但是在工厂内噪音水平往往受机械设备影响较大,受人口数量的影响程度相对较小,所以在工厂内噪音水平和人口数量往往呈弱相关关系,因此直接根据皮尔逊相关系数进行相关性判断可能会造成误判,从而导致数据异常检测的准确度较低,进而导致后续区域优化判断的准确度较差,从而导致多源数据优化处理的准确度较差。
发明内容
本发明的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本发明的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
为了解决由于数据异常检测的准确度较低而导致的多源数据优化处理的准确度较差的技术问题,本发明提出了一种城市规划多源数据优化处理方法。
本发明提供了一种城市规划多源数据优化处理方法,该方法包括:
获取预设城市内每个待检测区域在预设时刻下每个预设维度对应的维度数据,得到每个待检测区域在预设时刻下的目标多源数据;
根据每两个预设维度下所有的维度数据,确定这两个预设维度之间的皮尔逊相关系数;
当两个预设维度之间的皮尔逊相关系数的绝对值大于预设相关阈值时,对这两个预设维度进行划分,得到自变量维度和因变量维度,并构成一个相关维度组;
根据每个相关维度组包括的自变量维度和因变量维度下所有的维度数据进行直线拟合,得到每个待检测区域在每个相关维度组下的拟合数据;
根据每个待检测区域在每个相关维度组下的拟合数据,以及其包括的因变量维度下的维度数据,确定每个待检测区域在每个相关维度组下的目标离散程度;
根据所有待检测区域在每个相关维度组下的目标离散程度,对待检测区域进行划分,得到每个相关维度组下的离散区域集合和聚集区域集合;
根据每个相关维度组下的离散区域集合和聚集区域集合对应的所有维度数据,以及每个相关维度组包括的两个预设维度之间的皮尔逊相关系数,确定每个相关维度组下的目标相关系数;
根据所有目标多源数据和所有相关维度组下的目标相关系数,通过孤立森林算法,对预设时刻下的所有待检测区域进行异常检测。
可选地,所述对这两个预设维度进行划分,得到自变量维度和因变量维度,并构成一个相关维度组,包括:
将每个预设维度下所有维度数据的均值,确定为每个预设维度对应的维度代表数据;
将这两个预设维度中维度代表数据较小的预设维度,确定为自变量维度;
将这两个预设维度中维度代表数据较大的预设维度,确定为因变量维度;
将这两个预设维度,构成一个相关维度组。
可选地,所述根据每个相关维度组包括的自变量维度和因变量维度下所有的维度数据进行直线拟合,得到每个待检测区域在每个相关维度组下的拟合数据,包括:
根据所述相关维度组包括的自变量维度和因变量维度下所有的维度数据进行直线拟合,得到所述相关维度组对应的拟合直线图,其中,拟合直线图的横坐标为自变量维度下的维度数据,拟合直线图的纵坐标为因变量维度下的维度数据,拟合直线图中的同一个目标坐标包括的数据表示同一个待检测区域的数据,目标坐标是拟合直线图中拟合直线上的点对应的坐标;
从所述拟合直线图中筛选出横坐标为每个待检测区域在所述相关维度组包括的自变量维度对应的维度数据的目标坐标,作为每个待检测区域在所述相关维度组下的参考坐标;
将每个待检测区域在所述相关维度组下的参考坐标包括的纵坐标,确定为每个待检测区域在所述相关维度组下的拟合数据。
可选地,所述根据每个待检测区域在每个相关维度组下的拟合数据,以及其包括的因变量维度下的维度数据,确定每个待检测区域在每个相关维度组下的目标离散程度,包括:
根据所述待检测区域在所述相关维度组下的拟合数据与其包括的因变量维度下的维度数据的差值的绝对值,确定所述待检测区域在所述相关维度组下的目标离散程度。
可选地,待检测区域在相关维度组下的目标离散程度对应的公式为:
其中,Gij是第i个待检测区域在第j个相关维度组下的目标离散程度;||是取绝对值函数;i是待检测区域的序号;j是相关维度组的序号;fij,1是第i个待检测区域在第j个相关维度组下的拟合数据;fij,2是第i个待检测区域在第j个相关维度组包括的因变量维度下的维度数据;fj,1是第一检测区域在第j个相关维度组下的拟合数据;fj,2是第二检测区域在第j个相关维度组下的拟合数据;第一检测区域是在第j个相关维度组包括的自变量维度下维度数据最小的待检测区域;第二检测区域是在第j个相关维度组包括的自变量维度下维度数据最大的待检测区域;γ1是预先设置的大于0的因子。
可选地,所述根据所有待检测区域在每个相关维度组下的目标离散程度,对待检测区域进行划分,得到每个相关维度组下的离散区域集合和聚集区域集合,包括:
当待检测区域在所述相关维度组下的目标离散程度大于预设离散阈值时,将待检测区域确定为所述相关维度组下的离散区域,并将所述相关维度组下的所有离散区域,组合为所述相关维度组下的离散区域集合;
当待检测区域在所述相关维度组下的目标离散程度小于或等于预设离散阈值时,将待检测区域确定为所述相关维度组下的聚集区域,并将所述相关维度组下的所有聚集区域,组合为所述相关维度组下的聚集区域集合。
可选地,所述根据每个相关维度组下的离散区域集合和聚集区域集合对应的所有维度数据,以及每个相关维度组包括的两个预设维度之间的皮尔逊相关系数,确定每个相关维度组下的目标相关系数,包括:
根据所述相关维度组下的离散区域集合和聚集区域集合对应的所有维度数据,确定所述相关维度组下的修正相关系数;
将所述相关维度组包括的两个预设维度之间的皮尔逊相关系数的绝对值,确定为所述相关维度组下的初始相关系数;
根据所述相关维度组下的修正相关系数和初始相关系数,确定所述相关维度组下的目标相关系数。
可选地,相关维度组下的修正相关系数对应的公式为:
其中,Hj是第j个相关维度组下的修正相关系数;j是相关维度组的序号;nj1是第j个相关维度组下的聚集区域集合中聚集区域的数量;Qjx是第j个相关维度组下的聚集区域集合中,第x个聚集区域在第j个相关维度组包括的自变量维度对应的维度数据;x是第j个相关维度组下的聚集区域集合中聚集区域的序号;Qj是第j个相关维度组下的聚集区域集合中,所有聚集区域在第j个相关维度组包括的自变量维度对应的维度数据的均值;||是取绝对值函数;γ2和γ3是预先设置的大于0的因子;Pj是第j个相关维度组下的离散区域集合中,所有离散区域在第j个相关维度组包括的自变量维度对应的维度数据的均值;nj2是第j个相关维度组下的离散区域集合中离散区域的数量;Pjy是第j个相关维度组下的离散区域集合中,第y个离散区域在第j个相关维度组包括的自变量维度对应的维度数据;y是第j个相关维度组下的离散区域集合中离散区域的序号。
可选地,所述相关维度组下的修正相关系数和初始相关系数均与其下的目标相关系数呈正相关。
可选地,所述根据所述相关维度组下的修正相关系数和初始相关系数,确定所述相关维度组下的目标相关系数,包括:
将所述相关维度组下的修正相关系数和初始相关系数的乘积,确定为所述相关维度组下的目标相关系数。
本发明具有如下有益效果:
本发明的一种城市规划多源数据优化处理方法,通过对所有目标多源数据进行数据处理,解决了由于数据异常检测的准确度较低而导致的多源数据优化处理的准确度较差的技术问题,提高了数据异常检测的准确度和多源数据优化处理的准确度。首先,获取预设城市内每个待检测区域在预设时刻下每个预设维度对应的维度数据,可以便于后续进行异常检测。然后,由于皮尔逊相关系数可以在一定程度上表示不同维度之间的相关性,因此量化两个预设维度之间的皮尔逊相关系数,可以便于后续量化两个预设维度之间相对真实的相关关系。接着,当两个预设维度之间的皮尔逊相关系数的绝对值大于预设相关阈值时,往往说明两个预设维度之间存在一定的相关性,可以实现对相关维度的初步筛选,可以便于后续的数据处理。继续,综合考虑每个待检测区域在每个相关维度组下的拟合数据,以及其包括的因变量维度下的维度数据,可以量化每个待检测区域在每个相关维度组下的目标离散程度,并且目标离散程度越大,往往说明待检测区域在相关维度组下越偏离其对应的拟合数据,往往说明在待检测区域内相关维度组中的两个预设维度之间的相关性越弱,其次,离散区域内相关维度组中的两个预设维度之间的相关性往往相对较弱,聚集区域内相关维度组中的两个预设维度之间的相关性往往相对较强。之后,综合考虑每个相关维度组下的离散区域集合和聚集区域集合对应的所有维度数据,以及每个相关维度组包括的两个预设维度之间的皮尔逊相关系数,可以量化每个相关维度组下的目标相关系数,其次,量化的目标相关系数往往可以两个预设维度之间相对真实的相关关系。最后,基于所有目标多源数据和所有相关维度组下的目标相关系数,通过孤立森林算法,对预设时刻下的所有待检测区域进行异常检测,实现了多源数据优化处理,并且相较于直接将皮尔逊相关系数作为最终的相关系数,本发明量化了每个待检测区域在每个相关维度组下的目标离散程度,综合考虑了同一个相关维度组中两个预设维度在不同待检测区域内的相关性的强弱,使得最终量化的每个相关维度组下的目标相关系数更加能够表征两个预设维度之间相对真实的相关关系,从而提高了数据异常检测的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明的一种城市规划多源数据优化处理方法的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一个实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
本发明提供了一种城市规划多源数据优化处理方法,该方法包括以下步骤:
获取预设城市内每个待检测区域在预设时刻下每个预设维度对应的维度数据,得到每个待检测区域在预设时刻下的目标多源数据;
根据每两个预设维度下所有的维度数据,确定这两个预设维度之间的皮尔逊相关系数;
当两个预设维度之间的皮尔逊相关系数的绝对值大于预设相关阈值时,对这两个预设维度进行划分,得到自变量维度和因变量维度,并构成一个相关维度组;
根据每个相关维度组包括的自变量维度和因变量维度下所有的维度数据进行直线拟合,得到每个待检测区域在每个相关维度组下的拟合数据;
根据每个待检测区域在每个相关维度组下的拟合数据,以及其包括的因变量维度下的维度数据,确定每个待检测区域在每个相关维度组下的目标离散程度;
根据所有待检测区域在每个相关维度组下的目标离散程度,对待检测区域进行划分,得到每个相关维度组下的离散区域集合和聚集区域集合;
根据每个相关维度组下的离散区域集合和聚集区域集合对应的所有维度数据,以及每个相关维度组包括的两个预设维度之间的皮尔逊相关系数,确定每个相关维度组下的目标相关系数;
根据所有目标多源数据和所有相关维度组下的目标相关系数,通过孤立森林算法,对预设时刻下的所有待检测区域进行异常检测。
下面对上述各个步骤进行详细展开:
参考图1,示出了根据本发明的一种城市规划多源数据优化处理方法的一些实施例的流程。该城市规划多源数据优化处理方法,包括以下步骤:
步骤S1,获取预设城市内每个待检测区域在预设时刻下每个预设维度对应的维度数据,得到每个待检测区域在预设时刻下的目标多源数据。
在一些实施例中,可以获取预设城市内每个待检测区域在预设时刻下每个预设维度对应的维度数据,得到每个待检测区域在预设时刻下的目标多源数据。
其中,预设城市可以是预先设置的城市。待检测区域可以是预设城市内待进行异常检测的区域。预设时刻可以是预先设置的时刻。预设维度可以是预先设置的与区域异常相关的维度。例如,预设维度可以是但不限于:人口密度、温度、湿度、气压、交通流量、噪音水平和经济发展指标。维度数据可以是进行归一化后的预设维度下的值。例如,若某个预设维度为人口密度,则该预设维度下的值可以为人口密度值,待检测区域在预设时刻下该预设维度对应的维度数据可以是在预设时刻下采集的待检测区域的归一化后的人口密度值。目标多源数据可以是由归一化后的所有预设维度下的值构成的数据。例如,若预设维度有3个,分别为人口密度、温度和湿度,则待检测区域在预设时刻下的目标多源数据可以包括:在预设时刻下采集的待检测区域的归一化后的人口密度值、温度值和湿度值。
需要说明的是,获取预设城市内每个待检测区域在预设时刻下每个预设维度对应的维度数据,可以便于后续进行异常检测。其次,当维度数据为归一化数据时,可以在一定程度上消除不同量纲之间的影响,可以便于后续的数据处理。
作为示例,本步骤可以包括以下步骤:
第一步,获取预设城市内的待检测区域可以包括以下子步骤:
第一子步骤,根据预设区域在预设时刻下的目标多源数据,对预设城市内的预设区域进行聚类,得到聚类簇集合。
其中,预设区域可以是预先设置的区域。例如,预设区域可以是但不限于:小区、村庄和街道。
比如,获取预设区域在预设时刻下的目标多源数据的方法可以为:若预设维度有2个,分别为温度和湿度,则可以通过放置在预设区域内的温度传感器和湿度传感器,分别采集该预设区域在预设时刻下的温度值和湿度值,并将该温度值和该湿度值的归一化后的值,组合为该预设区域在预设时刻下的目标多源数据。
需要说明的是,由于聚类簇中的预设区域往往是目标多源数据比较相近的预设区域,因此,聚类簇中的预设区域往往是异常情况比较相近的预设区域。
第二子步骤,从聚类簇集合中的每个聚类簇中筛选出位置相邻的预设区域,并将聚类簇中位置相邻的预设区域组合为一个待检测区域。
第二步,获取预设城市内每个待检测区域在预设时刻下每个预设维度对应的维度数据,得到每个待检测区域在预设时刻下的目标多源数据。
例如,若预设维度有2个,分别为温度和湿度,则可以通过放置在待检测区域内的温度传感器和湿度传感器,分别采集待检测区域在预设时刻下的温度值和湿度值,并将该温度值和该湿度值的归一化后的值,组合为待检测区域在预设时刻下的目标多源数据,其中,该温度值的归一化后的值可以为待检测区域在预设时刻下温度对应的维度数据;该湿度值的归一化后的值可以为待检测区域在预设时刻下湿度对应的维度数据。
步骤S2,根据每两个预设维度下所有的维度数据,确定这两个预设维度之间的皮尔逊相关系数。
在一些实施例中,可以根据每两个预设维度下所有的维度数据,确定这两个预设维度之间的皮尔逊相关系数。
其中,某个预设维度下所有的维度数据可以是:预设城市内所有待检测区域在预设时刻下该预设维度对应的维度数据。例如,若预设维度为温度,则温度下所有的维度数据可以是:所有待检测区域在预设时刻下采集的归一化后的温度值。
需要说明的是,由于皮尔逊相关系数可以在一定程度上表示不同维度之间的相关性,因此量化两个预设维度之间的皮尔逊相关系数,可以便于后续量化两个预设维度之间相对真实的相关关系。
作为示例,对于任意两个预设维度,可以根据这两个预设维度下所有的维度数据,确定这两个预设维度之间的皮尔逊相关系数。
步骤S3,当两个预设维度之间的皮尔逊相关系数的绝对值大于预设相关阈值时,对这两个预设维度进行划分,得到自变量维度和因变量维度,并构成一个相关维度组。
在一些实施例中,当两个预设维度之间的皮尔逊相关系数的绝对值大于预设相关阈值时,可以对这两个预设维度进行划分,得到自变量维度和因变量维度,并构成一个相关维度组。
其中,预设相关阈值可以是依据实际情况,预先设置的阈值。例如,预设相关阈值可以是0.5。相关维度组中的两个预设维度可以是存在一定相关性的预设维度。
需要说明的是,当两个预设维度之间的皮尔逊相关系数的绝对值大于预设相关阈值时,往往说明两个预设维度之间存在一定的相关性,可以实现对相关维度的初步筛选,可以便于后续的数据处理。其次,预设相关阈值可以是依据实际情况进行设置的,想要尽可能多地获取存在相关性的预设维度时,可以将预设相关阈值设置的相对小一些。
作为示例,对这两个预设维度进行划分,得到自变量维度和因变量维度,并构成一个相关维度组可以包括以下步骤:
第一步,将每个预设维度下所有维度数据的均值,确定为每个预设维度对应的维度代表数据。
第二步,将这两个预设维度中维度代表数据较小的预设维度,确定为自变量维度。
第三步,将这两个预设维度中维度代表数据较大的预设维度,确定为因变量维度。
第四步,将这两个预设维度,构成一个相关维度组。
其中,一个相关维度组可以包括一个自变量维度和因变量维度。
步骤S4,根据每个相关维度组包括的自变量维度和因变量维度下所有的维度数据进行直线拟合,得到每个待检测区域在每个相关维度组下的拟合数据。
在一些实施例中,可以根据每个相关维度组包括的自变量维度和因变量维度下所有的维度数据进行直线拟合,得到每个待检测区域在每个相关维度组下的拟合数据。
需要说明的是,获取每个待检测区域在每个相关维度组下的拟合数据,可以便于后续判断在待检测区域内相关维度组中的两个预设维度之间的相关性的强弱。
作为示例,本步骤可以包括以下步骤:
第一步,根据上述相关维度组包括的自变量维度和因变量维度下所有的维度数据进行直线拟合,得到上述相关维度组对应的拟合直线图。
其中,拟合直线图的横坐标可以为自变量维度下的维度数据。拟合直线图的纵坐标可以为因变量维度下的维度数据。拟合直线图中的同一个目标坐标包括的数据可以表示同一个待检测区域的数据。目标坐标可以是拟合直线图中拟合直线上的点对应的坐标。目标坐标的横坐标可以为自变量维度下的维度数据。目标坐标的纵坐标可以为拟合得到的因变量维度下的维度数据。
第二步,从上述拟合直线图中筛选出横坐标为每个待检测区域在上述相关维度组包括的自变量维度对应的维度数据的目标坐标,作为每个待检测区域在上述相关维度组下的参考坐标。
例如,若某个相关维度组包括的自变量维度为温度,因变量维度为湿度,则某个待检测区域在上述相关维度组下的参考坐标包括的横坐标可以为在预设时刻下采集的上述待检测区域的归一化后的温度值,上述待检测区域在上述相关维度组下的参考坐标包括的纵坐标可以为拟合得到的上述待检测区域的归一化后的湿度值。
第三步,将每个待检测区域在上述相关维度组下的参考坐标包括的纵坐标,确定为每个待检测区域在上述相关维度组下的拟合数据。
步骤S5,根据每个待检测区域在每个相关维度组下的拟合数据,以及其包括的因变量维度下的维度数据,确定每个待检测区域在每个相关维度组下的目标离散程度。
在一些实施例中,可以根据每个待检测区域在每个相关维度组下的拟合数据,以及其包括的因变量维度下的维度数据,确定每个待检测区域在每个相关维度组下的目标离散程度。
需要说明的是,综合考虑每个待检测区域在每个相关维度组下的拟合数据,以及其包括的因变量维度下的维度数据,可以量化每个待检测区域在每个相关维度组下的目标离散程度,并且目标离散程度越大,往往说明待检测区域在相关维度组下越偏离其对应的拟合数据,往往说明在待检测区域内相关维度组中的两个预设维度之间的相关性越弱。
作为示例,根据上述待检测区域在上述相关维度组下的拟合数据与其包括的因变量维度下的维度数据的差值的绝对值,确定上述待检测区域在上述相关维度组下的目标离散程度对应的公式可以为:
其中,Gij是第i个待检测区域在第j个相关维度组下的目标离散程度。||是取绝对值函数。i是待检测区域的序号。j是相关维度组的序号。fij,1是第i个待检测区域在第j个相关维度组下的拟合数据。fij,2是第i个待检测区域在第j个相关维度组包括的因变量维度下的维度数据,也就是第i个待检测区域在预设时刻下第j个相关维度组包括的因变量维度对应的维度数据。fj,1是第一检测区域在第j个相关维度组下的拟合数据。fj,2是第二检测区域在第j个相关维度组下的拟合数据。第一检测区域是在第j个相关维度组包括的自变量维度下维度数据最小的待检测区域。第二检测区域是在第j个相关维度组包括的自变量维度下维度数据最大的待检测区域。γ1是预先设置的大于0的因子,主要用于防止分母为0,例如,γ1可以为0.01。
需要说明的是,当|fij,1-fij,2|越大时,往往说明第i个待检测区域在第j个相关维度组下的拟合数据与其对应的因变量维度下的维度数据之间的差异越大,往往说明第i个待检测区域在第j个相关维度组下的实际偏差相对越大,往往说明第i个待检测区域在第j个相关维度组下越偏离其对应的拟合数据,往往说明在第i个待检测区域内第j个相关维度组中的两个预设维度之间的相关性越弱。因此当Gij越大时,往往说明在第i个待检测区域内第j个相关维度组中的两个预设维度之间的相关性相对越弱。
步骤S6,根据所有待检测区域在每个相关维度组下的目标离散程度,对待检测区域进行划分,得到每个相关维度组下的离散区域集合和聚集区域集合。
在一些实施例中,可以根据所有待检测区域在每个相关维度组下的目标离散程度,对待检测区域进行划分,得到每个相关维度组下的离散区域集合和聚集区域集合。
需要说明的是,离散区域内相关维度组中的两个预设维度之间的相关性往往相对较弱,聚集区域内相关维度组中的两个预设维度之间的相关性往往相对较强。
作为示例,本步骤可以包括以下步骤:
第一步,当待检测区域在上述相关维度组下的目标离散程度大于预设离散阈值时,将待检测区域确定为上述相关维度组下的离散区域,并将上述相关维度组下的所有离散区域,组合为上述相关维度组下的离散区域集合。
其中,预设离散阈值可以是预先设置的阈值。例如,预设离散阈值可以是0.5。
第二步,当待检测区域在上述相关维度组下的目标离散程度小于或等于预设离散阈值时,将待检测区域确定为上述相关维度组下的聚集区域,并将上述相关维度组下的所有聚集区域,组合为上述相关维度组下的聚集区域集合。
步骤S7,根据每个相关维度组下的离散区域集合和聚集区域集合对应的所有维度数据,以及每个相关维度组包括的两个预设维度之间的皮尔逊相关系数,确定每个相关维度组下的目标相关系数。
在一些实施例中,可以根据每个相关维度组下的离散区域集合和聚集区域集合对应的所有维度数据,以及每个相关维度组包括的两个预设维度之间的皮尔逊相关系数,确定每个相关维度组下的目标相关系数。
需要说明的是,综合考虑每个相关维度组下的离散区域集合和聚集区域集合对应的所有维度数据,以及每个相关维度组包括的两个预设维度之间的皮尔逊相关系数,可以量化每个相关维度组下的目标相关系数,其次,量化的目标相关系数往往可以两个预设维度之间相对真实的相关关系。
作为示例,本步骤可以包括以下步骤:
第一步,根据上述相关维度组下的离散区域集合和聚集区域集合对应的所有维度数据,确定上述相关维度组下的修正相关系数对应的公式可以为:
其中,Hj是第j个相关维度组下的修正相关系数。j是相关维度组的序号。nj1是第j个相关维度组下的聚集区域集合中聚集区域的数量。Qjx是第j个相关维度组下的聚集区域集合中,第x个聚集区域在第j个相关维度组包括的自变量维度对应的维度数据。x是第j个相关维度组下的聚集区域集合中聚集区域的序号。Qj是第j个相关维度组下的聚集区域集合中,所有聚集区域在第j个相关维度组包括的自变量维度对应的维度数据的均值。||是取绝对值函数。γ2和γ3是预先设置的大于0的因子,主要用于防止分母为0,例如,γ2和γ3可以为0.01。Pj是第j个相关维度组下的离散区域集合中,所有离散区域在第j个相关维度组包括的自变量维度对应的维度数据的均值。nj2是第j个相关维度组下的离散区域集合中离散区域的数量。Pjy是第j个相关维度组下的离散区域集合中,第y个离散区域在第j个相关维度组包括的自变量维度对应的维度数据。y是第j个相关维度组下的离散区域集合中离散区域的序号。
需要说明的是,由于聚集区域在同一个相关维度组包括的自变量维度对应的维度数据往往相对比较相近,并且离散区域在同一个相关维度组包括的自变量维度对应的维度数据往往相对比较相近。所以,往往大于/>往往大于/>因此/>和/>往往小于1。当/>越接近于1,即其值越大时,往往说明聚集区域在第j个相关维度组包括的自变量维度对应的维度数据越相近,并且离散区域在第j个相关维度组包括的自变量维度对应的维度数据的均值越靠近聚集区域在第j个相关维度组包括的自变量维度对应的维度数据;往往说明离散区域在第j个相关维度组包括的自变量维度对应的维度数据的分布与聚集区域在第j个相关维度组包括的自变量维度对应的维度数据的分布越相近;往往说明第j个相关维度组包括的两个预设维度之间的相关性相对越强。当/>越接近于1,即其值越大时,往往说明离散区域在第j个相关维度组包括的自变量维度对应的维度数据越相近,并且聚集区域在第j个相关维度组包括的自变量维度对应的维度数据的均值越靠近离散区域在第j个相关维度组包括的自变量维度对应的维度数据;往往说明聚集区域在第j个相关维度组包括的自变量维度对应的维度数据的分布与离散区域在第j个相关维度组包括的自变量维度对应的维度数据的分布越相近;往往说明第j个相关维度组包括的两个预设维度之间的相关性相对越强。
第二步,将上述相关维度组包括的两个预设维度之间的皮尔逊相关系数的绝对值,确定为上述相关维度组下的初始相关系数。
第三步,根据上述相关维度组下的修正相关系数和初始相关系数,确定上述相关维度组下的目标相关系数。
其中,上述相关维度组下的修正相关系数和初始相关系数均可以与其下的目标相关系数呈正相关。
例如,将上述相关维度组下的修正相关系数和初始相关系数的乘积,确定为上述相关维度组下的目标相关系数对应的公式可以为:
Rj=Hj×Uj;其中,Rj是第j个相关维度组下的目标相关系数。Hj是第j个相关维度组下的修正相关系数。j是相关维度组的序号。Uj是第j个相关维度组下的初始相关系数,也就是第j个相关维度组包括的两个预设维度之间的皮尔逊相关系数的绝对值。
需要说明的是,当Hj越大时,往往说明第j个相关维度组包括的两个预设维度之间的相关性相对越强,并且Hj可以作为Uj的修正权重。当Uj越大时,往往说明第j个相关维度组包括的两个预设维度之间的相关性在一定程度上相对越强。因此,当Rj越大时,往往说明第j个相关维度组包括的两个预设维度之间的相关性越强。
步骤S8,根据所有目标多源数据和所有相关维度组下的目标相关系数,通过孤立森林算法,对预设时刻下的所有待检测区域进行异常检测。
在一些实施例中,可以根据所有目标多源数据和所有相关维度组下的目标相关系数,通过孤立森林算法,对预设时刻下的所有待检测区域进行异常检测,实现了多源数据优化处理。
作为示例,本步骤可以包括以下步骤:
第一步,根据所有目标相关系数,对预设维度进行分组,将得到的每个组作为相似维度组。
例如,当相关维度组下的目标相关系数大于预设系数阈值时,将相关维度组包括的两个预设维度划分为同一个相似维度组。其中,预设系数阈值可以是预先设置的阈值。如,预设系数阈值可以是0.6。
比如,若某个相关维度组包括:第一维度和第二维度,另一个相关维度组包括:第一维度和第三维度,这两个相关维度组下的目标相关系数均大于预设系数阈值,则某个相似维度组可以包括:第一维度、第二维度和第三维度。
第二步,从每个相似维度组中随机筛选出一个预设维度,作为该相似维度组对应的目标代表维度。
第三步,根据预设城市内所有待检测区域在预设时刻下所有目标代表维度对应的维度数据,通过孤立森林算法进行异常检测。
可选地,根据所有目标多源数据和所有相关维度组下的目标相关系数,通过孤立森林进行异常检测,在选取一个预设维度下的维度数据进行一次划分后,降低与该预设维度相关的预设维度下维度数据的选取优先级,可以达到优化孤立森林划分过程的目的。从而更快地从城市的全部待检测区域中找出异常区域,认为其更可能是需要进行优化的感兴趣点。避免了通过孤立森林进行划分过程中由于不同数据源中不同预设维度之间量化的相关性不准确而降低划分效率的问题。
具体地,根据预设维度之间的相关性关系进行孤立森林划分,可以选取具有相关性的两个或多个预设维度其中的一个预设维度作为划分特征进行划分后,设置较低优先级选取与划分特征预设维度相关的预设维度进行划分,从而实现每次划分选取的划分特征都可以达到较好的划分效果,从而提高孤立森林的划分效率。进而能够更快地从对城市划分好的待检测区域中找出异常区域,将异常区块作为城市中的兴趣点进行进一步的城市规划。
综上,相较于直接将皮尔逊相关系数作为最终的相关系数,本发明量化了每个待检测区域在每个相关维度组下的目标离散程度,综合考虑了同一个相关维度组中两个预设维度在不同待检测区域内的相关性的强弱,使得最终量化的每个相关维度组下的目标相关系数更加能够表征两个预设维度之间相对真实的相关关系,从而提高了数据异常检测的准确度。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,均应包含在本发明的保护范围之内。
Claims (8)
1.一种城市规划多源数据优化处理方法,其特征在于,包括以下步骤:
获取预设城市内每个待检测区域在预设时刻下每个预设维度对应的维度数据,得到每个待检测区域在预设时刻下的目标多源数据;
根据每两个预设维度下所有的维度数据,确定这两个预设维度之间的皮尔逊相关系数;
当两个预设维度之间的皮尔逊相关系数的绝对值大于预设相关阈值时,对这两个预设维度进行划分,得到自变量维度和因变量维度,并构成一个相关维度组;
根据每个相关维度组包括的自变量维度和因变量维度下所有的维度数据进行直线拟合,得到每个待检测区域在每个相关维度组下的拟合数据;
根据每个待检测区域在每个相关维度组下的拟合数据,以及其包括的因变量维度下的维度数据,确定每个待检测区域在每个相关维度组下的目标离散程度;
根据所有待检测区域在每个相关维度组下的目标离散程度,对待检测区域进行划分,得到每个相关维度组下的离散区域集合和聚集区域集合;
根据每个相关维度组下的离散区域集合和聚集区域集合对应的所有维度数据,以及每个相关维度组包括的两个预设维度之间的皮尔逊相关系数,确定每个相关维度组下的目标相关系数;
根据所有目标多源数据和所有相关维度组下的目标相关系数,通过孤立森林算法,对预设时刻下的所有待检测区域进行异常检测;
所述根据每个相关维度组下的离散区域集合和聚集区域集合对应的所有维度数据,以及每个相关维度组包括的两个预设维度之间的皮尔逊相关系数,确定每个相关维度组下的目标相关系数,包括:
根据所述相关维度组下的离散区域集合和聚集区域集合对应的所有维度数据,确定所述相关维度组下的修正相关系数;
将所述相关维度组包括的两个预设维度之间的皮尔逊相关系数的绝对值,确定为所述相关维度组下的初始相关系数;
根据所述相关维度组下的修正相关系数和初始相关系数,确定所述相关维度组下的目标相关系数;
相关维度组下的修正相关系数对应的公式为:
;其中,/>是第j个相关维度组下的修正相关系数;j是相关维度组的序号;/>是第j个相关维度组下的聚集区域集合中聚集区域的数量;/>是第j个相关维度组下的聚集区域集合中,第x个聚集区域在第j个相关维度组包括的自变量维度对应的维度数据;x是第j个相关维度组下的聚集区域集合中聚集区域的序号;/>是第j个相关维度组下的聚集区域集合中,所有聚集区域在第j个相关维度组包括的自变量维度对应的维度数据的均值;/>是取绝对值函数;/>和/>是预先设置的大于0的因子;/>是第j个相关维度组下的离散区域集合中,所有离散区域在第j个相关维度组包括的自变量维度对应的维度数据的均值;/>是第j个相关维度组下的离散区域集合中离散区域的数量;/>是第j个相关维度组下的离散区域集合中,第y个离散区域在第j个相关维度组包括的自变量维度对应的维度数据;y是第j个相关维度组下的离散区域集合中离散区域的序号。
2.根据权利要求1所述的一种城市规划多源数据优化处理方法,其特征在于,所述对这两个预设维度进行划分,得到自变量维度和因变量维度,并构成一个相关维度组,包括:
将每个预设维度下所有维度数据的均值,确定为每个预设维度对应的维度代表数据;
将这两个预设维度中维度代表数据较小的预设维度,确定为自变量维度;
将这两个预设维度中维度代表数据较大的预设维度,确定为因变量维度;
将这两个预设维度,构成一个相关维度组。
3.根据权利要求1所述的一种城市规划多源数据优化处理方法,其特征在于,所述根据每个相关维度组包括的自变量维度和因变量维度下所有的维度数据进行直线拟合,得到每个待检测区域在每个相关维度组下的拟合数据,包括:
根据所述相关维度组包括的自变量维度和因变量维度下所有的维度数据进行直线拟合,得到所述相关维度组对应的拟合直线图,其中,拟合直线图的横坐标为自变量维度下的维度数据,拟合直线图的纵坐标为因变量维度下的维度数据,拟合直线图中的同一个目标坐标包括的数据表示同一个待检测区域的数据,目标坐标是拟合直线图中拟合直线上的点对应的坐标;
从所述拟合直线图中筛选出横坐标为每个待检测区域在所述相关维度组包括的自变量维度对应的维度数据的目标坐标,作为每个待检测区域在所述相关维度组下的参考坐标;
将每个待检测区域在所述相关维度组下的参考坐标包括的纵坐标,确定为每个待检测区域在所述相关维度组下的拟合数据。
4.根据权利要求1所述的一种城市规划多源数据优化处理方法,其特征在于,所述根据每个待检测区域在每个相关维度组下的拟合数据,以及其包括的因变量维度下的维度数据,确定每个待检测区域在每个相关维度组下的目标离散程度,包括:
根据所述待检测区域在所述相关维度组下的拟合数据与其包括的因变量维度下的维度数据的差值的绝对值,确定所述待检测区域在所述相关维度组下的目标离散程度。
5.根据权利要求4所述的一种城市规划多源数据优化处理方法,其特征在于,待检测区域在相关维度组下的目标离散程度对应的公式为:
;其中,/>是第i个待检测区域在第j个相关维度组下的目标离散程度;是取绝对值函数;i是待检测区域的序号;j是相关维度组的序号;/>是第i个待检测区域在第j个相关维度组下的拟合数据;/>是第i个待检测区域在第j个相关维度组包括的因变量维度下的维度数据;/>是第一检测区域在第j个相关维度组下的拟合数据;/>是第二检测区域在第j个相关维度组下的拟合数据;第一检测区域是在第j个相关维度组包括的自变量维度下维度数据最小的待检测区域;第二检测区域是在第j个相关维度组包括的自变量维度下维度数据最大的待检测区域;/>是预先设置的大于0的因子。
6.根据权利要求1所述的一种城市规划多源数据优化处理方法,其特征在于,所述根据所有待检测区域在每个相关维度组下的目标离散程度,对待检测区域进行划分,得到每个相关维度组下的离散区域集合和聚集区域集合,包括:
当待检测区域在所述相关维度组下的目标离散程度大于预设离散阈值时,将待检测区域确定为所述相关维度组下的离散区域,并将所述相关维度组下的所有离散区域,组合为所述相关维度组下的离散区域集合;
当待检测区域在所述相关维度组下的目标离散程度小于或等于预设离散阈值时,将待检测区域确定为所述相关维度组下的聚集区域,并将所述相关维度组下的所有聚集区域,组合为所述相关维度组下的聚集区域集合。
7.根据权利要求1所述的一种城市规划多源数据优化处理方法,其特征在于,所述相关维度组下的修正相关系数和初始相关系数均与其下的目标相关系数呈正相关。
8.根据权利要求7所述的一种城市规划多源数据优化处理方法,其特征在于,所述根据所述相关维度组下的修正相关系数和初始相关系数,确定所述相关维度组下的目标相关系数,包括:
将所述相关维度组下的修正相关系数和初始相关系数的乘积,确定为所述相关维度组下的目标相关系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311717530.3A CN117648657B (zh) | 2023-12-13 | 2023-12-13 | 一种城市规划多源数据优化处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311717530.3A CN117648657B (zh) | 2023-12-13 | 2023-12-13 | 一种城市规划多源数据优化处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117648657A CN117648657A (zh) | 2024-03-05 |
CN117648657B true CN117648657B (zh) | 2024-05-14 |
Family
ID=90044958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311717530.3A Active CN117648657B (zh) | 2023-12-13 | 2023-12-13 | 一种城市规划多源数据优化处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117648657B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117861A (zh) * | 2018-06-29 | 2019-01-01 | 浙江大学宁波理工学院 | 一种顾及空间位置的点集多层次聚集性分析方法 |
WO2022110557A1 (zh) * | 2020-11-25 | 2022-06-02 | 国网湖南省电力有限公司 | 一种台区户变关系异常诊断方法及装置 |
CN115357764A (zh) * | 2022-08-18 | 2022-11-18 | 深圳前海微众银行股份有限公司 | 一种异常数据检测方法及装置 |
CN116167498A (zh) * | 2022-12-23 | 2023-05-26 | 江西理工大学 | 一种基于多源数据融合的区域降雨型滑坡监测预警方法 |
-
2023
- 2023-12-13 CN CN202311717530.3A patent/CN117648657B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117861A (zh) * | 2018-06-29 | 2019-01-01 | 浙江大学宁波理工学院 | 一种顾及空间位置的点集多层次聚集性分析方法 |
WO2022110557A1 (zh) * | 2020-11-25 | 2022-06-02 | 国网湖南省电力有限公司 | 一种台区户变关系异常诊断方法及装置 |
CN115357764A (zh) * | 2022-08-18 | 2022-11-18 | 深圳前海微众银行股份有限公司 | 一种异常数据检测方法及装置 |
CN116167498A (zh) * | 2022-12-23 | 2023-05-26 | 江西理工大学 | 一种基于多源数据融合的区域降雨型滑坡监测预警方法 |
Non-Patent Citations (1)
Title |
---|
基于孤立森林算法的取用水量异常数据检测方法;赵臣啸;薛惠锋;王磊;万毅;;中国水利水电科学研究院学报;20200215(01);第34-42页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117648657A (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113689428B (zh) | 基于图像处理的机械零件应力腐蚀检测方法及系统 | |
CN116186634B (zh) | 一种建筑工程施工数据智能管理系统 | |
CN115829883B (zh) | 一种异性金属结构件表面图像去噪方法 | |
CN111199016A (zh) | 一种基于DTW的改进K-means的日负荷曲线聚类方法 | |
CN115601368B (zh) | 一种建材装备钣金件缺陷检测方法 | |
CN117556714B (zh) | 一种用于铝金属冶炼的预热管路温度数据异常分析方法 | |
CN116308963B (zh) | 一种政务数据分析方法及系统 | |
CN109947815B (zh) | 一种基于离群点算法的窃电辨识方法 | |
CN114972194A (zh) | 一种从不一致标签中检测缺陷的方法 | |
CN110245692B (zh) | 一种用于集合数值天气预报成员的层次聚类方法 | |
CN117540325B (zh) | 基于数据变化量捕获的业务数据库异常检测方法及系统 | |
CN117648657B (zh) | 一种城市规划多源数据优化处理方法 | |
CN116823125B (zh) | 基于多源数据的白酒仓储异常预警系统 | |
CN115841491B (zh) | 一种多孔金属材料的质量检测方法 | |
CN112084941A (zh) | 一种基于遥感图像的目标检测与识别方法 | |
CN116561692A (zh) | 一种动态更新的实时量测数据检测方法 | |
CN116629686A (zh) | 一种评估企业能耗数据的方法及装置 | |
CN115908295A (zh) | 一种基于深度学习的电网绝缘子缺陷检测方法及系统 | |
CN113702612A (zh) | 基于人工智能的河岸污染检测及考察地点选址方法及系统 | |
CN112200219B (zh) | 一种超大规模晶圆缺陷数据的特征提取方法 | |
CN114755387B (zh) | 基于假设检验法的水体监测点位优化方法 | |
CN117196446B (zh) | 一种基于大数据的产品风险实时监测平台 | |
CN115858895B (zh) | 一种用于智慧城市的多源异构数据处理方法及系统 | |
CN117540008B (zh) | 一种合同异常数据风险智能分析方法 | |
CN111860189B (zh) | 一种目标跟踪方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |