发明内容
为了解决上述技术问题,本发明提供基于数字孪生的智慧城市资源管理方法及系统,所采用的技术方案具体如下:
第一方面,本发明实施例提供了基于数字孪生的智慧城市资源管理方法,该方法包括以下步骤:
采集智慧城市各城区各要素资源数据;
对于各要素资源数据各数据点,确定数据点的滑动窗口;根据数据点的滑动窗口内数据的分布情况得到数据点的综合变化突兀指数;对各要素资源数据采用贝叶斯模型输出各要素资源数据各数据点的突变点概率;对于各要素资源数据各数据点,将数据点与所在要素资源数据中相同数值的数据组成数据点的集合;
根据数据点的集合中所有数据的综合变化突兀指数及突变点概率构建数据点的第一特征坐标系;采用聚类算法得到数据点集合的聚类簇;根据数据点的集合内所有数据点在第一特征坐标系下的数据差异得到数据点的异常突变指数;根据各数据点的数值及异常突变指标构建各城区各要素资源数据的第二特征坐标系;根据第二特征坐标系下各数据的分布情况得到各数据点的相对异常置信指数;根据各数据点的数值及综合变化突兀指数构建各城区各要素资源数据的第三特征坐标系;将第三特征坐标系下所有数据点之间的欧式距离均值向上取整的数值作为各城区各要素资源数据的LOF异常检测算法中的邻域距离,得到各城区各要素资源数据各数据点的局部离群因子;
根据各数据点的局部离群因子及相对异常置信指数得到各数据点的综合局部离群因子;将综合局部离群因子大于异常阈值的数据点排除得到各城区各要素资源数据的正常数据序列;对各城区各要素资源数据的正常数据序列进行聚类,完成智慧城市的资源管理。
优选的,所述采集智慧城市各城区各要素资源数据,包括:
采集智慧城市各城区各要素资源数据的种类包括:人口数据、楼栋数据、房屋数据、企业数据以及事件数据。
优选的,所述根据数据点的滑动窗口内数据的分布情况得到数据点的综合变化突兀指数,包括:
将数据点的滑动窗口内小于数据点下标的数据集合作为数据点的左子窗口,大于数据点下标的数据集合作为数据点的右子窗口;
计算数据点与所述左、右子窗口内各数据点的差值绝对值,将数据点的左子窗口内所有数据点的所述差值绝对值的均值作为数据点的左子窗口变化突兀系数,将数据点的右子窗口内所有数据点的所述差值绝对值的均值作为数据点的右子窗口变化突兀系数;
获取数据点的滑动窗口内所有数据的拟合直线斜率;将所述左、右子窗口变化突兀系数的差值绝对值与所述拟合直线斜率绝对值的乘积的归一化值作为数据点的综合变化突兀指数。
优选的,所述根据数据点的集合中所有数据的综合变化突兀指数及突变点概率构建数据点的第一特征坐标系,包括:
将数据点的集合中所有数据的综合变化突兀指数作为第一特征坐标系的横坐标,将数据点的集合中所有数据的突变点概率作为第一特征坐标系的纵坐标。
优选的,所述根据数据点的集合内所有数据点所在要素资源数据序列及其第一特征坐标系下的分布情况得到数据点的异常突变指数,包括:
对于数据点的集合内各数据点,计算数据点与所述集合内各数据点的滑动窗口数据序列之间的皮尔逊相关系数,计算数据点与所述集合内各数据点在第一特征坐标系下的欧式距离;将所述皮尔逊相关系数作为以自然常数为底数的第一指数函数的指数,将第一指数函数的计算结果与所述欧式距离的比值作为数据点与所述集合内各数据点的突变相似系数;
计算数据点的集合内所有数据点之间的突变相似系数的均值与集合内聚类簇数量倒数的乘积;获取数据点所在聚类簇内的数据个数与所在集合内的数据个数的比值,将所述比值作为以自然常数为底数的第二指数函数的指数,将所述乘积与所述第二指数函数相乘的结果作为数据点的正常优异指数;
计算数据点的综合变化突兀指数与突变点概率的和值,将所述和值与所述正常优异指数的归一化值的比值作为数据点的异常突变指数。
优选的,所述根据各数据点的数值及异常突变指标构建各城区各要素资源数据的第二特征坐标系,包括:
将各数据点的数值作为第二特征坐标系的横坐标,将各数据点的异常突变指标作为第二特征坐标系的纵坐标。
优选的,所述根据第二特征坐标系下各数据的分布情况得到各数据点的相对异常置信指数,包括:
对于第二特征坐标系下各数据点,获取数据点的邻域半径内各数据,将数据点与所述邻域半径内所有数据点之间的欧式距离均值;将数据点的邻域半径内数据数量与所在要素资源数据中的数据总数的比值的负数作为以自然常数为底数的指数函数的指数,将所述指数函数与所述欧式距离均值作为数据点的异常置信因子;
获取数据点所在要素资源数据中的最大异常置信因子,将所述异常置信因子与所述最大异常置信因子的比值作为数据点的相对异常置信指数。
优选的,所述根据各数据点的数值及综合变化突兀指数构建各城区各要素资源数据的第三特征坐标系,包括:
将各城区各要素资源数据中所有数据的数值作为第三特征坐标系的横坐标,将各城区各要素资源数据中所有数据的综合变化突兀指数作为第三特征坐标系的纵坐标。
优选的,所述根据各数据点的局部离群因子及相对异常置信指数得到各数据点的综合局部离群因子,包括:
将数据点的局部离群因子与相对异常置信指数的乘积的归一化值作为数据点的综合局部离群因子。
第二方面,本发明实施例还提供了基于数字孪生的智慧城市资源管理系统,包括数据采集和处理模块、数据建模和仿真模块、数据可视化和设计模块以及数据部署和运维模块。
本发明至少具有如下有益效果:
本发明提出基于数字孪生的智慧城市资源管理方法及系统,通过对采集获取得到的各城区各要素资源数据内各数据点滑动窗口内的变化特征,构建综合变化突兀指数,再结合贝叶斯突变点概率,分析当数据数值相同时,数据的相对情况状况,构建异常突变指数,其有益效果在于避免将一些数值变化剧烈、突兀,但是为正常数据的数据点划分为异常数据的情况,提高后续异常检测的精度;
进一步地,本发明基于对全局数据特征构建第二特征坐标空间,得到该数据相对异常置信指数,反应该数据是异常数据的可能性,改进LOF异常检测的异常离群因子检测,其有益效果在于避免传统算法LOF异常检测算法通过局部的数据密度来检测异常,对于全局的掌控程度不足,导致误报异常点或漏报真实异常点的问题,提高异常数据检测的准确性。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于数字孪生的智慧城市资源管理方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的基于数字孪生的智慧城市资源管理方法及系统的具体方案。
本发明一个实施例提供的基于数字孪生的智慧城市资源管理方法及系统。
具体的,提供了如下的基于数字孪生的智慧城市资源管理方法,请参阅图1,该方法包括以下步骤:
步骤S001,采集智慧城市各城区各要素资源数据。
本实施例基于数字孪生技术通过数据处理的方式实现智慧城市资源的管理,以建设“数实融合、同生共长、实时交互、秒级响应”的数字孪生先锋城市为目标,以建设城市级物联感知平台为任务,推动物联感知终端接入和数据汇聚,实现感知数据共享共用。
基于数字孪生的智慧城市资源管理系统包括:数据采集和处理模块:采集现实世界的数据并进行预处理和清洗;数据建模和仿真模块:根据系统需求和数据特征选择合适的建模工具和技术进行模型构建;数据可视化和设计模块:设计数字孪生系统输出结果展示的可视化界面和用户交互界面;数据部署和运维模块:选择合适的部署环境和方案监控系统的运行状态并及时处理故障和优化系统性能。其中,智慧城市数字孪生系统如图2所示,数据采集和处理模块中的数据采集为本步骤重点。
为了确保智慧城市数字孪生系统的丰富性,需要先对智慧城市各城区各要素资源数据进行采集,其中,本实施例所要采集的基于城市级物联感知的要素资源数据种类及具体各要素资源数据包括:人口数据(基本信息、身份证照片等)、楼栋数据(楼栋标准地址、楼栋名称等)、房屋数据(房屋室内环境等级、房屋属性等)、企业数据(企业法人、经营范围等)、事件数据(社会治安、消防安全等)。
考虑到物联网链路的海量连接,任何网络抖动或时钟溢出都可能引起巨大的共振,导致接入的数据出现异常,对实现智慧城市数字孪生的资源管理造成不必要的损失。为解决这一问题,本实施例通过对智慧城市要素资源数据的处理,精准定位数据异常,实现物联感知终端接入的数据为正常数据,从源头遏制数字孪生系统的风险走向,实现高价值数据协同作用,打造安全可信的智慧城市数字平台。
为了对智慧城市各城区各要素资源数据进行分析得到正常数据,其中,设置采集智慧城市各城区数量为P个,采集城市要素资源数据种类为W个,采集要素资源数据数量为M个,采集各要素资源数据数量为N个,如表示第p个城区第m要素资源数据第n个数据点的数值,P、W、M和N的取值根据具体实施情况而定,本实施例取经验值P=8,W=5,M=20,N=500,数据采集模块如图3所示。
至此,可完成对智慧城市各城区各要素资源数据的采集,便于接下来对要素资源数据进行分析、处理。
步骤S002,对各城区各要素资源数据中的异常数据特征进行分析,得到各城区各要素资源的正常数据。
由于搭建智慧城市数字孪生体、实现智慧城市的资源管理,涉及到城市资源数据的采集,而采集的数据对智慧城市的资源管理产生的影响较大,同时在数据采集、传输、存储的过程中,由于智慧城市结构复杂,其采集的数据中可能存在较多的低质量、异常的数据。
因此本实施例的目的是对获取的数据进行分析,排除掉异常数据,再对正常数据进行处理,得到智慧城市相关资源管理数据。其中,数据采集和处理模块中的数据处理为本步骤重点。
在智慧城市物联感知平台中,其数据来源通常是通过城市内布置的传感器、摄像头、数字化系统等采集设备采集得到的,该采集设备遍布于智慧城市中,设备数目庞大,且分布密集,而且城市结构复杂,采集设备可能会出现一些异常状况,导致采集得到的数据准确性可能较低,所采集的数据中可能会存在一些异常数据。
通常情况下,正常传感器采集得到的数据较为稳定、波动程度较小,即时间间隔较小的数据之间数值差异较小,而若传感器存在异常,会导致采集得到的数据在某时刻出现不稳定、波动较强的特征。
基于上述分析,对于各城区各要素资源数据,分别对其数据进行分析,以第一城区中的第一要素资源数据(耗电量数据)为例,对要素资源数据中的每个数据都构建数据数量为的滑动窗口,即当前数据向左、向右分别取/>个数据,其中,/>为奇数且大于1,本实施例取经验值7。若某个数据的滑动窗口内的数据数量小于/>,则将该滑动窗口内已有数据的均值插入即可。
以第一城区第一要素资源数据中的第i个数据为例,数据点的滑动窗口内分割成两个子窗口,将数据点下标小于i的数据记为左子窗口,将数据点下标大于i的数据记为右子窗口,对于第一城区第一要素资源数据中的第i个数据点,将其作为目标数据点,即有:
式中,为数据点/>的左子窗口变化突兀系数,/>为滑动窗口内的数据数量,为第一城区第一要素资源数据中的第i个数据点的数值,/>为第一城区第一要素资源数据中的第i个数据点滑动窗口内第j个数据点的数值,/>为数据点/>的右子窗口变化突兀系数,/>为第一城区第一要素资源数据中的第i个数据点滑动窗口内第/>个数据点的数值,/>为数据点/>的综合变化突兀指数,/>为归一化函数,/>为数据点/>的滑动窗口内所有数据的拟合直线斜率,/>为以自然常数e为底数的指数函数。其中,直线拟合采用最小二乘线性拟合方法,最小二乘线性拟合方法为公知技术,本实施例不再赘述。
需要说明的是,当越大,说明左子窗口各数据与目标数据的数值相差越大,说明两个数据之间的差异越大,数据变化越突兀,左子窗口变化突兀系数/>越大,对于右子窗口数据同理;当/>越大,说明目标数据窗口中的左、右子窗口数据变化差异较大,该目标窗口内的数据变化不稳定,同时/>越大,说明该滑动窗口内所有数据的拟合直线斜率越大,即该窗口内数据整体变化越大,综合变化越突兀,综合变化突兀指数/>越大。
至此,对于各城区各要素资源数据的每个数据点均计算得到一个综合变化突兀指数,该值越大,说明该数据点在相邻数据之间的差异较大,该数据滑动窗口内数据变化越剧烈、越突兀。
同时根据正常的数据序列在一定的时间段内保持较小的数据波动、数据变化稳定的特征,对采集到的该城区该要素资源数据序列采用贝叶斯突变点检测的方法,将数据输入到贝叶斯突变点检测算法中,选取贝叶斯变化点检测模型与贝叶斯统计相结合的方法,建立贝叶斯模型,输出每个数据的突变点概率SY,如即表示第一城区第一要素资源数据中第i个数据点的突变点概率。该值越大,越接近越1,则该数据点越可能是该序列中的突变点,该值越小,越接近0,则该点在该序列中越平稳、越不可能是突变点。
在智慧城市采集数据过程中,存在一些虽然变化剧烈、突兀,但却是正常的数据点。例如对于城区耗电量数据而言,在居民用电的高峰期往往数据数值较大,而之前数据数值往往较小,此时该时刻的数据具有较为剧烈、突兀的变化,但数据本身却是较为正常的数据,而这种数据在该数据序列中往往还会有相似变化情况的数据。
因此,统计第一城区第一要素资源数据序列中与数据点数值相同的数据,记相同数据的总个数为/>,相同数据分别为/>、/>、/>、…、/>。将数据点/>以及与其数值相同的/>个数据构建数据点/>的集合,记为/>,其中,该集合中的每个数据都分别具有一个综合变化突兀指数和一个突变点概率的指标。
对于数据点的集合/>,将综合变化突兀指数作为横坐标,突变点概率作为纵坐标,构建集合/>中每个数据对应的第一特征坐标系,并将其输入到DBSCAN聚类算法中,将邻域半径/>设经验值为0.1,最小邻域点数设经验值为5,得到该集合/>中数据聚类簇的个数,记为/>,同时可得数据点/>所在簇内数据的数量,记为n2,若该数据点不在任意一个聚类簇中,则n2=1。基于上述分析,可得:
式中,为集合/>中的第f个数据点,/>为数据点/>与数据点/>的突变相似系数,/>为以自然常数e为底数的指数函数,/>是数据点/>的滑动窗口数据序列,/>是数据点/>的滑动窗口数据序列,/>表示/>和/>的滑动窗口数据序列之间的皮尔逊相关系数,/>表示在第一特征坐标系中数据点/>与数据点/>之间的欧式距离,是数据点/>的正常优异指数,/>是数据点/>的集合/>中数据的个数,/>是数据点的集合中聚类簇的数量,/>表示数据点/>所在聚类簇内数据的个数,/>表示数据点的异常突变指数,/>为数据点/>的综合变化突兀指数,/>为数据点/>的突变点概率,/>为消零参数,取经验值0.01,目的是为了消除分母为零的影响,/>为归一化函数。
需要说明的是,越大,表示数据点/>与数据点/>的滑动窗口数据序列之间的波形越相似,同时/>越小,表示两个数据点在第一特征坐标系中位置越接近,即两个数据点之间的综合变化突兀指数和突变点概率的差异越小,两个数据点的变化突兀指数、突变概率在数值上越相似,则两个数据越相似,突变相似系数/>越大。
越大,说明具有较多的数据与数据点/>相似,该数据越可能是正常数据,则正常优异指数/>越大,/>越小,聚类簇的个数较少,数据整体差异较小,同时n2越大,说明数据点/>所在聚类簇的数据个数越多,即与数据点/>数值相差较小的数据越多,数据点/>越可能是正常数据,则正常优异指数/>越大。
越大,说明数据点/>在滑动窗口中的左、右子窗口数据差异较大,变化较为突兀,该数据越可能是异常数据,/>越大,说明数据点/>在整体序列中是突变点的概率越大,该数据越可能是异常数据,同时/>越小,说明与数据点/>原始数据相同的数据中,在波形上越不相似,在所得指标综合变化突兀指数、突变概率数值上也差异越大,则数据点的异常突变指数/>越大。
至此,重复上述步骤,可以得到各城区各要素资源数据中的每个数据点的异常突变指数,该值越大,说明该点数据越可能是异常数据。
上述步骤是对于相同数值进行构建特征坐标系,反应的是相同数据之间的相对异常程度。而在实际数据序列中,异常数据往往较少,而且该异常数据往往相对于正常数据较为孤立。
因此,对于第一城区第一要素资源数据的数据序列,数据序列中的每个数据均有其数据数值和异常突变指数,以数据数值为横坐标,异常突变指标为纵坐标,构建第二特征坐标系,将各时刻的数据数值和异常突变指数都归入到该坐标系空间中,对该坐标系空间中的各数据点进行进一步分析计算。
以数据点为例,将以该数据对应的第二特征坐标系上的数据点为中心,邻域半径r内的空间位置进行分析,其中,本实施例将邻域半径设经验值为5,实施者可自行设定,记该邻域半径内的数据总个数为n3,基于上述分析,可得:
式中,为数据点/>的异常置信因子,/>为以自然常数e为底数的指数函数,为数据点/>在第二特征坐标系下的邻域半径内数据的总个数,/>为数据点/>所在要素资源数据序列中的数据总数,/>表示数据点/>邻域半径内的第g个数据,/>表示数据点/>和数据点/>在第二特征坐标系的欧式距离,/>为数据点/>的相对异常置信指数,/>为数据点/>所在要素资源数据序列中最大的异常置信因子。
需要说明的是,越小,说明以该数据点为中心的邻域半径空间内数据的总个数越少,同时/>越大,说明该邻域空间内的数据相对于中心数据点而言分布距离较大,则该中心数据具有较大可能性是孤立异常数据点,即异常置信因子/>较大,当数据点受噪声干扰等异常影响越严重时,异常置信因子/>会相对越大,该数值越接近该要素资源数据中最大的异常置信因子/>,说明此数据是异常数据的可能性越大。
至此,可计算得到各城区各要素资源数据中的每个数据点的异常置信指数。
构建各城区各要素资源数据的第三特征坐标系,将各城区各要素资源数据中每个数据点的数据数值和综合变化突兀指数分别作为第三特征坐标系的横、纵坐标,构建LOF异常检测算法的坐标分布数据,将所有坐标分布数据点相连,利用每个数据的坐标,求得它们之间的欧式距离,再计算所有数据之间欧式距离的均值,记为,LOF异常检测算法中的邻域距离/>,其中/>为向上取整函数,将每个数据点的横纵坐标输入到LOF异常检测算法中,设置邻域距离/>,得到各数据点的局部离散因子。
式中,是数据点/>的综合局部离群因子,/>为归一化函数,/>为数据点/>的局部离散因子,/>为数据点/>的相对异常置信指数。
需要说明的是,越大,说明该数据点相对于整体数据而言越异常,是异常点的可能性越大,则综合局部离群因子/>越大。
本实施例设置异常阈值,取经验值0.7,实施者可自行设定,将综合局部离群因子大于异常阈值的数据判定为受到噪声影响较大的数据点,即本实施例中的异常数据,对所有异常数据进行排除,对于排除后的缺失值进行拉格朗日多项式插值补全,其中,拉格朗日多项式插值补全方法为公知技术,本实施例不再赘述。
至此,可通过上述方法得到各城区各要素资源数据的正常数据序列。
步骤S003,将各城区各要素资源数据的正常数据接入物联感知平台,实现智慧城市数字孪生系统。
完成对智慧城市各城区各要素资源数据的采集以及处理后,可以得到各城区各要素资源的正常数据。
将所有正常数据输入到基于数字孪生的智慧城市资源管理系统中,分别实现数据建模和仿真模块、数据可视化和设计模块以及数据部署和运维模块。
至此,可完成基于数字孪生的智慧城市资源管理。
基于与上述方法相同的发明构思,本发明实施例还提供了基于数字孪生的智慧城市资源管理系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序等硬件设备,系统模块包括数据采集和处理模块、数据建模和仿真模块、数据可视化和设计模块以及数据部署和运维模块,所述处理器执行所述计算机程序时实现上述基于数字孪生的智慧城市资源管理方法中任意一项所述方法的步骤。
综上所述,本发明实施例提出基于数字孪生的智慧城市资源管理方法及系统,通过分析采集的智慧城市各城区各要素资源数据的数据特征分布,实现智慧城市数字孪生系统的资源管理。
本发明实施例提出基于数字孪生的智慧城市资源管理方法及系统,通过对采集获取得到的各城区各要素资源数据内各数据点滑动窗口内的变化特征,构建综合变化突兀指数,再结合贝叶斯突变点概率,分析当数据数值相同时,数据的相对情况状况,构建异常突变指数,其有益效果在于避免将一些数值变化剧烈、突兀,但是为正常数据的数据点划分为异常数据的情况,提高后续异常检测的精度;
进一步地,本发明实施例基于对全局数据特征构建第二特征坐标空间,得到该数据相对异常置信指数,反应该数据是异常数据的可能性,改进LOF异常检测的异常离群因子检测,其有益效果在于避免传统算法LOF异常检测算法通过局部的数据密度来检测异常,对于全局的掌控程度不足,导致误报异常点或漏报真实异常点的问题,提高异常数据检测的准确性。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。