CN115599774A - 基于局部时空树回归模型的时空非平稳性分析方法及系统 - Google Patents
基于局部时空树回归模型的时空非平稳性分析方法及系统 Download PDFInfo
- Publication number
- CN115599774A CN115599774A CN202211610329.0A CN202211610329A CN115599774A CN 115599774 A CN115599774 A CN 115599774A CN 202211610329 A CN202211610329 A CN 202211610329A CN 115599774 A CN115599774 A CN 115599774A
- Authority
- CN
- China
- Prior art keywords
- data
- time
- space
- local
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
Abstract
本发明公开了一种基于局部时空树回归模型的时空非平稳性分析方法及系统,包括获取数据的时空、空间数据以及非时空属性;计算时间、空间权重,得到时间、空间权重矩阵;对时间、空间权重矩阵进行元素级归约运算,得到时空权重矩阵;利用树结构回归模型,输入空间权重矩阵作为回归权重,进行局部时空回归,得到局部时空树回归模型;根据各时空局部模型计算局部重要性和局部偏依赖,得到数据的时空非平稳性以及非线性交互关系。本发明将时间维度引入空间分析,结合树结构的机器学习模型,实现了数据的时空非平稳性分析以及非线性交互关系分析,从而在时空数据中发现有用的时空信息和知识,从而更好地理解社会和环境的动态。
Description
技术领域
本发明属于计算机科学与技术中的机器学习以及地理信息科学中的时空数据建模技术领域,涉及一种时空非平稳性分析方法及系统,特别涉及一种基于局部时空树回归模型的时空非平稳性分析方法及系统。
背景技术
长期以来,时空分析和建模一直是地理信息科学、环境科学、水文学、流行病学和其他研究领域的主要研究问题。随着越来越丰富的时空数据的出现,如全球定位系统(GPS)收集的轨迹和遥感图像,越来越多的研究问题需要进行时空建模。例如,探索人类行为的时空模式、犯罪活动和疾病爆发,以及分析和可视化时空数据的新方法。
然而,在目前的地理信息科学领域中,尽管人们已经充分认识到将时间维度引入空间分析中的重要性,但是由于时空模型较为复杂、模型的复杂性较高,提高非线性的时空分析和建模的能力仍然是一个重大挑战,尤其是在大数据时代。因此,目前缺少新的非线性方法来促进时空思维,在时空数据中发现有用的时空信息和知识,从而更好地理解社会和环境的动态。
发明内容
本发明提出了一种基于树结构机器学习模型的时空非平稳性分析方法及系统,通过提取数据的时空属性,构建时空权重矩阵,并利用树结构的机器学习模型进行局部加权回归,从而进行时空非线性回归建模,以此能够探究数据在时空下的非平稳性以及非线性交互关系。
本发明的方法所采用的技术方案是:一种基于局部时空树回归模型的时空非平稳性分析方法,包括以下步骤:
步骤1:获取数据的时空属性,根据数据的属性特征,将数据属性区分为非时空属性、时间属性和空间属性;
步骤2:分别确定时间属性、空间属性的距离度量方式,计算数据之间的时间距离、空间距离,以此得到描述数据时间关系与空间关系的时间距离矩阵与空间距离矩阵;
步骤3:分别确定时间距离、空间距离的带宽、核函数,计算数据之间的时间权重、空间权重,以此得到描述数据之间时间相对重要性与空间相对重要性的时间权重矩阵与空间权重矩阵;
步骤4:根据步骤3中得到的时间、空间权重矩阵,对其进行元素级归约运算,得到描述数据之间时空相对重要性的时空权重矩阵;
步骤5:根据步骤4中得到的时空权重矩阵,将其作为回归权重,使用树结构回归模型对每处数据进行局部加权回归,得到多个局部时空树回归模型;
步骤6:根据步骤5中得到的多个局部时空树回归模型,计算各局部时空树回归模型的局部重要性以及局部偏依赖,得到数据在时空上的非平稳性以及非线性交互关系。
作为优选,步骤1中,所述数据的时间属性,为指明数据列中表明数据自身时间的数据列;对于粗时间粒度的数据,即数据时间范围跨度大于一天的数据,以年、月、日进行表示;对于细时间粒度的数据,即数据时间范围跨度小于等于一天的数据,以时、分、秒进行表示;
所述数据的空间属性,是指明数据列中表明数据自身空间位置的数据列;对于大地坐标系数据,以经度、纬度进行表示;对于投影坐标系数据,以X坐标、Y坐标进行表示;对于三维数据,以X坐标、Y坐标、Z坐标进行表示;
所述数据的非时空属性,是对于数据列中除表示自身时间和空间位置之外的数据列,归为非时空数据列。
作为优选,步骤2中:对时空属性使用曼哈顿距离度量,计算出各数据间的时间距离;其中,曼哈顿距离度量计算公式如下:
其中,d 1 ()代表曼哈顿距离函数,p、q代表数据对的时间向量;n为数据维度,对于一维的时间属性,代表数据维度n的值应为1;p i 、q i 表示时间向量p、q的第i维分量;
当空间属性使用经度、纬度表示时,使用大圆距离度量,根据半正矢公式计算出各数据间的空间距离;其中,半正矢公式如下:
当空间属性使用其他表示时,使用闵可夫斯基距离度量,根据数据特性确定p值,计算出各数据间的空间距离;其中,闵可夫斯基距离度量计算公式如下:
其中D()代表闵可夫斯基距离函数,p、q代表数据对的时间向量;n为数据维度,对于一维的时间属性,代表数据维度n的值应为1;p i 、q i 表示时间向量p、q的第i维分量;order为常数,表示距离计算维度;
将数据对之间的时间距离与空间距离组合为矩阵形式,得到时间距离矩阵与空间距离矩阵。
作为优选,步骤3中,根据时间距离、空间距离的性质选择带宽;对于固定带宽,各数据带宽均为同一固定值,设为局部模型所加权的邻接数据距离阈值;对于可变带宽,各局部模型所加权的邻接数量均为同一固定值,带宽设为对应邻接数量的距离阈值;
根据时间距离、空间距离的性质选择用于计算权重的核函数;对于连续核函数,其赋予的权重随着距离单调递减且大于零;
对于紧支撑核函数,其赋予的权重在距离大于带宽时为零;
将数据对之间的时间权重与空间权重组合为矩阵形式,得到时间权重矩阵与空间权重矩阵。
作为优选,步骤4的具体实现包括以下子步骤:
步骤4.1:对时间权重矩阵和空间权重矩阵进行相对重要性标准化,标准化过程为:
其中,W temporal 代表时间权重矩阵,W spatial 代表空间权重矩阵;γ temporal 代表时间权重的相对重要性,γ spatial 代表空间权重的相对重要性;
步骤4.2:对标准化后的时间权重矩阵与空间权重矩阵进行元素级归约运算;
对于元素级乘法归约运算,公式如下:
对于元素级加法归约运算,公式如下:
步骤4.3:对元素级归约结果进行矩阵化,得到时空权重矩阵。
作为优选,步骤5的具体实现包括以下子步骤:
步骤5.1:根据时空权重矩阵,选取各数据局部回归权重w i =(w i1 ,w i2 ,…,w iN ),其中,w ij 代表元素级归约结果矩阵的第i行第j列权重元素,1≤i≤N且1≤j≤N;N代表数据总量;
步骤5.2:对各数据局部回归权重w i ,设定数据自身对应权重数值为零,即w ii =0;
步骤5.3:对各数据进行树结构模型拟合,使用随机森林模型,传入局部回归权重,
得到局部树模型;其中,f i ()表示在数据i处使用X进行拟合的局部树模型、X表示
输入局部树模型用于拟合的数据、w i 表示在数据i处的局部回归权重;
步骤5.5:根据预测值,通过计算R2判断局部树模型拟合泛化能力;
R2计算公式如下:
步骤5.6:通过调整时间距离的带宽与空间距离的带宽,使R2最大化,其最大化公式如下:
其中,h temporal 代表时间距离的带宽,h spatial 代表空间距离的带宽,R2 (h temporal , h spatial )代表在当前h temporal ,h spatial 取值下,拟合模型所计算出来的R2值,代表使得表达式取值最大情况下的h temporal ,h spatial 取值;
作为优选,步骤6的具体实现包括以下子步骤:
其中Importancce ij 代表局部时空树回归模型i的特征j重要性得分,s代表局部时空树回归模型在数据上的得分,s k,j 代表局部时空树回归模型在第k次随机排列特征j之后的数据上的得分;K为常量,表示总共进行的随机排列次数;
步骤6.2:对局部时空树回归模型,计算特征的偏依赖,得到在局部的特征非线性关系;将局部偏依赖按照时间和空间位置进行排列,得到数据的时空非线性交互;偏依赖计算公式如下:
本发明的系统所采用的技术方案是:一种基于局部时空树回归模型的时空非平稳性分析系统,包括以下模块:
模块1,用于获取数据的时空属性,根据数据的属性特征,将数据属性区分为非时空属性、时间属性和空间属性;
模块2,用于分别确定时间属性、空间属性的距离度量方式,计算数据之间的时间距离、空间距离,以此得到描述数据时间关系与空间关系的时间距离矩阵与空间距离矩阵;
模块3,用于分别确定时间距离、空间距离的带宽、核函数,计算数据之间的时间权重、空间权重,以此得到描述数据之间时间相对重要性与空间相对重要性的时间权重矩阵与空间权重矩阵;
模块4,用于根据模块3中得到的时间、空间权重矩阵,对其进行元素级归约运算,得到描述数据之间时空相对重要性的时空权重矩阵;
模块5,用于根据模块4中得到的时空权重矩阵,将其作为回归权重,使用树结构回归模型对每处数据进行局部加权回归,得到多个局部时空树回归模型;
模块6,用于根据模块5中得到的多个局部时空树回归模型,计算各局部时空树回归模型的局部重要性以及局部偏依赖,得到数据在时空上的非平稳性以及非线性交互关系。
与现有技术相比,本发明具有以下优点:
1、将时间维度引入空间分析,通过构建时空权重矩阵,将时间维度引入局部时空树回归模型的权重计算,从而能够探究现象或数据在时空上所表现的非平稳性与异质性。
2、使用树结构作为局部时空树回归模型,利用树模型回归的非线性特征,得到了特征之间的非线性交互作用,从而能够探究现象或数据在时空上所表现的非线性交互影响。
3、通过对时间维度和空间维度定义不同的距离度量方式、带宽选择方式以及核函数,加入时间矩阵与空间矩阵的加权标准化,并且利用元素级归约计算,使得局部时空树回归模型对时间与空间维度之间的相对重要性做出正确有效的度量。
附图说明
图1为本发明的方法流程示意图;
图2为本发明的方法原理框图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本实施例以地铁站点客流数据作为研究对象,请见图1和图2,本发明提供的一种基于局部时空树回归模型的时空非平稳性分析方法,包括以下步骤:
步骤1:获取地铁站点客流数据的时空属性,根据数据的属性特征,将数据属性区分为:非时空属性、时间属性、空间属性。对于给定的地铁站点客流数据,其时间属性为每周星期数,其空间属性为站点经纬度,非时空属性包括发车时间间隔、站点工作时间、周边建筑物密度、站点综合运输指数、站点综合邻接指数等。
本实施例中,数据的时间属性,为指明数据列中表明数据自身时间的数据列。对于粗时间粒度的数据,即数据时间范围跨度大于一天的数据,以年、月、日进行表示;对于细时间粒度的数据,即数据时间范围跨度小于等于一天的数据,以时、分、秒进行表示。对于给定地铁站点客流数据,时间属性为站点客流所表示的时间,即当前客流量为站点星期几的客流量,为粗时间粒度,以每周星期数来进行表述。
本实施例中,数据的空间属性,是指明数据列中表明数据自身空间位置的数据列。对于大地坐标系数据,以经度、纬度进行表示;对于投影坐标系数据,以X坐标、Y坐标进行表示;对于三维数据,以X坐标、Y坐标、Z坐标进行表示。对于给定地铁站点客流数据,空间属性为站点所处经纬度坐标,以经度、纬度进行表示。
本实施例中,对于数据列中除表示自身时间和空间位置之外的数据列,归为非时空数据列。对于给定地铁站点客流数据,非时空属性包括发车时间间隔、站点工作时间、周边建筑物密度、站点综合运输指数、站点综合邻接指数等。
步骤2:分别确定时间属性、空间属性的距离度量方式,计算数据之间的时间距离、空间距离,以此得到描述数据时间关系与空间关系的时间距离矩阵与空间距离矩阵;
本实施例中,对时空属性使用曼哈顿距离度量,计算出各数据间的时间距离;其中,曼哈顿距离度量计算公式如下:
其中,d 1 ()代表曼哈顿距离函数,p、q代表数据对的时间向量;n为数据维度,对于一维的时间属性,代表数据维度n的值应为1;p i 、q i 表示时间向量p、q的第i维分量;
当空间属性使用经度、纬度表示时,使用大圆距离度量,根据半正矢公式计算出各数据间的空间距离;其中,半正矢公式如下:
当空间属性使用其他表示时,使用闵可夫斯基距离度量,根据数据特性确定p值,计算出各数据间的空间距离;其中,闵可夫斯基距离度量计算公式如下:
其中D()代表闵可夫斯基距离函数,p、q代表数据对的时间向量;n为数据维度,对于一维的时间属性,代表数据维度n的值应为1;p i 、q i 表示时间向量p、q的第i维分量;order为常数,表示距离计算维度对于给定地铁站点客流数据,空间属性使用经纬度表示,使用大远距离度量计算各站点位置之间的空间距离。
将数据对之间的时间距离与空间距离组合为矩阵形式,得到时间距离矩阵与空间距离矩阵。
步骤3:分别确定时间距离、空间距离的带宽、核函数,计算数据之间的时间权重、空间权重,以此得到描述数据之间时间相对重要性与空间相对重要性的时间权重矩阵与空间权重矩阵;
本实施例中,根据时间距离、空间距离的性质选择带宽;对于固定带宽,各数据带宽均为同一固定值,设为局部模型所加权的邻接数据距离阈值;对于可变带宽,各局部模型所加权的邻接数量均为同一固定值,带宽设为对应邻接数量的距离阈值;对于给定地铁站点客流数据,对时间距离使用可变带宽,设定包含邻接数量为15,对空间距离使用可变带宽,设定包含邻接数量为40。
根据时间距离、空间距离的性质选择用于计算权重的核函数;对于连续核函数,其赋予的权重随着距离单调递减且大于零,例如高斯核函数,其公式如下:
其中d ij 为数据对间的距离,h为带宽。
对于紧支撑核函数,其赋予的权重在距离大于带宽时为零;例如双平方函数,其公式如下:
对于给定地铁站点客流数据,对时间距离使用高斯核函数,对空间记录使用双平方核函数。
将数据对之间的时间权重与空间权重组合为矩阵形式,得到时间权重矩阵与空间权重矩阵。
步骤4:根据步骤3中得到的时间、空间权重矩阵,对其进行元素级归约运算,得到描述数据之间时空相对重要性的时空权重矩阵;
本实施例中,步骤4的具体实现包括以下子步骤:
步骤4.1:对时间权重矩阵和空间权重矩阵进行相对重要性标准化,标准化过程为:
其中,W temporal 代表时间权重矩阵,W spatial 代表空间权重矩阵;γ temporal 代表时间权重的相对重要性,γ spatial 代表空间权重的相对重要性;
步骤4.2:对标准化后的时间权重矩阵与空间权重矩阵进行元素级归约运算;
对于元素级乘法归约运算,公式如下:
对于元素级加法归约运算,公式如下:
对于给定地铁站点客流数据,使用元素级乘法归约运算。
步骤4.3:对元素级归约结果进行矩阵化,得到时空权重矩阵。
步骤5:根据步骤4中得到的时空权重矩阵,将其作为回归权重,使用树结构回归模型对每处数据进行局部加权回归,得到多个局部时空树回归模型;
本实施例中,步骤5的具体实现包括以下子步骤:
步骤5.1:根据时空权重矩阵,选取各数据局部回归权重w i =(w i1 ,w i2 ,…,w iN ),其中,w ij 代表元素级归约结果矩阵的第i行第j列权重元素,1≤i≤N且1≤j≤N;N代表数据总量;
步骤5.2:对各数据局部回归权重w i ,设定数据自身对应权重数值为零,即w ii =0;
步骤5.3:对各数据进行树结构模型拟合,使用随机森林模型,传入局部回归权重,
得到局部树模型;其中,f i ()表示在数据i处使用X进行拟合的局部树模型、X表示
输入局部树模型用于拟合的数据、w i 表示在数据i处的局部回归权重;
步骤5.5:根据预测值,通过计算R2判断局部树模型拟合泛化能力;
R2计算公式如下:
步骤5.6:通过调整时间距离的带宽与空间距离的带宽,使R2最大化,其最大化公式如下:
其中,h temporal 代表时间距离的带宽,h spatial 代表空间距离的带宽,R2 (h temporal , h spatial )代表在当前h temporal ,h spatial 取值下,拟合模型所计算出来的R2值,代表使得表达式取值最大情况下的h temporal ,h spatial 取值;
对于给定地铁站点客流数据,在不同h temporal 与h spatial 下,其R 2 (h temporal ,h spatial )数值如下表1:
表1
由此选定h temporal 为15,h spatial 为40。
步骤6:根据步骤5中得到的多个局部时空树回归模型,计算各局部时空树回归模型的局部重要性以及局部偏依赖,得到数据在时空上的非平稳性以及非线性交互关系。
本实施例中,步骤6的具体实现包括以下子步骤:
步骤6.1:对各局部时空树回归模型,使用排列重要性计算各特征的局部重要性,将局部重要性根据时间和空间位置进行排列,从而得到特征的时空重要性;排列重要性计算公式如下:
其中Importancce ij 代表局部时空树回归模型i的特征j重要性得分,s代表局部时空树回归模型在数据上的得分,s k,j 代表局部时空树回归模型在第k次随机排列特征j之后的数据上的得分;K为常量,表示总共进行的随机排列次数;
对于给定地铁站点客流数据,其特征站点综合运输指数、站点综合邻接指数的排列重要性得分如下表2:
表2
步骤6.2:对各局部时空树回归模型,计算特征的偏依赖,得到在局部的特征非线性关系;将局部偏依赖按照时间和空间位置进行排列,得到数据的时空非线性交互;偏依赖计算公式如下:
对于给定地铁站点客流数据,其特征站点综合运输指数、站点综合邻接指数的局部偏依赖如下表3:
表3
本发明将时间维度引入空间分析,结合树结构的机器学习模型,实现了数据的时空非平稳性分析以及非线性交互关系分析,从而在时空数据中发现有用的时空信息和知识,从而更好地理解社会和环境的动态。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (8)
1.一种基于局部时空树回归模型的时空非平稳性分析方法,其特征在于,包括以下步骤:
步骤1:获取数据的时空属性,根据数据的属性特征,将数据属性区分为非时空属性、时间属性和空间属性;
步骤2:分别确定时间属性、空间属性的距离度量方式,计算数据之间的时间距离、空间距离,以此得到描述数据时间关系与空间关系的时间距离矩阵与空间距离矩阵;
步骤3:分别确定时间距离、空间距离的带宽、核函数,计算数据之间的时间权重、空间权重,以此得到描述数据之间时间相对重要性与空间相对重要性的时间权重矩阵与空间权重矩阵;
步骤4:根据步骤3中得到的时间、空间权重矩阵,对其进行元素级归约运算,得到描述数据之间时空相对重要性的时空权重矩阵;
步骤5:根据步骤4中得到的时空权重矩阵,将其作为回归权重,使用树结构回归模型对每处数据进行局部加权回归,得到多个局部时空树回归模型;
步骤6:根据步骤5中得到的多个局部时空树回归模型,计算各局部时空树回归模型的局部重要性以及局部偏依赖,得到数据在时空上的非平稳性以及非线性交互关系。
2.根据权利要求1所述的基于局部时空树回归模型的时空非平稳性分析方法,其特征在于,步骤1中:
所述数据的时间属性,为指明数据列中表明数据自身时间的数据列;对于粗时间粒度的数据,即数据时间范围跨度大于一天的数据,以年、月、日进行表示;对于细时间粒度的数据,即数据时间范围跨度小于等于一天的数据,以时、分、秒进行表示;
所述数据的空间属性,是指明数据列中表明数据自身空间位置的数据列;对于大地坐标系数据,以经度、纬度进行表示;对于投影坐标系数据,以X坐标、Y坐标进行表示;对于三维数据,以X坐标、Y坐标、Z坐标进行表示;
所述数据的非时空属性,是对于数据列中除表示自身时间和空间位置之外的数据列,归为非时空数据列。
3.根据权利要求1所述的基于局部时空树回归模型的时空非平稳性分析方法,其特征在于,步骤2中:
对时空属性使用曼哈顿距离度量,计算出各数据间的时间距离;其中,曼哈顿距离度量计算公式如下:
其中,d 1 ()代表曼哈顿距离函数,p、q代表数据对的时间向量;n为数据维度,对于一维的时间属性,代表数据维度n的值应为1;p i 、q i 表示时间向量p、q的第i维分量;
当空间属性使用经度、纬度表示时,使用大圆距离度量,根据半正矢公式计算出各数据间的空间距离;其中,半正矢公式如下:
当空间属性使用其他表示时,使用闵可夫斯基距离度量,根据数据特性确定p值,计算出各数据间的空间距离;其中,闵可夫斯基距离度量计算公式如下:
其中D()代表闵可夫斯基距离函数,order为常数,表示距离计算维度;
将数据对之间的时间距离与空间距离组合为矩阵形式,得到时间距离矩阵与空间距离矩阵。
4.根据权利要求1所述的基于局部时空树回归模型的时空非平稳性分析方法,其特征在于:步骤3中,
根据时间距离、空间距离的性质选择带宽;对于固定带宽,各数据带宽均为同一固定值,设为局部模型所加权的邻接数据距离阈值;对于可变带宽,各局部模型所加权的邻接数量均为同一固定值,带宽设为对应邻接数量的距离阈值;
根据时间距离、空间距离的性质选择用于计算权重的核函数;对于连续核函数,其赋予的权重随着距离单调递减且大于零;
对于紧支撑核函数,其赋予的权重在距离大于带宽时为零;
将数据对之间的时间权重与空间权重组合为矩阵形式,得到时间权重矩阵与空间权重矩阵。
5.根据权利要求1所述的基于局部时空树回归模型的时空非平稳性分析方法,其特征在于,步骤4的具体实现包括以下子步骤:
步骤4.1:对时间权重矩阵和空间权重矩阵进行相对重要性标准化,标准化过程为:
其中,W temporal 代表时间权重矩阵,W spatial 代表空间权重矩阵;γ temporal 代表时间权重的相对重要性,γ spatial 代表空间权重的相对重要性;
步骤4.2:对标准化后的时间权重矩阵与空间权重矩阵进行元素级归约运算;
对于元素级乘法归约运算,公式如下:
对于元素级加法归约运算,公式如下:
步骤4.3:对元素级归约结果进行矩阵化,得到时空权重矩阵。
6.根据权利要求1所述的基于局部时空树回归模型的时空非平稳性分析方法,其特征在于,步骤5的具体实现包括以下子步骤:
步骤5.1:根据时空权重矩阵,选取各数据局部回归权重w i =(w i1 ,w i2 ,…,w iN ),其中,w ij 代表元素级归约结果矩阵的第i行第j列权重元素,1≤i≤N且1≤j≤N;N代表数据总量;
步骤5.2:对各数据局部回归权重w i ,设定数据自身对应权重数值为零,即w ii =0;
步骤5.3:对各数据进行树结构模型拟合,使用随机森林模型,传入局部回归权重,得到
局部树模型;其中,f i ()表示在数据i处使用X进行拟合的局部树模型、X表示输入
局部树模型用于拟合的数据、w i 表示在数据i处的局部回归权重;
步骤5.5:根据预测值,通过计算R2判断局部树模型拟合泛化能力;
R2计算公式如下:
步骤5.6:通过调整时间距离的带宽与空间距离的带宽,使R2最大化,其最大化公式如下:
其中,h temporal 代表时间距离的带宽,h spatial 代表空间距离的带宽,R2 (h temporal ,h spatial )
代表在当前h temporal ,h spatial 取值下,拟合模型所计算出来的R2值,
代表使得表达式取值最大情况下的h temporal ,h spatial 取值;
7.根据权利要求1-6任意一项所述的基于局部时空树回归模型的时空非平稳性分析方法,其特征在于,步骤6的具体实现包括以下子步骤:
步骤6.1:对局部时空树回归模型,使用排列重要性计算各特征的局部重要性,将局部重要性根据时间和空间位置进行排列,从而得到特征的时空重要性;排列重要性计算公式如下:
其中Importancce ij 代表局部时空树回归模型i的特征j重要性得分,s代表局部时空树回归模型在数据上的得分,s k,j 代表局部时空树回归模型在第k次随机排列特征j之后的数据上的得分;K为常量,表示总共进行的随机排列次数;
步骤6.2:对局部时空树回归模型,计算特征的偏依赖,得到在局部的特征非线性关系;将局部偏依赖按照时间和空间位置进行排列,得到数据的时空非线性交互;偏依赖计算公式如下:
8.一种基于局部时空树回归模型的时空非平稳性分析系统,其特征在于,包括以下模块:
模块1,用于获取数据的时空属性,根据数据的属性特征,将数据属性区分为非时空属性、时间属性和空间属性;
模块2,用于分别确定时间属性、空间属性的距离度量方式,计算数据之间的时间距离、空间距离,以此得到描述数据时间关系与空间关系的时间距离矩阵与空间距离矩阵;
模块3,用于分别确定时间距离、空间距离的带宽、核函数,计算数据之间的时间权重、空间权重,以此得到描述数据之间时间相对重要性与空间相对重要性的时间权重矩阵与空间权重矩阵;
模块4,用于根据模块3中得到的时间、空间权重矩阵,对其进行元素级归约运算,得到描述数据之间时空相对重要性的时空权重矩阵;
模块5,用于根据模块4中得到的时空权重矩阵,将其作为回归权重,使用树结构回归模型对每处数据进行局部加权回归,得到多个局部时空树回归模型;
模块6,用于根据模块5中得到的多个局部时空树回归模型,计算各局部时空树回归模型的局部重要性以及局部偏依赖,得到数据在时空上的非平稳性以及非线性交互关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211610329.0A CN115599774B (zh) | 2022-12-15 | 2022-12-15 | 基于局部时空树回归模型的时空非平稳性分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211610329.0A CN115599774B (zh) | 2022-12-15 | 2022-12-15 | 基于局部时空树回归模型的时空非平稳性分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115599774A true CN115599774A (zh) | 2023-01-13 |
CN115599774B CN115599774B (zh) | 2023-03-10 |
Family
ID=84854212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211610329.0A Active CN115599774B (zh) | 2022-12-15 | 2022-12-15 | 基于局部时空树回归模型的时空非平稳性分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115599774B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235675A (zh) * | 2023-09-20 | 2023-12-15 | 福建省星云大数据应用服务有限公司 | 一种大数据自适应采集方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7464006B1 (en) * | 2003-10-09 | 2008-12-09 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Analyzing nonstationary financial time series via hilbert-huang transform (HHT) |
CN106227965A (zh) * | 2016-07-29 | 2016-12-14 | 武汉大学 | 一种顾及时空分布非平稳特征的土壤有机碳空间抽样网络设计方法 |
CN107103392A (zh) * | 2017-05-24 | 2017-08-29 | 北京航空航天大学 | 一种基于时空地理加权回归的公交客流影响因素识别与预测方法 |
CN109214605A (zh) * | 2018-11-12 | 2019-01-15 | 国网山东省电力公司电力科学研究院 | 电力系统短期负荷概率预测方法、装置及系统 |
US20190080261A1 (en) * | 2017-09-14 | 2019-03-14 | Beihang University | Data correlation processing method based on observation data from beidou satellite |
US20190122144A1 (en) * | 2017-10-25 | 2019-04-25 | International Business Machines Corporation | Regression for metric dataset |
US20200311576A1 (en) * | 2019-04-01 | 2020-10-01 | Kabushiki Kaisha Toshiba | Time series data analysis method, time series data analysis apparatus, and non-transitory computer readable medium |
CN113901384A (zh) * | 2021-09-24 | 2022-01-07 | 武汉大学 | 顾及全局空间自相关性和局部异质性的地面pm2.5浓度建模方法 |
-
2022
- 2022-12-15 CN CN202211610329.0A patent/CN115599774B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7464006B1 (en) * | 2003-10-09 | 2008-12-09 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Analyzing nonstationary financial time series via hilbert-huang transform (HHT) |
CN106227965A (zh) * | 2016-07-29 | 2016-12-14 | 武汉大学 | 一种顾及时空分布非平稳特征的土壤有机碳空间抽样网络设计方法 |
CN107103392A (zh) * | 2017-05-24 | 2017-08-29 | 北京航空航天大学 | 一种基于时空地理加权回归的公交客流影响因素识别与预测方法 |
US20190080261A1 (en) * | 2017-09-14 | 2019-03-14 | Beihang University | Data correlation processing method based on observation data from beidou satellite |
US20190122144A1 (en) * | 2017-10-25 | 2019-04-25 | International Business Machines Corporation | Regression for metric dataset |
CN109214605A (zh) * | 2018-11-12 | 2019-01-15 | 国网山东省电力公司电力科学研究院 | 电力系统短期负荷概率预测方法、装置及系统 |
US20200311576A1 (en) * | 2019-04-01 | 2020-10-01 | Kabushiki Kaisha Toshiba | Time series data analysis method, time series data analysis apparatus, and non-transitory computer readable medium |
CN113901384A (zh) * | 2021-09-24 | 2022-01-07 | 武汉大学 | 顾及全局空间自相关性和局部异质性的地面pm2.5浓度建模方法 |
Non-Patent Citations (2)
Title |
---|
肖燕婷等: "时空地理加权回归模型的时空非平稳性检验", 《系统工程理论与实践》 * |
赵阳阳: "顾及全局和局部时空非平稳差异的地理加权回归方法研究", 《中国博士学位论文全文数据库基础科学辑(月刊)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235675A (zh) * | 2023-09-20 | 2023-12-15 | 福建省星云大数据应用服务有限公司 | 一种大数据自适应采集方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115599774B (zh) | 2023-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Senaratne et al. | Urban mobility analysis with mobile network data: A visual analytics approach | |
US10387457B2 (en) | Grid-based analysis of geospatial trajectories | |
Surabuddin Mondal et al. | Modeling of spatio-temporal dynamics of land use and land cover in a part of Brahmaputra River basin using Geoinformatic techniques | |
US20130232419A1 (en) | Systems and methods for efficient video analysis | |
Ray et al. | A backcast land use change model to generate past land use maps: application and validation at the Muskegon River watershed of Michigan, USA | |
Song et al. | An interactive detector for spatial associations | |
Tang et al. | Integration of diverse data sources for spatial PM2. 5 data interpolation | |
CN113158038B (zh) | 基于sta-tcn神经网络框架的兴趣点推荐方法及系统 | |
Stehman | A critical evaluation of the normalized error matrix in map accuracy assessment | |
CN115599774B (zh) | 基于局部时空树回归模型的时空非平稳性分析方法及系统 | |
Gervasoni et al. | Convolutional neural networks for disaggregated population mapping using open data | |
Surabuddin Mondal et al. | Ca Markov modeling of land use land cover dynamics and sensitivity analysis to identify sensitive parameter (S) | |
CN115293570A (zh) | 一种基于gis国土空间规划系统及方法 | |
Parvinnezhad et al. | A modified spatial entropy for urban sprawl assessment | |
CN110263250A (zh) | 一种推荐模型的生成方法及装置 | |
CN110276387A (zh) | 一种模型的生成方法及装置 | |
US20170299424A1 (en) | Measuring and diagnosing noise in an urban environment | |
CN115759291B (zh) | 一种基于集成学习的空间非线性回归方法及系统 | |
CN116341841A (zh) | 径流预报误差校正方法、装置、设备、介质和程序产品 | |
CN116258923A (zh) | 图像识别模型训练方法、装置、计算机设备和存储介质 | |
CN115438249A (zh) | QoS预测模型构建方法、装置、设备及可读存储介质 | |
Zhang et al. | Two-stage traffic clustering based on HNSW | |
Al Marhoobi | Time series analysis and forecasting with applications to climate science | |
Nice et al. | The nature of human settlement: building an understanding of high performance city design | |
Oxoli | Exploratory approaches in spatial association analysis: Methods, complements, and open GIS tools development |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |