CN115599774B - 基于局部时空树回归模型的时空非平稳性分析方法及系统 - Google Patents

基于局部时空树回归模型的时空非平稳性分析方法及系统 Download PDF

Info

Publication number
CN115599774B
CN115599774B CN202211610329.0A CN202211610329A CN115599774B CN 115599774 B CN115599774 B CN 115599774B CN 202211610329 A CN202211610329 A CN 202211610329A CN 115599774 B CN115599774 B CN 115599774B
Authority
CN
China
Prior art keywords
data
time
space
local
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211610329.0A
Other languages
English (en)
Other versions
CN115599774A (zh
Inventor
苏世亮
罗运
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Planning And Natural Resources Data Management Center Shenzhen Spatial Geographic Information Center
Wuhan University WHU
Original Assignee
Shenzhen Planning And Natural Resources Data Management Center Shenzhen Spatial Geographic Information Center
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Planning And Natural Resources Data Management Center Shenzhen Spatial Geographic Information Center, Wuhan University WHU filed Critical Shenzhen Planning And Natural Resources Data Management Center Shenzhen Spatial Geographic Information Center
Priority to CN202211610329.0A priority Critical patent/CN115599774B/zh
Publication of CN115599774A publication Critical patent/CN115599774A/zh
Application granted granted Critical
Publication of CN115599774B publication Critical patent/CN115599774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Abstract

本发明公开了一种基于局部时空树回归模型的时空非平稳性分析方法及系统,包括获取数据的时空、空间数据以及非时空属性;计算时间、空间权重,得到时间、空间权重矩阵;对时间、空间权重矩阵进行元素级归约运算,得到时空权重矩阵;利用树结构回归模型,输入空间权重矩阵作为回归权重,进行局部时空回归,得到局部时空树回归模型;根据各时空局部模型计算局部重要性和局部偏依赖,得到数据的时空非平稳性以及非线性交互关系。本发明将时间维度引入空间分析,结合树结构的机器学习模型,实现了数据的时空非平稳性分析以及非线性交互关系分析,从而在时空数据中发现有用的时空信息和知识,从而更好地理解社会和环境的动态。

Description

基于局部时空树回归模型的时空非平稳性分析方法及系统
技术领域
本发明属于计算机科学与技术中的机器学习以及地理信息科学中的时空数据建模技术领域,涉及一种时空非平稳性分析方法及系统,特别涉及一种基于局部时空树回归模型的时空非平稳性分析方法及系统。
背景技术
长期以来,时空分析和建模一直是地理信息科学、环境科学、水文学、流行病学和其他研究领域的主要研究问题。随着越来越丰富的时空数据的出现,如全球定位系统(GPS)收集的轨迹和遥感图像,越来越多的研究问题需要进行时空建模。例如,探索人类行为的时空模式、犯罪活动和疾病爆发,以及分析和可视化时空数据的新方法。
然而,在目前的地理信息科学领域中,尽管人们已经充分认识到将时间维度引入空间分析中的重要性,但是由于时空模型较为复杂、模型的复杂性较高,提高非线性的时空分析和建模的能力仍然是一个重大挑战,尤其是在大数据时代。因此,目前缺少新的非线性方法来促进时空思维,在时空数据中发现有用的时空信息和知识,从而更好地理解社会和环境的动态。
发明内容
本发明提出了一种基于树结构机器学习模型的时空非平稳性分析方法及系统,通过提取数据的时空属性,构建时空权重矩阵,并利用树结构的机器学习模型进行局部加权回归,从而进行时空非线性回归建模,以此能够探究数据在时空下的非平稳性以及非线性交互关系。
本发明的方法所采用的技术方案是:一种基于局部时空树回归模型的时空非平稳性分析方法,包括以下步骤:
步骤1:获取数据的时空属性,根据数据的属性特征,将数据属性区分为非时空属性、时间属性和空间属性;
步骤2:分别确定时间属性、空间属性的距离度量方式,计算数据之间的时间距离、空间距离,以此得到描述数据时间关系与空间关系的时间距离矩阵与空间距离矩阵;
步骤3:分别确定时间距离、空间距离的带宽、核函数,计算数据之间的时间权重、空间权重,以此得到描述数据之间时间相对重要性与空间相对重要性的时间权重矩阵与空间权重矩阵;
步骤4:根据步骤3中得到的时间、空间权重矩阵,对其进行元素级归约运算,得到描述数据之间时空相对重要性的时空权重矩阵;
步骤5:根据步骤4中得到的时空权重矩阵,将其作为回归权重,使用树结构回归模型对每处数据进行局部加权回归,得到多个局部时空树回归模型;
步骤6:根据步骤5中得到的多个局部时空树回归模型,计算各局部时空树回归模型的局部重要性以及局部偏依赖,得到数据在时空上的非平稳性以及非线性交互关系。
作为优选,步骤1中,所述数据的时间属性,为指明数据列中表明数据自身时间的数据列;对于粗时间粒度的数据,即数据时间范围跨度大于一天的数据,以年、月、日进行表示;对于细时间粒度的数据,即数据时间范围跨度小于等于一天的数据,以时、分、秒进行表示;
所述数据的空间属性,是指明数据列中表明数据自身空间位置的数据列;对于大地坐标系数据,以经度、纬度进行表示;对于投影坐标系数据,以X坐标、Y坐标进行表示;对于三维数据,以X坐标、Y坐标、Z坐标进行表示;
所述数据的非时空属性,是对于数据列中除表示自身时间和空间位置之外的数据列,归为非时空数据列。
作为优选,步骤2中:对时空属性使用曼哈顿距离度量,计算出各数据间的时间距离;其中,曼哈顿距离度量计算公式如下:
Figure 159634DEST_PATH_IMAGE001
其中,d 1 ()代表曼哈顿距离函数,pq代表数据对的时间向量;n为数据维度,对于一维的时间属性,代表数据维度n的值应为1;p i q i 表示时间向量pq的第i维分量;
当空间属性使用经度、纬度表示时,使用大圆距离度量,根据半正矢公式计算出各数据间的空间距离;其中,半正矢公式如下:
Figure 217720DEST_PATH_IMAGE002
其中,r代表地球半径,
Figure 690069DEST_PATH_IMAGE003
代表数据对的纬度,λ 1λ 2代表数据对的经度;
当空间属性使用其他表示时,使用闵可夫斯基距离度量,根据数据特性确定p值,计算出各数据间的空间距离;其中,闵可夫斯基距离度量计算公式如下:
Figure 163906DEST_PATH_IMAGE004
其中D()代表闵可夫斯基距离函数,pq代表数据对的时间向量;n为数据维度,对于一维的时间属性,代表数据维度n的值应为1;p i q i 表示时间向量pq的第i维分量;order为常数,表示距离计算维度;
将数据对之间的时间距离与空间距离组合为矩阵形式,得到时间距离矩阵与空间距离矩阵。
作为优选,步骤3中,根据时间距离、空间距离的性质选择带宽;对于固定带宽,各数据带宽均为同一固定值,设为局部模型所加权的邻接数据距离阈值;对于可变带宽,各局部模型所加权的邻接数量均为同一固定值,带宽设为对应邻接数量的距离阈值;
根据时间距离、空间距离的性质选择用于计算权重的核函数;对于连续核函数,其赋予的权重随着距离单调递减且大于零;
对于紧支撑核函数,其赋予的权重在距离大于带宽时为零;
将数据对之间的时间权重与空间权重组合为矩阵形式,得到时间权重矩阵与空间权重矩阵。
作为优选,步骤4的具体实现包括以下子步骤:
步骤4.1:对时间权重矩阵和空间权重矩阵进行相对重要性标准化,标准化过程为:
Figure 915962DEST_PATH_IMAGE005
其中,W temporal 代表时间权重矩阵,W spatial 代表空间权重矩阵;γ temporal 代表时间权重的相对重要性,γ spatial 代表空间权重的相对重要性;
步骤4.2:对标准化后的时间权重矩阵与空间权重矩阵进行元素级归约运算;
对于元素级乘法归约运算,公式如下:
Figure 269583DEST_PATH_IMAGE006
对于元素级加法归约运算,公式如下:
Figure 739878DEST_PATH_IMAGE007
其中,
Figure 282986DEST_PATH_IMAGE008
代表时间权重矩阵的第i行第j列权重元素,
Figure 155127DEST_PATH_IMAGE009
代表 时间权重矩阵的第i行第j列权重元素,w ij 代表元素级归约结果矩阵的第i行第j列权重元 素;
步骤4.3:对元素级归约结果进行矩阵化,得到时空权重矩阵。
作为优选,步骤5的具体实现包括以下子步骤:
步骤5.1:根据时空权重矩阵,选取各数据局部回归权重w i =(w i1 ,w i2 ,…,w iN ),其中,w ij 代表元素级归约结果矩阵的第i行第j列权重元素,1≤i≤N且1≤j≤N;N代表数据总量;
步骤5.2:对各数据局部回归权重w i ,设定数据自身对应权重数值为零,即w ii =0;
步骤5.3:对各数据进行树结构模型拟合,使用随机森林模型,传入局部回归权重, 得到局部树模型
Figure 286507DEST_PATH_IMAGE010
;其中,f i ()表示在数据i处使用X进行拟合的局部树模型、X表 示输入局部树模型用于拟合的数据、w i 表示在数据i处的局部回归权重;
步骤5.4:根据局部树模型,计算各局部预测值
Figure 447361DEST_PATH_IMAGE011
步骤5.5:根据预测值,通过计算R2判断局部树模型拟合泛化能力;
R2计算公式如下:
Figure 715531DEST_PATH_IMAGE012
Figure 255228DEST_PATH_IMAGE013
Figure 357176DEST_PATH_IMAGE014
其中,
Figure 736817DEST_PATH_IMAGE015
表示回归变量均值;y i 表示数据i的真实值;e i 表示数据i真实值与预测值 之间的差值,即数据i的残差值;
步骤5.6:通过调整时间距离的带宽与空间距离的带宽,使R2最大化,其最大化公式如下:
Figure 215203DEST_PATH_IMAGE017
其中,h temporal 代表时间距离的带宽,h spatial 代表空间距离的带宽,R2 (h temporal , h spatial )代表在当前h temporal ,h spatial 取值下,拟合模型所计算出来的R2值,
Figure 124253DEST_PATH_IMAGE018
代表使得表达式取值最大情况下的h temporal ,h spatial 取值;
由此,得到使R2最大下的h temporal ,h spatial ,将其作为最优回归参数从而得到最优的 局部时空树回归模型
Figure 538048DEST_PATH_IMAGE019
作为优选,步骤6的具体实现包括以下子步骤:
其中Importancce ij 代表局部时空树回归模型i的特征j重要性得分,s代表局部时空树回归模型在数据上的得分,s k,j 代表局部时空树回归模型在第k次随机排列特征j之后的数据上的得分;K为常量,表示总共进行的随机排列次数;
步骤6.2:对局部时空树回归模型,计算特征的偏依赖,得到在局部的特征非线性关系;将局部偏依赖按照时间和空间位置进行排列,得到数据的时空非线性交互;偏依赖计算公式如下:
Figure 142336DEST_PATH_IMAGE020
其中,x s 代表所求偏依赖特征的局部输入值,X C 代表除所求特征之外的局部输入特 征;
Figure 627675DEST_PATH_IMAGE021
代表定义式;
Figure 391232DEST_PATH_IMAGE022
代表对X C 求表达式的期望;f()代表模型的预测函数;p()代表 取值的概率。
本发明的系统所采用的技术方案是:一种基于局部时空树回归模型的时空非平稳性分析系统,包括以下模块:
模块1,用于获取数据的时空属性,根据数据的属性特征,将数据属性区分为非时空属性、时间属性和空间属性;
模块2,用于分别确定时间属性、空间属性的距离度量方式,计算数据之间的时间距离、空间距离,以此得到描述数据时间关系与空间关系的时间距离矩阵与空间距离矩阵;
模块3,用于分别确定时间距离、空间距离的带宽、核函数,计算数据之间的时间权重、空间权重,以此得到描述数据之间时间相对重要性与空间相对重要性的时间权重矩阵与空间权重矩阵;
模块4,用于根据模块3中得到的时间、空间权重矩阵,对其进行元素级归约运算,得到描述数据之间时空相对重要性的时空权重矩阵;
模块5,用于根据模块4中得到的时空权重矩阵,将其作为回归权重,使用树结构回归模型对每处数据进行局部加权回归,得到多个局部时空树回归模型;
模块6,用于根据模块5中得到的多个局部时空树回归模型,计算各局部时空树回归模型的局部重要性以及局部偏依赖,得到数据在时空上的非平稳性以及非线性交互关系。
与现有技术相比,本发明具有以下优点:
1、将时间维度引入空间分析,通过构建时空权重矩阵,将时间维度引入局部时空树回归模型的权重计算,从而能够探究现象或数据在时空上所表现的非平稳性与异质性。
2、使用树结构作为局部时空树回归模型,利用树模型回归的非线性特征,得到了特征之间的非线性交互作用,从而能够探究现象或数据在时空上所表现的非线性交互影响。
3、通过对时间维度和空间维度定义不同的距离度量方式、带宽选择方式以及核函数,加入时间矩阵与空间矩阵的加权标准化,并且利用元素级归约计算,使得局部时空树回归模型对时间与空间维度之间的相对重要性做出正确有效的度量。
附图说明
图1为本发明的方法流程示意图;
图2为本发明的方法原理框图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本实施例以地铁站点客流数据作为研究对象,请见图1和图2,本发明提供的一种基于局部时空树回归模型的时空非平稳性分析方法,包括以下步骤:
步骤1:获取地铁站点客流数据的时空属性,根据数据的属性特征,将数据属性区分为:非时空属性、时间属性、空间属性。对于给定的地铁站点客流数据,其时间属性为每周星期数,其空间属性为站点经纬度,非时空属性包括发车时间间隔、站点工作时间、周边建筑物密度、站点综合运输指数、站点综合邻接指数等。
本实施例中,数据的时间属性,为指明数据列中表明数据自身时间的数据列。对于粗时间粒度的数据,即数据时间范围跨度大于一天的数据,以年、月、日进行表示;对于细时间粒度的数据,即数据时间范围跨度小于等于一天的数据,以时、分、秒进行表示。对于给定地铁站点客流数据,时间属性为站点客流所表示的时间,即当前客流量为站点星期几的客流量,为粗时间粒度,以每周星期数来进行表述。
本实施例中,数据的空间属性,是指明数据列中表明数据自身空间位置的数据列。对于大地坐标系数据,以经度、纬度进行表示;对于投影坐标系数据,以X坐标、Y坐标进行表示;对于三维数据,以X坐标、Y坐标、Z坐标进行表示。对于给定地铁站点客流数据,空间属性为站点所处经纬度坐标,以经度、纬度进行表示。
本实施例中,对于数据列中除表示自身时间和空间位置之外的数据列,归为非时空数据列。对于给定地铁站点客流数据,非时空属性包括发车时间间隔、站点工作时间、周边建筑物密度、站点综合运输指数、站点综合邻接指数等。
步骤2:分别确定时间属性、空间属性的距离度量方式,计算数据之间的时间距离、空间距离,以此得到描述数据时间关系与空间关系的时间距离矩阵与空间距离矩阵;
本实施例中,对时空属性使用曼哈顿距离度量,计算出各数据间的时间距离;其中,曼哈顿距离度量计算公式如下:
Figure 707419DEST_PATH_IMAGE023
其中,d 1 ()代表曼哈顿距离函数,pq代表数据对的时间向量;n为数据维度,对于一维的时间属性,代表数据维度n的值应为1;p i q i 表示时间向量pq的第i维分量;
当空间属性使用经度、纬度表示时,使用大圆距离度量,根据半正矢公式计算出各数据间的空间距离;其中,半正矢公式如下:
Figure 64582DEST_PATH_IMAGE024
其中,r代表地球半径,
Figure 353612DEST_PATH_IMAGE025
代表数据对的纬度,λ 1λ 2代表数据对的经度;
当空间属性使用其他表示时,使用闵可夫斯基距离度量,根据数据特性确定p值,计算出各数据间的空间距离;其中,闵可夫斯基距离度量计算公式如下:
Figure 643779DEST_PATH_IMAGE026
其中D()代表闵可夫斯基距离函数,pq代表数据对的时间向量;n为数据维度,对于一维的时间属性,代表数据维度n的值应为1;p i q i 表示时间向量pq的第i维分量;order为常数,表示距离计算维度对于给定地铁站点客流数据,空间属性使用经纬度表示,使用大远距离度量计算各站点位置之间的空间距离。
将数据对之间的时间距离与空间距离组合为矩阵形式,得到时间距离矩阵与空间距离矩阵。
步骤3:分别确定时间距离、空间距离的带宽、核函数,计算数据之间的时间权重、空间权重,以此得到描述数据之间时间相对重要性与空间相对重要性的时间权重矩阵与空间权重矩阵;
本实施例中,根据时间距离、空间距离的性质选择带宽;对于固定带宽,各数据带宽均为同一固定值,设为局部模型所加权的邻接数据距离阈值;对于可变带宽,各局部模型所加权的邻接数量均为同一固定值,带宽设为对应邻接数量的距离阈值;对于给定地铁站点客流数据,对时间距离使用可变带宽,设定包含邻接数量为15,对空间距离使用可变带宽,设定包含邻接数量为40。
根据时间距离、空间距离的性质选择用于计算权重的核函数;对于连续核函数,其赋予的权重随着距离单调递减且大于零,例如高斯核函数,其公式如下:
Figure 55169DEST_PATH_IMAGE027
其中d ij 为数据对间的距离,h为带宽。
对于紧支撑核函数,其赋予的权重在距离大于带宽时为零;例如双平方函数,其公式如下:
如果
Figure 568803DEST_PATH_IMAGE028
,那么
Figure 130365DEST_PATH_IMAGE029
,否则0;
对于给定地铁站点客流数据,对时间距离使用高斯核函数,对空间记录使用双平方核函数。
将数据对之间的时间权重与空间权重组合为矩阵形式,得到时间权重矩阵与空间权重矩阵。
步骤4:根据步骤3中得到的时间、空间权重矩阵,对其进行元素级归约运算,得到描述数据之间时空相对重要性的时空权重矩阵;
本实施例中,步骤4的具体实现包括以下子步骤:
步骤4.1:对时间权重矩阵和空间权重矩阵进行相对重要性标准化,标准化过程为:
Figure 868514DEST_PATH_IMAGE030
其中,W temporal 代表时间权重矩阵,W spatial 代表空间权重矩阵;γ temporal 代表时间权重的相对重要性,γ spatial 代表空间权重的相对重要性;
步骤4.2:对标准化后的时间权重矩阵与空间权重矩阵进行元素级归约运算;
对于元素级乘法归约运算,公式如下:
Figure 388488DEST_PATH_IMAGE006
对于元素级加法归约运算,公式如下:
Figure 251402DEST_PATH_IMAGE031
其中,
Figure 616655DEST_PATH_IMAGE008
代表时间权重矩阵的第i行第j列权重元素,
Figure 550589DEST_PATH_IMAGE032
代表 时间权重矩阵的第i行第j列权重元素,w ij 代表元素级归约结果矩阵的第i行第j列权重元 素;
对于给定地铁站点客流数据,使用元素级乘法归约运算。
步骤4.3:对元素级归约结果进行矩阵化,得到时空权重矩阵。
步骤5:根据步骤4中得到的时空权重矩阵,将其作为回归权重,使用树结构回归模型对每处数据进行局部加权回归,得到多个局部时空树回归模型;
本实施例中,步骤5的具体实现包括以下子步骤:
步骤5.1:根据时空权重矩阵,选取各数据局部回归权重w i =(w i1 ,w i2 ,…,w iN ),其中,w ij 代表元素级归约结果矩阵的第i行第j列权重元素,1≤i≤N且1≤j≤N;N代表数据总量;
步骤5.2:对各数据局部回归权重w i ,设定数据自身对应权重数值为零,即w ii =0;
步骤5.3:对各数据进行树结构模型拟合,使用随机森林模型,传入局部回归权重, 得到局部树模型
Figure 100519DEST_PATH_IMAGE010
;其中,f i ()表示在数据i处使用X进行拟合的局部树模型、X表 示输入局部树模型用于拟合的数据、w i 表示在数据i处的局部回归权重;
步骤5.4:根据局部树模型,计算各局部预测值
Figure 919570DEST_PATH_IMAGE011
步骤5.5:根据预测值,通过计算R2判断局部树模型拟合泛化能力;
R2计算公式如下:
Figure 150831DEST_PATH_IMAGE012
Figure 942201DEST_PATH_IMAGE013
Figure 335136DEST_PATH_IMAGE033
其中,
Figure 841816DEST_PATH_IMAGE015
表示回归变量均值;y i 表示数据i的真实值;e i 表示数据i真实值与预测值 之间的差值,即数据i的残差值;
步骤5.6:通过调整时间距离的带宽与空间距离的带宽,使R2最大化,其最大化公式如下:
Figure 611189DEST_PATH_IMAGE034
其中,h temporal 代表时间距离的带宽,h spatial 代表空间距离的带宽,R2 (h temporal , h spatial )代表在当前h temporal ,h spatial 取值下,拟合模型所计算出来的R2值,
Figure 178437DEST_PATH_IMAGE018
代表使得表达式取值最大情况下的h temporal ,h spatial 取值;
对于给定地铁站点客流数据,在不同h temporal h spatial 下,其R 2 (h temporal ,h spatial )数值如下表1:
表1
Figure 414377DEST_PATH_IMAGE036
由此选定h temporal 为15,h spatial 为40。
由此,得到使R2最大下的h temporal ,h spatial ,将其作为最优回归参数从而得到最优的 局部时空树回归模型
Figure 676863DEST_PATH_IMAGE019
步骤6:根据步骤5中得到的多个局部时空树回归模型,计算各局部时空树回归模型的局部重要性以及局部偏依赖,得到数据在时空上的非平稳性以及非线性交互关系。
本实施例中,步骤6的具体实现包括以下子步骤:
步骤6.1:对各局部时空树回归模型,使用排列重要性计算各特征的局部重要性,将局部重要性根据时间和空间位置进行排列,从而得到特征的时空重要性;排列重要性计算公式如下:
Figure 249926DEST_PATH_IMAGE037
其中Importancce ij 代表局部时空树回归模型i的特征j重要性得分,s代表局部时空树回归模型在数据上的得分,s k,j 代表局部时空树回归模型在第k次随机排列特征j之后的数据上的得分;K为常量,表示总共进行的随机排列次数;
对于给定地铁站点客流数据,其特征站点综合运输指数、站点综合邻接指数的排列重要性得分如下表2:
表2
Figure 547047DEST_PATH_IMAGE039
步骤6.2:对各局部时空树回归模型,计算特征的偏依赖,得到在局部的特征非线性关系;将局部偏依赖按照时间和空间位置进行排列,得到数据的时空非线性交互;偏依赖计算公式如下:
Figure 609681DEST_PATH_IMAGE040
其中,x s 代表所求偏依赖特征的局部输入值,X C 代表除所求特征之外的局部输入特 征;
Figure 763057DEST_PATH_IMAGE041
代表定义式;
Figure 546336DEST_PATH_IMAGE042
代表对X C 求表达式的期望;f()代表模型的预测函数;p()代表 取值的概率。
对于给定地铁站点客流数据,其特征站点综合运输指数、站点综合邻接指数的局部偏依赖如下表3:
表3
Figure 760280DEST_PATH_IMAGE044
本发明将时间维度引入空间分析,结合树结构的机器学习模型,实现了数据的时空非平稳性分析以及非线性交互关系分析,从而在时空数据中发现有用的时空信息和知识,从而更好地理解社会和环境的动态。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (7)

1.一种基于局部时空树回归模型的时空非平稳性分析方法,其特征在于,包括以下步骤:
步骤1:获取数据的时空属性,根据数据的属性特征,将数据属性区分为非时空属性、时间属性和空间属性;
步骤2:分别确定时间属性、空间属性的距离度量方式,计算数据之间的时间距离、空间距离,以此得到描述数据时间关系与空间关系的时间距离矩阵与空间距离矩阵;
步骤3:分别确定时间距离、空间距离的带宽、核函数,计算数据之间的时间权重、空间权重,以此得到描述数据之间时间相对重要性与空间相对重要性的时间权重矩阵与空间权重矩阵;
步骤4:根据步骤3中得到的时间、空间权重矩阵,对其进行元素级归约运算,得到描述数据之间时空相对重要性的时空权重矩阵;
步骤5:根据步骤4中得到的时空权重矩阵,将其作为回归权重,使用树结构回归模型对每处数据进行局部加权回归,得到多个局部时空树回归模型;
步骤5的具体实现包括以下子步骤:
步骤5.1:根据时空权重矩阵,选取各数据局部回归权重
Figure QLYQS_1
,其中,
Figure QLYQS_2
代表元素级归约结果矩阵的第i行第j列权重元素,1≤i≤N且1≤j≤N;N代表数据总量;
步骤5.2:对各数据局部回归权重
Figure QLYQS_3
,设定数据自身对应权重数值为零,即
Figure QLYQS_4
步骤5.3:对各数据进行树结构模型拟合,使用随机森林模型,传入局部回归权重,得到局部树模型
Figure QLYQS_5
;其中,
Figure QLYQS_6
表示在数据i处使用X进行拟合的局部树模型、X表示输入局部树模型用于拟合的数据、
Figure QLYQS_7
表示在数据i处的局部回归权重;
步骤5.4:根据局部树模型,计算各局部预测值
Figure QLYQS_8
步骤5.5:根据预测值,通过计算
Figure QLYQS_9
判断局部树模型拟合泛化能力;
Figure QLYQS_10
计算公式如下:
Figure QLYQS_11
Figure QLYQS_12
Figure QLYQS_13
其中,
Figure QLYQS_14
表示回归变量均值;
Figure QLYQS_15
表示数据i的真实值;
Figure QLYQS_16
表示数据i真实值与预测值之间的差值,即数据i的残差值;
步骤5.6:通过调整时间距离的带宽与空间距离的带宽,使
Figure QLYQS_17
最大化,其最大化公式如下:
Figure QLYQS_18
其中,
Figure QLYQS_19
代表时间距离的带宽,
Figure QLYQS_20
代表空间距离的带宽,
Figure QLYQS_21
代表在当前
Figure QLYQS_22
取值下,拟合模型所计算出来的
Figure QLYQS_23
值,
Figure QLYQS_24
代表使得表达式取值最大情况下的
Figure QLYQS_25
取值;
由此,得到使
Figure QLYQS_26
最大下的
Figure QLYQS_27
,将其作为最优回归参数从而得到最优的局部时空树回归模型
Figure QLYQS_28
步骤6:根据步骤5中得到的多个局部时空树回归模型,计算各局部时空树回归模型的局部重要性以及局部偏依赖,得到数据在时空上的非平稳性以及非线性交互关系。
2.根据权利要求1所述的基于局部时空树回归模型的时空非平稳性分析方法,其特征在于,步骤1中:
所述数据的时间属性,为指明数据列中表明数据自身时间的数据列;对于粗时间粒度的数据,即数据时间范围跨度大于一天的数据,以年、月、日进行表示;对于细时间粒度的数据,即数据时间范围跨度小于等于一天的数据,以时、分、秒进行表示;
所述数据的空间属性,是指明数据列中表明数据自身空间位置的数据列;对于大地坐标系数据,以经度、纬度进行表示;对于投影坐标系数据,以X坐标、Y坐标进行表示;对于三维数据,以X坐标、Y坐标、Z坐标进行表示;
所述数据的非时空属性,是对于数据列中除表示自身时间和空间位置之外的数据列,归为非时空数据列。
3.根据权利要求1所述的基于局部时空树回归模型的时空非平稳性分析方法,其特征在于,步骤2中:
对时空属性使用曼哈顿距离度量,计算出各数据间的时间距离;其中,曼哈顿距离度量计算公式如下:
Figure QLYQS_29
其中,
Figure QLYQS_30
代表曼哈顿距离函数,p、q代表数据对的时间向量;n为数据维度,对于一维的时间属性,代表数据维度n的值应为1;
Figure QLYQS_31
表示时间向量p、q的第i维分量;
当空间属性使用经度、纬度表示时,使用大圆距离度量,根据半正矢公式计算出各数据间的空间距离;其中,半正矢公式如下:
Figure QLYQS_32
其中,r代表地球半径,
Figure QLYQS_33
代表数据对的纬度,
Figure QLYQS_34
代表数据对的经度;
当空间属性使用其他表示时,使用闵可夫斯基距离度量,根据数据特性确定p值,计算出各数据间的空间距离;其中,闵可夫斯基距离度量计算公式如下:
Figure QLYQS_35
其中D()代表闵可夫斯基距离函数,order为常数,表示距离计算维度;
将数据对之间的时间距离与空间距离组合为矩阵形式,得到时间距离矩阵与空间距离矩阵。
4.根据权利要求1所述的基于局部时空树回归模型的时空非平稳性分析方法,其特征在于:步骤3中,
根据时间距离、空间距离的性质选择带宽;对于固定带宽,各数据带宽均为同一固定值,设为局部模型所加权的邻接数据距离阈值;对于可变带宽,各局部模型所加权的邻接数量均为同一固定值,带宽设为对应邻接数量的距离阈值;
根据时间距离、空间距离的性质选择用于计算权重的核函数;对于连续核函数,其赋予的权重随着距离单调递减且大于零;
对于紧支撑核函数,其赋予的权重在距离大于带宽时为零;
将数据对之间的时间权重与空间权重组合为矩阵形式,得到时间权重矩阵与空间权重矩阵。
5.根据权利要求1所述的基于局部时空树回归模型的时空非平稳性分析方法,其特征在于,步骤4的具体实现包括以下子步骤:
步骤4.1:对时间权重矩阵和空间权重矩阵进行相对重要性标准化,标准化过程为:
Figure QLYQS_36
其中,
Figure QLYQS_37
代表时间权重矩阵,
Figure QLYQS_38
代表空间权重矩阵;
Figure QLYQS_39
代表时间权重的相对重要性,
Figure QLYQS_40
代表空间权重的相对重要性;
步骤4.2:对标准化后的时间权重矩阵与空间权重矩阵进行元素级归约运算;
对于元素级乘法归约运算,公式如下:
Figure QLYQS_41
对于元素级加法归约运算,公式如下:
Figure QLYQS_42
其中,
Figure QLYQS_43
代表时间权重矩阵的第i行第j列权重元素,
Figure QLYQS_44
代表时间权重矩阵的第i行第j列权重元素,
Figure QLYQS_45
代表元素级归约结果矩阵的第i行第j列权重元素;
步骤4.3:对元素级归约结果进行矩阵化,得到时空权重矩阵。
6.根据权利要求1-5任意一项所述的基于局部时空树回归模型的时空非平稳性分析方法,其特征在于,步骤6的具体实现包括以下子步骤:
步骤6.1:对局部时空树回归模型,使用排列重要性计算各特征的局部重要性,将局部重要性根据时间和空间位置进行排列,从而得到特征的时空重要性;排列重要性计算公式如下:
Figure QLYQS_46
其中
Figure QLYQS_47
代表局部时空树回归模型i的特征j重要性得分,s代表局部时空树回归模型在数据上的得分,
Figure QLYQS_48
代表局部时空树回归模型在第k次随机排列特征j之后的数据上的得分;K为常量,表示总共进行的随机排列次数;
步骤6.2:对局部时空树回归模型,计算特征的偏依赖,得到在局部的特征非线性关系;将局部偏依赖按照时间和空间位置进行排列,得到数据的时空非线性交互;偏依赖计算公式如下:
Figure QLYQS_49
其中,
Figure QLYQS_50
代表所求偏依赖特征的局部输入值,
Figure QLYQS_51
代表除所求特征之外的局部输入特征;
Figure QLYQS_52
代表定义式;
Figure QLYQS_53
代表对
Figure QLYQS_54
求表达式的期望;f()代表模型的预测函数;p()代表取值的概率。
7.一种基于局部时空树回归模型的时空非平稳性分析系统,其特征在于,包括以下模块:
模块1,用于获取数据的时空属性,根据数据的属性特征,将数据属性区分为非时空属性、时间属性和空间属性;
模块2,用于分别确定时间属性、空间属性的距离度量方式,计算数据之间的时间距离、空间距离,以此得到描述数据时间关系与空间关系的时间距离矩阵与空间距离矩阵;
模块3,用于分别确定时间距离、空间距离的带宽、核函数,计算数据之间的时间权重、空间权重,以此得到描述数据之间时间相对重要性与空间相对重要性的时间权重矩阵与空间权重矩阵;
模块4,用于根据模块3中得到的时间、空间权重矩阵,对其进行元素级归约运算,得到描述数据之间时空相对重要性的时空权重矩阵;
模块5,用于根据模块4中得到的时空权重矩阵,将其作为回归权重,使用树结构回归模型对每处数据进行局部加权回归,得到多个局部时空树回归模型;
模块5包括以下子模块:
模块5.1,用于根据时空权重矩阵,选取各数据局部回归权重
Figure QLYQS_55
,其中,
Figure QLYQS_56
代表元素级归约结果矩阵的第i行第j列权重元素,1≤i≤N且1≤j≤N;N代表数据总量;
模块5.2,用于对各数据局部回归权重
Figure QLYQS_57
,设定数据自身对应权重数值为零,即
Figure QLYQS_58
模块5.3,用于对各数据进行树结构模型拟合,使用随机森林模型,传入局部回归权重,得到局部树模型
Figure QLYQS_59
;其中,
Figure QLYQS_60
表示在数据i处使用X进行拟合的局部树模型、X表示输入局部树模型用于拟合的数据、
Figure QLYQS_61
表示在数据i处的局部回归权重;
模块5.4,用于根据局部树模型,计算各局部预测值
Figure QLYQS_62
模块5.5,用于根据预测值,通过计算
Figure QLYQS_63
判断局部树模型拟合泛化能力;
Figure QLYQS_64
计算公式如下:
Figure QLYQS_65
Figure QLYQS_66
Figure QLYQS_67
其中,
Figure QLYQS_68
表示回归变量均值;
Figure QLYQS_69
表示数据i的真实值;
Figure QLYQS_70
表示数据i真实值与预测值之间的差值,即数据i的残差值;
模块5.6,用于通过调整时间距离的带宽与空间距离的带宽,使
Figure QLYQS_71
最大化,其最大化公式如下:
Figure QLYQS_72
其中,
Figure QLYQS_73
代表时间距离的带宽,
Figure QLYQS_74
代表空间距离的带宽,
Figure QLYQS_75
代表在当前
Figure QLYQS_76
取值下,拟合模型所计算出来的
Figure QLYQS_77
值,
Figure QLYQS_78
代表使得表达式取值最大情况下的
Figure QLYQS_79
取值;
由此,得到使
Figure QLYQS_80
最大下的
Figure QLYQS_81
,将其作为最优回归参数从而得到最优的局部时空树回归模型
Figure QLYQS_82
模块6,用于根据模块5中得到的多个局部时空树回归模型,计算各局部时空树回归模型的局部重要性以及局部偏依赖,得到数据在时空上的非平稳性以及非线性交互关系。
CN202211610329.0A 2022-12-15 2022-12-15 基于局部时空树回归模型的时空非平稳性分析方法及系统 Active CN115599774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211610329.0A CN115599774B (zh) 2022-12-15 2022-12-15 基于局部时空树回归模型的时空非平稳性分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211610329.0A CN115599774B (zh) 2022-12-15 2022-12-15 基于局部时空树回归模型的时空非平稳性分析方法及系统

Publications (2)

Publication Number Publication Date
CN115599774A CN115599774A (zh) 2023-01-13
CN115599774B true CN115599774B (zh) 2023-03-10

Family

ID=84854212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211610329.0A Active CN115599774B (zh) 2022-12-15 2022-12-15 基于局部时空树回归模型的时空非平稳性分析方法及系统

Country Status (1)

Country Link
CN (1) CN115599774B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235675A (zh) * 2023-09-20 2023-12-15 福建省星云大数据应用服务有限公司 一种大数据自适应采集方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7464006B1 (en) * 2003-10-09 2008-12-09 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Analyzing nonstationary financial time series via hilbert-huang transform (HHT)
CN106227965A (zh) * 2016-07-29 2016-12-14 武汉大学 一种顾及时空分布非平稳特征的土壤有机碳空间抽样网络设计方法
CN107103392A (zh) * 2017-05-24 2017-08-29 北京航空航天大学 一种基于时空地理加权回归的公交客流影响因素识别与预测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107807371B (zh) * 2017-09-14 2019-10-01 北京航空航天大学 基于北斗卫星观测数据的数据相关性处理方法
US11423325B2 (en) * 2017-10-25 2022-08-23 International Business Machines Corporation Regression for metric dataset
CN109214605A (zh) * 2018-11-12 2019-01-15 国网山东省电力公司电力科学研究院 电力系统短期负荷概率预测方法、装置及系统
JP7085513B2 (ja) * 2019-04-01 2022-06-16 株式会社東芝 情報処理装置、情報処理方法、及びコンピュータプログラム
CN113901384A (zh) * 2021-09-24 2022-01-07 武汉大学 顾及全局空间自相关性和局部异质性的地面pm2.5浓度建模方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7464006B1 (en) * 2003-10-09 2008-12-09 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Analyzing nonstationary financial time series via hilbert-huang transform (HHT)
CN106227965A (zh) * 2016-07-29 2016-12-14 武汉大学 一种顾及时空分布非平稳特征的土壤有机碳空间抽样网络设计方法
CN107103392A (zh) * 2017-05-24 2017-08-29 北京航空航天大学 一种基于时空地理加权回归的公交客流影响因素识别与预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
时空地理加权回归模型的时空非平稳性检验;肖燕婷等;《系统工程理论与实践》;第33卷(第6期);第1537-1542页 *
顾及全局和局部时空非平稳差异的地理加权回归方法研究;赵阳阳;《中国博士学位论文全文数据库基础科学辑(月刊)》(第05期);第A008-9页 *

Also Published As

Publication number Publication date
CN115599774A (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
Pontius Jr et al. Accuracy assessment for a simulation model of Amazonian deforestation
Ray et al. A backcast land use change model to generate past land use maps: application and validation at the Muskegon River watershed of Michigan, USA
US20130232419A1 (en) Systems and methods for efficient video analysis
US11676375B2 (en) System and process for integrative computational soil mapping
CN113158038B (zh) 基于sta-tcn神经网络框架的兴趣点推荐方法及系统
Zhang et al. TrafficGAN: Off-deployment traffic estimation with traffic generative adversarial networks
CN115599774B (zh) 基于局部时空树回归模型的时空非平稳性分析方法及系统
CN115293570A (zh) 一种基于gis国土空间规划系统及方法
Gervasoni et al. Convolutional neural networks for disaggregated population mapping using open data
CN110263250A (zh) 一种推荐模型的生成方法及装置
CN113449878B (zh) 数据分布式的增量学习方法、系统、设备及存储介质
CN110276387A (zh) 一种模型的生成方法及装置
CN115759291B (zh) 一种基于集成学习的空间非线性回归方法及系统
Chen et al. A cellular automaton integrating spatial case-based reasoning for predicting local landslide hazards
CN113408663B (zh) 融合模型构建方法、融合模型使用方法、装置和电子设备
CN115438249A (zh) QoS预测模型构建方法、装置、设备及可读存储介质
Burnicki Spatio-temporal errors in land–cover change analysis: Implications for accuracy assessment
CN115455276A (zh) 推荐对象的方法、装置、计算机设备和存储介质
Zhang et al. Two-stage traffic clustering based on HNSW
Al Marhoobi Time series analysis and forecasting with applications to climate science
He et al. Learning With Location-Based Fairness: A Statistically-Robust Framework and Acceleration
Luo et al. TransFlower: An Explainable Transformer-Based Model with Flow-to-Flow Attention for Commuting Flow Prediction
Arancibia et al. Nonparametric prediction for univariate spatial data: Methods and applications
CN112508303B (zh) 一种od客流预测方法、装置、设备及可读存储介质
Lyu et al. INTERACTIVE SHEET AND RILL EROSION MAP OF SOUTH DAKOTA AT A 30-METER SPATIAL RESOLUTION

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant