CN115599774A - 基于局部时空树回归模型的时空非平稳性分析方法及系统 - Google Patents

基于局部时空树回归模型的时空非平稳性分析方法及系统 Download PDF

Info

Publication number
CN115599774A
CN115599774A CN202211610329.0A CN202211610329A CN115599774A CN 115599774 A CN115599774 A CN 115599774A CN 202211610329 A CN202211610329 A CN 202211610329A CN 115599774 A CN115599774 A CN 115599774A
Authority
CN
China
Prior art keywords
data
time
space
local
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211610329.0A
Other languages
English (en)
Other versions
CN115599774B (zh
Inventor
苏世亮
罗运
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Planning And Natural Resources Data Management Center Shenzhen Spatial Geographic Information Center
Wuhan University WHU
Original Assignee
Shenzhen Planning And Natural Resources Data Management Center Shenzhen Spatial Geographic Information Center
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Planning And Natural Resources Data Management Center Shenzhen Spatial Geographic Information Center, Wuhan University WHU filed Critical Shenzhen Planning And Natural Resources Data Management Center Shenzhen Spatial Geographic Information Center
Priority to CN202211610329.0A priority Critical patent/CN115599774B/zh
Publication of CN115599774A publication Critical patent/CN115599774A/zh
Application granted granted Critical
Publication of CN115599774B publication Critical patent/CN115599774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Abstract

本发明公开了一种基于局部时空树回归模型的时空非平稳性分析方法及系统,包括获取数据的时空、空间数据以及非时空属性;计算时间、空间权重,得到时间、空间权重矩阵;对时间、空间权重矩阵进行元素级归约运算,得到时空权重矩阵;利用树结构回归模型,输入空间权重矩阵作为回归权重,进行局部时空回归,得到局部时空树回归模型;根据各时空局部模型计算局部重要性和局部偏依赖,得到数据的时空非平稳性以及非线性交互关系。本发明将时间维度引入空间分析,结合树结构的机器学习模型,实现了数据的时空非平稳性分析以及非线性交互关系分析,从而在时空数据中发现有用的时空信息和知识,从而更好地理解社会和环境的动态。

Description

基于局部时空树回归模型的时空非平稳性分析方法及系统
技术领域
本发明属于计算机科学与技术中的机器学习以及地理信息科学中的时空数据建模技术领域,涉及一种时空非平稳性分析方法及系统,特别涉及一种基于局部时空树回归模型的时空非平稳性分析方法及系统。
背景技术
长期以来,时空分析和建模一直是地理信息科学、环境科学、水文学、流行病学和其他研究领域的主要研究问题。随着越来越丰富的时空数据的出现,如全球定位系统(GPS)收集的轨迹和遥感图像,越来越多的研究问题需要进行时空建模。例如,探索人类行为的时空模式、犯罪活动和疾病爆发,以及分析和可视化时空数据的新方法。
然而,在目前的地理信息科学领域中,尽管人们已经充分认识到将时间维度引入空间分析中的重要性,但是由于时空模型较为复杂、模型的复杂性较高,提高非线性的时空分析和建模的能力仍然是一个重大挑战,尤其是在大数据时代。因此,目前缺少新的非线性方法来促进时空思维,在时空数据中发现有用的时空信息和知识,从而更好地理解社会和环境的动态。
发明内容
本发明提出了一种基于树结构机器学习模型的时空非平稳性分析方法及系统,通过提取数据的时空属性,构建时空权重矩阵,并利用树结构的机器学习模型进行局部加权回归,从而进行时空非线性回归建模,以此能够探究数据在时空下的非平稳性以及非线性交互关系。
本发明的方法所采用的技术方案是:一种基于局部时空树回归模型的时空非平稳性分析方法,包括以下步骤:
步骤1:获取数据的时空属性,根据数据的属性特征,将数据属性区分为非时空属性、时间属性和空间属性;
步骤2:分别确定时间属性、空间属性的距离度量方式,计算数据之间的时间距离、空间距离,以此得到描述数据时间关系与空间关系的时间距离矩阵与空间距离矩阵;
步骤3:分别确定时间距离、空间距离的带宽、核函数,计算数据之间的时间权重、空间权重,以此得到描述数据之间时间相对重要性与空间相对重要性的时间权重矩阵与空间权重矩阵;
步骤4:根据步骤3中得到的时间、空间权重矩阵,对其进行元素级归约运算,得到描述数据之间时空相对重要性的时空权重矩阵;
步骤5:根据步骤4中得到的时空权重矩阵,将其作为回归权重,使用树结构回归模型对每处数据进行局部加权回归,得到多个局部时空树回归模型;
步骤6:根据步骤5中得到的多个局部时空树回归模型,计算各局部时空树回归模型的局部重要性以及局部偏依赖,得到数据在时空上的非平稳性以及非线性交互关系。
作为优选,步骤1中,所述数据的时间属性,为指明数据列中表明数据自身时间的数据列;对于粗时间粒度的数据,即数据时间范围跨度大于一天的数据,以年、月、日进行表示;对于细时间粒度的数据,即数据时间范围跨度小于等于一天的数据,以时、分、秒进行表示;
所述数据的空间属性,是指明数据列中表明数据自身空间位置的数据列;对于大地坐标系数据,以经度、纬度进行表示;对于投影坐标系数据,以X坐标、Y坐标进行表示;对于三维数据,以X坐标、Y坐标、Z坐标进行表示;
所述数据的非时空属性,是对于数据列中除表示自身时间和空间位置之外的数据列,归为非时空数据列。
作为优选,步骤2中:对时空属性使用曼哈顿距离度量,计算出各数据间的时间距离;其中,曼哈顿距离度量计算公式如下:
Figure 159634DEST_PATH_IMAGE001
其中,d 1 ()代表曼哈顿距离函数,pq代表数据对的时间向量;n为数据维度,对于一维的时间属性,代表数据维度n的值应为1;p i q i 表示时间向量pq的第i维分量;
当空间属性使用经度、纬度表示时,使用大圆距离度量,根据半正矢公式计算出各数据间的空间距离;其中,半正矢公式如下:
Figure 217720DEST_PATH_IMAGE002
其中,r代表地球半径,
Figure 690069DEST_PATH_IMAGE003
代表数据对的纬度,λ 1λ 2代表数据对的经度;
当空间属性使用其他表示时,使用闵可夫斯基距离度量,根据数据特性确定p值,计算出各数据间的空间距离;其中,闵可夫斯基距离度量计算公式如下:
Figure 163906DEST_PATH_IMAGE004
其中D()代表闵可夫斯基距离函数,pq代表数据对的时间向量;n为数据维度,对于一维的时间属性,代表数据维度n的值应为1;p i q i 表示时间向量pq的第i维分量;order为常数,表示距离计算维度;
将数据对之间的时间距离与空间距离组合为矩阵形式,得到时间距离矩阵与空间距离矩阵。
作为优选,步骤3中,根据时间距离、空间距离的性质选择带宽;对于固定带宽,各数据带宽均为同一固定值,设为局部模型所加权的邻接数据距离阈值;对于可变带宽,各局部模型所加权的邻接数量均为同一固定值,带宽设为对应邻接数量的距离阈值;
根据时间距离、空间距离的性质选择用于计算权重的核函数;对于连续核函数,其赋予的权重随着距离单调递减且大于零;
对于紧支撑核函数,其赋予的权重在距离大于带宽时为零;
将数据对之间的时间权重与空间权重组合为矩阵形式,得到时间权重矩阵与空间权重矩阵。
作为优选,步骤4的具体实现包括以下子步骤:
步骤4.1:对时间权重矩阵和空间权重矩阵进行相对重要性标准化,标准化过程为:
Figure 915962DEST_PATH_IMAGE005
其中,W temporal 代表时间权重矩阵,W spatial 代表空间权重矩阵;γ temporal 代表时间权重的相对重要性,γ spatial 代表空间权重的相对重要性;
步骤4.2:对标准化后的时间权重矩阵与空间权重矩阵进行元素级归约运算;
对于元素级乘法归约运算,公式如下:
Figure 269583DEST_PATH_IMAGE006
对于元素级加法归约运算,公式如下:
Figure 739878DEST_PATH_IMAGE007
其中,
Figure 282986DEST_PATH_IMAGE008
代表时间权重矩阵的第i行第j列权重元素,
Figure 155127DEST_PATH_IMAGE009
代表时 间权重矩阵的第i行第j列权重元素,w ij 代表元素级归约结果矩阵的第i行第j列权重元素;
步骤4.3:对元素级归约结果进行矩阵化,得到时空权重矩阵。
作为优选,步骤5的具体实现包括以下子步骤:
步骤5.1:根据时空权重矩阵,选取各数据局部回归权重w i =(w i1 ,w i2 ,…,w iN ),其中,w ij 代表元素级归约结果矩阵的第i行第j列权重元素,1≤i≤N且1≤j≤N;N代表数据总量;
步骤5.2:对各数据局部回归权重w i ,设定数据自身对应权重数值为零,即w ii =0;
步骤5.3:对各数据进行树结构模型拟合,使用随机森林模型,传入局部回归权重, 得到局部树模型
Figure 286507DEST_PATH_IMAGE010
;其中,f i ()表示在数据i处使用X进行拟合的局部树模型、X表示 输入局部树模型用于拟合的数据、w i 表示在数据i处的局部回归权重;
步骤5.4:根据局部树模型,计算各局部预测值
Figure 447361DEST_PATH_IMAGE011
步骤5.5:根据预测值,通过计算R2判断局部树模型拟合泛化能力;
R2计算公式如下:
Figure 715531DEST_PATH_IMAGE012
Figure 255228DEST_PATH_IMAGE013
Figure 357176DEST_PATH_IMAGE014
其中,
Figure 736817DEST_PATH_IMAGE015
表示回归变量均值;y i 表示数据i的真实值;e i 表示数据i真实值与预测值 之间的差值,即数据i的残差值;
步骤5.6:通过调整时间距离的带宽与空间距离的带宽,使R2最大化,其最大化公式如下:
Figure 215203DEST_PATH_IMAGE017
其中,h temporal 代表时间距离的带宽,h spatial 代表空间距离的带宽,R2 (h temporal , h spatial )代表在当前h temporal ,h spatial 取值下,拟合模型所计算出来的R2值,
Figure 124253DEST_PATH_IMAGE018
代表使得表达式取值最大情况下的h temporal ,h spatial 取值;
由此,得到使R2最大下的h temporal ,h spatial ,将其作为最优回归参数从而得到最优的 局部时空树回归模型
Figure 538048DEST_PATH_IMAGE019
作为优选,步骤6的具体实现包括以下子步骤:
其中Importancce ij 代表局部时空树回归模型i的特征j重要性得分,s代表局部时空树回归模型在数据上的得分,s k,j 代表局部时空树回归模型在第k次随机排列特征j之后的数据上的得分;K为常量,表示总共进行的随机排列次数;
步骤6.2:对局部时空树回归模型,计算特征的偏依赖,得到在局部的特征非线性关系;将局部偏依赖按照时间和空间位置进行排列,得到数据的时空非线性交互;偏依赖计算公式如下:
Figure 142336DEST_PATH_IMAGE020
其中,x s 代表所求偏依赖特征的局部输入值,X C 代表除所求特征之外的局部输入特 征;
Figure 627675DEST_PATH_IMAGE021
代表定义式;
Figure 391232DEST_PATH_IMAGE022
代表对X C 求表达式的期望;f()代表模型的预测函数;p()代表取 值的概率。
本发明的系统所采用的技术方案是:一种基于局部时空树回归模型的时空非平稳性分析系统,包括以下模块:
模块1,用于获取数据的时空属性,根据数据的属性特征,将数据属性区分为非时空属性、时间属性和空间属性;
模块2,用于分别确定时间属性、空间属性的距离度量方式,计算数据之间的时间距离、空间距离,以此得到描述数据时间关系与空间关系的时间距离矩阵与空间距离矩阵;
模块3,用于分别确定时间距离、空间距离的带宽、核函数,计算数据之间的时间权重、空间权重,以此得到描述数据之间时间相对重要性与空间相对重要性的时间权重矩阵与空间权重矩阵;
模块4,用于根据模块3中得到的时间、空间权重矩阵,对其进行元素级归约运算,得到描述数据之间时空相对重要性的时空权重矩阵;
模块5,用于根据模块4中得到的时空权重矩阵,将其作为回归权重,使用树结构回归模型对每处数据进行局部加权回归,得到多个局部时空树回归模型;
模块6,用于根据模块5中得到的多个局部时空树回归模型,计算各局部时空树回归模型的局部重要性以及局部偏依赖,得到数据在时空上的非平稳性以及非线性交互关系。
与现有技术相比,本发明具有以下优点:
1、将时间维度引入空间分析,通过构建时空权重矩阵,将时间维度引入局部时空树回归模型的权重计算,从而能够探究现象或数据在时空上所表现的非平稳性与异质性。
2、使用树结构作为局部时空树回归模型,利用树模型回归的非线性特征,得到了特征之间的非线性交互作用,从而能够探究现象或数据在时空上所表现的非线性交互影响。
3、通过对时间维度和空间维度定义不同的距离度量方式、带宽选择方式以及核函数,加入时间矩阵与空间矩阵的加权标准化,并且利用元素级归约计算,使得局部时空树回归模型对时间与空间维度之间的相对重要性做出正确有效的度量。
附图说明
图1为本发明的方法流程示意图;
图2为本发明的方法原理框图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本实施例以地铁站点客流数据作为研究对象,请见图1和图2,本发明提供的一种基于局部时空树回归模型的时空非平稳性分析方法,包括以下步骤:
步骤1:获取地铁站点客流数据的时空属性,根据数据的属性特征,将数据属性区分为:非时空属性、时间属性、空间属性。对于给定的地铁站点客流数据,其时间属性为每周星期数,其空间属性为站点经纬度,非时空属性包括发车时间间隔、站点工作时间、周边建筑物密度、站点综合运输指数、站点综合邻接指数等。
本实施例中,数据的时间属性,为指明数据列中表明数据自身时间的数据列。对于粗时间粒度的数据,即数据时间范围跨度大于一天的数据,以年、月、日进行表示;对于细时间粒度的数据,即数据时间范围跨度小于等于一天的数据,以时、分、秒进行表示。对于给定地铁站点客流数据,时间属性为站点客流所表示的时间,即当前客流量为站点星期几的客流量,为粗时间粒度,以每周星期数来进行表述。
本实施例中,数据的空间属性,是指明数据列中表明数据自身空间位置的数据列。对于大地坐标系数据,以经度、纬度进行表示;对于投影坐标系数据,以X坐标、Y坐标进行表示;对于三维数据,以X坐标、Y坐标、Z坐标进行表示。对于给定地铁站点客流数据,空间属性为站点所处经纬度坐标,以经度、纬度进行表示。
本实施例中,对于数据列中除表示自身时间和空间位置之外的数据列,归为非时空数据列。对于给定地铁站点客流数据,非时空属性包括发车时间间隔、站点工作时间、周边建筑物密度、站点综合运输指数、站点综合邻接指数等。
步骤2:分别确定时间属性、空间属性的距离度量方式,计算数据之间的时间距离、空间距离,以此得到描述数据时间关系与空间关系的时间距离矩阵与空间距离矩阵;
本实施例中,对时空属性使用曼哈顿距离度量,计算出各数据间的时间距离;其中,曼哈顿距离度量计算公式如下:
Figure 707419DEST_PATH_IMAGE023
其中,d 1 ()代表曼哈顿距离函数,pq代表数据对的时间向量;n为数据维度,对于一维的时间属性,代表数据维度n的值应为1;p i q i 表示时间向量pq的第i维分量;
当空间属性使用经度、纬度表示时,使用大圆距离度量,根据半正矢公式计算出各数据间的空间距离;其中,半正矢公式如下:
Figure 64582DEST_PATH_IMAGE024
其中,r代表地球半径,
Figure 353612DEST_PATH_IMAGE025
代表数据对的纬度,λ 1λ 2代表数据对的经度;
当空间属性使用其他表示时,使用闵可夫斯基距离度量,根据数据特性确定p值,计算出各数据间的空间距离;其中,闵可夫斯基距离度量计算公式如下:
Figure 643779DEST_PATH_IMAGE026
其中D()代表闵可夫斯基距离函数,pq代表数据对的时间向量;n为数据维度,对于一维的时间属性,代表数据维度n的值应为1;p i q i 表示时间向量pq的第i维分量;order为常数,表示距离计算维度对于给定地铁站点客流数据,空间属性使用经纬度表示,使用大远距离度量计算各站点位置之间的空间距离。
将数据对之间的时间距离与空间距离组合为矩阵形式,得到时间距离矩阵与空间距离矩阵。
步骤3:分别确定时间距离、空间距离的带宽、核函数,计算数据之间的时间权重、空间权重,以此得到描述数据之间时间相对重要性与空间相对重要性的时间权重矩阵与空间权重矩阵;
本实施例中,根据时间距离、空间距离的性质选择带宽;对于固定带宽,各数据带宽均为同一固定值,设为局部模型所加权的邻接数据距离阈值;对于可变带宽,各局部模型所加权的邻接数量均为同一固定值,带宽设为对应邻接数量的距离阈值;对于给定地铁站点客流数据,对时间距离使用可变带宽,设定包含邻接数量为15,对空间距离使用可变带宽,设定包含邻接数量为40。
根据时间距离、空间距离的性质选择用于计算权重的核函数;对于连续核函数,其赋予的权重随着距离单调递减且大于零,例如高斯核函数,其公式如下:
Figure 55169DEST_PATH_IMAGE027
其中d ij 为数据对间的距离,h为带宽。
对于紧支撑核函数,其赋予的权重在距离大于带宽时为零;例如双平方函数,其公式如下:
如果
Figure 568803DEST_PATH_IMAGE028
,那么
Figure 130365DEST_PATH_IMAGE029
,否则0;
对于给定地铁站点客流数据,对时间距离使用高斯核函数,对空间记录使用双平方核函数。
将数据对之间的时间权重与空间权重组合为矩阵形式,得到时间权重矩阵与空间权重矩阵。
步骤4:根据步骤3中得到的时间、空间权重矩阵,对其进行元素级归约运算,得到描述数据之间时空相对重要性的时空权重矩阵;
本实施例中,步骤4的具体实现包括以下子步骤:
步骤4.1:对时间权重矩阵和空间权重矩阵进行相对重要性标准化,标准化过程为:
Figure 868514DEST_PATH_IMAGE030
其中,W temporal 代表时间权重矩阵,W spatial 代表空间权重矩阵;γ temporal 代表时间权重的相对重要性,γ spatial 代表空间权重的相对重要性;
步骤4.2:对标准化后的时间权重矩阵与空间权重矩阵进行元素级归约运算;
对于元素级乘法归约运算,公式如下:
Figure 388488DEST_PATH_IMAGE006
对于元素级加法归约运算,公式如下:
Figure 251402DEST_PATH_IMAGE031
其中,
Figure 616655DEST_PATH_IMAGE008
代表时间权重矩阵的第i行第j列权重元素,
Figure 550589DEST_PATH_IMAGE032
代表时 间权重矩阵的第i行第j列权重元素,w ij 代表元素级归约结果矩阵的第i行第j列权重元素;
对于给定地铁站点客流数据,使用元素级乘法归约运算。
步骤4.3:对元素级归约结果进行矩阵化,得到时空权重矩阵。
步骤5:根据步骤4中得到的时空权重矩阵,将其作为回归权重,使用树结构回归模型对每处数据进行局部加权回归,得到多个局部时空树回归模型;
本实施例中,步骤5的具体实现包括以下子步骤:
步骤5.1:根据时空权重矩阵,选取各数据局部回归权重w i =(w i1 ,w i2 ,…,w iN ),其中,w ij 代表元素级归约结果矩阵的第i行第j列权重元素,1≤i≤N且1≤j≤N;N代表数据总量;
步骤5.2:对各数据局部回归权重w i ,设定数据自身对应权重数值为零,即w ii =0;
步骤5.3:对各数据进行树结构模型拟合,使用随机森林模型,传入局部回归权重, 得到局部树模型
Figure 100519DEST_PATH_IMAGE010
;其中,f i ()表示在数据i处使用X进行拟合的局部树模型、X表示 输入局部树模型用于拟合的数据、w i 表示在数据i处的局部回归权重;
步骤5.4:根据局部树模型,计算各局部预测值
Figure 919570DEST_PATH_IMAGE011
步骤5.5:根据预测值,通过计算R2判断局部树模型拟合泛化能力;
R2计算公式如下:
Figure 150831DEST_PATH_IMAGE012
Figure 942201DEST_PATH_IMAGE013
Figure 335136DEST_PATH_IMAGE033
其中,
Figure 841816DEST_PATH_IMAGE015
表示回归变量均值;y i 表示数据i的真实值;e i 表示数据i真实值与预测值 之间的差值,即数据i的残差值;
步骤5.6:通过调整时间距离的带宽与空间距离的带宽,使R2最大化,其最大化公式如下:
Figure 611189DEST_PATH_IMAGE034
其中,h temporal 代表时间距离的带宽,h spatial 代表空间距离的带宽,R2 (h temporal , h spatial )代表在当前h temporal ,h spatial 取值下,拟合模型所计算出来的R2值,
Figure 178437DEST_PATH_IMAGE018
代表使得表达式取值最大情况下的h temporal ,h spatial 取值;
对于给定地铁站点客流数据,在不同h temporal h spatial 下,其R 2 (h temporal ,h spatial )数值如下表1:
表1
Figure 414377DEST_PATH_IMAGE036
由此选定h temporal 为15,h spatial 为40。
由此,得到使R2最大下的h temporal ,h spatial ,将其作为最优回归参数从而得到最优的 局部时空树回归模型
Figure 676863DEST_PATH_IMAGE019
步骤6:根据步骤5中得到的多个局部时空树回归模型,计算各局部时空树回归模型的局部重要性以及局部偏依赖,得到数据在时空上的非平稳性以及非线性交互关系。
本实施例中,步骤6的具体实现包括以下子步骤:
步骤6.1:对各局部时空树回归模型,使用排列重要性计算各特征的局部重要性,将局部重要性根据时间和空间位置进行排列,从而得到特征的时空重要性;排列重要性计算公式如下:
Figure 249926DEST_PATH_IMAGE037
其中Importancce ij 代表局部时空树回归模型i的特征j重要性得分,s代表局部时空树回归模型在数据上的得分,s k,j 代表局部时空树回归模型在第k次随机排列特征j之后的数据上的得分;K为常量,表示总共进行的随机排列次数;
对于给定地铁站点客流数据,其特征站点综合运输指数、站点综合邻接指数的排列重要性得分如下表2:
表2
Figure 547047DEST_PATH_IMAGE039
步骤6.2:对各局部时空树回归模型,计算特征的偏依赖,得到在局部的特征非线性关系;将局部偏依赖按照时间和空间位置进行排列,得到数据的时空非线性交互;偏依赖计算公式如下:
Figure 609681DEST_PATH_IMAGE040
其中,x s 代表所求偏依赖特征的局部输入值,X C 代表除所求特征之外的局部输入特 征;
Figure 763057DEST_PATH_IMAGE041
代表定义式;
Figure 546336DEST_PATH_IMAGE042
代表对X C 求表达式的期望;f()代表模型的预测函数;p()代表取 值的概率。
对于给定地铁站点客流数据,其特征站点综合运输指数、站点综合邻接指数的局部偏依赖如下表3:
表3
Figure 760280DEST_PATH_IMAGE044
本发明将时间维度引入空间分析,结合树结构的机器学习模型,实现了数据的时空非平稳性分析以及非线性交互关系分析,从而在时空数据中发现有用的时空信息和知识,从而更好地理解社会和环境的动态。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (8)

1.一种基于局部时空树回归模型的时空非平稳性分析方法,其特征在于,包括以下步骤:
步骤1:获取数据的时空属性,根据数据的属性特征,将数据属性区分为非时空属性、时间属性和空间属性;
步骤2:分别确定时间属性、空间属性的距离度量方式,计算数据之间的时间距离、空间距离,以此得到描述数据时间关系与空间关系的时间距离矩阵与空间距离矩阵;
步骤3:分别确定时间距离、空间距离的带宽、核函数,计算数据之间的时间权重、空间权重,以此得到描述数据之间时间相对重要性与空间相对重要性的时间权重矩阵与空间权重矩阵;
步骤4:根据步骤3中得到的时间、空间权重矩阵,对其进行元素级归约运算,得到描述数据之间时空相对重要性的时空权重矩阵;
步骤5:根据步骤4中得到的时空权重矩阵,将其作为回归权重,使用树结构回归模型对每处数据进行局部加权回归,得到多个局部时空树回归模型;
步骤6:根据步骤5中得到的多个局部时空树回归模型,计算各局部时空树回归模型的局部重要性以及局部偏依赖,得到数据在时空上的非平稳性以及非线性交互关系。
2.根据权利要求1所述的基于局部时空树回归模型的时空非平稳性分析方法,其特征在于,步骤1中:
所述数据的时间属性,为指明数据列中表明数据自身时间的数据列;对于粗时间粒度的数据,即数据时间范围跨度大于一天的数据,以年、月、日进行表示;对于细时间粒度的数据,即数据时间范围跨度小于等于一天的数据,以时、分、秒进行表示;
所述数据的空间属性,是指明数据列中表明数据自身空间位置的数据列;对于大地坐标系数据,以经度、纬度进行表示;对于投影坐标系数据,以X坐标、Y坐标进行表示;对于三维数据,以X坐标、Y坐标、Z坐标进行表示;
所述数据的非时空属性,是对于数据列中除表示自身时间和空间位置之外的数据列,归为非时空数据列。
3.根据权利要求1所述的基于局部时空树回归模型的时空非平稳性分析方法,其特征在于,步骤2中:
对时空属性使用曼哈顿距离度量,计算出各数据间的时间距离;其中,曼哈顿距离度量计算公式如下:
Figure 142039DEST_PATH_IMAGE001
其中,d 1 ()代表曼哈顿距离函数,pq代表数据对的时间向量;n为数据维度,对于一维的时间属性,代表数据维度n的值应为1;p i q i 表示时间向量pq的第i维分量;
当空间属性使用经度、纬度表示时,使用大圆距离度量,根据半正矢公式计算出各数据间的空间距离;其中,半正矢公式如下:
Figure 251553DEST_PATH_IMAGE002
其中,r代表地球半径,
Figure 635261DEST_PATH_IMAGE003
代表数据对的纬度,λ 1λ 2代表数据对的经度;
当空间属性使用其他表示时,使用闵可夫斯基距离度量,根据数据特性确定p值,计算出各数据间的空间距离;其中,闵可夫斯基距离度量计算公式如下:
Figure 438132DEST_PATH_IMAGE004
其中D()代表闵可夫斯基距离函数,order为常数,表示距离计算维度;
将数据对之间的时间距离与空间距离组合为矩阵形式,得到时间距离矩阵与空间距离矩阵。
4.根据权利要求1所述的基于局部时空树回归模型的时空非平稳性分析方法,其特征在于:步骤3中,
根据时间距离、空间距离的性质选择带宽;对于固定带宽,各数据带宽均为同一固定值,设为局部模型所加权的邻接数据距离阈值;对于可变带宽,各局部模型所加权的邻接数量均为同一固定值,带宽设为对应邻接数量的距离阈值;
根据时间距离、空间距离的性质选择用于计算权重的核函数;对于连续核函数,其赋予的权重随着距离单调递减且大于零;
对于紧支撑核函数,其赋予的权重在距离大于带宽时为零;
将数据对之间的时间权重与空间权重组合为矩阵形式,得到时间权重矩阵与空间权重矩阵。
5.根据权利要求1所述的基于局部时空树回归模型的时空非平稳性分析方法,其特征在于,步骤4的具体实现包括以下子步骤:
步骤4.1:对时间权重矩阵和空间权重矩阵进行相对重要性标准化,标准化过程为:
Figure 452355DEST_PATH_IMAGE005
其中,W temporal 代表时间权重矩阵,W spatial 代表空间权重矩阵;γ temporal 代表时间权重的相对重要性,γ spatial 代表空间权重的相对重要性;
步骤4.2:对标准化后的时间权重矩阵与空间权重矩阵进行元素级归约运算;
对于元素级乘法归约运算,公式如下:
Figure 770204DEST_PATH_IMAGE006
对于元素级加法归约运算,公式如下:
Figure 689094DEST_PATH_IMAGE007
其中,
Figure 877630DEST_PATH_IMAGE008
代表时间权重矩阵的第i行第j列权重元素,
Figure 266017DEST_PATH_IMAGE009
代表时间权 重矩阵的第i行第j列权重元素,w ij 代表元素级归约结果矩阵的第i行第j列权重元素;
步骤4.3:对元素级归约结果进行矩阵化,得到时空权重矩阵。
6.根据权利要求1所述的基于局部时空树回归模型的时空非平稳性分析方法,其特征在于,步骤5的具体实现包括以下子步骤:
步骤5.1:根据时空权重矩阵,选取各数据局部回归权重w i =(w i1 ,w i2 ,…,w iN ),其中,w ij 代表元素级归约结果矩阵的第i行第j列权重元素,1≤i≤N且1≤j≤N;N代表数据总量;
步骤5.2:对各数据局部回归权重w i ,设定数据自身对应权重数值为零,即w ii =0;
步骤5.3:对各数据进行树结构模型拟合,使用随机森林模型,传入局部回归权重,得到 局部树模型
Figure 743266DEST_PATH_IMAGE010
;其中,f i ()表示在数据i处使用X进行拟合的局部树模型、X表示输入 局部树模型用于拟合的数据、w i 表示在数据i处的局部回归权重;
步骤5.4:根据局部树模型,计算各局部预测值
Figure 531093DEST_PATH_IMAGE011
步骤5.5:根据预测值,通过计算R2判断局部树模型拟合泛化能力;
R2计算公式如下:
Figure 839715DEST_PATH_IMAGE012
Figure 461320DEST_PATH_IMAGE013
Figure 422936DEST_PATH_IMAGE014
其中,
Figure 748875DEST_PATH_IMAGE015
表示回归变量均值;y i 表示数据i的真实值;e i 表示数据i真实值与预测值之间 的差值,即数据i的残差值;
步骤5.6:通过调整时间距离的带宽与空间距离的带宽,使R2最大化,其最大化公式如下:
Figure 849686DEST_PATH_IMAGE017
其中,h temporal 代表时间距离的带宽,h spatial 代表空间距离的带宽,R2 (h temporal ,h spatial ) 代表在当前h temporal ,h spatial 取值下,拟合模型所计算出来的R2值,
Figure 642192DEST_PATH_IMAGE018
代表使得表达式取值最大情况下的h temporal ,h spatial 取值;
由此,得到使R2最大下的h temporal ,h spatial ,将其作为最优回归参数从而得到最优的局部 时空树回归模型
Figure 421930DEST_PATH_IMAGE019
7.根据权利要求1-6任意一项所述的基于局部时空树回归模型的时空非平稳性分析方法,其特征在于,步骤6的具体实现包括以下子步骤:
步骤6.1:对局部时空树回归模型,使用排列重要性计算各特征的局部重要性,将局部重要性根据时间和空间位置进行排列,从而得到特征的时空重要性;排列重要性计算公式如下:
Figure 692505DEST_PATH_IMAGE020
其中Importancce ij 代表局部时空树回归模型i的特征j重要性得分,s代表局部时空树回归模型在数据上的得分,s k,j 代表局部时空树回归模型在第k次随机排列特征j之后的数据上的得分;K为常量,表示总共进行的随机排列次数;
步骤6.2:对局部时空树回归模型,计算特征的偏依赖,得到在局部的特征非线性关系;将局部偏依赖按照时间和空间位置进行排列,得到数据的时空非线性交互;偏依赖计算公式如下:
Figure 316997DEST_PATH_IMAGE021
其中,x s 代表所求偏依赖特征的局部输入值,X C 代表除所求特征之外的局部输入特征;
Figure 545984DEST_PATH_IMAGE022
代表定义式;
Figure DEST_PATH_IMAGE023
代表对X C 求表达式的期望;f()代表模型的预测函数;p()代表取值的 概率。
8.一种基于局部时空树回归模型的时空非平稳性分析系统,其特征在于,包括以下模块:
模块1,用于获取数据的时空属性,根据数据的属性特征,将数据属性区分为非时空属性、时间属性和空间属性;
模块2,用于分别确定时间属性、空间属性的距离度量方式,计算数据之间的时间距离、空间距离,以此得到描述数据时间关系与空间关系的时间距离矩阵与空间距离矩阵;
模块3,用于分别确定时间距离、空间距离的带宽、核函数,计算数据之间的时间权重、空间权重,以此得到描述数据之间时间相对重要性与空间相对重要性的时间权重矩阵与空间权重矩阵;
模块4,用于根据模块3中得到的时间、空间权重矩阵,对其进行元素级归约运算,得到描述数据之间时空相对重要性的时空权重矩阵;
模块5,用于根据模块4中得到的时空权重矩阵,将其作为回归权重,使用树结构回归模型对每处数据进行局部加权回归,得到多个局部时空树回归模型;
模块6,用于根据模块5中得到的多个局部时空树回归模型,计算各局部时空树回归模型的局部重要性以及局部偏依赖,得到数据在时空上的非平稳性以及非线性交互关系。
CN202211610329.0A 2022-12-15 2022-12-15 基于局部时空树回归模型的时空非平稳性分析方法及系统 Active CN115599774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211610329.0A CN115599774B (zh) 2022-12-15 2022-12-15 基于局部时空树回归模型的时空非平稳性分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211610329.0A CN115599774B (zh) 2022-12-15 2022-12-15 基于局部时空树回归模型的时空非平稳性分析方法及系统

Publications (2)

Publication Number Publication Date
CN115599774A true CN115599774A (zh) 2023-01-13
CN115599774B CN115599774B (zh) 2023-03-10

Family

ID=84854212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211610329.0A Active CN115599774B (zh) 2022-12-15 2022-12-15 基于局部时空树回归模型的时空非平稳性分析方法及系统

Country Status (1)

Country Link
CN (1) CN115599774B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235675A (zh) * 2023-09-20 2023-12-15 福建省星云大数据应用服务有限公司 一种大数据自适应采集方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7464006B1 (en) * 2003-10-09 2008-12-09 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Analyzing nonstationary financial time series via hilbert-huang transform (HHT)
CN106227965A (zh) * 2016-07-29 2016-12-14 武汉大学 一种顾及时空分布非平稳特征的土壤有机碳空间抽样网络设计方法
CN107103392A (zh) * 2017-05-24 2017-08-29 北京航空航天大学 一种基于时空地理加权回归的公交客流影响因素识别与预测方法
CN109214605A (zh) * 2018-11-12 2019-01-15 国网山东省电力公司电力科学研究院 电力系统短期负荷概率预测方法、装置及系统
US20190080261A1 (en) * 2017-09-14 2019-03-14 Beihang University Data correlation processing method based on observation data from beidou satellite
US20190122144A1 (en) * 2017-10-25 2019-04-25 International Business Machines Corporation Regression for metric dataset
US20200311576A1 (en) * 2019-04-01 2020-10-01 Kabushiki Kaisha Toshiba Time series data analysis method, time series data analysis apparatus, and non-transitory computer readable medium
CN113901384A (zh) * 2021-09-24 2022-01-07 武汉大学 顾及全局空间自相关性和局部异质性的地面pm2.5浓度建模方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7464006B1 (en) * 2003-10-09 2008-12-09 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Analyzing nonstationary financial time series via hilbert-huang transform (HHT)
CN106227965A (zh) * 2016-07-29 2016-12-14 武汉大学 一种顾及时空分布非平稳特征的土壤有机碳空间抽样网络设计方法
CN107103392A (zh) * 2017-05-24 2017-08-29 北京航空航天大学 一种基于时空地理加权回归的公交客流影响因素识别与预测方法
US20190080261A1 (en) * 2017-09-14 2019-03-14 Beihang University Data correlation processing method based on observation data from beidou satellite
US20190122144A1 (en) * 2017-10-25 2019-04-25 International Business Machines Corporation Regression for metric dataset
CN109214605A (zh) * 2018-11-12 2019-01-15 国网山东省电力公司电力科学研究院 电力系统短期负荷概率预测方法、装置及系统
US20200311576A1 (en) * 2019-04-01 2020-10-01 Kabushiki Kaisha Toshiba Time series data analysis method, time series data analysis apparatus, and non-transitory computer readable medium
CN113901384A (zh) * 2021-09-24 2022-01-07 武汉大学 顾及全局空间自相关性和局部异质性的地面pm2.5浓度建模方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
肖燕婷等: "时空地理加权回归模型的时空非平稳性检验", 《系统工程理论与实践》 *
赵阳阳: "顾及全局和局部时空非平稳差异的地理加权回归方法研究", 《中国博士学位论文全文数据库基础科学辑(月刊)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235675A (zh) * 2023-09-20 2023-12-15 福建省星云大数据应用服务有限公司 一种大数据自适应采集方法

Also Published As

Publication number Publication date
CN115599774B (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
Senaratne et al. Urban mobility analysis with mobile network data: A visual analytics approach
US10387457B2 (en) Grid-based analysis of geospatial trajectories
Surabuddin Mondal et al. Modeling of spatio-temporal dynamics of land use and land cover in a part of Brahmaputra River basin using Geoinformatic techniques
US20130232419A1 (en) Systems and methods for efficient video analysis
Ray et al. A backcast land use change model to generate past land use maps: application and validation at the Muskegon River watershed of Michigan, USA
Song et al. An interactive detector for spatial associations
Tang et al. Integration of diverse data sources for spatial PM2. 5 data interpolation
CN113158038B (zh) 基于sta-tcn神经网络框架的兴趣点推荐方法及系统
Stehman A critical evaluation of the normalized error matrix in map accuracy assessment
CN115599774B (zh) 基于局部时空树回归模型的时空非平稳性分析方法及系统
Gervasoni et al. Convolutional neural networks for disaggregated population mapping using open data
Surabuddin Mondal et al. Ca Markov modeling of land use land cover dynamics and sensitivity analysis to identify sensitive parameter (S)
CN115293570A (zh) 一种基于gis国土空间规划系统及方法
Parvinnezhad et al. A modified spatial entropy for urban sprawl assessment
CN110263250A (zh) 一种推荐模型的生成方法及装置
CN110276387A (zh) 一种模型的生成方法及装置
US20170299424A1 (en) Measuring and diagnosing noise in an urban environment
CN115759291B (zh) 一种基于集成学习的空间非线性回归方法及系统
CN116341841A (zh) 径流预报误差校正方法、装置、设备、介质和程序产品
CN116258923A (zh) 图像识别模型训练方法、装置、计算机设备和存储介质
CN115438249A (zh) QoS预测模型构建方法、装置、设备及可读存储介质
Zhang et al. Two-stage traffic clustering based on HNSW
Al Marhoobi Time series analysis and forecasting with applications to climate science
Nice et al. The nature of human settlement: building an understanding of high performance city design
Oxoli Exploratory approaches in spatial association analysis: Methods, complements, and open GIS tools development

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant