CN112685509A - 一种高维数据协同变化幅度识别方法及装置 - Google Patents

一种高维数据协同变化幅度识别方法及装置 Download PDF

Info

Publication number
CN112685509A
CN112685509A CN202011592277.XA CN202011592277A CN112685509A CN 112685509 A CN112685509 A CN 112685509A CN 202011592277 A CN202011592277 A CN 202011592277A CN 112685509 A CN112685509 A CN 112685509A
Authority
CN
China
Prior art keywords
dimensional data
data
matrix
amplitude
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011592277.XA
Other languages
English (en)
Other versions
CN112685509B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datayes Co
Original Assignee
Datayes Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datayes Co filed Critical Datayes Co
Priority to CN202011592277.XA priority Critical patent/CN112685509B/zh
Publication of CN112685509A publication Critical patent/CN112685509A/zh
Application granted granted Critical
Publication of CN112685509B publication Critical patent/CN112685509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

本文提供了一种高维数据协同变化幅度识别方法及装置,其中,方法包括:对高维数据样本进行预处理,得到数据矩阵X,其中,预处理包括:对齐高维数据的频率及填补高维数据的缺失值;利用抽样周期T0对数据矩阵X进行抽样处理,得到多个子数据矩阵Xi;根据所有子数据矩阵Xi,计算所述数据矩阵X的协方差矩阵估计V;对所述协方差矩阵估计V进行特征分解,得到特征向量Vx;将数据矩阵X在特征向量Vx方向进行投影,得到高维数据协同变化幅度。本实施例能够解决高维数据频率不一、发布时间不对齐的问题,使得计算出的高维数据协同变化幅度与实际情况相符,提高高维数据协同变化幅度的精确度。

Description

一种高维数据协同变化幅度识别方法及装置
技术领域
本文涉及数据分析领域,尤其涉及一种高维数据协同变化幅度识别方法及装置。
背景技术
现有技术中存在较多的高维数据,例如声波阵列信号、强噪环境信号、金融数据及经济数据等,这些高维数据包含多个变量(也可称之为指标),这些变量之间存在协同性变化,以经济数据(包含多个经济变量)为例,现有对经济数据协同性变化分析的主要实现方式为:利用Geweke、Sargent和Sims(1977)提出的动态因子模型(Dynamic Factor Model,DFM)从一系列宏观经济变量中提取出单一因子,以描述变量间的协同运动,从而解决了采用单一经济变量表示数据变化存在的局限性。但是,该方法仅能仅能处理频率相同的经济数据,且当分析数据的维度增加时,DFM模型将变得不稳定。伴随社会分工细化和经济活动多样化,经济数据的维度呈现出暴发增长,该分析方法难以精确的确定经济数据的协同变化幅度,进而使得利用经济数据协同变化幅度分析得到的经济周期、经济周期拐点判断不准确。
发明内容
本文用于解决现有技术中,对于高维数据的分析仅从中提取单一变量因子,用于表示高维数据中所有变量的协同变化,该种方法并不能精确地表示高维数据协同变化幅度的问题。
为了解决上述问题,本文的第一方面提供一种高维数据协同变化幅度识别方法,包括:
对高维数据样本进行预处理,得到数据矩阵X,其中,预处理包括:对齐高维数据的频率及填补金融数据的缺失值;
利用抽样周期T0对数据矩阵X进行抽样处理,得到多个子数据矩阵Xi
根据所有子数据矩阵Xi,计算所述数据矩阵X的协方差矩阵估计V;
对所述协方差矩阵估计V进行特征分解,得到特征向量Vx;
将数据矩阵X在特征向量Vx方向进行投影,得到高维数据协同变化幅度。
本文进一步实施例中,填补所述高维数据的缺失值包括:利用如下公式所示的前向插值法填补所述高维数据的缺失值:
E[Dt,j]=Dt-k,j,
其中,Dt-k,j为高维数据中的j变量在采样时间t之前最近可得的数据记录,E[Dt,j]为高维数据中的j变量在采样时间t的填充值,t-k为最近的数据记录的采样时间。
本文进一步实施例中,根据所有子数据矩阵Xi,计算所述数据矩阵X的协方差矩阵估计V,包括:
利用Newey-West协方差矩阵调整方法,估计各子数据矩阵Xi的协方差矩阵Vi
对各子数据矩阵Xi的协方差矩阵Vi进行加权平均处理,将计算得到的平均值作为所述数据矩阵X的协方差矩阵估计V。
本文进一步实施例中,对所述协方差矩阵估计V进行特征分解,得到特征向量Vx,包括:
对所述协方差矩阵估计V进行特征分解,将最大特征值对应的特征向量作为特征向量Vx。
本文进一步实施例中,高维数据协同变化幅度识别方法还包括:
对所述高维数据协同变化幅度按抽样周期T0进行抽样,得到高维数据协同变化幅度序列
Figure BDA0002867235500000021
对所述高维数据协同变化幅度序列
Figure BDA0002867235500000022
做累加处理,得到所述高维数据协同变化幅度的累计变化指数。
本文进一步实施例中,对所述高维数据协同变化幅度按抽样周期T0进行抽样,得到高维数据协同变化幅度序列
Figure BDA0002867235500000023
包括利用如下公式计算高维数据协同变化幅度序列
Figure BDA0002867235500000024
中每一协同变化幅度:
Figure BDA0002867235500000025
其中,
Figure BDA0002867235500000026
为高维数据每个抽样周期T0抽样的协同变化幅度,sj为高维数据中第j个协同变化幅度,T为预定时间段,floor(T/T0)为对(T/T0)向下取整,i为重新抽样后序列的日期索引。
本文进一步实施例中,高维数据协同变化幅度识别方法还包括:根据所述高维数据协同变化幅度的累计变化指数及上一年同期的累计变化指数,计算得到所述高维数据周期波动的同比变化量。
本文的第二方面提供一种高维数据协同变化幅度识别装置,包括:
预处理模块,用于对高维数据样本进行预处理,得到数据矩阵X,其中,预处理包括:对齐高维数据的频率及填补高维数据的缺失值;
抽样模块,用于利用抽样周期T0对数据矩阵X进行抽样处理,得到多个子数据矩阵Xi
计算模块,用于根据所有子数据矩阵Xi,计算所述数据矩阵X的协方差矩阵估计V;
分解模块,用于对所述协方差矩阵估计V进行特征分解,得到特征向量Vx;
投影模块,用于将数据矩阵X在特征向量Vx方向进行投影,得到高维数据协同变化幅度。
本文的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述任一项所述的高维数据协同变化幅度识别方法。
本文的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行计算机程序,所述计算机程序被处理器执行时实现前述任一实施例所述的高维数据协同变化幅度识别方法。
本文提供的高维数据协同变化幅度识别方法及装置,适用于声波阵列信号、强噪环境信号、金融数据及经济数据等高维数据的分析,通过对高维数据样本进行预处理,得到数据矩阵X,其中,预处理包括:对齐高维数据的频率及填补金融数据的缺失值;利用抽样周期T0对数据矩阵X进行抽样处理,得到多个子数据矩阵Xi;根据所有子数据矩阵Xi,计算所述数据矩阵X的协方差矩阵估计V;对所述协方差矩阵估计V进行特征分解,得到特征向量Vx;将数据矩阵X在特征向量Vx方向进行投影,得到高维数据协同变化幅度,能够解决高维数据频率不一、发布时间不对齐的问题,使得计算出的高维数据协同变化幅度与实际情况相符,提高高维数据协同变化幅度的精确度。
为让本文的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
为了更清楚地说明本文实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本文的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本文实施例高维数据协同变化幅度识别方法的第一流程图;
图2A示出了本文实施例高维数据预处理前的示意图;
图2B示出了本文实施例高维数据预处理后的示意图;
图3示出了本文实施例高维数据协同变化幅度识别方法的第二流程图;
图4示出了本文实施例高维数据协同变化幅度识别方法的第三流程图;
图5示出了本文实施例高维数据协同变化幅度识别装置的第一结构图;
图6示出了本文实施例高维数据协同变化幅度识别装置的第二结构图;
图7示出了本文实施例计算机设备的结构图。
附图符号说明:
510、预处理模块;
520、抽样模块;
530、计算模块;
540、分解模块;
550、投影模块;
702、计算机设备;
704、处理器;
706、存储器;
708、驱动机构;
710、输入/输出模块;
712、输入设备;
714、输出设备;
716、呈现设备;
718、图形用户接口;
720、网络接口;
722、通信链路;
724、通信总线。
具体实施方式
下面将结合本文实施例中的附图,对本文实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本文一部分实施例,而不是全部的实施例。基于本文中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文保护的范围。
本文一实施例中,如图1所示,图1示出了本文实施例高维数据协同变化幅度识别方法的第一流程图,本实施例本文的方法可以运行于智能终端,包括智能手机、平板电脑、台式计算机、服务器等,可以为单独的应用程序、内嵌于其他程序中的小程序等,或者也可以为网页形式实现等。本实施例能够解决现有技术中,对于高维数据的分析仅从中提取单一变量因子,用于表示高维数据中所有变量的协同变化,该种方法并不能精确地表示高维数据协同变化幅度的问题。具体的,高维数据协同变化幅度识别方法包括:
步骤110,对高维数据样本进行预处理,得到数据矩阵X,其中,预处理包括:对齐高维数据的频率及填补高维数据的缺失值;
步骤120,利用抽样周期T0对数据矩阵进行抽样处理,得到多个子数据矩阵Xi
步骤130,根据所有子数据矩阵Xi,计算数据矩阵X的协方差矩阵估计V;
步骤140,对协方差矩阵估计V进行特征分解,得到特征向量Vx;
步骤150,将数据矩阵X在特征向量Vx方向进行投影,得到高维数据协同变化幅度。
详细的说,本文所述的高维数据包括但不限于声波阵列信号、强噪环境信号、金融数据及经济数据等,凡是具有多个变量且各变量之间存在一定程度的耦合关系的数据类型均属于本文所述的高维数据。本文尤其适用于发布频率(例如季频、月频、日频等)差距较大的高维数据。
本实施例能够使得计算出的高维数据协同变化幅度与实际情况相符,提高高维数据协同变化幅度的精确度,以便利用高维数据协同变化幅度对高维数据拐点进行提前预判。
本文一实施例中,上述步骤110中对齐高维数据的频率指的是按照高维数据中各变量数据的发布时间在日历时间上作对齐处理。通过步骤110能够解决高维数据频率不一、发布时间不对齐的问题。
具体实施时,可按照最高的发布频率或者日历日期对高维数据中各变量数据的发布时间作对齐处理。
一具体实施例中,如图2A所示,图2A示出了T时间段内的高维数据样本,其中,N为高维数据中变量的种类。由图2A可知看出,对于发布频率较低的变量数据,相邻两个数据之间存在大量的空缺位置,例如j=1、2的变量。同时,有的变量因为统计时间较短,在第一个发布数据点前的数据均缺失,如j=5的变量。
上述步骤110中预处理的高维数据指的是预设时间区间内的高维数据样本数据,按照对齐的发布频率对其进行抽样得到的数据向量称为截面数据。填补高维数据的缺失值指的是填补未发布及缺失的数据,一种解决方案为综合考虑前期发布的所有完整截面数据和各个数据自身的时序相关性,从而计算缺失值的最佳期望,这类解决方法包括了卡尔曼滤波、Bayesian数据扩增法等,本文对具体的算法不做限定。具体实施时,考虑到宏观大数据的截面谐振特征,本文另一种填补高维数据的缺失值的方案为利用如下公式所示的前向插值法来填补未发布及缺失的数据:
E[Dt,j]=Dt-k,j;
其中,Dt-k,j为高维数据中的j变量在采样时间t之前最近可得的数据记录,E[Dt,j]为高维数据中的j变量在采样时间t的填充值,t-k为最近的数据记录的采样时间。
具体的,采样时间t可以是一时间段,例如为每日、每周、每48小时等,还可以为时刻,例如每日12:00,每日12:00及0:00。采样时间t具体为何,可根据高维数据中各变量发布时间确定,一般情况下,为了涵盖所有数据,可根据高维数据中发布频率最高的变量的发布时间确定采样时间t。
对于图2A所示数据采用前向插值法填补缺失值之后的数据如图2B所示,图2B中虚线框处的地方为填补的缺失值,以j=1的变量为例,时间t-1至t-21之间的时间段内,均为未发布,因t之前最近可得的数据记录为t-22时间记录的数据Dt-22,1,因此,t-1至t-21时间段内的数据均填充为了Dt-22,1。对于j=5的变量而言,因在时间t之前的数据为缺失状态,因此,t至1之间的数据无法填充。对于j=6的变量而言,在t+1时间之后发布中断,因此,t+1至T之间的数据也无法填充。
上述步骤110预处理得到的数据矩阵X为一T×N的大型矩阵,其中,T为高维数据样本中时间区间的时间长度,N为高维数据中待分析的变量的数量。数据矩阵X具有如下两个明显特征:
(a)除日频变量以外,其他变量因插值处理都有大量的重复值,因此使得时间序列存在较强的自相关性;
(b)由于低频变量的真实数据样本数量远低于高频变量,直接通过截面数据得到的相关关系的置信度较低。
通过上述步骤120至步骤150能够解决低频变量直接通过截面数据得到相关关系的置信度较低的缺陷,从而精确地得到高维数据协同变化幅度。
本文一实施例中,上述步骤120中利用抽样周期T0对数据矩阵X进行抽样处理,得到多个子数据矩阵Xi,包括利用如下公式确定子数据矩阵Xi
Figure BDA0002867235500000072
其中,Xi为按照抽样周期T0对X重新抽样后的矩阵,floor(T/T0)+1为预定时间段内抽样次数,floor为向下取整函数,T为预定时间段。
本实施例实施时,可根据需求设定抽样周期T0,例如为30天,不同领域的高维数据设定的抽样周期T0可以不同,本文对此不作限定。
本文一实施例中,上述步骤130根据所有子数据矩阵Xi,计算所述数据矩阵X的协方差矩阵估计V,包括:
步骤131,利用Newey-West协方差矩阵调整方法,估计各子数据矩阵Xi的协方差矩阵Vi
步骤132,对各子数据矩阵Xi的协方差矩阵Vi进行加权平均处理,将计算得到的平均值作为所述数据矩阵X的协方差矩阵估计V。
实施时,上述步骤131及步骤132结合后利用如下公式计算平均值:
Figure BDA0002867235500000071
其中,NW(·)为协方差矩阵的Newey-West调整方法,Xi为第i个子数据矩阵,V为平均值,T0为抽样周期,Vi为第i个子数据矩阵的协方差矩阵。
本实施例通过Newey-West调整,能够显著降低因时间序列的自相关性对协方差矩阵估计的影响。
本文一实施例中,上述步骤140对所述协方差矩阵估计V进行特征分解,得到特征向量Vx,包括:
对所述协方差矩阵估计V进行特征分解,将最大特征值对应的特征向量作为特征向量Vx。协方差矩阵估计V分解后用如下公式表示:
V=[V1,…,Vk,…,VN]Λ[V1,…,Vk,…,VN]T
其中,VK,k=1,2,…,N为各个特征向量;Λ为对角特征值矩阵,特征值按从大到小排列。
进一步的,上述步骤150利用如下公式将数据矩阵X在特征向量Vx方向进行投影,得到高维数据协同变化幅度:
S=XV1
其中,时间序列S为计算的高维数据协同变化幅度。
本文一实施例中,考虑到高维数据变化周期容易受到数据噪声的干扰,直接观察高维数据协同变化幅度难以建立起周期化的趋势判断,因此,在高维数据协同变化幅度分析的基础上,做出了如下分析,将高维数据协同变化幅度转换为周期化的指标,具体的,如图3所示,高维数据协同变化幅度识别方法除了包括上述步骤110至步骤150外,还包括:
步骤160,对高维数据协同变化幅度按抽样周期T0进行抽样,得到高维数据协同变化幅度序列
Figure BDA0002867235500000083
步骤170,对高维数据协同变化幅度序列
Figure BDA0002867235500000084
做累加处理,得到高维数据协同变化幅度的累计变化指数。
一些具体实施方式中,上述步骤160采用算数平均抽样的方法,具体的,利用如下公式计算高维数据协同变化幅度序列:
Figure BDA0002867235500000081
其中,
Figure BDA0002867235500000082
为高维数据按照抽样周期T0抽样的协同变化幅度,sj为未做抽样处理的高维数据协同变化幅度,T为预定时间段,floor(T/T0)+1为抽样后高维数据协同变化幅度序列的长度。
Figure BDA0002867235500000091
能够反映高维数据抽样周期T0频率的波动幅度,经过步骤170进行累加处理,能够得到高维数据协同变化幅度累计变化指数,具体的,步骤170利用如下公式计算:
Figure BDA0002867235500000092
进一步实施例中,还可结合去年同一时间段内高维数据协同变化幅度累计变化指数进行分析,如图4所示,高维数据协同变化幅度识别方法除了包括上述步骤110至步骤170外,还包括:
步骤180,根据高维数据协同变化幅度累计变化指数及上一年同期的高维数据协同变化幅度累计变化指数,计算得到高维数据周期波动的同比变化量。
具体的,可利用如下公式计算得到高维数据的周期波动的同比变化量:
Figure BDA0002867235500000093
其中,MIi为述高维数据协同变化幅度累计变化指数,MIi-12为上一年同期高维数据样本协同变化幅度累计变化指数,CIi为同比变化量。
基于同一发明构思,本文还提供一种高维数据协同变化幅度识别装置,如下面的实施例所述。由于高维数据协同变化幅度识别装置解决问题的原理与高维数据协同变化幅度识别方法相似,因此高维数据协同变化幅度识别装置的实施可以参见高维数据协同变化幅度识别方法,重复之处不再赘述。
高维数据协同变化幅度识别装置包括多个功能模块,均可以由专用或者通用芯片实现,还可以通过软件程序实现,具体的,如图5所示,高维数据协同变化幅度识别装置包括:
预处理模块510,用于对高维数据样本进行预处理,得到数据矩阵X;
抽样模块520,用于利用抽样周期T0对数据矩阵进行抽样处理,得到多个子数据矩阵Xi
计算模块530,用于根据所有子数据矩阵Xi,计算数据矩阵X的协方差矩阵估计V;
分解模块540,用于对协方差矩阵估计V进行特征分解,得到特征向量Vx;
投影模块550,用于将数据矩阵X在特征向量Vx方向进行投影,得到高维数据协同变化幅度。
本实施例能够解决高维数据频率不一、发布时间不对齐的问题,使得计算出的高维数据协同变化幅度与实际情况相符,提高高维数据协同变化幅度的精确度。
本文一实施例中,预处理模块510利用如下公式所示的前向插值法来填补未发布及缺失的数据:
E[Dt,j]=Dt-k,j;
其中,Dt-k,j为高维数据中的j变量在采样时间t之前最近可得的数据记录,E[Dt,j]为高维数据中的j变量在采样时间t的填充值。
本文一实施例中,抽样模块520利用抽样周期T0对数据矩阵X进行抽样处理,得到多个子数据矩阵Xi,包括利用如下公式确定子数据矩阵Xi
Figure BDA0002867235500000101
其中,Xi为按照抽样周期T0对X重新抽样后的矩阵,floor(T/T0)+1为预定时间段内抽样次数,T为预定时间段。
本文一实施例中,计算模块530根据所有子数据矩阵Xi,计算所述数据矩阵X的协方差矩阵估计V,包括:利用Newey-West协方差矩阵调整方法,估计各子数据矩阵Xi的协方差矩阵Vi;对各子数据矩阵Xi的协方差矩阵Vi进行加权平均处理,将计算得到的平均值作为所述数据矩阵X的协方差矩阵估计V。
本文一实施例中,分解模块540对所述协方差矩阵估计V进行特征分解,得到特征向量Vx,包括:
对所述协方差矩阵估计V进行特征分解,将最大特征值对应的特征向量作为特征向量Vx。协方差矩阵估计V分解后用如下公式表示:
V=[V1,…,VK,…VN]∧[V1,…,VK,…VN]T
其中,VK,k=1,2,…,N为各个特征向量;Λ为对角特征值矩阵,特征值按从大到小排列。
本文一实施例中,投影模块550利用如下公式将数据矩阵X在特征向量Vx方向进行投影,得到高维数据协同变化幅度:
S=XV1
其中,时间序列S为计算的高维数据协同变化幅度。
本文一实施例中,如图6所示,高维数据协同变化幅度识别装置除了包括上述预处理模块510,抽样模块520,计算模块530,分解模块540,投影模块550外,还包括:
累计变化指数分析模块560,用于对高维数据协同变化幅度按抽样周期T0进行抽样,得到高维数据协同变化幅度序列
Figure BDA0002867235500000111
对高维数据协同变化幅度序列
Figure BDA0002867235500000112
做累加处理,得到高维数据协同变化幅度的累计变化指数。
同比变化量分析模块570,用于根据高维数据协同变化幅度累计变化指数及上一年同期的高维数据协同变化幅度累计变化指数,计算得到高维数据周期波动的同比变化量。
本文提供的高维数据协同变化幅度识别方法及装置,适用于声波阵列信号、强噪环境信号、金融数据及经济数据等高维数据的分析。
通过对高维数据样本进行预处理,得到数据矩阵X,其中,预处理包括:对齐高维数据的频率及填补金融数据的缺失值,能够解决高维数据频率不一、发布时间不对齐的问题。
通过利用抽样周期T0对数据矩阵进行抽样处理,得到多个子数据矩阵Xi;根据所有子数据矩阵Xi,计算所述数据矩阵X的协方差矩阵估计V;对所述协方差矩阵估计V进行特征分解,得到特征向量Vx;将数据矩阵X在特征向量Vx方向进行投影,得到高维数据协同变化幅度,能够使得计算出的高维数据协同变化幅度与实际情况相符,提高高维数据协同变化幅度的精确度。
进一步的,通过对高维数据协同变化幅度按抽样周期T0进行抽样,得到高维数据协同变化幅度序列
Figure BDA0002867235500000113
对高维数据协同变化幅度序列
Figure BDA0002867235500000114
做累加处理,得到高维数据采协同变化幅度的累计变化指数;根据高维数据协同变化幅度累计变化指数及上一年同期的高维数据协同变化幅度累计变化指数,计算得到高维数据的周期波动的同比变化量,能够确定出高维数据周期波动的同比变化量,以利于对高频数据拐点的判断。
本文一实施例中,还提供一种计算机设备,如图7所示,计算机设备702可以包括一个或多个处理器704,诸如一个或多个中央处理单元(CPU),每个处理单元可以实现一个或多个硬件线程。计算机设备702还可以包括任何存储器706,其用于存储诸如代码、设置、数据等之类的任何种类的信息。具体的,存储在存储器706上并可在处理器704上运行的计算机程序,处理器704执行计算机程序时实现前述任一实施例所述的高维数据协同变化幅度识别方法。非限制性的,比如,存储器706可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示计算机设备702的固定或可移除部件。在一种情况下,当处理器704执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备702可以执行相关联指令的任一操作。计算机设备702还包括用于与任何存储器交互的一个或多个驱动机构708,诸如硬盘驱动机构、光盘驱动机构等。
计算机设备702还可以包括输入/输出模块710(I/O),其用于接收各种输入(经由输入设备712)和用于提供各种输出(经由输出设备714))。一个具体输出机构可以包括呈现设备716和相关联的图形用户接口718(GUI)。在其他实施例中,还可以不包括输入/输出模块710(I/O)、输入设备712以及输出设备714,仅作为网络中的一台计算机设备。计算机设备702还可以包括一个或多个网络接口720,其用于经由一个或多个通信链路722与其他设备交换数据。一个或多个通信总线724将上文所描述的部件耦合在一起。
通信链路722可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路722可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
本文一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一实施例所述的高维数据协同变化幅度识别方法。
本文一实施例中,还提供一种计算机可读指令,其中当处理器执行所述指令时,其中的程序使得处理器执行上述任一实施例所述的高维数据协同变化幅度识别方法。
应理解,在本文的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本文实施例的实施过程构成任何限定。
还应理解,在本文实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本文的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本文所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。
另外,在本文各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本文的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本文中应用了具体实施例对本文的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本文的方法及其核心思想;同时,对于本领域的一般技术人员,依据本文的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本文的限制。

Claims (10)

1.一种高维数据协同变化幅度识别方法,其特征在于,包括:
对高维数据样本进行预处理,得到数据矩阵X,其中,预处理包括:对齐高维数据的频率及填补高维数据的缺失值;
利用抽样周期T0对数据矩阵X进行抽样处理,得到多个子数据矩阵Xi
根据所有子数据矩阵Xi,计算所述数据矩阵X的协方差矩阵估计V;
对所述协方差矩阵估计V进行特征分解,得到特征向量Vx;
将数据矩阵X在特征向量Vx方向进行投影,得到高维数据协同变化幅度。
2.如权利要求1所述的方法,其特征在于,填补所述高维数据的缺失值,包括:利用如下公式填补所述高维数据的缺失值:
E[Dt,j]=Dt-k,j,
其中,Dt-k,j为高维数据中j变量在采样时间t之前最近的数据记录,E[Dt,j]为高维数据中j变量在采样时间t的填充值,t-k为最近的数据记录的采样时间。
3.如权利要求1所述的方法,其特征在于,根据所有子数据矩阵Xi,计算所述数据矩阵X的协方差矩阵估计V,包括:
利用Newey-West协方差矩阵调整方法,估计各子数据矩阵Xi的协方差矩阵Vi
对各子数据矩阵Xi的协方差矩阵Vi进行加权平均处理,将计算得到的平均值作为所述数据矩阵X的协方差矩阵估计V。
4.如权利要求1所述的方法,其特征在于,对所述协方差矩阵估计V进行特征分解,得到特征向量Vx,包括:
对所述协方差矩阵估计V进行特征分解,将最大特征值对应的特征向量作为特征向量Vx。
5.如权利要求1所述的方法,其特征在于,还包括:
对所述高维数据协同变化幅度按抽样周期T0进行抽样,得到高维数据协同变化幅度序列
Figure FDA0002867235490000011
对所述高维数据协同变化幅度序列
Figure FDA0002867235490000012
做累加处理,得到所述高维数据协同变化幅度的累计变化指数。
6.如权利要求5所述的方法,其特征在于,对所述高维数据协同变化幅度按抽样周期T0进行抽样,得到高维数据协同变化幅度序列
Figure FDA0002867235490000021
包括利用如下公式计算高维数据协同变化幅度序列
Figure FDA0002867235490000022
中每一协同变化幅度:
Figure FDA0002867235490000023
其中,
Figure FDA0002867235490000024
为高维数据每个抽样周期T0抽样的协同变化幅度,sj为高维数据中第j个协同变化幅度,T为预定时间段,floor(T/T0)为对(T/T0)向下取整,i为重新抽样后序列的日期索引。
7.如权利要求5所述的方法,其特征在于,还包括:根据所述高维数据协同变化幅度的累计变化指数及上一年同期的累计变化指数,计算得到所述高维数据周期波动的同比变化量。
8.一种高维数据协同变化幅度识别装置,其特征在于,包括:
预处理模块,用于对高维数据样本进行预处理,得到数据矩阵X,其中,预处理包括:对齐高维数据的频率及填补高维数据的缺失值;
抽样模块,用于利用抽样周期T0对数据矩阵X进行抽样处理,得到多个子数据矩阵Xi
计算模块,用于根据所有子数据矩阵Xi,计算所述数据矩阵X的协方差矩阵估计V;
分解模块,用于对所述协方差矩阵估计V进行特征分解,得到特征向量Vx;
投影模块,用于将数据矩阵X在特征向量Vx方向进行投影,得到高维数据协同变化幅度。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的高维数据协同变化幅度识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行计算机程序,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的高维数据协同变化幅度识别方法。
CN202011592277.XA 2020-12-29 2020-12-29 一种高维数据协同变化幅度识别方法及装置 Active CN112685509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011592277.XA CN112685509B (zh) 2020-12-29 2020-12-29 一种高维数据协同变化幅度识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011592277.XA CN112685509B (zh) 2020-12-29 2020-12-29 一种高维数据协同变化幅度识别方法及装置

Publications (2)

Publication Number Publication Date
CN112685509A true CN112685509A (zh) 2021-04-20
CN112685509B CN112685509B (zh) 2022-08-02

Family

ID=75454999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011592277.XA Active CN112685509B (zh) 2020-12-29 2020-12-29 一种高维数据协同变化幅度识别方法及装置

Country Status (1)

Country Link
CN (1) CN112685509B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005783A (zh) * 2015-05-18 2015-10-28 电子科技大学 从高维非对称数据中提取分类信息的方法
CN107273917A (zh) * 2017-05-26 2017-10-20 电子科技大学 一种基于并行化主成分分析算法的数据降维方法
CN110889139A (zh) * 2019-11-26 2020-03-17 支付宝(杭州)信息技术有限公司 针对用户隐私数据进行多方联合降维处理的方法及装置
CN111401479A (zh) * 2020-04-17 2020-07-10 支付宝(杭州)信息技术有限公司 多方联合对隐私数据进行降维处理的方法和装置
CN111783033A (zh) * 2020-07-07 2020-10-16 香港中文大学(深圳) 一种数据稀疏投影算法、系统、电子装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005783A (zh) * 2015-05-18 2015-10-28 电子科技大学 从高维非对称数据中提取分类信息的方法
CN107273917A (zh) * 2017-05-26 2017-10-20 电子科技大学 一种基于并行化主成分分析算法的数据降维方法
CN110889139A (zh) * 2019-11-26 2020-03-17 支付宝(杭州)信息技术有限公司 针对用户隐私数据进行多方联合降维处理的方法及装置
CN111401479A (zh) * 2020-04-17 2020-07-10 支付宝(杭州)信息技术有限公司 多方联合对隐私数据进行降维处理的方法和装置
CN111783033A (zh) * 2020-07-07 2020-10-16 香港中文大学(深圳) 一种数据稀疏投影算法、系统、电子装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
万 静,吴 凡,何云斌,李 松: "新的降维标准下的高维数据聚类算法", 《计算机科学与探索》 *
宋鹏等: "基于矩阵值因子模型的高维已实现协方差矩阵建模", 《统计研究》 *

Also Published As

Publication number Publication date
CN112685509B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
Chan et al. Fast computation of the deviance information criterion for latent variable models
US20030061152A1 (en) System and method for determining Value-at-Risk using FORM/SORM
CN108985929A (zh) 训练方法、业务数据分类处理方法及装置、电子设备
Gan et al. An empirical comparison of some experimental designs for the valuation of large variable annuity portfolios
Beutner et al. Identifiability issues of age–period and age–period–cohort models of the Lee–Carter type
CN113724010A (zh) 客户流失预测方法及装置
CN108197795A (zh) 恶意团体账户识别方法、装置、终端及存储介质
Jalali et al. Using the method of simulated moments for system identification
Brave et al. A practitioner's guide and MATLAB toolbox for mixed frequency state space models
CN112365335B (zh) 处理信贷数据的方法及装置
Liu et al. Polarization of forecast densities: a new approach to time series classification
CN112685509B (zh) 一种高维数据协同变化幅度识别方法及装置
Murakami Spatial regression modeling using the spmoran package: Boston housing price data examples
Salazar et al. Nonparametric estimation of general multivariate tail dependence and applications to financial time series
CN117574263A (zh) 一种样本数据生成方法、装置、设备及可读存储介质
CN116800831A (zh) 一种业务数据推送方法、装置、存储介质及处理器
Zhang et al. Maximum likelihood inference for the band-read error model for capture-recapture data with misidentification
Strid et al. Adaptive hybrid Metropolis-Hastings samplers for DSGE models
Chui et al. Exponential series estimation of empirical copulas with application to financial returns
Iacus Package ‘yuima’
US20240346510A1 (en) Generation of divergence distributions for automated data analysis
Iacus Package ‘yuima’
Shi et al. Structural estimation of behavioral heterogeneity
Murakami Spatial regression using the spmoran package: Boston housing price data examples
Verschueren Regularized Buckley–James Method: A Comprehensive Review and Applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant