CN113205257A

CN113205257A - 房产指数数据分析方法、装置、设备及存储介质

Info

Publication number: CN113205257A
Application number: CN202110486524.6A
Authority: CN
Inventors: 段洪云
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-08-03
Also published as: WO2022227219A1

Abstract

本申请涉及区块链和数据分析，提供一种房产指数数据分析方法、装置、设备及存储介质，该方法包括：通过获取涉及房产指数的第一因子的第一时序数据和第二因子的第二时序数据；对第一时序数据和第二时序数据均进行季节性调整和平稳化处理，得到第一目标时序数据和第二目标时序数据；计算第一目标时序数据和第二目标时序数据之间的传递熵和线性关系，并基于该传递熵和线性关系，确定第一因子与第二因子之间的目标领先指标信息；获取第二因子的当前时序数据，并基于目标领先指标信息和当前时序数据，预测第一因子的目标时序数据。本申请能够提高房产指数分析预测的准确性。

Description

房产指数数据分析方法、装置、设备及存储介质

技术领域

本申请涉及数据分析的技术领域，尤其涉及一种房产指数数据分析方法、装置、设备及存储介质。

背景技术

房地产业是指从事土地和房地产开发、经营、管理和服务的行业。目前，影响房地产业发展的外部环境因子众多，例如消费者物价指数(Consumer Price Index，CPI)、生产价格指数(Producer Price Index，PPI)、钢铁销量、家电出口、住房公积金贷款率、开工面积和去化周期等，这些外部环境因子与房地产的销售价格、销售面积等符合房地产业要素的房产指数密切相关。当前房地产行业大多采用统计方法进行外部环境因子与房产指数之间的相关性预测，比如通过循环设定滞后阶数计算外部环境因子对房产指数的相关预测，通过这种方式预测的房产指数并不符合房地产行业和宏观经济周期的规律，导致外部环境因子对房产指数的相关预测并不准确，不利于政府准确有效地实施房地产调控，难以保证后续房地产行业预期的准确性。

发明内容

本申请的主要目的在于提供一种房产指数数据分析方法、装置、设备及存储介质，旨在提高房产指数分析预测的准确性，从而有利于准确且有效地实施房地产相关调控。

第一方面，本申请提供一种房产指数数据分析方法，包括：

获取第一因子的第一时序数据和第二因子的第二时序数据，所述第一因子为符合房地产业要素的房产指数因子，所述第二因子为影响房地产业发展的外部环境因子；

对所述第一时序数据和第二时序数据均进行季节性调整和平稳化处理，得到第一目标时序数据和第二目标时序数据；

计算所述第一目标时序数据和第二目标时序数据之间的传递熵，并基于所述传递熵确定所述第一因子与第二因子之间的第一领先指标信息；

确定所述第一目标时序数据和第二目标时序数据之间的线性关系，并基于所述线性关系确定所述第一因子与第二因子之间的第二领先指标信息；

根据所述第一领先指标信息和所述第二领先指标信息，确定所述第一因子与第二因子之间的目标领先指标信息；

获取所述第二因子的当前时序数据，并基于所述目标领先指标信息和所述当前时序数据，预测所述第一因子的目标时序数据。

第二方面，本申请还提供一种房产指数数据分析装置，所述房产指数数据分析装置包括：

获取模块，用于获取第一因子的第一时序数据和第二因子的第二时序数据，所述第一因子为符合房地产业要素的房产指数因子，所述第二因子为影响房地产业发展的外部环境因子；

处理模块，用于对所述第一时序数据和第二时序数据均进行季节性调整和平稳化处理，得到第一目标时序数据和第二目标时序数据；

第一确定模块，用于计算所述第一目标时序数据和第二目标时序数据之间的传递熵，并基于所述传递熵确定所述第一因子与第二因子之间的第一领先指标信息；

第二确定模块，用于确定所述第一目标时序数据和第二目标时序数据之间的线性关系，并基于所述线性关系确定所述第一因子与第二因子之间的第二领先指标信息；

第三确定模块，用于根据所述第一领先指标信息和所述第二领先指标信息，确定所述第一因子与第二因子之间的目标领先指标信息；

预测模块，用于获取所述第二因子的当前时序数据，并基于所述目标领先指标信息和所述当前时序数据，预测所述第一因子的目标时序数据。

第三方面，本申请还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上所述的房产指数数据分析方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上所述的房产指数数据分析方法的步骤。

本申请提供一种房产指数数据分析方法、装置、设备及存储介质，本申请通过获取第一因子的第一时序数据和第二因子的第二时序数据，第一因子为符合房地产业要素的房产指数因子；对第一时序数据和第二时序数据均进行季节性调整和平稳化处理，得到第一目标时序数据和第二目标时序数据；计算第一目标时序数据和第二目标时序数据之间的传递熵，并基于传递熵确定第一因子与第二因子之间的第一领先指标信息；确定第一目标时序数据和第二目标时序数据之间的线性关系，并基于线性关系确定第一因子与第二因子之间的第二领先指标信息；根据第一领先指标信息和第二领先指标信息，确定第一因子与第二因子之间的目标领先指标信息；获取第二因子的当前时序数据，并基于目标领先指标信息和当前时序数据，预测第一因子的目标时序数据。通过目标领先指标信息能够较为准确地实现房产指数的相关分析预测，有利于房地产行业预期的准确性，有助于准确有效地实施房地产业相关调控。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种房产指数数据分析方法的步骤流程示意图；

图2为图1中的房产指数数据分析方法的一子步骤流程示意图；

图3为图1中的房产指数数据分析方法的另一子步骤流程示意图；

图4为本申请实施例提供的一种房产指数数据分析装置的示意性框图；

图5为图4中的房产指数数据分析装置的一子模块的示意性框图；

图6为图4中的房产指数数据分析装置的另一子模块的示意性框图；

图7为本申请实施例提供的一种计算机设备的结构示意性框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，虽然在装置示意图中进行了功能模块的划分，但是在某些情况下，可以以不同于装置示意图中的模块划分。

本申请实施例提供一种房产指数数据分析方法、装置、设备及存储介质。其中，该房产指数数据分析方法可应用于终端设备或服务器中，该终端设备可以为手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备；该服务器可以为单台的服务器，也可以为由多台服务器组成的服务器集群。以下以该房产指数数据分析方法应用于服务器为例进行解释说明。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请实施例提供的一种房产指数数据分析方法的步骤流程示意图。

如图1所示，该房产指数数据分析方法包括步骤S101至步骤S106。

步骤S101、获取第一因子的第一时序数据和第二因子的第二时序数据。

其中，第一因子为符合房地产业要素的房产指数因子，第一因子可以是频率比较低的具有经济周期波动和宏观意义上与房地产行业相关的因子，例如第一因子为各地区商品房的销售价格、销售面积或者销售量增长率，又例如第一因子为各地区二手房交易价格、交易量或者交易增长情况等。第二因子为影响房地产业发展的外部环境因子，例如第二因子为消费者物价指数(Consumer Price Index，CPI)、生产价格指数(Producer PriceIndex，PPI)、钢铁销量、家电出口、住房公积金贷款率、开工面积或者去化周期等。

其中，第一因子的第一时序数据可以是同一房产指数因子统一按时间顺序记录的数据列，在同一数据列中的各个数据是同口径的，具有可比性。第一时序数据可以是时期数，也可以时点数。同理，第二因子的第二时序数据可以是同一外部环境因子统一按时间顺序记录的数据列，可以是时期数，也可以时点数，本实施例不做具体限定。

在一实施例中，服务器从存储器或者云端中获取第一因子的第一时序数据以及第二因子的第二时序数据，或者分别从不同的存储器或者数据库中获取第一因子的第一时序数据以及第二因子的第二时序数据，例如从第一数据库中获取第一因子的第一时序数据，并从第二数据库中获取第二因子的第二时序数据，本实施例对此不做具体限定。

需要说明的是，为进一步保证上述第一时序数据和第二时序数据等相关信息的私密和安全性，上述第一时序数据和第二时序数据等相关信息还可以存储于一区块链的节点中，本申请的技术方案还可适用于添加其他存储于区块链上的数据文件，本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

步骤S102、对第一时序数据和第二时序数据均进行季节性调整和平稳化处理，得到第一目标时序数据和第二目标时序数据。

需要说明的是，相较于以往的房产指数因子的时序数据处理，本实施例对时序数据的处理维度更加全面。通过对第一时序数据和第二时序数据进行季节性调整，纠正第一时序数据和第二时序数据中隐含季节因素的影响，让不同季节的第一时序数据和第二时序数据具有可比性，令经过调整的第一目标时序数据和第二目标时序数据更能反映出实际的变化趋势。通过对第一时序数据和第二时序数据进行平稳化处理，能够更好的提取第一时序数据和第二时序数据中的经济意义，令得到的第一目标时序数据和第二目标时序数据更加平稳，进一步保证数据有效性以及后续房产指数分析预测的准确性。

在一实施例中，如图2所示，步骤S102包括：子步骤S1021至子步骤S1022。

子步骤S1021、通过预设的ARIMA模型分别对第一时序数据和第二时序数据进行处理，得到经过调整的第一时序数据和第二时序数据。

其中，ARIMA模型包括考虑日历、节假日和交易日等的reg ARIMA模型或季节ARIMA模型。通过ARIMA模型分别对第一时序数据和第二时序数据进行预处理，纠正第一时序数据和第二时序数据中隐含季节因素的影响，让不同季节的时序数据具有可比性，令经过调整的第一时序数据和第二时序数据更能反映出实际的变化趋势，从而提高房产指数分析预测的准确性。

子步骤S1022、通过预设的经验模态分解EMD模型分别对经过调整的第一时序数据和第二时序数据进行处理，得到第一目标时序数据和第二目标时序数据。

其中，经验模态分解EMD模型依据经过调整的第一时序数据和第二时序数据自身的时间尺度特征来进行信号分解，无须预先设定任何基函数。示例性的，通过令经过调整的第一时序数据和第二时序数据各自减去极大值与极小值，并分别进行三次样条插值后得到的包络线平均值令第一目标时序数据和第二目标时序数据平稳，从而能够更好的提取第一时序数据和第二时序数据中的经济意义，进一步保证第一目标时序数据和第二目标时序数据的有效性，从而提高房产指数分析预测的准确性。

进一步地，对第一时序数据和第二时序数据均进行季节性调整和平稳化处理，得到第一目标时序数据和第二目标时序数据之后，还包括：分别对第一目标时序数据和第二目标时序数据进行滤波处理，得到过滤的第一时序数据和过滤的第二目标时序；将过滤的第一时序数据作为更新的第一目标时序数据，并将过滤的第二目标时序作为更新的第二目标时序数据。需要说明的是，通过对第一目标时序数据和第二目标时序数据分别进行滤波处理，能够防止第一目标时序数据和第二目标时序数据中的噪声对于后续建模的产生消极的影响，通过本实施例采用的滤波方法分别对于第一目标时序数据和第二目标时序数据中的噪声进行过滤，剔除无效异常数据的影响，进一步保证数据的有效性以及保证房产指数分析预测的准确性。

在一实施例中，对第一时序数据和第二时序数据均进行季节性调整和平稳化处理，得到第一目标时序数据和第二目标时序数据之后，还包括：对第二目标时序数据进行平稳性检验，得到检验结果；若检验结果为第二目标时序数据平稳，则执行计算第一目标时序数据和第二目标时序数据之间的传递熵的步骤；若检验结果为第二目标时序数据不平稳，则通过预设的Barzilai-Borwein梯度算法，确定第一因子与第二因子之间的目标领先指标信息。其中，可采用单位根ADF检验方法对目标时序数据进行平稳性检验，例如假设第二目标时序数据平稳，并计算p值，若p值小于0.05，则拒绝原假设。需要说明的是，经过季节性调整和平稳化处理后，第二目标时序数据不一定平稳，通过对第二目标时序数据进行平稳性检验，并根据检验结果选取不同的实施策略来计算第一因子与第二因子之间的目标领先指标信息，目标领先指标信息更加准确，有利于进一步提高房产指数分析预测的准确性。

通过实验证明，如果第二目标时序序列不平稳，直接使用Barzilai-Borwein(BB)梯度算法确定第一因子与第二因子之间的目标领先指标信息，得到的目标领先指标信息更加准确，但如果第二目标时序数据平稳，可执行步骤S103及其之后的步骤来计算第一因子与第二因子之间的目标领先指标信息，通过离散化计算使得到的目标领先指标信息更加准确。

进一步地，通过预设的Barzilai-Borwein梯度算法，确定第一因子与第二因子之间的第二领先指标信息，包括：分别对第一目标时序数据和第二目标时序数据进行分段线性处理，以确定第一目标时序数据的第一波峰和第一波谷，以及确定第二目标时序数据的第二波峰和第二波谷；从多个第二波峰中确定在第一波谷之前的目标波峰，并计算目标波峰与第一波谷之间的时间差值；并从多个第二波谷中确定在第一波峰之前的目标波谷，并计算目标波谷与第一波峰之间的时间差值；根据目标波峰与第一波谷之间的时间差值、以及目标波谷与第一波峰之间的时间差值，确定第二因子对于第一因子的第一领先期限。

需要说明的是，通过对第一目标时序数据和第二目标时序数据进行分段线性处理，能够得到第一目标时序数据和第二目标时序数据向上或者向下的趋势。以第一目标时序数据为例，对第一目标时序数据进行分段线性处理后，得到多个极值点(包括极大值点和极小值点)，从第一个极值点开始迭代，要求相邻两个极值点方向相反，即如果第一个是波峰，下一个线性化的端点一定要是波谷，如果不是则认为当前端点为拐点，不是真正的波峰或波谷，从而确定第一目标时序数据的第一波峰和第一波谷。相类似的，第二目标时序数据的第二波峰和第二波谷也可通过分段线性处理得到。

需要说明的是，将第一波谷和第二波峰进行匹配，从多个第二波峰中确定在第一波谷之前的目标波峰，即选取在第一波谷之前的多个第二波峰中的目标波峰。其中，也可从多个第二波峰中确定在第一波谷预设时间范围之前的目标波峰，预设时间范围可灵活设置，例如预设时间范围为6个月，即选取在第一波谷之前6个月内的多个第二波峰中的目标波峰。相类似的，可以用同样的方式从多个第二波谷中确定在第一波峰之前的目标波谷。

需要说明的是，对第二目标时序数据而言，用匹配的目标波峰的数量除以第二波谷的总数量得到的值，认为是与第一目标时序数据之间的匹配概率，根据该匹配概率和预设阈值确定第二因子是否对第一因子具有领先作用。示例性的，预设阈值为0.7，如果匹配概率低于0.7则认为两个序列不匹配，即第二因子不具有领先作用；如果匹配概率大于等于0.7认为第一目标时序数据与第二目标时序数据是匹配的，此时认为第二因子对第一因子具有领先作用。通过计算目标波峰与第一波谷之间的时间差值、以及目标波谷与第一波峰之间的时间差值的平均值，确定第二因子对于第一因子的第一领先期限。

在一实施例中，若第二因子对第一因子具有领先作用，则确定第二因子对于第一因子的第一领先期限。第一领先期限为第一目标时序数据与第二目标时序数据中相互匹配的波峰和波谷时间之差的平均值。具体地，根据目标波峰与第一波谷之间的时间差值、以及目标波谷与第一波峰之间的时间差值，确定第二因子对于第一因子的第一领先期限，包括：计算目标波峰与每个第一波谷之间的时间差值，得到多个第一时间差值；计算目标波谷与每个第一波峰之间的时间差值，得到多个第二时间差值；计算多个第一时间差值与多个第二时间差值的平均值，得到第二因子对于第一因子的第一领先期限。

步骤S103、计算第一目标时序数据和第二目标时序数据之间的传递熵，并基于传递熵确定第一因子与第二因子之间的第一领先指标信息。

其中，信息熵用于衡量变量不确定性的大小，考虑的是变量间的信息量传递，而不需要假定变量间具有特定形式的关系，尤其是对于非线性的时间序列数据。第一领先指标信息包括第一因子与第二因子之间的领先滞后关系，例如第二因子对于第一因子的领先期限或者滞后期限。需要说明的是，基于传递熵确定第一因子与第二因子之间的第一领先指标信息，便于捕捉第一目标时序数据和第二目标时序数据之间的非线性的领先关系。把单向的传递熵的概念用在了时间序列数据上，有利于构建净传递比消除量纲的影响，从而提高房产指数分析预测的准确性。

在一实施例中，如图3所示，步骤S103包括：子步骤S1031至子步骤S1034。

子步骤S1031、计算第一目标时序数据对于第二目标时序数据的不确定性大小的改变量，得到第一传递熵。

其中，传递熵的计算公式可以为：

p、q分别表示两个数据分布。

根据现有定义，传递熵表示y的信息对于x的信息的不确定性的改变，本实施例创新地将传递熵的概念应用于时间序列上，捕捉两个目标时序数据之间的非线性的领先关系。因此，若将第一目标时序数据记为Xn，并将第二目标时序数据记为Yn，则Xn-t时刻对Yn有第一传递熵记为H(x->y)，其中，t为时间度量。

子步骤S1032、计算第二目标时序数据对于第一目标时序数据的不确定性大小的改变量，得到第二传递熵。

需要说明的是，为了更好地确定第二目标时序数据与第一目标时序数据之间的领先滞后关系，还需要确定第二目标时序数据对于第一目标时序数据的不确定性大小的改变量，便于排除单向传递熵本身的量纲影响。

因此，若将第一目标时序数据记为Xn，并将第二目标时序数据记为Yn，同时计算了Yn-t时刻到Xn的信息传递，第二传递熵记为H(y->x)。

子步骤S1033、根据第一传递熵和第二传递熵，计算第一目标时序数据和第二目标时序数据之间的目标传递熵。

需要说明的是，通过实验发现存在第一目标时序数据Xn和第二目标时序数据Yn相互影响的情况，为了排除掉不是真正存在领先的第二因子，消除单向传递熵的量纲影响，需要根据第一传递熵和第二传递熵，计算目标传递熵。

在一实施例中，根据第一传递熵和第二传递熵，确定第二因子与第一因子之间的领先滞后关系。计算第一传递熵与第二传递熵之间的差值H(x->y)-H(y->x)，若该差值为正值，则说明第二因子对于第一因子存在领先关系，若该差值为负值，则说明第二因子对于第一因子存在滞后关系。

在一实施例中，目标传递熵的计算公式为：

其中，目标传递熵为TE，第一传递熵为H1，第二传递熵为H2。φ为了防止分母为零，可取0.00001，abs(H1)为第一传递熵H1的绝对值，abs(H2)为第二传递熵H2的绝对值。通过计算第一目标时序数据和第二目标时序数据之间的目标传递熵，能够消除单向传递熵本身的量纲影响，便于准确地确定第二因子对于第一因子的第一领先期限，从而提高房产指数分析预测的准确性，从而有利于准确且有效地实施房地产相关调控。

子步骤S1034、基于目标传递熵，确定第二因子对于第一因子的第一领先期限。

在一实施例中，确定目标传递熵是否大于预设净传递比值，目标传递熵的值域为(0，1)，根据该目标传递熵和预设净传递比值确定第二因子是否对第一因子具有领先作用。可选的，预设净传递比值为0.5。如果目标传递熵低于预设净传递比值，则第二因子不具有领先作用；如果目标传递熵大于等于预设净传递比值，则第二因子对第一因子具有领先作用。

在一实施例中，第一传递熵H(x->y)包括Xn-t时刻对Yn的信息传递，则第一传递熵有多个，第二传递熵H(y->x)包括Yn-t时刻到Xn的信息传递，则第二传递熵有多个，其中，t为时间度量，例如日、周、月或者年。同理可得，目标传递熵有多个。选取最大的目标传递熵对应的第一目标传递熵或第二目标传递熵，并确定第一目标传递熵或第二目标传递熵对应的时间序列差值，得到第二因子对于第一因子的第一领先期限，其中，该时间序列差值为第一因子的第一时序数据以及第二因子的第二时序数据之间的时间差值。

示例性的，时间度量t为月，第一时序数据包括2020年1月至12月的房产指数因子的时间序列，第二时序数据包括2020年1月至12月的外部环境因子的时间序列。最大的目标传递熵为0.8，其对应的第一目标传递熵是使用2020年6月的第一时序数据与2020年10月的第二时序数据计算得到的，即第一目标传递熵对应的时间序列差值为2020年10月与2020年6月的时间差值，得到外部环境因子对于房产指数因子的时间差值为4个月，即第二因子对于第一因子的第一领先期限为4个月。

步骤S104、确定第一目标时序数据和第二目标时序数据之间的线性关系，并基于线性关系确定第一因子与第二因子之间的第二领先指标信息。

其中，第二领先指标信息包括第一因子与第二因子之间的领先滞后关系，例如第二因子对于第一因子的领先期限或者滞后期限。需要说明的是，由于前述计算第一目标时序数据和第二目标时序数据之间的传递熵对数据进行了离散，对线性关系的捕捉稍弱于线性相关性，第一领先指标信息的输出结果偏向于包含较多的非线性相关因子。因此，确定第一目标时序数据和第二目标时序数据之间的线性关系，并基于线性关系确定第一因子与第二因子之间的第二领先指标信息，有利于全面整合第一目标时序数据和第二目标时序数据之间的线性关系和非线性关系，提高房产指数分析和预测的准确性。

在一实施例中，基于预设的格兰杰因果检验算法，计算第一目标时序数据和第二目标时序数据之间的因果关系，并基于因果关系确定第二因子对于第一因子的第二领先期。需要说明的是，通过格兰杰因果检验算法研究第一目标时序数据和第二目标时序数据的历史值对于预测值的准确性，得到第一目标时序数据和第二目标时序数据之间的统计学因果关系，并基于统计学因果关系确定第二因子对于第一因子的第二领先期，补充了第一目标时序数据和第二目标时序数据之间的非线性的相关关系，能够提高房产指数分析和预测的准确性。

其中，格兰杰因果检验的回归公式为：

其中，u_1t为白噪音，α、β为设定系数，y为第一因子的第一目标时序数据，x为第二因子的第二目标时序数据。

在一实施例中，基于预设的滞后相关系数算法，计算第一目标时序数据和第二目标时序数据之间的多个滞后项系数，并基于多个滞后项系数，确定第二因子对于第一因子的第二领先期。需要说明的是，可从多个滞后项系数中选取最大的滞后项系数作为第二因子对于第一因子的领先期，或者计算多个滞后项系数的平均值，并将多个滞后项系数的平均值作为领先期。

其中，滞后相关系数算法的计算公式为：

其中，r_l为滞后项系数，y为第一因子的第一目标时序数据，x为第二因子的第二目标时序数据。

为第一目标时序数据的平均值，

为第二目标时序数据的平均值。

在一实施例中，基于预设的格兰杰因果检验算法和滞后相关系数算法对第一目标时序数据和第二目标时序数据进行处理，以确定第二因子对于第一因子的第二领先期。可以理解的是，也可以采用本领域内的其他线性相关的算法或者模型来计算第一因子与第二因子之间的第二领先指标信息，本实施例不做具体限定。

步骤S105、根据第一领先指标信息和第二领先指标信息，确定第一因子与第二因子之间的目标领先指标信息。

其中，目标领先指标信息包括第一因子与第二因子之间的领先滞后关系，例如第二因子对于第一因子的领先期限或者滞后期限。需要说明的是，得到第一领先指标信息的处理过程进行了离散，第一领先指标信息偏向于包含较多的非线性相关因子，对非线性关系的捕捉较强。得到第二领先指标信息的处理过程强调对线性相关因子的捕捉，倾向于筛选出很多线性相关的因子，本申请最终的目标是筛选出同时具有线性关系和非线性关系这两种性质的因子，所以可根据第一领先指标信息和第二领先指标信息，确定目标领先指标信息，能够极大地提高房产指数分析和预测的准确性。

在一实施例中，对第一领先指标信息和第二领先指标信息取交集，得到第一因子与第二因子之间的目标领先指标信息。例如，第一领先指标信息为第二因子对于第一因子的第一领先期限为4个月，第二领先指标信息为第二因子对于第一因子的第二领先期限为2个月，对该第一领先指标信息和第二领先指标信息取交集，则目标领先指标信息为第二因子对于第一因子的领先期限为2个月至4个月。

在一实施例中，第一领先指标信息和第二领先指标信息均包括第二因子与第一因子之间的领先滞后关系的时间范围，可根据第一领先指标信息和第二领先指标信息，确定第二因子对于第一因子的领先期限。例如，第一领先指标信息为第二因子对于第一因子的第一领先期限为1-4个月，第二领先指标信息为第二因子对于第一因子的第二领先期限为0-2个月，对该第一领先指标信息和第二领先指标信息取交集，则目标领先指标信息为第二因子对于第一因子的领先期限为1-2个月。本实施例不做具体限定。

实践证明，第一因子与第二因子之间的目标领先指标信息的计算方法越多，该计算方法包括计算传递熵算法、交叉熵算法等线性相关算法、以及格兰杰因果检验算法、滞后相关系数算法等非线性相关算法，第一领先指标信息和第二领先指标信息的公共交集越小，噪声的影响被扩大，目标领先指标期的范围越小。

步骤S106、获取第二因子的当前时序数据，并基于目标领先指标信息和当前时序数据，预测第一因子的目标时序数据。

需要说明的是，目标领先指标信息包括第二因子对于第一因子的领先期限，基于第二因子对于第一因子的领先期限和第二因子的当前时序数据，可以预测在第二因子对于第一因子的领先期限之后的第一因子的目标时序数据。从而能够基于该目标时序数据针对性地实施房地产调控，保证房地产行业能够按照预期发展。

示例性的，第一因子为商品房的建筑面积，第二因子为钢铁销量，第二因子的当前时序数据包括2021年1月份的钢铁销量数据，第二因子对于第一因子的领先期限为3个月。那么，根据2021年1月份的钢铁销量数据，基于神经网络组成的预测模型，能够预测3个月后的商品房的建筑面积。

在一实施例中，第二因子为多个，符合房地产业要素的房产指数因子是由多个影响房地产业发展的外部环境因子密切相关。从多个第二因子中筛选出对第一因子具有领先作用的多个目标因子；获取每个目标因子的当前时序数据，并基于每个目标因子的目标领先指标信息和每个目标因子的当前时序数据，共同预测第一因子的目标时序数据。需要说明的是，通过对第一因子具有领先作用的多个目标因子，共同预测第一因子的目标时序数据，能够极大提高房产指数分析预测的准确性，从而有利于准确且有效地实施房地产相关调控。

示例性的，第二因子有500个，确定每个第二因子对第一因子的领先期限是否大于或等于预设领先期限；保留大于或等于预设领先期限的第二因子，筛选余下100个左右。将保留的该第二因子输入至针对第一因子而构建的预测模型，每个第二因子的取值包括每个第二因子对第一因子的领先期限和每个第二因子的当前时序数据，即可实现对房产指数的预测，最终的预测效果显著优于当前的房产指数预测模型。

上述实施例提供的房产指数数据分析方法，通过获取第一因子的第一时序数据和第二因子的第二时序数据，第一因子为符合房地产业要素的房产指数因子；对第一时序数据和第二时序数据均进行季节性调整和平稳化处理，得到第一目标时序数据和第二目标时序数据；计算第一目标时序数据和第二目标时序数据之间的传递熵，并基于传递熵确定第一因子与第二因子之间的第一领先指标信息；确定第一目标时序数据和第二目标时序数据之间的线性关系，并基于线性关系确定第一因子与第二因子之间的第二领先指标信息；根据第一领先指标信息和第二领先指标信息，确定第一因子与第二因子之间的目标领先指标信息；获取第二因子的当前时序数据，并基于目标领先指标信息和当前时序数据，预测第一因子的目标时序数据。通过目标领先指标信息能够较为准确地实现房产指数的相关预测，有利于房地产行业预期的准确性，有助于准确有效地实施房地产业相关调控。

请参照图4，图4为本申请实施例提供的一种房产指数数据分析装置的示意性框图。

如图4所示，该房产指数数据分析装置200，包括：

获取模块201，用于获取第一因子的第一时序数据和第二因子的第二时序数据，所述第一因子为符合房地产业要素的房产指数因子，所述第二因子为影响房地产业发展的外部环境因子；

处理模块202，用于对所述第一时序数据和第二时序数据均进行季节性调整和平稳化处理，得到第一目标时序数据和第二目标时序数据；

第一确定模块203，用于计算所述第一目标时序数据和第二目标时序数据之间的传递熵，并基于所述传递熵确定所述第一因子与第二因子之间的第一领先指标信息；

第二确定模块204，用于确定所述第一目标时序数据和第二目标时序数据之间的线性关系，并基于所述线性关系确定所述第一因子与第二因子之间的第二领先指标信息；

第三确定模块205，用于根据所述第一领先指标信息和所述第二领先指标信息，确定所述第一因子与第二因子之间的目标领先指标信息；

预测模块206，用于获取所述第二因子的当前时序数据，并基于所述目标领先指标信息和所述当前时序数据，预测所述第一因子的目标时序数据。

在一个实施例中，如图5所示，第一确定模块203包括：

第一计算子模块2031，用于计算所述第一目标时序数据对于所述第二目标时序数据的不确定性大小的改变量，得到第一传递熵；

第二计算子模块2032，用于计算所述第二目标时序数据对于所述第一目标时序数据的不确定性大小的改变量，得到第二传递熵；

第三计算子模块2033，用于根据所述第一传递熵和所述第二传递熵，计算所述第一目标时序数据和第二目标时序数据之间的目标传递熵；

确定子模块2033，用于基于所述目标传递熵，确定所述第二因子对于所述第一因子的第一领先期限。

在一个实施例中，第二确定模块204还用于：

基于预设的格兰杰因果检验算法，计算所述第一目标时序数据和第二目标时序数据之间的因果关系，并基于所述因果关系确定所述第二因子对于所述第一因子的第二领先期；或者

基于预设的滞后相关系数算法，计算所述第一目标时序数据和第二目标时序数据之间的多个滞后项系数，并基于所述多个滞后项系数确定所述第二因子对于所述第一因子的第二领先期。

在一个实施例中，处理模块202还用于：

对所述第二目标时序数据进行平稳性检验，得到检验结果；

若检验结果为第二目标时序数据平稳，则执行所述计算所述第一目标时序数据和第二目标时序数据之间的传递熵的步骤；

若检验结果为第二目标时序数据不平稳，则通过预设的Barzilai-Borwein梯度算法，确定所述第一因子与第二因子之间的目标领先指标信息。

在一个实施例中，处理模块202还用于：

分别对所述第一目标时序数据和第二目标时序数据进行分段线性处理，以确定所述第一目标时序数据的第一波峰和第一波谷，以及确定所述第二目标时序数据的第二波峰和第二波谷；

从多个所述第二波峰中确定在所述第一波谷之前的目标波峰，并计算所述目标波峰与所述第一波谷之间的时间差值；

并从多个所述第二波谷中确定在所述第一波峰之前的所述目标波谷，并计算所述目标波谷与所述第一波峰之间的时间差值；

根据所述目标波峰与所述第一波谷之间的时间差值、以及所述目标波谷与所述第一波峰之间的时间差值，确定所述第二因子对于所述第一因子的目标领先期限。

在一个实施例中，如图6所示，处理模块202包括：

第一处理子模块2021，用于通过预设的ARIMA模型分别对所述第一时序数据和第二时序数据进行处理，得到经过调整的所述第一时序数据和所述第二时序数据；

第二处理子模块2022，用于通过预设的经验模态分解EMD模型分别对经过调整的所述第一时序数据和所述第二时序数据进行处理，得到第一目标时序数据和第二目标时序数据。

在一个实施例中，处理模块202还用于：

分别对所述第一目标时序数据和第二目标时序数据进行滤波处理，得到过滤的第一时序数据和过滤的第二目标时序；

将所述过滤的第一时序数据作为更新的第一目标时序数据，并将所述过滤的第二目标时序作为更新的第二目标时序数据。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块及单元的具体工作过程，可以参考前述房产指数数据分析方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7，图7为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器或终端设备。

如图7所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括存储介质和内存储器。

存储介质可存储操作系统和计算机程序。所述存储介质可以是易失性的，也可以是非易失性的。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种房产指数数据分析方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种房产指数数据分析方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

在一个实施例中，所述处理器在实现所述计算所述第一目标时序数据和第二目标时序数据之间的传递熵，并基于所述传递熵确定所述第一因子与第二因子之间的第一领先指标信息时，用于实现：

计算所述第一目标时序数据对于所述第二目标时序数据的不确定性大小的改变量，得到第一传递熵；

计算所述第二目标时序数据对于所述第一目标时序数据的不确定性大小的改变量，得到第二传递熵；

根据所述第一传递熵和所述第二传递熵，计算所述第一目标时序数据和第二目标时序数据之间的目标传递熵；

基于所述目标传递熵，确定所述第二因子对于所述第一因子的第一领先期限。

在一个实施例中，所述处理器在实现所述确定所述第一目标时序数据和第二目标时序数据之间的线性关系，并基于所述线性关系确定所述第一因子与第二因子之间的第二领先指标信息时，用于实现：

在一个实施例中，所述处理器在实现所述对所述第一时序数据和第二时序数据均进行季节性调整和平稳化处理，得到第一目标时序数据和第二目标时序数据之后，还用于实现：

对所述第二目标时序数据进行平稳性检验，得到检验结果；

在一个实施例中，所述处理器在实现所述通过预设的Barzilai-Borwein梯度算法，确定所述第一因子与第二因子之间的目标领先指标信息时，用于实现：

在一个实施例中，所述处理器在实现所述对所述第一时序数据和第二时序数据均进行季节性调整和平稳化处理，得到第一目标时序数据和第二目标时序数据时，用于实现：

通过预设的ARIMA模型分别对所述第一时序数据和第二时序数据进行处理，得到经过调整的所述第一时序数据和所述第二时序数据；

通过预设的经验模态分解EMD模型分别对经过调整的所述第一时序数据和所述第二时序数据进行处理，得到第一目标时序数据和第二目标时序数据。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述计算机设备的具体工作过程，可以参考前述房产指数数据分析方法实施例中的对应过程，在此不再赘述。

本实施例通过获取第一因子的第一时序数据和第二因子的第二时序数据，第一因子为符合房地产业要素的房产指数因子；对第一时序数据和第二时序数据均进行季节性调整和平稳化处理，得到第一目标时序数据和第二目标时序数据；计算第一目标时序数据和第二目标时序数据之间的传递熵，并基于传递熵确定第一因子与第二因子之间的第一领先指标信息；确定第一目标时序数据和第二目标时序数据之间的线性关系，并基于线性关系确定第一因子与第二因子之间的第二领先指标信息；根据第一领先指标信息和第二领先指标信息，确定第一因子与第二因子之间的目标领先指标信息；获取第二因子的当前时序数据，并基于目标领先指标信息和当前时序数据，预测第一因子的目标时序数据。通过目标领先指标信息能够较为准确地实现房产指数的相关预测，有利于房地产行业预期的准确性，有助于准确有效地实施房地产业相关调控。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请房产指数数据分析方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种房产指数数据分析方法，其特征在于，包括：

2.如权利要求1所述的房产指数数据分析方法，其特征在于，所述计算所述第一目标时序数据和第二目标时序数据之间的传递熵，并基于所述传递熵确定所述第一因子与第二因子之间的第一领先指标信息，包括：

3.如权利要求1所述的房产指数数据分析方法，其特征在于，所述确定所述第一目标时序数据和第二目标时序数据之间的线性关系，并基于所述线性关系确定所述第一因子与第二因子之间的第二领先指标信息，包括：

4.如权利要求1-3中任一项所述的房产指数数据分析方法，其特征在于，所述对所述第一时序数据和第二时序数据均进行季节性调整和平稳化处理，得到第一目标时序数据和第二目标时序数据之后，还包括：

对所述第二目标时序数据进行平稳性检验，得到检验结果；

5.如权利要求4所述的房产指数数据分析方法，其特征在于，所述通过预设的Barzilai-Borwein梯度算法，确定所述第一因子与第二因子之间的目标领先指标信息，包括：

6.如权利要求1-3中任一项所述的房产指数数据分析方法，其特征在于，所述对所述第一时序数据和第二时序数据均进行季节性调整和平稳化处理，得到第一目标时序数据和第二目标时序数据，包括：

7.如权利要求6所述的房产指数数据分析方法，其特征在于，所述对所述第一时序数据和第二时序数据均进行季节性调整和平稳化处理，得到第一目标时序数据和第二目标时序数据之后，还包括：

8.一种房产指数数据分析装置，其特征在于，所述房产指数数据分析装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至7中任一项所述的房产指数数据分析方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的房产指数数据分析方法的步骤。