CN112819256A

CN112819256A - 一种基于注意力机制的卷积时序房价预测方法

Info

Publication number: CN112819256A
Application number: CN202110250804.7A
Authority: CN
Inventors: 刘歆; 钟明; 姜美兰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2021-05-18

Abstract

本发明涉及一种基于注意力机制的卷积时序房价预测方法，属于计算机领域。首先对房价数据集进行预处理并得到由房屋价格相关多维因素按时间构成的序列。考虑到影响房子价格有多维相关因素，对房屋价格趋势的波动和影响，使基于注意力机制的用卷积时序神经网络来对房价进行预测，其中采用了一维卷积神经网络对多维相关因素的特征进行处理，得到进一步特征提取和降维后的多维特征向量，再将特征向量输入到长短期记忆模型中学习特征之间的长期整体趋势和短期局部依赖信息。本发明结合了房价时序预测在长期整体趋势和短期局部的信息，降低了房价预测的方差，提高了多维时序数据房价预测方法的泛化能力。

Description

一种基于注意力机制的卷积时序房价预测方法

技术领域

本发明属于计算机领域，涉及一种基于注意力机制的卷积时序房价预测方法。

背景技术

目前，房价数据集来源于房价网站中，而这些数据一般不易获取，需要通过个人进行收集得到，数据集的质量受到多种因素影响。例如，收集到的真实数据集可能包含的特征数量少，缺失率大，包含的信息量少，而现有的房价预测方法不能从有限的数据集中发现更多有用时序信息。因此，在有限的数据集中设计一种能够从时间序列上有效提取房子时序信息并进行预测的方法非常有必要。

现有的主流房价预测方法多考虑房子的特征和房价之间的关系。如有研究者使用机器学习模型，如随机森林回归，通过集成学习的思想将多颗决策树集成的一种算法，它的基本单元是决策树，在实际的房价预测中通过决策树对房价特征的判断分支来对房价预测。随机森林回归在实际预测中受到决策树颗数的影响，能处理很高维度的数据，并且无需做特征选择。而在时序预测方面常用的ARIMA模型从一维的房价数据进行预测，能够从整体的趋势上预测房价。

但是，以上方法还存在以下的问题：

(1)一些机器学习方法如随机森林等模型没有考虑到时间维度上房价的变化情况，而且基于多个决策数的集成模型可能出现过拟合的情况，即在训练集上预测结果表现很好，而在测试集上预测效果表现很差。

(2)一些时序预测模型如ARIMA只能从房价这一个维度考虑房价的未来的趋势，随着时间的发展，这些时序预测模型的累计误差越来越大，且只能对房价长期的整体趋势进行预测，局部价格的变化并不能很好的拟合，从而导致预测精度降低。因此，本发明提出一种基于注意力机制的卷积时序房价预测方法。

发明内容

有鉴于此，本发明的目的在于提供一种基于注意力机制的卷积时序房价预测方法。整个模型考虑从房子的多维时序特征对房价进行预测，它使用了一维卷积神经网络来自动提取时序特征局部信息得到特征向量，并将特征向量送入长短记忆网络中学习时序特征长期与短期局部依赖的信息。本研究在卷积时序预测模型中引入了注意力机制来特别关注房价时序预测的中时间步的权重，注意力机制层通过将时间步长和输入特征进行对换，使用全连接层计算每个时间步长的权重，将得到的权重与之前输入每个时间步长的特征进行相乘，因此赋予了每个时间步长权重，最后再通过全连接层获得房价的预测结果。

为达到上述目的，本发明提供如下技术方案：

一种基于注意力机制的卷积时序房价预测方法，该方法包括以下步骤：

S1：房价数据集预处理；

S2：训练基于注意力机制的卷积时序房价预测模型，并得到预测结果。

可选的，所述S1具体步骤如下：

S11：对已有的房价数据集进行分析，房价数据集中的特征包括经纬度、房间个数、附近有无地铁、装修条件和建筑类型；所述特征和单价的关联度通过皮尔森相关系数与先验知识进行特征筛选；

S12：通过Python相关的第三方Pandas库对筛选后的特征进行分析，查看每个特征的缺失率，对于缺失率大于50％的特征进行直接删除，对于缺失率低于50％特征进行平均值填充；

S13：根据箱型图和散点图判断特征是否有离群点，若有则进行删除；离群点表示异常值；

S14：对不能直接使用的特征，进行转换或者组合到新的特征；

S15：将类别型特征进行处理，二值类别特征用0或1表示，多值类别特征使用one-hot编码；

S16：对于连续型数值特征，通过最大最小归一化方式转换为无量纲的纯数值。

可选的，所述S2具体步骤如下：

S21：将S15已经处理好的数据集进行归一化处理，保存为多维时序数据集dataset1；

S22：将S21中的多维时序数据集dataset1使用Python第三方库Numpy进行输入数据的形状转换，基于注意力机制的卷积时序房价预测模型输入数据集的形状改为[样本总数，时间步长，特征数]；

S23：将S22得到的多维时序数据集按照某个时间点进行训练集和测试集划分；

S24：构造基于注意力机制的卷积时序房价预测模型；

基于注意力机制的卷积时序房价预测模型是由卷积神经网络与长短期记忆模型组成，并在长短期记忆模型之后引入了注意力机制，然后经过卷积神经网络得到当前的特征向量；

卷积神经网络包括输入层、卷积层、ReLu激活层和平均池化层；

设在房价时序预测中，x_i∈{x₁，x₂，…，x_n}是模型一个时间步长内的多个待输入特征向量，n是特征的总数目，下列公式(1)的结果是从每个一维卷积扫过特征输出特征向量：

其中，σ是激活函数，特征向量

是l^th层卷积计算的结果，

是某一个输入的特征，w是卷积核的权重，m是过滤器的索引值，b是特征映射的偏置项；

S25：将S24得到时序特征向量

输入长短期记忆模型学习特征向量长期与短期局部的信息；

长短期记忆模型通过输入门、遗忘门和输出门有选择性的让信息通过，将之前时刻的信息有选择的保存在当前时刻的细胞态中C_t，具体的表示如公式(2)所示：

其中细胞态中C_t表示长期记忆，遗忘门f_t表示对之前的信息进行部分舍弃，C_t-1表示上个时刻的长期记忆，输入门i_t表示当前时刻的输入特征，态

表示模型学习到时序数据待存入细胞态C_t的新信息，由当前时刻的输入特征和上一个时刻的短期记忆h_t-1的函数组成；长短期记忆模型当前时刻的输出用h_t表示，h_t的数学定义如公式(3)所示：

h_t＝o_t*tanh(C_t)#(3)

其中o_t表示输出门，C_t表示上一个时刻的短期记忆的函数。

在长短记忆模型中引入注意力机制来注重时间步长的权重，注意力机制层是通过将时间步长和输入特征进行对换，使用softmax激活函数对全连接层计算每个时间步长的权重，每个时间步长的权重计算过程如公式(4)所示：

α_i＝softmax(s(h_t，i))#(4)

其中α_i表示在t时刻内的第i个时刻的特征与在[0，t]所有时刻的注意力分布，s(h_t，i)表示打分函数。将得到的权重与之前输入每个时间步长的特征向量相乘，输入的每个时间步长的特征就被赋予不同的权重，具体表示为公式(5)所示：

公式(5)表示每一个时刻的权重和之前所对应时刻输入的向量进行加权求和，每一个时间步的特征在网络中学习时就受到不同的关注；

S26：通过全连接层获得由多维相关因素得到的价格预测结果。全连接层得到基于注意力机制的卷积时序房价预测模型房价的输出，通过多轮迭代不断训练引入注意力机制的卷积时序预测模型，直至损失函数不再变化。预测时将多维时序特征的测试集输入到训练完成的基于注意力机制的卷积时序房价预测模型中，得到测试集上房价预测的结果。

可选的，在所述卷积层中，使用池化操作。

一种处理装置，包括处理器和存储装置，所述处理器，适用于执行各条程序，所述存储装置，适用于存储多条程序，所述程序适用于由处理器加载并执行以实现所述方法。

本发明的有益效果在于：

(1)本发明不仅能关注房价长期的发展趋势，更能关注房价局部变化的情况。通过一种基于注意力机制的卷积时序房价预测方法关的多维时序特征的信息进行预测，它使用了一维卷积神经网络网络来自动提取多维时序特征的局部信息得到特征向量，并将特征向量送入长短记忆网络中学习时序特征长短期依赖的信息，降低预测方差，提高房价预测精度。

(2)本发明还在长短期记忆模型中引入了注意力机制对某些关键时间点赋予更高的权重，因此它能更好的对局部房价变化拐点进行拟合。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明的流程示意图；

图2为本发明结构示意图；

图3为本发明的效果示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图3，为一种基于注意力机制的卷积时序房价预测方法。

实施例1

本发明实施例提供一种基于注意力机制的卷积时序房价预测方法，如图1和图2所示。为了更好说明此方法的步骤，我们选取了2010年到2018年北京房价数据集作为示例，进一步地，所述数据集特征包括获取数据的链接、交易ID、纬度坐标、社区ID、交易时间、市场活跃日、关注交易的人数、单价、房屋的面积、客厅数、卧室数、厨房数量、浴室数量、楼层、建筑类型、装修条件、建筑结构、建造时间、是否有电梯和所在区域。

包括如下步骤：

步骤S1，房价数据集预处理；

所述S1具体步骤如下：

S11：对已有的房价数据集进行分析，开始预处理数据集，通过皮尔森相关系数与先验知识确定特征之间的关系，删除与房价没有关联的特征；

示例性地，对于数据集中房价获取的链接可以认为与房价并未相关性，可以直接删除，或者使用皮尔森相关系数来确定特征之间的相关性，对于相关系数在-0.1和0.1的特征直接删除。本申请对于如何判断特征有无意义不做限制，可以根据具体情况设置。

S12：通过Python相关的第三方Pandas库对删除后的特征进行分析，查看每个特征的缺失率，对于缺失率大于50％的特征进行直接删除，对于缺失率低于50％特征进行平均值填充；

示例性地，对于房子单价这个特征，从图中确定大部分房价的阈值，若是有单价超过或者低于这个阈值就进行删除。

S14：对数据进行分析，将特征进行组合得到新的特征；

示例性地，对于经纬度的转换可以引入北京市中心天安门的经纬度，通过经纬度计算房子距离到城市中心的距离，得到了新的特征。

S15：将特征中离散值(即类别特征)进行处理，二值类别特征可用0，1表示，多值类别特征使用one-hot编码；

示例性地，对于有无这地铁这类二值离散特征，可以用0表示无，1表示有；对于装修条件或者其他的多值离散特征可以用(001，010，011…)这些编码方式进行表示。

S2：训练基于注意力机制的卷积时序房价预测模型，并得到预测结果；

步骤S2，房价数据集预处理

S21：在S15后已经处理好的数据集进行归一化处理，保存为一份多维时序数据集dataset1；

在本申请实施例中在对数据集进行归一化处理时，将原始数据化的方法转换到[0,1]的范围，该方法实现对原始数据的等比例缩放，通过利用变量取值的最大值和最小值(或者最大值)将原始数据转换为界于某一特定范围的数据，从而消除量纲和数量级影响，改变变量在分析中的权重来解决不同度量的问题。

在本申请实施例中，样本总数是根据数据集中的总的维度来确定的，时间步长可以是用前10天或20天的历史数据来预测第11天或21天的房价，因此在具体实施过程中可根据具体情况进行设置，特征数表示经过处理之后多维特征的具体数量。

示例性地，可以根据具体之前2010年到2017年的数据集作为训练集，2017年到2018年的数据集作为测试，在此步骤的时间的需要具体设置为步骤S23中设置的分隔时间点。

S24：构造基于注意力机制的卷积时序房价预测模型；

基于注意力机制的卷积时序房价预测模型是由卷积神经网络与长短期记忆模型组成，并在长短期记忆模型之后引入了注意力机制。卷积神经网络是由输入层，卷积层，ReLu激活层，平均池化层，经过卷积神经网络之后得到当前的特征向量。假设在房价时序预测中有这样的表示，x_i∈{x₁，x₂，…，x_n}是模型一个时间步长内的多个待输入特征向量，n是特征的总数目，下列公式1的结果是从每个一维卷积扫过特征输出特征向量：

其中，σ是激活函数，特征向量

是l^th层卷积计算的结果，

是某一个输入的特征，w是卷积核的权重，m是过滤器的索引值，b是特征映射的偏置项。

可选的，在卷积层可以使用池化操作。

示例性地，可以把数据的输入设置为(100，30，20)表示有100个数据，时间步长为30天，输入特征维度为20。在构造基于注意力机制的卷积时序房价预测模型时，卷积神经网络中的卷积层是由一维的64个，大小为3*20的数量，步长为1卷积核构成，按照时间维度进行卷积可以得到(70，28，64)的特征向量。此过程中未选择池化层。本领域技术人员也可以根据实际需要选取其他一维卷积神经变种进行时序特征向量提取，参数可以根据具体情况设置，在此不一一列举。

S25：将S24得到时序特征向量

输入长短期记忆模型学习特征向量长期与短期局部的信息。长短期记忆模型通过输入门，遗忘门和输出门有选择性的让信息通过，也能够将之前时刻的信息有选择的保存在当前时刻的细胞态中C_t，具体的表示如公式2所示：

表示了模型学习到时序数据待存入细胞态C_t的新信息，它是由当前时刻的输入特征和上一个时刻的短期记忆h_t-1的函数组成。。长短期记忆模型当前时刻的输出可以用h_t表示，h_t的数学定义如公式3所示：

h_t＝o_t*tanh(C_t)#(3)

其中o_t表示输出门，C_t表示上一个时刻的短期记忆的函数。

在长短记忆模型后本发明引入了注意力机制来注重时间步长的权重，注意力机制层是通过将时间步长和输入特征进行对换，使用softmax激活函数对全连接层计算每个时间步长的权重，权重的计算过程如公式4所示：

α_i＝softmax(s(h_t，i))#(4)

其中α_i表示在t时刻内的第i个时刻的特征与在[0，t]所有时刻的注意力分布，s(h_t，i)表示打分函数。将得到的权重与之前输入每个时间步长的特征向量相乘，输入的每个时间步长的特征就被赋予了不同的权重，具体表示为公式5所示：

公式5表示了每一个时刻的权重和之前所对应时刻输入的向量进行加权求和。因此每一个时间步的特征在网络中学习时就受到了不同的关注。

示例性地，将得到的时序特征向量(70，28，64)送四层分别包含128个神经元的长短期记忆模型，至此从长短记忆模型中得的特征向量可以表示为(70，28，128)。在注意力机制中将特征向量中的第二，第三维度反转为(70，128，64)，再经过一个全连接层对时间步长计算得分并用softmax激活函数算出每个时刻的权重w_t,此使它的维度仍为(70，128，64)。再将特征向量中的第二，第三维度反转为注意力机制最初的输入(70，28，128)得到每一个时间步长的特征权重，再将此权重w_t与最初从长短期记忆模型输出的(70，128，64)相乘，即将每一个时间步长乘以它所对应的权重。

S26：最后通过全连接层获得由多维相关因素得到的价格预测结果。全连接层得到基于注意力机制的卷积时序房价预测模型房价的输出，至此可以通过多轮迭代不断训练引入了注意力机制的卷积时序预测模型，直至损失函数不再变化。预测时只需要将多维时序特征的测试集输入到训练完成的基于注意力机制的卷积时序房价预测模型中，即可得到测试集上房价预测的结果。

示例性地，在训练过程中可设置Dropout为0.2防止过拟合，设置batch_size为64，epochs为200轮，损失函数可采用均方误差。本领域技术人员也可以根据实际需要选取其他卷积神经网络和长短期记忆模型的变种网络进行时序预测，参数可以根据具体情况设置，在此不一一列举。

实施例2

本发明实施例提供一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并实现上述的一种基于注意力机制的卷积时序房价预测方法。

实施例3

本发明实施例提供一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的一种基于注意力机制的卷积时序房价预测方法。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于注意力机制的卷积时序房价预测方法，其特征在于：该方法包括以下步骤：

S1：房价数据集预处理；

2.根据权利要求1所述的一种基于注意力机制的卷积时序房价预测方法，其特征在于：所述S1具体步骤如下：

3.根据权利要求2所述的一种基于注意力机制的卷积时序房价预测方法，其特征在于：所述S2具体步骤如下：

S24：构造基于注意力机制的卷积时序房价预测模型；

其中，σ是激活函数，特征向量

是l^th层卷积计算的结果，

S25：将S24得到时序特征向量

输入长短期记忆模型学习特征向量长期与短期局部的信息；

h_t＝o_t*tanh(C_t)#(3)

其中o_t表示输出门，C_t表示上一个时刻的短期记忆的函数；

α_i＝softmax(s(h_t，i))#(4)

其中α_i表示在t时刻内的第i个时刻的特征与在[0，t]所有时刻的注意力分布，s(h_t，i)表示打分函数；将得到的权重与之前输入每个时间步长的特征向量相乘，输入的每个时间步长的特征就被赋予不同的权重，具体表示为公式(5)所示：

S26：通过全连接层获得由多维相关因素得到的价格预测结果；全连接层得到基于注意力机制的卷积时序房价预测模型房价的输出，通过多轮迭代不断训练引入注意力机制的卷积时序预测模型，直至损失函数不再变化；预测时将多维时序特征的测试集输入到训练完成的基于注意力机制的卷积时序房价预测模型中，得到测试集上房价预测的结果。

4.根据权利要求3所述的一种基于注意力机制的卷积时序房价预测方法，其特征在于：在所述卷积层中，使用池化操作。

5.一种处理装置，包括处理器和存储装置，所述处理器，适用于执行各条程序，所述存储装置，适用于存储多条程序，其特征在于：

所述程序适用于由处理器加载并执行以实现权利要求1～4中任一项所述方法。