CN110059851A

CN110059851A - 基于深度学习的预测数据变化的方法、装置和计算机设备

Info

Publication number: CN110059851A
Application number: CN201910175768.5A
Authority: CN
Inventors: 吴壮伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2019-07-26

Abstract

本申请揭示了一种基于深度学习的预测数据变化的方法、装置和计算机设备，其中方法包括：根据用户端发送的预测请求，获取指定网站上发布的文章；判断所述文章中是否有与所述指定区域对应的区域字段，所述区域字段是表示指定区域的地理位置的信息字段；若是，则通过TF‑IDF矩阵抽取所述文章中的关键词；将所述关键词输入到预设的词向量模型，得到各个关键词对应的词向量；将所述词向量输入到经训练后得到的目标属性值预测模型后，输出所述指定区域的目标属性值的第一涨幅系数。本申请自动根据房地产相关的网站上读取文章，并根据文章非常客观的分析出房价的涨幅趋势。

Description

基于深度学习的预测数据变化的方法、装置和计算机设备

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种基于深度学习的预测数据变化的方法、装置和计算机设备。

背景技术

房地产的价格是实时变动的，变动情况会因为一些时事热点而涨或跌。

目前媒体信息非常发达，任何有关房产信息的媒体文章都会发表在媒体平台上，媒体文章中表达出来的信息与房地产的价格是有着很大的关联关系的，一些房地产专家可以根据房地产相关的文章判断出房价的大致走势。但是具体的房价是如何变动，房地产专家很难具体判断出来。

发明内容

本申请的主要目的为提供一种基于深度学习的预测数据变化的方法、装置和计算机设备，旨在解决现有技术中无法根据文章的内容对房价的涨幅做出具体判断的问题。

为了实现上述发明目的，本申请提出一种基于深度学习的预测数据的方法，包括：

根据用户端发送的预测请求，获取指定网站上发布的文章，所述预测请求用于指示预测指定区域的目标属性值变化；

判断所述文章中是否有与所述指定区域对应的区域字段，所述区域字段是表示指定区域的地理位置的信息字段；

若是，则通过TF-IDF矩阵抽取所述文章中的关键词，所述TF-IDF矩阵是词频-逆文本频率指数矩阵；

将所述关键词输入到预设的词向量模型，得到各个关键词对应的词向量；

将所述词向量输入到经训练后得到的目标属性值预测模型后，输出所述指定区域的目标属性值的第一涨幅系数。

进一步地，所述将所述词向量输入到经训练后得到的目标属性值预测模型后，输出所述指定区域的目标属性值的第一涨幅系数的步骤之后，包括：

获取所述文章的阅读数量、转发数量以及评论数量；

将所述阅读数量、转发数量以及评论数量输入到预设的公式中，计算得出所述文章的权重系数；

将所述权重系数乘以所述第一涨幅系数，得到更新后的第二涨幅系数。

进一步地，

所述将所述阅读数量、转发数量以及评论数量输入到预设的公式中，计算得出所述文章的权重系数的步骤，包括：

将所述阅读数量输入到预设的第一公式中，将所述转发数量输入到预设的第二公式中，将所述评论数量输入到预设的第三公式中，分别计算得到阅读权重系数、转发权重系数和评论权重系数；

将所述阅读权重系数、转发权重系数和评论权重系数相加，得到所述文章的权重系数。

进一步地，所述判断文章中是否有与所述指定区域对应的区域字段的步骤之前，包括：

读取所述指定区域的第一位置信息；

在预设的地址库中获取所述第一位置信息对应的行政等级；

在所述预设的地址库中获取所述行政等级的上一等级对应的第二位置信息以及所述行政等级的下一等级对应的第三位置信息；

将所述第一位置信息、第二位置信息以及第三位置信息确定为与所述指定区域对应的区域字段。

进一步地，所述将所述词向量输入到经训练后得到的目标属性值预测模型后，输出所述指定区域的目标属性值的第一涨幅系数的步骤之前，包括：

获取测试词向量以及基于所述测试词向量对应的涨幅系数，作为测试样本；

将所述测试词向量作为预设的深度神经网络DNN模型的输入层，

与所述测试词向量对应的涨幅系数作为输出结果，输入到所述预设的深度神经网络DNN模型中，所述深度神经网络DNN模型包括一个输入层、多个隐藏层和一个输出层；

设置隐藏层的公式为：Y＝a(W*X+b)，其中，X表示所述测试词向量，Y 表示输出向量，b表示偏移向量，W表示隐藏层的权重矩阵，a表示激活函数；

设置输出层的公式为softmax函数；

对所述预设的深度神经网络DNN模型的参数进行初始化；

利用随机梯度下降的方法，计算最后一个隐藏层与输出层的误差后，逐层向上反向求出各层的误差，以对参数进行调整，得到训练后的目标属性值预测模型。进一步地，所述将所述词向量输入到经训练后得到的目标属性值预测模型后，输出所述指定区域的目标属性值的第一涨幅系数的步骤之后，包括：

判断所述第一涨幅系数是否超过预设的阈值系数；

若是，则将所述第一涨幅系数标记成红色。

本申请还提供一种基于深度学习的预测数据变化的装置，包括：

获取文章模块，用于根据用户端发送的预测请求，获取指定网站上发布的文章，所述预测请求用于指示预测指定区域的目标属性值变化；

判断模块，用于判断所述文章中是否有与所述指定区域对应的区域字段，所述区域字段是表示指定区域的地理位置的信息字段；

抽取模块，用于若所述文章中有与所述指定区域对应的区域字段，则通过TF-IDF矩阵抽取所述文章中的关键词，所述TF-IDF矩阵是词频-逆文本频率指数矩阵；

词向量模块，用于将所述关键词输入到预设的词向量模型，得到各个关键词对应的词向量；

输出模块，用于将所述词向量输入到经训练后得到的目标属性值预测模型后，输出所述指定区域的目标属性值的第一涨幅系数。

进一步地，所述基于深度学习的预测数据变化的装置，还包括：

获取数量模块，用于获取所述文章的阅读数量、转发数量以及评论数量；

计算权重模块，用于将所述阅读数量、转发数量以及评论数量输入到预设的公式中，计算得出所述文章的权重系数；

更新模块，用于将所述权重系数乘以所述第一涨幅系数，得到更新后的第二涨幅系数。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的基于深度学习的预测数据变化的方法、装置和计算机设备，自动根据房地产相关的网站上读取文章，并根据文章非常客观的分析出房价的数据变化的涨幅趋势。根据文章的阅读数量、转发数量、评论数量来对涨幅趋势进行调整，使预测出的房价的涨幅更加准确。在预测房价的数据变化时，同时还先判断文章中是否是指定区域的房价，更进一步的使预测出的房价的数据的涨幅更加准确。

附图说明

图1为本申请一实施例的基于深度学习的预测数据变化的方法的流程示意图；

图2为本申请一实施例的基于深度学习的预测数据变化的装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种基于深度学习的预测数据变化的方法，包括步骤：

S1、根据用户端发送的预测请求，获取指定网站上发布的文章，所述预测请求用于指示预测指定区域的目标属性值变化；

S2、判断所述文章中是否有与所述指定区域对应的区域字段，所述区域字段是表示指定区域的地理位置的信息字段；

S3、若是，则通过TF-IDF矩阵抽取所述文章中的关键词，所述TF-IDF 矩阵是词频-逆文本频率指数矩阵；

S4、将所述关键词输入到预设的词向量模型，得到各个关键词对应的词向量；

S5、将所述词向量输入到经训练后得到的目标属性值预测模型后，输出所述指定区域的目标属性值的第一涨幅系数。

在本实施例中，应用于对一指定区域的房价涨幅的预测，上述数据变化即是指房价的涨幅。房价即目标属性值。如上述步骤S1所述，上述指定网站是一些发布房地产相关文章的网站，包括发布房价信息、与房价相关的政策、与房地产相关的行业新闻等各种与房价相关或影响房价波动的文章。其中，指定网站是工作人员预先设置好后存储在服务器中，以便服务器自动访问该网站以获取网站中的文章。用户需要对某个地段的房价进行预测时，给出一个具体的地段或区域封装成预测请求然后发向服务器，服务器根据该预测请求，访问预存的指定网站，获取指定网站上发布的文章。

如上述步骤S2所述，文章包含有多个信息，包括文章中的文本信息；同时，文章的信息还包括文章的发布地址信息，发布地址信息即在上述指定网站上发布文章时终端所在的地址位置。检索文章的全部内容，判断文章的信息中是否有与指定区域对应的区域字段，即文章中的文本信息是否具有上述区域字段或文章是否在上述区域字段对应的地方发布的信息。区域字段是用户需要了解的房价对应的指定区域的区域字段。如一个城市的名字-深圳市，或者是一个行政区的名字-福田区。区域字段是用户输入到服务器中的，用户想了解哪个地方的房价，则输入那个地方的地理位置信息至服务器，服务器接收用户输入的地理位置信息然后生成区域字段。

如上述步骤S3所述，TF-IDF(term frequency–inverse document frequency，词频-逆文本频率指数)是一种用于信息检索与数据挖掘的常用加权技术。用以评估一个词语对于一篇文章的重要程度。词语的重要性随着它在文件中出现的次数成正比，增加通过该项技术读取出文件中的各个词语，抽取出文章中的关键词，关键词用于描述该文章的大致内容。其中，统计出来出现次数超过一定值后，将超过次数的词语与预设的关键词库中的词进行比较，看超过次数的词语是否是关键词库中的词，若是，则判定抽取出来的是关键词，否则，不是关键词。关键词库中存储的均是与房价相关的词汇，比如开发商、资金灵活、杠杆、房地产、涨幅、春天、限制等一些对房价相关的名词修饰的副词等。在进行提取关键词前，首先对文章的文本进行去除结巴分词和去除停用词处理，避免提取出一些无意义的关键词。结巴用词和停用词处理包括“的”、“如此”、“因为”等词语。

如上述步骤S4所述，词向量化是提供了一种数学化的方法，把自然语言这种符号信息转化为向量形式的数字信息。这样就把自然语言理解的问题要解决的问题转化为机器学习的问题。将关键词输入到词向量模型中进行向量化，得到向量关键词。词向量模型是预先训练过的。在训练词向量模型时，可以采用one-hot Representation模型。One-hotRepresentation就是用一个很长的向量来表示一个词，向量长度为词典的大小N，每个向量只有一个维度为1，其余维度全部为0，为1的位置表示该词语在词典的位置。这种One-hotRepresentation采用稀疏方式存储，向量化的过程非常的简洁。

如上述步骤S5所述，将上述关键词得到的词向量输入到预设的房价预测模型后，房价预测模型根据训练后的逻辑，预测出该区域字段对应的区域内的房价的升值或降值趋势，计算出房价的第一涨幅系数。房价预测模型即目标属性值预测模型。

在一个实施例中，上述将所述词向量输入到经训练后得到的目标属性值预测模型后，输出所述指定区域的目标属性值的第一涨幅系数的步骤之后，包括：

S6、获取所述文章的阅读数量、转发数量以及评论数量；

S7、将所述阅读数量、转发数量以及评论数量输入到预设的公式中，计算得出所述文章的权重系数；

S8、将所述权重系数乘以所述第一涨幅系数，得到更新后的第二涨幅系数。

在一个具体实施例中，上述将所述阅读数量、转发数量以及评论数量输入到预设的公式中，计算得出所述文章的权重系数的步骤，包括：

S71、将所述阅读数量输入到预设的第一公式中，将所述转发数量输入到预设的第二公式中，将所述评论数量输入到预设的第三公式中，分别计算得到阅读权重系数、转发权重系数和评论权重系数；

S72、将所述阅读权重系数、转发权重系数和评论权重系数相加，得到所述文章的权重系数。

本实施例中，在获取到了指定文章后，获取该文章的阅读数量、转发数量以及评论数量。分别在网站上获取该文章的信息，其中该文章的信息就包括上述三个数量。然后将获取到的三个数量输入到预设的公式中，计算得出该文章的权重系数。三个数量总体上来说与权重系数呈正相关关系，即三个数量的和越大，对应的权重系数越大，对房价的影响越大。然后将该权重系数乘以上述第一涨幅系数，得到更新后的第二涨幅系数。更新后的第二涨幅系数相较更新前的第一涨幅系数更加客观准确。在一具体实施例中，权重系数＝阅读权重系数+转发权重系数+评论权重系数；其中，计算阅读权重系数f(x) 的预设的第一公式(1)如下：

上述公式(1)中，x表示上述文章的阅读数量。

计算转发权重系数f(y)的预设的第二公式(2)如下：

上述公式(2)中，y表示上述文章的转发数量。

计算评论权重系数f(z)的预设的第三公式(3)如下：

上述公式(3)中，z表示上述文章的评论数量。

获取了该文章的信息后，分别将阅读数量、转发数量和评论数量输入到上述第一公式、第二公式和第三公式中，分别得到对应的权重系数，然后再将这三个数量对应的权重系数相加，计算得出文章对应的权重系数。然后将该权重系数乘以上述第一涨幅系数，得到更新后的第二涨幅系数。

在一个实施例中，上述获取指定网站上发布的文章的步骤，包括：

S11、封装指定网站到Docker容器；

S12、通过在不同的机器上部署Docker容器，搭建分布式爬虫；

S13、通过分布式爬虫在指定网站上爬取所述文章。

本实施例中，工作人员将多个指定网站输入到服务器后，服务器将多个指定网站封装到Docker容器中，然后在服务器将Docker容器发送给部署爬虫的机器，进行搭建分布式爬虫，然后当爬虫机器通过代码启动后，爬取指定网站上的文章，然后将获取到的文章发送给服务器，这样便于服务器快速爬取各指定网站上发布的文章。

在一个实施例中，上述判断文章中是否有与所述指定区域对应的区域字段的步骤之前，包括：

S201、读取所述指定区域的第一位置信息；

S202、在预设的地址库中获取所述第一位置信息对应的行政等级；

S203、在所述预设的地址库中获取所述行政等级的上一等级对应的第二位置信息以及所述行政等级的下一等级对应的第三位置信息；

S203、将所述第一位置信息、第二位置信息以及第三位置信息确定为与所述指定区域对应的区域字段。

本实施例中，用户想要对一个指定区域的房子的房价进行预测，则输入该指定区域的第一位置信息，位置信息可以是指一个具体的建筑或小区的名字如平安金融中心大厦，也可以是一片较泛的区域如科技园片区；然后服务器调用预设的地址库，地址库是以标准行政区域为基础设置的地址库。地址库中包含有很多地址信息，并且每一个地址信息对应至少一个行政等级。地址库中的行政等级最高的是省级行政区，第二高的行政等级是地级行政区，依此类推，到第四高的行政等级是工作人员根据各街道行政区的具体规则自行设置行政等级更低的行政区，地址库中是一个多个等级行政区的位置信息集合。如上述的平安金融中心大厦的对应的最高的行政等级是广东省，第二高的行政等级是深圳市，第三高的行政等级是福田区，第四高的行政等级是福田街道，第五高的行政等级是工作人员自定义的市中心区域，第六高的行政等级是平安金融中心大厦。服务器获取到用户端输入的指定区域的第一位置信息是平安金融中心大厦，则在地址库中查找到该第一位置信息是平安金融中心大厦，是属于第六高的行政等级，再查找到上一等级的行政等级是第五高的行政等级，第五高的行政等级是市中心区域。由于第六级信息是级别最低行政等级，因此不再查找下一等级的行政等级；则将市中心区域这一行政等级对应的第二位置信息以及平安金融中心大厦的第一位置信息作为指定区域对应的区域字段。具体的，还将市中心区域中包括的具体位置信息如市中心区域下的其他的第六级信息作为区域字段，合并作为区域字段。

在一个实施例中，上述将所述词向量输入到经训练后得到的目标属性值预测模型后，输出所述指定区域的目标属性值的第一涨幅系数的步骤之前，包括：

S501、获取测试词向量以及基于所述测试词向量对应的涨幅系数，作为测试样本；

S502、将所述测试词向量作为预设的深度神经网络DNN模型的输入层，与所述测试词向量对应的涨幅系数作为输出结果，输入到所述预设的深度神经网络DNN模型中，所述深度神经网络DNN模型包括一个输入层、多个隐藏层和一个输出层；

S503、设置隐藏层的公式为：Y＝a(W*X+b)，其中，X表示所述测试词向量，Y表示输出向量，b表示偏移向量，W表示隐藏层的权重矩阵，a表示激活函数；

S504、设置输出层的公式为softmax函数；

S505、对所述预设的深度神经网络DNN模型的参数进行初始化；

S506、利用随机梯度下降的方法，计算最后一个隐藏层与输出层的误差后，逐层向上反向求出各层的误差，以对参数进行调整，得到训练后的目标属性值预测模型。

本实施例中，在训练目标属性值预测模型时，基于一个神经网络模型。首先根据随机出的区域字段，采集指定网站上的文章并提取出该文章中的关键词，然后输入到词向量模型中以得到测试样本中的词向量，得到测试词向量；然后根据发布文章的发布时刻的上述区域字段对应的位置中的第一房价以及文章发布时刻之后预设时间段后的时刻的同样位置的第二房价，根据第二房价相对第一房价的涨幅，得出测试样本中的涨幅系数。获取到上述测试词向量以及对应的涨幅系数后，作为一个测试样本。依此方法获得多个测试样本，然后选择一个神经网络模型，具体的，选择深度神经网络DNN模型，该模型具有5层，第一层是输入层，用于输入词向量，第二、三、四层为隐藏层，第五层为输出层，用于将上述词向量对应的涨幅系数作为参照。然后将上述词向量通过输入层输入到该模型中。模型自动根据该输入层的输入结果以及内置的公式进行计算得到结果，然后将计算得到的结果与输出层的涨幅系数进行比较。模型在计算前，首先进行初始化，使模型中的各个参数均为0。同时，模型在计算前，服务器设置模型中的隐藏层的计算方法，计算公式为Y＝a(W*X+b)，其中，X表示所述测试词向量，Y表示输出向量，b表示偏移向量，W表示隐藏层的权重矩阵，a表示激活函数。并设置输出层的公式采用softmax函数。设置好了后，服务器控制模型读取输入层的测试词向量，然后将测试词向量输入到隐藏层的公式中，第一隐藏层进行计算，得到第一结果，第一隐藏层再将结果输入到第二隐藏层，第二隐藏层再将第一隐藏层计算的第一结果作为条件输入到上述隐藏层的公式中，然后得到第二结果，第三隐藏层即最后一个隐藏层将第二结果作为条件输入到上述隐藏层的公式中，得到第三结果，发送给输出层，输出层将第三结果输入到softmax函数中，得到训练后的涨幅系数，再将训练后的涨幅系数与输出层的涨幅系数进行比较，根据比较出的误差，对上述隐藏层中的公式参数b和W进行调整，得到训练后的目标属性值预测模型。每训练一个测试词向量，均对该目标属性值预测模型进行优化。

S9、判断所述第一涨幅系数是否超过预设的阈值系数；

S10、若是，则将所述第一涨幅系数标记成红色。

本实施例中，阈值系数是工作人员预先设置的，当房价涨幅超过一定值，说明是房价的变化是重要消息，需要引起人注意。将第一涨幅标记成红色，区别于其他的数据，在加载在显示装置上时，可以引起工作人员的注意。因此，当第一涨幅系数超过阈值系数时，将第一涨幅系数标记成红色。

在一个实施例中，上述将所述第一涨幅系数标记成红色的步骤之后，包括：

S101、将所述第一涨幅系数发送到指定的终端。

本实施例中，指定的终端是指预留在服务器中的需要购买房产的客户的联系方式，包括手机号、邮箱、服务器的用户账号等。当第一涨幅系数超过该系数阈值，同样的也需要发送给客户，以便客户迅速了解到房价的大幅涨的情况。

综上所述，本申请的基于深度学习的预测数据变化的方法，自动根据房地产相关的网站上读取文章，并根据文章非常客观的分析出房价的涨幅趋势。根据文章的阅读数量、转发数量、评论数量来对涨幅趋势进行调整，使预测出的房价的涨幅更加准确。在预测房价时，同时还先判断文章中是否是指定区域的房价，更进一步的使预测出的房价的涨幅更加准确。

参照图2，本申请实施例中还提供一种基于深度学习的预测数据变化的装置，包括：

获取文章模块1，用于根据用户端发送的预测请求，获取指定网站上发布的文章，所述预测请求用于指示预测指定区域的目标属性值变化；

判断模块2，用于判断所述文章中是否有与所述指定区域对应的区域字段，所述区域字段是表示指定区域的地理位置的信息字段；

抽取模块3，用于若所述文章中有与所述指定区域对应的区域字段，则通过TF-IDF矩阵抽取所述文章中的关键词，所述TF-IDF矩阵是词频-逆文本频率指数矩阵；

词向量模块4，用于将所述关键词输入到的词向量模型，得到各个关键词对应的词向量；

输出模块5，用于将所述词向量输入到经训练后得到的目标属性值预测模型后，输出所述指定区域的目标属性值的第一涨幅系数。

本实施例中，应用于对一指定区域的房价涨幅的预测，上述数据变化即是指房价的涨幅。房价即目标属性值。上述指定网站是一些发布房地产相关文章的网站，包括发布房价信息、与房价相关的政策、与房地产相关的行业新闻等各种与房价相关或影响房价波动的文章。其中，指定网站是工作人员预先设置好后存储在服务器中，以便获取文章模块1自动访问该网站以获取网站中的文章。用户需要对某个地段的房价进行预测时，给出一个具体的地段或区域封装成预测请求然后发向服务器，获取文章模块1根据该预测请求，访问预存的指定网站，获取指定网站上发布的文章。

文章包含有多个信息，包括文章中的文本信息；同时，文章的信息还包括文章的发布地址信息，发布地址信息即在上述指定网站上发布文章时终端所在的地址位置。检索文章的全部内容，判断模块2判断文章的信息中是否有与指定区域对应的区域字段，即文章中的文本信息是否具有上述区域字段或文章是否在上述区域字段对应的地方发布的信息。区域字段是用户需要了解的房价对应的指定区域的区域字段。如一个城市的名字-深圳市，或者是一个行政区的名字-福田区。区域字段是用户输入到服务器中的，用户想了解哪个地方的房价，则输入那个地方的地理位置信息至服务器，判断模块2接收用户输入的地理位置信息然后生成区域字段。

TF-IDF(term frequency–inverse document frequency，词频-逆文本频率指数)是一种用于信息检索与数据挖掘的常用加权技术。用以评估一个词语对于一篇文章的重要程度。词语的重要性随着它在文件中出现的次数成正比，增加通过该项技术读取出文件中的各个词语，抽取模块3抽取出文章中的关键词，关键词用于描述该文章的大致内容。其中，统计出来出现次数超过一定值后，将超过次数的词语与预设的关键词库中的词进行比较，看超过次数的词语是否是关键词库中的词，若是，则判定抽取出来的是关键词，否则，不是关键词。关键词库中存储的均是与房价相关的词汇，比如开发商、资金灵活、杠杆、房地产、涨幅、春天、限制等一些对房价相关的名词修饰的副词等。抽取模块3在进行提取关键词前，首先对文章的文本进行去除结巴分词和去除停用词处理，避免提取出一些无意义的关键词。结巴用词和停用词处理包括“的”、“如此”、“因为”等词语。

词向量化是提供了一种数学化的方法，把自然语言这种符号信息转化为向量形式的数字信息。这样就把自然语言理解的问题要解决的问题转化为机器学习的问题。词向量模块4将关键词输入到词向量模块中进行向量化，得到向量关键词。词向量模型是预先训练过的。在训练词向量模型时，可以采用one-hot Representation模型。One-hotRepresentation就是用一个很长的向量来表示一个词，向量长度为词典的大小N，每个向量只有一个维度为1，其余维度全部为0，为1的位置表示该词语在词典的位置。这种One-hotRepresentation采用稀疏方式存储，向量化的过程非常的简洁。

将上述关键词得到的词向量输入到预设的目标属性值预测模型后，目标属性值预测模型根据训练后的逻辑，输出模块5输出该区域字段对应的区域内的房价的升值或降值趋势，计算出房价的第一涨幅系数。房价预测模型即目标属性值预测模型。

在一个实施例中，上述基于深度学习的预测数据变化的装置还包括：

在一具体实施例中，上述计算权重模块包括：

第一计算单元，用于将所述阅读数量输入到预设的第一公式中，将所述转发数量输入到预设的第二公式中，将所述评论数量输入到预设的第三公式中，分别计算得到阅读权重系数、转发权重系数和评论权重系数；

第二计算单元，用于将所述阅读权重系数、转发权重系数和评论权重系数相加，得到所述文章的权重系数。

本实施例中，在获取到了指定文章后，获取数量模块获取该文章的阅读数量、转发数量以及评论数量。分别在网站上获取该文章的信息，其中该文章的信息就包括上述三个数量。然后计算权重模块将获取到的三个数量输入到预设的公式中，计算得出该文章的权重系数。三个数量总体上来说与权重系数呈正相关关系，即三个数量的和越大，对应的权重系数越大，对房价的影响越大。然后更新模块将该权重系数乘以上述第一涨幅系数，得到更新后的第二涨幅系数。更新后的第二涨幅系数相较更新前的第一涨幅系数更加客观准确。在一具体实施例中，权重系数＝阅读权重系数+转发权重系数+评论权重系数；其中，计算阅读权重系数f(x)的预设的第一公式(1)如下：

上述公式(1)中，x表示上述文章的阅读数量。

计算转发权重系数f(y)的预设的第公式(2)如下：

上述公式(2)中，y表示上述文章的转发数量。

计算评论权重系数f(z)的预设的第公式(3)如下：

上述公式(3)中，z表示上述文章的评论数量。

获取了该文章的信息后，第一计算单元分别将阅读数量、转发数量和评论数量输入到上述第一公式、第二公式和第三公式中，分别得到对应的权重系数，然后第二计算单元再将这三个数量对应的权重系数相加，计算得出文章对应的权重系数。然后将该权重系数乘以上述第一涨幅系数，得到更新后的第二涨幅系数。

在一个实施例中，上述获取文章模块1包括：

封装单元，用于封装指定网站到Docker容器；

搭建单元，用于通过在不同的机器上部署Docker容器，搭建分布式爬虫；

爬取单元，用于通过分布式爬虫在指定网站上爬取所述文章。

本实施例中，工作人员将多个指定网站输入到服务器后，封装单元将多个指定网站封装到Docker容器中，然后在搭建单元将Docker容器发送给部署爬虫的机器，进行搭建分布式爬虫，然后当爬虫机器通过代码启动后，爬取单元爬取指定网站上的文章，然后将获取到的文章发送给服务器，这样便于服务器快速爬取各指定网站上发布的文章。

读取位置模块，用于读取所述指定区域的第一位置信息；

获取等级模块，用于在预设的地址库中获取所述第一位置信息对应的行政等级；

获取位置模块，用于在所述预设的地址库中获取所述行政等级的上一等级对应的第二位置信息以及所述行政等级的下一等级对应的第三位置信息；

确定字段模块，用于将所述第一位置信息、第二位置信息以及第三位置信息确定为与所述指定区域对应的区域字段。

本实施例中，用户想要对一个指定区域的房子的房价进行预测，则输入该指定区域的第一位置信息，位置信息可以是指一个具体的建筑或小区的名字如平安金融中心大厦，也可以是一片较泛的区域如科技园片区；然后读取位置模块调用预设的地址库，地址库是以标准行政区域为基础设置的地址库。地址库中包含有很多地址信息，并且每一个地址信息对应至少一个行政等级。地址库中的行政等级最高的是省级行政区，第二高的行政是地级行政区，依此类推，到第四高的行政等级是工作人员根据各街道行政区的具体规则自行设置行政等级更低的行政区，地址库中是一个多个等级行政区的位置信息集合。如上述的平安金融中心大厦对应的最高的行政等级是广东省，第二高的行政等级是深圳市，第三高的行政等级是福田区，第四高的行政等级是福田街道，第五高的行政等级是工作人员自定义的市中心区域，第六高的行政等级是平安金融中心大厦。读取位置模块获取到用户端输入的指定区域的第一位置信息是平安金融中心大厦，则获取等级模块在地址库中查找到该第一位置信息是平安金融中心大厦，是属于第六高的行政等级，获取位置模块再查找到上一等级的行政等级是第五高的行政等级，第五高的行政等级是市中心区域。由于第六级信息是级别最低级的行政等级，因此不再查找下一等级的行政等级；则确定字段模块将市中心区域这一行政等级对应的第二位置信息以及平安金融中心大厦的第一位置信息作为指定区域对应的区域字段。具体的，还将市中心区域中包括的具体位置信息如市中心区域下的其他的第六级信息作为区域字段，合并作为区域字段。

获取样本模块，用于获取测试词向量以及基于所述测试词向量对应的涨幅系数，作为测试样本；

输入模块，用于将所述测试词向量作为预设的深度神经网络DNN模型的输入层，与所述测试词向量对应的涨幅系数作为输出结果，输入到所述预设的深度神经网络DNN模型中，所述深度神经网络DNN模型包括一个输入层、多个隐藏层和一个输出层；

第一设置模块，用于设置隐藏层的公式为：Y＝a(W*X+b)，其中，X表示所述测试词向量，Y表示输出向量，b表示偏移向量，W表示隐藏层的权重矩阵，a表示激活函数；

第二设置模块，用于设置输出层的公式为softmax函数；

初始化模块，用于对所述预设的深度神经网络DNN模型的参数进行初始化；

训练模块，用于利用随机梯度下降的方法，计算最后一个隐藏层与输出层的误差后，逐层向上反向求出各层的误差，以对参数进行调整，得到训练后的目标属性值预测模型。

本实施例中，在训练目标属性值预测模型时，基于一个神经网络模型。首先根据随机出的区域字段，获取样本模块采集指定网站上的文章并提取出该文章中的关键词，然后输入到词向量模型中以得到测试样本中的词向量，得到测试词向量；然后根据发布文章的发布时刻的上述区域字段对应的位置中的第一房价以及文章发布时刻之后预设时间段后的时刻的同样位置的第二房价，根据第二房价相对第一房价的涨幅，得出测试样本中的涨幅系数。获取到上述测试词向量以及对应的涨幅系数后，作为一个测试样本。依此方法获得多个测试样本，然后选择一个神经网络模型，具体的，选择深度神经网络DNN模型，该模型具有5层，第一层是输入层，用于输入词向量，第二、三、四层为隐藏层，第五层为输出层，用于将上述词向量对应的涨幅系数作为参照。然后输入模块将上述词向量通过输入层输入到该模型中。模型自动根据该输入层的输入结果以及内置的公式进行计算得到结果，然后将计算得到的结果与输出层的涨幅系数进行比较。模型在计算前，首先初始化模块进行初始化，使模型中的各个参数均为0。同时，模型在计算前，第一设置模块设置模型中的隐藏层的计算方法，计算公式为Y＝a(W*X+b)，其中，X表示所述测试词向量，Y表示输出向量，b表示偏移向量，W表示隐藏层的权重矩阵，a表示激活函数。第二设置模块设置输出层的公式采用softmax函数。设置好了后，模型读取输入层的测试词向量，然后将测试词向量输入到隐藏层的公式中，第一隐藏层进行计算，得到第一结果，第一隐藏层再将结果输入到第二隐藏层，第二隐藏层再将第一隐藏层计算的第一结果作为条件输入到上述隐藏层的公式中，然后得到第二结果，第三隐藏层即最后一个隐藏层将第二结果作为条件输入到上述隐藏层的公式中，得到第三结果，发送给输出层，输出层将第三结果输入到softmax函数中，得到训练后的涨幅系数，训练模块再将训练后的涨幅系数与输出层的涨幅系数进行比较，根据比较出的误差，对上述隐藏层中的公式参数b和W进行调整，得到训练后的目标属性值预测模型。每训练一个测试词向量，均对该目标属性值预测模型进行优化。

判断系数模块，用于判断所述第一涨幅系数是否超过预设的阈值系数；

标记模块，用于若所述第一涨幅系数超过预设的阈值系数，则将所述第一涨幅系数标记成红色。

本实施例中，阈值系数是工作人员预先设置的，当判断系数模块判断房价涨幅超过一定值，说明是房价的变化是重要消息，需要引起人注意。标记模块将第一涨幅系数标记成红色，区别于其他的数据，在加载在显示装置上时，可以引起工作人员的注意。因此，当第一涨幅系数超过阈值系数时，将第一涨幅系数标记成红色。

发送模块，用于将所述第一涨幅系数发送到指定的终端。

本实施例中，指定的终端是指预留在服务器中的需要购买房产的客户的联系方式，包括手机号、邮箱、服务器的用户账号等。当第一涨幅系数超过该系数阈值，同样的也需要发送模块将该第一涨幅系数即时发送给客户，以便客户迅速了解到房价的大幅涨的情况。

综上所述，本申请的基于深度学习的预测数据变化的装置，自动根据房地产相关的网站上读取文章，并根据文章非常客观的分析出房价的涨幅趋势。根据文章的阅读数量、转发数量、评论数量来对涨幅趋势进行调整，使预测出的房价的涨幅更加准确。在预测房价时，同时还先判断文章中是否是指定区域的房价，更进一步的使预测出的房价的涨幅更加准确。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设的区域字段、词向量模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于深度学习的预测数据变化的方法。

上述处理器执行上述基于深度学习的预测数据变化的方法的步骤：根据用户端发送的预测请求，获取指定网站上发布的文章，所述预测请求用于指示预测指定区域的目标属性值变化；判断所述文章中是否有与所述指定区域对应的区域字段，所述区域字段是表示指定区域的地理位置的信息字段；若是，则通过TF-IDF矩阵抽取所述文章中的关键词，所述TF-IDF矩阵是词频- 逆文本频率指数矩阵；将所述关键词输入到预设的词向量模型，得到各个关键词对应的词向量；将所述词向量输入到经训练后得到的目标属性值预测模型后，输出所述指定区域的目标属性值的第一涨幅系数。

在一个实施例中，上述处理器执行所述将所述词向量输入到经训练后得到的目标属性值预测模型后，输出所述指定区域的目标属性值的第一涨幅系数的步骤之后，包括：获取所述文章的阅读数量、转发数量以及评论数量；将所述阅读数量、转发数量以及评论数量输入到预设的公式中，计算得出所述文章的权重系数；将所述权重系数乘以所述第一涨幅系数，得到更新后的第二涨幅系数。

在一个实施例中，上述处理器执行所述将所述阅读数量、转发数量以及评论数量输入到预设的公式中，计算得出所述文章的权重系数的步骤，包括：将所述阅读数量输入到预设的第一公式中，将所述转发数量输入到预设的第二公式中，将所述评论数量输入到预设的第三公式中，分别计算得到阅读权重系数、转发权重系数和评论权重系数；将所述阅读权重系数、转发权重系数和评论权重系数相加，得到所述文章的权重系数。

在一个实施例中，上述处理器执行所述判断文章中是否有与所述指定区域对应的区域字段的步骤之前，包括：读取所述指定区域的第一位置信息；在预设的地址库中获取所述第一位置信息对应的行政等级；在所述预设的地址库中获取所述行政等级的上一等级对应的第二位置信息以及所述行政等级的下一等级对应的第三位置信息；将所述第一位置信息、第二位置信息以及第三位置信息确定为与所述指定区域对应的区域字段。

在一个实施例中，上述处理器执行所述将所述词向量输入到经训练后得到的目标属性值预测模型后，输出所述指定区域的目标属性值的第一涨幅系数的步骤之前，包括：获取测试词向量以及基于所述测试词向量对应的涨幅系数，作为测试样本；将所述测试词向量作为预设的深度神经网络DNN模型的输入层，与所述测试词向量对应的涨幅系数作为输出结果，输入到所述预设的深度神经网络DNN模型中，所述深度神经网络DNN模型包括一个输入层、多个隐藏层和一个输出层；设置隐藏层的公式为：Y＝a(W*X+b)，其中， X表示所述测试词向量，Y表示输出向量，b表示偏移向量，W表示隐藏层的权重矩阵，a表示激活函数；设置输出层的公式为softmax函数；对所述预设的深度神经网络DNN模型的参数进行初始化；利用随机梯度下降的方法，计算最后一个隐藏层与输出层的误差后，逐层向上反向求出各层的误差，以对参数进行调整，得到训练后的目标属性值预测模型。

在一个实施例中，上述处理器执行所述将所述词向量输入到经训练后得到的目标属性值预测模型后，输出所述指定区域的目标属性值的第一涨幅系数的步骤之后，包括：判断所述第一涨幅系数是否超过预设的阈值系数；若是，则将所述第一涨幅系数标记成红色。

综上所述，本申请的计算机设备自动根据房地产相关的网站上读取文章，并根据文章非常客观的分析出房价的涨幅趋势。根据文章的阅读数量、转发数量、评论数量来对涨幅趋势进行调整，使预测出的房价的涨幅更加准确。在预测房价时，同时还先判断文章中是否是指定区域的房价，更进一步的使预测出的房价的涨幅更加准确。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种基于深度学习的预测数据变化的方法，具体为：根据用户端发送的预测请求，获取指定网站上发布的文章，所述预测请求用于指示预测指定区域的目标属性值变化；判断所述文章中是否有与所述指定区域对应的区域字段，所述区域字段是表示指定区域的地理位置的信息字段；若是，则通过TF-IDF矩阵抽取所述文章中的关键词，所述 TF-IDF矩阵是词频-逆文本频率指数矩阵；将所述关键词输入到预设的词向量模型，得到各个关键词对应的词向量；将所述词向量输入到经训练后得到的目标属性值预测模型后，输出所述指定区域的目标属性值的第一涨幅系数。

综上所述，本申请的计算机可读存储介质自动根据房地产相关的网站上读取文章，并根据文章非常客观的分析出房价的涨幅趋势。根据文章的阅读数量、转发数量、评论数量来对涨幅趋势进行调整，使预测出的房价的涨幅更加准确。在预测房价时，同时还先判断文章中是否是指定区域的房价，更进一步的使预测出的房价的涨幅更加准确。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM (SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路 (Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于深度学习的预测数据变化的方法，其特征在于，包括：

2.如权利要求1所述的基于深度学习的预测数据变化的方法，其特征在于，所述将所述词向量输入到经训练后得到的目标属性值预测模型后，输出所述指定区域的目标属性值的第一涨幅系数的步骤之后，包括：

获取所述文章的阅读数量、转发数量以及评论数量；

3.如权利要求2所述的基于深度学习的预测数据变化的方法，其特征在于，所述将所述阅读数量、转发数量以及评论数量输入到预设的公式中，计算得出所述文章的权重系数的步骤，包括：

4.如权利要求1所述的基于深度学习的预测数据变化的方法，其特征在于，所述判断文章中是否有与所述指定区域对应的区域字段的步骤之前，包括：

读取所述指定区域的第一位置信息；

在预设的地址库中获取所述第一位置信息对应的行政等级；

5.如权利要求1所述的基于深度学习的预测数据变化的方法，其特征在于，所述将所述词向量输入到经训练后得到的目标属性值预测模型后，输出所述指定区域的目标属性值的第一涨幅系数的步骤之前，包括：

将所述测试词向量作为预设的深度神经网络DNN模型的输入层，与所述测试词向量对应的涨幅系数作为输出结果，输入到所述预设的深度神经网络DNN模型中，所述深度神经网络DNN模型包括一个输入层、多个隐藏层和一个输出层；

设置隐藏层的公式为：Y＝a(W*X+b)，其中，X表示所述测试词向量，Y表示输出向量，b表示偏移向量，W表示隐藏层的权重矩阵，a表示激活函数；

设置输出层的公式为softmax函数；

对所述预设的深度神经网络DNN模型的参数进行初始化；

利用随机梯度下降的方法，计算最后一个隐藏层与输出层的误差后，逐层向上反向求出各层的误差，以对参数进行调整，得到训练后的目标属性值预测模型。

6.如权利要求1所述的基于深度学习的预测数据变化的方法，其特征在于，所述将所述词向量输入到经训练后得到的目标属性值预测模型后，输出所述指定区域的目标属性值的第一涨幅系数的步骤之后，包括：

判断所述第一涨幅系数是否超过预设的阈值系数；

若是，则将所述第一涨幅系数标记成红色。

7.一种基于深度学习的预测数据变化的装置，其特征在于，包括：

8.如权利要求7所述的基于深度学习的预测数据变化的装置，其特征在于，还包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。