CN108304568B

CN108304568B - 一种房地产公众预期大数据处理方法及系统

Info

Publication number: CN108304568B
Application number: CN201810146733.4A
Authority: CN
Inventors: 董纪昌; 郑长敬; 李秀婷; 刘颖; 董志
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-02-12
Filing date: 2018-02-12
Publication date: 2021-01-05
Anticipated expiration: 2038-02-12
Also published as: CN108304568A

Abstract

本发明公开了一种房地产公众预期大数据处理方法，构建基于大数据的房地产市场的情绪词典；通过网络爬虫获取原始数据；对原始数据进行数据清洗及筛选处理；根据关键词数据库及房地产公众情感分析数据库建立房地产公众预期训练模型；通过网络爬虫获取待处理数据；将待处理数据输入训练模型进行训练；对待处理数据进行分类，构建房地产公众预期指数，预测房地产大数据与房地产公众预期指数的相关性。本发明的有益效果在于：实现实时预测不同的媒介和不同的机构与房地产公众预期指数的相关性。以客观、完整的视角实现对全样本的数据分析，充分聚焦不同机构和不同媒介，对不同机构和不同媒介的房地产公众预期差异进行细致、专业分析。

Description

一种房地产公众预期大数据处理方法及系统

技术领域

本发明涉及大数据处理技术领域，具体涉及一种房地产公众预期大数据处理方法及系统。

背景技术

目前，房地产行业的背景主要包括以下几个方面：

(1)外部环境因素的不确定性和复杂性：通过公众预期的调整，进一步影响房地产市场波动，这种不确定性越大，由预期引致的市场波动也将越为剧烈。现有文献对房地产公众预期的度量大多是选用外推方法和计量经济模型，少部分用了统计调查方法，但这些度量指标受限于数据可获性，一般更新频度不高。公众预期具有弹性大、不稳定等特征，对其度量指标的实时性要求较高，不能有效测度。现有研究大多是基于适应性预期或理性预期框架，以经济主体完全理性为前提假设，较少考虑非理性因素对预期形成、影响等方面的作用，不利于有效管理公众预期。

(2)有效管理市场：公众预期管理是政策制定者最为重视的目标之一。研究公众预期的测度、形成及其对房地产市场的作用机理，有助于政府有效实施房地产调控，合理管理房地产公众预期和主体行为。

基于上述房地产行业的现状，有必要开展大数据环境下、房地产公众预期的研究。

发明内容

针对现有技术中的缺陷，本发明的目的之一在于提供一种房地产公众预期大数据处理方法，实时反映不同媒介、不同机构、不同群体对于房地产市场的预期差异及变化。

本发明的目的之一在于提供一种房地产公众预期大数据处理系统，实时反映不同媒介、不同机构、不同群体对于房地产市场的预期差异及变化。

第一方面，本发明提供的房地产公众预期大数据处理方法，包括：

构建基于大数据的房地产市场的情绪词典，所述情绪词典中包含多种情绪信息；

通过网络爬虫获取原始数据，所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据；

对所述原始数据进行数据清洗及筛选处理，以得到关键词数据库及房地产公众情感分析数据库；

根据所述关键词数据库及房地产公众情感分析数据库建立房地产公众预期训练模型；

通过网络爬虫获取待处理数据，所述待处理数据包括微博数据、网页数据、论坛数据以及贴吧数据；

将所述待处理数据输入所述训练模型进行训练；

对所述待处理数据进行分类，构建房地产公众预期指数，预测房地产大数据与房地产公众预期指数的相关性。

可选地，对所述原始数据进行数据清洗及筛选处理，以得到关键词数据库具体包括：

采用文本处理技术对原始数据进行去噪、解析和分词，得到文本数据；

采用数据挖掘技术分析文本数据的属性，得到清洗数据；

针对不同地区设置影响因素，根据不同地区的影响因素对所述清洗数据进行筛选，得到初始数据；

根据地区下属的管辖区域对初始数据进行扩充，得到扩充数据；

定义扩充数据中的核心词条，针对核心词条对扩充数据中进行长尾关键词和短尾关键词的补充；

对所述初始数据以及补充后的扩充数据进行修正，以得到修正数据；

根据所述修正数据得到所述关键词数据库。

可选地，对所述原始数据进行数据清洗及筛选处理，以得到房地产公众情感分析数据库具体包括：

对所述原始数据进行中文分词，以确定文档特征；

基于所述文档特征进行情感分析，以得到房地产公众情感分析数据库。

可选地，所述基于所述文档特征进行情感分析，得到房地产公众情感分析数据库的方法具体包括：

构建属性词库，所述属性词库中包含属性词的关注度信息；

利用所述情绪词典和属性词库进行情感分析，得到句子级情感数据库；

筛选所述句子级情感数据库中的句子级情感倾向数据；

将所述句子级情感倾向数据进行汇总，得到公众情感倾向信息；

将所述属性词库中的属性词关注度数据进行汇总，得到公众关注度信息；

根据所述公众情感倾向信息和公众关注度信息，得到房地产公众情感分析数据库。

可选地，所述方法还包括：根据预测类型和非预测类型对所述房地产公共情感分析数据库进行标签，所述预测类型包括涨、跌和平。

第二方面，本发明提供的一种房地产公众预期大数据处理系统，包括：情绪词典构建模块，用于构建基于大数据的房地产市场的情绪词典，所述情绪词典中包含多种情绪信息；

获取模块，用于通过网络爬虫获取原始数据，所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据；

清洗筛选模块，用于对所述原始数据进行数据清洗及筛选处理，以得到关键词数据库及房地产公众情感分析数据库；

训练模型建立模块，用于根据所述关键词数据库及房地产公众情感分析数据库建立训练模型；

所述获取模块，还用于通过网络爬虫获取待处理数据，所述待处理数据包括微博数据、网页数据、论坛数据以及贴吧数据；

处理模块，用于将所述待处理数据输入所述训练模型进行处理；

分类与预测模块，用于对所述待处理数据进行分类，构建房地产公众预期指数，预测房地产大数据与房地产公众预期指数的相关性。

可选地，所述清洗筛选模块包括第一单元，具体用于：

采用数据挖掘技术分析文本数据的属性，得到清洗数据；

根据所述修正数据得到所述关键词数据库。

可选地，所述清洗筛选模块还包括第二单元，具体用于：

对所述原始数据进行中文分词，以确定文档特征；

可选地，所述第二单元包括属性词库构建单元，所述属性词库中包含属性词的关注度信息；情感分析单元，用于利用所述情绪词典和属性词库进行情感分析，得到句子级情感数据库；筛选单元，用于筛选所述句子级情感数据库中的句子级情感倾向数据；汇总单元，用于将所述句子级情感倾向数据进行汇总，得到公众情感倾向信息；将所述属性词库中的属性词关注度数据进行汇总，得到公众关注度信息；房地产公众情感分析数据构建单元，用于根据所述公众情感倾向信息和公众关注度信息，构建房地产公众情感分析数据库。

可选地，所述系统还包括标签模块，用于根据预测类型和非预测类型对所述房地产公众情感分析数据库进行标签，所述预测类型包括涨、跌和平。

本发明的有益效果：

本发明提供的一种房地产公众预期大数据处理方法及系统，通过构建情绪词典，网络爬虫获取原始数据，对原始数据进行数据清洗及筛选以得到关键词数据库和房地产公众情感分析数据库，再根据关键词数据库和房地产公众情感分析数据库建立训练模型，再将待处理数据输入训练模型进行训练，对所述待处理数据进行分类，结合房地产公众预期指数，实时预测不同的媒介和不同的机构与房地产公众预期指数的相关性。以客观、完整的视角实现对全样本的数据分析，充分聚焦不同机构和不同媒介，对不同机构和不同媒介的房地产公众预期差异进行细致、专业分析。房地产公众预期大数据处理方法可以指导政府科学制定房地产调控政策，有效管理房地产公众预期，引导市场主体行为，促进房地产市场平稳发展。同时也有助于开发商和购房者等经济主体更理性地认识房地产市场，预测市场走势，从而做出理性决策。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1示出了本发明提供的一种房地产公众预期大数据处理方法第一实施例的流程图；

图2示出了本发明通提供的一种房地产公众预期大数据处理系统第一实施例的结构框图；

图3示出了图2的结构框图；

图4示出图3中第二单元的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和 /或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

图1示出了本发明第一实施例所提供的一种房地产公众预期大数据处理方法的流程图，该方法具体包括以下步骤：

S1:构建基于大数据的房地产市场的情绪词典，所述情绪词典中包含多种情绪信息。

具体地，情绪词典中的情绪信息包含有无偏向、上涨、下跌等情绪。分类时，关键词数据库中的北京房价、北京房地产、北京楼市、北京二手房、北京新房等词组归属于无偏向这一类。北京房地产回暖、北京房价上升、北京房价上涨、北京房价还会涨吗等词组归属于上涨这一类。北京房价会降吗，北京房价下跌、北京楼市量价齐跌、北京楼市暴跌等词组归属于下跌这一类。情感分析数据库统计了每一种情绪信息下的关键词，更加直观地反应不同媒介、机构、群体对于房地产市场的预期差异。

S2:通过网络爬虫获取原始数据，所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据。

具体地，网络媒体包括微博、网页、论坛、贴吧等。所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据。所述微博数据包括媒体层面数据、企业层面数据、政府层面数据、研究机构数据以及个人层面数据。

媒体层面数据来源于房产网、官方微信、周刊、栏目节目、信息平台。企业层面数据来源于地产公司等企业。政府层面数据来源于房产管理处、建设局、交易中心、国土资源规划等政府层面。研究机构数据来源于协会、研究院、高校等研究机构。个人层面数据来源于个人的微博平台。数据来源广，更加全面。

S3:对所述原始数据进行数据清洗及筛选处理，以得到关键词数据库及房地产公众情感分析数据库；

本实施例中，可采用以下方法得到关键词数据库：

(1)采用文本处理技术对原始数据进行去噪、解析和分词，得到文本数据；

(2)采用数据挖掘技术分析文本数据的属性，得到清洗数据；

(3)针对不同地区设置影响因素，根据不同地区的影响因素对清洗数据进行筛选，得到初始数据；

(4)根据地区下属的管辖区域对初始数据进行扩充，得到扩充数据；

(5)定义扩充数据中的核心词条，针对核心词条对扩充数据中进行长尾关键词和短尾关键词的补充；

(6)对所述初始数据以及补充后的扩充数据进行修正，以得到修正数据；

(7)根据所述修正数据得到所述关键词数据库。

需要说明的是，上述步骤(1)至(3)描述了一种数据清洗方法，除上述数据清洗方法外，本实施例中提供另一种数据筛选方法，具体方案如下：

采用五元组简单过滤方法进行数据预处理，然后采用KNN文本分类方法确定源信息的性质，最后通过优化的AdaBoost方法得到数据与根据聚类分析得到的样本进行特征匹配，最终实现深层内容过滤；

其中，具体步骤包括：

1.五元组简单过滤；

首先对爬取的网络数据进行简单的一级过滤一五元组过滤；定义变量SIP， DIP，SP，DP，PT分别表示五元组过滤中的源IP地址、目的IP地址、源端口号、口的端口号和传输协议类型，它们构成了五元组的基本元素；在一次会话中，根据过滤策略确定掩码SIP_MASK，DIP_MASK，SP_MASK，DP_ MASK和PT_MASK的值，组成PCL，从而进行信息一级过滤；

2.KNN文本分类方法确定源性质；

将经过五元组过滤处理后的数据称为新文本，将其与给定的训练文本集中的文本进行KNN文本分类计算，对新的输入实例即新文本，在训练文本集中找到与该实例最邻近的K个实例，则这K个实例的多数所属于的那个类，就是新文本的类：也就是说，把新文本和训练文本都看作是一个N维向量，计算新文本与训练文本集中每个文本的相似度，找出K个最相似的样本，通过加权距离和训练文本所属的类别来确定新义本的类别；

其中，KNN算法过程描述如下：

1)对于新文本及训练文本，根据特征词形成新文本向量和训练文本向量：

根据传统的向量空间模型，文本信息被形式化为特征空间中的加权特征向量；即D＝D(T1，W1；T2，W2；...；Tn，Wn)，根据特征词确定新文本及训练文本的向量表示；

计算新文本与训练文本集中每个文本的文本相似度，计算公式为：

其中di为新文本的特征向量，dj为第j类的中心向量，M为特征向量的维数，Wk为向量的第k维；

对于k值，因为KNN方法被看作是一种从样木中估计后验概率p(w_i|x)的方法，所以为了得到可靠的估计，k值需越大越好，这样才可以提高估计的准确性，但另一方面，又希望这k个邻近点即离新文本越近越好，记新文本后验概率为p(w_i|x_i)，只有当这k个邻近点即离新文本越近时，p(w_i|x_i)才会尽可能的逼近p(w_i|x)，以往都是根据人们的个人经验来确定k值，所以经常出现估计不准确的情况，若k值选择的过小，得到的邻近数会过小，则降低分类精度，若k值选择的过大，则容易增加噪声数据降低分类准确性，故现通过大量的实验证明，当k值取数据库中的所有文本个数时，新文本的分类结果为全局最优解；

3)在新文本的k个邻居中，依次计算每类的权重，

其中

为新文本的特征向量，

为相似度计算公式，

为数据源性质；

4)比较类的权重，将文本分到权重最大的那个类别中去；

综上所述，数据通过KNN文木分类的方法对数据信息进行二级过滤，确定数据源的性质；

3.优化的AdaBoost方法进行深层内容过滤；

本方法提出基于AdaBoost算法的最小风险贝叶斯深层过滤算法是以 AdaBoost算法作为分类器的训练框架，用最小风险贝叶斯分类算法代替 AdaBoost算法中的弱分类器，作为AdaBoost的分类器，达成两个算法的结合，即基于AdaBoost的最小风险贝叶斯深层过滤算法；

AdaBoost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后将这些弱分类器集合起来，最终构成一个最强的最终分类器(强分类器)：其算法是根据改变数据分布来实现的，根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确性来确定每个样本的权值，将修改过的最新权值送到下层分类器中进行训练，最后将每次训练后得到的分类器进行融合，输出最终的最强分类器；

若训练样本集为：S＝{(x₁,y₁),(x₂,y₂),…,(x_i,y_i),x_i∈X,y_i∈Y}，X，Y分别对应

于正例样本和负例样本，M为训练的最大循环次数，分类器的错误率记为ε_m，最小错误率记为

在AdaBoost原算法中，通过一个加权的多数表决方法来整合全部决策以产生最终的决策：

其中P_m(x)为分类器决策函数，AdaBoost算法可以对学习得到的弱分类器的错误进行适当整合，每一次迭代都要对权重进行更新，减小弱分类器分类效果较好的数据的权重，增大弱分类器分类效果较差的数据的权重，最终的分类器是弱分类器的加权平均；

贝叶斯分类算法是通过某对象的先验概率模型，利用贝叶斯公式计算出其后验概率；即对象源属于哪一类的主题，选择具有最大后验概率的类作为对象源所属的主题；通过训练源数据集合，由贝叶斯理论得到每个数据信息在小同类的概率大小，构造出贝叶斯模型；朴素贝叶斯是贝叶斯分类模型中误差率最小的，并且其所需估计参数很少，实现算法简单；最小风险贝叶斯分类算法就是以贝叶斯和朴素贝叶斯为基础来解决错误率问题，是最小错误率意义上的最优化；在本方法中，若数据被判定为“敏感数据”当作垃圾数据过滤掉，但其恰恰又是用户所需要的内容，则会给用户造成很大的损失：通过最小风险贝叶斯分类方法确定数据源的主题，按照不同的主题过滤策略进行过滤，把所有分类错误都考虑进去，会很大程度上降低误判的风险；

已知P(ω_i),P(X|ω_j),i＝1,2…,c及待识别的X(待过滤的网络数据包)的情况下，根据贝叶斯公式来计算出后验概率，

其中P(ω_i)是先验概率，是由以往用户对网络数据的需求分析所得到的； P(ω_j|X)是后验概率，是在得到信息X之后再重新加以更正的概率，P(X|ω_i)是根据以往用户对网络数据的需求经验来判断收到的待识别X是否为垃圾网络数据的概率；

记数据损失为α，将决策判定规则定义为：

1)当网络数据是垃圾数据时，将其判断为垃圾数据不会造成任何损失， α＝0；

2)当把垃圾网络数据判定为合法数据时，则损失α＝0；

3)当把用户所需网络数据判定为垃圾数据时，则造成的损失是不可估量的，0<α<∞；

根据计算后得出的后验概率和设定的决策规则，按以下公式计算出采取 di，i＝1，2，……a的条件风险：

考虑到数据被误判后，要将损失。α→0降到最小，故对之前得到的d个条件风险值R(d_i|X)进行比较，从中找出使条件风险最小的决策，记为dk,dk 就是最小风险贝叶斯分类决策；

本方法优化的AdaBoost方法如下：

以矩阵的形式输入网络数据，初始化权重

i＝1，2，……，n，执行循环m＝1，2,……，M，将ω_i的值代入AdaBoost框架中，通过最小风险贝叶斯分类器进行训练，得到假设P:X∈y_i，将分类器对整个数据集进行遍历，并标记P分类正确的样本和分类错误的样本，根据总体样本的数量来判断错误样例个数，计算P的分类错误率α_m，将分类错误率α_m更新，得到训练样本的权值为

继续开始下一轮的循环，直至M次循环结束；通过多次循环，基于AdaBoost的最小风险贝叶斯分类算法可归结出M个分类器Pm，经过算法得到：

最终P(x)就是基于内容的深层过滤算法中经过M次学习后所得到的最终分类器。其中Pm(X)为分类器决策函数，AdaBoost算法可以对学习得到的弱分类器的错误进行适当整合，每一次迭代都要对权重进行更新，减小弱分类器分类效果较好的数据的权重，增大弱分类器分类效果较差的数据的权重，最终的分类器是弱分类器的加权平均。

本实施例针对以上问题，提供一种高效的，稳定的基于LTE信令的数据过滤处理方法，其采用五元组简单过滤方法进行数据预处理，然后采用KNN 文本分类方法确定源信息的性质，最后通过优化的AdaBoost方法得到数据与根据聚类分析得到的样本进行特征匹配，最终实现一套完整的基于LTE信令的数据过滤处理方法。数据处理分为三个过程，对LTE信令数据进行五元组简单数据过滤、通过KNN文本分类方法确定数据源性质、优化的AdaBoost 方法对信令数据进行深层内容过滤，完成对所述LTE数据报文的数据处理，该方法比原有的信息过滤方法具有更高的过滤精确度与系统鲁棒性，对在各个网站爬取的样本数据进行过滤处理，得到更精确的数据。

进一步地，基于所述文档特征进行情感分析，得到房地产公众情感分析数据库的方法具体包括：

构建属性词库，所述属性词库中包含属性词的关注度信息。属性词库依次通过属性词挖掘、属性词修建和补充、属性词分类处理得到。

筛选所述句子级情感数据库中的句子级情感倾向数据；

根据所述公众情感倾向信息和公众关注度信息，得到房地产公众情感分析数据库。综合公众情感倾向和公众关注度的分析，体现不同群体对于房地产市场的预期差异及变化。

S4:根据所述关键词数据库及房地产公众情感分析数据库建立房地产公众预期训练模型。本实施例中，可采用Graph Propagation Algorithm、word2vec 及CNN深度学习方法进行情感分析。

Graph Propagation Algorithm是一种词典分类的方法，需要事先建立初始极性词典。其基本思想是计算每一个词与正负极性词典的距离和，并设立阈值，将符合条件的词划分至最终的正负极性词典中，通过该词典对新文本进行分类。word2vec实现了对文本的预处理，建立任意维度词向量，通过词向量可以计算出词之间的相似度。CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

本实施例使用向量空间模型表示文档特征。本实施例使用3种经典的z机器学习模型(朴素贝叶斯NB、逻辑斯特回归LR和支持向量机SVM)训练分类器,并且考虑了基于3种分类算法的集成学习集成方法:

p_nb_j、p_lr_j、p_svm_j分别指朴素贝叶斯模型、逻辑斯蒂回归模型和支持向量机模型预测该样本为第j类的概率,α、β、γ分别是模型所占的权重系数。将得到的加权融合概率p_avgj作为样本预测的依据。权重参数α、β、γ可以根据经验事先指定,也可以由训练集进行交叉验证得到。基本特征模板如表1：

表1基本特征模板

从关键词数据库及房地产公众情感分析数据库建立房地产公众预期数据库中抽取文档特征嵌入表1中的基本特征模板中,训练机器学习分类器,并进行测试。通过上述规则化特征的嵌入,实现机器学习与规则方法的融合,其优势主要体现在三方面：

1)特征粒度不限于词语级,还包含句子级。

2)基于有强度标记的词典以及多种语义规则,可以提高规则情感分析的精确率,抽取出规则特征包含更准确的情感信息。

3)由特征的数值扩展出它们的数值关系特征,一方面满足分类模型对特征权重的需求(朴素贝叶斯模型只能识别整数特征值),另一方面,特征值的扩展使得模型学习到更多的情感知识。

S5:通过网络爬虫获取待处理数据，所述待处理数据包括微博数据、网页数据、论坛数据以及贴吧数据。

S6:将所述待处理数据输入所述训练模型进行训练。

上述实施例中，得到房地产公众情感分析数据库之后，还可根据预测类型和非预测类型对房地产公众情感分析数据库进行标签，其中，预测类型包括涨、跌和平。

S7:对所述待处理数据进行分类，构建房地产公众预期指数，预测房地产大数据与房地产公众预期指数的相关性。

对所述待处理数据进行分类，可根据待处理数据的来源按不同的媒介和不同的机构进行分类。结合房地产公众预期指数，实时预测不同的媒介和不同的机构与房地产公众预期指数的相关性。

实施本发明实施例所提供的房地产公众预期大数据处理方法，通过构建情绪词典，网络爬虫获取原始数据，对原始数据进行数据清洗及筛选以得到关键词数据库和房地产公众情感分析数据库，再根据关键词数据库和房地产公众情感分析数据库建立训练模型，再将待处理数据输入训练模型进行训练，对所述待处理数据进行分类，结合房地产公众预期指数，实时预测不同的媒介和不同的机构与房地产公众预期指数的相关性。以客观、完整的视角实现对全样本的数据分析，充分聚焦不同机构和不同媒介，对不同机构和不同媒介的房地产公众预期差异进行细致、专业分析。房地产公众预期大数据处理方法可以指导政府科学制定房地产调控政策，有效管理房地产公众预期，引导市场主体行为，促进房地产市场平稳发展。同时也有助于开发商和购房者等经济主体更理性地认识房地产市场，预测市场走势，从而做出理性决策。

相应地，在上述实施例所提供的基于房地产公众预期大数据处理方法的基础上，本发明实施例还提供了一种房地产公众预期大数据处理系统，如图2 所示，本实施例提供的一种房地产公众预期大数据处理系统，包括：情绪词典构建模块1，用于构建基于大数据的房地产市场的情绪词典，所述情绪词典中包含多种情绪信息；

获取模块2，用于通过网络爬虫获取原始数据，所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据；微博数据包括媒体层面数据、企业层面数据、政府层面数据、研究机构数据以及个人层面数据。

清洗筛选模块3，用于对所述原始数据进行数据清洗及筛选处理，以得到关键词数据库及房地产公众情感分析数据库。

训练模型建立模块4，用于根据所述关键词数据库及房地产公众情感分析数据库建立训练模型。

所述获取模块5，还用于通过网络爬虫获取待处理数据，所述待处理数据包括微博数据、网页数据、论坛数据以及贴吧数据。

处理模块6，用于将所述待处理数据输入所述训练模型进行处理。

分类与预测模块7，用于对所述待处理数据进行分类，构建房地产公众预期指数，预测房地产大数据与房地产公众预期指数的相关性。

作为上述技术方案的进一步改进，如图3所示，所述清洗筛选模块3包括第一单元31和第二单元32，其中，第一单元31具体用于：

采用数据挖掘技术分析文本数据的属性，得到清洗数据；

根据所述修正数据得到所述关键词数据库。

第二单元32具体用于：对所述原始数据进行中文分词，以确定文档特征；

作为上述技术方案的进一步改进，如图4所示，所述第二单元32包括属性词库构建单元321，所述属性词库中包含属性词的关注度信息；情感分析单元322，用于利用所述情绪词典和属性词库进行情感分析，得到句子级情感数据库；筛选单元323，用于筛选所述句子级情感数据库中的句子级情感倾向数据；汇总单元324，用于将所述句子级情感倾向数据进行汇总，得到公众情感倾向信息；将所述属性词库中的属性词关注度数据进行汇总，得到公众关注度信息；房地产公众情感分析数据构建单元325，用于根据所述公众情感倾向信息和公众关注度信息，构建房地产公众情感分析数据库。

系统还包括标签模块8，标签模块8用于根据预测类型和非预测类型对所述房地产公共舆情数据库进行标签，所述预测类型包括涨、跌和平。

需要说明的是，图2所示的房地产公众预期大数据处理系统的具体工作流程请参考图1所述的方法实施例，在此不再赘述。

实施本发明实施例所提供的房地产公众预期大数据处理系统，通过构建情绪词典，网络爬虫获取原始数据，对原始数据进行数据清洗及筛选以得到关键词数据库和房地产公众情感分析数据库，再根据关键词数据库和房地产公众情感分析数据库建立训练模型，再将待处理数据输入训练模型进行训练，对所述待处理数据进行分类，结合房地产公众预期指数，实时预测不同的媒介和不同的机构与房地产公众预期指数的相关性。以客观、完整的视角实现对全样本的数据分析，充分聚焦不同机构和不同媒介，对不同机构和不同媒介的房地产公众预期差异进行细致、专业分析。

房地产公众预期处理系统可以指导政府科学制定房地产调控政策，有效管理房地产公众预期，引导市场主体行为，促进房地产市场平稳发展。同时也有助于开发商和购房者等经济主体更理性地认识房地产市场，预测市场走势，从而做出理性决策。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种房地产公众预期大数据处理方法，其特征在于，具体包括以下步骤：

将所述待处理数据输入所述训练模型进行训练；

对所述待处理数据进行分类，构建房地产公众预期指数，预测房地产大数据与房地产公众预期指数的相关性；

对所述原始数据进行数据清洗及筛选处理，以得到关键词数据库具体包括：

采用数据挖掘技术分析文本数据的属性，得到清洗数据；

根据所述修正数据得到所述关键词数据库；

对所述原始数据进行数据清洗及筛选处理，以得到房地产公众情感分析数据库具体包括：

对所述原始数据进行中文分词，以确定文档特征；

基于所述文档特征进行情感分析，以得到房地产公众情感分析数据库；

所述基于所述文档特征进行情感分析，得到房地产公众情感分析数据库的方法具体包括：

构建属性词库，所述属性词库中包含属性词的关注度信息；

筛选所述句子级情感数据库中的句子级情感倾向数据；

2.如权利要求1所述房地产公众预期大数据处理方法，其特征在于，所述方法还包括：根据预测类型和非预测类型对所述房地产公共情感分析数据库进行标签，所述预测类型包括涨、跌和平。

3.一种房地产公众预期大数据处理系统，其特征在于，包括，

情绪词典构建模块，用于构建基于大数据的房地产市场的情绪词典，所述情绪词典中包含多种情绪信息；

分类与预测模块，用于对所述待处理数据进行分类，构建房地产公众预期指数，预测房地产大数据与房地产公众预期指数的相关性；

采用数据挖掘技术分析文本数据的属性，得到清洗数据；

根据所述修正数据得到所述关键词数据库；

所述清洗筛选模块还包括第二单元，具体用于：

对所述原始数据进行中文分词，以确定文档特征；

所述第二单元包括属性词库构建单元，所述属性词库中包含属性词的关注度信息；情感分析单元，用于利用所述情绪词典和属性词库进行情感分析，得到句子级情感数据库；筛选单元，用于筛选所述句子级情感数据库中的句子级情感倾向数据；汇总单元，用于将所述句子级情感倾向数据进行汇总，得到公众情感倾向信息；将所述属性词库中的属性词关注度数据进行汇总，得到公众关注度信息；房地产公众情感分析数据构建单元，用于根据所述公众情感倾向信息和公众关注度信息，构建房地产公众情感分析数据库。

4.如权利要求3所述的房地产公众预期大数据处理系统，其特征在于，所述系统还包括标签模块，用于根据预测类型和非预测类型对所述房地产公众情感分析数据库进行标签，所述预测类型包括涨、跌和平。