CN108509492B

CN108509492B - 基于房地产行业的大数据处理及系统

Info

Publication number: CN108509492B
Application number: CN201810146273.5A
Authority: CN
Inventors: 董纪昌; 郑长敬; 刘颖; 李秀婷; 董志
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-02-12
Filing date: 2018-02-12
Publication date: 2023-01-03
Anticipated expiration: 2038-02-12
Also published as: CN108509492A

Abstract

本发明实施例公开了一种基于房地产行业的大数据处理方法及系统，方法包括：通过网络爬虫获取原始数据；对原始数据进行数据清洗及筛选处理，以得到关键词数据库及房地产公众舆情数据库；根据关键词数据库及房地产公众舆情数据库建立训练模型；通过网络爬虫获取待处理数据；将待处理数据输入所述训练模型以得到处理结果。实施本发明实施例，实现了对数据的精细化处理，为后续基于该数据进行房地产行业预期的准确性提供了保证。

Description

基于房地产行业的大数据处理及系统

技术领域

本发明涉及大数据处理技术领域，具体涉及一种基于房地产行业的大数据处理方法及系统。

背景技术

目前，房地产行业的背景主要包括以下方面：

(1)外部环境因素的不确定性和复杂性：通过公众预期的调整，进一步影响房地产市场波动，这种不确定性越大，由预期引致的市场波动也将越为剧烈。由此可以认为，研究预期的测度、形成及其对房地产市场的作用机理，有助于深入认识房地产市场的波动规律；

(2)有效管理市场：公众预期管理是政策制定者最为重视的目标之一。研究公众预期的测度、形成及其对房地产市场的作用机理，有助于政府有效实施房地产调控，合理管理房地产公众预期和主体行为。

基于上述房地产行业的现状，有必要开展大数据环境下、房地产行业预期的研究。在基于大数据进行房地产行业预期时，由于对数据处理过于粗糙，因此难以保证后续基于大数据进行房地产行业预期的准确性。

发明内容

本发明实施例的目的在于提供一种基于房地产行业的大数据处理方法及系统，以对数据进行精细化处理，为后续基于该数据进行房地产行业预期的准确性提供保证。

为实现上述目的，第一方面，本发明实施例提供了一种基于房地产行业的大数据处理方法，包括：

通过网络爬虫获取原始数据，所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据；

对所述原始数据进行数据清洗及筛选处理，以得到关键词数据库及房地产公众舆情数据库；

根据所述关键词数据库及房地产公众舆情数据库建立训练模型；

通过网络爬虫获取待处理数据，所述待处理数据包括微博数据、网页数据、论坛数据以及贴吧数据；

将所述待处理数据输入所述训练模型以得到处理结果。

作为本申请一种优选的实施方式，对所述原始数据进行数据清洗及筛选处理，以得到关键词数据库具体包括：

采用文本处理技术对原始数据进行去噪、解析和分词，得到文本数据；

采用数据挖掘技术分析文本数据的属性，得到清洗数据；

针对不同地区设置影响因素，根据不同地区的影响因素对所述清洗数据进行筛选，得到初始数据；

根据地区下属的管辖区域对初始数据进行扩充，得到扩充数据；

定义扩充数据中的核心词条，针对核心词条对扩充数据中进行长尾关键词和短尾关键词的补充；

对所述初始数据以及补充后的扩充数据进行修正，以得到修正数据；

根据所述修正数据得到所述关键词数据库。

作为本申请一种优选的实施方式，对所述原始数据进行数据清洗及筛选处理，以得到房地产公众舆情数据库具体包括：

对所述原始数据进行中文分词，以确定文档特征；

基于所述文档特征进行情感分析，以得到房地产公众舆情数据库。

作为本申请一种优选的实施方式，大数据处理方法还包括：

根据预测类型和非预测类型对所述房地产公共舆情数据库进行标签，所述预测类型包括涨、跌和平。

作为本申请一种优选的实施方式，根据预测类型和非预测类型对所述房地产公共舆情数据库进行标签，所述预测类型包括涨、跌和平。

第二方面，本发明实施例提供了一种基于房地产行业的大数据处理系统，包括：

获取模块，用于通过网络爬虫获取原始数据，所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据；

清洗筛选模块，用于对所述原始数据进行数据清洗及筛选处理，以得到关键词数据库及房地产公众舆情数据库；

建立模块，用于根据所述关键词数据库及房地产公众舆情数据库建立训练模型；

所述获取模块，还用于通过网络爬虫获取待处理数据，所述待处理数据包括微博数据、网页数据、论坛数据以及贴吧数据；

处理模块，用于将所述待处理数据输入所述训练模型以得到处理结果。

作为本申请一种优选的实施方式，所述清洗筛选模块包括第一单元，具体用于：

采用数据挖掘技术分析文本数据的属性，得到清洗数据；

对所述初始数据以及补充后的扩充数据进行修正，以得到修正数据。

根据所述修正数据得到所述关键词数据库。

作为本申请一种优选的实施方式，所述清洗筛选模块还包括第二单元，具体用于：

对所述原始数据进行中文分词，以确定文档特征；

作为本申请一种优选的实施方式，所述系统还包括标签模块，用于：

实施本发明实施例，通过网络爬虫获取原始数据，对原始数据进行数据清洗及筛选以得到关键词数据库和房地产公众舆情数据库，再根据关键词数据库和房地产公众舆情数据库建立训练模型，最后将待处理数据输入训练模型以得到训练结果，实现了对数据的精细化处理，为后续基于该数据进行房地产行业预期的准确性提供了保证。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1是本发明第一实施例提供的基于房地产行业的大数据处理方法的示意流程图；

图2是微博数据示意图；

图3是本发明第一实施例提供的基于房地产行业的大数据处理系统的结构示意图；

图4是图3中清洗筛选模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

请参考图1，是本发明第一实施例所提供的基于房地产行业的大数据处理方法的流程示意图，如图所示，该方法可以包括如下步骤：

S101，通过网络爬虫获取原始数据。

其中，原始数据包括微博数据、网页数据、论坛数据以及贴吧数据。微博数据可分为如图2所示的五类，即媒体层面数据、企业层面数据、政府层面数据、研究机构层面数据以及个人层面数据。媒体层面数据来源于房产网、官方微信、周刊、栏目节目、信息平台。企业层面数据来源于地产公司等企业。政府层面数据来源于房产管理处、建设局、交易中心、国土资源规划等政府层面。研究机构数据来源于协会、研究院、高校等研究机构。个人层面数据来源于个人的微博平台。数据来源广，更加全面。

S102，对原始数据进行数据清洗及筛选处理，以得到关键词数据库及房地产公众舆情数据库。

本实施例中，可采用以下方法得到关键词数据库：

(1)采用文本处理技术对原始数据进行去噪、解析和分词，得到文本数据；

具体地，去噪、解析主要用于根据语法去掉原始数据中多余的词组，例如连接词、语气词等；分词用于将长句分成多个词组；

(2)采用数据挖掘技术分析文本数据的属性，得到清洗数据；

(3)针对不同地区设置影响因素，根据不同地区的影响因素对清洗数据进行筛选，得到初始数据；

具体地，所述影响因素包括供给层面和需求层面。供给层面包括土地供给与使用(土地供给、土地使用、土地购置面积等)，房地产开发投资情况(开发贷款、开发资金、资金结构、各类投资、信贷来源、资金链等)，房地产开发建设情况(新开工、竣工、待售、供给、建设等)。需求层面包括销售情况(销售额、销售面积、购房支付能力、购房意愿等)，成交需求(投资需求、投机需求、刚性需求、改善性需求等)，其他需求(学区房、公租房、廉租房、保障性住房、限购房等)。

(4)根据地区下属的管辖区域对初始数据进行扩充，得到扩充数据；

例如：步骤(3)构建了北京市房地产初始数据，步骤S12根据北京市下属的管辖区域进行扩充，使得该数据库中的数据包含北京各个管辖区域、小区、地铁等，覆盖更加全面。

(5)定义扩充数据中的核心词条，针对核心词条对扩充数据中进行长尾关键词和短尾关键词的补充；

具体地，可以结合百度搜索、百度指数工具、百度竞价后台的关键词规划师、SEO(站长关键词工具、爱站SEO等)等工具围绕核心词条补充长尾关键词和短尾关键词。

(6)对所述初始数据以及补充后的扩充数据进行修正，以得到修正数据；

(7)根据所述修正数据得到所述关键词数据库。

需要说明的是，上述步骤(1)至(3)描述了一种数据清洗方法，除上述数据清洗方法外，本实施例中提供另一种数据筛选方法，具体方案如下：

采用五元组简单过滤方法进行数据预处理，然后采用KNN文本分类方法确定源信息的性质，最后通过优化的AdaBoost方法得到数据与根据聚类分析得到的样本进行特征匹配，最终实现深层内容过滤；

其中，具体步骤包括：

五元组简单过滤；

首先对爬取的网络数据进行简单的一级过滤一五元组过滤；定义变量SIP，DIP，SP，DP，PT分别表示五元组过滤中的源IP地址、目的IP地址、源端口号、口的端口号和传输协议类型，它们构成了五元组的基本元素；在一次会话中，根据过滤策略确定掩码SIP_MASK，DIP_MASK，SP_MASK，DP_MASK和PT_MASK的值，组成PCL，从而进行信息一级过滤；

2.KNN文本分类方法确定源性质；

将经过五元组过滤处理后的数据称为新文本，将其与给定的训练文本集中的文本进行KNN文本分类计算，对新的输入实例即新文本，在训练文本集中找到与该实例最邻近的K个实例，则这K个实例的多数所属于的那个类，就是新文本的类：也就是说，把新文本和训练文本都看作是一个N维向量，计算新文本与训练文本集中每个文本的相似度，找出K个最相似的样本，通过加权距离和训练文本所属的类别来确定新义本的类别；

其中，KNN算法过程描述如下：

1)对于新文本及训练文本，根据特征词形成新文本向量和训练文本向量：

根据传统的向量空间模型，文本信息被形式化为特征空间中的加权特征向量；即D＝D(T1，W1；T2，W2；...；Tn，Wn)，根据特征词确定新文本及训练文本的向量表示；

计算新文本与训练文本集中每个文本的文本相似度，计算公式为：

其中di为新文本的特征向量，dj为第j类的中心向量，M为特征向量的维数，Wk为向量的第k维；

对于k值，因为KNN方法被看作是一种从样木中估计后验概率p(w_i|x)的方法，所以为了得到可靠的估计，k值需越大越好，这样才可以提高估计的准确性，但另一方面，又希望这k个邻近点即离新文本越近越好，记新文本后验概率为p(w_i|x_i)，只有当这k个邻近点即离新文本越近时，p(w_i|x_i)才会尽可能的逼近p(w_i|x)，以往都是根据人们的个人经验来确定k值，所以经常出现估计不准确的情况，若k值选择的过小，得到的邻近数会过小，则降低分类精度，若k值选择的过大，则容易增加噪声数据降低分类准确性，故现通过大量的实验证明，当k值取数据库中的所有文本个数时，新文本的分类结果为全局最优解；

3)在新文本的k个邻居中，依次计算每类的权重，

其中x为新文本的特征向量，

为相似度计算公式，

为数据源性质；

4)比较类的权重，将文本分到权重最大的那个类别中去；

综上所述，数据通过KNN文木分类的方法对数据信息进行二级过滤，确定数据源的性质；

3.优化的AdaBoost方法进行深层内容过滤；

本方法提出基于AdaBoost算法的最小风险贝叶斯深层过滤算法是以AdaBoost算法作为分类器的训练框架，用最小风险贝叶斯分类算法代替AdaBoost算法中的弱分类器，作为AdaBoost的分类器，达成两个算法的结合，即基于AdaBoost的最小风险贝叶斯深层过滤算法；

AdaBoost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后将这些弱分类器集合起来，最终构成一个最强的最终分类器(强分类器)：其算法是根据改变数据分布来实现的，根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确性来确定每个样本的权值，将修改过的最新权值送到下层分类器中进行训练，最后将每次训练后得到的分类器进行融合，输出最终的最强分类器；

若训练样本集为：S＝{(x₁,y₁),(x₂,y₂),…,(x_i,y_i),x_i∈X,y_i∈Y}，X，Y分别对应于正例样本和负例样本，M为训练的最大循环次数，分类器的错误率记为ε_m，最小错误率记为

在AdaBoost原算法中，通过一个加权的多数表决方法来整合全部决策以产生最终的决策：

其中P_m(x)为分类器决策函数，AdaBoost算法可以对学习得到的弱分类器的错误进行适当整合，每一次迭代都要对权重进行更新，减小弱分类器分类效果较好的数据的权重，增大弱分类器分类效果较差的数据的权重，最终的分类器是弱分类器的加权平均；

贝叶斯分类算法是通过某对象的先验概率模型，利用贝叶斯公式计算出其后验概率；即对象源属于哪一类的主题，选择具有最大后验概率的类作为对象源所属的主题；通过训练源数据集合，由贝叶斯理论得到每个数据信息在小同类的概率大小，构造出贝叶斯模型；朴素贝叶斯是贝叶斯分类模型中误差率最小的，并且其所需估计参数很少，实现算法简单；最小风险贝叶斯分类算法就是以贝叶斯和朴素贝叶斯为基础来解决错误率问题，是最小错误率意义上的最优化；在本方法中，若数据被判定为“敏感数据”当作垃圾数据过滤掉，但其恰恰又是用户所需要的内容，则会给用户造成很大的损失：通过最小风险贝叶斯分类方法确定数据源的主题，按照不同的主题过滤策略进行过滤，把所有分类错误都考虑进去，会很大程度上降低误判的风险；

已知P(ω_i),P(X|ω_j),i＝1,2…,c及待识别的X(待过滤的网络数据包)的情况下，根据贝叶斯公式来计算出后验概率，

其中P(ω_i)是先验概率，是由以往用户对网络数据的需求分析所得到的；P(ω_j|X)是后验概率，是在得到信息X之后再重新加以更正的概率，P(X|ω_i)是根据以往用户对网络数据的需求经验来判断收到的待识别X是否为垃圾网络数据的概率；

记数据损失为α，将决策判定规则定义为：

1)当网络数据是垃圾数据时，将其判断为垃圾数据不会造成任何损失，α＝0；

2)当把垃圾网络数据判定为合法数据时，则损失α＝0；

3)当把用户所需网络数据判定为垃圾数据时，则造成的损失是不可估量的，0<α<∞；

根据计算后得出的后验概率和设定的决策规则，按以下公式计算出采取di，i＝1，2，……a的条件风险：

考虑到数据被误判后，要将损失。α→0降到最小，故对之前得到的d个条件风险值R(d_i|X)进行比较，从中找出使条件风险最小的决策，记为dk,dk就是最小风险贝叶斯分类决策；

本方法优化的AdaBoost方法如下：

以矩阵的形式输入网络数据，初始化权重

执行循环m＝1，2,……，M，将ω_i的值代入AdaBoost框架中，通过最小风险贝叶斯分类器进行训练，得到假设P:X∈y_i，将分类器对整个数据集进行遍历，并标记P分类正确的样本和分类错误的样本，根据总体样本的数量来判断错误样例个数，计算P的分类错误率α_m，将分类错误率α_m更新，得到训练样本的权值为

继续开始下一轮的循环，直至M次循环结束；通过多次循环，基于AdaBoost的最小风险贝叶斯分类算法可归结出M个分类器Pm，经过算法得到：

最终P(x)就是基于内容的深层过滤算法中经过M次学习后所得到的最终分类器。其中Pm(X)为分类器决策函数，AdaBoost算法可以对学习得到的弱分类器的错误进行适当整合，每一次迭代都要对权重进行更新，减小弱分类器分类效果较好的数据的权重，增大弱分类器分类效果较差的数据的权重，最终的分类器是弱分类器的加权平均。

本实施例中采样上述数据筛选方法对网络爬虫获取的原始数据进行处理，与传统的数据筛选方法相比，该方法具有更高的过滤精确度，得到了更准确的数据。

进一步地，本实施例中，可采用以下方法得到房地产公众舆情数据库：

对原始数据进行中文分词，以确定文档特征；

基于上述文档特征进行情感分析，以得到房地产公众舆情数据库。

本实施例中，可采用Graph Propagation Algorithm结合word2vec方法进行情感分析。

S103，根据关键词数据库及房地产公众舆情数据库建立训练模型。

S104，通过网络爬虫获取待处理数据。

其中，待处理数据包括微博数据、网页数据、论坛数据以及贴吧数据；

S105，将待处理数据输入训练模型以得到处理结果。

上述实施例中，得到房地产公众舆情数据库之后，还可根据预测类型和非预测类型对房地产公众舆情数据库进行标签，其中，预测类型包括涨、跌和平。

实施本发明实施例所提供的的基于房地产行业的大数据处理方法，通过网络爬虫获取原始数据，对原始数据进行数据清洗及筛选以得到关键词数据库和房地产公众舆情数据库，再根据关键词数据库和房地产公众舆情数据库建立训练模型，最后将待处理数据输入训练模型以得到训练结果，实现了对数据的精细化处理，为后续基于该数据进行房地产行业预期的准确性提供了保证。

相应地，在上述实施例所提供的基于房地产行业的大数据处理方法的基础上，本发明实施例还提供了一种基于房地产行业的大数据处理系统。请参考图3，该大数据处理系统包括：

获取模块10，用于通过网络爬虫获取原始数据，所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据；其中，微博数据包括媒体层面数据、企业层面数据、政府层面数据、研究机构数据以及个人层面数据；

清洗筛选模块11，用于对所述原始数据进行数据清洗及筛选处理，以得到关键词数据库及房地产公众舆情数据库；

建立模块12，用于根据所述关键词数据库及房地产公众舆情数据库建立训练模型；

所述获取模块10，还用于通过网络爬虫获取待处理数据，所述待处理数据包括微博数据、网页数据、论坛数据以及贴吧数据；

处理模块13，用于将所述待处理数据输入所述训练模型以得到处理结果。

进一步地，如图4所示，清洗筛选模块11包括第一单元111以及第二单元112。其中，第一单元111具体用于：

采用数据挖掘技术分析文本数据的属性，得到清洗数据；

根据所述修正数据得到所述关键词数据库。

第二单元112具体用于：

对所述原始数据进行中文分词，以确定文档特征；

进一步地，本实施例中的大数据处理系统还包括标签模块，用于：

需要说明的是，图3所示大数据处理系统的具体工作流程请参考图1所述的方法实施例，在此不再赘述。

实施本发明实施例提供的基于房地产行业的大数据处理系统，通过网络爬虫获取原始数据，对原始数据进行数据清洗及筛选以得到关键词数据库和房地产公众舆情数据库，再根据关键词数据库和房地产公众舆情数据库建立训练模型，最后将待处理数据输入训练模型以得到训练结果，实现了对数据的精细化处理，为后续基于该数据进行房地产行业预期的准确性提供了保证

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于房地产行业的大数据处理方法，其特征在于，包括：

通过网络爬虫获取原始数据，所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据；所述微博数据包括媒体层面数据、企业层面数据、政府层面数据、研究机构数据以及个人层面数据；所述媒体层面数据来源于房产网、官方、微信、周刊、栏目节目和信息平台，所述企业层面数据来源于地产公司，所述政府层面数据来源于房产管理处、建设局、交易中心和国土资源规划中心，所述研究机构数据来源于协会、研究院和高校，所述个人层面数据来源于个人的微博平台；

将所述待处理数据输入所述训练模型以得到处理结果；其中，对所述原始数据进行数据清洗及筛选处理，以得到关键词数据库，具体包括：

采用文本处理技术对原始数据进行去噪、解析和分词，得到文本数据；去噪、解析用于根据语法去掉原始数据中多余的词组，包括连接词和语气词；分词用于将长句分成多个词组；

采用数据挖掘技术分析文本数据的属性，得到清洗数据；

针对不同地区设置影响因素，根据不同地区的影响因素对所述清洗数据进行筛选，得到初始数据；所述影响因素包括供给层面和需求层面，供给层面包括土地供给与使用、房地产开发投资情况、房地产开发建设情况，需求层面包括销售情况和成交需求，所述土地供给与使用包括土地供给、土地使用和土地购置面积，所述房地产开发投资情况包括开发贷款、开发资金、资金结构、各类投资、信贷来源和资金链，所述房地产开发建设情况包括新开工、竣工、待售、供给和建设，所述销售情况包括销售额、销售面积、购房支付能力和购房意愿，所述成交需求包括投资需求、投机需求、刚性需求和改善性需求；

定义扩充数据中的核心词条，针对核心词条对扩充数据中进行长尾关键词和短尾关键词的补充；具体为，结合百度搜索、百度指数工具、百度竞价后台的关键词规划师、SEO工具围绕核心词条补充长尾关键词和短尾关键词；

根据所述修正数据得到所述关键词数据库；

对所述原始数据进行数据清洗及筛选处理，以得到房地产公众舆情数据库，具体包括：

对所述原始数据进行中文分词，以确定文档特征；

基于所述文档特征进行情感分析，以得到房地产公众舆情数据库，采用GraphPropagation Algorithm结合word2vec方法进行情感分析。

2.如权利要求1所述的基于房地产行业的大数据处理方法，其特征在于，所述大数据处理方法还包括：

3.一种基于房地产行业的大数据处理系统，其特征在于，包括：

获取模块，用于通过网络爬虫获取原始数据，所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据；所述微博数据包括媒体层面数据、企业层面数据、政府层面数据、研究机构数据以及个人层面数据；所述媒体层面数据来源于房产网、官方、微信、周刊、栏目节目和信息平台，所述企业层面数据来源于地产公司，所述政府层面数据来源于房产管理处、建设局、交易中心和国土资源规划中心，所述研究机构数据来源于协会、研究院和高校，所述个人层面数据来源于个人的微博平台；

处理模块，用于将所述待处理数据输入所述训练模型以得到处理结果；

所述清洗筛选模块包括第一单元，具体用于：

采用数据挖掘技术分析文本数据的属性，得到清洗数据；

根据所述修正数据得到所述关键词数据库；

所述清洗筛选模块还包括第二单元，具体用于：

对所述原始数据进行中文分词，以确定文档特征；

4.如权利要求3所述的基于房地产行业的大数据处理系统，其特征在于，所述系统还包括标签模块，用于：