CN108921734A - 一个基于多源异构数据的房地产信息可视化系统 - Google Patents

一个基于多源异构数据的房地产信息可视化系统 Download PDF

Info

Publication number
CN108921734A
CN108921734A CN201810787881.4A CN201810787881A CN108921734A CN 108921734 A CN108921734 A CN 108921734A CN 201810787881 A CN201810787881 A CN 201810787881A CN 108921734 A CN108921734 A CN 108921734A
Authority
CN
China
Prior art keywords
house
real estate
distance
module
house property
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810787881.4A
Other languages
English (en)
Inventor
赵吉昌
赵雅萍
盛浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201810787881.4A priority Critical patent/CN108921734A/zh
Publication of CN108921734A publication Critical patent/CN108921734A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate

Abstract

本发明提出一个基于多源异构数据的房地产信息可视化系统,其特征在于包括:房产信息模块、区域功能模块、交通分析模块、社会感知模块和综合评价模块。所述房产信息模块对房产信息进行展示。所述区域功能模块统计房产周边基础设施的数量与距离。所述交通分析模块统计分析房产周边交通状况、高峰时间。所述社会感知模块挖掘社交媒体数据的文本,通过词频词云、关键词抽取、主题模型等呈现房产周边的社会感知状况。所述综合评价模块,应用多元线性回归分析等统计学方法,建立了多元线性回归模型,确定房地产评价指标与方法,得出基于房地产性价比的有针对性的交易建议,以期支持更合理的购房决策。

Description

一个基于多源异构数据的房地产信息可视化系统
技术领域
本发明涉及一个可视化系统,尤其涉及一个基于多源异构数据的房地产信息可视化系统。
背景技术
二十一世纪以来,我国的房地产业呈现出飞速发展的态势,房地产交易业务的深度、广度和复杂度都在扩大。然而房地产涉及的数据一般为多源化并具有复杂属性特征,以往的业务方式已经很难再科学使用这些数据,传统的工作方式效率低下、准确度低。目前现有技术中,我国大多数企业采用的房地产数据管理方式仍较为传统,即使是已有的一些房地产信息管理系统和地图找房模块,也还停留在功能单一的阶段,未能从深度和广度上有效地挖掘和使用房地产数据的潜在价值。
因此,有必要从房产信息、区域功能、交通分析、社会感知等多视角研究房地产数据可视化,依据更高效、更科学、更全面的数据分析作出综合评价。从而将计算机技术、数据挖掘方法更好地应用于房地产业,为此行业提供更为智能和全景式的技术支持。
发明内容
本发明提供一个基于多源异构数据的房地产信息可视化系统,包括:房产信息模块、区域功能模块、交通分析模块、社会感知模块和综合评价模块。所述房产信息模块,以总价和每平方米单价作为评价房价的主要指标,通过描述性统计,划分房价等级,用于提供购房建议。所述区域功能模块,根据统计分析得到每套房屋周边设施的数量和平均距离,分析房屋所在地区的功能,研究其对房价的影响,根据百分位数划分周边基础设施的数量等级和距离等级。所述交通分析模块,由行车轨迹数据的绝对速度计算得到相对速度,对相对速度取绝对值后再求平均值,以此为指标,衡量不同地区的拥堵程度,并且统计分析小区周边的交通状况、高峰时间等;所述社会感知模块,收集包含定位信息的微博数据进行文本挖掘,实现方法主要包括词频分析及词云展现、关键词抽取、主题模型等;通过情感倾向分析工具,将文本自动归类于愤怒、厌恶、高兴、悲伤或恐惧,并计算情绪分布。所述综合评价模块,在多源异构数据融合的基础上,通过回归分析和主成分分析等统计学方法,量化房价和多变量之间的相关关系,在不同的数据属性之间建立映射关系,发现了对房价具有显著影响的若干个关键因素,建立了多元线性回归模型,确定房地产评价指标与方法。
本发明能够在互联网环境中收集海量数据用于房地产分析,融合多源异构数据,从多视角对房地产进行评价,并对每一视角展开深度剖析。经多视角研究房价规律后,建立了直观的、图形化的、交互性强的数据可视化系统,实现自动化的离线分析与结果可视化。突破传统的房地产信息管理方式,将计算机技术,尤其是数据挖掘方法更好地应用于房地产业,为其提供强大的技术支持和分析赋能。一方面帮助房地产商更充分地展示其房屋信息,为企业提供方便宜用的交易平台;另一方面让普通购房用户在短时间内对房屋有全面综合的了解,有助于提高房地产市场的交易效率和收益增速。
附图说明
图1为本发明的组成框图;
图2为本发明中的房产信息模块实现流程图;
图3为本发明中的区域功能模块实现流程图;
图4为本发明中的交通分析模块实现流程图;
图5为本发明中的社会感知模块实现流程图;
图6为本发明中的综合评价模块实现流程图;
图7为本发明中的数据可视化系统的首页样例;
图8为本发明中的数据可视化系统的地图点标注样例;
图9为本发明中的数据可视化系统的信息窗口样例;
图10为本发明中的数据可视化系统的地图点聚合样例;
图11为本发明中的数据可视化系统的房产信息模块样例;
图12为本发明中的数据可视化系统的区域功能模块样例;
图13为本发明中的数据可视化系统的交通分析模块样例;
图14为本发明中的数据可视化系统的社会感知模块样例;
图15为本发明中的数据可视化系统的综合评价模块样例;
图16为本发明中的综合评价模块中抽取关键分析视角的示例;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明系统包括房产信息模块、区域功能模块、交通分析模块、社会感知模块和综合评价模块,系统实现首页如图7示、房产地图呈现效果如图8示、小区多视角描述示例如图9示、城市地产分布情况概述如图10示。
所述房产信息模块,完成房产信息的展示,房产信息包括基本信息、建筑属性、交易属性、户型分间,从总价和每平米单价两方面提出购房建议。
所述区域功能模块,完成房产周边基础设施的数量与距离统计,数据获取方式分为在线单点获取和爬虫批量抓取,基础设施分为交通设施、公园景点、教育机构、医疗机构、餐饮休闲、商场超市。
所述交通分析模块,完成房产周边交通状况、高峰时间的统计分析,根据所在地区一天之内不同时刻行车轨迹,计算相对速度的绝对值的平均值,作为衡量拥堵程度的依据,拥堵程度分为畅通、缓行、拥堵三个等级。
所述社会感知模块,完成对微博数据的文本挖掘,研究方法主要包括词频统计及词云展现、关键词抽取、主题模型、情感倾向分析等。关键词抽取算法采用无监督学习算法,主要包括基于TF-IDF关键词抽取算法和基于TextRank关键词抽取算法。情感倾向分析结果分为愤怒、厌恶、高兴、悲伤和恐惧五类。
所述综合评价模块,应用回归分析和主成分分析等统计学分析方法,建立了多元线性回归模型,确定房地产评价指标与方法,明确对房价具有显著影响的若干关键因素,提出基于房地产性价比的有针对性的交易建议,支持更合理的购房决策。多元线性回归模型的变量包括:周边基础设施的数量与距离、交通拥堵程度、情感倾向。
如图2所示,所述房产信息模块,从总价和每平米单价两方面提出购房建议,系统实现示例如图11示。具体实现为:
步骤2a,基于网络爬虫,收集主流房地产网站发布的房地产信息;
步骤2b,使用房地产数据作描述性统计,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形;
步骤2c,基于描述性统计,以总价和每平方米单价为评价房价的主要指标,分别选取第25、50、75百分位数作为阈值,并据此将房价等级划分为非常便宜、稍便宜、稍昂贵、非常昂贵。
如图3所示,所述区域功能模块实现房产周边基础设施的数量与距离统计,基于统计分析结果评价房产,系统实现示例如图12示。具体实现为:
步骤3a,获取房产周边基础设施信息,数据获取方式分为在线单点获取和爬虫批量抓取,基础设施分为交通设施、公园景点、教育机构、医疗机构、餐饮休闲、商场超市。为区域功能模块提供数据基础;
步骤3b,统计分析得到每套房屋周边设施的数量和平均距离,分析房屋所在地区的功能,区域功能分类为办公区、生活区、教育区、娱乐区四类;
步骤3c,根据统计分析结果,分别选取周边基础设施数量分布的25、50、75百分位数作为阈值,划分周边基础设施的数量等级,数量等级分为很少、略少、略多、很多;
步骤3d,根据统计分析结果,分别选取周边基础设施距离分布的50、80百分位数作为阈值,划分周边基础设施的距离等级,距离等级分为稍远、中等、很近三类;
步骤3e,依据周边基础设施的数量等级和距离等级,对房价作出评价;
所述区域功能模块中周边设施数据的获取,使用在线单点获取方式的具体实现过程为:
步骤4a,用户在浏览器中点击房屋,触发浏览器向服务器发送请求;
步骤4b,服务器返回当前房屋的地理位置;
步骤4c,浏览器向第三方地图服务商(如百度)API发送请求,使用房屋坐标搜索周边信息;
步骤4d,对于每一类基础设施,在查询到结果后立即向服务器发送查询结果;
步骤4e,服务器在接收到数据后,传递数据给前端展示。
所述区域功能模块中周边设施数据的获取,使用爬虫批量抓取方式的具体实现过程为:
步骤5a,遍历数据库中已有的房屋数据,获取地理坐标;
步骤5b,以房屋的地理坐标作为参数,调用Web服务API,从第三主地图服务商(如百度)检索周边基础设施;
步骤5c,对于每一类基础设施,在查询到结果后立即统计数量、计算平均距离,并存储到数据库,显示结果如图9示。
如图4所示,所述交通分析模块实现房产周边交通状况、高峰时间的统计分析。具体实现为:
步骤6a,收集交通记录数据,主要包含不同时间段的交通速度信息;
步骤6b,根据行车轨迹的绝对速度值变化,计算得到拥堵程度数值,拥堵程度数值计算公式为:
其中,C为拥堵程度数值,Vabs为行车轨迹的绝对速度值,Vavg为绝对速度的平均值,绝对速度平均值的计算公式为:
其中,Vavg为绝对速度的平均值,Vabs i为第i个行车轨迹的绝对速度,n为行车轨迹的数量。
步骤6c,依据拥堵程度数值,分别选取第33、66百分位数作为划分等级的阈值,并据此将拥堵程度分为畅通、缓行、拥堵三个等级,显示示例如图13示。
如图5所示,所述社会感知模块完成对微博数据的文本挖掘,实施方法主要包括词频统计及词云展现、关键词抽取、主题模型等,实现效果示例如图14示。具体实现为:
步骤7a,获取一定时间段内带地理定位信息的社交媒体文本数据(如新浪微博);
步骤7b,对社交媒体文本数据进行过滤与清洗;
步骤7c,统计词频,选取分值最高的若干个(如20个)候选词完成词云展现;
步骤7d,采用无监督学习算法进行关键词抽取,主要包括基于TF-IDF的关键词抽取算法和基于TextRank的关键词抽取算法;
步骤7e,根据词频统计,应用LDA模型,发现主要话题;
步骤7f,对每个社交媒体文本进行情感分析(如通过情绪分类工具),情感倾向分析结果分为愤怒、厌恶、高兴、悲伤和恐惧五类,计算情绪分布。
所述社会感知模块中社交媒体文本数据实现过滤与清洗,具体实现为:
步骤8a,进行分词处理后,去除停用词、标点符号和特殊字符;
步骤8b,采用正则表达式检索,去除网址和表情等无效文本内容;
步骤8c,只保留词性为名词的词语,去除其他词性的词语。
所述社会感知模块中,主题模型的具体实现过程为:
步骤9a,每条社交媒体文本(如新浪微博)作为一个文档,相关文档构成文档集;
步骤9b,遍历文档集中所有的文档,为每个不重复的单词分配一个单独的ID,同时收集该单词出现次数以及相关的统计信息;
步骤9c,构建单词-文本矩阵,该矩阵每一行对应文档集中的一篇文档,每一列对应一个单词,矩阵用于描述文档词频。
步骤9d,应用LDA模型,建立主题模型,发现主要话题。
所述社会感知模块中计算情绪分布,具体实现为:
步骤10a,对每个社交媒体文本进行情感分析,情绪倾向分为若干类别(如愤怒、厌恶、高兴、悲伤、恐惧);
步骤10b,统计每种情绪倾向的数量,计算其占总量的百分比,作为衡量情绪分布的依据;
步骤10c,选取所占百分比最高的一类情绪作为主要情绪。
如图6所示,所述综合评价模块,完成基于多源异构数据融合的房地产性价比评价,发现影响房价的关键因素,系统实现示例如图15示。具体实现为:
步骤11a,通过回归分析,在房价与不同的数据属性之间建立映射关系,建立多元线性回归模型,确定房地产评价指标与方法;
步骤11b,通过主成分分析,对多变量进行降维,发现对房价具有显著影响的若干关键因素,并研究房价和多变量之间的相关关系。
所述综合评价模块中,回归分析的具体实现过程为:
步骤11a,以房地产每平方米单价为因变量,以房屋周边的交通设施、公园景点、教育机构、医疗机构、餐饮休闲、商场超市的数量和平均距离,交通拥堵程度(一天内相对速度的绝对值的平均值*100),不同情绪所占百分比等多方面指标为变量,应用回归分析方法;
步骤11b,用逐步法排除对房价无显著影响的变量,模型最终保留的预测变量为:教育数量(教育机构数量),公园数量,厌恶情绪占比,交通距离(到交通设施的平均距离),商场数量,拥堵程度,恐惧情绪占比,餐饮距离(到餐饮机构的平均距离),餐饮数量(餐饮机构数量),医疗数量(医疗机构数量),教育距离(到教育机构的平均距离),医疗距离(到医疗机构的平均距离),公园距离(到公园的平均距离),愤怒情绪占比,商场距离(到商场的平均距离);
步骤11c,建立多元线性回归模型,模型最终调整R2为0.335,所有自变量T检验的显著性均小于0.05,得到关于房地产每平方米单价的多元线性回归方程如下:
房地产每平方米单价=-1079.853+27.515395*交通设施平均距离+309.233114*公园景点数量+3.007212*公园景点平均距离+350.851*教育设施数量-10.593059*教育设施平均距离+156.098485*医疗机构数量+7.669164*医疗机构平均距离+144.861526*餐饮休闲数量+18.142863*餐饮休闲平均距离-250.220303*商场超市数量+4.345397*商场超市平均距离+175.356404*交通拥堵程度+129.675012*愤怒情绪占比+957.512561*厌恶情绪占比+225.793654*恐惧情绪占比
所述综合评价模块中,对房产进行综合评价的具体实现过程为:
步骤12a,对于每一套房产,将其属性及周边相关变量代入多元回归分析方程,计算得到房价期望值,将期望值与实际值做对比,若期望值高于实际值,则房地产的性价比高,给出“购买”的决策推荐;若期望值低于实际值,则房地产的性价比低,给出“观望或协商”的决策推荐。
步骤12b,对房产属性及其周边多视角特征,具体包括房屋总价、房屋单价、交通数量(交通设施数量)、交通距离(到交通设施的平均距离)、公园数量、公园距离(到公园的平均距离)、教育数量(教育机构数量)、教育距离(到教育设施的平均距离)、医疗数量(医疗机构数量)、医疗距离(到医疗机构的平均距离)、餐饮数量(餐饮设施数量)、餐饮距离(到餐饮设施的平均距离)、商场数量、商场距离(到商场的平均距离)、交通拥堵指数、愤怒情绪微博比例、厌恶情绪微博比例、高兴情绪微博比例、悲伤情绪微博比例、恐惧情绪微博比例,进行主成分分析并确定最关键的前5项(这里阈值5可以进行调整),以期找出影响房产评价的关键因素;
步骤12c,对于步骤12a中的所有房产相关变量,利用发现的5项主成分,计算这些变量与5项主成分之间的相关关系,实现不同变量的重新组合,以实现主成分的主观解释。具体地,如图16示,5项主成分对应的房产属性(通过主成分分析法进行5项主要成分抽取,并通过旋转方法中的凯撒正态化最大方差法来获取房产变量与5项主成分的相关性,其中旋转在8次迭代后收敛,与某主成分的相关性值越大,则说明该变量应包含于该主成分)分别为:教育设施、公园、交通设施、周边情绪分布及房产价格。因此,在对房产进行综合评价时,应从上述五个方面进行综合描述与系统比较。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一个基于多源异构数据的房地产信息可视化系统,其特征在于包括:房产信息模块、区域功能模块、交通分析模块、社会感知模块和综合评价模块;
所述房产信息模块进行房产信息展示,房产信息包括基本信息、建筑属性、交易属性、户型分间,从总价和每平米单价两方面提出购房建议;
所述区域功能模块统计房产周边基础设施的数量与距离,数据获取方式分为在线单点获取和爬虫批量抓取,所述基础设施包括交通设施、公园景点、教育机构、医疗机构、餐饮休闲、商场超市,并基于统计分析结果评价房产;
所述交通分析模块对房产周边交通状况、高峰时间进行统计分析,根据所在周边区域一天之内不同时刻的行车速度记录,计算相对速度的绝对值的平均值,作为衡量拥堵程度的依据,拥堵程度分为畅通、缓行、拥堵三个等级;
所述社会感知模块挖掘相关社交媒体的文本,包括词频统计及词云展现、关键词抽取、主题模型、情感倾向分析;所述关键词抽取采用无监督学习算法,包括基于TF-IDF关键词抽取算法和基于TextRank关键词抽取算法,所述情感倾向分析包括分析愤怒、厌恶、高兴、悲伤和恐惧五类;
所述综合评价模块进行应用回归分析和主成分分析建立多元线性回归模型,确定房地产评价指标与方法,获取对房价具有显著影响的若干关键因素,产生基于房地产性价比的有针对性的交易建议,给出合理的购房决策;所述多元线性回归模型的变量包括:周边基础设施(如交通出行、教育、餐饮、公园等)的数量与距离、交通拥堵程度、社交媒体中的相关文本的情绪分布等。
2.根据权利要求1所述的一个基于多源异构数据的房地产信息可视化系统,其特征在于,所述房产信息模块,从总价和每平米单价两方面提出购房建议,具体步骤为:
步骤2a,基于网络爬虫,收集主流房地产网站(网站地址可由人工配置)发布的房地产信息;
步骤2b,使用房地产数据进行统计,所述统计包括数据频数分析、集中趋势分析、离散程度分析、分布以及其他基本的统计图形;
步骤2c,基于所述描述性统计,以总价和每平方米单价为评价房价的主要指标,分别选取房价分布的25、50、75百分位数作为阈值,并据此将房价等级划分为非常便宜、稍便宜、稍昂贵、非常昂贵四个等级。
3.根据权利要求1所述的一个基于多源异构数据的房地产信息可视化系统,其特征在于,所述区域功能模块中使用在线单点获取方式的具体实现过程为:
步骤3a,用户在浏览器中点击房屋,触发浏览器向服务器发送请求;
步骤3b,服务器返回当前房屋的地理位置;
步骤3c,浏览器调用服务请求API,向第三方地图服务商发送请求,使用房屋坐标搜索周边信息;
步骤3d,对于每一类基础设施,在查询到结果后立即向服务器发送查询结果;
步骤3e,服务器在接收到数据后,传递数据给前端展示;
所述区域功能模块中使用爬虫批量抓取方式的具体实现过程为:
步骤4a,遍历系统数据库中已有的房屋数据,获取地理坐标;
步骤4b,以房屋的地理坐标作为参数,调用Web服务API,从第三方地图服务商检索周边基础设施;
步骤4c,对于每一类基础设施,在查询到结果后立即统计数量、计算平均距离,并存储到数据库;
所述区域功能模块中基于统计分析结果评价房产的具体实现过程为:
步骤5a,统计分析得到每套房屋周边设施的数量和平均距离,分析房屋所在地区的功能,所述功能分类为办公区、生活区、教育区、娱乐区四类;
步骤5b,根据统计分析结果,分别选取周边设施数量分布的25、50、75 百分位数作为阈值,并据此划分周边基础设施的数量等级,数量等级具体分为很少、略少、略多、很多四个等级;
步骤5c,根据统计分析结果,分别选取周边设施距离分布的33、66百分位数作为阈值,并据此划分周边基础设施的距离等级,所述距离等级分为稍远、中等、很近三类;
步骤5d,依据周边基础设施的数量等级和距离等级,对房价作出评价。
4.根据权利要求1所述的一个基于多源异构数据的房地产信息可视化系统,其特征在于,所述交通分析模块完成房产周边交通状况、高峰时间的统计分析,所述统计分析的步骤为:
步骤6a,收集交通记录数据,主要包含不同时间段的交通速度信息;
步骤6b,根据行车轨迹的绝对速度值变化,计算相对速度;
步骤6c,将相对速度作为衡量拥堵程度的依据,分别选取行车相对速度分布的50、80百分位数作为划分等级的阈值,并据此将拥堵程度分为畅通、缓行、拥堵三个等级。
5.根据权利要求1所述的一个基于多源异构数据的房地产信息可视化系统,其特征在于,所述社会感知模块,完成对微博数据的文本挖掘,所述文本挖掘包括词频统计及词云展现、关键词抽取、主题模型建立,具体步骤为:
步骤7a,获取一定时间段内带地理定位信息的社交媒体文本数据;
步骤7b,对社交媒体文本数据进行过滤与清洗;
步骤7c,统计词频,选取分值最高的若干个候选词;
步骤7d,采用无监督学习方法进行关键词抽取,主要包括基于TF-IDF的关键词抽取算法和基于TextRank算法的关键词抽取算法;
步骤7e,根据词频统计,应用LDA话题模型,发现主要话题;
步骤7f,对每个社交媒体文本进行情感分析,并计算情绪分布。
6.根据权利要求5所述的一个基于多源异构数据的房地产信息可视化系统,其特征在于,在所述步骤7b中,对所述社交媒体文本数据实现过滤与清洗的具体步骤为:
步骤8a,进行分词处理后,去除停用词、标点符号和特殊字符;
步骤8b,采用正则表达式检索,去除网址和表情等无效文本内容;
步骤8c,只保留词性为名词的词语,去除其他词性的词语。
7.根据权利要求5所述的一个基于多源异构数据的房地产信息可视化系统,其特征在于,所述步骤7e的具体步骤为:
步骤9a,每条社交媒体文本作为一个文档,相关文档构成文档集;
步骤9b,遍历所述文档集中所有的文档,为每个不重复的单词分配一个单独的ID,同时收集该单词出现次数以及相关的统计信息;
步骤9c,构建单词-文本矩阵,该矩阵每一行对应文档集中的一篇文档,每一列对应一个单词,矩阵用于描述文档词频。
步骤9d,应用LDA模型,建立主题模型,并发现主要话题。
8.根据权利要求5所述的一个基于多源异构数据的房地产信息可视化系统,其特征在于,所述步骤7f的具体步骤为:
步骤10a,对每个社交媒体文本进行情感分析,情绪倾向分为五种类别,所述类别包括愤怒、厌恶、高兴、悲伤、恐惧;
步骤10b,统计每种情绪倾向的数量,计算其占总量的百分比,作为衡量情绪分布的依据;
步骤10c,选取所占百分比最高的一类情绪作为对应房产周边的主要情绪。
9.根据权利要求1所述的一个基于多源异构数据的房地产信息可视化系统,其特征在于,所述综合评价模块基于多源异构数据融合的房地产性价比评价,具体步骤为:
步骤11a,以房地产每平方米单价为因变量,以房屋周边的交通设施、公园景点、教育机构、医疗机构、餐饮休闲、商场超市的数量和平均距离,交通拥堵程度,不同情绪所占百分比等多方面指标为变量,应用回归分析方法;
步骤11b,用逐步法排除对房价无显著影响的变量,模型最终保留部分预测变量,所述保留的预测变量为教育数量(教育机构数量),公园数量,厌恶情绪占比,交通距离(到交通设施的平均距离),商场数量,拥堵程度,恐惧情绪占比,餐饮距离(到餐饮机构的平均距离),餐饮数量(餐饮机构数量),医疗数量(医疗机构数量),教育距离(到教育机构的平均距离),医疗距离(到医疗机构的平均距离),公园距离(到公园的平均距离),愤怒情绪占比,商场距离;
步骤11c,建立多元线性回归模型,获得关于房地产每平方米单价的多元线性回归方程,确定房地产评价指标与方法。
10.根据权利要求11所述的一个基于多源异构数据的房地产信息可视化系统,其特征在于,所述综合评价模块对房屋购买决策进行推荐,并得出对房产评价具有显著影响的关键因素,具体步骤为:
步骤12a,对于每一套房产,将其相关参数代入多元回归分析方程,计算得到房价期望值,将期望值与实际值做对比,若期望值高于实际值,则房地产的性价比高,给出“购买”的决策推荐;若期望值低于实际值,则房地产的性价比低,给出“观望或协商”的决策推荐;
步骤12b,对房产属性及其周边多视角特征,具体包括房屋总价、房屋单价、交通数量(交通设施数量)、交通距离(到交通设施的平均距离)、公园数量、公园距离(到公园的平均距离)、教育数量(教育机构数量)、教育距离(到教育设施的平均距离)、医疗数量(医疗机构数量)、医疗距离(到医疗机构的平均距离)、餐饮数量(餐饮设施数量)、餐饮距离(到餐饮设施的平均距离)、商场数量、商场距离(到商场的平均距离)、交通拥堵指数、愤怒情绪微博比例、厌恶情绪微博比例、高兴情绪微博比例、悲伤情绪微博比例、恐惧情绪微博比例,进行主成分分析并确定最关键的前5项(这里阈值5可以进行调整),以期找出影响房产评价的关键因素;
步骤12c,对于步骤12a中的所有房产相关变量,利用发现的5项主成分,计算这些变量与5项主成分之间的相关关系,实现不同变量的重新组合,以实现主成分的主观解释,具体地,5项主成分对应的房产属性分别为:教育设施、公园、交通设施、周边情绪分布及房产价格,因此,在对房产进行综合评价时,应从上述五个方面进行综合描述与系统比较。
CN201810787881.4A 2018-07-18 2018-07-18 一个基于多源异构数据的房地产信息可视化系统 Pending CN108921734A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810787881.4A CN108921734A (zh) 2018-07-18 2018-07-18 一个基于多源异构数据的房地产信息可视化系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810787881.4A CN108921734A (zh) 2018-07-18 2018-07-18 一个基于多源异构数据的房地产信息可视化系统

Publications (1)

Publication Number Publication Date
CN108921734A true CN108921734A (zh) 2018-11-30

Family

ID=64416413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810787881.4A Pending CN108921734A (zh) 2018-07-18 2018-07-18 一个基于多源异构数据的房地产信息可视化系统

Country Status (1)

Country Link
CN (1) CN108921734A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977399A (zh) * 2019-03-05 2019-07-05 国网青海省电力公司 一种基于nlp技术的数据分析方法及装置
CN110059851A (zh) * 2019-03-08 2019-07-26 平安科技(深圳)有限公司 基于深度学习的预测数据变化的方法、装置和计算机设备
CN111523941A (zh) * 2020-04-23 2020-08-11 王渡江 一种大数据智能项目预测分析系统及分析方法
CN112232900A (zh) * 2020-09-25 2021-01-15 北京五八信息技术有限公司 一种信息的展示方法和装置
CN112633915A (zh) * 2020-12-09 2021-04-09 苏州黑云智能科技有限公司 基于区块链的二手房数据分析方法及系统
TWI748402B (zh) * 2020-04-09 2021-12-01 臺灣土地銀行股份有限公司 土地建築融資資訊整合平台系統
CN116307566A (zh) * 2023-03-12 2023-06-23 武汉大学 大型房屋建筑工程施工组织方案动态设计系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101230561B1 (ko) * 2012-11-23 2013-02-06 고종완 컴퓨터기반 부동산가치평가시스템
CN106611012A (zh) * 2015-10-27 2017-05-03 北京航天长峰科技工业集团有限公司 一种大数据环境下异构数据实时检索方法
CN106874439A (zh) * 2016-06-17 2017-06-20 何国斌 一种搜索房产信息的方法及系统
CN107038660A (zh) * 2017-04-13 2017-08-11 安徽省沃瑞网络科技有限公司 一种房地产网上交易系统
CN107193939A (zh) * 2017-05-19 2017-09-22 苏州商信宝信息科技有限公司 一种基于数据挖掘的智能房源推荐方法及其系统
CN107705145A (zh) * 2017-09-01 2018-02-16 深圳市云房网络科技有限公司 一种房价评估系统
CN108108924A (zh) * 2018-02-06 2018-06-01 北京邮电大学 影响房产估价的特征因素体系的量化方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101230561B1 (ko) * 2012-11-23 2013-02-06 고종완 컴퓨터기반 부동산가치평가시스템
CN106611012A (zh) * 2015-10-27 2017-05-03 北京航天长峰科技工业集团有限公司 一种大数据环境下异构数据实时检索方法
CN106874439A (zh) * 2016-06-17 2017-06-20 何国斌 一种搜索房产信息的方法及系统
CN107038660A (zh) * 2017-04-13 2017-08-11 安徽省沃瑞网络科技有限公司 一种房地产网上交易系统
CN107193939A (zh) * 2017-05-19 2017-09-22 苏州商信宝信息科技有限公司 一种基于数据挖掘的智能房源推荐方法及其系统
CN107705145A (zh) * 2017-09-01 2018-02-16 深圳市云房网络科技有限公司 一种房价评估系统
CN108108924A (zh) * 2018-02-06 2018-06-01 北京邮电大学 影响房产估价的特征因素体系的量化方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
夏鸿鸣 等: "《数学建模》", 31 August 2014, 成都:西南交通大学出版社, pages: 168 - 169 *
王晓艳: "《公众舆情与房价波动的灰色关联分析》", 《上海商学院学报》 *
王晓艳: "《公众舆情与房价波动的灰色关联分析》", 《上海商学院学报》, vol. 19, no. 3, 30 June 2018 (2018-06-30) *
邓彬: "《基于web技术的房地产营销辅助决策系统设计》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
邓彬: "《基于web技术的房地产营销辅助决策系统设计》", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 03, 15 March 2017 (2017-03-15) *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977399A (zh) * 2019-03-05 2019-07-05 国网青海省电力公司 一种基于nlp技术的数据分析方法及装置
CN110059851A (zh) * 2019-03-08 2019-07-26 平安科技(深圳)有限公司 基于深度学习的预测数据变化的方法、装置和计算机设备
TWI748402B (zh) * 2020-04-09 2021-12-01 臺灣土地銀行股份有限公司 土地建築融資資訊整合平台系統
CN111523941A (zh) * 2020-04-23 2020-08-11 王渡江 一种大数据智能项目预测分析系统及分析方法
CN112232900A (zh) * 2020-09-25 2021-01-15 北京五八信息技术有限公司 一种信息的展示方法和装置
CN112633915A (zh) * 2020-12-09 2021-04-09 苏州黑云智能科技有限公司 基于区块链的二手房数据分析方法及系统
CN116307566A (zh) * 2023-03-12 2023-06-23 武汉大学 大型房屋建筑工程施工组织方案动态设计系统

Similar Documents

Publication Publication Date Title
CN108921734A (zh) 一个基于多源异构数据的房地产信息可视化系统
Keneshloo et al. Predicting the popularity of news articles
Lu et al. User-generated content as a research mode in tourism and hospitality applications: Topics, methods, and software
TWI601088B (zh) Topic management network public opinion evaluation management system and method
Huai et al. Which environmental features contribute to positive and negative perceptions of urban parks? A cross-cultural comparison using online reviews and Natural Language Processing methods
US20160117696A1 (en) Method and system for determining on-line influence in social media
US20130297581A1 (en) Systems and methods for customized filtering and analysis of social media content collected over social networks
CN109992650A (zh) 用于在运行中提供个性化洞察的认知对话代理
CN107077486A (zh) 情感评价系统和方法
US20100070485A1 (en) Social Analytics System and Method For Analyzing Conversations in Social Media
WO2014107440A2 (en) Social media impact assessment
KR101566616B1 (ko) 빅데이터 처리를 통한 광고의사결정시스템 및 방법
Suh et al. Developing a digital marketing tool for ethnic ventures' mixed business model and market-shaping: A design scientific approach of web demographics
JP5895052B2 (ja) 情報分析システム及び情報分析方法
CN107665444A (zh) 一种基于用户在线行为的网络广告即时效应评价方法及系统
US9069880B2 (en) Prediction and isolation of patterns across datasets
CN111708774B (zh) 一种基于大数据的产业分析系统
US20120041936A1 (en) Search engine optimization at scale
KR20180074323A (ko) 화장품 고객 트렌드 분석 시스템 및 방법
JP5848199B2 (ja) 影響力予測装置、影響力予測方法、及びプログラム
TW201640383A (zh) 網路事件自動蒐集分析方法及系統
JP2007011651A (ja) 文書処理装置
CN104809253B (zh) 互联网数据分析系统
Liu et al. Integrating big data and marketing concepts into tourism, hospitality operations and strategy development
Kaur et al. A Review on Sentimental Analysis on Facebook Comments by using Data Mining Technique

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181130

RJ01 Rejection of invention patent application after publication