CN108572988A - 一种房产评估数据生成方法和装置 - Google Patents
一种房产评估数据生成方法和装置 Download PDFInfo
- Publication number
- CN108572988A CN108572988A CN201710148148.3A CN201710148148A CN108572988A CN 108572988 A CN108572988 A CN 108572988A CN 201710148148 A CN201710148148 A CN 201710148148A CN 108572988 A CN108572988 A CN 108572988A
- Authority
- CN
- China
- Prior art keywords
- data
- geographic area
- initial characteristic
- house property
- random forest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000003066 decision tree Methods 0.000 claims abstract description 89
- 238000007637 random forest analysis Methods 0.000 claims abstract description 89
- 239000000284 extract Substances 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims description 38
- 238000005259 measurement Methods 0.000 claims description 36
- 230000002159 abnormal effect Effects 0.000 claims description 34
- 238000009826 distribution Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 27
- 238000004140 cleaning Methods 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000002452 interceptive effect Effects 0.000 claims description 14
- 241001269238 Data Species 0.000 claims description 13
- 238000013075 data extraction Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 238000005266 casting Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 6
- 230000013011 mating Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000003319 supportive effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000013439 planning Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 239000012491 analyte Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003034 coal gas Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供了一种房产评估数据生成方法和装置,所述方法包括:获取地理区域内的用户数据和地理区域影响因子;从地理区域内的用户数据和地理区域影响因子中提取原始特征数据;从原始特征数据中选取目标特征数据;采用目标特征数据,生成随机森林模型;根据随机森林模型,生成地理区域的房产评估数据。本申请实施例中,根据电子商务平台的用户数据和从整个互联网的网页数据中爬取的可影响房产价值的数据,建立随机森林模型,根据随机森林模型中的决策树模型,生成房产评估数据。电子商务平台可以据此提供一种具有参考意义的房产评估数据,方便买方评估房产升值潜力,并给出支撑策略和规则,解决目前缺乏针对房产价值评估方式的问题。
Description
技术领域
本申请涉及数据处理术领域,特别是涉及一种房产评估数据生成方法和一种房产评估数据生成装置。
背景技术
随着电子商务平台的发展,房产导购类目运营越来越成为电子商务平台的一个发力点。
目前,电子商务平台的房产导购类目运营,更多是通过活动推广(包括消费打折,团购打折等)来促进带看率和销量。但在这些活动推广中,电子商务平台无法给出针对房产价值的核心参考指标和升值分析策略,更多地是用户根据自身经验和相关评论来推测房产的价值,这些推测存在着片面性、局部性。
总之,目前的电子商务平台中缺乏针对房产价值评估方式。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种房产评估数据生成方法和相应的一种房产评估数据生成装置。
为了解决上述问题,本申请实施例公开了一种房产评估数据生成方法,包括:
获取地理区域内的用户数据和地理区域影响因子;
从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据;
从所述原始特征数据中选取目标特征数据;
采用所述目标特征数据,生成随机森林模型;
根据所述随机森林模型,生成所述地理区域的房产评估数据。
优选的,所述从所述原始特征数据中选取目标特征数据的步骤包括:
对所述原始特征数据进行预处理;
针对经过预处理的原始特征数据计算重要度参数;
根据所述重要度参数选取目标特征数据。
优选的,所述随机森林模型包括多个决策树模型,所述根据所述随机森林模型,生成所述地理区域的房产评估数据的步骤包括:
确定所述随机森林模型的决策树模型中的各个节点路径;
根据所述各个节点路径,生成所述地理区域的房产评估数据。
优选的,所述随机森林模型包括多个决策树模型,所述根据所述随机森林模型,生成所述地理区域的房产评估数据的步骤包括:
统计所述随机森林模型的决策树模型的各类叶子节点的数目;
计算同一类叶子节点的数目,与同一决策树模型中所有叶子节点的数目的比值;
根据所述比值,生成所述地理区域的房产评估数据。
优选的,所述从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据的步骤包括:
对所述地理区域内的用户数据和地理区域影响因子进行数据清洗;
针对清洗后的数据提取原始特征数据。
优选的,所述对所述地理区域内的用户数据和地理区域影响因子进行数据清洗的步骤包括:
检测所述地理区域内的用户数据和地理区域影响因子是否存在异常数据;
若存在异常数据,则根据异常数据的取值,对所述异常数据进行调整或舍弃所述异常数据。
优选的,所述对所述地理区域内的用户数据和地理区域影响因子进行数据清洗的步骤还包括:
检测所述地理区域内的用户数据和地理区域影响因子是否存在缺失数据;
若存在缺失数据,则对所述缺失数据进行估算处理;
根据估算处理结果对所述缺失数据进行补全,或对所述缺失数据进行舍去处理。
优选的,所述原始特征数据包括类别型特征数据,所述针对清洗后的数据提取原始特征数据的步骤包括:
从所述清洗后的数据中选取描述性数据;
从所述描述性数据中抽取类别型特征数据。
优选的,所述原始特征数据还包括词袋模型特征数据,所述针对清洗后的数据提取原始特征数据的步骤还包括:
从所述描述性数据中抽取词袋模型特征数据。
优选的,所述原始特征数据还包括数值型特征数据,所述针对清洗后的数据提取原始特征数据的步骤还包括:
从所述清洗后的数据中选取数值型数据;
从数值型数据中抽取数值型特征数据。
优选的,所述针对清洗后的数据提取原始特征数据的步骤还包括:
对所述数值型特征数据进行归一化处理。
优选的,所述对所述原始特征数据进行预处理的步骤包括:
检测所述原始特征数据是否存在缺失特征数据;
若存在,则对所述缺失特征数据进行补全或舍去所述缺失特征数据。
优选的,所述对所述原始特征数据进行预处理的步骤还包括:
检测所述原始特征数据是否存在异常特征数据;
若存在,则对所述异常特征数据进行调整或舍去所述异常特征数据。
优选的,所述对所述原始特征进行预处理的步骤还包括:
从原始特征数据中选取特征数据进行融合。
优选的,所述从原始特征数据中选取特征数据进行融合的步骤包括:
计算两个特征数据之间的关联系数矩阵;
根据关联系数矩阵,对有关联关系的特征数据进行加权求和处理。
优选的,所述重要度参数包括信息熵,所述针对经过预处理的原始特征数据计算重要度参数的步骤包括:
针对经过预处理的原始特征数据计算信息熵。
优选的,所述根据所述重要度参数选取目标特征数据的步骤包括:
将信息熵大于预设信息熵阈值的经过预处理的原始特征数据,作为目标特征数据。
优选的,所述重要度参数包括距离度量;所述针对经过预处理的原始特征数据计算重要度参数的步骤包括:
两两计算任意两个经过预处理的原始特征数据之间的距离度量。
优选的,所述根据所述重要度参数选取目标特征数据的步骤包括:
将两个经过预处理的原始特征数据之间的距离度量,与预设距离度量阈值进行比较;
根据比较结果,将相应的两个经过预处理的原始特征数据作为目标特征数据。
优选的,所述重要度参数包括离散分布图的判断度量,所述针对经过预处理的原始特征数据计算重要度参数的步骤包括:
针对所有经过预处理的原始特征数据,生成对应的离散分布图;
计算各个离散分布图的判断度量。
优选的,所述根据所述重要度参数选取目标特征数据的步骤包括:
计算所有离散分布图的判断度量的平均值,得到平均判断度量;
计算各个离散分布图的判断度量,与所述平均判断度量的比值;
当某个处理后特征的判断度量,与所述平均判断度量的比值大于预设比例阈值时,将该经过预处理的原始特征数据作为目标特征数据。
本申请实施例还公开了一种房产评估数据生成装置,包括:
数据获取模块,用于获取地理区域内的用户数据和地理区域影响因子;
原始特征数据提取模块,用于从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据;
目标特征数据选取模块,用于从所述原始特征数据中选取目标特征数据;
随机森林模型生成模块,用于采用所述目标特征数据,生成随机森林模型;
房产评估数据生成模块,用于根据所述随机森林模型,生成所述地理区域的房产评估数据。
优选的,所述目标特征数据选取模块包括:
预处理子模块,用于对所述原始特征数据进行预处理;
重要度参数计算子模块,用于针对经过预处理的原始特征数据计算重要度参数;
目标特征选取子模块,用于根据所述重要度参数选取目标特征数据。
优选的,所述随机森林模型包括多个决策树模型,所述房产评估数据生成模块包括:
节点路径确定子模块,用于确定所述随机森林模型的决策树模型中的各个节点路径;
节点路径评估子模块,用于根据所述各个节点路径,生成所述地理区域的房产评估数据。
优选的,所述随机森林模型包括多个决策树模型,所述房产评估数据生成模块包括:
叶子几点数目统计子模块,用于统计所述随机森林模型的决策树模型的各类叶子节点的数目;
叶子节点比值计算子模块,用于计算同一类叶子节点的数目,与同一决策树模型中所有叶子节点的数目的比值;
叶子节点比值评估子模块,用于根据所述比值,生成所述地理区域的房产评估数据。
本申请实施例还公开了一种房产评估数据生成方法,包括:
接收交互界面提交的处理请求;
根据所述处理请求,获取地理区域内的用户数据和地理区域影响因子;
从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据;
从所述原始特征数据中选取目标特征数据;
采用所述目标特征数据,生成随机森林模型;
根据所述随机森林模型,生成所述地理区域的房产评估数据;
将所述房产评估数据发送至所述交互界面。
本申请实施例还公开了一种房产评估数据生成方法,包括:
服务器获取地理区域内的用户数据和地理区域影响因子;
所述服务器从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据;
所述服务器从所述原始特征数据中选取目标特征数据;
所述服务器采用所述目标特征数据,生成随机森林模型;
所述服务器根据所述随机森林模型,生成所述地理区域的房产评估数据。
本申请实施例还公开了一种房产评估数据生成方法,包括:
获取地理区域内的用户数据和地理区域影响因子;
从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据;
从所述原始特征数据中选取目标特征数据;
采用所述目标特征数据,生成所述地理区域的房产评估数据。
优选的,所述从所述原始特征数据中选取目标特征数据的步骤包括:
对所述原始特征数据进行预处理;
针对经过预处理的原始特征数据计算重要度参数;
根据所述重要度参数选取目标特征数据。
优选的,所述采用所述目标特征数据,生成所述地理区域的房产评估数据的步骤包括:
采用所述目标特征数据,生成随机森林模型,所述随机森林模型包括多个决策树模型;
确定所述随机森林模型的决策树模型中的各个节点路径;
根据所述各个节点路径,生成所述地理区域的房产评估数据。
优选的,所述采用所述目标特征数据,生成所述地理区域的房产评估数据的步骤包括:
采用所述目标特征数据,生成随机森林模型,所述随机森林模型包括多个决策树模型;
统计所述随机森林模型的决策树模型的各类叶子节点的数目;
计算同一类叶子节点的数目,与同一决策树模型中所有叶子节点的数目的比值;
根据所述比值,生成所述地理区域的房产评估数据。
优选的,所述从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据的步骤包括:
对所述地理区域内的用户数据和地理区域影响因子进行数据清洗;
针对清洗后的数据提取原始特征数据。
本申请实施例包括以下优点:
本申请实施例中,根据电子商务平台的用户数据和从整个互联网的网页数据中爬取的各种可影响房产价值的数据,建立包括多个决策树模型的随机森林模型,根据随机森林模型中的决策树模型,生成房产评估数据。电子商务平台可以据此提供一种具有参考意义的房产评估数据,方便买方评估房产升值潜力,并给出支撑策略和规则,解决目前缺乏针对房产价值评估方式的问题。
附图说明
图1是本申请的一种房产评估数据生成方法实施例1的步骤流程图;
图2是本申请的一种房产评估数据生成方法实施例2的步骤流程图;
图3是本申请的一种房产评估数据生成方法实施例3的步骤流程图;
图4是本申请的一种房产评估数据生成方法实施例4的步骤流程图;
图5是本申请的一种房产评估数据生成方法实施例5的步骤流程图;
图6是本申请实施例中生成房产评估数据的示意图;
图7是本申请实施例中一种决策树模型的分析结果输出页面的示意图;
图8是本申请的一种房产评估数据生成装置实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
随着大数据分析的发展,采用大数据分析事物的本质成为一种有效的分析方式。对于电子商务平台而言,电子商务平台的所有用户数据都可以成为电子商务平台分析房产价值的数据来源。
在分析房产价值时,除了可以采用用户在电子商务平台的所有数据外,还可以从整个互联网浩如烟海的网页数据中爬取各种可影响房产价值的历史数据。
本申请实施例的核心构思之一在于,根据电子商务平台的用户数据和从整个互联网的网页数据中爬取的各种可影响房产价值的数据,进行大数据决策树模型建模,根据决策树模型得到房产评估数据。
参照图1,示出了本申请的一种房产评估数据生成方法实施例1的步骤流程图,具体可以包括如下步骤:
步骤101,获取地理区域内的用户数据和地理区域影响因子;
地理区域内的用户数据是电子商务平台所能获取到的所有与用户相关的数据。电子商务平台的所有用户数据可以按照地理区域进行划分,具体可以包括:
1、片区用户全网购物类数据:对用户按照居住区域聚类(按照片区维度),然后提炼出用户的购物金额,类目等等与购物行为相关的一切统计信息。
2、片区用户全网购物物流数据:对用户购物的物流路径进行分析抽取,分析物流节点以及物流的时间,快递种类等等与物流相关的一切可用信息。
3、片区用户支付及金融消费类行为数据:对片区用户的支付类(水电煤气,商店购物使用支付宝行为)数据,金融行为类(借贷,理财,信用等)进行数据清洗和处理。
4、片区用户年龄/性别/职业/教育等数据:对片区用户年龄,性别,职业,教育,保有车辆,车辆价位等信息进行分析抽取。
5、片区用户全网购物评论及互动、浏览等文本行为数据:对片区用户的全网购物评论,互动粉丝信息进行过滤清洗处理。
地理区域影响因子具体是指可以影响地理区域内的房产价值的数据,这些数据可以从整个互联网的网页数据中抽取得到。地理区域影响因子可以包括:
1、各个片区相关的地段,环线等交通数据
2、商圈/生活环境等配套数据
3、小区物业经营及管理风评数据
4、社区背景,开发商口碑等数据
5、房屋品质数据
6、经济周期等数据
7、社区规划类数据
8、中介交易及平台交易数据
9、其他相关的评论/互动等数据
实际上,影响房产价值的数据还有很多,并且随着社会的发展,影响房产价值的数据会不断变化。
用户数据和影响因子是按地理区域进行划分的,而地理区域可以是按路段、按小区、按楼幢等进行划分,当然地理区域的划分方式可以根据实际需要,按其他形式进行划分,本申请在此不作限定。
步骤102,从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据;
针对同一个地理区域的用户数据和地理区域影响因子,从中提取原始特征数据。
具体的,可以从同一个地理区域的用户数据和地理区域影响因子中,提取大量的原始特征数据,然后将原始特征数据存储到样本数据表中。如表1所示为样本数据表的示意图。
样本ID | 年龄 | 性别 | 职业 |
用户1 | 25 | 男 | 程序员 |
用户2 | 28 | 男 | 医生 |
用户3 | 32 | 男 | 程序员 |
用户4 | 27 | 女 | 教师 |
表1
如表1所示,原始特征数据按样本的形式存储。在样本数据表中,每一行是一个样本,每一列就是一个维度的原始特征数据。
例如,年龄、性别、职业分别是一个原始特征数据,在年龄这个维度的原始特征数据中,25、28、32、27,分别是不同样本中该原始特征数据的取值。
步骤103,从所述原始特征数据中选取目标特征数据;
在建立模型时,选取目标特征数据是一个很重要的环节。选取目标特征数据的目的是选取对模型的输出结果最有效的特征数据,并且尽最大可能减少特征维数。
一个原始特征数据可以认为是一个维度,在建立模型时并不是特征维数越多越好的,有些维度的特征可能会对模型的输出结果产生负面的影响。为此,需要从原始特征数据中尽可能选取对模型的输出结果最有效的特征数据,减少不必要的特征数据。
步骤104,采用所述目标特征数据,生成随机森林模型;
随机森林模型的构建过程具体可以包括:
1、假如有N个样本,则有放回的随机选择N个样本(每次随机选择一个样本,然后返回继续选择)。这选择好了的N个样本用来训练一个决策树模型,作为决策树模型根节点处的样本。
2、当每个样本有M个属性时,在决策树模型的每个节点需要分裂时,随机从这M个属性中选取出m个属性,满足条件m<<M。然后从这m个属性中采用某种策略来选择1个属性作为该节点的分裂属性。
3、决策树模型形成过程中每个节点都要按照步骤2来分裂(很容易理解,如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性,则该节点已经达到了叶子节点,无须继续分裂了)。一直到不能够再分裂为止。注意整个决策树模型形成过程中没有进行剪枝。
4、按照步骤1~3建立大量的决策树模型,这样就构成了随机森林模型了。
步骤105,根据所述随机森林模型,生成所述地理区域的房产评估数据。
随机森林模型中各个决策树模型的节点分布,表征了特征数据之间的关联意义。因此根据随机森林模型中各个决策树模型的节点分布,能科学有效地生成地理区域的房产评估数据。
本申请实施例中,根据电子商务平台的用户数据和从整个互联网的网页数据中爬取的各种可影响房产价值的数据,建立包括多个决策树模型的随机森林模型,根据随机森林模型中的决策树模型,生成房产评估数据。电子商务平台可以据此提供一种具有参考意义的房产评估数据,方便买方评估房产升值潜力,并给出支撑策略和规则,解决目前缺乏针对房产价值评估方式的问题。
参照图2,示出了本申请的一种房产评估数据生成方法实施例2的步骤流程图,具体可以包括如下步骤:
步骤201,获取地理区域内的用户数据和地理区域影响因子;
地理区域内的用户数据是电子商务平台所能获取到的所有与用户相关的数据。地理区域影响因子具体是指可以影响地理区域内的房产价值的数据,这些数据可以从整个互联网的网页数据中抽取得到。
步骤202,对所述地理区域内的用户数据和地理区域影响因子进行数据清洗;
数据清洗可以包括检测是否存在异常数据,在本申请实施例中,所述步骤202具体可以包括如下子步骤:
子步骤11,检测所述地理区域内的用户数据和地理区域影响因子是否存在异常数据;
所谓异常数据是指某个数据的取值超过正常值域范围,例如,某个区域的房屋价格正常价格范围在5万/平方米-10万/平方米,而该区域内某一房屋的价格为20万/平方米,则该房屋的价格即可认为是异常数据。
子步骤12,若存在异常数据,则根据异常数据的取值,对所述异常数据进行调整或舍弃所述异常数据。
在出现异常数据时,可以根据异常数据的取值,对异常数据的取值进行调整(例如,异常数据超出正常值域范围的大小不大,则将异常数据的取值调整为正常值域范围内的取值),也可以对异常数据进行舍去(例如,异常数据超出正常值域范围的大小很大,则可以将该异常数据舍去)
数据清洗除了包括检测是否存在异常数据外,还包括检测是否存在缺失数据,在本申请实施例中,所述步骤202具体还可以包括如下子步骤:
子步骤13,检测所述地理区域内的用户数据和地理区域影响因子是否存在缺失数据;
缺失数据是指某个维度的数据的一部分发送了丢失。例如,在用户的年龄数据这一维度中,应该记录有各个用户的年龄,如果其中某个用户的年龄数据没有记录,则认为年龄数据是缺失数据。
子步骤14,若存在缺失数据,则对所述缺失数据进行估算处理;
对于缺失数据,可以进行估算处理。估算处理可以包括中位数估算、众数估算、样本均值估算。
因为缺失数据只是某个维度的数据一部分丢失了,对于该维度的数据剩下的部分,可以用来进行估算处理。
子步骤15,根据估算处理结果对所述缺失数据进行补全,或对所述缺失数据进行舍去处理。
将估算处理结果填入数据缺失的部分,从而对缺失数据进行补全。
例如。年龄数据中:用户1的年龄为18,用户2的年龄为26,用户3的年龄没有数值(即用户3的年龄缺失了),则对年龄数据进行样本均值估算的结果为(18+26)/2=22。对缺失数据进行补全时,将22作为用户3的年龄。
对缺失数据进行舍去处理,并不是指将缺失数据全部删除,而是指对缺失的部分进行删除。例如,将上述示例中用户3的删除,即年龄数据中记录用户1的年龄和用户2的年龄。
步骤203,针对清洗后的数据提取原始特征数据;
清洗后的数据并不是所有都可以拿来建模的,只有那些对建立模型有意义的数据才可以用来建模,而这些有意义的数据可以称为特征数据。
原始特征数据的本质也是数据,只是原始特征数据是可以用于建模的数据。
在本申请实施例中,所述原始特征数据可以包括类别型特征数据,所述步骤203具体可以包括如下子步骤:
子步骤21,从所述清洗后的数据中选取描述性数据;
子步骤22,从所述描述性数据中抽取类别型特征数据。
所谓描述性数据是指可以由文本描述的数据。本申请实施例中,可以从多种描述性数据中抽取其中一些作为类别型特征数据。例如,房屋的户型朝向就是描述性数据,房屋的户型朝向可以用向南、向北、向东、向西等方向性词语描述。则可以将房屋的户型朝向作为类别型特征数据,则向南、向北、向东、向西等方向性词语是类别型特征数据的取值。
在本申请实施例中,所述原始特征数据还可以包括词袋模型特征数据,所述步骤203具体还可以包括如下子步骤:
子步骤23,从所述描述性数据中抽取词袋模型特征数据。
对于描述性数据,还可以从描述性数据中抽取词袋模型特征。一个描述性数据可以生成一个词袋模型,词袋模型中假定对于一个文本,忽略其词序和语法,句法,将其仅仅看作是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现。
词袋模型特征数据可以是指文本中特定词语出现的次数,例如,描述性数据是针对房屋的评论数据,则可以将评论数据中某些词语出现的次数作为词袋模型特征数据。
在本申请实施例中,所述原始特征数据还可以包括数值型特征数据,所述步骤203具体还可以包括如下子步骤:
子步骤24,从所述清洗后的数据中选取数值型数据;
子步骤25,从数值型数据中抽取数值型特征数据;
数值型数据是指用数值描述的数据,本申请实施例中,可以从多种数值型数据中抽取其中一些作为数值型特征数据。
例如,中介交易及平台交易数据中一间房屋交易价格为1000万,则认为中介交易及平台交易数据为数值型特征数据,中介交易及平台交易数据的数值就是数值型特征数据的取值。
在本申请实施例中,所述步骤203具体还可以包括如下子步骤:
子步骤26,对所述数值型特征数据进行归一化处理。
对于数值型特征,还可以进一步进行归一化处理。归一化处理的目的是将不同的数值型特征的值域都归一化为0-1,从而使不同维度的特征的数值的差值减小,避免有些数值较大的特征对模型产生决定性的影响。
步骤204,对所述原始特征数据进行预处理;
在本申请实施例中,所述步骤204具体可以包括如下子步骤:
子步骤31,检测所述原始特征数据是否存在缺失特征数据;
子步骤32,若存在,则对所述缺失特征数据进行补全或舍去所述缺失特征数据。
缺失特征数据是指某个维度的特征数据的一部分发送了丢失。实际上,缺失特征数据和缺失数据都是某个维度的数据的一部分发送了丢失,只是缺失特征数据是针对可以用于建模的特征数据而言。对于缺失特征数据的处理方式,具体可以参考对于缺失数据的处理方式。
在本申请实施例中,所述步骤204具体还可以包括如下子步骤:
子步骤33,检测所述原始特征数据是否存在异常特征数据;
子步骤34,若存在,则对所述异常特征数据进行调整或舍去所述异常特征数据。
所谓异常特征数据是指某个特征数据的取值超过正常值域范围。实际上,异常特征数据和异常数据都是某个维度的数据的取值超过正常值域范围,只是异常特征数据是针对可以用于建模的特征数据而言。对于异常特征数据的处理方式,具体可以参考对于异常数据的处理方式。
在本申请实施例中,所述步骤204具体还可以包括如下子步骤:
子步骤35,从原始特征数据中选取特征数据进行融合。
特征融合是指将两个特征融合为一个新的特征,特征融合可以降低特征的维度,并且从旧的特征中创造出新特征,融合得到的新特征可以在某些方面可以更直接的反应模型的一些特性。
在本申请实施例中,对特征数据进行融合的步骤具体可以为:计算两个特征数据之间的关联系数矩阵;根据关联系数矩阵,对有关联关系的特征数据进行加权求和处理。
关联矩阵可以从协方差矩阵获得,首先,分别计算两组特征的均值,方差,然后,根据协方差矩阵定义,计算出两组特征的协方差矩阵。这里,协方差矩阵的系数可以认为是关联矩阵的相关系数,根据相关系数,对有关联关系的特征进行加权求和处理,最终由关联特征产出新的合成特征。
步骤205,针对经过预处理的原始特征数据计算重要度参数;
重要度参数是衡量一个原始特征数据的重要程度的参数。
在本申请实施例中,所述重要度参数可以包括信息熵,所述步骤205具体可以为:针对经过预处理的原始特征数据计算信息熵。每一个原始特征数据都有一个对应的信息熵,信息熵表示了一个数据所包含的信息量。对于模型建立而言,信息熵越大,对应的特征数据越重要。反之,信息熵越小,对应的特征数据的重要程度越低。
信息熵的计算公式为:
其中pi表示特征数据的第i个取值,在整个所有样本中出现的概率。n表示特征数据的取值的数目。例如,原始特征数据为房屋的户型朝向,取值可以包括:向南、向北、向东、向西,即n=4。其中,户型朝向为向南的样本有2个,户型朝向为向北的样本有3个,户型朝向为向东的样本有1个,户型朝向为向西的样本有4个。则取值为向南的概率为2/10,向北的概率为3/10,向东的概率为1/10,向西的概率为4/10。
在本申请实施例中,重要度参数还包括距离度量,所述步骤205具体可以为:两两计算任意两个经过预处理的原始特征数据之间的距离度量。距离度量是衡量两个特征数据之间的相似性的参数,距离度量具体可以包括费希尔距离、马氏距离、欧式距离等距离度量。不同的计算方式,在不同的定义空间内表示两个特征数据之间的相似性。
所述重要度参数还可以包括离散分布图的判断度量,所述步骤205具体可以为:针对所有经过预处理的原始特征数据,生成对应的离散分布图;计算各个离散分布图的判断度量。
经过预处理的原始特征数据的离散分布图,以经过预处理的原始特征数据的取值作为横坐标,以取值发生的频率作为纵坐标。离散分布图的判别度量可以包括离散分布图的标准差,均值,变异系数。
步骤206,根据所述重要度参数选取目标特征数据;
在本申请实施例中,当重要度参数为信息熵时,所述步骤206具体可以为:将信息熵大于预设信息熵阈值的经过预处理的原始特征数据,作为目标特征数据。
当某个经过预处理的原始特征数据的信息熵大于信息熵阈值时,则将该经过预处理的原始特征数据作为目标特征数据。
在本申请实施例中,当重要度参数为距离度量时,所述步骤206具体可以为:将两个经过预处理的原始特征数据之间的距离度量,与预设距离度量阈值进行比较;根据比较结果,将相应的两个经过预处理的原始特征数据作为目标特征数据。
具体的,如果两个特征数据之间的距离度量越大,则表示两个特征数据之间的差异性越大。当两个特征数据之间的距离度量大于预设距离度量阈值时,则可以将这两个特征数据都作为目标特征数据。
在本申请实施例中,当重要度参数为离散分布图的判断度量时,所述步骤206具体可以为:计算所有离散分布图的判断度量的平均值,得到平均判断度量;计算各个离散分布图的判断度量,与所述平均判断度量的比值;当某个处理后特征的判断度量,与所述平均判断度量的比值大于预设比例阈值时,将该经过预处理的原始特征数据作为目标特征数据。
例如,当某个特征数据的离散分布图的判断度量,与所有特征数据的平均判断度量的比值大于10%时,则可以将该特征数据作为目标特征数据。
步骤207,采用所述目标特征数据,生成随机森林模型;
随机森林模型是多个决策树模型的集合。每一个决策树模型,都是在所有的目标特征数据中,任意选取多个目标特征数据来生成。
步骤208,根据所述随机森林模型,生成所述地理区域的房产评估数据。
根据随机森林模型中,各个决策树模型的节点路径,生成地理区域的房产评估数据。
在本申请实施例的一种优选示例中,所述步骤208具体可以以下子步骤:
子步骤41,确定所述随机森林模型的决策树模型中的各个节点路径;
子步骤42,根据所述各个节点路径,生成所述地理区域的房产评估数据。
在决策树模型中,结点有两种类型:内部节点和叶子节点,内部节点表示一个目标特征数据,叶子节点表示一个类,类是针对一个样本的分类,也可以说是针对这个样本所包含的所有特征数据的分类。
一个完整的节点路径是由多个目标特征数据的组合方式,一个完整的节点路径可以表征该节点路径的叶子节点的类所具有的意义。
根据不同的节点路径,就可以得到地理区域内的用户数据和地理区域影响因子所反映的房屋价值特性,从而可以生成针对该地理区域的房产评估数据。
在本申请实施例的另一种优选示例中,所述步骤208具体可以以下子步骤:
子步骤51,统计所述随机森林模型的决策树模型的各类叶子节点的数目;
子步骤52,计算同一类叶子节点的数目,与同一决策树模型中所有叶子节点的数目的比值;
子步骤53,根据所述比值,生成所述地理区域的房产评估数据。
叶子节点表示一个类,类是针对一个样本的分类,也可以说是针对这个样本所包含的所有特征数据的分类。
属于同一类的叶子节点的数目,与同一决策树模型中所有叶子节点数目的比值,可以表示地理区域内的用户数据和地理区域影响因子所反映的房屋价值特性。因此根据这个比值,可以生成针对该地理区域的房产评估数据。
参照图3,示出了本申请的一种房产评估数据生成方法实施例3的步骤流程图,具体可以包括如下步骤:
步骤301,接收交互界面提交的处理请求;
在本申请实施例中,可以提供一交互界面,该交互界面可以是应用程序APP的交互界面,或者,浏览器打开的网页中的交互界面。例如,在终端的显示屏上展现一交互界面,用户可以通过该交互界面,提交针对某个地理区域的房产评估数据的处理请求,终端将该处理请求发送至服务器。
步骤302,根据所述处理请求,获取地理区域内的用户数据和地理区域影响因子;
处理请求中可以包括有用户所选择的地理区域位置信息。服务器根据处理请求中的地理区域位置信息获取相应地理区域内的用户数据和地理区域影响因子。
步骤303,从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据;
针对同一个地理区域的用户数据和地理区域影响因子,从中提取原始特征数据。
在具体实现中,从地理区域内的用户数据和地理区域影响因子中提取原始特征数据的过程,与前述实施例中步骤202-步骤203类似,可以相互参照,本实施例对此不再赘述。
步骤304,从所述原始特征数据中选取目标特征数据;
在具体实现中,从原始特征数据中选取目标特征数据的过程,与前述实施例中步骤204-步骤206类似,可以相互参照,本实施例对此不再赘述。
步骤305,采用所述目标特征数据,生成随机森林模型;
随机森林模型是多个决策树模型的集合。每一个决策树模型,都是在所有的目标特征数据中,任意选取多个目标特征数据来生成。
步骤306,根据所述随机森林模型,生成所述地理区域的房产评估数据;
根据随机森林模型中各个决策树模型的节点路径,生成地理区域的房产评估数据。
步骤307,将所述房产评估数据发送至所述交互界面。
服务器将地理区域的房产评估数据返回至终端的交互界面进行展现。
参照图4,示出了本申请的一种房产评估数据生成方法实施例4的步骤流程图,具体可以包括如下步骤:
步骤401,服务器获取地理区域内的用户数据和地理区域影响因子;
步骤402,所述服务器从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据;
针对同一个地理区域的用户数据和地理区域影响因子,从中提取原始特征数据。
在具体实现中,从地理区域内的用户数据和地理区域影响因子中提取原始特征数据的过程,与前述实施例中步骤202-步骤203类似,可以相互参照,本实施例对此不再赘述。
步骤403,所述服务器从所述原始特征数据中选取目标特征数据;
在具体实现中,从原始特征数据中选取目标特征数据的过程,与前述实施例中步骤204-步骤206类似,可以相互参照,本实施例对此不再赘述。
步骤404,所述服务器采用所述目标特征数据,生成随机森林模型;
随机森林模型是多个决策树模型的集合。每一个决策树模型,都是在所有的目标特征数据中,任意选取多个目标特征数据来生成。
步骤405,所述服务器根据所述随机森林模型,生成所述地理区域的房产评估数据。
根据随机森林模型中各个决策树模型的节点路径,生成地理区域的房产评估数据。
参照图5,示出了本申请的一种房产评估数据生成方法实施例5的步骤流程图,具体可以包括如下步骤:
步骤501,获取地理区域内的用户数据和地理区域影响因子;
地理区域内的用户数据是电子商务平台所能获取到的所有与用户相关的数据。地理区域影响因子具体是指可以影响地理区域内的房产价值的数据,这些数据可以从整个互联网的网页数据中抽取得到。
步骤502,从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据;
在本申请实施例中,所述步骤502可以包括:
对所述地理区域内的用户数据和地理区域影响因子进行数据清洗;
针对清洗后的数据提取原始特征数据。
步骤503,从所述原始特征数据中选取目标特征数据;
在本申请实施例中,所述步骤503可以包括:
对所述原始特征数据进行预处理;
针对经过预处理的原始特征数据计算重要度参数;
根据所述重要度参数选取目标特征数据。
步骤504,采用所述目标特征数据,生成所述地理区域的房产评估数据。
在本申请实施例中的一种优选示例中,所述步骤504可以包括:
采用所述目标特征数据,生成随机森林模型,所述随机森林模型包括多个决策树模型;
确定所述随机森林模型的决策树模型中的各个节点路径;
根据所述各个节点路径,生成所述地理区域的房产评估数据。
在本申请实施例中的另一种优选示例中,所述步骤504可以包括:
采用所述目标特征数据,生成随机森林模型,所述随机森林模型包括多个决策树模型;
统计所述随机森林模型的决策树模型的各类叶子节点的数目;
计算同一类叶子节点的数目,与同一决策树模型中所有叶子节点的数目的比值;
根据所述比值,生成所述地理区域的房产评估数据。
参照图6所示,为本申请实施例中生成房产评估数据的示意图。其中,全网数据是电子商务平台自身服务器中与用户相关的数据,具体可以包括:片区用户全网购物类数据、片区用户全网购物物流数据、片区用户支付及金融消费类行为数据、片区用户年龄/性别/职业/教育等数据、片区用户全网购物评论及互动、浏览等文本行为数据、片区用户在全网的其他行为数据。
外网爬取数据是指从非电子商务平台自身服务器的外部网络中爬取的可影响房屋价值数据,具体可以包括:各个片区相关的地段,环线等交通数据;商圈/生活环境等配套数据;小区物业经营及管理风评数据;社区背景,开发商口碑等数据;房屋品质数据;经济周期等数据;社区规划类数据;中介交易及平台交易数据;其他相关的评论/互动等数据。
根据全网数据和外网爬取的数据,进行大数据分析决策建模。建模时,以全网数据和外网爬取的数据作为输入。
大数据分析决策建模主要包括以下几个步骤:
1、全路径数据清洗,抽取及特征转换;
2、特征筛选及缺失值处理;
3、特征重要性分析及关联特征融合;
4、模型构建过程中的规则抽取及策略分析。
建模完成后,可以得到多个决策树模型,每个决策树模型所包含的特征各不相同。
根据得到的多个决策树模型,最终输出房产升值的评估分数,以及对应于该分析结果的支撑性规则策略。
参照图7所示为本申请实施例中一种决策树模型的分析结果输出页面的示意图。其中输出页面包括某个地理区域的楼盘分布图,以及采用该地理区域的全网数据和外网爬取数据生成决策树模型的分析结果示意图。
决策树模型的分析结果示意图包括在决策树模型中具有意义的特征数据。如:中介交易特征数据、历史签约特征数据、货币经济周期特征数据、楼市调控周期特征数据、社区品质特征数据、居民画像特征数据、风评建模特征数据、交通规划特征数据、生活配套特征数据。决策树模型的分析结果示意图还包括:根据决策树模型得到的房产升值潜力评分。
输出页面还可以包括:根据决策树模型得到的支撑性规则策略。例如:支撑性规则策略可以分为:主要支撑策略、次要支撑策略、重要看点。
主要支撑策略:
1、小区处于外环线边缘,规划有两条地铁,分别于18年、20年开通。根据地铁增值模型,给予9分。
2、小区属于高档白领小区,目前自主率74%,居民消费能力及层级较强。根据居民画像模型,给予7分。
3、小区生活配套不够全面,目前网购率89%,但物流较好,物流一站率65%。根据生活配套升值模型,给予6分。
地铁增值模型是包含了与地铁相关的数据的决策树模型,居民画像模型是包含了与居民画像相关的数据的决策树模型,生活配套升值模型是包含了与生活配套相关的数据的决策树模型。
次要支撑策略:
1、小区口碑风评良好,根据全网风评模型,聚类到一类风评指标,给予10分。
2、小区开发商属于一类开发商,且物业管理完善,根据社区品质模型,聚类到A类品质,给予9分。
3、小区开盘10天之内售罄,目前一次换手率5%一下,根据持有评估模型评估到S级去化率,给予10分。
风评模型是包含了风评数据的决策树模型,社区品质模型是包含了与社区品质相关的数据的决策树模型,持有评估模型是包含了与持有评估相关的数据的决策树模型。
重要看点:
1、目前楼市调控属于温和上涨期,小区在卖5套,挂牌价属于区域中游,一旦放量,后市可期。根据潜力模型给予9分。
2、小区历史签约二手房价格较为平稳,成交量不到2%,且均为溢价30%以上成交,对小区价位提供了稳定支撑。根据交易模型,给予20分。
潜力模型是包含了与升值潜力相关的数据的决策树模型,交易模型是包含了与交易相关的数据的决策树模型。
本申请实施例中,根据电子商务平台自身服务器中与用户相关的全网数据,以及外部网络中爬取的可影响房屋价值数据,构建多个决策树模型。根据决策树模型,生成房产升值的评估分数,以及对应于该分析结果的支撑性规则策略。从而能够对房产增值进行科学的评估,辅助房产买方决策。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图8,示出了本申请的一种房产评估数据生成装置实施例的结构框图,具体可以包括如下模块:
数据获取模块801,用于获取地理区域内的用户数据和地理区域影响因子;
原始特征数据提取模块802,用于从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据;
目标特征数据选取模块803,用于从所述原始特征数据中选取目标特征数据;
随机森林模型生成模块804,用于采用所述目标特征数据,生成随机森林模型;
房产评估数据生成模块805,用于根据所述随机森林模型,生成所述地理区域的房产评估数据。
在本申请实施例中,所述原始特征数据提取模块802可以包括:
数据清洗子模块,用于对所述地理区域内的用户数据和地理区域影响因子进行数据清洗;
原始特征数据提取子模块,用于针对清洗后的数据提取原始特征数据。
在本申请实施例中,所述目标特征数据选取模块803可以包括:
预处理子模块,用于对所述原始特征数据进行预处理;
重要度参数计算子模块,用于针对经过预处理的原始特征数据计算重要度参数;
目标特征选取子模块,用于根据所述重要度参数选取目标特征数据。
在本申请实施例的一种示例中,所述随机森林模型包括多个决策树模型,所述房产评估数据生成模块805可以包括:
节点路径确定子模块,用于确定所述随机森林模型的决策树模型中的各个节点路径;
节点路径评估子模块,用于根据所述各个节点路径,生成所述地理区域的房产评估数据。
在本申请实施例的另一种示例中,所述随机森林模型包括多个决策树模型,所述房产评估数据生成模块805可以包括:
叶子几点数目统计子模块,用于统计所述随机森林模型的决策树模型的各类叶子节点的数目;
叶子节点比值计算子模块,用于计算同一类叶子节点的数目,与同一决策树模型中所有叶子节点的数目的比值;
叶子节点比值评估子模块,用于根据所述比值,生成所述地理区域的房产评估数据。
在本申请实施例中,所述数据清洗子模块可以包括:
异常数据检测单元,用于检测所述地理区域内的用户数据和地理区域影响因子是否存在异常数据;
异常数据处理单元,用于若存在异常数据,则根据异常数据的取值,对所述异常数据进行调整或舍弃所述异常数据。
在本申请实施例中,所述数据清洗子模块还可以包括:
缺失数据检测单元,用于检测所述地理区域内的用户数据和地理区域影响因子是否存在缺失数据;
估算处理单元,用于若存在缺失数据,则对所述缺失数据进行估算处理;
缺失数据处理单元,用于根据估算处理结果对所述缺失数据进行补全,或对所述缺失数据进行舍去处理。
在本申请实施例中,所述原始特征数据包括类别型特征数据,所述原始特征数据提取子模块可以包括:
描述性数据选取单元,用于从所述清洗后的数据中选取描述性数据;
类别型特征数据抽取单元,用于从所述描述性数据中抽取类别型特征数据。
在本申请实施例中,所述原始特征数据还包括词袋模型特征数据,所述原始特征数据提取子模块还可以包括:
词袋模型特征数据抽取单元,用于从所述描述性数据中抽取词袋模型特征数据。
在本申请实施例中,所述原始特征数据还包括数值型特征数据,所述原始特征数据提取子模块还可以包括:
数值型数据选取单元,用于从所述清洗后的数据中选取数值型数据;
数值型特征数据抽取单元,用于从数值型数据中抽取数值型特征数据。
在本申请实施例中,所述原始特征数据提取子模块还可以包括:
归一化处理单元,用于对所述数值型特征数据进行归一化处理。
在本申请实施例中,所述预处理子模块可以包括:
缺失特征数据检测单元,用于检测所述原始特征数据是否存在缺失特征数据;
缺失特征数据处理单元,用于若存在,则对所述缺失特征数据进行补全或舍去所述缺失特征数据。
在本申请实施例中,所述预处理子模块还可以包括:
异常特征数据检测单元,用于检测所述原始特征数据是否存在异常特征数据;
异常特征数据处理单元,用于若存在,则对所述异常特征数据进行调整或舍去所述异常特征数据。
在本申请实施例中,所述预处理子模块还可以包括:
特征数据融合单元,用于从原始特征数据中选取特征数据进行融合。
在本申请实施例中,所述特征数据融合单元可以包括:
关联系数矩阵计算子单元,用于计算两个特征数据之间的关联系数矩阵;
加权求和子单元,用于根据关联系数矩阵,对有关联关系的特征数据进行加权求和处理。
在本申请实施例中,所述重要度参数包括信息熵,所述重要度参数计算子模块可以包括:
信息熵单元,用于针对经过预处理的原始特征数据计算信息熵。
在本申请实施例中,所述目标特征选取子模块可以包括:
第一目标特征选取单元,用于将信息熵大于预设信息熵阈值的经过预处理的原始特征数据,作为目标特征数据。
在本申请实施例中,所述重要度参数包括距离度量,所述重要度参数计算子模块可以包括:
距离度量计算单元,用于两两计算任意两个经过预处理的原始特征数据之间的距离度量。
在本申请实施例中,所述目标特征选取子模块可以包括:
距离度量比较子模块,用于将两个经过预处理的原始特征数据之间的距离度量,与预设距离度量阈值进行比较;
第二目标特征选取单元,用于根据比较结果,将相应的两个经过预处理的原始特征数据作为目标特征数据。
在本申请实施例中,所述重要度参数包括离散分布图的判断度量,所述重要度参数计算子模块可以包括:
离散分布图生成单元,用于针对所有经过预处理的原始特征数据,生成对应的离散分布图;
判断度量计算单元,用于计算各个离散分布图的判断度量。
在本申请实施例中,所述目标特征选取子模块可以包括:
平均判断度量计算单元,用于计算所有离散分布图的判断度量的平均值,得到平均判断度量;
判断度量比值计算单元,用于计算各个离散分布图的判断度量,与所述平均判断度量的比值;
第三目标特征选取单元,用于当某个处理后特征的判断度量,与所述平均判断度量的比值大于预设比例阈值时,将该经过预处理的原始特征数据作为目标特征数据。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种房产评估数据生成方法和一种房产评估数据生成装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (32)
1.一种房产评估数据生成方法,其特征在于,包括:
获取地理区域内的用户数据和地理区域影响因子;
从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据;
从所述原始特征数据中选取目标特征数据;
采用所述目标特征数据,生成随机森林模型;
根据所述随机森林模型,生成所述地理区域的房产评估数据。
2.根据权利要求1所述的方法,其特征在于,所述从所述原始特征数据中选取目标特征数据的步骤包括:
对所述原始特征数据进行预处理;
针对经过预处理的原始特征数据计算重要度参数;
根据所述重要度参数选取目标特征数据。
3.根据权利要求1所述的方法,其特征在于,所述随机森林模型包括多个决策树模型,所述根据所述随机森林模型,生成所述地理区域的房产评估数据的步骤包括:
确定所述随机森林模型的决策树模型中的各个节点路径;
根据所述各个节点路径,生成所述地理区域的房产评估数据。
4.根据权利要求1所述的方法,其特征在于,所述随机森林模型包括多个决策树模型,所述根据所述随机森林模型,生成所述地理区域的房产评估数据的步骤包括:
统计所述随机森林模型的决策树模型的各类叶子节点的数目;
计算同一类叶子节点的数目,与同一决策树模型中所有叶子节点的数目的比值;
根据所述比值,生成所述地理区域的房产评估数据。
5.根据权利要求1所述的方法,其特征在于,所述从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据的步骤包括:
对所述地理区域内的用户数据和地理区域影响因子进行数据清洗;
针对清洗后的数据提取原始特征数据。
6.根据权利要求5所述的方法,其特征在于,所述对所述地理区域内的用户数据和地理区域影响因子进行数据清洗的步骤包括:
检测所述地理区域内的用户数据和地理区域影响因子是否存在异常数据;
若存在异常数据,则根据异常数据的取值,对所述异常数据进行调整或舍弃所述异常数据。
7.根据权利要求6所述的方法,其特征在于,所述对所述地理区域内的用户数据和地理区域影响因子进行数据清洗的步骤还包括:
检测所述地理区域内的用户数据和地理区域影响因子是否存在缺失数据;
若存在缺失数据,则对所述缺失数据进行估算处理;
根据估算处理结果对所述缺失数据进行补全,或对所述缺失数据进行舍去处理。
8.根据权利要求5所述的方法,其特征在于,所述原始特征数据包括类别型特征数据,所述针对清洗后的数据提取原始特征数据的步骤包括:
从所述清洗后的数据中选取描述性数据;
从所述描述性数据中抽取类别型特征数据。
9.根据权利要求8所述的方法,其特征在于,所述原始特征数据还包括词袋模型特征数据,所述针对清洗后的数据提取原始特征数据的步骤还包括:
从所述描述性数据中抽取词袋模型特征数据。
10.根据权利要求9所述的方法,其特征在于,所述原始特征数据还包括数值型特征数据,所述针对清洗后的数据提取原始特征数据的步骤还包括:
从所述清洗后的数据中选取数值型数据;
从数值型数据中抽取数值型特征数据。
11.根据权利要求10所述的方法,其特征在于,所述针对清洗后的数据提取原始特征数据的步骤还包括:
对所述数值型特征数据进行归一化处理。
12.根据权利要求2所述的方法,其特征在于,所述对所述原始特征数据进行预处理的步骤包括:
检测所述原始特征数据是否存在缺失特征数据;
若存在,则对所述缺失特征数据进行补全或舍去所述缺失特征数据。
13.根据权利要求12所述的方法,其特征在于,所述对所述原始特征数据进行预处理的步骤还包括:
检测所述原始特征数据是否存在异常特征数据;
若存在,则对所述异常特征数据进行调整或舍去所述异常特征数据。
14.根据权利要求13所述的方法,其特征在于,所述对所述原始特征进行预处理的步骤还包括:
从原始特征数据中选取特征数据进行融合。
15.根据权利要求13所述的方法,其特征在于,所述从原始特征数据中选取特征数据进行融合的步骤包括:
计算两个特征数据之间的关联系数矩阵;
根据关联系数矩阵,对有关联关系的特征数据进行加权求和处理。
16.根据权利要求2或12或13或14或15所述的方法,其特征在于,所述重要度参数包括信息熵,所述针对经过预处理的原始特征数据计算重要度参数的步骤包括:
针对经过预处理的原始特征数据计算信息熵。
17.根据权利要求16所述的方法,其特征在于,所述根据所述重要度参数选取目标特征数据的步骤包括:
将信息熵大于预设信息熵阈值的经过预处理的原始特征数据,作为目标特征数据。
18.根据权利要求2或12或13或14或15所述的方法,其特征在于,所述重要度参数包括距离度量;所述针对经过预处理的原始特征数据计算重要度参数的步骤包括:
两两计算任意两个经过预处理的原始特征数据之间的距离度量。
19.根据权利要求18所述的方法,其特征在于,所述根据所述重要度参数选取目标特征数据的步骤包括:
将两个经过预处理的原始特征数据之间的距离度量,与预设距离度量阈值进行比较;
根据比较结果,将相应的两个经过预处理的原始特征数据作为目标特征数据。
20.根据权利要求2或12或13或14或15所述的方法,其特征在于,所述重要度参数包括离散分布图的判断度量,所述针对经过预处理的原始特征数据计算重要度参数的步骤包括:
针对所有经过预处理的原始特征数据,生成对应的离散分布图;
计算各个离散分布图的判断度量。
21.根据权利要求20所述的方法,其特征在于,所述根据所述重要度参数选取目标特征数据的步骤包括:
计算所有离散分布图的判断度量的平均值,得到平均判断度量;
计算各个离散分布图的判断度量,与所述平均判断度量的比值;
当某个处理后特征的判断度量,与所述平均判断度量的比值大于预设比例阈值时,将该经过预处理的原始特征数据作为目标特征数据。
22.一种房产评估数据生成装置,其特征在于,包括:
数据获取模块,用于获取地理区域内的用户数据和地理区域影响因子;
原始特征数据提取模块,用于从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据;
目标特征数据选取模块,用于从所述原始特征数据中选取目标特征数据;
随机森林模型生成模块,用于采用所述目标特征数据,生成随机森林模型;
房产评估数据生成模块,用于根据所述随机森林模型,生成所述地理区域的房产评估数据。
23.根据权利要求22所述的装置,其特征在于,所述目标特征数据选取模块包括:
预处理子模块,用于对所述原始特征数据进行预处理;
重要度参数计算子模块,用于针对经过预处理的原始特征数据计算重要度参数;
目标特征选取子模块,用于根据所述重要度参数选取目标特征数据。
24.根据权利要求22所述的装置,其特征在于,所述随机森林模型包括多个决策树模型,所述房产评估数据生成模块包括:
节点路径确定子模块,用于确定所述随机森林模型的决策树模型中的各个节点路径;
节点路径评估子模块,用于根据所述各个节点路径,生成所述地理区域的房产评估数据。
25.根据权利要求22所述的装置,其特征在于,所述随机森林模型包括多个决策树模型,所述房产评估数据生成模块包括:
叶子几点数目统计子模块,用于统计所述随机森林模型的决策树模型的各类叶子节点的数目;
叶子节点比值计算子模块,用于计算同一类叶子节点的数目,与同一决策树模型中所有叶子节点的数目的比值;
叶子节点比值评估子模块,用于根据所述比值,生成所述地理区域的房产评估数据。
26.一种房产评估数据生成方法,其特征在于,包括:
接收交互界面提交的处理请求;
根据所述处理请求,获取地理区域内的用户数据和地理区域影响因子;
从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据;
从所述原始特征数据中选取目标特征数据;
采用所述目标特征数据,生成随机森林模型;
根据所述随机森林模型,生成所述地理区域的房产评估数据;
将所述房产评估数据发送至所述交互界面。
27.一种房产评估数据生成方法,其特征在于,包括:
服务器获取地理区域内的用户数据和地理区域影响因子;
所述服务器从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据;
所述服务器从所述原始特征数据中选取目标特征数据;
所述服务器采用所述目标特征数据,生成随机森林模型;
所述服务器根据所述随机森林模型,生成所述地理区域的房产评估数据。
28.一种房产评估数据生成方法,其特征在于,包括:
获取地理区域内的用户数据和地理区域影响因子;
从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据;
从所述原始特征数据中选取目标特征数据;
采用所述目标特征数据,生成所述地理区域的房产评估数据。
29.根据权利要求28所述的方法,其特征在于,所述从所述原始特征数据中选取目标特征数据的步骤包括:
对所述原始特征数据进行预处理;
针对经过预处理的原始特征数据计算重要度参数;
根据所述重要度参数选取目标特征数据。
30.根据权利要求28所述的方法,其特征在于,所述采用所述目标特征数据,生成所述地理区域的房产评估数据的步骤包括:
采用所述目标特征数据,生成随机森林模型,所述随机森林模型包括多个决策树模型;
确定所述随机森林模型的决策树模型中的各个节点路径;
根据所述各个节点路径,生成所述地理区域的房产评估数据。
31.根据权利要求28所述的方法,其特征在于,所述采用所述目标特征数据,生成所述地理区域的房产评估数据的步骤包括:
采用所述目标特征数据,生成随机森林模型,所述随机森林模型包括多个决策树模型;
统计所述随机森林模型的决策树模型的各类叶子节点的数目;
计算同一类叶子节点的数目,与同一决策树模型中所有叶子节点的数目的比值;
根据所述比值,生成所述地理区域的房产评估数据。
32.根据权利要求28所述的方法,其特征在于,所述从所述地理区域内的用户数据和地理区域影响因子中提取原始特征数据的步骤包括:
对所述地理区域内的用户数据和地理区域影响因子进行数据清洗;
针对清洗后的数据提取原始特征数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710148148.3A CN108572988A (zh) | 2017-03-13 | 2017-03-13 | 一种房产评估数据生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710148148.3A CN108572988A (zh) | 2017-03-13 | 2017-03-13 | 一种房产评估数据生成方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108572988A true CN108572988A (zh) | 2018-09-25 |
Family
ID=63578618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710148148.3A Pending CN108572988A (zh) | 2017-03-13 | 2017-03-13 | 一种房产评估数据生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108572988A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886775A (zh) * | 2019-01-17 | 2019-06-14 | 平安城市建设科技(深圳)有限公司 | 房屋优缺点评估方法、装置、设备及计算机可读存储介质 |
CN110659433A (zh) * | 2019-08-01 | 2020-01-07 | 北京百度网讯科技有限公司 | Poi价值评估的方法、装置、设备和计算机存储介质 |
CN112085388A (zh) * | 2020-09-10 | 2020-12-15 | 深圳禾略贝塔信息科技有限公司 | 一种土地价值评估方法、装置、终端以及可读存储介质 |
WO2021004318A1 (zh) * | 2019-07-09 | 2021-01-14 | 平安科技(深圳)有限公司 | 资源数据的处理方法、装置、计算机设备和存储介质 |
CN112950352A (zh) * | 2021-02-08 | 2021-06-11 | 北京淇瑀信息科技有限公司 | 用户筛选策略生成方法、装置及电子设备 |
CN113129075A (zh) * | 2021-05-08 | 2021-07-16 | 深圳新房网络科技有限公司 | 一种房产线上线下销售同步跟踪数据追溯系统 |
CN114254850A (zh) * | 2020-09-25 | 2022-03-29 | 合肥京东方显示技术有限公司 | 产品不良的影响因素的评估方法及系统 |
-
2017
- 2017-03-13 CN CN201710148148.3A patent/CN108572988A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886775A (zh) * | 2019-01-17 | 2019-06-14 | 平安城市建设科技(深圳)有限公司 | 房屋优缺点评估方法、装置、设备及计算机可读存储介质 |
WO2021004318A1 (zh) * | 2019-07-09 | 2021-01-14 | 平安科技(深圳)有限公司 | 资源数据的处理方法、装置、计算机设备和存储介质 |
CN110659433A (zh) * | 2019-08-01 | 2020-01-07 | 北京百度网讯科技有限公司 | Poi价值评估的方法、装置、设备和计算机存储介质 |
US11468349B2 (en) | 2019-08-01 | 2022-10-11 | Beijing Baidu Netcom Science And Technology Co., Ltd. | POI valuation method, apparatus, device and computer storage medium |
CN112085388A (zh) * | 2020-09-10 | 2020-12-15 | 深圳禾略贝塔信息科技有限公司 | 一种土地价值评估方法、装置、终端以及可读存储介质 |
CN114254850A (zh) * | 2020-09-25 | 2022-03-29 | 合肥京东方显示技术有限公司 | 产品不良的影响因素的评估方法及系统 |
CN112950352A (zh) * | 2021-02-08 | 2021-06-11 | 北京淇瑀信息科技有限公司 | 用户筛选策略生成方法、装置及电子设备 |
CN113129075A (zh) * | 2021-05-08 | 2021-07-16 | 深圳新房网络科技有限公司 | 一种房产线上线下销售同步跟踪数据追溯系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI712981B (zh) | 風險辨識模型訓練方法、裝置及伺服器 | |
CN108572988A (zh) | 一种房产评估数据生成方法和装置 | |
CN102737334B (zh) | 微细分定义系统 | |
CN102708131B (zh) | 将消费者自动分类到微细分中 | |
CN108154401A (zh) | 用户画像刻画方法、装置、介质和计算设备 | |
CN107016026B (zh) | 一种用户标签确定、信息推送方法和设备 | |
US10185996B2 (en) | Stock fluctuation prediction method and server | |
CN106022800A (zh) | 一种用户特征数据的处理方法和装置 | |
KR102286415B1 (ko) | 제품수명주기에 따른 수명주기별 온라인과 오프라인 정보분석 서비스 시스템 | |
CN107689008A (zh) | 一种用户投保行为预测的方法及装置 | |
CN105469263A (zh) | 一种商品推荐方法及装置 | |
JP2004528657A5 (zh) | ||
CN103514255A (zh) | 一种基于项目层次类别的协同过滤推荐方法 | |
CN111882420A (zh) | 响应率的生成方法、营销方法、模型训练方法及装置 | |
CN110659961A (zh) | 一种用于识别线下商户的方法和装置 | |
CN109325845A (zh) | 一种金融产品智能推荐方法及系统 | |
CN105303447A (zh) | 利用网络信息进行信用评级的方法和系统 | |
CN118153964B (zh) | 基于大数据技术的供应商企业风险评估方法及系统 | |
CN116401379A (zh) | 金融产品数据推送方法、装置、设备及存储介质 | |
Xu et al. | Novel model of e-commerce marketing based on big data analysis and processing | |
CN111861679A (zh) | 一种基于人工智能的商品推荐方法 | |
Gerlich et al. | Artificial intelligence as toolset for analysis of public opinion and social interaction in marketing: identification of micro and nano influencers | |
US20150332295A1 (en) | Method of Forecasting Resource Demand | |
KR102585895B1 (ko) | 오픈마켓에서의 키워드 마케팅 효율 증가를 위한 방법 및 시스템 | |
CN115797020B (zh) | 基于图数据库的数据处理的零售推荐方法、系统和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1260914 Country of ref document: HK |
|
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180925 |
|
RJ01 | Rejection of invention patent application after publication |