CN114187033A - 一种基于深度迁移学习的可解释性房屋价格评估分类方法 - Google Patents

一种基于深度迁移学习的可解释性房屋价格评估分类方法 Download PDF

Info

Publication number
CN114187033A
CN114187033A CN202111410840.1A CN202111410840A CN114187033A CN 114187033 A CN114187033 A CN 114187033A CN 202111410840 A CN202111410840 A CN 202111410840A CN 114187033 A CN114187033 A CN 114187033A
Authority
CN
China
Prior art keywords
house
data
information
price
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111410840.1A
Other languages
English (en)
Inventor
王苏桐
陈雪龙
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202111410840.1A priority Critical patent/CN114187033A/zh
Publication of CN114187033A publication Critical patent/CN114187033A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0278Product appraisal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Accounting & Taxation (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于人工智能领域,提出了一种基于深度迁移学习的可解释性房屋价格评估分类方法。该分类方法在基于深度迁移学习的房屋室内图像特征提取的基础上,融合房屋基本信息、房屋位置信息等多模态特征,运用基于stacking的集成学习方法和Shapley加性解释分析,实现房屋价格的评估分类与可视化解释。该方法使模型能够捕获具有多种模态的互补信息,并且在缺失某一模态信息情况下也能提供可靠的分类结果;通过动态调整的内部运行机制,根据卖家上传至平台的房产数据进行精准的价格评估。

Description

一种基于深度迁移学习的可解释性房屋价格评估分类方法
技术领域
本发明涉及人工智能领域,具体涉及一种基于深度迁移学习的可解释性房屋价格评估分类方法。
背景技术
在快速发展的中国社会,房地产业对经济产生重大影响,对家庭消费和储蓄也产生重大影响。高通胀和房价上涨一直是市场关注的焦点。房屋销售商经常通过信息鸿沟形成垄断,从而抬高房价。房地产的价值不仅取决于成本,还取决于市场条件和周边设施。合理评估房地产对政府的城市决策者,房地产销售商和个人购买者都是有益的,对房地产交易的合理评估更有利于政府的宏观调控。房地产评估方法有很多种,包括成本法,收入法和市场比较法(V.Kontrimas and A.Verikas,“The mass appraisal of the real estateby computational intelligence,”Appl.Soft Comput.,vol.11,no.1,pp.443–448,Jan.2011)。市场比较法是最常用的方法,该方法选择具有相同目的和条件的房地产案例,该案例在市场中已经过交易或评估过。通过准确的指数比较和调整,并充分考虑市场因素,得出目标房地产的价值。经验丰富的房地产评估师会着重于外观、面积、折旧、周围环境、相似条件以及有关该财产的其他信息(X.Liu,Q.Xu,J.Yang,J.Thalman,S.Yan,and J.Luo,“Learning Multi-Instance Deep Ranking and Regression Network for Visual HouseAppraisal,”IEEE Trans.Knowl.Data Eng.,vol.30,no.8,pp.1496–1506,Aug.2018)。但是,在评估过程中人为地添加了主观判断,缺乏确定性,客观性和对多模式信息的综合考虑。利用AI技术来帮助房地产决策者是有益的。研究人员已经考虑将各种机器学习方法用于房地产评估。
Pai和Wang(P.-F.Pai and W.-C.Wang,“Using Machine Learning Models andActual Transaction Data for Predicting Real Estate Prices,”Appl.Sci.,vol.10,no.17,p.5832,Aug.2020)使用最小二乘支持向量回归(LSSVR)、分类回归树(CART)、回归神经网络(GRNN)预测房地产价格,发现通过遗传算法(GA)优化参数后的LSSVR效果最好。Giudice等学者(V.Del Giudice,P.De Paola,and F.Forte,“Using Genetic Algorithmsfor Real Estate Appraisals,”Buildings,vol.7,no.4,p.31,Mar.2017)应用遗传算法(GA)和多元回归分析(MRA)进行房地产评估,他们使用了意大利的房地产数据集,GA的绝对平均百分比误差为10.62%,优于MRA的11.50%。Renigier-
Figure BDA0003373755150000021
等学者(M.Renigier-
Figure BDA0003373755150000022
A.Janowski,and M.D’Amato,“Automated Valuation Model based on fuzzyand rough set theory for real estate market with insufficient source data,”Land use policy,vol.87,p.104021,Sep.2019)基于决策理论和数据挖掘技术,提出了自动估值模型(AVM),该决策模型包括粗糙集理论(RST)、价值容忍关系(VTR)和模糊逻辑,通过基于RST和VTR的AVM,使房地产评估可以在同一时间点比较类似房地产的价值,获得的AVM的系数显著优于两个市场的RST和VTR。Natividade-Jesus等学者(E.Natividade-Jesus,J.Coutinho-Rodrigues,and C.H.Antunes,“A multicriteria decision supportsystem for housing evaluation,”Decis.Support Syst.,vol.43,no.3,pp.779–790,2007)提出了消费者、发起人、市政当局等不同视角下的房屋评价决策支持系统,评估层次结构包含“结构/物理/内在”属性和“位置和环境”属性。
深度学习方法在特征提取方面表现优秀,尤其是在图像处理方面(Y.LeCun,Y.Bengio,and G.Hinton,“Deep learning,”Nature,vol.521,no.7553,pp.436–444,May2015)。越来越多的研究人员应用深度学习方法来提取深度视觉特征以获得更好的性能。刘等学者(Y.Liu,C.Jiang,and H.Zhao,“Using contextual features and multi-viewensemble learning in product defect identification from online discussionforums,”Decis.Support Syst.,vol.105,pp.1–12,2018)提出了一种用于产品缺陷识别的多视图集成学习方法,并展示了该方法在汽车行业案例中的实用性。Fu等学者(Y.Fu,H.Xiong,Y.Ge,Y.Zheng,Z.Yao,and Z.-H.Zhou,“Modeling of Geographic Dependenciesfor Real Estate Ranking,”ACM Trans.Knowl.Discov.Data,vol.11,no.1,pp.1–27,Aug.2016)提出了ClusRanking,一种地理方法,通过利用排名和聚类能力的相互作用进行房地产评估,他们首先从大数据中提取了房地产的地理效用和社区的流行度,然后对潜在业务领域的影响进行建模,随后融合了这三个影响因素,预测了房地产投资价值。这些研究证实了将卷积神经网络引入房地产行业的有效性。
多模态融合已被应用于解决分类和回归问题,包括房地产评估、视频分析和医学分析。多模态机器学习是一种从多种模态构建模型和相关信息的新趋势(T.Baltrusaitis,C.Ahuja,and L.-P.Morency,“Multimodal Machine Learning:ASurvey and Taxonomy,”IEEE Trans.Pattern Anal.Mach.Intell.,vol.41,no.2,pp.423–443,Feb.2019),它使模型能够捕获具有多种模态的互补信息,并且即使在缺失某一模态的情况下也能提供可靠的预测。
发明内容
本发明提供了一种基于深度迁移学习的可解释性房屋价格评估分类方法(IMSEL),详细阐述基于Stacking的多模态可解释集成学习方法,其中多模态数据包括房屋基本信息、位置信息、房屋内部图像信息。除了房地产的结构信息,IMSEL具有动态调整的内部运行机制,根据卖家上传至平台的房产数据进行精准的价格预测。本发明的技术方案如下:一种基于深度迁移学习的可解释性房屋价格评估分类方法,具体步骤如下;
步骤一、模型训练测试数据的获取和预处理;
获取在线销售房屋的价格信息、基本信息、位置信息和房屋室内图像信息并进行预处理;信息均包括表达不同类别的类别特征和表达同类别数量的数值特征;类别特征包含区、街道、社区、房屋朝向、装修类型、有无电梯、房屋结构等,数值特征包括卧室数量、客厅数量、卫生间数量、建筑面积、楼层、周围学校数量、周围医疗设施等。
房屋基本信息数据包括卧室数、建筑层数、建筑面积、装修情况;合并基本信息中同类别的不同表述方式,比如合并相同社区名称的不同表述方式,对于一些混合特征,比如区域特征划分为区和街道,将房间信息以更精细的粒度划分为卧室、客厅和浴室;删除缺失值和异常值;例如存在与实际情况不符的街道、建筑面积超过在线交易平台记录上限、以及卧室数量存在负值的数据。
房屋位置信息包括房地产周围的地标和兴趣点,具体包括教育机构、中学、小学、幼儿园、综合医院、美食、酒店、购物、生活服务、美、旅游景点、休闲娱乐、体育健身、教育培训、文化传媒、医疗保健、汽车服务、交通运输设施、金融、房地产、公司、政府机构、入口出口、自然特征、行政地标、地址、明星级酒店、表达酒店、超市、便利商店、葬礼、电影、KTV、药店、诊所、地铁站、公交车站;首先,从基本信息中获取每栋房屋的社区信息,并去除冗余社区以提高查询效率;其次,在地图上查询过滤后的社区名称地理坐标,去除查询城市管辖范围以外的异常地理坐标;第三,查询社区两公里范围内的周边设施;第四,计算社区周边各类设施的数量;最后,将生成的房屋位置信息与基本信息进行融合;
融合后的信息通过对数变换和标准化方法进行归一化处理;使用Xception网络作为网络主干提取房屋室内图像信息的深度视觉特征;
价格信息进行Kolmogorov-Smirnov正态性检验并观察理论分位数图,分布不符合正态分布采用下式进行对数变换,转换后的价格信息数据导出为Ln数据集;
y*=ln(y),#(1)
其中,y表示原始价格,y*表示转换后的价格;
不同数值特征的分布区间不同,会影响模型的性能,因此使用标准化方法对房屋数值特征进行变换,变换函数如下:
Figure BDA0003373755150000051
其中,x表示原始数据,μ表示数值特征的均值,σ表示数据特征的标准差,x*表示转换后的值;
房屋的价格信息、基本信息和位置信息采用均值插入法处理数值特征的缺失值,再采用最小最大值归一化处理,按比例缩放至数值特征均转换到[0,1]区间;采用众数插入法处理类别特征的缺失值,再采用独热编码进行处理;
针对房屋室内图像信息的深度视觉特征,采用图像增强处理方法,根据每个类别的比重扩展图像的数量;采用-180至180度之间的随机水平和垂直翻转方式,随机应用小于0.2内的宽度或高度位移,小于0.15内的缩放和剪切;通过颜色恒定性方法增强颜色、亮度盒对比度,消除介于0.8至1.2之间的亮度因数,将所有归一化的图像调整为224*224像素,使每个类别的图像数量相近;为了提升房屋内景图像特征的提取能力,运用跨领域迁移学习的方式,迁移在ImageNet上训练的Xception神经网络底层参数,冻结其在Entry flow、Middle flow中12个模块的参数设置,在训练过程中仅微调Exit flow部分的2个模块;
将房屋的基本信息、位置信息和房屋室内图像信息融合获得多模态数据;任一模态的缺失不影响评估分类方法的运行;
步骤二、训练基于stacking的多模态可解释集成学习模型;学习模型包括两个基学习模型Catboost和LightGBM、基于梯度的类激活映射模型和基于Shapley的加性解释模型;
步骤2.1、基于步骤一处理后的多模态数据,给定房屋数据的输入特征空间X,分别为图像特征Ximage和房屋数据特征Xdata;Ximage表示房屋室内图像的像素矩阵,层l表示为张量<Hl,Wl,Cl>其中Hl,Wl和Cl分别表示图像的高度,宽度和通道数;Xdata表示房屋表格数据矩阵;Xdata=(Xcat+Xnum)=(xcat,i+xnum,i,i=1,2,…,n,其中,n表示样本数量,Xcat表示类别特征向量,xcat,i表示第i个数据样本的类别特征向量,Xnum表示数值特征向量,xnum,i表示第i个数据样本的数值特征向量;
数据集表示为D=(xi,yi)=([ximage,xdata],yi),i=1,2,…,n,即n个具有分类标记的实例集合;其中xi∈X,ximage∈Ximage和xdata∈Xdata,这里粗体大写字母和粗体小写字母分别用于表示矩阵和向量;
将一组房屋分类结果表示为yi={0,1}d,其中yi是y的独热编码,d对应划分的房屋价格区间;给定d个类,分类标签的集合labels={c1,c2,c3,...,cd};第i个样本的类别标签为k,表示为yi,k=1;使用独热编码,每个样本的真实标签为独热向量,只有一个位置为1;数据集按8:2分成训练集和测试集;
步骤2.2、利用数据集对基于stacking的多模态可解释集成学习模型的两个基学习模型Catboost和LightGBM的参数进行训练调整;通过网格搜索技术,运用5折交叉验证方法,针对训练数据集优化Catboost和LightGBM两种模型迭代次数、学习率、树的深度、叶子节点数量的参数设置;
LightGBM包括单边梯度采样(GOSS)和互斥特征捆绑算法(EFB)以减少数据维度并加快学习过程;GOSS是一种以训练集的梯度为指导的欠采样方法,其保留最大梯度数据样本的a%,其余的随机数据样本为b%*N,数据样本按
Figure BDA0003373755150000065
分布;EFB处理高维特征空间,利用稀疏性对特征进行无损合并;
CatBoost为基于GBM的算法,其包括替代经典算法的置换驱动替代方案和用于处理分类特征的添加先验分布项的目标变量统计法,假设数据样本的随机排列为ρ=(ρ12,…,ρn),对于序列ρU中的第j个数据样本
Figure BDA0003373755150000071
表示为:
Figure BDA0003373755150000072
其中,U表示相加的前项,而c>0是前项的权重系数;I(·)为指示函数,当公式满足
Figure BDA0003373755150000073
时,
Figure BDA0003373755150000074
返回数值1,否则为0;对于多分类任务,将正类别的先验概率作为先验项U,将处理后的类别特征纳入到梯度提升树的模型中,充分发挥类别特征在模型中的作用且有效防止过拟合。
采用基于梯度的类激活映射模型对图像特征提取过程中的关注点进行可视化;采用分箱方法将房屋价格信息数据从数值特征转换为离散特征,将房价按中位数分为高房价和低房价,输出图像的明亮区域代表房屋室内图像对房价评估的关键区域因素;
采用基于Shapley的加性解释模型分析特征向量与分类结果之间的关系;针对每个样本,生成分类结果,依次添加每个类别特征,计算其边际贡献;然后在所有特征序列中考虑该特征向量的不同边际贡献;
Figure BDA0003373755150000075
表示样本中第i个样本的第j个特征,
Figure BDA0003373755150000076
表示模型对于该样本的预测值,则
Figure BDA0003373755150000077
的Shapley值为:
Figure BDA0003373755150000078
其中,
Figure BDA0003373755150000079
表示
Figure BDA00033737551500000710
的Shapley值,M表示特征的数量,
Figure BDA00033737551500000711
表示所有
Figure BDA00033737551500000712
的均值;当
Figure BDA00033737551500000713
第i个样本的第j个特征对预测结果
Figure BDA00033737551500000714
有积极作用,否则
Figure BDA00033737551500000715
时为负面作用,反映了该特征对预测结果的正负面作用;
采用Catboost和LightGBM提取基本信息数据和位置信息数据;
交叉验证过程中,训练集分成5个部分,其中80%用于训练,其余用于验证;在交叉验证集和测试集上每个LightGBM和Catboost模型独立运行5次进行预测;基于平均预测值形成新的数据集,使用交叉验证集上LightGBM和Catboost模型的预测值作为特征,测试集上模型的预测值作为标签;
步骤2.3基于步骤2.2获得新构造的特征和标签上训练Catboost和LightGBM模型并应用到测试集;对预测的房屋价格再进行逆对数变换操作;最终得到房屋评估的价格。
表1基于stacking的多模态可解释集成学习模型流程表
Figure BDA0003373755150000081
Figure BDA0003373755150000091
本发明的有益效果:该分类方法能够捕获具有多种模态的互补信息,并且即使在缺失某一模态的情况下也能提供可靠的预测;动态调整内部运行机制,通过上传至平台的房产数据进行精准的价格预测。
附图说明
图1是基于深度迁移学习的可解释性房屋价格评估分类方法整体示意图。
图2是基于Stacking的多模态可解释集成学习模型的整体示意图。
具体实施方式
本发明的分类方法能够基于用户上传的房屋基本信息、位置信息和房屋室内图像信息,对房屋价格进行自动评估,并按照房屋价格区间对其进行自动分类服务,同时提供可视化的分类依据,为线上售房者提供定价决策支持,为线上中介平台提供房屋自动分类管理服务,为精准营销提供基础。系统采用B/S结构设计,即Browser/Server,浏览器/服务器模式,利用Flask框架搭建系统,主要用HTML、CSS等技术实现,分为视图层,逻辑层和数据层三部分。如表2所示:
表2数据库系统结构
Figure BDA0003373755150000101
1、用户上传房地产基本数据及内景图像
用户界面支持电脑端和手机端两种形式,房屋基本信息数据采集采用选项框选择、文本框填写等形式填写表单信息,房屋室内图像上传支持本地照片上传或采用手机等设备摄像头拍照,由视图层接受用户上传数据,提交给逻辑层,并存入数据层。
2、系统对上传信息进行诊断
该功能的实现需要系统的逻辑层和数据库层的协调工作,具体如下:
步骤1逻辑层对待上传的表单信息及图像信息进行模态缺失性检测,若缺失图像模态,则跳过步骤2,直接进行步骤3,否则按照顺序进行。
步骤2进行房屋基本信息、位置信息和室内图像信息的特征提取,针对房屋室内图像信息,对其进行基于深度迁移学习的图像特征提取,并运用Grad-CAM方法求得图像特征梯度信息,实现房地产评估重要区域的可视化分析。若缺失表单信息,则直接跳至步骤4,否则按照顺序进行。
步骤3逻辑层对待上传的房屋基本信息、位置信息等表单进行类别特征编码、数值特征标准化等预处理,自动整理成LightGBM和Catboost模型输入所需格式,通过加性解释模型Shapley实现特征重要性分析。
步骤4若存在模态缺失,则直接加入逻辑层,得到最终分类结果,若模态不存在缺失,将步骤2输出的图像特征合并到步骤3输出的表单信息特征,通过Catboost和LightGBM模型进行处理,最终进行特征级多模态融合,输出最终分类结果。
步骤5将输出的分类结果及特征Shapley值输出至数据层进行存储,同时由视图层将评估分类结果、特征重要性可视化结果反馈给用户,构建房地产价格评估数据库。
3、用户对指定房地产类别进行检索
系统完成辅助分类整个流程后,房地产数据存储至房地产评估数据库,用户可以通过输入房地产特征等信息对房地产评估分类及分析流程进行检索。比如,在用户输入小区名称后,用户可以查看AI辅助评估结果,并查看相应的位置、内景图像信息,AI绘制的辅助评估依据。

Claims (1)

1.一种基于深度迁移学习的可解释性房屋价格评估分类方法,其特征在于,其具体步骤如下:
步骤一、模型训练测试数据的获取和预处理;
获取在线销售房屋的价格信息、基本信息、位置信息和房屋室内图像信息并进行预处理;信息均包括表达不同类别的类别特征和表达同类别数量的数值特征;
房屋基本信息包括卧室数、建筑层数、建筑面积、装修情况;合并基本信息中同类别的不同表述方式,删除缺失值和异常值;
房屋位置信息包括房地产周围的地标和兴趣点;首先,从基本信息中获取每栋房屋的社区信息,并去除冗余社区;其次,在地图上查询过滤后的社区名称地理坐标,去除查询城市管辖范围以外的异常地理坐标;第三,查询社区两公里范围内的周边设施;第四,计算社区周边各类设施的数量;最后,将生成的房屋位置信息与基本信息进行融合;
融合后的信息通过对数变换和标准化方法进行归一化处理;使用基于深度迁移学习的Xception网络作为网络主干提取房屋室内图像信息的深度视觉特征;
价格信息进行Kolmogorov-Smirnov正态性检验并观察理论分位数图,分布不符合正态分布采用下式进行对数变换,转换后的价格信息数据导出为Ln数据集;
y*=ln(y),#(1)
其中,y表示原始价格,y*表示转换后的价格;
使用标准化方法对房屋数值特征进行变换,变换函数如下:
Figure FDA0003373755140000011
其中,x表示原始数据,μ表示数值特征的均值,σ表示数据特征的标准差,x*表示转换后的值;
房屋的价格信息、基本信息和位置信息采用均值插入法处理数值特征的缺失值,再采用最小最大值归一化处理,按比例缩放至数值特征均转换到[0,1]区间;采用众数插入法处理类别特征的缺失值,再采用独热编码进行处理;
针对房屋室内图像信息的深度视觉特征,采用图像增强处理方法,根据每个类别的比重扩展图像的数量;采用-180至180度之间的随机水平和垂直翻转方式,随机应用小于0.2内的宽度或高度位移,小于0.15内的缩放和剪切;通过颜色恒定性方法增强颜色、亮度盒对比度,消除介于0.8至1.2之间的亮度因数,将所有归一化的图像调整为224*224像素,使每个类别的图像数量相近;为了提升房屋内景图像特征的提取能力,运用跨领域迁移学习的方式,迁移在ImageNet上训练的Xception神经网络底层参数,冻结其在Entry flow、Middleflow中12个模块的参数设置,在训练过程中仅微调Exit flow部分的2个模块;
将房屋的基本信息、位置信息和房屋室内图像信息融合获得多模态数据;任一模态的缺失不影响评估分类方法的运行;
步骤二、训练基于stacking的多模态可解释集成学习模型;学习模型包括两个基学习模型Catboost和LightGBM、基于梯度的类激活映射模型和基于Shapley的加性解释模型;
步骤2.1、基于步骤一处理后的多模态数据,给定房屋数据的输入特征空间X,分别为图像特征Ximage和房屋数据特征Xdata;Ximage表示房屋室内图像的像素矩阵,Xdata表示房屋表格数据矩阵;Xdata=(Xcat+Xnum)=(xcat,i+xnum,i,i=1,2,...,n,其中,n表示样本数量,Xcat表示类别特征向量,xcat,i表示第i个数据样本的类别特征向量,Xnum表示数值特征向量,xnum,i表示第i个数据样本的数值特征向量;
数据集表示为D=(xi,yi)=([ximage,xdata],yi),i=1,2,...,n,即n个具有分类标记的实例集合;其中xi∈X,ximage∈Ximage和xdata∈Xdata,这里粗体大写字母和粗体小写字母分别用于表示矩阵和向量;
将一组房屋分类结果表示为yi={0,1}d,其中yi是y的独热编码,d对应划分的房屋价格区间;给定d个类,分类标签的集合labels={c1,c2,c3,...,cd};第i个样本的类别标签为k,表示为yi,k=1;使用独热编码,每个样本的真实标签为独热向量,只有一个位置为1;数据集按8∶2分成训练集和测试集;
步骤2.2、利用数据集对基于stacking的多模态可解释集成学习模型的两个基学习模型Catboost和LightGBM的参数进行训练调整;通过网格搜索技术,运用5折交叉验证方法,针对训练数据集优化Catboost和LightGBM两种模型迭代次数、学习率、树的深度、叶子节点数量的参数设置;
LightGBM包括单边梯度采样和互斥特征捆绑算法;单边梯度采样保留最大梯度数据样本的a%,其余的随机数据样本为b%*N,数据样本按
Figure FDA0003373755140000031
分布;互斥特征捆绑算法处理高维特征空间,利用稀疏性对特征进行无损合并;
CatBoost为基于GBM的算法,其包括用于处理分类特征的添加先验分布项的目标变量统计法,假设数据样本的随机排列为ρ=(ρ1,ρ2,...,ρn),对于序列ρU中的第j个数据样本
Figure FDA0003373755140000032
表示为:
Figure FDA0003373755140000033
其中,U表示相加的前项,而c>0是前项的权重系数;I(·)为指示函数,当公式满足
Figure FDA0003373755140000034
时,
Figure FDA0003373755140000035
返回数值1,否则为0;
采用基于梯度的类激活映射模型对图像特征提取过程中的关注点进行可视化;采用分箱方法将房屋价格信息数据从数值特征转换为离散特征,将房价按中位数分为高房价和低房价,输出图像的明亮区域代表房屋室内图像对房价评估的关键区域因素;
采用基于Shapley的加性解释模型分析特征向量与分类结果之间的关系;针对每个样本,生成分类结果,依次添加每个类别特征,计算其边际贡献;然后在所有特征序列中考虑该特征向量的不同边际贡献;
Figure FDA0003373755140000041
表示样本中第i个样本的第j个特征,
Figure FDA0003373755140000042
表示模型对于该样本的预测值,则
Figure FDA0003373755140000043
的Shapley值为:
Figure FDA0003373755140000044
其中,
Figure FDA0003373755140000045
表示
Figure FDA0003373755140000046
的Shapley值,M表示特征的数量,
Figure FDA0003373755140000047
表示所有
Figure FDA0003373755140000048
的均值;当
Figure FDA0003373755140000049
第i个样本的第j个特征对预测结果
Figure FDA00033737551400000410
有积极作用,否则
Figure FDA00033737551400000411
时为负面作用,反映了该特征对预测结果的正负面作用;
采用Catboost和LightGBM提取基本信息数据和位置信息数据;
交叉验证过程中,训练集分成5个部分,其中80%用于训练,其余用于验证;在交叉验证集和测试集上每个LightGBM和Catboost模型独立运行5次进行预测;基于平均预测值形成新的数据集,使用交叉验证集上LightGBM和Catboost模型的预测值作为特征,测试集上模型的预测值作为标签;
步骤2.3基于步骤2.2获得新构造的特征和标签上训练Catboost和LightGBM模型并应用到测试集;对预测的房屋价格再进行逆对数变换操作;最终得到房屋评估的价格。
CN202111410840.1A 2021-11-25 2021-11-25 一种基于深度迁移学习的可解释性房屋价格评估分类方法 Pending CN114187033A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111410840.1A CN114187033A (zh) 2021-11-25 2021-11-25 一种基于深度迁移学习的可解释性房屋价格评估分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111410840.1A CN114187033A (zh) 2021-11-25 2021-11-25 一种基于深度迁移学习的可解释性房屋价格评估分类方法

Publications (1)

Publication Number Publication Date
CN114187033A true CN114187033A (zh) 2022-03-15

Family

ID=80602550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111410840.1A Pending CN114187033A (zh) 2021-11-25 2021-11-25 一种基于深度迁移学习的可解释性房屋价格评估分类方法

Country Status (1)

Country Link
CN (1) CN114187033A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116167872A (zh) * 2023-04-20 2023-05-26 湖南工商大学 异常医疗数据检测方法、装置及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116167872A (zh) * 2023-04-20 2023-05-26 湖南工商大学 异常医疗数据检测方法、装置及设备

Similar Documents

Publication Publication Date Title
JP6725547B2 (ja) 人工ニューラルネットワークの関連性スコア割当て
Su et al. A BIM and machine learning integration framework for automated property valuation
CN113822494A (zh) 风险预测方法、装置、设备及存储介质
Ibrahim et al. URBAN-i: From urban scenes to mapping slums, transport modes, and pedestrians in cities using deep learning and computer vision
Ye et al. MasterplanGAN: Facilitating the smart rendering of urban master plans via generative adversarial networks
Guo et al. Using multi-scale and hierarchical deep convolutional features for 3D semantic classification of TLS point clouds
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
Lin et al. The Spatial neural network model with disruptive technology for property appraisal in real estate industry
CN111522979B (zh) 图片排序推荐方法、装置、电子设备、存储介质
Marasinghe et al. Computer vision applications for urban planning: A systematic review of opportunities and constraints
Azizi et al. Graph-based generative representation learning of semantically and behaviorally augmented floorplans
Wang et al. Interpretable multi-modal stacking-based ensemble learning method for real estate appraisal
JP2020123329A (ja) 人工ニューラルネットワークの関連性スコア割当て
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
Alkan et al. Using machine learning algorithms for predicting real estate values in tourism centers
Liu E‐Commerce Precision Marketing Model Based on Convolutional Neural Network
CN114187033A (zh) 一种基于深度迁移学习的可解释性房屋价格评估分类方法
CN114201960A (zh) 一种基于情感属性挖掘的图像情感分析方法
Gan et al. GANs with multiple constraints for image translation
Sun et al. Automatic building age prediction from street view images
Oki et al. Model for estimation of building structure and built year using building façade images and attributes obtained from a real estate database
Hu et al. A semantic image retrieval method based on interest selection
Kumkar Image-based Real Estate Appraisal using CNNs and Ensemble Learning
Yazdani et al. Real Estate Property Valuation using Self-Supervised Vision Transformers
Wang et al. [Retracted] Quantitative Evaluation of Plant and Modern Urban Landscape Spatial Scale Based on Multiscale Convolutional Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination