CN107909516A - 一种问题房源识别方法和系统 - Google Patents
一种问题房源识别方法和系统 Download PDFInfo
- Publication number
- CN107909516A CN107909516A CN201711279418.0A CN201711279418A CN107909516A CN 107909516 A CN107909516 A CN 107909516A CN 201711279418 A CN201711279418 A CN 201711279418A CN 107909516 A CN107909516 A CN 107909516A
- Authority
- CN
- China
- Prior art keywords
- houses
- source
- feature
- decision
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000003066 decision tree Methods 0.000 claims abstract description 160
- 238000012423 maintenance Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 31
- 230000006399 behavior Effects 0.000 description 24
- 238000005070 sampling Methods 0.000 description 13
- 238000012795 verification Methods 0.000 description 7
- 238000012550 audit Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种问题房源识别方法和系统。其中,方法包括:获取房源的特征,特征包括房源的基础信息的特征、与经纪行为有关的特征及与业主行为有关的特征;将房源的特征的值输入训练好的迭代决策树模型,识别信息维护不当的房源,将信息维护不当的房源确定为问题房源。系统包括:特征获取模块,用于获取房源的特征;识别模块,用于将房源的特征的值输入训练好的迭代决策树模型,识别信息维护不当的房源,将信息维护不当的房源确定为问题房源。本发明提供的一种问题房源识别方法和系统,通过房源的特征和迭代决策树模型识别问题房源,大幅节约了人力资源和人力成本,提高了效率,识别问题房源的准确率大幅提高。
Description
技术领域
本发明涉及计算机技术领域,更具体地,涉及一种问题房源识别方法和系统。
背景技术
目前,房产交易在生活中越来越频繁。据统计,二手房的交易量已经占据了房产交易的半壁江山。随着互联网技术的发展,出现了越来越多的基于互联网的二手房交易平台。
二手房交易平台如何保证房源的真实性,一直是二手交易平台的业界难题。现有的对房源的真实性的管理,基本上都是通过客服人员进行人工回访,与业主进行电话沟通,核实房源的相关信息,确认房源基础信息的真实性。人工回访对人力成本消耗比较大,且只能对新增房源进行抽检,不能覆盖包括新增房源和库存房源的全量房源的监管。据统计,库存房源达房源总量的90%,而库存房源中的问题房源达举报的问题房源量的87%,库存房源为问题房源的高发区。
发明内容
为克服人工判断问题房源存在的耗费人力成本大的不足,本发明提供一种问题房源识别方法和系统。
根据本发明的一个方面,提供一种问题房源识别方法,包括:
S1、获取房源的特征,所述特征包括房源的基础信息的特征、与经纪行为有关的特征及与业主行为有关的特征;
S2、将房源的所述特征的值输入训练好的迭代决策树模型,识别信息维护不当的房源,将所述信息维护不当的房源确定为问题房源。
优选地,所述训练好的迭代决策树模型通过以下步骤获取:
根据一定数量的已知属性的房源,构建训练样本集;所述已知属性的房源包括真房源和信息维护不当的房源;
根据所述训练样本集,确定使分类误差最小的切分变量和切分点,生成决策树;所述切分变量为房源的一个特征或多个特征的组合;所述切分点用于根据所述切分变量的值区分真房源和信息维护不当的房源;
训练多棵决策树,每棵决策树基于上一棵决策树的分类误差进行训练,修正所述切分变量和划分点,使得每棵决策树的输出值与上一棵决策树的分类误差的差值最小,获得包括多棵决策树的所述迭代决策树模型。
优选地,所述房源的基础信息的特征至少包括:所述房源的房产证是否完备、业主身份证是否完备、委托协议书是否完备、契税发票是否完备、业主是否为贵宾、联系电话、录入面积、在楼盘数据库中的面积、挂牌价格和所在小区的房屋平均价格;
所述与经纪行为有关的特征至少包括:经纪人带客户看房源的次数和/或时间、经纪人与业主通话的次数和/或时间、经纪人对房源进行文字描述的次数和/或时间、经纪人对房源进行实地查看的次数和/或时间,以及经纪人拿到钥匙的时间;
所述与业主行为有关的特征至少包括:业主对房源的评论的次数和/或时间、业主通知经纪人需要发布的消息的次数和/或时间、业主曝光房源的次数和/或时间、业主调整挂牌价格的次数和/或时间,以及业主行为使用的终端类型。
优选地,所述根据一定数量的已知属性的房源,构建训练样本集的具体步骤包括:
对所述一定数量的已知属性的房源进行采样,得到所述训练样本集。
优选地,所述通过每棵所述决策树修正上一棵所述决策树中的切分变量和划分点,获得包括多棵所述决策树的所述迭代决策树模型之后还包括:
利用所述迭代决策树模型对预估房源集中的房源是否为问题房源进行预估,当预估的准确率小于预估阈值时,继续通过每棵所述决策树修正上一棵所述决策树中的切分变量和划分点,直至获得预估的准确率大于所述预估阈值的迭代决策树模型;所述预估房源集由所述一定数量的已知属性的房源中不属于所述训练样本集的房源构成。
优选地,所述步骤S2进一步包括:
S21、将房源的所述特征的值输入所述迭代决策树模型中的每棵决策树,获取每棵决策树的输出值;
S22、对所述每棵决策树的输出值进行求和,根据求和的结果识别所述信息维护不当的房源。
优选地,所述步骤S21具体包括:
对于每棵决策树,将房源的所述特征的值输入该决策树,沿该决策树的路径从根节点遍历叶子节点,将所有叶子节点的值的平均值作为该决策树的输出值。
优选地,所述问题房源还包括基础信息错误的房源;
相应地,确定所述基础信息错误的房源的步骤包括:
将房源的所述录入面积与所述在楼盘数据库中的面积进行对比,当所述录入面积不等于所述在楼盘数据库中的面积时,将所述房源确定为所述基础信息错误的房源;
将房源的所述挂牌价格与所述所在小区的房屋平均价格进行对比,当所述挂牌价格与所述所在小区的房屋平均价格之差高于价格阈值时,将所述房源确定为所述基础信息错误的房源。
根据本发明的另一个方面,提供一种问题房源识别系统,包括:
特征获取模块,用于获取房源的特征,所述特征包括房源基础信息的特征、与经纪行为有关的特征及与业主行为有关的特征;
识别模块,用于将房源的所述特征的值输入训练好的迭代决策树模型,识别信息维护不当的房源,将所述信息维护不当的房源确定为问题房源。
优选地,所述问题房源还包括基础信息错误的房源;
相应地,所述问题房源识别系统还包括:判断模块,用于将所述房源所述录入面积与所述在楼盘数据库中的面积进行对比,当所述录入面积不等于所述在楼盘数据库中的面积时,将所述房源确定为所述基础信息错误的房源;还用于将所述挂牌价格与所述所在小区的房屋平均价格进行对比,当所述挂牌价格与所述所在小区的房屋平均价格之差高于价格阈值时,将所述房源确定为所述基础信息错误的房源。
本发明提供的一种问题房源识别方法和系统,通过房源的特征和迭代决策树模型识别问题房源,使人工仅对识别出的问题房源进行抽检核实,而不需要对全部房源或全部新增房源进行抽检核实,大幅节约了人力资源和人力成本,减少了大量的无效抽检核实,提高了效率,且相比人工判断,识别问题房源的准确率大幅提高。
附图说明
图1为本发明实施例一种问题房源识别方法的流程图;
图2为本发明实施例一种问题房源识别系统的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为本发明实施例一种问题房源识别方法的流程图。如图1所示,一种问题房源识别方法包括:步骤S1、获取房源的特征,特征包括房源的基础信息的特征、与经纪行为有关的特征及与业主行为有关的特征;步骤S2、将房源的特征的值输入训练好的迭代决策树模型,识别信息维护不当的房源,将信息维护不当的房源确定为问题房源。
具体地,对于步骤S1,通过步骤S1获取房源的特征。房源的特征与房源的基础信息以及经纪人、客户、业主对房源的操作有关。
房源的基础信息的特征描述了房源的面积、价格、联系方式等房源的基本情况。与经纪行为有关的特征描述了经纪人、客户对房源的操作。与业主行为有关的特征描述了业主对房源的操作。
对于真房源和问题房源,房源的基础信息的特征、与经纪行为有关的特征及与业主行为有关的特征存在不同。例如,与业主想出售真房源时,会对真房源进行较多操作不同,由于问题房源是虚问题房源,业主并不想出售该房源,因此业主对问题房源的操作不多。因此,可以基于房源的基础信息的特征、与经纪行为有关的特征及与业主行为有关的特征,区分真房源和问题房源。
对于步骤S2,基于房源的基础信息的特征、与经纪行为有关的特征及与业主行为有关的特征,利用迭代决策树模型,识别出问题房源。通过步骤S2识别的问题房源为信息维护不当的房源。
迭代决策树模型要先经过训练,可以较好地区分真房源和信息维护不当的房源。
迭代决策树,又称渐进梯度决策树(Gradient Boosting Decision Tree简称GBDT),还可称为渐进梯度回归树(Gradient Boost Regression Tree,简称GBRT)或多决策回归树(Multiple Additive Regression Tree,简称MART),是一种迭代的决策树算法。该算法由多棵决策树组成,所有树的结论累加起来做最终答案。
通过训练好的迭代决策树模型识别出问题房源后,可以通过经纪人、客服等人员进行核实,保证房源的真实性。可以采用以下流程:
将识别出的问题房源下发到经纪人、客服等人员;
若经纪人认为识别结果是错误,对该问题房源在举证期内进行举证;若经纪人未在举证期内进行举证,认为该问题房源确为问题房源,二手房交易平台对该房源进行核销下架;
若该经纪人所述区域还有区域经理,经纪人在举证期内进行举证后,区域经理在确认期内对经纪人的举证进行确认;如区域经理认为经纪人的举证真实,确认该举证;若区域经理认为经纪人的举证不真实或未在确认期内对该举证进行确认,认为该问题房源确为问题房源,二手房交易平台对该房源进行核销下架;
客服人员对经纪人举证的问题房源进行审核,审核的方式为抽检,通过传统的与业主联系的方式审核经纪人的举证是否真实;若审核结果为举证真实,将该问题房源更改为真房源;若审核结果为举证不真实,则允许经纪人在申诉期内进行申诉;
若经纪人未在申诉期内进行申诉,认为该问题房源确为问题房源,二手房交易平台对该房源进行核销下架;若经纪人在申诉期内进行申诉,客服人员对申诉进行审核,若审核结果为举证真实,将该问题房源更改为真房源;若审核结果为举证不真实,则允许经纪人在申诉期内进行再次申诉,客服人员对再次申诉进行审核。
在一个实际应用中,通过迭代决策树模型识别问题房源结合之后的人工抽检核实,使客服人员由2066人减少到不到30人,识别问题房源的准确率可达人工判断的8倍,且实现了对全部库存房源的识别。
识别问题房源的准确率=(识别出的问题房源中确认为假房源的数量)/(识别出的问题房源的数量)
本发明实施例通过房源的特征和迭代决策树模型识别问题房源,使人工仅对识别出的问题房源进行抽检核实,而不需要对全部房源或全部新增房源进行抽检核实,大幅节约了人力资源和人力成本,减少了大量的无效抽检核实,提高了效率,且相比人工判断,识别问题房源的准确率大幅提高。
基于上述实施例,作为一个可选实施例,训练好的迭代决策树模型通过以下步骤获取:根据一定数量的已知属性的房源,构建训练样本集;已知属性的房源包括真房源和信息维护不当的房源;根据训练样本集,确定使分类误差最小的切分变量和切分点,生成决策树;切分变量为房源的一个特征或多个特征的组合;切分点用于根据切分变量的值区分真房源和信息维护不当的房源;训练多棵决策树,每棵决策树基于上一棵决策树的分类误差进行训练,修正切分变量和划分点,使得每棵决策树的输出值与上一棵决策树的分类误差的差值最小,获得包括多棵决策树的迭代决策树模型。
具体地,在识别问题房源前,按照房源所在的城市建立迭代决策树模型,每个城市建立一个迭代决策树模型,并对迭代决策树模型进行训练,使训练好的迭代决策树模型具有较高的识别准确率。
下面对迭代决策树模型的训练过程进行描述。
首先,是迭代决策树模型的训练过程的数据准备阶段,构建训练样本集。可以根据已经确认属性为真房源或信息维护不当的房源的一定数量的房源,构建为训练样本集。一定数量的已经确认属性的房源,可以是在二手房交易平台在之前的运行中通过人工抽检核实方式确定的。可以对房源的属性进行赋值,如真房源的属性值为0,信息维护不当的房源的属性值为1。
在构建训练样本集后,根据训练样本集进行机器学习,生成决策树。
决策树根据切分变量和切分点生成。将房源的一个特征或多个特征的组合作为决策树的切分变量。根据房源的切分变量的值与切分点的大小关系,可以区分房源为真房源或信息维护不当的房源。
通过选择合适的切分变量和切分点,使将训练样本集分类为真房源和信息维护不当的房源的分类误差最小。根据使分类误差最小的切分变量和切分点,生成决策树。
在生成决策树后,通过迭代,训练多棵决策树。
对于每棵决策树,根据训练样本集,基于上一棵决策树的分类误差进行训练,修正上一棵决策树的切分变量和切分点,使得每棵决策树的输出值趋近上一棵决策树的分类误差,即使得每棵决策树的输出值与上一棵决策树的分类误差的差值最小;将修正后的切分变量和切分点作为自己的切分变量和切分点。通过上述训练过程,可以使全部决策树的输出值之和趋近房源的属性值。因此,可以通过上述迭代过程获得多棵决策树,根据多棵决策树生成训练好的迭代决策树模型。
优选地,每棵决策树的深度为8、进行最小分裂所需的样本数为1、学习率为0.3,问题房源和真房源的权值之比为1:50,训练好的迭代决策树模型包括170棵决策树。
本发明实施例通过对决策树的迭代修正切分变量和切分点,使得包含多棵决策树的训练好的迭代决策树模型进行房源分类的准确率得到提高。
基于上述实施例,房源基础信息的特征至少包括:房源的房产证是否完备、业主身份证是否完备、委托协议书是否完备、契税发票是否完备、业主是否为贵宾、联系电话、录入面积、在楼盘数据库中的面积、挂牌价格和所在小区的房屋平均价格;与经纪行为有关的特征至少包括:经纪人带客户看房源的次数和/或时间、经纪人与业主通话的次数和/或时间、经纪人对房源进行文字描述的次数和/或时间、经纪人对房源进行实地查看的次数和/或时间,以及经纪人拿到钥匙的时间;与业主行为有关的特征至少包括:业主对房源的评论的次数和/或时间、业主通知经纪人需要发布的消息的次数和/或时间、业主曝光房源的次数和/或时间、业主调整挂牌价格的次数和/或时间,以及业主行为使用的终端类型。
具体地,为了使迭代决策树模型具有较高的房源分类准确率,需要获取尽量多的房源的特征,以便根据房源的特征进行组合获得最优的切分变量。
房源基础信息的特征描述了房源的基本情况,至少包括:房源的房产证是否完备、业主身份证是否完备、委托协议书是否完备、契税发票是否完备、业主是否为贵宾、联系电话、录入面积、在楼盘数据库中的面积、挂牌价格和所在小区的房屋平均价格,但不限于此。
与经纪行为有关的特征描述了经纪人、客户对房源的看房、描述等各种操作,至少包括:经纪人带客户看房源的次数和/或时间、经纪人与业主通话的次数和/或时间、经纪人对房源进行文字描述的次数和/或时间、经纪人对房源进行实地查看的次数和/或时间,以及经纪人拿到钥匙的时间。
与业主行为有关的特征描述了业主对房源的评论、调价等各种操作,至少包括:业主对房源的评论的次数和/或时间、业主通知经纪人需要发布的消息的次数和/或时间、业主曝光房源的次数和/或时间、业主调整挂牌价格的次数和/或时间,以及业主行为使用的终端类型。
基于上述实施例,作为一种可选实施例,根据一定数量的已知属性的房源,构建训练样本集的具体步骤包括:对一定数量的已知属性的房源进行采样,得到训练样本集。
具体地,为了使训练好的迭代决策树模型的鲁棒性更好,可以通过对一定数量的已知属性的房源进行采样的方式,生成训练样本集。
优选的,采样的比例为90%。
本发明实施例通过采样的方式构建训练样本集,提高了训练好的迭代决策树模型的鲁棒性
基于上述实施例,作为一种优选实施例,通过每棵决策树修正上一棵决策树中的切分变量和划分点,获得包括多棵决策树的迭代决策树模型之后还包括:
利用迭代决策树模型对预估房源集中的房源是否为问题房源进行预估,当预估的准确率小于预估阈值时,继续通过每棵决策树修正上一棵决策树中的切分变量和划分点,直至获得预估的准确率大于预估阈值的迭代决策树模型;预估房源集由一定数量的已知属性的房源中不属于训练样本集的房源构成。
具体地,为了使训练好的迭代决策树模型进行房源分类的准确率更高,可以在房源识别前对迭代决策树模型进行预估,直至迭代决策树模型的分类误差小于预估阈值,将分类误差小于预估阈值的迭代决策树模型作为训练好的迭代决策树模型。
将一定数量的已知属性的房源中未被采样到的房源,构建成预估房源集。例如,生成训练样本集的采样率为90%时,一定数量的已知属性的房源未被采样到的10%构成预估房源集。
根据预估房源集,对包含多棵决策树的迭代决策树模型进行预估。若迭代决策树模型的预估的准确率大于预估阈值,将该迭代决策树模型作为训练好的迭代决策树模型;若迭代决策树模型的预估的准确率小于预估阈值,继续进行迭代,修正上一棵决策树中的切分变量和划分点,直至迭代决策树模型的预估的准确率大于预估阈值,将预估的准确率大于预估阈值的迭代决策树模型作为训练好的迭代决策树模型。
本发明实施例通过对包含一定数量的迭代决策树模型的房源识别准确率进行预估,直至获得别准确率足够高的训练好的迭代决策树模型,提高了识别问题房源的准确率。
基于上述实施例,步骤S2进一步包括:步骤S21、将房源的特征的值输入迭代决策树模型中的每棵决策树,获取每棵决策树的输出值;步骤S22、对每棵决策树的输出值进行求和,根据求和的结果识别信息维护不当的房源。
具体地,步骤S21、首先将待识别的房源的特征的值输入迭代决策树模型。例如:时间、次数等特征,可以将天数、次数的值作为特征的值;身份证是否完备等特征,可以将1作为完备时的特征的值,0作为不完备时的特征的值。将房源的特征的值输入迭代决策树模型中的每棵决策树,获取每棵决策树的输出值。每棵决策树的输出值为该房源是信息维护不当的房源的预测值,表征了该房源是信息维护不当的房源的概率。
步骤S22,由于本发明实施例使用迭代决策树模型,在获取每棵决策树的输出值后,将全部决策树的输出值进行求和,作为迭代决策树模型的输出值。
由于每棵决策树的输出值趋近上一棵决策树的分类误差,因此全部决策树的输出值之和,即迭代决策树模型的输出值趋近房源的属性值。迭代决策树模型的输出值越接近信息维护不当的房源的属性值,表示该房源为信息维护不当的房源的概率越大。可以设定合适的概率阈值,将真房源的属性值规定为0,信息维护不当的房源的属性值规定为1时,若迭代决策树模型的输出值大于概率阈值,则该房源确定为信息维护不当的房源。
基于上述实施例,步骤S21具体包括:对于每棵决策树,将房源的特征的值输入该决策树,沿该决策树的路径从根节点遍历叶子节点,将所有叶子节点的值的平均值作为该决策树的输出值。
具体地,对于每棵决策树,其输出值由该决策树的每个叶子节点的值决定。
获取每棵决策树的输出值的具体步骤如下:
沿该决策树的路径从根节点遍历叶子节点,获取每个叶子节点的值;
计算全部叶子节点的值的平均值,将该平均值作为该决策树的输出值。
每个叶子节点的值为该房源是信息维护不当的房源的预测值,表征了该房源是信息维护不当的房源的概率。
基于上述实施例,问题房源还包括基础信息错误的房源;相应地,确定基础信息错误的房源的步骤包括:将房源的录入面积与在楼盘数据库中的面积进行对比,当录入面积不等于在楼盘数据库中的面积时,将房源确定为基础信息错误的房源;将房源的挂牌价格与所在小区的房屋平均价格进行对比,当挂牌价格与所在小区的房屋平均价格之差高于价格阈值时,将房源确定为基础信息错误的房源。
具体地,除了信息维护不当的房源外,问题房源的基础信息一般存在错误。可以通过判断房源的基础信息是否错误,来进一步识别问题房源。
识别出基础信息错误的房源后,将识别的基础信息错误的房源结果与识别的信息维护不当的房源进行合并,排除重复的房源,将合并和去重后的房源作为问题房源。
识别基础信息错误的房源的步骤包括:
将房源的录入面积与在楼盘数据库中的面积进行对比,当录入面积等于在楼盘数据库中的面积时,表示房源的面积信息是正确的,不将该房源判断为基础信息错误的房源;当录入面积等于在楼盘数据库中的面积时,表示房源的面积信息有误,则将该房源确定为基础信息错误的房源。
将房源的挂牌价格与所在小区的房屋平均价格进行对比,当挂牌价格与所在小区的房屋平均价格之差低于价格阈值,例如10%时,表示房源的价格信息是正常的,不将该房源判断为基础信息错误的房源;当挂牌价格与所在小区的房屋平均价格之差高于价格阈值,例如10%时,表示房源的价格信息异常,则将该房源确定为基础信息错误的房源。
还可以根据房源的联系电话,判断该房源基础信息错误的房源,但不限于此。例如,判断房源的联系电话是否为与经纪人的电话,在已有的电话数据库中查询该联系电话是否为空号或停机状态,若该电话为经纪人的电话、空号或停机状态,则将该房源判断为基础信息错误的房源。
本发明实施例判断房源的基础信息是否错误识别问题房源,能识别出面积不符、价格不符和电话不符的问题房源,进一步提高问题房源识别的准确率。
图2为本发明实施例一种问题房源识别系统的结构示意图。如图2所示,一种问题房源识别系统包括:特征获取模块101,用于获取房源的特征,特征包括房源基础信息的特征、与经纪行为有关的特征及与业主行为有关的特征;识别模块102,用于将房源的特征的值输入训练好的迭代决策树模型,识别信息维护不当的房源,将信息维护不当的房源确定为问题房源。
具体地,特征获取模块101与识别模块102连接。
本系统用于实现本发明提供的问题房源识别方法,系统包括的特征获取模块101和识别模块102实现相应功能的具体方法和流程详见上述问题房源识别方法的实施例,此处不再赘述。
本发明实施例通过房源的特征和迭代决策树模型识别问题房源,使人工仅对识别出的问题房源进行抽检核实,而不需要对全部房源或全部新增房源进行抽检核实,大幅节约了人力资源和人力成本,减少了大量的无效抽检核实,提高了效率,且相比人工判断,识别问题房源的准确率大幅提高。
基于上述实施例,问题房源还包括基础信息错误的房源;相应地,问题房源识别系统还包括:判断模块,用于将房源的录入面积与在楼盘数据库中的面积进行对比,当录入面积不等于在楼盘数据库中的面积时,将房源确定为基础信息错误的房源;还用于将房源的挂牌价格与所在小区的房屋平均价格进行对比,当挂牌价格与所在小区的房屋平均价格之差高于价格阈值时,将房源确定为基础信息错误的房源。
具体地,判断模块与特征获取模块连接。
本系统用于实现本发明提供的问题房源识别方法,系统包括的判断模块实现相应功能的具体方法和流程详见上述问题房源识别方法的实施例,此处不再赘述。
本发明实施例通过
最后,本发明的上述实施例仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种问题房源识别方法,其特征在于,包括:
S1、获取房源的特征,所述特征包括房源的基础信息的特征、与经纪行为有关的特征及与业主行为有关的特征;
S2、将房源的所述特征的值输入训练好的迭代决策树模型,识别信息维护不当的房源,将所述信息维护不当的房源确定为问题房源。
2.根据权利要求1所述的方法,其特征在于,所述训练好的迭代决策树模型通过以下步骤获取:
根据一定数量的已知属性的房源,构建训练样本集;所述已知属性的房源包括真房源和信息维护不当的房源;
根据所述训练样本集,确定使分类误差最小的切分变量和切分点,生成决策树;所述切分变量为房源的一个特征或多个特征的组合;所述切分点用于根据所述切分变量的值区分真房源和信息维护不当的房源;
训练多棵决策树,每棵决策树基于上一棵决策树的分类误差进行训练,修正所述切分变量和划分点,使得每棵决策树的输出值与上一棵决策树的分类误差的差值最小,获得包括多棵决策树的所述迭代决策树模型。
3.根据权利要求1或2所述的方法,其特征在于,
所述房源的基础信息的特征至少包括:所述房源的房产证是否完备、业主身份证是否完备、委托协议书是否完备、契税发票是否完备、业主是否为贵宾、联系电话、录入面积、在楼盘数据库中的面积、挂牌价格和所在小区的房屋平均价格;
所述与经纪行为有关的特征至少包括:经纪人带客户看房源的次数和/或时间、经纪人与业主通话的次数和/或时间、经纪人对房源进行文字描述的次数和/或时间、经纪人对房源进行实地查看的次数和/或时间,以及经纪人拿到钥匙的时间;
所述与业主行为有关的特征至少包括:业主对房源的评论的次数和/或时间、业主通知经纪人需要发布的消息的次数和/或时间、业主曝光房源的次数和/或时间、业主调整挂牌价格的次数和/或时间,以及业主行为使用的终端类型。
4.根据权利要求2所述的方法,其特征在于,所述根据一定数量的已知属性的房源,构建训练样本集的具体步骤包括:
对所述一定数量的已知属性的房源进行采样,得到所述训练样本集。
5.根据权利要求4所述的方法,其特征在于,所述通过每棵所述决策树修正上一棵所述决策树中的切分变量和划分点,获得包括多棵所述决策树的所述迭代决策树模型之后还包括:
利用所述迭代决策树模型对预估房源集中的房源是否为问题房源进行预估,当预估的准确率小于预估阈值时,继续通过每棵所述决策树修正上一棵所述决策树中的切分变量和划分点,直至获得预估的准确率大于所述预估阈值的迭代决策树模型;所述预估房源集由所述一定数量的已知属性的房源中不属于所述训练样本集的房源构成。
6.根据权利要求1或2所述的方法,其特征在于,所述步骤S2进一步包括:
S21、将房源的所述特征的值输入所述迭代决策树模型中的每棵决策树,获取每棵决策树的输出值;
S22、对所述每棵决策树的输出值进行求和,根据求和的结果识别所述信息维护不当的房源。
7.根据权利要求6所述的方法,其特征在于,所述步骤S21具体包括:
对于每棵决策树,将房源的所述特征的值输入该决策树,沿该决策树的路径从根节点遍历叶子节点,将所有叶子节点的值的平均值作为该决策树的输出值。
8.根据权利要求3所述的方法,其特征在于,所述问题房源还包括基础信息错误的房源;
相应地,确定所述基础信息错误的房源的步骤包括:
将房源的所述录入面积与所述在楼盘数据库中的面积进行对比,当所述录入面积不等于所述在楼盘数据库中的面积时,将所述房源确定为所述基础信息错误的房源;
将房源的所述挂牌价格与所述所在小区的房屋平均价格进行对比,当所述挂牌价格与所述所在小区的房屋平均价格之差高于价格阈值时,将所述房源确定为所述基础信息错误的房源。
9.一种问题房源识别系统,其特征在于,包括:
特征获取模块,用于获取房源的特征,所述特征包括房源基础信息的特征、与经纪行为有关的特征及与业主行为有关的特征;
识别模块,用于将房源的所述特征的值输入训练好的迭代决策树模型,识别信息维护不当的房源,将所述信息维护不当的房源确定为问题房源。
10.根据权利要求9所述的系统,其特征在于,所述问题房源还包括基础信息错误的房源;
相应地,所述问题房源识别系统还包括:判断模块,用于将所述房源所述录入面积与所述在楼盘数据库中的面积进行对比,当所述录入面积不等于所述在楼盘数据库中的面积时,将所述房源确定为所述基础信息错误的房源;还用于将所述挂牌价格与所述所在小区的房屋平均价格进行对比,当所述挂牌价格与所述所在小区的房屋平均价格之差高于价格阈值时,将所述房源确定为所述基础信息错误的房源。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711279418.0A CN107909516A (zh) | 2017-12-06 | 2017-12-06 | 一种问题房源识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711279418.0A CN107909516A (zh) | 2017-12-06 | 2017-12-06 | 一种问题房源识别方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107909516A true CN107909516A (zh) | 2018-04-13 |
Family
ID=61854806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711279418.0A Pending CN107909516A (zh) | 2017-12-06 | 2017-12-06 | 一种问题房源识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107909516A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033284A (zh) * | 2019-03-13 | 2019-07-19 | 平安城市建设科技(深圳)有限公司 | 房源验真方法、装置、设备及存储介质 |
CN110348580A (zh) * | 2019-06-18 | 2019-10-18 | 第四范式(北京)技术有限公司 | 构建gbdt模型的方法、装置及预测方法、装置 |
CN110619039A (zh) * | 2018-12-25 | 2019-12-27 | 北京时光荏苒科技有限公司 | 一种房产信息的校验方法、装置、存储介质及电子设备 |
CN110930163A (zh) * | 2019-10-23 | 2020-03-27 | 贝壳技术有限公司 | 一种房源委托业务的实现方法、系统及存储介质 |
CN113409024A (zh) * | 2021-07-02 | 2021-09-17 | 深圳市云房网络科技有限公司 | 一种房源自动验真审核的方法、系统及计算机存储介质 |
CN115147225A (zh) * | 2022-07-28 | 2022-10-04 | 连连银通电子支付有限公司 | 一种数据转移信息识别方法、装置、设备及存储介质 |
CN115712662A (zh) * | 2022-11-28 | 2023-02-24 | 贝壳找房(北京)科技有限公司 | 用于验证房源信息的方法、系统、设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504137A (zh) * | 2015-09-03 | 2017-03-15 | 中山市八喜电脑网络有限公司 | 网络虚假房源信息举报系统 |
US20170140301A1 (en) * | 2015-11-16 | 2017-05-18 | Alibaba Group Holding Limited | Identifying social business characteristic user |
CN106777024A (zh) * | 2016-12-08 | 2017-05-31 | 北京小米移动软件有限公司 | 识别恶意用户的方法及装置 |
CN106920109A (zh) * | 2017-02-21 | 2017-07-04 | 福建师范大学福清分校 | 用于电子商务虚假交易的识别方法、系统及电子商务系统 |
CN106952190A (zh) * | 2017-03-22 | 2017-07-14 | 国信优易数据有限公司 | 虚假房源录入行为识别与预警系统 |
-
2017
- 2017-12-06 CN CN201711279418.0A patent/CN107909516A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504137A (zh) * | 2015-09-03 | 2017-03-15 | 中山市八喜电脑网络有限公司 | 网络虚假房源信息举报系统 |
US20170140301A1 (en) * | 2015-11-16 | 2017-05-18 | Alibaba Group Holding Limited | Identifying social business characteristic user |
CN106777024A (zh) * | 2016-12-08 | 2017-05-31 | 北京小米移动软件有限公司 | 识别恶意用户的方法及装置 |
CN106920109A (zh) * | 2017-02-21 | 2017-07-04 | 福建师范大学福清分校 | 用于电子商务虚假交易的识别方法、系统及电子商务系统 |
CN106952190A (zh) * | 2017-03-22 | 2017-07-14 | 国信优易数据有限公司 | 虚假房源录入行为识别与预警系统 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619039A (zh) * | 2018-12-25 | 2019-12-27 | 北京时光荏苒科技有限公司 | 一种房产信息的校验方法、装置、存储介质及电子设备 |
CN110033284A (zh) * | 2019-03-13 | 2019-07-19 | 平安城市建设科技(深圳)有限公司 | 房源验真方法、装置、设备及存储介质 |
CN110348580A (zh) * | 2019-06-18 | 2019-10-18 | 第四范式(北京)技术有限公司 | 构建gbdt模型的方法、装置及预测方法、装置 |
CN110348580B (zh) * | 2019-06-18 | 2022-05-10 | 第四范式(北京)技术有限公司 | 构建gbdt模型的方法、装置及预测方法、装置 |
CN110930163A (zh) * | 2019-10-23 | 2020-03-27 | 贝壳技术有限公司 | 一种房源委托业务的实现方法、系统及存储介质 |
CN110930163B (zh) * | 2019-10-23 | 2023-04-18 | 贝壳找房(北京)科技有限公司 | 一种房源委托业务的实现方法、系统及存储介质 |
CN113409024A (zh) * | 2021-07-02 | 2021-09-17 | 深圳市云房网络科技有限公司 | 一种房源自动验真审核的方法、系统及计算机存储介质 |
CN115147225A (zh) * | 2022-07-28 | 2022-10-04 | 连连银通电子支付有限公司 | 一种数据转移信息识别方法、装置、设备及存储介质 |
CN115147225B (zh) * | 2022-07-28 | 2024-04-05 | 连连银通电子支付有限公司 | 一种数据转移信息识别方法、装置、设备及存储介质 |
CN115712662A (zh) * | 2022-11-28 | 2023-02-24 | 贝壳找房(北京)科技有限公司 | 用于验证房源信息的方法、系统、设备和介质 |
CN115712662B (zh) * | 2022-11-28 | 2023-07-28 | 贝壳找房(北京)科技有限公司 | 用于验证房源信息的方法、系统、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107909516A (zh) | 一种问题房源识别方法和系统 | |
CN109325691B (zh) | 异常行为分析方法、电子设备及计算机程序产品 | |
CN110400215B (zh) | 面向企业家族的小微企业信用评估模型构建方法及系统 | |
JP5586373B2 (ja) | 支払請求を処理するコンポーネントの機能をコンピュータシステムに実現させるプログラムが記録されているコンピュータ読み取り可能な記憶媒体、およびコンピュータシステムに支払請求を処理させるコンピュータシステムの動作方法 | |
CA2788356C (en) | Data quality analysis and management system | |
CN102930023B (zh) | 基于知识的数据质量解决方案 | |
US20130282578A1 (en) | Computer-based collective intelligence recommendations for transaction review | |
CN107705036A (zh) | 基于多维度数据的动态信用评估方法及系统 | |
CN110349000A (zh) | 基于用户分群的提额策略确定方法、装置和电子设备 | |
CN109063952B (zh) | 策略生成及风险控制方法和装置 | |
CN111915316B (zh) | 一种可疑交易的监控方法、装置、计算机设备和存储介质 | |
CN110415103A (zh) | 基于变量影响度指标进行用户分群提额的方法、装置和电子设备 | |
CN115293498A (zh) | 一种基于区块链的企业资产整理用数据收集系统 | |
CN111695979A (zh) | 一种原材料与成品的关系分析方法、装置及设备 | |
US20140317066A1 (en) | Method of analysing data | |
CN114092230A (zh) | 一种数据处理方法、装置、电子设备及计算机可读介质 | |
CN108711074A (zh) | 业务分类方法、装置、服务器及可读存储介质 | |
CN117522403A (zh) | 一种基于子图融合的gcn异常客户预警方法及装置 | |
CN111640031A (zh) | 跨系统的理赔数据处理方法、装置及相关设备 | |
CN115600972A (zh) | 一种不良资产的核销方法、装置、设备及存储介质 | |
CN113379212B (zh) | 基于区块链的物流信息平台违约风险评估方法、装置、设备及介质 | |
CN115423601A (zh) | 一种线上贷产品设计方法及装置 | |
Yanai et al. | Measurement uncertainty in a national forest inventory: results from the northern region of the USA | |
CN114399394A (zh) | 保险合同数据变更方法及装置 | |
AU2013206466B2 (en) | Data quality analysis and management system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180413 |