CN108230039A - 潜在成交房源筛选方法、装置、设备及可读存储介质 - Google Patents

潜在成交房源筛选方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN108230039A
CN108230039A CN201810043521.3A CN201810043521A CN108230039A CN 108230039 A CN108230039 A CN 108230039A CN 201810043521 A CN201810043521 A CN 201810043521A CN 108230039 A CN108230039 A CN 108230039A
Authority
CN
China
Prior art keywords
houses
source
sample data
data
conclusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810043521.3A
Other languages
English (en)
Inventor
郑来良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Safe House (shanghai) Agel Ecommerce Ltd
Original Assignee
Safe House (shanghai) Agel Ecommerce Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Safe House (shanghai) Agel Ecommerce Ltd filed Critical Safe House (shanghai) Agel Ecommerce Ltd
Priority to CN201810043521.3A priority Critical patent/CN108230039A/zh
Publication of CN108230039A publication Critical patent/CN108230039A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate

Abstract

本发明公开了一种潜在成交房源筛选方法、装置、设备及可读存储介质,所述潜在成交房源筛选方法包括:获取房源成交数据,基于该房源成交数据提取房源筛选的特征因子;基于所述特征因子与所述房源成交数据,建立样本数据,并对所述样本数据进行拆分处理,以获取训练样本数据和测试样本数据;基于该训练样本数据和测试样本数据训练潜在成交房源筛选模型,以确定潜在成交房源筛选的目标模型,以基于所述目标模型筛选潜在成交房源。本发明旨在解决现有潜在成交房源筛选不准确及时,造成房源的成交量下降的技术问题。

Description

潜在成交房源筛选方法、装置、设备及可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种潜在成交房源筛选方法、装置、设备及可读存储介质。
背景技术
在卖房过程中,常常需要筛选各类房源,以提高房源的成交量,目前对潜在成交房源筛选主要根据业务人员经验加权计算排名以筛选优质房源,由于根据业务人员经验加权计算排名来筛选优质房源泛化能力弱,不能实现快速迭代,因而造成不能实现准确及时筛选潜在成交房源,房源的成交量下降的技术问题。
发明内容
本发明的主要目的在于提供一种潜在成交房源筛选方法、装置、设备及可读存储介质,旨在解决现有潜在成交房源筛选不准确及时,造成房源的成交量下降的技术问题。
为实现上述目的,本发明提供一种潜在成交房源筛选方法,所述潜在成交房源筛选方法包括:
获取房源成交数据,基于该房源成交数据提取房源筛选的特征因子;
基于所述特征因子与所述房源成交数据,建立样本数据,并对所述样本数据进行拆分处理,以获取训练样本数据和测试样本数据;
基于该训练样本数据和测试样本数据训练潜在成交房源筛选模型,以确定潜在成交房源筛选的目标模型,以基于所述目标模型筛选潜在成交房源。
可选地,所述基于所述特征因子与所述房源成交数据,建立样本数据步骤包括:
获取各个特征因子的数据规则,逐一对所述房源成交数据进行数据清洗、合并、完整性验证处理;
将所述清洗、合并、完整性验证处理后的房源成交数据转化为数值数据,将所述数值数据作为样本数据。
可选地,所述对所述样本数据进行拆分处理,以获取训练样本数据和测试样本数据步骤包括:
获取所述样本数据的拆分规则,基于该拆分规则获取训练样本数据和测试样本数据,其中,所述拆分规则包括所述训练样本数据多于测试样本数据,所述训练样本数据与测试样本数据中均含有成交房源数据与未成交房源数据;
对训练样本数据和测试样本数据进行归一化处理。
可选地,所述基于该训练样本数据和测试样本数据训练潜在成交房源筛选模型,以确定潜在成交房源筛选的目标模型步骤包括:
获取预存的潜在成交房源筛选模型,基于训练样本数据训练所述潜在成交房源筛选模型,以得到预测模型;
基于所述测试样本数据测试所述预测模型,以得到测试结果,基于该测试结果确定目标模型。
可选地,所述潜在成交房源筛选模型中包括待调整参数,所述待调整参数包括决策树数量,
所述基于训练样本数据训练所述潜在成交房源筛选模型,以得到预测模型步骤包括:
通过网格搜索各个决策树数量,并基于网格搜索的各个决策树数量与训练样本数据,训练所述潜在成交房源筛选模型,以得到各个训练结果;
基于所述各个训练结果,从各个决策树数量中确定目标决策树数量;
基于所述目标决策树,调整潜在成交房源筛选模型的决策树数量,以得到预测模型。
可选地,所述基于所述测试样本数据测试所述预测模型,以得到测试结果,基于该测试结果确定目标模型步骤包括:
获取所述目标决策树的最大深度步数,并基于该最大深度步数、所述最大深度步数中各个步数对应的各个数据节点,获取各个最小叶子节点的数据;
通过网格搜索所述各个最小叶子节点的数据,以确定目标迭代深度步数;
基于所述迭目标迭代深度步数与目标决策树数量,调整潜在成交房源筛选模型的迭代深度步数与目标决策树数量,以获取参数调整后的调整模型;
基于所述测试样本数据测试所述调整模型,判断所述调整模型是否收敛,当收敛时,该调整模型即为目标模型。
所述通过网格搜索各个决策树数量,并基于网格搜索的各个决策树数量与训练样本数据,训练所述潜在成交房源筛选模型,以得到各个训练结果步骤包括:
通过网格搜索各个决策树数量,获取各个决策树数量对应的各个信息熵,信息熵由公式确定,其中,P(i)为事件发生的概率;
基于信息熵的大小从高至低选取预设个数的决策树数量,并基于该预设个数的决策树数量与训练样本数据,训练所述潜在成交房源筛选模型,以得到各个训练结果。
此外,为实现上述目的,本发明还提供一种潜在成交房源筛选装置,所述自动化测试装置包括:
第一获取模块,用于获取房源成交数据,基于该房源成交数据提取房源筛选的特征因子;
第二获取模块,用于基于所述特征因子与所述房源成交数据,建立样本数据,并对所述样本数据进行拆分处理,以获取训练样本数据和测试样本数据;
训练模块,用于基于该训练样本数据和测试样本数据训练潜在成交房源筛选模型,以确定潜在成交房源筛选的目标模型,以基于所述目标模型筛选潜在成交房源。
可选地,所述第二获取模块包括:
第一获取单元,用于获取各个特征因子的数据规则,逐一对所述房源成交数据进行数据清洗、合并、完整性验证处理;
转化单元,用于将所述清洗、合并、完整性验证处理后的房源成交数据转化为数值数据,将所述数值数据作为样本数据。
可选地,所述第二获取模块还包括:
第二获取单元,用于获取所述样本数据的拆分规则,基于该拆分规则获取训练样本数据和测试样本数据,其中,所述拆分规则包括所述训练样本数据多于测试样本数据,所述训练样本数据与测试样本数据中均含有成交房源数据与未成交房源数据;
归一化单元,用于对训练样本数据和测试样本数据进行归一化处理。
可选地,所述训练模块包括:
第三获取单元,用于获取预存的潜在成交房源筛选模型,基于训练样本数据训练所述潜在成交房源筛选模型,以得到预测模型;
确定单元,用于基于所述测试样本数据测试所述预测模型,以得到测试结果,基于该测试结果确定目标模型。
可选地,所述潜在成交房源筛选模型中包括待调整参数,所述待调整参数包括决策树数量,
所述确定单元包括:
训练子单元,用于通过网格搜索各个决策树数量,并基于网格搜索的各个决策树数量与训练样本数据,训练所述潜在成交房源筛选模型,以得到各个训练结果;
确定子单元,用于基于所述各个训练结果,从各个决策树数量中确定目标决策树数量;
调整子单元,用于基于所述目标决策树,调整潜在成交房源筛选模型的决策树数量,以得到预测模型。
可选地,所述调整子单元用于:
获取所述目标决策树的最大深度步数,并基于该最大深度步数、所述最大深度步数中各个步数对应的各个数据节点,获取各个最小叶子节点的数据;
通过网格搜索所述各个最小叶子节点的数据,以确定目标迭代深度步数;
基于所述迭目标迭代深度步数与目标决策树数量,调整潜在成交房源筛选模型的迭代深度步数与目标决策树数量,以获取参数调整后的调整模型;
基于所述测试样本数据测试所述调整模型,判断所述调整模型是否收敛,当收敛时,该调整模型即为目标模型。
可选地,所述训练子单元用于:
通过网格搜索各个决策树数量,获取各个决策树数量对应的各个信息熵,信息熵由公式确定,其中,P(i)为事件发生的概率;
基于信息熵的大小从高至低选取预设个数的决策树数量,并基于该预设个数的决策树数量与训练样本数据,训练所述潜在成交房源筛选模型,以得到各个训练结果。
此外,为实现上述目的,本发明还提供一种潜在成交房源筛选设备,所述潜在成交房源筛选设备包括:存储器、处理器,通信总线以及存储在所述存储器上的潜在成交房源筛选程序,
所述通信总线用于实现处理器与存储器间的通信连接;
所述处理器用于执行所述潜在成交房源筛选程序,以实现以下步骤:
获取房源成交数据,基于该房源成交数据提取房源筛选的特征因子;
基于所述特征因子与所述房源成交数据,建立样本数据,并对所述样本数据进行拆分处理,以获取训练样本数据和测试样本数据;
基于该训练样本数据和测试样本数据训练潜在成交房源筛选模型,以确定潜在成交房源筛选的目标模型,以基于所述目标模型筛选潜在成交房源。
可选地,所述基于所述特征因子与所述房源成交数据,建立样本数据步骤包括:
获取各个特征因子的数据规则,逐一对所述房源成交数据进行数据清洗、合并、完整性验证处理;
将所述清洗、合并、完整性验证处理后的房源成交数据转化为数值数据,将所述数值数据作为样本数据。
可选地,所述对所述样本数据进行拆分处理,以获取训练样本数据和测试样本数据步骤包括:
获取所述样本数据的拆分规则,基于该拆分规则获取训练样本数据和测试样本数据,其中,所述拆分规则包括所述训练样本数据多于测试样本数据,所述训练样本数据与测试样本数据中均含有成交房源数据与未成交房源数据;
对训练样本数据和测试样本数据进行归一化处理。
可选地,所述基于该训练样本数据和测试样本数据训练潜在成交房源筛选模型,以确定潜在成交房源筛选的目标模型步骤包括:
获取预存的潜在成交房源筛选模型,基于训练样本数据训练所述潜在成交房源筛选模型,以得到预测模型;
基于所述测试样本数据测试所述预测模型,以得到测试结果,基于该测试结果确定目标模型。
可选地,所述潜在成交房源筛选模型中包括待调整参数,所述待调整参数包括决策树数量,
所述基于训练样本数据训练所述潜在成交房源筛选模型,以得到预测模型步骤包括:
通过网格搜索各个决策树数量,并基于网格搜索的各个决策树数量与训练样本数据,训练所述潜在成交房源筛选模型,以得到各个训练结果;
基于所述各个训练结果,从各个决策树数量中确定目标决策树数量;
基于所述目标决策树,调整潜在成交房源筛选模型的决策树数量,以得到预测模型。
可选地,所述基于所述测试样本数据测试所述预测模型,以得到测试结果,基于该测试结果确定目标模型步骤包括:
获取所述目标决策树的最大深度步数,并基于该最大深度步数、所述最大深度步数中各个步数对应的各个数据节点,获取各个最小叶子节点的数据;
通过网格搜索所述各个最小叶子节点的数据,以确定目标迭代深度步数;
基于所述迭目标迭代深度步数与目标决策树数量,调整潜在成交房源筛选模型的迭代深度步数与目标决策树数量,以获取参数调整后的调整模型;
基于所述测试样本数据测试所述调整模型,判断所述调整模型是否收敛,当收敛时,该调整模型即为目标模型。
可选地,所述通过网格搜索各个决策树数量,并基于网格搜索的各个决策树数量与训练样本数据,训练所述潜在成交房源筛选模型,以得到各个训练结果步骤包括:
通过网格搜索各个决策树数量,获取各个决策树数量对应的各个信息熵,信息熵由公式确定,其中,P(i)为事件发生的概率;
基于信息熵的大小从高至低选取预设个数的决策树数量,并基于该预设个数的决策树数量与训练样本数据,训练所述潜在成交房源筛选模型,以得到各个训练结果。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行以用于:
获取房源成交数据,基于该房源成交数据提取房源筛选的特征因子;
基于所述特征因子与所述房源成交数据,建立样本数据,并对所述样本数据进行拆分处理,以获取训练样本数据和测试样本数据;
基于该训练样本数据和测试样本数据训练潜在成交房源筛选模型,以确定潜在成交房源筛选的目标模型,以基于所述目标模型筛选潜在成交房源。
本发明通过获取房源成交数据,基于该房源成交数据提取房源筛选的特征因子;基于所述特征因子与所述房源成交数据,建立样本数据,并对所述样本数据进行拆分处理,以获取训练样本数据和测试样本数据;基于该训练样本数据和测试样本数据训练潜在成交房源筛选模型,以确定潜在成交房源筛选的目标模型,以基于所述目标模型筛选潜在成交房源。在本申请中,该房源成交数据可是采用最新的房源成交数据,在获取房源成交数据后,提取房源成交数据中的特征因子,并建立样本数据,以确定潜在成交房源筛选的目标模型,以基于该目标模型筛选房源,其中,由于该目标模型是经过样本数据训练与验证得到,因而,该目标模型能够准确判断潜在成交房源,与现有技术中根据业务人员经验加权计算排名以筛选优质房源相比,本申请显然提高了潜在成交房源筛选的及时性与准确性,解决了现有潜在成交房源筛选不准确及时,造成房源的成交量下降的技术问题。
附图说明
图1为本发明潜在成交房源筛选方法第一实施例的流程示意图;
图2为本发明潜在成交房源筛选方法第二实施例的流程示意图;
图3是本发明实施例方法涉及的硬件运行环境的设备结构示意图;
图4是本发明实施例方法涉及的叶子节点的场景示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种潜在成交房源筛选方法,在本发明潜在成交房源筛选方法的第一实施例中,参照图1,所述潜在成交房源筛选方法包括:
步骤S10,获取房源成交数据,基于该房源成交数据提取房源筛选的特征因子;
需要说明的是,潜在成交房源筛选方法应用于潜在成交房源筛选装置,在本实施例中,该成交房源筛选装置可是每间隔预设时间段从成交房源数据库或者服务器中获取过去历史时长内的房源成交数据,具体地,该过去历史时长可是过去半年或者过去3个月的时间,该成交房源筛选装置中设置有定时器,基于该定时器,每间隔预设时间段触发成交房源筛选装置从成交房源数据库或者服务器中获取房源成交数据,需要说明的是,该房源成交数据可是最新的房源成交数据,另外,该房源成交数据中包括成交成功的房源以及未成交成功的房源,该成交成功的房源以及未成交成功的房源分别被打上不同的标签,以进行区分。
房源成交数据即是各个房子的数据记录,获取房源成交数据,基于该房源成交数据提取房源筛选的特征因子,在获取房源成交数据后,基于成交数据的记录内容,提取房源筛选的特征因子,其中,该特征因子包括在架时长、带看次数、带看间隔时间,带看经济人登记、装修情况、房龄、调价幅度等。
步骤S20,基于所述特征因子与所述房源成交数据,建立样本数据,并对所述样本数据进行拆分处理,以获取训练样本数据和测试样本数据;
基于所述特征因子与所述房源成交数据,建立样本数据,其中,可是提取房源成交数据中部分数据与所述特征因子,建立样本数据,具体地,基于所述特征因子与随机提取的所述房源成交数据的70%数据,建立样本数据,其中,建立样本数据的过程可是:
步骤S21,获取各个特征因子的数据规则,逐一对所述房源成交数据进行数据清洗、合并、完整性验证处理;
获取各个特征因子的数据规则,其中,该数据规则可是:在架时长、带看间隔时间都是以月为单位的整数、调价幅度为百分比,该百分比是指过去历史时长内房源定价价格相对于基准价格的上调百分比,装修情况采用0、1、2数字表示,0表示房源未装修,1表示房源简装修,2表示房源精装修,房龄可是以月为单位的数值,该数值可是小数点,如房龄可是1.5年等。
逐一对所述房源成交数据进行数据清洗、合并、完整性验证处理,其中,数据清洗过程为:除去明显缺失或者错误的数据,用以具体实施例进行说明,若房源的房龄为5年,而在架时长为6年,显然该在架时长数据不合理,需要清除该在架时长数据。进一步地,数据合并指的是若房源成交数据中数据存在重叠记录时,需要对数据进行合并,如若在过去历史时长内房源成交数据中存有2次A房的数据记录,则需将该对A房的数据记录合并为1次,另外,完整性验证处理指的是单个房源数据中是否都记录有各个特征因子,如若B房的数据记录中未存在装修情况、房龄等特征因子,则删除房源成交数据中B房的数据记录。
步骤S22,将所述清洗、合并、完整性验证处理后的房源成交数据转化为数值数据,将所述数值数据作为样本数据。
将所述清洗、合并、完整性验证处理后的房源成交数据转化为数值数据,将所述数值数据作为样本数据,具体地,如C房的数据记录可为:在架时长为半年、带看次数为3次、带看间隔时间平均为3个月,带看经济人登记次数为3次、装修情况为无装修、房龄为1年、房源定价价格为1万一平米,基准价格为7000一平米,则房源成交数据转化为数值数据之后分别为:在架时长:6、带看次数:3、带看间隔时间:3、带看经济人登记次数:3,装修情况为:0,房龄为:1年,房源调价幅度为43%,将上述数值数据作为样本数据。
在建立样本数据后,对所述样本数据进行拆分处理,以获取训练样本数据和测试样本数据,其中,训练样本数据用于训练模型,在模型训练完成后,测试样本数据用于测试模型,以确定该模型是否收敛,并确定该模型的准确性。
步骤S30,基于该训练样本数据和测试样本数据训练潜在成交房源筛选模型,以确定潜在成交房源筛选的目标模型,以基于所述目标模型筛选潜在成交房源。
基于该训练样本数据和测试样本数据训练潜在成交房源筛选模型,以确定潜在成交房源筛选的目标模型,其中,该潜在成交房源筛选模型是预存的,该潜在成交房源筛选模型是基于随机森林算法建立的二分类预测模型。
其中,随机森林是由很多独立的决策树组成的一个森林,每棵决策树之间相互独立,每棵树的权重相等,利用Python的sklearn库可以快速便捷地生成大量决策树,决策树即是区别出不同的分类样本的过程,具体地,决策树每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别,在本实施例中,决策树生成过程可是:从房源成交数据随机选取n个数据记录,从所有特征因子中随机选取K个特征因子,基于该n个数据记录、K个特征因子得到一颗决策树,重复以上两步m次,即建立了m棵决策树,这m棵决策树形成随机森林,重复以上两步w次,即建立了w棵决策树,这w棵决策树形成也可随机森林,需要说明的是,n,K一般是预存的,网格搜索各个决策树数量,网格搜索包括遍历搜索,具体地,决策树数量可是m棵,也可是w棵,还可是q棵,即基于各个决策树数量,确定各个不同的潜在成交房源筛选模型,具体地,将训练样本数据输入至该各个不同的潜在成交房源筛选模型中,基于不同的决策树数量,即可从训练样本数据中得到不同的数据,以得到不同训练结果,基于不同的训练结果,以得到最接近真实记录结果时的模型,将最接近真实记录结果时的模型作为预测模型,在得到预测模型后,再基于测试样本数据测试对应预测模型,以测试该预测模型的收敛性,当该对应预测模型基本收敛时,将该预测模型作为目标模型,以基于所述目标模型筛选潜在成交房源。
本发明通过获取房源成交数据,基于该房源成交数据提取房源筛选的特征因子;基于所述特征因子与所述房源成交数据,建立样本数据,并对所述样本数据进行拆分处理,以获取训练样本数据和测试样本数据;基于该训练样本数据和测试样本数据训练潜在成交房源筛选模型,以确定潜在成交房源筛选的目标模型,以基于所述目标模型筛选潜在成交房源。在本申请中,该房源成交数据可是采用最新的房源成交数据,在获取房源成交数据后,提取房源成交数据中的特征因子,并建立样本数据,以确定潜在成交房源筛选的目标模型,以基于该目标模型筛选房源,其中,由于该目标模型是经过样本数据训练与验证得到,因而,该目标模型能够准确判断潜在成交房源,与现有技术中根据业务人员经验加权计算排名以筛选优质房源相比,本申请显然提高了潜在成交房源筛选的及时性与准确性,解决了现有潜在成交房源筛选不准确及时,造成房源的成交量下降的技术问题。
进一步地,本发明提供潜在成交房源筛选方法的第二实施例,在第二实施例中,所述对所述样本数据进行拆分处理,以获取训练样本数据和测试样本数据步骤包括:
步骤S23,获取所述样本数据的拆分规则,基于该拆分规则获取训练样本数据和测试样本数据,其中,所述拆分规则包括所述训练样本数据多于测试样本数据,所述训练样本数据与测试样本数据中均含有成交房源数据与未成交房源数据;
获取所述样本数据的拆分规则,基于该拆分规则获取训练样本数据和测试样本数据,其中,所述拆分规则包括所述训练样本数据多于测试样本数据,所述训练样本数据与测试样本数据中均含有成交房源数据与未成交房源数据,具体地,样本数据拆分为训练样本和测试样本的比例可为7:3。
步骤S24,对训练样本数据和测试样本数据进行归一化处理。
对训练样本数据和测试样本数据进行归一化处理,具体的归一化过程可是:将训练样本数据和测试样本数据的数值都投影到0-1之间。具体归一化的算法可以是同时除以一个大数字,大数字=最大值-最小值。最大值是指所有参数值的最大值,最小值是指所有参数值的最小值。为了避免出现负数,在乘以大数字之前,将所有的训练样本数据和测试样本数据的数值都减去最小值,然后再乘以大数字。举个例子,获取到的样本数据的数值为1000,10,20,-10等,那么最大值为1000,最小值为-10,而为了避免出现负数,首先减去最小值得到1010,20,30,0。然后再除以1010,那么相应的参数值就转换为了1,20/1010,30/1010,0。
在本实施例中,通过获取所述样本数据的拆分规则,基于该拆分规则获取训练样本数据和测试样本数据,其中,所述拆分规则包括所述训练样本数据多于测试样本数据,所述训练样本数据与测试样本数据中均含有成交房源数据与未成交房源数据;对训练样本数据和测试样本数据进行归一化处理。由于内部还款闹钟的设置,提醒用户端及时根据新生成的或者更改的还款计划进行还款,提升了用户体验。
进一步地,本发明提供潜在成交房源筛选方法的第三实施例,在第三实施例中,参照图2,所述基于该训练样本数据和测试样本数据训练潜在成交房源筛选模型,以确定潜在成交房源筛选的目标模型步骤包括:
步骤S31,获取预存的潜在成交房源筛选模型,基于训练样本数据训练所述潜在成交房源筛选模型,以得到预测模型;
其中,所述潜在成交房源筛选模型中包括各个待调整参数,所述待调整参数包括决策树数量,
所述基于训练样本数据训练所述潜在成交房源筛选模型,以得到预测模型步骤包括:
步骤A1,通过网格搜索各个决策树数量,并基于网格搜索的各个决策树数量与训练样本数据,训练所述潜在成交房源筛选模型,以得到各个训练结果;
在本实施例中,所述通过网格搜索各个决策树数量,并基于网格搜索的各个决策树数量与训练样本数据,训练所述潜在成交房源筛选模型,以得到各个训练结果步骤包括:
步骤S1,通过网格搜索各个决策树数量,获取各个决策树数量对应的各个信息熵,信息熵由公式确定,其中,P(i)为事件发生的概率;
在本实施例中,通过网格搜索各个决策树数量,即从所有的特征因子中随机一次选取G、P、Y、O等数量不同的各个特征因子,基于该各个特征因子的数量列出所有可能的组合结果,获取所有可能的组合结果对应的整体信息熵,其中,信息熵由公式确定,特征因子数量不同,P(i)的数量以及P(i)的值不同,信息熵不同。
步骤S2,基于信息熵的大小从高至低选取预设个数的决策树数量,并基于该预设个数的决策树数量与训练样本数据,训练所述潜在成交房源筛选模型,以得到各个训练结果。
基于信息熵的大小从高至低选取预设个数的决策树数量,并基于该预设个数的决策树数量与训练样本数据,训练所述潜在成交房源筛选模型,以得到各个训练结果,其中,若预设个数为2个,而决策树数量为G个时,信息熵最高,决策树数量为P个时,信息熵次高,则决策树数量可选为G或者P。在决策树数量为G时,若对应特征因子为K个,将从所有的特征因子中随机一次选取K个特征因子,并将该K个特征因子各个可能的比例取值进行排列组合,列出所有可能的组合结果,从所有可能的组合结果中选出信息熵最高的组合结果,以得到一颗决策树,具体地,K个特征因子在生成决策树的过程中,是基于决策树整体的信息熵确定的,信息熵公式为
需要说明的是,K个特征因子中每个特征因子是具有确定比列范围的,比如调价幅度占比可是50%-60%等,当一颗决策树生成后,再次从所有的特征因子中随机选取一次K个特征因子,并将K个特征因子各个可能的比例取值进行排列组合,以得到另一颗决策树等,基于对应决策树数量与决策树,确定各个不同的潜在成交房源筛选模型,将训练样本数据输入至该各个不同的潜在成交房源筛选模型中,得到各个训练结果,以判断不同训练结果中训练样本数据中有多少被预测正确了。
步骤A2,基于所述各个训练结果,从各个决策树数量中确定目标决策树数量;
基于所述各个训练结果,从各个决策树数量中确定目标决策树数量,具体地,将该各个训练结果与训练样本数据中的真实记录进行比较,以得到最接近真实记录的训练结果,基于该最接近真实记录的训练结果,反推得到目标决策树数量。
步骤A3,基于所述目标决策树,调整潜在成交房源筛选模型的决策树数量,以得到预测模型。
在确定目标决策树数量后,调整潜在成交房源筛选模型的决策树数量参数,以得到预测模型。
步骤S32,基于所述测试样本数据测试所述预测模型,以得到测试结果,基于该测试结果确定目标模型。
基于所述测试样本数据测试所述预测模型,以得到测试结果,当基于测试结果确定预测模型基本收敛时,该基本收敛的预测模型为目标模型,当预测模型不收敛时,该不收敛的预测模型不是目标模型。
在本实施例中,通过获取预存的潜在成交房源筛选模型,基于训练样本数据训练所述潜在成交房源筛选模型,以得到预测模型;基于所述测试样本数据测试所述预测模型,以得到测试结果,基于该测试结果确定目标模型。本实施例房源泛化能力强,提升了用户体验。
进一步地,本发明提供潜在成交房源筛选方法的第四实施例,在第四实施例中,所述基于所述测试样本数据测试所述预测模型,以得到测试结果,基于该测试结果确定目标模型步骤包括:
步骤B1,获取所述目标决策树的最大深度步数,并基于该最大深度步数、所述最大深度各个步数对应的各个数据节点,获取各个最小叶子节点的数据;
目标决策树是由K个特征因子构成,决策树叶子节点对应的特征因子排列加权得到该叶子节点对应分支比列,基于该叶子节点对应分支比列与训练样本数据,即可得到每个叶子节点的叶子样本数据,如图4所示,该决策树叶子节点对应的叶子样本数据显然不同,在本实施例中,由于决策树中深度步数不同,叶子节点不同,因而最小叶子样本数据不同,将最小叶子样本数据作为最小叶子节点的数据,其中,深度步数越大,最小叶子样本数据越小,最小叶子样本数据过小时,对结果影响不大,但是限制了模型的泛化能力与迭代能力。在本实施例中,获取所述目标决策树的最大深度步数,并基于该最大深度步数、所述最大深度各个步数对应的各个数据节点,获取各个最小叶子节点的数据。用以具体实施例进行说明,当最大深度步数是3步深时,则获取步数分别为1,2,3时,各个步数对应的最深数据节点,基于该各个步数对应的最深数据节点,得到各个最小叶子节点的数据。
步骤B2,通过网格搜索所述各个最小叶子节点的数据,以确定目标迭代深度步数;
通过网格搜索所述各个最小叶子节点的数据,以确定目标迭代深度步数,具体地,如图4所示,当最小叶子节点的数据为第二步数深度叶子节点对应的数据时,目标迭代深度步数为2步深。
步骤B3,基于所述迭目标迭代深度步数与目标决策树数量,调整潜在成交房源筛选模型的迭代深度步数与目标决策树数量,以获取参数调整后的调整模型;
其中,迭代深度步数与决策树数量为潜在成交房源筛选模型的参数,基于所述迭目标迭代深度步数与目标决策树数量,调整潜在成交房源筛选模型的迭代深度步数与目标决策树数量,把调整参数后的模型作为调整模型。
步骤B4,基于所述测试样本数据测试所述调整模型,判断所述调整模型是否收敛,当收敛时,该调整模型即为目标模型。
基于所述测试样本数据测试所述调整模型,判断所述调整模型是否收敛,具体地,在测试样本数据测试所述调整模型时,获取测试结果,基于该测试结果,获取各次测试所述调整模型的测试准确率、测试召回率、测试AUC,当各次测试得到的测试准确率、测试召回率、测试AUC基本不在变化时,判定调整模型收敛,其中,召回率:表示测试样本数据中的正样本有多少被预测正确了,AUC:随机给定一个测试样本数据,输出的正样本的概率比输出负样本的概率大的可能性,其中,正样本指的是房源成交成功的数据中多少数据被预测成功,如房源成交数据中共有100条数据,60条是成交成功的房源数据,因而,正样本指的是在将对应数据输入至目标模型后,该60条成交成功的房源数据中有多少条数据是被成功预测的。
在本实施例中,通过获取所述目标决策树的最大深度步数,并基于该最大深度步数、所述最大深度各个步数对应的各个数据节点,获取各个最小叶子节点的数据;通过网格搜索所述各个最小叶子节点的数据,以确定目标迭代深度步数;基于所述迭目标迭代深度步数与目标决策树数量,调整潜在成交房源筛选模型的迭代深度步数与目标决策树数量,以获取参数调整后的调整模型;基于所述测试样本数据测试所述调整模型,判断所述调整模型是否收敛,当收敛时,该调整模型即为目标模型。本实施例多次迭代模型基本收敛后,确定目标模型,提高了成交房源筛选的准确性。
参照图3,图3是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例潜在成交房源筛选设备可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面3)播放器、便携计算机等终端设备。
如图3所示,该潜在成交房源筛选设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该潜在成交房源筛选设备还可以包括用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图3中示出的潜在成交房源筛选设备结构并不构成对潜在成交房源筛选设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及潜在成交房源筛选程序。操作系统是管理和控制潜在成交房源筛选设备硬件和软件资源的程序,支持潜在成交房源筛选程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与潜在成交房源筛选设备中其它硬件和软件之间通信。
在图3所示的潜在成交房源筛选设备中,处理器1001用于执行存储器1005中存储的潜在成交房源筛选程序,实现如上述所述的潜在成交房源筛选方法的步骤。
本发明潜在成交房源筛选设备具体实施方式与上述潜在成交房源筛选方法各实施例基本相同,在此不再赘述。
本发明提供了一种可读存储介质,所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现如上述所述的潜在成交房源筛选方法的步骤。
本发明可读存储介质具体实施方式与上述潜在成交房源筛选方法各实施例基本相同,在此不再赘述。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利处理范围内。

Claims (10)

1.一种潜在成交房源筛选方法,其特征在于,所述潜在成交房源筛选方法包括:
获取房源成交数据,基于该房源成交数据提取房源筛选的特征因子;
基于所述特征因子与所述房源成交数据,建立样本数据,并对所述样本数据进行拆分处理,以获取训练样本数据和测试样本数据;
基于该训练样本数据和测试样本数据训练潜在成交房源筛选模型,以确定潜在成交房源筛选的目标模型,以基于所述目标模型筛选潜在成交房源。
2.如权利要求1所述的潜在成交房源筛选方法,其特征在于,所述基于所述特征因子与所述房源成交数据,建立样本数据步骤包括:
获取各个特征因子的数据规则,逐一对所述房源成交数据进行数据清洗、合并、完整性验证处理;
将经所述清洗、合并、完整性验证处理后的房源成交数据转化为数值数据,将所述数值数据作为样本数据。
3.如权利要求1所述的潜在成交房源筛选方法,其特征在于,所述对所述样本数据进行拆分处理,以获取训练样本数据和测试样本数据步骤包括:
获取所述样本数据的拆分规则,基于该拆分规则获取训练样本数据和测试样本数据,其中,所述拆分规则包括所述训练样本数据多于测试样本数据,所述训练样本数据与测试样本数据中均含有成交房源数据与未成交房源数据;
对训练样本数据和测试样本数据进行归一化处理。
4.如权利要求1-3任一项所述的潜在成交房源筛选方法,其特征在于,所述基于该训练样本数据和测试样本数据训练潜在成交房源筛选模型,以确定潜在成交房源筛选的目标模型步骤包括:
获取预存的潜在成交房源筛选模型,基于训练样本数据训练所述潜在成交房源筛选模型,以得到预测模型;
基于所述测试样本数据测试所述预测模型,以得到测试结果,基于该测试结果确定目标模型。
5.如权利要求4所述的潜在成交房源筛选方法,其特征在于,所述潜在成交房源筛选模型中包括待调整参数,所述待调整参数包括决策树数量,
所述基于训练样本数据训练所述潜在成交房源筛选模型,以得到预测模型步骤包括:
通过网格搜索各个决策树数量,并基于网格搜索的各个决策树数量与训练样本数据,训练所述潜在成交房源筛选模型,以得到各个训练结果;
基于所述各个训练结果,从各个决策树数量中确定目标决策树数量;
基于所述目标决策树,调整潜在成交房源筛选模型的决策树数量,以得到预测模型。
6.如权利要求5所述的潜在成交房源筛选方法,其特征在于,所述基于所述测试样本数据测试所述预测模型,以得到测试结果,基于该测试结果确定目标模型步骤包括:
获取所述目标决策树的最大深度步数,并基于该最大深度步数、所述最大深度步数中各个步数对应的各个数据节点,获取各个最小叶子节点的数据;
通过网格搜索所述各个最小叶子节点的数据,以确定目标迭代深度步数;
基于所述迭目标迭代深度步数与目标决策树数量,调整潜在成交房源筛选模型的迭代深度步数与目标决策树数量,以获取参数调整后的调整模型;
基于所述测试样本数据测试所述调整模型,判断所述调整模型是否收敛,当收敛时,该调整模型即为目标模型。
7.如权利要求5所述的潜在成交房源筛选方法,其特征在于,所述通过网格搜索各个决策树数量,并基于网格搜索的各个决策树数量与训练样本数据,训练所述潜在成交房源筛选模型,以得到各个训练结果步骤包括:
通过网格搜索各个决策树数量,以获取各个决策树数量对应的各个信息熵,其中,信息熵由公式确定,P(i)为事件发生的概率;
基于信息熵的大小从高至低选取预设个数的决策树数量,并基于该预设个数的决策树数量与训练样本数据,训练所述潜在成交房源筛选模型,以得到各个训练结果。
8.一种潜在成交房源筛选装置,其特征在于,所述潜在成交房源筛选装置包括:
第一获取模块,用于获取房源成交数据,基于该房源成交数据提取房源筛选的特征因子;
第二获取模块,用于基于所述特征因子与所述房源成交数据,建立样本数据,并对所述样本数据进行拆分处理,以获取训练样本数据和测试样本数据;
训练模块,用于基于该训练样本数据和测试样本数据训练潜在成交房源筛选模型,以确定潜在成交房源筛选的目标模型,以基于所述目标模型筛选潜在成交房源。
9.一种潜在成交房源筛选设备,其特征在于,所述潜在成交房源筛选设备包括:存储器、处理器,通信总线以及存储在所述存储器上的潜在成交房源筛选程序,
所述通信总线用于实现处理器与存储器间的通信连接;
所述处理器用于执行所述潜在成交房源筛选程序,以实现如权利要求1至7中任一项所述的潜在成交房源筛选方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有潜在成交房源筛选程序,所述潜在成交房源筛选程序被处理器执行时实现如权利要求1-7中任一项所述的潜在成交房源筛选方法的步骤。
CN201810043521.3A 2018-01-17 2018-01-17 潜在成交房源筛选方法、装置、设备及可读存储介质 Pending CN108230039A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810043521.3A CN108230039A (zh) 2018-01-17 2018-01-17 潜在成交房源筛选方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810043521.3A CN108230039A (zh) 2018-01-17 2018-01-17 潜在成交房源筛选方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN108230039A true CN108230039A (zh) 2018-06-29

Family

ID=62641203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810043521.3A Pending CN108230039A (zh) 2018-01-17 2018-01-17 潜在成交房源筛选方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN108230039A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021068437A (ja) * 2019-10-17 2021-04-30 株式会社ウチダレック 出力プログラム、出力方法及び出力装置
CN113469290A (zh) * 2021-09-01 2021-10-01 北京数美时代科技有限公司 一种训练样本的选取方法、系统、存储介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7937336B1 (en) * 2007-06-29 2011-05-03 Amazon Technologies, Inc. Predicting geographic location associated with network address
CN106022477A (zh) * 2016-05-18 2016-10-12 国网信通亿力科技有限责任公司 智能分析决策系统及方法
CN106228389A (zh) * 2016-07-14 2016-12-14 武汉斗鱼网络科技有限公司 基于随机森林算法的网络潜力用户挖掘方法及系统
CN107256245A (zh) * 2017-06-02 2017-10-17 河海大学 面向垃圾短信分类的离线模型改进与选择方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7937336B1 (en) * 2007-06-29 2011-05-03 Amazon Technologies, Inc. Predicting geographic location associated with network address
CN106022477A (zh) * 2016-05-18 2016-10-12 国网信通亿力科技有限责任公司 智能分析决策系统及方法
CN106228389A (zh) * 2016-07-14 2016-12-14 武汉斗鱼网络科技有限公司 基于随机森林算法的网络潜力用户挖掘方法及系统
CN107256245A (zh) * 2017-06-02 2017-10-17 河海大学 面向垃圾短信分类的离线模型改进与选择方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘薇: "数据挖掘中决策树方法研究及其在房地产中介的应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021068437A (ja) * 2019-10-17 2021-04-30 株式会社ウチダレック 出力プログラム、出力方法及び出力装置
JP7109804B2 (ja) 2019-10-17 2022-08-01 株式会社ウチダレック 出力プログラム、出力方法及び出力装置
CN113469290A (zh) * 2021-09-01 2021-10-01 北京数美时代科技有限公司 一种训练样本的选取方法、系统、存储介质和电子设备

Similar Documents

Publication Publication Date Title
CN105283851B (zh) 用于选择跟踪目标的成本分析
CN105283866B (zh) 包括使用相似频率的优化分析的应用跟踪方法和系统
CN105045831B (zh) 一种消息推送方法及装置
CN109902708A (zh) 一种推荐模型训练方法及相关装置
CN107633254A (zh) 建立预测模型的装置、方法及计算机可读存储介质
CN108563548A (zh) 异常检测方法及装置
CN107066478A (zh) 一种虚假地址信息识别的方法及装置
CN104794057B (zh) 一种交叉事件自动化测试方法和装置
CN110610193A (zh) 标注数据的处理方法及装置
CN106203773A (zh) 一种自动管理员工的方法及装置
CN109711424B (zh) 一种基于决策树的行为规则获取方法、装置及设备
CN106951369A (zh) 一种联调测试的管理方法及装置
CN109726105A (zh) 测试数据构造方法、装置、设备及存储介质
CN108647818A (zh) 一种预测企业涉税风险的方法及装置
CN108415831A (zh) 测试用例生成方法及装置、电子设备和可读存储介质
CN108062366A (zh) 公共文化信息推荐系统
CN108694462A (zh) 专利价值度评价方法和计算机可读存储介质
CN115097796B (zh) 一种质量控制系统与模拟大数据和校正aql值的方法
CN108230039A (zh) 潜在成交房源筛选方法、装置、设备及可读存储介质
CN109828750A (zh) 自动配置数据埋点的方法、装置、电子设备及存储介质
CN109086607A (zh) 一种网络安全设备自主可控度评估方法
CN106022511A (zh) 信息预测方法和装置
CN108182448A (zh) 一种标注策略的选择方法及相关装置
Rota et al. Comparison of PSH results with historical macroseismic observations at different scales. Part 1: methodology
CN108985628A (zh) 一种计算机设备自主可控度评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180629

RJ01 Rejection of invention patent application after publication