CN111160472B - 对象的目标特征的预测方法、装置、存储介质与电子设备 - Google Patents
对象的目标特征的预测方法、装置、存储介质与电子设备 Download PDFInfo
- Publication number
- CN111160472B CN111160472B CN201911398390.1A CN201911398390A CN111160472B CN 111160472 B CN111160472 B CN 111160472B CN 201911398390 A CN201911398390 A CN 201911398390A CN 111160472 B CN111160472 B CN 111160472B
- Authority
- CN
- China
- Prior art keywords
- feature
- data
- class set
- value
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种对象的目标特征的预测方法、装置、存储介质和电子设备,涉及大数据处理技术领域。该方法包括:利用第一预测模型预测对象的目标特征的基准值,所述第一预测模型利用参考对象的第一特征类别集合的数据训练得到,所述第一特征类别集合中包括至少两类特征;利用第二预测模型获取校准值以对所述基准值进行校准,所述第二预测模型利用所述对象的第二特征类别集合的数据训练得到,所述第二特征类别集合中包括至少两类特征;将所述基准值和所述校准值的乘积作为所述目标特征的预测值。利用该方法,能够使获取的对象的目标特征的预测值更加合理。
Description
技术领域
本申请涉及大数据处理技术领域,尤其涉及一种对象的目标特征的预测方法、装置、存储介质和电子设备。
背景技术
随着数据分析方法的不断发展和改进,通过已有参考对象的特征数据对目标对象(以下简称对象)的目标特征进行合理预测越来越受到人们的关注。
实际应用中,对某些对象的目标特征的值进行确定时,当对象的数量较少、历史数据较少或者没有标准的确定方法时,往往需要参考结合同类或者相似的参考对象的特征数据进行预测。目前的预测方法大多只是根据获取的参考对象的特征数据,结合经验、历史数据或者主观想法进行估计,但由于不同人的经验和主观想法不同、不同地域的历史数据不同,会导致对象的特征的预测结果存在较大差异,导致对象的特征的预测结果并不合理。
综上所述,目前在对对象的特征的值进行预测时,由于没有通用的逻辑,很容易导致得到不合理的预测结果。
发明内容
为了解决现有技术存在的上述技术问题,本申请提供了一种对象的目标特征的预测方法、装置、存储介质和电子设备,能够使获取的对象的目标特征的预测值更加合理。
本申请提供了一种对象的目标特征的预测方法,包括:
利用第一预测模型预测对象的目标特征的基准值,所述第一预测模型利用参考对象的第一特征类别集合的数据训练得到,所述第一特征类别集合中包括至少两类特征;
利用第二预测模型获取校准值以对所述基准值进行校准,所述第二预测模型利用所述对象的第二特征类别集合的数据训练得到,所述第二特征类别集合中包括至少两类特征;
将所述基准值和所述校准值的乘积作为所述目标特征的预测值。
可选的,所述第一预测模型的训练过程具体包括:
滤除所述第一特征类别集合中线性相关的特征类别和方差低于第一预设阈值的特征类别;
从处理后的第一特征类别集合中选择第一待用特征类别集合;
利用所述第一待用特征类别集合的数据建立所述第一预测模型。
可选的,所述滤除所述第一特征类别集合中线性相关的特征类别,包括:
获取所述第一特征类别集合中的任意两类特征的皮尔逊相关系数的绝对值,删除所述皮尔逊相关系数的绝对值大于或等于第二预设阈值的两类特征中的任一类特征数据。
可选的,所述从处理后的第一特征类别集合中选择第一待用特征类别集合,包括:
通过树模型确定所述第一特征类别集合中各类特征的重要性排序,选择重要性排序最高的第一预设数目类的特征作为所述第一待用特征类别集合。
可选的,所述第二预测模型的训练过程具体包括:
滤除所述第二特征类别集合中线性相关的特征类别和方差低于第三预设阈值的特征类别;
从处理后的第二特征类别集合中选择第二待用特征类别集合;
利用所述第二待用特征类别集合的数据建立所述第二预测模型。
可选的,所述滤除所述第二特征类别集合中线性相关的特征类别,包括:
获取所述第二特征类别集合中的任意两类特征的皮尔逊相关系数的绝对值,删除所述皮尔逊相关系数的绝对值大于或等于第四预设阈值的两类特征中的任一类特征数据。
可选的,所述从处理后的第二特征类别集合中选择第二待用特征类别集合,包括:
利用所述对象的样本特征类别集合的数据、序列向前选择SFS算法和预设模型获取各种样本特征类别组合情况下对应的所述目标特征的样本预测值,所述样本特征类别集合与所述第二特征类别集合的特征的类型相同;
确定各样本预测值对应的评估函数的函数值,所述评估函数为样本预测值的相对误差;
根据与最小的所述函数值对应的样本特征类型组合确定所述第二待用特征类别集合。
可选的,当所述第一特征类别集合和/或所述第二特征类别集合中包括哑变量类型时,所述方法还包括:
对所述哑变量类型的数据进行独热编码。
本申请还提供了一种对象的目标特征的预测装置,包括:第一获取单元、第二获取单元和第三获取单元;
所述第一获取单元,用于利用第一预测模型预测对象的目标特征的基准值,所述第一预测模型利用参考对象的第一特征类别集合的数据训练得到,所述第一特征类别集合中包括至少两类特征;
所述第二获取单元,用于利用第二预测模型获取校准值以对所述基准值进行校准,所述第二预测模型利用所述对象的第二特征类别集合的数据训练得到,所述第二特征类别集合中包括至少两类特征;
所述第三获取单元,用于将将所述基准值和所述校准值的乘积作为所述目标特征的预测值。
本申请还提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现以上所述的对象的目标特征的预测方法。
本申请还提供了一种电子设备,所述电子设备用于运行程序,其中,所述程序运行时执行以上所述的对象的目标特征的预测方法。
与现有技术相比,本申请所述方法至少具有以下优点:
该方法利用根据参考对象的第一特征类别集合的数据训练得到的第一预测模型来预测对象的目标特征的基准值,第一特征类别集合中包括至少两类特征,利用了同类或者相似类别的参考对象的充足数据确定出目标特征的基准值。利用根据对象自身的第二特征类别集合的数据训练得到的第二预测模型获取校准值以对所述第一预测模型的基准值进行校准,第二特征类别集合中包括至少两类特征,将所述基准值和所述校准值的乘积作为所述目标特征的预测值。通过使用校准值对基准值进行校准,实现了在参考对象的数据的基础上结合对象的数据进行修正,弥补了对象自身数据不足的特点,相比于目前基于参考对象的数据进行人为估计的方法,能够使获取的对象的目标特征的预测值更加合理。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种对象的目标特征的预测方法的流程图;
图2为本申请实施例提供的一种对象的目标特征的预测装置的示意图;
图3为本申请实施例提供的一种电子设备的示意图。
具体实施方式
在对某些对象的目标特征的值进行确定时,当对象的数量较少、历史数据较少或者没有标准的确定方法时,往往需要参考结合同类或者相似类别的参考对象的特征数据进行预测。目前的预测方法往往根据获取的参考对象的特征数据,结合经验、历史数据或者主观想法进行估计,因此不具有一个通用的预测逻辑。由于不同人的经验和主观想法不同、不同地域的历史数据不同,会导致对象的特征的预测结果存在较大差异,导致对象的特征的预测结果并不合理。
为了解决上述技术问题,本申请提供了一种对象的目标特征的预测方法、装置、存储介质和电子设备,利用参考对象的充足数据获取目标特征的基准值,利用对象的数据获取基准值,通过使用校准值对基准值进行校准,实现了在参考对象的数据的基础上结合对象的数据进行修正,弥补了对象自身数据不足的特点,并且相比于目前基于参考对象的数据进行人为估计的方法,能够使获取的对象的目标特征的预测值更加合理。
需要注意的是,本申请实施例中所述的“第一”、“第二”等词仅是为了方便说明,并不构成对于本申请的限定。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一:
本申请实施例提供了一种对象的目标特征的预测方法,下面结合附图具体说明。
参见图1,该图为本申请实施例一提供的一种公寓价值属性的预测方法的流程图。
本申请实施例所述方法包括以下步骤:
S101:利用第一预测模型预测对象的目标特征的基准值,第一预测模型利用参考对象的第一特征类别集合的数据训练得到,第一特征类别集合中包括至少两类特征。
本申请所述方法旨在对某对象的目标特征进行预测,对象可以为人,例如教师和职员等,也可以是物品,例如车辆、商品(可以为具体的商品,例如电器、家具等,也可以为较为抽象的商品,例如电费、暖费和水费等)或房屋等,本申请实施例不作具体限定。
参考对象是和对象相同或者具有相似特性的对象,即利用参考对象的特征能够对对象的特征进行预测,因此能够弥补对象数量不足的问题。例如当对象为某一城市的教师时,参考对象可以为其他城市的教师,又例如当对象为某一城市的公寓时,参考对象可以为该城市的民居。
首先获取参考对象的第一特征类别集合的数据,第一特征类别集合中包括至少两类特征,实际应用中,为了更加准确的实现预测,第一特征类别集合中包括的特征类别应尽可能较多,相应的每类特征的数据量也应当尽量充足。
根据参考对象的第一特征类别集合的数据获取第一预测模型,该第一预测模型用于预测对象的目标特征的基准值。即第一预测模型由于根据充足的参考对象的数据初步预测对象的目标特征。
其中,当第一特征类别集合的数据中包括哑变量类型的数据时,还需要对哑变量类型的数据进行独热编码。哑变量(Dummy Variables)又称虚设变量或名义变量,用以反映质的属性的一个人工变量,是量化了的质变量,通常取值为0或1。
例如,反映文化程度的哑变量可取为:
1:本科学历;0:非本科学历。
又例如,反映公寓面积的哑变量可取为:
1:15-25m2;2:25-35m2;3:35-45m2;4:45m2以上。
进一步的,在建立第一预测模型时,需要对数据进行预处理,预处理包括数据过滤和数据选择等步骤,下面具体说明。
数据过滤:滤除第一特征类别集合中线性相关的特征类别和方差低于第一预设阈值的特征类别。
由于并不是每一类数据都能很好的体现区分度,因此需要计算每一类特征的各个数据的方差,然后将方差低于第一预设阈值的特征类别滤除,该特征类别的数据也同时被滤除。
例如假设某类特征的数据值只有0和1,并且在所有样本数据中,98%的实例的该特征取值都是1,数据的方差很小,即可以认为此特征作用不大。如果100%都是1,既可以认为此特征无意义。
其中,第一预设阈值可以根据实际情况确定,本申请实施例对此不作具体限定。
还需要去除共线性特征,获取第一特征类别集合中的任意两类特征的皮尔逊相关系数(Pearson correlation coefficient)的绝对值,删除皮尔逊相关系数的绝对值大于或等于第二预设阈值的两类特征中的任一类特征数据。
皮尔逊相关系数即两类特征之间的协方差和标准差的商,用于度量两类特征之间的线性相关程度,数值区建委[-1,1],皮尔逊相关系数的绝对值越大,表征两类特征之间的线性相关程度越高。当皮尔逊相关系数的绝对值为1时,表征两个特征之间满足线性相关,此时可以认为两个特征中的一个可有另外一个完全替代,因此可以删除其中的任意一类特征。
其中,第二预设阈值可以根据实际情况确定,本申请实施例对此不作具体限定。例如可以将第二预设阈值设置为0.9,即将皮尔逊相关系数的绝对值大于或等于0.9的两类特征认为是线性相关的特征,只保留其中的一个特征。
数据选择:从处理后的第一特征类别集合中选择第一待用特征类别集合。
数据选择的目的是从数据过滤后的第一特征类别集合中选择建立第一预测模型时适用的特征类别,即第一待用特征类别。
本申请实施例通过树模型确定第一特征类别集合中各类特征的重要性排序,选择重要性排序最高的第一预设数目类的特征作为所述第一待用特征类别集合。
基本思路为如果一类特征被选为树模型的分割点的次数越多,那么这个特征的重要性和区分度就越强。
下面具体说明该数据选择过程。
建立多个树模型,依据树模型获取每类特征的重要性,对所有特征的重要性进行排序,并删除从未使用的特征(重要性为0的特征)。
选择重要性排序最高的第一预设数目类的特征形成第一待用特征类别集合,当特征种类数量不足第一预设数目时,将全部重要性不为0的特征形成第一待用特征类别集合。
其中,第一预设数目可以根据实际情况设定,本申请实施例对此不作具体限定。
模型建立:利用第一待用特征类别集合的数据建立第一预测模型。
其中,第一预测模型可以为极限梯度提升回归树模型、神经网络模型或其他的梯度提升决策树模型,本申请实施例不作具体限定。
下面具体以第一预测模型为极限梯度提升回归树模型为例说明第一预测模型的建立方法,可以理解的是,本领域技术人员还可以采用其它的方法建立第一预测模型,本申请实施例在此不一一赘述。
定义评估函数,评估函数为预测值(可以为根据样本数据获取的样本预测值)的相对误差,具体可以参见下式:
评估函数=|(预测值-样本目标特征的平均值)÷样本目标特征的平均值|(1)
将第一待用特征类别集合的数据分为训练数据和预测数据,例如可以将数据分成5份,每次选择4份作为训练数据,即样本数据,1份作为预测数据。进行多次预测后,使用评估函数对预测结果进行评判并获取函数值,将函数值的平均值最小的模型参数作为最终的第一预测模型的模型参数。
输入是训练数据:I={(x1,y1),(x2,y2)…,(xm,ym)},最大迭代次数T,损失函数L,正则化系数λ,γ。输出是强学习器f(x),对迭代轮数t=1,2,...T有:
b)基于当前节点尝试分裂决策树,默认分数score=0,对特征序号k=1,2...K:
i:GL=0,HL=0。
ii:将样本按特征k从小到大排列,依次取出第i个样本,依次计算当前样本放入左子树后,左右子树一阶和二阶导数和:
GL=GL+gti,GR=G-GL
HL=HL+hti,HR=H-HL
Iii:尝试更新最大的分数:
c)基于最大score对应的划分特征和特征值分裂子树。
d)如果最大score为0,则当前决策树建立完毕,计算所有叶子区域的wtj,得到弱学习器ht(x),更新强学习器ft(x),进入下一轮弱学习器迭代.如果最大score不是0,则转到第2)步继续尝试分裂决策树。
通过以上的模型能够初步预测对象的目标特征,得到对象的目标特征的基准值。
S102:利用第二预测模型获取校准值以对基准值进行校准,第二预测模型利用对象的第二特征类别集合的数据训练得到,第二特征类别集合中包括至少两类特征。
S101中获取的目标特征的基准值基于参考对象的数据,本步骤中基于对象的第二特征类别集合的数据获取用于为该基准值进行校准的校准值。
对象的第二特征类别集合的数据为该对象已有的数据,通常对象的第二特征类别集合的数据量较小。其中,第二特征类别集合中包括至少两类特征,实际应用中,为了更加准确的实现预测,第二特征类别集合中包括的特征类别应尽可能较多并尽可能与第一特征类别集合中包括的特征类别相同。
进一步的,在建立第二预测模型时,同样当第一特征类别集合的数据中包括哑变量类型的数据时,还需要对哑变量类型的数据进行独热编码。具体可以参见以上的说明,本申请实施例在此不再具体赘述。
进一步的,当在建立第二预测模型时,同样需要对数据进行预处理,预处理包括数据过滤和数据选择等步骤,下面具体说明。
数据过滤:滤除第二特征类别集合中线性相关的特征类别和方差低于第三预设阈值的特征类别。
第二特征类别集合中并不是每一类数据都能很好的体现区分度,因此需要计算每一类特征的各个数据的方差,然后将方差低于第三预设阈值的特征类别滤除,该特征类别的数据也同时被滤除。
其中,第三预设阈值可以根据实际情况确定,第三预设阈值与第一预设阈值可以相同,也可以不同,本申请实施例对此不作具体限定。
还需要去除共线性特征,获取第二特征类别集合中的任意两类特征的皮尔逊相关系数的绝对值,删除皮尔逊相关系数的绝对值大于或等于第四预设阈值的两类特征中的任一类特征数据。
其中,第四预设阈值可以根据实际情况确定,第四预设阈值与第二预设阈值可以相同,也可以不同,本申请实施例对此不作具体限定。
数据选择:从处理后的第二特征类别集合中选择第二待用特征类别集合。
数据选择的目的是从数据过滤后的第二特征类别集合中选择建立第二预测模型时适用的特征类别,即第二待用特征类别。
对于数据量较少的对象,可以采用序列前向选择(Sequential ForwardSelection,SFS)算法进行特征选择。
下面具体说明第二预测模型的建立方法,可以理解的是,本领域技术人员还可以采用其它的方法建立第二预测模型,本申请实施例在此不一一赘述。
第二预测模型具体可以为线性回归模型或基学习器为线性模型的自适应增强模型。
首先定义评估函数,评估函数为样本预测值的相对误差。此处评估函数可以采用式(1)的评估函数。
利用对象的样本特征类别集合的数据、序列向前选择算法和预设模型获取各种样本特征类别组合情况下对应的目标特征的样本预测值,样本特征类别集合与第二特征类别集合的特征的类型相同。
确定各样本预测值对应的评估函数的函数值。
根据与最小的函数值对应的样本特征类型组合确定第二待用特征类别集合。
利用第一待用特征类别集合的数据建立第二预测模型。
实际应用中,如果获取N组对象的历史数据,可以将数据分成N份,每次选取N-1份作为训练数据,1份作为预测数据。利用不同类型的模型进行多次预测,使用评估函数对预测结果进行评判并获取函数值,将函数值的平均值最小的模型作为第一预测模型,将该模型的模型参数作为最终的第一预测模型的模型参数。
S103:将基准值和校准值的乘积作为目标特征的预测值。
即利用第二预测模型获取的校准值对利用第一预测模型获取的基准值进行校准,以获得目标特征的预测值。
综上所述,本申请提供的方法通过使用根据第二预测模型获取的校准值对根据第一预测模型获取的基准值进行校准,实现了在参考对象的数据的基础上结合对象的数据进行修正,不仅弥补了对象自身数据不足的特点,相比于目前基于参考对象的数据进行人为估计的方法,能够使获取的对象的目标特征的预测值更加合理,提升了准确性。
实施例二:
基于上述实施例提供的对象的目标特征的预测方法,下面结合应用场景具体说明该方法的实现方式。
在第一种可能的应用场景中,可以应用于预测公寓的价值属性。
如果现有的技术方案要应用于公寓时,要求要有足够的公寓数据,而现在所具有的公寓数据不足够支撑整个技术方案。
当对公寓价值属性的预测结果不合理时,往往会降低公寓的使用率,导致耗费大量资源建设而成的公寓无人居住,造成对于自然资源的浪费,此外由于公寓往往建设在交通较为方便区域,公寓的使用率下降使得公寓占用了土地资源却没有被有效利用,造成社会公共资源的浪费,甚至影响住建市场秩序。
利用本方法在进行预测时,对象为新的公寓,对象的目标特征为新的公寓的价值属性,参考对象为民居。
第一特征类别因为对标公寓,因此需要对民居数据进行筛选,选择与公寓相匹配的数据。例如可以选择民居中整租的开间、一居室和二居室,建筑年代为预设年限内的民居数据,同时不使用别墅、四合院、花园洋房的民居数据,也不使用毛坯数据。具体可以包括:城市名称、小区名称、小区编码、房屋建筑面积、所在区县、经纬度、所属板块名称、所属板块类型、建筑年代、居室数、租金价格、兴趣点(Point of Interest,POI)数量与分布等类别。
第二特征类别为旧的公寓的数据。首先需要剔除非正常时期的数据(例如刚开业,春节期间等时期),公寓数据可以选择个人签约、运营时间大于三个月,签约时长大于三个月,且签约日期在公寓开业三个月后的数据。第二特征类别集合中包含:城市名称、公寓名称、公寓编码、房屋使用面积、房型、所在区县、经纬度、所属板块名称、所属板块类型、装修年代、家具信息、电器信息、体量、租金价格、兴趣点数量与分布等类别。
对第一特征类别集合和第二特征类别集合的中的哑变量类型的数据进行独热编码,下面具体以哑变量类型为兴趣点数量与分布为例进行说明。
统计民居与公寓附近的兴趣点,兴趣点类型包括政府机构、社会团体、公交车站、地铁站、影剧院、综合医院、产业园区、便民商店/便利店、公司、知名企业、快餐厅、商场、超级市场、休闲餐饮场所、学校等。
分别获取每个民居与公寓附近各类兴趣点中最近兴趣点距离(大于2千米的,将此特征填充为3千米)、1千米范围内各类兴趣点个数与2千米范围内各类兴趣点个数。同时对“最近兴趣点距离”这个特征做离散化处理,将其映射为0-1000米用1表示、1000-2000米用2表示和2000-3000米用2来表示,例如获取到的各距离区间的兴趣点发布数量依次为10、25、30,则热独编码后的兴趣点数量与分布的数据可以表示为(1,10)、(2,25)和(3,30)。
然后对第一特征类别集合和第二特征类别集合数据过滤和数据选择等步骤,具体参见实施例一中的相关说明,本申请实施例在此不再赘述。
利用第一特征类别集合的数据获取第一预测模型,该第一预测模型用于预测获取新的公寓的价值属性的基准值。
利用第二特征类别集合的数据获取第二预测模型,该第二预测模型用用获取校准值以对公寓价值属性的基准值进行校准。
综上所述,利用本申请的方法,弥补了公寓数据量少的问题,结合成熟公寓体系的数据和民居价值属性的数据预测新的公寓的价值属性,能够更加客观合理预测公寓的价值属性,提升公寓的使用率,进而降低对于自然资源与社会公共资源的浪费,还有利于维护住建市场秩序稳定。
可以理解的是,以上的应用场景仅为本申请所述方法可以应用的众多场景中举例,本申请所述方法还可以应用在其它各种对象的目标特征的预测场景之中,例如预测城市内某一区域内的水价、电价或供暖价格等,本申请实施在此不一一赘述。
实施例三:
基于上述实施例提供的对象的目标特征的预测方法,本申请实施例还提供了一种对象的目标特征的预测装置,下面结合附图具体说明。
参见图2,该图为本申请实施例提供的一种对象的目标特征的预测装置的示意图。
本申请实施例所述装置包括:第一获取单元201、第二获取单元202和第三获取单元203。
第一获取单元201利用第一预测模型预测对象的目标特征的基准值,所述第一预测模型利用参考对象的第一特征类别集合的数据训练得到,所述第一特征类别集合中包括至少两类特征。
可选的,该装置还包括模型训练单元,该模型训练单元用于获取第一预测模型,具体训练过程如下:
滤除所述第一特征类别集合中线性相关的特征类别和方差低于第一预设阈值的特征类别;
从处理后的第一特征类别集合中选择第一待用特征类别集合;
利用所述第一待用特征类别集合的数据建立所述第一预测模型。
进一步的,模型训练单元能够获取所述第一特征类别集合中的任意两类特征的皮尔逊相关系数的绝对值,删除所述皮尔逊相关系数的绝对值大于或等于第二预设阈值的两类特征中的任一类特征数据。
进一步的,模型训练单元能够通过树模型确定所述第一特征类别集合中各类特征的重要性排序,选择重要性排序最高的第一预设数目类的特征作为所述第一待用特征类别集合。
第二获取单元202利用第二预测模型获取校准值以对所述基准值进行校准,所述第二预测模型利用所述对象的第二特征类别集合的数据训练得到,所述第二特征类别集合中包括至少两类特征。
可选的,模型训练单元还用于获取第二预测模型,具体训练过程如下:
滤除所述第二特征类别集合中线性相关的特征类别和方差低于第三预设阈值的特征类别;
从处理后的第二特征类别集合中选择第二待用特征类别集合;
利用所述第二待用特征类别集合的数据建立所述第二预测模型。
进一步的,模型训练单元具体用于获取所述第二特征类别集合中的任意两类特征的皮尔逊相关系数的绝对值,删除所述皮尔逊相关系数的绝对值大于或等于第四预设阈值的两类特征中的任一类特征数据。
进一步的,模型训练单元具体用于利用所述对象的样本特征类别集合的数据、序列向前选择SFS算法和预设模型获取各种样本特征类别组合情况下对应的所述目标特征的样本预测值,所述样本特征类别集合与所述第二特征类别集合的特征的类型相同;
确定各样本预测值对应的评估函数的函数值,所述评估函数为样本预测值的相对误差;
根据与最小的所述函数值对应的样本特征类型组合确定所述第二待用特征类别集合。
进一步的,模型训练单元还能够对所述哑变量类型的数据进行独热编码。
第三获取单元203将所述基准值和所述校准值的乘积作为所述目标特征的预测值。
该装置的第一获取单元利用根据参考对象的第一特征类别集合的数据训练得到的第一预测模型预测对象的目标特征的基准值,第一特征类别集合中包括至少两类特征,利用了同类或者相似类别的参考对象的充足数据确定出目标特征的基准值。第二获取单元利用根据对象自身的第二特征类别集合的数据训练得到的第二预测模型获取校准值以对所述第一预测模型的基准值进行校准,第二特征类别集合中包括至少两类特征,第三获取单元将所述基准值和所述校准值的乘积作为所述目标特征的预测值。通过使用校准值对基准值进行校准,实现了在参考对象的数据的基础上结合对象的数据进行修正,弥补了对象自身数据不足的特点,能够使获取的对象的目标特征的预测值更加合理。
所述对象的目标特征的预测装置包括处理器和存储器,上述第一获取单元、第二获取单元、第三获取单元和模型训练单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现对对象的目标特征的预测。
实施例四:
本申请实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述对象的目标特征的预测方法。
本申请实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述对象的目标特征的预测方法。
本申请实施例还提供了一种电子设备,下面结合附图具体说明。
参见图3,该图为本申请实施例提供的一种电子设备的示意图。
电子设备30包括至少一个处理器301、以及与处理器301连接的至少一个存储器302、总线303。
其中,处理器301、存储器302通过总线完成相互间的通信;处理器301用于调用存储器302中的程序指令,以执行上述的对象的目标特征的预测方法。本文中的设备可以是服务器、PC、PAD、手机等,本申请实施例不作具体限定。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
利用第一预测模型预测对象的目标特征的基准值,所述第一预测模型利用参考对象的第一特征类别集合的数据训练得到,所述第一特征类别集合中包括至少两类特征;
利用第二预测模型获取校准值以对所述基准值进行校准,所述第二预测模型利用所述对象的第二特征类别集合的数据训练得到,所述第二特征类别集合中包括至少两类特征;
将所述基准值和所述校准值的乘积作为所述目标特征的预测值。
可选的,所述第一预测模型的训练过程具体包括
滤除所述第一特征类别集合中线性相关的特征类别和方差低于第一预设阈值的特征类别;
从处理后的第一特征类别集合中选择第一待用特征类别集合;
利用所述第一待用特征类别集合的数据建立所述第一预测模型。
可选的,所述滤除所述第一特征类别集合中线性相关的特征类别,包括:
获取所述第一特征类别集合中的任意两类特征的皮尔逊相关系数,删除所述皮尔逊相关系数大于或等于第二预设阈值的两类特征中的任一类特征数据。
可选的,所述从处理后的第一特征类别集合中选择第一待用特征类别集合,包括:
通过树模型确定所述第一特征类别集合中各类特征的重要性排序,选择重要性排序最高的第一预设数目类的特征作为所述第一待用特征类别集合。
可选的,所述第二预测模型的训练过程具体包括:
滤除所述第二特征类别集合中线性相关的特征类别和方差低于第三预设阈值的特征类别;
从处理后的第二特征类别集合中选择第二待用特征类别集合;
利用所述第二待用特征类别集合的数据建立所述第二预测模型。
可选的,所述滤除所述第二特征类别集合中线性相关的特征类别,包括:
获取所述第二特征类别集合中的任意两类特征的皮尔逊相关系数,删除所述皮尔逊相关系数大于或等于第四预设阈值的两类特征中的任一类特征数据。
可选的,所述从处理后的第二特征类别集合中选择第二待用特征类别集合,包括:
利用所述对象的样本特征类别集合的数据、序列向前选择SFS算法和预设模型获取各种样本特征类别组合情况下对应的所述目标特征的样本预测值,所述样本特征类别集合与所述第二特征类别集合的特征的类型相同;
确定各样本预测值对应的评估函数的函数值,所述评估函数为样本预测值的相对误差;
根据与最小的所述函数值对应的样本特征类型组合确定所述第二待用特征类别集合。
可选的,当所述第一特征类别集合和/或所述第二特征类别集合中包括哑变量类型时,所述方法还包括:
对所述哑变量类型的数据进行独热编码。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种对象的目标特征的预测方法,其特征在于,包括:
利用第一预测模型预测对象的目标特征的基准值,所述第一预测模型利用参考对象的第一特征类别集合的数据训练得到,所述第一特征类别集合中包括至少两类特征;所述对象具体为人、物品或者房屋;所述参考对象具体为和所述对象相同或者具有相似特性的对象;
利用第二预测模型获取校准值以对所述基准值进行校准,所述第二预测模型利用所述对象的第二特征类别集合的数据训练得到,所述第二特征类别集合中包括至少两类特征;
将所述基准值和所述校准值的乘积作为所述目标特征的预测值;
所述第一预测模型的训练过程具体包括:
滤除所述第一特征类别集合中线性相关的特征类别和方差低于第一预设阈值的特征类别;
从处理后的第一特征类别集合中选择第一待用特征类别集合;
利用所述第一待用特征类别集合的数据建立所述第一预测模型;
所述利用所述第一待用特征类别集合的数据建立所述第一预测模型,包括:
定义评估函数,所述评估函数为预测值的相对误差;
将所述第一待用特征类别集合的数据分为训练数据和预测数据;
利用所述训练数据进行训练,利用所述预测数据进行预测后,得到预测结果,利用所述评估函数对所述预测结果进行评判并获取函数值,将最小的所述函数值的平均值对应的模型参数作为所述第一预测模型的最终模型参数。
2.根据权利要求1所述的方法,其特征在于,所述滤除所述第一特征类别集合中线性相关的特征类别,包括:
获取所述第一特征类别集合中的任意两类特征的皮尔逊相关系数的绝对值,删除所述皮尔逊相关系数的绝对值大于或等于第二预设阈值的两类特征中的任一类特征数据。
3.根据权利要求1所述的方法,其特征在于,所述从处理后的第一特征类别集合中选择第一待用特征类别集合,包括:
通过树模型确定所述第一特征类别集合中各类特征的重要性排序,选择重要性排序最高的第一预设数目类的特征作为所述第一待用特征类别集合。
4.根据权利要求1所述的方法,其特征在于,所述第二预测模型的训练过程具体包括:
滤除所述第二特征类别集合中线性相关的特征类别和方差低于第三预设阈值的特征类别;
从处理后的第二特征类别集合中选择第二待用特征类别集合;
利用所述第二待用特征类别集合的数据建立所述第二预测模型。
5.根据权利要求4所述的方法,其特征在于,所述滤除所述第二特征类别集合中线性相关的特征类别,包括:
获取所述第二特征类别集合中的任意两类特征的皮尔逊相关系数的绝对值,删除所述皮尔逊相关系数的绝对值大于或等于第四预设阈值的两类特征中的任一类特征数据。
6.根据权利要求5所述的方法,其特征在于,所述从处理后的第二特征类别集合中选择第二待用特征类别集合,包括:
利用所述对象的样本特征类别集合的数据、序列向前选择SFS算法和预设模型获取各种样本特征类别组合情况下对应的所述目标特征的样本预测值,所述样本特征类别集合与所述第二特征类别集合的特征的类型相同;
确定各样本预测值对应的评估函数的函数值,所述评估函数为样本预测值的相对误差;
根据与最小的所述函数值对应的样本特征类型组合确定所述第二待用特征类别集合。
7.根据权利要求1-6中任意一种所述的方法,其特征在于,当所述第一特征类别集合和/或所述第二特征类别集合中包括哑变量类型时,所述方法还包括:
对所述哑变量类型的数据进行独热编码。
8.一种对象的目标特征的预测装置,其特征在于,包括:第一获取单元、第二获取单元和第三获取单元;
所述第一获取单元,用于利用第一预测模型预测对象的目标特征的基准值,所述第一预测模型利用参考对象的第一特征类别集合的数据训练得到,所述第一特征类别集合中包括至少两类特征;所述对象具体为人、物品或者房屋;所述参考对象具体为和所述对象相同或者具有相似特性的对象;
所述第二获取单元,用于利用第二预测模型获取校准值以对所述基准值进行校准,所述第二预测模型利用所述对象的第二特征类别集合的数据训练得到,所述第二特征类别集合中包括至少两类特征;
所述第三获取单元,用于将将所述基准值和所述校准值的乘积作为所述目标特征的预测值;
所述装置还包括模型训练单元,所述模型训练单元用于获取所述第一预测模型,所述模型训练单元具体用于:
滤除所述第一特征类别集合中线性相关的特征类别和方差低于第一预设阈值的特征类别;
从处理后的第一特征类别集合中选择第一待用特征类别集合;
利用所述第一待用特征类别集合的数据建立所述第一预测模型;
所述利用所述第一待用特征类别集合的数据建立所述第一预测模型,包括:
定义评估函数,所述评估函数为预测值的相对误差;
将所述第一待用特征类别集合的数据分为训练数据和预测数据;
利用所述训练数据进行训练,利用所述预测数据进行预测后,得到预测结果,利用所述评估函数对所述预测结果进行评判并获取函数值,将最小的所述函数值的平均值对应的模型参数作为所述第一预测模型的最终模型参数。
9.一种存储介质,其特征在于,其上存储有程序,该程序被处理器执行时实现权利要求1-7中任意一项所述的对象的目标特征的预测方法。
10.一种电子设备,其特征在于,所述电子设备用于运行程序,其中,所述程序运行时执行权利要求1-7中任意一项所述的对象的目标特征的预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911398390.1A CN111160472B (zh) | 2019-12-30 | 2019-12-30 | 对象的目标特征的预测方法、装置、存储介质与电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911398390.1A CN111160472B (zh) | 2019-12-30 | 2019-12-30 | 对象的目标特征的预测方法、装置、存储介质与电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111160472A CN111160472A (zh) | 2020-05-15 |
CN111160472B true CN111160472B (zh) | 2020-12-18 |
Family
ID=70559611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911398390.1A Active CN111160472B (zh) | 2019-12-30 | 2019-12-30 | 对象的目标特征的预测方法、装置、存储介质与电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111160472B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738831A (zh) * | 2020-06-19 | 2020-10-02 | 中国建设银行股份有限公司 | 一种业务处理方法、装置及系统 |
CN112712861A (zh) * | 2021-01-07 | 2021-04-27 | 北京明略软件系统有限公司 | 模型构建方法、装置、设备及计算机可读介质 |
CN113793502B (zh) * | 2021-09-15 | 2022-08-09 | 国网电动汽车服务(天津)有限公司 | 无信号灯控制下的行人过街预测方法 |
CN114154697A (zh) * | 2021-11-19 | 2022-03-08 | 中国建设银行股份有限公司 | 房屋维修资源的预测方法、装置、计算机设备和存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10430942B2 (en) * | 2013-10-01 | 2019-10-01 | University Of Kentucky Research Foundation | Image analysis for predicting body weight in humans |
US10068149B2 (en) * | 2013-12-27 | 2018-09-04 | Intel Corporation | Image processing utilizing reference images |
US10489707B2 (en) * | 2014-03-20 | 2019-11-26 | The Regents Of The University Of California | Unsupervised high-dimensional behavioral data classifier |
CN106055844B (zh) * | 2016-07-06 | 2019-02-12 | 中南大学 | 基于bp神经网络的镍基高温合金微观组织预测控制方法 |
CN110084627A (zh) * | 2018-01-23 | 2019-08-02 | 北京京东金融科技控股有限公司 | 预测目标变量的方法和装置 |
US10963743B2 (en) * | 2018-06-01 | 2021-03-30 | Accenture Global Solutions Limited | Machine learning with small data sets |
CN109272146B (zh) * | 2018-08-23 | 2021-10-19 | 河海大学 | 一种基于深度学习模型和bp神经网络校正的洪水预测方法 |
CN110009042A (zh) * | 2019-04-08 | 2019-07-12 | 中诚信征信有限公司 | 一种数据预测方法、装置、电子设备及存储介质 |
-
2019
- 2019-12-30 CN CN201911398390.1A patent/CN111160472B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111160472A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160472B (zh) | 对象的目标特征的预测方法、装置、存储介质与电子设备 | |
Ali et al. | A data-driven approach for multi-scale GIS-based building energy modeling for analysis, planning and support decision making | |
Babel et al. | A multivariate econometric approach for domestic water demand modeling: an application to Kathmandu, Nepal | |
Mimis et al. | Property valuation with artificial neural network: the case of Athens | |
Alfaro-Navarro et al. | A fully automated adjustment of ensemble methods in machine learning for modeling complex real estate systems | |
CN115409671B (zh) | 社区居民人口微观数据合成方法、装置、终端及存储介质 | |
Tomal | Analysing the coupling coordination degree of socio-economic-infrastructural development and its obstacles: The case study of Polish rural municipalities | |
CN112330077B (zh) | 电力负荷预测方法、装置、计算机设备和存储介质 | |
CN110807547A (zh) | 家庭人口结构的预测方法及系统 | |
CN115049159A (zh) | 人口分布预测方法和装置、存储介质及电子设备 | |
Mohammadi et al. | Artificial intelligence-based solution to estimate the spatial accuracy of volunteered geographic data | |
CN112288172A (zh) | 台区线损率的预测方法、装置 | |
CN116976702A (zh) | 基于大场景gis轻量化引擎的城市数字孪生平台及方法 | |
CN114897264A (zh) | 一种基于迁移学习的小样本场景下光伏出力区间预测方法 | |
Zhao et al. | LandSys II: Agent-based land use–forecast model with artificial neural networks and multiagent model | |
CN110633401A (zh) | 一种门店数据的预测模型及其建立方法 | |
Wu et al. | A BP Neural Network‐Based GIS‐Data‐Driven Automated Valuation Framework for Benchmark Land Price | |
CN116977091A (zh) | 个股投资组合的确定方法、装置、电子设备及可读存储介质 | |
Lin et al. | Evaluating the use of publicly available remotely sensed land cover data for areal interpolation | |
CN114881344A (zh) | 一种建筑能耗预测模型的训练方法、设备及介质 | |
CN114971090A (zh) | 一种电供暖负荷预测方法、系统、设备和介质 | |
CN114282657A (zh) | 一种市场数据长期预测模型训练方法、装置、设备及存储介质 | |
Kenny | Hydrographical flow modelling of the river Severn using particle swarm optimization | |
CN113496305A (zh) | 数据处理方法及装置 | |
WO2022156743A1 (zh) | 特征构建方法和装置、模型训练方法和装置、设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |