CN109325655A - 人群绩效特征预测中的缺失特征处理方法及装置 - Google Patents

人群绩效特征预测中的缺失特征处理方法及装置 Download PDF

Info

Publication number
CN109325655A
CN109325655A CN201810918521.3A CN201810918521A CN109325655A CN 109325655 A CN109325655 A CN 109325655A CN 201810918521 A CN201810918521 A CN 201810918521A CN 109325655 A CN109325655 A CN 109325655A
Authority
CN
China
Prior art keywords
feature
missing
crowd
training set
existing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810918521.3A
Other languages
English (en)
Inventor
金戈
徐亮
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810918521.3A priority Critical patent/CN109325655A/zh
Priority to PCT/CN2019/073294 priority patent/WO2020034593A1/zh
Publication of CN109325655A publication Critical patent/CN109325655A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明公开了一种人群绩效预测中的缺失特征处理方法及装置,涉及信息技术领域,主要目的在于能够避免缺失特征的填补存在偏差,避免经过训练得预测模型的预测结果与相应特征间的关联存在偏差,从而能够训练得预测模型的预测精度。所述方法包括:获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征;将所述缺失特征填补到所述人群绩效预测训练集中。本发明适用于人群绩效预测中的缺失特征的处理。

Description

人群绩效特征预测中的缺失特征处理方法及装置
技术领域
本发明涉及信息技术领域,尤其是涉及一种人群绩效特征预测中的缺失特征处理方法及装置。
背景技术
近年来,很多行业开始重视人群绩效,尤其是开始重视识别人群绩效等级,通过识别出目标人群并对目标人群进行奖励,能够大大促进企业整体效益的提升。目前通常可以通过训练人群绩效预测模型预测人群绩效等级,在训练预测模型时,训练集的数据量越大训练得到的预测模型预测精度越高。然而,在实际应用中,能够用来训练人群绩效等级预测模型的完整训练集较少,大部分情况下训练集会存在缺失特征。因此,为了提升预测模型的预测精度,通常需要填补或者补全缺失特征。
目前,通常采用传统填补方法,如特殊值插补、热卡插补等方式填补人群绩效预测训练集中的缺失特征。然而,上述填补方式的填补效果受限于特征分布状态,且缺失特征通常为非随机缺失特征、非随机缺失特征的缺失与否与特征本身存在关联。例如,在收入调查中,受访人群中高收入人群或者低收入人群都不会填写具体收入,因此收入水平的缺失与收入水平自身存在关联。若通过上述方式填补缺失特征,会造成缺失特征的填补存在偏差,从而造成,进而造成训练得预测模型的预测精度较低。
发明内容
本发明提供了一种人群绩效特征预测中的缺失特征处理方法及装置,主要在于能够避免缺失特征的填补存在偏差,避免经过训练得预测模型的预测结果与相应特征间的关联存在偏差,从而能够训练得预测模型的预测精度。
根据本发明的第一个方面,提供一种人群绩效预测中的缺失特征处理方法,包括:
获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;
根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值;
将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。
根据本发明的第二个方面,提供一种人群绩效预测中的缺失特征处理装置,包括
获取单元,用于获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;
估计单元,用于根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值;
填补单元,用于将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。
根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;
根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值;
将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。
根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;
根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值;
将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。
本发明提供的一种人群绩效特征预测中的缺失特征处理方法及装置,与目前通常采用传统填补方法,如特殊值插补、热卡插补等方式填补人群绩效预测训练集中的缺失特征相比,本发明能够获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;能够根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值。与此同时,能够将估计后的缺失特征对应的数值填补到所述人群绩效预测训练集中,从而能够实现基于缺失特征对应的预设混合高斯模型填补缺失数据,由于所述预设混合高斯模型是由所述缺失特征对应的多元高斯分布组成,因此能够保证填补后的缺失特征反映其分布状态且与本身相关,能够避免缺失特征的填补存在偏差,能够避免经过训练得预测模型的预测结果与相应特征间的关联存在偏差,进而能够提升训练得预测模型的预测精度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种人群绩效预测中的缺失特征处理方法流程图;
图2示出了本发明实施例提供的另一种人群绩效预测中的缺失特征处理方法流程图;
图3示出了本发明实施例提供的一种人群绩效预测中的缺失特征处理装置的结构示意图;
图4示出了本发明实施例提供的另一种人群绩效预测中的缺失特征处理装置的结构示意图;
图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如背景技术,目前,通常采用传统填补方法,如特殊值插补、热卡插补等方式填补人群绩效预测训练集中的缺失特征。然而,上述填补方式的填补效果受限于特征分布状态,且缺失特征通常为非随机缺失特征、非随机缺失特征的缺失与否与特征本身存在关联。例如,在收入调查中,受访人群中高收入人群或者低收入人群都不会填写具体收入,因此收入水平的缺失与收入水平自身存在关联。若通过上述方式填补缺失特征,会造成缺失特征的填补存在偏差,从而造成,进而造成训练得预测模型的预测精度较低。
为了解决上述问题,本发明实施例提供了一种人群绩效预测中的缺失特征处理方法,如图1所示,所述方法包括:
101、获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型。
其中,所述预设混合高斯模型可以由所述缺失特征对应的多元高斯分布组成。所述训练集可以包括人群绩效特征和人群绩效等级,本发明实施例中的缺失特征可以为人群绩效特征中的特征。所述人群绩效特征可以包括但不限于:月均学习课程数、工作地址经纬度、单月内互联网交易产品数、半年内互联网交易等级。例如,有100条训练样本,其中有40条训练样本中没有半年内互联网交易等级,则可以确认40条训练样本中的“半年内互联网交易等级”为缺失特征。已有特征可以为其中60条训练样本中的“月均学习课程数、工作地址经纬度、单月内互联网交易产品数、半年内互联网交易等级”和其中“40条训练样本中的“月均学习课程数、工作地址经纬度、单月内互联网交易产品数”。
需要说明的是,所述预设混合高斯模型的概率分布可以如下方式表示:
若本发明实施例中的缺失特征为“半年内互联网交易等级”,则所述多元高斯分布可以为多个半年内互联网交易等级的类别,根据上述公式,半年内互联网交易等级的类别具体可以为m个。
102、根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值。
其中,所述最大期望算法可以为一种迭代算法,可以包括极大似然估计计算和期望计算,所述极大似然估计计算和所述期望计算可以为迭代进行的。本发明实施例可以通过已有特征和极大似然估计计算迭代计算所述预设混合高斯模型的各元高斯分布的分布参数,然后通过期望计算和迭代计算出的分布参数,计算所述缺失特征属于各元高斯分布的概率,从而可以估计所述缺失特征所属的高斯分布,确定所述缺失特征对应的数值。
例如,若100条训练样本中有60条训练样本的特征完整,40条训练样本存在特征缺失,则可以根据60条训练样本中的已有特征和预设混合高斯模型估计出40条训练样本中的缺失特征,估计出缺失特征对应的数值后,通过将缺失特征对应的数值填补到所述人群绩效预测训练集,即可以得到特征完整的100条训练样本。
103、将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。
需要说明的是,可以根据已有特征的位置将所述缺失特征对应的数值填补到所述人群绩效预测训练集的相应位置上。例如,训练样本3为(月均学习课程数80,工作地址经纬度(123.435,41.819),单月内互联网交易产品100,),训练样本3中缺失特征为“半年内互联网交易等级”,在估计出训练样本3中的“半年内互联网交易等级”对应的数值为半年内互联网交易等级2时,可以根据“月均学习课程数80,工作地址经纬度(123.435,41.819),单月内互联网交易产品100”,将所述“半年内互联网交易等级2”填补到训练样本3中,得到(月均学习课程数80,工作地址经纬度(123.435,41.819),单月内互联网交易产品100,半年内互联网交易等级2)。
本发明实施例提供的一种人群绩效特征预测中的缺失特征处理方法,与目前通常采用传统填补方法,如特殊值插补、热卡插补等方式填补人群绩效预测训练集中的缺失特征相比,本发明实施例能够获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;能够根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征。与此同时,能够将估计后的缺失特征填补到所述人群绩效预测训练集中,从而能够实现基于缺失特征对应的预设混合高斯模型填补缺失数据,由于所述预设混合高斯模型是由所述缺失特征对应的多元高斯分布组成,因此能够保证填补后的缺失特征反映其分布状态且与本身相关,能够避免缺失特征的填补存在偏差,能够避免经过训练得预测模型的预测结果与相应特征间的关联存在偏差,进而能够提升训练得预测模型的预测精度。
进一步的,为了更好的说明上述人群绩效预测中的缺失特征的过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种人群绩效预测中的缺失特征处理方法,如图2所示,所述方法包括:
201、获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型。
其中,所述预设混合高斯模型可以由所述缺失特征对应的多元高斯分布组成。在本发明实施例中,所述已有特征可以以特征向量的形式存在,若“月均学习课程数、工作地址经纬度、单月内互联网交易产品数”三个维度的特征,唯一标定一个半年内互联网交易等级类别,则可以将“月均学习课程数、工作地址经纬度、单月内互联网交易产品数”以特征向量的形式表示。
对于本发明实施例,为了得到所述预设混合高斯模型,所述方法还可以包括:确定所述缺失特征对应的多元高斯分布;根据所述多元高斯分布构建所述预设混合高斯模型。
例如,所述缺失特征为“半年内互联网交易等级”,确定“半年内互联网交易等级”对应的多个类别,每个类别可以对应一元高斯分布,可以将“月均学习课程数、工作地址经纬度、单月内互联网交易产品数”作为观测样本向量,即可以以所述观测样本向量观测缺失特征的多元高斯分布,将半年内互联网交易等级划分为多个类别,然后根据观测样本向量所属类别的权重、对应的均值向量、协方差矩阵,构建所述半年内互联网交易等级对应的预设混合高斯模型。
202、根据所述已有特征和所述预设混合高斯模型的最大期望算法的极大似然估计计算,估计所述预设混合高斯模型的各元高斯分布的初始分布参数。
其中,所述分布参数可以包括混合系数、均值和协方差。若所述已有特征以特征向量形式存在,所述分布参数可以包括混合系数、均值向量和协方差矩阵,所述混合系数可以为属于对应高斯分布的样本数与总样本数的比值。所述训练集可以包括特征完整的第一训练集和含缺失特征的第二训练集,所述已有特征包括所述第一训练集中第一已有特征、第二已有特征和所述第二训练集中的第三已有特征,所述第一已有特征与所述第三已有特征相对应,所述第二已有特征与所述缺失特征相对应,所述步骤202具体可以包括:根据所述第一已有特征、所述第二已有特征和所述极大似然估计计算,估计所述预设混合高斯模型的各元高斯分布的初始混合系数、初始均值及初始协方差。
需要说明的是,极大似然估计计算可以包括:
计算第i元高斯分布的混合系数:
计算第i元高斯分布的均值:
计算第i元高斯分布的协方差:
γij可以表示为样本xj属于第i元高斯分布的概率。
例如,训练集为D={(x1,y1),(x2,y2),…,(xl,yl),xl+1,xl+2…,xn},特征完整的第一训练集可以为D1={(x1,y1),(x2,y2),…,(xl,yl)},含缺失特征的第二训练集可以为D2={xl+1,xl+2…,xn},所述第一训练集中第一已有特征可以为xj,j=1,…,l,第二已有特征可以为yi,i=1,…,l,所述第二训练集中的第三已有特征可以为xj,j=l+1,…,n,所述第二训练集中的缺失特征可以为yi,i=l+1,…,n;具体xj可以对应(月均学习课程数、工作地址经纬度、单月内互联网交易产品数),yi可以对应xj属于第i类的“半年内互联网交易等级”的概率γij,xj所属的类的概率值为1,其余类为0。因此,可以将第一已有特征“xj”和第二已有特征“γij”分别代入极大似然估计计算,计算各元高斯分布的初始混合系数、初始均值及初始协方差。
203、根据所述初始分布参数及所述最大期望算法的期望计算,初步估计所述缺失特征所属的高斯分布。
对于本发明实施例,与所述步骤202相对应的,所述步骤203具体可以包括:所述初始混合系数、初始均值、初始协方差、所述第三已有特征及所述期望计算,初步估计所述缺失特征所属的高斯分布。具体地,可以根据初始混合系数、初始均值、初始协方差、所述第三已有特征及所述期望计算,初步估计所述缺失特征属于各元高斯分布的概率;根据所述属于各元高斯分布的概率,初步估计所述缺失特征所属的高斯分布。
需要说明的是,期望计算可以包括:
其中,m可以为高斯分布的总元数。
例如,接着步骤202所述的例子,在计算出初始参数πi、μi、∑i后,可以将xj,j=l+1,…,n、πi、μi、∑i,分别代入到上述公式,分别计算“半年内互联网交易等级”属于各元高斯分布的概率,即属于各个“半年内互联网交易等级”类别的概率γij;可以将对应概率最高的高斯分布确定为“半年内互联网交易等级”的高斯分布。
204、根据所述已有特征、所述所属的高斯分布和所述极大似然估计计算,迭代更新所述各元高斯分布的分布参数,并迭代估计所述缺失特征所属的高斯分布。
需要说明的是,根据步骤204能够实现根据所有特征迭代更新所述各元高斯分布的分布参数,即极大似然估计计算中的上限值由l变为n:
计算第i元高斯分布的混合系数:
计算第i元高斯分布的均值:
计算第i元高斯分布的协方差:
205、当迭代更新的分布参数收敛时,获取根据收敛的分布参数和所述期望计算估计的高斯分布,并根据所述估计的高斯分布估计所述缺失特征对应的数值。
对于本发明实施例,为了确定更新的分布参数是否收敛,所述方法还可以包括:计算前后两次迭代更新的分布参数的参数差值;若所述参数差值小于预设阈值,则确定更新的分布参数收敛。
具体地,若分布参数为混合系数、均值、协方差,可以计算前后两次迭代更新的混合系数的差值;若所述混合系数差值小于预设混合系数阈值,则可以确定混合系数收敛。或者计算前后两次迭代更新的均值的差值;若所述均值差值小于预设均值阈值,则可以确定均值收敛。或者计算前后两次迭代更新的协方差的差值;若所述协方差差值小于预设协方差阈值,则可以确定协方差收敛。即在上述任何一个参数收敛时,可以停止迭代极大似然估计计算和期望计算,此时,根据最后一次迭代估计缺失特征所属的高斯分布,估计所述缺失特征。所述预设混合系数阈值、所述预设均值阈值和所述预设协方差阈值均可以为根据用户需求设置的,也可以为根据系统默认模式设置的,本发明实施例在此不进行限定。
206、将所述缺失特征对应的数值填补到所述人群绩效预测训练集中,并根据填补缺失特征对应的数值后的人群绩效预测训练集训练人群绩效预测模型。
需要说明的是,可以根据已有特征的位置,确定缺失特征对应的数值填补到所述人群绩效预测训练集中的位置,若填补缺失特征对应的数值之前的训练集为D={(x1,y1),(x2,y2),…,(xl,yl),xl+1,xl+2…,xn),则可以分别根据xl+1,xl+2…,xn的位置填补yl+1,yl+2…,yn,最后得到yl+1,yl+2…,yn缺失特征后的训练集可以为D={(x1,y1),(x2,y2),…,(xl,yl),(xl+1,yl+1),(xl+2,yl+1)…,(xn,yn)}。此外,在本发明实施例中,所述人群绩效预测模型可以为确定人群绩效等级的决策树模型或者逻辑回归模型等。具体地,若人群绩效预测模型为决策树模型,可以利用决策树算法对填补缺失特征后的人群绩效预测训练集进行训练,得到决策树模型。若人群绩效预测模型为逻辑回归模型模型,可以利用逻辑回归模型算法对填补缺失特征后的人群绩效预测训练集进行训练,得到逻辑回归模型模型。
为了更好的理解本发明实施例,提供如下应用场景,包括但不限定于此:假设人群绩效特征预测训练集有训练样本1:(月均学习课程数100,半年内互联网交易等级1),训练样本2(月均学习课程数50,半年内互联网交易等级2),训练样本3(月均学习课程数60,半年内互联网交易等级2),训练样本4(月均学习课程数80,),训练样本5(月均学习课程数70,),则缺失特征为训练样本4和训练样本5中的“半年内互联网交易等级”,半年内互联网交易等级有2个类别,分别为:半年内互联网交易等级1、半年内互联网交易等级2。
首先,可以将训练样本1、训练样本2、训练样本3中的“月均学习课程数”和“半年内互联网交易等级”分别代入到极大似然估计计算中得到初步估计的πi、μi、∑i、然后将训练样本4和训练样本5的“月均学习课程数”分别代入到期望计算中,计算训练样本4中的“半年内互联网交易等级”分别属于半年内互联网交易等级1的概率,属于半年内互联网交易等级2的概率,若属于半年内互联网交易等级1的概率大于属于半年内互联网交易等级2的概率,则可以确定训练样本4中的“半年内互联网交易等级”所属的类别为:半年内互联网交易等级1。同理地,可以计算训练样本5中的“半年内互联网交易等级”所属的类别为:半年内互联网交易等级1。
然后,可以将训练样本1、训练样本2、训练样本3、训练样本4和训练样本5的“月均学习课程数”和“半年内互联网交易等级”分别代入到极大似然估计计算中,迭代更新πi、μi、∑i,并根据更新的πi、μi、∑i和期望计算分别更新训练样本4和训练样本5中“半年内互联网交易等级”所属的类别,直到πi、μi、∑i收敛时,将估计的“半年内互联网交易等级”所属的类别确定为最后估计结果,如最终确定:训练样本4中的“半年内互联网交易等级”所属的类别为:半年内互联网交易等级1;训练样本5中的“半年内互联网交易等级”所属的类别为:半年内互联网交易等级2。
因此,补入缺失特征对应的数值后,得到的训练集可以为:训练样本1:(月均学习课程数100,半年内互联网交易等级1),训练样本2(月均学习课程数50,半年内互联网交易等级2),训练样本3(月均学习课程数60,半年内互联网交易等级2),训练样本4(月均学习课程数80,半年内互联网交易等级1),训练样本5(月均学习课程数70,半年内互联网交易等级2)。
本发明实施例提供的另一种人群绩效特征预测中的缺失特征处理方法,与目前通常采用传统填补方法,如特殊值插补、热卡插补等方式填补人群绩效预测训练集中的缺失特征相比,本发明实施例能够获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;能够根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征。与此同时,能够将估计后的缺失特征填补到所述人群绩效预测训练集中,从而能够实现基于缺失特征对应的预设混合高斯模型填补缺失数据,由于所述预设混合高斯模型是由所述缺失特征对应的多元高斯分布组成,因此能够保证填补后的缺失特征反映其分布状态且与本身相关,能够避免缺失特征的填补存在偏差,能够避免经过训练得预测模型的预测结果与相应特征间的关联存在偏差,进而能够提升训练得预测模型的预测精度。
进一步地,作为图1的具体实现,本发明实施例提供了一种人群绩效预测中的缺失特征处理装置,如图3所示,所述装置包括:获取单元31、估计单元32和填补单元33。
所述获取单元31,可以用于获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成。所述获取单元31是本装置中获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型的主要功能模块。
所述估计单元32,可以用于根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值。所述估计单元32是本装置中根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征的主要功能模块,也是核心模块。
所述填补单元33,可以用于将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。所述填补单元33是本装置中将所述缺失特征对应的数值填补到所述人群绩效预测训练集中的主要功能模块。
对于本发明实施例,所述最大期望算法可以包括极大似然估计计算和期望计算,所述估计单元32可以包括:估计模块321、更新模块322和获取模块323,如图4所示。
所述估计模块321,可以用于根据所述已有特征和所述极大似然估计计算,估计所述预设混合高斯模型的各元高斯分布的初始分布参数。
所述估计模块321,还可以用于根据所述初始分布参数及所述期望计算,初步估计所述缺失特征所属的高斯分布。
所述更新模块322,可以用于根据所述已有特征、所述所属的高斯分布和所述极大似然估计计算,迭代更新所述各元高斯分布的分布参数,并迭代更新所述缺失特征所属的高斯分布。
所述获取模块323,可以用于当迭代更新的分布参数收敛时,获取根据收敛的分布参数和所述期望计算估计的高斯分布。
所述估计模块321,还可以用于根据最后估计的高斯分布估计所述缺失特征对应的数值。
在具体应用场景中,所述估计模块321,具体可以用于根据所述初始分布参数、与所述缺失特征对应的已有特征及所述期望计算,初步估计所述缺失特征属于各元高斯分布的概率;并根据所述属于各元高斯分布的概率,初步估计所述缺失特征所属的高斯分布。
需要说明的是,所述训练集包括特征完整的第一训练集和含缺失特征的第二训练集,所述已有特征包括所述第一训练集中第一已有特征、第二已有特征和所述第二训练集中的第三已有特征,所述第一已有特征与所述第三已有特征相对应,所述第二已有特征与所述缺失特征相对应;所述估计模块321,具体可以用于根据所述第一已有特征、所述第二已有特征和所述极大似然估计计算,估计所述预设混合高斯模型的各元高斯分布的初始混合系数、初始均值及初始协方差。
所述估计模块321,具体还可以用于所述初始混合系数、初始均值、初始协方差、所述第三已有特征及所述期望计算,初步估计所述缺失特征所属的高斯分布。
对于本发明实施例,为了确定更新的分布参数是否收敛,所述估计单元32还可以包括:计算模块324和确定模块325。
所述计算模块324,可以用于计算前后两次迭代更新的分布参数的参数差值。
所述确定模块325,可以用于若所述参数差值小于预设阈值,则确定更新的分布参数收敛。
对于本发明实施例,为了获取缺失特征对应的预设混合高斯模型,所述装置还可以包括:确定单元34和构建单元35。
所述确定单元34,可以用于确定所述缺失特征对应的多元高斯分布。所述确定单元是本装置中确定所述缺失特征对应的多元高斯分布的主要功能模块。
所述构建单元35,可以用于根据所述多元高斯分布构建所述预设混合高斯模型。所述构建单元35是本装置中根据所述多元高斯分布构建所述预设混合高斯模型是的主要功能模块。
此外,为了得到人群绩效预测模型,所述装置还可以包括:训练单元36。
所述训练单元36,可以用于根据填补缺失特征后的人群绩效预测训练集训练人群绩效预测模型。所述训练单元36是本装置中根据填补缺失特征后的人群绩效预测训练集训练人群绩效预测模型的主要功能模块。
需要说明的是,本发明实施例提供的一种人群绩效预测中的缺失特征处理装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值;将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。
基于上述如图1所示方法和如图3所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图5所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值;将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。
通过本发明的技术方案,能够获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;能够根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值。与此同时,能够将估计后的缺失特征对应的数值填补到所述人群绩效预测训练集中,从而能够实现基于缺失特征对应的预设混合高斯模型填补缺失数据,由于所述预设混合高斯模型是由所述缺失特征对应的多元高斯分布组成,因此能够保证填补后的缺失特征反映其分布状态且与本身相关,能够避免缺失特征的填补存在偏差,能够避免经过训练得预测模型的预测结果与相应特征间的关联存在偏差,进而能够提升训练得预测模型的预测精度。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种人群绩效预测中的缺失特征处理方法,其特征在于,包括:
获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;
根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值;
将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。
2.根据权利要求1所述的方法,其特征在于,所述最大期望算法包括极大似然估计计算和期望计算,根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值,包括:
根据所述已有特征和所述极大似然估计计算,估计所述预设混合高斯模型的各元高斯分布的初始分布参数;
根据所述初始分布参数及所述期望计算,初步估计所述缺失特征所属的高斯分布;
根据所述已有特征、所述所属的高斯分布和所述极大似然估计计算,迭代更新所述各元高斯分布的分布参数,并迭代更新所述缺失特征所属的高斯分布;
当迭代更新的分布参数收敛时,获取根据收敛的分布参数和所述期望计算估计的高斯分布,并根据最后估计的高斯分布估计所述缺失特征对应的数值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述初始分布参数、与所述缺失特征对应的已有特征及所述期望计算,初步估计所述缺失特征所属的高斯分布,包括:
根据所述初始分布参数及所述期望计算,初步估计所述缺失特征属于各元高斯分布的概率;
根据所述属于各元高斯分布的概率,初步估计所述缺失特征所属的高斯分布。
4.根据权利要求2所述的方法,其特征在于,所述训练集包括特征完整的第一训练集和含缺失特征的第二训练集,所述已有特征包括所述第一训练集中第一已有特征、第二已有特征和所述第二训练集中的第三已有特征,所述第一已有特征与所述第三已有特征相对应,所述第二已有特征与所述缺失特征相对应;所述根据所述已有特征和所述极大似然估计计算,估计所述预设混合高斯模型的各元高斯分布的初始分布参数,包括:
根据所述第一已有特征、所述第二已有特征和所述极大似然估计计算,估计所述预设混合高斯模型的各元高斯分布的初始混合系数、初始均值及初始协方差;
所述根据所述初始分布参数及所述期望计算,初步估计所述缺失特征所属的高斯分布,包括:
所述初始混合系数、初始均值、初始协方差、所述第三已有特征及所述期望计算,初步估计所述缺失特征所属的高斯分布。
5.根据权利要求2所述的方法,其特征在于,所述当迭代更新的分布参数收敛时,获取根据收敛的分布参数和所述期望计算估计的高斯分布之前,所述方法还包括:
计算前后两次迭代更新的分布参数的参数差值;
若所述参数差值小于预设阈值,则确定更新的分布参数收敛。
6.根据权利要求1所述的方法,其特征在于,所述获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型之前,所述方法还包括:
确定所述缺失特征对应的多元高斯分布;
根据所述多元高斯分布构建所述预设混合高斯模型。
7.根据权利要求1所述的方法,其特征在于,所述方法将所述缺失特征填补到所述人群绩效预测训练集中之后,所述方法还包括:
根据填补缺失特征对应的数值后的人群绩效预测训练集训练人群绩效预测模型。
8.一种人群绩效预测中的缺失特征处理装置,其特征在于,包括:
获取单元,用于获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;
估计单元,用于根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值;
填补单元,用于将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201810918521.3A 2018-08-13 2018-08-13 人群绩效特征预测中的缺失特征处理方法及装置 Pending CN109325655A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810918521.3A CN109325655A (zh) 2018-08-13 2018-08-13 人群绩效特征预测中的缺失特征处理方法及装置
PCT/CN2019/073294 WO2020034593A1 (zh) 2018-08-13 2019-01-27 人群绩效特征预测中的缺失特征处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810918521.3A CN109325655A (zh) 2018-08-13 2018-08-13 人群绩效特征预测中的缺失特征处理方法及装置

Publications (1)

Publication Number Publication Date
CN109325655A true CN109325655A (zh) 2019-02-12

Family

ID=65264112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810918521.3A Pending CN109325655A (zh) 2018-08-13 2018-08-13 人群绩效特征预测中的缺失特征处理方法及装置

Country Status (2)

Country Link
CN (1) CN109325655A (zh)
WO (1) WO2020034593A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111429185A (zh) * 2020-03-27 2020-07-17 京东城市(北京)数字科技有限公司 人群画像预测方法、装置、设备及存储介质
WO2022179241A1 (zh) * 2021-02-24 2022-09-01 浙江师范大学 一种缺失条件下的高斯混合模型聚类机器学习方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906793B (zh) * 2021-02-22 2023-12-22 深圳市市政设计研究院有限公司 一种用于桥梁健康监测系统的监测数据修补方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493886A (zh) * 2009-02-24 2009-07-29 武汉兰丁医学高科技有限公司 特征参数不完整情况下的细胞核分类与识别方法
CN104573685A (zh) * 2015-01-29 2015-04-29 中南大学 一种基于线性结构提取的自然场景文本检测方法
US20160180234A1 (en) * 2014-12-23 2016-06-23 InsideSales.com, Inc. Using machine learning to predict performance of an individual in a role based on characteristics of the individual

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989843A (zh) * 2015-01-28 2016-10-05 中兴通讯股份有限公司 一种实现缺失特征重建的方法和装置
CN107193876B (zh) * 2017-04-21 2020-10-09 美林数据技术股份有限公司 一种基于最近邻knn算法的缺失数据填补方法
CN107842713B (zh) * 2017-11-03 2019-04-05 东北大学 基于knn-svr的海底管道漏磁数据缺失插补方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493886A (zh) * 2009-02-24 2009-07-29 武汉兰丁医学高科技有限公司 特征参数不完整情况下的细胞核分类与识别方法
US20160180234A1 (en) * 2014-12-23 2016-06-23 InsideSales.com, Inc. Using machine learning to predict performance of an individual in a role based on characteristics of the individual
CN104573685A (zh) * 2015-01-29 2015-04-29 中南大学 一种基于线性结构提取的自然场景文本检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李顺静: ""基于EM算法的缺失数据的统计分析及应用"", 中国优秀硕士论文全文数据库社会科学Ⅱ辑 *
管涛: ""高斯混合模型、求解算法及视觉应用综述"", 中国图象图形学报 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111429185A (zh) * 2020-03-27 2020-07-17 京东城市(北京)数字科技有限公司 人群画像预测方法、装置、设备及存储介质
CN111429185B (zh) * 2020-03-27 2023-06-02 京东城市(北京)数字科技有限公司 人群画像预测方法、装置、设备及存储介质
WO2022179241A1 (zh) * 2021-02-24 2022-09-01 浙江师范大学 一种缺失条件下的高斯混合模型聚类机器学习方法

Also Published As

Publication number Publication date
WO2020034593A1 (zh) 2020-02-20

Similar Documents

Publication Publication Date Title
US8250007B2 (en) Method of generating precedence-preserving crossover and mutation operations in genetic algorithms
CN109325655A (zh) 人群绩效特征预测中的缺失特征处理方法及装置
CN108989122B (zh) 虚拟网络请求映射方法、装置及实现装置
CN110058936A (zh) 用于确定专用处理资源的资源量的方法、设备和计算机程序产品
US9183506B2 (en) Performing what-if analysis
WO2005010700A2 (en) System and method for representing and incorporating available information into uncertainty-based forecasts
Kamar et al. Lifelong learning for acquiring the wisdom of the crowd.
JP7078799B2 (ja) 当事者間の戦略的対話における戦略探索のためのサンプリング方式
CN109064212A (zh) 商品价格预测方法及装置
CN109063870B (zh) 基于q学习的组合服务策略优化方法及系统
Kumar et al. Learning and optimizing through dynamic pricing
Loucks et al. An introduction to probability, statistics, and uncertainty
CN106156857B (zh) 变分推理的数据初始化的方法和装置
Cavalli et al. Complex dynamics and multistability with increasing rationality in market games
Yan et al. A new family of error distributions for Bayesian quantile regression
Greiner Public debt, productive public spending and endogenous growth
CN117252307B (zh) 流量预测方法、装置、计算机设备和存储介质
US9082090B2 (en) System, method, and computer program product for resource collaboration optimization
CN112001786A (zh) 基于知识图谱的客户信用卡额度配置方法及装置
Nakajima et al. Bayesian modeling of dynamic extreme values: Extension of generalized extreme value distributions with latent stochastic processes
Schiegl A model study about the applicability of the chain ladder method
Miller et al. Towards the development of numerical procedure for control of connected Markov chains
CN114862065B (zh) 社工任务规划方法、装置、电子设备及存储介质
CN111767991A (zh) 一种基于深度q学习的测控资源调度方法
CN103700097B (zh) 一种背景分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination