CN109564641B - 数据填补方法和装置 - Google Patents
数据填补方法和装置 Download PDFInfo
- Publication number
- CN109564641B CN109564641B CN201780039488.0A CN201780039488A CN109564641B CN 109564641 B CN109564641 B CN 109564641B CN 201780039488 A CN201780039488 A CN 201780039488A CN 109564641 B CN109564641 B CN 109564641B
- Authority
- CN
- China
- Prior art keywords
- data
- filling
- missing
- value
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N99/00—Subject matter not provided for in other groups of this subclass
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
一种数据填补方法和装置,该方法可以包括:获取样本数据与目标函数,其中,所述样本数据包括工资收入、工作时间和还款记录中的至少一个参数对应的数据,所述目标函数以所述至少一个参数为自变量,所述目标函数的输出目标变量为用户的逾期概率;根据所述目标函数中包含的所述自变量遍历所述样本数据,得到遍历结果;根据所述遍历结果,计算所述自变量对应的数据缺失率;依据所述数据缺失率所属的缺失率区间,采取相应的数据填补方式,对所述自变量对应的样本数据进行缺失值的填补,其中,不同的缺失率区间对应不同的数据填补方式,所述数据填补方式包括标签分组填补、贝塔BETA分布填补、随机抽取填补、逻辑回归填补以及均值填补中至少两种。
Description
技术领域
本公开涉及数据处理技术领域,例如涉及一种数据填补方法和装置。
背景技术
在大数据环境中,由于数据来源和数据产生方法的多样化,在很多数据应用场景中可能会出现数据的数值缺失的情况,而缺失的数据可能携带有用的或者关键的信息,若未对缺失的数值进行恰当的处理,则存在数值缺失的数据可能对后续模型的构建,如对逻辑回归和神经网络等模型的构建产生影响降低机器学习模型的训练效果。
在电子商务领域,对用户的信用评价时,通常采用相应的机器学习模型计算用户的逾期概率,进而对用户的信用进行评价,若进行机器训练时的用户样本数据存在数据缺失,则可能使得训练得到机器学习模型无法准确地计算用户的逾期概率,导致无法为用户提供匹配度较高的服务,如调整用户的信用额度,相关技术中,通常采用人工填补的方式对缺失的数值进行填补,工作量大、效率低,并且依赖于人的经验,无法保证所填补数据的有效性。
发明内容
本公开提供了一种数据填补方法和装置,可以实现提高数据填补的效率。本实施例提供了一种数据填补方法,可以包括:
获取样本数据与目标函数,其中,所述样本数据包括工资收入、工作时间和还款记录中的至少一个参数对应的数据,所述目标函数以所述至少一个参数为自变量,所述目标函数的输出目标变量为用户的逾期概率;
根据所述目标函数中包含的所述自变量遍历所述样本数据,得到遍历结果;
根据所述遍历结果,计算所述自变量对应的数据缺失率;
依据所述数据缺失率所属的缺失率区间,采取相应的数据填补方式,对所述自变量对应的样本数据进行缺失值的填补,其中,不同的缺失率区间对应不同的数据填补方式,所述数据填补方式包括标签分组填补、贝塔BETA分布填补、随机抽取填补、逻辑回归填补以及均值填补中至少两种。本实施例还提供了一种数据填补装置,可以包括:
获取模块,设置为获取样本数据和目标函数,其中,所述样本数据包括工资收入、工作时间和还款记录中的至少一个参数对应的数据,所述目标函数以所述至少一个参数为自变量,所述目标函数的输出目标变量为用户的逾期概率;
缺失率计算模块,设置为根据所述目标函数中包含的所述自变量遍历所述样本数据,得到遍历结果;根据所述遍历结果,计算所述自变量对应的数据缺失率;
数据填补模块,设置为依据所述数据缺失率所属的缺失率区间,采取相应的数据填补方式,对所述自变量对应的样本数据进行缺失值的填补,其中,不同的缺失率区间对应不同的数据填补方式,所述数据填补方式包括标签分组填补、贝塔BETA分布填补、随机抽取填补、逻辑回归填补以及均值填补中至少两种。
本实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任意一种方法。
本实施例还提供一种数据处理设备,该数据处理设备包括一个或多个处理器、存储器以及一个或多个程序,所述一个或多个程序存储在存储器中,当被一个或多个处理器执行时,执行上述任意一种方法。
本实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任意一种方法。
本实施例能够提高了数据缺失值的填补效率,并能够保证数据填补的有效性,使得通过填补后的数据在进行建模或机器学习等计算,例如通过机器学习模型计算用户的信用逾期概率时,能够提高逾期概率计算结果的准确性,进而为用户提供匹配度较高的服务。
附图说明
图1是一实施例提供的一种数据填补方法的流程图;
图2是一实施例提供的另一种数据填补方法的流程图;
图3A是一实施例提供的另一种数据填补方法的流程图;
图3B是一实施例提供的不同参数值α和β对应的BETA分布曲线图;
图4是一实施例提供的另一种数据填补方法的流程图;
图5是一实施例提供的一种数据缺失值填补装置的结构框图;
图6为一实施例提供的数据处理设备的硬件结构示意图。
具体实施方式
图1是本实施例提供的一种数据填补方法的流程图,本实施例可适用于对缺失数据进行填补的情况,该方法可以由计算设备如计算机来执行,该方法可由数据填补装置执行,数据填补装置可采用软件和硬件中的至少一种方式实现,如图1所示,本实施例提供的方法可以包括以下步骤:
在步骤110中,获取样本数据与目标函数,其中,所述样本数据包括工资收入、工作时间和还款记录中的至少一个参数对应的数据,所述目标函数以所述至少一个参数为自变量,所述目标函数的输出目标变量为用户的逾期概率。
其中,样本数据也可以叫做原始数据,目标函数可以包括逻辑回归模型函数和神经网络模型函数等,逻辑函数输出的目标变量可以为用户的还款逾期概率,简称逾期概率,原始数据可以为预测用户逾期概率的样本数据,例如,样本数据可以包括用户的工资收入、工作年限和用户的还款记录等信息,样本数据可以称作自变量。缺失的数据可称作缺失值,缺失值表示获取到的原始数据(如大数据)中缺失的部分数据的数据内容。原始数据中存在缺失值可能导致使用对应的目标函数进行建模或学习训练时,使得模型的建立产生偏差,以及学习训练效果不理想。
其中,缺失值的产生原因可以是机械原因(如数据采集或保存过程中造成的数据丢失)或者人为原因(如工作人员的主观失误或历史局限等)。根据缺失值的分布,可将缺失值分为完全随机性缺失(指数据的缺失是随机的,数据的缺失不依赖于任何不完全变量或完全变量)、随机缺失(指数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量)和完全非随机缺失(指数据的缺失依赖于不完全变量自身)。根据缺失值的属性,可将缺失值分类为单值缺失(缺失值的属性相同)和任意缺失(缺失值的属性不同)。
在步骤120中,根据所述目标函数中包含的所述自变量遍历所述样本数据,得到遍历结果;根据所述遍历结果,计算所述自变量对应的数据缺失率。
可通过代码程序确定原始数据中的数据缺失率。例如,逻辑回归模型函数包括7个自变量,每个自变量包含多个数据,通过程序依次读取这些数据,当返回值为空时表示该数据缺失,缺失数据的数量加1,依次遍历所有数据后,可统计出原始数据的数据缺失率。
例如,样本数据中包括100个用户的信息,有70个人的工资信息,其余30人的工资信息缺失,工资信息这个自变量对应的数据缺失率则为30%,需要填补这30个人的工资信息。
在步骤130中,依据所述数据缺失率所属的缺失率区间,采取相应的数据填补方式,对所述自变量对应的样本数据进行缺失值的填补,其中,不同的缺失率区间对应不同的数据填补方式,所述数据填补方式包括标签分组填补、贝塔BETA分布填补、随机抽取填补、逻辑回归填补以及均值填补中至少两种。
可以根据步骤120确定的数据缺失率自动采取相应的数据填补方式完成数据缺失信息的填补。目标函数可以为计算用户预期概率的函数,根据目标函数中涉及的变量,如用户的工资收入、工作年限和用户的还款记录等变量信息,遍历包含用户信息的原始数据,根据每一个变量的遍历结果,计算出该变量的数据缺失率,根据数据缺失率采取响应的数据填补方式,对该变量中缺失的样本数据进行填补,以保证样本数据的完整性。
可选地,当数据缺失率较高,如达到99%以上时,可发出数据异常警报,警报内容可以是“建议人工检测”,或者直接对此部分原始数据进行弃用;当数据缺失率较低,即大部分数据都是完整的仅有小部分数据缺失,如数据缺失率小于5%,则可以采用逻辑回归填补的方式进行数据填补;当数据缺失率在(70%,99%]区间时,可以采用标签分组填补的方式进行缺失值填补,当缺失率在(5%,70%]区间时,可采用BETA分布填补的方式进行缺失值填补。
在本实施例中,对原始数据进行了合理保留,避免了由于数据内容因一个或一部分变量的缺失而被完全删除导致的数据量下降的问题,根据不同的数据缺失率采取不同的数据填补方式,在保留缺失值部分原有的信息和属性的情况下,减少对无缺失值部分数据的分布和属性的破坏,能够自动进行数据填补,提高数据填补效率,并减轻了人工负担。
相关技术中,可采用删除数据记录、均值填补或人工填补的方式进行数据缺失值的填补。采用删除数据记录的方式时,在样本量较少,训练模型的数据不足时会严重影响模型的总体训练的效果;若采用均值填补的方式,则在数据缺失率较高的情况下,会严重影响原有非缺失值的分布状态,导致原非缺失值分布聚集在某个点上,针对非随机性的缺失,填补以后,将会隐藏缺失值涵盖的信息;人工填补的方式的缺陷在于,在数据量大的大数据环境中,人工填补工作量大、效率低,且很大程度上依赖于人的经验,不适合机器学习环境。
本实施例提供了一种数据填补方法,通过获取存在数据缺失的原始数据以及目标函数,确定所述样本数据的数据缺失率,依据所述数据缺失率的大小采取相应的数据填补方式进行数据缺失值的填补,所述数据填补方式包括标签分组填补、BETA分布填补、随机抽取填补、逻辑回归填补以及均值填补中至少一种,提高了数据缺失值的填补效率,并能够保证数据填补的有效性,使得通过填补后的数据在进行建模或机器学习等计算,例如通过机器学习模型计算用户的信用逾期概率时,能够提高逾期概率计算结果的准确性,进而为用户提供匹配度较高的服务。
图2是本实施例提供的另一种数据填补方法的流程图,如图2所示,该方法可以包括如下步骤:
在步骤210中,获取样本数据与目标函数。
其中,所述样本数据包括工资收入、工作时间和还款记录中的至少一个参数对应的数据,所述目标函数以所述至少一个参数为自变量,所述目标函数的输出目标变量为用户的逾期概率。
在步骤220中,根据所述目标函数中包含的所述自变量遍历所述样本数据,得到遍历结果;根据所述遍历结果,计算所述自变量对应的数据缺失率。
在步骤230中,当所述数据缺失率大于70%且小于99%时,则采用标签分组填补的方式对所述自变量对应的样本数据进行缺失值填补。
数据缺失率大于70%且小于99%属于数据严重缺失的情况,当数据缺失严重时,利用标签分组填补方式,可以提高数据的填补效率。
例如,可以采用分两组打标记(1/0)的方式进行数据的标记填补,如表1所示:
表1
用户编号 | X1 | X11 |
001 | . | 1 |
002 | 0.9 | 0 |
003 | 0.8 | 0 |
004 | . | 1 |
对变量X1而言,用户编号为001和004的用户的数据存在缺失,则可以相应的增添一个对应的哑变量(X11),并在X11中将001用户和004用户赋值为1,用户002和用户003的X1变量值非缺失,则在X11中将用户002和用户003均赋值为0,完成缺失值的填补。可选地,可直接将缺失率较高(如缺失率大于99%)的变量直接删除。
本实施例提供的数据填补方法,如果所述数据缺失率大于70%且小于99%,则采用标签分组填补的方式进行数据缺失值填补,即在数据缺失率较高的情况下使用标签分组填补方式,提高了数据填补效率。
图3A是本实施例提供的另一种数据填补方法的流程图,如图3A所示,本实施例提供的方法可以包括如下步骤:
在步骤310中,获取样本数据与目标函数。
其中,所述样本数据包括工资收入、工作时间和还款记录中的至少一个参数对应的数据,所述目标函数以所述至少一个参数为自变量,所述目标函数的输出目标变量为用户的逾期概率。
在步骤320中,根据所述目标函数中包含的所述自变量遍历所述样本数据,得到遍历结果;根据所述遍历结果,计算所述自变量对应的数据缺失率。
在步骤330中,当所述数据缺失率大于5%且小于等于70%时,判断所述样本数据中缺失值对应的目标变量与非缺失值对应的目标变量是否有显著差异,如果否则执行步骤340,如果是则执行步骤350。
相关性是指变量与目标变量的单调关系(monotonic relationships),可使用spearman相关函数进行相关性判断,spearman为非参数统计方法,不依赖于变量的分布,即不论非缺失值是正态分布还是非正态分布,均可求得非缺失值与目标函数的关联程度与方向。根据变量与目标变量的单调相关程度,计算斯皮尔曼等级相关系数(Spearman's rankcorrelation coefficient),简称Spearman系数,Spearman系数可以反映非缺失值(即上述变量)与目标变量的相关程度,越接近1或-1,则相关程度越大,其中Spearman系数为正表示正相关,为负表示负相关。
可以设定Spearman系数的阈值范围,当变量与目标变量Spearman系数满足设定的阈值范围,则为显著相关,当变量与目标变量Spearman系数不满足设定的阈值范围,则为非显著相关。
在步骤340中,在所述非缺失值中随机抽取数据对所述自变量对应的样本数据进行缺失值的填补。
当判断得出原始数据中非缺失值与目标变量非显著相关的情况下,则采取在非缺失值中随机抽取数据进行填补。
在步骤350中,判断所述非缺失值与目标变量是否显著相关,如果是则执行步骤360,如果否则执行步骤370。
如果原始数据中非缺失值与目标变量显著相关,则判断非缺失值是否与因变量显著相关。可以通过非缺失值以及目标变量建立单变量回归模型,如:Y=β0+β1X,Y表示目标变量,X标识非缺失值,根据该公式可计算得到β0和β1的数值,其中,若β1为0,则表示非缺失值和因变量无关,若β1不为0则意味着非缺失值和目标变量相关。
在步骤360中,根据相关方向和差异程度构建左偏或右偏的BETA分布,利用所述BETA分布对所述自变量对应的样本数据进行缺失值的填补。
其中,差异程度是指缺失值对应的目标变量与非缺失值对应的目标变量的差异程度,可以根据方差分析来判断该差异程度,例如,将有工资信息的多个用户的预期概率和没有工资信息的多个用户的逾期概率分别进行方差计算,根据方差计算结果判断上述差异程度。
例如,可通过调整BETA分布中的参数α和β形成左偏或右偏的分布,即在非缺失值的取值范围内构建左偏或右偏的BETA分布。
可选地,在非缺失值分布的极端部分,可采用随机分散的方法进行缺失值的填补。其中,上述极端部分可以理解为非缺失值中的最大值或最小值所在的数据范围。
其中,BETA分布的偏向与变量的缺失值部分、非缺失部分以及目标变量相关。BETA分布的偏度大小由缺失值部分与目标变量的相关性决定,例如,相关程度越大,BEAT分布左偏或右偏的偏度越大,用以填补缺失值的随机生成的值为极端值的可能性越高,其中极端值可以理解为最大值或最小值,或者包含最大值或最小值的数据范围内的值。
例如,BETA分布的平均值AVG=α/(α+β),BETA分布的方差VAR=α*β/((α+β)^2*(α+β+1)),由此推导出(其中r为中间变量):
r=(AVG*(1-AVG)/VAR)-1
α=AVG*r
β=(1-AVG)*r
即α和β是共同决定BETA分布形态的参数,其中当β>α时,缺失值取小值的可能性大,即分布形态右偏,其中当β<α时,缺失值取大值的可能性大,即分布形态左偏,进而BETA分布的形状取决于AVG,由此可知,当AVG在非缺失值中的最小值MIN和中间值P50之间时,BETA分布取值大的可能性大,即左偏;当AVG在非缺失值中的中间值P50和最大值MAX之间时,BETA分布取值小的可能性大,即右偏。示例性的,不同α和β值对应的BETA分布曲线如图3B所示,图3B是本实施例提供的不同参数值α和β对应的BETA分布曲线图。
在本实施例中,可以采用依据缺失值、非缺失值与目标变量的相关度ρ,非缺失值中的P50、MAX和MIN来共同决定缺失值对应的估计值分布中的α和β,进而确定出BETA分布的形状。通过非缺失值中的P50、MAX和MIN构造出新平均值New_AVG,通过New_AVG以及非缺失值部分的VAR共同计算得到α和β,其中New_AVG的计算方式如下:
当缺失值取小值的可能性较大(即分布右偏时):
New_AVG=(MAX–P50)*|ρ|+P50;
当缺失值取大值的可能性较大(即分布左偏时):
New_AVG=P50-(P50-MIN)*|ρ|。
在步骤370中,采用标签分组填补方式对所述自变量对应的样本数据进行缺失值的填补。
本实施例提供了一种数据填补方法,提高了数据缺失值的填补效率,并能够保证数据填补的有效性,使得填补完毕的数据在进行建模或机器学习等计算,例如通过机器学习模型计算用户的信用逾期概率时,能够提高逾期概率计算结果的准确性,进而为用户提供匹配度较高的服务。
图4是本实施例提供的另一种数据填补方法的流程图,如图4所示,本实施例提供的方法可以包括如下步骤:
在步骤410中,获取样本数据与目标函数。
其中,所述样本数据包括工资收入、工作时间和还款记录中的至少一个参数对应的数据,所述目标函数以所述至少一个参数为自变量,所述目标函数的输出目标变量为用户的逾期概率。
在步骤420中,根据所述目标函数中包含的所述自变量遍历所述样本数据,得到遍历结果;根据所述遍历结果,计算所述自变量对应的数据缺失率。
在步骤430中,当所述数据缺失率小于等于5%时,则判断所述样本数据中的非缺失值与目标变量是否显著相关,如果否则执行步骤440,如果是则执行步骤450。
在步骤440中,采用均值填补的方式对所述自变量对应的样本数据进行缺失值的填补。
其中,均值填补指对变量中非缺失的部分计算均值,将该均值填补入缺失值部分。可选地,均值也可用中位数或众数代替。
在步骤450中,采用逻辑回归填补的方式对所述自变量对应的样本数据进行缺失值的填补。
例如,通过非缺失值以及目标变量建立单变量回归模型,即通过非缺失值X与目标变量Y(逻辑回归中的log(P/1-P))建立单变量逻辑回归模型,计算得到β0(Intercept)和β1(Estimate),然后根据缺失部分的目标变量Y(Y在缺失部分的平均值)和上一步得出的β0与β1,推出缺失值的估计值1X=(Y-β0)/β1,将该1X值作为缺失值进行填充。
本实施例提供了一种数据填补方法,提高了数据缺失值的填补效率,使得填补完毕的数据在进行建模或机器学习等计算时,得到的结果更精准。
在上述内容的基础上,在依据所述数据缺失率的大小采取相应的数据填补方式进行数据缺失值的填补之后,还包括:计算原始数据中变量的权重值,依据所述权重值以及填补的数据,确定根据数据缺失值填补后的数据进行后续计算的结果的信任指数。
通过本公开提供的数据填补方法对原始数据中的缺失值进行填补的过程中,被填补的缺失值会被相应的进行数据记录,当后续相关的计算模型根据填补后的数据进行计算产生了预测结果后,可给出该结果的信任指数。
例如,一个逻辑回归模型存在7个自变量X1-X7,其中每个自变量的权重值(重要程度百分比)可通过沃尔德统计量(Wald ChiSq)间接估算得出。可选地,信任指数可以是未缺失的各个自变量的权重值之和,统计过程和统计结果如表2所示:
表2
可选地,在将得到的填补后的数据送入机器学习之前,可根据信任指数的高低确定是否抛弃该数据。
可选地,将信任指数大于60%的填补后的数据进行机器学习以提高学习效率同时得到更佳的学习结果。
图5是本实施例提供的一种数据缺失值填补装置的结构框图,该装置可执行上述实施例提供的数据填补方法,具备执行方法相应的功能模块和有益效果。如图5所示,该装置具体可以包括:获取模块501、缺失率计算模块502和数据填补模块503。
其中,获取模块501,设置为获取样本数据和目标函数,其中,所述样本数据包括工资收入、工作时间和还款记录中的至少一个参数对应的数据,所述目标函数以所述至少一个参数为自变量,所述目标函数的输出目标变量为用户的逾期概率。
缺失率计算模块502,设置为根据所述目标函数中包含的所述自变量遍历所述样本数据,得到遍历结果;根据所述遍历结果,计算所述自变量对应的数据缺失率。
数据填补模块503,设置为依据所述数据缺失率所属的缺失率区间,采取相应的数据填补方式,对所述自变量对应的样本数据进行缺失值的填补,其中,不同的缺失率区间对应不同的数据填补方式,所述数据填补方式包括标签分组填补、贝塔BETA分布填补、随机抽取填补、逻辑回归填补以及均值填补中至少两种。
在本实施例中,通过获取存在数据缺失的原始数据以及目标函数,确定所述原始数据的数据缺失率,依据所述数据缺失率的大小采取相应的数据填补方式进行数据缺失值的填补,所述数据填补方式包括标签分组填补、BETA分布填补、随机抽取填补、逻辑回归填补以及均值填补中至少一种,提高了数据缺失值的填补效率,并能够保证数据填补的有效性,使得填补完毕的数据在进行建模或机器学习等计算,例如通过机器学习模型计算用户的信用逾期概率时,能够提高逾期概率计算结果的准确性,进而为用户提供匹配度较高的服务。
可选地,所述数据填补模块503是设置为:如果所述数据缺失率大于70%且小于99%,则采用标签分组填补的方式进行数据缺失值填补。
可选地,所述数据填补模块503是设置为:如果所述数据缺失率大于5%且小于等于70%,判断所述样本数据中缺失值对应的目标变量与非缺失值对应的目标变量是否有显著差异;当所述样本数据中缺失值对应的目标变量与非缺失值对应的目标变量无显著差异时,则在所述非缺失值中随机抽取数据对所述自变量对应的样本数据进行缺失值的填补。
可选地,所述数据填补模块503还设置为:当所述样本数据中缺失值对应的目标变量与非缺失值对应的目标变量有显著差异时,判断所述非缺失值与目标变量是否显著相关;当所述非缺失值与目标变量显著相关时,根据相关方向和差异程度构建左偏或右偏的BETA分布,利用所述BETA分布对所述自变量对应的样本数据进行缺失值的填补。如果所述非缺失值与目标变量非显著相关,则采用标签分组填补方对所述自变量对应的样本数据进行缺失值填补。
可选地,所述数据填补模块503是设置为:如果所述数据缺失率小于5%,则判断样本数据中的非缺失值与目标变量是否显著相关;如果所述样本数据中的非缺失值与目标变量非显著相关,则采用均值填补的方式对所述自变量对应的样本数据进行缺失值填补,如果所述样本数据中非缺失值与目标变量显著相关,则采用逻辑回归填补的方式对所述自变量对应的样本数据进行缺失值填补。
可选地,所述装置还可以包括填补结果评价模块,设置为在依据所述数据缺失率所属的缺失率区间,采取相应的数据填补方式,对所述自变量对应的样本数据进行缺失值的填补之后,计算所述目标函数中的自变量的权重值,依据所述权重值以及填补的数据,确定根据数据缺失值填补后的数据进行后续计算的结果的信任指数。也即采用填补后的数据对用户进行信用预期概率计算时,对计算结果的准确性进行评估。
本实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种数据填补方法,该方法包括:
获取样本数据与目标函数,其中,所述样本数据包括工资收入、工作时间和还款记录中的至少一个参数对应的数据,所述目标函数以所述至少一个参数为自变量,所述目标函数的输出目标变量为用户的逾期概率;
根据所述目标函数中包含的所述自变量遍历所述样本数据,得到遍历结果;
根据所述遍历结果,计算所述自变量对应的数据缺失率;
依据所述数据缺失率所属的缺失率区间,采取相应的数据填补方式,对所述自变量对应的样本数据进行缺失值的填补,其中,不同的缺失率区间对应不同的数据填补方式,所述数据填补方式包括标签分组填补、贝塔BETA分布填补、随机抽取填补、逻辑回归填补以及均值填补中至少两种。
该计算机可执行指令在由计算机处理器执行时还可以执行上述实施例提供的任意一种数据填补方法,可以参考上述实施例所提供的方法的流程。
本实施例还提供一种数据处理设备,该数据处理设备可以为填补器,如图6所示,是本实施例提供的一种数据处理设备的硬件结构示意图,该数据处理设备可以包括:处理器(processor)610和存储器(memory)620;还可以包括通信接口(CommunicationsInterface)630和总线640。
其中,处理器610、存储器620和通信接口630可以通过总线640完成相互间的通信。通信接口630可以用于信息传输。处理器610可以调用存储器620中的逻辑指令,以执行上述实施例的任意一种方法。
存储器620可以包括存储程序区和存储数据区,存储程序区可以存储操作系统和至少一个功能所需的应用程序。存储数据区可以存储根据数据处理设备的使用所创建的数据等。此外,存储器可以包括,例如,随机存取存储器的易失性存储器,还可以包括非易失性存储器。例如至少一个磁盘存储器件、闪存器件或者其他非暂态固态存储器件。
此外,在上述存储器620中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,该逻辑指令可以存储在一个计算机可读取存储介质中。本公开的技术方案可以以计算机软件产品的形式体现出来,该计算机软件产品可以存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本实施例所述方法的全部或部分步骤。
上述实施例方法中的全部或部分流程,是可以通过计算机程序来指示相关的硬件完成的,该程序可存储于一个非暂态计算机可读存储介质中,该程序被执行时,可包括如上述方法的实施例的流程。
上述存储介质可以是多种类型的存储器设备或存储设备,可以包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或相似类型的存储器元件等。存储介质可以还包括多种类型的存储器或存储器的组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。存储介质还可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令如计算机程序。
工业实用性
本公开提供一种数据填补方法和装置,可以提高数据缺失值的填补效率,并能够保证数据填补的有效性,使得通过填补后的数据进行建模或机器学习等计算,例如通过机器学习模型计算用户的信用逾期概率时,能够提高逾期概率计算结果的准确性,进而为用户提供匹配度较高的服务。
Claims (16)
1.一种数据填补方法,包括:
获取样本数据与目标函数,其中,所述样本数据包括工资收入、工作时间和还款记录中的至少一个参数对应的数据,所述目标函数以所述至少一个参数为自变量,所述目标函数的输出目标变量为用户的逾期概率;
根据所述目标函数中包含的所述自变量遍历所述样本数据,得到遍历结果;
根据所述遍历结果,计算所述自变量对应的数据缺失率;
依据所述数据缺失率所属的缺失率区间,采取相应的数据填补方式,对所述自变量对应的样本数据进行缺失值的填补,其中,不同的缺失率区间对应不同的数据填补方式,所述数据填补方式包括标签分组填补、贝塔BETA分布填补、随机抽取填补、逻辑回归填补以及均值填补中至少两种。
2.根据权利要求1所述的方法,其中,依据所述数据缺失率所属的缺失率区间采取相应的数据填补方式,对所述自变量对应的样本数据进行缺失值的填补,包括:
当所述数据缺失率大于70%且小于99%时,则采用标签分组填补的方式对所述自变量对应的样本数据进行缺失值填补。
3.根据权利要求1所述的方法,其中,依据所述数据缺失率所属的缺失率区间采取相应的数据填补方式,对所述自变量对应的样本数据进行缺失值的填补,包括:
当所述数据缺失率大于5%且小于等于70%时,判断所述样本数据中缺失值对应的目标变量与非缺失值对应的目标变量是否有显著差异;
当所述样本数据中缺失值对应的目标变量与非缺失值对应的目标变量无显著差异时,则在所述非缺失值中随机抽取数据对所述自变量对应的样本数据进行缺失值的填补。
4.根据权利要求3所述的方法,其中,判断所述样本数据中缺失值对应的目标变量与非缺失值对应的目标变量是否有显著差异之后,还包括:
当所述样本数据中缺失值对应的目标变量与非缺失值对应的目标变量有显著差异时,判断所述非缺失值与目标变量是否显著相关;
当所述非缺失值与目标变量显著相关时,根据相关方向和差异程度构建左偏或右偏的BETA分布,利用所述BETA分布对所述自变量对应的样本数据进行缺失值的填补。
5.根据权利要求4所述的方法,其中,判断所述非缺失值与目标变量是否显著相关之后,还包括:
当所述非缺失值与目标变量非显著相关时,则采用标签分组填补方式对所述自变量对应的样本数据进行缺失值的填补。
6.根据权利要求1所述的方法,其中,依据所述数据缺失率所属的缺失率区间采取相应的数据填补方式,对所述自变量对应的样本数据进行缺失值的填补,包括:
当所述数据缺失率小于等于5%时,则判断所述样本数据中的非缺失值与目标变量是否显著相关;
当所述非缺失值与目标变量显著相关时,则采用逻辑回归填补的方式对所述自变量对应的样本数据进行缺失值的填补。
7.根据权利要求6所述的方法,其中,判断样本数据中的非缺失值与目标变量是否显著相关之后,还包括:
当所述非缺失值与目标变量非显著相关时,则采用均值填补的方式对所述自变量对应的样本数据进行缺失值的填补。
8.根据权利要求1-7中任一项所述的方法,其中,依据所述数据缺失率所属的缺失率区间,采取相应的数据填补方式,对所述自变量对应的样本数据进行缺失值的填补之后,还包括:
计算所述目标函数中的自变量的权重值,依据所述权重值以及填补的数据确定后续计算结果的信任指数。
9.一种数据填补装置,包括:
获取模块,设置为获取样本数据和目标函数,其中,所述样本数据包括工资收入、工作时间和还款记录中的至少一个参数对应的数据,所述目标函数以所述至少一个参数为自变量,所述目标函数的输出目标变量为用户的逾期概率;
缺失率计算模块,设置为根据所述目标函数中包含的所述自变量遍历所述样本数据,得到遍历结果;根据所述遍历结果,计算所述自变量对应的数据缺失率;
数据填补模块,设置为依据所述数据缺失率所属的缺失率区间,采取相应的数据填补方式,对所述自变量对应的样本数据进行缺失值的填补,其中,不同的缺失率区间对应不同的数据填补方式,所述数据填补方式包括标签分组填补、贝塔BETA分布填补、随机抽取填补、逻辑回归填补以及均值填补中至少两种。
10.根据权利要求9所述的装置,其中,所述数据填补模块是设置为:
当所述数据缺失率大于70%且小于99%时,则采用标签分组填补的方式对所述自变量对应的样本数据进行缺失值填补。
11.根据权利要求9所述的装置,其中,所述数据填补模块是设置为:
当所述数据缺失率大于5%且小于等于70%时,判断所述样本数据中缺失值对应的目标变量与非缺失值对应的目标变量是否有显著差异;
当所述样本数据中缺失值对应的目标变量与非缺失值对应的目标变量无显著差异时,则在所述非缺失值中随机抽取数据对所述自变量对应的样本数据进行缺失值的填补。
12.根据权利要求11所述的装置,其中,所述数据填补模块还设置为:在判断所述样本数据中缺失值对应的目标变量与非缺失值对应的目标变量是否有显著差异之后,当所述样本数据中缺失值对应的目标变量与非缺失值对应的目标变量有显著差异时,判断所述非缺失值与目标变量是否显著相关;
当所述非缺失值与目标变量显著相关时,根据相关方向和差异程度构建左偏或右偏的BETA分布,利用所述BETA分布对所述自变量对应的样本数据进行缺失值的填补。
13.根据权利要求12所述的装置,其中,所述数据填补模块还设置为:在判断所述非缺失值与目标变量是否显著相关之后,当所述非缺失值与目标变量非显著相关时,则采用标签分组填补方式对所述自变量对应的样本数据进行缺失值的填补。
14.根据权利要求9所述的装置,其中,所述数据填补模块还设置为:
当所述数据缺失率小于等于5%时,则判断样本数据中的非缺失值与目标变量是否显著相关;
当所述非缺失值与目标变量显著相关时,则采用逻辑回归填补的方式对所述自变量对应的样本数据进行缺失值的填补。
15.根据权利要求14所述的装置,其中,所述数据填补模块还设置为:在判断样本数据中的非缺失值与目标变量是否显著相关之后,当所述非缺失值与目标变量非显著相关时,则采用均值填补的方式对所述自变量对应的样本数据进行缺失值的填补。
16.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-8中任一项所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2017/106280 WO2019075599A1 (zh) | 2017-10-16 | 2017-10-16 | 数据填补方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109564641A CN109564641A (zh) | 2019-04-02 |
CN109564641B true CN109564641B (zh) | 2023-08-25 |
Family
ID=65863683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780039488.0A Active CN109564641B (zh) | 2017-10-16 | 2017-10-16 | 数据填补方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109564641B (zh) |
WO (1) | WO2019075599A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276412A (zh) * | 2019-06-28 | 2019-09-24 | 中煤科工集团重庆研究院有限公司 | 一种瓦斯监控数据无序填补方法 |
CN111061999B (zh) * | 2019-11-19 | 2023-08-22 | 平安科技(深圳)有限公司 | 数据样本获取方法、装置及存储介质 |
CN112365070B (zh) * | 2020-11-18 | 2024-05-31 | 深圳供电局有限公司 | 一种电力负荷预测方法、装置、设备及可读存储介质 |
CN113468152A (zh) * | 2021-06-04 | 2021-10-01 | 国网上海市电力公司 | 高频用户用电数据清洗方法、系统、设备及存储介质 |
CN113672871A (zh) * | 2021-08-23 | 2021-11-19 | 广东电网有限责任公司 | 一种高比例缺失数据填补方法及相关装置 |
CN113704697B (zh) * | 2021-08-31 | 2023-12-26 | 平安科技(深圳)有限公司 | 基于多元回归模型的医疗数据缺失处理方法、装置及设备 |
CN113742326B (zh) * | 2021-09-01 | 2024-04-12 | 阳光电源股份有限公司 | 功率优化器及其功率缺失值填充方法、装置 |
CN113851191A (zh) * | 2021-09-06 | 2021-12-28 | 中科曙光国际信息产业有限公司 | 基因填充方法、装置、计算机设备和存储介质 |
CN113850523A (zh) * | 2021-09-29 | 2021-12-28 | 平安科技(深圳)有限公司 | 基于数据补全的esg指数确定方法及相关产品 |
CN117453696B (zh) * | 2023-12-07 | 2024-04-12 | 深圳拓安信物联股份有限公司 | 水表缺失数据的补全方法和装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060218468A1 (en) * | 2005-03-09 | 2006-09-28 | Matsushita Electric Industrial Co., Ltd. | Memory initialization device, memory initialization method, and error correction device |
US8843423B2 (en) * | 2012-02-23 | 2014-09-23 | International Business Machines Corporation | Missing value imputation for predictive models |
CN103440283B (zh) * | 2013-08-13 | 2016-08-17 | 江苏华大天益电力科技有限公司 | 一种测点数据的补缺系统及补缺方法 |
CN105468594A (zh) * | 2014-08-11 | 2016-04-06 | 中兴通讯股份有限公司 | 一种采集数据的优化方法、系统及服务器 |
CN104392400A (zh) * | 2014-12-10 | 2015-03-04 | 国家电网公司 | 一种电力营销缺失数据补全方法 |
CN105786860B (zh) * | 2014-12-23 | 2020-07-07 | 华为技术有限公司 | 一种数据建模中的数据处理方法及装置 |
CN105488736A (zh) * | 2015-12-02 | 2016-04-13 | 国家电网公司 | 一种用于光伏电站数据采集系统的数据处理方法 |
CN106919957B (zh) * | 2017-03-10 | 2020-03-10 | 广州视源电子科技股份有限公司 | 处理数据的方法及装置 |
CN107193876B (zh) * | 2017-04-21 | 2020-10-09 | 美林数据技术股份有限公司 | 一种基于最近邻knn算法的缺失数据填补方法 |
-
2017
- 2017-10-16 CN CN201780039488.0A patent/CN109564641B/zh active Active
- 2017-10-16 WO PCT/CN2017/106280 patent/WO2019075599A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2019075599A1 (zh) | 2019-04-25 |
CN109564641A (zh) | 2019-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109564641B (zh) | 数据填补方法和装置 | |
WO2019214309A1 (zh) | 模型测试的方法及装置 | |
WO2017133492A1 (zh) | 一种风险评估方法和系统 | |
CN109271958B (zh) | 人脸年龄识别方法及装置 | |
CN108306864B (zh) | 网络数据检测方法、装置、计算机设备和存储介质 | |
CN107633257B (zh) | 数据质量评估方法及装置、计算机可读存储介质、终端 | |
CN111062486B (zh) | 一种评价数据的特征分布和置信度的方法及装置 | |
US20200394448A1 (en) | Methods for more effectively moderating one or more images and devices thereof | |
CN113379071B (zh) | 一种基于联邦学习的噪声标签修正方法 | |
CN114936168B (zh) | 一种真实用户智能感知系统中的测试用例自动生成方法 | |
CN107563798A (zh) | 中奖数据处理方法及装置 | |
US20190220924A1 (en) | Method and device for determining key variable in model | |
CN111767192B (zh) | 基于人工智能的业务数据检测方法、装置、设备和介质 | |
WO2021174699A1 (zh) | 用户筛选方法、装置、设备及存储介质 | |
CN116126843A (zh) | 一种数据质量评估方法、装置、电子设备和存储介质 | |
WO2021212654A1 (zh) | 物理机资源分配模型的获取方法、装置和计算机设备 | |
CN112738098A (zh) | 一种基于网络行为数据的异常检测方法及装置 | |
CN112232951A (zh) | 基于多维度交叉特征的信用评价方法、装置、设备及介质 | |
Ergashev | Should risk managers rely on maximum likelihood estimation method while quantifying operational risk? | |
CN113344469B (zh) | 欺诈识别方法、装置、计算机设备及存储介质 | |
CN113779116B (zh) | 对象排序方法、相关设备及介质 | |
CN114581086A (zh) | 基于动态时序网络的钓鱼账户检测方法及系统 | |
CN114238504A (zh) | 面向电子政务的跨链数据查询及共识优化方法 | |
CN111309706A (zh) | 模型训练方法、装置、可读存储介质及电子设备 | |
CN113723524B (zh) | 基于预测模型的数据处理方法、相关设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |