CN110766030A - 缺失值处理方式的确定方法及装置 - Google Patents

缺失值处理方式的确定方法及装置 Download PDF

Info

Publication number
CN110766030A
CN110766030A CN201810827163.5A CN201810827163A CN110766030A CN 110766030 A CN110766030 A CN 110766030A CN 201810827163 A CN201810827163 A CN 201810827163A CN 110766030 A CN110766030 A CN 110766030A
Authority
CN
China
Prior art keywords
column
data
missing
training
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810827163.5A
Other languages
English (en)
Inventor
周婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201810827163.5A priority Critical patent/CN110766030A/zh
Publication of CN110766030A publication Critical patent/CN110766030A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种缺失值处理方式的确定方法及装置。其中,该方法包括:获取待填充的数据;对于数据中的每个特征列,根据预先得到的对应该特征列的多个训练结果的评估数值,确定该特征列的缺失值处理方式;其中,特征列是根据数据中各个数据列的数值缺失情况确定的,各个特征列的多个训练结果的评估数值通过以下方式获得:对于每个特征列,按照多个缺失值处理方式更新该特征列,得到多个更新结果;针对每个特征列的多个更新结果分别进行训练,得到训练结果。本发明能够找到各个特征列对应的最佳缺失处理方式,为如何填充数据找到更加合理的填充方案,有助于训练出更优的模型。

Description

缺失值处理方式的确定方法及装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种缺失值处理方式的确定方法及装置。
背景技术
机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。而利用机器学习得到分类模型需要一个不断地利用用户数据进行训练的过程。在实际进行用户数据的采集时,会由于各种原因导致用于机器学习的用户数据普遍存在缺失值,而存在缺失值的用户数据会影响分类模型的效果,所以一般在模型训练模型前,都会采用某种方式处理缺失值,比如,过滤掉存在缺失值的数据行,或者,使用某一数值填充缺失值(每列使用同一数值,不同列之间使用不同的值)。但是,实际上,即使是按照某一种方式进行缺失值处理,也并不保证这个处理方式可以让模型的效果更好,所以不能简单的选择某一种缺失值处理方案。
针对上述相关技术中在用于进行分类模型训练的用户数据中存在的缺失值的情况下,对缺失值的处理方式比较单一,使用处理后的缺失值无法保证训练出来的模型的可靠性的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种缺失值处理方式的确定方法及装置,以至少解决缺失值的处理方式比较单一,使用处理后的数据无法保证训练出来的模型的可靠性的技术问题。
根据本发明实施例的一个方面,提供了一种缺失值处理方式的确定方法,包括:获取待填充的数据;对于所述数据中的每个特征列,根据预先得到的对应该特征列的多个训练结果的评估数值,确定该特征列的缺失值处理方式;其中,所述特征列是根据所述数据中各个数据列的数值缺失情况确定的,各个特征列的多个训练结果的评估数值通过以下方式获得:对于每个特征列,按照多个缺失值处理方式更新该特征列,得到多个更新结果;针对每个特征列的多个更新结果分别进行训练,得到训练结果,其中,每个特征列的训练结果包括:对该特征列的所述多个更新后的特征列进行训练得到的多个分类模型,对所述多个分类模型进行评估的评估数值。
可选的,在获取待填充的数据之前,上述缺失值处理方式的确定方法还包括:预先确定所述数据中存在缺失值的数据列的缺失比例,其中,所述缺失比例是所述数据列中的缺失值的数量与所述数据列中包含的数据总量的比值;将所述缺失比例小于预定缺失比例的数据列确定为特征列。
可选的,对于每个特征列,按照多个缺失值处理方式更新该特征列包括以下至少之一:采用过滤掉所述每个特征列中的缺失值所在的数据行的方式,更新所述每个特征列;采用预定数值填充所述每个特征列中的缺失值的方式,更新所述每个特征列。
可选的,所述预定数值为以下至少之一:预设常数,所述特征列中非缺失值的平均数,所述特征列中非缺失值的中位数,所述特征列中非缺失值的众数。
可选的,针对每个特征列的多个更新结果分别进行训练,得到训练结果包括:将每个特征列的多个更新结果输入到随机森林算法;获取经所述随机森林算法对每个特征列的多个更新结果进行训练后,得到的训练结果。
根据本发明实施例的另外一个方面,还提供了一种数据填充方法,用于基于上述缺失值处理方式的确定方法所确定的各个特征列对应的缺失处理方式对所述数据进行填充。
根据本发明实施例的另外一个方面,还提供了一种分类模型的训练方法,用于利用上述的数据填充方法所填充后的数据对分类模型进行训练。
根据本发明实施例的另外一个方面,还提供了一种缺失值处理方式的确定装置,包括:第一获取单元,用于获取待填充的数据;第一确定单元,用于对于所述数据中的每个特征列,根据预先得到的对应该特征列的多个训练结果的评估数值,确定该特征列的缺失值处理方式;其中,所述第一确定单元包括:第一获取模块,用于对于每个特征列,按照多个缺失值处理方式更新该特征列,得到多个更新结果;第二获取模块,用于针对每个特征列的多个更新结果分别进行训练,得到训练结果,其中,每个特征列的训练结果包括:对该特征列的所述多个更新后的特征列进行训练得到的多个分类模型,对所述多个分类模型进行评估的评估数值。
可选的,上述缺失值处理方式的确定还包括:第二确定单元,用于在获取待填充的数据之前,预先确定所述数据中存在缺失值的数据列的缺失比例,其中,所述缺失比例是所述数据列中的缺失值的数量与所述数据列中包含的数据总量的比值;第三确定单元,用于将所述缺失比例小于预定缺失比例的数据列确定为特征列。
可选的,所述第一获取模块包括以下至少之一:第一更新子模块,用于采用过滤掉所述每个特征列中的缺失值所在的数据行的方式,更新所述每个特征列;第二更新子模块,用于采用预定数值填充所述每个特征列中的缺失值的方式,更新所述每个特征列。
可选的,所述预定数值为以下至少之一:预设常数,所述特征列中非缺失值的平均数,所述特征列中非缺失值的中位数,所述特征列中非缺失值的众数。
可选的,所述第二获取模块包括:输入子模块,用于将每个特征列的多个更新结果输入到随机森林算法;获取子模块,用于获取经所述随机森林算法对每个特征列的多个更新结果进行训练后,得到的训练结果。
根据本发明实施例的另外一个方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述中任意一项所述的缺失值处理方式的确定方法,数据填充方法,以及上述中所述的分类模型的训练方法。
根据本发明实施例的另外一个方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序执行上述中任意一项所述的缺失值处理方式的确定方法,数据填充方法,以及分类模型的训练方法。
在本发明实施例中,能够在利用多种缺失处理方式对数据进行填充,并对每种方式训练得到的分类模型分别进行评估,从而能够找到各个特征列对应的最佳缺失处理方式,为如何填充数据找到更加合理的填充方案,有助于训练出更优的模型,解决了相关技术中无法合理选择填充方式对缺失值进行填充进而导致模型可靠性低的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的缺失值处理方式的确定方法的流程图;
图2是根据本发明实施例的缺失值处理方式的确定方法的优选流程图;
图3是根据本发明实施例的缺失值处理方式的确定装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,下面对本发明实施例中出现的部分名词或术语进行详细说明。
随机森林算法:是把分类数组合成随机森林,即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。
缺失值:是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断,主要是指现有数据集中某个或某些属性的值是不完全的。
由于机器学习是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它也是人工智能的核心,是使计算机具有智能的根本途径。具体地,环境向系统的学习部分提供某些信息,学习部分利用这些信息修改知识库,以增进系统执行部分完成认为的效能,执行根据知识库完成任务,同时把获得的信息反馈给学习部分。在这个过程中需要用户对知识库进行修改的训练数据,因此采集用于机器学习的数据也是十分重要的。在采集数据的时候,我们需要关注采集的数据的可靠性,例如,在数据存在缺失值的情况下,我们要使用合理的方式对缺失值进行处理,以使得利用这些数据得出的分类模型效果会更好。下面结合下述实施例进行详细说明。
实施例1
根据本发明实施例,提供了一种缺失值处理方式的确定方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的缺失值处理方式的确定方法的流程图,如图1所示,该缺失值处理方式的确定方法包括如下步骤:
步骤S102,获取待填充的数据。
其中,上述数据主要是用于对分类模型进行训练的数据,在确定数据存在缺失值之前,需要进行数据的采集,但是,在数据的采集过程中会存在一些原因使采集的数据中产生缺失值,这些原因可以包括:机械原因,例如,由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集;人为原因,主要是由于人的主观失误、历史局限或有意隐瞒等造成数据的缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录入了数据等。如果使用存在缺失值的数据对分类模型进行训练得到的分类模型在很大程度上是不可靠的。所以,需要对存在缺失值的数据进行处理。
步骤S104,对于数据中的每个特征列,根据预先得到的对应该特征列的多个训练结果的评估数值,确定该特征列的缺失值处理方式。
其中,上述特征列是根据数据中各个数据列的数值缺失情况确定的,各个特征列的多个训练结果的评估数值可以通过以下方式获得:对于每个特征列,按照多个缺失值处理方式更新该特征列,得到多个更新结果;针对每个特征列的多个更新结果分别进行训练,得到训练结果,其中,每个特征列的训练结果可以包括:对该特征列的多个更新后的特征列进行训练得到的多个分类模型,对多个分类模型进行评估的评估数值。
为了避免因为使用单一的缺失值处理方式处理缺失值所得到的特征列可能不适合用于训练分类模型的问题,在本发明实施例中利用多个缺失值处理方式处理上述缺失值,利用处理后的特征列作为分类模型的输入进行分类模型训练,以便确定最优的缺失值处理方式。
在本实施例中,可以获取待填充的数据;对于数据中的每个特征列,根据预先得到的对应该特征列的多个训练结果的评估数值,确定该特征列的缺失值处理方式;其中,特征列是根据数据中各个数据列的数值缺失情况确定的,各个特征列的多个训练结果的评估数值通过以下方式获得:对于每个特征列,按照多个缺失值处理方式更新该特征列,得到多个更新结果;针对每个特征列的多个更新结果分别进行训练,得到训练结果,其中,每个特征列的训练结果包括:对该特征列的多个更新后的特征列进行训练得到的多个分类模型,对多个分类模型进行评估的评估数值。相对于相关技术中在用于对分类模型进行训练的数据存在缺失值的情况下,一般仅是采用过滤掉缺失值所在的数据行,或者使用某一数值填充缺失值,并不能保证通过上述处理方式可以使得训练出来的分类模型效果更好的弊端,通过本发明实施例提供的缺失值处理方式的确定方法可以实现基于多种数据处理方式对存在缺失值的特征列进行更新,并对根据更新后的特征列训练生成的分类模型进行评估的目的,达到了在较大范围内找到最优的缺失值填充方案,以保证填充数据中的缺失值后,能够训练出更好的分类模型的技术效果,进而解决了缺失值的处理方式比较单一,使用处理后的数据无法保证训练出来的模型的可靠性的技术问题。
作为本发明一个可选的实施例,在获取待填充的数据之前,上述缺失值处理方式的确定方法还可以包括:预先确定数据中存在缺失值的数据列的缺失比例,其中,缺失比例是数据列中的缺失值的数量与数据列中包含的数据总量的比值;将缺失比例小于预定缺失比例的数据列确定为特征列。
例如,针对数据中的某一列存在缺失值的数据列,可以先确定该数据列中存在的缺失值的个数,同时确定该数据列中共有多少个数据,也即是,该数据列的数据总量。根据缺失值的个数和数据列的数据总量确定该数据列中缺失比例。然后,将缺失比例小于预定缺失比例的数据列作为特征列。该预定缺失比例可以为45%至55%,优选的,可以为50%。即,在确定的缺失比例小于50%的情况下,将该数据列作为特征列;反之,不适用该数据列作为特征列。
作为本发明一个可选的实施例,对于每个特征列,按照多个缺失值处理方式更新该特征列可以包括以下至少之一:采用过滤掉每个特征列中的缺失值所在的数据行的方式,更新每个特征列;采用预定数值填充每个特征列中的缺失值的方式,更新每个特征列。
其中,上述预定数值可以为以下至少之一:预设常数,特征列中非缺失值的平均数,特征列中非缺失值的中位数,特征列中非缺失值的众数。
例如,在上述预定数值为预设数值(即默认值)的情况下,可以将上述预设数值设置为0,也即是,用0填充上述特征列中的缺失值;在上述预定数值为特征列中非缺失值的平均数的情况下,可以先确定上述特征列中的非缺失值,然后计算上述非缺失值的平均数,利用该非缺失值的平均数填充上述特征列中的缺失值;在上述预定数值为特征列中非缺失值的中位数时,可以先确定上述特征列中的非缺失值,然后确定非缺失值的中位数,利用该中位数填充上述特征列中缺失值;在上述预定数值为特征列中非缺失值的众数的情况下,同样先确定上述特征列中的非缺失值,然后确定非缺失值的众数,利用该众数填充上述特征列中缺失值。
另外,针对每个特征列的多个更新结果分别进行训练,得到训练结果可以包括:将每个特征列的多个更新结果输入到随机森林算法;获取经随机森林算法对每个特征列的多个更新结果进行训练后,得到的训练结果。
下面结合附图对本发明一个完整的实施例进行详细说明。
图2是根据本发明实施例的缺失值处理方式的确定方法的优选流程图,如图2所示,该缺失值处理方式的确定方法包括如下步骤:
步骤S201,确定用户数据(也即是上文中的数据)中存在缺失值。
步骤S202,确定缺失值所在的数据列。假设这些数据列的列名为:C0,C1,C2,C3……Cn-1
步骤S203,判断上述数据列中是否存在缺失比例大于50%的数据列,得到判断结果。在判断结果为存在时,执行步骤S204;反之,执行步骤S205。
步骤S204,确定数据列中缺失比例大于50%的数据列不作为特征列。
步骤S205,确定数据列中缺失比例不大于50%的数据列作为特征列。
步骤S206,采用缺失值处理方式对上述特征列进行更新,得到更新后的特征列。
其中,上述缺失值处理方式包括如下(针对每一个特征列):
a.过滤掉缺失值所在的数据行;
b.填充0(默认填充方案);
c.填充特征列中所有非缺失数据(也即是上下文中的非缺失值)的平均值,即,Mean(Ci);
d.填充特征列中所有非缺失数据的中位数,即,Median(Ci);
e.填充数据列所有非缺失数据的众数,即,Mode(Ci)。
接下来需要计算C0,C1…,Cn-1中每一列的最优缺失值填充方案。
比如,计算Ci列的最优缺失值填充方案时:
⑴.对于Ci列,计算其中缺失数据所占的比例,如果超过50%,Ci列则不作为特征列。无需进行下面的后续计算。
⑵.将C0,C1…,Ci-1,Ci+1,…,Cn-1这n-1列中的缺失值全部使用默认填充方案(即0)填充。
⑶.分别用上述中的a-e五种填充方案填充Ci列的缺失值,填充后,用户数据分别对应变化为Da,Db,Dc,Dd,De
⑷分别对Da,Db,Dc,Dd,De,使用随机森林算法进行模型训练和评估,评估结果分别为Ra,Rb,Rc,Rd,Re,评估结果最好的方案即为最优缺失值填充方案,如Max(Ra,Rb,Rc,Rd,Re)=Rd,那么对于Ci列来说d对应的平均值方案即为最优方案。
按照如上步骤分别计算每一列的最优缺失值填充方案。
步骤S207,使用随机森林算法对更新后的特征列进行模型训练和评估。
步骤S208,根据模型训练和评估得到评估数值确定用于对特征列进行处理的目标缺失值处理方式。
步骤S209,判断是否确定所有特征列的目标缺失值处理方式,得到判断结果。在判断结果为是的情况下,执行步骤S210;反之,返回步骤S203。
步骤S210,利用目标缺失值处理方式填充上述所有的特征列。
步骤S211,利用填充完整的特征列训练分类模型。
对于上述相关技术中单一的缺失值处理方式可能会加入更多的噪音数据,导致分类模型训练效果不佳。而通过本发明实施例提供的缺失值处理方式的确定方法有效克服了上述弊端,能在较大范围内找出最优的缺失值填充方案,保证填充用户数据中的缺失值后,能够训练出相对不错的分类模型。
根据本发明实施例的另外一个方面,还提供了一种数据填充方法,用于基于上述缺失值处理方式的确定方法所确定的各个特征列对应的缺失处理方式对数据进行填充。
根据本发明实施例的另外一个方面,还提供了一种分类模型的训练方法,用于利用上述的数据填充方法所填充后的数据对分类模型进行训练。
实施例2
根据本发明实施例还提供了一种缺失值处理方式的确定装置,需要说明的是,本发明实施例的缺失值处理方式的确定装置可以用于执行本发明实施例所提供的缺失值处理方式的确定方法。以下对本发明实施例提供的缺失值处理方式的确定装置进行介绍。
图3是根据本发明实施例的缺失值处理方式的确定装置的示意图,如图3所示,该缺失值处理方式的确定装置包括:第一获取单元31以及第一确定单元33。其中,第一确定单元33包括:第一获取模块331以及第二获取模块333。下面对该缺失值处理方式的确定装置进行详细说明。
第一获取单元31,用于获取待填充的数据。
第一确定单元33,与上述第一获取单元31连接,用于对于数据中的每个特征列,根据预先得到的对应该特征列的多个训练结果的评估数值,确定该特征列的缺失值处理方式。
其中,上述第一确定单元33包括:第一获取模块331,用于对于每个特征列,按照多个缺失值处理方式更新该特征列,得到多个更新结果。第二获取模块333,与上述第一获取模块331连接,用于针对每个特征列的多个更新结果分别进行训练,得到训练结果,其中,每个特征列的训练结果包括:对该特征列的多个更新后的特征列进行训练得到的多个分类模型,对多个分类模型进行评估的评估数值。
在上述实施例中,可以利用第一获取单元获取待填充的数据;同时利用第一确定单元对于数据中的每个特征列,根据预先得到的对应该特征列的多个训练结果的评估数值,确定该特征列的缺失值处理方式;其中,上述第一确定单元可以包括:第一获取模块以及第二获取模块,其中,该第一获取模块用于对于每个特征列,按照多个缺失值处理方式更新该特征列,得到多个更新结果;第二获取模块用于针对每个特征列的多个更新结果分别进行训练,得到训练结果,其中,每个特征列的训练结果包括:对该特征列的多个更新后的特征列进行训练得到的多个分类模型,对多个分类模型进行评估的评估数值。相对于相关技术中在用于对分类模型进行训练的数据存在缺失值的情况下,一般仅是采用过滤掉缺失值所在的数据行,或者使用某一数值填充缺失值,并不能保证通过上述处理方式可以使得训练出来的分类模型效果更好的弊端,通过本发明实施例提供的缺失值处理方式的确定装置可以实现基于多种数据处理方式对存在缺失值的特征列进行更新,并对根据更新后的特征列训练生成的分类模型进行评估的目的,达到了在较大范围内找到最优的缺失值填充方案,以保证填充数据中的缺失值后,能够训练出更好的分类模型的技术效果,进而解决了缺失值的处理方式比较单一,使用处理后的数据无法保证训练出来的模型的可靠性的技术问题。
作为本发明一个可选的实施例,上述缺失值处理方式的确定还可以包括:第二确定单元,用于在获取待填充的数据之前,预先确定数据中存在缺失值的数据列的缺失比例,其中,缺失比例是数据列中的缺失值的数量与数据列中包含的数据总量的比值;第三确定单元,用于将缺失比例小于预定缺失比例的数据列确定为特征列。
作为本发明一个可选的实施例,上述第一获取模块可以包括以下至少之一:第一更新子模块,用于采用过滤掉每个特征列中的缺失值所在的数据行的方式,更新每个特征列;第二更新子模块,用于采用预定数值填充每个特征列中的缺失值的方式,更新每个特征列。
作为本发明一个可选的实施例,上述预定数值可以为以下至少之一:预设常数,特征列中非缺失值的平均数,特征列中非缺失值的中位数,特征列中非缺失值的众数。
作为本发明一个可选的实施例,上述第二获取模块可以包括:输入子模块,用于将每个特征列的多个更新结果输入到随机森林算法;获取子模块,用于获取经随机森林算法对每个特征列的多个更新结果进行训练后,得到的训练结果。
上述缺失值处理方式的确定装置包括处理器和存储器,上述第一获取单元31以及第一确定单元33。其中,第一确定单元33包括:第一获取模块331以及第二获取模块333等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数根据预先得到的对应该特征列的多个训练结果的评估数值,确定该特征列的缺失值处理方式。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本发明实施例的另外一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,程序执行上述中任意一项的缺失值处理方式的确定方法,数据填充方法,以及上述中的分类模型的训练方法。
根据本发明实施例的另外一个方面,还提供了一种处理器,处理器用于运行程序,其中,程序执行上述中任意一项的缺失值处理方式的确定方法,数据填充方法,以及分类模型的训练方法。
在本发明实施例中还提供了一种设备,该设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取待填充的数据;对于数据中的每个特征列,根据预先得到的对应该特征列的多个训练结果的评估数值,确定该特征列的缺失值处理方式;其中,特征列是根据数据中各个数据列的数值缺失情况确定的,各个特征列的多个训练结果的评估数值通过以下方式获得:对于每个特征列,按照多个缺失值处理方式更新该特征列,得到多个更新结果;针对每个特征列的多个更新结果分别进行训练,得到训练结果,其中,每个特征列的训练结果包括:对该特征列的多个更新后的特征列进行训练得到的多个分类模型,对多个分类模型进行评估的评估数值。
在本发明实施例中还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取待填充的数据;对于数据中的每个特征列,根据预先得到的对应该特征列的多个训练结果的评估数值,确定该特征列的缺失值处理方式;其中,特征列是根据数据中各个数据列的数值缺失情况确定的,各个特征列的多个训练结果的评估数值通过以下方式获得:对于每个特征列,按照多个缺失值处理方式更新该特征列,得到多个更新结果;针对每个特征列的多个更新结果分别进行训练,得到训练结果,其中,每个特征列的训练结果包括:对该特征列的多个更新后的特征列进行训练得到的多个分类模型,对多个分类模型进行评估的评估数值。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种缺失值处理方式的确定方法,其特征在于,包括:
获取待填充的数据;
对于所述数据中的每个特征列,根据预先得到的对应该特征列的多个训练结果的评估数值,确定该特征列的缺失值处理方式;
其中,所述特征列是根据所述数据中各个数据列的数值缺失情况确定的,各个特征列的多个训练结果的评估数值通过以下方式获得:
对于每个特征列,按照多个缺失值处理方式更新该特征列,得到多个更新结果;
针对每个特征列的多个更新结果分别进行训练,得到训练结果,其中,每个特征列的训练结果包括:对该特征列的所述多个更新后的特征列进行训练得到的多个分类模型,对所述多个分类模型进行评估的评估数值。
2.根据权利要求1所述的方法,其特征在于,在获取待填充的数据之前,还包括:
预先确定所述数据中存在缺失值的数据列的缺失比例,其中,所述缺失比例是所述数据列中的缺失值的数量与所述数据列中包含的数据总量的比值;
将所述缺失比例小于预定缺失比例的数据列确定为特征列。
3.根据权利要求1所述的方法,其特征在于,对于每个特征列,按照多个缺失值处理方式更新该特征列包括以下至少之一:
采用过滤掉所述每个特征列中的缺失值所在的数据行的方式,更新所述每个特征列;
采用预定数值填充所述每个特征列中的缺失值的方式,更新所述每个特征列。
4.根据权利要求3所述的方法,其特征在于,所述预定数值为以下至少之一:预设常数,所述特征列中非缺失值的平均数,所述特征列中非缺失值的中位数,所述特征列中非缺失值的众数。
5.根据权利要求1所述的方法,其特征在于,针对每个特征列的多个更新结果分别进行训练,得到训练结果包括:
将每个特征列的多个更新结果输入到随机森林算法;
获取经所述随机森林算法对每个特征列的多个更新结果进行训练后,得到的训练结果。
6.一种数据填充方法,其特征在于,用于基于根据权利要求1至5中任一项所述的缺失值处理方式的确定方法所确定的各个特征列对应的缺失处理方式对所述数据进行填充。
7.一种分类模型的训练方法,其特征在于,用于利用根据权利要求6所述的数据填充方法所填充后的数据对分类模型进行训练。
8.一种缺失值处理方式的确定装置,其特征在于,包括:
第一获取单元,用于获取待填充的数据;
第一确定单元,用于对于所述数据中的每个特征列,根据预先得到的对应该特征列的多个训练结果的评估数值,确定该特征列的缺失值处理方式;
其中,所述第一确定单元包括:
第一获取模块,用于对于每个特征列,按照多个缺失值处理方式更新该特征列,得到多个更新结果;
第二获取模块,用于针对每个特征列的多个更新结果分别进行训练,得到训练结果,其中,每个特征列的训练结果包括:对该特征列的所述多个更新后的特征列进行训练得到的多个分类模型,对所述多个分类模型进行评估的评估数值。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至5中任意一项所述的缺失值处理方式的确定方法,权利要求6中所述的数据填充方法,以及权利要求7中所述的分类模型的训练方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序执行权利要求1至5中任意一项所述的缺失值处理方式的确定方法,权利要求6中所述的数据填充方法,以及权利要求7中所述的分类模型的训练方法。
CN201810827163.5A 2018-07-25 2018-07-25 缺失值处理方式的确定方法及装置 Pending CN110766030A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810827163.5A CN110766030A (zh) 2018-07-25 2018-07-25 缺失值处理方式的确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810827163.5A CN110766030A (zh) 2018-07-25 2018-07-25 缺失值处理方式的确定方法及装置

Publications (1)

Publication Number Publication Date
CN110766030A true CN110766030A (zh) 2020-02-07

Family

ID=69327294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810827163.5A Pending CN110766030A (zh) 2018-07-25 2018-07-25 缺失值处理方式的确定方法及装置

Country Status (1)

Country Link
CN (1) CN110766030A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597444A (zh) * 2020-05-13 2020-08-28 北京达佳互联信息技术有限公司 一种搜索方法、装置、服务器、存储介质
CN116610662A (zh) * 2023-07-17 2023-08-18 金锐同创(北京)科技股份有限公司 缺失分类数据的填充方法、装置、计算机设备及介质
CN117828373A (zh) * 2024-03-05 2024-04-05 四川省医学科学院·四川省人民医院 基于集合划分和自监督学习的缺失数据填充方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597444A (zh) * 2020-05-13 2020-08-28 北京达佳互联信息技术有限公司 一种搜索方法、装置、服务器、存储介质
CN111597444B (zh) * 2020-05-13 2024-03-05 北京达佳互联信息技术有限公司 一种搜索方法、装置、服务器、存储介质
CN116610662A (zh) * 2023-07-17 2023-08-18 金锐同创(北京)科技股份有限公司 缺失分类数据的填充方法、装置、计算机设备及介质
CN116610662B (zh) * 2023-07-17 2023-10-03 金锐同创(北京)科技股份有限公司 缺失分类数据的填充方法、装置、计算机设备及介质
CN117828373A (zh) * 2024-03-05 2024-04-05 四川省医学科学院·四川省人民医院 基于集合划分和自监督学习的缺失数据填充方法及系统

Similar Documents

Publication Publication Date Title
Heisey et al. A review of methods to estimate cause‐specific mortality in presence of competing risks
Rossberg et al. Food webs: experts consuming families of experts
Yan et al. Potential distributional changes of invasive crop pest species associated with global climate change
Hoban et al. Ex situ seed collections will benefit from considering spatial sampling design and species’ reproductive biology
CN110766030A (zh) 缺失值处理方式的确定方法及装置
CN107679183A (zh) 分类器用训练数据获取方法和装置、服务器及存储介质
CN109376844A (zh) 基于云平台和模型推荐的神经网络自动训练方法和装置
CN110175168B (zh) 一种基于生成对抗网络的时间序列数据填补方法及系统
Willi et al. A practical guide to the study of distribution limits
US9633103B2 (en) Identifying product groups in ecommerce
Goldenberg et al. Inter-generational change in African elephant range use is associated with poaching risk, primary productivity and adult mortality
WO2022121705A1 (zh) 信息处理方法、装置和设备
CN103500177A (zh) 一种用户激活数的统计方法及装置
CN107977461A (zh) 一种视频特征提取方法及装置
Garrote et al. Planning the peninsula-wide recovery of the Iberian lynx: Identification of favourable habitat areas
Ortiz‐Medrano et al. Morphological and niche divergence of pinyon pines
CN112150182A (zh) 多媒体文件推送方法和装置、存储介质及电子装置
CN112687079A (zh) 灾害预警方法、装置、设备及存储介质
CN112819174A (zh) 基于人工智能算法改进的伦理虚拟仿真实验方法和机器人
CN112632051A (zh) 基于神经网络的数据库清理方法及系统
CN113868671B (zh) 数据处理方法、神经网络模型的后门防御方法及装置
CN115965874A (zh) 一种农作物病害识别方法、系统、装置和存储介质
Flores‐Lagunes et al. Identifying technically efficient fishing vessels: a non‐empty, minimal subset approach
CN111127059B (zh) 用户质量的分析方法及装置
CN114090797A (zh) 一种基于智能推荐的组件检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200207