CN111177217A - 数据预处理方法、装置、计算机设备及存储介质 - Google Patents

数据预处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111177217A
CN111177217A CN201911348312.0A CN201911348312A CN111177217A CN 111177217 A CN111177217 A CN 111177217A CN 201911348312 A CN201911348312 A CN 201911348312A CN 111177217 A CN111177217 A CN 111177217A
Authority
CN
China
Prior art keywords
data
factor
missing
value
filled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911348312.0A
Other languages
English (en)
Inventor
曾芳
邓德荣
王钧宇
房倩琦
王红松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Trust Co Ltd
Original Assignee
Ping An Trust Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Trust Co Ltd filed Critical Ping An Trust Co Ltd
Priority to CN201911348312.0A priority Critical patent/CN111177217A/zh
Publication of CN111177217A publication Critical patent/CN111177217A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及分类模型领域,公开了一种数据预处理方法、装置、计算机设备及存储介质,其方法包括:判断天气样本数据的指定因子的数据类型;获取与数据类型匹配的第一数据填充方法,并根据第一数据填充方法对天气样本数据在指定因子上的缺失值进行第一次填充;在所有天气样本数据的缺失值填充完毕后,通过预设嵌入式特征选择算法对存在已填充缺失值的指定因子进行筛选,获得优选因子;判断已填充的缺失值属于优选因子的天气样本数据是否存在历史数据;若已填充的缺失值属于优选因子的天气样本数据存在历史数据,则根据第二数据填充方法和历史数据计算替换值,将已填充的缺失值替换为替换值。本发明可提高数据挖掘方法的预测准确率。

Description

数据预处理方法、装置、计算机设备及存储介质
技术领域
本发明涉及分类模型领域,尤其涉及一种数据预处理方法、装置、计算机设备及存储介质。
背景技术
在信息时代,信息的收集变得越来越便利。收集到的信息通过数据加工方法处理,生成人们需要的数据处理结果。数据挖掘作为数据加工方法的一种,在人们的日常生活得到普遍的应用。
在数据挖掘中,数据预处理是十分重要的环节,对数据处理结果的优劣产生巨大影响。而在数据预处理中,最常见的问题是数据质量差,数据质量差的普遍表现为数据缺失。
数据缺失在许多研究领域都是一个复杂的问题。对数据挖掘来说,空值的存在,造成了以下影响:首先,系统丢失了大量的有用信息;第二,系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握;第三,包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。
数据挖掘算法本身更致力于避免数据过分适合所建的模型,这一特性使得它难以通过自身的算法去处理好缺失的数据。缺失的数据需要通过数据填充方法进行推导、填充等,以减少数据挖掘算法与实际应用之间的差距。现有技术中,数据填充方法有很多种,如均值填充、插值法等。然而,这些数据填充方法在处理特定应用场景的数据时,常常会出现不匹配的情况。以均值填充为例,在用于天气数据的填充时,若用长时间段的天气数据在某个属性的均值去填充指定时间段在该属性的值,显然不够精确,且缺少逻辑相关性。
发明内容
基于此,有必要针对上述技术问题,提供一种数据预处理方法、装置、计算机设备及存储介质,以提高数据挖掘方法的预测准确率。
一种数据预处理方法,包括:
判断天气样本数据的指定因子的数据类型;
获取与所述数据类型匹配的第一数据填充方法,并根据所述第一数据填充方法对所述天气样本数据在指定因子上的缺失值进行第一次填充;
在所有所述天气样本数据的缺失值填充完毕后,通过预设嵌入式特征选择算法对存在已填充缺失值的指定因子进行筛选,获得优选因子;
判断已填充的缺失值属于优选因子的天气样本数据是否存在历史数据;
若已填充的缺失值属于优选因子的天气样本数据存在历史数据,则根据第二数据填充方法和所述历史数据计算替换值,将所述已填充的缺失值替换为所述替换值。
一种数据预处理装置,包括:
类型判断模块,用于判断天气样本数据的指定因子的数据类型;
一次填充模块,用于获取与所述数据类型匹配的第一数据填充方法,并根据所述第一数据填充方法对所述天气样本数据在指定因子上的缺失值进行第一次填充;
筛选因子模块,用于在所有所述天气样本数据的缺失值填充完毕后,通过预设嵌入式特征选择算法对存在已填充缺失值的指定因子进行筛选,获得优选因子;
历史数据查询模块,用于判断已填充的缺失值属于优选因子的天气样本数据是否存在历史数据;
二次填充模块,用于若已填充的缺失值属于优选因子的天气样本数据存在历史数据,则根据第二数据填充方法和所述历史数据计算替换值,将所述已填充的缺失值替换为所述替换值。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据预处理方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据预处理方法。
上述数据预处理方法、装置、计算机设备及存储介质,通过判断天气样本数据的指定因子的数据类型,以确定指定因子的数据类型,依据数据类型选用对应的填充方法,可以提高数据填充的准确性。获取与所述数据类型匹配的第一数据填充方法,并根据所述第一数据填充方法对所述天气样本数据在指定因子上的缺失值进行第一次填充,以消除指定因子上所有的缺失值。在所有所述天气样本数据的缺失值填充完毕后,通过预设嵌入式特征选择算法对存在已填充缺失值的指定因子进行筛选,获得优选因子,以选出重要性高的优选因子,减少二次填充时的数据处理量。判断已填充的缺失值属于优选因子的天气样本数据是否存在历史数据,以获取优选因子的历史数据,便于根据历史数据生成替换值。若已填充的缺失值属于优选因子的天气样本数据存在历史数据,则根据第二数据填充方法和所述历史数据计算替换值,将所述已填充的缺失值替换为所述替换值,以完成最终的数据填充,使用经数据填充后的样本集对预测模型进行训练,可提高预测模型的准确率。本发明可提高数据挖掘方法的预测准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中数据预处理方法的一应用环境示意图;
图2是本发明一实施例中数据预处理方法的一流程示意图;
图3是本发明一实施例中数据预处理方法的一流程示意图;
图4是本发明一实施例中数据预处理方法的一流程示意图;
图5是本发明一实施例中数据预处理方法的一流程示意图;
图6是本发明一实施例中数据预处理方法的一流程示意图;
图7是本发明一实施例中数据预处理方法的一流程示意图;
图8是本发明一实施例中数据预处理装置的一结构示意图;
图9是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供的数据预处理方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信。其中,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种数据预处理方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S10、判断天气样本数据的指定因子的数据类型;
S20、获取与所述数据类型匹配的第一数据填充方法,并根据所述第一数据填充方法对所述天气样本数据在指定因子上的缺失值进行第一次填充;
S30、在所有所述天气样本数据的缺失值填充完毕后,通过预设嵌入式特征选择算法对存在已填充缺失值的指定因子进行筛选,获得优选因子;
S40、判断已填充的缺失值属于优选因子的天气样本数据是否存在历史数据;
S50、若已填充的缺失值属于优选因子的天气样本数据存在历史数据,则根据第二数据填充方法和所述历史数据计算替换值,将所述已填充的缺失值替换为所述替换值。
本实施例中,天气样本数据指的是包含多个因子的天气样本数据。如表1所示,表1为多个天气样本数据的示例。
表1天气样本数据的示例
日期 温度 气压 湿度 降水 雷电
A 21 1010 0 0 -- --
B 19 999.9 0 0 -- --
C 20 1011 0 0 -- --
D 23 1012 0 0 -- --
E 21 1009 0 0 -- --
指定因子属于天气样本数据因子的一种。在一些情况下,存在部分的天气样本数据的因子被弃用,不属于指定因子。每个指定因子都有自己的数据类型,可以是数值型,也可以是非数值型。在一些特殊情况下,可以根据需要定义指定因子的数据类型。如,可以将非数值型的数据按预设的映射关系转化为数值型数据。
不同的数据类型匹配不同的第一数据填充方法。例如,当数据类型为数值型时,第一数据填充方法可以是均值填充法;当数据类型为非数值型时,第一数据填充方法可以是众值填充法。在获取到与指定因子的数据类型匹配的第一数据填充方法之后,可以按照第一数据填充方法对天气样本数据在指定因子上的缺失值进行第一次填充。例如,若第一数据填充方法为均值填充法,所有样本在指定因子上的平均值为q,样本X在指定因子m上的值为缺失值(可能为零值,也可能为空值),则可以将该缺失值设置为q。
在所有天气样本数据的缺失值填充完毕后,可通过预设嵌入式特征选择算法对存在已填充缺失值的指定因子进行进一步筛选,从指定因子中选取优选因子。预设嵌入式特征选择算法使用机器学习模型进行特征筛选。可选用适配的学习器进行特征筛选,筛选过程与学习器训练过程融合,在学习器训练过程中自动进行特征筛选。优选因子则是指对数据挖掘结果影响较大的因子。
在筛选出优选因子之后,可在数据库中查找已填充的缺失值属于优选因子的天气样本数据是否存在历史数据。例如,样本Y的优选因子n上的值原来是缺失值,经第一次填充后,缺失值替换为优选因子n的平均值10,经查找,发现样本Y存在历史数据。此时,可以基于样本Y的历史数据和预设的第二数据填充方法对样本Y的优选因子n上的值再次填充。第二数据填充方法可以根据实际需要进行设定,如可以是线性填充法。例如,若历史数据包含样本Y前3小时在优选因子n的数据,可以使用线性模型计算出替换值(在一些情况下也可以成为预测值),然后将第一次填充的值替换为该替换值。若历史数据包含样本Y前1小时在优选因子n的数据p,则可以将第一次填充的值10替换为该替换值p。
在一应用实例中,使用本实施例提供的数据预处理方法对参与机器学习模型训练的天气预测天气样本数据进行预处理,获得相应的机器学习模型,然后使用验证数据集对训练好的机器学习模型进行验证。验证数据表明,经本发明实施例提供的数据预处理方法处理后获得的机器学习模型的预测准确率高于现有的数据预处理方法处理后获得的机器学习模型的预测准确率5%-10%。原因可能在于,天气样本中的温度湿度等属性在某个时间段内存在线性相关性,使用线性填充,比使用长时间段的均值填充更加准确。
步骤S10-S50中,判断天气样本数据的指定因子的数据类型,以确定指定因子的数据类型,依据数据类型选用对应的填充方法,可以提高数据填充的准确性。获取与所述数据类型匹配的第一数据填充方法,并根据所述第一数据填充方法对所述天气样本数据在指定因子上的缺失值进行第一次填充,以消除指定因子上所有的缺失值。在所有所述天气样本数据的缺失值填充完毕后,通过预设嵌入式特征选择算法对存在已填充缺失值的指定因子进行筛选,获得优选因子,以选出重要性高的优选因子,减少二次填充时的数据处理量。判断已填充的缺失值属于优选因子的天气样本数据是否存在历史数据,以获取优选因子的历史数据,便于根据历史数据生成替换值。若已填充的缺失值属于优选因子的天气样本数据存在历史数据,则根据第二数据填充方法和所述历史数据计算替换值,将所述已填充的缺失值替换为所述替换值,以完成最终的数据填充,使用经数据填充后的样本集对预测模型进行训练,可提高预测模型的准确率。
可选的,如图3所示,步骤S10之前,还包括:
S11、计算所述天气样本数据在各个因子的缺失率;
S12、分别判断所述各个因子的缺失率是否小于预设缺失阈值;
S13、将缺失率小于预设缺失阈值的因子确定为所述指定因子,并删除缺失率大于或等于预设缺失阈值的因子。
本实施例中,在对天气样本数据进行第一次填充之前,可以对天气样本数据的因子进行初步筛选,排除缺失率过高的因子。缺失率指的是某个因子中为缺失值与样本总个数之间的比例。缺失值可以指空值或零值。在一些气象数据的一些属性,因为数据采集较难,容易出现空值或零值。缺失值对数据挖掘结果存在负面结果,因而,需要排除缺失率过高的因子。预设缺失阈值可以根据需要进行设定。如预设缺失阈值可以设置为30%。
步骤S11-S13中,计算所述天气样本数据在各个因子的缺失率,以得到各个因子的缺失率,方便对因子进行取舍。分别判断所述各个因子的缺失率是否小于预设缺失阈值,使用缺失率与预设缺失阈值比较,对因子进行筛选,具有较强的客观性,有利于提高数据的质量。将缺失率小于预设缺失阈值的因子确定为所述指定因子,并删除缺失率大于或等于预设缺失阈值的因子,以排除缺失率过高的因子。
可选的,如图4所示,步骤S20包括:
S201、若所述数据类型为数值型,则计算所述天气样本数据在指定因子上所有未缺失的值的平均值;
S202、将所述缺失值替换为所述平均值。
本实施例中,在第一次填充时,可以采用均值填充法对数值型的缺失天气样本数据进行填充。具体的,可以先求出缺失天气样本数据在指定因子上所有未缺失的值的平均值,并将缺失值填充为该平均值。例如,在进行第一次填充前,天气样本数据在指定因子r(如可以是空气质量评价指数)上的数值包括:10,8,K,10,K,9,8(K表示缺失值)。由于未缺失的值的平均值为9,故进行第一次填充后,天气样本数据在指定因子r上的数值包括:10,8,9,10,9,9,8。
步骤S201-S202中,若所述数据类型为数值型,则计算所述天气样本数据在指定因子上所有未缺失的值的平均值,将所述缺失值替换为所述平均值,采用了均值填充的方式对缺失值进行填充,填充效率非常快。
可选的,如图5所示,步骤S20包括:
S203、若所述数据类型为非数值型,则计算所述天气样本数据在指定因子上所有未缺失的值的众数;
S204、将所述缺失值替换为所述众数。
本实施例中,在第一次填充时,可以采用众数填充法对非数值型的缺失天气样本数据进行填充。具体的,可以先求出缺失天气样本数据在指定因子上所有未缺失的值的众数,并将缺失值填充为该众数。例如,在进行第一次填充前,天气样本数据在指定因子s上的数值包括:优,良,K,良,K,良,一般(K表示缺失值)。由于未缺失的值的众数为良,故进行第一次填充后,天气样本数据在指定因子r上的数值包括:优,良,良,良,良,良,一般。在一些情况下,若出现多个众数,则可以随机其中的一个对缺失值进行填充。
步骤S203-S204中,若所述数据类型为非数值型,则计算所述天气样本数据在指定因子上所有未缺失的值的众数;将所述缺失值替换为所述众数,采用了众数填充的方式对缺失值进行填充,填充效率非常快。
可选的,如图6所示,步骤S30包括:
S301、通过随机森林算法计算各个存在已填充缺失值的指定因子的重要性;
S302、选取重要性高于预设重要性阈值的指定因子为优选因子。
本实施例中,预设嵌入式特征选择算法可以是随机森林算法。可通过随机森林算法对已填充缺失值的指定因子进行筛选,获得优选因子。具体的计算步骤如下:
1、从样本集中有放回随机采样选出n个天气样本数据;
2、从所有第一入模因子中随机选择k个第一入模因子,利用这些第一入模因子建立决策树;
3、重复上述两个步骤m次,即生成m棵决策树,形成随机森林;
4、对于随机森林中的每一棵决策树,使用相应的袋外数据计算袋外数据差,得到第一袋外数据差X1;
5、随机地对所述天气样本数据中的指定因子加入噪声干扰,再次计算袋外数据差,得到第二袋外数据差X2;
6、根据得到的所述第一袋外数据差、第二袋外数据差计算得到各个指定因子的重要性,计算公式为Z=Σ(X2-X1)/m。
对于步骤1-6,需要说明的是,若给某个指定因子随机加入噪声之后,袋外的准确率大幅度降低,则说明这个指定因子对于样本的分类结果影响很大,也就是说它的重要程度比较高。
步骤S301-S302中,通过随机森林算法计算各个存在已填充缺失值的指定因子的重要性,随机森林算法具有分类效果好,可以处理高维特征,对数据集适应能力强(可以处理离散型数据,也可以处理连续型数据,数据集无需规范化)的优点。选取重要性高于预设重要性阈值的指定因子为优选因子,通过筛分,获得优选因子,减少了二次填充的数据处理量。
可选的,如图7所示,步骤S50包括:
S501、从所述历史数据中选取指定时间范围的区间历史数据;
S502、使用预设线性计算函数对所述区间历史数据进行处理,计算出所述替换值;
S503、将所述已填充的缺失值替换为所述替换值。
本实施例中,若天气样本数据在指定因子上存在历史数据,则可以基于历史数据对该天气样本数据在指定因子上的缺失值进行第二次填充。历史数据可以指该天气样本数据在指定因子的所有历史记录。指定时间范围可以是距今最近一段时间的历史数据,如最近一周或最近几年;而区间历史数据指的是最近一周或最近几年的历史数据。如天气样本数据X在指定因子t上存在历史数据,包括2006~2018年的数据,但2019年的数据为缺失值(指的是未进行第一次填充时的状态),若指定时间范围为最近三年,则区间历史数据包括2016~2018的历史数据。可以根据需要对预设线性计算函数进行定义。例如,可以先求解出区间历史数据的年均增长率,然后选取其中一个年份的数据作为计算基础,计算出2019年的预测值,即上文的替换值。例如,若选取的年份为2016,该年份的数值为1,年均增长率为5%,则2019年的替换值为:1*(1+5%)3=1.157625。可以根据需要保留替换值的位数。
步骤S501-S503中,从所述历史数据中选取指定时间范围的区间历史数据,以选取合适的历史数据(即区间历史数据)。使用预设线性计算函数对所述区间历史数据进行处理,计算出所述替换值,以得到更为精确的替换值。将所述已填充的缺失值替换为所述替换值,以完成缺失值的二次填充。
本发明实施例通过判断天气样本数据的指定因子的数据类型;获取与所述数据类型匹配的第一数据填充方法,并根据所述第一数据填充方法对所述天气样本数据在指定因子上的缺失值进行第一次填充;在所有所述天气样本数据的缺失值填充完毕后,通过预设嵌入式特征选择算法对存在已填充缺失值的指定因子进行筛选,获得优选因子;判断已填充的缺失值属于优选因子的天气样本数据是否存在历史数据;若已填充的缺失值属于优选因子的天气样本数据存在历史数据,则根据第二数据填充方法和所述历史数据计算替换值,将所述已填充的缺失值替换为所述替换值。本发明实施例可提高数据挖掘方法的预测准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种数据预处理装置,该数据预处理装置与上述实施例中数据预处理方法一一对应。如图8所示,该数据预处理装置包括类型判断模块10、一次填充模块20、筛选因子模块30、历史数据查询模块40和二次填充模块50。各功能模块详细说明如下:
类型判断模块10,用于判断天气样本数据的指定因子的数据类型;
一次填充模块20,用于获取与所述数据类型匹配的第一数据填充方法,并根据所述第一数据填充方法对所述天气样本数据在指定因子上的缺失值进行第一次填充;
筛选因子模块30,用于在所有所述天气样本数据的缺失值填充完毕后,通过预设嵌入式特征选择算法对存在已填充缺失值的指定因子进行筛选,获得优选因子;
历史数据查询模块40,用于判断已填充的缺失值属于优选因子的天气样本数据是否存在历史数据;
二次填充模块50,用于若已填充的缺失值属于优选因子的天气样本数据存在历史数据,则根据第二数据填充方法和所述历史数据计算替换值,将所述已填充的缺失值替换为所述替换值。
可选的,还包括因子排除模块,所述因子排除模块包括:
缺失率计算单元,用于计算所述天气样本数据在各个因子的缺失率;
分别判断所述各个因子的缺失率是否小于预设缺失阈值;
将缺失率小于预设缺失阈值的因子确定为所述指定因子,并删除缺失率大于或等于预设缺失阈值的因子。
可选的,一次填充模块20包括:
均值计算单元,用于若所述数据类型为数值型,则计算所述天气样本数据在指定因子上所有未缺失的值的平均值;
均值填充单元,用于将所述缺失值替换为所述平均值。
可选的,一次填充模块20还包括:
众数计算单元,用于若所述数据类型为非数值型,则计算所述天气样本数据在指定因子上所有未缺失的值的众数;
众数填充单元,用于将所述缺失值替换为所述众数。
可选的,筛选因子模块30包括:
重要性计算单元,用于通过随机森林算法计算各个存在已填充缺失值的指定因子的重要性;
选取因子单元,用于选取重要性高于预设重要性阈值的指定因子为优选因子。
可选的,二次填充模块50包括:
历史数据选取单元,用于从所述历史数据中选取指定时间范围的区间历史数据;
历史数据处理单元,用于使用预设线性计算函数对所述区间历史数据进行处理,计算出所述替换值;
历史数据替换单元,用于将所述已填充的缺失值替换为所述替换值。
关于数据预处理装置的具体限定可以参见上文中对于数据预处理方法的限定,在此不再赘述。上述数据预处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据预处理方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据预处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
判断天气样本数据的指定因子的数据类型;
获取与所述数据类型匹配的第一数据填充方法,并根据所述第一数据填充方法对所述天气样本数据在指定因子上的缺失值进行第一次填充;
在所有所述天气样本数据的缺失值填充完毕后,通过预设嵌入式特征选择算法对存在已填充缺失值的指定因子进行筛选,获得优选因子;
判断已填充的缺失值属于优选因子的天气样本数据是否存在历史数据;
若已填充的缺失值属于优选因子的天气样本数据存在历史数据,则根据第二数据填充方法和所述历史数据计算替换值,将所述已填充的缺失值替换为所述替换值。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
判断天气样本数据的指定因子的数据类型;
获取与所述数据类型匹配的第一数据填充方法,并根据所述第一数据填充方法对所述天气样本数据在指定因子上的缺失值进行第一次填充;
在所有所述天气样本数据的缺失值填充完毕后,通过预设嵌入式特征选择算法对存在已填充缺失值的指定因子进行筛选,获得优选因子;
判断已填充的缺失值属于优选因子的天气样本数据是否存在历史数据;
若已填充的缺失值属于优选因子的天气样本数据存在历史数据,则根据第二数据填充方法和所述历史数据计算替换值,将所述已填充的缺失值替换为所述替换值。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据预处理方法,其特征在于,包括:
判断天气样本数据的指定因子的数据类型;
获取与所述数据类型匹配的第一数据填充方法,并根据所述第一数据填充方法对所述天气样本数据在指定因子上的缺失值进行第一次填充;
在所有所述天气样本数据的缺失值填充完毕后,通过预设嵌入式特征选择算法对存在已填充缺失值的指定因子进行筛选,获得优选因子;
判断已填充的缺失值属于优选因子的天气样本数据是否存在历史数据;
若已填充的缺失值属于优选因子的天气样本数据存在历史数据,则根据第二数据填充方法和所述历史数据计算替换值,将所述已填充的缺失值替换为所述替换值。
2.如权利要求1所述的数据预处理方法,其特征在于,所述判断天气样本数据的指定因子的数据类型之前,还包括:
计算所述天气样本数据在各个因子的缺失率;
分别判断所述各个因子的缺失率是否小于预设缺失阈值;
将缺失率小于预设缺失阈值的因子确定为所述指定因子,并删除缺失率大于或等于预设缺失阈值的因子。
3.如权利要求1所述的数据预处理方法,其特征在于,所述获取与所述数据类型匹配的第一数据填充方法,并根据所述第一数据填充方法对所述天气样本数据在指定因子上的缺失值进行第一次填充,包括:
若所述数据类型为数值型,则计算所述天气样本数据在指定因子上所有未缺失的值的平均值;
将所述缺失值替换为所述平均值。
4.如权利要求1所述的数据预处理方法,其特征在于,所述获取与所述数据类型匹配的第一数据填充方法,并根据所述第一数据填充方法对所述天气样本数据在指定因子上的缺失值进行第一次填充,包括:
若所述数据类型为非数值型,则计算所述天气样本数据在指定因子上所有未缺失的值的众数;
将所述缺失值替换为所述众数。
5.如权利要求1所述的数据预处理方法,其特征在于,所述通过预设嵌入式特征选择算法对存在已填充缺失值的指定因子进行筛选,获得优选因子,包括:
通过随机森林算法计算各个存在已填充缺失值的指定因子的重要性;
选取重要性高于预设重要性阈值的指定因子为优选因子。
6.如权利要求1所述的数据预处理方法,其特征在于,所述根据第二数据填充方法和所述历史数据计算替换值,将所述已填充的缺失值替换为所述替换值,包括:
从所述历史数据中选取指定时间范围的区间历史数据;
使用预设线性计算函数对所述区间历史数据进行处理,计算出所述替换值;
将所述已填充的缺失值替换为所述替换值。
7.一种数据预处理装置,其特征在于,包括:
类型判断模块,用于判断天气样本数据的指定因子的数据类型;
一次填充模块,用于获取与所述数据类型匹配的第一数据填充方法,并根据所述第一数据填充方法对所述天气样本数据在指定因子上的缺失值进行第一次填充;
筛选因子模块,用于在所有所述天气样本数据的缺失值填充完毕后,通过预设嵌入式特征选择算法对存在已填充缺失值的指定因子进行筛选,获得优选因子;
历史数据查询模块,用于判断已填充的缺失值属于优选因子的天气样本数据是否存在历史数据;
二次填充模块,用于若已填充的缺失值属于优选因子的天气样本数据存在历史数据,则根据第二数据填充方法和所述历史数据计算替换值,将所述已填充的缺失值替换为所述替换值。
8.如权利要求7所述的数据预处理装置,其特征在于,还包括因子排除模块,所述因子排除模块包括:
缺失率计算单元,用于计算所述天气样本数据在各个因子的缺失率;
分别判断所述各个因子的缺失率是否小于预设缺失阈值;
将缺失率小于预设缺失阈值的因子确定为所述指定因子,并删除缺失率大于或等于预设缺失阈值的因子。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述数据预处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述数据预处理方法。
CN201911348312.0A 2019-12-24 2019-12-24 数据预处理方法、装置、计算机设备及存储介质 Pending CN111177217A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911348312.0A CN111177217A (zh) 2019-12-24 2019-12-24 数据预处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911348312.0A CN111177217A (zh) 2019-12-24 2019-12-24 数据预处理方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111177217A true CN111177217A (zh) 2020-05-19

Family

ID=70650371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911348312.0A Pending CN111177217A (zh) 2019-12-24 2019-12-24 数据预处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111177217A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112506906A (zh) * 2020-12-04 2021-03-16 北京三维天地科技股份有限公司 一种基于人工智能技术的数据治理平台
CN113505850A (zh) * 2021-07-27 2021-10-15 西安热工研究院有限公司 基于深度学习的锅炉故障预测方法
CN114385618A (zh) * 2022-01-17 2022-04-22 大数金科网络技术有限公司 一种基于权重的数据智能补充方法
CN114996318A (zh) * 2022-07-12 2022-09-02 成都唐源电气股份有限公司 一种检测数据异常值处理方式的自动判别方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112506906A (zh) * 2020-12-04 2021-03-16 北京三维天地科技股份有限公司 一种基于人工智能技术的数据治理平台
CN113505850A (zh) * 2021-07-27 2021-10-15 西安热工研究院有限公司 基于深度学习的锅炉故障预测方法
CN114385618A (zh) * 2022-01-17 2022-04-22 大数金科网络技术有限公司 一种基于权重的数据智能补充方法
CN114385618B (zh) * 2022-01-17 2024-04-12 大数金科网络技术有限公司 一种基于权重的数据智能补充方法
CN114996318A (zh) * 2022-07-12 2022-09-02 成都唐源电气股份有限公司 一种检测数据异常值处理方式的自动判别方法及系统
CN114996318B (zh) * 2022-07-12 2022-11-04 成都唐源电气股份有限公司 一种检测数据异常值处理方式的自动判别方法及系统

Similar Documents

Publication Publication Date Title
CN111177217A (zh) 数据预处理方法、装置、计算机设备及存储介质
CN110752942B (zh) 告警信息的决策方法、装置、计算机设备及存储介质
CN109104731B (zh) 小区场景类别划分模型的构建方法、装置和计算机设备
CN110880014B (zh) 数据处理方法、装置、计算机设备及存储介质
CN110287219B (zh) 一种数据处理方法及系统
CN109325118B (zh) 不平衡样本数据预处理方法、装置和计算机设备
CN110503566B (zh) 风控模型建立方法、装置、计算机设备及存储介质
CN110942190A (zh) 排队时间预测方法、装置、计算机设备以及存储介质
CN112927173A (zh) 模型压缩方法、装置、计算设备及存储介质
CN112101674A (zh) 基于群智能算法资源配置匹配方法、装置、设备及介质
CN111178714A (zh) 亲密度确定方法、装置、计算机设备和存储介质
CN112069377A (zh) 会话信息数据处理方法、装置、计算机设备和存储介质
CN110728395A (zh) 主变短期电力负荷计算方法、装置、计算机和存储介质
CN112001756B (zh) 异常电信业务场景的确定方法、装置、计算机设备
CN110472736B (zh) 一种裁剪神经网络模型的方法和电子设备
CN111158732A (zh) 访问数据处理方法、装置、计算机设备及存储介质
CN112199376A (zh) 一种基于聚类分析的标准知识库管理方法及系统
CN110084476B (zh) 案件调整方法、装置、计算机设备和存储介质
CN111782782A (zh) 智能客服的咨询回复方法、装置、计算机设备和存储介质
CN112579847A (zh) 生产数据的处理方法和装置、存储介质及电子设备
CN112015723A (zh) 数据等级划分方法、装置、计算机设备和存储介质
CN110688451A (zh) 评价信息处理方法、装置、计算机设备及存储介质
CN115511562A (zh) 虚拟产品推荐方法、装置、计算机设备和存储介质
CN111460268B (zh) 数据库查询请求的确定方法、装置和计算机设备
CN113742344A (zh) 电力系统数据的索引方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination