CN115145906B - 一种面向结构化数据的预处理和补全方法 - Google Patents
一种面向结构化数据的预处理和补全方法 Download PDFInfo
- Publication number
- CN115145906B CN115145906B CN202211068167.2A CN202211068167A CN115145906B CN 115145906 B CN115145906 B CN 115145906B CN 202211068167 A CN202211068167 A CN 202211068167A CN 115145906 B CN115145906 B CN 115145906B
- Authority
- CN
- China
- Prior art keywords
- data
- row
- missing
- original data
- rectangle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000007781 pre-processing Methods 0.000 title claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000012217 deletion Methods 0.000 claims abstract description 15
- 230000037430 deletion Effects 0.000 claims abstract description 15
- 238000003491 array Methods 0.000 claims abstract description 8
- 230000008030 elimination Effects 0.000 claims abstract description 8
- 238000003379 elimination reaction Methods 0.000 claims abstract description 8
- 238000012163 sequencing technique Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 claims description 3
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 241000699670 Mus sp. Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 241001139947 Mida Species 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Generation (AREA)
Abstract
本发明公开一种面向结构化数据的预处理和补全方法,包括:步骤一,对原始数据的缺失信息进行查询,统计缺失值,得到原始数据的缺失率;步骤二,根据缺失率对原始数据进行行列剔除处理,然后进行行遍历生成行对应数组,再将数组转换为直方图形式,计算出对应直方图构成的最大的矩形面积,接着对所有矩形面积进行排序,采集得到最大的完整信息矩阵;步骤三,采用基于链式方程进行的多重填补方法或基于编码器的多重填补方法或基于对抗生成网络的填补方法,对原始数据进行缺失值填补。本发明能够对原始数据进行缺失信息统计,自动搜寻满足条件的最大完整信息,补全结构化数据,极大提高原始数据集的质量,对后期的预测任务提供了便利。
Description
技术领域
本发明涉及结构化数据预处理的领域,尤其涉及一种面向结构化数据的预处理和补全方法。
背景技术
在机器学习的真实业务场景中,往往会存在数据缺失的情况。数据缺失会导致模型过拟合,数据泄露,模型在训练集的表现与真实测试场景的表现有很大差异等诸多问题。传统填充方法并不能普遍适应多种业务场景的需求,且面对高维度,大批量数据时,传统的填充方法不能得到趋近于原数据分布的结果,因此需建立一套自动化,成体系的,可适用于多种场景下数据集的结构化数据预处理、补全系统。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种面向结构化数据的预处理和补全方法,其具体技术方案如下:
一种面向结构化数据的预处理和补全方法,包括以下步骤:
步骤一,对原始数据的缺失信息进行查询,统计缺失值,得到原始数据的缺失率;
步骤二,根据缺失率对原始数据进行行列剔除处理,然后进行行遍历生成行对应数组,再将数组转换为直方图形式,计算出对应直方图构成的最大的矩形面积,接着对所有矩形面积进行排序,采集得到最大的完整信息矩阵;
步骤三,采用基于链式方程进行的多重填补方法或基于编码器的多重填补方法或基于对抗生成网络的填补方法,对原始数据进行缺失值填补。
进一步的,所述步骤一,具体为:
对原始数据中每一列特征变量进行遍历,依次统计每一列的缺失值即缺失数据的个数,并计算相应的缺失率;
同时针对每一行数据进行遍历,依次统计每一行缺失数据的个数并计算相应的缺失率;
最终针对缺失率进行由高到低排序,返回列名及其对应的缺失率。
进一步的,所述的缺失率为该列或行缺失数据的单元数除以该列或行数据总的单元数。
进一步的,所述步骤二中的对原始数据进行行列剔除处理,具体为:根据原始数据缺失信息,剔除原始数据中缺失率大于70%的行和列,指定缺失率和指定列除外。
进一步的,所述进行行遍历生成行对应数组,具体包括:
步骤a:将剔除了原始数据中缺失率大于70%的行和列后的数据进行0-1赋值,对数据中的空缺单元赋值为0,其余单元赋值为1,生成一个0-1二值型矩阵;
步骤b:针对所述的二值型矩阵的每一行,当在第i行时,初始化一个数组,数组的长度为该二值型矩阵列的个数,数组中第j个元素,第j个元素的值为所在二值型矩阵第i行第j列的赋值为1,且向上数值连续为1的数量;若所在矩阵第i行第j列的赋值为0,表示数据中对应位置为空值,则该元素为0;依据上述判断方法生成第i行的高度数组;
步骤c:采用步骤b相同的方式生成每一行对应的高度数组。
进一步的,所述将数组转换为直方图形式,计算出对应直方图构成的最大的矩形面积,具体包括:
步骤d:将所述的每一行对应的高度数组转化为直方图形式,数组中每一个元素视为高度为元素值,宽度为1的长方形,该数组即可视为直方图形式的数据结构;
步骤e:针对上述步骤d中的每一个长方形,以其为起点构造矩形,搜索其左右位置上连续且高度均大于等于自己的长方形,直至条件不满足并退出搜索,此时满足要求的最左侧长方形与最右侧长方形之间的距离即为所能够造的矩形的长,长方形的高即为所构成矩形的高,将长与高进行相乘即为当前直方图所能构成的最大矩形面积;
步骤f:采用步骤e相同的方式依次遍历每一行,计算出对应所能构成的最大矩形面积。
进一步的,所述对所有矩形面积进行排序,采集得到最大的完整信息矩阵,具体包括:
步骤g:对计算出的每一行对应所能构成的最大矩形面积进行排序,得到排序后最大矩形的四个顶点坐标;
步骤h:根据所述坐标在原始数据中提取对应的矩形数据,即可实现最大的完整信息矩形采集;
其中,若提取的数据中不完全包含指定列对应的列数据,从指定列的数据中按纵坐标的范围提取对应数据,与上述矩形数据进行横向拼接并删除重复列,即为最大的完整信息矩形;若提取的数据已经完全包含指定列对应的列数据,则直接返回最大的完整信息矩形。
进一步的,所述基于链式方程进行的多重填补方法,具体包括以下步骤:
步骤101,对原始数据的缺失值进行基础填补,填补的值为所在列的平均值或者众数,同时对填补值的位置进行标记;
步骤102,遍历数据中的每一列,将每一列数据作为预测目标对象,剩余其他列作为输入特征,利用回归模型对预测目标和输入特征进行回归计算,输出新的一列预测结果,将原始列标记的值替换为预测结果中对应位置的数值,替换后的列继续作为其他回归计算的输入特征;遍历直到所有列中的标记缺失值均已被回归的预测值所替代;
步骤103,重复步骤101至步骤102的操作,生成若干填补完成的数据集,作为填补原始数据的候选输出结果。
进一步的,所述基于编码器的多重填补方法,采用的神经网络模型包括编解码器,具体包括以下步骤:
步骤201,将原始数据输入模型,经过由数个线性层与激活函数的嵌套组成的编码器,输出映射成高维度的特征表示;
步骤202,再经过由数个线性层与激活函数的嵌套组成的解码器,将编码器的输出对称地缩放回原始维度,驱动学习原始数据中具有鲁棒性的特征;
步骤203,训练模型,输出填补完成的数据集;
所述模型训练采用的误差函数为均方误差函数,均方误差函数如下式:
进一步的,所述基于对抗生成网络的填补方法,采用的对抗生成网络模型包含生成器和判别器两个组成模块,具体包括以下步骤:
步骤301,将原始数据输入对抗生成网络模型,生成器观测真实的原始数据,并用真实数据预测缺失数据,输出完整的数据;
步骤302,为判别器提供额外提示信息,通过判别器判断得到完整的数据中的观测的真实值和填补的生成值;
步骤303,生成器根据原始数据的真实分布,输出填补完成的数据集。
有益效果:
本发明能够对原始数据进行缺失信息统计,自动搜寻满足条件的最大完整信息,并通过链式方程计算,机器学习,深度学习等方法,补全结构化数据,从而极大提高原始数据集的质量,能够有效控制预测任务中由于数据缺失导致的数据泄漏,样本非均衡,从而进一步导致的模型过拟合,模型稳健型下降等问题,对后期的预测任务提供了极大的便利,提高了数据的质量。
附图说明
图1是本发明的一种面向结构化数据的预处理和补全方法流程示意图;
图2是本发明实施例的含缺失值的原始数据进行0-1赋值生成一个0-1二值型矩阵的过程示意图;
图3是本发明实施例的对二值型矩阵进行行遍历生成行对应数组的过程示意图;
图4是本发明实施例的高度数组向直方图形式的转化过程示意图;
图5是本发明实施例的计算直方图构成的最大的矩形面积的过程示意图;
图6是本发明实施例的一种面向结构化数据的预处理和补全装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
数据缺失是指因为某些原因导致数据集中某个或某些属性的值丢失,是数据预处理过程中经常碰到的问题。数据缺失机制主要以下三类:完全随机缺失,随机缺失和非随机缺失,完全随机缺失是指数据的缺失是完全随机的,和变量自身或者其他变量的取值无关,实际中极为少见。随机缺失是指缺失值的丢失与本变量无关,而与数据集中其他(部分)变量有关。非随机缺失是指数据的缺失不仅与其他变量的取值有关,也和自身取值有关。
本发明提供了一种面向结构化数据的预处理、补全方法和系统,如图1所示,该系统包括数据缺失查询模块、最大完整信息矩阵采集模块和数据缺失值填充模块,该方法包括以下步骤:
步骤一,在所述数据缺失查询模块,对原始数据的缺失信息进行查询,统计缺失值,得到原始数据的缺失率。
具体的,针对输入的原始数据,数据缺失查询模块对原始数据中每一列特征变量进行遍历,依次统计每一列的缺失值即缺失数据的个数,并计算相应的缺失率。所述的缺失率为该列缺失数据的单元数除以该列数据总的单元数。
同时针对每一行数据进行遍历,依次统计每一行缺失数据的个数并计算相应的缺失率。最终针对缺失率进行由高到低排序,返回列名及其对应的缺失率。
数据集缺失信息的查询对于后续任务的决策分析具有很重要的影响,以上查询到的数据缺失信息是进行后续数据处理的重要依据,缺失率过大的特征会影响数据质量,需要进行剔除等操作。
步骤二,在最大完整信息矩阵采集模块,根据缺失率对原始数据进行行列剔除处理,然后进行行遍历生成行对应数组,再将数组转换为直方图形式,计算出对应直方图构成的最大的矩形面积,接着对所有矩形面积进行排序,采集得到最大的完整信息矩阵。
在包含缺失值的原始数据中采集最大的完整信息矩阵的目的是尽可能多的提取完整的原始数据信息,以便于基于此信息矩阵对原始数据的相关特征进行深度分析。
所述步骤二中的对原始数据进行行列剔除处理,具体为:根据原始数据缺失信息,剔除原始数据中缺失率大于70%的行和列,指定缺失率和指定列除外。
所述进行行遍历生成行对应数组,具体包括:
步骤a:将剔除了原始数据中缺失率大于70%的行和列后的数据进行0-1赋值,对数据中的空缺单元赋值为0,其余单元赋值为1,生成一个0-1二值型矩阵,如图2所示;
步骤b:针对所述的二值型矩阵的每一行,本实施例以所述生成的二值型矩阵的第3行为例,初始化一个数组,数组的长度为该二值型矩阵列的个数,以该数组中第j个元素为例,该元素的值为所在二值型矩阵第3行第j列的赋值为1,且向上数值连续为1的数量;若所在矩阵第i行第j列的赋值为0,说明数据中对应位置为空值,则该元素为0;依据上述判断方法生成第i行的高度数组,如图3所示;
步骤c:采用步骤b相同的方式生成每一行对应的高度数组。
所述将数组转换为直方图形式,计算出对应直方图构成的最大的矩形面积,具体包括:
步骤d:将所述的每一行对应的高度数组转化为直方图形式,数组中每一个元素视为高度为元素值,宽度为1的长方形,该数组即可视为直方图形式的数据结构,如图4所示,以本实施例数据的第3行为例。
步骤e:针对上述步骤d中的每一个长方形,本实施例中以第3行对应的高度数组转化的直方图中的第4个长方形的索引为例,以其为起点构造矩形,搜索其左右位置上连续且高度均大于等于自己的长方形,直至条件不满足并退出搜索,此时满足要求的最左侧长方形的索引与最右侧长方形的索引之间的距离即为所能够造的矩形的长,所述的第4个长方形的高即为所构成矩形的高,将长与高进行相乘即为当前直方图的第4个索引下所能构成的最大矩形面积,如图5所示。
步骤f:采用步骤e相同的方式依次遍历每一行,计算出对应所能构成的最大矩形面积。
所述对所有矩形面积进行排序,采集得到最大的完整信息矩阵,具体包括:
步骤g:对计算出的每一行对应所能构成的最大矩形面积进行排序,得到排序后最大矩形的四个顶点坐标。
步骤h:根据所述坐标在原始数据中提取对应的矩形数据,即可实现最大的完整信息矩形采集;
其中,若提取的数据中不完全包含指定列对应的列数据,从指定列的数据中按纵坐标的范围提取对应数据,与上述矩形数据进行横向拼接并删除重复列,即为最大的完整信息矩形;若提取的数据已经完全包含指定列对应的列数据,则直接返回最大的完整信息矩形,以便于基于此信息矩形对原始数据的相关特征进行深度分析。
步骤三,在数据缺失值填补模块,采用基于链式方程进行的多重填补方法(MICE)或基于编码器的多重填补方法(MIDA)或基于对抗生成网络的填补方法(GAIN)三种数据填补方法对原始数据进行缺失值填补。
具体的,所述基于链式方程进行的多重填补方法(MICE),具体包括以下步骤:
步骤101,将原始数据的缺失值进行基础填补,填补的值为所在列的平均值或者众数,同时对填补值的位置进行标记;
步骤102,遍历数据中的每一列,将每一列数据作为预测目标对象,剩余其他列作为输入特征,利用回归模型(逻辑回归、树模型等)对上述的预测目标和输入特征进行回归计算,输出新的一列预测结果,将原始列标记的值替换为预测结果中对应位置的数值,替换后的列继续作为其他回归计算的输入特征;遍历直到所有列中的标记缺失值均已被回归的预测值所替代;
步骤103,重复步骤101至步骤102的操作,生成若干填补完成的数据集,作为MICE方法填补原始数据的候选输出结果。
所述基于编码器的多重填补方法(MIDA),是一种基于神经网络自编码器架构(Encoder-Decoder)的填补方法,即采用的神经网络模型包括编解码器,该方法具体包括以下步骤:
步骤201,将原始数据输入模型,经过由数个线性层与激活函数的嵌套组成的编码器,输出映射成高维度的特征表示;
步骤202,再经过由数个线性层与激活函数的嵌套组成的解码器,将编码器的输出对称地缩放回原始维度,驱动学习原始数据中具有鲁棒性的特征;
步骤203,训练模型,输出填补完成的数据集。
所述模型训练通过最小化生成数据和原始数据的误差,生成一个良好的表示层,以包含原始数据中绝大部分的信息;训练模型所采用的误差函数为均方误差函数(MeanSquare Error),均方误差函数如下式:
所述基于对抗生成网络的填补方法(GAIN),采用的对抗生成网络模型包含生成器和判别器两个组成模块,具体包括以下步骤:
步骤301,将原始数据输入对抗生成网络模型,生成器观测真实的原始数据,并用真实数据预测缺失数据,输出完整的数据;
步骤302,为判别器提供额外提示信息,通过判别器判断得到完整的数据中的观测的真实值和填补的生成值;
步骤303,生成器根据原始数据的真实分布,输出填补完成的数据集。
与前述一种面向结构化数据的预处理和补全方法的实施例相对应,本发明还提供了一种面向结构化数据的预处理和补全装置的实施例。
参见图6,本发明实施例提供的一种面向结构化数据的预处理和补全装置,包括一个或多个处理器,用于实现上述实施例中的一种面向结构化数据的预处理和补全方法。
本发明一种面向结构化数据的预处理和补全装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本发明一种面向结构化数据的预处理和补全装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种面向结构化数据的预处理和补全方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种面向结构化数据的预处理和补全方法,其特征在于,包括以下步骤:
步骤一,对原始数据的缺失信息进行查询,统计缺失值,得到原始数据的缺失率,具体为:
对原始数据中每一列特征变量进行遍历,依次统计每一列的缺失值即缺失数据的个数,并计算相应的缺失率;
同时针对每一行数据进行遍历,依次统计每一行缺失数据的个数并计算相应的缺失率;
最终针对缺失率进行由高到低排序,返回列名及其对应的缺失率;
步骤二,根据缺失率对原始数据进行行列剔除处理,然后进行行遍历生成行对应数组,再将数组转换为直方图形式,计算出对应直方图构成的最大的矩形面积,接着对所有矩形面积进行排序,采集得到最大的完整信息矩阵;
所述对原始数据进行行列剔除处理,具体为:根据原始数据缺失信息,剔除原始数据中缺失率大于70%的行和列,指定缺失率和指定列除外;
所述进行行遍历生成行对应数组,具体包括:
步骤a:将剔除了原始数据中缺失率大于70%的行和列后的数据进行0-1赋值,对数据中的空缺单元赋值为0,其余单元赋值为1,生成一个0-1二值型矩阵;
步骤b:针对所述的二值型矩阵的每一行,当在第i行时,初始化一个数组,数组的长度为该二值型矩阵列的个数,数组中第j个元素,第j个元素的值为所在二值型矩阵第i行第j列的赋值为1,且向上数值连续为1的数量;若所在矩阵第i行第j列的赋值为0,表示数据中对应位置为空值,则该元素为0;依据上述判断方法生成第i行的高度数组;
步骤c:采用步骤b相同的方式生成每一行对应的高度数组;
所述将数组转换为直方图形式,计算出对应直方图构成的最大的矩形面积,具体包括:
步骤d:将所述的每一行对应的高度数组转化为直方图形式,数组中每一个元素视为高度为元素值,宽度为1的长方形,该数组即可视为直方图形式的数据结构;
步骤e:针对上述步骤d中的每一个长方形,以其为起点构造矩形,搜索其左右位置上连续且高度均大于等于自己的长方形,直至条件不满足并退出搜索,此时满足要求的最左侧长方形与最右侧长方形之间的距离即为所能够造的矩形的长,长方形的高即为所构成矩形的高,将长与高进行相乘即为当前直方图所能构成的最大矩形面积;
步骤f:采用步骤e相同的方式依次遍历每一行,计算出对应所能构成的最大矩形面积;
所述对所有矩形面积进行排序,采集得到最大的完整信息矩阵,具体包括:
步骤g:对计算出的每一行对应所能构成的最大矩形面积进行排序,得到排序后最大矩形的四个顶点坐标;
步骤h:根据所述坐标在原始数据中提取对应的矩形数据,即可实现最大的完整信息矩形采集;
其中,若提取的数据中不完全包含指定列对应的列数据,从指定列的数据中按纵坐标的范围提取对应数据,与上述矩形数据进行横向拼接并删除重复列,即为最大的完整信息矩形;若提取的数据已经完全包含指定列对应的列数据,则直接返回最大的完整信息矩形;
步骤三,采用基于链式方程进行的多重填补方法或基于编码器的多重填补方法或基于对抗生成网络的填补方法,对原始数据进行缺失值填补。
2.如权利要求1所述的一种面向结构化数据的预处理和补全方法,其特征在于,所述的缺失率为该列或行缺失数据的单元数除以该列或行数据总的单元数。
3.如权利要求1所述的一种面向结构化数据的预处理和补全方法,其特征在于,所述基于链式方程进行的多重填补方法,具体包括以下步骤:
步骤101,对原始数据的缺失值进行基础填补,填补的值为所在列的平均值或者众数,同时对填补值的位置进行标记;
步骤102,遍历数据中的每一列,将每一列数据作为预测目标对象,剩余其他列作为输入特征,利用回归模型对预测目标和输入特征进行回归计算,输出新的一列预测结果,将原始列标记的值替换为预测结果中对应位置的数值,替换后的列继续作为其他回归计算的输入特征;遍历直到所有列中的标记缺失值均已被回归的预测值所替代;
步骤103,重复步骤101至步骤102的操作,生成若干填补完成的数据集,作为填补原始数据的候选输出结果。
5.如权利要求1所述的一种面向结构化数据的预处理和补全方法,其特征在于,所述基于对抗生成网络的填补方法,采用的对抗生成网络模型包含生成器和判别器两个组成模块,具体包括以下步骤:
步骤301,将原始数据输入对抗生成网络模型,生成器观测真实的原始数据,并用真实数据预测缺失数据,输出完整的数据;
步骤302,为判别器提供额外提示信息,通过判别器判断得到完整的数据中的观测的真实值和填补的生成值;
步骤303,生成器根据原始数据的真实分布,输出填补完成的数据集。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211068167.2A CN115145906B (zh) | 2022-09-02 | 2022-09-02 | 一种面向结构化数据的预处理和补全方法 |
US18/143,059 US11841839B1 (en) | 2022-09-02 | 2023-05-03 | Preprocessing and imputing method for structural data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211068167.2A CN115145906B (zh) | 2022-09-02 | 2022-09-02 | 一种面向结构化数据的预处理和补全方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115145906A CN115145906A (zh) | 2022-10-04 |
CN115145906B true CN115145906B (zh) | 2023-01-03 |
Family
ID=83416342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211068167.2A Active CN115145906B (zh) | 2022-09-02 | 2022-09-02 | 一种面向结构化数据的预处理和补全方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11841839B1 (zh) |
CN (1) | CN115145906B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI819880B (zh) * | 2022-11-03 | 2023-10-21 | 財團法人工業技術研究院 | 硬體感知零成本神經網路架構搜尋系統及其網路潛力評估方法 |
CN116955993B (zh) * | 2023-08-24 | 2024-03-12 | 中国长江电力股份有限公司 | 一种混凝土性态多元时序监测数据补全方法 |
CN117708625B (zh) * | 2024-01-09 | 2024-06-18 | 水利部交通运输部国家能源局南京水利科学研究院 | 一种乏数据背景下大坝监测历史数据填补方法 |
CN117591920A (zh) * | 2024-01-17 | 2024-02-23 | 北京科百宏业科技有限公司 | 历史数据的补充方法、装置、电子设备和可读存储介质 |
CN117828373A (zh) * | 2024-03-05 | 2024-04-05 | 四川省医学科学院·四川省人民医院 | 基于集合划分和自监督学习的缺失数据填充方法及系统 |
CN117892703B (zh) * | 2024-03-15 | 2024-06-28 | 青岛诺亚信息技术有限公司 | 一种理化表单自动联想录入功能的实现方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165664A (zh) * | 2018-07-04 | 2019-01-08 | 华南理工大学 | 一种基于生成对抗网络的属性缺失数据集补全与预测方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003085493A2 (en) * | 2002-03-29 | 2003-10-16 | Agilent Technologies, Inc. | Method and system for predicting multi-variable outcomes |
CN109800915A (zh) * | 2019-01-16 | 2019-05-24 | 同济大学 | 一种基于缺失数据集的交通流量预测方法 |
JP2020154828A (ja) * | 2019-03-20 | 2020-09-24 | 富士通株式会社 | データ補完プログラム、データ補完方法及びデータ補完装置 |
CN110175168B (zh) * | 2019-05-28 | 2021-06-01 | 山东大学 | 一种基于生成对抗网络的时间序列数据填补方法及系统 |
CN110349652B (zh) * | 2019-07-12 | 2022-02-22 | 之江实验室 | 一种融合结构化影像数据的医疗数据分析系统 |
US11568328B2 (en) * | 2021-04-21 | 2023-01-31 | Collibra Nv | Systems and methods for predicting correct or missing data and data anomalies |
CN113128781B (zh) * | 2021-04-30 | 2021-12-10 | 大连理工大学 | 一种自动构建智能化模型与算法的分布式工业能源运行优化平台 |
CN114253959B (zh) * | 2021-12-21 | 2024-07-12 | 大连理工大学 | 一种基于动力学原理与时间差分的数据补全方法 |
CN114461618A (zh) * | 2021-12-31 | 2022-05-10 | 国网河北省电力有限公司营销服务中心 | 一种计量缺失数据补全方法、装置及终端设备 |
-
2022
- 2022-09-02 CN CN202211068167.2A patent/CN115145906B/zh active Active
-
2023
- 2023-05-03 US US18/143,059 patent/US11841839B1/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165664A (zh) * | 2018-07-04 | 2019-01-08 | 华南理工大学 | 一种基于生成对抗网络的属性缺失数据集补全与预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115145906A (zh) | 2022-10-04 |
US11841839B1 (en) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115145906B (zh) | 一种面向结构化数据的预处理和补全方法 | |
CN110245709B (zh) | 基于深度学习和自注意力的3d点云数据语义分割方法 | |
CN109960737B (zh) | 半监督深度对抗自编码哈希学习的遥感影像内容检索方法 | |
CN101271526B (zh) | 一种图像处理中物体自动识别并三维重建的方法 | |
CN110135227B (zh) | 一种基于机器学习的激光点云室外场景自动分割方法 | |
CN110826618A (zh) | 一种基于随机森林的个人信用风险评估方法 | |
CN106919719A (zh) | 一种面向大数据的信息补全方法 | |
CN116186594B (zh) | 基于决策网络结合大数据实现环境变化趋势智能检测方法 | |
CN117556369B (zh) | 一种动态生成的残差图卷积神经网络的窃电检测方法及系统 | |
CN113656547A (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN114549672A (zh) | 一种面向三维点云目标检测的数据编码方法 | |
CN116596411B (zh) | 一种结合两票检测的生产安全评价方法及系统 | |
JP3720573B2 (ja) | 画像検索装置及び方法 | |
CN116861022A (zh) | 一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法 | |
CN104484869A (zh) | 面向排序测度特征的图像匹配方法及系统 | |
Li | Fast Hough Transform for multidimensional signal processing | |
CN109739839A (zh) | 数据空值处理方法、装置及终端设备 | |
CN113887718B (zh) | 一种基于相对激活率的通道剪枝方法和装置及轻量级流量特征提取网络模型简化的方法 | |
CN111563033B (zh) | 一种模拟数据的生成方法和装置 | |
CN109189966A (zh) | 一种基于形状特征的服饰纹样检索方法 | |
CN118334872B (zh) | 用于交通设备违法配置的数据处理方法和装置 | |
CN112633763B (zh) | 一种基于人工神经网络ANNs的等级保护风险研判方法 | |
CN118113736A (zh) | 一种提升机载数据库数据检索性能稳定性的方法和装置 | |
CN112561811A (zh) | 一种大数据处理方法及系统 | |
CN114580635A (zh) | 一种基于嵌入式aiot平台的神经网络模型裁剪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |