CN115345319B - 基于缺失率与异常度度量的不完备数据集建模及处理方法 - Google Patents

基于缺失率与异常度度量的不完备数据集建模及处理方法 Download PDF

Info

Publication number
CN115345319B
CN115345319B CN202210961634.8A CN202210961634A CN115345319B CN 115345319 B CN115345319 B CN 115345319B CN 202210961634 A CN202210961634 A CN 202210961634A CN 115345319 B CN115345319 B CN 115345319B
Authority
CN
China
Prior art keywords
data set
processing
value
missing
interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210961634.8A
Other languages
English (en)
Other versions
CN115345319A (zh
Inventor
王国涛
孙志刚
张敏
于松屹
耿仁轩
王佳琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heilongjiang University
Original Assignee
Heilongjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heilongjiang University filed Critical Heilongjiang University
Priority to CN202210961634.8A priority Critical patent/CN115345319B/zh
Publication of CN115345319A publication Critical patent/CN115345319A/zh
Application granted granted Critical
Publication of CN115345319B publication Critical patent/CN115345319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

基于缺失率与异常度度量的不完备数据集建模及处理方法,属于多余物检测技术领域。本发明为了解决现有的多余物检测方法忽略了对异常值的探索的问题和针对缺失值的填补方法很少将应用对象扩展到数据集层面的问题。本发明对数据集中容易忽视的异常值问题进行了充分考虑,并引入数据结构领域的二分法来缩小区间长度和找寻数据分布规律,构建静态或固定结构数据集的不完备数据处理模型,在模型建立阶段先对不完备数据处理模型异常值处理部分的规则进行了探索,后对不完备数据处理模型缺失值处理部分的规则进行了探索,最终针对多余物定位数据集,参照不完备数据处理模型的处理过程建立不完备数据处理模型,并基于模型对多余物定位数据进行处理。

Description

基于缺失率与异常度度量的不完备数据集建模及处理方法
技术领域
本发明属于多余物检测技术领域,具体涉及一种多余物定位数据集建模及处理方法
背景技术
在机器学习中,“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限 而已。”由此可以看出数据和特征的重要性。在机器学习中,特征是某个具体事物的一种属 性,它的不同取值可以形成不同的数据。同一特征的多个取值可以称为同类型的特征数据。机器学习中的数据集往往是由多种类型的特征数据构建而成的。通常情况下,高质量的特 征数据可以形成高质量的数据集,这往往比性能良好的分类算法更加重要。归根到底,特 征是影响分类学习器预测性能的关键因素,所以对由特征数据形成的数据集的处理效果越 好,在数据集上训练得到的分类学习器的分类性能就越好,应用到实际问题上取得的预测精度就越高。然而在现实情况中,当决定使用机器学习方法来解决某个分类问题,并开始 尝试提取特征、计算特征数据、构建数据集的时候,因为各种因素的限制,在一开始并不 能得到一个完备的数据集,通常里面包含各种类型的“脏”数据。这里的“脏”数据是指那些不符合要求,以及不能直接进行处理和分析的数据。常见的“脏”数据包括缺失值、异常值、不一致的值、含有特殊符号的数据等。当尝试使用机器学习的分类算法来实现不 同类别信号的分类时,当包含由不同类别信号的特征数据构建的数据集中存在缺失值和异 常值时,会对分类学习器的预测效果产生较大的影响。因此,机器学习领域中对“脏”数 据的处理,尤其是对缺失值与异常值的处理显得尤为重要。
目前对不完备数据处理的研究主要集中在缺失值上,并且针对不同应用场景下的特征 数据,研究人员通过对比最终得出一个最佳的缺失值填补方法或填补模型。由此可以看出, 目前针对不完备数据的处理存在以下不足:
首先,机器学习的数据集中除了广泛存在的缺失值问题,异常值也是常见的,但在实 际使用的过程中,因为特征数据的异常值本身也是一种代数数值,所以经常忽视对它的处 理。或者说,现有不完备数据处理研究集中在缺失值上,忽略了对异常值的探索及对两者的综合考虑。
其次,现有的缺失值填补方法未深入结合数据集存在缺失值的比例的现实问题,局限 在找寻某个最优的填补方法,或优化填补方法使其性能达到最佳。往往这些方法应对新数 据集的填补效果不佳,造成过拟合现象。有时候,当同一个数据集的缺失率不同时,上一次表现最佳的填补方法可能并不突出。或者,当其他学者将某个最佳的填补方法应用到其 他领域数据集的处理上,即使两个数据集的缺失概率相同,在当前所在领域的数据集上表 现最佳的填补方法在其他领域的数据集上可能表现得很糟糕。往往这些方法的通用性不高, 可拓展使用性能不强,具备的参考价值有限。
最后,现有缺失值填补方法很少将应用对象扩展到数据集层面,只对特征数据进行研 究,如特征数据的组成结构、代数数值的分布范围等。往往对某个领域的同种组成结构和 相似分布范围的数据集适用的不完备数据处理方法的实用价值和通用性更高。
针对多余物的检测技术而言,多余物数据本身在采集时就存在各种因素的影响,因此 会使得上述问题更加突出,从而严重影响了利用机器学习的方式对多余物进行检测的准确 率。
发明内容
本发明为了解决现有的多余物检测方法忽略了对异常值的探索的问题和针对缺失值的 填补方法很少将应用对象扩展到数据集层面的问题,从而影响力利用深度学习技术对多余 物的检测。
基于缺失率与异常度度量的不完备数据集建模方法,包括以下步骤:
S1、进行异常值处理,具体过程包括以下步骤:
S11、确定异常值处理的初始边界条件为X%,即对多余物定位数据集的完备数据集做 X%比例的异常化处理;利用分类学习器在未经处理的数据集上进行预测并取得一个预测精 度,再利用分类学习器分别在使用直接丢弃法和数值替换法处理后的数据集上进行预测并 分别取得多个预测精度;
分析分类学习器在未经处理的数据集上取得的预测精度是否高于在使用直接丢弃法和 数值替换法处理后的数据集上取得的预测精度;根据分析结果,选择以1%的幅度上浮或下 调边界条件,重新对该结构的完备数据集做新的比例的异常化处理;通过循环上述过程,当数据集的异常度为某个数值时,分类学习器在未经处理的数据集上取得的预测精度要高 于在使用直接丢弃法和数值替换法处理后的数据集上取得的预测精度;以此时异常度对应 的数值作为异常值边界条件;
S12、在异常值边界条件的适用范围内,通过二分法寻找直接丢弃法的相对适用条件;
S2、进行缺失值处理,具体过程包括以下步骤:
S21、确定缺失值处理的初始边界条件为Y%,即对多余物定位数据集的完备数据集做 Y%比例的缺失化处理;
分别使用直接丢弃法和数值填充法进行处理,比较分类学习器在使用数值填充法处理 后的数据集上取得的预测精度是否低于在使用直接丢弃法处理后的数据集上取得的;根据 比较结果,选择以1%的幅度上浮或下调边界条件,重新对完备数据集做新的比例的缺失化处理;
通过循环上述过程,确定当数据集的缺失率为某个数值时,分类学习器在使用数值填 充法处理后的数据集上取得的预测精度要低于或等于在使用直接丢弃法处理后的数据集上 取得的预测精度,即当数据集的缺失率小于该某个数值时,认定该缺失率的具体数值为缺失值处理方法对应的边界条件;
S22、在缺失值处理方法边界条件的适用范围内,通过二分法寻找直接丢弃法的相对适 用条件;
S3、针对于多余物定位数据集,基于S1、S2即确定了不完备数据处理模型。
基于缺失率与异常度度量的不完备数据集处理方法,包括以下步骤:
步骤一:将待处理的多余物定位数据集记为当前数据集A;同时获取数据集A的同种 结构的不完备数据集,获取当前数据集A中异常值的个数,进而计算数据集的异常度;
所述的同种结构的不完备数据集的确定过程:将数据集A的同种结构的完备数据集, 带入不完备数据处理模型进行处理,得到获取数据集A的同种结构的不完备数据集;所述 的不完备数据处理模型为所述的基于缺失率与异常度度量的不完备数据集建模方法确定的 不完备数据处理模型;
步骤二:判断当前数据集A的异常度是否在不完备数据处理模型的异常值处理部分的 边界条件内;如果判断结果为真,表明当前数据集在能够进行异常值处理的范围内,继续 步骤三的处理;
步骤三:判断当前数据集A的异常度是否在不完备数据处理模型的异常值处理部分适 用直接丢弃法的相对适用条件内;如果判断结果为假,表明数据集的异常度在边界条件和 相对适用条件范围内,将异常值处理成空值进行统一处理,并继续步骤四的处理;如果判断结果为真,表明数据集的异常度较小,则对当前数据集中的异常值使用直接丢弃法进行 处理,跳过步骤四,直接进入步骤五进行处理;
步骤四:将当前数据集A中的异常值处理成空值,即缺失值;
步骤五:集中获取当前数据集A中的缺失值个数,进而计算数据集的缺失率;
步骤六:判断当前数据集A的缺失率是否在不完备数据处理模型的缺失值处理部分的 边界条件内;如果判断结果为真,表明当前数据集在能够进行缺失值处理的范围内,继续 步骤七的处理;如果判断结果为假,表明当前数据集的质量已经比较低下,不对该数据集进行处理;
步骤七:判断当前数据集A的缺失率是否在不完备数据处理模型的缺失值处理部分适 用直接丢弃法的相对适用条件内;如果判断结果为假,表明数据集的缺失率在边界条件和 相对适用条件范围内,表明当前数据集在值得处理的范围内,继续步骤八的处理;如果判断结果为真,表明数据集的缺失率较小,则对当前数据集中的缺失值使用直接丢弃法进行 处理;
步骤八:根据当前数据集的缺失率的数值大小,确定其归属于不完备数据处理模型的 具体缺失率区间,并应用该缺失率区间对应的数值填充法对当前数据集进行缺失值处理。
有益效果:
本发明提出了一种基于缺失率与异常度度量的不完备数据集建模及处理方法,给出一 套可以直接判断的方式,例如满足什么条件时可以使用不完备数据处理模型,满足什么条 件时不完备数据处理模型使用直接丢弃法取得的处理效果最好,满足什么条件时模型使用统计法填充、插值法填充或预测模型填充取得的处理效果更好。这样,针对单个固定结构 的不完备数据集可以建立一套不完备数据处理模型。当面对同种结构的新的不完备数据集 时,建立的不完备数据处理模型可以直接“照章办事”,使用更加方便。同时本发明不仅考 虑了对异常值的探索,形成了更加统一的处理方式,而且本发明将二者应用对象扩展到数据集层面的问题,可以极大地保证数据处理的效果。具体而言,本发明以下突出的特点:
(1)借鉴机器学习领域分类学习器的设计原理,提出一种基于缺失率与异常度度量的 不完备数据集建模及处理方法。根据以往经验构建一个通用的不完备数据处理模型,可以 快速准确的应用到同种结构的新多余物检测的不完备数据集的处理上。
(2)根据缺失率的定义规则,新定义了异常度的概念,有效衡量了数据集中数据的异 常程度。将缺失率与异常度紧密结合,对符合条件的异常值进行缺失处理,再使用缺失值 处理方法集中处理,补充了异常值研究的空缺。
(3)创新性的将数据结构中二分法应用到缺失率区间的划分上,对于快速缩小区间长 度作用明显。进一步提出的根据“连续三次分析结果一致”和“辅助区间长度低于总区间 长度的1/10”的规则,有效保证了利用二分法来划分不同缺失率区间的方法的可行性。
(4)针对不同研究方向或领域的静态或固定结构的数据集构建的通用不完备数据处理 模型,随着历史经验的不断增加,模型的泛化性与准确性会不断增强,可以推广应用至相 近领域或相似结构的不完备数据处理中,具有重要的参考和实用价值。
附图说明
图1为不完备数据的处理流程示意图;图2为利用箱型图进行异常值检测的原理图; 图3为寻找异常值处理中直接丢弃法的适用条件示意图;图4(a)、图4(b)为某个缺失率区间内适用的具体的数值填充法的示意图;图5为只进行三次分析就得出分析结果一致的情况的示意图;图6为多个缺失率区间的划分效果示意图;图7为不完备数据处理模型 使用的流程示意图;图8为异常值处理部分的示意图;图9为缺失值处理部分的示意图; 图10为一个新的多余物定位数据集的箱型图。
具体实施方式
本发明提出的基于缺失率与异常度度量的不完备数据集建模及处理方法,实际上是一 个不断尝试来构建不完备数据处理模型的过程,以及利用处理模型进行处理的过程。在实 际情况中,机器学习数据集中通常会同时存在缺失值和异常值,所以在构建不完备数据处理模型的过程中需要将对缺失值和对异常值的处理结合起来进行综合考虑。本发明通过研 究同类型的其他正常数据,来尝试寻找出其他正常数据之间的线性或非线性关系,并根据 该关系给出一个“预测”的数值进行异常值的替换。进一步的,对于数据集中同时存在的 缺失值与异常值,本发明计划先将其中的异常值筛选出来,并统一将它们处理成缺失值。这样,新处理得到的缺失值与数据集中原本就存在的缺失值可以进行集中处理。实际上, 参考上述对缺失值和异常值的处理思路,可以发现:“将异常值先集中处理成缺失值,再对 所有缺失值进行集中处理”的方法,原理上还是一致的,但是极大的提高了处理效率。根 据该研究思路,本发明给出的不完备数据处理模型建模的过程主要包括两部分内容:第一部分是确定不完备数据处理模型在异常值处理部分的功能。第二部分是确定不完备数据处 理模型在缺失值处理部分的功能。下面结合具体实施方式对本发明做进一步说明。
具体实施方式一:结合图1说明本实施方式,本实施方式为一种基于缺失率与异常度 度量的不完备数据集建模及处理方法:
S1、异常值处理:
异常度:数据集中含有异常值的数据个数占数据总个数的比例。异常度是用来描述数 据集的异常程度。需要说明的是,本发明中采用箱型图检测原理来判定数据集中的异常值。 选择多余物定位数据集的完备数据集作为研究对象,根据不完备数据处理模型进行处理,异常值处理部分的具体实现步骤如下:
首先,寻找进行异常值处理的边界条件。针对多余物检测领域,不管是现有的多余物 定位数据集,还是多余物材质数据集和多余物质量数据集,它们的异常度都在10%以内。 再经过对使用到的多个公开数据集的研究与总结,可以得出以下基本结论:绝大多数数据集的异常度都收敛在20%以内,甚至10%。所以本发明以20%为异常值的多余物定位数据 集初始边界条件,用于判断当该结构数据集的异常度超过20%时,使用基于数值替换法的异常值处理方法是否对提高数据集的质量有作用,这体现在分类学习器能否在处理后的数 据集上取得更高的预测精度。具体来说,对多余物定位数据集的完备数据集做20%比例的 异常化处理。先利用分类学习器在未经处理的数据集上进行预测并取得一个预测精度,再 利用分类学习器分别在使用直接丢弃法和数值替换法处理后的数据集上进行预测并分别取 得多个预测精度。在此基础上,分析分类学习器在未经处理的数据集上取得的预测精度是 否高于在使用直接丢弃法和数值替换法处理后的数据集上取得的预测精度。根据分析结果,选择以1%的幅度上浮或下调边界条件,重新对该结构的完备数据集做新的比例的异常化处 理。通过循环上述过程,当数据集的异常度为某个数值时,分类学习器在未经处理的数据 集上取得的预测精度要高于在使用直接丢弃法和数值替换法处理后的数据集上取得的预测 精度。即当数据集的异常度小于该数值时,本发明提出的异常值处理方法才能发挥作用。认定该异常度的具体数值为新的边界条件。
其次,在边界条件的适用范围内,通过二分法寻找直接丢弃法的相对适用条件:将零 异常度到新的边界条件对应异常值的具体数值视为一个区间,并且区间的上限为新的边界 条件对应异常值的具体数值,下限为零异常度。
利用式(1)寻找当前上限与下限之间的中点,即当前异常度区间的中值,称之为第一 中值。需要说明的是,当异常度区间的长度的具体数值为奇数时,先将该数值增加1%调整 为偶数后,再获取新的偶数式异常度区间的中值。如某个异常度区间的上限为21%,下限 为0%,则当前异常度区间的长度为21%。根据上述处理方法,先将区间长度增加1%调整 为22%后,再取中值为11%。
式中,high表示异常度(或缺失率)区间的上限,也即边界条件对应异常值(缺失值) 的具体数值。low表示异常度(或缺失率)区间的下限,也即零异常度(零缺失率)。
对完备数据集做比例为第一中值的异常化处理,并分别使用直接丢弃法和数值替换法 进行处理,分析分类学习器在使用直接丢弃法处理后的数据集上取得的预测精度是否高于 在使用数值替换法处理后的数据集上取得的。若判断结果为假,则证明直接丢弃法在当前数据集上的作用效果不如数值替换法。这样,调整得到新的异常度区间,区间的上限调整 为第一中值对应的具体数值,区间的下限保持零异常度不变。继续利用式(1)寻找当前上 限和下限之间的中点,称之为第二中值。继续对该结构的完备数据集做比例为第二中值的 异常化处理,并同样分别使用直接丢弃法和数值替换法进行处理,分析分类学习器在使用 直接丢弃法处理后的数据集上取得的预测精度是否高于在使用数值替换法处理后的数据集 上取得的。若判断结果仍然为假,根据上述步骤,继续调整得到新的异常度区间,并且将第二中值视为新的上限,保持下限不变。如此往复判断与调整,直至判断结果为真。在判 断结果为真的的情况下,分类学习器在使用直接丢弃法处理后的数据集上取得的预测精度 要高于在使用数值填充法处理后的数据集上取得的。认定当前第n中值对应的具体数值为直 接丢弃法的相对适用条件。即,当数据集的异常度小于该数值时,使用直接丢弃法的处理效果更好。上述过程如图3所示。
至此,得到了异常值处理的边界条件和使用直接丢弃法的相对适用条件。从图1中可 以发现,在相对适用条件到边界条件之间的区间范围内,还没有进行处理。因此,作为异常值处理的最后一个步骤,需要通过使用二分法来寻求相对适用条件到边界条件之间的区间范围内,多个小的异常度区间适用的具体的数值填充法。需要说明的是,在实际处理过程中,如果某个数据集的异常度在相对适用条件至边界条件范围内,会直接将这些异常值处理成缺失值,进而在缺失值处理部分进行集中处理,以提高整体的处理效率。因此,在 本发明中不对该部进行单独处理,而是集中在缺失值处理部分。
S2、缺失值处理:
缺失值处理与异常值相比,缺失值更容易被判断出来,所以对它的寻找不需要借助类 似箱型图的方法。另外,缺失值与异常值的存在,对完备数据集的影响是类似的。因此, 在这一部分,不再介绍缺失值的寻找与判断方法,以及不再介绍缺失值的危害。在机器学习领域,对缺失值的常用处理方法同样包括直接丢弃法和数值填充法(数值替换法)。前面 已经对这两种方法进行了具体描述,本发明也在此基础上展开缺失值处理部分的研究。
本发明开展缺失值处理的思想是:对完备数据集进行不同比例的缺失化处理,分析数 据集在什么缺失率区间范围内使用直接丢弃法取得的处理效果最好,在什么缺失率范围内 使用数值填充法取得的处理效果最好,甚至具体到在哪些小的缺失率区间范围内使用某个具体的数值填充法取得的处理效果最好。值得注意的是,如果数据集中的缺失率超过了60%, 此时无论采用直接丢弃法还是数值填充法来处理数据集都没有任何价值。不过,考虑到当 时具体的数值填充法仅包括统计法填充和插值法填充,并未应用目前广泛使用的预测模型 填充。因此,本发明在前述结论的基础上,首先探讨现有的60%缺失率的边界条件是否同 样适用于预测模型填充。进一步的,本发明再利用数据结构领域常用的二分法来不断缩小 缺失率区间,进而达到在多个小的缺失率区间范围内探索适用的具体的缺失值处理方法的目的。需要再次说明的是,在本发明设计的不完备数据处理模型中,当数据集的异常度位 于异常值处理部分确定的边界条件至相对适用条件之间时,会选择把异常值处理成缺失值, 再与数据集中原本就存在的缺失值合并到一起,在缺失值处理部分进行统一处理,即具体 的缺失值处理方法时,这里的缺失值是把转化的异常值考虑在内的。具体实现步骤如下:
首先,验证现有的60%缺失率的边界条件是否同样适用于当前存在多种缺失值处理方 法的情况。该步骤作为开展后续研究的基础,用于判断当该结构数据集的缺失率超过60% 时,使用基于数值填充法的缺失值处理方法是否对提高数据集的质量有作用,更进一步的说,用于判断分类学习器能否在使用基于数值填充法处理后的缺失率为60%的数据集上取 得理想的预测精度。具体来说,对该结构的完备数据集做60%比例的缺失化处理,并分别 使用直接丢弃法和数值填充法进行处理,比较分类学习器在使用数值填充法处理后的数据 集上取得的预测精度是否低于在使用直接丢弃法处理后的数据集上取得的。根据比较结果,选择以1%的幅度上浮或下调边界条件,重新对完备数据集做新的比例的缺失化处理。同样 通过循环上述过程,可以得出:当数据集的缺失率为某个数值时,分类学习器在使用数值 填充法处理后的数据集上取得的预测精度要低于或近似等于在使用直接丢弃法处理后的数 据集上取得的。这表明:当数据集的缺失率为一个较大的比例时,此时使用数值填充法来进行缺失值处理已经没有任何意义,数据集的质量已经很差了。还不如直接丢弃含有缺失 值的数据,让分类学习器在剩余的较小比例的完整的数据上进行预测。即当数据集的缺失 率小于该数值时,本发明提出的缺失值处理方法才能发挥作用。认定该缺失率的具体数值 为新的边界条件。
需要说明的是,不同于异常值处理部分,这里并未将分类学习器在使用数值填充法与 直接丢弃法处理后的数据集上取得的预测精度与在未处理的数据集上取得的进行对比,这 是因为如果数据集中某条数据存在缺失值,该条数据属于不完整的,在软件程序中会报错,并且不会进行下一步处理。而异常值虽然有别于正常值,但却是一个真实存在的代数数值, 在软件程序中不会报错,并且能够进行下一步处理。
其次,在边界条件的适用范围内,通过二分法寻找直接丢弃法的相对适用条件。类似 的,将零缺失率到新的边界条件对应的缺失值的具体数值视为一个区间,并且区间的上限 为新的边界条件对应缺失值的具体数值,下限为零缺失率。利用式(1),可以寻找当前上限与下限之间的中点,即当前缺失率区间的中值,称之为第一中值。同样需要说明的是, 当缺失率区间长度的数值为奇数时,需要对其进行类似“向上取整”的处理,具体参照异常值处理部分。
对该结构的完备数据集做比例为第一中值的缺失化处理,并分别使用直接丢弃法和数 值填充法进行处理,分析分类学习器在使用直接丢弃法处理后的数据集上取得的预测精度 是否高于在使用数值填充法处理后的数据集上取得的。若判断结果为假,则证明直接丢弃法在当前数据集上的作用效果不如数值填充法。这样,调整得到新的缺失率区间,区间的 上限调整为第一中值对应的具体数值,区间的下限保持零缺失率不变。继续利用式(1)寻 找当前上限和下限之间的中点,称之为第二中值。继续对该结构的完备数据集做比例为第 二中值的缺失化处理,并同样分别使用直接丢弃法和数值填充法进行处理,分析分类学习 器在使用直接丢弃法处理后的数据集上取得的预测精度是否高于在使用数值填充法处理后的数据集上取得的。若判断结果仍然为假,根据上述步骤,继续调整得到新的缺失率区间, 并且将第二中值视为新的上限,保持下界不变。如此往复判断与调整,直至判断结果为真。 在判断结果为真的情况下,分类学习器在使用直接丢弃法处理后的数据集上取得的预测精 度要高于在使用数值填充法处理后的数据集上取得的。认定当前第n中值对应的具体数值为 直接丢弃法的相对适用条件。即,当数据集的缺失率小于该数值时,使用直接丢弃法进行 处理的效果更好。上述过程如图1所示,与异常值处理部分类似。
需要说明的是,在缺失值处理部分寻找边界条件以及相对适用条件的过程中,均是判 断分类学习器在经过直接丢弃法处理后的数据集上取得的预测精度要稍高于在经过数值填 充法处理的数据集上取得的。这似乎是矛盾的,所以在此说明两者之间的差异。前者在判断边界条件时,数据集的初始缺失率为60%,即使是经过调整后得到的新的边界条件,它 对应缺失率的具体数值也是较大的。因此,在这种情况下,数据集中存在缺失值的数据太 多,剩余完整的可利用的数据太少,认为数值填充法已经不能够很好的填补存在的缺失值。 反而是直接丢弃掉数据集中含有缺失值的数据,用剩余的完整的数据组成新的数据集,这样分类学习器取得的预测精度反而更高。对应的,后者在判断相对适用条件时,默认数据 集的缺失率较小。在这种情况下,直接丢弃这部分缺失值对整个数据来说损失不大。反而 因为“及时止损”,分类学习器在完整的数据集上取得的精度更高。相反的,如果利用数值 填充法对这很小一部分的缺失值进行处理,虽然在一定程度上拓展了数据集的维度,但里面存在的分布不规则的数据会降低分类学习器的“判断灵敏性”。
接着,通过使用二分法来寻求相对适用条件到边界条件之间的区间范围内,多个小的 缺失率区间适用的具体的数值填充法。将相对适用条件到边界条件视为一个区间,称之为 总区间,则区间的上限为边界条件对应缺失值的具体数值,下限为相对适用条件对应缺失值的具体数值。利用式(1),可以寻找当前上限与下限之间的中点,即当前缺失率区间的 中值。一样的,对于长度数值为奇数的缺失率区间,对其进行“向上取整”的处理,下文不再赘述。对该结构的完备数据集做比例为当前中值的缺失化处理。分别使用统计法填充、插值法填充和预测模型填充等具体的数值填充法进行处理,比较分类学习器在分别使用三种具体的数值填充法处理后的数据集上取得的预测精度,得出最高预测精度对应的数值填充法。调整得到新的缺失率区间,区间的上限调整为当前的中值对应的具体数值,区间的下限保持相对适用条件不变。继续利用式(1)寻找当前上限和下限之间的中点,并同样对该结构的完备数据集做比例为当前中值的缺失化处理。再次分别使用三种具体的数值填充法进行处理,比较分类学习器在分别使用三种具体的数值填充法处理后的数据集上取得的预测精度,得出最高预测精度对应的数值填充法。将本次的比较结果与上一次的比较结果进行对比,判断两次比较结果是否一致(最高预测精度对应的数值填充法相同)。这样,调整得到新的缺失率区间,区间的上限调整为当前的中值对应的具体数值,区间的下限保持 相对适用条件不变,重复一次上述步骤。同样得出本次分类学习器取得最高预测精度的数 据集对应的具体数值填充法。将本次的比较结果与前两次的比较结果进行对比,判断三次 分析结果是否一致。若三次分析结果一致,如图4(a)所示,则将第一次分析时对应的中值视为上限,直接丢弃法的相对适用条件视为下限,得到一个缺失率区间。认定当前的具 体数值填充法为得到的新的缺失率区间上的最佳缺失值处理方法。若前三次分析结果不一 致,则继续采用同样的步骤得到第4、5、……n次的分析结果,并分别以当前的分析结果 与相近的前两次的分析结果进行对比,直至连续三次的分析结果一致,如图4(b)所示。 这样,调整得到新的缺失率区间,区间的上限为连续三次分析中第一次分析对应中值的具 体数值,区间的下限为直接丢弃法的相对适用条件。上述判断过程如图4所示。
需要说明的是,这里提出的“连续三次分析结果一致”的方法,是本发明经过研究并 在多次实践中总结所得,并且它是被验证广泛有效的。实际上,不管是使用的“连续三次分析结果一致”的方法还是二分法,都是通过分析不同缺失率或异常度的数据集的剩余数据的分布规律,来达到寻找最佳缺失值或异常值处理方法的目的。实际上,在数据结构中,二分法是一种在有序数组中查找特定元素的搜索算法。如前文所述,如果将相对适用条件视为下界,将边界条件视为上界,则可以将这个区间称为总区间。以此类推,在本发明中,二分法是一种将总区间快速划分为多个小区间的方法,如多个缺失率区间。而“连续三次分析结果一致”的方法,则是给出了确实每个小区间的上界和下界的条件。对于每个小区间,它的区间长度不会很大,实际上这就保证了在这个区间长度范围内的数据分布较为稳定且相似的,这也就保证了在这个小区间内使用某个具体的缺失值或异常值处理方法是稳健的。
在实际情况中,如果总区间的长度过大,很可能连续三次使用二分法得到中值对应的 最佳的缺失值处理方法是一样的。这时,不能草率的根据“连续三次分析结果一致”直接 认定某个具体的数值填充法是适用当前总区间的。不仅仅是总区间,如果总区间内部的某个缺失率区间的长度过大,也会导致同样的问题。因此,为了避免因缺失率区间的长度过大带来的只利用“连续三次分析结果一致”方法不准确的问题,进一步做出补充规定。在 满足“连续三次分析结果一致”的基础上,将进行第三次分析的中值视为下界,将进行第 二次分析的中值视为上界,将它们组成的区间称为辅助判断区间。即做出的补充规定为:还需要满足辅助判断区间的长度低于总区间长度的1/10。这样,只有同时满足上述两个条 件,才认定某个具体的数值填充法适用于当前的缺失率区间。需要指出的是,当前缺失率 区间的上界为进行第一次分析的中值,下界为相对适用条件。同样的,通过辅助判断区间 进行二次判断的方法,同样来源于对多次实践的总结。
在确定适用某个具体的数值填充法的第一个缺失率区间后,接着寻找适用其他具体的 数值填充法的第二个缺失率区间。需要指出的是,在新一轮的判断过程中,不再是继续利 用二分法寻找总区间的中点,而是调整得到一个新的大区间,并利用二分法寻找它的中点。具体的,将上述步骤中得到的第一个缺失率区间的上界视为大区间的下界,同样将边界条 件视为大区间的上界。通过循环上述步骤中的寻找中值和连续判断的过程,直至“连续三 次分析结果一致”和“辅助判断区间的长度低于总区间长度的1/10”都成立,得到适用某 个具体数值填充法的第二个缺失率区间。以此类推,可以将大区间划分为多个缺失率区间,并且能够得到适用每个缺失率区间的具体的数值填充法。
通过上述过程,可以发现,随着确定的缺失率区间越来越多,用于下一次分析的新的 大区间的下界不断往右调整,上界与下界之间的间隔就会越来越小。这样的话,越来越容 易出现只进行三次分析就得出分析结果一致的情况,不会出现需要进行多次分析来得到其中连续三次分析结果一致的情况。图5示出了某个具体的数值填充法的适用缺失率区间, 它的下界是第n个缺失率区间的上界,它的上界是边界条件。通过二分法得到的连续三次的 中值如图5中最左边的三条蓝色的虚线(就是最左边的三条虚线)所示。它们的颜色一致, 代表当数据集的缺失率为当前中值时,最佳的数值填充法是一致的。这样,把进行第一次 分析的中值视为上界,相对适用条件视为下界,就得到了前文所述的缺失率区间。即图5中用红色花括号标注的某个具体的数值填充法的适用缺失率区间。
根据前文所述的判断规则,将刚刚得到的缺失率区间的上界视为进行下一次分析时对 应新的大区间的下界,如图5中红色字体标出的新下界。保持边界条件为大区间的上界不 变,继续重复相同的判断过程。若同样出现只进行三次分析就得出分析结果一致的情况,并且辅助判断区间的长度低于总区间长度的1/10,如图5中最右边三条蓝色的虚线所示。 那继续进行该判断过程,直至出现某次分析结果与之前的不一致,如图5中最右边的绿色 虚线(就是最右边的虚线)。颜色不同代表本次的分析结果与上次(蓝色虚线)不一致。此时,可以将之前得到的多个适用相同数值填充法的缺失率区间合并,得到一个完整的适用于同一数值填充法的缺失率区间,如图5中最下方的大的蓝色花括号标注所示。文字内容为:合并的适用同一数值填充法的缺失率区间。
然后,不断重复上述判断过程,直至总区间被成功分为多个适用不同数值填充法的缺 失率区间,如图6所示。图中不同颜色的虚线代表不同的缺失率区间内适用不同的数值填 充法。
需要说明的是,在使用二分法进行多个缺失率区间划分的过程中,都是自右向左的, 这就带来了每次使用二分法划分时右半部分区间不会被使用的问题。并且随着整体区间的 不断缩减,右半部分虽然跟着缩减,但是仍旧会存在,对此不得不进行考虑。因此,作出以下规定:当右半部分的区间长度缩减至1%时,自动将其与左边最靠近的某个缺失率区间 合并,组成一个新的缺失率区间。另外需要说明的是,图6中的情况一是为了展示本发明提出缺失值处理方法适用的复杂情况,但在实际情况中不可能存在,实际情况与图6中的情况二更符合,甚至划分的区间要小于3个。
到这里,不完备数据处理模型的缺失值处理部分的具体实现步骤已经完成。结合不完 备数据处理模型的异常值和缺失值处理部分,最终得到完整的不完备数据处理模型。最后, 寻找或建立多个相同领域或相同研究方向的相同结构的完备数据集,不断将上述不完备数据处理模型带入这些数据集中进行验证与调整,最终得到适用于该领域或研究方向的通用 的不完备数据处理模型。具体的如医疗领域、金融领域、农业领域、工业领域等,或得到 适用于某研究方向的通用的不完备数据处理模型。如研究的密封电子设备多余物检测领域, 即可以得到适用于多余物质量、材质、定位识别的通用的不完备数据处理模型。
S3、实际情况中,数据集中会同时存在缺失值或异常值,所以在构建不完备数据处理 模型的过程中需要将缺失值处理与异常值处理结合起来进行综合考虑。当不完备数据处理 模型构建完成后,可以将其应用到相同领域或相同研究方向未知的不完备数据集的处理上,涉及到的一般程序流程如下,并在图7中示出:
步骤一:将待处理的多余物定位数据集记为当前数据集A;同时获取数据集A的同种 结构的不完备数据集,获取当前数据集A中异常值的个数,进而计算数据集的异常度。
步骤二:判断当前数据集A的异常度是否在不完备数据处理模型的异常值处理部分的 边界条件内。如果判断结果为真,表明当前数据集在可以进行异常值处理的范围内,那就 继续步骤三的处理。如果判断结果为假,表明当前数据集的质量已经比较低下,不值得进 行异常值处理,那就对该数据集不予处理。
步骤三:判断当前数据集A的异常度是否在不完备数据处理模型的异常值处理部分适 用直接丢弃法的相对适用条件内。如果判断结果为假,表明数据集的异常度在边界条件和 相对适用条件范围内,可以将异常值处理成空值进行统一处理,并继续步骤四的处理。如果判断结果为真,表明数据集的异常度较小,则对当前数据集中的异常值使用直接丢弃法 进行处理。这样的话,就可以跳过步骤四,直接进入步骤五进行处理。
步骤四:将当前数据集A中的异常值处理成空值(缺失值)。
步骤五:集中获取当前数据集A中的缺失值个数,进而计算数据集的缺失率。
步骤六:判断当前数据集A的缺失率是否在不完备数据处理模型的缺失值处理部分的 边界条件内。如果判断结果为真,表明当前数据集在可以进行缺失值处理的范围内,那就 继续步骤七的处理。如果判断结果为假,表明当前数据集的质量已经比较低下,不值得进行缺失值处理。同样的,就不对该数据集进行处理。
步骤七:判断当前数据集A的缺失率是否在不完备数据处理模型的缺失值处理部分适 用直接丢弃法的相对适用条件内。如果判断结果为假,表明数据集的缺失率在边界条件和 相对适用条件范围内,表明当前数据集在值得处理的范围内,那继续步骤八的处理。如果判断结果为真,表明数据集的缺失率较小,则对当前数据集中的缺失值使用直接丢弃法进 行处理。
步骤八:根据当前数据集的缺失率的数值大小,确定其归属于不完备数据处理模型的 具体缺失率区间,并应用该缺失率区间对应的数值填充法对当前数据集进行缺失值处理。 至此,本发明提出的不完备数据处理模型的一般程序步骤完成。
实施例:对本发明进行验证和分析,在实验验证与分析部分,选用多余物定位数据集 作为研究对象,并选用基于参数优化随机森林的分类学习器作为工具,按照不完备数据处 理模型的构建方法,得到适用于多余物定位数据集的不完备数据数理模型。在此基础上,通过多次实验构建多个同种结构的新的多余物定位数据集,并在这些数据集上应用不完备 数据处理模型进行处理,验证得到的适用多余物定位数据集的不完备数据处理模型的实用 性和稳健性。
需要说明的是,参照机器学习中分类学习器的设计过程(包括训练阶段和测试阶段)。
在该阶段,选择的测试场景是,在完备数据集上进行不完备数据处理模型的训练。具 体来说,在异常值处理部分,通过对完备数据集进行异常化处理,确定边界条件、相对适用条件和不同条件下的异常值处理方法。在缺失值处理部分,同样通过对完备数据集进行缺失化处理,确定边界条件、相对适用条件和不同条件下的缺失值处理方法。
在测试阶段,选择的测试场景是,在多个同种结构的不完备数据集上进行不完备数据 处理模型的测试。具体来说,根据计算的不完备数据集的异常度和得到的不完备数据处理 模型的处理规则,选择对应的异常值处理方法进行处理。根据计算的不完备数据集的缺失率和处理规则,选择对应的缺失值处理方法进行处理。实际上,在得到多余物定位数据集 的不完备数据处理模型之后,接下来应用的对象都是同种结构的不完备数据集。
(一)分类学习器的选择
经过不完备数据集处理方法(包括缺失值处理方法和异常值处理方法)处理后的数据 集,需要有定量衡量其处理效果的工具。在本发明中,选择同一个分类学习器在处理后的 数据集上做分类预测,由分类学习器给出整个数据集的预测精度。因此,在一定程度上, 预测精度的大小代表了不完备数据集处理方法对数据集的处理效果。需要说明的是,为了 公平的比较不同处理方法对数据集的处理效果,需要选择同一参数配置的分类学习器对经过不同处理方法处理后的数据集进行预测。在实验验证与分析部分,带入的是多余物检测 领域的多余物定位数据集,并且选择事先已经训练好的参数优化的随机森林分类学习器(简 称为RF分类学习器)。表1列出了参数优化随机森林分类学习器的具体参数设置。
表1参数优化随机森林的参数设置
(二)性能评估指标
为了评估不完备数据集处理方法对数据集的处理效果,应用RF分类学习器在经过处 理的多余物定位数据集上做分类预测,通过衡量RF分类学习器取得的预测精度来间接表 明不同处理方法对数据集的处理效果。因此,本发明主要选取了预测精度作为RF分类学习器预测效果的性能评估指标。
假设数据集为D={(x1,y1),(x2,y2),…,(xm,ym)},其中yi是单个数据xi对应的真实标签 值,f(xi)是RF分类学习器f预测的标签值。RF分类学习器取得的预测精度可表示为真实 标签值与预测标签值一致的数据个数占数据集中数据总数的比例,即:
其中,I是指示函数,当f(xi)=yi时,I(f(xi)=yi)=1。
除此之外,还选择了统计检验方法作为辅助的性能评估指标,来测试各种异常值处理 方法或缺失值处理方法处理后的多余物定位数据集之间的差异性。考虑到在本发明中,无 论是丢弃缺失值,或使用固定的数值替换或填充异常值或缺失值,都破坏了原始数据集的正态分布,所以选择非参数检验。具体来说,选择了Wilcoxon符号秩检验。在Wilcoxon 符号秩检验中,它把观测值和零假设的中心位置之差的绝对值的秩分别按照不同的符号相 加作为其检验统计量。它适用于T检验中的成对比较,但并不要求成对数据之差服从正态分布,只要求对称分布即可。而多余物定位数据集包含有限个特征数据,它们并不能完全 反映所有特征数据的取值与分布。因此,对于这种含有有限个样本,且总体标准差未知的 正态分布,T检验也正是最合适的。
考虑到本发明的研究重心以及篇幅长度,这里不对Wilcoxon符号秩检验的具体检验步 骤进行说明,但对开展检验的零假设H0和备择假设H1进行定义。假设在某次处理过程中, 利用RF分类器和预测精度得到k个异常值处理方法或缺失值处理方法中,最优的异常值处 理方法或缺失值处理方法为Mopt,剩下的k-1个异常值处理方法或缺失值处理方法分别为 Mi(i=1,2,…,k-1)。则零假设H0为:利用Mopt处理后的多余物定位数据集与利用 Mi(i=1,2,…,k-1)处理后的多余物定位数据集相同无差异。备择假设H1为:利用Mopt处 理后的多余物定位数据集与利用Mi(i=1,2,…,k-1)处理后的多余物定位数据集有差异。 这样,需要计算的统计量Ti(i=1,2,…,k-1)为:利用Mopt处理后的多余物定位数据集与利 用Mi处理后的多余物定位数据集之间的显著性水平。通常情况下,如果计算的Ti>0.05, 那接受零假设,拒绝备择假设。反之,如果计算的Ti<0.05,那拒绝零假设,接受备择假 设。
(三)不完备数据处理模型的训练
选择密封电子设备多余物检测领域内完备的多余物定位数据集作为训练载体,并按照 具体实施方式一提出的不完备数据集处理方法的实现步骤训练适用多余物定位数据集的不 完备数据处理模型。需要说明的是,这里的完备的多余物定位数据集指的是:该数据集中不含有异常值和缺失值。该数据集共包含16种标签值的数据,每种标签值的数据有32000 个,所以一共有512000个数据,其具体描述如表2所示。
表2多余物定位数据集的具体描述
(三一)异常值处理部分的边界条件确定
利用箱型图对以往建立的多余物定位数据集进行异常值检测,得到多个具有不代表性 的异常值。随机使用这些异常值替换完备的多余物定位数据集中的正常值,并且替换比例 达到20%。即将完备的多余物定位数据集的异常度设置为20%。此时,先直接使用RF分 类学习器对该数据集进行预测,得到一个预测精度。随后分别使用直接丢弃法和数值填充法(数值替换法)对数据集进行处理。再次使用RF分类学习器对处理后的数据集分别进行预测,得到两个预测精度。需要说明的是,数值填充法具体包括统计法填充、插值法填 充和预测模型填充,在针对不同领域或研究方向的不同结构的数据集中,可以根据实际情 况选择具体适用的方法。因此,此处所使用的具体的数值填充方法,是对多余物检测领域 多年研究的总结,不代表这些方法同样适用于其他领域或研究方向。具体来说,选择的统计法填充包括均值填充与中位值填充,选择的插值法填充包括牛顿插值与拉格朗日插值, 选择的预测模型填充是kNN预测模型。需要说明的是,选择的预测模型填充未包括决策树、 支持向量机与随机森林,一方面是因为RF分类学习器在经过kNN预测模型处理后的多余物定位数据集上取得的预测精度最高。另一方面,因为是选择RF分类学习器来定量衡量 不完备数据处理模型的处理效果,所以对于组成它的基分类器(单一决策树),以及其自身 (随机森林),重复使用会造成严重的过拟合,在处理效果上缺乏说服力。支持向量机是一 种二分类预测模型,对于二分类的线性问题能够较好地预测,对于多分类的非线性问题则 需要借助核函数完成空间的映射,多余物定位数据集的复杂性使得应用支持向量机预测模 型取得的处理效果要低于kNN预测模型。分别使用上述多个异常值处理方法对异常度为20% 的多余物定位数据集进行处理,并应用RF分类学习器进行预测,得到的预测效果如表3 所示。
表3 RF分类学习器在处理后的异常度为20%的定位数据集上取得的预测效果
从表中可以看出,RF分类学习器在经过插值法填充处理后的数据集上取得的预测精度 最低。插值法填充的原理是在离散数据的基础上补插连续函数,使得这条连续曲线通过全 部给定的离散数据点,最终试图构造一个拟合程度高、泛化性差的数学模型。这对于具有多个标签值的分散结构的多余物定位数据集是很难实现的。另外,如果直接丢弃数据集中 占比20%的异常值,这会使得数据集中更多可供挖掘的信息白白丢失。因此,RF分类学习 器在经过直接丢弃法处理后的数据集上取得的预测精度要低于在未经处理的数据集上取得 的。均值填充或中位值填充的效果都会受数据集中存在的缺失值(空值)的影响,导致最 终用于填充的均值和中位值的数值偏小。并且,它们都是使用固定的数值,会破坏一些数 据的原有结构。RF分类学习器取得的最高的预测精度是在经过kNN预测模型处理后的数据集上,为86.02%。RF分类学习器在经过均值填充与中位值填充处理后的数据集上取得的预测精度低于在经过kNN预测模型处理后的数据集上取得的,但高于在未经处理的数据集上取得的。下一步,将以1%的幅度逐步上调异常度,并对完备的多余物定位数据集进行对应数值的异常化处理。同样的,分别使用上述多个异常值处理方法对数据集进行处理,并应用RF分类学习器进行预测。其中,当数据集的异常度为23%时,应用RF分类学习器 取得的预测效果如表4所示。
表4 RF分类学习器在处理后的异常度为23%的定位数据集上取得的预测效果
从表中可以看出,当数据集的异常度为23%时,使用RF分类学习器在经过多个异常 值处理方法处理后的数据集上取得的预测精度与在未经处理的数据集上取得的预测精度相 当,只有在经过kNN预测模型处理后的数据集上取得的预测精度稍高于在未经处理的数据 集上取得的。当进一步将数据集的异常度调整为24%时,发现RF分类学习器在经过多个 异常值处理方法处理后的数据集上取得的预测精度均小于在未经处理的数据集上取得的。 并且,RF分类学习器在经过其中一半以上的处理方法处理后的数据集上取得的预测精度与 在未经处理的数据集上取得的预测精度相差较大。
此时,再次利用Wilcoxon符号秩检验进行检验,根据检验结果做出辅助判断。此时, Mopt为不处理的方法。因此,此时需要计算的统计量Ti为未经处理的多余物定位数据集与 经过其他六种异常值处理方法处理后的多余物定位数据集之间的显著性水平,其计算结果 如表5所示。
表5在经过处理的多余物定位数据集(异常度为24%)上取得的统计量Ti
参照(二)中的描述知道,当Ti<0.05时,应该认为未经处理的多余物定位数据集与 经过其他六种异常值处理方法处理后的多余物定位数据集之间存在明显的差异。从表5中 可以看出,T1、T4、T5与T6均满足上述条件,说明未经处理的多余物定位数据集与经过直接 丢弃法、牛顿插值、拉格朗日插值与kNN预测模型处理后的多余物定位数据集之间存在明 显的差异。虽然T2与T3不满足上述条件,但T3刚好达到条件成立的边界,T2距离条件成立的边界不远,说明未经处理的多余物定位数据集与经过均值填充与中位值填充处理后的多余物定位数据集之间存在一定的差异。这从另一个角度证明了前述结论的可靠。即,当多余物定位数据集的异常度为23%时,RF分类器在未经处理的多余物定位数据集上取得的预测精度要高于在经过其他六种异常值处理方法处理后的多余物定位数据集取得的。并且,未经处理的多余物定位数据集与经过其他六种异常值处理方法处理后的多余物定位数据集 之间存在较为明显的差异。
此时,因为数据集的异常度已经达到24%,也就是说,异常值已经几乎占据了整个数 据集中四分之一的数据,此时的数据集的原有结构已经遭到破坏。但RF分类器是具有一定适应性能的,所以,它很快适应了数据集内部的数据分布变化,并很快认可了占据较大比例的异常值的“合法性”。这也就是为什么RF分类器在不处理的数据集上取得预测精度 最高的原因。事实上,此时的数据集已经足够差以至于已经不能进行处理了。因此,将23% 认定为多余物定位数据集适用异常值处理的边界条件。
(三二)异常值处理部分的相对适用条件确定
经过(三一)的处理,可以得到异常值处理部分的总区间,且区间的上界为23%,区间的下界为0%。利用二分法得到当前区间的第一中值12%,并对完备的多余物定位数据集进行对应数值的异常化处理。分别使用上述多个异常值处理方法对数据集进行处理,并应用RF分类学习器进行预测,可以得到RF分类学习器在经过处理的异常度为12%的不完备数据集上取得的预测效果。可以发现,当数据集的异常度为12%时,RF分类学习器在经过直接丢弃法处理后的数据集上取得的预测精度要低于在经过统计法填充与预测模型填充处 理后的数据集上取得的,但是要高于在经过插值法填充处理后的数据集上取得的。进一步的,调整得到一个新的区间,且区间的上界为12%,区间的下界为0%。利用二分法得到当前区间的第二中值6%,同样对完备的多余物定位数据集进行对应数值的异常化处理。同样的,使用多个异常值处理方法对其进行处理,并应用RF分类学习器分别进行预测。可以 发现,RF分类学习器在经过直接丢弃法处理后的数据集上取得的预测精度还是低于在经过其他两种数值填充法处理后的数据集上取得的。从统计角度来说,此时数据集的异常度不算低,所以如果直接丢弃这部分异常值,会导致数据集中某个标签的数据的数量相对较少,最终影响整体的预测精度。(分段)
通过同样的步骤,可以得到第三中值,并重复同样的处理与判断步骤,依旧还是得出 与第一中值、第二中值阶段相同的结论。直到得到第四中值(2%),并重复同样的处理与判断步骤。最终,发现RF分类学习器在经过直接丢弃法处理后的数据集上取得的预测精 度高于在经过其他两种数值填充法处理后的数据集上取得的。可以发现,此时数据集的异 常度属于比较低的,所以如果直接丢弃这部分异常值,不会对数据集中某个标签的数据数 量与其他标签相差太大,反而会在一定程度上保持了数据的完整性。因此,将第四中值设置为异常值处理部分的相对适用条件。上述判断过程如表6所示。
表6异常值处理部分相对适用条件的判断过程
此时,再次利用Wilcoxon符号秩检验进行检验,根据检验结果做出辅助判断。此时, Mopt为直接丢弃法。因此,此时需要计算的统计量Ti为经过直接丢弃法处理后的多余物定 位数据集与经过其他五种异常值处理方法处理后的多余物定位数据集之间的显著性水平, 其计算结果如表7所示。
表7在经过处理的多余物定位数据集(异常度为2%)上取得的统计量Ti
参照(二)中的描述知道,当Ti<0.05时,应该认为经过直接丢弃法处理后的多余物 定位数据集与经过其他五种异常值处理方法处理后的多余物定位数据集之间存在明显的差 异。从表7中可以看出,T3、T4与T5均满足上述条件,说明经过直接丢弃法处理后的多余物定位数据集与经过牛顿插值、拉格朗日插值与kNN预测模型处理后的多余物定位数据集之间存在明显的差异。虽然T1与T2不满足上述条件,但两者都距离条件成立的边界不远, 说明经过直接丢弃法处理后的多余物定位数据集与经过均值填充与中位值填充处理后的多余物定位数据集之间存在一定的差异。这从另一个角度证明了前述结论的可靠。即,当多余物定位数据集的异常度为2%时,RF分类器在经过直接丢弃法处理后的多余物定位数据 集上取得的预测精度要高于在经过其他五种异常值处理方法处理后的多余物定位数据集取得的。并且,经过直接丢弃法处理后的多余物定位数据集与经过其他五种异常值处理方法处理后的多余物定位数据集之间存在较为明显的差异。
至此,可以得出不完备数据处理模型的异常值处理部分的规则:当数据集的异常度小 于或等于23%时,可以将其带入不完备数据处理模型中进行处理。进一步的,如果数据集 的异常度小于或等于2%,采用直接丢弃法对数据集中的异常值进行处理。如果数据集的异 常度处于2%和23%之间,直接将数据集中的异常值处理成空值,并在不完备数据处理模型 的缺失值处理部分进行集中处理。上述规则的区间划分如图8所示。
(三三)缺失值处理部分的边界条件确定
在(三一)和(三二),对不完备数据处理模型的异常值处理部分进行了实现,它是组 成不完备数据处理模型的重要部分。从(三三)至(三五),将继续探讨不完备数据处理模型的缺失值处理部分。同样的,随机产生一部分空值来替换完备的多余物定位数据集中的正常值,并且替换比例为60%。即将完备的多余定位数据集的缺失率设置为60%。遵循缺失值处理部分的实现步骤,先分别使用直接丢弃法和几种具体的数值填充法对数据集进行处理,再使用RF分类学习器对处理后的数据集进行预测,得到的预测效果如表8所示。
表8RF分类学习器在处理后的缺失率为60%的定位数据集上取得的预测效果
从表中可以看出,RF分类学习器依然是在经过插值法填充处理后的数据集上取得的预 测精度最低。另外,还发现:当数据集的缺失率达到60%,即数据集中存在缺失值的数据 个数占总数据个数半数以上时,此时RF分类学习器不管是在经过直接丢弃法处理后的数据集上还是在经过数值填充法处理后的数据集上取得的预测精度都有限。RF分类学习器依 然是在kNN预测模型处理后的数据集上取得最高的预测精度,为63.33%。RF分类学习器在经过均值填充与中位值填充处理后的数据集上取得的预测精度低于在经过kNN预测模型处理后的数据集上得到的,但也稍高于在经过直接丢弃法处理后的数据集上得到的。从统计角度来说,此时数据集的缺失率为60%,也就意味着如果直接丢弃这部分缺失值,会使得数据集的数量减少一半以上。这样的处理已经极大的破坏了原数据集的完整性,尽管RF 分类器在缩小版的数据集取得了一定的预测精度,但这是没有参考价值的。(分段)
接着,以1%的幅度逐步上调缺失率,并对完备的多余物定位数据集进行对应数值的缺 失化处理。同样的,分别使用上述多个缺失值处理方法对数据集进行处理,并应用RF分 类学习器进行预测。最终,但定位数据集的缺失率为67%时,得到RF分类学习器在不同缺失值处理方法处理后的数据集上取得的预测效果如表9所示。
表9RF分类学习器在处理后的缺失率为67%的定位数据集上取得的预测效果
从表中可以看出,当数据集的缺失率为67%时,RF分类学习器在经过多个缺失值处 理方法处理后的数据集上取得的预测精度都低于在经过直接丢弃法处理后的数据集上取得 的,它在经过kNN预测模型处理后的数据集上取得的预测精度也仅仅与在经过直接丢弃法 处理后的数据集上取得的预测精度相当。当进一步将定位数据集的缺失率调整为68%时, 发现RF分类学习器在经过多个缺失值处理方法处理后的数据集上取得的预测精度均低于 在经过直接丢弃法处理后的数据集上取得的。并且,RF分类学习器在经过其中大部分缺失 值处理方法处理后的数据集上取得的预测精度与在经过直接丢弃法处理后的数据集上取得的预测精度相差较大。
此时,再次利用Wilcoxon符号秩检验进行检验,根据检验结果做出辅助判断。此时, Mopt为直接丢弃法。因此,此时需要计算的统计量Ti为经过直接丢弃法处理后的多余物定 位数据集与经过其他五种缺失值处理方法处理后的多余物定位数据集之间的显著性水平, 其计算结果如表10所示。
表10在经过处理的多余物定位数据集(缺失率为68%)上取得的统计量Ti
参照(二)中的描述知道,当Ti<0.05时,应该认为经过直接丢弃法处理后的多余物 定位数据集与经过其他五种缺失值处理方法处理后的多余物定位数据集之间存在明显的差 异。从表10中可以看出,T1、T2、T3、T4与T5均满足上述条件,说明经过直接丢弃法处 理后的多余物定位数据集与经过均值填充、中位值填充、牛顿插值、拉格朗日插值与kNN 预测模型处理后的多余物定位数据集之间存在明显的差异。这从另一个角度证明了前述结论的可靠。即,当多余物定位数据集的缺失率为67%时,RF分类器在经过直接丢弃法处理 后的多余物定位数据集上取得的预测精度要高于在经过其他五种缺失值处理方法处理后的 多余物定位数据集取得的。并且,经过直接丢弃法处理后的多余物定位数据集与经过其他五种缺失值处理方法处理后的多余物定位数据集之间存在明显的差异。
此时,因为数据集的缺失率已经达到67%,也就是说,缺失值已经几乎占据了整个数 据集中三分之二的数据,此时的数据集的原有结构已经遭到严重破坏。这时候的数据集就 像一个患了严重腿疾的病人,任何医学手段都不足有所转机。此时,切除患病的腿,使得整个人不再受疾病的困扰或许是最好的。这也就是为什么RF分类器在经过直接丢弃法处理后的数据集上取得预测精度最高的原因。事实上,此时的数据集也已经足够差以至于已经不能进行处理了。因此,将67%认定为多余物定位数据集适用缺失值处理的边界条件。
(三四)缺失值处理部分的相对适用条件确定
经过(三三)的处理,可以得到缺失值处理部分的总区间,且区间的上界为67%,区间的下界为0%。利用二分法得到当前区间的第一中值34%,并对完备的多余物定位数据集进行对应数值的缺失化处理。分别使用上述多个缺失值处理方法对数据集进行处理,并应用RF分类学习器进行预测,可以得到RF分类学习器在经过处理后的缺失率为34%的不完备数据集上取得的预测效果。可以发现,当数据集的缺失率为34%时,RF分类学习器在经过直接丢弃法处理后的数据集上取得的预测精度要低于在经过其他数值填充法处理后的数 据集上取得的。进一步的,调整得到一个新的区间,且区间的上界为34%,区间的下界为0%。利用二分法得到当前区间的第二中值17%,同样对完备的多余物定位数据集进行对应数值的缺失化处理。同样的,使用多个缺失值处理方法对其进行处理,并应用RF分类学 习器分别进行预测。可以发现,RF分类学习器在经过直接丢弃法处理后的数据集上取得的预测精度要低于在经过其他数值填充法处理后的数据集上取得的。从统计角度来说,此时 数据集的缺失率不算低,所以如果直接丢弃这部分缺失值,会导致数据集中某个标签的数 据的数量相对较少,最终影响整体的预测精度。(分段)
通过同样的步骤,得到第三中值与第四中值,并重复同样的处理与判断步骤,得出与 第一中值、第二中值阶段相同的结论。直到得到第五中值(3%),并重复同样的处理与判断步骤。最终,我发现RF分类学习器在经过直接丢弃法处理后的数据集上取得的预测精度高于在经过其他数值填充法处理后的数据集上取得的。可以发现,此时数据集的缺失率 属于比较低的,所以如果直接丢弃这部分缺失值,不会对数据集中某个标签的数据数量与其他标签相差太大,反而会在一定程度上保持了数据的完整性。因此,将第五中值设置为 缺失值处理部分的相对适用条件。上述判断过程如表11所示。
表11缺失值处理部分相对适用条件的判断过程
此时,再次利用Wilcoxon符号秩检验进行检验,根据检验结果做出辅助判断。此时, Mopt为直接丢弃法。因此,此时需要计算的统计量Ti为经过直接丢弃法处理后的多余物定 位数据集与经过其他五种缺失值处理方法处理后的多余物定位数据集之间的显著性水平, 其计算结果如表12所示。
表12在经过处理的多余物定位数据集(缺失率为3%)上取得的统计量Ti
参照(二)中的描述知道,当Ti<0.05时,应该认为经过直接丢弃法处理后的多余物 定位数据集与经过其他五种缺失值处理方法处理后的多余物定位数据集之间存在明显的差 异。从表12中可以看出,T2、T3、T4与T5均满足上述条件,说明经过直接丢弃法处理后的多余物定位数据集与经过中位值填充、牛顿插值、拉格朗日插值与kNN预测模型处理后的多余物定位数据集之间存在明显的差异。虽然T1不满足上述条件,但它刚好达到条件成立的边界,说明经过直接丢弃法处理后的多余物定位数据集与经过均值填充处理后的多余物定位数据集之间存在一定的差异。这从另一个角度证明了前述结论的可靠。即,当多余物定位数据集的缺失率为3%时,RF分类器在经过直接丢弃法处理后的多余物定位数据集 上取得的预测精度要高于在经过其他五种缺失值处理方法处理后的多余物定位数据集取得的。并且,经过直接丢弃法处理后的多余物定位数据集与经过其他五种缺失值处理方法处理后的多余物定位数据集之间存在较为明显的差异。
(三五)缺失值处理部分的不同缺失率区间适用具体数值填充法的确定
经过(三四)的处理,可以得到缺失值处理部分的新的总区间,区间的上界为67%,区间的下界为3%。所以总区间长度的1/10为6.4%。这样,新的总区间的长度为64%。利 用二分法得到当前区间的中值为35%,并对完备的多余物定位数据集进行对应数值的缺失化处理。分别使用上述多个数值填充法对数据集进行处理,并应用RF分类学习器进行预测,可以得到RF分类学习器在经过处理的缺失率为35%的不完备数据集上取得的预测效果。可以发现,当数据集的缺失率为35%时,RF分类学习器在经过kNN预测模型处理后的数据集上取得的预测精度最高,且相较于在经过统计法填充和插值法填充处理后的数据 集上取得的优势明显。这是第一次分析的结果,表明kNN预测模型的处理性能最优。调整 得到新的区间,且区间的上界为35%,区间的下界为3%,则当前区间的长度为32%。利 用二分法得到当前区间的中值为19%,遵循相同的处理与判断步骤,进行缺失化处理和应 用RF分类学习器进行预测,依然得到RF分类学习器在经过kNN预测模型处理后的数据 集上取得的预测精度最高,在经过插值法填充处理后的数据集上取得的预测精度最低。这 是第二次分析的结果,表明kNN预测模型的处理性能最优。由此也可以看出,kNN预测模型的处理性能较于统计法填充和插值法填充仍存在一定的优势。进一步的,再次调整得到 新的区间,且区间的上界为19%,区间的下界为3%,则当前区间的长度为16%。同样利 用二分法得到当前区间的中值为11%,并执行同样的缺失化处理和应用RF分类学习器进 行预测的过程。发现RF分类学习器依旧是在经过kNN预测模型处理后的数据集上取得的 预测精度最高,在经过插值法填充处理后的数据集上取得的预测精度最低。这是第三次分 析的结果,表明kNN预测模型的处理性能最优。需要说明的是,虽然连续三次分析得出的 最优的缺失值处理方法都为kNN预测模型,但是当前辅助判断区间的长度为8%(3%-11%), 是总区间长度(64%)的1/8,大于规定的1/10,所以需要进行第四次分析。并且可以发现, 在第三次分析中,kNN预测模型较于统计法填充的性能优势不再明显。再一次的,调整得到一个新的区间,且区间的上界为11%,区间的下界为3%,则当前区间的长度为8%。利 用二分法得到当前区间的中值为7%,同样进行缺失处理和应用RF分类学习器进行预测, 发现RF分类学习器在经过统计法填充处理后的数据集上取得的预测精度最高。具体来说, RF分类学习器在经过均值填充处理后的数据集上取得了最高的预测精度,在经过中位值填 充与kNN预测模型处理后的数据集上取得了近似相等的预测精度。这是第四次分析,表明 均值填充(统计法填充)的处理性能最优。因此,这也是得出“统计法填充最优”的第一次分析。上述判断过程如表13所示。
表13划分多个缺失率区间及其适用方法的过程
再次调整得到新的区间,且区间的上界为7%,区间的下界为3%。需要说明的是,当 前辅助区间的长度已经远远小于总区间长度的1/10。因此,只需要满足“连续三次分析结 果一致”即可,即连续三次分析结果均为统计法填充性能最优即可。利用二分法得到当前 区间的中值为5%,同样对数据集进行缺失处理和应用RF分类学习器进行预测,发现RF分类学习器在经过统计法填充处理后的数据集上取得的预测精度最高。这是得出“统计法填充最优”的第二次分析。再次调整得到新的区间,且区间的上界为5%,区间的下界为3%。利用二分法得到当前区间的中值为4%,同样对数据集进行缺失处理和应用RF分类学习器进行预测。最终,发现RF分类学习器依旧是在经过统计法填充处理后的数据集上取 得的预测精度最高。这是得出“统计法填充最优”的第三次分析。至此,可以判定:在3% 至7%的缺失率区间内使用统计法填充处理的性能最优。
此时,再次利用Wilcoxon符号秩检验进行检验,根据检验结果做出辅助判断。此时, Mopt为均值填充与中位值填充。因此,此时需要计算的统计量Ti为经过均值填充与中位值 填充处理后的多余物定位数据集与经过其他三种缺失值处理方法处理后的多余物定位数据 集之间的显著性水平,其计算结果如表14所示。
表14在经过处理的多余物定位数据集(缺失率为7%)上取得的统计量Ti
参照(二)中的描述知道,当Ti<0.05时,应该认为经过均值填充与中位值填充处理 后的多余物定位数据集与经过其他三种缺失值处理方法处理后的多余物定位数据集之间存 在明显的差异。从表14中可以看出,T1、T2、T3、T4、T5与T6均满足上述条件,说明经 过均值填充与中位值填充处理后的多余物定位数据集与经过牛顿插值、拉格朗日插值与 kNN预测模型处理后的多余物定位数据集之间存在明显的差异。这从另一个角度证明了前 述结论的可靠。即,当多余物定位数据集的缺失率为7%时,RF分类器在经过均值填充与 中位值填充(统计法填充)处理后的多余物定位数据集上取得的预测精度要高于在经过其 他三种缺失值处理方法处理后的多余物定位数据集取得的。并且,经过均值填充与中位值 填充处理后的多余物定位数据集与经过其他三种缺失值处理方法处理后的多余物定位数据 集之间存在明显的差异。
当数据集的缺失率为35%、19%和11%时,得出使用kNN预测模型处理的性能最优, 但是因为辅助区间的长度大于总区间长度的1/10,所以不能认定3%至35%的范围内使用 kNN预测模型处理的性能最优。正常情况下,接下来需要调整得到一个新的区间,区间的上界为67%,区间的下界为7%,并重复上述的处理与判断过程。但考虑kNN预测模型确实在数据集的缺失率为35%、19%和11%时取得了最佳的处理效果,因此调整得到新的区间,区间的上界为35%,区间的下界为7%。遵循同样的处理与判断步骤,得到:当数据集 的缺失率分别为21%、14%和10%时,RF分类学习器都是在经过kNN预测模型处理后的 数据集上取得的预测精度最高。并且此时辅助区间的长度为4%,要低于总区间长度的1/10。 至此,可以判定:在7%至35%的缺失率区间内使用kNN预测模型处理的性能最优。
接着,对总区间中剩余的右半部分区间进行判断。将其视为一个新的区间,且区间的 上界为67%,区间的下界为35%。利用二分法得到当前区间的中值为51%,并且对数据集 进行缺失处理和应用RF分类学习器进行预测,得到RF分类学习器在经过kNN预测模型处理后的数据集上取得的预测精度要明显高于在经过统计法填充与插值法填充处理后的数据集上取得的。这是第一次分析的结果,表明kNN预测模型的处理性能最优。同样的,当数据集的缺失率为43%和39%时,得出第二次分析与第三次分析的结果与第一次分析的结果是一致的,都表明kNN预测模型的处理性能最优。并且此时的辅助区间的长度为4%, 要低于总区间长度的1/10。至此,可以判定:在35%%至67%的缺失率区间内使用kNN预 测模型处理的性能最优。考虑到7%至35%与35%至67%的两个区间内,均是使用kNN预 测模型处理的性能最优,将两个区间进行合并,最终得到适用kNN预测模型的大的缺失率 区间为7%至67%。考虑到论文整体篇幅的原因,作者没有详细列出在经过处理的多余物定位数据集(缺失率分别为35%与67%)上取得的统计量Ti。但事实是,当缺失率分别为35% 与67%时,经过kNN预测模型处理后的多余物定位数据集与经过其他四种缺失值处理方法 处理后的多余物定位数据集之间存在明显的差异。
需要补充说明的是,当遵循正常逻辑,在得到“3%至7%的缺失率区间内使用统计法 填充处理的性能最优”的基础上,调整得到一个新的区间,区间的上界为67%,区间的下界为7%。遵循同样的处理与判断步骤,可以得出:但数据集的缺失率分别为37%、22%和14%时,连续三次分析的结果均表明kNN预测模型的处理性能最优。但同样面临当前辅助区间的长度大于总区间长度的1/10的问题。最终经过多次调整、处理和判断,得出与上述一致的结论。即:在7%至67%的缺失率区间内,使用kNN预测模型的处理性能最优。
至此,可以得到不完备数据处理模型在缺失值处理部分的规则:当数据集的缺失率小 于或等于67%时,可以将其带入不完备数据处理模型中进行处理。进一步的,如果数据集 的缺失率小于或等于3%,采用直接丢弃法对数据集中的缺失值进行处理。如果数据集的缺 失率处于3%至7%之间,采用统计法填充对数据集中的缺失值进行处理。如果数据集的缺 失率处于7%至67%之间,采用kNN预测模型对数据集中的缺失值进行处理。上述规则的区间划分如图9所示。
(四)验证分析:在验证分析部分,重新选择了10个包含不完备数据的多余物定位数 据集进行测试。以第一个数据集为例,该数据集包含16种标签值的数据,每种类别的数据 有500个,总共有8000个数据,其具体描述如表15所示。应用RF分类学习器对该数据 集进行预测,得到其在未经处理的不完备的多余物定位数据集上取得的预测精度为83.67%。需要说明的是,因为定位数据集中存在缺失值(NaN),直接利用RF分类学习器进行预测 会报错。所以先将数据集中的缺失值全部处理成零值,即将数据集中存在缺失值的位置的 数值大小设置为0。按照本发明的一般程序步骤,进行以下步骤的处理。
表15一个新的多余物定位数据集的具体描述
步骤一:绘制当前数据集的箱型图,以期得到数据集的异常度,如图10所示。经过统 计,共得到253个异常值,计算得到当前数据集的异常度为3.16%。根据不完备数据处理模型异常值处理部分的规则可知:3.16%在23%的范围内,可以进行异常值处理。进一步的, 因为3.16%大于直接丢弃法的相对适用条件(2%),所以按照规则,将这253个异常值处理 成空值,带入不完备数据处理模型的缺失值处理部分进行统一处理。
步骤二:获取数据集的缺失率。经过统计,共得到671个缺失值(包括253个由异常值转换的空值),计算得到当前数据集的缺失率为8.39%。根据不完备数据处理模型缺失值处理部分的规则可知,8.39%在67%的范围内,可以进行缺失值处理。进一步的,因为8.39% 处于7%至67%的范围内,所以按照规则,将这671个缺失值使用kNN预测模型进行填充。
步骤三:使用kNN预测模型对数据集进行处理,并应用RF分类学习器对处理后的数据集进行预测,得到RF分类学习器在处理后的数据集上取得的预测精度为88.32%。表16列出了RF分类学习器在处理前后的数据集上取得的预测效果。
表16 RF分类学习器在处理前后的数据集上取得的预测效果
从表中可以看出,经过不完备数据处理模型处理过的一个多余物定位数据集,当应用 RF分类学习器进行预测时,取得的预测精度由83.67%提升至88.42%,提升幅度明显。分 别使用精确率、召回率和F1分对RF分类器在处理后的数据集上取得的效果进行评估,RF 分类器在各个标签的数据集上取得的精确率、召回率和F1分都比较均衡,没有出现某个标 签的数据具有明显的性能优势。这说明不完备数据处理模型取得了全面的处理效果,它在 应对多余物定位数据集中存在的不完备数据时是值得信任的。经过计算,得到平均的精确 率、召回率和F1分分别为0.89、0.89、0.88,与取得的平均预测精度较为接近。
遵循相同的验证测试步骤,对其他9个多余物定位数据集上进行不完备数据的处理。 表17列出了RF分类学习器在处理前后的10个多余物定位数据集上取得的预测效果。
表17 RF分类学习器在处理前后的10个数据集上取得的预测效果
从表中可以看出,经过不完备数据处理模型处理过的10个多余物定位数据集,当应用 RF分类学习器进行预测时,RF分类学习器在处理前后的10个定位数据集上取得的预测精 度均有明显幅度的提升。经过计算,RF分类学习器在处理前后的10个定位数据集上取得 的预测精度平均提升幅度为5.04%。这有效证明了本发明针对不完备的多余物定位数据集 提出的不完备数据处理模型的实用性与稳健性。并进一步论证了本发明提出的基于缺失率 与异常度度量的不完备数据集建模及处理方法的可行性。
数据集中存在包括缺失值与异常值在内的不完备数据会影响整体的协调性与一致性, 尤其对机器学习领域利用数据集训练得到分类学习器的预测性能影响较大。随着机器学习 的快速兴起与应用,特征工程领域的很多专家学者对不完备数据进行了深入研究。不同于其他学者将研究重点放在具体使用某种不完备数据(尤其是缺失值)处理方法的研究上, 本发明提出的一种基于缺失率与异常度度量的不完备数据集建模及处理方法,并将很多学 者忽视的异常值进行了充分考虑。同时,本发明所提出的方法更具针对性,其应用对象为具体的某个领域或某个研究方向的静态或固定结构的数据集。此外,本发明所提方法并不 单纯局限于对处理方法上的关注,更像是针对静态或固定结构的数据集制定的一套规则, 使得在面对该结构的新的数据集可以“照章办事”,且本方法的通用性和实用性强,对不完 备数据的处理性能优异。

Claims (10)

1.基于缺失率与异常度度量的不完备数据集建模方法,其特征在于,包括以下步骤:
S1、进行异常值处理,具体过程包括以下步骤:
S11、确定异常值处理的初始边界条件为X%,即对多余物定位数据集的完备数据集做X%比例的异常化处理;利用分类学习器在未经处理的数据集上进行预测并取得一个预测精度,再利用分类学习器分别在使用直接丢弃法和数值替换法处理后的数据集上进行预测并分别取得多个预测精度;
分析分类学习器在未经处理的数据集上取得的预测精度是否高于在使用直接丢弃法和数值替换法处理后的数据集上取得的预测精度;根据分析结果,选择以1%的幅度上浮或下调边界条件,重新对多余物定位数据集的完备数据集做新的比例的异常化处理;通过循环上述过程,当数据集的异常度为某个数值时,分类学习器在未经处理的数据集上取得的预测精度要高于在使用直接丢弃法和数值替换法处理后的数据集上取得的预测精度;以此时异常度对应的数值作为异常值边界条件;
S12、在异常值边界条件的适用范围内,通过二分法寻找直接丢弃法的相对适用条件;
S2、进行缺失值处理,具体过程包括以下步骤:
S21、确定缺失值处理的初始边界条件为Y%,即对多余物定位数据集的完备数据集做Y%比例的缺失化处理;
分别使用直接丢弃法和数值填充法进行处理,比较分类学习器在使用数值填充法处理后的数据集上取得的预测精度是否低于在使用直接丢弃法处理后的数据集上取得的;根据比较结果,选择以1%的幅度上浮或下调边界条件,重新对完备数据集做新的比例的缺失化处理;
通过循环上述过程,确定当数据集的缺失率为某个数值时,分类学习器在使用数值填充法处理后的数据集上取得的预测精度要低于或等于在使用直接丢弃法处理后的数据集上取得的预测精度,即当数据集的缺失率小于该某个数值时,认定该缺失率的具体数值为缺失值处理方法对应的边界条件;
S22、在缺失值处理方法边界条件的适用范围内,通过二分法寻找直接丢弃法的相对适用条件;
S3、针对于多余物定位数据集,基于S1、S2即确定了不完备数据处理模型。
2.根据权利要求1所述的基于缺失率与异常度度量的不完备数据集建模方法,其特征在于,在异常值边界条件的适用范围内,通过二分法寻找直接丢弃法的相对适用条件的过程包括以下步骤:
将零异常度到新边界条件对应异常值的具体数值视为一个区间,并且区间的上限为新边界条件对应异常值的具体数值,下限为零异常度;新边界条件初始值为异常值边界条件;
利用式(1)寻找当前上限与下限之间的中点,即当前异常度区间的中值,称之为第一中值;
式中,high表示异常度区间的上限,也即边界条件对应异常值的具体数值;low表示异常度区间的下限,也即零异常度;
对完备数据集做比例为第一中值的异常化处理,并分别使用直接丢弃法和数值替换法进行处理,分析分类学习器在使用直接丢弃法处理后的数据集上取得的预测精度是否高于在使用数值替换法处理后的数据集上取得的;若判断结果为假,调整得到新的异常度区间,区间的上限调整为第一中值对应的具体数值,区间的下限保持零异常度不变;继续利用式(1)寻找当前上限和下限之间的中点,称之为第二中值;继续对多余物定位数据集的完备数据集做比例为第二中值的异常化处理,并同样分别使用直接丢弃法和数值替换法进行处理,分析分类学习器在使用直接丢弃法处理后的数据集上取得的预测精度是否高于在使用数值替换法处理后的数据集上取得的;若判断结果仍然为假,根据上述过程,继续调整得到新的异常度区间,并且将第二中值视为新的上限,保持下限不变;如此往复判断与调整,直至判断结果为真;在判断结果为真的的情况下,分类学习器在使用直接丢弃法处理后的数据集上取得的预测精度要高于在使用数值填充法处理后的数据集上取得的;认定当前第n中值对应的具体数值为直接丢弃法的相对适用条件。
3.根据权利要求2所述的基于缺失率与异常度度量的不完备数据集建模方法,其特征在于,在异常值处理的过程中,当确定了直接丢弃法的相对适用条件之后,再通过使用二分法来寻求相对适用条件到边界条件之间的区间范围内,多个小的异常度区间适用的具体的数值填充法。
4.根据权利要求3所述的基于缺失率与异常度度量的不完备数据集建模方法,其特征在于,异常值处理的初始边界条件为20%。
5.根据权利要求4所述的基于缺失率与异常度度量的不完备数据集建模方法,其特征在于,利用式(1)寻找异常度区间的中值过程中,当异常度区间长度的具体数值为奇数时,先增加1%调整为偶数后,再获取新的偶数式异常度区间的中值。
6.根据权利要求5所述的基于缺失率与异常度度量的不完备数据集建模方法,其特征在于,在缺失值处理方法边界条件的适用范围内,通过二分法寻找直接丢弃法的相对适用条件的过程包括以下步骤:
将零缺失率到新的边界条件对应的缺失值的具体数值视为一个区间,并且区间的上限为新的边界条件对应缺失值的具体数值,下限为零缺失率;利用式(2)寻找当前上限与下限之间的中点,即当前缺失率区间的中值,称之为第一中值;
式中,high′表示缺失率区间的上限,也即边界条件对应缺失值的具体数值;low′表示缺失率区间的下限;
对该完备数据集做比例为第一中值的缺失化处理,并分别使用直接丢弃法和数值填充法进行处理,分析分类学习器在使用直接丢弃法处理后的数据集上取得的预测精度是否高于在使用数值填充法处理后的数据集上取得的;若判断结果为假,则调整得到新的缺失率区间,区间的上限调整为第一中值对应的具体数值,区间的下限保持零缺失率不变;继续利用式(2)寻找当前上限和下限之间的中点,称之为第二中值;继续对多余物定位数据集的完备数据集做比例为第二中值的缺失化处理,并同样分别使用直接丢弃法和数值填充法进行处理,分析分类学习器在使用直接丢弃法处理后的数据集上取得的预测精度是否高于在使用数值填充法处理后的数据集上取得的;若判断结果仍然为假,根据上述步骤,继续调整得到新的缺失率区间,并且将第二中值视为新的上限,保持下界不变;如此往复判断与调整,直至判断结果为真;在判断结果为真的情况下,认定当前第n中值对应的具体数值为直接丢弃法的相对适用条件。
7.根据权利要求6所述的基于缺失率与异常度度量的不完备数据集建模方法,其特征在于,在缺失值处理的过程中,当在确定了直接丢弃法的相对适用条件之后,再通过使用二分法来寻求直接丢弃法的相对适用条件到边界条件之间的区间范围内,多个小的缺失率区间适用的具体的数值填充法。
8.根据权利要求7所述的基于缺失率与异常度度量的不完备数据集建模方法,其特征在于,通过使用二分法来寻求直接丢弃法的相对适用条件到边界条件之间的区间范围内,多个小的缺失率区间适用的具体的数值填充法的过程包括以下步骤:
将直接丢弃法的相对适用条件到边界条件视为一个区间,称之为总区间,则区间的上限为边界条件对应缺失值的具体数值,下限为相对适用条件对应缺失值的具体数值;利用式(2)寻找当前上限与下限之间的中点,即当前缺失率区间的中值;对完备数据集做比例为当前中值的缺失化处理;分别使用多种具体的数值填充法进行处理,比较分类学习器在分别使用多种具体的数值填充法处理后的数据集上取得的预测精度,得出最高预测精度对应的数值填充法;调整得到新的缺失率区间,区间的上限调整为当前的中值对应的具体数值,区间的下限保持相对适用条件不变;继续利用式(2)寻找当前上限和下限之间的中点,并同样对完备数据集做比例为当前中值的缺失化处理;再次分别使用多种具体的数值填充法进行处理,比较分类学习器在分别使用多种具体的数值填充法处理后的数据集上取得的预测精度,得出最高预测精度对应的数值填充法;将本次的比较结果与上一次的比较结果进行对比,判断最高预测精度对应的数值填充法相同;调整得到新的缺失率区间,区间的上限调整为当前的中值对应的具体数值,区间的下限保持相对适用条件不变,重复一次上述步骤;同样得出本次分类学习器取得最高预测精度的数据集对应的具体数值填充法;将本次的比较结果与前两次的比较结果进行对比,判断三次分析结果是否一致;若三次分析结果一致,则将第一次分析时对应的中值视为上限,直接丢弃法的相对适用条件视为下限,得到一个缺失率区间;认定当前的具体数值填充法为得到的新的缺失率区间上的最佳缺失值处理方法;若前三次分析结果不一致,则继续采用同样的步骤得到第4、5、……n次的分析结果,并分别以当前的分析结果与相近的前两次的分析结果进行对比,直至连续三次的分析结果一致;这样,调整得到新的缺失率区间,区间的上限为连续三次分析中第一次分析对应中值的具体数值,区间的下限为直接丢弃法的相对适用条件。
9.根据权利要求8所述的基于缺失率与异常度度量的不完备数据集建模方法,其特征在于,在确定多个小的缺失率区间适用的具体的数值填充法的过程中,在满足“连续三次分析结果一致”的基础上,将进行第三次分析的中值视为下界,将进行第二次分析的中值视为上界,将它们组成的区间称为辅助判断区间;需要满足辅助判断区间的长度低于总区间长度的1/10。
10.基于缺失率与异常度度量的不完备数据集处理方法,其特征在于,包括以下步骤:
步骤一:将待处理的多余物定位数据集记为当前数据集A;同时获取数据集A的同种结构的不完备数据集,获取当前数据集A中异常值的个数,进而计算数据集的异常度;
所述的同种结构的不完备数据集的确定过程:将数据集A的同种结构的完备数据集,带入不完备数据处理模型进行处理,得到获取数据集A的同种结构的不完备数据集;所述的不完备数据处理模型为基于权利要求9所述的基于缺失率与异常度度量的不完备数据集建模方法确定的不完备数据处理模型;
步骤二:判断当前数据集A的异常度是否在不完备数据处理模型的异常值处理部分的边界条件内;如果判断结果为真,表明当前数据集在能够进行异常值处理的范围内,继续步骤三的处理;
步骤三:判断当前数据集A的异常度是否在不完备数据处理模型的异常值处理部分适用直接丢弃法的相对适用条件内;如果判断结果为假,表明数据集的异常度在边界条件和相对适用条件范围内,将异常值处理成空值进行统一处理,并继续步骤四的处理;如果判断结果为真,表明数据集的异常度较小,则对当前数据集中的异常值使用直接丢弃法进行处理,跳过步骤四,直接进入步骤五进行处理;
步骤四:将当前数据集A中的异常值处理成空值,即缺失值;
步骤五:集中获取当前数据集A中的缺失值个数,进而计算数据集的缺失率;
步骤六:判断当前数据集A的缺失率是否在不完备数据处理模型的缺失值处理部分的边界条件内;如果判断结果为真,表明当前数据集在能够进行缺失值处理的范围内,继续步骤七的处理;如果判断结果为假,表明当前数据集的质量已经比较低下,不对该数据集进行处理;
步骤七:判断当前数据集A的缺失率是否在不完备数据处理模型的缺失值处理部分适用直接丢弃法的相对适用条件内;如果判断结果为假,表明数据集的缺失率在边界条件和相对适用条件范围内,表明当前数据集在值得处理的范围内,继续步骤八的处理;如果判断结果为真,表明数据集的缺失率较小,则对当前数据集中的缺失值使用直接丢弃法进行处理;
步骤八:根据当前数据集的缺失率的数值大小,确定其归属于不完备数据处理模型的具体缺失率区间,并应用该缺失率区间对应的数值填充法对当前数据集进行缺失值处理。
CN202210961634.8A 2022-08-11 2022-08-11 基于缺失率与异常度度量的不完备数据集建模及处理方法 Active CN115345319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210961634.8A CN115345319B (zh) 2022-08-11 2022-08-11 基于缺失率与异常度度量的不完备数据集建模及处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210961634.8A CN115345319B (zh) 2022-08-11 2022-08-11 基于缺失率与异常度度量的不完备数据集建模及处理方法

Publications (2)

Publication Number Publication Date
CN115345319A CN115345319A (zh) 2022-11-15
CN115345319B true CN115345319B (zh) 2023-12-08

Family

ID=83952200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210961634.8A Active CN115345319B (zh) 2022-08-11 2022-08-11 基于缺失率与异常度度量的不完备数据集建模及处理方法

Country Status (1)

Country Link
CN (1) CN115345319B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354995A (zh) * 2016-08-24 2017-01-25 华北电力大学(保定) 一种基于拉格朗日插值与时间序列的预测方法
CN110458195A (zh) * 2019-07-10 2019-11-15 河海大学 一种基于多判据融合的异常数据甄别方法
CN110837855A (zh) * 2019-10-30 2020-02-25 云南电网有限责任公司信息中心 一种对电网业务协同监控系统中异构数据集的处理方法
CN112232447A (zh) * 2020-12-14 2021-01-15 国网江西省电力有限公司电力科学研究院 一种电力设备状态监测数据的完整样本集的构建方法
CN113298297A (zh) * 2021-05-10 2021-08-24 内蒙古工业大学 一种基于孤立森林与wgan网络的风电输出功率预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3309690A1 (en) * 2016-10-17 2018-04-18 Tata Consultancy Services Limited System and method for data pre-processing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354995A (zh) * 2016-08-24 2017-01-25 华北电力大学(保定) 一种基于拉格朗日插值与时间序列的预测方法
CN110458195A (zh) * 2019-07-10 2019-11-15 河海大学 一种基于多判据融合的异常数据甄别方法
CN110837855A (zh) * 2019-10-30 2020-02-25 云南电网有限责任公司信息中心 一种对电网业务协同监控系统中异构数据集的处理方法
CN112232447A (zh) * 2020-12-14 2021-01-15 国网江西省电力有限公司电力科学研究院 一种电力设备状态监测数据的完整样本集的构建方法
CN113298297A (zh) * 2021-05-10 2021-08-24 内蒙古工业大学 一种基于孤立森林与wgan网络的风电输出功率预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A new dynamic data cleaning technique for improving incomplete dataset consistency;Sreedhar Kumar S et al.;《I.J. Information Technology and Computer Science》;第60-68页 *
基于泛化中心聚类的不完备数据集填补方法;王妍 等;《小型微型计算机系统》(第9期);第2017-2021页 *

Also Published As

Publication number Publication date
CN115345319A (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
Pedrycz et al. The design of free structure granular mappings: The use of the principle of justifiable granularity
US8805836B2 (en) Fuzzy tagging method and apparatus
CA2436352A1 (en) Process and system for developing a predictive model
CN108561127B (zh) 一种基于随机模拟的地层压力预测方法
CN114918581B (zh) 焊接参数处理方法、装置、存储介质及处理器
CN107016416B (zh) 基于邻域粗糙集和pca融合的数据分类预测方法
CN112906813A (zh) 一种基于密度聚类和胶囊神经网络的浮选工况识别方法
Vodopija et al. Characterization of constrained continuous multiobjective optimization problems: A feature space perspective
González et al. BDD-based optimization for the quadratic stable set problem
CN115345319B (zh) 基于缺失率与异常度度量的不完备数据集建模及处理方法
CN109948675A (zh) 基于前哨多种群机制果蝇优化算法来构建预测模型的方法
CN105678798A (zh) 一种结合局部空间信息的多目标模糊聚类图像分割方法
US7895168B2 (en) Data mining using variable rankings and enhanced visualization methods
Du et al. Spatiotemporal dynamics and fitness analysis of global oil market: Based on complex network
CN116341059A (zh) 基于相似度的隧道智能设计方法
CN105678430A (zh) 基于邻近项目Slope One算法的用户改进推荐方法
CN115577295A (zh) 数据检测方法、装置、计算机设备和存储介质
Li et al. Dynamic multiobjective optimization algorithm based on average distance linear prediction model
Wong et al. Forward selection two sample binomial test
Bernard et al. Multiscale visual quality assessment for cluster analysis with Self-Organizing Maps
JP6613937B2 (ja) 品質予測装置、品質予測方法、プログラム及びコンピュータ読み取り可能な記録媒体
Papatheocharous et al. Software effort estimation with ridge regression and evolutionary attribute selection
Li et al. Neural network ensembles: Theory, training, and the importance of explicit diversity
CN112288571A (zh) 一种基于快速构建邻域覆盖的个人信用风险评估方法
Sadi-Nezhad et al. A new fuzzy clustering algorithm based on multi-objective mathematical programming

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant