CN112906556A

CN112906556A - 一种用于口罩佩戴检测的数据预处理方法

Info

Publication number: CN112906556A
Application number: CN202110183304.6A
Authority: CN
Inventors: 武心禾; 于靖薇; 邹佳佳; 吴羽欣; 邓欢
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2021-06-04

Abstract

本发明公开了一种用于口罩佩戴检测的数据预处理方法，涉及数据处理技术领域，包括以下步骤：标定搜寻方向，其搜索原型的约简集tg表示训练集tr；获取选择类别，确定结果生成集，其中包括保留边框、中心或两种类型的点；获取生成机制，其中包括构建约简集tg；确定搜索的评估。本发明可针对不同类型的数据集，使得起到优化神经网络的效果，此外使口罩佩戴检测更加精准高效。

Description

一种用于口罩佩戴检测的数据预处理方法

技术领域

本发明涉及数据处理技术领域，具体来说，涉及一种用于口罩佩戴检测的数据预处理方法。

背景技术

正确佩戴口罩出门是为了防止疫情扩散，此举得到了人们的广泛支持。但也带来了很多挑战——高密度的人流让基层排查人员面临着人手不足，以及接触疑似患者的风险，只有适应新情况的人工智能技术才能减轻他们的工作压力。目前应用的口罩检测模型，可在公共场所高密度人流的环境中，对佩戴口罩和未佩戴口罩的人脸进行快速识别标注，口罩佩戴检测已经在工厂车间和人流密集的公共场合得到较为广泛的应用，但是在神经网络发展完备的情况下，优化检测效果和节约存储是目前关注的重点，运用PrototypeSelection和Prototype Generation的数据预处理能使目标检测任务得到进一步优化提升，在提高分类精度和节约存储空间方面效果尤其显著。

目前，通过数据预处理来提高神经网络性能的研究是比较普遍和迫切的。Prototype Selection和Prototype Generation可以代表一种可行和有前途的技术来获得预期的结果，减少存储空间，提高分类精度。最近邻(KNN)规则是解决分类和模式识别任务最成功的技术之一。kNN实现简单，功能强大，因为它的理论性质保证了对于所有分布，其误差概率是Bayes误差概率的两倍以上。这个规则的初始实现没有学习阶段，因为它使用所有的训练集对象来分类新的输入数据，尽管分类精度很高，但该规则在时间响应，噪声敏感性和高存储要求方面存在一些缺点。这些弱点可以通过运用Prototype Selection和Prototype Generation得到解决。Prototype reduction techniques可以分为两种不同的方法，即Prototype Selection和Prototype Generation。前者包括选择原始训练数据的一个子集，而后者则是构建新的人工原型以提高神经网络分类的准确性。对于神经网络，尽管它的分类精度很高，但众所周知其依旧存在有几个缺点。这些缺点是阻止分类器成功应用的主要原因。为了存储定义决策规则的示例集而提出较高的高存储需求。此外，所有数据实例的存储也导致了决策规则计算过程中的高计算成本，这是由于测试样本和训练样本之间的相似性的多次计算造成的。则是神经网络(尤其是1NN)对噪声的容忍度很低，因为它认为所有的数据都是相关的，即使训练集可能包含不正确的数据。最后，神经网络对现有数据进行预测，并假设输入数据完美地划分了类之间的决策边界，这就造成了一定的误差。

因此，我们提出一种用于口罩佩戴检测的数据预处理方法。

发明内容

针对相关技术中的问题，本发明提出一种用于口罩佩戴检测的数据预处理方法，以克服现有相关技术所存在的上述技术问题。

本发明的技术方案是这样实现的：

一种用于口罩佩戴检测的数据预处理方法，包括以下步骤：

标定搜寻方向，其搜索原型的约简集tg表示训练集tr；

获取选择类别，确定结果生成集，其中包括保留边框、中心或两种类型的点；

获取生成机制，其中包括构建约简集tg；

确定搜索的评估。

进一步的，所述搜寻方向，包括：Incremental(增量搜索)、Decremental(递减搜索)、Batch(批处理)、Mixed(混合搜索)和Fixed(固定搜索)。

进一步的，所述获取选择类别，确定结果生成集，包括：Condensation、Edition和Hybrid。

进一步的，所述生成机制包括：Class relabeling(类重新标记)、Centroid based(基于Centroid)、Space splitting(空间分割)和Positioning adjustment(定位调整)。

进一步的，所述搜索的评估包括：Filter(过滤器)、Wrapper和Semiwrapper。

本发明的有益效果：

本发明用于口罩佩戴检测的数据预处理方法，通过标定搜寻方向，其搜索原型的约简集tg表示训练集t r，获取选择类别，确定结果生成集，其中包括保留边框、中心或两种类型的点，获取生成机制并确定搜索的评估，实现运用Prototype Selection和PrototypeGeneration的数据预处理能使目标检测得到优化提升，在提高分类精度和节约存储空间方面效果尤其显著，另外可针对不同类型的数据集，使得起到优化神经网络的效果，此外使口罩佩戴检测更加精准高效。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种用于口罩佩戴检测的数据预处理方法的原理示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了一种用于口罩佩戴检测的数据预处理方法。

如图1所示，根据本发明实施例的用于口罩佩戴检测的数据预处理方法，包括以下步骤：

标定搜寻方向，其搜索原型的约简集tg表示训练集tr；

获取生成机制，其中包括构建约简集tg；

确定搜索的评估。

其中，所述搜寻方向，包括：Incremental(增量搜索)、Decremental(递减搜索)、Batch(批处理)、Mixed(混合搜索)和Fixed(固定搜索)。

其中，所述获取选择类别，确定结果生成集，包括：Condensation、

Edition和Hybrid。

其中，所述生成机制包括：Class relabeling(类重新标记)、Centroid based(基于Centroid)、Space splitting(空间分割)和Positioning adjustment(定位调整)。

其中，所述搜索的评估包括：Filter(过滤器)、Wrapper和Semiwrapper。

借助于上述技术方案，通过标定搜寻方向，其搜索原型的约简集tg表示训练集tr，获取选择类别，确定结果生成集，其中包括保留边框、中心或两种类型的点，获取生成机制并确定搜索的评估，实现运用Prototype Selection和Prototype Generation的数据预处理能使目标检测得到优化提升，在提高分类精度和节约存储空间方面效果尤其显著，另外可针对不同类型的数据集，使得起到优化神经网络的效果，此外使口罩佩戴检测更加精准高效。

另外，在一个实施例中，具体的，包括以下步骤：

预先标定搜寻方向：搜索原型的约简集tg来表示训练集tr。当搜索原型的子集以避免训练集tr时，搜索可以沿着多种方向进行，具体如下：

1)Incremental(增量搜索)：增量搜索以空子集s开始，如果满足某些条件，则将tr中的每个实例添加到s中。在这种情况下，算法取决于表示的顺序，这个因素可能非常重要。在这种方案中，实例在tr中的呈现顺序是随机的。

2)Decremental(递减搜索)：递减搜索以s＝tr开始，然后搜索要从s中删除的实例。同样，表示顺序很重要，但与递增过程不同，所有的训练示例都可以在任何时候进行检查。

3)Batch(批处理)：另一种应用PS进程的方法是批处理模式。这涉及到在删除任何一个实例之前确定每个实例是否满足删除条件。然后所有符合条件的都会被一次性删除。

4)Mixed(混合搜索)：混合搜索以预先选择的子集s(随机或通过增量或递减过程选择)开始，迭代地可以添加或删除任何满足特定标准的实例。这种类型的搜索允许对已经完成的操作进行校正。

5)Fixed(固定搜索)：固定搜索是混合搜索的一个子族，其中添加和删除的数量保持不变，因此，最终原型类型的数量是在学习阶段的开始决定的，并且不会发生变更。

另外，获取选择类别(结果生成集)，这个因素指的是技术生成的结果集，这一因素主要取决于Prototype Selection和Prototype Generation算法进行的搜索的类型，不管它们是寻求保留边界点、中心点还是其他一些点集，也就是说，最终的集合是否会保留边框、中心或两种类型的点。具体的：

1)Condensation：这个集合包括旨在保留更接近决策边界的点的技术，也称为边界点。保留边界点背后的直觉是，内部点对决策边界的影响不如边界点大，因此可以删除，而对分类的影响相对较小

2)Edition：这类算法要求去除边界点。它们移除噪音较大或与近邻不一致的点。这样移除了紧密的边界点，留下了更加平滑的边界。

3)Hybrid：Hybrid方法试图找到维持甚至提高测试数据泛化准确性的最小子集s。为了实现这一点，它允许根据前面两个策略遵循的标准去除内部和边界点。kNN分类器对这些方法具有高度的适应性，即使只选择很小的一部分实例，也能获得很大的改进。

此外，生成机制：这个因素即运用不同机制来构建最终的约简集t g。具体的：

1)Class relabeling(类重新标记)：这种生成机制包括从t r更改样本的类标记，这些标记可能存在错误，并且属于其他不同的类。它的目的是处理训练集中的所有类型的缺陷(标签错误，噪音和非典型情况)。所获得的效果与测试数据的泛化准确性的提高密切相关，尽管降低率保持不变。

2)Centroid based(基于Centroid)：这些技术基于通过合并一组类似的示例来生成人工原型。合并过程通常是通过计算选定集合上的平均属性值来实现的，产生所谓的质心。例子集的识别和选择是属于这个类别的算法的主要关注点。这些方法可以获得较高的降低率，但它们也与准确率损失有关。

3)Space splitting(空间分割)：这个集合包括基于不同启发式分割特征空间的技术，以及定义新原型的几种机制。这个想法包括将tr分成一些区域，这些区域将被建立与原始t r相关的决策边界的代表性示例所取代。这种机制在空间层面上起作用，因为找到分区是为了尽可能地区分一组示例，而基于质心的方法在数据层面上起作用，主要集中在优化选择一组要处理的示例。这些的减少能力技术通常取决于表示t r所需的区域数目。

4)Positioning adjustment(定位调整)：旨在通过使用优化过程来校正来自初始集的原型子集的位置。利用m维空间中的运动思想，可以获得原型的新位置，从而对原型的属性值进行加减。这种机制通常与固定或混合类型的减少有关。

此外，对于上述搜索的评估：神经网络本身是一个合适的启发式方法来指导PS和PG方法的搜索。启发式的决策必须有一个评估措施，允许比较不同的选择。搜索标准的评估取决于在这样的评估中使用或不使用神经网络。

具体的：

1)Filter(过滤器)：当对部分数据使用kNN规则来确定添加或删除的准则时，使用不留一的验证方案来获得较好的泛化精度估计。在每个决策中使用训练数据子集的事实增加了这些方法的效率，但是准确性可能不会得到提高。

2)Wrapper：当kNN规则用于带有省略一次验证方案的完整训练集时。这两个因素的结合使得我们能够得到一个很好的概括精度估计，从而有助于获得更好的精度超过测试数据。然而，每个决策都涉及对训练集的kNN规则的完整计算，并且学习阶段可能计算复杂。

3)Semiwrapper：神经网络用于部分数据，以确定做出某个决策的标准。因此，NN的性能可以通过本地化的数据来测量，这些数据将包含大多数在做决策时会受到影响的原型。这是一种中间方法，期望在效率和准确性之间进行权衡。

综上所述，借助于本发明的上述技术方案，通过标定搜寻方向，其搜索原型的约简集tg表示训练集tr，获取选择类别，确定结果生成集，其中包括保留边框、中心或两种类型的点，获取生成机制并确定搜索的评估，实现运用Prototype Selection和PrototypeGeneration的数据预处理能使目标检测得到优化提升，在提高分类精度和节约存储空间方面效果尤其显著，另外可针对不同类型的数据集，使得起到优化神经网络的效果，此外使口罩佩戴检测更加精准高效。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于口罩佩戴检测的数据预处理方法，其特征在于，包括以下步骤：

标定搜寻方向，其搜索原型的约简集tg表示训练集tr；

获取生成机制，其中包括构建约简集tg；

确定搜索的评估。

2.根据权利要求1所述的用于口罩佩戴检测的数据预处理方法，其特征在于，所述搜寻方向，包括：Incremental、Decremental、Batch、Mixed和Fixed。

3.根据权利要求2所述的用于口罩佩戴检测的数据预处理方法，其特征在于，所述获取选择类别，确定结果生成集，包括：Condensation、Edition和Hybrid。

4.根据权利要求3所述的用于口罩佩戴检测的数据预处理方法，其特征在于，所述生成机制包括：Class relabeling、Centroid based、Space splitting和Positioningadjustment。

5.根据权利要求4所述的用于口罩佩戴检测的数据预处理方法，其特征在于，所述搜索的评估包括：Filter、Wrapper和Semiwrapper。