CN117173765A

CN117173765A - 一种大规模遮罩人脸数据集标注方法及系统

Info

Publication number: CN117173765A
Application number: CN202311147711.7A
Authority: CN
Inventors: 梁泽逍; 宫如意; 李建中; 符哲; 蔡述庭
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2023-12-05

Abstract

本发明涉及数据集标注技术领域，提出一种大规模遮罩人脸数据集标注方法及系统，包括以下步骤：采集人脸图像数据集，对人脸图像数据集中的所有人脸图像进行高频转换，去除人脸图像中的低频噪声，得到人脸图像数据集对应的高频纹理分量集；计算高频纹理分量集中任意两个高频纹理分量间的关系矩阵；利用关系矩阵对人脸图像数据集进行预聚类，得到预聚类矩阵；利用预聚类矩阵和目标检测算法对人脸图像数据集进行人脸目标边界框预测，得到人脸目标边界框预测结果集合；基于人脸目标边界框预测结果集合，对人脸图像数据集进行标注，得到预标注的人脸图像数据集；修正预标注的人脸图像数据集，得到完成标注的人脸图像数据集。

Description

一种大规模遮罩人脸数据集标注方法及系统

技术领域

本发明涉及数据集标注的技术领域，更具体地，涉及一种大规模遮罩人脸数据集标注方法及系统。

背景技术

随着人工智能大规模模型的飞速发展，模型对大规模训练数据的需求也在增加。尽管当前收集数据相对便利，但数据标注的繁琐性却不容忽视，因此，海量数据的高质量标注成为一个严峻挑战。传统的手动数据标注方法不仅效率低下，还容易引入标注误差，只能对数量少且高质量的数据进行标注。在这种背景下，寻求高效、准确的标注方法变得尤为重要。

现有技术提出一种人脸数据标注方法及系统，包括以下步骤：获取待标注人脸图像中预设关键点的预设位置信息；根据所述预设关键点的预设位置信息以及不同的预设关键点之间的几何位置关系，获取所述待标注人脸图像中的标注信息；该方法通过待标注人脸图像中的已知位置的预设关键点，以及预设关键点之间的几何位置信息，推测出待标注人脸图像中其它的标注信息，可以对大规模的人脸数据进行准确标注；但因为该方法依赖预设关键点之间的几何位置关系，所以当人脸图像的面部有遮挡物遮挡时，使用该方法对人脸图像数据集进行标注的精确度会大大下降。

现有技术还提出了一种人脸遮挡检测算法，包括以下步骤：人脸图像预处理，将收集的复数张人脸图像根据人脸位置信息和人脸关键点坐标进行图像切割，得到复数张人脸五官图像作为基础数据集；其中，通过Dlib人脸检测算法获取人脸五官信息；数据增广，对所述基础数据集进行数据增广；数据标注与划分，对所述增广后的图像进行分类，包括遮挡、眼睛、嘴巴和鼻子，对不同类别的所述增广后的图像进行标注，将标注后的数据作为训练样本，用以训练卷积神经网络模型；从而利用完成训练的卷积神经网络模型来对人脸图像进行检测；该方法提出了当人脸图像的面部有遮挡物遮挡时，对人脸图像数据集进行自动标注的方法；但该方法的人脸五官信息是通过Dlib人脸检测算法直接获取的，通过Dlib人脸检测算法直接获取的人脸五官信息的准确度不高，从而影响标注结果的精确度；且该方法使用到数据增广操作，在数据增广过程中，可能会破坏人脸的自然形态，从而导致标注结果的精确度不高。

发明内容

本发明为克服上述现有技术所述的当人脸图像的面部有遮挡物遮挡时，无法精准标注人脸图像数据集的缺陷，提供一种能够精准标注的大规模遮罩人脸数据集标注方法及系统。

为解决上述技术问题，本发明的技术方案如下：

一种大规模遮罩人脸数据集标注方法，包括以下步骤：

S1：采集面部被遮挡的人脸图像，组成人脸图像数据集；

S2：对人脸图像数据集中的每一张面部被遮挡的人脸图像进行高频转换，去除面部被遮挡的人脸图像中的低频噪声，得到面部被遮挡的人脸图像对应的高频纹理分量，组成高频纹理分量集；

S3：计算高频纹理分量集中，任意两个高频纹理分量间的关系矩阵；

S4：利用关系矩阵对人脸图像数据集进行预聚类，得到预聚类矩阵；

S5：利用预聚类矩阵和目标检测算法对人脸图像数据集进行人脸目标边界框预测，得到人脸目标边界框预测结果集合；

S6：基于人脸目标边界框预测结果集合，对人脸图像数据集进行标注，得到预标注的人脸图像数据集；

S7：修正预标注的人脸图像数据集，得到完成标注的人脸图像数据集。

本发明还提出了一种大规模遮罩人脸数据集标注的系统用于实现上述的大规模遮罩人脸数据集标注方法。所述系统包括：

采集模块，用于采集面部被遮挡的人脸图像，组成人脸图像数据集；

高频转换模块，用于对人脸图像数据集中的每一张面部被遮挡的人脸图像进行高频转换，去除面部被遮挡的人脸图像中的低频噪声，得到面部被遮挡的人脸图像对应的高频纹理分量，组成高频纹理分量集；

关系矩阵计算模块，用于计算高频纹理分量集中，任意两个高频纹理分量间的关系矩阵；

预聚类模块，用于利用关系矩阵对人脸图像数据集进行预聚类，得到预聚类矩阵；

人脸目标边界框预测模块，用于利用预聚类矩阵和目标检测算法对人脸图像数据集进行人脸目标边界框预测，得到人脸目标边界框预测结果集合；

预标注模块，用于基于人脸目标边界框预测结果集合，对人脸图像数据集进行标注，得到预标注的人脸图像数据集；

修正模块，用于修正预标注的人脸图像数据集，得到完成标注的人脸图像数据集。

本发明还提出了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，其中所述计算机可读指令被所述处理器执行时，使得所述处理器执行本发明提出的大规模遮罩人脸数据集标注方法的步骤。

与现有技术相比，本发明技术方案的有益效果是：

本发明先通过提取人脸图像的高频纹理分量，去除低频噪声，还原人脸图像中被遮挡的部分，再通过预聚类方法，将可能属于同一人的人脸图像预聚类为同一类，在完成预聚类的基础上，按聚类类型进行目标检测，可以更好地利用同一人的人脸图像之间的相似性,提高目标检测的准确性，最后通过人工审查，确保人脸图像数据集标注的正确性，从而达到当人脸图像的面部被遮挡时，仍然能对人脸图像数据集进行精准标注的目的。

附图说明

图1为实施例1的大规模遮罩人脸数据集标注方法的流程示意图；

图2为实施例1的对人脸图像数据集进行预聚类的流程示意图；

图3为实施例2的大规模遮罩人脸数据集标注的系统的整体框架图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提出一种大规模遮罩人脸数据集标注方法，图1为本实施例的大规模遮罩人脸数据集标注方法的流程示意图。

在本实施例提出的大规模遮罩人脸数据集标注方法中，包括以下步骤：

S1：采集面部被遮挡的人脸图像，组成人脸图像数据集；

S7:修正预标注的人脸图像数据集，得到完成标注的人脸图像数据集。

在具体实施过程中，先通过提取人脸图像的高频纹理分量，去除低频噪声，还原人脸图像中被遮挡的部分，再通过预聚类方法，将可能属于同一人的人脸图像预聚类为同一类，在完成预聚类的基础上，按聚类类型进行目标检测，可以更好地利用同一人的人脸图像之间的相似性,提高目标检测的准确性，从而提高利用目标检测结果对人脸图像数据集进行标注的准确性，且简化了标注的流程，大幅度减少了标注所需的时间和人力成本，最后通过人工审查，确保人脸图像数据集标注的正确性，从而达到当人脸图像的面部被遮挡时，仍然能对人脸图像数据集进行精准标注的目的。

在一可选实施例中，对人脸图像数据集中的每一张面部被遮挡的人脸图像进行高频转换前，将人脸图像数据集中每一张面部被遮挡的人脸图像中的每一个像素点，以矩阵元素的形式表示，得到面部被遮挡的人脸图像对应的像素矩阵，组成像素矩阵集合；

其中可选地，计算高频纹理分量的具体过程为：

利用高频滤波器提取像素矩阵集合中的高频纹理分量；

其中，将像素矩阵集合中的第i个像素矩阵P转化为高频纹理分量h_i的函数表达式为：

式中，(m,n)表示像素点坐标，(u,v)表示频域中的像素点坐标；H和W分别表示人脸图像数据集中的面部被遮挡的人脸图像的长和宽。

在本实施例中，高频滤波器截止频率和阶数是需要预设的，高频纹理分量的提取与高频滤波器的截止频率密切相关，而高频纹理分量中的纹理特征的粗细程度和高频滤波器的阶数相关，如果高频滤波器的截止频率设置得太低，会保留过多应去除的低频噪声，设置得太高可能会去除掉有用的高频纹理信息，只有选择合适的高频滤波器截止频率和阶数，才能在保留关键的高频纹理信息的同时去除噪声。

其中可选地，计算高频纹理分量的具体过程为：

利用二维离散傅里叶变换，将像素矩阵集合中的每一个像素矩阵转化为频域形式，获得若干个频域信号；由所有频域信号组成频域信号集合；利用高频滤波器对频域信号集合进行滤波，去除频域信号集合中的低频噪声，获得面部被遮挡的人脸图像对应的高频纹理分量；

其中，将像素矩阵集合中的第i个像素矩阵P转化为频域信号X_i的函数表达式为：

将像素矩阵集合中的第i个像素矩阵P转化为频域信号X_i的矩阵表达式为：

式中，B₁和B₂分别表示由H和W确定的基矩阵；

利用高通滤波器将频域信号X_i转化为高频纹理分量h_i的计算表达式为：

图像可以分解为结构和纹理2大部分，其中的结构信息体现的是图像的整体框架，包含图像的边缘等重要的描述信息，而纹理信息体现的是图像框架中的细节部分。

在本实施例中，通过高通滤波器把频域信号中的低频信号去除，以除去人脸图像中的遮挡、阴影、曝光等低频噪声，同时保留人脸图像的轮廓、褶皱等高频纹理信息，再通过二维傅里叶逆变换，复原去除噪声后的人脸图像，使属于同一人的人脸图像的相似度更高，提高后续预聚类操作的准确性。

在一可选实施例中，S3步骤具体为：

S3.1：计算高频纹理分量集中，任意两个高频纹理分量间的协相关性；

设任意两个高频纹理分量分别为第a个高频纹理分量和第b个高频纹理分量，第a个高频纹理分量为h_a，第b个高频纹理分量为h_b，第a个高频纹理分量和第b个高频纹理分量间的协相关性cov_ab的计算表达式为：

式中，vec(·)表示用于向量化的函数，表示弗罗贝尼乌斯范数；

S3.2：计算高频纹理分量集中，任意两个高频纹理分量间的关系矩阵，获得关系矩阵W；

第a个高频纹理分量h_a和第b个高频纹理分量h_b问的关系矩阵的计算表达式为：

式中，N表示高频纹理分量的总个数。

在本可选实施例中，关系矩阵能够包含多个维度的数据之间的关系，而不仅仅是单一的特征，使得后续的预聚类过程可以考虑更全面的数据关系，有助于更好地捕捉人脸图像数据集的结构，从而得到更为精准的预聚类结果。

在一可选实施例中，图2为本实施例的对人脸图像数据集进行预聚类的流程示意图；S4步骤具体为：

S4.1：计算高频纹理分量集对应的度矩阵D；

S4.2：利用度矩阵D，计算高频纹理分量集对应的拉普拉斯矩阵L：

L＝D-W

S4.3：利用拉普拉斯矩阵L，构建预聚类矩阵优化模型，具体为：

式中，Tr表示矩阵的迹，I表示单位矩阵；

其中，F_q表示预聚类矩阵优化模型的目标函数，F表示预聚类矩阵，为预聚类矩阵优化模型的待求量，预聚类矩阵的每一行表示每一种聚类类型，每一列表示每一张面部被遮挡的人脸图像对应的高频纹理分量，每一列均有且仅有一个元素值为1，其他元素值皆为0，元素值为1的元素表示该元素所在列对应的聚类类型为所在行所指示的类型；预聚类矩阵中的每个元素的初始值均为零或随机值；

S4.4：在F^TDF＝I的约束条件下，迭代更新预聚类矩阵优化模型，在目标函数F_a达到最小时，或迭代次数达到预设值时，结束迭代，得到预聚类矩阵。

在本可选实施例中，通过预聚类，将人脸图像数据集中，可能属于同一人的人脸图像预聚类为同一类，方便提高后续目标检测的人脸目标边界框预测结果的准确度。

在一可选实施例中，S5步骤具体为：

S5.1：逐行提取预聚类矩阵中，元素值为1的元素所在列所指示的高频纹理分量对应的面部被遮挡的人脸图像，得到若干个人脸图像子数据集；其中，任一个人脸图像子数据集，由在预聚类矩阵的任一行中提取的面部被遮挡的人脸图像组成；

S5.2：利用Yolo目标检测算法，对所有人脸图像子数据集进行人脸目标边界框预测，得到人脸目标边界框预测结果集合；

其中，对第k个人脸图像子数据集Y_k进行人脸目标边界框预测的具体过程为：

将人脸图像子数据集Y_k中的任一张图像划分为一个单元格，对每个单元格预测若干个人脸目标边界框，得到人脸目标边界框预测结果；

其中，单元格的大小和边界框的个数均是预设值；

当人脸图像子数据集Y_k中的任一张图像为人脸图像子数据集Y_k中的第f张人脸图像I_f时，人脸图像I_f对应的人脸目标边界框预测结果z_kf的表达式为：

z_kf＝{(x_kf1，y_kf1，w_kf1，h_kf1，g_kf1)，...，(x_kfe，y_kfe，w_kfe，h_kfe，g_kfe)，...}

x_kfe＝σ(tx_kfe)+cx_kfe，

y_kfe＝σ(ty_kfe)+cy_kfe，

w_kfe＝pw_kfe*exp(tw_kfe)，

h_kfe＝ph_kfe*exp(th_kfe)

式中，σ(·)表示Sigmoid函数；x_kfe和y_kfe分别表示边界框B_e中心坐标的横坐标和纵坐标，w_kfe和h_kfe分别表示边界框B_e的宽度和高度；tx_kfe和ty_kfe分别表示边界框B_e的预测中心坐标的横坐标偏移和纵坐标偏移，tw_kfe和th_kfe分别表示边界框B_e的预测宽度和预测高度；cx_kfe和cy_kfe，分别表示边界框B_e对应的单元格中心坐标的横坐标和纵坐标；p表示用于调整边界框B_e的宽高比的参数；exp(·)表示指数函数；g_kfe表示边界框B_e属于第k种聚类类型的概率，g_kfe通过对人脸目标边界框B_e使用Softmax激活函数计算得到。

在本可选实施例中，在完成预聚类的基础上，按聚类类型进行目标检测，可以更好地利用同一人的人脸图像之间的相似性，提高目标检测的准确性。

在一可选实施例中，修正预标注的人脸图像数据集的过程为：

将人脸目标边界框预测结果集合和人脸图像数据集上传至Labelbox，利用Labelbox的自动标注算法对人脸图像数据集进行自动标注，得到预标注的人脸图像数据集；

将预标注的人脸图像数据集导入至标注工具中，逐个查看自动标注的目标边界框和对应的类别标签是否正确，若发现自动标注结果有误，则手动调整目标边界框的位置或改正其类别标签；若自动标注遗漏目标，则手动为目标添加边界框和类别标签；若人脸图像数据集的所有目标都被正确标注，则停止查看，得到完成标注的人脸图像数据集。

在本实施例中，通过Labelbox对人脸图像数据集进行自动标注，可以有效避免人工标注带来的主观性的误差，同时大幅度减少了标注所需的时间和人力成本，从而带来更准确且一致性更高的标注结果；在此基础上使用人工审查，将自动标注可能遗漏的目标或没有正确标注的标签修正，进一步提升了制成的完成标注的人脸数据集的标注质量。

实施例2

本实施例应用实施例1提出的大规模遮罩人脸数据集标注方法，提出以下性能比较示例：

本实施例使用X26人脸图像数据集和AR人脸图像数据集，其中，X26人脸图像数据集包含了10个不同人物在不同表情,光照条件以及墨镜,围巾等遮盖下的260张人脸图像；AR人脸图像数据集包含了100个不同人物的2600张脸部图像，其中每张人脸图像的面部表情，光照条件和眼镜围巾的遮罩都不一样。

使用本方案对X26人脸图像数据集进行标注时，将预聚类矩阵的行数设置为19行，采用巴特沃兹滤波器作为高频滤波器，并将巴特沃兹滤波器的阶数和截止频率分别设置为2和0.09；

使用本方案对AR人脸图像数据集进行标注时，将预聚类矩阵的行数设置为200行，采用巴特沃兹滤波器作为高频滤波器，并将巴特沃兹滤波器的阶数和截止频率分别设置为2和0.1；

性能比较结果：

使用k-means算法对X26人脸图像数据集进行标注的ACC(准确率)的最大值为20.00％；

使用SC算法对X26人脸图像数据集进行标注的ACC的最大值为26.92％；

使用本方案对X26人脸图像数据集进行标注的ACC的最大值为99.62％；

使用k-means算法对AR人脸图像数据集进行标注的ACC的最大值为13.12％；

使用SC算法对AR人脸图像数据集进行标注的ACC的最大值为12.77％；

使用本方案对AR人脸图像数据集进行标注的ACC的最大值为72.28％；

综上所述，本发明提出的方法对人脸图像数据集进行标注的准确率明显优于k-means算法和SC算法。

实施例3

本实施例提出一种大规模遮罩人脸数据集标注的系统，用于实现实施例1提出的一种大规模遮罩人脸数据集标注方法。

图3为本实施例的大规模遮罩人脸数据集标注的系统的整体框架图。

所述大规模遮罩人脸数据集标注的系统，包括：

可以理解，本实施例的系统应用于上述实施例1的方法，上述实施例1中的可选项同样适用于本实施例，故在此不再重复描述。

实施例4

本实施例提出一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，其中所述计算机可读指令被所述处理器执行时，使得所述处理器执行实施例1提出的大规模遮罩人脸数据集标注方法的步骤。

可以理解，本实施例的计算机设备应用于上述实施例1的方法，上述实施例1中的可选项同样适用于本实施例，故在此不再重复描述。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种大规模遮罩人脸数据集标注方法，其特征在于，包括以下步骤：

S1：采集面部被遮挡的人脸图像，组成人脸图像数据集；

2.根据权利要求1所述的大规模遮罩人脸数据集标注方法，其特征在于，对人脸图像数据集中的每一张面部被遮挡的人脸图像进行高频转换前，将人脸图像数据集中每一张面部被遮挡的人脸图像中的每一个像素点，以矩阵元素的形式表示，得到面部被遮挡的人脸图像对应的像素矩阵，组成像素矩阵集合。

3.根据权利要求2所述的大规模遮罩人脸数据集标注方法，其特征在于，计算高频纹理分量的具体过程为：

利用高频滤波器提取像素矩阵集合中的高频纹理分量；

4.根据权利要求2所述的大规模遮罩人脸数据集标注方法，其特征在于，计算高频纹理分量的具体过程为：

式中，B₁和B₂分别表示由H和W确定的基矩阵；

5.根据权利要求1～4任一项所述的大规模遮罩人脸数据集标注方法，其特征在于，S3步骤具体为：

第a个高频纹理分量h_a和第b个高频纹理分量h_b间的关系矩阵的计算表达式为：

式中，N表示高频纹理分量的总个数。

6.根据权利要求5所述的大规模遮罩人脸数据集标注方法，其特征在于，S4步骤具体为：

S4.1：计算高频纹理分量集对应的度矩阵D；

L＝D-W

式中，Tr表示矩阵的迹，I表示单位矩阵；

S4.4：在F^TDF＝I的约束条件下，迭代更新预聚类矩阵优化模型，在目标函数F_q达到最小时，或迭代次数达到预设值时，结束迭代，得到预聚类矩阵。

7.根据权利要求6所述的大规模遮罩人脸数据集标注方法，其特征在于，S5步骤具体为：

其中，单元格的大小和边界框的个数均是预设值；

x_kfe＝σ(tx_kfe)+cx_kfe，

y_kfe＝σ(ty_kfe)+cy_kfe，

w_kfe＝pw_kfe*exp(tw_kfe)，

h_kfe＝ph_kfe*exp(th_kfe)

8.根据权利要求7所述的大规模遮罩人脸数据集标注方法，其特征在于，修正预标注的人脸图像数据集的过程为：

9.一种大规模遮罩人脸数据集标注的系统，用于实现权利要求1～8任一项所述大规模遮罩人脸数据集标注方法，其特征在于，包括：

10.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1～8任一项所述大规模遮罩人脸数据集标注方法的步骤。