CN117390454A

CN117390454A - 基于多域自适应数据闭环的数据标注方法及系统

Info

Publication number: CN117390454A
Application number: CN202311526397.3A
Authority: CN
Inventors: 林群书; 刘明皓; 祁士刚; 吴欣骏; 杨易; 张超; 赵子健; 彭昊龙; 邵琪钧
Original assignee: Integer Intelligence Information Technology Hangzhou Co ltd
Current assignee: Integer Intelligence Information Technology Hangzhou Co ltd
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-01-12

Abstract

本申请公开了一种基于多域自适应数据闭环的数据标注方法及系统，包括：对待标注数据做特征提取，转化为向量写入向量数据库；计算相似度，选取与待标注数据域相似的已标注数据；利用这些数据对基模型进行补充训练，得到针对待标注数据域的预标注模型；使用该模型预测待标注数据的特征向量聚类得到的代表性数据的预标注标签，通过人工修改得到合格的有代表性标注数据；用这些标注数据再次对预标注模型进行补充训练，得到最终的针对待标注数据域的预标注模型；使用这个最终的模型预测剩余待标注数据的预标注标签，通过人工修改得到剩余待标注数据的标注信息。最终的预标注模型作为下次数据标注的基模型存储，完成数据闭环。

Description

基于多域自适应数据闭环的数据标注方法及系统

技术领域

本申请涉及数据处理领域，尤其涉及一种基于多域自适应数据闭环的数据标注方法及系统。

背景技术

数据闭环一直是软件工程领域的一种成熟的工作方式，在人工智能时代，数据闭环并没有从根本上改变“整体”软件工程的工作方法，但是，对管理、运营和工具带来了全新挑战。而数据标注是对计算机视觉（CV）或自然语言处理 (NLP)等领域对可识别的材料内容进行标记的过程。得益于数据标注，人工智能 (AI) 或机器学习模型可以解释高质量图像和视频以及文本中的数据。数据标注使自动驾驶汽车等机器学习项目能够成功地将我们带到目的地。

目前而言，最为基础的标注软件如LabelMe、LabelImg等方法，用户对数据采集后上传到标注软件，输出标注格式后还需要根据训练的情况做修改，再输入到模型进行训练。这些基础标注软件线性的数据生产方式无法做到有效的数据闭环。

此外现有数据闭环方法一般是将用户传入新的数据对预标注模型做补充训练得到新的预标注模型，新的预标注模型再去对新的数据做预标注以完成数据闭环。而这种现有数据闭环方法是在没有分析数据域的情况下直接传入预标注模型做补充训练，在减弱预标注模型的补充训练效果的同时降低了预标注模型对旧数据的拟合效果，无法充分发挥出数据闭环对模型补充训练的优势。

发明内容

本发明的目的是提供一种基于多域自适应数据闭环的数据标注方法及系统，以降低数据闭环过程中不同数据的域差异导致预标注模型补充训练时对域相关特征的可分辨性的损害，也去除了预标注模型在新数据域上的自适应带来的负迁移影响。

根据本申请实施例的第一方面，提供一种基于多域自适应数据闭环的数据标注方法，包括：

对待标注数据做特征提取，转为向量写入向量数据库；

计算待标注数据与数据库中已标注数据的相似度，选取与待标注数据域相似的已标注数据；

选取与待标注数据域相似的已标注数据对相应任务的基模型进行补充训练，得到针对待标注数据域的预标注模型；

对待标注数据的特征向量做聚类，得到有代表性数据；

使用所述预标注模型预测有代表性数据得到预标注标签，通过人工修改预标注标签得到合格的有代表性标注数据；

用合格的有代表性标注数据对所述预标注模型做补充训练，得到最终的针对待标注数据域的预标注模型；

使用最终的针对待标注数据域的预标注模型预测剩余待标注数据得到预标注标签，通过人工修改预标注标签得到剩余待标注数据的标注信息。

根据本申请实施例的第二方面，提供一种基于多域自适应数据闭环的数据标注系统，包括：

提取模块，用于对待标注数据做特征提取，转为向量写入向量数据库；

相似度计算模块，用计算待标注数据与数据库中已标注数据的相似度，选取与待标注数据域相似的已标注数据；

第一训练模块，用于选取与待标注数据域相似的已标注数据对相应任务的基模型进行补充训练，得到针对待标注数据域的预标注模型；

聚类模块，用于对待标注数据的特征向量做聚类，得到有代表性数据；

第一预测模块，用于使用所述预标注模型预测有代表性数据得到预标注标签，通过人工修改预标注标签得到合格的有代表性标注数据；

第二训练模块，用于用合格的有代表性标注数据对所述预标注模型做补充训练，得到最终的针对待标注数据域的预标注模型；

第二预测模块，用于使用最终的针对待标注数据域的预标注模型预测剩余待标注数据得到预标注标签，通过人工修改预标注标签得到剩余待标注数据的标注信息。

根据本申请实施例的第三方面，提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。

根据本申请实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面所述方法的步骤。

与现有技术相比，本发明的实施例具有以下有益效果：

将数据做特征提取后存入向量数据库，提高了数据的处理性能，能够支持大规模的数据检索；选取和新数据相似的数据域对模型进行补充训练，能够达到更好的补充训练效果；有效利用已有数据，能利用已有数据解决跨域问题，帮助新场景或新要求的数据冷启动。另外，本发明实施例还将数据标注任务回馈到预标注模型，标注产生的数据反哺模型生成更为优质的预标注模型，完成数据闭环，提高大数据量的数据标注任务的处理效率。

本发明提出的基于数据闭环的标注系统能够有效的解决这类问题，同时提供了安全、高效的数据流入和数据仓库来确保数据的稳定性，输出的模型反哺到标注系统完善预标注模型，整个闭环操作有效解决了人工完成标注效率低下的问题，提高了数据循环链路的速度，是整个自动驾驶技术迭代的关键点。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种基于多域自适应数据闭环的数据标注方法的流程图。

图2是根据一示例性实施例示出的模型补充训练效果对比图。

图3是根据一示例性实施例示出的一种基于多域自适应数据闭环的数据标注装置的框图。

图4是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

图1是根据一示例性实施例示出的一种基于多域自适应数据闭环的数据标注方法的流程图，如图1所示，该方法可以包括以下步骤：

S1：对待标注数据做特征提取，转为向量写入向量数据库；

具体地，在处理标注数据时，需要进行一些步骤以进行特征提取，并最终将其转化为向量写入到数据库，具体可以包括以下子步骤：

S11：数据预处理：在开始特征提取之前，通常需要先对数据进行预处理，不是一般性，预处理一般包括去除噪声数据，处理缺失值，数据标准化，或者数据规格化等。预处理阶段的目标是将数据清洗和组织成一个适合进一步分析的格式。

S12：特征提取：特征提取是从原始数据集中提取出有用特征的过程。这些特征可以通过各种统计，频率等数学计算得到，也可以通过对数据的直观理解和建模得到。例如，对于文本数据，常见的特征提取方式包括词频（TF）、逆文档频率（IDF）和TF-IDF等。

S13：特征转化为向量：当我们获得了一组特征后，下一步是将这些特征转化为向量，这是因为很多机器学习模型都接受向量作为输入。对于数值型特征，它们可以直接作为向量的元素；对于类别特征，通常我们会使用one-hot编码或者哑变量编码将它们转化为二值型向量。

S14：写入数据库：最后一步是将得到的向量写入数据库，为后续的机器学习任务做好准备。

S2：计算待标注数据与数据库中已标注数据的相似度，选取与待标注数据域相似的已标注数据；

具体地，计算待标注数据向量与已完成标注数据向量的余弦相似度，选取余弦相似度阈值以上的数据作为与待标注数据域相似的已标注数据。

更具体地，这个过程可以按照以下几个步骤展开：

S21：表示待标注数据：首先将待标注数据转化为向量的形式，以便于与已标注数据进行比较。数据的转化方法与之前针对已标注数据的处理方法相同。

S22：计算相似度：为了衡量待标注数据和已标注数据之间的相似度，最常用的就是余弦相似度。余弦相似度计算公式为：

A、B是两个向量，Cosθ就是这两个向量的余弦相似度，值越接近1表示越相似。余弦相似度的优点在于它仅考虑向量的方向，而不考虑它们的大小，因此它对数据的规模不敏感。

S23：选择相似的数据：一旦计算出待标注数据和所有已标注数据的相似度，接下来就选择相似度超过某个阈值的数据。阈值的设定取决于具体的应用场景和数据的特性，需要在保证足够的相似度和获取足够的数据量之间找到一个平衡。

以上步骤不仅可以有效利用已有的数据，而且通常可以产生相对稳定和准确的预测结果。此外，由于仅需要计算和比较向量的相似度，因此计算复杂度相对较低，适合处理大量数据。

S3：选取与待标注数据域相似的已标注数据对相应任务的基模型进行补充训练，得到针对待标注数据域的预标注模型；

具体地，补充训练基模型是为了使模型更适应新的数据环境，如果已标注的训练材料与待标注数据差异较大，往往难以达到这个目标。

对基模型的补充训练步骤如下：

S31：选择训练样本：使用前一步计算出的相似度，选择与待标注数据高度相似的已标注数据作为训练样本。

S32：补充训练：将选出的训练样本加入到原始的训练数据中，重新训练模型或者在原模型上继续训练。

S33：评估和调整：在训练过程中，我们需要定期评估模型在待标注数据上的表现，并适时调整训练策略，比如更换训练样本，调整模型参数等，以期得到最优的预标注模型。

这么设计的好处主要有两点，其一，能够高效的利用已标注的数据，基于相似度的选择策略能确保我们选中的已标注数据与待标注数据在特性上足够接近，这使得补充训练过程能够更有针对性，从而提高训练效率。其二，能够提高模型的准确性，当新来的待标注数据与已有的标注数据存在较大差异时，直接使用基模型往往会产生较大的预测误差，此时通过对模型进行补充训练，可有效地提高模型在待标注数据上的预测准确性。

具体地，所述相应任务的基模型可以选自2/3D目标检测基模型、2/3D语义分割基模型、关键点基模型、线标注基模型、文字识别基模型、语音识别基模型中的一种，针对任务不同，可以选择不同的基函数。

S4：对待标注数据的特征向量做聚类，得到有代表性数据；

具体地，使用密度聚类方法对数据的特征向量进行聚类，得到N簇数据，选取距离簇中心小于预定距离的数据作为有代表性数据。

更具体地，密度聚类方法根据数据空间的密度将数据分为几个簇，它可以发现任何形状的聚类结构，并且对噪声数据有较好的鲁棒性。其步骤如下：

S41：特征向量标准化：为了消除不同特征维度之间的影响，首先将特征向量进行标准化处理，使得不同的特征在计算时具有相同的尺度。

S42：密度聚类：使用密度聚类算法DBSCAN对标准化后的特征向量进行聚类。在密度聚类算法中，我们定义了一个距离阈值（EPS）和一个最小点数（MinPts），将距离在EPS内且数量超过MinPts的样本归类为一簇。

S43：选择有代表性数据：计算每一簇的簇中心，选择距离簇中心小于预定距离的数据作为本簇的有代表性数据。簇中心可以通过计算每一簇内样本的平均值得到，而预定距离则根据数据的具体情况而定。

这么做能够高效利用数据，通过聚类，我们可以将大量的数据进行首次简化，选出有代表性的数据进行后续分析，从而减少计算的复杂度。此外可以更好地处理噪声，在密度聚类过程中，我们可以有效地识别并排除噪声数据，从而提高模型的预测准确性和稳定性。

S5：使用所述预标注模型预测有代表性数据得到预标注标签，通过人工修改预标注标签得到合格的有代表性标注数据；

具体地，经过前面的步骤，我们已经有了一个针对待标注数据进行预标注的模型。我们可以使用这个模型对选取的有代表性数据进行预标注，得到预标注标签。然后，根据预标注结果，进行人工复查，通过人工检验预标注标签与实际内容是否一致，如果不一致，则需要进行修改。这是一个迭代的过程，需要人工干预，直到预标注标签满足标注要求，得到合格的有代表性标注数据。

将所述代表性数据传入所述预标注模型中，通过所述预标注模型对所述代表性数据提取特征，再对提取的特征进行分析和预测，输出预测结果。

当所述相应任务的基模型为2/3D目标检测基模型时，所述预标注模型预测输出为2/3D检测框；

当所述相应任务的基模型为2/3D语义分割基模型时，所述预标注模型预测输出为2/3D多边形；

当所述相应任务的基模型为关键点基模型时，所述预标注模型预测输出为关键点；

当所述相应任务的基模型为线标注基模型时，所述预标注模型预测输出为检测线；

当所述相应任务的基模型为文字识别基模型时，所述预标注模型预测输出为文字；

当所述相应任务的基模型为语音识别基模型时，所述预标注模型预测输出为音素。

S6：用合格的有代表性标注数据对所述预标注模型做补充训练，得到最终的针对待标注数据域的预标注模型；

具体地，补充训练步骤如下：

S61：分割数据：将合格的有代表性标注数据分割为训练集和验证集。训练集用于训练模型，验证集用于评估模型的性能和过拟合情况。

S62：补充训练：将合格的有代表性标注数据作为输入，对预标注模型进行补充训练。我们采用迁移学习的策略，只需调整模型的一部分参数即可。

S63：验证模型：训练完成后，使用验证集来评估模型的性能，检查是否存在过拟合等问题。如果模型性能未达预期，则需要调整模型参数，并重复进行补充训练和验证过程，直到模型性能满足预设要求。

S64：得到最终模型：经过调整和优化后，得到最终的针对待标注数据域的预标注模型。

图2是根据一示例性实施例示出的模型补充训练效果对比图。其中（a）为基模型每轮训练的mAP@0.5:0.95指标变化趋势，（b）为现有方法（即将用户传入新的数据对预标注模型做补充训练得到新的预标注模型，新的预标注模型再去对新的数据做预标注以完成数据闭环）的mAP@0.5:0.95指标变化趋势，（c）为本申请提出的方法的mAP@0.5:0.95指标变化趋势。从图可看出，在该示例性实施例中本申请提出的方法对基模型进行补充训练后，比现有方法对基模型进行补充训练得到的指标的mAP@0.5:0.95高出0.05，最后一轮训练的mAP@0.5:0.95达到0.85。

S7：使用最终的针对待标注数据域的预标注模型预测剩余待标注数据得到预标注标签，通过人工修改预标注标签得到剩余待标注数据的标注信息。

具体地，其步骤如下：

S71：使用最终模型进行预测：利用经过补充训练后的最终预标注模型，对剩余的待标注数据进行预测，生成预标注标签。

S72：人工复查和修改：人工复查预标注标签，如果与实际内容不同，进行修改，直到预标注标签正确，得到剩余待标注数据的标注信息。

S73：再次训练和调整：如果有大量预标注结果需要修改，说明模型可能还存在一定的预测误差。在这种情况下，需要将人工修改后的标注数据，再次用于调整和训练预标注模型，以优化预测效果。

这套数据闭环方案自适应新数据的数据域，优化预标注模型补充训练选择数据的方式，提高了预训练模型的训练效果。此外数据闭环链路中人工修改预标注标签确保了标注的准确性，有利于提升随后模型训练的效果和质量，如果发现预标注标签大量出错，可以立即进行反馈，再次训练和调整模型，以提升其预测的精度和稳定性。

与前述的基于多域自适应数据闭环的数据标注方法的实施例相对应，本申请还提供了基于多域自适应数据闭环的数据标注装置的实施例。

图3是根据一示例性实施例示出的一种基于多域自适应数据闭环的数据标注装置框图。参照图3，该装置包括：

提取模块1，用于对待标注数据做特征提取，转为向量写入向量数据库；

相似度计算模块2，用计算待标注数据与数据库中已标注数据的相似度，选取与待标注数据域相似的已标注数据；

第一训练模块3，用于选取与待标注数据域相似的已标注数据对相应任务的基模型进行补充训练，得到针对待标注数据域的预标注模型；

聚类模块4，用于对待标注数据的特征向量做聚类，得到有代表性数据；

第一预测模块5，用于使用所述预标注模型预测有代表性数据得到预标注标签，通过人工修改预标注标签得到合格的有代表性标注数据；

第二训练模块6，用于用合格的有代表性标注数据对所述预标注模型做补充训练，得到最终的针对待标注数据域的预标注模型；

第二预测模块7，用于使用最终的针对待标注数据域的预标注模型预测剩余待标注数据得到预标注标签，通过人工修改预标注标签得到剩余待标注数据的标注信息。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的基于多域自适应数据闭环的数据标注方法。如图4所示，为本发明实施例提供的一种基于多域自适应数据闭环的数据标注系统所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的基于多域自适应数据闭环的数据标注方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（FlashCard）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种基于多域自适应数据闭环的数据标注方法，其特征在于，包括：

对待标注数据做特征提取，转为向量写入向量数据库；

对待标注数据的特征向量做聚类，得到有代表性数据；

2.根据权利要求1所述的数据标注方法，其特征在于，计算待标注数据与数据库中已标注数据的相似度，选取与待标注数据域相似的已标注数据，包括：

计算待标注数据向量与已完成标注数据向量的余弦相似度，选取余弦相似度阈值以上的数据作为与待标注数据域相似的已标注数据。

3.根据权利要求1所述的数据标注方法，其特征在于，所述相应任务的基模型选自2/3D目标检测基模型、2/3D语义分割基模型、关键点基模型、线标注基模型、文字识别基模型、语音识别基模型中的一种。

4.根据权利要求1所述的数据标注方法，其特征在于，对待标注数据的特征向量做聚类，得到有代表性数据，包括：

使用密度聚类方法对数据的特征向量进行聚类，得到N簇数据，选取距离簇中心小于预定距离的数据作为有代表性数据。

5.根据权利要求1所述的数据标注方法，其特征在于，使用所述预标注模型预测有代表性数据得到预标注标签，包括：

6.根据权利要求5所述的数据标注方法，其特征在于，当所述相应任务的基模型为2/3D目标检测基模型时，所述预标注模型预测输出为2/3D检测框；

7.一种基于多域自适应数据闭环的数据标注系统，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-6中任一项所述方法的步骤。