CN109241997B

CN109241997B - 一种生成训练集的方法及装置

Info

Publication number: CN109241997B
Application number: CN201810876278.3A
Authority: CN
Inventors: 杨宗谕; 田文静; 谭熠; 庄焰; 陈锐; 黄昭献; 王友干
Original assignee: Shuocheng Xiamen Technology Co ltd
Current assignee: Shuocheng Xiamen Technology Co ltd
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2022-03-22
Anticipated expiration: 2038-08-03
Also published as: CN109241997A

Abstract

本发明提供一种生成训练集的方法及装置，该方法包括：获取未标注的数据集，从未标注的数据集中选取数据模板；根据数据模板对未标注的数据集进行标注，得到第一训练集；根据第一训练集训练神经网络；根据神经网络和第一训练集，生成未标注的数据集对应的标记训练集。本发明选取几个数据模板，结合训练的神经网络，通过循环校正的方式生成准确性很高的标记训练集，降低了数据标记人员的技术门槛，不需要对每个数据依次操作，只需要对一些可疑位置反复检查，循环校正优化，节约了大量的时间和人工成本。

Description

一种生成训练集的方法及装置

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种生成训练集的方法及装置。

背景技术

工业设备的声学监控与预测性维护是目前工业界迫切需要的技术，而机器学习方法凭借其强大的泛化能力和优异的识别效果，在该领域已经取得了良好的效果。但由于待检测的工业设备、应用的环境多种多样，在将机器学习方法应用到每个具体的环境和设备上时，通常需要制作专门的训练集对模型进行训练。

目前制作训练集通常有两种做法：无监督聚类和人工标注。无监督聚类是机器学习的的一类分支，主要特点是不需要对数据逐一进行人工操作，而是利用数据本身的分布特点，将相似的数据分为一类，无监督聚类虽然能辅助训练集的制作，但由于其分类效果无法预知，分类方式一定程度上不可控，聚类算法的调节也通常需要经验丰富的人员执行，其实际应用比较有限。在工业设备声学监控的领域，由于待分类目标是连续性信号，其分布不存在一个准确的分界线，无监督聚类的效果更加受限。人工标注的特点是标注准确，操作简单，没有过高的技术门槛，但随着深度学习的应用越来越广泛，模型开发需要的训练集规模越来越大，人工标注的方式需要高额时间和人力成本的缺点越来越突出。

因此当前急需一种适用于工业设备声学监控领域的训练集生成方案，以减少训练集生成过程中的人工干预，提高生成训练集的效率及准确性。

发明内容

有鉴于此，本发明实施例的目的在于提供一种生成训练集的方法及装置，以减少训练集生成过程中的人工干预，提高生成训练集的效率及准确性。

第一方面，本发明实施例提供了一种生成训练集的方法，所述方法包括：

获取未标注的数据集，从所述未标注的数据集中选取数据模板；

根据所述数据模板对所述未标注的数据集进行标注，得到第一训练集；

根据所述第一训练集训练神经网络；

根据所述神经网络和所述第一训练集，生成所述未标注的数据集对应的标记训练集。

结合第一方面，本发明实施例提供了上述第一方面的第一种可能的实现方式，其中，所述根据所述神经网络和所述第一训练集，生成所述未标注的数据集对应的标记训练集，包括：

通过所述神经网络识别所述未标注的数据集，得到第二训练集；

判断所述第二训练集与所述第一训练集之间的差异度是否小于预设阈值；

如果否，则根据所述第二训练集对所述第一训练集进行校正，返回根据所述第一训练集训练神经网络的步骤进行循环执行；

如果是，则将所述第一训练集或所述第二训练集确定为所述未标注的数据集对应的标记训练集。

结合第一方面的第一种可能的实现方式，本发明实施例提供了上述第一方面的第二种可能的实现方式，其中，所述根据所述第二训练集对所述第一训练集进行校正，包括：

在所述第一训练集中，确定与所述第二训练集相区别的差异数据；

对所述差异数据进行重新标记，得到校正后的所述第一训练集。

结合第一方面，本发明实施例提供了上述第一方面的第三种可能的实现方式，其中，从所述未标注的数据集中选取数据模板，包括：

按照周期性特点，将所述未标注的数据集划分为多种类型的子数据集；

分别为每种类型的子数据集选取每种类型对应的数据模板。

结合第一方面的第三种可能的实现方式，本发明实施例提供了上述第一方面的第四种可能的实现方式，其中，所述根据所述数据模板对所述未标注的数据集进行标注，得到第一训练集，包括：

通过每种类型对应的数据模板分别对每种类型的子数据集进行标注，得到每种类型对应的标注数据；

将所述每种类型对应的标注数据组成所述未标注的数据集对应的第一训练集。

第二方面，本发明实施例提供了一种生成训练集的装置，所述装置包括：

选取模块，用于获取未标注的数据集，从所述未标注的数据集中选取数据模板；

标注模块，用于根据所述数据模板对所述未标注的数据集进行标注，得到第一训练集；

训练模块，用于根据所述第一训练集训练神经网络；

生成模块，用于根据所述神经网络和所述第一训练集，生成所述未标注的数据集对应的标记训练集。

结合第二方面，本发明实施例提供了上述第二方面的第一种可能的实现方式，其中，所述生成模块包括：

识别单元，用于通过所述神经网络识别所述未标注的数据集，得到第二训练集；

判断单元，用于判断所述第二训练集与所述第一训练集之间的差异度是否小于预设阈值；

校正单元，用于当所述判断单元判断出所述第二训练集与所述第一训练集之间的差异度大于或等于所述预设阈值时，根据所述第二训练集对所述第一训练集进行校正，返回根据所述第一训练集训练神经网络的步骤进行循环执行；

确定单元，用于当所述判断单元判断出所述第二训练集与所述第一训练集之间的差异度小于所述预设阈值时，将所述第一训练集或所述第二训练集确定为所述未标注的数据集对应的标记训练集。

结合第二方面的第一种可能的实现方式，本发明实施例提供了上述第二方面的第二种可能的实现方式，其中，所述校正单元，用于在所述第一训练集中，确定与所述第二训练集相区别的差异数据；对所述差异数据进行重新标记，得到校正后的所述第一训练集。

结合第二方面，本发明实施例提供了上述第二方面的第三种可能的实现方式，其中，所述选取模块包括：

划分单元，用于按照周期性特点，将所述未标注的数据集划分为多种类型的子数据集；

选取单元，用于分别为每种类型的子数据集选取每种类型对应的数据模板。

第三方面，本发明实施例提供了一种生成训练集的设备，所述设备包括存储器和处理器；所述存储器中存储有可执行程序，所述处理器执行所述可执行程序以实现上述所述的生成训练集的方法。

在本发明实施例中，生成一个新的训练集只需要选取几个数据模板，并反复检查一些可疑位置的标记是否错误，不需要标记人员对机器学习和软件本身有很充分的认识，降低了数据标记人员的技术门槛。而且由于不需要对每个数据依次操作，只需要对一些可疑位置反复检查，循环校正优化，节约了大量的时间和人工成本。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例1所提供的一种生成训练集的方法流程图；

图2示出了本发明实施例1所提供的另一种生成训练集的方法流程图；

图3示出了本发明实施例1所提供的在工业设备声学监控的应用场景下生成训练集的流程示意图；

图4示出了本发明实施例1所提供的在工业设备声学监控的应用场景下生成的神经网络的效果随循环次数的变化示意图；

图5示出了本发明实施例1所提供的在工业设备声学监控的应用场景下最终生成的神经网络的识别效果示意图；

图6示出了本发明实施例2所提供的一种生成训练集的装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到相关技术中采用无监督聚类和人工标注方式制作训练集，无监督聚类的分类方式一定程度上不可控，聚类算法的调节也通常需要经验丰富的人员执行，其实际应用比较有限。人工标注的方式需要高额时间和人力成本。基于此，本发明实施例提供了一种生成训练集的方法及装置，下面通过实施例进行描述。

实施例1

参见图1，本发明实施例提供了一种生成训练集的方法，该方法具体包括以下步骤：

步骤101：获取未标注的数据集，从未标注的数据集中选取数据模板。

采集足够多的未标注的数据作为未标注的数据集，确定未标注的数据的周期性特点。按照周期性特点，将未标注的数据集划分为多种类型的子数据集；分别为每种类型的子数据集选取每种类型对应的数据模板。

其中，在选取一种类型对应的数据模板时，从该类型的子数据集中确定有能够代表该类型的预设个数个未标注数据，对该预设个数个未标注数据进行人工标注，将标注后的该预设个数个数据作为该类型对应的数据模板。对于其他任何一种类型，均按照上述方式分别选取出其他每种类型对应的数据模板。

在本发明实施例中，每个类型需要的数据模板的数量要视同一类型中不同数据的相似程度而定。如果同一类型中的数据相似程度很高，则一个数据模板即可，但如果同一类型中的数据很明显地分成了几个小类别，则需要对每个小类别分别选择数据模板。

步骤102：根据数据模板对未标注的数据集进行标注，得到第一训练集。

通过每种类型对应的数据模板分别对每种类型的子数据集进行标注，得到每种类型对应的标注数据；将每种类型对应的标注数据组成未标注的数据集对应的第一训练集。

在本发明实施例中，通过一种类型对应的数据模板对该种类型的子数据集进行标注时按照模板匹配的方式进行标注，所有类型的子数据集均进行标注后，将所有标注后的数据组成第一训练集。

步骤103：根据第一训练集训练神经网络。

使用第一训练集，训练一个能够区分不同类型数据的神经网络。

步骤104：根据神经网络和第一训练集，生成未标注的数据集对应的标记训练集。

如图2所示，本发明实施例中通过如下步骤S1-S4来生成标记训练集，具体包括：

S1：通过神经网络识别未标注的数据集，得到第二训练集。

通过步骤103训练的神经网络对未标注的数据集进行重新识别，得到第二训练集。

S2：判断第二训练集与第一训练集之间的差异度是否小于预设阈值，如果否，则执行步骤S3，如果是，则执行步骤S4。

比较第二训练集及第一训练集，确定第二训练集与第一训练集中存在标注差异的数据，将存在标注差异的数据的量作为第二训练集与第一训练集之间的差异度，或者计算存在标注差异的数据的量与第一训练集或第二训练集的数据量之间的比值，将该比值作为第二训练集与第一训练集之间的差异度。判断该差异度是否小于预设阈值。

在确定第二训练集与第一训练集中存在标注差异的数据时，需要一个衡量差异集中程度的判断值，这一判断值主要用于区分这些差异是临界位置的识别困难造成的还是标记的错误造成的，通常需要观察这两种问题造成的差异的集中程度，并将该判断值尽可能确定在两者的分界线上。

S3；根据第二训练集对第一训练集进行校正，返回步骤103根据第一训练集训练神经网络的步骤进行循环执行。

当确定第二训练集与第一训练集之间的差异度大于或等于预设阈值时，在第一训练集中，确定出与第二训练集相区别的差异数据。对差异数据进行重新标记，得到校正后的第一训练集。

在本发明实施例中，可以对差异数据进行人工标记，从而得到校正后的第一训练集。然后返回步骤103，通过校正后的第一训练集重新训练神经网络。之后在步骤S1中通过重新训练的神经网络对未标注的数据集进行识别，得到新的第二训练集，再次通过步骤S2判断新的第二训练集与校正后的第一训练集之间的差异度是否小于预设阈值，若小于，在执行后续步骤S4，否则，继续返回步骤103进行循环执行，对第一训练集进行循环校正，不断优化，直到第一训练集与第二训练集之间的差异度小于预设阈值时退出循环，执行后续步骤S4。

判定是否结束循环的预设阈值由对得到的训练集的错误率要求决定，通常将预设阈值取在期望的训练集的错误率的一半。对训练集的质量要求越高，预设阈值应取值越低。

S4：将第一训练集或第二训练集确定为未标注的数据集对应的标记训练集。

本发明实施例提供的方法可应用于为基于卷积神经网络的工业设备产量声学监控系统的训练集制作，在该场景下，系统的主要流程图如图3所示，采集工业设备生产时的工序信号和非工序信号作为未标注的数据集，选取数据模板，通过数据模板进行匹配得到训练用样本集；通过训练用样本集训练得到神经网络，通过该神经网络对未标注的工序信号和非工序信号进行识别得到识别结果；对比训练用样本集及上述识别结果，判断正确率是否高于阈值，如果是，则输出训练集与神经网络。如果否，则人工检测错误部分，校正训练用样本集，然后循环执行，直至正确率高于阈值时输出训练集与神经网络。

在工序识别卷积神经网络的训练集制作过程中的应用得到了良好的效果，在该场景中，训练得到的神经网络的正确率及待检查的可以标记数量随着循环迭代轮数的变化如图4所示，从图4中可以看到，经过4轮迭代，共计对142个可疑位置进行了检查，最终得到了一个包含约800次工序的训练集，如果对这些工序进行一一的人工标记，需要耗费的工作量是使用本发明实施例提供的方法的5-6倍。最终本发明实施例得到的神经网络的正确率为98.5％，其识别效果如图5所示，图5中上半部分是对应每一次生产的脉冲信号，下半部分是采集到的原始声音波形，可以看出使用本发明实施例提供的训练集生成方式得到的训练集，能够训练出效果颇为不错的卷积神经网络模型。

实施例2

参见图6，本发明实施例提供了一种生成训练集的装置，该装置包括：

选取模块20，用于获取未标注的数据集，从未标注的数据集中选取数据模板；

标注模块21，用于根据数据模板对未标注的数据集进行标注，得到第一训练集；

训练模块22，用于根据第一训练集训练神经网络；

生成模块23，用于根据神经网络和第一训练集，生成未标注的数据集对应的标记训练集。

上述生成模块23包括：

识别单元，用于通过神经网络识别未标注的数据集，得到第二训练集；

判断单元，用于判断第二训练集与第一训练集之间的差异度是否小于预设阈值；

校正单元，用于当判断单元判断出第二训练集与第一训练集之间的差异度大于或等于预设阈值时，根据第二训练集对第一训练集进行校正，返回根据第一训练集训练神经网络的步骤进行循环执行；

确定单元，用于当判断单元判断出第二训练集与第一训练集之间的差异度小于预设阈值时，将第一训练集或第二训练集确定为未标注的数据集对应的标记训练集。

上述校正单元，用于在第一训练集中，确定与第二训练集相区别的差异数据；对差异数据进行重新标记，得到校正后的第一训练集。

选取模块20包括：

划分单元，用于按照周期性特点，将未标注的数据集划分为多种类型的子数据集；

标注模块21，用于通过每种类型对应的数据模板分别对每种类型的子数据集进行标注，得到每种类型对应的标注数据；将所述每种类型对应的标注数据组成所述未标注的数据集对应的第一训练集。

实施例3

本发明实施例提供了一种生成训练集的装置，该装置包括处理器和存储器；

存储器存储有可执行程序，当该装置运行时，处理器执行存储器中存储的可执行程序，以实现上述实施例1提供的生成训练集的方法。

该装置通过处理器执行可执行程序，生成一个新的训练集只需要选取几个数据模板，并反复检查一些可疑位置的标记是否错误，不需要标记人员对机器学习和软件本身有很充分的认识，降低了数据标记人员的技术门槛。而且由于不需要对每个数据依次操作，只需要对一些可疑位置反复检查，循环校正优化，节约了大量的时间和人工成本。

实施例4

本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质中存储有执行指令，执行指令被计算机执行实现上述实施例1提供的生成训练集的方法。

该计算机存储介质存储的计算机可执行指令执行后，生成一个新的训练集只需要选取几个数据模板，并反复检查一些可疑位置的标记是否错误，不需要标记人员对机器学习和软件本身有很充分的认识，降低了数据标记人员的技术门槛。而且由于不需要对每个数据依次操作，只需要对一些可疑位置反复检查，循环校正优化，节约了大量的时间和人工成本。

本发明实施例所提供的生成训练集的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种生成训练集的方法，其特征在于，所述方法应用于为基于卷积神经网络的工业设备产量声学监控系统的训练集制作，采集工业设备生产时的工序信号和非工序信号作为未标注的数据集；

所述方法包括：

步骤101：获取未标注的数据集，从未标注的数据集中选取数据模板；

采集足够多的未标注的数据作为未标注的数据集，确定未标注的数据的周期性特点；按照周期性特点，将未标注的数据集划分为多种类型的子数据集；分别为每种类型的子数据集选取每种类型对应的数据模板；

其中，在选取一种类型对应的数据模板时，从该类型的子数据集中确定有能够代表该类型的预设个数个未标注数据，对该预设个数个未标注数据进行人工标注，将标注后的该预设个数个数据作为该类型对应的数据模板；对于其他任何一种类型，均按照上述方式分别选取出其他每种类型对应的数据模板；

每个类型需要的数据模板的数量要视同一类型中不同数据的相似程度而定；如果同一类型中的数据相似程度很高，则一个数据模板即可，但如果同一类型中的数据很明显地分成了几个小类别，则需要对每个小类别分别选择数据模板；

步骤102：根据数据模板对未标注的数据集进行标注，得到第一训练集；

通过每种类型对应的数据模板分别对每种类型的子数据集进行标注，得到每种类型对应的标注数据；将每种类型对应的标注数据组成未标注的数据集对应的第一训练集；

通过一种类型对应的数据模板对该种类型的子数据集进行标注时按照模板匹配的方式进行标注，所有类型的子数据集均进行标注后，将所有标注后的数据组成第一训练集；

步骤103：根据第一训练集训练神经网络；

使用第一训练集，训练一个能够区分不同类型数据的神经网络；

步骤104：根据神经网络和第一训练集，生成未标注的数据集对应的标记训练集；通过如下步骤S1-S4来生成标记训练集，具体包括：

S1：通过神经网络识别未标注的数据集，得到第二训练集；

通过步骤103训练的神经网络对未标注的数据集进行重新识别，得到第二训练集；

S2：判断第二训练集与第一训练集之间的差异度是否小于预设阈值，如果否，则执行步骤S3，如果是，则执行步骤S4；

比较第二训练集及第一训练集，确定第二训练集与第一训练集中存在标注差异的数据，将存在标注差异的数据的量作为第二训练集与第一训练集之间的差异度，或者计算存在标注差异的数据的量与第一训练集或第二训练集的数据量之间的比值，将该比值作为第二训练集与第一训练集之间的差异度；判断该差异度是否小于预设阈值；

在确定第二训练集与第一训练集中存在标注差异的数据时，需要一个衡量差异集中程度的判断值，这一判断值用于区分这些差异是临界位置的识别困难造成的还是标记的错误造成的，需要观察这两种问题造成的差异的集中程度，并将该判断值尽可能确定在两者的分界线上；

S3；根据第二训练集对第一训练集进行校正，返回步骤103根据第一训练集训练神经网络的步骤进行循环执行；

当确定第二训练集与第一训练集之间的差异度大于或等于预设阈值时，在第一训练集中，确定出与第二训练集相区别的差异数据；对差异数据进行重新标记，得到校正后的第一训练集；

对差异数据进行人工标记，从而得到校正后的第一训练集；然后返回步骤103，通过校正后的第一训练集重新训练神经网络；之后在步骤S1中通过重新训练的神经网络对未标注的数据集进行识别，得到新的第二训练集，再次通过步骤S2判断新的第二训练集与校正后的第一训练集之间的差异度是否小于预设阈值，若小于，在执行后续步骤S4，否则，继续返回步骤103进行循环执行，对第一训练集进行循环校正，不断优化，直到第一训练集与第二训练集之间的差异度小于预设阈值时退出循环，执行后续步骤S4；

判定是否结束循环的预设阈值由对得到的训练集的错误率要求决定，将预设阈值取在期望的训练集的错误率的一半；对训练集的质量要求越高，预设阈值应取值越低；

2.一种生成训练集的装置，其特征在于，所述设备包括存储器和处理器；所述存储器中存储有可执行程序，所述处理器执行所述可执行程序以实现权利要求1所述的生成训练集的方法。