CN108898162A

CN108898162A - 一种数据标注方法、装置、设备及计算机可读存储介质

Info

Publication number: CN108898162A
Application number: CN201810585608.3A
Authority: CN
Inventors: 徐丽丽; 王宇飞
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2018-11-27
Anticipated expiration: 2038-06-08
Also published as: CN108898162B

Abstract

本发明提供一种数据标注方法、装置、设备及计算机可读存储介质。方法包括：根据提取参数提取第一待标注数据的数据特征；根据预设的标准样本及其对应的标注信息对数据特征进行预标注处理，得到实际样本及其对应的标注信息；根据实际样本及其对应的标注信息对用于标注数据的标注模型进行训练，并基于训练的标注模型对第二待标注数据进行标注。本发明的方案够根据标准样本及其对应的标注信息、第一待标注数据训练得到标注模型，从而能够基于训练模型自动对待标注数据进行标注，从而解决现有技术中对数据进行标注的方法存在效率低且准确率低的问题。

Description

一种数据标注方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及数据标注技术，尤其涉及一种数据标注方法、装置、设备及计算机可读存储介质。

背景技术

机器学习技术是计算机科学和统计学的交叉学科，机器学习的过程就是通过训练数据寻找目标函数的过程，因此输入的数据质量会影响机器学习精度。

目前，常用的机器学习方法是监督学习方法，采用这种方法时，需要输入携带有标注信息的数据作为训练数据。但是，现有技术中大量的数据是没有标注信息的，需要对数据进行处理并对其进行标注。现有技术中采用的方法是由人工对数据进行标注。

由于人工对数据进行标注效率较低，而且每个人的主观意识不同，会造成对数据进行标注的标准不同，进而造成标注结果不准确的问题。因此，现有技术中对数据进行标注的方法存在效率低且准确率低的问题。

发明内容

本发明提供一种数据标注方法、装置、设备及计算机可读存储介质，以解决现有技术中对数据进行标注的方法存在效率低且准确率低的问题。

本发明的第一个方面是提供一种数据标注方法，包括：

根据提取参数提取第一待标注数据的数据特征；

根据预设的标准样本及其对应的标注信息对所述数据特征进行预标注处理，得到实际样本及其对应的标注信息；

根据所述实际样本及其对应的标注信息对用于标注数据的标注模型进行训练，并基于训练的所述标注模型对第二待标注数据进行标注。

本发明的另一个方面是提供一种据标注装置，包括：提取模块，用于根据提取参数提取第一待标注数据的数据特征；

预标注模块，用于根据预设的标准样本及其对应的标注信息对所述数据特征进行预标注处理，得到实际样本及其对应的标注信息；

训练模块，用于根据所述实际样本及其对应的标注信息对用于标注数据的标注模型进行训练；

标注模块，用于基于训练的所述标注模型对第二待标注数据进行标注。

本发明的又一个方面是提供一种数据标注设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并配置为由所述处理器执行以实现如上述第一方面所述的数据标注方法。

本发明的再一个方面是提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如上述第一方面所述的数据标注方法。

本发明提供的一种数据标注方法、装置、设备及计算机可读存储介质的技术效果是：

本发明提供的一种数据标注方法、装置、设备及计算机可读存储介质，包括根据提取参数提取第一待标注数据的数据特征；根据预设的标准样本及其对应的标注信息对数据特征进行预标注处理，得到实际样本及其对应的标注信息；根据实际样本及其对应的标注信息对用于标注数据的标注模型进行训练，并基于训练的标注模型对第二待标注数据进行标注。本发明提供的数据标注方案，可以根据标准样本及其对应的标注信息对第一待标注数据的数据特征进行处理，从而得到实际样本及其对应的标注信息，再基于实际样本及其对应的标注信息训练标注模型，使标注模型适用于第一待标注数据，从而能够通过标注模型对与第一待标注数据具有相同领域或特性的第二待标注数据进行准确标注。本发明提供的方案通过根据标准样本及其对应的标注信息、第一待标注数据训练得到标注模型，再基于训练模型自动对待标注数据进行标注，能够解决现有技术中对数据进行标注的方法存在效率低且准确率低的问题。

附图说明

图1为本发明一示例性实施例示出的数据标注方法的流程图；

图2为本发明另一示例性实施例示出的数据标注方法的流程图；

图2A为本发明一示例性实施例示出的提取时间窗口数据的示意图；

图2B为本发明一示例性实施例示出的确定特征子集标注信息的方法的流程图；

图2C为本发明一示例性实施例示出的确定实际样本及其对应的标注信息的方法的流程图；

图2D为本发明一示例性实施例示出的根据连续M个时间窗口对应的数据特征及其对应的标注信息，确定实际样本及其对应的标注信息的流程图；

图3为本发明又一示例性实施例示出的数据标注方法的流程图；

图4为本发明一示例性实施例示出的数据标注装置的结构图；

图5为本发明另一示例性实施例示出的数据标注装置的结构图；

图6为本发明一示例性实施例示出的数据标注设备的结构图。

具体实施方式

图1为本发明一示例性实施例示出的数据标注方法的流程图。

如图1所示，本实施例提供的数据标注方法包括：

步骤101，根据提取参数提取第一待标注数据的数据特征。

其中，可以先采集一部分待标注数据，并提取这部分待标注数据的数据特征。

具体的，提取参数可以根据待标注数据的特征进行具体设置，例如，待标注数据是具有时间信息，则可以根据时间参数提取其中的数据特征；若待标注数据具有地域信息，则可以根据地域参数提取其中的数据特征。

进一步的，若提前对于第一待标注数据有一定的研究，对其有一定的了解，则可以根据研究结果确定提取参数，否则，可以随机设置提取参数。并根据提取参数提取第一待标注数据中的数据特征。

步骤102，根据预设的标准样本及其对应的标注信息对数据特征进行预标注处理，得到实际样本及其对应的标注信息。

实际应用时，可以预先设置标准样本及其对应的标注信息。其中，该标准样本与第一待标注数据属于相同领域，例如第一待标注数据是采集的运动状态数据，则标准样本也是表征运动状态的数据。标准样本对应的标注信息是根据实际应用场景以及用户需求确定的，例如对于运动数据来说，可以包括多个维度的标注信息，如运动速度的快慢、运动时海拔高低的变化、运动速度的稳定性等。若用户希望标注的信息是运动速度的快慢，则预先设置的标准样本的标注信息也是运动速度的快慢。也可以根据需求对标准样本设置多个维度的标注信息。

其中，可以先对提取出的数据特征进行处理，得到具有代表性的实际样本特征。例如，可以对数据特征进行聚类，得到多个类别的特征子集，再根据每个特征子集中具体包括的数据特征，确定每个特征子集中的核心特征。同时可以提取标准样本数据中包括的标准样本特征，并根据标准样本的标注信息确定标准样本特征的标注信息。再比对核心特征与标准样本特征之间的相似度，并根据相似度确定每个核心特征的标注信息。其中，为了使核心特征与标准样本特征能够进行比对，核心特征与标准样本特征应为同一种类的特征。还可以将核心特征的标注信息确定为与其对应的特征子集的标注信息，再进一步的，可以将特征子集的标注信息确定为该子集所包括的数据特征的标注信息。

具体的，可以直接将各个数据特征对应的标注信息作为实际样本及其对应的标注信息，也可以对各个数据特征及其标注信息进一步处理，得到实际样本及其对应的标注信息，例如可以对不同维度的数据特征进行组合，得到实际样本。即基于步骤102，能够根据第一待标注数据得到实际样本及其标注信息。

步骤103，根据实际样本及其对应的标注信息对用于标注数据的标注模型进行训练，并基于训练的标注模型对第二待标注数据进行标注。

进一步的，可以根据实际样本及其对应的标注信息训练标注模型，从而使训练后的标注模型更适合对实际采集的待标注数据进行处理，从而再基于训练后的标注模型对第二待标注数据进行标注。

其中，第二待标注数据与第一待标注数据是同领域数据，更进一步的，还可以是通过同样传感器采集到的数据。例如，可以通过可穿戴设备的传感器采集体现用户运动的第一待标注数据、第二待标注数据，可以仅根据第一待标注数据对标注模型进行训练，将标注模型训练完成后，可以使用其对第二待标注数据进行标注。

具体的，可以基于少量的标准样本对第一待标注数据进行标注，从而得到第一待标注数据的实际样本及其对应的标注信息，再基于实际样本及其对应的标注信息训练标注模型，使标注模型适合第一待标注数据，从而能够通过标注模型对与第一待标注数据具有相同领域或特性的第二待标注数据进行准确标注。

进一步的，标注模型可以采用卷积神经网络模型，卷积神经网络模型中可以包括卷积层、池化层以及全连接层。在模型中设置未知权重参数，可以将实际样本及其对应的标注信息输入模型中，得到模型中的各个权重参数值，从而得到训练后的标注模型。本实施例提供的方法通过预标注处理将原本没有标注信息的第一待标注数据进行初步标注，然后在初步标注的数据中提取标注的较为准确的实际样本及其标注信息，并基于实际样本及其标注信息进行卷积神经网络的训练。

本实施例提供的方法用于对待标注数据进行标注，该方法由安装有本实施例提供的方法的设备执行，该装置通常以硬件和/或软件的方式来实现。

本实施例提供的数据标注方法，包括根据提取参数提取第一待标注数据的数据特征；根据预设的标准样本及其对应的标注信息对数据特征进行预标注处理，得到实际样本及其对应的标注信息；根据实际样本及其对应的标注信息对用于标注数据的标注模型进行训练，并基于训练的标注模型对第二待标注数据进行标注。本实施例提供的数据标注方法，可以根据标准样本及其对应的标注信息对第一待标注数据的数据特征进行处理，从而得到实际样本及其对应的标注信息，再基于实际样本及其对应的标注信息训练标注模型，使标注模型适用于第一待标注数据，从而能够通过标注模型对与第一待标注数据具有相同领域或特性的第二待标注数据进行准确标注。本实施例提供的方法通过根据标准样本及其对应的标注信息、第一待标注数据训练得到标注模型，再基于训练模型自动对待标注数据进行标注，能够解决现有技术中对数据进行标注的方法存在效率低且准确率低的问题。

图2为本发明另一示例性实施例示出的数据标注方法的流程图。

如图2所示，本实施例提供的数据标注方法，包括：

步骤201，根据时间窗口，或时间窗口与步长提取第一待标注数据的时间窗口数据；其中，步长是相邻的时间窗口起始位置的差值。

其中，第一待标注数据可以是带有时间信息的数据，如时序数据。时序数据是指在不同时间点上收集到的数据，这类数据反映了某一事物、现象随时间的变化状态或程度。例如，可以在一个位置长时间采集空气质量情况，得到的空气质量数据中包括有时间信息，以及该时间对应的空气质量信息。

具体的，可以根据时间窗口提取第一待标注数据的时间窗口数据。可以根据先验知识设置时间窗口大小。在设置时间窗口时，时间窗口的长度尽量小于每一个状态的持续时间，即每个时间窗口内仅包括一种状态。

进一步的，可以获取第一待标注数据的时长，根据该时长与时间窗口确定时间窗口数量M，再使用M个时间窗口获取第一待标注数据的时间窗口数据。

图2A为本发明一示例性实施例示出的提取时间窗口数据的示意图。

如图2A所示，还可以根据时间窗口以及步长提取第一待标注数据的时间窗口数据。

进一步的，步长是相邻的时间窗口起始位置的差值。在一次提取时间窗口数据的过程中，时间窗口的大小是相同的，并以一定的步长推移时间窗口，以使时间窗口起始位置之间的差值等于步长值，并提取时间窗口涵盖的数据。例如时间窗口是5秒，步长是1秒时，能够在第一个时间窗口中提取到0-5秒的时间窗口数据，在第二个时间窗口中提取到1-6秒的时间窗口数据。通过本实施例提取到的时间窗口数据可能具有一定比例的重复性，例如第一个时间窗口数据中包括第一待标注数据中1-5秒的数据，第二个时间窗口数据中也包括第一待标注数据中1-5秒的数据。而对于时序数据来说，其在一段时间内的状态变化不会太频繁，因此，在具有一定比例的重复性的多个时间窗口数据获取的特征能够更符合时序数据的特性。

实际应用时，为了使提取的数据更加全面，可以使步长小于等于时间窗口，从而使每个时间窗口连接起来能够覆盖整个第一待标注数据。

步骤202，根据提取特征种类、提取特征数量在时间窗口数据中提取第一待标注数据的数据特征。

其中，可以预先设置多种特征，并结合需求在时间窗口数据中选择提取的特征种类及数量，并基于提取的特征种类、数量进行数据特征提取。

特征种类包括以下至少一种：时域特征、频域特征、扩展特征。

具体的，时域特征还可以包括子类：均值、方差、最大值、最小值、第一四分位数、第三四分位数峰度等。

频域特征还可以包括子类：频带宽度、谱能量等。

扩展特征还可以包括子类：小于第一四分位数据所有数据平方和、大于第三四分位数据所有数据平方和、频谱宽度数据中峰值个数等。

进一步的，提取特征种类是指需要提取哪类特征，例如提取时域特征、频域特征。提取特征数量可以是总的需要提取的特征个数，例如共需要提取5个特征，即在时域特征、频域特征中共提取出5个特征，例如可以是均值、方差、最大值、频带宽度、谱能量。

实际应用时，根据提取特征种类、提取特征数量在每个时间窗口数据中都提取出特征，从而得到第一待标注数据的数据特征。

步骤203，对数据特征进行聚类处理，得到第一特征子集。

其中，可以根据预设的聚类算法对数据特征进行聚类处理，例如Kmeans算法。若提取的数据特征子类为多个，则可以将第一待标注数据中同一时刻对应的数据特征作为特征组合，并基于特征组合进行聚类处理。例如在提取数据特征时，提取了A、B两种数据特征，对应的特征值为an、bn，例如提取的特征值为(a1、b2)、(a3、b1)、(a1、b2)、(a3、b1)，那么在聚类处理时，可以将两个特征组合(a1、b2)确定为一个类别，将两个(a3、b1)确定为一个类别。在这种实施方式中，第一特征子集中包括的是特征组合。多个类型的特征值能够更准确的体现数据特性，因此，在对时序数据的数据特征进行聚类处理时，基于待标注数据中每个时刻包括的特征组合确定该时刻的数据类别更加准确，进而使得后续基于该类别进行的标注处理也更加准确。

K-means算法的基本思想是：以空间中k个数据特征为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的数据特征，直至得到最好的聚类结果。若采用K-means算法，则需要先确定类别数量k。可以根据先验知识确定类别数量k，若无法预先确定k值，则可以根据现有技术中的算法确定类别数量k，例如根据DBSACN算法确定类别数量k。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是基于密度的聚类算法。它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。通过DBSACN算法确定数据特征可划分的簇类数量，即为类别数量k。

步骤204，根据标准样本及其对应的标注信息对聚类得到的各类第一特征子集进行标注，确定第一特征子集标注信息。

实际应用时，可以预先设置标准样本及其对应的标注信息。标准样本与第一待标注数据属于同一领域或类型的数据，可以认为其具有相似的特性。可以按照提取特征种类、提取特征数量对标准样本进行处理，得到标准样本特征。再比对标准样本特征与第一特征子集中包括的数据特征，确定相似度，再根据相似度对各个第一特征子集进行标注，从而确定出第一特征子集标注信息。例如，标准样本特征A与第一特征子集a中包括的所有数据特征相似度都较高，则可以将标准样本特征A及其对应的标注信息确定为第一特征子集a的标注信息。为了使对比标准样本特征与数据特征的比对结果更加准确，在提取第一待标注数据以及标准样本的特征时，可以根据同样的特征种类和数量进行提取。

图2B为本发明一示例性实施例示出的确定第一特征子集标注信息的方法的流程图。

如图2B所示，本实施例提供的方法中，步骤204进一步的包括：

2041，根据第一特征子集中包括的数据特征，确定各类第一特征子集的第一中心特征。

其中，基于K-means算法对数据特征进行聚类时，在得到每个第一特征子集的同时，还能够根据子集中的数据特征得到每个子集的特征中心。因此，若采用K-means算法对数据特征进行聚类处理，则可以根据K-means算法直接确定第一特征子集的第一中心特征。

具体的，还可以通过确定每个第一特征子集中的平均特征值，进而得到第一特征子集的第一中心特征。若第一特征子集中包括多个子类的数据特征，则可以确定每个子类的平均特征，并将每个平均特征的组合确定为该子集的第一中心特征。

步骤2042，根据标准样本及其对应的标注信息，确定标准样本特征及其对应的标注信息。

进一步的，可以提取标准样本中包括的标准样本特征，再基于标准样本的标注信息，确定标准样本特征的标注信息。例如，若从标准样本的一小段数据中提取了特征t₁，这部分数据对应的标注信息是A₁，则特征t₁对应的标注信息就是A₁。

其中，步骤2041与步骤2042的执行顺序不进行限制，可以先执行步骤2041，也可以先执行步骤2042，还可以同时执行步骤2041和2042。

步骤2043，确定第一中心特征、标准样本特征的相似度。

进一步的，可以对比每个第一中心特征与每个标准样本特征，并确定二者的相似度。

实际应用时，获取的数据特征若是量化的值，则可以直接比较两个值是否相近，若相近，则认为二者相似度高。还可以根据第一中心特征与标准样本特征之间的欧式距离确定相似度。

步骤2044，根据相似度、标准样本特征对应的标注信息确定第一特征子集标注信息。

其中，可以将与第一中心特征相似度高的标准样本特征的标注信息，确定为第一特征子集标注信息。若标准样本特征与第一中心特征相似，则可以认为该标准样本与第一特征子集相似，因此，可以将该标准样本特征对应的标注信息确定为特征子集标注信息。

步骤205，根据各类第一特征子集标注信息、数据特征确定第一待标注数据的实际样本及其对应的标注信息。

具体的，第一特征子集可以通过对所有时间窗口数据中包括的数据特征进行聚类得到，在进行聚类时不需要考虑各个数据特征在第一待标注数据中的时间信息，这也使得各个第一特征子集标注信息只能表征第一待标注数据都具有哪些标注信息，却无法体现出第一待标注数据中标注信息随时间变化的情况。因此，还可以根据各类第一特征子集标注信息对数据特征进一步处理，得到带有时序信息的实际样本特征及其对应的标注信息。

图2C为本发明一示例性实施例示出的确定实际样本及其对应的标注信息的方法的流程图。

如图2C所示，本实施例提供的方法中，步骤205进一步的包括：

步骤2051，根据第一特征子集标注信息确定每个类中的数据特征对应的标注信息。

进一步的，每个类的第一特征子集都具有第一特征子集标注信息，可以直接将该第一特征子集标注信息确定为该类数据特征的标注信息。例如一个第一特征子集中包括5个数据特征，这个第一特征子集的标注信息是A，那么第一特征子集中的5个数据特征的标注信息也是A。

实际应用时，第一特征子集是经过聚类处理得到的，每类第一特征子集中的数据特征都具有一定相似性，因此，可以认为第一特征子集的标注信息就是其中的数据特征的标注信息。

步骤2052，根据时间窗口对数据特征进行排序。

其中，数据特征是每个时间窗口数据中提取得到的特征，因此，可以根据时间窗口对数据特征进行排序，得到带有时间信息的数据特征序列。具体的，还可以对数据特征及其对应的标注信息进行排序。例如，排序得到t1、t1、t1、t2、t2、t2、t2、t3、t3，其中，可以假设t1对应的标注信息是A1，t2对应的标注信息是A2，t3对应的标注信息是A3。

步骤2053，根据预设时间段对应的数据特征及其标注信息，确定实际样本及其对应的标注信息；其中，预设时间段包括至少一个时间窗口。

具体的，还可以预先设置时间段，并根据预设时间段对应的数据特征确定实际样本。考虑到时序数据具有在某一时间段内可能不会发生连续频繁的变化的特性，可以对一段时间内的数据特征进行处理，得到这段时间对应的实际样本，还可以根据这段时间对应的数据特征的标注信息，确定实际样本的标注信息。同时，仅通过对数据特征进行聚类处理，并根据聚类结果确定数据特征的标注信息可能会存在不精确的问题，而对于时序数据来说，在连续的一个时间段内数据状态变化不会很大，因此，还可以根据时间信息重新对数据特征进行标注。

进一步的，设置预设时间段时，需要结合实际应用场景中状态的变化频繁度以及每个时间窗口的长度。对于相同长度的时间窗口来说，若状态变化较频繁，时间段应较小，若状态变化不频繁，时间段应较大。

实际应用时，对于一个时序数据来说，能够根据时间窗口将其划分为多个预设时间段。

图2D为本发明一示例性实施例示出的根据预设时间段对应的数据特征及其对应的标注信息，确定实际样本及其对应的标注信息的流程图。

如图2D所示，实际应用时，可以采用以下步骤确定实际样本及其对应的标注信息：

步骤a，根据预设时间段对应的特征标注信息，确定每个特征标注信息在预设时间段中出现的频率，并根据频率在特征标注信息中确定出与预设时间段对应的目标标注信息。

其中，可以获取每个预设时间段对应的特征标注信息，例如获取包括3个时间窗口的预设时间段对应的标注信息为A1、A1、A1。可以将这些个时间窗口中，出现最频繁的特征标注信息确定为这个时间段的标注信息，即这个时间段的标注信息是A1。若预设时间段对应的标注信息不同，则可以确定每个特征标注信息在预设时间段中出现频率，并将频率最高的标注信息确定为目标标注信息。

步骤b，将预设时间段对应的目标标注信息确定为预设时间段对应的数据特征的最终标注信息。

具体的，由于预设时间段内出现的最频繁的标注信息是目标标注信息，而对于时序数据来说，我们可以认为这一段时间内的标注信息应当是稳定的，因此，可以将目标标注信息作为该预设时间段内所有的数据特征的最终标注信息。

步骤c，根据最终标注信息对数据特征进行分类，得到第二特征子集，并根据每类第二特征子集中包括的数据特征的最终标注信息确定第二特征子集标注信息。

进一步的，可以将最终标注信息相同的数据特征分为一类，从而得到多个第二特征子集。再将该相同的最终标注信息确定为第二特征子集的标注信息。实际应用时，具有相同最终标注信息的数据特征具有一定的共性，因此可以将其确定为同一类。

实际应用时，第二特征子集的标注信息与其包括的数据特征的标注信息相同。

步骤d，根据每类第二特征子集中包括的数据特征确定每类第二特征子集的第二中心特征。

具体的，可以获取每类第二特征子集中包括的数据特征，并确定这些数据特征的平均值，得到第二中心特征。例如第二特征子集中包括的数据特征是t1、t1、t1，则第二中心特征还为t1。

进一步的，若每个数据特征中包括多个类型的特征，那么可以确定每类特征的平均值，从而将各个特征的平均值进行组合，得到第二中心特征。

步骤e，根据第二中心特征确定实际样本，并将第二中心特征对应的第二特征子集标注信息确定为实际样本对应的标注信息。

实际应用时，由于确定的第二中心特征可能与提取的数据特征不同，因此，可以根据第二中心特征在对应的第二特征子集中，选择与第二中心特征相近的样本特征，再获取与样本特征对应的数据作为实际样本，从而使实际样本与实际数据更加相符。其中，可以认为样本特征是对实际样本进行处理，进而提取到的数据特征。例如，可以确定第二特征子集中每个数据特征与第二中心特征的欧氏距离，选取若干距离较小的样本特征，并获取与这部分样本特征对应的数据作为实际样本。

其中，将第二中心特征对应的第二特征子集标注信息确定为实际样本对应的标注信息。若在第二特征子集中的数据特征确定样本特征样本，那么第二特征子集的标注信息与其中包括的数据特征的最终标注信息相同，因此，可以将第二特征子集标识直接作为样本特征的标注信息，那么该样本特征的标注信息也可以作为样本特征对应的实际样本的标注信息。

具体的，可以根据上述步骤在排序后的数据特征中确定出多个实际样本及其对应的标注信息。具体过程可以理解为根据最终标注信息对数据特征进行分类，能够得到多个第二特征子集，再确定每个第二特征子集的第二中心特征，再在每个第二特征子集中获取与第二中心特征相近的样本特征，并基于样本特征确定实际样本，最后根据第二特征子集标注信息对实际样本进行标注。

步骤206，根据实际样本及其对应的标注信息对用于标注数据的标注模型进行训练，并基于训练的标注模型对第二待标注数据进行标注。

步骤206与步骤103的具体原理和实现方式类似。

本实施例提供的方法中，标注模型中包括未知参数，可以根据实际样本及其对应的标注信息训练未知参数，并基于未知参数确定最终的标注模型。

进一步的，可以通过损失函数训练未知参数，损失函数可以是：

其中，X₁、X₂为实际样本，Y为样本标记，具体的取值与X₁、X₂的标记信息有关，若X₁、X₂的标记信息相同，则Y取1，否则，Y取0。i是指样本组合序号，(Y,X₁,X₂)ⁱ即为第i个实际样本组合。q为训练样本组合数。若输入的样本标记信息不同，则损失函数：

L(w)＝L_G(S_w(X₁,X₂)ⁱ)

若输入的样本标记信息不同，则损失函数：

L(w)＝L_I(S_w(X₁,X₂)ⁱ)

具体的，可以认为L_G(S_w(X₁,X₂)ⁱ)是样本X₁,X₂的标注信息不同时对数据的损失函数；L_I(S_w(X₁,X₂)ⁱ)是样本X₁,X₂的标注信息相同时对数据的损失函数。可以将L_G(S_w(X₁,X₂)ⁱ)设置为单调递减函数，L_I(S_w(X₁,X₂)ⁱ)设置为单调递增函数。S_w(X₁,X₂)ⁱ是以(X₁,X₂)ⁱ为输入参数的函数，其中包括未知参数w。L_G、L_I则均是以S_w(X₁,X₂)ⁱ为输入参数的函数。

损失函数L(w)是未知参数w的函数，通过输入(Y,X₁,X₂)ⁱ，以及选取的w值，能够得到损失函数的大小，损失函数越小，认为选取的权重值最优，因此，可以通过输入实际样本组合及其标记，选取最优的未知参数w值，并根据多组实际样本组合及其标记反复修正未知参数w，从而得到合适的权重值。

进一步的，可以采用随机梯度下降法对标注模型中的未知参数进行训练，进而得到最终的标注模型。

本实施例提供的方法中，标注模型至少包括：卷积层。卷积层用来提取输入待标注数据的特征。在对第二待标注数据进行处理时，可以同时将第二待标注数据和实际样本及其标注信息一同输入训练模型中，进而使卷积层能够从相同的维度分别提取第二代标注数据和实际样本的特征，并基于实际样本特征及其标注信息对第二待标注数据进行标注。

实际应用时，本实施例提供的方法还包括：

步骤207，根据第一待标注数据确定数据类型数量，根据时间窗口数据确定数据采样数量。

其中，数据类型数量是指第一待标注数据中包括几种数据类型，例如通过可穿戴设备采集人体运动数据时，能够得到速度、距离等信息，此时，第一待标注数据中就包括了多种数据类型。

具体的，数据采样数量是指每个时间窗口数据中包括的采样数据条数，例如传感器才获取数据时的频率是1条/0.1秒，即每0.1秒采集一次数据，时间窗口大小是2秒，那么每个时间窗口会包括20条采样数据，那么数据采样数量是20。

步骤208，根据数据类型数量、数据采样数量确定卷积层的卷积核。

进一步的，若第一待标注数据中包括多种类数据，则需要从数据种类的维度提取其中包括的特征，相似的，提取每个时间窗口数据包括的特征时，若每个时间窗口数据中都包括多条采样数据，那么可以从采用数据条数的维度提取其中包括的特征。

在传统的卷积层中，一般包括多个输入通道P，多个输出通道Q，假设卷积核大小为K×K。那么当输入数据大小为F×F时，卷积层的计算量为K×K×P×Q×F×F，将这种传统的卷积层应用到时序数据中，计算量过大，计算冗余。而本实施例中，根据待标注数据的实际情况，设置卷积核大小，能够减少计算量。另外，为了更进一步的减少计算量，还可以将输入通道设置为1。例如，根据本步骤确定的卷积核为n×F，其中n为数据类型数量，

F为数据采样数量，输入通道数为1，输出通道为Q，那么改进后的卷积层的计算量为n×F×Q，大大降低了计算量。

图3为本发明又一示例性实施例示出的数据标注方法的流程图。

如图3所示，本实施例提供的数据标注方法，包括：

步骤301，根据提取参数提取第一待标注数据的数据特征。

步骤302，根据预设的标准样本及其对应的标注信息对所述数据特征进行预标注处理，得到实际样本及其对应的标注信息。

步骤301-302与步骤101-102的具体原理和实现方式类似，此处不再赘述。

步骤303，根据标准样本及其对应的标注信息确定标注模型的准确率。

其中，可以基于标注模型对标准样本进行标注，得到标注结果，再将标注结果与预先准备的标注样本的标注信息进行比对，确定出标注模型的准确率。

若通过标注模型得到的标注结果与预先准备的标注信息结果相近，则可以认为准确率较高，否则，认为准确率较低。

在步骤303之后还可以包括：

步骤304，判断准确率是否满足预设要求，若是，则执行步骤306，否则执行步骤305。

具体的，可以预设准确率阈值，若准确率大于等于准确率阈值，则可以认为通过实际样本及其标注信息对标注模型的训练结果较好，该标注模型对数据进行标注的结果满足要求，可以使用该标注模型对待标注数据进行标注。

若准确率小于准确率阈值，则可以认为标注模型对数据进行标注的结果不满足要求，也就是基于实际样本及其标注信息训练出的标注模型不满足要求，那么可以重新调整提取参数，并重新确定实际样本特征及其对应的标注信息，再基于新的实际样本及其标注信息训练标注模型，直到标注模型的准确率较高为止。

步骤305，根据准确率调整提取参数。

进一步的，可以根据准确率调整时间窗口、步长、提取特征种类、提取特征数量等参数。在调整提取参数后，可以基于调整后的参数继续执行步骤301。

步骤306，基于训练的标注模型确定第二待标注数据与实际样本的相似度，并根据相似度对第二待标注数据进行标注。

其中，在对第二待标注数据进行处理时，可以同时将第二待标注数据和实际样本标注数据及其标注信息一同输入训练模型中，进而使卷积层能够从相同的维度提取其中包括的特征，并基于实际样本特征及其标注信息对第二待标注数据进行标注。

本实施例提供的方法通过预标注处理将原本没有标注信息的第一待标注数据数据进行初步标注，然后在初步标注的数据中提取标注的较为准确的实际样本及其标注信息，并基于实际样本及其标注信息对标注模型训练。并基于标准样本确定标注模型的标注结果是否准确，若不准确，则调整提取参数。具体的，还可以在模型中设置两组相同的卷积层和全连接层，一组卷积层和全连接层用于对第二待标注数据进行处理得到数据特征，另一组卷积层和全连接层对实际样本及其标注信息进行处理得到实际样本特征及其标注信息。标注模型中还可以包括非线性激活函数，用于确定数据特征与实际样本特征的相似度，从而确定第二待标注数据的标注信息。还可以根据第二待标注数据中包括的时间信息对整个第二待标注数据进行标注。例如，第二待标注数据中第一段数据和第二段数据的标注信息相同，则可以将这两段数据的标注信息进行合并。

进一步的，在标注模型训练准确以后，可以直接采用标注模型对后续得到的第二待标注数据进行标注处理，无需反复对标注模型进行训练，从而提高数据标注的效率及准确率。

图4为本发明一示例性实施例示出的数据标注装置的结构图。

如图4所示，本实施例提供的数据标注装置，包括：

提取模块41，用于根据提取参数提取第一待标注数据的数据特征；

预标注模块42，用于根据预设的标准样本及其对应的标注信息对所述数据特征进行预标注处理，得到实际样本及其对应的标注信息；

训练模块43，用于根据所述实际样本及其对应的标注信息对用于标注数据的标注模型进行训练；

标注模块44，用于基于训练的所述标注模型对第二待标注数据进行标注。

本实施例提供的数据标注装置，包括提取模块，用于根据提取参数提取第一待标注数据的数据特征；预标注模块，用于根据预设的标准样本及其对应的标注信息对数据特征进行预标注处理，得到实际样本及其对应的标注信息；训练模块，用于根据实际样本及其对应的标注信息对用于标注数据的标注模型进行训练；标注模块，用于基于训练的标注模型对第二待标注数据进行标注。本实施例提供的数据标注装置，可以根据标准样本及其对应的标注信息对第一待标注数据的数据特征进行处理，从而得到实际样本及其对应的标注信息，再基于实际样本及其对应的标注信息训练标注模型，使标注模型适用于第一待标注数据，从而能够通过标注模型对与第一待标注数据具有相同领域或特性的第二待标注数据进行准确标注。本实施例提供的方法通过根据标准样本及其对应的标注信息、第一待标注数据训练得到标注模型，再基于训练模型自动对待标注数据进行标注，能够解决现有技术中对数据进行标注的方法存在效率低且准确率低的问题。

本实施例提供的数据标注装置的具体原理和实现方式均与图1所示的实施例类似，此处不再赘述。

图5为本发明另一示例性实施例示出的数据标注装置的结构图。

如图5所示，在上述实施例的基础上，本实施例提供的装置，所述提取模块41包括：

数据提取单元411，用于根据时间窗口，或时间窗口与步长提取所述第一待标注数据的时间窗口数据；其中，所述步长是相邻的时间窗口起始位置的差值；

特征提取单元412，用于根据提取特征种类、提取特征数量在所述时间窗口数据中提取所述第一待标注数据的数据特征。

可选的，所述特征种类包括以下至少一种：时域特征、频域特征、扩展特征。

可选的，所述预标注模块42，包括：

聚类单元421，用于对所述数据特征进行聚类处理，得到第一特征子集；

特征子集标注单元422，用于根据所述标准样本及其对应的标注信息对聚类得到的各类所述第一特征子集进行标注，确定第一特征子集标注信息；

确定单元423，用于根据各类所述特征子集标注信息、所述数据特征确定所述第一待标注数据的实际样本及其对应的标注信息。

可选的，所述特征子集标注单元422，包括：

中心特征确定组件4221，用于根据所述第一特征子集中包括的所述数据特征，确定各类所述第一特征子集的第一中心特征；

样本特征标注组件4222，用于根据所述标准样本及其对应的标注信息，确定标准样本特征及其对应的标注信息；

相似度确定组件4223，用于确定所述第一中心特征、所述标准样本特征的相似度；

确定组件4224，用于根据所述相似度、所述标准样本特征对应的标注信息确定所述第一特征子集标注信息。

可选的，所述确定单元423，包括：

数据特征标注组件4231，用于根据所述第一特征子集标注信息确定每个类中的数据特征对应的标注信息；

排序组件4232，用于根据所述时间窗口对所述数据特征进行排序；

实际样本标注组件4233，根据预设时间段对应的数据特征及其对应的标注信息，确定实际样本及其对应的标注信息；其中，所述预设时间段包括至少一个所述时间窗口。

可选的，所述实际样本标注组件4233具体用于：

根据所述预设时间段对应的特征标注信息，确定每个所述特征标注信息在所述预设时间段中出现的频率，并根据所述频率在所述特征标注信息中确定出目标标注信息；

将所述预设时间段对应的所述目标标注信息确定为所述预设时间段对应的数据特征的最终标注信息；

根据所述最终标注信息对所述数据特征进行分类，得到第二特征子集，并根据每类所述第二特征子集中包括的所述数据特征的最终标注信息确定第二特征子集标注信息；

根据每类所述第二特征子集中包括的所述数据特征确定每类所述第二特征子集的第二中心特征；

根据所述第二中心特征确定实际样本，并将所述第二中心特征对应的所述第二特征子集标注信息确定为所述实际样本对应的标注信息。

可选的，所述标注模型至少包括：卷积层；

可选的，本实施例提供的数据标注装置还包括卷积核确定模块45，用于：

根据所述第一待标注数据确定数据类型数量，根据所述时间窗口数据确定数据采样数量；

根据所述数据类型数量、所述数据采样数量确定所述卷积层的卷积核。

可选的，本实施例提供的数据标注装置还包括校准模块46，用于：

根据所述标准样本及其对应的标注信息确定所述标注模型的准确率；

根据所述准确率调整所述提取参数。

可选的，所述标注模块44，包括：

相似度确定单元441，用于基于训练的所述标注模型确定所述第二待标注数据与所述实际样本的相似度；

标注单元442，用于根据所述相似度对所述第二待标注数据进行标注。

本实施例提供的数据标注装置的具体原理和实现方式均与图2-3所示的实施例类似，此处不再赘述。

图6为本发明一示例性实施例示出的数据标注设备的结构图。

如图6所示，本实施例还提供一种数据标注设备，包括：

存储器61；

处理器62；以及

计算机程序；

其中，所述计算机程序存储在所述存储器61中，并配置为由所述处理器62执行以实现如上所述的任一种数据标注方法。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，

所述计算机程序被处理器执行以实现如上所述的任一种数据标注方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种数据标注方法，其特征在于，包括：

根据提取参数提取第一待标注数据的数据特征；

2.根据权利要求1所述的方法，其特征在于，所述根据提取参数提取第一待标注数据的数据特征，包括：

根据时间窗口，或时间窗口与步长提取所述第一待标注数据的时间窗口数据；其中，所述步长是相邻的时间窗口起始位置的差值；

根据提取特征种类、提取特征数量在所述时间窗口数据中提取所述第一待标注数据的数据特征。

3.根据权利要求2所述的方法，其特征在于，所述根据预设的标准样本及其对应的标注信息对所述数据特征进行预标注处理，得到实际样本及其对应的标注信息，包括：

对所述数据特征进行聚类处理，得到第一特征子集；

根据所述标准样本及其对应的标注信息对聚类得到的各类所述第一特征子集进行标注，确定第一特征子集标注信息；

根据各类所述第一特征子集标注信息、所述数据特征确定所述第一待标注数据的实际样本及其对应的标注信息。

4.根据权利要求3所述的方法，其特征在于，所述根据所述标准样本及其对应的标注信息对聚类得到的各类所述第一特征子集进行标注，确定特征子集标注信息，包括：

根据所述第一特征子集中包括的所述数据特征，确定各类所述第一特征子集的第一中心特征；

根据所述标准样本及其对应的标注信息，确定标准样本特征及其对应的标注信息；

确定所述第一中心特征、所述标准样本特征的相似度；

根据所述相似度、所述标准样本特征对应的标注信息确定所述第一特征子集标注信息。

5.根据权利要求3所述的方法，其特征在于，所述根据各类所述第一特征子集标注信息、所述数据特征确定所述第一待标注数据的实际样本及其对应的标注信息，包括：

根据所述第一特征子集标注信息确定每个类中的数据特征对应的标注信息；

根据所述时间窗口对所述数据特征进行排序；

根据预设时间段对应的数据特征及其对应的标注信息，确定实际样本及其对应的标注信息；其中，所述预设时间段包括至少一个所述时间窗口。

6.根据权利要求2所述的方法，其特征在于，所述标注模型至少包括：卷积层；

所述方法还包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述基于训练的所述标注模型对第二待标注数据进行标注，包括：

基于训练的所述标注模型确定所述第二待标注数据与所述实际样本的相似度，并根据所述相似度对所述第二待标注数据进行标注。

8.一种数据标注装置，其特征在于，包括：

提取模块，用于根据提取参数提取第一待标注数据的数据特征；

9.一种数据标注设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并配置为由所述处理器执行以实现如权利要求1-7所述的任一种方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，

所述计算机程序被处理器执行以实现如权利要求1-7所述的任一种方法。