CN112749723A

CN112749723A - 样本标注方法、装置、计算机设备和存储介质

Info

Publication number: CN112749723A
Application number: CN201911054723.9A
Authority: CN
Inventors: 张伟华
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2021-05-04
Anticipated expiration: 2039-10-31
Also published as: CN112749723B

Abstract

本申请涉及一种样本标注方法、装置、计算机设备和存储介质。所述方法包括：获取待标注样本；将待标注样本输入训练好的神经网络，通过神经网络提取得到待标注样本的深度特征矩阵；计算获得待标注样本的深度特征矩阵与各第一已标注样本的深度特征矩阵的第一距离矩阵；根据第一距离矩阵，从第一已标注样本中确定待标注样本的匹配样本；获取匹配样本的标签信息，将标签信息作为待标注样本的标签信息。采用本方法能够提高标注效率。

Description

样本标注方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种样本标注方法、装置、计算机设备和存储介质。

背景技术

近年来，随着大数据和深度学习的发展，出现了各种各样形式的数据集。随着数据集种类的增多，数据量也随之增大。数据量的增大带来了高精度的模型，为算法在工业界的落地应用奠定了基石。

然而，由于依据数据集训练模型时，需要预先对数据进行标注。现有数据标注体系主要通过人工进行标注，因此数据量的增大另一方面又使得数据标注变得异常困难，降低了标注的效率。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高标注效率的样本标注方法、装置、计算机设备和存储介质。

一种样本标注方法，所述方法包括：

获取待标注样本；

将所述待标注样本输入训练好的神经网络，通过所述神经网络提取得到所述待标注样本的深度特征矩阵；

计算获得所述待标注样本的深度特征矩阵与各第一已标注样本的深度特征矩阵的第一距离矩阵；

根据所述第一距离矩阵，从所述第一已标注样本中确定所述待标注样本的匹配样本；

获取所述匹配样本的标签信息，将所述标签信息作为所述待标注样本的标签信息。

在其中一个实施例中，所述计算获得所述待标注样本的深度特征矩阵与各第一已标注样本的深度特征矩阵的第一距离矩阵，包括：

获取第一已标注样本的深度特征矩阵；

分别计算所述待标注样本的深度特征矩阵与各所述第一已标注样本的深度特征矩阵的第一欧式距离；

将各所述第一欧式距离作为第一距离矩阵的矩阵元素，得到第一距离矩阵。

在其中一个实施例中，所述根据所述第一距离矩阵，从所述第一已标注样本中确定所述待标注样本的匹配样本，包括：

根据所述第一距离矩阵中各矩阵元素的大小，从所述第一距离矩阵中选取第一预设数量的矩阵元素；

确定选取的各所述矩阵元素对应的第一已标注样本并返回给用户；

接收用户从所述第一已标注样本中选择的匹配样本。

在其中一个实施例中，所述方法还包括：

获取训练样本，所述训练样本包括第二已标注样本和未标注样本；

将所述第二已标注样本输入预设神经网络，对所述预设神经网络进行训练，得到训练好的初始神经网络；

从所述未标注样本中挑选价值样本；

将所述价值样本输入所述初始神经网络，迭代训练所述初始神经网络，得到训练好的神经网络。

在其中一个实施例中，所述从所述未标注样本中挑选价值样本，包括：

将各所述未标注样本输入至所述初始神经网络，通过所述初始神经网络提取得到各所述未标注样本的深度特征矩阵；

计算获得各所述未标注样本的深度特征矩阵与各所述第二已标注样本的深度特征矩阵的第二距离矩阵；

根据所述第二距离矩阵，从所述未标注样本中挑选价值样本。

在其中一个实施例中，所述计算获得各所述未标注样本的深度特征矩阵与各所述第二已标注样本的深度特征矩阵的第二距离矩阵，包括：

获取各所述第二已标注样本的深度特征矩阵；

将任意一个所述未标注样本的深度特征矩阵分别与各所述第二已标注样本的深度特征矩阵进行组合，得到矩阵对；

计算各所述矩阵对中两个深度特征矩阵的欧式距离；

将各所述矩阵对的欧式距离作为第二距离矩阵的矩阵元素，得到第二距离矩阵。

在其中一个实施例中，根据所述第二距离矩阵，从所述未标注样本中挑选价值样本，包括：

根据所述第二距离矩阵中各所述未标注样本对应的矩阵元素的大小，分别为各所述未标注样本从对应的矩阵元素中选取第二预设数量的矩阵元素；

分别计算各所述未标注样本对应第二预设数量的矩阵元素的平均值；

根据各所述平均值的大小，对各所述平均值对应的未标注样本进行排序；

选取排序位置大于第一阈值且小于第二阈值的未标注样本作为价值样本。

一种样本标注装置，所述装置包括：

获取模块，用于获取待标注样本；

提取模块，用于将所述待标注样本输入训练好的神经网络，通过所述神经网络提取得到所述待标注样本的深度特征矩阵；

计算模块，用于计算获得所述待标注样本的深度特征矩阵与各第一已标注样本的深度特征矩阵的第一距离矩阵；

确定模块，用于根据所述第一距离矩阵，从所述第一已标注样本中确定所述待标注样本的匹配样本；

标注模块，用于获取所述匹配样本的标签信息，将所述标签信息作为所述待标注样本的标签信息。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任意一项样本标注方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项样本标注方法的步骤。

上述样本标注方法、装置、计算机设备和存储介质，通过结合计算机视觉，在获取到待标注样本之后，利用神经网络提取待标注样本的深度特征距离，进而根据深度特征矩阵计算距离矩阵，从而能够准确地确定待标注样本与已标注样本的相似度。进一步的，依据能够表示相似度的距离矩阵匹配对应的已标注样本，将匹配的已标注样本的标签信息作为待标注样本的标签信息，无需人工手动标注，提高了标注的效率。

附图说明

图1为一个实施例中样本标注方法的应用环境图；

图2为一个实施例中样本标注方法的流程示意图；

图3为一个实施例中训练神经网络步骤的流程示意图；

图4为一个实施例中样本标注方法的流程框架图；

图5为一个实施例中样本标注装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的样本标注方法，可以应用于如图1所示的应用环境中。该应用环境涉及终端102和服务器104，终端102与服务器104通过网络进行通信。当终端102接收到上传的待标注样本之后，可以由终端102单独实现上述样本标注方法。也可以由终端102将接收到的待标注样本发送至服务器104，由服务器104实现上述样本标注方法。具体地，以终端102为例，当终端102获取到待标注样本后，将待标注样本输入训练好的神经网络，通过神经网络提取得到待标注样本的深度特征矩阵。终端102计算获得待标注样本的深度特征矩阵与各第一已标注样本的深度特征矩阵的第一距离矩阵。终端102根据第一距离矩阵，从第一已标注样本中确定待标注样本的匹配样本。终端102获取匹配样本的标签信息，将标签信息作为待标注样本的标签信息。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种样本标注方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤S202，获取待标注样本。

其中，待标注样本是指当前需要进行标注的样本图像，根据不同的应用场景，样本图像不同。例如各种商品(服装、食品、菜品、花卉)图像等。

具体地，当需要对样本图像进行标注时，用户可以通过与终端连接的输入装置或无线传输功能，将需要标注的样本图像上传至终端。输入装置包括但不限于键盘、鼠标以及USB(Universal Serial Bus，通用串行总线)接口等。终端通过接收用户上传的样本图像获取待标注样本。或者，用户也可以预先将需要标注的样本图像上传存储至终端本地。当需要进行标注时，通过与终端连接的输入装置向终端下达标注指令，用于指示终端进行样本标注任务。终端即可通过标注指令从本地获取对应的样本图像作为待标注样本。

步骤S204，将待标注样本输入训练好的神经网络，通过神经网络提取得到待标注样本的深度特征矩阵。

其中，神经网络是通过对人脑的基本单元神经元的建模和连接，探索模拟人脑神经系统功能的模型，并研制一种具有学习、联想、记忆和模式识别等职能信息处理功能的人工系统。总的来说，神经网络就是一种进行分布式并行信息处理的算法数学模型。在本实施例中，神经网络为预先通过训练样本训练好，用于提取待标注样本的深度特征的模型，包括但不限于卷积神经网络、快速卷积神经网络、深度残差网络以及多粒度网络等。由于本实施例需要对待标注样本进行细粒度的分类识别，因此本实施例优选多粒度网络(MultipleGranularity Network)。

多粒度网络的基础网络基于ResNet-50(50层的残差网络)，使用ResNet-50的前三层提取样本图像的基础特征，而在高层次的语义级特征采用了三个分支。第一个分支负责整张图像的全局特征信息的提取，第二个分支用于将图像分为上下两个部分提取中粒度的特征信息，第三个分支则用于将图像更细粒的分为上中下三个部分，从而提取更细粒度的特征信息。最后三个分支的特征各自经过最大池化和降维操作后，用Softmax(逻辑回归)或者Triplet loss(三重态损失函数)判断得到最终的结果。其中，多粒度网络三个分支提取得到的深度特征矩阵分别为256维、512维和1024维。

具体地，当终端获取到待标注样本之后，调用预先训练好的神经网络。将待标注样本输入至神经网络，通过神经网络对待标注样本进行特征提取，从而得到待标注样本的深度特征矩阵。以多粒度网络为例，即将待标注样本输入至多粒度网络中。首先通过多粒度网络的基础网络ResNet-50提取待标注样本的基础特征。然后将该基础特征分别输入至三个分支中，由三个分支分别提取得到待标注样本256维的深度特征矩阵、512维的深度特征矩阵以及1024维的深度特征矩阵。

应当理解的是，由于不同的神经网络所接受的输入图像的尺寸大小不一样，在获取的待标注样本的尺寸不符合多粒度网络所接收的图像尺寸时，应当对待标注样本进行相关预处理使其符合多粒度网络输入图像的条件。预处理包括但限于缩放、裁剪等。同样的，若为避免图像质量影像神经网络的处理，还可以对待标注样本进行去燥等预处理以保证图像的质量。

步骤S206，计算获得待标注样本的深度特征矩阵与各第一已标注样本的深度特征矩阵的第一距离矩阵。

其中，第一已标注样本是指已经被标注过的样本图像，包括训练神经网络时所用的已标注样本。距离矩阵在数学中是一个包含一组点两两之间距离的矩阵。在本实施例中，第一距离矩阵是一个包含待标注样本与各第一已标注样本的相似度的矩阵。

具体地，当通过训练好的神经网络提取得到待标注样本的深度特征矩阵之后，获取各第一已标注样本的深度特征矩阵。第一已标注样本的深度特征矩阵可以是利用训练好的神经网络实时对第一已标注样本提取得到，也可以是预先利用神经网络提取得到。当获取到各第一已标注样本的深度特征矩阵之后，分别计算待标注样本的深度特征矩阵与各第一标注样本的深度特征矩阵的欧氏距离。欧式距离即表示待标注样本和第一已标注样本的相似程度，欧式距离越大表示两幅图像的差异度越大。欧式距离越小，表示两幅图像差异越小，越相似。当计算得到待标注样本的深度特征矩阵与各第一已标注样本的深度特征矩阵的欧氏距离之后，将欧式距离作为矩阵元素，得到第一距离矩阵。例如，假设待标注样本A、第一已标注样本B1、B2、B3。则可以计算得到A与B1的欧式距离AB1、A与B2的欧式距离AB2、以及A与B3的欧式距离AB3。AB1、AB2、AB3作为矩阵元素的第一距离矩阵如下表1所示：

表1：第一距离矩阵

步骤S208，根据第一距离矩阵，从第一已标注样本中确定待标注样本的匹配样本。

其中，匹配样本是指匹配到的与待标注样本相似度最高的第一已标注样本。

具体地，当得到第一距离矩阵之后，根据第一距离矩阵中各矩阵元素的大小，从第一距离矩阵中确定元素值最小的矩阵元素。该矩阵元素对应的第一已标注样本即为待标注样本的匹配样本。因为第一距离矩阵的矩阵元素即待标注样本与第一已标注样本的欧式距离，因此选择元素值最小的矩阵元素即是选择最小的欧式距离，最小欧式距离对应的第一已标注样本与待标注样本的相似度最高。例如，以上表1所示为例，假设AB2小于AB1和AB3，因此AB2对应的第一已标注样本B2即为待标注样本A的匹配样本。

步骤S210，获取匹配样本的标签信息，将标签信息作为待标注样本的标签信息。

其中，标签信息即为样本所标注的标注信息，标签信息具体可根据实际的样本进行限定。若以商品为例，标签信息包括但不限于名称、品牌、类型、颜色、口味等等。

具体地，当从各第一已标注样本中确定与待标注样本的匹配样本之后，由于该匹配样本为已标注过的样本，即可获取该匹配样本的标签信息。然后，将该标签信息作为待标注样本的标签信息，完成待标注样本的标注。当待标注样本被标注之后，即可新增至第一已标注样本中，与下一待标注样本进行匹配。

上述样本标注方法，通过结合计算机视觉，在获取到待标注样本之后，利用神经网络提取待标注样本的深度特征距离，进而根据深度特征矩阵计算距离矩阵，从而能够准确地确定待标注样本与已标注样本的相似度。进一步的，依据能够表示相似度的距离矩阵匹配对应的已标注样本，将匹配的已标注样本的标签信息作为待标注样本的标签信息，无需人工手动标注，提高了标注的效率。

在一个实施例中，计算获得待标注样本的深度特征矩阵与各第一已标注样本的深度特征矩阵的第一距离矩阵具体包括：获取第一已标注样本的深度特征矩阵；分别计算待标注样本的深度特征矩阵与各第一已标注样本的深度特征矩阵的第一欧式距离；将各第一欧式距离作为第一距离矩阵的矩阵元素，得到第一距离矩阵。

具体地，当计算获得第一距离矩阵时，首先获取利用神经网络得到的各第一已标注样本的深度特征矩阵。然后，将待标注样本的深度特征矩阵分别与各第一已标注样本的深度特征矩阵进行欧式距离的计算，得到对应的第一欧式距离。最后将第一欧式距离作为矩阵的元素得到第一距离矩阵。欧式距离在数学中是欧几里得空间中两点间的直线距离。在本实施例中，两个深度特征矩阵的欧式距离计算公式如下：

其中，D为第一欧式距离，i为深度特征矩阵的行数，j为深度特征矩阵的列数，U表示待标注样本的深度特征矩阵，L表示第一已标注样本的深度特征矩阵。由于多粒度网络三个分支提取的深度特征分别为256维、512维和1024维。计算欧氏距离时，获取的深度特征矩阵可以为256维、512维和1024维中的一个或多个。应当理解的是，计算欧式距离时待标注样本的深度特征矩阵的维数应当与第一已标注样本的深度特征矩阵的维数保持一致。即，若待标注样本的深度特征矩阵获取256维，第一已标注样本的深度特征矩阵应当同样为256维。在本实施例中，通过欧式距离的计算可以准确地确定各已标注样本与待标注样本的相似度，便于后续为的待标注样本匹配对应的样本。

在一个实施例中，根据第一距离矩阵，从第一已标注样本中确定待标注样本的匹配样本具体包括：根据第一距离矩阵中各矩阵元素的大小，从第一距离矩阵中选取第一预设数量的矩阵元素；确定选取的各矩阵元素对应的第一已标注样本并返回给用户；接收用户从第一已标注样本中选择的匹配样本。

其中，第一预设数量为预先设置的候选匹配样本的数值，可以为5、10、15等。第一预设数量在本实施例中不进行具体限制，可根据实际需求进行设定。

具体地，当从第一已标注样本中匹配样本时，除了可以确定第一距离矩阵中最小矩阵元素对应的第一已标注样本为匹配样本。还可以根据第一矩阵中各矩阵元素的大小，通过预设的第一预设数量从第一距离矩阵中选择与第一预设数量相同数量的矩阵元素。然后，将选取的矩阵元素对应的第一已标注样本返回给标注人员，即显示于与终端相连接的显示装置上，供标注人员选择。当标注人员通过输入装置从中点击确定所选择第一已标注样本后，将标注人员选择的第一已标注样本作为匹配样本。例如，若第一预设数量为5，即可根据第一距离矩阵中矩阵元素的大小，从小到大依次选择5个矩阵元素。该5个矩阵元素为第一距离矩阵中值最小的5个矩阵元素，所对应的5个第一已标注样本为与待标注样本最为相似的5个样本。然后，获取这5个矩阵元素对应的5个第一已标注样本返回显示给标注人员，标注人员从5个第一已标注样本中选择一个作为匹配样本。在本实施中，通过预设数量选择推荐候选样本供标注人员最终选定匹配样本，在提高标注效率的基础上，通过人工参与决策，进一步提高标注的准确率。

在一个实施例中，如图3所示，在获取待标注样本之前，还包括训练神经网络的步骤，具体包括以下步骤：

步骤S302，获取训练样本，训练样本包括第二已标注样本和未标注样本。

训练样本是指用于训练神经网络的数据集，包括已经标注的第二已标注样本和未标注过的未标注样本。训练样本可由人工利用图像采集装置(相机、具备照相功能的终端)采集得到，也可从数据开源库中获取得到。而第二已标注样本即为获取到训练样本后，由标注人员从中选择少量具有代表性的样本，并利用标注工具进行标注后的样本。第二已标注样本是指用于训练得到初始神经网络的样本。未标注样本即未经过标注人员标注的样本，用于从中选择有价值的样本，对初始神经网络进行迭代训练的样本。当获取得到第二已标注样本和未标注样本之后，即可将第二已标注样本和未标注样本作为训练样本上传至终端。

步骤S304，将第二已标注样本输入预设神经网络，对预设神经网络进行训练，得到训练好的初始神经网络。

具体地，当获取到训练样本后，即调用预设神经网络。预设神经网络为已经预先配置好网络结构，但是未经过样本标注训练的神经网络(多粒度网络)。初始化预设神经网络参数之后，将训练样本中的第二已标注样本输入到预设神经网络中，利用第二已标注样本完成预设神经网络的初步训练，得到初始神经网络。

步骤S306，从未标注样本中挑选价值样本。

其中，价值样本即为有价值的未标注样本，可以理解为难例。通过选取有价值的样本迭代训练初始神经网络，有利于提高网络的精准性。

在一个实施例中，从未标注样本中挑选价值样本具体包括：将各未标注样本输入至初始神经网络，通过初始神经网络提取得到各所述未标注样本的深度特征矩阵；计算获得各未标注样本的深度特征矩阵与各第二已标注样本的深度特征矩阵的第二距离矩阵；根据第二距离矩阵，从未标注样本中挑选价值样本。

其中，第二距离矩阵即为未标注样本与第二已标注样本的距离矩阵。

具体地，当训练得到初始神经网络之后，可以从未标注样本中挑选有效值的价值样本。价值样本的挑选为将各未标注样本输入至初始神经网络进行特征提取，得到未标注样本的深度特征矩阵。同样计算得到各未标注样本的深度特征矩阵与各第二已标注样本的深度特征矩阵的第二距离矩阵。然后按照第二距离矩阵中各矩阵元素的大小对各第二已标注样本进行排序后，从中选择满足要求的样本作为价值样本。

步骤S308，将价值样本输入初始神经网络，迭代训练初始神经网络，得到训练好的神经网络。

具体地，挑选得到价值样本之后，将价值样本进行标注。可以将价值样本返回给标注人员由标注人员利用标注工具直接对价值样本进行标注。而由于价值样本是从已经提取过深层特征矩阵的未标记样本中选取出来的。因此也可以利用价值样本的深层特征矩阵与各第二已标注样本的深层特征矩阵的欧式距离选取第一预设数量的第二已标注样本作为候选样本供标注人员选择最终的匹配样本。将价值样本对应的匹配样本的标签信息作为价值样本的标签信息，从而完成价值样本的标注。

将标注后的价值样本输入到初始神经网络中进行迭代训练。应当理解的是，可以单独利用价值样本迭代训练初始神经网络，也可以将价值样本增入至第二已标注样本中，得到更新后的第二已标注样本迭代训练神经网络。当本次迭代训练完之后，若目前总共所用的已标注样本已经足够，则可以停止训练，得到训练好的神经网络。而若本次迭代训练完之后，所用的已标注样本还不足够，则可以从未标注样本中再一次挑选价值样本进行迭代训练，直至训练所用的数据集足够为止。其中，未标注样本可根据实际需求不断新增，例如采集新的样本后添加到未标注样本中。在本实施例中，通过预先训练得到初始的神经网络后，自动挑选有价值的样本反复迭代训练神经网络，从而提高分类模型的精准性。

在一个实施例中，计算获得各未标注样本的深度特征矩阵与各第二已标注样本的深度特征矩阵的第二距离矩阵，具体包括：获取各第二已标注样本的深度特征矩阵；将任意一个未标注样本的深度特征矩阵分别与各第二已标注样本的深度特征矩阵进行组合，得到矩阵对；计算各矩阵对中两个深度特征矩阵的欧式距离；将各矩阵对的欧式距离作为第二距离矩阵的矩阵元素，得到第二距离矩阵。

具体地，利用初始神经网络得到各未标注样本的深度特征矩阵之后，各未标注样本的深度特征矩阵分别与各第二已标注样本的深度特征矩阵进行计算，得到对应的欧式距离。即，每一个未标注样本均要分别确定与第二已标注样本的相似度。具体可以将未标注样本的深度特征矩阵分别与各第二已标注样本的深度特征矩阵组成矩阵对，矩阵对中包括一个未标注样本深度特征矩阵和一个已标注样本的深度特征矩阵。组成一个个矩阵对之后，即可计算矩阵对中两个深度特征矩阵的欧式距离。然后将矩阵对的欧式距离作为矩阵元素，即可得到第二距离矩阵。例如，若未标注样本包括1、2、3、4，第二已标注样本包括1、2、3……n。矩阵对则共有(1，1)、(1，2)、(1，3)……(1，n)、(2，1)、(2，2)、(2，3)……(2，n)、(3，1)、(3，2)、(3，3)……(3，n)、(4，1)、(4，2)、(4，3)……(4，n)，对应的欧式距离即为11、12、13……、1n、21、22、23……、2n、31、32、33……、3n、41、42、43……、4n。那么，第二距离矩阵即可如下表2所示：

表2：第二距离矩阵

在一个实施例中，根据第二距离矩阵，从未标注样本中挑选价值样本，具体包括：根据第二距离矩阵中各未标注样本对应的矩阵元素的大小，分别为各未标注样本从对应的矩阵元素中选取第二预设数量的矩阵元素；分别计算各未标注样本对应第二预设数量的矩阵元素的平均值；根据各平均值的大小，对各平均值对应的未标注样本进行排序；选取排序位置大于第一阈值且小于第二阈值的未标注样本作为价值样本。

其中，第二预设数量是指预先设置用于为未标注样本选择对应数量的矩阵元素的数值。第一阈值和第二阈值即为预先设置用于选择价值样本的排序值。第二预设数量、第一阈值和第二阈值可根据实际情况进行设定，本实施例中第二预设数量优选5。第一阈值优选为30％，第二阈值优选为50％。因为根据实际情况，排序处于前30％的第二已标注样本已经是与未标注样本非常相似的样本，初始神经网络经过第二已标注样本的训练，已经充分学习到了该类图像的特征，则无需再次学习。因此，30％之前的第二已标注样本为无价值的样本。而处于50％又极可能是噪声数据，或者是初始神经网络目前非常不熟悉的样本类型，可以等待后续迭代在使用。

具体地，当得到第二距离矩阵之后，根据每个未标注样本对应的矩阵元素的大小，从小到大分别为各未标注样本选择第二预设数量的矩阵元素。以上表2为例，即未标注样本1，从对应的矩阵元素11、12、13……、1n中，按照从小到大的规则选择前5个矩阵元素。未标注样本2、未标注样本3和未标注样本4的矩阵元素的选取规则与未标注样本1相同，在此不再赘述。

然后，求选取的5个矩阵元素的平均值。根据每个未标注样本平均值的大小，从小到大将未标注样本1、未标注样本2、未标注样本3和未标注样本4进行排序。最后根据第一阈值和第二阈值选取对应的未标注样本。例如，根据平均值从小到大的排序为未标注样本1、未标注样本2、未标注样本3、未标注样本4。那么，前30％的样本为未标注样本1，后50％的样本为未标注样本3和未标注样本4，即满足小于第一阈值且大于第二阈值的样本为未标注样本2，未标注样本2即为价值样本。

在一个实施例中，如图4所示，提供一种样本标注的流程框架图。根据样本标注的流程框架图对样本标记方法进行详细解释说明。

S1，获取训练所用的已标注样本集，利用训练所用的已标注样本集中的已标注样本训练预设神经网络模型，得到训练好的神经网络。

S2，利用初始神经网络模型，提取训练所用的未标注样本集中的未标注样本的深度特征矩阵。然后，根据未标注样本的深度特征矩阵和S1中已标注样本的深度特征矩阵计算得到距离矩阵。从该距离矩阵中为每个未标注样本按照矩阵元素从小到大选取5个对应的矩阵元素，并将计算这5个矩阵元素的平均值。根据各未标注样本的平均值为未标注样本从小到大排序，选取排序位置大于30％且小于50％的未标注样本作为价值样本。

S3，由于价值样本是从S2中的为标注样本选取出来的。因此，直接从S2中距离矩阵中价值样本对应的各矩阵元素中，为价值样本匹配第一预设数量的候选匹配样本。将候选匹配样本返回给标注人员，由标注人员从中候选匹配样本中选取最终的匹配样本。将匹配样本的标签信息作为价值样本的标签信息。也可以直接将价值样本返回给标注人员进行标注。

S4，将已有标签信息的价值样本作为已标注样本，新增入已标注样本集中，得到更新后的已标注样本集。然后，返回S1，利用更新后的已标注样本集迭代训练神经网络。重复S1-S4的步骤，直至已标注样本集中的数据集满足实际需求的数据量，即可停止模型的训练。

S5，当得到训练好的神经网络后，即可利用训练好的神经网络进行样本标注任务。即，获取待标注样本，将待标注样本输入训练好的神经网络，通过神经网络提取得到待标注样本的深度特征矩阵。分别计算待标注样本的深度特征矩阵与S1-S4得到的已标注样本集中的各已标注样本的深度特征矩阵的欧式距离，将得到的各欧式距离作为矩阵元素，得到待标注样本与各已标注样本的距离矩阵。然后，根据待标注样本与各已标注样本的距离矩阵中各矩阵元素的大小，选择最小的矩阵元素作为待标注样本的匹配样本。也可以选择第一预设数量的候选样本返回给标注人员，由标注人员从候选样本中选择最终的匹配样本。最后，将待标注样本对应的匹配样本的标签信息作为待标注样本的标签信息，完成待标注样本的标注。

应当理解的是，当对待标注样本标注完成之后，可将该待标注样本的作为已标注样本，添加到已标注样本集中。而当已标注样本集中新增了一定数量的被标注过的待标注样本之后，可以又利用该已标注样本集对神经网络再次进行训练，以保证神经网络后续的精准性。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种样本标注装置，包括：获取模块502、提取模块504、计算模块506、确定模块508和标注模块510，其中：

获取模块502，用于获取待标注样本。

提取模块504，用于将待标注样本输入训练好的神经网络，通过神经网络提取得到待标注样本的深度特征矩阵。

计算模块506，用于计算获得待标注样本的深度特征矩阵与各第一已标注样本的深度特征矩阵的第一距离矩阵。

确定模块508，用于根据第一距离矩阵，从第一已标注样本中确定待标注样本的匹配样本。

标注模块510，用于获取匹配样本的标签信息，将标签信息作为待标注样本的标签信息。

在一个实施例中，计算模块506还用于获取第一已标注样本的深度特征矩阵；分别计算待标注样本的深度特征矩阵与各第一已标注样本的深度特征矩阵的第一欧式距离；将各第一欧式距离作为第一距离矩阵的矩阵元素，得到第一距离矩阵。

在一个实施例中，确定模块508还用于根据第一距离矩阵中各矩阵元素的大小，从第一距离矩阵中选取第一预设数量的矩阵元素；确定选取的各矩阵元素对应的第一已标注样本并返回给用户；接收用户从第一已标注样本中选择的匹配样本。

在一个实施例中，样本标注装置还包括训练模块，用于获取训练样本，训练样本包括第二已标注样本和未标注样本；将第二已标注样本输入预设神经网络，对预设神经网络进行训练，得到训练好的初始神经网络；从未标注样本中挑选价值样本；将价值样本输入初始神经网络，迭代训练初始神经网络，得到训练好的神经网络。

在一个实施例中，训练模块还用于将各未标注样本输入至初始神经网络，通过初始神经网络提取得到各所述未标注样本的深度特征矩阵；计算获得各未标注样本的深度特征矩阵与各第二已标注样本的深度特征矩阵的第二距离矩阵；根据第二距离矩阵，从未标注样本中挑选价值样本。

在一个实施例中，训练模块还用于获取各第二已标注样本的深度特征矩阵；将任意一个未标注样本的深度特征矩阵分别与各第二已标注样本的深度特征矩阵进行组合，得到矩阵对；计算各矩阵对中两个深度特征矩阵的欧式距离；将各矩阵对的欧式距离作为第二距离矩阵的矩阵元素，得到第二距离矩阵。

在一个实施例中，训练模块还用于根据第二距离矩阵中各未标注样本对应的矩阵元素的大小，分别为各未标注样本从对应的矩阵元素中选取第二预设数量的矩阵元素；分别计算各未标注样本对应第二预设数量的矩阵元素的平均值；根据各平均值的大小，对各平均值对应的未标注样本进行排序；选取排序位置大于第一阈值且小于第二阈值的未标注样本作为价值样本。

关于样本标注装置的具体限定可以参见上文中对于样本标注方法的限定，在此不再赘述。上述样本标注装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种样本标注方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待标注样本；

将待标注样本输入训练好的神经网络，通过神经网络提取得到待标注样本的深度特征矩阵；

计算获得待标注样本的深度特征矩阵与各第一已标注样本的深度特征矩阵的第一距离矩阵；

根据第一距离矩阵，从第一已标注样本中确定待标注样本的匹配样本；

获取匹配样本的标签信息，将标签信息作为待标注样本的标签信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取第一已标注样本的深度特征矩阵；分别计算待标注样本的深度特征矩阵与各第一已标注样本的深度特征矩阵的第一欧式距离；将各第一欧式距离作为第一距离矩阵的矩阵元素，得到第一距离矩阵。

根据第一距离矩阵中各矩阵元素的大小，从第一距离矩阵中选取第一预设数量的矩阵元素；确定选取的各矩阵元素对应的第一已标注样本并返回给用户；接收用户从第一已标注样本中选择的匹配样本。

获取训练样本，训练样本包括第二已标注样本和未标注样本；将第二已标注样本输入预设神经网络，对预设神经网络进行训练，得到训练好的初始神经网络；从未标注样本中挑选价值样本；将价值样本输入初始神经网络，迭代训练初始神经网络，得到训练好的神经网络。

将各未标注样本输入至初始神经网络，通过初始神经网络提取得到各所述未标注样本的深度特征矩阵；计算获得各未标注样本的深度特征矩阵与各第二已标注样本的深度特征矩阵的第二距离矩阵；根据第二距离矩阵，从未标注样本中挑选价值样本。

获取各第二已标注样本的深度特征矩阵；将任意一个未标注样本的深度特征矩阵分别与各第二已标注样本的深度特征矩阵进行组合，得到矩阵对；计算各矩阵对中两个深度特征矩阵的欧式距离；将各矩阵对的欧式距离作为第二距离矩阵的矩阵元素，得到第二距离矩阵。

根据第二距离矩阵中各未标注样本对应的矩阵元素的大小，分别为各未标注样本从对应的矩阵元素中选取第二预设数量的矩阵元素；分别计算各未标注样本对应第二预设数量的矩阵元素的平均值；根据各平均值的大小，对各平均值对应的未标注样本进行排序；选取排序位置大于第一阈值且小于第二阈值的未标注样本作为价值样本。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待标注样本；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种样本标注方法，所述方法包括：

获取待标注样本；

2.根据权利要求1所述的方法，其特征在于，所述计算获得所述待标注样本的深度特征矩阵与各第一已标注样本的深度特征矩阵的第一距离矩阵，包括：

获取第一已标注样本的深度特征矩阵；

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一距离矩阵，从所述第一已标注样本中确定所述待标注样本的匹配样本，包括：

接收用户从所述第一已标注样本中选择的匹配样本。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从所述未标注样本中挑选价值样本；

5.根据权利要求4所述的方法，其特征在于，所述从所述未标注样本中挑选价值样本，包括：

6.根据权利要求5所述的方法，其特征在于，所述计算获得各所述未标注样本的深度特征矩阵与各所述第二已标注样本的深度特征矩阵的第二距离矩阵，包括：

获取各所述第二已标注样本的深度特征矩阵；

计算各所述矩阵对中两个深度特征矩阵的欧式距离；

7.根据权利要求5所述的方法，其特征在于，根据所述第二距离矩阵，从所述未标注样本中挑选价值样本，包括：

8.一种样本标注装置，其特征在于，所述装置包括：

获取模块，用于获取待标注样本；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。