CN108009589A

CN108009589A - 样本数据处理方法、装置和计算机可读存储介质

Info

Publication number: CN108009589A
Application number: CN201711318024.1A
Authority: CN
Inventors: 余宗桥
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2018-05-08

Abstract

本发明揭示了一种样本数据处理方法、装置和计算机可读存储介质。所述方法包括：获取分类模型；通过分类模型进行模型重训练样本数据自动标注；显示模型重训练样本数据以及自动标注结果，接收对显示的自动标注结果修正的选择，获得模型重训练样本数据的标注扩充结果；将模型重训练样本数据和标注扩充结果回馈至模型训练，直至所得到分类模型不再获得分类性能提升进行了模型重训练样本数据所对应标注结果的迭代优化，以完成所对应标注结果的纠错查漏过程，提高标注准确性，不断扩充样本数据，由分类模型的自动标注而获得相应自动标注结果，经由修正的进行得到更为精准的标注扩充结果，获得规模庞大的样本数据以及对此而进行的量多维度广的标注。

Description

样本数据处理方法、装置和计算机可读存储介质

技术领域

本发明涉及计算机应用技术领域，特别涉及一种样本数据处理方法、装置和计算机可读存储介质。

背景技术

随着计算机应用技术的发展，机器学习技术日趋成熟，且获得越来越广泛的应用，进而落地于各种业务场景。根据所需要实现的业务场景，基于机器学习技术进行模型训练，获得适用于所需实现业务场景的分类模型，进而得以为此业务场景通过所获得的分类模型而提供所输入数据的自动识别功能。

然而，进行模型训练之前，需为此而提供样本数据，以及为每一样本数据而标记的标签，所标记的标签是样本数据的标注结果。

用于模型训练的样本数据往往规模较大，而为样本数据进行的标签标记往往也是成体系的，所构建的标签体系规模也较为庞大，以尽可能达到量多维度广的目的。由此，可供标记的标签将达到数十以至成百上千。

大规模的样本数据以及需为每一样本数据进行标注而构建的庞大标签体系，对于为此而进行的人工标注而言，是无法应对的，必然导致样本数据的标注质量很差；而对于为此从互联网络获取的原始样本数据，以及附属于原本样本数据的原始标签，虽然易于满足所需的样本数据规模以及标签体系，但是存在着非常高的噪声。

综上所述，分类模型的获得，必不可少的需要对样本数据进行处理，以获取所对应的标注结果，进而方可用于进行分类模型的训练，但是，经由人工标注以及利用互联网络上海量数据的获得，都存在着样本数据标注不准确的局限性。

发明内容

为了解决相关技术中样本数据标注不准确的技术问题，本发明提供了一种样本数据处理方法、装置和计算机可读存储介质。

一种样本数据处理方法，所述方法包括：

获取通过初始样本数据和标注结果进行模型训练所得到的分类模型；

通过所述分类模型进行模型重训练样本数据的自动标注，所述模型重训练样本数据是对所述初始样本数据的扩充；

获取所述模型重训练样本数据对应的自动标注结果；

显示所述模型重训练样本数据以及所对应自动标注结果，并接收对显示所述自动标注结果进行修正的选择，获得所述模型重训练样本数据的标注扩充结果；

将所述模型重训练样本数据和标注扩充结果回馈至所述模型训练，直至所得到分类模型不再获得分类性能提升。

一种样本数据处理装置，所述装置包括：

初版模型获取模块，用于获取通过初始样本数据和标注结果进行模型训练所得到的分类模型；

自动标注模块，用于通过所述分类模型进行模型重训练样本数据的自动标注，所述模型重训练样本数据是对所述初始样本数据的扩充；

结果获取模块，用于获取所述模型重训练样本数据对应的自动标注结果；

修正模块，用于显示所述模型重训练样本数据以及所对应自动标注结果，并接收对显示的所述自动标注结果进行修正的选择，获得所述模型重训练样本数据的标注扩充结果；

回馈模块，用于将所述模型重训练样本数据和标注扩充结果回馈至所述模型训练，直至所得到分类模型不再获得分类性能提升。

一种样本数据处理装置，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如前所述的样本数据处理方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前所述的样本数据处理方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

模型训练初始，首先获取通过初始样本数据和标注结果进行模型训练而得到的分类模型，向此分类模型输入模型重训练样本数据，借助于此分类模型进行模型重训练样本数据自动标注获得对应的自动标注结果，然后进行模型重训练样本数据以及所对应自动标注结果的显示，接收对显示自动标注结果进行修正的选择，获得模型重训练样本数据的标注扩充结果，最后将模型重训练样本数据和标注扩充结果回馈至模型训练，直至所得到分类模型不再获得分类性能提升，至此，应当理解，借助于初步获得的分类模型，以及后续不断优化分类性能的分类模型，一方面进行了模型重训练样本数据所对应标注结果的迭代优化，以完成模型重训练样本数据所对应标注结果的纠错查漏过程，进而提高样本数据标注的准确性，另一方面也能够不断扩充样本数据，并由分类模型的自动标注而获得相应的自动标注结果，且能够经由修正的进行进一步得到更为精准的标注扩充结果，获得规模庞大的样本数据以及对此而进行的量多维度广的标注。

此外，在此样本数据的处理中，不仅为模型训练的进行获得了大量样本数据以及准确的标注，也随着标注的迭代优化，不断得以进行分类模型的迭代训练，进而相应获得了分类性能最佳的分类模型，模型训练效率和性能都得到增强。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种装置的框图；

图2是根据一示例性实施例示出的一种样本数据处理方法的流程图；

图3是根据图2对应实施例示出的对步骤270的细节进行描述的流程图；

图4是根据另一示例性实施例示出的一种样本数据处理方法的流程图；

图5是根据图2对应实施例示出的对步骤230的细节进行描述的流程图；

图6是根据图2对应实施例示出的对步骤290的细节进行描述的流程图；

图7是根据图6对应实施例示出的对步骤290的细节进行描述的流程图；

图8是根据一示例性实施例示出的分类模型训练架构示意图；

图9是根据一示例性实施例示出的对获得自动标注结果的图片进行人工标注而修正自动标注结果的界面显示简图；

图10是一示例性实施例示出的一种样本数据处理装置的框图；

图11是根据另一示例性实施例示出的一种样本数据处理装置的框图；

图12是根据图10对应实施例示出的对自动标注模块的细节进行描述的流程图；

图13是根据图10对应实施例示出的对修正模块的细节进行描述的框图；

图14是根据图10对应实施例示出的对回馈模块的细节进行描述的框图；

图15是根据图14对应实施例示出的对回馈模块的细节在另一个示例性实施例进行描述的框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在一个示例性实施例中，本发明所涉及的实施环境是具备运算能力的机器，例如，终端设备，甚至于运算能力更为强大服务器级的机器等。

通过所部署的机器，为所需要实现的业务场景执行分类模型的模型训练过程，此过程，大致分为两个方面的过程执行，一是样本数据的标注修正以及样本数据的扩充，二则是由此而循环进行的模型训练，不断基于校注的修正以及样本数据的扩充而提供分类模型的分类性能，获得最优分类模型。

图1是根据一示例性实施例示出的一种装置的框图。例如，装置100可以是前述所示实施环境中的终端设备。例如，终端设备可以是台式电脑、笔记本电脑等。

参照图1，装置100可以包括以下一个或多个组件：处理组件102，存储器104，电源组件106，多媒体组件108，音频组件110，传感器组件114以及通信组件116。

处理组件102通常控制装置100的整体操作，诸如与显示，电话呼叫，数据通信，相机操作以及记录操作相关联的操作等。处理组件102可以包括一个或多个处理器118来执行指令，以完成下述的方法的全部或部分步骤。此外，处理组件102可以包括一个或多个模块，便于处理组件102和其他组件之间的交互。例如，处理组件102可以包括多媒体模块，以方便多媒体组件108和处理组件102之间的交互。

存储器104被配置为存储各种类型的数据以支持在装置100的操作。这些数据的示例包括用于在装置100上操作的任何应用程序或方法的指令。存储器104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static RandomAccess Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。存储器104中还存储有一个或多个模块，该一个或多个模块被配置成由该一个或多个处理器118执行，以完成下述图2、图3、图4、图5、图6和图7任一所示方法中的全部或者部分步骤。

电源组件106为装置100的各种组件提供电力。电源组件106可以包括电源管理系统，一个或多个电源，及其他与为装置100生成、管理和分配电力相关联的组件。

多媒体组件108包括在所述装置100和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(Liquid Crystal Display，简称LCD)和触摸面板。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。屏幕还可以包括有机电致发光显示器(Organic Light Emitting Display，简称OLED)。

音频组件110被配置为输出和/或输入音频信号。例如，音频组件110包括一个麦克风(Microphone，简称MIC)，当装置100处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器104或经由通信组件116发送。在一些实施例中，音频组件110还包括一个扬声器，用于输出音频信号。

传感器组件114包括一个或多个传感器，用于为装置100提供各个方面的状态评估。例如，传感器组件114可以检测到装置100的打开/关闭状态，组件的相对定位，传感器组件114还可以检测装置100或装置100一个组件的位置改变以及装置100的温度变化。在一些实施例中，该传感器组件114还可以包括磁传感器，压力传感器或温度传感器。

通信组件116被配置为便于装置100和其他设备之间有线或无线方式的通信。装置100可以接入基于通信标准的无线网络，如WiFi(WIreless-Fidelity，无线保真)。在一个示例性实施例中，通信组件116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件116还包括近场通信(Near FieldCommunication，简称NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RadioFrequency Identification，简称RFID)技术，红外数据协会(Infrared DataAssociation，简称IrDA)技术，超宽带(Ultra Wideband，简称UWB)技术，蓝牙技术和其他技术来实现。

在示例性实施例中，装置100可以被一个或多个应用专用集成电路(ApplicationSpecific Integrated Circuit，简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现，用于执行下述方法。

图2是根据一示例性实施例示出的一种样本数据处理方法的流程图。该样本数据处理方法，适用于前述所示实施环境的机器，如图2所示，该样本数据处理方法，至少包括以下步骤。

在步骤210中，获取通过初始样本数据和标注结果进行模型训练所得到的分类模型。

其中，获取当前所存在的分类模型，此分类模型可以是由少量样本数据以及分别对应的标注结果进行模型训练所得到的，例如，初版的分类模型，也可以分类性能需要提升的分类模型，在此不进行限定，都可对此分类模型通过本发明的标注修正和样本数据扩充来不断提升性能。

在此所指的初始样本数据是与所获得的分类模型对应的，具体而言，初始样本数据和标注结果被用于进行模型训练而获得此分类模型，每一初始样本数据都有其所对应的标注结果，换而言之，初始样本数据与标注结果一一对应。

在一个示例性实施例中，初始样本数据是较少数量的样本数据，而所对应的标注结果，则是对较少量样本数据进行人工标注或者数据挖掘而获得的。

为训练得到最优分类模型，首先以较少数量样本数据为初始样本数据，并对此进行人工标注，所获得的初始样本数据和标注结果即可用于模型训练。由此模型训练过程就可以得到分类模型，此时，分类模型由于样本量的限制，而需要继续进行优化。

但是，由于初始样本数据是较少数量的样本数据，因此，能够保证所对应样本结果的准确性，进而在一定范围内保证了模型训练的准确性，以及分类模型的可靠性。

当然，所进行的模型训练必然是适应于所需要实现的业务场景的，因此，所获得的分类模型便是用于所需要实现的业务场景中，所用于实现模型训练获得分类模型的初始样本数据和标注结果，也是与业务场景相符的。

对于一业务场景所需要分类模型的训练中，获取少量样本数据作为初始样本数据，并对每一条样本数据进行标注得到唯一对应的标注结果。至此，便以少量样本数据和标注结果为输入进行模型训练。

此过程，由于标注结果的准确性是可保证的，因此在此样本量下最大限度的保证了分类模型的准确性，并且由于样本量以及为此而需进行的标注量较小，所以使得模型训练易于推动，不再受限于海量样本数据及标注结果的获得。

此外，如前所述的，也可对并未获得最终所适用分类模型的过程接入本发明所述的方法，以在分类模型训练的中间过程，通过获取分类模型而在本发明作用下直接进行标注修正以及样本扩充，进而得以不断优化分类模型，由此，也可知，通过本发明所进行的分类模型获取，发起了模型训练过程以及为准确性而进行的优化，本发明能够适用于各种模型训练过程，具备非常高的通用性。

在步骤230中，通过分类模型进行模型重训练样本数据的自动标注，模型重训练样本数据是对初始样本数据的扩充。

其中，模型重训练样本数据是在所迭代进行的模型训练中使用的样本数据，其与初始样本数据的不同之处在于：数量规模远大于初始样本数据，并且模型重训练样本数据可以是从未标注的样本数据。

应当理解，模型重训练样本数据是初始样本数据的数据扩充，在此基础上，也将是上一轮模型训练所使用样本数据，即原有模型重训练样本数据的数据扩充。

在获得了分类模型之后，对所存在的模型重训练样本数据通过目前所获得的分类模型进行分类，分类所获得的类别是对应于标签的，每一模型重训练样本数据都存在着若干可能的类别，对模型重训练样本数据进行标注就是按照模型重训练样本数据可能存在的若干类别而对此模型重训练样本数据标注相应的标签，所标注的标签便形成此模型重训练样本数据对应的自动标注结果。

通过分类模型进行自动标注所使用的模型重训练样本数据，是对初始样本数据的扩充，因此，存在着区别于初始样本数据的其它样本数据。具体而言，此时通过所获得分类模型而进行自动标注的模型重训练样本数据，可以包括初始样本数据以及其它样本数据，也可以是区别于初始样本数据的其它样本数据。

此时所使用模型重训练样本数据的数据量，必然大于，甚至远大于初始样本数据的数据量。

分类模型是对应于配置的标签体系的，其实质上是多标签分类模型。通过分类模型对模型重训练样本数据的计算，为每一条模型重训练样本数据获得其相对应每一标签的置信度，根据此置信度获取预设数量个置信度较高的标签为此模型重训练样本数据所对应的标签，进而形成相应的自动标注结果。

自动标注结果是通过当前所获得的分类模型进行模型重训练样本数据的自动标注而得到的，每一模型重训练样本数据都有其自动标注结果。自动标注结果指示了模型重训练样本数据被标注的标签。

在步骤250中，获取模型重训练样本数据对应的自动标注结果。

其中，从分类模型所不断进行的自动标注中，获取模型重训练样本数据对应的自动标注结果。自动标注结果指示了所对应模型重训练样本数据所标注的标注，重训练样本数据所标注的标签是与当前所训练模型重训练样本数据相符合的。

在步骤270中，显示模型重训练样本数据以及所对应自动标注结果，并接收对显示的自动标注结果进行修正的选择，获得模型重训练样本数据的标注扩充结果。

其中，所有模型重训练样本数据都经由当前所获得的分类模型得到自动标注结果。应当理解，自动标注结果是对模型重训练样本数据进行粗略标注而得到的，往往存在着不准确性。例如，当前所获得分类模型进行的模型重训练样本数据自动标注中，往往存在着某些难以识别的模型重训练样本数据，或者为某些模型重训练样本数据标注的标签存在着错误，例如，错标、漏标等，因此，有必要对每一模型重训练样本数据进行自动标注结果的修正。

进行模型重训练样本数据和自动标注结果的显示，以人工检视模型重训练样本数据的自动标注结果，对所存在的错标标签进行修正，对所存在的漏标标签，将漏标标签人工标注给模型重训练样本数据，由此，完成自动标注结果修正的模型重训练样本数据，其所标注的标签便形成标注扩充结果。

如前所述的，预先构建了实现模型重训练样本数据标注的标签体系。也就是说，配置了数十以至成百上千的标签，以便标注到每一模型重训练样本数据上。

在模型重训练样本数据及所对应自动标注结果的显示中，基于所构建的标签体系，而与模型重训练样本数据已标注的标签进行比对，一方面，人工确认漏标的标签，随着人工为模型重训练样本数据进行的标签选择，将漏标的标签标注至模型重训练样本数据，另一方面，人工确认错标的标签，随着对此模型重训练样本数据的错标标签进行的选择，取消对模型重训练样本数据的错误标注。

至此，便完成对自动标注结果的修正，获得模型重训练样本数据的标注扩充结果。

由此可知，对自动标注结果修正的选择，是针对于模型重训练样本数据的自动标注结果进行的，其包括了错标标签的选择以及取消标注，以及漏标标签的选择以及重新标注。

在一个示例性实施例的具体实现中，有对应自动标注结果的模型重训练样本数据，是逐条进行显示的，并且在此条模型重训练样本数据的显示中，进行着所对应自动标注结果中标签的显示，以及所构建标签体系，即所配置标签集合中标签的显示，以便于对此进行人工查看，进而触发自动标注结果修正的选择。

图3是根据图2对应实施例示出的对步骤270的细节进行描述的流程图。该步骤270，如图3所示，至少包括以下步骤。

在步骤271中，逐一显示模型重训练样本数据，并为显示的模型重训练样本数据相应显示所对应的自动标注结果。

在步骤273中，根据配置的标签集合进行所显示自动标注结果中标签的纠错以及对新增标签的选择，获得模型重训练样本数据的标注扩充结果。

其中，对每一模型重训练样本数据，在其所进行的显示中，所对应自动标注结果中存在的标签也被一并显示。

此时，对自动标注结果中存在的标签纠错，接收对错标标签的选择，以执行模型重训练样本数据取消此错标标签的标注，针对于标签集合中存在的标签，查找模型重训练样本数据所漏标的标签，所漏标的标签即为模型重训练样本数据的新增标签，针接收对新增标签的选择，以将新增标签标注到模型重训练样本数据上。

以此类推，就可获得所显示模型重训练样本数据的标注扩充结果。应当理解，标注扩充结果，是对自动标注结果纠错以及扩充标签所形成的。

相对于人工进行大规模模型重训练样本数据标注而言，对已自动标注的模型重训练样本数据进行纠错和新增漏标标签只需要进行若干次选择操作即可，这是人工所能够应对的。

在步骤290中，将模型重训练样本数据和标注扩充结果回馈至模型训练，直至所得到分类模型的分类性能不再提升。

其中，在获得模型重训练样本数据的标注扩充结果之后，再次以此模型重训练样本数据为输入，配之以相应的标注扩充结果，返回至模型训练中，再次执行模型训练过程得到本次模型训练的分类模型。

迭代进行的模型训练，是以所得到分类模型的分类性能不再提供为迭代终止条件的。应当理解，分类模型的分类性能，是通过对分类模型验证而输出各种数值所表征中。在验证分类模型而输出的数值相对于上一轮迭代所获得分类模型的验证数值并未发生变化，则说明当前所得到分类模型的分类性能不再提升。

此时，由于标注扩充结果是对自动标注结果进行纠错和漏标标签修正而获得的，由此为难以识别的模型重训练样本数据提供准确标注的标签，通过准确标注的模型重训练样本数据，使得本次模型训练能够进一步提升模分类准确性。

在步骤290的控制下，对不断获得的模型重训练样本数据和标注扩充结果，循环进行着模型训练，进而获得分类性能不断提升的分类模型，本次获得的分类模型，将在不断扩充的模型重训练样本数据以及由此而进行的自动标注结果修正下，使得下一次模型训练所获得的分类模型得到分类效果的提升。

循环执行步骤230至步骤290，一方面，随着模型重训练样本数据的扩充而进行新一轮的模型训练，另一方面，也随着模型重训练样本数据所对应自动标注结果的修正而进行新一轮的模型训练，以此来不断提高分类模型性能。

应当理解，在本发明的实现中，能够不断扩充样本数据，以投入到新一轮的模型训练，除此之外，也可将原有样本数据继续投入新一轮的模型训练，随着所获得分类模型的分类性能提升，通过自动标注而为原有样本数据获得更为准确的自动标注结果，在此基础上做出的修正也更为准确且节省人工，进而继续投入模型训练。

通过如上所述的示例性实施例，将使得分类模型的最终获得不再受限于样本数据，提高了速度和效率，并且也使得准确性获得极大的提高。

应当说明的是，所使用的样本数据、构建的标签体系以及获得的分类模型，都是与所需要实现的业务场景强相关的，业务场景可以是电商类场景、社交类场景等。

在本发明的实现中，初始样本数据、模型重训练样本数据可以是图片、文本、音频、视频等，在此不进行限定。

应当理解，本发明模型训练所使用的算法，可以是深度卷积神经网络算法，也可以替换成其它任意分类算法，例如，KNN(k-NearestNeighbor，邻近分类算法)、SVM(SupportVector Machine，支持向量机)以及随机森林等，以获得多标签分类模型。

图4是根据另一示例性实施例示出的一种样本数据处理方法的流程图。该样本数据处理方法，如图4所示，步骤210之前，还包括以下步骤。

在步骤310中，接收对模型训练所使用初始样本数据的选择，获得初始样本数据和对应于初始样本数据的标注结果。

其中，如前所述的，初始样本数据是较少数量且完成标注的样本数据。初始样本数据的选择，可以是对少量精准标注的样本数据的选择，也可以是对少量粗略标注的样本数据的选择，还可以是对执行了数据挖掘而完成标注的样本数据的选择等，在此不进行限定。

例如，可以从已有的数据中获取部分数据作为样本数据，并对此分别进行人工标注；也可以对互联网上海量的数据及相关附属文本描述执行数据挖掘，以此来得到初始样本数据和标注结果。

又例如，在为电商类场景，以图片为样本进行的模型训练中，可以通过存在于电商网站中的图片，以及图片所在的层级目录等相关附属文本描述，获得标注图片，以及为此图片所标注的标签，所标注的标签构成标注结果。

对应于初始样本数据的标注结果，包括了对初始样本数据进行描述的若干标签，每一标签都指示了初始样本数据归属的类别。

在步骤330中，通过初始样本数据和标注结果进行模型训练获得初始的分类模型。

其中，通过机器学习算法对初始样本数据和标注结果进行学习，获得初始的分类模型。具体的，通过机器学习算法所实现的模型训练过程，将获得分类模型的参数，通过所获得的参数来获得初始的分类模型。

在另一个示例性实施例中，对应于初始样本数据的标注结果是人工标注结果和/或通过初始样本数据所相关的数据挖掘而获得的，则步骤330，包括：

以初始样本数据及所对应人工标注结果和/或数据挖掘而获得的标注结果，启动模型训练得到初始的分类模型，初始样本数据在数量上相对少于模型重训练样本数据。

其中，如前所述的，通过人工标注以及数据挖掘，都可获得标注的样本数据，而人工标注和数据挖掘这两种方式所进行的样本数据各有优势和缺点，因此，可以根据实际情况而选择合适的样本数据作为初始样本数据，进而快速轻量的启动模型训练。

通过此示例性实施例，在获得少量样本数据时，就可以开始进行模型训练，进而在后续的模型训练中不断扩充样本数据，由此将使得模型训练的进行不再受限于样本数据的庞大规模以及样本数据的标注，能够减少由此而耗费的人工，并且提高速度。

图5是根据图2对应实施例示出的对步骤230的细节进行描述的流程图。该模型重训练样本数据包括初始样本数据和/或扩充样本数据，则步骤230如图5所示，至少包括以下步骤。

在步骤231中，将初始样本数据和/或扩充样本数据输入分类模型，获得初始样本数据和/或扩充样本数据分别对应于标签的置信度。

其中，如前所述的，分类模型将对模型重训练样本数据进行分类，所构建的标签体系中每一标签便对应于一个类别。

模型重训练样本数据可以是初始样本数据本身，也可以是扩充样本数据本身，还可以是初始样本数据和扩充样本数据的组合。在分类模型的作用下，对模型重训练样本数据进行标签预测，即运算模型重训练样本数据归属于每一类别的可能性，换而言之，即为模型重训练样本数据对应于每一标签的可能性，可能性的大小将使用置信度来表征。

至此，对于每一模型重训练样本数据，都运算得到对应于每一标签的置信度，将根据此来判别模型重训练样本数据应当标注的标签。

在步骤233中，根据置信度为初始样本数据和/或扩充样本数据获得自动标注的标签，自动标注的标签形成初始样本数据和/或扩充样本数据对应的自动标注结果。

其中，在通过前述步骤获得模型重训练样本数据，例如，初始样本数据，或者扩充样本数据对应于每一标签的置信度之后，即可根据置信度来判别模型重训练样本数据应当标注的标签。

具体的，每一模型重训练样本数据都有对应于所有标签的置信度，对这些置信度按照大小顺序进行排序，在此置信度的排序中，按照从大到小的顺序提取预设数量的置信度，所提取置信度对应的标签即为模型重训练样本数据应当标注的标签，是对模型重训练样本数据自动标注的标签。

通过此示例性实施例，为样本数据进行了自动标注，这将为后续人工修正的进行奠定基础，不再仅限于对样本数据的人工标注，能够极大扩充样本数据的同时，也得以提高标注的准确性和速度。

图6是根据图2对应实施例示出的对步骤290的细节进行描述的流程图。该步骤290，如图6所示，至少包括以下步骤。

在步骤291a中，将模型重训练样本数据和标注扩充结果回馈至分类模型的模型训练，通过模型重训练样本数据和标注扩充结果再次进行分类模型的模型训练。

其中，如前所述的，对于模型重训练样本数据经由分类模型得到的自动标注结果，通过人工检视而对自动标注结果进行修正，例如，修正错标标签，重新标注漏标标签等，至此即可获得模型重训练样本数据的标注扩充结果。

标注扩充结果是对原有自动标注结果进行的扩充，以此来保障由模型重训练样本数据和标注扩充结果继续进行的模型训练分类效果提升，使得原本无法识别模型重训练样本数据所对应漏标标签的分类模型获得优化，原本造成模型重训练样本数据错标标签的分类模型也能够得以优化。

因此，在通过前述步骤获得模型重训练样本数据和标注扩充结果之后，便将模型重训练样本数据和标注扩充结果回馈至分类模型的模型训练中，通过所获得的模型重训练样本数据和标注扩充结果继续进行分类模型的模型训练。

在步骤293a中，如果再次进行模型训练而获得的分类模型中不再获得分类性能提升，则结束迭代进行的模型重训练样本数据自动标注以及自动标注结果修正。

其中，随着所回馈至模型训练中的模型重训练样本数据和标注扩充结果，由于相对于在此之前所进行的模型训练，当前模型训练所能够获得的模型重训练样本数据，无论是从样本量，还是从模型重训练样本数据标注的准确性以及标注维度的广泛性而言，都获得了极大的增强，因此，当前所进行的模型训练将会使得所优化分类模型的分类性能得到提升。

在通过模型训练而获得分类模型之后，便进入通过此分类模型而进行模型重训练样本数据自动标注、自动标注结果修正以及由此而继续进行模型训练的一系列过程，此系列过程，将是迭代进行的，直至所获得分类模型的分类性能不再获得提升时结束。

也就是说，进行着分类模型的反复训练，与之相对应的，也反复进行着模型重训练样本数据的扩充，借由所训练分类模型对模型重训练样本数据标注的自动进行以及自动修正，至此，将使得模型训练的进行不需要预先准备大量模型重训练样本数据以及分别对每一模型重训练样本数据进行人工标注标签，极大的提高了模型训练的效率，降低了模型训练的难度以及所耗费的人工成本，简单易行，并且能够提高所获得分类模型的性能。

图7是根据图6对应实施例示出的对步骤270的细节进行描述的流程图。该步骤290，如图7所示，至少包括以下步骤。

在步骤291b中，如果再次进行模型训练而获得的分类模型中分类性能获得提升，则继续迭代进行模型重训练样本数据自动标注以及自动标注结果修正。

其中，如图6对应实施例所描述的，在当前所训练得到分类模型相对上一轮模型训练所获得分类模型在分类性能上获得提升时，通过当前所得到的分类模型继续发起模型重训练样本数据的自动标注、修正以及模型优化，进而在本轮模型训练中继续获得分类模型。

在此继续迭代过程中，进行自动标注的模型重训练样本数据，可以是原有样本数据，也可以在原有样本数据基础上进行扩充，除此之外，当然也可以扩充的其它样本数据，在此不进行限定，其原则是在于更多的样本数据加入到模型训练中。

在步骤293b中，由继续迭代所获得的模型重训练样本数据和标注扩充结果回馈至模型训练，继续迭代进行分类模型的模型训练。

通过如上所述的示例性实施例，便能够随着样本数据的不断扩充而不断进行模型训练，并且在此样本数据的扩充中使用训练得到的分类模型进行自动标注，以为人工进行的修正提供标的，进而方能够为不断进行的模型训练提供更多的样本数据以及更为精准的标注，基于此来提高模型训练的效果。

通过如上所述的示例性实施例，在基于机器学习技术而进行的模型训练中引入自动标注与人工修正相结合的样本数据标注过程，以及分类模型的迭代训练过程。

一方面，对于样本数据标注过程而言，在所构建标签体系规模较大时，纯粹的人工标注容易集中在某部分高频标签的标注，例如，少部分标签频繁被使用标注，大部分标签却很少被标注到，进而产生错标、漏标率高的问题，而借助于自动标注的进行，人工转为纠错查漏，对样本数据标注的准确性和速度都得以提升。

通过自动标注与人工修正相结合，使得最终所获得的标注结果，即前述所指的标注扩充结果更有针对性，自动标注结果是算法，即当前所拥有分类模型自动预测较差的情况，通过不断积累这些难例样本，将有效促进后续更好的学习迭代。

另一方面，对于分类模型的训练而言，由于是迭代进行的，因此只需要较少完成标注，即人工标注的样本数据，就可以启动进行模型训练，甚至此得到初版的分类模型，随即进入算法自动标注和人工纠错查漏的良性循环。

至此，通过如上所述的示例性实施例，便实现了样本数据通过自动标注来辅助人工标注，进而提升效率的机制，在此基础上，随着迭代的进行，分类模型所对应分类性能的提升将有针对性的提升了自动标注效果，即所对应的标注迭代机制使得自动标注的准确性不断得到提升，进而减弱人工标注产生的高频标签问题。

如上所述的示例性实施例，可应用于实现各种不同的任务，这些任务是对各种不同业务场景产生的数据予以识别，通过本发明所示实施例获得的分类模型便用于支持完成这些任务。而所对应的业务场景，可以是电商类场景、社交类场景等。

以一业务场景的模型训练为例，结合此业务场景来描述上述样本数据处理方法的过程。在此过程中，业务场景为电商类场景，在此电商类场景下，需通过分类模型来识别电商网站中图片的内容。

应当理解，前述用于标注样本数据的标签，是描述了样本数据的内容的，对于标注了多个标签的样本数据，将是从多个维度来进行样本数据的内容描述。

因此，电商网站中图片内容的识别，便是以电商网站中图片为输入，在分类模型的运算下识别此图片所归属的类别，即对应的标签，由此即可识别出图片的内容。

在为电商场景提供图片内容识别功能之前，必然要进行分类模型的训练，以获得适用于电商场景中图片识别的分类模型。

分类模型所适用的业务场景决定了所使用的样本数据，以及标签体系。具体而言，对于电商场景下的图片识别，训练分类模型所使用的样本数据必然是来自于电商网站的各种开放图片。

对少部分开放图片进行人工标注，或者甚至其所在的电商网站进行数据挖掘而获得所对应的标注结果

图8是根据一示例性实施例示出的分类模型训练架构示意图。为获得适用于电商场景的分类模型，如图8所示的，将通过初始阶段410和迭代阶段450进行样本数据的处理以及模型训练。

具体的，在初始阶段410中，以少部分开放图片为初始待标注图片411，对此进行人工标注，即执行步骤413，以获得初始标签，形成初始标签词库415，所形成初始标签词库415即为前述所指初始样本数据的标注结果。

应当理解，初始阶段410中进行的人工标注，可以使用初始确定的热词标签，数目可为十多个不等，不宜较多，便于人工记忆。具体而言，热词标签可以结合业务场景需求人工指定，也可以根据网络热门搜索词汇整理挖掘，或通过其它自动确定的方法。

此时所使用的少部分开放图片，可以是相对于业务场景，即电商类场景而言具有代表性的小规模图片，数量可以是数千级，便于人工快速标注完成。

初始阶段410所获得的初始标签词库415，便送至执行首轮模型训练，即进入迭代阶段450。

在迭代阶段中，通过执行机器学习分类模型而完成首轮模型训练，获得初版的分类模型。获取扩充待标注图片453，即前述所指模型重训练样本数据，其可包括初始待标注图片411以及新增待标注图片，当然也可不包含初始待标注图411，而仅包括新增标注图片。

将初版的分类模型作用于扩充待标注图片453获得自动标注结果，对自动标注结果进行人工标注，即执行步骤455，对自动标注结果予以修正，人工修正错标标签和漏标标签，所获得的标注扩充结果便形成扩充待标注图片453的扩充标签词库。

至此，再以扩充待标注图片453为模型重训练样本数据，扩充标签词为所对应的标注结果，进入步骤451执行下一轮模型训练，以此类推，不断进行样本数据处理和模型训练所相关的迭代过程，直至所获得分类模型的分类性能不再提升。

应当理解，在迭代阶段450进行的人工标注，是人工对自动标注结果进行纠错查漏。图9是根据一示例性实施例示出的对获得自动标注结果的图片进行人工标注而修正自动标注结果的界面显示简图。

如图9所示的，完成自动标注的图片，例如前述所指的扩充待标注图片453，将逐一显示于内容展示区510，在此内容展示区510进行的扩充待标注图片453显示中，所对应自动标注结果包含的所有标签都为被显示于待确认标签显示区530，也就是说，自动标注而获得的标签是作为待确认标签存在的，需要获得用户的确认。

而所构建标签体系中未被标注的标签，则显示于添加新标签功能区550。用户可对两类标签进行对照显示，进而方能够查找到存在的错标标签，以及确定应当添加的新标签，即漏标标签。

通过如上所述的实现过程，将有效解决了人工对图片做繁复标签(成百上千种标签)标注工作时的错标和漏标率高的问题，结合人工标注与自动标注，互相促进，提高了效率，且更适用于分类模型效果的提升，能够获得更优的分类模型。

在自动标注与人工标注的配合下，让人工专注于纠错和查漏，更针对性的处理，减轻标注时的思考范围，提高标注质量。

下述为本发明装置实施例，可以用于执行本发明上述样本数据处理方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明样本数据处理方法实施例。

图10是一示例性实施例示出的一种样本数据处理装置的框图。该样本数据处理装置，如图10所示，包括但不限于：初版模型获取模块710、自动标注模块730、结果获取模块750、修正模块770和回馈模块790。

初版模型获取模块710，用于获取通过初始样本数据和标注结果进行模型训练所得到的分类模型。

自动标注模块730，用于通过所述分类模型进行模型重训练样本数据的自动标注，所述模型重训练样本数据是对所述初始样本数据的扩充。

结果获取模块750，用于获取模型重训练样本数据对应的自动标注结果。

修正模块770，用于显示模型重训练样本数据以及所对应自动标注结果，并接收对显示的自动标注结果进行修正的选择，获得模型重训练样本数据的标注扩充结果。

回馈模块790，用于将模型重训练样本数据和标注扩充结果回馈至模型训练，直至所得到分类模型不再获得分类性能提升。

图11是根据另一示例性实施例示出的一种样本数据处理装置的框图。该样本数据处理装置，如图11所示，包括但不限于：初始数据获取模块810和初始训练模块830。

初始数据获取模块810，用于接收对模型训练所使用初始样本数据的选择，获得初始样本数据和对应于初始样本数据的标注结果。

初始训练模块830，用于通过初始样本数据和标注结果进行模型训练获得初始的分类模型。

在另一个示例性实施例中，对应于初始样本数据的标注结果是人工标注结果和/或通过初始样本数据所相关的数据挖掘而获得；

初版模型获取模块710进一步用于以初始样本数据及所对应人工标注结果和/或数据挖掘而获得的标注结果，启动所述模型训练得到初始的分类模型，初始样本数据在数量上相对少于模型重训练样本数据。

图12是根据图10对应实施例示出的对自动标注模块的细节进行描述的流程图。模型重训练样本数据包括初始样本数据和/或扩充样本数据；该自动标注模块730，如图12所示，包括但不限于：模型运算单元731和标签获取单元733。

模型运算单元731，用于将初始样本数据和/或扩充样本数据输入分类模型，获得初始样本数据和/或扩充样本数据分别对应于标签的置信度。

标签获取单元733，用于根据置信度为初始样本数据和/或扩充样本数据获得自动标注的标签，自动标注的标签形成初始样本数据和/或扩充样本数据对应的自动标注结果。

图13是根据图10对应实施例示出的对修正模块的细节进行描述的框图。该修正模块770，如图13所示，包括但不限于：结果显示单元771和标签选择单元773。

结果显示单元771，用于逐一显示模型重训练样本数据，并为显示的模型重训练样本数据相应显示所对应的自动标注结果。

标签选择单元773，用于根据配置的标签集合进行所显示自动标注结果中标签的纠错以及对新增标签的选择，获得模型重训练样本数据的标注扩充结果。

图14是根据图10对应实施例示出的对回馈模块的细节进行描述的框图。该回馈模块790，如图14所示，包括但不限于：迭代训练单元791和迭代结束单元793。

迭代训练单元791，用于将模型重训练样本数据和标注扩充结果回馈至分类模型的模型训练，通过模型重训练样本数据和标注扩充结果再次进行分类模型的模型训练。

迭代结束单元793，用于如果再次进行模型训练而获得的分类模型中不再获得分类性能提升，则结束迭代进行的模型重训练样本数据自动标注以及自动标注结果修正。

图15是根据图14对应实施例示出的对回馈模块的细节在另一个示例性实施例进行描述的框图。该回馈模块，如图15所示，还包括但不限于：迭代控制单元795和迭代推进单元797。

迭代控制单元795，用于如果再次进行模型训练而获得的分类模型中分类性能获得提升，则继续迭代进行模型重训练样本数据自动标注以及自动标注结果修正。

迭代推进单元797，用于由继续迭代所获得的模型重训练样本数据和标注扩充结果回馈至模型训练，继续迭代进行分类模型的模型训练。

可选的，本发明还提供一种样本数据处理装置，该电视终端可以用于前述所示实施环境中，执行图2、图3、图4、图5、图6和图7任一所示的样本数据处理方法的全部或者部分步骤。所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

所述计算机可读指令被所述处理器执行时实现前述所述的样本数据处理方法。

该实施例中的装置的处理器执行操作的具体方式已经在有关该样本数据处理方法的实施例中执行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种存储介质，该存储介质为计算机可读存储介质，例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质例如包括指令的存储器104，上述指令可由装置100的处理器118执行以完成上述方法。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种样本数据处理方法，其特征在于，所述方法包括：

获取所述模型重训练样本数据对应的自动标注结果；

显示所述模型重训练样本数据以及所对应自动标注结果，并接收对显示的所述自动标注结果进行修正的选择，获得所述模型重训练样本数据的标注扩充结果；

2.根据权利要求1所述的方法，其特征在于，所述获取初始样本数据和标注结果进行模型训练所得到的分类模型之前，所述方法还包括：

接收对模型训练所使用初始样本数据的选择，获得初始样本数据和对应于所述初始样本数据的标注结果；

通过所述初始样本数据和标注结果进行模型训练获得初始的分类模型。

3.根据权利要求2所述的方法，其特征在于，对应于所述初始样本数据的标注结果是人工标注结果和/或通过所述初始样本数据所相关的数据挖掘而获得；

所述通过所述初始样本数据和标注结果进行模型训练获得初始的分类模型，包括：

以初始样本数据及所对应人工标注结果和/或数据挖掘而获得的标注结果，启动所述模型训练得到初始的分类模型，所述初始样本数据在数量上相对少于所述模型重训练样本数据。

4.根据权利要求1所述的方法，其特征在于，所述模型重训练样本数据包括初始样本数据和/或扩充样本数据；

所述通过所述分类模型进行模型重训练样本数据的自动标注，所述模型重训练样本数据是对所述初始样本数据的扩充，包括：

将所述初始样本数据和/或扩充样本数据输入所述分类模型，获得所述初始样本数据和/或扩充样本数据分别对应于标签的置信度；

根据所述置信度为所述初始样本数据和/或扩充样本数据获得自动标注的标签，所述自动标注的标签形成所述初始样本数据和/或扩充样本数据对应的自动标注结果。

5.根据权利要求1所述的方法，其特征在于，所述显示所述模型重训练样本数据以及所对应自动标注结果，并接收对显示的所述自动标注结果进行修正的选择，获得所述模型重训练样本数据的标注扩充结果，包括：

逐一显示所述模型重训练样本数据，并为显示的所述模型重训练样本数据相应显示所对应的自动标注结果；

根据配置的标签集合进行所显示自动标注结果中标签的纠错以及对新增标签的选择，获得所述模型重训练样本数据的标注扩充结果。

6.根据权利要求1所述的方法，其特征在于，所述将所述模型重训练样本数据和标注扩充结果回馈至所述模型训练，直至所得到分类模型不再获得分类性能提升，包括：

将所述模型重训练样本数据和标注扩充结果回馈至所述分类模型的模型训练，通过所述模型重训练样本数据和标注扩充结果再次进行所述分类模型的模型训练；

如果再次进行模型训练而获得的分类模型中不再获得分类性能提升，则结束迭代进行的所述模型重训练样本数据自动标注以及自动标注结果修正。

7.根据权利要求6所述的方法，其特征在于，所述将所述模型重训练样本数据和标注扩充结果回馈至所述模型训练，直至所得到分类模型的分类性能不再提升，还包括：

如果再次进行模型训练而获得的分类模型中分类性能获得提升，则继续迭代进行模型重训练样本数据自动标注以及自动标注结果修正；

由继续迭代所获得的模型重训练样本数据和标注扩充结果回馈至所述模型训练，继续迭代进行所述分类模型的模型训练。

8.一种样本数据处理装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

初始数据获取模块，用于接收对模型训练所使用初始样本数据的选择，获得初始样本数据和对应于所述初始样本数据的标注结果；

初始训练模块，用于通过所述初始样本数据和标注结果进行模型训练获得初始的分类模型。

10.根据权利要求9所述的装置，其特征在于，对应于所述初始样本数据的标注结果是人工标注结果和/或通过所述初始样本数据所相关的数据挖掘而获得；

所述初版模型获取模块进一步用于以初始样本数据及所对应人工标注结果和/或数据挖掘而获得的标注结果，启动所述模型训练得到初始的分类模型，所述初始样本数据在数量上相对少于所述模型重训练样本数据。

11.根据权利要求8所述的装置，其特征在于，所述模型重训练样本数据包括初始样本数据和/或扩充样本数据；

所述自动标注模块包括：

模型运算单元，用于将所述初始样本数据和/或扩充样本数据输入所述分类模型，获得所述初始样本数据和/或扩充样本数据分别对应于标签的置信度；

标签获取单元，用于根据所述置信度为所述初始样本数据和/或扩充样本数据获得自动标注的标签，所述自动标注的标签形成所述初始样本数据和/或扩充样本数据对应的自动标注结果。

12.根据权利要求8所述的装置，其特征在于，所述修正模块包括：

结果显示单元，用于逐一显示所述模型重训练样本数据，并为显示的所述模型重训练样本数据相应显示所对应的自动标注结果；

标签选择单元，用于根据配置的标签集合进行所显示自动标注结果中标签的纠错以及对新增标签的选择，获得所述模型重训练样本数据的标注扩充结果。

13.根据权利要求8所述的装置，其特征在于，所述回馈模块包括：

迭代训练单元，用于将所述模型重训练样本数据和标注扩充结果回馈至所述分类模型的模型训练，通过所述模型重训练样本数据和标注扩充结果再次进行所述分类模型的模型训练；

迭代结束单元，用于如果再次进行模型训练而获得的分类模型中不再获得分类性能提升，则结束迭代进行的所述模型重训练样本数据自动标注以及自动标注结果修正。

14.一种样本数据处理装置，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据权利要求1至7中任一项所述的样本数据处理方法。

15.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至7中任一项所述的样本数据处理方法。