CN113469290B

CN113469290B - 一种训练样本的选取方法、系统、存储介质和电子设备

Info

Publication number: CN113469290B
Application number: CN202111017696.5A
Authority: CN
Inventors: 王少将; 唐会军; 刘拴林; 梁堃; 陈建
Original assignee: Beijing Nextdata Times Technology Co ltd
Current assignee: Beijing Nextdata Times Technology Co ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2021-11-19
Anticipated expiration: 2041-09-01
Also published as: CN113469290A

Abstract

本发明涉及一种训练样本的选取方法、系统、存储介质和电子设备，将任一数据样本输入现有的已训练好的数据模型中，根据输出结果计算该数据样本的信息熵，并进行进行归一化，直至得到多个数据样本的归一化后的信息熵并按照从大到小顺序排列，前

个归一化后的信息熵对应的数据样本均作为训练样本，也就是挑选出能够对模型训练起到的较大效果的数据样本作为训练样本，然后再进行新模型的训练，既保证新训练出的模型的精度，还能降低标注成本。

Description

一种训练样本的选取方法、系统、存储介质和电子设备

技术领域

本发明涉及模型训练技术领域，尤其涉及一种训练样本的选取方法、系统、存储介质和电子设备。

背景技术

随着深度学习技术的快速发展，以深度学习为主要技术的解决方案开始应用于各行各业。随着业务的发展，越来越多的数据被添加到深度学习模型的训练数据，得到越来越多的训练样本。然而过多的简单的训练样本对模型训练所起到的提升效果并不是很大，反而由于深度学习的模型的输出空间可能很大，反而会带来巨大的标注成本；因此，如何选取训练样本，既能保证训练出的模型的精度，还能降低标注成本，是业内亟待解决的技术问题。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供了一种训练样本的选取方法、系统、存储介质和电子设备。

本发明的一种训练样本的选取方法的技术方案如下：

将任一数据样本输入已训练好的数据模型中，得到输出结果，所述输出结果包括：所述已训练好的数据模型对应的每个预设结果的概率，所有预设结果的概率之和等于1，按照从大到小的顺序将所有预设结果的概率进行排列，得到第一序列，选取并根据所述第一序列中的前

个概率计算所述任一数据样本的信息熵，并对所述任一数据样本的信息熵进行归一化，得到所述任一数据样本的归一化后的信息熵，直至得到多个数据样本的归一化后的信息熵；

按照从大到小顺序排列将所有归一化后的信息熵进行排列，得到第二序列，从所述第二序列选取前

个归一化后的信息熵，将所述前

个归一化后的信息熵对应的数据样本均作为训练样本，并基于选取的所有训练样本进行模型训练，其中，

和

均为正整数。

本发明的一种训练样本的选取方法的有益效果如下：

信息熵是衡量数据包含信息量多少的度量方法，因此能够评估出任一数据样本相对于当前模型包含信息量的大小，相对于当前模型包含信息量的大小直接关系到每个数据样本在模型训练的所起到的作用的大小，那么，将任一数据样本输入现有的已训练好的数据模型中，根据输出结果计算该数据样本的信息熵，并进行进行归一化，直至得到多个数据样本的归一化后的信息熵并按照从大到小顺序排列，前

在上述方案的基础上，本发明的一种训练样本的选取方法还可以做如下改进。

进一步，所述根据所述第一序列中的前

个概率计算所述任一数据样本的信息熵，包括：

利用第一公式计算所述任一数据样本的信息熵

，所述第一公式为

，其中，

表示所述任一数据样本的第

个预设类别的概率，

为正整数且

，

。

进一步，所述对所述任一数据样本的信息熵进行归一化，得到所述任一数据样本的归一化后的信息熵，包括：

利用第二公式对所述任一数据样本的信息熵进行归一化，得到所述任一数据样本的归一化后的信息熵

，所述第二公式为：

，其中，

。

进一步，数据样本为图像、视频或声频。

本发明的一种训练样本的选取系统的技术方案如下：

包括计算模块和选取模块，所述计算模块用于：将任一数据样本输入已训练好的数据模型中，得到输出结果，所述输出结果包括：所述已训练好的数据模型对应的每个预设结果的概率，所有预设结果的概率之和等于1，按照从大到小的顺序将所有预设结果的概率进行排列，得到第一序列，选取并根据所述第一序列中的前

所述选取模块用于：按照从大到小顺序排列将所有归一化后的信息熵进行排列，得到第二序列，从所述第二序列选取前

个归一化后的信息熵，将所述前

和

均为正整数。

本发明的一种训练样本的选取系统的有益效果如下：

在上述方案的基础上，本发明的一种训练样本的选取系统还可以做如下改进。

进一步，所述计算模块还具体用于：

利用第一公式计算所述任一数据样本的信息熵

，所述第一公式为

，其中，

表示所述任一数据样本的第

个预设类别的概率，

为正整数且

，

。

进一步，所述计算模块还具体用于：

，所述第二公式为：

，其中，

。

进一步，数据样本为图像、视频或声频。

本发明的一种存储介质，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行上述任一项所述的一种训练样本的选取方法。

本发明的一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序，所述处理器执行所述程序时实现如上述任一项所述的一种训练样本的选取方法的步骤。

附图说明

图1为本发明实施例的一种训练样本的选取方法的流程示意图；

图2为本发明实施例的一种训练样本的选取系统的结构示意图；

具体实施方式

如图1所示，本发明实施例的一种训练样本的选取方法的流程示意图，包括如下步骤：

S1、将任一数据样本输入已训练好的数据模型中，得到输出结果，所述输出结果包括：所述已训练好的数据模型对应的每个预设结果的概率，所有预设结果的概率之和等于 1，按照从大到小的顺序将所有预设结果的概率进行排列，得到第一序列，选取并根据所述第一序列中的前

S2、按照从大到小顺序排列将所有归一化后的信息熵进行排列，得到第二序列，从所述第二序列选取前

个归一化后的信息熵，将所述前

和

均为正整数，其中，

和

的具体值可根据实际情况进行设置。

较优地，在上述技术方案中，S1中，所述根据所述第一序列中的前

个概率计算所述任一数据样本的信息熵，包括：

S10、利用第一公式计算所述任一数据样本的信息熵

，所述第一公式为

，其中，

表示所述任一数据样本的第

个预设类别的概率，

为正整数且

，

，

表示以A为底的

的对数；

较优地，在上述技术方案中，S1中，所述对所述任一数据样本的信息熵进行归一化，得到所述任一数据样本的归一化后的信息熵，包括：

S11、利用第二公式对所述任一数据样本的信息熵进行归一化，得到所述任一数据样本的归一化后的信息熵

，所述第二公式为：

，其中，

，

表示以A为底的

的对数。

较优地，在上述技术方案中，数据样本为图像、视频或声频。

以数据样本为包含狗的第一图像并以动物识别模型作为训练好的数据模型为例进行说明，具体地：

S100、得到输出结果，具体地：将第一图像输入已训练好的数据模型即动物识别模型，该动物识别模型从现有技术获取，图动物识别模型往往有多个预设结果，例如，其中一个预设结果为猫、其中一个预设结果为牛、其中一个预设结果为马、其中一个预设结果为猪、其中一个预设结果为鸭、其中一个预设结果为狗、其中一个预设结果为鸡、其中一个预设结果为鸡、其中一个预设结果为鹅、其中一个预设结果为狮子、其中一个预设结果为老虎、其中一个预设结果为大象等，那么：

将第一图像输入动物识别模型中，得到的输出结果为每个预设结果的概率，例如，预设结果为猫的概率为0.01%，预设结果为牛的概率为0.001%，预设结果为狗的概率为99%，……，得到每个预设结果的概率。

在实际应用中，将数据样本输入已训练好的数据模型后，得到的输出结果为包括每个预设结果的概率的数组，然后将最大概率对应的预设结果判定为识别结果。

S110、计算信息熵，具体地：按照从大到小的顺序将所有预设结果的概率进行排列，得到第一序列，选取第一序列中的前

个概率计算所述任一数据样本的信息熵，具体计算过程参见S10；

S120、得到归一化后的信息熵：并对所述任一数据样本的信息熵进行归一化，得到所述任一数据样本的归一化后的信息熵；具体计算过程参见S11；

S130、重复执行S100至S110，得到多个数据样本的归一化后的信息熵；

S140、选取训练样本，具体地：按照从大到小顺序排列将所有归一化后的信息熵进行排列，得到第二序列，从所述第二序列选取前

个归一化后的信息熵，将所述前

个归一化后的信息熵对应的数据样本均作为训练样本，并基于选取的所有训练样本进行模型训练。挑选出能够对模型训练起到的较大效果的数据样本作为训练样本，然后再进行新模型的训练，既保证新训练出的模型的精度，还能降低标注成本。

在上述各实施例中，虽然对步骤进行了编号S1、S2等，但只是本申请给出的具体实施例，本领域的技术人员可根据实际情况调整S1、S2等的执行顺序，此也在本发明的保护范围内，可以理解，在一些实施例中，可以包含如上述各实施方式中的部分或全部。

如图2所示，本发明实施例的一种训练样本的选取系统200，包括计算模块210和选取模块220，所述计算模块210用于：将任一数据样本输入已训练好的数据模型中，得到输出结果，所述输出结果包括：所述已训练好的数据模型对应的每个预设结果的概率，所有预设结果的概率之和等于1，按照从大到小的顺序将所有预设结果的概率进行排列，得到第一序列，选取并根据所述第一序列中的前

所述选取模块220用于：按照从大到小顺序排列将所有归一化后的信息熵进行排列，得到第二序列，从所述第二序列选取前

个归一化后的信息熵，将所述前

和

均为正整数。

较优地，在上述技术方案中，所述计算模块210还具体用于：

利用第一公式计算所述任一数据样本的信息熵

，所述第一公式为

，其中，

表示所述任一数据样本的第

个预设类别的概率，

为正整数且

，

。

较优地，在上述技术方案中，所述计算模块210还具体用于：

，所述第二公式为：

，其中，

。

上述关于本发明的一种训练样本的选取系统200中的各参数和各个单元模块实现相应功能的步骤，可参考上文中关于一种训练样本的选取方法的实施例中的各参数和步骤，在此不做赘述。

本发明实施例的一种存储介质，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行上述任一项所述的一种训练样本的选取方法。

本发明实施例的一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序，所述处理器执行所述程序时实现上述任一实施的一种训练样本的选取方法的步骤。

其中，电子设备可以选用电脑、手机等，相对应地，其程序为电脑软件或手机APP等，且上述关于本发明的一种电子设备中的各参数和步骤，可参考上文中一种训练样本的选取方法的实施例中的各参数和步骤，在此不做赘述。

所属技术领域的技术人员知道，本发明可以实现为系统、方法或计算机程序产品。

因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件（包括固件、驻留软件、微代码等），还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM),只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种训练样本的选取方法，其特征在于，包括：

个归一化后的信息熵，将所述前

和

均为正整数。

2.根据权利要求1所述的一种训练样本的选取方法，其特征在于，所述根据所述第一序列中的前

个概率计算所述任一数据样本的信息熵，包括：

利用第一公式计算所述任一数据样本的信息熵

，所述第一公式为

，其中，

表示所述任一数据样本的第

个预设类别的概率，

为正整数且

，

。

3.根据权利要求2所述的一种训练样本的选取方法，其特征在于，所述对所述任一数据样本的信息熵进行归一化，得到所述任一数据样本的归一化后的信息熵，包括：

，所述第二公式为：

，其中，

。

4.根据权利要求1至3任一项所述的一种训练样本的选取方法，其特征在于，数据样本为图像、视频或声频。

5.一种训练样本的选取系统，其特征在于，包括计算模块和选取模块，所述计算模块用于：将任一数据样本输入已训练好的数据模型中，得到输出结果，所述输出结果包括：所述已训练好的数据模型对应的每个预设结果的概率，所有预设结果的概率之和等于1，按照从大到小的顺序将所有预设结果的概率进行排列，得到第一序列，选取并根据所述第一序列中的前