CN112330512A

CN112330512A - 知识蒸馏学习模型的预测方法、系统、设备及存储介质

Info

Publication number: CN112330512A
Application number: CN202011357030.XA
Authority: CN
Inventors: 魏旭; 刘方然
Original assignee: Xinhua Zhiyun Technology Co ltd
Current assignee: Xinhua Fusion Media Technology Development Beijing Co ltd; Xinhua Zhiyun Technology Co ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-02-05

Abstract

本发明提供知识蒸馏学习模型的预测方法、系统、设备及存储介质，其中，预测方法包括：获取待检测样本；将待检测样本输入至学生模型，以得到学生模型输出的第一预测结果和第一置信度；判断第一置信度是否高于一置信度阈值；若是，将第一预测结果输出，并退出执行；若否，将待检测样本输入至教师模型中，以得到教师模型输出的第二预测结果和第二置信度，并判断第一置信度是否低于第二置信度；若是，将第二预测结果输出，并退出执行；若否，将第一预测结果输出，并退出执行。本发明的有益效果在于：实现了当学生模型不符合用户需求时，获取更高的置信度对应的预测结果作为最终预测结果，进而提高教师‑学生模型的预测准确度。

Description

知识蒸馏学习模型的预测方法、系统、设备及存储介质

技术领域

本发明涉及模型预测技术领域，尤其是涉及一种知识蒸馏学习模型的预测方法、系统、设备及存储介质。

背景技术

知识蒸馏是一种模型压缩常见方法，在教师-学生模型中，将复杂、学习能力强的教师模型(teacher model)学到的特征表示“知识”蒸馏出来，传递给参数量小、学习能力弱的学生模型(student model)。即通过知识蒸馏可以将精度高的教师模型的知识传递给预测速度很快的学生模型，可以保持教师-学生模型预测的精度的同时提高学生模型预测的速度。

然而由于物体预测的知识蒸馏中样本数量通常较大，而样本质量却参差不及，诸如样本中可能包括脏样本或过难样本，因此学生模型通常无法继承教师模型的全部知识，也就是说学生模型通常无法达到教师模型的精度，模型和任务之间的差异会导致该精度损失，并且教师-学生模型的预测速度完全取决于学生模型的结构，教师-学生模型的预测精度完全取决于学生模型对于教师模型知识的学习能力，因此现有技术中的教师-学生模型无法解决学生模型不符合用户需求时的问题，从而降低教师-学生模型在物体预测时的预测准确度，并且现有技术中的教师-学生模型缺乏对于预测速度和预测精度的动态调节，进而导致教师-学生模型在物体预测时的预测效果不佳。

发明内容

本发明针对现有技术中的缺点，提供了一种旨在提高教师-学生模型的预测准确度，动态调节教师-学生模型预测速度和预测精度的知识蒸馏学习模型的预测方法、系统、设备及存储介质。

一种知识蒸馏学习模型的预测方法，其中，通过知识蒸馏向已训练好的教师模型学习，以得到学生模型，预测方法具体包括以下步骤：

获取待检测样本；

将待检测样本输入至学生模型，以得到学生模型输出的第一预测结果和第一置信度；

判断第一置信度是否高于一置信度阈值；

若是，将第一预测结果输出，并退出执行；

若否，将待检测样本输入至教师模型中，以得到教师模型输出的第二预测结果和第二置信度，并判断第一置信度是否低于第二置信度；

若是，将第二预测结果输出，并退出执行；

若否，将第一预测结果输出，并退出执行。

优选的，知识蒸馏学习模型的预测方法，其中，置信度阈值的设置方法具体包括以下步骤：

获取测评样本集，测评样本集包括多个测评样本；

设置多个测评阈值；

将测评样本集分别输入至学生模型和教师模型中，学生模型和教师模型根据设置的测评阈值输出对应于测评阈值的预测参数，预测参数包括预测精度和预测速度；

选择最佳的预测参数对应的测评阈值作为置信度阈值。

优选的，知识蒸馏学习模型的预测方法，其中，测评阈值与预测精度之间为正相关的关系，测评阈值与预测速度之间为负相关的关系。

优选的，知识蒸馏学习模型的预测方法，其中，获取第一置信度具体包括以下步骤：

获取学生模型根据第一预测结果输出的第一logits矩阵；

对第一logits矩阵进行softmax计算，以得到概率分布矩阵，概率分布矩阵用于表征第一置信度。

优选的，知识蒸馏学习模型的预测方法，其中，获取第二置信度具体包括以下步骤：

获取教师模型根据第二预测结果输出的第二logits矩阵；

对第二logits矩阵进行softmax计算，以得到概率分布矩阵，概率分布矩阵用于表征第二置信度。

优选的，知识蒸馏学习模型的预测方法，其中，置信度阈值为0.95。

还包括一种知识蒸馏学习模型的预测系统，其中，通过知识蒸馏向已训练好的教师模型学习，以得到学生模型，预测系统具体包括：

样本获取模型，用于获取待检测样本；

第一置信度获取模块，用于将待检测样本输入至学生模型，以得到学生模型输出的第一预测结果和第一置信度；

第二置信度获取模块，用于将待检测样本输入至教师模型中，以得到教师模型输出的第二预测结果和第二置信度；

判断模块，用于判断第一置信度是否高于一置信度阈值；

于第一置信度高于置信度阈值时，将第一预测结果输出，并退出执行；

于第一置信度未高于置信度阈值时，执行第二第二置信度获取模块，判断第一置信度是否低于第二置信度；

于第一置信度低于第二置信度时，将第二预测结果输出，并退出执行；

于第一置信度未低于第二置信度时，将第一预测结果输出，并退出执行。

优选的，知识蒸馏学习模型的预测系统，其中，判断模块包括置信度阈值设置单元，置信度阈值设置单元包括：

测评样本集获取组件，用于获取测评样本集，测评样本集包括多个测评样本；

测评阈值设置组件，用于设置多个测评阈值；

测评组件，用于将测评样本集分别输入至学生模型和教师模型中，学生模型和教师模型根据设置的测评阈值输出对应于测评阈值的预测参数，预测参数包括预测精度和预测速度；

选择组件，用于选择最佳的预测参数对应的测评阈值作为置信度阈值。

还包括一种电子设备，其中，包括：处理器和存储装置；

存储装置上存储有计算机程序，计算机程序在被处理器运行时执行如任一项的知识蒸馏学习模型的预测方法。

还包括一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其中，计算机程序被处理器运行时执行上述任一项的知识蒸馏学习模型的预测方法的步骤。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

通过对第一置信度和置信度阈值的比较，获取高于置信度阈值的第一置信度对应的第一预测结果作为最终预测结果，并且将低于置信度阈值的第一置信度与第二置信度进行比较，并获取更高的置信度对应的预测结果作为最终预测结果，从而实现当学生模型不符合用户需求时，获取更高的置信度对应的预测结果作为最终预测结果，进而提高教师-学生模型的预测准确度；

通过设置置信度阈值，从而动态调节预测精度和预测速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明知识蒸馏学习模型的预测方法的实施例的流程图；

图2为本发明知识蒸馏学习模型的预测系统的实施例的原理框图；

图3为本发明知识蒸馏学习模型的预测系统的实施例的置信度阈值设置单元的原理框图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

一种知识蒸馏学习模型的预测方法，通过知识蒸馏向已训练好的教师模型学习，以得到学生模型，预测方法具体包括以下步骤，如图1所示：

获取待检测样本；

判断第一置信度是否高于一置信度阈值；

若是，将第一预测结果输出，并退出执行；

若是，将第二预测结果输出，并退出执行；

若否，将第一预测结果输出，并退出执行。

在上述实施例中，通过获取学生模型输出的第一预测结果的第一置信度，可以确定待检测样本对学生模型的参数影响，从而可以准确衡量学生模型对教师模型的拟合程度。

需要说明的是，学生模型是通过知识蒸馏向已训练好的教师模型进行学习得到的，因此一个学习充分的学生模型会有一个对教师模型拟合度非常高的模型输出结果，该模型输出结果用于表征学生模型对任务目标的拟合能力，其中，任务目标包括待检测样本和拟合教师模型，在上述实施例中该模型输出结果为第一预测结果和第一置信度。

在上述实施例中，通过获取学生模型输出的第一置信度和教师模型输出的第二置信度，并且先判断第一置信度是否高度预先设置的置信度阈值，来判断学生模型对于教师模型知识的掌握能力。因此，当第一置信度低于置信度阈值时，说明学生模型输出的第一预测结果不符合用户需求，即学生模型输出的第一预测结果不够准确，因此后续需要判断第一置信度是否高于第二置信度，从而输出学生模型和教师模型中更高置信度对应的预测结果，进而实现了当学生模型不符合用户需求时，获取更高的置信度对应的预测结果作为最终预测结果，进而提高教师-学生模型的预测准确度。

在上述实施例中，通过对学生模型输出的第一置信度和教师模型输出的第二置信度的比较，能进一步提高预测准确度；

当第一置信度低于第二置信度时，说明针对待检测样本的教师模型的预测能力高于学生模型的预测能力，因此将第二预测结果作为最终预测结果进行输出；

需要说明的是，因为蒸馏学习得比较充分，这类案例(第一置信度低于第二置信度)所占的比例会非常少，所以不会大幅度增加预测时间。

当第一置信度高于第二置信度时，说明针对待检测样本的教师模型的预测能力低于学生模型的预测能力，因此将第一预测结果作为最终预测结果进行输出。

需要说明的是，当第一置信度高于第二置信度时，表示针对待检测样本，教师模型也没有完全掌握，所以此时应当选择置信度高(置信度越高表示对原始数据学习的更好)的学生模型输出的第一预测结果作为最终预测结果，能进一步补足教师模型在某方面(某方面指待检测样本所在的知识领域)知识学习能力不足的问题。

在上述实施例中，通过设置置信度阈值，并且将第一置信度和置信度阈值进行比较，从而动态调节预测精度和预测速度。

作为优选的实施方式，首先获取待检测样本；

随后，可以将待检测样本输入到学生模型中，以得到学生模型输出的第一预测结果和与第一预测结果对应的第一置信度；

接着，判断第一置信度是否高于预先设置好的置信度阈值；

当第一置信度高于置信度阈值时，则确定学生模型符合用户需求，因此将第一预测结果作为最终预测结果进行输出；

当第一置信度低于置信度阈值时，则确定学生模型不符合用户需求，因此需要继续判断学生模型和教师模型中的哪一个更符合用户需求；

然后，将待检测样本输入至教师模型中，以得到教师模型输出的第二预测结果和第二置信度；

再接着，判断第一置信度是否低于第二置信度；

当第一置信度低于第二置信度时，说明教师模型更符合用户需求，因此将第二预测结果作为最终预测结果进行输出；

当第一置信度高于第二置信度时，说明学生模型更符合用户需求，因此将第一预测结果作为最终预测结果进行输出。

在上述优选的实施方式中，当第一置信度低于置信度阈值时，则确定学生模型不符合用户需求，因此需要继续判断学生模型和教师模型中的哪一个更符合用户需求，随后将待检测样本输入至教师模型中，以得到教师模型输出的第二预测结果和第二置信度；然后判断第一置信度是否低于第二置信度。从而优化步骤，减少不必要的教师模型的预测时间(如果比较第一置信度与置信度阈值之前就得到第二置信度的话，会增加不必要的教师模型的预测步骤，进而增加不必要的教师模型的预测时间)，进而提高预测速度，而模型预测速度在模型预测中是一个很重要的指标。

进一步地，在上述实施例中，置信度阈值的设置方法具体包括以下步骤：

获取测评样本集，测评样本集包括多个测评样本；

设置多个测评阈值；

选择最佳的预测参数对应的测评阈值作为置信度阈值。

在上述实施例中，可以同时将测评样本集分别输入至学生模型和教师模型中，也可以顺序将测评样本集分别输入至学生模型和教师模型中。

作为优选的实施方式，选取部分未参与模型训练的数据集作为测评样本集。然后设定不同的测评阈值(从0-1按间隔设置)，将测评样本集中的每个测评样本按照预测模式输入到学生模型和教师模型中，可以得到在不同测评阈值下学生模型和教师模型之间的预测精度，以及该预测精度下的学生模型的预测比例和教师模型的预测比例，以及学生模型和教师模型的预测速度，如下表1所示。然后选取符合需求的预测精度和预测速度所对应的置信度阈值。

表1

在上表1中，设置了多个测评阈值(0,0.3,0.5,0.8,0.9,0.95,0.98,1)，并且得到不同测评阈值下教师-学生模型之间的预测精度，以及该预测精度下的学生模型的预测比例和教师模型的预测比例，以及教师-学生模型之间的预测速度，并选择选取符合需求的预测精度和预测速度所对应的预测阈值，此处选择的预测阈值为0.95，并将0.95作为置信度阈值。

进一步地，在上述实施例中，如上表1所示，当测评阈值越高时，预测精度也越高，预测速度越低；

当测评阈值越低时，预测精度也越低，预测速度越高；

因此，测评阈值与预测精度之间为正相关的关系，测评阈值与预测速度之间为负相关的关系。

进一步地，在上述实施例中，获取第一置信度具体包括以下步骤：

获取学生模型根据第一预测结果输出的第一logits矩阵；

在上述实施例中，第一预测结果用于表征的是学生模型对任务目标的拟合能力，通常表示为logits，是学生模型最后一层的输出矩阵。对logits进行softmax计算后，使得logits转化为概率分布矩阵，概率分布矩阵用于表征的是学生模型对于各类标签学习的第一置信度。

进一步地，在上述实施例中，获取第二置信度具体包括以下步骤：

获取教师模型根据第二预测结果输出的第二logits矩阵；

在上述实施例中，第一预测结果用于表征的是教师模型对任务目标的拟合能力，通常表示为logits，是教师模型最后一层的输出矩阵。对logits进行softmax计算后，使得logits转化为概率分布矩阵，概率分布矩阵用于表征的是教师模型对于各类标签学习的第一置信度。

还包括一种知识蒸馏学习模型的预测系统，通过知识蒸馏向已训练好的教师模型学习，以得到学生模型，如图2所示，预测系统具体包括：

样本获取模型1，用于获取待检测样本；

第一置信度获取模块21，用于将待检测样本输入至学生模型，以得到学生模型输出的第一预测结果和第一置信度；

第二置信度获取模块22，用于将待检测样本输入至教师模型中，以得到教师模型输出的第二预测结果和第二置信度；

判断模块3，用于判断第一置信度是否高于一置信度阈值；

进一步地，在上述实施例中，判断模块3包括置信度阈值设置单元31，如图3所示，置信度阈值设置单元31包括：

测评样本集获取组件311，用于获取测评样本集，测评样本集包括多个测评样本；

测评阈值设置组件312，用于设置多个测评阈值；

测评组件313，用于将测评样本集分别输入至学生模型和教师模型中，学生模型和教师模型根据设置的测评阈值输出对应于测评阈值的预测参数，预测参数包括预测精度和预测速度；

选择组件314，用于选择最佳的预测参数对应的测评阈值作为置信度阈值。

本发明一种知识蒸馏学习模型的预测系统的具体实施方式与上述一种知识蒸馏学习模型的预测方法各实施例基本相同，在此不再赘述。

还包括一种电子设备，包括：处理器和存储装置；

存储装置上存储有计算机程序，计算机程序在被处理器运行时执行上述任一项的知识蒸馏学习模型的预测方法。

还包括一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述任一项的知识蒸馏学习模型的预测方法的步骤。

本发明实施例所提供电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的知识蒸馏学习模型的预测方法，具体实现可参见方法实施例，在此不再赘述。

此外，需要说明的是，本说明书中所描述的具体实施例，其零、部件的形状、所取名称等可以不同。凡依本发明专利构思的构造、特征及原理所做的等效或简单变化，均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种知识蒸馏学习模型的预测方法，其特征在于，通过知识蒸馏向已训练好的教师模型学习，以得到学生模型，所述预测方法具体包括以下步骤：

获取待检测样本；

将所述待检测样本输入至所述学生模型，以得到所述学生模型输出的第一预测结果和第一置信度；

判断所述第一置信度是否高于一置信度阈值；

若是，将所述第一预测结果输出，并退出执行；

若否，将所述待检测样本输入至所述教师模型中，以得到所述教师模型输出的第二预测结果和第二置信度，并判断所述第一置信度是否低于所述第二置信度；

若是，将所述第二预测结果输出，并退出执行；

若否，将所述第一预测结果输出，并退出执行。

2.如权利要求1所述的知识蒸馏学习模型的预测方法，其特征在于，所述置信度阈值的设置方法具体包括以下步骤：

获取测评样本集，所述测评样本集包括多个测评样本；

设置多个测评阈值；

将所述测评样本集分别输入至所述学生模型和所述教师模型中，所述学生模型和所述教师模型根据设置的所述测评阈值输出对应于所述测评阈值的预测参数，所述预测参数包括预测精度和预测速度；

选择最佳的所述预测参数对应的所述测评阈值作为所述置信度阈值。

3.如权利要求2所述的知识蒸馏学习模型的预测方法，其特征在于，所述测评阈值与所述预测精度之间为正相关的关系，所述测评阈值与所述预测速度之间为负相关的关系。

4.如权利要求1所述的知识蒸馏学习模型的预测方法，其特征在于，获取所述第一置信度具体包括以下步骤：

获取所述学生模型根据所述第一预测结果输出的第一logits矩阵；

对所述第一logits矩阵进行softmax计算，以得到概率分布矩阵，所述概率分布矩阵用于表征所述第一置信度。

5.如权利要求1所述的知识蒸馏学习模型的预测方法，其特征在于，获取所述第二置信度具体包括以下步骤：

获取所述教师模型根据所述第二预测结果输出的第二logits矩阵；

对所述第二logits矩阵进行softmax计算，以得到概率分布矩阵，所述概率分布矩阵用于表征所述第二置信度。

6.如权利要求2所述的知识蒸馏学习模型的预测方法，其特征在于，所述置信度阈值为0.95。

7.一种知识蒸馏学习模型的预测系统，其特征在于，通过知识蒸馏向已训练好的教师模型学习，以得到学生模型，所述预测系统具体包括：

样本获取模型，用于获取待检测样本；

第一置信度获取模块，用于将所述待检测样本输入至所述学生模型，以得到所述学生模型输出的第一预测结果和第一置信度；

第二置信度获取模块，用于将所述待检测样本输入至所述教师模型中，以得到所述教师模型输出的第二预测结果和第二置信度；

判断模块，用于判断所述第一置信度是否高于一置信度阈值；

于第一置信度高于所述置信度阈值时，将所述第一预测结果输出，并退出执行；

于第一置信度未高于所述置信度阈值时，执行所述第二置信度获取模块，判断所述第一置信度是否低于所述第二置信度；

于所述第一置信度低于所述第二置信度时，将所述第二预测结果输出，并退出执行；

于所述第一置信度未低于所述第二置信度时，将所述第一预测结果输出，并退出执行。

8.如权利要求7所述的知识蒸馏学习模型的预测系统，其特征在于，所述判断模块包括置信度阈值设置单元，所述置信度阈值设置单元包括：

测评样本集获取组件，用于获取测评样本集，所述测评样本集包括多个测评样本；

测评阈值设置组件，用于设置多个测评阈值；

测评组件，用于将所述测评样本集分别输入至所述学生模型和所述教师模型中，所述学生模型和所述教师模型根据设置的所述测评阈值输出对应于所述测评阈值的预测参数，所述预测参数包括预测精度和预测速度；

选择组件，用于选择最佳的所述预测参数对应的所述测评阈值作为所述置信度阈值。

9.一种电子设备，其特征在于，包括：处理器和存储装置；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至6任一项所述的知识蒸馏学习模型的预测方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至6任一项所述的知识蒸馏学习模型的预测方法的步骤。