CN113989559A

CN113989559A - 分类模型的概率阈值的确定方法、装置、设备及存储介质

Info

Publication number: CN113989559A
Application number: CN202111264033.3A
Authority: CN
Inventors: 罗彤; 郭彦东; 李亚乾
Original assignee: Shanghai Jinsheng Communication Technology Co ltd
Current assignee: Shanghai Jinsheng Communication Technology Co ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-01-28

Abstract

本申请涉及一种分类模型的概率阈值的确定方法、装置、设备及存储介质，属于人工智能技术领域。该方法包括：基于分类模型和多个测试数据集，确定多个概率，所述多个概率用于表示所述测试数据集中的多个测试数据属于所述分类模型的第一类别的概率；对于每个概率，以所述概率作为概率阈值，确定所述多个测试数据的预测标签；基于所述多个测试数据的预测标签，确定所述概率阈值对应的准确率和召回率，所述准确率用于反应所述分类模型的误检情况，所述召回率用于反应所述分类模型的漏检情况；基于所述概率阈值对应的准确率和召回率，确定满足条件的目标概率阈值，所述目标概率阈值被作为所述分类模型的概率阈值。本申请提高了分类模型的推理能力。

Description

分类模型的概率阈值的确定方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能技术领域，特别涉及一种分类模型的概率阈值的确定方法、装置、设备及存储介质。

背景技术

随着人工智能技术的发展，通过图像分类模型对图像进行分类变得很普及；而在通过图像分类模型对图像进行分类时，将图像输入图像分类模型中，输出该图像属于多个类别的概率，多个类别为图像分类模型预先设置的多个类别；对于每个类别，若该图像属于该类别的概率大于该类别对应的概率阈值，该类别会作为该图像的标签输出。因此，在通过图像分类模型对图像进行分类之前，需要确定每个类别对应的概率阈值。

相关技术中，使用默认的0.5作为概率阈值；然而训练图像分类模型使用的样本数据可能标注不完全，则在使用图像分类模型对图像进行分类时会出现概率偏高或者偏低的情况，此时使用该默认的阈值会导致漏检或者误检的问题，也即会导致图像分类模型的推理能力较差。

发明内容

本申请实施例提供了一种分类模型的概率阈值的确定方法、装置、设备及存储介质，可以提高分类模型的推理能力。所述技术方案如下：

一方面，提供了一种分类模型的概率阈值的确定方法，所述方法包括：

基于分类模型和多个测试数据集，确定多个概率，所述多个概率用于表示所述测试数据集中的多个测试数据属于所述分类模型的第一类别的概率；

对于每个概率，以所述概率作为概率阈值，确定所述多个测试数据的预测标签；

基于所述多个测试数据的预测标签，确定所述概率阈值对应的准确率和召回率，所述准确率用于反应所述分类模型的误检情况，所述召回率用于反应所述分类模型的漏检情况；

基于所述概率阈值对应的准确率和召回率，确定满足条件的目标概率阈值，所述目标概率阈值被作为所述分类模型的概率阈值。

另一方面，提供了一种分类模型的概率阈值的确定装置，所述装置包括：

第一确定模块，用于基于分类模型和多个测试数据集，确定多个概率，所述多个概率用于表示所述测试数据集中的多个测试数据属于所述分类模型的第一类别的概率；

第二确定模块，用于对于每个概率，以所述概率作为概率阈值，确定所述多个测试数据的预测标签；

第三确定模块，用于基于所述多个测试数据的预测标签，确定所述概率阈值对应的准确率和召回率，所述准确率用于反应所述分类模型的误检情况，所述召回率用于反应所述分类模型的漏检情况；

第四确定模块，用于基于所述概率阈值对应的准确率和召回率，确定满足条件的目标概率阈值，所述目标概率阈值被作为所述分类模型的概率阈值。

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器；所述存储器存储有至少一条程序代码，所述至少一条程序代码用于被所述处理器执行以实现如上述方面所述的分类模型的概率阈值的确定方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有至少一条程序代码，所述至少一条程序代码用于被处理器执行以实现如上述方面所述的分类模型的概率阈值的确定方法。

另一方面，提供了一种计算机程序产品，当所述计算机程序产品中的程序代码由电子设备的处理器执行时，使得所述电子设备能够执行如上述方面所述的分类模型的概率阈值的确定方法。

在本申请实施例中，借助于多个测试数据集，基于分类模型，确定出多个候选的概率阈值，然后基于多个候选的概率阈值，确定出每个概率阈值对应的准确率和召回率，而准确率能够反映分类模型的误检情况，召回率能够反映分类模型的漏检情况，从而提高了基于准确率和召回率，确定出的目标概率阈值的准确率，进而提高了分类模型的推理能力。

附图说明

图1示出了本申请一个示例性实施例示出的实施环境的示意图；

图2示出了本申请一个示例性实施例示出的终端的结构框图；

图3示出了本申请一个示例性实施例示出的服务器的结构框图；

图4示出了本申请一个示例性实施例示出的分类模型的概率阈值的确定方法的流程图；

图5示出了本申请一个示例性实施例示出的分类模型的概率阈值的确定方法的示意图；

图6示出了本申请一个示例性实施例示出的分类模型的概率阈值的确定方法的流程图；

图7示出了本申请一个示例性实施例示出的数据分类方法的流程图；

图8示出了本申请一个示例性实施例示出的分类模型的概率阈值的确定装置的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据，均为经用户授权或者经过各方充分授权的信息和数据。

本申请实施例提供的分类模型的概率阈值的确定方法，应用于电子设备。在一种可能实现方式中，电子设备可提供为终端100，也即由终端100确定分类模型的概率阈值，进而基于该分类模型和该概率阈值，对待分类的目标数据进行分类。其中，终端100可以为手机、平板电脑、计算机或者物联网(Internet Of Things，IOT)设备等。在另一种可能实现方式中，电子设备可提供为服务器200，也即由服务器200确定分类模型的概率阈值，进而基于该分类模型和该概率阈值，对待分类的目标数据进行分类。其中，该服务器200为一台服务器，或者由若干服务器组成的服务器集群，或者是一个云计算服务中心。

在另一种可能的实现方式中，电子设备可提供为终端100和服务器200；请参考图1，其示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境包括终端100和服务器200；终端100和服务器200之间通过无线或有线网络连接。可选地，服务器200用于采用本申请实施例提供的方法，确定分类模型的概率阈值。终端100将待分类的目标数据发送至服务器200，由服务器200基于该分类模型和该概率阈值，对该目标数据进行分类，将分类结果发送至终端100。

需要说明的是，图1中仅以终端100借助于服务器200，对待分类的目标数据进行分类为例进行说明，在另一实施例中，还可以由服务器200将分类模型和概率阈值发送至终端100，由终端100基于分类模型和概率阈值，对目标数据进行分类。

本申请实施例提供的分类模型的概率阈值的确定方法能够应用于任一场景。

第一种场景，目标数据为图像，相应的，分类模型为图像分类模型；则本申请实施例提供的方法能够应用在对图像进行分类的场景中；例如，将图像输入图像分类模型中，输出该图像属于多个第一类别的概率，基于每个第一类别的概率阈值和该图像属于多个第一类别的概率，确定该图像的类别，该类别可以为图像的标签。例如，该类别为猫、狗等，也即图像分类模型用于识别图像中的动物。再如，该类别为文本、人物等，也即图像分类模型用于识别图像的类别。

第二种场景，目标数据为语音信号，相应的，分类模型为语音信号分类模型；则本申请实施例提供的方法能够应用在对语音信号进行分类的场景中；例如，将语音信号输入语音信号分类模型中，输出该语音信号属于多个第一类别的概率，基于每个第一类别的概率阈值和该语音信号属于多个第一类别的概率，确定该语音信号的类别，该类别可以为语音信号的标签。例如，该类别为语音信号对应的对象的年龄等，也即该语音信号分类模型用于识别用户的年龄；再如，该类别为语音信号为控制指令或者语音信号为唤醒指令，也即该语音信号分类模型用于识别语音信号的类别。

在本申请实施例中，提供一种电子设备，该电子设备包括处理器和存储器；该存储器存储有至少一条程序代码，至少一条程序代码用于被处理器执行以实现执行本申请实施例提供的分类模型的概率阈值的确定方法。

在一种可能的实现方式中，电子设备可提供为终端，请参考图2，其示出了本申请一个示例性实施例所提供的终端100的结构示意图。终端100可以是手机、平板电脑、计算机或者IOT设备等具有分类模型的概率阈值的确定等功能的终端。本申请中的终端100可以包括一个或多个如下部件：处理器110、存储器120、显示屏130。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个终端100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行终端100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)、神经网络处理器(Neural-network Processing Unit，NPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏130所需要显示的内容的渲染和绘制；NPU用于实现人工智能(Artificial Intelligence，AI)功能；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选地，该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等；存储数据区可存储根据终端100的使用所创建的数据(比如音频数据、电话本)等。

显示屏130是用于显示用户界面的显示组件。可选的，该显示屏130为具有触控功能的显示屏，通过触控功能，用户可以使用手指、触摸笔等任何适合的物体在显示屏130上进行触控操作。

显示屏130通常设置在终端100的前面板。显示屏130可被设计成为全面屏、曲面屏、异型屏、双面屏或折叠屏。显示屏130还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合等，本实施例对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的终端100的结构并不构成对终端100的限定，终端100可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端100中还包括麦克风、扬声器、射频电路、输入单元、传感器、音频电路、无线保真(Wireless Fidelity，Wi-Fi)模块、电源、蓝牙模块等部件，在此不再赘述。

在另一种可能的实现方式中，电子设备可提供为服务器，请参考图3，其示出了本申请一个示例性实施例所提供的服务器200的结构示意图。该服务器200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)201和一个或一个以上的存储器202，其中，存储器202用于存储可执行指令，处理器201被配置为执行上述可执行指令，以实现上述各个方法实施例提供的分类模型的概率阈值的确定方法。当然，该服务器200还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器200还可以包括其他用于实现设备功能的部件，在此不再赘述。

请参考图4，其示出了本申请一个示例性实施例所提供的分类模型的概率阈值的确定方法的流程图，该方法包括：

步骤401：电子设备获取多个测试数据集。

每个测试数据集包括至少一个测试数据。例如，分类模型为图像分类模型，则多个测试数据集为多个图像测试集，每个图像测试集包括至少一个测试图像。再如，分类模型为语音信号分类模型，则多个测试数据集为多个语音信号测试集，每个语音信号测试集包括至少一个测试语音信号。

每个测试数据标注或者未标注该测试数据所属的第一类别。其中，每个测试数据理论上均应该标注该测试数据所属的第一类别，然而在存在漏标注的情况下，才会先出该测试数据未标注第一类别的情况。另外，该分类模型为多标签分类模型，也即该分类模型预设设置了多个标签，每个标签对应一个第一类别，也即该分类模型对应多个第一类别；而多个测试数据集为多个第一类别的测试数据集，并且，一个第一类别对应一个测试数据集；并且，多个第一类别可以覆盖分类模型的所有类别，也可以覆盖分类模型的部分类别。

步骤402：电子设备基于分类模型和多个测试数据集，确定多个概率，多个概率用于表示测试数据集中的多个测试数据属于该分类模型的第一类别的概率。

在本步骤中，电子设备将多个测试数据集中的每个测试数据输入该分类模型中，输出每个测试数据属于该第一类别的概率。其中，该分类模型为多标签分类模型，也即该分类模型对应多个第一类别；则在本步骤中，对于每个测试数据，电子设备输出该测试数据属于每个第一类别的概率。其中，测试数据相当于样本数据，而测试数据属于每个第一类别的概率相当于测试数据的得分；相应的，请参考图5，电子设备先计算所有样本的得分。其中，多个概率作为候选概率阈值，相当于基于得分找到所有可能的概率阈值。

例如，分类模型为图像分类模型，多个测试数据集为多个图像测试集(以5个图像数据为例)，该第一类别为猫；则5个图像测试数据分别属于猫的概率分别为0.5、0.4、0.6、0.7、0.2。

在本申请实施例中，电子设备基于分类模型确定出的多个测试数据的概率(得分)，来找到所有可能的阈值，取代了人工确定的候选阈值，从而节省了人工的工作量，进而提高了确定概率阈值的效率。并且，这些候选阈值是分类模型确定出来的，这些候选阈值更贴合与实际的阈值，从而提高了确定出的概率阈值的准确性。

由于多个概率中可能存在相同的概率；若多个概率中存在相同的概率，则电子设备执行步骤403之前，先对多个概率进行去重处理，然后执行步骤403；若多个概率中不存在相同的概率，电子设备执行完步骤402之后，直接执行步骤403。在本申请实施例中，由于对相同的概率进行去重处理，从而减少了工作量，提高了效率。

需要说明的一点是，还可以设置概率阈值范围，限定该概率阈值应当在该概率阈值范围内，则电子设备执行步骤403之前，先基于该概率阈值范围，对多个概率进行筛选，删除概率步骤该概率阈值范围内的概率，然后执行步骤403，从而避免出现过于极端的概率阈值，例如避免出现概率阈值为0的情况。

步骤403：电子设备对于每个概率，以该概率为概率阈值，确定多个测试数据的预测标签。

对于每个测试数据，若该测试数据的概率不小于该概率阈值，电子设备确定该测试数据的预测标签为该第一类别；若该测试数据的概率小于该概率阈值，电子设备确定该测试数据的预测标签不是该第一类别。

例如，在步骤402中，电子设备确定出5个图像测试数据属于猫的概率分别为0.5、0.4、0.6、0.7、0.2；则在本步骤中，电子设备先以0.5为概率阈值，确定5个图像测试数据的预测标签分别为：猫、非猫、猫、猫和非猫；电子设备再以0.4为概率阈值，确定5个图像测试数据的预测标签分别为：猫、猫、猫、猫和非猫；电子设备再以0.6为概率阈值，确定5个图像测试数据的预测标签分别为：非猫、非猫、猫、猫和非猫；电子设备再以0.7为概率阈值，确定5个图像测试数据的预测标签分别为非猫、非猫、非猫、猫和非猫；电子设备再以0.2为概率阈值，确定5个图像测试数据的预测标签分别为猫、猫、猫、猫和猫。

步骤404：电子设备基于多个测试数据的预测标签，确定该概率阈值对应的准确率和召回率。

其中，准确率用于反映分类模型的误检情况，召回率用于反映分类模型的漏检情况。本步骤可以通过以下步骤(1)至(2)实现，包括：

(1)电子设备基于多个测试数据的预测标签，确定第一数量、第二数量和第三数量。

其中，第一数量为预测标签和标注标签相同的测试数据的数量，也即第一数量为真阳性的测试数据的数量。第二数量为预测标签和标注标签不同的测试数据的数量，也即第二数量为假阳性的测试数据的数量。第三数量为标注了标注标签但未输出测试标签的测试数据的数量，也即第三数量为假阴性测试数据的数量，

(2)电子设备基于第一数量、第二数量和第三数量，确定该概率阈值对应的准确率和召回率。

准确率与第一数量呈正相关性，与第二数量呈负相关性；召回率与第一数量呈正相关性，与第三数量呈负相关性；相应的，电子设备基于第一数量、第二数量和第三数量，确定该概率阈值对应的准确率和召回率的步骤，包括：电子设备基于第一数量、第二数量和第三数量，通过以下公式一和公式二，确定该概率阈值对应的准确率和召回率：

公式一：Precision＝TP/(TP+TP)

公式二：Recall＝TP/(TP+FN)

其中，Precision和Precision分别表示准确率和召回率；TP、TP和FN分别表示第一数量、第二数量和第三数量。

在另一种实现方式中，电子设备可以将灰度标签纳入考虑，其中，灰度标签是指处于定义边界的标签，分类模型输出该标签时算正确，漏掉该标签时不算错；相应的，电子设备基于第一数量、第二数量和第三数量，确定该概率阈值对应的准确率和召回率的步骤包括：电子设备确定第四数量和第五数量，第四数量为第一测试数据的数量，第一测试数据为样本标签为灰度标签，且属于样本标签的概率大于第一概率阈值的数据，第五数量为第二测试数据的数量，第二测试数据为样本标签为灰度标签，且属于样本标签的概率小于第一概率阈值的数据；确定第一数量和第四数量之和，得到第六数量；确定第二数量与第五数量之差，得到第七数量；基于第六数量、第七数量和第三数量，确定该概率阈值对应的准确率和召回率。

其中，准确率与第六数量呈正相关性，与第七数量呈负相关性；召回率与第六数量呈正相关性，与第三数量呈负相关性。电子设备基于第六数量、第七数量和第三数量，确定该概率阈值对应的准确率和召回率的步骤与电子设备基于第一数量(相当于第六数量)、第二数量(相当于第七数量)和第三数量确定该概率阈值对应的准确率和召回率的过程相同，在此不再赘述。

在本申请实施例中，电子设备将灰度标签也考虑在内，从而减少了概率阈值对应的预期结果与实际结果的差别，从而进一步提高了分类模型的推理能力。

步骤405：电子设备确定第一权重和第二权重，第一权重对应于准确率，第二权重对应于召回率。

电子设备根据准确率和召回率的相对重要性高低，可设置不同的权重，例如对于误检容忍度比较低的类别，可以对准确率设置较高的权重；对于漏检容忍度比较低的类别，可以对召回率设置比较高的权重；相应的，电子设备确定第一权重和第二权重的步骤可以为：电子设备确定该第一类别的容忍参数，该容忍参数用于表示该分类模型对误检的容忍程度；基于该容忍参数，确定第一权重和第二权重；其中，第一权重与容忍参数呈正相关性，第二权重与容忍参数呈负相关性，也即容忍参数越大，第一权重越大，容忍参数越小，第二权重越大。

其中，第一权重和第二权重之和为1或者第一权重和第二权重之和不为1；在本申请实施例中，以第一权重和第二权重之和不为1为例进行说明；并且，在本申请实施例中，电子设备固定第二权重为1，基于容忍参数确定第一权重；相应的，电子设备确定第一权重和第二权重的步骤可以为：电子设备确定该第一类别的容忍参数，基于该容忍参数确定第一权重，第二权重为1。其中，第一权重与容忍参数呈正相关性，也即容忍参数越大，第一权重越大，容忍参数越小，第一权重越小。

步骤406：电子设备基于第一权重和第二权重，对该概率阈值对应的准确率和召回率进行加权求和，得到该概率阈值对应的质量参数。

电子设备基于第一权重和第二权重，通过以下公式三，对该概率阈值对应的准确率和召回率进行加权求和，得到该概率阈值对应的质量参数：

公式三：Score＝w1*Precision+w2*Recall

其中，Score为该概率阈值对应的质量参数，w1和w2分别为第一权重和第二权重，Precision和Recall分别为该概率阈值对应的准确率和召回率。

需要说明的一点是，对于固定第二权重为1的情况，步骤406可以为：电子设备基于第一权重，通过以下公式四，对该概率阈值对应的准确率进行加权后，与召回率进行求和，得到该概率阈值对应的质量参数：

公式四：Score＝w1*Precision+Recall

其中，Score为该概率阈值对应的质量参数，w1为第一权重，Precision和Recall分别为该率阈值对应的准确率和召回率。

在本申请实施例中，通过为准确率和召回率分别设置权重，从而通过权重来衡量准确率和召回率的相对重要性，进而提高了基于权重，对准确率和召回率进行加权求和的方式，确定出的质量参数的准确性。并且，电子设备基于第一类别对误检的容忍程度来确定准确率和召回率分别对应的两个权重，也即基于第一类别的实际需求灵活设定两个权重，满足不同类别的需求。

需要说明的一点是，电子设备还可以对召回率进行校正；相应的，步骤406电子设备基于第一权重和第二权重，对该概率阈值对应的准确率和召回率进行加权求和，得到该概率阈值对应的质量参数的步骤包括：

电子设备确定校正系数，该校正系数用于对召回率进行校正；基于该校正系数对该概率阈值对应的召回率进行校正；基于第一权重和第二权重，对该概率阈值对应的准确率和校正后的召回率进行加权求和，得到该概率阈值对应的质量参数。

校正系数可以为默认的一个数值；也可以基于多个测试数据集确定；若校正系数为基于多个测试数据集确定；例如，继续参见图5，电子设备确定多个测试数据集中是否包括第一类别对应的第一测试数据集；若多个测试数据集中包括第一测试数据集，执行步骤(1)；若多个测试数据集中不包括第一测试数据集，执行步骤(2)；相应的，则电子设备确定校正系数的步骤包括以下步骤(1)和(2)：

(1)若多个测试数据集中包括第一测试数据集，电子设备确定校正系数为第一数值。

第一测试数据集为第一类别对应的测试数据集；第一数值可以根据需要进行设置并更改，在本申请实施例中，对第一数值不作具体限定；例如，第一数值为1或者1.1等，例如，继续参见图5。

(2)若测试数据集中不包括第一测试数据集，电子设备确定第一类别所属的第二类别，确定第二类别对应的第二测试数据集，基于第二测试数据集，确定第二类别包括的多个第一类别的测试数据的数量，基于多个第一类别的测试数据的数量，确定校正系数。

其中，电子设备基于多个第一类别的测试数据的数量，确定校正系数的步骤，包括：电子设备确定多个第一类别的测试数据中，该第一类别的测试数据占多个第一类别的测试数据的比例得到校正系数。例如，第一类别为“布偶猫”，多个测试数据集中没有“布偶猫”对应的测试集，则找到第一类别所属的第二类别(粗类别)为“猫”；并找到所有映射到“猫”的细分类别和测试数据的数量：“布偶猫”10个、“暹罗猫”5个、“加菲猫”5个、“狸花猫”10个，因此“布偶猫”对应的校正系数为(10+5+5+10)/10＝3，并将粗类别“猫”对应的测试数据集作为“布偶猫”的测试数据集使用。在本申请实施例中，即使第一类别没有对应的测试集，也可根据粗类别进行阈值调整，具有广泛的适用性；例如，继续参见图5。

需要说明的一点是，电子设备可以先确定校正系数，在确定准确率对应的第一权重；也可以先确定准确率对应的第一权重，再确定校正系数；在本申请实施例中，对这两个步骤的先后顺序不作具体限定；在图5中以先确定校正系数为例进行说明。

需要说明的另一点是，电子设备确定出校正系数后，可以在确定召回率的过程中基于校正系数进行校准，也即校正和确定召回率可以合并为一个步骤；例如，参见图5。

电子设备确定出该概率阈值对应的质量参数之后，可以仅借助于该质量参数确定目标概率阈值，该过程包括：电子设备确定该概率阈值对应的质量参数是否满足条件，若该概率阈值对应的质量参数满足条件，将该概率阈值确定为目标概率阈值；若该概率阈值对应的质量参数不满足条件，丢弃该概率阈值，重新确定下一个概率阈值对应的质量参数。

需要说明的一点是，若电子设备确定出多个概率阈值对应的质量参数之后，电子设备还可以基于每个概率阈值对应的质量参数，从多个概率阈值中选择质量参数最大的概率阈值，将该概率阈值确定为目标概率阈值。在本申请实施例中，由于仅借助于该质量参数确定目标概率阈值，计算量较小，从而提高了效率。

需要说明的一点是，电子设备还可以设置为准确率、召回率和概率阈值设置其他限定条件；相应的，电子设备确定出每个概率阈值对应的质量参数之后，执行步骤407确定目标概率阈值。

步骤407：电子设备基于该概率阈值对应的质量参数、准确率、召回率和概率阈值，确定满足条件的目标概率阈值。

电子设备确定第一参数阈值、第二参数阈值和概率阈值范围，第一参数阈值对应于准确率，第二参数阈值对应于召回率，概率阈值范围对应于阈值；从多个概率阈值中，确定目标概率阈值，目标概率阈值对应的质量参数最高，且概率阈值的准确率不低于第一参数阈值，概率阈值的召回率不低于第二参数阈值，且概率阈值在概率阈值范围内。

在本申请实施例中，通过设置第一参数阈值，限定准确率不能低于第一参数阈值，从而使得误检率不会超过1-第一参数阈值，从而对误检率进行了限制，避免出现较大误检率的情况。并且，通过设置第二参数阈值，限定召回率不能低于第二参数阈值，从而使得漏检率不会超过1-第二参数阈值，从而避免出现较大漏检率的情况。并且，通过设置概率阈值范围，限定该概率阈值应当在该概率阈值范围内，从而避免出现过于极端的概率阈值，例如避免出现概率阈值为0的情况。

需要说明的一点是，若多个概率阈值中不存在满足以上三个条件的目标概率阈值，则电子设备确定目标概率阈值为默认的概率阈值，从而避免了确定不出概率阈值的情况的发生，通过默认的概率阈值作为兜底的概率阈值，从而确保了分类模型的正常使用。其中，默认的概率阈值可以根据需要进行设置并更改，在本申请实施例中，对默认的概率阈值不作具体限定；例如，默认的概率阈值可以为0.5。

需要说明的另一点是，若多个概率阈值中不存在满足以上三个条件的目标概率阈值，电子设备从多个概率阈值中选择满足以上任意两个条件的目标概率阈值。若多个概率阈值中不存在满足以上任意两个条件的目标概率阈值，则电子设备从多个概率阈值中选择满足以上任意一个条件的目标概率阈值；例如，电子设备基于多个概率阈值对应的质量参数，从多个概率阈值中选择质量参数最大的目标概率阈值。在本申请实施例中，如多个概率阈值中不存在满足以上三个条件的目标概率阈值，则进行降级处理，从而确定出目标概率阈值。在本申请实施例中，可以根据第一类别的实际需求灵活设置限定条件，满足不同类别的需求。

需要说明的一点是，分类模型为多标签分类模型，也即分类模型对应多个第一类别，对于每个第一类别均按照步骤401-407确定该第一类别对应目标概率阈值，从而实现对于每个第一类别，都实现精细化调整，相比所有第一类别对应的概率阈值都是相同的这种粗调方式，本申请实施例能够达到更好的效率。

请参考图6，其示出了本申请一个示例性实施例所提供的分类模型的概率阈值的确定方法的流程图，该方法包括：

步骤601：电子设备获取多个测试数据集。

步骤602：电子设备基于分类模型和多个测试数据集，确定多个概率，多个概率用于表示测试数据集中的多个测试数据属于该分类模型的第一类别的概率。

需要说明的一点是，步骤601和602分别与步骤401和402相同，在此不再赘述。

步骤603：电子设备从多个概率中选择最大的概率。

电子设备将多个概率按照从大到小的顺序进行排序，选择排序在第一位的概率；或者，电子设备将多个概率按照从小到大的顺序进行排序，选择排序在最末尾的概率。

步骤604：电子设备以选择的概率为概率阈值，确定多个测试数据的预测标签。

步骤605：电子设备基于多个测试数据的预测标签，确定该概率阈值对应的准确率和召回率。

步骤606：电子设备确定第一权重和第二权重，第一权重对应于准确率，第二权重对应于召回率。

步骤607：电子设备基于第一权重和第二权重，对该概率阈值对应的准确率和召回率进行加权求和，得到该概率阈值对应的质量参数。

步骤604-607分别与步骤403-406相同，在此不再赘述。

步骤608：电子设备基于该概率阈值对应的质量参数、准确率、召回率和概率阈值，确定该概率阈值是否满足条件。

若该质量参数不低于第三参数阈值，且准确率不低于第一参数阈值，且召回率不低于第二参数阈值，且概率阈值在概率阈值范围内，电子设备确定该概率阈值满足条件，执行步骤609；若该质量参数低于第三参数阈值，或者准确率低于第一参数阈值，或者召回率低于第二参数阈值，或者概率阈值不在概率阈值范围内，电子设备确定该概率阈值不满足条件，执行步骤510。

步骤609：若该概率阈值满足条件，则电子设备将该概率阈值确定为目标概率阈值。

步骤610：若该概率阈值不满足条件，则电子设备从多个概率中删除该概率阈值，重新执行步骤603，直到确定出目标概率阈值为止。

电子设备重新执行步骤603时，从删除该概率阈值后的多个概率中选择概率最大的概率。

在本申请实施例中，电子设备将多个概率按照降序的方式，先将最大的概率作为概率阈值，然后确定该概率阈值对应的准确率和召回率，直到确定出目标概率阈值为止，从而不需要确定所有的概率阈值对应的准确率和召回率，从而减少了计算量，提升了确定目标概率阈值的效率。

请参考图7，其示出了本申请一个示例性实施例所提供的数据分类方法的流程图，该方法包括：

步骤701：电子设备确定待分类的目标数据。

待分类的目标数据可以为待分类的图像或者语音信号；在本申请实施例中，对待分类的目标数据的类型不作具体限定。

步骤702：电子设备将目标数据输入分类模型，输出目标数据属于第一类别的概率。

若目标数据为图像，则分类模型为图像分类模型；若目标数据为语音信号；则分类模型为语音信号分类模型。另外，分类模型为多标签分类模型，则电子设备输出目标数据属于每个第一标签的概率。

步骤703：若概率大于目标概率阈值，电子设备确定目标数据的标签为该第一类别。

若该概率不大于目标概率阈值，电子设备确定目标数据的标签是该第一标签；例如输入该标签为空。目标数据的标签可以为一个，也可以为多个；并且，对于每个第一类别，若目标数据属于该第一类别的概率大于该第一类别对应的目标概率阈值，电子设备确定目标数据的标签为该第一类别。例如，分类模型为图像分类模型，且图像分类模型对应多个第一标签，分别为猫、狗、兔子；而图像中包括一个狗和一个猫，则图像属于猫的概率大于猫对应的目标概率阈值，图像属于狗的概率大于狗对应的目标概率阈值，则电子设备确定该图像的标签为猫和狗。

在本申请实施例中，由于确定出了每个第一类别对应的目标概率阈值，从而基于每个第一类别对应的目标概率阈值，对目标数据进行分类，能够实现对目标数据的精细化分类，提高了分类的准确性。

请参考图8，其示出了本申请一个示例性实施例所提供的分类模型的概率阈值的确定装置的结构框图，该装置包括：

第一确定模块801，用于基于分类模型和多个测试数据集，确定多个概率，多个概率用于表示测试数据集中的多个测试数据属于分类模型的第一类别的概率；

第二确定模块802，用于对于每个概率，以概率作为概率阈值，确定多个测试数据的预测标签；

第三确定模块803，用于基于多个测试数据的预测标签，确定概率阈值对应的准确率和召回率，准确率用于反应分类模型的误检情况，召回率用于反应分类模型的漏检情况；

第四确定模块804，用于基于概率阈值对应的准确率和召回率，确定满足条件的目标概率阈值，目标概率阈值被作为分类模型的概率阈值。

在一种可能的实现方式中，第四确定模块804，包括：

第一确定单元，用于确定第一权重和第二权重，第一权重对应于准确率，第二权重对应于召回率；

加权求和单元，用于基于第一权重和第二权重，对概率阈值对应的准确率和召回率进行加权求和，得到概率阈值对应的质量参数；

第二确定单元，用于基于概率阈值对应的质量参数、准确率、召回率和概率阈值，确定满足条件的目标概率阈值。

在一种可能的实现方式中，第二确定单元，用于确定第一参数阈值、第二参数阈值和概率阈值范围，第一参数阈值对应于准确率，第二参数阈值对应于召回率，概率阈值范围对应于阈值；从多个概率阈值中，确定目标概率阈值，目标概率阈值对应的质量参数最高，且概率阈值的准确率不低于第一参数阈值，概率阈值的召回率不低于第二参数阈值，且概率阈值在概率阈值范围内。

在一种可能的实现方式中，第一确定单元，用于确定第一类别的容忍参数，容忍参数用于表示分类模型对误检的容忍程度；基于容忍参数，确定第一权重和第二权重；其中，第一权重与容忍参数呈正相关性，第二权重与容忍参数呈负相关性。

在一种可能的实现方式中，加权求和单元，用于确定校正系数，校正系数用于对召回率进行校正；基于校正系数对每个概率阈值对应的召回率进行校正；基于第一权重和第二权重，对概率阈值对应的准确率和校正后的召回率进行加权求和，得到概率阈值对应的质量参数。

在一种可能的实现方式中，加权求和单元，用于若多个测试数据集中包括第一测试数据集，确定校正系数为第一数值，第一测试数据集为第一类别对应的测试数据集；若测试数据集中不包括第一测试数据集，确定第一类别所属的第二类别，确定第二类别对应的第二测试数据集，基于第二测试数据集，确定第二类别包括的多个第一类别的测试数据的数量，基于多个第一类别的测试数据的数量，确定校正系数。

在一种可能的实现方式中，第三确定模块803，包括：

第三确定单元，用于基于多个测试数据的预测标签，确定第一数量、第二数量和第三数量，第一数量为预测标签和标注标签相同的测试数据的数量，第二数量为预测标签和标注标签不同的测试数据的数量，第三数量为标注了标注标签但未输出测试标签的测试数据的数量；

第四确定单元，用于基于第一数量、第二数量和第三数量，确定准确率和召回率。

在一种可能的实现方式中，第四确定单元，用于确定第四数量和第五数量，第四数量为第一测试数据的数量，第一测试数据为样本标签为灰度标签，且属于样本标签的概率大于第一概率阈值的数据，第五数量为第二测试数据的数量，第二测试数据为样本标签为灰度标签，且属于样本标签的概率小于第一概率阈值的数据；确定第一数量和第四数量之和，得到第六数量；确定第二数量与第五数量之差，得到第七数量；基于第六数量、第七数量和第三数量，确定准确率和召回率。

在一种可能的实现方式中，第二确定模块802，包括：

选择单元，用于从多个概率中选择最大的概率；

第五确定单元，用于以选择的概率为概率阈值，确定多个测试数据的预测标签；

装置还包括：

第五确定模块，用于若基于多个测试数据的预测标签，确定概率阈值满足条件，将概率阈值确定为目标概率阈值；

删除模块，用于若基于多个测试数据的预测标签，确定概率阈值不满足条件，则从多个概率中删除概率阈值；

选择单元，用于从多个概率中选择最大的概率的步骤，直到确定出目标概率阈值为止。

在一种可能的实现方式中，装置还包括：

第五确定模块，用于确定待分类的目标数据；

分类模块，用于将目标数据输入分类模型，输出目标数据属于第一类别的概率；

第六确定模块，用于若概率大于目标概率阈值，确定目标数据的标签为第一类别。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有至少一条程序代码，该至少一条程序代码用于被处理器执行以实现如上各个实施例示出的分类模型的概率阈值的确定方法。

本申请实施例还提供了一种计算机程序产品，当该计算机程序产品中的程序代码由电子设备的电子设备执行时，使得电子设备能够执行如上各个实施例示出的分类模型的概率阈值的确定方法。

在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行，分布在多个地点且通过通信网络互连的多个电子设备可以组成区块链系统。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个程序代码或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种分类模型的概率阈值的确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述概率阈值对应的准确率和召回率，确定满足条件的目标概率阈值，所述目标概率阈值被作为所述分类模型的概率阈值，包括：

确定第一权重和第二权重，所述第一权重对应于所述准确率，所述第二权重对应于所述召回率；

基于所述第一权重和所述第二权重，对所述概率阈值对应的准确率和召回率进行加权求和，得到所述概率阈值对应的质量参数；

基于所述概率阈值对应的质量参数、准确率、召回率和所述概率阈值，确定满足条件的所述目标概率阈值。

3.根据权利要求2所述的方法，其特征在于，所述基于所述概率阈值对应的质量参数、准确率、召回率和所述概率阈值，确定满足条件的所述目标概率阈值，包括：

确定第一参数阈值、第二参数阈值和概率阈值范围，所述第一参数阈值对应于所述准确率，所述第二参数阈值对应于所述召回率，所述概率阈值范围对应于所述阈值；

从所述多个概率阈值中，确定所述目标概率阈值，所述目标概率阈值对应的质量参数最高，且所述概率阈值的准确率不低于所述第一参数阈值，所述概率阈值的召回率不低于所述第二参数阈值，且所述概率阈值在所述概率阈值范围内。

4.根据权利要求2所述的方法，其特征在于，所述确定第一权重和第二权重，包括：

确定所述第一类别的容忍参数，所述容忍参数用于表示所述分类模型对误检的容忍程度；

基于所述容忍参数，确定所述第一权重和所述第二权重；

其中，所述第一权重与所述容忍参数呈正相关性，所述第二权重与所述容忍参数呈负相关性。

5.根据权利要求2所述的方法，其特征在于，所述基于所述第一权重和所述第二权重，对所述概率阈值对应的准确率和召回率进行加权求和，得到所述概率阈值对应的质量参数，包括：

确定校正系数，所述校正系数用于对召回率进行校正；

基于所述校正系数对所述每个概率阈值对应的召回率进行校正；

基于所述第一权重和所述第二权重，对所述概率阈值对应的准确率和校正后的召回率进行加权求和，得到所述概率阈值对应的质量参数。

6.根据权利要求5所述的方法，其特征在于，所述确定校正系数，包括：

若所述多个测试数据集中包括第一测试数据集，确定所述校正系数为第一数值，所述第一测试数据集为所述第一类别对应的测试数据集；

若所述测试数据集中不包括所述第一测试数据集，确定所述第一类别所属的第二类别，确定所述第二类别对应的第二测试数据集，基于所述第二测试数据集，确定所述第二类别包括的多个第一类别的测试数据的数量，基于所述多个第一类别的测试数据的数量，确定所述校正系数。

7.根据权利要求1所述的方法，其特征在于，所述基于所述多个测试数据的预测标签，确定所述概率阈值对应的准确率和召回率，包括：

基于所述多个测试数据的预测标签，确定第一数量、第二数量和第三数量，所述第一数量为预测标签和标注标签相同的测试数据的数量，所述第二数量为预测标签和标注标签不同的测试数据的数量，所述第三数量为标注了标注标签但未输出测试标签的测试数据的数量；

基于所述第一数量、所述第二数量和所述第三数量，确定所述准确率和所述召回率。

8.根据权利要求7所述的方法，其特征在于，所述基于所述第一数量、所述第二数量和所述第三数量，确定所述准确率和所述召回率，包括：

确定第四数量和第五数量，所述第四数量为第一测试数据的数量，所述第一测试数据为样本标签为灰度标签，且属于所述样本标签的概率大于第一概率阈值的数据，所述第五数量为第二测试数据的数量，所述第二测试数据为样本标签为灰度标签，且属于所述样本标签的概率小于第一概率阈值的数据；

确定所述第一数量和所述第四数量之和，得到第六数量；

确定所述第二数量与所述第五数量之差，得到第七数量；

基于所述第六数量、所述第七数量和所述第三数量，确定所述准确率和所述召回率。

9.根据权利要求1所述的方法，其特征在于，所述对于每个概率，以所述概率作为概率阈值，确定所述多个测试数据的预测标签，包括：

从所述多个概率中选择最大的概率；

以选择的概率为概率阈值，确定所述多个测试数据的预测标签；

所述方法还包括：

若基于所述多个测试数据的预测标签，确定所述概率阈值满足条件，将所述概率阈值确定为所述目标概率阈值；

若基于所述多个测试数据的预测标签，确定所述概率阈值不满足条件，则从所述多个概率中删除所述概率阈值，执行所述从所述多个概率中选择最大的概率的步骤，直到确定出目标概率阈值为止。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定待分类的目标数据；

将所述目标数据输入所述分类模型，输出所述目标数据属于所述第一类别的概率；

若所述概率大于所述目标概率阈值，确定所述目标数据的标签为所述第一类别。

11.一种分类模型的概率阈值的确定装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，所述电子设备包括处理器和存储器；所述存储器存储有至少一条程序代码，所述至少一条程序代码用于被所述处理器执行以实现如权利要求1至10任一所述的分类模型的概率阈值的确定方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有至少一条程序代码，所述至少一条程序代码用于被处理器执行以实现如权利要求1至10任一所述的分类模型的概率阈值的确定方法。