CN110059743B

CN110059743B - 确定预测的可靠性度量的方法、设备和存储介质

Info

Publication number: CN110059743B
Application number: CN201910300704.3A
Authority: CN
Inventors: 何希僖
Original assignee: Beijing Vistel Technology Co ltd
Current assignee: Beijing Vistel Technology Co ltd
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2021-10-29
Anticipated expiration: 2039-04-15
Also published as: CN110059743A

Abstract

本公开的实施例涉及用于确定预测的可靠性度量的方法、设备和存储介质。该方法包括：获取与针对目标预测结果的多个置信度取值区间相对应的准确度，多个置信度取值区间是基于与目标预测结果相关联的置信度集而被确定，置信度集是基于将预定的参考样本集应用于一个或多个预测模型中的预测模型获得的；获取目标预测结果相关联的目标置信度，目标置信度是基于将目标数据应用于一个或多个预测模型中的预测模型获得的；获取与目标置信度所在的置信度取值区间相对应的准确度；以及基于准确度确定针对目标预测结果的可靠性度量。基于这样的方式，可以确定更为准确的可靠性度量。

Description

确定预测的可靠性度量的方法、设备和存储介质

技术领域

本公开的实施例涉及计算机领域，并且更具体地，涉及确定预测的可靠性度量的方法、设备和存储介质。

背景技术

随着计算机技术的发展，诸如深度神经网络等预测模型越来越多地被应用于图像识别、语音识别和目标检测等任务中。在利用模型进行预测的过程中，预测模型还可以为所生成的预测标签确定对应的置信度。然而，不同的模型的置信度生成机制不同，预测模型所生成的置信度的值难以准确地反映预测模型对于预测标签的可靠性。因而，如何准确地反映预测模型对于预测标签的可靠性成为当前的一个关注焦点。

发明内容

本公开的实施例提供一种用于确定预测的可靠性度量的方案。

根据本公开的第一方面，提出了一种用于确定预测的可靠性度量的方法。该方法包括：获取与针对目标预测结果的多个置信度取值区间相对应的准确度，多个置信度取值区间是基于与目标预测结果相关联的置信度集而被确定，置信度集是基于将预定的参考样本集应用于一个或多个预测模型中的预测模型获得的；获取目标预测结果相关联的目标置信度，目标置信度是基于将目标数据应用于一个或多个预测模型中的预测模型获得的；获取与目标置信度所在的置信度取值区间相对应的准确度；以及基于准确度确定针对目标预测结果的可靠性度量。

根据本公开的第二方面，提出了一种用于确定预测的可靠性度量的设备。该设备包括：至少一个处理单元；至少一个存储器，该至少一个存储器被耦合到该至少一个处理单元并且存储用于由该至少一个处理单元执行的指令，该指令当由该至少一个处理单元执行时，使得该设备执行动作，该动作包括：获取与针对目标预测结果的多个置信度取值区间相对应的准确度，多个置信度取值区间是基于与目标预测结果相关联的置信度集而被确定，置信度集是基于将预定的参考样本集应用于一个或多个预测模型中的预测模型获得的；获取目标预测结果相关联的目标置信度，目标置信度是基于将目标数据应用于一个或多个预测模型中的预测模型获得的；获取与目标置信度所在的置信度取值区间相对应的准确度；以及基于准确度确定针对目标预测结果的可靠性度量。

在本公开的第三方面，提供了一种计算机可读存储介质。该计算机可读存储介质具有存储在其上的计算机可读程序指令，所述计算机可读程序指令用于执行根据第一方面所描述的方法。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或必要特征，也无意限制本公开的范围。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施例中，相同的参考标号通常代表相同部件。

图1图示了本公开实施例可以在其中执行的环境的示意图；

图2图示了根据本公开实施例的确定预测的可靠性度量的过程的流程图；

图3图示了根据本公开实施例的确定与置信度取值区间对应的准确度的过程的流程图；

图4图示了根据本公开实施例的示例置信度区间分布的示意图；以及

图5图示了可以用来实施本公开内容的实施例的示例设备的示意性框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其它明确的和隐含的定义。

如上文所描述的，随着人工智能技术的不断发展，诸如神经网络、决策树、支持向量机SVM等预测模型越来越多地被应用于图像识别、语音识别和目标检测等任务中。人们越来越依赖于预测模型对模型输入数据的预测结果，尤其是在医疗诊断、金融投资、商业及公共决策等关键领域，预测结果的可靠性及稳定性尤为重要。

此外，在多标签分类的预测模型中，同一预测模型所输出的不同标签的置信度得分彼此可能不具备可比性。传统技术通过简单地选择具有较高置信度得分的标签作为最终标签的方式容易导致预测标签不准确。同时，不同预测模型生成置信度得分的机制也可能不同，两个不同的预测模型所生成的置信度得分彼此可能不具备可比性或者参照性。这使得在利用多个模型对于同一样本进行预测时，难以进行预测标签的有效筛选。因此，人们越来越关注如何能够更为准确地反映预测模型对于预测标签的可靠性。

根据本公开的实施例，提供了一种确定预测的可靠性度量的方案。在该方案中，首先获取与针对目标预测结果的多个置信度取值区间相对应的准确度，其中多个置信度取值区间是基于与目标预测结果相关联的置信度集而被确定，并且置信度集是基于将预定的参考样本集应用于一个或多个预测模型中的预测模型获得的。随后，获取目标预测结果相关联的目标置信度，其中目标置信度是基于将目标数据应用于一个或多个预测模型中的预测模型获得的。随后，可以基于目标置信度来获取与目标置信度所在的置信度取值区间相对应的准确度，并且基于准确度来确定针对目标预测结果的可靠性度量。基于这样的方式，本公开的方案通过获取参考样本集中不同置信度取值所对应的真实准确度，可以确定更为准确的可靠性度量以指示预测模型对于预测结果的可靠性。

以下将参照附图来具体描述本公开的实施例。图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。如图1所示，该示例环境100包括计算设备170，其可以用于实施本公开中的多种实现中的确定预测的不确定度量。计算设备170可以接收目标置信度150和置信度区间分布130，从而确定与目标置信度150所对应的可靠性度量180，其中置信度区间分布130可以指示与目标预测结果160的多个置信度取值区间相对应的准确度。

在一些实施例中，如图1所示，置信度区间分布130可以是基于利用预测模型120来处理参考样本集110所获得的。应当理解，图1中所述的二维图表只是指示置信度区间分布130的一个示例，可以采用其它任何合适的形式来指示置信度区间分布130。

在一些实施例中，参考样本集110可以被构造以接近于预定的分布，其中预定的分布可以是基于对与预测模型120相对应的场景的多次采样而被确定。例如，在利用预测模型来处理疾病图片以判断是否发生疾病的场景中，可以通过在门诊采集不同的疾病图片的样本，并且使得样本中存在疾病的概率接近客观的分布概率，其中客观的分布概率可以是通过对大量人群进行调研所确定的，或者可以是基于已有的权威报道或论文而确定的。附加地，所确定的预定的分布还可以使得参考样本集110中样本的特征形态分布也可以接近于与预测模型120相对应的场景，例如，疾病图片中病变出现的不同位置、不同程度、不同数目等。

应当理解，可以使用与计算设备170相同或者不同的计算设备来运行预测模型120以处理参考样本集110，从而获得针对参考样本集110中不同样本的与目标预测结果(也被称为目标预测标签)相关联的置信度。例如，预测模型120可以是用于确定是否存在特定疾病的二分类模型，其输出的预测结果只有“是”与“否”。在一些实施例中，预测模型120也可以是对输入图片进行分类的多标签预测模型，例如，其可以确定输入图片分类标签为“猫”的置信度，同时确定输入图片分类标签为“狗”的另一置信度。应当理解，诸如决策树、神经网络等预测模型具有不同的确定置信度的方法，本公开的实施例不旨在对预测模型如何确定置信度的过程进行任何限定。在本公开的实施例中，所产生的置信度区间分布130是针对同一目标预测结果160的，并且可以为不同的目标预测结果(预测标签)确定不同的置信度区间分布。下文将参照各个实施例详细阐述置信度区间分布130的生成过程。

如图1所示，目标置信度150是基于利用预测模型120来处理目标数据140所获得的针对目标预测结果160的置信度。应当理解，可以使用与计算设备170相同或者不同的计算设备来运行预测模型120以处理目标数据140，从而获得针对目标数据140的与目标预测结果160相关联的目标置信度150。

预测模型120是能够从已有数据中学习到一定的知识和能力用于处理新数据的模型。预测模型120可以被设计用于执行各种任务，诸如图像分类、目标检测、语音识别、机器翻译、内容过滤等等。预测模型120的示例包括但不限于各类深度神经网络(DNN)、卷积神经网络(CNN)、支持向量机(SVM)、决策树、随机森林模型等等。在本公开的实现中，预测模型也可以被称为“机器学习模型”。在下文中，术语“预测模型”、“神经网络”、“学习模型”、“学习网络”、“模型”和“网络”可替换地使用。

应当理解，图1示出的预测模型的架构以及其中的处理层和处理单元的数目均是示意性的，而非是限制性的。在不同的应用中，根据需要，预测模型可以被设计为具有其它适当的架构和/或适当的处理层数，每个处理层可以具有适当数目的处理单元。

下文将参考图2至图4来更详细描述用于分析数据的过程。图2示出了根据本公开的一些实施例的用于确定预测的可靠性度量的过程200的流程图。过程200可以由图1的计算设备170来实现。为了方便讨论，将结合图1来描述过程200。

在框210，计算设备170获取与针对目标预测结果160的多个置信度取值区间相对应的准确度，其中多个置信度取值区间是基于与目标预测结果160相关联的置信度集而被确定，其中置信度集是基于将预定的参考样本集110应用于一个或多个预测模型中的预测模型120获得的。

在一些实施例中，如上文所述，可以利用与计算设备170来执行预测模型120以处理参考样本集110，从而获得与目标结果150相关联的置信度集，从而确定与多个置信度取值区间相对应的准确度。备选地，计算设备170也可以从另一计算设备处接收与多个置信度取值区间相对应的准确度。备选地，计算设备170还可以直接从存储设备中读取与多个置信度取值区间相对应的准确度。

如上文所描述的，参考样本集110可以被构造以接近于预定的分布。例如，在利用预测模型120对样本进行分类的场景中，可以构造参考样本集110以使得参考样本集110中正负样本的比例接近于预测模型120相对应的场景中的客观占比。应当理解，当参考样本集110中的样本分布越接近与客观分布时，计算设备170所获得的与置信度取值区间相对应的准确度也能够更为准确地反映计算设备170的目标预测结果160可靠性。

在一些实施例中，可以基于与目标预测结果160相关联的置信度集中的最大值与最小值来确定多个置信度取值区间。具体地，可以预先设定置信度取值区间的预定数目，并基于最大值、最小值以及该预定数目来确定每个置信度取值区间的范围。例如，当置信度集中最大值为0.8、最小值为0，并且预定数目为4个时，可以设置多个信度取值区间分别为[0,0.2]、(0.2,0.4]、(0.4,0.6]以及(0.6,0.8]。

在一些备选实施例中，可以为每个置信度取值区间设置预定的大小，并基于置信度集中取值的分布来确定多个置信度取值区间。例如，可以设置每个取值区间大小为0.4，则当置信度集中最大值为0.8、最小值为0时，可以设置多个置信度取值区间分别为[0,0.4]和(0.4,0.8]。

在另一备选实施例中，还可以为每个置信度取值区间设置预定的样本数目，并基于置信度集中取值从小到大的顺序选择预定数目的样本，从而确定每个置信度取值区间的范围。例如，当参考样本集110中存在100个样本时，可以设定每个置信度取值区间与20个样本相对应，从而可以根据置信度取值从小到大的排序依次选择20个样本，从而确定每个区间对应的范围。应当理解，在这样的处理过程中，可以通过调整每个区间的上限值或者下限值以使得对应的置信度取值区间连续。

为了能够体现特定置信度取值区间所对应的预测准确度，在本公开的一些实施例中，准确度可以指示在置信度取值区间内目标预测结果正确的样本的占比。例如，准确度可以是取值为[0，1]区间内的标准值。备选地，准确度也可以指示在置信度取值区间内预测结果正确的样本与预测结果错误的样本的占比。

以下将结合图3来描述根据本公开实施例的确定与多个置信度取值区间相对应的准确度的方法300的过程。应当理解，方法300可以由图1中的计算设备170或其它计算设备来实施。为了方便描述，以下将以由计算设备170执行为示例来描述方法300。

在框310，计算设备170确定参考样本集110中与多个置信度取值区间中的第一区间相关联的参考样本子集。例如，当确定了多个置信度取值区间的范围后，对于其中的第一区间(例如，(0,0.2])，计算设备170可以确定参考样本集110中与目标预测结果(例如，分类“猫”)相关联的置信度落入在该区间范围内的样本的数目。

在框320，计算设备170确定参考样本子集中目标预测结果准确的样本的第一数目。在一些实施例中，继续之前的示例，在确定参考样本子集后，计算设备170可以获取与参考样本子集中各样本相对应的原始标签，并且可以基于将目标预测结果与原始标签进行比较来确定参考样本子集中目标预测结果160准确的样本的数目，例如，计算设备170可以确定样本的真实分类为“猫”的数目。在一些实施例中，参考样本集110中的样本可以是已知真实分类的样本的集合，例如：通过人工标注所处理过的标准样本，或者开源的可下载的训练样本等。

在框330，计算设备170基于第一数目和参考样本子集中样本的第二数目，确定与第一区间相对应的准确度。在一些实施例中，计算设备170可以计算第一数目与第二数目的比值以作为与第一区间相对应的准确度。例如，当共有100个样本的分类“猫”的置信度位于置信度取值区间(0,0.2]内，并且在该100个样本中有10个样本的真实分类为“猫”，则此时，与置信度取值区间(0,0.2]相对应的准确度可以被确定为10/100＝0.1。

基于以上的方式，计算设备170可以确定与多个置信度取值区间相对应的准确度，考虑到参考样本集110已经接近与预定的分布，因此每个置信度取值区间所对应的准确度也能够准确地反映目标预测结果160的置信度在该区间内时的有多大可能性是准确的。图4示出了根据本公开实施例的示例置信度区间分布的示意图400。如图4所示，置信度取值区间130可以被组织为二维图表400的形式，以指示每个置信度取值区间所对应的准确度。应当理解，图4中的二维图表400只是指示置信度区间分布130的一个示例，可以采用其它任何合适的形式来指示置信度区间分布130。

在一些实施例中，计算设备170或者用于执行确定准确度的另一计算设备还可以调整与多个置信度取值区间相对应的准确度，以使得与多个置信度取值区间中第一区间相对应的第一准确度小于或等于与多个置信度取值区间中第二区间相对应的第二准确度，其中第一区间的上限小于或等于第二区间的下限。以图4作为示例，为了方便描述，以计算设备170作为示例，当与第一区间(例如，区间(0,X1])对应的第一准确度Y1的值大于与第二区间(例如，区间(X1,X2])对应的第二准确度Y2时，计算设备170可以调整第二准确度Y2的值，以使得Y2的取值不小于Y1的取值。通过这样的方式，可以保证随着置信度越大，准确度的取值会增大或保持不变，从而使得这样的置信度分布130更为贴合真实的情况。

具体地，针对多个置信度取值区间中连续的第三区间和第四区间，其中第三区间的上限小于或等于第四区间的下限：响应于与第三区间对应的第三准确度大于与第四区间对应的第四准确度，计算设备170可以将第四准确度的值修改为第三准确度的值。继续以上的示例，当区间(0,X1]的准确度Y1大于区间(X1,X2]的准确度Y2时，计算设备170可以将Y2的值更新为Y1的取值，以使得随着置信度越大时准确度的取值不会降低。

继续参考图2，在框220，计算设备170获取基于利用一个或多个预测模型中的预测模型120处理目标数据140所获得的针对目标预测结果160的目标置信度150。在一些实施例中，可以使用计算设备170来运行预测模型120以处理目标数据140，从而获得针对目标数据140的与目标预测结果160相关联的目标置信度150。在一些备选实施例中，计算设备170也可以从另一计算设备处接收与目标预测结果160相关联的目标置信度150。在另一备选实施例中，计算设备170还可以直接从存储设备中读取与目标预测结果160相关联的目标置信度150。例如，目标数据140可以是待分类的图片，目标预测结果160可以是图片的分类标签“猫”，目标置信度可以是与分类标签“猫”相对应的置信度取值0.4。

在框230，计算设备170获取与目标置信度150所在的置信度取值区间相对应的准确度。具体地，以图4作为示例，当置信度取值为0.4时，计算设备170首先可以从多个置信度取值区间中确定与0.4所对应的置信度取值区间(例如，区间(X1,X2])，并基于置信度分布130确定与区间(X1,X2]对应的准确度Y2。

在框240，计算设备170基于准确度确定针对目标预测结果160的可靠性度量180。在一些实施例中，当获取与目标置信度150相对应的准确度Y2后，计算设备170可以将可靠性度量180的取值确定为准确度Y2的取值。备选地，计算设备170还可以将可靠性度量180的取值确定为准确度Y2的标准化表示。例如，当准确度Y2指示的是区间内正样本与负样本的占比时，计算设备170可以确定与占比相对应的归一化表示。

基于以上的方式，计算设备170可以基于参考样本集而确定与预测模型输出的目标预测结果相对应的可靠性度量。与由预测模型生成的置信度相比，根据本公开各个实施例所确定的可靠性度量可以解决不同模型的置信度生成算法所得到的置信度彼此不具备可比性的问题。由于本公开各个实施例中的可靠性度量是基于参考样本的分布而被确定，因此其能够更为准确地体现预测模型对于目标预测结果的可靠性程度，从而能够提高预测模型所获得预测结果的准确程度；同时，作为一种标准化的度量，根据本公开各个实施例的可靠性度量也能够便于用户更为快捷地确定预测结果的可靠性程度。

附加地，计算设备170还可以基于获得与不同预测标签相对应的可靠性度量来确定与目标数据对应的输出标签。在一些实施例中，计算设备170可以选择可靠性度量值大于特定的阈值的一个或多个标签作为最终的输出标签。备选地，计算设备170还可以选择排名前K位的可靠性度量值的K个标签作为最终的输出标签，其中K大于或等于1。通过这样的方式，计算设备170可以获得更为准确的预测结果。

附加地，计算设备170还可以将参考样本集110应用于与预测模型120不同的另一预测模型。例如，预测模型120可以是用于预测目标数据140的标签为“猫”或“狗”，而另一预测模型可以用于预测目标数据140的标签为“动物”或“人”。传统的方案无法对比两个不同模型所生成的不同置信度，基于本公开所描述的方案，由于可靠性度量已经在不同的预测模型之间进行标准化表示，因此不同模型所生成的可靠性度量彼此具有可比性，从而解决了在模型预测场景下不同可靠性度量的可比性问题。在一些实施例中，计算设备170可以基于不同模型生成的与不同预测标签相对应的可靠性度量来确定与目标数据对应的输出标签。备选地，计算设备170可以选择可靠性度量值大于特定的阈值的一个或多个标签作为最终的输出标签。在一些实施例中，计算设备170还可以选择排名前K位的可靠性度量值的K个标签作为最终的输出标签，其中K大于或等于1。通过这样的方式，计算设备170在多模型预测场景中可以获得更为准确的预测结果。

图5示出了可以用来实施本公开内容的实施例的示例设备500的示意性框图。例如，如图1所示的计算设备170可以由设备500来实施。如图所示，设备500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的计算机程序指令或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序指令，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其它设备交换信息/数据。

上文所描述的各个过程和处理，例如方法200和/或方法300，可由处理单元501执行。例如，在一些实施例中，方法200和/或方法300可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序被加载到RAM 503并由CPU 501执行时，可以执行上文描述的方法200和/或方法300的一个或多个动作。

本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是^――但不限于^――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其它自由传播的电磁波、通过波导或其它传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其它设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施方式，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施方式。在不偏离所说明的各实施方式的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施方式的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施方式。

Claims

1.一种确定图像分类预测的可靠性度量的方法，包括：

获取与针对目标预测结果的多个置信度取值区间相对应的准确度，所述多个置信度取值区间是基于与所述目标预测结果相关联的置信度集而被确定，所述置信度集是基于将预定的参考样本集应用于一个或多个预测模型中的预测模型获得的，所述参考样本集包括多个图像样本，且所述参考样本集被构建为使得所述多个图像样本的分类分布和特征形态分布接近于与所述预测模型相对应的场景；

获取所述目标预测结果相关联的目标置信度，所述目标置信度是基于将目标数据应用于一个或多个预测模型中的预测模型获得的，所述目标数据是待分类的图像；

获取与所述目标置信度所在的所述置信度取值区间相对应的所述准确度；以及

基于所述准确度确定针对所述目标预测结果的可靠性度量。

2.根据权利要求1所述的方法，其中与所述多个置信度取值区间相对应所述准确度基于以下过程被确定：

确定所述参考样本集中与所述多个置信度取值区间中的第一区间相关联的参考样本子集；

确定所述参考样本子集中所述目标预测结果准确的样本的第一数目；以及

基于所述第一数目和所述参考样本子集中样本的第二数目，确定与所述第一区间相对应的准确度。

3.根据权利要求1所述的方法，其中与所述多个置信度取值区间相对应所述准确度基于以下过程被确定：

调整与所述多个置信度取值区间相对应的所述准确度，以使得与所述多个置信度取值区间中的第一区间相对应的第一准确度小于或等于与所述多个置信度取值区间中的第二区间相对应的第二准确度，其中所述第一区间的上限小于或等于所述第二区间的下限。

4.根据权利要求1所述的方法，其中与所述多个置信度取值区间相对应所述准确度基于以下过程被确定：

针对所述多个置信度取值区间中连续的第三区间和第四区间，其中第三区间的上限小于或等于所述第四区间的下限：

响应于与所述第三区间对应的第三准确度大于与所述第四区间对应的第四准确度，将所述第四准确度的值修改为所述第三准确度的值。

5.根据权利要求1所述的方法，其中基于所述准确度确定针对所述目标预测结果的所述可靠性度量包括：

将所述可靠性度量的值确定为所述准确度的值。

6.根据权利要求1所述的方法，其中所述准确度指示在所述置信度取值区间内所述目标预测结果正确的样本的占比。

7.一种用于确定图像分类预测的可靠性度量的设备，包括：

至少一个处理单元；

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述设备执行动作，所述动作包括：

基于所述准确度确定针对所述目标预测结果的可靠性度量。

8.根据权利要求7所述的设备，其中与所述多个置信度取值区间相对应所述准确度基于以下过程被确定：

9.根据权利要求7所述的设备，其中与所述多个置信度取值区间相对应所述准确度基于以下过程被确定：

10.根据权利要求7所述的设备，其中与所述多个置信度取值区间相对应所述准确度基于以下过程被确定：

11.根据权利要求7所述的设备，其中基于所述准确度确定针对所述目标预测结果的所述可靠性度量包括：

将所述可靠性度量的值确定为所述准确度的值。

12.根据权利要求7所述的设备，其中所述准确度指示在所述置信度取值区间内所述目标预测结果正确的样本的占比。

13.一种计算机可读存储介质，具有存储在其上的计算机可读程序指令，所述计算机可读程序指令用于执行根据权利要求1-6中任一项所述的方法。