CN116629087A

CN116629087A - 模型的预测置信度评估方法及装置、设备、存储介质

Info

Publication number: CN116629087A
Application number: CN202210116760.3A
Authority: CN
Inventors: 邓澍军; 陈懿
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2022-02-07
Filing date: 2022-02-07
Publication date: 2023-08-22
Also published as: WO2023147781A1

Abstract

本公开提供一种模型的预测置信度评估方法及装置、设备、存储介质。方法包括：获取所述模型的预测结果，所述预测结果基于所述模型对预测对象中第一元素在第二元素上表现预定行为的概率进行预测得到；基于所述模型对所述第一元素的第一预测置信度和对所述第二元素的第二预测置信度计算所述预测结果的预测置信度。根据本公开，能够实现准确地评估模型在每次预测中的置信度，从而准确地表现模型在不同场景中的预测能力。

Description

模型的预测置信度评估方法及装置、设备、存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种模型的预测置信度评估方法及装置、设备、存储介质。

背景技术

机器学习技术中，模型的预测能力强弱通常采用AUC(Area Under Curve)、F1-Score(F1分数)等指标进行评价。但这些指标的值是基于大量已观测到的历史数据进行的整体评估结果，只能体现模型在一个历史数据上的整体表现。而整体评估表现好的模型并不一定在每一个用户和每一个场景都表现一致，不同场景中的预测表现并不能通过上述指标所反映出来。因此，现有技术中的评估方式只能反映整体预测水平，而无法准确地反映模型在不同场景中的预测水平。

发明内容

本公开提出一种模型的预测置信度评估方法及装置、设备、存储介质，以在一定程度上准确地表现模型在不同场景中预测能力。

本公开第一方面，提供了一种模型的预测置信度评估方法，包括：

获取所述模型的预测结果，所述预测结果基于所述模型对预测对象中第一元素在第二元素上表现预定行为的概率进行预测得到；

基于所述模型对所述第一元素的第一预测置信度和对所述第二元素的第二预测置信度计算所述预测结果的预测置信度。

本公开第二方面，提供了一种模型的预测置信度评估装置，包括：

获取模块，用于获取所述模型的预测结果，所述预测结果基于所述模型对预测对象中第一元素在第二元素上表现预定行为的概率进行预测得到；

评估模块，用于基于所述模型对所述第一元素的第一预测置信度和对所述第二元素的第二预测置信度计算所述预测结果的预测置信度。

本公开第三方面，提供了一种电子设备，其特征在于，包括一个或者多个处理器、存储器；和一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被所述一个或多个处理器执行，所述程序包括用于执行根据第一方面所述的方法的指令。

本公开第四方面，提供了一种包含计算机程序的非易失性计算机可读存储介质，当所述计算机程序被一个或多个处理器执行时，使得所述处理器执行第一方面所述的方法。

本公开第五方面，提供了一种计算机程序产品，包括计算机程序指令，当所述计算机程序指令在计算机上运行时，使得计算机执行第一方面所述的方法。

从上面所述可以看出，本公开提供的一种模型的预测置信度评估方法及装置、设备、存储介质，基于模型对预测对象中涉及的各个元素的历史预测置信度，评估模型对该预测对象的当前预测结果的置信度，能够实现准确地评估模型在每次预测中的置信度，从而准确地表现模型在不同场景中的预测能力。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例的模型的预测置信度评估架构的示意图。

图2为本公开实施例的示例性终端的硬件结构示意图。

图3为本公开实施例的置信度预测模型的原理性示意图。

图4为本公开实施例的置信度预测模型的原理性示意图。

图5为本公开实施例的预测模型的置信度评估方法的流程示意图。

图6为本公开实施例的预测模型的置信度评估装置的示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

随着机器学习技术的发展，越来越多的场合基于机器学习的模型进行事件的预测。例如，计算广告中的点击率及转化率预估，在线教育中的题目作答正确率的预估等。为了反映模型的预测水平，一般采用AUC、F1-Score等指标对模型的预测水平进行评估。这些指标的计算通常基于大量已经观测到的历史数据对模型的预测水平进行评估。

然而，现在往往存在大量场景需要对模型的每一次预测表现进行评估，当面对新的数据和新的场景时，基于历史数据的预测水平评估结果的可迁移性往往不能保证。也就是说，在对新的对象进行预测时，该模型的预测水平是否可以采用历史数据所计算的评估结果作为参考是无法保证的。例如，模型A基于历史预测数据计算的AUC值为B，即表示模型A在历史预测中的整体预测水平为B。而模型A对新对象C进行预测时，整体预测水平B是否能反映模型A对新对象C的预测准确性是无法保证的。这是因为整体评估表现好的模型并不一定在每一个用户和每一个场景都表现一致。由于不同对象历史数据的丰富程度以及模型设计等因素的影响，模型的单次预测的置信度也往往存在较大的差异。一些简单的动态置信度评估方式可以是动态统计汇总。例如以广告点击为例，可以统计历史上同一个用户被正确和错误预测的次数以及同一个广告历史上被正确或错误预测的次数。然后根据当前用户和广告历史模型预测的表现来对这次预测水平进行判断。然而，这样的动态统计汇总的方式存在着量尺不统一以及利用方式不明确等问题。因此，如何准确地评估模型在每次预测中的置信度，准确地表现模型在不同场景中的预测能力成为了亟需解决的技术问题。

此外，以AUC这类指标来评估模型的预测准确性的传统评估方式往往不具备实时性，而且评估成本较高。例如机器学习中的分类问题，通常需要利用大量的历史数据对模型进行训练调参，然后评估模型的预测水平。这样的评估过程往往代价大，无法实现模型的动态更新。

而且，上述模型的传统评估方式的可拓展性不足且反馈有限。例如，AUC本身只能体现模型在一个历史数据上的整体表现，并不能给出改善优化时应该关注的方向，即不能直接体现预测涉及到的每一个元素的预测表现如何。预测对象可能包括多个元素，例如，一个用户在一个题目上的作答，则预测涉及到的元素包括用户和题目；一个用户在一个广告上的点击，则预测涉及到的元素包括用户和广告。由于历史数据和模型设计的原因，在某些元素上的预测表现可能会显著的低于平均水平，此时AUC这类指标很难直接聚焦到这些元素上，无法为模型的优化提供方向。

鉴于此，本公开实施例提供了一种模型的预测置信度评估方法及装置、设备、存储介质。基于模型对预测对象中的各个元素的预测置信度，评估模型对该当前预测结果的置信度，能够实现准确地评估模型在每次预测中的置信度，从而准确地表现模型在不同场景中的预测能力。此外，还可以反映出模型对预测对象中不同元素的置信度水平差异，为优化模型提供了分析和改善的方向。

图1示出了本公开实施例的模型的预测置信度评估架构的示意图。参考图1，该模型的预测置信度评估架构100可以包括服务器110、终端120以及提供通信链路的网络130。服务器110和终端120之间可通过有线或无线的网络130连接。其中，服务器110可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

终端120可以是硬件或软件实现。例如，终端120为硬件实现时，可以是具有显示屏并且支持页面显示的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。终端120设备为软件实现时，可以安装在上述所列举的电子设备中；其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块，在此不做具体限定。

需要说明的是，本申请实施例所提供的模型的预测置信度评估方法可以由终端120来执行，也可以由服务器110来执行。应了解，图1中的终端、网络和服务器的数目仅为示意，并不旨在对其进行限制。根据实现需要，可以具有任意数目的终端、网络和服务器。

图2示出了本公开实施例所提供的示例性终端200的硬件结构示意图。如图2所示，终端200可以包括：处理器202、存储器204、网络模块206、外围接口208和总线210。其中，处理器202、存储器204、网络模块206和外围接口208通过总线210实现彼此之间在终端设备200的内部的通信连接。

处理器202可以是中央处理器(Central Processing Unit，CPU)、图像处理器、神经网络处理器(NPU)、微控制器(MCU)、可编程逻辑器件、数字信号处理器(DSP)、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路。处理器202可以用于执行与本公开描述的技术相关的功能。在一些实施例中，处理器202还可以包括集成为单一逻辑组件的多个处理器。例如，如图2所示，处理器202可以包括多个处理器202a、202b和202c。

存储器204可以配置为存储数据(例如，指令、计算机代码等)。如图2所示，存储器204存储的数据可以包括程序指令(例如，用于实现本公开实施例的模型的预测置信度评估方法的程序指令)以及要处理的数据(例如，存储器可以存储其他模块的配置文件等)。处理器202也可以访问存储器204存储的程序指令和数据，并且执行程序指令以对要处理的数据进行操作。存储器204可以包括易失性存储装置或非易失性存储装置。在一些实施例中，存储器204可以包括随机访问存储器(RAM)、只读存储器(ROM)、光盘、磁盘、硬盘、固态硬盘(SSD)、闪存、存储棒等。

网络模块206可以配置为经由网络向终端200提供与其他外部设备的通信。该网络可以是能够传输和接收数据的任何有线或无线的网络。例如，该网络可以是有线网络、本地无线网络(例如，蓝牙、WiFi、近场通信(NFC)等)、蜂窝网络、因特网、或上述的组合。可以理解的是，网络的类型不限于上述具体示例。在一些实施例中，网络模块106可以包括任意数量的网络接口控制器(NIC)、射频模块、接收发器、调制解调器、路由器、网关、适配器、蜂窝网络芯片等的任意组合。

外围接口208可以配置为将终端设备200与一个或多个外围装置连接，以实现信息输入及输出。例如，外围装置可以包括键盘、鼠标、触摸板、触摸屏、麦克风、各类传感器等输入设备以及显示器、扬声器、振动器、指示灯等输出设备。

总线210可以被配置为在终端200的各个组件(例如处理器202、存储器204、网络模块206和外围接口208)之间传输信息，诸如内部总线(例如，处理器-存储器总线)、外部总线(USB端口、PCI-E总线)等。

需要说明的是，尽管上述终端200的架构仅示出了处理器202、存储器204、网络模块206、外围接口208和总线210，但是在具体实施过程中，该终端设备200的架构还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述终端200的架构中也可以仅包含实现本公开实施例方案所必需的组件，而不必包含图中所示的全部组件。

模型可以对预测对象进行预测，得到相应的预测结果。预测对象可以指第一元素即供体在第二元素即受体上的观测。可以基于项目反应理论(Item response theory，IRT)来描述预测对象中供体和受体之间的关系。例如，一个用户(供体)在一个题目(受体)上的作答，一个用户(供体)在一个广告(受体)上的点击，一个主场球队(供体)和一个客场球队(受体)的比赛结果等。据此，模型的预测置信度可以是指模型能够对供体在受体上的观测值预测成功的置信度。例如，模型D能够预测用户E(供体)在题目F(受体)上是否能回答正确，如果模型D输出的预测结果G为回答正确，说明本次预测中模型D认为用户E能够答对题目F，则模型D本次预测的预测置信度是指该预测结果G为真值(预测结果与实际发生的结果一致时为真值)的置信度；如果模型D输出的预测结果H为回答错误，说明本次预测中模型D认为用户E不能够答对题目F，则模型D本次预测的预测置信度是指该预测结果H为真值的置信度。

那么，模型K的预测置信度就可以采用基于IRT理论的置信度预测模型M来进行评估。该置信度预测模型M的预测目标可以包括：

y_ij＝I(I(p_ij≥n)＝x_ij)， (1)

其中，y_ij表示的是模型K能够预测成功，p_ij表示的是模型K预测的第i个供体在第j个受体上表现预定行为的概率，x_ij∈{0,1}表示的是实际观测的第i个供体在第j个受体上是否表现预定行为的结果，n为模型K的预设阈值；函数I(x)表示当x为真时为I(x)＝1，当x为假时为I(x)＝0。具体来说，以用户答题为例，模型K用来预测用户i对题目j的回答正确还是错误，n设置为0.5，则当模型K预测用户i对题目j回答正确的概率p_ij≥0.5时，输出结果I(p_ij≥0.5)即回答正确；此时，实际观测用户i对题目j确实回答正确，x_ij＝1则p_ij≥0.5为真值，I(p_ij≥0.5)＝1。进一步地，y_ij＝I(I(p_ij≥n)＝x_ij)＝1，表示置信度预测模型M认为模型K的本次预测结果预测成功。

可见，模型K对供体在受体上表现预定行为的预测是否成功取决于模型L对供体的预测置信度和对受体的预测置信度。只有模型K对预测对象中涉及的供体和受体都有较高的预测置信度时，模型K才有比较大的概率对当前预测给出正确的预测结果。因此，置信度预测模型M可以表示为：

p(y_ij＝1|θ_i，β_j)＝Φ(θ_i+β_j)， (2)

其中，θ_i表示模型K对供体i的预测置信度(可以记为第一预测置信度)，β_j表示模型K对受体j的预测置信度(可以记为第二预测置信度)，p(y_ij＝1|θ_i，β_j)表示模型K的预测置信度，即模型K能够预测成功的概率。Φ(θ_i+β_j)可以表示关于θ_i+β_j的正态分布的累积分布函数。如图3所示，图3示出了根据本公开实施例的置信度预测模型的原理性示意图。图3中，供体i∈供体集合I，受体j∈受体集合J，模型K能够预测成功y_ij＝1需要供体i和受体j两方面置信度共同提高来实现。由此可见，区别于传统的AUC这类指标进行评估时无法预测涉及到的每一个元素(例如供体i和受体j)的预测表现，根据本公开实施例的置信度预测模型M可以明确且准确地体现预测对象中模型K对每个元素的预测表现，从而实现正确且高效地反馈，为改善优化模型提供准确的方向。

置信度预测模型M中，第一预测置信度θ_i和第二预测置信度β_j可以服从正态分布(θ_i～N(μ_θ，σ_θ ²)，β_j～N(μ_β，σ_β ²))。其中，μ_θ为第一预测置信度的期望，可以记为第一期望；σ_θ ²为第一预测置信度的方差，可以记为第一方差。μ_β为第二预测置信度的期望，可以记为第二期望；σ_β ²为第二预测置信度的方差，可以记为第二方差。那么，随着模型K不断地进行预测，可以基于模型K的这些历史预测数据，即历史预测中在不同供体和不同受体上的预测结果，对模型K的当前预测结果中的第一预测置信度θ_i和第二预测置信度β_j进行动态估计，从而实时更新模型K在不同供体和不同受体上的预测置信度，即更新置信度预测模型M中θ_i和β_j的值。这样，相比于传统评估方式中无法实现实时评估，本公开实施例的置信度预测模型M中的第一预测置信度θ_i和第二预测置信度β_j在每次预测后即可实时进行更新，实时且有效地反映模型K的预测水平，有利于提供模型K的预测置信度的评估效率和准确性。

在一些实施例中，动态估计可以采用在线贝叶斯估计或其近似算法。应了解，还可以采用其他能够进行在线参数估计的算法，在此不做限制。

具体地，对置信度预测模型M中的第一预测置信度θ_i和第二预测置信度β_j进行动态估计可以包括：设置每个供体和受体的初始值，例如：供体i的第一预测置信度θ_i分布的初始值为μ_θ＝0，σ_θ ²＝1；受体j的第二预测置信度β_j分布的初始值为μ_β＝0，σ_β ²＝1。

对第m次预测(对应供体i和受体j)的参数更新中，可以包括如下中间变量：

其中，v(m)，x*(m)，Ω₀，Ω₁，δ_θi，δ_βj为中间变量。μ_θi(m)表示第m次预测中第一预测置信度的期望；σ_θi ² _(m)表示第m次预测中第一预测置信度的方差；μ_βj(m)表示第m次预测中第二预测置信度的期望；σ_βj ² _(m)表示第m次预测中第二预测置信度的方差；m为自然数。

在一些实施例中，对于第一预测置信度θ_i的更新，可以包括：

当模型K的第m次预测成功时，

当模型K的第m次预测不成功时，

其中，k为方差下限。μ_θi(m+1)表示第m+1次预测中第一预测置信度的期望，σ_θi ² _(m+1)表示第m+1次预测中第一预测置信度的方差。相应地，在一些实施例中，对于第二预测置信度β_j的更新，可以包括：

当模型K的第m次预测成功时，

当模型K的第m次预测不成功时，

其中，μ_βj(m+1)表示第m+1次预测中第二预测置信度的期望，σ_βj ² _(m+1)表示第m+1次预测中第二预测置信度的方差。

可见，每当模型K预测完之后，可以通过观测预测对象的真实值来对置信度预测模型M中的第一预测置信度θ_i和第二预测置信度β_j进行更新，得到模型K对供体和受体的最新预测置信度，可以分别记为供体最新预测置信度和受体最新预测置信度。

在模型K进行一个新的预测时，可以基于置信度预测模型M对新的预测结果进行评估。具体来说，可以基于供体最新预测置信度和受体最新预测置信度来评估新的预测结果的置信度，例如：受体a和供体b分别为用户a和题目b，模型K对用户a在题目b是否回答正确输出了预测结果c，那么可以利用置信度预测模型M基于历史预测数据所得到的模型K对用户a的最新预测置信度θ_a和模型K对题目b的最新预测置信度β_b，来对本次预测的预测结果c进行置信度评估，即本次预测的预测结果c正确的概率p(y_ab＝1|θ_a，β_b)＝Φ(θ_a+β_b)。

其中，p(y_ab＝1|θ_a，β_b)的值在0-1之间，数值越靠近1表明模型K本次预测成功的概率更大，即模型K的预测置信度更高，模型K的本次预测大概率可能会预测正确；反之，数值越靠近0表明模型K本次预测成功的概率更小，即模型K的预测置信度更低，模型K的本次预测大概率可能会预测错误。

在实际应用中，模型K往往需要进行版本迭代或针对不同的场景进行结构过参数的调整，例如对模型K添加新特征，微调模型参数，扩展模型结构等。将前一版本的模型记为K_前，将当前使用的版本的模型记为K_现。这样，前一版本的模型K_前的预测置信度p_前与当前使用的版本的模型K_现的预测置信度p_现之间的可比性不大，那么前一版本的模型K_前所累计的历史预测数据无法有效地对当前使用的模型K_现的预测置信度评估做出贡献。两个版本模型之间的差异越大，说明前一版本的模型K_前所累计的历史预测数据的迁移性可能越差。为了有效地利用前一版本的模型K_前所累计的历史预测数据，可以在对置信度预测模型M的参数θ_i，β_j进行更新时，引入不确定度变量RD，用来指示前后两个版本模型之间的差异程度。

在一些实施例中，不确定度变量RD可以是给定值。进一步地，该给定值可以正数。例如，取值范围为[0,1]的浮点数。其中，可以根据经验信息或者其他评价数据(如，AUC等)来评估前后两个版本的模型差异来确定RD的值，如果当前使用的版本的模型K_现和前一版本的模型K_前之间的差异越大，RD就越接近1。

在一些实施例中，不确定度变量RD可以包括表示不同版本模型之间相异度的函数。即RD＝R(K1，K2)。其中，函数R(K1，K2)可以表示模型K1和模型K2的相异度，例如可以采用欧式距离或余弦距离等表示。例如，用户进行诸如从函数学习到集合学习这种跨章节的知识点学习时，可能在进行函数学习时采用模型K1进行预测，而在进行集合学习时采用模型K2进行预测。由于函数和集合属于不同的学习内容，针对函数学习的模型K1和针对集合学习的模型K2可能在参数或结构上是不同的。那么当用户在学习函数部分的内容时采用模型K1，然后用户转而学习集合部分时，可以采用前一阶段使用的模型K1所累计的历史预测数据结合不确定度变量RD＝R(K1，K2)来更新第一预测置信度θ_i和第二预测置信度β_j，以更准确地对模型K2的预测结果进行评估。由于每个模型通常都针对不同的学习内容训练得到，所以学习内容相近的模型更相似，例如，针对函数学习内容的模型K1与针对集合学习内容的模型K2的相异程度R₁₂，针对函数学习内容的模型K1与针对三角函数学习内容的模型K3的相异程度R₁₃；由于相比于集合，函数与三角函数更接近，相异程度更小，那么R₁₂＞R₁₃。

那么，在模型K的版本发生变化后，对置信度预测模型M中的第一预测置信度θ_i的第一方差和第二预测置信度β_j的第二方差进行更新可以包括：

其中，和/>表示前一版本模型K_前对所有供体θ和所有受体β的置信度分布的方差的最新预测置信度估计，/>和/>表示当前版本模型K_现对所有供体θ和所有受体β的置信度分布的方差的最新预测置信度估计。具体地，/>表示前一版本模型K_前的第一预测置信度θ_i的第一方差，/>表示前一版本模型K_前的第二预测置信度β_j的第二方差；/>表示当前版本模型K_现的第一预测置信度θ_i的第一方差，/>表示当前版本模型K_现的第二预测置信度β_j第二方差。

为了进一步提高对模型K的预测置信度评估的准确性，本公开考虑到除了上述实施例中提及的供体i整体的第一预测置信度θ_i和受体j整体的第二预测置信度β_j之外，还有其他因素对模型K的预测置信度造成影响。可以将该其他因素记为第三元素，模型K对该第三元素的预测置信度为第三预测置信度。参见图4，图4示出了根据本公开实施例的置信度预测模型M的原理性示意图。图4中，obs为观测到的实际值，存在多个参数会对模型K的预测置信度造成影响，多个参数可以包括如下至少一个：第一子维度预测置信度α_il’、与供体i相关的供体预测置信度θ_i’、第一特性预测置信度γ_i’、与受体j相关的供体预测置信度β_j’、第二特性预测置信度τ_j’、不确定度变量RD(其可以更新第一子维度预测置信度α_il’的方差)、供体预测置信度θ_i’、外生预测置信度ε。其中，第一子维度预测置信度α_il’、第一特性预测置信度γ_i’、第二特性预测置信度τ_j’、不确定度变量RD、外生预测置信度ε可以作为第三元素。

图4中，x_ij∈{0,1}表示的是模型K预测正确与否的观测数据。模型K能够预测成功x__ij＝1需要上述多个参数包括第一子维度预测置信度α_il’、与供体i相关的第一预测置信度θ_i’、第一特性预测置信度γ_i’、与受体j相关的第二预测置信度β_j’、第二特性预测置信度τ_j’、不确定度变量RD、外生预测置信度ε共同提高来实现，也即模型K的预测置信度由各个参数的预测置信度共同决定。

在一些实施例中，所述第三元素包括所述第一元素的多个第一子维度，所述第三预测置信度包括多个第一子置信度之和，每个所述第一子置信度包括所述模型在对应的所述第一子维度上的第一子维度预测置信度。

在一些实施例中，所述第三元素包括所述第二元素的多个第二子维度，所述第三预测置信度包括多个第二子置信度之和，每个所述第二子置信度包括所述模型在对应的第二子维度上的第二子维度预测置信度。

其中，可以将受体或供体可以拆分为多个维度，模型K对于每个维度的预测置信度也会不同。因为模型K在多个维度上预测水平的迁移性并不可知，所以，可以通过计算模型K在不同维度上的预测置信度来分析模型K在不同维度上预测水平的迁移性，从而提高对模型的预测置信度的评估能力。例如图4中的第一子维度预测置信度α_il’，其为将供体i拆分为l个维度，l∈L；第三预测置信度为所有第一子维度预测置信度α_il’之和应了解，虽然图4中没有示出，但是对于受体j也可以类似地拆分为多个第二维度，每个维度对应于第二子置信度。具体地，以受体为用户，l个维度为l个知识点为例，图4中的第一子维度预测置信度α_il’表示受体用户i在知识点l上的预测置信度。

在一些实施例中，所述第三元素包括所述第一元素的固定特性和/或随机特性，所述第三预测置信度包括所述模型对所述第一元素的固定特性和/或随机特性的第一特性预测置信度。

在一些实施例中，所述第三元素包括所述第二元素的固定特性和/或随机特性，所述第三预测置信度包括所述模型对所述第二元素的固定特性和/或随机特性的第二特性预测置信度。

其中，第一元素即受体或者第二元素即供体均具有自己的特征，这些特征中既可以包括固定特征，也可以包括随机特征，分别与受体或供体自身的固定效应或者随机效应相关。通过第一元素的第一特性预测置信度(例如图4中的第一特性预测置信度γ_i’)和第二元素的第二特性预测置信度(例如第二特性预测置信度τ_j’)能够进一步增强预测置信度模型M的预测能力，即增强对模型K的预测置信度的评估能力。例如，以预测用户作答正确与否的模型K为例，供体(用户)的特性可以包括用户的历史预测记录数以及用户相关的预测的历史准确率等。同样地，受体(题目)的特性可以包括题目相关的历史预测记录数和预测准确性等。这些特性帮助预测置信度模型M拓展了简单地以供体置信度和受体置信度两个变量为唯一特征的模型结构，进一步地从受体和供体自身特性的角度反映其对模型M的预测置信度的影响，有利于提高模型M的预测置信度的评估准确性。

在一些实施例中，所述第三元素包括与第一元素和所述第二元素无关的外生元素，所述第三预测置信度包括所述模型对所述第外生元素的外生预测置信度。

其中，“外生”可以指能够影响模型预测的外部原因，而非来自模型内部的原因(例如供体或受体)或与该内部原因相关的因素(例如供体或受体的固定特性和/或随机特性)。外生元素可以是和供体与受体无关但可能对模型K的预测置信度有关的其他变量。例如模型K的整体参数的数量，模型K平均运行的时间等等。这些模型的属性有时候是不能归纳到供体以及受体上的，但是却有可能与模型K的预测结果置信度相关联。例如，用户(供体)对广告(受体)的点击，除了供体和受体外，还可能受到是否处于节假期间等因素的影响。

在一些实施例中，第三预测置信度可以包括如下至少一个参数：第一子维度预测置信度、第一特性预测置信度、第二子维度预测置信度、第二特性预测置信度、不确定度变量、外生预测置信度。进一步地，在一些实施例中，第三预测置信度包括多个参数，每个参数还可以具有对应的权重。

其中，图4中的各个参数也可以是服从正态分布。例如，(α’～N(μ_α’，σ_α’ ²)，θ’～N(μ_θ’，σ_θ’ ²)，γ’～N(μ_γ’，σ_γ’ ²)，β’～N(μ_β’，σ_β’ ²)，τ’～N(μ_τ’，σ_τ’ ²))。对于上述各个参数的预测置信度，在每次预测后可以采用类似上述实施例中的公式(3)-(13)的方法进行更新。例如，将公式(3)-(13)中的参数变量第一预测置信度θ_i或第二预测置信度β_j替换为要更新的参数(例如第一子维度预测置信度α_il’、第一特性预测置信度γ_i’、第二特性预测置信度τ_j’、不确定度变量RD、外生预测置信度ε)即可进行更新。可见，图4中提供的置信度预测模型M可以计算模型K的预测置信度即通过项目反应理论和在线动态评估方式，能够实现轻量化、可拓展、易维护、可解释地对模型的预测置信度进行评估。

图5示出了本公开实施例所提供的预测模型的置信度评估方法500的流程示意图。该方法500可以用于实现预测模型的置信度评估，并可以由图1的服务器110或终端120实现，也可以由服务器110和终端120二者共同实现。如图5所示，该方法500可以进一步包括以下步骤。

步骤S510，获取所述模型的预测结果(例如图3中的y_ij)，所述预测结果基于所述模型对预测对象中第一元素(例如图3中的供体i)在第二元素(例如图3中的受体j)上表现预定行为的概率进行预测得到；

步骤S520，基于所述模型对所述第一元素的第一预测置信度(例如图3中的第一预测置信度θ_i)和对所述第二元素的第二预测置信度(例如图3中的第二预测置信度β_j)计算所述预测结果的预测置信度(例如图3中的p(y_ij＝1|θ_i，β_j))。

根据本公开实施例的预测模型的置信度评估方法，不仅可以用于用户和题目的预测中，还可以用于任何数据结构为项目反应类型的预测场景中。其中，项目反应类型的数据结构可以指预测的目标往往是某一个供体在某个受体上的某种观测。例如广告的点击率的预估，受体和供体为用户和广告；游戏系统中对战结果与排位模型的预估，受体和供体为对战双方等场景。进而基于模型对受体和供体的预测置信度，评估模型对当前预测结果的置信度，能够实现准确地评估模型在每次预测中的置信度，从而准确地表现模型在不同场景中的预测能力。此外，还可以反映出模型对预测对象中不同元素的置信度水平差异，为优化模型提供了分析和改善的方向。

在一些实施例中，基于所述模型对所述第一元素的第一预测置信度和对所述第二元素的第二预测置信度计算所述预测结果的预测置信度，包括：

基于所述第一预测置信度和所述第二预测置信度之和与累积分布函数(例如，公式(2)中的正态分布的累积分布函数Φ，或者sigmoid函数(即Logistics分布的累积分布函数))计算所述预测结果为真值的概率，得到所述预测结果的预测置信度；其中，所述第一预测置信度和所述第二预测置信度均服从正态分布。

在一些实施例中，所述预测结果的预测置信度可以基于如下公式计算得到：p(y_ij＝1|θ_i，β_j)＝Φ(θ_i+β_j)，其中，p(y_ij＝1|θ_i，β_j)表示所述模型的预测置信度，θ_i表示所述模型对第一元素i的第一预测置信度，β_j表示所述模型对第二元素j的第二预测置信度，Φ为正态分布的累积分布函数。

在一些实施例中，方法500还包括：

获取所述预测对象的实际观测值；

基于所述实际观测值和所述预测结果的比较，更新所述第一预测置信度和第二预测置信度(例如前述实施例中的公式(3)-公式(13))。

在一些实施例中，基于所述实际观测值和所述预测结果的比较，更新所述第一预测置信度和所述第二预测置信度，包括：

响应于所述实际观测值和所述预测结果一致，

基于所述第一预测置信度的当前第一期望(例如公式(6)中的)，与所述第一预测置信度的当前第一方差(例如公式(6)中的/>)的第一比例(例如公式(6)中的/>)之和，计算得到所述第一预测置信度的更新的第一期望(例如公式(6)中的/>)；

基于所述第一预测置信度的当前第一方差(例如公式(7)中的)，与关于所述第一方差的第一中间变量(例如公式(7)中的/>)和方差下限(例如公式(7)中的k)之间的最大值的乘积(例如公式(7)中的/>)，计算得到所述第一预测置信度的更新的第一方差(例如公式(7)中的/>)；

基于所述第二预测置信度的当前第二期望(例如公式(10)中的)与所述第二预测置信度的当前第二方差(例如公式(10)中的/>)的第一比例(例如公式(10)中的/>)之和，计算得到所述第二预测置信度的更新的第二期望(例如公式(10)中的/>)；

基于所述第二预测置信度的当前第二方差(例如公式(11)中的)，与关于所述第二方差的第二中间变量(例如公式(11)中的/>)和方差下限(例如公式(11)中的k)之间的最大值的乘积(例如公式(11)中的/>)，计算得到所述第二预测置信度的更新的第二方差(例如公式(11)中的/>)；

其中，所述第一比例、所述第一中间变量和所述第二中间变量均与所述当前第一方差、所述当前第一期望、所述当前第二方差和所述当前第二期望相关。

基于所述实际观测值和所述预测结果的比较，更新所述第一预测置信度和所述第二置信度，包括：

响应于所述实际观测值和所述预测结果不一致，

基于所述第一预测置信度的当前第一期望(例如公式(8)中的)，与所述第一预测置信度的当前第一方差(例如公式(8)中的/>)的第二比例(例如公式(8)中的/>)之差，计算得到所述第一预测置信度的更新的第一期望(例如公式(8)中的/>)；

基于所述第一预测置信度的当前第一方差(例如公式(9)中的)，与关于所述第一方差的第三中间变量(例如公式(9)中的/>)和方差下限(例如公式(9)中的k)之间的最大值(例如公式(9)中的/>)的乘积，计算得到所述第一预测置信度的更新的第一方差(例如公式(9)中的/>)；

基于所述第二预测置信度的当前第二期望(例如公式(12)中的)与所述第二预测置信度的当前第二方差(例如公式(12)中的/>)的第二比例(例如公式(12)中的/>)之差，计算得到所述第二预测置信度的更新的第二期望(例如公式(12)中的/>)；

基于所述第二预测置信度的当前第二方差(例如公式(13)中的)，与关于所述第二方差的第四中间变量(例如公式(13)中的/>)和方差下限(例如公式(13)中的k)之间的最大值(例如公式(13)中的/>)的乘积，计算得到所述第二预测置信度的更新的第二方差(例如公式(13)中的/>)；

其中，所述第二比例、所述第三中间变量和所述第四中间变量均与所述当前第一方差、所述当前第一期望、所述当前第二方差和所述当前第二期望相关。

在一些实施例中，方法500还可以包括：

基于所述模型的不确定度变量(例如图4或公式(14)中的不确定度变量RD)更新所述第一预测置信度的第一方差和所述第二预测置信度的第二方差(例如公式(14))；其中，所述不确定度变量包括给定值或关于不同版本的所述模型之间的相异度函数。

在一些实施例中，所述预测对象还包括第三元素；所述方法500还包括：

获取所述模型对所述第三元素的第三预测置信度；

基于所述第一预测置信度、所述第二预测置信度以及所述第三预测置信度计算所述预测结果的预测置信度。

在一些实施例中，所述第三元素包括所述第一元素的多个第一子维度，所述第三预测置信度包括多个第一子置信度(例如图4中的第一子维度预测置信度α_il’)之和，每个所述第一子置信度包括所述模型在对应的所述第一子维度上的第一子维度预测置信度。

在一些实施例中，所述第三元素包括所述第一元素的固定特性和/或随机特性，所述第三预测置信度包括所述模型对所述第一元素的固定特性和/或随机特性的第一特性预测置信度(例如图4中的第一特性预测置信度γ_i’)。

在一些实施例中，所述第三元素包括所述第二元素的固定特性和/或随机特性，所述第三预测置信度包括所述模型对所述第二元素的固定特性和/或随机特性的第二特性预测置信度(例如图4中的第二特性预测置信度τ_j’)。

在一些实施例中，所述第三元素包括与第一元素和所述第二元素无关的外生元素(例如图4中的外生预测置信度ε)，所述第三预测置信度包括所述模型对所述外生元素的外生预测置信度。

需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种预测模型的置信度评估装置。

参考图6，所述预测模型的置信度评估装置，包括：

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的预测模型的置信度评估方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的预测模型的置信度评估方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的预测模型的置信度评估方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本公开实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本公开实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种模型的预测置信度评估方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于所述模型对所述第一元素的第一预测置信度和对所述第二元素的第二预测置信度计算所述预测结果的预测置信度，包括：

基于所述第一预测置信度和所述第二预测置信度之和与累积分布函数计算所述预测结果为真值的概率，得到所述预测结果的预测置信度；其中，所述第一预测置信度和所述第二预测置信度均服从正态分布。

3.根据权利要求1所述的方法，其特征在于，还包括：

获取所述预测对象的实际观测值；

基于所述实际观测值和所述预测结果的比较，更新所述第一预测置信度和第二预测置信度。

4.根据权利要求3所述的方法，其特征在于，基于所述实际观测值和所述预测结果的比较，更新所述第一预测置信度和所述第二预测置信度，包括：

响应于所述实际观测值和所述预测结果一致，

基于所述第一预测置信度的当前第一期望，与所述第一预测置信度的当前第一方差的第一比例之和，计算得到所述第一预测置信度的更新的第一期望；

基于所述第一预测置信度的当前第一方差，与关于所述第一方差的第一中间变量和方差下限之间的最大值的乘积，计算得到所述第一预测置信度的更新的第一方差；

基于所述第二预测置信度的当前第二期望与所述第二预测置信度的当前第二方差的所述第一比例之和，计算得到所述第二预测置信度的更新的第二期望；

基于所述第二预测置信度的当前第二方差，与关于所述第二方差的第二中间变量和方差下限之间的最大值的乘积，计算得到所述第二预测置信度的更新的第二方差；

5.根据权利要求3所述的方法，其特征在于，基于所述实际观测值和所述预测结果的比较，更新所述第一预测置信度和所述第二置信度，包括：

响应于所述实际观测值和所述预测结果不一致，

基于所述第一预测置信度的当前第一期望，与所述第一预测置信度的当前第一方差的第二比例之差，计算得到所述第一预测置信度的更新的第一期望；

基于所述第一预测置信度的当前第一方差，与关于所述第一方差的第三中间变量和方差下限之间的最大值的乘积，计算得到所述第一预测置信度的更新的第一方差；

基于所述第二预测置信度的当前第二期望与所述第二预测置信度的当前第二方差的所述第二比例之差，计算得到所述第二预测置信度的更新的第二期望；

基于所述第二预测置信度的当前第二方差，与关于所述第二方差的第四中间变量和方差下限之间的最大值的乘积，计算得到所述第二预测置信度的更新的第二方差；

6.根据权利要求1所述的方法，其特征在于，还包括：

基于所述模型的不确定度变量更新所述第一预测置信度的第一方差和所述第二预测置信度的第二方差；其中，所述不确定度变量包括给定值或关于不同版本的所述模型之间的相异度函数。

7.根据权利要求1所述的方法，其特征在于，所述预测对象还包括第三元素；

所述方法还包括：

获取所述模型对所述第三元素的第三预测置信度；

8.根据权利要求7所述的方法，其特征在于，所述第三元素包括所述第一元素的多个第一子维度，所述第三预测置信度包括多个第一子置信度之和，每个所述第一子置信度包括所述模型在对应的所述第一子维度上的第一子维度预测置信度。

9.根据权利要求7所述的方法，其特征在于，所述第三元素包括所述第二元素的多个第二子维度，所述第三预测置信度包括多个第二子置信度之和，每个所述第二子置信度包括所述模型在对应的所述第二子维度上的第二子维度预测置信度。

10.根据权利要求7所述的方法，其特征在于，所述第三元素包括所述第一元素的固定特性和/或随机特性，所述第三预测置信度包括所述模型对所述第一元素的固定特性和/或随机特性的第一特性预测置信度。

11.根据权利要求7所述的方法，其特征在于，所述第三元素包括所述第二元素的固定特性和/或随机特性，所述第三预测置信度包括所述模型对所述第二元素的固定特性和/或随机特性的第二特性预测置信度。

12.根据权利要求7所述的方法，其特征在于，所述第三元素包括与第一元素和所述第二元素无关的外生元素，所述第三预测置信度包括所述模型对所述外生元素的外生预测置信度。

13.一种模型的预测置信度评估装置，其特征在于，包括：

14.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至12任意一项所述的方法。

15.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行权利要求1至12任一所述方法。

16.一种计算机程序产品，包括计算机程序指令，当所述计算机程序指令在计算机上运行时，使得计算机执行权利要求1至12任一所述的方法。