CN113705827B

CN113705827B - 一种模型评估方法、装置及电子设备

Info

Publication number: CN113705827B
Application number: CN202110866897.6A
Authority: CN
Inventors: 陈超; 徐龙飞; 崔恒斌
Original assignee: Alibaba Innovation Co
Current assignee: Alibaba Innovation Co
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2024-04-12
Anticipated expiration: 2041-07-29
Also published as: CN113705827A

Abstract

本公开提供了一种模型评估方法、装置及电子设备，该方法包括：获取线上运行的第一模型对预设的目标任务进行处理所得到的第一处理结果，获取待部署至线上的第二模型对所述目标任务进行处理所得到的第二处理结果；根据预设的目标指标预测模型对所述第一处理结果的目标指标进行预测，得到第一预测结果；根据所述目标指标预测模型对所第二处理结果的所述目标指标进行预测，得到第二预测结果；根据所述第一预测结果和所述第二预测结果，对所述第二模型进行评估，得到所述第二模型的评估结果。

Description

一种模型评估方法、装置及电子设备

技术领域

本公开涉及机器学习技术领域，更具体地，涉及一种模型评估方法、一种模型评估装置、一种电子设备、及一种计算机程序产品。

背景技术

在通常情况下，如果要对离线训练好的模型在目标指标上的表现进行评估，必须将模型部署至线上运行一段时间，再根据模型线上运行情况，对模型在目标指标上表现进行评估。这导致模型的评估周期较长，且开发成本较高。而且，将模型部署至线上之后，如果模型的评估结果不佳，则需要将模型下线进行迭代训练之后再上线，这会增加模型上线次数，影响线上服务效果。

因此，提出一种能够缩短模型评估周期及不影响线上服务效果的模型评估方法是本领域技术人员需要解决的问题。

发明内容

本公开的一个目的是提供一种能够离线对模型在目标指标上的表现进行评估的新技术方案。

根据本公开的第一方面，提供了一种模型评估方法，包括：

获取线上运行的第一模型对预设的目标任务进行处理所得到的第一处理结果；

获取待部署至线上的第二模型对所述目标任务进行处理所得到的第二处理结果；

根据预设的目标指标预测模型对所述第一处理结果的目标指标进行预测，得到第一预测结果；根据所述目标指标预测模型对所第二处理结果的所述目标指标进行预测，得到第二预测结果；

根据所述第一预测结果和所述第二预测结果，对所述第二模型进行评估，得到所述第二模型的评估结果。

根据本公开的第二方面，提供了一种模型评估装置，包括：

处理结果获取模块，用于获取线上运行的第一模型对预设的目标任务进行处理所得到的第一处理结果，获取待部署至线上的第二模型对所述目标任务进行处理所得到的第二处理结果；

预测结果获取模块，用于根据预设的目标指标预测模型对所述第一处理结果的目标指标进行预测，得到第一预测结果；根据所述目标指标预测模型对所第二处理结果的所述目标指标进行预测，得到第二预测结果；

模型评估模块，用于根据所述第一预测结果和所述第二预测结果，对所述第二模型进行评估，得到所述第二模型的评估结果。

根据本公开的第三方面，提供了一种电子设备，包括：

如本公开第二方面所述的装置；或者，

处理器和存储器，所述存储器用于存储可执行的指令，所述指令用于控制所述处理器执行根据本公开第一方面所述的方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现根据本公开第一方面所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机可读介质，其包括用于执行如本公开第一方面所述的方法的代码。

在本公开的实施例中，对线上运行的第一模型对目标任务进行处理得到第一处理结果，对待部署至线上的第二模型对目标任务进行处理得到第二处理结果，通过预设的目标指标预测模型，对第一处理结果的目标指标进行预测得到第一预测结果，并对第二处理结果的目标指标进行预测得到第二预测结果；根据第一预测结果和第二预测结果，来对第二模型在目标指标上的效果进行评估，在评估结果为通过的情况下再将第二模型部署至线上运行，可以减少第二模型迭代过程中的上线次数，一方面可以提升第二模型的迭代效率，一方面还可以减小对用户的影响。而且，本公开的实施例无需搭建仿真系统，开发成本较低。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本公开的实施例，并且连同其说明一起用于解释本公开的原理。

图1是本公开实施例的模型评估方法的应用场景示意图。

图2a是可用于实现本公开的实施例的电子设备的硬件配置的一个例子的框图。

图2b是可用于实现本公开的实施例的电子设备的硬件配置的另一个例子的框图；

图3是根据本公开第一实施例的模型评估方法的流程示意图；

图4是根据本公开第二实施例的模型评估方法的流程示意图；

图5是根据本公开实施例的模型评估方法的一个例子的流程示意图；

图6是根据本公开实施例的模型评估装置的方框原理图；

图7是根据本公开第一个实施例提供的电子设备的原理框图；

图8是根据本公开第二个实施例提供的电子设备的硬件结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

以下对至少一个示例性实施例的描述目标上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

在通常情况下，如果要对离线训练好的模型在目标指标上表现进行评估，必须将模型部署至线上运行一段时间，再根据模型在线上运行过程中的实际情况，才能够对模型在目标指标上表现进行评估。这样，就导致模型的评估周期较长，且开发成本较高。

而且，如果将模型部署至线上之后，模型的评估结果不佳，需要将模型下线进行迭代训练。这样就会增加模型迭代过程中上线次数，影响用户体验。

为了解决以上问题，本公开实施例提供了一种模型评估方法，无需将模型部署至线上运行，可以离线对模型在目标指标上表现进行评估，以减少模型迭代过程中的上线次数，缩短模型的评估周期，提升模型的迭代效率，降低模型开发成本，减少模型评估过程对用户的影响，提升用户体验。

图1为根据本公开实施例的模型评估方法的应用场景的示意图。

如图1所示，执行本公开实施例的电子设备1000，可以是获取线上当前运行的第一模型对目标任务进行处理所得到的第一处理结果，以及待部署至线上的第二模型对目标任务进行处理所得到的第二处理结果，根据第一处理结果和第二处理结果，对第二模型进行上线评估，得到第二模型的评估结果。

具体的，电子设备1000可以是根据预设的目标指标预测模型对第一处理结果的目标指标进行预测，得到第一预测结果；根据目标指标预测模型对第二处理结果的目标指标进行预测，得到第二预测结果；根据第一预测结果和第二预测结果对第二模型进行评估，得到第二模型的评估结果。

在一个例子中，在评估结果为通过的情况下，可以是将第二模型部署至线上运行，还可以是将第二模型评估通过的结果通知用户，由用户将第二模型部署至线上运行。在评估结果为未通过的情况下，可以是继续对第二模型进行迭代训练，还可以是将第二模型评估未通过的结果通知给用于训练第二模型的其他电子设备，以供其他电子设备继续对第二模型进行迭代训练。

<硬件配置>

图2a和图2b是可用于实现本公开任意实施例的模型评估方法的电子设备1000的硬件配置的框图。

在一个实施例中，如图2a所示，电子设备1000可以是服务器1100。

服务器1100提供处理、数据库、通讯设施的计算机。服务器1100可以是整体式服务器或是跨多计算机或计算机数据中心的分散式服务器。服务器可以是各种类型的，例如但不限于，网络服务器，新闻服务器，邮件服务器，消息服务器，广告服务器，文件服务器，应用服务器，交互服务器，数据库服务器，或代理服务器。在一些实施例中，每个服务器可以包括硬件，软件，或用于执行服务器所支持或实现的合适功能的内嵌逻辑组件或两个或多个此类组件的组合。例如，服务器例如刀片服务器、云端服务器等，或者可以是由多台服务器组成的服务器群组，可以包括上述类型的服务器中的一种或多种等等。

本实施例中，服务器1100可以如图2a所示，包括处理器1110、存储器1120、接口装置1130、通信装置1140、显示装置1150、输入装置1160。

在该实施例中，服务器1100还可以包括扬声器、麦克风等等，在此不做限定。

处理器1110可以是专用的服务器处理器，也可以是满足性能要求的台式机处理器、移动版处理器等，在此不做限定。存储器1120例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1130例如包括各种总线接口，例如串行总线接口(包括USB接口)、并行总线接口等。通信装置1140例如能够进行有线或无线通信。显示装置1150例如是液晶显示屏、LED显示屏触摸显示屏等。输入装置1160例如可以包括触摸屏、键盘等。

在该实施例中，服务器1100的存储器1120用于存储指令，该指令用于控制处理器1110进行操作以至少执行根据本公开任意实施例的模型评估方法。技术人员可以根据本公开所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

尽管在图2a中示出了服务器1100的多个装置，但是，本公开可以仅涉及其中的部分装置，例如，服务器1100只涉及存储器1120和处理器1110。

在一个实施例中，电子设备1000可以是操作人员使用的PC机、笔记本电脑等终端设备1200，在此不做限定。

本实施例中，参照图2b所示，终端设备1200可以包括处理器1210、存储器1220、接口装置1230、通信装置1240、显示装置1250、输入装置1260、扬声器1270、麦克风1280等等。

处理器1210可以是移动版处理器。存储器1220例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1230例如包括USB接口、耳机接口等。通信装置1240例如能够进行有线或无线通信，通信装置1240可以包括短距离通信装置，例如是基于Hilink协议、WiFi(IEEE 802.11协议)、Mesh、蓝牙、ZigBee、Thread、Z-Wave、NFC、UWB、LiFi等短距离无线通信协议进行短距离无线通信的任意装置，通信装置1240也可以包括远程通信装置，例如是进行WLAN、GPRS、2G/3G/4G/5G远程通信的任意装置。显示装置1250例如是液晶显示屏、触摸显示屏等。输入装置1260例如可以包括触摸屏、键盘等。用户可以通过扬声器1270和麦克风1280输入/输出语音信息。

在该实施例中，终端设备1200的存储器1220用于存储指令，该指令用于控制处理器1210进行操作以至少执行根据本公开任意实施例的模型评估方法。技术人员可以根据本公开所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

尽管在图2b中示出了终端设备1200的多个装置，但是，本公开可以仅涉及其中的部分装置，例如，终端设备1200只涉及存储器1220和处理器1210和显示装置1250。

<方法实施例一>

在本实施例中，提供一种模型评估方法。该方法可以是由电子设备实施。该电子设备可以是如图2a所示的服务器1100，或者是如图2b所示终端设备1200。

根据图3所示，本实施例的模型评估方法可以包括如下步骤S3100～S3500：

步骤S3100，获取线上运行的第一模型对预设的目标任务进行处理所得到的第一处理结果。

步骤S3200，获取待部署至线上的第二模型对目标任务进行处理所得到的第二处理结果。

在本实施例中，第一模型和第二模型所反映的映射关系相同，即第一模型和第二模型的作用相同。例如，第一模型和第二模型均是用于对预先提供的多个备选路线进行推荐，具体的，第一模型和第二模型可以均是基于相同的路线偏好从多个备选路线中选择推荐路线，也可以是基于不同的路线偏好从多个备选路线中选择推荐路线。其中，路线偏好可以包括以下至少一项：躲避拥堵、高速优先、大路优先、不走高速、时间最短、速度最快、少收费、路线最短、货车最少等。

在本该步骤S3100和步骤S3200中，第一模型和第二模型中所输入的目标任务相同，可以为多个相同的备选路线。第一模型可以是从该多个备选路线中选取符合第一路线偏好的推荐路线，作为第一处理结果；第二模型可以是从该多个备选路线中需求符合第二路线偏好的推荐路线，作为第二处理结果。其中，第一路线偏好可以相同，也可以不同。

进一步地，第一模型和第二模型在训练过程中的优化目标与目标指标不同。

步骤S3300，根据预设的目标指标预测模型对第一处理结果的目标指标进行预测，得到第一预测结果。

步骤S3400，根据目标指标预测模型对第二处理结果的目标指标进行预测，得到第二预测结果。

在本实施例中，该目标指标预测模型可以是预先训练好的，用于对第一模型或第二模型的处理结果的目标任务进行预测，在线上和线下对齐的模型。

在线上和线下对齐，表示目标指标预测模型在离线预测时的表现和线上运行时的表现一致。其中，线上是指真实的运行环境，模型在该环境中生效，可以直接影响用户。线下也称为离线环境，该环境不与用户发生交互，一般用于模型的研发。

在本公开的一个实施例中，该目标指标可以是导航路线的路线偏航率或者是路线覆盖率。偏航是指用户未按照模型的推荐路线行驶。路线偏航率是指偏航的概率。某条导航路线的路线偏航率高，则这条导航路线上容易发生偏航，也就属于不好的导航路线。而路线覆盖率可以是指用户按照模型的推荐路线行驶的概率。

步骤S3500，根据第一预测结果和第二预测结果，对第二模型进行评估，得到第二模型的评估结果。

在本公开的一个实施例中，根据第一预测结果和第二预测结果，对第二模型进行评估的方式可以包括：确定第一预测结果和第二预测结果之差的绝对值；对该绝对值和第一预设阈值进行比较；根据比较结果确定第二模型的评估结果。其中，第一预设阈值可以是预先根据应用场景或具体需求所设定的正数。

具体的，可以是在第一预测结果和第二预测结果之差的绝对值小于或等于第一预设阈值的情况下，确定第二模型的评估结果为通过；否则，确定第二模型的评估结果为未通过。

在本公开的一个实施例中，电子设备1000在得到第二模型的评估结果之后，可以展示该评估结果，以供用户根据该评估结果对第二模型进行相应处理。

具体的，用户可以是在第二模型的评估结果为通过的情况下，将第二模型部署至线上运行。

在本实施例中，将第二模型部署至线上运行，可以是将线上当前运行的第一模型替换为该第二模型，还可以是将指定版本的应用程序中所使用的第一模型替换为第二模型，还可以是将指定用户所使用的第一模型替换为第二模型。

在本公开的一个实施例中，在得到第二模型的评估结果之后，该方法还可以包括：在第二模型的评估结果为通过的情况下，由执行本公开实施例的电子设备1000将第二模型部署至线上运行。

在本公开的另一个实施例中，在得到第二模型的评估结果之后，该方法还可以包括：在第二模型的评估结果为未通过的情况下，由执行本公开实施例的电子设备1000对第二模型进行迭代训练，或者，将第二模型评估未通过的结果通知给用于训练第二模型的其他电子设备，以供其他电子设备继续对第二模型进行迭代训练。

<方法实施例二>

在前述的方法实施例一的基础上，该目标指标为导航路线的路线偏航率或者路线覆盖率；那么，本公开的模型评估方法还可以包括目标指标预测模型的训练步骤，包括如图4所示的步骤S4100～S4200：

步骤S4100，获取第一样本集。

其中，第一样本集包括的一条第一样本对应一条导航路线的特征，该特征包括：路线属性特征和目标指标的实际取值。

路线属性特征可以是预先设定好的、影响对应导航路线的目标指标的特征，例如可以包括预计通行时间、长度、收费、出发区域、到达区域、出发时段等。

在目标指标为路线偏航率的情况下，目标指标可以代表用户在对应导航路线上是否发生偏航，如果发生偏航，则目标指标的实际取值可以是1，如果未发生偏航，则目标指标的实际取值可以是0。

在目标指标为路线覆盖率的情况下，目标指标可以代表用户的实际行驶路线覆盖对应导航路线的比例，如果用户的实际行驶路线完全覆盖对应导航路线，则目标指标的实际取值可以是1，如果用户的实际行驶路线完全未覆盖对应导航路线，则目标指标的实际取值可以是0。

步骤S4200，基于第一样本集对预设的机器学习模型进行训练，得到目标指标预测模型。

在本公开的一个实施例中，路线属性特征可以包括导航路线所属类别的类别特征。

类别特征可以是预先从路线属性特征中所选取的满足如下条件的特征：值是离散的；取值有限；每个取值所对应的第一样本的数量超过设定数量。例如，该类别特征可以是出发区域、到达区域、出发时段等。

在本实施例的基础上，基于第一样本集对预设的机器学习模型进行训练，得到目标指标预测模型可以包括如下所示的步骤S4210～S4230：

步骤S4210，遍历类别特征，从第一样本包括的特征中去除当前遍历的类别特征，构建第二样本。

其中，第二样本包括对应导航路线的其他特征和目标指标的实际取值，其他特征是除当前遍历的类别特征以外的路线属性特征。

由于路线属性特征包括至少一个类别特征，因此，可以是遍历所有类别特征，对于遍历到的每个类别特征，分别将每个第一样本所包含的当前遍历的类别特征去除，得到与该当前遍历的类别特征所对应的第二样本。

例如，在第一样本d包括路线属性特征(x₁,x₂,…,x_n)和目标指标的实际取值y，在当前遍历的类别特征为x₁的情况下，与该类别特征x₁所对应的第二样本可以包括其他特征(x₂,x₃,…,x_n)和目标指标的实际取值y。在当前遍历的类别特征为x₂的情况下，与该当前遍历的类别特征x₂所对应的第二样本可以包括其他特征(x₁,x₃,…,x_n)和目标指标的实际取值y。

步骤S4220，根据第二样本对预设的机器学习模型进行训练，得到初始预测模型。

在本公开的一个实施例中，根据第二样本对预设的机器学习模型进行训练，得到初始预测模型可以包括如下所示的步骤S4221～S4224：

步骤S4221，以预设的机器学习模型的设定参数为变量，根据第二样本包含的特征确定对应的目标指标预测表达式。

在当前遍历的类别特征为第一个遍历到的类别特征的情况下，该当前遍历的类别特征对应的第二样本所训练的模型，可以是还没有经过训练的预设的机器学习模型。

在该当前遍历的类别特征为第n(n为大于1且小于等于N的整数，其中，N为类别特征的总数)个遍历到的类别特征的情况下，该当前遍历的类别特征对应的第二样本所训练的模型，可以是根据前n-1个遍历到的类别特征所对应的第二样本对预设的机器学习模型进行训练之后所得到的模型。

当前遍历的类别特征所对应的预设的机器学习模型的设定参数，可以根据应用场景或具体需求进行设定。

步骤S4222，根据第二样本对应的目标指标预测表达式和目标指标的实际取值，构建损失函数表达式。

在本公开的一个实施例中，根据第二样本对应的目标指标预测表达式和目标指标的实际取值，构建损失函数表达式可以包括如下所示的步骤S4222-1～S4222-2：

步骤S4222-1，根据当前遍历的类别特征的取值，将当前遍历的类别特征所对应的第二样本的集合划分为至少一个子集。

具体的，可以是将相同取值的当前遍历的类别特征所对应的第二样本划分至同一子集中，将不同取值的当前遍历的类别特征所述对应的第二样本划分至不同的子集中，以使同一子集中第二样本所对应的当前遍历的类别特征的取值相同，不同子集中第二样本所对应的当前遍历的类别特征的取值不同。

步骤S4222-2，遍历所有子集，根据当前遍历到的子集中第二样本对应的目标指标预测表达式和目标指标的实际取值，确定当前遍历到的子集的损失函数表达式。

在本公开的一个实施例中，根据当前遍历到的子集中第二样本对应的目标指标预测表达式和目标指标的实际取值，确定当前遍历到的子集的损失函数表达式的步骤可以包括如下所示的步骤S4222-21～S4222-23：

步骤S4222-21，确定当前遍历到的子集中第二样本对应的目标指标预测表达式的平均值，得到预测平均值表达式。

具体的，可以是对当前遍历到的子集中所有第二样本对应的目标指标预测表达式求平均，得到该子集的预测平均值表达式。

步骤S4222-22，确定当前遍历到的子集中第二样本对应的目标指标的实际平均值。

具体的，可以是对该子集中所有第二样本对应的目标指标的实际取值求平均，作为该子集的实际平均值。

步骤S4222-23，根据当前遍历到的子集的预测平均值表达式和实际平均值，得到当前遍历到的子集的损失函数表达式。

在本公开的一个实施例中，可以是确定当前遍历到的子集的预测平均值表达式和实际平均值之间差值的绝对值，作为当前遍历到的子集的损失函数表达式。

例如，在当前遍历到的子集的预测平均值表达式表示为当前遍历到的子集的实际平均值表示为/>那么，当前遍历到的子集的损失函数表达式L1可以表示为：

步骤S4223，根据该损失函数表达式和第二样本对预设的机器学习模型进行训练，得到预设的机器学习模型的设定参数的值。

步骤S4224，根据预设的机器学习模型和预设的机器学习模型的设定参数的值，得到初始预测模型。

具体的，可以是确定所有子集的损失函数表达式在小于或等于对应的第二预设阈值的情况下，设定参数的值。其中，每个子集所对应的第二预设阈值可以是预先根据应用场景或具体需求所设定的正数，不同子集所对应的第二预设阈值可以相同，也可以不同。

在当前遍历的类别特征所对应的所有子集的损失函数表达式均小于或等于对应的第二预设阈值的情况下，可以认为根据当前遍历的类别特征对应的第二样本训练后的预设的机器学习模型，在当前遍历的类别特征上对齐，第二预设阈值为当前遍历的类别特征所对应的对齐阈值。

在所有类别特征遍历结束，根据所有类别特征对应的第二样本对预设的机器学习模型进行训练之后，得到初始预测模型。对应的，初始预测模型对于每个类别特征都可以对齐，可以认为该初始预测模型在每个类别特征上具有“预测均值对齐”的属性。

步骤S4230，根据第一样本集初始预测模型进行训练，得到目标指标预测模型。

在本实施例中，可以是根据第一样本集中的第一样本，对初始预测模型继续进行训练，训练方式可以参照前述的步骤S4220和S4230，在此不再赘述。

通过本实施例的方法，就可以得到可以用于对第二模型进行评估的目标指标预测模型。

在本公开的一个实施例中，在得到目标指标预测模型的基础上，该方法还可以包括如图4所示的步骤S4300：验证目标指标预测模型在线上和线下是否对齐。

具体的，验证目标指标预测模型在线上和线下是否对齐可以包括如下所示的步骤S4310～S4340：

步骤S4310，获取历史导航数据。

其中，历史导航数据包括至少两条备选导航路线的路线属性特征，至少两条备选导航路线包括推荐导航路线。

在本公开的一个实施例中，可以是通过第一模型基于第一路线偏好，从至少两条备选导航路线中选取推荐导航路线。也可以是通过其他模型基于对应的路线偏好，从至少两条备选导航路线中选取推荐导航路线。备选导航路线可以是根据用户所输入的起点和终点所得到的导航路线，该推荐导航路线可以是在导航应用中显示在首位的导航路线。

步骤S4320，根据历史导航数据，确定目标指标预测模型的线下收益。

其中，收益为反映在使用目标指标预测模型时、与不使用目标指标预测模型时目标指标所存在的偏差的参数。

线下收益为反映在线下使用目标指标预测模型时、与在线下不使用目标指标预测模型时，目标指标所存在的偏差的参数。

在本公开的一个实施例中，根据历史导航数据，确定目标指标预测模型的线下收益可以包括如下所示的步骤S4321～S4324：

步骤S4321，根据目标指标预测模型，确定备选导航路线的目标指标的预测值。

具体的，可以是根据目标指标预测模型分别对每条历史导航数据中每条备选导航路线的路线属性特征进行处理，得到对应备选导航路线的目标指标的预测值。

步骤S4322，对于每条历史导航数据，根据对应的备选导航路线的目标指标的预测值，确定最小预测值。

具体的，可以是分别从每条历史导航数据所对应的备选导航路线的目标指标的预测值中，选取最小的一个，作为该历史导航数据所对应的最小预测值。

步骤S4323，分别获取每条历史导航数据所对应的推荐导航路线对应的目标指标预测值，作为推荐预测值。

步骤S4324，根据历史导航数据对应的最小预测值和推荐预测值，确定目标指标预测模型的线下收益。

在通过步骤S4310获取到一条历史导航数据的情况下，根据历史导航数据对应的最小预测值和推荐预测值，确定目标指标预测模型的线下收益可以包括：确定推荐预测值和最小预测值之间的差值，作为目标指标预测模型的线下收益。

在通过步骤S4310获取到至少两条历史导航数据的情况下，根据历史导航数据对应的最小预测值和推荐预测值，确定目标指标预测模型的线下收益可以包括：确定所有历史导航数据所对应的推荐预测值的平均值，作为平均推荐预测值；确定所有历史导航数据所对应的最小预测值的平均值，作为平均最小预测值；确定平均推荐预测值与平均最小预测值之间的差值，作为目标指标预测模型的线下收益。

步骤S4330，根据第一模型，确定目标指标预测模型的线上收益。

线上收益为反映在线上使用目标指标预测模型时、与在线上不使用目标指标预测模型时，目标指标所存在的偏差的参数。

在本公开的一个实施例中，根据第一模型，确定目标指标预测模型的线上收益可以包括如下所示的步骤S4331～S4333：

步骤S4331，获取根据第一模型对第一组目标任务进行处理所得到的第一实际处理结果；获取根据目标指标预测模型对第二组目标任务进行处理所得到的第二实际处理结果。

在本实施例中，第一组目标任务可以是对预设的第一组用户所输入的起点和终点进行导航所得到的多条导航路线。第二组目标任务可以是对预设的第二组用户所输入的起点和终点进行导航所得到的多条导航路线。其中，第一组用户和第二组用户可以是随机选取的部分用户，第一组用户的数量与第二组用户的数量相同。

在本公开的一个实施例中，根据第一模型对第一组目标任务进行处理所得到的第一实际处理结果，可以是第一模型从第一组目标任务中选取的符合第一路线偏好的导航路线。

在本公开的一个实施例中，可以是基于目标指标预测模型对第二组目标任务中的多条导航路线的目标指标分别进行预测，并将预测的目标指标最小的导航路线作为第二实际处理结果。

步骤S4332，确定第一实际处理结果的目标指标的实际取值，作为第一验证结果；确定第二实际处理结果的目标指标的实际取值，作为第二验证结果。

步骤S4333，根据第一验证结果和第二验证结果，确定目标指标预测模型的线上收益。

在本公开的一个实施例中，根据第一验证结果和第二验证结果，确定目标指标预测模型的线上收益可以包括：确定第一验证结果的平均值、及第二验证结果的平均值；确定第一验证结果的平均值与第二验证结果的平均值之间的差值，作为目标指标预测模型的线上收益。

步骤S4340，根据线上收益和线下收益，确定目标指标预测模型在线上和线下是否对齐。

在本公开的一个实施例中，据线上收益和线下收益，确定目标指标预测模型在线上和线下是否对齐可以包括：确定线上收益和线下收益之间差值的绝对值；根据该绝对值确定目标指标预测模型在线上和线下是否对齐。

具体的，可以是在该绝对值小于预设的第三预设阈值的情况下，确定目标指标预测模型在线上和线下对齐；在该绝对值大于或等于第三预设阈值的情况下，确定目标指标预测模型在线上和线下未对齐。其中，第三预设阈值可以是预先根据应用场景或具体需求所设定的正数。

在目标指标预测模型在线上和线下对齐的情况下，执行前述的步骤S3200，根据目标指标预测模型对第一处理结果的目标指标进行预测，得到第一预测结果；根据目标指标预测模型对第二处理结果的目标指标进行预测，得到第二预测结果的步骤。

在目标指标预测模型在线上和线下未对齐的情况下，对目标指标预测模型进行迭代优化，直至该目标指标预测模型在线上和线下对齐。

<例子>

图5为本公开实施例中模型评估方法的一个例子的流程示意图。

根据图5所示，该方法可以包括：

步骤S5001，获取第一样本集，其中，第一样本集的一条第一样本可以对应一条导航路线的特征，该特征包括：路线属性特征和目标指标的实际取值。

步骤S5002，获取路线属性特征中反映对应导航路线所属类别的特征，作为类别特征。

步骤S5003，遍历类别特征，从第一样本包括的特征中去除当前遍历的类别特征，构建第二样本。

步骤S5004，以预设的机器学习模型的设定参数为变量，根据第二样本包含的特征确定对应的目标指标预测表达式。

步骤S5005，根据当前遍历的类别特征的取值，将当前遍历的类别特征所对应的第二样本的集合划分为至少一个子集。

步骤S5006，遍历所有子集，确定当前遍历到的子集中第二样本对应的目标指标预测表达式的平均值，得到预测平均值表达式。

步骤S5007，确定当前遍历到的子集中第二样本对应的目标指标的实际平均值。

步骤S5008，根据当前遍历到的子集的预测平均值表达式和实际平均值，得到当前遍历到的子集的损失函数表达式。

步骤S5009，根据所有子集的损失函数表达式和第二样本对预设的机器学习模型进行训练，得到初始预测模型。

步骤S5010，根据第一样本集对遍历类别特征之后所得到的初始预测模型进行训练，得到目标指标预测模型。

步骤S5011，获取历史导航数据，其中，历史导航数据包括至少两条备选导航路线的路线属性特征，至少两条备选导航路线包括推荐导航路线。

步骤S5012，根据目标指标预测模型，确定备选导航路线的目标指标的预测值。

步骤S5013，对于每条历史导航数据，根据对应的备选导航路线的目标指标的预测值，确定最小预测值。

步骤S5014，分别获取每条历史导航数据所对应的推荐导航路线对应的目标指标预测值，作为推荐预测值。

步骤S5015，根据历史导航数据对应的最小预测值和推荐预测值，确定目标指标预测模型的线下收益。

步骤S5016，获取根据第一模型对第一组导航路线进行处理所得到的第一推荐路线；获取根据目标指标预测模型对第二组导航路线进行处理所得到的第二推荐路线。

步骤S5017，确定第一推荐路线的目标指标的实际取值，作为第一验证结果；确定第二推荐路线的目标指标的实际取值，作为第二验证结果。

步骤S5018，根据第一验证结果和第二验证结果，确定目标指标预测模型的线上收益。

步骤S5019，根据线上收益和线下收益，确定目标指标预测模型在线上和线下是否对齐。在目标指标预测模型在线上和线下对齐的情况下，执行步骤S5020，否则，重新执行步骤S5010。

步骤S5020，获取线上当前运行的第一模型对预设的目标任务进行处理所得到的第一处理结果，以及待部署至线上的第二模型对目标任务进行处理所得到的第二处理结果。

步骤S5021，根据预设的目标指标预测模型对第一处理结果的目标指标进行预测，得到第一预测结果；根据目标指标预测模型对第二处理结果的目标指标进行预测，得到第二预测结果。

步骤S5022，根据第一预测结果和第二预测结果，对第二模型进行评估，得到第二模型的评估结果。

步骤S5023，在第二模型的评估结果为通过的情况下，将第二模型部署至线上运行。

步骤S5024，在第二模型的评估结果为未通过的情况下，对第二模型进行迭代训练。

<装置实施例>

在本实施例中，提供一种模型评估装置6000，如图6所示，包括处理结果获取模块6100、预测结果获取模块6200和模型评估模块6300。该处理结果获取模块6100用于获取线上运行的第一模型对预设的目标任务进行处理所得到的第一处理结果，获取待部署至线上的第二模型对目标任务进行处理所得到的第二处理结果；该预测结果获取模块6200用于根据预设的目标指标预测模型对第一处理结果的目标指标进行预测，得到第一预测结果；根据目标指标预测模型对所第二处理结果的目标指标进行预测，得到第二预测结果；该模型评估模块6300用于根据第一预测结果和第二预测结果，对第二模型进行评估，得到第二模型的评估结果。

在本公开的一个实施例中，目标指标为导航路线的路线偏航率或者路线覆盖率；该模型评估装置6000还可以包括模型获取模块，用于：

获取第一样本集，第一样本集包括的一条第一样本对应一条历史导航路线的特征，特征包括：路线属性特征和目标指标的实际取值；

基于第一样本集对预设的机器学习模型进行训练，得到目标指标预测模型。

在本公开的一个实施例中，路线属性特征包括导航路线所属类别的类别特征；

遍历类别特征，从第一样本包括的特征中去除当前遍历的类别特征，构建第二样本路线属性特征；

根据第二样本对预设的机器学习模型进行训练，得到初始预测模型；

根据第一样本集对初始预测模型进行训练，得到目标指标预测模型。

在本公开的一个实施例中，根据第二样本对预设的机器学习模型进行训练，得到初始预测模型包括：

以预设的机器学习模型的设定参数为变量，根据第二样本包含的特征，确定对应的目标指标预测表达式；

根据第二样本对应的目标指标预测表达式和目标指标的实际取值，构建损失函数表达式；

根据损失函数表达式和第二样本对预设的机器学习模型进行训练，得到预设的机器学习模型的设定参数的值；

根据预设的机器学习模型和预设的机器学习模型的设定参数的值，得到初始预测模型。

在本公开的一个实施例中，根据第二样本对应的目标指标预测表达式和目标指标的实际取值，构建损失函数表达式包括：

根据当前遍历的类别特征的取值，将当前遍历的类别特征所对应的第二样本的集合划分为至少一个子集；

遍历所有子集，根据当前遍历到的子集中第二样本对应的目标指标预测表达式和目标指标的实际取值，确定当前遍历到的子集的损失函数表达式。

在本公开的一个实施例中，根据当前遍历到的子集中第二样本对应的目标指标预测表达式和目标指标的实际取值，确定当前遍历到的子集的损失函数表达式包括：

确定当前遍历到的子集中第二样本对应的目标指标预测表达式的平均值，得到预测平均值表达式；

确定当前遍历到的子集中第二样本对应的目标指标的实际平均值；

根据当前遍历到的子集的预测平均值表达式和实际平均值，得到当前遍历到的子集的损失函数表达式。

在本公开的一个实施例中，该模型评估装置6000还可以包括：

用于验证目标指标预测模型在线上和线下是否对齐的模块；

该预测结果获取模块6200还可以用于在目标指标预测模型在线上和线下对齐的情况下，根据预设的目标指标预测模型对第一处理结果的目标指标进行预测，得到第一预测结果；根据目标指标预测模型对第二处理结果的目标指标进行预测，得到第二预测结果。

在本公开的一个实施例中，验证目标指标预测模型在线上和线下是否对齐包括：

获取历史导航数据，历史导航数据包括至少两条备选导航路线的路线属性特征，至少两条备选导航路线包括推荐导航路线；

根据历史导航数据，确定目标指标预测模型的线下收益；

根据第一模型，确定目标指标预测模型的线上收益；

根据线上收益和线下收益，确定目标指标预测模型在线上和线下是否对齐。

在本公开的一个实施例中，根据历史导航数据，确定目标指标预测模型的线下收益包括：

根据目标指标预测模型，确定备选导航路线的目标指标的预测值；

对于每条历史导航数据，根据对应的备选导航路线的目标指标的预测值，确定最小预测值；

分别获取每条历史导航数据所对应的推荐导航路线对应的目标指标的预测值，作为推荐预测值；

根据历史导航数据对应的最小预测值和推荐预测值，确定目标指标预测模型的线下收益。

在本公开的一个实施例中，根据第一模型，确定目标指标预测模型的线上收益包括：

获取根据第一模型对第一组目标任务进行处理所得到的第一实际处理结果，获取根据目标指标预测模型对第二组目标任务进行处理所得到的第二实际处理结果；

确定第一实际处理结果的目标指标的实际取值，作为第一验证结果；确定第二实际处理结果的目标指标的实际取值，作为第二验证结果；

根据第一验证结果和第二验证结果，确定目标指标预测模型的线上收益。

在本公开的一个实施例中，模型评估模块6300还可以用于：

确定第一预测结果和第二预测结果之差的绝对值；

对绝对值和第一预设阈值进行比较；

根据比较结果确定第二模型的评估结果。

在本公开的一个实施例中，根据比较结果确定第二模型的评估结果包括：

在绝对值小于或等于第一预设阈值的情况下，确定第二模型评估结果为通过；否则，确定第二模型的评估结果为未通过。

在本公开的一个实施例中，该模型评估装置6000还可以包括：

用于在第二模型的评估结果为通过的情况下，将第二模型部署至线上运行的模块；或者，

用于在第二模型的评估结果为未通过的情况下，对第二模型进行迭代训练的模块。

本领域技术人员应当明白，可以通过各种方式来实现模型评估装置6000。例如，可以通过指令配置处理器来实现模型评估装置6000。例如，可以将指令存储在ROM中，并且当启动设备时，将指令从ROM读取到可编程器件中来实现模型评估装置6000。例如，可以将模型评估装置6000固化到专用器件(例如ASIC)中。可以将模型评估装置6000分成相互独立的单元，或者可以将它们合并在一起实现。模型评估装置6000可以通过上述各种实现方式中的一种来实现，或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。

在本实施例中，模型评估装置6000可以具有多种实现形式，例如，模型评估装置6000可以是任何的提供模型评估服务的软件产品或者应用程序中运行的功能模块，或者是这些软件产品或者应用程序的外设嵌入件、插件、补丁件等，还可以是这些软件产品或者应用程序本身。

<电子设备>

在本实施例中，还提供一种电子设备1000。该电子设备1000可以是图2a所示的服务器1100，也可以是如图2b所示的终端设备1200。

在一方面，如图7所示，该电子设备1000可以包括前述的模型评估装置6000，用于实施本公开任意实施例的模型评估方法。

在另一方面，如图8所示，电子设备1000还可以包括处理器1300和存储器1300，该存储器1300用于存储可执行的指令；该处理器1300用于根据指令的控制运行电子设备1000执行根据本公开任意实施例的模型评估方法。

<计算机可读存储介质>

在本实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序在被处理器执行时实现如本公开任意实施例的模型评估方法。

<计算机程序产品>

在本实施例中，还提供一种计算机程序产品，包括计算机可读介质，其包括用于执行如本公开任意实施例的模型评估方法的代码。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框目标上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、目标应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本公开的范围由所附权利要求来限定。

Claims

1.一种模型评估方法，应用于导航领域，包括：

获取待部署至线上的第二模型对目标任务进行处理所得到的第二处理结果；其中，所述目标任务为多个备选路线，所述第一处理结果和所述第二处理结果为从所述备选路线中选出的推荐路线；

根据预设的目标指标预测模型对所述第一处理结果的目标指标进行预测，得到第一预测结果；

根据所述目标指标预测模型对所述第二处理结果的所述目标指标进行预测，得到第二预测结果；所述目标指标为导航路线的路线偏航率或者路线覆盖率；

根据所述第一预测结果和所述第二预测结果，对所述第二模型进行评估，得到所述第二模型的评估结果；其中，在所述第一预测结果和所述第二预测结果之差的绝对值小于或等于第一预设阈值的情况下，所述第二模型的评估结果为通过。

2.根据权利要求1所述的方法，所述方法还包括获取所述目标指标预测模型的步骤，包括：

获取第一样本集，所述第一样本集包括的一条第一样本对应一条历史导航路线的特征，所述特征包括：路线属性特征和目标指标的实际取值；

基于所述第一样本集对预设的机器学习模型进行训练，得到所述目标指标预测模型。

3.根据权利要求2所述的方法，所述路线属性特征包括导航路线所属类别的类别特征，所述基于所述第一样本集对预设的机器学习模型进行训练，得到所述目标指标预测模型包括：

遍历所述类别特征，从所述第一样本包括的特征中去除当前遍历的类别特征，构建第二样本路线属性特征；

根据所述第二样本对预设的机器学习模型进行训练，得到初始预测模型；

根据所述第一样本集对所述初始预测模型进行训练，得到所述目标指标预测模型。

4.根据权利要求3所述的方法，所述根据所述第二样本对预设的机器学习模型进行训练，得到初始预测模型包括：

以所述预设的机器学习模型的设定参数为变量，根据所述第二样本包含的特征，确定对应的目标指标预测表达式；

根据所述第二样本对应的目标指标预测表达式和目标指标的实际取值，构建损失函数表达式；

根据所述损失函数表达式和所述第二样本对所述预设的机器学习模型进行训练，得到所述预设的机器学习模型的设定参数的值；

根据所述预设的机器学习模型和所述预设的机器学习模型的设定参数的值，得到所述初始预测模型。

5.根据权利要求4所述的方法，所述根据所述第二样本对应的目标指标预测表达式和目标指标的实际取值，构建损失函数表达式包括：

根据所述当前遍历的类别特征的取值，将所述当前遍历的类别特征所对应的所述第二样本的集合划分为至少一个子集；

6.根据权利要求5所述的方法，所述根据当前遍历到的子集中第二样本对应的目标指标预测表达式和目标指标的实际取值，确定当前遍历到的子集的损失函数表达式包括：

确定所述当前遍历到的子集中第二样本对应的目标指标预测表达式的平均值，得到预测平均值表达式；

确定所述当前遍历到的子集中第二样本对应的目标指标的实际平均值；

根据所述当前遍历到的子集的所述预测平均值表达式和所述实际平均值，得到所述当前遍历到的子集的损失函数表达式。

7.根据权利要求2所述的方法，所述方法还包括：

验证所述目标指标预测模型在线上和线下是否对齐；

在所述目标指标预测模型在线上和线下对齐的情况下，执行所述根据预设的目标指标预测模型对所述第一处理结果的目标指标进行预测，得到第一预测结果；根据所述目标指标预测模型对所第二处理结果的所述目标指标进行预测，得到第二预测结果的步骤。

8.根据权利要求7所述的方法，所述验证所述目标指标预测模型在线上和线下是否对齐包括：

获取历史导航数据，所述历史导航数据包括至少两条备选导航路线的路线属性特征，所述至少两条备选导航路线包括推荐导航路线；

根据所述历史导航数据，确定所述目标指标预测模型的线下收益；

根据所述第一模型，确定所述目标指标预测模型的线上收益；

根据所述线上收益和所述线下收益，确定所述目标指标预测模型在线上和线下是否对齐；

其中，所述收益为反映在使用所述目标指标预测模型时、与不使用所述目标指标预测模型时所述目标指标所存在的偏差的参数。

9.根据权利要求8所述的方法，所述根据所述历史导航数据，确定所述目标指标预测模型的线下收益包括：

根据所述目标指标预测模型，确定所述备选导航路线的目标指标的预测值；

对于每条所述历史导航数据，根据对应的备选导航路线的目标指标的预测值，确定最小预测值；

分别获取每条所述历史导航数据所对应的推荐导航路线对应的目标指标的预测值，作为推荐预测值；

根据所述历史导航数据对应的最小预测值和推荐预测值，确定所述目标指标预测模型的线下收益。

10.根据权利要求8所述的方法，所述根据所述第一模型，确定所述目标指标预测模型的线上收益包括：

获取根据所述第一模型对第一组目标任务进行处理所得到的第一实际处理结果，获取根据所述目标指标预测模型对第二组目标任务进行处理所得到的第二实际处理结果；

确定所述第一实际处理结果的目标指标的实际取值，作为第一验证结果；确定所述第二实际处理结果的目标指标的实际取值，作为第二验证结果；

根据所述第一验证结果和所述第二验证结果，确定所述目标指标预测模型的所述线上收益。

11.一种模型评估装置，应用于导航领域，包括：

处理结果获取模块，用于获取线上运行的第一模型对预设的目标任务进行处理所得到的第一处理结果，获取待部署至线上的第二模型对所述目标任务进行处理所得到的第二处理结果，其中，所述目标任务为多个备选路线，所述第一处理结果和所述第二处理结果为从所述备选路线中选出的推荐路线；

预测结果获取模块，用于根据预设的目标指标预测模型对所述第一处理结果的目标指标进行预测，得到第一预测结果；根据所述目标指标预测模型对所述第二处理结果的所述目标指标进行预测，得到第二预测结果，所述目标指标为导航路线的路线偏航率或者路线覆盖率；

模型评估模块，用于根据所述第一预测结果和所述第二预测结果，对所述第二模型进行评估，得到所述第二模型的评估结果；其中，在所述第一预测结果和所述第二预测结果之差的绝对值小于或等于第一预设阈值的情况下，所述第二模型的评估结果为通过。

12.一种计算机程序产品，包括计算机可读介质，其包括用于执行如权利要求1至10中任一项所述的方法的代码。