CN116594828B

CN116594828B - 一种端智能的质量评测方法及装置

Info

Publication number: CN116594828B
Application number: CN202310860538.9A
Authority: CN
Inventors: 沈广玲; 萧仪宗; 余昊; 刘国栋; 李雅玉
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2023-10-24
Anticipated expiration: 2043-07-13
Also published as: CN116594828A

Abstract

本说明书提供一种端智能的质量评测方法及装置，应用于云端服务器，所述方法包括：将目标模型分别部署至多个评测终端上，至少两个评测终端之间的硬件环境和/或软件环境存在差异；通过所述云端服务器上部署的第一类评测组件触发所述多个评测终端分别针对本地部署的目标模型执行对应的第一评测操作，并接收所述多个评测终端分别返回的所述第一评测操作产生的第一操作数据；根据各个评测终端分别对应的第一操作数据，分别确定相应的每一评测终端对应的第一类评测结果，所述第一类评测结果用于生成所述目标模型对应的端智能评测报告。

Description

一种端智能的质量评测方法及装置

技术领域

本说明书涉及评测报告领域，尤其涉及一种端智能的质量评测方法及装置。

背景技术

近年来，随着人工智能（Artificial Intelligence，AI）的蓬勃发展，端智能（On-Device Machine Learning）这一概念引起了人们的广泛关注。其中，端智能是指将有关机器学习的应用交由端侧（例如手机、物联网设备等终端）执行的技术，相比于将机器学习中的模型部署于云端服务器，端智能可以支持将模型直接部署于终端本地进行应用，从而在节省数据的网络传输时间，充分利用端侧的算力和存储空间的同时还能够避免传输引起的隐私泄露风险。然而，上述模型在一部分终端的设备环境下可能会出现不适配的问题，甚至造成程序奔溃等异常情况，因此模型开发人员有必要对同一模型在不同终端下的适配情况进行质量评测，进而及时发现问题并进行修正。

在相关技术中，上述评测通常通过传统人工测试的方法实现，即由测试人员挑选少量终端逐个进行评测，但是该方法存在测试终端的覆盖度低、时间成本高且无法复用于不同终端的问题，导致评测准确性较差；或者，通过纯云端模型评测的方法实现，即将利用模拟数据在云端服务器中完成所有评测过程，但是该方法容易忽略真实终端的参数影响，同样导致评测准确性较差；又或者，通过分别独立部署于终端与云端服务器的两套评测系统实现较高的评测准确性，但该方法所需成本高且需要模型分别进行两次评测，同时还存在两套评测系统评测结果不一致的隐患。

发明内容

有鉴于此，本说明书提供一种端智能的质量评测方法及装置，以解决相关技术中存在的不足。

具体地，本说明书是通过如下技术方案实现的：

根据本说明书实施例的第一方面，提供了一种端智能的质量评测方法，应用于云端服务器，所述方法包括：

将目标模型分别部署至多个评测终端上，至少两个评测终端之间的硬件环境和/或软件环境存在差异；

通过所述云端服务器上部署的第一类评测组件触发所述多个评测终端分别针对本地部署的目标模型执行对应的第一评测操作，并接收所述多个评测终端分别返回的所述第一评测操作产生的第一操作数据；

根据各个评测终端分别对应的第一操作数据，分别确定相应的每一评测终端对应的第一类评测结果，所述第一类评测结果用于生成所述目标模型对应的端智能评测报告。

根据本说明书实施例的第二方面，提供了一种端智能的质量评测装置，应用于云端服务器，所述装置包括：

模型部署单元，用于将目标模型分别部署至多个评测终端上，至少两个评测终端之间的硬件环境和/或软件环境存在差异；

评测操作触发单元，用于通过所述云端服务器上部署的第一类评测组件触发所述多个评测终端分别针对本地部署的目标模型执行对应的第一评测操作，并接收所述多个评测终端分别返回的所述第一评测操作产生的第一操作数据；

评测报告生成单元，用于根据各个评测终端分别对应的第一操作数据，分别确定相应的每一评测终端对应的第一类评测结果，所述第一类评测结果用于生成所述目标模型对应的端智能评测报告。

根据本说明书实施例的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如第一方面所述的方法的步骤。

根据本说明书实施例的第四方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的方法的步骤。

在本说明书所提供的技术方案中，通过云端服务器上部署的第一类评测组件来触发多个评测终端自身去执行第一评测操作，使得由第一评测操作产生的第一操作数据天然具备较高的评测价值与较广的终端覆盖度，从而也提高了根据第一操作数据确定的智能评测报告的准确性。且第一操作数据交由云端服务器以生成对应的第一类评测结果与端智能评测报告，而非由每一评测终端单独生成，使得云端服务器与终端之间形成了一个完整的质量评测体系，杜绝了不同评测体系导致的评测一次性问题，且目标模型仅需经过一次评测，有效减低了评测所需成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本说明书一示例性实施例示出的一种端智能的质量评测系统的架构示意图；

图2是本说明书一示例性实施例示出的一种端智能的质量评测方法的流程示意图；

图3是本说明书一示例性实施例示出的一种模型效果评测操作的流程示意图；

图4a是本说明书一示例性实施例示出的另一种端智能的质量评测方法的流程示意图；

图4b是本说明书一示例性实施例示出的又一种端智能的质量评测方法的流程示意图；

图5是本说明书一示例性实施例示出的一种电子设备的示意结构图；

图6是本说明书一示例性实施例示出的一种端智能的质量评测装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与本说明书的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本说明书所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

在相关技术中，端智能通常应用于安装在端侧的软件程序中，以实现类似语音助手、个性化内容的精准推荐、自动美颜或生成AI图像等涉及人工智能技术的功能。其中，用于实现上述任一功能的机器学习模型可以由云端服务器训练生成，并在模型准换后部署于不同的用户终端中以供对应的真实用户使用。该过程的隐患在于被部署的模型与终端之间可能由于不适配的问题导致上述软件程序的发生各种异常结果，显然将上述异常结果直接展示于真实用户的使用过程中将会直接减低用户的使用体验，因此需要建立一套针对端智能的模型的质量评测体系以确保在真实用户实际使用机器学习模型之前就确定出该模型在不同用户终端下的适配情况。

图1是本说明书一示例性实施例示出的一种端智能的质量评测系统的架构示意图，如图1所示，上述系统中包含云端服务器11与多个评测终端12。

云端服务器11为支持数据传输、处理功能的网络设备，在所述系统运行过程中，可以使用第一类评测组件触发多个评测终端12执行对应的第一评测操作，并获取对应的第一操作数据以生成与目标模型对应的端智能评测报告。此外，云端服务器11可以分别由一独立主机的物理服务器，或者为主机集群承载的虚拟服务器搭建，本说明书并不对此进行限制。

多个评测终端12为不同于上述用户终端的若干个其他终端，在所述系统运行过程中，评测终端可以专门用于辅助评测人员评测目标模型在真机环境下的执行情况，以便于模拟目标模型在与评测终端相同环境的用户终端的执行情况，具体地，评测终端可以根据第一类评测组件触发针对已经在本地部署的目标模型执行对应的第一评测操作，并向云端服务器返回对于的第一操作数据。上述评测终端可以是手机、物联网设备等任一支持数据传输以及模型推理能力的电子设备，本说明书并不对此进行限制。

图2是本说明书一示例性实施例示出的一种端智能的质量评测方法的流程示意图。如图2所示，上述方法应用于云端服务器，可以包含以下步骤：

S201，将目标模型分别部署至多个评测终端上，至少两个评测终端之间的硬件环境和/或软件环境存在差异。

如前所述，在端智能场景中，上述目标模型可以经由上述云端服务器训练后再部署于多个评测终端中，以便上述多个评测终端可以直接在本地对部署的目标模型实现模型推理服务（即将训练好的模型应用于新数据以进行预测或分类的过程，该过程中的目标模型可以根据输入数据生成对应输出结果），避免了评测终端与云端服务器之间收发模型输入/输出数据所造成的资源消耗与数据泄漏风险。同时，在多个评测终端中，至少两个评测终端之间的硬件环境（例如评测终端的型号）和/或软件环境（例如评测终端所使用的操作系统种类与版本）存在差异，使得下文的第一操作数据具备相应的差异性（该差异性可以随评测终端的数量与种类的增加而提高），进而使得最终生成端智能评测报告可以表征目标模型在更多不同的评测终端下的评测结果。

S202，通过所述云端服务器上部署的第一类评测组件触发所述多个评测终端分别针对本地部署的目标模型执行对应的第一评测操作，并接收所述多个评测终端分别返回的所述第一评测操作产生的第一操作数据。

上述第一类评测组件可以用于接收来自多个评测终端分别返回的第一操作数据，且上述第一操作数据是有对应的评测终端针对本地部署的目标模型执行对应的第一评测操作而产生的数据，即评测终端和云端服务器可以通过第一类评测组件分别实现了对第一操作数据的生成与分析阶段。换言之，基于多个评测终端和云端服务器所形成的“端云框架”（类似图1）可以使用第一类评测组件以高效控制多个评测终端对于本地部署的目标模型的第一评测操作，并在云端服务器中集中接收来自不同的评测终端的第一操作数据。

上述第一类评测组件可以根据针对已部署目标模型的评测终端的评测维度至少划分为终端功能评测组件和/或终端稳定性评测组件。

上述终端功能评测组件可以将特定场景中录制的操作指令作为功能用例，或者通过编写自定义的操作指令作为上述功能用例，并将上述用例脚本在多个评测终端上进行回放，从而实现在云端服务器中快速完成针对多个评测终端的批量调度和校验。相应的，第一评测操作中可以包含由终端功能评测组件分别触发多个评测终端根据预设的功能用例执行的针对目标模型的功能评测操作，第一操作数据则可以包括由功能评测操作产生的操作数据。其中，上述功能评测操作可以包括下述至少之一：执行界面下滑、执行界面刷新和执行界面跳转等用户常见的操作行为，本说明书中并不对此进行限制。

上述终端稳定性评测组件可以将特定场景中部署了目标模型的评测终端进行基本性能数据的采集，进而发现部署于部分低端机型、特殊机型的目标模型可能造成的不兼容问题与稳定性问题。其中上述特定场景可以由针对评测终端的预设评测条件所确定，例如预设评测条件为“评测终端触发对应应用中的有关‘设置’的页面跳转按钮且未退出该页面”时，上述特定场景可被视为上述评测终端停留在‘设置’页面的所有场景。相应的，第一评测操作中可以包含由终端稳定性评测组件分别触发多个评测终端根据预设评测条件执行的针对目标模型的稳定性评测操作，第二操作数据则可以包括由稳定性评测操作产生的操作数据。其中，上述稳定性评测操作可以包括下述至少之一：获取闪退率，获取内存占用率、获取处理器占有率，获取代码覆盖率等基本性能数据的获取操作。本领域技术人员可以理解的是，由于稳定性评测操作的具体原理与实施方法已基本被相关技术所公开，因此本说明书在此不再进行赘述。

需要说明的是，上述终端功能评测组件可以用于评测部署有目标模型的多个评测终端在是否能够正常地实现对应功能，上述终端稳定性评测组件可以用于评测部署有目标模型的多个评测终端在正常实现对应功能时是否稳定。二者可以在使用策略上进行一定优化，即当终端功能评测组件确定某一评测终端无法正常地实现对应功能时，可以不再使用终端稳定性评测组件进行进一步确认，例如执行点击页面跳转按钮后没有触发相应的页面调整操作，那么针对被跳转页面的稳定性评测操作也失去了执行的意义（因为可以提前预测通过稳定性评测组件触发稳定性评测操作得到的操作数据为空），或者，当软件开发人员仅对目标模型进行了细微的、必然不影响对应功能实现的修改操作，那么可以选择性地省略针对终端功能评测组件的应用，转而直接应用终端稳定性评测组件，从而提高评测效率。总之，所述第一类评测组件通过触发多个评测终端的执行对应的第一评测操作，使得原本可能由用户终端才能被发现的功能问题、稳定性问题可以提前在评测终端执行对应的第一评测操作时被排查出来并进行拦截与修复。

S203，根据各个评测终端分别对应的第一操作数据，分别确定相应的每一评测终端对应的第一类评测结果，所述第一类评测结果用于生成所述目标模型对应的端智能评测报告。

当云端服务器分别接收到由多个评测终端返回的第一操作数据时，可以根据各个评测终端分别对应的第一操作数据，分别确定相应的每一评测终端对应的第一类评测结果，进而根据确定的第一类评测结果生成上述端智能评测报告，其中，该智能评测报告可以用于总结性地表征目标模型部署在多个评测终端所对应的硬件环境和软件环境中的具体情况，该具体情况可以以可读的文字解释或图片等形式进行说明，本说明书中比不对此进行限制。所述第一类评测结果是对相应评测终端返回的第一操作数据的分析结果，例如上述第一类评测组件包含针对“首页刷新”功能的终端功能评测组件时，当对应的第一评测操作执行失败时，终端返回的第一操作数据可为可读性较弱的操作失败提示代码，而终端功能评测组件则可以将该提示代码解释为可读性较强的、规范化的文字说明，上述端智能评测报告则可以分别对不同的评测终端对应的第一类评测结果进行规律总结。当然，关于由第一操作数据确定为第一类评测结果的过程以及端智能评测报告基于上述第一类评测结果生成方式与原理可根据实际情况进行确定，例如通过云端服务器中预先维护的第一操作数据解释对照表确定与上述第一操作数据对应的第一类评测结果，又例如对相同硬件环境和软件环境的评测终端所返回的第一操作数据或第一类评测结果进行整合并过滤重复项，最后在生成对应的端智能评测报告，本说明书中并不对此进行限制。

此外，在将目标模型部署至多个评测终端前，还可以通过在云端服务器上部署其他类型的评测组件对用于训练目标模型的特征样本，以及经过训练后的目标模型的模型效果进行补充性的评测并获取相应的操作数据，进而完善上述端智能评测报告的准确性。

在一实施例中，可以通过云端服务器上部署的第二类评测组件触发云端服务器针对目标模型执行对应的第二评测操作，并获取第二评测操作产生的第二操作数据；同时根据第二操作数据，确定对应的第二类评测结果，并根据第二类评测结果与第一类评测结果共同生成目标模型对应的端智能评测报告。在该实施例中，上述第二类评测组件可以包含模型样本评测组件和/或模型效果评测组件，上述端智能评测报告则是在第一类评测结果的基础上结合了第对于目标模型自身以及训练所涉及的特征样本的二类评测结果，使得端智能评测报告中可以已更多的维度对目标模型进行评测。

上述模型样本评测组件可以接收多个评测终端中的不同场景下统一回流的特征样本，并通过标准化的格式清洗，对将要用于模型的特征样本基于正确性、一致性、时效性、重要度等维度进行评测，同时还可以在此基础上追加特征样本采集态的相关指标进行度量。保证端特征可靠性。相应的，第二评测操作中可以包含由模型样本评测组件触发云端服务器根据不同样本维度执行的针对目标模型的样本评测操作，第二操作数据则可以包括由样本评测操作产生的操作数据。其中，上述样本评测操作包括下述至少之一：获取样本采集成功率（可以对应上述样本采集态的相关指标）、确定样本生成时以及样本内容质量等特征样本的固有属性，本说明书中并不对此进行限制。此外，上述除了特征样本可以来自上述多个评测终端还可以其他已充分了解并同意提交特征样本的用户终端；上述特征样本的提取方法可以通过例如预设埋点的方式获取，本说明书中对此并不进行限制。

上述模型效果评测组件可以根据预设评测数据分别比较训练前后的目标模型来确定训练后的、新的目标模型（简称为待上线模型）和训练前的、旧的目标模型（简称为基线模型），进而判断基线模型是否具有更好的模型预测效果。相应的，第二评测操作中可以包含由模型效果评测组件触发云端服务器根据预设模型效果评测算法执行的针对目标模型的效果评测操作，第二操作数据则可以包括由效果评测操作产生的操作数据。其中，上述效果评测操作包括下述至少之一：根据预设评测数据分别对训练前后的目标模型（即上述基线模型与上述待上线模型）执行方差计算、根据预设评测数据分别对训练前后的目标模型执行相近分布近似与向量近似计算、根据预设评测数据分别对训练前后的目标模型执行库尔巴克-莱布勒KL散度和皮尔逊相关系数（pearson）计算，上述预设评测数据包含开发人员对目标模型的输入参数以及预期的输出参数，实际上上述第二评测操作均可视为对待上线模型与基线模型的仿真（即目标模型的输出结果与真实情况的相似程度。在机器学习中，模型拟真是指模型对训练数据的拟合程度，即模型能否准确地预测训练数据中的结果）评测。

其中，上述KL散度和皮尔逊相关系数都是在数学领域中均是用于衡量两个分布之间的相似度。KL散度是一种非对称的测量方法，它衡量的是两个概率分布之间的距离，而皮尔逊相关系数则是一种对称的测量方法，它衡量的是两个变量之间的线性关系程度。KL散度越小，表示两个分布越相似；KL散度越大，表示两个分布越不相似，而皮尔逊相关系数的取值范围在-1到1之间，当取值为1时，表示两个变量完全正相关；当取值为-1时，表示两个变量完全负相关；当取值为0时，表示两个变量之间没有线性关系。本说明书的方案可以将KL散度和皮尔逊相关系数同时应用于目标模型的效果评测，进而提高效评测的精确性，例如当上述基线模型的KL散度大于预设散度阈值（例如0.45）且皮尔逊相关系数大于预设系数阈值（例如0.5），上述待上线模型的KL散度小于预设散度阈值（例如0.45）且皮尔逊相关系数也大于预设系数阈值（例如0.5），则上述第二类评测结果可以确定表征为例如待上线模型的预测结果与真实结果之间的关联性相比基线模型更强、更接近，否则上述第二类评测结果可以确定表征为例如待上线模型的预测结果与真实结果之间的关联性相比基线模型更弱、更疏远，相比单独使用KL散度或皮尔逊相关系数的场景更具准确性。此外，考虑到上述方差计算、分布近似和向量近似计算的模型效果判断手段与原理基本已被相关技术所公开，因此本说明书中对此并不进行赘述。

此外，上述第一类评测组件中可以存在多个备选组件，且上述云端服务器中可以维护有不同评测终端与备选组件之间的对应关系，因此在云端服务器触发评测终端的第一评测操作之前，还可以根据上述对应关系确定多个评测终端分别对应的备选组件，并通过确定的备选组件触发多个评测终端分别针对本地部署的目标模型执行对应的第一评测操作，从而使得不同评测终端分别对应有相同或不同的第一类评测组件，例如，假设使用搭载苹果系统的用户终端的使用人群相比使用安卓或其他系统更多，那么对应前者的对应关系中可以配置测试用例更多的终端功能评测组件与终端稳定性评测组件作为相应的备选组件，从而进一步减低此类人员的用户终端发送异常的概率；而对应后者的对应关系中可以配置测试用例较少的终端功能评测组件与终端稳定性评测组件作为相应的备选组件，从而缩短评测所需的时间，提高模型评测的整体效率。

针对上述模型效果评测组件的具体执行步骤可以结合图3进行详细说明，如图3所示，上述模型效果评测操作可以划分为以下步骤：

S301，转换模型。

在一实施例中，可以将主流的深度学习训练框架（例如谷歌的TensorFlow与脸书的PyTorch等等）所产出的模型转换为可实际部署在评测终端上的可解释神经网络（Explainable Neural Network，XNN）模型。以上述TensorFlow为例，与其对应XNN模型为TensorFlow Lite，可帮助开发人员在移动设备、嵌入式设备和IoT设备上运行TensorFlow模型，其中，可以使用TensorFlow Lite Converter这一转换工具将云端服务器中以训练完成的、基于TensorFlow实现的目标模型转换为TensorFlow Lite模型，以便在移动设备上部署目标模型。

S302，根据转换后模型的数据构造请求。

在一实施例中，可以将采集到的样本数据作为输入数据（下文的仿真数据）转换为XNN模型所匹配的格式。例如原本适用于TensorFlow模型的输入数据并不适用于TensorFlow Lite模型，因此可以将输入数据进行转换。进一步地，还可以将输入数据进行清洗后构造为对应格式的请求，其中，上述请求可以基于云端服务器或第三方开发数据处理服务（Open Data Processing Service，ODPS）平台进行格式的指定以及具体的执行，本说明书中并不对其进行限制。

S303，针对模型进行仿真打分。

在一实施例中，在接收到上文构造的请求后可以对分别对上一次训练（对应图3的基线版本）得到的XNN模型与本次训练得到（对应图3的待上线版本）的XNN模型进行测试，以评估其性能。在这个过程中，可以使用一些测试数据集来测试模型的预测效果（即上述模型仿真）。具体的，可以基于针对以上两个不同XNN模型的仿真结果作为打分数据发送至上述云端服务器或第三方开发数据处理服务中推进后续的模型指标评估。

S304，根据模型指标进行效果评估。

在一实施例中，可以根据上一步骤所发送的两份打分数据对最后一次训练后的XNN模型进行评估，以确定其是否达到预期的性能水平，进而生成相应的评估结果作为与由上述效果评测操作产生的操作数据所对应的第二类评测结果。在这个过程中，可以使用一些指标来评估模型的性能，例如准确率、召回率、F1值（F1 Score）与Zark指标（用于衡量系统的数据一致性的指标）等等，如果上述指标符合对应的指标阈值，那么它就可以被认为是一个好的模型。此外，还可以配合对打分数据的方差统计、分布近似和向量近似计算以及KL散度和皮尔逊相关系数(pearson)的相应取值，避免训练前后的模型效果发生预期之外的偏移。

下面以安装于移动终端且基于端智能实现的移动应用（application，APP）为例，结合图4a和图4b对该应用中的模型评测进行说明，图4a是本说明书一示例性实施例示出的另一种端智能的质量评测方法的流程示意图，图4b是本说明书一示例性实施例示出的又一种端智能的质量评测方法的流程示意图，如图4a所示，本说明书的端智能的质量评测方法可以通过将不同的测评组件查询分别插入流程流水线（pipline）的不同环节，并在审批环节中基于各测评组件所确定的评测结果生成最终端智能评测报告，并根据该端智能评测报告进行后续的灰度放量与线上推全环节。具体地，图4a中的具体流程可如图4b所示，上述方法涉及云端服务器41、评测终端42与用户终端43三种角色，具体包含以下步骤。

401.数据采集与特征样本加工。

在一实施例中，假设上述移动应用可以在用户已充分了解并同意的情况下基于埋点技术收集用户在用户终端上针对移动应用执行的页面跳转行为，那么与该移动应用对应的云端服务器可以分别接收来自不同用户终端的埋点数据作为特征样本，其中上述特征样本可以作为对应目标模型（假设为TensorFlow模型）的训练数据，同时可以对上述特征样本进行统一格式等预加工处理。

402.调用模型样本评测组件评测加工后的特征样本。

在一实施例中，云端服务器可以通过自身部署的模型样本评测组件触发云端服务器针对目标模型执行对应的样本评测操作，进而可以根据样本的采集成功率以及特征样本内容质量对页面跳转行为的采集成功率较高、跳转页面较多、跳转顺序复杂多样的特征样本确定为评价较高的第二类评测结果（该结果可通过可读性较高的文字形式表现），反之，对页面跳转行为的采集成功率较低、跳转页面较少、跳转顺序简单重复的特征样本确定为评价较低的第二类评测结果。

403.训练目标模型并调用模型效果评测组件评测训练后的模型效果。

在一实施例中，云端服务器可以根据加工后的特征样本对目标模型进行迭代训练，并可以通过自身部署的模型效果评测触发云端服务器针对目标模型执行对应的样本评测操作，即可以将训练前后的目标模型进行仿真打分与效果评估，并得到最终的第二类评测结果，其具体过程与S301~S304基本一致，因此本说明书在此并不再进行赘述。

404.转换并部署目标模型。

在一实施例中，云端服务器可以将转换为TensorFlow Lite的XNN模型以软件更新等形式发送至评测终端中。

405.调用终端功能评测组件。

406.执行功能评测操作。

在一实施例中，云端服务器可以通过自身部署的终端功能评测组件触发所述多个评测终端分别针对本地部署的目标模型执行对应的功能评测操作，其中，上述功能评测操作可以为执行针对上述应用程序中所有页面的按钮跳转指令，上述指令可以通过脚本用例的形式实现。

407.返回相应的操作数据。

在一实施例中，当多个评测终端完成所有功能评测操作后，可以将各个操作所对应的按钮跳转指令的执行情况通过终端功能评测组件对相应评测终端中设置的钩子（Hook）快速返回至云端服务器。

408.调用终端稳定性评测组件。

409.执行稳定性评测操作。

在一实施例中，云端服务器可以通过自身部署的终端稳定性评测组件触发所述多个评测终端分别针对本地部署的目标模型执行对应的稳定性评测操作，其中，上述稳定性评测操作可以为执行针对上述应用程序在满足预设评测条件（例如处于“首页”页面时）的情况下对评测终端的闪退率和内存、CPU占用情况进行统计。

410.返回相应的操作数据。

在一实施例中，上述多个评测终端完成所有稳定性评测操作后，可以将统计完成的闪退率和内存、CPU占用情况通过稳定性评测操作对相应评测终端中设置的钩子（Hook）快速返回至云端服务器。其中，由稳定性评测操作所生成的操作数据与由功能评测操作所生成的操作数据可以在同时返回至云端服务器或者以不同先后顺序、返回条件返回至云端服务器。

411.生成目标模型对应的端智能评测报告。

在一实施例中，云端服务器可以对接收到的第一操作数据和第二操作数据进行汇总，并得出相应的第一类评测结果和第二类评测结果，进而集中分析上述第一类评测结果和第二类评测结果以生成上述端智能评测报告，并可以展示于云端服务器的审批界面以供开发人员确认。

412.响应于针对端智能评测报告的审批操作进行灰度投放。

在一实施例中，假设上述端智能评测报告表征训练后的目标模型相比原有模型具有更好的评测效果，那么开发人员可以在上述审批界面执行审批通过操作以将训练后的目标模型以灰度测试的方式投放到小部分用户终端中。

413.将目标模型全面推送至不同的用户终端。

在一实施例中，当上述灰度测试的反馈结果进一步表征了部署新的目标模型的应用程序在不同硬件环境和软件环境下的用户终端中均具有一定的稳定性，那么可以将上述目标模型全面推送部署至所有用户终端中。

图5是一示例性实施例中的一种电子设备的示意结构图。请参考图5，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成端智能的质量评测装置。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

与前述端智能的质量评测方法的实施例相对应，本说明书还提供了端智能的质量评测装置的实施例。

请参考图6，图6是一示例性实施例示出的一种端智能的质量评测装置的结构示意图。如图6所示，在软件实施方式中，该装置可以包括：

模型部署单元601，用于将目标模型分别部署至多个评测终端上，至少两个评测终端之间的硬件环境和/或软件环境存在差异；

评测操作触发单元602，用于通过所述云端服务器上部署的第一类评测组件触发所述多个评测终端分别针对本地部署的目标模型执行对应的第一评测操作，并接收所述多个评测终端分别返回的所述第一评测操作产生的第一操作数据；

评测报告生成单元603，用于根据各个评测终端分别对应的第一操作数据，分别确定相应的每一评测终端对应的第一类评测结果，所述第一类评测结果用于生成所述目标模型对应的端智能评测报告。

可选的，所述第一类评测组件包含终端功能评测组件和/或终端稳定性评测组件；

所述第一评测操作包括：由所述终端功能评测组件分别触发所述多个评测终端根据预设的功能用例执行的针对所述目标模型的功能评测操作，和/或，由所述终端稳定性评测组件分别触发所述多个评测终端根据预设评测条件执行的针对所述目标模型的稳定性评测操作；

所述第一操作数据包括：由所述功能评测操作产生的操作数据，和/或，由所述稳定性评测操作产生的操作数据。

可选的，所述功能评测操作包括下述至少之一：执行界面下滑、执行界面刷新和执行界面跳转；

所述稳定性评测操作包括下述至少之一：获取闪退率，获取内存占用率、获取处理器占有率，获取代码覆盖率。

可选的，所述装置还包括：

第二评测操作触发单元604，用于通过所述云端服务器上部署的第二类评测组件触发所述云端服务器针对所述目标模型执行对应的第二评测操作，并获取所述第二评测操作产生的第二操作数据；

根据所述第二操作数据，确定对应的第二类评测结果，根据所述第二类评测结果与所述第一类评测结果共同生成所述目标模型对应的端智能评测报告。

可选的，所述第二类评测组件包含模型样本评测组件和/或模型效果评测组件；

所述第二评测操作包括：由所述模型样本评测组件触发所述云端服务器根据预设样本维度执行的针对所述目标模型的样本评测操作，和/或，由所述模型效果评测组件触发所述云端服务器根据预设模型效果评测算法执行的针对所述目标模型的效果评测操作；

所述第二操作数据包括：由所述样本评测操作产生的操作数据，和/或，由所述效果评测操作产生的操作数据。

可选的，所述样本评测操作包括下述至少之一：获取样本采集成功率、确定样本生成时间、确定样本内容质量；

所述效果评测操作包括下述至少之一：根据预设评测数据分别对训练前后的目标模型执行方差计算、根据预设评测数据分别对训练前后的目标模型执行相近分布近似与向量近似计算、根据预设评测数据分别对训练前后的目标模型执行库尔巴克-莱布勒KL散度和皮尔逊相关系数计算。

可选的，所述装置还包括：

备选组件确定单元605，用于所述第一类评测组件中存在多个备选组件，所述云端服务器维护有不同评测终端与备选组件之间的对应关系；所述通过所述云端服务器上部署的第一类评测组件触发所述多个评测终端分别针对本地部署的目标模型执行对应的第一评测操作，包括：

根据所述对应关系确定所述多个评测终端分别对应的备选组件，并通过确定的备选组件触发所述多个评测终端分别针对本地部署的目标模型执行对应的第一评测操作。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位系统（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种端智能的质量评测方法，其特征在于，应用于云端服务器，所述方法包括：

根据各个评测终端分别对应的第一操作数据，分别确定相应的每一评测终端对应的第一类评测结果，所述第一类评测结果用于生成所述目标模型对应的端智能评测报告；

所述方法还包括：

通过所述云端服务器上部署的第二类评测组件触发所述云端服务器针对所述目标模型执行对应的第二评测操作，并获取所述第二评测操作产生的第二操作数据；

根据所述第二操作数据，确定对应的第二类评测结果，根据所述第二类评测结果与所述第一类评测结果共同生成所述目标模型对应的端智能评测报告；

所述第二类评测组件包含模型样本评测组件和/或模型效果评测组件；

所述第二操作数据包括：由所述样本评测操作产生的操作数据，和/或，由所述效果评测操作产生的操作数据；

所述样本评测操作包括下述至少之一：获取样本采集成功率、确定样本生成时间、确定样本内容质量；

2.根据权利要求1所述的方法，其特征在于，

所述第一类评测组件包含终端功能评测组件和/或终端稳定性评测组件；

3.根据权利要求2所述的方法，其特征在于，

所述功能评测操作包括下述至少之一：执行界面下滑、执行界面刷新和执行界面跳转；

4.根据权利要求1所述的方法，其特征在于，所述第一类评测组件中存在多个备选组件，所述云端服务器维护有不同评测终端与备选组件之间的对应关系；所述通过所述云端服务器上部署的第一类评测组件触发所述多个评测终端分别针对本地部署的目标模型执行对应的第一评测操作，包括：

5.一种端智能的质量评测装置，其特征在于，应用于云端服务器，所述装置包括：

评测报告生成单元，用于根据各个评测终端分别对应的第一操作数据，分别确定相应的每一评测终端对应的第一类评测结果，所述第一类评测结果用于生成所述目标模型对应的端智能评测报告；

所述装置还包括：

第二评测操作触发单元，用于通过所述云端服务器上部署的第二类评测组件触发所述云端服务器针对所述目标模型执行对应的第二评测操作，并获取所述第二评测操作产生的第二操作数据；

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1~4任一所述方法的步骤。

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1~4任一所述方法的步骤。