CN109934341A

CN109934341A - 训练、验证以及监测人工智能和机器学习的模型

Info

Publication number: CN109934341A
Application number: CN201811341072.7A
Authority: CN
Inventors: A·德奥; M·费尔南德斯; K·P·尔格; T·埃斯克里格; B·戈施; M·文卡塔·拉曼
Original assignee: Accenture Global Solutions Ltd
Current assignee: Accenture Global Solutions Ltd
Priority date: 2017-11-13
Filing date: 2018-11-12
Publication date: 2019-06-25
Also published as: US20190147371A1; US10990901B2

Abstract

本发明涉及训练、验证以及监测人工智能和机器学习的模型。设备标识针对模型的训练数据和评分数据，并且去除来自训练数据的偏差，来生成无偏差的训练数据。设备利用无偏差的训练数据来训练模型，以生成经训练的模型，并且利用评分数据来处理经训练的模型，以生成针对经训练的模型的分数。设备基于模型度量和分数，从经训练的模型中选择经训练的模型，并且利用该经训练的模型来处理训练样本，以生成第一结果，其中训练样本是基于无偏差的训练数据和生产数据而被创建的。设备利用经训练的模型来处理生产样本，以生成第二结果，其中生产样本是基于生产数据和训练样本而被创建的。设备基于第一结果和第二结果，提供用于在生产环境中使用的经训练的模型。

Description

训练、验证以及监测人工智能和机器学习的模型

相关申请

本申请根据35 U.S.C.§119要求于2017年11月13日提交的第201741040434号印度专利申请的优先权，其内容通过整体引用并入本文。

背景技术

人工智能(AI)描述了使机器能够在感测和理解环境以及做出决定或预测方面仿真人类的不同技术。通过先进的，仿人的智能(例如，由软件和硬件提供的)，人工智能设备可以模仿人类行为或执行任务，仿佛设备就是人类。人工智能涵盖众多不断发展的技术，在学习和自调节(例如，经由机器学习，深度学习等)的同时，增强机器感测(例如，经由计算机视觉，音频处理，传感器处理等)的能力，理解收集到的信息(例如，经由自然语言处理，知识表示等)的能力，行动或做出明智的决定(例如，经由推理引擎，预测，专家系统等)的能力。因此，人工智能包括许多由机器学习支撑的技术。这些技术正在被用来构建先进的人工智能解决方案，这些解决方案不仅在数字化企业中创造新的价值，而且帮助重新定义这些企业如何通过新的产品和流程起作用。

机器学习是一个给予计算机在没有被明确编程的情况下学习的能力的研究领域。它由一类重点在于学习而不仅是计算机编程的算法组成。机器学习构成被包括在人工智能之下的核心技术的子集，其使得机器能够基于数据来学习模式。在机器学习中，设备利用复杂的算法来分析大量的数据，识别数据中的模式，以及在不需要人将特定指令编程到设备的软件中的情况下做出预测。深度学习是机器学习的子集，并且利用大量的数据和计算能力来训练深层神经网络。神经网络是被设计来识别模式的算法集，根据人脑不严格地建模而来。它们一般由输入层、输出层以及一个或多个隐藏层组成。深层神经网络通常由大量隐藏层组成，并且使用更复杂的算法来映射数据属性之间的相关性，并且使得机器能够执行诸如分类、相关性、相似度和异常检测等任务。深层学习网络具有转移学习的能力，即，预先训练好的网络可以被更新，以将其学习应用到新的数据集。由于它们的学习更复杂模式的能力，深层神经网络已经在诸如图像分类，文本识别和相关应用等领域创造了准确性的新纪录。

发明内容

根据一些实施方式，设备可以包括一个或多个存储器以及通信地耦合到一个或多个存储器的一个或多个处理器，来接收模型和针对模型的数据，其中模型可以包括人工智能模型或机器学习模型。基于数据，一个或多个处理器可以标识针对模型的训练数据和评分数据，并且可以去除来自训练数据的偏差来生成无偏差的训练数据。利用无偏差的训练数据，一个或多个处理器可以训练模型来生成多个经训练的模型，并且可以利用评分数据处理多个经训练的模型来生成针对多个经训练的模型的分数。基于模型度量和分数，一个或多个处理器可以从多个经训练的模型中评估并选择经训练的模型，并且可以基于无偏差的训练数据以及与生产环境相关联的生产数据来创建针对经训练的模型的训练样本，经训练的模型将在生产环境中被使用。一个或多个处理器可以基于生产数据以及训练样本来创建生产样本，并且可以利用经训练的模型来处理训练样本和生产样本，以生成与训练样本相关联的第一结果以及与生产样本相关联的第二结果。一个或多个处理器可以基于第一结果和第二结果来验证用于在生产环境中使用的经训练的模型，并且可以基于对经训练的模型的验证来提供将在生产环境中被使用的经训练的模型。

根据一些实施方式，非暂时性计算机可读介质可以存储包括一个或多个指令的指令，当一个或多个指令由设备的一个或多个处理器执行时，使得一个或多个处理器从所接收的数据中标识针对模型的训练数据和评分数据。一个或多个指令可以使得一个或多个处理器利用训练数据来训练模型，以生成多个经训练的模型；以及利用评分数据来处理多个经训练的模型，以生成针对多个经训练的模型的分数。一个或多个指令可以使得一个或多个处理器基于模型度量和分数，从多个经训练的模型中选择经训练的模型；以及利用经训练的模型来处理训练样本，以生成第一结果，其中基于训练数据以及与生产环境相关联的生产数据，训练样本可能已经被创建，经训练的模型将在生产环境中被利用。一个或多个指令可以使得一个或多个处理器利用经训练的模型来处理生产样本，以生成第二结果，其中基于生产数据以及训练样本，生产样本可能已经被创建。一个或多个指令可以使得一个或多个处理器基于第一结果和第二结果的匹配来验证用于在生产环境中使用的经训练的模型；以及基于对经训练的模型的验证，提供将被用在生产环境中的经训练的模型。

根据一些实施方式，方法可以包括标识针对模型的训练数据和评分数据；以及去除来自训练数据的偏差，以生成无偏差的训练数据。方法可以包括利用无偏差的训练数据来训练模型，以生成多个经训练的模型；以及利用评分数据来处理多个经训练的模型，以生成针对多个经训练的模型的分数。方法可以包括基于模型的度量和分数，从多个经训练的模型中选择经训练的模型；以及利用经训练的模型来处理训练样本，以生成第一结果，其中基于无偏差的训练数据以及与生产环境相关联的生产数据，训练样本已经被创建，经训练的模型将在生产环境中被利用。方法可以包括利用经训练的模型来处理生产样本，以生成第二结果，其中基于生产数据以及训练样本，生产样本已经被创建；以及基于第一结果和第二结果提供用于在生产环境中使用的经训练的模型。

附图说明

图1A至图1H是本文所描述的示例实施方式的图。

图2是本文所描述的系统和/或方法可以在其中被实现的示例环境的图。

图3是图2中的一个或多个设备的示例部件的图。

图4至图6是用于训练、验证以及监测人工智能和机器学习模型的示例过程的流程图。

具体实施方式

下文中的示例实施方式的详细描述参照附图。不同附图中的相同附图标记可以标识相同的或相似的元件。

机器学习和人工智能已经在实际应用中取得巨大的成功。在机器学习和人工智能的帮助下，计算机视觉，语音识别以及语言翻译都已经具有接近人类水平的性能。许多商业应用也将利用某种形式的人工智能和/或机器学习。在软件开发和部署中，环境或层级是指软件在其中被开发、部署和执行的计算机系统。开发环境是指对软件的更改在其中被开发的环境。测试环境是指允许测试者经由自动检查或非自动技术来运行新的和被更改的软件的环境。分级或预生产环境是指类似于生产环境且软件在其中被测试的环境。生产或部署环境是指软件在其中被部署且用户在其中直接地与软件进行交互的环境。

测试和验证利用了人工智能和/或机器学习模型的应用需要不同的方式，因为人工智能和/或机器学习在开发周期中包括新的范式，诸如人工智能和/或机器学习的参数的正确选择，训练和评估人工智能和/或机器学习模型的复杂性，大量的数据处理，各种数据的管理，概率性的而非确定性的结果，保证通过人工智能和/或机器学习作出符合伦理的且无偏差的决定，人工智能和/或机器学习的监管和合规的遵守等等。然而，利用目前的测试方法来测试和验证这种应用是极其具有挑战和非常昂贵的。

本文所描述的一些实施方式提供了训练、验证以及监测人工智能和机器学习模型的验证平台。例如，验证平台可以标识针对模型的训练数据和评分数据，并且可以去除来自训练数据的偏差，以生成无偏差的训练数据。验证平台可以利用无偏差的训练数据训练模型来生成多个经训练的模型，并且可以利用评分数据处理多个经训练的模型来生成针对多个经训练的模型的分数。验证平台可以基于模型度量和分数，从多个经训练的模型中选择经训练的模型，并且可以利用经训练的模型处理训练样本来生成第一结果。训练样本可以基于无偏差的训练数据以及与生产环境(例如，软件将在其中被部署的环境)相关联的生产数据而被创建，经训练的模型将在生产环境中被利用。验证平台可以利用经训练的模型处理生产样本，来生成第二结果，其中生产样本可以基于生产数据和训练样本而被创建。基于第一结果和第二结果，验证平台可以提供用于在生产环境中使用的经训练的模型。

以这种方式，验证平台可以提供一致的方法来测试和验证人工智能和机器学习模型(例如，在本文中被称为模型)。验证平台利用去偏差的方法来标识数据集中的偏差，中和数据集并且自动地生成均衡数据集。验证平台可以标识模型中的问题，可以确定模型的正确性，并且可以推荐度量来确定模型的准确性和相关性。一旦成功完成训练和验证，就准备好在生产环境中部署模型了。验证平台可以定期提供生产环境中的模型的持续监测和评估，以标识偏差、重新训练模型等等。

图1A至图1H是本文所描述的示例实施方式100的图。如图1A所示且通过附图标记105，验证平台可以从各种源接收模型和针对模型的数据。在一些实施方式中，源可以包括客户端设备、服务器设备、数据结构等。在一些实施方式中，模型可以包括从数据中学到的参数集，其使得能够在新的数据观测上创建结果。在一些实施方式中，模型可以包括一个或多个模型。在一些实施方式中，模型可以包括人工智能模型(例如，多元回归分析模型、人工神经网络(ANNs)模型、基于案例推理(CBR)模型等)、机器学习模型(例如，监督学习模型、无监督学习模型、线性回归模型、逻辑回归模型、朴素贝叶斯模型等)、深度学习模型(例如，递归神经网络(RNN)模型、卷积深度神经网络(CNN)模型等)等。

在一些实施方式中，数据可以包括与模型相关联的在线数据(例如，从互联网所接收的数据)、离线数据(例如，从除互联网之外的源所接收的数据)、输入和预期输出都存在的历史数据等。在一些实施方式中，取决于模型的类型，数据可以是结构化数据(例如，来自传统业务系统)、来自社交网络的人源数据、机器生成的数据(例如，来自仪器的数据、传感器数据、操作数据等)、暗数据(例如，诸如手写笔记的非结构化数据)等。例如，如果模型是用来提供自动垃圾电子邮件检测，则数据可以是包括垃圾电子邮件和非垃圾电子邮件的电子邮件语料库。在另一示例中，如果模型是用来标识图像中的对象(例如，用于自动驾驶)，则数据可以是图像和/或视频的语料库，其包括与车辆行驶相关联的对象(例如，其他车辆、行人、道路标志、交通信号、道路线等)。

在一些实施方式中，验证平台可以与数据结构(例如，数据库、表格、列表等)相关联，并且验证平台可以将模型和数据存储在数据结构中。在一些实施方式中，当模型和数据是从这些源中的一个源被所接收时，验证平台可以将模型和数据存储在数据结构中。

在一些实施方式中，验证平台可以在将数据存储在数据结构中之前预处理数据。例如，验证平台可以利用一个或多个预处理技术来预处理数据，诸如，数据清理技术、数据简化技术、数据转换技术等。在一些实施方式中，不管数据源是否提供了需要被清理和/或减小尺寸的大量数据，也不管数据是否以需要被转换成特定格式的格式而被提供的，验证平台都可以基于各种因素来选择一个或多个预处理技术，各种因素诸如与数据相关联的类型(例如，视频数据、图像数据、文本数据等)。

在一些实施方式中，数据清理技术可以包括从数据中检测并校正(或去除)损坏或不准确记录的技术，以及标识数据中不完整、不正确、不准确或不相关的部分并替代、修改或删除数据中被标识部分的技术。在一些实施方式中，数据简化技术可以包括将数值的或字母的数字信息(例如，数据)转换成校正的、有序的和简化的形式的技术，以及将一定数量的数据减少成有意义的部分的技术。在一些实施方式中，数据转换技术可以包括将数据从一种格式或结构变换成另一种结构或格式的技术。基于对源(起始)数据和目标(最终)数据之间的数据所需的变化，数据转换可以是简单的或复杂的。

在一些实施方式中，验证平台可以通过确定与数据相关联的相关性、总体趋势、异常值等，以及通过基于直方图、散点图、箱型图等执行数据的分析，来预处理数据，其中直方图、散点图、箱型图等是基于与数据相关联的相关性、总体趋势、异常值等来确定的。在这类实施方式中，验证平台可以通过基于不一致值、重复记录、无效条目等清理数据，通过基于行业特定领域知识合并重复记录，以及通过使用数据操作和特征检测转换和缩放数据，来进一步预处理数据。

如图1B所示并且通过附图标记110和115，验证平台可以基于数据标识针对模型的训练数据，以及可以基于数据标识针对模型的评分数据。在一些实施方式中，验证平台可以将训练数据和评分数据存储在数据结构(例如，数据库、表格、列表等)中。在一些实施方式中，验证平台可以将数据至少拆分成训练数据(例如，其中，数据的70％、80％、90％等被用作训练数据)和评分数据(例如，其中，数据的30％、20％、10％等被用作评分数据)。训练数据可以包括被验证平台用来训练模型的数据。评分数据可以包括在训练过程期间未由模型处理的，但是可以被用来评估模型性能的数据。在一些实施方式中，评分数据可以从与训练数据相同的数据中被标识出来(例如，从与被预期由生产环境中的模型评估的数据相同的数据)。在一些实施方式中，评分数据可以被创建为时间外数据(例如，如果评分数据包括从独立于训练数据的时间窗口而来的数据)，以测试模型对不同时间窗口中的数据的泛化能力。

在一些实施方式中，验证平台可以利用一个或多个技术来标识训练数据。例如，验证平台可以利用时间数据选择技术来标识训练数据。如果一年的数据可用，并且季节性不是模型性能的因素，则验证平台可以利用一部分数据(例如，数据的四分之三)以用于训练数据以及利用剩余部分的数据(例如，数据的四分之一)以用于评分数据。在另一示例中，验证平台可以确保与边界条件(例如，年度事件、节日、假日)相关联的数据在训练期间被覆盖并且被包括在训练数据中。

在另一示例中，验证平台可以通过将与特定实体相关联的数据分配给训练数据或评分数据，而不是在训练数据和评分数据间拆分此类数据，来防止由实体拆分数据。在另一示例中，验证平台可以包括训练数据中的正面和负面的结果(例如，针对抵押风险推荐模型，训练数据可以包括与成功抵押和不成功抵押相关联的数据)。在另一示例中，验证平台可以标识训练数据以确保评分数据包括足够的观测来实现针对评估结果的统计显著性。

如图1C所示，并且通过附图标记120，验证平台可以去除来自训练数据的偏差(例如，相对于特定输入数据属性不成比例地偏斜的结果)来生成无偏差的训练数据。在一些实施方式中，验证平台可以标识并解决许多与训练数据相关联的偏差，诸如性别偏差、民族和种族偏差、经济偏差等。在一些实施方式中，验证平台可以以与本文所描述的针对训练数据的相似的方式去除来自评分数据的偏差。在一些实施方式中，验证平台可以删除训练数据中的偏差，而且可以通过中和及均衡训练数据中的偏差来生成中性数据(例如，无偏差的训练数据)。

在一些实施方式中，验证平台可以防止与训练数据相关联的不道德行为。由于模型经由历史数据向人类学习，所以好的数据和坏的数据都可以被提供在训练数据中，并且模型可以从训练数据中学习不正当的关联。例如，聊天机器人可以从社交媒体信息流中学习同时包含正面和负面情绪的输入，并可以学着像人类那样行动(例如，甚至是种族主义行为)。为了避免学习这种负面行为，模型可以在训练阶段被暴露于负面社交媒体输入中，并使用脚本响应来处理不道德的评论。在评分阶段，可以用不道德数据测试模型来检查模型是否生成可被接收的响应。

在一些实施方式中，验证平台可以防止与训练数据相关联的性别和种族偏差。模型可以遵守某些监管规范，诸如，例如性别和种族中立的规则(例如，模型不可以根据个体的性别或种族来改变评分)。为确保合规，验证平台可以利用跨性别和种族群体的正面和负面数据的代表来训练模型，这可以防止生产中模型的输出推荐中的偏差。例如，对于贷款或保险单推荐模型，训练数据可以同等程度地批准和/或拒绝女性的申请和男性的申请。训练数据可以包括存在于地区中的各种族群体的代表，并且可以包括具有批准和/或拒绝申请的所有种族。这可以防止模型中包含性别偏差和种族偏差。在一些实施方式中，验证平台可以通过在评分阶段期间只修改性别参数并检查结果是否保持相同，来确保遵守性别和/或种族的中立性。

在一些实施方式中，验证平台可以确保与训练数据相关联的监管和合规遵守。企业可能遵守各种行业合规规范和规则。例如，如果所使用的训练数据包括通过了监管检查的高质量数据，则信用风险模型可以成功地确认信用合规。模型可以被训练为拒绝不满足规则的申请。例如，在信用风险模型中，如果一个人被拒绝贷款，会有一些迫使公司向此人解释他们为何被拒绝贷款的规则。在一些实施方式中，训练数据可以告知模型的合理性。在一些实施方式中，第三方(例如来自合规团队的审计员)可以被用来理解模型。

在一些实施方式中，验证平台可以利用去偏差模型来去除来自训练数据的偏差，该去偏差模型接受训练数据的提取作为输入并生成强调偏差的输出图形。去偏差模型可以利用词嵌入来检测训练数据中的偏差。词嵌入是对于自然语言处理(NLP)中的语言建模和特征学习技术的集合的统称，在自然语言处理中，词汇表中的单词或短语以语义的方式被映射到实数向量上。在一些实施方式中，去偏差模型可以利用基于频率的词嵌入(例如，计数向量、术语频率-逆文档频率(TF-IDF)、共生矩阵等)、基于预测的嵌入(例如，连续词包、跳跃元等)等。

例如，验证平台可以以以下方式去除来自训练数据中的性别偏差。验证平台可以从训练数据中仅提取文本数据并且可以对照训练数据。验证平台可以通过分析训练数据的整体分布以及分析特定于性别偏差的训练数据的分布，来探索与训练数据相关联的文本数据分布。验证平台可以通过使用具有分层SoftMax采样或负采样的深度学习模型(例如，跳跃元模型，连续词包模型等)来创建基于训练数据的词嵌入。验证平台可以通过使用相似度对和类比三元组的详尽列表来评定新创建的词嵌入的质量，以及通过执行词嵌入的探索性分析来评估词嵌入。验证平台可以通过标识性别子空间、通过硬去偏差(例如中和与均衡)或软偏差纠正、通过评估用于偏差场景和其他一般情况的经去偏差的词嵌入的质量、以及通过输出经去偏差的词嵌入来对词嵌入进行去偏差。

如图1C进一步所示，并且通过附图标记125，验证平台可以用无偏差的训练数据来训练模型，以生成多个经训练的模型。在一些实施方式中，验证部分可以用无偏差的训练数据的不同部分来训练模型，以生成多个经训练的模型。在一些实施方式中，验证平台可以用所有无偏差的训练数据来训练模型，以生成单个经训练的模型。

在一些实施方式中，验证平台可以用无偏差的训练数据在模型上执行训练操作。例如，验证平台可以将数据分为训练集、评分集、测试集等。在一些实施方式中，验证平台可以使用例如无监督的训练程序并基于无偏差的训练数据来训练模型。例如，验证平台可以执行降维来将无偏差的训练数据减少到最小特征集，从而减少用来训练模型的资源(例如，处理资源、存储器资源等)，并且可以将分类技术应用到最小特征集上。

在一些实施方式中，验证平台可以使用逻辑回归分类技术来确定分类结果。附加地或备选地，验证平台可以使用朴素贝叶斯分类器技术。在这种情况下，验证平台可以执行二元递归分区来将无偏差的训练数据分成分区和/或分支，并使用分区和/或分支来执行预测。基于使用递归分区，验证平台可以减少涉及对数据点的手动、线性排序和分析的计算资源的使用，从而能够使用数千、数百万或数十亿的数据点来训练模型，这可以带来比使用更少数据点更准确的模型。

附加地或备选地，验证平台可以使用支持向量机(SVM)分类器技术在无偏差的训练数据的数据点之间生成非线性边界。在这种情况下，非线性边界被用来将测试数据分类成特定的类别。

附加地或备选地，验证平台可以使用监督训练程序来训练模型，监督训练程序包括将来自主题专家的输入所接收模型中，相对于无监督训练程序，这可以减少训练活动自动化模型的时间量、处理资源量等。在一些实施方式中，验证平台可以使用一个或多个诸如神经网络技术、潜在语义索引技术等的其他模型训练技术。例如，验证平台可以执行人工神经网络处理技术(例如，使用双层前馈神经网络架构、三层前馈神经网络架构等)来执行关于模式的模式识别。在这种情况下，使用人工神经网络处理技术可以通过对噪声数据、不精确数据或不完整数据更稳健，以及通过使得验证平台能够检测出人类分析师或使用不太复杂的技术的系统无法检测出的模式和/或趋势，来提高由验证平台生成的经训练的模型的准确性。

如图1D所示，并且通过附图标记130，验证平台可以用评分数据处理经训练的模型来生成针对经训练的模型的分数。例如，如图所示，验证平台可以生成针对第一经训练的模型的98％的分数、针对第二经训练的模型的65％的分数、以及针对第三经训练的模型的84％的分数。评估经训练的模型时要测试的一个范围是确保经训练的模型的输出分数是被正确计算的。如果经训练的模型被转移到不同的评分数据库来获得输出分数，则这可能特别地重要。在这种状况下，验证可以创建训练观测的小样本，可以基于训练数据和评分数据来对观测评分，以及可以比较针对每个观测的分数。

除了这种定量验证之外，验证平台可以通过创建针对训练数据、评分数据和验证数据的分数直方图、图表、表格等来执行分数分布的定性验证。直方图可以描绘观测落入训练数据、评分数据和验证数据中的每个数据内的百分比。如果模型训练没有成功地完成或训练没有正确地执行，则验证平台可以标识与样本群体不一致的分数分布。这可以指示不完整的训练过程或训练数据中的已导致非优化权重集(例如，创建异常的分数分布)的一些其他问题。然而，所预期的分数分布的本质可以高度依赖于由模型解决的问题。例如，在欺诈检测问题中，测试群体的大部分可以是非欺诈的，其被预期在最低分数范围中具有很大的集中度。因此，预期的分数分布可以是严重倾斜于最低分数的。另一示例是预测客户流失的问题，其中测试群体的大部分是非流失的并且分数分布可以向更低的分数倾斜。

如图1E所示，并且通过附图标记135，验证平台可以基于由分数所指示的精度、召回和目标泄露(例如，如下所述)来从多个经训练的模型中评估并选择经训练的模型。例如，验证平台可以基于由分数所指示的精度、召回和目标泄露来评估多个经训练的模型，并且可以基于评估来选择第三模型。监督模型可以包括分类模型和回归模型。分类模型可以包括分类输出，而回归模型可以包括数字输出。如果模型被训练来区分两个类别，则模型可以被称为二元分类模型，否则模型可以被称为多类分类模型。在一些实施方式中，验证平台可以利用与二元分类相关联的评估度量来评估多个经训练的模型并从多个经训练的模型中选择经训练的模型。

二元分类模型可以被用于几种情景中。例如，如上所述的垃圾邮件检测模型和问题可以是二元分类问题。二元分类模型可以确定诸如欺诈检测的特定事件发生的可能性、飞机晚点或发货单处理延迟的概率、某天下雨的可能性等。可以使用诸如预测和召回的权衡度量来评估二元分类模型。例如，在垃圾邮件检测问题中，模型可以将大量垃圾邮件标识为垃圾电子邮件(例如，召回)并且可以最小化将电子邮件错误标识为垃圾邮件(例如，精度)。在一些实施方式中，验证平台可以利用普遍的度量对来评估权衡，诸如精度和召回、敏感性和特异性、类型A和类型B误差等。

在一些实施方式中，基于模型性能，验证平台可以利用模型评估过程来从多个经训练的模型中选择最佳的经训练的模型。在一些实施方式中，在比较跨多个经训练的模型的度量之前，验证平台可以通过附加的测试来确保评估数据是正确的并且性能度量已经被正确定义。在一些实施方式中，验证平台可以比较训练数据和验证数据之间的度量，并且可以检查分数的连续性来强调任何涉及数据样本的差异或不充足的问题。

在一些实施方式中，精度和召回可以根据以下示例来操作。对于特定的应用版本，模型可以被用来标识来自缺陷数据集的重复缺陷。数据集中的缺陷总数可以是一百(100)，重复的缺陷的实际数目可以是三十(30)，由经训练的模型标识为相关的副本的缺陷的数目可以是二十(20)，由经训练的模型标识的正确的副本的数目可以是十(10)(例如，这可以被称为真阳性)以及由经训练的模型错误地标识的副本的数目可以是十(10)(例如，20-10＝10)(例如，这可以被称为假阳性)。基于这些数目，验证平台可以确定针对经训练的模型的精度值为50％(例如，10/20＝50％)(例如，精度值可以提供相关的所取回的数据的百分比)。基于这些数目，验证平台可以确定针对经训练的模型的召回值为33％(例如，10/30＝33％)(例如，召回值可以提供所取回的相关数据的百分比)。

在一些实施方式中，对于给定的问题的精度和召回的期望级可以由业务约束决定。在一些情况下，使用者可以要求很高级别的精度(例如，在排除目录中的重复产品时)，而在其他情况下，使用者可以为了更高的召回而容忍更低级别的精度(例如，在信用卡交易中检测欺诈时)。因此，对于每个问题，针对精度和召回的阈值可以不同。

当基于验证数据集的模型的性能很差时，以及当模型的性能出乎意料地高时(例如，太好了以致于不可能是真的)，模型的质量可能出问题了。如果模型的性能度量很低，则验证平台可以确定模型输入和模型输出不具有很强的相关性，或者关系的复杂度对于模型来说太大了以致于不能学习模式。在这种状况下，验证平台可以检查输入数据和所选段来标识可以提供更相关的输入数据的新的数据源，和/或可以重新选择输入段来使得能够利用输出来检测更好的相关性。

在一些实施方式中，如果精度值和召回值(例如，百分比)太低了，那么验证平台可以改变输入数据，可以改变输入数据的所选段等。在一些实施方式中，基于精确度(例如，精度和召回)和对业务的决策的清晰度之间的权衡，经训练的模型可以由验证平台选择。

在一些实施方式中，如果模型性能不合理地高(例如，99％召回和100％精度)，则验证平台可以检查每个输入段来确定是否有目标泄露。目标泄露是一种在历史数据中，输入段可能错误地包括了输出数据的现象。目标泄露可以是由人为的或机械的错误造成的，并且可以是故意的或无意的。例如，标题为“电子邮件源”的数据段可能旨在捕获电子邮件的源(例如，内部源或外部源)。在历史数据中，对于已经被标识为垃圾邮件的电子邮件，电子邮件源数据段的值可能已经被改变为无效。因此，如果验证平台利用该数据段作为输入，则数据段可以包括与目标的很大的相关性，并且模型可以提供极好的性能。然而，因为无效值可能不存在于生产环境中，所以该性能可能无法在生产中被达到。在这种状况下，关于目标变量的信息已经泄露到电子邮件源数据段中，因此使目标变量成为无效的输入。在一些实施方式中，验证平台可以通过标记高于特定阈值的性能度量和相关性并检查性能度量的源，来对这种缺陷作测试。

在一些实施方式中，数据泄露可以包括泄露评分阶段数据到训练数据中(例如，对于同一客户，一些交易可能被包括在训练数据中，而其他交易可能被包括在评分数据中)、泄露正确的预测或基础事实到测试数据中(例如，如关于电子邮件源示例所述)、泄露来自未来的信息到过去中(例如，使用具有针对垃圾邮件与非垃圾电子邮件的标识符的数据段)、故意混淆的反转、随机化或匿名化、包括不在训练数据或评分数据中的数据等。

如图1F所示，并且通过附图标记140，基于训练数据和从生产环境中所接收的生产数据，验证平台可以创建针对所选择的经训练的模型的训练样本，经训练的模型将在生产环境中被实施。如图1F进一步所示，并且通过附图标记145，基于生产数据和训练样本，验证平台可以创建生产样本。在一些实施方式中，验证平台可以用所选择的经训练的模型处理训练样本和生产样本，来生成结果。在一些实施方式中，生产数据可以包括在软件生产环境中生成的数据。例如，生产数据可以包括由电子邮件应用处理的电子邮件、将由自动车辆处理的与车辆行驶相关联的对象(例如，其他车辆、行人、道路标志、交通信号、道路线等)的图像和/或视频、由网络防火墙处理的网络数据等。在一些实施方式中，训练样本可以包括一个或多个来自训练数据的数据点和/或一个或多个来自生产数据的数据点。在一些实施方式中，生产样本可以包括一个或多个来自生产数据的数据点和/或一个或多个来自训练样本的数据点。

在一些实施方式中，当所选择的经训练的模型准备好在生产环境中被部署时，验证平台可以测试与所选择的经训练的模型相关联的图形用户界面(GUI)和非功能性的需求，并且可以测试所选择的经训练的模型。在一些实施方式中，当模型已经被部署到生产环境中时，验证平台可以提供特殊的测试程序来确保所选择的经训练的模型的正常运作。当被实施于在生产环境中时，模型可以由于生产环境中的被输入到模型的数据和所预期的数据不同、生产环境中的特征输入的编码与开发环境中的特征编码不匹配、生产环境中实施的模型不同于开发环境中实施的模型、生产环境中模型分数的后处理没有被正确编码来达到性能需求等而遭遇误差。

为了标识这种潜在错误，验证平台可以创建不同的验证样本，并且可以确定针对每个验证样本的模型分数。在一些实施方式中，验证平台可以确定所选择的经训练的模型的部署代码是精确的，并且所选择的经训练的模型输入和输出被正确地计算了，由此确认所选择的经训练的模型在生产环境中被正确实施了。在一些实施方式中，当开发所选择的经训练的模型时，验证平台可以确保所选择的经训练的模型的来自上游系统(例如，生产环境中)的数据符合预期且与所使用的输入数据相匹配。

在一些实施方式中，验证平台可以从训练数据中采样出几个观测(例如，小百分比的数据、几千个观测等)，并且可以确定原始数据输入、所选择的输入段、预期分数、以及针对每个观测的经后处理的值。训练采样可以包括经采样的观测、原始数据输入、所选择的输入段、预期分数和针对每个观测的经后处理的值。在一些实施方式中，训练采样可以解决数据的季节性，其中，所选择的经训练的模型在某些月份期间表现很好，而在其他月份表现不好。在一些实施方式中，验证平台可以在生产环境中创建测试样本，该测试样本包括和训练样本相同的原始数据输入，并且测试样本可以是生产样本。在一些实施方式中，验证平台可以确定被提供给所选择的经训练的模型的生产数据是否源于和训练数据相同的群体。在这种实施方式中，验证平台可以创建原始输入数据的分布度量，并且可以将所创建的分布度量和训练数据以及评分数据的分布度量作比较。如果所选择的经训练的模型在生产环境中正确运行，则分布度量应当是一致的并且彼此之间不应当偏差很多。

如图1F所示，并且通过附图标记150，验证平台可以将基于处理训练样本以及生产样本所生成的结果和所选择的经训练的模型作比较，并且可以基于结果验证用于生产环境中使用的所选择的经训练的模型。在一些实施方式中，验证平台可以用所选择的经训练的模型来处理训练样本和生产样本，并且可以从生产环境中捕获输出分数和经后处理的值。验证平台可以比较训练样本和生产样本的对应的分数和/或值，并且可以确认对应的分数和/或值相匹配。以这种方式，验证平台可以确保所选择的经训练的模型正如预期地在生产环境中计算段、分数以及经后处理的值。在一些实施方式中，诸如精度和召回的比较度量可以被用来计算所选择的经训练的模型在生产环境中的精确性和稳定性。

如图1G所示，并且通过附图标记155，验证平台可以监测所选择的经训练的模型在生产环境中的性能。即使在所选择的经训练的模型在生产环境中被成功部署后，验证平台也可以执行模型输入和输出的定期监测。这是因为所选择的经训练的模型的上游变化(例如，数据生成系统中的变化、底层业务过程的变化等)可以改变原始输入数据的本质，这可能对所选择的经训练的模型的性能产生不利影响。例如，被添加到应用的新特征或变量可以导致新的非预期数据输入到所选择的经训练的模型，训练未被提供到该模型上。所选择的经训练的模型也可以向新的人源数据或机源数据学习。

在一些实施方式中，验证平台可以在现有基础上监测被用于选择模型的相同度量，以确保所选择的经训练的模型的性能如预期地持续。在一些实施方式中，验证平台可以监测输入数据、分数分布以及相关的性能评估度量(例如，精度和召回)是否有任何重大偏差。在一些实施方式中，验证平台可以利用共同的环境来生成并维持这些针对新的经训练的模型以及生产中的模型的度量，并且可以提供针对任何偏差的包括了警报的、标识根本原因等的共同的仪表盘或界面。

如图1G所示，并且通过附图标记160，验证平台可以基于所监测的性能和模型度量间的偏差来更新所选择的经训练的模型。在一些实施方式中，模型度量可以包括指示模型精度的度量、指示模型召回的度量(例如，在垃圾邮件检测问题中，模型应当将大量垃圾电子邮件标识为垃圾邮件(召回)，同时最小化将电子邮件当做垃圾邮件的错误标识(精度))、指示模型敏感性的度量、指示模型特异性的度量、指示模型中的误差的度量等。在一些实施方式中，基于所监测的性能和模型度量之间的偏差，验证平台可以定期重新训练所选择的经训练的模型来维持所选择的经训练的模型的稳定性。例如，虚拟员工和/或聊天机器人可以向人源数据或机源数据学习，并且可以开发出模型未在其上被训练的新的语言。虚拟员工和/或聊天机器人可能自主学习不道德的和不合规的数据。在这样的示例中，验证平台可以用新的人源数据或机源数据来重新训练虚拟员工和/或聊天机器人，并且可以去除来自不道德的和不合规的数据的偏差。

如图1H所示，并且通过附图标记165，验证平台可以向客户端设备提供与训练、评分、部署和监测模型相关联的用户界面。客户端设备可以接收用户界面，并且可以向客户端设备的用户提供用于显示的用户界面。在一些实施方式中，用户界面可以包括显示由验证平台所接收的数据、与模型相关联的信息、训练数据、评分数据、无偏差的训练数据、和多个模型相关联的分数、模型在开发环境中的输出、模型在生产环境中的输出、监测结果、警报、生产环境中的模型的偏差等的用户界面。

以这种方式，用于训练、验证以及监测人工智能和机器学习模型的过程的几个不同阶段是自动化的，这可以去除人类主观性和该过程中的浪费，并且这可以提高该过程的速度和效率并节省计算资源(例如，处理资源、存储器资源等)。此外，本文所描述的实施方式使用严格的计算机化的过程来执行先前没有被执行的或者先前使用主观的人类直觉或输入来执行的任务或角色。例如，目前不存在自动化地训练、验证以及监测人工智能和机器学习模型的技术。最后，自动化用于训练、验证以及监测人工智能和机器学习模型的过程节省计算资源(例如，处理资源、存储器资源等)，否则这些计算资源将会在尝试生成针对生产环境的人工智能和机器学习模型中以其他方式被浪费掉。

此外，验证平台可以加速模型训练的时间，这可以节省计算资源，也可以提高生产环境中的模型的准确性。由于缺陷可以被及早地标识或防止，因此验证平台可以使得模型在生产环境中能够被更快地实施，并且可以减少来自模型的有偏差的输出。

如上所述，图1A至图1H仅作为示例被提供。其他示例是可能的并且可以与图1A至图1H所描述的不同。

图2是示例环境200的示意图，本文所描述的系统和/或方法可以在其中被实施。如图2所示，环境200可以包括客户端设备210、验证平台220以及网络230。环境200的设备可以经由有线连接、无线连接或有线连接和无线连接的组合来相互连接。

客户端设备210包括一个或多个能够接收、生成、存储、处理和/或提供信息(诸如本文所述信息)的设备。例如，客户端设备210可以包括移动电话(例如，智能电话、无线电话等)、笔记本计算机、平板计算机、台式计算机、手提式计算机、游戏设备、可穿戴通信设备(例如，智能腕表、一副智能眼镜等)或者相似类型的设备。在一些实施方式中，客户端设备210可以从验证平台220接收信息以及/或向其发送信息。

验证平台220包括一个或多个训练、验证以及监测人工智能和机器学习模型的设备。在一些实施方式中，验证平台220可以被设计成模块化的，以便可以根据特定需求安装或卸载某些软件部件。这样，验证平台220可以容易地和/或迅速地被重新配置以用于不同用途。在一些实施方式中，验证平台220可以从一个或多个客户端设备210接收信息和/或向其发送信息。

如图所示，在一些实施方式中，验证平台220可以被托管于云计算环境222中。值得注意的是，尽管本文所述的实施方式将验证平台220描述为被托管于云计算环境222中，但是在一些实施方式中，验证平台220可以不基于云(例如，可以在云计算环境外部被实施)，或可以部分地基于云。

云计算环境222包括托管验证平台220的环境。云计算环境222可以提供计算、软件、数据访问、存储等服务，这些服务不要求终端用户知道托管验证平台220的系统和/或设备的物理位置和配置。如图所示，云计算环境222可以包括一组计算资源224(被统称为“计算资源224”并且被单独称为“计算资源224”)。

计算资源224包括一个或多个个人计算机、工作台计算机、服务器设备或其他类型的计算和/或通信设备。在一些实施方式中，计算资源224可以托管验证平台220。云资源可以包括在计算资源224中执行的计算实例、在计算资源224中所提供的存储设备、由计算资源224提供的数据传输设备等。在一些实施方式中，计算资源224可以通过有线连接、无线连接或有线和无线连接的组合与其他计算资源224通信。

如图2进一步所示，计算资源224包括一组云资源，诸如一个或多个应用(“APPs”)224-1、一个或多个虚拟机(“VMs”)224-2、虚拟存储装置(“VSs”)224-3、一个或多个管理程序(“HYPs”)224-4等。

应用224-1包括一个或多个可以被提供给客户端设备210或由客户端设备210访问的软件应用。应用224-1可以排除安装的需求并在客户端设备210上执行软件应用。例如，应用224-1可以包括与验证平台220相关联的软件和/或任何其他能够经由云计算环境222而被提供的软件。在一些实施方式中，一个应用224-1可以经由虚拟机224-2向/从一个或多个其他应用224-1发送/接收信息。

虚拟机224-2包括机器(例如，计算机)的软件实现，它像物理机一样执行程序。根据通过虚拟机224-2的用途以及与任何真实机器的对应度，虚拟机224-2可以是系统虚拟机或过程虚拟机。系统虚拟机可以提供支持完整操作系统(“OS”)的执行的完整系统平台。过程虚拟机可以执行单个程序，并且可以支持单个过程。在一些实施方式中，虚拟机224-2可以代表用户(例如，客户端设备210的用户或验证平台220的操作员)执行，并且可以管理云计算环境222的基础设施，诸如数据管理、同步或长持续时间的数据传输。

虚拟化存储装置224-3包括在云计算资源224的存储系统或设备内使用虚拟化技术的一个或多个存储系统和/或一个或多个设备。在一些实施方式中，在存储系统的环境内，虚拟化的类型可以包括块虚拟化和文件虚拟化。块虚拟化可以指来自物理存储装置的逻辑存储装置的抽象(或分离)，使得不需要考虑物理存储装置或异构结构，存储系统就可以被访问。在管理员如何为终端用户管理存储装置方面，分离可以允许存储系统的管理员的灵活性。文件虚拟化可以排除在文件级被访问的数据和文件被物理存储的位置间的依赖性。这可以使得存储装置的使用、服务器合并和/或无中断文件迁移的性能的最优化成为可能。

管理程序224-4可以提供允许多个操作系统(例如，“客户操作系统”)在诸如计算资源224的主机计算机上并行执行的硬件虚拟化技术。管理程序224-4可以向客户操作系统呈现虚拟操作平台，并且可以管理客户操作系统的执行。各种操作系统的多个实例可以共享虚拟化的硬件资源。

网络230包括一个或多个有线和/或无线网络。例如，网络230可以包括蜂窝网络(例如，第五代(5G)网络)、长期演进(LTE)网络、第三代(3G)网络、码分多址(CDMA)网络等)、公共陆地移动网络(PLMN)、局域网络(LAN)、广域网络(WAN)、城域网络(MAN)、电话网络(例如，公共交换电话网络(PSTN))、私有网络、自组织网络、内部网、互联网、基于光纤的网络等，和/或这些或其他类型的网络的组合。

图2所示的设备和网络的数目和布置作为示例被提供。在实践中，与图2所示的设备和/或网络相比，可以存在附加的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络或被不同布置地设备和/或网络。此外，图2所示的两个或更多个设备可以被实现在单个设备内，或者图2所示的单个设备可以作为多个分布式设备被实现。附加地或备选地，环境200中的设备的集合(例如，一个或多个设备)可以执行一个或多个被描述为由环境200中的设备的另一集合所执行的功能。

图3是设备300的示例性部件的示意图。设备300可以对应于客户端设备210、验证平台220和/或计算资源224。在一些实施方式中，客户端设备210、验证平台220和/或计算资源224可以包括一个或多个设备300和/或一个或多个设备300的部件。如图3所示，设备300可以包括总线310、处理器320、存储器330、存储部件340、输入部件350、输出部件360和通信接口370。

总线310包括允许设备300中的部件间通信的部件。处理器320以硬件、固件或硬件和软件的组合来实现。处理器320是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或另一种类型的处理部件。在一些实施方式中，处理器320包括一个或多个能够被编程来执行功能的处理器。存储器330包括随机存取存储器(RAM)、只读存储器(ROM)和/或另一种类型的存储信息和/或指令以供处理器320使用的动态或静态存储设备(例如，闪存、磁存储器和/或光存储器)。

存储部件340存储涉及设备300的操作和使用的信息和/或软件。例如，存储部件340可以包括硬盘(例如，磁盘、光盘、磁光盘和/或固态盘)、压缩盘(CD)、数字通用盘(DVD)、软盘、盒式磁带、磁带和/或另一种类型的非暂时性的计算机可读介质以及对应的驱动器。

输入部件350包括允许设备300接收信息的部件，诸如，经由用户输入(例如，触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风)。附加地或备选地，输入部件350可以包括用于感测信息的传感器(例如，全球定位系统(GPS)部件、加速度计、陀螺仪和/或致动器)。输出部件360包括提供来自设备300的输出信息的部件(例如，显示器、扬声器和/或一个或多个发光二极管(LEDs))。

通信接口370包括使得设备300能够与其他设备通信的类收发器部件(例如，收发器和/或独立的接收器和发射器)，诸如经由有线连接、无线连接或有线连接和无线连接的组合。通信接口370可以允许设备300接收来自另一设备的信息和/或提供信息给另一设备。例如，通信接口370可以包括以太网接口、光接口、同轴接口、红外接口、无线电频率(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。

设备300可以执行本文所述的一个或多个过程。设备300可以执行这些基于处理器320的执行由诸如存储器330和/或存储部件340的非暂时性计算机可读介质存储的软件指令的过程。在本文中，计算机可读介质被定义为非暂时性存储器设备。存储器设备包括在单个物理存储设备内的存储器空间或分布在多个物理存储设备上的存储器空间。

软件指令可以经由通信接口370被读入来自另一计算机可读介质或来自另一设备的存储器330和/或存储部件340。当被执行时，被存储在存储器330和/或存储部件340中的软件指令可以使得处理器320执行一个或多个本文所述的过程。附加地或备选地，硬连线电路可以被用来取代或结合软件指令来执行一个或多个本文所述的过程。因此，本文所述的实施方式不限于硬件电路和软件的任何特定组合。

图3所示的部件的数目和布置被作为示例提供。在实践中，与图3所示的部件相比，设备300可以包括附加的部件、更少的部件、不同的部件或被不同布置的部件。附加地或备选地，设备300的部件的集合(例如，一个或多个部件)可以执行被描述为由设备300的部件的另一集合执行的一个或多个功能。

图4是用于训练、验证和监测人工智能和机器学习模型的示例过程400的流程图。在一些实施方式中，图4的一个或多个过程块可以由验证平台(例如，验证平台220)执行。在一些实施方式中，图4的一个或多个过程块可以由另一设备或诸如客户端设备(例如，客户端设备210)的独立于或包括验证平台的一组设备执行。

如图4所示，过程400可以包括接收模型和针对模型的数据，该模型包括人工智能模型或机器学习模型(块405)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、通信接口370等)可以接收模型和针对模型的数据。在一些实施方式中，模型可以包括人工智能模型和机器学习模型。

如图4进一步所示，过程400可以包括基于数据标识针对模型的训练数据和评分数据(块410)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储器330等)可以基于数据标识针对模型的训练数据和评分数据。

如图4进一步所示，过程400可以包括去除来自训练数据的偏差来生成无偏差的训练数据(块415)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储部件340等)可以去除来自训练数据的偏差来生成无偏差的训练数据。

如图4进一步所示，过程400可以包括用无偏差的训练数据训练模型，来生成多个经训练的模型(块420)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储器330等)可以用无偏差的训练数据训练模型，来生成多个经训练的模型。

如图4进一步所示，过程400可以包括用评分数据处理多个经训练的模型，来生成针对多个经训练的模型的分数(块425)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储部件340等)可以用评分数据处理多个经训练的模型，来生成针对多个经训练的模型的分数。

如图4进一步所示，过程400可以包括基于模型度量和分数，从多个经训练的模型中评估并选择经训练的模型(块430)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储器330等)可以基于模型度量和分数，从多个经训练的模型中评估并选择经训练的模型。

如图4进一步所示，过程400可以包括基于无偏差的训练数据和与生产环境相关联的生产数据，来创建针对经训练的模型的训练样本，经训练的模型将在生产环境中被利用(块435)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储部件340等)可以基于无偏差的训练数据和与生产环境相关联的生产数据，来创建针对经训练的模型的训练样本，经训练的模型将在生产环境中被利用。

如图4进一步所示，过程400可以包括基于生产数据和训练样本来创建生产样本(块440)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储器330等)可以基于生产数据和训练样本来创建生产样本。

如图4进一步所示，过程400可以包括用经训练的模型处理训练样本和生产样本，来生成与训练样本相关联的第一结果以及与生产样本相关联的第二结果(块445)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储部件340等)可以用经训练的模型处理训练样本和生产样本，来生成与训练样本相关联的第一结果以及与生产样本相关联的第二结果。

如图4进一步所示，过程400可以包括基于第一结果和第二结果来验证用于在生产环境中使用的经训练的模型(块450)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储器330等)可以基于第一结果和第二结果来验证用于在生产环境中使用的经训练的模型。

如图4进一步所示，过程400可以包括基于验证经训练的模型来提供将被用于生产环境中的经训练的模型(块455)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储器330、存储部件340、通信接口370等)可以基于验证经训练的模型来提供将被用于生产环境中的经训练的模型。

过程400可以包括附加的实施方式，诸如，下文所描述的和/或关于本文所述的任何其他过程所描述的任何单个实施方式或实施方式的任何组合。

在一些实施方式中，验证平台可以监测经训练的模型在生产环境中的性能，并且可以基于经训练的模型的性能和模型度量之间的偏差来更新经训练的模型。在一些实施方式中，当标识训练数据和评分数据时，验证平台可以标识来自数据的时间数据用于包括在训练数据或评分数据中，可以标识来自数据的指示边界条件的数据用于包括在训练数据或评分数据中，可以标识来自数据的与实体相关联的数据用于包括在训练数据或评分数据中，可以标识来自数据的与正面结果和负面结果相关联的数据用于包括在训练数据或评分数据中，可以标识数据的第一部分用于包括在训练数据中以及数据的第二部分用于包括在评分数据中等。

在一些实施方式中，当用评分数据处理多个经训练的模型时，验证平台可以执行分数的定量验证，并且可以执行分数的定性验证。在一些实施方式中，当评估和选择经训练的模型时，验证平台可以将与多个经训练的模型相关联的精度度量和分数作比较，可以将与多个经训练的模型相关联的召回度量和分数作比较，可以将与多个经训练的模型相关联的目标泄露度量和分数作比较，并可以基于比较精度度量、召回度量以及目标泄露度量和分数，从多个经训练的模型中选择经训练的模型。

在一些实施方式中，当基于无偏差的训练数据和生产数据创建针对经训练的模型的训练样本时，验证平台可以标识无偏差的训练数据的一部分，可以从生产环境中获取生产数据中的且与无偏差的训练数据的一部分相关联的特定生产数据，并且可以基于无偏差的训练数据的一部分和特定生产数据创建训练样本。在一些实施方式中，当创建生产样本时，验证平台可以用与训练样本相同的输入来标识生产数据中的特定生产数据，并且可以基于特定生产数据创建生产样本。

虽然图4示出了过程400的示例块，但是在一些实施方式中，与图4所描绘的块相比，过程400可以包括附加的块、更少的块、不同的块或被不同布置的块。附加地或备选地，过程400的块中的两个或多个块可以被并行执行。

图5是用于训练、验证和监测人工智能和机器学习模型的示例过程500的流程图。在一些实施方式中，图5的一个或多个过程块可以由验证平台(例如，验证平台220)执行。在一些实施方式中，图5的一个或多个过程块可以由另一设备或诸如客户端设备(例如，客户端设备210)的独立于或包括验证平台的一组设备执行。

如图5所示，过程500可以包括从所接收的数据中标识针对模型的训练数据和评分数据(块510)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储器330、存储部件340、通信接口370等)可以从所接收的数据中标识针对模型的训练数据和评分数据。

如图5进一步所示，过程500可以包括用训练数据训练模型来生成多个经训练的模型(块520)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储器330等)可以用训练数据训练模型来生成多个经训练的模型。

如图5进一步所示，过程500可以包括用评分数据处理多个经训练的模型，来生成针对多个经训练的模型的分数(块530)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储部件340等)可以用评分数据处理多个经训练的模型，来生成针对多个经训练的模型的分数。

如图5进一步所示，过程500可以包括基于模型度量和分数，从多个经训练的模型中选择经训练的模型(块540)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储器330等)可以基于模型度量和评分，从多个经训练的模型中选择经训练的模型。

如图5进一步所示，过程500可以包括用经训练的模型处理训练样本，来生成第一结果，基于训练数据和与生产环境相关联的生产数据，训练样本已被创建，经训练的模型将被用于生产环境中(块550)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储部件340等)可以用经训练的模型处理训练样本，来生成第一结果。在一些实施方式中，基于训练数据和与生产环境相关联的生产数据，训练样本可能已被创建，经训练的模型将被用于生产环境中。

如图5进一步所示，过程500可以包括用经训练的模型处理生产样本，来生成第二结果，基于生产数据和训练样本，生产样本已被创建(块560)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储器330等)可以用经训练的模型处理生产样本，来生成第二结果。在一些实施方式中，基于生产数据和训练样本，生产样本可能已被创建。

如图5进一步所示，过程500可以包括基于第一结果和第二结果的匹配，验证用于在生产环境中使用的经训练的模型(块570)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储部件340等)可以基于第一结果和第二结果的匹配，验证用于在生产环境中使用的经训练的模型。

如图5进一步所示，过程500可以包括基于验证经训练的模型，提供将被用于生产环境中的经训练的模型(块580)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储器330、通信接口370等)可以基于验证经训练的模型，提供将被用于生产环境中的经训练的模型。

过程500可以包括附加的实施方式，诸如，下文所描述的和/或关于本文所述的任何其他过程所描述的任何单个实施方式或实施方式的任何组合。

在一些实施方式中，验证平台可以监测经训练的模型在生产环境中的性能，可以确定经训练的模型的性能和模型度量间的偏差，并且可以基于偏差来更新经训练的模型。在一些实施方式中，当标识训练数据和评分数据时，验证平台可以将来自所接收的数据的时间数据包括在训练数据或评分数据中，可以将来自所接收的数据的指示边界条件的数据包括在训练数据或评分数据中，可以将来自所接收的数据的与实体相关联的数据包括在训练数据或评分数据中，可以将来自所接收的数据的与正面结果和负面结果相关联的数据包括在训练数据或评分数据中，可以将所接收的数据的第一部分包括在训练数据中以及所接收的数据的第二部分包括在评分数据中等。

在一些实施方式中，当用评分数据处理多个经训练的模型时，验证平台可以基于训练观测集来执行分数的定量验证，并且可以基于与训练数据和评分数据相关联的直方图来执行分数的定性验证。在一些实施方式中，当选择经训练的模型时，验证平台可以将与多个经训练的模型相关联的精度度量、召回度量或目标泄露度量中的一个或多个度量和分数作比较，并且可以基于精度度量、召回度量或目标泄露度量中的一个或多个度量和分数的比较，从多个经训练的模型中选择经训练的模型。

在一些实施方式中，验证平台可以标识训练数据的一部分，可以从生产环境中捕获生产数据中的并且与训练数据的一部分相关联的特定生产数据，并且可以基于训练数据的一部分和特定生产数据来创建训练样本。在一些实施方式中，验证平台可以用与训练样本相同的输入来标识生产数据中的特定生产数据，并且可以基于特定生产数据来创建生产样本。

虽然图5示出了过程500的示例块，但是在一些实施方式中，与图5所描述的块相比，过程500可以包括附加的块、更少的块、不同的块或被不同布置的块。附加地或备选地，过程500的块中的两个或多个块可以被并行执行。

图6是用于训练、验证和监测人工智能和机器学习模型的示例过程600的流程图。在一些实施方式中，图6的一个或多个过程块可以由验证平台执行(例如，验证平台220)。在一些实施方式中，图6的一个或多个过程块可以由另一设备或诸如客户端设备(例如，客户端设备210)的独立于或包括验证平台的一组设备执行。

如图6所示，过程600可以包括标识针对模型的训练数据和评分数据(块610)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储器330等)可以标识针对模型的训练数据和评分数据。

如图6进一步所示，过程600可以包括去除来自训练数据的偏差来生成无偏差的训练数据(块620)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储部件340等)可以去除来自训练数据的偏差来生成无偏差的训练数据。

如图6进一步所示，过程600可以包括用无偏差的训练数据训练模型来生成多个经训练的模型(块630)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储器330等)可以用无偏差的训练数据训练模型来生成多个经训练的模型。

如图6进一步所示，过程600可以包括用评分数据处理多个经训练的模型，来生成针对多个经训练的模型的分数(块640)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储部件340等)可以用评分数据处理多个经训练的模型，来生成针对多个经训练的模型的分数。

如图6进一步所示，过程600可以包括基于模型度量和分数，从多个经训练的模型中选择经训练的模型(块650)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储器330等)可以基于模型度量和分数，从多个经训练的模型中选择经训练的模型。

如图6进一步所示，过程600可以包括用经训练的模型处理训练样本，来生成第一结果，基于无偏差的训练数据和与生产环境相关联的生产数据，训练样本已被创建，经训练的模型将被用于生产环境中(块660)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储部件340等)可以用经训练的模型处理训练样本，来生成第一结果，基于无偏差的训练数据和与生产环境相关联的生产数据，训练样本已被创建，经训练的模型将被用于生产环境中。

如图6进一步所示，过程600可以包括用经训练的模型处理生产样本，来生成第二结果，基于生产数据和训练样本，生产样本已被创建(块670)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储器330等)可以用经训练的模型处理生产样本，来生成第二结果。在一些实施方式中，基于生产数据和训练样本，生产样本可能已被创建。

如图6进一步所示，过程600可以包括基于第一结果和第二结果来提供用于在生产环境中使用的经训练的模型(块680)。例如，如上文中结合图1A至图2所述，验证平台(例如，使用计算资源224、处理器320、存储器330、存储部件340、通信接口370等)可以基于第一结果和第二结果来提供用于在生产环境中使用的经训练的模型。

过程600可以包括附加的实施方式，诸如，下文所描述的和/或关于本文所述的任何其他过程所描述的任何单个实施方式或实施方式的任何组合。

在一些实施方式中，验证平台可以监测经训练的模型在生产环境中的性能，可以确定经训练的模型的性能和模型度量间的偏差，并且可以基于偏差来更新经训练的模型。在一些实施方式中，当用评分数据处理多个经训练的模型时，验证平台可以基于训练观测集来执行分数的定量验证，并且基于与训练数据和评分数据相关联的直方图来执行分数的定性验证。

在一些实施方式中，当选择经训练的模型时，验证平台可以将与多个经训练的模型相关联的精度度量、召回度量以及目标泄露度量和分数作比较，并且可以基于精度度量、召回度量以及目标泄露度量和分数的比较，从多个经训练的模型中选择经训练的模型。

在一些实施方式中，验证平台可以标识训练数据的一部分，可以从生产环境中捕获生产数据中的并且与训练数据的一部分相关联的特定生产数据，并且可以基于训练数据的一部分和特定生产数据来创建训练样本。在一些实施方式中，验证平台可以用与训练样本相同的输入来标识生产数据中的特定生产数据，并且可以基于特定生产数据创建生产样本。

虽然图6示出了过程600的示例块，但是在一些实施方式中，与

图6所描述的块相比，过程600可以包括附加的块、更少的块、不同的块或被不同布置的块。附加地或备选地，过程600的块中的两个或多个块可以被并行执行。

上述公开提供了说明和描述，但并非旨在穷举或将实施方式限制于所公开的精确形式。鉴于以上公开内容，修改和变型是可能的，或者可以从实施方式的实践中获得。

如本文所使用的，术语部件旨在被广义地解释为硬件、固件或硬件和软件的组合。

某些用户界面已经在本文中被描述和/或在附图中被示出。用户界面可以包括图形用户界面、非图形用户界面、基于文本的用户界面等。用户界面可以提供用于显示的信息。在一些实施方式中，用户可以与信息交互，诸如，通过经由设备的输入部件提供输入，该设备提供用于显示的用户界面。在一些实施方式中，用户界面可以是可由设备和/或用户(例如，用户可以改变用户界面的尺寸、经由用户界面而被提供的信息、经由用户界面而被提供的信息的位置)配置的。附加地或备选地，用户界面可以根据标准配置、基于显示用户界面的设备类型的特定配置和/或基于与显示用户界面的设备相关联的功能和/或规范的配置的集合而被预配置。

显然地，本文所描述的系统和/或方法可以以硬件、固件或硬件和软件的组合的不同形式来实现。被用来实现这些系统和/或方法的实际专用控制硬件或软件代码不是对实施方式的限制。因此，本文描述了系统和/或方法的操作和行为，而没有参考特定的软件代码—应当理解，基于本文的描述，软件和硬件可以被设计来实现系统和/或方法。

即使特征的特定组合在权利要求书中被叙述和/或在说明书中被公开，这些组合也不旨在限制可能的实施方式的公开。事实上，这些特征中的许多特征可以以未在权利要求书中被具体叙述的和/或未在说明书中被公开的方式来组合。虽然下文所列出的每项从属权利要求可以直接依赖于一项权利要求，但是可能的实施方式的公开包括与权利要求集中的每项其他权利要求相结合的每项从属权利要求。

除非如此明确地描述，否则本文所使用的任何元素、动作或指示都不应当被解释为关键的或必要的。又如本文所使用的，冠词“一个(a)”和“一个(an)”旨在包括一个或多个项目，并且可以和“一个或多个(one or more)”互换使用。此外，如本文所使用的，术语“集合(set)”旨在包括一个或多个项目(例如，相关项目、不相关项目、相关项目和不相关项目的组合等)，并且可以和“一个或多个(one or more)”互换使用。在仅有一个项目的情况下，术语“一个(one)”或类似的语言被使用。又如本文所使用的，术语“具有(has)”、“具有(have)”、“具有(having)”等旨在为开放式术语。此外，除非另有明确说明，否则短语“基于(based on)”旨在表示“至少部分地基于(based，at least in part，on)”。

Claims

1.一种设备，包括：

用于接收模型和针对所述模型的数据的装置，

所述模型包括人工智能模型或机器学习模型；

用于基于所述数据标识针对所述模型的训练数据和评分数据的装置；

用于去除来自所述训练数据的偏差，来生成无偏差的训练数据的装置；

用于利用所述无偏差的训练数据来训练所述模型，以生成多个经训练的模型的装置；

用于利用所述评分数据来处理所述多个经训练的模型，以生成针对所述多个经训练的模型的分数的装置；

用于基于模型度量和所述分数，从所述多个经训练的模型中评估并选择经训练的模型的装置；

用于基于所述无偏差的训练数据以及与生产环境相关联的生产数据，创建针对所述经训练的模型的训练样本的装置，所述经训练的模型将在所述生产环境中被利用；

用于基于所述生产数据和所述训练样本创建生产样本的装置；

用于利用所述经训练的模型来处理所述训练样本和所述生产样本，以生成与所述训练样本相关联的第一结果和与所述生产样本相关联的第二结果的装置；

用于基于所述第一结果和所述第二结果，验证用于在所述生产环境中使用的所述经训练的模型的装置；以及

用于基于验证所述经训练的模型，提供将被用在所述生产环境中的所述经训练的模型的装置。

2.根据权利要求1所述的设备，还包括：

用于监测所述经训练的模型在所述生产环境中的性能的装置；以及

用于基于所述经训练的模型的所述性能和所述模型度量之间的偏差，更新所述经训练的模型的装置。

3.根据权利要求1所述的设备，其中用于标识所述训练数据和所述评分数据的所述装置包括以下各项中的一项或多项：

用于从所述数据中标识时间数据，以用于包括在所述训练数据或所述评分数据中的装置，

用于从所述数据中标识指示边界条件的数据，以用于包括在所述训练数据或所述评分数据中的装置，

用于从所述数据中标识与实体相关联的数据，以用于包括在所述训练数据或所述评分数据中的装置，

用于从所述数据中标识与正面结果和负面结果相关联的数据，以用于包括在所述训练数据或所述评分数据中的装置，或者

用于标识所述数据的第一部分，以用于包括在所述训练数据中，以及标识所述数据的第二部分，以用于包括在所述评分数据中的装置。

4.根据权利要求1所述的设备，其中用于利用所述评分数据来处理所述多个经训练的模型的所述装置包括：

用于执行所述分数的定量验证的装置；以及

用于执行所述分数的定性验证的装置。

5.根据权利要求1所述的设备，其中用于评估并选择所述经训练的模型的所述装置包括：

用于将与所述多个经训练的模型相关联的精度度量和所述分数比较的装置；

用于将与所述多个经训练的模型相关联的召回度量和所述分数比较的装置；

用于将与所述多个经训练的模型相关联的目标泄露度量和所述分数比较的装置；以及

用于基于所述精度度量、所述召回度量以及所述目标泄露度量和所述分数比较，从所述多个经训练的模型中选择所述经训练的模型的装置。

6.根据权利要求1所述的设备，其中用于基于所述无偏差的训练数据和所述生产数据，创建针对所述经训练的模型的所述训练样本的所述装置包括：

用于标识所述无偏差的训练数据的部分的装置；

用于从所述生产环境获得所述生产数据中的并且与所述无偏差的训练数据的所述部分相关联的特定生产数据的装置；以及

用于基于所述无偏差的训练数据的所述部分和所述特定生产数据，创建所述训练样本的装置。

7.根据权利要求1所述的设备，其中用于创建所述生产样本的所述装置包括：

用于利用与所述训练样本相同的输入，来标识所述生产数据的特定生产数据的装置；以及

用于基于所述特定生产数据，创建所述生产样本的装置。

8.一种存储指令的非暂时性计算机可读介质，所述指令包括：

一个或多个指令，当所述一个或多个指令由设备的一个或多个处理器执行时，使得所述一个或多个处理器：

从所接收的数据中标识针对模型的训练数据和评分数据；

利用所述训练数据来训练所述模型，以生成多个经训练的模型；

利用所述评分数据来处理所述多个经训练的模型，以生成针对所述多个经训练的模型的分数；

基于模型度量和所述分数，从所述多个经训练的模型中选择经训练的模型；

利用所述经训练的模型来处理训练样本，以生成第一结果，

所述训练样本已经基于所述训练数据以及与生产环境相关联的生产数据而被创建，所述经训练的模型将在所述生产环境中被利用；

利用所述经训练的模型来处理生产样本，以生成第二结果，

所述生产样本已经基于所述生产数据和所述训练样本而被创建；

基于所述第一结果和所述第二结果匹配，验证用于在所述生产环境中使用的所述经训练的模型；以及

基于验证所述经训练的模型，提供将被用在所述生产环境中的所述经训练的模型。

9.根据权利要求8所述的非暂时性计算机可读介质，其中所述指令还包括：

一个或多个指令，当所述一个或多个指令由所述一个或多个处理器执行时，使得所述一个或多个处理器：

监测所述经训练的模型在所述生产环境中的性能；

确定所述经训练的模型的所述性能和所述模型度量之间的偏差；以及

基于所述偏差，更新所述经训练的模型。

10.根据权利要求8所述的非暂时性计算机可读介质，其中使得所述一个或多个处理器标识所述训练数据和所述评分数据的所述一个或多个指令，使得所述一个或多个处理器完成以下各项中的一项或多项：

将来自所述所接收的数据的时间数据包括在所述训练数据或所述评分数据中，

将来自所述所接收的数据的指示边界条件的数据包括在所述训练数据或所述评分数据中，

将来自所述所接收的数据的与实体相关联的数据包括在所述训练数据或所述评分数据中，

将来自所述所接收的数据的与正面结果和负面结果相关联的数据包括在所述训练数据或所述评分数据中，或者

将所述所接收的数据的第一部分包括在所述训练数据中，以及将所述所接收的数据的第二部分包括在所述评分数据中。

11.根据权利要求8所述的非暂时性计算机可读介质，其中使得所述一个或多个处理器利用所述评分数据来处理所述多个经训练的模型的所述一个或多个指令，使得所述一个或多个处理器：

基于训练观测的集合，执行所述分数的定量验证；以及

基于与所述训练数据和所述评分数据相关联的直方图，执行所述分数的定性验证。

12.根据权利要求8所述的非暂时性计算机可读介质，其中使得所述一个或多个处理器选择所述经训练的模型的所述一个或多个指令，使得所述一个或多个处理器：

将与所述多个经训练的模型相关联的精度度量、召回度量或目标泄露度量中的一项或多项度量和所述分数比较；以及

基于将所述精度度量、所述召回度量或所述目标泄露度量中的所述一项或多项度量和所述分数比较，从所述多个经训练的模型中选择所述经训练的模型。

13.根据权利要求8所述的非暂时性计算机可读介质，其中所述指令还包括：

标识所述训练数据的部分；

从所述生产环境中捕获所述生产数据中的并且与所述训练数据的所述部分相关联的特定生产数据；以及

基于所述训练数据的所述部分和所述特定生产数据，创建所述训练样本。

14.根据权利要求8所述的非暂时性计算机可读介质，其中所述指令还包括：

利用与所述训练样本相同的输入来标识所述生产数据中的特定生产数据；以及

基于所述特定生产数据，创建所述生产样本。

15.一种方法，包括：

通过设备标识针对模型的训练数据和评分数据；

通过所述设备去除来自所述训练数据的偏差，来生成无偏差的训练数据；

通过所述设备，利用所述无偏差的训练数据来训练所述模型，以生成多个经训练的模型；

通过所述设备，利用所述评分数据来处理所述多个经训练的模型，以生成针对所述多个经训练的模型的分数；

通过所述设备，基于模型度量和所述分数，从所述多个经训练的模型中选择经训练的模型；

通过所述设备，利用所述经训练的模型来处理训练样本，以生成第一结果，

所述训练样本已经基于所述无偏差的训练数据以及与生产环境相关联的生产数据而被创建，所述经训练的模型将在所述生产环境中被利用；

通过所述设备，利用所述经训练的模型来处理生产样本，以生成第二结果，

所述生产样本已经基于所述生产数据和所述训练样本而被创建；以及

通过所述设备，基于所述第一结果和所述第二结果，提供用于在所述生产环境中使用的所述经训练的模型。

16.根据权利要求15所述的方法，还包括：

监测所述经训练的模型在所述生产环境中的性能；

基于所述偏差，更新所述经训练的模型。

17.根据权利要求15所述的方法，其中利用所述评分数据来处理所述多个经训练的模型包括：

基于训练观测的集合，执行所述分数的定量验证；以及

18.根据权利要求15所述的方法，其中选择所述经训练的模型包括：

将与所述多个经训练的模型相关联的精度度量、召回度量以及目标泄露度量和所述分数比较；以及

基于将所述精度度量、所述召回度量以及所述目标泄露度量和所述分数比较，从所述多个经训练的模型中选择所述经训练的模型。

19.根据权利要求15所述的方法，还包括：

标识所述训练数据的部分；

20.根据权利要求15所述的方法，还包括：

基于所述特定生产数据，创建所述生产样本。