CN110520874A

CN110520874A - 基于时间的全体机器学习模型

Info

Publication number: CN110520874A
Application number: CN201880020229.8A
Authority: CN
Inventors: S.安巴蒂; A.巴瑟
Original assignee: H2o Artificial Intelligence Co
Current assignee: H2o Artificial Intelligence Co
Priority date: 2017-03-31
Filing date: 2018-03-28
Publication date: 2019-11-29
Anticipated expiration: 2038-03-28
Also published as: CN110520874B; WO2018183473A1; US11416751B2; US20180293501A1; US20230177352A1; EP3602317A4; EP3602317A1

Abstract

将输入数据集分类成数据的第一版本和数据的第二版本。数据的第一版本与第一时间段相关联，并且数据的第二版本与第二时间段相关联。所述第二时间段是比第一时间段短的时间段。基于所述数据的第一版本来生成一个或多个机器学习模型的第一集合。基于所述数据的第二版本来生成一个或多个机器学习模型的第二集合。组合一个或多个机器学习模型的第一集合与一个或多个机器学习模型的第二集合来生成全体模型。输出基于全体模型的预测。预测指示与输入数据集相关联的异常行为。

Description

基于时间的全体机器学习模型

其他申请的交叉引用

本申请对2017年3月31日提交的、题为DETECTING MONEY LAUNDERING USING MACHINELEARNING的、申请号为62/479,963的美国临时专利申请要求优先权，所述美国临时专利申请通过引用被并入本文中用于所有目的。

发明背景

机器学习是计算机科学的领域，其给予计算机在没有被显式编程的情况下学习的能力。计算机可以包括机器学习模型，所述机器学习模型能够被训练以实现复杂的函数，所述复杂的函数被配置成基于输入集合来生成一个或多个预测。所训练的机器学习模型被配置成像黑盒一样起作用：它接收生产数据，所述生产数据被应用到所述复杂函数，并且输出一个或多个预测标签。

附图说明

在以下详细描述和附图中公开本发明的各种实施例。

图1是图示用于检测异常行为的系统的实施例的框图。

图2是图示输入数据集的实施例的图解。

图3是图示用于训练机器学习模型以检测异常行为的过程的实施例的流程图。

图4是图示用于选择将在机器学习模型中使用的特征的过程的实施例的流程图。

图5是图示用于预测异常行为的过程的实施例的流程图。

图6是图示了用于基于特征易失性来重新训练机器学习模型的过程的实施例的流程图。

图7是图示用于监视机器学习模型的过程的实施例的流程图。

具体实施方式

本发明可以用众多方式来被实现，包括被实现为过程；装置；系统；物质的组成；在计算机可读存储介质上具体化的计算机程序产品；和/或处理器，诸如被配置成执行在耦合到处理器的存储器上所存储的和/或由该存储器所提供的指令的处理器。在本说明书中，这些实现方式、或本发明可以采取的任何其他形式可以被称为技术。通常，所公开的过程的步骤的次序可以在本发明的范围内变更。除非另行声明，否则诸如被描述为被配置成执行任务的处理器或存储器之类的部件可以被实现为在给定时间临时被配置成执行该任务的通用部件或被制造成执行该任务的特定部件。如本文中所使用的，术语“处理器”是指被配置成处理诸如计算机程序指令之类的数据的一个或多个设备、电路和/或处理核。

本发明的一个或多个实施例的详细描述在以下连同图示发明原理的附图一起被提供。结合这样的实施例来描述本发明，但是本发明不限于任何实施例。仅仅通过权利要求来限制本发明的范围，并且本发明涵盖众多可替换途径、修改和等同物。在以下描述中阐明众多特定细节以便提供对本发明的透彻理解。这些细节被提供用于示例的目的，并且可以根据权利要求、在没有这些特定细节中一些或全部的情况下实践本发明。为了清楚的目的，在与本发明有关的技术领域中已知的技术材料没有被详细描述以便不会不必要地使本发明模糊。

计算设备可以被配置成实现机器学习模型。机器学习模型可以被训练以基于输入数据集合来输出预测。输入数据集合包括多个条目。每个条目相关联于具有对应特征值的多个特征。每个条目可以相关联于对应的预测标签。输入数据集合可以被分类成训练数据和验证数据。训练数据可以用于训练机器学习模型。机器学习模型可以被调谐以更好地匹配与训练数据相关联的预测标签。例如，与机器学习模型中所包括的所述一个或多个特征相关联的一个或多个权重可以被调谐以改进机器学习模型的准确性。在输入数据集合中所包括的验证数据可以用于验证所训练的机器学习模型。随后，生产数据可以被应用到经验证的机器学习模型。响应于生产数据，机器学习模型被配置成输出与生产数据相关联的预测标签。然而，预测标签的准确性基于一个或多个因素而受到限制。

首先，基于被用于训练机器学习模型的训练数据，预测标签的准确性受到限制。训练数据可以是一时间段（例如一年）内的数据累积。可以在整个数据集上训练机器学习模型。与特征相关联的异常特征值可以与其他训练数据混合，并且被忽视。异常将被捕获，但是因为该异常不持续长久，所以它将不是显著事件（例如，模型的权重基于给予特定事件的显著性）。例如，特征可以具有针对短时间段（例如一天）的易失性特征值，并且当训练机器学习模型的时候，可以不标识异常特征值。

其次，用来重新训练机器学习模型的频率可以限制机器学习模型的准确性。常规的机器学习模型在周期性基础上（例如，每月地）被重新训练。然而，这样的途径不计及生产数据中的易失性。例如，在机器学习模型预测中，特征及其对应的特征值不可以被给予显著量的权重。然而，在生产数据中，自从上一次训练/重新训练机器学习模型以来，与特征相关联的特征值可以展现显著的易失性。该特征易失性可以影响预测标签。机器学习模型直到其被重新训练为止可不计及该特征易失性，这可导致在过渡时段中不太准确的机器学习模型。

最后，机器学习模型的准确性取决于被用于训练机器学习模型的特征。训练数据集可以包括具有多个特征和相应特征值的多个条目。机器学习模型可以通过使用特征子集来被训练。作为结果，机器学习模型的准确性基于该特征的子集。然而，在机器学习模型被训练之后，没有被包括在特征子集中的特征可以展现预测的易失性影响，机器学习模型被训练以针对该预测进行预测。机器学习模型将不能确定特征在其预测中的影响，除非它被重新训练。

作为结果，代替于真阳性预测，机器学习模型可以输出假阳性预测。输出太多假阳性预测的机器学习模型是无效的。

公开了一种基于时间的全体机器学习模型。基于时间的全体机器学习模型减少了假阳性预测的数目，并且增加了真阳性预测的数目。基于时间的全体机器学习模型被配置成输出指示条目是否指示异常行为的预测标签。预测标签可以指示条目与异常行为相关联的概率。

在周期性基础上（例如，每日）接收输入数据集合。输入数据集合包括多个条目。每个条目与具有对应特征值的多个特征相关联。每个条目可以与对应的预测标签相关联。预测标签可以指示条目是否与异常行为相关联。预测标签可以指示条目与异常行为相关联的概率。预测标签可以指示条目与异常行为相关联（例如，是/否、0/1）。输入数据的每个集合可以与特定时间段（例如，小时、天、周等）相关联。例如，时间戳可以被指派给输入数据的集合。可以在一时间段内累积多个输入数据集，以生成累积数据集。可以基于不同的时间段对累积的数据集进行分类，以生成一个或多个新数据集（例如，训练和验证数据集）。时间段可以是先前的时间段（例如，上一小时、上一天、上一周、上一个月、上六个月、上一年等）或特定时间段（例如，2018年1月1日、2018年1月1日–2018年1月14日、2018年1月1日东部时间上午9:00–2018年1月1日东部时间上午10:00等）。

累积的数据集可以基于不同的时间段被分类成训练和验证数据的多个版本。例如，训练和验证数据的第一版本可以对应于与上六个月相关联的输入数据。训练和验证数据的第二版本可以对应于与上两周相关联的输入数据。训练和验证数据的版本包括具有对应特征、特征值和/或预测标签的多个条目。

训练和验证数据的每个版本可用于训练/验证一个或多个机器学习模型。可以通过使用机器学习算法来生成机器学习模型，所述机器学习算法诸如决策树、朴素贝叶斯分类、最小二乘回归、逻辑回归、支持向量机、神经网络、深度学习、梯度提升机器、广义线性模型、数学平均等等。通过使用特征集合和对应的特征值来训练机器学习模型。

机器学习模型可以被调谐以更好地匹配与训练数据相关联的预测标签。例如，与机器学习模型中所包括的所述一个或多个特征相关联的一个或多个权重可以被调谐，以改进机器学习模型的准确性。

在训练和验证数据的版本中所包括的验证数据可以用于验证所训练的机器学习模型。验证数据可以核实所训练的机器学习模型的准确性。机器学习模型可以经历训练/验证的一个或多个迭代，直到达到阈值验证评分（例如准确性）为止。

与训练和验证数据的版本相关联的所述一个或多个经验证的机器学习模型可以被组合以形成全体模型。全体模型被配置成输出一个或多个预测标签，该一个或多个预测标签基于一个或多个机器学习模型的输出。预测标签可以指示一个或多个条目与异常行为相关联的概率。可以将权重指派给被包括在全体模型中的每个机器学习模型。与全体中所包括的机器学习模型相关联的权重可以被调谐，以反映机器学习模型对全体模型预测所具有的影响度。

与第一版本的训练和验证数据相关联的全体模型可以与同一个或多个其他版本的训练和验证数据相关联的一个或多个全体模型相组合，以创建组合的全体模型。组合的全体模型被配置成输出一个或多个预测标签，该一个或多个预测标签基于被组合以形成组合的全体模型的一个或多个全体模型的输出。可以将权重指派给在组合的全体模型中所包括的每个全体模型。与组合的全体模型中所包括的集合模型相关联的权重可以被调谐，以反映全体模型对组合的全体模型预测所具有的影响度。

实现组合的全体模型预测的计算设备可以比实现常规机器学习模型的计算设备输出更准确的预测，因为组合的全体模型预测将可能不看似在长期内易失但是看似在短期内易失的特征值纳入考虑。作为结果，异常行为可以被更正确地标识。

生产数据集可以应用到组合的全体模型。生产数据集包括一个或多个条目。生产数据集的一个或多个条目不包括对应的预测标签。组合的全体模型被配置成输出针对一个或多个条目中的每一个的预测标签。在一些实施例中，组合的全体模型被配置成指示：单个条目指示异常行为。在其他实施例中，组合的全体模型被配置成指示：生产数据集的子集指示异常行为。标识（例如，标记）指示异常行为的一个或多个条目，并且向重新查看系统提供通知以重新查看所标识的一个或多个条目。重新查看系统的用户可以指示被标识为与异常行为相关联的条目是真阳性还是假阳性。真阳性是指示异常行为并且被标识为指示异常行为的条目。假阳性是不指示异常行为并且被标识为指示异常行为的条目。组合的全体模型可以导致常规机器学习模型的更少的假阳性。这是对常规机器学习模型的改进，因为实现机器学习模型的计算设备的目的是要提供尽可能准确的预测。

可以重新训练与组合的全体模型相关联的一个或多个机器学习模型，以改进其预测的准确性。

在一些实施例中，在周期性基础上（例如，每小时、每日、每周地等）从数据源接收输入数据集。输入数据集包括多个条目。每个条目与多个特征和对应的特征值相关联。输入数据集可以与输入数据的一个或多个先前集合合并。可以针对第一时间段确定与每个特征相关联的对应统计基线值（例如，平均值、均值、范围等）。第一时间段可以是先前的时间段（例如，上一个月、上3个月、上6个月、上一年等）或特定时间段（2017年、2017年6月等）。可以针对第二时间段确定与每个特征（例如，平均值、均值、范围等）相关联的对应统计易失性值。第二时间段可以是先前的时间段（例如，上一小时、上一天、上一周、上2周等）或特定时间段（2017年1月1日、2017年1月1日至2017年1月14日等）。第二时间段是比第一时间段短的时间段。例如，第一时间段可以对应于上六个月，并且第二时间段可以对应于上一周。

将特征的统计基线值与特征的统计易失性值进行比较，以确定特征的变异。在当与统计基线值相比的时候统计易失性值不满足触发事件（例如，小于阈值量）的情况中，保留与组合的全体模型相关联的一个或多个机器学习模型。在统计易失性值当与统计基线值相比的时候满足触发事件（例如，大于或等于阈值量）的情况中，组合的全体模型的一个或多个机器学习模型中的至少一个被重新训练。例如，特征的统计基线值可以是针对上6个月的特征的中值，并且特征的统计易失性值可以是针对上2周的特征的平均值。在特征的统计易失性值从特征的统计基线值变化多于阈值量（例如，一个标准偏差）的情况中，可以重新训练机器学习模型。在不通过使用易失性特征来训练机器学习模型的情况中，可以至少部分地基于易失性特征来重新训练机器学习模型。在通过使用易失性特征来训练机器学习模型的情况中，可以重新训练机器学习模型，使得与易失性特征相关联的权重被调谐以将易失性纳入考虑。

在一些实施例中，预测标签的子集被采样并且重新查看。例如，机器学习模型可以被配置成做出100个预测，并且对该预测中的10个进行采样。接收指示预测是假阳性还是真阳性的指示。在假阳性的数目满足触发事件（例如，在假阳性阈值以下）的情况中，保留机器学习模型。否则，重新训练或重新设计机器学习模型。可替换地，在真阳性的数目满足触发事件（例如，小于真阳性的阈值数目）的情况中，重新训练或重新设计机器学习模型。

基于特征易失性和/或多个假/真阳性预测来重新训练与组合的全体模型相关联的一个或多个机器学习模型改进了一个或多个机器学习模型和组合的全体模型的准确性，因为组合的全体模型的机器学习模型直到它被重新训练为止将继续做出不太准确的预测。这样的不准确性将被传播到组合集合模型，这将导致总体预测中的降低的准确性。

基于特征易失性和/或多个假/真阳性预测来重新训练与组合的全体模型相关联的一个或多个机器学习模型还可以防止计算资源通过重新训练机器学习模型而被浪费，因为在周期性调度上重新训练机器学习模型可以使得机器学习模型在不必要的时候被重新训练。特征值驱动和/或真/假阳性驱动途径将确保组合的全体模型的一个或多个机器学习模型仅当它们需要被重新训练的时候才被重新训练。

图1是图示用于检测异常行为的系统的实施例的框图。在所示的示例中，系统100包括存储系统100、网络115、异常活动检测平台120和客户端设备130。

存储系统110被配置成存储与多个实体相关联的数据。实体可以是例如人员、银行、企业、医院、政府机构、机器、设备、航空公司等。存储系统110可以包括一个或多个服务器、一个或多个计算设备、一个或多个存储设备和/或其组合。

在一些实施例中，数据包括与实体相关联的个人信息，诸如姓名、地址、年龄、性别、出生日期、高度、体重、血型、头发颜色、眼睛颜色、职业、当前雇主、（一个或多个）先前雇主、社保号等。

在一些实施例中，所述数据包括与实体相关联的交易信息。交易信息可以包括例如账户类型、账户结余、打开特定账户的日期、账户所有者、与存款或取款相关联的量、与特定账户相关联的取款的时间戳、与特定账户相关联的存款的时间戳、用于特定存款的存款方法的类型（例如ATM存款、电汇、出纳员存款、移动应用等等）、用于特定账户的取款方法的类型（例如ATM取款、电汇、出纳员取款、移动应用等等）、与存款相关联的账户（例如从账户A存放到账户B中的钱）、和/或与取款相关联的账户（例如从账户B提取并且被存放到账户A中的金钱）。

在一些实施例中，数据包括与实体相关联的传感器数据。例如，传感器数据可以包括温度传感器值、邻近传感器值、电感传感器值、电容值、光电值、超声传感器值、加速度传感器值、亮度传感器值、压力传感器值、力值、水品质值、电导率传感器值、浊度传感器值、总有机碳传感器值、氯残留传感器值、pH传感器值、化学传感器值、气体传感器值、二氧化碳传感器值、酒精气息检测器值、一氧化碳传感器值、催化珠传感器值、氢传感器值、空气污染传感器值、氮氧化物传感器值、氧传感器值、臭氧监测器值、电化学气体传感器值、湿度计值、烟雾传感器值、红外传感器值、图像传感器、运动检测器传感器、陀螺仪传感器值、湿度传感器值、光学传感器值等等。

在一些实施例中，与实体相关联的数据包括预测标签。预测标签可以指示与数据相关联的条目何时与异常行为相关联。例如，传感器值可以指示传感器没有在恰当地运作，并且特定的传感器读数可以被标记为异常行为。与人员相关联的一个或多个特定交易活动可能已经被标记为指示异常行为并且与洗钱相关联。

存储系统110经由网络115耦合到异常行为检测平台120。网络115包括以下一个或多个：局域网、广域网、有线网络、无线网络、因特网、内联网或任何其他适当的通信网络。

异常行为检测平台120包括存储装置121、特征生成模块125、多个变换126、一个或多个机器学习模型127和预测结果128。

异常行为检测平台120被配置成从存储系统110接收输入数据集合，并且将输入数据存储在存储装置121中。存储装置121可以包括一个或多个固态驱动器、一个或多个硬盘驱动器、云存储装置或其组合。异常行为检测平台120可以包括一个或多个处理器，该一个或多个处理器耦合到存储驱动器并且被配置成将输入数据存储在存储装置121中。

输入数据集合包括与一个或多个实体相关联的数据。在周期性基础上（例如，每日）接收输入数据集合。输入数据集合包括多个条目。每个条目与具有对应特征值的多个特征相关联。每个条目可以与对应的预测标签相关联。预测标签可以指示条目是否与异常行为相关联。预测标签可以指示条目与异常行为相关联的概率。预测标签可以指示条目与异常行为相关联。预测标签可以被存储为预测标签124。输入数据的每个集合可以与特定时间段（例如，小时、天、周等）相关联。例如，时间戳可以被指派给输入数据集合。可以从存储系统110接收多个输入数据集，并且在一段时间内累积以生成累积数据集。可以基于不同的时间段对累积的数据集进行分类，以生成一个或多个新数据集。时间段可以是先前的时间段（例如，上一小时、上一天、上一周、上一个月、上六个月、上一年等）或特定时间段（例如，2018年1月1日、2018年1月1日–2018年1月14日、2018年1月1日东部时间上午9:00–2018年1月1日东部时间上午10:00等）。

累积的数据集可以被分类成训练和验证数据。在一些实施例中，用作训练数据的条目的数目大于用作验证数据的条目的数目。在其他实施例中，用作训练数据的条目的数目等于用作验证数据的条目的数目。在其他实施例中，用作验证数据的条目的数目大于用作训练数据的条目的数目。

累积的数据集可以基于不同的时间段被分类成多个版本的训练和验证数据，并且分别被存储为训练数据122和验证数据123。例如，训练和验证数据的第一版本可以对应于与上六个月相关联的输入数据。训练和验证数据的第二版本可以对应于与上两周相关联的输入数据。训练和验证数据的版本包括具有对应特征、特征值和/或预测标签的多个条目。训练和验证数据的每个版本可以用于训练/验证机器学习模型127中的至少一个。

特征生成模块125被配置成基于从存储系统110接收的输入数据集中所包括的特征来生成一个或多个新特征。特征生成模块125可以从变换126选择变换，并且将所选择的变换应用到一个或多个特征及其对应的特征值。在一些实施例中，特征经历变换以生成新特征。在其他实施例中，多个特征经历变换以生成新特征。变换器可以包括滤波器变换器、频率变换器、批量交互变换器、被截断的SVD数值变换器、交叉验证目标编码、交叉验证分类至数值编码变换器、日期变换器、日期极变换器、文本变换器、分类目标编码变换器、数值至分类目标编码变换器、聚类目标编码变换器、聚类距离变换器、证据权重和/或数值至分类证据权重变换器。

过滤变换器对数据集中的每个数值进行计数。频率变换器对数据集中的每个分类值进行计数。该计数可以是原始计数或经归一化的计数。批量交互变换器将对特征数据集中的两个列进行加、除、乘和/或减。经截断的奇异值分解（SVD）数值变换器在数据集中所选的数值列上进行训练。经截断的SVD的分量将是新特征。交叉验证目标编码在分类列上进行。交叉验证分类至数值编码变换器将分类列变换成数值列。交叉验证编码在分类列上进行。日期变换器将任何数据值（例如年、季度、月、日、积日、星期、工作日、小时、分钟、秒等等）检索成数值。日期极变换器通过使用极坐标来扩展日期。日期变换器将仅仅把日期扩展成不同的单位，例如月。这不捕获在十二月和一月（12和1）或23时和0时之间的相似性。极坐标通过将数据单位表示为循环中的点而捕获这些情况之间的相似性。文本变换器通过使用TFIDF（术语频率-逆文档频率）或计数（词语的计数）来变换文本列。这可以继之以通过使用经截断的SVD的降维。分类目标编码变换器可以在分类列上执行交叉验证目标编码。数值至分类目标编码变换器通过装仓而将数值列转换成分类。交叉验证目标编码在经装仓的数值列上进行。聚类目标编码变换器对数据中所选的列进行聚类，并且在聚类ID上进行目标编码。聚类距离变换器对数据中的所选列进行聚类，并且计算至所选聚类中心的距离。证据权重通过使用证据权重（weights of evidence，WOE）变换方法来创建似然性类型的特征。证据权重告知自变量相对于因变量的预测能力。

在一些实施例中，由特征生成模块125所生成的所述一个或多个新特征可以包括针对所指定的持续时间（例如上7天）的总量（取款-存款）、针对所指定的持续时间（例如上30天）的现金存款数、针对所指定的持续时间（例如上30天）的现金存款量、针对所指定的持续时间（例如上30天）的取款量、针对所指定的持续时间（例如上30天）的取款数、针对所指定的持续时间（例如上30天）从非ATM源的金钱取款总量、经由ATM取款的金钱量除以针对所指定的持续时间（例如上30天）的金钱取款总量、针对所指定的持续时间从非ATM源所取款的金钱总量、经由ATM所取款的金钱量除以由非ATM取款机制所取款的金钱量、账户年龄、针对所指定的持续时间（例如上30天）每持续时间（例如每天）的平均量（取款-存款）、针对所指定的持续时间（例如上7天）的取款平均大小、针对所指定的持续时间的每周总量、针对所指定的时段（例如六个月）在第一持续时间基础（例如每周基础）上取款的金钱量减去存放的金钱量、和/或针对所指定的持续时间经由ATM的取款金钱量除以在每月基础上针对所指定的持续时间的金钱总量。

可以基于交易数据来生成一个或多个新特征。在一些实施例中，从与多个实体相关联的交易数据生成一个或多个新特征。在其他实施例中，从与特定实体账户相关联的交易数据生成特征。在其他实施例中，从与第一实体相关联的数据生成一些特征，并且从与一个或多个其他实体相关联的数据生成其他特征。

可以通过使用机器学习算法来生成一个或多个机器学习模型127，所述机器学习算法诸如决策树、朴素贝叶斯分类、最小二乘回归、逻辑回归、支持向量机、神经网络、深度学习、梯度提升机器、广义线性模型、数学平均等等。一个或多个机器学习模型127可以被配置成输出预测标签，该预测标签指示输入数据的一个或多个条目是否指示异常行为（例如，洗钱、故障传感器等）。输出可以包括一个或多个原因代码，该一个或多个原因代码解释为什么特定条目被标记为是异常的。原因代码指示特定特征以及与该特征相关联的对应权重。例如，在树模型中，原因代码值是将树拆分成树叶或树枝的值，并且被用于解释关于为什么某个条目被标记为是异常的判定过程。

机器学习模型通过使用特征集合以及对应的特征值来被训练。在一些实施例中，所述特征集合包括在训练数据中所包括的特征的子集。在一些实施例中，所述特征集合包括基于在训练数据中所包括的所述一个或多个特征的一个或多个新特征。可以通过特征生成模块125来生成所述一个或多个新特征。用于训练第一机器学习模型的特征集合可以与同用于训练第二机器学习模型的特征集合相关联的特征中的全部、一些重叠或不与所述特征中任一个重叠。机器学习模型可以通过使用与另一机器学习模型相同的特征集合来被训练，但是使用不同的机器学习算法。机器学习模型可以通过使用与不同的机器学习模型相同的机器学习算法来被训练，但是通过使用不同的特征集合来被训练。

特征重要性可以用于确定要选择并且使用哪些特征来训练机器学习模型。特征重要性可以是特征的流行度度量。对于基于树的模型而言，特征所使用来拆分数据越多次数，该特征就越重要。在深度学习模型中，计算每个神经元的权重，并且然后针对某个隐藏层的所有神经元的权重被归一化，并且然后提供某个特征或神经元的权重（例如，Gedeon方法）。特征被使用的次数在全体机器学习途径中是可见的，所述全体机器学习途径诸如随机森林或梯度提升机器。如果在特征的所有集合或特征的所选择的集合中，某一个特征产生最高的准确性，则对于每个树（在全体方法中）而言，该特征被更多使用。

机器学习模型可以被调谐以更好地匹配与训练数据相关联的预测标签。例如，与由机器学习模型127之一所确定的条目相关联的预测标签可以与同被包括在输入数据中的条目相关联的预测标签相比较。机器学习模型可以基于所述比较来被重新训练，例如以精细地调谐机器学习模型来做出更准确的预测。在一些实施例中，与机器学习模型相关联的一个或多个权重被调谐以改进机器学习模型的准确性。例如，与机器学习模型中所包括的所述一个或多个特征相关联的一个或多个权重可以被调谐以改进机器学习模型的准确性。

包括在训练和验证数据的版本中的验证数据可以用于验证所训练的机器学习模型。验证数据包括与多个特征以及对应的特征值相关联的多个条目。验证数据可以核实所训练的机器学习模型的准确性。机器学习模型可以经历训练/验证的一个或多个迭代，直到达到阈值验证评分（例如准确性）为止。

可以通过计算针对条目的所预测的特征标签与实际特征值之间的差异来确定机器学习模型的验证评分。针对条目的机器学习模型的验证评分（例如针对条目的准确性）可以被确定为：

。

针对所有条目的机器学习模型的总体验证评分（例如总体准确性）可以被确定为：

。

所述总体验证评分可以与阈值验证评分进行比较。在总体验证评分大于或等于阈值验证评分的情况中，保留机器学习模型。在总体验证评分小于阈值验证评分的情况中，重新训练机器学习模型。

与训练和验证数据的版本相关联的一个或多个经验证的机器学习模型可以被组合以形成全体模型。全体模型被配置成输出基于一个或多个机器学习模型的输出的预测标签。可以将权重指派给全体模型中所包括的每个机器学习模型。与全体中所包括的机器学习模型相关联的权重可以被调谐，以反映机器学习模型对全体模型预测所具有的影响度。

与第一版本的训练和验证数据相关联的全体模型可以与同一个或多个其他版本的训练和验证数据相关联的一个或多个全体模型相组合，以创建组合的全体模型。组合的全体模型被配置成输出基于一个或多个版本全体模型的输出的预测标签。可以将权重指派给被包括在组合的全体模型中的每个全体模型。与被包括在组合的全体模型中的集合模型相关联的权重可以被调谐，以反映全体模型对组合的全体模型预测所应当具有的影响度。

可以从存储系统110或客户端设备130接收生产数据集。生产数据集包括与具有对应特征值的多个特征相关联的一个或多个条目。生产数据集中所包括的一个或多个条目不包括对应的预测标签。一个或多个机器学习模型127、一个或多个全体模型和组合的全体模型被配置成基于生产数据输出一个或多个预测标签。预测标签可以指示生产数据的一个或多个条目与异常行为（例如，洗钱、故障传感器、误运转的设备等）相关联。预测标签可以具有一个或多个对应的原因代码。异常行为检测平台120被配置成经由网络115向客户端设备130提供一个或多个预测标签。在一些实施例中，一个或多个对应的原因代码被提供有一个或多个预测标签。

客户端设备130可以是个人计算机、膝上型计算机、个人数字助理、服务器、移动电话、平板设备等。客户端设备130可以与实体（例如，人员、银行、企业、医院、政府机构、机器、设备、航空公司等）相关联。

客户端设备130包括异常行为查看器132。异常行为查看器132可以是与异常行为检测平台120相关联的应用，或者被连接到异常行为检测平台120的浏览器。异常行为查看器132可以提供警报列表。警报列表可以包括一个或多个条目及其对应的预测标签。警报可以包括真阳性（TP）和假阳性（FP）警报。异常行为查看器132的用户可以指示警报是真阳性还是假阳性。用户反馈可以被提供给异常行为检测平台120，以重新训练一个或多个机器学习模型127。

图2是图示输入数据集的实施例的框图。可以由诸如存储系统110之类的存储系统存储输入数据集200。可以由诸如异常行为检测平台120之类的异常行为检测平台实现输入数据集200。输入数据集200可以用于生成被配置成预测条目是否与异常行为相关联的机器学习模型。在一些实施例中，输入数据集200可以被分类成训练数据和验证数据。在一些实施例中，输入数据集200是训练数据。在其他实施例中，输入数据集200是验证数据。

在所示出的示例中，数据集200包括条目A₁、A₂…A_n。每个条目包括具有对应特征值的一个或多个特征。例如，条目A₁包括具有对应特征值X₁、Y₁…Z₁的特征F₁、F₂…F_n。条目A₂包括具有对应特征值X₂、Y₂…Z₂的特征F₁、F₂…F_n。条目A_n包括具有对应特征值X_n、Y_n…Z_n的特征F₁、F₂…F_n。在一些实施例中，特征值可以对应于特征的实际值（例如温度=98°）。在其他实施例中，特征值可以对应于值的范围之一（例如值“2”指示$100K - $200K的银行账户结余）。在其他实施例中，特征值可以对应于可能的非数值之一（例如“0”=男性，“1”=女性）。在其他实施例中，特征值可以是文本字符串（例如“红色”、“黄色”）。

每个条目可以具有对应的预测标签。例如，条目A₁、A₂…A_n可以分别具有P₁、P₂…P_n的对应预测标签。预测标签可以指示对应的条目是否指示异常行为。预测标签可以指示对应的条目指示异常行为的概率。

特征X₁、Y₁…Z₁的集合可以被过滤以包括代表性特征集合（即，特征的初始集合的子集）。可以通过使用一个或多个条目以及其对应的代表性特征来训练机器学习模型。

输入数据集200可以对应于训练数据。机器学习模型可以被训练以输出与相关联于条目的预测标签相匹配的预测。可以基于比较来重新训练机器学习模型，例如用于精细调谐机器学习模型来做出更接近于预测标签的预测。在一些实施例中，与机器学习模型相关联的一个或多个权重被调谐以改进机器学习模型的准确性。例如，与机器学习模型中所包括的所述一个或多个特征相关联的一个或多个权重可以被调谐以改进机器学习模型的准确性。

输入数据集200可以对应于验证数据。所训练的机器学习模型可以被验证以查看其对应的预测标签是否与输入数据集中所包括的预测标签相匹配。在如下情况中可验证机器学习型机器：与其预测标签相关联的验证评分大于或等于验证评分阈值。否则，重新训练机器学习模型。

图3是图示用于训练机器学习模型以检测异常行为的过程的实施例的流程图。可以由诸如异常行为检测平台120之类的异常行为检测平台来实现过程300。

在302处，接收输入数据集。输入数据集合包括多个条目。每个条目与具有对应特征值的多个特征相关联。每个条目可以与对应的预测标签相关联。预测标签可以指示条目是否与异常行为相关联。每个输入数据集合可以与特定时间段（例如，小时、天、周等）相关联。例如，时间戳可以被指派给输入数据集合。可以在一时间段内累积多个输入数据集，以生成累积数据集。

可以从多个源接收输入数据集。例如，可以从第一源接收与实体相关联的个人信息，并且可以从第二源接收与实体相关联的交易信息。从多个源接收的输入数据可以被合并以生成单个数据集。

在304处，对累积的数据集进行分类。可以基于不同的时间段对累积的数据集进行分类，以生成一个或多个新数据集。时间段可以是先前的时间段（例如，上一小时、上一天、上一周、上一个月、上六个月、上一年等）或特定时间段（例如，2018年1月1日、2018年1月1日–2018年1月14日、2018年1月1日东部时间上午9:00–2018年1月1日东部时间上午10:00等）。累积的数据集可以基于不同的时间段被分类成训练和验证数据的多个版本。例如，训练和验证数据的第一版本可以对应于与上六个月相关联的输入数据。训练和验证数据的第二版本可以对应于与上两个周相关联的输入数据。训练和验证数据的版本包括具有对应特征、特征值和/或预测标签的多个条目。

在306处，生成一个或多个新特征。可以基于输入数据集中所包括的特征来生成一个或多个新特征。变换可以被选择并且被应用到输入数据集的一个或多个特征及其对应的特征值。在一些实施例中，特征经历变换以生成新特征。在其他实施例中，多个特征经历变换以生成新特征。

在308处，过滤一个或多个特征。一个或多个特征包括一个或多个新特征和/或输入数据集中所包括的原始特征。确定与特征相关联的特征值的分布。确定与特征相关联的特征值的分布是否满足阈值变化。在与特征相关联的特征值满足阈值变化的情况中，该特征被保留并且被包括在训练特征的子集中。在与特征相关联的特征值不满足阈值变化的情况中，该特征不被包括在训练特征的子集中。在一些实施例中，特征值的分布是单调的。

在310处，通过使用训练特征的子集来训练一个或多个机器学习模型。在一些实施例中，训练特征的子集包括输入数据集合中所包括的原始特征的子集。在一些实施例中，训练特征的子集包括一个或多个新特征和输入数据集合中所包括的原始特征的子集。

通过使用与训练和验证数据的版本中的一个相关联的训练数据来训练一个或多个机器学习模型。例如，可以通过使用与训练和验证数据的第一版本相关联的训练数据来训练第一机器学习模型，并且可以通过使用与训练和验证数据的第二版本相关联的训练数据来训练第二机器学习模型。训练和验证数据的第一版本以及训练和验证数据的第二版本对应于不同的时间段。

可以通过使用机器学习算法来生成机器学习模型，所述机器学习算法诸如决策树、朴素贝叶斯分类、最小二乘回归、逻辑回归、支持向量机、神经网络、深度学习、梯度提升机器、广义线性模型、数学平均等等。机器学习模型可以通过使用与另一机器学习模型相同的特征集合来被训练，但是使用不同的机器学习算法。机器学习模型可以通过使用与不同的机器学习模型相同的机器学习算法来被训练，但是通过使用不同的特征集合来被训练。

可以通过使用与训练和验证数据的第一版本相关联的训练数据来训练第一多个机器学习模型。可以通过使用与训练和验证数据的第二版本相关联的训练数据来训练第二多个机器学习模型。

在312处，通过使用与训练一个或多个机器学习模型的训练和验证数据的版本相对应的验证数据来验证一个或多个机器学习模型。例如，通过使用训练和验证数据的第一版本的验证数据来验证第一机器学习模型。

可以通过使用与训练和验证数据的第一版本相关联的验证数据来验证第一多个机器学习模型。可以通过使用与训练和验证数据的第二版本相关联的验证数据来验证第二多个机器学习模型。

在314处，生成一个或多个全体模型。可以基于与训练和验证数据的版本相关联的一个或多个机器学习模型来生成全体模型。例如，可以基于与训练和验证数据的第一版本相关联的一个或多个机器学习模型来生成第一全体模型，并且可以基于与训练和验证数据的第二版本相关联的一个或多个机器学习模型来生成第二全体模型。

全体模型被配置成输出基于一个或多个机器学习模型的输出的预测标签。可以将权重指派给全体模型中所包括的每个机器学习模型。与全体中所包括的机器学习模型相关联的权重可以被调谐，以反映机器学习模型对全体模型预测所具有的影响度。。

在316处，生成组合的全体模型。组合的全体模型可以包括与训练和验证数据的不同版本相关联的多个全体模型。例如，组合的全体模型可以包括与训练和验证数据的第一版本相关联的第一全体模型以及与训练和验证数据的第二版本相关联的第二全体模型。组合的全体模型被配置成输出基于一个或多个版本全体模型的输出的预测标签。可以将权重指派给组合的全体模型中所包括的每个全体模型。与组合的全体模型中所包括的全体模型相关联的权重可以被调谐，以反映全体模型对组合的全体模型预测所具有的影响度。预测标签可以指示一个或多个条目是否与异常行为（例如，洗钱、故障传感器、误运转的设备等）相关联。预测标签可以指示条目与异常行为相关联的概率。

图4是图示用于选择要在机器学习模型中使用的特征的过程的实施例的流程图。可以由诸如异常行为检测平台120之类的异常行为检测平台来实现过程400。过程400可以用于训练机器学习模型和/或重新训练机器学习模型。过程400可以用于执行过程300的308中的一些或全部。

在402处，确定与特征相关联的特征值的分布。

在404处，确定与特征相关联的特征值的分布是否满足阈值变化。例如，温度传感器的温度值的分布必须具有大于10度的分布，使得温度传感器才是感兴趣的特征。在另一示例中，实体在所指定的时间段内存放多于$9,000但是少于$10,000的次数必须大于存放的阈值数目以使得存放特征总计在$9000和$10,000之间以成为感兴趣的特征。

在与特征相关联的特征值满足阈值变化的情况中，过程400继续进行到408。在与特征相关联的特征值不满足阈值变化的情况中，过程400继续进行到406。

在406处，特征不用于训练/重新训练机器学习模型。这可以改进机器学习模型的准确性，因为与特征相关联的特征值将不负面地影响机器学习模型预测。这还可以改进重新训练的机器学习模型的准确性，因为先前用于训练机器学习模型的特征可以不用于对重新训练的机器学习模型进行训练。

在408处，使用特征来训练/重新训练机器学习模型。这可以改进机器学习模型的准确性，因为已知经历某种变化的特征可以用于检测异常行为。这还可以改进重新训练的机器学习模型的准确性，因为先前不用于训练机器学习模型的特征可以用于重新训练机器学习模型。在机器学习模型被训练之后，没有被包括在用于训练机器学习模型的特征的子集中的特征可以展现易失性行为，并且影响机器学习模型被训练成为其预测所针对的预测。机器学习模型将不能确定特征在其预测中的影响，除非它被重新训练。

图5是图示用于预测异常行为的过程的实施例的流程图。可以由诸如异常行为检测平台120之类的异常行为检测平台来实现过程500。

在502处，生产数据被应用到机器学习模型。生产数据包括与具有对应特征值的多个特征相关联的一个或多个条目。生产数据不包括对应的预测标签。

在504处，检测异常行为。与训练和验证数据的对应版本相关联的一个或多个机器学习模型的输出被组合以生成全体模型预测。可以将权重指派给全体模型中所包括的每个机器学习模型。与全体中所包括的机器学习模型相关联的权重可以被调谐，以反映机器学习模型对全体模型预测所具有的影响度。

对应的全体模型可以被组合以生成组合的全体模型。组合的全体模型可以被配置成输出针对一个或多个条目中的每一个的预测标签。预测标签可以指示条目与异常行为（例如，洗钱、故障传感器、误运转的设备等）相关联的概率。在一些实施例中，组合的全体模型被配置成指示：单个条目指示异常行为。在其他实施例中，组合的全体模型被配置成指示：一个或多个条目的子集指示异常行为。

在506处，输出警报。指示异常行为的一个或多个条目被标识（例如，标记），并且向重新查看者系统提供通知以重新查看所标识的一个或多个条目。

在508处，接收一个或多个假阳性的指示。重新查看系统的用户可以指示条目是真阳性还是假阳性。真阳性是指示异常行为并且被标识为指示异常行为的条目。假阳性是不指示异常行为并且被标识为指示异常行为的条目。

在510处，一个或多个机器学习模型被重新训练。在接收到阈值数目的假阳性的情况中，重新训练一个或多个机器学习模型。在一些实施例中，周期性地重新训练一个或多个机器学习模型。

图6是图示用于基于特征易失性来重新训练机器学习模型的过程的实施例的流程图。可以由诸如异常行为检测平台120之类的异常行为检测平台来实现过程600。

在602处，接收输入数据集。可以在周期性的基础上（例如，每日地）接收输入数据。输入数据集合包括多个条目。每个条目与具有对应特征值的多个特征相关联。输入数据集可以与一个或多个先前接收的输入数据集相组合，以生成累积数据集。

在604处，为累积数据集中所包括的特征中的每一个生成基线值。可以在指定的时间段内生成基线值。指定的时间段可以是先前的时间段（例如，上一小时、上一天、上一周、上一个月、上六个月、上一年等）或特定时间段（例如，2018年1月1日、2018年1月1日–2018年1月14日、2018年1月1日东部时间上午9:00–2018年1月1日东部时间上午10:00等）。特征的基线值可以对应于与该特征相关联的统计值（例如平均值、均值、范围等）。

在606处，为累积数据集中所包括的每个特征生成易失性值。可以在指定的时间段内生成易失性值。指定的时间段可以是先前的时间段（例如，上一小时、上一天、上一周、上2周等）或特定时间段（2017年1月1日、2017年1月1日至2017年1月14日等）。与特征的易失性值相关联的指定时间段是在持续时间方面比与特征的基线值相关联的指定时间段短的时间段。特征的易失性值可以对应于与该特征相关联的统计值（例如平均值、均值、范围等）。

在608处，确定触发条件是否已经被满足。将特征的统计基线值与特征的统计易失性值进行比较。在统计易失性值当与任何特征的统计基线值相比较的时候都不满足触发条件（例如，阈值）的情况中，过程600继续进行到610，并且与组合的全体模型相关联的一个或多个机器学习模型被保留。在统计易失性值当与任何特征的统计基线值相比较的时候都满足触发条件的情况中，过程600继续进行到612，并且组合的全体模型的一个或多个机器学习模型中的至少一个被重新训练。例如，特征的统计基线值可以是针对上6个月的特征的中值，并且特征的统计易失性值可以是针对上2周的特征的平均值。在特征的统计易失性值从特征的统计基线值变化多于阈值量（例如，一个标准偏差）的情况中，可以重新训练机器学习模型。例如，在不通过使用易失性特征来训练机器学习模型的情况中，可以至少部分地基于易失性特征来重新训练机器学习模型。在通过使用易失性特征来训练机器学习模型的情况中，可以重新训练机器学习模型，使得与易失性特征相关联的权重被调谐以将易失性纳入考虑。这可以改进重新训练的机器学习模型的准确性，因为先前不用于训练机器学习模型的特征可以用于重新训练机器学习模型。

在一些实施例中，一个或多个机器学习模型被周期性地重新训练（例如，每10天、每20天、每30天等）。在发生了触发条件的满足的情况中，与周期性重新训练相关联的时钟被重置。例如，一个或多个机器学习模型可以每30天被重新训练。在30天周期的第28天上，可以确定的是，将重新训练一个或多个机器学习模型。在一个或多个机器学习模型被重新训练之后，与周期性重新训练相关联的时钟被重置，并且一个或多个机器学习模型被调度以在从重新训练日起30天、而不是在先前的30天周期结束时被重新训练。

图7是图示用于监视机器学习模型的过程的实施例的流程图。可以由诸如异常行为检测平台120之类的异常行为检测平台来实现过程700。

在702处，对预测的子集进行采样。异常行为检测平台可以输出多个预测。例如，异常行为检测平台可以输出1000个预测。可以对所述预测中的10个进行采样。

在704处，确定采样输出中的任一个是否满足触发事件。触发事件可以指示已经预测了假阳性的阈值数目。预测的查看器可以提供关于预测是假阳性还是真阳性的指示。在满足触发事件的情况中，过程700继续进行到706，并且机器学习模型中的至少一个被重新训练。在发生了触发条件的满足的情况中，与周期性重新训练相关联的时钟被重置。例如，可以每30天地重新训练一个或多个机器学习模型。在30天周期的第28天上，可以确定的是，要重新训练一个或多个机器学习模型。在一个或多个机器学习模型被重新训练之后，与周期性重新训练相关联的时钟被重置，并且一个或多个机器学习模型被调度以在从重新训练日起30天、而不是在先前的30天周期结束时被重新训练。在不满足触发事件的情况中，过程700继续进行到708，并且一个或多个机器学习模型被保留。

尽管为了清楚理解的目的，已经相当详细地描述了前述实施例，但是本发明不限于所提供的细节。存在实现本发明的许多可替换方式。所公开的实施例是说明性的而不是限制性的。

Claims

1.一种系统，包括：

处理器，所述处理器被配置成：

将输入数据集分类成数据的第一版本和数据的第二版本，其中数据的第一版本与第一时间段相关联，并且数据的第二版本与第二时间段相关联，其中第二时间段是比第一时间段短的时间段；

基于所述数据的第一版本来生成一个或多个机器学习模型的第一集合；

基于所述数据的第二版本来生成一个或多个机器学习模型的第二集合；

组合一个或多个机器学习模型的第一集合与一个或多个机器学习模型的第二集合来生成组合的全体模型；以及

基于组合的全体模型来输出预测，其中所述预测指示与输入数据集相关联的异常行为；

存储器，其被耦合到所述处理器并且被配置成向所述处理器提供指令。

2.根据权利要求1所述的系统，其中所述处理器此外被配置成接收输入数据集。

3.根据权利要求2所述的系统，其中所述输入数据包括多个条目。

4.根据权利要求3所述的系统，其中所述多个条目与多个特征以及对应的特征值相关联。

5.根据权利要求4所述的系统，其中所述处理器此外被配置成至少部分地基于所述多个特征来生成一个或多个新特征。

6.根据权利要求5所述的系统，其中所述处理器此外被配置成：

至少部分地基于所述一个或多个新特征来生成至少一个机器学习模型。

7.根据权利要求1所述的系统，其中组合的全体模型被配置成输出一个或多个预测。

8.根据权利要求1所述的系统，其中所述处理器此外被配置成：

确定与特征相关联的特征值的分布；

至少部分地基于特征值的分布来选择特征；

至少部分地基于所选择的特征来训练机器学习模型。

9.根据权利要求1所述的系统，其中所述处理器此外被配置成将生产数据应用到一个或多个机器学习模型的第一集合以及一个或多个机器学习模型的第二集合。

10.根据权利要求1所述的系统，其中所述处理器此外被配置成：

接收一个或多个假阳性的指示；以及

至少部分地基于所述指示来重新训练至少一个机器学习模型。

11.根据权利要求1所述的系统，其中所述处理器此外被配置成：

确定针对特征的基线值；

确定针对特征的易失性值；以及

至少部分地基于所确定的基线值和所确定的易失性值来重新训练至少一个机器学习模型。

12.根据权利要求1所述的系统，其中所述处理器此外被配置成：

对与组合的全体模型相关联的一个或多个预测的子集进行采样；

确定是否满足触发事件；以及

基于所述确定来重新训练至少一个机器学习模型。

13.根据权利要求1所述的系统，其中一个或多个机器学习模型的第一集合和/或一个或多个机器学习模型的第二集合被周期性地训练。

14.一种方法，包括：

基于组合的全体模型来输出预测，其中所述预测指示与输入数据集相关联的异常行为。

15.根据权利要求14所述的方法，此外包括：

接收一个或多个假阳性的指示；以及

16.根据权利要求14所述的方法，此外包括：

确定针对特征的基线值；

确定针对特征的易失性值；以及

17.根据权利要求14所述的方法，此外包括：

对所述一个或多个预测的子集进行采样；

确定是否满足触发事件；以及

基于所述确定来重新训练至少一个机器学习模型。

18.根据权利要求14所述的方法，此外包括接收输入数据集，其中所述输入数据包括多个条目，其中所述多个条目与多个特征以及对应的特征值相关联。

19.根据权利要求18所述的方法，此外包括至少部分地基于所述多个特征来生成一个或多个新特征。

20.一种计算机程序产品，所述计算机程序产品被具体化在非暂时性计算机可读存储介质中并且包括计算机指令，所述指令用于：

组合一个或多个机器学习模型的第一集合与一个或多个机器学习模型的第二集合来生成全体模型；以及

基于全体模型来输出预测，其中所述预测指示与输入数据集相关联的异常行为。