CN110945538A

CN110945538A - 自动规则推荐引擎

Info

Publication number: CN110945538A
Application number: CN201880029314.0A
Authority: CN
Inventors: 凯瑟琳·卢; 帕特里克·格伦·默里; 齐明; 闪硕; 谢映莲; 俞舫; 郑煜昊
Original assignee: Vistor Technology
Current assignee: Vistor Technology
Priority date: 2017-04-03
Filing date: 2018-04-03
Publication date: 2020-03-31
Anticipated expiration: 2038-04-03
Also published as: WO2018187361A1; CN110945538B; US20180285745A1; US11232364B2

Abstract

用于规则生成和交互的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。提供了一个规则引擎，该引擎无需手动工作来生成或维护用于检测恶意帐户或事件的高质量规则。不再需要手动添加、调整或从系统中删除规则。系统能够确定每个规则的健康状况，并自动添加、调整和删除规则，以维护一致、有效的规则集。

Description

自动规则推荐引擎

技术领域

本文涉及规则引擎。

背景技术

规则引擎在企业设置中很常见，其具有广泛的功能，包括用于检测特定类型的实体行为。实体可以是用户、用户帐户、业务等。实体行为可以包括欺诈行为、反洗钱或其他形式的实体行为。

常规的规则引擎可用于各种应用，包括但不限于欺诈防范、反洗钱工作和执行业务策略。

通常，规则引擎在很大程度上是手动处理的，因此必须人工从规则引擎中添加、调整和删除规则。通常，这些人员会根据领域专业知识手动生成规则。

发明内容

本文描述了用于生成和维护规则引擎的技术，该技术消除了对在添加新规则、调整现有规则以及删除不再相关的规则时的手动干预的需要。系统可以接收经标记(labeled)的数据集，并输出许多(例如，多达数千个)通用规则来对经标记的数据集建模，从而允许自动生成这些规则。然后，基于馈送到系统中的更改数据来维护、删除和创建规则。

本文进一步描述了一个用户界面，该界面提供了图形和量度，用于显示系统中所有规则的整体健康状况，以及每个规则的健康状况。图形包括随时间变化的有效性以及线上部署的规则数目。规则健康状况量度包括准确性、覆盖率和误报率。

本文还描述了使用系统来支持添加手动规则到规则引擎。特别是该系统还支持针对一个或多个标记(label)对手动生成的规则进行回测，该标记可以以多种方式来创建，包括但不限于无监督机器学习、有监督机器学习和手动检查。然后，可以例如响应于用户输入、对照该历史标记的数据集来运行对手动创建的规则的回测。

总而言之，本文的主题的一个创新方面可以体现在后叙方法中，该方法包括以下操作：获得与多个用户关联的输入数据点；确定所述输入数据点是标记的还是未标记的；响应于确定所述数据点是标记的，使用有监督机器学习技术从所述输入数据点确定特征集；使用所确定的特征集生成一组候选单变量规则，其中，每个规则基于对应的特征维度来指定匹配条件；根据所述单变量规则来生成一组候选多变量规则；使用标记的输入数据点对所述候选单变量规则和所述候选多变量规则进行过滤，以生成最终有效规则集；以及输出所述最终有效规则集。

本文描述的主题的各个方面可以体现在方法、计算机系统、设备和记录在一个或多个计算机存储设备上的计算机程序中，其中每个都配置为执行方法的操作。对于一个由一个或多个计算机组成的系统被配置为执行特定的操作或动作意味着：该系统已经在其上安装了软件、固件、硬件或它们的组合，这些软件、固件、硬件或组合在操作中导致系统执行操作或动作。对于一个或多个计算机程序被配置为执行特定操作或动作，意味着该一个或多个程序包括指令，该指令在由数据处理装置执行时使该装置执行该操作或动作。

上述实施例和其他实施例均可选择单独或组合地包含以下一个或多个特性。特别是，一个实施例以组合的方式包含所有以下特征。响应于确定数据点未被标记：使用无监督机器学习来生成标记；生成正标记的数据点集群；以及为每个集群确定特性集。该规则是基于最新近的数据点来周期性地更新的。每个数据点对应于用户生成的事件，并包含描述该事件的一组属性。过滤候选单变量规则和候选多变量规则包括：基于准确性和有效性量度来评估关于标记的数据点的候选规则。该方法进一步包括：维护有关所述最终有效规则集中的每个规则的量度，该量度包括规则有效性、误报率和新近程度中的一个或多个。不满足量度阈值的规则被删除。该方法还包括：提供用户界面，所述用户界面被配置来选择性地呈现规则和关于每个规则的有效性的数据。用户界面还可配置为从用户接收手动生成的规则，其中针对历史数据对手动生成的规则进行回测以核实手动生成的规则。

本文中描述的主题可以在特定实施例中实现，以便实现以下一个或多个优于手工创建规则的优点。

首先，可以频繁地更新自动规则，以确保它们随着时间的推移保持有效。随着攻击者修改策略，手动创建的规则可能很快失效。例如，当攻击者切换到另一个域时，针对特定域(例如，以特定域结尾的地址，例如与电子邮件提供者相关联的域)为目标的手动制定的规则将变得无效。其次，自动规则不太可能在检测中触发误报，因为每个规则都必须经过严格的系统测试。例如，上面的示例手动规则可能会错误地检测到该域中电子邮件提供者的合法用户。相反，可以在规则中或与一个或多个子规则一起定义自动规则来限制误报。例如，除了以当前域为目标的规则之外，子规则还可能需要满足限制误报的其他准则(例如，指定的交易范围)。最后，手动制定的规则的生成和调整非常耗时，而自动生成的规则可完全消除这种手动调整工作。

本文主题的一个或多个实施例的细节在附图和以下描述中阐述。本主题的其他特征、方面和优点根据以下描述、附图和权利要求书将变得显而易见。

附图说明

图1是用于自动生成规则的示例过程的流程图。

图2是示例用户界面，其示出了用于检测欺诈用户的自动规则引擎的概述。

图3是示例用户界面，其示出了系统中的自动生成的规则集。

图4是示出特定规则的细节的示例用户界面。

图5是示例用户界面，其示出了手动规则集以及回测结果。

在各附图中，相似的附图标记和名称表示相似的元素

具体实施方式

生成自动规则

图1是用于自动生成规则的示例过程100的流程图。规则引擎可用于基于输入数据生成规则。规则引擎可以是系统的一部分，例如，用于跨一个或多个网络检测恶意帐户或事件的系统。为了方便起见，将关于执行过程100的这种系统来描述过程100。该系统获得输入数据点102并输出规则集118。输入数据点可以带有或可以不带有预定义标记。如果输入数据点没有预定义的标记，则规则引擎可以利用无监督机器学习算法首先生成标记，然后进一步将正标记的数据进一步分类为群集。在一些实施方式中，可以使用以下共同未决的美国专利申请中的一个或多个中描述的系统来执行无监督机器学习：于2015年2月11日提交的14/620,028、于2015年2月11日提交的以下14/620,048、2015年2月11日提交的14/620,062以及2015年2月11日提交的美国临时专利申请第14/620,029，以上申请内容通过引用并入本文。

参考图1所示，系统确定104是否标记了所获得的输入数据。如果所获得的输入数据点被标记，则系统例如使用有监督机器学习技术来识别特征106。在一些实施方式中，可根据特定的评分量度来确定主要特征集。

该系统可以使用有监督机器学习技术作为选择最佳相关特征的指导，这些最佳相关特征可以最好地将正标记数据与负标记数据区分开。例如，诸如决策树或随机森林的机器学习算法会提供有关主要特征的信息，这些主要特征可以最好地将带有正标记的输入数据从其余部分中分类出来。这样的算法可以指导主要特征的选择。

然后，使用主要特征来生成候选规则114。例如，系统可以以各种组合使用特征来生成候选规则。系统核实116候选规则。例如，系统可以根据有效性和准确性量度(例如，规则是否能够捕获作为目标的经标记数据且没有误报)评估关于经标记数据的规则的结果。系统基于核实结果来确定118最终规则集。

规则引擎输入

对规则引擎的输入数据可以包括输入行列表，其中每行包含由特征属性列表描述的一数据点。数据点通常描述检测的所感兴趣的实体。例如，数据点可以对应于用户生成的事件——例如登录事件，其具有描述该特定事件的属性列表——包括事件时间、用户ID、事件类型、关联的设备类型、用户代理、IP地址等。数据点还可以对应于用户帐户，其具有描述此用户的属性列表，该属性列表包括用户群体特征信息，例如年龄、位置、用户简档信息(例如电子邮件地址、昵称)或用户行为模式，例如历史事件及其属性。

规则生成的目的是自动导出并维护规则集，这些规则与所有正标记数据点最大匹配，但不与负标记数据点匹配。

在某些情况下，规则引擎输入中的每个数据点已经与正标记或负标记(图1中的“是”分支)相关联。正标记数据点可能指示对应的实体被检测为欺诈或滥用实体。经标记数据点的更一般的情况还可以包括其他用例，其中标记的意思是“是营销目标候选者”，或“是推荐项目”，或“是推广目标的用户”。

在一些实施方式中，未标记输入数据点(图1的“否”分支)。系统为获得的输入数据生成标记。在图1的示例过程100中，如图1所示，系统使用无监督机器学习根据获得的输入数据生成标记108。例如，无监督机器学习可以为输入数据中的每个输入行生成标记。系统可以进一步聚类110正标记的输入数据点(即，特征属性)，并通过它们的聚类标识符对其进行标记。由相同的群集ID或群组ID标记的数据点意味着，在相应的特征空间中，基于距离量度(例如，欧几里得距离或余弦距离)，它们之间会更加相似。

生成规则

系统可以使用以下步骤为每个集群或群组自动生成规则。首先，规则引擎可以按该集群内正标记数据的覆盖范围来对所有特征进行排序，并选择主要特征112。主要特征可以用于在规则生成114期间生成单变量(即，单一特征)规则。每个单变量规则都基于对应的特征维度指定匹配条件(例如，IP地址等于某个值，或者用户代理字符串包含特定的子字符串)。可以由匹配范围的阈值来指导主要特征的选择。其次，规则引擎可以通过使用逻辑表达式(例如，“与”或“或”条件)从那些单变量规则中生成单个变量的组合，从而在规则生成114中创建多变量候选规则。目的是生成更细粒度的规则，以匹配尽可能多的正标记的数据点，同时减少误报情况。规则引擎可以在规则核实116期间将所有候选多变量规则与负标记的输入数据进行匹配，并基于预设的阈值(例如1％误报率)过滤掉具有对负标记数据的高覆盖率的那些规则。最后，规则引擎可以收集并输出该集群的所有有效规则，作为生成输出规则集118的一部分。在为每个集群生成规则之后，规则引擎可以合并来源于每个集群的所有规则，并针对最终输出规则118删除重复规则。

在一些替选实施方式中，规则引擎可以使用输入数据来生成规则，其中输入数据点已经被预先标记，但是没有被聚类或分组。在此实施方式中，规则引擎可以将所有被正标记的数据点视为属于同一群组或集群，并使用上述方法来生成规则。

规则更新和期满

规则生成可以定期进行，例如每天进行一次。随时间推移生成的规则可以进一步合并在一起以删除重复项，以确保将规则与新数据集匹配时的低复杂度低。

规则引擎得出的规则也会随着时间的流逝而自动更新，以确保它们有效地应对不断变化的输入数据模式(例如，不断演进的技术或对手的攻击模式)，并限制规则的数目并确保规则匹配的低运行时复杂度。对于在一定时间段(例如3天)内并且在一致基础上不再与正标记数据匹配良好(例如，基于覆盖范围阈值)的规则，规则引擎可以单纯删除这些规则以确保仅有效规则存在于系统中。

在一些实施方式中，在随后的一段时间内的附加输入数据可以用于生成规则，使得可以生成更新的规则，这能够允许移除不再有效的规则。在某些其他实施方式中，更新的输入数据可用于重新核实现有规则，使得可以迅速识别不再有效的规则。

规则引擎界面

概览

图2是示例用户界面200，其示出了用于检测欺诈用户的自动规则引擎的概览。在用户界面200的顶部，选择概览选项卡202，其以高级别显示当前在系统中部署的所有自动和手动规则的每日概览。第一部分204将所有规则的有效性显示为系统中部署的检测到的数目、误报率和规则总数。在高级概览下方，第二部分206显示了一个图表，该图表说明了规则随时间推移的有效性，该图表为具有以下3项的堆积图：通过规则和标记数据集二者的检测率208、仅通过标记数据的检测率210以及仅通过规则的检测率212。在第二部分206下方，第三部分214表示出了随着时间推移的规则数目，随时间流逝针对特定日期新创建的规则数目216以及随时间流逝部署的规则总数218。

通过规则和标记的数据集二者的检测率208标识通过标记的数据集和所创建的规则检测到的用户的数目。仅通过规则的检测率212可以说明需要从规则集中进一步细化的区域，以触达未被规则覆盖但根据无监督检测算法检测到的用户。仅通过规则的检测率212指示单单通过规则被检测到的用户。其通常是小的，并且可以指示通过规则做出的、经标记的数据集中遗漏的正确检测。但是，在某些情况下，它可能指示误报结果。因此，这部分可能需要进一步调查以确定检测是否错误。

规则引擎输出：自动生成的规则

图3是用户界面300，其示出了系统中的自动生成的规则集。特别地，在图3中，选择了自动选项卡302。用户界面300示出了多行自动生成的规则304。

还存在2个切换按键：层级切换按键306和定义切换按键308。当激活层级切换按键306时，规则将展开成为子规则。例如，如果规则1包含逻辑表达式A&B，而另一个规则2包含逻辑表达式仅A，则规则1是规则2的子规则。在层次结构处于启用状态的情况下，仅显示规则1。然而，存在指示存在子规则的视觉边界指示符310，并且与该边界的用户交互显示了其中的子规则。规则中可以存在多个层。

例如，具有子规则的第一类规则是“In a list”。例如，规则

“email_domain in list gmail.com，outlook.com”具有2个子规则：

email_domain＝gmail.com和email_domain＝outlook.com。带有子规则的第二类规则不一定包含在子规则中，但在子规则中具有更多细节。例如，规则“email_domain＝gmail.com”可以具有子规则“email_domain＝gmail.com AND registration_state＝California”。

打开定义切换按键308显示每个规则的定义。因此，可以查看每个规则的实际表达式。

对于每个规则，都会显示高层级量度：规则ID、有效性量度和误报率量度。每个规则也有动作。例如，用户可以暂停或启动规则以将其删除或添加到实际检测逻辑中。用户还可以通过选择特定规则来查看特定规则的详细信息(请参阅下面的“规则详细信息”)。

除上述内容以外，有能力更改日期312，针对该日期312呈现给定时间点时在系统中的规则。用户界面300还包括页面选择器314，页面选择器314允许用户快速跳转到规则中的其他页面。这也防止太多的规则对用户一次性加载。

规则详细信息

图4是示例用户界面400，其示出了自动选项卡302下的特定规则的详细信息。例如，可以响应于对用户界面300中的特定规则的详细信息按钮的用户选择，呈现详细信息。

用户界面400呈现规则的定义和ID 402。用户界面400还包括诸如规则的创建时间404等信息。用户界面400还包括有关规则健康状况的高级统计信息：其有效性406和误报率408，例如从检测信息和标记的数据取得，并且有一览(at-a-glance)图标410，其显示该规则的健康状态。在其之下，有曲线图412，其示出了该规则随时间推移的有效性相比于误报率。最终，用户界面400包括该规则的最新精确度414，该最新精确度是从针对历史结果(例如针对输入数据中的输入标记或从无监督学习算法得出的标记)的回测得出的。可以从存储规则集的规则存储库中获得包括规则定义和元数据(诸如创建日期)的规则信息。

手动规则输入和回测

自动规则引擎还允许添加手动生成的规则，并允许对手动创建的规则进行自动回测。图5是示例用户界面500，其示例了手动编辑的规则集以及回测结果。特别地，在图5中，手动选项卡502突出显示为选中状态。用户界面500允许用户在系统中创建规则504以增强对当前系统的检测。手动规则也可以导致将用户列入白名单，而不是进行检测。手动规则创建过程允许使用与(AND)和或(OR)语句以及各种操作数的复杂的布尔表达式。这些操作数包括标准数值操作数(例如，等于，小于，大于，小于等于，大于等于)和字符串操作数(例如，相同，以…开头，以…结尾，正则匹配，子字符串)。

一旦创建了规则，就可以在系统中针对输入数据中的输入标记或来自无监督学习算法的取得的标记来对它进行回测。回测结果506突出显示了规则的有效性和潜在的误报，并且从那里，用户可以检查由规则匹配的实际用户。这些用户被细分为可能被规则正确或错误标记的用户。

回测是自动完成的。回测通过针对一天或多天的标记数据测试规则，提供了每个规则的有效性和误报率的量度。

搜索

用户可以从任何页面搜索其系统中的特定规则。此外，用户可以从用户详细信息页面查看检测到该用户的特定规则。

在本文中，术语“引擎”将广泛地用于指代可以执行一个或多个特定功能的基于软件的系统或子系统。通常，引擎将被实现为安装在一个或多个位置的一个或多个计算机上的一个或多个软件模块或组件中。在某些情况下，一个或多个计算机将专用于特定引擎。在其他情况下，可以在同一台计算机上安装并运行多个引擎。

本文中描述的主题和功能操作的实施例可以在数字电子电路中、在有形体现的计算机软件或固件中、在计算机硬件中实施，包括本文中公开的结构及其等同结构，或在其中一个或多个的组合中实施。本文中描述的主题的实施例可以实现为一个或多个计算机程序，即，在有形的非暂时性存储介质上编码的计算机程序指令的一个或多个模块，以用于由数据处理设备执行或数据处理设备的操作。该计算机存储介质可以是机器可读存储设备，机器可读存储基板，随机或串行存取存储器设备，或它们中的一个或多个的组合。程序指令可以替选地或附加地被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，其被生成以对信息进行编码以传输到合适的接收器装置以供数据处理设备执行。

术语“数据处理设备”是指数据处理硬件，并且包括用于处理数据的所有类型的装置、设备和机器，例如包括可编程处理器、计算机或多个处理器或计算机。该设备还可以是或进一步包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除硬件之外，该装置可以可选地包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或以上一种或多种的组合。

计算机程序，也可以称为程序、软件、软件应用、app、模块、软件模块、脚本或代码，可以用任何形式的编程语言编写，包括编译语言或解释语言、声明性语言或过程语言；它可以以任何形式进行部署，包括作为独立程序或作为模块、组件、子例程或适用于计算环境的其他单元进行部署。程序可以但不必对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中，例如存储在标记语言文档中的一个或多个脚本，存储在专用于所讨论程序的单个文件中或存储在多个协调文件中，例如，存储一个或多个模块、子程序或代码部分的文件。可以将计算机程序部署为在一个计算机上执行或者在位于一个站点处或跨多个站点分布并通过数据通信网络互连的多个计算机上执行。

本文中描述的过程和逻辑流程可以由执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能的一个或多个可编程计算机来执行。所述过程和逻辑流程还可以由专用逻辑电路(例如，FPGA或ASIC)执行，或者由专用逻辑电路和一个或多个编程计算机的组合来执行。

适合执行计算机程序的计算机可以基于通用微处理器或专用微处理器，也可以同时基于通用微处理器和专用微处理器，或者任何其他类型的中央处理器。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。通常，计算机还将包括一个或多个用于存储数据的大容量存储设备(例如，磁盘，磁光盘或光盘)，或可操作地耦合以从其接收数据或将数据传输到其或这两者。但是，计算机不必具有此类设备。此外，计算机可以被嵌入到另一个设备中，例如，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备——例如通用串行总线(USB)闪存驱动器等。

适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如，EPROM，EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD-ROM和DVD-ROM磁盘。

为了提供与用户的交互，可以在具有以下的计算机上实现本文中描述的主题的实施例：用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)以及键盘和指示设备，例如鼠标或轨迹球，用户可以通过该键盘和指示设备向计算机提供输入。其他种类的设备也可以用于提供与用户的交互。例如，提供给用户的反馈可以是任何形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。另外，计算机可以通过向用户使用的设备发送文档以及从用户使用的设备接收文档来与用户进行交互；例如，通过响应从用户设备上的web浏览器收到的请求，将网页发送到web浏览器。

本中描述体现的主题可以实现在这样的计算系统中：该计算系统包括后端组件，例如，作为数据服务器；或者该计算系统包含中间件组件，例如，应用服务器；或者该计算系统包含前端组件，例如，具有通过用户可以通过其与本文中所描述的主题的实施方式交互的图形用户界面、web浏览器或app的客户端计算机；或者一个或多个此类后端、中间件或前端组件的任何组合。系统的各组成部分可由任何形式或介质的数字数据通讯——例如通讯网络互相连接。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如互联网。

该计算系统可以包括客户端和服务器。客户端和服务器通常远离彼此，并且通常通过通信网络进行交互。客户端和服务器之间的关系是通过在各自计算机上运行并彼此具有客户端-服务器关系的计算机程序产生的。在一些实施例中，服务器将数据，例如HTML页面，传输给用户设备，以便向与设备交互的用户，如客户端，显示数据并接收用户输入。在用户设备上生成的数据，例如用户交互的结果，可以在服务器上接收。

除了所附权利要求书的实施例和上述实施例之外，以下实施例也具有创新性:

实施例1是被配置为提供用户界面的系统，所述用户界面显示系统中部署的所有规则的有效性的概述。

实施例2是根据实施例1所述的系统，其中，用户界面为系统内多个规则的呈现提供高级量度，包括总体有效性、，总体误报率和当前部署的规则的总数目。

实施例3是根据实施例1至2中的任一项所述的系统，其中，所述用户界面提供了示出所述规则随时间推移的有效性的图表，描绘了规则覆盖范围、遗漏的覆盖范围和误报。

实施例4是根据实施例1至3中的任一项所述的系统，其中，所述用户界面提供示出了在指定日期创建的多个规则和部署的多个规则的图表。

实施例5是根据实施例1至4中的任一项所述的系统，其中，所述用户界面提供下拉菜单，所述下拉菜单具有在所有规则、仅自动规则和仅手动规则的面板之间切换的能力。

实施例6是根据实施例1至5中的任一项所述的系统，其中，所述用户界面提供了输入框，所述输入框具有改变查看示出规则的面板的快照的日期的能力。

实施例7是一种系统，所述系统被配置为提供显示自动生成的规则的列表的用户界面，所述列表允许简易管理，包括：自动排序规则，将规则组织为通用规则和子规则以及搜索功能。

实施例8是根据实施例7所述的系统，其中，用户界面基于规则的有效性来对规则自动排序。例如，捕获最多实体的规则能够在顶部列出。

实施例9是根据实施例7至8中的任一项所述的系统，其中，用户界面将规则整理成组，以便于查看。用户界面包括一个或多个可选择的元素，它们提供在更一般规则内切换子规则的开/关。子规则内可以有子规则。

实施例10为实施例7至9中的任一项所述的系统，其中，用户界面包括用于切换规则定义的开/关的一个或多个可选择的元素，从而取决于用户的偏好来使界面更简洁或更详尽。

实施例11是根据实施例7至10中的任一项所述的系统，其中，用户界面包括每列具有量度的自动规则的表格视图，示出了选自包含以下的集合的一个或多个量度：总检测率，相对于待检测的总实体集的百分比检测率，总误报率或百分比误报率。

实施例12是根据实施例7至11中的任一项所述的系统，其中，所述用户界面包括可选择的查看详情按钮，所述可选择的查看详情按钮在被选中时将在单独的显示中示出特定规则的详细信息。

实施例13是根据实施例7至12中的任一项所述的系统，其中，所述用户界面包括输入框，其中，响应于与所述输入框的用户交互，指定查看自动规则的快照的日期。

实施例14是一种系统，所述提供被配置来提供用户界面，所述用户界面允许用户控制规则，包括复制、暂停和部署规则。

实施例15是根据实施例14所述的系统，其中，所述用户界面包括与每个自动规则相关联的可选择的复制按钮，其中，响应于对所述复制按钮的选择，系统呈现输入有相关联的自动规则的规则编辑器界面。

实施例16是根据实施例14至15中的任一项所述的系统，其中，所述用户界面包括与每个自动规则相关联的可选择的暂停按钮，其中，选中所述暂停按钮使相关联的规则停止而不再主动检测用户。

实施例17是根据实施例14至16中的任一项所述的系统，其中，所述用户界面包括与每个自动规则相关联的可选择的部署按钮，其中，选中部署按钮使相关联的自动规则从暂停转变为主动检测用户。

实施例18是一种系统，所述系统被配置为提供用户界面，所述用户界面提供多个自动规则中的一个特定自动规则的详细信息。

实施例19是根据实施例18所述的系统，其中，所述用户界面在所述用户界面的一部分中包括多个量度，所述多个量度包括以下中的一个或多个：基于所检测到的实体的数目的所述特定自动规则的有效性，误报率，和规则首次被创建的时间。

实施例20是根据实施例18至19中的任一项所述的系统，其中，所述用户界面包括示出特定规则随时间推移的有效性的图表，描绘了规则覆盖率和误报。

实施例21是根据实施例18至20中的任一项所述的系统，其中，所述用户界面包括：示出特定规则的准确性的所呈现的量度；以及指向页面的链接，所述链接的示出被准确检测的实体相对于被错误检测的实体的详细信息。

实施例22是根据实施例18至21中的任一项所述的系统，其中，所述用户界面包括示出特定规则的冗余度的所呈现的量度，冗余度指示：仅专属于所述规则所检测到的实体数目相对于还通过至少一个其他规则捕捉到的实体数目。

实施例23是一种系统，所述系统被配置来用户界面，所述用户界面支持创建、修改、删除和“回测”(对历史数据进行测试)的手动规则。

实施例24是根据实施例23所述的系统，其中，可以通过与用户界面的用户交互来编辑所述规则。

实施例25是根据实施例23至24中的任一项所述的系统，其中，可以通过与用户界面的用户交互来删除规则。

实施例26是根据实施例23至25中的任一项所述的系统，其中，选择性地针对历史数据对规则进行回测，其中，历史数据时间范围由用户在用户界面中指定。

实施例27是根据实施例23至26中的任一项所述的系统，其中，对于规则创建，用户界面支持复杂的布尔逻辑(与(AND)和或(OR))，基本数值操作数(例如，等于，小于，大于，小于等于，大于等于)和字符串操作数(例如，相同，以…开头，以…结尾，正则匹配，子字符串匹配)以手动生成规则。

实施例28是根据实施例23至27中的任一项所述的系统，其中，系统回测链接，所述链接指向被正确检测到的实体和被检测到但可能为误报的实体。

虽然本文包含许多特定的实施细节，但是这些不应被解释为对任何发明的范围或所要求保护的范围的限制，而应解释为对特定发明的特定实施例而言特定的特征的描述。在本文中描述的某些特征的实施例也可以在单个实施例中组合实现。相反，在单个实施例中描述的各种特征也可以分别在多个实施例中或以任何合适的子组合来实现。此外，尽管以上特征描述可能作用在某些组合形式，甚至最初声称一个或更多的组合特征在某些情况下可以从组合中切除，并且声称组合可以涉及子组合或子组合的变体。

类似地，虽然图中描述的操作是按照特定的顺序进行的，但不应将此理解为要求按照显示的特定顺序或依次顺序执行这些操作，或为了达到理想的结果而执行所有显示的操作。在某些情况下，多任务和并行处理可能是有利的。此外，不同的系统模块和组件的分离在上述体现不应被理解为在所有的情况都需要这样的分离，它应该被理解为描述程序组件和系统通常可以集成在一个软件产品或包装成多个软件产品。

已经描述了主题的具体实施例。其他实施例在所附权利要求书的范围内。例如，可以按照不同的顺序执行权利要求书中所述的操作，并且仍然可以获得理想的结果。例如，图中所示的过程并不一定需要显示的特定顺序，或者顺序次序，才能获得理想的结果。在某些情况下，多任务和并行处理可能是有利的。

Claims

1.一种用于生成用于识别恶意帐户或事件的规则的方法，所述方法包括：

获得与多个用户相关联的输入数据点；

确定所述输入数据点是标记的还是未标记的；

响应于确定所述数据点是标记的，使用有监督机器学习技术从所述输入数据点确定特征集；

使用所确定的特征集生成一组候选单变量规则，其中，每个规则基于对应的特征维度来指定匹配条件；

根据所述单变量规则来生成一组候选多变量规则；

使用标记的输入数据点对所述候选单变量规则和所述候选多变量规则进行过滤，以生成最终有效规则集；以及

输出所述最终有效规则集。

2.根据权利要求1所述的方法，其中，响应于确定所述数据点未被标记：

使用无监督机器学习来生成标记；

生成正标记的数据点的集群；以及

为每个集群确定特征集。

3.根据权利要求1所述的方法，其中，所述规则是基于新近的数据点来周期性地更新的。

4.根据权利要求1所述的方法，其中，每个数据点对应于用户生成的事件，并且包括描述所述事件的一组属性。

5.根据权利要求1所述的方法，其中，过滤所述候选单变量规则和所述候选多变量规则包括：基于准确性和有效性量度来评估关于所述标记的数据点的候选规则。

6.根据权利要求1所述的方法，进一步包括：

维护有关所述最终有效规则集中的每个规则的量度，所述量度包括以下中的一个或多个：规则有效性、误报率和新近程度。

7.根据权利要求6所述的方法，其中，不满足量度阈值的规则被删除。

8.根据权利要求1所述的方法，进一步包括：

提供用户界面，所述用户界面被配置来选择性地呈现规则和关于每个规则的有效性的数据。

9.根据权利要求8所述的方法，其中，所述用户界面进一步被配置为从用户接收手动生成的规则，其中，针对历史数据对所述手动生成的规则进行回测，以核实所述手动生成的规则。

10.一种系统，包括：

一个或多个计算机和存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时，能够操作以使得所述一个或多个计算机执行操作，所述操作包括：

获得与多个用户相关联的输入数据点；

确定所述输入数据点是标记的还是未标记的；

根据所述单变量规则来生成一组候选多变量规则；

输出所述最终有效规则集。

11.根据权利要求10所述的系统，其中，响应于确定所述数据点未被标记：

使用无监督机器学习来生成标记；

生成正标记的数据点的集群；以及

为每个集群确定特征集。

12.根据权利要求10所述的系统，其中，所述规则是基于新近的数据点来周期性地更新的。

13.根据权利要求10所述的系统，其中，每个数据点对应于用户生成的事件，并且包括描述所述事件的一组属性。

14.根据权利要求10所述的系统，其中，过滤所述候选单变量规则和所述候选多变量规则包括：基于准确性和有效性量度来评估关于所述标记的数据点的候选规则。

15.根据权利要求10所述的系统，进一步能够操作以使得所述一个或多个计算机执行以下操作：

16.根据权利要求15所述的系统，其中，不满足量度阈值的规则被删除。

17.根据权利要求10所述的系统，进一步能够操作以使得所述一个或多个计算机执行以下操作：

18.根据权利要求17所述的系统，其中，所述用户界面进一步被配置为从用户接收手动生成的规则，其中，针对历史数据对所述手动生成的规则进行回测，以核实所述手动生成的规则。

19.编码有指令的一个或多个计算机可读存储介质，所述指令在被所述一个或多个计算机执行时，使得所述一个或多个计算机执行操作，所述操作包括：

获得与多个用户相关联的输入数据点；

确定所述输入数据点是标记的还是未标记的；

根据所述单变量规则来生成一组候选多变量规则；

输出所述最终有效规则集。