CN117321584A

CN117321584A - 高数据i/o比模块的处理管理

Info

Publication number: CN117321584A
Application number: CN202280036062.0A
Authority: CN
Inventors: A·卡尔波夫斯基; R·莱文
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2021-05-17
Filing date: 2022-04-25
Publication date: 2023-12-29
Also published as: WO2022245470A1; EP4341828A1; US20220368696A1

Abstract

不透明模块处理成本可以在没有实质性的功效损失的情况下被降低，例如，安全成本可以在很少或没有安全损失的情况下被降低。该不透明模块的处理成本与输入数据的特定集合相关，并且处理这些集合的样本所导致的输出的功效被度量。处理最昂贵或最有效的数据会被标识。数据簇被用户或机器学习模型提供的参数集界定。向安全工具的输入可作为参数。确定处理簇的增量成本和增量功效。可以使用警报成本、内容、严重程度和置信度来度量安全功效。然后，处理成本和功效可以主动根据策略或按用户选择，通过包含或排除匹配参数的特定数据集被管理。

Description

高数据I/O比模块的处理管理

背景技术

在计算中，不透明模块是其内部运作不可见的模块。不透明模块也可以被指代为“封闭模块”或“黑匣子”。即使内部运作是隐藏的，有时可以通过比较该模块的输入和输出以推断不透明模块内部被执行的步骤和被使用的结构。但是，关于不透明模块内部的任何结论都应该是不限制被修改的。

举个非常简单的例子，假设给定输入0、1、2和3，一个特定的不透明模块M产生各自的输出1、2、3和4。那么一个好的运作假设是，M将1加到给定输入，并产生作为输出的结果之和。然而，如果不知道位于M内部的实际逻辑，或者在无限数量的可能情况下不测试无限数量的可能输入中的每一个，我们不可能总是确定M将如何表现。M的表现可能更复杂。例如，M可能只将1加到小于1000的数字，或者只将1加到周三收到的输入，或者M可能在运行M的计算机被重新启动后开始将2加到每个输入，等等。

在实践中，许多现实世界的计算系统包含一个或多个不透明模块。通常，该不透明是有意为之，例如，为了避免给用户带来负担，为了防止修补或篡改，以及为了简化通过组合模块构建的更大系统的创建。

因此，改进不透明模块的管理可以为许多计算系统提供技术优势。

发明内容

本公开所教学的一些实施例通过标识输入数据簇以平衡网络安全和安全工具的处理成本，该数据簇对安全的增量远远超过其处理成本。因此被标识后，该数据簇可以被排除在进一步处理之外，而不会过度降低安全。也就是说，仍在处理的剩余数据将继续产生就安全而言具有功效的输出。

本公开描述了用于标识这种数据簇的具体技术，包含以计算方式界定合适的数据簇的各种方式，以及以计算方式评估安全中变化的各种方式。此外，还描述了处理成本和其他种类的数据输出功效之间的平衡。本公开描述的创新可以有益地被应用于平衡各种处理成本与各种输出数据功效度量，即使处理是被一个或多个不透明模块执行的。

对于本领域的技术人员而言，与本文描述相关的其他技术活动和特征是显而易见的。给定的示例仅为说明性的。本发明内容并非旨在标识权利要求主题的关键特征或基本特征，也并非旨在用于限制所要求权利要求主题的范围。相反，本发明内容旨在以简化的形式介绍一些在具体实施方式中进一步被描述的技术概念。创新是根据正确理解的权利要求被定义的，并且如果本发明内容与权利要求相冲突，应以权利要求为准。

附图说明

参考附图将给出更具体的描述，这些附图仅说明了选定的方面，因此不能完全确定覆盖内容或范围。

图1示出了一般计算机系统及一般被配置的存储介质的框图；

图2示出了配置了在本公开中所教学的处理管理增强的计算系统的方面的数据流程图；

图3示出了一些功效度量的一些方面的框图；

图4示出了数据聚类和数据聚类参数集的一些方面的框图；

图5示出了处理管理的一些附加方面的框图；

图6示出了一些处理成本管理方法的步骤的流程图；

图7还示出了一些处理管理方法步骤的流程图。

具体实施方式

概述

创新可能会超越其起源，但了解创新的起源有助于人们更全面地理解创新。在目前的情况下，本公开描述的一些教学是被创新者获取的见解所驱动的，他们致力于为客户提供更好的方法以了解安全控制的成本效益。网络安全的好处并不总是容易被看到，但网络安全的处理成本可能是巨大的。

确定网络安全运作的适当处理成本水平所面临的技术挑战之一是如何将所做的处理与获得的安全效益相关联。一个新兴的技术挑战是如何根据每个选项的安全影响至少部分地区分不同的处理选项。

本公开的一些实施例通过标识相对较大并且被一个或几个参数定义的输入数据簇以解决这些技术挑战。簇大小可以被定义为，例如，给定时间段内给定工具的所有输入数据的百分比，将“相对较大”的分界线设置为诸如输入数据的百分之二或另一个用户定义的值。簇定义参数可以是，例如，经常馈送到SIEM或另一个安全工具的类型的值，例如，IP地址、用户代理、源域或类似值。然后对每个相对较大的簇进行评估，以评估将簇作为输入数据处理或不处理对输出数据的影响。

从处理中包含或排除簇的影响至少有两个方面：处理成本和输出效率。本公开中的“影响”也被指代为“影响力”。处理成本可以是处理器周期、被消耗的内存、网络带宽、被创建的虚拟机等方面的成本。

在安全处理的情况下，功效表示可量化的安全。例如，在一个实施例中，如果从安全工具的处理中排除簇导致更少的恶意软件警报，则功效显著降低，因为遗漏明显的恶意软件感染显著降低了安全。相比之下，本实施例可以被配置为来自意外位置的登录会生成警报，但这些是低优先级的警报，因为销售代表经常随着时间的推移从不同的位置登录。因此，如果从处理中排除簇导致更少的意外登录位置警报，则在本实施例中功效没有显著降低，而类似于簇中的日志或遥测数据的处理成本已经被降低或避免。

量化给定数据簇对处理成本和处理输出功效的影响力，可按簇将处理与功效相关联。量化不同输入数据簇的各自影响力，可使系统根据每个选项的安全(或其他功效)的影响，自动区分不同的处理选项(包含或排除不同的簇)。

上述示例和场景并不全面。对于技术人员而言，其他场景、技术挑战和创新将在阅读本公开的完整披露后变得显而易见。

操作环境

参考图1，实施例的操作环境100包含至少一个计算机系统102。该计算机系统102可以是多处理器计算机系统，也可以不是。该操作环境可以包含给定计算机系统中的一个或多个机器，这些机器可以是簇的、客户端-服务器联网的和/或在云内对等联网的。单个机器是计算机系统，网络或其他协作机器组也是计算机系统。给定的计算机系统102可以被配置为用于终端用户，例如，配置应用流程，为管理员配置，作为服务器，作为分布式处理节点和/或以其他方式。

人类用户104可以通过使用显示器、键盘和其他外围设备106，经由键入的文本、触摸、语音、移动、计算机视觉、手势和/或其他形式的I/O，与计算机系统102交互。屏幕126可以是可移动的外围设备106或者可以是系统102的必要部分。用户界面可以支持实施例与一个或多个人类用户之间的交互。用户界面可以包含命令行界面、图形用户界面(GUI)、自然用户界面(NUI)、语音命令界面和/或其他用户界面(UI)演示，它们可以作为不同的选项被呈现，也可以被集成在一起。

系统管理员、网络管理员、云管理员、安全分析师和其他安全人员、操作人员、开发人员、测试人员、工程师、审计员和最终用户，每个都是特定类型的用户104。代表一个或多个人动作的自动化代理、脚本、回放软件、设备等也可以是用户104，例如，便于测试系统102。存储设备和/或联网设备在一些实施例中可以被认为是外围装备，在其他实施例中可以被认为是系统102的一部分，这取决于它们与处理器110的可分离性。例如，图1中未示出的其他计算机系统可以通过网络接口装备使用与网络108的一个或多个连接，以技术方式与计算机系统102或与另一个系统实施例交互。

每个计算机系统102包含至少一个处理器110。与其他合适的系统一样，计算机系统102还包含一个或多个计算机可读存储介质112，也称为计算机可读存储设备112。存储介质112可以是不同的物理类型。存储介质112可以是易失性存储器、非易失性存储器、就地固定介质、可移动介质、磁介质、光学介质、固态介质和/或其他类型的物理耐用存储介质(而不仅仅是传播的信号或单纯的能量)。特别地，被配置的存储介质114，例如便携式(即外部)硬盘驱动器、CD、DVD、记忆棒或其他可移动非易失性存储介质，在插入或以其他方式安装时，可以在功能上成为计算机系统的技术部分，使其内容可与处理器110交互并被处理器110使用。可移动被配置的存储介质114是计算机可读存储介质112的示例。计算机可读存储介质112的一些其他示例包含内置RAM、ROM、硬盘和其他用户104不易移除的存储设备。为了符合当前美国专利要求，计算机可读介质或计算机可读存储介质或计算机可读存储器本身既不是信号，也不是在美国待决或已授权的任何权利要求下的单纯的能量。

存储设备114被配置具有可被处理器110执行的二进制指令116；“可执行”在本公开中是广义的，例如包含在虚拟机上运行的机器代码、可解释代码、字节码和/或代码。存储介质114还被配置具有数据118，该数据118通过执行指令116以创建、修改、参考和/或以其他方式用于技术效果。指令116和数据118配置其位于的存储器或其他存储介质114；当该存储器或其他计算机可读存储介质是给定计算机系统的功能部分时，指令116和数据118还配置该计算机系统。在一些实施例中，数据118的一部分代表真实世界的项目，例如产品特性、库存、物理度量、设置、图像、读数、目标、体积等。这些数据还会通过备份、恢复、提交、中止、重新格式化和/或其他技术操作进行转换。

尽管可以将实施例描述为被计算设备(例如，通用计算机、服务器或簇)中的一个或多个处理器执行的软件指令实现，但这种描述并不是指穷尽所有可能的实施例。本领域技术人员可以理解，相同或类似的功能还经常可以全部或部分地直接在硬件逻辑中被实现，以提供相同或类似的技术效果。备选地，或者除了软件实现之外，本公开描述的技术功能可以被至少部分地由一个或多个硬件逻辑组件执行。例如，在不排除其他实现的情况下，实施例可以包含硬件逻辑组件110、128，例如现场可编程门阵列(Field-ProgrammableGate Array，FPGA)、专用应用集成电路(Application-Specific Integrated Circuit，ASIC)、专用应用标准产品(Application-Specific Standard Product，ASSP)、片上系统组件(System-on-a-Chip component，SOC)、复杂可编程逻辑器件(Complex ProgrammableLogic Device，CPLD)和类似组件。例如，实施例的组件可基于其输入、输出和/或其技术效果被分组为交互的功能模块。

除了处理器110(例如，CPU、ALU、FPU、TPU和/或GPU)、存储器/存储介质112和显示器126之外，操作环境还可以包含其他硬件128，例如电池、总线、电源、有线和无线网络接口卡。名词“屏幕”和“显示器”在本公开中可互换使用。显示器126可以包含一个或多个触摸屏、响应笔或平板电脑的输入的屏幕、或针对操作仅用于输出的屏幕。在一些实施例中，例如人类用户I/O设备(屏幕、键盘、鼠标、平板电脑、麦克风、扬声器、运动传感器等)的外围设备106将存在于与一个或多个处理器110和存储器可操作通信中。

在一些实施例中，系统包含通过有线和/或无线网络108连接的多台计算机。网络接口装备128可以使用网络组件，例如分组交换网络接口卡、无线收发器或电话网络接口，提供对网络108的访问，例如，这些组件可能存在于给定的计算机系统中。网络接口装备和其他网络组件，例如交换机、路由器或防火墙的虚拟化还可能存在，例如，在软件定义的网络、沙盒或其他安全的云计算环境中。在一些实施例中，一台或多台计算机由于断开连接或仅间歇性地连接到另一个联网设备或远程云而部分或完全“空口间隙”。特别地，本公开所教学的用于处理管理增强的功能可以被安装在例如高度安全的云或高度安全的本地网络之类的空口间隙网络上，然后使用可移动介质定期地或偶尔地更新。给定的实施例还可以通过直接存储器访问、可移动非易失性存储介质或其他信息存储检索和/或传输方法以通信技术数据和/或技术指令。

本领域技术人员可以理解，本公开在“操作环境”下呈现的上述方面和其他方面可以构成给定实施例的一部分。本文档的标题并非旨在将特征严格分类为实施例和非实施例特征集。

图中的一个或多个项目以大纲形式被示出，或被列在括号内，以强调它们不一定是所示操作环境或所有实施例的一部分，而是可以与操作环境或如本公开所讨论的一些实施例中的项目互操作。这并不是指在任何图或任何实施例中不一定需要大纲或括号形式的项目。特别地，图1是为了方便而提供的；图1中包含的项目并不意味着该项目或所描述的项目的使用在当前创新之前已为人所知。

有关系统的更多信息

图2示出了根据本公开提供的处理管理教学而被增强的计算系统200；其它图还与系统200相关。流水线或其它不透明的处理模块202接收输入数据204、118，进行处理，并且产生输出数据206、118。无论模块202中进行了哪些具体的处理，本公开提供的许多处理管理教学可以被有益地应用。无论模块202的具体内部运作，模块的处理就例如处理器周期、使用的存储、使用的带宽等方面具有成本208。模块的处理还具有功效210。例如，安全模块202的功效210可以在输出数据206产生的警报302的数量304、产生的警报的内容306或产生的警报的严重程度308方面被度量。例如，其它类型的功效210可以基于被引发的异常314、被标识的异常324或模式326、或停机时间338等。

功效210是给定上下文中输出数据206的特征。功效可以被用于度量输出的良好程度，例如，安全模块输出是否包含安全人员希望其包含的安全警报。关于处理哪些输入数据204的选择可以基于特定输入数据204对结果输出数据206的功效210的影响力212。影响力212是输入数据204的特征，其可以被用于度量将特定数据118包含或排除为模块202的输入204如何改变输出的功效210，以及包含或排除如何改变产生输出206的处理成本208。

尽管本公开的教学可以被应用于管理由各种各样的模块完成的处理，但本公开更关注模块202的特定子集。相比于输出数据量216，这些模块202具有大量的输入数据量214。针对给定的模块202，输入数据大小214与输出数据大小216的比在本公开被指代为模块的“数据I/O比”218。

安全模块202通常具有一百或更高的数据I/O比。也就是说，它们通常接收的数据至少是以警报302的形式发出的数据的100倍。在计算数据I/O比时，简单地被安全模块通过的数据，例如复制或转发的数据，不被计入在输出中。同样，在计算数据I/O比时，对于输出功效不核心的数据，例如为支持错误修复而返回给安全工具开发人员的遥测数据，也不被计入在输出中。

入侵检测系统、SIEM或其他安全工具通常接收大量的数据量214，例如全流量日志、安全日志、事件日志或嗅探数据包，作为输入204。该输入的大部分对应于例程授权的活动，但有时会检测恶意软件、可疑活动或一些特定的异常事件324，因此警报302被发出作为输出206。因此，在云或企业环境100中，输入204可以包含每小时数百万(或更多)个数据点，而输出206最多为几百个。在具有一个或多个模块202且数据I/O比为一百或更高系统200中，本公开的教学对于降低处理成本208可能特别有益，而不会对功效产生太多(或任何)不利影响。

如图2所示，模块的输入数据204可以基于参数集224被分为匹配数据220和非匹配数据222。例如，“一个或多个私有IP地址”可以是参数226，或者用户代理可以是参数226等。数据簇228是匹配数据220的一部分或全部。例如，簇可能只是在参数集下匹配的数据的一部分，这是由于随着时间的推移会有更多的匹配数据进来，或者由于采样，或者两者兼而有之。数据簇228被用于计算影响力值212。为便于说明，图2仅示出了一个数据簇228。但是给定的实施例可能具有多个数据簇。例如，如果参数集224定义了IP地址范围，则每个IP地址范围可以具有一个数据簇。

在操作中，一些实施例形成数据簇228，计算数据簇212对功效210和处理成本208的影响力，然后管理匹配数据集220对处理模块202的暴露。匹配数据集220包含簇228和其他数据118，这些数据118与簇228相似，因为它们还匹配指定的参数集224。这种处理管理可以包含，例如，向用户104报告影响力212，或者针对包含708标记匹配数据220，因为其影响力212太大以至于无法被排除，尽管其处理成本208，或者将匹配数据220从模块202的处理中排除710，因为考虑到处理成本208的降低236，功效210的损失348被认为是可接受的。

图3示出了一些功效度量300的一些示例或方面。这并不是指这是一个全面的列表。这些项目和与影响力212度量一般相关的其他项目，包含一些功效度量300，将在本公开各处进行讨论，并且有关它们的其他细节将在本公开文档后面的附图标记列表的讨论中被提供。

图4示出了数据聚类230的一些示例或方面。这并不是指这是一个全面的列表。这些项目和与数据聚类相关的其他项目将在本公开各处进行讨论，并且有关它们的其他细节将在本公开文档后面的附图标记列表的讨论中被提供。

图5示出了处理管理500的一些附加方面，其包含处理成本208的管理、处理输出功效210的管理或两者的管理，这取决于实施例和实施例的操作的特定设置、配置和其他情况。这并不是指这是一个全面的列表。这些项目和与处理管理相关的其他项目将在本公开各处进行讨论，并且有关它们的其他细节将在本公开文档后面的附图标记列表的讨论中被提供。

一些实施例使用或提供了功能增强的系统，例如系统200或按本公开所教学的增强的另一个系统102。在一些实施例中，被配置用于处理模块202的处理成本208管理的增强的处理成本管理系统包含数字存储器112和与存储器可操作通信的处理器110。处理模块202被配置用于在数据输入端口232接收输入数据204的输入数据量214并在数据输出端口234产生输出数据206的输出数据量216。在本示例中，处理模块的特征还在于在指定时间段502上输入数据量至少是输出数据量的100倍。

该增强的计算系统被配置为执行处理成本管理600步骤。这些步骤包含：(a)从输入数据204的一部分形成602数据簇228，根据数据聚类参数集224界定702的数据簇，(b)计算604针对数据簇对处理模块输出数据206的功效度量300的影响力值212，以及(c)基于影响力值和处理成本208管理匹配数据集220的606暴露608向处理模块数据输入端口232。

匹配数据集220还根据数据聚类参数集224被界定702。例如，参数集224可以界定没有容纳附件且在过去三十分钟内来自contoso dot com内部的电子邮件的簇228。在计算出604处理该簇占模块202处理该时间段内所有输入数据204的约17％，但仅占警报302总量的2％，且高严重性308警报302为零，系统200可以继续通过排除710所有匹配数据220，即不处理任何没有附件且来自contoso dot com内部的电子邮件118。

在向管理员104显示716影响力212数字后，这种从模块202处理中的排除可以响应于用户命令240。或者，基于影响力阈值，排除可以是主动的。例如，系统可以自动和主动地确定17％的增量处理成本236高于5％的成本阈值238，确定增量功效损失348低于3％的功效阈值350，并且确定增量功效损失不包含任何高严重性警报302的明显损失。响应于这些计算确定结果，系统200可以主动地确定710排除所有匹配数据220。该系统还向管理员通知716排除，并且将接受来自管理员的覆盖240以减少或移除排除。

在一些实施例中，功效度量300基于以下各项中至少一项：作为输出数据206产生的安全警报302的计数304、作为输出数据206产生的一个或多个安全警报302的内容306、作为输出数据206产生的一个或多个安全警报302的严重性308、或者作为输出数据206产生的一个或多个安全警报302的置信度310。

例如，当警报302的计数304被用于度量功效210时，产生较少的警报302被视为功效损失。当警报302的内容306被用于度量功效210时，警报被有效地按其所容纳的内容的种类被排序，例如，声明检测到恶意软件的警报比声明帐户在过去三十天内未被使用的警报具有更多的功效210。当警报302的严重性308被用于度量功效210时，警报被有效地按其分配的严重性级别被排序，例如，由于连续失败的登录尝试而锁定提升的特权帐户的警报比由于连续失败的登录尝试而锁定正常的非管理员帐户的警报更严重，因而功效更高。安全警报内容306和警报严重性308可能是相关的，例如检测到恶意软件的警报可能具有较高的严重性，但具有不同内容的警报还可能具有与彼此相同的严重性。当分配给警报302的置信度310(例如，由生成警报的机器学习模型)被用于度量功效210时，具有较高置信度的警报比具有较低分配置信度的警报具有更多的功效210。

在一些实施例中，数据聚类参数集224基于以下参数226中各项中的至少一项界定簇228：IP地址402、安全日志条目406、用户代理416、认证类型414、源域412、对安全信息和事件管理工具418的输入420、对入侵检测系统422的输入424、对威胁检测工具426的输入428、或者对渗透检测工具432的输入434。

除非另有明确说明，就权利要求范围而言，系统200本身不包含处理模块202。然而，模块202可以被增强，使其不仅处理数据204，还运行执行如本公开所教学的处理成本管理的代码242，或者至少部分地被这种代码242控制，以形成系统200。

一些实施例包含与运行处理成本管理代码242的硬件244、110、112相结合的处理模块202，并且其中一些在指定的时间段502内，输入数据量至少是输出数据量的500倍。一些数据I/O比至少为800，一些至少为1000，一些至少为1500，一些至少为2000。

一些实施例包含机器学习模型436或438或两者，其被配置为根据数据聚类参数集224形成数据簇228。聚类算法440，例如K-means、DBSCAN、质心、密度、层级聚集或神经网络，可以单独或组合使用以执行数据聚类230。

如前所述，本公开提供的许多教学可以被应用，无论其成本208和功效210正在被管理700的处理模块202的任何特定特征。然而，模块202的一个特别值得关注的集合是具有相对较高的数据I/O比218的模块，例如，比为一百或更高。可以期待的是，应用本公开的教学对此类模块的益处将非常显著。

另一个特别值得关注的模块202集合是不仅是过滤514的模块。就目前而言，过滤514是其处理仅仅移除一些输入204并将其余的作为输出206发送的模块202。许多进行一些过滤的模块还进行其他处理，因此它们有机会从选择性排除710中受益。相比之下，仅作为过滤514表现的模块不太有前途。如果过滤514仅通过输入204的一小部分(例如，1％或更少)作为输出206，则过滤514可以具有高数据I/O比218。但就影响力212而言，馈送到过滤514的数据趋向于统一。因此，聚类230可以很好地将所有输入数据放入单个簇中，或者不揭示具有相对于簇大小的不同影响力的不同簇。因此，在一些实施例中，处理模块202不仅仅是过滤514，因为模块202的特征在于模块的输出数据206包含不存在于模块的输入数据204中的数据118。

本公开还描述了其他系统实施例，可以是直接描述的，也可以是作为所描述流程或配置的介质的系统版本衍生出来的，由本公开对计算机硬件的广泛讨论提供了适当的信息。

尽管在图中讨论并示出了特定的模块202和处理示例，但是实施例可以偏离这些示例。例如，不同图中示出的项目可以一起被包含在实施例中，图中示出的项目可以被省略，不同项目中示出的功能可以被合并到较少的项目中或被合并到单个项目中，项目可以被重新命名，或者项目之间可以以不同的方式被连接。

在本公开中提供的示例有助于说明技术的各个方面，但是在本公开档中给出的示例并没有描述所有可能的实施例。例如，给定的实施例可以包含附加的或不同的安全控制、处理模块、数据聚类算法、数据聚类参数、时间段、技术特征、机制、操作顺序、数据结构或其他功能，也可以在其他方面偏离本公开提供的示例。

过程(又称方法)

图6和图7示出了可以被增强的系统(例如系统200或本公开教学的另一种处理成本管理功能增强的系统)执行或辅助的过程族600、700。这种过程还可以在该词的法律意义上被指代为“方法”。

图中所示或以其他方式公开的技术过程将被增强的处理模块202自动执行，除非另有说明。一些相关过程还可以被部分自动地执行，部分手动地执行，以牵涉到人的动作为限，例如，针对包含708或排除710，人类用户104可以指派一个已报告的716匹配数据集220，但本公开作为创新所考虑的任何处理过程都不是完全手动的。

在给定的实施例中，过程的零个或多个示出的步骤可以被重复，也许使用不同的参数或数据进行操作。实施例中的步骤还可以按照不同于图6和图7中从上到下的顺序进行。各步骤可以串行、部分重叠或完全并行地执行。特别地，图6和图7中的动作项被遍历以指示在过程期间执行的步骤的顺序可以从过程的一种性能变化到过程的另一种性能。步骤还可以被省略、组合、重命名、重分组、在一台或多台机器上执行，或者以其他方式偏离图示的流程，前提是所执行的过程是可操作的并且符合至少一个权利要求。

一些实施例使用或提供了一种用于管理处理模块的处理成本的方法，该方法包含以下自动步骤：从对处理模块202的输入数据204的一部分形成602数据簇228，数据聚类根据数据聚类参数集224被界定702，该处理模块被配置为基于输入数据产生246输出数据，该处理模块的特征在于，在指定的时间段502内，输入数据量214至少是输出数据量216的1000倍(即，数据I/O比218至少是1000)；针对数据簇计算604关于输出数据206的至少一部分的功效度量300的影响力值212；以及基于影响力值和与处理模块处理匹配数据集的至少一部分相关联的处理成本208或236，管理606匹配数据集220对于处理模块202的暴露608，其中匹配数据集220根据数据聚类参数集被界定702。

在一些实施例中，该方法包含从无监督机器学习模型436中自动获得704数据聚类参数集。例如，针对特征提取，实施例可以使用机器学习，然后针对聚类使用特征226。

在一些实施例中，特定的影响力定义被安全模型202使用。在一些实施例中，数据(单个数据点或一组数据点)的影响力是其对模型输出的相对影响。例如，假设威胁检测模型的输出是一百个生成的严重程度相同的警报。如果移除数据710改变了四个警报的状态(将其添加到输出206中或从输出206中移除)，则对功效的影响力为4/100＝0.04。如果移除作用于三十个警报，则影响力为30/100＝0.3。

在一些实施例中，计算影响力值212包含以下各项中的至少一项：将通过处理模块202从包含708数据簇228的输入数据204产生246的输出数据206中的安全警报302计数304与通过处理模块202从排除710数据簇228的输入数据204产生246的输出数据206中的安全警报302计数304进行比较706；将通过处理模块202从包含708数据簇228的输入数据204产生246的输出数据206中的一个或多个安全警报302的内容306与通过处理模块202从排除710数据簇228的输入数据204产生246的输出数据206中的一个或多个安全警报302的内容306进行比较706；将通过处理模块202从包含708数据簇228的输入数据204产生的输出数据206中的一个或多个安全警报302的严重性308与通过处理模块202从排除710数据簇228的输入数据204产生的输出数据206中的一个或多个安全警报302的严重性308进行比较706；或者将通过处理模块202从包含708数据簇228的输入数据204产生的输出数据206中的一个或多个安全警报302的置信度310和通过处理模块202从排除710数据簇228的输入数据204产生的输出数据206中的一个或多个安全警报302的置信度310进行比较706。

在一些实施例中，管理606匹配数据集608对于处理模块202的暴露包含以下各项中的至少一项：当处理匹配数据集的增量处理成本236在指定成本阈值238以上，并且处理匹配数据集的增量功效增益348在指定功效阈值350以下时，从被输入到处理模块的数据中排除710匹配数据集的至少一部分；或者响应于覆盖条件240，当处理匹配数据集的增量处理成本236在指定成本阈值238以上，并且处理匹配数据集的增量功效增益348在指定功效阈值350以下时，将匹配数据集的至少一部分包含在被输入到处理模块的数据中。

在一些实施例中，管理606匹配数据集对于处理模块的暴露基于影响力值、处理成本，以及以下各项中的至少一项：标识提供输入数据204的实体506的实体标识符508；标识接收输出数据206的实体506的实体标识符508；标识将输入数据204提交给处理模块202的时间段502的时间段标识符504；标识通过处理模块202产生输出数据206的时间段502的时间段标识符504；指示对于输入数据204的保密约束510的保密标识符512；或者指示对于输出数据206的保密约束510的保密标识符512。

例如，不同的云客户506可以具有不同的阈值350、238。再比如，容纳标记为医疗信息或财务信息的数据118的数据簇228可能面临与缺少此类标签的数据不同的阈值350、238。再比如，容纳在运作周期间接收的数据118的数据簇228可能面临与在周末期间接收的数据不同的阈值350、238。

在一些实施例中，管理606匹配数据集对于处理的暴露包含以人类可读格式718报告716以下各项中的至少一项：数据聚类参数集的描述430、处理数据簇的增量处理成本236、以及不处理数据簇的增量功效变化348；或者用于从处理中排除710的潜在候选数据集228或220的有序列表516，列表在包含对处理成本208或功效210或两者的候选数据集影响力212的基础上被排序。

在一些实施例中，管理方法700包含使用半监督机器学习模型438自动获得704数据聚类参数集224。管理员可以建议包含特定参数226，或者可以在机器学习生成的特征226之间进行选择。机器学习模型的输入信号包含与数据222混合的数据220，输出包含候选参数226及其各自的簇228大小728。

一些实施例使用离线处理以计算影响力。在一些实施例中，处理模块202在在线时段502或离线时段502可操作，并且针对数据簇228计算604影响力值212在离线时段被执行。因此，影响力计算不需要妨碍正常的在线处理。

在一些实施例中，管理606匹配数据集对于处理的暴露包含：以人类可读格式(例如，在屏幕上以带有自然语言标题的表格形式示出)报告716处理数据簇的增量处理成本236，和不处理数据簇的增量功效变化348；获取720用户选择240，用户选择指定是否将数据簇包含708为对处理模块的输入数据；以及实现722个用户选择。例如，根据用户选择240，通过包含708或排除710匹配数据集220。

被配置的存储介质

一些实施例包含被配置的计算机可读存储介质112。存储介质112可包含磁盘(磁、光或其它)、RAM、EEPROMS或其它ROM、和/或其它可配置存储器，尤其包含计算机可读存储介质(不仅仅是传播的信号)。被配置的存储介质尤其可以是可移动存储介质114，例如CD、DVD或闪存。通用存储器，其可以是可移动的或不可移动的，还可以是易失性的或不易失性的，可以使用例如处理成本管理代码242、影响力变量212和相关代码、成本阈值变量238和相关代码、功效度量变量300和相关代码、功效阈值变量350和相关代码、或完全或部分实现图6或7中所示流程的软件以配置为实施例，以数据118和指令116的形式，从可移动存储介质114和/或例如网络连接的另一源读取，以形成被配置的存储介质。被配置的存储介质112能够使计算机系统102执行用于在计算系统中利用影响力212进行处理成本管理的技术过程步骤，如本公开所公开的。因此，各图有助于说明被配置的存储介质实施例和过程(又称方法)实施例，以及系统和过程实施例。特别地，图6或图7中示出的或本公开以其他方式教学的任何过程步骤可以被用于帮助配置存储介质以形成被配置的存储介质实施例。

一些实施例使用或提供配置有数据118和指令116的计算机可读存储介质112、114，其在由至少一个处理器110执行时使云或其他计算系统执行用于管理处理模块202的处理成本208、236的方法。该过程包含：从对处理模块的输入数据204的一部分形成602数据簇，数据簇根据数据聚类参数集被界定702，输出数据包含输入数据中不存在的数据，处理模块被配置为基于输入数据产生246输出数据206，处理模块的特征在于，在至少一个小时的指定时间段内，输入数据量至少是输出数据量的3000倍；针对数据簇计算604关于输出数据的至少一部分的功效度量300的影响力值212；以及基于影响力值和与处理模块处理匹配数据集的至少一部分相关联的处理成本208或236，管理606匹配数据集对于处理模块的暴露，匹配数据集根据数据聚类参数集被界定702。

在一些实施例中，在计算604影响力时，安全警报302或其他输出206被区别地权重724。在一些实施例中，功效度量300基于输出数据中的安全警报302，并且方法700包含在计算影响力值时为至少两个各自的安全警报分配724不同的权重312。其中一些实施例中，基于以下中的至少一项分配不同权重312：安全警报内容306、安全警报严重性308或安全警报置信度310。

在一些实施例中，处理成本208(以及因此增量处理成本236)可以被表示为以下成本因素518中的至少一个：处理器周期的数量、经过的处理时间、存储器的数量、网络带宽的数量、数据库事务的数量或电力量。

在一些实施例中，处理模块的特征在于，在至少一个小时的指定时间段502内，输入数据量214至少是输出数据量206的10000倍。也就是说，在该小时内，模块202的数据I/O比至少为10000。

附加的示例和观察

技术人员将识别到，并非本公开的每个部分或其中的任何特定细节都必须满足法律标准，例如启用、书面描述或最佳模式。与任何其他专利公开的任何明显冲突，即使来自本创新的所有者，在解释本专利公开中提出的权利要求时也没有任何作用。基于对本公开所有部分的理解，以下部分提供了一些附加的示例和观察。

一些实施例实现了用于降低安全特征202中的数据处理成本208的数据影响力模型。数据安全很重要，如果发生漏洞利用，不遵循正确的协议可能会付出巨大的代价。另一方面，安全操作的日常成本也可能很高。这可能导致通过禁用安全特征来节省成本的决定，这很可能会使数字资源面临风险。

在一些环境中，造成这些处理成本的主要因素是与各种安全特征的输入数据204相关联的成本的合计，例如，用于检查可疑活动的异常或模式的摄取(CPU、网络带宽)、存储(存储器)和处理(CPU)的成本。例如，在例如威胁检测、对调查活动的建议、渗透检测、对入侵检测等的云安全服务的情况下，输入数据通常容纳存储在被用作安全服务的输入的各种日志408中的数据118的部分或全部。这些输入数据204在安全模块202内部被用于计算输出206，例如，检测警报、建议等。

一些实施例提供了在不损害安全的情况下节省这些成本208的方法，或者至少提供了对特定成本降低可能导致的特定安全性降低的深入了解。这样，管理员就可以做出明智的决定，并根据政策248主动做出自动化决策。

实施例可以通过查看子集对输出的影响力以计算不同数据子集对安全特征的价值。这样，如果数据子集足够大但影响力较低，则其可以从数据处理管道中被排除，从而在不显著降低安全特征的功效的情况下节省成本208。

一些实施例利用归一化和有意义的影响力指标，资源所有者可以使用该指标，以便基于所有者的需求平衡摄取数据的数量和价值。例如，针对更敏感的资源(例如，财务数据和用户的个人数据)或在更脆弱的时间(例如，非常繁忙的购物日)，更多的数据204可以被摄取，从而增加成本，但也最大限度地提高了安全。针对不太重要的资源，或不太激烈的时间段，可以节省成本，同时安全也不会大幅降低，或至少在可控范围内。在许多实施例中，指标的定义和实现与模块的内部无关。此外，配置或修改模块202内部逻辑或输出格式的访问对于本公开提供的教学的有利使用并非必要。

一些实施例自动搜索数据204的子集228、220，这些子集在大小或处理成本上是显著的(相同大小的两个数据可能具有不同的处理成本)，易于定义且透明，并且对安全模型或其他模块202处理的结果210的影响力可忽略不计。这可能涉及寻找数据204的大或昂贵的簇228，这些簇228容易被有意义参数226的小列表定义。例如，在描述云服务的遥测日志408的数据204的情况下，实施例可以寻找共享源IP范围404、用户代理416、认证类型414等的数据集。这可以通过使用230各种聚类算法440来达到，例如层级聚类。

针对数据的每个被定义的簇228，实施例计算604簇的影响力，例如，将该簇作为输入204排除或包含后警报数量和内容的变化。当这种影响力可以忽略不计(低于预定义的极低阈值)时，本实施例可以建议管理员授权在未来丢弃被与该簇相同的参数226定义的数据220，从而节省处理成本208的已知百分比，而不会显著降低客户的安全状况。

在实际操作中，可能会与这一估计节省的成本有所偏差。但可以预期的是，基于数据簇228的预测成本节约将足够接近基于相同参数定义的完全匹配数据220的实际成本节约，以使实施例有用。

在一些实施例中，人们可以合理地期望降低针对安全服务的输入数据的成本，而不改变服务本身的功效。例如，实施例可以为716提供一个选项，通过排除710某些类型的日志或排除710来自某些应用的日志以节省20％的成本208，同时仅将安全特征功效降低0.2％。因为管理606模型的基本原理和数据流是透明的、规范化的和有意义的，所以客户可以灵活地使用它来平衡成本和安全考虑，例如，基于安全资源类型。

下面提供了对上述讨论的附加支持。为方便起见，该附加支持材料出现在各种标题下。尽管如此，该附加支持材料都应被理解为本公开对预期实施例的讨论的必要和不可分割的部分。

技术特点

对于本领域的普通技术人员来说，本公开所描述的实施例的技术特征是显而易见的，并且对于广大细心的读者来说，这些实施例的技术特征也是显而易见的。一些实施例涉及技术活动，例如确定处理成本208、236、度量输出功效210、计算604数据簇228的影响力212、从机器学习模型436或438获得704参数，以及包含708或排除710特定可用数据220或222作为通过计算机系统模块202处理的输入204，这些中的每个都深深植根于计算技术的活动。所讨论的一些技术机制包含，例如，管理代码242、功效指标300、阈值238和350、安全模块418、422、426、432以及机器学习模型436和438。所讨论的一些技术效果包含，例如，在控制较小或无相应的功效损失210的情况下减少处理208，公开其处理比其他类似大小的数据簇228更昂贵的数据簇228，以及基于例如实体506、时间段502或保密性510的数据相关的特征的数据处理成本降低灵活性。因此，纯粹的心智处理和仅限于纸笔的活动显然被排除在外。根据所提供的描述，基于教学的技术特征的其他优点对于技术人员也变得显而易见。

本公开描述的一些实施例可以被一些人在更广泛的背景下看待。例如，例如效率、隐私、生产力、可靠性、速度或信任之类的概念可以被认为与特定实施例相关。然而，从广义的上下文中并不能推断出本文正在寻求对抽象概念的排他性权利；事实并非如此。相反，本公开侧重于提供适当的具体实施例，其技术效果完全或部分地解决了特定的技术问题，例如如何降低网络安全成本而不会在实践中无意或轻率地降低安全性。涉及效率、隐私、生产力、可靠性、速度或信任的其他被配置的存储介质、系统和过程不在本范围之内。因此，在正确理解本公开内容的前提下，也就避免了模糊性、单纯抽象性、缺乏技术特征以及随之而来的证明问题。

附加地组合和变体

这些代码、数据结构、逻辑、组件、通信和/或其功能等同物的任何组合也可与上述任何系统及其变体相结合。过程可以包含本公开所描述的任何步骤，其子集或组合或顺序均是可操作的。每个变体可以独自发生，还可以与任何一个或多个其他变体组合。每个变体可以与任何一个过程一起发生，并且每个过程可以与任何一个或多个其他过程组合。每个过程或过程组合，包含变体，可以与上述任何被配置的存储介质组合和变体组合。

更一般地，本领域技术人员将识别到，并非本公开的每个部分或其中的任何特定细节都必须满足法律标准，例如启用、书面描述或最佳模式。而且，实施方案并不局限于本公开所描述的特定激励示例和场景、流程、节约金额、处理成本的类型、处理输出值的度量、时间段示例、软件过程、安全工具、标识符、数据结构、数据选择、命名惯例、符号、分组或其他实现选择。与任何其他专利公开的任何明显冲突，即使来自本创新的所有者，在解释本专利公开中提出的权利要求时也没有任何作用。

缩写、简称、名称和符号

一些首字母缩写、简称、名称和符号被定义如下。其他见本文其他部分被定义，或无需在此被定义即可被技术人员理。

ALU：算术和逻辑单元

API：应用流程接口

BIOS：基本I/O系统

CD：光碟

CPU：中央处理器

DVD：数字多功能光盘或数字视频光盘

FPGA：现场可编程门阵列

FPU：浮点处理单元

GPU：图形处理单元

GUI：图形用户界面

HTTP：超文本传输协议(安全)

IaaS或IAAS：基础设施即服务

ID：标识或身份

IoT：物联网

IP：网际互连协议

LAN：局域网

OS：操作系统

PaaS或PAAS：平台即服务

RAM：随机存取存储器

ROM：只读存储器

TCP：传输控制协议

TLS：传输层安全性协议

TPU：张量处理器

UDP：用户数据报协议

UEFI：统一可扩展固件接口

URI：统一资源标识符

URL：统一资源定位符

WAN：广域网

一些附加术语

本公开提及的是示例性实施例，如附图中所示的实施例，本公开使用具体的语言来描述这些实施例。但是对本公开所示的特征的改变和进一步修改，以及对本公开所示的特定实施例的抽象原理的附加技术应用，对于熟悉相关技术并掌握本公开内容的人而言，都应被视为在权利要求的范围之内。

术语的含义已在本公开中被澄清，因此在阅读权利要求时应仔细注意这些澄清。本公开给出了具体的示例，但相关技术领域的技术人员理解，其他示例也可能属于所用术语的含义以及一项或多项权利要求的范围。术语在本公开不一定具有与它们在一般用法(特别是非技术用法)，或在特定行业的用法，或在特定词典或词典集中具有相同的含义。参考数字可以与各种短语一起使用，以帮助示出术语的广度。从给定的文本片段中省略参考数字并不一定是指该图的内容没有被文本讨论。发明人主张并行使特定和选择的词典编纂的权利。参考术语被显式定义，但术语也可以在不使用引号的情况下被隐式定义。术语可以在具体实施方式和/或应用流程文件的其他地方被显式或隐式定义。

“计算机系统”(又称“计算系统”)可以包含例如一个或多个服务器、主板、处理节点、膝上型电脑、平板电脑、个人计算机(便携式或非便携式)、个人数字助理、智能手机、智能手表、智能手环、手机或移动电话、至少具有一个处理器和存储器的其他移动设备、视频游戏系统、增强现实系统、全息投影系统、电视、可穿戴计算系统和/或提供至少部分由指令控制的一个或多个处理器的其他设备。这些指令可以是以固件或其他软件的形式存在于存储器和/或专用电路中。

“管理员”(或“管理员，admin”)是通过使用自己帐户的凭据对其他用户的多个账户进行合法访问(直接或间接)的任何用户。管理员的一些示例包含网络管理员、系统管理员、域管理员、特权用户、服务提供商人员和安全基础设施管理员。

“多线程”计算机系统是一种支持多个执行线程的计算机系统。术语“线程”应被理解为包含能够调度或服从调度的代码，也可能包含同步代码。在本公开内容之外，线程还可以被另一个名称称呼，例如"任务"、"过程"或"协程"。然而，本公开对线程和过程进行了区分，因为线程定义了过程内部的执行路径。此外，过程的线程共享给定的地址空间，而不同的过程具有不同的各自地址空间。过程的线程可以并行运行，按顺序运行，或者以并行执行和顺序执行的组合(例如，时间切片)运行。

“处理器”是一个线程处理单元，例如同时多线程实现中的核心。处理器包含硬件。给定的芯片可以存入一个或多个处理器。处理器可以是通用的，也可以是为特定用途定制的，如矢量处理、图形处理、信号处理、浮点运算处理、加密、I/O处理、机器学习等。

“内核”包含操作系统、管理流程、虚拟机、BIOS或UEFI代码以及类似的硬件接口软件。

“代码”指处理器指令、数据(包含常量、变量和数据结构)或指令和数据两者。“代码”和“软件”在本公开中可互换使用。可执行代码、解释代码和固件是代码的一些示例。

“流程”在本公开中被广泛使用，包含应用流程、内核、驱动流程、中断处理流程、固件、状态机、库和其他被流程员(也称为开发人员)编写和/或自动生成的代码。

“例程”是一种可调用的代码段，通常在流程执行中调用例程的点之后将控制权返回给指令。根据使用的术语，有时会在其他地方区分“函数”和“流程”：函数通常返回值，而流程不返回值。在本公开中，“例程”包含函数和流程。例程可能具有返回值的代码(例如sin(x))，也可能只返回值而不提供值(如void函数)。

“服务”是指在云计算环境或其他网络或计算系统环境中提供的可消耗流程，它为多个流程提供资源，或为多个流程提供资源访问，或两者兼而有之。

“云”是指用于计算、存储和网络的池化资源，这些资源可灵活地用于度量按需服务。云可以是私有的、公共的、社区的或混合的，云服务可以以基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)或其他服务的形式提供。除非另有说明，否则任何关于从文件读取或写入文件的讨论都包含读取/写入本地文件或通过网络读取/写入，网络可以是云网络或其他网络，也可以两者兼而有之(本地和网络读取/写入)。

“IoT”或“物联网”是指任何可寻址的嵌入式计算或数据生成或执行器节点的网络集合。这些节点可以是本公开所定义的计算机系统的示例，并且可以包含或称为“智能”设备、“端点”、“芯片”、“标签”或“标记”，例如，物联网可以被称为“网络物理系统”。IoT节点和系统通常具有以下至少两个特征：(a)没有本地人类可读显示器；(b)没有本地键盘；(c)输入的主要来源是跟踪从IoT设备上传的非语言数据源的传感器；(d)没有本地旋转磁盘存储——RAM芯片或ROM芯片提供唯一的本地存储器；(e)没有CD或DVD驱动器；(f)嵌入家用电器或家用固定装置；(g)嵌入植入式或可穿戴式医疗设备；(h)嵌入车辆；(i)嵌入过程自动化控制系统；或(j)侧重于以下设计之一：环境监测、市政基础设施监测、农业、工业装备监测、能源使用监测、人类或动物健康或健身监测、物理安全、物理运输系统监测、目标跟踪、库存控制、供应链控制、车队管理或制造业。IoT通信可以使用协议，如TCP/IP、约束应用协议(CoAP)、消息队列遥测传输(MQTT)、高级消息队列协议(AMQP)、HTTP、HTTPS、传输层安全性协议(TLS)、UDP或简单对象访问协议(SOAP)，例如，用于有线或无线(蜂窝或其他)通信。IoT存储或执行器或数据输出或控制可能成为未被授权访问的目标，无论是通过云、通过另一个网络还是通过直接本地访问尝试。

对计算资源的“访问”包含使用权限或其他能力以读取、修改、写入、执行、移动、删除、创建或以其他方式利用资源。尝试访问可与实际访问显式地区分开，但没有“尝试”限定词的“访问”包含尝试的访问和实际执行或提供的访问。

“安全的”仅是指提供某种安全，而不是保证安全的功效。

在本公开中，除非另有说明，否则“包含”允许附加元素(即，包含是指包括)。

“优化”指改进，不一定是完善。例如，被优化的流程或算法有可能被进一步改进。

“过程”在本公开中有时被用作计算科学领域的术语，在技术意义上，其包含计算资源用户，例如，这些用户还可以包含或被指代为协程、线程、任务、中断处理流程、应用流程过程、内核过程、流程或对象方法。在实际应用中，“过程”是由系统实用流程标识的计算实体，例如任务管理器、/>过程状态或其他操作系统环境中的类似实用流程分别是微软公司、LinusTorvalds的商标)。“过程”在本公开中还被用作专利法术语，例如，在描述过程权利要求而不是系统权利要求或制造品(被配置的存储介质)权利要求时。同样地，“方法”在本公开中有时被用作计算科学领域的技术术语(一种“例程”)，有时也用作专利法术语(一种"过程")。在专利法意义上的“过程”和“方法”在本公开中可以互换使用。技术人员将理解在特定实例中意图的含义，并且还将理解给定的权利要求的过程或方法(在专利法意义上)有时可以使用一个或多个过程或方法(在计算科学意义上)来实现。

“自动”是指通过使用自动化(例如，通过软件配置的用于本公开讨论的特定操作和技术效果的通用计算硬件)，而不是不使用自动化。特别是，“自动”执行的步骤不是通过手工在纸上或在人的头脑中被执行的，尽管它们可以被人启动或被人交互地引导。自动步骤是通过机器被执行的，以获得一个或多个技术效果，如果没有这样的技术互动，这些效果是无法实现的。据推测，自动执行的步骤至少包括一个主动执行的操作。

本领域技术人员应理解，技术效果是技术实施例的推测目的。例如，仅凭实施例中涉及计算，以及一些计算也可以在没有技术组件的情况下被执行(例如，通过纸和笔，或甚至作为心理步骤)，这一事实并不能消除技术效果的存在或改变实施例的具体和技术性质，特别是在现实世界的实施例中。处理成本管理操作，例如聚类602数据118、计算604数据影响力值212、获得704数据聚类参数226、与机器学习模型436或438通信，以及本公开教学的许多其他操作，被理解为本质上是数字的。人类思维无法直接与CPU或其他处理器、RAM或其他数字存储通过接口接合，以读取和写入必要的数据以执行本公开所教学的处理管理步骤700。鉴于本公开内容，本领域技术人员完全可以理解这一点。

“计算上的”同样是指正在使用计算设备(至少处理器加存储器)，并且排除仅通过人类思维或仅通过人类动作独自获得结果。例如，用纸和铅笔进行算术运算并不是本文所理解的计算上的运算。计算的结果更快、更广泛、更深入、更准确、更一致、更全面，和/或以其他方式提供超出人类独自执行范围的技术效果。“计算步骤”是计算上的被执行的步骤。“自动”和“计算上的”都不一定是指“立即”。“计算上的”和“自动”在本公开中可以互换使用。

“主动”是指没有来自用户的直接请求。实际上，用户甚至可能在该步骤的结果呈现给用户之前，都不会意识到实施例的主动步骤是可能的。除非另有说明，本公开描述的任何计算和/或自动步骤还可以被主动完成。

在本公开档中，使用可选复数“(s)”、“(es)”或“(ies)”是指存在一个或多个被指示的特征。例如，“processor(s)”表示“一个或多个处理器”，或等同于"至少一个处理器。

就美国法律和实践而言，在权利要求或其他地方使用“步骤”一词并不是指援引手段加功能、步骤加功能或《美国法典》第35卷第112条第6款/第112(f)条对权利要求的解释。在此显式地推翻任何相关推测。

就美国的法律和实践而言，除非权利要求使用了"means for"("用于......的手段")一词，否则这些权利要求并不打算援引手段加功能的解释。如果有意向解释为"手段加功能"的权利要求语言，则会通过使用"means for"("用于......的手段")一词来明确叙述这一意向。当手段加功能解释被应用时，无论是通过使用"means for"还是/或通过法院对权利要求语言的法律解释，说明书中对给定名词或给定动词所叙述的手段应被理解为与权利要求语言相关联，并通过以下任何一种方式在本公开中相互关联：在图的框图中出现在同一框中、用相同或相似的名称表示、用相同的参考数字表示、在任何图中描述的功能关系、在本公开文本中指出的功能关系。例如，例如，如果某项权利要求限制叙述了"zac部件"，并且该权利要求限制成为手段加功能解释的对象，那么至少在说明书的任何图块、段落或示例中提及"zac部件"的任何地方所标识的所有结构，或通过分配给zac部件的任何参考数字联系在一起的所有结构，或公开的与zac部件的结构或操作具有功能关系的所有结构，都将被视为zac部件申请中标识的结构的一部分，并有助于定义zac部件结构的等同物集合。

本领域技术人员将识别到，本创新公开讨论了各种数据值和数据结构，并识别到这些项目位于存储器(RAM、磁盘等)中，从而配置存储器。本领域技术人员还将识别到，本创新公开讨论了将体现在给定实现中的执行代码中的各种算法步骤，并且这种代码还位于存储器中，并且它有效地配置了任何执行它的通用处理器，从而将其从通用处理器转变为功能上是专用硬件的专用处理器。

因此，本领域技术人员不会犯将(a)在权利要求中叙述的存储器和(b)在权利要求中叙述的数据结构或数据值或代码视为非重叠项的错误。数据结构和数据值和代码被理解为位于存储器中，即使权利要求没有明确地为提到的每个数据结构或数据值或代码段叙述的位于地点。因此，不需要这种位于地点的显式叙述。然而，也不禁止这样做，并且可以有选择地呈现一个或两个叙述以供强调，而不会因此从位于地点中排除所有其他数据值和数据结构和代码。同样，权利要求中叙述的代码功能被理解对处理器进行配置，无论该配置质量是否在权利要求中被显式叙述。

在本公开档中，除非另有明确说明，否则对流程中的步骤的任何参考都推测该步骤可以被利益相关方直接执行和/或被该方通过干预机制和/或干预实体间接执行，并且仍然在该步骤的范围内。也就是说，除非直接执行是明确说明的要求，否则不需要利益相关方直接执行该步骤。例如，涉及利益相关方的行动的步骤，例如分配、计算、聚类、比较、界定、检测、确定、形成、获取、实现、影响、管理、获得、处理、识别、报告(以及分配(assigns)、分配(assigned)、计算(calculates)、计算(calculated)等)，涉及目的地或其他主题，可能涉及干预行动，例如上述或转发、复制、上传、下载、编码、解码、压缩、解压缩、加密、解密、认证、调用等，包含本公开档中列举的任何动作，但仍应理解为被利益相关方直接执行。

在参考数据或指令时，应理解这些项配置计算机可读存储器和/或计算机可读存储介质，从而将其转换为特定的物品，而不是简单地存在于纸上，存在于人的头脑中，或者仅仅是在电线上传播的信号。就美国专利保护而言，根据美国专利商标局(USPTO)对In reNuijten案的解释，存储器或其他计算机可读存储介质不是传播信号或载波，也不是可专利主题范围之外的单纯能量。在美国，任何权利要求都不包括信号本身或单纯的能量，而根据本公开内容对权利要求做出的任何解释从表面上看都是不合理的。除非在美国境外授予的权利要求中另有明确规定，否则权利要求不包括信号本身或单纯的能量。

此外，尽管在本公开中其他地方有任何明显相反的情况，但应理解(a)计算机可读存储介质和计算机可读存储器(一方面)与(b)传输介质(还称为信号介质)(另一方面)之间的明确区别。传输介质是传播信号或载波计算机可读介质。相比之下，计算机可读存储介质和计算机可读存储器不是传播信号或载波计算机可读介质。除非在权利要求中另有明确说明，"计算机可读介质"是指计算机可读存储介质，而不是传播信号本身，而不仅仅是能量。

本公开的“实施例”是一个示例。术语“实施例”不能与“本发明”互换。实施例可以自由地共享或借用各个方面来创建其他实施例(前提是结果是可操作的)，即使在本公开中没有显式描述各个方面的结果组合本身。对于本领域的技术人员来说，要求对每一个允许的组合都进行显式和单独的描述是不必要的，也有悖于承认专利说明书是为本领域技术人员读者撰写的政策。即使是少量可组合特征所产生的可能组合的数量，正式的组合计算和非正式的共同直觉还将表明本公开描述的各个方面存在大量的各个方面的组合。因此，要求明确叙述每种组合将违反要求专利说明书简洁和读者熟悉相关技术领域的政策。

附图标记列表

为方便起见，以下列表用于支持附图，并作为说明书文本的一部分，其中通过参考多个项目来描述创新。此处未列出的项目也可能是给定实施例的一部分。为使文本更清晰易读，在文本中参考项目的部分(而非全部)附近会参考给定的附图标记。同一附图标记可用于不同的实施例或给定项目的不同实例。附图标记列表如下：

100操作环境，还称为计算环境

102计算机系统，还称为“计算的系统”或“计算系统”，在网络中可以称为“节点”

104用户，例如增强系统200的用户

106外围设备

108网络，通常包含LAN、WAN、软件定义网络、云和其他有线或无线网络

110处理器

112计算机可读存储介质，例如，RAM、硬盘；还广义地称为"存储器"，其可以是易失性或非易失性的，或者是混合的114可移动被配置的计算机可读存储介质

116可被处理器执行的指令；可以在可移动存储介质或其他存储器(易失性或非易失性或两者兼而有之)中

118数据

120内核，例如操作系统、BIOS、UEFI、设备驱动程序

122工具，例如防病毒软件、防火墙、数据包嗅探软件、入侵检测系统、入侵防御系统、其他网络安全工具、调试器、分析器、编译器、解释器、反编译器、汇编器、反汇编器、源代码编辑器、自动完成软件、模拟器、模糊器、存储库访问工具、版本控制工具、优化器、协作工具、其他软件开发工具和工具套件(包含，例如，集成开发环境)、硬件开发工具和工具套件、诊断等

124应用流程，例如文字处理器、网络浏览器、电子表格、游戏、电子邮件工具、命令

126屏幕，还称为“显示器”

128与附图标记106、108、110无关的计算硬件

200计算系统102增强了本公开所教学的处理管理功能，例如，具有管理代码242、根据图6或图7的功能或本公开首先教学的任何其他功能中的一个或多个

202处理模块；计算系统102或其部分，其接收输入数据204并产生输出数据206

204输入数据；数字

206输出数据；数字

208处理成本；数字化表示

输出206的210功效；还可以被视为模块202的功效，如输出206所示

212影响力值，表示特定输入数据对功效210或成本208或两者的影响力；除非另有说明，否则推测对两者的影响力；数据(单个数据点或集合)的影响力可以被视为其对模块202的输出的相对影响力

214输入数据量，例如，以兆字节为单位

216输出数据量，例如，以兆字节为单位

模块的218数据I/O比，被定义为模块的输入量除以模块在该输入被模块摄取的时间段内产生的输出量

220匹配数据集，还称为“匹配数据”；被(即匹配)特定参数集224界定的数据

222非匹配数据；与给定参数集不匹配的可用输入数据224；数据与参数集匹配或不匹配-特定数据可能与一个参数集匹配，而与另一个参数集不匹配

224一个或多个参数集226

226参数部分或全部定义(即，边界或界定)匹配数据组

228数字数据簇，被某个时间段的参数集定义(或者，时间段可以被视为参数226之一)

230数据聚类，例如，基于参数集对数据进行分组或界定的计算动作

模块202的数据输入端口232，例如，API、端点、数据缓冲器、网络意义上的端口或其它计算机制，输入数据暴露到其中以供模块202摄取

模块202的数据输出端口234，例如，API、端点、数据缓冲器、网络意义上的端口或由模块202发射或以其它方式产生输出数据的其它计算机制246

236与特定数据相关的处理成本208的增量；可以是正的(更多的成本)或负的(更少的成本)或零的(成本没有变化)；数字

238处理成本阈值；数字

240用户选择或命令或覆盖，例如，在输入数据中包含特定数据的命令，或从输入数据中排除特定数据的命令；以数字方式表示并以计算方式实现

242处理管理代码，例如，如本公开所教学的利用功效阈值350或成本阈值238的软件代码，计算影响力212的软件代码，执行方法600的软件代码，执行任何方法700的软件代码，或使用如本公开所教学的匹配数据220报告并平衡或支持平衡处理成本与功效的其他软件代码

支持执行处理管理代码242的硬件244，例如处理器110、存储器112、网络或其它通信接口、用于报告716的屏幕126、用于接收选择240的键盘或其它输入设备

产生输出206的模块202的计算活动246，例如，在输出端口234发出输出，以及响应于输入204产生输出的模块202内部的支持计算的活动

248策略，例如阈值、包含条件708或排除条件710；数字数据结构

300功效度量；计算的工件，例如，以本公开所教学的至少一种方式度量功效210的软件代码，或表示执行这种功效度量代码的结果的功效水平或类别或数量的数字值；还称为“功效度量”

302安全警报；数字

304安全警报

306安全警报内容

308安全警报的严重程度

310置信度级别或安全警报值

312分配给724安全警报的权重

314例外；数字；通常表示在模块202处理期间发生了不寻常或不需要的(或两者兼而有之)事件

316异常数量(一个或多个)

318异常基础，例如，坏指针、内存溢出等。

320异常严重程度

322向异常分配724权重

324反常；由计算确定

326模式；由计算确定

328反常数量或模式数量

330反常内容或模式内容或其描述

332反常严重程度或模式严重程度

334反常或模式的置信度或值

336向反常或模式分配724权重

338处理模块202的停机时间

340模块202重处理先前处理的输入，由于先前处理的输出损坏或丢失或不可用

342停机时间(例如，持续时间)或再处理量(例如，输入大小或成本)

344停机时间范围(例如，哪些类型的数据，哪些模块)或再处理范围(例如，正在重现哪些输入或哪些输出)

346向停机或重新处理分配724权重

与特定数据相关的348功效增量210；可以是正的(更多的功效)或负的(更少的功效)或零的(功效没有变化)；数字

350功效阈值；数字

402IP地址；数字

404IP地址范围；数字

406安全日志；数字

408一般日志；数字

410日志中的条目；数字

412电子邮件、登录尝试或其他数字项目的源域

414认证类型；数字；例如，使用的加密协议，是否使用了多因素身份验证等。

416用户代理；数字

418安全信息和事件管理工具122；；还称为SIEM

420在给定环境中使用的任何数据或参数作为输入到SIEM

422入侵检测系统(IDS)；工具122

424在给定环境中被用作IDS输入的任何数据或参数

426威胁检测系统(TDS)；工具122

428在给定环境中被用作TDS输入的任何数据或参数

430人类可读格式的数字描述

432外渗检测系统(EDS)；工具122

434在特定环境中用作EDS输入的任何数据或参数

436无监督机器学习模型；计算

438监督机器学习模型；计算

440聚类算法，或实现聚类230算法的软件代码

500处理管理方面，如活动或工具；处理管理是对处理成本管理的概括；处理管理包括处理成本管理，也包括处理功效管理；处理管理方法也用附图标记700表示

502时间段；数字数据结构

504时间段502的指针、索引或其他标识符

506实体，被数字化表示

508实体506的名称、指针、索引或其他标识符

510保密级别或其他约束，被数字化表示

512保密510的标签、级别或其他标识符

514过滤模块202

516数据集列表；数字数据结构

518成本因素，被数字化表示

600流程图；600还指处理成本管理方法，如图6流程图所示或与之一致

602计算上的形成实际或潜在输入数据的数据簇

604计算上的计算数据相对于模块202的影响力212

606计算上的管理(例如，包含709、排除710、报告716)特定数据的提交608作为输入到模块202

608将数据作为输入提交给模块202；还称为将数据“暴露”给模块进行处理

700流程图；700还指由图7流程图所示或与图6的步骤一致的处理管理方法

702计算上的定义数据簇；还称为界定或界定数据簇；可以通过指定参数集来完成

704计算上的获得参数集，例如，来自用户或来自机器学习模型

706计算上的比较值，同时计算功效

708在输入数据中计算上的包含数据

710从输入数据中计算上的排除数据

712计算上的识别用户对主动或策略包含708或排除710的覆盖，例如，通过实施722覆盖或通过警告用户覆盖违反策略248，或两者兼而有之

714用户对主动或策略包含708或排除710的覆盖；计算的；特定类型的用户选择240

716计算上的报告信息，例如，通过在屏幕上显示、在电子邮件或文本信息或日志中显示

718人类可读格式，例如在屏幕上或纸上，而不是存储器112中的二进制格式

720计算上的获得用户选择240，例如，通过软件用户界面

722计算上的实现用户选择240，例如，通过包含708数据、标记用于包含的数据708、排除710数据、标记用于排除的数据；标记数据不需要实际改变数据，因为它可以通过在数据结构中设置表示数据和与数据一起要采取(或不采取)的动作的值来完成

724计算上的将权重(312、322、336、346或其它权重)分配给一些输出206以用于功效计算目的

726本公开中讨论的任何未分配其他参考数字的步骤728数据簇大小，例如，以兆字节为单位

结论

简而言之，本公开的教学提供了在增强系统200中操作的各种处理管理功能。不透明模块202的处理成本208可以在不大量损失功效210的情况下被降低，例如，安全成本208可以在很少或没有安全210损失的情况下被降低。不透明模块202的处理成本208与至少一组220的输入数据204的特定集合220逐个相关，并且从这些集合220中的处理样本228产生的输出206的功效210被度量300。因此，标识其处理246是最昂贵或最有效的数据118。数据簇228由参数集224界定702，该参数集224可以由用户104或机器学习模型436或438提供704。安全工具122的输入(例如，420、424、428、434)可以用作参数226。604确定处理246的簇228的增量成本236和增量功效348。安全功效210可以使用警报计数304、内容306、严重性308和置信度310以及相应的权重312来度量300。其他功效210可以类似地度量300，例如，根据处理异常314、反常324、模式326、停机时间338或重处理340。然后，可以通过包含708或排除710个与参数226匹配的特定数据集220来管理606，可以根据策略248主动进行，也可以根据用户选择240进行。

实施例本身还包括或受益于经过测试的适当安全控件和隐私控件，如《通用数据保护条例》(GDPR)，例如，应理解应采取适当的度量来帮助防止通过恶意软件的注入或激活来滥用计算系统。本公开所教学的工具和技术与此类控制措施的使用是兼容的。

尽管在一些激励性示例中使用了微软技术，但此处的教学不限于在微软提供或管理的技术中使用。例如，在适当的许可下，本教学可以体现在其他云服务提供商提供的软件或服务中。

尽管本公开将特定的实施例明确地图示和描述为过程、被配置的存储介质或系统，但可以理解的是，对一种实施例类型的讨论一般也延伸到其他实施例类型。例如，与图6和图7有关的过程描述也有助于描述被配置的存储介质，并有助于描述类似于与其他图讨论的系统和制成品的技术效果和操作。并不是说一个实施例的限制必然会被解读到另一个实施例中。特别是，处理过程不一定局限于在讨论例如被配置存储器之类的系统或制成品时提出的数据结构和安排。

本领域技术人员将理解，实现细节可能涉及特定代码，例如特定阈值、比较、特定种类的运行时或编程语言或体系结构、特定脚本或其他任务以及特定计算环境，因此不需要出现在每个实施例中。本领域技术人员还将理解，在讨论细节时使用的程序标识符和其他一些术语是针对具体实施的，因此不一定适用于每个实施例。尽管如此，尽管不一定要求在此出现，但这些细节可以通过提供上下文和/或说明本公开所讨论技术的许多可能实施方案中的一些实施方案来帮助一些读者。

本领域技术人员应当理解，本公开内容和本公开描述的实施例不涉及技术领域之外的主题，还不涉及其本身的任何想法，例如主要或原始原因或动机，或者仅仅是结果本身，或者是心理过程或心理步骤，或者是商业方法或流行的经济实践，或者仅仅是组织人类活动的方法，或者是自然法则本身，或者是自然发生的事物或过程，或者是生物或生物的一部分，或者是数学公式本身，或者是孤立的软件本身，或者仅仅是传统的计算机。或任何完全不可察觉的或任何抽象的想法本身，或任何微不足道的后解决活动，或任何完全在未指定的装置上实施的方法，或任何未能产生有用和具体结果的方法，或任何对所有使用领域的先发制人，或任何其他在寻求或正在许可或执行此类保护的司法管辖区的法律下不符合专利保护资格的主题。

本文提及的具有某些特征X的实施例和本文其他地方提及的具有某些特征Y的实施例并不排除本公开中同时具有特征X和特征Y的实施例，除非本公开明确说明了这种排除。所有可能的负面权利要求限制都在本公开的范围之内，也就是说，任何被声明为一个实施例的一部分的特征也可以被明确排除在另一个实施例之外，即使在本公开的任何示例中都没有给出具体的排除。术语"实施例"在本公开中仅用作"以符合适用法律的方式应用本公开教导的过程、系统、制造品、被配置的计算机可读存储介质和/或其他示例"的一种更方便的形式。因此，给定的"实施例"可包括本公开所公开特征的任何组合，只要该实施例符合至少一项权利要求即可。

并非图中所示的每个项目都需要存在于每个实施例中。相反，实施例可以容纳图中未明确示出的项目。尽管本公开通过特定示例在文本和附图中示出了一些可能性，但实施例可以偏离这些示例。例如，示例的特定技术效果或技术特征可以被省略、重命名、以不同方式分组、重复、以不同方式在硬件和/或软件中实例化，或者是在两个或多个示例中出现的效果或特征的混合。在一个位置示出的功能在一些实施例中还可以在不同位置提供；本领域技术人员识别到，在给定实现中可以以各种方式定义功能模块，而不必从整体上看交互模块的集合中省略期望的技术效果。由于空间限制或为了方便，不同的步骤可以在图中的单个框中一起显示，但仍然可以单独执行，例如，例如，在一个方法的特定执行过程中，可以执行其中一个步骤，而不执行另一个步骤。

图中或文本中与给定标号相关联的措辞中的任何明显不一致应被理解为简单地扩大了该标号所参考的范围。给定标号的不同实例可以指不同的实施例，即使使用相同的标号。类似地，给定标号可以用于指动词、名词和/或每个的相应实例，例如，处理器110可以通过执行110指令以处理110指令。

在本公开中，例如“a”、“an”和“the”之类的术语包含所指示的项目或步骤中的一个或多个。特别是，在权利要求中，对项目的参考通常是指至少存在一个这种项目，而对步骤的参考是指至少执行步骤的一个实例。类似地，“is”和其他单数动词形式应被理解为包含“are”和其他复数形式的可能性，当上下文允许时，以避免语法错误或误解。

标题仅为方便起见；有关给定主题的信息可以在标题指示该主题的部分之外找到。

所有权利要求和摘要，如所提交的，都是规范的一部分。

在此处使用的任何术语暗示或以其他方式指涉行业标准的范围内，并且在适用法律要求标识该标准的特定版本的范围内，本公开应被理解为指至少以草案形式(如果更近期，则以最终形式优先)发布的该标准的最新版本，截至适用专利法下本公开的最早优先权日期。

虽然示例性实施例已在附图中示出并在上面进行了描述，但是本领域普通技术人员将显而易见的是，可以在不脱离权利要求中阐述的原理和概念的情况下进行许多修改，并且这种修改不必涵盖整个抽象概念。虽然所述主题是以特定于结构特征和/或流程动作的语言描述的，但是应当理解，所附权利要求中定义的主题不一定限于权利要求中描述的上述特定技术特征或动作。不一定需要在每个实施例中存在或利用在给定定义或示例中标识的每个方式或方面或技术效果。相反，所描述的具体特征和动作和效果被公开为实施权利要求时考虑的示例。

所有未涵盖整个抽象概念，但在权利要求的含义和等同范围内的改动，均应在法律允许的最大限度内纳入权利要求的范围。

Claims

1.一种处理成本管理系统，被配置用于处理模块的处理成本管理，所述处理模块具有数据输入端口和数据输出端口，所述处理模块被配置为在所述数据输入端口接收输入数据量的输入数据，并且在所述数据输出端口产生输出数据量的输出数据，所述处理模块的特征在于，在指定的时间段内，所述输入数据量至少是所述输出数据量的100倍，所述处理成本管理系统包括：

数字存储器；以及

与所述数字存储器操作通信的处理器，所述处理器被配置为执行处理成本管理步骤，所述处理成本管理步骤包含(a)从所述输入数据的一部分形成数据簇，所述数据簇根据数据聚类参数集被界定，(b)针对所述数据簇计算关于处理模块输出数据的功效度量的影响力值，以及(c)基于所述影响力值和处理成本，管理匹配数据集对于所述处理模块数据输入端口的暴露，所述匹配数据集根据所述数据聚类参数集被界定。

2.根据权利要求1所述的系统，其中所述功效度量是基于以下各项中的至少一项：作为输出数据产生的安全警报的计数、作为输出数据产生的一个或多个安全警报的内容、作为输出数据产生的一个或多个安全警报的严重性、或者作为输出数据产生的一个或多个安全警报的置信度。

3.根据权利要求1所述的系统，其中所述数据聚类参数集基于以下各项中的至少一项界定所述聚类：IP地址、安全日志条目、用户代理、认证类型、源域、对安全信息和事件管理工具的输入、对入侵检测系统的输入、对威胁检测工具的输入、或者对渗透检测工具的输入。

4.根据权利要求1所述的系统，与所述处理模块相结合，并且其中在所述指定时间段内，所述输入数据量至少是所述输出数据量的500倍。

5.根据权利要求1所述的系统，包括机器学习模型，所述机器学习模型被配置为根据所述数据聚类参数集形成所述数据簇。

6.根据权利要求1所述的系统，其中所述处理模块的特征还在于，所述输出数据包含不存在于所述输入数据中的数据。

7.一种用于管理处理模块的处理成本的方法，包括：

从对处理模块的输入数据的一部分形成数据簇，所述数据簇根据数据聚类参数集被界定，所述处理模块被配置为基于所述输入数据产生输出数据，所述处理模块的特征在于，在至少一个小时的指定时间段内，输入数据量至少是输出数据量的3000倍；

针对所述数据簇计算关于所述输出数据的至少一部分的功效度量的影响力值；以及

基于所述影响力值和与所述处理模块处理所述匹配数据集的至少一部分相关联的处理成本，管理所述匹配数据集对于所述处理模块的暴露，所述匹配数据集根据所述数据聚类参数集被界定。

8.根据权利要求7所述的方法，还包括以下各项中的至少一项：

从无监督机器学习模型中自动获得所述数据聚类参数集；或者

使用半监督机器学习模型自动获得所述数据聚类参数集。

9.根据权利要求7所述的方法，其中计算所述影响力值包含以下各项中的至少一项：

将通过所述处理模块从包含所述数据簇的输入数据产生的输出数据中的安全警报计数与通过所述处理模块从排除所述数据簇的输入数据产生的输出数据中的安全警报计数进行比较；

将通过所述处理模块从包含所述数据簇的输入数据产生的输出数据中的一个或多个安全警报的内容与通过所述处理模块从排除所述数据簇的输入数据产生的输出数据中的一个或多个安全警报的内容进行比较；

将通过所述处理模块从包含所述数据簇的输入数据产生的输出数据中的一个或多个安全警报的严重性与通过所述处理模块从排除所述数据簇的输入数据产生的输出数据中的一个或多个安全警报的严重性进行比较；或者

将通过所述处理模块从包含所述数据簇的输入数据产生的输出数据中的一个或多个安全警报的置信度和通过所述处理模块从排除所述数据簇的输入数据产生的输出数据中的一个或多个安全警报的置信度进行比较。

10.根据权利要求7所述的方法，其中管理所述匹配数据集对于所述处理模块的暴露包含以下各项中的至少一项：

当处理所述匹配数据集的增量处理成本在指定成本阈值以上，并且处理所述匹配数据集的增量功效增益在指定功效阈值以下时，从被输入到所述处理模块的数据中排除所述匹配数据集的至少一部分；或者

响应于覆盖条件，当处理所述匹配数据集的增量处理成本在指定成本阈值以上，并且处理所述匹配数据集的增量功效增益在指定功效阈值以下时，将所述匹配数据集的至少一部分包含在被输入到所述处理模块的数据中。

11.根据权利要求7所述的方法，其中管理所述匹配数据集对于所述处理模块的暴露基于所述影响力值、所述处理成本，以及以下各项中的至少一项：

标识提供所述输入数据的实体的实体标识符；

标识接收所述输出数据的实体的实体标识符；

标识将所述输入数据提交给所述处理模块的时间段的时间段标识符；

标识通过所述处理模块产生所述输出数据的时间段的时间段标识符；

指示对于所述输入数据的保密约束的保密标识符；或者

指示对于所述输出数据的保密约束的保密标识符。

12.根据权利要求7所述的方法，其中管理所述匹配数据集对于所述处理的暴露包括以人类可读格式报告以下各项中的至少一项：

所述数据聚类参数集的描述、处理所述数据簇的增量处理成本、以及不处理所述数据簇的增量功效变化；或者

用于从处理中排除的潜在候选数据集的有序列表，所述列表在包含对处理成本或功效或两者的候选数据集影响力的基础上被排序。

13.根据权利要求7所述的方法，其中所述功效度量基于所述输出数据中的安全警报，并且其中所述方法包括在计算所述影响力值时向至少两个相应的安全警报分配不同的权重。

14.根据权利要求7所述的方法，其中所述处理模块在在线时段或离线时段可操作，并且针对所述数据簇计算所述影响力值在所述离线时段被执行。

15.根据权利要求7所述的方法，其中管理所述匹配数据集对于所述处理的暴露包括：

以人类可读格式报告处理所述数据簇的增量处理成本和不处理所述数据簇的增量功效变化；

获取用户选择，所述用户选择指定是否将所述数据簇包含为对所述处理模块的输入数据；以及

实现所述用户选择。