CN110462606B

CN110462606B - 智能安全管理

Info

Publication number: CN110462606B
Application number: CN201880014092.5A
Authority: CN
Inventors: 亚历山大·沃森; 丹尼尔·布里姆; 克里斯托弗·西蒙斯; 保罗·拉杜洛维奇; 泰勒·斯图尔特·布雷; 珍妮弗·安妮·布林克利; 埃里克·约翰逊; 维克托·真; 杰克·拉斯盖蒂斯; 蔡乃琴; 迈克尔·高夫; 马克斯·安格尔
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2017-02-27
Filing date: 2018-02-08
Publication date: 2024-05-14
Anticipated expiration: 2038-02-08
Also published as: CN110462606A; EP3586274A1; JP2020510926A; US10320819B2; US20180248895A1; US20190281076A1; US11102221B2; WO2018156359A1; JP6888109B2

Abstract

可以对针对实体存储的文档(和其他数据对象)的语料库进行分析以确定针对每个文档的一个或多个主题。可以分析所述文档的元素以也指派风险分数。可以使用例如主题模型和随机森林回归器来随时间的推移学习和调适主题和安全元素的类型以及相关联的风险分数。监视关于所述文档的活动，并使用经训练的递归神经网络来确定用户的预期行为。处理正在进行的用户活动以确定所述活动是否过度偏离预期的用户活动。也可以将所述活动与用户同级的活动进行比较，以确定所述活动在所述用户同级组中是否也是异常的。对于异常活动，可以分析所访问文档的风险分数以确定是否生成警报。

Description

智能安全管理

背景技术

用户越来越多地使用远程计算资源来执行任务，远程计算资源可以通过共享资源环境来提供。这具有许多优点，因为用户不必购买和维护专用硬件和软件，而是可以只为在任何给定时间使用的那些资源进行支付，其中这些资源通常将由资源提供商进行管理。用户可以使用由资源提供商提供的各种类型的资源来执行诸如存储数据或执行应用的任务。对于各种组织，可能存在针对这些组织存储的非常大的数据和文档的语料库。确定这些文档中每一个的上下文可能非常困难，特别是当用户创建文档并将文档存储到远程数据存储而不首先经过某种类型的手动分类过程时。此外，可能也难以确保这些文档的适当安全性，因为难以获知针对这些文档中的每一个应当允许的访问类型，以及检测可能与期望许可不一致的访问。

附图说明

将参考附图描述根据本公开的各种实施方案，在附图中：

图1示出了可以实施各种实施方案的示例环境。

图2示出了可以根据各种实施方案利用的可用于分析针对一个或多个客户存储的文档和数据的示例系统。

图3示出了可以根据各种实施方案利用的可用于检测关于客户文档的异常行为的示例系统。

图4示出了根据各种实施方案的可用于检测用户关于所确定的用户同级(peer)的异常行为的示例系统。

图5示出了可以根据各种实施方案利用的用于定位和分类文档的示例过程。

图6示出了可以根据各种实施方案利用的用于检测异常行为的示例过程。

图7示出了可以根据各种实施方案利用的用于确定检测到的行为是否异常的示例过程。

图8示出了可以用于实现各种实施方案的各方面的计算设备的示例部件。

具体实施方式

在下面的描述中，将描述各种实施方案。为了说明的目的，阐述了具体的配置和细节以便提供对实施方案的透彻理解。然而，对于本领域技术人员来说显而易见的是，可在没有具体细节的情况下实施实施方案。此外，为了不使所描述的实施方案变得模糊，可能会省略或简化众所周知的特征。

根据各种实施方案的方法提供了对针对实体存储的文档和其他数据对象的语料库的数据丢失防护。可以分析所述语料库以确定这些文档中每一个的一个或多个主题。分析还可以涉及检测可用于为每个文档指派风险分数的元素或方面。可以使用例如主题模型和随机森林回归器来随时间的推移学习和调适主题和安全元素的类型以及相关联的风险分数。可以监视对各种文档的访问，并且使用例如经训练的递归神经网络或其他神经网络分类器来确定用户的预期行为。可以监视和处理实际用户活动以确定任何活动相对于预期的用户活动是否异常或过度偏离。也可以将所述活动与用户同级的活动进行比较，也可以随时间的推移来学习，以确定活动在用户同级组中是否也是异常的。对于异常行为，可以分析一个或多个所访问文档的一个或多个风险分数以确定是否生成针对该访问的警报。为了限制生成的安全警报的数量，可以记录或甚至忽略(如果风险分数足够低的话)对具有较低风险分数的文档的异常访问。每个活动和结果可用于训练和更新模型，以便提高主题指派、风险分数确定和活动分类器以及其他此类方面的准确性。

多种其他功能可以在各种实施方案中实现，并在本文其他地方对它们进行了讨论和建议。

图1示出了可以实现各种实施方案的各方面的示例环境100。在该示例中，用户能够利用客户端设备102跨至少一个网络104向资源提供商环境106提交请求。客户端设备可以包括任何适当的电子设备，该电子设备可操作来通过适当的网络发送和接收请求、消息或其他这样的信息，并将信息传送回设备的用户。此类客户端设备的示例包括个人计算机、平板计算机、智能电话、笔记本计算机等。至少一个网络104可以包括任何适当的网络，包括内联网、因特网、蜂窝网络、局域网(LAN)或任何其他这样的网络或组合，并且通过网络的通信可以通过有线和/或无线连接来实现。资源提供商环境106可以包括用于接收请求和返回信息或响应于这些请求执行动作的任何适当部件。作为示例，提供商环境可以包括Web服务器和/或应用服务器，用于接收和处理请求，然后响应于这种请求，返回数据、网页、视频、音频或其他这样的内容或信息。

在各种实施方案中，提供商环境可以包括可以由多个用户用于多种不同目的各种类型的资源。在至少一些实施方案中，给定资源或资源集的全部或一部分可以在至少确定的时间段内被分配给特定用户或者分配用于特定任务。从提供商环境共享这些多租户资源通常被称为资源共享、Web服务或“云计算”以及其他这样的术语，并且取决于特定环境和/或实现方式。在该示例中，提供商环境包括一种或多种类型的多个资源114。这些类型可以包括，例如，可操作以处理由用户提供的指令的应用服务器或可操作以响应于用户请求来处理存储在一个或多个数据存储116中的数据的数据库服务器。如对于此类用途所知的，用户还可以在给定数据存储中预留数据存储的至少一部分。用于使用户能够预留各种资源和资源实例的方法在本领域是公知的，因而本文将不再详细讨论整个过程的详细描述以及所有可能部件的解释。

在至少一些实施方案中，想要利用资源114的一部分的用户可以将接收到的请求提交给提供商环境106的接口层108。接口层可以包括应用编程接口(API)或使得用户能够向提供商环境提交请求的其他公开的接口。在该示例中的接口层108也可以包括其他部件，例如至少一个Web服务器、路由部件、负载平衡器等。当接收到向接口层108提交的提供资源的请求时，可以将关于请求的信息引导到资源管理器110或配置为管理用户账户和信息、资源供应和使用以及其他这样的方面的其他此类系统、服务或部件。接收到请求的资源管理器110可以执行诸如认证提交请求的用户的身份，以及确定该用户在资源提供商处是否具有现有账户的任务，其中账户数据可以存储在提供商环境中的至少一个数据存储112中。用户可以提供各种类型的凭证中的任何一种，以便向提供商认证用户的身份。这些凭证可以包括例如用户名和密码对、生物计量数据、数字签名或其他此类信息。提供商可以对照针对用户存储的信息来验证该信息。如果用户具有带有适当许可、状态等的账户，则资源管理器可以确定是否有足够的资源可用于满足用户的请求，如果是，则可以提供资源或以其他方式授予对这些资源的相应部分的访问许可，以供用户使用请求所指定的量。该量可以包括，例如，处理单个请求或执行单个任务的能力、指定的时间段，或者重复/可续期的时间段，以及其他这样的值。如果用户不具有针对提供商的有效账户，则用户账户不能访问请求中指定的资源类型，或者另一个这样的原因正在阻止用户获得对此类资源的访问，可以给用户发送通知，以使得用户能够创建或修改账户，或者更改请求中指定的资源以及其他此类选项。

一旦用户被认证，账户被验证，并且资源被分配，用户就可以以指定的容量、数据传输量、时间段或其他这样的值利用一个或多个所分配的资源。在至少一些实施方案中，用户可以与后续请求一起提供会话令牌或其他此类凭证，以便能够在该用户会话上处理这些请求。用户可以接收资源标识符、特定地址或其他这样的信息，其可以使客户端设备102能够与分配的资源进行通信，而不必与资源管理器110进行通信，至少直到用户的相关方面变化，用户不再被授予对资源的访问权限，或其他此类方面的变化。

在该示例中，资源管理器110(或另一个这样的系统或服务)还可以用作硬件和软件部件的虚拟层，除了管理动作之外还处理控制功能，可以包括供应、扩展、复制等。资源管理器可以在接口层108中利用专用API，其中可以提供每个API以接收关于要针对数据环境执行的至少一个特定动作的请求，诸如供应、扩展、克隆实例或使实例休眠。在接收到发往API之一的请求时，接口层的Web服务部分可以解析或以其他方式分析该请求，以确定对该调用采取措施或处理该调用所需的步骤或动作。例如，可能会接收到包含创建数据存储库请求的Web服务调用。

在至少一个实施方案中，接口层108包括可扩展的一组面向客户的服务器，其可以提供各种API并基于API规范返回适当的响应。接口层还可以包括至少一个API服务层，该至少一个API服务层在一个实施方案中由处理面向外部的客户API的无状态、复制服务器组成。接口层可以负责Web服务前端功能，例如基于凭证对客户进行认证，对客户进行授权，限制流向API服务器的客户请求，验证用户输入以及对请求和响应进行列集或散集。API层还可负责响应于API调用从管理数据库读取数据库配置数据/将数据库配置数据写到管理数据存储器。在许多实施方案中，Web服务层和/或API服务层将是仅在外部可见的部件，或仅对控制服务的客户可见并且由控制服务的客户可访问的部件。如本领域已知的，Web服务层的服务器可以是无状态的，并且被水平地扩展。例如，API服务器以及持久数据存储可以跨区域中的多个数据中心分布，例如使得服务器对单个数据中心故障是能恢复的。

如上所述，这样的环境使组织能够通过诸如因特网的网络获得和配置计算资源以执行各种类型的计算操作(例如，执行代码，包括线程、程序、软件、例程、子例程、进程等)。因此，开发人员可以快速购买或以其他方式获得期望数量的计算资源，而不必为获取物理机而担忧。通常以虚拟计算资源或虚拟机实例的形式购买这类计算资源。在具有其自己的操作系统和其他软件部件的物理计算设备上托管的虚拟机的这些实例可以以与物理计算机相同的方式加以利用。

对于大型组织，可能存在数百万个在整个这种环境中存储的文档和数据对象(或更多)。这样的组织可能难以管理文档，例如难以确定各种文档和对象的内容，特别是在它们被更新时，以及难以确定应当为每个文档和对象应用的访问、许可或安全策略。此外，也可能非常难以确定关于这些文档的适当用户行为，以便确定何时发生可能对组织具有潜在风险或危害的异常行为。虽然存在可以利用的各种传统安全机制，例如搜索特定关键字或模式(例如，社会安全号、信用卡号或医疗记录)，但是机制是有限的并且容易出现误报和故障。

因此，根据各种实施方案的方法可以尝试自动分析针对客户或其他此类实体存储的各种文档、数据对象和其他此类对象(下文中为了简单起见，通常简称为“文档”)，以确定针对每个这样的文档的一个或多个主题。分析还可以涉及检测可用于为每个文档指派风险分数的安全元素。可以使用例如神经网络、模型集、经训练的回归器或其他这样的机制来随时间的推移学习和调适主题和安全元素的类型以及相关联的风险分数。还可以监视对各种文档的访问，并且使用例如递归神经网络来确定用户的预测或预期行为。可以监视和处理实际用户活动以确定该活动相对于预期的用户活动是否异常。也可以将所述活动与用户同级的活动进行比较，也可以随时间的推移来学习，以确定活动在用户同级组中是否也是异常的。对于异常行为，可以分析一个或多个所访问文档的一个或多个风险分数以确定是否生成针对该访问的警报。为了限制生成的安全警报的数量，可以记录或甚至忽略(如果风险分数足够低的话)对具有较低风险分数的文档的异常访问。每个活动和结果可用于训练和更新模型，以便提高主题指派、风险分数确定和活动分类器以及其他此类方面的准确性。

各种实施方案可以提供数据丢失防护服务，该数据丢失防护服务可以帮助防止文档、数据和其他知识产权的泄露和被盗。具有针对此类服务提供商(在至少一些实施方案中，其也是提供多租户资源环境的资源提供商)的账户的客户可以利用各种工具和接口来获得关于他们存储的文档的信息，并且可以接收关于其文档所检测到的异常或危险行为的报告或警报。这可以有助于保护存储在这种多租户环境或资源提供商环境中的文档，通常称为“云”中的存储。

在一些实施方案中，这样的服务可以利用人工智能(AI)或机器学习来定位和跟踪客户知识产权，例如电子邮件、文档和电子表格，以及相关联的数据和其他对象。在一些实施方案中，这还可以包括跨客户网络存储的文档。这样的服务可以利用自然语言处理(NLP)来理解每个文档或数据片段的诸如主题、业务相关性和价值的信息。该服务还可以确定每个文档的风险级别或分数。该服务可识别并呈现对数据的异常行为或与数据的异常互动，从而提醒客户潜在的违规或攻击。例如，如果客户服务代表尝试从外部IP地址访问机密个人文件，则该服务可能将此活动识别为异常并生成警报。在至少一些实施方案中，该服务还可以为每个这样的文档指派风险分数或安全级别，由此关于是否生成警报的判断可以至少部分地基于被访问的一个或多个文档的一个或多个风险分数。

在各种实施方案中，数据丢失防护系统或服务可以利用主题建模。利用或生成的主题模型可以基于任何适当的技术，例潜在狄利克雷分布(Latent Dirichletallocation，LDA)，其可以找到文档和主题的集群。主题建模可以利用各种生成式统计技术以允许由未观察到的组来解释观察的集合，这可以有助于解释为什么数据的某些部分被确定为相似。这不同于作为跨大的数据语料库识别主题集的无监督分类器的传统使用，而是用于单独地并且相对于用户的同级，对用户通常访问的数据种类进行分类。这种方法提供了不需要具体了解组织数据的优点，而是可以创建和维护给定用户或同级组通常访问的主题集，作为整个语料库的子集。类似地，具有指派风险分数的训练文档可用于对分类器(例如随机森林回归器)进行训练，以便能够确定随后处理的文档的风险分数。经训练的回归器可以接收包括标记的数据集的文档，并提供相应的风险分数，如本文其他地方所讨论的。

这种数据丢失防护服务可以利用在给定时间段内被访问的文档的数量、频率或其他这样的度量作为针对用户以及在至少一些实施方案中针对用户同级训练的递归神经网络的输入。在至少一些实施方案中，可以基于组织结构(即，组织图表)来自动确定同级组和/或通过分析诸如所访问的文档或主题的类型、这些访问的频率等信息来学习同级组。同级组的示例可以包括例如可能以特定方式访问资源的软件开发者或人力资源人员的组。同级，以及与用户频繁交互的其他人的活动，可以帮助预测诸如用户将与其交互的文档的主题类型和文档数量的信息，以便确定应当针对性地生成警报的可疑访问。

在一个实施方案中，可以跟踪、监视或以其他方式确定用户在工作日期间访问的文档。基于对整个组织的数据语料库的处理来训练和更新主题模型。整个组织中的每个文档都可以被标记为由一个或多个主题组成。可以至少部分地基于用户与数据交互的数据类型以及组织结构或其他此类信息来将用户群集到同级组中。当用户与各种文档交互时，正在被访问的文档和主题的计数作为输入被馈送到具有反向传播的无监督分类器，该无监督分类器可以基于历史基线来预测未来活动。当用户相对于预测的访问类型或频率以及在至少一些实施方案中相对于同级组的类型或频率偏离超过确定量(即，大于阈值或最大容许量)时，神经网络可以检测到偏离，并为安全组或其他适当的实体生成警报。

在一些实施方案中，递归神经网络(RNN)可用于对用户行为进行建模并对指示组织面临风险的基线活动的增加或减少发出警告。此类基于RNN的方法(或诸如基于“分层时间记忆”的方法的其他方法)可以提供诸如单独地并且相对于一个或多个用户同级组，同时评估用户活动的数百个或更多个特征的益处。然而，在各种情况下，传统的神经网络不能为用户提供重要的深入理解(对模型的内省)或者，也不能够容易地调整结果的输出，以实现针对特定使用案例的更好性能。因此，根据各种实施方案的方法提供了使由RNN一起评估的各个输入可视化的能力，以及使输出平滑以使神经网络或多或少地响应其输入随时间的变化的能力。在至少一些实施方案中，可以通过使用基于卡尔曼滤波器的平滑函数来实现平滑，该平滑函数可以应用于来自神经网络的各个特征预测，然后由更高级别的分类器评估这些预测，该更高级别的分类器确定函数是否异常。这种方法提供了调整进入神经网络以预测用户活动的每个特征组合的权重，以及响应的能力。这可以有助于显著提高精度和再调用的性能，并且有助于识别原本会影响性能的噪声特征或极端情况并降低其影响。

图2示出了根据各种实施方案的可用于执行诸如爬取和文档分析的功能的示例系统200。为了简化说明，附图标记可以在各附图之间共用，以表示类似的对象，但是除非另外特别说明，否则这种用法不应被解释为对各种实施方案的范围的限制。与图1的环境一样，客户可以利用客户端设备(这里是操作客户控制台102)来跨至少一个网络104访问资源提供商环境106的资源。如上所述，这可以用于存储客户数据，例如存储到至少一个数据存储库214，以及将文档存储到至少一个文档存储212，以及其他此类选项。在一些实施方案中，客户可以利用客户控制台102来指定可以由访问管理器208或其他这样的系统或服务利用的安全设置，以控制对针对客户存储的各种数据和文档的访问。如本文其他地方更详细讨论的，可以实现各种安全策略以在用户能够访问某些数据或文档之前要求满足特定许可、凭证、角色或其他访问标准。诸如活动监视器204的服务可以监视各种用户对各种文档和数据的访问，并将该信息存储到诸如活动日志206或其他此类存储库的位置。安全管理器202可以与访问管理器208和/或活动监视器204一起工作，以确定潜在可疑行为的存在，然后可以将其报告给客户控制台102或以其他方式作为警报或通知来提供。在至少一些实施方案中，客户控制台102还可用于向安全管理器202提供安全设置或选择，以确定要生成的警报的类型、为其生成警报的行为的类型以及其他此类信息。

在至少一些实施方案中，可以存在代表客户(例如组织)存储到数据存储214和/或文档存储212的任何任意内容。在至少一些实施方案中，可能需要分析该内容以提供对代表客户存储的数据、文档和其他对象的类型的可见性。在该示例中，爬行器210可用于定位和分析代表客户存储的各种文档(和其他数据等)。爬行器可以包括各种数据爬取算法，用于定位、解析和评估数据的内容，例如分析其中包含的词、数字、字符串或图案。爬行器210还可以包括分类器算法或与其一起工作，所述分类器算法可以对各种文档进行分类，例如给每个文档指派一个或多个主题。爬行器210还可以包括一个或多个风险评估算法或与其一起工作，所述一个或多个风险评估算法可以确定文档的每一个(或至少子集)的风险分数。在至少一些实施方案中，风险分数可以是对正则表达式的各种度量的合成，其可以至少部分地基于文档中的各种主题和题材的存在。这种方法的一个优点是客户可以利用客户控制台102或另一个这样的机制来获得对针对客户存储的内容的类型以及与该内容相关联的风险的可见性。在至少一些实施方案中，客户还能够查看该内容以及指派的主题和风险分数，并作出客户认为适当的调整。然后，可以使用这些调整来进一步对神经网络进行训练，以便改善未来的分类和分数确定。在至少一些实施方案中，客户还可以查看对各种文档的访问的模式或类型、访问特定文档或主题的用户或同级组的列表、具有特定风险分数的文档，等等。

在一个实施方案中，爬行器210使用已知文档和无监督分类的组合来对所有内容进行分类。可以提供初始分类文档集作为初始训练集。这些文档也可以具有指派的风险分数，或者可以提供初始风险标准以供训练，以及其他此类选项。初始数据可用于对神经网络进行训练，然后数据的语料库可用于提供无监督分类。这种方法可以使行业特定内容能够被识别和分类，并使得适当的风险分数被确定。分类文档的传统方法可以查找特定内容，例如社会安全号或信用卡号，并且可以在用户访问该信息的任何时候发出警报。而根据各种实施方案的方法提供对以前未遇到或分类的内容进行动态分类的能力，所述内容可包括特定于行业的内容数据，例如药学数据等。可以根据对内容的学习以及其他相关内容的评分来确定主题和指派风险分数。例如，同级以相似频率访问的文档的分数也可用于估计这些文档的风险分数。分类器可以尝试隔离和标记特定内容，然后确定要指派的适当风险分数。在至少一些实施方案中，可以利用各种行为分析来确定关于文档的基线用户活动，其可以用于确定风险分数。各种实施方案还可以隔离指示对企业有风险的文档的特征，诸如通过将药学文档识别为仅对企业内少数人可访问的内容。这有助于学习数据类型和相关主题，以用于生成风险分数和访问模式等。

在一个示例中，爬行器210可以索引与客户相关联的所有文档(和其他数据)。爬行器210还可以分析文档的内容，以及针对这些文档的历史访问模式。历史访问模式可以包括与打开、读取、更新、登录、管理事件等有关的信息。在一些实施方案中，确定的一段时间(例如前六个月)内的所有访问数据都可用于构建可用于对文档进行分类和/或执行其他此类分类的主题模型。在此示例中，爬行器利用主题建模，该主题建模提供了有关如何对文本内容的各种实例进行分类的深入理解。在一些实施方案中，主题数据可以存储到主题数据存储216，而对各种文档的分类数据可以存储到文档本身，或者存储到引用文档的分类数据存储218或表中，使得分类可以被容易地确定。

图3示出了根据各种实施方案的可用于确定对分类文档的异常行为的示例系统300。与前面的示例一样，该系统可以包括活动监视器204，其可以监视系统用户对各种文档、数据和其他对象的访问。可以将信息存储到诸如日志数据存储206的位置或其他这样的位置。每个活动的信息可以被馈送到分类器服务302，或者由分类器服务从活动队列中拉取，以及其他此类选项。在一些实施方案中，可以单独处理活动数据，而在其他实施方案中，可以批量处理数据，例如以32个活动条目的批次，以防止对神经网络的训练消耗过多的资源等。在一些实施方案中，可以处理一段时间内的用户活动的聚合或概要，这可以比使用原始数据更具成本和资源效率。例如，可以使用诸如Apache Spark(一种开源集群计算框架)的技术来概括用户的所有服务交互。

在该示例中，活动数据被接收到分类器服务并由递归神经网络(RNN)处理。应当理解，也可以在各种实施方案的范围内使用其他类型的神经网络(即，卷积或生成式对抗网络)。活动数据最初可以由分类器服务的RNN处理，以预测在确定的未来某一时间段内的各种用户的活动。该信息可以由经训练的RNN来确定，并且基于诸如用户的过去行为和用户同级的行为的信息以及其他此类选项。预测或预期行为数据可以存储到行为数据存储310或其他这样的位置。使用递归神经网络的一个优点是，网络可以通过学习来识别大量用户和大量文档随时间的推移的使用模式，并基于这些模式来预测用户未来可能会如何行动。递归神经网络还可以学习原本可能看起来可疑的正常活动模式，以确保不会因频繁或不频繁访问某些数据而生成误报警报。RNN可以更好地识别模式，使得相对于这些模式的偏差可以更准确地被标记为可疑。RNN还能够同时分析大量特征，使得数据源的一组特征可以组合在一起进行分析。RNN可以以无监督的容量使用，因此网络可以与数据适应。这有助于适应访问模式的变化，并识别可能原本不会被检测到的不同类型的攻击。

当检测到后续活动时，可以将该信息馈送到分类器服务302以进行分析。可以使用RNN来处理活动数据，以识别是否有任何活动以被标记为可疑的程度超出预期行为的范围。在一些实施方案中，可能存在各种阈值、值或范围，当偏离预期行为时针对所述阈值、值或范围将活动确定为可疑，而在其他实施方案中，可以根据预期变化来训练RNN，并且仅将这些类型的活动标记为可疑，以及其他此类选项。然而，可能存在的情况是，在特定时段内使用可能似乎是可疑的，但在不同的时间段内不是可疑的。例如，用户通常可能每小时访问给定文档十次，但通常不会在五分钟内访问该文档十次。即使五分钟的时段内的使用可能是可疑的，但在较长的时间段内并不一定是可疑的。因此，根据各种实施方案的方法可以尝试使RNN的结果平滑，诸如通过利用卡尔曼滤波器或其他这样的算法。卡尔曼滤波器用于基于随时间的推移而观察到的可能包含噪声和其他不准确性的一系列测量结果来生成线性二次估计，从而生成可能只基于单个时间段的更准确的估计。可以在预测用户行为以及确定特定活动是否是可疑的时，或者不可接受地在预测行为之外，以及其他此类选项，使用卡尔曼滤波器。在一个示例中，卡尔曼滤波器在多个时间段内取给定用户的活动的时间序列，诸如下载的文档的数量或API调用的数量等。可以使用卡尔曼滤波器对不同时间序列上的结果进行平滑，通过一些小的训练，从而生成原本仅通过RNN生成的更有效的预测。在至少一些实施方案中，RNN和卡尔曼滤波器可以同时使用，其中RNN生成由卡尔曼滤波器平滑的各个特征预测。然后可以将平滑的结果提供给经训练的(高级)分类器算法，该算法可以最终确定活动是否是可疑的，使得应当生成警报或采取其他这样的动作。

还可以基于用户和用户同级的过去和期望的行为在特定步骤或时间点做出预测。平滑过程还可以提供置信区间，这有助于确定相对于预期值的合理偏差，以进一步限制误报。在一些实施方案中，可以累积用户的预期活动和实际活动之间的误差，并且分析时间序列上的误差概要以识别具有可能指示可疑活动的过大误差值的用户。因此，可以针对特定的可疑活动或对于用户总体上、单独地或者相对于该用户的同级而言显得可疑的活动而生成警报。在一些实施方案中，将聚合误差分数与用户同级进行比较，并且相对于同级分数偏离超过阈值量的误差分数可被报告为可疑的，以便考虑到意外变化，所述意外变化是由一组同级代表该同级组的任何单个用户经历的，因此不太可能是可疑活动。在一些实施方案中，可以向安全控制台312通知任何可疑活动，以便向警报数据存储314提供警报或至少存储信息以供后续分析，以及其他此类选项。

图4示出了根据各种实施方案的包括图3的系统的部件的子集的系统400，所述系统可以用于确定同级组。如上所述，在至少一些实施方案中，可以至少部分地基于用户同级的活动来预测用户的活动，以及相对于同级组中的其他用户的行为来确定可疑行为。虽然可以基于诸如组织结构的已知信息来确定这些同级组，但是也可以通过学习所访问的文档的类型，该访问的模式和频率以及其他这样的信息来随时间的推移确定同级。例如，分类器或爬行器可能够识别多种源代码语言和日志记录格式，例如可包括Windows事件数据、AWSCloudtrail、VPC Flow、Apache和IIS。分类器或爬行器也可能够识别各种数据库备份格式，例如MySQL、MSSQL和MongoDB，以及诸如SEC文档和FDA申报等的监管表格。

在一些实施方案中，来自组织结构的映射和确定可以用作向RNN中的初始输入。分析活动数据以获得实际使用情况的RNN还可以确定相对于系统中展示的行为类型为同级的用户。因此，用户可能属于多个同级组，或者可能属于随时间的推移而学习到的并在任何特定组织结构或指定之外的特定同级组。在一些实施方案中，同级组可被加权，而在其他实施方案中，对任何同级组可疑的活动可生成警报，而在其他实施方案中，在生成警报之前，活动必须对于所有同级组(没有其他因素)都是可疑的。如上所述，作为分类器服务302的一部分，针对活动数据训练的分类器可以基于随时间的推移而观察到的行为来确定和更新同级组。活动的相似性可使得特定用户402与第一同级组中的同级404分组在一起，但不与具有显著不同行为活动模式的另外的同级组的同级408相关联。同级组的数量可以是有限的或无限的，这可能影响确定的精度。然而，可能需要在一个组中具有至少最小数量的用户，以便获得可靠稳定的访问模式以供比较。此外，同级组的数量大可能会导致潜在过度的资源使用，特别是在用户可能属于无限数量的组的情况下。

在至少一些实施方案中，评估的活动模式不限于所访问的文档和访问次数，并且还可以包括诸如访问的路径或类型的信息。例如，可以区分读取与写入访问。此外，还可以分析来自特定资源或IP地址或地址范围的调用。在至少一些实施方案中，可以调整RNN以考虑活动的附加或其他方面，并且在一些情况下，可以使RNN能够学习可以指示访问或活动的预期类型的活动信息。在至少一些实施方案中，还可以单独调整这些特征中的每一个的置信度，使得可以允许对来自特定IP地址或地理区域的请求的要求变化超过用户通常不访问的文档类型等。这也使得用户能够至少在给定范围内更改IP地址，而不会生成警报，因为此活动可能是异常的，但也可能会在整个用户群中频繁发生，否则可能会导致许多作为误报的警报。可以允许用户调整各个特征的置信度值或阈值，以便调整针对特定特征而生成的警报的数量。因此，如果用户正在获得太多实际上不存在问题的特定类型的警报，则用户可以调整阈值或置信度，使得对于该特定特征而言只有更加极端的偏差才会生成警报。

在一些实施方案中，文档可以被分组为桶，由此可以将重要性和风险值指派给各个桶(bucket)。例如，人力资源(HR)文档可以被分组到一个桶中，而医疗记录可以被分组到另一个桶中。该分组可以离线和手动执行，或者可以随时间的推移学习分组，以及其他此类选项和组合。这种方法可以允许将类似的风险或重要性值指派给桶中的所有文档，即使可能难以单独确定每个文档的适当风险或重要性分数。在一些实施方案中，桶分数可以是其中包含的每个文档的最小风险分数，因为每个文档中包含的具有较高分数的信息可以用于确定单个文档分数。在至少一些实施方案中，指派给文档的风险分数等于针对文档中的任何元素所确定的最高风险分数。例如，风险分数可能从1(低风险)到10(非常高的风险)。HR桶中的HR文档可能具有5的风险分数，但是如果特定文档包括风险分数为8的社会安全号，则该特定文档将具有的分数为8。如果该文档有五个社会安全号，每个号的风险分数都为8，那么该示例中的文档仍将具有8的风险分数。在一些实施方案中，风险分数可以聚合或具有权重，使得具有许多社会安全号的文档与包括单个风险分数的文档相比具有较高的风险分数，以及其他此类选项。如上所述，风险分数可用于确定对可疑活动采取的行动。对于风险分数所采取的行动也可以由客户修改或基于客户反馈而随时间的推移进行调适。在一些实施方案中，可以使用接受一组复杂特征的随机森林回归器，所述一组复杂特征最初可以对应于风险分析算法的输出，但是随后可以基于客户反馈和关于重要性的其他此类信息进行更新。

除了为特定风险分数设置动作之外，客户还可以设置或调整各种其他阈值或触发条件。例如，当用户正在访问的文档主题与该用户通常访问的主题不同时，可以确定可疑活动。客户可以指定在生成警报或采取类似动作之前应允许的差异级别。例如，可以计算主题间距离以生成两个主题之间的相关差异，并且客户可以指定在生成警报之前必须满足的最小差异。客户还可以为不同范围指定不同的动作。例如，可以忽略小于第一阈值的差异，而可以记录第一阈值和第二阈值之间的差异，并且仅针对超过第二阈值的主题间差异来生成警报。在一些实施方案中，自然语言理解(NLU)可用于确定主题和概念，或与这些概念相关的词，它们可被矢量化为矢量空间以组合主题并确定它们在矢量空间中的距离。可以使用例如线性判别分析(LDA)或主成分分析(PCA)以及其他此类选项来生成矢量和空间。

因此，根据各种实施方案的DLP服务可以分析与敏感数据相关联的用户、应用和服务账户的活动，所述敏感数据提示对企业的风险，诸如无意中暴露数据、内部威胁或有针对性的攻击。这样的服务可以针对诸如以下的可疑活动生成警报：受危害用户账户枚举、从非常用IP地址下载大量敏感内容，或者通过通常不访问这种类型的敏感内容的用户账户下载大量源代码。聚焦合规性的示例包括检测公开共享或与整个公司共享的大量高风险文档，例如包含个人识别信息、知识产权、法律或财务数据的文件。此外，客户也能够使用客户仪表板来定义自己的警报和策略定义，例如将需要访问敏感内容的第三方应用列入白名单和黑名单。

在一些实施方案中，一个或多个主题模型可用于通过在创建和/或存储现有内容和新内容时自动发现、分类和标记现有内容和新内容，从而提供自动内容分类和标记。该主题分片能力可以利用来自包括狄利克雷分配(LDA)、命名实体提取、文档相似性和聚类在内的主题建模的元素，以推断可能与已知文档模板不匹配的内容的人可理解的含义和商业价值。如上所述，文档相似性可用于可靠地衡量可同时处理同一主题的不同文件类型之间的相似性。这种能力可以利用来自LDA主题空间、doc2vec或TF-IDF词袋空间的文档矢量。这种能力还可以利用来自文档元数据的特征，如可以包括文件类型、文件所有者、关于文件是否在外部共享的信息，以及文件的可见性级别。然后可以将这些不同的“相似性类型”组合在一起，例如通过使用加权平均数，使得不同的类型对最终相似性分数具有不同的影响。

根据各种实施方案使用的异常检测服务或分类器可以基于从原始活动事件记录提取的信息来更新其状态，并且随后可以通过检查多种独立数据集来回答关于与用户和系统账户相关联的“风险级别”的查询，以及在观察到在整个这些数据集中的异常和风险活动时生成警报以及关于为何创建警报的叙述性解释。所利用的异常检测算法可以包括卡尔曼滤波器和长短期记忆(LSTM)递归神经网络(RNN)，我们已经证明它们在基于用户的暂时性访问模式来识别异常方面是有效的。此外，还可以提供“解释”能力，其提供对所检测到的异常的叙述性解释，利用统计技术来提供对传统黑盒行为分类的深入理解。这种异常检测框架可以不断地自我训练，并且可以通过将模拟的攻击场景注入到输入事件流中来利用适应度函数来不断改进其自身的性能。

图5示出了可以根据各种实施方案利用的用于使用一个或多个分配的资源实例来处理事件的注册函数的示例过程400。应当理解，对于本文讨论的这个和其他过程，除非另有说明，否则在各种实施方案的范围内，可以存在以类似的或替代的顺序或者并行执行的额外的、替代的或更少的步骤。在该示例中，确定主题标签和风险分数标准的初始集502。这些可以包括，例如，特定客户感兴趣的特定主题，以及针对在特定文档中可以检测到的某些元素指派的风险分数，以及其他此类选项。可以确定根据这些主题分类并且已经指派风险分数的初始文档集504，以用作训练数据。可以使用初始训练数据来训练主题模型和针对风险分数的随机森林回归器506。爬行器或其他此类系统或服务还可以对各种存储库或其他存储位置进行爬取以确定被存储并可供组织访问的文档508，所述组织可以是数据丢失防护服务的客户。爬行器或与爬行器一起工作的服务可以对每个文档(或数据对象等)指派一个或多个主题以及风险分数或其他此类值510。在一些实施方案中，客户或其他授权实体能够至少部分地基于对文档的预期主题或实际风险的了解来接替或更新这些确定。可以使用附加文档数据，例如组织的更新或新存储文档的数据，继续进一步训练主题模型和回归器512。该服务可以允许关于组织的文档语料库的报告和其他类型的可见性514，由此使得组织可以确定可用文档的类型和相关联的风险，以及可能的其他信息，如访问模式，识别的主题等。该服务还可以继续对存储库(例如每隔一定时间)进行爬取以确定组织可用的新文档或修改的文档516，以便对这些文档进行分类并生成分数，并且进一步训练模型以合并最近可用的文档数据。

图6示出了可以根据各种实施方案利用的用于识别异常活动的示例过程600。在该示例中，可以监视用户关于组织文档、数据和其他此类对象的活动602。如上所述，在各种实施方案的范围内，可以监视所有用户或用户子集的活动，或者该活动的子集。可以使用主题模型来处理活动数据以确定针对用户的适当同级组604。如上所述，这可以使用经训练的RNN或分类器服务来确定，以确定表现出类似的历史和/或预测的访问模式以及其他此类选项的同级组。可以使用分类器服务来处理用户的活动以预测用户的未来活动606。如本文其他地方更详细讨论的，这可以包括使用RNN来处理原始数据或汇总数据以生成预测，然后可以使用卡尔曼滤波器或其他此类算法对所述预测进行平滑。然后可以将平滑的结果馈送到高级分类器以确定活动是否可疑或者是否应当采取动作，例如以生成安全警报。可以接收用户关于针对客户或组织存储的特定文档的最近访问或活动数据608。可以使用分类器服务(包括RNN和卡尔曼滤波器)来处理访问或活动数据610，以确定关于活动的任何方面是否都是异常到至少大于可接受的偏差量。如果确定612活动不是异常的，则该过程可以继续。然而，如果确定活动是异常的，则可以确定异常访问(和其他此类因素)的风险分数614，可以将所述风险分数与用于执行特定动作的各种规则、标准或阈值进行比较。如果确定异常行为的风险分数容许警报，例如风险分数高于指定阈值，则可以为安全团队生成警报616。可以采取各种其他动作，并在本文其他地方对它们进行了讨论和建议。如果活动不容许警报，则可以采取另一动作，例如记录异常行为的事件数据，并继续监视活动。也可以将任何活动数据反馈到RNN中，以便进一步对网络进行训练。

图7示出了可以用于处理如参考图6所讨论的访问数据的另一示例过程700。在该示例中，作为先前讨论的监视过程的一部分，检测用户活动702。为了正确地评估活动是否异常，可以确定在至少最近的时间段内用户的历史活动和用户同级组的活动704。然后可以使用例如递归神经网络(或其他神经网络分类器)来处理活动数据以确定活动是否异常706，或者以其他方式偏离预期的用户和/或同级的活动。在至少一些实施方案中，可以使用分析数据的卡尔曼滤波器在多个时间段内对RNN的结果进行平滑708。然后可以使用无监督的和/或半训练的分类器来处理平滑的结果以尝试解释异常710。分类器可以尝试从统计学上确定异常的原因，并提供可用于确定异常程度的反馈，并且进一步对分类器或RNN进行训练。然后可以至少部分地基于所提供的解释来确定适当的动作712。如上所述，动作可以包括使用用户界面、消息传递服务或其他这样的机制以及其他此类选项来安全团队生成警报。

图8示出了可用于实现各种实施方案的各方面的示例计算设备700的一组基本部件。在该示例中，该设备包括至少一个处理器802，用于执行可以存储在存储器设备或元件804中的指令。如本领域普通技术人员将明白的，该设备可以包括多种类型的存储器、数据或计算机可读介质，诸如用于由至少一个处理器802执行的程序指令的第一数据存储器、可以用于图像或数据的相同的或独立的存储器、可以用于与其他设备共享信息的可移动存储器，以及可以用于与其他设备进行共享的任何数量的通信方法。该设备可以包括至少一种类型的显示元件806，诸如触摸屏、电子墨水(e-ink)、有机发光二极管(OLED)或液晶显示器(LCD)，但设备(诸如服务器)可以经由其他方式(诸如通过光与数据传输系统)来传达信息。该设备通常将包括一个或多个联网部件808，例如能够通过至少一个网络进行通信的端口、网络接口卡或无线收发器。该设备可以包括能够接收来自用户的常规输入的至少一个输入设备810。这个常规输入可以包括例如按钮、触摸垫、触摸屏、滚轮、操纵杆、键盘、鼠标、轨迹球、小键盘或或用户可以用来向设备输入命令的任何其他这样的设备或元件。在一些实施方案中，I/O设备甚至也可由无线红外或蓝牙或其他链路连接。然而，在一些实施方案中，这样的设备可能根本不包括任何按钮且可能只通过视觉和音频命令的组合控制，使得用户可以控制设备而无需接触设备。

在本公开的一个方面，一种计算机实现的方法包括：使用训练文档集来训练主题模型，所述集中的每个训练文档具有至少一个识别的主题和指派的风险分数；使用所述训练文档集来训练随机森林回归器；对在整个电子资源环境中针对实体存储的多个文档进行爬取，以对所述多个文档进行索引；使用至少所述主题模型来确定所述多个文档中的每个文档的一个或多个主题；使用至少所述随机森林回归器来确定所述多个文档中的每个文档的风险分数；使用关于所述电子资源环境中的所述多个文档的历史活动来训练递归神经网络；使用所述递归神经网络来确定在至少一个确定的时间段内指定用户关于所述多个文档的预期活动；检测关于所述多个文档中的至少指定文档的用户活动，所述用户活动与所述指定用户相关联；使用所述递归神经网络来处理所述活动以确定所述用户活动是否偏离预期活动类型，所述确定还至少部分地基于针对所述指定文档所确定的至少一个主题；以及如果确定所述用户活动相对于所述预期活动不可接受地偏离并且所述用户活动或所述指定文档中的至少一个的风险分数至少满足警报阈值，则生成安全警报。

在本公开的其他方面，所述计算机实现的方法还包括使用卡尔曼滤波器来处理所述递归神经网络的处理结果，以分析在多个时间段内的所述用户活动，从而进一步确定所述用户活动是否相对于所述预期活动偏离超过容许量。在其他方面，所述计算机实现的方法还包括：将所述用户活动进一步与包括所述指定用户的同级组中的同级的同级活动进行比较；以及进一步基于所述用户活动相对于所述同级活动的第二偏差来确定所述用户活动是否相对于所述预期活动不可接受地偏离。在其他方面，所述计算机实现的方法还包括使用无监督分类器来确定包括所述指定用户的所述同级组，所述无监督分类器是使用关于所述电子资源环境的所述多个文档和多个用户的受监视活动数据来进行训练。

在本公开的另一方面，一种计算机实现的方法包括：使用关于代表实体存储在电子资源环境中的多个文档的历史活动来训练神经网络；使用所述递归神经网络来确定在至少一个确定的时间段内指定用户关于所述多个文档的预期活动；检测在至少确定的时间段内关于所述多个文档中的至少指定文档的用户活动，所述用户活动与所述指定用户相关联；使用所述神经网络来处理所述活动以确定所述用户活动是否偏离预期活动类型；以及如果确定所述用户活动相对于所述预期活动类型不可接受地偏离，则执行确定的动作。

在本公开的另一方面，所述计算机实现的方法还包括至少部分地基于确定的风险分数、与要执行的可能动作相关联的至少一个风险阈值来确定要执行的动作。所述计算机实现的方法动作是多个可能的动作之一，每个动作都与相应的风险分数范围相关联，所述可能的动作包括以下各项中的至少一项：生成安全警报、记录异常活动数据、或调整与所述指定用户或所述指定文档中的至少一个相关联的访问许可。所述计算机实现的方法还包括使用卡尔曼滤波器来处理所述神经网络的处理结果，以分析在多个时间段内的所述用户活动，从而进一步确定所述用户活动是否相对于所述预期活动不可接受地偏离。所述计算机实现的方法还包括使用经训练的分类器来处理所述卡尔曼滤波器处理的结果，以确定所述用户活动是否相对于所述预期活动不可接受地偏离。所述计算机实现的方法还包括：将所述用户活动进一步与包括所述指定用户的同级组中的同级的同级活动进行比较；以及至少部分地基于所述用户活动相对于所述同级活动的第二偏差来确定所述用户活动是否相对于预期的用户活动不可接受地偏离。所述计算机实现的方法还包括使用无监督分类器来确定包括所述指定用户的所述同级组，所述无监督分类器是使用关于所述电子资源环境的所述多个文档和多个用户的受监视活动数据来进行训练。所述计算机实现的方法还包括：确定与所述指定文档相关联的至少一个主题；将所述至少一个主题与和预期活动相关联的主题进行比较；以及至少部分地基于主题矢量空间中所述至少一个主题与所述和预期活动相关联的主题之间的主题距离来确定所述用户活动是否相对于所述预期的用户活动不可接受地偏离。所述计算机实现的方法公开了用户活动，所述用户活动包括以下各项中的至少一项：访问类型、访问频率、一段时间内访问尝试的总数、针对所述访问的源地址、访问的主题、访问的文档类型、所述访问的位置、访问的日期或时间，或用于获取所述访问的应用编程接口(API)调用。

在本公开的另一方面，一种系统包括：至少一个处理器；以及包括指令的存储器，所述指令在由所述至少一个处理器执行时使所述系统：使用训练文档集来训练主题模型，所述集中的每个训练文档具有至少一个识别的主题和指派的风险分数；对在整个电子资源环境中针对实体存储的多个文档进行爬取，以对所述多个文档进行定位和索引；使用至少所述主题模型来确定所述多个文档中的每个文档的一个或多个主题；确定所述多个文档中的每个文档的风险分数；以及提供与所述实体相关联的授权用户进行访问的安全信息，所述安全信息包括关于针对所述实体存储的所述多个文档的所识别的主题和风险分数的信息。所述系统公开了指令，所述指令在被执行时进一步使所述系统：检测与在所述电子资源环境中针对所述实体存储的新文档或文档变化中的至少一个对应的经更新的文档数据；以及针对所述经更新的文档数据中的每个实例来进一步训练所述主题模型。所述系统公开了指令，所述指令在被执行时进一步使所述系统：利用自然语言理解(NLU)来分析所述多个文档，以确定与所述多个文档中的每个文档相关联的一个或多个主题。所述系统公开了指令，所述指令在被执行时进一步使所述系统：确定所述多个文档中包含的多个元素，所述多个元素中的每个元素都对所述实体构成潜在的安全风险；为所述多个元素中的每个元素指派相应的风险分数；以及至少部分地基于与所述多个文档中的指定文档相关联的所述元素之一的最高相应风险分数来确定所述指定文档的风险分数。所述系统公开了指令，所述指令在被执行时进一步使所述系统：检测在所述电子资源环境中针对所述实体存储的新文档；确定与所述新文档相关联的一个或多个主题；将所述新文档指派给与具有所述新文档的所述一个或多个主题的其他文档相关联的文档桶；以及至少部分地基于所述文档桶的桶风险分数来将风险分数指派给所述新文档。所述系统公开了指令，所述指令在被执行时进一步使所述系统：通过使用经训练的主题模型来处理所述多个文档，从而使新主题被学习。所述系统公开了指令，所述指令在被执行时进一步使所述系统：使得能够或允许通过所述主题模型对文档的类型进行分类，所述文档类型特定于所述实体的行业并且不包含先前与主题相关联的内容。

如所论述，可以根据所描述的实施方案在各种环境中实现不同方法。应理解，尽管在本文给出的几个示例中，为了说明的目的使用基于Web的环境，但是在适当的情况下可以使用不同的环境来实施各种实施方案。所述系统包括电子客户端设备，其可以包括可操作以通过适当的网络发送和接收请求、消息或信息，并将信息传送回设备的用户的任何适当的设备。此类客户端设备的示例包括个人计算机、蜂窝电话、手持式消息传递设备、膝上计算机、机顶盒、个人数据助理、电子书阅读器等等。网络可包括任何适当的网络，其包括内部网、互联网、蜂窝网、局域网或任何其他此类网络或上述网络的组合。用于这种系统的部件可至少部分地取决于所选择的网络和/或环境的类型。用于通过这样的网络进行通信的协议和部件是公知的，将不在此进行详细讨论。通过网络的通信可以通过有线连接或无线连接和其组合来实现。在此实例中，网络包括互联网，因为环境包括用于接收请求并且响应于所述请求而服务内容的Web服务器，但是对于其他网络来说，可以使用服务类似目的的替代设备，如本领域的普通技术人员将显而易见。

说明性环境包括至少一个应用服务器和数据存储。应当理解，可以存在可以被链接或以其他方式配置的多个应用服务器、层或其他元件、进程或部件，其可以交互以执行诸如从适当的数据存储获取数据之类的任务。如本文所使用的，术语“数据存储”指代能够存储、访问和检索数据的任何设备或设备组合，其可包括任何标准、分布式或集群式环境中的任何组合和任何数目的数据服务器、数据库、数据存储设备和数据存储介质。应用服务器可以包括任何适当的硬件和软件，用于根据需要与数据存储集成以执行用于客户端设备的一个或多个应用的各方面，处理应用的大部分数据访问和业务逻辑。应用服务器协同数据存储提供访问控制服务，且能够产生诸如将传递给用户的文字、图形、音频和/或视频的内容，其可以在本示例中通过Web服务器以HTML、XML或另一适当结构化语言向用户提供。对所有请求和响应的处置以及客户端设备与应用服务器之间的内容递送可由Web服务器来处置。应当理解，Web和应用服务器不是必需的，并且仅仅是示例部件，因为本文中所讨论的结构化代码可以在任何适当的设备或主机上执行，如本文其他地方所讨论的。

数据存储可以包括若干个单独的数据表、数据库，或者用于存储与特定方面相关的数据的其他数据存储机构和介质。例如，所示出的数据存储包括用于存储内容(例如，生产数据)和用户信息的机制，其可用于为生产方提供内容。数据存储还被示为包括用于存储日志或会话数据的机制。应当理解，可能存在可能需要存储在数据存储中的许多其他方面，如页面图像信息和访问权信息，所述方面可视情况存储在上文列出的机制中的任意机制中或存储在数据存储中的额外机制中。数据存储可以通过与其相关联的逻辑来操作，以便从应用服务器接收指令，并且响应于所述指令获得数据、更新数据或以其他方式处理数据。在一个示例中，用户可以提交针对某种类型的物品的搜索请求。在这种情况下，数据存储可以访问用户信息来验证用户的身份，并且可以访问目录详细信息以获得有关所述类型的项目的信息。随后，可将信息诸如以网页上的结果列表的形式返回给用户，用户能够通过用户设备上的浏览器来查看所述网页。可以在专用浏览器页面或窗口中查看感兴趣的特定项目的信息。

每个服务器通常都将包括操作系统，所述操作系统提供用于所述服务器的一般管理和操作的可执行程序指令，并且每个服务器通常都将包括存储指令的计算机可读介质，所述指令在由服务器的处理器执行时可使服务器执行它的预期功能。服务器的操作系统和一般功能的合适实施方式是已知或可商购的，并且易于由本领域的普通技术人员实施，尤其是根据本文中的公开内容来实施。

在一个实施方案中，环境是利用通过通信链路、使用一种或多种计算机网络或直接连接来互连的数个计算机系统和部件的分布式计算环境。然而，本领域普通技术人员将了解，此类系统可以在具有比所示的部件更少或更多数量部件的系统中同样良好地操作。因此，本文中对系统的描绘都应被视作说明性的，而不限制本公开的范围。

各种实施方案另外可在各种操作环境中实现，所述操作环境在一些情况下可包括一个或多个用户计算机或计算设备，这些设备可用于操作多个应用中的任何应用。用户或客户端设备可以包括许多通用个人计算机中的任何一种，诸如运行标准操作系统的台式或笔记本型计算机，以及运行移动软件，并且能够支持多种联网和消息协议的蜂窝、无线和手持设备。能够生成事件或请求的设备还可以包括可穿戴计算机(例如，智能手表或眼镜)、VR头戴式耳机、物联网(IoT)设备、语音命令识别系统等。这样的系统还可以包括多种工作站，所述工作站运行多种可商购的操作系统和其他已知应用中的任一种，以用于诸如开发和数据库管理的目的。这些设备还可以包括其他电子设备，诸如虚拟终端、瘦客户端、游戏系统以及能够经由网络进行通信的其他设备。

大多数实施方案利用本领域技术人员所熟悉的至少一个网络，所述网络使用各种可商购的协议中的任何协议来支持通信，所述协议如TCP/IP、FTP、UPnP、NFS以及CIFS。网络可以是，例如，局域网、广域网、虚拟专用网、因特网、内联网、外联网、公共交换电话网、红外网络、无线网络以及其任何组合。

在利用Web服务器的实施方案中，Web服务器可运行多种服务器或中间层应用中的任何一个，Web服务器包括HTTP服务器、FTP服务器、CGI服务器、数据服务器、Java服务器和业务应用服务器。一个或多个服务器还可以能够响应于来自用户设备的请求而通过(诸如)执行一个或多个Web应用来执行程序或脚本，所述一个或多个Web应用可以被实施为以任何编程语言(诸如C、C#或C++)或任何脚本语言(诸如Perl、Python或TCL)以及其组合编写的一个或多个脚本或程序。一个或多个服务器还可包含数据库服务器，包含但不限于可商购自/>以及/>的那些服务器以及开源服务器，例如MySQL、Postgres、SQLite、MongoDB，以及能够存储、检索以及访问结构化或非结构化数据的任何其他服务器。数据库服务器可以包括基于表的服务器、基于文档的服务器、非结构化服务器、关系服务器、非关系服务器或这些和/或其他数据库服务器的组合。

环境可以包括各种数据存储以及其他存储器和存储介质，如上文所论述。这些可驻留在各种各样位置，如在一个或多个计算机本地(和/或驻留在一个或多个计算机中)的存储介质上，或在远程网络上的任何或所有计算机的存储介质上。在一组特定的实施方案中，信息可以驻留在本领域技术人员熟悉的存储区域网络(SAN)中。类似地，用于执行归因于计算机、服务器或其他网络设备的功能的任何必要文件可以在适当的情况下本地和/或远程存储。在系统包括计算机化设备的情况下，每一个这种设备都可包括可通过总线电耦合的硬件元件，所述元件包括例如至少一个中央处理单元(CPU)、至少一个输入设备(例如，鼠标、键盘、控制器、触敏显示元件或小键盘)和至少一个输出设备(例如，显示设备、打印机或扬声器)。此类系统还可以包括一个或多个存储设备，诸如磁盘驱动器、光存储设备和固态存储设备，诸如随机存取存储器(RAM)或只读存储器(ROM)，以及可移动媒体设备、存储卡、闪存卡等。

此类设备还可以包括计算机可读存储介质读取器、通信设备(例如，调制解调器、网卡(无线或有线的)、红外通信设备)以及如上文所描述的工作存储器。计算机可读存储介质读取器可以与计算机可读存储介质连接或被配置成接收计算机可读存储介质，所述计算机可读存储介质表示远程、本地、固定和/或可移除的存储设备，以及用于临时和/或更永久地含有、存储、传输和检索计算器可读信息的存储介质。系统和各种设备通常还将包括位于至少一个工作存储器设备内的多个软件应用、模块、服务或其他元件，包括操作系统和应用程序诸如客户端应用或Web浏览器。应理解，替代实施方案可以具有与上述实施方案不同的变化。例如，也可以使用定制的硬件和/或可以采用硬件、软件(包括可移植软件，诸如小应用)或两者来实现特定的元件。此外，还可以采用到诸如网络输入/输出设备之类的其他计算设备的连接。

含有代码或代码的部分的存储介质和其他非暂时性计算机可读介质可包括本领域已知或已使用的任何适合介质，如但不限于用于存储信息(如计算机可读指令、数据结构、程序模块或其他数据)的以任何方法或技术所实现的易失性介质和非易失性介质、可移动式介质和不可移动式介质，包括RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用光盘(DVD)或其他光学存储器、磁盒、磁带、磁盘存储器或其他磁性存储设备，或可用来存储所需信息且可供系统设备访问的任何其他介质。基于本文中提供的公开和教导，本领域普通技术人员将理解用于实施各种实施方案的其他方式和/或方法。

因此，应以说明性意义而不是限制性意义来理解本说明书和附图。然而，显而易见的是，在不脱离如权利要求所述的本发明的更广泛精神和范围的情况下，可以进行各种修改和改变。

Claims

1.一种计算机实现的方法，其包括：

使用训练文档集来训练主题模型，所述训练文档集中的每个训练文档具有至少一个识别的主题和指派的风险分数；

使用所述训练文档集来训练随机森林回归器；

对在整个电子资源环境中针对实体存储的多个文档进行爬取，以对所述多个文档进行索引；

使用至少所述主题模型来确定所述多个文档中的每个文档的一个或多个主题；

使用至少所述随机森林回归器来确定所述多个文档中的每个文档的风险分数；

使用关于所述电子资源环境中的所述多个文档的历史活动来训练递归神经网络；

使用所述递归神经网络来确定在至少一个确定的时间段内指定用户关于所述多个文档的预期活动；

检测关于所述多个文档中的至少指定文档的用户活动，所述用户活动与所述指定用户相关联；

使用所述递归神经网络来处理所述活动以确定所述用户活动是否偏离预期活动类型，所述确定还至少部分地基于针对所述指定文档所确定的至少一个主题；以及

如果确定所述用户活动相对于所述预期活动不可接受地偏离并且所述用户活动或所述指定文档中的至少一个的风险分数至少满足警报阈值，则生成安全警报。

2.如权利要求1所述的计算机实现的方法，其还包括：

使用卡尔曼滤波器来处理所述递归神经网络的处理结果，以分析在多个时间段内的所述用户活动，从而进一步确定所述用户活动是否相对于所述预期活动偏离超过容许量。

3.如权利要求1所述的计算机实现的方法，其还包括：

将所述用户活动进一步与包括所述指定用户的同级组中的同级的同级活动进行比较；以及

进一步基于所述用户活动相对于所述同级活动的第二偏差来确定所述用户活动是否相对于所述预期活动不可接受地偏离。

4.如权利要求3所述的计算机实现的方法，其还包括：

使用无监督分类器来确定包括所述指定用户的所述同级组，所述无监督分类器是使用关于所述电子资源环境的所述多个文档和多个用户的受监视活动数据来进行训练。

5.一种计算机实现的方法，其包括：

使用关于代表实体存储在电子资源环境中的多个文档的历史活动来训练递归神经网络；

检测在至少确定的时间段内关于所述多个文档中的至少指定文档的用户活动，所述用户活动与所述指定用户相关联；

使用至少所述主题模型来确定与所述指定文档相关联的至少一个主题；

将所述至少一个主题与和所述预期活动相关联的主题进行比较；

确定所述多个文档中的每个文档的风险分数；

使用所述递归神经网络来处理所述用户活动以确定所述用户活动是否偏离预期活动类型；

至少部分地基于主题矢量空间中所述至少一个主题与所述和所述预期活动相关联的主题之间的主题距离来确定所述用户活动是否相对于所述预期的用户活动不可接受地偏离；

如果确定所述用户活动相对于所述预期活动类型不可接受地偏离，则执行确定的动作；以及

至少部分地基于确定的风险分数、与要执行的可能动作相关联的至少一个风险阈值来确定要执行的所述动作，其中所述动作是多个可能的动作之一，每个可能动作都与相应的风险分数范围相关联，所述可能的动作包括以下各项中的至少一项：生成安全警报、记录异常活动数据、或调整与所述指定用户或所述指定文档中的至少一个相关联的访问许可。

6.如权利要求5所述的计算机实现的方法，其还包括：

将所述用户活动进一步与包括所述指定用户的同级组中的同级的同级活动进行比较；

至少部分地基于所述用户活动相对于所述同级活动的第二偏差来确定所述用户活动是否相对于所述预期的用户活动不可接受地偏离；以及

7.如权利要求5所述的计算机实现的方法，其中所述用户活动包括以下各项中的至少一项：访问类型、访问频率、一段时间内访问尝试的总数、针对所述访问的源地址、访问的主题、访问的文档类型、所述访问的位置、所述访问的日期或时间或用于获取所述访问的应用编程接口(API)调用。

8.一种系统，其包括：

至少一个处理器；以及

包括指令的存储器，所述指令在由所述至少一个处理器执行时使所述系统：

对在整个电子资源环境中针对实体存储的多个文档进行爬取，以对所述多个文档进行定位和索引；

确定所述多个文档中的每个文档的风险分数；

确定在至少一个确定的时间段内指定用户关于所述多个文档的预期活动；

处理所述用户活动以确定所述用户活动是否偏离预期活动类型，所述确定还至少部分地基于针对所述指定文档所确定的至少一个主题；

如果确定所述用户活动相对于所述预期活动不可接受地偏离并且所述用户活动或所述指定文档中的至少一个的风险分数至少满足警报阈值，则生成安全警报；以及

提供与所述实体相关联的授权用户进行访问的安全信息，所述安全信息包括关于针对所述实体存储的所述多个文档的所述识别的主题和风险分数的信息。

9.如权利要求8所述的系统，其中所述指令在被执行时进一步使所述系统：

检测与在所述电子资源环境中针对所述实体存储的新文档或文档变化中的至少一个对应的经更新的文档数据；以及

针对所述经更新的文档数据中的每个实例来进一步训练所述主题模型。

10.如权利要求8所述的系统，其中所述指令在被执行时进一步使所述系统：

利用自然语言理解(NLU)来分析所述多个文档，以确定与所述多个文档中的每个文档相关联的一个或多个主题。

11.如权利要求8所述的系统，其中所述指令在被执行时进一步使所述系统：

确定所述多个文档中包含的多个元素，所述多个元素中的每个元素都对所述实体构成潜在的安全风险；

为所述多个元素中的每个元素指派相应的风险分数；以及

至少部分地基于与所述多个文档中的指定文档相关联的所述元素之一的最高相应风险分数来确定所述指定文档的所述风险分数。

12.如权利要求8所述的系统，其中所述指令在被执行时进一步使所述系统：

检测在所述电子资源环境中针对所述实体存储的新文档；

确定与所述新文档相关联的一个或多个主题；

将所述新文档指派给与具有所述新文档的所述一个或多个主题的其他文档相关联的文档桶；以及

至少部分地基于所述文档桶的桶风险分数来将风险分数指派给所述新文档。

13.如权利要求8所述的系统，其中所述指令在被执行时进一步使所述系统：

通过使用经训练的主题模型来处理所述多个文档，从而使新主题被学习。