JP6888109B2 - インテリジェントセキュリティ管理 - Google Patents

インテリジェントセキュリティ管理 Download PDF

Info

Publication number
JP6888109B2
JP6888109B2 JP2019546873A JP2019546873A JP6888109B2 JP 6888109 B2 JP6888109 B2 JP 6888109B2 JP 2019546873 A JP2019546873 A JP 2019546873A JP 2019546873 A JP2019546873 A JP 2019546873A JP 6888109 B2 JP6888109 B2 JP 6888109B2
Authority
JP
Japan
Prior art keywords
activity
documents
document
user
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019546873A
Other languages
English (en)
Other versions
JP2020510926A (ja
Inventor
ワトソン、アレキサンダー
ブリム、ダニエル
シモンズ、クリストファー
ラドゥロビック、ポール
ブレイ、テイラー・スチュアート
ブリンクレイ、ジェニファー・アン
ジョンソン、エリック
チン、ビクター
ラスガイティス、ジャック
ツァイ、ナイチン
ゴフ、マイケル
エンガー、マックス
Original Assignee
アマゾン・テクノロジーズ、インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アマゾン・テクノロジーズ、インコーポレイテッド filed Critical アマゾン・テクノロジーズ、インコーポレイテッド
Publication of JP2020510926A publication Critical patent/JP2020510926A/ja
Application granted granted Critical
Publication of JP6888109B2 publication Critical patent/JP6888109B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/083Network architectures or network communication protocols for network security for authentication of entities using passwords
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/101Access control lists [ACL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Description

ユーザは、共有リソース環境を通じて提供され得るリモートコンピューティングリソースを用いて、ますます多くのタスクを実行するようになっている。ユーザは専用のハードウェアやソフトウェアを購入して保守する必要がなく、代わりに、いつでも利用できるリソースに対してのみ支払いをすることが可能であり、それらのリソースは、通常はリソースプロバイダによって管理されることになるので、このことは多くの利点を有する。ユーザは、リソースプロバイダが提供する各種のリソースを用いて、データの格納やアプリケーションの実行などのタスクを実行することができる。様々な組織では、それらの組織用に格納されたデータ及び文書の非常に大きなコーパスが存在し得る。特にユーザが何らかの手動分類プロセスを経ずして文書を作成し、それをリモートデータストアに格納する場合には、このような文書のそれぞれの文脈を判定することは非常に困難となり得る。さらに、このような文書の適切なセキュリティを確保することは、これらの文書毎に許可されるべきアクセスの種類に精通すること、及び要求されるアクセス許可と矛盾する可能性のあるアクセスを検出することが難しいので、困難となり得る。
本開示による様々な実施形態について、図面を参照しながら説明する。
様々な実施形態を実施することができる環境の例を示す図である。 様々な実施形態に従って利用できる、1人以上の顧客のために格納された文書及びデータを分析するのに使用できるシステムの例を示す図である。 様々な実施形態に従って利用できる、顧客文書に関しての異常行動を検出するのに使用できるシステムの例を示す図である。 様々な実施形態に従って判定されたユーザピアに関するユーザの異常行動を検出するのに使用できるシステムの例を示す図である。 様々な実施形態に従って利用できる、文書を見つけて分類するためのプロセスの例を示す図である。 様々な実施形態に従って利用できる、異常行動を検出するためのプロセスの例を示す図である。 様々な実施形態に従って利用できる、検出された行動が異常であるかどうかを判定するためのプロセスの例を示す図である。 様々な実施形態の態様を実施するために使用できるコンピューティングデバイスの構成要素の例を示す図である。
以下の記載では、様々な実施形態を説明する。説明のために、実施形態の理解の徹底を期すよう具体的構成及び詳細を述べる。しかしながら、この具体的な詳細がなくても本実施形態を実施できることが、同様に、当業者には明らかになるであろう。なお、周知の特徴事項は、説明される実施形態を不明瞭にしないために、省略し、または簡略化する場合がある。
様々な実施形態によるアプローチは、エンティティ用に格納された文書のコーパス、及び他のデータオブジェクトのデータ損失防止を提供する。コーパスを分析して、それらの文書のそれぞれについて1つ以上のトピックを判定することができる。分析には、各文書にリスクスコアを割り当てるために使用できる要素または態様の検出も含まれる。トピック及びセキュリティ要素の種類、ならびに関連リスクスコアは、例えば、トピックモデル及びランダムフォレストリグレッサを使用して、経時的に学習させ、適合させることができる。様々な文書へのアクセスを監視することができ、例えば、訓練された再帰型ニューラルネットワーク分類器または他のニューラルネットワーク分類器を使用して、ユーザの予想される行動を判定できる。実際のユーザアクティビティを監視し処理して、アクティビティが異常であるかどうか、または過度に逸脱しているかどうかを、予想されるユーザアクティビティを基準にして判定することができる。アクティビティを、経時的に学習させることもできるユーザピアのアクティビティと比較して、このアクティビティがまた、ユーザピアグループの中で異常なものであるかどうかを判定することもできる。異常行動の場合には、このアクセスに対してアラートを生成するかどうかを判定するために、アクセスされた文書(複数可)のリスクスコア(複数可)を分析することができる。生成されるセキュリティアラートの数を制限するために、リスクスコアが十分に低い場合には、リスクスコアの低い文書への異常なアクセスはログに記録するか、無視する場合さえある。トピックの割り当て、リスクスコアの判定、及びアクティビティ分類器の精度を、他のそのような態様の中でも特に向上させるために、各アクティビティ及び結果を使用してモデルを訓練し、更新することができる。
他の様々な機能を、本明細書の他の箇所で説明し、提案するのみならず、様々な実施形態の範囲内で実施することもできる。
図1は、様々な実施形態の態様を実施することができる環境100の例を示す。この例では、ユーザがクライアントデバイス102を利用して、少なくとも1つのネットワーク104越しに、リソースプロバイダ環境106に要求を送信することができる。クライアントデバイスは、適切なネットワークを通じて要求、メッセージ、または他のそのような情報を送受信し、デバイスのユーザに情報を伝達し返すように動作可能ないずれかの適切な電子デバイスを含み得る。上記のクライアントデバイスの例としては、パーソナルコンピュータ、タブレット型コンピュータ、スマートフォン、ノート型コンピュータなどがある。少なくとも1つのネットワーク104は、イントラネット、インターネット、セルラネットワーク、ローカルエリアネットワーク(LAN)、または他のいずれかのそのようなネットワークもしくは組合せを含む、いずれかの適切なネットワークを含んでもよく、ネットワークを通じた通信は、有線接続及び/または無線接続を介して可能にすることができる。リソースプロバイダ環境106は、要求を受信し、それらの要求に応答して情報を返し、またはアクションを実行する、いずれかの適切な構成要素を含み得る。一例を挙げると、プロバイダ環境は、要求を受信し、処理し、次いでその要求に応答して、データ、ウェブページ、ビデオ、音声、または他のそのようなコンテンツもしくは情報を返すためのウェブサーバ及び/またはアプリケーションサーバを含んでもよい。
様々な実施形態では、プロバイダ環境は、多種多様な目的のために、複数のユーザが利用できる各種のリソースを含み得る。少なくとも一部の実施形態では、所与のリソースの全部もしくは一部、またはリソースセットが、少なくとも定められた期間にわたって特定のユーザに割り当てられ、または特定のタスクのために割り当てられ得る。プロバイダ環境からのこれらのマルチテナントリソースの共有は、他にも同様の用語はあるが特に、リソース共有、ウェブサービス、または「クラウドコンピューティング」と呼ばれることが多く、特定の環境及び/または実施態様に依存する。この例では、プロバイダ環境は、1種類以上の複数のリソース114を含む。これらの種類には、例えば、ユーザによって提供された命令を処理するように動作可能なアプリケーションサーバ、またはユーザ要求に応答して1つ以上のデータストア116に格納されたデータを処理するように動作可能なデータベースサーバが含まれ得る。そのような目的について知られているように、ユーザは、所与のデータストア内のデータストレージの少なくとも一部を確保しておくこともできる。ユーザが、様々なリソース及びリソースインスタンスを確保できるようにする方法は、当技術分野ではよく知られており、したがって、処理全体の詳細な説明、及び可能な全ての構成要素の説明については、本明細書では詳しく扱わないことにする。
少なくとも一部の実施形態では、リソース114の一部を利用したいユーザが要求を送信することができ、この要求はプロバイダ環境106のインタフェース層108に受信される。インタフェース層は、ユーザがプロバイダ環境に要求を送信できるようにするアプリケーションプログラミングインタフェース(API)または公開された他のインタフェースを含み得る。この例のインタフェース層108は、少なくとも1つのウェブサーバや、ルーティング構成要素、負荷分散装置などの他の構成要素を含むこともできる。リソースを提供させる要求がインタフェース層108に受信されるとき、その要求のための情報は、リソースマネージャ110、またはユーザアカウント及びユーザ情報、リソースプロビジョニング及びリソース使用状況、ならびに他のそのような態様を管理するように構成された他のそのようなシステム、サービス、もしくは構成要素に向けられ得る。要求を受信するリソースマネージャ110は、要求を送信するユーザの本人認証を行うと共に、そのユーザがリソースプロバイダに既存のアカウントを有しているかどうかを判定するなどのタスクを実行することができ、そこでアカウントデータは、プロバイダ環境内の少なくとも1つのデータストア112に格納され得る。ユーザは、ユーザの本人認証を行うために、プロバイダに各種の認証情報のいずれかを提供することができる。それらの認証情報には、例えば、ユーザ名及びパスワードの組、生体データ、デジタル署名、または他のそのような情報が含まれ得る。プロバイダは、この情報をユーザ用に格納された情報と照らし合わせて検証することができる。ユーザが適切なアクセス許可、状態などを付与されたアカウントを有する場合に、リソースマネージャは、ユーザの要求に適合し得る十分なリソースが有るかどうかを判定することができ、リソースが有る場合は、リソースを提供するか、または別の方法で、それらのリソースの要求によって指定された量のリソースをユーザが使用できるように、リソースの対応する部分へのアクセスを許可することができる。この量としては、例えば、他にも同様の値はあるが、単一の要求を処理する記憶容量、もしくは単一のタスクを実行する記憶容量、指定された期間、または繰返し期間/更新可能期間があり得る。ユーザがプロバイダに有効なアカウントを持たず、ユーザアカウントが、要求内に指定された種類のリソースにアクセスできるようにせず、または別のそのような理由により、ユーザにそのようなリソースへのアクセスを取得させないようにしている場合には、他にも同様の選択肢はあるが、とりわけ、ユーザがアカウントを作成しもしくは修正し、または要求で指定したリソースを変更したりできるようにする通信がユーザに送られてもよい。
ユーザが認証され、アカウントが検証され、リソースが割り当てられると、ユーザは、指定された容量、データ転送の量、期間、または他のそのような値の割り当てられたリソース(複数可)を利用することができる。少なくとも一部の実施形態では、ユーザは、後続の要求がユーザセッション上で処理されることを可能にするために、セッショントークンまたは他のそのような認証情報をそれらの要求と共に提供してもよい。ユーザは、リソース識別子、特定アドレス、またはクライアントデバイス102が、リソースマネージャ110と通信する必要なしに、割り当てられたリソースと通信することを可能にする他の情報を、少なくとも、ユーザアカウントの関連する態様が変更されるか、ユーザがリソースへのアクセスをもはや許可されなくなるか、または別のそのような態様が変更されるかといった時まで受信することができる。
この例のリソースマネージャ110(または別のそのようなシステムもしくはサービス)は、管理アクションに加えて、プロビジョニング、スケーリング、レプリケーションなどを含み得る制御機能を取り扱うハードウェア構成要素及びソフトウェア構成要素の仮想層として機能することもできる。リソースマネージャは、インタフェース層108内の専用APIを利用することができ、そこでは各APIが、インスタンスのプロビジョニング、スケーリング、クローニング、またはハイバネーションを行うなどのために、データ環境に関して実行すべき少なくとも1つの特定のアクションについての要求を受信するように提供され得る。APIのうちの1つへの要求を受信すると、インタフェース層のウェブサービス部分は、呼出しに対応し、または呼出しを処理するために必要なステップまたはアクションを判定する要求を構文解析し、または別の方法で分析することができる。例えば、データリポジトリを作成する要求を含むウェブサービス呼出しが受信されてもよい。
少なくとも1つの実施形態のインタフェース層108は、様々なAPIを提供し、API仕様に基づいて適切な応答を返すことができるスケーラブルな顧客対応サーバのセットを含む。インタフェース層は、1つの実施形態では、外的に対面している顧客APIを処理するステートレスな複製サーバで構成される少なくとも1つのAPIサービス層を含むこともできる。インタフェース層は、認証情報に基づいた顧客の認証、顧客の承認、APIサーバへの顧客要求の制限、ユーザ入力の検証、ならびに要求及び応答のマーシャリングまたはアンマーシャリングなどのウェブサービスフロントエンド機能を担当することができる。API層は、API呼出しに応答して、管理データストアからのデータベース構成データの読取り/管理データストアへのデータベース構成データの書込みを担当することもできる。多くの実施形態では、ウェブサービス層及び/またはAPIサービス層は、外部から見える唯一の構成要素であり、または制御サービスの顧客に見え、制御サービスの顧客によってアクセス可能な唯一の構成要素である。ウェブサービス層のサーバは、当技術分野で知られているように、ステートレスであり、水平方向にスケーリングすることができる。例えば、サーバが単一のデータセンタの障害に対応できるように、APIサーバと永続データストアとを地域内の複数のデータセンタに散在させることができる。
すでに述べたように、そのような環境により、組織が、インターネットなどのネットワークを通じて、コンピューティングリソースを取得し構成して、様々な種類のコンピューティング操作を実行できるようになる(例えば、スレッド、プログラム、ソフトウェア、ルーチン、サブルーチン、プロセスなどを含むコードを実行する)。したがって、開発者は、物理マシンを入手することを心配することなく、必要な量のコンピューティングリソースを迅速に購入するか、または別の方法で入手することができる。そのようなコンピューティングリソースは、通常、仮想コンピューティングリソースまたは仮想マシンインスタンスの形で購入される。これらの仮想マシンのインスタンスは、独自のオペレーティングシステムと他のソフトウェア構成要素とを備えた物理コンピューティングデバイスでホストされ、物理コンピュータと同じようにして利用できる。
大規模な組織では、そのような環境全体に何百万もの(またはそれ以上の)文書及びデータオブジェクトが格納されている場合がある。そのような組織では、様々な文書及びオブジェクトの、特にそれらが更新されたときのコンテンツ、ならびに各文書及びオブジェクトに適用されるアクセスポリシ、アクセス許可ポリシ、またはセキュリティポリシを判定するなど、文書を管理することが困難な場合がある。さらに、組織にとって潜在的に危険または有害である可能性のある異常行動がいつ発生するかを判定するために、これらの文書について適切なユーザ行動を判定することは非常に困難であり得る。特定のキーワードまたはパターン(例えば、社会保障番号、クレジットカード番号、または医療記録)を検索するなど、利用できる従来の様々なセキュリティ機構があるが、その機構は限定的であり、誤検知や失敗の傾向がある。
そのため、様々な実施形態によるアプローチは、顧客または他のそのようなエンティティのために格納された様々な文書、データオブジェクト、及び他のそのようなオブジェクト(以降、簡略化するためにしばしば単に「文書」と呼ぶ)を自動的に分析して、それらの文書のそれぞれについて1つ以上のトピックを判定しようと試みることができる。分析には、各文書にリスクスコアを割り当てるために使用できるセキュリティ要素の検出も含まれる。トピック及びセキュリティ要素の種類、ならびに関連リスクスコアは、例えば、ニューラルネットワーク、モデルセット、訓練されたリグレッサ、または他のそのような機構を使用して、経時的に学習させ、適合させることができる。様々な文書へのアクセスを監視することもでき、例えば、再帰型ニューラルネットワークを使用して、ユーザの予測される行動または予想される行動を判定できる。実際のユーザアクティビティを監視し処理して、アクティビティが異常であるかどうかを、予想されるユーザアクティビティを基準にして判定することができる。アクティビティを、経時的に学習させることもできるユーザピアのアクティビティと比較して、このアクティビティがまた、ユーザピアグループの中で異常なものであるかどうかを判定することもできる。異常行動の場合には、このアクセスに対してアラートを生成するかどうかを判定するために、アクセスされた文書(複数可)のリスクスコア(複数可)を分析することができる。生成されるセキュリティアラートの数を制限するために、リスクスコアが十分に低い場合には、リスクスコアの低い文書への異常なアクセスをログに記録するか、無視する場合さえある。トピックの割り当て、リスクスコアの判定、及びアクティビティ分類器の精度を、他のそのような態様の中でも特に向上させるために、各アクティビティ及び結果を使用してモデルを訓練し、更新することができる。
様々な実施形態に則った実施形態は、文書、データ、及び他の知的財産を侵害及び盗難から保護するのに役立ち得るデータ損失防止サービスを提供することができる。そのようなサービスプロバイダのアカウントを有した、少なくとも一部の実施形態ではマルチテナントリソース環境を提供するリソースプロバイダでもある顧客は、格納されている顧客の文書に関する情報を取得するために、様々なツールとインタフェースとを利用することができ、それらの文書に関して検出された異常行動または危険行動に関するレポートまたはアラートを受け取ることができる。これは、多くの場合「クラウド」のストレージと呼ばれる、そのようなマルチテナント環境またはリソースプロバイダ環境に格納されている文書を保護するのに役立ち得る。
いくつかの実施形態では、そのようなサービスは、電子メール、文書、及びスプレッドシートなどの顧客の知的財産、ならびに関連データ及び他のオブジェクトを探して追跡するために、人工知能(AI)または機械学習を利用することができる。いくつかの実施形態では、これには、顧客ネットワークを介して格納される文書もまた含まれ得る。そのようなサービスでは、各文書またはデータのトピック、ビジネス関連性、及び価値などの情報を理解するために、自然言語処理(NLP)を活用することができる。サービスは、各文書のリスクレベルまたはリスクスコアを判定することもできる。サービスは、異常行動またはデータとの異常な関わりを識別して表面化させ、潜在的な侵害または攻撃を顧客に警告することができる。例えば、顧客サービス担当者が外部IPアドレスから機密の人事ファイルにアクセスしようとすると、サービスはこのアクティビティを異常であると識別し、アラートを生成し得る。少なくとも一部の実施形態では、サービスは、そのような各文書にリスクスコアまたはセキュリティレベルを割り当てることもできる。これにより、アラートを生成するかどうかの判定を、アクセスされた文書(複数可)のリスクスコア(複数可)に少なくとも部分的に基づかせることができる。
様々な実施形態では、データ損失防止システムまたはサービスは、トピックモデリングを利用することができる。利用されまたは生成されるトピックモデルは、文書及びトピックのクラスタを見つけることができる潜在的ディリクレ配分法(LDA)などのいずれかの適切な技術に基づくことができる。トピックモデリングでは、観測されていないグループによって観測の結果セットが説明されるようにするために、様々な生成統計手法を活用することができ、これはデータの一部が類似していると判定される理由を説明するのに役立ち得る。これは、データの大きなコーパスにわたってトピックのセットを識別する教師なし分類器としての従来の使用法とは異なり、代わりに、ユーザが通常アクセスする種類のデータを個別に、ユーザのピアに関して分類するために使用される。そのようなアプローチは、組織のデータに関する特定の知識を必要とせず、代わりに、特定のユーザまたはピアグループがコーパス全体のサブセットとして通常アクセスするトピックのセットを作成し、維持することができるという利点をもたらす。同様に、後に処理される文書のリスクスコアを判定することができるようにするために、リスクスコアが割り当てられた訓練用文書を使用して、ランダムフォレストリグレッサなどの分類器を訓練することができる。訓練されたリグレッサは、ラベル付きデータセットを含む文書を受信し、本明細書の他の箇所で説明されているように、対応するリスクスコアを提供することができる。
上記のデータ損失防止サービスは、一定の期間にアクセスされた文書の量、頻度、またはその他のメトリック(複数可)を、ユーザ及び少なくとも一部の実施形態ではユーザのピアに合わせて訓練される再帰型ニューラルネットワークへの入力として利用することができる。少なくとも一部の実施形態では、ピアグループは、組織構造(すなわち、組織図)に基づいて自動的に判定され、及び/またはアクセスされた文書またはトピックの種類、それらのアクセスの頻度などの情報を分析することによって学習され得る。ピアグループの例には、例えば、特定の方法でリソースにアクセスする可能性が高いソフトウェア開発者または人事担当者のグループが含まれ得る。このピアのアクティビティと、ユーザが頻繁に対話する他のピアのアクティビティとは、アラートを生成すべき不審なアクセスを判断するために、ユーザが対話するであろうトピックの種類や文書の量などの情報を予測するのに役立ち得る。
一実施形態では、就業日にユーザがアクセスする文書を、追跡し、監視し、または別の方法で判定することができる。トピックモデルは、組織全体のデータコーパスの処理に基づいて、訓練され、更新される。組織全体にわたって各文書には、1つ以上のトピックで構成されるラベルを付けることができる。ユーザは、対話するデータの種類、及び組織構造やその他の情報に少なくとも部分的に基づいて、ピアグループにクラスタ化することができる。ユーザが様々な文書と対話するとき、アクセスされる文書及びトピックの数は、過去の基準値に基づいて将来のアクティビティを予測できる逆伝播を用いた教師なし分類器への入力として送り込まれる。ユーザが、予測されるアクセスの種類または頻度、及び少なくとも一部の実施形態でのピアグループのアクセスの種類または頻度から、判定された量よりも大きく逸脱した(すなわち、閾値または最大許容量を超えた)場合、ニューラルネットワークは、逸脱を検出し、セキュリティグループまたは他の適切なエンティティ向けにアラートを生成することができる。
いくつかの実施形態では、再帰型ニューラルネットワーク(RNN)を使用して、ユーザ行動をモデル化し、組織のリスクを示す基準に設定されたアクティビティの増加または減少に対して警告することができる。このようなRNNベースのアプローチ(または階層型時間メモリベースのアプローチなどの他のアプローチ)は、個別に、及び1つ以上のユーザピアグループに関して、数百以上のユーザアクティビティの特徴を同時に評価するなどの利点を提供することができる。ただし、様々な状況で従来のニューラルネットワークは、重要な洞察(モデルのイントロスペクション)や、または特定のユースケースの性能を向上させるように結果の出力を容易に調整する能力をユーザに提供しない。したがって、様々な実施形態によるアプローチは、RNNによって一緒に評価される個々の入力を視覚化する能力、及びニューラルネットワークがその入力の経時的な変化に大方反応するように出力を平滑化する能力を提供する。少なくとも一部の実施形態では、平滑化は、ニューラルネットワークからの個々の特徴予測に適用することができるカルマンフィルタベースの平滑化関数の使用により達成することができ、その後、それらの予測を、関数が異常であるかどうかを判定する上位の分類器によって評価することができる。そのようなアプローチは、重み付けを調節する能力と、ユーザアクティビティを予測するためにニューラルネットワークに入る特徴毎の組合せの応答とを提供する。これは、精度及びリコールの性能を劇的に向上させるとともに、普通なら性能に影響を与え得るノイズの多い特徴やコーナーケースの影響を特定して軽減するのに役立つことができる。
図2は、様々な実施形態による、クローリングや文書分析などの機能を実行するのに利用できるシステム200の例を示す。参照番号は、説明を簡略化する目的で、図面間で同様のオブジェクトを表すために持ち越される場合があるが、そのような使用法は、特に別段の指示が無い限り、様々な実施形態の範囲の制限として解釈されるべきではない。図1の環境と同様に、顧客は、ここでは顧客コンソール102を操作するクライアントデバイスを利用して、少なくとも1つのネットワーク104越しに、リソースプロバイダ環境106のリソースにアクセスすることができる。すでに述べたように、これは、他にも同様の選択肢はあるが、とりわけ、顧客データを少なくとも1つのデータリポジトリ214に格納することや、文書を少なくとも1つの文書ストア212に格納することなどに使用できる。いくつかの実施形態では顧客は、顧客のために格納された様々なデータ及び文書へのアクセスを制御するために、顧客コンソール102を利用して、アクセスマネージャ208または他のそのようなシステムもしくはサービスによって利用できるセキュリティ設定を指定することができる。本明細書の別の箇所で詳細に説明するように、ユーザが特定のデータまたは文書にアクセスできるようになる前に、様々なセキュリティポリシを実施して、特定のアクセス許可、認証情報、ロール、または他のアクセス基準を満たす必要がある。アクティビティモニタ204などのサービスは、様々なユーザによる様々な文書及びデータへのアクセスを監視し、アクティビティログ206または他のそのようなリポジトリなどの場所に情報を格納することができる。セキュリティマネージャ202は、アクセスマネージャ208及び/またはアクティビティモニタ204と連携して、潜在的に不審な行動の存在を判定することができ、次いでそれを顧客コンソール102に報告するか、さもなければアラートまたは通知として提供することができる。少なくとも一部の実施形態では、生成されるアラートの種類、アラートを生成する行動の種類、及び他のそのような情報を判定するために、顧客コンソール102を使用して、セキュリティマネージャ202にセキュリティ設定またはセキュリティ選択を提供することもできる。
少なくとも一部の実施形態では、組織などの顧客のために、データストア214及び/または文書ストア212に格納された任意のコンテンツが存在し得る。少なくとも一部の実施形態では、このコンテンツを分析して、顧客のために格納されたデータ、文書、及び他のオブジェクトの種類を可視化することが望ましい場合がある。この例では、クローラ210を使用して、顧客のために格納されている様々な文書(及び他のデータなど)を探し出して分析することができる。クローラは、データの内容を探し出し、解析し、評価する目的で、データに含まれる単語、数字、文字列、またはパターンを分析するなど、様々なデータクロールアルゴリズムを含むことができる。クローラ210はまた、各文書に1つ以上のトピックを割り当てるなど、様々な文書を分類することができる分類器アルゴリズムを含むか、またはそれと連携することができる。クローラ210はまた、文書毎(または少なくとも文書のサブセット)にリスクスコアを判定することができる1つ以上のリスク評価アルゴリズムを含むか、またはそれと連携することができる。少なくとも一部の実施形態では、リスクスコアは、正規表現の様々なメトリックの複合物であり得、文書内の様々なトピック及びテーマの存在に少なくとも部分的に基づいたものであり得る。そのようなアプローチの1つの利点は、顧客が顧客コンソール102または別のそのような機構を利用して、顧客用に格納されているコンテンツの種類、及びそのコンテンツと関連したリスクを可視化できることである。少なくとも一部の実施形態では、顧客は、コンテンツ、ならびに割り当てられたトピック及びリスクスコアを調べ、顧客が適切と考える調節を行う能力を有することもできる。その場合、これらの調節を用いて、特徴分類及びスコア判定を改善するために、ニューラルネットワークをさらに訓練することができる。少なくともいくつかの実施形態では、顧客は、様々な文書へのアクセスのパターンまたは種類、特定の文書またはトピックにアクセスするユーザまたはピアグループのリスト、特定のリスクスコア付きの文書などを調べることもできる。
一実施形態では、クローラ210は、既知の文書と教師なし分類との組合せを用いて、全コンテンツを分類する。分類された文書の初期セットを、初期訓練セットとして提供することができる。これらの文書には、リスクスコアを割り当てることもでき、または他の同様の選択肢の中でも特に、訓練用の初期リスク基準を提供することができる。初期データを用いてニューラルネットワークを訓練し、その後、データのコーパスを用いて教師なし分類を提供することができる。そのようなアプローチにより、業界固有のコンテンツを認識し、分類できるようにし、適切なリスクスコアを判定することができるようになる。文書を分類するための従来のアプローチでは、社会保障番号やクレジットカード番号などの特定のコンテンツを探し、ユーザがその情報にアクセスするといつでも警告することができる。様々な実施形態によるアプローチは、代わりに、以前に遭遇したことがなく、または分類されていない、医薬品データなどの業界固有のコンテンツデータを含み得るコンテンツを、動的に分類する能力を提供する。コンテンツについて学んだこと、及び他の関連コンテンツがどのように採点されるかに基づき、トピックを判定し、リスクスコアを割り当てることができる。例えば、類似した頻度でピアによってアクセスされる文書のスコアを使用して、これらの文書のリスクスコアを推定することもできる。分類器は、特定のコンテンツの分離とラベル付けとを試み、その後、割り当てるべき適切なリスクスコアを判定することができる。少なくとも一部の実施形態では、様々な行動分析を利用して、文書に関する基準のユーザアクティビティを判定することができ、これを使用してリスクスコアを判定することができる。様々な実施形態は、製薬文書を企業内のごく少数の人々のみがアクセスできるものとして認識することなどにより、企業のリスクを示す文書の特徴を分離させることもできる。これは、リスクスコアやアクセスパターンなどを生成する際に使用するデータの種類と関連トピックとを学習するのに役立ち得る。
一例では、クローラ210は、顧客と関連した全ての文書(及び他のデータ)にインデックスを付けることができる。クローラ210は、文書のコンテンツ、及びそれらの文書のアクセスパターン履歴を分析することもできる。アクセスパターン履歴には、オープン、読取り、更新、ログイン、管理イベントなどに関する情報が含まれ得る。いくつかの実施形態では、文書を分類し、及び/またはそのような他の分類を実行するのに使用できるトピックモデルを構築するために、過去6ヶ月などのある期間にわたって判定された全てのアクセスデータを利用することができる。この例では、クローラは、トピックモデリングを利用し、テキストコンテンツの様々なインスタンスを分類する方法に関しての洞察を提供する。いくつかの実施形態では、分類を容易に判定できるように、トピックデータをトピックデータストア216に格納し、一方様々な文書の分類データを、文書自体に格納し、または文書を参照する分類データストア218もしくはテーブルに格納する。
図3は、様々な実施形態による、分類された文書に対しての異常行動を判定するために使用できるシステム300の例を示す。前の例と同様に、このシステムは、システムのユーザによる様々な文書、データ、及び他のオブジェクトへのアクセスを監視できるアクティビティモニタ204を含み得る。情報は、ログデータストア206などの場所か、またはそのような他の場所に格納することができる。各アクティビティの情報は、他にも同様の選択肢はあるが、とりわけ、分類器サービス302に送り込まれるか、または分類器サービスによってアクティビティキューから取り出され得る。いくつかの実施形態では、アクティビティデータを個別に処理することができるが、他の実施形態では、ニューラルネットワークの訓練が過剰にリソースを消費することなどを防ぐために、データを32個のアクティビティエントリのバッチに分けるなど、数回に分けて処理してもよい。いくつかの実施形態では、ある期間にわたるユーザアクティビティの集合または集約を処理することができ、これは、生データを使用するよりもコスト及びリソースを効率化し得る。例えば、ユーザの全てのサービスインタラクションは、オープンソースのクラスタコンピューティングフレームワークであるApache Sparkなどの技術を使用して集約することができる。
この例では、アクティビティデータが分類器サービスに受信され、再帰型ニューラルネットワーク(RNN)によって処理される。様々な実施形態の範囲内で、他のタイプのニューラルネットワーク(すなわち、畳み込みネットワークまたは敵対的生成ネットワーク)も同様に使用できることを理解されたい。アクティビティデータは、最初に分類器サービスのRNNによって処理されて、判定された将来の期間にわたる様々なユーザのアクティビティを予測することができる。この情報は、訓練を受けたRNNにより、他にも同様の選択肢はあるが、とりわけ、ユーザの過去の行動やユーザのピアの行動などの情報に基づいて判定され得る。予測または予想される行動データは、行動データストア310またはそのような他の場所に格納することができる。再帰型ニューラルネットワークを使用する利点は、ネットワークが多数のユーザ及び文書にわたる経時的な使用パターンを認識し、それらのパターンに基づいてユーザが今後どのように行動し得るかを予測するように学習できることである。再帰型ニューラルネットワークは、特定のデータへの頻繁なアクセスまたは不定期のアクセスに対して、誤検知アラートが生成されないことを確実にするために、通常なら不審であるように見える正常なアクティビティパターンを学習することもできる。RNNは、パターンからの逸脱を不審なものとして、より正確にフラグを立てることができるように、それらのパターンを非常に良く認識することができる。RNNは、多数の特徴を同時に分析することもでき、したがって、データソースの特徴のセットを分析のために一緒に組み合わせることができる。RNNは監視なしの設備能力で利用できるので、ネットワークはデータに適応できる。これは、アクセスパターンの変化に適応し、通常なら検出されない可能性のある様々な種類の攻撃を特定するのに役立ち得る。
後続のアクティビティが検出されると、その情報を分析のために分類器サービス302に送り込むことができる。アクティビティデータをRNNで処理して、アクティビティのいずれかが予想された行動から外れているかどうかを、不審であるとラベル付けされるような方法で、識別することができる。いくつかの実施形態では、予想された行動から逸脱した場合に、アクティビティが不審であると判定されるための様々な閾値、値、または範囲があり得、一方、他の実施形態では、RNNは、他の同様の選択肢の中でも特に、変動分を予想し、こうした種類のアクティビティのみを不審であるとしてフラグを立てるように訓練することができる。また一方、特定の期間での使用が不審なように見えるが、別の時間帯では不審に見えない場合があり得る。例えば、ユーザは通常、特定の文書に1時間に10回アクセスするが、通常は5分間に10回、その文書にアクセスすることはない。5分間の使用が不審な場合であっても、必ずしも長期間の使用が不審であるとは限らない。したがって、様々な実施形態によるアプローチは、カルマンフィルタまたはそのような他のアルゴリズムを利用することなどにより、RNNの結果を平滑化しようと試みてもよい。カルマンフィルタは、ノイズ及び他の不正確さを含み得る経時的に観測された測定のセットに基づき、線形2次推定を生成するのに使用されて、単一期間のみに基づき得る、より正確な推定を生成する。カルマンフィルタは、他にも同様の選択肢はあるが特に、ユーザ行動を予測するとき、及び特定のアクティビティが不審なものか、それとも予測された行動の許容範囲外であるかを判定するときに使用できる。一例では、カルマンフィルタは、複数の期間にわたって、ダウンロードした文書の数、またはAPI呼出しの数など、特定ユーザのアクティビティの時系列を取得する。多少の訓練をすれば、異なる時系列にわたる結果をカルマンフィルタで平滑化して、普通ならRNNのみで生成されるであろうよりも有効な予測を生成することができる。少なくとも一部の実施形態では、RNN及びカルマンフィルタを同時に使用することができ、RNNは、カルマンフィルタによって平滑化される個々の特徴予測を生成する。その後、平滑化された結果を訓練された(高レベル)分類器アルゴリズムに提供することができ、最終的にこの分類器アルゴリズムは、アクティビティが、アラームを生成すべきか、またはそのような他のアクションを実行すべきかのような、不審なものであるのかどうかを判定することができる。
予測は、過去及び予想された行動、またはユーザ及びユーザのピアに基づいて、特定のステップまたは時点で行うこともできる。平滑化プロセスは信頼区間を提供することもでき、これにより、期待値からの合理的な逸脱を判定して、誤検知をさらに抑えるのに役立つ。いくつかの実施形態では、ユーザの予想されるアクティビティと実際のアクティビティとの間のエラーを累積し、時系列にわたるエラーの集計を分析して、不審なアクティビティを表し得る過度に大きなエラー値を有したユーザを特定することができる。したがって、アラートを、特定の不審なアクティビティか、またはユーザの全体に対して、個々に対して、もしくはそのユーザのピアに関して不審と思われるアクティビティに対して生成することができる。いくつかの実施形態では、ピアのグループによって経験され、したがってそのピアグループの個々のユーザに代わる不審なアクティビティとなる可能性が低い、予想しない変動分を説明するために、エラースコア総計がユーザのピアと比較され、ピアスコアから閾値を超えて逸脱したエラースコアが不審なものであると報告されてもよい。いくつかの実施形態のセキュリティコンソール312は、他の同様の選択肢の中でも特に、後続の分析のためにアラートまたは少なくともストア情報をアラートデータストア314に提供するために、不審なアクティビティについての通知を受けることができる。
図4は、図3のシステムの構成要素のサブセットを含むシステム400を示しており、これは様々な実施形態に従ってピアグループを判定するのに使用することができる。すでに述べたように、少なくとも一部の実施形態では、ユーザのアクティビティは、ユーザのピアのアクティビティ、及びピアグループ内の他のユーザの行動に関して判定された不審な行動に少なくとも部分的に基づいて予測できる。これらのピアグループは、組織構造などの既知の情報に基づいて判定できるが、ピアは、アクセスされる文書の種類、そのアクセスのパターン及び頻度、ならびにそのような他の情報を学習することによって、経時的に判定することもできる。例として、分類器またはクローラは、Windows(登録商標)イベントデータ、AWS CloudTrail、VPCフロー、Apache、及びIISなどの複数のソースコード言語及びログ形式を識別できる場合がある。分類器またはクローラは、MySQL、MSSQL、及びMongoDBなどの様々なデータベースバックアップ形式、ならびにSEC文書やFDA届出書などの規定形式を識別することもできる場合がある。
いくつかの実施形態では、組織構造からのマッピング及び判定を、RNNへの初期入力として使用することができる。利用実態に即したアクティビティデータを分析するRNNは、システム内に見られる行動の種類に関してピアであるユーザを判定することもできる。したがって、ユーザは、複数のピアグループに属す場合もあれば、経時的に学習される特定のピアグループ、及びいずれかの特定の組織構造または組織呼称の外部に属す場合もある。一部の実施形態では、ピアグループは重み付けされてもよく、他の実施形態では、任意のピアグループに対して不審なアクティビティがアラームを生成し得る一方で、他の実施形態では、アクティビティはアラームが生成される前に全てのピアグループに対して不審な(他の要因がない)必要がある。すでに述べたように、分類器サービス302の一部としてアクティビティデータに合わせて訓練を受けた分類器は、経時的な観察された行動に基づいてピアグループを判定し、更新することができる。アクティビティの類似性により、特定のユーザ402を、ピア404と共に第1のピアグループにグループ化するが、実質的に異なる行動のアクティビティパターンを持つ別個のピアグループのピア408とは関連付けないようにすることができる。ピアグループの数は、制限される場合もあれば無制限の場合もあり、これは、判定の精度に影響を与える可能性がある。ただし、比較のために確実に安定したアクセスパターンを得するためには、グループ内に少なくとも最小数のユーザが必要になる場合がある。さらに、特にユーザが無制限の数のグループに属している場合に、多数のピアグループは、潜在的に過剰なリソース使用を引き起こす可能性がある。
評価されるアクティビティパターンは、少なくとも一部の実施形態では、アクセスされる文書とアクセス数とに限定されず、アクセスのパスや種類などの情報を含むこともできる。例えば、読取りアクセスと書込みアクセスとを区別することができる。さらに、特定のリソース、またはIPアドレス、またはアドレス範囲からの呼出しも分析できる。少なくとも一部の実施形態では、RNNは、アクティビティの追加の態様または他の態様を考慮して調整することができ、場合によっては、RNNは、予想されるアクセスまたはアクティビティの種類を表し得るアクティビティに関する情報を学習することが可能とされる。少なくとも一部の実施形態では、これらの特徴のそれぞれの信頼レベルを個別に調整することもでき、その結果、特定のIPアドレスまたは地理的領域からの要求の要件は、ユーザが通常はアクセスしないような文書の種類以上に変化する可能性がある。これにより、このアクティビティが異常である可能性があり、購入がユーザ基盤全体で頻繁に発生する可能性があり、さもなければ誤検出のアラームが多数発生する可能性があるときに、ユーザはアラートを生成することなく、少なくとも特定の範囲内でIPアドレスを変更できる。ユーザは、特定の特徴に対して生成されるアラートの数を調節するために、個々の特徴の信頼値または閾値を調節することができる。したがって、ユーザが実際には問題のない特定の種類のアラートを、あまりにも多く受け取る場合には、ユーザは、その特定の特徴についての極端な逸脱のみがアラームを生成するように、閾値または信頼水準を調節することができる。
いくつかの実施形態では、文書をバケットにグループ化することができ、それによって、重要度及びリスク値を、様々なバケットに割り当てることができる。たとえば、人事(HR)文書を、あるバケットにグループ化してもよく、一方、医療記録を別のバケットにグループ化してもよい。このグループ化は、オフラインでかつ手動で実行することができ、またはグループ化は、他の選択肢や組合せの中でも特に、経時的に学習させることができる。そのようなアプローチにより、バケット内の全ての文書に、同様のリスクまたは重要度の値が割り当てられるようにすることができるが、それぞれの適切なリスクまたは重要度のスコアを個別に判定することは困難であり得る。いくつかの実施形態では、バケットスコアは、各文書内に含まれる高スコアの情報を用いて個々の文書スコアを判定することができるため、その中に含まれる各文書の最小リスクスコアとすることができる。少なくとも一部の実施形態では、文書に割り当てられたリスクスコアは、文書内のいずれかの要素について判定された最高のリスクスコアに等しい。例えば、リスクスコアは、1(低リスク)から10(非常に高リスク)の間で割り当てることができる。HRバケット内のHR文書のリスクスコアは5であるが、特定の文書にリスクスコア8の社会保障番号が含まれている場合は、その特定の文書のスコアは8になる。そして、その文書に5つの社会保障番号が含まれ、それぞれのリスクスコアが8である場合は、その例の文書のリスクスコアは引き続き8になる。いくつかの実施形態では、リスクスコアは、他の同様の選択肢の中でも特に、多くの社会保障番号を有する文書が、単一のリスクスコアを含む文書よりも高いリスクスコアを有するように集計され得るか、または重み付けされ得る。すでに述べたように、リスクスコアを使用して、不審なアクティビティに対して実行するアクションを判定できる。リスクスコアに対して実行されるアクションは、顧客が変更したり、顧客からのフィードバックに基づいて経時的に適合させたりすることもできる。いくつかの実施形態では、最初はリスク分析アルゴリズムの出力に対応することができるが、その後は顧客からのフィードバックと重要性に関するそのような他の情報とに基づき更新することができる特徴の複合セットを受け入れるランダムフォレストリグレッサを使用することができる。
顧客は、特定のリスクスコアに対するアクションを設定するだけでなく、他の様々な閾値またはトリガを設定し、または調整することもできる。例えば、ユーザが、通常アクセスするトピックとは異なるトピックを含む文書にアクセスしているときに、不審なアクティビティを判定することができる。顧客は、アラートまたは同様のアクションが実行される前に許可されるべき差異の水準を指定することができる。例えば、トピック間の距離を計算して、2つのトピック間に関連する差異を生成することができ、顧客は、アラームが生成される前に満たす必要のある最小の差異を指定できる。顧客は、異なる範囲に対して異なるアクションを指定することもできる。例えば、第1の閾値よりも小さい差異は無視されるが、第1の閾値と第2の閾値との間の差異はログに記録され、第2の閾値を超えるトピック間の差異に対してのみアラームが生成される。いくつかの実施形態では、自然言語理解(NLU)を使用して、トピック及び概念、またはそれらの概念に関連する単語を判定でき、これをベクトル空間にベクトル化してトピックを組み立て、ベクトル空間でのそれらの距離を判定することができる。ベクトル及び空間は、他にも同様の選択肢があるが特に、例えば、線形判別分析(LDA)または主成分分析(PCA)を用いて生成できる。
したがって、様々な実施形態によるDLPサービスは、データの不注意な露出、インサイダー脅威、または標的型攻撃などのビジネスへのリスクを示唆する機密データに関連するユーザ、アプリケーション、及びサービスアカウントのアクティビティを分析することができる。そのようなサービスは、異常なIPアドレスから大量の機密コンテンツを列挙してダウンロードする侵害されたユーザアカウントや、または通常この種の機密コンテンツにアクセスしないユーザアカウントによる大量のソースコードのダウンロードなどの不審なアクティビティを警告することができる。コンプライアンスに焦点を当てた例としては、個人を特定できる情報、知的財産、法律、または財務データを含むファイルなど、公的に、または会社全体で共有されている大量のハイリスク文書の検出が含まれる。さらに、顧客はまた、顧客用ダッシュボードを使用して、機密コンテンツにアクセスする必要があるサードパーティ製アプリケーションをホワイトリスト及びブラックリストに登録するなど、独自のアラート及びポリシ定義を定義することができる。
いくつかの実施形態では、1つ以上のトピックモデルを用いて、コンテンツが作成及び/または格納されるときに、既存コンテンツ及び新規コンテンツの両方を自動的に発見、分類、及びラベル付けすることによって、自動化されたコンテンツ分類及びラベル付けを提供することができる。このテーマスライシング機能は、潜在ディリクレ配分法(LDA)、名前付きエンティティ抽出、文書の類似性、及びクラスタリングを含むトピックモデリングからの要素を利用して、既知の文書テンプレートと一致しないコンテンツについて人間が理解できる意味とビジネス価値とを推測することができる。すでに述べたように、文書の類似性を利用して、同じトピックを扱う可能性のある異なるファイルタイプ間の類似性を確実に評価することができる。この機能は、LDAトピック空間、doc2vec、またはTF−IDFバッグオブワーズ空間からの文書ベクトルを利用できる。この機能は、ファイルの種類、ファイルの所有者、ファイルが外部で共有されているかどうかに関する情報、及びファイルの可視性レベルなどを含み得る文書メタデータの特徴を利用することもできる。これらの異なる「類似性のタイプ」は、異なるタイプが最終的な類似性スコアに異なる影響を与えるように、加重平均を使用するなどによって一緒に組み合わせることができる。
様々な実施形態に従って使用される異常検出サービスまたは分類器は、生のアクティビティイベント記録から抽出された情報に基づいてその状態を更新することができ、その後、様々な独立したデータセットを調べることによって、及びアラートを生成し、これらのデータセットにわたる異常で危険なアクティビティが観察された場合にアラートが作成された理由の説明を生成することによって、ユーザアカウント及びシステムアカウントに関連付けられた「リスクレベル」に関するクエリに答えることができる。利用される異常検出アルゴリズムには、カルマンフィルタと長期短期記憶(LSTM)再帰型ニューラルネットワーク(RNN)とが含まれ得、これらは、ユーザの一時的なアクセスパターンに基づいて異常を識別するのに効果的であることが証明されている。さらに、従来のブラックボックス行動分類に対する洞察を提供する統計的手法を使用して、検出された異常の説明を提供する「説明する」機能を提供することができる。このような異常検出フレームワークは、自身を継続的に訓練することができ、シミュレートされた攻撃シナリオを入力イベントストリームに注入することにより、適合度関数を利用して自身の性能を継続的に改善することができる。
図5は、様々な実施形態に従って利用することができる1つ以上の割り当てられたリソースインスタンスを使用して、イベントのために登録された関数を処理するためのプロセス400の例を示す。本明細書で説明するこのプロセス及び他のプロセスについては、別段の指示が無い限り、様々な実施形態の範囲内で、類似もしくは代替の順序で、または並行して、追加のステップ、代替のステップ、またはより少ないステップを実行できることを理解されたい。この例では、トピックラベル及びリスクスコア基準の初期セットが判定される(502)。これらには、例えば、他にも同様の選択肢はあるが特に、特定の顧客が関心を持つ特定のトピック、及び特定の文書から検出され得る特定の要素に割り当てるべきリスクスコアが含まれ得る。これらのトピックに従って分類され、リスクスコアを割り当てられた文書の初期セットを判定し(504)、訓練データとして使用することができる。初期訓練データを用いて、トピックモデル及びリスクスコアに対するランダムフォレストリグレッサを訓練することができる(506)。クローラ、またはそのような他のシステムもしくはサービスはまた、様々なリポジトリまたは他の格納場所をクロールして(508)、データ損失防止サービスの顧客である可能性のある組織のために格納され、アクセスが可能な文書を判定することができる。クローラ、またはクローラと連携するサービスは、リスクスコアや他のそのような値とともに、1つ以上のトピックを各文書(またはデータオブジェクトなど)に割り当てることができる(510)。顧客または他の権限を付与されたエンティティは、いくつかの実施形態では、意図されたトピックの知識または文書の実際のリスクに少なくとも部分的に基づいて、これらの判定を無効にし、または更新する能力を持ち得る。トピックモデル及びリグレッサは、組織の更新された文書または新たに格納された文書のデータなど、追加の文書データを使用して、さらに訓練を続けることができる(512)。このサービスは、組織の文書のコーパスに対する報告及び他の種類の可視性を有効にすることができ(514)、それによって組織は、利用可能な文書の種類及び関連するリスク、ならびにアクセスのパターン、識別されたトピックなどの潜在的な他の情報を判定することができる。このサービスはまた、リポジトリのクロールを(定期的な間隔などで)続行して、組織で利用可能な新規または変更された文書を判定し(516)、それらの文書のスコアを分類し生成したり、最新の利用可能な文書データを組み込むようにモデルをさらに訓練したりすることができる。
図6は、様々な実施形態に従って利用することができる異常なアクティビティを識別するためのプロセス600の例を示す。この例では、組織の文書、データ、及び他のそのようなオブジェクトに関して、ユーザのアクティビティを監視できる(602)。すでに述べたように、様々な実施形態の範囲内で、全てのユーザもしくはユーザのサブセットのアクティビティ、またはそのアクティビティのサブセットを監視することができる。アクティビティデータを、トピックモデルを使用して処理し(604)、ユーザに適切なピアグループを判定することができる。すでに述べたように、これは、訓練されたRNNまたは分類器サービスを使用して判定することができ、他にも同様の選択肢はあるが特に、類似の履歴アクセスパターン及び/または予測アクセスパターンを示すピアグループを判定する。ユーザのアクティビティは、分類器サービスを使用して処理し(606)、ユーザの将来のアクティビティを予測することができる。本明細書の他の箇所でより詳細に説明するように、これには、RNNを使用して生データまたは要約データを処理し、予測を生成することが含まれ、その後、カルマンフィルタまたはそのような他のアルゴリズムを使用して平滑化することができる。その後、平滑化された結果を高レベル分類器に送り込み、アクティビティが不審であるか否か、またはセキュリティアラートを生成するなどのアクションを起こすべきかどうかを判定できる。ユーザの最近のアクセスまたはアクティビティデータを、顧客または組織用に格納された特定の文書に関して受信することができる(608)。アクセスまたはアクティビティのデータを、分類器サービス(RNN及びカルマンフィルタを含む)を使用して処理し(610)、アクティビティに関する何かが異常であるかどうか、少なくとも許容範囲を超える逸脱があるかどうかを判定できる。アクティビティが異常でないと判定(612)された場合、プロセスを継続することができる。また一方、アクティビティが異常であると判定された場合は、異常なアクセス(及びその他の要因)のリスクスコアを判定することができ(614)、これを特定のアクションを実行するための様々なルール、基準、または閾値と比較することができる。リスクスコアが指定された閾値を超えるなど、異常行動のリスクスコアがアラートを必要とすることが判定(616)された場合、セキュリティチームに対してアラートを生成できる。本明細書の他の箇所で説明及び示唆されるように、他の様々なアクションを行うことができる。アクティビティがアラームを必要としない場合は、異常行動のイベントデータを記録し、アクティビティの監視を続けるなど、別のアクションを実行できる。ネットワークをさらに訓練するために、任意のアクティビティデータをRNNにフィードバックすることもできる。
図7は、図6に関して説明したアクセスデータを処理するために使用できる別のプロセス700の例を示す。この例では、前述の監視プロセスの一部として、ユーザアクティビティが検出される(702)。アクティビティが異常であるかどうかを適切に評価するために、ユーザの過去のアクティビティとユーザのピアグループのアクティビティとの両方を、少なくとも最近の期間にわたって判定することができる(704)。次いでアクティビティデータは、例えば、再帰型ニューラルネットワーク(または他のニューラルネットワーク分類器)を使用して処理し、アクティビティが異常であるかどうか、または別の方法で、予想されるユーザアクティビティ及び/またはピアアクティビティから逸脱しているかどうかを判定できる(706)。少なくとも一部の実施形態では、複数の期間にわたってデータを分析するカルマンフィルタを使用して、RNNの結果を平滑化することができる(708)。この平滑化された結果は、教師なし分類器及び/または半訓練分類器を用いて処理し、異常の説明を試みることができる(710)。分類器は、異常の理由を統計的に判定し、異常の範囲を判定するために使用できるフィードバックを提供し、さらに分類器またはRNNを訓練しようと試みることができる。次に、提供された説明に少なくとも部分的に基づいて、適切なアクションを判定することができる(712)。すでに述べたように、アクションには、他にも同様の選択肢があるが特に、ユーザインタフェース、メッセージングサービス、またはその他の機構を使用したセキュリティチーム用のアラームの生成が含まれ得る。
図8は、様々な実施形態の態様を実装するために利用することができるコンピューティングデバイス700の例の基本構成要素のセットを例示する。この例では、本デバイスは、メモリデバイスまたはメモリ要素804に格納することができる命令を実行する少なくとも1つのプロセッサ802を含む。当業者には明らかなように、本デバイスは、少なくとも1つのプロセッサ802によって実行されるプログラム命令のための第1のデータ記憶装置など、多くのタイプのメモリ、データ記憶装置、またはコンピュータ可読媒体を含むことができ、画像またはデータに対して同一または別個の記憶装置を使用してもよく、他のデバイスと情報を共有するために着脱可能のメモリを利用することができ、他のデバイスと共有するために任意数の通信アプローチを利用することができる。デバイスは、タッチスクリーン、電子インク(eインク)、有機発光ダイオード(OLED)、または液晶ディスプレイ(LCD)など、少なくとも1つのタイプのディスプレイ要素806を含んでもよいが、サーバなどのデバイスは、光及びデータ伝送のシステムを通じてなど、他の手段を介して情報を搬送してもよい。デバイスは典型的には、少なくとも1つのネットワークを通じた通信を可能にするポート、ネットワークインタフェースカード、または無線送受信機など、1つ以上のネットワーキング構成要素808を含む。デバイスは、ユーザから従来の入力を受信することができる少なくとも1つの入力デバイス810を含むことができる。この従来の入力は、例えば、プッシュボタン、タッチパッド、タッチスクリーン、ホイール、ジョイスティック、キーボード、マウス、トラックボール、キーパッド、またはいずれかの他のそのようなデバイスもしくは要素を含むことができ、それによって、ユーザは、デバイスにコマンドを入力することができる。いくつかの実施形態では、これらのI/Oデバイスは、ワイヤレス赤外線もしくはブルートゥース(登録商標)、または他のリンクによっても同じようにして接続され得る。また一方、いくつかの実施形態では、このようなデバイスはボタンをまったく含まず、ユーザがデバイスと接触する必要なしにデバイスを制御できるように、視覚コマンド及び音声コマンドの組合せによってのみで制御されてもよい。
本開示の一態様では、コンピュータ実施方法は、訓練用文書のセットを使用してトピックモデルを訓練することであって、セットの各訓練用文書が、少なくとも1つの識別されたトピックと割り当てられたリスクスコアとを有する、トピックモデルを訓練すること、訓練用文書のセットを使用して、ランダムフォレストリグレッサを訓練すること、電子リソース環境全体にわたってエンティティ用に格納されている複数の文書をクロールし、複数の文書にインデックスを付けること、少なくともトピックモデルを使用して、複数の文書の各文書の1つ以上のトピックを判定すること、少なくともランダムフォレストリグレッサを使用して、複数の文書の各文書のリスクスコアを判定すること、電子リソース環境内の複数の文書に関する履歴アクティビティを使用して、再帰型ニューラルネットワークを訓練すること、再帰型ニューラルネットワークを使用して、少なくとも1つの決められた期間にわたって複数の文書に関して指定されたユーザの予想されるアクティビティを判定すること、複数の文書のうちの少なくとも指定された文書に関するユーザアクティビティを検出することであって、ユーザアクティビティが指定されたユーザに関連付けられる、ユーザアクティビティを検出すること、再帰型ニューラルネットワークを使用してアクティビティを処理し、ユーザアクティビティが予想されるタイプのアクティビティから逸脱しているかどうかを判定することであって、判定がさらに、指定された文書に対して判定された少なくとも1つのトピックに少なくとも部分的に基づいている、逸脱を判定すること、及びユーザアクティビティが、予想されるアクティビティから許容できないほど逸脱すると判定され、ユーザアクティビティまたは指定された文書の少なくとも1つに対するリスクスコアが、少なくともアラート閾値を満たしている場合に、セキュリティアラートを生成することを含む。
本開示の他の態様では、コンピュータ実施方法は、再帰型ニューラルネットワークによる処理の結果を、カルマンフィルタを用いて処理して、複数の期間にわたるユーザアクティビティを分析し、ユーザアクティビティが、予想されるアクティビティから許容量を超えて逸脱しているかどうかをさらに判定することをさらに含む。他の態様では、コンピュータ実施方法は、指定されたユーザを含むピアグループ内のピアのピアアクティビティとユーザアクティビティとをさらに比較すること、及びピアアクティビティに関するユーザアクティビティの第2の逸脱にさらに基づいて、ユーザアクティビティが予想されるアクティビティから許容できないほど逸脱しているかどうかを判定することを含む。さらに他の態様では、コンピュータ実施方法は、電子リソース環境の複数の文書及び複数のユーザに関して監視されたアクティビティデータを使用して訓練された教師なし分類器を使用して、指定されたユーザを含むピアグループを判定することを含む。
本開示の別の態様では、コンピュータ実施方法は、電子リソース環境で、エンティティのために格納された複数の文書に関する履歴アクティビティを使用してニューラルネットワークを訓練すること、再帰型ニューラルネットワークを使用して、少なくとも1つの決められた期間にわたって複数の文書に関して指定されたユーザの予想されるアクティビティを判定すること、複数の文書のうちの少なくとも指定された文書に関するユーザアクティビティを、少なくとも決められた期間にわたって検出することであって、ユーザアクティビティが指定されたユーザに関連付けられる、ユーザアクティビティを検出すること、ユーザアクティビティを、ニューラルネットワークを使用して処理して、ユーザアクティビティが、予想されるタイプのアクティビティから逸脱しているかどうかを判定すること、及びユーザアクティビティが予想されるタイプのアクティビティから許容できないほど逸脱すると判断された場合に、決められたアクションを実行することを含む。
本開示の別の態様では、コンピュータ実施方法は、判定されたリスクスコアに少なくとも部分的に基づいて、実行すべきアクションを判定することであって、少なくとも1つのリスク閾値が実行される可能性のあるアクションに関連付けられている、実行すべきアクションを判定することをさらに含む。本コンピュータ実施方法のアクションは、それぞれがリスクスコアの範囲にそれぞれ関連付けられた複数の可能なアクションの1つであり、可能なアクションが、セキュリティアラートの生成、異常なアクティビティデータの記録、または指定されたユーザもしくは指定された文書の少なくとも1つに関連付けられたアクセス権の調節のうちの少なくとも1つを含む。本コンピュータ実施方法は、ニューラルネットワークによる処理の結果を、カルマンフィルタを用いて処理して、複数の期間にわたるユーザアクティビティを分析し、ユーザアクティビティが、予想されるアクティビティから許容できないほど逸脱しているかどうかをさらに判定することをさらに含む。本コンピュータ実施方法は、訓練された分類器を使用してカルマンフィルタ処理の結果を処理し、ユーザアクティビティが予想されるアクティビティから許容できないほど逸脱しているかどうかを判定することを更に含む。本コンピュータ実施方法は、指定されたユーザを含むピアグループ内のピアのピアアクティビティとユーザアクティビティとをさらに比較すること、及びピアアクティビティに関するユーザアクティビティの第2の逸脱に少なくとも部分的に基づいて、ユーザアクティビティが予想されるユーザアクティビティから許容できないほど逸脱しているかどうかを判定することをさらに含む。本コンピュータ実施方法は、電子リソース環境の複数の文書及び複数のユーザに関して監視されたアクティビティデータを使用して訓練された教師なし分類器を使用して、指定されたユーザを含むピアグループを判定することをさらに含む。本コンピュータ実施方法は、指定された文書に関連する少なくとも1つのトピックを判定すること、少なくとも1つのトピックを、予想されるアクティビティに関連するトピックと比較すること、及び少なくとも1つのトピックと予想されるアクティビティに関連するトピックとの間のトピックベクトル空間におけるトピック距離に少なくとも部分的に基づいて、ユーザアクティビティが、予想されるユーザアクティビティから許容できないほど逸脱するかどうかを判定することをさらに含む。本コンピュータ実施方法は、アクセスの種類、アクセスの頻度、一定期間のアクセス試行の合計数、アクセスの送信元アドレス、アクセスされたトピック、アクセスされた文書の種類、アクセスの場所、アクセスの日もしくは時間、またはアクセスを取得するために使用されるアプリケーションプログラミングインタフェース(API)呼出しのうちの少なくとも1つが含まれる、ユーザアクティビティを開示する。
本開示の別の態様では、システムは、少なくとも1つのプロセッサと、少なくとも1つのプロセッサによって実行されるとき、システムに、訓練用文書のセットを使用してトピックモデルを訓練することであって、セットの各訓練用文書が、少なくとも1つの識別されたトピックと割り当てられたリスクスコアとを有する、トピックモデルを訓練すること、電子リソース環境全体にわたってエンティティ用に格納されている複数の文書をクロールし、複数の文書にインデックスを付けること、少なくともトピックモデルを使用して、複数の文書の各文書の1つ以上のトピックを判定すること、複数の文書の各文書のリスクスコアを判定すること、及びエンティティに関連付けられた許可ユーザによるアクセスのためのセキュリティ情報を提供することであって、セキュリティ情報には、識別されたトピックの情報と、エンティティ用に格納されている複数の文書のリスクスコアとが含まれる、セキュリティ情報を提供することを行わせる命令を含むメモリとを備える。本システムは、命令が、実行されると、システムにさらに、電子リソース環境のエンティティ用に格納された新たな文書または文書の変更のうちの少なくとも1つに対応する更新された文書データを検出すること、及び更新された文書データのインスタンス毎にトピックモデルをさらに訓練することを行わせることを開示する。本システムは、命令が、実行されると、システムにさらに、自然言語理解(NLU)を利用して複数の文書を分析し、複数の文書の各文書に関連付けられた1つ以上のトピックを判定することを開示する。本システムは、命令が、実行されると、システムにさらに、複数の文書に含まれる複数の要素を判定することであって、複数の要素の各要素が、エンティティに潜在的なセキュリティリスクをもたらす、複数の要素を判定すること、複数の要素の各要素にそれぞれリスクスコアを割り当てること、及び複数の文書のうちの指定された文書のリスクスコアを、指定された文書に関連付けられた要素の1つに対する最高のそれぞれのリスクスコアに少なくとも部分的に基づいて、判定することを行わせることを開示する。本システムは、命令が、実行されると、システムにさらに、電子リソース環境のエンティティ用に格納された新たな文書を検出すること、新たな文書に関連する1つ以上のトピックを判定すること、新たな文書の1つ以上のトピックを有する他の文書に関連付けられた文書バケットに新たな文書を割り当てること、及び文書バケットのバケットリスクスコアに少なくとも部分的に基づいて、新たな文書にリスクスコアを割り当てることを行わせることを開示する。本システムは、命令が、実行されると、システムにさらに、訓練されたトピックモデルを使用して、複数の文書を処理することにより、新しいトピックを学習させることを行わせることを開示する。本システムは、命令が、実行されると、システムにさらに、エンティティの業界に特有であり、あらかじめトピックに関連付けられたコンテンツを含まない種類の文書を、トピックモデルによって分類できるようにすることを行わせることを開示する。
既に述べたように、説明した実施形態に従って、様々な環境で異なるアプローチを実施することができる。認識されるように、本明細書で提示されるいくつかの例の説明を目的としてウェブに基づく環境が使用されるが、様々な実施形態を実施するために、必要に応じて異なる環境を使用してもよい。システムは、電子クライアントデバイスを含み、電子クライアントデバイスは、適切なネットワークを通じて要求、メッセージ、または情報を送信及び受信し、デバイスのユーザに情報を再度搬送するように動作可能ないずれかの適切なデバイスを含むことができる。そのようなクライアントデバイスの例には、パーソナルコンピュータ、携帯電話、ハンドヘルドメッセージングデバイス、ラップトップコンピュータ、セットトップボックス、携帯情報端末、及び電子ブックリーダなどが含まれる。ネットワークには、イントラネット、インターネット、セルラネットワーク、ローカルエリアネットワーク、もしくは任意の他のそのようなネットワーク、またはそれらの組合せを含む、任意の適切なネットワークが含まれ得る。そのようなシステムに使用される構成要素は、選択されるネットワーク及び/または環境の種類に少なくとも部分的に依存し得る。そのようなネットワークを介して通信するためのプロトコル及び構成要素は周知であり、本明細書では詳細に説明しない。ネットワークを介した通信は、有線または無線接続、及びそれらの組合せを介して可能にされてもよい。この例では、ネットワークは、要求を受信し、それに応答してコンテンツをサービスするためのウェブサーバを含む環境のように、インターネットを含むが、他のネットワークについて、当業者に明らかなように、類似の目的をサービスする代替的なデバイスが使用されてもよい。
例示的な環境は、少なくとも1つのアプリケーションサーバ及びデータストアを含む。いくつかのアプリケーションサーバ、層もしくは他の要素、処理、または構成要素が存在することができ、それらは、つながれ、または他に構成されてもよく、適切なデータストアからデータを取得することなどのタスクを実行するようにやりとりすることができることが理解されるべきである。本明細書で使用される場合、「データストア」という用語は、データを記憶し、データにアクセスし、及びデータを取り出す能力を有するいずれかのデバイスまたはデバイスの組合せを指し、いずれかのデバイスまたはデバイスの組合せは、いずれかの標準、分散、またはクラスタ化された環境内の、データサーバ、データベース、データ記憶装置、及びデータ記憶媒体のいずれかの組合せ及びいずれかの数のそれらを含んでもよい。アプリケーションサーバは、クライアントデバイスに対して1つ以上のアプリケーションの態様を実行するために必要に応じてデータストアとやりとりし、アプリケーションについてのデータアクセス及びビジネスロジックの大多数を取り扱うためのいずれかの適切なハードウェア及びソフトウェアを含むことができる。アプリケーションサーバは、データストアと連携してアクセス制御サービスを提供し、ユーザに転送されることになるテキスト、グラフィック、音声、及び/またはビデオ等のコンテンツを生成することができ、コンテンツは、この例では、HTML、XML、または別の適切な構造化言語の形式でウェブサーバによってユーザにサービスされ得る。全ての要求及び応答と共に、クライアントデバイスとアプリケーションサーバとの間のコンテンツの配信を取り扱うことは、ウェブサーバによって取り扱われ得る。本明細書で考察される構造化コードを、本明細書で他に考察されるいずれかの適切なデバイスまたはホストマシン上で実行することができるので、ウェブ及びアプリケーションサーバは必要とされず、これらは例示的な構成要素にすぎないことが理解されるべきである。
データストアは、いくつかの別個のデータテーブル、データベース、または特定の態様に関連するデータを記憶するための他のデータ記憶機構及び媒体を含むことができる。例えば、図示されているデータストアは、コンテンツ(例えば、制作データ)及びユーザ情報を保存するためのメカニズムを含み、これらは、制作側にコンテンツを提供するために使用されてもよい。データストアはまた、ログまたはセッションデータを記憶するための機構を含むとして示される。必要に応じて上記記載された機構のいずれか、またはデータストア内の追加の機構に記憶することができる、ページ画像情報及びアクセス権情報など、データストアに記憶される必要があることがある多くの他の態様が存在することができることが理解されるべきである。データストアは、それと関連付けられたロジックを通じて、アプリケーションサーバから命令を受信し、それに応答して、データを取得、更新、または他に処理するように動作可能である。一例では、ユーザは、ある特定のタイプの項目についての検索要求を送信してもよい。この場合、データストアは、ユーザの識別を検証するために、ユーザ情報にアクセスしてもよく、そのタイプの項目に関する情報を取得するために、カタログ詳細情報にアクセスすることができる。ユーザデバイス上のブラウザを介してユーザが見ることが可能なウェブページ上の結果リストなどの情報が次いで、ユーザに返されてもよい。専用ページまたはブラウザのウインドウ内で、関心の特定の項目についての情報を見ることができる。
各々のサーバは典型的には、そのサーバの全体的な統治及び操作のための実行可能なプログラム命令を提供するオペレーティングシステムを含み、典型的には、サーバのプロセッサによって実行されるとき、サーバがその意図された機能を実行することを可能にする命令を記憶したコンピュータ可読媒体を含む。サーバのオペレーティングシステム及び汎用機能性についての適切な実施態様は、既知であり、または商業的に利用可能であり、特に、本明細書における開示を考慮して、当業者によって容易に実施される。
1つの実施形態における環境は、1つ以上のコンピュータネットワークまたは直接接続を使用して、通信リンクを介して相互接続された、いくつかのコンピュータシステム及び構成要素を利用した分散コンピューティング環境である。しかしながら、そのようなシステムは、例示されるよりも少ないまたは多くの数の構成要素を有するシステム内でも等しく良好に動作することができることが当業者によって認識されるであろう。よって、本明細書におけるシステムの記述は、本質的に例示的であり、開示の範囲を限定しないと見なされるべきである。
様々な実施形態は更に、幅広い種類の動作環境内で実施されてもよく、オペレーティング環境は、一部の場合では、いくつかのアプリケーションのいずれかを動作させるために使用することができる1つ以上のユーザコンピュータまたはコンピューティングデバイスを含むことができる。ユーザデバイスまたはクライアントデバイスは、標準オペレーティングシステムを実行するデスクトップコンピュータまたはノート型コンピュータ等の任意の数の汎用パーソナルコンピュータと、モバイルソフトウェアを実行し及びいくつかのネットワーキングプロトコル及びメッセージプロトコルをサポートすることが可能である、セルラデバイス、無線デバイス、及びハンドヘルドデバイスを含み得る。イベントまたはリクエストを生成できるデバイスは、ウェアラブルコンピュータ(例えば、スマートウォッチまたはスマートグラス)、VRヘッドセット、モノのインターネット(IoT)デバイス、音声コマンド認識システムなどを含むこともできる。そのようなシステムはまた、開発及びデータベース管理などの目的により、様々な商業的に利用可能なオペレーティングシステム及び他の既知のアプリケーションのいずれかを稼働させるいくつかのワークステーションを含むことができる。それらのデバイスはまた、ダミー端末、シンクライアント、ゲーミングシステム、及びネットワークを介して通信する能力を有する他のデバイスなどの他の電子デバイスを含むことができる。
ほとんどの実施形態は、TCP/IP、FTP、UPnP、NFS、及びCIFSなどの様々な商業的に利用可能なプロトコルのいずれかを使用して通信をサポートする、当業者によく知られた少なくとも1つのネットワークを利用する。ネットワークは、例えば、ローカルエリアネットワーク、ワイドエリアネットワーク、仮想プライベートネットワーク、インターネット、イントラネット、エクストラネット、公衆交換電話網、赤外線ネットワーク、無線ネットワーク、及びそれらのいずれかの組合せとすることができる。
ウェブサーバを利用する実施形態では、ウェブサーバは、HTTPサーバ、FTPサーバ、CGIサーバ、データサーバ、Java(登録商標)サーバ、及びビジネスアプリケーションサーバを含む、様々なサーバまたは中間階層アプリケーションのいずれかを稼働させることができる。サーバ(複数可)はまた、Java(登録商標)、C、C#、もしくはC++などのいずれかのプログラミング言語、またはPerl、Python、もしくはTCLなどのいずれかのスクリプト言語、ならびにそれらの組合せで記述された1つ以上のスクリプトまたはプログラムとして実施することができる1つ以上のウェブアプリケーションを実行することによってなど、ユーザデバイスからの要求に応答して、プログラムまたはスクリプトを実行する能力を有してもよい。サーバ(複数可)はまた、Oracle(登録商標)、Microsoft(登録商標)、Sybase(登録商標)、及びIBM(登録商標)から商業的に利用可能なサーバ、ならびにMySQL、Postgres、SQLite、MongoDB、及び構造化または非構造化データを記憶し、取り出し、及びアクセスする能力を有するいずれかの他のサーバなどのオープンソースサーバを含むがそれらに限定されない、データベースサーバを含んでもよい。データベースサーバは、テーブルベースサーバ、文書ベースサーバ、非構造化サーバ、関係サーバ、非関係サーバ、もしくはそれらの組合せ、及び/または他のデータベースサーバを含んでもよい。
環境は、上記考察された様々なデータストア、及び他のメモリ及び記憶媒体を含むことができる。それらは、コンピュータのうちの1つ以上にローカルな(及び/またはそれに存在する)、またはネットワークにわたってコンピュータのいずれかもしくは全てにリモートな記憶媒体など、様々な位置に存在することができる。実施形態の特定のセットでは、情報は当業者によく知られているストレージエリアネットワーク(SAN)に存在してもよい。同様に、コンピュータ、サーバ、または他のネットワークデバイスにあるとする機能を実行するために必要なファイルは、必要に応じてローカル及び/またはリモートに格納することができる。システムがコンピュータ化されたデバイスを含む場合、各々のそのようなデバイスは、ハードウェア要素を含むことができ、ハードウェア要素は、バスを介して電気的に結合されてもよく、要素は、例えば、少なくとも1つの中央処理装置(CPU)、少なくとも1つの入力デバイス(例えば、マウス、キーボード、コントローラ、タッチ感知表示要素、またはキーパッド)、及び少なくとも1つの出力デバイス(例えば、ディスプレイデバイス、プリンタ、またはスピーカ)を含む。このようなシステムはまた、ディスクドライブ、光学記憶デバイス、ならびに、ランダムアクセスメモリ(RAM)または読み出し専用メモリ(ROM)、ならびに取り外し可能記憶デバイス、メモリカード、フラッシュカード等のソリッドステート記憶デバイス等、1つ以上の記憶デバイスを含み得る。
そのようなデバイスはまた、上記説明されたコンピュータ可読記憶媒体リーダ、通信デバイス(例えば、モデム、ネットワークカード(無線または有線)、赤外線通信デバイス)、及びワーキングメモリを含むことができる。コンピュータ可読記憶媒体リーダは、リモート、ローカル、固定、及び/または着脱可能記憶装置を表すコンピュータ可読記憶媒体と共に、コンピュータ可読情報を一時的及び/または更に永続的に包含し、記憶し、伝送し、及び取り出すための記憶媒体と接続されてもよく、またはそれらを受信するように構成されてもよい。システム及び様々なデバイスはまた、典型的には、オペレーティングシステム及びクライアントアプリケーションまたはウェブブラウザなどのアプリケーションプログラムを含む、少なくとも1つのワーキングメモリデバイス内に位置するいくつかのソフトウェアアプリケーション、モジュール、サービス、または他の要素を含む。代替的な実施形態が上記説明された実施形態からの多数の変形形態を有してもよいことを認識されるべきである。例えば、カスタマイズされたハードウェアも使用されてもよく、及び/または特定の要素がハードウェア、ソフトウェア(アプレットなどのポータブルソフトウェアを含む)、もしくはその両方で実施されてもよい。さらに、ネットワーク入力/出力デバイスなどの他のコンピューティングデバイスへの接続を使用することができる。
コードまたはコードの一部を包含する記憶媒体及び他の非一時的コンピュータ可読媒体は、限定されないが、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報の記憶のためのいずれかの方法または技術において実施された揮発性及び不揮発性、着脱可能及び着脱不能メディアなど、本分野において既知であり、または使用されるいずれかの適切な媒体を含むことができ、それらは、RAM、ROM、EEPROM(登録商標)、フラッシュメモリもしくは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)もしくは他の光学式記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶装置、または所望の情報を記憶するために使用することができ、システムデバイスによってアクセスすることができるいずれかの他の媒体を含む。本明細書で提供される開示及び教示に基づいて、当業者は、様々な実施形態を実施するための他の方式及び/または方法を認識するであろう。
したがって、明細書及び図面は、限定的な意味ではなく例示的であると見なされることになる。しかしながら、特許請求の範囲において示されるような発明のより広い趣旨及び範囲から逸脱することなく、それらに様々な修正及び変更が行われてもよいことが明白であろう。
以下に、本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
訓練用文書のセットを使用してトピックモデルを訓練することであって、前記セットの各訓練用文書が、少なくとも1つの識別されたトピックと割り当てられたリスクスコアとを有する、前記トピックモデルを訓練すること、
訓練用文書の前記セットを使用して、ランダムフォレストリグレッサを訓練すること、 電子リソース環境全体にわたってエンティティ用に格納されている複数の文書をクロールし、前記複数の文書にインデックスを付けること、
少なくとも前記トピックモデルを使用して、前記複数の文書の各文書の1つ以上のトピックを判定すること、
少なくとも前記ランダムフォレストリグレッサを使用して、前記複数の文書の各文書のリスクスコアを判定すること、
前記電子リソース環境内の前記複数の文書に関する履歴アクティビティを使用して、再帰型ニューラルネットワークを訓練すること、
前記再帰型ニューラルネットワークを使用して、少なくとも1つの決められた期間にわたって前記複数の文書に関して指定されたユーザの予想されるアクティビティを判定すること、
前記複数の文書のうちの少なくとも指定された文書に関するユーザアクティビティを検出することであって、前記ユーザアクティビティが前記指定されたユーザに関連付けられる、前記ユーザアクティビティを検出すること、
前記再帰型ニューラルネットワークを使用して前記アクティビティを処理し、前記ユーザアクティビティが前記予想されるタイプのアクティビティから逸脱しているかどうかを判定することであって、前記判定がさらに、前記指定された文書に対して判定された少なくとも1つのトピックに少なくとも部分的に基づいている、前記アクティビティを処理すること、及び
前記ユーザアクティビティが、前記予想されるアクティビティから許容できないほど逸脱すると判定され、前記ユーザアクティビティまたは前記指定された文書の少なくとも1つに対するリスクスコアが、少なくともアラート閾値を満たしている場合に、セキュリティアラートを生成すること
を含む、コンピュータ実施方法。
[C2]
前記再帰型ニューラルネットワークによる前記処理の結果を、カルマンフィルタを用いて処理して、複数の期間にわたる前記ユーザアクティビティを分析し、前記ユーザアクティビティが、前記予想されるアクティビティから許容量を超えて逸脱しているかどうかをさらに判定すること
をさらに含む、C1に記載のコンピュータ実施方法。
[C3]
前記指定されたユーザを含むピアグループ内のピアのピアアクティビティと前記ユーザアクティビティとをさらに比較すること、及び
前記ピアアクティビティに関する前記ユーザアクティビティの第2の逸脱にさらに基づいて、前記ユーザアクティビティが前記予想されるアクティビティから許容できないほど逸脱しているかどうかを判定すること
をさらに含む、C1に記載のコンピュータ実施方法。
[C4]
前記電子リソース環境の前記複数の文書及び複数のユーザに関して監視されたアクティビティデータを使用して訓練された教師なし分類器を使用して、前記指定されたユーザを含む前記ピアグループを判定すること
をさらに含む、C3に記載のコンピュータ実施方法。
[C5]
電子リソース環境で、エンティティのために格納された複数の文書に関する履歴アクティビティを使用してニューラルネットワークを訓練すること、
前記再帰型ニューラルネットワークを使用して、少なくとも1つの決められた期間にわたって前記複数の文書に関して指定されたユーザの予想されるアクティビティを判定すること、
前記複数の文書のうちの少なくとも指定された文書に関するユーザアクティビティを、少なくとも決められた期間にわたって検出することであって、前記ユーザアクティビティが前記指定されたユーザに関連付けられる、前記ユーザアクティビティを検出すること、 前記ユーザアクティビティを、前記ニューラルネットワークを使用して処理して、前記ユーザアクティビティが、前記予想されるタイプのアクティビティから逸脱しているかどうかを判定すること、及び
前記ユーザアクティビティが前記予想されるタイプのアクティビティから許容できないほど逸脱すると判断された場合に、決められたアクションを実行すること
を含むコンピュータ実施方法。
[C6]
判定されたリスクスコアに少なくとも部分的に基づいて、実行すべき前記アクションを判定することであって、少なくとも1つのリスク閾値が実行される可能性のあるアクションに関連付けられており、前記アクションは、それぞれがリスクスコアの範囲にそれぞれ関連付けられた複数の可能なアクションの1つであり、前記可能なアクションが、セキュリティアラートの生成、異常なアクティビティデータの記録、または前記指定されたユーザもしくは前記指定された文書の少なくとも1つに関連付けられたアクセス権の調節のうちの少なくとも1つを含む、前記アクションを判定すること
をさらに含む、C5に記載のコンピュータ実施方法。
[C7]
前記指定されたユーザを含むピアグループ内のピアのピアアクティビティと前記ユーザアクティビティとをさらに比較すること、
前記ピアアクティビティに関する前記ユーザアクティビティの第2の逸脱に少なくとも部分的に基づいて、前記ユーザアクティビティが前記予想されるユーザアクティビティから許容できないほど逸脱しているかどうかを判定すること、及び
前記電子リソース環境の前記複数の文書及び複数のユーザに関して監視されたアクティビティデータを使用して訓練された教師なし分類器を使用して、前記指定されたユーザを含む前記ピアグループを判定すること
をさらに含む、C5に記載のコンピュータ実施方法。
[C8]
前記指定された文書に関連する少なくとも1つのトピックを判定すること、
前記少なくとも1つのトピックを、前記予想されるアクティビティに関連するトピックと比較すること、及び
前記少なくとも1つのトピックと前記予想されるアクティビティに関連する前記トピックとの間のトピックベクトル空間におけるトピック距離に少なくとも部分的に基づいて、前記ユーザアクティビティが、前記予想されるユーザアクティビティから許容できないほど逸脱するかどうかを判定すること
をさらに含む、C5に記載のコンピュータ実施方法。
[C9]
前記ユーザアクティビティには、アクセスの種類、アクセスの頻度、一定期間のアクセス試行の合計数、アクセスの送信元アドレス、アクセスされたトピック、アクセスされた文書の種類、アクセスの場所、前記アクセスの日もしくは時間、または前記アクセスを取得するために使用されるアプリケーションプログラミングインタフェース(API)呼出しのうちの少なくとも1つが含まれる、C5に記載のコンピュータ実施方法。
[C10]
システムであって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサによって実行されるとき、前記システムに、
訓練用文書のセットを使用してトピックモデルを訓練することであって、前記セットの各訓練用文書が、少なくとも1つの識別されたトピックと割り当てられたリスクスコアとを有する、前記トピックモデルを訓練すること、
電子リソース環境全体にわたってエンティティ用に格納されている複数の文書をクロールし、前記複数の文書にインデックスを付けること、
少なくとも前記トピックモデルを使用して、前記複数の文書の各文書の1つ以上のトピックを判定すること、
前記複数の文書の各文書のリスクスコアを判定すること、及び
前記エンティティに関連付けられた許可ユーザによるアクセスのためのセキュリティ情報を提供することであって、前記セキュリティ情報には、前記識別されたトピックの情報と、前記エンティティ用に格納されている前記複数の文書のリスクスコアとが含まれる、前記セキュリティ情報を提供すること
を行わせる命令を含むメモリと
を備えた前記システム。
[C11]
前記命令が、実行されると、前記システムにさらに、
前記電子リソース環境の前記エンティティ用に格納された新たな文書または文書の変更のうちの少なくとも1つに対応する更新された文書データを検出すること、及び
前記更新された文書データのインスタンス毎に前記トピックモデルをさらに訓練すること
を行わせる、C10に記載のシステム。
[C12]
前記命令が、実行されると、前記システムにさらに、
自然言語理解(NLU)を利用して前記複数の文書を分析し、前記複数の文書の各文書に関連付けられた1つ以上のトピックを判定すること
を行わせる、C10に記載のシステム。
[C13]
前記命令が、実行されると、前記システムにさらに、
前記複数の文書に含まれる複数の要素を判定することであって、前記複数の要素の各要素が、前記エンティティに潜在的なセキュリティリスクをもたらす、前記複数の要素を判定すること、
前記複数の要素の各要素にそれぞれリスクスコアを割り当てること、及び
指定された文書に関連付けられた前記要素の1つに対する最高のそれぞれのリスクスコアに少なくとも部分的に基づいて、前記複数の文書のうちの前記指定された文書の前記リスクスコアを判定すること
を行わせる、C10に記載のシステム。
[C14]
前記命令が、実行されると、前記システムにさらに、
前記電子リソース環境の前記エンティティ用に格納された新たな文書を検出すること、 前記新たな文書に関連する1つ以上のトピックを判定すること、
前記新たな文書の前記1つ以上のトピックを有する他の文書に関連付けられた文書バケットに前記新たな文書を割り当てること、及び
前記文書バケットのバケットリスクスコアに少なくとも部分的に基づいて、前記新たな文書にリスクスコアを割り当てること
を行わせる、C10に記載のシステム。
[C15]
前記命令が、実行されると、前記システムにさらに、
前記訓練されたトピックモデルを使用して、前記複数の文書を処理することにより、新しいトピックを学習させること
を行わせる、C10に記載のシステム。

Claims (14)

  1. 訓練用文書のセットを使用してトピックモデルを訓練することであって、前記セットの各訓練用文書が、少なくとも1つの識別されたトピックと割り当てられたリスクスコアとを有する、前記トピックモデルを訓練すること、
    訓練用文書の前記セットを使用して、ランダムフォレストリグレッサを訓練すること、 電子リソース環境全体にわたってエンティティ用に格納されている複数の文書をクロールし、前記複数の文書にインデックスを付けること、
    少なくとも前記トピックモデルを使用して、前記複数の文書の各文書の1つ以上のトピックを判定すること、
    少なくとも前記ランダムフォレストリグレッサを使用して、前記複数の文書の各文書のリスクスコアを判定すること、
    前記電子リソース環境内の前記複数の文書に関する履歴アクティビティを使用して、再帰型ニューラルネットワークを訓練すること、
    前記再帰型ニューラルネットワークを使用して、少なくとも1つの決められた期間にわたって前記複数の文書に関して指定されたユーザの予想されるアクティビティを判定すること、
    前記複数の文書のうちの少なくとも指定された文書に関するユーザアクティビティを検出することであって、前記ユーザアクティビティが前記指定されたユーザに関連付けられる、前記ユーザアクティビティを検出すること、
    前記再帰型ニューラルネットワークを使用して前記アクティビティを処理し、前記ユーザアクティビティが前記予想されるタイプのアクティビティから逸脱しているかどうかを判定することであって、前記判定がさらに、前記指定された文書に対して判定された少なくとも1つのトピックに少なくとも部分的に基づいている、前記アクティビティを処理すること、及び
    前記ユーザアクティビティが、前記予想されるアクティビティから許容できないほど逸脱すると判定され、前記ユーザアクティビティまたは前記指定された文書の少なくとも1つに対するリスクスコアが、少なくともアラート閾値を満たしている場合に、セキュリティアラートを生成すること
    を含む、コンピュータ実施方法。
  2. 前記再帰型ニューラルネットワークによる前記処理の結果を、カルマンフィルタを用いて処理して、複数の期間にわたる前記ユーザアクティビティを分析し、前記ユーザアクティビティが、前記予想されるアクティビティから許容量を超えて逸脱しているかどうかをさらに判定すること
    をさらに含む、請求項1に記載のコンピュータ実施方法。
  3. 前記指定されたユーザを含むピアグループ内のピアのピアアクティビティと前記ユーザアクティビティとをさらに比較すること、及び
    前記ピアアクティビティに関する前記ユーザアクティビティの第2の逸脱にさらに基づいて、前記ユーザアクティビティが前記予想されるアクティビティから許容できないほど逸脱しているかどうかを判定すること
    をさらに含む、請求項1に記載のコンピュータ実施方法。
  4. 前記電子リソース環境の前記複数の文書及び複数のユーザに関して監視されたアクティビティデータを使用して訓練された教師なし分類器を使用して、前記指定されたユーザを含む前記ピアグループを判定すること
    をさらに含む、請求項3に記載のコンピュータ実施方法。
  5. 電子リソース環境で、エンティティのために格納された複数の文書に関する履歴アクティビティを使用してニューラルネットワークを訓練すること、
    記ニューラルネットワークを使用して、少なくとも1つの決められた期間にわたって前記複数の文書に関して指定されたユーザの予想されるアクティビティを判定すること、
    前記複数の文書のうちの少なくとも指定された文書に関するユーザアクティビティを、少なくとも決められた期間にわたって検出することであって、前記ユーザアクティビティが前記指定されたユーザに関連付けられる、前記ユーザアクティビティを検出すること、 前記指定された文書に関連する少なくとも1つのトピックを判定すること、
    前記少なくとも1つのトピックを、前記予想されるアクティビティに関連するトピックと比較すること、
    前記ユーザアクティビティを、前記ニューラルネットワークを使用して処理して、前記ユーザアクティビティが、前記予想されるタイプのアクティビティから逸脱しているかどうかを判定すること、前記判定は、前記少なくとも1つのトピックと前記予想されるアクティビティに関連する前記トピックとの間のトピックベクトル空間におけるトピック距離に少なくとも部分的に基づいており、及び
    前記ユーザアクティビティが前記予想されるタイプのアクティビティから許容できないほど逸脱すると判断された場合に、決められたアクションを実行すること
    を含むコンピュータ実施方法。
  6. 判定されたリスクスコアに少なくとも部分的に基づいて、実行すべき前記アクションを判定することであって、少なくとも1つのリスク閾値が実行される可能性のあるアクションに関連付けられており、前記アクションは、それぞれがリスクスコアの範囲にそれぞれ関連付けられた複数の可能なアクションの1つであり、前記可能なアクションが、セキュリティアラートの生成、異常なアクティビティデータの記録、または前記指定されたユーザもしくは前記指定された文書の少なくとも1つに関連付けられたアクセス権の調節のうちの少なくとも1つを含む、前記アクションを判定すること
    をさらに含む、請求項5に記載のコンピュータ実施方法。
  7. 前記指定されたユーザを含むピアグループ内のピアのピアアクティビティと前記ユーザアクティビティとをさらに比較すること、
    前記ピアアクティビティに関する前記ユーザアクティビティの第2の逸脱に少なくとも部分的に基づいて、前記ユーザアクティビティが前記予想されるユーザアクティビティから許容できないほど逸脱しているかどうかを判定すること、及び
    前記電子リソース環境の前記複数の文書及び複数のユーザに関して監視されたアクティビティデータを使用して訓練された教師なし分類器を使用して、前記指定されたユーザを含む前記ピアグループを判定すること
    をさらに含む、請求項5に記載のコンピュータ実施方法。
  8. 前記ユーザアクティビティには、アクセスの種類、アクセスの頻度、一定期間のアクセス試行の合計数、アクセスの送信元アドレス、アクセスされたトピック、アクセスされた文書の種類、アクセスの場所、前記アクセスの日もしくは時間、または前記アクセスを取得するために使用されるアプリケーションプログラミングインタフェース(API)呼出しのうちの少なくとも1つが含まれる、請求項5に記載のコンピュータ実施方法。
  9. システムであって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサによって実行されるとき、前記システムに、
    訓練用文書のセットを使用してトピックモデルを訓練することであって、前記セットの各訓練用文書が、少なくとも1つの識別されたトピックと割り当てられたリスクスコアとを有する、前記トピックモデルを訓練すること、
    電子リソース環境全体にわたってエンティティ用に格納されている複数の文書をクロールし、前記複数の文書にインデックスを付けること、
    少なくとも前記トピックモデルを使用して、前記複数の文書の各文書の1つ以上のトピックを判定すること、
    前記複数の文書の各文書のリスクスコアを判定すること、及び
    前記エンティティに関連付けられた許可ユーザによるアクセスのためのセキュリティ情報を提供することであって、前記セキュリティ情報には、前記識別されたトピックの情報と、前記エンティティ用に格納されている前記複数の文書のリスクスコアとが含まれる、前記セキュリティ情報を提供すること
    を行わせる命令を含むメモリと
    を備えた前記システム。
  10. 前記命令が、実行されると、前記システムにさらに、
    前記電子リソース環境の前記エンティティ用に格納された新たな文書または文書の変更のうちの少なくとも1つに対応する更新された文書データを検出すること、及び
    前記更新された文書データのインスタンス毎に前記トピックモデルをさらに訓練すること
    を行わせる、請求項に記載のシステム。
  11. 前記命令が、実行されると、前記システムにさらに、
    自然言語理解(NLU)を利用して前記複数の文書を分析し、前記複数の文書の各文書に関連付けられた1つ以上のトピックを判定すること
    を行わせる、請求項に記載のシステム。
  12. 前記命令が、実行されると、前記システムにさらに、
    前記複数の文書に含まれる複数の要素を判定することであって、前記複数の要素の各要素が、前記エンティティに潜在的なセキュリティリスクをもたらす、前記複数の要素を判定すること、
    前記複数の要素の各要素にそれぞれリスクスコアを割り当てること、及び
    指定された文書に関連付けられた前記要素の1つに対する最高のそれぞれのリスクスコアに少なくとも部分的に基づいて、前記複数の文書のうちの前記指定された文書の前記リスクスコアを判定すること
    を行わせる、請求項に記載のシステム。
  13. 前記命令が、実行されると、前記システムにさらに、
    前記電子リソース環境の前記エンティティ用に格納された新たな文書を検出すること、 前記新たな文書に関連する1つ以上のトピックを判定すること、
    前記新たな文書の前記1つ以上のトピックを有する他の文書に関連付けられた文書バケットに前記新たな文書を割り当てること、及び
    前記文書バケットのバケットリスクスコアに少なくとも部分的に基づいて、前記新たな文書にリスクスコアを割り当てること
    を行わせる、請求項に記載のシステム。
  14. 前記命令が、実行されると、前記システムにさらに、
    前記訓練されたトピックモデルを使用して、前記複数の文書を処理することにより、新しいトピックを学習させること
    を行わせる、請求項に記載のシステム。
JP2019546873A 2017-02-27 2018-02-08 インテリジェントセキュリティ管理 Active JP6888109B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/443,801 US10320819B2 (en) 2017-02-27 2017-02-27 Intelligent security management
US15/443,801 2017-02-27
PCT/US2018/017420 WO2018156359A1 (en) 2017-02-27 2018-02-08 Intelligent security management

Publications (2)

Publication Number Publication Date
JP2020510926A JP2020510926A (ja) 2020-04-09
JP6888109B2 true JP6888109B2 (ja) 2021-06-16

Family

ID=61249735

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019546873A Active JP6888109B2 (ja) 2017-02-27 2018-02-08 インテリジェントセキュリティ管理

Country Status (4)

Country Link
US (2) US10320819B2 (ja)
EP (1) EP3586274A1 (ja)
JP (1) JP6888109B2 (ja)
WO (1) WO2018156359A1 (ja)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11465640B2 (en) * 2010-06-07 2022-10-11 Affectiva, Inc. Directed control transfer for autonomous vehicles
CN105204825B (zh) * 2014-06-05 2020-07-14 腾讯科技(深圳)有限公司 终端系统安全监控的方法和装置
US9798883B1 (en) * 2014-10-06 2017-10-24 Exabeam, Inc. System, method, and computer program product for detecting and assessing security risks in a network
US11468101B2 (en) 2015-05-29 2022-10-11 Kuni Ahi LLC Context-rich key framework implementations for global concept management
US10320819B2 (en) * 2017-02-27 2019-06-11 Amazon Technologies, Inc. Intelligent security management
US10841321B1 (en) * 2017-03-28 2020-11-17 Veritas Technologies Llc Systems and methods for detecting suspicious users on networks
US10841338B1 (en) 2017-04-05 2020-11-17 Exabeam, Inc. Dynamic rule risk score determination in a cybersecurity monitoring system
US10878067B2 (en) * 2017-07-13 2020-12-29 Nec Corporation Of America Physical activity and IT alert correlation
GB2578258B (en) * 2017-08-18 2022-02-16 Landmark Graphics Corp Rate of penetration optimization for wellbores using machine learning
US10623427B2 (en) * 2017-09-08 2020-04-14 Microsoft Technology Licensing, Llc Adaptive online data activity protection
US10686816B1 (en) * 2017-09-28 2020-06-16 NortonLifeLock Inc. Insider threat detection under user-resource bi-partite graphs
US10721246B2 (en) 2017-10-30 2020-07-21 Bank Of America Corporation System for across rail silo system integration and logic repository
US10621341B2 (en) 2017-10-30 2020-04-14 Bank Of America Corporation Cross platform user event record aggregation system
US10728256B2 (en) * 2017-10-30 2020-07-28 Bank Of America Corporation Cross channel authentication elevation via logic repository
US20190180276A1 (en) 2017-12-07 2019-06-13 Bank Of America Corporation Automated Event Processing Computing Platform for Handling and Enriching Blockchain Data
US11196747B2 (en) 2017-12-07 2021-12-07 Bank Of America Corporation Automated event processing computing platform for handling and enriching blockchain data
US11423143B1 (en) 2017-12-21 2022-08-23 Exabeam, Inc. Anomaly detection based on processes executed within a network
US11855971B2 (en) * 2018-01-11 2023-12-26 Visa International Service Association Offline authorization of interactions and controlled tasks
US11431741B1 (en) 2018-05-16 2022-08-30 Exabeam, Inc. Detecting unmanaged and unauthorized assets in an information technology network with a recurrent neural network that identifies anomalously-named assets
US11651314B1 (en) * 2018-06-26 2023-05-16 Gbt Travel Services Uk Limited Determining customer attrition risk
US10733044B2 (en) 2018-07-09 2020-08-04 Microsoft Technology Licensing, Llc Use of cache for content validation and error remediation
JP7320248B2 (ja) * 2018-09-19 2023-08-03 国立大学法人電気通信大学 興味推定方法、興味推定装置および興味推定プログラム
US11374958B2 (en) * 2018-10-31 2022-06-28 International Business Machines Corporation Security protection rule prediction and enforcement
CN109740044B (zh) * 2018-12-24 2023-03-21 东华大学 一种基于时间序列智能预测的企业异动预警方法
CN109783715A (zh) * 2019-01-08 2019-05-21 鑫涌算力信息科技(上海)有限公司 网络爬虫系统及方法
US11074341B2 (en) 2019-02-10 2021-07-27 Microsoft Technology Licensing, Llc Dynamic cybersecurity peer identification using groups
US11625534B1 (en) * 2019-02-12 2023-04-11 Text IQ, Inc. Identifying documents that contain potential code words using a machine learning model
US10447727B1 (en) * 2019-02-27 2019-10-15 Cyberark Software Ltd. Predicting and addressing harmful or sensitive network activity
US11093480B2 (en) * 2019-03-05 2021-08-17 Microsoft Technology Licensing, Llc Aggregation analysis and remediation of data invalidations
CN109918127B (zh) * 2019-03-07 2022-02-11 扬州大学 一种基于代码修改模式差异的缺陷纠错方法
US11301563B2 (en) 2019-03-13 2022-04-12 International Business Machines Corporation Recurrent neural network based anomaly detection
US11757906B2 (en) * 2019-04-18 2023-09-12 Oracle International Corporation Detecting behavior anomalies of cloud users for outlier actions
US11694292B2 (en) * 2019-04-25 2023-07-04 Fair Isaac Corporation Soft segmentation based rules optimization for zero detection loss false positive reduction
CN110222179B (zh) * 2019-05-28 2022-10-25 深圳市小赢信息技术有限责任公司 一种通讯录文本分类方法、装置及电子设备
US11625366B1 (en) 2019-06-04 2023-04-11 Exabeam, Inc. System, method, and computer program for automatic parser creation
US11496495B2 (en) * 2019-10-25 2022-11-08 Cognizant Technology Solutions India Pvt. Ltd. System and a method for detecting anomalous patterns in a network
EP4055505A1 (en) * 2019-11-08 2022-09-14 Bull Sas Method for intrusion detection to detect malicious insider threat activities and system for intrusion detection
US11716338B2 (en) * 2019-11-26 2023-08-01 Tweenznet Ltd. System and method for determining a file-access pattern and detecting ransomware attacks in at least one computer network
US10693804B1 (en) 2019-12-04 2020-06-23 Capital One Services, Llc Using captured configuration changes to enable on-demand production of graph-based relationships in a cloud computing environment
CN113055334B (zh) * 2019-12-26 2023-07-28 国网山西省电力公司信息通信分公司 终端用户的网络行为的监管方法和装置
US11436149B2 (en) 2020-01-19 2022-09-06 Microsoft Technology Licensing, Llc Caching optimization with accessor clustering
US11587161B2 (en) * 2020-03-19 2023-02-21 Intuit Inc. Explainable complex model
CN111539612B (zh) * 2020-04-17 2022-04-01 支付宝(杭州)信息技术有限公司 一种风险分类模型的训练方法和系统
US11363041B2 (en) 2020-05-15 2022-06-14 International Business Machines Corporation Protecting computer assets from malicious attacks
CN111859913B (zh) * 2020-06-12 2024-04-12 北京百度网讯科技有限公司 风控特征因子的处理方法、装置、电子设备及存储介质
US11956253B1 (en) 2020-06-15 2024-04-09 Exabeam, Inc. Ranking cybersecurity alerts from multiple sources using machine learning
US20210397903A1 (en) * 2020-06-18 2021-12-23 Zoho Corporation Private Limited Machine learning powered user and entity behavior analysis
CN112087447B (zh) * 2020-09-07 2022-05-06 广西师范大学 面向稀有攻击的网络入侵检测方法
US20220230090A1 (en) * 2021-01-15 2022-07-21 International Business Machines Corporation Risk assessment of a proposed change in a computing environment
US20220272124A1 (en) * 2021-02-19 2022-08-25 Intuit Inc. Using machine learning for detecting solicitation of personally identifiable information (pii)
US11363048B1 (en) * 2021-03-25 2022-06-14 Bank Of America Corporation Information security system and method for security threat detection in data transmission
US11363049B1 (en) * 2021-03-25 2022-06-14 Bank Of America Corporation Information security system and method for anomaly detection in data transmission
US11363050B1 (en) * 2021-03-25 2022-06-14 Bank Of America Corporation Information security system and method for incompliance detection in data transmission
EP4338069A1 (en) * 2021-05-11 2024-03-20 Telefonaktiebolaget LM Ericsson (publ) Categorizing a new user in an information technology system
KR102365308B1 (ko) * 2021-08-13 2022-02-23 주식회사 데이터아이 인공 신경망을 이용하여 기업 내부 문서의 리스크를 예측하는 방법 및 장치
US20230063489A1 (en) * 2021-08-25 2023-03-02 Bank Of America Corporation Malware Detection with Multi-Level, Ensemble Artificial Intelligence Using Bidirectional Long Short-Term Memory Recurrent Neural Networks and Natural Language Processing
EP4254228A1 (en) * 2022-03-28 2023-10-04 Thales Dis France SAS A training method for training an assembling model to detect a condition
US11971908B2 (en) * 2022-06-17 2024-04-30 Talkdesk, Inc. Method and apparatus for detecting anomalies in communication data

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0973440A (ja) * 1995-09-06 1997-03-18 Fujitsu Ltd コラム構造の再帰型ニューラルネットワークによる時系列トレンド推定システムおよび方法
US7089592B2 (en) * 2001-03-15 2006-08-08 Brighterion, Inc. Systems and methods for dynamic detection and prevention of electronic fraud
JP3948389B2 (ja) 2002-10-24 2007-07-25 富士ゼロックス株式会社 通信分析装置
US7698188B2 (en) * 2005-11-03 2010-04-13 Beta-Rubicon Technologies, Llc Electronic enterprise capital marketplace and monitoring apparatus and method
US8001597B2 (en) * 2006-05-15 2011-08-16 Fair Isaac Corporation Comprehensive online fraud detection system and method
US8479302B1 (en) * 2011-02-28 2013-07-02 Emc Corporation Access control via organization charts
US8682764B2 (en) * 2011-03-01 2014-03-25 Early Warning Services, Llc System and method for suspect entity detection and mitigation
US10572877B2 (en) 2014-10-14 2020-02-25 Jpmorgan Chase Bank, N.A. Identifying potentially risky transactions
EP3213243B1 (en) 2014-10-31 2020-09-09 Proofpoint, Inc. Systems and methods for privately performing application security analysis
JP2016122273A (ja) * 2014-12-24 2016-07-07 富士通株式会社 アラート発信方法、プログラム、及び装置
US10430721B2 (en) * 2015-07-27 2019-10-01 Pivotal Software, Inc. Classifying user behavior as anomalous
US10185832B2 (en) * 2015-08-12 2019-01-22 The United States Of America As Represented By The Secretary Of The Army Methods and systems for defending cyber attack in real-time
WO2017037444A1 (en) * 2015-08-28 2017-03-09 Statustoday Ltd Malicious activity detection on a computer network and network metadata normalisation
US10320819B2 (en) 2017-02-27 2019-06-11 Amazon Technologies, Inc. Intelligent security management

Also Published As

Publication number Publication date
US20180248895A1 (en) 2018-08-30
WO2018156359A1 (en) 2018-08-30
US10320819B2 (en) 2019-06-11
EP3586274A1 (en) 2020-01-01
CN110462606A (zh) 2019-11-15
US20190281076A1 (en) 2019-09-12
JP2020510926A (ja) 2020-04-09
US11102221B2 (en) 2021-08-24

Similar Documents

Publication Publication Date Title
JP6888109B2 (ja) インテリジェントセキュリティ管理
US10931699B2 (en) Systems and methods for detecting security incidents across cloud-based application services
US11379608B2 (en) Monitoring entity behavior using organization specific security policies
US11838298B2 (en) Generating a security risk persona using stressor data
CN112567367B (zh) 用于聚类和加速多个事故调查的基于相似性的方法
US10542021B1 (en) Automated extraction of behavioral profile features
US9661010B2 (en) Security log mining devices, methods, and systems
US11755584B2 (en) Constructing distributions of interrelated event features
US10795738B1 (en) Cloud security using security alert feedback
US11005864B2 (en) Feature-agnostic behavior profile based anomaly detection
US11610021B2 (en) System and method for masking user identity in digital interactions
CN111538978A (zh) 基于从任务危险等级确定的访问权执行任务的系统和方法
AlSlaiman et al. Enhancing false negative and positive rates for efficient insider threat detection
JP2023546842A (ja) コンピューティング資産の自動ヘルスチェック・リスク評価システム、方法、プログラム
US11537668B2 (en) Using a machine learning system to process a corpus of documents associated with a user to determine a user-specific and/or process-specific consequence index
US11223646B2 (en) Using concerning behaviors when performing entity-based risk calculations
CN110462606B (zh) 智能安全管理
Soni et al. Learning-Based Model for Phishing Attack Detection
US20240121242A1 (en) Cybersecurity insider risk management
US11888859B2 (en) Associating a security risk persona with a phase of a cyber kill chain
US20230325523A1 (en) Regulation based protection of data for storage systems
WO2024076453A1 (en) Cybersecurity insider risk management

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190911

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210519

R150 Certificate of patent or registration of utility model

Ref document number: 6888109

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150