JP2019521422A - 異常なユーザ行動関連アプリケーションデータを検出するための方法、装置、およびコンピュータ読み取り可能な媒体 - Google Patents

異常なユーザ行動関連アプリケーションデータを検出するための方法、装置、およびコンピュータ読み取り可能な媒体 Download PDF

Info

Publication number
JP2019521422A
JP2019521422A JP2018560991A JP2018560991A JP2019521422A JP 2019521422 A JP2019521422 A JP 2019521422A JP 2018560991 A JP2018560991 A JP 2018560991A JP 2018560991 A JP2018560991 A JP 2018560991A JP 2019521422 A JP2019521422 A JP 2019521422A
Authority
JP
Japan
Prior art keywords
irregularity
activity
values
data
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018560991A
Other languages
English (en)
Other versions
JP6725700B2 (ja
Inventor
イゴール バラバイン、
イゴール バラバイン、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Informatica LLC
Original Assignee
Informatica LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Informatica LLC filed Critical Informatica LLC
Publication of JP2019521422A publication Critical patent/JP2019521422A/ja
Application granted granted Critical
Publication of JP6725700B2 publication Critical patent/JP6725700B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

異常なユーザ行動を検出するための装置、コンピュータ可読媒体、およびコンピュータ実装方法は、観察区間にわたって収集されたユーザ行動データを記憶することを含み、ユーザ行動データは、複数のデータオブジェクトを含み、複数のユーザに対応する複数のデータオブジェクトを複数のクラスタにグループ分けし、各クラスタに対応する1つ以上の異常値メトリックを計算し、複数のデータオブジェクト内の1つ以上のデータオブジェクトの各々について不規則性スコアを計算し、1つ以上のデータオブジェクトに関する1つ以上のオブジェクトポスチャ内の少なくとも1つのオブジェクトポスチャの各々を、オブジェクトポスチャと同じユーザに対応する1つ以上の先行オブジェクトポスチャと比較して、複数のユーザ内の1人以上のユーザの異常行動を識別する。

Description

本出願は、2016年5月20日に出願された米国非仮出願第15/160,783号の優先権を主張し、その開示は、その全体が参照により本明細書に組み込まれる。
データ資産のモニタリングは、重要なデータ管理と情報技術である。企業およびクラウドサービスプロバイダによってしばしば使用される(IT)機能には、パフォーマンス、信頼性、不正なホスト、疑わしいユーザ活動などに関連する問題について、内部ネットワーク上で発生する活動を監視することが含まれる。
異常検出は、予期される、望まれる、または通常のパターンとは異なる、アイテム、イベント、または挙動の識別である。データ消費者の文脈で研究される場合、異常な挙動の検出メカニズムは、リモートストレージデバイスへのデータバックアップなどの通常のオペレーションによって引き起こされる異常な挙動パターンと、機密データの隠蔽、スキャン、スヌーピング、および正当なユーザ偽装を実行する悪意のあるアクタの存在によって引き起こされる挙動パターンとを区別することが可能でなければならない。
Intel Securityの2014年の調査によると、サイバー犯罪による世界経済の損失は3750億〜5750億ドルと推計されており、サイバー犯罪産業の成長傾向が顕著であることを示している。サイバー犯罪は、民間企業、グローバル企業、個人、政府、軍組織に影響を及ぼす。Sophosは、2013年に8億を超える個人データ記録が損なわれたと推定している。
サイバー犯罪による損失を軽減または排除するためには、悪意のある主体によって引き起こされる異常な活動を検出し、ITセキュリティ担当者にタイムリーに報告しなければならない。
しかし、データユーザの異常な挙動の検出は、観察中のデータユーザおよびデータ資産の数が増加し、各観察された項目またはイベントの複雑さも増加する場合に、非常に困難になる。データユーザの異常挙動を検出することは、複雑な異常検出問題の極端な例である。
従来、データユーザに起因する異常事象の検出は、ネットワークセキュリティアナリストの領域にあった。通常、セキュリティアナリストは、セキュリティインシデントを調査しながら、長年にわたって蓄積されたツールの集合を所有する。これらの調査ツールの大多数は、セキュリティ事件が発見された後に行われる法医学的調査に適している。しかし、発見の時点までに、サイバー犯罪者はすでにその目的を達成し、被害者のデータ資産から貴重な情報を取り出しているかもしれない。
膨大な量のデータ、データ到着率、および関連し得る観察されたパラメータの数のために、機械学習ベースの方法のみが、ユーザ挙動異常検出タスクを処理することができる。異常事象のタイムリーな警告を提供することができる機械学習方法は、教師なし機械学習方法及び教師あり機械学習方法の2つのグループに分類することができる。
教師なし機械学習方法は、「生」データに作用し、エキスパートからの入力を必要としない。自動的であるため、教師なし機械学習方法は、偽陽性が高いという問題がある。
教師あり機械学習は、論議領域についてのアプリオリな知識を仮定し、学習プロセスの基礎としての専門家の情報に基づいている。その知見はより正確であるが、教師あり機械学習法は、かなりの知識ベースを必要とするため、教師なし機械学習法よりも、論議領域の変化に対して適応性が低い。
したがって、ネットワーク環境における異常イベントをリアルタイムで識別し、進行中の違反状況をオペレータに警告するために、異常検出システムにおいて改善が必要とされる。
図1は、例示的な実施形態による、異常なユーザ挙動を検出するための方法のフローチャートを示す。 図2は、例示的な実施形態による、観察区間にわたるユーザ活動データのチャートを示す。 図3は、例示的な実施形態による、正規分布に適合するようにユーザ活動データを変換するためのフローチャートを示す。 図4は、例示的な実施形態によるユーザ活動データに適用される正規化処理の結果を示すチャートである。 図5は、本発明の一実施形態によるユーザ活動データに適用される入力データ次元縮小処理の結果を示すチャートである。 図6は、例示的な実施形態に従ってデータオブジェクトに適用されたクラスタリングステップの結果を示す。 図7は、例示的な実施形態による、データオブジェクトの2つの活動パラメータに対応する2次元空間内のクラスタを示す。 図8は、例示的な実施形態による、クラスタに対する外れ値メトリックとして使用することができる距離ベース外れ値メトリックの視覚化を示す。 図9は、例示的な実施形態による、クラスタに対する外れ値メトリックとして使用することができる密度ベース外れ値メトリックの視覚化を示す。 図10は、例示的な実施形態による、データオブジェクトを含むクラスタのサイズと、データオブジェクトを含むクラスタの1つ以上の外れ値メトリックとに少なくとも部分的に基づいて、複数のデータオブジェクト内の各データオブジェクトの不規則性スコアを計算するためのフローチャートを示す。 図11は、例示的な実施形態による例示的な実施形態による、特異性メトリック、距離ベース外れ値検出信頼度メトリック、および密度ベース外れ値検出信頼度メトリックに少なくとも部分的に基づいて、データオブジェクトの不規則性スコアを決定するためのフローチャートを示す。 図12のA〜Bは、[0,200]区間における特異性メトリックの範囲を複数の特異性レベルにマッピングするファジーメンバーシップ関数と、例示的な実施形態による例示的なマッピングとを示す。 図13のA〜Bは、[0,200]区間における距離ベース外れ値メトリックの範囲を複数の距離ベース外れ値レベルにマッピングするファジーメンバーシップ関数と、例示的な実施形態によるマッピングの例とを示す。 図14のA〜Bは、[0,200]区間における密度ベース外れ値メトリックの範囲を複数の密度ベース外れ値レベルにマッピングするファジーメンバーシップ関数、および例示的な実施形態によるマッピング例を示す。 図15は、例示的な実施形態による、不規則性レベルを決定するためのファジールールのセットを示す表を示す。 図16は、例示的な実施形態による、図15のファジールールセットを使用するデータの仮想セットへのマッピングを示す。 図17のA〜Bは、例示的な実施形態による不規則性決定関数および例を示す。 図18は、例示的な実施形態による、各データオブジェクトに対応する複数の活動パラメータおよび各データオブジェクトの不規則性スコアに少なくとも部分的に基づいて、複数のデータオブジェクトの複数のオブジェクトポスチャを生成するために、複数のデータオブジェクト内の各データオブジェクトに対して実行される方法を示す。 図19は、例示的な実施形態による、サンプルデータオブジェクトにおける活動パラメータおよび不規則性スコアのマッピングを示す。 図20は、例示的な実施形態による、複数の活動パラメータ内の各活動パラメータを、セグメント値のセット内のセグメント値にマッピングし、その活動パラメータに対応するファジーメンバーシップ関数に少なくとも部分的に基づいて、対応する変動値を各活動パラメータに割り当てるためのフローチャートを示す。 図21は、例示的な実施形態による、サンプル活動パラメータへの図20のステップの適用を示す。 図22は、例示的な実施形態による、別のサンプル活動パラメータへの図20のステップの適用を示す。 図23は、例示的な実施形態による、データオブジェクトの不規則性スコアを、不規則性値のセット内の不規則性値にマッピングし、不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいて、対応する不規則性変動値を不規則性スコアに割り当てるためのフローチャートを示す。 図24は、例示的な実施形態による、不規則性値のセットにおける不規則性値への不規則性スコアのマッピング例と、不規則性スコアへの不規則性変動値の割り当て例とを示す。 図25は、実施形態に係るポスチャ生成処理の一例を示す図である。 図26は、例示的な実施形態による、1つ以上の活動パラメータに対応する1つ以上の変動値および1つ以上の活動パラメータに対応する1つ以上のファジーメンバーシップ関数に少なくとも部分的に基づいて、複数の活動パラメータ中の1つ以上の活動パラメータをセグメント値のセット中の1つ以上の追加のセグメント値にマッピングするためのフローチャートを示す。 図27は、例示的な実施形態による、1つ以上の活動パラメータの、1つ以上の追加のセグメント値への例示的なマッピングを示す。 図28は、例示的な実施形態による、不規則性スコアに対応する不規則性変動値および不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいて、不規則性スコアを不規則性値のセット内の1つ以上の追加の不規則性値にマッピングするためのフローチャートを示す。 図29は、例示的な実施形態による、不規則性スコアの1つ以上の追加の不規則性値への例示的なマッピングを示す。 図30は、本発明の実施形態による変動値及び不規則性変動値を除去した後にポスチャを生成する例を示す。 図31は、各ユーザに対応する各オブジェクトポスチャに対して実行され、それによって、複数のオブジェクトポスチャにおける各オブジェクトポスチャを、オブジェクトポスチャと同じユーザに対応する1つ以上の前のオブジェクトポスチャと比較して、例示的な実施形態による、複数のユーザにおける1つ以上のユーザの異常な活動を識別する方法を示す。 図32は、例示的な実施形態による、2つのポスチャ間のレーベンシュタイン距離を示す。 図33は、例示的な実施形態によるユーザ行動異常モジュールの配備を示す。 図34は、例示的な実施形態による、異常なユーザ挙動を検出するための方法を実行するために使用することができる例示的なコンピューティング環境を示す。
本明細書では、方法と、装置と、コンピュータ可読媒体とを、例および実施形態として説明するが、当業者は、異常なユーザ挙動を検出するための方法、装置と、コンピュータ可読媒体とが、説明された実施形態または図面に限定されないことを認識する。図面および説明は、開示された特定の形態に限定されることを意図していないことを理解されたい。むしろ、意図は、添付の特許請求の範囲の精神および範囲内に入るすべての修正、等価物、および代替物を網羅することである。本明細書で使用される見出しはいずれも、編成目的のためだけのものであり、説明または特許請求の範囲を限定することを意味しない。本明細書で使用されるように、単語「may(することができる)」は、必須の意味ではなく、許容される意味(すなわち、可能性を有することを意味する)で使用される。同様に、単語「include(含む)」、「including(含む)」、および「includes(含む)」は、これらに限定されないが、含んでいることを意味する。
本出願人は、異常なユーザ挙動を検出するための方法、装置、およびコンピュータ可読媒体を発見した。開示された方法およびシステムは、活動パラメータ、データオブジェクトのポスチャ記述の作成、データオブジェクトのポスチャパターンにおける変化の時間的追跡、および識別された変化の分類などの1つ以上の属性によるデータオブジェクトの特徴付けを含む。より詳細には、開示された方法およびシステムは、データ資産の監視を通じて取得されたユーザ活動メタデータの処理を含み、これは、メタデータの消費者にタイムリーな方法で報告される有用な情報を効率的にもたらすことができる。
本出願人は、観察中のデータオブジェクトの状態の時間的変化(「ポスチャ(posture)」)を記述し評価する新規なアプローチを発見した。このようなポスチャの一時的なシーケンスは、観察中のデータオブジェクトに関する行動パターンを含み、オブジェクトのポスチャの経時的な著しい変化は、偏差に関する通知に変換される。
本システムは、各々が前記データオブジェクトの特定の属性の状態を特徴付ける塩基要素のDNA様配列を使用することによって、データオブジェクト記述に対する新規なアプローチを導入する。データオブジェクトの属性を記述する基本要素は、オペレータによって容易に理解され操作される言語カテゴリの有限セットから取られる。
本システムは、教師なし機械学習技術の予測的特徴を、教師あり機械学習アルゴリズムのロバストな分類能力と新規な方法で組み合わせることによって、教師なし機械学習方法と教師あり機械学習方法の両方を利用する。
本システムは、データオブジェクトの属性の特定のタイプに限定されない。データオブジェクトの属性は、連続変数、公称変数、順序変数、対称及び非対称バイナリ変数の形式をとることができるが、これらに限定されない。
本システムは、事後分析に頼ることなくストリーミング方式で動作することができ、データオブジェクトの挙動変化に関する情報をリアルタイムで提供することができる。本発明で開示される方法は、休止中のデータオブジェクトの挙動情報にも適用可能であることを理解されたい。
この説明は、データオブジェクト属性が活動パラメータであるデータ消費者挙動の分析を含む例を含むが、開示された方法、システム、およびコンピュータ可読媒体は、ネットワークエンドポイント、金融取引、あらゆる種類のテレメトリ、人口統計学的傾向、炭化水素リザーバなどの任意のデータオブジェクトの挙動パターンを分析するためにも利用することができる。例えば、本明細書に開示される異常データ検出のための方法およびシステムは、油井に配備されたセンサによって報告される石油化学製品の化学組成の変化の検出のために、または金融取引ネットワークにおける異常パターンを見つけるために利用され得る。前者の例では、データオブジェクトは、様々なセンサからのセンサ読み取り値であることができ、各データオブジェクトは、異なるセンサに対応する。後者の例では、データオブジェクトは、注文帳における取引または実行された取引であることができ、各データオブジェクトは、取引の1つ以上の当事者、取引プラットフォーム、または取引所に対応する。
図1は、例示的な実施形態による、異常なユーザ挙動を検出するための方法のフローチャートを示す。ステップ101において、ユーザ活動データが観察区間にわたって収集される。
観察区間に加えて、別個のユーザ活動データ収集区間があってもよい。例えば、ユーザ活動データ収集区間の長さは、30秒から1週間であり得る。観察区間は、ユーザ活動データ収集区間の倍数とすることができる。例えば、観察区間の長さは、ユーザ活動データ収集区間の20〜40倍の間であり得る。このシナリオでは、ユーザ活動データは、ユーザ活動データ収集区間ごとに収集され、異常なユーザ挙動の検出は、それぞれの観察区間ごとに行われる。もちろん、単一の時間区間を、ユーザ活動データ収集区間および観察区間の両方に利用することができる。
ユーザ活動データは、複数のユーザに対応する複数のデータオブジェクトを含むことができ、複数のデータオブジェクト内の各データオブジェクトは、複数の活動パラメータ(データオブジェクトの属性)を含むことができる。例えば、複数の活動パラメータは、観察期間においてユーザによってアクセスされる多数のデータストア、観察期間においてユーザによってアクセスされる多数の機密データストア、観察期間においてユーザによって影響を受ける多数のレコード、観察期間におけるユーザによる多数の要求、観察期間におけるユーザによるアクセス時間(時間、平日、および/または日付を含む)、観察期間におけるユーザによる多数の機密要求、観察期間においてユーザによって影響を受ける多数の機密レコード、および/またはユーザの地理的位置のうちの1つ以上を含むことができる。
複数の活動パラメータはまた、ユーザのユーザホスト再配置異常メトリック、ユーザ活動タイミング異常メトリック、および/または転送ネットワークパスメトリックを含むことができる。ユーザホスト再配置異常メトリックは、ユーザ再配置/位置の不規則性の度合いを示す[0,1]区間の値である。1に近い値は異常なユーザ再配置を示す。ユーザ活動タイミング異常メトリックは、ユーザ労働時間のばらつきの度合いを示す[0,1]区間の値である。1に近い値は異常なユーザ労働時間を示す。ユーザの転送ネットワークパスは、ユーザが内部ネットワーク(例えば、VPN、無線、LAN)上にいる間にリソースにアクセスした場所である。これは、確率的アプローチを用いて定量化される名目データである。転送ネットワークパスメトリックは、特定のユーザがVPNアドレスプールからまたは特定の無線LANから作業する頻度など、転送ネットワークパスデータに関連するいくつかのメトリックを含むことができる。
図2は、例示的な実施形態による、観察区間にわたるユーザ活動データのチャート200を示す。図2に示すように、19個のデータオブジェクトがあり、その各々は、3つの活動パラメータ201A、201B、および201Cを含む。19個のデータオブジェクトの各々は、異なるユーザについての活動データに対応することができる。活動パラメータ201Aは、対応するユーザによってアクセスされるデータストアの数に対応し、活動パラメータ201Bは、対応するユーザによってなされる要求の数に対応し、活動パラメータ201Cは、対応するユーザによってアクセスされる機密データストアの数に対応する。例えば、データオブジェクト19は、括弧202によって示される値を含む。具体的には、データオブジェクト19は、ユーザ19に対応し、図に示すように、ユーザ19は、51個のデータストアにアクセスし、31個の要求を行い、10個の機密データストアにアクセスする。図2は、説明のみの目的で提示されており、実際のユーザ活動データまたは他の入力データセットは、より多くのまたはより少ない次元および/または異なる活動パラメータを有することができる。
図1に戻ると、任意選択で、ステップ102で、ユーザ活動データを正規分布に適合するように変換することができる。システムは、多変量正規性(ガウス(Gaussian))分布に従う入力データを利用することを要求され得る。この場合、入力データは正規性をチェックし、必要に応じて正規分布に変換することができる。
図3は、正規分布に適合するようにユーザ活動データを変換するフローチャートを示す。ステップ301では、複数の活動パラメータのうちの1つ以上の活動パラメータに対応するユーザ活動データが正規分布に適合するかどうかが判定される。
ユーザ活動データが正規分布であるかどうかを決定するために、その分布は、コルモゴロフ−スミノフ(Kolmogorov−Smirnov)検定を実行することによって正規分布に従う周知のテストデータセットの分布と比較される。もちろん、コルモゴロフ−スミノフ検定の代わりに、シャピロウィルク(Shapiro−Wilk)多変量正規性検定またはアンダーソン−ダーリング(Anderson−Darling)検定のような他の統計的分布検定を用いることもできる。
ステップ302において、1つ以上の活動パラメータに対応するユーザ活動データは、1つ以上の活動パラメータに対応するユーザ活動データが正規分布に適合しないという決定に少なくとも部分的に基づいて、正規分布に適合するように変換される。
ユーザ活動データが正規分布から逸脱すると判定された場合、そのデータを、1パラメータBox−Coxパワー変換を使用して変換することができる。
ここで、λは、プロファイル尤度関数を用いて推定される。
もちろん、非正規データは、「Tukey’s Ladder of Powers」または類似の方法などの他の手段によって、正規分布に従うように変換することができる。
図1に戻ると、任意選択で、ステップ103で、複数の活動パラメータ内の1つ以上の活動パラメータに対応するユーザ活動データを正規化することによって、ユーザ活動データを正規化することができる。
ユーザ活動データが多次元である結果として、活動パラメータの各々に対応する各データ次元は、他の活動パラメータに対応する他のデータ次元からスケールが大幅に変化し得る。例えば、#Data Stores Accessedメトリックは、1から10の間で変化し得るが、アクセスされたデータレコードの数およびアクセスされた機密データレコードの数のような他のメトリックは、数百万でカウントされ得、アウトバウンドパケットサイズメトリックの入力を容易に抑制し得る。正規化プロセスは、入力データスケーリング問題を解決する。
ユーザ活動パラメータに対応するメトリックの各々について、正規化は、各データポイントX(i)メトリック(下記の数2で表されるX^(i)、ただし、^は「X」上のチルダを表す)を、そのメトリックの10パーセンタイルと90パーセンタイルとの間に単位距離が存在するような方法で、再計算することによって実行することができる。
ここで、X(i)={x(i)}、j=1、...、N、f(y)−メトリック測定値のpパーセンタイルを返す関数、である。
最初の正規化ステップが完了すると、シグモイド関数を適用することによって、メトリックをさらに[0,1]区間に正規化することができる。
ここで、μ=f50(X(i)−メトリック中央値、β=f90(X(i))−シグモイド関数の「曲点」、である。
もちろん、ユーザ活動データ正規化ステップは、双曲線正接、Zスコアなどの異なる正規化変換を適用することによって実行することができる。
図4は、図2のユーザ活動データに適用される正規化処理の結果を示すチャート400を示す。図4に示すように、活動パラメータの各々の値は、0〜1の間である。
図1に戻ると、任意選択で、ステップ104で、複数の活動パラメータ内の1つ以上の活動パラメータに対応するデータを除去することによって、ユーザ活動データ内の次元数を減らすことができる。このプロセスは、ユーザ活動データ内の重要なメトリックを見つけ、多次元入力データ空間内のノイズに等しい他のメトリックを廃棄するように構成され、したがって、ユーザ活動データの次元を低減する。
入力データ(ユーザ活動データ)の次元数を減らすことにより、主成分分析を行うことにより、後続のクラスタリングステップの高速化が達成される。(「PCA」)メソッドは、元の論議領域におけるデータオブジェクトの次元の数と比較して、データオブジェクトの次元の数を減らす。PCA入力データ次元数低減方法は、共分散行列の固有ベクトルが新たな座標軸となるように入力データ座標を変換する。
PCAは単に座標系を変換するだけであるが、実際のデータ次元縮小手順は、ホーン(Horn)の並列分析(「PA」)技法を使用することによって達成することができる。
PAは、実際のデータセットの固有値を、実際のデータセットと同じ次元の補正されていない正規変数の人工データセットの固有値と比較することに基づく。実際のデータセットの次元性は事前に知られているが、実際のユーザ活動データセットのサイズは可変であり、予測することはできない。データセットサイズの変動性により、未訂正正規変数固有値の事前生成テーブルを、実行時にPCA手順を実行するときに使用することができる。未訂正正規変数固有値のテーブルは、オフラインで生成することができ、実行時に補間することができる。
もちろん、PCA方法とPA方法の組み合わせ以外の技術を使用して、入力データの次元を低減することができる。例えば、線形判別分析法または十分な寸法縮小アプローチを使用して、入力データの寸法縮小の目的を達成することもできる。
図5は、図3のユーザ活動データに適用される入力データ次元縮小処理の結果を示すチャート500を示す。図4〜図5に示すように、「#of sensitive data stores accessed」の活動パラメータに対応するデータが、ユーザ活動データから除去され、それにより、データセットが3次元から2次元に低減される。もちろん、図5に示す結果は例示のみを目的としており、データ次元縮小ステップの実際の結果は異なっていてもよい。
図1に戻ると、ステップ105において、複数のデータオブジェクトは、各データオブジェクトに対する複数の活動パラメータに少なくとも部分的に基づいて、複数のクラスタにグループ化される。クラスタリングステップは、入力データ次元縮小ステップ104、正規化ステップ103、変換ステップ102、または収集ステップ101の出力を受け取ることができる。さらに、クラスタリングステップは、類似のデータポイントのグループ(「クラスタ」)に関する情報を出力する。
データオブジェクトのクラスタリングは、入力データオブジェクトをクラスタリングするために、階層(「BIRCH」)を使用するバランス型反復縮小およびクラスタリングを使用して実行することができる。BIRCHは、大量の多変量データを分析するために開発されたロバストなクラスタリングアルゴリズムである。このアルゴリズムは、入力データを連続的に取り込むことができる。クラスタリングステップは、以下に説明する4つのステップを含む。
第1のステップは、クラスタリング特徴(「CF」)ツリーを構築することであり、このステージの間、入力データはBツリー様構造にロードされ、データオブジェクトは、データオブジェクト間の相対ユークリッド距離に基づいてリーフノードにおいて集められる。しきい値をマージするデータオブジェクトは、BIRCHアルゴリズムの入力パラメータであり、最初に小さな値に設定される。入力データを[0,1]区間に正規化する場合、0.0001などの比較的小さいマージ閾値を用いることができる。さらに、後述するように、閾値は、後続の中間ステップ中に自動的に補正することができる。
第2のステップは、CFツリー凝縮である。この動作は、CFツリーが予め設定されたサイズを超えたときに開始することができる。この時点で、サンプルマージ閾値を再計算することができ、CFツリーを再構築することができる。次に、既存のCFツリー内のエントリ間の距離から、マージ閾値の新しい値を導出することができる。
第3のステップは、グローバルクラスタリングであり、このステップにおいて、BIRCHクラスタリングアルゴリズムは、規則的なクラスタリングアルゴリズムをCFツリー内に収集された情報に適用する。例えば、BIRCHアルゴリズムの実装は、2つのグローバルクラスタリングオプションを利用することができる。CFツリーリファインメントおよび階層クラスタリング(「HC」)。HCは、より細かい粒度クラスタを生成することができるが、その実行時間はかなり長く、メモリ消費量は、CFツリー精緻化手順のものよりもかなり高い。
第4のステップは、クラスタマッチングである。このステップの間、入力データオブジェクトは、リファインメントステップの後に生成されたクラスタとマッチングされる。
クラスタリングステップについてBIRCHアルゴリズムを上述したが、クラスタリングステップ中にBIRCH以外のクラスタリング方法を使用することができる。例えば、DBSCANまたはK−meansなどのクラスタリングアルゴリズムを使用して、データオブジェクトをクラスタにグループ化することができる。
図6は、図5に示されるデータオブジェクトに適用されるクラスタリングステップの結果を示す。図6に示すように、図5に示す19個のデータオブジェクトをグループ化するために、7個のクラスタ(CLUSTER)が生成される。例えば、クラスタ5は、データオブジェクト(Data Object)9およびデータオブジェクト10を含む。別の例では、クラスタ11はデータオブジェクト11のみを含む。もちろん、これらのクラスタは、例示のみのために提供され、図5のデータに上述のクラスタリングステップを適用した結果は異なり得る。
図1のステップ106において、複数のクラスタ内の各クラスタに対応する1つ以上の外れ値メトリックが計算される。1つ以上の外れ値メトリック内の各外れ値メトリックは、対応するクラスタが複数のクラスタ内の他のクラスタからどの程度外れているかを測定することができる。このステップは、結果として得られるクラスタの集合において、外れているエンティティ(結果として得られる集合内の他のクラスタの大部分の外側に位置する1つ以上のクラスタである)の存在についてチェックする。
1つ以上の外れ値メトリックは、距離ベース外れ値メトリックおよび密度ベースのクラスタ外れ値メトリックのうちの1つ以上を含むことができる。これらのタイプの外れ値メトリック間の差異は、図7〜9を参照して説明される。
図7は、図5のデータオブジェクトの2つの活動パラメータに対応する2次元空間における図6のクラスタを示す。各クラスタは、クラスタ内に含まれるデータオブジェクトの平均値にプロットされる。例えば、クラスタ5は、データオブジェクト9およびデータオブジェクト10を含む。データオブジェクト9とデータオブジェクト10との間でアクセスされたメトリックを記憶するデータの平均数は0.25である(図5に示すように正規化された場合)。データオブジェクト9とデータオブジェクト10との間の要求メトリックの平均数は、0.40である(図5に示すように正規化された場合)。図7のグラフのx軸はアクセスされたデータストアの数であり、y軸は要求の数である。したがって、クラスタ5は点(0.25,0.40)にプロットされる。
もちろん、ユーザ活動データがより多くの次元を含む場合、クラスタは、対応する次元空間にプロットすることができる。図7のプロットは、例示のみのために提供され、限定することを意味しない。例えば、ユーザ活動データ(または変換、正規化、および/または次元縮小後のユーザ活動データ)がk次元を有する場合、クラスタをプロットすることができ、k次元空間について外れ値メトリックを計算することができる。
図8は、クラスタに対する外れ値メトリック、マハラノビス外れ値分析(「MOA」)として使用することができる距離ベース外れ値メトリックの視覚化を示す。マハラノビス距離は、点Pと分布Dとの間の距離の尺度であり、この尺度を計算するための原点は、図8の点800として示されるクラスタの重心(質量中心)にある。この距離を計算するときの第1の座標軸801は、分散が最大である任意の方向であるクラスタのスパイン(spine)に沿って延びる。第2の座標軸802は第1の軸801に対して垂直に延び、原点800は第1の軸801と第2の軸802との交点にある。図8を参照すると、各クラスタのマハラノビス距離は、クラスタから原点800までの座標軸801および802に対して測定された距離である。
上述したように、距離ベース外れ値検出は、クラスタリングステップ中に発見されたクラスタのマハラノビス距離(「MD」)を計算することによって実行することができる。最大のMD値(クラスタシステムの質量中心からの距離の単位中立尺度)を有するクラスタは、外れ値候補とみなされる。
距離ベース外れ値検出信頼度メトリックは、以下のように計算することができる。
M0A = 100p/[1−pcrit(δ,n,p)]
ここで、pcrit(δ,n,p)は、P.Filzmoserによって提案されたアルゴリズムを使用して、外れ値と極値とを区別するための臨界値である。決定は、分布のテールにおける経験的分布と理論的分布との間の差の尺度に基づいて行われ、クラスタの集合における外れ値の尺度として考慮される。
図9は、クラスタに対する外れ値メトリック、ローカル外れ値ファクタ(「LOF」)として使用することができる密度ベース外れ値メトリックの視覚化を示す。LOFは、クラスタの局所密度に基づく。各クラスタの局所性は、k個の最近傍によって与えられ、その距離は、密度を推定するために使用される。オブジェクトの局所密度をその近傍の局所密度と比較することによって、類似の密度の領域、ならびにそれらの近傍よりも低い密度を有する点を識別することができる。これらは外れ値と考えられる。
密度に基づく外れ値の検出は、所与のノードからそのK個の最近傍(「K−NN」)までの距離を評価することによって実行される。K−NN法は、クラスタシステム内のすべてのクラスタについてユークリッド距離行列を計算し、次いで、各クラスタの中心からそのK個の最近傍までの局所到達可能性距離を評価する。前記距離マトリックス局所到達可能性距離に基づいて、各クラスタについて密度が計算され、各クラスタについての局所外れ因子(「LOF」)が決定される。大きなLOF値を有するクラスタは、外れ値候補として考慮される。
図9は、点線の円901として示されるクラスタ5の3−NN距離の視覚化と、点線の円902として示されるクラスタ7の3−NN距離の視覚化とを示す。図に示すように、クラスタ7の局所密度は、クラスタ5の局所密度よりもはるかに低い。
密度ベースのクラスタ外れ値信頼度メトリックは、以下のように計算することができる。
ここで、LOFは計算された局所的外れ値係数であり、tLOFは経験的LOFしきい値である。より高い計算されたLOF値を有するクラスタは、外れ値とみなされる。
マハラノビス外れ値などの外れ値検出方法の適用に加えて、分析および局所的外れ値因子、別の補助的外れ値検出方法も、これらの外れ値検出方法の結果に適用することができる。例えば、グラブス検定は、外れたクラスタの不規則性の程度をさらに定量化する目的で、第1の外れ値検出ステップの結果に適用することができる。
グラブス検定は、クラスタリングステップ中に作成されたクラスタの集合における単一の外れ値を検出するために使用することができる。グラブス検定は、MOAおよびLOF評価の結果のさらなる検証に適用することができる。
グラブス検定信頼度メトリックは、以下のように計算することができる。
ここで、Gは、グラブス検定統計量であり、Gcritは、片側検定のための「外れ値なし」仮説(「帰無仮説」)を拒絶するための閾値である。
クラスタリングステップ中に生成されるクラスタの集合に複数の外れ値検出方法を適用することにより、クラスタリングステップ結果の解釈が向上する。本開示は、3つの外れ値検出方法を説明するが、外れ値検出方法のうちの1つまたは2つのみをクラスタリングステップ結果に適用することができることを理解されたい。
さらに、MOA、LOFおよびグラブス検定以外の外れ値検出方法を、外れ値検出に使用することができる。例えば、最小共分散決定アルゴリズムまたは「カーネルトリック」法を、外れ値クラスタ検出に使用することができる。
さらに、クラスタではなく、個々のデータ点に対して外れ値検出方法を適用することができる。しかしながら、クラスタに外れ値検出方法を適用することは、外れ値検出方法を各個々のデータオブジェクトに別々に適用することによるよりも、外れたデータ点のより速い発見を達成する。
図1に戻ると、ステップ107において、不規則性スコアが、データオブジェクトを含むクラスタのサイズと、データオブジェクトを含むクラスタの1つ以上の外れ値メトリックとに少なくとも部分的に基づいて、複数のデータオブジェクト内の各データオブジェクトに対して計算される。このステップは、クラスタリングコンポーネントによって識別された各クラスタに不規則性の尺度を割り当てる。さらに、この不規則性スコアは、データオブジェクト(活動パラメータ)に対応するメトリックの集合に組み込むことができる。
不規則性スコアは、所与のデータオブジェクトが論議領域内の他のデータオブジェクトに類似する度合いを記述する。不規則性スコアは、所与のオブジェクトが、類似のオブジェクトのセットにおける異常であることにどれだけ近いかを伝える。不規則性スコアは、任意の値の範囲内に入ることができる。例えば、不規則性スコアは、0と1の間の値をとることができる。この場合、1の不規則性メトリックは、他のデータオブジェクトの中で最終的に目立つデータオブジェクト(またはクラスタ)に対応することができる。
図10は、例示的な実施形態による、データオブジェクトを含むクラスタのサイズと、データオブジェクトを含むクラスタの1つ以上の外れ値メトリックとに少なくとも部分的に基づいて、複数のデータオブジェクト内の各データオブジェクトの不規則性スコアを計算するためのフローチャートを示す。
ステップ1001で、クラスタのサイズに基づいて、データオブジェクトを含むクラスタの特異性メトリックが計算される。特異性メトリックは、データオブジェクトがグループ化されるクラスタのサイズから導出され、クラスタサイズの範囲を様々な特異性メトリックにマッピングすることができる特異性メンバーシップ関数によって決定することができる。
特異性メンバーシップ関数は、特異性メトリック/スコアに関してクラスタのサイズを記述する。特異性メンバーシップ関数の論議領域は、より高い特異性メトリックを有するより小さなクラスタを有する[0,200]区間であり得る。例えば、単一のメンバを有するクラスタは、200の特異性メトリックを有する。図6を参照すると、クラスタ6、クラスタ7、およびクラスタ8はすべて、この例では200の特異性メトリックを有する。
あるいは、クラスタの特異性メトリックは、何らかの所定の式または技法を使用して、クラスタのサイズから計算することができる。例えば、すべてのクラスタのサイズは、正規化された分布およびある範囲の値に適合させることができる。または、特異性メトリックは、クラスタサイズとの何らかの線形または多項式関係に基づくことができる。
図10のステップ1002において、データオブジェクトを含むクラスタの距離ベース外れ値メトリックが計算される。先に論じたように、距離ベース外れ値メトリックは、マハラノビス外れ値分析(「MOA」)法の結果とすることができる。ステップ1003で、グラブス検定を距離ベース外れ値メトリックに任意に適用することができる。前述のように、距離ベース外れ値メトリックへのグラブス検定の適用は、距離ベース外れ値メトリックの結果を増幅する。
ステップ1004で、データオブジェクトを含むクラスタの密度ベース外れ値メトリックが計算される。先に論じたように、密度ベース外れ値メトリックは、局所的外れ値因子(「LOF」)計算の結果とすることができる。ステップ1005において、グラブス検定は、密度ベース外れ値メトリックにオプションで適用することができ、これは、密度ベース外れ値メトリックの結果を増幅する効果を有する。
ステップ1006で、データオブジェクトの不規則性スコアが、特異性メトリック、距離ベース外れ値メトリック、および密度ベース外れ値メトリックに少なくとも部分的に基づいて決定される。不規則性スコアを決定する関数は、以下のように表すことができる。
l(x)=f(l(x),l(x),G(x),l(x),G(x))
ここで、xは問題のデータオブジェクトである。
(x)は、クラスタリングステップ中にデータオブジェクトxがグループ化されるクラスタの大きさから導出されるデータオブジェクトのx特異性メトリックである。
(x)、l(x)は、距離ベースおよび密度ベース外れ値の決定によってそれぞれ計算される信頼度メトリックである。
(x)、G(x)は、距離ベースおよび密度ベース外れ値の決定にそれぞれ適用されるグラブス検定によって計算される信頼度メトリックである。
図11を参照して説明したように、不規則性スコアI(x)は、ファジー推論に基づいて決定することができる。図11は、例示的な実施形態による、特異性メトリック、距離ベース外れ値検出信頼度メトリック、および密度ベース外れ値検出信頼度メトリックに少なくとも部分的に基づいて、データオブジェクトの不規則性スコアを決定するためのフローチャートを示す。
ステップ1101において、特異性メトリックは、特異性メトリックの値の範囲を複数の特異性レベルにマッピングする第1のファジーメンバーシップ関数に基づいて、複数の特異性レベルにおける1つ以上の特異性レベルにマッピングされる。
この一例を図12A〜12Bに示す。図12Aは、[0,200]区間における特異性メトリックの範囲を、low、medium、high、およびvery highを含む複数の特異性レベルにマッピングするファジーメンバーシップ関数1200を示す。ファジーメンバーシップ関数1200のy軸は、確率値を示す。図に示すように85の特異性メトリック1201に対応する点1203は、lowとmediumの2つの特異性レベルにマッピングされる。
図11のステップ1102において、距離ベース外れ値メトリックは、距離ベース外れ値メトリックの値の範囲を複数の距離ベース外れ値レベルにマッピングする第2のファジーメンバーシップ関数に基づいて、複数の距離ベース外れ値レベルにおける1つ以上の距離ベース外れ値レベルにマッピングされる。この距離ベース外れ値メトリックは、最初の距離ベース外れ値メトリックに適用されたグラブス検定の結果を組み込んだ修正された距離ベース外れ値メトリックとすることができる。
この一例を図13A〜図13Bに示す。図13Aは、[0,200]区間における距離ベース外れ値メトリックの範囲を、low、medium、high、およびvery highを含む複数の距離ベース外れ値レベルにマッピングするファジーメンバーシップ関数1300を示す。ファジーメンバーシップ関数1300のy軸は、確率値を示す。図に示すように図13A〜図13Bでは、80の距離ベース外れ値メトリック1301に対応する点1303が、距離ベース外れ値レベルMediumにマッピングされる。
図11のステップ1103で、密度ベース外れ値メトリックは、密度ベース外れ値メトリックの値の範囲を複数の密度ベース外れ値レベルにマッピングする第3のファジーメンバーシップ関数に基づいて、複数の密度ベース外れ値レベルにおける1つ以上の密度ベース外れ値レベルにマッピングされる。この密度ベース外れ値メトリックは、初期密度ベース外れ値メトリックに適用されたグラブス検定の結果を組み込んだ修正された密度ベース外れ値メトリックとすることができる。
この一例を図14A〜14Bに示す。図14Aは、[0,200]区間における密度ベース外れ値メトリックの範囲を、low、medium、high、およびvery highを含む複数の密度ベース外れ値レベルにマッピングするファジーメンバーシップ関数1400を示す。ファジーメンバーシップ関数1400のy軸は、確率値を示す。図14A〜14Bに示すように、160の密度ベース外れ値メトリック1401に対応する点1403は、密度ベース外れ値レベルVery Highにマッピングされる。
図11のステップ1104において、1つ以上の特異性レベル、1つ以上の距離ベース外れ値レベル、および1つ以上の密度ベース外れ値レベルの1つ以上の組み合わせが、複数の特異性レベル、複数の距離ベース外れ値レベル、および複数の密度ベース外れ値レベルの組み合わせを複数の不規則性レベルにマッピングするファジールールの組に基づいて、複数の不規則性レベルにおける1つ以上の不規則性レベルにマッピングされる。
ファジールールのセットは、「If Singularity is x AND MOA value is y AND LOF value is z THEN Irregularity is r」のようなフォーマットとすることができる。
ここで、
は、それぞれ特異性、距離、密度、および不規則性メトリックのファジーサブセットを表すように選択された言語変数のセットである。
もちろん、ファジールールの他のセットを利用することもでき、これらのルールは単なる例として提供される。例えば、ファジールールのセットは、不規則性メトリックの言語変数への代替マッピングを選択することによって、または異なる言語変数を全体的に選択することによって、異なる方法で構築することができる。さらに、メトリックとファジーレベルとの間でマップするために使用されるファジーメンバーシップ関数は、エキスパート入力に基づいて構築されるか、または進化的アルゴリズムなどの最大計算方法を使用することによってエントロピー最大化アプローチを使用して計算され得る。
上述のようなファジールールセットを示すテーブル1500を、図15に示す。表1500に示されるように、特異性レベル、距離ベース外れ値レベル、および密度ベース外れ値レベルの各組合せは、不規則性レベルにマッピングされる。
図16は、仮想データセット1600に対する、図15のファジールールのセットを使用する、図11のステップ1104の適用を示す。データ1600のセットは、図12Bの特異性レベル1202(Low、Medium)、図13Bの距離ベース外れ値レベル1302(Medium)、および図14Bの密度ベース外れ値レベル1402(Very High)を含む。
図16に示すように、特異性レベル、距離ベース外れ値レベル、および密度ベース外れ値レベルの2つの組合せ1601を、これらの値から生成することができる。組み合わせの数は、単に入力レベル値の全置換の数である。2つの特異性レベル、1つの距離ベース外れ値レベル、および1つの密度ベース外れ値レベルがあるので、特異性レベル、距離ベース外れ値レベル、および密度ベース外れ値レベルの可能な組合せは、2×1×1=2順列より、2とおり存在する。
1602において、図15のファジールールのセットが2つの組合せに適用される。
この結果、第1の組み合わせおよび第2の組み合わせにそれぞれ対応する2つの不規則性レベル1603、LowおよびMediumが生じる。
図11に戻ると、ステップ1105において、不規則性判定関数が1つ以上の不規則性レベルに適用されて、不規則性スコアが生成される。図17Aは、不規則性決定機能1700の一例を示す。図17Aに示されるように、不規則性決定関数1700の論議領域は、[0,1]区間である。
図17Bに示されるように、2つの不規則性レベル(LowおよびMedium)(図16の2つの不規則性レベル1603に対応する)が与えられると、不規則性決定関数1700に基づく対応する不規則性スコア1702は、0.3および0.5となる。これは、不規則性決定関数1700で見ることができ、ここで、不規則性レベルLowの100%確率に対応する不規則性スコアは0.3であり、不規則性レベルMediumの100%確率に対応する不規則性スコアは0.5である。
不規則性レベルLowおよび不規則性レベルMediumに対する確率分布は隣接しており、同じサイズであるので、結果として生じる不規則性スコア1703は、これら2つの不規則性スコアの不規則性スコアスケールに沿った中間点によって与えられる。中間点は、(0.3+0.5)/2=(0.8)/2=0.4である。これは、データオブジェクト(および同じクラスタ内のすべてのデータオブジェクト)の全体的な不規則性スコアである。ファジールールセットの明瞭な出力(データオブジェクトの全体的な不規則性メトリック)は、Mamdaniアプローチを用いて得ることができる。さらに、ファジールールのセットの明瞭な出力は、Sugeno_type計算を用いて得ることができる。
もちろん、図11のステップ1104の終わりに、単一の不規則性レベルのみがあった場合、データオブジェクトの全体的な不規則性スコアは、図17の決定関数1700に基づくそのスコアに対応する不規則性レベルである。
各データオブジェクトの全体的な不規則性スコアが決定された後、それは、データオブジェクトを特徴付ける複数の活動パラメータのような、データオブジェクトの他の属性と共に記憶されることができる。代替的に、それは別個に記憶され得るが、1つ以上の対応するデータオブジェクトに関連付けられ得る。例えば、クラスタレベルで各クラスタについて不規則性スコアを決定することができ、次いで、各クラスタについての各不規則性スコアを、そのクラスタ内でグループ化されたすべてのデータオブジェクトに関連付けることができる。
図1に戻ると、ステップ108において、複数のオブジェクトポスチャが、各データオブジェクトに対応する複数の活動パラメータおよび各データオブジェクトの不規則性スコアに少なくとも部分的に基づいて、複数のデータオブジェクトに対して生成される。複数のデータオブジェクトにおける各データオブジェクトは、複数のユーザにおけるユーザに対応するので、複数のオブジェクトポスチャにおける各生成されたオブジェクトポスチャは、複数のユーザにおけるユーザにも対応する。
図18は、例示的な実施形態による、各データオブジェクトに対応する複数の活動パラメータおよび各データオブジェクトの不規則性スコアに少なくとも部分的に基づいて、複数のデータオブジェクトの複数のオブジェクトポスチャを生成するために、複数のデータオブジェクト内の各データオブジェクトに対して実行される方法を示す。上述したように、図18のステップは、各データオブジェクトに対して実行される。
図1のステップ107の後、n+1次元空間内のデータオブジェクトXは、以下のように表すことができる。
X={x,I},i=1,...,n
ここで、xは、データオブジェクトXのi番目の活動パラメータ(属性/次元)であり、Iは、データオブジェクトXについて計算された全体的な不規則性尺度である。
図18のステップ1801において、複数の活動パラメータにおける各活動パラメータは、セグメント値のセットにおけるセグメント値にマッピングされ、対応する変動値は、その活動パラメータに対応するファジーメンバーシップ関数に少なくとも部分的に基づいて、各活動パラメータに割り当てられる。その活動パラメータに対応するファジーメンバーシップ関数は、その活動パラメータの可能な値をセグメント値のセットにマッピングするように構成される。本明細書で使用されるように、「マップ」は、両方向で動作することができるオブジェクトおよび/またはデータ値の間の論理的リンクを表す。例えば、活動パラメータがセグメント値にマッピングされる場合、そのセグメント値も活動パラメータにマッピングされる。
ステップ1802において、データオブジェクトの不規則性スコアは、不規則性値のセットにおける不規則性値にマッピングされ、対応する不規則性変動値は、不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいて、不規則性スコアに割り当てられる。不規則性ファジーメンバーシップ関数は、その不規則性スコアの可能な値を不規則性値のセットにマッピングするように構成される。本明細書で使用されるように、「マップ」は、両方向で動作することができるオブジェクトおよび/またはデータ値の間の論理的リンクを表す。例えば、不規則性スコアが不規則性値にマッピングされる場合、その不規則性値も不規則性スコアにマッピングされる。
本システムは、異常な変化を検出するという全体的な目的で、データオブジェクトのポスチャを記述し、データオブジェクトのポスチャの変化を経時的に追跡する独特のファジー論理ベースのアプローチを利用する。
サンプルデータオブジェクト1900上のステップ1801および1802の例を図19に示す。図19に示されるように、活動パラメータ1、2、および3の各々は、対応するファジーメンバーシップ関数に基づいてマッピングされる。この結果、対応するセグメント値が活動パラメータの各々にマッピングされ、対応する変動値が活動パラメータの各々に割り当てられる。同様に、不規則性スコアは、不規則性ファジーメンバーシップ関数に基づいてマッピングされ、その結果、不規則性値が不規則性スコアにマッピングされ、不規則性変動値が不規則性スコアに割り当てられる。
図20は、例示的な実施形態による、複数の活動パラメータ内の各活動パラメータを、セグメント値のセット内のセグメント値にマッピングし、その活動パラメータに対応するファジーメンバーシップ関数に少なくとも部分的に基づいて、対応する変動値を各活動パラメータに割り当てるためのフローチャートを示す。
ステップ2001において、活動パラメータに対応するセグメント値のセットにおける1つ以上のセグメント値が、ファジーメンバーシップ関数に少なくとも部分的に基づいて決定される。
ステップ2002において、1つ以上のセグメント値の中の最低のセグメント値が、活動パラメータにマッピングされる。
ステップ2003では、変動値が、活動パラメータに対応する1つ以上のセグメント値の量に基づいて決定される。変動値は次式で与えられる。
変動値=(1つ以上のセグメント値の量)−1
したがって、1つ以上のセグメント値の量が1である場合、変動値は0となる。1つ以上のセグメント値の量が2である場合、変動値は1となる。
ステップ2004で、変動値が活動パラメータに割り当てられる。
図21は、複数の活動パラメータ内の各活動パラメータを、セグメント値のセット内のセグメント値にマッピングし、対応する変動値を各活動パラメータに割り当てる、図20に記載のステップの一例を示す。
図21に示されるように、活動パラメータ2101は、0.6の値を有する。その活動パラメータ2101に対応するファジーメンバーシップ関数2100に基づいて、セグメント値MediumおよびHighは値0.6に対応する。これらのセグメント値における最低のセグメント値はMediumであるので、活動パラメータ2101にマッピングされる。活動パラメータ2101に対応するセグメント値の量は2であるため、活動パラメータには「1」の変動値が割り当てられる。
図22は、複数の活動パラメータ内の各活動パラメータを、セグメント値のセット内のセグメント値にマッピングし、対応する変動値を各活動パラメータに割り当てる、図20に記載のステップの別の例を示す。
図22に示されるように、活動パラメータ2201は、0.36の値を有する。その活動パラメータ2201に対応するファジーメンバーシップ関数2200に基づいて、セグメント値Mediumは値0.36に対応する。このシングルトンセットにおける最小セグメント値はMediumであるので、活動パラメータ2201にマッピングされる。活動パラメータ2201に対応するセグメント値の量は1であるため、活動パラメータ2201には変動値「0」が割り当てられる。
図23は、例示的な実施形態による、データオブジェクトの不規則性スコアを、不規則性値のセット内の不規則性値にマッピングし、不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいて、対応する不規則性変動値を不規則性スコアに割り当てるためのフローチャートを示す。
ステップ2301において、不規則性スコアに対応する不規則性値のセットにおける1つ以上の不規則性値が、不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいて決定される。
ステップ2302において、1つ以上の不規則性値の中の最も低い不規則性値が、不規則性スコアにマッピングされる。
ステップ2303では、不規則性スコアに対応する1つ以上の不規則性値の量に基づいて不規則性変化値が決定される。このばらつき変動値は、次式で与えられる。
不規則性変動値=(1つ以上の不規則性値の量)−1
したがって、1つ以上の不規則値の量が1である場合、変動値は0となる。1つ以上の不規則性値の量が2である場合、変動値は1である。
ステップ2304において、不規則性変化値が不規則性スコアに割り当てられる。
図24は、不規則性スコアを、不規則性値のセット内の不規則性値にマッピングし、対応する不規則性変動値を不規則性スコアに割り当てるための、図23に記載されたステップの一例を示す。
図24に示すように、不規則性スコア2401は、0.4の値を有する。不規則性スコア2401に対応する不規則性ファジーメンバーシップ関数2400に基づいて、不規則性値LowおよびMediumは値0.4に対応する。これらの不規則値の中で最小不規則値はLowであるので、不規則性スコア2401にマッピングされる。不規則性スコアに対応する不規則性値の量は2であるため、不規則性スコア2401には不規則性変動値「1」が割り当てられる。
図18に戻ると、ステップ1803および1804は、任意選択でスキップすることができる。ステップ1805において、データオブジェクトのポスチャは、複数の活動パラメータにマッピングされた複数のセグメント値と、不規則性スコアにマッピングされた不規則性値とに少なくとも部分的に基づいて生成される。ポスチャは、複数の活動パラメータにマッピングされたすべてのセグメント値と、不規則性スコアにマッピングされたすべての不規則性値とを連結することによって生成することができる。
図25は、図18のステップ1801、1802、および1805が実行される場合の例を示す。図25に示されるように、データオブジェクト2500は、{X,X,...X}として示されるn個の活動パラメータおよび不規則性スコアIを有する。活動パラメータの各々は、セグメント値にマッピングされ、対応するファジーメンバーシップ関数に基づいて変動値が割り当てられる。さらに、不規則性スコアは、不規則性値にマッピングされ、不規則性ファジーメンバーシップ関数に基づいて不規則性変動値が割り当てられる。
次に、複数の活動パラメータにマッピングされたすべてのセグメント値および不規則性スコアにマッピングされたすべての不規則性値を連結して、ポスチャ2501を生成する。図25に示すように、ポスチャ2501は、一連の変動値も含むことができるが、これは必須ではない。ポスチャ2501における連結値には、区切りマーカ(この場合、ダッシュ)が含まれるが、これは必須ではない。さらに、示されるように、セグメント値は、very low、low、medium、high、very high、に対応するVL、L、M、H、VHなどのより短い表記法に短縮され得る。セグメント値は、整数などの他のシーケンスにマッピングすることもでき、バイナリ形式で表すこともできる。
また、セグメント値と変動値の組み合わせや、不規則性値と不規則性変動値の組み合わせも、ビットベクトルとして記憶することができる。
例えば、可能なセグメント値のセット{Low、Medium、High}、活動パラメータにマッピングされた「Low」のセグメント値、および活動パラメータに割り当てられた「0」の変動値が与えられると、マッピングされたセグメント値およびその活動パラメータに割り当てられた変動値は、ビットベクトル1−0−0として格納されることができ、ここで、各ビットは、可能なセグメント値に対応し、「1」は、その値の存在を示し、「0」は、その値の不在を示す。
別の例では、可能なセグメント値のセット{Very Low、Low、Medium、High、Very High}、活動パラメータにマッピングされた「Medium」のセグメント値、および活動パラメータに割り当てられた「1」の変動値が与えられると、マッピングされたセグメント値およびその活動パラメータに割り当てられた変動値は、ビットベクトル0−0−1−1−0として格納され得る。この場合、第1の「1」は「Medium」のマッピングされたセグメント値に対応し、第2の「1」は、割り当てられた変動値が「1」であり、「High」が「Medium」の後の次のセグメント値であるため、同じく存在する「High」のセグメント値に対応する。
同様に、考えられる不規則性値のセット{Low、Medium、High}、不規則性スコアにマッピングされた「Medium」の不規則性値、および不規則性スコアに割り当てられた「0」の不規則性変動値が与えられると、不規則性スコアのマッピングされた不規則性値および割り当てられた不規則性変動値は、ビットベクトル0−1−0として格納されることができ、ここで、各ビットは、考えられる不規則性値に対応し、「1」は、その値の存在を示し、「0」は、その値の不在を示す。
ポスチャ2501におけるセグメント値および不規則性値のシーケンスは、多くの点で、比較のために図25に示されるDNA鎖2502と類似している。本明細書で生成され、図25に示されるデータオブジェクトのポスチャは、データオブジェクトXの属性(活動パラメータおよび不規則性スコアなど)に関連するファジーメンバーシップ関数のセグメント値(および不規則性値)のシーケンス、および重複するファジーメンバーシップ関数のセグメント値(または不規則性値)のカウントのシーケンスを表すことができ、これらのセグメント値には前記属性が関連付けられる。
P(X)={S(X)、V(X)}
ここで、S(X)=s(x)−s(x)−...s(x)−s(I)は基本シーケンスである。
V(X)=v(x)−v(x)−...−v(x)−v(I)は、基本変動である。
S(x)=vs|s|m|l|vl
ここで、vsは「very small」、sは「small」、mは「medium」、lは「large」、vlは「very large」であり、特性xがメンバーシップを有するファジーメンバーシップ関数の左端のセグメント値(「ベースセグメント」)である。
v(x)=k−1
ここでkは、属性xがメンバーシップを持つファジィメンバーシップ関数セグメント値(または不規則値)の重複数である。k>0の場合、対応するs(x)は、属性xがメンバーシップを有するファジィメンバーシップ関数の左端のセグメント値である。
シーケンスS(X)およびV(X)は共に、データオブジェクトXのポスチャを一意に識別するストランドを形成すると考えることができる。
もちろん、本明細書で開示されるアプローチのいくつかの態様は、変更され得る。例えば、属性xがメンバーシップを有するファジーメンバーシップ関数の右端のセグメントを使用して、ファジーメンバーシップ関数の基本セグメント値を示すことができ、または属性xがメンバーシップを有する重複するメンバーシップ関数セグメント値の数を別の形式で提示することができる。
さらに、セグメント値のラベルまたは不規則値のラベルは、特別なセマンティクスを持たず、「A」、「B」、「C」などのように異なる名前を付けることができる。また、メンバーシップ関数におけるセグメント値または不規則値の数は、5以外でもよいことが理解される。
上述のポスチャは、ポスチャの生成に先立って実行される追加のステップによって簡略化された形式で表すことができる。図18に戻ると、ステップ1803において、複数の活動パラメータにおける1つ以上の活動パラメータは、1つ以上の活動パラメータに対応する1つ以上の変動値および1つ以上の活動パラメータに対応する1つ以上のファジーメンバーシップ関数に少なくとも部分的に基づいて、セグメント値のセットにおける1つ以上の追加のセグメント値にマッピングされ得る。
図26は、例示的な実施形態による、1つ以上の活動パラメータに対応する1つ以上の変動値および1つ以上の活動パラメータに対応する1つ以上のファジーメンバーシップ関数に少なくとも部分的に基づいて、複数の活動パラメータ中の1つ以上の活動パラメータをセグメント値のセット中の1つ以上の追加のセグメント値にマッピングするためのフローチャートを示す。
ステップ2601において、ゼロより大きい割り当てられた変動値を有する複数の活動パラメータ内の1つ以上の活動パラメータが識別される。
ステップ2602において、1つ以上の活動パラメータにおける各活動パラメータについて、その活動パラメータに対応する1つ以上の可能なセグメント値が決定される。1つ以上の可能なセグメント値は、その活動パラメータに割り当てられた変動値、その活動パラメータにマッピングされたセグメント値、およびその活動パラメータに対応するファジーメンバーシップ関数に少なくとも部分的に基づいて決定される。
ステップ2603において、1つ以上の活動パラメータにおける各活動パラメータについて、その活動パラメータに対応する1つ以上の可能なセグメント値が連結されて、可能なセグメント値の連結リストが生成される。
ステップ2604において、1つ以上の活動パラメータにおける各活動パラメータについて、可能なセグメント値の連結リストが、対応する活動パラメータにマッピングされる。
図27は、図26に示す処理の一例を示す図である。3つの活動パラメータ2700A、2701A、および2702Aを図27に示す。活動パラメータ2701Aは、ゼロ以下の変動値を有するので、その活動パラメータに関してアクションは取られない。
活動パラメータ2700Aおよび2702Aの両方は、割り当てられた変動値1を有する。したがって、2700Aおよび2702Aのそれぞれに対する1つ以上の可能なセグメント値は、活動パラメータのそれぞれに割り当てられた変動値、活動パラメータのそれぞれにマッピングされたセグメント値、および活動パラメータのそれぞれに対応するファジーメンバーシップ関数に少なくとも部分的に基づいて決定される。
2700Aおよび2702Aのそれぞれに対する対応するファジーメンバーシップ関数におけるセグメント値のセットは、対応するファジーメンバーシップ関数から検索することができ、セグメント値2700Bおよび2702Bのセットをもたらす。
次に、ボックス2700Cおよび2702Cのルールに従って、2700Aおよび2702Aのそれぞれについて可能なセグメント値が決定される。具体的には、各活動パラメータ2700Aおよび2702Aについての可能なセグメント値は、セグメント値の対応するセット内の[マッピングされたセグメント値の位置]から[マッピングされたセグメント値の位置+変動値]までのすべてのセグメント値である。
2700Dに示されるように、活動パラメータ2700Aについて、これは、位置[0]から位置[1](0+変動値1に対応する)までのセグメント値2700B(この活動パラメータのマッピングされたセグメント値が「Low」であるため)のセット内のセグメント値を含む。この結果、「Low−Medium」を含む連結リスト2700Eが得られる。
2702Dに示されるように、活動パラメータ2702Aについて、これは、位置[2](この活動パラメータのマッピングされたセグメント値が「Medium」であるため)から位置[3](2+変動値1に対応する)までのセグメント値2702Bのセット内のセグメント値を含む。この結果、「Medium−High」を含む連結リスト2702Eが得られる。
図28は、例示的な実施形態による、不規則性スコアに対応する不規則性変動値および不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいて、不規則性スコアを不規則性値のセット内の1つ以上の追加の不規則性値にマッピングするためのフローチャートを示す。
ステップ2801において、不規則性スコアに対応する1つ以上の可能な不規則性値が決定される。1つ以上の可能な不規則値は、不規則性スコアに割り当てられた不規則性変動値、不規則性スコアにマッピングされた不規則性値、および不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいて決定される。
ステップ2802において、不規則性スコアに対応する1つ以上の可能な不規則性値が連結されて、可能な不規則性値の連結されたリストが生成される。
ステップ2803において、可能性のある不規則値の連結リストが不規則性スコアにマッピングされる。
図29は、図28に示す処理の一例を示す図である。不規則性スコア2900Aは、割り当てられた不規則性変動値1を有する。したがって、不規則性スコア2900Aについての1つ以上の可能なセグメント値は、不規則性スコアに割り当てられた不規則性変動値、不規則性スコアにマッピングされた不規則性値、および不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいて決定される。
2900Aに対する不規則性ファジーメンバーシップ関数の不規則性値の集合は、不規則ファジーメンバーシップ関数から取得することができ、不規則値2900Bのセットを得ることができる。
次に、ボックス2900Cの規則に従って、2900Aの可能な不規則値を決定する。具体的には、不規則性スコア2900Aについての可能な不規則性値は、不規則性値の対応するセットにおける[マップされた不規則性値の位置]から[マップされた不規則性値の位置+割り当てられた不規則性変化値]までの全ての不規則性値である。
2900Dに示されるように、不規則性スコア2900Aについて、これは、不規則性値2900Bのセットにおける位置[3]から位置[4](3+変動値1に対応する)までの不規則性値を含む(不規則性スコアのマッピングされた不規則性値が「High」であるため)。この結果、「High−Very High」を含む連結リスト2900Eが得られる。
上述した図18のステップ1803および1804の結果として、セグメント値のすべての可能な変動および不規則値のすべての可能な変動をベースセグメント値またはベース不規則値に連結することによって、変動値および不規則変動値をデータオブジェクトのデータセットから効果的に除去することができる。
図18に示すように、複数の活動パラメータにマッピングされた複数のセグメント値および不規則性スコアにマッピングされた不規則性値に少なくとも部分的に基づいてデータオブジェクトのポスチャを生成するステップ1805は、上述したステップ1803および1804の後に実行することもできる。
さらに、前述のように、複数の活動パラメータに対応する複数のセグメント値および不規則性スコアに対応する不規則性値に少なくとも部分的に基づいてデータオブジェクトのポスチャを生成することは、複数の活動パラメータにマッピングされたすべてのセグメント値および不規則性スコアにマッピングされたすべての不規則性値を連結することを含むことができる。
図30は、図18のステップ1803および1804に関して説明した方法により、変動値および不規則性変動値を除去した後にポスチャを生成するステップの一例を示す。
データオブジェクト3000は、図27の活動パラメータ2700A、2701A、および2702Aに対応する3つの活動パラメータを含む。さらに、データオブジェクト3000は、図29の不規則性スコア2900Aに対応する不規則性スコアを含む。
図26に関して説明したプロセスは、データオブジェクト3000内の3つの活動パラメータに適用され、図28に関して説明したプロセスは、データオブジェクト3000内の不規則性スコアに適用される。
図30に示されるように、これは、以下のマッピングされたセグメント値および不規則性値をもたらす。
活動パラメータ1→Low−Medium
活動パラメータ2→Low
活動パラメータ3→Medium→High
不規則性スコア→High−Very High
したがって、複数の活動パラメータにマッピングされた全てのセグメント値と、不規則性スコアにマッピングされた全ての不規則性値とを連結すると、ポスチャ3001は、L‐M‐L‐M‐H‐H‐VH(省略して示す)。この簡略化されたポスチャは、変動値および不規則性変動値を追跡する必要性を排除し、後述するように、他のポスチャとの比較をより簡単にする。
図1に戻ると、ステップ109において、複数のオブジェクトポスチャにおける各オブジェクトポスチャが、オブジェクトポスチャと同じユーザに対応する1つ以上の前のオブジェクトポスチャと比較され、複数のユーザにおける1つ以上のユーザの異常な活動が識別される。1つ以上の前の物体ポスチャの各々は、図1のステップが実行された観察区間の前の異なる観察区間に対応することができる。言い換えれば、1つ以上の先行オブジェクトポスチャは、複数のオブジェクトポスチャにおける各オブジェクトポスチャに対する履歴的なオブジェクトポスチャである。
履歴データコンポーネントとのデータオブジェクトのポスチャ比較の結果、現在のデータオブジェクトのポスチャとその履歴先行ポスチャとの間の差が、履歴的に観察された閾値を超えると判断した場合、システムは、入力データ意味認識コンポーネント、管理者、または何らかの他のプログラムに、データオブジェクトのポスチャの有意な変化について通知することができる。システムは、観察された逸脱の性質を判断するために異常分類コンポーネントを呼び出すこともできる。
図31は、各ユーザに対応する各オブジェクトポスチャに対して実行され、それによって、複数のオブジェクトポスチャにおける各オブジェクトポスチャを、オブジェクトポスチャと同じユーザに対応する1つ以上の先行オブジェクトポスチャと比較して、例示的な実施形態による、複数のユーザにおける1つ以上のユーザの異常な活動を識別する方法を示す。
ステップ3101で、オブジェクトポスチャと、同じユーザに対応する1つ以上の前のオブジェクトポスチャのうちの少なくとも1つとの間の非類似性ファクタが計算される。非類似性ファクタは、オブジェクトポスチャと、同じユーザに対応する1つ以上の先行オブジェクトポスチャのうちの少なくとも1つとの間のレーベンシュタイン距離メトリックとすることができる。
特に、観察点t及びtにおけるデータオブジェクトのXポスチャ間の変化は、観察点t及びtにおけるストランド(ポスチャ)によって生成されるシーケンスの長さの差異に対して調整された一般的なレーベンシュタイン距離測定基準の修正を用いて計算することができる。
ポスチャによって生成されるシーケンスの長さは変化するので、差分メトリックを計算する方法は、その事実を考慮に入れなければならない。
データオブジェクトXポスチャシーケンスA,Bの2つの例を考える。
A={a,...,a}およびB={b,...,b
ここで、a、bはそれぞれのストランドに由来する結果の配列である。シーケンスAとBの間の非類似性ファクタDは、以下の式を用いて計算される。
ここで、d(b,a)は、シーケンスBおよびAをそれぞれ含む基本シーケンス間の距離である。
データオブジェクトのXポスチャシーケンスAおよびBの基本シーケンスのサイズは同じであり、挿入および削除操作は必要とされないので、2つのストランド間の距離はハミング距離として解釈できることが理解される。
また、データオブジェクトXを含む異なる属性は、異なる重みを有し、非類似性ファクタD計算への不均等な入力を提供し得ることも理解される。例えば、図32は、置換が挿入または削除と等しく重み付けされる場合の、ポスチャ3201とポスチャ3202との間のレーベンシュタイン距離3202を示す。置換の重みが2倍になると、この場合のレーベンシュタイン距離3202も2倍になる。
また、レーベンシュタイン距離以外の距離メトリックが、非類似性ファクタを計算するために使用され得ることが理解される。例えば、最も長い共通サブシーケンス法または重みを有する編集距離を、非類似性係数の計算に使用することができる。
非類似性ファクタがどのように決定されるかにかかわらず、図31のステップ3102において、非類似性ファクタが閾値非類似性ファクタより大きいという決定に少なくとも部分的に基づいて、ユーザの活動が異常であると識別される。この閾値非類似性ファクタは、ポスチャの変化の履歴分析に基づいて、または専門家によって設定されるか、または他の何らかの手段によって計算されることができる。データポイントのポスチャの異常な変化が報告されるか、または非類似性ファクタ値がある統計的に計算された閾値を超えたときに他のアクションが取られ得る。変化点検出アルゴリズムまたはプリセット閾値などの他の方法を使用して、非類似性因子値における異常な変化を検出してもよいことが理解される。例えば、CUSUMアルゴリズムまたはウェーブレット変換が、その目的のために使用され得る。
統計分析アプローチが適用される場合、観察区間にわたる非類似性ファクタ値の平均および標準偏差が計算される。非類似性ファクタ値の正規分布を仮定すると、計算された標準偏差が95パーセンタイルの外にあるデータ収集区間は、異常であると考えられ、報告または他のアクションの対象となる。
ステップ3103で、非類似性ファクタが閾値非類似性ファクタより大きい場合、1つ以上のアクションをとることができる。これらのアクションは、警告または警告メッセージまたは通知を含むことができる。さらに、これらのアクションは、さらなる分析または報告のためにデータを送信することを含むことができる。これらの動作は、異常データが識別された1人または複数のユーザに関連する追加のポスチャに関する追加の計算を実行することも含むことができる。
本出願において導入される非類似性ファクタの概念は、データオブジェクトの挙動における長く持続する時間的変化を検出するための基礎を提供する。特に、以前のN個のデータ収集区間中に記録された履歴データオブジェクトのポスチャを記述するストランドのリストを保持することができる。このより大きな時間区間は、観察区間を含む。観察区間の持続時間は、20〜40の収集区間の倍数として構成可能である。一旦構成されると、観察区間の持続時間は一定であることができ、観察区間は、N個の最新の収集区間をカバーするスライディングウィンドウとして機能することができる。
各収集区間の終わりに、観察区間内の隣接するストランド(ポスチャ)間の非類似性ファクタが計算され、データオブジェクトのポスチャの異常に関する決定がなされる。さらに、データオブジェクトのポスチャ追跡は、データオブジェクトのポスチャに対する法医学または規制当局主導の洞察を得る目的で、より長い期間にわたって拡張することができる。例えば、1時間ごと、1日ごと、1週間ごとのデータオブジェクトのポスチャの記録を保持し、後で調べることができる。本発明に記載される「ストランド(鎖)」および「シーケンス(配列)」を含む「ポスチャ」の概念は、DNA分子内の核酸配列に関連する同様の概念に非常に類似しており、データオブジェクトのポスチャをデータオブジェクトのDNAとして記述し、データオブジェクトのポスチャの変化を追跡するための基礎を提供し、問題のデータオブジェクトの進化と呼ぶことができる。
図33は、InformaticaのSecure@Sourceプロダクト99のコンポーネントとしてのユーザ行動異常(「UBA」)モジュール100の展開を示す。この展開シナリオでは、プローブモジュール21は、限定はしないが、SQLまたは非SQLデータベース(DB)、Cloudera Hadoopファイルシステム(CDH)、HortonWorks Hadoopファイルシステム(HDP)、および他のタイプのデータストアとすることができるような、様々なデータソース20からユーザ活動情報を収集する。
さらに図33を参照すると、プローブモジュール21は、パブリッシュ/サブスクライブバックボーン22(「PubSub Backbone」)上で観察されたユーザ活動情報をパブリッシュする。ユーザ活動情報は、処理のためにUBAモジュール100によって取り出される。UBAモジュール100は、入力データセマンティクス認識コンポーネント(「アプリケーション」)111および汎用異常検出エンジン(「ADE」)10ライブラリから構成される。ADEライブラリ10は、論理的に2つのセクションに分割される。1つは教師あり機械学習方法11を含み、もう1つは教師なし機械学習方法12のアルゴリズム実装を含む。
図33に示すように、ユーザ活動情報処理を完了した後、アプリケーションモジュール111は、結果をプレゼンテーションコンポーネント30のサービスコンポーネント31に転送する。サービスコンポーネント31は、異常検出プロセスの結果をシステムコンソールダッシュボード32に転送し、この結果を法医学および将来の参照のためにデータベース(DB)33に保存する。
上述の技術のうちの1つ以上は、1つ以上のコンピュータシステムにおいて実装され得るか、または1つ以上のコンピュータシステムに関与し得る。図34は、コンピューティング環境3400の一般化された例を示す。コンピューティング環境3400は、説明される実施形態の使用または機能の範囲に関していかなる制約も示唆することを意図していない。
コンピューティング環境3400は、少なくとも1つの処理ユニット3410およびメモリ3420を含む。処理ユニット3410は、コンピュータ実行可能命令を実行し、実プロセッサまたは仮想プロセッサとすることができる。多重処理システムでは、複数の処理ユニットがコンピュータ実行可能命令を実行して、処理能力を高める。メモリ3420は、揮発性メモリ(例えば、レジスタ、キャッシュ、RAM)、不揮発性メモリ(例えば、ROM、EEPROM、フラッシュメモリなど)、またはこれら2つの何らかの組み合わせとすることができる。メモリ3420は、説明した技法を実装するソフトウェア3480を格納することができる。
コンピューティング環境は、追加の特徴を有することができる。例えば、コンピューティング環境3400は、ストレージ3440と、1つ以上の入力デバイス3450と、1つ以上の出力デバイス3460と、1つ以上の通信接続3490とを含む。バス、コントローラ、またはネットワークなどの相互接続機構3470は、コンピューティング環境3400のコンポーネントを相互接続する。通常、オペレーティングシステムソフトウェアまたはファームウェア(図示せず)は、コンピューティング環境3400内で実行する他のソフトウェアのためのオペレーティング環境を提供し、コンピューティング環境3400のコンポーネントの活動を調整する。
ストレージ3440は、リムーバブルまたは非リムーバブルとすることができ、磁気ディスク、磁気テープまたはカセット、CD−ROM、CD−RW、DVD、または情報を記憶するために使用することができ、コンピューティング環境3400内でアクセスすることができる任意の他の媒体を含む。記憶装置3440は、ソフトウェア3480のための命令を記憶することができる。
入力デバイス3450は、キーボード、マウス、ペン、トラックボール、タッチスクリーン、またはゲームコントローラなどのタッチ入力デバイス、音声入力デバイス、走査デバイス、デジタルカメラ、リモコン、またはコンピューティング環境3400に入力を提供する別のデバイスとすることができる。出力デバイス3460は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、またはコンピューティング環境3400からの出力を提供する別のデバイスとすることができる。
通信接続3490は、通信媒体を介した別のコンピューティングエンティティへの通信を可能にする。通信媒体は、コンピュータ実行可能命令、オーディオまたはビデオ情報、または他のデータなどの情報を変調データ信号で搬送する。変調されたデータ信号は、信号内の情報を符号化するようにその特性の1つ以上が設定または変更された信号である。限定ではなく例として、通信媒体は、電気的、光学的、RF、赤外線、音響、または他のキャリアで実施される有線または無線の技法を含む。
実装は、コンピュータ可読媒体の一般的な文脈で説明することができる。コンピュータ可読媒体は、コンピューティング環境内でアクセスすることができる任意の利用可能な媒体である。限定ではなく例として、コンピューティング環境3400内で、コンピュータ可読媒体は、メモリ3420、ストレージ3440、通信媒体、および上記のいずれかの組み合わせを含む。
もちろん、図34は、コンピューティング環境3400、表示装置3460、および入力装置3450を、識別を容易にするためだけの別個の装置として示している。コンピューティング環境3400、ディスプレイデバイス3460、および入力デバイス3450は、別個のデバイス(たとえば、モニタおよびマウスにワイヤによって接続されたパーソナルコンピュータ)とすることができ、単一のデバイス(たとえば、スマートフォンまたはタブレットなどのタッチディスプレイを備えたモバイルデバイス)、またはデバイスの任意の組合せ(たとえば、タッチスクリーンディスプレイデバイスに動作可能に結合されたコンピューティングデバイス、単一のディスプレイデバイスおよび入力デバイスに取り付けられた複数のコンピューティングデバイスなど)に統合することができる。コンピューティング環境3400は、セットトップボックス、パーソナルコンピュータ、または1つ以上のサーバ、例えば、ネットワークサーバのファーム、クラスタ化サーバ環境、またはコンピューティングデバイスのクラウドネットワークとすることができる。
記載された実施形態を参照して本発明の原理を説明し例示してきたが、記載された実施形態は、そのような原理から逸脱することなく、配置および詳細において変更され得ることが認識されるであろう。本明細書で説明されるプログラム、プロセス、または方法は、別段の指示がない限り、任意の特定のタイプのコンピューティング環境に関連または限定されないことを理解されたい。様々なタイプの汎用または特殊化されたコンピューティング環境を、本明細書で説明される教示に従って使用するか、または動作を実行することができる。ソフトウェアで示される説明される実施形態の要素は、ハードウェアで実施することができ、その逆も同様である。
本発明の原理を適用することができる多くの可能な実施形態を考慮して、本発明者らは、以下の特許請求の範囲およびその均等物の範囲および精神内に入ることができるすべてのそのような実施形態を本発明として特許請求する。

Claims (51)

  1. 異常なユーザ挙動を検出するために1つ以上のコンピューティングデバイスによって実行される方法であって、
    1つ以上のコンピューティングデバイスのうちの少なくとも1つによって、観察区間にわたって収集されたユーザ活動データを格納するステップであって、前記ユーザ活動データは、複数のユーザに対応する複数のデータオブジェクトを含み、複数のデータオブジェクト内の各データオブジェクトは、複数の活動パラメータを含む、ステップと、
    1つ以上のコンピューティングデバイスのうちの少なくとも1つによって、各データオブジェクトに関する複数の活動パラメータに少なくとも部分的に基づいて、複数のデータオブジェクトを複数のクラスタにグループ化するステップと、
    1つ以上のコンピューティングデバイスのうちの少なくとも1つによって、複数のクラスタ内の各クラスタに対応する1つ以上の外れ値メトリックを計算するステップであって、1つ以上の外れ値メトリック内の各外れ値メトリックは、対応するクラスタが複数のクラスタ内の他のクラスタの外にある度合いを表す、ステップと、
    1つ以上のコンピューティングデバイスのうちの少なくとも1つによって、データオブジェクトを含むクラスタのサイズと、データオブジェクトを含むクラスタに対応する1つ以上の外れ値メトリックとに少なくとも部分的に基づいて、複数のデータオブジェクト内の1つ以上のデータオブジェクトの各々について不規則性スコアを計算するステップと、
    1つ以上のコンピューティングデバイスのうちの少なくとも1つによって、各データオブジェクトに対応する複数の活動パラメータおよび各データオブジェクトの不規則性スコアに少なくとも部分的に基づいて、1つ以上のデータオブジェクトのための1つ以上のオブジェクトポスチャを生成するステップであって、1つ以上のオブジェクトポスチャにおける各オブジェクトポスチャは前記複数のユーザにおける1人のユーザに対応する、ステップと、
    1つ以上のコンピューティングデバイスのうちの少なくとも1つによって、複数のユーザにおける1人以上のユーザの異常な活動を識別するために、1つ以上のオブジェクトポスチャにおける少なくとも1つのオブジェクトポスチャの各々を、オブジェクトポスチャと同じユーザに対応する1つ以上の先行オブジェクトポスチャと比較するステップであって、1つ以上の先行オブジェクトポスチャの各々は、観察区間の前の異なる観察区間に対応する、ステップとを含む、
    方法。
  2. 前記複数の活動パラメータは、ユーザによってアクセスされるデータストアの数、ユーザによってアクセスされる機密データストアの数、ユーザによって影響を受けるレコードの数、ユーザによる要求の数、ユーザによるアクセス時間、ユーザによる機密要求の数、ユーザによって影響を受ける機密レコードの数、ユーザ位置、ユーザホスト再配置異常メトリック、ユーザ活動タイミング異常メトリック、またはユーザの転送ネットワークパスのうちの1つ以上を含む、請求項1に記載の方法。
  3. 前記複数のデータオブジェクトを複数のクラスタにグループ分けする前に、
    1つ以上のコンピューティングデバイスのうちの少なくとも1つによって、複数の活動パラメータのうち1つ以上の活動パラメータに対応するユーザ活動データが正規分布に適合するかどうかを判定するステップと、
    1つ以上の活動パラメータに対応するユーザ活動データが正規分布に適合しないという決定に少なくとも部分的に基づいて、1つ以上のコンピューティングデバイスのうちの少なくとも1つによって、1つ以上の活動パラメータに対応するユーザ活動データを正規分布に適合するように変換するステップとをさらに含む、請求項1に記載の方法。
  4. 前記複数のデータオブジェクトを複数のクラスタにグループ分けする前に、
    1つ以上のコンピューティングデバイスのうちの少なくとも1つによって、複数の活動パラメータのうちの1つ以上の活動パラメータに対応するユーザ活動データを正規化するステップをさらに含む、請求項1に記載の方法。
  5. 前記複数のデータオブジェクトを複数のクラスタにグループ分けする前に、
    1つ以上のコンピューティングデバイスのうちの少なくとも1つによって、複数の活動パラメータのうちの1つ以上の活動パラメータに対応するデータを除去することによって、ユーザ活動データ内の次元数を低減するステップをさらに含む、請求項1に記載の方法。
  6. 前記1つ以上の外れ値メトリックは、距離ベース外れ値メトリックおよび密度ベースのクラスタ外れ値メトリックのうちの1つ以上を含む、請求項1に記載の方法。
  7. 前記データオブジェクトを含むクラスタのサイズと、前記データオブジェクトを含む前記クラスタに対応する前記1つ以上の外れ値メトリックとに少なくとも部分的に基づいて、前記複数のデータオブジェクト内の1つ以上のデータオブジェクトの各々について不規則性スコアを計算するステップは、
    前記クラスタのサイズに少なくとも部分的に基づいて、前記データオブジェクトを含むクラスタの特異性メトリックを計算するステップと、
    前記データオブジェクトを含むクラスタの距離ベース外れ値メトリックを計算するステップと、
    データオブジェクトを含むクラスタの密度ベース外れ値メトリックを計算するステップと、
    特異性メトリック、距離ベース外れ値メトリック、および密度ベース外れ値メトリックに少なくとも部分的に基づいて、データオブジェクトの不規則性スコアを決定するステップと、
    を含む、請求項6に記載の方法。
  8. 前記特異性メトリック、前記距離ベース外れ値検出信頼度メトリック、および前記密度ベース外れ値検出信頼度メトリックに少なくとも部分的に基づいて、前記データオブジェクトの前記不規則性スコアを決定するステップは、
    特異性メトリックの値の範囲を複数の特異性レベルにマッピングする第1のファジーメンバーシップ関数に少なくとも部分的に基づいて、特異性メトリックを複数の特異性レベルにおける1つ以上の特異性レベルにマッピングするステップと、
    距離ベース外れ値メトリックの値の範囲を複数の距離ベース外れ値レベルにマッピングする第2のファジーメンバーシップ関数に少なくとも部分的に基づいて、距離ベース外れ値メトリックを複数の距離ベース外れ値レベルにおける1つ以上の距離ベース外れ値レベルにマッピングするステップと、
    密度ベース外れ値メトリックの値の範囲を複数の密度ベース外れ値レベルにマッピングする第3のファジーメンバーシップ関数に少なくとも部分的に基づいて、密度ベース外れ値メトリックを複数の密度ベース外れ値レベルにおける1つ以上の密度ベース外れ値レベルにマッピングするステップと、
    1つ以上の特異レベル、1つ以上の距離ベース外れ値レベル、および1つ以上の密度ベース外れ値レベルの1つ以上の組合せを、複数の特異レベル、複数の距離ベース外れ値レベル、および複数の密度ベース外れ値レベルの組合せを複数の不規則性レベルにマッピングするファジールールセットに少なくとも部分的に基づいて、複数の不規則性レベルにおける1つ以上の不規則性レベルにマッピングするステップと、
    不規則性スコアを生成するために、不規則性判定関数を1つ以上の不規則性レベルに適用するステップと、
    を含む、請求項7に記載の方法。
  9. 各データオブジェクトに対応する複数の活動パラメータと、各データオブジェクトの不規則性スコアとに少なくとも部分的に基づいて、前記1つ以上のデータオブジェクトに対して1つ以上のオブジェクトポスチャを生成するステップは、
    1つ以上のデータオブジェクト内の各データオブジェクトに対して、
    複数の活動パラメータ内の各活動パラメータをセグメント値のセット内のセグメント値にマッピングし、当該活動パラメータに対応するファジーメンバーシップ関数に少なくとも部分的に基づいて、対応する変動値を各活動パラメータに割り当てるステップであって、当該活動パラメータに対応するファジーメンバーシップ関数は、当該活動パラメータの可能な値をセグメント値のセットにマッピングするように構成される、ステップと、
    データオブジェクトの不規則性スコアを、不規則性値のセットにおける不規則性値にマッピングし、不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいて、対応する不規則性変動値を不規則性スコアに割り当てるステップであって、不規則性ファジーメンバーシップ関数は、当該不規則性スコアの可能な値を不規則性値のセットにマッピングするように構成される、ステップと、
    複数の活動パラメータにマッピングされた複数のセグメント値と、不規則性スコアにマッピングされた不規則性値とに少なくとも部分的に基づいて、データオブジェクトのオブジェクトポスチャを生成するステップと、
    を含む、請求項1に記載の方法。
  10. 前記複数の活動パラメータにおける各活動パラメータを、セグメント値のセットにおけるセグメント値にマッピングし、前記活動パラメータに対応するファジーメンバーシップ関数に少なくとも部分的に基づいて、対応する変動値を各活動パラメータに割り当てるステップは、
    ファジーメンバーシップ関数に少なくとも部分的に基づいて、活動パラメータに対応するセグメント値のセットにおける1つ以上のセグメント値を決定するステップと、
    1つ以上のセグメント値内の最低セグメント値を活動パラメータにマッピングするステップと、
    活動パラメータに対応する1つ以上のセグメント値の量に少なくとも部分的に基づいて変動値を決定するステップと、
    前記変動値を前記活動パラメータに割り当てるステップと、
    を含む、請求項9に記載の方法。
  11. 前記データオブジェクトの前記不規則性スコアを、不規則性値のセットにおける不規則性値にマッピングし、不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいて、対応する不規則性変動値を前記不規則性スコアに割り当てるステップは、
    不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいて、不規則性スコアに対応する不規則性値のセットにおける1つ以上の不規則性値を決定するステップと、
    1つ以上の不規則性値の最小不規則性値を不規則性スコアにマッピングするステップと、
    不規則性スコアに対応する1つ以上の不規則性値の量に少なくとも部分的に基づいて不規則性変化値を決定するステップと、
    前記不規則性スコアに前記不規則性変動値を割り当てるステップと、
    を含む、請求項9に記載の方法。
  12. 前記データオブジェクトのポスチャを生成する前に、
    1つ以上のコンピューティングデバイスのうちの少なくとも1つによって、1つ以上の活動パラメータに対応する1つ以上の変動値および1つ以上の活動パラメータに対応する1つ以上のファジーメンバーシップ関数に少なくとも部分的に基づいて、複数の活動パラメータのうちの1つ以上の活動パラメータをセグメント値のセットのうちの1つ以上の追加のセグメント値にマッピングするステップと、
    1つ以上のコンピューティングデバイスのうちの少なくとも1つによって、データオブジェクトの不規則性スコアを、不規則性スコアに対応する不規則性変動値および不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいて、不規則性値のセット内の1つ以上の追加の不規則性値にマッピングするステップと、
    をさらに含む、請求項9に記載の方法。
  13. 前記複数の活動パラメータにおける1つ以上の活動パラメータを、前記1つ以上の活動パラメータに対応する1つ以上の変動値および前記1つ以上の活動パラメータに対応する1つ以上のファジーメンバーシップ関数に少なくとも部分的に基づいて、前記セグメント値のセットにおける1つ以上の追加のセグメント値にマッピングするステップは、
    ゼロより大きい対応変動値を有する複数の活動パラメータにおける1つ以上の活動パラメータを特定するステップと、
    特定された1つ以上の活動パラメータにおける各活動パラメータについて、当該活動パラメータに対応する1つ以上の可能なセグメント値を決定するステップであって、前記1つ以上の可能なセグメント値は、その活動パラメータに割り当てられた変動値、当該活動パラメータにマッピングされたセグメント値、および当該活動パラメータに対応するファジーメンバーシップ関数に少なくとも部分的に基づく、ステップと、
    識別された1つ以上の活動パラメータにおける各活動パラメータについて、その活動パラメータに対応する1つ以上の可能なセグメント値を連結して、可能なセグメント値の連結リストを生成するステップと、
    特定された1つ以上の活動パラメータ内の各活動パラメータについて、可能なセグメント値の連結リストを、対応する活動パラメータにマッピングするステップと、
    を含む、請求項12に記載の方法。
  14. 前記データオブジェクトの前記不規則性スコアを、前記不規則性スコアおよび前記不規則性ファジーメンバーシップ関数に対応する前記不規則性変動値に少なくとも部分的に基づいて、前記不規則性値のセットにおける1つ以上の追加の不規則性値にマッピングするステップは、
    不規則性スコアに対応する1つ以上の可能な不規則性値を決定するステップであって、1つ以上の可能性な不規則性値は、不規則性スコアに割り当てられた不規則性変動値、不規則性スコアにマッピングされた不規則性値、および不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいている、ステップと、
    不規則性スコアに対応する1つ以上の可能な不規則性値を連結して、可能な不規則性値の連結リストを生成するステップと、
    可能な不規則性値の連結リストを不規則性スコアにマッピングするステップと、
    を含む、請求項12に記載の方法。
  15. 前記複数の活動パラメータに対応する複数のセグメント値および前記不規則性スコアに対応する前記不規則性値に少なくとも部分的に基づいて前記データオブジェクトの前記オブジェクトポスチャを生成するステップは、
    複数の活動パラメータにマッピングされたすべてのセグメント値と、不規則性スコアにマッピングされたすべての不規則性値とを連結するステップを含む、請求項9に記載の方法。
  16. 前記1つ以上のオブジェクトポスチャにおける少なくとも1つのオブジェクトポスチャの各々を、前記オブジェクトポスチャと同じユーザに対応する1つ以上の先行オブジェクトポスチャと比較して、前記複数のユーザにおける1つ以上のユーザの異常な活動を識別するステップは、
    オブジェクトポスチャと、同じユーザに対応する1つ以上の先行オブジェクトポスチャのうちの少なくとも1つとの間の非類似性ファクタを計算するステップと、
    非類似性ファクタが閾値非類似性ファクタより大きいという決定に少なくとも部分的に基づいて、ユーザの活動を異常であると識別するステップと、
    を含む、請求項1に記載の方法。
  17. 前記非類似性ファクタは、前記オブジェクトポスチャと、前記同じユーザに対応する前記1つ以上の先行オブジェクトポスチャのうちの少なくとも1つとの間のレーベンシュタイン距離メトリックを含む、請求項16に記載の方法。
  18. 異常なユーザ挙動を検出する装置であって、
    1つ以上のプロセッサと、
    前記1つ以上のプロセッサの少なくとも1つに操作可能に結合され、命令を格納した1つ以上のメモリとを含み、
    前記命令は、前記1つ以上のプロセッサの少なくとも1つに実行されたとき、前記1つ以上のプロセッサの少なくとも1つに、
    観察区間にわたって収集されたユーザ活動データを格納するステップであって、前記ユーザ活動データは、複数のユーザに対応する複数のデータオブジェクトを含み、複数のデータオブジェクト内の各データオブジェクトは、複数の活動パラメータを含む、ステップと、
    各データオブジェクトに関する複数の活動パラメータに少なくとも部分的に基づいて、複数のデータオブジェクトを複数のクラスタにグループ化するステップと、
    複数のクラスタ内の各クラスタに対応する1つ以上の外れ値メトリックを計算するステップであって、1つ以上の外れ値メトリック内の各外れ値メトリックは、対応するクラスタが複数のクラスタ内の他のクラスタの外にある度合いを表す、ステップと、
    データオブジェクトを含むクラスタのサイズと、データオブジェクトを含むクラスタに対応する1つ以上の外れ値メトリックとに少なくとも部分的に基づいて、複数のデータオブジェクト内の1つ以上のデータオブジェクトの各々について不規則性スコアを計算するステップと、
    各データオブジェクトに対応する複数の活動パラメータおよび各データオブジェクトの不規則性スコアに少なくとも部分的に基づいて、1つ以上のデータオブジェクトのための1つ以上のオブジェクトポスチャを生成するステップであって、1つ以上のオブジェクトポスチャにおける各オブジェクトポスチャは前記複数のユーザにおける1人のユーザに対応する、ステップと、
    複数のユーザにおける1人以上のユーザの異常な活動を識別するために、1つ以上のオブジェクトポスチャにおける少なくとも1つのオブジェクトポスチャの各々を、オブジェクトポスチャと同じユーザに対応する1つ以上の先行オブジェクトポスチャと比較するステップであって、1つ以上の先行オブジェクトポスチャの各々は、観察区間の前の異なる観察区間に対応する、ステップと、
    を実行させる装置。
  19. 前記複数の活動パラメータは、ユーザによってアクセスされるデータストアの数、ユーザによってアクセスされる機密データストアの数、ユーザによって影響を受けるレコードの数、ユーザによる要求の数、ユーザによるアクセス時間、ユーザによる機密要求の数、ユーザによって影響を受ける機密レコードの数、ユーザ位置、ユーザホスト再配置異常メトリック、ユーザ活動タイミング異常メトリック、またはユーザの転送ネットワークパスのうちの1つ以上を含む、請求項18に記載の装置。
  20. 前記1つ以上のメモリの少なくとも1つが、当該メモリに格納された命令をさらに含み、当該命令は、前記1つ以上のプロセッサの少なくとも1つに実行されたとき、前記1つ以上のプロセッサの少なくとも1つに、
    前記複数のデータオブジェクトを複数のクラスタにグループ分けする前に、
    複数の活動パラメータのうち1つ以上の活動パラメータに対応するユーザ活動データが正規分布に適合するかどうかを判定するステップと、
    1つ以上の活動パラメータに対応するユーザ活動データが正規分布に適合しないという決定に少なくとも部分的に基づいて、1つ以上の活動パラメータに対応するユーザ活動データを正規分布に適合するように変換するステップと、
    を実行させる、請求項18に記載の装置。
  21. 前記1つ以上のメモリの少なくとも1つが、当該メモリに格納された命令をさらに含み、当該命令は、前記1つ以上のプロセッサの少なくとも1つに実行されたとき、前記1つ以上のプロセッサの少なくとも1つに、
    前記複数のデータオブジェクトを複数のクラスタにグループ分けする前に、
    複数の活動パラメータのうちの1つ以上の活動パラメータに対応するユーザ活動データを正規化するステップをさらに実行させる、請求項18に記載の装置。
  22. 前記1つ以上のメモリの少なくとも1つが、当該メモリに格納された命令をさらに含み、当該命令は、前記1つ以上のプロセッサの少なくとも1つに実行されたとき、前記1つ以上のプロセッサの少なくとも1つに、
    前記複数のデータオブジェクトを複数のクラスタにグループ分けする前に、
    複数の活動パラメータのうちの1つ以上の活動パラメータに対応するデータを除去することによって、ユーザ活動データ内の次元数を低減するステップをさらに実行させる、請求項18に記載の装置。
  23. 前記1つ以上の外れ値メトリックは、距離ベース外れ値メトリックおよび密度ベースのクラスタ外れ値メトリックのうちの1つ以上を含む、請求項18に記載の装置。
  24. 前記1つ以上のプロセッサの少なくとも1つに実行されたとき、前記1つ以上のプロセッサの少なくとも1つに、前記データオブジェクトを含むクラスタのサイズと、前記データオブジェクトを含む前記クラスタに対応する前記1つ以上の外れ値メトリックとに少なくとも部分的に基づいて、前記複数のデータオブジェクト内の1つ以上のデータオブジェクトの各々について不規則性スコアを計算するステップを実行させる命令は、前記1つ以上のプロセッサの少なくとも1つに、
    前記クラスタのサイズに少なくとも部分的に基づいて、前記データオブジェクトを含むクラスタの特異性メトリックを計算するステップと、
    前記データオブジェクトを含むクラスタの距離ベース外れ値メトリックを計算するステップと、
    データオブジェクトを含むクラスタの密度ベース外れ値メトリックを計算するステップと、
    特異性メトリック、距離ベース外れ値メトリック、および密度ベース外れ値メトリックに少なくとも部分的に基づいて、データオブジェクトの不規則性スコアを決定するステップと、
    をさらに実行させる、請求項23に記載の装置。
  25. 前記1つ以上のプロセッサの少なくとも1つに実行されたとき、前記1つ以上のプロセッサの少なくとも1つに、前記特異性メトリック、前記距離ベース外れ値検出信頼度メトリック、および前記密度ベース外れ値検出信頼度メトリックに少なくとも部分的に基づいて、前記データオブジェクトの前記不規則性スコアを決定するステップを実行させる命令は、前記1つ以上のプロセッサの少なくとも1つに、
    特異性メトリックの値の範囲を複数の特異性レベルにマッピングする第1のファジーメンバーシップ関数に少なくとも部分的に基づいて、特異性メトリックを複数の特異性レベルにおける1つ以上の特異性レベルにマッピングするステップと、
    距離ベース外れ値メトリックの値の範囲を複数の距離ベース外れ値レベルにマッピングする第2のファジーメンバーシップ関数に少なくとも部分的に基づいて、距離ベース外れ値メトリックを複数の距離ベース外れ値レベルにおける1つ以上の距離ベース外れ値レベルにマッピングするステップと、
    密度ベース外れ値メトリックの値の範囲を複数の密度ベース外れ値レベルにマッピングする第3のファジーメンバーシップ関数に少なくとも部分的に基づいて、密度ベース外れ値メトリックを複数の密度ベース外れ値レベルにおける1つ以上の密度ベース外れ値レベルにマッピングするステップと、
    1つ以上の特異レベル、1つ以上の距離ベース外れ値レベル、および1つ以上の密度ベース外れ値レベルの1つ以上の組合せを、複数の特異レベル、複数の距離ベース外れ値レベル、および複数の密度ベース外れ値レベルの組合せを複数の不規則性レベルにマッピングするファジールールセットに少なくとも部分的に基づいて、複数の不規則性レベルにおける1つ以上の不規則性レベルにマッピングするステップと、
    不規則性スコアを生成するために、不規則性判定関数を1つ以上の不規則性レベルに適用するステップと、
    をさらに実行させる、請求項24に記載の装置。
  26. 各データオブジェクトに対応する複数の活動パラメータと、各データオブジェクトの不規則性スコアとに少なくとも部分的に基づいて、前記1つ以上のデータオブジェクトに対して1つ以上のオブジェクトポスチャを生成するステップは、
    1つ以上のデータオブジェクト内の各データオブジェクトに対して、
    複数の活動パラメータ内の各活動パラメータをセグメント値のセット内のセグメント値にマッピングし、当該活動パラメータに対応するファジーメンバーシップ関数に少なくとも部分的に基づいて、対応する変動値を各活動パラメータに割り当てるステップであって、当該活動パラメータに対応するファジーメンバーシップ関数は、当該活動パラメータの可能な値をセグメント値のセットにマッピングするように構成される、ステップと、
    データオブジェクトの不規則性スコアを、不規則性値のセットにおける不規則性値にマッピングし、不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいて、対応する不規則性変動値を不規則性スコアに割り当てるステップであって、不規則性ファジーメンバーシップ関数は、当該不規則性スコアの可能な値を不規則性値のセットにマッピングするように構成される、ステップと、
    複数の活動パラメータにマッピングされた複数のセグメント値と、不規則性スコアにマッピングされた不規則性値とに少なくとも部分的に基づいて、データオブジェクトのオブジェクトポスチャを生成するステップと、
    を含む、請求項18に記載の装置。
  27. 前記1つ以上のプロセッサの少なくとも1つに実行されたとき、前記1つ以上のプロセッサの少なくとも1つに、前記複数の活動パラメータにおける各活動パラメータを、セグメント値のセットにおけるセグメント値にマッピングし、前記活動パラメータに対応するファジーメンバーシップ関数に少なくとも部分的に基づいて、対応する変動値を各活動パラメータに割り当てるステップを実行させる命令は、前記1つ以上のプロセッサの少なくとも1つに、
    ファジーメンバーシップ関数に少なくとも部分的に基づいて、活動パラメータに対応するセグメント値のセットにおける1つ以上のセグメント値を決定するステップと、
    1つ以上のセグメント値内の最低セグメント値を活動パラメータにマッピングするステップと、
    活動パラメータに対応する1つ以上のセグメント値の量に少なくとも部分的に基づいて変動値を決定するステップと、
    前記変動値を前記活動パラメータに割り当てるステップと、
    をさらに実行させる、請求項26に記載の装置。
  28. 前記1つ以上のプロセッサの少なくとも1つに実行されたとき、前記1つ以上のプロセッサの少なくとも1つに、前記データオブジェクトの前記不規則性スコアを、不規則性値のセットにおける不規則性値にマッピングし、不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいて、対応する不規則性変動値を前記不規則性スコアに割り当てるステップを実行させる命令は、前記1つ以上のプロセッサの少なくとも1つに、
    不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいて、不規則性スコアに対応する不規則性値のセットにおける1つ以上の不規則性値を決定するステップと、
    1つ以上の不規則性値の最小不規則性値を不規則性スコアにマッピングするステップと、
    不規則性スコアに対応する1つ以上の不規則性値の量に少なくとも部分的に基づいて不規則性変化値を決定するステップと、
    前記不規則性スコアに前記不規則性変動値を割り当てるステップと、
    をさらに実行させる、請求項26に記載の装置。
  29. 前記1つ以上のメモリの少なくとも1つが、当該メモリに格納された命令をさらに含み、当該命令は、前記1つ以上のプロセッサの少なくとも1つに実行されたとき、前記1つ以上のプロセッサの少なくとも1つに、
    前記データオブジェクトのポスチャを生成する前に、
    1つ以上の活動パラメータに対応する1つ以上の変動値および1つ以上の活動パラメータに対応する1つ以上のファジーメンバーシップ関数に少なくとも部分的に基づいて、複数の活動パラメータのうちの1つ以上の活動パラメータをセグメント値のセットのうちの1つ以上の追加のセグメント値にマッピングするステップと、
    データオブジェクトの不規則性スコアを、不規則性スコアに対応する不規則性変動値および不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいて、不規則性値のセット内の1つ以上の追加の不規則性値にマッピングするステップと、
    をさらに実行させる、請求項26に記載の装置。
  30. 前記1つ以上のプロセッサの少なくとも1つに実行されたとき、前記1つ以上のプロセッサの少なくとも1つに、前記複数の活動パラメータにおける1つ以上の活動パラメータを、前記1つ以上の活動パラメータに対応する1つ以上の変動値および前記1つ以上の活動パラメータに対応する1つ以上のファジーメンバーシップ関数に少なくとも部分的に基づいて、前記セグメント値のセットにおける1つ以上の追加のセグメント値にマッピングするステップを実行させる命令は、前記1つ以上のプロセッサの少なくとも1つに、
    ゼロより大きい対応変動値を有する複数の活動パラメータにおける1つ以上の活動パラメータを特定するステップと、
    特定された1つ以上の活動パラメータにおける各活動パラメータについて、当該活動パラメータに対応する1つ以上の可能なセグメント値を決定するステップであって、前記1つ以上の可能なセグメント値は、その活動パラメータに割り当てられた変動値、当該活動パラメータにマッピングされたセグメント値、および当該活動パラメータに対応するファジーメンバーシップ関数に少なくとも部分的に基づく、ステップと、
    識別された1つ以上の活動パラメータにおける各活動パラメータについて、その活動パラメータに対応する1つ以上の可能なセグメント値を連結して、可能なセグメント値の連結リストを生成するステップと、
    特定された1つ以上の活動パラメータ内の各活動パラメータについて、可能なセグメント値の連結リストを、対応する活動パラメータにマッピングするステップと、
    をさらに実行させる、請求項29に記載の装置。
  31. 前記1つ以上のプロセッサの少なくとも1つに実行されたとき、前記1つ以上のプロセッサの少なくとも1つに、前記データオブジェクトの前記不規則性スコアを、前記不規則性スコアおよび前記不規則性ファジーメンバーシップ関数に対応する前記不規則性変動値に少なくとも部分的に基づいて、前記不規則性値のセットにおける1つ以上の追加の不規則性値にマッピングするステップを実行させる命令は、前記1つ以上のプロセッサの少なくとも1つに、
    不規則性スコアに対応する1つ以上の可能な不規則性値を決定するステップであって、1つ以上の可能性な不規則性値は、不規則性スコアに割り当てられた不規則性変動値、不規則性スコアにマッピングされた不規則性値、および不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいている、ステップと、
    不規則性スコアに対応する1つ以上の可能な不規則性値を連結して、可能な不規則性値の連結リストを生成するステップと、
    可能な不規則性値の連結リストを不規則性スコアにマッピングするステップと、
    をさらに実行させる、請求項29に記載の装置。
  32. 前記1つ以上のプロセッサの少なくとも1つに実行されたとき、前記1つ以上のプロセッサの少なくとも1つに、前記複数の活動パラメータに対応する複数のセグメント値および前記不規則性スコアに対応する前記不規則性値に少なくとも部分的に基づいて前記データオブジェクトの前記オブジェクトポスチャを生成するステップを実行させる命令は、前記1つ以上のプロセッサの少なくとも1つに、
    複数の活動パラメータにマッピングされたすべてのセグメント値と、不規則性スコアにマッピングされたすべての不規則性値とを連結するステップをさらに実行させる、請求項26に記載の装置。
  33. 前記1つ以上のプロセッサの少なくとも1つに実行されたとき、前記1つ以上のプロセッサの少なくとも1つに、前記1つ以上のオブジェクトポスチャにおける少なくとも1つのオブジェクトポスチャの各々を、前記オブジェクトポスチャと同じユーザに対応する1つ以上の先行オブジェクトポスチャと比較して、前記複数のユーザにおける1つ以上のユーザの異常な活動を識別するステップを実行させる命令は、前記1つ以上のプロセッサの少なくとも1つに、
    オブジェクトポスチャと、同じユーザに対応する1つ以上の先行オブジェクトポスチャのうちの少なくとも1つとの間の非類似性ファクタを計算するステップと、
    非類似性ファクタが閾値非類似性ファクタより大きいという決定に少なくとも部分的に基づいて、ユーザの活動を異常であると識別するステップと、
    をさらに実行させる、請求項18に記載の装置。
  34. 前記非類似性ファクタは、前記オブジェクトポスチャと、前記同じユーザに対応する前記1つ以上の先行オブジェクトポスチャのうちの少なくとも1つとの間のレーベンシュタイン距離メトリックを含む、請求項33に記載の装置。
  35. コンピュータ読み取り可能な命令を格納した、少なくとも1つの非一時的コンピュータ読み取り可能媒体であって、
    前記命令は、1つ以上のコンピューティングデバイスによって実行されたとき、前記1つ以上のコンピューティングデバイスの少なくとも1つに、
    観察区間にわたって収集されたユーザ活動データを格納するステップであって、前記ユーザ活動データは、複数のユーザに対応する複数のデータオブジェクトを含み、複数のデータオブジェクト内の各データオブジェクトは、複数の活動パラメータを含む、ステップと、
    各データオブジェクトに関する複数の活動パラメータに少なくとも部分的に基づいて、複数のデータオブジェクトを複数のクラスタにグループ化するステップと、
    複数のクラスタ内の各クラスタに対応する1つ以上の外れ値メトリックを計算するステップであって、1つ以上の外れ値メトリック内の各外れ値メトリックは、対応するクラスタが複数のクラスタ内の他のクラスタの外にある度合いを表す、ステップと、
    データオブジェクトを含むクラスタのサイズと、データオブジェクトを含むクラスタに対応する1つ以上の外れ値メトリックとに少なくとも部分的に基づいて、複数のデータオブジェクト内の1つ以上のデータオブジェクトの各々について不規則性スコアを計算するステップと、
    各データオブジェクトに対応する複数の活動パラメータおよび各データオブジェクトの不規則性スコアに少なくとも部分的に基づいて、1つ以上のデータオブジェクトのための1つ以上のオブジェクトポスチャを生成するステップであって、1つ以上のオブジェクトポスチャにおける各オブジェクトポスチャは前記複数のユーザにおける1人のユーザに対応する、ステップと、
    複数のユーザにおける1人以上のユーザの異常な活動を識別するために、1つ以上のオブジェクトポスチャにおける少なくとも1つのオブジェクトポスチャの各々を、オブジェクトポスチャと同じユーザに対応する1つ以上の先行オブジェクトポスチャと比較するステップであって、1つ以上の先行オブジェクトポスチャの各々は、観察区間の前の異なる観察区間に対応する、ステップと、
    を実行させる、媒体。
  36. 前記複数の活動パラメータは、ユーザによってアクセスされるデータストアの数、ユーザによってアクセスされる機密データストアの数、ユーザによって影響を受けるレコードの数、ユーザによる要求の数、ユーザによるアクセス時間、ユーザによる機密要求の数、ユーザによって影響を受ける機密レコードの数、ユーザ位置、ユーザホスト再配置異常メトリック、ユーザ活動タイミング異常メトリック、またはユーザの転送ネットワークパスのうちの1つ以上を含む、請求項35に記載の媒体。
  37. コンピュータ読み取り可能な命令をさらに含み、当該命令は、前記1つ以上のコンピューティングデバイスの少なくとも1つに実行されたとき、前記1つ以上のコンピューティングデバイスの少なくとも1つに、
    前記複数のデータオブジェクトを複数のクラスタにグループ分けする前に、
    複数の活動パラメータのうち1つ以上の活動パラメータに対応するユーザ活動データが正規分布に適合するかどうかを判定するステップと、
    1つ以上の活動パラメータに対応するユーザ活動データが正規分布に適合しないという決定に少なくとも部分的に基づいて、1つ以上の活動パラメータに対応するユーザ活動データを正規分布に適合するように変換するステップと、
    を実行させる、請求項35に記載の媒体。
  38. コンピュータ読み取り可能な命令をさらに含み、当該命令は、前記1つ以上のコンピューティングデバイスの少なくとも1つに実行されたとき、前記1つ以上のコンピューティングデバイスの少なくとも1つに、
    前記複数のデータオブジェクトを複数のクラスタにグループ分けする前に、
    複数の活動パラメータのうちの1つ以上の活動パラメータに対応するユーザ活動データを正規化するステップをさらに実行させる、請求項35に記載の媒体。
  39. コンピュータ読み取り可能な命令をさらに含み、当該命令は、前記1つ以上のコンピューティングデバイスの少なくとも1つに実行されたとき、前記1つ以上のコンピューティングデバイスの少なくとも1つに、
    前記複数のデータオブジェクトを複数のクラスタにグループ分けする前に、
    複数の活動パラメータのうちの1つ以上の活動パラメータに対応するデータを除去することによって、ユーザ活動データ内の次元数を低減するステップをさらに実行させる、請求項35に記載の媒体。
  40. 前記1つ以上の外れ値メトリックは、距離ベース外れ値メトリックおよび密度ベースのクラスタ外れ値メトリックのうちの1つ以上を含む、請求項35に記載の媒体。
  41. 前記1つ以上のコンピューティングデバイスの少なくとも1つに実行されたとき、前記1つ以上のコンピューティングデバイスの少なくとも1つに、前記データオブジェクトを含むクラスタのサイズと、前記データオブジェクトを含む前記クラスタに対応する前記1つ以上の外れ値メトリックとに少なくとも部分的に基づいて、前記複数のデータオブジェクト内の1つ以上のデータオブジェクトの各々について不規則性スコアを計算するステップを実行させる命令は、前記1つ以上のコンピューティングデバイスの少なくとも1つに、
    前記クラスタのサイズに少なくとも部分的に基づいて、前記データオブジェクトを含むクラスタの特異性メトリックを計算するステップと、
    前記データオブジェクトを含むクラスタの距離ベース外れ値メトリックを計算するステップと、
    データオブジェクトを含むクラスタの密度ベース外れ値メトリックを計算するステップと、
    特異性メトリック、距離ベース外れ値メトリック、および密度ベース外れ値メトリックに少なくとも部分的に基づいて、データオブジェクトの不規則性スコアを決定するステップと、
    をさらに実行させる、請求項40に記載の媒体。
  42. 前記1つ以上のコンピューティングデバイスの少なくとも1つに実行されたとき、前記1つ以上のコンピューティングデバイスの少なくとも1つに、前記特異性メトリック、前記距離ベース外れ値検出信頼度メトリック、および前記密度ベース外れ値検出信頼度メトリックに少なくとも部分的に基づいて、前記データオブジェクトの前記不規則性スコアを決定するステップを実行させる命令は、前記1つ以上のコンピューティングデバイスの少なくとも1つに、
    特異性メトリックの値の範囲を複数の特異性レベルにマッピングする第1のファジーメンバーシップ関数に少なくとも部分的に基づいて、特異性メトリックを複数の特異性レベルにおける1つ以上の特異性レベルにマッピングするステップと、
    距離ベース外れ値メトリックの値の範囲を複数の距離ベース外れ値レベルにマッピングする第2のファジーメンバーシップ関数に少なくとも部分的に基づいて、距離ベース外れ値メトリックを複数の距離ベース外れ値レベルにおける1つ以上の距離ベース外れ値レベルにマッピングするステップと、
    密度ベース外れ値メトリックの値の範囲を複数の密度ベース外れ値レベルにマッピングする第3のファジーメンバーシップ関数に少なくとも部分的に基づいて、密度ベース外れ値メトリックを複数の密度ベース外れ値レベルにおける1つ以上の密度ベース外れ値レベルにマッピングするステップと、
    1つ以上の特異レベル、1つ以上の距離ベース外れ値レベル、および1つ以上の密度ベース外れ値レベルの1つ以上の組合せを、複数の特異レベル、複数の距離ベース外れ値レベル、および複数の密度ベース外れ値レベルの組合せを複数の不規則性レベルにマッピングするファジールールセットに少なくとも部分的に基づいて、複数の不規則性レベルにおける1つ以上の不規則性レベルにマッピングするステップと、
    不規則性スコアを生成するために、不規則性判定関数を1つ以上の不規則性レベルに適用するステップと、
    をさらに実行させる、請求項41に記載の媒体。
  43. 前記1つ以上のコンピューティングデバイスの少なくとも1つに実行されたとき、前記1つ以上のコンピューティングデバイスの少なくとも1つに、各データオブジェクトに対応する複数の活動パラメータと、各データオブジェクトの不規則性スコアとに少なくとも部分的に基づいて、前記1つ以上のデータオブジェクトに対して1つ以上のオブジェクトポスチャを生成するステップを実行させる命令は、前記1つ以上のコンピューティングデバイスの少なくとも1つに、
    1つ以上のデータオブジェクト内の各データオブジェクトに対して、
    複数の活動パラメータ内の各活動パラメータをセグメント値のセット内のセグメント値にマッピングし、当該活動パラメータに対応するファジーメンバーシップ関数に少なくとも部分的に基づいて、対応する変動値を各活動パラメータに割り当てるステップであって、当該活動パラメータに対応するファジーメンバーシップ関数は、当該活動パラメータの可能な値をセグメント値のセットにマッピングするように構成される、ステップと、
    データオブジェクトの不規則性スコアを、不規則性値のセットにおける不規則性値にマッピングし、不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいて、対応する不規則性変動値を不規則性スコアに割り当てるステップであって、不規則性ファジーメンバーシップ関数は、当該不規則性スコアの可能な値を不規則性値のセットにマッピングするように構成される、ステップと、
    複数の活動パラメータにマッピングされた複数のセグメント値と、不規則性スコアにマッピングされた不規則性値とに少なくとも部分的に基づいて、データオブジェクトのオブジェクトポスチャを生成するステップと、
    をさらに実行させる、請求項35に記載の媒体。
  44. 前記1つ以上のコンピューティングデバイスの少なくとも1つに実行されたとき、前記1つ以上のコンピューティングデバイスの少なくとも1つに、前記複数の活動パラメータにおける各活動パラメータを、セグメント値のセットにおけるセグメント値にマッピングし、前記活動パラメータに対応するファジーメンバーシップ関数に少なくとも部分的に基づいて、対応する変動値を各活動パラメータに割り当てるステップを実行させる命令は、前記1つ以上のコンピューティングデバイスの少なくとも1つに、
    ファジーメンバーシップ関数に少なくとも部分的に基づいて、活動パラメータに対応するセグメント値のセットにおける1つ以上のセグメント値を決定するステップと、
    1つ以上のセグメント値内の最低セグメント値を活動パラメータにマッピングするステップと、
    活動パラメータに対応する1つ以上のセグメント値の量に少なくとも部分的に基づいて変動値を決定するステップと、
    前記変動値を前記活動パラメータに割り当てるステップと、
    をさらに実行させる、請求項43に記載の媒体。
  45. 前記1つ以上のコンピューティングデバイスの少なくとも1つに実行されたとき、前記1つ以上のコンピューティングデバイスの少なくとも1つに、前記データオブジェクトの前記不規則性スコアを、不規則性値のセットにおける不規則性値にマッピングし、不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいて、対応する不規則性変動値を前記不規則性スコアに割り当てるステップを実行させる命令は、前記1つ以上のコンピューティングデバイスの少なくとも1つに、
    不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいて、不規則性スコアに対応する不規則性値のセットにおける1つ以上の不規則性値を決定するステップと、
    1つ以上の不規則性値の最小不規則性値を不規則性スコアにマッピングするステップと、
    不規則性スコアに対応する1つ以上の不規則性値の量に少なくとも部分的に基づいて不規則性変化値を決定するステップと、
    前記不規則性スコアに前記不規則性変動値を割り当てるステップと、
    をさらに実行させる、請求項43に記載の媒体。
  46. コンピュータ読み取り可能な命令をさらに含み、当該命令は、前記1つ以上のコンピューティングデバイスの少なくとも1つに実行されたとき、前記1つ以上のコンピューティングデバイスの少なくとも1つに、
    前記データオブジェクトのポスチャを生成する前に、
    1つ以上の活動パラメータに対応する1つ以上の変動値および1つ以上の活動パラメータに対応する1つ以上のファジーメンバーシップ関数に少なくとも部分的に基づいて、複数の活動パラメータのうちの1つ以上の活動パラメータをセグメント値のセットのうちの1つ以上の追加のセグメント値にマッピングするステップと、
    データオブジェクトの不規則性スコアを、不規則性スコアに対応する不規則性変動値および不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいて、不規則性値のセット内の1つ以上の追加の不規則性値にマッピングするステップと、
    をさらに実行させる、請求項43に記載の媒体。
  47. 前記1つ以上のコンピューティングデバイスの少なくとも1つに実行されたとき、前記1つ以上のコンピューティングデバイスの少なくとも1つに、前記複数の活動パラメータにおける1つ以上の活動パラメータを、前記1つ以上の活動パラメータに対応する1つ以上の変動値および前記1つ以上の活動パラメータに対応する1つ以上のファジーメンバーシップ関数に少なくとも部分的に基づいて、前記セグメント値のセットにおける1つ以上の追加のセグメント値にマッピングするステップを実行させる命令は、前記1つ以上のコンピューティングデバイスの少なくとも1つに、
    ゼロより大きい対応変動値を有する複数の活動パラメータにおける1つ以上の活動パラメータを特定するステップと、
    特定された1つ以上の活動パラメータにおける各活動パラメータについて、当該活動パラメータに対応する1つ以上の可能なセグメント値を決定するステップであって、前記1つ以上の可能なセグメント値は、その活動パラメータに割り当てられた変動値、当該活動パラメータにマッピングされたセグメント値、および当該活動パラメータに対応するファジーメンバーシップ関数に少なくとも部分的に基づく、ステップと、
    識別された1つ以上の活動パラメータにおける各活動パラメータについて、その活動パラメータに対応する1つ以上の可能なセグメント値を連結して、可能なセグメント値の連結リストを生成するステップと、
    特定された1つ以上の活動パラメータ内の各活動パラメータについて、可能なセグメント値の連結リストを、対応する活動パラメータにマッピングするステップと、
    をさらに実行させる、請求項46に記載の媒体。
  48. 前記1つ以上のコンピューティングデバイスの少なくとも1つに実行されたとき、前記1つ以上のコンピューティングデバイスの少なくとも1つに、前記データオブジェクトの前記不規則性スコアを、前記不規則性スコアおよび前記不規則性ファジーメンバーシップ関数に対応する前記不規則性変動値に少なくとも部分的に基づいて、前記不規則性値のセットにおける1つ以上の追加の不規則性値にマッピングするステップを実行させる命令は、前記1つ以上のコンピューティングデバイスの少なくとも1つに、
    不規則性スコアに対応する1つ以上の可能な不規則性値を決定するステップであって、1つ以上の可能性な不規則性値は、不規則性スコアに割り当てられた不規則性変動値、不規則性スコアにマッピングされた不規則性値、および不規則性ファジーメンバーシップ関数に少なくとも部分的に基づいている、ステップと、
    不規則性スコアに対応する1つ以上の可能な不規則性値を連結して、可能な不規則性値の連結リストを生成するステップと、
    可能な不規則性値の連結リストを不規則性スコアにマッピングするステップと、
    をさらに実行させる、請求項46に記載の媒体。
  49. 前記1つ以上のコンピューティングデバイスの少なくとも1つに実行されたとき、前記1つ以上のコンピューティングデバイスの少なくとも1つに、前記複数の活動パラメータに対応する複数のセグメント値および前記不規則性スコアに対応する前記不規則性値に少なくとも部分的に基づいて前記データオブジェクトの前記オブジェクトポスチャを生成するステップを実行させる命令は、前記1つ以上のコンピューティングデバイスの少なくとも1つに、
    複数の活動パラメータにマッピングされたすべてのセグメント値と、不規則性スコアにマッピングされたすべての不規則性値とを連結するステップをさらに実行させる、請求項43に記載の媒体。
  50. 前記1つ以上のコンピューティングデバイスの少なくとも1つに実行されたとき、前記1つ以上のコンピューティングデバイスの少なくとも1つに、前記1つ以上のオブジェクトポスチャにおける少なくとも1つのオブジェクトポスチャの各々を、前記オブジェクトポスチャと同じユーザに対応する1つ以上の先行オブジェクトポスチャと比較して、前記複数のユーザにおける1つ以上のユーザの異常な活動を識別するステップを実行させる命令は、前記1つ以上のコンピューティングデバイスの少なくとも1つに、
    オブジェクトポスチャと、同じユーザに対応する1つ以上の先行オブジェクトポスチャのうちの少なくとも1つとの間の非類似性ファクタを計算するステップと、
    非類似性ファクタが閾値非類似性ファクタより大きいという決定に少なくとも部分的に基づいて、ユーザの活動を異常であると識別するステップと、
    をさらに実行させる、請求項35に記載の媒体。
  51. 前記非類似性ファクタは、前記オブジェクトポスチャと、前記同じユーザに対応する前記1つ以上の先行オブジェクトポスチャのうちの少なくとも1つとの間のレーベンシュタイン距離メトリックを含む、請求項50に記載の媒体。
JP2018560991A 2016-05-20 2016-06-16 異常なユーザ行動関連アプリケーションデータを検出するための方法、装置、およびコンピュータ読み取り可能な媒体 Active JP6725700B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/160,783 US10257211B2 (en) 2016-05-20 2016-05-20 Method, apparatus, and computer-readable medium for detecting anomalous user behavior
US15/160,783 2016-05-20
PCT/US2016/037847 WO2017200558A1 (en) 2016-05-20 2016-06-16 Method, apparatus, and computer-readable medium for detecting anomalous user behavior

Publications (2)

Publication Number Publication Date
JP2019521422A true JP2019521422A (ja) 2019-07-25
JP6725700B2 JP6725700B2 (ja) 2020-07-22

Family

ID=60325385

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018560991A Active JP6725700B2 (ja) 2016-05-20 2016-06-16 異常なユーザ行動関連アプリケーションデータを検出するための方法、装置、およびコンピュータ読み取り可能な媒体

Country Status (4)

Country Link
US (1) US10257211B2 (ja)
JP (1) JP6725700B2 (ja)
CA (1) CA3024960C (ja)
WO (1) WO2017200558A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837078A (zh) * 2021-03-03 2021-05-25 万商云集(成都)科技股份有限公司 一种基于集群的用户异常行为检测方法

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11509771B1 (en) 2013-12-30 2022-11-22 Massachusetts Mutual Life Insurance Company System and method for managing routing of customer calls
US11151486B1 (en) * 2013-12-30 2021-10-19 Massachusetts Mutual Life Insurance Company System and method for managing routing of leads
US11743389B1 (en) 2013-12-30 2023-08-29 Massachusetts Mutual Life Insurance Company System and method for managing routing of customer calls
US11831794B1 (en) 2013-12-30 2023-11-28 Massachusetts Mutual Life Insurance Company System and method for managing routing of leads
US10681059B2 (en) * 2016-05-25 2020-06-09 CyberOwl Limited Relating to the monitoring of network security
EP3293937A1 (en) * 2016-09-12 2018-03-14 Vectra Networks, Inc. Method and system for detecting malicious payloads
JP6781950B2 (ja) * 2016-10-12 2020-11-11 オムロン株式会社 識別情報付与システム、識別情報付与方法、及びそのプログラム
US10542017B1 (en) * 2016-10-13 2020-01-21 Symantec Corporation Systems and methods for personalizing security incident reports
ES2867860T3 (es) * 2016-12-23 2021-10-21 Cytognos S L Método de clasificación de información digital
US10528533B2 (en) * 2017-02-09 2020-01-07 Adobe Inc. Anomaly detection at coarser granularity of data
US11470097B2 (en) * 2017-03-03 2022-10-11 Nippon Telegraph And Telephone Corporation Profile generation device, attack detection device, profile generation method, and profile generation computer program
US10587635B2 (en) 2017-03-31 2020-03-10 The Boeing Company On-board networked anomaly detection (ONAD) modules
US10474667B2 (en) * 2017-07-29 2019-11-12 Vmware, Inc Methods and systems to detect and correct outliers in a dataset stored in a data-storage device
US10432648B1 (en) * 2017-08-28 2019-10-01 Palo Alto Networks, Inc. Automated malware family signature generation
US11637844B2 (en) 2017-09-28 2023-04-25 Oracle International Corporation Cloud-based threat detection
US11037033B2 (en) * 2018-03-26 2021-06-15 Ca, Inc. Multivariate clustering-based anomaly detection
CN108628721B (zh) * 2018-05-02 2021-07-27 腾讯科技(上海)有限公司 用户数据值的异常检测方法、装置、存储介质及电子装置
CN108737406B (zh) * 2018-05-10 2020-08-04 北京邮电大学 一种异常流量数据的检测方法及系统
CN109861953B (zh) * 2018-05-14 2020-08-21 新华三信息安全技术有限公司 一种异常用户识别方法及装置
US10708050B2 (en) * 2018-06-19 2020-07-07 TokenEx, LLC Multivariate encryption systems and methods
US10881964B1 (en) * 2018-09-13 2021-01-05 Electronic Arts Inc. Automated detection of emergent behaviors in interactive agents of an interactive environment
EP3623965A1 (en) * 2018-09-14 2020-03-18 United Technologies Corporation Fabricated data detection method
US11916895B1 (en) * 2018-11-01 2024-02-27 Amazon Technologies, Inc. Certificate authority breach detection for network-connected devices
CN109727446B (zh) * 2019-01-15 2021-03-05 华北电力大学(保定) 一种用电数据异常值的识别与处理方法
EP3921658B1 (de) * 2019-02-06 2023-04-05 Lisa Dräxlmaier GmbH Verfahren und prüfvorrichtung
CN114127698A (zh) * 2019-07-18 2022-03-01 日本电信电话株式会社 学习装置、检测系统、学习方法以及学习程序
CN110381151B (zh) * 2019-07-24 2021-12-28 秒针信息技术有限公司 一种异常设备检测方法及装置
US11734121B2 (en) * 2020-03-10 2023-08-22 EMC IP Holding Company LLC Systems and methods to achieve effective streaming of data blocks in data backups
US11880271B2 (en) * 2020-03-27 2024-01-23 VMware LLC Automated methods and systems that facilitate root cause analysis of distributed-application operational problems and failures
US11113174B1 (en) * 2020-03-27 2021-09-07 Vmware, Inc. Methods and systems that identify dimensions related to anomalies in system components of distributed computer systems using traces, metrics, and component-associated attribute values
US11880272B2 (en) * 2020-03-27 2024-01-23 VMware LLC Automated methods and systems that facilitate root-cause analysis of distributed-application operational problems and failures by generating noise-subtracted call-trace-classification rules
US11416364B2 (en) * 2020-03-27 2022-08-16 Vmware, Inc. Methods and systems that identify dimensions related to anomalies in system components of distributed computer systems using clustered traces, metrics, and component-associated attribute values
CN111461564A (zh) * 2020-04-08 2020-07-28 湖南大学 基于云模型和最优组合赋权的风电机组功率特性评估方法
CN111639067B (zh) * 2020-05-21 2023-05-30 中国地质大学(武汉) 多特征融合卷积自编码的多元地球化学异常识别方法
CN111831373A (zh) * 2020-06-09 2020-10-27 上海容易网电子商务股份有限公司 一种用于安卓互动屏应用启动状态的检测处理方法
CN111753293B (zh) * 2020-06-29 2022-08-02 苏州浪潮智能科技有限公司 一种操作行为监测方法、装置及电子设备和存储介质
US11552972B2 (en) * 2020-07-14 2023-01-10 Bank Of America Corporation Trusted travel devices equipped with on-the-fly monitoring
US20220067122A1 (en) * 2020-08-26 2022-03-03 Coupang Corp. System and method for capping outliers during an experiment test
LU102090B1 (en) * 2020-09-29 2022-03-29 Microsoft Technology Licensing Llc Anomalous pattern detection for control of computer networks
KR102446923B1 (ko) * 2020-11-24 2022-09-22 연세대학교 산학협력단 밀도 기반 클러스터링을 이용한 사람 자세 데이터셋의 축약 장치 및 방법
CN112528162B (zh) * 2020-11-27 2024-03-22 微梦创科网络科技(中国)有限公司 一种刷转发量行为用户的实时识别方法及装置
CN116166960B (zh) * 2023-02-07 2023-09-29 山东经鼎智能科技有限公司 用于神经网络训练的大数据特征清洗方法及系统
CN117650995B (zh) * 2023-11-28 2024-06-14 佛山科学技术学院 一种基于离群检测的数据传输异常识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006065572A (ja) * 2004-08-26 2006-03-09 Mitsubishi Electric Corp 行動パターン抽出装置および異常行動検出装置
US20150229661A1 (en) * 2011-11-07 2015-08-13 Netflow Logic Corporation Method and system for confident anomaly detection in computer network traffic
WO2015141560A1 (ja) * 2014-03-19 2015-09-24 日本電信電話株式会社 トラヒック特徴情報抽出方法、トラヒック特徴情報抽出装置及びトラヒック特徴情報抽出プログラム
WO2016076334A1 (ja) * 2014-11-14 2016-05-19 日本電信電話株式会社 マルウェア感染端末の検出装置、マルウェア感染端末の検出方法およびマルウェア感染端末の検出プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3553713A1 (en) * 2008-06-12 2019-10-16 Guardian Analytics, Inc. Modeling users for fraud detection and analysis
US7890675B2 (en) * 2009-03-05 2011-02-15 International Business Machines Corporation Apparatus, system, and method for real time job-specific buffer allocation
US20120137367A1 (en) 2009-11-06 2012-05-31 Cataphora, Inc. Continuous anomaly detection based on behavior modeling and heterogeneous information analysis
US8826438B2 (en) 2010-01-19 2014-09-02 Damballa, Inc. Method and system for network-based detecting of malware from behavioral clustering
US9477826B2 (en) * 2010-11-29 2016-10-25 Biocatch Ltd. Device, system, and method of detecting multiple users accessing the same account
US9185095B1 (en) 2012-03-20 2015-11-10 United Services Automobile Association (Usaa) Behavioral profiling method and system to authenticate a user
US10063654B2 (en) * 2013-12-13 2018-08-28 Oracle International Corporation Systems and methods for contextual and cross application threat detection and prediction in cloud applications
US9846687B2 (en) * 2014-07-28 2017-12-19 Adp, Llc Word cloud candidate management system
US9774681B2 (en) 2014-10-03 2017-09-26 Fair Isaac Corporation Cloud process for rapid data investigation and data integrity analysis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006065572A (ja) * 2004-08-26 2006-03-09 Mitsubishi Electric Corp 行動パターン抽出装置および異常行動検出装置
US20150229661A1 (en) * 2011-11-07 2015-08-13 Netflow Logic Corporation Method and system for confident anomaly detection in computer network traffic
WO2015141560A1 (ja) * 2014-03-19 2015-09-24 日本電信電話株式会社 トラヒック特徴情報抽出方法、トラヒック特徴情報抽出装置及びトラヒック特徴情報抽出プログラム
US20160366159A1 (en) * 2014-03-19 2016-12-15 Nippon Telegraph And Telephone Corporation Traffic feature information extraction method, traffic feature information extraction device, and traffic feature information extraction program
WO2016076334A1 (ja) * 2014-11-14 2016-05-19 日本電信電話株式会社 マルウェア感染端末の検出装置、マルウェア感染端末の検出方法およびマルウェア感染端末の検出プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
山西 健司 ほか: "最新!データマイニング手法 統計的異常検出3手法", 情報処理, vol. 第46巻 第1号, JPN6009006038, 15 January 2005 (2005-01-15), JP, pages 34 - 40, ISSN: 0004268715 *
豊嶋 伊知郎 ほか: "クラスタリング結果を用いた外れ値検出による,歩行軌跡データからの行動識別手法", 情報処理学会研究報告, vol. 2007, no. 31, JPN6020016961, 20 March 2007 (2007-03-20), JP, pages 205 - 212, ISSN: 0004268714 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837078A (zh) * 2021-03-03 2021-05-25 万商云集(成都)科技股份有限公司 一种基于集群的用户异常行为检测方法
CN112837078B (zh) * 2021-03-03 2023-11-03 万商云集(成都)科技股份有限公司 一种基于集群的用户异常行为检测方法

Also Published As

Publication number Publication date
CA3024960A1 (en) 2017-11-23
CA3024960C (en) 2022-03-08
WO2017200558A1 (en) 2017-11-23
US20170339168A1 (en) 2017-11-23
JP6725700B2 (ja) 2020-07-22
US10257211B2 (en) 2019-04-09

Similar Documents

Publication Publication Date Title
JP6725700B2 (ja) 異常なユーザ行動関連アプリケーションデータを検出するための方法、装置、およびコンピュータ読み取り可能な媒体
US11496498B2 (en) Statistical analysis of network behavior using event vectors to identify behavioral anomalies using a composite score
US11005872B2 (en) Anomaly detection in cybersecurity and fraud applications
US11330009B2 (en) Systems and methods for machine learning-based digital content clustering, digital content threat detection, and digital content threat remediation in machine learning task-oriented digital threat mitigation platform
US10140576B2 (en) Computer-implemented system and method for detecting anomalies using sample-based rule identification
US9661010B2 (en) Security log mining devices, methods, and systems
US20200379868A1 (en) Anomaly detection using deep learning models
US11093845B2 (en) Tree pathway analysis for signature inference
US20150067857A1 (en) In-situ trainable intrusion detection system
US11693917B2 (en) Computational model optimizations
US20180077181A1 (en) Bot detection based on behavior analytics
US11303666B1 (en) Systems and methods for intelligent cyber security threat detection and mitigation through an extensible automated investigations and threat mitigation platform
Kalinichenko et al. Methods for anomaly detection: A survey
US11734312B2 (en) Feature transformation and missing values
Aziz et al. Cluster Analysis-Based Approach Features Selection on Machine Learning for Detecting Intrusion.
Singh et al. User behaviour based insider threat detection using a hybrid learning approach
Meryem et al. A novel approach in detecting intrusions using NSLKDD database and MapReduce programming
Alhakami Alerts clustering for intrusion detection systems: overview and machine learning perspectives
US11777962B2 (en) Systems and methods for machine learning-based detection of an automated fraud attack or an automated abuse attack
Jirachan et al. Applying KSE-test and K-means clustering towards scalable unsupervised intrusion detection
Kaiser Cognitive discriminative feature selection using variance fractal dimension for the detection of cyber attacks
Abinaya et al. Big Data in Real Time to Detect Anomalies
US20240211331A1 (en) Systems and methods for a profile-based model selector
Sandeep et al. Analysis and Detection of Fraud in Email Database Using Machine Learning Approach
Gonçalves et al. Clinical Business Intelligence to Prevent Stroke Accidents

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190619

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200625

R150 Certificate of patent or registration of utility model

Ref document number: 6725700

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250