JP2022527511A

JP2022527511A - サイバーセキュリティ・イベントについての時間関係を推測すること

Info

Publication number: JP2022527511A
Application number: JP2021558564A
Authority: JP
Inventors: ラヴィンドラ、プリーティ; パク、ヨンジャ; キラット、ディールング; ジャン、ジヨン; シュトークリン、マーク、フィリップ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-04-06
Filing date: 2020-03-23
Publication date: 2022-06-02
Anticipated expiration: 2040-03-23
Also published as: CN113647078B; GB2598493B; US20200322361A1; GB2598493A; JP7436501B2; US11082434B2; GB202114777D0; CN113647078A; WO2020208448A1

Abstract

認知セキュリティ分析プラットフォームは、サイバーセキュリティ・イベントについての時間関係データに、自動的に推測するための技法を提供することによって強化される。動作中、セキュリティ・イベントの記述が、典型的には非構造化セキュリティ・コンテンツまたはデータとして受け取られる。時間データまたはキューなどの情報は、セキュリティ・エンティティおよび関係データとともに記述から抽出される。抽出した時間情報は、セキュリティ・イベントの時間値マーカ（すなわち、確立された時間）を判定するために、時間マーカのセット（発見的方法）に応じて処理することである。この処理は、典型的には、１つまたは複数の構造化データ・ソースからの情報の検索を伴う。確立された時間は、セキュリティ・エンティティおよび関係にリンクされる。識別した時間データで拡張されたような、結果として生じるセキュリティ・イベントは、その後、管理動作が行われる。

Description

本開示は、一般に、サイバーセキュリティ違反分析に関する。

今日のネットワークは、これまでより大きく複雑であり、悪意のある活動からネットワークを保護することは、終わることのないタスクである。自分たちの知的財産を守ること、自分たちの顧客のアイデンティティを保護すること、ビジネスの混乱を避けることなどを行おうと努める組織は、ログおよびネットワーク・フロー・データを単に監視すること以上のことを行う必要があり、実際には、多くの組織が、１日あたり何百万もの、またはことによると何十億ものイベントを作り出し、優先的な違反の短いリストにこのデータを書き留めて抜き出すことは、気力をくじくことになる恐れがある。

既知のセキュリティ製品は、セキュリティ・インシデント・アンド・イベント・マネージメント（ＳＩＥＭ：Security Incident and Event Management）ソリューションを含み、ＳＩＥＭは、観察されたセキュリティ・イベントを評価するためにルールに基づくメカニズム上で作り上げられる。ＳＩＥＭシステムおよび方法は、利用可能なネットワーク・データを収集し、正規化し、相関させる。このタイプの１つのこのようなセキュリティ・インテリジェンス製品は、ＩＢＭ（Ｒ）ＱＲａｄａｒ（Ｒ）ＳＩＥＭであり、ＩＢＭ（Ｒ）ＱＲａｄａｒ（Ｒ）ＳＩＥＭは、ネットワーク・フロー・データを検査して、ネットワーク上の有効なホストおよびサーバ（資産）を見つけて分類し、これらが使用するアプリケーション、プロトコル、サービス、および、ポートを追跡するプラットフォーム技術のセットを提供する。製品は、このデータの収集、格納、および分析を行い、脅威検出ならびにコンプライアンス・レポートおよび監査における使用のために、リアル・タイム・イベントを相関させる。したがって、このプラットフォームを使用して、何十億ものイベントおよびフローを、彼らのビジネス・インパクトに応じて、ごくわずかな実行可能な違反に減らし、優先順位を付けることができる。ＳＩＥＭベースのアプローチは著しい長所をもたらすが、ルールは、具体的な侵害指標（ＩｏＣ：indicators of compromise）を伴う脅威フィードでハード・コード化またはパラメータ化のいずれかが行われる。このように、典型的には、これらのソリューションは、既知の脅威しか検出することができず、未知の脅威については、例えば、挙動ベースのルールによって検出され、根本原因を識別し、セキュリティ分析者を支援することができない。その上、これらのシステムは、セキュリティ専門職が脅威アドバイザリを読取り、ＩｏＣを抽出することによって、任意の半構造化および非構造化脅威フィード、すなわち自然言語テキストの手動キュレーションを頼りにすることが多いので、実装形態の難題を提示する恐れがある。

上記で説明されたものなどのシステムでは、構造化データ・ソースは、「何／誰が悪いのか」についてのセキュリティおよび脅威インテリジェンス情報を提供するが、典型的には、このようなデータ・ソースは、脅威についての綿密な知識、および、特定の状況にどのように対処するかについての実行可能な見識を欠いている。典型的には、構造化データ・ソースは、領域専門家によって慎重にキュレートされる。例は、ＩＢＭＸ－ＦｏｒｃｅＥｘｃｈａｎｇｅ、ＶｉｒｕｓＴｏｔａｌ、ブラックリスト、共通脆弱性評価システム（ＣＶＳＳ）スコアなどを限定することなく含む。非構造化データ・ソースは、対照的に、特定のＩＰアドレスまたはＵＲＬがなぜ悪いのか、これらが何をするのか、既知の脆弱性からユーザをどのように保護するのかなど、より一層文脈的な情報を提供する。このような非構造化データ・ソースの例は、数ある中でも、信頼できるソース、ブログ、ツイートからの脅威レポートを限定することなく含む。構造化および非構造化知識は、このように、典型的には、別々に存在し、ことによると、構造化データ・ソースは、散らばっており、ヘテロジニアスであることが多い。現代のセキュリティ・ツール（例えば、ＳＩＥＭ）は、構造化データ・ソースを直接調査することができるが、典型的には人間の専門家によってのみ手動で消費される、非構造化テキストで情報を理解する能力がない。

サイバーセキュリティ動作は、正確なセキュリティ・インシデント・レスポンスを提供できるようになるために、ＩｏＣおよび他の脅威インテリジェンス・データに依存する。脅威インテリジェンス・データの正確さの１つの態様は、このようなデータの時間的重要性である。それでも、侵害指標および他の脅威インテリジェンス・データは、短命になりがちである。実際、サイバーセキュリティ・イベントは、多くのサイバーセキュリティ・オブジェクト（例えば、マルウェア、ＩＰアドレス、ドメインなど）が非常に動的であり、これらの挙動を絶えず経時的に変化させるので、非常に時間的制約がある。既知のサイバーセキュリティ・イベント抽出技法が知られているが、（部分的にこの揮発性により）、特に脅威インテリジェンス・データが自然言語で書かれた非構造化ドキュメントで提示された場合に脅威インテリジェンス・データについての正確な時間情報を提供すること、または、任意の時間フレームの間に最も関連のあるデータを提示することは、挑戦的である。いつイベントが実際に起こったかについての知識がないと、サイバーセキュリティ・インテリジェンスは、不完全になることが多い。

サイバーセキュリティ・インシデントの時間情報をシステムが推測できるようにする、自動化され、効率的な計算的技法を提供する必要性が残っている。

そのためにも、本明細書の主題は、例えば、サイバーセキュリティが活用する、セキュリティ・イベントについての時間関係データを自動的に推測するための方法、装置、およびコンピュータ・プログラム製品を提供する。１つの態様では、サイバーセキュリティ・イベント（例えば、ＩｏＣ）に関連付けられた時間情報を自動的に推測するための方法は、典型的には，ニュース記事、ブログ、または他のいくつかのセキュリティ脅威レポート・ソースなどの非構造化セキュリティ・コンテンツを含むソース・ドキュメントから、イベントについての情報を抽出することによって始まる。自然言語処理（ＮＬＰ：natural language processing）または同様のものを使用して、テキスト内に存在する１つまたは複数の時間表現を検出する。表現は、時点（例えば、２０１６年５月２５日）、相対時間参照（例えば、昨年）、時間範囲（例えば、２０１７年６月から２０１８年３月まで）などを指すことができる。相対時間参照について、好ましくは、アンカー時間の（同じテキスト内の）任意の存在に基づいて、イベントの時点が推測され、ここで、アンカー時間は、識別することができ、正しい所与のコンテキストとして使われる、いくつかの時間参照である。アンカー時間を同じテキストから推測できないとき、イベントについての抽出した時間情報は、１つまたは複数のキュレートした外部データ・ソースから典型的に取得された、さらなる構造化データと相関される。これらの発見的方法に基づいて、「時間」値マーカ（これは、範囲であってもよい）が、次に、サイバーセキュリティ・イベントに割り当てられる、すなわち、関連付けられたものと判定される。システム（またはシステムのユーザ）の観点から、時間値マーカは、次に、当該のイベントが起こった「時間」とみなされる。マーカは、絶対的であっても、相対的であってもよい。このようにイベントについての時間値マーカを関連付けることによって、サイバーセキュリティ・イベントについてのより有用かつ正確な情報が、次に、（例えば、他のシステムまたはセキュリティ分析者に）出力され、これにより、セキュリティ・イベントおよびインシデントが管理されるスピードと正確さを改善する。

前述では、主題の、より関係する特徴のいくつかを概説してきた。これらの特徴は、単なる例証であると解釈されるべきである。異なる手法で開示の主題を適用することによって、または、説明されることになるような主題を修正することによって、他の多くの有益な結果に達することができる。

主題およびその長所の、より完全な理解のために、添付の図面とともに行われる以下の説明への参照がここで行われる。

例証的実施形態の例示的態様を実行することができる分散型データ処理環境の例示的ブロック図である。例証的実施形態の例示的態様を実行することができるデータ処理システムの例示的ブロック図である。本開示の技法を実践することができるセキュリティ・インテリジェンス・プラットフォームを示す図である。認知分析技法の高水準処理フローである。図４の認知分析技法をさらに詳細に描写する図である。セキュリティ知識グラフを使用して、違反コンテキスト・グラフがどのように拡張されるかを描写する図である。非構造化ドキュメントのテキスト内に存在し得るセキュリティ・イベント時間表現の例を描写する図である。本開示によるサイバーセキュリティ・イベントについての時間情報を抽出するための技法の処理フローである。本開示の分析技法を活用した、知識グラフ・ベースの一時推測を描写するブロック図である。過去のセキュリティ・イベントと、記事で参照された別のセキュリティ・イベントとの間の関係を示すために適用された相対時間を示す本開示の技法の第１の例を描写する図である。発見的方法および優先方式の実施形態を使用して、記事における関係に正しい時間が適用されたことを示す技法の第２の例を描写する図である。

ここで図面を参照しながら、および特に、図１～図２を参照しながら、本開示の例証的実施形態を実行することができるデータ処理環境の例示的な図を提供する。図１～図２は、例示的なものにすぎず、開示の主題の態様または実施形態を実行することができる環境について、何らかの限定を主張または意味することを意図するものではないことを理解されたい。本発明の思想および範囲から逸脱することなく、描写した環境に多くの修正を行うことができる。

ここで図面を参照すると、図１は、例証的実施形態の態様を実行することができる例示的な分散型データ処理システムの図的記述を描写する。分散型データ処理システム１００は、例証的実施形態の態様を実行することができるコンピュータのネットワークを含むことができる。分散型データ処理システム１００は、少なくとも１つのネットワーク１０２を収め、ネットワーク１０２は、分散型データ処理システム１００内で互いに接続された様々なデバイスとコンピュータとの間の通信リンクを提供するために使用される媒体である。ネットワーク１０２は、ワイヤ、ワイヤレス通信リンク、または光ファイバ・ケーブルなどの接続を含むことができる。

描写の例では、サーバ１０４およびサーバ１０６が、ストレージ・ユニット１０８とともにネットワーク１０２に接続される。さらに、クライアント１１０、１１２、および１１４も、ネットワーク１０２に接続される。これらのクライアント１１０、１１２、および１１４は、例えば、パーソナル・コンピュータ、ネットワーク・コンピュータ、または同様のものであってもよい。描写の例では、サーバ１０４は、ブート・ファイル、オペレーティング・システム・イメージ、およびアプリケーションなどのデータを、クライアント１１０、１１２、および１１４に提供する。クライアント１１０、１１２、および１１４は、描写の例では、サーバ１０４に対するクライアントである。分散型データ処理システム１００は、図示していない追加のサーバ、クライアント、および他のデバイスを含んでもよい。

描写の例では、分散型データ処理システム１００は、プロトコルのトランスミッション・コントロール・プロトコル／インターネット・プロトコル（ＴＣＰ／ＩＰ）スイートを使用して互いに通信する、ネットワークおよびゲートウェイの世界中のコレクションを表すネットワーク１０２を伴うインターネットである。インターネットの中心には、データおよびメッセージをルートする何千もの商用の、政府の、教育の、および他のコンピュータ・システムからなる、主要なノードまたはホスト・コンピュータ間の高速データ通信線のバックボーンがある。当然、分散型データ処理システム１００も、例えば、イントラネット、ローカル・エリア・ネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、または同様のものなどの、いくつかの異なるタイプのネットワークを含むように実装することができる。上述のように、図１は、開示の主題の種々の実施形態に対する構造的限定ではなく、例であることを意図しており、したがって、図１に示した特定の要素は、本発明の例証的実施形態を実行することができる環境についての限定と考えるべきではない。

ここで図２を参照すると、例証的実施形態の態様を実行することができる例示的なデータ処理システムのブロック図が示されている。データ処理システム２００は、本開示の例証的実施形態のための処理を実行するコンピュータ使用可能コードまたは命令を置くことができる、図１のクライアント１１０などのコンピュータの例である。

ここで図２を参照すると、例証的実施形態を実行することができるデータ処理システムのブロック図が示されている。データ処理システム２００は、処理を実行するコンピュータ使用可能プログラム・コードまたは命令を例証的実施形態のために置くことができる、図１のサーバ１０４またはクライアント１１０などのコンピュータの例である。この例証的な例では、データ処理システム２００は、プロセッサ・ユニット２０４、メモリ２０６、永続ストレージ２０８、通信ユニット２１０、入出力（Ｉ／Ｏ）ユニット２１２、およびディスプレイ２１４の間の通信を提供する、通信ファブリック２０２を含む。

プロセッサ・ユニット２０４は、メモリ２０６にロードすることができるソフトウェアのための命令を実行するように機能する。プロセッサ・ユニット２０４は、特定の実装形態に応じて、１つもしくは複数のプロセッサのセットであってもよく、または、マルチプロセッサ・コアであってもよい。さらに、プロセッサ・ユニット２０４は、単一チップ上にメイン・プロセッサが２次プロセッサとともに存在する１つまたは複数のヘテロジニアス・プロセッサ・システムを使用して実装されてもよい。別の例証的な例として、プロセッサ・ユニット２０４は、同じタイプの複数のプロセッサを収める対称型マルチプロセッサ（ＳＭＰ）システムであってもよい。

メモリ２０６および永続ストレージ２０８は、ストレージ・デバイスの例である。ストレージ・デバイスは、一時的または永久的あるいはその両方で情報を格納することができるハードウェアの任意の１つである。メモリ２０６は、これらの例では、例えば、ランダム・アクセス・メモリ、または他の任意の適切な揮発性もしくは不揮発性ストレージ・デバイスであってもよい。永続ストレージ２０８は、特定の実装形態に応じて、様々な形をしていてもよい。例えば、永続ストレージ２０８は、１つまたは複数の構成要素またはデバイスを収めることができる。例えば、永続ストレージ２０８は、ハード・ドライブ、フラッシュ・メモリ、書換え可能光ディスク、書換え可能磁気テープ、または、上記のいくつかの組合せであってもよい。永続ストレージ２０８によって使用される媒体も、取外し可能であってもよい。例えば、取外し可能ハード・ドライブを、永続ストレージ２０８に使用することができる。

通信ユニット２１０は、これらの例では、他のデータ処理システムまたはデバイスとの通信を提供する。これらの例では、通信ユニット２１０は、ネットワーク・インターフェース・カードである。通信ユニット２１０は、物理通信リンクおよびワイヤレス通信リンクのどちらか一方または両方を使用して、通信を提供することができる。

入出力ユニット２１２は、データ処理システム２００に接続することができる他のデバイスとのデータの入力および出力を可能にする。例えば、入出力ユニット２１２は、キーボードおよびマウスを通じたユーザ入力のための接続を提供することができる。さらに、入出力ユニット２１２は、プリンタに出力を送ることができる。ディスプレイ２１４は、ユーザに情報を表示するためのメカニズムを提供する。

オペレーティング・システムおよびアプリケーションまたはプログラムのための命令は、永続ストレージ２０８に置かれる。これらの命令は、プロセッサ・ユニット２０４による実行のために、メモリ２０６にロードすることができる。種々の実施形態の処理は、メモリ２０６などのメモリに置くことができるコンピュータ実行命令を使用して、プロセッサ・ユニット２０４によって実施することができる。これらの命令は、プログラム・コード、コンピュータ使用可能プログラム・コード、またはコンピュータ可読プログラム・コードと呼ばれ、プロセッサ・ユニット２０４内のプロセッサで読み込んで実行することができる。種々の実施形態におけるプログラム・コードは、メモリ２０６または永続ストレージ２０８などの、種々の物理的または有形のコンピュータ可読媒体上で具現化されてもよい。

プログラム・コード２１６は、選択的に取外し可能なコンピュータ可読媒体２１８に関数形式で置かれ、プロセッサ・ユニット２０４による実行のために、データ処理システム２００にロードまたは移送することができる。プログラム・コード２１６およびコンピュータ可読媒体２１８は、これらの例では、コンピュータ・プログラム製品２２０を形成する。１つの例では、コンピュータ可読媒体２１８は、例えば、永続ストレージ２０８の一部であるハード・ドライブなどのストレージ・デバイスに移送するための、永続ストレージ２０８の一部であるドライブまたは他のデバイスに挿入されるか、置かれる、光または磁気ディスクなどの、有形形式であってもよい。有形形式で、コンピュータ可読媒体２１８も、データ処理システム２００に接続されたハード・ドライブ、サム・ドライブ、またはフラッシュ・メモリなどの永続ストレージの形をしていてもよい。コンピュータ可読媒体２１８の有形形式は、コンピュータ書込み可能ストレージ媒体とも呼ばれる。いくつかの事例では、コンピュータ書込み可能媒体２１８は、取外し可能でなくてもよい。

代替として、プログラム・コード２１６は、通信ユニット２１０への通信リンクを通じて、または入出力ユニット２１２への接続を通じて、あるいはその両方を通じて、コンピュータ可読媒体２１８からデータ処理システム２００に移送することができる。通信リンクまたは接続あるいはその両方は、例証的な例では、物理またはワイヤレスであってもよい。コンピュータ可読媒体も、通信リンクまたはワイヤレス伝送などの、非有形媒体の形をしていてもよく、プログラム・コードを収める。データ処理システム２００のために示された種々の構成要素は、種々の実施形態を実行することができる手法に対する構造的限定を行うためのものではない。種々の例証的実施形態は、データ処理システム２００のために示された構成要素に加えた、またはその代わりの構成要素を含むデータ処理システムで実行することができる。図２に示された他の構成要素は、図示された例証的な例から変更することができる。１つの例として、データ処理システム２００内のストレージ・デバイスは、データを格納することができる任意のハードウェア装置である。メモリ２０６、永続ストレージ２０８、およびコンピュータ可読媒体２１８は、有形形式でのストレージ・デバイスの例である。

別の例では、バス・システムは、通信ファブリック２０２を実装するために使用することができ、システム・バスまたは入出力バスなどの、１つまたは複数のバスで構成することができる。当然、バス・システムは、バス・システムに取り付けられた種々の構成要素またはデバイス間のデータ転送を提供するアーキテクチャの任意の適切なタイプを使用して実装することができる。追加として、通信ユニットは、モデムまたはネットワーク・アダプタなど、データを送受信するために使用される１つまたは複数のデバイスを含むことができる。さらに、メモリは、例えば、通信ファブリック２０２内に存在することがあるインターフェースおよびメモリ・コントローラ・ハブで見つかるものなどの、メモリ２０６またはキャッシュであってもよい。

本発明の動作を実行するためのコンピュータ・プログラム・コードは、Ｊａｖａ（ＴＭ）、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋または同様のものなどのオブジェクト指向プログラミング言語、および、「Ｃ」プログラミング言語、または類似のプログラミング言語などの従来の手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組合せで書くことができる。プログラム・コードは、全面的にユーザのコンピュータ上で、または部分的にユーザのコンピュータ上で、スタンド・アロン・ソフトウェア・パッケージとして、あるいは、部分的にユーザのコンピュータ上かつ部分的にリモート・コンピュータ上で、または全面的にリモート・コンピュータもしくはサーバ上で、実行することができる。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続することができ、または接続は、（例えば、インターネット・サービス・プロバイダを使用してインターネットを通じて）外部コンピュータに対して行われてもよい。

図１～図２のハードウェアは、実装形態に応じて変更できることを当業者は理解するであろう。フラッシュ・メモリ、同等の不揮発性メモリ、または光ディスク・ドライブなどの他の内部ハードウェアまたは周辺デバイスは、図１～図２に描写したハードウェアに加えてまたはその代わりに使用することができる。また、例証的実施形態の処理は、開示の主題の思想および範囲から逸脱することなく、以前に言及したＳＭＰシステム以外のマルチプロセッサ・データ処理システムに適用することができる。

図から分かるように、本明細書で説明される技法は、１つまたは複数のマシンのセット上で実行して、インターネットにアクセス可能なウェブベースのポータルとクライアント・マシンが通信する、図１に示されたものなどの標準クライアント－サーバ・パラダイム内で共に動作することができる。エンド・ユーザは、ポータルにアクセスして対話することができる、インターネット接続可能デバイス（例えば、デスクトップ・コンピュータ、ノートブック・コンピュータ、インターネット対応モバイル・デバイス、または同様のもの）を動作させる。典型的には、各クライアントまたはサーバ・マシンは、ハードウェアおよびソフトウェアを備える、図２に示されたものなどのデータ処理システムであり、これらのエンティティは、インターネット、イントラネット、エクストラネット、プライベート・ネットワーク、または他の任意の通信媒体もしくはリンクなどのネットワークで互いに通信する。データ処理システムは、典型的には、１つまたは複数のプロセッサ、オペレーティング・システム、１つまたは複数のアプリケーション、および１つまたは複数のユーティリティを含む。データ処理システム上のアプリケーションは、数ある中でも、ＨＴＴＰ、ＳＯＡＰ、ＸＭＬ、ＷＳＤＬ、ＵＤＤＩ、およびＷＳＦＬへのサポートを限定することなく含む、Ｗｅｂサービスへのネイティブ・サポートを行う。ＳＯＡＰ、ＷＳＤＬ、ＵＤＤＩ、およびＷＳＦＬに関する情報は、これらの標準の開発と維持を担うワールド・ワイド・ウェブ・コンソーシアム（Ｗ３Ｃ）から利用することができ、ＨＴＴＰおよびＸＭＬに関するさらなる情報は、インターネット・エンジニアリング・タスク・フォース（ＩＥＴＦ）から利用することができる。これらの標準を熟知していることを前提とする。

インシデント・フォレンジックを伴うセキュリティ・インテリジェンス・プラットフォーム
既知のタイプのセキュリティ・インテリジェンス・プラットフォームが、図３に示されている。一般に、プラットフォームは、セキュリティ・インシデント調査を支援するために、サーチ主導データ探索、セッション再構築、およびフォレンジック・インテリジェンスを提供する。関係する部分では、プラットフォーム３００は、パケット・キャプチャ・アプライアンス３０２のセット、インシデント・フォレンジック・モジュール・アプライアンス３０４、分散型データベース３０６、およびセキュリティ・インテリジェンス・コンソール３０８を備える。パケット・キャプチャおよびモジュール・アプライアンスは、ネットワーク機器として構成されるか、仮想アプライアンスとして構成されてもよい。パケット・キャプチャ・アプライアンス３０２は、（既知のパケット・キャプチャ（ｐｃａｐ）アプリケーション・プログラミング・インターフェース（ＡＰＩ）、または他の既知の技法を使用して）ネットワークからパケットをキャプチャし、このようなデータ（例えば、リアル・タイム・ログ・イベントおよびネットワーク・フロー）を分散型データベース３０６に提供するように動作可能であり、ここで、データは、フォレンジック・モジュール３０４およびセキュリティ・インテリジェンス・コンソール３０８による分析のために格納され、利用することができる。パケット・キャプチャ・アプライアンスは、セッション指向の手法で動作し、フロー内の全てのパケットをキャプチャし、速いサーチ主導データ探索を可能にするためにメタデータおよびペイロードにインデックスを付ける。データベース３０６は、分散型およびヘテロジニアス・データ・セットが、パケット・キャプチャ・アプライアンスによって収集された情報を含む、フォレンジック・リポジトリを提供する。コンソール３０８は、調査者によるインシデント調査ワークフローを容易にするために、「フォレンジック」ダッシュボード・タブを見せた、ウェブまたはクラウドにアクセス可能なユーザ・インターフェース（ＵＩ）を提供する。ダッシュボードを使用して、調査者は、セキュリティ・インシデントを選択する。インシデント・フォレンジック・モジュール３０４は、選択したセキュリティ・インシデントについての（メタデータ、ペイロードなどを含む）全てのパケットを検索し、分析のためにセッションを再構築する。

このタイプのインシデント調査ワークフローを実装する代表的な市販製品は、ＩＢＭ（Ｒ）ＳｅｃｕｒｉｔｙＱＲａｄａｒ（Ｒ）ＩｎｃｉｄｅｎｔＦｏｒｅｎｓｉｃｓＶ７．２．３（またはこれ以降）である。このプラットフォームを使用して、調査者は、データベースに格納された分散型およびヘテロジニアス・データ・セット中をサーチし、統合サーチ結果リストを受け取る。サーチ結果は、グリッドにマージされてもよく、アイデンティティ間の関係をユーザが探査できるように「デジタル・インプレッション」ツールで視覚化されてもよい。

具体的には、フォレンジック・リポジトリ内のネットワーク・トラフィックおよびドキュメントから関連データを抽出するための、典型的なインシデント・フォレンジック調査をここで説明する。このアプローチによれば、プラットフォームは、多くのレコードのサーチおよびブックマーキングの簡単な高水準アプローチをまず可能にし、次に、調査者が、ブックマークしたレコードに焦点を合わせて、レコードの最終的なセットを識別することを可能にする。典型的なワークフローでは、調査者は、どの材料が関連するかを判定する。調査者は、次に、この材料を使用して、既存のケースにおける他の方法を使用することによってフォローアップすることができる新しい踏み台を生じるように仮説または「ケース」を証明する。典型的には、調査者は、きめの粗いアクションを通じて自らの調査にまず焦点を合わせ、次に、関連のある最終結果のセットに、これらの発見を微調整し始める。図３の底部は、この基本的なワークフローを示す。プラットフォームにおける可視化および分析ツールを次に使用して、関連性についての結果を手動および自動で評価することができる。関連のあるレコードは、印刷するか、エクスポートするか、または処理に投入することができる。

上述のように、プラットフォーム・コンソールは、このワークフローを容易にするためにユーザ・インターフェースを提供する。したがって、例えば、プラットフォームは、インターフェース表示タブ上のデフォルト・ページとしてサーチ結果ページを提供する。調査者は、サーチ結果を使用して、ドキュメントをサーチし、アクセスする。調査者は、他のツールを使用して、調査を促進することができる。これらのツールの１つは、デジタル・インプレッション・ツールである。デジタル・インプレッションは、アイデンティティ・トレイルを識別する関連付けおよび関係のコンパイルされたセットである。デジタル・インプレッションは、攻撃エンティティのアイデンティティ、これがどのように通信するか、およびこれが何と通信するかを明らかにするのに役立てるために、ネットワーク関係を再構築する。ネットワーク・トラフィックおよびドキュメントで見つかった既知のエンティティまたは人物は、自動的にタグ付けされる。フォレンジック・インシデント・モジュール３０４は、デジタル・インプレッションを生み出すために、互いに相互作用したタグ付き識別子を相関させるように動作可能である。デジタル・インプレッション・レポートにおけるコレクション関係は、攻撃者、またはネットワーク関連エンティティ、または任意のデジタル・インプレッション・メタデータ用語に関連付けられた連続収集した電子的存在を表す。ツールを使用して、調査者は、ドキュメントに関連付けられた任意のタグ付きデジタル・インプレッション識別子をクリックすることができる。結果として生じたデジタル・インプレッション・レポートは、次に、表形式でリスト化され、識別子タイプで編成される。

一般論を述べると、デジタル・インプレッションは、攻撃エンティティ、および攻撃エンティティが通信する他のエンティティを、調査者が識別するのに役立てるために、ネットワーク関係を再構築する。セキュリティ・インテリジェンス・プラットフォームは、デジタル・インプレッションを生み出すために互いに相互作用した、タグ付き識別子を相関させるように動作可能なフォレンジック・インシデント・モジュールを含む。デジタル・インプレッション・レポートにおけるコレクション関係は、攻撃者、またはネットワーク関連エンティティ、または任意のデジタル・インプレッション・メタデータ用語に関連付けられた連続収集した電子的存在を表す。ツールを使用して、調査者は、ドキュメントに関連付けられた任意のタグ付きデジタル・インプレッション識別子をクリックすることができる。結果として生じたデジタル・インプレッション・レポートは、次に、表形式でリスト化され、識別子タイプで編成される。

典型的には、上述のシステムで使用するためのアプライアンスは、ネットワークに接続された非表示デバイスとして実装される。例えば、従来のミドルウェア・サービス指向アーキテクチャ（ＳＯＡ：service oriented architecture）機能を実施するために意図的に構築されたアプライアンスは、一定のコンピュータ環境にわたって普及している。ＳＯＡミドルウェア・アプライアンスは、企業内の全域にわたって既存のＳＯＡインフラストラクチャを拡張しつつ、簡素化するか、セキュアにするのに役立てるか、ＸＭＬおよびＷｅｂサービスの導入を加速することができる。ミドルウェア用のハードウェアおよび軽量ミドルウェア・スタックを利用すると、従来のソフトウェア・ソリューションが遭遇する性能負担に対処することができる。さらに、アプライアンスのフォーム・ファクタは、ミドルウェアＳＯＡ機能を実行するための、セキュアな消費可能パッケージを提供する。デバイスのこれらのタイプが提供する１つの特定の長所は、バックエンド・システムから処理を他に移して負担を軽減させることである。このタイプのネットワーク機器は、典型的には、ラックマウント型デバイスである。デバイスは、機密情報のためのセキュア・ヴォルトとしてアプライアンスが機能できるようにする物理的セキュリティを含む。典型的には、アプライアンスは、製造され、ソフトウェアを予めロードされ、その後、企業もしくは他のネットワーク動作環境内で、または、企業もしくは他のネットワーク動作環境に関連して配布され、代替として、ボックスは、ローカルに置かれ、その後、例えば、プライベートまたは敷地内のクラウド・コンピューティング環境内で、セキュアに配布および管理することができる標準またはカスタマイズされたミドルウェア仮想イメージを提供される。アプライアンスは、場合によってはハードディスク上でデータを暗号化するために、ハードウェアおよびファームウェア暗号サポートを含むことができる。管理ユーザを含むユーザは、物理ディスク上のどのデータにもアクセスできない。具体的には、好ましくは、オペレーティング・システム（例えば、Ｌｉｎｕｘ）は、ルート・アカウントをロック・ダウンしてコマンド・シェルを提供せず、ユーザには、ファイル・システム・アクセス権がない。典型的には、アプライアンスは、表示デバイスも、ＣＤまたは他の光学ドライブも、いずれのＵＳＢ、Ｆｉｒｅｗｉｒｅ、または、デバイスを接続できる他のポートも含まない。アプライアンスは、限定的なアクセス性を伴う封止されたセキュアな環境になり、したがって、認証され、権限付与された個人だけになるように設計される。

このタイプのアプライアンスは、セキュリティ情報イベント管理（ＳＩＥＭ）を容易にすることができる。例えば、ＩＢＭ（Ｒ）ＳｅｃｕｒｉｔｙＱＲａｄａｒ（Ｒ）ＳＩＥＭは、このタイプのアプライアンスとして構成することができるパケット・データ・キャプチャ・アプライアンスを含むエンタープライズ・ソリューションである。このようなデバイスは、例えば、例えば、ディープ・パケット・インスペクションおよび他の技術を使用して、レイヤ７アプリケーション・ペイロードをその後に分析することができるリアル・タイム・レイヤ４ネットワーク・フロー・データをキャプチャするように動作可能である。このようなデバイスは、フロー・ベースのネットワーク知識、セキュリティ・イベント相関関係、および資産ベースの脆弱性評価の組合せを使用して、状況認識およびコンプライアンス・サポートを提供する。ベーシックなＱＲａｄａｒＳＩＥＭのインストールでは、図３に示されるものなどのシステムは、イベントおよびフロー・データを収集し、レポートを生成するように構成される。上述のように、ユーザ（例えば、ＳＯＣ分析者）は、違反を調査して、ネットワーク問題の根本原因を判定することができる。

一般論を述べると、セキュリティ情報およびイベント管理（ＳＩＥＭ）ツールは、ＩＴセキュリティ・イベントおよび脆弱性について、分析、管理、監視、およびレポートを行うための広範なサービスを提供する。このようなサービスは、典型的には、データ・ネットワーク中で監視されるアクセス、および予期しない発生に関するイベントの収集、ならびに、これらを相関文脈内で分析して、浮かび上がった高次セキュリティ・イベントへのこれらの寄与を判定することを含む。サービスは、ファイアウォール構成の分析、現在および潜在的なネットワーク・トラフィック・パターンを確認するためのネットワーク・トポロジおよび接続可視化ツール、アクティブ攻撃経路および高リスク資産を識別するためのネットワーク構成およびトラフィックとの資産脆弱性の相関、ならびに、ネットワーク・トラフィック、トポロジ、および脆弱性露出のポリシ・コンプライアンス・モニタリングのサポートをさらに含むことができる。ＳＩＥＭツールには、共通ネットワーク情報モデルによって処理されるデバイス構成の変形分析に基づいて、ルータ、ファイアウォール、およびスイッチなどの、管理されたネットワーク・デバイスのトポロジを増大させることができるものもある。結果は、セキュリティ脅威のシミュレーション、ファイアウォール・フィルタの動作分析、および他のアプリケーションに使用することができる位置編成である。主要なデバイス尺度は、それでも、全体的にネットワークおよびネットワーク構成に基づく。管理される資産／システムについての発見能力を開始するためのいくつかの方式があるが、また、ユーザ・インターフェースへの包含が半自動的に管理される（すなわち、トポロジを伴う半自動の人間入力に基づく配置を可能にするユーザ・インターフェースを通じたアプローチ、ならびに、その表示およびフォーマットが、基礎をなすネットワークの初期構成と変更／削除の両方の発見に基づいてデータ主導される）が、完全自動化された配置分析および提案を生み出す配置分析の観点からは何も提供されない。

さらなる背景として、以下は、認知違反分析のための技法を説明する。

認知違反分析
サイバーセキュリティ知識グラフ（「ＫＧ」）に関連してセキュリティ・イベント・データを処理することも知られている。サイバーセキュリティ知識グラフは、１つまたは複数のデータ・ソースから導出され、ノードのセット、およびエッジのセットを含む。方法は、好ましくは、自動化され、違反を表すセキュリティ・システム（例えば、ＳＩＥＭ）からの情報を受け取ると同時に始まる。違反タイプに基づいて、違反についてのコンテキスト・データが抽出され、初期違反コンテキスト・グラフが構築される。初期違反コンテキスト・グラフは、典型的には、ノードのセット、およびエッジのセットを含み、エッジは、セットにおけるノードのペアの間の関係を表す。違反コンテキスト・グラフにおけるノードのセットのうちの少なくとも１つは、違反の原因であると判定された違反エンティティを表すルート・ノードである。初期違反コンテキスト・グラフは、直接的に、または、セットの１つもしくは複数の他のノードを通じてルート・ノードに接続された１つまたは複数の活動ノードも含み、少なくとも１つの活動ノードは、観察できるもの（observable）を表すデータをこの活動ノードに関連付けた。ルート・ノード、およびルート・ノードに関連付けられたルート・ノードの１つまたは複数の活動ノード（および観察できるもの）は、違反についてのコンテキストを表す。知識グラフ、および場合によっては、他のデータ・ソースは、したがって、初期違反コンテキスト・グラフをさらに洗練するために検査されてもよい。

具体的には、知識グラフは、知識グラフにおいて（初期違反グラフで識別された）観察できるものの場所を突き止めることによって探査される。知識グラフで表されるような、１つまたは複数の既知の悪意のあるエンティティに関連付けられた、場所を突き止めた観察できるもの、およびこれらの接続に基づいて、知識グラフの１つまたは複数のサブグラフが、次に生成される。サブグラフは、典型的には、サブグラフに関連付けられた（違反についての）仮説を含む。次に、仮説を使用して、セキュリティ・システム（または他のデータ・ソース）に問い合わせて、仮説を裏付ける１つまたは複数の追加の観察できるもの（すなわち証拠）を取得しようとすることができる。次に、初期違反コンテキスト・グラフ、知識グラフ探索から導出された１つまたは複数のサブグラフ、および、１つまたは複数の仮説から引き出された追加の観察できるものを好ましくはマージすることによって、洗練した違反コンテキスト・グラフが作り出される。結果として生じた洗練した違反コンテキスト・グラフは、次に、さらになる分析のために（例えば、ＳＯＣ分析者に）提供される。

このように、すなわち、知識グラフから導出された１つまたは複数のサブグラフ、および、サブグラフ仮説を検査することから引き出された追加の観察できるものを組み込むことによって洗練された違反コンテキスト・グラフは、潜在的な因果的関係をより容易に明らかにする洗練されたグラフを提供するか、そうでなければ、グラフのどの部分が、さらなる分析のために最も良く優先され得るかを明らかにする情報を提供する。アプローチは、違反の根本原因に対処するために、その後着手しなければならない、さらなる分析および訂正タスクを大いに簡素化する。

ここで図４を参照すると、上述の認知違反分析技法の高水準処理フローが提供されている。ルーチンは、違反抽出および分析を伴うステップ４００で始まる。このステップでは、深く調査するために、ＩＢＭＱＲａｄａｒなどのＳＩＥＭシステムから違反が抽出される。典型的には、検出した違反は、違反タイプ、発動したルール（fired rules）、ユーザ名、および関連する侵害指標などの、多くの異なるエンティティを含むことができる。

ステップ４０２において、処理は、違反コンテキスト抽出、エンリッチメント、およびデータ・マイニングを続ける。ここで、限定することなく、時間、違反タイプ、および方向などの、様々な情報または要因に基づいて、違反コンテキストが抽出され、エンリッチメントされる。この動作は、典型的には、潜在的に関連したイベントを見つけるために違反に関するデータ・マイニングを伴う。処理は、次に、ステップ４０４において、違反コンテキスト・グラフの構築を続け、好ましくは、中心ノードのような違反エンティティ、および、コンテキスト情報は、中心ノードおよびその子に徐々に接続される。コンテキスト情報の例は、グラフ内に活動ノードで表すことができる。典型的には、活動は、１つまたは複数の観察できるものを含み、観察できるものは、その後、それぞれの活動に、または中心ノードに直接的に、接続される。

処理は、ステップ４０６において続く。具体的には、このステップにおいて、好ましくは、違反コンテキスト・グラフから抽出された観察できるもののセットを使用して、知識グラフが探査される。この探索ステップは、知識グラフから利用可能な、関連したおよび関連のある情報またはエンティティを識別する。この動作の主要なゴールは、知識グラフ内で、入力された観察できるものが、悪意のあるエンティティにどれだけ強く関連したものであるかを見つけ出すことである。イベント関連エンティティが、強い悪意のある指標である場合、（知識グラフ内のサブグラフで表された）仮説が生成される。処理は、次に、ステップ４０８において続く。このステップにおいて、（ステップ４０６で生成された）結果として生じたサブグラフは、元の違反コンテキスト・グラフにマッピングされ、スコアを付けられる。（サブグラフで表された）仮説を補強するために、ステップ４０６におけるＫＧ探索によって返された仮説に関連した活動の存在について、ローカルＳＩＥＭデータに問い合わせることによって、追加の証拠を取得してもよい（および、違反コンテキスト・グラフに組み込まれてもよい）。違反コンテキスト・グラフをさらに拡張するために、または、新しい知識グラフ探索をトリガするために、あるいはその両方のために、仮説スコアリングの一部として追加の発見も使用することができる。このように、ステップ４０８は、脅威仮説の証拠ベースのスコアリングを表す。

処理は、次に、違反調査を伴うステップ４１０において続く。この時点で、違反仮説は、元の違反ＩＯＣ（侵害指標）、知識グラフ・エンリッチメント、証拠、およびスコアを含む。拡張された違反コンテキスト・グラフは、次に、違反調査のためにＳＯＣ分析者（ユーザ）に提供される。ＳＯＣユーザは、説明された手法で重みを付けられた仮説を見直し、次に、所与の違反を説明する正しい仮説を選ぶことができる。複数の仮説があり得、これらは、図７に関連して下記で説明される本開示の技法により、ランク付けされてもよい。

追加のまたはさらなる探索およびより多くの証拠が、判定を行うのに必要な場合、ＳＯＣユーザは、違反コンテキスト・グラフ内のノードまたはエッジを選び、ステップ４０６およびステップ４０８を必要に応じて繰り返すことができる。この反復は、図面に描写されている。

図５は、上述の技法およびこれらの相互作用に伴う様々なエンティティを示すモデル図を描写する。描写されているように、これらのエンティティは、ＳＯＣユーザ５００、ＳＩＥＭシステム５０２、（違反）コンテキスト・グラフ５０４、知識グラフ５０６、およびメンテナンス・エンティティ５０８を含む。最上位から最下部までの相互作用を眺めると、知識グラフ５０６は、新しいデータ／レコードで周期的に更新されてもよく５１０、この動作は、（点線上の）オフライン動作として示されている。図の残りは、上記で参照した処理フローを描写する。このように、新しい違反５０５は、ＳＩＥＭシステム５０２で識別され、違反抽出および分析５１４ならびにコンテキスト・グラフ構築５１６の動作を介してコンテキスト・グラフ５０４を生成するために、違反詳細５１０およびデータ・マイニング５１２とともに使用される。構築されると、知識グラフ５０６は、１つまたは複数のサブグラフを識別するために探査される５１８。動作５２０において証拠ベースの脅威仮説スコアリングはサブグラフを使用し、処理は、前述のように反復させることができる（動作５２２）。証拠検証およびＩＯＣマイニング５２４の後、違反調査５２６は、次に、典型的にはＳＯＣユーザ５００によって行われる。

図６は、知識グラフ６０２によって拡張された違反コンテキスト・グラフ６００を描写する。全体的に、違反コンテキスト・グラフ６００は、例えば、ＳＩＥＭ違反データ、ログ・イベントおよびフローといった、例えば、違反に関連したイベントおよびインテリジェンスといった、局所的な動力学を描写し、このような情報は、好ましくは、知識グラフ６０２から導出された情報から拡張される。知識グラフは、典型的には、外部のサイバーセキュリティおよび脅威インテリジェンス、サイバーセキュリティ・コンセプトなどを描写することが好ましいとき、性質および範囲において包括的である。典型的には、知識グラフは、複数の構造化および非構造化データ・ソースを組み合わせることによって作成される。図示のように、違反コンテキスト・グラフは、「違反」６０５の内部に子ノード６０６を含むルート・ノード６０４の周辺に中心がある。「違反コンテキスト」６０７は、関連のさらなる他のノードを含む。関連デバイス・ノード６０８を含むデバイス活動６０９のセットもあってもよい。矢印６１０で描写されるように、知識グラフ６０２を使用してコンテキスト・グラフ６００を拡張することは、（脅威活動が付随する）知識グラフ６０２の１つまたは複数のノードを通過する、違反コンテキスト・ノード６０７のセット内のノードから、デバイス活動６０９のセット内のノードへの、（経路６１１、６１３、または６１５の１つまたは複数などの）いずれかの経路があるかどうかを検査する。図示の例では、１つまたは複数のこのような経路（６１１、６１３、および６１５）があり、知識グラフにおける関連サブグラフ６１７は、したがって、違反コンテキスト・グラフを拡張するためにキャプチャされ、使用される。

このように、本アプローチでは、ＱＲａｄａｒなどのＳＩＥＭシステムから違反の詳細が抽出される。詳細は、典型的には、違反タイプ、ルール、カテゴリ、ソースおよび宛先ＩＰアドレス、ならびにユーザ名を含む。例えば、違反は、悪意のあるソフトウェアがマシン上で検出されたことを示すマルウェア・カテゴリ違反であってもよい。したがって、違反に関するマシンの活動は、感染ベクトルおよび潜在的なデータ漏出量を判定するために検査されなければならない。当然、調査されなければならなくなる活動の性質は、違反の性質に依存することになる。

識別した違反に関連した違反コンテキストは、次に、時間、違反タイプ、および方向などの様々な要因に応じて抽出され、エンリッチメントされる。例えば、違反タイプがソースＩＰである場合、（他の違反においてキャプチャされることも、されないこともある）同じソースＩＰのシステムおよびネットワーク活動を次に収集することができる。この収集したコンテキストは、イベント間の潜在的な因果関係を描写し、この情報は、次に、例えば、これらの依存を学習するためのマルコフ・モデルといった、違反の起源および帰結の調査に基礎を提供する。当然、違反コンテキスト抽出およびエンリッチメントの性質も、違反の性質に依存する。

主な違反ソースが、違反コンテキスト・グラフのルート６０４になり、違反詳細が、次に、ルート・ノードに関して互いにリンクされるように、（上記で説明されたような）抽出されたコンテキスト・データから、図６の初期違反「コンテキスト・グラフ」６００が、好ましくは違反タイプに応じて構築される。上述のように、初期コンテキスト・グラフは、好ましくは、次に、具体的には、ローカル・コンテキストを相関させることによってエンリッチメントされて、イベント間の潜在的な因果関係をさらに識別する。これは、違反の起源および帰結の深く、よりきめの細かい調査を分析者が実施するのに役立つ。

起源コンテキストは、好ましくは、他の違反を識別することによって抽出され、違反ソースは、例えば、エクスプロイト・ターゲットといった、ターゲットである。同様に、帰結コンテキストは、好ましくは他の違反を見つけることによって抽出され、違反ソースも、例えば踏み台といった、ソースである。同様に、帰結コンテキストは、他の違反を見つけることによって抽出される。このように、このグラフは、典型的には、グラフの中心（ルート）ノードとして違反エンティティ（例えば、コンピュータ・システム、ユーザなど）を収め、コンテキスト情報は、ノードおよびその子に徐々に接続される。結果は、図６の違反コンテキスト６０７である。コンテキスト情報の例は、違反の性質に依存することになり、このような情報は、ネットワーク活動、ユーザ活動、システム活動、アプリケーション活動などを限定することなく含む活動ノードで表すことができる。好ましくは、活動は、１つまたは複数の観察できるものを含み、観察できるものは、その後、それぞれの活動ノードに、または中心ノードに直接的に、接続される。さらに、コンテキスト・グラフは、元の違反に直接関係しない情報を表す追加のノードで拡張することができる。例えば、および、違反に時間的に近いセキュリティ関連イベントのデータ・マイニング（例えば、挙動ベースの異常検知、シーケンス・マイニング、ルール・ベースのデータ抽出など）によって、関心のある追加の活動を抽出し、コンテキスト・グラフに追加することができる。この動作は、デバイス活動６０９でグラフに表されている。

このように、上記で概説したような認知分析アプローチでは、違反の詳細は、ＳＩＥＭシステムから抽出される。詳細は、違反タイプ、ルール、カテゴリ、ソースおよび宛先ＩＰ、ならびにユーザ名を含む（が、これらに限定されない）。初期違反コンテキスト・グラフは、主な違反ソースが、違反コンテキスト・グラフのルートになり、違反詳細が、ルート・ノードに関連して互いにリンクされるように、違反タイプに応じて構築される。初期コンテキスト・グラフは、次に、イベント間の潜在的な因果関係をさらに識別するために、ローカル・コンテキストを相関させることによってエンリッチメントされ、これは、違反の起源および帰結の深い調査を分析者が実施するのに役立つ。起源コンテキストは、他の違反を識別することによって抽出され、ここで、違反ソースは、例えば、エクスプロイト・ターゲットといった、ターゲットである。同様に、帰結コンテキストは、他の違反を見つけることによって抽出され、ここで、違反ターゲットは、例えば踏み台といった、ソースである。エンリッチメントされた（および潜在的に高密度の）違反コンテキスト・グラフは、次に、ＳＯＣ分析者の利益にとって重要な違反コンテキストを強調するために取り除かれる。典型的には、取り除くことは、重み、関連、および時間など、いくつかの基準値に基づいて適用される。例えば、違反ルールおよびカテゴリに基づいて、各イベント詳細に重みを割り当て、これにより、違反に寄与する主要な特徴を示すことが望ましいことがある。

初期違反コンテキスト・グラフが構築されると、このコンテキスト・グラフは、好ましくは、領域知識のソースであることが好ましいサイバーセキュリティ知識グラフ（ＫＧ）６０２から導出された情報に基づいて、エンリッチメント、検証、または拡張、あるいはその組合せがさらに行われる。知識グラフは、初期違反コンテキスト・グラフのように、ノードおよびエッジを含む。サイバーセキュリティ知識グラフは、いくつかの方式で構築することができる。１つの実施形態では、１つまたは複数の領域専門家は、ＫＧを手動で構築する。別の実施形態では、ＫＧ６０２は、例えば構造化および非構造化データ・ソースから、自動的または半自動的に構築される。上述のように、コンテキスト抽出および分析処理は、所与の違反に関連した観察できるもののリストを提供する。この動作に従って、観察できるものは、好ましくは、次に、ＫＧにおける徹底的な領域知識を使用してエンリッチメントされる。このエンリッチメント（または知識グラフ探索）をここで説明する。

具体的には、この知識グラフ（ＫＧ）エンリッチメント動作は、いくつかの異なる方式で行うことができる。１つのアプローチでは、エンリッチメントは、観察できるものに関連したサブグラフを構築することを伴う。このために、システムは、ＫＧにおいて観察できるものの場所を突き止め、これらの間の接続を見つける。この発見は、観察できるものおよび脅威などの他の関連したセキュリティ・オブジェクトとの所与の観察できるものの関係を示す（図６の６１７などの）１つまたは複数のサブグラフを生じることができる。これらのサブグラフは、所与の違反についてのより広い見方を提供することができる。

別のエンリッチメント・シナリオでは、ＳＯＣ分析者は、ＳＩＥＭ違反から抽出されたＩＰ、ＵＲＬ、およびファイル・ハッシュなどの観察できるもののセットを受け取るクエリ知識グラフ（ＫＧ）探索ステップを実施することができる。この探索ステップは、知識グラフで利用できる全ての関連したおよび関連のある情報またはエンティティを識別しようとする。主なゴールは、入力された観察できるものが、知識グラフにおける悪意のあるエンティティにどれだけ強く関連したものであるかを見つけ出すことである。関連したエンティティのうちのいくつかは、強い悪意のある指標である可能性があり、したがって、違反についての仮説を生成することができる。関連した悪意のあるエンティティは、これらの間の強く関連したものであってもよく、仮説も作り出す。一般論を述べると、このステップの出力は、１つまたは複数の仮説のセットであり、仮説のセットは、証拠ベースの脅威仮説スコアリング動作中に消費され、ここで、仮説は、ローカルなＳＩＥＭデータに対して評価される。好ましくは、および上述のように、関連したエンティティの抽出は、知識グラフを横断すること、好ましくは、入力された観察できるものから開始し、サブグラフを抽出することによって実施される。一般に、制限なくサブグラフを抽出すると、非常に大きくノイズのあるグラフになることがある。グラフを探査し、あまり関連のないエンティティを結果から取り除くことによって、異なるタイプの関連情報を見つけることに焦点を合わせた１つまたは複数の走査アルゴリズム（traversal algorithm）を配布できることが好ましい。これらのプルーニング・アルゴリズムの１つまたは複数は、連続的に、並行に、または別の方法で動かすことができる。さらに、ここで、グラフ・エンティティの可能な係数が、グラフ走査の効率性を強化するために予め計算される。

以下は、証拠ベースの脅威仮説スコアリングのさらなる詳細を説明する。好ましくは、知識グラフ探索ステップは、仮説に関連付けられた１つまたは複数のアノテーションとともに、観察できるもののサブグラフを返す。このサブグラフは、好ましくは、次に、元のコンテキスト・グラフにマッピングされる。仮説を補強するために、例えば、知識グラフ探索によって返された仮説に関連した活動の存在について、ローカルＳＩＥＭデータに問い合わせることによって、さらに関連のある証拠を構築することが望ましくなることがある。これらの活動は、簡単なルール・ベースの違反監視によって事前にフラグ付けされていなくてもよい。この動作は、したがって、３つのソースからの入力、元のコンテキスト・グラフ、知識グラフ探索サブグラフ、および、仮説の証拠を構築するために問い合わされた追加の観察できるものを含むマージしたグラフを構築する。

さらに説明されるように、最後の動作は、典型的には、違反調査である。説明された事前の動作に基づいて、違反仮説は、ここで、元の違反ＩＯＣ、知識グラフ・エンリッチメントおよび補強証拠、ならびに、これらのスコアを含む。この拡張されたグラフは、次に、違反調査のためにＳＯＣ分析者に提供される。ＳＯＣ分析者は、重み付きの仮説を見直し、所与の違反を説明する正しい仮説を選ぶ。選択自体は、例えば、機械学習を介して、自動化することができる。さらなる探索およびより多くの証拠が、判定を行うために必要な場合、ＳＯＣは、仮説グラフ内の関心のあるノードまたはエッジあるいはその両方を選び、次に、知識グラフ探索、および証拠ベースの脅威仮説スコアリングの上述のステップを繰り返すことができる。仮説レビュー・プロセスの間、ＳＯＣは、違反についての新しい事実および見識を学習し、したがって、追加のクエリ（例えば観察できるものまたは関係）を次の反復で追加することができる。ＳＯＣ分析者は、したがって、この反復の知識エンリッチメント、証拠生成、および仮説スコアリングを使用して、その後実行することができる、違反および実行可能な見識についての深い理解を得ることができる。

このように、基本的な見解は、自発的なメカニズムを使用して、違反（または攻撃）について知られていること、（知識グラフで表されるような）一般化した知識に基づく違反についての理由を抽出し、これにより、違反についての最も確実な診断、および違反にどのように対処するかに到達することである。

ＩｏＣは、典型的には、例えば、数ある中でも、信頼できるソースからの脅威レポート、ブログ、ツイートといった、非構造化ドキュメントの中でテキストとして提示される。しばしば、ＩｏＣ（または他の脅威インテリジェンス・データ）は、時間構成要素を含む。図７は、このような非構造化データ・ソースで見つけることができる、セキュリティ・イベント時間表現のいくつかの例を描写する。図示のように、テキスト内の時間情報は変化し、時点（例えば、「２０１７年５月１日」、「２０１８年」など）、相対時間基準（例えば、「昨年」、「２週間前」など）、時間範囲（例えば、「２０１６年～２０１７年」、「２０１５年以後」など）、これらの組合せ、および同様のものについての表現を含むことができる。また、時間表現は、セキュリティ・アドバイザリ識別子（例えば、ＣＶＥ－２０１６－１０１９）などの、用語の中に現れる可能性がある。したがって、図７の第１の箇条書きの例（「２０１５年８月中旬」）は、時点と範囲の両方である。第２の箇条書きの点は、時点（「２０１６－０１－１２」）を含み、一方で、第３の箇条書きは、時間範囲（「２０１６年１０月６日以後」）を含む、などである。これらの例から明らかなように、非構造化テキストは、多くの異なる文脈および形式で生じる。

下記で説明される本開示の技法によれば、サイバーセキュリティ分析プラットフォーム（またはそのＮＬＰ／ＮＬＵ構成要素）は、追加の機能、具体的には、イベントについての時間情報を自動的に抽出すること、および、イベントについての時間値マーカ（すなわち、最も関連のある時間）が次に選択されるか判定されてイベントに割り当てられる１つまたは複数の抽出した時間マーカの優先セットを生成することを行う能力を提供するために、拡大される。

サイバーセキュリティ・イベントについての時間関係の推測
上記で説明されたように、上記で説明されたものなどの認知セキュリティ分析プラットフォームは、セキュリティ分析者（または、いくつかの自動システム）に提示される知識を改善するために、および、特に、時間的重要性をイベントに関連付けるまたはリンクするために、計算効率の良い技法を提供することによってさらに強化される。技法によって、プラットフォーム（または他のいくつかの機能）は、脅威インテリジェンス・データについての正確な時間情報を提供すること、または、関心のある任意の時間フレームに最も関連するデータを提示することができる。

図８は、本開示の１つの態様による時間関係推測技法を実行する自動化された方法の処理フローを描写する。処理ステップは、好ましくは、１つまたは複数のハードウェア・プロセッサで実行するコンピュータ・プログラム命令（プログラム・コード）のセットで実行される。命令は、メモリまたはデータ・ストアに格納される（保持される）。一般に、処理は、非構造化セキュリティ・レポートとキュレートしたデータ・ソースの両方からイベントについての時間情報を抽出し、好ましくはいくつかの異なる尺度に基づいて抽出された時間候補を優先させ、その後、ターゲット・イベントに最も関連のある時間を判定する。処理は、評価されることになるソース・データを受け取ると同時にステップ８００で始まる。１つの例では、ソース・データは、信頼できるソースからの脅威レポートである。他の実例のデータ・ソースは、ニュース記事、ブログ、ツイート、または同様のものを限定することなく含む。典型的には、ソース・データは、図７のいくつかの例で描写されたような自然言語テキストなど、非構造化される。したがって、ソース・データは、非構造化セキュリティ・コンテンツと本明細書で言及されることもある。ステップ８０２において、１つまたは複数のセキュリティ・イベントが、ソース・データ自然言語テキストから抽出される。ルーチンは、次に、認識動作を実施して、自然言語テキスト内の時間表現タイプを識別することによる所与のイベントについて、ステップ８０４において続く。ステップ８０６において、認識された時間表現を正規化し、時間値を計算する。認識された時間表現が相対時間である場合、システムは、そのアンカー時間を抽出するための動作を実施するのが好ましい。上記で説明されたように、アンカー時間は、識別することができ、ソース材料内の他の情報のコンテキストを考慮して正しいものとして受け取られる、いくつかの時間基準である。例えば、アンカー時間は、相対時間表現の周囲のテキストで見つけることができ、または、記事の公開時間に基づいて推測することができる。例えば、図７に示した例における「今年の初め」で参照される時間が、記事の公開時間と同じ年であるという結論を出すことができる。アンカー時間推測動作ができなかった（または、未解決の結果を返した）場合、ルーチンは、例えば、典型的には１つまたは複数の外部ソースから、他の時間情報を抽出することによって必要なステップ８０８において続ける。このステップは、特定のセキュリティ・イベントの関連時間情報を明示的に指定できるか、そうでなければ、説明される他の手段で取得できるので、常に必要とされることはない。ステップ８１０において、所与のイベントについての最終的な時間値マーカ（すなわち、最も関連のある時間）が、次に選択される。ステップ８１２において、所与のイベントおよび最も関連のある時間情報がリンクされる。これが、処理を完了させる。

図８の上述のステップのそれぞれを、ここでさらに詳細に説明する。

セキュリティ・イベント抽出、ステップ８０２は、既知の処理である。セキュリティ脅威レポートは、マルウェア、キャンペーン、またはセキュリティ・アドバイザリを含むサイバーセキュリティ・イベントについての詳細な分析を提示する。このステップにおいて、システムは、マルウェア、悪意のある行為者、様々な侵害指標（例えば、ＩＰアドレス、ファイル、ＵＲＬなど）を伴うセキュリティ・イベントを抽出する。典型的には、イベントは、行為者、ＩｏＣ、これらの間の、およびこれらの中の関係などによって行われるいくつかのアクションを表す。セキュリティ・イベント抽出は、（マルウェア、サイバー犯罪者、ＩｏＣなどの）セキュリティ・エンティティ、ならびに、セキュリティ・オブジェクト間の、およびセキュリティ・オブジェクトの中の関係の識別によって行われる。１つの実施形態では、語彙および言語パターン・マッチングと、機械学習技法とが、セキュリティ・エンティティ検出のために使用される。いくつかのエンティティは、例えば、キャラクタ・レベル、構文レベル、またはコンテキスト・レベル、あるいはその組合せの特性といった、パターン・ルール記述によって検出できる。他のエンティティは、教師あり機械学習モデルを適用することによって検出することができる。関係抽出は、多くの異なる方式で実行することができる。１つのアプローチでは、システムは、潜在的関係を識別するために、教師あり機械学習モデルを適用する。変形アプローチとして、関係抽出は、構文または意味あるいはその両方のテキスト分析を通じて実行される。多くの場合、イベントは、例えば、動詞句を使用して、明示的に表現される。このようなケースでは、ソース・データ（例えば、脅威レポート）における文の構文解析により、システムは、２つのセキュリティ・エンティティを接続する句などの動詞句をイベントとして抽出することができる。例は、「２０１５年８月中旬のある時、行為者がＡｎｇｌｅｒＥＫを使用して、ＮｅｕｔｒｉｎｏＥＫにスイッチされたランサムウェアを送る」というものであってもよい。別の変形物では、関係は、統計解析によって抽出される。このように、例えば、２つのセキュリティ・エンティティが、同じ文に頻繁に現れるとき、これらは、互いに関連したものとみなすことができる。上記のアプローチの１つもしくは複数、または組合せを、セキュリティ・イベント抽出のために使用することができる。

時間表現タイプ抽出、ステップ８０４は、以下のように進めることができる。１つの実施形態では、テキスト内の時間表現を検出するために、語彙パターン・ルールが適用される。代表的なターゲット・タイプは、時点（例えば、「２０１６－０２－２９」、「２０１７年５月２０日」など）、相対時間（例えば、「この１年」、「先週」など）、および時間範囲（例えば、「２０１５年から２０１７年」、「２０１６年以後」など）についての様々な時間表現である。時間表現が認識されると、関連付けられたテキスト文字列は正規化され、対応する時間値にコンバートされる。

それでも、ソース・テキスト内に明示的な関連付けられた時間情報をイベントが含んでいない場合、本開示の別の態様によれば、システムは、例えば、レポートまたは他のデータ・ソースに現れる他の時間表現から、時間情報を推測する。このように時間情報を推測するという考えは、暗黙的な（または非明示的な）時間情報を判定することと、本明細書で呼ばれることがある。暗黙的な時間情報を識別／判定するための１つのアプローチでは、システムは、未来時制で表されるものを除く、レポート内に記述された全てのイベントが、公開時間より後に起こらなかったと仮定することができるので、レポートの公開時間から、関心のあるイベントについての時間情報を推測する。このように、１つの実施形態では、公開時間は、レポートに明示的な時間を含まないイベントについての時間を推定するために識別される。暗黙的な時間情報を判定するための代替アプローチは、脆弱性識別子（ＩＤ）およびセキュリティ・アドバイザリＩＤなどの一定のセキュリティ・ドメイン固有の名前などの、レポート内の他の情報から提供される。これらの識別子は、典型的には、脆弱性またはアドバイザリが作り出された年を含む。このように、システムは、このようなＩＤで現れるイベントが、識別子における年より後に起こらなかったと仮定する。

ステップ８０４を概説すると、典型的には、システムは、認識した絶対時間表現、（述べるか判定することができる）ソース・データ・レポートの公開時間、認識した相対時間表現、および、（明示的な時間表現が利用可能できない場合）セキュリティ・エンティティ（例えば、ＣＶＥ、セキュリティ・アドバイザリ）または他のこのような情報から認識または判定された、認識した暗黙的な時間（典型的には、所与の年）というタイプの時間表現を、ソース・データ（例えば、評価されたセキュリティ・レポート）から抽出する。

時間表現正規化および値計算、ステップ８０６は、以下のように実行することができる。絶対時間表現について、システムは、テキストの断片を解析して、もしあれば、年、月、日、および時間などの時間情報を抽出し、この情報をミリ秒にコンバートする。相対時間表現について、システムは、好ましくは、相対時間の近くに現れる絶対時間、データ・ソースの公開時間、および、ウェブ・クローラによってメタデータから抽出された公開時間などの時系列（ｃｒｏｎ）日付、という日付の１つまたは複数を「アンカー」日付として使用して、好ましくは、近似した絶対時間を推測する。２つ以上の相対時間が抽出された場合、テキストがテキスト句「昨年」および「前年」を含む場合など、相対時間は束縛されることがある。相対時間が抽出されると、「前年」についてのアンカー時間が、次に、「昨年」の絶対時間として割り当てられる。

説明されたように、外部ソースから時間情報を抽出することが必要であるか、望ましいことがある。これは、図８のステップ８０８である。このステップは、データ・ソース内のテキストが時間情報を提供しないときに行われ、この場合、イベントについての近似した時間を取得するために、１つまたは複数の外部ソースが調査される。外部ソースは変化してもよく、典型的には、セキュリティ・データベース、ｃｒｏｎ時間、ファイル・メタデータからの時間情報、クロール時間などの１つまたは複数を含む。第１の外部ソースは、セキュリティ・データベースであり、セキュリティ・データベースは、典型的には、セキュリティ・インシデントおよびＩｏＣについてのデータを収集する。このタイプのデータベースは、マルウェアまたはキャンペーンが、いつ最初に現れるか、いつ最も活動的であったか、これらとともに行われた１つまたは複数のアクションのタイムスタンプなどの有用な情報を提供する。このようなタイムスタンプは、例えば、分析されているイベントについてのソース・テキストから抽出されることがある同様のアクションについての時間を推測するのに有用である。このタイプのデータベースは、システムが利用もしくはアクセスできることもあり、または、第三者から（サービスとして）アクセスされることもある。データベースから取得された情報を使用して、システムは、イベントが発生した可能性のある１つまたは複数の近似した時間を取得するために、ソース・テキストから抽出されたイベントを相関させる。相関は、様々な方式で実行することができる。したがって、１つの実施形態では、これは、データベース内で同様の関係を見つけること、同じエンティティを含む関係を見つけること、または、どのオプションも関係情報を返さない場合、エンティティを含む最も突出した時間を使用することによって、達成される。代替の外部データ・ソースは、ｃｒｏｎ時間であり、ｃｒｏｎ時間は、典型的には、分析されているレポートが検索された（例えば、ウェブサイトからダウンロードされた）ときに対応する。ｃｒｏｎ時間は、この例では、ウェブサイトにポストされた時間になり、この値は、レポート内で識別されたイベントのタイミングを推測することができる有用な情報を提供することができる。同様に、ファイル・メタデータからの時間情報は、同様の目的に役立てることができる。例として、テキスト・エディタでレポートが書かれたとき、典型的には、アプリケーション（例えば、Ｗｏｒｄ）は、ファイル作成日付、最終ファイル修正データおよび時間、などのメタデータを格納する。このタイミング情報は、その後、レポート内のイベントのタイミングを推定するために使用される。最後に、クロール時間は、レポートが取得された時間が、典型的には、レポート内に記述されたイベントのタイミングに範囲を設置するので、代用物として使用することができる。上記のタイプの外部ソースは、代表的なものにすぎない。

上記で説明されたものなどの情報が引き出され、取得されると、時間関係割当ては、好ましくは、以下のように進む。これは、図８のステップ８１０であり、ゴールは、所与のイベントについての最終的な時間値マーカ（すなわち、最も関連のある、または「確立された」時間）を選ぶことである。このために、好ましくは、レポートまたは関心のある記事（すなわち、検査されているテキスト・ドキュメント）内で利用できるどの時間情報をイベントに割り当てるべきであるかを判定するために、関係（イベント）を伴う同じ依存構造内の時間表現、テキスト内の関係からの一定のウィンドウ内の時間表現、脆弱性またはアドバイザリＩＤあるいはその両方および他のセキュリティ関連エンティティから抽出された時間表現、記事の公開時間、ｃｒｏｎデータ、ファイル・メタデータから取得された最終修正時間、ファイル・メタデータから取得されたレポートの作成時間、ならびにクロール時間、という発見的方法および優先順位付けが使用される。これらの発見的方法の１つまたは複数が存在することはなく、この場合、順序付けは、適宜修正される。その上、優先度が修正される状況があり得る。したがって、上記の優先度のリストアップは、例示的な目的のためだけに提供される。

上記の動作の実行結果は、当該のイベントについての、最も関連のある時間情報を生成する。最後のステップ（ステップ８１２）は、所与のイベントと、判定された最も関連のある時間情報とをリンクさせることを伴う。

強化されたサイバーセキュリティ・インテリジェンス、すなわち、（判定された時間情報に基づくような）セキュリティ・エクスプロイトが発生したときについての知識に少なくとも部分的に基づいて、セキュリティ・エクスプロイトに対するセキュリティ・エクスプロイト管理動作が、次に、上記で説明されたセキュリティ・プラットフォーム技術を使用して実行される。管理動作の特定の性質は、かなり変化してもよく、典型的な動作は、レポーティング、軽減、さらなる分析、処理サンドボクシング、通知／アラート、矯正、または同様のものを、限定することなく含む。

上述の動作は、典型的には、分析される各レポートに対して実行される。

図９は、上記で説明されたものなどの、サイバーセキュリティ分析プラットフォームでサポートされる知識グラフ（ＫＧ）ベースの一時推測技法のブロック図を描写する。ＫＧベースの一時推測は、セキュリティ知識グラフ（ＫＧ）９０２を入力として受け取る推測エンジン９００によって実行される。図８について上記で説明された様々な動作は、図９の機能ブロックで描写される。このために、エンティティ情報（例えば、マルウェア、キャンペーン、ＩＰアドレス、脆弱性など）が、エンティティ抽出構成要素９０４で抽出され、関係抽出構成要素９０６に提供される。抽出構成要素９０６は、関連エンティティを関連付ける。関係抽出９０６の結果は、ＫＧベースの一時推測エンジン９００に、ならびに、関係および時間関連付け構成要素９０８にも提供される。時間情報抽出構成要素９１０は、絶対時間、相対時間、継続時間などを取得するために、ソース・テキストに対して動作し、結果として生じる時間情報は、アンカー時間選択、時間値正規化および計算などを実施する時間値判定構成要素９１２に出力される。イベントについての判定した時間分類９１４が、次に、識別した関係と公開時間を判定されたようにリンクする、関係および時間関連付け構成要素９０８に返される。メタデータ９１６は、この関連付けを拡張するために取得することができ、結果は、関係三重項｛（エンティティ、関係、タイムスタンプ）｝９１８であり、その後、分析者または他のプラットフォーム・システムが利用できるようになる。

図１０は、過去のセキュリティ・イベントと、ブログ・ポストで言及された別のセキュリティ・イベントとの間の関係を示すために適用される相対時間を示すこのＫＧベースの一時推測（図９）の第１の例を描写する。ブログ・ポストの一部は、左に描写され、様々な時間情報を強調のために際立たせている。右に示されたテーブルは、この場合、様々なエンティティの識別、これらの関係、および関連するタイムスタンプといった、ポスト、または第三者外部ソースなどから導出された情報を描写する。

図１１は、発見的方法および優先方式の実施形態を使用して、記事内の関係に適用される正しい時間を示すＫＧベースの一時推測の第２の例を描写する。

限定を意図することなく、本明細書におけるアプローチは、図４～図６について上記で説明されたものなどの認知違反分析技法に関連して使用することができる。

エンティティ抽出および関係抽出時に、本開示の技法は、好ましくは、各自然言語エンティティおよび関係（または少なくとも一定のもの）をタイムスタンプに関連付けるために適用される。エンティティおよび関係は、タイムスタンプとともに、その後、問い合わせることができるデータベースに格納される。セキュリティ違反の調査時に、問い合わせは、説明される技法によって推測された時間とともに、これらのエンティティおよび関係を保持するデータベースに対して行われる。調査時間に最も近い時間マーカを伴うエンティティおよび関係が返され、これにより、より関連のある、または最近の、あるいはその両方の情報を自動化された方式で提供する。エンティティおよび関係に関連付けられた正しい時間を含むことは、より古いセキュリティ情報を除く（aging out）のに役立つ。知識グラフを分析し、セキュリティ知識グラフを分析者に提示するとき、開示の技法によって推測されるようなエンティティおよび関係に関連付けられた絶対時間マーカは、調査時に、関連のない、より古いエンティティおよび関係を自動化された方式で消失させるのに役立つ。このように、現在必ずしも関係ない古いエンティティおよび関係で潜在的に提示される違反をセキュリティ分析者が調査するのではなく、本明細書で提供されるようなエンティティおよび関係についての時間マーカを含むことによって、より多くの関係情報を（例えば、視覚的に）提示することができる。これは、潜在的な脅威ではなかった違反を、もはや自分が調査する必要がないので、分析者の時間を節約するのに役立つ。

本明細書における技法は、著しい長所をもたらす。本明細書における技法は、非構造化ソース（例えば、レポート、ブログ、ポストなど）に存在する脅威インテリジェンス・データ上の正確な時間情報を関連付けるための方式を提供することによって、典型的には非構造化ソースからの強化されたサイバーセキュリティ・イベント抽出を提供する。このアプローチを使用して、分析プラットフォームは、イベントがいつ実際に起こったかについての強化された分析を提供し、これにより、セキュリティ分析者、またはプラットフォーム内の他のシステム構成要素に見せるサイバーセキュリティ・インテリジェンスのより完全な見方を提供する。本技法は、好ましくは、絶対時間マーカ、および必要であれば、相対時間マーカを指標に提供することによって、自然言語で書かれた非構造化ドキュメントに存在する指標の一時性を処理および推測するという問題を解決する。この手法で時間マーカを提供することは、分析者または他のプラットフォーム技術が、最も関連のあるおよび正確な情報を表面化させることを可能にするのを支援し、これにより、セキュリティ・イベントおよびインシデントを管理するスピードおよび正確さを改善する。本明細書におけるアプローチによれば、１つまたは複数のセキュリティ・イベント管理動作が、次に、列挙された手法で時間情報を含むようにセキュリティ・エクスプロイトが拡張されるとき、検出されたセキュリティ・エクスプロイトに基づいて行われる。

より一般的に、本明細書における技法は、非構造化データから導出された時間情報と、構造化データ・ソースからの時間を相関することについての方法を提供する。

本主題は、サービスとして実行することができる。データ・マイニング機能は、スタンドアロン機能として提供することができ、または、ＮＬＰベースの人工知能（ＡＩ）学習機械などの、質問回答ベースの自然言語処理（ＮＬＰ）システム、製品、デバイス、プログラムまたは処理を限定することなく含む、他の製品およびサービスからの機能を活用することができる。このタイプの機械は、自然言語処理、機械学習、ならびに仮説生成および評価を組み合わせることができ、クエリを受け取って、これらのクエリに、直接的な信頼度に基づくレスポンスを提供する。ＩＢＭ（Ｒ）Ｗａｔｓｏｎ（Ｒ）などのＱ＆Ａソリューションを利用することができる。このタイプのソリューションはクラウド・ベースであってもよく、Ｑ＆Ａ機能は、ＮＬＰベースのクエリを受け取り、適切な回答を返す「サービスとして」（ＳａａＳ）配信される。代替実施形態では、Ｑ＆Ａシステムは、アプリケーションが自然言語テキストを処理できるようにする自然言語処理技術である、ＩＢＭＬａｎｇｕａｇｅＷａｒｅを使用して実行することができる。ＬａｎｇｕａｇｅＷａｒｅは、言語識別、テキスト・セグメント化およびトークン化、正規化、エンティティおよび関係抽出、ならびに意味分析などの様々なＮＬＰ機能を提供するＪａｖａ（Ｒ）ライブラリのセットを備える。別の実装形態は、自然言語理解（ＮＬＵ）製品またはサービスの構成要素のようなもの、または、ＮＬＰパイプラインにおける構成要素のようなものであってもよい。限定することを意図することなく、本明細書におけるアプローチは、ＩＢＭＱＲａｄａｒ（Ｒ）ＡｄｖｉｓｏｒｗｉｔｈＷａｔｓｏｎ（Ｒ）などのサービスで実行することができる。

上述のように、機械学習は、上述の時間推測を容易にするために使用することができる。以下は、活用できるＭＬ対応技術についてのさらなる背景を提供する。

具体的には、機械学習（ＭＬ）アルゴリズムは、データから反復して学習し、したがって、見るべき場所を明示的にプログラムしていない、隠れた見識をコンピュータが見つけることを可能にする。機械学習は、本質的に、何百または何千もの例を見ることによって学習するアルゴリズムを作り出すことによって問題を解決するためにコンピュータを教示し、その後、この経験を使用して、新しい状況における同じ問題を解決することである。機械学習タスクは、典型的には、ラーニング・システムが利用できる学習信号またはフィードバックの性質に応じて、教師あり学習、教師なし学習、および強化学習という３つの広範なカテゴリに分類される。教師あり学習では、アルゴリズムは、ラベル付けされた履歴データで訓練し、出力／ターゲットに入力をマッピングする一般的なルールを学習する。具体的には、教師あり学習における入力変数とラベル／ターゲット変数との間の関係の発見は、訓練セットで行われる。コンピュータ／機械は、訓練データから学習する。このアプローチでは、発見された関係が有効であるかどうかを評価するためにテスト・セットが使用され、予測的関係の強度およびユーティリティは、テスト・データの入力変数をモデルに送り込み、モデルによって予測されたラベルをデータの実際のラベルと比較することによって評価される。最も広く使用される教師あり学習アルゴリズムは、サポート・ベクトル・マシン、線形回帰、ロジスティック回帰、ナイーブ・ベイズ、およびニューラル・ネットワークである。

教師なし機械学習では、アルゴリズムは、非ラベル付きデータで訓練する。これらのアルゴリズムのゴールは、データを探査し、その中でいくつかの構造を見つけることである。最も広く使用される教師なし学習アルゴリズムは、クラスタ分析およびマーケット・バスケット分析である。強化学習では、アルゴリズムは、フィードバック・システムを通じて学習する。アルゴリズムはアクションを行い、そのアクションの妥当性についてのフィードバックを受け取り、フィードバックに基づいて、戦略を修正し、所与の時間にわたる期待される報酬を最大化するさらなるアクションを行う。

以下は、教師あり機械学習に関するさらなる詳細を提供し、教師あり機械学習は、本開示の脅威傾向分析アプローチで使用される好ましい技法である。上述のように、教師あり学習は、ラベル付き訓練データから機能を推測するという機械学習タスクである。訓練データは、訓練例のセットからなる。教師あり学習では、典型的には、各例は、入力オブジェクト（典型的にはベクトル）と、（教師信号とも呼ばれる）所望の出力値とからなるペアである。教師あり学習アルゴリズムは、訓練データを分析して推測された機能を生み出し、推測された機能は、新しい例をマッピングするために使用することができる。最適なシナリオが、目に見えない事例についての分類ラベルをアルゴリズムが正しく判定することを可能にする。これは、訓練データから目に見えない状況に、学習アルゴリズムが適度に一般化することを必要とする。

教師あり学習の問題を解決するために、典型的には、一定のステップが実施される。アプローチは、訓練例のタイプを決定することによって始まる。他の何かを行う前に、ユーザは、どの種類のデータが、訓練セットとして使用されるべきかを決めるべきである。訓練セットが次に集められ、訓練セットは、機能の現実世界の使用の代表的なものでなければならない。このように、入力オブジェクトのセットが集められ、対応する出力も、人間の専門家から、または測定から、のいずれかから、集められる。次に、学習した機能の入力特徴表現が決定される。学習した機能の正確さは、入力オブジェクトがどのように表されるかに強く依存する。典型的には、入力オブジェクトは、オブジェクトを記述したいくつかの特徴を収める特徴ベクトルに変換される。学習した機能および対応する学習アルゴリズムの構造が次に決定される。例えば、エンジニアは、サポート・ベクトル・マシンまたは決定木を使用することを選ぶことができる。学習アルゴリズムを、次に、集められた訓練セットに対して動かす。教師あり学習アルゴリズムには、一定の制御パラメータをユーザが決定することを必要とするものもある。これらのパラメータは、訓練セットの（検証セットと呼ばれる）サブセットに対する性能を最適化することによって、または、相互検証を介して調節することができる。学習した機能の正確さが、次に評価される。パラメータ調節および学習の後、結果として生じる機能の性能が、訓練セットとは別個のテスト・セットに対して測定される。

典型的なユース・ケースでは、ＳＩＥＭまたは他のセキュリティ・システムは、時間関連情報のランク順序付けを視覚的にレンダリングするため、本明細書で説明されるような関連データベースおよびデータ・ソースから関係情報をサーチおよび検索するため、ＳＩＥＭまたは他のセキュリティ・システムに関して他の既知の入力および出力機能を実施するために使用することができるインターフェースを、ＳＩＥＭまたは他のセキュリティ・システムに関連付けてきた。

上述のように、本明細書におけるアプローチは、ＳＩＥＭなどのセキュリティ・システム内で、または、セキュリティ・システムに関連して自動的に実行されるように設計される。

本開示で説明される機能は、例えば、ハードウェア・プロセッサによって実行されるソフトウェア・ベースの機能といった、スタンドアロン・アプローチとして全体的もしくは部分的に実行することができ、または、（ＳＯＡＰ／ＸＭＬインターフェースを介したウェブ・サービスとして含む）管理されたサービスとして利用可能できることもある。本明細書で説明される特定のハードウェアおよびソフトウェア実装形態の詳細は、例証のためにすぎず、説明される主題の範囲を限定するためのものではない。

より一般には、開示の主題の文脈内のコンピューティング・デバイスは、それぞれ、ハードウェアおよびソフトウェアを備える（図２に示されるものなどの）データ処理システムであり、これらのエンティティは、インターネット、イントラネット、エクストラネット、プライベート・ネットワーク、または他の任意の通信媒体もしくはリンクなどのネットワークで互いに通信する。データ処理システム上のアプリケーションは、数ある中でも、ＨＴＴＰ、ＦＴＰ、ＳＭＴＰ、ＳＯＡＰ、ＸＭＬ、ＷＳＤＬ、ＵＤＤＩ、およびＷＳＦＬへのサポートを限定することなく含む、Ｗｅｂおよび他の既知のサービスおよびプロトコルにネイティブ・サポートを提供する。ＳＯＡＰ、ＷＳＤＬ、ＵＤＤＩ、およびＷＳＦＬに関する情報は、これらの標準の開発および維持を担うワールド・ワイド・ウェブ・コンソーシアム（Ｗ３Ｃ）から利用でき、ＨＴＴＰ、ＦＴＰ、ＳＭＴＰ、およびＸＭＬに関するさらなる情報は、インターネット・エンジニアリング・タスク・フォース（ＩＥＴＦ）から利用できる。これらの既知の標準およびプロトコルを熟知していることを前提とする。

本明細書で説明される方式は、簡単なｎ階層アーキテクチャ、ウェブ・ポータル、連合システムなどを含む様々なサーバ・サイド・アーキテクチャで、またはサーバ・サイド・アーキテクチャとともに実行することができる。本明細書における技法は、ゆるく連結したサーバ（「クラウド」ベースを含む）環境で実践することができる。

さらにより一般的に、本明細書で説明される主題は、全面的にハードウェア実施形態、全面的にソフトウェア実施形態、または、ハードウェアとソフトウェア両方の要素を収める実施形態の形をとることができる。好ましい実施形態では、機能は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むがこれらに限定されないソフトウェアで実行される。さらに、上述のように、アイデンティティ・コンテキスト・ベースのアクセス制御機能は、コンピュータもしくは任意の命令実行システムによって、または、コンピュータもしくは任意の命令実行システムとともに使用するためのプログラム・コードを提供する、コンピュータ使用可能媒体またはコンピュータ可読媒体からアクセス可能なコンピュータ・プログラム製品の形をとることができる。この説明のために、コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、もしくはデバイスによって、または、命令実行システム、装置、もしくはデバイスとともに使用するためのプログラムを収めるか格納することができる任意の装置であることが可能である。媒体は、電子、磁気、光、電磁気、赤外線、または半導体システム（または装置、もしくはデバイス）であることが可能である。コンピュータ可読媒体の例は、半導体またはソリッド・ステート・メモリ、磁気テープ、取外し可能コンピュータ・ディスケット、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリ・メモリ（ＲＯＭ）、固定磁気ディスク、および光ディスクを含む。光ディスクの現在の例は、コンパクト・ディスク－リード・オンリ・メモリ（ＣＤ－ＲＯＭ）、コンパクト・ディスク－リード／ライト（ＣＤ－Ｒ／Ｗ）、およびＤＶＤを含む。コンピュータ可読媒体は、有形のアイテムである。

コンピュータ・プログラム製品は、説明された機能の１つまたは複数を実行するためのプログラム命令（またはプログラム・コード）を含む製品であってもよい。これらの命令またはコードは、リモート・データ処理システムからネットワークでダウンロードされた後、データ処理システム内のコンピュータ可読ストレージ媒体に格納することができる。あるいは、これらの命令またはコードは、サーバ・データ処理システム内のコンピュータ可読ストレージ媒体に格納し、リモート・システム内のコンピュータ可読ストレージ媒体で使用するために、リモート・データ処理システムにネットワークでダウンロードされるように適合させることができる。

代表的な実施形態では、脅威傾向およびモデリング技法は、専用コンピュータで、好ましくは、１つまたは複数のプロセッサによって実行されるソフトウェアで、実行される。ソフトウェアは、１つまたは複数のプロセッサに関連付けられた１つまたは複数のデータ・ストアまたはメモリ内で維持され、ソフトウェアは、１つまたは複数のコンピュータ・プログラムとして実行することができる。一括して、この専用ハードウェアおよびソフトウェアは、上記で説明された機能を備える。

上記は、本発明の一定の実施形態によって実施される動作の特定の順序を説明するが、代替実施形態は、異なる順序で動作を実施すること、一定の動作を組み合わせること、一定の動作を重複させること、または同様のものを行うことができるので、このような順序は例示的なものであることを理解されたい。所与の実施形態への本明細書における言及は、説明される実施形態が、特定の特徴、構造、または特性を含むことができることを示すが、あらゆる実施形態が、特定の特徴、構造、または特性を必ずしも含まなくてもよい。

最後に、システムの所与の構成要素が別々に説明されてきたが、機能のいくつかは、所与の命令、プログラム・シーケンス、コード部分などに組み合わせるか、共有できることを当業者は理解するであろう。

本明細書における技法は、例えば、セキュリティ・インシデントおよびイベント・マネージメント（ＳＩＥＭ）システム、他のセキュリティ・システムといった別の技術または技術分野への改善、ならびに、自動化ベースのサイバーセキュリティ分析への改善をもたらす。

「セキュリティ・イベント」の考えは、サイバーセキュリティ・エクスプロイト、一般的なセキュリティ・ニュースもしくは情報、または同様のものを限定することなく含む、セキュリティ関連情報を指すことを意図するものである。

セキュリティ・イベントについての時間値マーカが提示される特定の手法は、限定ではない。典型的には、時間値マーカは一定の時間だが、上述のように、時間範囲としても表すことができる。さらに、最も関連のあるまたは確立された時間を表す時間値マーカの考えは、本明細書では、主に説明のためのものであり、「最も関連のある」が、最高または最適な数量化された値または基準値に関連付けられる必要はない。むしろ、考えは、決定した時間値マーカが、当該のセキュリティ・イベントについてのさらなる分析的見識をもたらす、または容易にする時間情報であるということである。

本発明を説明すると、特許請求するものは、以下のようなものである。

Claims

セキュリティ・イベントを管理する方法であって、
セキュリティ・イベントの記述を受け取ることと、
１つまたは複数のセキュリティ・エンティティを前記記述から抽出することと、
時間情報を前記記述から抽出することと、
時間マーカのセットに応じて、前記抽出した時間情報を処理することと、
前記処理することに応答して、前記セキュリティ・イベントの時間値マーカを判定することと、
前記１つまたは複数のセキュリティ・エンティティに前記時間値マーカを関連付けることと、
前記時間値マーカに少なくとも部分的に基づいて、セキュリティ・イベント管理動作を前記セキュリティ・イベントに対して実施することと
を含む、方法。
前記記述が、非構造化セキュリティ・コンテンツとして受け取られ、少なくとも時間マーカの前記セットが、構造化データ・ソースを含む、請求項１に記載の方法。
前記記述が、自然言語テキスト記述である、請求項１に記載の方法。
時間マーカの前記セットが、前記記述から抽出されたセキュリティ・エンティティの間の関係との同じ依存性を有する時間表現、前記関係からの一定の時間ウィンドウ内の時間表現、外部データ・ソースから抽出された時間表現、前記記述に関連付けられた公開時間、前記記述に関連付けられたｃｒｏｎ日付、前記記述の最終修正時間、前記記述の作成時間、および前記記述の検索の時間に対応するクロール時間を含む、請求項１に記載の方法。
前記セキュリティ・イベントに関連付けられた前記時間値マーカが、構造化データ・ソースからの情報とともに前記記述から抽出された時間的な合図に基づいて推測される、請求項１に記載の方法。
前記抽出した時間情報を処理することが、相対時間表現を絶対時間にコンバートすることを含む、請求項１に記載の方法。
時間マーカの前記セットが、優先順位付け方式に従って順序付けされた発見的方法である、請求項１に記載の方法。
装置であって、
プロセッサと、
セキュリティ・イベントを管理するために前記プロセッサによって実行されるコンピュータ・プログラム命令を保持するコンピュータ・メモリであって、前記コンピュータ・プログラム命令が、
セキュリティ・イベントの記述を受け取ること、
１つまたは複数のセキュリティ・エンティティを前記記述から抽出すること、
時間情報を前記記述から抽出すること、
時間マーカのセットに応じて、前記抽出した時間情報を処理すること、
前記処理することに応答して、前記セキュリティ・エクスプロイトの時間値マーカを判定すること、
前記１つまたは複数のセキュリティ・エンティティに前記時間値マーカを関連付けること、および
前記時間値マーカに少なくとも部分的に基づいて、セキュリティ・イベント管理動作を前記セキュリティ・イベントに対して実施すること
を行うように構成されたプログラム・コードを含む、コンピュータ・メモリと
を備える、装置。
前記記述が、非構造化セキュリティ・コンテンツとして受け取られ、少なくとも時間マーカの前記セットが、構造化データ・ソースを含む、請求項８に記載の装置。
前記記述が、自然言語テキスト記述である、請求項８に記載の装置。
時間マーカの前記セットが、前記記述から抽出されたセキュリティ・エンティティの間の関係との同じ依存性を有する時間表現、前記関係からの一定の時間ウィンドウ内の時間表現、外部データ・ソースから抽出された時間表現、前記記述に関連付けられた公開時間、前記記述に関連付けられたｃｒｏｎ日付、前記記述の最終修正時間、前記記述の作成時間、および前記記述の検索の時間に対応するクロール時間を含む、請求項８に記載の装置。
前記セキュリティ・イベントについての前記時間値マーカが、構造化データ・ソースからの情報とともに前記記述から抽出された時間的な合図に基づいて推測される、請求項８に記載の装置。
前記抽出した時間情報を処理するように構成された前記コンピュータ・プログラム命令が、相対時間表現を絶対時間にコンバートするように構成されたコンピュータ・プログラム命令を含む、請求項８に記載の装置。
時間マーカの前記セットが、優先順位付け方式に従って順序付けされた発見的方法である、請求項８に記載の装置。
セキュリティ・イベントを管理するためにデータ処理システムで使用するための非一過性コンピュータ可読媒体におけるコンピュータ・プログラム製品であって、前記データ処理システムによって実行されると、
セキュリティ・イベントの記述を受け取ることと、
１つまたは複数のセキュリティ・エンティティを前記記述から抽出することと、
時間情報を前記記述から抽出することと、
時間マーカのセットに応じて、前記抽出した時間情報を処理することと、
前記処理することに応答して、前記セキュリティ・エクスプロイトの時間値マーカを判定することと、
前記１つまたは複数のセキュリティ・エンティティに前記時間値マーカを関連付けることと、
前記時間値マーカに少なくとも部分的に基づいて、セキュリティ・イベント管理動作を前記セキュリティ・イベントに対して実施することと
を行うように構成されたコンピュータ・プログラム命令を保持する、コンピュータ・プログラム製品。
前記記述が、非構造化セキュリティ・コンテンツとして受け取られ、少なくとも時間マーカの前記セットが、構造化データ・ソースを含む、請求項１５に記載のコンピュータ・プログラム製品。
前記記述が、自然言語テキスト記述である、請求項１５に記載のコンピュータ・プログラム製品。
時間マーカの前記セットが、前記記述から抽出されたセキュリティ・エンティティの間の関係との同じ依存性を有する時間表現、前記関係からの一定の時間ウィンドウ内の時間表現、外部データ・ソースから抽出された時間表現、前記記述に関連付けられた公開時間、前記記述に関連付けられたｃｒｏｎ日付、前記記述の最終修正時間、前記記述の作成時間、および前記記述の検索の時間に対応するクロール時間を含む、請求項１５に記載のコンピュータ・プログラム製品。
前記セキュリティ・イベントについての前記時間値マーカが、構造化データ・ソースからの情報とともに前記記述から抽出された時間的な合図に基づいて推測される、請求項１５に記載のコンピュータ・プログラム製品。
前記抽出した時間情報を処理するように構成された前記コンピュータ・プログラム命令が、相対時間表現を絶対時間にコンバートするように構成されたコンピュータ・プログラム命令を含む、請求項１５に記載のコンピュータ・プログラム製品。
時間マーカの前記セットが、優先順位付け方式に従って順序付けされた発見的方法である、請求項１５に記載のコンピュータ・プログラム製品。