JP2022024277A - Analysis system, analysis device, and analysis method - Google Patents
Analysis system, analysis device, and analysis method Download PDFInfo
- Publication number
- JP2022024277A JP2022024277A JP2020120726A JP2020120726A JP2022024277A JP 2022024277 A JP2022024277 A JP 2022024277A JP 2020120726 A JP2020120726 A JP 2020120726A JP 2020120726 A JP2020120726 A JP 2020120726A JP 2022024277 A JP2022024277 A JP 2022024277A
- Authority
- JP
- Japan
- Prior art keywords
- alert
- explanatory
- variable
- variables
- explanatory variables
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 58
- 238000011156 evaluation Methods 0.000 claims abstract description 90
- 230000007717 exclusion Effects 0.000 claims abstract description 35
- 238000004364 calculation method Methods 0.000 claims description 41
- 238000000605 extraction Methods 0.000 claims description 25
- 230000000694 effects Effects 0.000 claims description 7
- 241000282414 Homo sapiens Species 0.000 abstract description 5
- 238000000034 method Methods 0.000 description 42
- 238000010586 diagram Methods 0.000 description 36
- 238000012360 testing method Methods 0.000 description 20
- 230000002776 aggregation Effects 0.000 description 16
- 238000004220 aggregation Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 15
- 238000012544 monitoring process Methods 0.000 description 13
- 230000004044 response Effects 0.000 description 13
- 230000002159 abnormal effect Effects 0.000 description 12
- 239000000284 extract Substances 0.000 description 12
- 238000012986 modification Methods 0.000 description 11
- 230000004048 modification Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 230000009467 reduction Effects 0.000 description 6
- 238000012806 monitoring device Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 241000700605 Viruses Species 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000013210 evaluation model Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 238000000528 statistical test Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 239000010865 sewage Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Abstract
Description
本発明は、分析システム、分析装置、および分析方法に関する。 The present invention relates to an analysis system, an analysis device, and an analysis method.
標的型攻撃をはじめとするサイバー攻撃、“DDoS”(Distributed Denial of Service)攻撃、ウィルス拡散など、サイバー空間の脅威に対応する必要性が高まっている。サイバー空間では攻撃側が構造的に優位であり、その攻撃は日々高度化、増加、そして、変化してきている。しかも、攻撃対象は、金融サービス事業者やITサービス事業者に留まらず、インフラ事業者等へと拡大している。一方、企業内のITシステムは、クラウドサービスの利用拡大、スマホ、タブレットなどのモバイルデバイスの普及、リモートワーク等、益々、複雑化、多様化している。こうした状況では、いつ、どこからネットワークに不正侵入され、企業にとって重要な情報が外部に流出するかわからない。 There is an increasing need to respond to cyberspace threats such as targeted attacks and other cyber attacks, "DDoS" (Denial of Service) attacks, and virus spread. In cyberspace, the attacker has a structural advantage, and the attacks are becoming more sophisticated, increasing, and changing day by day. Moreover, the targets of attacks are expanding beyond financial service providers and IT service providers to infrastructure providers and the like. On the other hand, IT systems in companies are becoming more complicated and diversified due to the expansion of the use of cloud services, the spread of mobile devices such as smartphones and tablets, and remote work. In such a situation, it is unknown when and where the network is compromised and important information for the enterprise is leaked to the outside.
これまでは、サーバやネットワーク分野に詳しいIT部門の技術者が、セキュリティの脅威に対応していたが、多層的なセキュリティ対策と併せ、専門スタッフが常時監視するセキュリティオペレーションセンタ(SOC:Security Operation Center)の必要性が高まっている。しかしながら、セキュリティ専門家の必要数が確保できないために、情報システムや制御システムにおけるセキュリティインシデントの発生を監視する業務に支障を来たすことが懸念されていた。特に社会インフラ事業では、監視対象がシステム全体に及ぶため、SOCの運用能力の大幅な向上が望まれていた。 Until now, engineers in the IT department who are familiar with the server and network fields have responded to security threats, but in addition to multi-layered security measures, a security operations center (SOC) that is constantly monitored by specialized staff is constantly monitored. ) Is increasing. However, there was concern that the required number of security specialists could not be secured, which would hinder the work of monitoring the occurrence of security incidents in information systems and control systems. Especially in the social infrastructure business, since the monitoring target covers the entire system, it has been desired to significantly improve the operational capacity of the SOC.
SOCでの運用業務において、最も比重が高いのは、“FW”(Firewall)/“IPS”(Intrusion Detection System)等から通知されるセキュリティアラートの重要度を評価することである。言い換えると、セキュリティ専門家が、アラートがインシデントに該当するのか、または、誤検知などの注意を払わなくてもよいものに該当するかを評価することである。SOCのセキュリティ専門家は、監視対象システムの各装置ログ、外部脅威情報、マルウェアの危険度評価等を参照し、アラートの重要度を自身の知識と経験とに基づいて判断している。 The most important thing in the operation work at SOC is to evaluate the importance of security alerts notified from "FW" (Firewall) / "IPS" (Intrusion Detection System) and the like. In other words, a security expert assesses whether an alert is an incident or something that does not require attention, such as false positives. SOC security experts refer to each device log of the monitored system, external threat information, malware risk assessment, etc., and judge the importance of alerts based on their own knowledge and experience.
増加し続けるサイバー攻撃や監視対象システムの大規模化に対応して、SOCの運用を将来にわたって安定して継続させるには、セキュリティアラートの危険度を評価する業務を自動化、または、これを支援することが望まれる。このような問題は、セキュリティ面に限らず装置などの故障によるアラートであっても同様である。 In order to keep SOC operations stable in the future in response to the ever-increasing number of cyber attacks and the scale of monitored systems, automate or support the work of assessing the risk of security alerts. Is desired. Such a problem is not limited to the security aspect, but is the same even if it is an alert due to a failure of a device or the like.
サーバ装置やネットワーク装置を含む情報システム全体の故障監視を、専門スタッフが常駐するオペレーションセンタ(情報システム部門や、ネットワークオペレーションセンタ(NOC:Network Operation Center)などと呼ばれる)が行っている。ここでは、各装置から発生するログ情報と、パフォーマンス低下などによるアラート情報を結び付けて、そのアラートが一時的なものなのか、サービス変更によるものなのか、または、装置故障によるものなのかを判断しなければならない。故障監視を行う専門スタッフは、SOCの場合と同様に、アラートの重要度を自身の知識と経験とに基づいて判断している。 Failure monitoring of the entire information system including server equipment and network equipment is performed by an operation center (information system department, network operation center (NOC: Network Operation Center), etc.) where specialized staff are stationed. Here, the log information generated from each device is linked with the alert information due to performance degradation, etc., and it is determined whether the alert is temporary, due to a service change, or due to a device failure. There must be. As in the case of SOC, the failure monitoring specialists judge the importance of alerts based on their own knowledge and experience.
業務の自動化が進展することで、これまで以上に様々なサービスが情報システム上に追加されるようになっているため、上記ログ情報やアラート情報は増加する一方である。そのため、オペレーションセンタの運用能力の大幅な向上が望まれており、その運用を将来にわたって安定して継続させるには、SOC業務と同様に、アラートの重要度を評価する業務を自動化、または、これを支援することが望まれる。 With the progress of business automation, various services are being added to information systems more than ever, so the above log information and alert information are increasing. Therefore, it is desired to significantly improve the operational capacity of the operation center, and in order to continue the operation stably in the future, the task of evaluating the importance of alerts should be automated or this should be done in the same way as the SOC task. Is desired to support.
このような背景のもとで、過去のアラート重要度判断結果を目的変数、各装置の過去のログ及び外部公開情報などより算出するログ統計を説明変数として、統計的手法や機械学習技術を用いて重要度判断に影響を与えた要因を抽出し、予測モデル式を生成し、その予測モデル式を用いて新規発生したアラートに対する重要度を自動的に予測する手法が知られている。監視対象システムが大規模化すること、およびセキュリティであればサイバー攻撃の手口が日々変化し増加していることに鑑みると、参照すべき各装置のログ項目や外部公開情報の項目は非常に多岐に渡り、かつ変化していく。 Against this background, statistical methods and machine learning techniques are used, with log statistics calculated from past alert importance judgment results as objective variables, past logs of each device, and externally disclosed information as explanatory variables. There is known a method of extracting factors that have influenced the importance judgment, generating a prediction model formula, and automatically predicting the importance of a newly generated alert using the prediction model formula. Considering that the system to be monitored is becoming larger and the methods of cyber attacks are changing and increasing day by day in the case of security, the log items of each device to be referred to and the items of external public information are extremely diverse. And change.
特許文献1には、プロセッサと、事象群の要因に対する結果を予測する予測モデル式を記憶する記憶デバイスと、を有する分析装置であって、前記プロセッサは、前記事象群の中の第1事象の要因に対する第1出現頻度を前記予測モデル式に与えることで得られる第1予測値と、前記第1出現頻度に対応する結果と、に基づいて、前記第1予測値の予測誤差を算出する予測誤差算出処理と、前記事象群の中の第2事象の要因に対する第2出現頻度と、前記予測誤差算出処理によって算出された予測誤差と、の相関に基づいて、前記第1事象の要因の中から前記予測誤差の誤差要因を抽出する誤差要因抽出処理と、を実行することを特徴とする分析装置が開示されている。
特許文献1に開示された技術では、予測に寄与しない説明変数を含んでしまう可能性がある。
The technique disclosed in
本発明の第1の態様による分析システムは、事象に関する情報を用いて複数の説明変数を作成し、前記複数の説明変数および前記事象の結果を含む入力データを作成する入力データ作成部と、前記複数の説明変数を用いて前記事象の結果である目的変数の値を予測する予測モデル式を作成する予測部と、前記予測モデル式に用いる必要がない前記説明変数の候補である除外候補変数を算出する説明変数評価部と、前記除外候補変数を出力する出力部と、を備える。
本発明の第2の態様による分析装置は、事象に関する情報を用いて複数の説明変数を作成し、前記複数の説明変数および前記事象の結果を含む入力データを作成する入力データ作成部と、前記複数の説明変数を用いて前記事象の結果である目的変数の値を予測する予測モデル式を作成する予測部と、前記予測モデル式に用いる必要がない前記説明変数の候補である除外候補変数を算出する説明変数評価部と、前記除外候補変数を出力する出力部と、を備える。
本発明の第3の態様による分析方法は、分析装置が実行する分析方法であって、事象に関する情報を用いて複数の説明変数を作成し、前記複数の説明変数および前記事象の結果を含む入力データを作成することと、前記複数の説明変数を用いて前記事象の結果である目的変数の値を予測する予測モデル式を作成することと、前記予測モデル式に用いる必要がない前記説明変数の候補である除外候補変数を算出することと、前記除外候補変数を出力することとを含む。
The analysis system according to the first aspect of the present invention includes an input data creation unit that creates a plurality of explanatory variables using information about an event and creates input data including the plurality of explanatory variables and the result of the event. A prediction unit that creates a prediction model formula that predicts the value of the objective variable that is the result of the event using the plurality of explanatory variables, and an exclusion candidate that is a candidate for the explanatory variable that does not need to be used in the prediction model formula. It includes an explanatory variable evaluation unit for calculating variables and an output unit for outputting the exclusion candidate variables.
The analyzer according to the second aspect of the present invention includes an input data creation unit that creates a plurality of explanatory variables using information about an event and creates input data including the plurality of explanatory variables and the result of the event. A prediction unit that creates a prediction model formula that predicts the value of the objective variable that is the result of the event using the plurality of explanatory variables, and an exclusion candidate that is a candidate for the explanatory variable that does not need to be used in the prediction model formula. It includes an explanatory variable evaluation unit for calculating variables and an output unit for outputting the exclusion candidate variables.
The analysis method according to the third aspect of the present invention is an analysis method executed by an analyzer, in which a plurality of explanatory variables are created using information about an event, and the plurality of explanatory variables and the result of the event are included. Creating input data, creating a prediction model formula that predicts the value of the objective variable that is the result of the event using the plurality of explanatory variables, and the explanation that does not need to be used in the prediction model formula. It includes calculating an exclusion candidate variable that is a candidate for a variable and outputting the exclusion candidate variable.
本発明によれば、予測モデル式に用いない説明変数を人間が決定する補助ができる。 According to the present invention, it is possible to assist human beings in determining explanatory variables that are not used in the prediction model formula.
―第1の実施の形態―
以下、図1~図17を参照して、分析システムの第1の実施の形態を説明する。
-First embodiment-
Hereinafter, the first embodiment of the analysis system will be described with reference to FIGS. 1 to 17.
図1は、第1の実施の形態における分析システム1の構成を示す図である。分析システム1は、SOC130と、アラート分析装置135とを含んで構成される。分析システム1は、1以上の監視対象を対象にサイバー攻撃等セキュリティの脅威から防衛することに関する分析を行う。本実施の形態では分析システム1が第1監視対象システム100aを監視対象とする場合を説明する。なお、以下では、セキュリティの監視について述べるが、分析システム1は、その他のアラート、たとえば、ハードウェアの故障やシステムの不調を監視してもよい。SOC130は、アラート管理装置131と、ログ管理装置132と、統合管理装置133と、第2ネットワーク134と、を備える。
FIG. 1 is a diagram showing a configuration of an
第1監視対象システム100aは、第1ネットワーク110、1台以上のクライアント端末111、業務サーバ112、ネットワーク監視装置113、ファイヤウォール114、およびプロキシサーバ115を有する。なおファイヤウォール114は侵入防止機能を備えてもよい。第1監視対象システム100aの処理対象は本発明において限定されず、第1監視対象システム100aはたとえば、金融分野のコンピュータシステムやIT分野のコンピュータシステムである。ただし第1監視対象システム100aは、電力供給システム、上下水道管理システムのような社会インフラに係るものであってもよい。第1監視対象システム100aは、ハードウェアおよびソフトウェアを監視し、サーバに対する攻撃や、ウィルス等の不正を検知すると、アラートを作成してSOC130に通知する。
The first
第1ネットワーク110は、例えば、バスであり、クライアント端末111、業務サーバ112、ネットワーク監視装置113、ファイヤウォール114、プロキシサーバ115、SOC130が、互いに通信可能に接続されている。ファイヤウォール114は、外部ネットワーク116に接続される。外部ネットワーク116は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、または、インターネットである。
The
第2ネットワーク134は、例えば、バスであり、アラート管理装置131、ログ管理装置132、統合管理装置133、外部ネットワーク116が接続されている。さらに、SOC130には、外部ネットワーク116を介して、アラート分析装置135、および、外部脅威情報データベース136が接続されている。アラート分析装置135とSOC130は、一般的には、VPN(Virtual Private Network)などのセキュアな通信で接続される。外部脅威情報データベース136は、脅威に関する情報を提供するWebサーバである。
The
アラート管理装置131は、第1監視対象システム100aからウィルス検出、システムの異常な挙動の検出、未登録装置との接続の検出、故障、障害等の事象をアラートとして受信すると、アラートを特定するための管理情報を登録する。アラートの管理情報は、アラートの発生日時と、アラート対象の種類と、アラート対象のアドレスとを含む。なお、「アラート対象の種類」は、「アラートの発生元の種類」と言い換えることもできる。
The
SOCのセキュリティ専門家(以下、専門家、という。)は、外部脅威情報データベース136を参照して、それぞれのアラートを評価する。そして専門家は評価結果に基づきそれぞれのアラートに分類情報であるアラート分類を付す。アラート分類とは、たとえばフラグ0およびフラグ1のいずれかである。フラグ0が付されるアラートはたとえば、アラートが情報漏えい、システムの暴走等セキュリティインシデントに繋がる危険度が高いものである。フラグ1が付されるアラートはたとえば、対策済み、または、アラートが誤報に過ぎない等、危険度が高くなく、さほど注意を払わなくてもよいものである。専門家が付したアラート分類は、後述する処理において利用される。
SOC security experts (hereinafter referred to as experts) refer to the external
ログ管理装置132は、第1監視対象システム100aからアクセスログや認証ログなどを取得して、過去のログの履歴を記録して管理する。ログは、いつ、第1監視対象システム100a内のどのコンピュータがどのようなデータをどの通信相手に送受信したか等の情報示す履歴情報である。
The
統合管理装置133は、アラート収集テーブル600と、ログ収集テーブル700と、計算リソース量テーブル800と、入力データテーブル900とを備える。統合管理装置133は、アラート管理装置131からアラート管理情報を収集し、後述するアラート収集テーブル600に登録する。また統合管理装置133は、ログ管理装置132からログ情報を収集し、後述するログ収集テーブル700に登録する。さらに統合管理装置133は、アラート収集テーブル600とログ収集テーブル700に記載された情報に基づいて、後述する入力データテーブル900を作成し、アラート分析装置135に対して入力データテーブル900を送信する。計算リソース量テーブル800については後述する。
The
アラート分析装置135は、アラートの内容と専門家が決定したアラート分類との組み合わせを学習し、学習結果に基づいて別のアラートを評価するためのモデルを作成する。アラート分析装置135は、このモデルに基づいて新たに発生したアラートである評価対象アラートを分析し、アラート分類を決定するための予測値を計算し、これを統合管理装置133に通知する。統合管理装置133の表示を確認した専門家は、この予測値を確認して、評価対象アラートの正式なアラート分類を決定できる。
The
外部脅威情報データベース136は、インターネット上で脅威情報を公開するものである。脅威情報には、マルウェア、プログラムの脆弱性、スパム、そして、不正URL(Uniform Resource Locator)が含まれていてよい。ただし外部脅威情報データベース136がSOC130の外部に存在することは必須の構成ではなく、外部脅威情報データベース136がSOC130に含まれてもよい。
The external
図2は、図1に示すシステムに適用されるコンピュータ200のハードウェアブロック図である。コンピュータ200は、クライアント端末111、業務サーバ112、ネットワーク監視装置113、ファイヤウォール114、プロキシサーバ115、アラート管理装置131、ログ管理装置132、統合管理装置133、およびアラート分析装置135の夫々に適用される。コンピュータ200は、プロセッサ201と、記憶デバイス202と、入力デバイス203と、出力デバイス204と、通信インタフェース205と、を備える。プロセッサ201等は、バス206により互いに接続されている。記憶デバイス202は、プログラムやデータを記憶する非一時的なまたは一時的な記録手段でよい。
FIG. 2 is a hardware block diagram of the
なお図2に示す構成は例示であり、たとえばプロセッサ201の代わりに書き換え可能な論理回路や特定用途向け集積回路が用いられてもよい。また、クライアント端末111、業務サーバ112、ネットワーク監視装置113、ファイヤウォール114、プロキシサーバ115、アラート管理装置131、ログ管理装置132、統合管理装置133、およびアラート分析装置135は構成が同一でなくてもよい。
The configuration shown in FIG. 2 is an example, and for example, a rewritable logic circuit or an integrated circuit for a specific application may be used instead of the
なお記憶デバイス202は、外部から記憶媒体291を介して各処理を実現するための動作プログラム等の情報の提供を受けてもよい。また、コンピュータ200は通信インタフェース205を介して外部サーバ292との接続機能を有してもよい。外部サーバ292は各処理を実現するための動作プログラム等の情報を提供するサーバーコンピュータであり、記憶装置293などの記録媒体に情報を格納する。通信回線299は、インターネット、パソコン通信などの通信回線、あるいは専用通信回線などである。
The
外部サーバ292は記憶装置293から動作プログラム等の情報を読み出し、通信回線299を介してコンピュータ200に送信する。すなわち、プログラムをデータ信号として搬送波を介して、通信回線299を介して送信する。このように、コンピュータ200を動作させるためのプログラムは、記録媒体やデータ信号(搬送波)などの種々の形態のコンピュータ読み込み可能なコンピュータプログラム製品として供給できる。
The
図3は、第1の実施の形態における統合管理装置133の機能構成例を示すブロック図である。統合管理装置133は、アラート収集部301と、ログ収集部302と、入力データ作成部303と、出力データ表示部304と、を有する。アラート収集部301等の夫々のブロックは、プロセッサ201が記憶デバイス202に保存されたプログラムを実行することによって実現される機能モジュールである。したがって、アラート収集部301等の夫々を、アラート収集モジュール、アラート収集手段、アラート収集回路、アラート収集ユニット、または、アラート収集要素等と言い換えてもよい。なお、それぞれの機能モジュールをハードウェアによって実現してもよい。
FIG. 3 is a block diagram showing a functional configuration example of the
アラート収集部301は、アラート管理装置131からアラート管理情報を受信し、後述するアラート収集テーブル600に登録する。ログ収集部302は、アラート収集テーブル600に登録された情報を参照して、ログ管理装置132から受信するログ情報と、外部脅威情報データベース136から受信する外部脅威情報から説明変数となるログ統計を算出して、後述するログ収集テーブル700に登録する。また、ログ収集部302は、ログ統計の算出に要した計算リソース量、すなわち、計算時間を後述する計算リソース量テーブル800に登録する。
The
入力データ作成部303は、アラート収集テーブル600およびログ収集テーブル700を参照して入力データテーブル900を作成し、アラート分析装置135に入力データテーブル900を送信する。出力データ表示部304は、計算リソース量テーブル800の内容と共に、アラート分析装置135から受信する出力データを表示する。セキュリティ専門家310は、この出力データ表示部304の表示画面を確認し、作成する説明変数、すなわちログ統計の種類を任意に設定することができる。
The input
図4は、第1の実施の形態におけるアラート分析装置135の機能的構成例を示すブロックである。アラート分析装置135は、たとえば、まず人工知能による機械学習、たとえばプレディクティブコーディングを利用して、アラートの評価モデルを作成する。次にアラート分析装置135は、学習の継続により評価モデルを更新する。アラート分析装置135はさらに、評価モデルに基づいて、アラートに対する分類の予測値を算出する。アラート分析装置135は、アラートを構成し、アラートを特徴付けるデータ要素と、分類フラグとの関連性を学習する。データ要素は、アラートに関連するログの情報である。評価モデルは、例えば、複数のデータ要素毎のフラグとの関係性における重み、または数式のモデルである。
FIG. 4 is a block showing a functional configuration example of the
アラート分析装置135は、モデル部400と、予測部401と、説明変数評価部402と、予測影響度評価部403と、出力部404と、を有する。予測部401等のそれぞれのブロックは、プロセッサ201が記憶デバイス202に保存されたプログラムを実行することによって実現される機能モジュールである。したがって、予測部401等の夫々を、予測モジュール、予測手段、予測回路、予測ユニット、または、予測要素等と言い換えてもよい。なお、機能モジュールをハードウェアによって実現してもよい。
The
予測部401は、予測モデル式に基づいて、新規アラートの予測値を演算する。この予測値は、出力部404を介して統合管理装置133に送信される。専門家310は、新規アラートを実際に処理する前に予測値を参照できるために、アラートの処理を効率的に行うことができ、かつ、重要度の高いアラートの見逃しを無くすことができる。
The
説明変数評価部402は、1または複数の所定の抽出方法用いて説明変数を評価し、予測モデル式に用いる必要がない説明変数の候補である除外候補変数を算出する。ただし本実施の形態では特定の説明変数を評価するのではなく、特に対象を限定することなく、換言すると全ての説明変数を評価して、所定の条件に合致する説明変数を除外候補変数として出力する。
The explanatory
予測影響度評価部403は、説明変数評価部402が抽出した説明変数を、作成対象から除外した際の予測影響度を評価する。予測影響度は、特定の説明変数を予測モデル式に用いない場合の精度である。たとえば、特定の説明変数を用いない予測モデル式を用いたテストアラートの正答率を予測影響度と定義する。より具体的には、特定の説明変数を用いない予測モデル式を用いたテストアラートが10個中9個正解した場合には、予測影響度は「90%」である。
The predictive
説明変数評価部402と予測影響度評価部403の評価結果は、出力部404を介して、統合管理装置133に送信される。専門家310は、この評価結果の表示画面を確認し、作成する説明変数、すなわちログ統計の種類を任意に設定することができる。出力部404は、予測部401、説明変数評価部402、および予測影響度評価部403の出力結果をまとめて、統合管理装置133に送信する。
The evaluation results of the explanatory
次に、分析システム1の動作を説明する。図5は、統合管理装置133が入力データを作成する動作例を示すシーケンス図である。アラート収集部301は、アラートの学習のために、アラート管理装置131からアラート管理情報を収集する範囲を決定する(ステップS501)。アラート管理装置131は、第1監視対象システム100aからアラートを受信する都度、アラートの管理情報を蓄積する。
Next, the operation of the
アラート収集部301は、アラート管理装置131からアラート管理情報を収集する(S502)。アラート収集部301は、例えば、取り込まれていないアラートのうち最も発生日時が古いアラートから、収集する期間の範囲、たとえば30日間で発生したアラートの管理情報を収集する。アラート収集部301は、収集したアラート管理情報をアラート収集テーブル600に登録する(ステップS503)。ここでアラート収集テーブル600を説明する。
The
図6は、アラート収集テーブル600の一例を示す説明図である。アラート収集テーブル600は、統合管理装置133の所定の記憶領域に保存される。アラート収集テーブル600は、アラート識別子601と、発生日時602と、システム603と、アラート対象604と、通信相手605と、判断結果606と、アラート分類607と、のフィールドを備える。これらのフィールドに格納される情報のうち、判断結果606と、アラート分類607を除くフィールドに格納される情報は、アラート管理装置131が第1監視対象システム100aから取得するアラートを解析して得られる。
FIG. 6 is an explanatory diagram showing an example of the alert collection table 600. The alert collection table 600 is stored in a predetermined storage area of the
アラート識別子601には、アラートを一意に特定する識別情報が格納される。発生日時602には、アラートが発生した日付や時刻の情報が格納される。システム603は、アラートが発生した監視対象システムの識別情報が格納される。アラート対象604は、アラートの発生元を特定する情報、たとえば装置を特定する情報が格納される。すなわちアラート対象604に格納される情報は、システム603に格納される情報のより詳細を示している。通信相手605には、アラート対象604により特定される対象が送信したデータの宛先またはアラート対象604により特定される対象にデータを送信した送信元を示す情報が格納される。
The
判断結果606には、アラートに対して、専門家によって行われた対応の情報が格納される。判断結果はたとえば、“誤検知と判断”、“未対処の攻撃と判断”、“対処済みの攻撃と判断”、および“未処理”のいずれかである。アラート分類607は、処理結果606に基づいて、専門家によって入力されたアラートの重要性を示す情報が格納される。アラート分類607には”1”または”0”が格納され、“1”はアラートが重要であり危険度が大きいことを示し、“0”はアラートが重要ではなく危険ではないから注意を払わなくてもよいことを示す。後者は、例えば、アラートが誤報の場合や、アラートが対策済みの場合に選択される。
The determination result 606 stores information on the response taken by the expert to the alert. The determination result is, for example, one of "false positive and determination", "unaddressed attack and determination", "addressed attack and determination", and "unprocessed". The
図5に戻って説明を続ける。アラート収集部301は、アラート収集テーブル600への登録が完了すると、アラート情報をログ収集部302に通知する(ステップS504)。ログ収集部302は、ログ管理装置132にアクセスしてログ情報群を参照し、アラートに関連するログ情報を抽出する(S505)。また、ログ収集部302は、外部脅威情報データベース136にアクセスして、アラートに関連する外部脅威情報を抽出する(S506)。ログ収集部302は、ログ情報と外部脅威情報を元に、アラートに関連したログ統計、すなわち、説明変数を算出して、ログ収集テーブル700に登録する。そして、ログ収集部302は、ログ統計の算出に要した計算時間を計算リソース量テーブル800に記憶する(S508)。
The explanation will be continued by returning to FIG. When the registration to the alert collection table 600 is completed, the
図7は、ログ収集テーブル700の一例を示す説明図である。ログ収集テーブル700は、統合管理装置133の所定の記憶領域に記録されている。ログ収集テーブル700の各エントリは、アラート識別子601と、集計日時702と、プロキシサーバログ703と、業務サーバログ704と、外部脅威情報705のフィールドを有する。なおログ収集テーブル700には、第1監視対象システム100a内の他のコンピュータ、たとえばクライアント端末111、ファイヤウォール114、およびネットワーク監視装置113などに関するログが含まれてもよい。
FIG. 7 is an explanatory diagram showing an example of the log collection table 700. The log collection table 700 is recorded in a predetermined storage area of the
以下に説明する、ログ収集テーブル700に含まれるログの統計情報であるログ統計が説明変数に該当する。図7に示す例では、キャッシュミス回数731、異常応答回数732、異常応答回数741、アクセス回数742、IPアドレス危険度751、およびURL危険度752が説明変数である。
The log statistics, which are the statistical information of the logs included in the log collection table 700, described below correspond to the explanatory variables. In the example shown in FIG. 7, the number of cache misses 731, the number of
ログ収集テーブル700には、以下に詳述するように、それぞれのアラートに対応する1以上のログの統計が格納される。換言するとログ収集テーブル700には、1つのアラートに対応する1つのログが格納されるのではなく、アラートが発せられた時刻近辺の複数のログを集計した情報が格納される。具体的には、アラートが発せられた時刻を起点として所定時間だけ遡り、そこから所定の時間間隔で集計したログ等の統計情報がログ収集テーブル700に格納される。図7に示す例では所定時間を「1時間」、時間間隔を「10分」としており、1つのアラートに対応する7つの統計情報が格納される。 The log collection table 700 stores statistics for one or more logs corresponding to each alert, as detailed below. In other words, the log collection table 700 does not store one log corresponding to one alert, but stores information that aggregates a plurality of logs near the time when the alert is issued. Specifically, statistical information such as a log that goes back by a predetermined time from the time when the alert is issued and aggregated at a predetermined time interval is stored in the log collection table 700. In the example shown in FIG. 7, the predetermined time is "1 hour" and the time interval is "10 minutes", and seven statistical information corresponding to one alert is stored.
アラート識別子601には、そのエントリの統計に対応するアラートを特定する情報、すなわちアラートの識別子が格納される。集計日時702には、そのエントリに示される統計の作成に使用されたログの最終時刻の情報が格納される。前述のとおり図7の例では時間間隔を「10分」としたので、最初のエントリに示す例は集計日時702が“2018/10/10 12:57”なので、2018年10月10日の“12:48”から“12:57”までの10分間に受信したログの集計である。
The
アラートを構成するデータ要素は、アラートの発生日時以前の所定範囲のログであると定義してよい。つまり、同じ識別子のアラートの集計日時のログの情報703、704がアラートに関連するログ統計、すなわち、アラートを構成するデータ要素である。さらに、外部脅威情報705もアラートの構成情報としてもよい。
The data elements that make up the alert may be defined as a range of logs prior to the date and time the alert occurred. That is, the
図6の例で示したように、アラート識別子601が“Alert_001”であるアラートの発生日時602は“2018/10/10 13:57”である。図7の以下の説明では日付の記載を省略して時刻のみを記載する。アラート識別子601が“Alert_001”であるエントリのアラートの集計日時702は、発生日時602の“13:57”から1時間遡った“12:57”と、“12:57”から10分刻みの“13:07”、“13:17”、“13:27”、“13:37”、“13:47”、および、“13:57”である。
As shown in the example of FIG. 6, the alert occurrence date and
プロキシサーバログ703は、サブフィールドとして、キャッシュミス回数731と異常応答回数732とを有する。キャッシュミス回数731には、集計日時702においてプロキシサーバ115がキャッシュミスした回数が格納される。異常応答回数732には、集計日時702においてプロキシサーバ115が異常応答を受信した回数が格納される。なお、プロキシサーバログ703のサブフィールドは、キャッシュミス回数731や異常応答回数732に限定されずそれ以外、たとえば、通信バイト数などが含まれてもよい。
The
業務サーバログ704は、サブフィールドとして、異常応答回数741とアクセス回数742とを有する。異常応答回数741には、集計日時702において業務サーバ112が異常応答を受信した回数が格納される。アクセス回数742には、集計日時702で特定される一定時間間隔の集計期間において業務サーバ112が他のコンピュータ200にアクセスされた回数が含まれる。なお、業務サーバログ704のサブフィールドは、異常応答回数741やアクセス回数742に限定されずそれ以外、たとえば認証失敗回数などが含まれてもよい。
The
外部脅威情報705は、サブフィールドとして、IPアドレス危険度751とURL危険度752とを有する。IPアドレス危険度751には、集計日時702におけるアラート対象604の通信相手605がIPアドレスで特定された場合に、外部脅威情報データベース136において当該IPアドレスの危険度を段階的に示した指標値が格納される。この指標値はたとえば、“0~5”の6段階であり、“5”が最も危険度が高いことを意味する。
The
URL危険度752には、集計日時702におけるアラート対象604の通信相手605がURLで特定された場合に、外部脅威情報データベース136において当該URLの危険度を段階的に示した指標値が格納される。この指標値はたとえば、“0~5”の6段階であり、“5”最も危険度が高いことを意味する。なお、外部脅威情報705のサブフィールドは、IPアドレス危険度751やURL危険度752に限定されずそれ以外、たとえば端末の脆弱度などが含まれてもよい。
In the
図8は、計算リソース量テーブル800の一例を示す説明図である。計算リソース量テーブル800は、統合管理装置133の所定の記憶領域に記録されている。計算リソース量テーブル800は、説明変数名801と、算出に要した計算時間802のフィールドを有する。
FIG. 8 is an explanatory diagram showing an example of the calculation resource amount table 800. The calculated resource amount table 800 is recorded in a predetermined storage area of the
説明変数名801には、図7のログ収集テーブル700で示したプロキシサーバログ703のキャッシュミス回数731等のそれぞれの説明変数の項目名が格納される。算出に要した計算時間802には、ログ情報等からログ統計を算出するのに要した計算時間が格納される。算出に要した計算時間802に格納される情報は、たとえば、算出の際に計算に要した時間を記憶し、その平均値が格納される。説明変数名801が“プロキシサーバ キャッシュミス回数”であるエントリは、算出に要した計算時間802が“50.3秒”であったことを示す。
The explanatory
図5に戻る。入力データ作成部303は、アラート収集部301とログ収集部302によって登録されたアラート収集テーブル600とログ収集テーブル700を参照して入力データを作成し、入力データテーブル900に登録する(S511)。以上の手順によって、アラート分析装置135への入力データが作成される。
Return to FIG. The input
図9は、入力データテーブル900の一例を示す説明図である。入力データテーブル900は、統合管理装置133の所定の記憶領域に記録されている。入力データテーブル900は、アラート識別子601と、データ種別902と、判断結果分類903と集計日時904と、システム905と、プロキシサーバログ906と、業務サーバログ907と、外部脅威情報908のフィールドを有する。
FIG. 9 is an explanatory diagram showing an example of the input data table 900. The input data table 900 is recorded in a predetermined storage area of the
データ種別902には、取り込まれたアラートに対して、データとしての扱いの種別を示す“学習”および“テスト”のいずれかが格納される。以下では、“学習”が設定されたアラートを「学習アラート」と呼び、“テスト”が設定されたアラートを「テストアラート」と呼ぶ。学習アラートは、アラートのデータ要素とアラートの分類(分類)との関連性が評価され、アラートの分類を予測するための予測モデル式の作成および更新に利用される。テストアラートは作成された予測モデル式のテストに用いられる。
In the
受信したアラートを“学習”および“テスト”のどちらに設定するかは任意である。入力データ作成部303は、所定のルールに基づいて、“学習”が設定されるアラート、“テスト”が設定されるアラート、を決めてよい。“学習”と“テスト”の比率は特に制限されるものではなく、入力データ作成部303が適宜設定してよい。
It is optional to set the received alert to "learn" or "test". The input
判断結果分類903は、図6に例示したアラート収集テーブル600における分類607に相当し、同じ値が格納される。判断結果分類903に格納される情報は、入力データのうち目的変数に該当する。集計日時904は、図7に例示したログ収集テーブル700における集計日時702に相当し、同じ値が格納される。システム905は、図6に例示したアラート収集テーブル600のシステム603に相当し、同じ値が格納され、集計日時904ごとに記録される。
The
プロキシサーバログ906、業務サーバログ907、および外部脅威情報908は、ログ収集テーブル700における、プロキシサーバログ703、業務サーバログ704、および外部脅威情報705に相当し、そのサブフィールドも同様に相当し、同じ値が格納される。システム905、プロキシサーバログ906、業務サーバログ907、および、外部脅威情報908は、説明変数に該当する。
The
次に、アラート分析装置135に対する設定項目について説明する。図10は、アラート分析装置135の設定画面表示の一例を示す説明図である。画面1000は、設定タブ1001において、抽出方法1010と閾値1020の2つの設定項目を示している。抽出方法1010は、作成対象から除外する説明変数の抽出方法を設定する。閾値1020は、さまざまな閾値を設定する。
Next, the setting items for the
抽出方法1010では、第1方法1011、第2方法1012、および第3方法1013のそれぞれが独立に使用要否を設定できる。本項目は作成対象から除外する説明変数の抽出方法の設定なので、選択した抽出方法により抽出された説明変数は作成対象から除外される。第1方法1011は、分散=0となる説明変数を抽出する方法である。第2方法1012は、目的変数との相関度が閾値以下となる説明変数を抽出する方法である。第3方法1013は、説明変数間の相関度(以下、相互相関度、と呼ぶ)が閾値以上となる説明変数グループから抽出する方法である。
In the
閾値1020では、無相関閾値1021、p閾値1022、および強相関閾値1023のそれぞれの閾値を数値で設定できる。無相関閾値1021は、相関なしとする相関度の閾値であり、相関度が無相関閾値1021の値よりも小さい場合には相関なしと判断される。p閾値1022は、有意水準とするp値の閾値である。p値とは、統計において一般的に用いられる指標であり、帰無仮説の元で検定統計量がその値となる確率のことである。強相関閾値1023は、強い相関とする相互相関度の閾値であり、相互相関度が強相関閾値1023に設定された値よりも大きい場合には強い相関を有すると判断する。
At the
次に、アラート分析装置135の動作について説明する。図11は、作成対象から除外する説明変数を抽出する動作の一例を示すシーケンス図である。統合管理装置133の入力データ作成部303は、登録された入力データテーブル900をアラート分析装置135に送信する。入力データテーブル900は、予測部401、説明変数評価部402、予測影響度評価部403に共有される(S1101、S1102、S1103)。予測部401は、入力データテーブル900のデータ種別902に“学習”が割り当てられているアラートの識別子を選択し、それらのエントリから目的変数と説明変数に該当する項目を抽出する。さらに予測部401は、目的変数と説明変数の出現頻度との相関度を算出し、相関度評価テーブル1200に登録する(S1104)。ただし予測部401は、より単純に、目的変数と説明変数との相関度を算出してもよい。S1104の処理を図12を参照して詳述する。
Next, the operation of the
図12は、相関度評価テーブル1200の一例を示す説明図である。相関度評価テーブル1200は、アラート分析装置135の所定の記憶領域に登録されている。相関度評価テーブル1200は、説明変数名1201と、値域1202と、相関度1203と、p値1204と、をフィールドとして有する。説明変数名1201には、“学習”が付与されたアラートに関する説明変数の名称が格納される。これは、入力データテーブル900のプロキシサーバ キャッシュミス回数961等に対応する。
FIG. 12 is an explanatory diagram showing an example of the correlation degree evaluation table 1200. The correlation degree evaluation table 1200 is registered in a predetermined storage area of the
値域1202には、説明変数名1201が取り得る値の範囲が格納される。値域1202にはたとえば、あらかじめ定められた値が格納される。アラートのデータ要素は、説明変数名1201と値域1202との組み合わせで構成される。相関度1203にはデータ要素と、目的変数に該当する判断結果分類903との相関性を評価した指標、すなわち、相関度に対応する値が格納される。以下で具体的に説明する。
The
相関度1203に格納される値はたとえば、学習アラートの特徴量(データ要素)における値域1202の出現回数を当該特徴量の集計回数で除算した値域1202の出現頻度pと、判断結果分類903の分類度合いqと、の相関係数R1である。相関係数R1は、出現頻度pの標準偏差σpと、分類度合いqの標準偏差σqと、出現頻度pおよび分類度合いqの共分散Spqと、を用いて次の(数式1)で算出される。
The values stored in the
R1=Spq/(σp×σq)・・・(数式1) R1 = Spq / (σp × σq) ... (Formula 1)
以下では図9に示した入力データテーブル900の例を用いて、出現頻度pおよび分類度合いqの算出方法を具体的に説明する。 Hereinafter, a method for calculating the appearance frequency p and the classification degree q will be specifically described using the example of the input data table 900 shown in FIG.
アラート識別子601が“Alert_001”で、かつ、説明変数名1201が“プロキシサーバ キャッシュミス回数”を説明すると次のとおりである。図9によれば、アラート識別子601が“Alert_001”であるプロキシサーバログ906のキャッシュミス回数961は、”12:57”において“3”、”13:07”において“4”、”13:57”において“4”である。ここで、図9において記載が省略されている、集計日時904が“13:17”~”13:47”のキャッシュミス回数961を“3”および“4”以外の値とする。この場合には、アラート識別子601が“Alert_001”であるプロキシサーバログ906のキャッシュミス回数961における値域1202“3”~“4”の出現回数は3回である。
It is as follows when the
アラート識別子601が“Alert_001”であるプロキシサーバログ906のキャッシュミス回数961の集計回数は、前述のように7回である。したがって、アラート識別子601が“Alert_001”であるプロキシサーバログ906のキャッシュミス回数961における値域1202が“3”~“4”の出現頻度pは、“3/7”である。また、アラート識別子501が“Alert_005”である分類度合いqは、判断結果分類903の“0”である。以上が出現頻度pおよび分類度合いqの具体的な算出方法である。
As described above, the total number of cache misses 961 of the
予測部401は、データ種別902が“学習”であるアラート識別子601ごとに、出現頻度pと分類度合いqとの組み合わせを求める。次に予測部401は、それぞれの項目の現象が出現する頻度pから、出現頻度pの標準偏差σpを求める。そして予測部401は、複数のアラート夫々の分類度合いqから標準偏差σqを求め、共分散Spqを求める。さらに予測部401は、上記(数式1)により、データ種別902が“学習”であるアラート識別子601についての説明変数名1201“プロキシサーバ キャッシュミス回数”の値域1202が“3”~“4”に対応する相関係数(R1=-0.54)を算出する。
The
相関係数R1が正(R1>0)であることは、アラートが正しく、すなわち、アラートがウィルス攻撃等の危険を示すことを意味する。また、相関係数R1の値が大きいほど、危険の程度が高いことを示す。一方、相関係数R1が負(R1<0)であることは、アラートが誤報に基づくものである等、それほどアラートに危険がない事を示す。また、相関係数R1が小さいほど、すなわちマイナスの絶対値が大きいほど誤報である程度が高いことを示す。このように、アラートの複数のデータ要素毎に相関度が求められるため、それぞれのデータ要素の相関係数を統合することによって、アラートのスコアに基づいて、アラート自体の重要度を評価することができる。なおここでいう「統合」は、融合、組み合わせ、統一、合成などに言い換えてもよい。 When the correlation coefficient R1 is positive (R1> 0), it means that the alert is correct, that is, the alert indicates a danger such as a virus attack. Further, the larger the value of the correlation coefficient R1, the higher the degree of danger. On the other hand, the fact that the correlation coefficient R1 is negative (R1 <0) indicates that the alert is not so dangerous, such as that the alert is based on a false alarm. Further, the smaller the correlation coefficient R1, that is, the larger the negative absolute value, the higher the false alarm to some extent. In this way, since the degree of correlation is calculated for each of multiple data elements of the alert, it is possible to evaluate the importance of the alert itself based on the score of the alert by integrating the correlation coefficient of each data element. can. The term "integration" here may be paraphrased as fusion, combination, unification, synthesis, and the like.
p値1204は、無相関を検定するための指標である。統計において一般的に用いられる指標であり、帰無仮説の元で検定統計量がその値となる確率である。統計検定量tは、相関係数R1と、標本サンプル数mと、により、以下の(数式2)で算出される。
The p-
t=R1×√(m-2)/√(1-R1^2)・・・(数式2) t = R1 × √ (m-2) / √ (1-R1 ^ 2) ・ ・ ・ (Formula 2)
p値1204は、t分布において、統計検定量5の絶対値以上の値が発生する確率として算出される。p値がある閾値、例えば、0.05以上になる場合、事前に算出された相関係数R1の結果は有意水準5%で棄却され、2つの変数は無相関であると言える。
The p-
図11に戻る。予測部401は、出現頻度pおよび分類度合いqに基づいて、分類度合いの予測値を算出す予測モデル式を作成し、保存する(S1106)。この予測モデル式は、目的変数Yを判断結果分類903、特徴量Xi(i=1、2、・・・、n)を“P(説明変数名1201、値域1202)”とする。ただし、P(Z)は、事象Zの出現頻度pを表す。特徴量Xiを、相関度評価テーブル1200を参照して、X1=P(プロキシサーバ キャッシュミス回数、“0”~“3”)、X2=P(プロキシサーバ キャッシュミス回数、“3”~“4”)、などとする。
Return to FIG. The
予測部401は、予測モデル式の一例として、下記(数式3)のような重回帰式を作成する。“n”は、説明変数名1201および値域1202との組み合わせの総数、すなわち、事象Zの総数である。
The
ここで、入力データであるアラートのエントリjに対する目的変数Yの値を“y_j”とする。エントリjはたとえば、“Alert_001”に関する目的変数Yと特徴量Xiの組み合わせである。また、特徴量X1の値を“x1_j”、特徴量X2の値を“x2_j”、・・・、特徴量Xnの値を“xn_j”とする。このとき、上記(数式3)の各係数“b0”、“b1”、“b2”、・・・、“bn”は、一例として下記(数式4)のような行列式によって求めることができる。下記の(数式4)において、“j”は、入力データであるアラートのエントリ“1”~“k”の任意のエントリを示す。 Here, the value of the objective variable Y for the entry j of the alert which is the input data is set to "y_j". The entry j is, for example, a combination of the objective variable Y and the feature amount Xi regarding "Alert_001". Further, the value of the feature amount X1 is set to "x1_j", the value of the feature amount X2 is set to "x2_j", ..., And the value of the feature amount Xn is set to "xn_j". At this time, each coefficient "b0", "b1", "b2", ..., "Bn" of the above (formula 3) can be obtained by a determinant as shown below (formula 4) as an example. In the following (Formula 4), "j" indicates any entry of the alert entry "1" to "k" which is input data.
上記(数式3)による予測モデル式は、予測モデルの一例である。この予測モデル式の作成方法は一例であり、公知の正則化や決定木、アンサンブル学習、ニューラルネットワーク、ベイジアンネットワークなどの手法を用いて導出してもよい。アラート分類は、前述のように、“0”または“1”に設定される。分類の予測値は、“0”以上“1”以下の値として設定される。予測部401は、この予測値に基づいて分類度を判定し、これを専門家が参照できるようにしてよい。図11の説明を続ける。
The prediction model formula based on the above (formula 3) is an example of a prediction model. This method of creating a predictive model formula is an example, and may be derived using a known method such as regularization, decision tree, ensemble learning, neural network, Bayesian network, or the like. The alert classification is set to "0" or "1" as described above. The predicted value of classification is set as a value of "0" or more and "1" or less. The
予測部401は、前述の予測モデル式を用いて、入力データテーブル900の学習アラートとテストアラートに基づいて予測値と精度を算出する(S1107)。そして予測部401は、算出した予測値と制度を出力部404に送信する(S1108)。予測部401は、このアラートの特徴量“x1_j”、“x2_j”、…、“xn_j”を予測モデル式に与えることにより、予測値“y_j”を算出する。
The
予測部401は、人間による指定、または、所定のルールに基づいて予測閾値を決定する。予測閾値は、算出された予測値を、“0”および“1”のいずれかに分類する指標である。予測部401は、予測値が予測閾値より小さければ“0”を、閾値以上であれば“1”を判定する。予測部401は、入力データテーブル900の判断結果分類903を参照し、予測値の判定結果と照らし合わせて、予測が的中した精度を算出する。セキュリティ監視の場合は危険なアラートの見逃しを防ぎたいという観点から、“1”と予測分類したアラートの的中率が100%となるように予測閾値を調整し、その際に“0”と予測分類したアラートの的中率を精度としてもよい。
The
次に、説明変数評価部402は、図10の抽出方法1010における設定に従って、説明変数の評価を行う。説明変数評価部402は、まず、入力データテーブル900の各説明変数の項目、たとえば、プロキシサーバログ キャッシュミス回数961の値を参照し、説明変数の分散と、目的変数との相関度を算出し、説明変数評価テーブル1300に登録する(S1109)。
Next, the explanatory
図13は、説明変数評価テーブル1300の一例を示す説明図である。説明変数評価テーブル1300は、アラート分析装置135の所定の記憶領域に登録されている。説明変数評価テーブル1300は、説明変数名1301と、分散1302と、目的変数との相関度1303のフィールドを有する。説明変数名1301には、入力データテーブル900の各説明変数の名称が格納される。分散1302には、入力データテーブル900の各説明変数の項目、例えば、プロキシサーバログ キャッシュミス回数961の値を参照し、正規分布に従うことを仮定して、平均値と分散を算出することによって求めた値が格納される。
FIG. 13 is an explanatory diagram showing an example of the explanatory variable evaluation table 1300. The explanatory variable evaluation table 1300 is registered in a predetermined storage area of the
目的変数との相関度1303には、相関度評価テーブル1200を参照し、同名の説明変数名1201のうち相関度1203の絶対値が最大となる値が格納される。たとえば、説明変数名1301が“プロキシサーバ キャッシュミス回数”であるエントリは、分散1302が“54.2”で、目的変数との相関度1303が“-0.54”と算出される。
The
ただし、図10の閾値1020における無相関閾値1021の値以下となる相関度1203の値は、相関なしとして相関度=0とする。また、閾値1020におけるp閾値1022の値以上のp値1204を有する相関度の値は信頼度が低いため、相関度1203の値は同様に相関度=0とする。たとえば、説明変数名1301が“外部脅威情報 IPアドレス危険度”であるエントリは、上記の閾値との関係で目的変数との相関度1303が“0”と算出される。
However, the value of the
図11に戻る。説明変数評価部402は、説明変数評価テーブル1300の分散1302を参照して、分散がゼロである説明変数を抽出して、その説明変数名を出力部404に送信する(S1110)。分散がゼロであることは、その説明変数が変化することなく常に一定の値をとることを意味する。そのため、目的変数との相関はないことになる。
Return to FIG. The explanatory
説明変数評価部402は、次に、目的変数との相関度が閾値以下となる説明変数を抽出し(S1111)、抽出した説明変数の名を予測影響度評価部403に送信する(S1112)。説明変数評価部402は、説明変数評価テーブル1300の目的変数との相関度1303を参照し、相関度1303がゼロである説明変数を抽出する。閾値1020において無相関閾値1021の値以下を有する相関度1203の値は、既に相関度がゼロに設定されているため、相関度1203がゼロの説明変数を抽出することは、目的変数との相関度が閾値以下となる説明変数を抽出していることと同等である。
Next, the explanatory
次に、予測影響度評価部403は、S1112にて受信した説明変数名に対して、それを除外した際の予測影響度を算出し(S1113)、説明変数名と共に予測影響度を出力部404に送信する(S1114)。S1113において算出される予測影響度は、入力データテーブル900から、S1112で通知された説明変数を除外して、S1106、S1107に記載したものと同様の手段によって算出される予測精度である。そして説明変数評価部402は、説明変数間の相関度である相互相関度を算出し、相互相関度評価テーブル1400に登録する(S1115)。
Next, the predictive
図14は、相互相関度評価テーブル1400の一例を示す説明図である。相互相関度評価テーブル1400は、アラート分析装置135の所定の記憶領域に登録されている。相互相関度評価テーブル1400は、行方向1401と、列方向1402と、にそれぞれ説明変数名が列挙されたフィールドを有する。説明変数名の行方向1401と列方向1402は、それぞれ入力データテーブル900の各説明変数の名称が格納される。相互相関度評価テーブル1400の各セルには、説明変数同士の相関係数R2が登録される。例えば、相関係数R2は、説明変数Aの値αの標準偏差σαと、説明変数Bの値βの標準偏差σβと、説明変数Aの値αおよび説明変数Bの値βの共分散Sαβとを用いて下記の(数式5)で算出される。
FIG. 14 is an explanatory diagram showing an example of the cross-correlation degree evaluation table 1400. The cross-correlation degree evaluation table 1400 is registered in a predetermined storage area of the
R2=Sαβ/(σα×σβ)・・・(数式5) R2 = Sαβ / (σα × σβ) ... (Formula 5)
相互相関度評価テーブル1400では、例えば、説明変数名“プロキシサーバ キャッシュミス回数”と説明変数名“プロキシサーバ 異常応答回数”の相関係数は“0.87”である。 In the mutual correlation degree evaluation table 1400, for example, the correlation coefficient between the explanatory variable name “proxy server cache miss count” and the explanatory variable name “proxy server abnormal response count” is “0.87”.
図11に戻る。説明変数評価部402は、相互相関度評価テーブル1400を参照して、図10の閾値1020において、強相関閾値1023の値以上となる相互相関度の説明変数の組を抽出する。次に説明変数評価部402は、説明変数のグループを作成し、グループ内評価テーブル1500に登録する(S1116)。そして説明変数評価部402は、グループ内評価テーブル1500の内容を予測影響度評価部403に送信する(S1117)。
Return to FIG. The explanatory
図15は、説明変数のグループ内評価テーブル1500の一例を示す説明図である。グループ内評価テーブル1500は、アラート分析装置135の所定の記憶領域に登録されている。グループ内評価テーブル1500は、グループ1501と、説明変数名1502と、目的変数との相関度1503のフィールドを有する。グループ1501には、グループの名称、たとえば1からの連番の数字が格納される。説明変数名1502には、同一のグループに属する説明変数の名称、すなわち相互相関度評価テーブル1400の説明変数名1401、または、説明変数1402の値が格納される。目的変数との相関度1503には、それぞれの説明変数について目的変数との相関度が格納される。この値はたとえば、説明変数評価テーブル1300の、該当する説明変数名1301に対する目的変数との相関度1303の値である。
FIG. 15 is an explanatory diagram showing an example of the evaluation table 1500 in the group of explanatory variables. The in-group evaluation table 1500 is registered in a predetermined storage area of the
グループ内評価テーブル1500は、相互相関度評価テーブル1400を参照して、閾値1020における強い相関とする相互相関度の閾値1023以上となる相互相関度の説明変数の組を抽出することで作成される。たとえば、説明変数Aと説明変数B、説明変数Bと説明変数Cが抽出された場合、説明変数A、B、Cは1つのグループとなる。
The in-group evaluation table 1500 is created by referring to the cross-correlation evaluation table 1400 and extracting a set of explanatory variables of the cross-correlation degree having a cross-correlation degree threshold of 1023 or more, which is a strong correlation at the
図11に戻る。予測影響度評価部403は、グループ内評価テーブル1500を参照し、グループ1501ごとに、説明変数名1502を1つ選出して、グループ内のそれ以外を除外した際の予測影響度を算出し(S1118)、グループ内評価テーブル1500と共に予測影響度を出力部404に送信する(S1119)。予測影響度は、S1118においてグループ内で選出した1つ以外の説明変数を、入力データテーブル900から除外して、S1106、S1107に記載したものと同様の手段によって算出される予測精度である。
Return to FIG. The predictive
最後に、出力部404は、統合管理装置133の出力データ表示部304に対して、S1108、S1110、S1114、S1119にて受信した予測値と評価結果を送信する(S1120)。以上が図11の説明である。
Finally, the
図16は、統合管理装置133の出力画面表示の一例を示す説明図である。画面1600は、説明変数評価1601のタブにて、学習およびテストデータ予測結果1610と、除外候補変数および予測影響度1620と、を表示する。なお除外候補変数とは、前述のとおり予測モデル式から除外される候補となっている説明変数である。学習およびテストデータ予測結果1610は、アラート識別子に対する予測値の一覧1611と、データ種別1612ごとの予測精度1614とを表示する。予測精度1614は、図11のS1108にて通知された値である。
FIG. 16 is an explanatory diagram showing an example of an output screen display of the
除外候補変数および予測影響度1620は、分散=0となる説明変数1621と、目的変数との相関が閾値以下となる説明変数1630と、グループ化された説明変数1640と、の3つを表示する。この3つは、図10の抽出方法1010において設定する3つの抽出方法に対応しており、図10に示す例では3つの方法全てが選択されているので図16の例では3つとも表示されている。たとえば抽出方法1010において第2方法1012を選択しない、換言すると選択されていない場合には図16において、目的変数との相関が閾値以下となる説明変数1630が表示されない。
The exclusion candidate variable and the
分散=0となる説明変数1621は、図11のS1110で通知された説明変数名1622と、その説明変数を作成対象から除外した際の計算リソース削減量1623を表示する。計算リソース削減量1623には、図8の計算リソース量テーブル800の該当する説明変数名に対する算出に要した計算時間802の値を表示する。
The explanatory variable 1621 in which the variance = 0 displays the explanatory
目的変数との相関が閾値以下となる説明変数1630は、図11のS1114で通知される説明変数名1631と、予測影響度1632と、を表示する。計算リソース削減量1623には、図8の計算リソース量テーブル800の該当する説明変数名に対する算出に要した計算時間802の値を表示する。なお予測影響度1632の値は、精度を表しているともいえる。
The explanatory variable 1630 whose correlation with the objective variable is equal to or less than the threshold value displays the explanatory
グループ化された説明変数1640は、図11のS1119で通知されるグループ内評価テーブル1500の登録内容であるグループ1641と、説明変数名1642と、目的変数との相関度1643と、選出時の予測影響度1644と、選出時の計算リソース削減量1645とを表示する。選出時の予測影響度1644には、グループ内の1つの説明変数を選出時、すなわち、それ以外の説明変数を除外した際の予測影響度、換言すると精度を表示する。選出時の計算リソース削減量1645には、グループ内の1つの説明変数を選出時、すなわち、それ以外の説明変数を除外した際に、図8の計算リソース量テーブル800の該当する除外対象の説明変数名に対する算出に要した計算時間802の値の総和を表示する。
The grouped
専門家310は、画面1600を確認することで、作成対象から除外してよい説明変数名を知ることができ、また、その説明変数を除外した場合の予測影響度(精度)と計算リソース削減量を知ることができる。これによって、専門家310は、アラート重要度予測への影響がない、又は、少ない、作成対象から除外してもよい説明変数を知ることができる。これによって、専門家310は、説明変数の設定を見直すことができ、その結果、ログ統計を算出するための計算リソース消費量を削減する効果を見積もることができる。
By checking the
図17は、アラート分析装置135における予測影響度評価手順の一例を示すフローチャート図である。アラート分析装置135は処理を開始すると、入力データテーブル900のデータ種別902に“学習”が割り当てられているアラートのエントリを選択する。そしてアラート分析装置135は、それらのエントリから目的変数と説明変数に該当する項目を抽出し、目的変数と説明変数の出現頻度との相関度を算出する(S1701)。ただしアラート分析装置135は、より単純に目的変数と説明変数との相関度を算出してもよい。次にアラート分析装置135は、予測モデル式を作成し、入力データの学習アラートとテストアラートに基づいて予測モデル式を用いて予測値と精度を算出する(S1702)。
FIG. 17 is a flowchart showing an example of the predicted impact degree evaluation procedure in the
アラート分析装置135は、図10の抽出方法1010を参照し、第1方法1011が選択されているか否かを判断する(S1703)。第1方法1011が選択されている場合はアラート分析装置135は、入力データテーブル900の各説明変数の分散を算出し、値が0である説明変数を抽出し(S1704)、S1705に進む。第1方法1011が選択されていない場合は、そのままS1705に進む。
The
次に、アラート分析装置135は、抽出方法1010を参照し、第2方法1012が選択されているか否かを判断する(S1705)。第2方法1012が選択されている場合はアラート分析装置135は、S1701で算出した目的変数との相関度が無相関閾値1021の値以下となる説明変数を抽出する(S1706)。アラート分析装置135は、S1706で抽出した説明変数を作成対象から除外した際の予測影響度を、S1702と同様の手順で算出し(S1707)、S1708に進む。第2方法1012が選択されていない場合は、そのままS1708に進む。
Next, the
次に、アラート分析装置135は、抽出方法1010を参照し、第3方法1013が選択されているか否かを判断する(S1708)。第3方法1013が選択されている場合はアラート分析装置135は、入力データテーブル900の説明変数間の相関度、すなわち相互相関度を算出する(S1709)。そしてアラート分析装置135は、相互相関度が強相関閾値1023の値以上となる説明変数同士でグループを作成する(S1710)。
Next, the
アラート分析装置135は、作成したグループごとに、説明変数を1つ選出し、それ以外の説明変数を除外した際の予測影響度を、S1702と同様の手順で算出し(S1711)、S1712に進む。第3方法1013が選択されていない場合は、そのままS1712に進む。最後に、アラート分析装置135は、出力画面表示1600に必要な情報を統合管理装置133に送信して、処理を終了する(S1712)。
The
上述した第1の実施の形態によれば、次の作用効果が得られる。
(1)分析システム1は、事象に関する情報を用いて複数の説明変数を作成し、複数の説明変数および事象の結果を含む入力データを作成する入力データ作成部303と、複数の説明変数を用いて事象の結果である目的変数の値を予測する予測モデル式を作成する予測部401と、予測モデル式に用いる必要がない説明変数の候補である除外候補変数を算出する説明変数評価部402と、除外候補変数を出力する出力部404と、を備える。そのため分析システム1は、予測モデル式に用いない説明変数を人間が決定する補助ができる。このことはさらに、説明変数の作成数を削減することに貢献し、その結果、ログ統計を算出するための計算リソース消費量を削減することに貢献することができるとも言える。
According to the first embodiment described above, the following effects can be obtained.
(1) The
(2)説明変数評価部402は、分散がゼロである説明変数を算出する。分散がゼロの説明変数は目的変数との相関が全くないので、予測モデル式に用いない説明変数として最も適している。そのため分散がゼロである説明変数を出力することは、予測モデル式に用いない説明変数の判断に有益である。
(2) The explanatory
(3)説明変数評価部402は、目的変数との相関度が所定の閾値以下である説明変数を算出する。目的変数との相関度が低い説明変数は予測モデル式に用いない説明変数として適している。そのため目的変数との相関度が所定の閾値以下である説明変数を出力することは、予測モデル式に用いない説明変数の判断に有益である。
(3) The explanatory
(4)分析システム1は、除外候補変数を用いない場合の予測モデル式の精度に関する情報、すなわち図16の予測影響度1632を算出する予測影響度評価部403を備える。出力部404は、この予測影響度1632を出力する。そのため、専門家が予測影響度1632の値を見て、除外候補変数を予測モデル式に用いるか否かの判断の参考にできる。
(4) The
(5)出力部404は、除外候補変数を用いる予測モデル式に対する除外候補変数を用いない予測モデル式が削減できる計算リソース量を、図16の符号1623、1633、および1645に示すように出力する。そのため、予測モデル式に用いない説明変数を決定する補助的な情報として有用である。
(5) The
(6)説明変数評価部402は、1または複数の抽出方法を用いて予測モデル式に用いる必要がない説明変数の候補である除外候補変数を抽出し、出力部404は、抽出方法の識別情報を出力する。そのため出力部404の出力を見た専門家は、複数の抽出方法を用いて除外候補変数を抽出した場合に、抽出方法と除外候補変数との対応を知ることができる。
(6) The explanatory
(7)説明変数評価部402は、説明変数同士の相関度に基づきグループを作成し、グループごとにグループに含まれるいずれか1つの説明変数以外を予測モデル式に用いない場合の予測モデル式の精度に関する情報である、図16に示す選出時の予測影響度1644を算出し、出力部404がこれを出力する。そのため相関が高いグループでの判断の参考にできる。
(7) The explanatory
(変形例1)
出力部404は、除外候補変数だけを出力してもよい。具体的には、図16に示す例において学習およびテストデータ予測結果1610を一切表示せず、除外候補変数および予測影響度1620における説明変数名1622、説明変数名1631、および説明変数名1642だけを出力してもよい。さらにそれぞれの項目名も表示しなくてもよい。前述のように、図16に示す表示例は図10に示す設定と連動しているので、たとえば図10の抽出方法1010において第1方法1011のみが選択されている場合には、図16において分散がゼロである説明変数である説明変数名1622のみが表示される。すなわち出力部404の出力として、画面1600に「外部脅威情報 URL危険度」とのみ表示される場合もある。
(Modification 1)
The
(変形例2)
予測影響度評価部403は、予測影響度の代わりに学習アラートまたはテストアラートを用いて算出した精度を出力してもよい。この場合には、図16における予測影響度1632および選出時の予測影響度1644の代わりに、学習アラートまたはテストアラートを用いて算出した精度が表示される。この場合には専門家は、予測影響度1632および選出時の予測影響度1644の代わりに表示される精度と、図16における精度1614に示される値と、を比較することで予測影響度と同様の情報が得られる。
(Modification 2)
The predictive
(変形例3)
上述した第1の実施の形態では、予測モデル式に用いる必要がない説明変数の候補を提示した。しかし分析システム1は、所定の方針に従って予測モデル式を変更してもよい。たとえば分析システム1は、分散がゼロとなる説明変数を用いない予測モデル式に変更してもよい。
(Modification 3)
In the first embodiment described above, candidate explanatory variables that do not need to be used in the prediction model formula are presented. However, the
この変形例3によれば、あらかじめ定めた範囲で予測モデル式を自動で更新できる。専門家ではない人が分析システム1の出力を見る場合や、専門家による判断を削減したい場合に特に有効である。
According to this
(変形例4)
出力部404は、画面1600への出力において、出力の形式を揃えるために、分散=0となる説明変数1621に予測影響度もあわせて出力してもよい。分散がゼロの説明変数は目的変数への影響がないので、この場合に出力される予測影響度は「100%」である。
(Modification example 4)
In the output to the
(変形例5)
上述した実施の形態では、分析システム1は図10に示したインタフェースを用いて専門家、すなわち人間から指定された抽出方法、および閾値を用いた処理を行った。しかし抽出方法および閾値の少なくとも一方はあらかじめ定められていてもよい。たとえば抽出方法および閾値の全てがあらかじめ定められ、設定1001のタブが存在しなくてもよい。
(Modification 5)
In the above-described embodiment, the
―第2の実施の形態―
図18~図19を参照して、分析システムの第2の実施の形態を説明する。以下の説明では、第1の実施の形態と同じ構成要素には同じ符号を付して相違点を主に説明する。特に説明しない点については、第1の実施の形態と同じである。本実施の形態では、主に、アラート分析装置の設置位置が変更され統合管理装置の機能も兼ねる点で、第1の実施の形態と異なる。
-Second embodiment-
A second embodiment of the analysis system will be described with reference to FIGS. 18-19. In the following description, the same components as those in the first embodiment are designated by the same reference numerals, and the differences will be mainly described. The points not particularly described are the same as those in the first embodiment. This embodiment is different from the first embodiment in that the installation position of the alert analysis device is changed and the function of the integrated management device is also used.
図18は、第2の実施の形態における分析システム1Aの構成を示す図である。分析システム1Aは、SOC130Aである。SOC130Aは、アラート管理装置131と、ログ管理装置132と、アラート分析装置1801と、第2ネットワーク134と、を備える。アラート管理装置131、ログ管理装置132、および第2ネットワーク134の構成および機能は第1の実施の形態と同様なので説明を省略する。アラート分析装置1801は、第1の実施の形態における統合管理装置133およびアラート分析装置135の機能を兼ね備える。
FIG. 18 is a diagram showing the configuration of the
図19は、第2の実施の形態におけるアラート分析装置1801の機能的構成例を示すブロック図である。アラート分析装置1801は、アラート収集部301と、ログ収集部302と、入力データ作成部303と、出力データ表示部304と、予測部401と、説明変数評価部402と、予測影響度評価部403と、出力部404と、を有する。すなわち図19には、第1の実施の形態における図3に示す構成と図4に示す構成とが含まれる。アラート収集部301、ログ収集部302、入力データ作成部303、出力データ表示部304、予測部401、説明変数評価部402、予測影響度評価部403、および出力部404の動作は第1の実施の形態において説明したとおりなので説明を省略する。
FIG. 19 is a block diagram showing a functional configuration example of the
以上説明した第2の実施の形態では、第1の実施の形態と同様の作用効果が得られる。 In the second embodiment described above, the same effects as those in the first embodiment can be obtained.
上記開示は、代表的実施形態に関して記述されているが、当業者は、開示される主題の趣旨や範囲を逸脱することなく、形式及び細部において、様々な変更や修正が可能であることを理解するであろう。 Although the above disclosure is described for a representative embodiment, one of ordinary skill in the art understands that various changes and modifications can be made in form and detail without departing from the spirit or scope of the disclosed subject matter. Will do.
例えば、外部脅威情報データベース136は、故障情報データベースや、これらを含む外部情報データベースであってもよいし、アラートの危険度は、これを含むアラートの重要度であってもよいし、セキュリティオペレーションセンタ(SOC)は、セキュリティだけでなく、故障などより広い範囲のアラートにも対応するオペレーションセンタであってもよい。
For example, the external
なお、本発明は前述した実施形態に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例および同等の構成が含まれる。例えばまた、前述した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えてもよい。また、ある実施形態の構成に他の実施形態の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。 It should be noted that the present invention is not limited to the above-described embodiment, and includes various modifications and equivalent configurations within the scope of the attached claims. For example, the above-described embodiments have been described in detail in order to explain the present invention in an easy-to-understand manner, and the present invention is not necessarily limited to those having all the described configurations. Further, a part of the configuration of one embodiment may be replaced with the configuration of another embodiment. Further, the configuration of another embodiment may be added to the configuration of one embodiment. In addition, other configurations may be added, deleted, or replaced with respect to a part of the configurations of each embodiment.
上述した各実施の形態および変形例において、機能ブロックの構成は一例に過ぎない。別々の機能ブロックとして示したいくつかの機能構成を一体に構成してもよいし、1つの機能ブロック図で表した構成を2以上の機能に分割してもよい。また各機能ブロックが有する機能の一部を他の機能ブロックが備える構成としてもよい。 In each of the above-described embodiments and modifications, the configuration of the functional block is only an example. Several functional configurations shown as separate functional blocks may be integrally configured, or the configuration represented by one functional block diagram may be divided into two or more functions. Further, a configuration in which a part of the functions of each functional block is provided in another functional block may be provided.
上述した各実施の形態および変形例は、それぞれ組み合わせてもよい。上記では、種々の実施の形態および変形例を説明したが、本発明はこれらの内容に限定されるものではない。本発明の技術的思想の範囲内で考えられるその他の態様も本発明の範囲内に含まれる。 Each of the above-described embodiments and modifications may be combined. Although various embodiments and modifications have been described above, the present invention is not limited to these contents. Other aspects considered within the scope of the technical idea of the present invention are also included within the scope of the present invention.
1 … 分析システム
100a … 監視対象システム
133 … 統合管理装置
135 … アラート分析装置
301 … アラート収集部
302 … ログ収集部
303 … 入力データ作成部
304 … 出力データ表示部
401 … 予測部
402 … 説明変数評価部
403 … 予測影響度評価部
404 … 出力部
1 ...
Claims (9)
前記複数の説明変数を用いて前記事象の結果である目的変数の値を予測する予測モデル式を作成する予測部と、
前記予測モデル式に用いる必要がない前記説明変数の候補である除外候補変数を算出する説明変数評価部と、
前記除外候補変数を出力する出力部と、を備える分析システム。 An input data creation unit that creates a plurality of explanatory variables using information about an event and creates input data including the plurality of explanatory variables and the result of the event.
A prediction unit that creates a prediction model formula that predicts the value of the objective variable that is the result of the event using the plurality of explanatory variables.
An explanatory variable evaluation unit that calculates exclusion candidate variables that are candidates for the explanatory variables that do not need to be used in the prediction model formula.
An analysis system including an output unit that outputs the exclusion candidate variable.
前記説明変数評価部は、分散がゼロである前記説明変数を算出する、分析システム。 In the analysis system according to claim 1,
The explanatory variable evaluation unit is an analysis system that calculates the explanatory variables having a variance of zero.
前記説明変数評価部は、前記目的変数との相関度が所定の閾値以下である前記説明変数を算出する、分析システム。 In the analysis system according to claim 1,
The explanatory variable evaluation unit is an analysis system that calculates the explanatory variables whose degree of correlation with the objective variable is equal to or less than a predetermined threshold value.
前記除外候補変数を用いない場合の前記予測モデル式の精度に関する情報である予測影響情報を算出する予測影響度評価部をさらに備え、
前記出力部は、前記予測影響情報をさらに出力する分析システム。 In the analysis system according to claim 1,
Further provided with a predictive impact evaluation unit for calculating predictive impact information, which is information on the accuracy of the predictive model formula when the exclusion candidate variable is not used.
The output unit is an analysis system that further outputs the predicted effect information.
前記出力部は、前記除外候補変数を用いる前記予測モデル式に対する前記除外候補変数を用いない前記予測モデル式が削減できる計算リソース量をさらに出力する分析システム。 In the analysis system according to claim 1,
The output unit is an analysis system that further outputs the amount of calculation resources that can be reduced by the prediction model formula that does not use the exclusion candidate variable with respect to the prediction model formula that uses the exclusion candidate variable.
前記説明変数評価部は、1または複数の抽出方法を用いて前記予測モデル式に用いる必要がない前記説明変数の候補である除外候補変数を抽出し、
前記出力部は、前記抽出方法の識別情報をさらに出力する分析システム。 In the analysis system according to claim 1,
The explanatory variable evaluation unit uses one or a plurality of extraction methods to extract exclusion candidate variables that are candidates for the explanatory variables that do not need to be used in the prediction model formula.
The output unit is an analysis system that further outputs the identification information of the extraction method.
前記説明変数評価部は、前記説明変数同士の相関度に基づきグループを作成し、前記グループごとに前記グループに含まれるいずれか1つの前記説明変数以外を前記予測モデル式に用いない場合の前記予測モデル式の精度に関する情報である予測影響情報を算出し、
前記出力部は、前記予測影響情報をさらに出力する分析システム。 In the analysis system according to claim 1,
The explanatory variable evaluation unit creates a group based on the degree of correlation between the explanatory variables, and predicts the case where only one of the explanatory variables included in the group is used in the prediction model formula for each group. Calculate predictive impact information, which is information about the accuracy of the model formula,
The output unit is an analysis system that further outputs the predicted effect information.
前記複数の説明変数を用いて前記事象の結果である目的変数の値を予測する予測モデル式を作成する予測部と、
前記予測モデル式に用いる必要がない前記説明変数の候補である除外候補変数を算出する説明変数評価部と、
前記除外候補変数を出力する出力部と、を備える分析装置。 An input data creation unit that creates a plurality of explanatory variables using information about an event and creates input data including the plurality of explanatory variables and the result of the event.
A prediction unit that creates a prediction model formula that predicts the value of the objective variable that is the result of the event using the plurality of explanatory variables.
An explanatory variable evaluation unit that calculates exclusion candidate variables that are candidates for the explanatory variables that do not need to be used in the prediction model formula.
An analyzer including an output unit for outputting the exclusion candidate variable.
事象に関する情報を用いて複数の説明変数を作成し、前記複数の説明変数および前記事象の結果を含む入力データを作成することと、
前記複数の説明変数を用いて前記事象の結果である目的変数の値を予測する予測モデル式を作成することと、
前記予測モデル式に用いる必要がない前記説明変数の候補である除外候補変数を算出することと、
前記除外候補変数を出力することとを含む、分析方法。
An analytical method performed by an analyzer,
Creating a plurality of explanatory variables using information about an event, and creating input data including the plurality of explanatory variables and the result of the event.
Creating a prediction model formula that predicts the value of the objective variable that is the result of the event using the plurality of explanatory variables.
To calculate exclusion candidate variables that are candidates for the explanatory variables that do not need to be used in the prediction model formula,
An analysis method comprising outputting the exclusion candidate variable.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020120726A JP2022024277A (en) | 2020-07-14 | 2020-07-14 | Analysis system, analysis device, and analysis method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020120726A JP2022024277A (en) | 2020-07-14 | 2020-07-14 | Analysis system, analysis device, and analysis method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022024277A true JP2022024277A (en) | 2022-02-09 |
Family
ID=80265360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020120726A Pending JP2022024277A (en) | 2020-07-14 | 2020-07-14 | Analysis system, analysis device, and analysis method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022024277A (en) |
-
2020
- 2020-07-14 JP JP2020120726A patent/JP2022024277A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11336669B2 (en) | Artificial intelligence cyber security analyst | |
US20220124108A1 (en) | System and method for monitoring security attack chains | |
Shen et al. | {ATTACK2VEC}: Leveraging temporal word embeddings to understand the evolution of cyberattacks | |
Ye et al. | Robustness of the Markov-chain model for cyber-attack detection | |
US10078317B2 (en) | Method, device and computer program for monitoring an industrial control system | |
Fava et al. | Projecting cyberattacks through variable-length markov models | |
US9369484B1 (en) | Dynamic security hardening of security critical functions | |
WO2018126226A1 (en) | Monitoring network security using machine learning | |
Tianfield | Cyber security situational awareness | |
US11734431B2 (en) | Method and system for assessing effectiveness of cybersecurity controls in an OT environment | |
Dalmazo et al. | Expedite feature extraction for enhanced cloud anomaly detection | |
CN115001934A (en) | Industrial control safety risk analysis system and method | |
Elfeshawy et al. | Divided two-part adaptive intrusion detection system | |
Nelub et al. | Economic analysis of data protection in systems with complex architecture using neural network methods. | |
CN117478433B (en) | Network and information security dynamic early warning system | |
Qassim et al. | Strategy to Reduce False Alarms in Intrusion Detection and Prevention Systems. | |
Bezas et al. | Comparative analysis of open source security information & event management systems (SIEMs) | |
Fessi et al. | A decisional framework system for computer network intrusion detection | |
US11575702B2 (en) | Systems, devices, and methods for observing and/or securing data access to a computer network | |
Al-Sanjary et al. | Challenges on digital cyber-security and network forensics: a survey | |
JP2022024277A (en) | Analysis system, analysis device, and analysis method | |
Ehis | Optimization of Security Information and Event Management (SIEM) Infrastructures, and Events Correlation/Regression Analysis for Optimal Cyber Security Posture | |
WO2020255512A1 (en) | Monitoring system and monitoring method | |
Zhang et al. | Overview and Recommendations for Cyber Risk Assessment in Nuclear Power Plants | |
Kostadinov et al. | Reducing the number of incidents in converged IT infrastructure using correlation approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240221 |