JP2024012087A

JP2024012087A - 機械学習モデルのデータ管理システム及びデータ管理方法

Info

Publication number: JP2024012087A
Application number: JP2023083326A
Authority: JP
Inventors: いつみ土屋; Itsumi Tsuchiya; 聡一高重; Soichi Takashige; 達広松井; Tatsuhiro Matsui
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2022-07-14
Filing date: 2023-05-19
Publication date: 2024-01-25

Abstract

【課題】
機械学習モデルのデータ管理において、不要なデータの削除を効率的に運用する。
【解決手段】
機械学習モデルのデータ管理システム１において、フラグ管理情報（フラグ重要度管理テーブル３２）は、ライフサイクルに含まれる複数の処理のうちの１以上の所定の処理について、各処理に対応して定義されたフラグを管理し、運用部２７は、モデルの運用時の所定の処理への関与に応じて、当該モデルの入力データ及び出力データに、フラグ管理情報に定義されたフラグを付与し、データ管理部２５は、それぞれの入力データ及び出力データについて、運用部２７によって当該データに付与されたフラグに基づいて、当該データの保存の要否を判定する。
【選択図】図１

Description

本発明は、機械学習モデルのデータ管理システム及びデータ管理方法に関し、機械学習のライフサイクルに合わせて機械学習の入出力データの要否の判定を支援する機械学習モデルの実績データ管理システム及び実績データ管理方法に適用して好適なものである。

機械学習では、モデルの精度を維持または向上するために、推論及び評価を含むライフサイクルを繰り返すことが効果的である。この際、推論時のデータを蓄積し、蓄積したデータを監視及び分析することが必要となり、それらの機能を提供する基盤への要求が高まっている。

機械学習のライフサイクルに関して、例えば特許文献１には、入力データから生成されたモデルの学習を繰り返し、確度の高いモデルに差し替えていくことを支援する、機械学習を用いた運用支援システムが開示されている。

特開２０２１－６０９４０号公報

しかし、上記した従来技術では、機械学習のモデルにおける入力データ及び出力データについて、以降の機械学習において必要なデータであるか否かを考慮した運用が考案されていない。その結果、ライフサイクルを回していくと、データが蓄積される一方となり、システムのランニングコストが高くなっていくという問題があった。

本発明は以上の点を考慮してなされたもので、不要なデータの削除を効率的に運用することが可能な機械学習モデルのデータ管理システム及びデータ管理方法を提案しようとするものである。

かかる課題を解決するため本発明においては、機械学習のライフサイクルに沿ってモデルを運用しながら、前記モデル及びその関連データを管理する機械学習モデルのデータ管理システムであって、前記ライフサイクルに含まれる複数の処理のうちの１以上の所定の処理について、各処理に対応して定義されたフラグを管理するフラグ管理情報と、前記ライフサイクルに沿ってモデルを運用する運用部と、前記モデルの入力データ及び出力データを管理するデータ管理部と、を備え、前記運用部は、前記モデルの運用時の前記所定の処理への関与に応じて、当該モデルの入力データ及び出力データに、前記フラグ管理情報に定義されたフラグを付与し、前記データ管理部は、それぞれの前記入力データ及び前記出力データについて、前記運用部によって当該データに付与されたフラグに基づいて、当該データの保存の要否を判定することを特徴とする機械学習モデルのデータ管理システムが提供される。

また、かかる課題を解決するため本発明においては、機械学習のライフサイクルに沿ってモデルを運用しながら、前記モデル及びその関連データを管理する機械学習モデルのデータ管理システムによるデータ管理方法であって、前記データ管理システムは、前記ライフサイクルに含まれる複数の処理のうちの１以上の所定の処理について、各処理に対応して定義されたフラグを管理するフラグ管理情報と、前記ライフサイクルに沿ってモデルを運用する運用部と、前記モデルの入力データ及び出力データを管理するデータ管理部と、を有し、前記運用部が、前記モデルの運用時の前記所定の処理への関与に応じて、当該モデルの入力データ及び出力データに、前記フラグ管理情報に定義されたフラグを付与する運用ステップと、前記データ管理部が、それぞれの前記入力データ及び前記出力データについて、前記運用ステップで当該データに付与されたフラグに基づいて、当該データの保存の要否を判定する要否判定ステップと、を備えることを特徴とする機械学習モデルのデータ管理方法が提供される。

本発明によれば、機械学習モデルのデータ管理において、不要なデータの削除を効率的に運用することができる。

本発明の一実施形態に係るデータ管理システム１の構成例を示すブロック図である。データ管理テーブル３１の一例を示す図である。フラグ重要度管理テーブル３２の一例を示す図である。再学習見込み管理テーブル３３の一例を示す図である。再学習見込み履歴管理テーブル３４の一例を示す図である。監視画面管理テーブル３５の一例を示す図である。監視画面履歴管理テーブル３６の一例を示す図である。学習処理管理テーブル３７の一例を示す図である。評価処理管理テーブル３８の一例を示す図である。全体処理の処理手順例を示すフローチャートである。データ入力処理の処理手順例を示すフローチャートである。学習処理の処理手順例を示すフローチャートである。監視画面１１０の一例を示す図である。再学習画面１２０の一例を示す図である。評価処理の処理手順例を示すフローチャートである。評価画面１３０の一例を示す図である。モデル更新処理の処理手順例を示すフローチャートである。データ管理処理の処理手順例を示すフローチャートである。結果表示処理の処理手順例を示すフローチャートである。データ管理結果画面１４０の一例を示す図である。データ管理システム１の変形例であるデータ管理システム１Ａの構成例を示すブロック図である。データ管理テーブル３１Ａの一例を示す図である。フラグ重要度管理テーブル３２Ａの一例を示す図である。インシデント管理テーブル５１の一例を示す図である。誤報管理テーブル５２の一例を示す図である。インシデント収集処理の処理手順例を示すフローチャートである。インシデント評価処理の処理手順例を示すフローチャートである。

以下、図面を参照して、本発明の実施形態を詳述する。

なお、以下の記載及び図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略及び簡略化がなされている。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。本発明が実施形態に制限されることは無く、本発明の思想に合致するあらゆる応用例が本発明の技術的範囲に含まれる。本発明は、当業者であれば本発明の範囲内で様々な追加や変更等を行うことができる。本発明は、他の種々の形態でも実施する事が可能である。特に限定しない限り、各構成要素は複数でも単数でも構わない。

以下の説明では、「テーブル」、「表」、「リスト」、「キュー」等の表現にて各種情報を説明することがあるが、各種情報は、これら以外のデータ構造で表現されていてもよい。データ構造に依存しないことを示すために「ＸＸテーブル」、「ＸＸリスト」等を「ＸＸ情報」と呼ぶことがある。各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「ＩＤ」、「番号」等の表現を用いるが、これらについてはお互いに置換が可能である。

また、以下の説明では、プログラムを実行して行う処理を説明する場合があるが、プログラムは、少なくとも１以上のプロセッサ（例えばＣＰＵ）によって実行されることで、定められた処理を、適宜に記憶資源（例えばメモリ）及び／又はインターフェースデバイス（例えば通信ポート）等を用いながら行うため、処理の主体がプロセッサとされてもよい。同様に、プログラムを実行して行う処理の主体が、プロセッサを有するコントローラ、装置、システム、計算機、ノード、ストレージシステム、ストレージ装置、サーバ、管理計算機、クライアント、又は、ホストであってもよい。プログラムを実行して行う処理の主体（例えばプロセッサ）は、処理の一部又は全部を行うハードウェア回路を含んでもよい。例えば、プログラムを実行して行う処理の主体は、暗号化及び復号化、又は圧縮及び伸張を実行するハードウェア回路を含んでもよい。プロセッサは、プログラムに従って動作することによって、所定の機能を実現する機能部として動作する。プロセッサを含む装置及びシステムは、これらの機能部を含む装置及びシステムである。

プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバ又は計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサ（例えばＣＰＵ）と記憶資源を含み、記憶資源はさらに配布プログラムと配布対象であるプログラムとを記憶してよい。そして、プログラム配布サーバのプロセッサが配布プログラムを実行することで、プログラム配布サーバのプロセッサは配布対象のプログラムを他の計算機に配布してよい。また、以下の説明において、２以上のプログラムが１つのプログラムとして実現されてもよいし、１つのプログラムが２以上のプログラムとして実現されてもよい。

（１）システム構成
図１は、本発明の一実施形態に係るデータ管理システム１の構成例を示すブロック図である。データ管理システム１は、ＣＰＵ１０、主記憶装置２０、及び補助記憶装置３０を有して構成される計算機である。図１の場合、データ管理システム１の外部にネットワーク４を介して入力装置２及び表示装置３が接続されているが、入力装置２及び表示装置３は、データ管理システム１の内部構成であってもよい。

ＣＰＵ１０はプロセッサの一例であり、ＣＰＵ（Central Processing Unit）に限定されるものではなく、ＧＰＵ（Graphics Processing Unit）等であってもよい。

主記憶装置２０は、ＤＲＡＭ（Dynamic RAM）等のメモリであって、プログラム及びデータを記憶する。図１には、主記憶装置２０が、データ入力部２１、学習処理部２２、評価処理部２３、モデル更新処理部２４、データ管理部２５、及び情報表示部２６を有する構成を示しているが、これらの各機能部２１～２６は、ＣＰＵ１０が主記憶装置２０（メモリ）にプログラムを読み出して実行することにより、各機能が実現される。プログラム本体は、主記憶装置２０または補助記憶装置３０等に格納される。各機能部２１～２６が提供する機能（プログラムが実行する処理）の詳細は、図面を参照しながら後述する。なお、上記の機能部２１～２４は、機械学習のライフサイクルに沿ってモデルを運用する機能を有することから、これらをまとめて運用部２７と称する。

補助記憶装置３０は、データ及びプログラムを記憶する記憶装置であって、具体的にはＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等であるが、これらに限定されるものではなく、クラウド等を利用してもよい。図１によれば、補助記憶装置３０には、データ管理テーブル３１、フラグ重要度管理テーブル３２、再学習見込み管理テーブル３３、再学習見込み履歴管理テーブル３４、監視画面管理テーブル３５、監視画面履歴管理テーブル３６、学習処理管理テーブル３７、及び評価処理管理テーブル３８が格納されている。各管理テーブル３１～３８の詳細は、図面を参照しながら後述する。また、補助記憶装置３０は、不図示のモデル記憶部において、データ管理システム１が使用するモデルを格納する。

入力装置２は、ユーザが操作する入力デバイスであって、具体的には例えば、マウスまたはキーボード等である。

表示装置３は、ユーザが使用する出力デバイスであって、具体的には例えば、ディスプレイである。表示装置３は、情報表示部２６によって生成される各種の表示画面（後述する監視画面１１０、再学習画面１２０、評価画面１３０、及びデータ管理結果画面１４０）を表示する。なお、本実施形態におけるデータ管理システム１からの情報の出力形式は表示に限定されるものではなく、記録媒体へのデータ出力、または印刷など、一般的に知られた様々な出力形式を採用可能である。

（２）データ構成
以下では、補助記憶装置３０が保持する各種の管理テーブル３１～３８について、具体例を示しながら詳しく説明する。

（２－１）データ管理テーブル３１
図２は、データ管理テーブル３１の一例を示す図である。データ管理テーブル３１は、機械学習のモデルにおける入出力データを管理する情報である。図２に示すデータ管理テーブル３１は、データＩＤ３１１、日付３１２、データ３１３、データ種別３１４、モデルバージョン（モデルＶｅｒ．）３１５、重要度３１６、及び削除推奨３１７の項目を有して構成され、データＩＤ３１１が主キーとなる。

データＩＤ３１１は、当該レコードで管理する入出力データ（以後の図２の説明においては「当該データ」と称する）を識別可能な識別子であり、データ管理システム１が保持しているデータごとに異なるＩＤが採番される。日付３１２は、当該データが生成された日付を示す（日時を示すものであってもよい）。データ３１３は、実測値等の当該データそのものを示す。データ種別３１４は、当該データの種別を示し、具体的には、当該データが入力データである場合は「入力」、当該データが出力データである場合は「出力」とする。モデルバージョン３１５は、当該データが入力または出力されたモデルのバージョンを示す。

重要度３１６は、当該データに付与されたフラグに基づいて、データ管理システム１が保持するデータとしての重要度を示す。保持するデータとして重要であるものは大きな数値が登録され、重要ではないものは小さな数値が登録される。本実施形態に係るデータ管理システム１では、個々の入出力データは、機械学習のライフサイクルを回すなかで当該データが関与し得る処理に応じて（すなわち、データがどのような処理に使用されたか、またはどのような処理に使用され得るかによって）、当該処理に対応するフラグ（フラグＩＤ）が付与される。後述する図３のフラグ重要度管理テーブル３２に示すように、各フラグ（フラグＩＤ３２１）には重要度３２３が対応づけられており、重要度３１６に登録される値は、当該データに付与されているフラグの重要度３２３に基づいて算出される。具体的には例えば、当該データに付与されているすべてのフラグの重要度３２３を加算して重要度３１６としてもよいし、他にも例えば、当該データに付与されているフラグの重要度３２３のうちで最も値が大きい重要度３２３を選択して重要度３１６とする等としてもよい。

削除推奨３１７は、当該データの削除を推奨するか否かの評価値を示す。削除推奨３１７に格納する評価値は、当該データの重要度３１６に基づいて決定されるが、その決定方法は特段の方法に限定されない。本例では、当該データの重要度３１６が所定の閾値以下の場合は、当該データの削除を推奨することを意味する「１」を、当該データの重要度３１６が所定の閾値を超える場合は、当該データの削除を推奨しないことを意味する「０」を格納する。決定方法のバリエーションとして、複数段階の閾値を設け、削除推奨のレベル（評価値）を複数段階で算出する等としてもよい。

上記したデータ管理テーブル３１の各項目の値は、データ入力処理（図１０のステップＳ１）、評価処理（図１０のステップＳ３）、及びデータ管理処理（図１０のステップＳ５）の実行中に、適宜、レコード単位で登録または更新される。

（２－２）フラグ重要度管理テーブル３２
図３は、フラグ重要度管理テーブル３２の一例を示す図である。フラグ重要度管理テーブル３２は、フラグの重要度を管理する情報である。図２の重要度３１６において説明したように、フラグは、機械学習のライフサイクルを回すなかで、入出力データが関与し得る処理に応じて各入出力データに付与される。したがって、１つの入力データまたは出力データには、複数のフラグが付与され得る。図３に示すフラグ重要度管理テーブル３２は、フラグＩＤ３２１、フラグ種別３２２、及び重要度３２３の項目を有して構成され、フラグＩＤ３２１が主キーとなる。

フラグＩＤ３２１は、当該レコードで管理するフラグ（以後の図３の説明においては「当該フラグ」と称する）を識別可能な識別子であって、フラグごとに異なるＩＤが採番される。フラグ種別３２２は、当該フラグの名称を示す。図３の場合、フラグ種別３２２の値には、当該フラグを付与する入出力データが関与する（または関与し得る）処理または結果表示画面の名称が使用されているが、関与する処理または結果表示画面について複数段階に分けてフラグを設定するようにしてもよい。

重要度３２３は、当該フラグを付与したデータをデータ管理システム１で維持する（すなわち、削除しない）ことに対する優先度を示す。重要度３２３が大きいほど重要なフラグとなり、当該フラグが付与された入出力データをデータ管理システム１で維持すべきである（削除すべきではない）ことを意味する。

上記したフラグ重要度管理テーブル３２の各項目の値は、レコード単位で事前に登録される。さらに、フラグ重要度管理テーブル３２は、各項目の登録後も、必要に応じて、重要度３２３の変更、及びフラグ（レコード）の追加または削除等を行うことができる。また、フラグ重要度管理テーブル３２で管理するフラグの種類は、上記例に限定されるものではない。

（２－３）再学習見込み管理テーブル３３
図４は、再学習見込み管理テーブル３３の一例を示す図である。再学習見込み管理テーブル３３は、今後も学習処理（図１０のステップＳ２）を実施する可能性があるデータ（再学習の見込みがあるデータ）を管理する情報である。本実施形態では、ある入力データを使用してモデルから出力データを生成したときに、出力データが異常検知された場合、または入力データの希少度が高い場合に、当該入力データを再学習の見込みがあるデータと判断する。図４に示す再学習見込み管理テーブル３３は、再学習見込みＩＤ３３１、フラグＩＤ３３２、データＩＤ３３３、及び登録日時３３４の項目を有して構成され、再学習見込みＩＤ３３１が主キーとなる。

再学習見込みＩＤ３３１は、当該レコードで管理するデータを識別可能な識別子であり、再学習の見込みがあるデータごとに異なるＩＤが採番される。フラグＩＤ３３２は、図３のフラグ重要度管理テーブル３２のフラグＩＤ３２１に基づいて、再学習見込みに関するフラグのＩＤを示す。具体的には、図３のフラグ重要度管理テーブル３２においてフラグ種別３２２が「再学習見込み」であるレコードのフラグＩＤ３２１は「Ｆ０００１」となっており、この「Ｆ０００１」がフラグＩＤ３３２に登録される。再学習に使用する見込みがあるデータは、データ管理システム１から削除しない方が良いと想定されるデータである（削除すると再学習に使用できなくなる）ことから、再学習見込み管理テーブル３３で管理するデータに付与されるフラグ「Ｆ０００１」には比較的高い重要度「４」が設定されている（図３参照）。データＩＤ３３３は、図２のデータ管理テーブル３１に基づいて、当該レコードで管理するデータに付与された識別子（データＩＤ３１１）を示す。登録日時３３４は、当該レコード（再学習の見込みがあるデータ）を再学習見込み管理テーブル３３に登録した日時を示す。

上記した再学習見込み管理テーブル３３の各項目の値は、データ入力処理（図１０のステップＳ１）においてレコード単位で登録され、登録されていたデータが学習処理（図１０のステップＳ２）に使用された場合に、当該学習処理のなかでレコードが削除される。そして、再学習見込み管理テーブル３３からレコードが削除されたデータは、図５に示す再学習見込み履歴管理テーブル３４及び図８に示す学習処理管理テーブル３７に登録される。

（２－４）再学習見込み履歴管理テーブル３４
図５は、再学習見込み履歴管理テーブル３４の一例を示す図である。再学習見込み履歴管理テーブル３４は、再学習見込み管理テーブル３３に登録された後に学習処理に使用されたデータ（入力データ）を管理する情報である。図５に示す再学習見込み履歴管理テーブル３４は、再学習見込み履歴ＩＤ３４１、フラグＩＤ３４２、データＩＤ３４３、及び登録日時３４４の項目を有して構成され、再学習見込み履歴ＩＤ３４１が主キーとなる。

再学習見込み履歴ＩＤ３４１は、当該レコードで管理するデータを識別可能な識別子であり、再学習見込み管理テーブル３３に登録後に学習処理に使用された（再学習に使用された）入力データごとに異なるＩＤが採番される。フラグＩＤ３３２は、図３のフラグ重要度管理テーブル３２のフラグＩＤ３２１に基づいて、再学習見込み履歴に関するフラグのＩＤを示す。具体的には、図３のフラグ重要度管理テーブル３２においてフラグ種別３２２が「再学習見込み履歴」であるレコードのフラグＩＤ３２１は「Ｆ０００２」となっており、この「Ｆ０００２」がフラグＩＤ３４２に登録される。再学習に使用された後の再学習見込みデータは、以降の重要度はそれほど高くないと考えられることから、再学習見込み履歴管理テーブル３４で管理するデータに付与されるフラグ「Ｆ０００２」には比較的低い重要度「２」が設定されている（図３参照）。データＩＤ３４３は、図２のデータ管理テーブル３１に基づいて、当該レコードで管理するデータに付与された識別子（データＩＤ３１１）を示す。登録日時３４４は、当該レコード（再学習されたデータ）を再学習見込み履歴管理テーブル３４に登録した日時を示す。

上記した再学習見込み履歴管理テーブル３４の各項目の値は、再学習見込み管理テーブル３３に登録されているデータが学習処理（図１０のステップＳ２）で使用された場合に、当該学習処理のなかでレコード単位で登録される。

（２－５）監視画面管理テーブル３５
図６は、監視画面管理テーブル３５の一例を示す図である。監視画面管理テーブル３５は、監視画面に表示するデータを管理する情報である。図６に示す監視画面管理テーブル３５は、監視画面ＩＤ３５１、フラグＩＤ３５２、データＩＤ３５３、及び登録日時３５４の項目を有して構成され、監視画面ＩＤ３５１が主キーとなる。

監視画面ＩＤ３５１は、当該レコードで管理するデータを識別可能な識別子であり、監視画面に表示するデータごとに異なるＩＤが採番される。フラグＩＤ３５２は、図３のフラグ重要度管理テーブル３２のフラグＩＤ３２１に基づいて、監視画面に関するフラグのＩＤを示す。具体的には、図３のフラグ重要度管理テーブル３２においてフラグ種別３２２が「監視画面」であるレコードのフラグＩＤ３２１は「Ｆ０００３」となっており、この「Ｆ０００３」がフラグＩＤ３５２に登録される。監視画面に表示するデータは、データ管理システム１から削除してはいけないデータである（削除すると監視画面に表示できなくなる）ことから、監視画面管理テーブル３５で管理するデータに付与されるフラグ「Ｆ０００３」には最も高い重要度「６」が設定されている（図３参照）。データＩＤ３５３は、図２のデータ管理テーブル３１に基づいて、当該レコードで管理するデータに付与された識別子（データＩＤ３１１）を示す。登録日時３５４は、当該レコード（監視画面に表示するデータ）を監視画面管理テーブル３５に登録した日時を示す。

上記した監視画面管理テーブル３５の各項目の値は、モデル更新処理（図１０のステップＳ４）のなかでレコード単位で登録される。また、モデル更新処理において新しいモデルバージョンのデータが監視画面管理テーブル３５に登録された場合には、データが監視画面管理テーブル３５に登録済みのデータのうち、新規登録されたデータと同じ日付（期間）で、新規登録されたデータのモデルバージョンとは異なるモデルバージョンを有するデータ（旧バージョンのデータ）のレコードが削除される。そして、監視画面管理テーブル３５からレコードが削除されたデータは、図７に示す監視画面履歴管理テーブル３６に登録される。

（２－６）監視画面履歴管理テーブル３６
図７は、監視画面履歴管理テーブル３６の一例を示す図である。監視画面履歴管理テーブル３６は、監視画面に表示したことがあるデータを管理する情報である。図７に示す監視画面履歴管理テーブル３６は、監視画面履歴ＩＤ３６１、フラグＩＤ３６２、データＩＤ３６３、及び使用期間３６４の項目を有して構成され、監視画面履歴ＩＤ３６１が主キーとなる。

監視画面履歴ＩＤ３６１は、当該レコードで管理するデータを識別可能な識別子であり、監視画面に表示したデータごとに異なるＩＤが採番される。フラグＩＤ３６２は、図３のフラグ重要度管理テーブル３２のフラグＩＤ３２１に基づいて、監視画面履歴に関するフラグのＩＤを示す。具体的には、図３のフラグ重要度管理テーブル３２においてフラグ種別３２２が「監視画面履歴」であるレコードのフラグＩＤ３２１は「Ｆ０００４」となっており、この「Ｆ０００４」がフラグＩＤ３６２に登録される。監視画面の表示に使用された後のデータは、以降の重要度は高くないと考えられることから、監視画面履歴管理テーブル３６で管理するデータに付与されるフラグ「Ｆ０００４」には最も低い重要度「１」が設定されている（図３参照）。使用期間３６４は、当該データが監視画面に表示されていた期間を示す。

上記した監視画面履歴管理テーブル３６の各項目の値は、モデル更新処理（図１０のステップＳ４）において監視画面管理テーブル３５から削除されるデータがある場合に、当該モデル更新処理のなかで当該データに関してレコード単位で登録される。

（２－７）学習処理管理テーブル３７
図８は、学習処理管理テーブル３７の一例を示す図である。学習処理管理テーブル３７は、後述する学習処理（図１０のステップＳ２）に使用されたデータ（再学習実績のある入力データ）を管理する情報である。図８に示す学習処理管理テーブル３７は、学習処理ＩＤ３７１、フラグＩＤ３７２、データＩＤ３７３、及び登録日時３７４の項目を有して構成され、学習処理ＩＤ３７１が主キーとなる。

学習処理ＩＤ３７１は、当該レコードで管理するデータを識別可能な識別子であり、学習処理に使用された入力データごとに異なるＩＤが採番される。フラグＩＤ３７２は、図３のフラグ重要度管理テーブル３２のフラグＩＤ３２１に基づいて、学習処理に関するフラグのＩＤを示す。具体的には、図３のフラグ重要度管理テーブル３２においてフラグ種別３２２が「学習処理」であるレコードのフラグＩＤ３２１は「Ｆ０００５」となっており、この「Ｆ０００５」がフラグＩＤ３７２に登録される。学習（再学習）に使用された実績をもつデータは、事後の検証等で参照される可能性が高く重要度が高いことから、学習処理管理テーブル３７で管理するデータに付与されるフラグ「Ｆ０００５」には比較的高い重要度「５」が設定されている（図３参照）。データＩＤ３７３は、図２のデータ管理テーブル３１に基づいて、当該レコードで管理するデータに付与された識別子（データＩＤ３１１）を示す。登録日時３７４は、当該レコード（学習に使用された入力データ）を学習処理管理テーブル３７に登録した日時を示す。

上記した学習処理管理テーブル３７の各項目の値は、学習処理（図１０のステップＳ２）においてレコード単位で登録される。

（２－８）評価処理管理テーブル３８
図９は、評価処理管理テーブル３８の一例を示す図である。評価処理管理テーブル３８は、後述する評価処理（図１０のステップＳ３）に使用された出力データを管理する情報である。図９に示す評価処理管理テーブル３８は、評価処理ＩＤ３８１、フラグＩＤ３８２、データＩＤ３８３、及び登録日時３８４の項目を有して構成され、評価処理ＩＤ３８１が主キーとなる。

評価処理ＩＤ３８１は、当該レコードで管理するデータを識別可能な識別子であり、評価処理で評価された出力データごとに異なるＩＤが採番される。フラグＩＤ３８２は、図３のフラグ重要度管理テーブル３２のフラグＩＤ３２１に基づいて、評価処理に関するフラグのＩＤを示す。具体的には、図３のフラグ重要度管理テーブル３２においてフラグ種別３２２が「評価処理」であるレコードのフラグＩＤ３２１は「Ｆ０００６」となっており、この「Ｆ０００６」がフラグＩＤ３８２に登録される。評価実績をもつデータは、事後の検証等で参照される可能性があり、中程度の重要度があると想定されることから、評価処理管理テーブル３８で管理するデータに付与されるフラグ「Ｆ０００６」には中程度の重要度「３」が設定されている（図３参照）。データＩＤ３８３は、図２のデータ管理テーブル３１に基づいて、当該レコードで管理するデータに付与された識別子（データＩＤ３１１）を示す。登録日時３８４は、当該レコード（評価された出力データ）を評価処理管理テーブル３８に登録した日時を示す。

上記した評価処理管理テーブル３８の各項目の値は、評価処理（図１０のステップＳ３）においてレコード単位で登録される。

（３）処理
以下では、本実施形態に係るデータ管理システム１が実行する処理について、まずは全体処理を説明し、その後、全体処理を構成する各処理の詳細を説明する。

（３－１）全体処理
図１０は、全体処理の処理手順例を示すフローチャートである。図１０に示す全体処理は、データの機械学習に関してデータ管理システム１が実行する全体的な処理である。

図１０によればまず、データ入力部２１が、モデルから出力データを生成し、入出力データをデータ管理テーブル３１に登録するデータ入力処理を実行する（ステップＳ１）。詳細は図１１を参照しながら後述するが、データ入力処理には、入出力データをデータ管理テーブル３１に格納する処理と、モデルを生成する処理と、モデルから出力データを生成する処理と、監視画面管理テーブル３５にデータを登録する処理と、再学習見込み管理テーブル３３にデータを登録する処理とが含まれる。

次に、学習処理部２２が、データ入力処理で生成された出力データの精度が悪かった場合にモデルを再学習する学習処理を実行する（ステップＳ２）。詳細は図１２を参照しながら後述するが、学習処理には、未学習の場合またはステップＳ１で生成された出力データの精度が悪かった場合に、選択したデータを用いて新しいモデルを生成する処理と、学習処理管理テーブル３７にデータを格納する処理と、再学習見込み管理テーブル３３からデータを削除する処理と、再学習見込み履歴管理テーブル３４にデータを登録する処理とが含まれる。

次に、評価処理部２３が、ステップＳ２で生成された新しいモデルから出力データを生成し、この出力データを評価する評価処理を実行する（ステップＳ３）。詳細は図１５を参照しながら後述するが、評価処理には、新しいモデルから出力データを生成する処理と、データ管理テーブル３１に入力データ及び出力データを格納する処理と、評価処理管理テーブル３８にデータを登録する処理とが含まれる。

次に、モデル更新処理部２４が、ステップＳ３の評価処理において生成された出力データの精度が良かった場合に、使用するモデルを更新するモデル更新処理を実行する（ステップＳ４）。詳細は図１７を参照しながら後述するが、モデル更新処理には、使用するモデルを評価したモデルに更新する処理と、監視画面管理テーブル３５にデータを登録する処理と、監視画面管理テーブル３５からデータを削除する処理と、監視画面履歴管理テーブル３６にデータを登録する処理とが含まれる。

次に、データ管理部２５が、ステップＳ１～Ｓ４までの処理でデータに付与したフラグに基づいて各データの重要度を算出し、削除を推奨するデータであるかを判定して各データをデータ管理テーブル３１に格納するデータ管理処理を実行する（ステップＳ５）。詳細は図１８を参照しながら後述するが、データ管理処理には、各データに付与されたフラグを取得する処理と、フラグの重要度に基づいてデータの重要度を算出する処理と、データの重要度に基づいて削除推奨するデータを判定して判定結果をデータ管理テーブル３１に登録する処理とが含まれる。

そして最後に、情報表示部２６が、ステップＳ５のデータ管理処理で判定された削除推奨の判定結果等を表すデータ管理結果画面１４０を表示装置３に表示する結果表示処理を実行する（ステップＳ６）。詳細は図１９を参照しながら後述するが、結果表示処理には、ステップＳ１～Ｓ５でデータ管理テーブル３１に登録された情報を取得して表示する処理が含まれる。

機械学習はライフサイクルを繰り返すことによって、モデルの精度を維持または向上することができるため、ステップＳ６の処理後は、ステップＳ１に戻り、ステップＳ１～Ｓ６の処理が繰り返し実行されることが好ましい。但し、本実施形態に係るデータ管理システム１では、ステップＳ１～Ｓ５の一連の処理が実行されるごとに、必ずしもステップＳ６の結果表示処理が実行されなくてもよい。具体的には例えば、ステップＳ１～Ｓ５の一連の処理が定期的または不定期にループして実行されるなかで、削除推奨データに関する情報の表示を求めるユーザ操作が行われた場合に、当該時点における最新のループ処理のステップＳ５の後にステップＳ６の処理が実行されるようにしてもよい。

（３－２）データ入力処理
図１１は、データ入力処理の処理手順例を示すフローチャートである。図１１に示すデータ入力処理は、図１０のステップＳ１の処理に相当し、データ入力部２１によって実行される。

図１１によれば、まず、データ入力部２１は、実測値などの入力データをデータ管理テーブル３１に格納する（ステップＳ１０１）。このとき、データ管理テーブル３１では、当該入力データに関するレコードが新規に作成され、当該レコードにおけるデータＩＤ３１１、日付３１２、データ３１３、及びデータ種別３１４の項目値が登録される。モデルバージョン３１５の項目値は、ステップＳ１０１以降の所定のタイミングで登録されるとしてよい。例えば、後述するステップＳ１０２においてモデルが存在する場合は、そのモデルバージョンを登録すればよく、ステップＳ１０２においてモデルが存在しない場合には、ステップＳ１０３でモデルを生成したときに生成したモデルのモデルバージョンを登録すればよい。なお、重要度３１６及び削除推奨３１７の項目値は、データ管理処理において登録される。

次に、データ入力部２１は、補助記憶装置３０にモデルが存在しているかを確認する（ステップＳ１０２）。ステップＳ１０２においてモデルが存在している場合（ステップＳ１０２のＹＥＳ）、データ入力部２１はデータ入力処理を終了する。

ステップＳ１０２においてモデルが存在していない場合（ステップＳ１０２のＮＯ）、データ入力部２１は、ステップＳ１０１でデータ管理テーブル３１に格納した入力データを基に、モデルを生成する（ステップＳ１０３）。

次に、データ入力部２１は、ステップＳ１０１の入力データを入力として、ステップＳ１０３で生成したモデルから出力データを生成し（ステップＳ１０４）、生成した出力データをデータ管理テーブル３１に登録する（ステップＳ１０５）。このとき、データ管理テーブル３１では、当該出力データに関するレコードが新規に作成され、当該レコードにおけるデータＩＤ３１１、日付３１２、データ３１３、データ種別３１４、及びモデルバージョン３１５の項目値が登録される。なお、重要度３１６及び削除推奨３１７の項目値は、データ管理処理において登録される。

次に、データ入力部２１は、入力データ及び出力データを監視画面管理テーブル３５に登録する（ステップＳ１０６）。このとき、監視画面管理テーブル３５では、入力データと出力データのそれぞれについて新規にレコードが作成され、各項目値が登録される。

次に、データ入力部２１は、「出力データが異常検知された」こと、または「入力データの希少度が高い」ことの少なくとも何れかの条件が満たされるかを確認する（ステップＳ１０７）。出力データは、例えば、出力データが他の出力データと比較して大きく異なる場合、または出力データが所定の閾値を超える場合などに、異常と検知される。入力データは、他の入力データとの比較から希少度を算出することができ、その希少度が所定の閾値を超える場合などに、希少度が高いと判断される。これら出力データの異常検知及び入力データの希少度の判断は、一般的なプログラミング処理によって実現される。

ステップＳ１０７において上記条件の少なくとも何れかが満たされる場合（ステップＳ１０７のＹＥＳ）、この入力データは特異性を有するデータであり、以降の学習処理で使用される可能性が高い（すなわち、再学習に用いられる見込みが高い）データであると判断できる。そこで、データ入力部２１は、入力データを再学習見込み管理テーブル３３に登録し（ステップＳ１０８）、その後、データ入力処理を終了する。ステップＳ１０８において、再学習見込み管理テーブル３３では、入力データについて新規にレコードが作成され、各項目値が登録される。

一方、ステップＳ１０７において上記条件が何れも満たされない場合には（ステップＳ１０７のＮＯ）、この入力データは以降の学習処理で使用される可能性が低いため、データ入力部２１は、入力データを再学習見込み管理テーブル３３に登録することなく、データ入力処理を終了する。

（３－３）学習処理
図１２は、学習処理の処理手順例を示すフローチャートである。図１２に示す学習処理は、図１０のステップＳ２の処理に相当する。ステップＳ２０１～Ｓ２０３の処理はユーザによって行われ、ステップＳ２０４以降の処理は学習処理部２２によって実行される。

図１２によれば、まず、ユーザが、表示装置３に監視画面１１０を表示させ、監視画面１１０において出力データの精度を確認し（ステップＳ２０１）、データの精度が悪いか否かを判断する（ステップＳ２０２）。ステップＳ２０２の判断基準は、ユーザに委ねてもよいし、予め所定の判断基準を設けていてもよい。ステップＳ２０２においてデータの精度が悪くない場合（ステップＳ２０２のＮＯ）、モデルの再学習を行う必要はないと判断できるため、ユーザは学習処理を終了する。

図１３は、監視画面１１０の一例を示す図である。監視画面１１０は、所定の単位期間（例えば１日）ごとにモデルの入出力データの精度を確認できるような表示を行う画面であって、情報表示部２６によって生成されて表示装置３に表示される。

図１３に示した監視画面１１０の場合、データ一覧欄１１１に、データを確認可能な日付が示され、ユーザ操作によって何れかの日付に対応するグラフ表示ボタン１１２が押下されることで、当該日付におけるデータがグラフで表示される。したがってユーザは、グラフ表示された出力データを確認することにより、当該データの精度が悪いか否かを判断することができる。

図１２の説明に戻る。ステップＳ２０２においてデータの精度が悪いと判断された場合（ステップＳ２０２のＹＥＳ）、ユーザは所定の操作を行って再学習画面１２０を表示し、この再学習画面１２０のなかで、モデルの再学習に利用するデータの日付を選択する（ステップＳ２０３）。

図１４は、再学習画面１２０の一例を示す図である。再学習画面１２０は、モデルの再学習を実行する際に表示される画面であって、情報表示部２６によって生成されて表示装置３に表示される。

図１４に示した再学習画面１２０の場合、再学習データ選択欄１２１には、モデルの再学習に利用するデータ（入力データ）の日付が選択可能に表示されており、ユーザが所望の日付を選択した後、再学習実行ボタン１２２を押下することにより、選択された日付のデータを用いたモデルの再学習（ステップＳ２０４）が開始される。具体的には図１４の場合、「１月１９日」及び「１月２０日」が、再学習に用いるデータの日付として選択されている。

図１２の説明に戻る。ステップＳ２０３で日付が選択された後は、学習処理部２２が、選択された日付のデータ（入力データ）を用いて再学習をし、新しいモデルを生成する（ステップＳ２０４）。このとき、入力データのデータＩＤが、データ管理テーブル３１を参照して取得される。また、生成したモデルには、新しいモデルバージョンが付与される。

次に、学習処理部２２は、ステップＳ２０４のモデル生成で用いた入力データ（言い換えれば、ステップＳ２０３で選択された日付のデータ）を、学習処理管理テーブル３７に登録する（ステップＳ２０５）。

次に、学習処理部２２は、フラグ重要度管理テーブル３２から、「再学習見込み」のフラグＩＤ３２１を取得する（ステップＳ２０６）。具体的には、図３のフラグ重要度管理テーブル３２によれば、「Ｆ０００１」のフラグＩＤが取得される。

次に、学習処理部２２は、ステップＳ２０４で取得したデータＩＤとステップＳ２０６で取得したフラグＩＤとの組合せに該当するデータ（レコード）が再学習見込み管理テーブル３３に登録されているか否かを確認する（ステップＳ２０７）。

ステップＳ２０７において条件に該当するデータが再学習見込み管理テーブル３３に登録されている場合（ステップＳ２０７のＹＥＳ）、再学習見込み管理テーブル３３に登録されていたデータ（再学習見込みデータ）がステップＳ２０４の再学習に使用されたことを意味するため、学習処理部２２は、再学習見込み管理テーブル３３から当該データのレコードを削除する（ステップＳ２０８）。そして、学習処理部２２は、ステップＳ２０４で取得したデータＩＤのデータを再学習見込み履歴管理テーブル３４に登録し（ステップＳ２０９）、学習処理を終了する。

一方、ステップＳ２０７において条件に該当するデータが再学習見込み管理テーブル３３に登録されていない場合には（ステップＳ２０７のＮＯ）、再学習見込み管理テーブル３３に登録されていたデータ（再学習見込みデータ）はステップＳ２０４の再学習に使用されておらず、再学習見込み管理テーブル３３から削除する条件を満たさない。したがって、この場合、学習処理部２２は学習処理を終了する。

以上のように学習処理が行われることにより、再学習見込みの精度が高いデータを選定してモデルの再学習を行うことができ、再学習に用いたデータを学習処理管理テーブル３７に登録して「学習処理」のフラグ「Ｆ０００５」を付与することができる。また、再学習見込み管理テーブル３３に登録済みのデータが再学習に用いられた場合には、当該データの登録を再学習見込み管理テーブル３３から削除するとともに、再学習見込み履歴管理テーブル３４に登録して「再学習見込み履歴」のフラグ「Ｆ０００２」を付与することができる。

なお、ステップＳ２０６及びステップＳ２０７は、処理順序が入れ替わってもよく、ステップＳ２０８及びステップＳ２０９も、処理順序が入れ替わってもよい。

（３－４）評価処理
図１５は、評価処理の処理手順例を示すフローチャートである。図１５に示す評価処理は、図１０のステップＳ３の処理に相当する。ステップＳ３０１の処理はユーザによって行われ、ステップＳ３０２以降の処理は評価処理部２３によって実行される。

図１５によれば、まず、ユーザが、評価画面１３０を表示させて、モデルの評価に利用するデータを選択する（ステップＳ３０１）。

図１６は、評価画面１３０の一例を示す図である。評価画面１３０は、新しいモデルによる出力データを確認する評価を実行するために、評価に用いる入出力データを選択することができる画面である。

図１６に示した評価画面１３０の場合、データ一覧欄１３１には、評価対象のデータを選択可能な期間が示されており、ユーザ操作によって、何れかの期間に対応するグラフ表示ボタン１３２が押下されることで、選択された期間（日付）の入出力データを用いてステップＳ３０２における評価処理が実行される。この評価処理の完了後は、評価の際に生成された出力データがグラフ欄１３３に表示される。グラフ欄１３３には、評価用に、選択された期間（日付）の出力データも表示されてもよい。ユーザはこのグラフ表示からデータの精度を確認することができる。データの精度が良かった場合は、ユーザがモデル更新ボタン１３４を押下することで、今後のデータ入力の際に使用するモデルが更新される（後述する図１７のステップＳ４０１）。

図１５の説明に戻る。ステップＳ３０１で評価に利用する入力データが選択されると、評価処理部２３は評価処理を実行する（ステップＳ３０２）。ステップＳ３０２の評価処理では、具体的には評価処理部２３は、学習処理（図１２のステップＳ２０４）で生成された新しいモデルに、評価画面１３０で選択された日付の入力データを入力して、出力データを生成する。図１６を参照して説明したように、生成された出力データは評価画面１３０のグラフ欄１３３にグラフ表示され、ユーザがデータの精度を確認し、精度が良かった場合にモデル更新ボタン１３４が押下されることで、ステップＳ３０２の評価処理に関するデータが選択された状態となる。

次に、評価処理部２３は、評価画面１３０で選択された日付の入力データ（すなわち、ステップＳ３０２の評価処理で入力データとして用いられたデータ）、及び当該評価処理で生成した出力データを、データ管理テーブル３１に格納する（ステップＳ３０３）。これらの入出力データのデータ管理テーブル３１への格納は、図１１のステップＳ３０１と同様の手順で行われるが、モデルバージョン３１５の項目値には、図１２のステップＳ２０４で生成されたモデルのモデルバージョンが登録される。

次に、評価処理部２３は、評価画面１３０で選択された日付の入力データ（すなわち、ステップＳ３０２の評価処理で入力データとして用いられたデータ）、及び当該評価処理で生成した出力データを、評価処理管理テーブル３８に登録する（ステップＳ３０４）。換言すると、ステップＳ３０４において評価処理部２３は、ステップＳ３０３でデータ管理テーブル３１に格納したデータを、評価処理管理テーブル３８にも登録する。このとき、評価処理管理テーブル３８では、登録する入力データまたは出力データごとに評価処理ＩＤ３８１を付与してレコードが新規に作成される。フラグＩＤ３８２には、「評価処理」に対応する「Ｆ０００６」が登録され（フラグ重要度管理テーブル３２を参照）、データＩＤ３８３には、データ管理テーブル３１のデータＩＤ３１１を参照して対象データのデータＩＤが登録される。また、登録日時３８４には、現時点の日時が登録される。

以上のように図１５の評価処理が行われることにより、学習処理で再生成された新しいモデルについて、ユーザが選択した入力データを用いた場合の出力データの精度を確認することで、上記新しいモデルの評価を行うことができる。そして、評価の結果、精度が良いと判断された場合には、入出力データをデータ管理テーブル３１に格納するとともに、「評価処理」のフラグ「Ｆ０００６」を付与することができる。

なお、図１５の評価処理が行われた結果、学習処理で再生成された新しいモデルについて、データの精度が悪いと判断された場合は、後述するモデル更新処理をスキップしてデータ管理処理に移行するようにしてもよいし、別の処理手順として、前述した学習処理に戻り、再学習画面１２０で再学習に利用するデータにこれまでとは別のデータを選択して、その再学習の結果を用いて評価処理で再評価を行うようにしてもよい。

（３－５）モデル更新処理
図１７は、モデル更新処理の処理手順例を示すフローチャートである。図１７に示すモデル更新処理は、図１０のステップＳ４の処理に相当し、モデル更新処理部２４によって実行される。モデル更新処理は、前述した評価処理において学習処理で新しく生成されたモデルの精度が良いと判断された場合に、機械学習に今後使用するモデルに更新するための処理である。

図１７によれば、まず、モデル更新処理部２４は、評価画面１３０でモデル更新ボタン１３４が押下された場合に、学習処理（図１２のステップＳ２０４）で新しく生成されたモデルを、機械学習に今後使用するモデルとして更新する（ステップＳ４０１）。具体的には例えば、モデル更新処理部２４は、不図示のモデル記憶部に新しいモデルを追加格納し、機械学習に使用するモデルとして扱うように設定する。このとき、古いバージョン（厳密には、新しく生成されたモデルのバージョン以外のバージョンであり、以下も同様である）のモデルはモデル記憶部に残しておいてよい。

次に、モデル更新処理部２４は、先の評価処理に利用した日付の入力データと、ステップＳ４０１で更新した新しいモデルから生成した出力データ（すなわち、評価処理のステップＳ３０２で生成された出力データ）と、を監視画面管理テーブル３５に登録する（ステップＳ４０２）。入出力データの監視画面管理テーブル３５への登録手順は、図１１のステップＳ１０６と同様である。

次に、モデル更新処理部２４は、データ管理テーブル３１を参照して、ステップＳ４０２で監視画面管理テーブル３５に登録したデータと同じ日付（期間）で、登録されたデータのモデルバージョンとは異なるモデルバージョンを有するデータ（旧バージョンのデータ）を検索し、該当するデータのデータＩＤ３１１を取得する（ステップＳ４０３）。

次に、モデル更新処理部２４は、フラグ重要度管理テーブル３２を参照し、「監視画面」に対応するフラグＩＤ３２１（本例では「Ｆ０００３」）を取得する（ステップＳ４０４）。

次に、モデル更新処理部２４は、ステップＳ４０３で取得したデータＩＤとステップＳ４０４で取得したフラグＩＤとの組合せに該当するデータ（レコード）が、監視画面管理テーブル３５に登録されているかを確認する（ステップＳ４０５）。

ステップＳ４０５において条件に該当するデータが監視画面管理テーブル３５に登録されている場合（ステップＳ４０５のＹＥＳ）、ステップＳ４０２で登録した新しいモデルバージョンに紐付けされたデータとは別に、古いモデルバージョンに紐付けされたデータが監視画面管理テーブル３５に登録されていることを意味する。したがってこの場合、モデル更新処理部２４は、ステップＳ４０３で取得したデータＩＤのデータを監視画面履歴管理テーブル３６に登録し（ステップＳ４０６）、当該データのレコードを監視画面管理テーブル３５から削除する（ステップＳ４０７）。このステップＳ４０６～Ｓ４０７の処理によって、古いモデルバージョンに紐付けされたデータは、監視画面管理テーブル３５から削除されて監視画面履歴管理テーブル３６に登録され、当該データには、「監視画面」に対応するフラグＩＤ「Ｆ０００３」に代えて「監視画面履歴」に対応するフラグＩＤ「Ｆ０００４」が付与されることになる。ステップＳ４０７の処理後、モデル更新処理部２４はモデル更新処理を終了する。

一方、ステップＳ４０５において条件に該当するデータが監視画面管理テーブル３５に登録されていない場合は（ステップＳ４０５のＮＯ）、古いモデルバージョンに紐付けされたデータが監視画面管理テーブル３５に登録されておらず、監視画面管理テーブル３５において同一日付で異なるモデルバージョンに紐付けされたデータが存在しない。したがってこの場合、モデル更新処理部２４は、上述したステップＳ４０６～Ｓ４０７の処理を行うことなく、モデル更新処理を終了する。

なお、ステップＳ４０６及びステップＳ４０７は、処理順序が入れ替わってもよい。

（３－６）データ管理処理
図１８は、データ管理処理の処理手順例を示すフローチャートである。図１８に示すデータ管理処理は、図１０のステップＳ５の処理に相当し、データ管理部２５によって実行される。データ管理処理は、ここまでの各処理において各データに付与したフラグに基づいて各データの重要度を算出し、この重要度に基づいて各データの削除を推奨するか否か（削除推奨）を判定し、これらの算出及び判定の結果をデータ管理テーブル３１に登録する処理である。

図１８によれば、まず、データ管理部２５は、データ管理テーブル３１からレコードを１つずつ取得して、ループ１の処理（ステップＳ５０２～Ｓ５１１）を開始する（ステップＳ５０１）。以下の説明では、ステップＳ５０１で取得したレコードを「当該レコード」と称する。

ループ１の処理において、まず、データ管理部２５は、当該レコードのデータＩＤ３１１を取得する（ステップＳ５０２）。さらに、データ管理部２５は、当該レコードの重要度３１６の値を「０」にする（ステップＳ５０３）。なお、ステップＳ５０３の処理は、重要度をリセットするための処理であって、必ずしも値を「０」にすることに限定されない。

次に、データ管理部２５は、フラグ重要度管理テーブル３２からレコードを１つずつ取得して、ループ２の処理（ステップＳ５０５～Ｓ５０８）を開始する（ステップＳ５０４）。前述したように、フラグ重要度管理テーブル３２の各レコードは、機械学習のライフサイクルにおける所定の処理ごとにデータに付与されるフラグとその重要度を管理している。

ループ２の処理において、まず、データ管理部２５は、ステップＳ５０４で取得したフラグ重要度管理テーブル３２のレコードからフラグＩＤ３２１を取得する（ステップＳ５０５）。

次に、データ管理部２５は、ステップＳ５０５で取得したフラグＩＤ３２１に対応するフラグを管理している管理テーブル（具体的には、再学習見込み管理テーブル３３、再学習見込み履歴管理テーブル３４、監視画面管理テーブル３５、監視画面履歴管理テーブル３６、学習処理管理テーブル３７、または評価処理管理テーブル３８の何れか）において、ステップＳ５０２で取得したデータＩＤのデータが登録されているかを確認する（ステップＳ５０６）。

ステップＳ５０６において条件を満たさない場合、（ステップＳ５０６のＮＯ）、データ管理部２５は、ループ２の終了条件（フラグ重要度管理テーブル３２の全レコードについて処理が完了した）が満たされるかを確認し、満たしていない場合はステップＳ５０４に戻ってループ２の処理を繰り返す。ループ２の終了条件を満たす場合は、ステップＳ５０９に進む。

一方、ステップＳ５０６において条件を満たす場合（ステップＳ５０６のＹＥＳ）、データ管理部２５は、データ管理テーブル３１からステップＳ５０５で取得したフラグＩＤ３２１の重要度３２３を取得し（ステップＳ５０７）、取得した重要度をステップＳ５０２で取得したデータＩＤの重要度に加算する（ステップＳ５０８）。データ管理部２５は、加算後の重要度を一時的に記憶しておき、ループ２の終了条件が満たされた場合に、データ管理テーブル３１において上記データＩＤを管理するレコードの重要度３１６に最終的な加算後の重要度を登録する。あるいは、データ管理部２５は、ステップＳ５０８で重要度を加算するごとに、データ管理テーブル３１において上記データＩＤを管理するレコードの重要度３１６を、加算後の重要度で更新するようにしてもよい。その後、データ管理部２５は、ループ２の終了条件が満たされるかを確認し、満たしていない場合はステップＳ５０４に戻ってループ２の処理を繰り返す。ループ２の終了条件を満たす場合は、ステップＳ５０９に進む。

上記のようにフラグ重要度管理テーブル３２のレコード数の分だけループ２の処理を繰り返すことにより、ステップＳ５０２でデータＩＤを取得したデータ管理テーブル３１のレコードの重要度３１６に、当該データＩＤが示すデータに付与されているフラグの重要度の合計値が登録される。

ループ２の処理を抜けた後、データ管理部２５は、ループ２の処理によって算出されたデータの重要度が、所定の閾値以下であるか否かを判定する（ステップＳ５０９）。所定の閾値は、予めシステムに設定されてもよいし、ユーザが任意に変更可能としてもよい。

ステップＳ５０９においてデータの重要度が閾値以下であった場合（ステップＳ５０９のＹＥＳ）、当該データの重要度が低いことから、データ管理部２５は、データ管理テーブル３１の当該データを管理するレコードの削除推奨３１７に、削除を推奨することを意味する「１」を登録する（ステップＳ５１０）。一方、ステップＳ５０９においてデータの重要度が閾値を超える場合は（ステップＳ５０９のＮＯ）、当該データの重要度が高いことから、データ管理部２５は、データ管理テーブル３１の当該データを管理するレコードの削除推奨３１７に、削除を推奨しないことを意味する「０」を登録する（ステップＳ５１１）。

ステップＳ５１０またはステップＳ５１１の何れかの処理が終了した後、データ管理部２５は、ループ１の終了条件（データ管理テーブル３１の全レコードについて処理が完了した）が満たされるかを確認し、満たしていない場合はステップＳ５０１に戻ってループ１の処理を繰り返す。ループ１の終了条件を満たす場合は、データ管理処理を終了する。

上記のようにデータ管理テーブル３１のレコード数の分だけループ１の処理を繰り返すことにより、データ管理テーブル３１の各レコードの削除推奨３１７に、削除しても影響が少ないデータについては「１」、削除すると影響が大きいデータについては「０」が登録される。この結果、データ管理テーブル３１の削除推奨３１７の値により、各データの削除推奨の可否を切り分けることができる。

（３－７）結果表示処理
図１９は、結果表示処理の処理手順例を示すフローチャートである。図１９に示す結果表示処理は、図１０のステップＳ６の処理に相当し、情報表示部２６によって実行される。

図１９によれば、まず、情報表示部２６は、データ管理テーブル３１からレコードを１つずつ取得して、ループ１の処理（ステップＳ６０２～Ｓ６０９）を開始する（ステップＳ６０１）。以下の説明では、ステップＳ６０１で取得したレコードを「当該レコード」と称する。

ループ１の処理において、まず、情報表示部２６は、当該レコードの削除推奨３１７を取得し（ステップＳ６０２）、その値が削除を推奨することを意味する「１」であるか否かを判定する（ステップＳ６０３）。

ステップＳ６０３において削除推奨３１７の値が「１」以外、すなわち「０」であった場合は（ステップＳ６０３のＮＯ）、ループ１の終了条件（データ管理テーブル３１の全レコードについて処理が完了した）が満たされるかを確認し、満たしていない場合はステップＳ６０２に戻ってループ１の処理を繰り返す。ループ１の終了条件を満たす場合は、後述するステップＳ６１０に進む。

一方、ステップＳ６０３において削除推奨３１７の値が「１」であった場合は（ステップＳ６０３のＹＥＳ）、情報表示部２６は、当該レコードのデータＩＤ３１１を取得する（ステップＳ６０４）。

次に、情報表示部２６は、フラグ重要度管理テーブル３２からレコードを１つずつ取得して、ループ２の処理（ステップＳ６０６～Ｓ６０８）を開始する（ステップＳ６０５）。

ループ２の処理において、まず、情報表示部２６は、ステップＳ６０５で取得したフラグ重要度管理テーブル３２のレコードからフラグＩＤ３２１を取得する（ステップＳ６０６）。

次に、情報表示部２６は、ステップＳ６０６で取得したフラグＩＤ３２１に対応するフラグを管理している管理テーブル（具体的には、再学習見込み管理テーブル３３、再学習見込み履歴管理テーブル３４、監視画面管理テーブル３５、監視画面履歴管理テーブル３６、学習処理管理テーブル３７、または評価処理管理テーブル３８の何れか）において、ステップＳ６０４で取得したデータＩＤのデータが登録されているかを確認する（ステップＳ６０７）。

ステップＳ６０７において条件を満たさない場合、（ステップＳ６０７のＮＯ）、情報表示部２６は、ループ２の終了条件（フラグ重要度管理テーブル３２の全レコードについて処理が完了した）が満たされるかを確認し、満たしていない場合はステップＳ６０５に戻ってループ２の処理を繰り返す。ループ２の終了条件を満たす場合は、ステップＳ６０９に進む。

一方、ステップＳ６０７において条件を満たす場合（ステップＳ６０７のＹＥＳ）、情報表示部２６は、ステップＳ６０６で取得したフラグＩＤ３２１に対応するフラグを管理している管理テーブルから、該当データのレコード情報を取得する（ステップＳ６０８）。具体的には例えば、フラグＩＤに基づいて監視画面履歴管理テーブル３６にデータがあるかを確認し、取得したデータＩＤが登録されていた場合には、情報表示部２６は、該当レコードの情報（監視画面履歴ＩＤ３６１、フラグＩＤ３６２、データＩＤ３６３、使用期間３６４）を取得する。その後、情報表示部２６は、ループ２の終了条件（が満たされるかを確認し、満たしていない場合はステップＳ６０５に戻ってループ２の処理を繰り返す。ループ２の終了条件を満たす場合は、ステップＳ６０９に進む。

上記のようにフラグ重要度管理テーブル３２のレコード数の分だけループ２の処理を繰り返すことにより、情報表示部２６は、データ管理テーブル３１において削除推奨とされているデータに対して、各管理テーブルで付与されているフラグと、当該フラグに関連する情報の一覧を取得することができる。

ループ２の処理を抜けた後、情報表示部２６は、データ管理テーブル３１から、ステップＳ６０４でデータＩＤを取得したレコードの情報（具体的には、データＩＤ３１１、日付３１２、データ３１３、データ種別３１４、モデルバージョン３１５、重要度３１６、削除推奨３１７）を取得する（ステップＳ６０９）。

その後、情報表示部２６は、ループ１の終了条件（データ管理テーブル３１の全レコードについて処理が完了した）が満たされるかを確認し、満たしていない場合はステップＳ６０１に戻ってループ１の処理を繰り返す。ループ１の終了条件を満たす場合は、ステップＳ６１０に進む。

上記のようにデータ管理テーブル３１のレコード数の分だけループ１の処理を繰り返すことにより、情報表示部２６は、削除推奨と判定されたデータについて、その付加情報を含む様々な情報を取得することができる。

そして最後に、情報表示部２６は、ここまでの各ステップを経て取得した情報を用いて、所定の表示態様で形成されるデータ管理結果画面１４０を作成し、作成したデータ管理結果画面１４０を表示装置３に表示させて（ステップＳ６１０）、結果表示処理を終了する。

図２０は、データ管理結果画面１４０の一例を示す図である。データ管理結果画面１４０は、削除を推奨するデータ（削除候補データ）を一覧表示するとともに、当該データの詳細な付加情報を表示可能な画面である。

図２０に示したデータ管理結果画面１４０の場合、削除候補データ一覧欄１４１には、データ管理テーブル３１の削除推奨３１７において「１」の値が登録された入出力データが一覧表示される。ユーザはこの削除候補データ一覧欄１４１を確認することにより、削除しても影響が少ないデータがどのデータであるかを認識することができる。図２０では、削除候補データ一覧欄１４１に、各データについて、日付、データ、データ種別、及びモデルバージョンといった付加情報が表示されているが、これらは、データ管理テーブル３１の一部項目の値が表示されたものである。当該データのさらに詳細な付加情報を確認したい場合には、ユーザが詳細ボタン１４２を押下すると、データ詳細欄１４３に、選択されたデータの詳細な付加情報として、データ管理テーブル３１から取得した各項目の情報、及び当該データに付与されたフラグの処理（図２０の例では「監視画面履歴」）が表示される。

データ管理結果画面１４０を確認した後、いくつかのデータを削除したい場合には、ユーザは、削除候補データ一覧欄１４１のチェックボックスにおいて削除したいデータにチェックを付け、データ削除ボタン１４４を押下する。データ削除ボタン１４４の押下操作が行われると、データ管理システム１（例えばデータ管理部２５）が、チェックを付けられたデータを管理するレコードを、データ管理テーブル３１から削除する。またこのとき、対象データに付与されていたフラグを管理するテーブルからも、対象データのレコードを削除する。

この結果、データ管理システム１は、削除しても影響が少ないと判定し、ユーザからも削除してよいと最終判断された入出力データを、システムから削除することができる。かくして、データ管理システム１では、機械学習のライフサイクルが回されていくなかで、不要なデータの削除を効率的に運用することができ、必要なデータのみが残るログローテーションを実現することができる。そして、システムが保持するデータ量を適切に削減できることから、ランニングコストを抑える効果が得られる。

なお、上記説明では、削除推奨と判定されたデータを実際に削除するか否かの最終的な判断は、データ管理結果画面１４０を見てユーザが行うとしたが、削除推奨と判定されたデータを削除する処理をプログラム（例えばデータ管理部２５）によって自動実行するように構成してもよい。このような構成を採用する場合、プログラム処理によって、定期的に削除推奨のデータの有無を確認し、削除推奨と判定されたデータを即時に削除するようにしてもよいが、他にも例えば、削除推奨と判定されたデータを削除するまでの猶予期間を設け、猶予期間中であることをユーザに告知し、猶予期間が終了した場合に削除する、等としてもよい。

（４）変形例
図２１は、データ管理システム１の変形例であるデータ管理システム１Ａの構成例を示すブロック図である。データ管理システム１Ａにおいては、図１等を参照して説明したデータ管理システム１と同様の構成要素には共通する符号を付し、その説明を省略する。また、データ管理システム１とは一部が異なる構成要素については、共通する符号に添字Ａを追加して表し、異なる部分を中心に説明する。

データ管理システム１の説明で述べたように、モデルから出力される出力データには、例えばモデルによって異常検知される異常データが含まれ得る。データ管理システム１では異常検知された出力データに対して、再学習の見込みが有るデータと判断して再学習見込みフラグを付与したが、このような異常データのなかには、異常と見えたが実際には正常なデータ（以後、「誤報データ」とも称する）が存在する可能性があった。機械学習のモデルにおける入出力データを管理するデータ管理システムにおいては、このような誤報データを生成したモデルの入力データを特定し、モデルのパラメータ調整等に活かすことによって、モデルの改善に役立てることができる。そこで、データ管理システム１Ａは、モデルから生成された出力データのうち、異常検知された出力データ（異常データ）に着目し、この異常検知が誤報であるか否かに対するユーザの判断（インシデント対応）を踏まえて、誤報と判断された異常データ（誤報データ）を生成したモデルの入力データ（以後、「誤報データに対応する入力データ」とも称する）を抽出することにより、効果的な入出力データ管理を実現する。以下に、データ管理システム１Ａにおける特徴的な構成及び処理等について詳しく説明する。

図２１に示すように、データ管理システム１Ａは、プロセッサ（ＣＰＵ１０）が主記憶装置２０（メモリ）にプログラムを読み出して実行する機能部として、インシデント収集部４１及びインシデント管理部４２を有する。また、データ管理システム１Ａは、所定のデータを格納するために補助記憶装置３０Ａが保持する管理テーブルとして、インシデント管理テーブル５１及び誤報管理テーブル５２を有する。インシデント収集部４１、インシデント管理部４２、インシデント管理テーブル５１、及び誤報管理テーブル５２は、データ管理システム１Ａ特有の構成要素である。また、データ管理システム１Ａは、データ管理システム１が保持していた管理テーブルと部分的にデータ構成が異なる管理テーブルとして、データ管理テーブル３１Ａ及びフラグ重要度管理テーブル３２Ａを有する。

インシデント収集部４１は、モデル生成におけるインシデントとして管理されるべき入出力データを収集し、インシデント管理テーブル４１または誤報管理テーブル５２に格納する機能を有する。インシデント収集部４１が実行する処理については、後述する図２６に示すインシデント収集処理を参照しながら詳述する。

インシデント管理部４２は、インシデント収集部４１によって収集されたインシデントのデータについて、異常検知された出力データ（異常データ）が誤報であるかを判断するユーザのインシデント対応に応じて、インシデント管理テーブル５１及び誤報管理テーブル５２を更新する機能を有する。インシデント管理部４２が実行する処理については、後述する図２７に示すインシデント評価処理を参照しながら詳述する。

図２２は、データ管理テーブル３１Ａの一例を示す図である。図２２に示すデータ管理テーブル３１Ａは、図２に示したデータ管理テーブル３１との相違点として、モデル実行ＩＤ３１８の項目を有する。モデル実行ＩＤ３１８は、モデルの入力データと出力データとの組合せに付与された識別子（モデル実行ＩＤ）を示す。モデル実行ＩＤは、データ管理部２５または運用部２７によって付与される。また、データ管理テーブル３１Ａのデータ種別３１４においては、対象データが出力データである場合に、当該出力データが正常であるか異常であるかを示す情報が追加されている。具体的には、データ種別３１４で「出力（正常）」とされたデータは、モデルによる生成時に異常検知されなかった正常な出力データであることを意味し、データ種別３１４で「出力（異常）」とされたデータは、モデルによる生成時に異常検知された異常な出力データ（異常データ）であることを意味する。

なお、図２２では図示を省略したが、データ管理テーブル３１Ａは、図２に例示したデータ管理テーブル３１と同様に重要度３１６及び削除推奨３１７の項目を有してもよいし、その他の項目を有してもよい。

図２３は、フラグ重要度管理テーブル３２Ａの一例を示す図である。図２３に示すフラグ重要度管理テーブル３２Ａでは、図３に示したフラグ重要度管理テーブル３２との相違点として、「誤報」のフラグに関する情報が追加されている。「誤報」のフラグは、誤報データに対応する入力データに付与されるフラグであって、図２３において、そのフラグＩＤは「Ｆ０００７」であり、重要度は「５」とされている。

なお、図２３に示した誤報フラグの重要度「５」は一例であって、これに限定されるものではない。但し、誤報フラグには、過去に使用されたデータに付与されるフラグ（図２３において具体的には、再学習で使用された入力データに付与されるフラグＩＤ「Ｆ０００２」の「再学習見込み履歴」フラグ、及び監視画面１１０の表示に使用された入出力データに付与されるフラグＩＤ「Ｆ０００４」の「監視画面履歴」フラグ）よりは、高い重要度（すなわち重要度「３」以上）が設定されることが好ましい。

図２４は、インシデント管理テーブル５１の一例を示す図である。インシデント管理テーブル５１は、インシデント収集処理においてインシデント収集部４１によってデータが登録されるテーブルであって、異常検知された出力データ（異常データ）に関する情報を管理する。図２２の説明で前述した通り、異常データは、データ種別３１４が「出力（異常）」となっているデータであり（図２２の場合、データＩＤ「０００５」のデータ）、異常データに関する情報の一部は、データ管理テーブル３１Ａから取得できる。

図２４に示すインシデント管理テーブル５１は、インシデントＩＤ５１１、モデル実行ＩＤ５１２、データＩＤ５１３、検知日時５１４、及び状態５１５の項目を有して構成される。

インシデントＩＤ５１１は、インシデント管理テーブル５１に登録する際に異常データごとに割り当てられる識別子（インシデントＩＤ）を示す。モデル実行ＩＤ５１２は、当該レコードで管理する異常データのモデル実行ＩＤを示す。モデル実行ＩＤ５１２は、データ管理テーブル３１Ａのモデル実行ＩＤ３１８に対応する。データＩＤ５１３は、当該レコードで管理する異常データのデータＩＤを示す。データＩＤ５１３は、データ管理テーブル３１ＡのデータＩＤ３１１に対応する。検知日時５１４は、当該レコードで管理する異常データがモデルによって異常検知された日時を示す。検知日時５１４は、データ管理テーブル３１Ａの日付３１２に対応するが、日付３１２よりも詳細な情報を保持してもよい。

状態５１５は、当該レコードで管理する異常データに対するインシデント対応の状態を示す。状態５１５は、例えば、予め用意された複数種類のステータスのうちから１つが選択される（任意のステータスを追加または削除可能に構成されてもよい）。複数種類のステータスとしては、具体的には例えば、インシデント管理テーブル５１への新規登録時に設定される「新規」、ユーザがインシデント対応を保留している場合に設定される「保留」、ユーザがインシデント対応中である場合に設定される「対応中」、ユーザが誤報ではないと判断してインシデント対応を完了した場合に設定される「完了」、ユーザが誤報であると判断してインシデント対応を完了した場合に設定される「誤報」とが挙げられる。なお、上述したステータスは一例であってこれらの限定されるものではないが、少なくとも「誤報」であるか否かを示す２以上のステータスが用意されていることが好ましい。

図２５は、誤報管理テーブル５２の一例を示す図である。誤報管理テーブル５２は、インシデント収集処理及びインシデント評価処理において、インシデント収集部４１またはインシデント管理部４２によってデータが登録または更新されるテーブルであって、ユーザによるインシデント対応によって誤報と判断された誤報データに対応する入力データに関する情報を管理する。

図２５に示す誤報管理テーブル５２は、誤報管理ＩＤ５２１、フラグＩＤ５２２、モデル実行ＩＤ５２３、及びデータＩＤ５２４の項目を有して構成される。

誤報管理ＩＤ５２１は、誤報管理テーブル５２に登録する際に入力データ（誤報データに対応する入力データ）ごとに割り当てられる識別子（誤報管理ＩＤ）を示す。フラグＩＤ５２２は、当該レコードで管理する入力データのフラグＩＤを示す。フラグＩＤ５２２は、フラグ重要度管理テーブル３２ＡのフラグＩＤ３２１に対応し、誤報データに対応する入力データに対しては「Ｆ０００７」のフラグＩＤが付与される。モデル実行ＩＤ５２３は、当該レコードで管理する入力データのモデル実行ＩＤを示す。モデル実行ＩＤ５２３は、データ管理テーブル３１Ａのモデル実行ＩＤ３１８に対応する。データＩＤ５２４は、当該レコードで管理する入力データのデータＩＤを示す。データＩＤ５２４は、データ管理テーブル３１ＡのデータＩＤ３１１に対応する。

図２６は、インシデント収集処理の処理手順例を示すフローチャートである。図２６に示すインシデント収集処理は、インシデント収集部４１によって実行される。インシデント収集処理は、データ入力処理（図１１）が実行された後の任意のタイミングで、定期的にあるいは不定期的に実施可能であり、ユーザ等が所定のユーザインタフェースを操作する等を契機として開始されてもよいし、バッチプログラム等を利用した自動処理によって開始されてもよい。

図２６によればまず、インシデント収集部４１は、データ管理テーブル３１Ａを参照して、新しい異常データが存在しているか否かを判断する（ステップＳ７０１）。ステップＳ７０１においてインシデント収集部４１は、例えば、前回のインシデント収集処理を実行した最終実行日時と、データ管理テーブル３１Ａに格納されたデータの日付３１２と、を比較することによって、新しいデータの存在の有無を判断できる。さらにインシデント収集部４１は、このような新しいデータのうちに、データ管理テーブル３１Ａに格納されているデータのデータ種別３１４が「出力（異常）」であるデータが存在する場合に、当該データを「新しい異常データ」と判断することができる。新しい異常データが存在する場合は（ステップＳ７０１のＹＥＳ）、ステップＳ７０２に進み、新しい異常データが存在しない場合は（ステップＳ７０２のＮＯ）、インシデント収集処理を終了する。

ステップＳ７０２では、インシデント収集部４１は、ステップＳ７０１で見つけた新しい異常データについて、当該異常データに関する所定の情報を、インシデント管理テーブル５１に格納する。ステップＳ７０２の処理では、具体的にはインシデント管理テーブル５１に新規にレコードが作成され、この新規レコードに各種情報が登録される。このとき、新規レコードの状態５１５には「新規」が設定される。

次に、インシデント収集部４１は、ステップＳ７０２でインシデント管理テーブル５１に登録した異常データに対応する入力データ（すなわち、モデルが異常データを出力したときの入力データ）に関する所定の情報を、誤報管理テーブル５２に格納する。具体的には、ステップＳ７０３においてインシデント収集部４１は、データ管理テーブル３１Ａを参照して、ステップＳ７０２でインシデント管理テーブル５１に新規登録した異常データのモデル実行ＩＤ５１２と同一のモデル実行ＩＤ３１８を有する入力データを検索し、該当する入力データに関する情報を取得して、誤報管理テーブル５２の新規レコードに登録する。この際、新規レコードのフラグＩＤ５２２の値は、未登録であってよい。ステップＳ７０３の処理が終了すると、インシデント収集部４１は、インシデント収集処理を終了する。

図２７は、インシデント評価処理の処理手順例を示すフローチャートである。図２７に示すインシデント評価処理は、図２６に示したインシデント収集処理の後に実行される処理であって、ステップＳ８０１～Ｓ８０３の処理はインシデント対応を行うユーザによって実行され、ステップＳ８０４～Ｓ８０６の処理はインシデント管理部４２によって実行される。

図２７によればまず、ユーザがデータ管理システム１Ａあるいは不図示のユーザ端末を操作して、インシデント管理テーブル５１に格納された情報を可視化表示するインシデント管理画面を開き、インシデント管理画面に表示された異常データの一覧から、今回のインシデント対応で確認しようとする異常データ（確認対象のインシデント）を選択する操作を行う（ステップＳ８０１）。

インシデント管理画面は、例えば情報表示部２６またはインシデント管理部４２が所定のプログラムを実行することにより、インシデント管理テーブル５１またはその他の各種データに基づいて生成され、ユーザインタフェースを介する等の任意の出力方法でユーザ側に表示される。インシデント管理画面における情報の表示方法は特に限定されないが、本説明では一例として、起動当初は、異常データごとに、インシデントが発生したサイト、モデル、その他の参考情報等が一覧形式で表示されるとしている。

ステップＳ８０１で確認対象のインシデントが選択されると、インシデント管理画面は、選択されたインシデントに関して、所定の詳細情報を表示する。この詳細情報には、インシデント管理テーブル５１に格納された異常データの情報だけでなく、その他の任意の各種データを表示するようにしてよい。例えば、図１０の監視画面１１０に例示したグラフや、図２０のデータ管理結果画面１４０に例示したデータ詳細１４３の表示内容等に相当する情報が含まれてもよい。そしてユーザは、インシデント管理画面に表示された異常データの内容を確認し、自身の知見等に基づいて、インシデントが誤報ではないかの正誤判定を行う（ステップＳ８０２）。ステップＳ８０２の処理は、言い換えると、異常データが誤報データであるか否かを判断することである。

次に、ユーザは、インシデント管理画面において、ステップＳ８０２における正誤判定の結果に基づいて、確認対象のインシデントの「状態」を更新する（ステップＳ８０３）。この「状態」は、インシデント対応上の状態を示すものであり、インシデント管理テーブル５１の状態５１５に用意されたステータスの何れかに対応する。具体的には、ステップＳ８０３の判定結果が「誤報（インシデントが誤り）」であった場合、ユーザは確認対象のインシデントの「状態」を「誤報」に更新する。一方、ステップＳ８０３の判定結果が「誤報ではない（インシデントが正しい）」であった場合、ユーザは確認対象のインシデントの「状態」を「完了」に更新する。また、ステップＳ８０３においてインシデントの正誤判定を先送りする場合には、その進捗状況に応じて「保留」または「対応中」に更新する。

ステップＳ８０３で、インシデント管理画面においてインシデントの「状態」が更新されると、インシデント管理部４２は、更新された「状態」によって、インシデント管理テーブル５１における対応レコードの状態５１５を更新する（ステップＳ８０４）。

次に、インシデント管理部４２は、ステップＳ８０２におけるユーザのインシデントの正誤判定の結果が誤報であったか否かを判定する（ステップＳ８０５）。具体的には、インシデント管理部４２は、ステップＳ８０４で更新したインシデント管理テーブル５１の状態５１５が「誤報」であったか否かを判定する（ステップＳ８０５）。「誤報」であった場合は（ステップＳ８０５のＹＥＳ）、ステップＳ８０６に進み、「誤報」以外であった場合は（ステップＳ８０５のＮＯ）、インシデント評価処理を終了する。

ステップＳ８０６では、インシデント管理部４２は、「誤報」と判断されたインシデントの異常データに対応する入力データについて、誤報管理テーブル５２を更新し、誤報フラグを設定する。具体的には、ステップＳ８０６においてインシデント管理部４２は、インシデント管理テーブル５１において状態５１５を「誤報」に更新したレコードのモデル実行ＩＤ５１２をキーとして、誤報管理テーブル５２のモデル実行ＩＤ５２３を検索し、同一のモデル実行ＩＤを有するレコードのフラグＩＤ５２２の値を「Ｆ０００７」とする。そして、ステップＳ８０６の終了後、インシデント管理部４２は、インシデント評価処理を終了する。

なお、上述した図２７のインシデント評価処理では、ユーザによるインシデントの誤報の判断結果が出る前に、インシデント収集処理のステップＳ７０３の処理によって誤報管理テーブル５２に異常データに対応する入力データに関する情報が登録されていたが、別の処理手順例として、ユーザによるインシデント対応で誤報と判断されてから、誤報管理テーブル５２に、誤報データに対応する入力データに関する情報が登録されるようにしてもよい。

この場合、具体的には例えば、ステップＳ８０６において、インシデント管理部４２は、ステップＳ８０４で状態５１５を「誤報」に変更したインシデント管理テーブル５１のレコードにおけるモデル実行ＩＤ５１２の値をインシデント収集部４１に通知する。そしてインシデント収集部４１は、通知されたモデル実行ＩＤをキーとしてデータ管理テーブル３１Ａのモデル実行ＩＤ３１８を検索し、同一のモデル実行ＩＤを有する入力データに関する情報を取得して、誤報管理テーブル５２の新規レコードに登録する。この際、新規レコードのフラグＩＤ５２２の値は、誤報フラグを示す「Ｆ０００７」に設定される。フラグＩＤ５２２の値の設定は、新規レコードの登録時にインシデント収集部４１が実行してもよいし、インシデント収集部４１から誤報管理テーブル５２の新規レコードの登録完了の通知を受けてインシデント管理部４２が実行するようにしてもよい。いずれにしても、上記のような別の処理手順例を採用する場合には、図２６のステップＳ７０３の処理は不要となる。

このような別の処理手順例を採用した場合には、誤報と判断されない異常データに対応する入力データに関する情報は、誤報管理テーブル５２に格納されないため、データ処理量の軽減、及び誤報管理テーブルが管理する情報の簡素化を図ることができる。一方、図２６及び図２７に示した処理手順例を採用した場合には、インシデント収集部４１とインシデント管理部４２とを独立して実行することができるため、別の処理手順例に比べて、処理負荷の低減を図ることができる。

以上に説明したように、データ管理システム１Ａは、インシデント収集処理及びインシデント評価処理を実行することにより、ユーザによって誤報と判断されたインシデントについて、その出力データを生成したモデルの元となった入力データ（誤報の元となった入力データ）に誤報フラグを付与し、その情報を誤報管理テーブル５２に格納することができる。そしてデータ管理システム１Ａは、誤報フラグを付与した入力データを、例えば以下のように利用することができる。

例えば第１の利用として、誤報フラグが付与されたデータを再学習に使われないようにしてもよい。この場合、図２７のステップＳ８０６で入力データに誤報フラグを付与する際に、データ管理部２５等が、当該入力データに付与されている再学習見込みフラグ（フラグＩＤ「Ｆ０００１」）を除去すればよい。具体的には、当該入力データに対する「Ｆ０００１」のフラグをクリアし、再学習見込み管理テーブル３３から当該入力データの登録を削除することにより、以後、再学習に利用するデータとして選択されないようにすることができる。

なお、誤報フラグが付与される入力データは異常なデータではなく、このようなデータから再学習見込みフラグを除去してしまうと、データの重要度の計算に影響を及ぼしてしまう場合がある。そこで第１の利用においては、誤報フラグが付与される入力データから再学習見込みフラグを除去することなく、再学習画面１２０（図１４参照）において、誤報フラグが付与された入力データを再学習に利用するデータとして選択させない制御を行うようにしてもよい。

また例えば、第２の利用として、誤報フラグを付与した入力データを、新しいバージョンに更新したモデルの評価に利用するようにしてもよい。この場合、新しいバージョンのモデルにおいて誤報フラグが付与された入力データから出力データを生成した際に、出力データに異常が検知されなければ、当該入力データが異常な出力データの元ではないことが明確になり、モデル精度が向上したと判断することができる。

このように、データ管理システム１の変形例であるデータ管理システム１Ａは、「誤報の元となった入力データ」に関する情報をユーザに提供可能なことにより、データ管理システム１よりもさらに効率的なデータ管理を実現することができる。

１，１Ａデータ管理システム
２入力装置
３表示装置
４ネットワーク
１０ＣＰＵ
２０，２０Ａ主記憶装置
２１データ入力部
２２学習処理部
２３評価処理部
２４モデル更新処理部
２５データ管理部
２６情報表示部
２７運用部
３０，３０Ａ補助記憶装置
３１，３１Ａデータ管理テーブル
３２，３２Ａフラグ重要度管理テーブル
３３再学習見込み管理テーブル
３４再学習見込み履歴管理テーブル
３５監視画面管理テーブル
３６監視画面履歴管理テーブル
３７学習処理管理テーブル
３８評価処理管理テーブル
４１インシデント収集部
４２インシデント管理部
５１インシデント管理テーブル
５２誤報管理テーブル
１１０監視画面
１２０再学習画面
１３０評価画面
１４０データ管理結果画面

Claims

機械学習のライフサイクルに沿ってモデルを運用しながら、前記モデル及びその関連データを管理する機械学習モデルのデータ管理システムであって、
前記ライフサイクルに含まれる複数の処理のうちの１以上の所定の処理について、各処理に対応して定義されたフラグを管理するフラグ管理情報と、
前記ライフサイクルに沿ってモデルを運用する運用部と、
前記モデルの入力データ及び出力データを管理するデータ管理部と、
を備え、
前記運用部は、前記モデルの運用時の前記所定の処理への関与に応じて、当該モデルの入力データ及び出力データに、前記フラグ管理情報に定義されたフラグを付与し、
前記データ管理部は、それぞれの前記入力データ及び前記出力データについて、前記運用部によって当該データに付与されたフラグに基づいて、当該データの保存の要否を判定する
ことを特徴とする機械学習モデルのデータ管理システム。
それぞれの前記フラグには重要度が設定され、
前記データ管理部は、それぞれの前記入力データ及び前記出力データについて、前記運用部によって当該データに付与された前記フラグの重要度に基づいて当該データの重要度を算出し、算出した当該データの重要度が所定の閾値以下である場合に、当該データを保存が不要なデータと判定する
ことを特徴とする請求項１に記載のデータ管理システム。
前記データ管理部は、前記入力データまたは前記出力データに複数の前記フラグが付与されている場合には、当該複数のフラグにそれぞれ設定された重要度の合算値を当該データの重要度とする
ことを特徴とする請求項２に記載のデータ管理システム。
前記データ管理部による前記データの保存の要否の判定結果を表示画面に出力する情報表示部をさらに備え、
前記データ管理部は、前記表示画面に表示された前記保存が不要なデータのうち、ユーザによって選択されたデータを削除する
ことを特徴とする請求項１に記載のデータ管理システム。
前記データ管理部は、前記保存が不要なデータと判定したデータを自動的に削除する
ことを特徴とする請求項１に記載のデータ管理システム。
前記フラグ管理情報が管理するフラグには、
データの精度を監視する監視画面の表示に使用される入力データまたは出力データに付与される第１のフラグと、
前記監視画面の表示に使用されなくなった入力データまたは出力データに付与される第２のフラグと、
モデルの再学習に使用される見込みがある入力データに付与される第３のフラグと、
前記モデルの再学習に使用される見込みがあると判断された後に前記モデルの再学習に使用された入力データに付与される第４のフラグと、
前記モデルの学習に使用された入力データに付与される第５のフラグと、
新たに生成されたモデルから生成した出力データを評価したときに、当該モデルの生成に使用された入力データ及び当該モデルから生成された出力データに付与される第６のフラグと、
モデルに異常と検知された出力データが異常ではなかった場合に、当該モデルが当該出力データを出力する元となった入力データに付与される第７のフラグと、のうちの少なくとも何れかが含まれる
ことを特徴とする請求項２に記載のデータ管理システム。
前記第１、第３、第５、第６、及び第７のフラグには、前記第２及び第４のフラグよりも高い重要度が設定される
ことを特徴とする請求項６に記載のデータ管理システム。
前記フラグ管理情報が管理するフラグには、前記第３のフラグが含まれ、
前記運用部は、入力データを使用してモデルを生成し、当該モデルから出力データを生成した後、当該出力データに異常が検知されたか、当該入力データが希少であると判断された場合に、当該入力データに前記第３のフラグを付与する
ことを特徴とする請求項７に記載のデータ管理システム。
前記フラグ管理情報が管理するフラグには、前記第４及び第５のフラグがさらに含まれ、
前記運用部は、前記生成したモデルから生成した出力データの精度が悪い場合に、前記第３のフラグが付与されている入力データのうちからユーザによって選択された入力データを用いて新たにモデルを生成する再学習を実行し、当該再学習に使用した前記入力データに対して、前記第３のフラグを削除して前記第４のフラグを付与するとともに、前記第５のフラグを付与する
ことを特徴とする請求項８に記載のデータ管理システム。
前記フラグ管理情報が管理するフラグには、前記第６のフラグがさらに含まれ、
前記運用部は、前記新たに生成したモデルに、ユーザによって選択された評価用の入力データを入力して出力データを生成し、その精度を判断することによって前記新たに生成したモデルを評価し、前記評価用の入力データと前記評価用の入力データを入力して生成された前記出力データとに、前記第６のフラグを付与する
ことを特徴とする請求項９に記載のデータ管理システム。
前記フラグ管理情報が管理するフラグには、前記第１及び第２のフラグがさらに含まれ、
前記運用部は、前記新たに生成したモデルを評価した後に、当該モデルを今後使用するモデルとして更新した場合に、更新前のモデルの生成に使用された入力データと更新前のモデルで生成された出力データとに対して、付与されていた前記第１のフラグを削除して前記第２のフラグを付与するとともに、更新後のモデルの生成に使用された入力データと更新後のモデルで生成された出力データとに対して、前記第１のフラグを付与する
ことを特徴とする請求項１０に記載のデータ管理システム。
機械学習のライフサイクルに沿ってモデルを運用しながら、前記モデル及びその関連データを管理する機械学習モデルのデータ管理システムによるデータ管理方法であって、
前記データ管理システムは、
前記ライフサイクルに含まれる複数の処理のうちの１以上の所定の処理について、各処理に対応して定義されたフラグを管理するフラグ管理情報と、
前記ライフサイクルに沿ってモデルを運用する運用部と、
前記モデルの入力データ及び出力データを管理するデータ管理部と、
を有し、
前記運用部が、前記モデルの運用時の前記所定の処理への関与に応じて、当該モデルの入力データ及び出力データに、前記フラグ管理情報に定義されたフラグを付与する運用ステップと、
前記データ管理部が、それぞれの前記入力データ及び前記出力データについて、前記運用ステップで当該データに付与されたフラグに基づいて、当該データの保存の要否を判定する要否判定ステップと、
を備えることを特徴とする機械学習モデルのデータ管理方法。
モデルの出力データのうち、前記モデルに異常と検知された出力データに関する情報を収集して蓄積するインシデント収集部、をさらに備える
ことを特徴とする請求項１１に記載のデータ管理システム。
前記フラグ管理情報が管理するフラグには、前記第７のフラグがさらに含まれ、
前記インシデント収集部によって情報が蓄積された出力データについて異常ではない旨のユーザ判断が行われた場合に、当該出力データの生成モデルの元となった入力データに前記第７のフラグを付与するインシデント管理部、をさらに備える
ことを特徴とする請求項１３に記載のデータ管理システム。