JP2022183796A - 情報処理装置及び方法 - Google Patents
情報処理装置及び方法 Download PDFInfo
- Publication number
- JP2022183796A JP2022183796A JP2021091281A JP2021091281A JP2022183796A JP 2022183796 A JP2022183796 A JP 2022183796A JP 2021091281 A JP2021091281 A JP 2021091281A JP 2021091281 A JP2021091281 A JP 2021091281A JP 2022183796 A JP2022183796 A JP 2022183796A
- Authority
- JP
- Japan
- Prior art keywords
- data
- reliability
- target data
- contribution
- reference data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000004364 calculation method Methods 0.000 claims abstract description 89
- 230000007613 environmental effect Effects 0.000 claims abstract description 41
- 238000004458 analytical method Methods 0.000 claims description 47
- 238000010801 machine learning Methods 0.000 claims description 10
- 230000002194 synthesizing effect Effects 0.000 claims description 9
- 238000003672 processing method Methods 0.000 claims description 5
- 230000006866 deterioration Effects 0.000 abstract description 10
- 239000002131 composite material Substances 0.000 abstract description 7
- 238000012545 processing Methods 0.000 description 46
- 230000006870 function Effects 0.000 description 40
- 238000013473 artificial intelligence Methods 0.000 description 33
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 239000000654 additive Substances 0.000 description 4
- 230000000996 additive effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 230000036772 blood pressure Effects 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Abstract
【課題】予測システムの精度劣化の原因となる環境変化に起因する損害の発生を未然に防止する情報処理装置及び方法を提供する。【解決手段】複数の端末装置と情報処理装置が、ネットワークを介して接続される情報処理システムにおいて、情報処理装置4は、予め用意した複数の基準データを格納する基準データデータベース26と、予測対象となる対象データと複数の基準データに基づいて、対象データ及び基準データを合成した第1の合成データを夫々生成する合成データ生成部30と、各第1の合成データに対する予測を行う予測器31と、各第1の合成データに対する予測結果の信頼度を夫々算出する信頼度算出部32と、第1の合成データについての予測結果の信頼度に対する対象データの各特徴量の寄与度をそれぞれ算出する信頼度寄与度算出部33と、算出した第1の合成データに対する予測結果の信頼度に対する各特徴量の寄与度を出力する出力部34と、を備える。【選択図】図4
Description
本発明は情報処理装置及び方法に関し、例えば、AI(Artificial Intelligence)を活用した予測システムに適用して好適なものである。
近年、AIの社会浸透が進み、AIを活用した予測システムが多く運用されるようになってきている。このようなシステムを運用するに際しては、環境の変化に起因するAIの精度劣化に伴う損害の発生を防ぐ必要がある。
例えば、ある消防署の管轄地域が発展すると、救急車や消防車などの緊急車両の出動回数が増加し、緊急車両の出動要請の受電時に緊急車両が出動中のために緊急車両を直ちに現地に向かわせることができないという事態が発生する可能性がある。
このため、例えば、かかる緊急車両の出動要請の受電から緊急車両が現地に到着するまでの時間をAIにより予測する予測システムを構築した場合、対象地域の発展に伴ってその予測システムのメンテナンスを適宜行う必要がある。
このようなメンテナンスを怠った場合、AIが精度劣化して緊急車両の到着時間として実際よりも短い時間を予測してしまい、人命が失われる事態が発生するおそれがある。このようにAIの精度劣化が判明した時点で損害が既に発生しているということができる。
この点について、例えば非特許文献1には、LossSHAP(Shapley Additive exPlanations)と呼ばれる手法を用いて環境変化の発生を検知する方法が開示されている。具体的には、AIの予測誤差に対する予測対象のデータの各特徴量の貢献度の経時変化を観察することで環境変化の発生を検知することが開示されている。この方法は、例えば、今まで予測誤差に対する「近くの病院数」という特徴量の貢献度が低かったのに対して、当該特徴量のかかる貢献度が高まってきたとすると、それを環境変化の発生と捉えるものである。
H. Chen、他2名、"Explaining Models byPropagating Shapley Values"、[online]、2019年12月2日、[2021年5月13日検索]、インターネット<URL: https://arxiv.org/pdf/1911.11888.pdf>
ところで、非特許文献1に開示された技術では、AIの予測誤差を利用するため、正解値が得られた事例について、事後的にしかAIの予測誤差に対する予測対象のデータの各特徴量の貢献度を算出できないという問題がある。しかしながら、実際の案件では、例えば住宅ローンの審査など、正解値が得られるまでに相当の時間を要する場合や、救急車両の到着時間の予測など正解値が分かってからでは重大な損害が発生する場合があり、正解値が得られるのを待つことができない。
本発明は以上の点を考慮してなされたもので、予測システムの精度劣化の原因となる環境変化を検知するための情報をいち早く提示でき、かかる環境変化に起因する損害の発生を未然に防止し得る情報処理装置及び方法を提案しようとするものである。
かかる課題を解決するため本発明においては、機械学習モデルを利用した予測システムにおける環境変化を検知するための情報を提示する情報処理装置において、予測対象となる対象データと、予め用意した複数の基準データとに基づいて、前記対象データ及び前記基準データを合成した第1の合成データをそれぞれ生成する合成データ生成部と、各前記第1の合成データに対する予測を行う予測器と、各前記第1の合成データに対する前記予測器の予測結果の信頼度をそれぞれ算出する信頼度算出部と、各前記第1の合成データについての前記予測結果の前記信頼度に基づいて、前記対象データについての予測結果の信頼度に対する前記対象データの各特徴量の寄与度をそれぞれ算出する信頼度寄与度算出部と、前記信頼度寄与度算出部により算出された前記対象データに対する前記予測結果の前記信頼度に対する各前記特徴量の寄与度を出力する出力部とを設けるようにした。
また本発明においては、機械学習モデルを利用した予測システムにおける環境変化を検知するための情報を提示する情報処理装置により実行される情報処理方法であって、予測対象となる対象データと、予め用意した複数の基準データとに基づいて、前記対象データ及び前記基準データを合成した第1の合成データをそれぞれ生成する第1のステップと、各前記第1の合成データに対する予測を行う第2のステップと、各前記第1の合成データに対する前記予測器の予測結果の信頼度をそれぞれ算出する第3のステップと、各前記第1の合成データについての前記予測結果の前記信頼度に基づいて、前記対象データについての予測結果の信頼度に対する前記対象データの各特徴量の寄与度をそれぞれ算出する第4のステップと、算出した前記対象データに対する前記予測結果の前記信頼度に対する各前記特徴量の寄与度を出力する第5のステップとを設けるようにした。
本発明の情報処理装置及び方法によれば、ユーザは、提示された対象データに対する予測結果の信頼度に対する各特徴量の寄与度に基づいて、予測システムの予測精度の劣化の原因となる環境変化の発生の有無を認識することができ、環境変化の発生を認識した場合には、予測システムのメンテナンスを行うことにより、環境変化に起因する損害の発生を未然に防止することができる。
本発明によれば、予測システムの予測精度の劣化原因となる環境変化を検知するための情報をいち早く提示でき、かかる環境変化に起因する損害の発生を未然に防止し得る情報処理装置及び方法を実現できる。
以下図面について、本発明の一実施の形態を詳述する。
(1)第1の実施の形態
(1-1)本実施の形態による情報処理システムの構成
図1において、1は全体として本実施の形態による情報処理システムを示す。この情報処理システム1は、AIを活用した予測システムにおいて、AIの予測精度劣化の原因となる環境変化を検知するための情報をユーザに提供する機能(以下、これを環境変化情報提示機能と呼ぶ)を有するシステムであり、ネットワーク2を介して接続された複数の端末装置3と、情報処理装置4とを備えて構成される。
(1-1)本実施の形態による情報処理システムの構成
図1において、1は全体として本実施の形態による情報処理システムを示す。この情報処理システム1は、AIを活用した予測システムにおいて、AIの予測精度劣化の原因となる環境変化を検知するための情報をユーザに提供する機能(以下、これを環境変化情報提示機能と呼ぶ)を有するシステムであり、ネットワーク2を介して接続された複数の端末装置3と、情報処理装置4とを備えて構成される。
端末装置3は、ユーザが使用するコンピュータ装置であり、パーソナルコンピュータ、ノート型パーソナルコンピュータ又はタブレットなどから構成される。端末装置3は、ユーザ操作に応じて必要なコマンドやデータを情報処理装置4に送信したり、情報処理装置4から送信されてきた画面データに基づく画面を表示するなどの処理を実行する。
情報処理装置4は、CPU10、主記憶装置11、補助記憶装置12、通信装置13、入力装置14及び出力装置15などの情報処理資源を備えた汎用のコンピュータ装置から構成される。
CPU10は、情報処理装置4全体の動作を統括的に制御する演算装置であり、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)又はAIチップなどから構成される。
主記憶装置11は、CPU10のワーキングメモリとして利用される半導体メモリであり、ROM(Read Only Memory)及びRAM(Random Access Memory)を備えて構成される。ROMは、マスクROM(Mask ROM)やPROM(Programmable ROM)などから構成され、RAMは、SRAM(Static RAM)、NVRAM(Non Volatile RAM)、DRAM(Dynamic RAM)などから構成される。後述する合成データ生成プログラム20、AIプログラム21、信頼度算出プログラム22、信頼度寄与度算出プログラム23及び出力プログラム24は、情報処理装置4の起動時や必要時に補助記憶装置12から読み出されて主記憶装置11に格納されて保持される。
補助記憶装置12は、プログラムや長期保存すべきデータを記憶保持するための利用される不揮発性の大容量の記憶装置であり、ハードディスク装置、フラッシュメモリ、SSD(Solid State Drive)及び又は光学式記憶装置などから構成される。光学式記憶装置としては、CD(Compact Disc)ドライブや、DVD(Digital Versatile Disc)ドライブ又はブルーレイドライブなどが利用される。後述の教師データデータベース25及び基準データデータベース26も補助記憶装置12に格納されて保持される。
通信装置13は、ネットワーク2を介して端末装置3と通信を行うための通信インタフェースであり、NIC(Network Interface Card)や、シリアル通信モジュールなどから構成される。通信装置13として、NICやシリアル通信モジュール等に加えて、USB(Universal Serial Interface)を備えていてもよい。
入力装置14は、ユーザが各種指示や情報を入力するためのユーザインタフェースであり、キーボードやマウス、カードリーダ及び又はタッチパネルなどから構成される。また出力装置15は、各種情報を視覚的及び又は聴覚的にユーザに提供するユーザインタフェースであり、液晶ディスプレイ若しくは有機EL(Electro-Luminescence)ディスプレイなどの表示装置や、スピーカ及び又はプリンタなどから構成される。
(1-2)本実施の形態による環境変化情報提示機能
次に、情報処理装置4に搭載された環境変化情報提示機能について説明する。これに際して、まず、トラストスコア(Trust Score)及びSHAP(Shapley Additive exPlanations)について説明する。
次に、情報処理装置4に搭載された環境変化情報提示機能について説明する。これに際して、まず、トラストスコア(Trust Score)及びSHAP(Shapley Additive exPlanations)について説明する。
環境変化が発生した場合、それまでにAIが学習したことのないデータ(AIが知らないデータ)が多く出現し始めるが、AIは自信がなくても取り敢えず予測を行う。このためにAI予測の正解率が低下し、AIの予測精度が劣化する。
この場合において、AIの予測精度の劣化に繋がる環境変化が生じたときには、AIが予測値を導く際の「自信の大きさ」も変化する。このようなAIの予測精度の「自信の大きさ」を評価する手法として、近年、機械学習モデルを利用した予測の予測結果の信頼度を算出する方法が数多く提案されており、その1つとして「トラストスコア」がある。
トラストスコアは、分類問題に限定される手法ではあるが、対象となるデータ(以下、これを対象データと呼ぶ)と予測クラス内で一番近いデータの距離と、対象データと予測クラス以外で一番近いデータの距離との比較結果を予測の信頼度として算出する手法である。
このトラストスコアをAI予測に適用することにより、例えば「4」という手書きの画像を画像認識させた場合に、その画像が「4である可能性は90%、信頼度は5.5(=信頼できる)」との認識結果が得られ、犬の画像を見せた場合に、その画像が「4である可能性は90%、信頼度は0.98(=信頼できない)」といった認識結果を得ることができる。
よって、このようなトラストスコアを用いてAI予測の予測結果の信頼度を監視することによって環境変化を検知できるものと考えられる。しかしながら、現実問題として、かかる信頼度が一定であったとしても環境変化が生じている可能性もある。
一方で、かかる信頼度が不変に見えても、その根拠となる対象データの特徴量ごとの予測結果に対する寄与度のレベルでは予兆が発生しているケースがある。よって、かかる信頼度ではなく、この信頼度に対する対象データの各特徴量の寄与度を観察することによって、より精度良く環境変化を検知することができるものと考えられる。
ここで、AIの予測結果に対して対象データの各特徴量(対象データに含まれる各特徴の値)がどれだけ寄与したかを算出する技術としてSHAP(SHapley Additive exPlanations)がある。このSHAPを利用することにより、例えば、「年齢=○○、住所=××」という対象データに対して救急車配備の予測時間が8分であった場合に、『配備時間は平均10分に対して、“年齢=○○”であることが-3分、“住所=××”であることが+1分影響し、予測は8分』といった出力を得ることができる。
SHAPでは、対象データとは別に大量の基準データを用意し、基準データごとにその幾つかの特徴量を対象データの対応する特徴量と入れ替えるようにして合成データを大量に生成し、生成した合成データに基づいてAIに予測を行わせ、その予測結果に基づいて予測結果に対する対象データの各特徴量の寄与度をそれぞれ算出する。
この際、演算処理の簡略化及び迅速化の観点から、通常は、基準データの特徴量と、対象データの特徴量とをあまり入れ替えていない合成データ(例えば、基準データ由来の特徴量の数が1つ以下の合成データ)を優先的に生成する。以下においては、このような合成データの生成手法を「SHAPの従来手法」と呼ぶものとする。
このようなSHAPの技術と、トラストスコアのようなAI予測の予測結果の信頼度を算出する技術と併せて利用することにより、AI予測の予測結果の信頼度に対する各特徴量の寄与度を算出でき、これら特徴量ごとの寄与度を観測することによって環境変化をより精度良く検知することができるものと推測される。なお、ここでの「寄与度」とは、対象データの各特徴量が信頼度に対してどの程度の影響を与えたかを表す値である。
そこで本実施の形態の情報処理装置4には、対象データ及び基準データに基づいて合成データを生成し、生成した各合成データに対する予測結果の信頼度をそれぞれ算出し、算出したこれらの信頼度に対する対象データの各特徴量の寄与度をそれぞれ算出して、これら各特徴量の寄与度を環境変化を検知するための情報としてユーザに提示する環境変化情報提示機能が搭載されている。なお、このような環境変化情報提示機能に関する一連の処理は、いずれかの端末装置3から予測対象の対象データが与えられたタイミングで、当該対象データに対する予測処理と並行して行われる。
このような環境変化情報提示機能を実現するための手段として、図1に示すように、情報処理装置4の主記憶装置11には、合成データ生成プログラム20、AIプログラム21、信頼度算出プログラム22、信頼度寄与度算出プログラム23及び出力プログラム24が格納され、補助記憶装置12には、教師データデータベース25及び基準データデータベース26が格納されている。
合成データ生成プログラム20、AIプログラム21、信頼度算出プログラム22、信頼度寄与度算出プログラム23及び出力プログラム24の詳細については後述する。
教師データデータベース25は、後述する予測器31が緊急車両の到着時間や保険のリスクなどの対象事象を機械学習する際に利用した複数の教師データが格納されたデータベースである。この教師データデータベース25は、図2に示すように、ID欄25A及び特徴量欄25Bを備えたテーブル構造を有する。図2の教師データデータベース25では、1つの行が1つの教師データに対応する。
そしてID欄25Aには、対応する教師データに対して付与されたその教師データに固有の識別子(教師データID)が格納される。また特徴量欄25Bは、教師データを構成する各特徴量にそれぞれ対応させて複数の特徴欄25BAに区分されており、各特徴欄25BA内にそれぞれ対応する特徴の値が特徴量として格納される。
従って、図2の例の場合、「1」という教師データIDが付与された教師データにおいて、「年齢」という特徴(「feat_1」)の値(特徴量)は「30」、「特徴2(feat_2)」である「性別」という特徴(「feat_2」)の値(特徴量)は「男」、「身長」という特徴(「feat_3」)の値(特徴量)は「170」、「体重」という特徴(「feat_4」)の値(特徴量)は「64」、……、「血圧」という特徴(「feat_N」)の値(特徴量)は「120」であることが示されている。
また基準データデータベース26は、対象データと特徴量を入れ替えて上述の合成データを生成する基準データが複数格納されたデータベースである。本実施の形態の場合、教師データデータベース25に登録されている教師データの一部が基準データとして基準データデータベース26に格納される。
基準データデータベース26は、教師データデータベース25と同様の構成を有する。具体的に、基準データデータベース26は、図3に示すように、ID欄26A及び特徴量欄26Bを備えたテーブル構造を有する。図3の基準データデータベース26では、1つの行が1つの基準データに対応する。
そしてID欄26Aには、対応する基準データに対して付与されたその基準データに固有の識別子(基準データID)が格納される。また特徴量欄26Bは、基準データを構成する各特徴の特徴量にそれぞれ対応させて複数の特徴欄26BAに区分されており、各特徴欄26B内に対応する特徴の値が特徴量として格納される。
図4は、上述した本実施の形態の環境変化情報提示機能に関する情報処理装置4の論理構成を示す。この図4に示すように、情報処理装置4は、合成データ生成部30、予測器31、信頼度算出部32及び信頼度寄与度算出部33を備えて構成される。
合成データ生成部30は、情報処理装置4のCPU10(図1)が主記憶装置11(図1)に格納された合成データ生成プログラム20(図1)を実行することにより具現化される機能部である。合成データ生成部30は、基準データデータベース26に格納されている各基準データと、端末装置3(図1)からネットワーク2を介して与えられた所定事項に対する予測対象のデータ(対象データ)とから、上述したSHAPの従来手法によりこれらを合成した合成データを複数生成する機能を有する。そして合成データ生成部30は、このようにして生成した合成データを予測器31、信頼度算出部32及び信頼度寄与度算出部33に出力する。
予測器31は、CPU10が主記憶装置11に格納されたAIプログラム21(図1)を実行することにより具現化される機能部である。予測器31は、基準データデータベース26に予め登録されている基準データを事前に機械学習することにより生成した機械学習モデルを保持し、合成データ生成部30から与えられる各合成データを機械学習モデルに入力することにより、これらの合成データに対する予測を行う機能を有する。そして予測器31は、得られた合成データごとの予測結果を信頼度算出部32に出力する。
信頼度算出部32は、CPU10が主記憶装置11に格納された信頼度算出プログラム22(図1)を実行することにより具現化される機能部である。信頼度算出部32は、基準データデータベース26に格納された各基準データと、端末装置3から与えられた対象データと、予測器31から与えられた各合成データに対する予測結果とに基づいて、各合成データに対する予測結果の信頼度を既存の技術、例えば上述のトラストスコアとしてそれぞれ算出する機能を有する。信頼度算出部32は、算出した合成データごとの予測結果の信頼度を信頼度寄与度算出部33に出力する。
信頼度寄与度算出部33は、CPU10が主記憶装置11に格納された信頼度寄与度算出プログラム23(図1)を実行することにより具現化される機能部である。信頼度寄与度算出部33は、合成データ生成部30から与えられた各合成データと、予測器31による各合成データに対する予測結果と、信頼度算出部32から与えられた合成データごとの予測器31の予測結果の信頼度とに基づいて、摂動ベースの特徴量の寄与度を算出する既存の手法、例えばSHAPと同様の手法により信頼度に対する対象データの各特徴量の寄与度をそれぞれ算出する機能を有する。そして信頼度寄与度算出部33は、算出した特徴量ごとの寄与度を出力部34に出力する。
出力部34は、CPU10が主記憶装置11に格納された出力プログラム24を実行することにより具現化される機能部である。出力部34は、信頼度寄与度算出部33から与えられたかかる信頼度に対する各特徴量の寄与度に基づいて図5について後述する信頼度寄与度算出結果画面40の画面データを生成し、生成した画面データを対応する端末装置3に送信する機能を有する。これにより、この画面データに基づいて、かかる信頼度寄与度算出結果画面40がその端末装置3に表示される。
図5は、かかる信頼度寄与度算出結果画面40の構成例を示す。この構成例において、信頼度寄与度算出結果画面40は、特徴毎寄与度表示領域41及び説明表示領域42を備えて構成される。
そして特徴毎寄与度表示領域41には、信頼度寄与度算出部33により算出された、予測器31の予測結果の信頼度に対する対象データの各特徴量の寄与度の大きさがそれぞれ棒グラフの大きさとして表示される。図5の例では、対象データの特徴量として「年齢」、「性別」、「身長」、「体重」及び「血圧」があり、このうちの「年齢」、「性別」及び「体重」という各特徴量が予測器の予測結果の信頼度を上げる方向に寄与し、「身長」及び「血圧」がかかる信頼度を下げる方向に寄与していることが示されている。
また説明表示領域42には、予測器31の予測結果の信頼度に対する対象データの各特徴量の寄与度についての説明を表すテキストが表示される。図5の例の場合、特徴毎寄与度表示領域41に表示された各特徴量のグラフからも明らかなように、かかる信頼度に対する各特徴量の寄与度のうち、「年齢」がかかる信頼度に寄与する大きさが一番大きいため、「信頼度に対する年齢が大きく影響しています。」という説明が表示されている例が示されている。
よって、ユーザは、端末装置3に表示された信頼度寄与度算出結果画面40に表示された各特徴量の寄与度に基づいて、予測器31の予測結果の信頼度に対するいずれかの特徴量の寄与度がそれまでと比べて大きく変動している場合などに、何らかの環境変化が生じたことを認識することができる。
ただし、予測器31の予測結果の信頼度に対する各特徴量の寄与度の経時変化を観察し、いずれかの特徴量の経時変化の変化量が一定の閾値を超えた場合に、その旨の警告を対応する端末装置3に表示させるなどしてユーザに通知する機能部を設けるようにしてもよい。
(1-3)環境変化情報提示機能に関する各機能部の処理
次に、本実施の形態による環境変化情報提示機能に関連して情報処理装置4の合成データ生成部30及び信頼度寄与度算出部33によりそれぞれ実行される各処理の具体的な処理内容について説明する。なお、以下においては、各処理の処理主体を合成データ生成部30又は信頼度寄与度算出部33として説明するが、実際上は、情報処理装置4のCPU10が対応するプログラム(合成データ生成プログラム20又は信頼度寄与度算出プログラム23)に基づいてその処理を実行することは言うまでもない。
次に、本実施の形態による環境変化情報提示機能に関連して情報処理装置4の合成データ生成部30及び信頼度寄与度算出部33によりそれぞれ実行される各処理の具体的な処理内容について説明する。なお、以下においては、各処理の処理主体を合成データ生成部30又は信頼度寄与度算出部33として説明するが、実際上は、情報処理装置4のCPU10が対応するプログラム(合成データ生成プログラム20又は信頼度寄与度算出プログラム23)に基づいてその処理を実行することは言うまでもない。
(1-3-1)合成データ生成処理
図6は、かかる環境変化情報提示機能に関連して合成データ生成部30により実行される合成データ生成処理の流れを示す。合成データ生成部30は、この図6に示す処理手順に従って、合成データを生成する。
図6は、かかる環境変化情報提示機能に関連して合成データ生成部30により実行される合成データ生成処理の流れを示す。合成データ生成部30は、この図6に示す処理手順に従って、合成データを生成する。
実際上、合成データ生成部30は、ユーザ操作に応じて、いずれかの端末装置3から対象データと、その対象データに対する予測を実行すべき旨の指示とが与えられるとこの図6に示す合成データ生成処理を開始する。
そして合成データ生成部30は、まず、基準データデータベース26に格納されている基準データの中からステップS2以降が未処理の基準データを1つ選択する(S1)。また合成データ生成部30は、ステップS1で選択した基準データを利用して、例えばSHAPの従来手法により1又は複数の合成データを生成し(S2)、生成した合成データを予測器31、信頼度算出部32及び信頼度寄与度算出部33にそれぞれ出力する(S3)。
この後、合成データ生成部30は、基準データデータベース26に登録されているすべての又は予め設定された所定数の基準データについてステップS2の処理(合成データの生成処理)を実行し終えたか否かを判断する(S4)。そして合成データ生成部30は、この判断で否定結果を得るとステップS1に戻り、この後、ステップS1で選択する基準データをステップS2が未処理の他の基準データに順次切り替えながらステップS1~ステップS4の処理を繰り返す。
そして合成データ生成部30は、やがて基準データデータベース26に登録されているすべての又は予め設定された所定数の基準データに基づいて合成データを生成し終えることによりステップS4で肯定結果を得ると、この合成データ生成処理を終了する。
(1-3-2)信頼度算出処理
一方、図7は、かかる環境変化情報提示機能に関連して信頼度算出部32により実行される信頼度算出処理を示す。信頼度算出部32は、この図7に示す処理手順に従って、各合成データに対する予測結果の信頼度をそれぞれ算出する。
一方、図7は、かかる環境変化情報提示機能に関連して信頼度算出部32により実行される信頼度算出処理を示す。信頼度算出部32は、この図7に示す処理手順に従って、各合成データに対する予測結果の信頼度をそれぞれ算出する。
実際上、信頼度算出部32は、各合成データが合成データ生成部30から与えられると共に、これら合成データに対する予測結果が予測器31から与えられると、この図7に示す信頼度算出処理を開始し、まず、合成データ生成部30から順次与えられる合成データのうちのステップS11以降が未処理の合成データを1つ選択する(S10)。
続いて、信頼度算出部32は、ステップS10で選択した合成データ(以下、これを選択合成データと呼ぶ)に対する予測結果の信頼度を算出する(S11)。本実施の形態においては、信頼度算出部32は、かかる信頼度として、予測結果のトランススコアを算出する。
次いで、信頼度算出部32は、すべての合成データについてステップS11の処理を実行し終えたか否かを判断する(S12)。そして信頼度算出部32は、この判断で否定結果を得るとステップS10に戻り、この後、ステップS10で選択する合成データをステップS11が未処理の他の合成データに順次切り替えながらステップS10~ステップS12の処理を繰り返す。
そして信頼度算出部32は、やがて合成データ生成部30から与えられたすべての合成データについて予測結果の信頼度を算出し終えることによりステップS12で肯定結果を得ると、この信頼度算出処理を終了する。
(1-3-3)信頼度寄与度算出処理
他方、図8は、かかる環境変化情報提示機能に関連して信頼度寄与度算出部33により実行される信頼度寄与度算出処理を示す。信頼度寄与度算出部33は、この図8に示す処理手順に従って、対象データに対する予測結果の信頼度における各特徴量の寄与度をそれぞれ算出する。
他方、図8は、かかる環境変化情報提示機能に関連して信頼度寄与度算出部33により実行される信頼度寄与度算出処理を示す。信頼度寄与度算出部33は、この図8に示す処理手順に従って、対象データに対する予測結果の信頼度における各特徴量の寄与度をそれぞれ算出する。
実際上、信頼度寄与度算出部33は、合成データ生成部30からすべての合成データが与えられると共に、これらの合成データに対する予測器31の各予測結果に対する各信頼度が信頼度算出部32から与えられると、この図8に示す信頼度寄与度算出処理を開始する。
そして信頼度寄与度算出部33は、摂動ベースの特徴量の寄与度を算出する既存の手法(例えばSHAP)を用いて、対象データの予測結果の信頼度に対する対象データの各特徴量の寄与度をそれぞれ算出する(S15)。そして信頼度寄与度算出部33は、算出した各特徴量の寄与度を出力部34に出力し(S16)、この後、この信頼度寄与度算出処理を終了する。
(1-4)本実施の形態の効果
以上のように本実施の形態の情報処理装置4では、対象データ及び基準データに基づいて合成データを生成し、生成した各合成データに対する予測結果の信頼度をそれぞれ算出し、算出したこれらの信頼度に基づいて対象データについての予測結果の信頼度に対する対象データの各特徴量の寄与度をそれぞれ算出して、これら各特徴量の寄与度が表示された信頼度寄与度算出結果画面40を表示する。
以上のように本実施の形態の情報処理装置4では、対象データ及び基準データに基づいて合成データを生成し、生成した各合成データに対する予測結果の信頼度をそれぞれ算出し、算出したこれらの信頼度に基づいて対象データについての予測結果の信頼度に対する対象データの各特徴量の寄与度をそれぞれ算出して、これら各特徴量の寄与度が表示された信頼度寄与度算出結果画面40を表示する。
よって、ユーザは、信頼度寄与度算出結果画面40に表示された対象データの特徴量ごとのかかる寄与度に基づいて、AI予測の精度劣化の原因となる環境変化の発生の有無を認識することができ、環境変化の発生を認識した場合には、AIのメンテナンスを行うことで、環境変化に起因する損害の発生を未然に防止することができる。
このように本実施の形態によれば、AI予測の精度劣化の原因となる環境変化を検知するための情報をいち早く提示でき、かかる環境変化に起因する損害の発生を未然に防止し得る情報処理装置を実現することができる。
(2)第2の実施の形態
図1との対応部分に同一符号を付して示す図9は、第2の実施の形態による情報処理システム50を示す。この情報処理システム50は、情報処理装置51の主記憶装置11に類似判定プログラム52及び類似度算出プログラム53が追加的に格納されている点と、情報処理装置51の補助記憶装置12に類似情報データベース54が追加的に格納されている点と、合成データ生成プログラム55の機能が異なる点とを除いて第1の実施の形態の情報処理システム1と同様に構成されている。
図1との対応部分に同一符号を付して示す図9は、第2の実施の形態による情報処理システム50を示す。この情報処理システム50は、情報処理装置51の主記憶装置11に類似判定プログラム52及び類似度算出プログラム53が追加的に格納されている点と、情報処理装置51の補助記憶装置12に類似情報データベース54が追加的に格納されている点と、合成データ生成プログラム55の機能が異なる点とを除いて第1の実施の形態の情報処理システム1と同様に構成されている。
類似判定プログラム52、類似度算出プログラム53及び合成データ生成プログラム55の機能については後述する。
類似情報データベース54は、後述の類似判定部61(図11)により判定された、基準データデータベース26に登録されているすべての又は予め設定された所定数の基準データと、端末装置3から与えられた予測対象のデータ(対象データ)との間にそれぞれ類似性があるか否かの判定結果が格納されるデータベースである。
この類似情報データベース54は、図10に示すように、ID欄54A及び類似性欄54Bを備えたテーブル構造を有する。図10の類似情報データベース54では、1つの行が基準データデータベース26に登録されている1つの基準データに対応する。
そしてID欄54Aには、対応する基準データの基準データIDが格納される。また類似性欄54Bには、対応する基準データが対象データと類似する場合には「1」、類似していない場合には「0」が格納される。
従って、図10の例の場合、「1」という基準データIDが付与された基準データは、そのとき端末装置3から与えられた対象データとは類似しておらず、「2」という基準データIDが付与された基準データはかかる対象データと類似していると類似判定部61(図11)により判定されたことが示されている。
図4との対応部分に同一符号を付して示す図11は、本実施の形態による環境変化情報提示機能に関する情報処理装置51の論理構成を示す。この図11に示すように、情報処理装置51は、予測器31、信頼度算出部32、信頼度寄与度算出部33及び出力部34に加えて、類似度算出部60、類似判定部61及び合成データ生成部62を備えて構成される。
類似度算出部60は、情報処理装置51のCPU10(図9)が主記憶装置11(図9)に格納された類似度算出プログラム53(図9)を実行することにより具現化される機能部である。類似度算出部60は、後述のように類似判定部61から与えられた対象データ及び基準データの類似度を既存の手法により算出する機能を有する。類似度算出部60は、算出した対象データ及び基準データの類似度を類似判定部61に出力する。
類似判定部61は、情報処理装置51のCPU10が主記憶装置11に格納された類似判定プログラム52(図9)を実行することにより具現化される機能部である。類似判定部61は、端末装置3から与えられた予測対象の対象データと、基準データデータベース26に登録されているすべての又は所定数の基準データを類似度算出部60に出力する機能を有する。類似判定部61は、この結果として類似度算出部60により算出された各基準データと対象データとの類似度に基づいて、その基準データと対象データとの間の類似性の有無をそれぞれ判定し、判定結果を類似情報データベース54に登録する。
合成データ生成部62は、基準データデータベース26に格納されているすべての又は所定数の基準データについて、これら基準データごとに、類似情報データベース54に登録されているその基準データの対象データとの類似性の有無に応じて合成手法を切り替えながら、その基準データと対象データとの合成データを生成する機能を有する。
実際上、合成データ生成部62は、対象データと類似しない基準データについては、混ざり具合に依存しない合成データを生成すべく、例えば図12に示すように、最終的に生成された合成データ全体において、基準データ由来の特徴量の数に偏りが生じることなく基準データ由来の特徴量の数が均一に分布するように、基準データの特徴量と対象データの対応する特徴量とを入れ替えるようにして合成データを生成する。また合成データ生成部62は、対象データと類似する基準データについては、SHAPの従来手法によりその基準データを用いて合成データを生成する。
なお、このように対象データと基準データとが類似するか否かで合成データの生成手法を切り替えるのは、効率性を上げながら、その合成データについて算出された予測結果の信頼度に対する対象データの各特徴量の寄与度を精度良く算出できるようにするためである。
実際上、対象データの特徴量と、基準データの特徴量との混ざり具合が低い合成データ(ほぼ対象データ又はほぼ基準データ)は信頼度が高く、混ざり具合が高い合成データは信頼度が低くなる傾向があるため、SHAPの従来手法では信頼度が高い合成データを偏って生成してしまうこととなり、その合成データについて算出された予測結果の信頼度に対する対象データの各特徴量の寄与度を正確に算出することができない。
そこで、対象データ及び基準データが類似していない場合には、最終的に生成される合成データ全体において、基準データ由来の特徴量の数に偏りが生じることなく、基準データ由来の特徴量の数が均一に分布するように、基準データの特徴量と対象データの対応する特徴量とを入れ替えるようにして合成データを生成することにより、信頼度が高い合成データと、信頼度が低い合成データとが同じ程度存在するように合成データを生成し、これにより信頼度寄与度算出部33により算出されるかかる信頼度に対する対象データの各特徴量の寄与度の精度を向上させる。
一方で、対象データ及び基準データが類似している場合には、対象データの特徴量と、基準データの特徴量とを幾つ入れ替えたとしても生成される合成データはあまり変わりがないため、演算処理の簡略化及び迅速化の観点から、SHAPの従来手法により合成データを生成する。
そして合成データ生成部62は、生成した合成データを予測器31、信頼度算出部32及び信頼度寄与度算出部33にそれぞれ出力する。
図13は、本実施の形態の環境変化情報提示機能に関連して情報処理装置51の類似判定部61(図11)により実行される類似判定処理の処理内容を示す。類似判定部61は、この図13の処理手順に従って各基準データと対象データとの類似性の有無を判定する。
実際上、類似判定部61は、いずれかの端末装置3から対象データが与えられるとこの図13に示す類似判定処理を開始し、まず、基準データデータベース26に登録されている基準データの中からステップS21以降が未処理の基準データを1つ選択する(S20)。
続いて、類似判定部61は、対象データに対するステップS20で選択した基準データ(以下、図13の説明において、これを選択基準データと呼ぶ)の類似度を算出するよう類似度算出部60(図11)に依頼する(S21)。この結果、対象データ及び選択基準データ間の類似度が類似度算出部60により算出されて類似判定部61に通知される。
類似判定部61は、かかる類似度が類似度算出部60から通知されると、通知された類似度に基づいて、対象データ及び選択基準データが類似しているか否かを判定し(S22)、判定結果を類似情報データベースに登録する(S23)。
具体的に、類似判定部61は、類似度算出部60から通知された類似度を予め設定された閾値(以下、これを類似度判定閾値と呼ぶ)と比較する。そして類似判定部61は、かかる類似度が類似度判定閾値以上である場合には、選択基準データ及び対象データと類似すると判定して、類似情報データベース54における選択基準データに対応する行の類似性欄54B(図10)に「1」を格納する。また類似判定部61は、かかる類似度が類似度判定閾値未満である場合には、選択基準データ及び対象データが類似していないと判定して、類似情報データベース54における選択基準データに対応する行の類似性欄54Bに「0」を格納する。
次いで、類似判定部61は、基準データデータベース26に格納されているすべての基準データに対してステップS21以降の処理を実行し終えたか否かを判断する(S24)。そして類似判定部61は、この判断で否定結果を得るとステップS20に戻り、この後、ステップS20で選択する基準データをステップS21以降が未処理の他の基準データに順次切り替えながらステップS20~ステップS24の処理を繰り返す。
そして類似判定部61は、やがて基準データデータベース26に格納されているすべての基準データについて対象データとの類似性の有無を判定し終えることによりステップS24で肯定結果を得ると、この類似判定処理を終了する。
一方、図14は、本実施の形態の環境変化情報提示機能に関連して合成データ生成部62により実行される合成データ生成処理の処理内容を示す。合成データ生成部62は、この図13に示す処理手順に従って、基準データデータベース26に格納されている各基準データに基づいて合成データを生成する。
実際上、合成データ生成部62は、類似判定部61が基準データデータベース26に登録されているすべての又は所定数の基準データについて対象データとの類似性の有無を判定し終えると、この図14に示す合成データ生成処理を開始し、まず、基準データデータベース26に格納されている基準データのうちのステップS31以降が未処理の基準データを1つ選択する(S30)。
続いて、合成データ生成部62は、類似情報データベース54(図10)を参照して、ステップS30で選択した基準データ(以下、図14の説明においてこれを選択基準データと呼ぶ)が対象データと類似しているか否かを判断する(S31)。
そして合成データ生成部62は、この判断で肯定結果を得ると、上述した従来手法により選択基準データを利用して合成データを生成し(S32)、生成した合成データを予測器31、信頼度算出部32及び信頼度寄与度算出部33にそれぞれ出力する(S34)。
これに対して、合成データ生成部62は、ステップS31の判断で否定結果を得ると、基準データ由来の特徴量の数に偏りが生じることなく基準データ由来の特徴量の数が均一となるように、合成データを生成し(S33)、生成した合成データを予測器31、信頼度算出部32及び信頼度寄与度算出部33にそれぞれ出力する(S34)。
次いで、合成データ生成部62は、基準データデータベース26に登録されているすべての又は予め設定された所定数の基準データについてステップS31以降の処理(合成データの生成処理)を実行し終えたか否かを判断する(S35)。そして合成データ生成部62は、この判断で否定結果を得るとステップS30に戻り、この後、ステップS30で選択する基準データをステップS31以降が未処理の他の基準データに順次切り替えながらステップS30~ステップS35の処理を繰り返す。
そして合成データ生成部62は、やがて基準データデータベース26に登録されているすべての又は予め設定された所定数の基準データに基づいて合成データを生成し終えることによりステップS35で肯定結果を得ると、この合成データ生成処理を終了する。
以上のように本実施の形態の情報処理装置51では、対象データと各基準データとの類似性の有無を判定し、基準データが対象データに類似しているか否かに基づいて対象データ及び基準データを合成した合成データの生成手法を切り替えるようしたことにより、第1の実施の形態により得られる効果に加えて、効率性を上げながら、その合成データについて算出された予測結果の信頼度に対する対象データの各特徴量の寄与度を精度良く算出できるという効果をも得ることができる。
(3)第3の実施の形態
図9との対応部分に同一符号を付して示す図15は、第3の実施の形態による情報処理システム70を示す。この情報処理システム70には、第1の実施の形態と同様の環境変化情報提示機能に加えて、運用開始前に予測器31(図17)の苦手傾向(予測結果の信頼性が低い特徴量の傾向)を解析してユーザに提示する苦手傾向提示機能が搭載されている点が第2の実施の形態による情報処理システム50と相違する。
図9との対応部分に同一符号を付して示す図15は、第3の実施の形態による情報処理システム70を示す。この情報処理システム70には、第1の実施の形態と同様の環境変化情報提示機能に加えて、運用開始前に予測器31(図17)の苦手傾向(予測結果の信頼性が低い特徴量の傾向)を解析してユーザに提示する苦手傾向提示機能が搭載されている点が第2の実施の形態による情報処理システム50と相違する。
実際上、本情報処理システム70では、図9について上述した第1の実施の形態の情報処理装置4の構成に加えて、情報処理装置71の主記憶装置11にデータ選択プログラム72及び苦手傾向解析プログラム73が格納されると共に、情報処理装置71の補助記憶装置12に信頼度寄与度データベース74が格納されている。データ選択プログラム72及び苦手傾向解析プログラム73の詳細については、後述する。
信頼度寄与度データベース74は、信頼度寄与度算出部33(図17)により後述のように仮の対象データ(以下、これを仮対象データ)として選択された教師データごとにそれぞれ算出された、その教師データ(仮対象データ)に対するAI予測の予測結果の信頼度に対する各特徴量の寄与度を記憶保持するために利用されるデータベースである。信頼度寄与度データベース74は、図16に示すように、ID欄74A及び特徴量欄74Bを備えたテーブル構造を有する。図16の信頼度寄与度データベース74では、1つの行が1つの仮対象データに対応する。
そしてID欄74Aには、対応する仮対象データに対して付与されたその仮対象データに固有の識別子(仮対象データID)が格納される。また特徴量欄74Bは、仮対象データを構成する各特徴にそれぞれ対応させて複数の特徴欄74BAに区分されており、これらの特徴欄74BAに、後述のように信頼度寄与度算出部33により算出された、その仮対象データに対する予測器31の予測結果の信頼度に対する仮対象データの対応する特徴量の寄与度がそれぞれ格納される。
従って、図16の例の場合、「1」という仮対象データIDが付与された仮対象データに対するAI予測の予測結果の信頼度に対する「年齢」という特徴の値(特徴量)の寄与度は「+5」、「性別」という特徴の値(特徴量)の寄与度は「+5」、「身長」という特徴の値(特徴量)の寄与度は「+3」、「体重」という特徴の値(特徴量)は「+7」、……、「血圧」という特徴の値(特徴量)の寄与度は「+2」であったことが示されている。
図4との対応部分に同一符号を付した図17は、本実施の形態の苦手傾向解析機能に関する情報処理装置71の論理構成を示す。なお環境変化情報提示機能に関する本情報処理装置71の論理構成は、図4について上述した第1の実施の形態の情報処理装置4の論理構成と同じであるため、ここでの図示及び説明については省略する。
図17に示すように、情報処理装置71は、苦手傾向解析機能に関連してデータ選択部80、合成データ生成部30、予測器31、信頼度算出部32、信頼度寄与度算出部33、苦手傾向解析部81及び出力部82を備える。
データ選択部80は、情報処理装置71のCPU10が主記憶装置11に格納された対象データ選択プログラム72(図15)を実行することにより具現化される機能部である。データ選択部80は、教師データデータベース25に登録されている教師データの中から1つの教師データを仮の対象データ(以下、これを仮対象データと呼ぶ)として選択すると共に、この仮対象データ以外の教師データを予め設定された所定数だけ仮基準データとして選択し、これら仮対象データ及び各仮基準データを合成データ生成部30に送信する。またデータ選択部80は、各仮基準データを信頼度算出部32、信頼度寄与度算出部33及び苦手傾向解析部81にも出力する。
そして、この後、これらの各仮基準データ及び仮対象データに基づいて合成データ生成部30、予測器31、信頼度算出部32及び信頼度寄与度算出部33がそれぞれ図4について上述した各処理を実行することで、信頼度寄与度算出部33により、仮対象データの予測結果の信頼度の対する仮対象データの各特徴量の寄与度がそれぞれ算出され、これらの寄与度が信頼度寄与度データベース74にそれぞれ登録される。
同様にして、複数の互いに異なる仮対象データについて、その予測結果の信頼度に対するその仮対象データの各特徴量の寄与度がそれぞれ算出され、算出結果が信頼度寄与度データベース74にそれぞれ格納される。
苦手傾向解析部81は、情報処理装置71のCPU10が主記憶装置11に格納された苦手傾向解析プログラム73(図15)を実行することにより具現化される機能部である。苦手傾向解析部81は、信頼度寄与度データベース74に登録された、各仮対象データの予測結果の信頼度の対するその仮対象データの各特徴の特徴量の寄与度に基づいて、その特徴の特徴量を複数のカテゴリに分けた場合におけるこれらカテゴリごとのかかる信頼度への寄与度の平均値をそれぞれ算出する。
具体的に、苦手傾向解析部81は、例えば「年齢」及び「身長」などのように特徴量として連続する値を取り得る特徴の特徴については、「0~10歳」、「10~20歳」、「20~30歳」、……、「90~100歳」及び「100歳~」や、「0~100cm」、「100~110cm」、「110~120cm」、……、「190~200cm」及び「200cm~」のように、その特徴の特徴量を連続する複数のカテゴリに分け、信頼度寄与度データベース74を参照して、これらのカテゴリごとの特徴量のかかる信頼度への寄与度の平均値をそれぞれ算出する。また苦手傾向解析部81は、例えば「性別」などのように特徴量として連続しない値を取り得る特徴の特徴については、値(「男」及び「女」)ごとに特徴量のかかる信頼度への寄与度の平均値をそれぞれ算出する。
そして苦手傾向解析部81は、このようにして算出した各特徴の特徴量のカテゴリごとのかかる信頼度への寄与度を出力部82に出力する。
出力部82は、情報処理装置71のCPU10が主記憶装置11に格納された出力プログラム75(図15)を実行することにより具現化される機能部である。出力部82は、苦手傾向解析部81から通知された各特徴の特徴量のカテゴリごとのかかる信頼度への寄与度に基づいて、例えば図18に示すような苦手傾向解析結果画面90の画面データを生成し、生成した画面データを対応する端末装置3に送信する。かくして、この画面データに基づいてかかる苦手傾向解析結果画面90がその端末装置3に表示される。
この苦手傾向解析結果画面90は、特徴選択プルダウンボタン91及び選択特徴表示欄92と、苦手傾向解析結果表示領域93とを備えて構成される。そして苦手傾向解析結果画面90では、特徴選択プルダウンボタン91をクリックすることにより、教師データや対象データに特徴量が含まれるすべての特徴が掲載されたプルダウンメニュー94を表示させることができる。
かくして、ユーザは、プルダウンメニュー94に掲載された各特徴の中からそのとき所望する特徴をクリック又はタップ等するようにして選択する。このとき選択された特徴の名称を表す文字列が選択特徴表示欄92に表示される。
また苦手傾向解析結果表示領域93には、このとき選択された特徴(選択特徴表示欄92内に名称が表示された特徴)について、その特徴の特徴量のカテゴリごとのかかる信頼度への寄与度の平均値が当該平均値に応じた長さ及び向きの棒グラフで表示される。
かくしてユーザは、苦手傾向解析結果表示領域93に表示されたその特徴の特徴量のカテゴリごとのかかる信頼度への寄与度の大きさに基づいて予測器31の苦手傾向、例えば、予測器31の予測結果の信頼度を下げる要因となる特徴量ごとのカテゴリなどを確認することができる。
図19は、苦手傾向提示機能に関連してデータ選択部80により実行されるデータ選択処理の処理内容を示す。データ選択部80は、この図19に示す処理手順に従って教師データデータベース25に格納されている教師データの中から仮対象データ及び仮基準データを選択して合成データ生成部30等に出力する。
実際上、データ選択部80は、例えばいずれかの端末装置3からの要求に応じてこの図19に示すデータ選択処理を開始し、まず、教師データデータベース25に格納されている教師データの中から任意の1つの教師データを仮対象データとして選択する(S40)。
続いて、データ選択部80は、教師データデータベース25に格納されている教師データのうち、ステップS40で選択した教師データ以外の教師データを予め設定された所定数だけ仮基準データとして選択する(S41)。
そしてデータ選択部80は、ステップS40で選択した教師データ(仮対象データ)と、ステップS41で選択した各教師データ(仮基準データ)とを合成データ生成部30及び苦手傾向解析部81に送信すると共に、ステップS41で選択した各教師データ(仮基準データ)を信頼度算出部32及び信頼度寄与度算出部33にそれぞれ出力し(S42)、この後、この対象データ選択処理を終了する。
かくして、この後、これら仮対象データや仮基準データを利用して合成データ生成部30や、予測器31及び信頼度算出部32及び信頼度寄与度算出部33において第1の実施の形態と同様の処理がそれぞれ実行され、この結果として得られた仮対象データについての予測結果の信頼度に対する各特徴量の寄与度が信頼度寄与度算出部33により算出されて信頼度寄与度データベース74に格納される。
なおデータ選択部80は、仮対象データとして選択する教師データを順次他の教師データに切り替えながら予め設定された所定回数だけ図19の処理を繰り返す。これにより複数の仮対象データについての予測結果の信頼度に対する各特徴量の寄与度が信頼度寄与度算出部33によりその都度算出されて信頼度寄与度データベース74に格納される。
一方、図20は、苦手傾向提示機能に関連して苦手傾向解析部81により実行される苦手傾向解析処理の処理内容を示す。苦手傾向解析部81は、この図20に示す処理手順に従って、予測器31の苦手傾向(予測の信頼度が低いデータの傾向)を解析する。
実際上、苦手傾向解析部81は、所定数の合成データの予測結果の信頼度の対する各特徴量の寄与度が信頼度寄与度データベース74(図16)に登録されるとこの図20に示す苦手傾向解析処理を開始し、まず、信頼度寄与度データベース74に特徴量の寄与度が登録されている各特徴の中からステップS51以降が処理の特徴を1つ選択する(S50)。
続いて、苦手傾向解析部81は、ステップS50で選択した特徴(以下、これを選択特徴と呼ぶ)の値(特徴量)が連続値を取り得るか否かを判断する(S51)。そして苦手傾向解析部81は、この判断で否定結果を得るとステップS53に進む。
これに対して、苦手傾向解析部81は、ステップS51の判断で肯定結果を得ると、選択特徴の特徴量の範囲を複数の区分に区切るようにして複数のカテゴリに分類する(S52)。そして苦手傾向解析部81は、ステップS52で分類した各カテゴリの中からステップS54以降が未処理のカテゴリを1つ選択する(S53)。
続いて、苦手傾向解析部81は、ステップS53で選択したカテゴリ(以下、これを選択カテゴリと呼ぶ)に含まれる特徴の各値(特徴量)について、仮対象データについての予測結果の信頼度に対する寄与度をそれぞれ算出し、算出結果に基づいて選択カテゴリにおけるこれら寄与度の平均値を算出する(S54)。
次いで、苦手傾向解析部81は、選択特徴のすべてのカテゴリについてステップS54の処理を実行し終えたか否かを判断する(S55)。そして苦手傾向解析部81は、この判断で否定結果を得るとステップS53に戻り、この後、ステップS53で選択するカテゴリをステップS54が未処理の他のカテゴリに順次切り替えながらステップS53~ステップS55の処理を繰り返す。
そして苦手傾向解析部81は、やがて選択特徴のすべてのカテゴリについて、そのカテゴリにおける仮対象データについての予測結果の信頼度に対する寄与度の平均値を算出し終えることによりステップS55で肯定結果を得ると、すべての特徴についてステップS51以降の処理を実行し終えたか否かを判断する(S56)。
苦手傾向解析部81は、この判断で否定結果を得るとステップS50に戻り、この後、ステップS50で選択する特徴をステップS51以降が未処理の他の特徴に順次切り替えながらステップS50~ステップS56の処理を上述と同様に繰り返す。
そして苦手傾向解析部81は、やがてすべての特徴について、ステップS51以降の処理を実行し終えることによりステップS56で肯定結果を得ると、ステップS50~ステップS56の処理により得られた各特徴の各カテゴリにおける仮対象データについての予測結果の信頼度に対する寄与度の平均値を出力部82に出力し(S57)、この後、この苦手傾向解析処理を終了する。
以上のように本実施の形態の情報処理装置71は、予測器31の苦手傾向を解析して解析結果に基づく苦手傾向解析結果画面90を端末装置3に表示させるため、ユーザは、端末装置3に表示された苦手傾向解析結果画面90に基づいて予測器31の苦手傾向を認識することができる。よって、本情報処理装置71によれば、ユーザは、かかる認識結果に基づいて、その後の対象データに対する予測結果をどの程度信用できるかを判断することが可能となる。
(4)他の実施の形態
なお上述の第1~第3の実施の形態においては、それぞれの実施の形態による環境変化情報提示機能を1つの情報処理装置に搭載するようにした場合について述べたが、本発明はこれに限らず、かかる環境変化情報提示機能を複数の機能に分解し、各機能をそれぞれ分散コンピューティングシステムを構成する異なるコンピュータ装置に搭載するようにしてもよい。
なお上述の第1~第3の実施の形態においては、それぞれの実施の形態による環境変化情報提示機能を1つの情報処理装置に搭載するようにした場合について述べたが、本発明はこれに限らず、かかる環境変化情報提示機能を複数の機能に分解し、各機能をそれぞれ分散コンピューティングシステムを構成する異なるコンピュータ装置に搭載するようにしてもよい。
また上述の第1~第3の実施の形態においては、信頼度算出部32が算出する各合成データの信頼度をトラストスコアの技術を用いて算出するようにした場合について述べたが、本発明はこれに限らず、トラストスコア以外の例えばドロップアウト(Dropout)などの技術を用いてかかる信頼度を算出するようにしてもよい。
同様に、上述の第1~第3の実施の形態においては、信頼度に対する対象データの各特徴量の寄与度をSHAPの技術を用いて算出するようにした場合について述べたが、本発明はこれに限らず、要は、摂動ベースの特徴量の寄与度を算出可能な技術であればSHAP以外のLIME(Locally Interpretable Model-agnostic Explanations)などの技術を適用するようにしてもよい。
さらに上述の第1~第3の実施の形態においては、出力部34,82が信頼度寄与度算出部33により算出された信頼度に対する対象データの各特徴量の寄与度や、苦手傾向解析部81の解析結果を端末装置3に表示させることでユーザに提示するようにした場合について述べたが、本発明はこれに限らず、例えば、プリントアウトしたり音声出力するようにしてもよく、これら情報のユーザへの提示方法としては、この他種々の提示方法を適用することができる。
さらに上述の第3の実施の形態においては、第1の実施の形態と同様の環境変化情報提示機能が搭載された情報処理装置71に第3の実施の形態の苦手傾向提示機能を適用するようにした場合について述べたが、本発明はこれに限らず、第2の実施の形態と同様の環境変化情報提示機能が搭載された情報処理装置に第3の実施の形態の苦手傾向提示機能を適用するようにしてもよい。
本発明は、機械学習モデルを活用した予測システムに広く適用することができる。
1,50,70……情報処理システム、3……端末装置、4,51,71……情報処理装置、10……CPU、20,55……合成データ生成プログラム、21……AIプログラム、22……信頼度算出プログラム、23……信頼度寄与度算出プログラム、24,75……出力プログラム、25……教師データデータベース、26……基準データデータベース、30,62……合成データ生成部、31……予測器、32……信頼度算出部、33……信頼度寄与度算出部、34,82……出力部、40……信頼度寄与度算出結果画面、52……類似判定プログラム、53……類似度算出プログラム、54……類似情報データベース、60……類似度算出部、61……類似判定部、72……データ選択プログラム、73……苦手傾向解析プログラム、74……信頼度寄与度データベース、80……データ選択部、81……苦手傾向解析部、90……苦手傾向解析結果画面。
Claims (8)
- 機械学習モデルを利用した予測システムにおける環境変化を検知するための情報を提示する情報処理装置において、
予測対象となる対象データと、予め用意した複数の基準データとに基づいて、前記対象データ及び前記基準データを合成した第1の合成データをそれぞれ生成する合成データ生成部と、
各前記第1の合成データに対する予測を行う予測器と、
各前記第1の合成データに対する前記予測器の予測結果の信頼度をそれぞれ算出する信頼度算出部と、
各前記第1の合成データについての前記予測結果の前記信頼度に基づいて、前記対象データについての予測結果の信頼度に対する前記対象データの各特徴量の寄与度をそれぞれ算出する信頼度寄与度算出部と、
前記信頼度寄与度算出部により算出された前記対象データに対する前記予測結果の前記信頼度に対する各前記特徴量の寄与度を出力する出力部と
を備えることを特徴とする情報処理装置。 - 前記対象データ及び各前記基準データの類似性の有無をそれぞれ判定する類似判定部をさらに備え、
前記合成データ生成部は、
前記類似判定部により前記対象データと類似すると判定された前記基準データと、前記類似判定部により前記対象データと類似しないと判定された前記基準データとで、前記第1の合成データの生成手法を切り替える
ことを特徴とする請求項1に記載の情報処理装置。 - 前記合成データ生成部は、
前記類似判定部により前記対象データと類似しないと判定された前記基準データについては、最終的に生成される前記第1の合成データ全体において、前記基準データ由来の特徴量の数に偏りが生じることなく、前記基準データ由来の前記特徴量の数が均一に分布するように、前記基準データの前記特徴量と、前記対象データの対応する前記特徴量とを入れ替えるようにして前記第1の合成データを生成し、
前記類似判定部により前記対象データと類似すると判定された前記基準データについては、前記基準データ由来の前記特徴量の数が1つ以下の前記第1の合成データを生成する
ことを特徴とする請求項2に記載の情報処理装置。 - 予め用意された複数の教師データの中から1つの前記教師データを仮対象データとして選択すると共に、残りのすべての又は一部の前記教師データを仮基準データとして選択するデータ選択部と、
前記予測器の苦手傾向を解析する苦手傾向解析部と
をさらに備え、
前記合成データ生成部は、前前記仮対象データ及び各前記仮基準データに基づいて、前記仮対象データ及び前記仮基準データを合成した第2の合成データをそれぞれ生成し、
前記予測器は、各前記第2の合成データに対する予測を行い、
前記信頼度算出部は、各前記第2の合成データに対する前記予測器の予測結果の信頼度をそれぞれ算出し、
前記信頼度寄与度算出部は、各前記第2の合成データに対する前記予測器の予測結果の信頼度に基づいて、前記仮対象データについての前記予測結果の前記信頼度に対する前記仮対象データの各前記特徴量の前記寄与度をそれぞれ算出し、
前記苦手傾向解析部は、前記信頼度寄与度算出部により算出された前記仮対象データについての前記予測結果の前記信頼度に対する前記対象データの各前記特徴量の前記寄与度に基づいて前記予測器の苦手傾向を解析し、
前記出力部は、前記苦手傾向解析部の解析結果を出力する
ことを特徴とする請求項1に記載の情報処理装置。 - 機械学習モデルを利用した予測システムにおける環境変化を検知するための情報を提示する情報処理装置により実行される情報処理方法であって、
予測対象となる対象データと、予め用意した複数の基準データとに基づいて、前記対象データ及び前記基準データを合成した第1の合成データをそれぞれ生成する第1のステップと、
各前記第1の合成データに対する予測を行う第2のステップと、
各前記第1の合成データに対する前記予測器の予測結果の信頼度をそれぞれ算出する第3のステップと、
各前記第1の合成データについての前記予測結果の前記信頼度に基づいて、前記対象データについての予測結果の信頼度に対する前記対象データの各特徴量の寄与度をそれぞれ算出する第4のステップと、
算出した前記対象データに対する前記予測結果の前記信頼度に対する各前記特徴量の寄与度を出力する第5のステップと
を備えることを特徴とする情報処理方法。 - 前記第1のステップでは、
前記対象データ及び各前記基準データの類似性の有無をそれぞれ判定し、
前記対象データと類似すると判定した前記基準データと、前記類似判定部により前記対象データと類似しないと判定した前記基準データとで、前記第1の合成データの生成手法を切り替える
ことを特徴とする請求項5に記載の情報処理方法。 - 前記第1のステップでは、
前記対象データと類似しないと判定した前記基準データについては、最終的に生成される前記第1の合成データ全体において、前記基準データ由来の特徴量の数に偏りが生じることなく、前記基準データ由来の前記特徴量の数が均一に分布するように、前記基準データの前記特徴量と、前記対象データの対応する前記特徴量とを入れ替えるようにして前記第1の合成データを生成し、
前記対象データと類似すると判定した前記基準データについては、前記基準データ由来の前記特徴量の数が1つ以下の前記第1の合成データを生成する
ことを特徴とする請求項6に記載の情報処理方法。 - 前記第1のステップでは、
予め用意された複数の教師データの中から1つの前記教師データを仮対象データとして選択すると共に、残りの前記教師データのすべての前記教師データ又は一部の前記教師データを仮基準データとして選択し、
前記仮対象データ及び各前記仮基準データに基づいて、前記仮対象データ及び前記仮基準データを合成した第2の合成データをそれぞれ生成し、
前記第2のステップでは、
各前記第2の合成データに対する予測を行い、
前記第3のステップでは、
各前記第2の合成データに対する前記予測器の予測結果の信頼度をそれぞれ算出し、
前記第4のステップでは、
前記第2の合成データについての前記予測結果の前記信頼度に対する前記仮対象データの各前記特徴量の前記寄与度をそれぞれ算出し、
算出した前記第2の合成データについての前記予測結果の前記信頼度に対する前記対象データの各前記特徴量の前記寄与度に基づいて予測の苦手傾向を解析し、
前記第5のステップでは、
前記苦手傾向解析部の解析結果を出力する
ことを特徴とする請求項5に記載の情報処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021091281A JP2022183796A (ja) | 2021-05-31 | 2021-05-31 | 情報処理装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021091281A JP2022183796A (ja) | 2021-05-31 | 2021-05-31 | 情報処理装置及び方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022183796A true JP2022183796A (ja) | 2022-12-13 |
Family
ID=84437708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021091281A Pending JP2022183796A (ja) | 2021-05-31 | 2021-05-31 | 情報処理装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022183796A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115953248A (zh) * | 2023-03-01 | 2023-04-11 | 支付宝(杭州)信息技术有限公司 | 基于沙普利可加性解释的风控方法、装置、设备及介质 |
-
2021
- 2021-05-31 JP JP2021091281A patent/JP2022183796A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115953248A (zh) * | 2023-03-01 | 2023-04-11 | 支付宝(杭州)信息技术有限公司 | 基于沙普利可加性解释的风控方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11809824B1 (en) | Computing numeric representations of words in a high-dimensional space | |
JP2018517959A (ja) | ビデオのための代表ビデオフレームの選択 | |
US20160357790A1 (en) | Resolving and merging duplicate records using machine learning | |
US10679143B2 (en) | Multi-layer information fusing for prediction | |
US11881010B2 (en) | Machine learning for video analysis and feedback | |
US20240095490A1 (en) | Aspect Pre-selection using Machine Learning | |
US10248716B2 (en) | Real-time guidance for content collection | |
EP3843017A2 (en) | Automated, progressive explanations of machine learning results | |
US11829474B1 (en) | Text classification backdoor attack prediction method, system, and device | |
CN112016585A (zh) | 用于将机器学习和大众外包数据标注进行集成的系统和方法 | |
JP2022183796A (ja) | 情報処理装置及び方法 | |
US11934785B2 (en) | Multi-task learning of query intent and named entities | |
US10755171B1 (en) | Hiding and detecting information using neural networks | |
US20190371453A1 (en) | Generating and searching data structures that facilitate measurement-informed treatment recommendation | |
JP2021018751A (ja) | プログラム、情報処理方法及び情報処理装置 | |
CN113780365A (zh) | 样本生成方法和装置 | |
KR20210152395A (ko) | 정보 처리장치, 정보 처리방법 및 컴퓨터 판독가능한 기록매체 | |
US9633003B2 (en) | System support for evaluation consistency | |
EP3834079A1 (en) | Multi-question multi-answer configuration | |
CN113628077B (zh) | 生成不重复考题的方法、终端及可读存储介质 | |
US11715470B2 (en) | Method and system for tracking in extended reality | |
JP4607943B2 (ja) | セキュリティレベル評価装置およびセキュリティレベル評価プログラム | |
Zhang et al. | PEANUT: A Human-AI Collaborative Tool for Annotating Audio-Visual Data | |
JPWO2021245833A5 (ja) | ||
US20230064163A1 (en) | Labeling system, activity recognition system, and teaching material generating system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240208 |