JP7275591B2

JP7275591B2 - 評価支援プログラム、評価支援方法および情報処理装置

Info

Publication number: JP7275591B2
Application number: JP2019006433A
Authority: JP
Inventors: 憲二大木; 英生谷田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2023-05-18
Anticipated expiration: 2039-01-17
Also published as: JP2020115292A

Description

本発明は、評価支援プログラム、評価支援方法および情報処理装置に関する。

近年、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）を用いて業務判断を自動化することが行われている。業務判断は、判断基準が必ずしもルール化されておらず、人の経験やノウハウに基づいて行われることが多い。このような業務判断について、例えば、過去の文字列の入力データを特徴量として表現し、判断結果をラベルとした教師あり学習を行うことで、新規の入力データに対するラベル付け（クラス分類）を自動化することが行われている。

先行技術としては、例えば、入力データの例外度を判定し、判定結果に基づいてモデル記憶部から学習モデルを選択し、モデル実行履歴記憶部、モデル間従属関係に格納されているデータを用いて学習済みモデルの更新処理を行うものがある。

特開平１０－０７４１８８号公報

しかしながら、従来技術では、機械学習に基づく手法により得られた判断結果の妥当性について評価することが難しい。例えば、機械学習でラベルを判断した根拠を示さなければ、人間が判断結果の妥当性を評価することができない場合がある。

一つの側面では、本発明は、機械学習により得られる判断結果の妥当性についての評価を支援することを目的とする。

１つの実施態様では、入力データの特徴量から当該入力データが属するカテゴリを判断する学習モデルを用いて、判断対象の入力データが属するカテゴリを判断し、前記学習モデルを生成する際に用いた学習済みの入力データから、判断した前記カテゴリに属する、前記判断対象の入力データとは異なる他の入力データを抽出し、前記判断対象の入力データと対応付けて、判断した前記カテゴリと、抽出した前記他の入力データとを出力する、評価支援プログラムが提供される。

本発明の一側面によれば、機械学習により得られる判断結果の妥当性についての評価を支援することができる。

図１は、実施の形態にかかる評価支援方法の一実施例を示す説明図である。図２は、情報処理システム２００のシステム構成例を示す説明図である。図３は、情報処理装置１０１のハードウェア構成例を示すブロック図である。図４は、学習データＤＢ２２０の記憶内容の一例を示す説明図である。図５は、情報処理装置１０１の機能的構成例を示すブロック図である。図６は、特徴量ベクトルの算出例を示す説明図である。図７は、類似度テーブル７００の記憶内容の一例を示す説明図である。図８は、予測結果画面の画面例を示す説明図（その１）である。図９は、予測結果画面の画面例を示す説明図（その２）である。図１０は、予測結果画面の画面例を示す説明図（その３）である。図１１は、情報処理装置１０１の学習処理手順の一例を示すフローチャートである。図１２は、情報処理装置１０１の第１の予測処理手順の一例を示すフローチャート（その１）である。図１３は、情報処理装置１０１の第１の予測処理手順の一例を示すフローチャート（その２）である。図１４は、情報処理装置１０１の第２の予測処理手順の一例を示すフローチャート（その１）である。図１５は、情報処理装置１０１の第２の予測処理手順の一例を示すフローチャート（その２）である。

以下に図面を参照して、本発明にかかる評価支援プログラム、評価支援方法および情報処理装置の実施の形態を詳細に説明する。

（実施の形態）
図１は、実施の形態にかかる評価支援方法の一実施例を示す説明図である。図１において、情報処理装置１０１は、機械学習に基づく手法により得られる判断結果の妥当性についての評価を支援するコンピュータである。機械学習は、様々なデータから学習モデル（予測モデル）を作成し、結果を予測する学習である。

ここで、ＡＩを用いて業務判断を自動化する事例が増えている。業務判断の例としては、経理担当者が、購入依頼品Ｘ１に対して経費コードＹ１を付与したり、購買受付担当者が、購入案件Ｘ２に対して担当者Ｙ２を設定したりするものがある。このような業務判断について、過去の入力データを特徴量として表現し、判断結果をラベルとした教師あり学習を行うことで、新規の入力データに対するラベル付けを自動化できる。上述した例では、購入依頼品Ｘ１や購入案件Ｘ２が「入力データ」に相当し、経費コードＹ１や担当者Ｙ２が「ラベル」に相当する。

機械学習による自動化で１００％の正解率を出すことは困難であるが、判断により得られたラベルが正しいか否かを人間が確認する作業を経ることで、業務への適用が可能となり、人間が一から判断する場合と比較して業務の効率化が期待できる。人が確認した際に、ラベルが間違っていると判断した場合はラベルの修正作業が必要となる。

しかし、機械学習でラベルを判断した根拠となる情報が提示されなければ、人間が判断結果の妥当性を評価することが難しい場合がある。人間が判断結果の妥当性を適切に評価することができなければ、ラベルが間違って修正されたり、ラベルの間違いが見逃されたりする可能性がある。

なお、判断結果の根拠を提示可能な機械学習アルゴリズムとして、決定木を用いたクラス分類が考えられる。決定木を用いたクラス分類では、各ノードがルール（論理式）を持つ木構造として学習モデルを表現できるため、根拠をルールの列として説明することが可能である。

しかし、ルールはあくまで機械が分類するために作成されるものであり、各々のルールは人間が見てわかりやすいものではないことが多い。また、ある入力データに対して、最大で木の深さ分のルールが適用されるため、根拠を理解するために把握しなければいけないルールの数が膨大となる。

また、決定木を用いる手法自体が機械学習アルゴリズムの一実装であるため、この手法で精度がでない場合には、根拠となるルール自体が信頼できず適用することができない。したがって、機械学習により得られる判断結果の精度を確保しつつ、判断結果の妥当性について人間による評価を可能にする技術が望まれる。

そこで、本実施の形態では、判断対象として入力されるデータに対して、機械学習により得られたカテゴリを出力する際に、当該カテゴリに属すると判断される他の事例を示すことで、機械学習により得られる判断結果の妥当性についての評価を支援する評価支援方法について説明する。以下、情報処理装置１０１の処理例について説明する。

（１）情報処理装置１０１は、学習モデル１１０を用いて、判断対象の入力データが属するカテゴリを判断する。ここで、学習モデル１１０は、入力データの特徴量から当該入力データが属するカテゴリを判断する予測モデルである。学習モデル１１０は、例えば、数式や決定木の木構造データによって表される。

入力データは、どのカテゴリに属するかの判断対象として入力されるデータであり、例えば、上述した購入依頼品Ｘ１や購入案件Ｘ２である。カテゴリは、入力データを分類する種別であり、例えば、上述した経費コードＹ１や担当者Ｙ２である。入力データの特徴量は、入力データの特徴を数値化したものである。例えば、入力データの特徴量は、Ｎ－ｇｒａｍの特徴量ベクトルによって表現される。

図１の例では、判断対象の入力データを「入力データＸ」とし、入力データＸが属するカテゴリとして「カテゴリＹ」が判断された場合を想定する。

（２）情報処理装置１０１は、学習済みデータ１２０から、判断したカテゴリに属する、判断対象の入力データとは異なる入力データを抽出する。ここで、学習済みデータ１２０は、学習モデル１１０を生成する際に用いた学習済みの入力データを含む。

具体的には、学習済みデータ１２０は、学習モデル１１０の生成に用いられた教師データの集合である。教師データは、教師あり学習において与えられる「例題」と「答え」についてのデータであり、入力データ（例題）と、当該入力データが属するカテゴリ（答え）とのペアである。

図１の例では、学習済みデータ１２０から、カテゴリＹに属する、判断対象の入力データＸとは異なる「入力データＸ’」が抽出された場合を想定する。

（３）情報処理装置１０１は、判断対象の入力データと対応付けて、判断したカテゴリと、抽出した入力データとを出力する。具体的には、例えば、情報処理装置１０１は、判断対象の入力データＸと対応付けて、判断したカテゴリＹと、抽出した入力データＸ’とを出力する。

このように、情報処理装置１０１によれば、判断対象の入力データに対して、機械学習により得られたカテゴリを出力する際に、当該カテゴリに属すると判断される他の事例（学習済みの入力データ）を示すことができる。これにより、カテゴリを判断した根拠となる情報を提示することができ、機械学習により得られた判断結果の妥当性についての評価を支援することができる。

図１の例では、判断対象の入力データＸと対応付けて、カテゴリＹと入力データＸ’とが出力される。これにより、ユーザは、例えば、入力データＸ，Ｘ’それぞれの正確なカテゴリは知らなくても、入力データＸと入力データＸ’とが同じ種別のものではないと判断できれば、入力データＸに対する判断結果（カテゴリＹ）が誤っている可能性があることに気付くことができる。この結果、ユーザが判断結果を注意して確認することができ、ラベル（カテゴリ）の間違いが見逃されるのを防ぐことができる。なお、以下の説明では、「カテゴリ」を「ラベル」と表記する場合がある。

（情報処理システム２００のシステム構成例）
つぎに、図１に示した情報処理装置１０１を含む情報処理システム２００のシステム構成例について説明する。情報処理システム２００は、例えば、企業における様々な業務判断を自動化するためのコンピュータシステムに適用される。

図２は、情報処理システム２００のシステム構成例を示す説明図である。図２において、情報処理システム２００は、情報処理装置１０１と、クライアント装置２０１と、を含む。情報処理システム２００において、情報処理装置１０１およびクライアント装置２０１は、有線または無線のネットワーク２１０を介して接続される。ネットワーク２１０は、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどである。

ここで、情報処理装置１０１は、学習データＤＢ（Ｄａｔａｂａｓｅ）２２０を有する。情報処理装置１０１は、例えば、サーバである。なお、学習データＤＢ２２０の記憶内容については、図４を用いて後述する。

クライアント装置２０１は、情報処理システム２００のユーザが使用するコンピュータである。情報処理システム２００のユーザは、例えば、企業における経理担当者や購買受付担当者などの各種業務判断を行う者である。クライアント装置２０１は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、タブレット型ＰＣなどである。

なお、上述した説明では、情報処理装置１０１とクライアント装置２０１とが別体に設けられることにしたが、これに限らない。例えば、情報処理装置１０１は、クライアント装置２０１により実現されることにしてもよい。また、図２の例では、クライアント装置２０１を１台のみ表示したが、これに限らない。例えば、情報処理システム２００には、ユーザごとのクライアント装置２０１が含まれていてもよい。

（情報処理装置１０１のハードウェア構成例）
図３は、情報処理装置１０１のハードウェア構成例を示すブロック図である。図３において、情報処理装置１０１は、プロセッサ３０１と、メモリ３０２と、ディスクドライブ３０３と、ディスク３０４と、通信Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）３０５と、可搬型記録媒体Ｉ／Ｆ３０６と、可搬型記録媒体３０７と、を有する。また、各構成部は、バス３００によってそれぞれ接続される。

ここで、プロセッサ３０１は、情報処理装置１０１の全体の制御を司る。プロセッサ３０１は、複数のコアを有していてもよい。プロセッサ３０１は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）である。

メモリ３０２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびフラッシュＲＯＭなどを有する。具体的には、例えば、フラッシュＲＯＭがＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）のプログラムを記憶し、ＲＯＭがアプリケーションプログラムを記憶し、ＲＡＭがプロセッサ３０１のワークエリアとして使用される。メモリ３０２に記憶されるプログラムは、プロセッサ３０１にロードされることで、コーディングされている処理をプロセッサ３０１に実行させる。

ディスクドライブ３０３は、プロセッサ３０１の制御に従ってディスク３０４に対するデータのリード／ライトを制御する。ディスク３０４は、ディスクドライブ３０３の制御で書き込まれたデータを記憶する。ディスク３０４としては、例えば、磁気ディスク、光ディスクなどが挙げられる。

通信Ｉ／Ｆ３０５は、通信回線を通じてネットワーク２１０に接続され、ネットワーク２１０を介して外部のコンピュータ（例えば、図２に示したクライアント装置２０１）に接続される。そして、通信Ｉ／Ｆ３０５は、ネットワーク２１０と装置内部とのインターフェースを司り、外部のコンピュータからのデータの入出力を制御する。通信Ｉ／Ｆ３０５には、例えば、モデムやＬＡＮアダプタなどを採用することができる。

可搬型記録媒体Ｉ／Ｆ３０６は、プロセッサ３０１の制御に従って可搬型記録媒体３０７に対するデータのリード／ライトを制御する。可搬型記録媒体３０７は、可搬型記録媒体Ｉ／Ｆ３０６の制御で書き込まれたデータを記憶する。可搬型記録媒体３０７としては、例えば、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）－ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリなどが挙げられる。

なお、情報処理装置１０１は、上述した構成部のほかに、例えば、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、入力装置、ディスプレイ等を有することにしてもよい。また、情報処理装置１０１は、上述した構成部のうち、例えば、ディスクドライブ３０３、ディスク３０４、可搬型記録媒体Ｉ／Ｆ３０６、可搬型記録媒体３０７を有していなくてもよい。また、図２に示したクライアント装置２０１についても、情報処理装置１０１と同様のハードウェア構成により実現することができる。ただし、クライアント装置２０１は、上述した構成部のほかに、入力装置、ディスプレイ（例えば、後述の図８に示すディスプレイ８１０）などを有する。

（学習データＤＢ２２０の記憶内容）
つぎに、図４を用いて、情報処理装置１０１が有する学習データＤＢ２２０の記憶内容について説明する。学習データＤＢ２２０は、例えば、図３に示したメモリ３０２、ディスク３０４などの記憶装置により実現される。

図４は、学習データＤＢ２２０の記憶内容の一例を示す説明図である。図４において、学習データＤＢ２２０は、品名および種別のフィールドを有し、各フィールドに情報を設定することで、学習データ（例えば、学習データ４００－１～４００－３）をレコードとして記憶する。

ここで、品名は、品物の名称であり、教師あり学習に用いる入力データ（例題）に相当する。種別は、品名が属するカテゴリ、すなわち、当該品名の品物が属するカテゴリであり、教師あり学習に用いるラベル（答え）に相当する。例えば、学習データ４００－１は、品名「Ｐサーバ」および種別「ハードウェア」を含み、「Ｐサーバ」が属する種別（カテゴリ）が「ハードウェア」であることを示す。

（情報処理装置１０１の機能的構成例）
図５は、情報処理装置１０１の機能的構成例を示すブロック図である。図５において、情報処理装置１０１は、取得部５０１と、学習処理部５０２と、受付部５０３と、予測処理部５０４と、抽出部５０５と、出力部５０６と、更新部５０７と、記憶部５１０と、を含む。具体的には、例えば、取得部５０１～更新部５０７は、図３に示したメモリ３０２、ディスク３０４、可搬型記録媒体３０７などの記憶装置に記憶されたプログラムをプロセッサ３０１に実行させることにより、または、通信Ｉ／Ｆ３０５により、その機能を実現する。各機能部の処理結果は、例えば、メモリ３０２、ディスク３０４などの記憶装置に記憶される。また、記憶部５１０は、例えば、メモリ３０２、ディスク３０４などの記憶装置により実現される。

取得部５０１は、学習データを取得する。ここで、学習データは、機械学習（教師あり学習）に用いられる情報であり、入力データと、当該入力データが属するカテゴリとを含む。例えば、学習データは、品名（入力データ）と、当該品名が属する種別（カテゴリ）との組である。

具体的には、例えば、取得部５０１は、クライアント装置２０１から学習データ（品名、種別）を受信することにより、受信した学習データ（品名、種別）を取得する。また、取得部５０１は、情報処理装置１０１の不図示の入力装置を用いたユーザの操作入力により、学習データ（品名、種別）を取得することにしてもよい。

取得された学習データ（品名、種別）は、例えば、図４に示した学習データＤＢ２２０に記憶される。

学習処理部５０２は、取得された学習データに基づいて、学習モデルＭＤを生成する。ここで、学習モデルＭＤは、入力データの特徴量から当該入力データが属するカテゴリを判断する予測モデルである。すなわち、学習モデルＭＤは、入力データに対するラベル付け（多クラス分類）を行う。学習モデルＭＤは、数式で表現されてもよく、また、決定木の木構造データで表現されてもよい。図１に示した学習モデル１１０は、例えば、学習モデルＭＤに相当する。

具体的には、例えば、まず、学習処理部５０２は、ベースとなる学習モデルＭＤを取得する。ベースとなる学習モデルＭＤは、例えば、予め作成されて、メモリ３０２、ディスク３０４などの記憶装置に記憶されている。つぎに、学習処理部５０２は、学習データＤＢ２２０から学習データを取得する。そして、学習処理部５０２は、取得した学習データの品名（入力データ）の特徴量ベクトルを算出する。

つぎに、学習処理部５０２は、取得した学習データを、特徴量ベクトルとラベルの組として表現する。そして、学習処理部５０２は、特徴量ベクトルとラベルとの組を入力情報ＩＮ＿Ｄに格納する。この際、学習処理部５０２は、例えば、各品名（入力データ）と対応付けて、各品名（入力データ）の特徴量ベクトルとラベルとの組を入力情報ＩＮ＿Ｄに格納する。

ここで、図６を用いて、品名（入力データ）の特徴量ベクトルの算出例について説明する。ここでは、品名（入力データ）の特徴量ベクトルとして、Ｔｒｉ－ｇｒａｍの特徴量ベクトルを算出する場合を例に挙げて説明する。

図６は、特徴量ベクトルの算出例を示す説明図である。図６において、品名（入力データ）の例として、「Ｐサーバ」、「Ｑソフト」および「Ｐサーバー」が示されている。ここでは、学習データＤＢ２２０内の品名（入力データ）が、「Ｐサーバ」、「Ｑソフト」および「Ｐサーバー」の３つである場合を想定する。

この場合、学習処理部５０２は、各品名（入力データ）における部分文字列の存在の有無に応じて「０」または「１」を取ることで、各品名（入力データ）の特徴量ベクトルを算出する。各部分文字列は、各品名（入力データ）を３文字区切りで分割したものである。ただし、＄は、空白文字を示す。

「Ｐサーバ」を例に挙げると、「＄＄Ｐ，＄Ｐサ，Ｐサー，サーバ，ーバ＄，バ＄＄，＄＄Ｑ，＄Ｑソ，Ｑソフ，ソフト，フト＄，ト＄＄，＄＄Ｐ，＄Ｐサ，Ｐサー，サーバ，ーバー，バー＄，ー＄＄」の各部分文字列の存在の有無に応じて特徴量ベクトルを算出する。なお、図６では、一部の部分文字列を省略している。

例えば、部分文字列「＄＄Ｐ」は、「Ｐサーバ」に含まれる。このため、「Ｐサーバ」の特徴量ベクトルのうち、部分文字列「＄＄Ｐ」に対応する値は「１」となる。また、部分文字列「＄＄Ｑ」は、「Ｐサーバ」に含まれない。このため、「Ｐサーバ」の特徴量ベクトルのうち、部分文字列「＄＄Ｑ」に対応する値は「０」となる。

このように、各部分文字列の存在の有無に応じて「０」または「１」を取ることにより、「Ｐサーバ」の特徴量ベクトル「１，１，１，１，１，１，０，…」を算出することができる。同様にして、「Ｑサーバ」の特徴量ベクトル「０，０，０，０，０，０，１，…」および「Ｐサーバー」の特徴量ベクトル「１，１，１，１，０，１，０，…」を算出することができる。

また、学習処理部５０２は、各品名（入力データ）の特徴量ベクトルを疎ベクトルとして表現してもよい。例えば、各品名（入力データ）の特徴量ベクトルは、「１」の要素に比べて「０」の要素が多い傾向にある。そこで、全品名（入力データ）の特徴量ベクトルを行列（図６参照）で表現した場合に、各品名（入力データ）の特徴量ベクトルを、「１」が何行何列目にあるかという情報として表現することにしてもよい。

例えば、「Ｐサーバ」の特徴量ベクトルを、「（１，１），（１，２），（１，３），…，（１，６）」というリスト構造で表現することにしてもよい。これにより、各品名（入力データ）の特徴量ベクトルの全要素を記憶する場合に比べて、各品名（入力データ）の特徴量ベクトルを記憶する際の使用メモリを抑えることができる。

図５の説明に戻り、学習処理部５０２は、入力情報ＩＮ＿Ｄに格納された特徴量ベクトルとラベルとの組（教師データ）に基づいて、教師あり学習を行って、学習モデルＭＤを更新する。より詳細に説明すると、例えば、学習処理部５０２は、重回帰分析やロジスティック回帰等を行って数式内のパラメータを調整したり、木構造データの各ノードが持つルールを更新（修正、追加、削除など）したりすることにより、学習モデルＭＤを更新する。

受付部５０３は、判断対象の入力データを受け付ける。ここで、判断対象の入力データは、どのカテゴリ（ラベル）に属するかを判断する対象となるデータである。判断対象の入力データは、例えば、品名である。カテゴリは、例えば、品名が属する種別である。

具体的には、例えば、受付部５０３は、クライアント装置２０１から判断対象の入力データ（品名）を受信することにより、受信した判断対象の入力データ（品名）を受け付ける。また、取得部５０１は、情報処理装置１０１の不図示の入力装置を用いたユーザの操作入力により、判断対象の入力データ（品名）を受け付けることにしてもよい。

予測処理部５０４は、学習モデルＭＤを用いて、判断対象の入力データが属するカテゴリを判断する。具体的には、例えば、予測処理部５０４は、受け付けた判断対象の入力データの特徴量ベクトルを算出する。より具体的には、例えば、予測処理部５０４は、判断対象の入力データの特徴量ベクトルとして、Ｔｒｉ－ｇｒａｍの特徴量ベクトルを算出する。

一例として、判断対象の入力データを「ＡＰサービス」とする。この場合、予測処理部５０４は、「＄＄Ｐ，＄Ｐサ，Ｐサー，サーバ，ーバ＄，バ＄＄，＄＄Ｑ，…，ー＄＄」の各部分文字列の存在の有無に応じて、判断対象の入力データ「ＡＰサービス」の特徴量ベクトルを算出する。なお、この部分文字列は、上述した学習済みの入力データ（Ｐサーバ、Ｑソフト、Ｐサーバー）の部分文字列である。

例えば、部分文字列「＄＄Ｐ」は、「ＡＰサービス」に含まれない。このため、「ＡＰサービス」の特徴量ベクトルのうち、部分文字列「＄＄Ｐ」に対応する値は「０」となる。また、部分文字列「Ｐサー」は、「ＡＰサービス」に含まれる。このため、「ＡＰサービス」の特徴量ベクトルのうち、部分文字列「Ｐサー」に対応する値は「１」となる。このように、各部分文字列の存在の有無に応じて「０」または「１」を取ることにより、判断対象の入力データ「ＡＰサービス」の特徴量ベクトル「０，０，１，０，０，０，０，…」を算出することができる。

そして、予測処理部５０４は、学習処理部５０２によって更新された学習モデルＭＤを用いて、算出した判断対象の入力データの特徴量ベクトルに対するラベルを予測する。すなわち、予測処理部５０４は、判断対象の入力データ（品名）の特徴量ベクトルを学習モデルＭＤに入力することで、判断対象の入力データが属するカテゴリ（ラベル）を判断する。

以下の説明では、判断対象の入力データが属するカテゴリを「カテゴリ＃」と表記する場合がある。

抽出部５０５は、学習モデルＭＤを生成する際に用いた学習済みの入力データから、判断されたカテゴリ＃に属する、判断対象の入力データとは異なる他の入力データを抽出する。具体的には、例えば、抽出部５０５は、学習済みの入力データのうちのカテゴリ＃に属する入力データの中から、Ｋ個の他の入力データをランダムに抽出することにしてもよい。Ｋは、任意に設定可能であり、例えば、１～１０程度の値に設定される。

また、抽出部５０５は、判断対象の入力データと学習済みの入力データそれぞれとの類似度を算出することにしてもよい。そして、抽出部５０５は、算出した類似度に基づいて、学習済みの入力データから、カテゴリ＃に属する他の入力データを抽出することにしてもよい。

ここで、類似度とは、入力データ同士の類似度合いを示す指標値である。類似度としては、例えば、判断対象の入力データの特徴量ベクトルと、学習済みの入力データの特徴量ベクトルとのコサイン類似度を用いることができる。コサイン類似度は、データとデータとのベクトルの向きの近さ（角度）により、データ同士の類似度合いを評価するものである。

より詳細に説明すると、例えば、抽出部５０５は、特徴量ベクトルの全要素のうち、両方の入力データの値が１である数ａを算出する。また、抽出部５０５は、特徴量ベクトルの全要素のうち、いずれか一方の入力データの値が１である数ｂを算出する。そして、抽出部５０５は、算出した数ａを数ｂで割ることにより、判断対象の入力データの特徴量ベクトルと、学習済みの入力データの特徴量ベクトルとのコサイン類似度（ａ／ｂ）を算出する。この場合、類似度の最大値は「１」となり、最小値は「０」となる。

なお、学習済みの入力データの特徴量ベクトルは、例えば、入力情報ＩＮ＿Ｄから特定される。また、学習済みの入力データの特徴量ベクトルが疎ベクトルとして表現されている場合には、抽出部５０５は、疎ベクトルを特徴量ベクトルに復元してから、判断対象の入力データの特徴量ベクトルと、学習済みの入力データの特徴量ベクトルとのコサイン類似度を算出する。

算出された類似度は、例えば、図７に示すような類似度テーブル７００に記憶される。類似度テーブル７００は、例えば、メモリ３０２、ディスク３０４などの記憶装置により実現される。ここで、類似度テーブル７００の記憶内容について説明する。

図７は、類似度テーブル７００の記憶内容の一例を示す説明図である。図７において、類似度テーブル７００は、品名、種別、コサイン類似度および類似順位のフィールドを有し、各フィールドに情報を設定することで、類似度情報（例えば、類似度情報７００－１～７００－３）をレコードとして記憶する。

ここで、品名は、学習済みの入力データである。種別は、品名（学習済みの入力データ）が属するカテゴリである。コサイン類似度は、判断対象の入力データの特徴量ベクトルと、学習済みの入力データの特徴量ベクトルとのコサイン類似度である。図７の例では、判断対象の入力データを、品名「Ａサーバ」とする。類似順位は、各学習済みの入力データを、判断対象の入力データとのコサイン類似度が降順となるように並べたときの順位である。

例えば、類似度情報７００－１は、学習済みの入力データ「Ｐサーバ」の種別「ハードウェア」、コサイン類似度「０．５００」および類似順位「１」を示す。

図５の説明に戻り、抽出部５０５は、例えば、学習済みの入力データから、判断されたカテゴリ＃に属する入力データのうち判断対象の入力データとの類似度が大きい上位Ｎ個（Ｎ：自然数）の他の入力データを抽出することにしてもよい。Ｎは、任意に設定可能であり、例えば、１～５程度の値に設定される。

具体的には、例えば、抽出部５０５は、図７に示した類似度テーブル７００を参照して、学習済みの入力データ（品名）から、カテゴリ＃に属する入力データのうち判断対象の入力データとのコサイン類似度が大きい上位Ｎ個の他の入力データ（品名）を抽出する。例えば、Ｎを「Ｎ＝１」とすると、抽出部５０５は、カテゴリ＃に属する入力データのうち判断対象の入力データとのコサイン類似度が最大の他の入力データを抽出する。

出力部５０６は、判断対象の入力データと対応付けて、判断されたカテゴリ＃と、抽出された他の入力データとを出力する。また、出力部５０６は、判断対象の入力データと対応付けて、さらに、抽出された他の入力データと判断対象の入力データとの類似度を出力することにしてもよい。

出力部５０６の出力形式としては、例えば、通信Ｉ／Ｆ３０５による他のコンピュータ（例えば、クライアント装置２０１）への送信、不図示のディスプレイへの表示、不図示のプリンタへの印刷出力などがある。

具体的には、例えば、クライアント装置２０１から判断対象の入力データ（品名）を受け付けたとする。この場合、出力部５０６は、クライアント装置２０１に予測結果画面を表示することにしてもよい。ここで、予測結果画面は、判断対象の入力データと対応付けて、予測処理部５０４によって判断されたカテゴリ＃と、抽出部５０５によって抽出された他の入力データとを表示する画面である。

予測結果画面の画面例については、図８を用いて後述する。

また、出力部５０６は、抽出された他の入力データと判断対象の入力データとの類似度が閾値α以下の場合、判断対象の入力データと対応付けて、さらに、所定のアラートＡＬを出力することにしてもよい。閾値αは、任意に設定可能である。例えば、類似度をコサイン類似度（０以上１以下）とすると、閾値αは、０．３程度の値に設定される。

具体的には、例えば、出力部５０６は、類似度テーブル７００を参照して、カテゴリ＃に属する入力データのうち、判断対象の入力データとのコサイン類似度が最大の他の入力データのコサイン類似度を特定する。そして、出力部５０６は、特定したコサイン類似度が閾値α以下の場合、判断対象の入力データと対応付けて、さらに、所定のアラートＡＬを出力する。

アラートＡＬは、判断対象の入力データが属するカテゴリの判断結果が誤っている可能性があることを伝えて、注意を促すものである。例えば、アラートＡＬは、警告メッセージであってもよいし、警告画像であってもよい。すなわち、判断対象の入力データとの類似度が最大の他の入力データの類似度が低いほど、判断結果が誤っている可能性が高くなる傾向があるため、ユーザに注意を促す。

アラートＡＬの出力例については、図９を用いて後述する。

また、出力部５０６は、抽出された他の入力データが、学習済みの入力データのうち、判断対象の入力データとの類似度が大きい上位Ｍ個（Ｍ：自然数）の入力データに含まれない場合、判断対象データと対応付けて、さらに、所定のアラートＡＬを出力することにしてもよい。Ｍは、例えば、１～５程度の値に設定される。

具体的には、例えば、出力部５０６は、類似度テーブル７００を参照して、カテゴリ＃に属する入力データのうち、判断対象の入力データとのコサイン類似度が最大の他の入力データの類似順位を特定する。そして、出力部５０６は、特定した類似順位が閾値β以下の場合（ただし、β＝Ｍ）、判断対象の入力データと対応付けて、さらに、所定のアラートＡＬを出力する。

すなわち、判断対象の入力データとの類似度が最大の他の入力データの類似順位が低いほど、判断結果が誤っている可能性が高くなる傾向があるため、ユーザに注意を促す。類似順位が閾値β以下の場合に出力されるアラートＡＬは、例えば、「類似順位が低いため注意してください」といった警告メッセージである。

また、受付部５０３は、予測処理部５０４によって判断されたカテゴリ＃が判断対象の入力データと対応付けて出力された結果、カテゴリ＃が正しいか否かを示す正誤情報を受け付けることにしてもよい。具体的には、例えば、受付部５０３は、クライアント装置２０１から正誤情報を受信することにより、受信した正誤情報を受け付ける。また、取得部５０１は、情報処理装置１０１の不図示の入力装置を用いたユーザの操作入力により、正誤情報を受け付けることにしてもよい。

そして、受付部５０３は、抽出された他の入力データと判断対象の入力データとの類似度を、受け付けた正誤情報と対応付けて記憶部５１０に記録することにしてもよい。他の入力データは、例えば、カテゴリ＃に属する入力データのうち、判断対象の入力データとの類似度が最大の他の入力データである。

更新部５０７は、記憶部５１０に記録された類似度と正誤情報とのペアに基づいて、閾値αを更新する。具体的には、例えば、更新部５０７は、記憶部５１０に記録された類似度と正誤情報とのペアを教師データとして、教師あり学習（機械学習）を行うことにより、閾値αを更新する。

一例として、閾値αが「α＝０．３」の場合において、類似度と正誤情報とのペアとして、＜０．１４４，誤＞、＜０．１８８，正＞、＜０．８，正＞が記録されているとする。この場合、更新部５０７は、＜０．１４４，誤＞、＜０．１８８，正＞、＜０．８，正＞の各ペアを教師データとして、教師あり学習を行って、例えば、閾値αを「α＝０．１８」に変更する。

（予測結果画面の画面例）
つぎに、図８～図１０を用いて、クライアント装置２０１に表示される予測結果画面の画面例について説明する。予測結果画面は、例えば、情報処理装置１０１の制御により、クライアント装置２０１から受け付けた判断対象の入力データに応じて、クライアント装置２０１のディスプレイ８１０に表示される。

ディスプレイ８１０は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する表示装置である。ディスプレイ８１０としては、例えば、液晶ディスプレイ、有機ＥＬ（Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどを採用することができる。

図８は、予測結果画面の画面例を示す説明図（その１）である。図８において、予測結果画面８００は、入力品名「ＡＰサービス」と対応付けて、当該入力品名「ＡＰサービス」の予測種別「ハードウェア」を表示する画面である。ここで、入力品名は、判断対象の入力データに対応する。予測種別は、判断対象の入力データが属すると判断されたカテゴリに対応する。

予測結果画面８００には、入力品名「ＡＰサービス」と対応付けて、品名「Ｐサーバ」および類似度「０．５００」が表示されている。また、予測結果画面８００には、入力品名「ＡＰサービス」と対応付けて、品名「Ｐサーバー」および類似度「０．１５４」が表示されている。

ここで、品名「Ｐサーバ」および「Ｐサーバー」は、カテゴリ「ハードウェア」に属する学習済みの入力データ（品名）のうち、判断対象の入力データ「ＡＰサービス」との類似度が大きい上位２個の入力データである。類似度「０．５００」および「０．１５４」は、判断対象の入力データ「ＡＰサービス」と品名「Ｐサーバ」および「Ｐサーバー」とのコサイン類似度である。

なお、予測結果画面８００内の判定結果（予測種別、予測根拠）は、クライアント装置２０１の不図示の入力装置を用いたユーザの操作入力により、入力ボックス８０１に判断対象の入力データを入力し、判定ボタン８０２を選択することにより表示される。

予測結果画面８００によれば、判断対象の入力データ「ＡＰサービス」に対して、機械学習により得られたカテゴリ「ハードウェア」を出力する際に、当該カテゴリに属する他の事例（Ｐサーバ、Ｐサーバー）を示すことができる。これにより、カテゴリを判断した根拠となる情報を提示して、機械学習により得られた判断結果の妥当性についての評価を支援することができる。

例えば、ユーザが、入力品名「ＡＰサービス」が、品名「Ｐサーバ」や品名「Ｐサーバー」とは異なる種別のものであるとわかれば、予測種別「ハードウェア」が誤っている可能性があることに気付くことができる。

図９は、予測結果画面の画面例を示す説明図（その２）である。図９において、予測結果画面９００は、入力品名「ＡＰサービス」と対応付けて、当該入力品名「ＡＰサービス」の予測種別「ハードウェア」を表示する画面である。

また、予測結果画面９００には、入力品名「ＡＰサービス」と対応付けて、品名「Ｐサーバ」、類似度「０．１４４」および類似順位「１」が表示されている。ここで、品名「Ｐサーバ」は、カテゴリ「ハードウェア」に属する学習済みの入力データ（品名）のうち、判断対象の入力データ「ＡＰサービス」との類似度が最大の入力データである。

類似度「０．１４４」は、判断対象の入力データ「ＡＰサービス」と品名「Ｐサーバ」とのコサイン類似度である。類似順位「１」は、品名「Ｐサーバ」が、学習済みの入力データのうち、判断対象の入力データ「ＡＰサービス」との類似度が最大であることを示す。なお、ここでは説明のため、判断対象の入力データ「ＡＰサービス」と品名「Ｐサーバ」との類似度として、図８に示した例とは異なる値を用いている。

また、予測結果画面９００には、アラートＡＬ１が表示されている。アラートＡＬ１は、入力品名と最も類似する過去のデータ（Ｐサーバ）の類似度が低いため、予測種別が誤っている可能性があることを伝えて、ユーザに注意を促すものである。

予測結果画面９００によれば、入力品名との類似度が一定の水準を満たさない場合に、ユーザに対する警告を出して、機械学習により得られた判断結果が誤っている可能性があることを示唆することができる。これにより、ユーザが機械学習により得られた判断結果を注意して確認することができ、ラベル（カテゴリ）の間違いが見逃されるのを防ぐことができる。

図１０は、予測結果画面の画面例を示す説明図（その３）である。図１０において、予測結果画面１０００は、入力品名「ＡＰサービス」と対応付けて、当該入力品名「ＡＰサービス」の予測種別「ハードウェア」を表示する画面である。

予測結果画面１０００には、入力品名「ＡＰサービス」と対応付けて、品名「Ｐサーバ」、類似度「０．１４４」、類似順位「１」およびアラートＡＬ１が表示されている。

予測結果画面１０００によれば、入力品名との類似度が一定の水準を満たさない場合に、ユーザに対する警告を出して、機械学習により得られた判断結果が誤っている可能性があることを示唆することができる。例えば、ユーザは、品名「Ｐサーバ」、類似度「０．１４４」、類似順位「１」を参照しながら、予測種別「ハードウェア」が正しいか否かを確認することができる。

予測結果画面１０００において、ユーザの操作入力により、正ボタン１００１を選択すると、予測種別が正しいことを示す正誤情報を、クライアント装置２０１から情報処理装置１０１に送信することができる。また、予測結果画面１０００において、ユーザの操作入力により、誤ボタン１００２を選択すると、予測種別が誤っていることを示す正誤情報を、クライアント装置２０１から情報処理装置１０１に送信することができる。

これにより、入力品名（判断対象の入力データ）に対する予測種別（カテゴリ＃）の正誤を、情報処理装置１０１に通知することができ、ユーザからのフィードバックにより閾値αを調整可能となる。なお、正ボタン１００１、誤ボタン１００２は、図８および図９に示した予測結果画面８００，９００に含まれていてもよい。

（情報処理装置１０１の各種処理手順）
つぎに、情報処理装置１０１の各種処理手順について説明する。まず、図１１を用いて、情報処理装置１０１の学習処理手順について説明する。

図１１は、情報処理装置１０１の学習処理手順の一例を示すフローチャートである。図１１のフローチャートにおいて、まず、情報処理装置１０１は、ベースとなる学習モデルＭＤを取得する（ステップＳ１１０１）。つぎに、情報処理装置１０１は、学習データＤＢ２２０から取得していない未取得の学習データを取得する（ステップＳ１１０２）。

そして、情報処理装置１０１は、取得した学習データの品名（入力データ）の特徴量ベクトルを算出する（ステップＳ１１０３）。つぎに、情報処理装置１０１は、品名（入力データ）と対応付けて、算出した特徴量ベクトルと、学習データのラベル（種別）との組を入力情報ＩＮ＿Ｄに格納する（ステップＳ１１０４）。

そして、情報処理装置１０１は、入力情報ＩＮ＿Ｄに格納された特徴量ベクトルとラベルとの組に基づいて、教師あり学習を行って、学習モデルＭＤを更新する（ステップＳ１１０５）。つぎに、情報処理装置１０１は、学習データＤＢ２２０から取得していない未取得の学習データがあるか否かを判断する（ステップＳ１１０６）。

ここで、未取得の学習データがある場合（ステップＳ１１０６：Ｙｅｓ）、情報処理装置１０１は、ステップＳ１１０２に戻る。一方、未取得の学習データがない場合（ステップＳ１１０６：Ｎｏ）、情報処理装置１０１は、本フローチャートによる一連の処理を終了する。

これにより、入力データの特徴量から当該入力データが属するカテゴリを判断する学習モデルＭＤを生成することができる。

つぎに、図１２および図１３を用いて、情報処理装置１０１の第１の予測処理手順について説明する。第１の予測処理手順は、判断対象の入力データと対応付けて、当該入力データが属すると判断されたカテゴリ、当該入力データと最も類似する学習済みの入力データ、所定のアラートＡＬなどを出力する処理である。

図１２および図１３は、情報処理装置１０１の第１の予測処理手順の一例を示すフローチャートである。図１２のフローチャートにおいて、まず、情報処理装置１０１は、判断対象の入力データを受け付けたか否かを判断する（ステップＳ１２０１）。ここで、情報処理装置１０１は、判断対象の入力データを受け付けるのを待つ（ステップＳ１２０１：Ｎｏ）。

そして、情報処理装置１０１は、判断対象の入力データを受け付けた場合（ステップＳ１２０１：Ｙｅｓ）、受け付けた判断対象の入力データの特徴量ベクトルを算出する（ステップＳ１２０２）。つぎに、情報処理装置１０１は、更新した学習モデルＭＤを用いて、算出した判断対象の入力データの特徴量ベクトルに対するラベル（カテゴリ）を判断する（ステップＳ１２０３）。

そして、情報処理装置１０１は、判断対象の入力データと学習済みの入力データそれぞれとの類似度を算出する（ステップＳ１２０４）。具体的には、例えば、情報処理装置１０１は、判断対象の入力データの特徴量ベクトルと、入力情報ＩＮ＿Ｄに格納された各特徴量ベクトルとのコサイン類似度を算出する。

つぎに、情報処理装置１０１は、「ｉ」を「ｉ＝１」として（ステップＳ１２０５）、学習済みの入力データから、ｉ番目に類似度が高い学習済みの入力データを抽出する（ステップＳ１２０６）。そして、情報処理装置１０１は、判断したラベルと、抽出した学習済みの入力データのラベルとが一致するか否かを判断する（ステップＳ１２０７）。

ここで、ラベルが一致する場合（ステップＳ１２０７：Ｙｅｓ）、情報処理装置１０１は、図１３に示すステップＳ１３０１に移行する。一方、ラベルが一致しない場合には（ステップＳ１２０７：Ｎｏ）、情報処理装置１０１は、学習済みの入力データのうち抽出されていない未抽出の学習済みの入力データがあるか否かを判断する（ステップＳ１２０８）。

ここで、未抽出の学習済みの入力データがある場合（ステップＳ１２０８：Ｙｅｓ）、情報処理装置１０１は、「ｉ」をインクリメントして（ステップＳ１２０９）、ステップＳ１２０６に戻る。一方、未抽出の学習済みの入力データがない場合（ステップＳ１２０８：Ｎｏ）、情報処理装置１０１は、予測結果画面を出力して（ステップＳ１２１０）、本フローチャートによる一連の処理を終了する。

なお、ステップＳ１２１０において出力される予測結果画面は、判断対象の入力データと対応付けて、ステップＳ１２０３において判断されたラベル（カテゴリ＃）を表示する画面である。

図１３のフローチャートにおいて、まず、情報処理装置１０１は、ステップＳ１２０６において抽出された学習済みの入力データの類似度が閾値α以上であるか否かを判断する（ステップＳ１３０１）。ここで、類似度が閾値α未満の場合（ステップＳ１３０１：Ｎｏ）、情報処理装置１０１は、ステップＳ１３０４に移行する。

一方、類似度が閾値α以上の場合（ステップＳ１３０１：Ｙｅｓ）、情報処理装置１０１は、「ｉ」が閾値β以下であるか否かを判断する（ステップＳ１３０２）。ここで、「ｉ」が閾値β以下の場合（ステップＳ１３０２：Ｙｅｓ）、情報処理装置１０１は、抽出された学習済みの入力データを正常値としてセットして（ステップＳ１３０３）、ステップＳ１３０５に移行する。

一方、「ｉ」が閾値βより大きい場合（ステップＳ１３０２：Ｎｏ）、情報処理装置１０１は、抽出された学習済みの入力データを異常値としてセットする（ステップＳ１３０４）。そして、情報処理装置１０１は、予測結果画面を出力して（ステップＳ１３０５）、本フローチャートによる一連の処理を終了する。

ステップＳ１３０５において出力される予測結果画面は、判断対象の入力データと対応付けて、ステップＳ１２０３において判断されたラベル（カテゴリ＃）と、ステップＳ１２０６において抽出された学習済みの入力データとを表示する画面である。また、学習済みの入力データが異常値としてセットされた場合には、予測結果画面には、アラートＡＬが表示される。

これにより、判断対象の入力データに対して、機械学習により得られたカテゴリを出力する際に、当該カテゴリに属すると判断される他の事例を示すことができる。また、判断対象の入力データとの類似度や類似順位が一定の水準を満たさない場合に、ユーザに対する警告（アラートＡＬ）を出して、機械学習により得られた判断結果が誤っている可能性があることを示唆することができる。

つぎに、図１４および図１５を用いて、情報処理装置１０１の第２の予測処理手順について説明する。第２の予測処理手順は、判断対象の入力データと対応付けて、当該入力データが属すると判断されたカテゴリ、当該入力データとの類似度が大きい上位Ｎ個の学習済みの入力データを出力する処理である。

図１４および図１５は、情報処理装置１０１の第２の予測処理手順の一例を示すフローチャートである。図１４のフローチャートにおいて、まず、情報処理装置１０１は、判断対象の入力データを受け付けたか否かを判断する（ステップＳ１４０１）。ここで、情報処理装置１０１は、判断対象の入力データを受け付けるのを待つ（ステップＳ１４０１：Ｎｏ）。

そして、情報処理装置１０１は、判断対象の入力データを受け付けた場合（ステップＳ１４０１：Ｙｅｓ）、受け付けた判断対象の入力データの特徴量ベクトルを算出する（ステップＳ１４０２）。つぎに、情報処理装置１０１は、更新した学習モデルＭＤを用いて、算出した判断対象の入力データの特徴量ベクトルに対するラベル（カテゴリ）を判断する（ステップＳ１４０３）。

そして、情報処理装置１０１は、判断対象の入力データと学習済みの入力データそれぞれとの類似度を算出して（ステップＳ１４０４）、図１５に示すステップＳ１５０１に移行する。具体的には、例えば、情報処理装置１０１は、判断対象の入力データの特徴量ベクトルと、入力情報ＩＮ＿Ｄに格納された各特徴量ベクトルとのコサイン類似度を算出する。

図１５のフローチャートにおいて、まず、情報処理装置１０１は、「ｉ」を「ｉ＝１」として（ステップＳ１５０１）、学習済みの入力データから、ｉ番目に類似度が高い学習済みの入力データを抽出する（ステップＳ１５０２）。そして、情報処理装置１０１は、ステップＳ１４０３において判断したラベルと、抽出した学習済みの入力データのラベルとが一致するか否かを判断する（ステップＳ１５０３）。

ここで、ラベルが不一致の場合（ステップＳ１５０３：Ｎｏ）、情報処理装置１０１は、ステップＳ１５０６に移行する。一方、ラベルが一致する場合（ステップＳ１５０３：Ｙｅｓ）、情報処理装置１０１は、抽出した学習済みの入力データをリストに追加する（ステップＳ１５０４）。そして、情報処理装置１０１は、リスト内のデータ数が「Ｎ」となったか否かを判断する（ステップＳ１５０５）。

ここで、リスト内のデータ数が「Ｎ」となった場合（ステップＳ１５０５：Ｙｅｓ）、情報処理装置１０１は、ステップＳ１５０８に移行する。一方、リスト内のデータ数が「Ｎ」となっていない場合（ステップＳ１５０５：Ｎｏ）、情報処理装置１０１は、学習済みの入力データのうち抽出されていない未抽出の学習済みの入力データがあるか否かを判断する（ステップＳ１５０６）。

ここで、未抽出の学習済みの入力データがある場合（ステップＳ１５０６：Ｙｅｓ）、情報処理装置１０１は、「ｉ」をインクリメントして（ステップＳ１５０７）、ステップＳ１５０２に戻る。一方、未抽出の学習済みの入力データがない場合（ステップＳ１５０６：Ｎｏ）、情報処理装置１０１は、予測結果画面を出力して（ステップＳ１５０８）、本フローチャートによる一連の処理を終了する。

ステップＳ１５０７において出力される予測結果画面は、判断対象の入力データと対応付けて、ステップＳ１４０３において判断されたラベルと、リストに登録された最大でＮ個の学習済みの入力データとを表示する画面である。

これにより、判断対象の入力データに対して、機械学習により得られたカテゴリ（ラベル）を出力する際に、当該カテゴリに属すると判断される他の事例（類似度が高い順に最大でＮ個の学習済みの入力データ）を示すことができる。

以上説明したように、実施の形態にかかる情報処理装置１０１によれば、学習モデルＭＤを用いて、判断対象の入力データが属するカテゴリを判断することができる。学習モデルＭＤは、入力データの特徴量から当該入力データが属するカテゴリを判断する予測モデルである。また、情報処理装置１０１によれば、学習モデルＭＤを生成する際に用いた学習済みの入力データから、判断したカテゴリに属する、判断対象の入力データとは異なる他の入力データを抽出することができる。そして、情報処理装置１０１によれば、判断対象の入力データと対応付けて、判断したカテゴリと、抽出した他の入力データとを出力することができる。

これにより、判断対象の入力データに対して、機械学習により得られたカテゴリ（ラベル）を出力する際に、当該カテゴリに属すると判断される他の事例を示すことができる。このため、カテゴリを判断した根拠となる情報をユーザに提示することができ、機械学習により得られた判断結果の妥当性についての評価を支援することができる。

また、情報処理装置１０１によれば、判断対象の入力データと学習済みの入力データそれぞれとの類似度を算出し、算出した類似度に基づいて、学習済みの入力データから、判断したカテゴリに属する他の入力データを抽出することができる。

これにより、判断対象の入力データが属するカテゴリを判断した根拠とする学習済みの入力データを、判断対象の入力データとの類似度合いを考慮して選択することができる。

また、情報処理装置１０１によれば、学習済みの入力データから、判断したカテゴリに属する入力データのうち判断対象の入力データとの類似度が大きい上位Ｎ個の他の入力データを抽出することができる。

これにより、判断対象の入力データが属するカテゴリを判断した根拠とする学習済みの入力データとして、判断対象の入力データとの類似度合いが高い入力データを選択することができる。このため、人間にとって直感的にわかりやすい根拠を提示することができ、機械学習により得られた判断結果の妥当性を評価しやすくすることができる。

また、情報処理装置１０１によれば、学習済みの入力データから、判断したカテゴリに属する入力データのうち判断対象の入力データとの類似度が最大の他の入力データを抽出することができる。そして、情報処理装置１０１によれば、抽出した他の入力データと判断対象の入力データとの類似度が閾値α以下の場合、判断対象の入力データと対応付けて、さらに、所定のアラートＡＬを出力することができる。

これにより、判断対象の入力データに対して、機械学習により得られたカテゴリを出力する際に、当該カテゴリと同じカテゴリに属し、かつ、判断対象の入力データに最も類似する学習済みの入力データを提示することができる。また、判断対象の入力データとの類似度が一定の水準を満たさない場合に、ユーザに対する警告を出して、機械学習により得られた判断結果が誤っている可能性があることを示唆することができる。このため、ユーザが機械学習により得られた判断結果を注意して確認することができ、ラベル（カテゴリ）の間違いが見逃されるのを防ぐことができる。

また、情報処理装置１０１によれば、学習済みの入力データから、判断したカテゴリに属する入力データのうち判断対象の入力データとの類似度が最大の他の入力データを抽出することができる。そして、情報処理装置１０１によれば、抽出した他の入力データが、学習済みの入力データのうち、判断対象の入力データとの類似度が大きい上位Ｍ個の入力データに含まれない場合、判断対象データと対応付けて、さらに、所定のアラートＡＬを出力することができる。

これにより、判断対象の入力データに対して、機械学習により得られたカテゴリを出力する際に、当該カテゴリと同じカテゴリに属し、かつ、判断対象の入力データに最も類似する学習済みの入力データを提示することができる。また、提示する学習済みの入力データの類似順位が一定の水準を満たさない場合に、ユーザに対する警告を出して、機械学習により得られた判断結果が誤っている可能性があることを示唆することができる。このため、ユーザが機械学習により得られた判断結果を注意して確認することができ、ラベル（カテゴリ）の間違いが見逃されるのを防ぐことができる。

また、情報処理装置１０１によれば、判断したカテゴリを判断対象の入力データと対応付けて出力した結果、判断したカテゴリが正しいか否かを示す正誤情報を受け付け、抽出した他の入力データと判断対象の入力データとの類似度と対応付けて、受け付けた正誤情報を記憶部５１０に記録することができる。そして、情報処理装置１０１によれば、記憶部５１０に記録された類似度と正誤情報とのペアに基づいて、閾値αを更新することができる。

これにより、判断対象の入力データに対する判断結果（カテゴリ）の妥当性についてユーザが評価した結果をもとに、閾値αを調整することができる。

また、情報処理装置１０１によれば、判断対象の入力データと対応付けて、さらに、抽出した他の入力データと判断対象の入力データとの類似度を出力することができる。

これにより、根拠として提示された学習済みの入力データと判断対象の入力データとの類似度から、根拠の信頼性を判断することが可能となる。例えば、ユーザは、判断対象の入力データとの類似度が高いほど、根拠を信頼できると判断することができる。

これらのことから、実施の形態にかかる情報処理装置１０１によれば、任意の機械学習アルゴリズムを適用可能にして機械学習により得られる判断結果の精度を確保しつつ、判断結果の妥当性について人間による評価を可能にすることができる。これにより、企業等における業務判断にかかるユーザの負荷を軽減しつつ、ラベルが間違って修正されたり、ラベルの間違いが見逃されたりするのを防ぐことができる。

なお、本実施の形態で説明した評価支援方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本評価支援プログラムは、ハードディスク、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ、ＵＳＢメモリ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本評価支援プログラムは、インターネット等のネットワークを介して配布してもよい。

また、本実施の形態で説明した情報処理装置１０１は、スタンダードセルやストラクチャードＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などの特定用途向けＩＣやＦＰＧＡなどのＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）によっても実現することができる。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）入力データの特徴量から当該入力データが属するカテゴリを判断する学習モデルを用いて、判断対象の入力データが属するカテゴリを判断し、
前記学習モデルを生成する際に用いた学習済みの入力データから、判断した前記カテゴリに属する、前記判断対象の入力データとは異なる他の入力データを抽出し、
前記判断対象の入力データと対応付けて、判断した前記カテゴリと、抽出した前記他の入力データとを出力する、
処理をコンピュータに実行させることを特徴とする評価支援プログラム。

（付記２）前記判断対象の入力データと前記学習済みの入力データそれぞれとの類似度を算出する、処理を前記コンピュータに実行させ、
前記抽出する処理は、
算出した前記類似度に基づいて、前記学習済みの入力データから、判断した前記カテゴリに属する、前記判断対象の入力データとは異なる他の入力データを抽出する、ことを特徴とする付記１に記載の評価支援プログラム。

（付記３）前記抽出する処理は、
前記学習済みの入力データから、判断した前記カテゴリに属する入力データのうち前記判断対象の入力データとの類似度が大きい上位Ｎ個（Ｎ：自然数）の他の入力データを抽出する、ことを特徴とする付記２に記載の評価支援プログラム。

（付記４）前記抽出する処理は、
前記学習済みの入力データから、判断した前記カテゴリに属する入力データのうち前記判断対象の入力データとの類似度が最大の他の入力データを抽出し、
前記出力する処理は、
抽出した前記他の入力データと前記判断対象の入力データとの類似度が閾値以下の場合、前記判断対象の入力データと対応付けて、さらに、所定のアラートを出力する、ことを特徴とする付記２または３に記載の評価支援プログラム。

（付記５）前記抽出する処理は、
前記学習済みの入力データから、判断した前記カテゴリに属する入力データのうち前記判断対象の入力データとの類似度が最大の他の入力データを抽出し、
前記出力する処理は、
抽出した前記他の入力データが、前記学習済みの入力データのうち、前記判断対象の入力データとの類似度が大きい上位Ｍ個（Ｍ：自然数）の入力データに含まれない場合、前記判断対象の入力データと対応付けて、さらに、所定のアラートを出力する、ことを特徴とする付記２～４のいずれか一つに記載の評価支援プログラム。

（付記６）判断した前記カテゴリを前記判断対象の入力データと対応付けて出力した結果、判断した前記カテゴリが正しいか否かを示す正誤情報を受け付け、
抽出した前記他の入力データと前記判断対象の入力データとの類似度と対応付けて、受け付けた前記正誤情報を記憶部に記録し、
前記記憶部に記録された前記類似度と前記正誤情報とのペアに基づいて、前記閾値を更新する、
処理を前記コンピュータに実行させることを特徴とする付記４に記載の評価支援プログラム。

（付記７）前記出力する処理は、
前記判断対象の入力データと対応付けて、さらに、抽出した前記他の入力データと前記判断対象の入力データとの類似度を出力する、ことを特徴とする付記２～６のいずれか一つに記載の評価支援プログラム。

（付記８）前記判断対象の入力データと前記学習済みの入力データそれぞれとの類似度は、コサイン類似度によって表される、ことを特徴とする付記２～７のいずれか一つに記載の評価支援プログラム。

（付記９）入力データの特徴量から当該入力データが属するカテゴリを判断する学習モデルを用いて、判断対象の入力データが属するカテゴリを判断し、
前記学習モデルを生成する際に用いた学習済みの入力データから、判断した前記カテゴリに属する、前記判断対象の入力データとは異なる他の入力データを抽出し、
前記判断対象の入力データと対応付けて、判断した前記カテゴリと、抽出した前記他の入力データとを出力する、
処理をコンピュータが実行することを特徴とする評価支援方法。

（付記１０）入力データの特徴量から当該入力データが属するカテゴリを判断する学習モデルを用いて、判断対象の入力データが属するカテゴリを判断する予測処理部と、
前記学習モデルを生成する際に用いた学習済みの入力データから、前記予測処理部によって判断された前記カテゴリに属する、前記判断対象の入力データとは異なる他の入力データを抽出する抽出部と、
前記判断対象の入力データと対応付けて、前記予測処理部によって判断された前記カテゴリと、前記抽出部によって抽出された前記他の入力データとを出力する出力部と、
を有することを特徴とする情報処理装置。

１０１情報処理装置
１１０，ＭＤ学習モデル
１２０学習済みデータ
２００情報処理システム
２０１クライアント装置
２１０ネットワーク
２２０学習データＤＢ
３００バス
３０１プロセッサ
３０２メモリ
３０３ディスクドライブ
３０４ディスク
３０５通信Ｉ／Ｆ
３０６可搬型記録媒体Ｉ／Ｆ
３０７可搬型記録媒体
５０１取得部
５０２学習処理部
５０３受付部
５０４予測処理部
５０５抽出部
５０６出力部
５０７更新部
５１０記憶部
７００類似度テーブル
８００，９００，１０００予測結果画面

Claims

入力データの特徴量から当該入力データが属するカテゴリを判断する学習モデルを用いて、判断対象の入力データが属するカテゴリを判断し、
前記判断対象の入力データと、前記学習モデルを生成する際に用いた学習済みの入力データそれぞれとの類似度を算出し、
算出した前記類似度に基づいて、前記学習済みの入力データから、判断した前記カテゴリに属する入力データのうち前記判断対象の入力データとの類似度が最大の他の入力データを抽出し、
抽出した前記他の入力データと前記判断対象の入力データとの類似度が閾値以下の場合、前記判断対象の入力データと対応付けて、判断した前記カテゴリと、抽出した前記他の入力データと、前記判断対象の入力データが属するカテゴリの判断結果が誤っている可能性があることを伝えるためのアラートとを出力する、
処理をコンピュータに実行させることを特徴とする評価支援プログラム。
前記出力する処理は、
抽出した前記他の入力データが、前記学習済みの入力データのうち、前記判断対象の入力データとの類似度が大きい上位Ｍ個（Ｍ：自然数）の入力データに含まれない場合、前記判断対象の入力データと対応付けて、判断した前記カテゴリと、抽出した前記他の入力データと、前記アラートとを出力する、ことを特徴とする請求項１に記載の評価支援プログラム。
判断した前記カテゴリを前記判断対象の入力データと対応付けて出力した結果、判断した前記カテゴリが正しいか否かを示す正誤情報を受け付け、
抽出した前記他の入力データと前記判断対象の入力データとの類似度と対応付けて、受け付けた前記正誤情報を記憶部に記録し、
前記記憶部に記録された前記類似度と前記正誤情報とのペアに基づいて、前記閾値を更新する、
処理を前記コンピュータに実行させることを特徴とする請求項１に記載の評価支援プログラム。
算出した前記類似度に基づいて、前記学習済みの入力データから、判断した前記カテゴリに属する入力データのうち前記判断対象の入力データとの類似度が大きい上位Ｎ個（Ｎ：自然数）の他の入力データを抽出し、
前記判断対象の入力データと対応付けて、判断した前記カテゴリと、抽出した前記他の入力データとを出力する、
処理を前記コンピュータに実行させることを特徴とする請求項１に記載の評価支援プログラム。
入力データの特徴量から当該入力データが属するカテゴリを判断する学習モデルを用いて、判断対象の入力データが属するカテゴリを判断し、
前記判断対象の入力データと、前記学習モデルを生成する際に用いた学習済みの入力データそれぞれとの類似度を算出し、
算出した前記類似度に基づいて、前記学習済みの入力データから、判断した前記カテゴリに属する入力データのうち前記判断対象の入力データとの類似度が最大の他の入力データを抽出し、
抽出した前記他の入力データと前記判断対象の入力データとの類似度が閾値以下の場合、前記判断対象の入力データと対応付けて、判断した前記カテゴリと、抽出した前記他の入力データと、前記判断対象の入力データが属するカテゴリの判断結果が誤っている可能性があることを伝えるためのアラートとを出力する、
処理をコンピュータが実行することを特徴とする評価支援方法。
入力データの特徴量から当該入力データが属するカテゴリを判断する学習モデルを用いて、判断対象の入力データが属するカテゴリを判断する予測処理部と、
前記判断対象の入力データと、前記学習モデルを生成する際に用いた学習済みの入力データそれぞれとの類似度を算出し、算出した前記類似度に基づいて、前記学習済みの入力データから、前記予測処理部によって判断された前記カテゴリに属する入力データのうち前記判断対象の入力データとの類似度が最大の他の入力データを抽出する抽出部と、
前記抽出部によって抽出された前記他の入力データと前記判断対象の入力データとの類似度が閾値以下の場合、前記判断対象の入力データと対応付けて、前記予測処理部によって判断された前記カテゴリと、前記抽出部によって抽出された前記他の入力データと、前記判断対象の入力データが属するカテゴリの判断結果が誤っている可能性があることを伝えるためのアラートとを出力する出力部と、
を有することを特徴とする情報処理装置。