JP2022037802A

JP2022037802A - データ管理プログラム、データ管理方法及び情報処理装置

Info

Publication number: JP2022037802A
Application number: JP2020142126A
Authority: JP
Inventors: 優上野; Masaru Ueno; 憲二大木; Kenji Oki
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2022-03-09

Abstract

【課題】機械学習の分類精度を向上させるデータ管理プログラム、データ管理方法及び情報処理装置を提供する。【解決手段】データ管理プログラムは以下の処理をコンピュータに実行させる。教師データと前記教師データに対応する教師信号とを含む複数の学習データにおける前記教師データの特徴量を用いて前記教師データをクラスタリングする。前記クラスタリングにより生成されたクラスタの中から、各前記クラスタに含まれる前記教師データに対応する前記教師信号の種類数及び種類毎の前記教師信号の個数の標準偏差を基に、誤り候補のクラスタを抽出する。【選択図】図９

Description

本発明は、データ管理プログラム、データ管理方法及び情報処理装置に関する。

近年、機械学習を応用したシステムやサービスの普及がめざましい。例えば、機械学習における教師有り学習の応用例として、文書や画像などの業務データの分類を教師有り学習に基づいて行うシステムが広く採用されている。これにより、これまで人手で行っていた文書の分類を機械的に行うことで省力化することができる。

教師有り学習を用いた分類とは、例題となる教師データと答えとなる教師信号とのペアを有する学習データを用いて学習を行って分類器を生成し、生成した分類器を用いて未知のデータを分類する技術である。このような教師有り学習を用いた分類において、一般に教師信号が誤っている場合、誤った分類結果を返す分類器が作成されてしまう。そのため、教師有り学習を用いた分類を行う場合には、教師信号を誤らずに学習を実行する装置に与えることが重要となる。

このような教師信号の誤りに対応する技術として、教師信号に誤りが含まれている場合でも正しい分類器を生成する従来技術がある。この技術は、例題となるデータと教師信号とのペアである教師データが数万件といった多数であり且つ教師信号の誤りが分類毎に均等に含まれるという条件を前提とする。

また、教師有り学習による予測ラベルと教師なし学習とを組み合わせ、教師データ候補を複数のグループにまとめて可視化することで、不足する教師信号を効率的に収集する半教師有り学習手法が提案されている。この手法では、教師データ候補だけでなく教師データを可視化することでカテゴリラベルが間違っている教師データが提示される。この技術は、教師信号の種類が少なく教師信号あたりの誤り率が小さい場合に有効である。

また、入力データを用いてシミュレーションし、シミュレーション結果を教師データとして、教師データをクラスタリングして、クラスタ毎に異常の有無を判定し、異常の場合に他のシミュレーションモデルに変更する従来技術がある。

特開２０１５－１８５１４９号公報特開２０１９－８２８７４号公報

Melody Y. Guan,外３名 "Who Said What: Modeling Individual Labelers Improves Classification" AAAI 2018, [online] ［令和２年８月６日検索］, インターネット＜ＵＲＬ：https://arxiv.org/pdf/1703.08774.pdf＞

しかしながら、機械学習の専門家であっても、教師信号を誤って付与してしまう場合がある。例えば、業務データの分類基準が明確に決められていない場合に、教師信号がどちらの分類に属するかが不明確であり、間違った分類に教師信号を与えてしまうおそれがある。また、業務データを目視して分類する作業は時間や労力がかかる。そのため、急いで教師信号の付与作業を行った場合に教師信号の付け間違いが発生するおそれがある。また、複数人で別々に分類を行った場合に作業者により教師信号の付け方に偏りが発生し誤りが発生するおそれがある。

一方、教師信号に誤りが含まれている場合でも正しい分類器を生成する従来技術や、教師有り学習による予測ラベルと教師なし学習とを組み合わせて教師データ候補を複数のグループにまとめて可視化する従来技術は、それぞれ前提となる条件が存在する。しかし、業務データの分類の際にこれらの条件のいずれかが満たされることは実際には少ない。

例えば、業務データの場合、部署毎に分類を行うなどの場合が多く、教師信号が数千件すら集まらないことも多い。また、業務データは、時期や人などによって偏りが発生し、分類毎に誤りが均等に含まれる状態とすることは困難である。また、業務データの分類の場合、自動分類可能な教師信号の種類は多いほうが役立つ。例えば、メールの分類を行う場合、かなり細かく分類することが望ましい。そのため、教師信号あたりの誤り率は大きくなりがちである。

このように前提条件が満たされない場合、師信号に誤りが含まれている場合でも正しい分類器を生成する従来技術では、誤りの影響で分類精度が下がるおそれがある。また、教師有り学習による予測ラベルと教師なし学習とを組み合わせて教師データ候補を複数のグループにまとめて可視化する従来技術では、周囲の区画の教師信号があまり一致しないため、誤り候補を十分に提示することが困難となる。以上のことから、これらの従来技術を用いても、機械学習に期待する分類精度を得ることが困難である。

また、教師データをクラスタリングしてクラスタ毎に異常の有無を判定する従来技術でも、異常を有するクラスタの特定は可能であるが、誤り候補となる教師信号を個別に特定することは困難である。したがって、機械学習に期待する分類精度を得ることが困難である。

開示の技術は、上記に鑑みてなされたものであって、機械学習の分類精度を向上させるデータ管理プログラム、データ管理方法及び情報処理装置を提供することを目的とする。

本願の開示するデータ管理プログラム、データ管理方法及び情報処理装置の一つの態様において、以下の処理をコンピュータに実行させる。入力データと前記入力データに対応する正しい出力である出力データとを含む複数の学習データにおける前記入力データの特徴量を用いて前記入力データをクラスタリングする。前記クラスタリングにより生成されたクラスタの中から、各前記クラスタに含まれる前記入力データに対応する前記出力データの種類数及び種類毎の前記出力データの個数の標準偏差を基に、誤り候補のクラスタを抽出する。

１つの側面では、本発明は、機械学習の分類精度を向上させることができる。

図１は、実施例に係る学習用計算機のブロック図である。図２は、学習データの一例を示す図である。図３は、教師データに対応付けられた情報の一例を示す図である。図４は、教師信号の個数の標準偏差の算出を説明するための図である。図５は、クラスタ管理表の一例を示す図である。図６は、クラスタの除外ルールを示す図である。図７は、クラスタの並べ替えルールを示す図である。図８は、誤り候補の教師信号の提示の一例を説明するための図である。図９は、実施例に係る学習用計算機による誤り候補の教師信号の提示処理のフローチャートである。図１０は、学習用計算機のハードウェア構成図である。

以下に、本願の開示するデータ管理プログラム、データ管理方法及び情報処理装置の実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示するデータ管理プログラム、データ管理方法及び情報処理装置が限定されるものではない。

図１は、実施例に係る学習用計算機のブロック図である。学習用計算機１は、管理者端末装置２に接続される。管理者端末装置２は、教師有り学習の管理に用いられる端末である。管理者端末装置２は、学習データの学習用計算機１への提供、並びに、誤候補の提示命令、教師信号の修正命令、学習の実行指示命令及び分類実行命令の学習用計算機１への送信を行う。

また、図１に示すように、学習用計算機１は、誤候補提示器１０、学習データ格納部１１、学習器１２、分類器１３、分類結果出力部１４及び分類対象データ格納部１５を有する。さらに、誤候補提示器１０は、特徴抽出部１０１、クラスタリング部１０２及び誤候補抽出部１０３を有する。

学習データ格納部１１は、管理者端末装置２から送信された複数の学習データを受信して格納する。図２は、学習データの一例を示す図である。図２に示す表２０１における、各列が学習データを表す。学習データは、例題となる教師データと各教師データの答えとなる教師信号の組のデータである。教師データは、文書や画像のデータであり、「入力データ」の一例にあたる。教師信号は、「出力データ」の一例にあたる。

また、表２０１における教師信号の値は、教師データを分類した場合の各分類グループに与えられた分類番号を表す。すなわち、表２０１に記載された学習データのうち、データ＃１およびデータ＃２は分類番号が３の分類グループに分類され、データ＃３は分類番号が１の分類グループに分類される。

誤候補提示器１０は、管理者端末装置２から送信された誤候補の提示命令を受信する。そして、誤候補提示器１０は、学習データ格納部１１に格納された教師データを、その特徴量に基づいて複数のクラスタにクラスタリングし、各クラスタに含まれる教師信号の種類数又は個数の標準偏差に基づいて誤り候補のクラスタを特定して管理者に提示する。以下に、誤候補提示器１０の動作の詳細について説明する。以下では、文書データを教師データとして，文書の分類番号を教師信号とする場合で説明する。

特徴抽出部１０１は、教師データを特徴ベクトルに変換する。この特徴ベクトルが特徴量にあたる。以下に、特徴抽出部１０１の具体的な動作を説明する。

特徴抽出部１０１は、誤候補の提示命令を誤候補提示器１０が受信すると、学習データ格納部１１から全ての学習データの教師データを読み出す。次に、特徴抽出部１０１は、例えば文書中の単語の出現頻度を用いて重要度を数値化したＴＦ－ＩＤＦ（Term Frequency-Inverse Document Frequency）指標を用いて、取得した各教師データを特徴ベクトルに変換する。そして、特徴抽出部１０１は、各教師データ及び各教師データに対応する特徴ベクトルをクラスタリング部１０２へ出力する。

クラスタリング部１０２は、特徴ベクトルを用いて教師なし学習であるクラスタリングを行うことで教師データをクラスタ化する。以下にクラスタリング部１０２の具体的な動作を説明する。

クラスタリング部１０２は、各教師データ及び各教師データに対応する特徴ベクトルの入力を特徴抽出部１０１から受ける。次に、クラスタリング部１０２は、各特徴ベクトル間の距離及びクラスタリング閾値を用いて例えばＷｏｒｄ法により教師データのクラスタリングを行う。そして、クラスタリング部１０２は、各クラスタのクラスタＩＤ（Identifier）を算出する。次に、クラスタリング部１０２は、各教師データが属するクラスタにしたがって、算出したクラスタＩＤを各教師データに付与する。

これにより、各教師データには、図３に示すように、教師信号、特徴ベクトル及びクラスタＩＤが対応付けられる。図３は、教師データに対応付けられた情報の一例を示す図である。ここで、ＩＤは、各教師データを一意に識別するための教師データに割り当てられた識別番号である。ＩＤは、学習データ格納部１１への学習データの格納時に割り当てられてもよいし、教師データ又は特徴ベクトルの取得時に特徴抽出部１０１又はクラスタリング部１０２により割り当てられてもよい。

その後、クラスタリング部１０２は、各教師データに付与したクラスタＩＤの情報を教師データとともに誤候補抽出部１０３へ出力する。

誤候補抽出部１０３は、クラスタＩＤと教師信号とを突き合わせて、誤り候補となるクラスタを特定し、誤り候補の教師データを管理者に提供する。以下に、誤候補抽出部１０３の具体的な動作を説明する。

誤候補抽出部１０３は、教師データ及び各教師データに付与されたクラスタＩＤの入力をクラスタリング部１０２から受ける。さらに、誤候補抽出部１０３は、各教師データに対応する教師信号を学習データ格納部１１から取得する。

次に、誤候補抽出部１０３は、各クラスタに含まれる教師データに対応する教師信号の種類数を求める。例えば、クラスタＩＤが１０であるクラスタに含まれる教師データの教師信号が｛３，９，１９｝の３種類であった場合、誤候補抽出部１０３は、クラスタＩＤが１０であるクラスタに含まれる教師データに対応する教師信号の種類数を３とする。

次に、誤候補抽出部１０３は、各クラスタに含まれる教師データに対応する教師信号の数の標準偏差を算出する。例えば、クラスタＩＤが１０のクラスタに含まれる教師データに対応する教師信号の数が図４に示す数である場合について説明する。図４は、教師信号の個数の標準偏差の算出を説明するための図である。この場合、クラスタＩＤが１０のクラスタには、教師信号が３の教師データは１０個含まれ、教師信号が９の教師データが２０個含まれ、教師信号が１９の教師データが３０個含まれる。この場合、誤候補算出部１０３は、クラスタＩＤが１０のクラスタに含まれる教師データに対応する教師信号の個数の標準偏差を８．１６と算出する。

次に、誤候補抽出部１０３は、各クラスタに含まれる教師データに対応する教師信号の種類数を、各クラスタに含まれる教師データに対応する教師信号の個数の標準偏差で除算して、第１指標を算出する。第１指標は、ばらつきが大きければ大きくなり、個数の偏りが小さければ大きくなる指標である。例えば、誤候補抽出部１０３は、上述したクラスタＩＤが１０のクラスタの第１指標を３／８．１６＝０．３６７と算出する。

ここで、特定のクラスタに含まれる教師データに対応する教師信号が１種類の場合、その特定クラスタに含まれる教師データに対応する教師信号の個数の標準偏差は０になる。そして、含まれる教師データに対応する教師信号が１種類の場合、そのクラスタには誤り候補の教師信号が含まれていないと考えられる。そこで、誤候補抽出部１０３は、誤り候補の判定対象から含まれる教師データに対応する教師信号が１種類のクラスタを除外する。

次に、誤候補抽出部１０３は、クラスタに含まれる教師データの件数を集計する。そして、誤候補抽出部１０３は、集計結果を第２指標とする。その後、誤候補抽出部１０３は、クラスタＩＤ毎に算出した第１指標及び第２指標を登録した図５に示すクラスタ管理表２０４を作成する。図５は、クラスタ管理表の一例を示す図である。

次に、誤候補抽出部１０３は、クラスタ管理表２０４におけるクラスタを第１指標の値で降順ソートする。これにより、ばらつきが大きく且つ個数の偏りが小さい順にクラスタが並び替えられる。ばらつきが大きく且つ個数の偏りが小さいクラスタには、より多くの誤った教師信号がそのクラスタに含まれると考えられる。すなわち、誤候補抽出部１０３は、より誤った教師信号を多く含むと考えられる順にクラスタ管理表２０４におけるクラスタを並び替える。

さらに、誤候補抽出部１０３は、第１指標が同じ値となるクラスタが複数存在する場合、クラスタ管理表２０４におけるそれらのクラスタを第２指標の値で昇順ソートする。これにより、第１指標が同じ値のクラスタについて、含む教師データが少ない順にクラスタが並び替えられる。教師データの数が少なければ、誤った教師信号を見つけることが容易となる。すなわち、誤候補抽出部１０３は、第１指標が同じ値のクラスタについては、誤った教師信号を見つけやすい順にクラスタ管理表２０４におけるクラスタを並び替える。

ここで、図６及び７を参照して、誤候補抽出部１０３によるクラスタの並べ替えの概要について説明する。図６は、クラスタの除外ルールを示す図である。また、図７は、クラスタの並べ替えルールを示す図である。図６及び７における楕円はそれぞれクラスタを表し、楕円で囲われた枠内の記号はそれぞれ教師データを表す。そして、各教師データのうち同じ記号を有する教師データは、同じ教師信号を有する。

図６に示すクラスタ３０１～３０３が存在する場合、誤候補抽出部１０３は、クラスタ３０１に含まれる教師データに対応する教師信号の種類を３とする。また、誤候補抽出部１０３は、クラスタ３０２に含まれる教師データに対応する教師信号の種類を２とする。また、誤候補抽出部１０３は、クラスタ３０３に含まれる教師データに対応する教師信号の種類を１とする。ここで、クラスタ３０３に含まれる教師データに対応する教師信号の種類は１つであるので、誤候補抽出部１０３は、クラスタ３０３は誤った教師信号を含まないと判定して、クラスタ３０３を誤り候補の判定対象から除外する。

次に、誤候補抽出部１０３は、条件３１０及び３２０に応じてクラスタを並び替えることで、第１指標の値で降順ソートする。条件３１０は、教師信号のばらつきが大きいクラスタをより上位にするという条件である。例えば、クラスタ３１１に含まれる教師データに対応する教師信号の種類は３であり、クラスタ３１１に含まれる教師データに対応する教師信号の種類は３であり、クラスタ３１２に含まれる教師データに対応する教師信号の種類は２である。そこで、誤候補抽出部１０３は、クラスタ３１１をクラスタ３１２よりクラスタ管理表２０４において上位に並べる。

また、条件３２０は、教師信号の個数の偏りが小さいクラスタをより上位にするという条件である。例えば、クラスタ３２１に含まれる教師データに対応する教師信号の種類は２つあり、一方の種類の教師信号の個数が２であり、他方の種類の教師信号の個数が３である。また、クラスタ３２２に含まれる教師データに対応する教師信号の種類は２つあり、一方の種類の教師信号の個数が１であり、他方の種類の教師信号の個数は４である。この場合、クラスタ３２１の方がクラスタ３２２に比べて標準偏差が小さいので、誤候補抽出部１０３は、クラスタ３２１をクラスタ３２２よりクラスタ管理表２０４において上位に並べる。さらに、誤候補抽出部１０３は、第１指標の値が同じクラスタについては、各クラスタに含まれる教師データの数の多い順に並び替える。すなわち、誤候補抽出部１０３は、誤り候補を多く含むと考えられる順であり、そのうえ作業者の目視件数が少ない順にクラスタの順位付けを行う。

以上のようにクラスタの並び替えを行った後に、誤候補抽出部１０３は、並び替えられたクラスタ管理表２０４における上から順に予め決められた数のクラスタを誤り候補のクラスタとして抽出する。そして、誤候補抽出部１０３は、誤り候補のクラスタに含まれる全ての教師データ及び教師信号を管理者端末装置２に送信して表示させることで、管理者に提示する。管理者は、提示された学習データの情報を参照して、誤った教師信号を特定し、管理者端末装置２を使用して、教師信号の修正命令を送信して学習データ格納部１１に格納された学習データを修正する。

図８は、誤り候補の教師信号の提示の一例を説明するための図である。例えば、図５におけるクラスタ管理表２０４がクラスタの並び替えが完了した状態であり、誤り候補のクラスタの選択数が２の場合で説明する。その場合、誤候補抽出部１０３は、図５に示すクラスタ管理表２０４のうち上位２つのクラスタ、すなわちクラスタＩＤが１０及び２のクラスタを誤り候補のクラスタとして抽出する。そして、誤候補抽出部１０３は、図８の表２０５には、図５のクラスタ管理表２０４におけるクラスタの順にクラスタに含まれる教師データ及び教師信号が並べて記載されている。この場合、表２０５において、誤り候補のクラスタであるクラスタＩＤが１０及び２のクラスタに対応する情報は、枠２５１で囲われた部分にあたる。そこで、誤候補抽出部１０３は、表２０５の枠２５１で囲われた中の教師データ及び教師信号の組の情報を管理者に提示する。

学習器は１２、学習の実行指示命令を管理者端末装置２から受ける。次に、学習器１２は、学習データを学習データ格納部１１から取得する。そして、学習器１２は、取得した学習データを用いて教師有り学習を実行する。そして、学習結果を分類器１３へ出力する。

分類器１３は、学習データを用いた教師有り学習の学習結果の入力を学習器１２から受ける。また、分類器１３は、分類対象データ格納部１５に格納された分類結果が未知の分類対象のデータを取得する。そして、分類器１３は、学習器１２から取得した学習結果を用いて、分類対象のデータの分類を実行する。その後、分類器１３は、分類結果を分類結果出力部１４へ出力する。

分類結果出力部１４は、分類対象のデータの分類結果の入力を分類器１３から受ける。そして、分類結果出力部１４は、分類対象のデータの分類結果の図示しない記憶装置への保存やモニタなどへの表示を行う。

次に、図９を参照して、本実施例に係る学習用計算機１による誤り候補の教師信号の提示処理の流れについて説明する。図９は、実施例に係る学習用計算機１による誤り候補の教師信号の提示処理のフローチャートである。

特徴抽出部１０１は、教師データを学習データ格納部１１から読み出す。次に、特徴抽出部１０１は、ＴＦ－ＩＤＦ指標を用いて取得した各教師データを特徴ベクトルに変換する（ステップＳ１）。そして、特徴抽出部１０１は、各教師データ及び各教師データに対応する特徴ベクトルをクラスタリング部１０２へ出力する。

クラスタリング部１０２は、各教師データ及び各教師データに対応する特徴ベクトルの入力を特徴抽出部１０１から受ける。次に、クラスタリング部１０２は、各特徴ベクトル間の距離及びクラスタリング閾値を用いてＷｏｒｄ法により教師データのクラスタリングを行う（ステップＳ２）。

次に、クラスタリング部１０２は、各クラスタのクラスタＩＤを算出する。そして、クラスタリング部１０２は、各教師データが属するクラスタにしたがって、算出したクラスタＩＤを各教師データに付与する（ステップＳ３）。その後、クラスタリング部１０２は、各教師データに付与したクラスタＩＤの情報を教師データとともに誤候補抽出部１０３へ出力する。

誤候補抽出部１０３は、教師データ及び各教師データに付与されたクラスタＩＤの入力をクラスタリング部１０２から受ける。さらに、誤候補抽出部１０３は、各教師データに対応する教師信号を学習データ格納部１１から取得する。そして、誤候補抽出部１０３は、クラスタを１つ選択する（ステップＳ４）。

次に、誤候補抽出部１０３は、選択したクラスタに含まれる教師データに対応する教師信号の種類数を集計する（ステップＳ５）。そして、誤候補抽出部１０３は、誤り候補のクラスタの判定候補とするクラスタの中から教師信号の種類が１のクラスタを除外する。

次に、誤候補抽出部１０３は、選択したクラスタに含まれる教師データのうち教師信号の値が同じである教師データの数を教師信号毎に求める。そして、誤候補抽出部１０３は、教師信号の値が同じである教師データの数を用いて、選択したクラスタにおける教師信号の個数の標準偏差を算出する（ステップＳ６）。

次に、誤候補抽出部１０３は、各クラスタに含まれる教師データに対応する教師信号の種類数を、各クラスタに含まれる教師データに対応する教師信号の個数の標準偏差で除算して、第１指標を算出する（ステップＳ７）。

次に、誤候補抽出部１０３は、クラスタに含まれる教師データの件数を集計する。そして、誤候補抽出部１０３は、集計結果を第２指標とする（ステップＳ８）。

次に、誤候補抽出部１０３は、各クラスタＩＤに第１指標及び第２指標を対応させてクラスタ管理表２０４に登録する（ステップＳ９）。

その後、誤候補抽出部１０３は、全てクラスタのクラスタ管理表２０４への登録が完了したか否かを判定する（ステップＳ１０）。クラスタ管理表２０４への登録を行っていないクラスタが存在する場合（ステップＳ１０：否定）、誤候補抽出部１０３は、ステップＳ４へ戻る。

これに対して、全てクラスタのクラスタ管理表２０４への登録が完了した場合（ステップＳ１０：肯定）、誤候補抽出部１０３は、クラスタ管理表２０４に登録されたクラスタを第１指標の値で降順ソートする（ステップＳ１１）。

さらに、誤候補抽出部１０３は、第１指標の値が同じ２つ以上のクラスタＩＤが存在するか否かを判定する（ステップＳ１２）。第１指標の値が同じ２つ以上のクラスタＩＤが存在しない場合（ステップＳ１２：否定）、誤候補抽出部１０３は、ステップＳ１４へ進む。

これに対して、第１指標の値が同じ２つ以上のクラスタＩＤが存在する場合（ステップＳ１２：肯定）、誤候補抽出部１０３は、クラスタ管理表２０４における第１指標の値が同じクラスタＩＤを有するクラスタを第２指標の値で昇順ソートする（ステップＳ１３）。

その後、誤候補抽出部１０３は、クラスタ管理表２０４における上位の所定件のクラスタに含まれる学習データを誤り候補として抽出する。そして、誤候補抽出部１０３は、抽出した誤り候補の学習データを管理者端末装置２へ送信して管理者に提示する（ステップＳ１４）。

以上に説明したように、本実施例に係る学習用計算機は、各教師データの特徴量を基に教師データを複数のクラスタにクラスタリングする。そして、学習用計算機は、それぞれのクラスタに含まれる教師データに対応する教師信号及び教師信号の個数の標準偏差を基に、誤り候補を多く含むと考えられる順であり、そのうえ作業者の目視件数が少ない順にクラスタの順位付けを行う。その後、学習用計算機は、順位付けしたクラスタの上位の所定数のクラスタに含まれる学習データを誤り候補として選択して提示する。これにより、教師データの修正コストを削減することが可能となる。特に、クラスタリングを行う際に教師なし学習を用いるため、別途教師データを追加することなく誤り候補を特定することが可能である。また、誤り率が大きい場合でも誤り候補の教師信号をすることができる。これにより、教師データ量が少なく教師信号あたりの誤り率が大きい場合であっても、期待する分類精度を有する分類器を学習により得ることができる。したがって、機械学習の分類精度を向上させることが可能となる。

（ハードウェア構成）
次に、図１０を参照して、本実施例に係る学習用計算機のハードウェア構成について説明する。図１０は、学習用計算機のハードウェア構成図である。

学習用計算機１は、例えば図１０に示すように、ＣＰＵ（Central Processing Unit）９１、メモリ９２、ハードディスク９３及びネットワークインタフェース９４を有する。ＣＰＵ９１は、バスを介してメモリ９２、ハードディスク９３及びネットワークインタフェース９４に接続される。

ネットワークインタフェース９４は、学習用計算機１と管理者端末装置２との間の通信インタフェースである。例えば、ＣＰＵ９１は、ネットワークインタフェース９４を介して管理者端末装置２との間でデータの送受信を行う。

ハードディスク９３は、図１に例示した学習データ格納部１１や分類対象データ格納部１５の機能を実現する。また、ハードディスク９３は、図１に例示した誤候補提示器１０における特徴量算出部１０１、クラスタリング部１０２及び誤候補抽出部１０３、学習器１２、分類器１３、並びに、分類結果出力部１４の機能を実現するプログラムを含む各種プログラムを格納する。

ＣＰＵ９１は、ハードディスク９３から各種プログラムを読み出してメモリ９２上に展開して実行する。これにより、ＣＰＵ９１は、誤候補提示器１０における特徴量算出部１０１、クラスタリング部１０２及び誤候補抽出部１０３、学習器１２、分類器１３、並びに、分類結果出力部１４の機能を実現する。

ここで、本実施例では、１台の学習用計算機１の中に誤候補提示器１０、学習器１２、分類器１３及び分類結果出力部１４が搭載される構成を例に説明したが、構成はこれに限らず、各部は複数台のコンピュータに分けて搭載されてもよい。例えば、誤検出提示器１０の機能を実現するコンピュータと、学習器１２、分類器１３及び分類結果出力部１４の機能を実現するコンピュータとが異なる装置として構成されてもよい。

１学習用計算機
２管理者端末装置
１０誤候補提示器
１１学習データ格納部
１２学習器
１３分類器
１４分類結果出力部
１５分類対象データ格納部
１０１特徴量抽出部
１０２クラスタリング部
１０３誤候補抽出部

Claims

入力データと前記入力データに対応する正しい出力である出力データとを含む複数の学習データにおける前記入力データの特徴量を用いて前記入力データをクラスタリングし、
前記クラスタリングにより生成されたクラスタの中から、各前記クラスタに含まれる前記入力データに対応する前記出力データの種類数及び種類毎の前記出力データの個数の標準偏差を基に、誤り候補のクラスタを抽出する
処理をコンピュータに実行させることを特徴とするデータ管理プログラム。
前記学習データに含まれる前記入力データを取得して特徴量を算出する処理をコンピュータに実行させることを特徴とする請求項１に記載のデータ管理プログラム。
前記抽出した誤り候補のクラスタに含まれる前記入力データを含む前記学習データの情報を出力する処理をコンピュータに実行させることを特徴とする請求項１又は２に記載のデータ管理プログラム。
前記クラスタリングにより生成された前記クラスタを前記出力データの種類数が大きく、且つ、前記標準偏差が小さい順に並べた場合の上位の所定数のクラスタを前記誤り候補のクラスタとして抽出する処理をコンピュータに実行させることを特徴とする請求項１～３のいずれか１つに記載のデータ管理プログラム。
各前記クラスタに含まれる前記入力データに対応する前記出力データの種類数及び種類毎の前記出力データの個数の標準偏差に加えて、各前記クラスタに含まれる前記入力データの数を基に誤り候補のクラスタを抽出する処理をコンピュータに実行させることを特徴とする請求項１～４のいずれか１つに記載のデータ管理プログラム。
入力データと前記入力データに対応する正しい出力である出力データとを含む複数の学習データにおける前記入力データの特徴量を用いて前記入力データをクラスタリングし、
前記クラスタリングにより生成されたクラスタの中から、各前記クラスタに含まれる前記入力データに対応する前記出力データの種類数及び種類毎の前記出力データの個数の標準偏差を基に、誤り候補のクラスタを抽出する
ことを特徴とするデータ管理方法。
入力データと前記入力データに対応する正しい出力である出力データとを含む複数の学習データにおける前記入力データの特徴量を算出する特徴抽出部と、
前記特徴抽出部により算出された前記特徴量を用いて前記入力データをクラスタリングするクラスタリング部と、
前記クラスタリング部により生成されたクラスタの中から、各前記クラスタに含まれる前記入力データに対応する前記出力データの種類数及び種類毎の前記出力データの個数の標準偏差を基に、誤り候補のクラスタを抽出する誤候補抽出部と
を備えたことを特徴とする情報処理装置。