JP2022037802A - データ管理プログラム、データ管理方法及び情報処理装置 - Google Patents

データ管理プログラム、データ管理方法及び情報処理装置 Download PDF

Info

Publication number
JP2022037802A
JP2022037802A JP2020142126A JP2020142126A JP2022037802A JP 2022037802 A JP2022037802 A JP 2022037802A JP 2020142126 A JP2020142126 A JP 2020142126A JP 2020142126 A JP2020142126 A JP 2020142126A JP 2022037802 A JP2022037802 A JP 2022037802A
Authority
JP
Japan
Prior art keywords
data
cluster
teacher
clusters
input data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020142126A
Other languages
English (en)
Inventor
優 上野
Masaru Ueno
憲二 大木
Kenji Oki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2020142126A priority Critical patent/JP2022037802A/ja
Publication of JP2022037802A publication Critical patent/JP2022037802A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】機械学習の分類精度を向上させるデータ管理プログラム、データ管理方法及び情報処理装置を提供する。【解決手段】データ管理プログラムは以下の処理をコンピュータに実行させる。教師データと前記教師データに対応する教師信号とを含む複数の学習データにおける前記教師データの特徴量を用いて前記教師データをクラスタリングする。前記クラスタリングにより生成されたクラスタの中から、各前記クラスタに含まれる前記教師データに対応する前記教師信号の種類数及び種類毎の前記教師信号の個数の標準偏差を基に、誤り候補のクラスタを抽出する。【選択図】図9

Description

本発明は、データ管理プログラム、データ管理方法及び情報処理装置に関する。
近年、機械学習を応用したシステムやサービスの普及がめざましい。例えば、機械学習における教師有り学習の応用例として、文書や画像などの業務データの分類を教師有り学習に基づいて行うシステムが広く採用されている。これにより、これまで人手で行っていた文書の分類を機械的に行うことで省力化することができる。
教師有り学習を用いた分類とは、例題となる教師データと答えとなる教師信号とのペアを有する学習データを用いて学習を行って分類器を生成し、生成した分類器を用いて未知のデータを分類する技術である。このような教師有り学習を用いた分類において、一般に教師信号が誤っている場合、誤った分類結果を返す分類器が作成されてしまう。そのため、教師有り学習を用いた分類を行う場合には、教師信号を誤らずに学習を実行する装置に与えることが重要となる。
このような教師信号の誤りに対応する技術として、教師信号に誤りが含まれている場合でも正しい分類器を生成する従来技術がある。この技術は、例題となるデータと教師信号とのペアである教師データが数万件といった多数であり且つ教師信号の誤りが分類毎に均等に含まれるという条件を前提とする。
また、教師有り学習による予測ラベルと教師なし学習とを組み合わせ、教師データ候補を複数のグループにまとめて可視化することで、不足する教師信号を効率的に収集する半教師有り学習手法が提案されている。この手法では、教師データ候補だけでなく教師データを可視化することでカテゴリラベルが間違っている教師データが提示される。この技術は、教師信号の種類が少なく教師信号あたりの誤り率が小さい場合に有効である。
また、入力データを用いてシミュレーションし、シミュレーション結果を教師データとして、教師データをクラスタリングして、クラスタ毎に異常の有無を判定し、異常の場合に他のシミュレーションモデルに変更する従来技術がある。
特開2015-185149号公報 特開2019-82874号公報
Melody Y. Guan,外3名 "Who Said What: Modeling Individual Labelers Improves Classification" AAAI 2018, [online] [令和2年8月6日検索], インターネット<URL:https://arxiv.org/pdf/1703.08774.pdf>
しかしながら、機械学習の専門家であっても、教師信号を誤って付与してしまう場合がある。例えば、業務データの分類基準が明確に決められていない場合に、教師信号がどちらの分類に属するかが不明確であり、間違った分類に教師信号を与えてしまうおそれがある。また、業務データを目視して分類する作業は時間や労力がかかる。そのため、急いで教師信号の付与作業を行った場合に教師信号の付け間違いが発生するおそれがある。また、複数人で別々に分類を行った場合に作業者により教師信号の付け方に偏りが発生し誤りが発生するおそれがある。
一方、教師信号に誤りが含まれている場合でも正しい分類器を生成する従来技術や、教師有り学習による予測ラベルと教師なし学習とを組み合わせて教師データ候補を複数のグループにまとめて可視化する従来技術は、それぞれ前提となる条件が存在する。しかし、業務データの分類の際にこれらの条件のいずれかが満たされることは実際には少ない。
例えば、業務データの場合、部署毎に分類を行うなどの場合が多く、教師信号が数千件すら集まらないことも多い。また、業務データは、時期や人などによって偏りが発生し、分類毎に誤りが均等に含まれる状態とすることは困難である。また、業務データの分類の場合、自動分類可能な教師信号の種類は多いほうが役立つ。例えば、メールの分類を行う場合、かなり細かく分類することが望ましい。そのため、教師信号あたりの誤り率は大きくなりがちである。
このように前提条件が満たされない場合、師信号に誤りが含まれている場合でも正しい分類器を生成する従来技術では、誤りの影響で分類精度が下がるおそれがある。また、教師有り学習による予測ラベルと教師なし学習とを組み合わせて教師データ候補を複数のグループにまとめて可視化する従来技術では、周囲の区画の教師信号があまり一致しないため、誤り候補を十分に提示することが困難となる。以上のことから、これらの従来技術を用いても、機械学習に期待する分類精度を得ることが困難である。
また、教師データをクラスタリングしてクラスタ毎に異常の有無を判定する従来技術でも、異常を有するクラスタの特定は可能であるが、誤り候補となる教師信号を個別に特定することは困難である。したがって、機械学習に期待する分類精度を得ることが困難である。
開示の技術は、上記に鑑みてなされたものであって、機械学習の分類精度を向上させるデータ管理プログラム、データ管理方法及び情報処理装置を提供することを目的とする。
本願の開示するデータ管理プログラム、データ管理方法及び情報処理装置の一つの態様において、以下の処理をコンピュータに実行させる。入力データと前記入力データに対応する正しい出力である出力データとを含む複数の学習データにおける前記入力データの特徴量を用いて前記入力データをクラスタリングする。前記クラスタリングにより生成されたクラスタの中から、各前記クラスタに含まれる前記入力データに対応する前記出力データの種類数及び種類毎の前記出力データの個数の標準偏差を基に、誤り候補のクラスタを抽出する。
1つの側面では、本発明は、機械学習の分類精度を向上させることができる。
図1は、実施例に係る学習用計算機のブロック図である。 図2は、学習データの一例を示す図である。 図3は、教師データに対応付けられた情報の一例を示す図である。 図4は、教師信号の個数の標準偏差の算出を説明するための図である。 図5は、クラスタ管理表の一例を示す図である。 図6は、クラスタの除外ルールを示す図である。 図7は、クラスタの並べ替えルールを示す図である。 図8は、誤り候補の教師信号の提示の一例を説明するための図である。 図9は、実施例に係る学習用計算機による誤り候補の教師信号の提示処理のフローチャートである。 図10は、学習用計算機のハードウェア構成図である。
以下に、本願の開示するデータ管理プログラム、データ管理方法及び情報処理装置の実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示するデータ管理プログラム、データ管理方法及び情報処理装置が限定されるものではない。
図1は、実施例に係る学習用計算機のブロック図である。学習用計算機1は、管理者端末装置2に接続される。管理者端末装置2は、教師有り学習の管理に用いられる端末である。管理者端末装置2は、学習データの学習用計算機1への提供、並びに、誤候補の提示命令、教師信号の修正命令、学習の実行指示命令及び分類実行命令の学習用計算機1への送信を行う。
また、図1に示すように、学習用計算機1は、誤候補提示器10、学習データ格納部11、学習器12、分類器13、分類結果出力部14及び分類対象データ格納部15を有する。さらに、誤候補提示器10は、特徴抽出部101、クラスタリング部102及び誤候補抽出部103を有する。
学習データ格納部11は、管理者端末装置2から送信された複数の学習データを受信して格納する。図2は、学習データの一例を示す図である。図2に示す表201における、各列が学習データを表す。学習データは、例題となる教師データと各教師データの答えとなる教師信号の組のデータである。教師データは、文書や画像のデータであり、「入力データ」の一例にあたる。教師信号は、「出力データ」の一例にあたる。
また、表201における教師信号の値は、教師データを分類した場合の各分類グループに与えられた分類番号を表す。すなわち、表201に記載された学習データのうち、データ#1およびデータ#2は分類番号が3の分類グループに分類され、データ#3は分類番号が1の分類グループに分類される。
誤候補提示器10は、管理者端末装置2から送信された誤候補の提示命令を受信する。そして、誤候補提示器10は、学習データ格納部11に格納された教師データを、その特徴量に基づいて複数のクラスタにクラスタリングし、各クラスタに含まれる教師信号の種類数又は個数の標準偏差に基づいて誤り候補のクラスタを特定して管理者に提示する。以下に、誤候補提示器10の動作の詳細について説明する。以下では、文書データを教師データとして,文書の分類番号を教師信号とする場合で説明する。
特徴抽出部101は、教師データを特徴ベクトルに変換する。この特徴ベクトルが特徴量にあたる。以下に、特徴抽出部101の具体的な動作を説明する。
特徴抽出部101は、誤候補の提示命令を誤候補提示器10が受信すると、学習データ格納部11から全ての学習データの教師データを読み出す。次に、特徴抽出部101は、例えば文書中の単語の出現頻度を用いて重要度を数値化したTF-IDF(Term Frequency-Inverse Document Frequency)指標を用いて、取得した各教師データを特徴ベクトルに変換する。そして、特徴抽出部101は、各教師データ及び各教師データに対応する特徴ベクトルをクラスタリング部102へ出力する。
クラスタリング部102は、特徴ベクトルを用いて教師なし学習であるクラスタリングを行うことで教師データをクラスタ化する。以下にクラスタリング部102の具体的な動作を説明する。
クラスタリング部102は、各教師データ及び各教師データに対応する特徴ベクトルの入力を特徴抽出部101から受ける。次に、クラスタリング部102は、各特徴ベクトル間の距離及びクラスタリング閾値を用いて例えばWord法により教師データのクラスタリングを行う。そして、クラスタリング部102は、各クラスタのクラスタID(Identifier)を算出する。次に、クラスタリング部102は、各教師データが属するクラスタにしたがって、算出したクラスタIDを各教師データに付与する。
これにより、各教師データには、図3に示すように、教師信号、特徴ベクトル及びクラスタIDが対応付けられる。図3は、教師データに対応付けられた情報の一例を示す図である。ここで、IDは、各教師データを一意に識別するための教師データに割り当てられた識別番号である。IDは、学習データ格納部11への学習データの格納時に割り当てられてもよいし、教師データ又は特徴ベクトルの取得時に特徴抽出部101又はクラスタリング部102により割り当てられてもよい。
その後、クラスタリング部102は、各教師データに付与したクラスタIDの情報を教師データとともに誤候補抽出部103へ出力する。
誤候補抽出部103は、クラスタIDと教師信号とを突き合わせて、誤り候補となるクラスタを特定し、誤り候補の教師データを管理者に提供する。以下に、誤候補抽出部103の具体的な動作を説明する。
誤候補抽出部103は、教師データ及び各教師データに付与されたクラスタIDの入力をクラスタリング部102から受ける。さらに、誤候補抽出部103は、各教師データに対応する教師信号を学習データ格納部11から取得する。
次に、誤候補抽出部103は、各クラスタに含まれる教師データに対応する教師信号の種類数を求める。例えば、クラスタIDが10であるクラスタに含まれる教師データの教師信号が{3,9,19}の3種類であった場合、誤候補抽出部103は、クラスタIDが10であるクラスタに含まれる教師データに対応する教師信号の種類数を3とする。
次に、誤候補抽出部103は、各クラスタに含まれる教師データに対応する教師信号の数の標準偏差を算出する。例えば、クラスタIDが10のクラスタに含まれる教師データに対応する教師信号の数が図4に示す数である場合について説明する。図4は、教師信号の個数の標準偏差の算出を説明するための図である。この場合、クラスタIDが10のクラスタには、教師信号が3の教師データは10個含まれ、教師信号が9の教師データが20個含まれ、教師信号が19の教師データが30個含まれる。この場合、誤候補算出部103は、クラスタIDが10のクラスタに含まれる教師データに対応する教師信号の個数の標準偏差を8.16と算出する。
次に、誤候補抽出部103は、各クラスタに含まれる教師データに対応する教師信号の種類数を、各クラスタに含まれる教師データに対応する教師信号の個数の標準偏差で除算して、第1指標を算出する。第1指標は、ばらつきが大きければ大きくなり、個数の偏りが小さければ大きくなる指標である。例えば、誤候補抽出部103は、上述したクラスタIDが10のクラスタの第1指標を3/8.16=0.367と算出する。
ここで、特定のクラスタに含まれる教師データに対応する教師信号が1種類の場合、その特定クラスタに含まれる教師データに対応する教師信号の個数の標準偏差は0になる。そして、含まれる教師データに対応する教師信号が1種類の場合、そのクラスタには誤り候補の教師信号が含まれていないと考えられる。そこで、誤候補抽出部103は、誤り候補の判定対象から含まれる教師データに対応する教師信号が1種類のクラスタを除外する。
次に、誤候補抽出部103は、クラスタに含まれる教師データの件数を集計する。そして、誤候補抽出部103は、集計結果を第2指標とする。その後、誤候補抽出部103は、クラスタID毎に算出した第1指標及び第2指標を登録した図5に示すクラスタ管理表204を作成する。図5は、クラスタ管理表の一例を示す図である。
次に、誤候補抽出部103は、クラスタ管理表204におけるクラスタを第1指標の値で降順ソートする。これにより、ばらつきが大きく且つ個数の偏りが小さい順にクラスタが並び替えられる。ばらつきが大きく且つ個数の偏りが小さいクラスタには、より多くの誤った教師信号がそのクラスタに含まれると考えられる。すなわち、誤候補抽出部103は、より誤った教師信号を多く含むと考えられる順にクラスタ管理表204におけるクラスタを並び替える。
さらに、誤候補抽出部103は、第1指標が同じ値となるクラスタが複数存在する場合、クラスタ管理表204におけるそれらのクラスタを第2指標の値で昇順ソートする。これにより、第1指標が同じ値のクラスタについて、含む教師データが少ない順にクラスタが並び替えられる。教師データの数が少なければ、誤った教師信号を見つけることが容易となる。すなわち、誤候補抽出部103は、第1指標が同じ値のクラスタについては、誤った教師信号を見つけやすい順にクラスタ管理表204におけるクラスタを並び替える。
ここで、図6及び7を参照して、誤候補抽出部103によるクラスタの並べ替えの概要について説明する。図6は、クラスタの除外ルールを示す図である。また、図7は、クラスタの並べ替えルールを示す図である。図6及び7における楕円はそれぞれクラスタを表し、楕円で囲われた枠内の記号はそれぞれ教師データを表す。そして、各教師データのうち同じ記号を有する教師データは、同じ教師信号を有する。
図6に示すクラスタ301~303が存在する場合、誤候補抽出部103は、クラスタ301に含まれる教師データに対応する教師信号の種類を3とする。また、誤候補抽出部103は、クラスタ302に含まれる教師データに対応する教師信号の種類を2とする。また、誤候補抽出部103は、クラスタ303に含まれる教師データに対応する教師信号の種類を1とする。ここで、クラスタ303に含まれる教師データに対応する教師信号の種類は1つであるので、誤候補抽出部103は、クラスタ303は誤った教師信号を含まないと判定して、クラスタ303を誤り候補の判定対象から除外する。
次に、誤候補抽出部103は、条件310及び320に応じてクラスタを並び替えることで、第1指標の値で降順ソートする。条件310は、教師信号のばらつきが大きいクラスタをより上位にするという条件である。例えば、クラスタ311に含まれる教師データに対応する教師信号の種類は3であり、クラスタ311に含まれる教師データに対応する教師信号の種類は3であり、クラスタ312に含まれる教師データに対応する教師信号の種類は2である。そこで、誤候補抽出部103は、クラスタ311をクラスタ312よりクラスタ管理表204において上位に並べる。
また、条件320は、教師信号の個数の偏りが小さいクラスタをより上位にするという条件である。例えば、クラスタ321に含まれる教師データに対応する教師信号の種類は2つあり、一方の種類の教師信号の個数が2であり、他方の種類の教師信号の個数が3である。また、クラスタ322に含まれる教師データに対応する教師信号の種類は2つあり、一方の種類の教師信号の個数が1であり、他方の種類の教師信号の個数は4である。この場合、クラスタ321の方がクラスタ322に比べて標準偏差が小さいので、誤候補抽出部103は、クラスタ321をクラスタ322よりクラスタ管理表204において上位に並べる。さらに、誤候補抽出部103は、第1指標の値が同じクラスタについては、各クラスタに含まれる教師データの数の多い順に並び替える。すなわち、誤候補抽出部103は、誤り候補を多く含むと考えられる順であり、そのうえ作業者の目視件数が少ない順にクラスタの順位付けを行う。
以上のようにクラスタの並び替えを行った後に、誤候補抽出部103は、並び替えられたクラスタ管理表204における上から順に予め決められた数のクラスタを誤り候補のクラスタとして抽出する。そして、誤候補抽出部103は、誤り候補のクラスタに含まれる全ての教師データ及び教師信号を管理者端末装置2に送信して表示させることで、管理者に提示する。管理者は、提示された学習データの情報を参照して、誤った教師信号を特定し、管理者端末装置2を使用して、教師信号の修正命令を送信して学習データ格納部11に格納された学習データを修正する。
図8は、誤り候補の教師信号の提示の一例を説明するための図である。例えば、図5におけるクラスタ管理表204がクラスタの並び替えが完了した状態であり、誤り候補のクラスタの選択数が2の場合で説明する。その場合、誤候補抽出部103は、図5に示すクラスタ管理表204のうち上位2つのクラスタ、すなわちクラスタIDが10及び2のクラスタを誤り候補のクラスタとして抽出する。そして、誤候補抽出部103は、図8の表205には、図5のクラスタ管理表204におけるクラスタの順にクラスタに含まれる教師データ及び教師信号が並べて記載されている。この場合、表205において、誤り候補のクラスタであるクラスタIDが10及び2のクラスタに対応する情報は、枠251で囲われた部分にあたる。そこで、誤候補抽出部103は、表205の枠251で囲われた中の教師データ及び教師信号の組の情報を管理者に提示する。
学習器は12、学習の実行指示命令を管理者端末装置2から受ける。次に、学習器12は、学習データを学習データ格納部11から取得する。そして、学習器12は、取得した学習データを用いて教師有り学習を実行する。そして、学習結果を分類器13へ出力する。
分類器13は、学習データを用いた教師有り学習の学習結果の入力を学習器12から受ける。また、分類器13は、分類対象データ格納部15に格納された分類結果が未知の分類対象のデータを取得する。そして、分類器13は、学習器12から取得した学習結果を用いて、分類対象のデータの分類を実行する。その後、分類器13は、分類結果を分類結果出力部14へ出力する。
分類結果出力部14は、分類対象のデータの分類結果の入力を分類器13から受ける。そして、分類結果出力部14は、分類対象のデータの分類結果の図示しない記憶装置への保存やモニタなどへの表示を行う。
次に、図9を参照して、本実施例に係る学習用計算機1による誤り候補の教師信号の提示処理の流れについて説明する。図9は、実施例に係る学習用計算機1による誤り候補の教師信号の提示処理のフローチャートである。
特徴抽出部101は、教師データを学習データ格納部11から読み出す。次に、特徴抽出部101は、TF-IDF指標を用いて取得した各教師データを特徴ベクトルに変換する(ステップS1)。そして、特徴抽出部101は、各教師データ及び各教師データに対応する特徴ベクトルをクラスタリング部102へ出力する。
クラスタリング部102は、各教師データ及び各教師データに対応する特徴ベクトルの入力を特徴抽出部101から受ける。次に、クラスタリング部102は、各特徴ベクトル間の距離及びクラスタリング閾値を用いてWord法により教師データのクラスタリングを行う(ステップS2)。
次に、クラスタリング部102は、各クラスタのクラスタIDを算出する。そして、クラスタリング部102は、各教師データが属するクラスタにしたがって、算出したクラスタIDを各教師データに付与する(ステップS3)。その後、クラスタリング部102は、各教師データに付与したクラスタIDの情報を教師データとともに誤候補抽出部103へ出力する。
誤候補抽出部103は、教師データ及び各教師データに付与されたクラスタIDの入力をクラスタリング部102から受ける。さらに、誤候補抽出部103は、各教師データに対応する教師信号を学習データ格納部11から取得する。そして、誤候補抽出部103は、クラスタを1つ選択する(ステップS4)。
次に、誤候補抽出部103は、選択したクラスタに含まれる教師データに対応する教師信号の種類数を集計する(ステップS5)。そして、誤候補抽出部103は、誤り候補のクラスタの判定候補とするクラスタの中から教師信号の種類が1のクラスタを除外する。
次に、誤候補抽出部103は、選択したクラスタに含まれる教師データのうち教師信号の値が同じである教師データの数を教師信号毎に求める。そして、誤候補抽出部103は、教師信号の値が同じである教師データの数を用いて、選択したクラスタにおける教師信号の個数の標準偏差を算出する(ステップS6)。
次に、誤候補抽出部103は、各クラスタに含まれる教師データに対応する教師信号の種類数を、各クラスタに含まれる教師データに対応する教師信号の個数の標準偏差で除算して、第1指標を算出する(ステップS7)。
次に、誤候補抽出部103は、クラスタに含まれる教師データの件数を集計する。そして、誤候補抽出部103は、集計結果を第2指標とする(ステップS8)。
次に、誤候補抽出部103は、各クラスタIDに第1指標及び第2指標を対応させてクラスタ管理表204に登録する(ステップS9)。
その後、誤候補抽出部103は、全てクラスタのクラスタ管理表204への登録が完了したか否かを判定する(ステップS10)。クラスタ管理表204への登録を行っていないクラスタが存在する場合(ステップS10:否定)、誤候補抽出部103は、ステップS4へ戻る。
これに対して、全てクラスタのクラスタ管理表204への登録が完了した場合(ステップS10:肯定)、誤候補抽出部103は、クラスタ管理表204に登録されたクラスタを第1指標の値で降順ソートする(ステップS11)。
さらに、誤候補抽出部103は、第1指標の値が同じ2つ以上のクラスタIDが存在するか否かを判定する(ステップS12)。第1指標の値が同じ2つ以上のクラスタIDが存在しない場合(ステップS12:否定)、誤候補抽出部103は、ステップS14へ進む。
これに対して、第1指標の値が同じ2つ以上のクラスタIDが存在する場合(ステップS12:肯定)、誤候補抽出部103は、クラスタ管理表204における第1指標の値が同じクラスタIDを有するクラスタを第2指標の値で昇順ソートする(ステップS13)。
その後、誤候補抽出部103は、クラスタ管理表204における上位の所定件のクラスタに含まれる学習データを誤り候補として抽出する。そして、誤候補抽出部103は、抽出した誤り候補の学習データを管理者端末装置2へ送信して管理者に提示する(ステップS14)。
以上に説明したように、本実施例に係る学習用計算機は、各教師データの特徴量を基に教師データを複数のクラスタにクラスタリングする。そして、学習用計算機は、それぞれのクラスタに含まれる教師データに対応する教師信号及び教師信号の個数の標準偏差を基に、誤り候補を多く含むと考えられる順であり、そのうえ作業者の目視件数が少ない順にクラスタの順位付けを行う。その後、学習用計算機は、順位付けしたクラスタの上位の所定数のクラスタに含まれる学習データを誤り候補として選択して提示する。これにより、教師データの修正コストを削減することが可能となる。特に、クラスタリングを行う際に教師なし学習を用いるため、別途教師データを追加することなく誤り候補を特定することが可能である。また、誤り率が大きい場合でも誤り候補の教師信号をすることができる。これにより、教師データ量が少なく教師信号あたりの誤り率が大きい場合であっても、期待する分類精度を有する分類器を学習により得ることができる。したがって、機械学習の分類精度を向上させることが可能となる。
(ハードウェア構成)
次に、図10を参照して、本実施例に係る学習用計算機のハードウェア構成について説明する。図10は、学習用計算機のハードウェア構成図である。
学習用計算機1は、例えば図10に示すように、CPU(Central Processing Unit)91、メモリ92、ハードディスク93及びネットワークインタフェース94を有する。CPU91は、バスを介してメモリ92、ハードディスク93及びネットワークインタフェース94に接続される。
ネットワークインタフェース94は、学習用計算機1と管理者端末装置2との間の通信インタフェースである。例えば、CPU91は、ネットワークインタフェース94を介して管理者端末装置2との間でデータの送受信を行う。
ハードディスク93は、図1に例示した学習データ格納部11や分類対象データ格納部15の機能を実現する。また、ハードディスク93は、図1に例示した誤候補提示器10における特徴量算出部101、クラスタリング部102及び誤候補抽出部103、学習器12、分類器13、並びに、分類結果出力部14の機能を実現するプログラムを含む各種プログラムを格納する。
CPU91は、ハードディスク93から各種プログラムを読み出してメモリ92上に展開して実行する。これにより、CPU91は、誤候補提示器10における特徴量算出部101、クラスタリング部102及び誤候補抽出部103、学習器12、分類器13、並びに、分類結果出力部14の機能を実現する。
ここで、本実施例では、1台の学習用計算機1の中に誤候補提示器10、学習器12、分類器13及び分類結果出力部14が搭載される構成を例に説明したが、構成はこれに限らず、各部は複数台のコンピュータに分けて搭載されてもよい。例えば、誤検出提示器10の機能を実現するコンピュータと、学習器12、分類器13及び分類結果出力部14の機能を実現するコンピュータとが異なる装置として構成されてもよい。
1 学習用計算機
2 管理者端末装置
10 誤候補提示器
11 学習データ格納部
12 学習器
13 分類器
14 分類結果出力部
15 分類対象データ格納部
101 特徴量抽出部
102 クラスタリング部
103 誤候補抽出部

Claims (7)

  1. 入力データと前記入力データに対応する正しい出力である出力データとを含む複数の学習データにおける前記入力データの特徴量を用いて前記入力データをクラスタリングし、
    前記クラスタリングにより生成されたクラスタの中から、各前記クラスタに含まれる前記入力データに対応する前記出力データの種類数及び種類毎の前記出力データの個数の標準偏差を基に、誤り候補のクラスタを抽出する
    処理をコンピュータに実行させることを特徴とするデータ管理プログラム。
  2. 前記学習データに含まれる前記入力データを取得して特徴量を算出する処理をコンピュータに実行させることを特徴とする請求項1に記載のデータ管理プログラム。
  3. 前記抽出した誤り候補のクラスタに含まれる前記入力データを含む前記学習データの情報を出力する処理をコンピュータに実行させることを特徴とする請求項1又は2に記載のデータ管理プログラム。
  4. 前記クラスタリングにより生成された前記クラスタを前記出力データの種類数が大きく、且つ、前記標準偏差が小さい順に並べた場合の上位の所定数のクラスタを前記誤り候補のクラスタとして抽出する処理をコンピュータに実行させることを特徴とする請求項1~3のいずれか1つに記載のデータ管理プログラム。
  5. 各前記クラスタに含まれる前記入力データに対応する前記出力データの種類数及び種類毎の前記出力データの個数の標準偏差に加えて、各前記クラスタに含まれる前記入力データの数を基に誤り候補のクラスタを抽出する処理をコンピュータに実行させることを特徴とする請求項1~4のいずれか1つに記載のデータ管理プログラム。
  6. 入力データと前記入力データに対応する正しい出力である出力データとを含む複数の学習データにおける前記入力データの特徴量を用いて前記入力データをクラスタリングし、
    前記クラスタリングにより生成されたクラスタの中から、各前記クラスタに含まれる前記入力データに対応する前記出力データの種類数及び種類毎の前記出力データの個数の標準偏差を基に、誤り候補のクラスタを抽出する
    ことを特徴とするデータ管理方法。
  7. 入力データと前記入力データに対応する正しい出力である出力データとを含む複数の学習データにおける前記入力データの特徴量を算出する特徴抽出部と、
    前記特徴抽出部により算出された前記特徴量を用いて前記入力データをクラスタリングするクラスタリング部と、
    前記クラスタリング部により生成されたクラスタの中から、各前記クラスタに含まれる前記入力データに対応する前記出力データの種類数及び種類毎の前記出力データの個数の標準偏差を基に、誤り候補のクラスタを抽出する誤候補抽出部と
    を備えたことを特徴とする情報処理装置。
JP2020142126A 2020-08-25 2020-08-25 データ管理プログラム、データ管理方法及び情報処理装置 Pending JP2022037802A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020142126A JP2022037802A (ja) 2020-08-25 2020-08-25 データ管理プログラム、データ管理方法及び情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020142126A JP2022037802A (ja) 2020-08-25 2020-08-25 データ管理プログラム、データ管理方法及び情報処理装置

Publications (1)

Publication Number Publication Date
JP2022037802A true JP2022037802A (ja) 2022-03-09

Family

ID=80494812

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020142126A Pending JP2022037802A (ja) 2020-08-25 2020-08-25 データ管理プログラム、データ管理方法及び情報処理装置

Country Status (1)

Country Link
JP (1) JP2022037802A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023181319A1 (ja) * 2022-03-25 2023-09-28 三菱電機株式会社 情報処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023181319A1 (ja) * 2022-03-25 2023-09-28 三菱電機株式会社 情報処理装置
JP7466815B2 (ja) 2022-03-25 2024-04-12 三菱電機株式会社 情報処理装置

Similar Documents

Publication Publication Date Title
JP6629678B2 (ja) 機械学習装置
CN110866799A (zh) 使用人工智能监视在线零售平台的系统和方法
US20230214679A1 (en) Extracting and classifying entities from digital content items
CN110807086A (zh) 文本数据标注方法及装置、存储介质、电子设备
US11847599B1 (en) Computing system for automated evaluation of process workflows
US20190205361A1 (en) Table-meaning estimating system, method, and program
CN113283795A (zh) 基于二分类模型的数据处理方法及装置、介质、设备
CN110489613B (zh) 协同可视数据推荐方法及装置
JP6308339B1 (ja) クラスタリングシステム、方法およびプログラム、並びに、レコメンドシステム
JP2022037802A (ja) データ管理プログラム、データ管理方法及び情報処理装置
CN110704803A (zh) 目标对象的评估值计算方法及装置、存储介质、电子设备
CN112434071B (zh) 一种基于数据图谱的元数据血缘关系与影响分析平台
CN112270318A (zh) 自动阅卷方法和装置、电子设备和存储介质
US11568177B2 (en) Sequential data analysis apparatus and program
CN116340845A (zh) 标签生成方法、装置、存储介质及电子设备
JP6190341B2 (ja) データ生成装置、データ生成方法、及びプログラム
Khatchatoorian et al. Post rectifying methods to improve the accuracy of image annotation
CN106156266A (zh) 信息处理装置以及信息处理方法
JP6496078B2 (ja) 分析支援装置、分析支援方法、および分析支援プログラム
CN115187130B (zh) 基于鼠标运动轨迹判断工作效率的方法和装置
JP7491410B2 (ja) データ分類装置、データ分類方法およびデータ分類プログラム
US11835995B2 (en) Automatic unstructured knowledge cascade visual search
CN112528158B (zh) 课程推荐方法、装置、设备及存储介质
JP7555274B2 (ja) 提案装置、提案方法及びプログラム
US20240169412A1 (en) Information processing device, reccomended information generation method, and storage medium