JP2019144789A

JP2019144789A - 機械学習装置、判定装置、機械学習方法及び判定方法

Info

Publication number: JP2019144789A
Application number: JP2018027710A
Authority: JP
Inventors: 秀二新原; Shuji Niihara; 一説山田; Issetsu Yamada; 晋吾粂田; Shingo Kumeda; 一矢夏目; Kazuya Natsume
Original assignee: Asterone Co Ltd
Current assignee: Asterone Co Ltd
Priority date: 2018-02-20
Filing date: 2018-02-20
Publication date: 2019-08-29

Abstract

【課題】過剰最適化を抑えることが可能な機械学習装置、判定装置、機械学習方法及び判定方法を提供することにある。【解決手段】学習手段が、ラベル毎に用意された訓練データをクラス別に分割させて学習し、ラベル毎に個別ＩＤが付与された学習済みデータを生成することを特徴とし、学習済みデータを用いて、どのように判定するかの情報を示す判定経路テーブルを備え、判定手段が、判定対象データと学習済みデータとの比較判定を、クラス毎に多段化して上位の段から下位の段に向かって所定の経路で順次行い、経路が、判定経路テーブルで定められていることを特徴とする。【選択図】図１

Description

本発明は、訓練データから学習を行う機械学習装置、判定対象データに対して比較判定を行う判定装置、訓練データから学習を行う機械学習方法及び判定対象データに対して比較判定を行う判定方法に関する。

従来より、ニューラルネットワークにより分類を行うディープラーニングやＡＩシステムが各種提案されてきている。そのような提案の１つである機械学習方法及び判定方法においては、適正な判断結果を得られない過学習（過剰最適化）が生じることがある。この対策として、例えば、特許文献１〜特許文献３に示すような各種の方法が具体的に示されている。特許文献１〜特許文献３の例では、複数のニューラルネットワークの学習手段により、データベースを最適な部分空間に分割し、各部分空間に特化した分類を行うことができるようにする等の方法で、対策を行っている。

特開２００１−１７５６３５号公報特開２００５−１８２４４９号公報特開２０１３−２５０８０９号公報

しかしながら、従来の機械学習等では、低スペックの電子計算機で過剰最適化を抑えた学習及び判断を行うことが困難である。

本発明は、このような事情に鑑みてなされたもので、過剰最適化を抑えることが可能な機械学習装置、判定装置、機械学習方法及び判定方法を提供することにある。

請求項１記載の機械学習装置は、学習手段が、ラベル毎に用意された訓練データをクラス別に分割させて学習し、ラベル毎に個別ＩＤが付与された学習済みデータを生成することを特徴とする。

請求項２記載の機械学習装置は、学習手段が、学習手段における学習可能な訓練データの数の上限を把握し、１つのラベルあたりの訓練データの数を算出し、ラベル毎に訓練データの数の範囲で訓練データを学習することを特徴とする。

請求項３記載の機械学習装置は、クラス別のラベル数を、任意に設定可能なことを特徴とする。

請求項４記載の判定装置は、請求項１〜請求項３に記載の学習済みデータのいずれかの学習済みデータを用いて、どのように判定するかの情報を示す判定経路テーブルを備え、判定手段が、判定対象データと学習済みデータとの比較判定を、クラス毎に多段化して上位の段から下位の段に向かって所定の経路で順次行い、経路が、判定経路テーブルで定められていることを特徴とする。

請求項５記載の判定装置は、判定経路テーブルが、１つのレコードに、レコードの設定で行われる判定の段数、判定に使用する学習済みデータの個別ＩＤである第１の学習済みデータＩＤ、判定結果のうち最も確率が大きい学習済みデータを正解と判定するための閾値である判定閾値、及び次に判定を行う学習済みデータの個別ＩＤである第２の学習済みデータＩＤを備え、判定手段が、判定経路テーブルの同じ段数を指定されたレコード毎に、判定対象データと第１の学習済みデータＩＤで指定されている学習済みデータとを比較判定し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出し、判定率が、そのレコードで設定されている判定閾値より小さい場合には、そのレコードによる学習済みデータには合致しないと判断し、判定率がそのレコードによる判定閾値よりも大きい場合には、他のレコードの判定値であってその他のレコードの判定値と比較し、判定値が最も高いレコードの第１の学習済みデータＩＤで定められた学習済みデータを、その段の判定結果としてそのレコードの第２の学習済みデータＩＤを参照し、参照する第２の学習済みデータＩＤが定められていない場合には、判定経路テーブルで定められた最終の段に到るまで、下の段による判定を繰り返し、最終の段で、各レコードの判定閾値よりも大きく且つ最も判定値が高かった同じ段のレコードの学習済みデータを最終判定結果として判定を終了し、参照する第２の学習済みデータＩＤが定められている場合には、第２の学習済みデータＩＤで定められている学習済みデータを最終判定結果として判定を終了する。

請求項６記載の機械学習方法は、ラベル毎に用意された訓練データをクラス別に分割させて学習し、ラベル毎に個別ＩＤが付与された学習済みデータを生成することを特徴とする。

請求項７記載の機械学習方法は、学習可能な訓練データの数の上限を把握し、１つのラベルあたりの訓練データの数を算出し、ラベル毎に訓練データの数の範囲で訓練データを学習することを特徴とする。

請求項８記載の機械学習方法は、クラス別のラベル数を、任意に設定可能なことを特徴とする。

請求項９記載の判定方法は、請求項６〜請求項８に記載の学習済みデータのいずれかの学習済みデータを用いて、どのように判定するかの情報を示す判定経路テーブルを作成し、判定対象データと学習済みデータとの比較判定を、クラス毎に多段化して上位の段から下位の段に向かって所定の経路で順次行い、経路が、判定経路テーブルで定められていることを特徴とする。

請求項１０記載の判定方法は、判定経路テーブルが、１つのレコードに、レコードの設定で行われる判定の段数、判定に使用する学習済みデータの個別ＩＤである第１の学習済みデータＩＤ、判定結果のうち最も確率が大きい学習済みデータを正解と判定するための閾値である判定閾値、及び次に判定を行う学習済みデータの個別ＩＤである第２の学習済みデータＩＤを備え、判定経路テーブルの同じ段数を指定されたレコード毎に、判定対象データと第１の学習済みデータＩＤで指定されている学習済みデータとを比較判定し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出し、判定率が、そのレコードで設定されている判定閾値より小さい場合には、そのレコードによる学習済みデータには合致しないと判断し、判定率がそのレコードによる判定閾値よりも大きい場合には、他のレコードの判定値であってその他のレコードの判定値と比較し、判定値が最も高いレコードの第１の学習済みデータＩＤで定められた学習済みデータを、その段の判定結果としてそのレコードの第２の学習済みデータＩＤを参照し、参照する第２の学習済みデータＩＤが定められていない場合には、判定経路テーブルで定められた最終の段に到るまで、下の段による判定を繰り返し、最終の段で、各レコードの判定閾値よりも大きく且つ最も判定値が高かった同じ段のレコードの学習済みデータを最終判定結果として判定を終了し、参照する第２の学習済みデータＩＤが定められている場合には、第２の学習済みデータＩＤで定められている学習済みデータを最終判定結果として判定を終了することを特徴とする。

本願の発明によれば、ラベル毎に用意された訓練データをクラス別に分割させて学習し、判定対象データと学習済みデータとの比較判定を、クラス毎に多段化して上位の段から下位の段に向かって所定の経路で順次行い、経路が、判定経路テーブルで定められていることで過剰最適化を抑えることが可能である。

本発明に係る判定装置の判定経路テーブルの一例を示す説明図である。同判定装置の動作の一例を示す説明図である。同判定装置の第１及び第２の実施例における判定経路テーブルの一例を示す説明図である。同判定装置の第１の実施例における動作を示す説明図である。同判定装置の第２の実施例における動作を示す説明図である。

本願発明における機械学習装置及び機械学習方法は、訓練データから学習を行うものである。また、本願発明における判定装置及び判定方法は、判定対象データに対して比較判定を行うものである。

以下、図面に従って本願発明について説明する。図１は、本発明に係る判定装置の判定経路テーブルの一例を示す説明図である。図２は、同判定装置の動作の一例を示す説明図である。

本願発明に係る機械学習装置、判定装置、機械学習方法及び判定方法は、ニューラルネットワークにより分類を行うディープラーニングやＡＩシステムにおける機械学習方法及び判定に関するものであり、後述する学習手段、学習装置、判定手段及び判定装置は、電子計算機としての機能を有する各種の電子機器としての機能を有する装置内で実現されるもので、単体の電子計算機の他、ネットワークを介して複数の電子計算機で実現されてもよく、ハードウェアにより制限されるものではない。そして、多くの場合、機械学習装置、判定装置、機械学習方法及び判定方法は、ソフトウェアにより実現されるが、ソフトウェアとハードウェアとにより実現されるものであってもよい。

本願発明に係る機械学習装置（機械学習方法）は、学習手段が、ラベル毎に用意された訓練データをクラス別に分割させて学習し、ラベル毎に個別ＩＤが付与された学習済みデータを生成することを基本的な特徴とするものである。ここで、訓練データとは、学習に使用する基礎となるデータで、既に用意されているものである。また、クラスとは、分類を示し、ラベルとは、予め訓練データに与えられている正解のことである。さらに、学習済みデータとは、学習手段により訓練データから作られた学習を終えたデータである。

機械学習装置における機械学習方法を説明する。まず、手動で、ラベル毎に訓練データを用意する。そして、用意された訓練データから、必要に応じて無効なデータを削除する。この段階で、学習する対象となる訓練データが用意されたことになる。

次に、学習手段で、学習手段で学習可能な訓練データの数の上限を把握し、学習手段の学習能力（学習手段を実現する電子計算機やネットワークの能力）に応じて、１つのラベルあたりの訓練データの数を算出する。学習手段は、ラベル毎に１つのラベルあたりの訓練データの数に沿った訓練データを取得して学習を行い、学習済みデータを作成していく。この学習済みデータの作成は、クラス別に分割させて行っていき、クラス別のラベル毎の学習済みデータが作成されることになる。尚、学習手段にクラス別のラベル数を任意に設定したうえで、学習手段に学習を行わせることも可能である。

そして、学習手段が、各学習済みデータに、ラベル毎すなわち学習済みデータ毎に個別ＩＤが付与されて学習済みデータが完成する。この個別ＩＤは、各学習済みデータを個別に識別するもので、例えば、連番やユニークなＩＤ（文字列等）を少なくとも１つにより、各学習済みデータのファイル名を構成させることにより、個別ＩＤを付与するような方法がある。尚、個別ＩＤは、各学習済みデータを別個に把握できるものであればよく、付与方法や個別ＩＤの形式や内容により制限されるものではない。具体的な個別ＩＤの例は、後述する図１に示される判定経路テーブル１０の第１の学習済みデータＩＤ１６や第２の学習済みデータＩＤ２０である。

従来の機械学習方法では、想定し得る全クラスを一度にすべて学習させる方法が一般的である。また、ある程度分類して段階的に判定する方法もあるが、静的な分類・判定が一般的であり、一度構築した学習済みデータの再構築すなわちシステムの変更は容易ではない。例えば、一部の学習済みデータを変更する場合、再学習する必要のないクラスも含めて再度学習済みデータを作成する必要がある。単体の電子計算機の単一の演算手段で処理を行っているようなシングルシステム場合には、学習のために他の機能を停止する必要があり、デュアルシステムの場合には、運用コストが倍又は処理能力半減の選択をしなければならず、全体に影響を及ぼしていた。

さらに、学習時に分類するクラス数が多いほど、与える訓練データの数が多くなるのが一般的であり、クラス毎に与える訓練データを少なくすると過剰最適化が発生しやすいため、過剰最適化を防止する目的で学習済みデータに対して、さらに他の訓練データを再度学習させる方法もあるが、１回の学習に与える訓練データにより学習条件が更新・最適化されてしまうため、直近の訓練データに重み付けがなされてしまい、既存の学習条件が無意味に近いものになってしまっていた。

これに対し、本願発明の機械学習方法によれば、クラス別に多次元（多段的）に分割して学習済みデータを作成し、後述する判定経路テーブルにより多段判定を行うことで従来の方法の課題を解決するものである。具体的には、１つのクラスを分割・次元化（多段化）して学習することで、必要かつ十分な訓練データをクラス毎に与えて学習することができるため過剰最適化を防止できる。さらに、分割して学習済みデータを作成しているため再学習や変更が必要な場合、一群の学習済みデータの中の該当部分の学習済みデータだけ差し替えればよく一群の学習済みデータの全体への影響を抑えることが可能である。

本願発明に係る判定装置（判定方法）は、上述の機械学習装置（機械学習方法）で学習により作成された学習済みデータのいずれかの学習済みデータを用いて、どのように判定するかの情報を示す判定経路テーブルを備え、判定手段が、判定対象データと学習済みデータとの比較判定を、クラス毎に多段化して上位の段から下位の段に向かって所定の経路で順次行い、経路が、判定経路テーブルで定められていることを基本的な特徴とするものである。尚、判定対象データは、何であるかを確かめたいデータであり、数値データ、音声データ、画像データ等の１次元〜数次元の各種データが判定対象データとなる。比較判定とは、判定対象データと学習済みデータとを比較し、特徴点の一致度を判定し判定対象データが「何であるか」を特定することである。

判定経路テーブル１０は、図１に示されるように、レコード毎に付けられた行の連番であるｒｏｗｉｄ１２の他、１つのレコードにレコードの設定で行われる判定の段数１４（段数１４は、クラス毎の段の番号を示している）、判定に使用する学習済みデータの個別ＩＤである第１の学習済みデータＩＤ１６、判定結果のうち最も確率が大きい学習済みデータを正解と判定するための閾値である判定閾値１８、及び次に判定を行う学習済みデータの個別ＩＤである第２の学習済みデータＩＤ２０を備える。また、必要に応じて、ネットワーク情報２２を備える。尚、第２の学習済みデータＩＤ２０として指定される学習済みデータは必ずしも１つではなく、複数の場合もある。

次に、判定装置における判定方法を説明する。基本的な判定方法の流れは、まず最初に、手動で、判定経路テーブル１０を生成する（予め作成してあってもよい）。そして、判定装置に、判定経路テーブル１０と判定経路テーブル１０の第１の学習済みデータＩＤ１６及び第２の学習済みデータＩＤ２０とで示された学習済みデータを取り込む。この状態で、判定装置に判定対象データを入力する。

このように比較判定のための情報の取り込みが終わった後、判定手段は、判定経路テーブル１０の段数１４が１段目に設定されている第１の学習済みデータＩＤ１６に示された学習済みデータにより判定を行う。そして、判定経路テーブル１０の設定通りに最終段まで判定を行い、判定対象データを分類・特定する。

より具体的には、図２を用いて判定方法を説明する。尚、図２に示す判定の例では、図１の判定経路テーブル１０によるものではない。まず、図２に示すように、セットされた判定対象データ３０を、判定経路テーブルの段数が１と定められた同じ段数が指定されたレコード毎の第１の学習済みデータＩＤで定められた学習済みデータ４０，４２と比較判定することになる。

判定経路テーブルのレコード毎の判定方法は、判定手段が、判定経路テーブルの同じ段数を指定されたレコード毎に、判定対象データ３０と第１の学習済みデータＩＤで指定されている学習済みデータ４０及び学習済みデータ４２とを比較判定し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出する。

判定方法の基本的な動作としては、判定率が、そのレコードで設定されている判定閾値より小さい場合には、そのレコードによる学習済みデータには合致しないと判断し、判定率がそのレコードによる判定閾値よりも大きい場合には、他のレコードの判定値であってその他のレコードの判定値と比較し、判定値が最も高いレコードの第１の学習済みデータＩＤで定められた学習済みデータを、その段の判定結果としてそのレコードの第２の学習済みデータＩＤを参照し、参照する第２の学習済みデータＩＤが定められていない場合には、判定経路テーブルで定められた最終の段に到るまで、下の段による判定を繰り返し、最終の段で、各レコードの判定閾値よりも大きく且つ最も判定値が高かった同じ段のレコードの学習済みデータを最終判定結果として判定を終了し、参照する第２の学習済みデータＩＤが定められている場合には、第２の学習済みデータＩＤで定められている学習済みデータを最終判定結果として判定を終了する。

具体的には、図２の１段目の学習済みデータ４０との比較判定においては、判定値が判定閾値以上であり、また１段目の学習済みデータ４２との比較判定においても、判定値が判定閾値以上であり、学習済みデータ４０と学習済みデータ４２によるそれぞれの判定値が同一であり、且ついずれかの判定経路テーブルのレコードの第２の学習済みデータＩＤが定められていないことから、下の段（２段目）の学習済みデータ５０，５２，５４，５６との比較判定に進む。

図２の２段目では、学習済みデータ５０及び学習済みデータ５６との比較判定において、それぞれの判定値が、それぞれの判定閾値より小さく、判定対象データ３０が、学習済みデータ５０及び学習済みデータ５６のいずれとも合致しないと判断される。

図２の２段目の学習済みデータ５２との比較判定においては、判定値が判定閾値以上であり、また２段目の学習済みデータ５４との比較判定においても、判定値が判定閾値以上であり、学習済みデータ５２と学習済みデータ５４によるそれぞれの判定値が同一であり、且ついずれの判定経路テーブルのレコードの第２の学習済みデータＩＤが定められていないことから、下の段（３段目）の学習済みデータ６０〜７４との比較判定に進む。

図２の３段目では、学習済みデータ６０、学習済みデータ６６、学習済みデータ７０及び学習済みデータ７４との比較判定において、それぞれの判定値が、それぞれの判定閾値より小さく、判定対象データ３０が、学習済みデータ６０、学習済みデータ６６、学習済みデータ７０及び学習済みデータ７４のいずれとも合致しないと判断される。

図２の３段目の学習済みデータ６２との比較判定においては、判定値が判定閾値以上で５０％（括弧書き内の数値）、学習済みデータ６４との比較判定においては、判定値が判定閾値以上で８５％（括弧書き内の数値）、学習済みデータ６８との比較判定においては、判定値が判定閾値以上で９２％（括弧書き内の数値）、学習済みデータ７２との比較判定においては、判定値が判定閾値以上で３５％（括弧書き内の数値）である。そして、判定経路テーブルにおいては、３段目より下の段が定められていないことから、３段目の判定値が一番大きなＣ（すなわち学習済みデータ６８）を、判定対象データ３０の最終判定結果とする。

従来の判定方法では、学習済みデータを一括で読み込み判定する方法が一般的であり、判定に使用するデータが大きい場合やクラス数が多い場合、読み込みの際に必要とされる電子計算機のメインメモリの制限によりスワッピングが発生し、他の処理に影響を及ぼすこともあった。

これに対し、本願発明の判定方法によれば、判定を段で分け多段で行い、段と段のつながりは判定経路テーブルにより定義しており、各段の学習済みデータのサイズが大きい場合、判定経路テーブルを適切に書き換えることで、低スペックの電子計算機においても多クラスの分類・判定を行うことができる。さらに、多段的にクラス判定し最終分類を行うが、１つのクラスを分割して網羅的に判定を行うことで判定精度向上や効率化につながる場合もある。

さらに、判定経路テーブル１０に、そのレコードの設計で判定が行われる電子計算機をネットワーク上で特定するネットワーク情報２２を持たせることで、学習済みデータが分割されていることと相まって、１台の電子計算機ではなく、複数台の電子計算機でネットワーク経由にて判定することも可能であり、多段判定に要する時間コストを低減することも可能である。

実施例１では、上記の機械学習方法及び判定方法により、具体的な判定対象データ１３０の判定の例を示す。図３は、同判定装置の第１及び第２の実施例における判定経路テーブルの一例を示す説明図である。図４は、判定装置の第１の実施例における動作を示す説明図である。

図３及び図４に示す学習済みデータ１４０〜１６４は、上述の機械学習方法により学習し作成されたものである。判定経路テーブル１１０のｒｏｗｉｄ１１２、段数１１４、第１の学習済みデータＩＤ１１６、判定閾値１１８、第２の学習済みデータＩＤ１２０、ネットワーク情報１２２は、上述の判定経路テーブル１０のｒｏｗｉｄ１２、段数１４、第１の学習済みデータＩＤ１６、判定閾値１８、第２の学習済みデータＩＤ２０、ネットワーク情報２２と同様の機能を有している、尚、説明１２４は、判定の内容を示しているが、必須のものではない。

図４を用いて実施例１の判定方法を説明する。この実施例１の判定は、判定対象データ１３０である飲料の製造メーカーを特定する場合のものである。まず、判定手段に学習済みデータ１４０〜１６４、判定経路テーブル１１０及び判定対象データ１３０をセットする。そして、まず、図４に示すように、セットされた判定対象データ１３０を、判定経路テーブル１１０の段数１１４が１と定められた同じ段数が指定されたレコード毎の第１の学習済みデータＩＤ１１６で定められた学習済みデータ１４０（学習済みデータＩＤはＡＡＡ）と学習済みデータ１４２（学習済みデータＩＤはＢＢＢ）とでそれぞれ比較判定することになる。

判定対象データ１３０と学習済みデータ１４０とを比較判定（この比較判定は、飲料水かどうかの判定である）し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると７０％であった。また、判定対象データ１３０と学習済みデータ１４２とを比較判定（この比較判定は、お菓子かどうかの判定である）し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると３０％であった。この結果、学習済みデータ１４０の判定値が判定閾値１１８で定められているよりも大きく、他方、学習済みデータ１４２の判定値が判定閾値１１８で定められているよりも小さいことから、１段目の判定は、学習済みデータ１４０の判定となる（すなわち、まず、判定対象データ１３０は飲料水であると判断された）。

ここで、判定経路テーブル１１０のｒｏｗｉｄ１１２の１で、第２の学習済みデータＩＤ１２０が「ＮＯＮＥ」で具体的に学習済みデータＩＤが示されていないことから、次に、判定経路テーブル１１０の段数１１４が下の２段目と定められているｒｏｗｉｄ１１２の３〜５の判定に移ることになる。

判定手段は、２段目の判定として、判定対象データ１３０と学習済みデータ１５０（学習済みデータＩＤはＣＣＣ）とを比較判定（この比較判定は、飲料水種別の判定であり、具体的には清涼飲料水かどうかの判定である）し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると１２％であった。また、判定対象データ１３０と学習済みデータ１５２（学習済みデータＩＤはＤＤＤ）とを比較判定（この比較判定は、飲料水種別の判定であり、具体的には炭酸飲料水かどうかの判定である）し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると７５％であった。さらに、判定対象データ１３０と学習済みデータ１５４（学習済みデータＩＤはＥＥＥ）とを比較判定（この比較判定は、飲料水種別の判定であり、具体的にはアルコールかどうかの判定である）し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると３５％であった。

この結果、学習済みデータ１５２の判定値が判定閾値１１８で定められているよりも大きく、他方、学習済みデータ１５０及び学習済みデータ１５４の判定値が判定閾値１１８で定められているよりも小さいことから、２段目の判定は、学習済みデータ１５２の判定となる（すなわち、まず、判定対象データ１３０は炭酸飲料水であると判断された）。

ここで、判定経路テーブル１１０のｒｏｗｉｄ１１２の４で、第２の学習済みデータＩＤ１２０が「ＮＯＮＥ」で具体的に学習済みデータＩＤが示されていないことから、次に、判定経路テーブル１１０の段数１１４が下の３段目と定められているｒｏｗｉｄ１１２の６〜８の判定に移ることになる。

判定手段は、３段目の判定として、判定対象データ１３０と学習済みデータ１６０（学習済みデータＩＤはＦＦＦ）とを比較判定（この比較判定は、メーカーの判定であり、具体的にはＡ社かどうかの判定である）し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると１２％であった。また、判定対象データ１３０と学習済みデータ１６２（学習済みデータＩＤはＧＧＧ）とを比較判定（この比較判定は、メーカーの判定であり、具体的にはＢ社かどうかの判定である）し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると３５％であった。さらに、判定対象データ１３０と学習済みデータ１６４（学習済みデータＩＤはＨＨＨ）とを比較判定（この比較判定は、メーカーの判定であり、具体的にはＣ社かどうかの判定である）し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると９０％であった。

この結果、学習済みデータ１６４の判定値が判定閾値１１８で定められているよりも大きく、他方、学習済みデータ１６０及び学習済みデータ１６２の判定値が判定閾値１１８で定められているよりも小さいことから、３段目の判定は、学習済みデータ１６４の判定となる（すなわち、まず、判定対象データ１３０はＣ社であると判断された）。ここで、判定経路テーブル１１０のｒｏｗｉｄ１１２の８で、第２の学習済みデータＩＤ１２０が「ＮＯＮＥ」で具体的に学習済みデータＩＤが示されていないが、判定経路テーブル１１０で３段目の下の４段目を示す段数１１４のレコードがないことから、３段目の結果が最終判定結果となる。

実施例２では、上記の機械学習方法及び判定方法により、具体的な判定対象データ１３２の判定の例を示す。図３は、同判定装置の第１及び第２の実施例における判定経路テーブルの一例を示す説明図である。図５は、判定装置の第２の実施例における動作を示す説明図である。

図３及び図５に示す学習済みデータ１４０〜１７０は、上述の機械学習方法により学習し作成されたものである。判定経路テーブル１１０のｒｏｗｉｄ１１２、段数１１４、第１の学習済みデータＩＤ１１６、判定閾値１１８、第２の学習済みデータＩＤ１２０、ネットワーク情報１２２は、上述の判定経路テーブル１０のｒｏｗｉｄ１２、段数１４、第１の学習済みデータＩＤ１６、判定閾値１８、第２の学習済みデータＩＤ２０、ネットワーク情報２２と同様の機能を有している、尚、説明１２４は、判定の内容を示しているが、必須のものではない。

図５を用いて実施例２の判定方法を説明する。この実施例２の判定は、判定対象データ１３２である飲料の商品名を特定する場合のものである。まず、判定手段に学習済みデータ１４０〜１７０、判定経路テーブル１１０及び判定対象データ１３２をセットする。そして、まず、図５に示すように、セットされた判定対象データ１３２を、判定経路テーブル１１０の段数１１４が１と定められた同じ段数が指定されたレコード毎の第１の学習済みデータＩＤ１１６で定められた学習済みデータ１４０（学習済みデータＩＤはＡＡＡ）と学習済みデータ１４２（学習済みデータＩＤはＢＢＢ）とでそれぞれ比較判定することになる。

判定対象データ１３２と学習済みデータ１４０とを比較判定（この比較判定は、飲料水かどうかの判定である）し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると７０％であった。また、判定対象データ１３２と学習済みデータ１４２とを比較判定（この比較判定は、お菓子かどうかの判定である）し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると３０％であった。この結果、学習済みデータ１４０の判定値が判定閾値１１８で定められているよりも大きく、他方、学習済みデータ１４２の判定値が判定閾値１１８で定められているよりも小さいことから、１段目の判定は、学習済みデータ１４０の判定となる（すなわち、まず、判定対象データ１３０は飲料水であると判断された）。

判定手段は、２段目の判定として、判定対象データ１３２と学習済みデータ１５０（学習済みデータＩＤはＣＣＣ）とを比較判定（この比較判定は、飲料水種別の判定であり、具体的には清涼飲料水かどうかの判定である）し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると７５％であった。また、判定対象データ１３２と学習済みデータ１５２（学習済みデータＩＤはＤＤＤ）とを比較判定（この比較判定は、飲料水種別の判定であり、具体的には炭酸飲料水かどうかの判定である）し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると１２％であった。さらに、判定対象データ１３２と学習済みデータ１５４（学習済みデータＩＤはＥＥＥ）とを比較判定（この比較判定は、飲料水種別の判定であり、具体的にはアルコールかどうかの判定である）し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると３５％であった。

この結果、学習済みデータ１５０の判定値が判定閾値１１８で定められているよりも大きく、他方、学習済みデータ１５２及び学習済みデータ１５４の判定値が判定閾値１１８で定められているよりも小さいことから、２段目の判定は、学習済みデータ１５０の判定となる（すなわち、まず、判定対象データ１３２は清涼飲料水であると判断された）。

ここで、判定経路テーブル１１０のｒｏｗｉｄ１１２の３で、第２の学習済みデータＩＤ１２０が「ＺＺＺ」（学習済みデータ１７０を示す）で具体的に学習済みデータＩＤが示されていることから、学習済みデータ１７０が最終判定結果となる（判定対象データ１３２と学習済みデータ１７０との比較判定で、学習済みデータが正解であろう確率を示す判定率を算出すると８０％であった）。

本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この発明を説明するためのものであり、本発明の範囲を限定するものではない。すなわち、本発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。

以上のように、本発明によれば、過剰最適化を抑えることが可能な機械学習装置、判定装置、機械学習方法及び判定方法を提供することができる。

１０・・・・判定経路テーブル
１２・・・・ｒｏｗｉｄ
１４・・・・段数
１６・・・・第１の学習済みデータＩＤ
１８・・・・判定閾値
２０・・・・第２の学習済みデータＩＤ
２２・・・・ネットワーク情報
３０・・・・判定対象データ
４０・・・・学習済みデータ
４２・・・・学習済みデータ
５０・・・・学習済みデータ
５２・・・・学習済みデータ
５４・・・・学習済みデータ
５６・・・・学習済みデータ
６０・・・・学習済みデータ
６２・・・・学習済みデータ
６４・・・・学習済みデータ
６６・・・・学習済みデータ
６８・・・・学習済みデータ
７０・・・・学習済みデータ
７２・・・・学習済みデータ
７４・・・・学習済みデータ
１１０・・・判定経路テーブル
１１２・・・ｒｏｗｉｄ
１１４・・・段数
１１６・・・第１の学習済みデータＩＤ
１１８・・・判定閾値
１２０・・・第２の学習済みデータＩＤ
１２２・・・ネットワーク情報
１２４・・・説明
１３０・・・判定対象データ
１３２・・・判定対象データ
１４０・・・学習済みデータ
１４２・・・学習済みデータ
１５０・・・学習済みデータ
１５２・・・学習済みデータ
１５４・・・学習済みデータ
１６０・・・学習済みデータ
１６２・・・学習済みデータ
１６４・・・学習済みデータ
１７０・・・判定対象データ

Claims

訓練データから学習を行う機械学習装置において、
学習手段が、ラベル毎に用意された該訓練データをクラス別に分割させて学習し、該ラベル毎に個別ＩＤが付与された学習済みデータを生成することを特徴とする機械学習装置。
前記学習手段が、該学習手段における学習可能な前記訓練データの数の上限を把握し、１つの前記ラベルあたりの該訓練データの数を算出し、該ラベル毎に該訓練データの数の範囲で該訓練データを学習することを特徴とする請求項１記載の機械学習装置。
前記クラス別の前記ラベル数を、任意に設定可能なことを特徴とする請求項１又は請求項２記載の機械学習装置。
判定対象データに対して比較判定を行う判定装置において、
請求項１〜請求項３に記載の前記学習済みデータのいずれかの該学習済みデータを用いて、どのように判定するかの情報を示す判定経路テーブルを備え、
判定手段が、該判定対象データと該学習済みデータとの比較判定を、クラス毎に多段化して上位の段から下位の段に向かって所定の経路で順次行い、
該経路が、該判定経路テーブルで定められていることを特徴とする判定装置。
前記判定経路テーブルが、１つのレコードに、該レコードの設定で行われる判定の段数、判定に使用する前記学習済みデータの前記個別ＩＤである第１の学習済みデータＩＤ、判定結果のうち最も確率が大きい該学習済みデータを正解と判定するための閾値である判定閾値、及び次に判定を行う前記学習済みデータの前記個別ＩＤである第２の学習済みデータＩＤを備え、
前記判定手段が、
該判定経路テーブルの同じ段数を指定された該レコード毎に、
前記判定対象データと該第１の学習済みデータＩＤで指定されている該学習済みデータとを比較判定し、比較判定された該学習済みデータが正解であろう確率を示す判定率を算出し、
該判定率が、その該レコードで設定されている該判定閾値より小さい場合には、その該レコードによる該学習済みデータには合致しないと判断し、
該判定率がその該レコードによる該判定閾値よりも大きい場合には、
他の該レコードの該判定値であってその他の該レコードの該判定値と比較し、該判定値が最も高い該レコードの該第１の学習済みデータＩＤで定められた該学習済みデータを、その該段の判定結果としてその該レコードの該第２の学習済みデータＩＤを参照し、
該参照する第２の学習済みデータＩＤが定められていない場合には、該判定経路テーブルで定められた最終の該段に到るまで、下の該段による判定を繰り返し、該最終の段で、各レコードの該判定閾値よりも大きく且つ最も該判定値が高かった同じ該段の該レコードの該学習済みデータを最終判定結果として判定を終了し、
該参照する第２の学習済みデータＩＤが定められている場合には、該第２の学習済みデータＩＤで定められている該学習済みデータを最終判定結果として判定を終了する
ことを特徴とする請求項４記載の判定装置。
訓練データから学習を行う機械学習方法において、
ラベル毎に用意された該訓練データをクラス別に分割させて学習し、該ラベル毎に個別ＩＤが付与された学習済みデータを生成することを特徴とする機械学習方法。
学習可能な前記訓練データの数の上限を把握し、１つの前記ラベルあたりの該訓練データの数を算出し、該ラベル毎に該訓練データの数の範囲で該訓練データを学習することを特徴とする請求項６記載の機械学習方法。
前記クラス別の前記ラベル数を、任意に設定可能なことを特徴とする請求項６又は請求項７記載の機械学習方法。
判定対象データに対して比較判定を行う判定方法において、
請求項６〜請求項８に記載の前記学習済みデータのいずれかの該学習済みデータを用いて、どのように判定するかの情報を示す判定経路テーブルを作成し、
該判定対象データと該学習済みデータとの比較判定を、クラス毎に多段化して上位の段から下位の段に向かって所定の経路で順次行い、
該経路が、該判定経路テーブルで定められていることを特徴とする判定方法。
前記判定経路テーブルが、１つのレコードに、該レコードの設定で行われる判定の段数、判定に使用する前記学習済みデータの前記個別ＩＤである第１の学習済みデータＩＤ、判定結果のうち最も確率が大きい該学習済みデータを正解と判定するための閾値である判定閾値、及び次に判定を行う前記学習済みデータの前記個別ＩＤである第２の学習済みデータＩＤを備え、
該判定経路テーブルの同じ段数を指定された該レコード毎に、
前記判定対象データと該第１の学習済みデータＩＤで指定されている該学習済みデータとを比較判定し、比較判定された該学習済みデータが正解であろう確率を示す判定率を算出し、
該判定率が、その該レコードで設定されている該判定閾値より小さい場合には、その該レコードによる該学習済みデータには合致しないと判断し、
該判定率がその該レコードによる該判定閾値よりも大きい場合には、
他の該レコードの該判定値であってその他の該レコードの該判定値と比較し、該判定値が最も高い該レコードの該第１の学習済みデータＩＤで定められた該学習済みデータを、その該段の判定結果としてその該レコードの該第２の学習済みデータＩＤを参照し、
該参照する第２の学習済みデータＩＤが定められていない場合には、該判定経路テーブルで定められた最終の該段に到るまで、下の該段による判定を繰り返し、該最終の段で、各レコードの該判定閾値よりも大きく且つ最も該判定値が高かった同じ該段の該レコードの該学習済みデータを最終判定結果として判定を終了し、
該参照する第２の学習済みデータＩＤが定められている場合には、該第２の学習済みデータＩＤで定められている該学習済みデータを最終判定結果として判定を終了する
ことを特徴とする請求項９記載の判定方法。