JP2019144789A - 機械学習装置、判定装置、機械学習方法及び判定方法 - Google Patents

機械学習装置、判定装置、機械学習方法及び判定方法 Download PDF

Info

Publication number
JP2019144789A
JP2019144789A JP2018027710A JP2018027710A JP2019144789A JP 2019144789 A JP2019144789 A JP 2019144789A JP 2018027710 A JP2018027710 A JP 2018027710A JP 2018027710 A JP2018027710 A JP 2018027710A JP 2019144789 A JP2019144789 A JP 2019144789A
Authority
JP
Japan
Prior art keywords
determination
data
learned data
learned
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018027710A
Other languages
English (en)
Inventor
秀二 新原
Shuji Niihara
秀二 新原
一説 山田
Issetsu Yamada
一説 山田
晋吾 粂田
Shingo Kumeda
晋吾 粂田
一矢 夏目
Kazuya Natsume
一矢 夏目
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asterone Co Ltd
Original Assignee
Asterone Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asterone Co Ltd filed Critical Asterone Co Ltd
Priority to JP2018027710A priority Critical patent/JP2019144789A/ja
Publication of JP2019144789A publication Critical patent/JP2019144789A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】過剰最適化を抑えることが可能な機械学習装置、判定装置、機械学習方法及び判定方法を提供することにある。【解決手段】学習手段が、ラベル毎に用意された訓練データをクラス別に分割させて学習し、ラベル毎に個別IDが付与された学習済みデータを生成することを特徴とし、学習済みデータを用いて、どのように判定するかの情報を示す判定経路テーブルを備え、判定手段が、判定対象データと学習済みデータとの比較判定を、クラス毎に多段化して上位の段から下位の段に向かって所定の経路で順次行い、経路が、判定経路テーブルで定められていることを特徴とする。【選択図】図1

Description

本発明は、訓練データから学習を行う機械学習装置、判定対象データに対して比較判定を行う判定装置、訓練データから学習を行う機械学習方法及び判定対象データに対して比較判定を行う判定方法に関する。
従来より、ニューラルネットワークにより分類を行うディープラーニングやAIシステムが各種提案されてきている。そのような提案の1つである機械学習方法及び判定方法においては、適正な判断結果を得られない過学習(過剰最適化)が生じることがある。この対策として、例えば、特許文献1〜特許文献3に示すような各種の方法が具体的に示されている。特許文献1〜特許文献3の例では、複数のニューラルネットワークの学習手段により、データベースを最適な部分空間に分割し、各部分空間に特化した分類を行うことができるようにする等の方法で、対策を行っている。
特開2001−175635号公報 特開2005−182449号公報 特開2013−250809号公報
しかしながら、従来の機械学習等では、低スペックの電子計算機で過剰最適化を抑えた学習及び判断を行うことが困難である。
本発明は、このような事情に鑑みてなされたもので、過剰最適化を抑えることが可能な機械学習装置、判定装置、機械学習方法及び判定方法を提供することにある。
請求項1記載の機械学習装置は、学習手段が、ラベル毎に用意された訓練データをクラス別に分割させて学習し、ラベル毎に個別IDが付与された学習済みデータを生成することを特徴とする。
請求項2記載の機械学習装置は、学習手段が、学習手段における学習可能な訓練データの数の上限を把握し、1つのラベルあたりの訓練データの数を算出し、ラベル毎に訓練データの数の範囲で訓練データを学習することを特徴とする。
請求項3記載の機械学習装置は、クラス別のラベル数を、任意に設定可能なことを特徴とする。
請求項4記載の判定装置は、請求項1〜請求項3に記載の学習済みデータのいずれかの学習済みデータを用いて、どのように判定するかの情報を示す判定経路テーブルを備え、判定手段が、判定対象データと学習済みデータとの比較判定を、クラス毎に多段化して上位の段から下位の段に向かって所定の経路で順次行い、経路が、判定経路テーブルで定められていることを特徴とする。
請求項5記載の判定装置は、判定経路テーブルが、1つのレコードに、レコードの設定で行われる判定の段数、判定に使用する学習済みデータの個別IDである第1の学習済みデータID、判定結果のうち最も確率が大きい学習済みデータを正解と判定するための閾値である判定閾値、及び次に判定を行う学習済みデータの個別IDである第2の学習済みデータIDを備え、判定手段が、判定経路テーブルの同じ段数を指定されたレコード毎に、判定対象データと第1の学習済みデータIDで指定されている学習済みデータとを比較判定し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出し、判定率が、そのレコードで設定されている判定閾値より小さい場合には、そのレコードによる学習済みデータには合致しないと判断し、判定率がそのレコードによる判定閾値よりも大きい場合には、他のレコードの判定値であってその他のレコードの判定値と比較し、判定値が最も高いレコードの第1の学習済みデータIDで定められた学習済みデータを、その段の判定結果としてそのレコードの第2の学習済みデータIDを参照し、参照する第2の学習済みデータIDが定められていない場合には、判定経路テーブルで定められた最終の段に到るまで、下の段による判定を繰り返し、最終の段で、各レコードの判定閾値よりも大きく且つ最も判定値が高かった同じ段のレコードの学習済みデータを最終判定結果として判定を終了し、参照する第2の学習済みデータIDが定められている場合には、第2の学習済みデータIDで定められている学習済みデータを最終判定結果として判定を終了する。
請求項6記載の機械学習方法は、ラベル毎に用意された訓練データをクラス別に分割させて学習し、ラベル毎に個別IDが付与された学習済みデータを生成することを特徴とする。
請求項7記載の機械学習方法は、学習可能な訓練データの数の上限を把握し、1つのラベルあたりの訓練データの数を算出し、ラベル毎に訓練データの数の範囲で訓練データを学習することを特徴とする。
請求項8記載の機械学習方法は、クラス別のラベル数を、任意に設定可能なことを特徴とする。
請求項9記載の判定方法は、請求項6〜請求項8に記載の学習済みデータのいずれかの学習済みデータを用いて、どのように判定するかの情報を示す判定経路テーブルを作成し、判定対象データと学習済みデータとの比較判定を、クラス毎に多段化して上位の段から下位の段に向かって所定の経路で順次行い、経路が、判定経路テーブルで定められていることを特徴とする。
請求項10記載の判定方法は、判定経路テーブルが、1つのレコードに、レコードの設定で行われる判定の段数、判定に使用する学習済みデータの個別IDである第1の学習済みデータID、判定結果のうち最も確率が大きい学習済みデータを正解と判定するための閾値である判定閾値、及び次に判定を行う学習済みデータの個別IDである第2の学習済みデータIDを備え、判定経路テーブルの同じ段数を指定されたレコード毎に、判定対象データと第1の学習済みデータIDで指定されている学習済みデータとを比較判定し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出し、判定率が、そのレコードで設定されている判定閾値より小さい場合には、そのレコードによる学習済みデータには合致しないと判断し、判定率がそのレコードによる判定閾値よりも大きい場合には、他のレコードの判定値であってその他のレコードの判定値と比較し、判定値が最も高いレコードの第1の学習済みデータIDで定められた学習済みデータを、その段の判定結果としてそのレコードの第2の学習済みデータIDを参照し、参照する第2の学習済みデータIDが定められていない場合には、判定経路テーブルで定められた最終の段に到るまで、下の段による判定を繰り返し、最終の段で、各レコードの判定閾値よりも大きく且つ最も判定値が高かった同じ段のレコードの学習済みデータを最終判定結果として判定を終了し、参照する第2の学習済みデータIDが定められている場合には、第2の学習済みデータIDで定められている学習済みデータを最終判定結果として判定を終了することを特徴とする。
本願の発明によれば、ラベル毎に用意された訓練データをクラス別に分割させて学習し、判定対象データと学習済みデータとの比較判定を、クラス毎に多段化して上位の段から下位の段に向かって所定の経路で順次行い、経路が、判定経路テーブルで定められていることで過剰最適化を抑えることが可能である。
本発明に係る判定装置の判定経路テーブルの一例を示す説明図である。 同判定装置の動作の一例を示す説明図である。 同判定装置の第1及び第2の実施例における判定経路テーブルの一例を示す説明図である。 同判定装置の第1の実施例における動作を示す説明図である。 同判定装置の第2の実施例における動作を示す説明図である。
本願発明における機械学習装置及び機械学習方法は、訓練データから学習を行うものである。また、本願発明における判定装置及び判定方法は、判定対象データに対して比較判定を行うものである。
以下、図面に従って本願発明について説明する。図1は、本発明に係る判定装置の判定経路テーブルの一例を示す説明図である。図2は、同判定装置の動作の一例を示す説明図である。
本願発明に係る機械学習装置、判定装置、機械学習方法及び判定方法は、ニューラルネットワークにより分類を行うディープラーニングやAIシステムにおける機械学習方法及び判定に関するものであり、後述する学習手段、学習装置、判定手段及び判定装置は、電子計算機としての機能を有する各種の電子機器としての機能を有する装置内で実現されるもので、単体の電子計算機の他、ネットワークを介して複数の電子計算機で実現されてもよく、ハードウェアにより制限されるものではない。そして、多くの場合、機械学習装置、判定装置、機械学習方法及び判定方法は、ソフトウェアにより実現されるが、ソフトウェアとハードウェアとにより実現されるものであってもよい。
本願発明に係る機械学習装置(機械学習方法)は、学習手段が、ラベル毎に用意された訓練データをクラス別に分割させて学習し、ラベル毎に個別IDが付与された学習済みデータを生成することを基本的な特徴とするものである。ここで、訓練データとは、学習に使用する基礎となるデータで、既に用意されているものである。また、クラスとは、分類を示し、ラベルとは、予め訓練データに与えられている正解のことである。さらに、学習済みデータとは、学習手段により訓練データから作られた学習を終えたデータである。
機械学習装置における機械学習方法を説明する。まず、手動で、ラベル毎に訓練データを用意する。そして、用意された訓練データから、必要に応じて無効なデータを削除する。この段階で、学習する対象となる訓練データが用意されたことになる。
次に、学習手段で、学習手段で学習可能な訓練データの数の上限を把握し、学習手段の学習能力(学習手段を実現する電子計算機やネットワークの能力)に応じて、1つのラベルあたりの訓練データの数を算出する。学習手段は、ラベル毎に1つのラベルあたりの訓練データの数に沿った訓練データを取得して学習を行い、学習済みデータを作成していく。この学習済みデータの作成は、クラス別に分割させて行っていき、クラス別のラベル毎の学習済みデータが作成されることになる。尚、学習手段にクラス別のラベル数を任意に設定したうえで、学習手段に学習を行わせることも可能である。
そして、学習手段が、各学習済みデータに、ラベル毎すなわち学習済みデータ毎に個別IDが付与されて学習済みデータが完成する。この個別IDは、各学習済みデータを個別に識別するもので、例えば、連番やユニークなID(文字列等)を少なくとも1つにより、各学習済みデータのファイル名を構成させることにより、個別IDを付与するような方法がある。尚、個別IDは、各学習済みデータを別個に把握できるものであればよく、付与方法や個別IDの形式や内容により制限されるものではない。具体的な個別IDの例は、後述する図1に示される判定経路テーブル10の第1の学習済みデータID16や第2の学習済みデータID20である。
従来の機械学習方法では、想定し得る全クラスを一度にすべて学習させる方法が一般的である。また、ある程度分類して段階的に判定する方法もあるが、静的な分類・判定が一般的であり、一度構築した学習済みデータの再構築すなわちシステムの変更は容易ではない。例えば、一部の学習済みデータを変更する場合、再学習する必要のないクラスも含めて再度学習済みデータを作成する必要がある。単体の電子計算機の単一の演算手段で処理を行っているようなシングルシステム場合には、学習のために他の機能を停止する必要があり、デュアルシステムの場合には、運用コストが倍又は処理能力半減の選択をしなければならず、全体に影響を及ぼしていた。
さらに、学習時に分類するクラス数が多いほど、与える訓練データの数が多くなるのが一般的であり、クラス毎に与える訓練データを少なくすると過剰最適化が発生しやすいため、過剰最適化を防止する目的で学習済みデータに対して、さらに他の訓練データを再度学習させる方法もあるが、1回の学習に与える訓練データにより学習条件が更新・最適化されてしまうため、直近の訓練データに重み付けがなされてしまい、既存の学習条件が無意味に近いものになってしまっていた。
これに対し、本願発明の機械学習方法によれば、クラス別に多次元(多段的)に分割して学習済みデータを作成し、後述する判定経路テーブルにより多段判定を行うことで従来の方法の課題を解決するものである。具体的には、1つのクラスを分割・次元化(多段化)して学習することで、必要かつ十分な訓練データをクラス毎に与えて学習することができるため過剰最適化を防止できる。さらに、分割して学習済みデータを作成しているため再学習や変更が必要な場合、一群の学習済みデータの中の該当部分の学習済みデータだけ差し替えればよく一群の学習済みデータの全体への影響を抑えることが可能である。
本願発明に係る判定装置(判定方法)は、上述の機械学習装置(機械学習方法)で学習により作成された学習済みデータのいずれかの学習済みデータを用いて、どのように判定するかの情報を示す判定経路テーブルを備え、判定手段が、判定対象データと学習済みデータとの比較判定を、クラス毎に多段化して上位の段から下位の段に向かって所定の経路で順次行い、経路が、判定経路テーブルで定められていることを基本的な特徴とするものである。尚、判定対象データは、何であるかを確かめたいデータであり、数値データ、音声データ、画像データ等の1次元〜数次元の各種データが判定対象データとなる。比較判定とは、判定対象データと学習済みデータとを比較し、特徴点の一致度を判定し判定対象データが「何であるか」を特定することである。
判定経路テーブル10は、図1に示されるように、レコード毎に付けられた行の連番であるrowid12の他、1つのレコードにレコードの設定で行われる判定の段数14(段数14は、クラス毎の段の番号を示している)、判定に使用する学習済みデータの個別IDである第1の学習済みデータID16、判定結果のうち最も確率が大きい学習済みデータを正解と判定するための閾値である判定閾値18、及び次に判定を行う学習済みデータの個別IDである第2の学習済みデータID20を備える。また、必要に応じて、ネットワーク情報22を備える。尚、第2の学習済みデータID20として指定される学習済みデータは必ずしも1つではなく、複数の場合もある。
次に、判定装置における判定方法を説明する。基本的な判定方法の流れは、まず最初に、手動で、判定経路テーブル10を生成する(予め作成してあってもよい)。そして、判定装置に、判定経路テーブル10と判定経路テーブル10の第1の学習済みデータID16及び第2の学習済みデータID20とで示された学習済みデータを取り込む。この状態で、判定装置に判定対象データを入力する。
このように比較判定のための情報の取り込みが終わった後、判定手段は、判定経路テーブル10の段数14が1段目に設定されている第1の学習済みデータID16に示された学習済みデータにより判定を行う。そして、判定経路テーブル10の設定通りに最終段まで判定を行い、判定対象データを分類・特定する。
より具体的には、図2を用いて判定方法を説明する。尚、図2に示す判定の例では、図1の判定経路テーブル10によるものではない。まず、図2に示すように、セットされた判定対象データ30を、判定経路テーブルの段数が1と定められた同じ段数が指定されたレコード毎の第1の学習済みデータIDで定められた学習済みデータ40,42と比較判定することになる。
判定経路テーブルのレコード毎の判定方法は、判定手段が、判定経路テーブルの同じ段数を指定されたレコード毎に、判定対象データ30と第1の学習済みデータIDで指定されている学習済みデータ40及び学習済みデータ42とを比較判定し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出する。
判定方法の基本的な動作としては、判定率が、そのレコードで設定されている判定閾値より小さい場合には、そのレコードによる学習済みデータには合致しないと判断し、判定率がそのレコードによる判定閾値よりも大きい場合には、他のレコードの判定値であってその他のレコードの判定値と比較し、判定値が最も高いレコードの第1の学習済みデータIDで定められた学習済みデータを、その段の判定結果としてそのレコードの第2の学習済みデータIDを参照し、参照する第2の学習済みデータIDが定められていない場合には、判定経路テーブルで定められた最終の段に到るまで、下の段による判定を繰り返し、最終の段で、各レコードの判定閾値よりも大きく且つ最も判定値が高かった同じ段のレコードの学習済みデータを最終判定結果として判定を終了し、参照する第2の学習済みデータIDが定められている場合には、第2の学習済みデータIDで定められている学習済みデータを最終判定結果として判定を終了する。
具体的には、図2の1段目の学習済みデータ40との比較判定においては、判定値が判定閾値以上であり、また1段目の学習済みデータ42との比較判定においても、判定値が判定閾値以上であり、学習済みデータ40と学習済みデータ42によるそれぞれの判定値が同一であり、且ついずれかの判定経路テーブルのレコードの第2の学習済みデータIDが定められていないことから、下の段(2段目)の学習済みデータ50,52,54,56との比較判定に進む。
図2の2段目では、学習済みデータ50及び学習済みデータ56との比較判定において、それぞれの判定値が、それぞれの判定閾値より小さく、判定対象データ30が、学習済みデータ50及び学習済みデータ56のいずれとも合致しないと判断される。
図2の2段目の学習済みデータ52との比較判定においては、判定値が判定閾値以上であり、また2段目の学習済みデータ54との比較判定においても、判定値が判定閾値以上であり、学習済みデータ52と学習済みデータ54によるそれぞれの判定値が同一であり、且ついずれの判定経路テーブルのレコードの第2の学習済みデータIDが定められていないことから、下の段(3段目)の学習済みデータ60〜74との比較判定に進む。
図2の3段目では、学習済みデータ60、学習済みデータ66、学習済みデータ70及び学習済みデータ74との比較判定において、それぞれの判定値が、それぞれの判定閾値より小さく、判定対象データ30が、学習済みデータ60、学習済みデータ66、学習済みデータ70及び学習済みデータ74のいずれとも合致しないと判断される。
図2の3段目の学習済みデータ62との比較判定においては、判定値が判定閾値以上で50%(括弧書き内の数値)、学習済みデータ64との比較判定においては、判定値が判定閾値以上で85%(括弧書き内の数値)、学習済みデータ68との比較判定においては、判定値が判定閾値以上で92%(括弧書き内の数値)、学習済みデータ72との比較判定においては、判定値が判定閾値以上で35%(括弧書き内の数値)である。そして、判定経路テーブルにおいては、3段目より下の段が定められていないことから、3段目の判定値が一番大きなC(すなわち学習済みデータ68)を、判定対象データ30の最終判定結果とする。
従来の判定方法では、学習済みデータを一括で読み込み判定する方法が一般的であり、判定に使用するデータが大きい場合やクラス数が多い場合、読み込みの際に必要とされる電子計算機のメインメモリの制限によりスワッピングが発生し、他の処理に影響を及ぼすこともあった。
これに対し、本願発明の判定方法によれば、判定を段で分け多段で行い、段と段のつながりは判定経路テーブルにより定義しており、各段の学習済みデータのサイズが大きい場合、判定経路テーブルを適切に書き換えることで、低スペックの電子計算機においても多クラスの分類・判定を行うことができる。さらに、多段的にクラス判定し最終分類を行うが、1つのクラスを分割して網羅的に判定を行うことで判定精度向上や効率化につながる場合もある。
さらに、判定経路テーブル10に、そのレコードの設計で判定が行われる電子計算機をネットワーク上で特定するネットワーク情報22を持たせることで、学習済みデータが分割されていることと相まって、1台の電子計算機ではなく、複数台の電子計算機でネットワーク経由にて判定することも可能であり、多段判定に要する時間コストを低減することも可能である。
実施例1では、上記の機械学習方法及び判定方法により、具体的な判定対象データ130の判定の例を示す。図3は、同判定装置の第1及び第2の実施例における判定経路テーブルの一例を示す説明図である。図4は、判定装置の第1の実施例における動作を示す説明図である。
図3及び図4に示す学習済みデータ140〜164は、上述の機械学習方法により学習し作成されたものである。判定経路テーブル110のrowid112、段数114、第1の学習済みデータID116、判定閾値118、第2の学習済みデータID120、ネットワーク情報122は、上述の判定経路テーブル10のrowid12、段数14、第1の学習済みデータID16、判定閾値18、第2の学習済みデータID20、ネットワーク情報22と同様の機能を有している、尚、説明124は、判定の内容を示しているが、必須のものではない。
図4を用いて実施例1の判定方法を説明する。この実施例1の判定は、判定対象データ130である飲料の製造メーカーを特定する場合のものである。まず、判定手段に学習済みデータ140〜164、判定経路テーブル110及び判定対象データ130をセットする。そして、まず、図4に示すように、セットされた判定対象データ130を、判定経路テーブル110の段数114が1と定められた同じ段数が指定されたレコード毎の第1の学習済みデータID116で定められた学習済みデータ140(学習済みデータIDはAAA)と学習済みデータ142(学習済みデータIDはBBB)とでそれぞれ比較判定することになる。
判定対象データ130と学習済みデータ140とを比較判定(この比較判定は、飲料水かどうかの判定である)し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると70%であった。また、判定対象データ130と学習済みデータ142とを比較判定(この比較判定は、お菓子かどうかの判定である)し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると30%であった。この結果、学習済みデータ140の判定値が判定閾値118で定められているよりも大きく、他方、学習済みデータ142の判定値が判定閾値118で定められているよりも小さいことから、1段目の判定は、学習済みデータ140の判定となる(すなわち、まず、判定対象データ130は飲料水であると判断された)。
ここで、判定経路テーブル110のrowid112の1で、第2の学習済みデータID120が「NONE」で具体的に学習済みデータIDが示されていないことから、次に、判定経路テーブル110の段数114が下の2段目と定められているrowid112の3〜5の判定に移ることになる。
判定手段は、2段目の判定として、判定対象データ130と学習済みデータ150(学習済みデータIDはCCC)とを比較判定(この比較判定は、飲料水種別の判定であり、具体的には清涼飲料水かどうかの判定である)し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると12%であった。また、判定対象データ130と学習済みデータ152(学習済みデータIDはDDD)とを比較判定(この比較判定は、飲料水種別の判定であり、具体的には炭酸飲料水かどうかの判定である)し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると75%であった。さらに、判定対象データ130と学習済みデータ154(学習済みデータIDはEEE)とを比較判定(この比較判定は、飲料水種別の判定であり、具体的にはアルコールかどうかの判定である)し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると35%であった。
この結果、学習済みデータ152の判定値が判定閾値118で定められているよりも大きく、他方、学習済みデータ150及び学習済みデータ154の判定値が判定閾値118で定められているよりも小さいことから、2段目の判定は、学習済みデータ152の判定となる(すなわち、まず、判定対象データ130は炭酸飲料水であると判断された)。
ここで、判定経路テーブル110のrowid112の4で、第2の学習済みデータID120が「NONE」で具体的に学習済みデータIDが示されていないことから、次に、判定経路テーブル110の段数114が下の3段目と定められているrowid112の6〜8の判定に移ることになる。
判定手段は、3段目の判定として、判定対象データ130と学習済みデータ160(学習済みデータIDはFFF)とを比較判定(この比較判定は、メーカーの判定であり、具体的にはA社かどうかの判定である)し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると12%であった。また、判定対象データ130と学習済みデータ162(学習済みデータIDはGGG)とを比較判定(この比較判定は、メーカーの判定であり、具体的にはB社かどうかの判定である)し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると35%であった。さらに、判定対象データ130と学習済みデータ164(学習済みデータIDはHHH)とを比較判定(この比較判定は、メーカーの判定であり、具体的にはC社かどうかの判定である)し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると90%であった。
この結果、学習済みデータ164の判定値が判定閾値118で定められているよりも大きく、他方、学習済みデータ160及び学習済みデータ162の判定値が判定閾値118で定められているよりも小さいことから、3段目の判定は、学習済みデータ164の判定となる(すなわち、まず、判定対象データ130はC社であると判断された)。ここで、判定経路テーブル110のrowid112の8で、第2の学習済みデータID120が「NONE」で具体的に学習済みデータIDが示されていないが、判定経路テーブル110で3段目の下の4段目を示す段数114のレコードがないことから、3段目の結果が最終判定結果となる。
実施例2では、上記の機械学習方法及び判定方法により、具体的な判定対象データ132の判定の例を示す。図3は、同判定装置の第1及び第2の実施例における判定経路テーブルの一例を示す説明図である。図5は、判定装置の第2の実施例における動作を示す説明図である。
図3及び図5に示す学習済みデータ140〜170は、上述の機械学習方法により学習し作成されたものである。判定経路テーブル110のrowid112、段数114、第1の学習済みデータID116、判定閾値118、第2の学習済みデータID120、ネットワーク情報122は、上述の判定経路テーブル10のrowid12、段数14、第1の学習済みデータID16、判定閾値18、第2の学習済みデータID20、ネットワーク情報22と同様の機能を有している、尚、説明124は、判定の内容を示しているが、必須のものではない。
図5を用いて実施例2の判定方法を説明する。この実施例2の判定は、判定対象データ132である飲料の商品名を特定する場合のものである。まず、判定手段に学習済みデータ140〜170、判定経路テーブル110及び判定対象データ132をセットする。そして、まず、図5に示すように、セットされた判定対象データ132を、判定経路テーブル110の段数114が1と定められた同じ段数が指定されたレコード毎の第1の学習済みデータID116で定められた学習済みデータ140(学習済みデータIDはAAA)と学習済みデータ142(学習済みデータIDはBBB)とでそれぞれ比較判定することになる。
判定対象データ132と学習済みデータ140とを比較判定(この比較判定は、飲料水かどうかの判定である)し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると70%であった。また、判定対象データ132と学習済みデータ142とを比較判定(この比較判定は、お菓子かどうかの判定である)し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると30%であった。この結果、学習済みデータ140の判定値が判定閾値118で定められているよりも大きく、他方、学習済みデータ142の判定値が判定閾値118で定められているよりも小さいことから、1段目の判定は、学習済みデータ140の判定となる(すなわち、まず、判定対象データ130は飲料水であると判断された)。
ここで、判定経路テーブル110のrowid112の1で、第2の学習済みデータID120が「NONE」で具体的に学習済みデータIDが示されていないことから、次に、判定経路テーブル110の段数114が下の2段目と定められているrowid112の3〜5の判定に移ることになる。
判定手段は、2段目の判定として、判定対象データ132と学習済みデータ150(学習済みデータIDはCCC)とを比較判定(この比較判定は、飲料水種別の判定であり、具体的には清涼飲料水かどうかの判定である)し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると75%であった。また、判定対象データ132と学習済みデータ152(学習済みデータIDはDDD)とを比較判定(この比較判定は、飲料水種別の判定であり、具体的には炭酸飲料水かどうかの判定である)し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると12%であった。さらに、判定対象データ132と学習済みデータ154(学習済みデータIDはEEE)とを比較判定(この比較判定は、飲料水種別の判定であり、具体的にはアルコールかどうかの判定である)し、比較判定された学習済みデータが正解であろう確率を示す判定率を算出すると35%であった。
この結果、学習済みデータ150の判定値が判定閾値118で定められているよりも大きく、他方、学習済みデータ152及び学習済みデータ154の判定値が判定閾値118で定められているよりも小さいことから、2段目の判定は、学習済みデータ150の判定となる(すなわち、まず、判定対象データ132は清涼飲料水であると判断された)。
ここで、判定経路テーブル110のrowid112の3で、第2の学習済みデータID120が「ZZZ」(学習済みデータ170を示す)で具体的に学習済みデータIDが示されていることから、学習済みデータ170が最終判定結果となる(判定対象データ132と学習済みデータ170との比較判定で、学習済みデータが正解であろう確率を示す判定率を算出すると80%であった)。
本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この発明を説明するためのものであり、本発明の範囲を限定するものではない。すなわち、本発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。
以上のように、本発明によれば、過剰最適化を抑えることが可能な機械学習装置、判定装置、機械学習方法及び判定方法を提供することができる。
10・・・・判定経路テーブル
12・・・・rowid
14・・・・段数
16・・・・第1の学習済みデータID
18・・・・判定閾値
20・・・・第2の学習済みデータID
22・・・・ネットワーク情報
30・・・・判定対象データ
40・・・・学習済みデータ
42・・・・学習済みデータ
50・・・・学習済みデータ
52・・・・学習済みデータ
54・・・・学習済みデータ
56・・・・学習済みデータ
60・・・・学習済みデータ
62・・・・学習済みデータ
64・・・・学習済みデータ
66・・・・学習済みデータ
68・・・・学習済みデータ
70・・・・学習済みデータ
72・・・・学習済みデータ
74・・・・学習済みデータ
110・・・判定経路テーブル
112・・・rowid
114・・・段数
116・・・第1の学習済みデータID
118・・・判定閾値
120・・・第2の学習済みデータID
122・・・ネットワーク情報
124・・・説明
130・・・判定対象データ
132・・・判定対象データ
140・・・学習済みデータ
142・・・学習済みデータ
150・・・学習済みデータ
152・・・学習済みデータ
154・・・学習済みデータ
160・・・学習済みデータ
162・・・学習済みデータ
164・・・学習済みデータ
170・・・判定対象データ

Claims (10)

  1. 訓練データから学習を行う機械学習装置において、
    学習手段が、ラベル毎に用意された該訓練データをクラス別に分割させて学習し、該ラベル毎に個別IDが付与された学習済みデータを生成することを特徴とする機械学習装置。
  2. 前記学習手段が、該学習手段における学習可能な前記訓練データの数の上限を把握し、1つの前記ラベルあたりの該訓練データの数を算出し、該ラベル毎に該訓練データの数の範囲で該訓練データを学習することを特徴とする請求項1記載の機械学習装置。
  3. 前記クラス別の前記ラベル数を、任意に設定可能なことを特徴とする請求項1又は請求項2記載の機械学習装置。
  4. 判定対象データに対して比較判定を行う判定装置において、
    請求項1〜請求項3に記載の前記学習済みデータのいずれかの該学習済みデータを用いて、どのように判定するかの情報を示す判定経路テーブルを備え、
    判定手段が、該判定対象データと該学習済みデータとの比較判定を、クラス毎に多段化して上位の段から下位の段に向かって所定の経路で順次行い、
    該経路が、該判定経路テーブルで定められていることを特徴とする判定装置。
  5. 前記判定経路テーブルが、1つのレコードに、該レコードの設定で行われる判定の段数、判定に使用する前記学習済みデータの前記個別IDである第1の学習済みデータID、判定結果のうち最も確率が大きい該学習済みデータを正解と判定するための閾値である判定閾値、及び次に判定を行う前記学習済みデータの前記個別IDである第2の学習済みデータIDを備え、
    前記判定手段が、
    該判定経路テーブルの同じ段数を指定された該レコード毎に、
    前記判定対象データと該第1の学習済みデータIDで指定されている該学習済みデータとを比較判定し、比較判定された該学習済みデータが正解であろう確率を示す判定率を算出し、
    該判定率が、その該レコードで設定されている該判定閾値より小さい場合には、その該レコードによる該学習済みデータには合致しないと判断し、
    該判定率がその該レコードによる該判定閾値よりも大きい場合には、
    他の該レコードの該判定値であってその他の該レコードの該判定値と比較し、該判定値が最も高い該レコードの該第1の学習済みデータIDで定められた該学習済みデータを、その該段の判定結果としてその該レコードの該第2の学習済みデータIDを参照し、
    該参照する第2の学習済みデータIDが定められていない場合には、該判定経路テーブルで定められた最終の該段に到るまで、下の該段による判定を繰り返し、該最終の段で、各レコードの該判定閾値よりも大きく且つ最も該判定値が高かった同じ該段の該レコードの該学習済みデータを最終判定結果として判定を終了し、
    該参照する第2の学習済みデータIDが定められている場合には、該第2の学習済みデータIDで定められている該学習済みデータを最終判定結果として判定を終了する
    ことを特徴とする請求項4記載の判定装置。
  6. 訓練データから学習を行う機械学習方法において、
    ラベル毎に用意された該訓練データをクラス別に分割させて学習し、該ラベル毎に個別IDが付与された学習済みデータを生成することを特徴とする機械学習方法。
  7. 学習可能な前記訓練データの数の上限を把握し、1つの前記ラベルあたりの該訓練データの数を算出し、該ラベル毎に該訓練データの数の範囲で該訓練データを学習することを特徴とする請求項6記載の機械学習方法。
  8. 前記クラス別の前記ラベル数を、任意に設定可能なことを特徴とする請求項6又は請求項7記載の機械学習方法。
  9. 判定対象データに対して比較判定を行う判定方法において、
    請求項6〜請求項8に記載の前記学習済みデータのいずれかの該学習済みデータを用いて、どのように判定するかの情報を示す判定経路テーブルを作成し、
    該判定対象データと該学習済みデータとの比較判定を、クラス毎に多段化して上位の段から下位の段に向かって所定の経路で順次行い、
    該経路が、該判定経路テーブルで定められていることを特徴とする判定方法。
  10. 前記判定経路テーブルが、1つのレコードに、該レコードの設定で行われる判定の段数、判定に使用する前記学習済みデータの前記個別IDである第1の学習済みデータID、判定結果のうち最も確率が大きい該学習済みデータを正解と判定するための閾値である判定閾値、及び次に判定を行う前記学習済みデータの前記個別IDである第2の学習済みデータIDを備え、
    該判定経路テーブルの同じ段数を指定された該レコード毎に、
    前記判定対象データと該第1の学習済みデータIDで指定されている該学習済みデータとを比較判定し、比較判定された該学習済みデータが正解であろう確率を示す判定率を算出し、
    該判定率が、その該レコードで設定されている該判定閾値より小さい場合には、その該レコードによる該学習済みデータには合致しないと判断し、
    該判定率がその該レコードによる該判定閾値よりも大きい場合には、
    他の該レコードの該判定値であってその他の該レコードの該判定値と比較し、該判定値が最も高い該レコードの該第1の学習済みデータIDで定められた該学習済みデータを、その該段の判定結果としてその該レコードの該第2の学習済みデータIDを参照し、
    該参照する第2の学習済みデータIDが定められていない場合には、該判定経路テーブルで定められた最終の該段に到るまで、下の該段による判定を繰り返し、該最終の段で、各レコードの該判定閾値よりも大きく且つ最も該判定値が高かった同じ該段の該レコードの該学習済みデータを最終判定結果として判定を終了し、
    該参照する第2の学習済みデータIDが定められている場合には、該第2の学習済みデータIDで定められている該学習済みデータを最終判定結果として判定を終了する
    ことを特徴とする請求項9記載の判定方法。
JP2018027710A 2018-02-20 2018-02-20 機械学習装置、判定装置、機械学習方法及び判定方法 Pending JP2019144789A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018027710A JP2019144789A (ja) 2018-02-20 2018-02-20 機械学習装置、判定装置、機械学習方法及び判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018027710A JP2019144789A (ja) 2018-02-20 2018-02-20 機械学習装置、判定装置、機械学習方法及び判定方法

Publications (1)

Publication Number Publication Date
JP2019144789A true JP2019144789A (ja) 2019-08-29

Family

ID=67771359

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018027710A Pending JP2019144789A (ja) 2018-02-20 2018-02-20 機械学習装置、判定装置、機械学習方法及び判定方法

Country Status (1)

Country Link
JP (1) JP2019144789A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021053898A (ja) * 2019-09-30 2021-04-08 株式会社Screenホールディングス 印刷装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0934714A (ja) * 1995-07-17 1997-02-07 Toshiba Corp 決定木規則生成方法および決定木規則生成装置
JP2005190255A (ja) * 2003-12-26 2005-07-14 Fuji Xerox Co Ltd データ分類処理装置、およびデータ分類処理方法、並びにコンピュータ・プログラム
JP2013167964A (ja) * 2012-02-14 2013-08-29 Kddi Corp 情報処理装置、情報処理方法、プログラム
WO2015146113A1 (ja) * 2014-03-28 2015-10-01 日本電気株式会社 識別辞書学習システム、識別辞書学習方法および記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0934714A (ja) * 1995-07-17 1997-02-07 Toshiba Corp 決定木規則生成方法および決定木規則生成装置
JP2005190255A (ja) * 2003-12-26 2005-07-14 Fuji Xerox Co Ltd データ分類処理装置、およびデータ分類処理方法、並びにコンピュータ・プログラム
JP2013167964A (ja) * 2012-02-14 2013-08-29 Kddi Corp 情報処理装置、情報処理方法、プログラム
WO2015146113A1 (ja) * 2014-03-28 2015-10-01 日本電気株式会社 識別辞書学習システム、識別辞書学習方法および記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021053898A (ja) * 2019-09-30 2021-04-08 株式会社Screenホールディングス 印刷装置
JP7323406B2 (ja) 2019-09-30 2023-08-08 株式会社Screenホールディングス 印刷装置

Similar Documents

Publication Publication Date Title
US20200322238A1 (en) Distributed assignment of video analytics tasks in cloud computing environments to reduce bandwidth utilization
US9633002B1 (en) Systems and methods for coreference resolution using selective feature activation
US9626426B2 (en) Clustering using locality-sensitive hashing with improved cost model
US9761221B2 (en) Order statistic techniques for neural networks
CN112633309A (zh) 基于贝叶斯优化的查询高效的黑盒对抗攻击
CN103927510A (zh) 图像识别装置和图像识别方法
CN106127232B (zh) 卷积神经网络训练方法和系统、对象分类方法和分类器
US20160085857A1 (en) Grouping data using dynamic thresholds
WO2017039684A1 (en) Classifier
CN109408636A (zh) 文本分类方法及装置
US10867255B2 (en) Efficient annotation of large sample group
CN110245700B (zh) 分类模型构建方法、分类模型及物体识别方法
JP6988995B2 (ja) 画像生成装置、画像生成方法および画像生成プログラム
JP2019144789A (ja) 機械学習装置、判定装置、機械学習方法及び判定方法
JP6860084B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN114091597A (zh) 基于自适应组样本扰动约束的对抗训练方法、装置及设备
CN111611228A (zh) 一种基于分布式数据库的负载均衡调整方法及装置
CN114662568A (zh) 数据分类方法、装置、设备和存储介质
WO2014118976A1 (ja) 学習方法、情報変換装置および学習プログラム
Damiran et al. Author Identification-An Experiment Based on Mongolian Literature Using Decision Trees
JP6365010B2 (ja) 学習プログラム及び情報処理装置
WO2019220608A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP6717067B2 (ja) 対処履歴分析プログラム、方法、及び装置
CN111078877A (zh) 数据处理、文本分类模型的训练、文本分类方法和装置
CN110309127B (zh) 一种数据处理方法、装置及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220106

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220627