JP2008117343A

JP2008117343A - 学習処理装置

Info

Publication number: JP2008117343A
Application number: JP2006302442A
Authority: JP
Inventors: Tsutomu Osouda; 勉襲田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-11-08
Filing date: 2006-11-08
Publication date: 2008-05-22

Abstract

【課題】重み付き能動学習法の精度を向上させることができる構造の学習処理装置を提供する。
【解決手段】一連の記述子と一つの結果からなる複数の訓練データがｍ個のデータサンプリング部１２０に共通に入力され、ｍ個の記述子抽出部１３０からｍ個の学習アルゴリズム部１４０に並列に伝送される。データサンプリング部１２０は、複数の訓練データから一部を重複させてランダムに選択し、記述子抽出部１３０は、重複しないランダムな順位の記述子を複数の訓練データから共通に抽出する。ｍ個の学習アルゴリズム部１４０に入力される訓練データを、データ単位と記述子単位とでランダムとすることができる。それでいて、複数の訓練データから一部がランダムに選択されるときは一部が重複するように制御されるので、重み付き能動学習法の効率を向上させることができる。
【選択図】図１

Description

本発明は、複数の学習アルゴリズム部により能動学習を実行する学習処理装置に関し、特に、学習アルゴリズム部に入力させる複数の訓練データを偏重させることで重み付き能動学習を実行する学習処理装置に関する。

従来、複数の学習アルゴリズム部により能動学習を実行する学習処理装置がある。このような学習処理装置は、例えば、一個の訓練入力部と、一個の予測入力部と、ｍ(ｍは二以上の自然数)個のデータサンプリング部と、ｍ個の学習アルゴリズム部と、一個の結果統合部と、からなる。

一個の訓練入力部の出力がｍ個のデータサンプリング部に共通に入力される。ｍ個のデータサンプリング部の出力がｍ個の学習アルゴリズム部に並列に入力される。ｍ個の学習アルゴリズム部の出力が一個の結果統合部に入力される。なお、一個の予測入力部の出力もｍ個の学習アルゴリズム部に共通に入力される。

訓練入力部は、一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される。訓練データは、学習アルゴリズム部を学習させるためのもので、一連の記述子が問題、一つの結果が回答、に相当する。

予測入力部は、訓練データと同数の一連の記述子からなり、結果が付与されていない予測データが入力される。予測データは、回答に相当する結果を学習アルゴリズム部に予測させるための問題に相当する。

データサンプリング部は、多数の訓練データから少数をランダムに選択する。学習アルゴリズム部は、上述のように選択された訓練データが入力されると、その一連の記述子と結果により学習する。そして、予測データが入力されると、その一連の記述子から結果を導出する。

なお、ｍ個のデータサンプリング部の選択結果は相互に相違する。従って、ｍ個の学習アルゴリズム部には、相違する選択結果の訓練データが入力される。このため、ｍ個の学習アルゴリズムは学習内容にバリエーションが発生する。従って、ｍ個の学習アルゴリズム部は、同一の予測データに対して画一的でない結果を導出することができる。

そこで、結果統合部は、例えば、多数決などの手法で学習アルゴリズム部の出力を統合する。この場合、学習処理装置は、学習アルゴリズム部が一個の場合より高精度な結果を出力することができる。

さらに、上述のように学習アルゴリズム部に入力させる訓練データを能動的に選択することにより、予測データに対する結果の精度を向上させることもできる。なお、上述のような学習処理装置は、実際にはコンピュータプログラムによりコンピュータ装置に特定の機能を付与することで実現される。

現在、このような学習処理装置として各種の提案がある(例えば、特許文献１，２、非特許文献１参照)。
特開２００５−１０７７４３号公報ＷＯ０３／０７１４８０Ａ１ "記述子サンプリング法を用いた能動学習法に基づく創薬スクリーニング"藤原由希子、山下慶子、襲田勉、麻生川稔、朝尾正昭、島津秀史、中尾和也、福島千晶、清水良［２００６年１０月２４日検索］インターネット<ＵＲＬ：http://www.slis.tsukuba.ac.jp/qsar32/abstructs/K04.pdf>

上述のような学習処理装置では、多数の訓練データをランダムに選択して複数の学習アルゴリズム部にバリエーションを発生させる。この集団学習および能動学習により、予測データから良好な精度で結果を導出できるようになる。

さらに、非特許文献１の学習処理装置では、学習アルゴリズム部に入力する訓練データの記述子も抽出することが開示されている。その場合、訓練データから抽出する記述子の順位は、ｍ個の学習アルゴリズム部では相違させ、学習アルゴリズム部ごとには一致させておく。

そして、学習アルゴリズム部に予測データを入力させるときも、その学習アルゴリズム部に入力される訓練データと同一順位の記述子を抽出する。このような学習処理装置では、さらにｍ個の学習アルゴリズム部のランダム性が向上するので、結果の精度も良好となる。

しかし、非特許文献１には、如何にして訓練データおよび予測データから記述子を抽出するかが具体的には開示されていない。さらに、訓練データから記述子を抽出することを、如何にすれば重み付き能動学習法に適用できるかも開示されていない。

本発明は上述のような課題に鑑みてなされたものであり、重み付き能動学習法の精度を向上させることができる構造の学習処理装置、そのデータ処理方法およびコンピュータプログラム、を提供するものである。

本発明の一の学習処理装置は、複数の学習アルゴリズム部により重み付き能動学習を実行する学習処理装置であって、一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される一個の訓練入力部と、訓練入力部の出力が共通に入力されるｍ(ｍは二以上の自然数)個のデータサンプリング部と、ｍ個のデータサンプリング部の出力が並列に入力されるｍ個の記述子抽出部と、ｍ個の記述子抽出部の出力が並列に入力されるｍ個の学習アルゴリズム部と、を有し、データサンプリング部は、複数の訓練データから一部を重複させてランダムに選択し、記述子抽出部は、重複しないランダムな順位の記述子を複数の訓練データから共通に抽出する。

本発明の他の学習処理装置は、複数の学習アルゴリズム部により重み付き能動学習を実行する学習処理装置であって、一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される一個の訓練入力部と、訓練入力部の出力が共通に入力されるｍ個の記述子抽出部と、ｍ個の記述子抽出部の出力が並列に入力されるデータサンプリング部と、ｍ個のデータサンプリング部の出力が並列に入力されるｍ個の学習アルゴリズム部と、を有し、データサンプリング部は、複数の訓練データから一部を重複させてランダムに選択し、記述子抽出部は、重複しないランダムな順位の記述子を複数の訓練データから共通に抽出する。

従って、本発明の学習処理装置では、ｍ個の学習アルゴリズム部に入力される訓練データを、データ単位と記述子単位とでランダムとすることができる。それでいて、複数の訓練データから一部がランダムに選択されるときは一部が重複するように制御され、訓練データから記述子がランダムに抽出されるときは重複がないように制御される。

本発明の一のデータ処理方法は、本発明の学習処理装置によるデータ処理方法であって、一連の記述子と一つの結果とで各々形成されている複数の訓練データを訓練入力部に入力させ、訓練入力部の出力が共通に入力されるｍ個のデータサンプリング部の各々で、複数の訓練データから一部を重複させてランダムに選択し、ｍ個のデータサンプリング部の出力が並列に入力されるｍ個の記述子抽出部の各々で、重複しないランダムな順位の記述子を複数の訓練データから共通に抽出し、ｍ個の記述子抽出部の出力をｍ個の学習アルゴリズム部に個々に入力させて学習させる。

本発明の他のデータ処理方法は、本発明の学習処理装置によるデータ処理方法であって、一連の記述子と一つの結果とで各々形成されている複数の訓練データを訓練入力部に入力させ、訓練入力部の出力が共通に入力されるｍ個の記述子抽出部の各々で、重複しないランダムな順位の記述子を複数の訓練データから共通に抽出し、ｍ個の記述子抽出部の出力が並列に入力されるデータサンプリング部の各々で、複数の訓練データから一部を重複させてランダムに選択し、ｍ個のデータサンプリング部の出力をｍ個の学習アルゴリズム部に個々に入力させて学習させる。

本発明の一のコンピュータプログラムは、本発明の学習処理装置のためのコンピュータプログラムであって、一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される一個の訓練入力部と、訓練入力部の出力が共通に入力されるｍ(ｍは二以上の自然数)個のデータサンプリング部と、ｍ個のデータサンプリング部の出力が並列に入力されるｍ個の記述子抽出部と、ｍ個の記述子抽出部の出力が並列に入力されるｍ個の学習アルゴリズム部と、を学習処理装置に論理的に実現し、データサンプリング部に、複数の訓練データから一部を重複させてランダムに選択させ、記述子抽出部に、重複しないランダムな順位の記述子を複数の訓練データから共通に抽出させる。

本発明の他のコンピュータプログラムは、本発明の学習処理装置のためのコンピュータプログラムであって、一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される一個の訓練入力部と、訓練入力部の出力が共通に入力されるｍ個の記述子抽出部と、ｍ個の記述子抽出部の出力が並列に入力されるデータサンプリング部と、ｍ個のデータサンプリング部の出力が並列に入力されるｍ個の学習アルゴリズム部と、を学習処理装置に論理的に実現し、データサンプリング部に、複数の訓練データから一部を重複させてランダムに選択させ、記述子抽出部に、重複しないランダムな順位の記述子を複数の訓練データから共通に抽出させる。

なお、本発明の各種の構成要素は、その機能を実現するように形成されていればよく、例えば、所定の機能を発揮する専用のハードウェア、所定の機能がコンピュータプログラムにより付与されたコンピュータ装置、コンピュータプログラムによりコンピュータ装置に実現された所定の機能、これらの任意の組み合わせ、等として実現することができる。

また、本発明の各種の構成要素は、個々に独立した存在である必要もなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でよい。

また、本発明で云う学習処理装置は、コンピュータプログラムを読み取って対応するデータ処理を実行できるように、ＣＰＵ(Central Processing Unit)、ＲＯＭ(Read Only Memory)、ＲＡＭ(Random Access Memory)、Ｉ／Ｆ(Interface)ユニット、等の汎用デバイスで構築されたハードウェア、所定のデータ処理を実行するように構築された専用の論理回路、これらの組み合わせ、等として実施することができる。

また、本発明でコンピュータプログラムに対応した各種動作を学習処理装置に実行させることは、各種デバイスを学習処理装置に動作制御させることなども意味している。例えば、学習処理装置が訓練データを入力することは、学習処理装置にＬＡＮ(Local Area Network)等で外部から訓練データが送信されること、学習処理装置が装填されたＦＤ(Flexible Disc-cartridge)等の情報記憶媒体からＦＤＤ(FD Drive)等により訓練データを読み出すこと、等でよい。

本発明の学習処理装置では、ｍ個の学習アルゴリズム部に入力される訓練データを、データ単位と記述子単位とでランダムとすることができる。それでいて、複数の訓練データから一部がランダムに選択されるときは一部が重複するように制御され、訓練データから記述子がランダムに抽出されるときは重複がないように制御される。従って、データ選択と記述子抽出とを的確に実行して重み付き能動学習法の効率を向上させることができる。

本発明の実施の一形態を図面を参照して以下に説明する。本実施の形態の学習処理装置１００は、いわゆるコンピュータ装置からなり、ＣＰＵ等からなるコンピュータユニット、ＨＤＤ等の記憶デバイス、ＬＣＤ(Liquid Crystal Display)等からなるディスプレイデバイス、キーボードやマウス等の入力デバイス、等をハードウェアとして有する(図示せず)。

コンピュータユニットにはコンピュータプログラムが実装されており、そのコンピュータプログラムに対応して各種のデータ処理が実行されるとともに各部が統合制御される。

そして、学習処理装置１００は、複数の学習アルゴリズム部１４０により重み付き能動学習を実行するため、所定のコンピュータプログラムによる各種機能として以下の各部１１０〜が論理的に実現されている。

このため、学習処理装置１００は、一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される一個の訓練入力部１１０と、訓練入力部１１０の出力が共通に入力されるｍ個のデータサンプリング部１２０と、ｍ個のデータサンプリング部１２０の出力が並列に入力されるｍ個の記述子抽出部１３０と、ｍ個の記述子抽出部１３０の出力が並列に入力されるｍ個の学習アルゴリズム部１４０と、を有する。

データサンプリング部１２０は、複数の訓練データから一部を重複させてランダムに選択し、記述子抽出部１３０は、重複しないランダムな順位の記述子を複数の訓練データから共通に抽出する。

より詳細には、図２に示すように、データサンプリング部１２０は、数値が重複していない乱数を発生させる選択乱数部１２１と、選択乱数部１２１で発生された乱数に対応して訓練データを選択するデータ選択部１２２と、選択された訓練データを結果に対応して重複させるデータ重複部１２３と、を有する。

記述子抽出部１３０は、図３に示すように、数値が重複していない乱数を発生させる抽出乱数部１３１と、抽出乱数部１３１で発生された乱数に対応した順位の記述子を複数の訓練データから共通に抽出するデータ抽出部１３２と、を有する。

さらに、学習処理装置１００は、訓練データと同数の一連の記述子からなる予測データが入力される予測入力部１５０も有する。このように入力される予測データは、データサンプリング部１２０には入力されることなく記述子抽出部１３０から学習アルゴリズム部１４０に入力される。

このとき、記述子抽出部１３０は、訓練データと同一の順位の記述子を予測データから抽出する。学習アルゴリズム部１４０は、入力される訓練データから結果を予測する。

そこで、学習処理装置１００は、上述のようにｍ個の学習アルゴリズム部１４０が出力する結果を一つに統合する一個の結果統合部１６０も有する。また、統合された結果を出力する結果出力部１７０も有する。

前述のように、学習処理装置１００の各部１１０〜はコンピュータプログラムに対応した各種機能に相当する。例えば、訓練入力部１１０、予測入力部１５０は、コンピュータプログラムに対応してコンピュータユニットが入力デバイスの入力データを認識する機能などに相当する。

また、データサンプリング部１２０、記述子抽出部１３０、学習アルゴリズム部１４０、結果統合部１６０は、コンピュータユニットがコンピュータプログラムに対応して各種のデータ処理を実行する機能などに相当する。結果出力部１７０は、コンピュータユニットがコンピュータプログラムに対応して各種データをディスプレイデバイスに表示出力させる機能などに相当する。

上述のようなコンピュータプログラムは、例えば、一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される一個の訓練入力部１１０と、訓練入力部１１０の出力が共通に入力されるｍ個のデータサンプリング部１２０と、ｍ個のデータサンプリング部１２０の出力が並列に入力されるｍ個の記述子抽出部１３０と、ｍ個の記述子抽出部１３０の出力が並列に入力されるｍ個の学習アルゴリズム部１４０と、訓練データと同数の一連の記述子からなる予測データが入力される予測入力部１５０と、ｍ個の学習アルゴリズム部１４０が出力する結果を一つに統合する一個の結果統合部１６０と、統合された結果を出力する結果出力部１７０と、を学習処理装置１００に論理的に実現し、データサンプリング部１２０に、複数の訓練データから一部を重複させてランダムに選択させ、記述子抽出部１３０に、重複しないランダムな順位の記述子を複数の訓練データから共通に抽出させ、さらに、記述子抽出部１３０に、訓練データと同一の順位の記述子を予測データから抽出させ、学習アルゴリズム部１４０に、入力される訓練データから結果を予測させる、等の処理動作をコンピュータユニット等に実行させるためのソフトウェアとして記述されている。

上述のような構成において、本実施の形態の学習処理装置１００によるデータ処理方法を以下に説明する。学習処理装置１００は、訓練データが入力されることにより、重み付き能動学習を実行することができる。そして、このように重み付き能動学習で訓練されると、入力される予測データに対して結果を出力することができる。

そこで、図４に示すように、学習処理装置１００が重み付き能動学習を実行するときは、例えば、学習実行を所定のコマンド入力などで指定してから(ステップＳ１)、複数の訓練データを学習処理装置１００に入力する(ステップＳ２)。

図２に示すように、訓練データは前述のように一連の記述子と一つの結果とで各々形成されており、例えば、以下のように設定されている。
１，０，２，３，ａ，…．１
２，３，４，１，ｂ，…．０
２，２，１，２，ａ，…．０
…

上述の訓練データでは、カンマで区分されている一桁の数値が個々に記述子であり、最後の一桁の数値が二値の結果である。このような訓練データは、例えば、有効性を実験した薬品ごとに生成されている。その場合、一連の記述子により薬品の組成が表現されており、その薬品の有効性の有無が結果の二値で表現されている。

そこで、上述のような複数の訓練データが、図１に示すように、ｍ個のデータサンプリング部１２０に共通に入力される。すると、データサンプリング部１２０では、図２に示すように、数値が重複していない乱数が発生され、その乱数に対応して訓練データが選択される。

例えば、数値が重複していない乱数として「１，３，５，…」が発生された場合、以下のように前述の複数の訓練データから第一番目と第三番目と…が選択される。
１，０，２，３，ａ，…．１
２，２，１，２，ａ，…．０
…

さらに、このように選択された訓練データが結果に対応して重複される。この場合、二値の結果「１」は有効、「０」は無効を意味している。このため、以下のように、結果が「１」の訓練データは二倍に重複されることで重み付けがされる。
１，０，２，３，ａ，…．１
１，０，２，３，ａ，…．１
２，２，１，２，ａ，…．０
…

上述のような訓練データの選択はｍ個のデータサンプリング部１２０で個々に実行されるが、その各々で発生する乱数が相互に相違する。このため、ｍ個のデータサンプリング部１２０の選択結果は相互に相違する。

上述のようにｍ個のデータサンプリング部１２０で選択された訓練データは(ステップＳ３)、ｍ個の記述子抽出部１３０に並列に入力される。すると、記述子抽出部１３０では、図３に示すように、数値が重複していない乱数が発生され、その乱数に対応した順位の記述子が複数の訓練データから共通に抽出される。

例えば、数値が重複していない乱数として「１，３，５，…」が発生された場合、前述のようにデータサンプリング部１２０で選択された訓練データの各々から、以下のように第一番目と第三番目と第五番目と…の記述子が抽出される。
１，２，ａ，…．１
１，２，ａ，…．１
２，１，ａ，…．０
…

上述のような記述子の抽出もｍ個の記述子抽出部１３０で個々に実行されるが、その各々で発生する乱数が相互に相違する。このため、ｍ個の記述子抽出部１３０の抽出結果も相互に相違する。

上述のように一部が重複するように選択されて記述子が重複しないように抽出された訓練データが(ステップＳ４)、ｍ個の学習アルゴリズム部１４０に並列に入力される。そこで、これらの学習アルゴリズム部１４０は、入力される訓練データで個々に学習する(ステップＳ５)。

このとき、上述のようにｍ個の学習アルゴリズム部１４０への入力データが相互に相違するので、ｍ個の学習アルゴリズム部１４０は、いわゆる集団学習を実行する。特に、上述のように訓練データは結果に対応して重複するように選択されているので、学習アルゴリズム部１４０は、いわゆる重み付き能動学習を実行する。

そして、上述のように学習させた学習処理装置１００で予測データから結果を出力させたいときは、例えば、予測実行を所定のコマンド入力などで指定してから(ステップＳ６)、予測データを学習処理装置１００に入力する(ステップＳ７)。

この予測データは、訓練データと同数の一連の記述子からなるが、結果は設定されていない。このような予測データは、有効性が不明な薬品に対応しており、訓練データと同様に、一連の記述子により薬品の組成が表現されている。

予測データは一つでも複数でも良く、例えば、以下のように設定されている。
４，３，０，０，１，…．
１，ｃ，２，１，４，…．
…

上述のような予測データがｍ個の記述子抽出部１３０に共通に入力される。すると、記述子抽出部１３０では、訓練データのときと同一の乱数が発生され、その乱数に対応した順位の記述子が予測データから抽出される(ステップＳ８)。

例えば、前述のように数値が重複していない乱数として「１，３，５，…」が発生された場合、予測データから以下のように第一番目と第三番目と第五番目と…の記述子が抽出される。
４，０，１，…．
１，２，４，…．
…

上述のように記述子が選択された予測データがｍ個の学習アルゴリズム部１４０に並列に入力される。これらｍ個の学習アルゴリズム部１４０は、訓練データでの学習結果に対応して予測データから結果を各々出力する(ステップＳ９)。

このとき、ｍ個の学習アルゴリズム部１４０は、その各々で訓練データと同一番目の記述子が抽出されている予測データから結果を予測するので、的確に結果を予測することができる。

それでいて、ｍ個の学習アルゴリズム部１４０は、前述のように学習内容に個性があるので、予測データが同一でも結果にはバリエーションが発生する。このようにｍ個の学習アルゴリズム部１４０で予測された結果が結果統合部１６０で統合されることにより、良好な確度の結果が結果出力部１７０から出力される。

本実施の形態の学習処理装置１００では、上述のように訓練データにより重み付き能動学習を実行し、予測データから結果を予測することができる。特に、訓練データで学習を実行するとき、ｍ個の学習アルゴリズム部１４０に入力される訓練データを、データ単位と記述子単位とでランダムとすることができる。このため、ｍ個の学習アルゴリズム部１４０に入力される訓練データのランダム性を向上させることができ、学習効果を改善することができる。

それでいて、複数の訓練データから一部がランダムに選択されるときは一部が重複するように制御され、訓練データから記述子がランダムに抽出されるときは重複がないように制御される。従って、データ選択と記述子抽出とを的確に実行して重み付き能動学習法の効率を向上させることができる。

特に、記述子抽出部１３０は、乱数に対応して訓練データから記述子を選択するので、簡単な構成でランダムに記述子を抽出することができる。一方、データサンプリング部１２０は、乱数に対応して多数の訓練データから少数を選択してから、その訓練データを結果に対応して重複させる。このため、適切に重み付けされた訓練データを簡単に生成することができる。

なお、本発明者は実際に上述のような学習処理装置１００を試作し、重みつきの能動学習を実行する従来装置と比較する実験を実行した。この従来装置の構造は、学習処理装置１００から記述子抽出部１３０を排除した構造に相当する(図示せず)。

すると、図５に示すように、本実施の形態の学習処理装置１００は、従来装置より少数の訓練データで良好に学習することが確認された。図示するグラフでは、横軸は訓練データに含まれるデータ数、縦軸は訓練データの中に含まれる正例数を示している。

このグラフでは、訓練データの中に含まれるデータ数が多ければ多いほど性能としては優れているということになり、グラフとしては急速に立ち上がるほど性能としては優れているということを示している。点線が従来装置の分類精度、三本の実線が学習処理装置１００の分類精度を示している。

実線における三本の線(１)〜(３)は、記述子抽出部１３０により抽出する記述子の個数を変化させたものに対応している。(１)では訓練データから０．６倍(六割)の記述子を抽出し、(２)では０．８倍を抽出し、(３)では０．０５〜１に変動する倍率で抽出している。

この実験においては、同数の訓練データに対して結果が正解となる確率は、上記指標が0.6の場合(１)、０．０５〜１にばらつかせた場合(３)、0.8の場合(２)、従来装置、の順番になっている。

この実験からわかるように、本実施の形態の学習処理装置１００は、従来装置に比較して、いずれの場合でも同数の訓練データに対して多くの正例が含まれている。その理由は、集団学習の分類精度が高まっていること、および、各学習アルゴリズムにおいて作成される記述子と値との対応が、本装置によって複数の組み合わせで作成されることで、より細かな分類ができるようになり、重みつきの能動学習法が出力するデータがより学習の効果を高めるためのデータとして出力されることである。

なお、本発明は本実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で各種の変形を許容する。例えば、上記形態ではｍ個のデータサンプリング部１２０とｍ個の記述子抽出部１３０とｍ個の学習アルゴリズム部１４０とが並列に形成されていることを例示した。

しかし、前述のように学習処理装置１００は、コンピュータプログラムによりコンピュータ装置に論理的に実現されるため、上述のような各部は物理的に並列に形成されている必要はない。

例えば、一個のデータサンプリング部１２０や一個の記述子抽出部１３０や一個の学習アルゴリズム部１４０をｍ回ずつ動作させ、その動作ごとに各々の出力を保存して適切に利用することでも、学習処理装置１００を論理的に実現することができる。

また、上記形態では訓練データを学習アルゴリズム部１４０に供給するとき、データサンプリング部１２０で訓練データをサンプリングしてから記述子抽出部１３０で記述子を抽出することを例示した。

しかし、図６に示すように、記述子抽出部１３０で記述子を抽出してからデータサンプリング部１２０で訓練データをサンプリングしてもよい。ただし、この場合は予測データもサンプリングされることになる。

そこで、これが問題となる場合には、訓練データと予測データとを区別し、訓練データは記述子抽出部１３０で記述子を抽出してからデータサンプリング部１２０でサンプリングし、予測データは記述子抽出部１３０で記述子を抽出してからデータサンプリング部１２０をパスさせて学習アルゴリズム部１４０に供給すればよい(図示せず)。

さらに、本実施の形態では学習処理装置１００の外部がコンピュータプログラムにより各種機能として論理的に実現されることを例示した。しかし、このような各部の各々を固有のハードウェアとして形成することもでき、ソフトウェアとハードウェアとの組み合わせとして実現することもできる。

本発明の実施の形態の学習処理装置の論理構造を示す模式的なブロック図である。データサンプリング部の論理構造を示す模式的なブロック図である。記述子抽出部の論理構造を示す模式的なブロック図である。学習処理装置によるデータ処理方法を示すフローチャートである。学習処理装置の実験結果を示す特性図である。一変形例の学習処理装置の論理構造を示す模式的なブロック図である。

符号の説明

１００学習処理装置
１１０訓練入力部
１２０データサンプリング部
１２１選択乱数部
１２２データ選択部
１２３データ重複部
１３０記述子抽出部
１３１抽出乱数部
１３２データ抽出部
１４０学習アルゴリズム部
１５０予測入力部
１６０結果統合部
１７０結果出力部

Claims

複数の学習アルゴリズム部により重み付き能動学習を実行する学習処理装置であって、
一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される一個の訓練入力部と、
前記訓練入力部の出力が共通に入力されるｍ(ｍは二以上の自然数)個のデータサンプリング部と、
ｍ個の前記データサンプリング部の出力が並列に入力されるｍ個の記述子抽出部と、
ｍ個の前記記述子抽出部の出力が並列に入力されるｍ個の前記学習アルゴリズム部と、を有し、
前記データサンプリング部は、複数の前記訓練データから一部を重複させてランダムに選択し、
前記記述子抽出部は、重複しないランダムな順位の前記記述子を複数の前記訓練データから共通に抽出する学習処理装置。
複数の学習アルゴリズム部により重み付き能動学習を実行する学習処理装置であって、
一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される一個の訓練入力部と、
前記訓練入力部の出力が共通に入力されるｍ個の記述子抽出部と、
ｍ個の前記記述子抽出部の出力が並列に入力されるデータサンプリング部と、
ｍ個の前記データサンプリング部の出力が並列に入力されるｍ個の前記学習アルゴリズム部と、を有し、
前記データサンプリング部は、複数の前記訓練データから一部を重複させてランダムに選択し、
前記記述子抽出部は、重複しないランダムな順位の前記記述子を複数の前記訓練データから共通に抽出する学習処理装置。
前記データサンプリング部は、数値が重複していない乱数を発生させる選択乱数部と、前記選択乱数部で発生された前記乱数に対応して前記訓練データを選択するデータ選択部と、選択された前記訓練データを前記結果に対応して重複させるデータ重複部と、を有し、
前記記述子抽出部は、数値が重複していない乱数を発生させる抽出乱数部と、前記抽出乱数部で発生された前記乱数に対応した順位の前記記述子を複数の前記訓練データから共通に抽出するデータ抽出部と、
を有する請求項１または２に記載の学習処理装置。
前記訓練データと同数の一連の記述子からなる予測データが入力される予測入力部と、
ｍ個の前記学習アルゴリズム部の出力を一つに統合する一個の結果統合部とを、さらに有し、
前記記述子抽出部は、前記訓練データと同一の順位の前記記述子を前記予測データから抽出し、
前記学習アルゴリズム部は、入力される前記訓練データから結果を予測する請求項１ないし３の何れか一項に記載の学習処理装置。
請求項１に記載の学習処理装置によるデータ処理方法であって、
一連の記述子と一つの結果とで各々形成されている複数の訓練データを前記訓練入力部に入力させ、
前記訓練入力部の出力が共通に入力されるｍ個の前記データサンプリング部の各々で、複数の前記訓練データから一部を重複させてランダムに選択し、
ｍ個の前記データサンプリング部の出力が並列に入力されるｍ個の前記記述子抽出部の各々で、重複しないランダムな順位の前記記述子を複数の前記訓練データから共通に抽出し、
ｍ個の前記記述子抽出部の出力をｍ個の前記学習アルゴリズム部に個々に入力させて学習させるデータ処理方法。
請求項２に記載の学習処理装置によるデータ処理方法であって、
一連の記述子と一つの結果とで各々形成されている複数の訓練データを前記訓練入力部に入力させ、
前記訓練入力部の出力が共通に入力されるｍ個の前記記述子抽出部の各々で、重複しないランダムな順位の前記記述子を複数の前記訓練データから共通に抽出し、
ｍ個の前記記述子抽出部の出力が並列に入力されるデータサンプリング部の各々で、複数の前記訓練データから一部を重複させてランダムに選択し、
ｍ個の前記データサンプリング部の出力をｍ個の前記学習アルゴリズム部に個々に入力させて学習させるデータ処理方法。
請求項１に記載の学習処理装置のためのコンピュータプログラムであって、
一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される一個の訓練入力部と、
前記訓練入力部の出力が共通に入力されるｍ個のデータサンプリング部と、
ｍ個の前記データサンプリング部の出力が並列に入力されるｍ個の前記記述子抽出部と、
ｍ個の前記記述子抽出部の出力が並列に入力されるｍ個の前記学習アルゴリズム部と、を前記学習処理装置に論理的に実現し、
前記データサンプリング部に、複数の前記訓練データから一部を重複させてランダムに選択させ、
前記記述子抽出部に、重複しないランダムな順位の前記記述子を複数の前記訓練データから共通に抽出させる、コンピュータプログラム。
請求項２に記載の学習処理装置のためのコンピュータプログラムであって、
一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される一個の訓練入力部と、
前記訓練入力部の出力が共通に入力されるｍ個の前記記述子抽出部と、
ｍ個の前記記述子抽出部の出力が並列に入力されるデータサンプリング部と、
ｍ個の前記データサンプリング部の出力が並列に入力されるｍ個の前記学習アルゴリズム部と、を前記学習処理装置に論理的に実現し、
前記データサンプリング部に、複数の前記訓練データから一部を重複させてランダムに選択させ、
前記記述子抽出部に、重複しないランダムな順位の前記記述子を複数の前記訓練データから共通に抽出させる、コンピュータプログラム。