JP2008117343A - 学習処理装置 - Google Patents

学習処理装置 Download PDF

Info

Publication number
JP2008117343A
JP2008117343A JP2006302442A JP2006302442A JP2008117343A JP 2008117343 A JP2008117343 A JP 2008117343A JP 2006302442 A JP2006302442 A JP 2006302442A JP 2006302442 A JP2006302442 A JP 2006302442A JP 2008117343 A JP2008117343 A JP 2008117343A
Authority
JP
Japan
Prior art keywords
input
data
units
unit
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006302442A
Other languages
English (en)
Inventor
Tsutomu Osouda
勉 襲田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2006302442A priority Critical patent/JP2008117343A/ja
Publication of JP2008117343A publication Critical patent/JP2008117343A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】重み付き能動学習法の精度を向上させることができる構造の学習処理装置を提供する。
【解決手段】一連の記述子と一つの結果からなる複数の訓練データがm個のデータサンプリング部120に共通に入力され、m個の記述子抽出部130からm個の学習アルゴリズム部140に並列に伝送される。データサンプリング部120は、複数の訓練データから一部を重複させてランダムに選択し、記述子抽出部130は、重複しないランダムな順位の記述子を複数の訓練データから共通に抽出する。m個の学習アルゴリズム部140に入力される訓練データを、データ単位と記述子単位とでランダムとすることができる。それでいて、複数の訓練データから一部がランダムに選択されるときは一部が重複するように制御されるので、重み付き能動学習法の効率を向上させることができる。
【選択図】図1

Description

本発明は、複数の学習アルゴリズム部により能動学習を実行する学習処理装置に関し、特に、学習アルゴリズム部に入力させる複数の訓練データを偏重させることで重み付き能動学習を実行する学習処理装置に関する。
従来、複数の学習アルゴリズム部により能動学習を実行する学習処理装置がある。このような学習処理装置は、例えば、一個の訓練入力部と、一個の予測入力部と、m(mは二以上の自然数)個のデータサンプリング部と、m個の学習アルゴリズム部と、一個の結果統合部と、からなる。
一個の訓練入力部の出力がm個のデータサンプリング部に共通に入力される。m個のデータサンプリング部の出力がm個の学習アルゴリズム部に並列に入力される。m個の学習アルゴリズム部の出力が一個の結果統合部に入力される。なお、一個の予測入力部の出力もm個の学習アルゴリズム部に共通に入力される。
訓練入力部は、一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される。訓練データは、学習アルゴリズム部を学習させるためのもので、一連の記述子が問題、一つの結果が回答、に相当する。
予測入力部は、訓練データと同数の一連の記述子からなり、結果が付与されていない予測データが入力される。予測データは、回答に相当する結果を学習アルゴリズム部に予測させるための問題に相当する。
データサンプリング部は、多数の訓練データから少数をランダムに選択する。学習アルゴリズム部は、上述のように選択された訓練データが入力されると、その一連の記述子と結果により学習する。そして、予測データが入力されると、その一連の記述子から結果を導出する。
なお、m個のデータサンプリング部の選択結果は相互に相違する。従って、m個の学習アルゴリズム部には、相違する選択結果の訓練データが入力される。このため、m個の学習アルゴリズムは学習内容にバリエーションが発生する。従って、m個の学習アルゴリズム部は、同一の予測データに対して画一的でない結果を導出することができる。
そこで、結果統合部は、例えば、多数決などの手法で学習アルゴリズム部の出力を統合する。この場合、学習処理装置は、学習アルゴリズム部が一個の場合より高精度な結果を出力することができる。
さらに、上述のように学習アルゴリズム部に入力させる訓練データを能動的に選択することにより、予測データに対する結果の精度を向上させることもできる。なお、上述のような学習処理装置は、実際にはコンピュータプログラムによりコンピュータ装置に特定の機能を付与することで実現される。
現在、このような学習処理装置として各種の提案がある(例えば、特許文献1,2、非特許文献1参照)。
特開2005−107743号公報 WO 03/071480 A1 "記述子サンプリング法を用いた能動学習法に基づく創薬スクリーニング"藤原由希子、山下慶子、襲田勉、麻生川稔、朝尾正昭、島津秀史、中尾和也、福島千晶、清水良[2006年10月24日検索]インターネット<URL:http://www.slis.tsukuba.ac.jp/qsar32/abstructs/K04.pdf>
上述のような学習処理装置では、多数の訓練データをランダムに選択して複数の学習アルゴリズム部にバリエーションを発生させる。この集団学習および能動学習により、予測データから良好な精度で結果を導出できるようになる。
さらに、非特許文献1の学習処理装置では、学習アルゴリズム部に入力する訓練データの記述子も抽出することが開示されている。その場合、訓練データから抽出する記述子の順位は、m個の学習アルゴリズム部では相違させ、学習アルゴリズム部ごとには一致させておく。
そして、学習アルゴリズム部に予測データを入力させるときも、その学習アルゴリズム部に入力される訓練データと同一順位の記述子を抽出する。このような学習処理装置では、さらにm個の学習アルゴリズム部のランダム性が向上するので、結果の精度も良好となる。
しかし、非特許文献1には、如何にして訓練データおよび予測データから記述子を抽出するかが具体的には開示されていない。さらに、訓練データから記述子を抽出することを、如何にすれば重み付き能動学習法に適用できるかも開示されていない。
本発明は上述のような課題に鑑みてなされたものであり、重み付き能動学習法の精度を向上させることができる構造の学習処理装置、そのデータ処理方法およびコンピュータプログラム、を提供するものである。
本発明の一の学習処理装置は、複数の学習アルゴリズム部により重み付き能動学習を実行する学習処理装置であって、一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される一個の訓練入力部と、訓練入力部の出力が共通に入力されるm(mは二以上の自然数)個のデータサンプリング部と、m個のデータサンプリング部の出力が並列に入力されるm個の記述子抽出部と、m個の記述子抽出部の出力が並列に入力されるm個の学習アルゴリズム部と、を有し、データサンプリング部は、複数の訓練データから一部を重複させてランダムに選択し、記述子抽出部は、重複しないランダムな順位の記述子を複数の訓練データから共通に抽出する。
本発明の他の学習処理装置は、複数の学習アルゴリズム部により重み付き能動学習を実行する学習処理装置であって、一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される一個の訓練入力部と、訓練入力部の出力が共通に入力されるm個の記述子抽出部と、m個の記述子抽出部の出力が並列に入力されるデータサンプリング部と、m個のデータサンプリング部の出力が並列に入力されるm個の学習アルゴリズム部と、を有し、データサンプリング部は、複数の訓練データから一部を重複させてランダムに選択し、記述子抽出部は、重複しないランダムな順位の記述子を複数の訓練データから共通に抽出する。
従って、本発明の学習処理装置では、m個の学習アルゴリズム部に入力される訓練データを、データ単位と記述子単位とでランダムとすることができる。それでいて、複数の訓練データから一部がランダムに選択されるときは一部が重複するように制御され、訓練データから記述子がランダムに抽出されるときは重複がないように制御される。
本発明の一のデータ処理方法は、本発明の学習処理装置によるデータ処理方法であって、一連の記述子と一つの結果とで各々形成されている複数の訓練データを訓練入力部に入力させ、訓練入力部の出力が共通に入力されるm個のデータサンプリング部の各々で、複数の訓練データから一部を重複させてランダムに選択し、m個のデータサンプリング部の出力が並列に入力されるm個の記述子抽出部の各々で、重複しないランダムな順位の記述子を複数の訓練データから共通に抽出し、m個の記述子抽出部の出力をm個の学習アルゴリズム部に個々に入力させて学習させる。
本発明の他のデータ処理方法は、本発明の学習処理装置によるデータ処理方法であって、一連の記述子と一つの結果とで各々形成されている複数の訓練データを訓練入力部に入力させ、訓練入力部の出力が共通に入力されるm個の記述子抽出部の各々で、重複しないランダムな順位の記述子を複数の訓練データから共通に抽出し、m個の記述子抽出部の出力が並列に入力されるデータサンプリング部の各々で、複数の訓練データから一部を重複させてランダムに選択し、m個のデータサンプリング部の出力をm個の学習アルゴリズム部に個々に入力させて学習させる。
本発明の一のコンピュータプログラムは、本発明の学習処理装置のためのコンピュータプログラムであって、一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される一個の訓練入力部と、訓練入力部の出力が共通に入力されるm(mは二以上の自然数)個のデータサンプリング部と、m個のデータサンプリング部の出力が並列に入力されるm個の記述子抽出部と、m個の記述子抽出部の出力が並列に入力されるm個の学習アルゴリズム部と、を学習処理装置に論理的に実現し、データサンプリング部に、複数の訓練データから一部を重複させてランダムに選択させ、記述子抽出部に、重複しないランダムな順位の記述子を複数の訓練データから共通に抽出させる。
本発明の他のコンピュータプログラムは、本発明の学習処理装置のためのコンピュータプログラムであって、一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される一個の訓練入力部と、訓練入力部の出力が共通に入力されるm個の記述子抽出部と、m個の記述子抽出部の出力が並列に入力されるデータサンプリング部と、m個のデータサンプリング部の出力が並列に入力されるm個の学習アルゴリズム部と、を学習処理装置に論理的に実現し、データサンプリング部に、複数の訓練データから一部を重複させてランダムに選択させ、記述子抽出部に、重複しないランダムな順位の記述子を複数の訓練データから共通に抽出させる。
なお、本発明の各種の構成要素は、その機能を実現するように形成されていればよく、例えば、所定の機能を発揮する専用のハードウェア、所定の機能がコンピュータプログラムにより付与されたコンピュータ装置、コンピュータプログラムによりコンピュータ装置に実現された所定の機能、これらの任意の組み合わせ、等として実現することができる。
また、本発明の各種の構成要素は、個々に独立した存在である必要もなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でよい。
また、本発明で云う学習処理装置は、コンピュータプログラムを読み取って対応するデータ処理を実行できるように、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、I/F(Interface)ユニット、等の汎用デバイスで構築されたハードウェア、所定のデータ処理を実行するように構築された専用の論理回路、これらの組み合わせ、等として実施することができる。
また、本発明でコンピュータプログラムに対応した各種動作を学習処理装置に実行させることは、各種デバイスを学習処理装置に動作制御させることなども意味している。例えば、学習処理装置が訓練データを入力することは、学習処理装置にLAN(Local Area Network)等で外部から訓練データが送信されること、学習処理装置が装填されたFD(Flexible Disc-cartridge)等の情報記憶媒体からFDD(FD Drive)等により訓練データを読み出すこと、等でよい。
本発明の学習処理装置では、m個の学習アルゴリズム部に入力される訓練データを、データ単位と記述子単位とでランダムとすることができる。それでいて、複数の訓練データから一部がランダムに選択されるときは一部が重複するように制御され、訓練データから記述子がランダムに抽出されるときは重複がないように制御される。従って、データ選択と記述子抽出とを的確に実行して重み付き能動学習法の効率を向上させることができる。
本発明の実施の一形態を図面を参照して以下に説明する。本実施の形態の学習処理装置100は、いわゆるコンピュータ装置からなり、CPU等からなるコンピュータユニット、HDD等の記憶デバイス、LCD(Liquid Crystal Display)等からなるディスプレイデバイス、キーボードやマウス等の入力デバイス、等をハードウェアとして有する(図示せず)。
コンピュータユニットにはコンピュータプログラムが実装されており、そのコンピュータプログラムに対応して各種のデータ処理が実行されるとともに各部が統合制御される。
そして、学習処理装置100は、複数の学習アルゴリズム部140により重み付き能動学習を実行するため、所定のコンピュータプログラムによる各種機能として以下の各部110〜が論理的に実現されている。
このため、学習処理装置100は、一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される一個の訓練入力部110と、訓練入力部110の出力が共通に入力されるm個のデータサンプリング部120と、m個のデータサンプリング部120の出力が並列に入力されるm個の記述子抽出部130と、m個の記述子抽出部130の出力が並列に入力されるm個の学習アルゴリズム部140と、を有する。
データサンプリング部120は、複数の訓練データから一部を重複させてランダムに選択し、記述子抽出部130は、重複しないランダムな順位の記述子を複数の訓練データから共通に抽出する。
より詳細には、図2に示すように、データサンプリング部120は、数値が重複していない乱数を発生させる選択乱数部121と、選択乱数部121で発生された乱数に対応して訓練データを選択するデータ選択部122と、選択された訓練データを結果に対応して重複させるデータ重複部123と、を有する。
記述子抽出部130は、図3に示すように、数値が重複していない乱数を発生させる抽出乱数部131と、抽出乱数部131で発生された乱数に対応した順位の記述子を複数の訓練データから共通に抽出するデータ抽出部132と、を有する。
さらに、学習処理装置100は、訓練データと同数の一連の記述子からなる予測データが入力される予測入力部150も有する。このように入力される予測データは、データサンプリング部120には入力されることなく記述子抽出部130から学習アルゴリズム部140に入力される。
このとき、記述子抽出部130は、訓練データと同一の順位の記述子を予測データから抽出する。学習アルゴリズム部140は、入力される訓練データから結果を予測する。
そこで、学習処理装置100は、上述のようにm個の学習アルゴリズム部140が出力する結果を一つに統合する一個の結果統合部160も有する。また、統合された結果を出力する結果出力部170も有する。
前述のように、学習処理装置100の各部110〜はコンピュータプログラムに対応した各種機能に相当する。例えば、訓練入力部110、予測入力部150は、コンピュータプログラムに対応してコンピュータユニットが入力デバイスの入力データを認識する機能などに相当する。
また、データサンプリング部120、記述子抽出部130、学習アルゴリズム部140、結果統合部160は、コンピュータユニットがコンピュータプログラムに対応して各種のデータ処理を実行する機能などに相当する。結果出力部170は、コンピュータユニットがコンピュータプログラムに対応して各種データをディスプレイデバイスに表示出力させる機能などに相当する。
上述のようなコンピュータプログラムは、例えば、一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される一個の訓練入力部110と、訓練入力部110の出力が共通に入力されるm個のデータサンプリング部120と、m個のデータサンプリング部120の出力が並列に入力されるm個の記述子抽出部130と、m個の記述子抽出部130の出力が並列に入力されるm個の学習アルゴリズム部140と、訓練データと同数の一連の記述子からなる予測データが入力される予測入力部150と、m個の学習アルゴリズム部140が出力する結果を一つに統合する一個の結果統合部160と、統合された結果を出力する結果出力部170と、を学習処理装置100に論理的に実現し、データサンプリング部120に、複数の訓練データから一部を重複させてランダムに選択させ、記述子抽出部130に、重複しないランダムな順位の記述子を複数の訓練データから共通に抽出させ、さらに、記述子抽出部130に、訓練データと同一の順位の記述子を予測データから抽出させ、学習アルゴリズム部140に、入力される訓練データから結果を予測させる、等の処理動作をコンピュータユニット等に実行させるためのソフトウェアとして記述されている。
上述のような構成において、本実施の形態の学習処理装置100によるデータ処理方法を以下に説明する。学習処理装置100は、訓練データが入力されることにより、重み付き能動学習を実行することができる。そして、このように重み付き能動学習で訓練されると、入力される予測データに対して結果を出力することができる。
そこで、図4に示すように、学習処理装置100が重み付き能動学習を実行するときは、例えば、学習実行を所定のコマンド入力などで指定してから(ステップS1)、複数の訓練データを学習処理装置100に入力する(ステップS2)。
図2に示すように、訓練データは前述のように一連の記述子と一つの結果とで各々形成されており、例えば、以下のように設定されている。
1,0,2,3,a,….1
2,3,4,1,b,….0
2,2,1,2,a,….0
上述の訓練データでは、カンマで区分されている一桁の数値が個々に記述子であり、最後の一桁の数値が二値の結果である。このような訓練データは、例えば、有効性を実験した薬品ごとに生成されている。その場合、一連の記述子により薬品の組成が表現されており、その薬品の有効性の有無が結果の二値で表現されている。
そこで、上述のような複数の訓練データが、図1に示すように、m個のデータサンプリング部120に共通に入力される。すると、データサンプリング部120では、図2に示すように、数値が重複していない乱数が発生され、その乱数に対応して訓練データが選択される。
例えば、数値が重複していない乱数として「1,3,5,…」が発生された場合、以下のように前述の複数の訓練データから第一番目と第三番目と…が選択される。
1,0,2,3,a,….1
2,2,1,2,a,….0
さらに、このように選択された訓練データが結果に対応して重複される。この場合、二値の結果「1」は有効、「0」は無効を意味している。このため、以下のように、結果が「1」の訓練データは二倍に重複されることで重み付けがされる。
1,0,2,3,a,….1
1,0,2,3,a,….1
2,2,1,2,a,….0
上述のような訓練データの選択はm個のデータサンプリング部120で個々に実行されるが、その各々で発生する乱数が相互に相違する。このため、m個のデータサンプリング部120の選択結果は相互に相違する。
上述のようにm個のデータサンプリング部120で選択された訓練データは(ステップS3)、m個の記述子抽出部130に並列に入力される。すると、記述子抽出部130では、図3に示すように、数値が重複していない乱数が発生され、その乱数に対応した順位の記述子が複数の訓練データから共通に抽出される。
例えば、数値が重複していない乱数として「1,3,5,…」が発生された場合、前述のようにデータサンプリング部120で選択された訓練データの各々から、以下のように第一番目と第三番目と第五番目と…の記述子が抽出される。
1, 2, a,….1
1, 2, a,….1
2, 1, a,….0
上述のような記述子の抽出もm個の記述子抽出部130で個々に実行されるが、その各々で発生する乱数が相互に相違する。このため、m個の記述子抽出部130の抽出結果も相互に相違する。
上述のように一部が重複するように選択されて記述子が重複しないように抽出された訓練データが(ステップS4)、m個の学習アルゴリズム部140に並列に入力される。そこで、これらの学習アルゴリズム部140は、入力される訓練データで個々に学習する(ステップS5)。
このとき、上述のようにm個の学習アルゴリズム部140への入力データが相互に相違するので、m個の学習アルゴリズム部140は、いわゆる集団学習を実行する。特に、上述のように訓練データは結果に対応して重複するように選択されているので、学習アルゴリズム部140は、いわゆる重み付き能動学習を実行する。
そして、上述のように学習させた学習処理装置100で予測データから結果を出力させたいときは、例えば、予測実行を所定のコマンド入力などで指定してから(ステップS6)、予測データを学習処理装置100に入力する(ステップS7)。
この予測データは、訓練データと同数の一連の記述子からなるが、結果は設定されていない。このような予測データは、有効性が不明な薬品に対応しており、訓練データと同様に、一連の記述子により薬品の組成が表現されている。
予測データは一つでも複数でも良く、例えば、以下のように設定されている。
4,3,0,0,1,….
1,c,2,1,4,….
上述のような予測データがm個の記述子抽出部130に共通に入力される。すると、記述子抽出部130では、訓練データのときと同一の乱数が発生され、その乱数に対応した順位の記述子が予測データから抽出される(ステップS8)。
例えば、前述のように数値が重複していない乱数として「1,3,5,…」が発生された場合、予測データから以下のように第一番目と第三番目と第五番目と…の記述子が抽出される。
4, 0, 1,….
1, 2, 4,….
上述のように記述子が選択された予測データがm個の学習アルゴリズム部140に並列に入力される。これらm個の学習アルゴリズム部140は、訓練データでの学習結果に対応して予測データから結果を各々出力する(ステップS9)。
このとき、m個の学習アルゴリズム部140は、その各々で訓練データと同一番目の記述子が抽出されている予測データから結果を予測するので、的確に結果を予測することができる。
それでいて、m個の学習アルゴリズム部140は、前述のように学習内容に個性があるので、予測データが同一でも結果にはバリエーションが発生する。このようにm個の学習アルゴリズム部140で予測された結果が結果統合部160で統合されることにより、良好な確度の結果が結果出力部170から出力される。
本実施の形態の学習処理装置100では、上述のように訓練データにより重み付き能動学習を実行し、予測データから結果を予測することができる。特に、訓練データで学習を実行するとき、m個の学習アルゴリズム部140に入力される訓練データを、データ単位と記述子単位とでランダムとすることができる。このため、m個の学習アルゴリズム部140に入力される訓練データのランダム性を向上させることができ、学習効果を改善することができる。
それでいて、複数の訓練データから一部がランダムに選択されるときは一部が重複するように制御され、訓練データから記述子がランダムに抽出されるときは重複がないように制御される。従って、データ選択と記述子抽出とを的確に実行して重み付き能動学習法の効率を向上させることができる。
特に、記述子抽出部130は、乱数に対応して訓練データから記述子を選択するので、簡単な構成でランダムに記述子を抽出することができる。一方、データサンプリング部120は、乱数に対応して多数の訓練データから少数を選択してから、その訓練データを結果に対応して重複させる。このため、適切に重み付けされた訓練データを簡単に生成することができる。
なお、本発明者は実際に上述のような学習処理装置100を試作し、重みつきの能動学習を実行する従来装置と比較する実験を実行した。この従来装置の構造は、学習処理装置100から記述子抽出部130を排除した構造に相当する(図示せず)。
すると、図5に示すように、本実施の形態の学習処理装置100は、従来装置より少数の訓練データで良好に学習することが確認された。図示するグラフでは、横軸は訓練データに含まれるデータ数、縦軸は訓練データの中に含まれる正例数を示している。
このグラフでは、訓練データの中に含まれるデータ数が多ければ多いほど性能としては優れているということになり、グラフとしては急速に立ち上がるほど性能としては優れているということを示している。点線が従来装置の分類精度、三本の実線が学習処理装置100の分類精度を示している。
実線における三本の線(1)〜(3)は、記述子抽出部130により抽出する記述子の個数を変化させたものに対応している。(1)では訓練データから0.6倍(六割)の記述子を抽出し、(2)では0.8倍を抽出し、(3)では0.05〜1に変動する倍率で抽出している。
この実験においては、同数の訓練データに対して結果が正解となる確率は、上記指標が0.6の場合(1)、0.05〜1にばらつかせた場合(3)、0.8の場合(2)、従来装置、の順番になっている。
この実験からわかるように、本実施の形態の学習処理装置100は、従来装置に比較して、いずれの場合でも同数の訓練データに対して多くの正例が含まれている。その理由は、集団学習の分類精度が高まっていること、および、各学習アルゴリズムにおいて作成される記述子と値との対応が、本装置によって複数の組み合わせで作成されることで、より細かな分類ができるようになり、重みつきの能動学習法が出力するデータがより学習の効果を高めるためのデータとして出力されることである。
なお、本発明は本実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で各種の変形を許容する。例えば、上記形態ではm個のデータサンプリング部120とm個の記述子抽出部130とm個の学習アルゴリズム部140とが並列に形成されていることを例示した。
しかし、前述のように学習処理装置100は、コンピュータプログラムによりコンピュータ装置に論理的に実現されるため、上述のような各部は物理的に並列に形成されている必要はない。
例えば、一個のデータサンプリング部120や一個の記述子抽出部130や一個の学習アルゴリズム部140をm回ずつ動作させ、その動作ごとに各々の出力を保存して適切に利用することでも、学習処理装置100を論理的に実現することができる。
また、上記形態では訓練データを学習アルゴリズム部140に供給するとき、データサンプリング部120で訓練データをサンプリングしてから記述子抽出部130で記述子を抽出することを例示した。
しかし、図6に示すように、記述子抽出部130で記述子を抽出してからデータサンプリング部120で訓練データをサンプリングしてもよい。ただし、この場合は予測データもサンプリングされることになる。
そこで、これが問題となる場合には、訓練データと予測データとを区別し、訓練データは記述子抽出部130で記述子を抽出してからデータサンプリング部120でサンプリングし、予測データは記述子抽出部130で記述子を抽出してからデータサンプリング部120をパスさせて学習アルゴリズム部140に供給すればよい(図示せず)。
さらに、本実施の形態では学習処理装置100の外部がコンピュータプログラムにより各種機能として論理的に実現されることを例示した。しかし、このような各部の各々を固有のハードウェアとして形成することもでき、ソフトウェアとハードウェアとの組み合わせとして実現することもできる。
本発明の実施の形態の学習処理装置の論理構造を示す模式的なブロック図である。 データサンプリング部の論理構造を示す模式的なブロック図である。 記述子抽出部の論理構造を示す模式的なブロック図である。 学習処理装置によるデータ処理方法を示すフローチャートである。 学習処理装置の実験結果を示す特性図である。 一変形例の学習処理装置の論理構造を示す模式的なブロック図である。
符号の説明
100 学習処理装置
110 訓練入力部
120 データサンプリング部
121 選択乱数部
122 データ選択部
123 データ重複部
130 記述子抽出部
131 抽出乱数部
132 データ抽出部
140 学習アルゴリズム部
150 予測入力部
160 結果統合部
170 結果出力部

Claims (8)

  1. 複数の学習アルゴリズム部により重み付き能動学習を実行する学習処理装置であって、
    一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される一個の訓練入力部と、
    前記訓練入力部の出力が共通に入力されるm(mは二以上の自然数)個のデータサンプリング部と、
    m個の前記データサンプリング部の出力が並列に入力されるm個の記述子抽出部と、
    m個の前記記述子抽出部の出力が並列に入力されるm個の前記学習アルゴリズム部と、を有し、
    前記データサンプリング部は、複数の前記訓練データから一部を重複させてランダムに選択し、
    前記記述子抽出部は、重複しないランダムな順位の前記記述子を複数の前記訓練データから共通に抽出する学習処理装置。
  2. 複数の学習アルゴリズム部により重み付き能動学習を実行する学習処理装置であって、
    一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される一個の訓練入力部と、
    前記訓練入力部の出力が共通に入力されるm個の記述子抽出部と、
    m個の前記記述子抽出部の出力が並列に入力されるデータサンプリング部と、
    m個の前記データサンプリング部の出力が並列に入力されるm個の前記学習アルゴリズム部と、を有し、
    前記データサンプリング部は、複数の前記訓練データから一部を重複させてランダムに選択し、
    前記記述子抽出部は、重複しないランダムな順位の前記記述子を複数の前記訓練データから共通に抽出する学習処理装置。
  3. 前記データサンプリング部は、数値が重複していない乱数を発生させる選択乱数部と、前記選択乱数部で発生された前記乱数に対応して前記訓練データを選択するデータ選択部と、選択された前記訓練データを前記結果に対応して重複させるデータ重複部と、を有し、
    前記記述子抽出部は、数値が重複していない乱数を発生させる抽出乱数部と、前記抽出乱数部で発生された前記乱数に対応した順位の前記記述子を複数の前記訓練データから共通に抽出するデータ抽出部と、
    を有する請求項1または2に記載の学習処理装置。
  4. 前記訓練データと同数の一連の記述子からなる予測データが入力される予測入力部と、
    m個の前記学習アルゴリズム部の出力を一つに統合する一個の結果統合部とを、さらに有し、
    前記記述子抽出部は、前記訓練データと同一の順位の前記記述子を前記予測データから抽出し、
    前記学習アルゴリズム部は、入力される前記訓練データから結果を予測する請求項1ないし3の何れか一項に記載の学習処理装置。
  5. 請求項1に記載の学習処理装置によるデータ処理方法であって、
    一連の記述子と一つの結果とで各々形成されている複数の訓練データを前記訓練入力部に入力させ、
    前記訓練入力部の出力が共通に入力されるm個の前記データサンプリング部の各々で、複数の前記訓練データから一部を重複させてランダムに選択し、
    m個の前記データサンプリング部の出力が並列に入力されるm個の前記記述子抽出部の各々で、重複しないランダムな順位の前記記述子を複数の前記訓練データから共通に抽出し、
    m個の前記記述子抽出部の出力をm個の前記学習アルゴリズム部に個々に入力させて学習させるデータ処理方法。
  6. 請求項2に記載の学習処理装置によるデータ処理方法であって、
    一連の記述子と一つの結果とで各々形成されている複数の訓練データを前記訓練入力部に入力させ、
    前記訓練入力部の出力が共通に入力されるm個の前記記述子抽出部の各々で、重複しないランダムな順位の前記記述子を複数の前記訓練データから共通に抽出し、
    m個の前記記述子抽出部の出力が並列に入力されるデータサンプリング部の各々で、複数の前記訓練データから一部を重複させてランダムに選択し、
    m個の前記データサンプリング部の出力をm個の前記学習アルゴリズム部に個々に入力させて学習させるデータ処理方法。
  7. 請求項1に記載の学習処理装置のためのコンピュータプログラムであって、
    一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される一個の訓練入力部と、
    前記訓練入力部の出力が共通に入力されるm個のデータサンプリング部と、
    m個の前記データサンプリング部の出力が並列に入力されるm個の前記記述子抽出部と、
    m個の前記記述子抽出部の出力が並列に入力されるm個の前記学習アルゴリズム部と、を前記学習処理装置に論理的に実現し、
    前記データサンプリング部に、複数の前記訓練データから一部を重複させてランダムに選択させ、
    前記記述子抽出部に、重複しないランダムな順位の前記記述子を複数の前記訓練データから共通に抽出させる、コンピュータプログラム。
  8. 請求項2に記載の学習処理装置のためのコンピュータプログラムであって、
    一連の記述子と一つの結果とで各々形成されている複数の訓練データが入力される一個の訓練入力部と、
    前記訓練入力部の出力が共通に入力されるm個の前記記述子抽出部と、
    m個の前記記述子抽出部の出力が並列に入力されるデータサンプリング部と、
    m個の前記データサンプリング部の出力が並列に入力されるm個の前記学習アルゴリズム部と、を前記学習処理装置に論理的に実現し、
    前記データサンプリング部に、複数の前記訓練データから一部を重複させてランダムに選択させ、
    前記記述子抽出部に、重複しないランダムな順位の前記記述子を複数の前記訓練データから共通に抽出させる、コンピュータプログラム。
JP2006302442A 2006-11-08 2006-11-08 学習処理装置 Pending JP2008117343A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006302442A JP2008117343A (ja) 2006-11-08 2006-11-08 学習処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006302442A JP2008117343A (ja) 2006-11-08 2006-11-08 学習処理装置

Publications (1)

Publication Number Publication Date
JP2008117343A true JP2008117343A (ja) 2008-05-22

Family

ID=39503178

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006302442A Pending JP2008117343A (ja) 2006-11-08 2006-11-08 学習処理装置

Country Status (1)

Country Link
JP (1) JP2008117343A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161172A (ja) * 1994-12-08 1996-06-21 Nippon Telegr & Teleph Corp <Ntt> 知識修正型学習システム
WO2003071480A1 (fr) * 2002-02-20 2003-08-28 Nec Corporation Systeme d'apprentissage actif, methode d'apprentissage actif mise en application dans ce systeme, programme associe et support d'enregistrement contenant ce programme
JP2005107743A (ja) * 2003-09-29 2005-04-21 Nec Corp 学習システム
WO2005048184A1 (ja) * 2003-11-17 2005-05-26 Nec Corporation 能動学習方法およびシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161172A (ja) * 1994-12-08 1996-06-21 Nippon Telegr & Teleph Corp <Ntt> 知識修正型学習システム
WO2003071480A1 (fr) * 2002-02-20 2003-08-28 Nec Corporation Systeme d'apprentissage actif, methode d'apprentissage actif mise en application dans ce systeme, programme associe et support d'enregistrement contenant ce programme
JP2005107743A (ja) * 2003-09-29 2005-04-21 Nec Corp 学習システム
WO2005048184A1 (ja) * 2003-11-17 2005-05-26 Nec Corporation 能動学習方法およびシステム

Similar Documents

Publication Publication Date Title
McLaughlin et al. Deep android malware detection
US7487131B2 (en) General Purpose set theoretic processor
TWI584198B (zh) 使用階層式結構分析資料
TWI602120B (zh) 在圖案識別處理系統中用於電力管理之方法及系統
Lee et al. AMP‐BERT: Prediction of antimicrobial peptide function based on a BERT model
Brunelli A synopsis of resampling techniques
Ibtehaz et al. Domain-PFP allows protein function prediction using function-aware domain embedding representations
Patel et al. Personality analysis using social media
JP2008117343A (ja) 学習処理装置
Mostafa et al. Sais: Self-adaptive identification of security bug reports
JP2007334719A (ja) 遺伝子発現解析の欠損値補完システム
Dittman et al. Is data sampling required when using random forest for classification on imbalanced bioinformatics data?
McDermott et al. Defining the players in higher-order networks: predictive modeling for reverse engineering functional influence networks
Amoia et al. Scalable wide and deep learning for computer assisted coding
Uban et al. Multi-aspect transfer learning for detecting low resource mental disorders on social media
Li et al. Automating document classification with distant supervision to increase the efficiency of systematic reviews: A case study on identifying studies with HIV impacts on female sex workers
Pingi et al. Joint representation learning with generative adversarial imputation network for improved classification of longitudinal data
US11829719B2 (en) Data processing device, data processing method, and data processing program
JP2013218381A (ja) ソフトウェア評価支援装置及びプログラム
JP2022548053A (ja) 解釈可能な再帰型マルチホップ質問回答のためのフォローアップ質問の生成
WO2023032100A1 (ja) 文書作成支援装置、文書作成支援方法、及びプログラム
Welekar et al. An enhanced approach to memetic algorithm used for character recognition
JP6167591B2 (ja) 単語表示制御装置、単語表示制御方法及び単語表示制御プログラム
Afonso et al. Development of a Smartphone Application and Chrome Extension to Detect Fake News in English and European Portuguese
Ibtehaz et al. Domain-PFP: Protein Function Prediction Using Function-Aware Domain Embedding Representations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120417

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120814