JPH08329031A

JPH08329031A - 仮説生成装置及び仮説生成方法並びに分類装置

Info

Publication number: JPH08329031A
Application number: JP2112296A
Authority: JP
Inventors: Yoav Freund; フレウンドヨーブ; Robert Elias Schapire; エリアスシャピアロバート
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1995-02-09
Filing date: 1996-02-07
Publication date: 1996-12-13
Also published as: CA2167748A1; EP0726531A1; US5819247A

Abstract

(57)【要約】【課題】ＯＣＲなどのパターン分類デバイス、他のイメ
ージ分析システム、及びテキスト回復システムなどの分
類器に用いられる仮説を学習する機械に係る装置及び方
法を提供する。【解決手段】本発明に係る装置及び方法は、認識され
るべきパターン例の組から弱い仮説を生成する機械学習
技法を用い、その後、得られた仮説をパターン例に関し
て評価する。評価の結果は、次の弱い仮説を生成するた
めに用いられる例がそれ以前の弱い仮説が正確に分類し
なかった例である確率を増大させるために用いられる。
さらに、評価の結果は、各々の弱い仮説に対して重みを
与えるために用いられる。その後、強い仮説が、弱い仮
説をそれぞれの重みに従って組み合わせることによって
構成される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は学習機械技法に関
し、特に分類器（クラシファイア）として用いられる強
い仮説を設定する弱ＰＡＣ学習アルゴリズムを用いる技
法を増強する方法に関する。

【０００２】

【従来の技術】従来、データを分類する、すなわちデー
タに対してそのデータが属するクラスを表わすラベルを
割り当てるように設計されたシステムに対して多くの時
間と努力が払われている。この種のシステムの一例は光
文字認識（ＯＣＲ）システムであり、このシステムにお
いては文書のビットマップイメージを取り込んで、その
イメージに含まれるテキストに対応するキャラクタコー
ドシーケンスを含むテキストファイルを生成する。

【０００３】図１はＯＣＲ１０１を示している。ＯＣＲ
１０１は、テキスト及び画像などのテキスト以外の材料
を含む文書のビットマップイメージ１０３を取り込む。
イメージ１０３はセグメンタ１０５に渡される。セグメ
ンタ１０５は、前記イメージをテキストを含む部分と含
まない部分とに分割し、テキストを構成している個々の
キャラクタのビットマップイメージ１０７を抽出する。
その後、イメージ１０７は、各々のイメージ１０７が表
現している英数字を決定して対応するキャラクタコード
１１３をテキストファイルに対して出力するクラシファ
イア１０９に渡される。キャラクタコード１１３のイメ
ージに対する実際の割り当ては仮説１１１によって実行
される。この仮説１１１は、イメージが与えられるとど
のキャラクタコードがそのイメージに対して割り当てら
れるべきであるかを決定する。ある種のものは、どのキ
ャラクタコードが、イメージに対して対応しているかを
決定するように特別に適応させられたデータであり、例
えばイメージ１０７がどの英数字キャラクタを表現して
いるかを決定する能力に関して選択されたビットマップ
の組であ、る。分類されつつあるビットマップイメージ
１０７が仮説におけるビットマップに一致していると判
断される様式は、どのキャラクタコードがそのビットイ
メージに対して割り当てられるかを決定する。別の種類
のものは、どのキャラクタコードがイメージに対応して
いるかを決定するようにトレーニングされた単一あるい
は複数個のニューラルネットワークである。

【０００４】近年では、クラシファイアにおいて用いら
れる仮説を生成するために、機械学習技法が用いられて
きている。この種の技法を用いたシステムの例が図１の
１１５において示されている。仮説を生成するために用
いられるデータはトレーニングデータ１１７である。ト
レーニングデータの各々のアイテム１１９は、分類され
るべきデータ例とその例に対する適切なラベルから構成
されている。よって、ＯＣＲにおける仮説の場合には、
トレーニングデータ１１９は、英数字キャラクタのイメ
ージ１２１とそれに対応するキャラクタコード１２３と
を含んでいる。トレーニングデータは学習装置１２５に
対して供給され、学習装置１２５はラベルを付されたデ
ータから仮説１１１を導出する。

【０００５】仮説を生成するために用いられてきている
機械学習技法の一つにＰＡＣ学習モデルと名付けられた
ものがある。ＰＡＣ学習モデルは以下のようにまとめる
ことができる：まず、Ｘをドメインと呼称される組とす
る。コンセプトは、ｃ：Ｘ→ ｛０，１｝なるブール
（Ｂｏｏｌｅａｎ）関数である。コンセプトクラスＣは
コンセプトの集合である。学習者は、（ｘ，ｃ（ｘ））
という形態を有するラベルが付された例を供給する”お
告げ”に対してアクセスすることが可能である。ここ
で、ｘはドメインＸに関するある程度固定された、しか
し未知であってかつ任意の分布Ｄに従ってランダムに選
択されており、ｃはＣに属しているターゲットコンセプ
トである。ある時間が経過した後、学習者は仮説ｈ：Ｘ
→ ［０，１］を出力しなければならない。仮説ｈの誤
差は、期待値

【数１】である。ここでｘはＤに従って選択されたものである。

【０００６】強ＰＡＣ学習アルゴリズムは、与えられた
ε，δ＞０及びランダムな例へのアクセスに関して、１
−δの確率で最大誤差εの仮説を生成するアルゴリズム
である。さらに、実行時間は１／ε及び１／δ及び他の
関連するパラメータ（つまり、受け取られた例の”大き
さ”及びターゲットコンセプトの”大きさ”あるいは”
複雑さ”）の多項式でなければならない。弱ＰＡＣ学習
アルゴリズムは同一の条件を満足するが、ε≧１／２−
γの場合のみである。ここでγ＞０は定数あるいは１／
ｐで減少する（ｐは関連するパラメータの多項式であ
る）。

【０００７】本発明の発明者の一人は、あらゆる弱学習
アルゴリズムが強学習アルゴリズムに実効的に変換され
る、すなわち”増強される”ことを示した。Robert E.
Schapire, "The strength of weak learnability"(Mach
ine Learning, 5(2): 197-227, 1990)を参照。その後、
もう一人の発明者が、Ｓｃｈａｐｉｒｅのアルゴリズム
よりもおそらくより効率的であると思われる”ブースト
・バイ・マジョリティ（ｂｏｏｓｔ−ｂｙ−ｍａｊｏｒ
ｉｔｙ）”アルゴリズムを提示した。Yoav Freund, "Da
ta Filtering and Distribution of Modeling Algorith
ms for MachineLearning", Ph.D thesis, University o
f California at Santa Crus, 1993、を参照。双方のア
ルゴリズムとも、与えられた弱学習アルゴリズム（ウィ
ークラーン）を複数回呼び出すことによって機能し、呼
び出す毎にドメインＸに関する相異なった分布を供給
し、最後に生成された仮説全てを単一の仮説にまとめあ
げる。直観的なアイデアは、ドメインＸに亘る分布を、
分布空間の”より固い”部分の確率が増大するように変
化させるものである。ニューラルネットワーク仮説を生
成する目的で従来技術に係るブースト技法が用いられて
きたことの一例は、Harris Drucker, et al., "Boostin
g Performance in Neural Networks", International J
ournal of Pattern Recognition and Artificial Intel
ligence, vol.7, no.4(1993), pp.705-719、に記載され
ている。

【０００８】

【発明が解決しようとする課題】ブースト・バイ・マジ
ョリティアルゴリズムの欠点は、弱学習アルゴリズムで
あるウィークラーンのバイアスγが予め既知であること
が要求される点である。実際にはワーストケースのバイ
アスが通常未知であるのみならず、ウィークラーンによ
って達成されうるバイアスがある分布から次の分布へと
大幅に変化する。残念ながら、ブースト・バイ・マジョ
リティアルゴリズムは、予想されるワーストケースバイ
アスである１／２−γよりもはるかに小さい誤差でウィ
ークラーンによって計算された仮説よりも有効ではあり
得ない。

【０００９】従って、ウィークラーンによって計算され
た”全ての”仮説の正確さに依存した強い仮説を生成
し、かつ、ニューラルネットワーク及び他の学習アルゴ
リズムによって生成された種々の実際の値を有する仮説
を容易に取り扱うことが可能な学習装置及び学習方法を
提供することが本発明の目的である。

【００１０】

【課題を解決するための手段】本発明は、ウィークラー
ンアルゴリズムによって生成された弱い仮説の評価値
を、弱い仮説に取り入れられるサンプルのバイアス選択
に関して、そのパターンサンプルの分類をその弱い仮説
が不得手とする場合にフィードバックすることによって
従来技術に係る欠点を克服する。別の側面においては、
本発明は、弱い仮説の評価値を、それが他の弱い仮説と
組み合わせられて強い仮説を作成する際にどれだけの重
みをそれぞれの弱い仮説に対して与えるべきかを表わす
係数を計算するためにも用いる。

【００１１】

【発明の実施の形態】以下、本発明の概要がまず記述さ
れ、次いで本発明の実施例を記述する。

【００１２】本発明の概要：図２及び図５図２は、本発明の望ましい実施例２０１の概要を示すブ
ロック図である。この実施例は、数字０−９のイメージ
を分類する強い仮説を生成するために用いられる。従来
技術と同様、トレーニングデータ１１７はデータアイテ
ム１１９を有しており、そのデータアイテムの各々は数
字のイメージ１２１とその数字に対応するキャラクタコ
ードであるラベル１２３とを有している。フィルタ２０
３は、データアイテム１１９のうちの、仮説を導くのに
特に有用なもののサブセット２０５を選択肢、これらの
データアイテムを学習装置１２５へ供給する。学習装置
１２５は、弱ＰＡＣ学習アルゴリズム用いて、フィルタ
２０３によって選択されたデータアイテムのサブセット
２０５に関する弱い仮説２０７を生成する。この望まし
い実施例においては、弱い仮説２０７はトレーニングデ
ータ１１７から得られたデータアイテム１１９の組であ
る。

【００１３】その後、弱い仮説２０７は、評価器（エバ
リュエータ）２０９において、評価データ２１１の組を
用いて評価される。この評価データ２１１も、数字０−
９のイメージ１２１とラベル１２３とを有するデータア
イテム１１９を含んでいる。弱い仮説２０７中のイメー
ジが正しいラベルの選択に関してより寄与しないほど、
エバリュエータによってその仮説に与えられる重みがよ
り大きくなる。フィードバック２１３によって示されて
いるように、エバリュエータ２０９は、考慮されている
最新の仮説２０７のコンポーネントに対する重みの総和
をフィルタ２０３に供給する。フィルタ２０３において
は、重みは、弱い仮説２０７がよく当てはまる例に関す
るサブセット２０５の選択に傾斜をつけるために用いら
れる。さらに、弱い仮説が全体としてよりよく機能すれ
ばするほど、強い仮説２１７に関してその仮説が有する
重要性がより大きくなり、それに対してエバリュエータ
２０９によって与えられる係数がより大きくなる。

【００１４】エバリュエータ２０９によって与えられる
係数２１５及び弱い仮説は仮説コンバイナ２１３’に供
給され、仮説２０７が、フィルタ２０３によって生成さ
れた他のサブセットに関する学習装置１２５の動作によ
って生成された他の仮説２０７と組み合わされて強い仮
説２１７が生成される。本発明の望ましい実施例におい
ては、強い仮説２１７は、トレーニングデータ１１７の
固定された個数のサブセット２０５から装置２０１によ
って生成された弱い仮説２０７の組であり、弱い仮説
は、その各々に対して、それらの係数２１５に対応す
る、強い仮説に関する重みを与えることによって単に組
み合わせられている。

【００１５】装置２０１において強い仮説を生成するた
めに用いられている技法は、図５に示されているように
形式的に記述されることが可能である。ここでは、アル
ゴリズム５０１を”エイダブースト（Ａｄａｂｏｏｓ
ｔ）”と呼称する。なぜなら、このアルゴリズムはウィ
ークラーンによって得られた弱い仮説の誤差を適応して
調節（ａｄａｐｔｉｖｅｌｙａｄｊｕｓｔ）するから
である。このアルゴリズムはＴ回反復されるメインルー
プを有している。このアルゴリズムにおいては、現時点
での重みベクトルｗ^tに従ってＸに亘る分布ｐ^tが各回毎
に規定される。その後、この分布がウィークラーンに供
給され、誤差ε_tを有する仮説ｈ_tが返される。ウィーク
ラーンが前述されたような意味での弱い学習アルゴリズ
ムである場合には、ε_t≦１／２−γが全てのｔに関し
て成り立つ。しかしながら、誤差に関するこのような制
限は予め知られている必要はなく、実際には本発明に係
る方法は（０，１／２］に属する全てのε_tに関して成
り立つ。

【００１６】パラメータβ_tはε_tの関数として選択され
ており、重みベクトルを更新するために用いられる。更
新のルールにより、仮説がより予測をなした例に対して
割り当てられた確率が低下し、予測がまずかった例に関
する確率が上昇する。さらに、ｈ_tが（｛０，１｝の範
囲の）ブール変数である場合には、この更新のルールに
より、最新の仮説の利点が正確に取り除かれるというこ
とが示され得る。すなわち、分布ｐ^t+1に関するｈ_tの誤
差は正確に１／２である。このアルゴリズムによって生
成された最終仮説は、ウィークラーンによって生成され
たＴ個の仮説の重み付けがなされた平均である。

【００１７】本発明の望ましい実施例のインプリメンテ
ーションの詳細：図３及び図４本発明の仮説の増強の有効性をテストする目的で、本発
明の実施例のプロトタイプがインプリメントされた。こ
のプロトタイプに係る以下の議論においては、最初にそ
の概要が示され、次いで、このプロトタイプにおいて用
いられているデータストラクチャ及びプロトタイプの動
作が詳細に記述される。

【００１８】本発明の実施例のプロトタイプは、公知の
ＵＮＩＸ（ＵＮＩＸはＸＯＰＥＮの商標である）オペ
レーティングシステムの制御下で動作するプロセッサ上
で公知のＣ言語を用いて書かれたプログラムを実行する
ことによってインプリメントされる。

【００１９】このプロトタイプが強い仮説を生成するデ
ータは、数字０−９の画像である。強い仮説は、その予
測能力に従って重み付けがなされた弱い仮説の組から構
成されている。弱い仮説の各々は、それらがどのように
重み付けされるべきかを表わす係数及び数字０−９の画
像の組を有している。

【００２０】その概略において、このプロトタイププロ
グラムは以下のように機能する。まず、ファイルから数
字のイメージ及びそのイメージ中の数字に対するラベル
をプロセッサメモリに読み込むことによってトレーニン
グデータの組を生成する。その後、プロトタイププログ
ラムはメモリ中のデータ１１７を入れ替え、弱い仮説の
処理に関与するデータを追跡するデータストラクチャを
初期化する。

【００２１】次いで、プロトタイププログラムは弱い仮
説の生成を開始する。弱い仮説の各々は、一度に一つの
イメージを処理することによって生成される。現時点の
弱い仮説に対して追加されるべき候補であるイメージ
が、このプロトタイププログラムによって生成された以
前の弱い仮説によってトレーニングデータが分類された
場合に生ずる誤差を考慮するように、トレーニングデー
タから選択される。よって、選択された候補イメージ
は、最新の仮説が適切に分類しないようなイメージであ
る、という高い確率を有することになる。よって、プロ
トタイププログラムのうち、候補イメージの選択を行な
う部分はフィルタ２０３を実現したものであり、候補イ
メージの選択に誤差を用いることはフィードバック２１
３を実現している。

【００２２】その後、プログラムは、現時点で構成され
つつある弱い仮説に対して前記候補イメージが追加され
るべきであるか否かを決定する。このことを行なうため
に、プログラムは、その候補イメージを含めた場合の現
時点での弱い仮説が、その候補イメージを含めない場合
の現時点の仮説よりも、トレーニングデータ中のイメー
ジの分類に関してよりよい機能を有するか否かをテスト
する。よりよい機能を有する場合には、この候補イメー
ジは現時点の弱い仮説に対して追加され、この候補イメ
ージを含む現時点の弱い仮説に係る係数が、この新たな
現時点での仮説に係る誤差値から計算される。この手続
きは、現時点の弱い仮説がイメージの全コンポーネント
を有するようになるまで継続される。

【００２３】この実施例においては、トレーニングデー
タはトレーニングデータ１１７と評価データ２１１の双
方として機能する。別の実施例においては、トレーニン
グデータ１１７及び評価データ２１１に対して、ラベル
が付されたイメージの個別の組が用いられる場合もあ
る。エバリュエータ２０９は、現時点での弱い仮説をト
レーニングデータに対して評価し、フィードバック２１
３及び係数２１５に係る誤差を計算するプログラムの一
部によってインプリメントされている。

【００２４】このプログラムは、複数個の弱い仮説を単
に集めることによって強い仮説を構成する。イメージ
は、強い仮説に対して供給されると、弱い仮説の各々に
よって分類され、最終的な分類が、弱い仮説の各々によ
って生成された分類を組み合わせることによって決定さ
れる。ある弱い仮説によって生成された分類が前記組み
合わせにおいて有する重みは、その弱い仮説の有する係
数によって決定される。

【００２５】データストラクチャの詳細：図３及び図
４以下、本発明の望ましい実施例において用いられるデー
タストラクチャをより詳細に説明する。本発明の望まし
い実施例において、トレーニングデータ１１７と評価デ
ータ２１１の双方をインプリメントするために用いられ
ているデータストラクチャが図４に示されている。この
データストラクチャは１０００個の要素を有する配列で
ある。配列中の各々の要素は、ラベルデータ４１５及び
イメージデータ４１７を有している。イメージデータ４
１７は数字のピクセルイメージであり、ラベルデータ４
１５はそのピクセルデータがどの数字を表現しているの
かを表示する。強い仮説２１７及び弱い仮説２０７をイ
ンプリメントするために用いられるデータストラクチャ
が４０２に示されている。このデータストラクチャも、
弱い仮説２０７の各々に対する要素４０１を有する配列
である。本発明の望ましい実施例においては、強い仮説
の各々は１０個の弱い仮説から構成されている。弱い仮
説２０７に対する各々の要素４０１は、その弱い仮説中
におけるイメージ数を規定するサイズ４０３、要素４０
１に含まれる弱い仮説２０７の係数である係数４０５、
及び、仮説を構成しているラベル付きイメージを含む、
トレーニングデータ４１１中のトレーニングデータ要素
４１３へのポインタリスト４０９を有している。もちろ
ん、他の実施例において、ラベル付きイメージが直接仮
説に組み込まれることも可能であり、またポインタが仮
説において用いられるラベル付きイメージの個別の配列
を指し示すことも可能である。本発明の望ましい実施例
においては、弱い仮説２０７は最大４００個のラベル付
きイメージを含みうる。

【００２６】本発明の望ましい実施例において弱い仮説
を構成するために用いられているデータストラクチャは
以下のようなものである：まず、学習情報テーブル３０
２（図３）は、その弱い仮説をトレーニングデータ４１
１中のイメージに対してテストした際の結果を有してい
る。誤差情報３２１は、テストされた弱い仮説に対して
計算された誤差を有している。最後に、図４のｃｕｒｒ
ｅｎｔ＿ｓｔａｔｅ４３１及びｂｅｓｔ＿ｓｔａｔｅ４
３３は、候補イメージを有する現時点の弱い仮説をトレ
ーニングデータ４１１中のイメージに対してテストする
際に用いられる一時的な配列である。ｃｕｒｒｅｎｔ＿
ｓｔａｔｅは最後になされたテストの結果を保持してお
り、ｂｅｓｔ＿ｓｔａｔｅは現時点の弱い仮説に対して
これまでに得られた最良の結果を保持している。

【００２７】学習情報テーブル３０２は、弱い仮説２０
７の各々に対する仮説テスト情報３０３を含んでいる。
仮説テスト情報は２つの部分から構成されている。その
うちの一つは、フィードバック２１３を計算するために
用いられる情報を含む重み情報３０５であり、他の一つ
は、弱い仮説のトレーニングデータ４１１に対するテス
トの結果を含む評価情報３０７である。重み情報３０５
及び評価情報３０７は、双方とも、仮説がテストされる
トレーニングデータ４１１中の各々のイメージに対して
それぞれ一つの要素を有する配列としてインプリメント
されている。重み情報３０５の要素３０９は、イメージ
分類に係る仮説の成功の指標であるｗｔ３１１、及び、
現時点の要素に関する重み情報３０５の要素に係るｗｔ
３１１の総和であるｗｔｓｕｍ３１３を含んでいる。ｗ
ｔ３１１の値が大きければ大きいほど、トレーニングデ
ータ４１１中の対応するイメージに関するその仮説の分
類力が劣っていることになり、また、ｗｔｓｕｍ３１３
の値が大きければ大きいほど、テストされている仮説の
イメージの全てに対する分類力が劣っていることにな
る。

【００２８】評価情報３０７の要素３１５は、Ｍｉｎｄ
ｉｓｔ３１７及びｃｌａｂｅｌ３１９を含んでいる。Ｍ
ｉｎｄｉｓｔ３１７は、トレーニングデータ４１１中の
要素３１５に対応するイメージ４１７と評価情報３０７
が属している仮説テスト情報３０３に対応する仮説２０
７内のあらゆるイメージとの間のこれまでに記録された
最小距離であり、ｃｌａｂｅｌ３１９は仮説２０７内の
最小距離を有するイメージに対するラベルを保持してい
る。ｃｕｒｒ＿ｓｔａｔｅ４３１及びｂｅｓｔ＿ｓｔａ
ｔｅ４３３は、それぞれ、トレーニングデータ４１１内
の各々のイメージに対する評価情報エントリ３１５を保
持している。

【００２９】誤差情報３２１は、弱い仮説２０７の各々
に関するサンプル誤差要素３２３を有している。各々の
要素３２３は、弱い仮説中に存在する、要素３２３に対
応する各々のイメージのイメージ要素３２５を保持して
いる。イメージ要素３２５は、その対応するイメージに
関する５種類の誤差情報を有している：・ｗｅｉｇｈｔｅｄ４１９は、そのイメージに関する重
み付けがなされた誤差を保持している、・ｇｂｏｕｎｄ４２１は、トレーニング誤差に関する保
証範囲を保持している、・ａｅｒｒ４２３は、実際のトレーニング誤差を保持し
ている、・ｇｖａｌｅｒｒ４２５は、保証された相互確認誤差を
保持している、・ａｖａｌｅｒｒ４２７は、実際の相互確認誤差を保持
している。

【００３０】動作の詳細に係る記述本発明の望ましい実施例においては、各々の弱い仮説２
０７は、ウィークラーン（ＷｅａｋＬｅａｒｎ）と呼称
される手続きによって構成される。弱い仮説２０７
（０）を構成する際には、ウィークラーンは、評価情報
エントリ３１５（０）中の各々のＭｉｎｄｉｓｔ３１７
を大きな値に初期化する。ｉ番目の仮説を構成する際に
は、ウィークラーンは、弱い仮説２０７（ｉ−１）中の
Ｍｉｎｄｉｓｔ３１７及びｃｌａｂｅｌ３１９とから、
評価情報エントリ３１５（ｉ）中の各々のＭｉｎｄｉｓ
ｔ３１７を、以下に詳細に記述されている方式で初期化
する。

【００３１】その後、ウィークラーンは、仮説２０７
（ｉ）中のイメージの全数に達するまで、仮説２０７
（ｉ）に対してトレーニングデータエントリ４１３を追
加するループを実行する。仮説に対して追加された各々
のトレーニングデータエントリ４１３に関して、ウィー
クラーンは以下のことを実行する。

【００３２】まず、ウィークラーンは、構成中の弱い仮
説２０７（ｉ）に対して追加されるべき候補である次の
トレーニングデータエントリ４１３（ｊ）を選択する、
Ｆｉｌｔ＿ｅｘと呼称される関数を起動する。Ｆｉｌｔ
＿ｅｘは、その引数としてトレーニングデータサイズ４
１１及び追加さるべき最新の仮説に係る重み情報３０５
（ｉ−１）を取る。Ｆｉｌｔ＿ｅｘは、最新の仮説に係
る重みのトータル（ｗｔｓｕｍ３１３（ｉ，ｎ））を乱
数を計算するために利用し、この乱数は、次のトレーニ
ングデータエントリ４１３（ｊ）の指数ｊを見い出す目
的でのバイナリサーチの各々のステップの方向を決定す
るために利用される。本発明の望ましい実施例において
は、この計算は以下のように実行される： /*０から重みの総和までの範囲の乱数を発生*/ r=(0.0+random())/MAX_RANDOM*W[size-1].WtSum; index=size/2-1; step=size/4; /*以下のループは、最も近い、より小さい偶数の指数ま
での*/ /*バイナリサーチを実行する*/ while(step>0){ direction=(W[index].WtSum < r)?1:-1; index=index+step*direction; step=step/2; } この計算の効果は、候補であるトレーニングデータエン
トリ４１３（ｊ）が、最新の弱い仮説が劣った予測をな
したものであるという確率を増大させる。以上の記述か
ら明らかなように、Ｗ［ｉｎｄｅｘ］．ＷｔＳｕｍは本
発明の望ましい実施例におけるフィードバック２１３を
具体化したものであり、Ｆｉｌｔ＿ｅｘはフィルタ２０
３を具体化したものである。

【００３３】次に、ウィークラーンは、トレーニングデ
ータエントリ候補４１３（ｊ）が弱い仮説２０７（ｉ）
に追加され、弱い仮説２０７（ｉ）がトレーニングデー
タ４１１に対してテストされた場合の誤差を計算する。
計算の最初の部分は、テストを実行する関数Ｕｐｄａｔ
ｅ＿ＮＮによって実行される。この関数は、エントリ候
補４１３（ｊ）、弱い仮説２０７（ｉ）に関する仮説テ
スト情報３０３（ｉ）、及びテストの間の結果を追跡す
るために用いられるｃｕｒｒ＿ｓｔａｔｅ４３１をその
入力として必要とする。

【００３４】テストは、トレーニングデータエントリ４
１３（ｊ）中のイメージをトレーニングデータ４１１中
の各々のイメージと順次比較することによって実行され
る。比較の結果は、候補中のイメージとトレーニングデ
ータ４１１中のイメージとの間の”距離”として得られ
る。トレーニングデータ４１１中のイメージの各々に関
しては、仮説テスト情報３０３（ｉ）及びｃｕｒｒ＿ｓ
ｔａｔｅ４３１にエントリが存在する。比較の結果得ら
れた距離が、トレーニングデータ４１１中のイメージ４
１７（ｋ）に関する、仮説テスト情報３０３（ｉ）中の
Ｍｉｎｄｉｓｔ（ｉ，ｋ）より小さい場合には（すなわ
ち、トレーニングデータイメージに関する候補イメージ
のそれ以前の最良の比較の結果よりもよい場合には）、
ｃｕｒｒ＿ｓｔａｔｅ４３１（ｋ）中のｃぁべｌ３１９
が候補イメージのラベル４１５（ｊ）にセットされ、ｃ
ｕｒｒ＿ｓｔａｔｅ４３１（ｋ）中のＭｉｎｄｉｓｔ３
１７がその距離にセットされる。それ以外の場合には、
ｃｕｒｒ＿ｓｔａｔｅ４３１（ｋ）中のｃｌａｂｅｌ３
１９及びＭｉｎｄｉｓｔ３１７は、イメージ４１７
（ｋ）に関する仮説テスト情報３０３（ｉ）中の対応す
るフィールドからセットされる。

【００３５】前記手続きがトレーニングデータ４１１中
の全てのイメージに関して完了した後、ｃｕｒｒ＿ｓｔ
ａｔｅ４３１の各々のエントリ中のｃｌａｂｅｌ３１９
が、対応するトレーニングデータエントリ４１３のｌａ
ｂｅｌ４１５と比較される。これらの値が異なっている
場合には、仮説２０７（ｉ）に関する仮説テスト情報３
０３（ｉ）内のイメージに対応するエントリのｗｔ３１
１の値だけ、誤差値が増大させられる。その後、この誤
差値はＵｐｄａｔｅ＿ＮＮによって戻される。ウィーク
ラーンは、その戻された誤差値を直前の仮説２０７（ｉ
−１）に対する重みの総和で除算することによって、最
終誤差を計算する。

【００３６】候補４１３（ｊ）の誤差が求められると、
それはその時点までのあらゆる候補に係る最良誤差と比
較される。候補４１３（ｊ）の誤差がより小さい場合に
は、最良誤差はその候補の誤差にセットされ、その候補
は最良サンプル４１３となり、ｃｕｒｒ＿ｓｔａｔｅは
ｂｅｓｔ＿ｓｔａｔｅ４３３に対してコピーされ、そし
て候補４１３（ｊ）は仮説２０７（ｉ）に対して追加さ
れる。候補４１３（ｊ）の誤差が小さくない場合には、
最良誤差、最良サンプル４１３、及びｂｅｓｔ＿ｓｔａ
ｔｅ４３３は変更されず、最良サンプル４１３が仮説２
０７（ｉ）に対して追加される。

【００３７】以上のことがなされた後、仮説テスト情報
３０３（ｉ）及びサンプル誤差３２３（ｉ）が更新され
る。まず、ｂｅｓｔ＿ｓｔａｔｅ４３３がｅｖａｌ＿ｉ
ｎｆｏ３０７（ｉ）に対してコピーされる。その後、仮
説（ｉ）及び候補イメージ（ｊ）に対応するイメージ誤
差要素３２５（ｉ，ｊ）中のｗｅｉｇｈｔｅｄ４１９が
最良誤差に従ってセットされる。次いで、仮説テスト情
報３０３（ｉ）を更新する目的でＵｐｄａｔｅ＿ＮＮが
用いられる。現時点での最良サンプル４１３がトレーニ
ングデータ４１１中の各々のイメージ４１７（ｋ）と比
較され、その距離が計算される。計算された距離が、仮
説テスト情報３０３（ｉ）の評価情報３１５（ｉ，ｊ，
ｋ）中のＭｉｎｄｉｓｔ３１７より小さい場合には、Ｍ
ｉｎｄｉｓｔ３１７がその値にセットされ、評価情報３
１５（ｉ，ｊ，ｋ）中のｃｌａｂｅｌ３１９が現時点で
の最良サンプルのラベルにセットされる。それ以外の場
合には、評価情報３１５（ｉ，ｊ，ｋ）は変更されな
い。

【００３８】最後に、プロシージャＣａｌｃ＿ｅｒｒｏ
ｒｓが、現時点での最良サンプル４１３が追加された仮
説に対する弱い仮説エントリ４０１（ｉ）の係数４０５
を計算し、現時点での最良のサンプル４１３が追加され
た仮説２０７（ｉ）に対するイメージ誤差エントリ３２
５（ｉ，ｊ，ｋ）の値を計算する目的で起動される。こ
こで興味深いのは、係数４０５の計算である。係数４０
５は、イメージ誤差３２５（ｉ，ｊ，ｋ）中のｗｅｉｇ
ｈｔｅｄ４１９の現在の値から以下のようにして計算さ
れる：ｃｏｅｆｆ＝ｌｏｇ（（１．０−ｗｅｉｇｈｔｅ
ｄ）／ｗｅｉｇｈｔｅｄ）。よって、本発明の望ましい
実施例においては、Ｃａｌｃ＿ｅｒｒｏｒｓ及びＵｐｄ
ａｔｅ＿ＮＮが、共にエバリュエータ２０９の機能を実
行する。

【００３９】前述されているようにウィークラーンがト
レーニングデータ４１１から現時点での仮説２０７
（ｉ）へのイメージの追加を終了した後、次の弱い仮説
２０７（ｉ＋１）に関する仮説テスト情報３０３（ｉ＋
１）内の重み情報３０５（ｉ＋１）が初期化される。こ
のことは、トレーニングデータ４１１内の最終イメージ
４１７（ｎ）に対して仮説２０７（ｉ）に追加された最
終サンプル４１３（ｏ）に対応するイメージ誤差要素３
２５（ｉ，ｏ，ｎ）からｗｅｉｇｈｔｅｄ４１９を取得
し、（ｗｅｉｇｈｔｅｄ／（１−ｗｅｉｇｈｔｅｄ））
によって表わされるｂｅｔａを計算する目的でｗｅｉｇ
ｈｔｅｄ４１９を用いることによってなされる。その
後、評価情報３０７（ｉ）中の各々のｃｌａｂｅｌ３１
９が、対応するトレーニングデータエントリ４１３に関
するラベル４１５と比較される。それらが同一である場
合には、トレーニングデータエントリ４１３に対応する
ｗｔ３１１が、評価情報３０７（ｉ＋１）内の対応する
トレーニングデータエントリ４１３に関するｗｔ３１１
にコピーされる。それらが同一ではない場合には、評価
情報３０７（ｉ）内のｗｔ３１１に対してｂｅｔａの値
が乗算され、その結果が評価情報３０７（ｉ＋１）にコ
ピーされる。重み情報３０９の各々のｗｔ３１１が評価
情報３０７（ｉ＋１）においてセットされると、それら
の総和であるｗｔｓｕｍもセットされる。

【００４０】本発明の望ましい実施例においては、ウィ
ークラーンは、前述されているように、強い仮説２１７
中の弱い仮説２０７の各々に対して機能する。強い仮説
２１７が完成すると、それは数字０から９のイメージを
分類するために用いられる。

【００４１】当該発明のニューラルネットワークにおけ
る利用前掲のＤｒｕｃｋｅｒによる参照文献に記載されている
ように、仮説の増強は、ニューラルネットワークである
仮説を生成するためにも用いられ得る。さらに、本発明
に係るフィードバック技法ももちろん同様に利用され得
る。この種のシステムにおいては、学習装置によって生
成された弱い仮説２０７はニューラルネットワークであ
り、強い仮説２１７はそれらニューラルネットワークの
出力を組み合わせることによって生成される。本発明の
望ましい実施例と同様、学習装置１２５によって生成さ
れた最新の弱い仮説２０７はエバリュエータ２０９にお
いて評価データ２１１に対して評価され、そのテスト結
果のフィードバックが、トレーニングデータ１１７から
のトレーニングデータの選択に関して最新の弱い仮説が
分類することに失敗したデータに対するバイアスをかけ
る目的で、フィルタ２０３に供給される。その後、選択
されたトレーニングデータはニューラルネットワークに
よって構成されている次の弱い仮説をトレーニングする
ために用いられる。さらに、エバリュエータ２０９がニ
ューラルネットワークによって構成されている弱い仮説
を評価する際には、その弱い仮説に対して係数２１５を
供給し、ニューラルネットワークによって構成されてい
る弱い仮説が組み合わせられてニューラルネットワーク
による強い仮説が構成される場合には、その係数は、そ
の強い仮説の中でニューラルネットワークによって構成
されている弱い仮説の各々に対して与えられる重みを決
定する。

【００４２】本発明の応用本発明は、分類器に対する仮説１１１を生成する目的
で、複数の様式で利用され得る。例えば、図１に示され
ているようなＯＣＲの製造者は、そのＯＣＲ装置が通常
用いられる種類の文書例に関する強い仮説２１７をトレ
ーニングする目的で、本発明を用いることが可能であ
る。このような場合には、ＯＣＲ装置の製造者は、強い
仮説２１７をＯＣＲ装置内の読み出し専用メモリに配置
することができる。別のケースでは、本発明の実施例は
ＯＣＲ装置それ自体の一部であり、ＯＣＲ装置のユーザ
は、そのＯＣＲが通常用いられるのとは相異なった文字
を取り扱うために、そのＯＣＲ装置をトレーニングする
ことができる。この文字は一般に用いられているものと
わずかに異なるだけの場合もあるが、異なった言語に属
している場合もある。これまでの記述から明らかなよう
に、強い仮説２１７を生成するために必要とされるの
は、ラベル付きのサンプルイメージの組だけである。

【００４３】本明細書においては本発明の望ましい実施
例２０１が数字のイメージを分類するために用いられる
ように記述されているが、強い仮説２１７を生成するた
めに用いられた技法はパターン認識が利用されるあらゆ
る状況下における仮説を生成するために用いられ得る。
仮説は、ビットパターンに基づいたあらゆる種類のデー
タを分類するために用いられうるものであり、また、文
章中でのある語の出現や配列中の特定の値の出現などに
よって構成されるより大きなスケールのパターンに基づ
いてデータを分類するためにも用いられ得る。

【００４４】結論以上、当業者に対して、重み付けがなされた一連の弱い
仮説を生成することによって強い仮説を構成するための
技法が記載された。これらの技法の基礎となるものは、
弱い仮説に対して追加されるべきパターンを選択する目
的で弱い仮説の評価をフィードバックすることであり、
弱い仮説に対して、それが強い仮説において用いられた
場合にその弱い仮説に対して与えられる重みを表わす係
数を計算する目的で評価を利用することである。

【００４５】以上の説明は、本発明の一実施例に関する
もので，この技術分野の当業者であれば、本発明の種々
の変形例が考え得るが、それらはいずれも本発明の技術
的範囲に包含される。さらに、本発明のインプリメンテ
ーションは、分類されるべきデータ及び仮説を含む分類
器が動作する環境によって必然的に大きく影響を受け
る。

【００４６】

【発明の効果】以上述べたごとく、本発明によれば、ウ
ィークラーンによって計算された”全ての”仮説の正確
さに依存した強い仮説を生成し、かつ、ニューラルネッ
トワーク及び他の学習アルゴリズムによって生成された
種々の実際の値を有する仮説を容易に取り扱うことが可
能な学習装置及び学習方法が提供される。

【図面の簡単な説明】

【図１】仮説を用いたＯＣＲのブロック図及び従来技術
に係る仮説学習システムのブロック図。

【図２】本発明の実施例を表わすブロック図。

【図３】本発明の望ましい実施例において用いられるデ
ータストラクチャを表わすブロック図。

【図４】本発明の望ましい実施例において用いられるデ
ータストラクチャを表わすもう一つのブロック図。

【図５】本発明の望ましい実施例においてインプリメン
トされるアルゴリズムの高位表現を示す図。

【符号の説明】

参照番号のうちの下位の２桁は図面内のアイテムの番号
を、最上位の桁はそのアイテムが最初に現れた図の番号
をそれぞれ表わしている。よって、２０１といいう参照
番号を有するアイテムは図２に最初に現れる。１０１ＯＣＲ１０３文書イメージ１０５セグメンタ１０７キャラクタイメージ１０９分類器１１１仮説１１３アスキーコード１１５機械学習システム１１７トレーニングデータ１１９データアイテム１２１イメージ１２３ラベル１２５学習装置２０１本発明の望ましい実施例２０３フィルタ２０５データアイテムのサブセット２０７弱い仮説２０９エバリュエータ２１１評価データ２１３フィードバック２１３’ 仮説コンバイナ２１５係数２１７強い仮説３０２学習情報テーブル３０３仮説テスト情報３０５重み情報３０７評価情報３０９重み情報要素３１１ｗｔ３１３ｗｔｓｕｍ３１５評価情報要素３１７Ｍｉｎｄｉｓｔ３１９ｃｌａｂｅｌ３２１誤差情報３２３サンプル誤差３２５イメージ誤差要素４０１弱い仮説要素４０２仮説リスト４０３サイズ４０５係数４０７イメージポインタ配列４０９イメージポインタ４１１トレーニングデータ４１３トレーニングデータ要素４１５ラベル４１７イメージ４１９ｗｅｉｇｈｔｅｄ４２１ｇｂｏｕｎｄ４２３ａｅｒｒ４２５ｇｖａｌｅｒｒ４２７ａｖａｌｅｒｒ４３１ｃｕｒｒ＿ｓｔａｔｅ４３３ｂｅｓｔ＿ｓｔａｔｅ

───────────────────────────────────────────────────── フロントページの続き (72)発明者ロバートエリアスシャピアアメリカ合衆国、07040 ニュージャージー、エセックスカウンティ、メープルウッド、ラガーセンター 18

Claims

【特許請求の範囲】

【請求項１】分類器によって分類されるアイテムの例
の組から前記分類器において用いられる仮説を生成する
装置において、前記アイテム例の前記組のサブセットを受容してそれか
ら前記仮説を生成する学習手段と、前記生成の間に前記仮説を評価し、かつ、当概評価に基
づいて選択に係るフィードバックを提供する評価手段
と、前記選択フィードバックに応答して前記サブセットを選
択するサブセット選択手段とを有することを特徴とする
仮説生成装置。
【請求項２】前記仮説が、複数個の要素を有してお
り、前記評価手段が、さらに前記評価に基づいて重み付けに
係るフィードバックを提供し、前記学習手段が、前記重み付けフィードバックに応答し
て前記要素に対して重みを割り当てることを特徴とする
請求項１に記載の仮説生成装置。
【請求項３】前記要素が、前記学習手段によって生成
された弱い仮説を含んでおり、前記仮説が、前記弱い仮説に対して割り当てられた前記
重みに従って前記弱い仮説を組み合わせることによって
構成された強い仮説であることを特徴とする請求項２に
記載の仮説生成装置。
【請求項４】前記装置が、前記分類器によって分類さ
れるべき前記アイテムの評価例を含んでおり、前記評価手段が前記仮説を前記評価例に対して評価する
ことを特徴とする請求項３に記載の仮説生成装置。
【請求項５】前記サブセット選択手段が、前記フィー
ドバックに応答して前記サブセット中の前記例を選択
し、その結果、前記サブセット選択手段が前記選択された例
を選択する時点において前記仮説が前記選択された例を
正しく分類しない確率が増大することを特徴とする請求
項１に記載の仮説生成装置。
【請求項６】前記仮説が、前記例の前記組から選択さ
れた複数個の仮説例を含み、前記学習手段が、前記サブセットから選択された前記複
数個の例のうちの選択されたものを追加することによっ
て前記仮説を生成することを特徴とする請求項１，２，
３，４，５のいずれかに記載の仮説生成装置。
【請求項７】前記学習手段が、前記評価手段を前記例
の各々に関して当該例を前記仮説に対して追加すること
が前記仮説を改良するか否かを決定する目的で前記評価
手段を用い、かつ前記仮説への前記追加が前記仮説を改
良する場合に前記例を選択することによって、前記例か
ら前記選択された例を選択することを特徴とする請求項
６に記載の仮説生成装置。
【請求項８】前記仮説がニューラルネットワークであ
り、前記学習手段が前記サブセットに関して前記ニュー
ラルネットワークをトレーニングすること、を特徴とす
る請求項１，２，３，４，５のいずれかに記載の仮説生
成装置。
【請求項９】分類器によって分類されるアイテムの例
の組から前記分類器において用いられる仮説を生成する
装置において、前記仮説は複数個の要素を有しており、前記例よりなる前記組の前記サブセットを受容してそれ
から前記仮説の前記要素を生成する学習手段と、前記仮説の生成の間に前記仮説の前記要素を評価して当
該評価に基づいて重み付けに係るフィードバックを提供
する評価手段と、前記重み付けフィードバックに応答して前記仮説の前記
各々の要素に対して重みを割り当てる手段とを有するこ
とを特徴とする仮説生成装置。
【請求項１０】前記要素が弱い仮説であり、及び、前
記仮説が、前記要素の前記重みによって決定される様式
で前記要素が組み合わせられた強い仮説であること、を
特徴とする請求項９に記載の仮説生成装置。
【請求項１１】前記要素がニューラルネットワークであ
ることを特徴とする請求項１０に記載の仮説生成装置。
【請求項１２】分類器によって分類されるべきアイテ
ムの例の組から前記分類器において用いられる仮説を生
成する方法において、前記例の前記組のサブセットを受容してそれから前記仮
説を生成する段階と、前記生成の間に前記仮説を評価して当該評価に基づいて
選択に係るフィードバックを提供する段階と、前記選択フィードバックに応答して前記サブセットを選
択する段階と、を有することを特徴とする仮説生成方
法。
【請求項１３】分類器によって分類されるべきアイテ
ムの例の組から前記分類器において用いられる仮説を生
成する方法において、前記仮説が複数個の要素を有しており、前記例の前記組のサブセットを受容してそれから前記仮
説の前記要素を生成する段階と、前記仮説の生成の間に前記仮説の前記要素を評価して前
記評価に基づいて重み付けに係るフィードバックを提供
する段階と、前記重み付けフィードバックに応答して前記仮説の各々
の要素に対して重みを割り当てる段階と、を有すること
を特徴とする仮説生成方法。
【請求項１４】データアイテムを分類する装置におい
て、当該装置が仮説を含むタイプであってかつ前記装置
が改良されるものであり、前記仮説が請求項第１２項に
記載の方法あるいは請求項第１３項に記載の方法によっ
て生成されることを特徴とする分類装置。