JP4160140B2

JP4160140B2 - パターン認識方法、パターン認識辞書作成方法及びパターン認識装置

Info

Publication number: JP4160140B2
Application number: JP00166298A
Authority: JP
Inventors: 博之水谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1998-01-07
Filing date: 1998-01-07
Publication date: 2008-10-01
Anticipated expiration: 2018-01-07
Also published as: JPH11195087A

Description

【０００１】
【発明の属する技術分野】
本発明は、入力パターンに対して認識を行うパターン認識方法、この認識にもちる辞書を作成するためのパターン認識辞書作成方法及びパターン認識装置に関する。
【０００２】
【従来の技術】
従来の画像イメージから特定のパターン認識する手法としては、例えば印刷された文書の文書イメージから文字パターンを認識する文字認識装置では、文字や罫線あるいは写真といった様々な属性を画像イメージに対して付与し、認識対象となる文字画像のみを抽出し、文字の並びや隣接関係から文字行を抽出し、さらに文字行の隣接関係からパラグラフを文字行のまとまりとして表現し文字構造を理解した上で、先に検出された文字行から１文字毎の文字画像を抽出し、文字認識を行い、認識結果を出力するという処理が専ら行われていた。
【０００３】
しかしながら、印刷文書と比較してメモ書きや手書き文書のように文字行のベースラインの凹凸が顕著だったり、縦書き横書き斜め書きが混在したり、続け字が存在する自由手書き文書に対して、従来の枠組で文字行を抽出し、高精度に文字認識を行うことは困難であった。
【０００４】
この問題に対して、文献「文字列認識における図形と記号の情報融合」（石寺永記ら、１９９６年電子情報通信学会総合大会、Ｄ−４７１）では、従来処理で抽出された複数の文字列候補に対して、言語知識、文字認識およびレイアウト解析の各処理で得られたコスト値をもとに文字列らしさを評価する評価関数を設け、この評価関数に対して重回帰分析を施した結果を基に認識候補を選択し文字列評価を行う手法が紹介されている。
【０００５】
しかし、この手法では従来処理において正しい行抽出が行えなければ選択する文字列候補に正しい文字行は含まれないため、正しくない文字イメージを対象に文字認識処理を行うことになるとともに、文字行が複数ある場合、ある行の行抽出が失敗するとこのエラーが別な行の行抽出結果に影響を及ぼすことになり、単純に評価関数値に応じて文字行候補を選択するという処理だけでは、自由手書き文書を高精度に認識することは難しいと考えられる。
【０００６】
一方、文献「ＣｏｎｓｔｒａｉｎｔＳａｔｉｓｆａｃｔｉｏｎＡｐｐｒｏａｃｈｔｏＥｘｔｒａｃｔｉｏｎｏｆＪａｐａｎｅｓｅＣｈａｒａｃｔｅｒＲｅｇｉｏｎｓｆｒｏｍＵｎｆｏｒｍａｔｔｅｄＤｏｃｕｍｅｎｔＩｍａｇｅ」（Ｋ．Ｇｙｏｈｔｅｎｅｔ．ａｌ，ＩＥＩＣＥＴｒａｎｓ．Ｉｎｆ．＆Ｓｙｓｔ．，Ｖｏｌ．Ｅ７８−Ｄ，Ｎｏ．１，ｐｐ．４６６−４７５，１９９５）では、日本語文字列の抽出を制約充足問題として定式化し、特定の文書フォーマットに依存しないように文字列に対する制約条件を局所的な評価関数を用いて構成し、評価関数最適化に基づいて文字列を抽出するという研究が行われている。
【０００７】
しかしながら、本手法では文書フォーマットに依存しないように評価関数を汎用的に構成している副作用として、文字のベースラインが局線上に存在するようなあまり見かけられない文書に対しては文字列抽出が成功するが、ベースラインが直線的である通常の印刷文書では抽出が失敗するといった実験例が報告されている。また、文字と各文字を構成する文字候補成分の各々の状態を表す状態変数と、文字間および文字候補成分間に対する状態変数間の関係を重みとして表現し、評価関数を構成しているが、一般的に扱うべき状態変数が増大すれば異なる状態変数間の関係を記述することが直感的には難しくなるため、評価関数を設計することが非常に難しくなるという問題がある。また、新たな状態変数を導入して評価関数を再設計する場合でも、新たな状態変数と旧状態におけるどの評価変数と関係を持たせるべきかが理論的には不明であることが多く、一度設計した評価関数を変更することは極めて難しかった。また、高性能なパターン認識システムを構成する上で重要なポイントとしては、認識対象となるパターン種に応じて評価関数に含まれる一般に複数の自由パラメータを調整することがあげられる。従来、これらのパラメータ値の決定は少量のサンプルを用いて試行錯誤的に定めるか、あるいは大量サンプルに対して多変量解析手法を適用した結果をもとに手動でパラメータ調整を行っていた。これら人手に頼る手法は時間もかかるため、高性能なパターン認識装置を短期間で提供する上での一つの障害となっていた。
【０００８】
【発明が解決しようとする課題】
以上のように従来のパターン認識では、例えば認識対象とする紙面上の文字列の配置状況によっては高精度に認識ができないなど、認識対象に制約があり、認識対象の状態にらず高精度に認識することができなかった。また、認識に用いる辞書の作成や辞書の修正に困難性を伴うという問題があった。
【０００９】
本発明は、上記事情を考慮してなされたもので、認識対象に対して最適な認識処理を行うことのできるパターン認識方法及びパターン認識装置を提供することを目的とする。
【００１０】
また、本発明は、パターン認識に用いる辞書の作成や辞書の修正を容易に行うことのできるパターン認識方法、パターン認識辞書作成方法及びパターン認識装置を提供することを目的とする。
【００１１】
【課題を解決するための手段】
本発明は、入力画像イメージをパターン認識して、文字群に係る認識結果と、文字列群に係る認識結果と、文字ブロック群に係る認識結果とを同時に求めるパターン認識装置のパターン認識方法であって、前記入力画像イメージについての前記文字群に係る認識結果の候補を示す第１の状態変数に対する評価関数と、前記入力画像イメージについての前記文字列群に係る認識結果の候補を示す第２の状態変数に対する評価関数と、前記入力画像イメージについての前記文字ブロック群に係る認識結果の候補を示す第３の状態変数に対する評価関数と、前記第３の状態変数と前記第２の状態変数の組に対する評価関数と、前記第２の状態変数と前記第１の状態変数の組に対する評価関数と、前記第１の状態変数と前記入力画像イメージの組に対する評価関数とからなる、前記入力画像イメージについての前記第１、第２及び第３の状態変数に係る認識結果に対する評価関数を定め、前記認識結果に対する評価関数を最適化する方向に前記第１、第２及び第３の状態変数を更新することを、所定の条件が成立するまで繰り返し行い、前記所定の条件が成立したときの前記第１、第２及び第３の状態変数を、それぞれ、前記文字群、前記文字列群及び前記文字ブロック群に係る認識結果とすることを特徴とする。
【００１２】
例えば、画像イメージを特徴付ける複数の状態変数を予め決定し、これら状態変数を確率変数とみなし、画像イメージが与えられた下で、各状態変数が出現する事後確率を最大にするように状態変数の更新を行う。
【００１３】
なお、この評価関数の自由パラメータは複数の学習サンプルから自動的に決定することが可能である。
【００１５】
本発明（請求項４）は、請求項２または３に記載のパターン認識方法において、前記入力パターンから前記認識情報を求める際に、所定の認識単位に対する認識結果として得られるカテゴリ情報、認識尺度値および認識尺度値を構成する局所的な認識尺度値群のうちの少なくとも１つを前記認識情報の少なくとも一部とすることを特徴とする。
【００１６】
本発明は、入力画像イメージをパターン認識して、文字群に係る認識結果と、文字列群に係る認識結果と、文字ブロック群に係る認識結果とを同時に求めるために、前記入力画像イメージについての前記文字群に係る認識結果の候補を示す第１の状態変数に対する評価関数と、前記入力画像イメージについての前記文字列群に係る認識結果の候補を示す第２の状態変数に対する評価関数と、前記入力画像イメージについての前記文字ブロック群に係る認識結果の候補を示す第３の状態変数に対する評価関数と、前記第３の状態変数と前記第２の状態変数の組に対する評価関数と、前記第２の状態変数と前記第１の状態変数の組に対する評価関数と、前記第１の状態変数と前記入力画像イメージの組に対する評価関数とからなる、前記入力画像イメージについての前記第１、第２及び第３の状態変数に係る認識結果に対する評価関数を定め、前記認識結果に対する評価関数を最適化する方向に前記第１、第２及び第３の状態変数を更新することにより行うパターン認識のために該認識結果に対する評価関数を作成するためのパターン認識辞書作成方法であって、前記認識結果に対する評価関数におけるパラメータを複数の学習サンプルを用いた所定の学習アルゴリズムにより定め、このパラメータを用いて前記認識結果に対する評価関数を構成することを特徴とする。
【００２１】
なお、以上の装置に係る発明は方法に係る発明としても成立し、方法に係る発明は装置に係る発明としても成立する。
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるための（あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための）プログラムを記録したコンピュータ読取り可能な記録媒体としても成立する。
【００２２】
本発明では、例えば、任意のパターンを抽出するパターン検出切出処理と、そのパターンを認識するパターン認識処理が互いの処理結果を相互にやり取りし、互いの処理を反復することで各処理の状態変数を変更し、全体として予め定められた評価関数を最適化する方向で順次パターン抽出とパターン認識を行うことにより、高精度なパターン認識を実現することができる。
【００２３】
また、評価関数は統計的パラメータ手法である最大事後確率推定（ＭＡＰ推定）の枠組みから導くことができるため、最適化の理論的根拠が明白であることも本発明がもたらす利点である。また、状態変数に対する評価関数は、各状態変数自身により記述される評価関数と、異なる２つの状態変数間のみの関係を記述する評価関数により構成することにより、評価関数の設計を容易にするとともに、新たな状態変数を付加した際にも一部の評価関数を見直すだけで再設計が可能となる。
【００２４】
【発明の実施の形態】
以下、図面を参照しながら発明の実施の形態を説明する。
本発明は、印刷文字や手書き文字に対する文字認識、印刷や手書きされた文書に対する文書構造に関する認識、筆者の認識、単語音声の認識、連続音声の認識、話者の認識など、種々のパターン認識に適用可能であるが、以下では本発明を文字認識や文書構造認識に適用する場合について説明する。
【００２５】
図１に本発明の一実施形態に係るパターン認識装置の全体構成を示す。
図１に示されるように、本実施形態に係るパターン認識装置は、入力部２、前処理部４、最適化処理部６、辞書記憶部８、後処理部１０、出力部１２を備えている。また、本実施形態に係るパターン認識装置はソフトウェアによっても実現可能である。
【００２６】
入力部２は、スキャナーやデジタルカメラ等により画像イメージを入力するためのものである。
前処理部４は、入力された画像イメージに対して、いわゆる前処理、例えば、２値化、エッジ検出、ノイズ除去、ラベル画像生成等のような画像処理を行うためのものである。
【００２７】
辞書記憶部８は、パターン認識辞書、評価関数辞書を記憶するためのものである。
最適化処理部６は、文字認識結果や画像解析結果から得られる各種情報に基づいて定められる評価関数の最適化を行い、画像イメージを特徴付ける状態変数を更新したり、学習サンプルからパラメータ学習を行うためのものである。
【００２８】
後処理部１０は、認識結果の編集や訂正を行うためのものである。
出力部１２は、出力媒体に応じた認識結果のフォーマット変換やデータ変換を行うためのものである。
【００２９】
図２に最適化処理部６における処理手順の一例を表すフローチャートを示す。
まず、予め用意されたパターン認識辞書と評価関数辞書を読み出す（ステップＳ１）。
【００３０】
次に、予め定められた画像イメージを特徴付ける状態変数の初期値を設定し、評価関数値を計算する（ステップＳ２）。
この評価関数値の値に応じて最適化処理が必要か否かを判断し（ステップＳ３）、必要ならば評価関数の最適化を行い状態変数の更新を行う（ステップＳ４）。
【００３１】
この最適化の要不要の判断と、評価関数の最適化を行って状態変数の更新を行うことを、繰り返し、ステップＳ４で求められた新たな評価関数値に応じてステップＳ３で最適化処理が不要と判断された場合に、処理を終了する。
【００３２】
上記の最適化の要不要の判断については、例えば、更新前後の状態変数の差分が規定値以下になった場合に最適化の不要と判断する。
なお、予め処理時間の上限、または繰り返し数、または処理時間の上限と繰り返し数の上限の両方を設定しておき、ステップＳ３で最適化処理が必要と判断されても、この時点で上記の処理時間の上限、または繰り返し数、または処理時間の上限および繰り返し数の上限のいずれか一方（もしくは両方）を超過したならば、処理を終了するようにしてもよい。また、この場合において、最適化処理が必要と判断されたが他の制約で処理を終了した旨のメッセージを出力するようにしてもよい。さらにまた、このメッセージに処理終了時における評価関数値の値を示す情報（またはこの情報および設定されている最適化を不要と判断させるために評価関数値がとるべき値を示す情報）を付加するようにしてもよい。
【００３３】
図３に学習サンプルを用いたパラメータ学習手順の一例を表すフローチャートを示す。
まず、学習サンプルをセットする（ステップＳ１１）。
【００３４】
次に、この学習サンプルに対して、評価関数から導出される特徴ベクトルを計算し、特徴ベクトル群から共分散行列や平均ベクトルを推定する（ステップＳ１２）。
【００３５】
次に、評価関数の最適化を実行し、自由パラメータを決定し（ステップＳ１３）、辞書に登録する（ステップＳ１４）。
以下では、文字認識を具体例として本実施形態に係るパターン認識方法および辞書作成方法について詳しく説明する。
【００３６】
まず、パターン認識方法について説明する。
ここでは、画像イメージをＩ、文字群の状態変数をＣ、文字列群の状態変数をＬ、文字列をまとめた文字ブロック群の状態変数をＢで表し、これらＩ，Ｃ，Ｌ，Ｂは確率過程とみなす。
【００３７】
このとき、ある画像イメージＩが与えられた下で、ある状態変数Ｃ，Ｌ，Ｂが発生する条件付き確率密度ｐ（Ｃ，Ｌ，Ｂ｜Ｉ）はベイズの定理を用いると次式のように記述することができる。
【００３８】
【数１】

【００３９】
ある画像イメージＩが与えられたときに、状態変数Ｃ，Ｌ，Ｂの最も確からしい状態が求める認識結果であるという立場に立つと、認識問題は画像イメージＩが与えられたときに、式（１）の左辺を最大にする状態変数Ｃ，Ｌ，Ｂを求めることに帰着する。
【００４０】
さて、式（１）の左辺の代わりに右辺の最大化問題を考える。これは最大事後確率推定（ＭＡＰ）と呼ばれる推定問題である。今、Ｉ（画像イメージ）はＣ（文字群の状態変数）の状態から生成され、ＣはＬ（文字列群の状態変数）の状態からから生成され、ＬはＢ（文字ブロック群の状態変数）の状態からから生成されると仮定する。この場合、式（１）は次式のように記述することができる。
【００４１】
【数２】

【００４２】
そして、確率密度としてＧｉｂｂｓ分布を仮定し、あるポテンシャル関数を用いて確率密度をｅ^-Uと表現すれば、式（２）の右辺の最大化問題は各確率密度を構成するポテンシャル関数Ｕ，Ｖの線形和からなる次式の評価関数Ｊの最小化問題に変換できる。
【００４３】
【数３】

式（３）の右辺の各ポテンシャル関数の例を以下に示す。
【００４４】
【数４】

【００４５】
ここで、Ｒ₁ 、Ｒ₂ 、Ｒ₃ は作用素あるいはアルゴリズムを意味し、Ｒ₁ は文字画像から文字群の状態を生成するもの、Ｒ₂ は文字群の状態から文字列群の状態を生成するもの、Ｒ₃ は文字列群の状態から文字ブロック群の状態を生成するものである。
【００４６】
また、Ｒ₁ ^#、Ｒ₂ ^#、Ｒ₃ ^#は、それぞれ、Ｒ₁ 、Ｒ₂ 、Ｒ₃ の逆作用素あるいは逆アルゴリズムを表すが、逆作用素あるいは逆アルゴリズムが存在しない場合は、近似逆作用素あるいは近似逆アルゴリズムを表す。
【００４７】
また、σ₁ 、σ₂ 、σ₃ は実数パラメータである。
Ｒ₁ の具体例としては、ノイズや画像のボケ等を排除するために画像復元を行い、一般に多値表現された画像イメージを画像の強度や輪郭情報に基づいて２値画像やエッジ画像を抽出し、これらの画像からラベル画像を生成し、各ラベル領域の外接多角形の頂点座標やこの外接多角形の重心座標をＣの「位置情報」とするアルゴリズムが挙げられる。また、「位置座標」だけではなく、各ラベル領域の画像を解析することで、縦横のクリップ数や画素の濃度とヒストグラムおよび位置情報等に基づいて、文字、図、写真、罫線、背景テクスチャーといった「属性情報」を付加したり、および／または文字認識を行い認識尺度もしくは認識尺度値を構成する局所的な認識尺度値群や認識カテゴリを「認識情報」としてＣの状態変数に登録しても構わない。また、注目するラベル画像の輪郭情報や背景情報およびこれと近接するラベル領域の位置情報に基づいて注目ラベル領域の分割を行ってもよい。
【００４８】
Ｒ₂ としては、例えばＣの位置情報から近接する文字候補成分のラベル領域の統合を行いＬの各状態を生成するアルゴリズムが挙げられる。
また、Ｒ₃ としては、例えばＬの位置情報や属性情報や認識情報から近接する文字列候補成分の領域を統合したり分割を行うアルゴリズムが挙げられる。
【００４９】
これらのＲ₁ 、Ｒ₂ 、Ｒ₃ に対応したＲ₁ ^#、Ｒ₂ ^#、Ｒ₃ ^#の例として、Ｒ₁ ^#は、Ｃの位置情報と認識情報に基づいてラベル領域の分割あるいは統合を行い文字画像を生成し、この文字画像を劣化させる処理を行えばよい。また、Ｒ₂ ^#は、Ｌに登録された文字数や位置情報に基づいて文字列候補成分の分割を行いＣを生成すればよい。また、Ｒ₃ ^#は、Ｂに登録された文字列数や位置情報に基づいて文字ブロック候補成分の分割を行うものが考えられる。
【００５０】
一方、Ｖ（Ｃ）は、文字が発生する状態に対応した評価関数であり、文字列候補成分の文字らしさを計る尺度であり、ＭＡＰ推定の立場から見れば文字の生成を表すモデルを表す。具体的には、例えば文字認識の結果得られる類似度あるいは相違度あるいは尤度といった認識尺度から認識結果に対する信頼度を設け、信頼度が高ければ関数値が小さく、信頼度が低い場合は関数値が大きくなるように評価関数を選択したり、また、典型的な文字を表す特徴量に基づいて文字モデルを予め定め、この文字モデルと文字候補成分とのマッチングの結果、文字モデルに近ければ関数値が小さく、文字モデルから離れていれば関数値が大きくなるような評価関数を設定すればよい。特に部分空間法や複合類似度法を用いて未知パターンの類別を行う際には、文字パターンの特徴ベクトルとカテゴリ毎に定められた部分空間を張る基底ベクトルから計算される類似度を基にして、特徴ベクトルの各成分に対応した局所的な類似度を定義することで、局所的な類似度が小さい成分に対応した文字パターンの局所領域を特定することができる。このようにして検出された局所領域は文字候補成分以外のノイズあるいは他の文字候補成分の一部である可能性が高いので、この局所領域を除外して再び文字検出切出し処理を行い、認識処理を行えば、高精度な文字認識処理が可能である。このような処理は全てＶ（Ｃ）を最小化するように行われる。
【００５１】
また、Ｖ（Ｌ）は、文字列らしさを計る尺度であり、Ｖ（Ｃ）の場合と同様に予め定められた文字列モデルに相当する。したがって、モデルマッチングの結果を用いてＶ（Ｌ）を最小にするように状態Ｌを変更すればよい。
【００５２】
また、Ｕ（Ｂ）は、文字ブロックらしさを計る尺度であり、Ｖ（Ｃ）の場合と同様に予め定められた文字ブロックモデルに相当する。したがって、モデルマッチングの結果を用いてＵ（Ｂ）を最小にするように状態Ｂを変更すればよい。
【００５３】
Ｖ（Ｃ）、Ｖ（Ｌ）およびＵ（Ｂ）の具体例を以下に示す。
今、画像イメージをＮ_B 個の部分領域に分割し、ｉ番目の部分領域には１個の文字ブロックを割り当てこれをＢ_i ブロックと呼び、このＢ_i ブロックを表す状態変数をＢ_i で表す。また、このＢ_i ブロックに属するＮ_Li個の文字列のうちｊ番目の文字列をＬ_ijと呼び、各Ｌ_ij文字列の状態変数をＬ_ijとする。同様にして、Ｌ_ij文字列に属するＮ_Cij 個の文字候補成分のうちｋ番目の文字候補成分をＣ_ijk と表すことにする。そして、以下の諸量を定義する。
【００５４】
【数５】

【００５５】
【数６】

【００５６】
なお、式（５）のｄ^C _ijklmnは、例えば、Ｃ_ijk の領域の黒画素とＣ_lmn の領域の黒画素の間の最短距離、あるいはＣ_ijk の領域における黒画素の重心とＣ_lmn の領域における黒画素の重心の間の距離である。
【００５７】
式（６）のｗ^C _ijk は、例えば、Ｌ_ij文字列で文字が並ぶ方向におけるＣ_ijk の領域の幅あるいは高さである。
式（７）のｈ^C _ijk は、例えば、Ｌ_ij文字列で文字が並ぶ方向に対して垂直の方向におけるＣ_ijk の領域の幅あるいは高さである。
【００５８】
式（１０）のｍ^C _ijk は、式（５）において（ｉ，ｊ，ｋ）を固定し、（ｌ，ｍ，ｎ）を全てのものについてみたときに２番目に小さいｄ^C _ijklmnである（（ｉ，ｊ，ｋ）＝（ｌ，ｍ，ｎ）の場合にｄ^C _ijklmnは最小（＝０）となる）。
【００５９】
式（１１）は、全ての（ｉ，ｊ，ｋ，ｌ，ｍ，ｎ）についてみたときの式（５の最大値である。
式（１２）〜式（１５）は、それぞれ、全ての（ｉ，ｊ，ｋ）についてみたときの式（６）〜式（９）の最大値である。
【００６０】
式（１６）は、全ての（ｉ，ｊ，ｋ）についてみたときの式（１０）の最小値である。
式（１７）は、式（１０）を式（１１）の値で正規化したものである。
【００６１】
式（１８）〜式（２１）は、それぞれ式（６）〜式（９）を式（１２）〜式（１５）の値で正規化したものである。
式（２２）のｄ^L _ijlmは、例えば、Ｌ_ijの領域の黒画素とＬ_lmの領域の黒画素の間の最短距離、あるいはＬ_ijの領域における黒画素の重心とＬ_lmの領域における黒画素の重心の間の距離である。
【００６２】
式（２３）のｗ^L _ijは、例えば、Ｌ_ij文字列で文字が並ぶ方向における当該Ｌ_ij文字列の領域の幅あるいは高さである。
式（２４）は、例えば、Ｃ_lmn をＬ_ij文字列で文字が並ぶ方向に対して垂直の方向に射影した場合における、該Ｌ_ij文字列に属するＣ_ijk の領域とＣ_lmn の領域とが該Ｌ_ij文字列で文字が並ぶ方向に重複する部分の長さである。
【００６３】
式（２５）は、例えば、Ｌ_ij文字列で文字が並ぶ方向に対して垂直の方向におけるＬ_lm文字列の領域の幅あるいは高さである。
式（２６）は、例えば、Ｂ_i 文字ブロックに属する文字列で文字が並ぶ方向における当該Ｂ_i 文字ブロックの幅である。
【００６４】
式（２７）は、例えば、Ｌ_lmをＢ_i 文字ブロック水平方向（例えば、Ｂ_i 文字ブロックに属する文字列で文字が並ぶ方向）に対して垂直の方向に射影した場合における、該Ｂ_i 文字ブロックに属するＬ_ijの領域とＬ_lmの領域とがＢ_i 文字ブロック水平方向に重複する部分の長さである。
【００６５】
式（２８）は、例えば、Ｂ_i 文字ブロックに属する文字列が並ぶ方向に対して垂直の方向における当該Ｂ_i 文字ブロックの長さである。
式（２９）のＥ（ｘ_ijk ，ｉｋ）は、ｘ_ijk のｉとｋに関する平均であり、同様に、Ｅ（ｘ_ijkijm，ｋｍ）は、ｘ_ijkijmのｋとｍに関する平均であり、Ｅ（ｘ_ijk ，ｋ）は、ｘ_ijk のｋに関する平均であり、Ｅ（ｘ_ijim，ｊｍ）は、ｘ_ijimのｊｍに関する平均であり、Ｅ（ｘ_ij，ｊ）は、ｘ_ijのｊに関する平均である。
これらを用いて、例えば以下のように各評価関数を設定する。
【００６６】
【数７】

【００６７】
【数８】

【００６８】
【数９】

【００６９】
なお、式（３４）〜式（３８）は、それぞれ、式（３１）におけるｘをＤ^C _ijk −θ_d1、Ｗ^C _ijk −θ_d2、Ｈ^C _ijk −θ_h1、Ｒ^C _ijk −θ_r1、Ｐ^C _ijk −θ_p1とし、θをθ_d2、θ_w2、θ_h2、θ_r2、θ_p2として、ｉ（ｉ＝１〜Ｎ_B ）とｊ（ｊ＝１〜Ｎ_Li）とｋ（ｋ＝１〜Ｎ_Cij ）で総和を取ったものである。
【００７０】
式（３９）〜式（４１）は、それぞれ、式（３１）におけるｘを（ｄ^C _ijklmn−ｍ^C _ijk ）／ｍ^C _min −θ_d3、Ｒ^C _ijk Ｒ^C _lmn −θ_r3、Ｐ^C _ijk Ｐ^C _lmn −θ_p3とし、θをθ_d4、θ_r4、θ_p4として、ｉ（ｉ＝１〜Ｎ_B ）とｊ（ｊ＝１〜Ｎ_Li）とｋ（ｋ＝１〜Ｎ_Cij ）とｌ（ｌ＝１〜Ｎ_B ）とｍ（ｍ＝１〜Ｎ_Ll）とｎ（ｎ＝１〜Ｎ_Clm ）で総和を取ったものである。
【００７１】
式（４４）は、ｌ＝ｉ、ｍ＝ｊ、ｎ＝ｍとした式（５）のｋとｍに関する平均を式（２３）で割ったものについて、ｉ（ｉ＝１〜Ｎ_B ）とｊ（ｊ＝１〜Ｎ_Li）で総和を取ったものである。
【００７２】
式（４５）は、式（６）のｋに関する平均で式（２３）を割ったものについて、ｉ（ｉ＝１〜Ｎ_B ）とｊ（ｊ＝１〜Ｎ_Li）で総和を取ったものである。
式（４６）は、式（２５）を式（２３）で割ったものについて、ｉ（ｉ＝１〜Ｎ_B ）とｊ（ｊ＝１〜Ｎ_Li）とｌ（ｌ＝１〜Ｎ_B ）とｍ（ｍ＝１〜Ｎ_Ll）で総和を取ったものである。
【００７３】
式（４７）は、式（６）を式（２３）で割ったものについて、ｉ（ｉ＝１〜Ｎ_B ）とｊ（ｊ＝１〜Ｎ_Li）とｋ（ｋ＝１〜Ｎ_Cij ）で総和を取ったものである。式（４８）は、ｌ＝ｉ、ｍ＝ｊとした式（２４）を式（２３）で割ったものについて、ｉ（ｉ＝１〜Ｎ_B ）とｊ（ｊ＝１〜Ｎ_Li）とｋ（ｋ＝１〜Ｎ_Cij ）とｎ（ｎ＝１〜Ｎ_Cij ）で総和を取ったものである。
【００７４】
式（５１）は、ｌ＝ｉとした式（２２）のｊとｍに関する平均を式（２６）で割ったものについて、ｉ（ｉ＝１〜Ｎ_B ）で総和を取ったものである。
式（５２）は、式（２３）のｊに関する平均で式（２６）を割ったものについて、ｉ（ｉ＝１〜Ｎ_B ）で総和を取ったものである。
【００７５】
式（５３）は、式（２８）を式（２６）で割ったものについて、ｉ（ｉ＝１〜Ｎ_B ）とｌ（ｌ＝１〜Ｎ_B ）で総和を取ったものである。
式（５４）は、式（２３）を式（２６）で割ったものについて、ｉ（ｉ＝１〜Ｎ_B ）とｊ（ｊ＝１〜Ｎ_Li）で総和を取ったものである。
【００７６】
式（５５）は、ｌ＝ｉとした式（２７）を式（２６）で割ったものについて、ｉ（ｉ＝１〜Ｎ_B ）とｊ（ｊ＝１〜Ｎ_Li）とｍ（ｍ＝１〜Ｎ_Li）で総和を取ったものである。
【００７７】
ただし、Σ_C 、Σ_L およびΣ_B はそれぞれＶ_C 、Ｖ_L およびＶ_B の共分散行列である。また、添字付きθは変数パラメータである。これらのパラメータの値は例えば後に示す手法等によりサンプルから学習することができる。
【００７８】
さて、式（３）を最小化する具体的なアルゴリズムとしては、例えば最急降下法やニュートン法を用いたり、あるいは評価関数のパラメータに関する微分が計算できないような場合は離散最適化法やジェネティックアルゴリズムを用いればよい。
【００７９】
ここでは文献「視覚大脳皮質の計算理論」（電子情報通信学会論文誌Ｄ−ＩＩＶｏｌ．Ｊ７２−Ｄ−ＩＩ，Ｎｏ．８，ｐｐ．１１１１−１１２１，１９９０）で示された最適化手法に基づいて次式の微分方程式を例として示す。
【００８０】
【数１０】

【００８１】
式（５６）では、最初の３式のＣ（０）、Ｌ（０）、Ｂ（０）はそれぞれ文字群の状態変数Ｃ、文字列群の状態変数Ｌ、文字ブロック群の状態変数Ｂの初期値（初期状態）であり、残りの３式のｄＣ／ｄｔ、ｄＬ／ｄｔ、ｄＢ／ｄｔはそれぞれ更新前後のＣ、Ｌ、Ｂの変化分である（式（５６）を離散的に解く場合にはｔを離散的に考える）。
【００８２】
例えば、ｄＣ／ｄｔ、ｄＬ／ｄｔ、ｄＢ／ｄｔがそれぞれ規定値以下になった場合に処理を終了し、そのときのＣ、Ｌ、Ｂによって認識結果が与えられる。
次に、辞書作成方法すなわちパラメータ学習の手法について説明する。
【００８３】
今、式（３２）、式（４２）および式（４９）の各評価関数で表される文字モデル、文字列モデル、文字ブロックモデルおよび式（４）のパラメータ全体をΛとする。このとき、式（３）の評価関数の学習サンプルに関するアンサンブル平均を用いて次式の新たな評価関数を定義する。
【００８４】
【数１１】

Λの各値は次式を満足する連立方程式を解くか、あるいは勾配法やニュートン法等の数値計算手法を用いて解を求めればよい。
【００８５】
【数１２】

ここでは、勾配法を用いた微分方程式によるパラメータ更新の例を示す。
【００８６】
【数１３】

【００８７】
ここで、ｔは時間を表す変数で、εは任意の正実数である。上記の手法により求められたパラメータを評価関数とともに辞書に登録する。
以上説明したように、本実施形態によれば、予め設定した評価関数の最適化に基づいて、文字候補成分、文字列候補成分、および文字ブロック候補成分の抽出を行うので、常に最適な認識処理が可能になり、高精度にパターン認識を行うことができる。また、文字候補成分に対しては文字認識を行い、局所的な認識尺度を用いて動的に文字検出切出しを行うことを可能にする。
【００８８】
また、事前に用意した複数の学習サンプルを用いてパラメータ学習を行うことで、サンプル毎の固有のくせや変動を吸収した柔軟なシステムチューニングが可能となる。
【００８９】
なお、本実施形態において、文字の認識自体を行わない場合（例えば、書面のフォーマットなどの構造だけ抽出する場合など）には、標準文字パターンの辞書やこれを用いた認識処理は不要になる。
【００９０】
また、上記した実施形態に係るパターン認識装置は、パターン認識機能およびパターン認識辞書学習機能もしくはパターン認識辞書作成機能を兼ね備えたものであったが、本発明に係るパターン認識機能、辞書学習機能、辞書作成機能は独立実施可能であり、パターン認識機能を備えた（辞書学習機能、辞書作成機能は備えない）パターン認識装置、パターン認識辞書学習機能を備えた（認識機能は備えない）パターン認識辞書学習装置、パターン認識辞書作成機能を兼ね（認識機能は備えない）備えたパターン認識辞書作成装置としても実施可能である。パターン認識機能を備えた（辞書学習機能、辞書作成機能は備えない）パターン認識装置は例えば図１の最適化処理部６から認識機能に不要の部分を省いたものであり、パターン認識辞書学習機能を備えた（認識機能は備えない）パターン認識辞書学習装置やパターン認識辞書作成機能を兼ね（認識機能は備えない）備えたパターン認識辞書作成装置は例えば最適化処理部６から辞書学習機能や辞書作成機能に不要の部分と後処理部１０と出力部１２を省いたものである。
【００９１】
なお、以上の各手順、手段、機能は、ソフトウェアとしても実現可能である。また、コンピュータに上記各手順を実行させるための（あるいはコンピュータを上記各手段として機能させるための、あるいはコンピュータに上記各機能を実現させるための）プログラムを記録したコンピュータ読取り可能な記録媒体として実施することもできる。
本発明は、上述した実施の形態に限定されるものではなく、その技術的範囲において種々変形して実施することができる。
【００９２】
【発明の効果】
本発明によれば、これまで経験的に構築されたパターン検出切出し処理や認識処理を評価関数の最適化という理論的に明白な手法に基づいて再構築することにより、常に最適な処理が可能になる。また、従来は経験的な調整によるところが多かったパラメータ調整を学習サンプルから自動的に決定することが可能となる。この結果、高精度なパターン認識装置を実現することが可能となる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係るパターン認識装置の構成を示す図
【図２】同実施形態に係るパターン認識処理の手順の一例を示すフローチャート
【図３】同実施形態に係るパラメータ学習処理の手順の一例を示すフローチャート
【符号の説明】
２…入力部
４…前処理部
６…最適化処理部
８…辞書記憶部
１０…後処理部
１２…出力部

Claims

入力画像イメージをパターン認識して、文字群に係る認識結果と、文字列群に係る認識結果と、文字ブロック群に係る認識結果とを同時に求めるパターン認識装置のパターン認識方法であって、
前記入力画像イメージについての前記文字群に係る認識結果の候補を示す第１の状態変数に対する評価関数と、前記入力画像イメージについての前記文字列群に係る認識結果の候補を示す第２の状態変数に対する評価関数と、前記入力画像イメージについての前記文字ブロック群に係る認識結果の候補を示す第３の状態変数に対する評価関数と、前記第３の状態変数と前記第２の状態変数の組に対する評価関数と、前記第２の状態変数と前記第１の状態変数の組に対する評価関数と、前記第１の状態変数と前記入力画像イメージの組に対する評価関数とからなる、前記入力画像イメージについての前記第１、第２及び第３の状態変数に係る認識結果に対する評価関数を定め、
前記認識結果に対する評価関数を最適化する方向に前記第１、第２及び第３の状態変数を更新することを、所定の条件が成立するまで繰り返し行い、
前記所定の条件が成立したときの前記第１、第２及び第３の状態変数を、それぞれ、前記文字群、前記文字列群及び前記文字ブロック群に係る認識結果とすることを特徴とするパターン認識方法。
前記入力画像イメージに対して前処理を行う際に、該入力画像イメージから、幾何情報、認識情報および属性情報のうちの少なくとも１つを求め、これを前記第１、第２及び第３の状態変数の少なくとも一部として用いるものとし、
前記入力画像イメージから前記認識情報を求める際に、所定の認識単位に対する認識結果として得られるカテゴリ情報、類似度および類似度を構成する局所的な類似度群のうちの少なくとも１つを前記認識情報の少なくとも一部とすることを特徴とする請求項１に記載のパターン認識方法。
前記第１、第２及び第３の状態変数を更新する際に、前記入力画像イメージから、幾何情報、認識情報および属性情報のうちの少なくとも１つを求め、これを更新後の前記第１、第２及び第３の状態変数の少なくとも一部として用いるものとし、
前記入力画像イメージから前記認識情報を求める際に、所定の認識単位に対する認識結果として得られるカテゴリ情報、類似度および類似度を構成する局所的な類似度群のうちの少なくとも１つを前記認識情報の少なくとも一部とすることを特徴とする請求項１に記載のパターン認識方法。
前記所定の条件は、更新前後の各状態変数の差分が規定値以下になったという条件、規定の繰り返し数に達したという条件、規定の処理時間に達したという条件、又はこれらを組み合わせた条件であることを特徴とする請求項１に記載のパターン認識方法。
入力画像イメージをパターン認識して、文字群に係る認識結果と、文字列群に係る認識結果と、文字ブロック群に係る認識結果とを同時に求めるために、前記入力画像イメージについての前記文字群に係る認識結果の候補を示す第１の状態変数に対する評価関数と、前記入力画像イメージについての前記文字列群に係る認識結果の候補を示す第２の状態変数に対する評価関数と、前記入力画像イメージについての前記文字ブロック群に係る認識結果の候補を示す第３の状態変数に対する評価関数と、前記第３の状態変数と前記第２の状態変数の組に対する評価関数と、前記第２の状態変数と前記第１の状態変数の組に対する評価関数と、前記第１の状態変数と前記入力画像イメージの組に対する評価関数とからなる、前記入力画像イメージについての前記第１、第２及び第３の状態変数に係る認識結果に対する評価関数を定め、前記認識結果に対する評価関数を最適化する方向に前記第１、第２及び第３の状態変数を更新することにより行うパターン認識のために該認識結果に対する評価関数を作成するためのパターン認識辞書作成方法であって、
前記認識結果に対する評価関数におけるパラメータを複数の学習サンプルを用いた所定の学習アルゴリズムにより定め、
このパラメータを用いて前記認識結果に対する評価関数を構成することを特徴とするパターン認識辞書作成方法。
請求項１ないし４のいずれか１項に記載のパターン認識方法によりパターン認識を行う手段を備えたことを特徴とするパターン認識装置。
請求項５に記載のパターン認識辞書作成方法により作成されたパターン認識辞書を用いてパターン認識を行う手段を備えたことを特徴とするパターン認識装置。
コンピュータに、入力画像イメージをパターン認識して、文字群に係る認識結果と、文字列群に係る認識結果と、文字ブロック群に係る認識結果とを同時に求めさせるためのプログラムであって、
コンピュータに、
前記入力画像イメージについての前記文字群に係る認識結果の候補を示す第１の状態変数に対する評価関数と、前記入力画像イメージについての前記文字列群に係る認識結果の候補を示す第２の状態変数に対する評価関数と、前記入力画像イメージについての前記文字ブロック群に係る認識結果の候補を示す第３の状態変数に対する評価関数と、前記第３の状態変数と前記第２の状態変数の組に対する評価関数と、前記第２の状態変数と前記第１の状態変数の組に対する評価関数と、前記第１の状態変数と前記入力画像イメージの組に対する評価関数とからなる、前記入力画像イメージについての前記第１、第２及び第３の状態変数に係る認識結果に対する評価関数を定めさせ、
前記認識結果に対する評価関数を最適化する方向に前記第１、第２及び第３の状態変数を更新することを、所定の条件が成立するまで繰り返し行わせ、
前記所定の条件が成立したときの前記第１、第２及び第３の状態変数を、それぞれ、前記文字群、前記文字列群及び前記文字ブロック群に係る認識結果とさせるためのプログラムを記録したコンピュータ読取り可能な記録媒体。
入力画像イメージをパターン認識して、文字群に係る認識結果と、文字列群に係る認識結果と、文字ブロック群に係る認識結果とを同時に求めるために、前記入力画像イメージについての前記文字群に係る認識結果の候補を示す第１の状態変数に対する評価関数と、前記入力画像イメージについての前記文字列群に係る認識結果の候補を示す第２の状態変数に対する評価関数と、前記入力画像イメージについての前記文字ブロック群に係る認識結果の候補を示す第３の状態変数に対する評価関数と、前記第３の状態変数と前記第２の状態変数の組に対する評価関数と、前記第２の状態変数と前記第１の状態変数の組に対する評価関数と、前記第１の状態変数と前記入力画像イメージの組に対する評価関数とからなる、前記入力画像イメージについての前記第１、第２及び第３の状態変数に係る認識結果に対する評価関数を定め、前記認識結果に対する評価関数を最適化する方向に前記第１、第２及び第３の状態変数を更新することにより行うパターン認識のために該認識結果に対する評価関数をコンピュータに作成させるためのプログラムであって、
コンピュータに、
前記認識結果に対する評価関数におけるパラメータを複数の学習サンプルを用いた所定の学習アルゴリズムにより定めさせ、
このパラメータを用いて前記認識結果に対する評価関数を構成させるためのプログラムを記録したコンピュータ読取り可能な記録媒体。