JP4160140B2 - パターン認識方法、パターン認識辞書作成方法及びパターン認識装置 - Google Patents
パターン認識方法、パターン認識辞書作成方法及びパターン認識装置 Download PDFInfo
- Publication number
- JP4160140B2 JP4160140B2 JP00166298A JP166298A JP4160140B2 JP 4160140 B2 JP4160140 B2 JP 4160140B2 JP 00166298 A JP00166298 A JP 00166298A JP 166298 A JP166298 A JP 166298A JP 4160140 B2 JP4160140 B2 JP 4160140B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- state variable
- evaluation function
- character
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Character Discrimination (AREA)
Description
【発明の属する技術分野】
本発明は、入力パターンに対して認識を行うパターン認識方法、この認識にもちる辞書を作成するためのパターン認識辞書作成方法及びパターン認識装置に関する。
【0002】
【従来の技術】
従来の画像イメージから特定のパターン認識する手法としては、例えば印刷された文書の文書イメージから文字パターンを認識する文字認識装置では、文字や罫線あるいは写真といった様々な属性を画像イメージに対して付与し、認識対象となる文字画像のみを抽出し、文字の並びや隣接関係から文字行を抽出し、さらに文字行の隣接関係からパラグラフを文字行のまとまりとして表現し文字構造を理解した上で、先に検出された文字行から1文字毎の文字画像を抽出し、文字認識を行い、認識結果を出力するという処理が専ら行われていた。
【0003】
しかしながら、印刷文書と比較してメモ書きや手書き文書のように文字行のベースラインの凹凸が顕著だったり、縦書き横書き斜め書きが混在したり、続け字が存在する自由手書き文書に対して、従来の枠組で文字行を抽出し、高精度に文字認識を行うことは困難であった。
【0004】
この問題に対して、文献「文字列認識における図形と記号の情報融合」(石寺永記ら、1996年電子情報通信学会総合大会、D−471)では、従来処理で抽出された複数の文字列候補に対して、言語知識、文字認識およびレイアウト解析の各処理で得られたコスト値をもとに文字列らしさを評価する評価関数を設け、この評価関数に対して重回帰分析を施した結果を基に認識候補を選択し文字列評価を行う手法が紹介されている。
【0005】
しかし、この手法では従来処理において正しい行抽出が行えなければ選択する文字列候補に正しい文字行は含まれないため、正しくない文字イメージを対象に文字認識処理を行うことになるとともに、文字行が複数ある場合、ある行の行抽出が失敗するとこのエラーが別な行の行抽出結果に影響を及ぼすことになり、単純に評価関数値に応じて文字行候補を選択するという処理だけでは、自由手書き文書を高精度に認識することは難しいと考えられる。
【0006】
一方、文献「Constraint Satisfaction Approach to Extraction of Japanese Character Regions from Unformatted Document Image」(K.Gyohten et.al, IEICE Trans. Inf. & Syst., Vol. E78−D, No. 1, pp.466−475,1995)では、日本語文字列の抽出を制約充足問題として定式化し、特定の文書フォーマットに依存しないように文字列に対する制約条件を局所的な評価関数を用いて構成し、評価関数最適化に基づいて文字列を抽出するという研究が行われている。
【0007】
しかしながら、本手法では文書フォーマットに依存しないように評価関数を汎用的に構成している副作用として、文字のベースラインが局線上に存在するようなあまり見かけられない文書に対しては文字列抽出が成功するが、ベースラインが直線的である通常の印刷文書では抽出が失敗するといった実験例が報告されている。また、文字と各文字を構成する文字候補成分の各々の状態を表す状態変数と、文字間および文字候補成分間に対する状態変数間の関係を重みとして表現し、評価関数を構成しているが、一般的に扱うべき状態変数が増大すれば異なる状態変数間の関係を記述することが直感的には難しくなるため、評価関数を設計することが非常に難しくなるという問題がある。また、新たな状態変数を導入して評価関数を再設計する場合でも、新たな状態変数と旧状態におけるどの評価変数と関係を持たせるべきかが理論的には不明であることが多く、一度設計した評価関数を変更することは極めて難しかった。また、高性能なパターン認識システムを構成する上で重要なポイントとしては、認識対象となるパターン種に応じて評価関数に含まれる一般に複数の自由パラメータを調整することがあげられる。従来、これらのパラメータ値の決定は少量のサンプルを用いて試行錯誤的に定めるか、あるいは大量サンプルに対して多変量解析手法を適用した結果をもとに手動でパラメータ調整を行っていた。これら人手に頼る手法は時間もかかるため、高性能なパターン認識装置を短期間で提供する上での一つの障害となっていた。
【0008】
【発明が解決しようとする課題】
以上のように従来のパターン認識では、例えば認識対象とする紙面上の文字列の配置状況によっては高精度に認識ができないなど、認識対象に制約があり、認識対象の状態にらず高精度に認識することができなかった。また、認識に用いる辞書の作成や辞書の修正に困難性を伴うという問題があった。
【0009】
本発明は、上記事情を考慮してなされたもので、認識対象に対して最適な認識処理を行うことのできるパターン認識方法及びパターン認識装置を提供することを目的とする。
【0010】
また、本発明は、パターン認識に用いる辞書の作成や辞書の修正を容易に行うことのできるパターン認識方法、パターン認識辞書作成方法及びパターン認識装置を提供することを目的とする。
【0011】
【課題を解決するための手段】
本発明は、入力画像イメージをパターン認識して、文字群に係る認識結果と、文字列群に係る認識結果と、文字ブロック群に係る認識結果とを同時に求めるパターン認識装置のパターン認識方法であって、前記入力画像イメージについての前記文字群に係る認識結果の候補を示す第1の状態変数に対する評価関数と、前記入力画像イメージについての前記文字列群に係る認識結果の候補を示す第2の状態変数に対する評価関数と、前記入力画像イメージについての前記文字ブロック群に係る認識結果の候補を示す第3の状態変数に対する評価関数と、前記第3の状態変数と前記第2の状態変数の組に対する評価関数と、前記第2の状態変数と前記第1の状態変数の組に対する評価関数と、前記第1の状態変数と前記入力画像イメージの組に対する評価関数とからなる、前記入力画像イメージについての前記第1、第2及び第3の状態変数に係る認識結果に対する評価関数を定め、前記認識結果に対する評価関数を最適化する方向に前記第1、第2及び第3の状態変数を更新することを、所定の条件が成立するまで繰り返し行い、前記所定の条件が成立したときの前記第1、第2及び第3の状態変数を、それぞれ、前記文字群、前記文字列群及び前記文字ブロック群に係る認識結果とすることを特徴とする。
【0012】
例えば、画像イメージを特徴付ける複数の状態変数を予め決定し、これら状態変数を確率変数とみなし、画像イメージが与えられた下で、各状態変数が出現する事後確率を最大にするように状態変数の更新を行う。
【0013】
なお、この評価関数の自由パラメータは複数の学習サンプルから自動的に決定することが可能である。
【0015】
本発明(請求項4)は、請求項2または3に記載のパターン認識方法において、前記入力パターンから前記認識情報を求める際に、所定の認識単位に対する認識結果として得られるカテゴリ情報、認識尺度値および認識尺度値を構成する局所的な認識尺度値群のうちの少なくとも1つを前記認識情報の少なくとも一部とすることを特徴とする。
【0016】
本発明は、入力画像イメージをパターン認識して、文字群に係る認識結果と、文字列群に係る認識結果と、文字ブロック群に係る認識結果とを同時に求めるために、前記入力画像イメージについての前記文字群に係る認識結果の候補を示す第1の状態変数に対する評価関数と、前記入力画像イメージについての前記文字列群に係る認識結果の候補を示す第2の状態変数に対する評価関数と、前記入力画像イメージについての前記文字ブロック群に係る認識結果の候補を示す第3の状態変数に対する評価関数と、前記第3の状態変数と前記第2の状態変数の組に対する評価関数と、前記第2の状態変数と前記第1の状態変数の組に対する評価関数と、前記第1の状態変数と前記入力画像イメージの組に対する評価関数とからなる、前記入力画像イメージについての前記第1、第2及び第3の状態変数に係る認識結果に対する評価関数を定め、前記認識結果に対する評価関数を最適化する方向に前記第1、第2及び第3の状態変数を更新することにより行うパターン認識のために該認識結果に対する評価関数を作成するためのパターン認識辞書作成方法であって、前記認識結果に対する評価関数におけるパラメータを複数の学習サンプルを用いた所定の学習アルゴリズムにより定め、このパラメータを用いて前記認識結果に対する評価関数を構成することを特徴とする。
【0021】
なお、以上の装置に係る発明は方法に係る発明としても成立し、方法に係る発明は装置に係る発明としても成立する。
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるための(あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための)プログラムを記録したコンピュータ読取り可能な記録媒体としても成立する。
【0022】
本発明では、例えば、任意のパターンを抽出するパターン検出切出処理と、そのパターンを認識するパターン認識処理が互いの処理結果を相互にやり取りし、互いの処理を反復することで各処理の状態変数を変更し、全体として予め定められた評価関数を最適化する方向で順次パターン抽出とパターン認識を行うことにより、高精度なパターン認識を実現することができる。
【0023】
また、評価関数は統計的パラメータ手法である最大事後確率推定(MAP推定)の枠組みから導くことができるため、最適化の理論的根拠が明白であることも本発明がもたらす利点である。また、状態変数に対する評価関数は、各状態変数自身により記述される評価関数と、異なる2つの状態変数間のみの関係を記述する評価関数により構成することにより、評価関数の設計を容易にするとともに、新たな状態変数を付加した際にも一部の評価関数を見直すだけで再設計が可能となる。
【0024】
【発明の実施の形態】
以下、図面を参照しながら発明の実施の形態を説明する。
本発明は、印刷文字や手書き文字に対する文字認識、印刷や手書きされた文書に対する文書構造に関する認識、筆者の認識、単語音声の認識、連続音声の認識、話者の認識など、種々のパターン認識に適用可能であるが、以下では本発明を文字認識や文書構造認識に適用する場合について説明する。
【0025】
図1に本発明の一実施形態に係るパターン認識装置の全体構成を示す。
図1に示されるように、本実施形態に係るパターン認識装置は、入力部2、前処理部4、最適化処理部6、辞書記憶部8、後処理部10、出力部12を備えている。また、本実施形態に係るパターン認識装置はソフトウェアによっても実現可能である。
【0026】
入力部2は、スキャナーやデジタルカメラ等により画像イメージを入力するためのものである。
前処理部4は、入力された画像イメージに対して、いわゆる前処理、例えば、2値化、エッジ検出、ノイズ除去、ラベル画像生成等のような画像処理を行うためのものである。
【0027】
辞書記憶部8は、パターン認識辞書、評価関数辞書を記憶するためのものである。
最適化処理部6は、文字認識結果や画像解析結果から得られる各種情報に基づいて定められる評価関数の最適化を行い、画像イメージを特徴付ける状態変数を更新したり、学習サンプルからパラメータ学習を行うためのものである。
【0028】
後処理部10は、認識結果の編集や訂正を行うためのものである。
出力部12は、出力媒体に応じた認識結果のフォーマット変換やデータ変換を行うためのものである。
【0029】
図2に最適化処理部6における処理手順の一例を表すフローチャートを示す。
まず、予め用意されたパターン認識辞書と評価関数辞書を読み出す(ステップS1)。
【0030】
次に、予め定められた画像イメージを特徴付ける状態変数の初期値を設定し、評価関数値を計算する(ステップS2)。
この評価関数値の値に応じて最適化処理が必要か否かを判断し(ステップS3)、必要ならば評価関数の最適化を行い状態変数の更新を行う(ステップS4)。
【0031】
この最適化の要不要の判断と、評価関数の最適化を行って状態変数の更新を行うことを、繰り返し、ステップS4で求められた新たな評価関数値に応じてステップS3で最適化処理が不要と判断された場合に、処理を終了する。
【0032】
上記の最適化の要不要の判断については、例えば、更新前後の状態変数の差分が規定値以下になった場合に最適化の不要と判断する。
なお、予め処理時間の上限、または繰り返し数、または処理時間の上限と繰り返し数の上限の両方を設定しておき、ステップS3で最適化処理が必要と判断されても、この時点で上記の処理時間の上限、または繰り返し数、または処理時間の上限および繰り返し数の上限のいずれか一方(もしくは両方)を超過したならば、処理を終了するようにしてもよい。また、この場合において、最適化処理が必要と判断されたが他の制約で処理を終了した旨のメッセージを出力するようにしてもよい。さらにまた、このメッセージに処理終了時における評価関数値の値を示す情報(またはこの情報および設定されている最適化を不要と判断させるために評価関数値がとるべき値を示す情報)を付加するようにしてもよい。
【0033】
図3に学習サンプルを用いたパラメータ学習手順の一例を表すフローチャートを示す。
まず、学習サンプルをセットする(ステップS11)。
【0034】
次に、この学習サンプルに対して、評価関数から導出される特徴ベクトルを計算し、特徴ベクトル群から共分散行列や平均ベクトルを推定する(ステップS12)。
【0035】
次に、評価関数の最適化を実行し、自由パラメータを決定し(ステップS13)、辞書に登録する(ステップS14)。
以下では、文字認識を具体例として本実施形態に係るパターン認識方法および辞書作成方法について詳しく説明する。
【0036】
まず、パターン認識方法について説明する。
ここでは、画像イメージをI、文字群の状態変数をC、文字列群の状態変数をL、文字列をまとめた文字ブロック群の状態変数をBで表し、これらI,C,L,Bは確率過程とみなす。
【0037】
このとき、ある画像イメージIが与えられた下で、ある状態変数C,L,Bが発生する条件付き確率密度p(C,L,B|I)はベイズの定理を用いると次式のように記述することができる。
【0038】
【数1】
【0039】
ある画像イメージIが与えられたときに、状態変数C,L,Bの最も確からしい状態が求める認識結果であるという立場に立つと、認識問題は画像イメージIが与えられたときに、式(1)の左辺を最大にする状態変数C,L,Bを求めることに帰着する。
【0040】
さて、式(1)の左辺の代わりに右辺の最大化問題を考える。これは最大事後確率推定(MAP)と呼ばれる推定問題である。今、I(画像イメージ)はC(文字群の状態変数)の状態から生成され、CはL(文字列群の状態変数)の状態からから生成され、LはB(文字ブロック群の状態変数)の状態からから生成されると仮定する。この場合、式(1)は次式のように記述することができる。
【0041】
【数2】
【0042】
そして、確率密度としてGibbs分布を仮定し、あるポテンシャル関数を用いて確率密度をe-Uと表現すれば、式(2)の右辺の最大化問題は各確率密度を構成するポテンシャル関数U,Vの線形和からなる次式の評価関数Jの最小化問題に変換できる。
【0043】
【数3】
式(3)の右辺の各ポテンシャル関数の例を以下に示す。
【0044】
【数4】
【0045】
ここで、R1 、R2 、R3 は作用素あるいはアルゴリズムを意味し、R1 は文字画像から文字群の状態を生成するもの、R2 は文字群の状態から文字列群の状態を生成するもの、R3 は文字列群の状態から文字ブロック群の状態を生成するものである。
【0046】
また、R1 #、R2 #、R3 #は、それぞれ、R1 、R2 、R3 の逆作用素あるいは逆アルゴリズムを表すが、逆作用素あるいは逆アルゴリズムが存在しない場合は、近似逆作用素あるいは近似逆アルゴリズムを表す。
【0047】
また、σ1 、σ2 、σ3 は実数パラメータである。
R1 の具体例としては、ノイズや画像のボケ等を排除するために画像復元を行い、一般に多値表現された画像イメージを画像の強度や輪郭情報に基づいて2値画像やエッジ画像を抽出し、これらの画像からラベル画像を生成し、各ラベル領域の外接多角形の頂点座標やこの外接多角形の重心座標をCの「位置情報」とするアルゴリズムが挙げられる。また、「位置座標」だけではなく、各ラベル領域の画像を解析することで、縦横のクリップ数や画素の濃度とヒストグラムおよび位置情報等に基づいて、文字、図、写真、罫線、背景テクスチャーといった「属性情報」を付加したり、および/または文字認識を行い認識尺度もしくは認識尺度値を構成する局所的な認識尺度値群や認識カテゴリを「認識情報」としてCの状態変数に登録しても構わない。また、注目するラベル画像の輪郭情報や背景情報およびこれと近接するラベル領域の位置情報に基づいて注目ラベル領域の分割を行ってもよい。
【0048】
R2 としては、例えばCの位置情報から近接する文字候補成分のラベル領域の統合を行いLの各状態を生成するアルゴリズムが挙げられる。
また、R3 としては、例えばLの位置情報や属性情報や認識情報から近接する文字列候補成分の領域を統合したり分割を行うアルゴリズムが挙げられる。
【0049】
これらのR1 、R2 、R3 に対応したR1 #、R2 #、R3 #の例として、R1 #は、Cの位置情報と認識情報に基づいてラベル領域の分割あるいは統合を行い文字画像を生成し、この文字画像を劣化させる処理を行えばよい。また、R2 #は、Lに登録された文字数や位置情報に基づいて文字列候補成分の分割を行いCを生成すればよい。また、R3 #は、Bに登録された文字列数や位置情報に基づいて文字ブロック候補成分の分割を行うものが考えられる。
【0050】
一方、V(C)は、文字が発生する状態に対応した評価関数であり、文字列候補成分の文字らしさを計る尺度であり、MAP推定の立場から見れば文字の生成を表すモデルを表す。具体的には、例えば文字認識の結果得られる類似度あるいは相違度あるいは尤度といった認識尺度から認識結果に対する信頼度を設け、信頼度が高ければ関数値が小さく、信頼度が低い場合は関数値が大きくなるように評価関数を選択したり、また、典型的な文字を表す特徴量に基づいて文字モデルを予め定め、この文字モデルと文字候補成分とのマッチングの結果、文字モデルに近ければ関数値が小さく、文字モデルから離れていれば関数値が大きくなるような評価関数を設定すればよい。特に部分空間法や複合類似度法を用いて未知パターンの類別を行う際には、文字パターンの特徴ベクトルとカテゴリ毎に定められた部分空間を張る基底ベクトルから計算される類似度を基にして、特徴ベクトルの各成分に対応した局所的な類似度を定義することで、局所的な類似度が小さい成分に対応した文字パターンの局所領域を特定することができる。このようにして検出された局所領域は文字候補成分以外のノイズあるいは他の文字候補成分の一部である可能性が高いので、この局所領域を除外して再び文字検出切出し処理を行い、認識処理を行えば、高精度な文字認識処理が可能である。このような処理は全てV(C)を最小化するように行われる。
【0051】
また、V(L)は、文字列らしさを計る尺度であり、V(C)の場合と同様に予め定められた文字列モデルに相当する。したがって、モデルマッチングの結果を用いてV(L)を最小にするように状態Lを変更すればよい。
【0052】
また、U(B)は、文字ブロックらしさを計る尺度であり、V(C)の場合と同様に予め定められた文字ブロックモデルに相当する。したがって、モデルマッチングの結果を用いてU(B)を最小にするように状態Bを変更すればよい。
【0053】
V(C)、V(L)およびU(B)の具体例を以下に示す。
今、画像イメージをNB 個の部分領域に分割し、i番目の部分領域には1個の文字ブロックを割り当てこれをBi ブロックと呼び、このBi ブロックを表す状態変数をBi で表す。また、このBi ブロックに属するNLi個の文字列のうちj番目の文字列をLijと呼び、各Lij文字列の状態変数をLijとする。同様にして、Lij文字列に属するNCij 個の文字候補成分のうちk番目の文字候補成分をCijk と表すことにする。そして、以下の諸量を定義する。
【0054】
【数5】
【0055】
【数6】
【0056】
なお、式(5)のdC ijklmnは、例えば、Cijk の領域の黒画素とClmn の領域の黒画素の間の最短距離、あるいはCijk の領域における黒画素の重心とClmn の領域における黒画素の重心の間の距離である。
【0057】
式(6)のwC ijk は、例えば、Lij文字列で文字が並ぶ方向におけるCijk の領域の幅あるいは高さである。
式(7)のhC ijk は、例えば、Lij文字列で文字が並ぶ方向に対して垂直の方向におけるCijk の領域の幅あるいは高さである。
【0058】
式(10)のmC ijk は、式(5)において(i,j,k)を固定し、(l,m,n)を全てのものについてみたときに2番目に小さいdC ijklmnである((i,j,k)=(l,m,n)の場合にdC ijklmnは最小(=0)となる)。
【0059】
式(11)は、全ての(i,j,k,l,m,n)についてみたときの式(5の最大値である。
式(12)〜式(15)は、それぞれ、全ての(i,j,k)についてみたときの式(6)〜式(9)の最大値である。
【0060】
式(16)は、全ての(i,j,k)についてみたときの式(10)の最小値である。
式(17)は、式(10)を式(11)の値で正規化したものである。
【0061】
式(18)〜式(21)は、それぞれ式(6)〜式(9)を式(12)〜式(15)の値で正規化したものである。
式(22)のdL ijlmは、例えば、Lijの領域の黒画素とLlmの領域の黒画素の間の最短距離、あるいはLijの領域における黒画素の重心とLlmの領域における黒画素の重心の間の距離である。
【0062】
式(23)のwL ijは、例えば、Lij文字列で文字が並ぶ方向における当該Lij文字列の領域の幅あるいは高さである。
式(24)は、例えば、Clmn をLij文字列で文字が並ぶ方向に対して垂直の方向に射影した場合における、該Lij文字列に属するCijk の領域とClmn の領域とが該Lij文字列で文字が並ぶ方向に重複する部分の長さである。
【0063】
式(25)は、例えば、Lij文字列で文字が並ぶ方向に対して垂直の方向におけるLlm文字列の領域の幅あるいは高さである。
式(26)は、例えば、Bi 文字ブロックに属する文字列で文字が並ぶ方向における当該Bi 文字ブロックの幅である。
【0064】
式(27)は、例えば、LlmをBi 文字ブロック水平方向(例えば、Bi 文字ブロックに属する文字列で文字が並ぶ方向)に対して垂直の方向に射影した場合における、該Bi 文字ブロックに属するLijの領域とLlmの領域とがBi 文字ブロック水平方向に重複する部分の長さである。
【0065】
式(28)は、例えば、Bi 文字ブロックに属する文字列が並ぶ方向に対して垂直の方向における当該Bi 文字ブロックの長さである。
式(29)のE(xijk ,ik)は、xijk のiとkに関する平均であり、同様に、E(xijkijm,km)は、xijkijmのkとmに関する平均であり、E(xijk ,k)は、xijk のkに関する平均であり、E(xijim,jm)は、xijimのjmに関する平均であり、E(xij,j)は、xijのjに関する平均である。
これらを用いて、例えば以下のように各評価関数を設定する。
【0066】
【数7】
【0067】
【数8】
【0068】
【数9】
【0069】
なお、式(34)〜式(38)は、それぞれ、式(31)におけるxをDC ijk −θd1、WC ijk −θd2、HC ijk −θh1、RC ijk −θr1、PC ijk −θp1とし、θをθd2、θw2、θh2、θr2、θp2として、i(i=1〜NB )とj(j=1〜NLi)とk(k=1〜NCij )で総和を取ったものである。
【0070】
式(39)〜式(41)は、それぞれ、式(31)におけるxを(dC ijklmn−mC ijk )/mC min −θd3、RC ijk RC lmn −θr3、PC ijk PC lmn −θp3とし、θをθd4、θr4、θp4として、i(i=1〜NB )とj(j=1〜NLi)とk(k=1〜NCij )とl(l=1〜NB )とm(m=1〜NLl)とn(n=1〜NClm )で総和を取ったものである。
【0071】
式(44)は、l=i、m=j、n=mとした式(5)のkとmに関する平均を式(23)で割ったものについて、i(i=1〜NB )とj(j=1〜NLi)で総和を取ったものである。
【0072】
式(45)は、式(6)のkに関する平均で式(23)を割ったものについて、i(i=1〜NB )とj(j=1〜NLi)で総和を取ったものである。
式(46)は、式(25)を式(23)で割ったものについて、i(i=1〜NB )とj(j=1〜NLi)とl(l=1〜NB )とm(m=1〜NLl)で総和を取ったものである。
【0073】
式(47)は、式(6)を式(23)で割ったものについて、i(i=1〜NB )とj(j=1〜NLi)とk(k=1〜NCij )で総和を取ったものである。式(48)は、l=i、m=jとした式(24)を式(23)で割ったものについて、i(i=1〜NB )とj(j=1〜NLi)とk(k=1〜NCij )とn(n=1〜NCij )で総和を取ったものである。
【0074】
式(51)は、l=iとした式(22)のjとmに関する平均を式(26)で割ったものについて、i(i=1〜NB )で総和を取ったものである。
式(52)は、式(23)のjに関する平均で式(26)を割ったものについて、i(i=1〜NB )で総和を取ったものである。
【0075】
式(53)は、式(28)を式(26)で割ったものについて、i(i=1〜NB )とl(l=1〜NB )で総和を取ったものである。
式(54)は、式(23)を式(26)で割ったものについて、i(i=1〜NB )とj(j=1〜NLi)で総和を取ったものである。
【0076】
式(55)は、l=iとした式(27)を式(26)で割ったものについて、i(i=1〜NB )とj(j=1〜NLi)とm(m=1〜NLi)で総和を取ったものである。
【0077】
ただし、ΣC 、ΣL およびΣB はそれぞれVC 、VL およびVB の共分散行列である。また、添字付きθは変数パラメータである。これらのパラメータの値は例えば後に示す手法等によりサンプルから学習することができる。
【0078】
さて、式(3)を最小化する具体的なアルゴリズムとしては、例えば最急降下法やニュートン法を用いたり、あるいは評価関数のパラメータに関する微分が計算できないような場合は離散最適化法やジェネティックアルゴリズムを用いればよい。
【0079】
ここでは文献「視覚大脳皮質の計算理論」(電子情報通信学会論文誌D−IIVol.J72−D−II,No.8,pp.1111−1121,1990)で示された最適化手法に基づいて次式の微分方程式を例として示す。
【0080】
【数10】
【0081】
式(56)では、最初の3式のC(0)、L(0)、B(0)はそれぞれ文字群の状態変数C、文字列群の状態変数L、文字ブロック群の状態変数Bの初期値(初期状態)であり、残りの3式のdC/dt、dL/dt、dB/dtはそれぞれ更新前後のC、L、Bの変化分である(式(56)を離散的に解く場合にはtを離散的に考える)。
【0082】
例えば、dC/dt、dL/dt、dB/dtがそれぞれ規定値以下になった場合に処理を終了し、そのときのC、L、Bによって認識結果が与えられる。
次に、辞書作成方法すなわちパラメータ学習の手法について説明する。
【0083】
今、式(32)、式(42)および式(49)の各評価関数で表される文字モデル、文字列モデル、文字ブロックモデルおよび式(4)のパラメータ全体をΛとする。このとき、式(3)の評価関数の学習サンプルに関するアンサンブル平均を用いて次式の新たな評価関数を定義する。
【0084】
【数11】
Λの各値は次式を満足する連立方程式を解くか、あるいは勾配法やニュートン法等の数値計算手法を用いて解を求めればよい。
【0085】
【数12】
ここでは、勾配法を用いた微分方程式によるパラメータ更新の例を示す。
【0086】
【数13】
【0087】
ここで、tは時間を表す変数で、εは任意の正実数である。上記の手法により求められたパラメータを評価関数とともに辞書に登録する。
以上説明したように、本実施形態によれば、予め設定した評価関数の最適化に基づいて、文字候補成分、文字列候補成分、および文字ブロック候補成分の抽出を行うので、常に最適な認識処理が可能になり、高精度にパターン認識を行うことができる。また、文字候補成分に対しては文字認識を行い、局所的な認識尺度を用いて動的に文字検出切出しを行うことを可能にする。
【0088】
また、事前に用意した複数の学習サンプルを用いてパラメータ学習を行うことで、サンプル毎の固有のくせや変動を吸収した柔軟なシステムチューニングが可能となる。
【0089】
なお、本実施形態において、文字の認識自体を行わない場合(例えば、書面のフォーマットなどの構造だけ抽出する場合など)には、標準文字パターンの辞書やこれを用いた認識処理は不要になる。
【0090】
また、上記した実施形態に係るパターン認識装置は、パターン認識機能およびパターン認識辞書学習機能もしくはパターン認識辞書作成機能を兼ね備えたものであったが、本発明に係るパターン認識機能、辞書学習機能、辞書作成機能は独立実施可能であり、パターン認識機能を備えた(辞書学習機能、辞書作成機能は備えない)パターン認識装置、パターン認識辞書学習機能を備えた(認識機能は備えない)パターン認識辞書学習装置、パターン認識辞書作成機能を兼ね(認識機能は備えない)備えたパターン認識辞書作成装置としても実施可能である。パターン認識機能を備えた(辞書学習機能、辞書作成機能は備えない)パターン認識装置は例えば図1の最適化処理部6から認識機能に不要の部分を省いたものであり、パターン認識辞書学習機能を備えた(認識機能は備えない)パターン認識辞書学習装置やパターン認識辞書作成機能を兼ね(認識機能は備えない)備えたパターン認識辞書作成装置は例えば最適化処理部6から辞書学習機能や辞書作成機能に不要の部分と後処理部10と出力部12を省いたものである。
【0091】
なお、以上の各手順、手段、機能は、ソフトウェアとしても実現可能である。また、コンピュータに上記各手順を実行させるための(あるいはコンピュータを上記各手段として機能させるための、あるいはコンピュータに上記各機能を実現させるための)プログラムを記録したコンピュータ読取り可能な記録媒体として実施することもできる。
本発明は、上述した実施の形態に限定されるものではなく、その技術的範囲において種々変形して実施することができる。
【0092】
【発明の効果】
本発明によれば、これまで経験的に構築されたパターン検出切出し処理や認識処理を評価関数の最適化という理論的に明白な手法に基づいて再構築することにより、常に最適な処理が可能になる。また、従来は経験的な調整によるところが多かったパラメータ調整を学習サンプルから自動的に決定することが可能となる。この結果、高精度なパターン認識装置を実現することが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係るパターン認識装置の構成を示す図
【図2】同実施形態に係るパターン認識処理の手順の一例を示すフローチャート
【図3】同実施形態に係るパラメータ学習処理の手順の一例を示すフローチャート
【符号の説明】
2…入力部
4…前処理部
6…最適化処理部
8…辞書記憶部
10…後処理部
12…出力部
Claims (9)
- 入力画像イメージをパターン認識して、文字群に係る認識結果と、文字列群に係る認識結果と、文字ブロック群に係る認識結果とを同時に求めるパターン認識装置のパターン認識方法であって、
前記入力画像イメージについての前記文字群に係る認識結果の候補を示す第1の状態変数に対する評価関数と、前記入力画像イメージについての前記文字列群に係る認識結果の候補を示す第2の状態変数に対する評価関数と、前記入力画像イメージについての前記文字ブロック群に係る認識結果の候補を示す第3の状態変数に対する評価関数と、前記第3の状態変数と前記第2の状態変数の組に対する評価関数と、前記第2の状態変数と前記第1の状態変数の組に対する評価関数と、前記第1の状態変数と前記入力画像イメージの組に対する評価関数とからなる、前記入力画像イメージについての前記第1、第2及び第3の状態変数に係る認識結果に対する評価関数を定め、
前記認識結果に対する評価関数を最適化する方向に前記第1、第2及び第3の状態変数を更新することを、所定の条件が成立するまで繰り返し行い、
前記所定の条件が成立したときの前記第1、第2及び第3の状態変数を、それぞれ、前記文字群、前記文字列群及び前記文字ブロック群に係る認識結果とすることを特徴とするパターン認識方法。 - 前記入力画像イメージに対して前処理を行う際に、該入力画像イメージから、幾何情報、認識情報および属性情報のうちの少なくとも1つを求め、これを前記第1、第2及び第3の状態変数の少なくとも一部として用いるものとし、
前記入力画像イメージから前記認識情報を求める際に、所定の認識単位に対する認識結果として得られるカテゴリ情報、類似度および類似度を構成する局所的な類似度群のうちの少なくとも1つを前記認識情報の少なくとも一部とすることを特徴とする請求項1に記載のパターン認識方法。 - 前記第1、第2及び第3の状態変数を更新する際に、前記入力画像イメージから、幾何情報、認識情報および属性情報のうちの少なくとも1つを求め、これを更新後の前記第1、第2及び第3の状態変数の少なくとも一部として用いるものとし、
前記入力画像イメージから前記認識情報を求める際に、所定の認識単位に対する認識結果として得られるカテゴリ情報、類似度および類似度を構成する局所的な類似度群のうちの少なくとも1つを前記認識情報の少なくとも一部とすることを特徴とする請求項1に記載のパターン認識方法。 - 前記所定の条件は、更新前後の各状態変数の差分が規定値以下になったという条件、規定の繰り返し数に達したという条件、規定の処理時間に達したという条件、又はこれらを組み合わせた条件であることを特徴とする請求項1に記載のパターン認識方法。
- 入力画像イメージをパターン認識して、文字群に係る認識結果と、文字列群に係る認識結果と、文字ブロック群に係る認識結果とを同時に求めるために、前記入力画像イメージについての前記文字群に係る認識結果の候補を示す第1の状態変数に対する評価関数と、前記入力画像イメージについての前記文字列群に係る認識結果の候補を示す第2の状態変数に対する評価関数と、前記入力画像イメージについての前記文字ブロック群に係る認識結果の候補を示す第3の状態変数に対する評価関数と、前記第3の状態変数と前記第2の状態変数の組に対する評価関数と、前記第2の状態変数と前記第1の状態変数の組に対する評価関数と、前記第1の状態変数と前記入力画像イメージの組に対する評価関数とからなる、前記入力画像イメージについての前記第1、第2及び第3の状態変数に係る認識結果に対する評価関数を定め、前記認識結果に対する評価関数を最適化する方向に前記第1、第2及び第3の状態変数を更新することにより行うパターン認識のために該認識結果に対する評価関数を作成するためのパターン認識辞書作成方法であって、
前記認識結果に対する評価関数におけるパラメータを複数の学習サンプルを用いた所定の学習アルゴリズムにより定め、
このパラメータを用いて前記認識結果に対する評価関数を構成することを特徴とするパターン認識辞書作成方法。 - 請求項1ないし4のいずれか1項に記載のパターン認識方法によりパターン認識を行う手段を備えたことを特徴とするパターン認識装置。
- 請求項5に記載のパターン認識辞書作成方法により作成されたパターン認識辞書を用いてパターン認識を行う手段を備えたことを特徴とするパターン認識装置。
- コンピュータに、入力画像イメージをパターン認識して、文字群に係る認識結果と、文字列群に係る認識結果と、文字ブロック群に係る認識結果とを同時に求めさせるためのプログラムであって、
コンピュータに、
前記入力画像イメージについての前記文字群に係る認識結果の候補を示す第1の状態変数に対する評価関数と、前記入力画像イメージについての前記文字列群に係る認識結果の候補を示す第2の状態変数に対する評価関数と、前記入力画像イメージについての前記文字ブロック群に係る認識結果の候補を示す第3の状態変数に対する評価関数と、前記第3の状態変数と前記第2の状態変数の組に対する評価関数と、前記第2の状態変数と前記第1の状態変数の組に対する評価関数と、前記第1の状態変数と前記入力画像イメージの組に対する評価関数とからなる、前記入力画像イメージについての前記第1、第2及び第3の状態変数に係る認識結果に対する評価関数を定めさせ、
前記認識結果に対する評価関数を最適化する方向に前記第1、第2及び第3の状態変数を更新することを、所定の条件が成立するまで繰り返し行わせ、
前記所定の条件が成立したときの前記第1、第2及び第3の状態変数を、それぞれ、前記文字群、前記文字列群及び前記文字ブロック群に係る認識結果とさせるためのプログラムを記録したコンピュータ読取り可能な記録媒体。 - 入力画像イメージをパターン認識して、文字群に係る認識結果と、文字列群に係る認識結果と、文字ブロック群に係る認識結果とを同時に求めるために、前記入力画像イメージについての前記文字群に係る認識結果の候補を示す第1の状態変数に対する評価関数と、前記入力画像イメージについての前記文字列群に係る認識結果の候補を示す第2の状態変数に対する評価関数と、前記入力画像イメージについての前記文字ブロック群に係る認識結果の候補を示す第3の状態変数に対する評価関数と、前記第3の状態変数と前記第2の状態変数の組に対する評価関数と、前記第2の状態変数と前記第1の状態変数の組に対する評価関数と、前記第1の状態変数と前記入力画像イメージの組に対する評価関数とからなる、前記入力画像イメージについての前記第1、第2及び第3の状態変数に係る認識結果に対する評価関数を定め、前記認識結果に対する評価関数を最適化する方向に前記第1、第2及び第3の状態変数を更新することにより行うパターン認識のために該認識結果に対する評価関数をコンピュータに作成させるためのプログラムであって、
コンピュータに、
前記認識結果に対する評価関数におけるパラメータを複数の学習サンプルを用いた所定の学習アルゴリズムにより定めさせ、
このパラメータを用いて前記認識結果に対する評価関数を構成させるためのプログラムを記録したコンピュータ読取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP00166298A JP4160140B2 (ja) | 1998-01-07 | 1998-01-07 | パターン認識方法、パターン認識辞書作成方法及びパターン認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP00166298A JP4160140B2 (ja) | 1998-01-07 | 1998-01-07 | パターン認識方法、パターン認識辞書作成方法及びパターン認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11195087A JPH11195087A (ja) | 1999-07-21 |
JP4160140B2 true JP4160140B2 (ja) | 2008-10-01 |
Family
ID=11507743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP00166298A Expired - Lifetime JP4160140B2 (ja) | 1998-01-07 | 1998-01-07 | パターン認識方法、パターン認識辞書作成方法及びパターン認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4160140B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3831707B2 (ja) * | 2001-05-07 | 2006-10-11 | アンリツ株式会社 | 入射光を光吸収層内で繰り返し伝搬させる半導体受光素子及びその製造方法 |
US8340430B2 (en) | 2007-07-10 | 2012-12-25 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying digital image characteristics |
US8160365B2 (en) | 2008-06-30 | 2012-04-17 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying digital image characteristics |
US11093798B2 (en) * | 2018-12-28 | 2021-08-17 | Palo Alto Research Center Incorporated | Agile video query using ensembles of deep neural networks |
-
1998
- 1998-01-07 JP JP00166298A patent/JP4160140B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH11195087A (ja) | 1999-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0740263B1 (en) | Method of training character templates for use in a recognition system | |
Kovalevsky | Image pattern recognition | |
CN110135414B (zh) | 语料库更新方法、装置、存储介质及终端 | |
US8693043B2 (en) | Automatic document separation | |
US8494273B2 (en) | Adaptive optical character recognition on a document with distorted characters | |
US5594809A (en) | Automatic training of character templates using a text line image, a text line transcription and a line image source model | |
EP0745952B1 (en) | Method and system for automatic transcription correction | |
US7929769B2 (en) | Script recognition for ink notes | |
CN111401099B (zh) | 文本识别方法、装置以及存储介质 | |
US8139865B2 (en) | Computer-implemented system and method for recognizing patterns in a digital image through document image decomposition | |
CN115545009B (zh) | 一种获取目标文本的数据处理系统 | |
JPH06301781A (ja) | コンピュータによるパターン認識のためのイメージ変換方法及び装置 | |
JPH08167000A (ja) | 文字認識装置および方法 | |
US8340428B2 (en) | Unsupervised writer style adaptation for handwritten word spotting | |
JP3428494B2 (ja) | 文字認識装置及びその文字認識方法並びにその制御プログラムを記録した記録媒体 | |
Viard-Gaudin et al. | Recognition-directed recovering of temporal information from handwriting images | |
De Nardin et al. | Few-shot pixel-precise document layout segmentation via dynamic instance generation and local thresholding | |
CN111612045B (zh) | 一种获取目标检测数据集的通用方法 | |
JP4160140B2 (ja) | パターン認識方法、パターン認識辞書作成方法及びパターン認識装置 | |
CN111814801A (zh) | 一种机械图中标注串的提取方法 | |
Nath et al. | Improving various offline techniques used for handwritten character recognition: a review | |
Rao et al. | Orthographic properties based Telugu text recognition using hidden Markov models | |
Terrades et al. | Interactive-predictive detection of handwritten text blocks | |
Brown | Cursive script word recognition | |
Dulla | Geometric correction of historical Arabic documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080422 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080623 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080715 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080717 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110725 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120725 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130725 Year of fee payment: 5 |
|
EXPY | Cancellation because of completion of term |