JP2002222389A - 追加テンプレートの作成方法、追加テンプレートの作成をコンピュータにより実現させるプログラムおよびocr認識辞書作成装置 - Google Patents

追加テンプレートの作成方法、追加テンプレートの作成をコンピュータにより実現させるプログラムおよびocr認識辞書作成装置

Info

Publication number
JP2002222389A
JP2002222389A JP2001020377A JP2001020377A JP2002222389A JP 2002222389 A JP2002222389 A JP 2002222389A JP 2001020377 A JP2001020377 A JP 2001020377A JP 2001020377 A JP2001020377 A JP 2001020377A JP 2002222389 A JP2002222389 A JP 2002222389A
Authority
JP
Japan
Prior art keywords
template
learning data
standard
additional
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001020377A
Other languages
English (en)
Inventor
Itaru Konya
至 紺谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001020377A priority Critical patent/JP2002222389A/ja
Publication of JP2002222389A publication Critical patent/JP2002222389A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 マルチテンプレート辞書を用いて文字認識を
行う光学式文字認識装置に関し、偏った分布がなく高い
認識率を有するテンプレートの追加ができる方法を提供
することを目的とする。 【解決手段】 既存のテンプレートで誤読またはリジェ
クトされた文字パターンを学習データとして追加テンプ
レートを作成する場合に、これらの学習データに標準テ
ンプレートの中心部に位置する学習データを加えて追加
テンプレートを作成するように構成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、マルチテンプレー
ト辞書を有する光学式文字認識装置(OCR:Opti
cal Character Reader)におい
て、辞書との照合により誤読またはリジェクトされた文
字パターンを学習データとしてテンプレート辞書を作成
し、既に作成されているテンプレート辞書とは別に追加
登録が可能な辞書作成に関する。
【0002】
【従来の技術】手書き文字や印刷文字などの文字パター
ンから文字を認識するOCRは、事務合理化の一環とし
て各方面での利用が盛んである。OCRは文字認識の際
に認識文字パターンの特徴量と照合するための辞書を備
えており、カテゴリ(文字種をカテゴリと呼ぶこととす
る)毎のテンプレート辞書を備えている。例えばJIS
第一水準の漢字は約3,000カテゴリあるが、OCR
にこれらの文字を認識させようとすれば、最低3,00
0個のテンプレート辞書を備える必要がある。これらの
テンプレートは、一つのカテゴリに対して数百から数万
程度の文字パターンのサンプルを収集し、これらから特
徴量を抽出して作成される(辞書作成の際に用いるこれ
らの文字パターンの文字画像のことを学習データと呼ぶ
こととする)。カテゴリ毎に一つのテンプレートを辞書
として備えこれらと照合して文字認識を行う場合もある
が、一つのカテゴリに複数のテンプレートを備え文字認
識を行うマルチテンプレート辞書を用いる方法も一般に
行われている。これは最初に作られたテンプレートで誤
読またはリジェクトされた文字パターンを集めて既存の
テンプレートとは別にテンプレートを作成し、辞書とし
て登録するなどの方法でテンプレートを追加する。最初
に作られたテンプレートと追加したテンプレートの両方
のテンプレートを用いて認識文字を照合するので文字の
認識率が高くなることを狙ったものである。以降の説明
では、初期に標準的な文字パターンを学習データとして
作成したテンプレートを標準テンプレート、その後標準
テンプレートに追加して作成するテンプレートを追加テ
ンプレート、標準テンプレートの作成に用いた学習デー
タを標準学習データと呼ぶ。
【0003】より詳細なテンプレート作成の説明に入る
前にOCRの動作について概説する。図2は、一般的な
OCRの基本動作のフローを示す。図2において、まず
手書きあるいは印刷された原稿4をスキャナで読み込
み、2値化処理した画像から定義情報を用いて文字列を
抽出し、更に1文字単位に文字画像の切り出しを行う。
(S1〜S3) この切り出した文字画像を後述のテンプレート作成方法
と同様の方法で文字画像の正規化および特徴量の抽出を
行い、予め記憶してある認識用のテンプレート辞書5と
照合して認識文字と認識辞書の各テンプレートとの相違
度を計算する。この相違度の最も低いテンプレートのカ
テゴリを認識結果とする。相違度は、例えば疑似ベイズ
識別関数の評価値を用いて計算し、相違度の小さいほど
両者は類似している、と見なされる。疑似ベイズ識別関
数については、特許出願公告平2−59507に開示さ
れており、この分野では公知である。(S4〜S7) 次にテンプレートの一般的な作成方法について図3で説
明する。テンプレートの作成のフローは二つのフェーズ
からなり、最初のフェーズは学習データの文字画像を蓄
積することを行い、次のフェーズで蓄積した文字画像デ
ータからテンプレートを作成することを行う。
【0004】まず、テンプレート作成のために収集した
文字サンプルである学習用原稿6をスキャナで読み込
み、2値化処理した画像から定義情報を用いて文字列を
抽出する。続いて、読み取った文字列から1文字分の切
り出しを行い、文字のカテゴリを指定して文字画像デー
タベース7に格納する。文字列の文字数分に対してこの
処理を行う。(S11〜S14) 学習用原稿6の全てに対しこの処理を行うことにより、
文字画像データベース7にはカテゴリ毎の文字画像が蓄
積される。前述したように一つのカテゴリに対し、文字
画像は一般に数百〜数万の数を蓄積する。以上が最初の
フェーズである文字画像の蓄積のフローである。
【0005】次に蓄積された文字画像を用いて二つ目の
フェーズであるテンプレートを作成するフローに入る。
【0006】文字画像データベース7からテンプレート
作成の対象となるカテゴリの文字画像を読み出す。文字
画像の文字パターンの外形は画像データ毎に異なるの
で、外形が一定の大きさに収まるように正規化する。正
規化した画像データから特徴量の抽出を行う。特徴量に
は様々なものが提案されており、代表的なものとして方
向成分を用いるものがある。これもこの分野では公知の
技術のため省略する。(S15〜S17) 全ての学習データの文字画像について、S15〜S17
の処理を行い、例えば疑似ベイズ識別関数を用いて各パ
ラメータを特徴量の平均ベクトルや標本共分散行列など
から計算し、このパラメータを対象のカテゴリのテンプ
レート辞書として登録する。(S18〜S19)
【0007】
【発明が解決しようとする課題】上記で述べたように、
追加テンプレートを作成する代表的な方法として、既存
のテンプレートで誤読あるいはリジェクトされた文字パ
ターンの集団を学習データとしてテンプレートを作成す
る方法がある。この場合、学習データはその素性から標
準テンプレートの認識境界面に近い所に存在する、また
は標準テンプレートから離れた場所に位置する、と考え
られる。そして、識別境界面に近い所に存在する学習デ
ータは文字認識の際に悪影響を及ぼすことがある。
【0008】このことを説明するために、図4にテンプ
レートの分布を2次元の特徴空間の図で表現したイメー
ジを示す。図4(a)は、カテゴリAとカテゴリBの標
準テンプレートの分布を表す。分布A’はカテゴリAの
標準学習データがこの特徴空間上で図のような分布を示
すものとして表現した領域であり、分布Aは分布A’の
母集団が正規分布すると仮定して求めたカテゴリAの標
準テンプレートの勢力範囲を表現したものである。分布
Bについても同様である。認識対象文字をリジェクト
(認識不能として判断)する方法としては、カテゴリA
とカテゴリBのどちらも相違度が高い場合にリジェクト
とする、あるいはカテゴリAとカテゴリBのどちらから
も相違度がほぼ同じ場合にリジェクトとする、などの方
法がある。したがって、リジェクトされた文字は境界線
Sに近い部分に分布しやすい。
【0009】図4(b)は追加テンプレートが悪影響を
与える例として、標準テンプレートにより誤読またはリ
ジェクトされた第二の学習データの文字パターンの集団
がA1’の分布をとる場合を示す。分布A1’が第二の
学習データの分布をするものとして表現した領域であ
り、分布A1が分布A1’から求められた追加テンプレ
ートの集団が正規分布すると仮定して求めたカテゴリA
1(カテゴリAと同カテゴリ)の追加テンプレートの勢
力範囲を表現したものである。この場合、分布A1と分
布Bの勢力範囲が重なっているため、カテゴリAとカテ
ゴリBの相違度の反転が生じ、誤読が発生しやすくな
る。
【0010】このように、単純に誤読あるいはリジェク
トされた文字パターンのみで追加テンプレートを作成す
ると、既存のテンプレートに悪影響を及ぼし、誤読が多
くなる場合があることが問題である。
【0011】そこで本発明の目的は、既存のテンプレー
トに悪影響を与えることの少ない追加テンプレートの作
成ができる装置を提供するものである。
【0012】
【課題を解決するための手段】図1は本発明の原理を示
すものである。まず、学習データ選択手段1において標
準テンプレート作成のために用いた標準学習データの中
から、標準テンプレートの中心付近にある学習データを
第一の学習データとして選択する。標準テンプレートの
中心部にある学習データの選択方法は、標準学習データ
の中から任意に取り出した学習データとその標準テンプ
レートとの相違度を例えば疑似ベイズ識別関数により計
算し、相違度が所定の閾値以下であれば第一の学習デー
タとして選択する、こととすればよい。
【0013】次にテンプレート作成手段2において、学
習データ選択手段1で選択された第一の学習データと第
二の学習データとを加え、これらから追加テンプレート
を作成する。作成した追加テンプレートは、テンプレー
ト登録手段3において辞書として登録する。新しい辞書
には既存のテンプレートに加えて追加テンプレートが登
録される。
【0014】このようにして作成された追加テンプレー
トは、図4の(c)の分布をする。即ち、分布A0’は
第一の学習データの分布を表し、分布A1’は図4
(b)と同様に第二の学習データの分布を表す。そして
分布A01は分布A0’と分布A1’とを加えたものが
正規分布をするものと仮定して求められた追加テンプレ
ートA01の勢力範囲を表すものである。
【0015】図4(b)でテンプレートA1’はテンプ
レートBと重なるような分布を持っている場合を例示し
たが、図4(c)のように標準学習データの中心の一の
部データA0’を第二の学習データA1’に加えてテン
プレートの作成を行うことにより、テンプレートBとの
重なりを回避できたことを示している。これは、標準学
習データの一部を加えることにより追加テンプレートの
中心が標準テンプレートの中心の方向に移動したためで
ある。
【0016】このようにして作成した追加テンプレート
は、何時も重ならない訳ではないが、仮に重なることが
あっても小さい範囲で収まることが容易に推測される。
従って、文字認識の精度は誤読またはリジェクトされた
文字パターンの学習データ(即ち第二の学習データ)の
みで作成したものより高くなる。
【0017】
【発明の実施の形態】以下に本発明の一実施例を図面を
参照して説明する。
【0018】図5は本発明のテンプレートの追加方法を
実行するハードウェアの構成例を示している。図5にお
いて、CPU11は文字認識の処理やテンプレートの作
成の処理を実行する。補助記憶12は、標準テンプレー
トおよび追加テンプレートを辞書として格納する。具体
的にはハードディスクあるいはCD−ROMなどであ
る。スキャナ14はテンプレート作成時では学習用原稿
である文字パターンの読み込み、文字認識時では原稿の
読み込みに用いる。この他にキーボード13、ディスプ
レイ15から構成し、これらの機器はCPU11に対す
る処理の指示入力、あるいは処理結果の表示を行うもの
である。
【0019】次に、本発明のテンプレートの追加方法の
実施例について説明する。
【0020】図6は、図1に示した発明の原理図におけ
る学習データ選択手段1の実施例である。まず、標準学
習データの文字画像データベースの中から追加テンプレ
ートの作成を行う対象カテゴリの文字画像を取り出し、
画像の正規化を行って特徴量の抽出を行う。この処理は
図3の説明と重複するので省略する。(S21〜S2
3) 次に、求めた特徴量と標準テンプレートとの相違度を計
算し、その計算結果が追加テンプレートの作成者が指定
した相違度の値以下のものであるかどうか、を判定す
る。例えば追加テンプレートの作成者が、相違度として
標準テンプレートとの距離値が100以内であればその
位置にある標準学習データは標準テンプレートの略中央
部にある、と考えたとき距離値100を指定する。指定
値を越えたとき、その標準学習データは標準テンプレー
トの中央部から外れた箇所に位置していると判断するも
のである。相違度が指定値以下であれば、この標準学習
データを第一の学習データとしてデータベースに格納
し、指定値を越えるものであれば格納しない。1例とし
て、図8にカテゴリが「9」の文字の標準学習データに
ついて、その文字パターンと「9」の標準テンプレート
との特徴量間の距離値の例を示した。追加テンプレート
の作成者からの距離の指定値が100であった場合、1
番目と3番目の標準学習データが第一の学習データとし
て選択されることになる。(S24〜S26) 続いて、第一の学習データの数が作成者によって指定し
た数に達しているかどうか、の判断を行う。第一の学習
データの数が第二の学習データの数に較べて極端に少な
いと、追加テンプレートの中心は第二の学習データに近
くなり、第二の学習データのみで作成した場合の認識領
域と大差なくなる。即ち、図4(c)に示すような分布
とならず、カテゴリBとの重複領域ができて認識率改善
の効果は小さい。しかし、第一の学習データの数が第二
の学習データの数に較べてあまりに大きくても選択処理
に時間を要し効率的ではない。第二の学習データの数と
同数程度を目安として指定することも一案であるが、本
発明は指定する数にとらわれるものではない。ここまで
の処理により、標準テンプレートの中心部の標準学習デ
ータを選択し第一の学習データの文字画像データベース
9に格納されたことになる。(S27〜S28) 以上により、標準学習データの中から標準テンプレート
の中央部にある学習データの選択の方法を示した。追加
テンプレートは、上記の実施例で示した第一の学習デー
タと第二の学習データとの文字画像を用いて作成するこ
とになる。その実施例を図7示す。図7は図3の文字画
像データベース7が第一の学習データの文字画像データ
ベース9と第二の学習データの文字画像データベース1
0と異なり、S15のステップ以降の処理フローと同一
であるので説明は省略する。 (付記1)標準テンプレートと追加テンプレートから成
るマルチテンプレートにより文字認識を行うための追加
テンプレートの作成方法であって、追加する文字カテゴ
リの標準テンプレートの中心部に位置する学習データを
第一の学習データとして選択する学習データ選択手順
と、第一の学習データを、標準テンプレートで誤認また
は認識不能とされた第二の学習データに加えて追加テン
プレートを作成するテンプレート作成手順と、テンプレ
ート作成手順によって作成された追加テンプレートを辞
書として登録するテンプレート登録手順とを備えること
を特徴とする追加テンプレート作成方法。 (付記2) 標準テンプレートと追加テンプレートから
成るマルチテンプレートにより文字認識を行うための追
加テンプレートを作成するプログラムであって、追加す
る文字カテゴリの標準テンプレートの中心部に位置する
学習データを第一の学習データとして選択する学習デー
タ選択手順と、第一の学習データを、標準テンプレート
で誤認または認識不能とされた第二の学習データに加え
て追加テンプレートを作成するテンプレート作成手順
と、テンプレート作成手順によって作成された追加テン
プレートを辞書として登録するテンプレート登録手順と
をコンピュータによって実現させるプログラム。 (付記3) 標準テンプレートと追加テンプレートから
成るマルチテンプレートにより文字認識を行うための追
加テンプレートを作成するOCR認識辞書作成装置であ
って、追加する文字カテゴリの標準テンプレートの中心
部に位置する学習データを第一の学習データとして選択
する学習データ選択手段と、第一の学習データを、標準
テンプレートで誤認または認識不能とされた第二の学習
データに加えて追加テンプレートを作成するテンプレー
ト作成手段と、テンプレート作成手段によって作成され
た追加テンプレートを辞書として登録するテンプレート
登録手段とを有することを特徴とするOCR認識辞書作
成装置。 (付記4)付記1記載のテンプレート作成方法であっ
て、学習データ選択手順は、標準テンプレートの学習デ
ータから任意の学習データを選び、選ばれた学習データ
の特徴量と標準テンプレートの特徴量との相違度を比較
して所定の相違度内にあるとき第二の学習データとして
選択することを特徴とする追加テンプレート作成方法。
【0021】
【発明の効果】本発明によれば、追加テンプレートの作
成において、既存のテンプレートを用いて誤読またはリ
ジェクトされた文字パターンを追加テンプレート用の学
習データとし、その学習データに標準テンプレートの作
成に用いた標準学習データの中央部の学習データを加え
たことにより、認識率の高い追加テンプレートの作成が
可能になる。
【図面の簡単な説明】
【図1】本発明の原理図である。
【図2】OCRによる文字認識の基本動作フローであ
る。
【図3】テンプレートの作成フローである。
【図4】追加テンプレートによる文字認識の勢力範囲イ
メージ
【図5】OCRのハード構成例である。
【図6】第一の学習データの選択フロー例である。
【図7】追加テンプレートの作成フロー例である。
【図8】標準学習データの文字パターンと距離値例
【符号の説明】
1:学習データ選択手順 2:テンプレート作成手順 3:テンプレート登録手順 4:原稿 5:テンプレート辞書 6:学習用原稿 7:文字画像データベース 8:標準学習データの文字画像データベース 9:第一の学習データの文字画像データベース 10:第二の学習データの文字画像データベース 11:CPU 12:補助記憶 13:キーボード 14:スキャナ 15:ディスプレイ

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 標準テンプレートと追加テンプレートか
    ら成るマルチテンプレートにより文字認識を行うための
    追加テンプレートの作成方法であって、 追加する文字カテゴリの標準テンプレートの中心部に位
    置する学習データを第一の学習データとして選択する学
    習データ選択手順と、 第一の学習データを、標準テンプレートで誤認または認
    識不能とされた第二の学習データに加えて追加テンプレ
    ートを作成するテンプレート作成手順と、 テンプレート作成手順によって作成された追加テンプレ
    ートを辞書として登録するテンプレート登録手順とを備
    えることを特徴とする追加テンプレート作成方法。
  2. 【請求項2】 標準テンプレートと追加テンプレートか
    ら成るマルチテンプレートにより文字認識を行うための
    追加テンプレートを作成するプログラムであって、 追加する文字カテゴリの標準テンプレートの中心部に位
    置する学習データを第一の学習データとして選択する学
    習データ選択手順と、 第一の学習データを、標準テンプレートで誤認または認
    識不能とされた第二の学習データに加えて追加テンプレ
    ートを作成するテンプレート作成手順と、 テンプレート作成手順によって作成された追加テンプレ
    ートを辞書として登録するテンプレート登録手順とをコ
    ンピュータによって実現させるプログラム。
  3. 【請求項3】 標準テンプレートと追加テンプレートか
    ら成るマルチテンプレートにより文字認識を行うための
    追加テンプレートを作成するOCR認識辞書作成装置で
    あって、 追加する文字カテゴリの標準テンプレートの中心部に位
    置する学習データを第一の学習データとして選択する学
    習データ選択手段と、 第一の学習データを、標準テンプレートで誤認または認
    識不能とされた第二の学習データに加えて追加テンプレ
    ートを作成するテンプレート作成手段と、 テンプレート作成手段によって作成された追加テンプレ
    ートを辞書として登録するテンプレート登録手段とを有
    することを特徴とするOCR認識辞書作成装置。
JP2001020377A 2001-01-29 2001-01-29 追加テンプレートの作成方法、追加テンプレートの作成をコンピュータにより実現させるプログラムおよびocr認識辞書作成装置 Withdrawn JP2002222389A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001020377A JP2002222389A (ja) 2001-01-29 2001-01-29 追加テンプレートの作成方法、追加テンプレートの作成をコンピュータにより実現させるプログラムおよびocr認識辞書作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001020377A JP2002222389A (ja) 2001-01-29 2001-01-29 追加テンプレートの作成方法、追加テンプレートの作成をコンピュータにより実現させるプログラムおよびocr認識辞書作成装置

Publications (1)

Publication Number Publication Date
JP2002222389A true JP2002222389A (ja) 2002-08-09

Family

ID=18886093

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001020377A Withdrawn JP2002222389A (ja) 2001-01-29 2001-01-29 追加テンプレートの作成方法、追加テンプレートの作成をコンピュータにより実現させるプログラムおよびocr認識辞書作成装置

Country Status (1)

Country Link
JP (1) JP2002222389A (ja)

Similar Documents

Publication Publication Date Title
Bissacco et al. Photoocr: Reading text in uncontrolled conditions
US7120318B2 (en) Automatic document reading system for technical drawings
TWI321294B (en) Method and device for determining at least one recognition candidate for a handwritten pattern
KR100249055B1 (ko) 문자인식장치및방법
KR100412317B1 (ko) 문자인식/수정방법및장치
US20050074169A1 (en) Holistic-analytical recognition of handwritten text
US20120070073A1 (en) Searching document images
Hussain et al. Nastalique segmentation-based approach for Urdu OCR
US20020114515A1 (en) Character string recognition apparatus, character string recognizing method, and storage medium therefor
US5621818A (en) Document recognition apparatus
JP2005148987A (ja) オブジェクト識別方法とその装置、プログラム及び記録媒体
JPH11203415A (ja) 類似パターンカテゴリ識別辞書作成装置および方法
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
Chatbri et al. An application-independent and segmentation-free approach for spotting queries in document images
JP4046941B2 (ja) 文書書式識別装置および識別方法
US9015573B2 (en) Object recognition and describing structure of graphical objects
US9224040B2 (en) Method for object recognition and describing structure of graphical objects
JP2002222389A (ja) 追加テンプレートの作成方法、追加テンプレートの作成をコンピュータにより実現させるプログラムおよびocr認識辞書作成装置
Hebert et al. Writing type and language identification in heterogeneous and complex documents
Puri et al. Sentence detection and extraction in machine printed imaged document using matching technique
JP2906758B2 (ja) 文字読取装置
JPH08287188A (ja) 文字列認識装置
Alginahi et al. An arabic script recognition system
JP4805485B2 (ja) 単語認識方法および単語認識装置
JP2002183667A (ja) 文字認識装置及び記録媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080401