JPH06215197A

JPH06215197A - 文字認識方法および装置

Info

Publication number: JPH06215197A
Application number: JP5006956A
Authority: JP
Inventors: Katsumi Marukawa; 勝美丸川; Kazuki Nakajima; 和樹中島; Masashi Koga; 昌史古賀; Yoshihiro Shima; 好博嶋
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1993-01-19
Filing date: 1993-01-19
Publication date: 1994-08-05

Abstract

(57)【要約】【目的】各種の書体（フォント）を使用した文字画像
を、高速かつ高精度に認識する文字認識装置を提供す
る。【構成】文字画像が入力されると、前処理部１０５で形
状の特徴抽出等が行なわれる。この特徴により、大分類
部１１０でＫ１個の文字候補に絞り、中分類部１２０で
Ｋ２個の候補に絞り、細分類部１７５で１個に絞る。こ
の中分類部１２０において、まず辞書１６０により入力
画像とＫ１個の候補との類似度を算出部１２５で算出
し、上位Ｋ２個の候補を選択する。次に、辞書１６０と
は異なる辞書１６５により、入力画像とＫ２個の候補と
の類似度を算出部１３５で算出し、上位Ｋ２個の候補を
選択する。最後に、相互評価部１４５で、算出部１２
５，１３５による類似度のうちの上位Ｋ２個の候補を選
択し、中分類部１２０での候補とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、雑誌あるいは書類等の
文書中の印刷文字を読み取り、読み取られた印刷文字中
の文字パタンを認識し、認識された結果を記憶装置に格
納あるいは表示装置等に出力する文書読取り装置等にお
ける、文字認識方法に関する。

【０００２】

【従来の技術】雑誌あるいは書類等の文書中の印刷文字
を読み取り、読み取られた印刷文字中の文字を認識する
場合、読み取られた文字の特徴と、予め用意された種々
の文字の特徴を格納したデータ群（これを認識辞書とい
う）とを比較して、読み取られた文字が何という文字で
あるかを認識する。

【０００３】この際、１つの文字に対して、複数の書体
（明朝体、ゴシック体、教科書体等）、複数のフォント
が存在している。このために、文字に対してすべての書
体およびフォントについての特徴を各々抽出して辞書を
作成し、これらの辞書に格納された特徴と、読み取られ
た文字の特徴とを照合することにより認識を行なうと、
精度は高くなるが速度が遅くなる。このため、認識方法
（認識辞書の作りかた等）に工夫が必要となる。

【０００４】また、文字の異なる書体あるいはフォント
を学習させ、類似の書体あるいは類似のフォントの共有
化（文字に対する類似の複数の書体、類似の複数のフォ
ントをそれぞれ同一グループとし、各グループ毎にそれ
ぞれ特徴を抽出して辞書を作成する）を計ることで、複
数の書体あるいはフォントの文字を認識する方法が知ら
れている。このように共有化を行なうと、精度は低くな
ることがあるが、速度は速くなる。

【０００５】さらに、漢字あるいは仮名の認識において
は、文字の構成要素である線（ストローク）の方向性を
特徴として抽出することが知られている。

【０００６】一方、文字の認識結果が誤っている場合
に、その認識結果を正しく修正することが必要となる。

【０００７】従来の文字認識方法としては、第２７回東
北大学電気通信研究シンポジウム論文集の１２９頁に開
示の方法、"Font recognition by a neural network" I
nt.J. Man-Machine Studies (1990) 33, 41-61 に開示
の方法が知られている。

【０００８】第２７回東北大学電気通信研究シンポジウ
ム論文集の１２９頁に開示の方法は、複数のフォントを
学習することにより一つの辞書を作成して、類似差の算
出を行い入力パタンを評価する。

【０００９】"Font recognition by a neural network"
に開示の方法では、ニューラルネットワークを用いて、
入力文字のフォントを求める。

【００１０】一方、認識結果を正しく修正する方法とし
ては、システムクオリティ株式会社のQuick Readerのパ
ンフレットに開示の方法がある。システムクオリティ株
式会社のＱｕｉｃｋＲｅａｄｅｒのパンフレットに開
示の方法では、指示した文字パタンを画面上に大きく表
示して、その文字のコードを入力する。

【００１１】

【発明が解決しようとする課題】上記従来の方法によれ
ば、認識で用いる特徴としてストロークの方向性を用い
ているため、縦ストロークが垂直で横ストロークが水平
な明朝体やゴシック体の書体あるいはフォントは特徴が
似ている（特徴空間で近い）が、教科書体のように縦ス
トロークが必ずしも垂直でなく横ストロークが必ず傾い
ている書体あるいはフォントの場合には、明朝体やゴシ
ック体に特徴が似ていない（特徴空間において遠い）。

【００１２】そのため、例えば、１文字のこれら３つの
書体（明朝体、ゴシック体、教科書体）を共有化させて
一つのテンプレート（マスク、すなわち、特徴を抽出す
るためのモデル）にしてしまうと、このマスクは３つの
書体の特徴の中間値（平均値）を特徴として有すること
になる。このため、３つの書体各々の特徴がぼけてしま
い、複数書体によるマスクの共有化を行っていない他の
文字のマスクと誤認識されることがあり、認識率が低下
する。

【００１３】また、同時に、特徴空間で遠い書体あるい
はフォントを含めて共有化処理を実行しても、共有化さ
れない書体あるいはフォントもあるため、入力パタンと
の類似さを求める（照合する）べきマスク数が増加し、
処理時間が増加する。

【００１４】以上述べたことを図２を用いて説明する。
全体集合に３種類のフォントＡ，Ｂ，Ｃがあるとする。
理解しやすいように、それぞれフォントＡを明朝体、フ
ォントＢをゴシック体、フォントＣを教科書体とする。
ここで、書体とは明朝体、ゴシック体、教科書体のよう
な大きな分類である。同じ明朝体でも出力装置や写植メ
ーカによって全て文字の形状が微妙に異なっており、こ
の一つづつ異なる形状の種類（の予備型）がフォントで
ある。すなわち、書体はフォントを大きく纏めたもので
ある。実際は、明朝体においては、出力装置や写植メー
カによりフォントは異なるため複雑となる。

【００１５】図２においては、ある文字については、フ
ォントＡ、Ｂ、Ｃについて特徴を共有化する処理によ
り、ＣＬ１（２０５）という一つのマスクで学習された
とする。また、異なる文字については、共有化処理でも
共有化されず、フォントＡ、Ｂ、Ｃが、それぞれＣＬ２
（２６０）、ＣＬ３（２５０）、ＣＬ４（２７０）と異
なるマスクになったとする。

【００１６】ここで、共有化処理を行なうのは、マスク
数を削減し辞書メモリを小さくするため、また、マスク
数を削減し入力パタンとの類似さを求める際の処理量を
減らし高速とするためである。

【００１７】ＣＬ１（２０５）においては共有化処理に
より、例えば、これら３種のフォントＡ、Ｂ、Ｃの特徴
の平均が代表マスク（２２５）の特徴となる。図２のよ
うな特徴空間の概念図に対し、入力パタン（２４５）
（このパタンは、ＣＬ１のカテゴリであるとする）が、
図のような位置付けであるとする。この辞書を用いてマ
ッチングを行なった場合、ＣＬ１の代表マスク２２５と
の距離ａとＣＬ２のマスク２６０との距離ｃを比べる
と、ＣＬ２のマスク２６０との距離の方が近くなり、実
際はＣＬ１のカテゴリであるにも係らずＣＬ２のカテゴ
リと認識され、誤認識する。

【００１８】上記のような誤認識は共有化処理を行なっ
たために発生している。共有化を行なわず、ＣＬ１（２
０５）の各フォントＡ、Ｂ、Ｃについてカテゴリを生成
すれば、入力パタン２４５はＣＬ１のフォントＣ（２２
０）に一番近いので、正解のカテゴリが選択できる。

【００１９】このように、従来のストロークの方向性特
徴での共有化処理を用いた辞書でのマッチングにおい
て、明朝体とゴシック体のような特徴空間で類似した書
体を共有化する場合は良いが、教科書体のように、特徴
空間でこれらの書体（明朝体とゴシック体）と異なる特
徴空間を持つ書体を共有化することは、妨害カテゴリ
（他の文字のカテゴリで特徴空間で類似しているカテゴ
リ）により認識精度が低下する（妨害カテゴリの文字で
あると認識してしまう）という問題点が生じる。また、
すべての様々な書体あるいはフォントを一つの辞書とし
て作成すると、共有化処理を行っても１文字に対して複
数個のマスクを所有するカテゴリが生じるため、類似度
を求めるマスクの数が増加し処理時間が掛かるという問
題が生じる。

【００２０】また、図３に、文字「縁」の明朝体・ゴシ
ック体・教科書体のサンプル３０５，３１０，３１５を
教科書体の妨害カテゴリ３２０（「緑」）と共に示す。
これから容易に理解されるように、明朝体３０５・ゴシ
ック体３１０の水平のストロークは、教科書体３１５に
おいては間違い無く水平にはならない。文字によって
は、明朝体・ゴシック体で垂直のストロークが教科書体
で垂直にはならない場合がある。

【００２１】次に、「縁」の教科書体の拡大図を図４に
示す。この図の４０５の部分は、明朝体・ゴシック体
（図３参照）で垂直あるいは水平のストロークがすべて
傾いている。このため、ストロークの方向性を認識の特
徴とする場合、４０５の部分は、明朝体およびゴシック
体の特徴とは大きくずれてしまう。

【００２２】このため、これら３種の書体を学習させ
て、図３の３２０と異なるフォントで教科書体の「縁」
が入力してくると、カテゴリのマスクにおける特徴にお
いては、正解としてマッチングすべき教科書体の「縁」
の特徴は、他の明朝体およびゴシック体の「縁」の特徴
を加味されることでぼけてしまっているので、図４の４
１０のストロークの構成が異なっていても、妨害カテゴ
リである教科書体の「緑」が正解となることがある。

【００２３】ここで、「緑」と「縁」では図４の４１０
の部分のストロークの構成が異なるが、ここではオムニ
フォント（無限の種類のフォント）を取り扱うため、当
然、同一書体でも異なる種類のフォントにより各部分の
構成ストロークの位置ずれがあるので、「縁」と「緑」
の４１０に相当する部分が異なっても上記の例で示した
問題が生じてしまう。

【００２４】また、上記従来の方法では、入力文字のフ
ォントあるいは書体の判定手段としてニューラルネット
ワークを用いるため、フォントあるいは書体の識別のみ
で処理量が増大するという問題がある。また、これ（フ
ォントあるいは書体）を認識結果の表示あるいは出力デ
ータの属性とする機能が無いため、認識結果のフォント
あるいは書体を画面上に表示できず、ユーザの使い勝手
が悪いという問題点があった。

【００２５】また、自動化処理における誤りに対しての
容易な修正方法等を考慮した機能を持っておらず、ユー
ザの使い勝手が悪い。

【００２６】さらに、上記従来の方法では、１位に認識
できなかった文字パタンを、以降の認識で誤らないよう
に（１位に認識できるように）ユーザ辞書への登録を行
えるが、登録する文字のコードをキーボードから入力す
る必要があり、使い勝手が悪いという問題があった。

【００２７】以上のように、従来の方法ではオムニフォ
ントで表示された文字の認識においては低速または精度
が低く、また、ユーザに取って使い勝手が悪いという問
題点があった。

【００２８】そこで、本発明の第１の目的は、雑誌ある
いは書類のような文書中のオムニフォントの印刷文字を
高速かつ高精度に認識する認識方法を提供することであ
る。

【００２９】また、本発明の第２の目的は、本発明の認
識方法を用い入力文字のフォントあるいは書体を判定
し、判定されたフォントあるいは書体を認識結果の表示
あるいは出力データの属性とする機能を提供することで
ある。

【００３０】また、本発明の第３の目的は、第２の目的
における書体あるいはフォントの判定誤りを、容易に修
正する方法を提供することである。

【００３１】また、本発明の第４の目的は、１位に認識
できなかった文字パタンを再度誤らないように、ユーザ
辞書等に登録する際のユーザの登録方法およびシステム
の辞書への登録方法を提供することである。

【００３２】

【課題を解決するための手段】上記課題を解決するため
に、本発明によれば、文字の特徴データを格納した辞書
を備え、入力された文字画像の特徴を抽出手段により抽
出し、抽出された前記文字画像の特徴を前記辞書に格納
された特徴データと照合し、前記照合結果に基づいて前
記画像の文字を認識し、表示手段を備えて、前記表示手
段に認識結果である文字を表示する文字認識装置におい
て、入力された画像に対する文字の候補をＫ１個選択す
る第１の分類手段と、Ｋ１個の文字の候補から、前記Ｋ
１個より少ない数であるＫ２個の文字の候補を選択する
第２の分類手段と、Ｋ２個の文字の候補から、１つの候
補を選択する第３の分類手段とを備えることができる。

【００３３】そして、第２の分類手段において、文字の
複数の類似した書体あるいは単一の書体の形状の特徴を
文字データとして有する第１の辞書と、文字画像から抽
出された特徴と、Ｋ１個の文字の候補に対応する第１の
辞書の文字データとの類似度を算出する第１の算出手段
と、第１の算出手段により算出された類似度に基づい
て、Ｋ２以下のＫ３個の文字を候補として選択する第１
の選択手段とを備えることができる。また、文字の複数
の類似した書体あるいは単一の書体の形状の、第１の辞
書とは異なる特徴を文字データとして有する第２の辞書
と、文字画像から抽出された特徴とＫ３個の文字の候補
に対応する第２の辞書の文字データとの類似度を算出す
る第２の算出手段と、第２の算出手段により算出された
類似度に基づいて、Ｋ３以下のＫ４個の文字を候補とし
て選択する第２の選択手段と、第１および第２の選択手
段により選択された（Ｋ３＋Ｋ４）個の文字の候補か
ら、第１および第２の算出手段により算出された類似度
に基づいて、Ｋ２個の文字を候補として選択する第３の
選択手段とを備えることができる。

【００３４】また、前記第１または第２の辞書に、新た
に文字データを登録するための登録手段を備えることも
できる。前記登録手段は、辞書に登録すべき文字画像を
外部から指定されて入力する登録画像指定手段と、入力
された文字画像から、抽出手段により特徴を抽出するよ
うに制御する抽出制御手段と、入力された文字画像に対
して、認識結果とすべき文字を外部から指示されて入力
する認識結果指示手段と、抽出された特徴と指示された
認識結果とすべき文字とを関連づけて、文字データとし
て辞書に既に登録されているデータに付加して登録する
付加手段とを備えることもできる。

【００３５】さらに、前記第３の選択手段は、第１およ
び第２の選択手段により選択された文字の候補と、文字
の候補に対して第１および第２の算出手段により算出さ
れた類似度とを、関連づけて格納する記憶手段と、記憶
手段に格納された類似度が大きい順に、文字の候補を並
べかえるソート手段と、ソート手段により並べられた文
字の候補の、類似度が大きい方から、重複する文字が無
いようにＫ２個の文字を候補として選択する手段とを備
えることもできる。

【００３６】さらに、入力された文書画像のレイアウト
を解析する解析手段と、解析手段により得られた解析結
果に基づいて文書画像の領域を区分けする区分手段と、
区分された領域において使用されている書体を判定する
判定手段と、判定手段により判定された書体を使用し
て、文字認識結果を表示手段に表示するための表示制御
手段とを備えることもできる。

【００３７】さらに、判定手段は、各文字画像毎に使用
されている書体を判別する判別手段と、前記区分された
領域において、判別手段により書体が使用されていると
判別された文字画像の数を、各書体毎に計数する計数手
段と、計数手段により計数された文字の数が最も多い書
体を、前記区分された領域において使用されている書体
であると決定する決定手段とを備えることもできる。

【００３８】さらに、各文字画像毎に使用されている書
体を判定する判定手段と、この判定手段により判定され
た書体を使用して、文字認識結果を前記表示手段に表示
するための表示制御手段とを備えることもできる。

【００３９】さらに、判定手段により判定された書体の
判定結果を修正するための修正手段を備え、この修正手
段は、表示手段により表示された認識結果において、修
正すべき領域を外部から指示するための指示手段と、前
記領域において使用されている文字の書体を外部から設
定される設定手段とを備えることもできる。

【００４０】さらに、文字認識装置は、表示手段に、入
力された文字画像および第３の選択手段により選択され
た文字の候補を表示するための表示制御手段を備え、登
録画像指定手段は、表示手段に表示された文字画像を外
部から指定されて入力することもできる。また、認識結
果指示手段は、表示手段に表示された文字の候補の内の
１つを外部から指示されて入力することもできる。

【００４１】さらに、文字認識装置は、各文字に対して
文字コードを予め定められて文字コードにより各文字を
識別し、また、文字認識装置はキーボードを備え、認識
結果指示手段は、認識結果とすべき文字のコードをキー
ボードから指定されることもできる。

【００４２】

【作用】本発明の第１の観点による文字認識方法では、
大分類にて大局的に候補文字をＫ１個選択し、中分類１
にて選択されたＫ１個の候補文字からさらに詳細に候補
文字をＫ２個を精選し、中分類２にて精選されたＫ２個
の候補文字から（部分的な特徴を用いて）正解文字を選
択する認識方法を基礎としている。

【００４３】大分類では、複数文字のフォントあるいは
複数文字の書体の中から類似した文字のフォントあるい
は書体を共有化して作成された辞書を所有する。この大
まかな辞書により、入力パタンの候補文字をＫ１個選択
する。

【００４４】中分類では、複数のフォントあるいは書体
の中から類似したフォントあるいは書体を共有化して作
成された辞書を、複数所有する。まず、第１段階目の処
理（中分類１）では、入力文字（文字パタン）と大分類
により候補となった文字とから、上記複数所有する辞書
のうちの一つを用いて類似さを求め（類似度を算出
し）、Ｋ２個の候補文字を精選する。第２段階目の処理
（中分類２）では、精選したＫ２個の候補に対し、他の
辞書を用いて入力パタンとの類似さを求める。このよう
に、複数の段階で類似さを求めるので、共有化による辞
書のぼけによる妨害マスクの妨害をうけず認識率の低下
が生じない。

【００４５】また、中分類の類似度の算出は、Ｋ１個よ
りも少ないＫ２個に対してのみ算出を行うため、処理量
が若干増加するのみなので、従来の方法に比べ処理時間
は掛からない。

【００４６】第２の観点による電子ファイル装置あるい
は文書読み取り装置では、入力画像のレイアウトを解析
し、得られた解析結果に基づき入力画像の領域を区分け
し、区分けした領域ごとに第１の観点の方法により得た
マスクの種類の分布に応じて、区分けされた処理領域で
使用されている書体あるいはフォントの累積値を求める
ことで、その処理領域での書体あるいはフォントを判定
し、この判定結果をディスプレイあるいはプリンタに出
力する。ユーザが認識結果を修正する際に、その処理量
を削減できるとともに、ユーザの使い勝手を向上でき
る。

【００４７】第３の観点による電子ファイル装置あるい
は文書読み取り装置では、入力文字画像と認識結果とを
リンクで張り、入力画像あるいは認識結果を表示し、ユ
ーザが修正したい領域を指示して書体あるいはフォント
を設定することで、指示領域のフォントを容易に修正す
ることができユーザの使い勝手を向上できる。

【００４８】第４の観点による電子ファイル装置あるい
は文書読み取り装置では、入力文字画像と認識結果をリ
ンクで張り、入力画像あるいは認識結果を表示し、認識
結果の表示の際に指示された認識結果に対する候補文字
をも表示し、ユーザが候補文字中から正しい文字を選択
することにより、誤認識の修正および登録画像の指示が
行えるため、ユーザの操作量を削減し、ユーザの使い勝
手を向上できる。

【００４９】

【実施例】以下、図に示す実施例により本発明を詳細に
説明する。なお、これにより本発明が限定されるもので
はない。

【００５０】図１は、本発明の一実施例の文字認識方法
を備えた文字認識装置の機能ブロック図である。

【００５１】この文字認識装置は、前処理部１０５と、
大分類部１１０と、中分類部１２０と、細分類部１７５
とから構成される。

【００５２】中分類部は、類似度算出部１２５と、類似
度算出部１３５と、相互評価部１４５と、類似度算出部
１２５で用いる中分類辞書１６０と、類似度算出部１３
５で用いる中分類辞書１６５およびユーザ辞書１７０と
から構成される。類似度算出部１２５の出力候補を１３
０、類似度算出部１３５の出力候補と類似度を１４０、
類似度算出部１２５から相互評価部１４５に出力される
候補および類似度を１５０、相互評価部１４５の出力候
補を１５５で示す。

【００５３】図２９に、図１の文字認識装置を実現する
ための全体構成図を示す。

【００５４】全体構成としては、処理ユニットとしての
中央処理装置（ＣＰＵ）１、ＣＰＵ１で実行されるプロ
グラム等を格納するメインメモリ２、入力装置としての
キーボード３およびマウス４、出力装置としてのＣＲＴ
５、辞書等を格納する外部記憶装置６を備える。

【００５５】次に、図１に示す機能ブロックの動作につ
いて説明する。

【００５６】まず、文字画像が入力されると、前処理部
１０５において、ノイズの除去やサイズの正規化等が実
行される。また、入力された文字画像の形状の特徴を抽
出する処理が行なわれる。

【００５７】そして、文字認識装置で取り扱うカテゴリ
（文字概念）は４千あるいはそれ以上であるため、大分
類部１１０で、４千あるいはそれ以上のカテゴリの中か
ら大局的な特徴を用いて類似カテゴリを選択し、数百あ
るいは数十のオーダであるＫ１個の文字候補１１５に絞
り込む。そして、中分類部１２０にてさらに詳細な特徴
を用いてＫ２個の文字候補１５５を精選し、このＫ２個
の文字候補から細分類部１７５により１個の文字に絞り
込む。

【００５８】まず、大分類部１１０における処理につい
て説明する。

【００５９】大分類部１１０で用いる辞書のマスクは、
図２１に示すように、複数のフォントを持つ複数の類似
したカテゴリで一つのマスクを構成する。例えば、マス
クＭＳＫ２１１１はカテゴリ”治”２１１２のフォント
Ａ、Ｂ、そして、カテゴリ”冶”２１１３のフォント
Ａ、Ｂ、カテゴリ”沿”２１１４のフォントＡ、Ｂによ
り、一つのマスクを作成する。このように、複数の類似
したカテゴリで一つのマスクを作成するため、大局的な
特徴によりすべてのカテゴリに対し入力パタンとの類似
度計算を行なうところを、類似したカテゴリにより共有
化されたマスクで類似度計算を行なう。共有化されるこ
とでマスク数が削減されるため、大分類における候補を
高速に選択することができる。

【００６０】大分類の処理手順を、図２２のＰＡＤに示
す。大分類辞書のマスク数の回数、ステップ２２２２、
ステップ２２２３、ステップ２２２４の処理を行なう
（ステップ２２２１）。まず、ステップ２２２２では、
辞書からマスクを呼び出す。

【００６１】次に、ステップ２２２３では、入力パタン
の大分類の特徴とステップ２２２２で呼び出したマスク
との類似度計算を行なう。そして、ステップ２２２４
で、求めた類似度等のデータを、図示せぬ記憶部に格納
する。以上の処理（ステップ２２２１，２２２２，２２
２３，２２２４）が終了した後、ステップ２２２５にお
いて求めたデータからこれらのマスクに所属するカテゴ
リ（文字）を求め、上位Ｋ１個の文字を選択する。

【００６２】次に、本実施例の中分類部１２０における
処理について説明する。

【００６３】まず、単一あるいは複数の書体あるいはフ
ォントで作成された中分類辞書１６０を用いて、類似度
算出部１２５にて大分類部１１０から出力されたＫ１個
の候補１１５に対し類似度算出を行い、上位数十あるい
は十数個のオーダであるＫ２個の候補１３０を精選し、
類似度算出部１３５に出力する。

【００６４】次に、中分類辞書１６０で使用された以外
の単一あるいは複数の書体またはフォントで作成された
中分類辞書１６５やユーザ辞書１７０を用いて、類似度
算出部１３５にて類似度算出部１２５から出力されたＫ
２個の候補１３０に対し類似度の算出を行い、Ｋ２個の
入力候補に対する類似度１４０を求めて相互評価部１４
５に出力する。相互評価部１４５においては、上記の類
似度算出部１３５からのＫ２個の候補およびその類似度
１４０、および、類似度算出部１２５から出力されたＫ
２個の候補およびその類似度１５０を入力し、類似度の
高い順にＫ２個の候補１５５をソートし選択する。そし
て、細分類部１７５にて部分的な特徴を用いて類似カテ
ゴリ等の精選を行い、最終的な文字認識候補を出力す
る。

【００６５】まず、中分類部１２０にユーザ辞書１７０
があるのは、ユーザが登録した文字パタンを高精度に読
み取るためである。そして、類似度算出部１３５に該辞
書があるのは、Ｋ２個に絞り込まれた候補においてのみ
マッチングすればよく、処理量が削減できるからであ
る。

【００６６】また、類似度算出処理が複数存在するの
は、文字認識方法として方向性特徴を用いることが常識
のように知られているのであるが、この方向性特徴が書
体によって異なるためである。

【００６７】ここで、中分類で用いる方向性特徴のデー
タ構造例を図２８に示して説明する。

【００６８】先ず、サイズ６４×６４に正規化されたパ
タン２８８１を入力し、このパタンから４方向の各方向
の成分を抽出する（２８８２）。そして、サイズ６４×
６４で得られた各方向の成分を８×８のメッシュに変換
し、データを求める（２８８３）。そのため、各方向の
次元数は６４（８×８）となる。最後に、求めた各方向
のデータを並べ、２５６次元の特徴データとする（２８
８４）。

【００６９】明朝体やゴシック体においては水平線およ
び垂直線が明確になっているが、教科書体においては、
明朝体で水平であった線は必ず傾いた形状で、また、垂
直の線も必ずしも垂直にはなっていない。そのため、同
一の文字であっても方向性の特徴空間にておいては、教
科書体のような書体やフォントは必ずしも明朝体やゴシ
ック体に類似しているとは限らない。そこで類似してい
ない書体やフォントに対しては異なる辞書を備え、各辞
書を用いてそれぞれに類似度算出処理を行なうためであ
る。

【００７０】上記について、さらに詳細に説明する。

【００７１】高速に処理するため、共有化処理により類
似度の算出に用いるマスク数の削減を行う。そのため、
共有化されたマスクの特徴はぼけてしまい、共有化して
いない類似カテゴリのマスクが妨害となり認識率を低下
させてしまう。

【００７２】また、認識率がさほど低下しないように共
有化処理を緩めてしまうと、類似度計算をしなければな
らないマスク数が増加して、認識率はさほど低くはない
が低速になってしまうという問題が生じる。

【００７３】そのため、本方法では、類似度算出処理
を、類似した書体あるいはフォントによる辞書でのマッ
チングと、そうでない辞書によるマッチングとに分け
る。これにより、マスクがぼけて認識率が低下すること
は生じないし、類似度算出部１２５で選択した少量のＫ
２個の候補のみに対して類似度計算を行うため、認識す
べき書体やフォントが増加しても、処理時間の増加は、
類似度算出部１２５の処理時間に比べて微々たるもので
ある。これにより、全ての書体やフォントを共有化処理
により学習させる方法の処理時間よりかなり高速に処理
ができる。

【００７４】図５に、３種類の書体（各書体に複数個の
フォントを有する）に共有化処理を行い学習させた一つ
の辞書を用いて、教科書体を入力して実験したときの認
識率を示す。縦軸は誤認識率を、横軸は候補文字中の正
解順位の順位を示している。すなわち、正解順位１位で
の誤認識率は、正解が１位に存在しない率を示し、正解
順位が２位の誤認識率は、１、２位の候補中に正解がな
い率を示している。先に述べたように、入力パタンに対
して正解であるべき教科書体のマスクが共有化処理によ
りぼけるため、類似文字の妨害カテゴリとなり１位での
認識率が低くなる。

【００７５】一方、図５の場合と同一の教科書体を入力
して、本方法により実験した結果を図６に示す。これか
らわかるように、１位での誤認識率が、図５の３種類の
書体（各書体複数個のフォント）を共有化処理により学
習させた一つの辞書を用いた場合に比べ、約１００倍向
上していることが分かる。

【００７６】次に、図７のＰＡＤにより、図１の中分類
１２０での処理を示す手順を説明する。

【００７７】まず、大分類の出力候補をＫ１個入力する
（ステップ７０５）。ここで、Ｋ１は数百あるいは数十
のオーダである。

【００７８】次に、Ｋ１回、以下の処理を行なう（ステ
ップ７１０）。つまり、大分類の出力候補数回の処理を
行なう。

【００７９】まず、図１の中分類辞書１６０から、大分
類で候補となった文字（文字概念をカテゴリと称する）
の持つマスク数Ｍｉを呼び出す（ステップ７１５）。こ
こで、中分類辞書１６０は類似したフォント同志で共有
化しているため、あるカテゴリは複数のマスクを持ち、
また、あるカテゴリは単一のマスクしか持たないからで
ある。そして、呼び出したマスクの数の回数（Ｍｉ）、
次の処理を行なう（ステップ７２０）。

【００８０】まず、大分類で候補となったカテゴリにつ
いて、特徴テーブルに登録されているｋ（ｋ＝０，１，
２，…，Ｍｉ）番目のマスクの特徴データＦｋを、イン
デックスＩＮＤＸｋを用いて呼び出す（ステップ７２
５、この処理については後述する）。そして、入力パタ
ンと呼び出した特徴Ｆｋとのマッチングを行い類似度を
求める（ステップ７３０）。そして、求めた類似度のデ
ータを（図示せぬ記憶部に）格納する（ステップ７３
５）。以上の処理を行なうことにより、Ｋ１個の大分類
の候補に対し、中分類辞書１６０を用いて類似度計算が
終了した。次に、類似度算出部１２５の出力候補を決定
するため、類似度の大きさに基づいて上位のマスクを求
め、求められたマスクからＫ２のカテゴリ候補を選択す
る（ステップ７４０）。ここで、Ｋ２は十程度の数値で
ある。

【００８１】さらに、上記手順により求めたＫ２個の候
補に対し、Ｋ２回、以下の処理を行なう（ステップ７４
５）。つまり、上記手順により求めたＫ２個のカテゴリ
の候補数の回数、中分類辞書１６５により類似度算出の
処理を行なう。

【００８２】まず、図１の中分類辞書１６５から上記ス
テップ７４０で候補となったカテゴリの持つマスク数Ｍ
ｊを呼び出す（ステップ７５０）。ここで、中分類辞書
１６５は、類似したフォント同志で共有化しているた
め、先の辞書と同様に、あるカテゴリは複数のマスクを
持ち、また、あるカテゴリは単一のマスクしか持たない
ので、カテゴリ数Ｋ２に対してマスク数はＫ２とは限ら
ないのでＭｊと考える。

【００８３】そして、呼び出したマスク数回（Ｍｊ
回）、次の処理を行なう（ステップ７５５）。まず、上
記ステップ７４０で候補となったカテゴリで、ｋ（ｋ＝
０，１，…，Ｍｊ）番目のマスクが登録されている特徴
テーブルの特徴Ｆ’ｋをインデックスを用いて呼び出す
（ステップ７６０、この処理については後述する）。次
に、入力パタンと呼び出した特徴Ｆ’ｋとのマッチング
を行い類似度を求め（ステップ７６５）、求めた類似度
のデータを格納する（ステップ７７０）。以上の処理を
行なうことにより、先に類似度計算で求めたＫ２個の候
補に対し、中分類辞書１６５を用いて類似度計算が終了
した。

【００８４】次に、中分類での候補を決定するため、中
分類辞書１６０，１６５により２段階で求めた２×Ｋ２
個の候補から、Ｋ２個の最適な候補カテゴリを求める
（ステップ７７５）。これは、第１段階（中分類辞書１
６０）での類似度計算で求めた候補の類似度と、第２段
階（中分類辞書１６５）で求めた第１段階と同一カテゴ
リの候補に対し求めた類似度とから、値の大きい順に同
一カテゴリが存在しないようにＫ２個の候補カテゴリを
並べ替えることで行なう。

【００８５】次に、図８を用いて、先に述べた中分類で
の候補の並べ替えの方法を説明する。

【００８６】まず、中分類辞書１６０によるＫ２個の候
補の類似度およびカテゴリ番号を入力する（ステップ８
０５）。ここで、カテゴリ番号とはカテゴリをデータと
して扱いやすいように、カテゴリに順番を付けたもので
（文字コードではない）、これによりカテゴリを管理し
ている。次に、中分類辞書１６５によるＫ２個の候補の
類似度およびカテゴリ番号を入力する（ステップ８１
０）。そして、入力した２×Ｋ２個の類似度をソートす
る（ステップ８１５）。そして、類似度の大きい順に同
一カテゴリを選ばないようにＫ２個のカテゴリを選択す
る（ステップＳ８２０）。このようにして、中分類での
出力候補が求まる。

【００８７】次に、図９を用いて、大分類により抽出さ
れた候補カテゴリから、中分類辞書の特徴（マスク）を
インデックスを用いて探索する（図７のステップ７１
５，７２５）方法ならびに中分類辞書のデータ構造を示
す。

【００８８】中分類辞書１６０の構造は、マスクを格納
した特徴テーブル９２０と、特徴テーブル９２０からマ
スクを取りだすときの番地を示すインデックスを格納し
たインデックステーブル９０５と、対応するインデック
ステーブル９０５の各カテゴリが所有するマスクの数を
格納したマスク数テーブル９１０とから構成される。特
徴テーブル９２０に格納された各マスクには、各カテゴ
リ内におけるマスクの番号を格納したマスク番号９２５
が付加されている。

【００８９】マスクを呼び出す処理は、まず、呼び出す
カテゴリ番号ｉにより、インデックステーブル９０５と
マスク数テーブル９１０のｉ番地のデータ（それぞれ
Ｉ，ｍ）を取り出す。次に、特徴テーブル９２０のＩ番
地にとび、特徴テーブルからマスクをｍ回呼び出す。こ
の各々のマスクによりマッチングを行い類似度を算出す
る。

【００９０】次に、図１０を用いて、第２段階での類似
度算出を行なう際の辞書（中分類辞書１６５）のデータ
構造を示す。このデータ構造は図９で示したものと殆ど
同一であるが、異なる点は、第１段階の類似度算出用の
辞書（中分類辞書１６０）にはすべてのカテゴリに対し
マスクが登録されているが、２段階の辞書（中分類辞書
１６５あるいはユーザ辞書）には必ずしもすべてのカテ
ゴリに対しマスクが登録される必要は無い。そのため、
マスクが存在しないカテゴリにはインデックステーブル
１００５の要素に０ｘｆｆｆｆ（１６進数のＦＦＦＦ）
が書き込まれており、認識装置は、読みだした要素がこ
の値である場合にはマスクの呼び出しを実行しない。

【００９１】以下、細分類部１７５における処理につい
て説明する。

【００９２】中分類の出力結果として、図２３の
（ａ），（ｂ）に示すような類似文字が、候補の１位と
なり誤ってしまうことがある（すなわち、”縁”の候補
として”緑”が、”緑”の候補として”縁”が候補の１
位となることがある）。このような誤りに対し、細分類
部１７５は、類似文字の候補を、文字の部分的な領域で
の類似度計算を行なうことで、詳細に識別するものであ
る。

【００９３】例えば、入力パタン”緑”に対して、中分
類の１位候補が類似文字の”緑”であった場合、図２３
に示す斜線部での類似度計算を行ない、２つの候補のこ
の部分の類似度を比較することで、正確に入力パタンを
認識することが出来る。

【００９４】この処理を、図２４および図２５を用いて
説明する。

【００９５】まず、１位の候補を入力する（ステップ２
４４１）。そして、１位候補により細分類用ポインタテ
ーブル（図２５の２５５１）へアクセスする（ステップ
２４４２）。例えば、入力”緑”に対し１位候補が”
緑”であったと仮定する。従って、この場合”緑”（２
５５６）により細分類用ポインタテーブルへアクセスす
る。そして、細分類用ポインタテーブルの個数（２５５
２に格納されている数）回、類似文字が登録されている
ため、以下の処理を実行する（ステップ２４４３）。

【００９６】まず、細分類用ポインタテーブルのポイン
タ２５５３により、類似文字のデータが登録されている
細分類データテーブル２５５４へアクセスする（ステッ
プ２４４４）。この場合、対２５５７に登録してある類
似文字”縁”（２５５５）にアクセスしたことになる。
そして、ステップ２４４５にて、この対の類似文字”
縁”が第２候補であるか否かを判定する。もし、対が第
２候補であった場合、部分的な領域にて類似度計算を行
ない２つの候補を比較する。逆に、そうでない場合には
細分類を終了する。

【００９７】対が第２候補であった場合、ステップ２４
４６にて、細分類データテーブルに登録してある部分判
定領域２５５８のデータを入力する。そして、ステップ
２４４７にて、この部分判定領域で第１位候補を求めた
マスクと入力パタンの特徴とを用いて類似度１を計算す
る。同様に、ステップ２４４８にて、第２位候補を求め
たマスクと入力パタンの特徴とを用いて類似度２を計算
する。

【００９８】そして、ステップ２４４９にて、類似度１
の方が類似度２よりも大きい場合には、１位候補が２位
候補よりも類似しているので細分類を終了する。逆に、
類似度２の方が類似度１よりも大きい場合には、２位候
補が１位候補よりも入力パタンに類似しているため、ス
テップ２４５０にて１位候補と２位候補を入れ替えて細
分類を終了する。

【００９９】以降は、文書中のフォントを判定する方法
について説明する。

【０１００】文書画像中のレイアウトを解析し、書かれ
た内容を章や節のように分割するアルゴリズムは Docum
ent Analysis and Decomposition Method for Multimed
ia Contents Retrival, Proc. the second Int. Sympos
ium on Interoperable Information System, pp.231 (N
ov. 1988) に開示されている。このようなレイアウト解
析により求めた処理対象領域に対し、書かれた文字の書
体あるいはフォントを判定する方法を図１１を用いて説
明する。

【０１０１】例えば、一つの処理領域中の文字数の回
数、以下の処理を行なう（ステップ１１０５）。まず、
本発明で提供する文字認識方法により文字認識を行なう
（ステップ１１１０）。そして、中分類で１位でマッチ
ングしたマスクのフォント種の種類により、各フォント
に応じ（ステップ１１１５）たカウンタ（ｃｏｕｎｔ
Ａ，ｃｏｕｎｔＢ）の値に１を加える（ステップ１１３
０，１１３５）。以上の処理により、処理領域中の文字
に対し各フォントが使用された回数（を示すカウンタの
値）が求まる。

【０１０２】次に、求めたカウンタの値に基づいて処理
領域で使用されたフォントの種類を決定する（ステップ
１１４０）。例えば、その方法としては、前記カウンタ
の内の値の一番大きいカウンタに対応するフォントを、
その処理領域での使用フォントに決定する。

【０１０３】ここで、共有化を行なうため共有化された
フォントに対しては対応するフォントが不明となるが、
本説明は処理を一文字ごとではなく処理領域ごとに行な
い、複数個の文字について見るため、全てのカウンタが
０ということは起きにくい。また、起きた場合、前後の
処理領域のフォントあるいは出現頻度の高いフォントを
適応して、処理領域のフォントを決定することができ
る。

【０１０４】次に、図１２を用いて判定したフォント種
あるいは書体の情報を、表示画面に表示する場合の方法
を説明する。

【０１０５】表示画面は、入力画像を表示するウインド
部１２１０と、認識結果の表示部１２１５と、マウスあ
るいはカーソルが位置するカレント文字の近辺の拡大画
像表示部１２６０と、フォント設定等の処理ボタンを表
示したバーから構成される。まず、ウインド部１２１０
には、画像中にレイアウト解析した処理領域１２２０，
１２２５，１２３０が表示される。この図では、理解し
やすいように各領域に書体名を書いている。判定された
フォント種あるいは書体の情報は、認識結果の表示に反
映することで、ユーザの使い勝手を向上することが出来
る。すなわち、各処理領域の認識結果を、判定されたフ
ォント種あるいは書体で表示することにより入力原稿に
近い形で表示できるため、認識結果を修正する際の処理
量を削減することができる。

【０１０６】たとえば、ゴシック体で書かれた処理領域
１の認識結果はゴシック体で画面上に１２３５のように
表示され、明朝体で書かれた処理領域２，３の認識結果
は明朝体で画面上に１２４５，１２５０のように表示さ
れる。このように判定された書体あるいはフォントを用
いて認識結果を表示することを、システムで容易に実現
することができる。

【０１０７】次に、図１３を用いて、書体の判定結果の
誤りの修正方法を説明する。

【０１０８】自動化処理においては、どうしても認識結
果が誤っている場合があるため、その誤りの修正を容易
にできる方法が必要である。そこで、自動処理の誤り修
正方法を示す。

【０１０９】上記のように、認識結果を表示する際の文
字のフォントおよび書体は、判定結果に基づいている。
まず、表示部（イメージ）１３００上で、認識結果が誤
っている処理領域（ここでは、領域１３１０）をマウス
等により指示する。そして、フォント設定ボタン（１３
０５）をマウス等により指示すると、フォントＡ，フォ
ントＢのように書体あるいはフォントの名前が表示され
る（１３１５，１３２０）。そして、表示された書体あ
るいはフォントをマウス等により指定することにより、
指示した処理領域（ここでは、領域１３１０）に対応す
る文字認識結果を表示する際の書体あるいはフォントが
修正される。

【０１１０】次に、図１４を用いて、書体の判定処理の
誤りの修正方法の他の実施例を説明する。

【０１１１】この方法は、表示部（イメージ）１４００
上の処理領域を指示するのではなく、フォントあるいは
書体を変更したい領域を、認識結果を表示した領域１４
１０上においてマウス等により指定する。そして、フォ
ント設定ボタン１４０５を指示することで、フォント
Ａ，フォントＢのように書体あるいはフォントの名前が
表示される（１４１５，１４２０）。そして、表示され
た書体あるいはフォントをマウス等により指定すること
により、指示した処理領域の文字認識結果の表示が修正
される。

【０１１２】図１３および図１４では、使用されている
書体あるいはフォントを処理領域ごとに判定し、判定さ
れた書体あるいはフォントを用いて認識結果を表示し
た。

【０１１３】次に、図１５を用いて、前後の数文字に使
用されている書体あるいはフォントの判定結果を利用す
ることで、一文字ごとの書体あるいはフォントを決定
し、認識結果を決定された書体あるいはフォントを用い
て表示する方法を説明する。これにより、例えば処理領
域内に書体あるいはフォントが異なる語句等がある場合
においても、処理領域内のすべての文字に対し正しい書
体で表示することが出来る。

【０１１４】まず、前後数文字分の書体（あるいはフォ
ント）の判定結果を入力する（ステップ１５０５）。次
に、カレント文字の判定結果に重みを付け（ステップ１
５１０）、各書体（あるいはフォント）に対して累積値
を求める（ステップ１５１５）。そして、累積値の大き
い書体あるいはフォントをカレント文字の書体として表
示する（ステップ１５２０）。

【０１１５】ステップ１５１０および１５１５を、図２
６を用いて説明する。

【０１１６】１位候補文字（１位認識結果）２６６１の
各候補に対し、書体の判定結果２６６２が文字認識によ
り得られる。ここでは、説明のため、書体を決定するカ
レント文字を”フ”とし、カレント文字の２文字前後を
利用してカレント文字の書体を判定する方法を示す。カ
レント文字、そしてその前後２文字の書体判定結果に重
みを着けるため、関数（重み窓関数）２６６３を利用す
る。この場合の重みは、カレント文字が３、そして、１
文字前後の文字に対し重み２を付け、２文字前後の文字
に対して重み１を付ける。そして、累積値算出部２６６
４では各書体に対し重みを加算していく。この場合、明
朝体の累積値は４となり、ゴシック体の累積値は５とな
り、カレント文字の書体判定部２６６７における判定結
果は、ゴシック体として判定される。

【０１１７】以下、ユーザが１位に認識出来なかった文
字パタンを、再度２位以下にならないようにユーザ辞書
１７０に登録する方法について説明する。

【０１１８】図１６を用いて、ユーザが指定した文字の
マスクを登録するためのユーザ辞書１７０のデータ構造
を説明する。このユーザ辞書１７０は、先に示した中分
類において第２段階の類似度算出に用いる辞書（中分類
辞書１６５）のデータ構造と同一である。即ち、カテゴ
リ番号ｉによりインデックステーブル１６０５を見て、
０ｘｆｆｆｆ以外であればマスクが存在するため、マス
ク数テーブル１６１０を調べ、これらの情報を用いて特
徴テーブル１６２０からマスクを取り出す。ここで、ユ
ーザ辞書を中分類に位置付けるのは、細分類は部分的な
特徴で類似文字のみを識別する分類であり、その他の文
字（類似していない文字）に対しては、中分類が最終出
力となるからである。

【０１１９】次に、図１７に示すＰＡＤにより、実際に
ユーザが登録したい文字を指定してシステムが登録を完
了するまでの手順を説明する。

【０１２０】まず、登録ボタンをマウス等により指示す
ることで、登録を開始することをシステムに知らせる
（ステップ１７０５）。次に、ユーザが登録したい対象
を選択指示する（ステップ１７２５）。すると、ユーザ
が指示した対象の種類が、ステップ１７１０において判
定される。対象の種類が、文字画像である場合にはステ
ップ１７２０に進んで処理を行ない、認識候補文字であ
る場合にはステップ１７４５に進んで処理を行なう。

【０１２１】ここで、指示した文字パタンをユーザ辞書
に登録するためには、登録する文字のコードと登録文字
のマスクが必要となる。このため、ステップ１７２５に
おいて文字画像を指示した場合、その文字コードを入力
する必要があり、ユーザによりキーボード等から文字あ
るいはコードを指示され、これらを入力する（ステップ
１７２０）。また、認識候補文字から指定する場合、認
識結果の指示により表示された候補文字の中から正しい
文字をユーザにより選択される（ステップ１７４５）。
上記の処理の後、認識装置は、辞書に登録中である旨の
メッセージを表示し（ステップ１７３０）、辞書の登録
処理を行なう（ステップ１７３５）。詳細は後述（図１
８にて説明）する。処理の終了後は、表示メッセージを
消去する（ステップ１７４０）。

【０１２２】次に、図１８を用いて、システムが辞書に
登録する方法を説明する。

【０１２３】まず、ユーザが指示した対象画像を入力す
る（ステップ１８０５）。そして、入力された画像から
特徴量を抽出する（ステップ１８１０）。これにより、
マスクを作成する。そして、登録しようとするカテゴリ
に対し、既に登録されているマスクの数ｍをユーザ辞書
から入力する（ステップ１８１５）。そして、入力した
マスク数ｍに１を加えることによりマスク数を更新する
（ステップ１８２０）。また、登録しようとするカテゴ
リｉに対し、既に登録されているインデックステーブル
に格納された値Ｉ’をユーザ辞書から入力する（ステッ
プ１８２５）。そして、登録するカテゴリ以降（特徴テ
ーブルおよびマスク番号のＩ’番地以降）に登録されて
いる特徴量およびマスク番号を、図示せぬ記憶部に一時
格納する（ステップ１８３０）。ステップ１８２５で入
力したインデックスに、特徴テーブルの（Ｉ’＋ｍ−
１）番地から、対象画像の特徴量およびマスク番号を登
録する（ステップ１８３５）。そして、ステップ１８３
０において一時格納した特徴量およびマスク番号を、特
徴テーブルの（Ｉ’＋ｍ）番地から登録する（ステップ
１８４０）。インデックステーブルの選択文字のカテゴ
リ以降のインデックスの値を更新する（ステップ１８４
５）。

【０１２４】つぎに、図１９を用いて、ユーザによる登
録文字の指定方法を説明する。

【０１２５】まず、辞書登録ボタン１９０５をマウス等
により指示することで、システムに辞書の登録を行なう
ことを伝える。そして、認識結果表示部１９３０上の登
録したい文字１９１５を指示する。その結果、候補文字
１９２０が表示される。そして、正解の文字１９２５を
候補文字１９２０からマウス１９１０で選択する。これ
により、登録したい文字１９２５の文字パタンとその文
字コードをシステムに入力することが出来る。なぜな
ら、認識文字と文字画像がリンクで張られているため、
認識結果を指示するだけでこれに対応する文字画像は容
易にわかる。また、文字画像と認識結果をリンクで張る
ことは容易に実現できる。

【０１２６】文字認識結果から文字画像をアクセスする
ためのリンクの張り方（リンク関数）を図２７を用いて
説明する。

【０１２７】文字認識を行なう場合、まず文字画像を切
り出す必要があり、切り出した文字画像の座標値（２７
７３）を文字画像テーブル２７７１に格納する。この場
合、図１９において、ユーザがマウスで指示した文字が
８番目であるため、図２７の文字番号８（２７７２）に
対応するテーブルに格納される。この様に切り出した文
字画像に対し、文字認識を行なう。そして、認識結果テ
ーブル２７７４に認識結果の候補文字２７７５を格納
し、認識させた文字の文字画像をたどるためのポインタ
を文字画像ポインタ２７７６に格納する。このように、
認識結果から文字画像へのポインタが張られているた
め、認識結果から文字画像を得ることが出来る。

【０１２８】また、図２０を用いて、ユーザによる登録
文字の指定方法の他の実施例を説明する。

【０１２９】表示画面には認識結果あるいは読み取られ
た画像（イメージ）上におけるカレント文字近辺の拡大
画像２０２０、および、拡大画像２０２０中の各文字画
像に対応する１位の認識結果文字２０２５が表示され
る。まず、ユーザは登録したい拡大文字画像２０１５あ
るいは認識結果２０３０を、マウス２０１０で指示す
る。そして、正しい文字をキーボード等から入力する。
これも先の実施例と同様に、認識結果と文字画像がリン
クされているため、認識結果を指示することにより容易
に文字画像を得ることが出来る。

【０１３０】なお、中分類辞書１６０および中分類辞書
１６５として、どのような書体の形状の特徴を文字デー
タとして備える辞書を使用するかについて説明する。

【０１３１】たとえば、一般に、明朝体あるいはゴシッ
ク体が使用される頻度は高く、教科書体が使用される頻
度は低いため、初期状態としては、中分類辞書１６０と
して明朝体およびゴシック体の形状の特徴を文字データ
として備える辞書を使用し、中分類辞書１６５として教
科書体の形状の特徴を文字データとして備える辞書を使
用することが考えられる。

【０１３２】さらに、複数の辞書と、辞書１６０，１６
５として使用すべき辞書の種類を設定するためのユーザ
インターフェース（辞書１６０，１６５として使用すべ
き辞書の種類を設定するためのコマンド等、および、こ
のコマンド等により設定された辞書を辞書１６０，１６
５として使用するための制御部等）を備え、ユーザによ
り、前記辞書の種類を設定することができるようにして
もよい。

【０１３３】

【発明の効果】本発明の文字認識方法によれば、各種フ
ォントを使用した印刷文字を高速かつ高精度に認識する
ことが出来る。

【０１３４】また、認識対象の処理領域あるいは認識文
字の書体あるいはフォントを判定し、認識結果を表示画
面等に出力する際に、判定されたフォントを使用して出
力することができる。本発明によれば、自動的に判定さ
れた書体の判定結果を修正するユーザインタフェースを
提供することにより、書体の判定誤りを容易に修正する
ことが出来る。

【０１３５】さらに、本発明によれば、１位に認識出来
なかった文字パタンをユーザ辞書に登録するユーザイン
タフェースを提供することにより、容易にユーザ辞書へ
の登録が行なえる。そして、本発明によれば、上記登録
を指示した文字パタンを、高速かつ高精度な認識用のユ
ーザ辞書へ登録することが出来る。

【図面の簡単な説明】

【図１】本発明による文字認識装置の機能ブロック図。

【図２】本方法が解決べき問題点を示す図。

【図３】複数の異なる書体の例および妨害する類似文字
の例を示す図。

【図４】本方法が解決べき問題点の原因を示す図。

【図５】未学習書体での誤認識率を示す図。

【図６】本方法を適応したときの認識率を示す図。

【図７】中分類処理のＰＡＤを示す図。

【図８】相互評価部における処理のＰＡＤを示す図。

【図９】中分類辞書１のデータ構造を示す図。

【図１０】中分類辞書２のデータ構造を示す図。

【図１１】処理領域の使用フォントの判定方法のＰＡＤ
を示す図。

【図１２】処理領域で判定した使用フォント情報による
表示方法を示す図。

【図１３】表示された処理結果のフォント修正方法を示
す図。

【図１４】表示された処理結果の他のフォント修正方法
を示す図。

【図１５】一文字毎の使用フォントの判定方法のＰＡＤ
を示す図。

【図１６】中分類におけるユーザ辞書のデータ構造を示
す図。

【図１７】ユーザが特定の文字を辞書に登録するときの
方法のＰＡＤを示す図。

【図１８】システムがユーザ辞書へ指定文字画像を登録
する方法のＰＡＤを示す図。

【図１９】ユーザ辞書へ登録する文字の指定方法を示す
図。

【図２０】ユーザ辞書へ登録する文字の他の指定方法を
示す図。

【図２１】大分類を説明するための図。

【図２２】大分類の処理のＰＡＤを示す図。

【図２３】細分類を説明するための図。

【図２４】細分類の処理のＰＡＤを示す図。

【図２５】細分類を説明するための図。

【図２６】使用されているフォントを判定する方法を説
明するための図。

【図２７】認識結果と文字画像とのリンクづけを説明す
るための図。

【図２８】文字の形状の特徴データの構造例を示す図。

【図２９】本発明による文字認識装置の全体図。

【符号の説明】

１０５…前処理部、１１０…大分類部、１１５…大分類
の出力候補、１２０…中分類部、１２５…類似度算出
部、１３０…類似度算出部の出力候補、１３５…類似度
算出部、１４０…類似度算出部の出力候補および類似
度、１４５…相互評価部、１５０…類似度算出部の出力
候補および類似度、１５５…相互評価部の出力候補、１
６０…中分類辞書１、１６５…中分類辞書２、１７０…
ユーザ辞書、１７５…細分類部。

───────────────────────────────────────────────────── フロントページの続き (72)発明者嶋好博東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内

Claims

【特許請求の範囲】

【請求項１】文字の特徴データを格納した辞書を備え、
入力された文字画像の特徴を抽出手段により抽出し、抽
出された前記文字画像の特徴を前記辞書に格納された特
徴データと照合し、前記照合結果に基づいて前記画像の
文字を認識し、表示手段を備えて、前記表示手段に認識
結果である文字を表示する文字認識装置において、前記入力された画像に対する文字の候補をＫ１個選択す
る第１の分類手段と、前記Ｋ１個の文字の候補から、前記Ｋ１個より少ない数
であるＫ２個の文字の候補を選択する第２の分類手段
と、前記Ｋ２個の文字の候補から、１つの候補を選択する第
３の分類手段と、を備え、前記第２の分類手段において、文字の複数の類似した書体あるいは単一の書体の形状の
特徴を文字データとして有する第１の辞書と、前記文字画像から抽出された特徴と、前記Ｋ１個の文字
の候補に対応する前記第１の辞書の文字データとの類似
度を算出する第１の算出手段と、前記第１の算出手段により算出された類似度に基づい
て、前記Ｋ２以下のＫ３個の文字を候補として選択する
第１の選択手段と、文字の複数の類似した書体あるいは単一の書体の形状
の、前記第１の辞書とは異なる特徴を文字データとして
有する第２の辞書と、前記文字画像から抽出された特徴と、前記Ｋ３個の文字
の候補に対応する前記第２の辞書の文字データとの類似
度を算出する第２の算出手段と、前記第２の算出手段により算出された類似度に基づい
て、前記Ｋ３以下のＫ４個の文字を候補として選択する
第２の選択手段と、前記第１および第２の選択手段により選択された（Ｋ３
＋Ｋ４）個の文字の候補から、前記第１および第２の算
出手段により算出された類似度に基づいて、Ｋ２個の文
字を候補として選択する第３の選択手段と、を備えることを特徴とする文字認識装置。
【請求項２】請求項１において、前記第１または第２の
辞書に、新たに文字データを登録するための登録手段を
備え、前記登録手段は、前記辞書に登録すべき文字画像を外部から指定されて入
力する登録画像指定手段と、前記入力された文字画像から、前記抽出手段により特徴
を抽出するように制御する抽出制御手段と、前記入力された文字画像に対して、認識結果とすべき文
字を外部から指示されて入力する認識結果指示手段と、前記抽出された特徴と、前記指示された認識結果とすべ
き文字とを関連づけて、文字データとして前記辞書に既
に登録されているデータに付加して登録する付加手段
と、を備えることを特徴とする文字認識装置。
【請求項３】請求項１において、前記第３の選択手段
は、前記第１および第２の選択手段により選択された文字の
候補と、前記文字の候補に対して前記第１および第２の
算出手段により算出された類似度とを、関連づけて格納
する記憶手段と、前記記憶手段に格納された類似度が大きい順に、前記文
字の候補を並べかえるソート手段と、前記ソート手段により並べられた前記文字の候補の、前
記類似度が大きい方から、重複する文字が無いようにＫ
２個の文字を候補として選択する手段と、を備えることを特徴とする文字認識装置。
【請求項４】請求項１において、前記入力された文書画像のレイアウトを解析する解析手
段と、前記解析手段により得られた解析結果に基づいて、前記
文書画像の領域を区分けする区分手段と、前記区分された領域において使用されている書体を判定
する判定手段と、前記判定手段により判定された書体を使用して、文字認
識結果を前記表示手段に表示するための表示制御手段
と、を備えることを特徴とする文字認識装置。
【請求項５】請求項４において、前記判定手段は、各文字画像毎に、使用されている書体を判別する判別手
段と、前記区分された領域において、前記判別手段により前記
書体が使用されていると判別された文字画像の数を、各
書体毎に計数する計数手段と、前記計数手段により計数された文字の数が最も多い書体
を、前記区分された領域において使用されている書体で
あると決定する決定手段と、を備えることを特徴とする文字認識装置。
【請求項６】請求項１において、各文字画像毎に、使用されている書体を判定する判定手
段と、前記判定手段により判定された書体を使用して、文字認
識結果を前記表示手段に表示するための表示制御手段
と、を備えることを特徴とする文字認識装置。
【請求項７】請求項４、５、または６において、前記判定手段により判定された書体の判定結果を修正す
るための修正手段を備え、前記修正手段は、前記表示手段により表示された認識結
果において、修正すべき領域を外部から指示するための
指示手段と、前記領域において使用されている文字の書体を外部から
設定される設定手段と、を備えることを特徴とする文字認識装置。
【請求項８】請求項２において、前記文字認識装置は、前記表示手段に、入力された文字
画像および前記第３の選択手段により選択された文字の
候補を表示するための表示制御手段を備え、前記登録画像指定手段は、前記表示手段に表示された文
字画像を外部から指定されて入力し、前記認識結果指示手段は、前記表示手段に表示された文
字の候補の内の１つを外部から指示されて入力すること
を特徴とする文字認識装置。
【請求項９】請求項２において、前記文字認識装置は、
各文字に対して文字コードを予め定められて前記文字コ
ードにより各文字を識別し、また、前記文字認識装置は、キーボードを備え、前記認識結果指示手段は、認識結果とすべき文字のコー
ドを前記キーボードから指定されることを特徴とする文
字認識装置。
【請求項１０】請求項１において、前記第１の分類手段
は、形状の特徴が類似した複数の文字の集合の、少なくとも
１種の書体の形状の特徴を文字データとして有する辞書
と、前記抽出された特徴と、前記辞書の文字データとの類似
度を算出する算出手段と、前記算出手段により算出された類似度に基づいて、Ｋ１
個の文字を候補として選択する選択手段と、を備えることを特徴とする文字認識装置。
【請求項１１】請求項１において、前記第３の分類手段
は、１文字の表示領域内の部分領域における、少なくとも１
種の書体の形状の特徴を文字データとして有する辞書
と、前記抽出された特徴と、前記Ｋ２個の文字の候補に対応
する、前記辞書の文字データとの類似度を算出する算出
手段と、前記算出手段により算出された類似度に基づいて、１個
の文字を認識結果として選択する選択手段と、を備えることを特徴とする文字認識装置。
【請求項１２】請求項１において、前記第２の辞書は、互いに異なる特徴を文字データとし
て有するｎ個（ｎ≧２）の辞書の集合から構成され、前記第２の算出手段は、前記文字画像から抽出された特
徴と、前記Ｋ３個の文字の候補に対応する前記ｎ個の辞
書の文字データとの類似度を算出することを特徴とする
文字認識装置。
【請求項１３】請求項１において、前記第１の辞書は、明朝体およびゴシック体の形状の特
徴を文字データとして有し、前記第２の辞書は、教科書体の形状の特徴を文字データ
として有することを特徴とする文字認識装置。
【請求項１４】請求項１において、前記第１の辞書は、明朝体およびゴシック体の形状の特
徴を文字データとして有し、前記第２の辞書は、明朝体およびゴシック体以外の書体
の形状の特徴を文字データとして有することを特徴とす
る文字認識装置。
【請求項１５】請求項１において、文字の複数の類似した書体あるいは単一の書体の形状の
特徴を文字データとして有する少なくとも２以上の辞書
と、前記第１または第２の辞書とすべき辞書を、外部から指
定される辞書指定手段と、前記文字画像から抽出された特徴と、前記指定された辞
書の文字データとの類似度を、前記算出手段により算出
するように制御する制御手段と、を備えることを特徴とする文字認識装置。
【請求項１６】文字の特徴データを格納した辞書を備
え、入力された文字画像の特徴を抽出し、抽出された前
記文字画像の特徴を前記辞書に格納された特徴データと
照合し、前記照合結果に基づいて前記画像の文字を認識
する文字認識方法において、前記入力された画像に対する文字の候補をＫ１個選択
し、前記Ｋ１個の文字の候補から、前記Ｋ１個より少ない数
であるＫ２個の文字の候補を選択し、前記Ｋ２個の文字の候補から、１つの候補を選択するこ
とにより文字を認識して、前記Ｋ２個の文字の候補を選択する際に、文字の複数の類似した書体あるいは単一の書体の形状の
特徴を文字データとして有する第１の辞書を備え、前記文字画像から抽出された特徴と、前記Ｋ１個の文字
の候補に対応する前記第１の辞書の文字データとの類似
度を算出し、前記第１の辞書の文字データとの類似度に基づいて、前
記Ｋ２以下のＫ３個の文字を候補として選択し、文字の複数の類似した書体あるいは単一の書体の形状
の、前記第１の辞書とは異なる特徴を文字データとして
有する第２の辞書を備え、前記文字画像から抽出された特徴と、前記Ｋ３個の文字
の候補に対応する前記第２の辞書の文字データとの類似
度を算出し、前記第２の辞書の文字データとの類似度に基づいて、前
記Ｋ３以下のＫ４個の文字を候補として選択し、前記選択された（Ｋ３＋Ｋ４）個の文字の候補から、前
記類似度に基づいて、Ｋ２個の文字を候補として選択す
ることを特徴とする文字認識方法。