JPH06215197A - 文字認識方法および装置 - Google Patents

文字認識方法および装置

Info

Publication number
JPH06215197A
JPH06215197A JP5006956A JP695693A JPH06215197A JP H06215197 A JPH06215197 A JP H06215197A JP 5006956 A JP5006956 A JP 5006956A JP 695693 A JP695693 A JP 695693A JP H06215197 A JPH06215197 A JP H06215197A
Authority
JP
Japan
Prior art keywords
character
dictionary
candidates
typeface
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5006956A
Other languages
English (en)
Inventor
Katsumi Marukawa
勝美 丸川
Kazuki Nakajima
和樹 中島
Masashi Koga
昌史 古賀
Yoshihiro Shima
好博 嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP5006956A priority Critical patent/JPH06215197A/ja
Publication of JPH06215197A publication Critical patent/JPH06215197A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】各種の書体(フォント)を使用した文字画像
を、高速かつ高精度に認識する文字認識装置を提供す
る。 【構成】文字画像が入力されると、前処理部105で形
状の特徴抽出等が行なわれる。この特徴により、大分類
部110でK1個の文字候補に絞り、中分類部120で
K2個の候補に絞り、細分類部175で1個に絞る。こ
の中分類部120において、まず辞書160により入力
画像とK1個の候補との類似度を算出部125で算出
し、上位K2個の候補を選択する。次に、辞書160と
は異なる辞書165により、入力画像とK2個の候補と
の類似度を算出部135で算出し、上位K2個の候補を
選択する。最後に、相互評価部145で、算出部12
5,135による類似度のうちの上位K2個の候補を選
択し、中分類部120での候補とする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、雑誌あるいは書類等の
文書中の印刷文字を読み取り、読み取られた印刷文字中
の文字パタンを認識し、認識された結果を記憶装置に格
納あるいは表示装置等に出力する文書読取り装置等にお
ける、文字認識方法に関する。
【0002】
【従来の技術】雑誌あるいは書類等の文書中の印刷文字
を読み取り、読み取られた印刷文字中の文字を認識する
場合、読み取られた文字の特徴と、予め用意された種々
の文字の特徴を格納したデータ群(これを認識辞書とい
う)とを比較して、読み取られた文字が何という文字で
あるかを認識する。
【0003】この際、1つの文字に対して、複数の書体
(明朝体、ゴシック体、教科書体等)、複数のフォント
が存在している。このために、文字に対してすべての書
体およびフォントについての特徴を各々抽出して辞書を
作成し、これらの辞書に格納された特徴と、読み取られ
た文字の特徴とを照合することにより認識を行なうと、
精度は高くなるが速度が遅くなる。このため、認識方法
(認識辞書の作りかた等)に工夫が必要となる。
【0004】また、文字の異なる書体あるいはフォント
を学習させ、類似の書体あるいは類似のフォントの共有
化(文字に対する類似の複数の書体、類似の複数のフォ
ントをそれぞれ同一グループとし、各グループ毎にそれ
ぞれ特徴を抽出して辞書を作成する)を計ることで、複
数の書体あるいはフォントの文字を認識する方法が知ら
れている。このように共有化を行なうと、精度は低くな
ることがあるが、速度は速くなる。
【0005】さらに、漢字あるいは仮名の認識において
は、文字の構成要素である線(ストローク)の方向性を
特徴として抽出することが知られている。
【0006】一方、文字の認識結果が誤っている場合
に、その認識結果を正しく修正することが必要となる。
【0007】従来の文字認識方法としては、第27回東
北大学電気通信研究シンポジウム論文集の129頁に開
示の方法、"Font recognition by a neural network" I
nt.J. Man-Machine Studies (1990) 33, 41-61 に開示
の方法が知られている。
【0008】第27回東北大学電気通信研究シンポジウ
ム論文集の129頁に開示の方法は、複数のフォントを
学習することにより一つの辞書を作成して、類似差の算
出を行い入力パタンを評価する。
【0009】"Font recognition by a neural network"
に開示の方法では、ニューラルネットワークを用いて、
入力文字のフォントを求める。
【0010】一方、認識結果を正しく修正する方法とし
ては、システムクオリティ株式会社のQuick Readerのパ
ンフレットに開示の方法がある。システムクオリティ株
式会社のQuick Readerのパンフレットに開
示の方法では、指示した文字パタンを画面上に大きく表
示して、その文字のコードを入力する。
【0011】
【発明が解決しようとする課題】上記従来の方法によれ
ば、認識で用いる特徴としてストロークの方向性を用い
ているため、縦ストロークが垂直で横ストロークが水平
な明朝体やゴシック体の書体あるいはフォントは特徴が
似ている(特徴空間で近い)が、教科書体のように縦ス
トロークが必ずしも垂直でなく横ストロークが必ず傾い
ている書体あるいはフォントの場合には、明朝体やゴシ
ック体に特徴が似ていない(特徴空間において遠い)。
【0012】そのため、例えば、1文字のこれら3つの
書体(明朝体、ゴシック体、教科書体)を共有化させて
一つのテンプレート(マスク、すなわち、特徴を抽出す
るためのモデル)にしてしまうと、このマスクは3つの
書体の特徴の中間値(平均値)を特徴として有すること
になる。このため、3つの書体各々の特徴がぼけてしま
い、複数書体によるマスクの共有化を行っていない他の
文字のマスクと誤認識されることがあり、認識率が低下
する。
【0013】また、同時に、特徴空間で遠い書体あるい
はフォントを含めて共有化処理を実行しても、共有化さ
れない書体あるいはフォントもあるため、入力パタンと
の類似さを求める(照合する)べきマスク数が増加し、
処理時間が増加する。
【0014】以上述べたことを図2を用いて説明する。
全体集合に3種類のフォントA,B,Cがあるとする。
理解しやすいように、それぞれフォントAを明朝体、フ
ォントBをゴシック体、フォントCを教科書体とする。
ここで、書体とは明朝体、ゴシック体、教科書体のよう
な大きな分類である。同じ明朝体でも出力装置や写植メ
ーカによって全て文字の形状が微妙に異なっており、こ
の一つづつ異なる形状の種類(の予備型)がフォントで
ある。すなわち、書体はフォントを大きく纏めたもので
ある。実際は、明朝体においては、出力装置や写植メー
カによりフォントは異なるため複雑となる。
【0015】図2においては、ある文字については、フ
ォントA、B、Cについて特徴を共有化する処理によ
り、CL1(205)という一つのマスクで学習された
とする。また、異なる文字については、共有化処理でも
共有化されず、フォントA、B、Cが、それぞれCL2
(260)、CL3(250)、CL4(270)と異
なるマスクになったとする。
【0016】ここで、共有化処理を行なうのは、マスク
数を削減し辞書メモリを小さくするため、また、マスク
数を削減し入力パタンとの類似さを求める際の処理量を
減らし高速とするためである。
【0017】CL1(205)においては共有化処理に
より、例えば、これら3種のフォントA、B、Cの特徴
の平均が代表マスク(225)の特徴となる。図2のよ
うな特徴空間の概念図に対し、入力パタン(245)
(このパタンは、CL1のカテゴリであるとする)が、
図のような位置付けであるとする。この辞書を用いてマ
ッチングを行なった場合、CL1の代表マスク225と
の距離aとCL2のマスク260との距離cを比べる
と、CL2のマスク260との距離の方が近くなり、実
際はCL1のカテゴリであるにも係らずCL2のカテゴ
リと認識され、誤認識する。
【0018】上記のような誤認識は共有化処理を行なっ
たために発生している。共有化を行なわず、CL1(2
05)の各フォントA、B、Cについてカテゴリを生成
すれば、入力パタン245はCL1のフォントC(22
0)に一番近いので、正解のカテゴリが選択できる。
【0019】このように、従来のストロークの方向性特
徴での共有化処理を用いた辞書でのマッチングにおい
て、明朝体とゴシック体のような特徴空間で類似した書
体を共有化する場合は良いが、教科書体のように、特徴
空間でこれらの書体(明朝体とゴシック体)と異なる特
徴空間を持つ書体を共有化することは、妨害カテゴリ
(他の文字のカテゴリで特徴空間で類似しているカテゴ
リ)により認識精度が低下する(妨害カテゴリの文字で
あると認識してしまう)という問題点が生じる。また、
すべての様々な書体あるいはフォントを一つの辞書とし
て作成すると、共有化処理を行っても1文字に対して複
数個のマスクを所有するカテゴリが生じるため、類似度
を求めるマスクの数が増加し処理時間が掛かるという問
題が生じる。
【0020】また、図3に、文字「縁」の明朝体・ゴシ
ック体・教科書体のサンプル305,310,315を
教科書体の妨害カテゴリ320(「緑」)と共に示す。
これから容易に理解されるように、明朝体305・ゴシ
ック体310の水平のストロークは、教科書体315に
おいては間違い無く水平にはならない。文字によって
は、明朝体・ゴシック体で垂直のストロークが教科書体
で垂直にはならない場合がある。
【0021】次に、「縁」の教科書体の拡大図を図4に
示す。この図の405の部分は、明朝体・ゴシック体
(図3参照)で垂直あるいは水平のストロークがすべて
傾いている。このため、ストロークの方向性を認識の特
徴とする場合、405の部分は、明朝体およびゴシック
体の特徴とは大きくずれてしまう。
【0022】このため、これら3種の書体を学習させ
て、図3の320と異なるフォントで教科書体の「縁」
が入力してくると、カテゴリのマスクにおける特徴にお
いては、正解としてマッチングすべき教科書体の「縁」
の特徴は、他の明朝体およびゴシック体の「縁」の特徴
を加味されることでぼけてしまっているので、図4の4
10のストロークの構成が異なっていても、妨害カテゴ
リである教科書体の「緑」が正解となることがある。
【0023】ここで、「緑」と「縁」では図4の410
の部分のストロークの構成が異なるが、ここではオムニ
フォント(無限の種類のフォント)を取り扱うため、当
然、同一書体でも異なる種類のフォントにより各部分の
構成ストロークの位置ずれがあるので、「縁」と「緑」
の410に相当する部分が異なっても上記の例で示した
問題が生じてしまう。
【0024】また、上記従来の方法では、入力文字のフ
ォントあるいは書体の判定手段としてニューラルネット
ワークを用いるため、フォントあるいは書体の識別のみ
で処理量が増大するという問題がある。また、これ(フ
ォントあるいは書体)を認識結果の表示あるいは出力デ
ータの属性とする機能が無いため、認識結果のフォント
あるいは書体を画面上に表示できず、ユーザの使い勝手
が悪いという問題点があった。
【0025】また、自動化処理における誤りに対しての
容易な修正方法等を考慮した機能を持っておらず、ユー
ザの使い勝手が悪い。
【0026】さらに、上記従来の方法では、1位に認識
できなかった文字パタンを、以降の認識で誤らないよう
に(1位に認識できるように)ユーザ辞書への登録を行
えるが、登録する文字のコードをキーボードから入力す
る必要があり、使い勝手が悪いという問題があった。
【0027】以上のように、従来の方法ではオムニフォ
ントで表示された文字の認識においては低速または精度
が低く、また、ユーザに取って使い勝手が悪いという問
題点があった。
【0028】そこで、本発明の第1の目的は、雑誌ある
いは書類のような文書中のオムニフォントの印刷文字を
高速かつ高精度に認識する認識方法を提供することであ
る。
【0029】また、本発明の第2の目的は、本発明の認
識方法を用い入力文字のフォントあるいは書体を判定
し、判定されたフォントあるいは書体を認識結果の表示
あるいは出力データの属性とする機能を提供することで
ある。
【0030】また、本発明の第3の目的は、第2の目的
における書体あるいはフォントの判定誤りを、容易に修
正する方法を提供することである。
【0031】また、本発明の第4の目的は、1位に認識
できなかった文字パタンを再度誤らないように、ユーザ
辞書等に登録する際のユーザの登録方法およびシステム
の辞書への登録方法を提供することである。
【0032】
【課題を解決するための手段】上記課題を解決するため
に、本発明によれば、文字の特徴データを格納した辞書
を備え、入力された文字画像の特徴を抽出手段により抽
出し、抽出された前記文字画像の特徴を前記辞書に格納
された特徴データと照合し、前記照合結果に基づいて前
記画像の文字を認識し、表示手段を備えて、前記表示手
段に認識結果である文字を表示する文字認識装置におい
て、入力された画像に対する文字の候補をK1個選択す
る第1の分類手段と、K1個の文字の候補から、前記K
1個より少ない数であるK2個の文字の候補を選択する
第2の分類手段と、K2個の文字の候補から、1つの候
補を選択する第3の分類手段とを備えることができる。
【0033】そして、第2の分類手段において、文字の
複数の類似した書体あるいは単一の書体の形状の特徴を
文字データとして有する第1の辞書と、文字画像から抽
出された特徴と、K1個の文字の候補に対応する第1の
辞書の文字データとの類似度を算出する第1の算出手段
と、第1の算出手段により算出された類似度に基づい
て、K2以下のK3個の文字を候補として選択する第1
の選択手段とを備えることができる。また、文字の複数
の類似した書体あるいは単一の書体の形状の、第1の辞
書とは異なる特徴を文字データとして有する第2の辞書
と、文字画像から抽出された特徴とK3個の文字の候補
に対応する第2の辞書の文字データとの類似度を算出す
る第2の算出手段と、第2の算出手段により算出された
類似度に基づいて、K3以下のK4個の文字を候補とし
て選択する第2の選択手段と、第1および第2の選択手
段により選択された(K3+K4)個の文字の候補か
ら、第1および第2の算出手段により算出された類似度
に基づいて、K2個の文字を候補として選択する第3の
選択手段とを備えることができる。
【0034】また、前記第1または第2の辞書に、新た
に文字データを登録するための登録手段を備えることも
できる。前記登録手段は、辞書に登録すべき文字画像を
外部から指定されて入力する登録画像指定手段と、入力
された文字画像から、抽出手段により特徴を抽出するよ
うに制御する抽出制御手段と、入力された文字画像に対
して、認識結果とすべき文字を外部から指示されて入力
する認識結果指示手段と、抽出された特徴と指示された
認識結果とすべき文字とを関連づけて、文字データとし
て辞書に既に登録されているデータに付加して登録する
付加手段とを備えることもできる。
【0035】さらに、前記第3の選択手段は、第1およ
び第2の選択手段により選択された文字の候補と、文字
の候補に対して第1および第2の算出手段により算出さ
れた類似度とを、関連づけて格納する記憶手段と、記憶
手段に格納された類似度が大きい順に、文字の候補を並
べかえるソート手段と、ソート手段により並べられた文
字の候補の、類似度が大きい方から、重複する文字が無
いようにK2個の文字を候補として選択する手段とを備
えることもできる。
【0036】さらに、入力された文書画像のレイアウト
を解析する解析手段と、解析手段により得られた解析結
果に基づいて文書画像の領域を区分けする区分手段と、
区分された領域において使用されている書体を判定する
判定手段と、判定手段により判定された書体を使用し
て、文字認識結果を表示手段に表示するための表示制御
手段とを備えることもできる。
【0037】さらに、判定手段は、各文字画像毎に使用
されている書体を判別する判別手段と、前記区分された
領域において、判別手段により書体が使用されていると
判別された文字画像の数を、各書体毎に計数する計数手
段と、計数手段により計数された文字の数が最も多い書
体を、前記区分された領域において使用されている書体
であると決定する決定手段とを備えることもできる。
【0038】さらに、各文字画像毎に使用されている書
体を判定する判定手段と、この判定手段により判定され
た書体を使用して、文字認識結果を前記表示手段に表示
するための表示制御手段とを備えることもできる。
【0039】さらに、判定手段により判定された書体の
判定結果を修正するための修正手段を備え、この修正手
段は、表示手段により表示された認識結果において、修
正すべき領域を外部から指示するための指示手段と、前
記領域において使用されている文字の書体を外部から設
定される設定手段とを備えることもできる。
【0040】さらに、文字認識装置は、表示手段に、入
力された文字画像および第3の選択手段により選択され
た文字の候補を表示するための表示制御手段を備え、登
録画像指定手段は、表示手段に表示された文字画像を外
部から指定されて入力することもできる。また、認識結
果指示手段は、表示手段に表示された文字の候補の内の
1つを外部から指示されて入力することもできる。
【0041】さらに、文字認識装置は、各文字に対して
文字コードを予め定められて文字コードにより各文字を
識別し、また、文字認識装置はキーボードを備え、認識
結果指示手段は、認識結果とすべき文字のコードをキー
ボードから指定されることもできる。
【0042】
【作用】本発明の第1の観点による文字認識方法では、
大分類にて大局的に候補文字をK1個選択し、中分類1
にて選択されたK1個の候補文字からさらに詳細に候補
文字をK2個を精選し、中分類2にて精選されたK2個
の候補文字から(部分的な特徴を用いて)正解文字を選
択する認識方法を基礎としている。
【0043】大分類では、複数文字のフォントあるいは
複数文字の書体の中から類似した文字のフォントあるい
は書体を共有化して作成された辞書を所有する。この大
まかな辞書により、入力パタンの候補文字をK1個選択
する。
【0044】中分類では、複数のフォントあるいは書体
の中から類似したフォントあるいは書体を共有化して作
成された辞書を、複数所有する。まず、第1段階目の処
理(中分類1)では、入力文字(文字パタン)と大分類
により候補となった文字とから、上記複数所有する辞書
のうちの一つを用いて類似さを求め(類似度を算出
し)、K2個の候補文字を精選する。第2段階目の処理
(中分類2)では、精選したK2個の候補に対し、他の
辞書を用いて入力パタンとの類似さを求める。このよう
に、複数の段階で類似さを求めるので、共有化による辞
書のぼけによる妨害マスクの妨害をうけず認識率の低下
が生じない。
【0045】また、中分類の類似度の算出は、K1個よ
りも少ないK2個に対してのみ算出を行うため、処理量
が若干増加するのみなので、従来の方法に比べ処理時間
は掛からない。
【0046】第2の観点による電子ファイル装置あるい
は文書読み取り装置では、入力画像のレイアウトを解析
し、得られた解析結果に基づき入力画像の領域を区分け
し、区分けした領域ごとに第1の観点の方法により得た
マスクの種類の分布に応じて、区分けされた処理領域で
使用されている書体あるいはフォントの累積値を求める
ことで、その処理領域での書体あるいはフォントを判定
し、この判定結果をディスプレイあるいはプリンタに出
力する。ユーザが認識結果を修正する際に、その処理量
を削減できるとともに、ユーザの使い勝手を向上でき
る。
【0047】第3の観点による電子ファイル装置あるい
は文書読み取り装置では、入力文字画像と認識結果とを
リンクで張り、入力画像あるいは認識結果を表示し、ユ
ーザが修正したい領域を指示して書体あるいはフォント
を設定することで、指示領域のフォントを容易に修正す
ることができユーザの使い勝手を向上できる。
【0048】第4の観点による電子ファイル装置あるい
は文書読み取り装置では、入力文字画像と認識結果をリ
ンクで張り、入力画像あるいは認識結果を表示し、認識
結果の表示の際に指示された認識結果に対する候補文字
をも表示し、ユーザが候補文字中から正しい文字を選択
することにより、誤認識の修正および登録画像の指示が
行えるため、ユーザの操作量を削減し、ユーザの使い勝
手を向上できる。
【0049】
【実施例】以下、図に示す実施例により本発明を詳細に
説明する。なお、これにより本発明が限定されるもので
はない。
【0050】図1は、本発明の一実施例の文字認識方法
を備えた文字認識装置の機能ブロック図である。
【0051】この文字認識装置は、前処理部105と、
大分類部110と、中分類部120と、細分類部175
とから構成される。
【0052】中分類部は、類似度算出部125と、類似
度算出部135と、相互評価部145と、類似度算出部
125で用いる中分類辞書160と、類似度算出部13
5で用いる中分類辞書165およびユーザ辞書170と
から構成される。類似度算出部125の出力候補を13
0、類似度算出部135の出力候補と類似度を140、
類似度算出部125から相互評価部145に出力される
候補および類似度を150、相互評価部145の出力候
補を155で示す。
【0053】図29に、図1の文字認識装置を実現する
ための全体構成図を示す。
【0054】全体構成としては、処理ユニットとしての
中央処理装置(CPU)1、CPU1で実行されるプロ
グラム等を格納するメインメモリ2、入力装置としての
キーボード3およびマウス4、出力装置としてのCRT
5、辞書等を格納する外部記憶装置6を備える。
【0055】次に、図1に示す機能ブロックの動作につ
いて説明する。
【0056】まず、文字画像が入力されると、前処理部
105において、ノイズの除去やサイズの正規化等が実
行される。また、入力された文字画像の形状の特徴を抽
出する処理が行なわれる。
【0057】そして、文字認識装置で取り扱うカテゴリ
(文字概念)は4千あるいはそれ以上であるため、大分
類部110で、4千あるいはそれ以上のカテゴリの中か
ら大局的な特徴を用いて類似カテゴリを選択し、数百あ
るいは数十のオーダであるK1個の文字候補115に絞
り込む。そして、中分類部120にてさらに詳細な特徴
を用いてK2個の文字候補155を精選し、このK2個
の文字候補から細分類部175により1個の文字に絞り
込む。
【0058】まず、大分類部110における処理につい
て説明する。
【0059】大分類部110で用いる辞書のマスクは、
図21に示すように、複数のフォントを持つ複数の類似
したカテゴリで一つのマスクを構成する。例えば、マス
クMSK2111はカテゴリ”治”2112のフォント
A、B、そして、カテゴリ”冶”2113のフォント
A、B、カテゴリ”沿”2114のフォントA、Bによ
り、一つのマスクを作成する。このように、複数の類似
したカテゴリで一つのマスクを作成するため、大局的な
特徴によりすべてのカテゴリに対し入力パタンとの類似
度計算を行なうところを、類似したカテゴリにより共有
化されたマスクで類似度計算を行なう。共有化されるこ
とでマスク数が削減されるため、大分類における候補を
高速に選択することができる。
【0060】大分類の処理手順を、図22のPADに示
す。大分類辞書のマスク数の回数、ステップ2222、
ステップ2223、ステップ2224の処理を行なう
(ステップ2221)。まず、ステップ2222では、
辞書からマスクを呼び出す。
【0061】次に、ステップ2223では、入力パタン
の大分類の特徴とステップ2222で呼び出したマスク
との類似度計算を行なう。そして、ステップ2224
で、求めた類似度等のデータを、図示せぬ記憶部に格納
する。以上の処理(ステップ2221,2222,22
23,2224)が終了した後、ステップ2225にお
いて求めたデータからこれらのマスクに所属するカテゴ
リ(文字)を求め、上位K1個の文字を選択する。
【0062】次に、本実施例の中分類部120における
処理について説明する。
【0063】まず、単一あるいは複数の書体あるいはフ
ォントで作成された中分類辞書160を用いて、類似度
算出部125にて大分類部110から出力されたK1個
の候補115に対し類似度算出を行い、上位数十あるい
は十数個のオーダであるK2個の候補130を精選し、
類似度算出部135に出力する。
【0064】次に、中分類辞書160で使用された以外
の単一あるいは複数の書体またはフォントで作成された
中分類辞書165やユーザ辞書170を用いて、類似度
算出部135にて類似度算出部125から出力されたK
2個の候補130に対し類似度の算出を行い、K2個の
入力候補に対する類似度140を求めて相互評価部14
5に出力する。相互評価部145においては、上記の類
似度算出部135からのK2個の候補およびその類似度
140、および、類似度算出部125から出力されたK
2個の候補およびその類似度150を入力し、類似度の
高い順にK2個の候補155をソートし選択する。そし
て、細分類部175にて部分的な特徴を用いて類似カテ
ゴリ等の精選を行い、最終的な文字認識候補を出力す
る。
【0065】まず、中分類部120にユーザ辞書170
があるのは、ユーザが登録した文字パタンを高精度に読
み取るためである。そして、類似度算出部135に該辞
書があるのは、K2個に絞り込まれた候補においてのみ
マッチングすればよく、処理量が削減できるからであ
る。
【0066】また、類似度算出処理が複数存在するの
は、文字認識方法として方向性特徴を用いることが常識
のように知られているのであるが、この方向性特徴が書
体によって異なるためである。
【0067】ここで、中分類で用いる方向性特徴のデー
タ構造例を図28に示して説明する。
【0068】先ず、サイズ64×64に正規化されたパ
タン2881を入力し、このパタンから4方向の各方向
の成分を抽出する(2882)。そして、サイズ64×
64で得られた各方向の成分を8×8のメッシュに変換
し、データを求める(2883)。そのため、各方向の
次元数は64(8×8)となる。最後に、求めた各方向
のデータを並べ、256次元の特徴データとする(28
84)。
【0069】明朝体やゴシック体においては水平線およ
び垂直線が明確になっているが、教科書体においては、
明朝体で水平であった線は必ず傾いた形状で、また、垂
直の線も必ずしも垂直にはなっていない。そのため、同
一の文字であっても方向性の特徴空間にておいては、教
科書体のような書体やフォントは必ずしも明朝体やゴシ
ック体に類似しているとは限らない。そこで類似してい
ない書体やフォントに対しては異なる辞書を備え、各辞
書を用いてそれぞれに類似度算出処理を行なうためであ
る。
【0070】上記について、さらに詳細に説明する。
【0071】高速に処理するため、共有化処理により類
似度の算出に用いるマスク数の削減を行う。そのため、
共有化されたマスクの特徴はぼけてしまい、共有化して
いない類似カテゴリのマスクが妨害となり認識率を低下
させてしまう。
【0072】また、認識率がさほど低下しないように共
有化処理を緩めてしまうと、類似度計算をしなければな
らないマスク数が増加して、認識率はさほど低くはない
が低速になってしまうという問題が生じる。
【0073】そのため、本方法では、類似度算出処理
を、類似した書体あるいはフォントによる辞書でのマッ
チングと、そうでない辞書によるマッチングとに分け
る。これにより、マスクがぼけて認識率が低下すること
は生じないし、類似度算出部125で選択した少量のK
2個の候補のみに対して類似度計算を行うため、認識す
べき書体やフォントが増加しても、処理時間の増加は、
類似度算出部125の処理時間に比べて微々たるもので
ある。これにより、全ての書体やフォントを共有化処理
により学習させる方法の処理時間よりかなり高速に処理
ができる。
【0074】図5に、3種類の書体(各書体に複数個の
フォントを有する)に共有化処理を行い学習させた一つ
の辞書を用いて、教科書体を入力して実験したときの認
識率を示す。縦軸は誤認識率を、横軸は候補文字中の正
解順位の順位を示している。すなわち、正解順位1位で
の誤認識率は、正解が1位に存在しない率を示し、正解
順位が2位の誤認識率は、1、2位の候補中に正解がな
い率を示している。先に述べたように、入力パタンに対
して正解であるべき教科書体のマスクが共有化処理によ
りぼけるため、類似文字の妨害カテゴリとなり1位での
認識率が低くなる。
【0075】一方、図5の場合と同一の教科書体を入力
して、本方法により実験した結果を図6に示す。これか
らわかるように、1位での誤認識率が、図5の3種類の
書体(各書体複数個のフォント)を共有化処理により学
習させた一つの辞書を用いた場合に比べ、約100倍向
上していることが分かる。
【0076】次に、図7のPADにより、図1の中分類
120での処理を示す手順を説明する。
【0077】まず、大分類の出力候補をK1個入力する
(ステップ705)。ここで、K1は数百あるいは数十
のオーダである。
【0078】次に、K1回、以下の処理を行なう(ステ
ップ710)。つまり、大分類の出力候補数回の処理を
行なう。
【0079】まず、図1の中分類辞書160から、大分
類で候補となった文字(文字概念をカテゴリと称する)
の持つマスク数Miを呼び出す(ステップ715)。こ
こで、中分類辞書160は類似したフォント同志で共有
化しているため、あるカテゴリは複数のマスクを持ち、
また、あるカテゴリは単一のマスクしか持たないからで
ある。そして、呼び出したマスクの数の回数(Mi)、
次の処理を行なう(ステップ720)。
【0080】まず、大分類で候補となったカテゴリにつ
いて、特徴テーブルに登録されているk(k=0,1,
2,…,Mi)番目のマスクの特徴データFkを、イン
デックスINDXkを用いて呼び出す(ステップ72
5、この処理については後述する)。そして、入力パタ
ンと呼び出した特徴Fkとのマッチングを行い類似度を
求める(ステップ730)。そして、求めた類似度のデ
ータを(図示せぬ記憶部に)格納する(ステップ73
5)。以上の処理を行なうことにより、K1個の大分類
の候補に対し、中分類辞書160を用いて類似度計算が
終了した。次に、類似度算出部125の出力候補を決定
するため、類似度の大きさに基づいて上位のマスクを求
め、求められたマスクからK2のカテゴリ候補を選択す
る(ステップ740)。ここで、K2は十程度の数値で
ある。
【0081】さらに、上記手順により求めたK2個の候
補に対し、K2回、以下の処理を行なう(ステップ74
5)。つまり、上記手順により求めたK2個のカテゴリ
の候補数の回数、中分類辞書165により類似度算出の
処理を行なう。
【0082】まず、図1の中分類辞書165から上記ス
テップ740で候補となったカテゴリの持つマスク数M
jを呼び出す(ステップ750)。ここで、中分類辞書
165は、類似したフォント同志で共有化しているた
め、先の辞書と同様に、あるカテゴリは複数のマスクを
持ち、また、あるカテゴリは単一のマスクしか持たない
ので、カテゴリ数K2に対してマスク数はK2とは限ら
ないのでMjと考える。
【0083】そして、呼び出したマスク数回(Mj
回)、次の処理を行なう(ステップ755)。まず、上
記ステップ740で候補となったカテゴリで、k(k=
0,1,…,Mj)番目のマスクが登録されている特徴
テーブルの特徴F’kをインデックスを用いて呼び出す
(ステップ760、この処理については後述する)。次
に、入力パタンと呼び出した特徴F’kとのマッチング
を行い類似度を求め(ステップ765)、求めた類似度
のデータを格納する(ステップ770)。以上の処理を
行なうことにより、先に類似度計算で求めたK2個の候
補に対し、中分類辞書165を用いて類似度計算が終了
した。
【0084】次に、中分類での候補を決定するため、中
分類辞書160,165により2段階で求めた2×K2
個の候補から、K2個の最適な候補カテゴリを求める
(ステップ775)。これは、第1段階(中分類辞書1
60)での類似度計算で求めた候補の類似度と、第2段
階(中分類辞書165)で求めた第1段階と同一カテゴ
リの候補に対し求めた類似度とから、値の大きい順に同
一カテゴリが存在しないようにK2個の候補カテゴリを
並べ替えることで行なう。
【0085】次に、図8を用いて、先に述べた中分類で
の候補の並べ替えの方法を説明する。
【0086】まず、中分類辞書160によるK2個の候
補の類似度およびカテゴリ番号を入力する(ステップ8
05)。ここで、カテゴリ番号とはカテゴリをデータと
して扱いやすいように、カテゴリに順番を付けたもので
(文字コードではない)、これによりカテゴリを管理し
ている。次に、中分類辞書165によるK2個の候補の
類似度およびカテゴリ番号を入力する(ステップ81
0)。そして、入力した2×K2個の類似度をソートす
る(ステップ815)。そして、類似度の大きい順に同
一カテゴリを選ばないようにK2個のカテゴリを選択す
る(ステップS820)。このようにして、中分類での
出力候補が求まる。
【0087】次に、図9を用いて、大分類により抽出さ
れた候補カテゴリから、中分類辞書の特徴(マスク)を
インデックスを用いて探索する(図7のステップ71
5,725)方法ならびに中分類辞書のデータ構造を示
す。
【0088】中分類辞書160の構造は、マスクを格納
した特徴テーブル920と、特徴テーブル920からマ
スクを取りだすときの番地を示すインデックスを格納し
たインデックステーブル905と、対応するインデック
ステーブル905の各カテゴリが所有するマスクの数を
格納したマスク数テーブル910とから構成される。特
徴テーブル920に格納された各マスクには、各カテゴ
リ内におけるマスクの番号を格納したマスク番号925
が付加されている。
【0089】マスクを呼び出す処理は、まず、呼び出す
カテゴリ番号iにより、インデックステーブル905と
マスク数テーブル910のi番地のデータ(それぞれ
I,m)を取り出す。次に、特徴テーブル920のI番
地にとび、特徴テーブルからマスクをm回呼び出す。こ
の各々のマスクによりマッチングを行い類似度を算出す
る。
【0090】次に、図10を用いて、第2段階での類似
度算出を行なう際の辞書(中分類辞書165)のデータ
構造を示す。このデータ構造は図9で示したものと殆ど
同一であるが、異なる点は、第1段階の類似度算出用の
辞書(中分類辞書160)にはすべてのカテゴリに対し
マスクが登録されているが、2段階の辞書(中分類辞書
165あるいはユーザ辞書)には必ずしもすべてのカテ
ゴリに対しマスクが登録される必要は無い。そのため、
マスクが存在しないカテゴリにはインデックステーブル
1005の要素に0xffff(16進数のFFFF)
が書き込まれており、認識装置は、読みだした要素がこ
の値である場合にはマスクの呼び出しを実行しない。
【0091】以下、細分類部175における処理につい
て説明する。
【0092】中分類の出力結果として、図23の
(a),(b)に示すような類似文字が、候補の1位と
なり誤ってしまうことがある(すなわち、”縁”の候補
として”緑”が、”緑”の候補として”縁”が候補の1
位となることがある)。このような誤りに対し、細分類
部175は、類似文字の候補を、文字の部分的な領域で
の類似度計算を行なうことで、詳細に識別するものであ
る。
【0093】例えば、入力パタン”緑”に対して、中分
類の1位候補が類似文字の”緑”であった場合、図23
に示す斜線部での類似度計算を行ない、2つの候補のこ
の部分の類似度を比較することで、正確に入力パタンを
認識することが出来る。
【0094】この処理を、図24および図25を用いて
説明する。
【0095】まず、1位の候補を入力する(ステップ2
441)。そして、1位候補により細分類用ポインタテ
ーブル(図25の2551)へアクセスする(ステップ
2442)。例えば、入力”緑”に対し1位候補が”
緑”であったと仮定する。従って、この場合”緑”(2
556)により細分類用ポインタテーブルへアクセスす
る。そして、細分類用ポインタテーブルの個数(255
2に格納されている数)回、類似文字が登録されている
ため、以下の処理を実行する(ステップ2443)。
【0096】まず、細分類用ポインタテーブルのポイン
タ2553により、類似文字のデータが登録されている
細分類データテーブル2554へアクセスする(ステッ
プ2444)。この場合、対2557に登録してある類
似文字”縁”(2555)にアクセスしたことになる。
そして、ステップ2445にて、この対の類似文字”
縁”が第2候補であるか否かを判定する。もし、対が第
2候補であった場合、部分的な領域にて類似度計算を行
ない2つの候補を比較する。逆に、そうでない場合には
細分類を終了する。
【0097】対が第2候補であった場合、ステップ24
46にて、細分類データテーブルに登録してある部分判
定領域2558のデータを入力する。そして、ステップ
2447にて、この部分判定領域で第1位候補を求めた
マスクと入力パタンの特徴とを用いて類似度1を計算す
る。同様に、ステップ2448にて、第2位候補を求め
たマスクと入力パタンの特徴とを用いて類似度2を計算
する。
【0098】そして、ステップ2449にて、類似度1
の方が類似度2よりも大きい場合には、1位候補が2位
候補よりも類似しているので細分類を終了する。逆に、
類似度2の方が類似度1よりも大きい場合には、2位候
補が1位候補よりも入力パタンに類似しているため、ス
テップ2450にて1位候補と2位候補を入れ替えて細
分類を終了する。
【0099】以降は、文書中のフォントを判定する方法
について説明する。
【0100】文書画像中のレイアウトを解析し、書かれ
た内容を章や節のように分割するアルゴリズムは Docum
ent Analysis and Decomposition Method for Multimed
ia Contents Retrival, Proc. the second Int. Sympos
ium on Interoperable Information System, pp.231 (N
ov. 1988) に開示されている。このようなレイアウト解
析により求めた処理対象領域に対し、書かれた文字の書
体あるいはフォントを判定する方法を図11を用いて説
明する。
【0101】例えば、一つの処理領域中の文字数の回
数、以下の処理を行なう(ステップ1105)。まず、
本発明で提供する文字認識方法により文字認識を行なう
(ステップ1110)。そして、中分類で1位でマッチ
ングしたマスクのフォント種の種類により、各フォント
に応じ(ステップ1115)たカウンタ(count
A,countB)の値に1を加える(ステップ113
0,1135)。以上の処理により、処理領域中の文字
に対し各フォントが使用された回数(を示すカウンタの
値)が求まる。
【0102】次に、求めたカウンタの値に基づいて処理
領域で使用されたフォントの種類を決定する(ステップ
1140)。例えば、その方法としては、前記カウンタ
の内の値の一番大きいカウンタに対応するフォントを、
その処理領域での使用フォントに決定する。
【0103】ここで、共有化を行なうため共有化された
フォントに対しては対応するフォントが不明となるが、
本説明は処理を一文字ごとではなく処理領域ごとに行な
い、複数個の文字について見るため、全てのカウンタが
0ということは起きにくい。また、起きた場合、前後の
処理領域のフォントあるいは出現頻度の高いフォントを
適応して、処理領域のフォントを決定することができ
る。
【0104】次に、図12を用いて判定したフォント種
あるいは書体の情報を、表示画面に表示する場合の方法
を説明する。
【0105】表示画面は、入力画像を表示するウインド
部1210と、認識結果の表示部1215と、マウスあ
るいはカーソルが位置するカレント文字の近辺の拡大画
像表示部1260と、フォント設定等の処理ボタンを表
示したバーから構成される。まず、ウインド部1210
には、画像中にレイアウト解析した処理領域1220,
1225,1230が表示される。この図では、理解し
やすいように各領域に書体名を書いている。判定された
フォント種あるいは書体の情報は、認識結果の表示に反
映することで、ユーザの使い勝手を向上することが出来
る。すなわち、各処理領域の認識結果を、判定されたフ
ォント種あるいは書体で表示することにより入力原稿に
近い形で表示できるため、認識結果を修正する際の処理
量を削減することができる。
【0106】たとえば、ゴシック体で書かれた処理領域
1の認識結果はゴシック体で画面上に1235のように
表示され、明朝体で書かれた処理領域2,3の認識結果
は明朝体で画面上に1245,1250のように表示さ
れる。このように判定された書体あるいはフォントを用
いて認識結果を表示することを、システムで容易に実現
することができる。
【0107】次に、図13を用いて、書体の判定結果の
誤りの修正方法を説明する。
【0108】自動化処理においては、どうしても認識結
果が誤っている場合があるため、その誤りの修正を容易
にできる方法が必要である。そこで、自動処理の誤り修
正方法を示す。
【0109】上記のように、認識結果を表示する際の文
字のフォントおよび書体は、判定結果に基づいている。
まず、表示部(イメージ)1300上で、認識結果が誤
っている処理領域(ここでは、領域1310)をマウス
等により指示する。そして、フォント設定ボタン(13
05)をマウス等により指示すると、フォントA,フォ
ントBのように書体あるいはフォントの名前が表示され
る(1315,1320)。そして、表示された書体あ
るいはフォントをマウス等により指定することにより、
指示した処理領域(ここでは、領域1310)に対応す
る文字認識結果を表示する際の書体あるいはフォントが
修正される。
【0110】次に、図14を用いて、書体の判定処理の
誤りの修正方法の他の実施例を説明する。
【0111】この方法は、表示部(イメージ)1400
上の処理領域を指示するのではなく、フォントあるいは
書体を変更したい領域を、認識結果を表示した領域14
10上においてマウス等により指定する。そして、フォ
ント設定ボタン1405を指示することで、フォント
A,フォントBのように書体あるいはフォントの名前が
表示される(1415,1420)。そして、表示され
た書体あるいはフォントをマウス等により指定すること
により、指示した処理領域の文字認識結果の表示が修正
される。
【0112】図13および図14では、使用されている
書体あるいはフォントを処理領域ごとに判定し、判定さ
れた書体あるいはフォントを用いて認識結果を表示し
た。
【0113】次に、図15を用いて、前後の数文字に使
用されている書体あるいはフォントの判定結果を利用す
ることで、一文字ごとの書体あるいはフォントを決定
し、認識結果を決定された書体あるいはフォントを用い
て表示する方法を説明する。これにより、例えば処理領
域内に書体あるいはフォントが異なる語句等がある場合
においても、処理領域内のすべての文字に対し正しい書
体で表示することが出来る。
【0114】まず、前後数文字分の書体(あるいはフォ
ント)の判定結果を入力する(ステップ1505)。次
に、カレント文字の判定結果に重みを付け(ステップ1
510)、各書体(あるいはフォント)に対して累積値
を求める(ステップ1515)。そして、累積値の大き
い書体あるいはフォントをカレント文字の書体として表
示する(ステップ1520)。
【0115】ステップ1510および1515を、図2
6を用いて説明する。
【0116】1位候補文字(1位認識結果)2661の
各候補に対し、書体の判定結果2662が文字認識によ
り得られる。ここでは、説明のため、書体を決定するカ
レント文字を”フ”とし、カレント文字の2文字前後を
利用してカレント文字の書体を判定する方法を示す。カ
レント文字、そしてその前後2文字の書体判定結果に重
みを着けるため、関数(重み窓関数)2663を利用す
る。この場合の重みは、カレント文字が3、そして、1
文字前後の文字に対し重み2を付け、2文字前後の文字
に対して重み1を付ける。そして、累積値算出部266
4では各書体に対し重みを加算していく。この場合、明
朝体の累積値は4となり、ゴシック体の累積値は5とな
り、カレント文字の書体判定部2667における判定結
果は、ゴシック体として判定される。
【0117】以下、ユーザが1位に認識出来なかった文
字パタンを、再度2位以下にならないようにユーザ辞書
170に登録する方法について説明する。
【0118】図16を用いて、ユーザが指定した文字の
マスクを登録するためのユーザ辞書170のデータ構造
を説明する。このユーザ辞書170は、先に示した中分
類において第2段階の類似度算出に用いる辞書(中分類
辞書165)のデータ構造と同一である。即ち、カテゴ
リ番号iによりインデックステーブル1605を見て、
0xffff以外であればマスクが存在するため、マス
ク数テーブル1610を調べ、これらの情報を用いて特
徴テーブル1620からマスクを取り出す。ここで、ユ
ーザ辞書を中分類に位置付けるのは、細分類は部分的な
特徴で類似文字のみを識別する分類であり、その他の文
字(類似していない文字)に対しては、中分類が最終出
力となるからである。
【0119】次に、図17に示すPADにより、実際に
ユーザが登録したい文字を指定してシステムが登録を完
了するまでの手順を説明する。
【0120】まず、登録ボタンをマウス等により指示す
ることで、登録を開始することをシステムに知らせる
(ステップ1705)。次に、ユーザが登録したい対象
を選択指示する(ステップ1725)。すると、ユーザ
が指示した対象の種類が、ステップ1710において判
定される。対象の種類が、文字画像である場合にはステ
ップ1720に進んで処理を行ない、認識候補文字であ
る場合にはステップ1745に進んで処理を行なう。
【0121】ここで、指示した文字パタンをユーザ辞書
に登録するためには、登録する文字のコードと登録文字
のマスクが必要となる。このため、ステップ1725に
おいて文字画像を指示した場合、その文字コードを入力
する必要があり、ユーザによりキーボード等から文字あ
るいはコードを指示され、これらを入力する(ステップ
1720)。また、認識候補文字から指定する場合、認
識結果の指示により表示された候補文字の中から正しい
文字をユーザにより選択される(ステップ1745)。
上記の処理の後、認識装置は、辞書に登録中である旨の
メッセージを表示し(ステップ1730)、辞書の登録
処理を行なう(ステップ1735)。詳細は後述(図1
8にて説明)する。処理の終了後は、表示メッセージを
消去する(ステップ1740)。
【0122】次に、図18を用いて、システムが辞書に
登録する方法を説明する。
【0123】まず、ユーザが指示した対象画像を入力す
る(ステップ1805)。そして、入力された画像から
特徴量を抽出する(ステップ1810)。これにより、
マスクを作成する。そして、登録しようとするカテゴリ
に対し、既に登録されているマスクの数mをユーザ辞書
から入力する(ステップ1815)。そして、入力した
マスク数mに1を加えることによりマスク数を更新する
(ステップ1820)。また、登録しようとするカテゴ
リiに対し、既に登録されているインデックステーブル
に格納された値I’をユーザ辞書から入力する(ステッ
プ1825)。そして、登録するカテゴリ以降(特徴テ
ーブルおよびマスク番号のI’番地以降)に登録されて
いる特徴量およびマスク番号を、図示せぬ記憶部に一時
格納する(ステップ1830)。ステップ1825で入
力したインデックスに、特徴テーブルの(I’+m−
1)番地から、対象画像の特徴量およびマスク番号を登
録する(ステップ1835)。そして、ステップ183
0において一時格納した特徴量およびマスク番号を、特
徴テーブルの(I’+m)番地から登録する(ステップ
1840)。インデックステーブルの選択文字のカテゴ
リ以降のインデックスの値を更新する(ステップ184
5)。
【0124】つぎに、図19を用いて、ユーザによる登
録文字の指定方法を説明する。
【0125】まず、辞書登録ボタン1905をマウス等
により指示することで、システムに辞書の登録を行なう
ことを伝える。そして、認識結果表示部1930上の登
録したい文字1915を指示する。その結果、候補文字
1920が表示される。そして、正解の文字1925を
候補文字1920からマウス1910で選択する。これ
により、登録したい文字1925の文字パタンとその文
字コードをシステムに入力することが出来る。なぜな
ら、認識文字と文字画像がリンクで張られているため、
認識結果を指示するだけでこれに対応する文字画像は容
易にわかる。また、文字画像と認識結果をリンクで張る
ことは容易に実現できる。
【0126】文字認識結果から文字画像をアクセスする
ためのリンクの張り方(リンク関数)を図27を用いて
説明する。
【0127】文字認識を行なう場合、まず文字画像を切
り出す必要があり、切り出した文字画像の座標値(27
73)を文字画像テーブル2771に格納する。この場
合、図19において、ユーザがマウスで指示した文字が
8番目であるため、図27の文字番号8(2772)に
対応するテーブルに格納される。この様に切り出した文
字画像に対し、文字認識を行なう。そして、認識結果テ
ーブル2774に認識結果の候補文字2775を格納
し、認識させた文字の文字画像をたどるためのポインタ
を文字画像ポインタ2776に格納する。このように、
認識結果から文字画像へのポインタが張られているた
め、認識結果から文字画像を得ることが出来る。
【0128】また、図20を用いて、ユーザによる登録
文字の指定方法の他の実施例を説明する。
【0129】表示画面には認識結果あるいは読み取られ
た画像(イメージ)上におけるカレント文字近辺の拡大
画像2020、および、拡大画像2020中の各文字画
像に対応する1位の認識結果文字2025が表示され
る。まず、ユーザは登録したい拡大文字画像2015あ
るいは認識結果2030を、マウス2010で指示す
る。そして、正しい文字をキーボード等から入力する。
これも先の実施例と同様に、認識結果と文字画像がリン
クされているため、認識結果を指示することにより容易
に文字画像を得ることが出来る。
【0130】なお、中分類辞書160および中分類辞書
165として、どのような書体の形状の特徴を文字デー
タとして備える辞書を使用するかについて説明する。
【0131】たとえば、一般に、明朝体あるいはゴシッ
ク体が使用される頻度は高く、教科書体が使用される頻
度は低いため、初期状態としては、中分類辞書160と
して明朝体およびゴシック体の形状の特徴を文字データ
として備える辞書を使用し、中分類辞書165として教
科書体の形状の特徴を文字データとして備える辞書を使
用することが考えられる。
【0132】さらに、複数の辞書と、辞書160,16
5として使用すべき辞書の種類を設定するためのユーザ
インターフェース(辞書160,165として使用すべ
き辞書の種類を設定するためのコマンド等、および、こ
のコマンド等により設定された辞書を辞書160,16
5として使用するための制御部等)を備え、ユーザによ
り、前記辞書の種類を設定することができるようにして
もよい。
【0133】
【発明の効果】本発明の文字認識方法によれば、各種フ
ォントを使用した印刷文字を高速かつ高精度に認識する
ことが出来る。
【0134】また、認識対象の処理領域あるいは認識文
字の書体あるいはフォントを判定し、認識結果を表示画
面等に出力する際に、判定されたフォントを使用して出
力することができる。本発明によれば、自動的に判定さ
れた書体の判定結果を修正するユーザインタフェースを
提供することにより、書体の判定誤りを容易に修正する
ことが出来る。
【0135】さらに、本発明によれば、1位に認識出来
なかった文字パタンをユーザ辞書に登録するユーザイン
タフェースを提供することにより、容易にユーザ辞書へ
の登録が行なえる。そして、本発明によれば、上記登録
を指示した文字パタンを、高速かつ高精度な認識用のユ
ーザ辞書へ登録することが出来る。
【図面の簡単な説明】
【図1】本発明による文字認識装置の機能ブロック図。
【図2】本方法が解決べき問題点を示す図。
【図3】複数の異なる書体の例および妨害する類似文字
の例を示す図。
【図4】本方法が解決べき問題点の原因を示す図。
【図5】未学習書体での誤認識率を示す図。
【図6】本方法を適応したときの認識率を示す図。
【図7】中分類処理のPADを示す図。
【図8】相互評価部における処理のPADを示す図。
【図9】中分類辞書1のデータ構造を示す図。
【図10】中分類辞書2のデータ構造を示す図。
【図11】処理領域の使用フォントの判定方法のPAD
を示す図。
【図12】処理領域で判定した使用フォント情報による
表示方法を示す図。
【図13】表示された処理結果のフォント修正方法を示
す図。
【図14】表示された処理結果の他のフォント修正方法
を示す図。
【図15】一文字毎の使用フォントの判定方法のPAD
を示す図。
【図16】中分類におけるユーザ辞書のデータ構造を示
す図。
【図17】ユーザが特定の文字を辞書に登録するときの
方法のPADを示す図。
【図18】システムがユーザ辞書へ指定文字画像を登録
する方法のPADを示す図。
【図19】ユーザ辞書へ登録する文字の指定方法を示す
図。
【図20】ユーザ辞書へ登録する文字の他の指定方法を
示す図。
【図21】大分類を説明するための図。
【図22】大分類の処理のPADを示す図。
【図23】細分類を説明するための図。
【図24】細分類の処理のPADを示す図。
【図25】細分類を説明するための図。
【図26】使用されているフォントを判定する方法を説
明するための図。
【図27】認識結果と文字画像とのリンクづけを説明す
るための図。
【図28】文字の形状の特徴データの構造例を示す図。
【図29】本発明による文字認識装置の全体図。
【符号の説明】
105…前処理部、110…大分類部、115…大分類
の出力候補、120…中分類部、125…類似度算出
部、130…類似度算出部の出力候補、135…類似度
算出部、140…類似度算出部の出力候補および類似
度、145…相互評価部、150…類似度算出部の出力
候補および類似度、155…相互評価部の出力候補、1
60…中分類辞書1、165…中分類辞書2、170…
ユーザ辞書、175…細分類部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 嶋 好博 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】文字の特徴データを格納した辞書を備え、
    入力された文字画像の特徴を抽出手段により抽出し、抽
    出された前記文字画像の特徴を前記辞書に格納された特
    徴データと照合し、前記照合結果に基づいて前記画像の
    文字を認識し、表示手段を備えて、前記表示手段に認識
    結果である文字を表示する文字認識装置において、 前記入力された画像に対する文字の候補をK1個選択す
    る第1の分類手段と、 前記K1個の文字の候補から、前記K1個より少ない数
    であるK2個の文字の候補を選択する第2の分類手段
    と、 前記K2個の文字の候補から、1つの候補を選択する第
    3の分類手段と、 を備え、 前記第2の分類手段において、 文字の複数の類似した書体あるいは単一の書体の形状の
    特徴を文字データとして有する第1の辞書と、 前記文字画像から抽出された特徴と、前記K1個の文字
    の候補に対応する前記第1の辞書の文字データとの類似
    度を算出する第1の算出手段と、 前記第1の算出手段により算出された類似度に基づい
    て、前記K2以下のK3個の文字を候補として選択する
    第1の選択手段と、 文字の複数の類似した書体あるいは単一の書体の形状
    の、前記第1の辞書とは異なる特徴を文字データとして
    有する第2の辞書と、 前記文字画像から抽出された特徴と、前記K3個の文字
    の候補に対応する前記第2の辞書の文字データとの類似
    度を算出する第2の算出手段と、 前記第2の算出手段により算出された類似度に基づい
    て、前記K3以下のK4個の文字を候補として選択する
    第2の選択手段と、 前記第1および第2の選択手段により選択された(K3
    +K4)個の文字の候補から、前記第1および第2の算
    出手段により算出された類似度に基づいて、K2個の文
    字を候補として選択する第3の選択手段と、 を備えることを特徴とする文字認識装置。
  2. 【請求項2】請求項1において、前記第1または第2の
    辞書に、新たに文字データを登録するための登録手段を
    備え、 前記登録手段は、 前記辞書に登録すべき文字画像を外部から指定されて入
    力する登録画像指定手段と、 前記入力された文字画像から、前記抽出手段により特徴
    を抽出するように制御する抽出制御手段と、 前記入力された文字画像に対して、認識結果とすべき文
    字を外部から指示されて入力する認識結果指示手段と、 前記抽出された特徴と、前記指示された認識結果とすべ
    き文字とを関連づけて、文字データとして前記辞書に既
    に登録されているデータに付加して登録する付加手段
    と、 を備えることを特徴とする文字認識装置。
  3. 【請求項3】請求項1において、前記第3の選択手段
    は、 前記第1および第2の選択手段により選択された文字の
    候補と、前記文字の候補に対して前記第1および第2の
    算出手段により算出された類似度とを、関連づけて格納
    する記憶手段と、 前記記憶手段に格納された類似度が大きい順に、前記文
    字の候補を並べかえるソート手段と、 前記ソート手段により並べられた前記文字の候補の、前
    記類似度が大きい方から、重複する文字が無いようにK
    2個の文字を候補として選択する手段と、 を備えることを特徴とする文字認識装置。
  4. 【請求項4】請求項1において、 前記入力された文書画像のレイアウトを解析する解析手
    段と、 前記解析手段により得られた解析結果に基づいて、前記
    文書画像の領域を区分けする区分手段と、 前記区分された領域において使用されている書体を判定
    する判定手段と、 前記判定手段により判定された書体を使用して、文字認
    識結果を前記表示手段に表示するための表示制御手段
    と、 を備えることを特徴とする文字認識装置。
  5. 【請求項5】請求項4において、 前記判定手段は、 各文字画像毎に、使用されている書体を判別する判別手
    段と、 前記区分された領域において、前記判別手段により前記
    書体が使用されていると判別された文字画像の数を、各
    書体毎に計数する計数手段と、 前記計数手段により計数された文字の数が最も多い書体
    を、前記区分された領域において使用されている書体で
    あると決定する決定手段と、 を備えることを特徴とする文字認識装置。
  6. 【請求項6】請求項1において、 各文字画像毎に、使用されている書体を判定する判定手
    段と、 前記判定手段により判定された書体を使用して、文字認
    識結果を前記表示手段に表示するための表示制御手段
    と、 を備えることを特徴とする文字認識装置。
  7. 【請求項7】請求項4、5、または6において、 前記判定手段により判定された書体の判定結果を修正す
    るための修正手段を備え、 前記修正手段は、前記表示手段により表示された認識結
    果において、修正すべき領域を外部から指示するための
    指示手段と、 前記領域において使用されている文字の書体を外部から
    設定される設定手段と、 を備えることを特徴とする文字認識装置。
  8. 【請求項8】請求項2において、 前記文字認識装置は、前記表示手段に、入力された文字
    画像および前記第3の選択手段により選択された文字の
    候補を表示するための表示制御手段を備え、 前記登録画像指定手段は、前記表示手段に表示された文
    字画像を外部から指定されて入力し、 前記認識結果指示手段は、前記表示手段に表示された文
    字の候補の内の1つを外部から指示されて入力すること
    を特徴とする文字認識装置。
  9. 【請求項9】請求項2において、前記文字認識装置は、
    各文字に対して文字コードを予め定められて前記文字コ
    ードにより各文字を識別し、 また、前記文字認識装置は、キーボードを備え、 前記認識結果指示手段は、認識結果とすべき文字のコー
    ドを前記キーボードから指定されることを特徴とする文
    字認識装置。
  10. 【請求項10】請求項1において、前記第1の分類手段
    は、 形状の特徴が類似した複数の文字の集合の、少なくとも
    1種の書体の形状の特徴を文字データとして有する辞書
    と、 前記抽出された特徴と、前記辞書の文字データとの類似
    度を算出する算出手段と、 前記算出手段により算出された類似度に基づいて、K1
    個の文字を候補として選択する選択手段と、 を備えることを特徴とする文字認識装置。
  11. 【請求項11】請求項1において、前記第3の分類手段
    は、 1文字の表示領域内の部分領域における、少なくとも1
    種の書体の形状の特徴を文字データとして有する辞書
    と、 前記抽出された特徴と、前記K2個の文字の候補に対応
    する、前記辞書の文字データとの類似度を算出する算出
    手段と、 前記算出手段により算出された類似度に基づいて、1個
    の文字を認識結果として選択する選択手段と、 を備えることを特徴とする文字認識装置。
  12. 【請求項12】請求項1において、 前記第2の辞書は、互いに異なる特徴を文字データとし
    て有するn個(n≧2)の辞書の集合から構成され、 前記第2の算出手段は、前記文字画像から抽出された特
    徴と、前記K3個の文字の候補に対応する前記n個の辞
    書の文字データとの類似度を算出することを特徴とする
    文字認識装置。
  13. 【請求項13】請求項1において、 前記第1の辞書は、明朝体およびゴシック体の形状の特
    徴を文字データとして有し、 前記第2の辞書は、教科書体の形状の特徴を文字データ
    として有することを特徴とする文字認識装置。
  14. 【請求項14】請求項1において、 前記第1の辞書は、明朝体およびゴシック体の形状の特
    徴を文字データとして有し、 前記第2の辞書は、明朝体およびゴシック体以外の書体
    の形状の特徴を文字データとして有することを特徴とす
    る文字認識装置。
  15. 【請求項15】請求項1において、 文字の複数の類似した書体あるいは単一の書体の形状の
    特徴を文字データとして有する少なくとも2以上の辞書
    と、 前記第1または第2の辞書とすべき辞書を、外部から指
    定される辞書指定手段と、 前記文字画像から抽出された特徴と、前記指定された辞
    書の文字データとの類似度を、前記算出手段により算出
    するように制御する制御手段と、 を備えることを特徴とする文字認識装置。
  16. 【請求項16】文字の特徴データを格納した辞書を備
    え、入力された文字画像の特徴を抽出し、抽出された前
    記文字画像の特徴を前記辞書に格納された特徴データと
    照合し、前記照合結果に基づいて前記画像の文字を認識
    する文字認識方法において、 前記入力された画像に対する文字の候補をK1個選択
    し、 前記K1個の文字の候補から、前記K1個より少ない数
    であるK2個の文字の候補を選択し、 前記K2個の文字の候補から、1つの候補を選択するこ
    とにより文字を認識して、 前記K2個の文字の候補を選択する際に、 文字の複数の類似した書体あるいは単一の書体の形状の
    特徴を文字データとして有する第1の辞書を備え、 前記文字画像から抽出された特徴と、前記K1個の文字
    の候補に対応する前記第1の辞書の文字データとの類似
    度を算出し、 前記第1の辞書の文字データとの類似度に基づいて、前
    記K2以下のK3個の文字を候補として選択し、 文字の複数の類似した書体あるいは単一の書体の形状
    の、前記第1の辞書とは異なる特徴を文字データとして
    有する第2の辞書を備え、 前記文字画像から抽出された特徴と、前記K3個の文字
    の候補に対応する前記第2の辞書の文字データとの類似
    度を算出し、 前記第2の辞書の文字データとの類似度に基づいて、前
    記K3以下のK4個の文字を候補として選択し、 前記選択された(K3+K4)個の文字の候補から、前
    記類似度に基づいて、K2個の文字を候補として選択す
    ることを特徴とする文字認識方法。
JP5006956A 1993-01-19 1993-01-19 文字認識方法および装置 Pending JPH06215197A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5006956A JPH06215197A (ja) 1993-01-19 1993-01-19 文字認識方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5006956A JPH06215197A (ja) 1993-01-19 1993-01-19 文字認識方法および装置

Publications (1)

Publication Number Publication Date
JPH06215197A true JPH06215197A (ja) 1994-08-05

Family

ID=11652682

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5006956A Pending JPH06215197A (ja) 1993-01-19 1993-01-19 文字認識方法および装置

Country Status (1)

Country Link
JP (1) JPH06215197A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0997397A (ja) * 1995-09-29 1997-04-08 Matsushita Electric Ind Co Ltd カーロケータ装置
JP2004118563A (ja) * 2002-09-26 2004-04-15 Fuji Photo Film Co Ltd 文字画像処理方法および装置並びにプログラム
JP2016031709A (ja) * 2014-07-30 2016-03-07 京セラドキュメントソリューションズ株式会社 画像処理装置及び画像処理方法
JP2019083002A (ja) * 2017-10-27 2019-05-30 アドビ インコーポレイテッド トリプレット損失ニューラル・ネットワーク・トレーニングを使用するフォント認識の改善

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0997397A (ja) * 1995-09-29 1997-04-08 Matsushita Electric Ind Co Ltd カーロケータ装置
JP2004118563A (ja) * 2002-09-26 2004-04-15 Fuji Photo Film Co Ltd 文字画像処理方法および装置並びにプログラム
JP2016031709A (ja) * 2014-07-30 2016-03-07 京セラドキュメントソリューションズ株式会社 画像処理装置及び画像処理方法
JP2019083002A (ja) * 2017-10-27 2019-05-30 アドビ インコーポレイテッド トリプレット損失ニューラル・ネットワーク・トレーニングを使用するフォント認識の改善

Similar Documents

Publication Publication Date Title
EP0439951B1 (en) Data processing
JP2726568B2 (ja) 文字認識方法及び装置
US5586198A (en) Method and apparatus for identifying characters in ideographic alphabet
JP2973944B2 (ja) 文書処理装置および文書処理方法
US5579408A (en) Character recognition method and apparatus
US8015203B2 (en) Document recognizing apparatus and method
JP3452774B2 (ja) 文字認識方法
US5923778A (en) Hierarchical representation of reference database for an on-line Chinese character recognition system
US6408091B1 (en) Information processing method and apparatus with mixing of processing command input strokes and input strokes for patterns
JPH06215197A (ja) 文字認識方法および装置
JP3319203B2 (ja) 文書ファイリング方法及び装置
JP7404625B2 (ja) 情報処理装置、及びプログラム
JP2874815B2 (ja) 日本語文字読取装置
JP2766205B2 (ja) 文字認識装置
JP3164962B2 (ja) 文字認識辞書作成方法および装置
JP6533395B2 (ja) 文字検索方法およびシステム
JPH07114622A (ja) 文字認識装置の後処理方法
JP3481850B2 (ja) 文字認識装置
JP3022790B2 (ja) 手書き文字入力装置
JPH096920A (ja) 手書き文字認識方法及びその装置
JPS5852267B2 (ja) 文字解析方式
Chhabra Anatomy of a hand-filled form reader
JPH08241378A (ja) 低品質文字の認識方法
CN115131799A (zh) 字符识别装置、字符识别方法以及记录介质
JPH07134750A (ja) 文書画像認識装置