JP3485020B2

JP3485020B2 - 文字認識方法及び装置ならびに記憶媒体

Info

Publication number: JP3485020B2
Application number: JP10284199A
Authority: JP
Inventors: 武司長谷川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1999-04-09
Filing date: 1999-04-09
Publication date: 2004-01-13
Anticipated expiration: 2019-04-09
Also published as: JP2000293626A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、処理対象に記載さ
れた文字を光学的に読み取って文字認識を行う文字認識
方法及び文字認識装置（いわゆるＯＣＲ；Optical Char
acter Reader）に関し、特に、自由書式の認識対象を処
理し、認識対象の画像に含まれる多くの文字列、文様な
どの中から、実際の文字認識の対象となる文字列を含む
認識対象領域を検出し、文字及び文字列認識を行う文字
認識方法及び装置に関する。

【０００２】

【従来の技術】一般にＯＣＲとも呼ばれる光学的文字認
識装置は、手書き文字が記入されあるいは印刷文字が印
字された対象物を画像入力装置（スキャナ）で読み取っ
て認識対象画像を取得し、この認識対象画像からそこに
含まれる文字列を認識し、文字を認識する。画像入力装
置自体は汎用の技術であり、また、既にある認識対象画
像データから文字認識を行うことも可能であるから、光
学的文字認識装置を特徴づけるものは、認識対象画像か
ら文字列を抽出して文字を認識するところにある。その
意味で本明細書では、「光学的」の語句に拘泥すること
なく、画像からその画像に含まれる文字を認識する技術
を扱うこととする。

【０００３】予め位置やサイズが定められた記入枠に１
文字ずつ文字が記入・印字されている場合には、その１
文字ごとに個別の文字認識を実行すればよい。しかしな
がら、自由書式すなわち特に書式を定めることなく記入
あるいは印字された文字を認識する場合、例えば、郵便
物から宛て名となる文字列を抽出し、その文字列中の文
字を認識する場合には、まず、認識対象画像から認識対
象となる個別の文字を抽出するための処理（前処理とい
う）が必要になる。郵便物の区分けのために自由書式の
文字認識を行う場合であれば、前処理として、発信人の
住所ではなくてあて先の住所（や氏名）の文字・文字列
が書かれたブロック状の領域（宛て名記載領域）を認識
対象領域として抽出し、その領域から行ごとの文字列画
像を抽出し、各文字列画像から１文字ずつ文字を切り出
すという処理が必要となる。さらに、前処理としては、
後工程の個別文字認識において認識をしやすくするため
に、文字のかすれたところを補う処理、郵便物表面のし
みや汚れなどによるノイズを除去する処理、傾いている
文字画像を補正する処理、下線（アンダーライン）を検
出してそれを除去する処理、文字の大きさを揃える（正
規化する）処理などが、必要に応じて実行される。文字
切り出しにおいては、１文字で「記」と書かれているは
ずのものを「言」と「己」に分けて切り出したり、２文
字で「三原」と書かれているはずのものを「源」に対応
する１文字で切り出すような、誤った切り出しを行わな
いようにすることが重要である。

【０００４】書き癖や字体（フォント）の相違に対応す
るために、文字切り出しを行った後の個別文字認識に学
習機能を持たせることが有効であることが知られてい
る。文字認識装置での個別文字認識における学習機能に
ついては、これまでにも多くの提案がなされている。例
えば、特開平８−１８０１４１号「文字認識システ
ム」、特開平５−９４５６５号「手書文字認識方式」、
特開平５−０５４１９６号「ナンバープレート認識装
置」などの各公報に、個別文字認識そのものに対する学
習が開示されている。

【０００５】さらに文字認識において知識ベースを用い
ることも知られている。例えば、特開平１０−１９８７
６４号公報「文字列認識装置および知識データベース学
習方法」には、認識候補文字列が未登録語である場合に
は、その認識候補文字列を知識データベースに登録する
ようにして、文字認識処理に適用する知識データベース
の自動学習を可能にする技術が開示されている。また、
特開平７−６２０３号公報には、帳票と呼ばれる特定フ
ォーマットを対象とした学習を行う文字認識装置が開示
されている。前処理における文字切り出しに知識ベース
を応用したものとしては、特許第２７５１８６５号明細
書（特開平８−２８７１８８号公報）がある。

【０００６】図１２は、従来の文字認識装置の構成を示
すブロック図である。ここでは、郵便物の区分け装置に
用いられる文字認識装置を説明する。この文字認識装置
は、処理対象（郵便物）を２値または多値の認識対象画
像データとして取り込む画像入力部９１と、フォーマッ
トデータベースあるいは処理パラメータなどとして与え
られた知識を予め記憶している前処理知識記憶部９２
と、前処理知識記憶部９２に記憶された知識を用いるこ
とにより、画像入力部９１で取得した認識対象画像デー
タから宛て名記載領域（認識対象領域）を検出して文字
列画像を抽出する文字列領域検出部９３と、同様に前処
理知識記憶部９２に記憶された知識を使用して、検出さ
れた文字列画像を文字として最適と考えられるブロック
ごとに画像分割する文字切り出し部９４と、個々の分割
画像を文字として認識する個別文字認識部９５と、個別
文字の認識結果に対して、予め与えられている文字列に
関する知識（地名情報など）を適用し、適切な文字列と
して構築し、最終処理結果として出力する知識処理部９
６とを備えている。知識処理部９６は、適切な文字列を
発見しなかった場合、すなわち正しい認識結果が得られ
ないと判断した場合には、最終処理結果としてリジェク
トを出力する。さらに、この文字認識装置には、最終処
理結果としてリジェクトあるいは誤り（エラー）が出力
された場合に手作業により校正し、その郵便物の正しい
宛て先（例えば郵便番号（７桁）及び丁目番地号棟室の
情報）を手入力で郵便物区分け装置に入力する校正処理
部９７が、設けられている。

【０００７】この文字認識装置を用いる郵便物区分け装
置は、知識処理部９６の出力により郵便物を区分けし、
知識処理部９６の出力としてリジェクトあるいはその他
のエラーが検出されたときには、校正処理部９７での校
正結果により、郵便物を区分けする。この従来の文字認
識装置では、文字切り出し部９４での文字切り出しに、
上述した特許第２７５１８６５号明細書に記載の方法を
用いることができる。また、個別文字認識部９５や知識
処理部９６での処理として、学習機能を有しまた知識処
理を行う文字認識方法を適用することができる。

【０００８】

【発明が解決しようとする課題】図１２に示した従来の
文字認識装置では、知識処理による前処理を実行し、ま
た、知識処理であるとともに学習機能を有する個別文字
認識を行っている。しかしながら、自由書式の文字認識
では特に重要な処理である前処理（認識対象領域の検出
や文字切り出し）については、学習を行っていない。こ
れは、これまでの文字認識技術が、定型帳票を対象とし
て発展してきたため、認識対象領域の検出や文字切り出
しにそれほど関心を払ってこなかったことが大きく影響
している。しかし、自由書式を対象とした文字認識装置
の需要の増大に従い、前処理段階での性能問題が大きく
なり、それらの処理を運用対象に最適化するための学習
が必須となってきている。

【０００９】ここで文字認識装置の性能について説明す
る。現状において文字認識装置による文字認識は未だ人
間のレベルに達していないため、その読み取り性能の向
上が技術的に大きな課題となっている。性能とは、もっ
とも単純に言えば、どれだけ正しく認識できたかである
が、性能を表わす具体的な指標としては、例えば、前処
理における「宛て名記載領域の検出処理」の正解率、
「文字切り出し処理」における正解率（多候補処理であ
れば正解含有率）、さらに、個別文字認識正読率、知識
処理での正解率などが挙げられる。

【００１０】自由書式を対象とした文字認識に共通する
問題は、実際の運用において処理される処理対象のバリ
エーションや記載状況に、あらかじめ最適化して製品化
することが難しいという点である。例えば、現在実用化
されている自由書式に対する文字認識装置として、上述
したように郵便物に記載されたあて名を対象とした文字
認識装置がある。その性能においても、さまざまな絵、
文章、ロゴなどの記載された中からあて名文字列を検出
することが大きな課題となっており、あらかじめ用意し
た前処理、例えばあて名記載領域（認識対象領域）の検
出処理、文字切り出し処理では対応できない郵便物が多
く存在し、さらに運用される地域により、主として記載
される住所も異なるため、個々の文字認識装置に対し
て、実際の運用に即した学習、最適化による性能改善の
必要がある。

【００１１】しかしながら、これらの処理を自動学習に
より個別の運用状況に最適化し、性能向上させる方法に
ついては、これまでは検討されていないのが現状であ
る。

【００１２】そこで本発明の目的は、自由書式の文字認
識処理において認識対象領域検出処理や文字切り出し処
理等の前処理について学習を行い、実際に処理する対象
に最適化した性能改善を可能とする文字認識方法及び装
置を提供することにある。

【００１３】

【課題を解決するための手段】一般に自由書式の文字認
識においては、リジェクトや誤りの原因となるのは、前
処理での認識対象領域検出、文字列領域の抽出、文字切
り出し処理の失敗である。その一方で、最終的にリジェ
クトとされる場合であっても、通常は文字列の候補が全
く生成できないということは少なく、候補を作成したが
最終的には信頼できないためリジェクトする、あるいは
複数の候補が生成され、いずれか一方に決定する段階で
いずれとも確定できずリジェクトするという場合が多
い。誤認識にしても同様で、複数の候補から最終的に誤
りを選択してしまったという場合が多い。

【００１４】このように正しい候補を最終候補に残すこ
とができない原因として、実際の運用において処理され
る処理対象のバリエーションや記載状況に、あらかじめ
最適化して製品化することが難しいという問題がある。
個別文字認識における認識処理を運用状況に最適化する
方法は既に多く公開されているが、これに前処理までを
実際の運用状況に最適化することができれば、自由書式
に対する文字認識性能は格段に向上させることができ
る。

【００１５】そこで本発明では、リジェクトあるいは誤
認識となったものを手作業で校正する際に得られる情報
を用いて、前処理での候補検出、選択段階で用いる知識
を実際の運用に最適化することで、性能向上を実現す
る。

【００１６】すなわち本発明の文字認識方法は、自由書
式で文字が記載された認識対象画像に対して文字認識を
行う文字認識方法において、認識対象画像から、知識処
理により、文字として最適と考えられるブロックを分割
画像として切り出す前処理工程と、分割画像のそれぞれ
に対して個別文字認識を行う個別文字認識工程と、個別
文字認識の結果に対して、文字列に関する予め与えられ
た知識を適用して適切な文字列を構築し、最終処理結果
として出力する文字列構築工程と、最終処理結果として
リジェクトあるいは誤りが出力された場合に、手作業に
より処理対象画像に対する最終処理結果として正しい文
字列が入力される校正処理工程と、校正処理工程が行な
われた場合に、正しい文字列をキーとしてトップダウン
的に、前処理工程で処理対象画像に対して用いるべきで
あった最適な知識を獲得し、獲得した知識によって前処
理工程で用いる知識を更新する学習工程と、を有する。

【００１７】また本発明の文字認識装置は、自由書式で
文字が記載された認識対象画像に対して文字認識を行う
文字認識装置において、文字認識の前処理に必要な知識
を記憶する前処理知識記憶手段と、認識対象画像から、
予め前処理知識記憶手段に与えられた知識を用いて、希
望する文字列領域を検出する文字列領域検出手段と、前
処理知識記憶手段に記憶された知識を使用して、検出さ
れた文字列領域画像を文字として最適と考えられるブロ
ックごとに画像分割し分割画像を得る文字切り出し手段
と、個々の分割画像を文字として認識する個別文字認識
手段と、個別文字の認識結果に対して、予め与えられた
文字列に関する知識を適用し、適当な文字列として構築
し、最終処理結果として出力する知識処理手段と、最終
処理結果としてリジェクト、あるいは誤りが出力された
場合に手作業により処理対象画像に対する最終処理結果
として正しい文字列が入力される校正処理手段と、校正
処理手段で校正処理が行なわれた場合に、その正解デー
タをキーとしてトップダウン的に、処理対象画像に対し
て用いるべきであった最適な知識を獲得し、獲得した知
識に基づいて前処理知識記憶手段内に知識を蓄積し前処
理知識記憶手段内の知識を更新する学習手段と、を有す
る。

【００１８】すなわち本発明では、文字列領域検出手段
は、封筒に記載された宛て名のような自由書式の認識対
象から、予め前処理知識記憶手段にデータベース、ある
いは処理パラメータなどとして与えられた知識により、
希望する文字列領域を検出する。次に、文字列領域検出
手段で得られた文字列部分は、同様に前処理知識記憶手
段に記憶された知識を使用して、文字切り出し手段にお
いて文字として最適と考えられるブロックごとに画像分
割される。次に、個別文字認識手段で文字認識を実施さ
れ、さらに知識処理手段において記憶されている住所、
氏名など知識を元に最も適当な文字列として構築され、
最終処理結果として出力される。文字認識装置による文
字認識では、リジェクトされる場合や誤りを含む場合が
あるため、校正処理手段においてＯＣＲで正しく認識で
きなかった文字、あるいは文字列を手作業で入力し、正
しい認識結果を作成する。

【００１９】本発明では、校正処理手段で得られた正解
データをキーとして、前処理からの一連の処理を繰り返
し再実行することで、正解の前処理結果を得るための知
識、パラメータなどを獲得し、さらにそれらを前処理知
識記憶手段で蓄積、更新する機能を文字認識装置に与え
ることで、前処理自体は既存の技術を使用しながら、実
際に運用される状況、入力される画像に最適な前処理を
実現できる文字認識方法及び装置を提供する。

【００２０】

【発明の実施の形態】次に、本発明の好ましい実施の形
態について、図面を参照して説明する。図１は本発明の
第１の実施形態の文字認識装置の構成を示すブロック図
である。

【００２１】ここでは、郵便物の区分けを目的として自
由書式の文字認識を行う場合を例に挙げて説明する。図
２は、切手が貼付され、また会社のロゴ（社章の類）が
印刷されているとともに、宛て名１１と発信元１２が記
載されている封書１０を示している。ここでは、この封
書を画像入力して得た認識対象画像から、文字認識の対
象となる領域である認識対象領域として、宛て名が記載
されているブロック状の領域（図示破線で囲まれた宛て
名記載領域１３）を検出し、その後、宛て名記載領域１
３から宛て名の各行の文字列領域を抽出し、文字列領域
に対して文字切り出し処理を行い、記載されている文字
列を認識する処理を行うものとして、説明を行う。な
お、図２においては、宛て名記載領域１３を破線で明示
しているが、実際の封書１０にはこのような破線（領
域）が記載されているわけではなく、このブロック領域
は、後述する前処理の結果として、文字認識装置内で初
めて認識され抽出されるものである。また、宛て名の各
行の文字列領域とは、図２に示した例では、文字列「〒
１８３−００３６」を含む領域、文字列「東京都府中市
日新町１−１０」を含む領域、文字列「○△○△株式会
社」を含む領域、文字列「府中事業場第１技術部御
中」を含む領域の合計４つの領域である。

【００２２】図１に示す文字認識装置は、処理対象（こ
こでは封書１０）をＣＣＤ（電荷結合素子）センサなど
の光電変換素子によって読み取り、２値または多値のデ
ジタル画像データである認識対象画像として取り込む画
像入力部２１と、前処理に使用する知識をフォーマット
データベースあるいは処理パラメータなどの形態で予め
記憶しておく前処理知識記憶部２２と、前処理知識記憶
部２２に記憶された知識を用いることにより、画像入力
部２１で取得した認識対象画像からブロック状の領域と
して宛て名記載領域１３を抽出し、抽出した宛て名記載
領域１３から文字列領域を検出する文字列領域検出部２
３と、同様に前処理知識記憶部２２に記憶された知識を
使用して、検出された文字列領域画像を文字として最適
と考えられるブロックごとに画像分割する文字切り出し
部２４と、個々の分割画像を文字として認識する個別文
字認識部２５と、個別文字の認識結果に対して、予め与
えられている文字列に関する知識（地名情報など）を適
用し、適当な文字列として構築し、最終処理結果として
出力する知識処理部２６とを有している。さらにこの文
字認識装置は、知識処理部１６から最終処理結果として
リジェクトあるいは誤りが出力された場合に手作業によ
り校正する校正処理部２７と、前処理知識記憶部２２に
記憶された知識の学習を行うためにこの知識の更新を行
う学習機構部２０とを備えている。

【００２３】この文字認識装置においては、文字列領域
検出部２３から知識処理部２６までは、いずれも相互に
情報を交換することが可能である。特に、知識処理部２
６での処理結果が文字列領域検出部２３及び文字切り出
し部２４にフィードバックし、校正処理部２８において
校正処理が行われた場合にはその校正処理の内容が文字
列領域検出部２３及び文字切り出し部２４にフィードバ
ックしている。学習機構部２９は、文字列領域検出部２
３及び文字切り出し部２４へのフィードバック内容に応
じて前処理知識記憶部２２中の知識の学習を実行する。

【００２４】知識処理部２６は、知識ベースとして例え
ば地名辞書を備えることにより、個別文字認識部２５が
出力した個別文字の認識結果から、知識処理によって、
最終的な認識文字（列）を出力する。知識処理を行うこ
とにより、個別文字認識部２５が「王」の字を「玉」で
あると誤認識した場合であっても、「八王子市」という
地名（八王子市は東京都の西部にある都市）はあっても
「八玉子市」という地名はないことから、正しく、「八
王子市」と認識することができる。

【００２５】特に、ここで述べる文字認識装置の知識処
理部２６は、文字列の情報と同時に書式に関する情報も
知識として記憶しており、知識処理部２６から文字領域
検出部２３及び文字切り出し部２４へ直接フィードバッ
クするような、知識処理を用いてトップダウン的に前処
理候補を作成する機能を有する。すなわちこの文字処理
装置では、自由書式に対する文字認識処理を行う際に知
識処理を行って文字列を構築する段階において、それを
与える前処理結果が適当か否かを判断し、前処理にフィ
ードバックするトップダウン処理が用いられており、文
字列領域検出部２３から知識処理部２６までの情報の流
れは一意ではない。例えば、複数の認識対象領域候補に
対して知識処理までの処理を実施した結果として最も適
当な認識対象領域を検出し、再度、前処理から、最適な
パラメータ、処理、処理手順を用いて、最終結果を得る
ような手法も用いられる。

【００２６】図１に示す文字認識装置では、校正処理部
２７で得られた正解文字列を与えた上で文字列領域検出
部２３からの一連の処理を繰り返し実行することで、当
初は正解を得ることができなかった処理対象（郵便物な
ど）から正解文字列を検出認識し、正解が得られた時の
前処理知識を用いて、学習機構部２８が、前処理知識記
憶部２２に新たに知識を追加し、あるいは前処理知識記
憶部２２に記憶されている知識を更新する。

【００２７】次に、図３に示すフローチャートを用い
て、図１に示す文字認識装置の動作を説明する。

【００２８】まず、画像入力部２１において読み取り対
象（例えば封書）をスキャニングして２値または多値の
デジタル画像データである認識対象画像として取り込む
（ステップ１０１）。この認識対象画像に対し、文字列
領域検出部２３は、前処理知識記憶部２２に記憶されて
いる知識を使用して、宛て名が記載されていると考えら
れるブロック状の領域（図２の宛て名記載領域１３）を
決定し（ステップ１０２）、その領域から各行ごとの文
字列領域を文字列領域画像として抽出する（ステップ１
０３）。次に、文字切り出し部２４が、前処理知識記憶
部２２に記憶されている知識を利用して、１文字の文字
として最適と考えられるブロックごとに文字列領域画像
を画像分割する（ステップ１０４）。このステップ１０
４の処理は、通常、文字切り出し処理と呼ばれる。な
お、ステップ１０２〜１０４の処理を一括して一般に前
処理と呼ぶ。

【００２９】前処理知識記憶部２２には、文字列領域検
出部２３において宛て名記載領域であるブロック状の領
域を検出するために必要な知識として、例えば、処理対
象に対して予め推定される典型的な記載フォーマット
（記載パターン）や、いくつかのフォーマットから最も
適当なフォーマットを選択するために必要な処理のパラ
メータ、あるいは処理手順そのものなどが記憶されてい
る。記載フォーマットないし記載パターンは、例えば、
ある種類の封書では宛て名がその封書の左上の頂点から
下に何ｃｍ、右に何ｃｍ移動した点を左上頂点として、
縦横どの程度のサイズの領域の中に記載されているか、
といった知識データである。予め記載フォーマットが推
定できない場合もあるので、前処理知識記憶部２２に
は、例えば文字サイズなどから適当な候補領域を推定し
検出するために使用されるパラメータや処理手順そのも
のなども記憶させておくことが好ましい。

【００３０】さらに前処理知識記憶部２２には、文字切
り出し部２４で使用される知識として、文字切り出しの
際に仮定される文字サイズ、ピッチの推定方法などのパ
ラメータや、文字切り出し処理の処理手順そのものなど
が記憶されている。ここでは、知識処理による前処理に
使用するパラメータ類を単一の前処理知識記憶部２２に
一括して格納しているが、実際の運用においては、個々
の処理ごとに分散してパラメータ類を蓄積するようにし
てもよい。さらに前処理知識記憶部２２は、前処理で使
用可能な処理方法が複数ある場合に、認識対象画像に応
じて処理方法を選択するための知識を記憶していてもよ
い。

【００３１】ステップ１０４において文字切り出し部２
４により分割された個々の分割画像は、次に、個別文字
認識部２５によって文字認識を実施され（ステップ１０
５）、さらに知識処理部２６において適切な文字列とし
て構築され（ステップ１０６）、最終処理結果として出
力される（ステップ１０７）。

【００３２】以上のステップ１０７までの処理によっ
て、文字認識装置（ＯＣＲ）としての最終結果が得られ
るが、最終的に出力される結果は、ステップ１０２での
宛て名記載領域の検出、ステップ１０３での文字列領域
検出、ステップ１０４での文字切り出し、ステップ１０
５での個別文字認識、ステップ１０６での知識処理など
それぞれの段階での失敗により、リジェクトされる場合
や誤りを含む場合がある。そこでこの文字認識装置で
は、リジェクトや誤りを含むかどうかを判断するととも
に（ステップ１０８）、一般の文字認識装置と同様に、
校正処理部２７を用意して、ステップ１０７までの処理
で正しく認識できなかった文字あるいは文字列につい
て、校正処理として、それら文字や文字列の正しいもの
を手作業で入力し、正しい認識結果を作成する（ステッ
プ１０９）。ステップ１０８において、リジェクトも誤
りも含まないと判断した場合には、そのまま処理を終了
する。

【００３３】校正処理部２７は、一般的には、ステップ
１０１で読み取った画像や最終結果出力までの各処理で
の途中結果を示す表示装置（例えば、ＣＲＴなど）と、
正しい文字や文字列を入力するためのキーボードなどの
入力装置によって構成される。そして、校正処理部２７
での校正処理の具体的手法としては、人間が読み取った
文字や文字列をその人間が直接入力する方法や、あるい
は、文字認識装置が示す複数の候補の中から正しいもの
を選択する方法が一般的である。

【００３４】従来の文字認識装置での文字認識処理で
は、手作業による修正（校正処理）も含めて正しい認識
結果を得た段階で処理は終了するが、本実施形態の文字
認識装置では、文字認識装置単体では正しい結果を得る
ことができず、手作業により正しい結果が入力、修正さ
れた場合には、この校正処理部２７において手作業によ
り入力されたこの正解データをフィードバックし、再
度、個別文字認識部２５からの一連の認識処理を実施す
る（ステップ１１０）。

【００３５】このステップ１１０での再処理は、前処理
での判定ミスやリジェクトを救うため、可能性のあるす
べての前処理候補について、その段階で持っている前処
理知識を用いて確率が高いと考えられる候補の順に、個
別文字認識部２５、知識処理部２６までの処理を、校正
処理部２７で与えられた正解を得たとステップ１１１で
判断されるまで、繰り返し実施する。前処理候補とは、
ステップ１０２〜１０４での一連の処理のそれぞれにお
いて、各処理で抽出（検出）されるべき領域（や分割画
像）について、優先度（尤度）を付して複数の候補領域
が挙げられるものとして、このように挙げられた候補領
域のことである。すなわち、宛て名記載領域の候補とし
て抽出された（複数の）領域、文字列領域の候補として
抽出された（複数の）領域、１文字分の領域（分割画
像）の候補として抽出された（複数の）領域のことであ
る。既に実行したステップ１０２〜１０４の各処理でそ
れぞれ１つずつしか領域が抽出されない場合には、ステ
ップ１０９の校正処理の終了後、それぞれ複数の候補領
域が見つかるように、改めて前処理（ステップ１０２〜
ステップ１０４）を実行するようにする。あるいは、ス
テップ１１０の処理を繰り返し実行する際に、その１回
の繰り返しのつど、使用する知識を変更しながら前処理
を実行するようにしてもよい。

【００３６】これらの作業の結果、正解に達したとステ
ップ１１１において判断できた場合には、その正解が得
られた前処理が処理対象に対する正しい前処理であると
いうことになるので、文字列領域検出部２３及び文字切
り出し部２４での各処理内容に応じ、学習機構部２８
は、前処理知識記憶部２２に対し、正しい前処理に対応
する新しい前処理知識を記憶させ、あるいは、前処理知
識記憶部２２中の知識をその正しい前処理に対応するよ
うに更新する。すなわち、前処理に使用する知識の学習
を実行する。

【００３７】前処理知識記憶部２２に記憶させる知識の
構成や記憶方法は、使用している既存の前処理の内容に
依存し、例えば、新しいフォーマットを記憶させてもよ
いし、パラメータを変更してもよい。前処理の各段階で
の処理の選択基準を変更してもよい。

【００３８】さらに、前処理知識記憶部２２は、自由書
式の記載においてしばしば発生するが通常は存在しない
ようなイレギュラーな書式について学習してしまうこと
を避けるため、各知識において適当なしきい値を保持す
るようにしてもよい。あるいは、発生頻度の低い処理対
象を知識として記憶することを避けるために、学習すべ
き知識が複数の処理対象に対して得られた場合に、初め
て前処理知識として反映する構造になっていてもよい。

【００３９】これらの学習により、次回に同様な処理対
象が与えられた場合には、学習された新しい知識を持つ
前処理知識記憶部２２のデータにより正しい結果を得る
ことができ、さらに繰り返し、より多くのパターンを学
習することで、運用状況に最適化した前処理を実現する
ことが可能となる。また、処理対象に適当な前処理知識
が、長期的には変化していくような場合であっても、自
動的に常に最適な前処理知識を保持することが可能にな
る。

【００４０】以下、実例を挙げて本実施形態を説明す
る。

【００４１】図４は、封書１０の宛て名書き面に、住所
及び宛て先名称が記載されていると思われる領域が２つ
ある場合（「〒１２３−４５６７東京都足立区…」の方
の領域１５と「〒２３４−５６７８横浜市港南区…」の
方の領域１６）を示している。これらの領域１５，１６
の一方は宛て名記載領域であり、他方は発信者の住所や
名称の記載領域である。一般的には封書１０における記
載位置によっていずれが本当の宛て名記載領域であるか
が判別できるとされているが、場合により（特にダイレ
クトメールの場合）、文字列領域検出部２３での宛て名
記載領域抽出処理によってはいずれの領域が本当の宛て
名記載領域であるかを判別しがたいことがある。そこで
本実施形態の文字認識方法を適用することにより、領域
１５，１６のいずれが本当の宛て名記載領域であるかを
前処理知識として学習することにより、以後は、同じよ
うな封書が出現した場合に、間違いなく宛て名記載領域
を検出することが可能になる。同じような封書が多数連
続して出現するダイレクトメールの場合、最初の１通で
学習することにより、２通目以降については１通目での
学習に基づき、リジェクトや誤りとなることなく迅速に
処理することが可能になる。

【００４２】なお、宛て名記載領域検出のための知識
（パラメータ）としては、封書における該当領域の位置
（封書の１頂点を基準点としてそこからの２次元位置）
や大きさなどを用いることができる。

【００４３】図５は、別の例を示している。ここでは手
書き文字による住所の記載から個々の文字を切り出す場
合を説明する。(a),(b)は、それぞれ、「宇都宮市」
（宇都宮市は栃木県内の都市名）と「八王子市」の手書
き文字例を示している。本発明者らの知見によると、
「宇都宮市」を構成する４つの文字（漢字）はほぼ同じ
大きさで記載される傾向があるのに対し、「八王子市」
については、「王」の字が他の文字に比べて小さく記載
される傾向がある。ここで文字切り出し部２４により文
字切り出し処理を行う場合に、全ての文字がほぼ同じ大
きさで記載されていることを前提とすると、「宇都宮
市」については正しく切り出しを行えるのに対し、「八
王子市」については切り出し処理で誤りを生じ、例え
ば、「八」と「王」が一体となって「全子市」と切り出
されるような結果となる可能性がある。本実施形態の文
字認識装置によれば、「八王子市」が出現してリジェク
トあるいは誤りとなった場合に、校正処理で「八王子
市」を入力し、前処理知識記憶部２２の知識の学習を行
うことにより、以後、「八王子市」が出てきた場合に
は、正しく認識できるようになる。郵便物の区分けにこ
の文字認識装置を利用する場合であれば、予め地域別の
前処理知識を用意しておかなくても、東京都の多摩地区
のように八王子市内あて郵便物が多く存在するような地
域において、郵便物の区分けの効率化を図ることができ
る。

【００４４】図６は、図１に示した文字認識装置の変形
例を示している。本発明の文字認識装置は、スキャナな
どの画像入力部ないし画像入力装置と一体的に構成され
ている必要はなく、予め別の場所で読込んだ画像データ
に基づいて、文字認識を行うことができる。図６はその
ような文字認識装置を示しており、図１に示す文字認識
装置における画像入力部の代わりに、認識対象画像を記
憶するイメージ記憶部３１を設けた構成となっている。
イメージ記憶部３１には、例えば、ネットワークや取り
外し可能記憶媒体（光磁気ディスク）などを介して、認
識対象画像が蓄積され、蓄積された認識対象画像は、イ
メージ記憶部３１から文字列領域検出部２３に出力され
る。

【００４５】図７は、図１に示した文字認識装置のさら
に別の変形例を示している。近年、特に、ダイレクトメ
ールなどで、宛て名記載面に広告用文言が多数記載され
た郵便物が増加しつつある。このような郵便物では、宛
て名記載領域の抽出処理時に、文字や文字列の集合とみ
なされるブロック状の領域が多数抽出され、宛て名記載
領域の位置やサイズをパラメータとする知識処理だけで
は、いずれが本当の宛て名記載領域なのかを識別するこ
とが極めて困難な場合が多い。図８は、文字認識の処理
対象としてのこのような郵便物の一例を示す図であり、
図示破線で示す矩形の領域は、それぞれ、文字や文字列
の集合とみなされるブロック状の領域を表わしている。
この矩形の領域のうちの１つのみが、本当の宛て名記載
領域である。

【００４６】従来は、図８に示すような郵便物は、１通
ずつ人手で仕分けするしかなく、作業効率の大幅な低下
をもたらしていた。そこで、図７に示す文字認識装置で
は、図１に示す文字認識装置での前処理知識記憶部２２
のうち記載パターンを格納する部分を独立させてパター
ン記憶部３２とし、パターン記憶部３２ではパターンの
更新や追加登録を行えるようにしている。すなわち、文
字や文字列の集合とみなされる複数の領域の配置をパタ
ーンとして、パターン記憶部部３２は、パターンとその
パターンにおいて宛て名記載領域（認識対象領域）がど
れなのかを示す情報とを記憶する。

【００４７】この文字認識装置においては、文字列領域
検出部２３により宛て名記載領域の抽出を行う場合に
は、まず、認識対象画像から、文字あるいは文字列集合
とみなされる領域を抽出し、そのような領域がある決め
られた数以上検出された場合には、そのような領域の配
置とパターン記憶部３２に格納されているパターンとの
パターンマッチングを行い、認識対象画像がどのパター
ンに属するかを判別し、パターン記憶部３２内からその
パターンでの宛て名記載領域に関する情報を読み出し、
認識対象画像中のブロック状の領域からその情報に基づ
いて宛て名記載領域を抽出する。これにより、宛て名記
載領域と紛らわしいようなブロック状の領域が多数ある
場合であっても、的確に宛て名記載領域を抽出すること
が可能になる。

【００４８】さらに、図７に示す文字認識装置において
パターン記憶部３２は、前処理知識記憶部２２と同様
に、学習機構部２８によって新規パターンの追加や更新
を受ける。すなわち、誤って宛て名記載領域を抽出した
がために最終認識結果でリジェクトあるいは誤りとなっ
た場合、校正処理部２７によって正しい宛て名記載領域
を指定すると、それに基づいて学習機構部２８がパター
ン記憶部３２へのパターンの追加や更新を実行する。こ
のようにパターンの学習が行われることにより、宛て名
記載領域の抽出が難しいダイレクトメールであっても、
２通目以降は正確に宛て名記載領域の抽出を行うことが
できる。

【００４９】次に、図９を用いて本発明の別の実施の形
態の文字認識装置について説明する。この文字認識装置
は、図１に示す文字認識装置とほぼ同様の構成のもので
あるが、校正処理部２７への入力結果に応じて、文字列
領域検出部２３及び文字切り出し部２４を介することな
く、直接、学習機構部２９によって前処理知識記憶部２
２の学習が行われるように構成されている。

【００５０】上述したように文字認識装置では、通常、
最終的に知識処理部２６で出力されたデータが、文字認
識装置としての最終処理結果になるが、この段階までに
すでに複数の文字列領域候補、文字切り出しの組み合わ
せ候補が得られている場合が多く、自由書式での文字認
識装置では、一般に、それらの各処理結果を随時トップ
ダウン処理に用いて正しい結果を得る方法を用いてい
る。つまり、たとえ最終的に出力結果がリジェクトある
いは誤りであったとしても、校正処理部２７へ入力する
データとして、候補となりうる複数の処理結果情報が含
まれていることが多い。図１に示した文字認識装置で
は、校正処理部２７で入力された文字列に基づいて、入
力画像から全体を再処理する中で正しい前処理知識を得
る方法を採用しているが、知識処理部２６では最終結果
として出力できなかった上記のような複数の処理結果候
補と、それらに相当するフォーマット、処理パラメータ
などの前処理情報とを組み合わせて、校正処理部２７に
与えることもできる。そして、校正処理部２７で正解入
力された結果がそれらの候補の中に含まれる場合には、
全体を再処理しなくとも、その候補に合わせて与えられ
た前処理情報から、学習すべき前処理知識を知ることが
可能である。そこで図９に示す文字認識装置では、校正
処理部２７で正解入力された結果が処理結果候補の中に
含まれる場合に、その処理結果候補と前処理情報とを学
習機構部２９を介して前処理知識記憶部２２にフィード
バックすることにより、前処理知識記憶部２２の学習を
行っている。

【００５１】図１０は、図９に示す文字認識装置での文
字認識処理を説明するフローチャートである。

【００５２】図３に示す処理手順と同様に、画像読み込
み（ステップ１２１）の後、前処理として宛て名記載領
域の抽出（ステップ１２２）、文字列領域の抽出（ステ
ップ１２３）及び文字切り出し（ステップ１２４）を実
行し、その後、個別文字の文字認識を行い（ステップ１
２５）、知識処理による認識文字列の決定を行って（ス
テップ１２６）、最終結果出力を行い（ステップ１２
７）、リジェクトあるいは誤りを含むか否かを判定する
（ステップ１２８）。ここでリジェクトも誤りも含まれ
ない場合には、処理を終了する。

【００５３】一方、ステップ１２８において、リジェク
トまたは誤りが含まれると判定された場合には、校正処
理部２７において、処理結果候補の中から選択すること
により校正処理を実行し（ステップ１２９）、学習機構
部２９が、選択された候補に応じて、前処理知識記憶部
２２中の知識の更新を実行し（ステップ１３０）、処理
を終了する。

【００５４】なお、図９に示す文字認識装置は、全体を
再処理する必要がないため、学習のために必要な時間が
短く、運用状態での学習に適している。しかしながら、
候補として作成される出力情報が大きくなる傾向がある
とともに、もともと与えられた知識で正解の可能性が極
めて低いとして採用されなかった場合には、いくら処理
させても学習されないことがある。

【００５５】以上、本発明の好ましい実施の形態の文字
認識装置について説明したが、上述の各文字認識装置
は、それを実現するための計算機プログラムを、ワーク
ステーションやパーソナルコンピュータなどの計算機に
読み込ませ、そのプログラムを実行させることによって
も実現できる。文字認識を行うためのプログラムは、磁
気テープやＣＤ−ＲＯＭなどの記録媒体によって、計算
機に読み込まれる。図１２は、上述の文字認識処理を実
行する計算機の構成を示すブロック図である。

【００５６】この計算機は、スキャナなどの画像入力装
置５０と、中央処理装置（ＣＰＵ）５１と、プログラム
やデータを格納するためのハードディスク装置５２と、
主メモリ５３と、キーボードやマウスなどの入力装置５
４と、ＣＲＴなどの表示装置５５と、磁気テープやＣＤ
−ＲＯＭ等の記録媒体５７を読み取る読み取り装置５６
とから構成されている。画像処理装置５０、ハードディ
スク装置５２、主メモリ５３、入力装置５４、表示装置
５５及び読み取り装置５６は、いずれも中央処理装置５
１に接続している。この計算機では、文字認識処理を行
うためのプログラムを格納した記録媒体５７を読み取り
装置５６に装着し、記録媒体５７からプログラムを読み
出してハードディスク装置５２に格納し、ハードディス
ク装置５２に格納されたプログラムを中央処理装置５１
が実行することにより、画像入力装置５０を介して取り
込んだ認識対象画像あるいは予めハードディスク装置５
２などに蓄積されている認識対象画像に対して、上述し
た各処理手順に基づく文字認識処理が実行される。文字
認識結果は、不図示の他の装置（例えば仕分け装置）な
どで利用するために、中央処理装置５１から出力され
る。

【００５７】本発明は、上述した実施形態に限定される
ものではない。本発明の文字認識方法及び装置は、郵便
物の仕分けのための文字認識以外の文字認識、例えば、
各種の伝票類を処理するための文字認識や、各種の報告
書や社内文書を読込んでキーワードとなる文字列を自動
的に認識し、分類するための文字認識などにも適用でき
る。また、文字認識対象の言語（文字種）も日本語（数
字、かな、漢字等）に限定されるものではなく、例え
ば、英語などローマンアルファベットで宛て名が記載さ
れた郵便物の仕分けにも、本発明を適用することができ
る。

【００５８】

【発明の効果】以上説明したように本発明は、自由書式
の認識対象を処理し、対象の画像に含まれる多くの文字
列、文様などの中から、求める文字列候補領域を検出
し、文字及び文字列認識を行う文字認識方法及び文字認
識装置において、手作業による校正処理で入力されるデ
ータを用いて自動的に前処理で用いる知識の学習を行う
ことにより、従来困難かつ多くの工数を必要としてい
た、運用開始後の性能改善方法、特に前処理における性
能改善を実現することができるという効果がある。

【００５９】特に、実際の認識対象に基づいた学習を行
うため、処理する対象に最適化した性能改善を可能とす
る。また、長期的に処理対象に適当な前処理知識が変化
していくような場合でも、自動的に常に最適な前処理知
識を保持することが可能になる。さらに、既存の処理を
運用状況に合わせて最適化することで性能改善が可能で
あるため、ハードウェアの増強や、処理プログラムの改
造をすることなく性能向上を実現することができる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態の文字認識装置の構成
を示すブロック図である。

【図２】認識対象の画像の一例を示す図である。

【図３】図１に示す文字認識装置を用いた文字認識処理
の手順を示すフローチャートである。

【図４】文字認識例を説明する図である。

【図５】文字認識例を説明する図である。

【図６】図１に示す文字認識装置の変形例を示すブロッ
ク図である。

【図７】図１に示す文字認識装置の別の変形例を示すブ
ロック図である。

【図８】ブロック状の領域が多数ある読み取り対象を説
明する図である。

【図９】本発明の第２の実施形態の文字認識装置の構成
を示すブロック図である。

【図１０】図９に示す文字認識装置を用いた文字認識処
理の手順を示すフローチャートである。

【図１１】本発明の文字認識装置を構成するに際して好
適に用いられるコンピュータシステムを示すブロック図
である。

【図１２】従来の文字認識装置の構成を示すブロック図
である。

【符号の説明】

１０封書１１宛て名１２発信元１３宛て名記載領域２１画像入力部２２前処理知識記憶部２３文字列領域検出部２４文字切り出し部２５個別文字認識部２６知識処理部２７校正処理部２８，２９学習機構部３１画像ファイル記憶部３２パターン記憶部

フロントページの続き (56)参考文献特開平５−309341（ＪＰ，Ａ) 特開平９−50485（ＪＰ，Ａ) 特開平５−307639（ＪＰ，Ａ) 特開平10−198764（ＪＰ，Ａ) 特開平９−57204（ＪＰ，Ａ) 特開平６−251193（ＪＰ，Ａ) 特開平９−103747（ＪＰ，Ａ) 特開平５−217015（ＪＰ，Ａ) 特開平２−28897（ＪＰ，Ａ) 特開平９−245118（ＪＰ，Ａ) 認識知識処理，ＮＥＣ技報，日本, 1998年11月25日，Ｖｏｌ．51 Ｎｏ. 11，ｐｐ．19−24 郵便住所認識方式の開発，ＮＥＣ技報，日本，1998年11月25日，Ｖｏｌ．51 Ｎｏ．11，ｐｐ．30−33 郵便物あて名自動読取区分機ＴＲ− 17，東芝レビュー，日本，1990年，45 ［２］，149−152 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06K 9/00 - 9/82

Claims

(57)【特許請求の範囲】

【請求項１】自由書式で文字が記載された認識対象画
像に対して文字認識を行う文字認識方法において、前記認識対象画像から、知識処理により、文字として最
適と考えられるブロックを分割画像として切り出す前処
理工程と、前記分割画像のそれぞれに対して個別文字認識を行う個
別文字認識工程と、前記個別文字認識の結果に対して、文字列に関する予め
与えられた知識を適用して適切な文字列を構築し、最終
処理結果として出力する文字列構築工程と、前記最終処理結果としてリジェクトあるいは誤りが出力
された場合に、手作業により前記処理対象画像に対する
最終処理結果として正しい文字列が入力される校正処理
工程と、前記校正処理工程が行なわれた場合に、前記正しい文字
列をキーとしてトップダウン的に、前記前処理工程で前
記処理対象画像に対して用いるべきであった最適な知識
を獲得し、獲得した知識によって前記前処理工程で用い
る知識を更新する学習工程と、を有することを特徴とする文字認識方法。
【請求項２】前記前処理工程が、前記認識対象画像から、知識処理により、文字認識の対
象とすべき領域である認識対象領域を抽出する段階と、知識処理により、前記認識対象領域から各行の文字列に
それぞれ相当する文字列領域を抽出する段階と、知識処理により、文字として最適と考えられるブロック
ごとに前記文字列領域の画像を画像分割することにより
前記分割画像を得る段階と、を有する請求項１に記載の
文字認識方法。
【請求項３】前記前処理工程において複数の前処理候
補を生成し、前記学習工程において、前記校正処理工程で入力された
正しい文字列と一致する文字列が構築されるまで、前記
各前処理候補に基づき前記個別文字認識工程と前記文字
列構築工程とを実行し、その後、前記正しい文字列と一
致する文字列が構築されたときの前処理候補に対応する
知識に基づいて、前記前処理工程で使用する知識を更新
する、請求項１または２に記載の文字認識方法。
【請求項４】前記最終処理結果に付随して、認識結果
の候補となりうる複数の処理結果情報を出力し、前記校
正処理工程において前記処理結果情報の一つが前記正し
い文字列として選択された場合には、前記学習工程にお
いて、前記選択された処理結果情報に対応する前処理情
報に基づいて、前記前処理工程で使用する知識を更新す
る、請求項１または２に記載の文字認識方法。
【請求項５】前記認識対象領域の候補となる複数の領
域の配置をパターンとして予め記憶し、記憶されたパタ
ーンと前記認識対象画像から抽出された領域配置とのパ
ターンマッチングによって前記認識対象領域の抽出を行
う、請求項２に記載の文字認識方法。
【請求項６】自由書式で文字が記載された認識対象画
像に対して文字認識を行う文字認識装置において、文字認識の前処理に必要な知識を記憶する前処理知識記
憶手段と、前記認識対象画像から、予め前記前処理知識記憶手段に
与えられた知識を用いて、希望する文字列領域を検出す
る文字列領域検出手段と、前記前処理知識記憶手段に記憶された知識を使用して、
検出された文字列領域画像を文字として最適と考えられ
るブロックごとに画像分割し分割画像を得る文字切り出
し手段と、個々の分割画像を文字として認識する個別文字認識手段
と、個別文字の認識結果に対して、予め与えられた文字列に
関する知識を適用し、適当な文字列として構築し、最終
処理結果として出力する知識処理手段と、前記最終処理結果としてリジェクト、あるいは誤りが出
力された場合に手作業により前記処理対象画像に対する
最終処理結果として正しい文字列が入力される校正処理
手段と、前記校正処理手段で校正処理が行なわれた場合に、その
正解データをキーとしてトップダウン的に、前記処理対
象画像に対して用いるべきであった最適な知識を獲得
し、獲得した知識に基づいて前記前処理知識記憶手段内
に知識を蓄積し前記前処理知識記憶手段内の知識を更新
する学習手段と、を有すること特徴とする文字認識装置。
【請求項７】認識対象を２値または多値の画像データ
として取り込み前記認識対象画像とする画像入力手段を
さらに有する請求項６に記載の文字認識装置。
【請求項８】前記文字列領域検出手段が、知識処理に
より、前記認識対象画像から、文字認識の対象とすべき
領域である認識対象領域を抽出し、前記認識対象領域か
ら各行の文字列にそれぞれ相当する文字列領域を抽出す
る請求項６または７に記載の文字認識装置。
【請求項９】前記認識対象領域の候補となる複数の領
域の配置をパターンとして予め記憶するパターン記憶手
段をさらに備え、前記文字列領域検出手段が、前記パタ
ーン記憶手段に記憶されたパターンと前記認識対象画像
から抽出された領域配置とのパターンマッチングによっ
て前記認識対象領域の抽出を行い、前記校正処理手段で
校正処理を行った場合に、その正解データをキーとして
正解の前処理結果を得るためのパターンを獲得し、獲得
したパターンに基づいて前記パターン記憶手段内のパタ
ーンを更新する請求項８に記載の文字認識装置。
【請求項１０】コンピュータが読み取り可能な記録媒
体であって、前記コンピュータに、自由書式で文字が記載された認識対象画像から、知識処
理により、文字として最適と考えられるブロックを分割
画像として切り出す前処理工程と、前記分割画像のそれぞれに対して個別文字認識を行う個
別文字認識工程と、前記個別文字認識の結果に対して、文字列に関する予め
与えられた知識を適用して適切な文字列を構築し、最終
処理結果として出力する文字列構築工程と、前記最終処理結果としてリジェクトあるいは誤りが出力
された場合に、手作業によって前記処理対象画像に対す
る正しい文字列が入力された場合に、前記正しい文字列
をキーとしてトップダウン的に、前記前処理工程で前記
処理対象画像に対して用いるべきであった最適な知識を
獲得し、獲得した知識によって前記前処理工程で用いる
知識を更新する学習工程と、を実行させるプログラムを格納した記録媒体。
【請求項１１】前記前処理工程が、前記認識対象画像から、知識処理により、文字認識の対
象とすべき領域である認識対象領域を抽出する段階と、知識処理により、前記認識対象領域から各行の文字列に
それぞれ相当する文字列領域を抽出する段階と、知識処理により、文字として最適と考えられるブロック
ごとに前記文字列領域の画像を画像分割することにより
前記分割画像を得る段階と、を有する請求項１０に記載
の記録媒体。
【請求項１２】前記前処理工程において複数の前処理
候補を生成し、前記学習工程において、前記校正処理工程で入力された
正しい文字列と一致する文字列が構築されるまで、前記
各前処理候補に基づき前記個別文字認識工程と前記文字
列構築工程とを実行し、その後、前記正しい文字列と一
致する文字列が構築されたときの前処理候補に対応する
知識に基づいて、前記前処理工程で使用する知識を更新
する、請求項１０または１１に記載の記録媒体。
【請求項１３】前記最終処理結果に付随して、認識結
果の候補となりうる複数の処理結果情報を出力し、前記
校正処理工程において前記処理結果情報の一つが前記正
しい文字列として選択された場合には、前記学習工程に
おいて、前記選択された処理結果情報に対応する前処理
情報に基づいて、前記前処理工程で使用する知識を更新
する、請求項１０または１１に記載の記録媒体。