JP3725953B2 - Character recognition device - Google Patents

Character recognition device Download PDF

Info

Publication number
JP3725953B2
JP3725953B2 JP35673096A JP35673096A JP3725953B2 JP 3725953 B2 JP3725953 B2 JP 3725953B2 JP 35673096 A JP35673096 A JP 35673096A JP 35673096 A JP35673096 A JP 35673096A JP 3725953 B2 JP3725953 B2 JP 3725953B2
Authority
JP
Japan
Prior art keywords
character
symbol
character recognition
digit
recognition processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP35673096A
Other languages
Japanese (ja)
Other versions
JPH10187885A (en
Inventor
利夫 宮澤
俊博 鈴木
秀明 山形
忍 山本
幸央 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP35673096A priority Critical patent/JP3725953B2/en
Publication of JPH10187885A publication Critical patent/JPH10187885A/en
Application granted granted Critical
Publication of JP3725953B2 publication Critical patent/JP3725953B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文字認識装置に関し、より詳細には、文書中に記載された郵便番号記号等の記号を検知し、検知した記号の種類に応じた文字認識処理をその記号の後段の文字に対して実行することにより、文字認識精度の向上を図った文字認識装置に関する。
【0002】
【従来の技術】
光学的文字認識装置において、文字認識速度の向上のため、文書中に含まれる郵便番号および電話番号に関する記号を利用するものとして、特開平5−81464号公報『光学文字読取装置』がある。
【0003】
この光学文字読取装置は、名刺に印刷された文字を光学的に読み取るための光学文字読取装置において、通常の名刺には必ず印刷されている郵便番号および電話番号に関する記号もしくは文字を含むものであって、文字の上下左右の4方向の向きを判定するための認識辞書を有し、文字単位に切り出した文字と認識辞書中の記号もしくは文字とを照合することにより、名刺の印刷方向を判定して印刷文字を読み取るというものである。この光学文字読取装置によれば、名刺の印刷文字を光学的に読み取る場合において、特に印刷方向の判定処理および文字読取処理の迅速化を図ることができるとされる。
【0004】
【発明が解決しようとする課題】
しかしながら、上記特開平5−81464号公報『光学文字読取装置』においては、郵便番号および電話番号に関する記号等を名刺の印刷方向の判定にのみ用いるものであり、せっかく郵便番号および電話番号に関する記号等であることを認識する処理を行うにも拘わらず、この記号が持つ情報を十分に活かしきれていないという問題があった。
【0005】
本発明は上記に鑑みてなされたものであって、郵便番号および電話番号に関する記号が持つ情報を最大限活用することにより、それらの記号に続く文字列の文字認識精度の向上を図ることを目的とする。
【0006】
【課題を解決するための手段】
上記目的を達成するため、請求項1の文字認識装置は、郵便物,名刺,帳票等の文書に含まれた所定の文字列が郵便番号および電話番号であることを示す記号を含む記号情報を有した画像を光学的に読み取ること前記入力された画像データから1文字単位の文字領域を切り出す文字切出手段と、前記文字切出手段により前記1文字単位の文字領域に切り出された画像データを入力して、前記文字領域に含まれた文字と前記記号情報に含まれた記号とを比較することにより、前記記号情報に含まれた記号と同一の記号を含む文字領域を検知して、当該文字領域に含まれた記号の種類を判定する記号種類判定手段と、前記記号種類判定手段が前記記号情報に含まれた記号と同一の記号を含む文字領域を検知した場合に、当該文字領域に続く所定の文字領域について、前記記号種類判定手段で判定された記号の種類に応じた文字認識処理を実行する文字認識処理手段と、前記文字認識処理手段による文字認識処理された前記所定の文字領域に含まれていた文字による文字列が、前記記号種類判定手段により判定された前記記号の種類に対応する文字列であるか否か判定する文字認識判定手段と、を備え、前記文字切出手段は、文字認識判定手段により前記記号の種類に対応する前記文字列ではないと判定された場合、前記画像データの前記記号種類判定手段により前記記号を含むと判断された前記文字領域に続く文字が含まれている領域に対して、前記記号種類判定手段により判定された前記記号の種類に対応付けられた切り出し処理を行うことで文字領域を切り出し、前記文字認識処理手段は、前記文字切出手段により切り出された前記文字領域について、前記記号種類判定手段で判定された記号の種類に応じた前記文字認識処理を実行することを特徴とするものである。
【0007】
また、請求項2の文字認識装置は、請求項1記載の文字認識装置において、前記文字切出手段は、前記文字認識判定手段により前記記号の種類に対応する前記文字列ではないと判定された場合、前記画像データの前記記号種類判定手段により前記記号を含むと判断された前記文字領域に続く文字が含まれている領域に対して、前記記号種類判定手段により判定された前記記号の種類に対応付けられた複数の前記切り出し処理のうち一方の前記切り出し処理を行うことで前記文字領域の切り出し、前記文字認識処理手段は、前記文字切出手段により切り出された前記文字領域について、前記記号種類判定手段で判定された記号の種類に応じた文字認識処理を実行し、前記文字認識処理手段は、前記文字認識処理手段による文字認識処理された前記所定の文字領域に含まれていた文字による文字列が、前記記号種類判定手段により判定された前記記号の種類に対応する文字列であるか否か判定し、前記文字切出手段は、文字認識判定手段により前記記号の種類に対応する前記文字列ではないと判定された場合、前記画像データの前記記号種類判定手段により前記記号を含むと判断された前記文字領域に続く文字が含まれている領域に対して、前記記号種類判定手段により判定された前記記号の種類に対応付けられた複数の切り出し処理のうち他方の前記切り出し処理を行うことで前記文字領域を切り出すことを特徴とする。
【0008】
また、請求項3の文字認識装置は、請求項1または2記載の文字認識装置において、前記文字認識処理手段が、予め用意された複数の文字認識用辞書から前記記号種類判定手段で判定された記号の種類に対応した文字認識用辞書を選択し、前記選択した文字認識用辞書を用いて、前記文字切出手段により切り出された前記文字領域についての文字認識処理を実行することを特徴とする。
【0009】
また、請求項4の文字認識装置は、請求項1乃至3に記載のいずれか1つの文字認識装置において、前記文字認識処理手段が、前記記号種類判定手段で前記記号の種類が3桁または5桁の郵便番号を示す記号であると判定された場合に、前記所定の文字領域について3桁または5桁の郵便番号用の文字認識処理を実行し、前記記号種類判定手段で前記記号の種類が7桁の郵便番号を示す記号であると判定された場合に、前記所定の文字領域について7桁の郵便番号用の文字認識処理を実行することを特徴とする。
【0010】
また、請求項5の文字認識装置は、請求項1〜4記載の文字認識装置において、前記記号種類判定手段が3桁または5桁の郵便番号を示す記号を含む文字領域を検知した場合に、さらに、前記文字認識処理手段で文字認識処理された後の住所を示す文字に基づいて、7桁の郵便番号データを生成し、前記生成した7桁の郵便番号データに対応したバーコードを生成して出力するバーコード生成手段を備えるものである。
【0012】
【発明の実施の形態】
以下、本発明の文字認識装置の一実施の形態について、図面を参照しつつ詳細に説明する。
【0013】
図1は、本実施の形態の文字認識装置のブロック構成図である。図1に示す文字認識装置は、郵便物,名刺,帳票等の文書の画像を光学的に読み取り、読み取りによって得た画像データを入力する画像データ入力部101と、画像データ入力部101で入力した画像データから1文字単位の文字領域を切り出す切出処理を実行する文字切出部102と、後段に続く所定の文字列が郵便番号および電話番号であることを示すための記号を少なくとも含む記号情報を有し、文字切出部102で1文字単位の文字領域に切り出された画像データを入力して、文字領域に含まれた文字と記号情報に含まれた記号とを比較することにより、記号情報に含まれた記号と同一の記号を含む文字領域を検知して、当該文字領域に含まれた記号の種類を判定する記号種類判定部103(請求項1記載の記号種類判定手段に該当する)と、記号種類判定部103が記号情報に含まれた記号と同一の記号を含む文字領域を検知した場合に、当該文字領域に続く所定の文字領域について、記号種類判定部103で判定された記号の種類に応じた文字認識処理を実行させる処理切替部104と、処理切替部104の指示に応じて各文字領域単位で文字認識処理を実行する文字認識処理部105(請求項1記載の文字認識処理手段に該当する)と、処理切替部104の指示に応じて、文字認識処理部105で文字認識された後の住所を示す文字データ列に基づいて、7桁の郵便番号データを生成し、生成した7桁の郵便番号データに対応したバーコードを生成して出力するバーコード生成処理部106(請求項5記載のバーコード生成手段に該当する)と、バーコード生成処理部106で生成されたバーコードの印刷処理を実行するバーコード印刷部107(請求項5記載のバーコード生成手段に該当する)と、文字認識処理部105で文字認識された後の文字データ列およびバーコード生成処理部106で生成されたバーコードを格納するメモリ108と、装置の動作モードの指定,動作状態の表示等を行うための操作部109と、上記各部を制御する主制御部110と、を有している。
【0014】
図2は、図1に示す文字認識装置における文字認識処理部105のブロック構成図である。図2に示す文字認識処理部105は、郵便番号が登録された辞書,電話番号が登録された辞書等、複数の辞書A,辞書B,辞書C,・・・を有し、処理切替部104の指示に応じて、上記辞書の中からいずれかを選択し、各文字領域単位で文字認識処理を実行する文字認識部201と、処理切替部104の指示に応じて、文字認識部201の文字認識結果が正しいか否かを判定する文字認識判定部202と、を備えている。
【0015】
なお、図1および図2に示す文字認識装置は、文字認識専用装置ではなく、スキャナ等を有するコンピュータを中心としたシステムでも実現することが可能である。
【0016】
次に、名刺を読み取ることを例として、本実施の形態の文字認識装置の動作を説明する。図3は、本実施の形態の文字認識装置の動作を説明するために用いる名刺の一例を示す図である。
【0017】
画像データ入力部101は、図3に示す名刺301の画像を光学的に読み取り、読み取りによって得た名刺301の画像データを文字切出部102に出力する。
【0018】
文字切出部102は、画像データを入力し、入力した画像データから1文字単位の文字領域を切り出す文字切出処理を実行し、記号種類判定部103に出力する。
【0019】
記号種類判定部103は、文字切出部102で1文字単位の文字領域に切り出された画像データを入力して、文字領域に含まれた文字と記号情報に含まれた記号とを比較することにより、記号情報に含まれた記号と同一の記号を含む文字領域を検知して、当該文字領域に含まれた記号の種類を判定し、判定結果を処理切替部104に出力する。
【0020】
この記号種類判定部103が備える記号情報には、後段に続く所定の文字列が郵便番号,電話番号等であることを示すための記号が含まれている。この記号は、3桁または5桁の郵便番号であることを示す記号(図3中の302),7桁の郵便番号であることを示す記号(図示せず)等のことである。ただし、ここでいう記号には、電話番号やファックス番号であることを示す”TEL”(図3中の303),”電話”,”FAX”(図3中の304)等の文字列も含まれるものとする。
【0021】
ここで、記号種類判定部103は、図3に示す郵便番号記号302,電話番号記号303およびファックス番号記号304を検知し、記号の種類情報と位置情報等を処理切替部104に出力する。
【0022】
処理切替部104は、記号種類判定部103から記号の種類情報と位置情報等を入力し、記号の種類に応じた文字認識処理を、検知した記号の後段の文字領域に対して実行させる。
【0023】
本実施の形態の文字認識装置は、記号の種類に応じた文字認識処理として、複数の動作モードを備えている。この動作モードは、操作部109からユーザが予め設定することができ、処理切替部104は、ユーザの指定に基づく処理を文字認識処理部105,バーコード生成処理部106およびバーコード印刷部107に実行させる。以下では、本実施の形態の文字認識装置が、3つの動作モードを備えることとして、文字認識処理を説明する。
【0024】
(1)第1の動作モード
第1の動作モードは、記号の種類に応じて、文字認識部201が文字認識の際に使用する辞書を使い分けるというものである。例えば、図3に示すように、郵便番号記号302は全角文字で記載されるが、その後に続く郵便番号は半角文字で記載され、その上、郵便番号は数字同士が接触して記載されていることが多く、郵便番号部分の文字の切り出しにはミスが発生し易い。そこで、第1の動作モードでは、このような切り出しミスがあることを考慮して、検知された記号に続く文字領域についての文字認識処理を実行するというものである。
【0025】
例えば、記号種類判定部103が名刺301中の郵便番号記号302を検知した場合、文字認識部201は、郵便番号が登録された辞書を参照し、郵便番号記号に続く文字領域の文字認識処理を実行する。
【0026】
また、記号種類判定部103が名刺301中の電話番号記号303(ファックス番号記号304)を検知した場合、文字認識部201は、電話番号が登録された辞書を参照し、電話番号記号303(ファックス番号記号304)に続く文字領域の文字認識処理を実行する。
【0027】
なお、電話番号を示す記号には、電話番号記号303の他に、電話番号が0120から始まるフリーダイヤルを示す記号がある。そこで、上記電話番号が登録された辞書として、一般の電話番号やフリーダイヤル等の電話番号を示す記号の種類によって、いかなる電話番号となるか等のルールが記載された知識辞書を用いることもできる。
【0028】
文字認識部201は、上述したように文字認識処理を実行し、文字認識処理後の文字データ列を例えばメモり108に格納する。
【0029】
なお、郵便番号記号302,電話番号記号303,ファックス番号記号304等に続く文字領域以外の文字領域については、通常の文字認識処理が実行されることはいうまでもない。また、例えば、郵便番号が登録された辞書を参照して文字認識処理を実行する際には、通常の文字認識処理を行う際に用いる辞書を併用して文字認識処理を実行することにしても良い。
【0030】
このように、記号の種類に応じて、文字認識処理のための辞書を使い分けることにより、記号の持つ情報を最大限活用することができ、文字認識精度の向上を図ることができる。
【0031】
(2)第2のモード
第2のモードは、記号の種類に応じて、文字認識処理部105が、記号に続く文字列の文字認識処理結果が正しいか否かの判定処理を実行し、文字認識精度の向上を図ったモードである。なお、以下の説明では、郵便番号記号を例として説明するが、電話番号記号やファックス番号記号に対しても同様の考え方で適用することができる。また、説明の便宜上、以下の説明においては、5桁および7桁の郵便番号中に含まれる”−”は考慮しないものとする。
【0032】
まず、記号種類判定部103が、3桁または5桁の郵便番号記号302を検知した場合の処理を説明する。図4は、本実施の形態の文字認識装置において、3桁または5桁の郵便番号記号用の処理を示すフローチャートである。なお、図4中に図示することは省略するが、郵便番号記号の後段に続く文字以外については、通常の文字認識処理が実行されることはいうまでもない。
【0033】
文字認識部201は、文字単位に切り出し処理が行われた画像データを入力し、文字認識処理を実行する(S401)。
【0034】
文字認識判定部202は、文字認識部201で文字認識処理が行われた結果を入力し、3桁または5桁の郵便番号記号の後に続く文字が数字であるか否かを判定する(S402)。
【0035】
ステップS402における判定の結果、郵便番号記号の後に続く文字が数字である場合、文字認識判定部202は、さらに郵便番号記号の後に続く文字列が3桁または5桁の数字であるか否かを判定する(S410)。判定の結果、3桁または5桁の数字である場合は、3桁または5桁の郵便番号記号用の処理を終了する。
【0036】
一方、ステップS410における判定の結果、3桁または5桁の数字ではない場合、記号の判定に誤りがあることが考えられるため、ステップS409に進み、後述する7桁の郵便番号記号用の処理を実行する。
【0037】
また、ステップS402における判定の結果、郵便番号記号の後の文字が数字ではない場合(漢字,ひらがな等である場合)、文字認識判定部202は、郵便番号記号の後段の文字を文字切出部102に送り、文字切出部102は、その文字が含まれる領域を3等分する強制切り出し処理を実行する(S403)。
【0038】
図3に示すように、郵便番号記号302は全角文字で記載されるが、その後に続く郵便番号は半角文字で記載され、その上、郵便番号は数字同士が接触して記載されていることが多く、郵便番号部分の文字の切り出しにはミスが発生し易い。そこで、郵便番号記号の後の文字が数字であるか否か判定し、その文字が数字以外(漢字,ひらがな等)である場合には、郵便番号部分の文字切り出しにミスがあると判定し、郵便番号記号の後の文字領域の文字切り出しを実行する。
【0039】
続いて、文字認識部201は、文字切出部102で3等分された画像データを入力し、文字認識処理を実行する(S404)。
【0040】
文字認識判定部202は、文字認識部201で文字認識処理が行われた結果を入力し、3桁または5桁の郵便番号記号の後に続く文字が数字であるか否かを判定する(S405)。
【0041】
ステップS405における判定の結果、郵便番号記号の後に続く文字が数字である場合、文字認識判定部202は、さらに郵便番号記号の後に続く文字列が3桁の数字であるか否かを判定する(S411)。判定の結果、3桁の数字である場合は、3桁または5桁の郵便番号記号用の処理を終了する。
【0042】
一方、ステップS411における判定の結果、3桁の数字ではない場合、記号の判定に誤りがあることが考えられるため、ステップS409に進み、後述する7桁の郵便番号記号用の処理を実行する。
【0043】
また、ステップS405における判定の結果、郵便番号記号の後の文字が数字ではない場合、文字認識判定部202は、郵便番号記号の後段の文字を文字切出部102に送り、文字切出部102は、その文字が含まれる領域を5等分する強制切り出し処理を実行する(S406)。
【0044】
続いて、文字認識部201は、文字切出部102で5等分された画像データを入力し、文字認識処理を実行する(S407)。
【0045】
文字認識判定部202は、文字認識部201で文字認識処理が行われた結果を入力し、3桁または5桁の郵便番号記号の後に続く文字が数字であるか否かを判定する(S408)。
【0046】
ステップS408における判定の結果、郵便番号記号の後に続く文字が数字である場合、文字認識判定部202は、さらに郵便番号記号の後に続く文字列が5桁の数字であるか否かを判定する(S412)。判定の結果、5桁の数字である場合は、3桁または5桁の郵便番号記号用の処理を終了する。
【0047】
一方、ステップS412における判定の結果、5桁の数字ではない場合には、記号の判定に誤りがあることが考えられるため、ステップS409に進み、後述する7桁の郵便番号記号用の処理を実行する。
【0048】
また、ステップS408における判定の結果、郵便番号記号の後の文字が数字ではない場合、文字の切り出しミスがあると考えられるため、ステップS409に進み、後述する7桁の郵便番号記号用の処理を実行する。
【0049】
次に、記号種類判定部103が、7桁の郵便番号記号を検知した場合の処理を説明する。図5は、本実施の形態の文字認識装置において、7桁の郵便番号記号用の処理を示すフローチャートである。なお、図7中に図示することは省略するが、郵便番号記号の後段に続く文字以外については、通常の文字認識処理が実行されることはいうまでもない。
【0050】
文字認識部201は、文字単位に切り出し処理が行われた画像データを入力し、文字認識処理を実行する(S501)。
【0051】
文字認識判定部202は、文字認識部201で文字認識処理が行われた結果を入力し、7桁の郵便番号記号の後に続く文字が数字であるか否かを判定する(S502)。
【0052】
ステップS502における判定の結果、郵便番号記号の後に続く文字が数字である場合、文字認識判定部202は、さらに郵便番号記号の後に続く文字列が7桁の数字であるか否かを判定する(S507)。判定の結果、7桁の数字である場合は、7桁の郵便番号記号用の処理を終了する。
【0053】
一方、ステップS507における判定の結果、7桁の数字ではない場合、記号の判定に誤りがあることが考えられるため、ステップS506に進み、上述した3桁または5桁の郵便番号記号用の処理を実行する。
【0054】
また、ステップS502における判定の結果、郵便番号記号の後の文字が数字ではない場合、文字認識判定部202は、郵便番号記号の後段の文字を文字切出部102に送り、文字切出部102は、その文字が含まれる領域を7等分する強制切り出し処理を実行する(S503)。
【0055】
続いて、文字認識部201は、文字切出部102で7等分された画像データを入力し、文字認識処理を実行する(S504)。
【0056】
文字認識判定部202は、文字認識部201で文字認識処理が行われた結果を入力し、7桁の郵便番号記号の後に続く文字が数字であるか否かを判定する(S505)。
【0057】
ステップS505における判定の結果、郵便番号記号の後に続く文字が数字である場合、文字認識判定部202は、さらに郵便番号記号の後に続く文字列が7桁の数字であるか否かを判定する(S507)。判定の結果、7桁の数字である場合は、7桁の郵便番号記号用の処理を終了する。
【0058】
一方、ステップS507における判定の結果、7桁の数字ではない場合、記号の判定に誤りがあることが考えられるため、ステップS506に進み、上述した3桁または5桁の郵便番号記号用の処理を実行する。
【0059】
また、ステップS505における判定の結果、郵便番号記号の後の文字が数字ではない場合、文字の切り出しミスがあると考えられるため、ステップS506に進み、上述した3桁または5桁の郵便番号記号用の処理を実行する。
【0060】
なお、図4および図5に示す処理においては、最初に文字切出部102で切り出された文字領域を利用して文字認識処理を行った後、文字認識判定部202で判定処理を行うことにしたが、予め郵便番号記号の後の文字領域を3等分,5等分または7等分する処理を行ってから文字認識処理を開始しても良い。
【0061】
また、図4および図5に示す両処理を行っても文字認識判定部202で正しい判定結果が得られない場合には、いずれが正しいかを評価し、文字認識処理結果に誤りがある可能性をディスプレイ(図示せず)等に表示することにしても良い。さらに、例えば、3桁または5桁の郵便番号記号用の文字認識処理を行った結果、正しい判定結果を得ることができなかった場合には、図4に示すように7桁の郵便番号記号用の文字認識処理(ステップS409)を実行することにしているが、これに限定するものではなく、ここで処理を終了して判定結果を表示することにしても良いし、他の処理を実行することにしても良い。
【0062】
また、図4および図5では、強制切り出し処理を実行する際に、1つの文字領域を3等分,5等分または7等分することにしたが、この処理に代え、その文字領域の行方向に対して垂直に投影ヒストグラムを作成し、その谷で切り出しすることにしても良い。
【0063】
さらに、図4および図5において、郵便番号記号の後の文字列が郵便番号記号の種類に応じた桁数の数字であるか否かを判定する際に、文字列が全て数字であるかを基準として判定することにしたが、これに代えて文字矩形のサイズを基準として判定することにしても良い。
【0064】
このように、記号を検知すると共に検知した記号の種類を判定し、その記号の後に続く文字認識処理後の文字列が、記号の種類に応じた文字列となっているか否かを判定するため、文字認識精度の向上を図ることができる。
【0065】
(3)第3のモード
郵便番号が7桁化された場合には、郵便業務の効率化のため、郵便番号をバーコードにして郵便物に印刷することになっている。そこで、第3のモードは、文字認識処理後、文字認識結果に応じてバーコードデータを生成して、バーコード印刷を行うというものである。
【0066】
図6は、本実施の形態の文字認識装置において、バーコード印刷処理を示すフローチャートである。まず、上述した第1および第2のモードで説明したように、記号種類判定部103が郵便番号記号を検知すると共に、検知した郵便番号記号が3桁または5桁の郵便番号記号であるか、7桁の郵便番号記号であるかを判定する(S601)。
【0067】
ステップS601における判定の結果、3桁または5桁の郵便番号記号である場合、文字認識処理部105は、上述した第1および第2のモードで説明した処理に基づいて、3桁または5桁の郵便番号記号用の文字認識処理を実行する(S602)。
【0068】
そして、文字認識処理部105は、処理切替部104の指示を受けて、文字認識結果をバーコード生成処理部106に送る。バーコード生成処理部106は、住所と7桁の郵便番号データを対応づけた第1のテーブル(図示せず)と、7桁の郵便番号とそのバーコードデータとを対応づけた第2のテーブル(図示せず)とを有している。バーコード生成処理部106は、文字認識結果を入力し、第1のテーブル中の住所とマッチング処理を実行して、7桁の郵便番号データを生成する(S603)。
【0069】
続いて、バーコード生成処理部106は、生成した7桁の郵便番号データと第2のテーブル中の7桁の郵便番号とのマッチング処理を実行して、バーコードデータを生成する(S604)。
【0070】
その後、バーコード生成処理部106は、生成したバーコードデータをバーコード印刷部107に渡し、バーコード印刷部107は、バーコード印刷を実行する(S605)。例えば、読取対象が郵便物である場合には、その郵便物に直接印刷を行うことができる。また、読取対象が名刺等である場合には、例えば、バーコードシールを出力することにしても良い。さらに、バーコード生成処理部106で生成したバーコードデータをメモリ108に格納して、必要なときに読み出して印刷することにしても良い。
【0071】
一方、ステップS601における判定の結果、7桁の郵便番号記号である場合、文字認識処理部105は、上述した第1および第2のモードで説明した処理に基づいて、7桁の郵便番号記号用の文字認識処理を実行する(S606)。
【0072】
そして、文字認識処理部105は、処理切替部104の指示を受けて、文字認識結果をバーコード生成処理部106に送る。バーコード生成処理部106は、文字認識結果を入力し、第2のテーブル中の7桁の郵便番号とのマッチング処理を実行して、バーコードデータを生成する(S604)。
【0073】
その後、バーコード生成処理部106は、生成したバーコードデータをバーコード印刷部107に渡し、バーコード印刷部107は、バーコード印刷を実行する(S605)。
【0074】
このように、3桁または5桁の郵便番号記号または7桁の郵便番号記号を検出し、郵便番号記号の種類に応じたバーコード生成処理を実行することにより、容易にバーコードを生成して印刷することができる。
【0075】
以上のように、本実施の形態の文字認識装置によれば、文書中に記載されている記号を検知すると共に、その記号の種類を判定し、判定した記号の種類に基づいて、その記号に続く文字の文字認識処理を実行することにしたため、記号の持つ情報を最大限活用することができ、文字認識精度の向上を図ることができる。
【0076】
なお、以上説明した本実施の形態においては、記号として郵便番号記号,電話番号,ファックス番号を例としたが、さらに、図3に示すE−mail記号305を検知し、この記号の後にはアルファベットまたは数字が来ること等を文字認識処理に利用することもできる。その際にE−mailアドレス中のアットマーク306を利用することも可能である。
【0077】
また、上述した文字認識処理をプログラム化し、文字認識処理プログラムをフロッピーディスク,CD−ROM,DVD等のコンピュータが読み取り可能な記憶媒体に格納して提供することができる。
【0078】
【発明の効果】
以上説明したように、本発明の文字認識装置(請求項1)によれば、文字切出手段が、文字認識判定手段により記号の種類に対応する前記文字列ではないと判定された場合、画像データの記号種類判定手段により記号を含むと判断された文字領域に続く文字が含まれている領域に対して、記号種類判定手段により判定された記号の種類に対応付けられた切り出し処理を行うことで文字領域を切り出し、文字認識処理手段が、切り出された文字領域について、記号種類判定手段で判定された記号の種類に応じた文字認識処理を実行することで、記号の持つ情報を最大限活用することができ、文字認識精度の向上を図ることができる。
【0079】
また、本発明の文字認識装置(請求項2)によれば、請求項1記載の文字認識装置において、文字切出手段が、文字認識判定手段により記号の種類に対応する文字列ではないと判定された場合、画像データの記号種類判定手段により記号を含むと判断された文字領域に続く文字が含まれている領域に対して、記号種類判定手段により判定された記号の種類に対応付けられた複数の切り出し処理のうち一方の切り出し処理を行うことで文字領域を切り出し、文字認識処理手段は、切り出された文字領域について、記号種類判定手段で判定された記号の種類に応じた文字認識処理を実行し、文字認識処理手段は、文字認識処理された所定の文字領域に含まれていた文字による文字列が、記号種類判定手段により判定された記号の種類に対応する文字列であるか否か判定し、文字切出手段は、文字認識判定手段により記号の種類に対応する文字列ではないと判定された場合、画像データの記号種類判定手段により記号を含むと判断された文字領域に続く文字が含まれている領域に対して、記号種類判定手段により判定された記号の種類に対応付けられた複数の切り出し処理のうち他方の切り出し処理を行うことで文字領域を切り出すことで、記号の持つ情報を最大限活用することができ、文字認識精度の向上を図ることができる。
【0080】
また、本発明の文字認識装置(請求項3)によれば、文字認識処理手段が、予め用意された複数の文字認識用辞書から記号種類判定手段で判定された記号の種類に対応した文字認識用辞書を選択し、選択した文字認識用辞書を用いて、文字切出手段により切り出された文字領域についての文字認識処理を実行するため、記号の持つ情報を最大限活用することができ、文字認識精度の向上を図ることができる。
【0081】
また、本発明の文字認識装置(請求項4)によれば、請求項1乃至3のいずれか1つに記載の文字認識装置において、文字認識処理手段が、記号種類判定手段で記号の種類が3桁または5桁の郵便番号を示す記号であると判定された場合に、所定の文字領域について3桁または5桁の郵便番号用の文字認識処理を実行し、記号種類判定手段で記号の種類が7桁の郵便番号を示す記号であると判定された場合に、所定の文字領域について7桁の郵便番号用の文字認識処理を実行するため、記号の持つ情報を最大限活用することができ、文字認識精度の向上を図ることができる。
【0082】
また、本発明の文字認識装置(請求項5)によれば、請求項1〜4記載の文字認識装置において、記号種類判定手段が3桁または5桁の郵便番号を示す記号を含む文字領域を検知した場合に、さらに、文字認識処理手段で文字認識処理された後の住所を示す文字に基づいて、7桁の郵便番号データを生成し、生成した7桁の郵便番号データに対応したバーコードを生成して出力するバーコード生成手段を備えるため、記号の持つ情報を最大限活用したバーコード生成処理を実行することができる。
【図面の簡単な説明】
【図1】本実施の形態の文字認識装置のブロック構成図である。
【図2】図1に示す文字認識装置における文字認識処理部のブロック構成図である。
【図3】本実施の形態の文字認識装置の動作を説明するために用いる名刺の一例を示す図である。
【図4】本実施の形態の文字認識装置において、3桁または5桁の郵便番号記号用の処理を示すフローチャートである。
【図5】本実施の形態の文字認識装置において、7桁の郵便番号記号用の処理を示すフローチャートである。
【図6】本実施の形態の文字認識装置において、バーコード印刷処理を示すフローチャートである。
【符号の説明】
101 画像データ入力部
102 文字切出部
103 記号種類判定部
104 処理切替部
105 文字認識処理部
106 バーコード生成処理部
107 バーコード印刷部
108 メモリ
109 操作部
110 主制御部
201 文字認識部
202 文字認識判定部
301 名刺
302 郵便番号記号
303 電話番号記号
304 ファックス番号記号
305 E−mail記号
306 アットマーク
[0001]
BACKGROUND OF THE INVENTION
  The present invention provides a character recognition device.In placeMore specifically, a character such as a postal code or the like described in a document is detected, and a character recognition process corresponding to the type of the detected symbol is executed on a character subsequent to the character. Character recognition device with improved recognition accuracyIn placeRelated.
[0002]
[Prior art]
Japanese Patent Laid-Open No. 5-81464 “Optical Character Reading Device” discloses an optical character recognition device that uses symbols related to a zip code and a telephone number included in a document to improve character recognition speed.
[0003]
This optical character reading device is an optical character reading device for optically reading characters printed on a business card, and a normal business card always includes a postal code and a symbol or character relating to a telephone number that are printed. And a recognition dictionary for determining the direction of the four directions of the character, the top, bottom, left, and right, and the printing direction of the business card is determined by collating the character cut out in character units with a symbol or character in the recognition dictionary. The printed characters are read. According to this optical character reader, when optically reading printed characters on a business card, it is possible to speed up the printing direction determination process and the character reading process.
[0004]
[Problems to be solved by the invention]
However, in the above-mentioned Japanese Patent Application Laid-Open No. 5-81464 “Optical Character Reading Device”, a symbol relating to a zip code and a telephone number is used only for determining the printing direction of a business card. In spite of performing the process of recognizing that, there is a problem that the information of this symbol is not fully utilized.
[0005]
The present invention has been made in view of the above, and an object of the present invention is to improve the character recognition accuracy of a character string following these symbols by making maximum use of information possessed by symbols related to a postal code and a telephone number. And
[0006]
[Means for Solving the Problems]
  In order to achieve the above object, the character recognition device according to claim 1 is a document such as a postal matter, a business card, or a form.It has symbol information including a symbol indicating that the predetermined character string included in is a zip code and a telephone numberReading images opticallysoThe inputWasCut out the character area of one character unit from image dataCharacter cutting means and the character cutting meansThe symbol data included in the symbol information is obtained by inputting the image data cut into the character region in units of one character and comparing the characters included in the character region with the symbols included in the symbol information. A symbol type determination unit that detects a character region including the same symbol as the symbol and determines the type of the symbol included in the character region, and the symbol type determination unit includes the same symbol as the symbol included in the symbol information Character recognition processing means for executing a character recognition process according to the type of the symbol determined by the symbol type determination means for a predetermined character area following the character area,Whether or not the character string formed by the characters included in the predetermined character area subjected to the character recognition processing by the character recognition processing unit is a character string corresponding to the type of the symbol determined by the symbol type determination unit. A character recognition determination unit for determining, and when the character cutout unit determines that the character recognition unit does not correspond to the character string corresponding to the type of the symbol, the symbol type determination unit of the image data Characters are obtained by performing a cutout process associated with the type of the symbol determined by the symbol type determination unit on an area including a character following the character area determined to include the symbol by An area is cut out, and the character recognition processing means responds to the symbol type determined by the symbol type determination means with respect to the character area cut out by the character cutting means. Performing said character recognition processing wasIt is characterized by.
[0007]
A character recognition device according to claim 2 is the character recognition device according to claim 1,The character cutting means is determined to include the symbol by the symbol type determining means of the image data when the character recognition determining means determines that the character string does not correspond to the type of the symbol By performing one of the cut-out processes among the plurality of cut-out processes associated with the type of the symbol determined by the symbol type determination unit with respect to an area including characters following the character area, Character region cutout, the character recognition processing means executes character recognition processing according to the symbol type determined by the symbol type determination means for the character region cut out by the character cutout means, and the character The recognition processing unit is configured to determine whether the character string included in the predetermined character area subjected to the character recognition processing by the character recognition processing unit is a symbol type determination unit. When it is determined whether or not the character string corresponds to the type of the symbol determined by the above, and the character cutout unit determines by the character recognition determination unit that the character string does not correspond to the type of the symbol Corresponding to the type of the symbol determined by the symbol type determination unit for an area including a character following the character region determined to include the symbol by the symbol type determination unit of the image data The character region is cut out by performing the other cut-out process among the plurality of cut-out processes attached.
[0008]
  The character recognition device according to claim 3 is the character recognition device according to claim 1 or 2,The character recognition processing means selects a character recognition dictionary corresponding to the symbol type determined by the symbol type determination means from a plurality of character recognition dictionaries prepared in advance, and uses the selected character recognition dictionary Then, a character recognition process is executed for the character region cut out by the character cut-out means.
[0009]
  The character recognition device according to claim 4 is:Any one of claims 1 to 3In a character recognition device,When the character recognition processing means determines that the symbol type is a symbol indicating a three-digit or five-digit zip code by the symbol type determination means, the predetermined character area has a three-digit or five-digit code. When a character recognition process for a zip code is executed, and the symbol type determination means determines that the symbol type is a symbol indicating a seven-digit zip code, a seven-digit zip code for the predetermined character area Character recognition processing is executed.
[0010]
The character recognition device according to claim 5 is the character recognition device according to any one of claims 1 to 4, wherein the symbol type determination unit detects a character region including a symbol indicating a three-digit or five-digit zip code. Further, based on the characters indicating the address after the character recognition processing by the character recognition processing means, 7-digit zip code data is generated, and a barcode corresponding to the generated 7-digit zip code data is generated. And a barcode generation means for outputting.
[0012]
DETAILED DESCRIPTION OF THE INVENTION
  Hereinafter, the character recognition device of the present invention.SetAn embodiment will be described in detail with reference to the drawings.
[0013]
FIG. 1 is a block configuration diagram of the character recognition apparatus according to the present embodiment. The character recognition apparatus shown in FIG. 1 optically reads an image of a document such as a postal matter, a business card, a form, etc., and inputs the image data obtained by reading, and the image data input unit 101 inputs the image data. Symbol information including at least a symbol for indicating that a character cutout unit 102 that performs a cutout process for cutting out a character area in units of one character from image data, and that a predetermined character string that follows is a postal code or a telephone number The image data extracted by the character cutting unit 102 into the character area in units of one character is input, and the characters included in the character area are compared with the symbols included in the symbol information. A symbol type determination unit 103 that detects a character region including the same symbol as the symbol included in the information and determines the type of the symbol included in the character region (corresponding to the symbol type determination unit according to claim 1) When the symbol type determination unit 103 detects a character region including the same symbol as the symbol included in the symbol information, the symbol type determination unit 103 determines a predetermined character region following the character region. And a character recognition processing unit 105 for executing character recognition processing in units of character areas in accordance with instructions from the processing switching unit 104. 7-digit zip code data is generated based on a character data string indicating an address after character recognition by the character recognition processing unit 105 in accordance with an instruction from the processing switching unit 104 A barcode generation processing unit 106 (corresponding to the barcode generation means according to claim 5) for generating and outputting a barcode corresponding to the generated 7-digit zip code data; and barcode generation processing A barcode printing unit 107 (corresponding to the barcode generation unit according to claim 5) that executes a printing process of the barcode generated in 106, a character data string after character recognition by the character recognition processing unit 105, and A memory 108 for storing a barcode generated by the barcode generation processing unit 106, an operation unit 109 for specifying an operation mode of the apparatus, displaying an operation state, and the like, and a main control unit 110 for controlling each of the above units ,have.
[0014]
FIG. 2 is a block configuration diagram of the character recognition processing unit 105 in the character recognition apparatus shown in FIG. The character recognition processing unit 105 shown in FIG. 2 includes a plurality of dictionaries A, a dictionary B, a dictionary C,..., Such as a dictionary in which postal codes are registered and a dictionary in which telephone numbers are registered. The character recognition unit 201 that selects any one of the dictionaries according to the instruction and executes the character recognition process for each character area unit, and the character of the character recognition unit 201 according to the instruction from the process switching unit 104 And a character recognition determination unit 202 for determining whether or not the recognition result is correct.
[0015]
The character recognition apparatus shown in FIGS. 1 and 2 can be realized not only by a character recognition dedicated apparatus but also by a system centered on a computer having a scanner or the like.
[0016]
Next, the operation of the character recognition device of the present embodiment will be described by taking a business card as an example. FIG. 3 is a diagram showing an example of a business card used for explaining the operation of the character recognition device of the present embodiment.
[0017]
The image data input unit 101 optically reads the image of the business card 301 shown in FIG. 3, and outputs the image data of the business card 301 obtained by the reading to the character cutout unit 102.
[0018]
The character cutout unit 102 inputs image data, executes a character cutout process of cutting out a character area in units of one character from the input image data, and outputs the character region determination unit 103.
[0019]
The symbol type determination unit 103 receives the image data cut into the character area in units of one character by the character cutout unit 102, and compares the characters included in the character area with the symbols included in the symbol information. Thus, a character region including the same symbol as the symbol included in the symbol information is detected, the type of the symbol included in the character region is determined, and the determination result is output to the process switching unit 104.
[0020]
The symbol information included in the symbol type determination unit 103 includes a symbol for indicating that a predetermined character string following the subsequent stage is a postal code, a telephone number, or the like. This symbol is a symbol (302 in FIG. 3) indicating a three-digit or five-digit postal code, a symbol (not shown) indicating a seven-digit postal code, or the like. However, the symbols here also include character strings such as “TEL” (303 in FIG. 3), “Telephone”, “FAX” (304 in FIG. 3) indicating a telephone number or a fax number. Shall be.
[0021]
Here, the symbol type determination unit 103 detects the zip code symbol 302, the telephone number symbol 303, and the fax number symbol 304 shown in FIG. 3, and outputs the symbol type information and position information to the processing switching unit 104.
[0022]
The process switching unit 104 inputs the symbol type information and the position information from the symbol type determination unit 103, and causes the character recognition process corresponding to the type of the symbol to be executed for the character region subsequent to the detected symbol.
[0023]
The character recognition device of the present embodiment includes a plurality of operation modes as character recognition processing corresponding to the type of symbol. This operation mode can be set in advance by the user from the operation unit 109, and the process switching unit 104 performs processing based on the user's designation on the character recognition processing unit 105, the barcode generation processing unit 106, and the barcode printing unit 107. Let it run. Below, a character recognition process is demonstrated as the character recognition apparatus of this Embodiment is provided with three operation modes.
[0024]
(1) First operation mode
The first operation mode is to use different dictionaries that the character recognition unit 201 uses for character recognition according to the type of symbol. For example, as shown in FIG. 3, the postal code symbol 302 is written in full-width characters, but the postal code that follows is written in half-width characters, and the postal code is written in contact with numbers. In many cases, mistakes are likely to occur in the extraction of characters in the postal code part. Therefore, in the first operation mode, the character recognition process for the character region following the detected symbol is executed in consideration of such a clipping error.
[0025]
For example, when the symbol type determination unit 103 detects the zip code symbol 302 in the business card 301, the character recognition unit 201 refers to the dictionary in which the zip code is registered, and performs character recognition processing for the character area following the zip code symbol. Execute.
[0026]
When the symbol type determination unit 103 detects the telephone number symbol 303 (fax number symbol 304) in the business card 301, the character recognition unit 201 refers to the dictionary in which the telephone number is registered, and the telephone number symbol 303 (fax Character recognition processing of the character area following the number symbol 304) is executed.
[0027]
In addition to the telephone number symbol 303, the symbol indicating the telephone number includes a symbol indicating a toll-free number starting with 0120. Therefore, as the dictionary in which the telephone number is registered, a knowledge dictionary in which rules such as what kind of telephone number is used depending on the type of symbol indicating a telephone number such as a general telephone number or a toll-free number can be used. .
[0028]
The character recognition unit 201 executes the character recognition process as described above, and stores the character data string after the character recognition process, for example, in the memory 108.
[0029]
Needless to say, normal character recognition processing is performed on character areas other than the character area following the postal code symbol 302, telephone number symbol 303, fax number symbol 304, and the like. In addition, for example, when performing character recognition processing with reference to a dictionary in which postal codes are registered, the character recognition processing may also be performed in combination with the dictionary used when performing normal character recognition processing. good.
[0030]
In this way, by using different dictionaries for character recognition processing according to the type of symbol, the information held by the symbol can be utilized to the maximum, and the character recognition accuracy can be improved.
[0031]
(2) Second mode
In the second mode, according to the type of the symbol, the character recognition processing unit 105 executes a determination process to determine whether the character recognition processing result of the character string following the symbol is correct, thereby improving the character recognition accuracy. Mode. In the following description, a zip code is described as an example, but the present invention can be applied to a telephone number symbol and a fax number symbol in the same way. For convenience of explanation, in the following explanation, “-” included in the 5-digit and 7-digit zip codes is not considered.
[0032]
First, processing when the symbol type determination unit 103 detects a three-digit or five-digit postal code symbol 302 will be described. FIG. 4 is a flowchart showing processing for a three-digit or five-digit zip code symbol in the character recognition device of the present embodiment. Although illustration in FIG. 4 is omitted, it goes without saying that normal character recognition processing is executed for characters other than those following the postcode symbol.
[0033]
The character recognition unit 201 inputs image data that has been cut out in character units, and executes character recognition processing (S401).
[0034]
The character recognition determining unit 202 inputs the result of the character recognition processing performed by the character recognizing unit 201, and determines whether or not the character following the three-digit or five-digit zip code symbol is a number (S402). .
[0035]
As a result of the determination in step S402, if the character that follows the postal code symbol is a number, the character recognition determination unit 202 further determines whether the character string that follows the postal code symbol is a 3-digit or 5-digit number. Determine (S410). If it is determined that the number is a three-digit or five-digit number, the processing for the three-digit or five-digit postal code is terminated.
[0036]
On the other hand, if the result of determination in step S410 is not a three-digit or five-digit number, there is a possibility that there is an error in the symbol determination. Execute.
[0037]
If the result of determination in step S402 is that the character after the zip code is not a number (when it is a kanji, hiragana, etc.), the character recognition determination unit 202 The character cutout unit 102 performs forced cutout processing to divide the region including the character into three equal parts (S403).
[0038]
As shown in FIG. 3, the postal code symbol 302 is written in full-width characters, but the postal code that follows is written in half-width characters, and the postal code is written in contact with numbers. In many cases, mistakes are likely to occur in the extraction of characters in the postal code part. Therefore, it is determined whether or not the character after the zip code is a number. If the character is other than a number (kanji, hiragana, etc.), it is determined that there is a mistake in character extraction of the zip code part. Performs character segmentation in the character area after the zip code.
[0039]
Subsequently, the character recognition unit 201 inputs the image data divided into three by the character cutout unit 102, and executes character recognition processing (S404).
[0040]
The character recognition determination unit 202 inputs the result of the character recognition processing performed by the character recognition unit 201, and determines whether or not the character following the three-digit or five-digit zip code symbol is a number (S405). .
[0041]
As a result of the determination in step S405, if the character following the zip code symbol is a number, the character recognition determination unit 202 further determines whether the character string following the zip code symbol is a three-digit number ( S411). As a result of the determination, if the number is a three-digit number, the processing for the three-digit or five-digit zip code symbol is terminated.
[0042]
On the other hand, if the result of determination in step S411 is not a three-digit number, it is considered that there is an error in the symbol determination, so the process proceeds to step S409, and processing for a seven-digit postal code described later is executed.
[0043]
If it is determined in step S405 that the character after the zip code is not a number, the character recognition determination unit 202 sends the character after the zip code to the character cutout unit 102, and the character cutout unit 102 Performs a forced cut-out process that divides the area including the character into five equal parts (S406).
[0044]
Subsequently, the character recognition unit 201 inputs the image data divided into five by the character cutout unit 102, and executes character recognition processing (S407).
[0045]
The character recognition determination unit 202 inputs the result of the character recognition processing performed by the character recognition unit 201, and determines whether or not the character following the three-digit or five-digit zip code is a number (S408). .
[0046]
As a result of the determination in step S408, if the character following the zip code symbol is a number, the character recognition determination unit 202 further determines whether the character string following the zip code symbol is a 5-digit number ( S412). If it is determined that the number is a five-digit number, the processing for the three-digit or five-digit zip code symbol is terminated.
[0047]
On the other hand, if the result of determination in step S412 is not a five-digit number, there is a possibility that there is an error in symbol determination, so the process proceeds to step S409 to execute processing for a seven-digit postal code described later. To do.
[0048]
If the character after the postal code is not a number as a result of the determination in step S408, it is considered that there is a character cutout error. Therefore, the process proceeds to step S409, and processing for a 7-digit postal code described later is performed. Execute.
[0049]
Next, a process when the symbol type determination unit 103 detects a 7-digit postal code is described. FIG. 5 is a flowchart showing processing for a 7-digit zip code symbol in the character recognition apparatus of the present embodiment. Although illustration in FIG. 7 is omitted, it goes without saying that normal character recognition processing is executed for characters other than those following the postcode symbol.
[0050]
The character recognizing unit 201 inputs image data that has been cut out in character units, and executes character recognition processing (S501).
[0051]
The character recognition determining unit 202 inputs the result of the character recognition processing performed by the character recognizing unit 201, and determines whether or not the character following the 7-digit zip code is a number (S502).
[0052]
As a result of the determination in step S502, if the character following the postal code symbol is a number, the character recognition determination unit 202 further determines whether the character string following the postal code symbol is a 7-digit number ( S507). As a result of the determination, if it is a 7-digit number, the processing for the 7-digit zip code symbol is terminated.
[0053]
On the other hand, if the result of determination in step S507 is not a 7-digit number, there is a possibility that there is an error in the symbol determination. Execute.
[0054]
If the character after the zip code is not a number as a result of the determination in step S502, the character recognition determination unit 202 sends the character after the zip code to the character cutout unit 102, and the character cutout unit 102 Executes a forced cut-out process for dividing the region including the character into seven equal parts (S503).
[0055]
Subsequently, the character recognition unit 201 inputs the image data divided into seven equal parts by the character cutout unit 102, and executes character recognition processing (S504).
[0056]
The character recognition determining unit 202 inputs the result of the character recognition processing performed by the character recognizing unit 201, and determines whether or not the character following the 7-digit zip code is a number (S505).
[0057]
As a result of the determination in step S505, if the character following the postal code symbol is a number, the character recognition determination unit 202 further determines whether the character string following the postal code symbol is a 7-digit number ( S507). As a result of the determination, if it is a 7-digit number, the processing for the 7-digit zip code symbol is terminated.
[0058]
On the other hand, if the result of determination in step S507 is not a 7-digit number, there is a possibility that there is an error in the symbol determination. Execute.
[0059]
If the character after the postal code is not a number as a result of the determination in step S505, it is considered that there is an error in cutting out the character. Execute the process.
[0060]
In the processing shown in FIGS. 4 and 5, the character recognition process is first performed using the character region cut out by the character cutout unit 102, and then the determination process is performed by the character recognition determination unit 202. However, the character recognition process may be started after performing a process of dividing the character area after the zip code symbol into 3, 5, or 7 parts in advance.
[0061]
Further, if the character recognition determination unit 202 cannot obtain a correct determination result even after performing both processes shown in FIGS. 4 and 5, it is evaluated which is correct, and there is a possibility that the character recognition process result has an error. May be displayed on a display (not shown) or the like. Further, for example, when a correct determination result cannot be obtained as a result of performing character recognition processing for a three-digit or five-digit zip code symbol, a seven-digit zip code symbol is used as shown in FIG. The character recognition process (step S409) is executed, but the present invention is not limited to this. The process may be terminated here and the determination result may be displayed, or another process may be executed. Anyway.
[0062]
4 and 5, when executing the forced cutout process, one character area is divided into three equal parts, five equal parts, or seven equal parts, but instead of this process, the line of the character area is divided. It is also possible to create a projection histogram perpendicular to the direction and cut out at the valley.
[0063]
Further, in FIG. 4 and FIG. 5, when determining whether or not the character string after the zip code symbol is a number of digits according to the type of the zip code symbol, it is determined whether or not the character string is all numerals. Although the determination is made as the reference, it may be determined based on the size of the character rectangle instead.
[0064]
Thus, in order to detect the symbol, determine the type of the detected symbol, and determine whether the character string after the character recognition process following the symbol is a character string according to the type of the symbol. The character recognition accuracy can be improved.
[0065]
(3) Third mode
When the postal code is converted into 7 digits, the postal code is converted into a bar code and printed on the mail piece for the efficiency of the postal service. Therefore, in the third mode, after character recognition processing, barcode data is generated according to the character recognition result, and barcode printing is performed.
[0066]
FIG. 6 is a flowchart showing the barcode printing process in the character recognition device of this embodiment. First, as described in the first and second modes described above, the symbol type determination unit 103 detects a zip code, and the detected zip code is a three-digit or five-digit zip code. It is determined whether it is a 7-digit postal code (S601).
[0067]
If the result of determination in step S601 is a three-digit or five-digit zip code symbol, the character recognition processing unit 105 uses a three-digit or five-digit code based on the processing described in the first and second modes described above. Character recognition processing for the zip code is executed (S602).
[0068]
Then, the character recognition processing unit 105 receives an instruction from the process switching unit 104 and sends the character recognition result to the barcode generation processing unit 106. The barcode generation processing unit 106 includes a first table (not shown) in which addresses and 7-digit zip code data are associated with each other, and a second table in which 7-digit zip codes are associated with the barcode data. (Not shown). The barcode generation processing unit 106 inputs the character recognition result, executes the matching process with the address in the first table, and generates 7-digit postal code data (S603).
[0069]
Subsequently, the barcode generation processing unit 106 executes matching processing between the generated 7-digit zip code data and the 7-digit zip code in the second table to generate barcode data (S604).
[0070]
Thereafter, the barcode generation processing unit 106 passes the generated barcode data to the barcode printing unit 107, and the barcode printing unit 107 executes barcode printing (S605). For example, when the reading object is a postal matter, printing can be performed directly on the postal matter. Further, when the reading target is a business card or the like, for example, a bar code sticker may be output. Furthermore, the barcode data generated by the barcode generation processing unit 106 may be stored in the memory 108 and read and printed when necessary.
[0071]
On the other hand, if the result of determination in step S601 is a 7-digit zip code, the character recognition processing unit 105 uses the 7-digit zip code symbol based on the processing described in the first and second modes. The character recognition process is executed (S606).
[0072]
Then, the character recognition processing unit 105 receives an instruction from the process switching unit 104 and sends the character recognition result to the barcode generation processing unit 106. The barcode generation processing unit 106 inputs the character recognition result, executes a matching process with the 7-digit zip code in the second table, and generates barcode data (S604).
[0073]
Thereafter, the barcode generation processing unit 106 passes the generated barcode data to the barcode printing unit 107, and the barcode printing unit 107 executes barcode printing (S605).
[0074]
In this way, it is possible to easily generate a barcode by detecting a 3-digit or 5-digit zip code symbol or a 7-digit zip code symbol and executing a barcode generation process according to the type of the zip code symbol. Can be printed.
[0075]
As described above, according to the character recognition device of the present embodiment, the symbol described in the document is detected, the type of the symbol is determined, and the symbol is determined based on the determined symbol type. Since the character recognition process for the subsequent character is executed, the information held by the symbol can be utilized to the maximum and the character recognition accuracy can be improved.
[0076]
In the present embodiment described above, a zip code, a telephone number, and a fax number are used as symbols. However, an E-mail symbol 305 shown in FIG. Alternatively, the fact that a number comes can be used for character recognition processing. At that time, it is also possible to use an at mark 306 in the E-mail address.
[0077]
Further, the above-described character recognition processing can be programmed, and the character recognition processing program can be provided by being stored in a computer-readable storage medium such as a floppy disk, CD-ROM, or DVD.
[0078]
【The invention's effect】
  As described above, according to the character recognition device of the present invention (claim 1),If the character cutout means determines that it is not the character string corresponding to the symbol type by the character recognition determination means, the characters following the character area determined to contain the symbol by the symbol type determination means of the image data are included. The character region is cut out by performing a cutout process associated with the type of the symbol determined by the symbol type determination unit with respect to the extracted region, and the character recognition processing unit performs the symbol type for the cut out character region. By executing a character recognition process according to the type of symbol determined by the determination means,The information held by the symbols can be utilized to the maximum, and the accuracy of character recognition can be improved.
[0079]
  According to the character recognition device of the present invention (claim 2),2. The character recognition device according to claim 1, wherein when the character extraction means determines that the character recognition means does not correspond to the character type corresponding to the type of the symbol, the character recognition means determines that the image data includes a symbol. The character region is obtained by performing one of the plurality of cut-out processes associated with the symbol type determined by the symbol type determination unit with respect to the area including the character following the selected character area. The cut-out and character recognition processing means executes character recognition processing corresponding to the type of the symbol determined by the symbol type determination means for the cut-out character area, and the character recognition processing means performs the predetermined character subjected to the character recognition processing. It is determined whether or not the character string included in the region is a character string corresponding to the symbol type determined by the symbol type determination unit, and the character cutout unit performs character recognition If it is determined by the determining means that the character string does not correspond to the symbol type, the symbol is determined for the area including the character following the character area determined to include the symbol by the symbol type determining means of the image data. By cutting out the character region by performing the other cutout process among the plurality of cutout processes associated with the type of the symbol determined by the type determining means,The information held by the symbols can be utilized to the maximum, and the accuracy of character recognition can be improved.
[0080]
  According to the character recognition device of the present invention (Claim 3),The character recognition processing means selects a character recognition dictionary corresponding to the symbol type determined by the symbol type determination means from a plurality of character recognition dictionaries prepared in advance, and uses the selected character recognition dictionary to In order to execute the character recognition process for the character area cut out by the cutting means,The information held by the symbols can be utilized to the maximum, and the character recognition accuracy can be improved.
[0081]
According to the character recognition device of the present invention (Claim 4), Claim 1In the character recognition device according to any one of 1 to 3, when the character recognition processing means determines that the symbol type determination means is a symbol indicating a three-digit or five-digit postal code, When a character recognition process for a three-digit or five-digit zip code is executed for a predetermined character area and the symbol type determining means determines that the symbol type is a symbol indicating a seven-digit zip code, In order to execute the character recognition process for the 7-digit zip code on the character area,The information held by the symbols can be utilized to the maximum, and the accuracy of character recognition can be improved.
[0082]
According to the character recognition device (Claim 5) of the present invention, in the character recognition device according to any one of Claims 1 to 4, the character type determining means includes a character region including a symbol indicating a three-digit or five-digit zip code. If detected, further generates 7-digit zip code data based on the character indicating the address after the character recognition processing by the character recognition processing means, and the barcode corresponding to the generated 7-digit zip code data Since the barcode generation means for generating and outputting the symbol is provided, it is possible to execute a barcode generation process that makes the best use of the information held by the symbols.
[Brief description of the drawings]
FIG. 1 is a block configuration diagram of a character recognition device according to an embodiment of the present invention.
FIG. 2 is a block configuration diagram of a character recognition processing unit in the character recognition device shown in FIG. 1;
FIG. 3 is a diagram showing an example of a business card used for explaining the operation of the character recognition device of the present embodiment.
FIG. 4 is a flowchart showing processing for a three-digit or five-digit zip code symbol in the character recognition device of the present embodiment;
FIG. 5 is a flowchart showing processing for a 7-digit zip code symbol in the character recognition device of the present embodiment;
FIG. 6 is a flowchart showing barcode printing processing in the character recognition device of the present embodiment.
[Explanation of symbols]
101 Image data input section
102 character cutout
103 Symbol type determination unit
104 Processing switching unit
105 Character recognition processor
106 Barcode generation processing unit
107 Barcode printing section
108 memory
109 Operation unit
110 Main control unit
201 Character recognition part
202 Character recognition determination unit
301 business cards
302 Postal code
303 Phone number symbol
304 Fax number symbol
305 E-mail symbol
306 at sign

Claims (5)

郵便物,名刺,帳票等の文書に含まれた所定の文字列が郵便番号および電話番号であることを示す記号を含む記号情報を有した画像を光学的に読み取ること前記入力された画像データから1文字単位の文字領域を切り出す文字切出手段と、
前記文字切出手段により前記1文字単位の文字領域に切り出された画像データを入力して、前記文字領域に含まれた文字と前記記号情報に含まれた記号とを比較することにより、前記記号情報に含まれた記号と同一の記号を含む文字領域を検知して、当該文字領域に含まれた記号の種類を判定する記号種類判定手段と、
前記記号種類判定手段が前記記号情報に含まれた記号と同一の記号を含む文字領域を検知した場合に、当該文字領域に続く所定の文字領域について、前記記号種類判定手段で判定された記号の種類に応じた文字認識処理を実行する文字認識処理手段と、
前記文字認識処理手段による文字認識処理された前記所定の文字領域に含まれていた文字による文字列が、前記記号種類判定手段により判定された前記記号の種類に対応する文字列であるか否か判定する文字認識判定手段と、を備え、
前記文字切出手段は、文字認識判定手段により前記記号の種類に対応する前記文字列ではないと判定された場合、前記画像データの前記記号種類判定手段により前記記号を含むと判断された前記文字領域に続く文字が含まれている領域に対して、前記記号種類判定手段により判定された前記記号の種類に対応付けられた切り出し処理を行うことで文字領域を切り出し、
前記文字認識処理手段は、前記文字切出手段により切り出された前記文字領域について、前記記号種類判定手段で判定された記号の種類に応じた前記文字認識処理を実行すること
を特徴とする文字認識装置。
Mailpieces, business cards, images predetermined character string contained in documents form or the like is the input by reading an image having a symbol information including a symbol indicating that the postal code and telephone number to an optical data and the character cut-out means that you cut out the character region of one character unit from,
By inputting the image data cut into the character area in units of one character by the character cutting means , and comparing the characters included in the character area with the symbols included in the symbol information, A symbol type determination means for detecting a character region including the same symbol as the symbol included in the information and determining a type of the symbol included in the character region;
When the symbol type determination unit detects a character area including the same symbol as the symbol included in the symbol information, for a predetermined character region following the character region, the symbol type determination unit Character recognition processing means for executing character recognition processing according to the type;
Whether or not the character string formed by the characters included in the predetermined character area subjected to the character recognition processing by the character recognition processing unit is a character string corresponding to the type of the symbol determined by the symbol type determination unit. Character recognition determination means for determining,
The character cutout means, when the character recognition determination means determines that the character string does not correspond to the type of the symbol, the character determined to include the symbol by the symbol type determination means of the image data A character region is cut out by performing a cut-out process associated with the type of the symbol determined by the symbol type determination unit for a region including characters following the region,
The character recognition processing means performs the character recognition processing according to the type of the symbol determined by the symbol type determination means for the character region cut out by the character cutout means. apparatus.
前記文字切出手段は、前記文字認識判定手段により前記記号の種類に対応する前記文字列ではないと判定された場合、前記画像データの前記記号種類判定手段により前記記号を含むと判断された前記文字領域に続く文字が含まれている領域に対して、前記記号種類判定手段により判定された前記記号の種類に対応付けられた複数の前記切り出し処理のうち一方の前記切り出し処理を行うことで前記文字領域の切り出し、The character cutting means is determined to include the symbol by the symbol type determining means of the image data when the character recognition determining means determines that the character string does not correspond to the type of the symbol By performing one of the cut-out processes among the plurality of cut-out processes associated with the type of the symbol determined by the symbol type determination unit with respect to an area including characters following the character area, Extraction of character area,
前記文字認識処理手段は、前記文字切出手段により切り出された前記文字領域について、前記記号種類判定手段で判定された記号の種類に応じた文字認識処理を実行し、  The character recognition processing means executes character recognition processing according to the type of the symbol determined by the symbol type determination means for the character region cut out by the character cutout means,
前記文字認識処理手段は、前記文字認識処理手段による文字認識処理された前記所定の文字領域に含まれていた文字による文字列が、前記記号種類判定手段により判定された前記記号の種類に対応する文字列であるか否か判定し、  The character recognition processing means corresponds to a character type determined by the symbol type determination means, wherein the character string included in the predetermined character area subjected to the character recognition processing by the character recognition processing means corresponds to the symbol type determination means. Determine whether it is a string,
前記文字切出手段は、文字認識判定手段により前記記号の種類に対応する前記文字列ではないと判定された場合、前記画像データの前記記号種類判定手段により前記記号を含むと判断された前記文字領域に続く文字が含まれている領域に対して、前記記号種類判定手段により判定された前記記号の種類に対応付けられた複数の切り出し処理のうち他方の前記切り出し処理を行うことで前記文字領域を切り出すこと  The character cutout means, when the character recognition determination means determines that the character string does not correspond to the type of the symbol, the character determined to include the symbol by the symbol type determination means of the image data The character region is obtained by performing the other cut-out process among a plurality of cut-out processes associated with the type of the symbol determined by the symbol type determination unit with respect to an area including characters following the area. Cutting out
を特徴とする請求項1に記載の文字認識装置。  The character recognition device according to claim 1.
前記文字認識処理手段が、予め用意された複数の文字認識用辞書から前記記号種類判定手段で判定された記号の種類に対応した文字認識用辞書を選択し、前記選択した文字認識用辞書を用いて、前記文字切出手段により切り出された前記文字領域についての文字認識処理を実行することを特徴とする請求項1又は2記載の文字認識装置。The character recognition processing means selects a character recognition dictionary corresponding to the symbol type determined by the symbol type determination means from a plurality of character recognition dictionaries prepared in advance, and uses the selected character recognition dictionary Te, the character recognition apparatus according to claim 1 or 2, wherein the executing the character recognition processing for the character region extracted by the character extraction means. 前記文字認識処理手段が、前記記号種類判定手段で前記記号の種類が3桁または5桁の郵便番号を示す記号であると判定された場合に、前記所定の文字領域について3桁または5桁の郵便番号用の文字認識処理を実行し、前記記号種類判定手段で前記記号の種類が7桁の郵便番号を示す記号であると判定された場合に、前記所定の文字領域について7桁の郵便番号用の文字認識処理を実行することを特徴とする請求項1乃至3のいずれか1つに記載の文字認識装置。When the character recognition processing means determines that the symbol type is a symbol indicating a three-digit or five-digit zip code by the symbol type determination means, the predetermined character area has a three-digit or five-digit code. When a character recognition process for a zip code is executed, and the symbol type determination means determines that the symbol type is a symbol indicating a seven-digit zip code, a seven-digit zip code for the predetermined character area character recognition apparatus according to any one of claims 1 to 3, characterized in that to perform the character recognition process use. 前記記号種類判定手段が3桁または5桁の郵便番号を示す記号を含む文字領域を検知した場合に、さらに、前記文字認識処理手段で文字認識処理された後の住所を示す文字に基づいて、7桁の郵便番号データを生成し、前記生成した7桁の郵便番号データに対応したバーコードを生成して出力するバーコード生成手段を備えることを特徴とする請求項1〜4記載の文字認識装置。  When the symbol type determination unit detects a character area including a symbol indicating a three-digit or five-digit postal code, further, based on the character indicating the address after the character recognition processing by the character recognition processing unit, 5. The character recognition according to claim 1, further comprising bar code generation means for generating 7-digit zip code data and generating and outputting a barcode corresponding to the generated 7-digit zip code data. apparatus.
JP35673096A 1996-12-27 1996-12-27 Character recognition device Expired - Fee Related JP3725953B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP35673096A JP3725953B2 (en) 1996-12-27 1996-12-27 Character recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35673096A JP3725953B2 (en) 1996-12-27 1996-12-27 Character recognition device

Publications (2)

Publication Number Publication Date
JPH10187885A JPH10187885A (en) 1998-07-21
JP3725953B2 true JP3725953B2 (en) 2005-12-14

Family

ID=18450494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35673096A Expired - Fee Related JP3725953B2 (en) 1996-12-27 1996-12-27 Character recognition device

Country Status (1)

Country Link
JP (1) JP3725953B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102161163B1 (en) * 2019-04-29 2020-09-29 (주)한빛넷 order data linkage system through linkage between POS program and delivery agency program

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6639257B2 (en) * 2016-02-10 2020-02-05 キヤノン株式会社 Information processing apparatus and control method therefor
CN110796145B (en) * 2019-09-19 2024-01-19 平安科技(深圳)有限公司 Multi-certificate segmentation association method and related equipment based on intelligent decision

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102161163B1 (en) * 2019-04-29 2020-09-29 (주)한빛넷 order data linkage system through linkage between POS program and delivery agency program

Also Published As

Publication number Publication date
JPH10187885A (en) 1998-07-21

Similar Documents

Publication Publication Date Title
US20070201768A1 (en) Method And System For Acquiring Data From Machine-Readable Documents
JP3725953B2 (en) Character recognition device
EP1202213B1 (en) Document format identification apparatus and method
JP2740335B2 (en) Table reader with automatic cell attribute determination function
JPH06103411A (en) Document reader
JP3775133B2 (en) Data processing apparatus and program recording medium thereof
JPH0962758A (en) Business form recognition processing system
JP3928739B2 (en) Document filing system
JP2001005831A (en) Filing method and recording medium storing the method
JPH08180133A (en) Image processor
JPH10175385A (en) Printed matter with inspection character
JP4261831B2 (en) Character recognition processing method, character recognition processing device, character recognition program
JPH07152856A (en) Optical character reader
JP2529421B2 (en) Character recognition device
JPH09204511A (en) Filing device
JP2924356B2 (en) Optical character reader
JP3251704B2 (en) Recognition processing device
JPH08147329A (en) Reading image processor
JPH0520300A (en) Document processor
JP2003099709A (en) Misread character correction method and optical character recognition device
JPH08202818A (en) Format information processor
JPS60144885A (en) Information input device
JPH06333085A (en) Optical character reader
JPH01196686A (en) Format control information processor for character reader
JPS62165269A (en) Business card filing system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050926

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080930

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090930

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090930

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100930

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110930

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120930

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130930

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees