JP2007026263A - 文字認識装置及びコンピュータプログラム - Google Patents

文字認識装置及びコンピュータプログラム Download PDF

Info

Publication number
JP2007026263A
JP2007026263A JP2005209710A JP2005209710A JP2007026263A JP 2007026263 A JP2007026263 A JP 2007026263A JP 2005209710 A JP2005209710 A JP 2005209710A JP 2005209710 A JP2005209710 A JP 2005209710A JP 2007026263 A JP2007026263 A JP 2007026263A
Authority
JP
Japan
Prior art keywords
character
character recognition
keyword
line
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005209710A
Other languages
English (en)
Inventor
Kei Iwata
圭 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2005209710A priority Critical patent/JP2007026263A/ja
Publication of JP2007026263A publication Critical patent/JP2007026263A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】 文書画像から文字を読取り認識するための装置に関し、特に、定型文書に含まれた文字を効率良く読取るための文字認識装置を提供する事が本発明の一つの目的である。
【解決手段】 文字画像から行画像を抽出するための行抽出部66と、行抽出部66により抽出された行画像の各々に対し文字認識を行なうための文字認識部68と、文字認識部68に含まれ、文字認識部68による認識過程で得られる文字列が所定の条件を充足する事に応答して、その行の文字認識を中止する様に文字認識部68を制御するための認識制御部とを含む。
【選択図】 図2

Description

この発明は、文書画像から文字を読取り認識するための装置に関し、特に、定型文書に含まれた文字を効率良く読取るための文字認識装置及びコンピュータプログラムに関する。
近年、文書中の文字を電子的に認識して多量の文字を自動的に読込む文字認識装置が提供されている。文字認識装置は、例えばデータベースの構築等において利用されている。データベースを構築するという作業においては、読取るべきデータ量が膨大なものになり、その読取り処理に時間がかかる事がある。この事から、文字認識においてはその正確さのみならず、膨大な量のデータを効率よく処理する事の必要性も生じる。
この処理の効率性の要求に応じつつ文字認識をするための従来の技術としては、特許文献1に開示の以下のようなものがある。
図1を参照して、この文字認識システム30は、文書上に印刷された文字を含む文書画像をCCD(Charge Coupled Device)によって電子的に読取り、デジタル画像信号に変換する画像入力部40と、この文字認識で使用する割当て規則と単語辞書とを格納する格納部48と、デジタル画像信号に変換された画像データから文字の固まり領域である文字列矩形を生成する文字列生成部42と、生成された文字列矩形について格納部48に格納された割当て規則を参照し、文書を構成する項目のいずれに該当するかを判別し、項目ごとに該当する文字列矩形を割当てる文字列割当部44と、割当てられた項目ごとに格納部48に格納された、項目ごとに対応した単語辞書を参照し、単語辞書中の単語パタンと一致する単語の文字コードを出力する文字認識部46とを含む。
文字認識システム30では、画像入力部40によって文書画像の文字を読取りデジタル画像信号に変換する。そのデジタル画像信号に変換された画像データから文字列生成部42は文字画像間の相対位置や形状によって一つの文字の固まりを一つの矩形としてとらえ、文字列矩形を生成する。そして、その文字列矩形について文字列割当部44が、格納部48に格納された割当て規則を参照し、定型文書を構成する項目のいずれに各文字列矩形が該当するかを判定する。そして、文字列矩形がある項目に該当すると判定されると、その項目に、該当する文字列矩形を割当てて文字認識部46へ出力する。文字認識部46は、分類項目ごとに文字列矩形から個々の文字画像を抽出し、その特徴量パタンを計算して格納部48に格納されたその項目に対応する単語辞書の単語の特徴量パタンと比較し、特徴量パタンの一致する程度が最も高い単語の文字コードをテキストデータとして出力する。
この様に従来の技術では、各文字列矩形をその位置や形状から文書を形成する項目に割当て、分類項目ごとに対応した単語辞書を用いて、各項目ごとに文字列の文字画像の文字を認識する。この様な手法により、文書の端から順次文字画像を辞書の単語パタンと比較する構成に比べて、文字認識速度が極めて速くなる。しかも名刺等の様にそこに記載される項目があらかじめある程度定まっている定型文書においては、その項目で使用される単語で構成された単語辞書を用いる事が可能となり、この点からも文字認識効率がよくなる。
特開平5−20505
上記のような従来技術によると、文書中のすべての項目に記載された文字について文字認識を行なう。しかし、定型文書の読取りでも特定の部分の文字しか読取る必要がない場合がある。そうした場合でもすべての項目に対する文字認識が行なわれるので、必要でない部分の読取りにかかる時間が無駄になってしまう。
そこで、本発明では、名刺等の定型化された項目で構成される文書に対する文字認識において、必要な情報を高速に文字認識できる文字認識装置及び方法並びにコンピュータプログラムを提供する事を目的とする。
本発明の第1の局面に係る文字認識装置は、文字画像から行画像を抽出するための行抽出手段と、行抽出手段により抽出された行画像の各々に対し文字認識を行なうための文字認識手段と、文字認識手段による認識過程で得られる文字列が所定の条件を充足する事に応答して、その行の文字認識を中止する様に文字認識手段を制御するための認識制御手段とを含む。
この文字認識装置によると、ある行に含まれる文字列が所定の条件を充足すると認識制御手段によってその文字列を含む行中の文字の文字認識が中止される。文書画像に含まれるすべての文字を認識する必要がない。その結果、文字認識にかかる時間を短縮する事ができる。
好ましくは、この文字認識手段は、行画像中に含まれる文字を行頭から行末方向に文字認識するための手段を含む。
この文字認識装置によると、ある行に含まれる全ての文字列が所定の条件を充足するか否かを判定する必要がない。つまり、行頭から行末方向に文字認識する過程で所定の条件を充足する文字列が出現した時点で文字認識を中止できるので、認識制御にかかる時間を短縮する事ができる。
さらに好ましくは、この文字認識手段は、行画像中に含まれる文字を行頭から行末方向に一文字ずつ文字認識するための手段を含む。
この文字認識装置によると、ある行に含まれる全ての文字列が所定の条件を充足するか否かを判定する必要がない。つまり、行頭から行末方向に一文字ずつ文字認識するので、ある文字を認識した時点で所定の条件を充足する文字列が含まれているという事がわかり、文字認識をそこで中止できる。従って、認識制御にかかる時間を短縮する事ができ、文字認識の速度が上がる。
さらに好ましくは、この文字認識装置は、所定のキーワードを記憶するためのキーワード記憶手段をさらに含み、制御手段は、文字認識手段による認識過程で得られる文字列が、キーワード記憶手段に記憶されたキーワードのいずれかと一致する事に応答して、その行の文字認識を中止する様に文字認識手段を制御するための手段を含む。
この文字認識装置によると、記憶されたいずれかのキーワードと一致しさえすれば、その時点で文字認識を中止する事ができる。文字認識制御にかかる時間が短縮され、文字認識の速度が上がる。
さらに好ましくは、キーワード記憶手段は、各キーワードに対し、行内で当該キーワードを探索すべき範囲を指定する情報をさらに記憶し、認識制御手段は、文字認識手段による認識過程で得られる文字列が、キーワード記憶手段に記憶されたキーワードのいずれかと一致し、かつ、当該文字列が、当該キーワードを探索すべき範囲にある事に応答して、その行の文字認識を中止する様に文字認識手段を制御するための手段を含む。
この文字認識装置によると、行内でキーワードを探索すべき範囲を指定できる。そこでそれ以外の範囲を探索する必要がないので、キーワード探索にかかる時間を短縮する事ができ、文字認識の速度が上がる。
さらに好ましくは、このキーワードを探索すべき範囲を指定する情報は、対応するキーワードの文字数であり、文字認識手段を制御するための手段は、キーワード記憶手段から、文字認識手段による認識過程で得られる文字列の文字数と一致する数を探索すべき範囲を指定する情報として持つキーワードを検索するための手段と、検索するための手段により検索されたキーワードのいずれかと、認識過程で得られる文字列とが一致している事に応答して、その行の文字認識を中止する様に文字認識手段を制御するための登録手段を含む。
この文字認識装置によると、文字数によって探索すべき範囲が指定できる。そこで、その文字数に一致する範囲の中でキーワードに一致する文字があるか否かを探索するので、キーワード探索にかかる時間を短縮する事ができ、文字認識の速度が上がる。
さらに好ましくは、この文字認識装置は、ユーザの入力に応答して、所定のキーワードをキーワード記憶手段に記憶させるための手段をさらに含む。
この文字認識装置によると、ユーザによって所定のキーワードをキーワード記憶手段に記憶させる事ができるので、ユーザによって任意に文字認識するか否かを決定できる。つまり、文字認識手段を任意に制御する事ができる。
さらに好ましくは、この文字認識装置は、予め定められるキーワードの集合を記憶するためのキーワード集合記憶手段をさらに含み、記憶させるための手段は、キーワードの集合に含まれるキーワードを表示するための表示手段と、表示手段により表示されたキーワードのうち、文字認識すべき項目を指定する任意個数のキーワードをユーザに選択させるための選択手段と、キーワードの集合に含まれるキーワードのうち、選択手段により選択されたキーワード以外のキーワードをキーワード記憶手段に記憶させるための手段とを含む。
この文字認識装置によると、ユーザが表示されたキーワードから文字認識する事を望む項目を選択しさえすれば、そのキーワードを含む項目以外の項目を文字認識しない様にする事ができる。
さらに好ましくは、この文字認識装置は、予め定められるキーワードの集合を記憶するためのキーワード集合記憶手段をさらに含み、記憶させるための手段は、キーワードの集合に含まれるキーワードを表示するための表示手段と、表示手段により表示されたキーワードのうち、文字認識する事を望まない項目を指定する任意個数のキーワードをユーザに選択させるための選択手段と、キーワードの集合に含まれるキーワードのうち、選択手段により選択されたキーワードをキーワード記憶手段に記憶させるための手段とを含む。
この文字認識装置によると、ユーザが表示されたキーワードから文字認識する事を望まない項目を選択しさえすれば、その項目を文字認識しない様にする事ができる。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの文字認識装置として動作させるものである。従って上述した文字認識装置と同様の効果を得る事ができる。
本発明の第1の局面によれば、文字認識の際にある行に含まれる文字列が所定の条件を充足すると、その文字列を含む行中の文字の文字認識が中止される。その際に、ある行に含まれる全ての文字列について所定の条件を充足するか否かを判定する必要はない。つまり、行頭から行末方向に、例えば一文字ずつ文字認識するので、ある文字を認識した時点で所定の条件を充足する文字列が含まれているという事がわかり、文字認識をそこで中止できる。その結果、文字認識にかかる時間を短縮する事ができる。
また、この文字認識の際には、記憶されたいずれかのキーワードと一致しさえすれば、その時点で文字認識を中止する事ができる。その際には、行内でキーワードを探索すべき範囲を指定できるので、それ以外の範囲を探索する必要がない。探索の際には、文字数によって探索すべき範囲が指定できる。その文字数に一致する範囲の中でキーワードに一致する文字があるか否かを探索するので、キーワード探索にかかる時間を短縮でき、ひいては、認識する必要のない文字列を検出するのにかかる時間を短縮する事ができる。その結果、文字認識の速度が上がる。
さらに、認識する必要のない文字を検出するために使用するキーワードをユーザがキーワード記憶手段に記憶させる事ができるので、ユーザが任意に文字認識するか否かを決定する事ができる。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記した本発明の第1の局面の作用及び効果を実現できる。
以下、図面を参照し本発明の実施の形態を説明する。本実施の形態は、文書画像から文字を認識する装置に関するものである。
<構成>
図2に、本実施の形態に係る文字認識システムの機能ブロック図を示す。この実施の形態に係るシステムは、カメラの搭載された携帯情報端末を用いて、カメラでの撮像により名刺画像を入力して認識するものである。
図2を参照して、この文字認識システム50は、文書上に印刷された文字を含む文書画像をCCDによって電子的に読取り、デジタル画像信号に変換する画像入力部60と、デジタル画像信号として入力された画像データを記憶する画像メモリ62と、画像メモリ62に記憶された画像データから文字領域の矩形座標データを抽出し記憶する領域抽出部64と、領域抽出部64に記憶された文字領域の矩形座標データと画像メモリ62に記憶された画像データとを参照して、行の矩形座標データを抽出し記憶する行抽出部66と、行抽出部66に記憶された行の矩形座標データと画像メモリ62に記憶された画像データとを参照して、行抽出部66に記憶された行に含まれる文字を認識し、テキストデータとして出力する文字認識部68とを含む。
文字認識システム50はさらに、ユーザの入力により読取る必要のない項目を登録してその項目を記憶させる項目登録部70と、項目登録部70で登録した項目に基づいて、認識しない項目とその項目に対応するキーワード等とを記憶するキーワードメモリ72と、キーワードメモリ72によるキーワード等の記憶の際に参照されるキーワード集合メモリ74とを含む。
図3に、本実施の形態の文字認識部68の機能ブロック図を示す。
図3を参照して、文字認識部68は、文字認識の際に作業用メモリとして使用される文字認識メモリ94と、画像メモリ62に記憶された画像データと行抽出部66で抽出され記憶された行の矩形座標データとを参照して文字を切出す、すなわち、文字の矩形座標データを抽出して記憶するための文字切出し部90と、画像メモリ62に記憶された画像データと文字切出し部90で抽出され記憶された文字の矩形座標データとを参照して、その文字に相当する画像の特徴情報を抽出し、文字認識メモリ94に記憶させる特徴抽出部92と、文字の標準パタンの特徴情報を記憶するマッチング辞書98と、文字認識メモリ94に記憶された画像の特徴情報とマッチング辞書98に記憶された文字の標準パタンの特徴情報とのマッチングを行ない、文字候補を出力するためのマッチング部96とを含む。
文字認識部68はさらに、認識途中の文字列候補を記憶する作業用メモリとして使用される認識文字列メモリ102と、認識文字列メモリ102に記憶された認識文字列候補データに文字認識メモリ94に記憶された認識文字候補データの中から妥当なものを選択して組み合わせ、文字切出し部90で抽出され記憶された文字の矩形座標データと画像メモリ62で抽出され記憶された画像データとを参照して新しい認識文字列候補データを生成する文字列生成部100と、認識文字列メモリ102に記憶された認識文字列候補データと、キーワードメモリ72に記憶された認識対象外の項目データとを比較する事によりその項目が認識対象外か否かを判定し、認識対象外であるときに、マッチング部96による、処理中の行の文字認識を中止させる認識制御部104とを含む。
図4は、キーワード集合メモリ74のレコード例を示す図である。
図4を参照して、キーワード集合メモリ74の各レコードは、項目、キーワード、及び判定文字数の3つの属性を含む。項目属性は名刺に記載された項目内容の名称を表わす。キーワード属性は項目を識別する際にキーワードとなる文字列のパタンを表わす。判定文字数属性は行の先頭から何文字までにキーワード属性の文字列パタンが出現するか、すなわちキーワードを探索すべき範囲を表わす。例えば、レコードD1は「郵便番号」項目のレコードであり、キーワード属性として「〒」、判定文字属性として「1」が登録されている。これは、行頭つまり一文字目に文字列パタン「〒」が出現した場合、「郵便番号」項目である事を示している。また、レコードD3は「電話番号」項目のレコードであり、キーワード属性としては「TEL」、判定文字数属性として「3」が登録されている。これは行頭から3文字目までに「TEL」が出現した場合、「電話番号」項目であるという事を示している。この例では、「郵便番号」、「電話番号」等に相当するレコードとして、D1〜D5が具体的に挙げられている。
ユーザが読取る必要のある項目を入力する事によってその入力内容に応じて、各項目のうち読取る必要がない項目(登録された項目以外の項目)に関する全レコードがキーワードメモリ72に記憶される。
図5は、文字認識メモリ94に記憶された認識文字候補データの例を示す図である。
図5を参照して、認識文字候補データは、読取られたある文字に対応する複数の候補文字レコードを含む。例えば、文字画像M1に対応するであろうと考えられる候補文字レコードは4つある。これらのレコードは、それぞれ、文字とマッチングスコアとの2つの属性を含む。文字属性は、読取ったある文字画像、例えば文字画像M1、の形態から文字画像M1に対応すると考えられる文字の候補を示す。読取った文字画像がある文字に対応する可能性が高いと、その文字に対応するマッチングスコアが高くなる。この図では例えば、読取った文字画像M1は文字「F」、「r」、「ト」、及び「E」のいずれかに対応すると推定される。そして、そのうちで最もマッチングスコアの高い「F」に対応する可能性が最も高い。
図6は、認識文字列メモリ102に記憶された認識文字列候補データの例を示すものである。
図6を参照して、認識文字列候補データは、読取られたある文字列画像に対応する複数の候補文字列レコードを含む。例えば、文字列画像Q1に対応するであろうと考えられる候補文字列レコードは4つある。これらのレコードは、それぞれ、文字列と文字列スコアとの2つの属性を含む。文字列属性は、読取ったある文字列画像、例えば文字列画像Q2、の形態から文字列画像Q2に対応すると考えられる文字列の候補を示す。読取った文字列画像がある文字列に対応する可能性が高いと、その文字列に対応する文字列スコアが高くなる。この図では例えば、読取った文字列画像Q2は「FA」、「rA」、「FR」、「トA」・・・のいずれかに対応すると推定される。そして、そのうちで最も文字列スコアの高い「FA」に対応する可能性が最も高い。
図7に、この文字認識システムによって実現される文字認識処理の全体の流れをフローチャート形式で示す。この処理は、コンピュータハードウェア及びその上で実現されるプログラムにより実現できる。図7及び図8にそのプログラムの制御構造を示す。
図7を参照して、ステップ110では、ユーザからの入力を受けて、認識対象外である項目を登録する処理を行なう。ステップ112では、文字画像をCCDによって電子的に読取り、デジタル画像信号に変換する処理を行なう。
ステップ114では、読取られた画像中の文字の書かれている領域のうち、行頭から行末方向に向かって、順に、距離的にまとまりがありひと固まりであると判定できる領域を、文字領域として抽出する処理を行なう。この処理は、より具体的には文字領域の矩形座標データを記憶する処理である。
ステップ116では、文字領域の矩形座標データと画像メモリ62(図2参照)に記憶された画像データとを参照して、ステップ114で抽出された文字領域に含まれる行の中から行を一つずつ抽出する処理を行なう。この処理は、より具体的には、その行の矩形座標データを抽出し記憶する処理である。
ステップ118では、行の矩形座標データと画像メモリ62に記憶された画像データとを参照して文字の認識処理を行なう。この文字の認識処理の詳細については後述する。
ステップ120では、ステップ118で認識した行がステップ114で抽出された領域の最終行であるか否かを判定する。最終行でなければステップ116へ戻って次の行の処理を開始し、最終行であればステップ122へ進む。
ステップ122では、ステップ114で抽出された文字領域がステップ112で読取られた画像データの最終文字領域であるか否かを判定する。最終文字領域でなければステップ114へ戻って次の文字領域に対する処理を行ない、最終文字領域であれば処理を終了する。
図8に、図7のステップ118における文字認識処理の詳細をフローチャート形式で示す。
ステップ130では、画像メモリ62(図2参照)に記憶された画像データと行の矩形座標データとを参照して、複数の文字で構成されている行画像データから文字画像を切出す処理を行なう。この処理は、より具体的には、図7のステップ116で抽出された行の画像のうち行頭から行末方向に向かって順に、一文字を構成すると思われる領域の矩形座標データを抽出し記憶する処理である。
ステップ132では、画像メモリ62で記憶された画像データとステップ130で抽出され記憶された文字の矩形座標データとを参照して、その文字画像の特徴情報を抽出して文字認識メモリ94(図3参照)に記憶させる処理を行なう。
ステップ134では、文字認識メモリ94を参照して、マッチング辞書98(図3参照)に登録されている文字の標準パタンの特徴情報とステップ130で切出された文字の特徴情報とのマッチング処理を行なう。
ステップ136では、認識文字列メモリ102(図3参照)に記憶されている認識文字列候補データに文字認識メモリ94に記載されている認識文字候補データの中からスコアを参照して妥当なものを選択して組み合わせる事により、新しい認識文字列候補データを生成する処理を行なう。
ステップ138では、画像メモリ62に記憶された画像データ、図7のステップ116で抽出された行の矩形座標データ、及びステップ130で切出された文字画像の矩形座標データを参照して、ここまでの処理を行なってきた文字が図7のステップ116で抽出された行の最終文字であるかを判定する処理を行なう。文字が行の最終でなければステップ140へ進み、最終であればこの行の処理を終了し、ステップ142へ進む。
ステップ142では、ここまでの処理を行なってきた文字をテキスト出力する処理を行なう。
ステップ140では、キーワードメモリ72(図2参照)に記憶されている文字認識の必要のない項目のレコードを参照し、当該項目が認識対象外であるか否かを判定する処理を行なう。すなわち、まず、キーワードメモリ72に記憶されているレコードの中から、判定文字数属性の値が認識文字列候補データの第1候補の文字列の文字数と一致するレコードを取り出す。そして、第1候補の文字列に含まれた文字列と、取り出したレコードのキーワード属性の文字列との比較を行なう事によって、認識文字列候補データの第1候補の文字列に一致する文字列をキーワード属性に持つレコードがあるかどうかを判定する。判定の結果、そうしたレコードがあれば、その項目が認識対象外のものという事になり、この行のこれ以降の文字認識処理を中止し、そうしたレコードがなければステップ130へ戻る。すなわち、ここでは、第1候補内の文字列が、取り出されたレコード中のキーワード属性のいずれかと一致するか否かを判定する。
<動作>
この文字認識システムは以下の様に動作する。ここでは、名刺の読取りを例にとって説明する。
図2を参照してまず、名刺の読取りを行なう前に、ユーザは項目登録部70に読取りたい項目を入力する。
ユーザによって名刺項目中から読取りたい項目が選択され入力されると、項目登録部70は、それ以外の選択されていない項目をキーワードメモリ72に記憶させる。それとともに、キーワード集合メモリ74からその選択されていない項目の項目属性、キーワード属性、判定文字数属性を含むレコードを全て取得し、キーワードメモリ72に記憶させる。
その後、ユーザが携帯情報端末のカメラによって名刺画像を撮像する操作を行なうと、画像入力部60が名刺画像をCCDによって電子的に読取り、デジタル画像信号に変換する。画像信号に変換された画像データは画像メモリ62に記憶される。領域抽出部64は、記憶された画像データ中の文字の書かれている領域から、距離的にまとまりがありひと固まりであると判定できる1又は数個の領域を、それぞれ文字領域として抽出する。ここで、「文字領域として抽出する」とは、文字領域の矩形座標データの値を検出し、記憶する事である。その矩形座標データと画像メモリ62に記憶された画像データとを参照して、行抽出部66は複数の行で構成されている文字領域の画像データから行を一つずつ抽出する。ここで「行を抽出する」とは、対象となっている行の矩形座標データの値を検出し、記憶する事である。行の矩形座標データと画像メモリ62に記憶された画像データとを参照して、文字認識部68が文字認識を行なうが、その詳細は図3を用いて後述する。
文字認識が終了すると、認識された文字データがテキストデータとして出力される。
図3を参照して、文字認識ではまず、文字切出し部90は、行抽出部66によって記憶された行の矩形座標データと画像メモリ62に記憶された画像データとを参照して、複数の文字で構成されている行の画像データから、最初の文字画像を切出す。ここで「切出す」とは、文字画像の矩形座標データの値を検出し記憶する事である。
その記憶された文字画像の矩形座標データと画像メモリ62に記憶された画像データとを参照して、特徴抽出部92はその文字画像の特徴情報を抽出して文字認識メモリ94に記憶させる。
その文字認識メモリ94に記憶された文字画像の特徴情報とマッチング辞書98に登録されている文字の標準パタンの特徴情報とのマッチングがマッチング部96で行なわれる。マッチング部96はさらにこのマッチングにより似た特徴を持つ文字を抽出し、その文字の認識文字候補データとして、マッチングの度合いを表わすマッチングスコアとともに文字認識メモリ94に記憶させる。
文字列生成部100は認識文字列メモリ102に記憶されている認識文字列候補データに、文字認識メモリ94に記憶された認識文字候補データの中から妥当なものを選択して組み合わせる。そしてそれにより、新しい認識文字列候補データを生成し、その妥当性の度合いを表わす文字列スコアとともに認識文字列メモリ102に記憶させる。最初の文字の処理時点では、その文字が文字画像の先頭の文字であるため、認識文字列メモリ102には認識文字列候補データがまだ記憶されていない。そのため、その場合には最初の文字の認識文字列候補データを生成して、文字列スコアとともに認識文字列メモリ102に記憶させる。
文字列生成部100はまた、画像メモリ62に記憶された画像データ、行抽出部66に記憶された行の矩形座標データ、及び文字切出し部90に記憶された文字画像の矩形座標データを参照して、その文字が行の最終文字であるか否かを判定する。最終文字であれば、認識文字列メモリ102に記憶されている認識文字列候補データから、文字列スコアが最も高い文字列、すなわち第1候補の文字列を出力する。
最終文字でなければ、認識制御部104が、認識文字列メモリ102に記憶されている認識文字列候補データの第1候補の文字列と、キーワードメモリ72に記憶されているレコードとの項目マッチングを行なう。具体的には、まず、キーワードメモリ72に記憶されているレコードの中から、判定文字数属性の値が認識文字列候補データの第1候補の文字列の文字数と一致するレコードを取り出す。そして、第1候補の文字列に含まれたキーワードとなる文字列と、取り出したレコードのキーワード属性の文字列との比較を行なう事によって、認識文字列候補データの第1候補の文字列に一致する文字列をキーワード属性に持つレコードがあるかどうかを判定する。条件を満足するレコードがある場合は、現在認識中の行が認識対象外項目であると判断し、この行に対する処理を終了し、次の行に対する処理に移る。条件を満足するレコードがない場合は、次の文字の認識を行なう。
すべての文字の認識が終わると認識された文字がテキストデータとして出力される。
<動作の具体例>
この実施の形態に係る文字認識装置の動作の一具体例を以下に示す。
図9に文字認識装置の読取り対象例として名刺の一例を示す。
図9を参照して、この名刺は、会社名150、部署名152、氏名154、郵便番号156、住所158、電話番号160、及びFAX番号162等の項目から構成されている。これらの項目からユーザが読取る必要があると考える項目をユーザに選択させるために、項目のキーワードを表示するためのディスプレイとそのキーワードからユーザが選択するための操作キーとを含むユーザインターフェイスを使用する。
図10に項目登録部70のユーザインターフェイスの一例を示す。
図10を参照して、ディスプレイ170は項目のキーワードを表示するためのものであり、操作キー172は項目キーワードをユーザに選択させるためのものである。具体的には、名刺に記載された項目中からユーザが読取りたいと考える項目を選択するための画面をディスプレイ170に表示し、画面に表示された項目から読取りたい項目を操作キー172で選択する。ここでは、「会社名」、「電話番号」、及び「E−mailアドレス」が読取りたい項目として選択されている。
ここで、読取りたい項目として選択された「会社名」、「電話番号」、及び「E−mailアドレス」以外の項目である「郵便番号」、「住所」、及び「FAX番号」を項目登録部70がキーワードメモリ72(図2参照)に記憶させる。それとともに、キーワード集合メモリ74(図3参照)から「郵便番号」、「住所」、及び「FAX番号」項目に対応するレコードを全て取得し、キーワードメモリ72に記憶する。これらキーワードメモリ72に記憶された「郵便番号」、「住所」、及び「FAX番号」は文字認識部68での文字認識の際に認識の対象から外される。
図11に項目登録部70のユーザインターフェイスの他の一例を示す。
図11を参照して、ディスプレイ180は項目のキーワードを表示するためのものであり、操作キー182は項目キーワードをユーザに選択させるためのものである。具体的には、名刺に記載された項目中からユーザが読取る必要がないと考える項目を選択するための画面をディスプレイ180に表示し、画面に表示された項目から読取りたくない項目を操作キー182で選択する。ここでは、「郵便番号」、「住所」、及び「FAX番号」が読取りたくない項目として選択されている。
ここで、読取りたくない項目として選択された「郵便番号」、「住所」、及び「FAX番号」を項目登録部70がキーワードメモリ72(図2参照)に記憶させる。それとともに、キーワード集合メモリ74(図3参照)から「郵便番号」、「住所」、及び「FAX番号」項目に対応するレコードを全て取得し、キーワードメモリ72に記憶する。これらキーワードメモリ72に記憶された「郵便番号」、「住所」、及び「FAX番号」は文字認識部68での文字認識の際に認識の対象から外される。
以上の様に、本発明では、名刺の様な定型文書においてユーザが読取る必要がないと考えた項目が文字認識の対象から外される。すると、文字認識装置によって認識される文字の数が減少するので、従来技術の様に文書中のすべての文字を認識する方法に比べて、必要な項目を読取る速度を向上させる事ができる。
本発明に係る文字認識装置においては、画像読取りの際に必ずしもCCDを使用する必要はなく、他の何らかの電子的な読取り方法を使用する事もできる。また、ある項目が認識対象外項目であるか否かを判定する項目判定時に文字数とキーワードの両方を参照する必要はなく、例えばキーワードのみで項目判定を行なう事もできる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
従来技術による文字認識処理の装置の構成を示すブロック図である。 本発明の一実施の形態に係る文字認識装置の機能的ブロック図である。 本発明の一実施の形態の文字認識部の詳細を示す機能ブロック図である。 キーワード集合メモリのレコード例を示す図である。 文字認識メモリに記憶された認識文字候補データの例を示す図である。 認識文字列メモリに記憶された認識文字列候補データの例を示す図である。 文字認識処理全体を説明するためのフローチャートである。 文字認識部での文字認識処理を説明するためのフローチャートである。 文字認識装置の読取り対象としての名刺の一例を示す図である。 項目登録部のユーザインターフェイスの一例を示す図である。 項目登録部のユーザインターフェイスの他の一例を示す図である。
符号の説明
66 行抽出部、68 文字認識部、70 項目登録部、72 キーワードメモリ、74 キーワード集合メモリ、104 認識制御部、170 ディスプレイ、172 操作キー、180 ディスプレイ、182 操作キー

Claims (10)

  1. 文字画像から文字認識を行なう文字認識装置であって、
    文字画像から行画像を抽出するための行抽出手段と、
    前記行抽出手段により抽出された行画像の各々に対し文字認識を行なうための文字認識手段と、
    前記文字認識手段による認識過程で得られる文字列が所定の条件を充足する事に応答して、その行の文字認識を中止する様に前記文字認識手段を制御するための認識制御手段とを含む、文字認識装置。
  2. 前記文字認識手段は、前記行画像中に含まれる文字を行頭から行末方向に文字認識するための手段を含む、請求項1に記載の文字認識装置。
  3. 前記文字認識手段は、前記行画像中に含まれる文字を行頭から行末方向に一文字ずつ文字認識するための手段を含む請求項2に記載の文字認識装置。
  4. 所定のキーワードを記憶するためのキーワード記憶手段をさらに含み、
    前記認識制御手段は、前記文字認識手段による認識過程で得られる文字列が、前記キーワード記憶手段に記憶されたキーワードのいずれかと一致する事に応答して、その行の文字認識を中止する様に前記文字認識手段を制御するための手段を含む、請求項1〜請求項3のいずれかに記載の文字認識装置。
  5. 前記キーワード記憶手段は、各キーワードに対し、行内で当該キーワードを探索すべき範囲を指定する情報をさらに記憶し、
    前記認識制御手段は、前記文字認識手段による認識過程で得られる文字列が、前記キーワード記憶手段に記憶されたキーワードのいずれかと一致し、かつ、当該文字列が、当該キーワードを探索すべき範囲にある事に応答して、その行の文字認識を中止する様に前記文字認識手段を制御するための手段を含む、請求項4に記載の文字認識装置。
  6. 前記探索すべき範囲を指定する情報は、対応するキーワードの文字数であり、
    前記文字認識手段を制御するための手段は、
    前記キーワード記憶手段から、前記文字認識手段による認識過程で得られる文字列の文字数と一致する数を前記探索すべき範囲を指定する情報として持つキーワードを検索するための手段と、
    前記検索するための手段により検索されたキーワードのいずれかと、前記認識過程で得られる文字列とが一致している事に応答して、その行の文字認識を中止する様に前記文字認識手段を制御するための登録手段を含む、請求項5に記載の文字認識装置。
  7. ユーザの入力に応答して、前記所定のキーワードを前記キーワード記憶手段に記憶させるための手段をさらに含む、請求項5又は請求項6に記載の文字認識装置。
  8. 予め定められるキーワードの集合を記憶するためのキーワード集合記憶手段をさらに含み、
    前記記憶させるための手段は、
    前記キーワードの集合に含まれるキーワードを表示するための表示手段と、
    前記表示手段により表示されたキーワードのうち、文字認識すべき項目を指定する任意個数のキーワードをユーザに選択させるための選択手段と、
    前記キーワードの集合に含まれるキーワードのうち、前記選択手段により選択されたキーワード以外のキーワードを前記キーワード記憶手段に記憶させるための手段とを含む、請求項7に記載の文字認識装置。
  9. 予め定められるキーワードの集合を記憶するためのキーワード集合記憶手段をさらに含み、
    前記記憶させるための手段は、
    前記キーワードの集合に含まれるキーワードを表示するための表示手段と、
    前記表示手段により表示されたキーワードのうち、文字認識する事を望まない項目を指定する任意個数のキーワードをユーザに選択させるための選択手段と、
    前記キーワードの集合に含まれるキーワードのうち、前記選択手段により選択されたキーワードを前記キーワード記憶手段に記憶させるための手段とを含む、請求項7に記載の文字認識装置。
  10. コンピュータにより実行されると、当該コンピュータを請求項1〜請求項9のいずれかに記載の文字認識装置として動作させる、コンピュータプログラム。
JP2005209710A 2005-07-20 2005-07-20 文字認識装置及びコンピュータプログラム Pending JP2007026263A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005209710A JP2007026263A (ja) 2005-07-20 2005-07-20 文字認識装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005209710A JP2007026263A (ja) 2005-07-20 2005-07-20 文字認識装置及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2007026263A true JP2007026263A (ja) 2007-02-01

Family

ID=37786905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005209710A Pending JP2007026263A (ja) 2005-07-20 2005-07-20 文字認識装置及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2007026263A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018081578A (ja) * 2016-11-17 2018-05-24 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム
CN111539240A (zh) * 2019-01-22 2020-08-14 富士施乐株式会社 信息处理装置、储存介质及信息处理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018081578A (ja) * 2016-11-17 2018-05-24 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム
CN111539240A (zh) * 2019-01-22 2020-08-14 富士施乐株式会社 信息处理装置、储存介质及信息处理方法

Similar Documents

Publication Publication Date Title
JP4366108B2 (ja) 文書検索装置、文書検索方法及びコンピュータプログラム
JP6826293B2 (ja) 情報処理システムと、その処理方法及びプログラム
US20060045340A1 (en) Character recognition apparatus and character recognition method
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
EP2806336A1 (en) Text prediction in a text input associated with an image
KR102373884B1 (ko) 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법
JP4991407B2 (ja) 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法
JP2014139755A (ja) 表示制御装置及びプログラム
JP2002010196A (ja) 電子アルバム装置
KR100644016B1 (ko) 동영상 검색 시스템 및 방법
US20060210171A1 (en) Image processing apparatus
US20080154922A1 (en) Information processing apparatus and control method
CN113495874A (zh) 信息处理装置和计算机可读取介质
JP2007026263A (ja) 文字認識装置及びコンピュータプログラム
US20160283520A1 (en) Search device, search method, and computer program product
JP2005107931A (ja) 画像検索装置
JPH10254901A (ja) 画像検索方法および装置
JPWO2014170965A1 (ja) 文書処理方法、文書処理装置および文書処理プログラム
JP2002024761A (ja) 画像処理装置及び画像処理方法並びに記憶媒体
JP2001094711A (ja) ドキュメント画像処理装置及びドキュメント画像処理方法
JP6951529B2 (ja) 撮像装置の表示方法
JP2006134079A (ja) 画像処理装置及びプログラム
JP6165595B2 (ja) 帳票識別システム
JP4843705B2 (ja) 名刺読取装置
JP4054787B2 (ja) データ検索装置