JP2007026263A

JP2007026263A - 文字認識装置及びコンピュータプログラム

Info

Publication number: JP2007026263A
Application number: JP2005209710A
Authority: JP
Inventors: Kei Iwata; 圭岩田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2005-07-20
Filing date: 2005-07-20
Publication date: 2007-02-01

Abstract

【課題】文書画像から文字を読取り認識するための装置に関し、特に、定型文書に含まれた文字を効率良く読取るための文字認識装置を提供する事が本発明の一つの目的である。
【解決手段】文字画像から行画像を抽出するための行抽出部６６と、行抽出部６６により抽出された行画像の各々に対し文字認識を行なうための文字認識部６８と、文字認識部６８に含まれ、文字認識部６８による認識過程で得られる文字列が所定の条件を充足する事に応答して、その行の文字認識を中止する様に文字認識部６８を制御するための認識制御部とを含む。
【選択図】図２

Description

この発明は、文書画像から文字を読取り認識するための装置に関し、特に、定型文書に含まれた文字を効率良く読取るための文字認識装置及びコンピュータプログラムに関する。

近年、文書中の文字を電子的に認識して多量の文字を自動的に読込む文字認識装置が提供されている。文字認識装置は、例えばデータベースの構築等において利用されている。データベースを構築するという作業においては、読取るべきデータ量が膨大なものになり、その読取り処理に時間がかかる事がある。この事から、文字認識においてはその正確さのみならず、膨大な量のデータを効率よく処理する事の必要性も生じる。

この処理の効率性の要求に応じつつ文字認識をするための従来の技術としては、特許文献１に開示の以下のようなものがある。

図１を参照して、この文字認識システム３０は、文書上に印刷された文字を含む文書画像をＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）によって電子的に読取り、デジタル画像信号に変換する画像入力部４０と、この文字認識で使用する割当て規則と単語辞書とを格納する格納部４８と、デジタル画像信号に変換された画像データから文字の固まり領域である文字列矩形を生成する文字列生成部４２と、生成された文字列矩形について格納部４８に格納された割当て規則を参照し、文書を構成する項目のいずれに該当するかを判別し、項目ごとに該当する文字列矩形を割当てる文字列割当部４４と、割当てられた項目ごとに格納部４８に格納された、項目ごとに対応した単語辞書を参照し、単語辞書中の単語パタンと一致する単語の文字コードを出力する文字認識部４６とを含む。

文字認識システム３０では、画像入力部４０によって文書画像の文字を読取りデジタル画像信号に変換する。そのデジタル画像信号に変換された画像データから文字列生成部４２は文字画像間の相対位置や形状によって一つの文字の固まりを一つの矩形としてとらえ、文字列矩形を生成する。そして、その文字列矩形について文字列割当部４４が、格納部４８に格納された割当て規則を参照し、定型文書を構成する項目のいずれに各文字列矩形が該当するかを判定する。そして、文字列矩形がある項目に該当すると判定されると、その項目に、該当する文字列矩形を割当てて文字認識部４６へ出力する。文字認識部４６は、分類項目ごとに文字列矩形から個々の文字画像を抽出し、その特徴量パタンを計算して格納部４８に格納されたその項目に対応する単語辞書の単語の特徴量パタンと比較し、特徴量パタンの一致する程度が最も高い単語の文字コードをテキストデータとして出力する。

この様に従来の技術では、各文字列矩形をその位置や形状から文書を形成する項目に割当て、分類項目ごとに対応した単語辞書を用いて、各項目ごとに文字列の文字画像の文字を認識する。この様な手法により、文書の端から順次文字画像を辞書の単語パタンと比較する構成に比べて、文字認識速度が極めて速くなる。しかも名刺等の様にそこに記載される項目があらかじめある程度定まっている定型文書においては、その項目で使用される単語で構成された単語辞書を用いる事が可能となり、この点からも文字認識効率がよくなる。
特開平５−２０５０５

上記のような従来技術によると、文書中のすべての項目に記載された文字について文字認識を行なう。しかし、定型文書の読取りでも特定の部分の文字しか読取る必要がない場合がある。そうした場合でもすべての項目に対する文字認識が行なわれるので、必要でない部分の読取りにかかる時間が無駄になってしまう。

そこで、本発明では、名刺等の定型化された項目で構成される文書に対する文字認識において、必要な情報を高速に文字認識できる文字認識装置及び方法並びにコンピュータプログラムを提供する事を目的とする。

本発明の第１の局面に係る文字認識装置は、文字画像から行画像を抽出するための行抽出手段と、行抽出手段により抽出された行画像の各々に対し文字認識を行なうための文字認識手段と、文字認識手段による認識過程で得られる文字列が所定の条件を充足する事に応答して、その行の文字認識を中止する様に文字認識手段を制御するための認識制御手段とを含む。

この文字認識装置によると、ある行に含まれる文字列が所定の条件を充足すると認識制御手段によってその文字列を含む行中の文字の文字認識が中止される。文書画像に含まれるすべての文字を認識する必要がない。その結果、文字認識にかかる時間を短縮する事ができる。

好ましくは、この文字認識手段は、行画像中に含まれる文字を行頭から行末方向に文字認識するための手段を含む。

この文字認識装置によると、ある行に含まれる全ての文字列が所定の条件を充足するか否かを判定する必要がない。つまり、行頭から行末方向に文字認識する過程で所定の条件を充足する文字列が出現した時点で文字認識を中止できるので、認識制御にかかる時間を短縮する事ができる。

さらに好ましくは、この文字認識手段は、行画像中に含まれる文字を行頭から行末方向に一文字ずつ文字認識するための手段を含む。

この文字認識装置によると、ある行に含まれる全ての文字列が所定の条件を充足するか否かを判定する必要がない。つまり、行頭から行末方向に一文字ずつ文字認識するので、ある文字を認識した時点で所定の条件を充足する文字列が含まれているという事がわかり、文字認識をそこで中止できる。従って、認識制御にかかる時間を短縮する事ができ、文字認識の速度が上がる。

さらに好ましくは、この文字認識装置は、所定のキーワードを記憶するためのキーワード記憶手段をさらに含み、制御手段は、文字認識手段による認識過程で得られる文字列が、キーワード記憶手段に記憶されたキーワードのいずれかと一致する事に応答して、その行の文字認識を中止する様に文字認識手段を制御するための手段を含む。

この文字認識装置によると、記憶されたいずれかのキーワードと一致しさえすれば、その時点で文字認識を中止する事ができる。文字認識制御にかかる時間が短縮され、文字認識の速度が上がる。

さらに好ましくは、キーワード記憶手段は、各キーワードに対し、行内で当該キーワードを探索すべき範囲を指定する情報をさらに記憶し、認識制御手段は、文字認識手段による認識過程で得られる文字列が、キーワード記憶手段に記憶されたキーワードのいずれかと一致し、かつ、当該文字列が、当該キーワードを探索すべき範囲にある事に応答して、その行の文字認識を中止する様に文字認識手段を制御するための手段を含む。

この文字認識装置によると、行内でキーワードを探索すべき範囲を指定できる。そこでそれ以外の範囲を探索する必要がないので、キーワード探索にかかる時間を短縮する事ができ、文字認識の速度が上がる。

さらに好ましくは、このキーワードを探索すべき範囲を指定する情報は、対応するキーワードの文字数であり、文字認識手段を制御するための手段は、キーワード記憶手段から、文字認識手段による認識過程で得られる文字列の文字数と一致する数を探索すべき範囲を指定する情報として持つキーワードを検索するための手段と、検索するための手段により検索されたキーワードのいずれかと、認識過程で得られる文字列とが一致している事に応答して、その行の文字認識を中止する様に文字認識手段を制御するための登録手段を含む。

この文字認識装置によると、文字数によって探索すべき範囲が指定できる。そこで、その文字数に一致する範囲の中でキーワードに一致する文字があるか否かを探索するので、キーワード探索にかかる時間を短縮する事ができ、文字認識の速度が上がる。

さらに好ましくは、この文字認識装置は、ユーザの入力に応答して、所定のキーワードをキーワード記憶手段に記憶させるための手段をさらに含む。

この文字認識装置によると、ユーザによって所定のキーワードをキーワード記憶手段に記憶させる事ができるので、ユーザによって任意に文字認識するか否かを決定できる。つまり、文字認識手段を任意に制御する事ができる。

さらに好ましくは、この文字認識装置は、予め定められるキーワードの集合を記憶するためのキーワード集合記憶手段をさらに含み、記憶させるための手段は、キーワードの集合に含まれるキーワードを表示するための表示手段と、表示手段により表示されたキーワードのうち、文字認識すべき項目を指定する任意個数のキーワードをユーザに選択させるための選択手段と、キーワードの集合に含まれるキーワードのうち、選択手段により選択されたキーワード以外のキーワードをキーワード記憶手段に記憶させるための手段とを含む。

この文字認識装置によると、ユーザが表示されたキーワードから文字認識する事を望む項目を選択しさえすれば、そのキーワードを含む項目以外の項目を文字認識しない様にする事ができる。

さらに好ましくは、この文字認識装置は、予め定められるキーワードの集合を記憶するためのキーワード集合記憶手段をさらに含み、記憶させるための手段は、キーワードの集合に含まれるキーワードを表示するための表示手段と、表示手段により表示されたキーワードのうち、文字認識する事を望まない項目を指定する任意個数のキーワードをユーザに選択させるための選択手段と、キーワードの集合に含まれるキーワードのうち、選択手段により選択されたキーワードをキーワード記憶手段に記憶させるための手段とを含む。

この文字認識装置によると、ユーザが表示されたキーワードから文字認識する事を望まない項目を選択しさえすれば、その項目を文字認識しない様にする事ができる。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの文字認識装置として動作させるものである。従って上述した文字認識装置と同様の効果を得る事ができる。

本発明の第１の局面によれば、文字認識の際にある行に含まれる文字列が所定の条件を充足すると、その文字列を含む行中の文字の文字認識が中止される。その際に、ある行に含まれる全ての文字列について所定の条件を充足するか否かを判定する必要はない。つまり、行頭から行末方向に、例えば一文字ずつ文字認識するので、ある文字を認識した時点で所定の条件を充足する文字列が含まれているという事がわかり、文字認識をそこで中止できる。その結果、文字認識にかかる時間を短縮する事ができる。

また、この文字認識の際には、記憶されたいずれかのキーワードと一致しさえすれば、その時点で文字認識を中止する事ができる。その際には、行内でキーワードを探索すべき範囲を指定できるので、それ以外の範囲を探索する必要がない。探索の際には、文字数によって探索すべき範囲が指定できる。その文字数に一致する範囲の中でキーワードに一致する文字があるか否かを探索するので、キーワード探索にかかる時間を短縮でき、ひいては、認識する必要のない文字列を検出するのにかかる時間を短縮する事ができる。その結果、文字認識の速度が上がる。

さらに、認識する必要のない文字を検出するために使用するキーワードをユーザがキーワード記憶手段に記憶させる事ができるので、ユーザが任意に文字認識するか否かを決定する事ができる。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記した本発明の第１の局面の作用及び効果を実現できる。

以下、図面を参照し本発明の実施の形態を説明する。本実施の形態は、文書画像から文字を認識する装置に関するものである。

＜構成＞
図２に、本実施の形態に係る文字認識システムの機能ブロック図を示す。この実施の形態に係るシステムは、カメラの搭載された携帯情報端末を用いて、カメラでの撮像により名刺画像を入力して認識するものである。

図２を参照して、この文字認識システム５０は、文書上に印刷された文字を含む文書画像をＣＣＤによって電子的に読取り、デジタル画像信号に変換する画像入力部６０と、デジタル画像信号として入力された画像データを記憶する画像メモリ６２と、画像メモリ６２に記憶された画像データから文字領域の矩形座標データを抽出し記憶する領域抽出部６４と、領域抽出部６４に記憶された文字領域の矩形座標データと画像メモリ６２に記憶された画像データとを参照して、行の矩形座標データを抽出し記憶する行抽出部６６と、行抽出部６６に記憶された行の矩形座標データと画像メモリ６２に記憶された画像データとを参照して、行抽出部６６に記憶された行に含まれる文字を認識し、テキストデータとして出力する文字認識部６８とを含む。

文字認識システム５０はさらに、ユーザの入力により読取る必要のない項目を登録してその項目を記憶させる項目登録部７０と、項目登録部７０で登録した項目に基づいて、認識しない項目とその項目に対応するキーワード等とを記憶するキーワードメモリ７２と、キーワードメモリ７２によるキーワード等の記憶の際に参照されるキーワード集合メモリ７４とを含む。

図３に、本実施の形態の文字認識部６８の機能ブロック図を示す。

図３を参照して、文字認識部６８は、文字認識の際に作業用メモリとして使用される文字認識メモリ９４と、画像メモリ６２に記憶された画像データと行抽出部６６で抽出され記憶された行の矩形座標データとを参照して文字を切出す、すなわち、文字の矩形座標データを抽出して記憶するための文字切出し部９０と、画像メモリ６２に記憶された画像データと文字切出し部９０で抽出され記憶された文字の矩形座標データとを参照して、その文字に相当する画像の特徴情報を抽出し、文字認識メモリ９４に記憶させる特徴抽出部９２と、文字の標準パタンの特徴情報を記憶するマッチング辞書９８と、文字認識メモリ９４に記憶された画像の特徴情報とマッチング辞書９８に記憶された文字の標準パタンの特徴情報とのマッチングを行ない、文字候補を出力するためのマッチング部９６とを含む。

文字認識部６８はさらに、認識途中の文字列候補を記憶する作業用メモリとして使用される認識文字列メモリ１０２と、認識文字列メモリ１０２に記憶された認識文字列候補データに文字認識メモリ９４に記憶された認識文字候補データの中から妥当なものを選択して組み合わせ、文字切出し部９０で抽出され記憶された文字の矩形座標データと画像メモリ６２で抽出され記憶された画像データとを参照して新しい認識文字列候補データを生成する文字列生成部１００と、認識文字列メモリ１０２に記憶された認識文字列候補データと、キーワードメモリ７２に記憶された認識対象外の項目データとを比較する事によりその項目が認識対象外か否かを判定し、認識対象外であるときに、マッチング部９６による、処理中の行の文字認識を中止させる認識制御部１０４とを含む。

図４は、キーワード集合メモリ７４のレコード例を示す図である。

図４を参照して、キーワード集合メモリ７４の各レコードは、項目、キーワード、及び判定文字数の３つの属性を含む。項目属性は名刺に記載された項目内容の名称を表わす。キーワード属性は項目を識別する際にキーワードとなる文字列のパタンを表わす。判定文字数属性は行の先頭から何文字までにキーワード属性の文字列パタンが出現するか、すなわちキーワードを探索すべき範囲を表わす。例えば、レコードＤ１は「郵便番号」項目のレコードであり、キーワード属性として「〒」、判定文字属性として「１」が登録されている。これは、行頭つまり一文字目に文字列パタン「〒」が出現した場合、「郵便番号」項目である事を示している。また、レコードＤ３は「電話番号」項目のレコードであり、キーワード属性としては「ＴＥＬ」、判定文字数属性として「３」が登録されている。これは行頭から３文字目までに「ＴＥＬ」が出現した場合、「電話番号」項目であるという事を示している。この例では、「郵便番号」、「電話番号」等に相当するレコードとして、Ｄ１〜Ｄ５が具体的に挙げられている。

ユーザが読取る必要のある項目を入力する事によってその入力内容に応じて、各項目のうち読取る必要がない項目（登録された項目以外の項目）に関する全レコードがキーワードメモリ７２に記憶される。

図５は、文字認識メモリ９４に記憶された認識文字候補データの例を示す図である。

図５を参照して、認識文字候補データは、読取られたある文字に対応する複数の候補文字レコードを含む。例えば、文字画像Ｍ１に対応するであろうと考えられる候補文字レコードは４つある。これらのレコードは、それぞれ、文字とマッチングスコアとの２つの属性を含む。文字属性は、読取ったある文字画像、例えば文字画像Ｍ１、の形態から文字画像Ｍ１に対応すると考えられる文字の候補を示す。読取った文字画像がある文字に対応する可能性が高いと、その文字に対応するマッチングスコアが高くなる。この図では例えば、読取った文字画像Ｍ１は文字「Ｆ」、「ｒ」、「ト」、及び「Ｅ」のいずれかに対応すると推定される。そして、そのうちで最もマッチングスコアの高い「Ｆ」に対応する可能性が最も高い。

図６は、認識文字列メモリ１０２に記憶された認識文字列候補データの例を示すものである。

図６を参照して、認識文字列候補データは、読取られたある文字列画像に対応する複数の候補文字列レコードを含む。例えば、文字列画像Ｑ１に対応するであろうと考えられる候補文字列レコードは４つある。これらのレコードは、それぞれ、文字列と文字列スコアとの２つの属性を含む。文字列属性は、読取ったある文字列画像、例えば文字列画像Ｑ２、の形態から文字列画像Ｑ２に対応すると考えられる文字列の候補を示す。読取った文字列画像がある文字列に対応する可能性が高いと、その文字列に対応する文字列スコアが高くなる。この図では例えば、読取った文字列画像Ｑ２は「ＦＡ」、「ｒＡ」、「ＦＲ」、「トＡ」・・・のいずれかに対応すると推定される。そして、そのうちで最も文字列スコアの高い「ＦＡ」に対応する可能性が最も高い。

図７に、この文字認識システムによって実現される文字認識処理の全体の流れをフローチャート形式で示す。この処理は、コンピュータハードウェア及びその上で実現されるプログラムにより実現できる。図７及び図８にそのプログラムの制御構造を示す。

図７を参照して、ステップ１１０では、ユーザからの入力を受けて、認識対象外である項目を登録する処理を行なう。ステップ１１２では、文字画像をＣＣＤによって電子的に読取り、デジタル画像信号に変換する処理を行なう。

ステップ１１４では、読取られた画像中の文字の書かれている領域のうち、行頭から行末方向に向かって、順に、距離的にまとまりがありひと固まりであると判定できる領域を、文字領域として抽出する処理を行なう。この処理は、より具体的には文字領域の矩形座標データを記憶する処理である。

ステップ１１６では、文字領域の矩形座標データと画像メモリ６２（図２参照）に記憶された画像データとを参照して、ステップ１１４で抽出された文字領域に含まれる行の中から行を一つずつ抽出する処理を行なう。この処理は、より具体的には、その行の矩形座標データを抽出し記憶する処理である。

ステップ１１８では、行の矩形座標データと画像メモリ６２に記憶された画像データとを参照して文字の認識処理を行なう。この文字の認識処理の詳細については後述する。

ステップ１２０では、ステップ１１８で認識した行がステップ１１４で抽出された領域の最終行であるか否かを判定する。最終行でなければステップ１１６へ戻って次の行の処理を開始し、最終行であればステップ１２２へ進む。

ステップ１２２では、ステップ１１４で抽出された文字領域がステップ１１２で読取られた画像データの最終文字領域であるか否かを判定する。最終文字領域でなければステップ１１４へ戻って次の文字領域に対する処理を行ない、最終文字領域であれば処理を終了する。

図８に、図７のステップ１１８における文字認識処理の詳細をフローチャート形式で示す。

ステップ１３０では、画像メモリ６２（図２参照）に記憶された画像データと行の矩形座標データとを参照して、複数の文字で構成されている行画像データから文字画像を切出す処理を行なう。この処理は、より具体的には、図７のステップ１１６で抽出された行の画像のうち行頭から行末方向に向かって順に、一文字を構成すると思われる領域の矩形座標データを抽出し記憶する処理である。

ステップ１３２では、画像メモリ６２で記憶された画像データとステップ１３０で抽出され記憶された文字の矩形座標データとを参照して、その文字画像の特徴情報を抽出して文字認識メモリ９４（図３参照）に記憶させる処理を行なう。

ステップ１３４では、文字認識メモリ９４を参照して、マッチング辞書９８（図３参照）に登録されている文字の標準パタンの特徴情報とステップ１３０で切出された文字の特徴情報とのマッチング処理を行なう。

ステップ１３６では、認識文字列メモリ１０２（図３参照）に記憶されている認識文字列候補データに文字認識メモリ９４に記載されている認識文字候補データの中からスコアを参照して妥当なものを選択して組み合わせる事により、新しい認識文字列候補データを生成する処理を行なう。

ステップ１３８では、画像メモリ６２に記憶された画像データ、図７のステップ１１６で抽出された行の矩形座標データ、及びステップ１３０で切出された文字画像の矩形座標データを参照して、ここまでの処理を行なってきた文字が図７のステップ１１６で抽出された行の最終文字であるかを判定する処理を行なう。文字が行の最終でなければステップ１４０へ進み、最終であればこの行の処理を終了し、ステップ１４２へ進む。

ステップ１４２では、ここまでの処理を行なってきた文字をテキスト出力する処理を行なう。

ステップ１４０では、キーワードメモリ７２（図２参照）に記憶されている文字認識の必要のない項目のレコードを参照し、当該項目が認識対象外であるか否かを判定する処理を行なう。すなわち、まず、キーワードメモリ７２に記憶されているレコードの中から、判定文字数属性の値が認識文字列候補データの第１候補の文字列の文字数と一致するレコードを取り出す。そして、第１候補の文字列に含まれた文字列と、取り出したレコードのキーワード属性の文字列との比較を行なう事によって、認識文字列候補データの第１候補の文字列に一致する文字列をキーワード属性に持つレコードがあるかどうかを判定する。判定の結果、そうしたレコードがあれば、その項目が認識対象外のものという事になり、この行のこれ以降の文字認識処理を中止し、そうしたレコードがなければステップ１３０へ戻る。すなわち、ここでは、第１候補内の文字列が、取り出されたレコード中のキーワード属性のいずれかと一致するか否かを判定する。

＜動作＞
この文字認識システムは以下の様に動作する。ここでは、名刺の読取りを例にとって説明する。

図２を参照してまず、名刺の読取りを行なう前に、ユーザは項目登録部７０に読取りたい項目を入力する。

ユーザによって名刺項目中から読取りたい項目が選択され入力されると、項目登録部７０は、それ以外の選択されていない項目をキーワードメモリ７２に記憶させる。それとともに、キーワード集合メモリ７４からその選択されていない項目の項目属性、キーワード属性、判定文字数属性を含むレコードを全て取得し、キーワードメモリ７２に記憶させる。

その後、ユーザが携帯情報端末のカメラによって名刺画像を撮像する操作を行なうと、画像入力部６０が名刺画像をＣＣＤによって電子的に読取り、デジタル画像信号に変換する。画像信号に変換された画像データは画像メモリ６２に記憶される。領域抽出部６４は、記憶された画像データ中の文字の書かれている領域から、距離的にまとまりがありひと固まりであると判定できる１又は数個の領域を、それぞれ文字領域として抽出する。ここで、「文字領域として抽出する」とは、文字領域の矩形座標データの値を検出し、記憶する事である。その矩形座標データと画像メモリ６２に記憶された画像データとを参照して、行抽出部６６は複数の行で構成されている文字領域の画像データから行を一つずつ抽出する。ここで「行を抽出する」とは、対象となっている行の矩形座標データの値を検出し、記憶する事である。行の矩形座標データと画像メモリ６２に記憶された画像データとを参照して、文字認識部６８が文字認識を行なうが、その詳細は図３を用いて後述する。

文字認識が終了すると、認識された文字データがテキストデータとして出力される。

図３を参照して、文字認識ではまず、文字切出し部９０は、行抽出部６６によって記憶された行の矩形座標データと画像メモリ６２に記憶された画像データとを参照して、複数の文字で構成されている行の画像データから、最初の文字画像を切出す。ここで「切出す」とは、文字画像の矩形座標データの値を検出し記憶する事である。

その記憶された文字画像の矩形座標データと画像メモリ６２に記憶された画像データとを参照して、特徴抽出部９２はその文字画像の特徴情報を抽出して文字認識メモリ９４に記憶させる。

その文字認識メモリ９４に記憶された文字画像の特徴情報とマッチング辞書９８に登録されている文字の標準パタンの特徴情報とのマッチングがマッチング部９６で行なわれる。マッチング部９６はさらにこのマッチングにより似た特徴を持つ文字を抽出し、その文字の認識文字候補データとして、マッチングの度合いを表わすマッチングスコアとともに文字認識メモリ９４に記憶させる。

文字列生成部１００は認識文字列メモリ１０２に記憶されている認識文字列候補データに、文字認識メモリ９４に記憶された認識文字候補データの中から妥当なものを選択して組み合わせる。そしてそれにより、新しい認識文字列候補データを生成し、その妥当性の度合いを表わす文字列スコアとともに認識文字列メモリ１０２に記憶させる。最初の文字の処理時点では、その文字が文字画像の先頭の文字であるため、認識文字列メモリ１０２には認識文字列候補データがまだ記憶されていない。そのため、その場合には最初の文字の認識文字列候補データを生成して、文字列スコアとともに認識文字列メモリ１０２に記憶させる。

文字列生成部１００はまた、画像メモリ６２に記憶された画像データ、行抽出部６６に記憶された行の矩形座標データ、及び文字切出し部９０に記憶された文字画像の矩形座標データを参照して、その文字が行の最終文字であるか否かを判定する。最終文字であれば、認識文字列メモリ１０２に記憶されている認識文字列候補データから、文字列スコアが最も高い文字列、すなわち第１候補の文字列を出力する。

最終文字でなければ、認識制御部１０４が、認識文字列メモリ１０２に記憶されている認識文字列候補データの第１候補の文字列と、キーワードメモリ７２に記憶されているレコードとの項目マッチングを行なう。具体的には、まず、キーワードメモリ７２に記憶されているレコードの中から、判定文字数属性の値が認識文字列候補データの第１候補の文字列の文字数と一致するレコードを取り出す。そして、第１候補の文字列に含まれたキーワードとなる文字列と、取り出したレコードのキーワード属性の文字列との比較を行なう事によって、認識文字列候補データの第１候補の文字列に一致する文字列をキーワード属性に持つレコードがあるかどうかを判定する。条件を満足するレコードがある場合は、現在認識中の行が認識対象外項目であると判断し、この行に対する処理を終了し、次の行に対する処理に移る。条件を満足するレコードがない場合は、次の文字の認識を行なう。

すべての文字の認識が終わると認識された文字がテキストデータとして出力される。

＜動作の具体例＞
この実施の形態に係る文字認識装置の動作の一具体例を以下に示す。

図９に文字認識装置の読取り対象例として名刺の一例を示す。

図９を参照して、この名刺は、会社名１５０、部署名１５２、氏名１５４、郵便番号１５６、住所１５８、電話番号１６０、及びＦＡＸ番号１６２等の項目から構成されている。これらの項目からユーザが読取る必要があると考える項目をユーザに選択させるために、項目のキーワードを表示するためのディスプレイとそのキーワードからユーザが選択するための操作キーとを含むユーザインターフェイスを使用する。

図１０に項目登録部７０のユーザインターフェイスの一例を示す。

図１０を参照して、ディスプレイ１７０は項目のキーワードを表示するためのものであり、操作キー１７２は項目キーワードをユーザに選択させるためのものである。具体的には、名刺に記載された項目中からユーザが読取りたいと考える項目を選択するための画面をディスプレイ１７０に表示し、画面に表示された項目から読取りたい項目を操作キー１７２で選択する。ここでは、「会社名」、「電話番号」、及び「Ｅ−ｍａｉｌアドレス」が読取りたい項目として選択されている。

ここで、読取りたい項目として選択された「会社名」、「電話番号」、及び「Ｅ−ｍａｉｌアドレス」以外の項目である「郵便番号」、「住所」、及び「ＦＡＸ番号」を項目登録部７０がキーワードメモリ７２（図２参照）に記憶させる。それとともに、キーワード集合メモリ７４（図３参照）から「郵便番号」、「住所」、及び「ＦＡＸ番号」項目に対応するレコードを全て取得し、キーワードメモリ７２に記憶する。これらキーワードメモリ７２に記憶された「郵便番号」、「住所」、及び「ＦＡＸ番号」は文字認識部６８での文字認識の際に認識の対象から外される。

図１１に項目登録部７０のユーザインターフェイスの他の一例を示す。

図１１を参照して、ディスプレイ１８０は項目のキーワードを表示するためのものであり、操作キー１８２は項目キーワードをユーザに選択させるためのものである。具体的には、名刺に記載された項目中からユーザが読取る必要がないと考える項目を選択するための画面をディスプレイ１８０に表示し、画面に表示された項目から読取りたくない項目を操作キー１８２で選択する。ここでは、「郵便番号」、「住所」、及び「ＦＡＸ番号」が読取りたくない項目として選択されている。

ここで、読取りたくない項目として選択された「郵便番号」、「住所」、及び「ＦＡＸ番号」を項目登録部７０がキーワードメモリ７２（図２参照）に記憶させる。それとともに、キーワード集合メモリ７４（図３参照）から「郵便番号」、「住所」、及び「ＦＡＸ番号」項目に対応するレコードを全て取得し、キーワードメモリ７２に記憶する。これらキーワードメモリ７２に記憶された「郵便番号」、「住所」、及び「ＦＡＸ番号」は文字認識部６８での文字認識の際に認識の対象から外される。

以上の様に、本発明では、名刺の様な定型文書においてユーザが読取る必要がないと考えた項目が文字認識の対象から外される。すると、文字認識装置によって認識される文字の数が減少するので、従来技術の様に文書中のすべての文字を認識する方法に比べて、必要な項目を読取る速度を向上させる事ができる。

本発明に係る文字認識装置においては、画像読取りの際に必ずしもＣＣＤを使用する必要はなく、他の何らかの電子的な読取り方法を使用する事もできる。また、ある項目が認識対象外項目であるか否かを判定する項目判定時に文字数とキーワードの両方を参照する必要はなく、例えばキーワードのみで項目判定を行なう事もできる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。

従来技術による文字認識処理の装置の構成を示すブロック図である。本発明の一実施の形態に係る文字認識装置の機能的ブロック図である。本発明の一実施の形態の文字認識部の詳細を示す機能ブロック図である。キーワード集合メモリのレコード例を示す図である。文字認識メモリに記憶された認識文字候補データの例を示す図である。認識文字列メモリに記憶された認識文字列候補データの例を示す図である。文字認識処理全体を説明するためのフローチャートである。文字認識部での文字認識処理を説明するためのフローチャートである。文字認識装置の読取り対象としての名刺の一例を示す図である。項目登録部のユーザインターフェイスの一例を示す図である。項目登録部のユーザインターフェイスの他の一例を示す図である。

符号の説明

６６行抽出部、６８文字認識部、７０項目登録部、７２キーワードメモリ、７４キーワード集合メモリ、１０４認識制御部、１７０ディスプレイ、１７２操作キー、１８０ディスプレイ、１８２操作キー

Claims

文字画像から文字認識を行なう文字認識装置であって、
文字画像から行画像を抽出するための行抽出手段と、
前記行抽出手段により抽出された行画像の各々に対し文字認識を行なうための文字認識手段と、
前記文字認識手段による認識過程で得られる文字列が所定の条件を充足する事に応答して、その行の文字認識を中止する様に前記文字認識手段を制御するための認識制御手段とを含む、文字認識装置。
前記文字認識手段は、前記行画像中に含まれる文字を行頭から行末方向に文字認識するための手段を含む、請求項１に記載の文字認識装置。
前記文字認識手段は、前記行画像中に含まれる文字を行頭から行末方向に一文字ずつ文字認識するための手段を含む請求項２に記載の文字認識装置。
所定のキーワードを記憶するためのキーワード記憶手段をさらに含み、
前記認識制御手段は、前記文字認識手段による認識過程で得られる文字列が、前記キーワード記憶手段に記憶されたキーワードのいずれかと一致する事に応答して、その行の文字認識を中止する様に前記文字認識手段を制御するための手段を含む、請求項１〜請求項３のいずれかに記載の文字認識装置。
前記キーワード記憶手段は、各キーワードに対し、行内で当該キーワードを探索すべき範囲を指定する情報をさらに記憶し、
前記認識制御手段は、前記文字認識手段による認識過程で得られる文字列が、前記キーワード記憶手段に記憶されたキーワードのいずれかと一致し、かつ、当該文字列が、当該キーワードを探索すべき範囲にある事に応答して、その行の文字認識を中止する様に前記文字認識手段を制御するための手段を含む、請求項４に記載の文字認識装置。
前記探索すべき範囲を指定する情報は、対応するキーワードの文字数であり、
前記文字認識手段を制御するための手段は、
前記キーワード記憶手段から、前記文字認識手段による認識過程で得られる文字列の文字数と一致する数を前記探索すべき範囲を指定する情報として持つキーワードを検索するための手段と、
前記検索するための手段により検索されたキーワードのいずれかと、前記認識過程で得られる文字列とが一致している事に応答して、その行の文字認識を中止する様に前記文字認識手段を制御するための登録手段を含む、請求項５に記載の文字認識装置。
ユーザの入力に応答して、前記所定のキーワードを前記キーワード記憶手段に記憶させるための手段をさらに含む、請求項５又は請求項６に記載の文字認識装置。
予め定められるキーワードの集合を記憶するためのキーワード集合記憶手段をさらに含み、
前記記憶させるための手段は、
前記キーワードの集合に含まれるキーワードを表示するための表示手段と、
前記表示手段により表示されたキーワードのうち、文字認識すべき項目を指定する任意個数のキーワードをユーザに選択させるための選択手段と、
前記キーワードの集合に含まれるキーワードのうち、前記選択手段により選択されたキーワード以外のキーワードを前記キーワード記憶手段に記憶させるための手段とを含む、請求項７に記載の文字認識装置。
予め定められるキーワードの集合を記憶するためのキーワード集合記憶手段をさらに含み、
前記記憶させるための手段は、
前記キーワードの集合に含まれるキーワードを表示するための表示手段と、
前記表示手段により表示されたキーワードのうち、文字認識する事を望まない項目を指定する任意個数のキーワードをユーザに選択させるための選択手段と、
前記キーワードの集合に含まれるキーワードのうち、前記選択手段により選択されたキーワードを前記キーワード記憶手段に記憶させるための手段とを含む、請求項７に記載の文字認識装置。
コンピュータにより実行されると、当該コンピュータを請求項１〜請求項９のいずれかに記載の文字認識装置として動作させる、コンピュータプログラム。