JP2010217996A

JP2010217996A - 文字認識装置、文字認識プログラム、および文字認識方法

Info

Publication number: JP2010217996A
Application number: JP2009061148A
Authority: JP
Inventors: Chitei Aizawa; 知禎相澤
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2009-03-13
Filing date: 2009-03-13
Publication date: 2010-09-30
Also published as: KR20100103351A; KR101078086B1; CN101833661A

Abstract

【課題】文字が含まれている画像データに対して、手軽な操作で高速の文字認識を実現する文字認識装置、文字認識プログラム、および文字認識方法を提供する。
【解決手段】携帯端末１により、主に英数文字からなる第１認識用英数文字部２４ａおよびカテゴリ用文字からなる第１認識用カテゴリ文字部２４ｂと、これ以外の文字を含みこれらの文字よりも文字数が多い第２認識用文字についての第２認識用文字部２４ｃとを区別可能に記憶しておき、第１認識用英数文字部２４ａおよび第１認識用カテゴリ文字部２４ｂによる第１文字認識処理を実行し（ステップＳ４）、該処理でのマッチング信頼度が低い場合に（ステップＳ５〜Ｓ６）、少なくとも第２認識用文字部２４ｃにより文字認識を実行する第２文字認識処理（ステップＳ７）を実行する。
【選択図】図４

Description

この発明は、例えば画像データに含まれている文字を認識するような文字認識装置、文字認識プログラム、および文字認識方法に関する。

日本語や中国語の文字数は、英語等に比べて非常に多く、各々第一水準漢字だけで３０００文字以上、第二水準漢字も合わせると６０００文字以上ある。このため、日本語や中国語などの文字を認識しようとすると、各々の文字の認識処理にてそれら３０００〜６０００以上の文字と照合する処理が必要となる。この結果、ＣＰＵに負荷がかかる重い処理となってしまい、特に携帯機器のような貧弱なＣＰＵ環境下において、処理時間の長時間化が深刻な問題となる。

一方、文字認識する対象として、例えば名刺など、記載内容がある程度決まっている文字印刷媒体が存在している。このような文字印刷媒体の文字を読取る装置として、名刺の文字を認識する装置が提案されている（特許文献１〜３参照）。

特許文献１の名刺認識装置は、認識画像範囲をユーザにペンで指定させ、この範囲の認識文字をどの属性（名前、会社名、住所など）に登録するか指定させるものである。

特許文献２の文字認識装置は、文字認識が必要なエリアをテンプレートとして複数登録しておき、このテンプレートを選択させた上で、テンプレートで定まるエリア内の文字を認識するものである。

特許文献３の文字認識装置は、キーボードによって認識対象領域を指定させ、この対象領域について文字を認識するものである。

いずれの装置も、名刺全体を一度に処理するのではなく、領域指定したカテゴリ分についてのみ処理するものである。このため、ユーザが所望するカテゴリ分について速く認識処理をすることができる。すなわち、認識処理を行う範囲がユーザの所望するカテゴリに絞り込まれているため、認識処理を早くすることができ、ＣＰＵにかける負荷を抑制することができる。

しかし、このような従来技術は、文字認識の範囲を絞り込むことで認識処理に要する時間を短くしているが、その絞り込んだ範囲での文字認識処理そのものについては時間短縮がされていない。

また、上記従来技術には、作業時間を要し面倒であるという問題点がある。詳述すると、上記従来技術は、名刺１枚毎に文字認識させる範囲（またはテンプレート）をユーザに指定させ、その範囲の文字をどのカテゴリに対応させるかを設定する必要がある。このため、入力したい名刺の数が多数になればなるほど、ユーザにとって面倒な作業を何度も要求することになる。

一方、端末装置により名刺を画像データとして取り込み、取り込んだ画像データを通信ネットワークを介してサーバに送信し、サーバで文字認識を行い、認識結果をサーバから再び通信ネットワークを介して端末装置に送信する名刺ＯＣＲ処理システムが提案されている（特許文献４参照）。

この方法であれば、端末装置のＣＰＵが貧弱であっても、サーバのＣＰＵが処理能力の高いものであれば、認識処理に要する時間を短縮することができる。

しかし、このような通信ネットワークを用いる方法は、通信時間がかかる。このため、回線の混雑度合いによっては通信時間が長時間化してしまうという問題点がある。また、通信することが必須になるため、例えば携帯電話機のように無線通信を行う携帯端末では、地下など電波の届かない場所で使用できないという問題も生じる。

特開平１０−５５４１３号公報特開２００１−２０２４７５号公報特開平２−２４０７８７号公報特開２００３−２９６３５３号公報

この発明は、上述した問題に鑑み、文字が含まれている画像データに対して、手軽な操作で高速の文字認識を実現する文字認識装置、文字認識プログラム、および文字認識方法を提供し、利用者の満足度を向上させることを目的としている。

この発明は、文字認識用のマッチングデータを記憶する記憶手段と、画像データを取得する画像データ取得手段と、前記マッチングデータに基づいて前記画像データ内の文字を認識する文字認識手段とを備えた文字認識装置であって、前記マッチングデータは、予め定められた第１認識用文字についての第１認識用マッチングデータと、前記第１認識用文字以外の文字を含み該第１認識用文字よりも文字数が多い第２認識用文字についての第２認識用マッチングデータとを区別可能に構成され、前記文字認識手段は、前記第１認識用マッチングデータにより前記画像データについて文字認識を実行する第１文字認識処理と、該第１文字認識処理の結果が再認識条件に該当するか否か判別する再認識要否判別処理と、該再認識要否判別処理により再認識を要すると判別した再認識対象に対して、前記第２認識用マッチングデータにより文字認識を実行する第２文字認識処理とを実行する構成である文字認識装置であることを特徴とする。

前記マッチングデータは、文字の特徴を示す特徴データで構成するなど、文字認識のマッチングに用いるデータで構成することができる。

前記記憶手段は、ハードディスクや不揮発性メモリなど、データを記憶する手段で構成することができる。
前記画像データは、カラー画像やグレースケール画像やモノクロ２階調画像など、適宜の画像のデータとすることができる。

前記画像データ取得手段は、例えばＣＣＤカメラやＣＭＯＳカメラなどの撮像手段とする、あるいは、このような撮像手段で撮像した文字列画像のデータを該撮像手段から受信するＵＳＢ（Universal Serial Bus）やＬＡＮ（Local Area Network）などの通信インターフェースとするなど、画像データを取得可能な適宜の手段で構成することができる。

前記文字認識手段は、例えば、画像データ中の文字画像から特徴データを抽出し該特徴データをマッチングデータの特徴データとマッチングし、どの文字かを認識する手段とすることができる。

前記第１認識用文字は、例えば英数文字、カテゴリ判別用文字、またはこれらの複数など、予め定めた適宜の文字とすることができる。
前記第２認識用文字は、例えばひらがな、カタカナ、漢字、またはこれらの複数など、予め定めた適宜の文字とすることができる。

前記文字認識装置は、情報処理を実行するＣＰＵなどの情報処理部と情報記憶を行うメモリなどの情報記憶部と外部装置に接続する接続端子などのインターフェース部とを有する半導体チップなどの装置で構成する、あるいは、撮像手段と制御手段と記憶手段とを備えた携帯電話機やＰＤＡ（Personal Digital Assistants）やパーソナルコンピュータなどの情報処理端末で構成するなど、適宜の装置で構成することができる。

この発明により、画像データに対して手軽な操作で高速の文字認識を実現することができ、利用者の満足度を向上させることができる。

この発明の態様として、前記文字認識手段は、前記画像データ内の文字群のカテゴリを判別するカテゴリ判別処理を実行する構成であり、前記第１認識用マッチングデータは、前記カテゴリ判別に用いられるカテゴリ判別用文字が含まれた構成とすることができる。

前記カテゴリ判別用文字は、例えば「Ｅ−Ｍａｉｌ」、「ＵＲＬ」、「ＴＥＬ」、「ＦＡＸ」、「郵便番号」、またはこれらの複数に用いられる文字など、カテゴリ判別に使用する文字で構成することができる。
この態様により、第１文字認識処理の際にカテゴリ判別も実行することが可能となる。

またこの発明の態様として、前記第１認識用マッチングデータは、前記カテゴリ判別用文字のうち２以上の部品に分かれる結合文字については該結合を要素別に分離した部品文字が含まれた構成とすることができる。

前記結合文字は、文字列方向が左右方向である場合に偏（へん）と旁（つくり）からなる文字、あるいは、文字列方向が上下方向である場合に冠（かんむり）と脚（あし）からなる文字とすることができる。具体的には、例えば「話」や「住」や「所」等とすることができる。

前記部品文字は、文字列方向が左右方向である場合の前記結合文字の偏（へん）または旁（つくり）に該当する文字、あるいは、文字列方向が上下方向である場合の前記結合文字の冠（かんむり）または脚（あし）からなる文字とすることができる。具体的には、例えば「言」と「舌」、「イ」と「主」、「戸」と「斤」等とすることができる。

これにより、１文字の結合文字を２文字の部品文字と誤認識した場合でも、その誤認識した状態でカテゴリを正しく判別することができる。詳述すると、例えば１つの結合文字である「話」を、２つの部品文字「言」と「舌」として認識し、文字列を「電言舌」と認識した場合でも、「電話」のカテゴリであると認識することができる。

またこの発明の態様として、前記文字認識手段は、前記カテゴリ判別処理にてカテゴリが判別された文字群内に該カテゴリで使用されないはずの誤認文字が含まれているか否か判別し、含まれている場合に該誤認文字をカテゴリで使用される文字に補正する補正処理とを実行する構成とすることができる。

これにより、例えば「電話番号」のカテゴリでアルファベットの「Ｚ」と認識した文字を数字の「２」に補正するといったことができ、効率よく認識精度を高めることができる。

またこの発明の態様として、前記補正処理は、前記誤認文字が含まれている場合に、カテゴリで使用される文字のみを認識対象として再度文字認識を実行することにより補正する構成とすることができる。

これにより、マッチングデータのうちカテゴリで使用される文字のデータのみを用いて文字認識できるため、高速かつ高精度に文字認識を実行することができる。

またこの発明の態様として、前記第１文字認識処理は、マッチング信頼度の高いものから複数の文字候補を求めておいて最もマッチング信頼度の高い文字を採用する構成であり、前記補正処理は、前記誤認文字が含まれている場合に、該誤認文字の文字候補のうち、該カテゴリに使用される文字の中で最もマッチング信頼度の高い文字に補正する構成とすることができる
これにより、マッチングデータによる再度の文字認識を実行せずに正しい文字に補正することができ、高速かつ高精度に文字認識を完了することができる。

またこの発明は、予め定められた第１認識用文字についての第１認識用マッチングデータと、前記第１認識用文字以外の文字を含み該第１認識用文字よりも文字数が多い第２認識用文字についての第２認識用マッチングデータとを区別可能に構成されたマッチングデータを記憶手段に記憶しておき、画像データ取得手段により画像データを取得する画像データ取得ステップと、前記第１認識用マッチングデータにより前記画像データについて文字認識手段で文字認識を実行する第１文字認識ステップと、該第１文字認識処理の結果が再認識条件に該当するか否か前記文字認識手段で判別する再認識要否判別ステップと、該再認識要否判別処理により再認識を要すると判別した再認識対象に対して、前記第２認識用マッチングデータにより前記文字認識手段で文字認識を実行する第２文字認識ステップとをコンピュータに実行させる文字認識プログラムとすることができる。

前記文字認識プログラムは、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、フレキシブルディスク、メモリ、チップ、またはハードディスクなど、適宜の記憶媒体に格納することができる。
この発明により、コンピュータに文字認識プログラムをインストールすれば、画像データに対して手軽な操作で高速の文字認識を実現することができる。

またこの発明は、予め定められた第１認識用文字についての第１認識用マッチングデータと、前記第１認識用文字以外の文字を含み該第１認識用文字よりも文字数が多い第２認識用文字についての第２認識用マッチングデータとを区別可能に構成されたマッチングデータを記憶手段に記憶しておき、画像データ取得手段により画像データを取得する画像データ取得ステップと、前記第１認識用マッチングデータにより前記画像データについて文字認識手段で文字認識を実行する第１文字認識ステップと、該第１文字認識処理の結果が再認識条件に該当するか否か前記文字認識手段で判別する再認識要否判別ステップと、該再認識要否判別処理により再認識を要すると判別した再認識対象に対して、前記第２認識用マッチングデータにより前記文字認識手段で文字認識を実行する第２文字認識ステップとを実行する文字認識方法とすることができる。
これにより、画像データに対して手軽な操作で高速の文字認識を実行することができる。

この発明により、撮影された名刺画像等の画像データに対して、手軽な操作で高速の文字認識を実現する文字認識装置、文字認識プログラム、および文字認識方法を提供し、利用者の満足度を向上させることができる。

携帯端末の斜視図。携帯端末の構成を示すブロック図。辞書データの構成を説明する説明図。文字認識プログラムによる文字認識処理のフローチャート。文字認識する撮影画像や認識文字の説明図。

この発明の一実施形態を以下図面と共に説明する。

図１は、携帯端末１の斜視図を示し、図２は、携帯端末１の構成のブロック図を示し、図３は辞書データの構成図を示す。

携帯端末１は、図１に示すように、画像入力部３、操作部５、及び画面表示部７が設けられている。画像入力部３は、画像を撮像するデジタルカメラであり、操作部５は、押下操作されるボタンであり、画面表示部７は、画像を表示する液晶ディスプレイあるいは有機ＥＬディスプレイである。

図２に示すように、携帯端末１は、画像入力部３、操作部５、及び画面表示部７に加えて、ＣＰＵ１１、ＲＯＭ１２、およびＲＡＭ１３が、バス１６に接続して設けられている。

画像入力部３は、ＣＣＤカメラまたはＣＭＯＳカメラなどのデジタルカメラであり、バス１６に接続されている。画像入力部３が撮像して得た撮像画像は、デジタル画像データとしてＣＰＵ１１に送信される。このデジタル画像データは、最終的に別途の記憶装置（不揮発性メモリなど）に記憶しても良い。なお、画像入力部３は、ＣＰＵ１１から撮像信号を受けて撮像を開始する。

操作部５は、バス１６に接続されている。この操作部５は、利用者に押下操作された押下信号を、バス１６を介してＣＰＵ１１に送信する。

画面表示部７は、操作画面を表示する操作画面表示部７ａとしての機能と、文字認識した認識結果を表示する認識結果表示部７ｂとしての機能とを有している。この操作画面表示部７は、バス１６に接続されている。ＣＰＵ１１から画像データが送られてくると、この画像データの画像を操作画面表示部７ａまたは認識結果表示部７ｂに表示する。

ＣＰＵ１１は、ＲＯＭ１２に記憶されたプログラムに従ってＲＡＭ１３を一時記憶領域に使用して各種動作を行うプロセッサであり、各部を制御する制御機能２１と、文字認識機能２２を有している。

この文字認識機能２２は、文字列抽出処理部３１、文字抽出処理部３２、文字認識処理部３３、認識信頼度判定処理部３４、カテゴリ判別処理部３５、および認識結果補正処理部３６を有している。

文字列抽出処理部３１は、画像データから文字列を抽出する処理を実行する。この文字列の抽出は、例えば画像データを２値化して射影データを取得し、この射影データから文字列と余白を区別する等、適宜の方法により実行する。具体的には、例えば名刺などの横書き文字に対して画素行別の黒画素数から上下方向のヒストグラムを算出し、所定数以上の黒画素の行が連続している範囲を文字列とする、あるいは葉書の宛名などの縦書き文字に対して画素列別の黒画素数から左右方向のヒストグラムを算出し、所定数以上の黒画素の列が連続している範囲を文字列とするなど、適宜の方法により実行する。

文字抽出処理部３２は、前記文字列から文字を抽出する処理を実行する。この文字の抽出は、横書き文字に対して画素列別の黒画素数から左右方向のヒストグラムを算出し、所定数以上の黒画素が連続している範囲を１文字とする、あるいは縦書き文字に対して画素行別の黒画素数から上下方向のヒストグラムを算出し、所定数以上の黒画素が連続している範囲を１文字とするなど、適宜の方法により実行する。

文字認識処理部３３は、マッチング用辞書データ２４のマッチング情報を用いてどの文字のマッチング情報と一致あるいは近似するか判別することで文字を認識する処理と共に、マッチング信頼度を求める処理を実行する。この文字を認識する処理には、英数字を中心とする特定文字のみを高速に認識する特定文字認識処理と、全ての文字を認識する全文字認識処理とがある。

認識信頼度判定処理部３４は、文字認識処理部３３で求めたマッチング信頼度（認識信頼度）が所定の閾値を超えているか否か判定する処理を実行する。
カテゴリ判別処理部３５は、カテゴリ判別用辞書データ２５を用いて文字列がどのカテゴリに属するかを判別する処理を実行する。
認識結果補正処理部３６は、文字列の中にそのカテゴリで用いられない文字があれば、この文字をカテゴリ内で用いられる文字に補正する処理を実行する。

ＲＯＭ１２は、文字認識プログラム２３、マッチング用辞書データ２４、およびカテゴリ判別用辞書データ２５を記憶している。
マッチング用辞書データ２４は、図３（Ａ）に示すように、文字コード、マッチング情報、および対象カテゴリによって構成されている。

文字コードは、例えばＳｈｉｆｔ−ＪＩＳなどの適宜の方式の文字コードである。
マッチング情報は、文字の特徴データを文字別に記憶している。

対象カテゴリは、１つの文字に対して複数種類登録されている。具体的には、対象カテゴリとして「Ｅ−Ｍａｉｌ」、「ＵＲＬ」、「ＴＥＬ」、「ＦＡＸ」、「郵便番号」等が登録されている。

このマッチング用辞書データ２４に記憶されているデータは、第１認識用英数文字部２４ａ、第１認識用カテゴリ文字部２４ｂ、および第２認識用文字部２４ｃに区別可能に記憶されている。

第１認識用英数文字部２４ａは、主に英語、数字、記号などの欧米系文字で構成されている。

第１認識用カテゴリ文字部２４ｂは、カテゴリの識別に用いられる文字、すなわち、マッチング用辞書データ２４の対象カテゴリとして登録された「Ｅ−Ｍａｉｌ」、「ＵＲＬ」、「ＴＥＬ」、「ＦＡＸ」、「郵便番号」のいずれかで使用される文字で構成されている。

具体的には、対象カテゴリであることを示すキーワードとなる「メ」、「ー」、「ル」、「ホ」、「ム」、「ペ」、「ジ」、「電」、「話」、「フ」、「ァ」、「ッ」、「ク」、「ス」、「郵」、「便」、「番」、「号」などの文字が含まれている。また、この文字のうち「話」、「便」などの結合文字については、その部品となる偏（へん）や旁（つくり）を一文字とした「言」、「舌」、「イ」、「更」などの部品文字も含まれている。

なお、結合文字を分離した部品文字は、少なくとも認識したい文字列方向に部品文字が並んでいる結合文字とすることが好ましい。この文字列方向は、文字が縦方向に並んでいれば縦方向、文字が横方向に並んでいれば横方向とするなど、文字が並んでいる適宜の方向とすることができる。

第２認識用文字部２４ｃは、第１認識用英数文字部２４ａと第１認識用カテゴリ文字部２４ｂのどちらにも入らない文字（主に日本語文字）で構成されている。

なお、この第２認識用文字部２４ｃは、第１認識用カテゴリ文字部２４ｂを含まない構成としているが、第２認識用文字部２４ｃの一部を第１認識用カテゴリ文字部２４ｂとする構成にしてもよい。

カテゴリ判別用辞書データ２５は、図３（Ｂ）に示すように、カテゴリ別の複数ファイルによって構成されており、各ファイルには、そのカテゴリとして判別する文字列が記憶されている。文字列には、「電話」と「電言舌」を登録するなど、結合文字を部品文字とした文字列も記憶されている。なお、カテゴリ判別用辞書データ２５に記憶する文字列は、文字コードの羅列としてもよい。

ＲＡＭ１３は、ＣＰＵ１１が各種制御や演算に使用するデータを一時記憶すると共に、画像メモリ１４に文字列画像などの画像を記憶する。

なお、携帯端末１には、無線通信を行う通信アンテナ、音声出力を行うスピーカ、および集音を行うマイク等も設けられている。これにより、携帯電話機として利用できるように構成されている。

また、図２に仮想線で示すように、ＣＰＵ１１とＲＯＭ１２は、１つのチップ１５に搭載して電子部品として構成してもよい。この場合、チップ１５を携帯端末１に備えれば、簡単に文字認識機能を追加することができる。

図４は、携帯端末１のＣＰＵ１１が文字認識プログラム２３に従って実行する文字認識処理のフローチャートであり、図５は文字認識する撮影画像や認識文字の説明図である。

まず事前準備として、ＣＰＵ１１は、利用者の操作入力に応じて名刺読取りモードなどの文字認識処理が選択されると、画像入力部３によって画像撮影が可能な状態とし、画面表示部７に図５（Ａ）に示す操作画面表示部７ａを表示する。

この操作画面表示部７ａには、文字認識を行う画面であることを示す認識画面表示部７１、画像入力部３（カメラ）によって撮影しているプレビュー画像を動画表示するプレビュー画像表示部７２、前画面に戻るための戻るボタン７３、認識処理を開始するための認識ボタン７４、およびサブメニューを表示するためのサブメニューボタン７５が設けられている。

利用者に認識ボタン７４が選択されると、ＣＰＵ１１は、画像入力部３による画像撮影を実行して文字画像を取得する（ステップＳ１）。
ＣＰＵ１１は、文字列抽出処理部３１による文字列抽出処理を実行し、文字画像から文字列を抽出する（ステップＳ２）。このとき、会社名表示部分の文字列、氏名表示部分の文字列、住所表示部分の文字列など、複数の文字列を取得する。

ＣＰＵ１１は、変数「ｉ」に「０」を代入して初期化し（ステップＳ３）、ｉ番目の抽出文字列について、文字認識処理部３３により第１文字認識処理を実行する（ステップＳ４）。この第１文字認識処理では、文字抽出処理部３２により文字列から抽出した各文字について、マッチング用辞書データ２４のうち第１認識用英数文字部２４ａと第１認識用カテゴリ文字部２４ｂのみを用いて文字認識を実行する。

なお、文字抽出処理部３２による文字抽出は、文字と文字の境界を抽出する処理に相当する。例えば、文字列画像について、文字部分が黒になるように２値化され、文字列に垂直方向に黒画素が射影され、その射影データの切れ目を文字と文字の境界の候補とする。

第１認識用英数文字部２４ａは、英数文字を中心にして構成されており、第１認識用カテゴリ文字部２４ｂはカテゴリ判別に用いられる文字を中心に構成されているため、マッチング用辞書データ２４の全文字数に比べて非常に量が少ない。このため、第１文字認識処理は、後に説明する第２文字認識処理よりも非常に高速に完了する。

ＣＰＵ１１は、認識信頼度判定処理部３４により第１認識処理でのマッチング信頼度の判定を行う（ステップＳ５）。ここでマッチング信頼度の判定は、例えば文字単位のマッチング信頼度を確認し、マッチング信頼度の最も低い文字について、そのマッチング信頼度が再認識条件としての所定の閾値以上であれば文字列のマッチング信頼度をＯＫとし、そうでなければＮＧとすることができる。他にも、文字列内の各文字のマッチング信頼度の平均値を求め、この平均値が所定の再認識条件としての閾値以上であれば文字列のマッチング信頼度をＯＫとし、そうでなければＮＧとすることもできる。

なお、このマッチング信頼度の判定の際、各文字について、複数の文字候補をマッチング信頼度の高い順に所定個数記憶しておくとよい。

ＣＰＵ１１は、マッチング信頼度の判定がＯＫであれば（ステップＳ６：Ｙｅｓ）、ステップＳ８に処理を進める。
マッチング信頼度の判定がＮＧであれば（ステップＳ６：Ｎｏ）、ＣＰＵ１１は、ｉ番目の抽出文字列について、文字認識処理部３３により第２文字認識処理を実行する（ステップＳ７）。この第２文字認識処理では、マッチング用辞書データ２４の全てのデータを用いて文字認識を実行する。

なお、第２認識用文字部２４ｃのみによる文字認識を行い、第１文字認識処理でのマッチング信頼度も含めて最もマッチング信頼度が高い文字を認識した文字とする構成にしてもよい。

また、この第２文字認識処理では、文字列から文字を抽出する際に、結合文字を複数の部品文字と誤認識しないように、文字の境界候補を検討し、第１文字認識処理よりも１文字を精度良く切り出す構成にしてもよい。この場合、１文字の文字長を認識し、該文字長単位で境界を認識するとよい。この文字長は、文字列方向の１文字の長さを指し、例えば１文字における文字列方向の画素数とすることができる。これにより、文字の認識精度をさらに向上することができる。

ＣＰＵ１１は、変数「ｉ」に１加算し（ステップＳ８）、「ｉ」が抽出文字列数に達するまで（ステップＳ９：Ｙｅｓ）、ステップＳ４に処理を戻して繰り返す。

「ｉ」が抽出文字列数に達すると（ステップＳ９：Ｎｏ）、ＣＰＵ１１は、変数「ｉ」に「０」を代入して初期化し（ステップＳ１０）、ｉ番目の抽出文字列についてカテゴリ判別処理部３５によりカテゴリ判別処理を実行する（ステップＳ１１）。

このカテゴリ判別処理は、ステップＳ４，Ｓ７で認識した文字の並びが、カテゴリ判別用辞書データ２５に記憶されている各カテゴリの文字の並びと一致するか判別することにより実行する。一致すれば（マッチング信頼度が所定の閾値より高ければ）、そのカテゴリであると判別する。

ＣＰＵ１１は、認識結果補正処理部３６により認識結果補正処理を実行する（ステップＳ１２）。この認識結果補正処理は、ｉ番目の抽出文字列に、ステップＳ１１で判別したカテゴリで使われない文字が含まれていないか判別し、含まれていれば補正する。

この補正を行う認識結果補正処理部３６は、ステップＳ５にて記憶していた複数の文字候補のマッチング信頼度をもとに、そのカテゴリで使われる文字で最もマッチング信頼度の高い文字に補正する。そのカテゴリで使われる文字でマッチング信頼度の高い文字がなければ、そのカテゴリで使用される文字のみを対象にして再度文字認識処理を行い、認識した文字に補正する。

なお、この補正は、マッチング用辞書データ２４のうちそのカテゴリの文字だけを使って再度文字認識処理を実行するなど、適宜の方法によって実行すればよい。

ＣＰＵ１１は、変数「ｉ］に１加算し（ステップＳ１３）、「ｉ」が抽出文字列数に達するまで（ステップＳ１４：Ｙｅｓ）、ステップＳ１１に処理を戻して繰り返す。「ｉ」が抽出文字列数に達すれば（ステップＳ１４：Ｎｏ）、ＣＰＵ１１は、図５（Ｂ）に示す認識結果表示部７ｂを画面表示部７に表示して処理を終了する。

この文字認識処理により、図５に図示した例であれば、次のように処理される。
まず、文字列抽出処理（ステップＳ２）により、図５（Ｂ）に示すように、（１）〜（９）の各文字列が認識される。

この（１）〜（９）の各文字列に対して順番に第１文字認識処理（ステップＳ４）を実行することで、第１認識用英数文字部２４ａと第１認識用カテゴリ文字部２４ｂで文字認識できるカテゴリの文字認識ができる。すなわち、（４）の郵便番号、（６）の電話番号、（７）のＦＡＸ、（８）のＥ−ｍａｉｌ、および（９）のＵＲＬを認識できる。

このとき、第１認識用カテゴリ文字部２４ｂには、結合文字を部品に分離した部品文字も登録しているため、図５（Ｃ）に示すように、結合文字「話」を「言」と「舌」に分離して文字を切り出していた場合でも、そのまま「言」と「舌」として認識する。

図５（Ｂ）の（１）（２）（３）（５）はマッチング信頼度が低くなるため、第２文字認識処理（ステップＳ７）を実行して全ての文字を使った文字認識を行う。これにより、図５（Ｂ）の（１）（２）（３）（５）についても文字認識ができる。

その後、カテゴリ判別処理（ステップＳ１１）により、各文字列のカテゴリを判別することができる。このカテゴリ判別時に、「電話」のように結合文字が含まれるカテゴリは、「電言舌」のように結合文字を部品文字とした文字列もカテゴリ判別用辞書データ２５に登録されているため、正しいカテゴリを精度よく容易に認識できる。

すなわち、仮に結合文字を正確に認識しようとすると、文字抽出の際に２文字としてしまわないために文字の境界候補を検討する処理が必要となって計算量が多くなる。しかし、このような処理をしなくても、２文字としてそのまま認識してカテゴリを判別するため、文字の境界が１通りに定まり、その分高速に処理できる。この境界処理の時間削減量は、結合文字を部品文字の集まりと認識するための比較対象の増加による時間増加量よりはるかに大きいため、全体の処理時間を短縮できる。

さらに、認識結果補正処理（ステップＳ１２）により、判別したカテゴリの文字列に対して、そのカテゴリで使われない文字を排除した認識に補正するため、精度の良い文字認識ができる。

具体的には、例えば、図５（Ｂ）の（６）の「電話：（０７５）１２３４−５６７８」は、カテゴリが「ＴＥＬ」の文字列である。これを、第１文字認識処理にて「電話：（０７５）１Ｚ３４−５６７８」と誤認識してしまった場合、「Ｚ」はカテゴリ「ＴＥＬ」では使用されることのない文字であるため、これについて補正処理を行い、カテゴリ「ＴＥＬ」で使用される「２」に補正する。これにより認識精度を向上するとともに、ユーザが違和感を覚えるような認識結果の出力を抑えることができる。

以上の構成および動作により、画像データに対して手軽な操作で高速の文字認識を実現することができ、利用者の満足度を向上させることができる。

限定された文字での第１文字認識処理を実行した後に、マッチング信頼度が閾値より低い文字列のみ第２文字認識処理を実行するため、演算処理の負荷を軽減することができ、日本語や中国語といった文字数の多い言語であっても全体として高速に文字認識することができる。特に、貧弱なＣＰＵであっても十分高速に文字認識することができる。

詳述すると、第１文字認識処理では、第１認識用英数文字部２４ａとして英語、数字、記号などの欧米系の文字のみ（約１００文字）と、さらに少ない第１認識用カテゴリ文字部２４ｂのみを用いるため、全文字での照合を行う場合よりも数倍以上高速に処理できる。

また、名刺の読取りにおいては、「Ｅ−Ｍａｉｌ」、「ＵＲＬ」、「ＴＥＬ」、「ＦＡＸ」、「郵便番号」を表す文字列は、おおよそ英語、数字、記号などの欧米系の文字で構成されている。そのうち特に「Ｅ−Ｍａｉｌ」、「ＵＲＬ」は、「氏名」、「会社名」など他のものを表す文字列と比較して、長い文字列であることが多い。したがって、名刺中において、英語、数字、記号などの欧米系の文字が占める割合が大きいことが一般的である。この割合の大きい英語、数字、記号などの欧米系の文字のみを対象とした軽い第１文字認識処理を最初に実行することにより、それらの文字で構成される「Ｅ−Ｍａｉｌ」、「ＵＲＬ」、「ＴＥＬ」、「ＦＡＸ」、「郵便番号」を表す文字列を確定してしまうことができる。そして、それ以外の文字列についてのみ、日本語や中国語なども対象とした重い第２文字認識処理をすることで、結果、トータルとして名刺読取の処理速度を向上することができる。

また、第１文字認識処理で、第１認識用カテゴリ文字部２４ｂにより、カテゴリを示すキーワードの文字も対象とするため、「Ｅ−Ｍａｉｌ」、「ＵＲＬ」、「ＴＥＬ」、「ＦＡＸ」、「郵便番号」を表す文字列を第１文字認識処理で確実に認識できる。

詳述すると、「Ｅ−Ｍａｉｌ」、「ＵＲＬ」、「ＴＥＬ」、「ＦＡＸ」、「郵便番号」等のカテゴリを示すキーワードとして、「メ」「ー」「ル」「ホ」「ム」「ペ」「ジ」のような欧米系以外の文字が名刺に含まれている場合がある。例えば、「メール：ａｂｃ＠＊＊＊＊．ｃｏ．ｊｐ」、「ホームページ：ｈｔｔｐ：／／ｗｗｗ．＊＊＊＊．ｃｏ．ｊｐ」などが該当する。

このため、仮に第１文字認識処理の際に第１認識用カテゴリ文字部２４ｂの文字がないと、認識の際のマッチング信頼度が悪くなり、「Ｅ−Ｍａｉｌ」、「ＵＲＬ」、「ＴＥＬ」、「ＦＡＸ」、「郵便番号」を表す文字列を最初に確定できない場合が発生する。これに対し、第１認識用カテゴリ文字部２４ｂを用いることで、この問題を解消できる。

また、文字の境界を検討する必要性を削減し、処理を高速にすることができる。詳述すると、偏（へん）と旁（つくり）からなる「話」などの結合文字については、正しく認識しようとすると、一般的にそれぞれの部品に分離した部品文字「言」「舌」の２文字として認識しないように境界を検討する処理が必要となる。しかし、英語、数字、記号などの欧米系の文字は、このような結合文字がないため、境界を検討する必要がない。にもかかわらず、「Ｅ−Ｍａｉｌ」、「ＵＲＬ」、「ＴＥＬ」、「ＦＡＸ」、「郵便番号」といったカテゴリの文字を認識するために、まれに混ざることがある「電話」などの結合文字のために、全ての文字に対して境界検討の処理を実行すると処理時間が長くなる。

これに対し、第１文字認識処理では、結合文字を部品に分離した部品文字も登録しているため、文字の境界を検討する必要がなく、高速に処理することができる。

特に、結合文字が含まれるのは、例えば「電話」や「郵便番号」の表示など、カテゴリを示す表示部分に限られ、カテゴリの内容の情報（実際の電話番号や郵便番号など）には含まれていない。そして、このカテゴリの表示部分は、「電言舌」と認識しても、「電話」カテゴリであることさえ認識できれば良い。この特性を利用して、結合文字を分離した部品文字も登録して認識しているため、結合文字を部品文字として認識することによる弊害を生じさせることなく（例えば「電言舌」と認識しても文字「電言舌」を登録するわけでなない）、高速に処理することができる。

また、カテゴリを認識した文字列については、補正処理を実行できるため、認識精度を向上するとともに、ユーザが違和感を覚えるような認識結果の出力を抑えることができる。

また、文字列抽出処理部３１によって文字列を抽出し、カテゴリ判別処理部３５でカテゴリまで判別するため、利用者が文字認識領域を操作によって指定する手間や、指定した領域のカテゴリを選択操作する手間を削減でき、利便性を向上することができる。

なお、文字認識プログラム２３は、インターネットなどの電気通信回線に接続されたサーバの記憶手段に記憶しておき、電気通信回線を通じてダウンロード可能とする、あるいは電気通信回線を通じてＡＳＰ（Application Service Provider）のサービスとして利用可能にする構成とすることも可能である。この場合、通信負荷がかかるが、サーバの演算処理の負荷を軽減することができる。

この発明の構成と、上述の実施形態との対応において、
この発明の文字認識装置およびコンピュータは、実施形態の携帯端末１に対応し、
以下同様に、
画像データ取得手段は、画像入力部３に対応し、
文字認識手段は、ＣＰＵ１１に対応し、
記憶手段は、ＲＯＭ１２に対応し、
マッチングデータは、マッチング用辞書データ２４に対応し、
第１認識用マッチングデータは、第１認識用英数文字部２４ａおよび第１認識用カテゴリ文字部２４ｂに対応し、
第２認識用マッチングデータは、第１認識用英数文字部２４ａ、第１認識用カテゴリ文字部２４ｂ、および第２認識用文字部２４ｃに対応し、
カテゴリ判別用文字は、第１認識用カテゴリ文字部２４ｂに対応し、
画像データ取得ステップは、ステップＳ１に対応し、
第１文字認識処理および第１文字認識ステップは、ステップＳ４に対応し、
再認識要否判別処理および再認識要否判別ステップは、ステップＳ５〜Ｓ６に対応し、
第２文字認識処理および第２文字認識ステップは、ステップＳ７に対応し、
カテゴリ判別処理は、ステップＳ１１に対応し、
補正処理は、ステップＳ１２に対応し、
第１認識用文字は、英語、数字、記号、カテゴリ用文字に対応し、
第２認識用文字は、全文字に対応するが、
この発明は、上述の実施形態の構成のみに限定されるものではなく、多くの実施の形態を得ることができる。

この発明は、文字を認識する装置に利用することができ、特に、名刺の読取り、葉書や封筒の宛名の読取りなど、ある程度記載項目（カテゴリ）が定まっている文字表示媒体から文字を認識する装置に利用することができる。

１…携帯端末、３…画像入力部、１１…ＣＰＵ、１３…ＲＡＭ、２３…文字認識プログラム、２４…マッチング用辞書データ、２４ａ…第１認識用英数文字部、２４ｂ…第１認識用カテゴリ文字部、２４ｃ…第２認識用文字部

Claims

文字認識用のマッチングデータを記憶する記憶手段と、
画像データを取得する画像データ取得手段と、
前記マッチングデータに基づいて前記画像データ内の文字を認識する文字認識手段とを備えた文字認識装置であって、
前記マッチングデータは、
予め定められた第１認識用文字についての第１認識用マッチングデータと、
前記第１認識用文字以外の文字を含み該第１認識用文字よりも文字数が多い第２認識用文字についての第２認識用マッチングデータとを区別可能に構成され、
前記文字認識手段は、
前記第１認識用マッチングデータにより前記画像データについて文字認識を実行する第１文字認識処理と、
該第１文字認識処理の結果が再認識条件に該当するか否か判別する再認識要否判別処理と、
該再認識要否判別処理により再認識を要すると判別した再認識対象に対して、前記第２認識用マッチングデータにより文字認識を実行する第２文字認識処理とを実行する構成である
文字認識装置。
前記文字認識手段は、前記画像データ内の文字群のカテゴリを判別するカテゴリ判別処理を実行する構成であり、
前記第１認識用マッチングデータは、前記カテゴリ判別に用いられるカテゴリ判別用文字が含まれた構成である
請求項１記載の文字認識装置。
前記第１認識用マッチングデータは、前記カテゴリ判別用文字のうち２以上の部品に分かれる結合文字については該結合を要素別に分離した部品文字が含まれた構成である
請求項２記載の文字認識装置。
前記文字認識手段は、
前記カテゴリ判別処理にてカテゴリが判別された文字群内に該カテゴリで使用されないはずの誤認文字が含まれているか否か判別し、含まれている場合に該誤認文字をカテゴリで使用される文字に補正する補正処理とを実行する構成とした
請求項２または３記載の文字認識装置。
前記補正処理は、
前記誤認文字が含まれている場合に、カテゴリで使用される文字のみを認識対象として再度文字認識を実行することにより補正する構成である
請求項４記載の文字認識装置。
前記第１文字認識処理は、マッチング信頼度の高いものから複数の文字候補を求めておいて最もマッチング信頼度の高い文字を採用する構成であり、
前記補正処理は、
前記誤認文字が含まれている場合に、該誤認文字の文字候補のうち、該カテゴリに使用される文字の中で最もマッチング信頼度の高い文字に補正する構成である
請求項４記載の文字認識装置。
予め定められた第１認識用文字についての第１認識用マッチングデータと、前記第１認識用文字以外の文字を含み該第１認識用文字よりも文字数が多い第２認識用文字についての第２認識用マッチングデータとを区別可能に構成されたマッチングデータを記憶手段に記憶しておき、
画像データ取得手段により画像データを取得する画像データ取得ステップと、
前記第１認識用マッチングデータにより前記画像データについて文字認識手段で文字認識を実行する第１文字認識ステップと、
該第１文字認識処理の結果が再認識条件に該当するか否か前記文字認識手段で判別する再認識要否判別ステップと、
該再認識要否判別処理により再認識を要すると判別した再認識対象に対して、前記第２認識用マッチングデータにより前記文字認識手段で文字認識を実行する第２文字認識ステップとをコンピュータに実行させる
文字認識プログラム。
予め定められた第１認識用文字についての第１認識用マッチングデータと、前記第１認識用文字以外の文字を含み該第１認識用文字よりも文字数が多い第２認識用文字についての第２認識用マッチングデータとを区別可能に構成されたマッチングデータを記憶手段に記憶しておき、
画像データ取得手段により画像データを取得する画像データ取得ステップと、
前記第１認識用マッチングデータにより前記画像データについて文字認識手段で文字認識を実行する第１文字認識ステップと、
該第１文字認識処理の結果が再認識条件に該当するか否か前記文字認識手段で判別する再認識要否判別ステップと、
該再認識要否判別処理により再認識を要すると判別した再認識対象に対して、前記第２認識用マッチングデータにより前記文字認識手段で文字認識を実行する第２文字認識ステップとを実行する
文字認識方法。