JP2005044052A - 携帯型文字認識装置 - Google Patents

携帯型文字認識装置 Download PDF

Info

Publication number
JP2005044052A
JP2005044052A JP2003201455A JP2003201455A JP2005044052A JP 2005044052 A JP2005044052 A JP 2005044052A JP 2003201455 A JP2003201455 A JP 2003201455A JP 2003201455 A JP2003201455 A JP 2003201455A JP 2005044052 A JP2005044052 A JP 2005044052A
Authority
JP
Japan
Prior art keywords
character
computer
image
character line
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003201455A
Other languages
English (en)
Inventor
Masashi Koga
昌史 古賀
Tatsuya Kameyama
達也 亀山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003201455A priority Critical patent/JP2005044052A/ja
Publication of JP2005044052A publication Critical patent/JP2005044052A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】携帯端末で入力された画像中の文字認識を行うためには、必要な文字識別辞書や言語辞書を格納するには携帯端末のメモリの記憶容量や処理能力は不十分であった。また、入力画像をサーバに送信してサーバで文字認識を行うとすると、通信量や時間がかかりすぎるという問題があった。
【解決手段】画像の入力、文字列の切出しの処理を携帯端末で行い、文字列の切出し結果をサーバに送信し、文字切出しおよび文字識別の処理をサーバで行う。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は,カメラを有する携帯型の端末における入力手段に関する技術分野に属する。
【0002】
【従来の技術】
従来より,紙に印刷ないし手書きされた文字を読取る装置はOCRとして知られている。主な応用分野は,帳票処理,郵便物の区分,文書のテキスト化などである。典型的なOCRでは,以下のような手順で文字を読取る。まず紙面をスキャナを用いて光電変換して計算機に取り込み(画像入力),読取りの対象である文字行の領域を切出し(文字行切出し),文字行から個々の文字を切出し(文字切出し),個々の文字が何であるかを識別し(文字識別),言語情報などを利用して読取った文字群を文字列として解釈する(後処理)。こうしたOCRで認識する際には,各文字の形状を記憶するための手段(文字識別辞書)と,言語情報を記憶するための手段(言語辞書)に多くの記憶容量が必要である。特に,漢字を認識する場合など対象の文字種数が多くなった場合には文字識別辞書が大きくなる。また,紙面上に複数の文字行があり,読取り対象となるものはその一部であることがある。このような場合,応用分野に応じて予め定められた規則に従い,自動的に装置が読取り対象となる文字行を判別する。
【0003】
また,カメラを入力手段として文字を認識する技術も,自動車のナンバープレート認識,生産ラインでの検査装置などで実用化されている。これらの装置では,読取り対象が数字や記号に限られている場合が多く,文字識別辞書や言語辞書に多くの記憶容量を必要としない場合が多い。また,読取り対象の文字行は,予め定められた規則に従い,装置が自動的に抽出する。
【0004】
さらに,近年は,携帯電話,PDA(personal digital assistant)などの携帯端末に搭載されたカメラを画像入力の手段として,文書,看板,標識などの文字を読取る試みが現われている。ここで携帯端末とは,通信機能を有する可搬型の計算機のことである。これらの機器での認識対象は,電話番号,メールアドレス,URL,単語などである。また,認識結果は電話やメールの発信,WEBへのアクセス,単語の翻訳などのサービスに用いられる。このような用途では,操作者が携帯端末により身の回りにある文書,看板,標識などを自在に読取り,サービスを受けることを想定している。このため,操作の容易さ,待ち時間の短さなどを実現することが必要となっている。
【0005】
しかし,携帯端末での文字認識では,携帯端末の性能に制限があるため,認識精度を向上したり,応用分野を拡大したりするのに困難があった。携帯端末は小型であり,搭載可能な記憶装置の容量には制限がある。このため,現状では文字識別辞書,言語辞書を格納するに十分な記憶容量を確保することは困難である。翻訳や検索などの応用のためには,さらに多くの記憶容量が必要で,携帯端末での実現は困難であった。また,携帯端末では使用中に外部から電源を供給することができないため,消費電力の大きい高速な演算装置の搭載が困難である。一方,高い精度で文字を認識するために必要な文字識別処理や後処理には多くの計算量が必要である。このため,文字認識の高精度化のためには,処理時間の増加が避けられなかった。
【0006】
こうした問題を解決するために,非特許文献1のように,通信網を用いて画像を遠隔のサーバに送信し,サーバにて認識処理を実行するシステムも提案されている。この場合には,サーバに文字識別辞書,言語辞書を格納しておくことにより,記憶容量の問題は解決する。また,サーバでは高速の演算装置が使用可能なため,処理時間の問題も緩和される。しかし,画像のデータ量は大きく,サーバへ画像を送るには多くの時間や費用が必要となる,といった問題があった。従来技術の延長で,タッチパネルとスタイラスペンなどで読取り領域を人手で指定することも考えられる。しかし,この方法には,精緻に文字行の座標を指定する作業は困難である一方,大まかに領域を指定すると多くの画像情報を送信する必要があるという問題がある。
【0007】
【非特許文献1】I. Haritaoglu, “InfoScope: Link from Real World to Digital Information Space,” Lecture Notes in Computer Science Ubicomp 2001, Atlanta, GA, USA, Springer, 2,001, Vol. 2201, pp. 247−255
【非特許文献2】A.K. Jain, B. Yu, “Automatic Text Location in Images and Video Frames,” Pattern Recognition, 1998, Vol. 31, No. 12, pp. 2055−2076
【非特許文献3】S.H. Kim, C.B. Jeong, H.K. Kwag, C.Y. Suen, “Word segmentation of printed text lines based on gap clustering and special symbol detection,” Proceedings. 16th International Conference on Pattern Recognition, Aug. 2002, Vol 2, pp. 320 −323,
【非特許文献4】O.D. Trier, A.K. Jain, “Goal−Directed Evaluation of Binarization Methods,”IEEE Transactions on Pattern Analysis and Machine Intelligence, December 1995, Vol. 17, No. 12
【非特許文献5】Chun−Ming Tsai and Hsi−Jian Lee, “Binarization of Color Document Images via Luminance and Saturation Color Features,” IEEE TRANSACTIONS ON IMAGE PROCESSING, APRIL 2002, VOL. 11, NO. 4
【非特許文献6】P.G. Howard, et al. ”The Emerging JBIG2 Standard,” IEEE transaction on circuits and systems for Video Technology, 1998, Vol. 8, No. 7
【非特許文献7】R.M.K. Sinha, B. Prasada, G.F. Houle, M. Sabourin, “Hybrid Contextual Text Recognition with String Matching,” IEEE Transactions on Pattern Analysis and Machine Intelligence, December 1993, Vol. 15, No. 9
【非特許文献8】C.−L. Liu, M. Koga and H. Fujisawa, ”Lexicon−driven Segmentation and Recognition of Handwritten Character Strings for Japanese Address Reading,” IEEE Trans. Pattern Analysis and Machine Intelligence, Nov. 2002, Vol. 24, No. 11, pp. 425−1437
【0008】
【発明が解決しようとする課題】
本発明が解決しようとする第一の課題は,カメラ付の携帯端末とサーバの連携による文字認識における,通信量の削減である。上に述べたように,画像をサーバに送信する際の通信量を削減することは,従来の技術では困難であった。通信量の増加は,送信に要する時間の増加の原因となる。また,通信量の増加は,通信費用の増加にもつながる。このように,通信量の削減は,本システムの利便性に大きく寄与する,工学的な課題である。
【0009】
本発明が解決しようとする第二の課題は,カメラ付の携帯端末とサーバの連携による文字認識における,携帯端末の操作性の向上である。上に述べたように,人手で読取り領域を精緻に指定するのは困難な作業である。このような作業を軽減する手段を提供し操作性を向上することは,本システムの利便性に大きく寄与する,工学的な課題である。
【0010】
本発明が解決しようとする第三の課題は,携帯端末の記憶装置の有効利用である。上に述べたように,携帯端末では記憶容量に制限があり,文字識別辞書や言語辞書を搭載することはできない。さらに,一般に携帯端末は多くの用途に兼用される。このため,文字識別辞書や言語辞書よりは小さいとはいえ,認識処理の手順を格納するオブジェクトも,不要な時には消去し,記憶装置を別の用途のために解放することが望ましい。このような,記憶装置を有効に活用する手段を提供することは,工学的に重要な課題である。
【0011】
【課題を解決するための手段】
上記の課題を解決するために,本発明では,携帯端末で画像入力と文字行切出しを実行し,画像を適切に符号化してサーバに送信し,サーバにて文字切出し,文字識別,後処理を実行し,さらにサーバで翻訳や検索などの応用処理を行い,結果を携帯端末に送り返すようにする。さらに,携帯端末で画像入力と文字行切出しと画像符号化を実行する手順を格納するオブジェクトは,サーバから必要に応じ携帯端末へ転送するようにする。
【0012】
文字行切出しを携帯端末にて自動的に行うことにより,人手で読取り領域を精緻に指定することが不要となる。文字識別辞書および言語辞書はそれぞれ文字切出しと文字識別、及び後処理に用いられるものであるため、画像入力,文字行切出しでは文字識別辞書や言語辞書などが不要である。このため,必要な記憶容量は小さい。また,処理手順を格納するオブジェクトの転送も容易である。また,文字行抽出に必要な処理時間は,文字行抽出の方式によっては,画像を送信するよりはるかに高速である。このため,画像をサーバへ転送して文字行抽出を行うより,操作者の待ち時間を低減することが可能となる。
【0013】
上記の手段の導入は自明な解決策ではなく,いくつかの技術的な問題が派生する.そこで,以下のような手段でそれらを解決する。
【0014】
文字行の切出しを自動化することに伴い,文字行の切出しが操作者の意図どおりに行われないことがあるという問題が生じる。そこで,文字行切出し結果は,携帯端末の表示装置に視覚的に示すようにする。これにより,操作者の意図どおりの文字行が認識対象となっていることが容易に確認できる。また,必要に応じ修正を施すことが可能となる。
【0015】
文字認識処理の後半にあたる文字切出し,文字識別,後処理をサーバ上で実行することに伴い,文字行切出し結果をサーバに転送する手段を提供する必要が生じる。ここでは,通信量をできる限り少なくする一方,後段の処理に必要な情報が欠けることがないようにしなくてはならない。そこで,文字行切出しの後,文字行中の文字と背景の分離処理,例えば閾値処理を行い,その結果を例えばJBIGなどの画像圧縮方式で符号化し,サーバへ送信するようにする。カメラで撮られた画像は一般に多値画像,もしくはカラー画像であり,これを文字背景分離処理にて二値化することで大幅に記憶容量を削減できる。さらに二値画像に適した画像圧縮方式で符号化することにより,記憶容量はさらに削減できる。このため,通信量は大幅に削減することができる。また,通常の二値画像の圧縮方式では情報の欠落はないため,サーバへ送信する際に必要な情報が欠けることを防ぐことができる。さらに,文字と背景の分離の仕方は複数の方法で試み,それぞれの結果を符号化してサーバへ送信するようにする。これにより,不適切な文字背景分離処理で情報が欠落することを補うことができる。
【0016】
また,文字認識処理の後半にあたる文字切出し,文字識別,後処理をサーバ上で実行することに伴い,適切な文字識別辞書,言語辞書がサーバ上で選択されるような手段を提供する必要がある。また,翻訳,検索などのサービスをサーバで提供する場合には,端末操作者が意図するサービスがサーバ上で選択されるような手段を提供する必要がある。そこで,文字行の画像とともに,端末から読取り対象やサービスを指定する識別子をサーバへ送信し,サーバ上で上記識別子に応じて文字識別辞書,言語辞書,サービスを切り替えるようにする。
【0017】
上記の識別子や,サーバのアドレスは,操作者に通知なく変更されることがありうる。そこで,画像入力と文字行切出しと画像符号化を実行する手順を格納するオブジェクトは,サーバから必要に応じ携帯端末へ転送するようにするとともに,このオブジェクトに上記の識別子とサーバアドレスとを格納するようにする。これにより,操作者はオブジェクトの転送元となるサーバのアドレスのみを知るだけで,文字切出し,文字識別,後処理,サービスを提供するサーバへアクセスできるようになる。
【0018】
【発明の実施の形態】
図1に本発明の1実施例の構成を示す。101は,携帯端末であり,文字認識の画像入力処理と文字行切出し処理をつかさどる。携帯端末101は,カメラ102,演算装置103,表示装置104,入力装置105,通信装置106,記憶装置107を有する。カメラ102などから画像の入力を受け、演算装置103は記憶装置107に格納されたオブジェクト108で指定された手順に従い,各装置を制御すると共に,文字切出し,画像符号化などの処理を実行する。ここで,オブジェクトとは,データと処理手順を表すプログラムからなる一連のバイト列である。表示装置104は,例えば液晶パネルなどの装置であり,画像や文字などの情報を視覚的に表示するものである。入力装置105は,例えばボタンなどの装置であり,装置を操作している人間からの入力を受付けるものである。通信装置106は,例えば無線LANやセルラ通信のような通信のための装置であり,外部との通信をつかさどるものである。記憶装置107は,例えばスタティックRAMのようなものであり,処理手順を格納するオブジェクトや,文字切出しや画像符号化の処理の過程で必要な変数値を記憶するものである。
オブジェクト108には,画像入力109,文字切出し110,画像符号化111,制御・通信112,表示113などの処理の手順を格納する。また,制御・通信112と併せて,後述する認識サーバ115のアドレスと,アプリケーションをするための識別子も,オブジェクト108に格納する。
【0019】
通信装置106は,ネットワーク114を介し,後述するサーバ群との通信をつかさどる。
【0020】
認識サーバ115は,文字認識の文字切出し,文字識別,後処理の各処理をつかさどる。認識サーバ115は,ネットワーク114を介して他のサーバや携帯端末と通信を行う通信装置116と,文字切出しや文字識別などの各処理を実行する演算装置117と,演算手順と文字識別辞書と言語辞書を格納する記憶装置118とを有する。文字識別辞書とは、認識対象の文字の形状と文字コードを記憶するもので,文字識別の際に参照する。言語辞書とは、言語的な制約を表すもので,後処理で参照する。言語辞書としては,単語の集合である単語辞書,あるいは非特許文献7にあるようなトライグラム,あるいは非特許分権8のようなトライを用いる。
【0021】
主サーバ119は,携帯端末101が主に通信するサーバであり,また,オブジェクト108の複写元を記憶するものである。主サーバ119は,ネットワーク114を介して他のサーバや携帯端末と通信を行う通信装置120と,各処理を実行するマイクロプロセッサーのような演算装置121と,それらの処理手順などを記憶する記憶装置122と,携帯端末101へ転送するオブジェクトの複写元124を格納する二次記憶装置123とを有する。
【0022】
アプリケーションサーバ125は,翻訳,検索などのサービスを提供するものである。
図24に一般的な文字認識処理のデータフローを示す。まずステップ2401において,入力画像から文字行を切出す。次にステップ2402において文字行中から個々の文字を切出す。次に,ステップ2304において切出した個々の文字が何の文字であるかを識別する。この際,文字識別辞書2406を参照する。最後にステップ2405において,文字識別した結果を文字列として解釈(すなわち,認識対象の文字列が,言語辞書で定義される文字列のいずれに該当するとみなすのが尤もらしいかを,最尤法で推定)する。この際,言語辞書2407を参照する。特に,文字識別辞書2406と言語辞書2407は容量が大きくなることが多く,携帯端末で文字認識を実現する際に問題となる。
【0023】
図2に,本実施例の実行手順を示す。まず,操作者が入力装置105に対してオブジェクト要求操作を行う(201)。ここでは,用途に応じ,いくつかの選択肢から要求するオブジェクトを指定できるようにする。オブジェクトの指定は,オブジェクト要求番号と称する整数値で行う。オブジェクト要求操作に応じて,携帯端末101は主サーバ119へ,オブジェクト要求202を送信する。この際,携帯端末101は操作者の指定に応じて,異なるオブジェクト要求番号を主サーバ119へ送信する。主サーバ119は,オブジェクト要求番号に応じてオブジェクト選択処理203にて転送するオブジェクトを選択し,携帯端末へ転送する(204)。携帯端末101は,オブジェクトの転送が完了した時点で,完了した旨を表示装置104に表示する(205)。以上の操作は、文字認識の実行の度に行う必要はなく、その端末で最初に本発明の文字認識を行う前、およびオブジェクトの更新の必要性に応じて実行すれば十分である。
【0024】
次に,操作者はカメラ102を認識対象に向け,認識要求操作を行う(206)。これを受け,携帯端末101のカメラ102と演算装置103が動作し,画像入力処理207と文字行切出し処理208を予めオブジェクト108で定められた手順に従って実行する。この際,入力される画像はカラー画像,または多値画像とする。文字行切出し処理208実行後,文字行の切出し結果を表示装置104に表示する(209)。操作者は,文字行の切出し結果を目視し,必要に応じ入力装置105を介して文字行切出し結果を修正し,確認を入力装置105に入力する。これを受け,携帯端末101は画像符号化211をオブジェクト108に予め定められた手順に従い,画像を符号化する(211)。さらに,符号化した結果をサービスなどを指定する識別子とともに通信装置106によりネットワーク114を介して認識サーバ115へ送信する(212)。ネットワーク114上での認識サーバ115のアドレスは,オブジェクト108に予め記憶してある。認識サーバ115は,予め指定された手順に従い,文字切出し(213),文字識別(214),後処理(215)を実行する。この際,文字識別辞書,言語辞書は,端末から送信された識別子に応じて切り替える。文字切出し,文字識別,後処理の終了後,認識サーバ115は得られた認識結果の文字列を,サービスを指定する識別子とともにアプリケーションサーバ125へ転送する(216)。アプリケーションサーバ125は,識別子に応じてサービスを切り替えて実行する。図2の例では,入力の文字列を予め定められた手順に従い,他の言語へ翻訳する(217)。サービス実行後,得られた情報は認識サーバ115を経由して携帯端末101へ翻訳結果を送信する(218,219)。携帯端末101は,サービスの結果得られた情報を表示装置104へ表示する。図2の例では,翻訳結果を表示する(220)。
【0025】
図3に,本実施例における携帯端末の正面からの外観を示す。本携帯端末では,カメラがレンズ302を外に向けて筐体301に搭載されている。また,筐体301内部には,図1に示す各装置を駆動するのに必要な電源などの付加的な装置を内蔵する。
【0026】
図4に,本実施例における携帯端末の背面からの外観を示す。背面には,表示装置104の表示面402を配置する。また,入力装置105の操作部にあたるボタン403,404とカーソルキー405を図に示すように配置する。なお、図3に示したカメラ302の設置位置は、図4に示した各要素の背面に限定されるものではなく、カメラ302を携帯端末301の画像入力装置として利用することができれば他の形態をとってもよい。
【0027】
図5に,オブジェクト要求操作201を実行する際の携帯端末101の状態を示す。この状態では,表示面402には,501に示すようなメニューを表示する。操作者は,カーソルキー405を用いてメニュー上の選択肢を選び,ボタン403を押下して選択肢を確定する。例えば,図5では,「英語翻訳」「英和辞典」「日本語検索」「WEB」の内から「英語翻訳」を選択している。ここでボタン403を押下すると,「英語翻訳」を確定したことになる。これを受け,携帯端末101は,選択肢に応じた識別子をオブジェクト要求とともに主サーバ119に送信する。なお,ここでは,「英語翻訳」は英語の文を日本語に翻訳する機能,「英和辞典」は英単語の意味を検索する機能,「日本語検索」は日本語から関連する情報を検索する機能,「WEB」はURLを読取って該当するWWWサーバにアクセスする機能である。
【0028】
図12に,オブジェクト要求操作201の過程で,メニューの表示と,オブジェクト要求の送信に用いるテーブルを示す。このテーブルは,予め携帯端末101の記憶装置107に格納しておく。テーブルの各レコードは,メニュー表示に用いる文字列1201と,整数で表されるオブジェクト要求番号1202の二つの変数を持つ。このテーブルを参照することで,携帯端末101が操作者のメニューの操作に応じて自動的にオブジェクト要求番号を獲得し,主サーバ119に送信することが可能となる。なお、この表示はネットワークを介して端末に送信されて表示されるものであってもよい。
【0029】
図6に,「英語翻訳」機能を選択した後に,認識要求操作206を実行する際の,携帯端末101の状態を示す。表示面402には,カメラ102で撮った画像が表示される。操作者は携帯端末101を動かし,意図する認識対象が画面中に位置するようにして,ボタン403を押下する。ボタン403を押下するまでは,カメラ102は自動的に一定の時間の間隔で画像を撮り,撮った画像は一定の間隔で自動的に新たに表示しなおされるようにする。ボタン403を押下すると,携帯端末101は予め定められた手順に従い,画像を記憶装置107に入力し,自動的に文字行を切出す。入力する画像は,カラー画像,もしくは多値画像とする。文字行切出しには,非特許文献2のような方式を用いる。画像中から複数の文字行が切出された場合には,認識対象を画面中央に撮影するようにユーザに予め指示しておけば、最も中央に近いものを選択して文字行切出し結果とすればよい。なお,「英和辞典」が選択されている場合には,文字行切出し処理として,非特許文献3のような,本来は単語切出しの方式であるものを用い,得られた単語の内,最も画面の中央に近いものを文字行切出し結果とする。本実施例では,オブジェクト108に機能に応じた適切な文字行切出し処理の手順を予め記憶しておく。なお,オブジェクト108に複数の処理手順を格納しておき,サービスに対応する識別子122に応じて処理を切り替えるようにしてもよい。
【0030】
図7に文字行切出し結果表示209における携帯端末101の状態を示す。表示面402上には,認識要求がなされた時点での画像に,切出された文字行の外接矩形701を表示する。この時点でカーソルキー405を操作することにより,認識対象の文字行の位置を修正することができる。また,ボタン403を押下することで,画象符号化211を起動される。
【0031】
図8に,翻訳結果表示219における携帯端末101の状態を示す。表示面402上には,翻訳結果の文字列801に加え,必要に応じて認識要求がなされた時点での画像と,切出された文字行の外接矩形701を表示する。
【0032】
図9に,画象符号化211から文字行画像転送に至る処理のデータフローを示す。まず,画像切抜き処理901において,文字行切出し結果に基づき,入力画像から文字行部分を切り抜く。切り抜いた結果は例えば,図10のようになる。切り抜かれた画像は,カラー画像,多値画像とする。次に,切り抜いた画像を二値化する。二値化には,非特許文献4や,非特許文献5のように,様々な方式がある。ここでは,902,903,904において3つの異なる方式で二値化を行う。得られた二値画像をおのおの905,906,907にて符号化する。ここでは,例えば,非特許文献6のような,二値画像に対して高い圧縮率で符号化が可能な方式を用いる。得られた符号とオブジェクトに記憶している識別子とを合わせて908にて認識サーバ115へ送信する。
【0033】
認識サーバ115での認識処理の手順を図13に示す。まずステップ1301にて,受信した識別しに応じて文字識別辞書と言語辞書を選択する。次に,受信した全ての符号化された画像について,ステップ1302にて画像を復元し,ステップ1303にて文字列を認識する。文字列の認識には,非特許文献7にあるような方式で,転送された画像から文字列を認識する。図2に示すように,本実施例では,文字切出し,文字識別,後処理を逐次的に実行しているが,非特許文献8にあるように,これらを統合した処理を実行してもよい。全ての符号化された画像を処理した後,それらから得られる文字列認識結果で最適なものをステップ1304にて選択し,最終的な認識結果とする。上に例として挙げた文字列認識方式では,認識結果の文字列とともに,その確信度の値を得ることができる。ステップ1304では,もっとも確信度の値が高いものを最終的な認識結果として選択する。
【0034】
図14はステップ1301にて辞書を選択する際に参照するテーブルを示す。このテーブルは,認識サーバ115の記憶装置118に予め記憶しておく。テーブル中の各レコードは識別子1401,識別辞書名1402,言語辞書名1403の3つの要素を持つ。例えば,本実施例では,識別子の値11は英語翻訳を,12は英和辞典を,13は日本語検索を,14はWEBを示す。識別子の値が1,2,4の場合,ステップ1301では文字識別辞書として英字辞書「E.cdc」を,識別子の値が2の場合は日本語辞書「J.cdc」を選択する。また,言語辞書としては,識別子の値が1または2の場合には,英語辞書「e.ldc」を,3の場合は日本語辞書「j.ldc」を,4の場合はWEBの表記規則を表す辞書「w.ldc」を選択する。
【0035】
上で述べたように,本実施例では,認識対象に応じて認識サーバで文字識別辞書と言語辞書を切り替える。別の実施例として,認識対象ごとに異なる認識サーバを用いるようにしてもよい。また本実施例では,アプリケーションサーバ内で識別子に応じてサービスを切り替えている。別の実施例として,複数のアプリケーションサーバを用いるようにしてもよい。
【0036】
図15は本実施例におけるオブジェクト,サービスを指定する識別子,文字識別辞書,言語辞書,サービスの管理の方法を模式的に示している。主サーバには,複数のオブジェクトが格納されている。主サーバは,オブジェクト要求の際に携帯端末から送信されるオブジェクト要求番号に応じて,格納している1つ以上のオブジェクトから適切なものを選択し,携帯端末へ転送する。転送するオブジェクトには,認識サーバアドレスと識別子を格納しておく。携帯端末は,オブジェクトに格納されている識別子と符号化した画像とを,オブジェクトに格納されているアドレスの認識サーバへ送信する。認識サーバは,受信した識別子に応じ,文字識別辞書と言語辞書を切り替えて文字列を認識する。さらに,認識サーバは,予め記憶してあるアドレスのアプリケーションサーバへ,文字列認識結果と識別子とを送信する。
【0037】
図16は,本発明の別の実施例におけるオブジェクト,サービスを指定する識別子,文字識別辞書,言語辞書,サービスの管理の方法を模式的に示している。本実施例では,図15とほぼ同じであるが,複数の認識サーバを設け,各認識サーバはひとつづつの文字識別辞書と言語辞書を記憶する点で異なる。各オブジェクトには,サービスの対象に応じた文字列認識を行う認識サーバのアドレスを格納しておく。これにより,認識サーバの構成を単純にし,認識サーバの記憶装置や演算装置を効率よく使うことが可能となる。
【0038】
図17は,本発明の別の実施例におけるオブジェクト,サービスを指定する識別子,文字識別辞書,言語辞書,サービスの管理の方法を模式的に示している。本実施例では,図16とほぼ同じであるが,各オブジェクトに複数の識別子と認識サーバアドレスを格納する点で異なる。これにより,オブジェクトを携帯端末に転送した後,操作者がサービスを携帯端末上で指定することが可能となる。
【0039】
図18は,本発明の別の実施例におけるオブジェクト,サービスを指定する識別子,文字識別辞書,言語辞書,サービスの管理の方法を模式的に示している。本実施例は,図15とほぼ同じであるが,認識サーバに複数のアプリケーションサーバのアドレスを記憶しておき,携帯端末から送信された識別子に応じてアプリケーションサーバを選択するようにし,各アプリケーションサーバはひとつのサービスのみを司る点で異なる。これにより,アプリケーションサーバの構成を単純にし,アプリケーションサーバの記憶装置,演算装置を効率よく使うことが可能となる。
【0040】
図19は,本発明の別の実施例におけるオブジェクト,サービスを指定する識別子,文字識別辞書,言語辞書,サービスの管理の方法を模式的に示している。本実施例では,図16とほぼ同じであるが,各オブジェクトにアプリケーションサーバのアドレスを格納する点で異なる。これにより,アプリケーションサーバのアドレスの変更が頻繁にある場合でも,主サーバ上のオブジェクトだけを変更すればよく,認識サーバに記憶するアプリケーションサーバのアドレスを変更する必要がなくなる。
【0041】
図20は,本発明の別の実施例におけるオブジェクト,サービスを指定する識別子,文字識別辞書,言語辞書,サービスの管理の方法を模式的に示している。本実施例は,図16とほぼ同じであるが,認識サーバ毎に異なるアプリケーションサーバのアドレスを記憶しておき,各アプリケーションサーバはひとつのサービスのみを司る点で異なる。これにより,アプリケーションサーバの構成を単純にし,アプリケーションサーバの記憶装置,演算装置を効率よく使うことが可能となる。
【0042】
図21は,本発明の別の実施例におけるオブジェクト,サービスを指定する識別子,文字識別辞書,言語辞書,サービスの管理の方法を模式的に示している。本実施例は,図20とほぼ同じであるが,アプリケーションサーバを廃し認識サーバでサービスを司る点で異なる。これにより,サーバの台数を削減することが可能となる。
【0043】
図22は,本発明の別の実施例におけるオブジェクト,サービスを指定する識別子,文字識別辞書,言語辞書,サービスの管理の方法を模式的に示している。本実施例は,図15とほぼ同じであるが,アプリケーションサーバを廃し認識サーバでサービスを司る点で異なる。これにより,サーバの台数を削減することが可能となる。
【0044】
図23は,本発明の別の実施例におけるオブジェクト,サービスを指定する識別子,文字識別辞書,言語辞書,サービスの管理の方法を模式的に示している。本実施例は,図22とほぼ同じであるが,認識サーバを廃し主サーバで文字列認識とサービスを司る点で異なる。これにより,サーバの台数を削減することが可能となる。
【0045】
【発明の効果】
本発明の第一の効果は,通信量の削減である。携帯端末上で文字行を切出してサーバに送信するため,画像全体を送信する場合や,大まかに指定した領域の画像を送信する場合に比べ,データの通信量が少なくすることができる。また,画像入力,文字行切出し,画像符号化の手順を格納するオブジェクトを予め携帯端末へ転送する必要があるが,このオブジェクトには,文字識別辞書,言語辞書などは含まれておらず,転送の際の通信量は少なくできる。
【0046】
本発明の第二の効果は,操作性の向上である。携帯端末上で自動的に文字行切出しを行うため,人手により文字行領域を細かく指定する必要がなくなる。また,文字行切出し結果は即時に表示するとともに,必要に応じた修正を可能とするため,操作者の意図どおりの領域を読取ることが可能となる。
【0047】
本発明の第三の効果は,携帯端末の記憶装置の有効利用である。本発明では,文字識別辞書,言語辞書をサーバに格納するため,携帯端末に必要な記憶容量は少なくてすむ。また,画像入力,文字行抽出の手順を格納するオブジェクトも,不要の際には削除することが可能である。
【図面の簡単な説明】
【図1】本発明の第一の実施例の構成図。
【図2】本発明の第一の実施例の実行手順を示す図。
【図3】本発明の第一の実施例における携帯端末の正面図。
【図4】本発明の第一の実施例における携帯端末の背面図。
【図5】本発明の第一の実施例におけるオブジェクト要求操作を実行する際の携帯端末の背面図。
【図6】本発明の第一の実施例における認識要求操作を実行する際の携帯端末の背面図。
【図7】本発明の第一の実施例における文字行切出し結果表示時の携帯端末の背面図。
【図8】本発明の第一の実施例における翻訳結果表示時の携帯端末の背面図。
【図9】本発明の第一の実施例における画像符号化から文字行画像転送に至る処理のデータフロー図。
【図10】本発明の第一の実施例における文字行画像切抜き処理の結果の模式図。
【図11】本発明の第一の実施例における文字行画像の二値化処理の結果の模式図。
【図12】本発明の第一の実施例におけるメニュー表示とオブジェクト要求に用いるテーブルを示す図。
【図13】本発明の第一の実施例における認識サーバでの処理の手順を示す図。
【図14】本発明の第一の実施例における認識サーバで辞書を選択する際に参照するテーブルを示す図。
【図15】本発明の第一の実施例におけるオブジェクト,識別子,言語辞書,文字識別辞書,サービスの管理を模式的に示す図。
【図16】本発明の第二の実施例におけるオブジェクト,識別子,言語辞書,文字識別辞書,サービスの管理を模式的に示す図。
【図17】本発明の第三の実施例におけるオブジェクト,識別子,言語辞書,文字識別辞書,サービスの管理を模式的に示す図。
【図18】本発明の第四の実施例におけるオブジェクト,識別子,言語辞書,文字識別辞書,サービスの管理を模式的に示す図。
【図19】本発明の第五の実施例におけるオブジェクト,識別子,言語辞書,文字識別辞書,サービスの管理を模式的に示す図。
【図20】本発明の第六の実施例におけるオブジェクト,識別子,言語辞書,文字識別辞書,サービスの管理を模式的に示す図。
【図21】本発明の第七の実施例におけるオブジェクト,識別子,言語辞書,文字識別辞書,サービスの管理を模式的に示す図。
【図22】本発明の第八の実施例におけるオブジェクト,識別子,言語辞書,文字識別辞書,サービスの管理を模式的に示す図。
【図23】本発明の第九の実施例におけるオブジェクト,識別子,言語辞書,文字識別辞書,サービスの管理を模式的に示す図。
【図24】一般的な文字認識処理のデータフロー図。
【符号の説明】
101:携帯端末,102:カメラ,103:演算装置,104:表示装置,105:入力装置,106:通信装置,107:記憶装置,108:オブジェクト,109:画像入力手順格納部,110:文字行切出し手順格納部,111:画像符号化手順格納部,112:制御・通信手順格納部,113:表示手順格納部,114:ネットワーク,115:認識サーバ,116:通信装置,117:演算装置,118:記憶装置,119:主サーバ,120:通信装置,121:演算装置,122:記憶装置,123:二次記憶装置,124:オブジェクト記憶部,125:アプリケーションサーバ,201:オブジェクト要求操作,202:オブジェクト要求,203:オブジェクト選択,204:オブジェクト転送,205:オブジェクト転送完了表示,206:認識要求操作,207:画像入力,208:文字行切出し,209:文字行切出し結果表示,210:確認/修正操作,211:画像符号化,212:文字行画像転送,213:文字切出し,214:文字識別,215:後処理,216:認識結果文字列転送,217:翻訳,218:翻訳結果転送,219:翻訳結果転送,220:翻訳結果表示,301:筺体,302:レンズ,402:表示面,403:ボタン,404:ボタン,405:カーソルキー,501:メニュー,701:文字行切出し結果,801:翻訳結果,901:画像切抜き処理,902:第1の二値化処理,903:第2の二値化処理,904:第3の二値化処理,905,906,907:符号化,908:送信,1201:メニュー表示に用いる文字列,1202:オブジェクト要求番号,1301:辞書選択,1302:画像復元,1303:文字列認識,1304:最適認識結果選択,1401:識別子,1402:文字識別辞書名,1403:言語辞書ファイル名。

Claims (13)

  1. 画像入力手段と演算手段と記憶手段と通信手段を有する第一の計算機と,演算手段と記憶手段と通信手段を有する第二の計算機とを有する文字認識システムにおける文字認識方法であって,
    上記第一の計算機において画像を入力し,該画像中から文字行を切出して文字行切出し情報を作成して上記第二の計算機へ転送し,上記第二の計算機において受信した文字行切出し情報から文字を認識することを特徴とする文字認識方法。
  2. 上記第一の計算機は、上記文字行切出し情報を符号化して上記第二の計算機へ転送することを特徴とする請求項1記載の文字認識方法。
  3. 上記第一の計算機は画像表示手段を有し,上記第一の計算機で文字行を切出した結果を表示することを特徴とする請求項1の文字認識方法。
  4. 上記第一の計算機において複数の異なる方法で文字行部分の画像を符号化し,異なる方法で符号化された複数個の文字行部分の画像を上記第二の計算機へ転送することを特徴とする請求項2の文字認識方法。
  5. 上記第一の計算機から文字行切出し情報とともに識別子を第二の計算機に転送し,上記第二の計算機は複数の文字列認識手段を有し,上記第二の計算機は受信した識別子に応じて文字列認識手段を切り替えて文字行切出し情報から文字を認識することを特徴とする請求項1の文字認識方法。
  6. 上記文字認識システムは演算手段と記憶手段と通信手段を有する第三の計算機をさらに有し、
    上記第三の計算機から上記第一の計算機が行う上記文字行の切出しのためのプログラムを上記第一の計算機に転送することを特徴とする請求項1記載の文字認識方法。
  7. え第三の計算機から上記プログラムとともに識別子を上記第一の計算機に転送し,上記第一の計算機から上記文字行切出し情報とともに上記第三の計算機から受信した識別子を上記第二の計算機に転送し,上記第二の計算機は複数の文字列認識手段を有し,該受信した識別子に応じて文字列認識手段を切り替えて上記文字行切出し情報から文字を認識することを特徴とする請求項6の文字認識方法。
  8. 上記文字認識システムは演算手段と記憶手段と通信手段を有する第三の計算機をさらに有し、
    上記第三の計算機から上記第二の計算機のアドレスを上記第一の計算機に転送し,上記第一の計算機は該転送されたアドレスにしたがって上記第二の計算機へ上記文字行切出し情報を転送することを特徴とする請求項1記載の文字認識方法。
  9. 請求項1から8のいずれかの文字認識方法で認識した結果の文字列を,第四の計算機で処理し,その結果を第一の計算機に表示することを特徴とする情報処理方法。
  10. 画像入力手段と演算手段と記憶手段と通信手段を有する第一の計算機と,演算手段と記憶手段と通信手段を有する第二の計算機とを有する文字認識システムにおける上記第一の計算機に、入力画像中から文字行を検出する手順と,該検出した文字行の画像を符号化する手順と,該符号化した文字行画像を上記第二の計算機へ送信する手順と,該文字行画像から認識された文字列を上記第二の計算機から受信する手順と,上記受信した文字列を表示する手順を格納することを特徴とするプログラム。
  11. 上記文字行の検出結果を表示手段を格納し,該文字行の検出結果の表示後,該表示内容に対する確認操作を受付け,確認後に文字行画像を送信することを特徴とする請求項10のプログラム。
  12. 文字行画像の送信先のアドレスを格納することを特徴とする請求項10のプログラム。
  13. 画像入力手段と演算手段と記憶手段と通信手段を有する第一の計算機と,演算手段と記憶手段と通信手段を有する第二の計算機とを有する文字認識システムにおける上記第一の計算機に、入力画像中の一部分を符号化する手順と,該符号化した部分画像を上記第二の計算機に送信する手順と,上記第二の計算機から該部分画像から認識された文字列を受信する手順と,上記入力画像の少なくとも一部と上記受信した文字列とを同時に表示する手順を格納することを特徴とするプログラム。
JP2003201455A 2003-07-25 2003-07-25 携帯型文字認識装置 Pending JP2005044052A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003201455A JP2005044052A (ja) 2003-07-25 2003-07-25 携帯型文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003201455A JP2005044052A (ja) 2003-07-25 2003-07-25 携帯型文字認識装置

Publications (1)

Publication Number Publication Date
JP2005044052A true JP2005044052A (ja) 2005-02-17

Family

ID=34261510

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003201455A Pending JP2005044052A (ja) 2003-07-25 2003-07-25 携帯型文字認識装置

Country Status (1)

Country Link
JP (1) JP2005044052A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007018166A (ja) * 2005-07-06 2007-01-25 Nec Corp 情報検索装置、情報検索システム、情報検索方法及び情報検索プログラム
JP2011034284A (ja) * 2009-07-31 2011-02-17 Casio Computer Co Ltd 文字読取装置、その制御方法及びプログラム
WO2011077648A1 (ja) * 2009-12-25 2011-06-30 株式会社スクウェア・エニックス リアルタイムなカメラ辞書
JP2012043079A (ja) * 2010-08-17 2012-03-01 Yahoo Japan Corp 情報表示装置、方法及びプログラム
WO2012036345A1 (ko) * 2010-09-17 2012-03-22 주식회사 엔웨이브 서버 연동 통페이지 광학문자 인식 및 사전 검색 시스템 및 방법
JP2019139383A (ja) * 2018-02-07 2019-08-22 グローリー株式会社 文字認識システム、文字認識プログラム、文字認識方法、文字鮮明化システム、文字鮮明化プログラム、及び文字鮮明化方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007018166A (ja) * 2005-07-06 2007-01-25 Nec Corp 情報検索装置、情報検索システム、情報検索方法及び情報検索プログラム
JP2011034284A (ja) * 2009-07-31 2011-02-17 Casio Computer Co Ltd 文字読取装置、その制御方法及びプログラム
WO2011077648A1 (ja) * 2009-12-25 2011-06-30 株式会社スクウェア・エニックス リアルタイムなカメラ辞書
US8903131B2 (en) 2009-12-25 2014-12-02 Kabushiki Kaisha Square Enix Real-time camera dictionary
JP2012043079A (ja) * 2010-08-17 2012-03-01 Yahoo Japan Corp 情報表示装置、方法及びプログラム
WO2012036345A1 (ko) * 2010-09-17 2012-03-22 주식회사 엔웨이브 서버 연동 통페이지 광학문자 인식 및 사전 검색 시스템 및 방법
JP2019139383A (ja) * 2018-02-07 2019-08-22 グローリー株式会社 文字認識システム、文字認識プログラム、文字認識方法、文字鮮明化システム、文字鮮明化プログラム、及び文字鮮明化方法

Similar Documents

Publication Publication Date Title
US10417514B2 (en) Apparatus and method for reproducing handwritten message by using handwriting data
US7933453B2 (en) System and method for capturing and processing business data
US9930170B2 (en) Method and apparatus for providing phonebook using image in a portable terminal
US6366698B1 (en) Portable terminal device for transmitting image data via network and image processing device for performing an image processing based on recognition result of received image data
CN1278533C (zh) 可自动录入文字、图像的手机及其录入与处理方法
US20120011429A1 (en) Image processing apparatus and image processing method
JPWO2007004519A1 (ja) 検索システム及び検索方法
US20050268231A1 (en) Method and device for inputting Chinese phrases
KR20100120753A (ko) 문자인식을 위한 이미지 센서 및 이미지 센싱 방법
CN101833661A (zh) 字符识别装置、字符识别程序及字符识别方法
JP4668345B1 (ja) 情報処理装置、および情報処理装置の制御方法
JP2005044052A (ja) 携帯型文字認識装置
JP4597644B2 (ja) 文字認識装置、プログラムおよび記録媒体
WO2009128633A2 (en) Communication terminal and method of providing unified interface to the same
CN101668071A (zh) 具备扫描功能的移动通信终端及其实现方法
JP4800144B2 (ja) 文字列判定装置、文字列判定方法、文字列判定プログラムおよびコンピュータ読み取り可能な記録媒体
CN112446297B (zh) 一种电子助视器及其适用的智能手机文本辅助阅读方法
JP5428911B2 (ja) 携帯端末装置、電話帳検索方法及び電話帳検索プログラム
CN113835590A (zh) 显示方法、信息发送方法和电子设备
JP4802502B2 (ja) 単語認識装置および単語認識方法
CN102854995A (zh) 一种具有摄像装置的手机的输入方法、输入系统和手机
JP2005135210A (ja) 文字認識機能を有する携帯機器
JP2005057360A (ja) 画像撮影装置およびプログラム
KR20050003075A (ko) 문자인식기능과 전자사전을 구비하는 휴대통신장치및 문자인식기능을 구비하는 전자사전
CN110062123A (zh) 图像通信装置、控制方法

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20050223

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060217

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060511

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060511

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090216

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090422

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090601

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20090703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110111