JP4443194B2 - 携帯端末の文字認識における処理対象選択方法および携帯端末 - Google Patents

携帯端末の文字認識における処理対象選択方法および携帯端末 Download PDF

Info

Publication number
JP4443194B2
JP4443194B2 JP2003379288A JP2003379288A JP4443194B2 JP 4443194 B2 JP4443194 B2 JP 4443194B2 JP 2003379288 A JP2003379288 A JP 2003379288A JP 2003379288 A JP2003379288 A JP 2003379288A JP 4443194 B2 JP4443194 B2 JP 4443194B2
Authority
JP
Japan
Prior art keywords
image
character
character recognition
recognition
displayed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003379288A
Other languages
English (en)
Other versions
JP2005141603A (ja
Inventor
理雄 酒井
充寿 日間賀
日佐男 緒方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Omron Terminal Solutions Corp
Original Assignee
Hitachi Omron Terminal Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Omron Terminal Solutions Corp filed Critical Hitachi Omron Terminal Solutions Corp
Priority to JP2003379288A priority Critical patent/JP4443194B2/ja
Priority to TW093129992A priority patent/TWI294100B/zh
Priority to KR1020040089371A priority patent/KR100615058B1/ko
Priority to CNB2004100889727A priority patent/CN1292377C/zh
Publication of JP2005141603A publication Critical patent/JP2005141603A/ja
Application granted granted Critical
Publication of JP4443194B2 publication Critical patent/JP4443194B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/0202Portable telephone sets, e.g. cordless phones, mobile phones or bar type handsets
    • H04M1/026Details of the structure or mounting of specific components
    • H04M1/0264Details of the structure or mounting of specific components for a camera module assembly

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Character Input (AREA)
  • Telephone Function (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は携帯情報端末における光学式文字認識を行う際の処理対象選択方法に関するものである。
カメラ等の画像入力機能を搭載した携帯情報端末において、撮影した画像に対して光学式文字認識を実施する技術が開発されている。しかし、携帯情報端末のカメラで撮影された画像は手ブレなどの要因により画面に対して文字列が傾いて撮影される場合が多い。そこで、文字認識結果が誤っている(誤読)場合には再度使用者に撮影時の角度を調整しながら撮影させるか、認識結果をキーボード等の入力装置で修正している。
認識処理に先立って認識対象文字列の傾きを補正する技術としては、認識対象文字列の記入された用紙にあらかじめ記載済みの2つ以上の目印を検出し、これから得られた傾きに応じて、自動的に回転を行った後認識する試みが特許文献1に開示されている。
また、携帯情報端末において、英単語を認識して英和辞書を引くといった文字認識と辞書検索を結合した使い方が非特許文献1に開示されている。
特開平11−250179号公報(4〜7項、第3図)
H. Fujisawa, H. Sako, Y. Okada, and S-W. Lee, "Information Capturing Camera and Developmental Issues," In Proc. Int. Conf. Document Analysis and Recognition, ICDAR'99, Bangalore, India, Sep. 20-22, 1999, pp. 205-208.
文字認識処理を精度良く実施する為には、画像内で認識対象の文字列が傾斜していないことが重要である。ところが、デジタルカメラやカメラ付き携帯端末等の情報端末装置にて撮影したデジタル画像の場合、当該情報端末装置を手で保持する場合が多く、認識対象の文字列が画像内で傾かないようにするためには撮影時に特段の注意が必要である(第一の課題)。
カメラ機能付き携帯端末にて撮影された画像に対する光学式文字認識機能において文字列が傾いて撮影された場合、従来技術では文字認識が不可能、或いは十分な認識精度が出ないという問題がある。そのため、正しい文字認識結果を得るためには、再度認識対象の文字を撮影しなければならないという課題がある。
特許文献1には用紙に記載されている2つ以上の目印によって傾きを検出する旨が記載されているが、この技術は認識対象の用紙にあらかじめ目印を印字もしくは記入しておく必要があり、名刺などを認識する場合には実用的ではない。
また、過去に撮影済の画像に対して文字認識処理を実施する場合は、上記の特段の注意を払って撮影されていない限り、認識対象文字列が画像内で傾斜している場合がある。この場合は文字認識処理を実施する前に画像処理ソフトウェア等を用いて画像の角度補正をする必要がある(第二の課題)。
更に、文字の記述方向が縦書きと横書きの2通りがある場合、画像の角度を調整して認識対象文字列を抽出したとしても、文字認識にあたっては認識対象文字列が縦書きなのか横書きなのかを設定する必要がある。名刺等の画像を取得して文字認識処理を実施する場合、縦書きと横書きのフォーマットが存在するため、その都度認識モードを設定しなおさなければいけないと問題がある。また新聞、雑誌等、縦書き文字列と横書き文字列が混在している文書においても文字の記述方向切り替えの負担は大きい(第三の課題)。
カメラ付携帯情報端末等の装置を利用する場合、乗り物での移動中など、画像の安定した位置で撮影しにくい環境下での利用が十分考えられる。しかし、従来技術では認識対象文字列が画像に対して傾斜が小さく抑えられた状態で選択されなければ文字認識精度が十分得られなかった。その為、使用者は認識対象画像を撮影する際に角度を調整する為に特段の注意が必要であった(第四の課題)。
加えて、カメラ付き携帯情報端末において文字認識した結果を用いて辞書検索やインターネットの検索を行おうとした場合、英単語の場合は空白により単語単位に分かれているので検索対象の単語を選択するのは容易である。しかし、同様な処理を日本語に適用しようとすると、英単語の場合と異なり、単語間の空白といったレイアウト情報による区切りが存在しないので、使用者は検索対象の文字列を1文字ずつ選択する必要があり、指定の負担が大きかった(第五の課題)。
本発明はこれらの課題を鑑みて、カメラ機能付き携帯情報端末にて文字認識対象物を撮影する際の撮影者負担を軽減する、又は撮影後の画像を文字認識に好適な角度に補正する際の負担を軽減するシステムまたは方法を提供することを目的とする。
更に、日本語を文字認識して辞書やインターネットの検索をする場合でも、検索対象の文字列指定する使用者の負担を軽減するシステム、または方法を提供することを目的とする。
上記第一の課題を解決するため、認識対象文字列の画像内での傾きの程度をリアルタイムで撮影者に呈示する角度インジケータを情報端末装置の画面上に表示する。使用者は角度インジケータに表示される情報を見つつ情報端末装置または認識対象物を動かし、適切な位置で撮影することにより文字認識処理に好適な画像を撮影することができる。
上記第二の課題を解決するために、撮影済みの画像を回転すると同時に認識対象となりうる文字列の行抽出をリアルタイムで実施する機能を提供する。使用者は簡単なキー操作等によって撮影済み画像を情報端末装置の画面上で回転させ、リアルタイムで行抽出される認識対象文字列候補を確認する。所望の認識対象文字列が抽出された時点で使用者は回転処理を停止、複数の行が抽出されている場合は認識したい文字列を選択して認識処理を実行することにより、過去に撮影済の画像に対する文字認識処理の簡便化を図る。
上記第三の課題を解決するために、該認識対象文字列が縦書きか横書きかを自動的に判定する機能を提供する。該認識対象文字列方向の自動判定には抽出された認識対象文字列の外接矩形のアスペクト比を用いる。具体的には認識対象文字列の外接矩形の高さと幅の比率が規定値と比較して縦書き文字列なのか横書き文字列なのかを判断して認識処理を実施する。使用する携帯端末装置の画面の向きが可変の場合には、画面の方向に応じて縦書き・横書きの切り替えを自動的に実施してもよい。
上記第四の課題を解決するために、認識対象文字列の傾斜角度に追従して自動的に認識対象文字列を選択するための外接矩形を生成する手段を提供する。具体的には、認識対象文字列の傾斜角度を例えば特開平7−141465「文書画像の傾き検出方法」の方法を用いて計測し、認識対象文字列が横書きの場合は画像に対して水平位置に、縦書きの場合は画像に対して垂直位置になるように回転した画像を作成する。その後認識対象文字列の外接矩形を生成し、該回転後画像に追加した回転外接矩形画像を作成する。続いて該回転外接矩形画像を回転して基の文字列の傾斜角度に戻し、情報端末装置の表示装置に表示する。
上記第五の課題を解決するために、日本語を文字認識した結果に対して形態素解析を行い、検索対象の文字列候補を自動的に生成し、使用者はそれらの個々の候補を選択、あるいは、それらの文字列候補の組み合わせを選択する手段を提供する。
認識対象の画像の傾き具合を視覚的に分かりやすく表示することで、使用者に画像が傾いていることを認知させ、文字認識処理に好適な角度で画像を撮影することが容易になる。
また、過去に撮影された画像に関しては、傾いている画像を直接編集してその結果に対して文字認識処理を実施できるため、再度撮影を行わなくてすむようになる。
また、角度補正が困難な場合にも、傾斜した状態で文字列の選択が可能となるため、有る程度傾斜した画像に対しても文字認識処理が実行できる。
図1〜20を用いて本発明に好適な一実施形態を説明する。本発明の文字認識方式は名刺等を読み取って認識する携帯情報システム等に適用でき、例えば携帯電話での文字認識機能に適用できる。
図1は、本発明を適用した携帯情報端末のブロック図の一例である。本例では、携帯情報端末本体100、認識対象となる名刺等を光学的に入力するカメラやスキャナなどの画像入力装置110、認識対象の画像や文字認識結果、カーソル121等を表示するCRTや液晶などの表示装置120、使用者が操作できるボタン131等を配置した入力装置130、携帯情報端末全体の制御を行うため、端末本体100内に搭載された制御部140および文字行抽出151、文字認識処理152等を行う文字認識部150、文字行傾きの定量化機能161および画像回転処理機能162もつ画像処理部160を有する。
文字認識部150と画像処理部160はソフトウェアの機能であってよく、制御部140と同じ回路上で動作して差し支えない。入力装置はボタン等の一般的なデバイスで問題ないが、操作性の向上のために表示装置120と入力装置130はタッチパネル等の表示装置兼入力装置として実現することもできる。
図2は、第一の課題を解決するための手段を適用した文字認識処理を実施する場合のフローチャートの一例である(第一の実施形態)。使用者がOCR機能を開始すると、画像入力装置110から入力される動画像が表示装置120表示される(S201)。文字認識部150はただちに画像表示装置120に表示される十字型等のカーソル121のある領域に対して文字行抽出処理を実行し(S202)、抽出された文字行を取り囲む外接矩形を表示する(S203)。
同時に画像処理部160により文字の傾きを定量化し、その定量化された値を棒グラフ等の形で角度インジケータ123に可視化する(S204)。定量化した値は文字行と画像の傾きの程度を反映していれば何でもよいが、例えば文字行と画像端辺の作る角度θの逆数に比例する値を採用すれば、傾きが小さい時に角度インジケータ123に大きな値が示され、使用者は直感的に操作できる。
使用者が撮影ボタンを押下(S205)するまではステップ(S201)に処理は戻り、以降(S201〜S204)の処理を繰り返して画面表示を更新し続ける。
角度インジケータ123を参考に使用者が端末装置または認識対象物を動かして、適切な撮影位置で撮影ボタンを押下(S205)したら画像撮影(S206)を実行する。引き続き認識ボタンの押下(S207)があればステップ(S203)で表示された外接矩形内の文字列に対して文字認識処理210を実行し認識結果を表示する(S211)。
撮影ボタンを押下(S205)した後にキャンセルボタンが押下された場合(S208)は撮影した画像を破棄してステップ(S201)へ戻る。それ以外のボタンが押下された場合はそれぞれ必要な動作に移行する(S209)。
図3は、第二の課題を解決するための手段を適用した文字認識処理を実施する場合のフローチャートの一例である(第二の実施形態)。携帯情報端末の使用者が以前撮影された静止画像をロード(S301)する操作を行うと、該静止画像が表示装置120に表示される(S302)。文字認識部150はただちに文字行抽出(S303)、外接矩形表示(S304)および角度インジケータ表示(S305)を行う。この時点で処理は使用者のキー入力待ち(S306)に移行する。
使用者が認識実行ボタンを押下(S307)した場合はただちにステップ(S304)で表示されている外接矩形の内部の文字列に対して文字認識処理を実行(S310)し、文字認識結果を表示する(S311)。使用者が矢印ボタンを押下(S308)した場合は、押下されたボタンによって右または左方向に一定角度画像を回転する(S309)。このとき、回転の中心は文字行矩形の中心とするが、使用者によって指定する画像上の一点を中心に回転処理を行っても良い。
矢印ボタンを押下し続けた場合は画像は連続して回転するものとし、それに従って外接矩形表示もリアルタイムに更新される。使用者の使い勝手を考慮して認識実行ボタン押下の操作を矢印ボタン押下をやめる(ボタンから指を離す)動作で代行させてもよい。
図4は第一の実施形態および第二の実施形態で表示部120に表示される画像の一例である。第一の実施形態では画像入力装置110から入力された動画が、第二の実施形態は以前に撮影された静止画が画像400として表示部120に表示される。
画像400内の認識対象文字列401はこの時点では傾いている。画面の中央には回転中心となる十字カーソル402が表示されている。文字認識部150は認識対象文字列401を取り囲む外接矩形403を生成、画面上に表示する。角度インジケータには傾いた認識対象文字列401の傾き程度を表す棒グラフが表示される(404)。
第一の実施形態では手で保持している携帯情報端末(カメラ)を回転(406)することにより、また、第二の実施形態では矢印キーを操作する(405)ことにより画面上に表示される画像を回転する。画像の回転に従って認識対象文字列401の傾きが小さくなるにつれ、外接矩形も同期して形状が変化する(407)。
さらに、角度インジケータには認識対象文字列401の傾きが小さくなったことを示す大きな値が棒グラフとして表示される(408)。利用者は画像の回転操作を繰り返して角度インジケータの示す値が大きくなる位置で文字認識処理を実行することにより、精度の高い文字認識結果を得ることが可能となる。
図5は、第三の課題を解決するための手段を適用した文字認識処理を実施する場合のフローチャートの一例である(第三の実施形態)。ステップ(S501〜S506)はステップ(S201〜S209)と同様なので説明は省略する。
認識ボタン押下(S504)された時点で、認識対象文字列の外接矩形のアスペクト比(高さと幅の比率)を計算し、あらかじめ規定した値αと比較する(S507)。もしアスペクト比が規定値αよりも大きければ縦書き文字列と判断、縦書き文字列認識用のパラメータ設定等を実施(S510)して文字認識処理を実施(S511)、結果を表示する(S512)。
同様に、もしアスペクト比が規定値αよりも大きくなければ引き続いてアスペクト比を規定値βと比較する(S508)。もしアスペクト比が規定値βよりも小さければ横書き文字列と判断、横書き文字列認識用のパラメータ設定等を実施(S509)して文字認識処理を実施(S511)、結果を表示する(S512)。アスペクト比がα以下かつβ以上の範囲であれば文字列は十分角度補正されていないとして認識処理に移行しない。
図6は第三の実施形態で表示部120に表示される画像の一例である。横書きの文字列601の場合は、外接矩形の高さ602が幅603に対して小さくなる。アスペクト比を外接矩形の高さ/外接矩形の幅と定義すると、アスペクト比が1より小さい場合は外接矩形は横長となる。
例えば、アスペクト比と比較する規定値βを0.5と設定した場合、アスペクト比が0.5を下回った状態で文字認識を起動すれば横書き文字列として必要な設定を自動的に実施する。同様に縦書き文字列604の場合は、外接矩形の高さ605が幅606に対して大きくなる。
上記と同様のアスペクト比の定義であれば、アスペクト比が1より大きい場合は外接矩形は縦長となる。例えば、アスペクト比と比較する規定値αを1.5と設定した場合、アスペクト比が1.5を上回った状態で文字認識を起動すれば縦書き文字列として必要な設定を自動的に実施する。
図7は、第四の課題を解決するための手段を適用した文字認識処理を実施する場合のフローチャートの1例である(第四の実施例)。
画像入力装置110から文字認識対象画像が入力(S701)されると、画像処理部160はただちに認識対象文字列の画像に対する角度を計算し(S702)、入力された文字認識対象画像を当該角度分回転補正する。補正方向は、横書き文字列であれば画面に対して水平方向に、縦書き文字列であれば画面に対して垂直方向それぞれなるように回転する。
次に、該回転後画像に対して文字列抽出を実施し、該回転後画像に外接矩形を付加し(S704)、この画像を画像バッファに保存する。画像バッファに保存する画像は画像全体でもよいし、付加した外接矩形内部のみでもよい。
続いて該回転後画像をステップ(S702)で検出した角度分だけ逆回転して元の入力画像と同じだけ傾いた画像を作成し、端末装置の表示部120に表示する。使用者が特に操作しなければ、ステップ(S701)に戻り、新しい入力画像に対しステップ(S701〜S707)の処理を繰り返す。
もし認識ボタンが押下されれば、このステップ(S705)で画像バッファに格納された画像を読み出し(S710)、その画像に対して文字認識処理を実行(S711)、文字認識結果を表示する(S712)。
図8は第四の実施形態で処理される画像の状態の一例である。画像入力装置110から入力された認識対象画像801上の認識対象文字列802は画面に対して傾斜した状態である。画像処理部160はこの認識対象文字列802が画面の縁となす角度803を検出し、角度803だけ画像を回転、認識対象文字列が画面に対して水平になるように補正し、回転補正画像804を作成する。
回転補正画像804上の認識対象文字列806に対し、文字認識部150は文字行抽出を実施し、外接矩形806を付加する。画像処理部160はこの回転補正画像804を角度803だけ逆回転してもとの認識対象画像801と同様の角度まで戻した画像807を生成し、表示装置120に表示する。
以上の第一から第四の実施形態はそれぞれ別個に実現してもよいし、すべてまたは一部を選択的に採用する形で実現してもよい。
次に、第5の課題を解決するための第5の実施形態について図9から図12を用いて説明する。図9は、第5の実施形態を適用した携帯情報端末のブロック図の一例である。図1との差異は検索語抽出部170、電子辞書171が追加されたことである。
図10は、第5の課題を解決するための手段を適用した文字認識、辞書検索処理を図9の装置において実施する場合のフローチャートの一例である。画像入力装置110から文字認識対象画像が入力(S1001)されると、画像処理部160は適当な画像処理を元画像に対して施した後、文字認識部150の文字行抽出部151にて文字行が抽出される(S1002)。その後、抽出された文字行に対して文字行認識部152は1文字毎に文字を切出して認識した結果を出力する(S1003)。認識結果には1文字ごとの文字コードとそれに対応する矩形座標が含まれる。
文字認識した結果は検索語候補抽出部170に入力され、形態素解析により連続した文字列を単語等の形態素に分解する(S1004)。例えば、図9の携帯情報端末のディスプレイに表示されたような「文法の知識を使うと」という文字列の場合、図11に示すようなテーブル1100が生成される。形態素解析により分解された文字列とそれに対応する矩形座標が格納される。
テーブル1100のデータを用いて、携帯情報端末のディスプレイに検索対象の候補語を表示する(S1005)。例えば、カーソルの中心座標とテーブル1100の候補語矩形座標を比較し、カーソルの中心座標が含まれる候補語の矩形座標を図12の1200に示すような形でディスプレイに表示する。
次にカーソル移動キー174、あるいは、176を押下することで検索対象語の矩形表示を1201のように移動させ、検索したい矩形が表示された時に選択ボタン175を押下して検索対象語が決定される(S1006)。決定された検索対象語は電子辞書部171に対して出力される。電子辞書部171では、入力された検索対象語をキーとして電子辞書を検索し(S1007)、検索結果をディスプレイに表示する(S1008)。
本実施例では形態素解析を用いて検索対象の候補語を生成したが、認識結果の文字列中で「漢字」から「ひらがな」に変化するなど、文字のカテゴリが変わるところで区切って候補語を生成する方法でも良い。あるいは、文字カテゴリと空白や文字サイズの変化する場所など、幾何学的な情報と合わせて判断してもよい。
次に、第5の課題を解決するための第6の実施形態について図9、図10、および、図13から図15を用いて説明する。本実施例では「・・・の文法知識を使う・・・」というように、複数の形態素から構成される漢字列がある場合を取り上げ、「文法知識」の文字列のいずれかにカーソルが合わせられていると仮定する。
使用者は「文法」、あるいは、「知識」のように形態素のみを検索対象としたい場合と、「文法知識」といった複合語全体を検索したい場合が存在するので、これらの選択の負担を軽減する処理を以下で説明する。第6の実施形態において、図10の処理フローで異なる部分は候補語抽出(S1004)と候補語表示(S1005)、候補語選択(S1006)であるので、その処理についてのみ説明する。
候補語抽出(S1004)では、第5の実施例に示したのと同様な処理により形態素解析により候補語を生成し、それに対応する図13に示すような矩形座標テーブル1300を生成する。次に、テーブル1300から「文法」「文法知識」「知識」のそれぞれを選択するための領域座標テーブル1400を生成する。このテーブルは、カーソル中心座標が該当領域に入っていればそれに対応する候補語の矩形を表示するためのテーブルである。
本テーブルの矩形座標のX座標を模式的に表したのが図15である。「文法」「文法知識」「知識」のそれぞれに対応する選択領域は1500、1501、1502であり、カーソルの中心座標がいずれの領域に含まれるかにより検索候補語として表示する矩形座標をテーブル1400から選択する。そして選択された矩形座標をディスプレイに表示する(S1005)。
表示された矩形の例を図16に示す。(a)はカーソルが「知識」の選択領域にある場合の表示例、(b)は「文法知識」、(c)は「文法」それぞれカーソルが選択領域にある場合の表示例である。使用者は検索したい候補語の矩形が表示されていれば選択キー175を押下して検索対象語を選択する(S1006)。本実施例は1文字行内の文字列選択について説明したが、上限の文字行に対する領域座標テーブルを合わせて持つことにより、複数の文字行に渡る選択が可能になる。
次に、第5の課題を解決するための第7の実施形態について図9、図10、図13、図17、図18を用いて説明する。第6の実施形態と同様に「・・・の文法知識を使う・・・」というように、複数の形態素から構成される漢字列がある場合を取り上げ、カーソルは「文法」の部分に位置している場合を想定する。また、第6の実施形態と同様に候補語抽出(S1004)と候補語表示(S1005)、候補語選択(S1006)のみを説明する。
候補語抽出(S1004)では、第5の実施例に示したのと同様な処理により形態素解析により候補語を生成し、それに対応する図13に示すような矩形座標テーブル1300を生成する。テーブル1300から形態素とその複合語それぞれに対応する矩形座標テーブル1700(図17)を生成する。テーブルは左上点座標でソートされていると仮定する。
候補語表示(S1005)では、図18に示すようにカーソルの中心座標がその矩形領域に含まれる形態素の矩形(1800)を最初に表示する。次にカーソルキー176を押下する度にソートされたテーブル1700の矩形が表示されていく。使用者は検索したい矩形が表示された時点で選択キー175を押下して電子辞書を検索することができる(S1006)。
次に、第5の課題を解決するための第8の実施形態について図9、図10、図13、図19を用いて説明する。第6の実施形態と同様に「・・・の文法知識を使う・・・」というように、複数の形態素から構成される漢字列がある場合を取り上げ、カーソルは「文法」の部分に位置している場合を想定する。また、第6の実施形態と同様に候補語抽出(S1004)と候補語表示(S1005)、候補語選択(S1006)のみを説明する。
候補語抽出1004では、第5の実施例に示したのと同様な処理により形態素解析により候補語を生成し、それに対応する図13に示すような矩形座標テーブル1300を生成する。そして、カーソルの中心座標が含まれる候補語矩形を図19の1900のような形で表示する(1005)。
ここで「文法知識」のように複合語を選択したい場合は、選択範囲の始点を指定する意味を与えた「1」のキーを押下した後、カーソル移動キー176を押下して1901のような矩形が表示される。さらにカーソル移動キー176を押下すれば1902のように選択領域が拡大される。使用者がカーソルキーで適当な検索対象語の矩形が表示された時点で選択キー175を押下して検索対象語を選択する(S1006)。
次に、第5の課題を解決するための第9の実施形態について図9、図10、図20、図21を用いて説明する。「・・・の文法知識処理を・・・」というように、3つ以上の形態素から構成される漢字列がある場合を取り上げ、カーソルは「知識」の部分に位置している場合を想定する。
3つ以上の形態素から構成される漢字列の場合、通常、使用者は漢字列全体を検索対象としたいか、あるいは、カーソル中心座標が含まれている形態素のみを検索したいかのいずれかの頻度が高いと思われる。そこで、これらの選択の負担を軽減する処理を以下で説明する。また、第6の実施形態と同様に候補語抽出(S1004)と候補語表示(S1005)、候補語選択(S1006)のみを説明する。
候補語抽出(S1004)では、第5の実施例に示したのと同様な処理により形態素解析により候補語を生成すると共に候補語に対応する文字種カテゴリをと矩形座標を格納した図20に示すようなテーブル2000を生成する。ここで言う文字種カテゴリとは候補語が「漢字」に属していれば「漢字」、「ひらがな」に属していれば「ひらがな」と言った具合に、文字種のカテゴリ毎の分類結果を意味する。そして、カーソルの中心座標が含まれる候補語(形態素)と同じ文字種カテゴリを持つ候補語の矩形を統合し図21の2100のような形で表示する(S1005)。
ここで漢字列全体ではなく「知識」という候補語のみを選択したい場合は、選択のモードを切り替える意味を与えた「#」のキーを押下して2101のような矩形を表示する。さらに、「知識処理」という文字列を選択したい場合は、選択範囲の始点を指定する意味を与えた「1」のキーを押下した後、カーソル移動キー176を押下して2102のような矩形が表示される。使用者がこのようなキー操作で適当な検索対象語の矩形が表示された時点で選択キー175を押下して検索対象語を選択する(S1006)。
上記実施例では文字種のカテゴリとして「漢字」「ひらがな」のみを挙げたが、他にも「カタカナ」「英字」「数字」「記号」「外国語」など、文字種を分類する任意のカテゴリが適用される。加えて、文字種のカテゴリの代わりにその形態素が属する品詞を用いてもよい。
また、上記実施例では選択範囲の始点を指定したり、選択のモードを切り替えるために、それぞれ「1」、「#」を押下したが、同様な意味を割り当てたキーであれば任意のキーを割り当ててよい。
さらに、本実施例では十字印のカーソルの中心座標を選択情報として用いたが、同様な効果を与える方法であれば他の情報でも良い。例えば、両括弧をディスプレイに表示してその括弧の中心座標あるいは、両括弧の矩形座標を用いても良い。さらに、日本語の選択では横書きについて説明したが、同様に縦書きについても適用可能である。
また、上記実施例はそれぞれ別個に実現してもよいし、すべてまたは一部を選択的に採用する形で実現してもよい。
本発明の実施例における携帯情報端末のブロック図である。 本発明の実施例におけるフロー図である。 本発明の実施例におけるフロー図である。 本発明の実施例における角度補正の説明図である。 本発明の実施例におけるフロー図である。 本発明の実施例における画面を示すである。 本発明の実施例におけるフロー図である。 本発明の実施例における文字列外接矩形生成方式の説明図である。 本発明の実施例における携帯情報端末のブロック図である。 本発明の実施例におけるフロー図である。 本発明の実施例における矩形座標テーブルの説明図である。 本発明の実施例における検索候補語の選択方式説明図である。 本発明の実施例における矩形座標テーブルの説明図である。 本発明の実施例における選択領域テーブルの説明図である。 本発明の実施例における矩形座標の説明図である。 本発明の実施例を説明する図である。 本発明の実施例における矩形座標テーブルの説明図である。 本発明の実施例を説明する図である。 本発明の実施例を説明する図である。 本発明の実施例における矩形座標テーブルの説明図である。 本発明の実施例を説明する図である。
符号の説明
100・・・携帯情報端末装置、110・・・画像入力部、120・・・表示部、130・・・操作部、140・・・制御部、150・・・文字認識部、160・・・画像処理部

Claims (6)

  1. 画像を撮影する画像撮影部と、
    画像内から文字認識対象文字行を抽出する文字行抽出部と、
    画像内の文字を認識する文字認識部と、
    文字行の傾きを定量化する画像処理部と、
    認識対象となる画像を表示するための画像表示部とを備え
    OCR機能を開始すると前記画像撮影部から入力される画像を前記画像表示部へ表示し、
    撮影指示が入力されると前記表示された画像を撮影し、文字認識指示が入力されると前記撮影された画像に対して文字認識を行う携帯情報端末であって、
    前記画像撮影部から入力される画像を前記画像表示部へ表示する際に、前記画像処理部によって定量化された文字行の傾きを、リアルタイムに棒グラフの長さとして表示する角度インジケータに可視化することを特徴とする携帯端末。
  2. 請求項1に記載の携帯端末であって、
    前記抽出された文字行の外接矩形のアスペクト比により、横書きもしくは縦書きの何れ
    かを自動的に判断し、認識モードを切り替えることを特徴とする携帯端末。
  3. 請求項1に記載の携帯端末であって、
    画像撮影時の携帯情報端末の表示画面の方向に従って、横書きもしくは縦書きの何れか
    を自動的に判断し、認識モードを切り替えることを特徴とする携帯端末。
  4. 撮影した画像から抽出した文字認識対象文字行の文字を認識する携帯端末における文字認識方法であって、
    OCR機能を開始すると、画像撮影部によって画像を入力するステップと、
    前記入力された画像を表示するステップと、
    前記表示された画像から文字認識対象文字行を抽出するステップと、
    前記抽出された文字行の傾きを定量化するステップと、
    前記定量化された値を棒グラフの長さとしてリアルタイムに示す角度インジケータを表示するステップと、
    前記表示された画像を前記画像撮影部によって撮影するステップと、
    前記撮影した画像に対して文字認識指令を入力するステップと、
    前記撮影した画像に対して文字認識を行うステップと、から成る事を特徴とする携帯端末における文字認識方法。
  5. 請求項4に記載の携帯端末における文字認識方法であって、前記文字認識を行うステッ
    プは、
    抽出された文字行の外接矩形のアスペクト比により横書きおよび縦書きのいずれかを自
    動的に判定するステップと、
    前記判定結果に基いて認識モードを切り替えるステップと
    をさらに含むことを特徴とする携帯端末における文字認識方法。
  6. 請求項4に記載の携帯端末における文字認識方法であって、前記文字認識を行うステッ
    プは、
    画像撮影時の携帯情報端末の表示画面の向きに従って、横書きおよび縦書きのいずれか
    を自動的に判定するステップと、
    前記判定結果に基いて認識モードを切り替えるステップと
    をさらに含むことを特徴とする携帯端末における文字認識方法。
JP2003379288A 2003-11-10 2003-11-10 携帯端末の文字認識における処理対象選択方法および携帯端末 Expired - Fee Related JP4443194B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2003379288A JP4443194B2 (ja) 2003-11-10 2003-11-10 携帯端末の文字認識における処理対象選択方法および携帯端末
TW093129992A TWI294100B (en) 2003-11-10 2004-10-04 Mobile handset and the method of the character recognition on a mobile handset
KR1020040089371A KR100615058B1 (ko) 2003-11-10 2004-11-04 휴대 정보 단말 장치의 문자인식에 있어서의 처리 대상 선택 방법 및 휴대 정보 단말 장치
CNB2004100889727A CN1292377C (zh) 2003-11-10 2004-11-09 便携终端的字符识别中的处理对象选择方法及便携终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003379288A JP4443194B2 (ja) 2003-11-10 2003-11-10 携帯端末の文字認識における処理対象選択方法および携帯端末

Publications (2)

Publication Number Publication Date
JP2005141603A JP2005141603A (ja) 2005-06-02
JP4443194B2 true JP4443194B2 (ja) 2010-03-31

Family

ID=34689385

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003379288A Expired - Fee Related JP4443194B2 (ja) 2003-11-10 2003-11-10 携帯端末の文字認識における処理対象選択方法および携帯端末

Country Status (4)

Country Link
JP (1) JP4443194B2 (ja)
KR (1) KR100615058B1 (ja)
CN (1) CN1292377C (ja)
TW (1) TWI294100B (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100754656B1 (ko) * 2005-06-20 2007-09-03 삼성전자주식회사 이미지와 관련한 정보를 사용자에게 제공하는 방법 및시스템과 이를 위한 이동통신단말기
CN101674414B (zh) * 2005-09-09 2012-04-11 佳能株式会社 摄像设备
JP4844142B2 (ja) * 2006-02-06 2011-12-28 セイコーエプソン株式会社 プリンタ
KR100641791B1 (ko) 2006-02-14 2006-11-02 (주)올라웍스 디지털 데이터에 대한 태깅 방법 및 시스템
US8144989B2 (en) 2007-06-21 2012-03-27 Sharp Laboratories Of America, Inc. Methods and systems for identifying text orientation in a digital image
US8208725B2 (en) * 2007-06-21 2012-06-26 Sharp Laboratories Of America, Inc. Methods and systems for identifying text orientation in a digital image
CN101482924B (zh) * 2008-01-08 2012-01-04 华晶科技股份有限公司 名片显像角度自动辨正方法
JP2012008733A (ja) * 2010-06-23 2012-01-12 King Jim Co Ltd カード情報管理装置
KR101870773B1 (ko) * 2011-08-31 2018-06-26 삼성전자 주식회사 광학식 문자 판독기를 이용한 스케줄 관리 방법 및 장치
CN103377371A (zh) * 2012-04-25 2013-10-30 佳能株式会社 用于改善识别特征的方法和系统和光学字符识别系统
JP5940615B2 (ja) * 2014-09-09 2016-06-29 株式会社アイエスピー 携帯端末装置用のスキューロジック文字認識方法、プログラム及び携帯端末装置
JP6371662B2 (ja) * 2014-10-07 2018-08-08 富士通フロンテック株式会社 文字認識支援装置、文字認識支援プログラム及び文字認識支援方法
CN104461424B (zh) * 2014-12-01 2017-11-03 上海斐讯数据通信技术有限公司 一种在单元格中显示旋转字符串的系统及方法
KR101712391B1 (ko) 2015-06-22 2017-03-07 한국표준과학연구원 스마트폰을 기반으로 하는 현장용 그래프 수치 분석 어플리케이션 및 그를 이용한 수치 분석방법
CN106325522B (zh) * 2016-09-05 2019-03-29 广东小天才科技有限公司 一种电子终端调节光标大小的方法和装置
KR102391068B1 (ko) * 2020-07-24 2022-04-28 엄춘호 문서 인식 시스템 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3281469B2 (ja) * 1993-11-18 2002-05-13 株式会社リコー 文書画像の傾き検出方法および装置
JPH11250179A (ja) * 1998-02-27 1999-09-17 Matsushita Joho System Kk 文字認識装置および文字認識方法

Also Published As

Publication number Publication date
KR100615058B1 (ko) 2006-08-22
CN1617163A (zh) 2005-05-18
TW200516509A (en) 2005-05-16
JP2005141603A (ja) 2005-06-02
CN1292377C (zh) 2006-12-27
TWI294100B (en) 2008-03-01
KR20050045832A (ko) 2005-05-17

Similar Documents

Publication Publication Date Title
JP4443194B2 (ja) 携帯端末の文字認識における処理対象選択方法および携帯端末
US10248878B2 (en) Character input method and system as well as electronic device and keyboard thereof
US8237818B2 (en) Camera
US9019308B2 (en) Display apparatus and computer-readable medium
US20050052558A1 (en) Information processing apparatus, information processing method and software product
US10650489B2 (en) Image display apparatus, control method therefor, and storage medium
JP2011008752A (ja) ドキュメント操作システム、ドキュメント操作方法およびそのためのプログラム
WO2011077648A1 (ja) リアルタイムなカメラ辞書
JP2006107048A (ja) 視線対応制御装置および視線対応制御方法
JP2010134876A (ja) 情報処理装置及び情報処理方法
JP2003209643A (ja) 画像処理装置
JP3355708B2 (ja) コマンド処理装置
EP3379451A1 (en) Information processing device
JP4177325B2 (ja) 画像処理装置、画像処理プログラム及び画像処理方法
JP2006072506A (ja) 写真処理装置
JP4474231B2 (ja) 文書リンク情報取得システム
JP4631261B2 (ja) 撮影画像投影装置、その画像処理方法及びプログラム
JP2003216893A (ja) カメラ付携帯情報端末
JP2000089880A (ja) データ表示装置
JP5605208B2 (ja) 辞書機能を備えた電子機器およびプログラム
JP2005055973A (ja) 携帯情報端末
JP2010191907A (ja) 文字入力装置および文字入力方法
JP4431335B2 (ja) 文字列読み取りプログラム
JP2005316912A (ja) カメラ付携帯情報端末を用いた文字認識方法
JP2006331216A (ja) 画像処理装置、画像処理装置における処理対象範囲指定方法、画像処理範囲指定プログラム、および画像処理範囲指定プログラムを記録する記録媒体

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20050223

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060315

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060509

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060821

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091222

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100112

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees