JP2010509794A - 改良型移動通信端末 - Google Patents

改良型移動通信端末 Download PDF

Info

Publication number
JP2010509794A
JP2010509794A JP2009533971A JP2009533971A JP2010509794A JP 2010509794 A JP2010509794 A JP 2010509794A JP 2009533971 A JP2009533971 A JP 2009533971A JP 2009533971 A JP2009533971 A JP 2009533971A JP 2010509794 A JP2010509794 A JP 2010509794A
Authority
JP
Japan
Prior art keywords
image
camera view
translation
camera
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009533971A
Other languages
English (en)
Inventor
コン シャオ ワン
ハオ ワン
イン フェイ リウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of JP2010509794A publication Critical patent/JP2010509794A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/52Details of telephonic subscriber devices including functional features of a camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)
  • Studio Devices (AREA)
  • Telephone Function (AREA)

Abstract

カメラビューが表示される画像記録モードにおいて使用されるカメラ付き移動通信端末。ファインダモードにおいて、ユーザがカメラビューを調整することの用に供されるようにガイドパターンが表示される。カメラビューが静止状態にあるという検出が行なわれ、カメラビューの画像の記録が実行される。次に、表示されたガイドパターンに対応する記録された画像内の位置において、記録された画像からの画素の列を含むサブ画像の抽出が実行され、光学式文字認識プロセスが、抽出されたサブ画像に行われる。このOCRプロセスにより、表示すべき記号列を得る。
【選択図】図3

Description

開示される実施形態は、移動通信端末と、記録された画像におけるテキストの認識に関して移動通信端末を制御する方法とに関する。
背景
通信機器は、この10年間に、音声通話等の狭帯域アナログ信号のみしか搬送できない事実上原始的な電話機から、任意の種類のメディアを表す大量のデータを搬送可能である現代のマルチメディア移動機器に発展した。例えば、GSM、GPRS、EDGE、UMTS、またはCDMA2000型のシステムにおける電話機は、通話または音楽等の音声データに加え、静止画および動画の両方、つまり映像ストリームの記録、搬送、ならびに表示が可能である。
さらに、国際化によって、人々は、日常生活において多数の言語を積極的または受動的に使用することを強いられている。このような言語の翻訳、または単に辞書で調べることは、一般的であるが、多くの状況において重要な手法である。例えば、人々は、多くの場合、外国語の新聞または雑誌を読む際に新しい単語または知らない単語に出くわし、あるいは人々は、その外国語の単語に母国語のどの単語が対応するかについて理解していない。
このため、近年、携帯電話機に装備されるカメラに一体型の光学式文字認識(Optical Character Recognition; OCR)ベースのアプリケーションが出現した。典型的には、このようなアプリケーションは、テキストの一部のスナップショットを撮影することと、端末や、通信ネットワークを介して端末に接続されるサーバにおいて実行する認識エンジンに、デジタル画像を渡すことを伴う。
現在のOCR対応端末に関する問題は、認識エンジンによって翻訳されるターゲットとなる単語または語句を、ユーザがいかに容易に識別または指示できるようにするかである。典型的には、従来技術におけるソリューションは、ターゲットの単語または語句の画像を実際に記録するために、種々の選択行為およびトリガ行為を含む、ユーザインターフェースとの事実上複雑な対話をユーザが実行しなければならないことを伴う。言うまでもなく、これは、ユーザが使い易いものではなく、多くの場合、ユーザは、端末の認識能力を使用しなくなる。
概要
目的は、上述の従来技術の通信端末に関する欠点を克服することにある。
この目的は、添付の請求項に従う方法、通信端末、およびコンピュータプログラムによって達成される。
したがって、第1の側面によると、移動通信端末が、カメラビューが表示される画像記録モードに前記端末がある間に、ユーザが前記カメラビューを調整することの用に供されるように構成されるガイドパターンを表示することと、前記カメラビューが静止状態にあることを検出することと、前記検出された静止状態における前記カメラビューの画像を記録することと、前記記録された画像から画素の配列を含むサブ画像を抽出することと、前記抽出されたサブ画像に光学式文字認識プロセスを実行して、記号列を得ることと、前記認識された記号列を表示することと、によって制御される。ただし前記サブ画像は、前記記録された画像内における、表示される前記ガイドパターンに対応する位置に存在する。
カメラビューが静止状態にあることの検出は、特定の時間間隔内における、カメラビューの空間的変化の検出と、空間的無変化の検出とを含んでもよい。
さらに、前記検出は、手ぶれモデルを表すアルゴリズムの処理を含んでもよい。この点において、検出された静止状態におけるカメラビューの画像を記録することの前に、手ぶれモデルは、特定の時間間隔中におけるカメラビューの空間的変化の検出および空間的無変化の検出を伴うトレーニング系列によって判断されてもよい。
上記方法は、カメラビューの画像の記録の前に、サブ画像の抽出によって、当該抽出されたサブ画像が所定の空間スケールを有するように、カメラビューをズームすること、をさらに含んでもよい。
さらに、前記画像記録モードは、カメラビューの表示中は第1の空間画像スケールが使用され、検出された静止状態におけるカメラビューの画像の記録中は第2の空間画像スケールが使用されるようなものであってもよい。
すなわち、ターゲットの単語または語句、認識対象のターゲットの単語を検索、つまり指し示し、記録するために、直感的「ノンクリック」ユーザインターフェースソリューションが提示される。
この「ノンクリック」ソリューションに関する原理は、典型的には、従来技術のソリューションにおいて、端末におけるキーの押圧またはその類似行為等のユーザ行為によってスナップ写真が生成される際に、典型的に発生する手ぶれが、その後のOCRプロセスの結果に損傷を与え得るという認識に基づく。さらに、撮影中に発生する典型的な一時停止は、多数のアプリケーションにおける単語または語句の検索に便利ではない。
一側面によると、この問題は、検索動作を実行する際にカメラの動き情報を利用するという点において軽減される。
カメラビューの表示中、つまり、「ファインダ」動作中、カーソルは、カメラが見ている、表示されたビューの特定の位置、例えば、ディスプレイの中心範囲に表示される。次に、典型的には、ユーザの手によってカメラビューを動かし、例えば、一枚の新聞、雑誌、メニュー等に存在するターゲット単語/語句にカーソル点がくるようにする。次に、短時間、典型的には、数百マイクロ秒の間、事実上静的な方法でカメラを安定させる。すると、この短い一時停止が検出され、以前の動き状態に基づいて、現在のビューの記録、ターゲットのサブ画像の抽出、記録された画像データの認識、ならびに認識された単語または語句の表示および翻訳等のその他の任意の後処理を伴う処理を開始するか否かに関する決定が行われる。
このような方法の利点は、使用感覚がスムーズになり、また、ターゲットの単語または語句を指示するために、スタイラス等の特別な手段でターゲットを指し示し、またはジョイスティックを操作するという明示的な操作が存在しないため、単語検索実行に関して効率が提供されることにある。ユーザは、典型的には、ファインダにおいてターゲット単語を発見する際にその単語をより明瞭に見るためにしばらく停止するため、ターゲットにおけるビューの短い一時停止は、ユーザの観点からみると、非常に自然な挙動である。
設計者の観点から見ると、カメラビューの表示中(つまり、「ファインダ」プロセス中)、検出された画像フレームのサイズは、典型的には、記録された画像フレームのサイズよりも小さいため、非常に迅速に動き検出を行うことが可能であり、端末のユーザは動き検出に気付かない。後続の処理、つまり抽出、OCR、単語連想、および翻訳等の可能な後処理には、長い時間がかかりうる。しかしながら、このような処理は、ターゲットに照準が定められた場合(つまり、静止状態において短い一時停止が検出される場合)のみに開始され、この短い一時停止中にも処理が実行されることが可能である。したがって、ユーザは、いかなる不都合な遅延にも悩まされることがない。
手ぶれモデルを使用することにより、ターゲットに照準を定める間、非常に小さいが不可避である手ぶれが存在する場合の、静止状態の誤検出を回避することができるので、ロバスト性を改善することが可能である。
さらに、上記方法は、認識された記号列を処理することをさらに含んでもよく、少なくとも第1の単語データベースにアクセスすることを含む翻訳プロセスを伴ってもよい。翻訳プロセスは、正確な翻訳、ファジーな翻訳、および単語単位の翻訳の3つのステップの手順のうちの少なくとも1つのステップを含んでもよい。
このような場合、第1のデータベースは、複合アイテムを表す単語を含んでもよく、第2のデータベースは、第1のデータベースにおける複合アイテムの要素を表す単語を含んでもよい。翻訳プロセスの例として、レストランのメニューの単語の翻訳を伴う例が挙げられる。
すなわち、このようなアプリケーションの一例として、レストランのメニュー項目を認識することが挙げられる。これは、外国旅行者のための、移動機器による優れた自己支援特徴である。適用によって、旅行者は、端末のディスプレイにおいてメニュー項目のスナップショットを記録するだけで、迅速な翻訳を入手することができ、自分が何の料理を選択しているかを判断することが可能である。
当然ながら、様々な実施形態が、医薬品用語の翻訳、会社名および会社住所の翻訳等の、レストランのメニューの用途以外の多数の分野において適用可能である。例えば、医薬品の主要成分を、緊急の場合に医薬品の種類を理解するために列挙することが可能であり、また、都市における主要区域および道路のデータベースを構築し、会社の場所を探すために使用することが可能である。
ファジーな翻訳の導入によってカメラOCRの精度の限界が補われ、要素情報によってより理解しやすい翻訳が提供される。そこで、このようなアプリケーションの利点は、絶え間なく変化し、かつ事実上不可能な包括的メニュー項目データベースへの対処に関する改良された方法を含む。
別の利点は、マルチデータベース−マルチカテゴリ翻訳の構造が、開放および拡張データソースからデータを検索および翻訳するための普遍的ソリューションを提供することに留意することによって考えられる。翻訳データベースから全く一致する記録が発見されなかったとしても、ターゲット項目(翻訳対象の単語、語句)の表示および背景知識を与えることが可能な支援データベースは、ユーザに非常に役立つ。
さらに、「知的ユーザインターフェース」の形式で実現され得ることも利点である。ユーザは、実装詳細に注意を払う必要はなく、混乱され得る技術的な問題に知覚せず、典型的には、ユーザは、簡単な操作および使い易い出力情報を感知するだけである。
その他の側面において、端末およびコンピュータプログラムが提供され、その機能および利点は、上述の方法に対応する。
ある実施形態に従う移動通信端末の機能ブロック図を概略的に示す。 方法に関するフローチャートである。 カメラビューの静止状態の検出を示す状態図である。 方法に関するフローチャートである。
好適な実施形態
図1は、電話機100形式の移動通信端末に関するブロック図を示す。端末100は、送受信機120を介してアンテナ122に接続される処理ユニット110、メモリユニット112、マイクロホン114、キーボード105、スピーカ116、およびカメラ118を備える。また、処理ユニット110は、ディスプレイ107にも接続される。
電話機100の異なるブロックの具体的な機能に関する詳細説明は提示されない。しかしながら、簡単に言うと、当業者が認識するであろうように、処理ユニット110は、キーボード105からの入力、マイクロホン114を介した音声情報、カメラ118を介した画像を受信可能であるという点において、機能ブロックの全体の機能を制御し、また、アンテナ122および送受信機120を介して適切に符号化および変調されたデータを受信する。また、処理ユニット110は、スピーカ116を介した音声形式の出力、ディスプレイ107を介した画像、送受信機120およびアンテナ122を介した適切に符号化および復調されたデータを提供することも可能である。
典型的には、端末100は、無線インターフェース124を介して通信ネットワーク126と接続している。当業者が認識するように、図1に示されるネットワーク126は、移動ネットワーク、固定ネットワーク、インターネット等のデータ通信ネットワークを含む任意の1つ以上の相互接続されたネットワークを表してもよい。「一般的」な通信エンティティ128は、ネットワーク126に接続されるように示される。これは、ネットワーク126に接続されるその他の端末およびデータサーバを含む任意のエンティティと、端末100が通信していてもよいことを示す。
次に、本方法について、図2aのフローチャートおよび図2bの状態図を参照して説明する。本方法は、好ましくは、メモリに格納され、かつCPUにおいて実行される(例えば、図1のメモリ112およびCPU110)ソフトウェアステップとして実装される。
ファインダ開始ステップ201中に開始するファインダモードは、典型的に、160x120画素の典型的なフレームサイズで毎秒15フレームの画像サンプリングレートで実行される。サンプリングレートは、フレーム毎に約60マイクロ秒である。60マイクロ秒は、通常のヒトのユーザの典型的な反応時間よりも大幅に短いため、サンプリングレートは、5フレーム毎に1フレームずつダウンサンプルされる。それによって、ディスプレイ周波数は、毎秒15フレームになり、これをヒトのユーザは、基本的に連続として見る。本ステップ中、ユーザは、テキストがファインダに、つまり典型的には端末のディスプレイに表示されるようにカメラの照準を定める。ファインダにおけるビューの動きの検出は、計算能力を節約してノイズを取り除くために、フレーム毎ではなく、典型的には、300マイクロ秒毎に一回実行される。ファインダモード中、ターゲットに照準を定める際にユーザを補佐するように、典型的には、ファインダのビューの中央にガイドパターンが表示される。
次に、ズームステップ203において、カメラのズームが実行される。カメラの設定は、自動デジタルズームパラメータの調整によって設定される。自動デジタルズームの目的は、ファインダフレームにおいて適切なターゲットサイズを得ることにある。デジタルズームおよび光学ズームの両方の機能を有するカメラ端末において、ズームパラメータを相互に調整してOCR用の良質画像を入手することは難しい。したがって、撮影距離を小範囲内に限定し、かつファインダにおいて適切なサイズのターゲットを確実にするインテリジェントなデジタルズームパラメータ推定が使用される。エンドユーザに必要なのは、光学ズームを用いて画像を明瞭にすることだけである。
カメラの動き検出205は、当技術分野で既知の任意の適切な動き追跡/検出アルゴリズムを使用して実現される。簡単化するために、ガイドパターンがファインダにおいて表示される位置に近接する範囲のみが検出される。動き検出アルゴリズムは、好ましくは、多数のヒトのユーザにとって不可避である小さな手ぶれを補償する。したがって、手ぶれモデルは、このような手ぶれによる誤検出を回避するために導入される。典型的には、手ぶれモデルは、例えば、検索段階中(つまり、潜在的ターゲットテキスト上の走査動作中)の手ぶれの動きおよび本物の動きである2つの種類のサンプルを収集することによって、予め確立されたものである。2つの種類の統計的分類は、学習段階に確立可能であることから、本発明の動作中に高速決定ツリーの使用が可能になる。
ビューが静止状態であるか否かは、決定ステップ207において決定され、このステップは、図2bの状態遷移によって示されるように、状態機械を使用して実装される。状態対(過去、現在)は、0が動き状態を意味し、1が静止状態を意味するものである。つまり、状態(過去、現在)=(0、0)は、動きとして検出された後に、ビューが継続して動き状態である状態であり、状態(過去、現在)=(1、1)は、静的として検出された後に、ビューが継続して静止状態である状態であり、状態(過去、現在)=(1、0)は、静的として検出された後に、ビューが動いているものとして検出される状態であり、また、状態(過去、現在)=(0、1)は、動いているものとして検出された後に、ビューが静的として検出される状態である。
次の処理は、状態(0、1)に入る際に開始する。つまり、カメラが動いた後、比較的長い時間(例えば、数百マイクロ秒)、ターゲットに焦点を合わせた状況で開始する。カメラがさらに長時間動かない状態を維持する場合、処理の次の開始は、カメラが再び動いて別のターゲットに停止するまで発生しない。状態ベースの決定は、不要な処理を効果的に回避し(通常、OCRは、文字サイズが下限に近い場合、入力画像のわずかな変化に敏感であるため、類似画像の重複認識によって、ユーザを混乱させる不安定な結果を引き起こし得る)、動的認識および任意の後続翻訳を安定させる。
判断ステップ207において、状態(過去、現在)=(0、1)であると判断されると、自動対象抽出処理が開始される(記録ステップ209)。この抽出は、記録された画像より翻訳されるターゲットテキストに対して行われる。ガイドパターンの位置には、ターゲットの位置に関する以前の知識が既に提供されているため、連結−成分ベースのアルゴリズムが、対象検出および分割のために適用される。ターゲットが、単独の文字である場合、レイアウト分析によって、その文字の正確なブロックが与えられ、あるいは相対的領域(例えば、分割しない漢字の線)が抽出される。
次に、抽出されたターゲットテキストは、ステップ211において、OCRプロセスに提供される。OCR処理は、多数の異なる手順および考察を伴う。例えば、中国語から英語の翻訳において、どの文字の組み合わせが、翻訳対象の有効な単位(単語/語句)を構成し得るかを識別する問題が、多くの場合存在する。ゆえに、レイアウト情報が入手不可能である場合、OCRの後に言語分析を使用するべきである。文脈感知および言語学的規則を使用することによって並列文字に関する可能性のある組み合わせを発見するために、規則ベースの単語連想を使用してもよい。位置がガイドパターンに最近接している有効な組み合わせは、典型的には、対象のターゲットテキストとして選択される。
次に、認識されたテキストは、後処理手順213に提供され、この手順は、図3のフローチャートを参照して例証される。後処理の例として、第1の言語で書かれたレストランのメニュー項目が、第2の言語に解釈されるという例、例えば、中国語で書かれたメニュー項目を含む中国語のメニューが、英語に翻訳される例が挙げられる。料理メニューデータベースと要素データベースとの2つのデータベースが使用され、翻訳は、3つのステップの翻訳手順を使用して実行される。このステップには、正確な翻訳ステップ、ファジーな翻訳ステップ、および要素翻訳ステップが含まれる。典型的には、データベースは、端末に配置されるメモリ手段において実現されるが、端末が通信するネットワークに接続されるその他のエンティティにおいて実現されてもよい。
料理メニューデータベースは、中国語名の料理と英語名の料理から成る主要データベースである。本データベースを使用して、中国語の料理名を調べ、的確な英語の翻訳を検索する。要素データベースは、チキン、ビーフ、魚等の料理に含まれるいくつかの主要な要素を含む。このデータベースを使用して、料理の要素を確認する。データベースにおける情報に基づいて、解釈によって、ファジーな翻訳中に正確な料理名が提供されなかったとしても、その解釈は、依然として、該当する料理の要素に関するヒントをユーザに与えることが可能である。例えば、料理名「ジャガイモのソテーとステーキ」(中国語)が、正確な翻訳およびファジーな翻訳のいずれかによって、料理メニューデータベースにおいて発見不可能である場合、その料理名は、要素データベースの要素と自動的に比較される。要素データベースにおいて、ジャガイモおよびステーキの単語を発見することが可能であり、ユーザは、この料理がいくつかのジャガイモとステーキを含み得るという報告を受ける。
したがって、図3に関し、3つのカテゴリの翻訳は、第1の翻訳ステップ301における正確な翻訳、第2の翻訳ステップ307におけるファジーな翻訳、および第3の翻訳ステップ313における要素翻訳を含む。正確な翻訳は、翻訳対象の単語が、料理メニューデータベースの単語と全く同じであるべきであることを意味する。ファジーな翻訳は、単語が、料理メニューデータベースの単語と類似しているが、全く同じではないことを意味する。要素翻訳は、単語が単語単位で要素データベースにおいて検索され、どの種類の要素が料理に入っているかを確認することを意味する。3つのカテゴリの翻訳は、優先順位をもって実行される。最初に正確な翻訳が実行され、その結果が第1の決定ステップ303において確認される。結果が発見されない場合、ファジーな翻訳が実行される。最後に、第2の決定ステップ309の後、依然として結果が発見されない場合、単語単位の要素翻訳が、最終動作において実行される。決定ステップ303、309、および315のいずれかが、翻訳の実行が成功したことを発見する場合、結果を表示するそれぞれのステップ305、311、および317が実行される。第3の決定ステップ315において翻訳が発見されない場合、不成功メッセージが表示ステップ319において表示される。
ファジーな翻訳における重要な課題は、ファジーな単語をいかに判断するかという問題である。ここで、クエリ単語とデータベースにおける記録との間の距離を計算するために使用される距離関数を導入する。主に、このような関数は、2つの部分、つまり、単語の長さおよび一致する文字の数の差異を計算する。類似する単語は、ほぼ同一の長さを有するはずであるため、単語の長さの差異は、最も重要な因子であり、一致する文字w2の数の重みの3倍の大きさに設定され得るw1の重みが与えられる。したがって、距離Distの表現は、以下の通りとなる。
Figure 2010509794
と仮定すると、
Figure 2010509794
となる。
w1の値を300、およびw2の値を100とすると、閾値80を使用して、2つの単語が類似するか否かを判断することが可能である。距離が80を上回る場合、2つの単語は類似していない。距離が0である場合、2つの単語は全く同じである。したがって、翻訳対象の単語と、料理メニューデータベースにおける単語との間の全距離が80を上回る場合、要素翻訳が使用される。データベースにおける一単語と、翻訳対象の単語との間の距離が0である場合、正確な翻訳が使用される。そうでない場合は、ファジーな翻訳が選択される。
上記例は、レストランのメニュー項目の翻訳を使用しているが、本発明は、当然ながら、多数のその他の分野において適用可能である。
つまり、道路標識、レストラン名の看板等を含む任意の該当するターゲットテキストにおける適用が可能である。「ノンクリック」概念は、特に、ユーザの観点からの簡素化のため、画像からのテキストの自動抽出に有用である。
使用分野の例として、医薬品用語の翻訳、会社名および会社住所の翻訳が挙げられる。例えば、医薬品の主成分は、緊急の場合に医薬品の種類を理解するために列挙可能であり、また、都市における主要区域および道路のデータベースを構築して、会社の場所を探すために使用可能である。
別の優れた使用事例として、スーパー等の店舗において製品/商品検索を実行するための事例が挙げられる。ユーザは、任意の商品の銘柄/ロゴ/仕様を走査することが可能であり、上述のように、具体的なデータ検索/翻訳を実行することが可能である。
さらに、認識されたテキストの翻訳について、通常の辞書を使用することが可能である。次に、多レベル翻訳モデルは、第1言語から第2言語への単語翻訳のために、一般的な辞書で動作する。実際は、本発明は、翻訳に関して有用であると単に考えられるべきではなく、入力方法が上述の例のようにOCRベースであり得る「成分ベースの検索」方法の種類として見なされてもよい。成分ベースの一致方法は、任意の特定のデータ検索のために使用可能であり、正確な一致が入手不可能である場合、ファジーな一致およびキーワード/要素検索が使用される。

Claims (12)

  1. カメラビューが表示される画像記録モードで動作中の移動通信端末を制御する方法であって、
    ・ ユーザが前記カメラビューを調整することの用に供されるように構成されるガイドパターンを表示するステップと、
    ・ 前記カメラビューが静止状態にあることを検出するステップと、
    ・ 前記検出された静止状態における前記カメラビューの画像を記録するステップと、
    ・ 前記記録された画像から画素の配列を含むサブ画像を抽出するステップ、ただし前記サブ画像は、前記記録された画像内の前記表示されたガイドパターンに対応する位置に存在する、ステップと、
    ・ 前記抽出されたサブ画像に光学式文字認識プロセスを実行して、記号列を得るステップと、
    ・ 前記認識された記号列を表示するステップと、
    を含む、方法。
  2. 前記カメラビューが静止状態にあるという前記検出は、特定の時間間隔内における、前記カメラビューにおける空間的変化の検出と、空間的無変化の検出とを含む、請求項1に記載の方法。
  3. 前記カメラビューが静止状態にあるという前記検出は、手ぶれモデルを表すアルゴリズムの処理を含む、請求項1または2に記載の方法。
  4. 前記検出された静止状態における前記カメラビューの画像を前記記録することの前に、前記手ぶれモデルが、特定の時間間隔中における前記カメラビューの空間的変化の検出および空間的無変化の検出を伴うトレーニング系列によって判断される、請求項3に記載の方法。
  5. 前記カメラビューの画像の前記記録の前に、前記サブ画像の前記抽出によって、抽出されたサブ画像が所定の空間スケールを有するように、前記カメラビューをズームすることをさらに含む、請求項1から4のいずれかに記載の方法。
  6. 前記画像記録モードは、前記カメラビューの表示中は第1の空間画像スケールが使用され、前記検出された静止状態における前記カメラビューの画像の記録中は第2の空間画像スケールが使用されるようなモードである、請求項1から5のいずれかに記載の方法。
  7. 前記認識された記号列を処理することであって、前記処理することは、少なくとも第1の単語データベースにアクセスすることを含む翻訳プロセスを伴うことをさらに含む、請求項1から6のいずれかに記載の方法。
  8. 前記翻訳プロセスは、正確な翻訳、ファジーな翻訳、および単語単位の翻訳の3つのステップの手順のうちの少なくとも1つのステップを含む、請求項7に記載の方法。
  9. 第1のデータベースが複合アイテムを表す単語を含み、第2のデータベースが前記第1のデータベースにおける複合アイテムの要素を表す単語を含む、請求項8に記載の方法。
  10. 前記翻訳プロセスは、レストランのメニューの単語の翻訳を伴う、請求項9に記載の方法。
  11. カメラビューが表示される画像記録モードにおいて、
    ・ ユーザが前記カメラビューを調整することの用に供されるように構成されるガイドパターンを表示することと、
    ・ 前記カメラビューが静止状態にあることを検出するステップと、
    ・ 前記検出された静止状態における前記カメラビューの画像を記録することと、
    ・ 前記記録された画像から画素の配列を含むサブ画像を抽出すること、ただし前記サブ画像は、前記記録された画像内の前記表示されたガイドパターンに対応する位置に存在する、前記抽出することと、
    ・ 前記抽出されたサブ画像に光学式文字認識プロセスを実行して、記号列を得ることと、
    ・ 前記認識された記号列を表示することと、
    が可能であるように構成される制御手段およびカメラを備える、移動通信端末。
  12. 実行時に、請求項1から10のいずれかに記載の方法を行うソフトウェア命令を含む、コンピュータプログラム。
JP2009533971A 2006-10-24 2007-09-12 改良型移動通信端末 Withdrawn JP2010509794A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/552,348 US20080094496A1 (en) 2006-10-24 2006-10-24 Mobile communication terminal
PCT/IB2007/002612 WO2008050187A1 (en) 2006-10-24 2007-09-12 Improved mobile communication terminal

Publications (1)

Publication Number Publication Date
JP2010509794A true JP2010509794A (ja) 2010-03-25

Family

ID=38982623

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009533971A Withdrawn JP2010509794A (ja) 2006-10-24 2007-09-12 改良型移動通信端末

Country Status (6)

Country Link
US (1) US20080094496A1 (ja)
EP (1) EP2092464A1 (ja)
JP (1) JP2010509794A (ja)
KR (1) KR20090068380A (ja)
CN (1) CN101529447A (ja)
WO (1) WO2008050187A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5981616B1 (ja) * 2015-07-28 2016-08-31 株式会社富士通ビー・エス・シー 料理内容提供方法、情報処理装置および料理内容提供プログラム

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7433711B2 (en) * 2004-12-27 2008-10-07 Nokia Corporation Mobile communications terminal and method therefor
EP2136317B1 (en) 2008-06-19 2013-09-04 Samsung Electronics Co., Ltd. Method and apparatus for recognizing characters
IL192582A0 (en) * 2008-07-02 2009-02-11 Xsights Media Ltd A method and system for identifying printed objects
KR20100064533A (ko) * 2008-12-05 2010-06-15 삼성전자주식회사 카메라를 이용한 문자 크기 자동 조절 장치 및 방법
WO2012090033A1 (en) * 2010-12-31 2012-07-05 Turkcell Teknoloji Arastirma Ve Gelistirme Anonim Sirketi A system and a method for visually aided telephone calls
US9179278B2 (en) * 2011-09-01 2015-11-03 Qualcomm Incorporated Systems and methods involving augmented menu using mobile device
US9342533B2 (en) 2013-07-02 2016-05-17 Open Text S.A. System and method for feature recognition and document searching based on feature recognition
JP6739937B2 (ja) 2015-12-28 2020-08-12 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム
CN106815584A (zh) * 2017-01-19 2017-06-09 安徽声讯信息技术有限公司 一种基于ocr技术的相机手动取景图片转化系统

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9809679D0 (en) * 1998-05-06 1998-07-01 Xerox Corp Portable text capturing method and device therefor
JP2000224470A (ja) * 1999-02-02 2000-08-11 Minolta Co Ltd カメラシステム
US20010032070A1 (en) * 2000-01-10 2001-10-18 Mordechai Teicher Apparatus and method for translating visual text
US20010056342A1 (en) * 2000-02-24 2001-12-27 Piehn Thomas Barry Voice enabled digital camera and language translator
US6823084B2 (en) * 2000-09-22 2004-11-23 Sri International Method and apparatus for portably recognizing text in an image sequence of scene imagery
JP2003178067A (ja) * 2001-12-10 2003-06-27 Mitsubishi Electric Corp 携帯端末型画像処理システム、携帯端末およびサーバ
US20030113015A1 (en) * 2001-12-18 2003-06-19 Toshiaki Tanaka Method and apparatus for extracting text information from moving image
US20030120478A1 (en) * 2001-12-21 2003-06-26 Robert Palmquist Network-based translation system
US6947609B2 (en) * 2002-03-04 2005-09-20 Xerox Corporation System with motion triggered processing
US20030164819A1 (en) * 2002-03-04 2003-09-04 Alex Waibel Portable object identification and translation system
US7221796B2 (en) * 2002-03-08 2007-05-22 Nec Corporation Character input device, character input method and character input program
US20030200078A1 (en) * 2002-04-19 2003-10-23 Huitao Luo System and method for language translation of character strings occurring in captured image data
US20030202683A1 (en) * 2002-04-30 2003-10-30 Yue Ma Vehicle navigation system that automatically translates roadside signs and objects
JP3990253B2 (ja) * 2002-10-17 2007-10-10 埼玉日本電気株式会社 携帯電話装置
JP2004152036A (ja) * 2002-10-31 2004-05-27 Nec Saitama Ltd 文字認識機能付携帯電話機器及び認識文字の修正方法並びにプログラム
US7212230B2 (en) * 2003-01-08 2007-05-01 Hewlett-Packard Development Company, L.P. Digital camera having a motion tracking subsystem responsive to input control for tracking motion of the digital camera
US20040210444A1 (en) * 2003-04-17 2004-10-21 International Business Machines Corporation System and method for translating languages using portable display device
US20050192714A1 (en) * 2004-02-27 2005-09-01 Walton Fong Travel assistant device
US7505056B2 (en) * 2004-04-02 2009-03-17 K-Nfb Reading Technology, Inc. Mode processing in portable reading machine
US20060083431A1 (en) * 2004-10-20 2006-04-20 Bliss Harry M Electronic device and method for visual text interpretation
US7382353B2 (en) * 2004-11-18 2008-06-03 International Business Machines Corporation Changing a function of a device based on tilt of the device for longer than a time period
US7433711B2 (en) * 2004-12-27 2008-10-07 Nokia Corporation Mobile communications terminal and method therefor
JP4453016B2 (ja) * 2005-01-31 2010-04-21 株式会社カシオ日立モバイルコミュニケーションズ 携帯端末、文字読取方法および文字読取プログラム
GB2438777A (en) * 2005-02-15 2007-12-05 Dspv Ltd System and method of user interface and data entry from a video call
DE602006009191D1 (de) * 2005-07-26 2009-10-29 Canon Kk Bildaufnahmegerät und -verfahren

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5981616B1 (ja) * 2015-07-28 2016-08-31 株式会社富士通ビー・エス・シー 料理内容提供方法、情報処理装置および料理内容提供プログラム
WO2017018410A1 (ja) * 2015-07-28 2017-02-02 株式会社富士通ビー・エス・シー 料理内容提供方法、情報処理装置および料理内容提供プログラム

Also Published As

Publication number Publication date
EP2092464A1 (en) 2009-08-26
US20080094496A1 (en) 2008-04-24
WO2008050187A1 (en) 2008-05-02
CN101529447A (zh) 2009-09-09
KR20090068380A (ko) 2009-06-26

Similar Documents

Publication Publication Date Title
JP2010509794A (ja) 改良型移動通信端末
JP5947131B2 (ja) 領域選択方式による検索の入力方法及びそのシステム
US10282374B2 (en) System and method for feature recognition and document searching based on feature recognition
CN103761892B (zh) 一种语音播放纸质书籍内容的方法及装置
KR102544453B1 (ko) 정보 처리 방법, 장치 및 저장 매체
US8874604B2 (en) Method and system for searching an electronic map
CN106708905B (zh) 视频内容搜索方法和装置
EP4207772A1 (en) Video processing method and apparatus
KR101002899B1 (ko) 문자 인식 방법 및 장치
Posner et al. Using text-spotting to query the world
EP2806336A1 (en) Text prediction in a text input associated with an image
CN109101505B (zh) 一种推荐方法、推荐装置和用于推荐的装置
CN112382295B (zh) 语音识别方法、装置、设备及可读存储介质
EP3204872A1 (en) Linking thumbnail of image to web page
CN107424612B (zh) 处理方法、装置和机器可读介质
CN110309324A (zh) 一种搜索方法及相关装置
CN110929176A (zh) 一种信息推荐方法、装置及电子设备
JP5484113B2 (ja) 文書画像関連情報提供装置、及び文書画像関連情報取得システム
JP4946187B2 (ja) 関連語表示装置、検索装置、その方法及びプログラム
CN112926300A (zh) 图像搜索方法、图像搜索装置及终端设备
US9055161B2 (en) Text processing method for a digital camera
CN112052352A (zh) 视频排序方法、装置、服务器及存储介质
JP2005107931A (ja) 画像検索装置
KR102148021B1 (ko) 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치
CN112560728B (zh) 目标对象识别方法及装置

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20101207