JP6275706B2

JP6275706B2 - テキスト認識駆動の機能性

Info

Publication number: JP6275706B2
Application number: JP2015517369A
Authority: JP
Inventors: スプリー、リチャード・ハワード; ヘラー、ジェフリー・スコット; ビビレータ、ダニエル
Original assignee: アマゾン・テクノロジーズ、インコーポレイテッド
Priority date: 2012-06-11
Filing date: 2013-06-11
Publication date: 2018-02-07
Anticipated expiration: 2033-06-11
Also published as: WO2013188463A3; JP2015519675A; CN104685494A; EP2859471A4; US9916514B2; CN104685494B; WO2013188463A2; US20130329023A1; EP2859471A2

Description

人々がタブレットコンピュータおよびスマートフォンなどの携帯型デバイスを含むさまざまなコンピューティングデバイスをますます利用していることに伴い、人々がこれらのデバイスとやりとりする方途に適応することが好都合であり得る。ユーザは、電話番号を手動で入力して電話をかけること、Ｅメールアドレスを手動でタイプしてＥメールを送信すること、ウェブアドレスをウェブブラウザに手動でタイプしてウェブページを閲覧することなどに慣れている。これらのタスクはしばしば単調であり、かつ時間がかかる。種々のデバイスにおいて、電話番号をお気に入りリストに割り当てる、ウェブアドレスをブックマークするなど、ユーザの時間を節約するための種々の方法が提供されてきた。技術が進歩するにつれて、および携帯型コンピューティングデバイス上に提供される機能およびサービスが進歩および拡張するにつれて、手早い方法および他の時間短縮方法が提供される方途は変化している。

本開示に従う種々の実施形態が図面を参照して記載される。
一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザが地図アプリケーションにテキストを提供する実施例を説明したものである。一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザが地図アプリケーションにテキストを提供する実施例を説明したものである。一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザが地図アプリケーションにテキストを提供する実施例を説明したものである。一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザが電話アプリケーションに電話番号を提供する実施例を説明したものである。一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザが電話アプリケーションに電話番号を提供する実施例を説明したものである。一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザが電話アプリケーションに電話番号を提供する実施例を説明したものである。一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザがブラウザにテキストを提供する実施例を説明したものである。一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザがブラウザにテキストを提供する実施例を説明したものである。種々の実施形態に従う、携帯型コンピューティングデバイス上のアプリケーションにテキストを提供するための工程の例を説明したものである。種々の実施形態に従って利用され得るコンピューティングデバイスの正面図および後面図の例を示したものである。種々の実施形態に従って利用され得るコンピューティングデバイスの正面図および後面図の例を示したものである。種々の実施形態に従って利用され得るコンピューティングデバイスのコンポーネントレベルの例を説明したものである。種々の実施形態が実施され得る環境を説明したものである。

本開示の種々の実施形態に従うシステムおよび方法は、テキスト情報をアプリケーション、システム、またはサービスに提供するための従来の手法において経験される、一つ以上の前述の、および他の欠陥を克服し得る。具体的には、種々の実施形態は、携帯型コンピューティングデバイスが、テキストを含む画像情報を取得すること、画像内のテキストの場所を特定すること、テキストの種類またはパターン（例えば、Ｅメール、電話番号、ＵＲＬなど）を特定すること、テキストに関連付けられる機能またはアプリケーション（例えば、電話番号に電話する、インターネットブラウザを開くなど）を判定すること、および／またはテキストに関連付けられる機能またはアプリケーションを実施することなどのタスクを実施することを可能にする。少なくともこれらのタスクのうちのいくつかは、ネットワークを通して利用可能な少なくとも１つの資源をも用いて実施され得る。

一実施形態において、ユーザは、テキストを含むオブジェクトに、このオブジェクトの画像をキャプチャするためにカメラを向け得る。カメラは、テキストを認識、特定、および／または分離してこれをアプリケーションまたは機能に送信するために、画像を取り込み、かつこれを処理する能力をもつ携帯型コンピューティングデバイスと一体化され得る。アプリケーションまたは機能は次に、テキストを利用して実質的にリアルタイムでアクションを実施することができる。例えば、通りを歩いているユーザは、電話番号を含む広告を見得る。ユーザは、本明細書に記載の教示を用いて、例えば、スマートフォンのカメラを例えば番号に向けて、この番号を手動で入力することなく、この番号を電話アプリケーションに入力することにより、この電話番号に電話することができる。一例において、デバイスは、画像から番号を入力し、通話を開始するというユーザの指示を待ち得、または他の例において、電話はデバイスによって自動的にかけられ得る。本例は、ウェブアドレスまたはＵＲＬをウェブブラウザ、新規のメッセージウィンドウを開くためのＥメールアドレス、地図アプリケーションを開いて道順を表示するための物理的な住所、およびさまざまな他のアクション可能なデータ種類を入力することに拡張され得る。

種々の他のアプリケーション、処理、および使用が種々の実施形態に関して以下に提示される。

図１は、イベントのチラシ１０６の上で携帯型コンピューティングデバイス１０２を保持しているユーザを示す状況の例１００を説明したものである。イベントのチラシ１０６は、イベントの場所の物理的な住所を含み、かつこの例において、ユーザはその場所への道順を探している。道順を取得するために、ユーザはデバイス１０２のカメラをアドレスを含むチラシの一部分に向けて、図１Ａの画面１０４を通して見ることができるように、そのアドレスの画像をキャプチャまたは取得し得る。一実施形態において、画像を取得し、および／またはテキストの存在を示すプロパティを有する１つ以上の一部分を特定すると、デバイス１０２上のアプリケーションが光学式文字認識（ＯＣＲ）アルゴリズムを自動的に実行して、チラシの画像化されたテキストを認識する。ＯＣＲアルゴリズムは、種々の実施形態において、種々の技術を活用する機械視覚アルゴリズムおよび他の画像前処理アルゴリズムを含み得る。ＯＣＲアルゴリズムは、テキストまたは文字の文字列を含み得る１つの画像の１つ以上の領域を特定および分析するために実行する。任意の特定された文字列は、Ｅメールアドレス、ＵＲＬ／ウェブアドレス、電話番号、および同等物などの関与するデータオブジェクトまたは種類の存在を示し得るパターンをさらに特定するために分析される。再び図１を参照して、物理的な住所の存在を示す文字列が特定されている。この例において、ユーザは、図１Ｂに示されるように、特定のアクションを実施する、または物理的な住所に関連付けられる既定のルーチンまたはワークフローを実行するユーザの意図を確定するように促される。この例において、既定のルーチンは地図アプリケーションを開かせ、住所への道順を表示させる。この例において、ユーザは第１に、「はい」ボタンを押すことによって、またはタッチディスプレイ上で選択を行うことによって意図を確定し得、これにより図１Ｃに示されるように、イベントへの道順を記した地図が携帯型コンピューティングデバイス１０２の画面１０４上に表示される。別の実施形態において、ユーザは、デバイスに向かって、対話型インターフェースを通して話すことによって、例えばボタンを押したり、タッチ画面上で選択を行うかわりに「はい」と言うことによって、意図を確定し得る。デバイスを傾けるなどの、促されたときに意図を確定する他の方途もまた可能である。

図２は、図２Ａに示される名刺２０６の上で携帯型コンピューティングデバイスを保持しているユーザ２０２を示す状況の例２００を説明したものである。上述のとおり、デバイス２０２、またはデバイスと通信しているサービスは、キャプチャした名刺の画像の中のテキストの場所を特定し、テキストの種類またはパターン（例えば、Ｅメールアドレス、電話番号、ＵＲＬなど）を特定し、テキストの種類に関連付けられる機能またはアプリケーション（例えば、電話番号に電話する、インターネットブラウザを開くなど）を判定し、アプリケーションまたは機能に場所を特定されたテキストの少なくとも関連のある一部分を送信してそれとともに操作を実行する。この例において、名刺２０６は、関与する複数のデータオブジェクトを含み、これらは電話番号、Ｅメール、および物理的な住所である。一例において、ユーザは、複数のデータ種類が特定された場合に、１つのデータ種類を別のものよりも優先させる、種々の機能またはアプリケーションに優先度を割り当てることができる。別の例において、デバイス２０２は、さまざまな利用可能な機能またはアプリケーションの中からの選択をユーザに促し得る。

再び図２を参照して、２つ以上のデータオブジェクトを特定するデバイスは、図２Ｂに示されるように、オブジェクトを連絡先情報として保存するためのアドレス帳アプリケーションを立ち上げるという選択肢をユーザに促し得る。代替的に、ユーザは、「この番号に電話するには１を、道順を探すには２を、Ｅメールを送信するには３を、連絡先を保存するには４を押してください」などのメッセージを持つ画面２０４を介して促され得る。一例において、データ種類のテキストは、自動的に各々のデータフィールドの種類へと追加され得る。さらに、種々の実施形態において、デバイス２０２は、名刺などのオブジェクトを認識し、これにデフォルトのワークフローを関連付けるためのダウンロード可能なプラグインをプログラムされ、あらかじめ組み込まれ、または含み得、これはいくつかの例において、データを連絡先として保存するためであり得る。図２の例において、ユーザは、図２Ｂに示されるように、名刺２０６に関連付けられる連絡先を保存するように促される。この場合、しかしながら、ユーザは名刺上の電話番号に電話することを所望し、「いいえ」を選択する。一例において、デバイス２０２は、個々の選択肢をユーザに再び促し得るか、またはユーザは、既定のルーチンを自動的に実行するか、または所定の操作を実行するというアプリケーションの優先度を設定した場合がある。ここで図２Ｃを参照して、ユーザは、この電話番号に電話をかけるという選択肢を選択したか、またはユーザは、電話番号をダイヤルすることを優先操作として割り当て、この番号に電話をかけているデバイス２０２が示される。

図３は、ユーザが携帯型コンピューティングデバイス３０２を窓３０８の方に向けている状況の例３００を説明したものである。窓３０８は、この例において、図３Ａに示される、その上に印刷されたウェブアドレスを有する。種々の実施形態に従い、道を歩いているユーザは、アドレスを手動でウェブブラウザの中へとタイピングする代わりに、ウェブアドレスに移動するための近道として、デバイス３０２に関連付けられるカメラをウェブアドレスに向け得る。この例において、ユーザは、ウェブアドレスを含む窓の画像を手動でキャプチャするために、画面３０４上のアイコン３０６を選択するか、または別のかかる入力を提供しなければならない。前の例において、カメラは、画像をキャプチャしてルーチンを開始する、または特定のデータオブジェクトに関連付けられる動作を実行するというユーザの意図を予測するために、例えば、ジャイロスコープ、加速度計、光センサ、またはそれらの組み合わせを含んでいた場合がある。この例において、ユーザはデバイス３０２をかざし、カメラで窓３０８を狙い、アイコン３０６を押してウェブアドレスの画像をキャプチャする。次に、上述のとおり、デバイスまたはサービスは、図３Ｂに示されるように、ＯＣＲアルゴリズムを通じて実行し、画像の中のテキストの場所を特定し、テキストの種類またはパターン、この例においてはウェブアドレスを特定し、ブラウザアプリケーションを立ち上げ、ユーザをレストランのウェブアドレスへと誘導する。いくつかの実施形態において、ユーザの意図を確定するために、さまざまな処理、アルゴリズム、または他の文脈的手掛かりが利用され得る。レストランの例において、本明細書に記載のシステムは、全地球測位システム（ＧＰＳ）センサからの位置データを利用してユーザの位置を判定し得る。位置情報を利用して、システムは、例えば、ユーザが本システムによって初期に確定されたウェブアドレスに誘導されることを意図しているかどうかを確定するために、ユーザの１００フィート以内に存在する地域ビジネスのウェブ検索を実施し得る。この例において、ユーザがＧｏｏｄＦｏｏｄＣａｆｅに実質的に近い位置（または前）に立っている場合、システム（またはコンピューティングデバイス）は、かなりの程度の確実性を持って、ユーザがこのＣａｆｅの例えばメニューページまたは客の評価ページに誘導されることを意図していると判定し得る。機能を実施するかまたはアプリケーションを起動するユーザの意図を確定するための、さまざまな他の処理、方法、またはアルゴリズムもまた可能である。

図４は、種々の実施形態に従うコンピューティングデバイス上のアプリケーションまたは機能に文字情報を提供するための工程の例４００を説明したものである。本明細書において検討されるあらゆる工程について、別様に記載のない限り、種々の実施形態の範囲内で、追加的な、より少ない、または代替的なステップが、類似のまたは代替的な順序で、または並行して実施され得るということが理解されるべきである。この例において、画像または画像情報（例えば、ビデオストリーム）が取得される４０２。種々の実施形態において、画像または画像情報は、携帯型コンピューティングデバイスのカメラアプリケーションから取得される。一例において、カメラに面したオブジェクトの上にデバイスを空中停止すると、カメラに少なくとも１つの画像を自動的にキャプチャさせるか、または一連の画像を記録し得る。別の例において、カメラは、画像をキャプチャするために、例えば、ユーザがタッチ画面上のアイコンを選択するなどによるユーザからの入力を必要とする。取得された画像情報は、処理されてテキストまたは文字の文字列のプロパティを有する少なくとも１つの領域の場所を特定する４０４。一例において、処理は画像情報を受信すると自動的に開始される。カメラはまた、連続画像キャプチャモードであることもできる。これは、しかしながら、エネルギー集約型であるため、ユーザは、デバイスを連続的に画像キャプチャおよび処理モードで動作させる、またはこれを無効にする、さまざまな選択肢または環境を選択し得る。例えば、設定は、バッテリが特定のレベルまで消耗したときに、連続的なキャプチャおよび処理モードが自動的にオフにされるように選択され得る。この例において、テキストの文字列は、テキストの文字列４０６の中のテキストを認識するための光学式文字認識アルゴリズムを用いて分析される。ＯＣＲアルゴリズムは、機械視覚アルゴリズムおよび他の画像処理技術またはアルゴリズムを含むことができる。認識されたテキスト４０８に対応するテキストパターン（例えば、Ｅメール、電話番号、ＵＲＬなど）が特定される。この例において、判定されたテキストパターン４１０に関連付けられるアプリケーションおよび認識されたテキストが自動的にアプリケーションに提供される。

一実施形態において、デバイスは、テキストの一部分内の関与するデータオブジェクトを認識しない場合がある。この場合、デバイスは、ユーザにウェブ検索を実施する、プラグインを検索して認識されていないパターンを認識するなどのさまざまな他の選択肢を提供するようにプログラムされ得る。ユーザは、テキストの一部分を選択して、このテキストをＥメール、ノートパッド、または種々の他のアプリケーションにコピー／ペーストするように促される場合がある。

種々の実施形態において、図２に関して上述した通り、機能またはアプリケーションは、テキストパターンが電話番号を示す場合、番号をダイヤルすることを、またはテキストパターンが電話番号および物理的な住所の存在を示す場合、連絡先情報を保存するためのアドレス帳を開くことを伴い得る。アプリケーションは、図３で説明されるようにテキストパターンがウェブアドレスを示す場合、ＵＲＬへの誘導であり得る。アプリケーションは、図１で説明されるようにテキストパターンが物理的な住所を示す場合、地図を表示してアドレスを示し得る。機能またはアプリケーションはまた、種々の言語翻訳をも実施し得る。アプリケーションはまた、計算機であり得、数学の方程式を解く能力を有し得、または友人とレストランで食事をする場合に、チップを計算するまたは複数の方途で勘定を折半するための勘定書の特性を特定するためのプラグインに関連付けられ得る。一実施形態において、ユーザは、一次的アクションと、特定のデータオブジェクトに関連付けられる少なくとも二次的アクションから選ぶことを促され得る。名刺の例を再び参照して、名刺の認識に関連付けられる所定の一次的アクションは、名刺上の情報を新規の連絡先としてアドレス帳アプリケーションの中に保存することであり得る。二次的アクションは、カード上の電話番号に電話をかけることであり得、および三次的アクションは、住所への道順を調べることであり得る。

一実施形態において、多くの実施形態の携帯型コンピューティングデバイスと通信しているシステムまたはサービスは、ユーザの活動を経時的に監視して、アプリケーションによって実施されるアクションを調整することができる。例えば、ユーザが常に名刺上の番号に電話することを選び、この連絡先を保存することを決して選ばない場合、デバイスはアルゴリズムを調整して自動的に電話するか、またはユーザにその番号にまず電話することを促す。この例はまた、他のデータの種類に拡張されることもできる。他の実施形態において、デバイスは、さまざまな状況においてユーザの意図を予測するために、さまざまな挙動予想アルゴリズムまたはインテントウェアをリロードされ得る。例えば、デバイスは、ユーザ対面のカメラ、ジャイロスコープ、加速度計、光センサ、またはそれらの組み合わせを含み得る。ユーザ対面のカメラは、顔面認識およびジェスチャ追跡アルゴリズムを用いてユーザが見詰めている方向を判定し得る。光センサは、ユーザのカバンまたはポケットのなかにある可能性を判定し得る。この例において、デバイスは、エネルギー節約モードに入り得、センサによって十分な量の光が検出されるまで画像をキャプチャまたは処理することを控え得る。ジャイロスコープおよび加速度計は、ユーザがデバイスをどのように保持し、動かしているかを検出するために用いられ得る。いくつかの例において、ユーザは、画像の取り込みまたはキャプチャを暗示する特定の様式で予測運動を行うか、またはデバイスを保持する。一例において、動きを記録するジャイロスコープおよび加速度計は、やはりデバイスエネルギー節約モードにし得る。この例において、よい画像をキャプチャすることが難しい場合があり、デバイスはこれらが正常な画像キャプチャ条件でないことを合理的に推察するようにプログラムされ得る。種々の他の方法またはユーザの意図を予測することもまた本開示の範囲内で利用され得る。

種々の実施形態は、画像前処理アルゴリズムおよび／または技術を利用して特定および／または認識のためにテキストを標準化する。実世界のテキストは、異なる大きさの、歪曲した、ぼやけた場合のある多くの色、形状、フォント種類および同等物である。機械視覚画像処理技術が用いられることができ、これは、閾値処理（グレースケール画像を白黒に変換する、またはグレースケール値に基づいて分離を用いる）、セグメント化、斑点抽出、パターン認識、バーコードおよびデータマトリクスコード読込、計測（オブジェクトの直径を測定する）、位置付け、エッジ検出、色分析、フィルタリング（例えば、形態的フィルタリング）、およびテンプレートマッチング（特定のパターンを発見、マッチング、および／または勘定する）を含むことができる。ＯＣＲによってより容易に認識可能である、テキストを処理するためのさまざまな他の技術もまた本開示の範囲内で利用され得る。いくつかの実施形態において、他の画像の欠陥の間のグレアまたはノイズを低減するために、複数の画像またはビデオのストリームが分析される。

図５は、種々の実施形態に従って用いられ得る、携帯型コンピューティングデバイス５００の正面図および後面図の例を説明したものである。１つの種類の携帯型コンピューティングデバイス（例えば、スマートフォン、電子書籍リーダ、またはタブレットコンピュータ）が示されるが、判定、処理、および入力を提供する能力があるさまざまな他の種類の電子デバイスが本明細に記載の種々の実施形態に従って用いられ得るということが理解されるべきである。デバイスは、例えば、ノート型コンピュータ、携帯情報端末、携帯電話、ビデオゲーム機またはコントローラ、および携帯型メディアプレーヤをとりわけ含むことができる。

この例において、携帯型コンピューティングデバイス５００は、画像コンテンツをデバイスの１人以上のユーザまたは閲覧者に表示するように動作可能な表示画面５０２（例えば、液晶画面（ＬＣＤ）要素）を有する。少なくともいくつかの実施形態において、表示画面は、例えば、容量性または抵抗性のタッチ技術を用いてタッチまたはスワイプをベースとした入力を提供する。かかる表示要素は、例えば、ユーザが、右または左のマウスのボタン、タッチポイントなどのボタンの画像に対応する画面のある部位を押すことによって入力を提供することを可能にするために用いられ得る。デバイスはまた、デバイスの側面または背面上などのデバイスの他の部位上に接触感知式および／または感圧式材料５１０を有することもできる。少なくともいくつかの実施形態において、かかる材料に接触するまたは握ることによってユーザが入力を適用することができるが、他の実施形態において、材料は、材料に関するパターン模様入りの表面の動きを通じてデバイスの運動を検出するために用いられ得る。

携帯型コンピューティングデバイスの例は、従来の画像および／またはビデオキャプチャなどの目的のために１つ以上の画像キャプチャ要素を含むことができる。本明細書に記載したように、画像キャプチャ要素はまた、動きを判定し、ジェスチャ入力を受信する目的のために用いられることもできる。この例における携帯型コンピューティングデバイスは、デバイスの「前面」に１つの画像キャプチャ要素５０４を含み、デバイスの「背面」に１つの画像キャプチャ要素５１２を含むが、画像キャプチャ要素はまた、または代替的に、デバイスの側面または角に置かれ得、および類似のまたは異なる種類の任意の適切な数のキャプチャ要素が存在することができるということが理解されるべきである。それぞれの画像キャプチャ要素が、例えば、カメラ、電荷結合素子（ＣＣＤ）、動き検出センサ、または赤外線センサであり得、または別の画像キャプチャ技術を利用することができる。

携帯型コンピューティングデバイスはまた、少なくとも１つのマイク５０６またはある特定の実施形態において位置の変化を判定する、またはユーザ入力を受信するために用いられ得るものなどの音声データキャプチャする能力がある他の音声キャプチャ要素を含むこともできる。いくつかのデバイスにおいて、１つのマイクのみが存在し得るが、他のデバイスにおいては、デバイスのそれぞれの側面および／または角に、または他の適切な場所に少なくとも１つのマイクが存在し得る。

この例におけるデバイス５００はまた、デバイスの位置、方向、動き、または配向などの情報を提供するように動作可能な、少なくとも１つの動きまたは位置判定要素５０８を含む。これらの要素は、例えば、加速度計、内部センサ、電子ジャイロスコープ、電子コンパス、およびＧＰＳ要素を含むことができる。別のデバイスのための少なくとも１つの制御信号をトリガすることができるさまざまな種類の動きまたは配向の変更が、デバイスに入力を提供するために用いられ得る。このデバイスの例はまた、１つ以上の携帯型コンピューティングデバイスと通信するように動作可能な、少なくとも１つの有線または無線コンポーネントを含み得るなどの少なくとも１つの通信機構５１４を含む。デバイスはまた、従来のプラグイン手法を通じて、または電力マットまたは他のかかるデバイスとの近接を通じた容量性充電などの他の手法を通じて再充電されるように動作可能なバッテリを含み得るなどの電力システム５１６を含む。種々の実施形態の範囲内でさまざまな他の要素および／または組み合わせもまた可能である。

図５、図６に関して記載したような機能性を提供するために、図５に関して記載したデバイス５００などの携帯型コンピューティングデバイス６００の１組の基本コンポーネントの例を説明する。この例において、デバイスは、少なくとも１つの記憶デバイスまたは要素６０４内に格納され得る命令を実行するための少なくとも１つのプロセッサ６０２を含む。当業者には明白であるように、デバイスは、プロセッサ６０２によって実行されるためのプログラム命令のための第１のデータ記憶装置などの多くの種類のメモリ、データ記憶装置またはコンピュータ可読の記憶媒体を含むことができ、画像またはデータのために同一または別個の記憶装置が用いられることができ、取り外し可能な記憶メモリは他のデバイスなどと情報を共有するために利用可能である。

携帯型メディアプレーヤなどのデバイスは音声スピーカなどの他の手段を介して情報を伝達し得るが、デバイスは典型的に、タッチ画面、電子インク（ｅインク）、有機発光ダイオード（ＯＬＥＤ）または液晶画面（ＬＣＤ）などのいくつかの種類の表示要素６０６を含み得る。検討されたように、多くの実施形態において、デバイスは、ユーザ、人々、またはオブジェクトをデバイスの近くに撮像することができる１つ以上のカメラなどの少なくとも１つの画像キャプチャ要素６０８を含み得る。少なくともいくつかの実施形態において、デバイスは、画像情報を用いてユーザによるジェスチャまたはモーションを判定することができ、これはユーザが実際に携帯型デバイスに接触する、および／または動かすことなく、携帯型デバイスを通じて入力を提供することを可能にする。画像キャプチャ要素はまた、本明細書に記載されるように、デバイスの周囲環境を判定するために用いられ得る。画像キャプチャ要素は、ユーザがデバイスを操作しているときに、ユーザの画像をキャプチャするために十分な解像度、集束範囲および可視領域を有するＣＣＤ画像キャプチャ要素などの任意の適切な技術を含むことができる。

デバイス、は、多くの実施形態において、１つ以上の音声スピーカおよび／またはマイクなどの少なくとも１つの音声要素６１０を含み得る。マイクは、声認識、デジタル録音など、声で可能となる機能を促進するために用いられ得る。音声スピーカは音声出力を実施し得る。いくつかの実施形態において、音声スピーカ（複数可）は、デバイスから分離して存在し得る。デバイスは、多くの実施形態に関して上述したように、少なくとも１つの光学式文字認識装置（ＯＣＲ）要素６１２およびそれに関連付けられるさまざまな画像処理アルゴリズムを含み得る。

デバイスは、ユーザから従来の入力を受信することができる少なくとも１つの追加的な入力デバイスを含むことができる。この従来の入力は、例えば、これらによってユーザがデバイスにコマンドを入力することができる押しボタン、タッチパッド、タッチ画面、ホイール、ジョイスティック、キーボード、マウス、トラックボール、キーパッドまたは任意の他のかかるデバイスまたは要素を含むことができる。これらのＩ／Ｏデバイスは、いくつかの実施形態において、無線赤外線またはＢｌｕｅｔｏｏｔｈ（登録商標）または他のリンクによってさえも接続され得る。いくつかの実施形態において、しかしながら、かかるデバイスはいかなるボタンも含まない場合があり、ユーザがデバイスと接触することなくデバイスを制御することができるように、視覚および音声コマンドの組み合わせによってのみ制御され得る場合がある。

デバイスの例はまた、特定の無線チャネルの通信範囲内で１つ以上の携帯型コンピューティングデバイスと通信するように動作可能な１つ以上の無線コンポーネント６１４を含む。無線チャネルは、デバイスが無線で通信することを可能にするために用いられる、Ｂｌｕｅｔｏｏｔｈ、セルラー、またはＷｉ−Ｆｉチャネルなどの任意の適切なチャネルであることができる。デバイスが、当技術分野で既知であるような１つ以上の従来の有線通信接続を有することができるということが理解されるべきである。デバイスの例は、携帯型コンピューティングデバイスに電力を提供するための、当技術分野で既知のさまざまな電力コンポーネント６１６を含み、これは電力パッドまたは本明細書に記載される類似のデバイスとともに用いられるための容量性充電要素を含むことができる。デバイスの例はまた、デバイスのケーシングの周りの接触感知式材料などの少なくとも１つの接触感知式および／または感圧式要素６１８、握ることに基づく入力をデバイスに提供する能力がある少なくとも１つの領域を含むことができる。いくつかの実施形態において、この材料は、例えば、デバイスのまたはユーザの指などの動きを判定するために用いられ得るが、一方他の実施形態において、材料は、特定の入力またはコマンドを提供するために用いられ得る。

いくつかの実施形態において、デバイスは、ユーザまたはアプリケーションからのコマンドを受け取ったとき、または音声入力またはビデオ入力を判定しようと再試行しているときなどに、検出および／またはコマンドモードを起動および／または解除する能力を含むことができる。いくつかの実施形態において、デバイスは、赤外線検出器または運動センサを含むことができ、例えば、これらは１つ以上の検出モードを起動するために用いられ得る。例えば、その部屋にユーザが存在しないとき、あるデバイスは、デバイスを検出したり、またはデバイスと通信したりすることを試みない可能性がある。赤外線検出器（すなわち、状態の変化を検出する１ピクセル分解能を持つ検出器）が、例えば、ユーザがその部屋に入ってきたことを検出した場合、デバイスは、ユーザによって必要とされたときにデバイスの準備ができているようにするが、ユーザが近くにいないときは電力および資源を節約することができるように、検出または制御モードを起動することができる。

種々の実施形態に従うコンピューティングデバイスは、デバイスが周辺光に曝露しているか、または相対的または完全な暗闇にあるのかを判定することができる光検出要素を含み得る。かかる要素は、いくつかの方途において有益である場合がある。ある特定の従来のデバイスにおいて、光検出要素は、電話の表示要素を一時的に切る（デバイスをユーザの耳に当てている間、ユーザが表示要素を見ることができないため）アクションをトリガする、いつユーザが携帯電話をユーザの顔に向けて保持しているか（光検出要素を実質的に周辺光から遮断させる）を判定するために用いられる。光検出要素は、デバイスの機能を調整するための他の要素からの情報を合わせて用いられ得る。例えば、デバイスがユーザの視覚位置を検出することができず、ユーザがデバイスを保持していないが、デバイスが周辺光に曝露している場合、デバイスは、ユーザによって下に置かれたということを判定し、表示要素をオフにし、ある特定の機能性を無効にし得る。デバイスがユーザの視覚位置を検出することができず、ユーザがデバイスを保持しておらず、デバイスがさらに周辺光に曝露している場合、デバイスは、デバイスがユーザの手が届かない可能性があるバッグまたは他の仕切りに置かれたということを判定し、よって別様には利用可能であった追加的な機能をオフまたは無効にし得る。いくつかの実施形態において、ユーザはデバイスを見ているか、デバイスを保持しているか、またはデバイスのあるいくつかの機能性を有効にするためにデバイスを光の中へ取り出したかのいずれかであるはずである。他の実施形態において、デバイスは、反射（明るい状況）および放射（暗い状況）などの異なるモードにおいて動作することができる表示要素を含み得る。検出された光に基づいて、デバイスはモードを変更し得る。マイクを用いて、デバイスは、電気の節約に実質的に関係のない理由により、他の機能を無効にすることができる。例えば、デバイスは、声認識を用いて、子供などのデバイスの近くにいる人を判定し、これに基づいてインターネットアクセスまたはペアレンタルコントロールなどの機能を無効または有効にすることができる。さらに、デバイスは、録音されたノイズを分析して、デバイスが車内にあるか飛行機内にあるかなどの環境を判定することを試みることができ、この判定は他の入力に基づいて、どの機能を有効／無効にするか、またはどのアクションが取られるかを決定することを支援することができる。声認識が用いられる場合、デバイスに直接的に話されるか、または会話を通じて間接的に拾った言葉が入力として用いられ得る。例えば、デバイスが、デバイスは車内にあり、ユーザの方を向いていると判定し、「おなかがすいた」または「食べる」などの言葉を検出した場合、次にデバイスは表示要素をオンにして近くのレストランなどの情報を表示し得る。ユーザは、プライバシーおよび他のかかる目的のために、声の記録および会話のモニタリングをオフにする選択肢を有する。

上記の例のうちのいくつかにおいて、デバイスによって取られたアクションは、電力消費を低減する目的のために、ある特定の機能性を解除にすることに関する。しかしながら、デバイスを用いることについての類似の他の可能性のある課題を調整することができるアクションが他の機能に対応することができることが理解されるべきである。例えば、ウェブページのコンテンツを要求する、ハードドライブ上のコンテンツを検索する、およびさまざまなアプリケーションを開くなどのある特定の機能は、完了までにいくらかの時間を要する。資源の限られたデバイス、または多用されるデバイスについては、いくつかのかかる操作が同時に発生することが、デバイスの動作を遅くしたり、または動かなくなったりすることを招く場合があり、これは非効率性に繋がり、ユーザの体験を悪化させ、より多く電力を使用する場合がある。

少なくともこれらおよび他のかかる問題のうちのいくつかに対処するため、種々の実施形態に従う手法はまた、ユーザの見つめる方向などの情報を利用して、処理容量、メモリの空きおよび他のかかる資源の必要性を広げるために用いられる可能性がある資源を起動することもできる。

いくつかの実施形態において、デバイスは、十分な処理容量を有することができ、撮像要素および関連付けられる解析アルゴリズム（複数可）は、キャプチャされた画像のみに基づいてデバイスの動き、ユーザの頭の動き、ユーザの目の動き、および他のかかる動きを区別するために十分な程に感受性が高い。極めて単純な撮像要素および分析手法を利用することが処理のために望ましい場合がある他の実施形態において、デバイスの現在の配向を判定することができる、少なくとも１つの配向判定要素を含むことが望ましい場合がある。一例において、この少なくとも１つの配向判定要素は、デバイスの３Ｄ位置およびデバイスの動きの大きさおよび方向、ならびに振動、衝撃などの因子を検出することができる、少なくとも１つの単軸または多軸加速度計である。加速度計などの要素を用いてデバイスの配向または動きを判定するための方法もまた当技術分野で既知であり、本明細書では詳細に記載しない。配向および／または動きを判定するための他の要素もまた、種々の実施形態の範囲内で配向判定要素として用いるために用いられ得る。加速度計または同様の要素からの入力がカメラからの入力とともに用いられたとき、相対的な動きはより正確に解釈され得、さらに精密な入力および／またはより複雑性の低い画像分析アルゴリズムを可能にする。

コンピューティングデバイスの撮像要素を用いて、例えばデバイスおよび／またはユーザの動きを検出するとき、コンピューティングデバイスは、画像中の背景を用いて動きを判定することができる。例えば、ユーザがデバイスを固定された配向（例えば、距離、角度など）でユーザにかざし、ユーザが配向を周囲の環境に変更した場合、ユーザの画像のみを分析することはデバイスの配向における変更を検出する結果とならない。そうではなく、いくつかの実施形態において、コンピューティングデバイスは、ユーザの後方にある背景画像における変化を認識することによってデバイスの動きをやはり検出することができる。そのため、例えば、オブジェクト（例えば、窓、絵、木、茂み、建物、車など）が画像の左または右へ移動すると、デバイスは、ユーザに関するデバイスの配向が変更されていないにも関わらず、デバイスが配向を変更したと判定することができる。他の実施形態において、デバイスは、デバイスに関して移動したことを判定し、それに応じて調整し得る。例えば、ユーザがデバイスに関して頭を左または右に傾けた場合、表示要素上にレンダリングされるコンテンツは、同様に傾いてコンテンツをユーザの配向に保ち得る。

検討されたように、記載の実施形態に従う異なる手法がさまざまな環境において実装され得る。例えば、図７は、種々の実施形態に従う側面を実装するための環境の例７００を説明したものである。理解されるように、説明を目的としてウェブベースの環境が用いられるが、種々の実施形態を実装するために異なる環境が適切に用いられ得る。システムは、電子クライアントデバイス７０２を含み、これは、要求、メッセージまたは情報を適切なネットワーク７０４で送受信し、情報をデバイスのユーザへ戻し伝えるように動作可能な任意の適切なデバイスを含むことができる。かかるクライアントデバイスの例は、パソコン、携帯電話、手持ち式のメッセージングデバイス、ラップトップ型パソコン、セットトップボックス、携帯情報端末、電子書籍リーダおよび同等物を含む。ネットワークは、イントラネット、インターネット、セルラーネットワーク、ローカルエリアネットワーク、または任意の他のかかるネットワーク、またはそれらの組み合わせを含む任意の適切なネットワークを含むことができる。ネットワークは、「プッシュ」型ネットワーク、「プル」型ネットワーク、またはそれらの組み合わせであり得る。「プッシュ」型ネットワークにおいて、サーバのうちの１つ以上がクライアントデバイスにデータをプッシュする。「プル」型ネットワークにおいて、サーバのうちの１つ以上が、クライアントデバイスからデータについての要求があると、クライアントデバイスにデータを送信する。かかるシステムのために用いられるコンポーネントは、少なくとも部分的に選択されたネットワークおよび／または環境の種類に依存する。かかるネットワークを介して通信するためのプロトコルおよびコンポーネントはよく知られており、本明細書において詳細に記載されない。ネットワークでの通信は、有線または無線接続およびそれらの組み合わせを介して有効とされ得る。この例において、環境が要求を受信し、それに応じてコンテンツを提供するためのウェブサーバ７０６を含むため、ネットワークはインターネットを含むが、他のネットワークについては、当業者に明確となるように、類似の目的を果たす代替的なデバイスが用いられ得る。

例示的な環境は、少なくとも１つのアプリケーションサーバ７０８およびデータストア７１０を含む。相互にやり取りして適切なデータストアからデータを取得するなどのタスクを実施することができる、繋がれるか別様に構成されるいくつかのアプリケーションサーバ、レイヤ、または他の要素、処理またはコンポーネントが存在することができるということが理解されるべきである。本明細書で用いられる場合、「データストア」という用語は、任意のデバイスまたはデータの格納、アクセス、および読み出しの能力を持つデバイスの組み合わせを指し、これらは任意の標準、分散、またはクラスタ環境において、任意の組み合わせおよび数のデータサーバ、データベース、データ記憶デバイスおよびデータ記憶媒体を含み得る。アプリケーションサーバ７０８は、クライアントデバイスのための１つ以上のアプリケーションの側面を実行する必要に応じてデータストア８１０と統合するための、およびアプリケーションのためのデータアクセスおよびビジネス論理の大部分を扱うための、任意の適切なハードウェアおよびソフトウェアを含むことができる。アプリケーションサーバは、データストアと協働してアクセス制御サービスを提供し、テキスト、図形、ユーザに転送される音声および／またはビデオなどのコンテンツを生成することができ、これはこの例においてはウェブサーバ７０６によってＨＴＭＬ、ＸＭＬ、または他の適切な構造化言語の形式でユーザに供される。すべての要求および応答の扱い、ならびにクライアントデバイス７０２とアプリケーションサーバ７０８との間のコンテンツの配信は、ウェブサーバ７０６によって扱われることができる。本明細書に記載に記載されるように、本明細書に記載の構造化コードが任意の適切なデバイスまたはホストマシン上で実行され得るため、ウェブおよびアプリケーションサーバは必要とされず、および単にコンポーネントの例であるということが理解されるべきである。

データストア７１０は、特定の側面に関連するデータを格納するためのいくつかの別個のデータテーブル、データベースまたは他のデータ記憶機構および媒体を含むことができる。例えば、説明されるデータストアは、コンテンツ（例えば、生産データ）７１２およびユーザ情報７１６を格納するための機構を含み、これらは生産側にコンテンツを供するために用いられ得る。データストアはまた、ログまたはセッションデータ７１４を格納するための機構を含むようにも示される。ページ画像情報およびアクセス権情報などの、データストア内に格納される必要があり得る多くの他の側面が存在することができるということが理解されるべきであり、これらは上記に列挙された機構のうちの任意のものに適切に、またはデータストア７１０内の追加的な機構に格納され得る。データストア７１０は、これに関連付けられる論理を通じて、アプリケーションサーバ７０８から命令を受信し、かつそれに応じてデータを取得、更新、または別様に処理するように動作可能である。一例において、ユーザは、ある特定の種類の項目について検索要求を提出し得る。この場合、データストアは、ユーザ情報にアクセスしてユーザの身元を確認し得、かつカタログ詳細情報にアクセスしてその種類の項目についての情報を取得することができる。情報は次に、ユーザがユーザデバイス７０２上のブラウザを介して閲覧することができるウェブページ上に列挙される結果の中でユーザに戻される。関与する特定の項目についての情報は、専用のページまたはブラウザのウィンドウの中で閲覧され得る。

それぞれのサーバが典型的に、そのサーバの一般管理および操作のために実行可能なプログラム命令を提供するオペレーティングシステムを含み、典型的にサーバのプロセッサによって実行されると、サーバがその意図する機能を実施することを可能にする命令を格納するコンピュータ可読の媒体を含む。オペレーティングシステムのための適切な実装およびサーバの一般的な機能性は既知であるか市販されており、特に本開示を考慮して当業者によって容易に実装される。

一実施形態における環境は、１つ以上のコンピュータネットワークまたは直接接続を用いた通信リンクを介して相互接続された、いくつかのコンピュータシステムおよびコンポーネントを利用した分散型コンピューティング環境である。しかしながら、図７において説明されたものよりも少ないまたは多い数のコンポーネントを有するシステムにおいて、かかるシステムが同等に良好に動作し得るということは当業者によって認識されるであろう。ゆえに、システム７００の図７における描写は、例示的な性質であり、本開示の範囲を制限しないと見なされるべきである。

種々の実施形態は、多種多様な動作環境においてさらに実装され得、いくつかの場合において、いくつかのアプリケーションのうちの任意のものを操作するために用いられ得る１つ以上のユーザコンピュータまたはコンピューティングデバイスを含むことができる。ユーザまたはクライアントデバイスは、標準オペレーティングシステムを実行するデスクトップ型またはラップトップ型パソコン、ならびにモバイルソフトウェアを実行し、いくつかのネットワーキングおよびメッセージングプロトコルに対応する能力を持つセルラー、無線および手持ち型デバイスなどのいくつかの汎用パソコンを含むことができる。かかるシステムはまた、開発およびデータベース管理などの目的のために、さまざまな市販のオペレーティングシステムおよび他の知られているアプリケーションを実行するいくつかのワークステーションを含むこともできる。これらのデバイスはまた、疑似ターミナル、シンクライアント、ゲームシステム、およびネットワークを介して通信する能力を持つ他のデバイスなどの他の電子デバイスを含むこともできる。

ほとんどの実施形態が、ＴＣＰ／ＩＰ、ＯＳＩ、ＦＴＰ、ＵＰｎＰ、ＮＦＳ、ＣＩＦＳ、およびＡｐｐｌｅＴａｌｋなどのさまざまな市販のプロトコルのうちの任意のものを用いて通信に対応するために、当業者に周知の少なくとも１つのネットワークを利用する。ネットワークは、例えば、ローカルエリアネットワーク、広域ネットワーク、仮想プライベートネットワーク、インターネット、イントラネット、エクストラネット、公衆交換電話ネットワーク、赤外線ネットワーク、無線ネットワーク、およびそれらの組み合わせであることができる。

ウェブサーバを利用する実施形態において、ウェブサーバは、ＨＴＴＰサーバ、ＦＴＰサーバ、ＣＧＩサーバ、データサーバ、Ｊａｖａ（登録商標）サーバ、およびビジネスアプリケーションサーバを含むさまざまなサーバまたはミッドティアアプリケーションの任意のものを実行することができる。サーバ（複数可）はまた、Ｊａｖａ（登録商標）、Ｃ、Ｃ＃もしくはＣ＋＋などの任意のプログラミング言語、またはＰｅｒｌ、Ｐｙｔｈｏｎ、もしくはＴＣＬなどの任意のスクリプト言語、またはそれらの組合せで記述された１つ以上のスクリプトまたはプログラムとして実装され得る１つ以上のウェブアプリケーションを実行することによって、ユーザデバイスからの要求に応じてプログラムまたはスクリプトを実行する能力を持ち得る。サーバ（複数可）はまた、Ｏｒａｃｌｅ（登録商標）、Ｍｉｃｒｏｓｏｆｔ（登録商標）、Ｓｙｂａｓｅ（登録商標）、およびＩＢＭ（登録商標）から市販されているものを含むデータベースサーバを含み得るがこれらに限定されない。

環境は、上述のとおり、さまざまなデータストアおよび他のメモリおよび記憶媒体を含むことができる。これらはコンピュータのうちの１つ以上にとってローカルの（および／または常駐の）、またはネットワークにわたる任意のまたはすべてのコンピュータからリモートの記憶媒体上などのさまざまな場所に存在することができる。特定の１組の実施形態において、情報は当業者に周知のストレージエリアネットワーク（ＳＡＮ）内に存在し得る。同様に、コンピュータ、サーバまたは他のネットワークデバイスに帰属する機能を実施するために必要な任意のファイルは、ローカルまたはリモートに適切に格納され得る。システムがコンピュータ化されたデバイスを含む場合、それぞれのかかるデバイスが、バスを介して電気的に接続され得る、例えば、少なくとも１つの中央処理装置（ＣＰＵ）、少なくとも１つの入力デバイス（例えば、マウス、キーボード、コントローラ、タッチ感応式表示要素、またはキーパッド）、および少なくとも１つの出力デバイス（例えば、表示デバイス、プリンタ、またはスピーカ）を含むハードウェア要素を含むことができる。かかるシステムは、ディスクドライブ、光学式記憶デバイス、およびランダムアクセスメモリ（ＲＡＭ）または読み取り専用メモリ（ＲＯＭ）などのソリッドステート記憶デバイス、ならびに取り外し可能な媒体デバイス、メモリカード、フラッシュカードなどの１つ以上の記憶デバイスを含み得る。

かかるデバイスはまた、上述の通り、コンピュータ可読の記憶媒体リーダ、通信デバイス（例えば、モデム、ネットワークカード（無線または有線）、赤外線通信デバイス）、およびワーキングメモリを含むこともできる。コンピュータ可読の記憶媒体リーダは、リモート、ローカル、固定、および／または取り外し可能な記憶デバイスを表すコンピュータ可読の記憶媒体、ならびに一時的におよび／または永続的にコンピュータ可読の情報を含む、格納する、送信する、および読み出すための記憶媒体と接続されるか、または受信するように構成され得る。システムおよびさまざまなデバイスはまた典型的に、オペレーティングシステムおよびクライアントアプリケーションまたはウェブブラウザなどのアプリケーションプログラムを含む少なくとも１つのワーキングメモリデバイス内に位置するいくつかのソフトウェアアプリケーション、モジュール、サービス、または他の要素を含み得る。代替の実施形態が上述のものからの多くの変化を有することが理解されるべきである。例えば、カスタマイズされたハードウェアもまた用いられ得、および／またはハードウェア、ソフトウェア（アプレットなどの携帯型ソフトウェアを含む）またはその両方に特定の要素が実装され得る。さらに、ネットワーク入力／出力デバイスなどの他のコンピューティングデバイスへの接続が採用され得る。

コードまたはコードの一部分を含む記憶媒体およびコンピュータ可読媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリもしくは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）もしくは他の光学式記憶、磁気カセット、磁気テープ、磁気ディスク記憶もしくは他の磁気記憶デバイスまたは任意の他の媒体を含む、コンピュータ可読命令、データ構造、プログラムモジュールもしくは他のデータなどの情報の記憶および／または送信のための、任意の方法または技術で実装された、これらに限定されないが揮発性および不揮発性の、取り外し可能および取り外し可能でない媒体などの記憶媒体および通信媒体を含む、当技術分野で既知または使用されている任意の適切な媒体を含むことができ、これらは所望の情報を格納するために用いられることができ、これらはシステムデバイスによってアクセスされ得る。本開示および本明細書に提供される教示に基づき、当業者は種々の実施形態を実装するための他の方途および／または方法を認識するであろう。

明細書および図面は、それにより、制限的意味でなく例示的意味と見なされる。しかしながら、特許請求の範囲に記載の本発明の広範な精神および範囲から逸脱することなくこれらに対しさまざまな修正および変更がなされ得ることは明白となろう。

付記１．コンピュータ実装方法であって、
実行可能な命令で構成される１つ以上のコンピュータシステムの制御下において、携帯型コンピューティングデバイスのカメラによってキャプチャされた画像情報を取得することと、
前記画像情報を処理して、テキスト文字列のプロパティを有する前記画像の少なくとも１つの領域の位置を特定することと、
前記少なくとも１つの領域内のテキストを認識するための光学式文字認識アルゴリズムを用いて、前記少なくとも１つの領域を分析することと、
前記認識されたテキストに対応するテキストパターンを特定することと、
前記テキストパターンに関連付けられるアプリケーションを判定し、
前記認識されたテキストを前記アプリケーションに自動的に提供することと、を含む、方法。

付記２．前記取得することと、処理することと、分析することと、特定することと、提供することは、画像情報を取得すると自動的に発生する、付記１に記載のコンピュータ実装方法。

付記３．前記テキストパターンが電話番号を示すとき、ダイヤルすることと、前記テキストがＥメールを示すとき、Ｅメールを作成するためのＥメールアプリケーションを開くことと、前記テキストがウェブアドレスを示すとき、ＵＲＬへと誘導することと、前記テキストが少なくとも電話番号と住所の存在を示すとき、連絡先情報を保存するためのアドレス帳を開くことと、前記テキストが物理的住所を示すとき、地図を開いて住所を見せることと、言語翻訳を実施することと、または数学の方程式を解くことと、のうちの少なくとも１つを前記アプリケーションに実施させることをさらに含む、付記１に記載のコンピュータ実装方法。

付記４．ユーザ活動を経時的に監視して、前記アプリケーションによって実施されるアクションを調整することをさらに含む、付記３に記載のコンピュータ実装方法。

付記５．加速度計またはジャイロスコープのうちの少なくとも１つを用いて、前記デバイスの動きまたは前記デバイスの配向のうちの少なくとも１つを検知することによってユーザの意図を確定して、前記認識されたテキストを前記アプリケーションに提供することをさらに含む、付記１に記載のコンピュータ実装方法。

付記６．コンピュータ実装方法であって、
実行可能な命令で構成される１つ以上のコンピュータシステムの制御下において、１つの画像内のテキストに関連付けられる画像情報を特定することと、
前記テキストに関連付けられる画像情報からテキストの種類を判定することと、
前記テキストの種類に関連付けられる少なくとも１つの機能を判定することと、
コンピューティングデバイスが前記テキストを用いて前記少なくとも１つの機能を実施することを可能にすることと、を含む、方法。

付記７．前記少なくとも１つの機能を実施する意図を確定するようにユーザを促すことをさらに含む、付記６に記載のコンピュータ実装方法。

付記８．一次的アクションと、前記テキストの種類に関連付けられる少なくとも二次的アクションとのどちらかを選択するようにユーザを促すことをさらに含む、付記６に記載のコンピュータ実装方法。

付記９．前記コンピューティングデバイスのカメラから取得される前記画像を取得することをさらに含む、付記６に記載のコンピュータ実装方法。

付記１０．前記画像は、前記コンピューティングデバイスのカメラがオブジェクトに焦点を合わされたときに自動的に取得されるか、またはユーザ入力に応答して取得されるかのうちの１つである、付記６に記載のコンピュータ実装方法。

付記１１．前記少なくとも１つの機能は、前記テキストの種類が電話番号を示すとき、ダイヤルすることと、前記テキストの種類がＥメールを示すとき、Ｅメールを作成するためのＥメールアプリケーションを開くことと、前記テキストの種類がウェブアドレスを示すとき、ＵＲＬへと誘導することと、前記テキストの種類が少なくとも電話番号と住所の存在を示すとき、連絡先情報を保存するためのアドレス帳を開くことと、前記テキストの種類が物理的住所を示すとき、地図を開いて住所を見せることと、言語翻訳を実施することと、または数学の方程式を解くことと、のうちの少なくとも１つを含む、付記６に記載のコンピュータ実装方法。

付記１２．前記画像を閾値化して、前記画像のぼやけ、ノイズ、または照明の変化のうちの少なくとも１つに対処するために、テキストに関連付けられる前記画像情報を標準化することをさらに含む、付記９に記載のコンピュータ実装方法。

付記１３．コンピュータ視覚アルゴリズムまたは光学式文字認識アルゴリズムのうちの少なくとも１つが、前記画像からのテキストに関連付けられる前記画像情報を少なくとも特定するために用いられる、付記６に記載のコンピュータ実装方法。

付記１４．前記テキストに関連付けられる画像情報を前記特定することと、前記テキストの種類を判定することと、または前記少なくとも１つの機能を判定すること、のうちの少なくとも１つが、前記コンピューティングデバイスと通信する遠隔サーバによって実施される、付記６に記載のコンピュータ実装方法。

付記１５．コンピュータ実装方法であって、
実行可能な命令で構成される１つ以上のコンピュータシステムの制御下において、携帯型コンピューティングデバイスのカメラによってキャプチャされたデジタル画像から文字の文字列を認識し、
前記文字の文字列から、文字パターンを特定し、
前記文字パターンに関連付けられるアプリケーションを判定し、
前記文字パターンを前記アプリケーションに提供する、方法。

付記１６．前記アプリケーションは、実行されると、前記文字パターンが電話番号を示すとき、ダイヤルすることと、前記文字パターンがウェブアドレスを示すとき、ＵＲＬへと誘導することと、前記文字パターンが少なくとも電話番号と住所の存在を示すとき、連絡先情報を保存するためのアドレス帳を開くことと、前記文字パターンが物理的住所を示すとき、地図を開いて住所を見せることと、言語翻訳を実施することと、または数学の方程式を解くことと、のうちの少なくとも１つを実行する、付記１５に記載のコンピュータ実装方法。

付記１７．一次的アクションと、前記文字パターンに関連付けられる少なくとも二次的アクションとのどちらかを選択するようにユーザを促すことをさらに含む、付記１５に記載のコンピュータ実装方法。

付記１８．携帯型コンピューティングデバイスであって、
プロセッサと、
前記プロセッサによって実行されると、前記プロセッサに、
１つの画像内のテキストを特定させ、
前記特定されたテキストから、テキストパターンを特定させ、
前記テキストパターンに関連付けられる少なくとも１つの機能を判定させ、
前記テキストパターンに関連付けられる前記少なくとも１つの機能を実施させる命令を含む、記憶デバイスと、を備える、携帯型コンピューティングデバイス。

付記１９．前記テキストを特定することと、前記テキストパターンを特定することと、前記少なくとも１つの機能を判定することと、前記少なくとも１つの機能を実施することは、前記携帯型コンピューティングデバイス上でローカルに実施される、付記１８に記載の携帯型コンピューティングデバイス。

付記２０．前記テキストを特定することと、前記テキストパターンを特定することと、前記少なくとも１つの機能を判定することのうちの少なくとも１つが、前記コンピューティングデバイスと通信する遠隔サーバによって実施される、付記１８に記載の携帯型コンピューティングデバイス。

付記２１．オブジェクトに焦点を合わされると、またはユーザからの入力に応答して前記画像を自動的に取得するためのカメラをさらに備える、付記１８に記載の携帯型コンピューティングデバイス。

付記２２．プロセッサによって実行されると、前記プロセッサに、
１つの画像内のテキストを特定させ、
前記特定されたテキストから、テキストパターンを特定させ、
前記テキストパターンに関連付けられる少なくとも１つの機能を判定させ、
前記テキストパターンを用いて前記少なくとも１つの機能を実施させる命令を格納する、持続性コンピュータ可読記憶媒体。

付記２３．前記テキストを特定することと、前記テキストパターンを特定することと、前記少なくとも１つの機能を判定することと、または前記少なくとも１つの機能を実施することのうちの少なくとも１つは、前記携帯型コンピューティングデバイス上でローカルに実施される、付記２２に記載の持続性コンピュータ可読記憶媒体。

付記２４．プロセッサによって実行されると、前記プロセッサにさらに、
ユーザ活動を経時的に監視して、前記少なくとも１つの機能によって実施されるアクションを調整させる命令を格納する、付記２２に記載の持続性コンピュータ可読記憶媒体。

付記２５．前記テキストパターンは、電話番号を示すパターンと、Ｅメールアドレスを示すパターンと、ＵＲＬを示すパターンと、所在地住所を示すパターンのうちの少なくとも１つを含む、付記２２に記載の持続性コンピュータ可読記憶媒体。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［１］コンピュータ実装方法であって、
実行可能な命令で構成される１つ以上のコンピュータシステムの制御下において、
１つの画像内のテキストに関連付けられる画像情報を特定することと、
テキストに関連付けられる前記画像情報から、テキストの種類を判定することと、
前記テキストの種類に関連付けられる少なくとも１つの機能を判定することと、
コンピューティングデバイスが前記テキストを用いて前記少なくとも１つの機能を実施することを可能にすることと、を含む、コンピュータ実装方法。
［２］前記少なくとも１つの機能を実施する意図を確定するようにユーザを促すことをさらに含む、［１］に記載のコンピュータ実装方法。
［３］一次的アクションと、前記テキストの種類に関連付けられる少なくとも二次的アクションとのうちから選択するようにユーザを促すことをさらに含む、［１］に記載のコンピュータ実装方法。
［４］前記コンピューティングデバイスのカメラから取得される前記画像を取得することをさらに含む、［１］に記載のコンピュータ実装方法。
［５］前記画像は、前記コンピューティングデバイスのカメラがオブジェクトに焦点を合わされたときに自動的に取得されるか、またはユーザ入力に応答して取得されるかのうちの１つである、［１］に記載のコンピュータ実装方法。
［６］前記少なくとも１つの機能は、前記テキストの種類が電話番号を示すとき、ダイヤルすることと、前記テキストの種類がＥメールを示すとき、Ｅメールを作成するためのＥメールアプリケーションを開くことと、前記テキストの種類がウェブアドレスを示すとき、ＵＲＬへと誘導することと、前記テキストの種類が少なくとも電話番号と住所の存在を示すとき、連絡先情報を保存するためのアドレス帳を開くことと、前記テキストの種類が物理的住所を示すとき、地図を開いて住所を見せることと、言語翻訳を実施することと、または数学の方程式を解くことと、のうちの少なくとも１つを含む、［１］に記載のコンピュータ実装方法。
［７］前記画像を閾値化して、前記画像のぼやけ、ノイズ、または照明の変化のうちの少なくとも１つに対処するために、テキストに関連付けられる前記画像情報を標準化することをさらに含む、［６］に記載のコンピュータ実装方法。
［８］コンピュータ視覚アルゴリズムまたは光学式文字認識アルゴリズムのうちの少なくとも１つが、前記画像からのテキストに関連付けられる前記画像情報を少なくとも特定するために用いられる、［１］に記載のコンピュータ実装方法。
［９］前記テキストに関連付けられる画像情報を前記特定することと、前記テキストの種類を判定することと、または前記少なくとも１つの機能を判定すること、のうちの少なくとも１つが、前記コンピューティングデバイスと通信する遠隔サーバによって実施される、［１］に記載のコンピュータ実装方法。
［１０］携帯型コンピューティングデバイスであって、
プロセッサと、
前記プロセッサによって実行されると、前記プロセッサに、
１つの画像内のテキストを特定させ、
前記特定されたテキストから、テキストパターンを特定させ、
前記テキストパターンに関連付けられる少なくとも１つの機能を判定させ、
前記テキストパターンに関連付けられる前記少なくとも１つの機能を実施させる命令を含む、記憶デバイスと、を備える、携帯型コンピューティングデバイス。
［１１］前記テキストを特定することと、前記テキストパターンを特定することと、前記少なくとも１つの機能を判定することと、前記少なくとも１つの機能を実施することは、前記携帯型コンピューティングデバイス上でローカルに実施される、［１０］に記載の携帯型コンピューティングデバイス。
［１２］前記テキストを特定することと、前記テキストパターンを特定することと、前記少なくとも１つの機能を判定することのうちの少なくとも１つが、前記携帯型コンピューティングデバイスと通信する遠隔サーバによって実施される、［１０］に記載の携帯型コンピューティングデバイス。
［１３］オブジェクトに焦点を合わされると、またはユーザからの入力に応答して、前記画像を自動的に取得するためのカメラをさらに備える、［１０］に記載の携帯型コンピューティングデバイス。
［１４］前記プロセッサによって実行されると、前記プロセッサに、
少なくとも１つの領域内の前記テキストを認識するための光学式文字認識アルゴリズムを用いて、前記画像のうちの前記少なくとも１つの領域を分析させる命令をさらに含み、
少なくとも１つの機能を判定するための前記命令は、前記プロセッサによって実行されると、前記プロセッサに、前記テキストパターンに関連付けられるアプリケーションを判定させる命令をさらに含み、
少なくとも１つの機能を実施するための前記命令は、前記プロセッサによって実行されると、前記プロセッサに、前記認識されたテキストをアプリケーションに自動的に提供させる命令をさらに含む、［１０］に記載の携帯型コンピューティングデバイス。
［１５］前記プロセッサによって実行されると、前記プロセッサに、
前記テキストパターンが電話番号を示すとき、ダイヤルすることと、前記テキストパターンがＥメールを示すとき、Ｅメールを作成するためのＥメールアプリケーションを開くことと、前記テキストパターンがウェブアドレスを示すとき、ＵＲＬへと誘導することと、前記テキストパターンが少なくとも電話番号と住所の存在を示すとき、連絡先情報を保存するためのアドレス帳を開くことと、前記テキストパターンが物理的住所を示すとき、地図を開いて住所を見せることと、言語翻訳を実施することと、または数学の方程式を解くことと、のうちの少なくとも１つを前記アプリケーションに実施させる命令をさらに含む、［１４］に記載の携帯型コンピューティングデバイス。

Claims

コンピュータにより実現される方法において、
実行可能な命令を有するように構成されている１つ以上のコンピュータシステムの制御下で、
テキスト種類に対して割り当てられている優先度順序と、測位システムからのコンピューティングデバイスの位置データとを受信することと、
画像中のテキストに関係付けられている画像情報を特定することと、
前記画像情報から複数のテキスト種類を判定することと、
前記割り当てられている優先度順序に少なくとも部分的に基づいて、前記複数のテキスト種類に対する複数の優先度をそれぞれ判定することと、
ユーザ活動を経時的に監視して、前記複数のテキスト種類に関係付けられているユーザ選択を判定することと、
前記複数のテキスト種類に対する前記判定した優先度と、前記位置データと、前記ユーザ選択とに少なくとも部分的に基づいて、前記複数のテキスト種類から、対応する機能を実行する第１のテキスト種類を判定することと、
前記対応する機能を前記コンピューティングデバイスが実行することを可能にすることとを含むコンピュータにより実現される方法。
前記対応する機能を実行することを確定するようにユーザを促すことをさらに含む請求項１記載のコンピュータにより実現される方法。
一次的アクションと、前記第１のテキスト種類に関係付けられている少なくとも二次的アクションとの間で選択するように、ユーザを促すことをさらに含む請求項１記載のコンピュータにより実現される方法。
前記画像を取得することをさらに含み、
前記画像は、前記コンピューティングデバイスのカメラから取得される請求項１記載のコンピュータにより実現される方法。
前記画像は、前記コンピューティングデバイスのカメラがオブジェクトに焦点を合わされたときに自動的に取得されるか、または、ユーザ入力に応答して取得されるか、のうちの１つである請求項１記載のコンピュータにより実現される方法。
前記対応する機能は、前記第１のテキスト種類が電話番号を示すときに、ダイヤルすること、前記第１のテキスト種類がＥメールを示すときに、Ｅメールを作成するためのＥメールアプリケーションを開くこと、前記第１のテキスト種類がウェブアドレスを示すときに、ＵＲＬへとナビゲートすること、前記第１のテキスト種類が少なくとも電話番号と住所との存在を示すときに、連絡先情報を保存するためのアドレス帳を開くこと、または、前記第１のテキスト種類が物理的住所を示すときに、地図を表示して住所を示すこと、のうちの少なくとも１つを含む請求項１記載のコンピュータにより実現される方法。
前記テキストに関係付けられている画像情報を標準化するように前記画像を閾値処理して、前記画像の、ぼやけ、ノイズ、または、照明の変化、のうちの少なくとも１つに対処することをさらに含む請求項４記載のコンピュータにより実現される方法。
コンピュータ視覚アルゴリズムまたは光学式文字認識アルゴリズムのうちの少なくとも１つを使用して、前記画像中のテキストに関係付けられている画像情報を少なくとも特定する請求項１記載のコンピュータにより実現される方法。
前記テキストに関係付けられている画像情報を特定すること、前記複数のテキスト種類を判定すること、または、前記第１のテキスト種類を判定すること、のうちの少なくとも１つは、前記コンピューティングデバイスと通信する遠隔サーバによって実行される請求項１記載のコンピュータにより実現される方法。
携帯型コンピューティングデバイスにおいて、
プロセッサと、
命令を含む記憶デバイスとを具備し、
前記命令は、
前記プロセッサによって実行されるときに、前記プロセッサに、
テキスト種類に対して割り当てられている優先度順序と、測位システムからの前記携帯型コンピューティングデバイスの位置データとを受信させる命令と、
画像中のテキストを特定させる命令と、
前記特定させたテキストから、複数のテキストパターンのうちのテキストパターンを特定させる命令と、
前記テキストパターンに関係付けられている複数のテキスト種類を特定させる命令と、
前記割り当てられている優先度順序に少なくとも部分的に基づいて、前記複数のテキスト種類に対する複数の優先度をそれぞれ判定させる命令と、
ユーザ活動を経時的に監視させて、前記複数のテキスト種類に関係付けられているユーザ選択を判定させる命令と、
前記複数のテキスト種類に対する前記判定させた優先度と、前記位置データと、前記ユーザ選択とに少なくとも部分的に基づいて、前記複数のテキスト種類から、対応する機能を実行する第１のテキスト種類を判定させる命令と、
前記対応する機能を実行させる命令とを含む携帯型コンピューティングデバイス。
前記テキストを特定させることと、前記テキストパターンを特定させることと、前記対応する機能を実行させることは、前記携帯型コンピューティングデバイス上でローカルに実行させる請求項１０記載の携帯型コンピューティングデバイス。
前記テキストを特定させること、または、前記テキストパターンを特定させること、のうちの少なくとも１つは、前記携帯型コンピューティングデバイスと通信する遠隔サーバによって実行させる請求項１０記載の携帯型コンピューティングデバイス。
オブジェクトに焦点を合わされた際に、または、ユーザからの入力に応答して、前記画像を自動的に取得するカメラをさらに具備する請求項１０記載の携帯型コンピューティングデバイス。
前記プロセッサによって実行されるときに、前記プロセッサに、
光学式文字認識アルゴリズムを使用させて、前記画像の少なくとも１つの領域を分析させて、前記少なくとも１つの領域中で前記テキストを認識させる命令をさらに含み、
前記第１のテキスト種類を判定させる命令は、前記プロセッサによって実行されるときに、前記プロセッサに、前記第１のテキスト種類に関係付けられているアプリケーションを判定させる命令をさらに含み、
前記対応する機能を実行させる命令は、前記プロセッサによって実行されるときに、前記プロセッサに、前記第１のテキスト種類を前記アプリケーションに自動的に提供させる命令をさらに含む請求項１０記載の携帯型コンピューティングデバイス。
前記プロセッサによって実行されるときに、前記プロセッサに、
前記第１のテキスト種類が電話番号を示すときに、ダイヤルすること、前記第１のテキスト種類がＥメールを示すときに、Ｅメールを作成するためのＥメールアプリケーションを開くこと、前記第１のテキスト種類がウェブアドレスを示すときに、ＵＲＬへとナビゲートすること、前記第１のテキスト種類が少なくとも電話番号と住所との存在を示すときに、連絡先情報を保存するためのアドレス帳を開くこと、または、前記第１のテキスト種類が物理的住所を示すときに、地図を表示して住所を示すこと、のうちの少なくとも１つを前記アプリケーションに実行させる命令をさらに含む請求項１４記載の携帯型コンピューティングデバイス。