JP2015519675A - テキスト認識駆動の機能性 - Google Patents

テキスト認識駆動の機能性 Download PDF

Info

Publication number
JP2015519675A
JP2015519675A JP2015517369A JP2015517369A JP2015519675A JP 2015519675 A JP2015519675 A JP 2015519675A JP 2015517369 A JP2015517369 A JP 2015517369A JP 2015517369 A JP2015517369 A JP 2015517369A JP 2015519675 A JP2015519675 A JP 2015519675A
Authority
JP
Japan
Prior art keywords
text
image
user
computing device
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015517369A
Other languages
English (en)
Other versions
JP6275706B2 (ja
Inventor
スプリー、リチャード・ハワード
ヘラー、ジェフリー・スコット
ビビレータ、ダニエル
Original Assignee
アマゾン・テクノロジーズ、インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アマゾン・テクノロジーズ、インコーポレイテッド filed Critical アマゾン・テクノロジーズ、インコーポレイテッド
Publication of JP2015519675A publication Critical patent/JP2015519675A/ja
Application granted granted Critical
Publication of JP6275706B2 publication Critical patent/JP6275706B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00962Input arrangements for operating instructions or parameters, e.g. updating internal software
    • H04N1/00968Input arrangements for operating instructions or parameters, e.g. updating internal software by scanning marks on a sheet
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1456Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on user interactions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • H04N1/00328Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
    • H04N1/00331Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32037Automation of particular transmitter jobs, e.g. multi-address calling, auto-dialing
    • H04N1/32048Auto-dialling or Auto-calling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0084Digital still camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

アプリケーション、システム、またはサービスにテキスト情報を提供するための種々の手法が開示される。具体的に、種々の実施形態は、ユーザが携帯型コンピューティングデバイスのカメラによって画像をキャプチャすることを可能にする。コンピューティングデバイスは、テキストをアプリケーションまたは機能に転送するために、画像を取り込み、かつこれを処理してテキストを認識、特定、および/または分離する能力を持つ。アプリケーションまたは機能は次に、テキストを利用して実質的にリアルタイムでアクションを実施することができる。テキストは、Eメール、電話番号、URL、アドレスおよび同等物を含み得、アプリケーションまたは機能は、電話番号をダイヤルすること、URLへ誘導すること、アドレス帳を開いて連絡先情報を保存すること、地図を表示してアドレスを示すことなどであり得る。【選択図】 図3A

Description

人々がタブレットコンピュータおよびスマートフォンなどの携帯型デバイスを含むさまざまなコンピューティングデバイスをますます利用していることに伴い、人々がこれらのデバイスとやりとりする方途に適応することが好都合であり得る。ユーザは、電話番号を手動で入力して電話をかけること、Eメールアドレスを手動でタイプしてEメールを送信すること、ウェブアドレスをウェブブラウザに手動でタイプしてウェブページを閲覧することなどに慣れている。これらのタスクはしばしば単調であり、かつ時間がかかる。種々のデバイスにおいて、電話番号をお気に入りリストに割り当てる、ウェブアドレスをブックマークするなど、ユーザの時間を節約するための種々の方法が提供されてきた。技術が進歩するにつれて、および携帯型コンピューティングデバイス上に提供される機能およびサービスが進歩および拡張するにつれて、手早い方法および他の時間短縮方法が提供される方途は変化している。
本開示に従う種々の実施形態が図面を参照して記載される。
一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザが地図アプリケーションにテキストを提供する実施例を説明したものである。 一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザが地図アプリケーションにテキストを提供する実施例を説明したものである。 一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザが地図アプリケーションにテキストを提供する実施例を説明したものである。 一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザが電話アプリケーションに電話番号を提供する実施例を説明したものである。 一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザが電話アプリケーションに電話番号を提供する実施例を説明したものである。 一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザが電話アプリケーションに電話番号を提供する実施例を説明したものである。 一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザがブラウザにテキストを提供する実施例を説明したものである。 一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザがブラウザにテキストを提供する実施例を説明したものである。 種々の実施形態に従う、携帯型コンピューティングデバイス上のアプリケーションにテキストを提供するための工程の例を説明したものである。 種々の実施形態に従って利用され得るコンピューティングデバイスの正面図および後面図の例を示したものである。 種々の実施形態に従って利用され得るコンピューティングデバイスの正面図および後面図の例を示したものである。 種々の実施形態に従って利用され得るコンピューティングデバイスのコンポーネントレベルの例を説明したものである。 種々の実施形態が実施され得る環境を説明したものである。
本開示の種々の実施形態に従うシステムおよび方法は、テキスト情報をアプリケーション、システム、またはサービスに提供するための従来の手法において経験される、一つ以上の前述の、および他の欠陥を克服し得る。具体的には、種々の実施形態は、携帯型コンピューティングデバイスが、テキストを含む画像情報を取得すること、画像内のテキストの場所を特定すること、テキストの種類またはパターン(例えば、Eメール、電話番号、URLなど)を特定すること、テキストに関連付けられる機能またはアプリケーション(例えば、電話番号に電話する、インターネットブラウザを開くなど)を判定すること、および/またはテキストに関連付けられる機能またはアプリケーションを実施することなどのタスクを実施することを可能にする。少なくともこれらのタスクのうちのいくつかは、ネットワークを通して利用可能な少なくとも1つの資源をも用いて実施され得る。
一実施形態において、ユーザは、テキストを含むオブジェクトに、このオブジェクトの画像をキャプチャするためにカメラを向け得る。カメラは、テキストを認識、特定、および/または分離してこれをアプリケーションまたは機能に送信するために、画像を取り込み、かつこれを処理する能力をもつ携帯型コンピューティングデバイスと一体化され得る。アプリケーションまたは機能は次に、テキストを利用して実質的にリアルタイムでアクションを実施することができる。例えば、通りを歩いているユーザは、電話番号を含む広告を見得る。ユーザは、本明細書に記載の教示を用いて、例えば、スマートフォンのカメラを例えば番号に向けて、この番号を手動で入力することなく、この番号を電話アプリケーションに入力することにより、この電話番号に電話することができる。一例において、デバイスは、画像から番号を入力し、通話を開始するというユーザの指示を待ち得、または他の例において、電話はデバイスによって自動的にかけられ得る。本例は、ウェブアドレスまたはURLをウェブブラウザ、新規のメッセージウィンドウを開くためのEメールアドレス、地図アプリケーションを開いて道順を表示するための物理的な住所、およびさまざまな他のアクション可能なデータ種類を入力することに拡張され得る。
種々の他のアプリケーション、処理、および使用が種々の実施形態に関して以下に提示される。
図1は、イベントのチラシ106の上で携帯型コンピューティングデバイス102を保持しているユーザを示す状況の例100を説明したものである。イベントのチラシ106は、イベントの場所の物理的な住所を含み、かつこの例において、ユーザはその場所への道順を探している。道順を取得するために、ユーザはデバイス102のカメラをアドレスを含むチラシの一部分に向けて、図1Aの画面104を通して見ることができるように、そのアドレスの画像をキャプチャまたは取得し得る。一実施形態において、画像を取得し、および/またはテキストの存在を示すプロパティを有する1つ以上の一部分を特定すると、デバイス102上のアプリケーションが光学式文字認識(OCR)アルゴリズムを自動的に実行して、チラシの画像化されたテキストを認識する。OCRアルゴリズムは、種々の実施形態において、種々の技術を活用する機械視覚アルゴリズムおよび他の画像前処理アルゴリズムを含み得る。OCRアルゴリズムは、テキストまたは文字の文字列を含み得る1つの画像の1つ以上の領域を特定および分析するために実行する。任意の特定された文字列は、Eメールアドレス、URL/ウェブアドレス、電話番号、および同等物などの関与するデータオブジェクトまたは種類の存在を示し得るパターンをさらに特定するために分析される。再び図1を参照して、物理的な住所の存在を示す文字列が特定されている。この例において、ユーザは、図1Bに示されるように、特定のアクションを実施する、または物理的な住所に関連付けられる既定のルーチンまたはワークフローを実行するユーザの意図を確定するように促される。この例において、既定のルーチンは地図アプリケーションを開かせ、住所への道順を表示させる。この例において、ユーザは第1に、「はい」ボタンを押すことによって、またはタッチディスプレイ上で選択を行うことによって意図を確定し得、これにより図1Cに示されるように、イベントへの道順を記した地図が携帯型コンピューティングデバイス102の画面104上に表示される。別の実施形態において、ユーザは、デバイスに向かって、対話型インターフェースを通して話すことによって、例えばボタンを押したり、タッチ画面上で選択を行うかわりに「はい」と言うことによって、意図を確定し得る。デバイスを傾けるなどの、促されたときに意図を確定する他の方途もまた可能である。
図2は、図2Aに示される名刺206の上で携帯型コンピューティングデバイスを保持しているユーザ202を示す状況の例200を説明したものである。上述のとおり、デバイス202、またはデバイスと通信しているサービスは、キャプチャした名刺の画像の中のテキストの場所を特定し、テキストの種類またはパターン(例えば、Eメールアドレス、電話番号、URLなど)を特定し、テキストの種類に関連付けられる機能またはアプリケーション(例えば、電話番号に電話する、インターネットブラウザを開くなど)を判定し、アプリケーションまたは機能に場所を特定されたテキストの少なくとも関連のある一部分を送信してそれとともに操作を実行する。この例において、名刺206は、関与する複数のデータオブジェクトを含み、これらは電話番号、Eメール、および物理的な住所である。一例において、ユーザは、複数のデータ種類が特定された場合に、1つのデータ種類を別のものよりも優先させる、種々の機能またはアプリケーションに優先度を割り当てることができる。別の例において、デバイス202は、さまざまな利用可能な機能またはアプリケーションの中からの選択をユーザに促し得る。
再び図2を参照して、2つ以上のデータオブジェクトを特定するデバイスは、図2Bに示されるように、オブジェクトを連絡先情報として保存するためのアドレス帳アプリケーションを立ち上げるという選択肢をユーザに促し得る。代替的に、ユーザは、「この番号に電話するには1を、道順を探すには2を、Eメールを送信するには3を、連絡先を保存するには4を押してください」などのメッセージを持つ画面204を介して促され得る。一例において、データ種類のテキストは、自動的に各々のデータフィールドの種類へと追加され得る。さらに、種々の実施形態において、デバイス202は、名刺などのオブジェクトを認識し、これにデフォルトのワークフローを関連付けるためのダウンロード可能なプラグインをプログラムされ、あらかじめ組み込まれ、または含み得、これはいくつかの例において、データを連絡先として保存するためであり得る。図2の例において、ユーザは、図2Bに示されるように、名刺206に関連付けられる連絡先を保存するように促される。この場合、しかしながら、ユーザは名刺上の電話番号に電話することを所望し、「いいえ」を選択する。一例において、デバイス202は、個々の選択肢をユーザに再び促し得るか、またはユーザは、既定のルーチンを自動的に実行するか、または所定の操作を実行するというアプリケーションの優先度を設定した場合がある。ここで図2Cを参照して、ユーザは、この電話番号に電話をかけるという選択肢を選択したか、またはユーザは、電話番号をダイヤルすることを優先操作として割り当て、この番号に電話をかけているデバイス202が示される。
図3は、ユーザが携帯型コンピューティングデバイス302を窓308の方に向けている状況の例300を説明したものである。窓308は、この例において、図3Aに示される、その上に印刷されたウェブアドレスを有する。種々の実施形態に従い、道を歩いているユーザは、アドレスを手動でウェブブラウザの中へとタイピングする代わりに、ウェブアドレスに移動するための近道として、デバイス302に関連付けられるカメラをウェブアドレスに向け得る。この例において、ユーザは、ウェブアドレスを含む窓の画像を手動でキャプチャするために、画面304上のアイコン306を選択するか、または別のかかる入力を提供しなければならない。前の例において、カメラは、画像をキャプチャしてルーチンを開始する、または特定のデータオブジェクトに関連付けられる動作を実行するというユーザの意図を予測するために、例えば、ジャイロスコープ、加速度計、光センサ、またはそれらの組み合わせを含んでいた場合がある。この例において、ユーザはデバイス302をかざし、カメラで窓308を狙い、アイコン306を押してウェブアドレスの画像をキャプチャする。次に、上述のとおり、デバイスまたはサービスは、図3Bに示されるように、OCRアルゴリズムを通じて実行し、画像の中のテキストの場所を特定し、テキストの種類またはパターン、この例においてはウェブアドレスを特定し、ブラウザアプリケーションを立ち上げ、ユーザをレストランのウェブアドレスへと誘導する。いくつかの実施形態において、ユーザの意図を確定するために、さまざまな処理、アルゴリズム、または他の文脈的手掛かりが利用され得る。レストランの例において、本明細書に記載のシステムは、全地球測位システム(GPS)センサからの位置データを利用してユーザの位置を判定し得る。位置情報を利用して、システムは、例えば、ユーザが本システムによって初期に確定されたウェブアドレスに誘導されることを意図しているかどうかを確定するために、ユーザの100フィート以内に存在する地域ビジネスのウェブ検索を実施し得る。この例において、ユーザがGood Food Cafeに実質的に近い位置(または前)に立っている場合、システム(またはコンピューティングデバイス)は、かなりの程度の確実性を持って、ユーザがこのCafeの例えばメニューページまたは客の評価ページに誘導されることを意図していると判定し得る。機能を実施するかまたはアプリケーションを起動するユーザの意図を確定するための、さまざまな他の処理、方法、またはアルゴリズムもまた可能である。
図4は、種々の実施形態に従うコンピューティングデバイス上のアプリケーションまたは機能に文字情報を提供するための工程の例400を説明したものである。本明細書において検討されるあらゆる工程について、別様に記載のない限り、種々の実施形態の範囲内で、追加的な、より少ない、または代替的なステップが、類似のまたは代替的な順序で、または並行して実施され得るということが理解されるべきである。この例において、画像または画像情報(例えば、ビデオストリーム)が取得される402。種々の実施形態において、画像または画像情報は、携帯型コンピューティングデバイスのカメラアプリケーションから取得される。一例において、カメラに面したオブジェクトの上にデバイスを空中停止すると、カメラに少なくとも1つの画像を自動的にキャプチャさせるか、または一連の画像を記録し得る。別の例において、カメラは、画像をキャプチャするために、例えば、ユーザがタッチ画面上のアイコンを選択するなどによるユーザからの入力を必要とする。取得された画像情報は、処理されてテキストまたは文字の文字列のプロパティを有する少なくとも1つの領域の場所を特定する404。一例において、処理は画像情報を受信すると自動的に開始される。カメラはまた、連続画像キャプチャモードであることもできる。これは、しかしながら、エネルギー集約型であるため、ユーザは、デバイスを連続的に画像キャプチャおよび処理モードで動作させる、またはこれを無効にする、さまざまな選択肢または環境を選択し得る。例えば、設定は、バッテリが特定のレベルまで消耗したときに、連続的なキャプチャおよび処理モードが自動的にオフにされるように選択され得る。この例において、テキストの文字列は、テキストの文字列406の中のテキストを認識するための光学式文字認識アルゴリズムを用いて分析される。OCRアルゴリズムは、機械視覚アルゴリズムおよび他の画像処理技術またはアルゴリズムを含むことができる。認識されたテキスト408に対応するテキストパターン(例えば、Eメール、電話番号、URLなど)が特定される。この例において、判定されたテキストパターン410に関連付けられるアプリケーションおよび認識されたテキストが自動的にアプリケーションに提供される。
一実施形態において、デバイスは、テキストの一部分内の関与するデータオブジェクトを認識しない場合がある。この場合、デバイスは、ユーザにウェブ検索を実施する、プラグインを検索して認識されていないパターンを認識するなどのさまざまな他の選択肢を提供するようにプログラムされ得る。ユーザは、テキストの一部分を選択して、このテキストをEメール、ノートパッド、または種々の他のアプリケーションにコピー/ペーストするように促される場合がある。
種々の実施形態において、図2に関して上述した通り、機能またはアプリケーションは、テキストパターンが電話番号を示す場合、番号をダイヤルすることを、またはテキストパターンが電話番号および物理的な住所の存在を示す場合、連絡先情報を保存するためのアドレス帳を開くことを伴い得る。アプリケーションは、図3で説明されるようにテキストパターンがウェブアドレスを示す場合、URLへの誘導であり得る。アプリケーションは、図1で説明されるようにテキストパターンが物理的な住所を示す場合、地図を表示してアドレスを示し得る。機能またはアプリケーションはまた、種々の言語翻訳をも実施し得る。アプリケーションはまた、計算機であり得、数学の方程式を解く能力を有し得、または友人とレストランで食事をする場合に、チップを計算するまたは複数の方途で勘定を折半するための勘定書の特性を特定するためのプラグインに関連付けられ得る。一実施形態において、ユーザは、一次的アクションと、特定のデータオブジェクトに関連付けられる少なくとも二次的アクションから選ぶことを促され得る。名刺の例を再び参照して、名刺の認識に関連付けられる所定の一次的アクションは、名刺上の情報を新規の連絡先としてアドレス帳アプリケーションの中に保存することであり得る。二次的アクションは、カード上の電話番号に電話をかけることであり得、および三次的アクションは、住所への道順を調べることであり得る。
一実施形態において、多くの実施形態の携帯型コンピューティングデバイスと通信しているシステムまたはサービスは、ユーザの活動を経時的に監視して、アプリケーションによって実施されるアクションを調整することができる。例えば、ユーザが常に名刺上の番号に電話することを選び、この連絡先を保存することを決して選ばない場合、デバイスはアルゴリズムを調整して自動的に電話するか、またはユーザにその番号にまず電話することを促す。この例はまた、他のデータの種類に拡張されることもできる。他の実施形態において、デバイスは、さまざまな状況においてユーザの意図を予測するために、さまざまな挙動予想アルゴリズムまたはインテントウェアをリロードされ得る。例えば、デバイスは、ユーザ対面のカメラ、ジャイロスコープ、加速度計、光センサ、またはそれらの組み合わせを含み得る。ユーザ対面のカメラは、顔面認識およびジェスチャ追跡アルゴリズムを用いてユーザが見詰めている方向を判定し得る。光センサは、ユーザのカバンまたはポケットのなかにある可能性を判定し得る。この例において、デバイスは、エネルギー節約モードに入り得、センサによって十分な量の光が検出されるまで画像をキャプチャまたは処理することを控え得る。ジャイロスコープおよび加速度計は、ユーザがデバイスをどのように保持し、動かしているかを検出するために用いられ得る。いくつかの例において、ユーザは、画像の取り込みまたはキャプチャを暗示する特定の様式で予測運動を行うか、またはデバイスを保持する。一例において、動きを記録するジャイロスコープおよび加速度計は、やはりデバイスエネルギー節約モードにし得る。この例において、よい画像をキャプチャすることが難しい場合があり、デバイスはこれらが正常な画像キャプチャ条件でないことを合理的に推察するようにプログラムされ得る。種々の他の方法またはユーザの意図を予測することもまた本開示の範囲内で利用され得る。
種々の実施形態は、画像前処理アルゴリズムおよび/または技術を利用して特定および/または認識のためにテキストを標準化する。実世界のテキストは、異なる大きさの、歪曲した、ぼやけた場合のある多くの色、形状、フォント種類および同等物である。機械視覚画像処理技術が用いられることができ、これは、閾値処理(グレースケール画像を白黒に変換する、またはグレースケール値に基づいて分離を用いる)、セグメント化、斑点抽出、パターン認識、バーコードおよびデータマトリクスコード読込、計測(オブジェクトの直径を測定する)、位置付け、エッジ検出、色分析、フィルタリング(例えば、形態的フィルタリング)、およびテンプレートマッチング(特定のパターンを発見、マッチング、および/または勘定する)を含むことができる。OCRによってより容易に認識可能である、テキストを処理するためのさまざまな他の技術もまた本開示の範囲内で利用され得る。いくつかの実施形態において、他の画像の欠陥の間のグレアまたはノイズを低減するために、複数の画像またはビデオのストリームが分析される。
図5は、種々の実施形態に従って用いられ得る、携帯型コンピューティングデバイス500の正面図および後面図の例を説明したものである。1つの種類の携帯型コンピューティングデバイス(例えば、スマートフォン、電子書籍リーダ、またはタブレットコンピュータ)が示されるが、判定、処理、および入力を提供する能力があるさまざまな他の種類の電子デバイスが本明細に記載の種々の実施形態に従って用いられ得るということが理解されるべきである。デバイスは、例えば、ノート型コンピュータ、携帯情報端末、携帯電話、ビデオゲーム機またはコントローラ、および携帯型メディアプレーヤをとりわけ含むことができる。
この例において、携帯型コンピューティングデバイス500は、画像コンテンツをデバイスの1人以上のユーザまたは閲覧者に表示するように動作可能な表示画面502(例えば、液晶画面(LCD)要素)を有する。少なくともいくつかの実施形態において、表示画面は、例えば、容量性または抵抗性のタッチ技術を用いてタッチまたはスワイプをベースとした入力を提供する。かかる表示要素は、例えば、ユーザが、右または左のマウスのボタン、タッチポイントなどのボタンの画像に対応する画面のある部位を押すことによって入力を提供することを可能にするために用いられ得る。デバイスはまた、デバイスの側面または背面上などのデバイスの他の部位上に接触感知式および/または感圧式材料510を有することもできる。少なくともいくつかの実施形態において、かかる材料に接触するまたは握ることによってユーザが入力を適用することができるが、他の実施形態において、材料は、材料に関するパターン模様入りの表面の動きを通じてデバイスの運動を検出するために用いられ得る。
携帯型コンピューティングデバイスの例は、従来の画像および/またはビデオキャプチャなどの目的のために1つ以上の画像キャプチャ要素を含むことができる。本明細書に記載したように、画像キャプチャ要素はまた、動きを判定し、ジェスチャ入力を受信する目的のために用いられることもできる。この例における携帯型コンピューティングデバイスは、デバイスの「前面」に1つの画像キャプチャ要素504を含み、デバイスの「背面」に1つの画像キャプチャ要素512を含むが、画像キャプチャ要素はまた、または代替的に、デバイスの側面または角に置かれ得、および類似のまたは異なる種類の任意の適切な数のキャプチャ要素が存在することができるということが理解されるべきである。それぞれの画像キャプチャ要素が、例えば、カメラ、電荷結合素子(CCD)、動き検出センサ、または赤外線センサであり得、または別の画像キャプチャ技術を利用することができる。
携帯型コンピューティングデバイスはまた、少なくとも1つのマイク506またはある特定の実施形態において位置の変化を判定する、またはユーザ入力を受信するために用いられ得るものなどの音声データキャプチャする能力がある他の音声キャプチャ要素を含むこともできる。いくつかのデバイスにおいて、1つのマイクのみが存在し得るが、他のデバイスにおいては、デバイスのそれぞれの側面および/または角に、または他の適切な場所に少なくとも1つのマイクが存在し得る。
この例におけるデバイス500はまた、デバイスの位置、方向、動き、または配向などの情報を提供するように動作可能な、少なくとも1つの動きまたは位置判定要素508を含む。これらの要素は、例えば、加速度計、内部センサ、電子ジャイロスコープ、電子コンパス、およびGPS要素を含むことができる。別のデバイスのための少なくとも1つの制御信号をトリガすることができるさまざまな種類の動きまたは配向の変更が、デバイスに入力を提供するために用いられ得る。このデバイスの例はまた、1つ以上の携帯型コンピューティングデバイスと通信するように動作可能な、少なくとも1つの有線または無線コンポーネントを含み得るなどの少なくとも1つの通信機構514を含む。デバイスはまた、従来のプラグイン手法を通じて、または電力マットまたは他のかかるデバイスとの近接を通じた容量性充電などの他の手法を通じて再充電されるように動作可能なバッテリを含み得るなどの電力システム516を含む。種々の実施形態の範囲内でさまざまな他の要素および/または組み合わせもまた可能である。
図5、図6に関して記載したような機能性を提供するために、図5に関して記載したデバイス500などの携帯型コンピューティングデバイス600の1組の基本コンポーネントの例を説明する。この例において、デバイスは、少なくとも1つの記憶デバイスまたは要素604内に格納され得る命令を実行するための少なくとも1つのプロセッサ602を含む。当業者には明白であるように、デバイスは、プロセッサ602によって実行されるためのプログラム命令のための第1のデータ記憶装置などの多くの種類のメモリ、データ記憶装置またはコンピュータ可読の記憶媒体を含むことができ、画像またはデータのために同一または別個の記憶装置が用いられることができ、取り外し可能な記憶メモリは他のデバイスなどと情報を共有するために利用可能である。
携帯型メディアプレーヤなどのデバイスは音声スピーカなどの他の手段を介して情報を伝達し得るが、デバイスは典型的に、タッチ画面、電子インク(eインク)、有機発光ダイオード(OLED)または液晶画面(LCD)などのいくつかの種類の表示要素606を含み得る。検討されたように、多くの実施形態において、デバイスは、ユーザ、人々、またはオブジェクトをデバイスの近くに撮像することができる1つ以上のカメラなどの少なくとも1つの画像キャプチャ要素608を含み得る。少なくともいくつかの実施形態において、デバイスは、画像情報を用いてユーザによるジェスチャまたはモーションを判定することができ、これはユーザが実際に携帯型デバイスに接触する、および/または動かすことなく、携帯型デバイスを通じて入力を提供することを可能にする。画像キャプチャ要素はまた、本明細書に記載されるように、デバイスの周囲環境を判定するために用いられ得る。画像キャプチャ要素は、ユーザがデバイスを操作しているときに、ユーザの画像をキャプチャするために十分な解像度、集束範囲および可視領域を有するCCD画像キャプチャ要素などの任意の適切な技術を含むことができる。
デバイス、は、多くの実施形態において、1つ以上の音声スピーカおよび/またはマイクなどの少なくとも1つの音声要素610を含み得る。マイクは、声認識、デジタル録音など、声で可能となる機能を促進するために用いられ得る。音声スピーカは音声出力を実施し得る。いくつかの実施形態において、音声スピーカ(複数可)は、デバイスから分離して存在し得る。デバイスは、多くの実施形態に関して上述したように、少なくとも1つの光学式文字認識装置(OCR)要素612およびそれに関連付けられるさまざまな画像処理アルゴリズムを含み得る。
デバイスは、ユーザから従来の入力を受信することができる少なくとも1つの追加的な入力デバイスを含むことができる。この従来の入力は、例えば、これらによってユーザがデバイスにコマンドを入力することができる押しボタン、タッチパッド、タッチ画面、ホイール、ジョイスティック、キーボード、マウス、トラックボール、キーパッドまたは任意の他のかかるデバイスまたは要素を含むことができる。これらのI/Oデバイスは、いくつかの実施形態において、無線赤外線またはBluetooth(登録商標)または他のリンクによってさえも接続され得る。いくつかの実施形態において、しかしながら、かかるデバイスはいかなるボタンも含まない場合があり、ユーザがデバイスと接触することなくデバイスを制御することができるように、視覚および音声コマンドの組み合わせによってのみ制御され得る場合がある。
デバイスの例はまた、特定の無線チャネルの通信範囲内で1つ以上の携帯型コンピューティングデバイスと通信するように動作可能な1つ以上の無線コンポーネント614を含む。無線チャネルは、デバイスが無線で通信することを可能にするために用いられる、Bluetooth、セルラー、またはWi−Fiチャネルなどの任意の適切なチャネルであることができる。デバイスが、当技術分野で既知であるような1つ以上の従来の有線通信接続を有することができるということが理解されるべきである。デバイスの例は、携帯型コンピューティングデバイスに電力を提供するための、当技術分野で既知のさまざまな電力コンポーネント616を含み、これは電力パッドまたは本明細書に記載される類似のデバイスとともに用いられるための容量性充電要素を含むことができる。デバイスの例はまた、デバイスのケーシングの周りの接触感知式材料などの少なくとも1つの接触感知式および/または感圧式要素618、握ることに基づく入力をデバイスに提供する能力がある少なくとも1つの領域を含むことができる。いくつかの実施形態において、この材料は、例えば、デバイスのまたはユーザの指などの動きを判定するために用いられ得るが、一方他の実施形態において、材料は、特定の入力またはコマンドを提供するために用いられ得る。
いくつかの実施形態において、デバイスは、ユーザまたはアプリケーションからのコマンドを受け取ったとき、または音声入力またはビデオ入力を判定しようと再試行しているときなどに、検出および/またはコマンドモードを起動および/または解除する能力を含むことができる。いくつかの実施形態において、デバイスは、赤外線検出器または運動センサを含むことができ、例えば、これらは1つ以上の検出モードを起動するために用いられ得る。例えば、その部屋にユーザが存在しないとき、あるデバイスは、デバイスを検出したり、またはデバイスと通信したりすることを試みない可能性がある。赤外線検出器(すなわち、状態の変化を検出する1ピクセル分解能を持つ検出器)が、例えば、ユーザがその部屋に入ってきたことを検出した場合、デバイスは、ユーザによって必要とされたときにデバイスの準備ができているようにするが、ユーザが近くにいないときは電力および資源を節約することができるように、検出または制御モードを起動することができる。
種々の実施形態に従うコンピューティングデバイスは、デバイスが周辺光に曝露しているか、または相対的または完全な暗闇にあるのかを判定することができる光検出要素を含み得る。かかる要素は、いくつかの方途において有益である場合がある。ある特定の従来のデバイスにおいて、光検出要素は、電話の表示要素を一時的に切る(デバイスをユーザの耳に当てている間、ユーザが表示要素を見ることができないため)アクションをトリガする、いつユーザが携帯電話をユーザの顔に向けて保持しているか(光検出要素を実質的に周辺光から遮断させる)を判定するために用いられる。光検出要素は、デバイスの機能を調整するための他の要素からの情報を合わせて用いられ得る。例えば、デバイスがユーザの視覚位置を検出することができず、ユーザがデバイスを保持していないが、デバイスが周辺光に曝露している場合、デバイスは、ユーザによって下に置かれたということを判定し、表示要素をオフにし、ある特定の機能性を無効にし得る。デバイスがユーザの視覚位置を検出することができず、ユーザがデバイスを保持しておらず、デバイスがさらに周辺光に曝露している場合、デバイスは、デバイスがユーザの手が届かない可能性があるバッグまたは他の仕切りに置かれたということを判定し、よって別様には利用可能であった追加的な機能をオフまたは無効にし得る。いくつかの実施形態において、ユーザはデバイスを見ているか、デバイスを保持しているか、またはデバイスのあるいくつかの機能性を有効にするためにデバイスを光の中へ取り出したかのいずれかであるはずである。他の実施形態において、デバイスは、反射(明るい状況)および放射(暗い状況)などの異なるモードにおいて動作することができる表示要素を含み得る。検出された光に基づいて、デバイスはモードを変更し得る。マイクを用いて、デバイスは、電気の節約に実質的に関係のない理由により、他の機能を無効にすることができる。例えば、デバイスは、声認識を用いて、子供などのデバイスの近くにいる人を判定し、これに基づいてインターネットアクセスまたはペアレンタルコントロールなどの機能を無効または有効にすることができる。さらに、デバイスは、録音されたノイズを分析して、デバイスが車内にあるか飛行機内にあるかなどの環境を判定することを試みることができ、この判定は他の入力に基づいて、どの機能を有効/無効にするか、またはどのアクションが取られるかを決定することを支援することができる。声認識が用いられる場合、デバイスに直接的に話されるか、または会話を通じて間接的に拾った言葉が入力として用いられ得る。例えば、デバイスが、デバイスは車内にあり、ユーザの方を向いていると判定し、「おなかがすいた」または「食べる」などの言葉を検出した場合、次にデバイスは表示要素をオンにして近くのレストランなどの情報を表示し得る。ユーザは、プライバシーおよび他のかかる目的のために、声の記録および会話のモニタリングをオフにする選択肢を有する。
上記の例のうちのいくつかにおいて、デバイスによって取られたアクションは、電力消費を低減する目的のために、ある特定の機能性を解除にすることに関する。しかしながら、デバイスを用いることについての類似の他の可能性のある課題を調整することができるアクションが他の機能に対応することができることが理解されるべきである。例えば、ウェブページのコンテンツを要求する、ハードドライブ上のコンテンツを検索する、およびさまざまなアプリケーションを開くなどのある特定の機能は、完了までにいくらかの時間を要する。資源の限られたデバイス、または多用されるデバイスについては、いくつかのかかる操作が同時に発生することが、デバイスの動作を遅くしたり、または動かなくなったりすることを招く場合があり、これは非効率性に繋がり、ユーザの体験を悪化させ、より多く電力を使用する場合がある。
少なくともこれらおよび他のかかる問題のうちのいくつかに対処するため、種々の実施形態に従う手法はまた、ユーザの見つめる方向などの情報を利用して、処理容量、メモリの空きおよび他のかかる資源の必要性を広げるために用いられる可能性がある資源を起動することもできる。
いくつかの実施形態において、デバイスは、十分な処理容量を有することができ、撮像要素および関連付けられる解析アルゴリズム(複数可)は、キャプチャされた画像のみに基づいてデバイスの動き、ユーザの頭の動き、ユーザの目の動き、および他のかかる動きを区別するために十分な程に感受性が高い。極めて単純な撮像要素および分析手法を利用することが処理のために望ましい場合がある他の実施形態において、デバイスの現在の配向を判定することができる、少なくとも1つの配向判定要素を含むことが望ましい場合がある。一例において、この少なくとも1つの配向判定要素は、デバイスの3D位置およびデバイスの動きの大きさおよび方向、ならびに振動、衝撃などの因子を検出することができる、少なくとも1つの単軸または多軸加速度計である。加速度計などの要素を用いてデバイスの配向または動きを判定するための方法もまた当技術分野で既知であり、本明細書では詳細に記載しない。配向および/または動きを判定するための他の要素もまた、種々の実施形態の範囲内で配向判定要素として用いるために用いられ得る。加速度計または同様の要素からの入力がカメラからの入力とともに用いられたとき、相対的な動きはより正確に解釈され得、さらに精密な入力および/またはより複雑性の低い画像分析アルゴリズムを可能にする。
コンピューティングデバイスの撮像要素を用いて、例えばデバイスおよび/またはユーザの動きを検出するとき、コンピューティングデバイスは、画像中の背景を用いて動きを判定することができる。例えば、ユーザがデバイスを固定された配向(例えば、距離、角度など)でユーザにかざし、ユーザが配向を周囲の環境に変更した場合、ユーザの画像のみを分析することはデバイスの配向における変更を検出する結果とならない。そうではなく、いくつかの実施形態において、コンピューティングデバイスは、ユーザの後方にある背景画像における変化を認識することによってデバイスの動きをやはり検出することができる。そのため、例えば、オブジェクト(例えば、窓、絵、木、茂み、建物、車など)が画像の左または右へ移動すると、デバイスは、ユーザに関するデバイスの配向が変更されていないにも関わらず、デバイスが配向を変更したと判定することができる。他の実施形態において、デバイスは、デバイスに関して移動したことを判定し、それに応じて調整し得る。例えば、ユーザがデバイスに関して頭を左または右に傾けた場合、表示要素上にレンダリングされるコンテンツは、同様に傾いてコンテンツをユーザの配向に保ち得る。
検討されたように、記載の実施形態に従う異なる手法がさまざまな環境において実装され得る。例えば、図7は、種々の実施形態に従う側面を実装するための環境の例700を説明したものである。理解されるように、説明を目的としてウェブベースの環境が用いられるが、種々の実施形態を実装するために異なる環境が適切に用いられ得る。システムは、電子クライアントデバイス702を含み、これは、要求、メッセージまたは情報を適切なネットワーク704で送受信し、情報をデバイスのユーザへ戻し伝えるように動作可能な任意の適切なデバイスを含むことができる。かかるクライアントデバイスの例は、パソコン、携帯電話、手持ち式のメッセージングデバイス、ラップトップ型パソコン、セットトップボックス、携帯情報端末、電子書籍リーダおよび同等物を含む。ネットワークは、イントラネット、インターネット、セルラーネットワーク、ローカルエリアネットワーク、または任意の他のかかるネットワーク、またはそれらの組み合わせを含む任意の適切なネットワークを含むことができる。ネットワークは、「プッシュ」型ネットワーク、「プル」型ネットワーク、またはそれらの組み合わせであり得る。「プッシュ」型ネットワークにおいて、サーバのうちの1つ以上がクライアントデバイスにデータをプッシュする。「プル」型ネットワークにおいて、サーバのうちの1つ以上が、クライアントデバイスからデータについての要求があると、クライアントデバイスにデータを送信する。かかるシステムのために用いられるコンポーネントは、少なくとも部分的に選択されたネットワークおよび/または環境の種類に依存する。かかるネットワークを介して通信するためのプロトコルおよびコンポーネントはよく知られており、本明細書において詳細に記載されない。ネットワークでの通信は、有線または無線接続およびそれらの組み合わせを介して有効とされ得る。この例において、環境が要求を受信し、それに応じてコンテンツを提供するためのウェブサーバ706を含むため、ネットワークはインターネットを含むが、他のネットワークについては、当業者に明確となるように、類似の目的を果たす代替的なデバイスが用いられ得る。
例示的な環境は、少なくとも1つのアプリケーションサーバ708およびデータストア710を含む。相互にやり取りして適切なデータストアからデータを取得するなどのタスクを実施することができる、繋がれるか別様に構成されるいくつかのアプリケーションサーバ、レイヤ、または他の要素、処理またはコンポーネントが存在することができるということが理解されるべきである。本明細書で用いられる場合、「データストア」という用語は、任意のデバイスまたはデータの格納、アクセス、および読み出しの能力を持つデバイスの組み合わせを指し、これらは任意の標準、分散、またはクラスタ環境において、任意の組み合わせおよび数のデータサーバ、データベース、データ記憶デバイスおよびデータ記憶媒体を含み得る。アプリケーションサーバ708は、クライアントデバイスのための1つ以上のアプリケーションの側面を実行する必要に応じてデータストア810と統合するための、およびアプリケーションのためのデータアクセスおよびビジネス論理の大部分を扱うための、任意の適切なハードウェアおよびソフトウェアを含むことができる。アプリケーションサーバは、データストアと協働してアクセス制御サービスを提供し、テキスト、図形、ユーザに転送される音声および/またはビデオなどのコンテンツを生成することができ、これはこの例においてはウェブサーバ706によってHTML、XML、または他の適切な構造化言語の形式でユーザに供される。すべての要求および応答の扱い、ならびにクライアントデバイス702とアプリケーションサーバ708との間のコンテンツの配信は、ウェブサーバ706によって扱われることができる。本明細書に記載に記載されるように、本明細書に記載の構造化コードが任意の適切なデバイスまたはホストマシン上で実行され得るため、ウェブおよびアプリケーションサーバは必要とされず、および単にコンポーネントの例であるということが理解されるべきである。
データストア710は、特定の側面に関連するデータを格納するためのいくつかの別個のデータテーブル、データベースまたは他のデータ記憶機構および媒体を含むことができる。例えば、説明されるデータストアは、コンテンツ(例えば、生産データ)712およびユーザ情報716を格納するための機構を含み、これらは生産側にコンテンツを供するために用いられ得る。データストアはまた、ログまたはセッションデータ714を格納するための機構を含むようにも示される。ページ画像情報およびアクセス権情報などの、データストア内に格納される必要があり得る多くの他の側面が存在することができるということが理解されるべきであり、これらは上記に列挙された機構のうちの任意のものに適切に、またはデータストア710内の追加的な機構に格納され得る。データストア710は、これに関連付けられる論理を通じて、アプリケーションサーバ708から命令を受信し、かつそれに応じてデータを取得、更新、または別様に処理するように動作可能である。一例において、ユーザは、ある特定の種類の項目について検索要求を提出し得る。この場合、データストアは、ユーザ情報にアクセスしてユーザの身元を確認し得、かつカタログ詳細情報にアクセスしてその種類の項目についての情報を取得することができる。情報は次に、ユーザがユーザデバイス702上のブラウザを介して閲覧することができるウェブページ上に列挙される結果の中でユーザに戻される。関与する特定の項目についての情報は、専用のページまたはブラウザのウィンドウの中で閲覧され得る。
それぞれのサーバが典型的に、そのサーバの一般管理および操作のために実行可能なプログラム命令を提供するオペレーティングシステムを含み、典型的にサーバのプロセッサによって実行されると、サーバがその意図する機能を実施することを可能にする命令を格納するコンピュータ可読の媒体を含む。オペレーティングシステムのための適切な実装およびサーバの一般的な機能性は既知であるか市販されており、特に本開示を考慮して当業者によって容易に実装される。
一実施形態における環境は、1つ以上のコンピュータネットワークまたは直接接続を用いた通信リンクを介して相互接続された、いくつかのコンピュータシステムおよびコンポーネントを利用した分散型コンピューティング環境である。しかしながら、図7において説明されたものよりも少ないまたは多い数のコンポーネントを有するシステムにおいて、かかるシステムが同等に良好に動作し得るということは当業者によって認識されるであろう。ゆえに、システム700の図7における描写は、例示的な性質であり、本開示の範囲を制限しないと見なされるべきである。
種々の実施形態は、多種多様な動作環境においてさらに実装され得、いくつかの場合において、いくつかのアプリケーションのうちの任意のものを操作するために用いられ得る1つ以上のユーザコンピュータまたはコンピューティングデバイスを含むことができる。ユーザまたはクライアントデバイスは、標準オペレーティングシステムを実行するデスクトップ型またはラップトップ型パソコン、ならびにモバイルソフトウェアを実行し、いくつかのネットワーキングおよびメッセージングプロトコルに対応する能力を持つセルラー、無線および手持ち型デバイスなどのいくつかの汎用パソコンを含むことができる。かかるシステムはまた、開発およびデータベース管理などの目的のために、さまざまな市販のオペレーティングシステムおよび他の知られているアプリケーションを実行するいくつかのワークステーションを含むこともできる。これらのデバイスはまた、疑似ターミナル、シンクライアント、ゲームシステム、およびネットワークを介して通信する能力を持つ他のデバイスなどの他の電子デバイスを含むこともできる。
ほとんどの実施形態が、TCP/IP、OSI、FTP、UPnP、NFS、CIFS、およびAppleTalkなどのさまざまな市販のプロトコルのうちの任意のものを用いて通信に対応するために、当業者に周知の少なくとも1つのネットワークを利用する。ネットワークは、例えば、ローカルエリアネットワーク、広域ネットワーク、仮想プライベートネットワーク、インターネット、イントラネット、エクストラネット、公衆交換電話ネットワーク、赤外線ネットワーク、無線ネットワーク、およびそれらの組み合わせであることができる。
ウェブサーバを利用する実施形態において、ウェブサーバは、HTTPサーバ、FTPサーバ、CGIサーバ、データサーバ、Java(登録商標)サーバ、およびビジネスアプリケーションサーバを含むさまざまなサーバまたはミッドティアアプリケーションの任意のものを実行することができる。サーバ(複数可)はまた、Java(登録商標)、C、C#もしくはC++などの任意のプログラミング言語、またはPerl、Python、もしくはTCLなどの任意のスクリプト言語、またはそれらの組合せで記述された1つ以上のスクリプトまたはプログラムとして実装され得る1つ以上のウェブアプリケーションを実行することによって、ユーザデバイスからの要求に応じてプログラムまたはスクリプトを実行する能力を持ち得る。サーバ(複数可)はまた、Oracle(登録商標)、Microsoft(登録商標)、Sybase(登録商標)、およびIBM(登録商標)から市販されているものを含むデータベースサーバを含み得るがこれらに限定されない。
環境は、上述のとおり、さまざまなデータストアおよび他のメモリおよび記憶媒体を含むことができる。これらはコンピュータのうちの1つ以上にとってローカルの(および/または常駐の)、またはネットワークにわたる任意のまたはすべてのコンピュータからリモートの記憶媒体上などのさまざまな場所に存在することができる。特定の1組の実施形態において、情報は当業者に周知のストレージエリアネットワーク(SAN)内に存在し得る。同様に、コンピュータ、サーバまたは他のネットワークデバイスに帰属する機能を実施するために必要な任意のファイルは、ローカルまたはリモートに適切に格納され得る。システムがコンピュータ化されたデバイスを含む場合、それぞれのかかるデバイスが、バスを介して電気的に接続され得る、例えば、少なくとも1つの中央処理装置(CPU)、少なくとも1つの入力デバイス(例えば、マウス、キーボード、コントローラ、タッチ感応式表示要素、またはキーパッド)、および少なくとも1つの出力デバイス(例えば、表示デバイス、プリンタ、またはスピーカ)を含むハードウェア要素を含むことができる。かかるシステムは、ディスクドライブ、光学式記憶デバイス、およびランダムアクセスメモリ(RAM)または読み取り専用メモリ(ROM)などのソリッドステート記憶デバイス、ならびに取り外し可能な媒体デバイス、メモリカード、フラッシュカードなどの1つ以上の記憶デバイスを含み得る。
かかるデバイスはまた、上述の通り、コンピュータ可読の記憶媒体リーダ、通信デバイス(例えば、モデム、ネットワークカード(無線または有線)、赤外線通信デバイス)、およびワーキングメモリを含むこともできる。コンピュータ可読の記憶媒体リーダは、リモート、ローカル、固定、および/または取り外し可能な記憶デバイスを表すコンピュータ可読の記憶媒体、ならびに一時的におよび/または永続的にコンピュータ可読の情報を含む、格納する、送信する、および読み出すための記憶媒体と接続されるか、または受信するように構成され得る。システムおよびさまざまなデバイスはまた典型的に、オペレーティングシステムおよびクライアントアプリケーションまたはウェブブラウザなどのアプリケーションプログラムを含む少なくとも1つのワーキングメモリデバイス内に位置するいくつかのソフトウェアアプリケーション、モジュール、サービス、または他の要素を含み得る。代替の実施形態が上述のものからの多くの変化を有することが理解されるべきである。例えば、カスタマイズされたハードウェアもまた用いられ得、および/またはハードウェア、ソフトウェア(アプレットなどの携帯型ソフトウェアを含む)またはその両方に特定の要素が実装され得る。さらに、ネットワーク入力/出力デバイスなどの他のコンピューティングデバイスへの接続が採用され得る。
コードまたはコードの一部分を含む記憶媒体およびコンピュータ可読媒体は、RAM、ROM、EEPROM、フラッシュメモリもしくは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)もしくは他の光学式記憶、磁気カセット、磁気テープ、磁気ディスク記憶もしくは他の磁気記憶デバイスまたは任意の他の媒体を含む、コンピュータ可読命令、データ構造、プログラムモジュールもしくは他のデータなどの情報の記憶および/または送信のための、任意の方法または技術で実装された、これらに限定されないが揮発性および不揮発性の、取り外し可能および取り外し可能でない媒体などの記憶媒体および通信媒体を含む、当技術分野で既知または使用されている任意の適切な媒体を含むことができ、これらは所望の情報を格納するために用いられることができ、これらはシステムデバイスによってアクセスされ得る。本開示および本明細書に提供される教示に基づき、当業者は種々の実施形態を実装するための他の方途および/または方法を認識するであろう。
明細書および図面は、それにより、制限的意味でなく例示的意味と見なされる。しかしながら、特許請求の範囲に記載の本発明の広範な精神および範囲から逸脱することなくこれらに対しさまざまな修正および変更がなされ得ることは明白となろう。
付記1. コンピュータ実装方法であって、
実行可能な命令で構成される1つ以上のコンピュータシステムの制御下において、携帯型コンピューティングデバイスのカメラによってキャプチャされた画像情報を取得することと、
前記画像情報を処理して、テキスト文字列のプロパティを有する前記画像の少なくとも1つの領域の位置を特定することと、
前記少なくとも1つの領域内のテキストを認識するための光学式文字認識アルゴリズムを用いて、前記少なくとも1つの領域を分析することと、
前記認識されたテキストに対応するテキストパターンを特定することと、
前記テキストパターンに関連付けられるアプリケーションを判定し、
前記認識されたテキストを前記アプリケーションに自動的に提供することと、を含む、方法。
付記2. 前記取得することと、処理することと、分析することと、特定することと、提供することは、画像情報を取得すると自動的に発生する、付記1に記載のコンピュータ実装方法。
付記3. 前記テキストパターンが電話番号を示すとき、ダイヤルすることと、前記テキストがEメールを示すとき、Eメールを作成するためのEメールアプリケーションを開くことと、前記テキストがウェブアドレスを示すとき、URLへと誘導することと、前記テキストが少なくとも電話番号と住所の存在を示すとき、連絡先情報を保存するためのアドレス帳を開くことと、前記テキストが物理的住所を示すとき、地図を開いて住所を見せることと、言語翻訳を実施することと、または数学の方程式を解くことと、のうちの少なくとも1つを前記アプリケーションに実施させることをさらに含む、付記1に記載のコンピュータ実装方法。
付記4. ユーザ活動を経時的に監視して、前記アプリケーションによって実施されるアクションを調整することをさらに含む、付記3に記載のコンピュータ実装方法。
付記5. 加速度計またはジャイロスコープのうちの少なくとも1つを用いて、前記デバイスの動きまたは前記デバイスの配向のうちの少なくとも1つを検知することによってユーザの意図を確定して、前記認識されたテキストを前記アプリケーションに提供することをさらに含む、付記1に記載のコンピュータ実装方法。
付記6. コンピュータ実装方法であって、
実行可能な命令で構成される1つ以上のコンピュータシステムの制御下において、1つの画像内のテキストに関連付けられる画像情報を特定することと、
前記テキストに関連付けられる画像情報からテキストの種類を判定することと、
前記テキストの種類に関連付けられる少なくとも1つの機能を判定することと、
コンピューティングデバイスが前記テキストを用いて前記少なくとも1つの機能を実施することを可能にすることと、を含む、方法。
付記7. 前記少なくとも1つの機能を実施する意図を確定するようにユーザを促すことをさらに含む、付記6に記載のコンピュータ実装方法。
付記8. 一次的アクションと、前記テキストの種類に関連付けられる少なくとも二次的アクションとのどちらかを選択するようにユーザを促すことをさらに含む、付記6に記載のコンピュータ実装方法。
付記9. 前記コンピューティングデバイスのカメラから取得される前記画像を取得することをさらに含む、付記6に記載のコンピュータ実装方法。
付記10. 前記画像は、前記コンピューティングデバイスのカメラがオブジェクトに焦点を合わされたときに自動的に取得されるか、またはユーザ入力に応答して取得されるかのうちの1つである、付記6に記載のコンピュータ実装方法。
付記11. 前記少なくとも1つの機能は、前記テキストの種類が電話番号を示すとき、ダイヤルすることと、前記テキストの種類がEメールを示すとき、Eメールを作成するためのEメールアプリケーションを開くことと、前記テキストの種類がウェブアドレスを示すとき、URLへと誘導することと、前記テキストの種類が少なくとも電話番号と住所の存在を示すとき、連絡先情報を保存するためのアドレス帳を開くことと、前記テキストの種類が物理的住所を示すとき、地図を開いて住所を見せることと、言語翻訳を実施することと、または数学の方程式を解くことと、のうちの少なくとも1つを含む、付記6に記載のコンピュータ実装方法。
付記12. 前記画像を閾値化して、前記画像のぼやけ、ノイズ、または照明の変化のうちの少なくとも1つに対処するために、テキストに関連付けられる前記画像情報を標準化することをさらに含む、付記9に記載のコンピュータ実装方法。
付記13. コンピュータ視覚アルゴリズムまたは光学式文字認識アルゴリズムのうちの少なくとも1つが、前記画像からのテキストに関連付けられる前記画像情報を少なくとも特定するために用いられる、付記6に記載のコンピュータ実装方法。
付記14. 前記テキストに関連付けられる画像情報を前記特定することと、前記テキストの種類を判定することと、または前記少なくとも1つの機能を判定すること、のうちの少なくとも1つが、前記コンピューティングデバイスと通信する遠隔サーバによって実施される、付記6に記載のコンピュータ実装方法。
付記15. コンピュータ実装方法であって、
実行可能な命令で構成される1つ以上のコンピュータシステムの制御下において、携帯型コンピューティングデバイスのカメラによってキャプチャされたデジタル画像から文字の文字列を認識し、
前記文字の文字列から、文字パターンを特定し、
前記文字パターンに関連付けられるアプリケーションを判定し、
前記文字パターンを前記アプリケーションに提供する、方法。
付記16. 前記アプリケーションは、実行されると、前記文字パターンが電話番号を示すとき、ダイヤルすることと、前記文字パターンがウェブアドレスを示すとき、URLへと誘導することと、前記文字パターンが少なくとも電話番号と住所の存在を示すとき、連絡先情報を保存するためのアドレス帳を開くことと、前記文字パターンが物理的住所を示すとき、地図を開いて住所を見せることと、言語翻訳を実施することと、または数学の方程式を解くことと、のうちの少なくとも1つを実行する、付記15に記載のコンピュータ実装方法。
付記17. 一次的アクションと、前記文字パターンに関連付けられる少なくとも二次的アクションとのどちらかを選択するようにユーザを促すことをさらに含む、付記15に記載のコンピュータ実装方法。
付記18. 携帯型コンピューティングデバイスであって、
プロセッサと、
前記プロセッサによって実行されると、前記プロセッサに、
1つの画像内のテキストを特定させ、
前記特定されたテキストから、テキストパターンを特定させ、
前記テキストパターンに関連付けられる少なくとも1つの機能を判定させ、
前記テキストパターンに関連付けられる前記少なくとも1つの機能を実施させる命令を含む、記憶デバイスと、を備える、携帯型コンピューティングデバイス。
付記19. 前記テキストを特定することと、前記テキストパターンを特定することと、前記少なくとも1つの機能を判定することと、前記少なくとも1つの機能を実施することは、前記携帯型コンピューティングデバイス上でローカルに実施される、付記18に記載の携帯型コンピューティングデバイス。
付記20. 前記テキストを特定することと、前記テキストパターンを特定することと、前記少なくとも1つの機能を判定することのうちの少なくとも1つが、前記コンピューティングデバイスと通信する遠隔サーバによって実施される、付記18に記載の携帯型コンピューティングデバイス。
付記21. オブジェクトに焦点を合わされると、またはユーザからの入力に応答して前記画像を自動的に取得するためのカメラをさらに備える、付記18に記載の携帯型コンピューティングデバイス。
付記22. プロセッサによって実行されると、前記プロセッサに、
1つの画像内のテキストを特定させ、
前記特定されたテキストから、テキストパターンを特定させ、
前記テキストパターンに関連付けられる少なくとも1つの機能を判定させ、
前記テキストパターンを用いて前記少なくとも1つの機能を実施させる命令を格納する、持続性コンピュータ可読記憶媒体。
付記23. 前記テキストを特定することと、前記テキストパターンを特定することと、前記少なくとも1つの機能を判定することと、または前記少なくとも1つの機能を実施することのうちの少なくとも1つは、前記携帯型コンピューティングデバイス上でローカルに実施される、付記22に記載の持続性コンピュータ可読記憶媒体。
付記24. プロセッサによって実行されると、前記プロセッサにさらに、
ユーザ活動を経時的に監視して、前記少なくとも1つの機能によって実施されるアクションを調整させる命令を格納する、付記22に記載の持続性コンピュータ可読記憶媒体。
付記25. 前記テキストパターンは、電話番号を示すパターンと、Eメールアドレスを示すパターンと、URLを示すパターンと、所在地住所を示すパターンのうちの少なくとも1つを含む、付記22に記載の持続性コンピュータ可読記憶媒体。

Claims (15)

  1. コンピュータ実装方法であって、
    実行可能な命令で構成される1つ以上のコンピュータシステムの制御下において、
    1つの画像内のテキストに関連付けられる画像情報を特定することと、
    テキストに関連付けられる前記画像情報から、テキストの種類を判定することと、
    前記テキストの種類に関連付けられる少なくとも1つの機能を判定することと、
    コンピューティングデバイスが前記テキストを用いて前記少なくとも1つの機能を実施することを可能にすることと、を含む、コンピュータ実装方法。
  2. 前記少なくとも1つの機能を実施する意図を確定するようにユーザを促すことをさらに含む、請求項1に記載のコンピュータ実装方法。
  3. 一次的アクションと、前記テキストの種類に関連付けられる少なくとも二次的アクションとのうちから選択するようにユーザを促すことをさらに含む、請求項1に記載のコンピュータ実装方法。
  4. 前記コンピューティングデバイスのカメラから取得される前記画像を取得することをさらに含む、請求項1に記載のコンピュータ実装方法。
  5. 前記画像は、前記コンピューティングデバイスのカメラがオブジェクトに焦点を合わされたときに自動的に取得されるか、またはユーザ入力に応答して取得されるかのうちの1つである、請求項1に記載のコンピュータ実装方法。
  6. 前記少なくとも1つの機能は、前記テキストの種類が電話番号を示すとき、ダイヤルすることと、前記テキストの種類がEメールを示すとき、Eメールを作成するためのEメールアプリケーションを開くことと、前記テキストの種類がウェブアドレスを示すとき、URLへと誘導することと、前記テキストの種類が少なくとも電話番号と住所の存在を示すとき、連絡先情報を保存するためのアドレス帳を開くことと、前記テキストの種類が物理的住所を示すとき、地図を開いて住所を見せることと、言語翻訳を実施することと、または数学の方程式を解くことと、のうちの少なくとも1つを含む、請求項1に記載のコンピュータ実装方法。
  7. 前記画像を閾値化して、前記画像のぼやけ、ノイズ、または照明の変化のうちの少なくとも1つに対処するために、テキストに関連付けられる前記画像情報を標準化することをさらに含む、請求項6に記載のコンピュータ実装方法。
  8. コンピュータ視覚アルゴリズムまたは光学式文字認識アルゴリズムのうちの少なくとも1つが、前記画像からのテキストに関連付けられる前記画像情報を少なくとも特定するために用いられる、請求項1に記載のコンピュータ実装方法。
  9. 前記テキストに関連付けられる画像情報を前記特定することと、前記テキストの種類を判定することと、または前記少なくとも1つの機能を判定すること、のうちの少なくとも1つが、前記コンピューティングデバイスと通信する遠隔サーバによって実施される、請求項1に記載のコンピュータ実装方法。
  10. 携帯型コンピューティングデバイスであって、
    プロセッサと、
    前記プロセッサによって実行されると、前記プロセッサに、
    1つの画像内のテキストを特定させ、
    前記特定されたテキストから、テキストパターンを特定させ、
    前記テキストパターンに関連付けられる少なくとも1つの機能を判定させ、
    前記テキストパターンに関連付けられる前記少なくとも1つの機能を実施させる命令を含む、記憶デバイスと、を備える、携帯型コンピューティングデバイス。
  11. 前記テキストを特定することと、前記テキストパターンを特定することと、前記少なくとも1つの機能を判定することと、前記少なくとも1つの機能を実施することは、前記携帯型コンピューティングデバイス上でローカルに実施される、請求項10に記載の携帯型コンピューティングデバイス。
  12. 前記テキストを特定することと、前記テキストパターンを特定することと、前記少なくとも1つの機能を判定することのうちの少なくとも1つが、前記携帯型コンピューティングデバイスと通信する遠隔サーバによって実施される、請求項10に記載の携帯型コンピューティングデバイス。
  13. オブジェクトに焦点を合わされると、またはユーザからの入力に応答して、前記画像を自動的に取得するためのカメラをさらに備える、請求項10に記載の携帯型コンピューティングデバイス。
  14. 前記プロセッサによって実行されると、前記プロセッサに、
    少なくとも1つの領域内の前記テキストを認識するための光学式文字認識アルゴリズムを用いて、前記画像のうちの前記少なくとも1つの領域を分析させる命令をさらに含み、
    少なくとも1つの機能を判定するための前記命令は、前記プロセッサによって実行されると、前記プロセッサに、前記テキストパターンに関連付けられるアプリケーションを判定させる命令をさらに含み、
    少なくとも1つの機能を実施するための前記命令は、前記プロセッサによって実行されると、前記プロセッサに、前記認識されたテキストをアプリケーションに自動的に提供させる命令をさらに含む、請求項10に記載の携帯型コンピューティングデバイス。
  15. 前記プロセッサによって実行されると、前記プロセッサに、
    前記テキストパターンが電話番号を示すとき、ダイヤルすることと、前記テキストパターンがEメールを示すとき、Eメールを作成するためのEメールアプリケーションを開くことと、前記テキストパターンがウェブアドレスを示すとき、URLへと誘導することと、前記テキストパターンが少なくとも電話番号と住所の存在を示すとき、連絡先情報を保存するためのアドレス帳を開くことと、前記テキストパターンが物理的住所を示すとき、地図を開いて住所を見せることと、言語翻訳を実施することと、または数学の方程式を解くことと、のうちの少なくとも1つを前記アプリケーションに実施させる命令をさらに含む、請求項14に記載の携帯型コンピューティングデバイス。
JP2015517369A 2012-06-11 2013-06-11 テキスト認識駆動の機能性 Expired - Fee Related JP6275706B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/493,714 US9916514B2 (en) 2012-06-11 2012-06-11 Text recognition driven functionality
US13/493,714 2012-06-11
PCT/US2013/045265 WO2013188463A2 (en) 2012-06-11 2013-06-11 Text recognition driven functionality

Publications (2)

Publication Number Publication Date
JP2015519675A true JP2015519675A (ja) 2015-07-09
JP6275706B2 JP6275706B2 (ja) 2018-02-07

Family

ID=49714990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015517369A Expired - Fee Related JP6275706B2 (ja) 2012-06-11 2013-06-11 テキスト認識駆動の機能性

Country Status (5)

Country Link
US (1) US9916514B2 (ja)
EP (1) EP2859471A4 (ja)
JP (1) JP6275706B2 (ja)
CN (1) CN104685494B (ja)
WO (1) WO2013188463A2 (ja)

Cited By (108)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170140079A (ko) * 2016-06-11 2017-12-20 애플 인크. 지능형 태스크 탐색
JP2018014086A (ja) * 2016-06-11 2018-01-25 アップル インコーポレイテッド インテリジェントタスクディスカバリ
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10354652B2 (en) 2015-12-02 2019-07-16 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10390213B2 (en) 2014-09-30 2019-08-20 Apple Inc. Social reminders
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10417344B2 (en) 2014-05-30 2019-09-17 Apple Inc. Exemplar-based natural language processing
US10417405B2 (en) 2011-03-21 2019-09-17 Apple Inc. Device access using voice authentication
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10438595B2 (en) 2014-09-30 2019-10-08 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10453443B2 (en) 2014-09-30 2019-10-22 Apple Inc. Providing an indication of the suitability of speech recognition
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US10529332B2 (en) 2015-03-08 2020-01-07 Apple Inc. Virtual assistant activation
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
US10580409B2 (en) 2016-06-11 2020-03-03 Apple Inc. Application integration with a digital assistant
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10657966B2 (en) 2014-05-30 2020-05-19 Apple Inc. Better resolution when referencing to concepts
US10681212B2 (en) 2015-06-05 2020-06-09 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10684703B2 (en) 2018-06-01 2020-06-16 Apple Inc. Attention aware virtual assistant dismissal
US10692504B2 (en) 2010-02-25 2020-06-23 Apple Inc. User profiling for voice input processing
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
US10714117B2 (en) 2013-02-07 2020-07-14 Apple Inc. Voice trigger for a digital assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
US10748546B2 (en) 2017-05-16 2020-08-18 Apple Inc. Digital assistant services based on device capabilities
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10909171B2 (en) 2017-05-16 2021-02-02 Apple Inc. Intelligent automated assistant for media exploration
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10930282B2 (en) 2015-03-08 2021-02-23 Apple Inc. Competing devices responding to voice triggers
US10942702B2 (en) 2016-06-11 2021-03-09 Apple Inc. Intelligent device arbitration and control
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
KR20210047618A (ko) * 2019-10-22 2021-04-30 류승완 텍스트 검색을 이용한 지도 정보 제공 장치 및 그 방법
US11010127B2 (en) 2015-06-29 2021-05-18 Apple Inc. Virtual assistant for media playback
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US11069336B2 (en) 2012-03-02 2021-07-20 Apple Inc. Systems and methods for name pronunciation
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
US11350253B2 (en) 2011-06-03 2022-05-31 Apple Inc. Active transport based notifications
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11495218B2 (en) 2018-06-01 2022-11-08 Apple Inc. Virtual assistant operation in multi-device environments
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11928604B2 (en) 2005-09-08 2024-03-12 Apple Inc. Method and apparatus for building an intelligent automated assistant
US12010262B2 (en) 2013-08-06 2024-06-11 Apple Inc. Auto-activating smart responses based on activities from remote devices
US12014118B2 (en) 2017-05-15 2024-06-18 Apple Inc. Multi-modal interfaces having selection disambiguation and text modification capability
US12051413B2 (en) 2015-09-30 2024-07-30 Apple Inc. Intelligent device identification

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9769354B2 (en) 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8774516B2 (en) 2009-02-10 2014-07-08 Kofax, Inc. Systems, methods and computer program products for determining document validity
US8958605B2 (en) 2009-02-10 2015-02-17 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9576272B2 (en) 2009-02-10 2017-02-21 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9349046B2 (en) 2009-02-10 2016-05-24 Kofax, Inc. Smart optical input/output (I/O) extension for context-dependent workflows
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US8121618B2 (en) 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US9484046B2 (en) 2010-11-04 2016-11-01 Digimarc Corporation Smartphone-based methods and systems
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US9514357B2 (en) 2012-01-12 2016-12-06 Kofax, Inc. Systems and methods for mobile image capture and processing
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9916514B2 (en) 2012-06-11 2018-03-13 Amazon Technologies, Inc. Text recognition driven functionality
US9009261B2 (en) * 2012-09-14 2015-04-14 Comcast Cable Communications, Llc Optical character recognition for video automation
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
US9911361B2 (en) * 2013-03-10 2018-03-06 OrCam Technologies, Ltd. Apparatus and method for analyzing images
US9208536B2 (en) 2013-09-27 2015-12-08 Kofax, Inc. Systems and methods for three dimensional geometric reconstruction of captured image data
US9058644B2 (en) * 2013-03-13 2015-06-16 Amazon Technologies, Inc. Local image enhancement for text recognition
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
EP2992481A4 (en) 2013-05-03 2017-02-22 Kofax, Inc. Systems and methods for detecting and classifying objects in video captured using mobile devices
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
GB2517408A (en) * 2013-07-05 2015-02-25 Blue Prism Ltd System for automating processes
US9245192B2 (en) * 2013-09-20 2016-01-26 Here Global B.V. Ad collateral detection
US9386235B2 (en) 2013-11-15 2016-07-05 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
KR102173123B1 (ko) * 2013-11-22 2020-11-02 삼성전자주식회사 전자장치에서 이미지 내의 특정 객체를 인식하기 위한 방법 및 장치
US9354778B2 (en) 2013-12-06 2016-05-31 Digimarc Corporation Smartphone-based methods and systems
EP3132381A4 (en) * 2014-04-15 2017-06-28 Kofax, Inc. Smart optical input/output (i/o) extension for context-dependent workflows
CN104090648B (zh) * 2014-05-21 2017-08-25 中兴通讯股份有限公司 数据录入方法及终端
US9754552B2 (en) * 2014-06-17 2017-09-05 Amazon Technologies, Inc. Architectures for processing of head tracking on a mobile device
CN105204886B (zh) * 2014-06-30 2018-11-20 华为技术有限公司 一种激活应用程序的方法、用户终端和服务器
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US20160104121A1 (en) * 2014-10-10 2016-04-14 Benjamin Garner Digital Flyer Service
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
CN104318399A (zh) * 2014-11-10 2015-01-28 深圳市网家缘科技有限公司 一种基于地理位置的招聘信息街拍分享方法及系统
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
CN104717367A (zh) * 2015-04-07 2015-06-17 联想(北京)有限公司 电子设备及图像显示方法
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
US10467465B2 (en) 2015-07-20 2019-11-05 Kofax, Inc. Range and/or polarity-based thresholding for improved data extraction
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US20170251121A1 (en) * 2016-02-29 2017-08-31 Ilya Evdokimov Integrated ocr apparatus
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
CN107291560A (zh) * 2016-03-31 2017-10-24 北京三星通信技术研究有限公司 一种智能设备的内容确定方法和装置
US9779296B1 (en) 2016-04-01 2017-10-03 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
CN106056114B (zh) * 2016-05-24 2019-07-05 腾讯科技(深圳)有限公司 名片内容识别方法和装置
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
GB201702450D0 (en) 2017-02-15 2017-03-29 Blue Prism Ltd System for optimising distribution of processing an automated process
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN107247710A (zh) * 2017-06-13 2017-10-13 王金锁 一种翻译书签
EP3665557B1 (en) * 2017-09-12 2022-08-31 Samsung Electronics Co., Ltd. Method for recommending one or more actions and an electronic device thereof
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US20210193165A1 (en) * 2019-12-18 2021-06-24 Audio Analytic Ltd Computer apparatus and method implementing combined sound recognition and location sensing
GB2590967A (en) 2020-01-10 2021-07-14 Blue Prism Ltd Method of remote access
CN115016695A (zh) * 2021-11-18 2022-09-06 荣耀终端有限公司 一种应用程序启动方法及电子设备
WO2024155277A1 (en) * 2023-01-19 2024-07-25 Rakuten Symphony Inc. Method of phone number recognition and system for using the same

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0528203A (ja) * 1991-07-24 1993-02-05 Ricoh Co Ltd 地図検索装置
JP2004038367A (ja) * 2002-07-01 2004-02-05 Nec Corp カメラ付き携帯電話を用いたインタネットホームページ接続システムおよびマーケティング情報収集システムとその方法
JP2004140555A (ja) * 2002-10-17 2004-05-13 Nec Saitama Ltd 携帯電話装置
JP2005084951A (ja) * 2003-09-09 2005-03-31 Hitachi Ltd 情報処理装置、情報処理方法及びソフトウェア

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4975948A (en) * 1989-10-13 1990-12-04 Andresen Dennis R Rapid dialing method for telecommunications
US20010032070A1 (en) 2000-01-10 2001-10-18 Mordechai Teicher Apparatus and method for translating visual text
US7688306B2 (en) * 2000-10-02 2010-03-30 Apple Inc. Methods and apparatuses for operating a portable device based on an accelerometer
US7283992B2 (en) * 2001-11-30 2007-10-16 Microsoft Corporation Media agent to suggest contextually related media content
US20050021470A1 (en) * 2002-06-25 2005-01-27 Bose Corporation Intelligent music track selection
US7254784B2 (en) * 2002-09-11 2007-08-07 Peter H. Chang User-driven menu generation system with multiple submenus
EP2204118B1 (en) 2002-10-15 2014-07-23 Volvo Technology Corporation Method for interpreting a drivers head and eye activity
US7305435B2 (en) * 2003-08-25 2007-12-04 Nokia Corporation Internet access via smartphone camera
US8370825B2 (en) * 2003-10-22 2013-02-05 Hewlett-Packard Development Company, L.P. Program-update prioritization according to program-usage tracking
US7310605B2 (en) 2003-11-25 2007-12-18 International Business Machines Corporation Method and apparatus to transliterate text using a portable device
US7734729B2 (en) * 2003-12-31 2010-06-08 Amazon Technologies, Inc. System and method for obtaining information relating to an item of commerce using a portable imaging device
US7707039B2 (en) * 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
GB2412762B (en) 2004-04-02 2009-01-28 Symbian Software Ltd Inter process communication in a computing device
KR100633184B1 (ko) 2004-04-06 2006-10-12 엘지전자 주식회사 영상표시기기의 메뉴설정장치 및 방법
US7970171B2 (en) 2007-01-18 2011-06-28 Ricoh Co., Ltd. Synthetic image and video generation from ground truth data
US20060195797A1 (en) * 2005-02-25 2006-08-31 Toshiba Corporation Efficient document processing selection
US20080307436A1 (en) 2007-06-06 2008-12-11 Microsoft Corporation Distributed publish-subscribe event system with routing of published events according to routing tables updated during a subscription process
US20080317346A1 (en) * 2007-06-21 2008-12-25 Microsoft Corporation Character and Object Recognition with a Mobile Photographic Device
CN101431559B (zh) 2007-11-09 2011-08-31 中国移动通信集团公司 移动终端的自适应调整方法和一种移动终端
US20090327915A1 (en) * 2008-06-27 2009-12-31 International Business Machines Corporation Automatic GUI Reconfiguration Based On User Preferences
US8788977B2 (en) 2008-11-20 2014-07-22 Amazon Technologies, Inc. Movement recognition as input mechanism
KR101023389B1 (ko) 2009-02-23 2011-03-18 삼성전자주식회사 문자 인식 성능을 향상시키기 위한 장치 및 방법
CN101639760A (zh) 2009-08-27 2010-02-03 上海合合信息科技发展有限公司 联系信息输入方法及系统
US8374646B2 (en) * 2009-10-05 2013-02-12 Sony Corporation Mobile device visual input system and methods
US8620774B1 (en) 2010-09-23 2013-12-31 Amazon Technologies, Inc. Automated marketplace management service
CN103180849B (zh) * 2010-10-21 2017-12-29 高通公司 使用移动计算装置搜索多数据源
US8526743B1 (en) * 2010-11-01 2013-09-03 Raf Technology, Inc. Defined data patterns for object handling
US9116220B2 (en) 2010-12-27 2015-08-25 Microsoft Technology Licensing, Llc Time synchronizing sensor continuous and state data signals between nodes across a network
WO2012133983A1 (ko) * 2011-03-25 2012-10-04 엘지전자 주식회사 차량에 장착되는 영상표시기기에서의 이미지 처리
GB2492529B (en) 2011-05-31 2018-01-10 Skype Video stabilisation
US8786716B2 (en) 2011-08-15 2014-07-22 Apple Inc. Rolling shutter reduction based on motion sensors
US8838808B2 (en) 2011-09-30 2014-09-16 Apple Inc. Asynchronous communication in web applications
US9916514B2 (en) 2012-06-11 2018-03-13 Amazon Technologies, Inc. Text recognition driven functionality
US9075545B2 (en) 2012-08-01 2015-07-07 Hewlett-Packard Development Company, L.P. Synchronizing sensor data using timestamps and signal interpolation
KR101407311B1 (ko) 2012-10-31 2014-06-13 엘지디스플레이 주식회사 터치표시장치 및 이의 광센서모듈 복구방법
US9754552B2 (en) 2014-06-17 2017-09-05 Amazon Technologies, Inc. Architectures for processing of head tracking on a mobile device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0528203A (ja) * 1991-07-24 1993-02-05 Ricoh Co Ltd 地図検索装置
JP2004038367A (ja) * 2002-07-01 2004-02-05 Nec Corp カメラ付き携帯電話を用いたインタネットホームページ接続システムおよびマーケティング情報収集システムとその方法
JP2004140555A (ja) * 2002-10-17 2004-05-13 Nec Saitama Ltd 携帯電話装置
JP2005084951A (ja) * 2003-09-09 2005-03-31 Hitachi Ltd 情報処理装置、情報処理方法及びソフトウェア

Cited By (177)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11928604B2 (en) 2005-09-08 2024-03-12 Apple Inc. Method and apparatus for building an intelligent automated assistant
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11979836B2 (en) 2007-04-03 2024-05-07 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US12087308B2 (en) 2010-01-18 2024-09-10 Apple Inc. Intelligent automated assistant
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
US10692504B2 (en) 2010-02-25 2020-06-23 Apple Inc. User profiling for voice input processing
US10417405B2 (en) 2011-03-21 2019-09-17 Apple Inc. Device access using voice authentication
US11350253B2 (en) 2011-06-03 2022-05-31 Apple Inc. Active transport based notifications
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11069336B2 (en) 2012-03-02 2021-07-20 Apple Inc. Systems and methods for name pronunciation
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10714117B2 (en) 2013-02-07 2020-07-14 Apple Inc. Voice trigger for a digital assistant
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US11636869B2 (en) 2013-02-07 2023-04-25 Apple Inc. Voice trigger for a digital assistant
US12009007B2 (en) 2013-02-07 2024-06-11 Apple Inc. Voice trigger for a digital assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US12073147B2 (en) 2013-06-09 2024-08-27 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US12010262B2 (en) 2013-08-06 2024-06-11 Apple Inc. Auto-activating smart responses based on activities from remote devices
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US12067990B2 (en) 2014-05-30 2024-08-20 Apple Inc. Intelligent assistant for home automation
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10657966B2 (en) 2014-05-30 2020-05-19 Apple Inc. Better resolution when referencing to concepts
US12118999B2 (en) 2014-05-30 2024-10-15 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US10714095B2 (en) 2014-05-30 2020-07-14 Apple Inc. Intelligent assistant for home automation
US10417344B2 (en) 2014-05-30 2019-09-17 Apple Inc. Exemplar-based natural language processing
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US10438595B2 (en) 2014-09-30 2019-10-08 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10390213B2 (en) 2014-09-30 2019-08-20 Apple Inc. Social reminders
US10453443B2 (en) 2014-09-30 2019-10-22 Apple Inc. Providing an indication of the suitability of speech recognition
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US10930282B2 (en) 2015-03-08 2021-02-23 Apple Inc. Competing devices responding to voice triggers
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US10529332B2 (en) 2015-03-08 2020-01-07 Apple Inc. Virtual assistant activation
US12001933B2 (en) 2015-05-15 2024-06-04 Apple Inc. Virtual assistant in a communication session
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
US10681212B2 (en) 2015-06-05 2020-06-09 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US11010127B2 (en) 2015-06-29 2021-05-18 Apple Inc. Virtual assistant for media playback
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US12051413B2 (en) 2015-09-30 2024-07-30 Apple Inc. Intelligent device identification
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US10354652B2 (en) 2015-12-02 2019-07-16 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11657820B2 (en) 2016-06-10 2023-05-23 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
KR20170140079A (ko) * 2016-06-11 2017-12-20 애플 인크. 지능형 태스크 탐색
US10580409B2 (en) 2016-06-11 2020-03-03 Apple Inc. Application integration with a digital assistant
US10942702B2 (en) 2016-06-11 2021-03-09 Apple Inc. Intelligent device arbitration and control
JP2018014086A (ja) * 2016-06-11 2018-01-25 アップル インコーポレイテッド インテリジェントタスクディスカバリ
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
KR102026523B1 (ko) * 2016-06-11 2019-09-27 애플 인크. 지능형 태스크 탐색
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
JP2019145109A (ja) * 2016-06-11 2019-08-29 アップル インコーポレイテッドApple Inc. インテリジェントタスクディスカバリ
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10847142B2 (en) 2017-05-11 2020-11-24 Apple Inc. Maintaining privacy of personal information
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US11862151B2 (en) 2017-05-12 2024-01-02 Apple Inc. Low-latency intelligent automated assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11837237B2 (en) 2017-05-12 2023-12-05 Apple Inc. User-specific acoustic models
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US12014118B2 (en) 2017-05-15 2024-06-18 Apple Inc. Multi-modal interfaces having selection disambiguation and text modification capability
US12026197B2 (en) 2017-05-16 2024-07-02 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US10909171B2 (en) 2017-05-16 2021-02-02 Apple Inc. Intelligent automated assistant for media exploration
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10748546B2 (en) 2017-05-16 2020-08-18 Apple Inc. Digital assistant services based on device capabilities
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US12067985B2 (en) 2018-06-01 2024-08-20 Apple Inc. Virtual assistant operations in multi-device environments
US11495218B2 (en) 2018-06-01 2022-11-08 Apple Inc. Virtual assistant operation in multi-device environments
US12061752B2 (en) 2018-06-01 2024-08-13 Apple Inc. Attention aware virtual assistant dismissal
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11360577B2 (en) 2018-06-01 2022-06-14 Apple Inc. Attention aware virtual assistant dismissal
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US10720160B2 (en) 2018-06-01 2020-07-21 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US12080287B2 (en) 2018-06-01 2024-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10684703B2 (en) 2018-06-01 2020-06-16 Apple Inc. Attention aware virtual assistant dismissal
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11360739B2 (en) 2019-05-31 2022-06-14 Apple Inc. User activity shortcut suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
KR102271720B1 (ko) 2019-10-22 2021-07-01 류승완 텍스트 검색을 이용한 지도 정보 제공 장치 및 그 방법
KR20210047618A (ko) * 2019-10-22 2021-04-30 류승완 텍스트 검색을 이용한 지도 정보 제공 장치 및 그 방법
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11924254B2 (en) 2020-05-11 2024-03-05 Apple Inc. Digital assistant hardware abstraction
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11750962B2 (en) 2020-07-21 2023-09-05 Apple Inc. User identification using headphones
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones

Also Published As

Publication number Publication date
WO2013188463A2 (en) 2013-12-19
US9916514B2 (en) 2018-03-13
EP2859471A4 (en) 2016-08-10
WO2013188463A3 (en) 2014-03-13
EP2859471A2 (en) 2015-04-15
US20130329023A1 (en) 2013-12-12
CN104685494A (zh) 2015-06-03
CN104685494B (zh) 2018-08-14
JP6275706B2 (ja) 2018-02-07

Similar Documents

Publication Publication Date Title
JP6275706B2 (ja) テキスト認識駆動の機能性
JP6046808B2 (ja) 画像認識のための適応閾値処理
US11175726B2 (en) Gesture actions for interface elements
US9798443B1 (en) Approaches for seamlessly launching applications
US9378581B2 (en) Approaches for highlighting active interface elements
US9363104B2 (en) Customized speech generation
US9774780B1 (en) Cues for capturing images
US9147275B1 (en) Approaches to text editing
US9268407B1 (en) Interface elements for managing gesture control
US9269009B1 (en) Using a front-facing camera to improve OCR with a rear-facing camera
US9058536B1 (en) Image-based character recognition
US9201585B1 (en) User interface navigation gestures
WO2014164236A1 (en) Local image enhancement for text recognition
US9298980B1 (en) Image preprocessing for character recognition
US9645789B1 (en) Secure messaging
US9262689B1 (en) Optimizing pre-processing times for faster response
US9350918B1 (en) Gesture control for managing an image view display
US9146631B1 (en) Determining which hand is holding a device
US9507429B1 (en) Obscure cameras as input
US9524036B1 (en) Motions for displaying additional content
US9075615B2 (en) Dynamic class loading

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151222

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160826

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170120

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20170130

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20170324

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180110

R150 Certificate of patent or registration of utility model

Ref document number: 6275706

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees