JP6072344B2

JP6072344B2 - ジェスチャを使用して処理モードを切り替えるためのシステムおよび方法

Info

Publication number: JP6072344B2
Application number: JP2016502091A
Authority: JP
Inventors: プオン・エル・トン; エヴァン・アール・ヒルドレス; ジョエル・エス・ベルナルテ; スザーナ・アレラーノ
Original assignee: クアルコム，インコーポレイテッド
Priority date: 2013-03-15
Filing date: 2014-03-13
Publication date: 2017-02-01
Anticipated expiration: 2034-03-13
Also published as: KR20150127712A; EP2973549B1; US20140278441A1; CN105074817A; JP2016512364A; CN105074817B; EP2973549A1; WO2014151702A1; US9436287B2; KR101748316B1

Description

本明細書で開示する実施形態は、一般に、コンピューティングデバイスにおいてモード間で切り替えるためのシステムおよび方法を対象とする。特に、本明細書で開示する実施形態は、検出されたジェスチャに基づいてモード間で切り替えることを対象とする。

音声口述は、テープレコーダまたはタイピストに向かって話すことを意味するために使用されている。だが、音声検出システムが向上し、音声をテキストへと処理するシステムの能力が高まるのに伴って、音声口述システムは、コンピュータまたはモバイルデバイスにインストールされたソフトウェアで実装されてきている。さらに、音声口述システムは、ユーザが話すときに音声をテキストへと処理することが可能であり、これは、ハンズフリーの利用しやすいアプリケーションの大幅な進歩をもたらしている。

音声口述を実施する際に難しいことの1つは、人の自然な発話のパターンに適応することである。現在の音声口述システムは、話し言葉列全体をテキストとして処理し、そのテキストをコマンドまたは句読点のために処理する。しかしながら、多くのシステムにとって、テキストをコマンドまたは句読点のために処理することは困難である。いくつかのシステムは、テキストの終わりを判断するために休止を探し、この休止を、前の列で実行されるべきコマンドを次の列が含むことの合図として使用する。ユーザが発話中に休止して、考えをまとめ、または次に何を言うかについて考え、コマンドと解釈され得る言葉を次の列が含む場合、コマンドは、ユーザが同時にコマンドを実行することを望んでいないにもかかわらず実行されることがある。

したがって、より適切に、ユーザの自然な発話のパターンを考慮し、コマンドおよび/または句読点であり得る言葉を含む、口述された言葉に関する異なる意味の間で区別することが可能な改善された音声口述のためのシステムおよび方法が必要である。

いくつかの実施形態に従って、検出された音響波形を第1のモードおよび第2のモードで処理するためのシステムが提供される。本システムは、音響波形を検出するように構成されたマイクロフォンと、タッチレスジェスチャを検出するように構成されたジェスチャ検出センサと、検出された音響波形および検出されたタッチレスジェスチャにタイムスタンプを提供するように構成されたシステムクロックとを含む。本システムはまた、検出された音響波形のタイムスタンプおよび検出されたタッチレスジェスチャのタイムスタンプがほぼ一致するときに、検出された音響波形を第2のモードで処理するように構成された1つまたは複数のプロセッサを含む。

いくつかの実施形態に従って、検出された音響波形を第1のモードおよび第2のモードで処理するための方法がさらに提供される。本方法は、マイクロフォンによって、最初の音響波形入力を検出するステップと、ジェスチャ検出を開始するステップと、音響波形入力にタイムスタンプするステップと、タッチレスジェスチャが実行されたかどうかを検出するステップと、検出されたタッチレスジェスチャにタイムスタンプするステップと、マイクロフォンに結合された1つまたは複数のプロセッサによって、検出されたタッチレスジェスチャのタイムスタンプの頃から、タッチレスジェスチャがこれ以上検出されなくなる時間の頃まで、音響波形入力を第2のモードで処理するステップとを含む。提供される方法はまた、コンピュータ可読媒体において命令として具現化され得る。

いくつかの実施形態に従って、検出された音響波形を第1のモードおよび第2のモードで処理するためのシステムがさらに提供される。本システムは、音響波形入力を検出し、音響波形入力にタイムスタンプするための手段と、タッチレスジェスチャを検出し、検出されたタッチレスジェスチャにタイムスタンプするための手段と、音響波形入力のタイムスタンプが検出されたタッチレスジェスチャのタイムスタンプとほぼ一致するときに、音響波形入力を第2のモードで選択的に処理するための手段とを含む。

いくつかの実施形態に従った処理デバイス100を示す図である。いくつかの実施形態に従った、検出されたジェスチャに基づいて、検出された音響波形を第1のモードおよび第2のモードで処理するためのシステムの一例を示す図である。いくつかの実施形態に従った、検出されたジェスチャに基づいて、検出された音響波形を第1のモードおよび第2のモードで処理するためのシステムの一例を示す図である。いくつかの実施形態に従った、検出されたジェスチャに基づいて、検出された音響波形を第1のモードおよび第2のモードで処理するためのシステムの一例を示す図である。いくつかの実施形態に従った、検出されたジェスチャに基づいて、検出された音響波形を第1のモードおよび第2のモードで処理するシステムの一例を示す図である。いくつかの実施形態に従った、検出されたジェスチャに基づいて、検出された音響波形を第1のモードおよび第2のモードで処理するシステムの一例を示す図である。いくつかの実施形態に従った、検出されたジェスチャに基づいて、検出された音響波形を第1のモードおよび第2のモードで処理するシステムの一例を示す図である。いくつかの実施形態に従った、検出されたジェスチャに基づいて、検出された音響波形を第1のモードおよび第2のモードで処理するシステムの一例を示す図である。いくつかの実施形態に従った、検出されたジェスチャに基づいて、検出された音響波形を第1のモードおよび第2のモードで処理するシステムの一例を示す図である。いくつかの実施形態に従った、検出されたジェスチャに基づいて、検出された音響波形を第1のモードおよび第2のモードで処理するシステムの一例を示す図である。いくつかの実施形態に従った、検出された音響波形を第1のモードおよび第2のモードで処理する方法を示すフローチャートである。いくつかの実施形態に従った、検出された音響波形を第1のモードおよび第2のモードで処理する方法を示すフローチャートである。いくつかの実施形態に従った、検出されたジェスチャに基づいて、検出された音響波形を第1のモードおよび第2のモードで処理するシステムの一例を示す図である。いくつかの実施形態に従った、検出されたジェスチャに基づいて、検出された音響波形を第1のモードおよび第2のモードで処理するシステムの一例を示す図である。いくつかの実施形態に従った、検出されたジェスチャに基づいて、検出された音響波形を第1のモードおよび第2のモードで処理するシステムの一例を示す図である。いくつかの実施形態に従った、検出されたジェスチャに基づいて、検出された音響波形を第1のモードおよび第2のモードで処理するシステムの一例を示す図である。いくつかの実施形態に従った、検出されたジェスチャに基づいて、検出された音響波形を第1のモードおよび第2のモードで処理するシステムの一例を示す図である。いくつかの実施形態に従った、検出されたジェスチャに基づいて、検出された音響波形を第1のモードおよび第2のモードで処理するシステムの一例を示す図である。いくつかの実施形態に従った、検出されたジェスチャに基づいて、検出された音響波形を第1のモードおよび第2のモードで処理するシステムの一例を示す図である。いくつかの実施形態に従った、検出された音響波形を第1のモードおよび第2のモードで処理する方法を示すフローチャートである。

図面では、同じ記号表示を有する要素は同じまたは同様の機能を有する。

以下の説明では、具体的な詳細を記載して、いくつかの実施形態について説明する。しかし、開示される実施形態は、これらの具体的な詳細の一部または全部を伴わずに実施され得ることが、当業者には明らかであろう。提示される具体的な実施形態は、例示的であることが意図されており、限定的であることは意図されていない。当業者は、本明細書で具体的に説明してはいないが、本開示の趣旨および範囲内にある他の物を実現し得る。

図1は、いくつかの実施形態に従った処理デバイス100を示す図である。処理デバイス100は、iPhone(商標)のようなスマートフォンなどのモバイルデバイス、またはiOS(商標)オペレーティングシステム、Android(商標)オペレーティングシステム、BlackBerry(商標)オペレーティングシステム、Microsoft(登録商標)Windows(登録商標)Phoneオペレーティングシステム、Symbian(商標)OS、もしくはwebOS(商標)を実行している他のモバイルデバイス、またはオペレーティングシステムを実装していないモバイルデバイスであり得る。処理デバイス100はまた、iPad(商標)などのタブレットコンピュータまたは前述のオペレーティングシステムのうちの1つを実行している他のタブレットコンピュータであり得る。処理デバイス100はまた、PCまたはラップトップまたはネットブック、ケーブルもしくは衛星コンテンツプロバイダによって提供されるようなセットトップボックス(STB)、またはNintendo(登録商標)Wii(商標)、Microsoft(登録商標)Xbox 360(商標)、もしくはSony(登録商標)PlayStation(商標)3などのビデオゲームシステムコンソール、または他のビデオゲームシステムコンソールであり得る。いくつかの実施形態では、処理デバイス100は、自動車に、たとえば、自動車のエンターテインメントセンタもしくはコンソールに実装されるか、またはヘルスケアデバイスに含まれるか、もしくは実装される。いくつかの実施形態によれば、処理デバイス100は、音響入力を受信およびキャプチャし、ジェスチャを検出するように構成されたハードウェアおよび/またはソフトウェアの任意の適切な組合せを使用して実装され得る。特に、処理デバイス100は、1つまたは複数のプロセッサを有する、音響入力を受信およびキャプチャし、ジェスチャを検出するために1つまたは複数のプロセッサが実行するための非一時的機械可読媒体上に記憶された命令を読み取ることが可能なハードウェアおよび/またはソフトウェアの任意の適切な組合せを含み得る。いくつかの一般的な形態の機械可読媒体としては、たとえば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、任意の他の光媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、RAM、PROM、EPROM、FLASH-EPROM、任意の他のメモリチップもしくはカートリッジ、および/または1つもしくは複数のプロセッサもしくはコンピュータが読み取るように適合された任意の他の媒体が挙げられる。

処理デバイス100は、ネットワークとの通信用に構成されたネットワークインターフェース構成要素102を含み得る。いくつかの実施形態に従って、ネットワークインターフェース構成要素102は、同軸ケーブル、光ファイバーケーブル、デジタル加入者回線(DSL)モデム、公衆交換電話網(PSTN)モデム、イーサネット(登録商標)デバイス、および/または様々な他のタイプの有線ネットワーク通信デバイスとインターフェースをとるように構成され得る。ネットワークインターフェース構成要素102はまた、1つまたは複数のワイヤレストランシーバを含むことができ、この場合に各ワイヤレストランシーバは、分離可能型または一体型の、Wi-Fi(商標)、3G、4G、HDSPA、LTE、RF、NFCなどの異なるワイヤレスネットワーキングプロトコルに従って情報を送信および受信することが可能なアンテナを含むことができる。いくつかの実施形態に従って、処理デバイス100は、処理デバイス100内の様々な構成要素を相互接続し、様々な構成要素間で情報を通信するためのシステムバス104を含む。いくつかの実施形態では、バス104は、システムオンチップ(SoC)で実装され、チップおよび/または1つもしくは複数のプロセッサのコアにある様々な要素または構成要素を接続する。構成要素は、1つまたは複数のプロセッサ、中央処理装置(CPU)、画像信号プロセッサ(ISP)、マイクロコントローラ、またはデジタル信号プロセッサ(DSP)、ならびにアナログおよび/もしくはデジタル音響信号プロセッサを含み得る音響信号プロセッサであり得る処理構成要素106を含み得る。構成要素はまた、ランダムアクセスメモリ(RAM)に対応し得るシステムメモリ構成要素108、読取り専用メモリ(ROM)に対応し得る内部メモリ構成要素110、および光メモリ、磁気メモリまたはソリッドステートメモリに対応し得る外部またはスタティックメモリ112を含み得る。いくつかの実施形態に従って、処理デバイス100はまた、ユーザに情報を表示するためのディスプレイ構成要素114を含み得る。ディスプレイ構成要素114は、液晶ディスプレイ(LCD)画面、有機発光ダイオード(OLED)画面(アクティブマトリックスAMOLED画面を含む)、LED画面、プラズマディスプレイ、またはブラウン管(CRT)ディスプレイであり得る。ディスプレイ構成要素114は、処理デバイス100と統合されてよく、または処理デバイス100とは別個のもので、処理デバイス100に結合されてよい。処理デバイス100はまた、ユーザが情報を入力し、ディスプレイ構成要素114に沿ってナビゲートすることを可能にする入力およびナビゲーション制御構成要素116を含み得る。入力およびナビゲーション構成要素116は、たとえば、キーボードもしくはキーパッド(物理的なものであるか仮想のものであるかを問わない)、マウス、トラックボール、もしくは他のそのようなデバイス、または容量性センサベースのタッチスクリーンを含み得る。処理デバイス100は、いくつかの実施形態によれば、図1に示すよりも多くの、または少ない構成要素を含み得る。たとえば、処理デバイス100は、システムメモリ構成要素108、内部メモリ構成要素110、および外部メモリ構成要素112のうちのいずれか1つまたは2つを含み得る。その上、図1に示す構成要素は、図1における1つまたは複数の他の構成要素に直接結合されてよく、それによりシステムバス104の必要がなくなる。一般に、図1に示す構成要素は、本明細書で開示する実施形態を実行することが可能な処理デバイス100における構成要素の例として示されている。ただし、処理デバイス100は、より多くの、またはより少ない構成要素を有してもなお、本明細書で開示するいくつかの実施形態を実行することが可能であり得る。

処理デバイス100はまた、たとえばユーザ120からの音響入力を検出および受信するためのマイクロフォン118を含む。いくつかの実施形態によれば、マイクロフォン118は、音声などの音響を検出し、次いで音響が処理のために処理構成要素106に、また記憶のためにメモリ108、110および112のいずれかに送信されるように構成され得る。いくつかの実施形態では、マイクロフォン118は、口述で使用するためのユーザ120からの音声を検出するように構成され得る。マイクロフォン118は、処理デバイス100と統合されてよく、または別個のもので、ケーブルもしくはワイヤレス結合によって処理デバイス100に結合されてよい。いくつかの実施形態によれば、マイクロフォン118は、ユーザ120の音声に関連する音響波形を検出し、検出された波形を、メモリ108、110および112のいずれかに記憶された命令に従って処理するために処理構成要素106に送信される1つまたは複数の電気信号に変換する。いくつかの実施形態では、マイクロフォン118は、検出された音響波形を1つまたは複数の電気信号に変換する音響/電気トランスデューサまたはセンサを含み得る。

処理デバイス100はジェスチャ検出センサ122を含み得る。ジェスチャ検出センサ122は、ユーザ120によって作られたジェスチャを検出することが可能な任意のセンサであり得る。いくつかの実施形態によれば、ジェスチャ検出センサ122は、カメラ、超音波トランスデューサ、ライトパイプ影検出器、赤外線センサ、および/もしくは周辺光センサ、またはジェスチャを検出するように構成された他のセンサであり得る。いくつかの実施形態によれば、ジェスチャは、ジェスチャ検出センサ122によって検出され得るタッチレスジェスチャまたは相互作用であってよく、この場合にユーザ120によって作られたジェスチャは、ユーザがジェスチャ検出センサ122にタッチする必要なしに検出され得る。タッチレスジェスチャの例としては、ハンドポーズ、たとえば手を上げること、またはユーザ120の手がジェスチャ検出センサ122を覆うハンドカバージェスチャ(hand cover gesture)を含み得る。いくつかの実施形態では、ジェスチャ検出センサ122は、マイクロフォン118または超音波周波数に敏感な別個のマイクロフォンを含み得る。カメラを使用してジェスチャを検出する実施形態の場合、カメラは可視光カメラまたは深度感知カメラ、たとえばMicrosoft(登録商標)Xbox(商標)Kinect(商標)カメラであり得る。カメラはまた、赤外線(IR)光または紫外線(UV)光を検出するように構成され得る。ジェスチャ検出センサ122はまた、ステレオカメラ、飛行時間(ToF)カメラ、またはユーザ120によって作られたジェスチャを検出することが可能な他のカメラであり得る。ジェスチャ検出センサ122はまた、いくつかの実施形態では、Nintendo(登録商標)Wii(商標)WiiMote(商標)、またはSony(登録商標)PlayStation(商標)Move(商標)であり得る。いくつかの実施形態では、ジェスチャ検出センサ122は、上記で説明したような、ユーザによって作られたジェスチャを検出するために組み合わせて動作する1つまたは複数のジェスチャ検出センサを含み得る。

いくつかの実施形態によれば、ジェスチャ検出センサ122は、処理構成要素106による音響の処理を第1のまたは通常のモードから第2のまたは代替のモードに切り替えるためにユーザ120によって作られたジェスチャを検出するように構成され得る。いくつかの実施形態によれば、ジェスチャ検出センサ122は、電力を節約するために処理するために音響波形をマイクロフォン118が検出するまで、非アクティブであり得る。その上、ジェスチャ検出センサ122は、検出された音響波形が処理構成要素106によって人間の音声であると判断されるまで、非アクティブであり得る。いくつかの実施形態では、音響波形および/または人間の音声が検出されたことに応答して、センサ122とともに使用するジェスチャ検出手順が、たとえば処理構成要素106によって有効(enable)にされる。いくつかのそのような実施形態では、センサ122は、状況によっては、音響波形および/または人間の音声がマイクロフォン118によって検出されていないときでも、オンのままであり得るが、1つまたは複数の一定のジェスチャの検出が有効にされてよく、かつ/あるいはセンサ122は、より高い負荷サイクルで動作すること、または1つもしくは複数の他の形で動作上の影響を受けることがある。さらに、ジェスチャ検出センサ122は、画像データを含む、ジェスチャの有無について分析され得るデータのフレームをキャプチャするように構成され得る。いくつかの実施形態では、ジェスチャ検出センサ122は、所望の検出精度および電力節約などのファクタに基づいて増減し得る所定数のフレーム(毎秒)をキャプチャするように構成され得る。たとえば、より多くのフレーム(毎秒)をキャプチャすれば、より高い精度がもたらされるが、電力はより急速に使い果たされ得る一方、より少ないフレーム(毎秒)をキャプチャすれば、より低い精度がもたらされるが、電力はさほど急速には使い果たされない。さらに、ジェスチャ検出センサ122は、可変レートでフレームでジェスチャを探すように構成されてよく、この可変レートは、電力を犠牲にして精度を改善するために上昇し得るが、精度を犠牲にして電力節約を改善するために低下し得る。いくつかの実施形態では、ジェスチャ検出センサ122は、電力を節約するために8フレームごとに1フレームでジェスチャを探すように構成され得るが、このレートは、精度の改善または電力の節約のために上昇または低下し得る。いくつかの実施形態では、可変レートは、マイクロフォン118が音響波形および/または音声を検出したことに応答して上昇する。その上、フレームは、ジェスチャ検出センサ122中のバッファに、またはメモリ108〜112のいずれかに記憶されてよく、必要な場合にジェスチャ検出の精度の向上のためにアクセスされ得る。すなわち、ジェスチャ検出センサ122は、8フレームごとに1フレームのみでジェスチャを探すように構成されるが、他の7フレームはバッファまたはメモリに記憶され、ジェスチャの存在を判断するための精度の向上のために、または考えられるもしくは部分的な検出されたジェスチャを解決するために、ジェスチャ検出センサ122または処理構成要素106によってアクセスされ得る。さらに、フレームは、たとえば、発話とジェスチャとの間の遅延に起因して、ある話し言葉と正確に相関する時間にユーザがジェスチャを行っていないことを考慮してバッファリングされ得る。

処理デバイス100はまた、処理デバイス100の構成要素にクロックおよびタイミングを提供する、検出された音響波形および検出されたジェスチャにタイムスタンプを提供するように構成され得るシステムクロック124を含む。処理デバイス100の構成要素は処理デバイス100と一体のものとして示されているが、構成要素はそのように限定されず、処理デバイス100とは別個のもので、処理デバイス100の外部にあり、処理デバイス100およびシステムバス104に有線またはワイヤレス結合を介して結合されてよい。

いくつかの実施形態に従って、ユーザ120は、ユーザが口述する言葉の列に関連する音響波形を検出するように構成されたマイクロフォン118とともに、音声口述のためにデバイス100を使用することができ、音響波形は、電気信号に変換され、処理のために処理構成要素106に送信される。音響波形に関連する電気信号は、メモリ108、110および112のいずれかに記憶された辞書で定義された言葉、コマンド、または句読点に対応する所定の意味に関連付けられ得、処理構成要素106は、音響波形に関連する電気信号を意味と突き合わせ、対応する意味をテキストへと出力することができる。上述のように、音声口述を実施する際に難しいことの1つは、様々な意味を有する言葉または言葉の列の間で区別することである。「send(送る)」、「delete(削除する)」、「message(メッセージ)」、「e-mail(電子メール)」、および「forward(転送する)」などの言葉はすべて、電子メールおよびメッセージング機能に関係するコマンドまたは命令と解釈され得る言葉である。同様に、「dot」、「period」、「at」、および「comma」などの言葉は、言葉または句読点と解釈され得る。

図2A〜図2Cは、いくつかの実施形態に従った、検出されたジェスチャに基づいて、検出された音響波形を第1のモードおよび第2のモードで処理するためのシステムの一例を示している。図2Aに示すように、ユーザ120はデバイス100に向かって口述している。いくつかの実施形態によれば、マイクロフォン118は、ユーザ120の音声に関連する音響波形を検出し、メモリ108、110および112のいずれかに記憶された命令に基づいて処理構成要素106によって処理される電気信号が音響波形によって生成される。特に、処理構成要素106は、各電気信号を、メモリ108、110および112のいずれかに記憶された辞書における特定の言葉、コマンド、句読点または言葉の列に対応する意味を表す既知の信号と比較する。いくつかの実施形態に従って、辞書は、第三者によって準備されることがあり、または共通の音声口述システムに関連する既知の辞書であり得る。その上、辞書は、ユーザが音響波形を記録し、記録された音響波形に関する意味を定義することが可能であり得る、ユーザが編集可能なものであり得る。

処理構成要素106が電気信号を辞書中の電気信号と突き合わせたときに、電気信号に関連する意味がディスプレイ構成要素114上に表示されることがあり、または他のアクションがデバイス100によって行われ得る。意味は、ディスプレイ構成要素114上に表示されるか、またはたとえば後の呼び出しもしくは送信のためにメモリ108〜112のうちの1つに記憶されることのある言葉または句読点、あるいは処理構成要素106にアクションを実行するよう命令し得るコマンドであり得る。いくつかの実施形態に従って、音声に対応する音響波形に関連する電気信号は、第2のまたは代替の意味を有し得る。その上、検出された音響波形に対応する電気信号を、代替意味を使用する代替モードで処理するように、音声口述システムを切り替えるために、ジェスチャ検出センサ122によって検出されるジェスチャを作ることによって、ユーザ120はこの代替意味をアクティブ化することができる。ジェスチャ検出センサ122がジェスチャを検出したとき、メモリ108、110および112のいずれかに記憶された命令に基づいて処理構成要素106によって処理される電気信号が生成され、それにより、検出された音響波形によって生成された対応する電気信号が別のモードで処理され、代替意味を与えられるようになる。たとえば、ユーザ120が図2Aに示すようなジェスチャを、「Send Message To Matt(マットにメッセージを送る)」という言葉を話すのと同時に作った場合、処理構成要素106は、ジェスチャによって開始された代替モードに従って、列中の言葉のうちの1つまたは複数を処理する。いくつかの実施形態によれば、ユーザ120は、デバイス100のディスプレイ構成要素114によって表示されるか、またはデバイス100のスピーカー(図示せず)によって発せられる、検出された音響波形が代替モードで処理されることをユーザに通知する音響または視覚フィードバックを提供され得る。

いくつかの実施形態によれば、処理構成要素106は、システムクロック124によって提供された時間に基づいて、検出された各音響波形にタイムスタンプすることになる。いくつかの実施形態では、タイムスタンプは、個々の言葉の間の間隔を示す検出された小休止に基づいて、検出された音響波形に関連付けられることになる。いくつかの実施形態では、検出された音響波形の各音素または音節がタイムスタンプされ得る。その上、いくつかの実施形態では、検出された音響波形は、毎秒または数分の1秒であり得る期間に基づいて、周期的にタイムスタンプされ得る。処理構成要素106はまた、システムクロック124によって提供された時間に基づいて、検出されたジェスチャにタイムスタンプすることになる。次いで処理構成要素106は、検出された音響波形および検出されたジェスチャのタイムスタンプを比較し、1つまたは複数の検出された音響波形が、ジェスチャが検出された時間間隔中に検出されたとき、処理構成要素106は、検出された言葉を代替モードに従って処理する。いくつかの実施形態に従って、時間間隔は、レイテンシを考慮して合理的な許容範囲に基づいて、ジェスチャの検出前および検出後の時間期間を含む間隔であり得る。いくつかの実施形態では、レイテンシは、ユーザ120がジェスチャを作ったときと話したときとの間の遅延、および/またはハードウェアによって生じたか、ソフトウェアによって生じたかを問わず、処理デバイス100もしくはジェスチャ検出センサ122の既知の遅れに起因し得る。いくつかの実施形態では、処理構成要素106は、口述された言葉をユーザが訂正する頻度、ユーザ120が話すスピード、およびユーザ120がジェスチャを作ったときからユーザ120が話したときの間またはその逆の遅延の大きさなど、ユーザ120の口述パターンを学習するように構成され得る。この学習に基づいて、処理構成要素106は、適応レイテンシまたは学習されたレイテンシを提供することが可能であり得る。いくつかの実施形態では、時間間隔は、レイテンシを考慮することだけではなく、ユーザ120に、言ったことまたは解釈されたことを訂正するための時間間隔を提供することでもあり得る。

いくつかの実施形態に従って、マイクロフォン118によって検出された音響波形は、ジェスチャ検出センサ122によって検出されたジェスチャに基づいて、検出された音響波形が1つまたは複数のモードで処理され得るようにバッファリングされ得る。たとえば、第1のモードでは、バッファリングされた音響波形は、ディスプレイ構成要素114によって表示されるテキストに対応し得る第1の意味を有するように、処理構成要素によって処理され得る。ジェスチャ検出センサ122によって検出されたジェスチャによってアクティブ化された第2のモードでは、バッファリングされた音響波形は、第1の意味とは異なる第2の意味を有し得る。いくつかの実施形態によれば、第2のモードは、処理構成要素106によって実行されるべきコマンドまたはアクションに対応し得る。いくつかの実施形態では、バッファリングされた音響波形の一部は、第2のモードにおいて異なる意味を有さず、第1のモードの場合と同じように処理される。バッファリングされた音響波形は、対応する時間にジェスチャ検出センサ122によってジェスチャが検出されたかどうかに基づいて第1のモードまたは第2のモードでバッファリングされた音響波形を処理構成要素106が選択的に処理するように、音響波形に関連するタイムスタンプに従って処理構成要素106によって処理され得る。いくつかの実施形態では、第2のモードでの処理は、音響波形を、テキストの代わりに句読点などの異なる出力と相関させることを含む。他の実施形態では、音響波形は、同じ出力と相関させられるが、出力は、第2のモードで変換され、たとえば、「period」という言葉を句読記号に変換する。いくつかの実施形態では、音響波形は、ユーザが音響波形の取り消し、編集および/または訂正を行えるように、解釈される前に短時間だけバッファに記憶される。

図2Aに示すように、マイクロフォン118によって検出されたユーザ120からの音響波形に基づいて、ディスプレイ構成要素114は、「Send Message to Matt」のテキストを表示する。しかしながら、センサ122によって検出され得るジェスチャをユーザ120が作っているので、処理構成要素106は、合理的な許容範囲内で、ユーザ120がジェスチャを作っている時間と音響波形が検出される時間とを、検出されたジェスチャのタイムスタンプと検出された音響波形のタイムスタンプとを比較することによって突き合わせ、検出された音響波形を第2のまたは代替のモードに従って処理することができ、これにより、検出された音響波形の一部に代替意味を与え得る一方、検出された音響波形の一部は同じ意味を有し得る。いくつかの実施形態に従って、図2Aに示す検出された音響波形は、口述された言葉「Send Message to Matt」に対応する検出された音響波形が、Mattという名の連絡先にメッセージを送るためのコマンドとして処理されるように、処理され得る。

いくつかの実施形態では、ユーザ120によって生成された、ユーザによって口述された言葉に対応し得る音響波形は、両側に短い休止がある1つまたは複数のほぼ連続的な音響波形として表される言葉ごとに、リアルタイムまたはほぼリアルタイムで処理され得る。いくつかの実施形態では、音響波形は、所定の時間量だけ続く音響波形のセグメントが一度に処理されるように、セグメントで処理され得る。いくつかの実施形態では、所定の時間量は、ユーザ120が一言話すのに要する平均時間を表すように選択され得る。所定の時間量は適応的で、ユーザ120がデバイス100を使用するのに伴って、学習を通して変化し得る。いくつかの実施形態では、音響波形は、言葉またはフレーズの間の休止を示している短い休止が検出された後に処理され得る。いくつかの実施形態では、音響波形は、1秒ごとまたは5秒ごとなど周期的に処理される。いくつかの実施形態では、検出された音響波形はバッファリングされ得る。いくつかの実施形態では、ジェスチャ検出センサ122によるジェスチャの検出により、すべての音響波形はバッファに取り入れられるか、またはバッファから取り出され、次いで意味を判断するために処理構成要素106によって処理され得る。たとえば、入ってくる音響波形はバッファに記憶される一方で、ジェスチャがジェスチャ検出センサ122によって検出されたときに、バッファに記憶された音響波形がバッファから取り出され、第2のモードで処理され、第2の意味に関連付けられ得る。次いで、ジェスチャがジェスチャ検出センサ122によってこれ以上検出されなくなったとき、または第2のモードでの処理を停止して第1のモードで処理するよう処理構成要素106にシグナリングする後続のジェスチャが検出されたときに、バッファに記憶された音響波形がバッファから取り出され、第1のモードで処理され、第1の意味に関連付けられる。いくつかの実施形態では、音響波形の列の両端にあるタイムスタンプを使用して、音響波形の列内の個々の言葉または音に関連付けられ得るタイムスタンプを補間することができる。

図2Bに示すように、ユーザ120は、ジェスチャを作るのを停止しており、したがって、ユーザがジェスチャを作るのを停止した時間は、センサ122からの情報に基づいてシステムクロック124によって提供された時間に従ってタイムスタンプされることになる。ユーザ120は、ジェスチャを止めた後も話し続け、「Matt can you send me the message Charles forwarded you(マット、チャールズがあなたに転送したメッセージを私に送ってくれませんか)」と言うことがある。処理構成要素106は、この言葉列に対応する検出された音響波形に関連する電気信号を受信し、検出された音響波形に関連するタイムスタンプを分析して、同時にジェスチャ検出センサ122によってジェスチャも検出されたかどうかを判断することになる。ユーザ120はジェスチャを作っていないので、ジェスチャ検出センサ122によってジェスチャが検出されておらず、検出された音響波形でのタイムスタンプに対応するタイムスタンプを有する検出されたジェスチャがまったくなく、処理構成要素106は、検出された音響波形を第1のモードで処理することになり、この場合に検出された音響波形に関連する電気信号に第1の意味が与えられることになる。第1の意味は、検出された音響波形に関連するテキストであり得る。

図2Cは、図2Aおよび図2Bの結果を示している。図2Cに示すように、デバイス100のディスプレイ構成要素114は、「Matt can you send me the message Charles forwarded you」というテキストを含むMattへのメッセージを表示している。ジェスチャを使用して第1の通常モードと代替意味を与える第2の代替モードとの間で切り替えることをしなければ、検出された音響波形は、図2Cに示すものとは合致しない、いくつかの異なる形で処理されていた可能性がある。たとえば、処理構成要素106は、「send(送る)」、「message(メッセージ)」または「forwarded(転送した)」における「forward(転送する)」という言葉のいずれかをコマンドとして処理し、その結果、不正確なメッセージが送られたか、または転送された可能性がある。しかしながら、検出されたジェスチャを検出された音響波形と相関させ、検出されたジェスチャのタイムスタンプを検出された音響波形のタイムスタンプと突き合わせることによって、処理構成要素106は、いつユーザ120が検出された音響波形を、検出された音響波形に代替意味を与える代替モードで処理されることを望んでいるか、およびいつユーザが検出された音響波形を、検出された音響波形に第1の通常の意味を与える第1の通常モードで処理されることを望んでいるかを理解する。

図3A〜図3Fは、いくつかの実施形態に従った、検出されたジェスチャに基づいて、検出された音響波形を第1のモードおよび第2のモードで処理するシステムの一例を示している。図3Aに示すように、ユーザ120は、言葉列をデバイス100に向かって口述し、ジェスチャを使用して、第1のまたは通常のモードと第2の代替モードとの間で切り替えることがあり、この場合に検出された音響波形は代替意味を与えられ得る。いくつかの実施形態に従って、ユーザ120からの検出された音響波形に関連する電気信号は、辞書中の1つまたは複数の意味に関連付けられることがあり、この場合にユーザは、ジェスチャを使用することによって第1のまたは通常の意味から代替意味に切り替えることができる。第1のまたは通常の意味は、言葉列における言葉の検出された音響波形に対応する電気信号に関連するテキストに対応することができ、代替意味は、コマンドまたは句読点に対応することができる。たとえば、マイクロフォン118は、システムクロック124によって決定されたタイムスタンプで、電気信号を生成するユーザ120からの音響波形を検出する。第1のモードでは、処理構成要素106は、図3Aに示すように「E-mail(電子メール)」というテキストを生成するために電気信号を処理し得る。一方、ジェスチャ検出センサ122は、システムクロック124によって決定されたタイムスタンプを有するジェスチャをユーザ120が作っていることを検出する。処理構成要素106は、検出されたジェスチャに対応する信号を受信し、タイムスタンプを認識し、代替モードに従って同じタイムスタンプの頃にマイクロフォン118からの電気信号を処理する。いくつかの実施形態に従って、「E-mail」の代替モードが、電子メールメッセージを生成するためのコマンドとして処理構成要素106によって処理され得る。

図3Bに示すように、マイクロフォン118は、システムクロック124によって決定されたタイムスタンプで、「Luke at home」というテキストに対応するものとして処理され得る電気信号を生成する言葉列からの音響波形を検出する。対応するタイムスタンプでジェスチャ検出センサ122によってジェスチャが検出されていないので、処理構成要素106は、第1のまたは通常のモードに従って電気信号を処理し、通常の意味を言葉列に適用することになる。図3Cに示すように、マイクロフォン118は、システムクロック124によって決定されたタイムスタンプの頃に、通常モードで「at」という言葉のテキストに対応するものとして処理され得る電気信号を生成するユーザ120によって話された言葉からの音響波形を検出する。一方、ジェスチャ検出センサ122も、対応するタイムスタンプの頃にジェスチャを検出しており、処理構成要素106は、代替モードに従って電気信号を処理することになる。いくつかの実施形態に従って、代替モードでは、「at」という言葉の意味は句読点、すなわち「@」であり得る。

図3Dに示すように、マイクロフォン118は、システムクロック124によって決定されたタイムスタンプで、通常モードで「blue dot」というテキストに対応するものとして処理され得る電気信号を生成する言葉列からの音響波形を検出する。対応するタイムスタンプの頃にジェスチャ検出センサ122によってジェスチャが検出されていないので、処理構成要素106は、第1のまたは通常のモードに従って電気信号を処理することになる。図3Eに示すように、マイクロフォンは、システムクロック124によって決定されたタイムスタンプで、「dot com」という言葉のテキストに対応するものとして処理され得る電気信号を生成するユーザ120によって話された言葉からの音響波形を検出する。一方、ジェスチャ検出センサ122も、対応するタイムスタンプの頃にジェスチャを検出しており、処理構成要素106は、代替モードに従って電気信号を処理することになる。いくつかの実施形態に従って、「dot」という言葉の代替モードにおける意味は、句読点、すなわち「.」として処理されることがあり、「com」という言葉の代替モードにおける意味はないことがある。

図3Fは、図3A〜図3Eの結果を示している。図3Fに示すように、音響検出とジェスチャ検出とを組み合わせてモードを切り替えることによって、デバイス100は、電子メールアドレス「Lukeathome@bluedot.com」に送られる電子メールを生成している。しかしながら、従来のシステムでは、「at」および「dot」という言葉が言葉であるか、それとも句読点であるかを推測するのが難しいことがある。しかしながら、検出されたジェスチャを検出された音響波形と相関させ、検出された音響波形と検出されたジェスチャのタイムスタンプを突き合わせることによって、処理構成要素106は、いつユーザ120が検出された音響波形を、検出された音響波形に代替意味を与える代替モードで処理されることを望んでいるか、およびいつユーザが検出された音響波形を、検出された音響波形に通常の意味を与える第1のまたは通常のモードで処理されることを望んでいるかを理解する。

図4は、いくつかの実施形態に従った、検出された音響波形を第1のモードおよび第2のモードで処理する方法を示すフローチャートである。例示の目的で、図4は図1、図2A〜図2C、および図3A〜図3Fのいずれかを参照しながら説明される。図4に示す方法は、デバイス100の処理構成要素106における1つまたは複数のプロセッサが実行するためのコンピュータ可読命令で具現化され得る。図4に示すように、マイクロフォン118は、ユーザ120からの音響波形入力を検出し得る(402)。いくつかの実施形態によれば、音響波形入力は、音声口述または音声コマンドデバイス100の目的上、デバイス100に向かって話されたユーザ120の音声であり得る。マイクロフォン118によって検出された音響波形は、意味の辞書に基づいて電気信号の意味を判断するためにメモリ108、110および112のいずれかにおける命令に従って処理構成要素106によって処理され得る電気信号を生成し得る。検出された音響波形入力は、次いで、システムクロック124から受信された時間に従ってタイムスタンプされ得る(404)。処理構成要素106は、次いで、検出された音響波形を通常のまたは第1のモードに従って処理し得る。いくつかの実施形態によれば、第1のモードは、音声口述モードに対応することができ、音声口述モードでは、検出された音響波形が、検出された音響波形に関連する第1の意味に基づいて、ディスプレイ構成要素114によって表示されるテキストに変換される。

ジェスチャ検出センサ122は、次いで、タッチレスジェスチャを検出し得る(406)。検出されたジェスチャは、次いで、システムクロック124から受信された時間に従ってタイムスタンプされ得る(408)。処理構成要素106は、次いで、音響波形のタイムスタンプが検出されたジェスチャのタイムスタンプとほぼ一致するときに、検出された音響波形を第2のモードで処理し得る(410)。いくつかの実施形態によれば、検出された音響波形入力を第2のモードで処理することは、検出された音響波形によって生成された電気信号に対応する第2の意味が処理構成要素106によって使用されるように、検出された音響波形入力をコマンドまたは句読点モードなどの第2のモードで処理することを含み得る。第2の意味は、コマンド、句読点、または言葉の同音異義語に対応し得る。

その上、異なるモードは異なる検出されたタッチレスジェスチャに対応し得る。たとえば、いくつかの実施形態において、手のひらがデバイス100に面する形でユーザ120が腕を上げることを含む確保ジェスチャ(engagement gesture)は、ジェスチャ検出センサ122によって検出されたときに、デバイス100の処理構成要素106に、検出された音響波形をコマンドまたは句読点モードで処理するよう命令し得る。いくつかの実施形態において、ユーザ120が手でジェスチャ検出センサ122を覆うことを含むカバージェスチャは、デバイス100の処理構成要素106に、検出された音響波形をコマンドまたは句読点モードで処理するよう命令し得る。これらのジェスチャはまた、デバイス100によって、検出された音響波形をコマンドまたは句読点モード以外のモードで処理するよう処理構成要素106に命令するものとして理解され得る。他のモードは訂正モードを含むことができ、このモードではユーザ120は、ユーザ120によって話された検出された音響波形に対応するディスプレイ構成要素114上に表示される1つまたは複数の言葉、文字、記号または他のテキストを訂正したいことを示すジェスチャを作ることができる。たとえば、いくつかの実施形態では、センサ122によって検出された短い左スワイプは、処理構成要素106によって、以前の言葉に上書きするものと解釈され得る。別のモードは、文字または音声の発音モードを含むことができ、このモードではユーザ120は、たとえば、正しいまたは許容されるスペルではなく、検出された音響波形の文字または音声の発音に関連するスペルを欲していることを示すジェスチャを作ることができる。これらのモードをアクティブ化するために使用されるジェスチャは、上記で説明したような確保ジェスチャもしくはカバージェスチャであってよく、または異なるジェスチャであってよい。他のジェスチャは、ジェスチャ検出センサ122が検出するようにプログラムされ得る手振り、手の動き、または他の意図的な動きを含み得る。

図5は、いくつかの実施形態に従った、検出された音響波形を第1のモードおよび第2のモードで処理する方法を示すフローチャートである。例示の目的で、図5は図1、図2A〜図2C、および図3A〜図3Fのいずれかを参照しながら説明される。図5に示す方法は、デバイス100の処理構成要素106における1つまたは複数のプロセッサが実行するためのコンピュータ可読命令で具現化され得る。図5に示すように、マイクロフォン118は、ユーザ120からの最初の音響波形入力を検出し得る(502)。いくつかの実施形態によれば、音響波形入力は、音声口述または音声コマンドデバイス100の目的上、デバイス100に向かって話されたユーザ120の音声であり得る。マイクロフォン118によって検出された音響波形は、意味の辞書に基づいて電気信号の意味を判断するためにメモリ108、110および112のいずれかにおける命令に従って処理構成要素106によって処理され得る電気信号を生成し得る。最初の音響波形入力が検出されたとき、デバイス100は、ジェスチャ検出センサ122をアクティブ化することによってジェスチャ検出を開始することができ(504)、またはいくつかの実施形態では、ジェスチャ検出はすでにオンであり得る。いくつかの実施形態によれば、ジェスチャ検出センサ122は、最初の音響波形入力が検出されるまで、電力を節約するために非アクティブのままであり得る。検出された音響波形入力は、次いで、システムクロック124から受信された時間に従ってタイムスタンプされ得る(506)。

ジェスチャ検出センサ122は、ジェスチャが検出されたかどうかを判断し得る(508)。ジェスチャが検出されていない場合、処理構成要素106は検出された音響波形入力を第1のモードで処理し得る(510)。いくつかの実施形態によれば、検出された音響入力を第1のモードで処理することは、検出された音響波形によって生成された電気信号に対応する第1の意味が処理構成要素106によって使用されるように、検出された音響波形入力を処理することを含み得る。ジェスチャ検出センサ122によってジェスチャが検出された場合、検出されたジェスチャは、システムクロック124から受信された時間に従ってタイムスタンプされる(512)。処理構成要素106は、次いで、検出されたジェスチャの時間から、検出された音響波形を第2のモードで処理し得る(514)。いくつかの実施形態によれば、検出された音響波形入力を第2のモードで処理することは、検出された音響波形によって生成された電気信号に対応する第2の意味が処理構成要素106によって使用されるように、検出された音響波形入力を第2のモードに従って処理することを含み得る。第2のまたは代替の意味は、コマンド、句読点、または言葉の同音異義語に対応し得る。第2のまたは代替の意味は、コマンド、句読点、または言葉の同音異義語に対応し得る。第2の意味はまた、ユーザが以前の言葉もしくは文字を訂正することを可能にすること、またはユーザが言葉の文字もしくは音声のスペルを使用することを可能にすることができる。

ジェスチャ検出センサ122は、ジェスチャが検出されたかどうかを判断する(516)ことを継続し、ジェスチャが検出される限り、ジェスチャはタイムスタンプされ(512)、処理構成要素106は、検出されたジェスチャの時間から、音響波形入力を第2のモードで処理する(514)ことになる。ジェスチャが検出されていない場合、ジェスチャがこれ以上検出されなくなった時間がタイムスタンプされ(518)、処理構成要素106は、ジェスチャが検出されなくなった時間から、音響波形入力を第1のモードで処理する(520)ことを開始することになる。いくつかの実施形態によれば、検出された音響入力を第1のモードで処理することは、検出された音響波形によって生成された電気信号に対応する第1の意味が処理構成要素106によって使用されるように、検出された音響入力を処理することを含み得る。処理構成要素は、ジェスチャが検出される(508)まで、音響波形入力を第1のモードで処理する(510)ことを継続することになる。いくつかの実施形態によれば、マイクロフォン118によって音響波形入力がこれ以上検出されなくなった後、ジェスチャ検出センサ122によるジェスチャ検出は、電力を節約するために停止され得る。

図6A〜図6Gは、いくつかの実施形態に従った、検出されたジェスチャに基づいて、検出された音響波形を第1のモードおよび第2のモードで処理するシステムの一例を示している。図6A〜図6Gに示すシステムでは、デバイス100が、ジェスチャが検出された後に、検出された音響波形を第2のモードで処理し、後続のジェスチャが検出されるまで、検出された音響波形を第2のモードで処理し続けることを除いて、図6A〜図6Gに示す例示的なシステムは、図2A〜図2Cおよび図3A〜図3Fに示すシステムと同様である。図6Aに示すように、ユーザ120は、システムクロック124によって決定されたタイムスタンプを有する、ジェスチャ検出センサ122によって検出されるジェスチャを作ることができる。図6A〜図6Gに示す例によれば、デバイスの処理構成要素106は、検出されたジェスチャのタイムスタンプの頃から後続の検出されるジェスチャのタイムスタンプの頃まで、検出された音響波形を第2のモードで処理することができる。

図6Bに示すように、マイクロフォン118は、システムクロック124によって決定されたタイムスタンプで、電気信号を生成するユーザからの音響波形を検出し得る。「E-mail(電子メール)」、「John(ジョン)」、「at」、「doe」、「dot」および「com」という言葉に対応する検出された音響波形は、メモリ108〜112のいずれかにおける辞書において1つまたは複数の意味を有し得る。ジェスチャが、検出された音響波形のタイムスタンプの前であるタイムスタンプで、後続ジェスチャの検出前に検出されているので、音響波形は第2のモードで処理されてよく、第2の意味を与えられてよい。第2の意味は、コマンドまたは句読点であり得る。いくつかの実施形態によれば、第2のモードにおいて、「E-mail」という言葉は、後に続く電子メールアドレスへの電子メールを生成するためのコマンドの意味を与えられ得る。「John」という言葉は、第2の意味を有しないことがあり、第1のモードの場合と同じ意味を第2のモードにおいて与えられ得る。「at」という言葉は、第2のモードにおいて句読点「@」としての意味を与えられ得る。「doe」という言葉は、第2の意味を有しないことがあり、第1のモードの場合と同じ意味を第2のモードにおいて与えられ得る。「dot」という言葉は、第2のモードにおいて句読点「.」としての意味を与えられ得る。「com」という言葉は、第2の意味を有しないことがあり、第1のモードの場合と同じ意味を第2のモードにおいて与えられ得る。

図6Cに示すように、ジェスチャ検出センサ122によって検出され得、システムクロック124によるタイムスタンプを有し得るジェスチャを、ユーザ120は作ることができる。デバイス100の処理構成要素106は、検出されたジェスチャに関連するタイムスタンプから、検出された音響波形が処理構成要素106によって第1の意味を与えられるように、後続の検出された音響波形を第1のモードに従って処理することができる。図6Dに示すように、マイクロフォン118は、システムクロック124によって決定されたタイムスタンプで、電気信号を生成するユーザからの音響波形を検出し得る。「John」、「please(〜してください)」、「e-mail(メールする)」、「me(私に)」、「the」、「spreadsheet(スプレッドシート)」および「for(〜に関する)」、「the」、「upcoming(次の)」および「period(期間)」という言葉に対応する検出された音響波形は、メモリ108〜112のいずれかにおける辞書において1つまたは複数の意味を有し得る。後続のジェスチャが、検出された音響波形のタイムスタンプの前であるタイムスタンプで検出されたので、音響波形は第1のモードで処理されてよく、第1の意味を与えられてよい。第1の意味は、ディスプレイ構成要素114によって表示されるテキストに対応し得る。

図6Eに示すように、ジェスチャ検出センサ122によって検出され得、システムクロック124によるタイムスタンプを有し得るジェスチャを、ユーザ120は作ることができる。デバイス100の処理構成要素106は、検出されたジェスチャに関連するタイムスタンプから、検出された音響波形が処理構成要素106によって第2の意味を与えられるように、後続の検出された音響波形を第2のモードに従って処理することができる。図6Eに示すように、マイクロフォン118は、システムクロック124によって決定されたタイムスタンプで、電気信号を生成するユーザからの音響波形を検出し得る。「period」という言葉に対応する検出された音響波形は、メモリ108〜112のいずれかにおける辞書において1つまたは複数の意味を有し得る。ジェスチャが、検出された音響波形のタイムスタンプの前であるタイムスタンプで、後続ジェスチャが検出される前に検出されたので、音響波形は第2のモードで処理されてよく、第2の意味を与えられてよい。第2の意味は、検出された音響波形に関連する句読点に対応し得る。

図6Gは、図6A〜図6Fの結果を示している。図6Gに示すように、「John please e-mail me the spreadsheet for the upcoming period(ジョン、次の期間に関するスプレッドシートを私にメールしてください)」というメッセージを含むjohn@doe.comへの電子メールメッセージが作成されている。図6A〜図6Gに示すように、「e-mail」および「period」という言葉は、少なくとも、第1のモードにおける第1の意味および第2のモードにおける第2の意味を有することができ、この場合にユーザ120は、ジェスチャを使用して、モード、したがって意味を指定することができる。図6A〜図6Gは、テキストに対応する第1のモードおよびコマンドまたは句読点に対応する第2のモードに関して説明されているが、追加のモードが含まれてもよい。追加のモードは、訂正モードまたは文字もしくは音声の発音モードを含み得る。これらの追加のモードは、記述した第2のモードの代替または追加であり得る。

図7は、いくつかの実施形態に従った、検出された音響波形を第1のモードおよび第2のモードで処理する方法を示すフローチャートである。例示の目的で、図7は図1および図6A〜図6Gのいずれかを参照しながら説明される。図7に示す方法は、デバイス100の処理構成要素106における1つまたは複数のプロセッサが実行するためのコンピュータ可読命令で具現化され得る。図7に示すように、マイクロフォン118は、ユーザ120からの最初の音響波形入力を検出し得る(702)。いくつかの実施形態によれば、音響波形入力は、音声口述または音声コマンドデバイス100の目的上、デバイス100に向かって話されたユーザ120の音声であり得る。マイクロフォン118によって検出された音響波形は、意味の辞書に基づいて電気信号の意味を判断するためにメモリ108、110および112のいずれかにおける命令に従って処理構成要素106によって処理され得る電気信号を生成し得る。最初の音響波形入力が検出されたとき、デバイス100は、ジェスチャ検出センサ122をアクティブ化することによってジェスチャ検出を開始することができ(704)、またはいくつかの実施形態では、ジェスチャ検出はすでにオンであり得る。いくつかの実施形態によれば、ジェスチャ検出センサ122は、最初の音響波形入力が検出されるまで、電力を節約するために非アクティブのままであり得る。検出された音響波形入力は、次いで、システムクロック124から受信された時間に従ってタイムスタンプされ得る(706)。

ジェスチャ検出センサ122は、ジェスチャが検出されたかどうかを判断し得る(708)。ジェスチャが検出されていない場合、処理構成要素106は検出された音響波形入力を第1の、通常のおよび/またはデフォルトのモードで処理し得る(710)。いくつかの実施形態によれば、検出された音響入力を第1のモードで処理することは、検出された音響波形によって生成された電気信号に対応する第1の意味が処理構成要素106によって使用されるように、検出された音響波形入力を処理することを含み得る。ジェスチャ検出センサ122によってジェスチャが検出された場合、検出されたジェスチャは、システムクロック124から受信された時間に従ってタイムスタンプされる(712)。処理構成要素106は、次いで、検出されたジェスチャのタイムスタンプから、検出された音響波形を第2のモードで処理し得る(714)。いくつかの実施形態によれば、検出された音響波形入力を第2のモードで処理することは、検出された音響波形によって生成された電気信号に対応する第2の意味が処理構成要素106によって使用されるように、検出された音響波形入力を第2のモードに従って処理することを含み得る。第2のまたは代替の意味は、コマンド、句読点、または言葉の同音異義語に対応し得る。第2の意味はまた、ユーザが以前の言葉もしくは文字を訂正することを可能にすること、またはユーザがたとえば言葉の文字もしくは音声のスペルを使用することを可能にすることができる。

ジェスチャ検出センサ122は、ジェスチャが検出されたかどうかを判断する(716)ことを継続し、処理構成要素106は、検出されたジェスチャの時間から、音響波形入力を第2のモードで処理する(714)ことになる。図7に示す実施形態では、音響波形入力を第2のモードで処理することは、後続のジェスチャが検出されるまで継続し得る。後続のジェスチャが検出された場合、後続のジェスチャが検出された時間がタイムスタンプされ(718)、処理構成要素106は、後続のジェスチャが検出された時間から、音響波形入力を第1のモードで処理する(720)ことを開始することになる。いくつかの実施形態によれば、検出された音響入力を第1のモードで処理することは、検出された音響波形によって生成された電気信号に対応する第1の意味が処理構成要素106によって使用されるように、検出された音響入力を処理することを含み得る。処理構成要素106は、別のジェスチャが検出される(708)まで、音響波形入力を第1のモードで処理する(710)ことを継続し得る。図7に示す方法は、ユーザ120がジェスチャにより第2のモードに切り替え、次いでジェスチャ、たとえば同じジェスチャまたはモード終了ジェスチャなどの別のジェスチャにより第1のモードに切り替え復帰することを可能にし得る。図7は、ジェスチャにより第1のモードと第2のモードとの間で切り替えることについて説明しているが、ジェスチャ検出センサによって、追加のモードに切り替えるための追加のジェスチャが検出されることがある。

たとえば、追加のモードは訂正モードを含み得る。たとえば、ユーザ120は、訂正モードに入ることが可能であり得、いくつかの言葉が、訂正モードにおいて、ディスプレイ構成要素114上にテキストとして表示されている言葉をユーザが訂正することを可能にする意味を与えられる。そのような言葉としては、「delete(削除する)」、「fix(修正する)」、「I mean(私が言いたいことは)」、「I meant(私が言いたかったことは)」、「oops(おっと)」、「correct(訂正する)」、「back(戻る)」、および「replace(置換する)」があり得る。これらの言葉は、検出されたジェスチャによって示された訂正モードで処理されるとき、以前の言葉を削除または置換する第2の意味を与えられ得る。いくつかの実施形態では、これらの言葉は、一定のジェスチャ、たとえば短い左スワイプジェスチャを伴うときに訂正モードで処理されるにすぎない。

追加のモードは、文字または音声の変換モードを含み得る。たとえば、いくつかの検出された音響波形は、文字または音声のスペルに対応する、第1のまたは通常のスペルとは異なるスペルを有し得る。いくつかの実施形態では、文字または音声のスペルは、処理構成要素106によって自動的に訂正され、第1のまたは通常のスペルを与えられ得る。たとえば、ユーザがスペイン語の誤った発音として、または英語のスラングとして「playa」と言った場合、処理構成要素は、正しい英語の「player」に対応するこの言葉のスペルを有し得る。この言葉は、スラングまたはビーチを意味するスペイン語である第2のスペルを有することができ、ユーザ120はジェスチャを作ることによって、それが所望のスペルであることを具体的に示すことができる。

これらの追加のモードは、図で言及されるような第2のモード、または第3の、第4の、もしくは任意の追加モードに対応し得る。いくつかの実施形態に従って、検出された音響波形に対応する電気信号は、メモリ108〜112のいずれかに記憶された辞書において1つまたは複数の意味を与えられ得る。いくつかの音響波形は2つの意味を有することがあり、この場合にはジェスチャが、これらの意味の間で切り替えるために使用され得る。いくつかの音響波形は複数の意味を有することがあり、この場合には複数のジェスチャが、これらの意味の間で切り替えるために使用され得る。意味は、上述したように句読点、コマンド、訂正、および文字または音声の意味を含み得る。意味はまた、いくつかの言葉に対応するグループに対応し得る。たとえば、「friends(友人)」という言葉は、ディスプレイ構成要素114上に言葉のテキストを表示する第1の意味を有し得る。この言葉は、友人とラベル付けされている連絡先のグループを指す第2の意味を有することもあり、それにより、ユーザ120がジェスチャを作っていて、「e-mail friends(友人にメールする)」と言っていることが、「friends」とラベル付けされたすべての連絡先への電子メールを作成するためのコマンドと解釈され得る。第2のまたは代替の意味は、ユーザ120が言葉またはフレーズに異なる意味を適用し、次いでジェスチャを作ることによって、この意味に切り替えることができるようなユーザ定義のものであってもよい。

本開示による、プログラムコードおよび/またはデータなどのソフトウェアは、非一時的機械可読媒体を含む1つまたは複数の機械可読媒体上に記憶され得る。本明細書で識別されるソフトウェアが、1つまたは複数の汎用または特定目的のコンピュータおよび/またはコンピュータシステム、ネットワーク化されること、および/またはその他の方式などを使用して実装されることが可能であることも企図されている。適用可能な場合に、本明細書で説明する様々なステップの順序が変更され、合成ステップに結合され、かつ/またはサブステップに分割されて、本明細書で説明する機能を提供することがある。

したがって、本明細書で説明する実施形態は、コマンド、句読点またはアクションなどの代替意味を有する代替モードで言葉または言葉列が処理されるべきときをユーザがジェスチャを使用して指定できるようにすることによって、現在の音声口述ソリューションに対する改善をもたらすことができる。その上、言葉およびジェスチャのタイムスタンプを比較することによってモード間で切り替えることによって、本明細書で説明する実施形態は、モードを切り替えるときの精度の向上をもたらし、ユーザがジェスチャを作っているときにもたらすレイテンシを考慮することが可能なシステムおよび方法を提供し得る。上記で提供される例は、例にすぎず、限定的であることは意図されていない。当業者は、本開示の範囲内であることが意図されている、開示する実施形態と整合する他のシステムを容易に考案することができる。したがって、適用形態は以下の特許請求の範囲によってのみ限定される。

100 処理デバイス、デバイス
102 ネットワークインターフェース構成要素
104 システムバス、バス
106 処理構成要素
108 システムメモリ構成要素、メモリ
110 内部メモリ構成要素、メモリ
112 外部またはスタティックメモリ、メモリ
114 ディスプレイ構成要素
116 入力およびナビゲーション制御構成要素、入力およびナビゲーション構成要素
118 マイクロフォン
120 ユーザ
122 ジェスチャ検出センサ、センサ
124 システムクロック

Claims

検出された音響波形を第1のモードおよび第2のモードで処理するためのシステムであって、
1つまたは複数の音響波形を検出するように構成されたマイクロフォンと、
異なる処理モードに対応する1つまたは複数のタッチレスジェスチャを検出するように構成されたジェスチャ検出センサと、
前記マイクロフォンによって検出された前記1つまたは複数の音響波形と、前記ジェスチャ検出センサによって検出された前記1つまたは複数のタッチレスジェスチャとにタイムスタンプを提供するように構成されたシステムクロックであって、前記1つまたは複数のタッチレスジェスチャの前記タイムスタンプは、それぞれの検出されたタッチレスジェスチャの開始時間と終了時間とを示す、システムクロックと、
前記1つまたは複数の音響波形と前記1つまたは複数のタッチレスジェスチャに関する情報とを記憶するように構成されたバッファと、
前記検出された音響波形のタイムスタンプが前記ジェスチャ検出センサによって検出された前記第2のモードに対応する第1のタッチレスジェスチャの第1のタイムスタンプと、前記1つまたは複数のタッチレスジェスチャのうちの1つに関連する第2のタイムスタンプとの間であるときに、前記第2のモードに入るとともに前記第2のモードで前記バッファに記憶された検出された音響波形を選択的に処理するように構成された1つまたは複数のプロセッサと
を含むシステム。
前記1つまたは複数のプロセッサは、検出された音響波形のタイムスタンプが前記第1のタイムスタンプより前であるか、または前記第2のタイムスタンプより後であるとき、前記検出された音響波形を前記第1のモードで処理するようにさらに構成される、請求項1に記載のシステム。
前記第1のモードで処理される検出された音響波形に関する第1の意味および前記第2のモードで処理されるいくつかの検出された音響波形に関する第2の意味を記憶するメモリをさらに含む、請求項1に記載のシステム。
前記第2の意味は、コマンド、句読点、またはアクションのうちの少なくとも1つを含む、請求項3に記載のシステム。
前記第1の意味は、前記検出された音響波形に関連するテキストを含む、請求項4に記載のシステム。
前記ジェスチャ検出センサは、カメラ、超音波トランスデューサ、影検出器、または赤外線センサのうちの少なくとも1つを含む、請求項1に記載のシステム。
ディスプレイをさらに含み、前記ディスプレイは、前記検出された音響波形が前記第2のモードで処理されているときに示すフィードバックを表示するように構成される、請求項1に記載のシステム。
前記1つまたは複数のタッチレスジェスチャの各々は、複数のモードのそれぞれのモードに対応し、
前記1つまたは複数のプロセッサは、前記複数のモードのうちの1つのモードで前記マイクロフォンによって検出された音響波形を、
前記検出された音響波形のタイムスタンプが、前記ジェスチャ検出センサによって検出された、前記1つのモードに対応する前記1つまたは複数のタッチレスジェスチャのうちの1つのタッチレスジェスチャの開始に対応するタイムスタンプと、前記1つのタッチレスジャスチャの最後に対応するタイムスタンプとの間であるときに、または、
前記検出された音響波形のタイムスタンプが、前記1つのタッチレスジェスチャの前記開始に対応する前記タイムスタンプと、次に検出されたタッチレスジェスチャの開始に対応するタイムスタンプとの間であるときに
選択的に処理するように構成される、請求項1に記載のシステム。
前記複数のモードは、訂正モード、コマンドモード、または変換モードのうちの少なくとも1つを含む、請求項8に記載のシステム。
前記検出された音響波形は、前記ジェスチャ検出センサによって検出された前記1つまたは複数のタッチレスジェスチャに基づいて処理するために前記バッファから前記1つまたは複数のプロセッサに提供される、請求項1に記載のシステム。
前記1つまたは複数のプロセッサは、前記マイクロフォンが音響波形を検出したときに、前記ジェスチャ検出センサを使用するジェスチャ検出手順を有効にするように構成される、請求項1に記載のシステム。
前記ジェスチャ検出センサは、前記検出された音響波形が人間の音声であると判断されるまで非アクティブである、請求項11に記載のシステム。
前記第2のモードは、訂正モード、コマンドモード、または変換モードのうちの1つを含む、請求項1に記載のシステム。
前記第1のタッチレスジェスチャの前記第1のタイムスタンプは、前記第1のタッチレスジェスチャの開始に対応し、
前記第2のタイムスタンプは、前記第1のタッチレスジェスチャの終了に対応する、請求項1に記載のシステム。
前記第1のタッチレスジェスチャの前記第1のタイムスタンプは、前記第1のタッチレスジェスチャの開始に対応し、
前記第2のタイムスタンプは、前記第1のモードに対応する次に検出されたタッチレスジェスチャの開始に対応する、請求項1に記載のシステム。
前記1つまたは複数の音響波形の前記タイムスタンプは、言葉の間の休止でキャプチャされる、請求項1に記載のシステム。
前記1つまたは複数の音響波形の前記タイムスタンプは、複数の言葉を含む列の始まりと終わりとでキャプチャされるとともに、個々の言葉のタイムスタンプは、前記列の始まりと終わりとでキャプチャされた前記タイムスタンプを補間することによって決定される、請求項1に記載のシステム。
検出された音響波形を第1のモードおよび第2のモードで処理するための方法であって、
マイクロフォンによって、1つまたは複数の音響波形を検出するステップと、
前記検出された1つまたは複数の音響波形にタイムスタンプするステップと、
1つまたは複数のモードに対応する1つまたは複数のタッチレスジェスチャを、ジェスチャ検出センサによって検出するステップと、
前記検出された1つまたは複数のタッチレスジェスチャの各々の開始時間と終了時間とにタイムスタンプするステップと、
前記1つまたは複数の音響波形と前記1つまたは複数のタッチレスジェスチャに関する情報とをバッファに記憶するステップと、
前記マイクロフォンに結合された1つまたは複数のプロセッサによって、前記音響波形のタイムスタンプが、前記ジェスチャ検出センサによって検出された前記第2のモードに対応する第1のタッチレスジェスチャの第1のタイムスタンプと、前記1つまたは複数のタッチレスジャスチャのうちの1つに関連する第2のタイムスタンプとの間であるときに、前記第2のモードに入るとともに、前記1つまたは複数の音響波形のうちの音響波形を前記第2のモードで選択的に処理するステップと
を含む方法。
前記第1のタッチレスジェスチャの前記第1のタイムスタンプが前記第1のタッチレスジェスチャの開始に対応し、前記第2のタイムスタンプが、前記第1のタッチレスジェスチャの終了、または前記第1のモードに対応する次に検出されたタッチレスジェスチャの開始に対応する、請求項18に記載の方法。
前記音響波形のタイムスタンプが、前記第1のタイムスタンプより前であるか、または前記第2のタイムスタンプより後であるとき、前記音響波形を前記第1のモードで処理するステップ
をさらに含む、請求項18に記載の方法。
前記音響波形を前記第2のモードで処理するステップは、前記音響波形を、前記第1のモードに対応する第1の意味とは異なる意味と相関させるステップを含む、請求項18に記載の方法。
前記第1の意味とは異なる前記意味は、コマンド、句読点、またはアクションのうちの少なくとも1つを含む、請求項21に記載の方法。
前記第1の意味は、前記音響波形に関連するテキストを含む、請求項22に記載の方法。
前記1つまたは複数のタッチレスジェスチャを検出するステップは、前記1つまたは複数のタッチレスジェスチャがカメラ、超音波トランスデューサ、影検出器、または赤外線センサのうちの少なくとも1つを使用して実行されたかどうかを検出するステップを含む、請求項18に記載の方法。
前記音響波形を前記第2のモードで処理するステップは、前記音響波形が前記第2のモードで処理されていることを示す音響または視覚フィードバックを生成するステップを含む、請求項18に記載の方法。
前記1つまたは複数のタッチレスジェスチャの各々は、前記1つまたは複数のそれぞれのモードに対応し、
選択的に処理するステップは、
前記音響波形のタイムスタンプが、前記ジェスチャ検出センサによって検出された前記1つのタッチレスジェスチャの開始に対応するタイムスタンプと、前記1つのタッチレスジェスチャの終了に対応するタイムスタンプとの間であるときに、または、
前記音響波形のタイムスタンプが、前記1つのタッチレスジェスチャの前記開始に対応する前記タイムスタンプと、前記1つまたは複数のタッチレスジェスチャの次に検出されたタッチレスジェスチャの開始に対応するタイムスタンプとの間であるときに、
前記音響波形を、前記1つまたは複数のタッチレスジェスチャのうちの1つのタッチレスジェスチャに対応する前記1つまたは複数のモードのうちのモードで選択的に処理するステップを含む、請求項18に記載の方法。
前記1つまたは複数のタッチレスジェスチャが検出されたときに、前記バッファから前記1つまたは複数の音響波形を提供するステップと
をさらに含む、請求項18に記載の方法。
前記マイクロフォンが音響波形を検出したことに応答して、ジェスチャ検出手順を有効にするステップをさらに含む、請求項18に記載の方法。
1つまたは複数のプロセッサによって実行されたときに、前記1つまたは複数のプロセッサに、検出された音響波形を第1のモードおよび第2のモードで処理するための方法を実行させる命令を含む非一時的コンピュータ可読記憶媒体であって、前記方法は、
1つまたは複数の音響波形を検出するステップと、
前記検出された1つまたは複数の音響波形にタイムスタンプするステップと、
1つまたは複数のモードに対応する1つまたは複数のタッチレスジェスチャを検出するステップと、
前記検出された1つまたは複数のタッチレスジェスチャの各々の開始時間と終了時間にタイムスタンプするステップと、
前記1つまたは複数の音響波形と1つまたは複数のジェスチャに関する情報とをバッファに記憶するステップと、
前記音響波形のタイムスタンプがジェスチャ検出センサによって検出された前記第2のモードに対応する前記1つまたは複数のタッチレスジェスチャの第1のタッチレスジェスチャの第1のタイムスタンプと、前記1つまたは複数のタッチレスジェスチャのうちの1つに関連する第2のタイムスタンプとの間であるときに、前記第2のモードに入るとともに前記1つまたは複数の音響波形のうちの音響波形を前記第2のモードで選択的に処理するステップと
を含む、非一時的コンピュータ可読記憶媒体。
検出された音響波形を第1のモードおよび第2のモードで処理するためのシステムであって、
1つまたは複数の音響波形を検出し、前記1つまたは複数の音響波形にタイムスタンプするための手段と、
1つまたは複数のモードに対応する1つまたは複数のタッチレスジェスチャを検出し、前記検出された1つまたは複数のタッチレスジェスチャの各々の開始時間と終了時間にタイムスタンプするための手段と、
前記1つまたは複数の音響波形と1つまたは複数のジェスチャに関する情報とを記憶するための手段と、
前記音響波形のタイムスタンプが、前記第2のモードに対応する前記1つまたは複数のタッチレスジェスチャの第1の検出されたタッチレスジェスチャの第1のタイムスタンプと、前記1つまたは複数のタッチレスジェスチャのうちの1つに関連する第2のタイムスタンプとの間であるときに、前記第2のモードに入るとともに前記1つまたは複数の音響波形からの音響波形を前記第2のモードで選択的に処理するための手段と
を含むシステム。
前記第1の検出されたタッチレスジェスチャの前記第1のタイムスタンプは、前記第1の検出されたタッチレスジェスチャの開始に対応し、
前記第2のタイムスタンプは、前記第1の検出されたタッチレスジェスチャの終了、または前記第1のモードに対応する次に検出されたタッチレスジェスチャの開始に対応する、請求項30に記載のシステム。
選択的に処理するための前記手段は、前記音響波形のタイムスタンプが前記第1のタイムスタンプより前であるか、または前記第2のタイムスタンプより後であるときに、前記音響波形を前記第1のモードで処理する、請求項30に記載のシステム。
選択的に処理するための前記手段は、前記音響波形を、前記第1のモードに対応する第1の意味とは異なる第2の意味と相関させることによって、前記音響波形を前記第2のモードで処理する、請求項30に記載のシステム。
前記第1の意味とは異なる前記第2の意味は、コマンド、句読点、またはアクションのうちの少なくとも1つを含む、請求項33に記載のシステム。
前記第1の意味は、前記音響波形に関連するテキストを含む、請求項34に記載のシステム。
前記1つまたは複数のタッチレスジェスチャを検出するための前記手段は、カメラ、超音波トランスデューサ、影検出器、または赤外線センサのうちの少なくとも1つを含む、請求項30に記載のシステム。
選択的に処理するための前記手段は、前記音響波形が前記第2のモードで処理されていることを示す音響または視覚フィードバックを生成する、請求項30に記載のシステム。
前記1つまたは複数のタッチレスジェスチャの各々は、前記1つまたは複数のモードのそれぞれのモードに対応し、
選択的に処理するための前記手段は、
前記音響波形のタイムスタンプが、ジェスチャ検出センサによって検出された前記1つのタッチレスジェスチャの開始に対応するタイムスタンプと、前記1つのタッチレスジェスチャの終了に対応するタイムスタンプとの間であるときに、または
前記音響波形のタイムスタンプが、前記1つのタッチレスジェスチャの前記開始に対応する前記タイムスタンプと、前記1つまたは複数のタッチレスジェスチャの次に検出されたタッチレスジェスチャの開始に対応するタイムスタンプとの間であるときに、
前記音響波形を、前記1つまたは複数のタッチレスジェスチャのうちの1つのタッチレスジェスチャに対応する前記1つまたは複数のモードのうちのモードで選択的に処理するための手段を含む、請求項30に記載のシステム。
前記1つまたは複数のタッチレスジェスチャを検出するための前記手段が前記1つまたは複数のタッチレスジェスチャを検出したときに、前記音響波形を記憶するための手段が、前記記憶された音響波形を、選択的に処理するための前記手段に提供する、請求項30に記載のシステム。