JP6001758B2

JP6001758B2 - ユーザからのオーディオ入力

Info

Publication number: JP6001758B2
Application number: JP2015501654A
Authority: JP
Inventors: シェーセレ・エヴァン
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2012-04-27
Filing date: 2012-04-27
Publication date: 2016-10-05
Anticipated expiration: 2032-04-27
Also published as: BR112014018604B1; US9626150B2; TWI490778B; TW201403458A; CN104094192B; BR112014018604A8; JP2015514254A; US20150033130A1; EP2842014A4; WO2013162603A1; EP2842014A1; CN104094192A

Description

本発明は、ユーザからのオーディオ入力を受け付けるコンピューティングデバイスに関する。

ユーザは、デバイスにアクセスしてオーディオ入力等の入力を行うとき、まずコンピューティングデバイスのマウス又はキーボード等の入力コンポーネントを用いてコンピューティングデバイスのオーディオ入力コンポーネントを有効にすることがある。ユーザは、マウス又はキーボードにアクセスを続けて、ユーザからオーディオ入力を受信するためのコンピューティングデバイス上のアプリケーションを起動することができる。ユーザが入力コンポーネントを操作するので、時間を浪費する可能性があり、ユーザがミスをすることによりユーザ体験が苛立たしいものになる可能性がある。

開示される実施形態の様々な特徴及び利点は、添付の図面と併せて、以下の詳細な説明から明らかになるであろう。詳細な説明及び添付の図面はともに、開示される実施形態の特徴を例として示す。

一例による、センサと、出力コンポーネントと、オーディオ入力コンポーネントとを有するコンピューティングデバイスを示す図である。一例による、キューを出力する出力コンポーネントと、コンピューティングデバイスを見ているユーザを検出するセンサとを示す図である。一例による、ユーザからのオーディオ入力を検出する音声アプリケーションのブロック図である。一例による、オーディオ入力を検出する方法を示すフローチャートである。一例による、オーディオ入力を検出する方法を示すフローチャートである。

コンピューティングデバイスは、このコンピューティングデバイスを見ているユーザを検出するための、画像捕捉コンポーネント等のセンサを備える。本出願において、センサがコンピューティングデバイスの方を向いているユーザの顔又は眼を検出する場合、ユーザはコンピューティングデバイスを見ている。ユーザがコンピューティングデバイスを見ている場合、視覚インジケータ等の出力コンポーネント、オーディオ出力スピーカ及び／又は触覚フィードバックモータがユーザにキューを与えることができる。キューは、コンピューティングデバイスがユーザからオーディオ入力を受信する準備ができていることをユーザに通知する視覚キュー、オーディオキュー及び／又は触覚フィードバックキューとすることができる。キューが出力されると、コンピューティングデバイスはセンサを用いて、所定の時間量にわたってコンピューティングデバイス及び／又は出力コンポーネントを見ているユーザを検出することができる。

コンピューティングデバイスが、キューの出力時に、ユーザが所定の時間量にわたってコンピューティングデバイスを見続けていると判断する場合、コンピューティングデバイスは、ユーザがコンピューティングデバイスとのインターフェースを望んでいると確信することができる。次に、コンピューティングデバイスのマイク等のオーディオ入力コンポーネントがユーザからオーディオ入力を受信することができる。１つの実施形態において、オーディオ入力を受信するとき、コンピューティングデバイスはコンピューティングデバイスのリスニングモードを起動して、オーディオ入力コンポーネントを有効にし、ミュート解除し、及び／又は較正して、ユーザからオーディオ入力を受信する。オーディオ入力は、音声コマンド、音声クエリ、及び／又は、ユーザによって生成され、コンピューティングデバイスによって入力として受信される任意の更なるサウンドとすることができる。結果として、ユーザは好都合には、コンピューティングデバイスの入力コンポーネントに物理的にアクセスすることも、その入力コンポーネントを操作することもなく、オーディオ入力を用いてデバイスと対話することができる。

図１は、一例による、センサ１３０、出力コンポーネント１６０及びオーディオ入力コンポーネント１４０を有するコンピューティングデバイス１００を示しており、１つの実施形態において、コンピューティングデバイス１００は、デスクトップ、ラップトップ、ノートブック、タブレット、ネットブック、オールインワンシステム及び／又はサーバとすることができる。別の実施形態において、コンピューティングデバイス１００は、セルラーデバイス、ＰＤＡ（パーソナルデジタルアシスタント）、Ｅ（電子）−リーダ、タブレット、カメラ、及び／又は、センサ１３０、出力コンポーネント１６０、オーディオコンポーネント１４０を含むことができる任意の更なるデバイスとすることができる。

コンピューティングデバイス１００は、コントローラ１２０と、センサ１３０と、出力コンポーネント１６０と、オーディオ入力コンポーネント１４０と、コンピューティングデバイス１００及び／又はこのデバイス１００の１つ又は複数のコンポーネントが互いに通信するための通信チャネル１５０とを含む。１つの実施形態において、コンピューティングデバイス１００は、コンピューティングデバイス１００に含まれるか又はコンピューティングデバイス１００にアクセス可能な不揮発性コンピュータ可読媒体上に記憶される音声アプリケーションも備える。本出願において、音声アプリケーションは、コンピューティングデバイス１００のオーディオ入力１４５を管理するために、独立して及び／又はコントローラ１２０と併せて用いることができるアプリケーションである。本出願において、オーディオ入力１４５は、コンピューティングデバイス１００のための入力として受信される、ユーザからの音声及び／又はサウンドを含む。

オーディオ入力１４５を管理するとき、最初にセンサ１３０を用いて、ユーザがコンピューティングデバイス１００を見ているか否かを検出することができる。本出願において、センサ１３０は画像捕捉コンポーネント及び／又は赤外線コンポーネント等のハードウェアコンポーネントであり、コンピューティングデバイス１００の正面のビューを捕捉して、コンピューティングデバイス１００を見ているユーザを検出することができる。コンピューティングデバイス１００を見ているユーザを検出することは、ユーザの顔がコンピューティングデバイス１００の方を向いているか否かを判断することを含む。１つの実施形態において、コントローラ３２０及び／又は音声アプリケーションは、顔検出技術及び／又は注視検出技術を用いて、ユーザの顔又は眼がコンピューティングデバイス１００を見ているか否かを判断することができる。

ユーザがコンピューティングデバイス１００を見ていることが検出される場合、コントローラ１２０及び／又は音声アプリケーションは、出力コンポーネント１６０に、ユーザにキュー１６５を出力するように命令する。本出願において、キュー１６５は、コンピューティングデバイス１００がユーザからのオーディオ入力１４５を受信する準備ができていることをユーザに通知するための、出力コンポーネント１６０からの信号又は通知である。出力コンポーネント１６０は、ユーザに視覚キュー、オーディオキュー及び／又は触覚フィードバックキューを提供することができるコンピューティングデバイス１００のハードウェアコンポーネントである。１つの実施形態において、出力コンポーネント１６０は、視覚インジケータ、オーディオ出力スピーカ、触覚モータ、及び／又はキュー１６５を出力することができる任意の更なるコンポーネントとすることができる。

コントローラ１１０及び／又は音声アプリケーションは、センサ１３０を用いて、ユーザが所定の時間量にわたってコンピューティングデバイス１００を見ているか否かを検出することができる。所定の時間量は、コントローラ１２０、音声アプリケーション及び／又はユーザによって定義することができる。例えば、所定の時間量は、２分の１秒、２秒、又は任意の更なる時間量であると定義することができる。ユーザがその予め定義された時間量にわたってコンピューティングデバイス１００を見続けていることをセンサ１３０が検出する場合、コントローラ１１０及び／又は音声アプリケーションは、ユーザが所定の時間量にわたってコンピューティングデバイス１００を見ていると判断する。

別の実施形態において、センサ１３０は、所定の時間量にわたってコンピューティングデバイス１００を見ているユーザを検出すると、コンピューティングデバイス１００の出力コンポーネント１６０を見ているユーザを更に検出することができる。コントローラ１２０及び／又は音声アプリケーションは、ユーザの視線を特定して、ユーザがコンピューティングデバイス１００及び／又は出力コンポーネント１６０を見ているか否かを判断することができる。コントローラ１２０及び／又は音声アプリケーションは、顔検出技術及び／又は注視検出技術を用いてユーザの視線を特定することができる。

ユーザが所定の時間量にわたってコンピューティングデバイス１００及び／又は出力コンポーネント１６０を見続けている場合、コントローラ１２０及び／又は音声アプリケーションは、ユーザの意図がコンピューティングデバイス１００と対話することであると判断し、オーディオ入力コンポーネント１４０を用いてユーザからのオーディオ入力１４５を受信することへ進むことができる。本出願において、オーディオ入力コンポーネント１４０は、ユーザからオーディオ入力１４５を受信することができる、マイク等のハードウェアコンポーネントである。

本出願において、オーディオ入力１４５は、ユーザからの可聴音を含み、コントローラ１１０及び／又は音声アプリケーションはこれをコンピューティングデバイス１００の入力として受信することができる。例えば、オーディオ入力１４５は、音声コマンド及び／又はコンピューティングデバイス１００へのクエリとすることができる。１つの実施形態において、オーディオ入力１４５を受信することは、コントローラ１２０及び／又は音声アプリケーションがコンピューティングデバイス１００のリスニングモードを起動することを含む。本出願において、コンピューティングデバイス１００のリスニングモードは、ユーザからオーディオ入力１４５を受信するためのコンピューティングデバイス１００の入力モードに対応し、コンピューティングデバイス１００がリスニングモードにある場合、オーディオ入力コンポーネント１４０は、オーディオ入力１４５を受信するために有効にされ、ミュート解除される。

図２は、一例による、コンピューティングデバイス２００を見ているユーザ２０５をセンサ２３０が検出するのに応じてキュー２６５を出力する出力コンポーネント２６０を示している。本出願において、センサ２３０はコンピューティングデバイス２００のハードウェアコンポーネントであり、コンピューティングデバイス２００を見ているユーザ２０５を検出する。センサ２３０は、画像捕捉コンポーネント、赤外線コンポーネント、及び／又はコンピューティングデバイス２００を見ているユーザ２０５を検出することができる任意の更なるコンポーネントとすることができる。１つの実施形態において、センサ２３０は、コンピューティングデバイス２００の周囲のユーザ２０５の物理的接近も検出することができる。ユーザ２０５の物理的接近は、オーディオ入力コンポーネント２４０からのユーザの位置又は距離に対応する。ユーザ２０５は、コンピューティングデバイス２００と対話し、１つ又は複数のオーディオ入力をコンピューティングデバイス２００に入力することができる任意の人物とすることができる。

センサ２３０は、最初にコンピューティングデバイス２００の正面のビューを捕捉して、ユーザ２０５を検出することができる。ユーザ２０５が検出された場合、コントローラ及び／又は音声アプリケーションは、顔検出技術及び／又は注視検出技術を用いて、ユーザ２０５がコンピューティングデバイス２００を見ているか否かを検出することができる。コントローラ及び／又は音声アプリケーションは、顔検出技術及び／又は注視検出技術を用いて、コンピューティングデバイス２００がユーザ２０５の視線内にあるか否かを判断することができる。コンピューティングデバイス２００がユーザの視線内にある場合、コントローラ及び／又は音声アプリケーションは、ユーザ２０５がコンピューティングデバイス２００を見ていると判断する。

ユーザ２０５がコンピューティングデバイス２００を見ていることが検出される場合、出力コンポーネント２６０は、コンピューティングデバイス２００がユーザ２０５からオーディオ入力を受信する準備ができていることをユーザ２０５に通知するためのキュー２６５を出力することに進む。１つの実施形態において、コントローラ及び／又は音声アプリケーションは、ユーザが所定の時間量にわたってコンピューティングデバイス２００を見続けているか否かを更に判断することができ、その後、出力コンポーネント２６０に、キュー２６５を出力するように命令する。上記で述べたように、所定の時間量は、コントローラ、音声アプリケーション、及び／又はユーザ２０５によって、２分の１秒、２秒及び／又は任意の時間量であると定義することができる。

ユーザ２０５が所定の時間量にわたってコンピューティングデバイス２００を見続けている場合、出力コンポーネント２６０を用いてキュー２６５を出力することができる。本出願において、出力コンポーネント２６０は、視覚インジケータ、表示コンポーネント、オーディオ出力スピーカ及び／又はキュー２６５を出力する触覚モータ等の、コンピューティングデバイス２００のハードウェアコンポーネントである。キュー２６５は、視覚信号、オーディオ信号、触覚フィードバック、及び／又はコンピューティングデバイス２００がオーディオ入力を受信する準備ができていることをユーザ２０５に通知する任意の更なるキュー２６５のうちの少なくとも１つを含む。例えば、視覚信号は点灯している光源とすることができる。オーディオ信号は出力されている可聴トーンとすることができる。触覚フィードバックは１つ又は複数の振動を含むことができる。

１つの実施形態において、出力コンポーネント２６０は、視野が制限された指向性視覚インジケータであり、キュー２６５は、ユーザ２０５の位置に基づいてユーザ２０５に出力される。上記で述べたように、センサ２３０を用いてユーザ２０５の物理的ロケーション又は近接性を検出することができる。指向性視覚インジケータは、限られた視界を有する光源アレイを含むことができる。ユーザ２０５の近接範囲内の光源のうちの１つ又は複数は、ユーザ２０５が見るためのキュー２６５を出力するように点灯することができる。ユーザ２０５の近接範囲外の他の光源は点灯されない。結果として、他の個人がキュー２６５を知覚して、コンピューティングデバイス２００と対話しているユーザ２０５を見ることのないように、キュー２６５の限られた視界内でキュー２６５を出力することによって、ユーザ２０５及びコンピューティングデバイス２００に対するセキュリティを強化させることができる。

出力コンポーネント２６０によってキュー２６５が出力されると、コントローラ及び／又は音声アプリケーションは、ユーザ２０５が出力されているキュー２６５に関連して所定の時間量にわたってコンピューティングデバイス２００を見ているか否かを判断する。本開示において、出力コンポーネント１６０によってキュー２６５が出力されるときに、ユーザ２０５がコンピューティングデバイス２００を見続けている場合、ユーザ２０５はキュー２６５に関連してコンピューティングデバイス２００を見ていると判断することができる。例えば、キュー２６５が出力されるのと並行して、ユーザ２０５が所定の時間量にわたってコンピューティングデバイス２００を見続けている場合、ユーザ２０５は出力されているキュー２６５に関連してコンピューティングデバイス２００を見ていると判断される。

別の実施形態において、コンピューティングデバイス２００を見ることとは対照的に、コントローラ及び／又は音声アプリケーションは、出力されているキュー２６５に関連して所定の時間量にわたって出力コンポーネント２６０を見ているユーザ２０５を検出することができる。他の実施形態において、センサ２３０は、ユーザ２０５の表情の変化又はユーザ２０５からの連続した注視も検出する。表情の変化を検出するとき、センサ２３０は、笑顔、しかめ面、ウィンク、片眉上げ、及び／又はユーザ２０５からの任意の更なる表情変化を検出する。連続注視を検出するとき、センサ２３０は、所定の時間量にわたってコンピューティングデバイス２００又は出力コンポーネント２６０を見続けているユーザ２０５の顔又は眼を検出する。

出力されているキュー２６５に関連してユーザ２０５が所定の時間量にわたってコンピューティングデバイス２００及び／又は出力コンポーネント２６０を見ている場合、コントローラ及び／又は音声アプリケーションは、ユーザがオーディオ入力を用いてコンピューティングデバイス２００と対話することを望んでいると判断する。図２に示すように、オーディオ入力コンポーネント２４０を用いてユーザ２０５からのオーディオ入力を検出することができる。本出願において、オーディオ入力コンポーネント２４０は、コンピューティングデバイス２００のためのオーディオ入力として、音声、サウンド及び／又は雑音を検出する、マイク等のハードウェアコンポーネントである。１つの実施形態において、ユーザ２０５からのオーディオ入力は、コンピューティングデバイス２００が命令又はコマンドを実行するための音声コマンドとすることができる。命令又はコマンドは、アプリケーションを起動若しくは終了すること、ファイルを開くか若しくは閉じること、及び／又は電子メール、アプリケーション及び／又はウェブブラウザへの英数字テキスト入力を命じることとすることができる。

別の実施形態において、オーディオ入力は、コンピューティングデバイス２００からの情報の音声クエリとすることができる。このクエリは、コンピューティングデバイス２００のステータス、局地天気予報、及び／又はコンピューティングデバイス２００若しくは別のデバイスから検索可能な情報に関するクエリとすることができる。センサ２３０は、ユーザ２０５からの音声コマンド及び／又はクエリを捕捉すると、ユーザ２０５の口のビューを更に捕捉することができる。ユーザ２０５の口のビューは、コントローラ及び／又は音声アプリケーションによって、ユーザ２０５からの音声コマンド及び／又はクエリを特定する精度を改善するのに用いることができる。他の実施形態において、ユーザ２０５は、手、身体部分及び／又はアクセサリを用いて、オーディオ入力コンポーネント２４０がオーディオ入力として受信するためのオーディオを作成することができる。

図３は、一例による、ユーザからのオーディオ入力を検出する音声アプリケーション３１０のブロック図を示している。上記で述べたように、音声アプリケーション３１０は独立して、及び／又はオーディオ入力を管理するコントローラ３２０と併せて利用することができる。１つの実施形態において、音声アプリケーション３１０は、コンピューティングデバイスの１つ又は複数のコンポーネント上に埋め込まれるファームウェアとすることができる。別の実施形態において、音声アプリケーション３１０は、コンピューティングデバイスの不揮発性コンピュータ可読メモリからアクセス可能なアプリケーションとすることができる。コンピュータ可読メモリは、デバイスによって又はデバイスと関連して用いるためのアプリケーションを含むか、記憶するか、通信するか、又はトランスポートする有形の装置である。１つの実施形態において、コンピュータ可読メモリは、ハードドライブ、コンパクトディスク、フラッシュディスク、ネットワークドライブ、又はコンピューティングデバイスに結合された任意の他の形態の有形の装置である。

図３に示すように、センサ３３０はコンピューティングデバイスを見ているユーザを検出した。それに応じて、コントローラ３２０及び／又は音声アプリケーション３１０は、出力コンポーネント３６０に、視覚キュー、オーディオキュー及び／又は触覚フィードバックキューをユーザに出力するように命令する。１つの実施形態において、キューが出力されると、コントローラ３２０及び／又は音声アプリケーション３１０は、顔認識技術を用いてユーザを認証することができる。コントローラ３２０及び／又は音声アプリケーション３１０は、センサ３３０に、ユーザの顔の画像を捕捉し、ユーザの顔の画像をコンピューティングデバイスの認識されたユーザの画像と比較するように命令することができる。認識されたユーザの画像は、コンピューティングデバイスのストレージコンポーネント上に、又はコントローラ３２０及び／又は音声アプリケーション３１０にアクセス可能な別のデバイス上に、局所的に記憶することができる。

１つの実施形態において、ユーザの画像が認識されたユーザの画像と合致しない場合、ユーザは認証に失敗し、コントローラ３２０及び／又は音声アプリケーション３１０はコンピューティングデバイスのリスニングモードを無効にする。リスニングモードを無効にするとき、コントローラ３２０及び／又は音声アプリケーション３１０はオーディオ入力コンポーネント３４０を無効にし、オーディオ入力コンポーネント３４０をミュートし、及び／又はユーザからの一切のオーディオ入力を拒否することができる。ユーザの画像が認識されたユーザの画像に合致する場合、ユーザは認証に成功し、コントローラ３２０及び／又は音声アプリケーション３１０は、ユーザが所定の時間量にわたってコンピューティングデバイス又は出力コンポーネントを見続けているか否かを判断することに進む。

ユーザが所定の時間量にわたってコンピューティングデバイス及び／又は出力コンポーネントを見ていると判断される場合、コントローラ３２０及び／又は入力アプリケーション３１０は、ユーザがコンピューティングデバイスとの対話を望んでいると判断し、リスニングモードの起動に進む。別の実施形態において、コントローラ３２０及び／又は音声アプリケーション３１０は、ユーザがコンピューティングデバイス及び／又は出力コンポーネントを見続けているとき、ユーザからの連続した注視又は表情の変化を更に検出することができる。コントローラ３２０及び／又は音声アプリケーション３１０は、連続した注視又は表情の変化を検出することによって、ユーザがコンピューティングデバイスと対話する意図を更に確信することができる。

次に、コントローラ３２０及び／又は音声アプリケーション３１０は、コンピューティングデバイスのリスニングモードを起動することができる。リスニングモードを起動するとき、コントローラ３２０及び／又は音声アプリケーション３１０はオーディオ入力コンポーネント３４０を有効にし、オーディオ入力コンポーネント３４０をミュート解除して、ユーザからオーディオ入力を受信することができる。１つの実施形態において、リスニングモードを起動するとき、コントローラ３２０及び／又は音声アプリケーションはユーザの識別情報に関連付けられた発話プロファイルをロードする。本出願において、発話プロファイルは、コントローラ３２０及び／又は音声アプリケーション３１０がユーザからのオーディオ入力の検出及び認識を改善するのに用いる、ユーザの音声又は発話パターンの情報を含む。情報は、ユーザの音声のピッチ、ユーザが発話する速度、ユーザの発話の告知（annunciation）、及び／又はユーザの音声若しくは発話パターンの任意の追加情報を含むことができる。

１つの実施形態において、コントローラ３２０及び／又は音声アプリケーション３１０はまた、センサ３３０に、オーディオ入力コンポーネント３４０に対するユーザの物理的接近を検出するように命令する。上記で述べたように、ユーザの物理的接近は、オーディオ入力コンポーネント３４０からのユーザの位置又は距離に対応する。ユーザの位置及び距離に基づいて、コントローラ３２０及び／又は音声アプリケーション３１０は、オーディオ入力コンポーネント３４０を較正して、ユーザからのオーディオ入力を検出する精度を改善することができる。オーディオ入力コンポーネント３４０の較正は、オーディオ入力コンポーネント３４０に、ユーザの位置からのオーディオ入力を受信するように指示することを含むことができる。別の実施形態において、オーディオ入力コンポーネント３４０の較正は、ユーザの位置及び／又は距離に基づいて、雑音フィルタリングアルゴリズム又は雑音除去アルゴリズムを適用することを含むことができる。

ユーザからのオーディオ入力を検出することに応じて、コントローラ３２０及び／又は音声アプリケーション３１０は、ユーザからのオーディオ入力に関連付けられたコンピューティングデバイスのコマンド、命令、入力、及び／又はクエリを特定する。１つの実施形態において、オーディオ入力コンポーネント３４０によってオーディオ入力が検出されるとき、センサ３３０はユーザの口のビューも捕捉することができる。ユーザの口のビューを捕捉することによって、オーディオ入力に対応するコンピューティングデバイスのコマンド、命令、及び／又はクエリを特定する精度を改善することができる。ユーザの口のビューをオーディオ入力コンポーネント３４０のプロンプトとして用いて、ユーザからのオーディオ入力の受信を開始することもできる。

図４は、一例による、オーディオ入力を検出する方法を示すフローチャートである。最初に、４００において、画像捕捉コンポーネント等におけるセンサが、コンピューティングデバイスを見ているユーザを検出することができる。ユーザがコンピューティングデバイスを見ている場合、４１０において、コントローラ及び／又は音声アプリケーションは、視覚インジケータ、オーディオスピーカ、及び／又は触覚モータ等の出力コンポーネントに、視覚キュー、オーディオキュー及び／又は触覚フィードバックキューを出力するように命令することができる。このキューは、コンピューティングデバイスがユーザからのオーディオ入力を受信するリスニングモードを起動する準備ができていることをユーザに通知するのに用いることができる。キューが出力されると、４２０において、コントローラ及び／又は音声アプリケーションは、ユーザが所定の時間量にわたって出力コンポーネントを見続けているか否かを判断することができる。４３０において、ユーザが所定の時間量にわたって出力コンポーネントを見続けている場合、コントローラ及び／又は音声アプリケーションは、ユーザが音声コマンド及び／又はクエリを入力することを望んでいると判断し、オーディオ入力コンポーネントがユーザからオーディオ入力を受信するためにコンピューティングデバイスのリスニングモードが起動される。その後、この方法は完了する。他の実施形態において、図４の方法は、図４に示すステップに加えて及び／又はそれらの代わりに、更なるステップを含む。

図５は、一例による、オーディオ入力を検出する方法を示すフローチャートである。５００において、画像捕捉コンポーネント等のセンサを用いてユーザのビューを捕捉することができ、コントローラ及び／又は音声アプリケーションは、顔検出技術及び／又は注視検出技術を用いて、ユーザがコンピューティングデバイスを見ているか否かを判断することができる。５１０において、コントローラ及び／又は音声アプリケーションは、ユーザの顔がコンピューティングデバイスの方を向いているか否か及び／又はユーザの注視がコンピューティングデバイスを見ているか否かを判断することによって、ユーザがコンピューティングデバイスを見ているか否かを検出することができる。ユーザがコンピューティングデバイスを見ていない場合、コントローラ及び／又は音声アプリケーションは、５００においてコンピューティングデバイスを見ているユーザを検出することを継続する。

ユーザがコンピューティングデバイスを見ていると判断される場合、５２０において、出力コンポーネントを用いて、視覚キュー、オーディオキュー及び／又は触覚フィードバックキューを出力し、コンピューティングデバイスがリスニングモードを起動する準備ができていることをユーザに通知することができる。キューが出力されると、５３０において、コントローラ及び／又は音声アプリケーションは、ユーザが所定の時間量にわたって出力コンポーネントを見続けているか否かを判断する。ユーザが所定の時間量にわたって出力コンポーネントを見ていない場合、コントローラ及び／又は音声アプリケーションは、５００においてコンピューティングデバイスを見ているユーザを検出することを継続する。

１つの実施形態において、ユーザが所定の時間量にわたって出力コンポーネントを見ていると判断される場合、５４０において、コントローラ及び／又は音声アプリケーションは、片眉上げ、ウィンク及び／又は笑顔等の表情の変化がユーザにおいて検出されたか否かを判断することができる。表情の変化が検出されない場合、コントローラ及び／又は音声アプリケーションは、５３０において、ユーザが所定の時間量にわたって出力コンポーネントを見ているか否かを判断することを継続する。表情の変化が検出される場合、５５０において、顔認識技術を用いてユーザを認証することができる。ユーザの認証に失敗する場合、リスニングモードは起動されず、コントローラ及び／又は音声アプリケーションは、５００において別のユーザがコンピューティングデバイスを見ているか否かを検出することを継続する。

ユーザの認証に成功した場合、５６０において、コントローラ及び／又は音声アプリケーションは、ユーザの識別情報に関連付けられた発話プロファイルをロードする。発話プロファイルを用いて、ユーザからのオーディオ入力の検出及び認識を改善する。次に、５７０において、コントローラ及び／又は音声アプリケーションは、ユーザからオーディオ入力を受信する、マイク等のオーディオ入力コンポーネントを有効にすることによって、コンピューティングデバイスのリスニングモードを起動することができる。１つの実施形態において、センサ及び／又はオーディオ入力コンポーネントは、５８０において、ユーザの物理的接近を特定し、このユーザの物理的接近に基づいたオーディオ入力コンポーネントの較正に進むこともできる。別の実施形態において、リスニングモードが起動されると、コントローラ及び／又は音声アプリケーションは、コンピューティングデバイスにおいて、タッチ入力、キーボード入力、マウス入力及び／又はコンピューティングデバイスの他の形式の入力等の、他の形式の入力を無効にすることもできる。その後、本方法は完了する。他の実施形態において、図５の方法は、図５に示すステップに加えて及び／又はそれらの代わりに、更なるステップを含む。

Claims

コンピューティングデバイスであって、
前記コンピューティングデバイスを見ているユーザを検出するセンサと、
前記ユーザが前記コンピューティングデバイスを見ていることが検出された場合にキューを出力する出力コンポーネントであって、前記キューは、前記コンピューティングデバイスが前記ユーザからのオーディオ入力を受信するリスニングモードを起動する準備ができていることを前記ユーザに通知するものである、出力コンポーネントと、
前記出力コンポーネントによって前記キューが出力されている間に所定の時間量にわたって前記ユーザが前記コンピューティングデバイスを見続けていることを前記センサが検出した後、前記リスニングモードを起動し、オーディオ入力コンポーネントを用いて前記ユーザからのオーディオ入力を受信するコントローラと
を含む、コンピューティングデバイス。
前記キューは、視覚信号、オーディオ信号、触覚フィードバックのうちの少なくとも１つを含む、請求項１に記載のコンピューティングデバイス。
前記コントローラは、前記コンピューティングデバイスを見ている前記ユーザを検出すると、前記ユーザからの連続した注視又は前記ユーザの表情の変化を検出する、請求項１又は請求項２に記載のコンピューティングデバイス。
前記センサは、前記コンピューティングデバイスの前記オーディオ入力コンポーネントに対する前記ユーザの物理的近接を検出し、前記コントローラは、前記ユーザの前記物理的近接に基づいて前記オーディオ入力コンポーネントを較正する、請求項１〜３の何れか一項に記載のコンピューティングデバイス。
前記出力コンポーネントは、限られた視野を有する指向性視覚インジケータであり、前記キューは、前記ユーザの位置に基づいて前記ユーザに出力される、請求項１〜４の何れか一項に記載のコンピューティングデバイス。
前記コントローラは、前記リスニングモードが起動されている間、前記オーディオ入力以外の形式の入力を無効にする、請求項１〜５の何れか一項に記載のコンピューティングデバイス。
オーディオ入力を受信する方法であって、
コンピューティングデバイスを見ているユーザをセンサを用いて検出することと、
前記ユーザが前記コンピューティングデバイスを見ている場合、出力コンポーネントを用いてキューを出力することであって、前記キューは、前記コンピューティングデバイスが前記ユーザからのオーディオ入力を受信する前記コンピューティングデバイスのリスニングモードを起動する準備ができていることを前記ユーザに通知するものであることと、
前記キューが出力されている間に所定の時間量にわたって前記ユーザが前記出力コンポーネントを見ているか否かを判断することと、
前記キューが出力されている間に前記所定の時間量にわたって前記ユーザが前記出力コンポーネントを見ていると判断された後、前記コンピューティングデバイスの前記リスニングモードを起動し、前記ユーザからのオーディオ入力を受信することと
を含む方法。
前記ユーザが前記出力コンポーネントを見ている場合、顔認識技術を用いて前記ユーザを認証することを更に含み、前記ユーザが認証に失敗した場合、前記コンピューティングデバイスの前記リスニングモードは、有効にされない、請求項７に記載の方法。
前記リスニングモードを起動する前に、前記ユーザの識別情報と関連付けられた発話プロファイルをロードすることを更に含む、請求項７又は請求項８に記載の方法。
前記センサを用いて前記コンピューティングデバイスのオーディオ入力コンポーネントに対する前記ユーザの物理的接近を特定することと、前記ユーザの前記物理的接近に基づいて前記オーディオ入力コンポーネントを較正することとを更に含む、請求項７〜９の何れか一項に記載の方法。
前記リスニングモードが起動されている間、前記オーディオ入力とは異なる他の形式の入力を無効にすることを更に含む、請求項７〜９の何れか一項に記載の方法。
命令を含む不揮発性コンピュータ可読媒体であって、前記命令は、実行されたときに、コントローラに、
コンピューティングデバイスを見ているユーザをセンサを用いて検出することと、
前記ユーザが前記コンピューティングデバイスを見ている場合、出力コンポーネントを用いてキューを出力することであって、前記キューは、前記コンピューティングデバイスが前記ユーザからのオーディオ入力を受信する前記コンピューティングデバイスのリスニングモードを起動する準備ができていることを前記ユーザに通知するものであることと、
前記キューが出力されている間に所定の時間量にわたって前記ユーザが前記出力コンポーネントを見続けているか否かを検出することと、
前記キューが出力されている間に前記所定の時間量にわたって前記ユーザが前記出力コンポーネントを見ていることが検出された後、前記コンピューティングデバイスの前記リスニングモードを起動し、前記ユーザからのオーディオ入力を受信することと
を行わせる、不揮発性コンピュータ可読媒体。
実行されたときに、前記コントローラに、前記リスニングモードが起動されている間、前記オーディオ入力とは異なる他の形式の入力を無効にさせる命令を更に含む、請求項１２に記載の不揮発性コンピュータ可読媒体。
前記センサは、前記ユーザの口のビューを更に捕捉し、前記ビューは、前記ユーザからの前記オーディオ入力の受信を開始するための、前記コンピューティングデバイスのオーディオ入力コンポーネントに対するプロンプトとして使用される、請求項１２又は請求項１３に記載の不揮発性コンピュータ可読媒体。
前記出力コンポーネントは、限られた視野を有する指向性視覚インジケータであり、前記キューは、前記ユーザの位置に基づいて前記ユーザに出力される、請求項１２〜１４の何れか一項に記載の不揮発性コンピュータ可読媒体。