JP6001758B2 - ユーザからのオーディオ入力 - Google Patents

ユーザからのオーディオ入力 Download PDF

Info

Publication number
JP6001758B2
JP6001758B2 JP2015501654A JP2015501654A JP6001758B2 JP 6001758 B2 JP6001758 B2 JP 6001758B2 JP 2015501654 A JP2015501654 A JP 2015501654A JP 2015501654 A JP2015501654 A JP 2015501654A JP 6001758 B2 JP6001758 B2 JP 6001758B2
Authority
JP
Japan
Prior art keywords
user
computing device
audio input
output
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015501654A
Other languages
English (en)
Other versions
JP2015514254A (ja
Inventor
シェーセレ・エヴァン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of JP2015514254A publication Critical patent/JP2015514254A/ja
Application granted granted Critical
Publication of JP6001758B2 publication Critical patent/JP6001758B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0093Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)

Description

本発明は、ユーザからのオーディオ入力を受け付けるコンピューティングデバイスに関する。
ユーザは、デバイスにアクセスしてオーディオ入力等の入力を行うとき、まずコンピューティングデバイスのマウス又はキーボード等の入力コンポーネントを用いてコンピューティングデバイスのオーディオ入力コンポーネントを有効にすることがある。ユーザは、マウス又はキーボードにアクセスを続けて、ユーザからオーディオ入力を受信するためのコンピューティングデバイス上のアプリケーションを起動することができる。ユーザが入力コンポーネントを操作するので、時間を浪費する可能性があり、ユーザがミスをすることによりユーザ体験が苛立たしいものになる可能性がある。
開示される実施形態の様々な特徴及び利点は、添付の図面と併せて、以下の詳細な説明から明らかになるであろう。詳細な説明及び添付の図面はともに、開示される実施形態の特徴を例として示す。
一例による、センサと、出力コンポーネントと、オーディオ入力コンポーネントとを有するコンピューティングデバイスを示す図である。 一例による、キューを出力する出力コンポーネントと、コンピューティングデバイスを見ているユーザを検出するセンサとを示す図である。 一例による、ユーザからのオーディオ入力を検出する音声アプリケーションのブロック図である。 一例による、オーディオ入力を検出する方法を示すフローチャートである。 一例による、オーディオ入力を検出する方法を示すフローチャートである。
コンピューティングデバイスは、このコンピューティングデバイスを見ているユーザを検出するための、画像捕捉コンポーネント等のセンサを備える。本出願において、センサがコンピューティングデバイスの方を向いているユーザの顔又は眼を検出する場合、ユーザはコンピューティングデバイスを見ている。ユーザがコンピューティングデバイスを見ている場合、視覚インジケータ等の出力コンポーネント、オーディオ出力スピーカ及び/又は触覚フィードバックモータがユーザにキューを与えることができる。キューは、コンピューティングデバイスがユーザからオーディオ入力を受信する準備ができていることをユーザに通知する視覚キュー、オーディオキュー及び/又は触覚フィードバックキューとすることができる。キューが出力されると、コンピューティングデバイスはセンサを用いて、所定の時間量にわたってコンピューティングデバイス及び/又は出力コンポーネントを見ているユーザを検出することができる。
コンピューティングデバイスが、キューの出力時に、ユーザが所定の時間量にわたってコンピューティングデバイスを見続けていると判断する場合、コンピューティングデバイスは、ユーザがコンピューティングデバイスとのインターフェースを望んでいると確信することができる。次に、コンピューティングデバイスのマイク等のオーディオ入力コンポーネントがユーザからオーディオ入力を受信することができる。1つの実施形態において、オーディオ入力を受信するとき、コンピューティングデバイスはコンピューティングデバイスのリスニングモードを起動して、オーディオ入力コンポーネントを有効にし、ミュート解除し、及び/又は較正して、ユーザからオーディオ入力を受信する。オーディオ入力は、音声コマンド、音声クエリ、及び/又は、ユーザによって生成され、コンピューティングデバイスによって入力として受信される任意の更なるサウンドとすることができる。結果として、ユーザは好都合には、コンピューティングデバイスの入力コンポーネントに物理的にアクセスすることも、その入力コンポーネントを操作することもなく、オーディオ入力を用いてデバイスと対話することができる。
図1は、一例による、センサ130、出力コンポーネント160及びオーディオ入力コンポーネント140を有するコンピューティングデバイス100を示しており、1つの実施形態において、コンピューティングデバイス100は、デスクトップ、ラップトップ、ノートブック、タブレット、ネットブック、オールインワンシステム及び/又はサーバとすることができる。別の実施形態において、コンピューティングデバイス100は、セルラーデバイス、PDA(パーソナルデジタルアシスタント)、E(電子)−リーダ、タブレット、カメラ、及び/又は、センサ130、出力コンポーネント160、オーディオコンポーネント140を含むことができる任意の更なるデバイスとすることができる。
コンピューティングデバイス100は、コントローラ120と、センサ130と、出力コンポーネント160と、オーディオ入力コンポーネント140と、コンピューティングデバイス100及び/又はこのデバイス100の1つ又は複数のコンポーネントが互いに通信するための通信チャネル150とを含む。1つの実施形態において、コンピューティングデバイス100は、コンピューティングデバイス100に含まれるか又はコンピューティングデバイス100にアクセス可能な不揮発性コンピュータ可読媒体上に記憶される音声アプリケーションも備える。本出願において、音声アプリケーションは、コンピューティングデバイス100のオーディオ入力145を管理するために、独立して及び/又はコントローラ120と併せて用いることができるアプリケーションである。本出願において、オーディオ入力145は、コンピューティングデバイス100のための入力として受信される、ユーザからの音声及び/又はサウンドを含む。
オーディオ入力145を管理するとき、最初にセンサ130を用いて、ユーザがコンピューティングデバイス100を見ているか否かを検出することができる。本出願において、センサ130は画像捕捉コンポーネント及び/又は赤外線コンポーネント等のハードウェアコンポーネントであり、コンピューティングデバイス100の正面のビューを捕捉して、コンピューティングデバイス100を見ているユーザを検出することができる。コンピューティングデバイス100を見ているユーザを検出することは、ユーザの顔がコンピューティングデバイス100の方を向いているか否かを判断することを含む。1つの実施形態において、コントローラ320及び/又は音声アプリケーションは、顔検出技術及び/又は注視検出技術を用いて、ユーザの顔又は眼がコンピューティングデバイス100を見ているか否かを判断することができる。
ユーザがコンピューティングデバイス100を見ていることが検出される場合、コントローラ120及び/又は音声アプリケーションは、出力コンポーネント160に、ユーザにキュー165を出力するように命令する。本出願において、キュー165は、コンピューティングデバイス100がユーザからのオーディオ入力145を受信する準備ができていることをユーザに通知するための、出力コンポーネント160からの信号又は通知である。出力コンポーネント160は、ユーザに視覚キュー、オーディオキュー及び/又は触覚フィードバックキューを提供することができるコンピューティングデバイス100のハードウェアコンポーネントである。1つの実施形態において、出力コンポーネント160は、視覚インジケータ、オーディオ出力スピーカ、触覚モータ、及び/又はキュー165を出力することができる任意の更なるコンポーネントとすることができる。
コントローラ110及び/又は音声アプリケーションは、センサ130を用いて、ユーザが所定の時間量にわたってコンピューティングデバイス100を見ているか否かを検出することができる。所定の時間量は、コントローラ120、音声アプリケーション及び/又はユーザによって定義することができる。例えば、所定の時間量は、2分の1秒、2秒、又は任意の更なる時間量であると定義することができる。ユーザがその予め定義された時間量にわたってコンピューティングデバイス100を見続けていることをセンサ130が検出する場合、コントローラ110及び/又は音声アプリケーションは、ユーザが所定の時間量にわたってコンピューティングデバイス100を見ていると判断する。
別の実施形態において、センサ130は、所定の時間量にわたってコンピューティングデバイス100を見ているユーザを検出すると、コンピューティングデバイス100の出力コンポーネント160を見ているユーザを更に検出することができる。コントローラ120及び/又は音声アプリケーションは、ユーザの視線を特定して、ユーザがコンピューティングデバイス100及び/又は出力コンポーネント160を見ているか否かを判断することができる。コントローラ120及び/又は音声アプリケーションは、顔検出技術及び/又は注視検出技術を用いてユーザの視線を特定することができる。
ユーザが所定の時間量にわたってコンピューティングデバイス100及び/又は出力コンポーネント160を見続けている場合、コントローラ120及び/又は音声アプリケーションは、ユーザの意図がコンピューティングデバイス100と対話することであると判断し、オーディオ入力コンポーネント140を用いてユーザからのオーディオ入力145を受信することへ進むことができる。本出願において、オーディオ入力コンポーネント140は、ユーザからオーディオ入力145を受信することができる、マイク等のハードウェアコンポーネントである。
本出願において、オーディオ入力145は、ユーザからの可聴音を含み、コントローラ110及び/又は音声アプリケーションはこれをコンピューティングデバイス100の入力として受信することができる。例えば、オーディオ入力145は、音声コマンド及び/又はコンピューティングデバイス100へのクエリとすることができる。1つの実施形態において、オーディオ入力145を受信することは、コントローラ120及び/又は音声アプリケーションがコンピューティングデバイス100のリスニングモードを起動することを含む。本出願において、コンピューティングデバイス100のリスニングモードは、ユーザからオーディオ入力145を受信するためのコンピューティングデバイス100の入力モードに対応し、コンピューティングデバイス100がリスニングモードにある場合、オーディオ入力コンポーネント140は、オーディオ入力145を受信するために有効にされ、ミュート解除される。
図2は、一例による、コンピューティングデバイス200を見ているユーザ205をセンサ230が検出するのに応じてキュー265を出力する出力コンポーネント260を示している。本出願において、センサ230はコンピューティングデバイス200のハードウェアコンポーネントであり、コンピューティングデバイス200を見ているユーザ205を検出する。センサ230は、画像捕捉コンポーネント、赤外線コンポーネント、及び/又はコンピューティングデバイス200を見ているユーザ205を検出することができる任意の更なるコンポーネントとすることができる。1つの実施形態において、センサ230は、コンピューティングデバイス200の周囲のユーザ205の物理的接近も検出することができる。ユーザ205の物理的接近は、オーディオ入力コンポーネント240からのユーザの位置又は距離に対応する。ユーザ205は、コンピューティングデバイス200と対話し、1つ又は複数のオーディオ入力をコンピューティングデバイス200に入力することができる任意の人物とすることができる。
センサ230は、最初にコンピューティングデバイス200の正面のビューを捕捉して、ユーザ205を検出することができる。ユーザ205が検出された場合、コントローラ及び/又は音声アプリケーションは、顔検出技術及び/又は注視検出技術を用いて、ユーザ205がコンピューティングデバイス200を見ているか否かを検出することができる。コントローラ及び/又は音声アプリケーションは、顔検出技術及び/又は注視検出技術を用いて、コンピューティングデバイス200がユーザ205の視線内にあるか否かを判断することができる。コンピューティングデバイス200がユーザの視線内にある場合、コントローラ及び/又は音声アプリケーションは、ユーザ205がコンピューティングデバイス200を見ていると判断する。
ユーザ205がコンピューティングデバイス200を見ていることが検出される場合、出力コンポーネント260は、コンピューティングデバイス200がユーザ205からオーディオ入力を受信する準備ができていることをユーザ205に通知するためのキュー265を出力することに進む。1つの実施形態において、コントローラ及び/又は音声アプリケーションは、ユーザが所定の時間量にわたってコンピューティングデバイス200を見続けているか否かを更に判断することができ、その後、出力コンポーネント260に、キュー265を出力するように命令する。上記で述べたように、所定の時間量は、コントローラ、音声アプリケーション、及び/又はユーザ205によって、2分の1秒、2秒及び/又は任意の時間量であると定義することができる。
ユーザ205が所定の時間量にわたってコンピューティングデバイス200を見続けている場合、出力コンポーネント260を用いてキュー265を出力することができる。本出願において、出力コンポーネント260は、視覚インジケータ、表示コンポーネント、オーディオ出力スピーカ及び/又はキュー265を出力する触覚モータ等の、コンピューティングデバイス200のハードウェアコンポーネントである。キュー265は、視覚信号、オーディオ信号、触覚フィードバック、及び/又はコンピューティングデバイス200がオーディオ入力を受信する準備ができていることをユーザ205に通知する任意の更なるキュー265のうちの少なくとも1つを含む。例えば、視覚信号は点灯している光源とすることができる。オーディオ信号は出力されている可聴トーンとすることができる。触覚フィードバックは1つ又は複数の振動を含むことができる。
1つの実施形態において、出力コンポーネント260は、視野が制限された指向性視覚インジケータであり、キュー265は、ユーザ205の位置に基づいてユーザ205に出力される。上記で述べたように、センサ230を用いてユーザ205の物理的ロケーション又は近接性を検出することができる。指向性視覚インジケータは、限られた視界を有する光源アレイを含むことができる。ユーザ205の近接範囲内の光源のうちの1つ又は複数は、ユーザ205が見るためのキュー265を出力するように点灯することができる。ユーザ205の近接範囲外の他の光源は点灯されない。結果として、他の個人がキュー265を知覚して、コンピューティングデバイス200と対話しているユーザ205を見ることのないように、キュー265の限られた視界内でキュー265を出力することによって、ユーザ205及びコンピューティングデバイス200に対するセキュリティを強化させることができる。
出力コンポーネント260によってキュー265が出力されると、コントローラ及び/又は音声アプリケーションは、ユーザ205が出力されているキュー265に関連して所定の時間量にわたってコンピューティングデバイス200を見ているか否かを判断する。本開示において、出力コンポーネント160によってキュー265が出力されるときに、ユーザ205がコンピューティングデバイス200を見続けている場合、ユーザ205はキュー265に関連してコンピューティングデバイス200を見ていると判断することができる。例えば、キュー265が出力されるのと並行して、ユーザ205が所定の時間量にわたってコンピューティングデバイス200を見続けている場合、ユーザ205は出力されているキュー265に関連してコンピューティングデバイス200を見ていると判断される。
別の実施形態において、コンピューティングデバイス200を見ることとは対照的に、コントローラ及び/又は音声アプリケーションは、出力されているキュー265に関連して所定の時間量にわたって出力コンポーネント260を見ているユーザ205を検出することができる。他の実施形態において、センサ230は、ユーザ205の表情の変化又はユーザ205からの連続した注視も検出する。表情の変化を検出するとき、センサ230は、笑顔、しかめ面、ウィンク、片眉上げ、及び/又はユーザ205からの任意の更なる表情変化を検出する。連続注視を検出するとき、センサ230は、所定の時間量にわたってコンピューティングデバイス200又は出力コンポーネント260を見続けているユーザ205の顔又は眼を検出する。
出力されているキュー265に関連してユーザ205が所定の時間量にわたってコンピューティングデバイス200及び/又は出力コンポーネント260を見ている場合、コントローラ及び/又は音声アプリケーションは、ユーザがオーディオ入力を用いてコンピューティングデバイス200と対話することを望んでいると判断する。図2に示すように、オーディオ入力コンポーネント240を用いてユーザ205からのオーディオ入力を検出することができる。本出願において、オーディオ入力コンポーネント240は、コンピューティングデバイス200のためのオーディオ入力として、音声、サウンド及び/又は雑音を検出する、マイク等のハードウェアコンポーネントである。1つの実施形態において、ユーザ205からのオーディオ入力は、コンピューティングデバイス200が命令又はコマンドを実行するための音声コマンドとすることができる。命令又はコマンドは、アプリケーションを起動若しくは終了すること、ファイルを開くか若しくは閉じること、及び/又は電子メール、アプリケーション及び/又はウェブブラウザへの英数字テキスト入力を命じることとすることができる。
別の実施形態において、オーディオ入力は、コンピューティングデバイス200からの情報の音声クエリとすることができる。このクエリは、コンピューティングデバイス200のステータス、局地天気予報、及び/又はコンピューティングデバイス200若しくは別のデバイスから検索可能な情報に関するクエリとすることができる。センサ230は、ユーザ205からの音声コマンド及び/又はクエリを捕捉すると、ユーザ205の口のビューを更に捕捉することができる。ユーザ205の口のビューは、コントローラ及び/又は音声アプリケーションによって、ユーザ205からの音声コマンド及び/又はクエリを特定する精度を改善するのに用いることができる。他の実施形態において、ユーザ205は、手、身体部分及び/又はアクセサリを用いて、オーディオ入力コンポーネント240がオーディオ入力として受信するためのオーディオを作成することができる。
図3は、一例による、ユーザからのオーディオ入力を検出する音声アプリケーション310のブロック図を示している。上記で述べたように、音声アプリケーション310は独立して、及び/又はオーディオ入力を管理するコントローラ320と併せて利用することができる。1つの実施形態において、音声アプリケーション310は、コンピューティングデバイスの1つ又は複数のコンポーネント上に埋め込まれるファームウェアとすることができる。別の実施形態において、音声アプリケーション310は、コンピューティングデバイスの不揮発性コンピュータ可読メモリからアクセス可能なアプリケーションとすることができる。コンピュータ可読メモリは、デバイスによって又はデバイスと関連して用いるためのアプリケーションを含むか、記憶するか、通信するか、又はトランスポートする有形の装置である。1つの実施形態において、コンピュータ可読メモリは、ハードドライブ、コンパクトディスク、フラッシュディスク、ネットワークドライブ、又はコンピューティングデバイスに結合された任意の他の形態の有形の装置である。
図3に示すように、センサ330はコンピューティングデバイスを見ているユーザを検出した。それに応じて、コントローラ320及び/又は音声アプリケーション310は、出力コンポーネント360に、視覚キュー、オーディオキュー及び/又は触覚フィードバックキューをユーザに出力するように命令する。1つの実施形態において、キューが出力されると、コントローラ320及び/又は音声アプリケーション310は、顔認識技術を用いてユーザを認証することができる。コントローラ320及び/又は音声アプリケーション310は、センサ330に、ユーザの顔の画像を捕捉し、ユーザの顔の画像をコンピューティングデバイスの認識されたユーザの画像と比較するように命令することができる。認識されたユーザの画像は、コンピューティングデバイスのストレージコンポーネント上に、又はコントローラ320及び/又は音声アプリケーション310にアクセス可能な別のデバイス上に、局所的に記憶することができる。
1つの実施形態において、ユーザの画像が認識されたユーザの画像と合致しない場合、ユーザは認証に失敗し、コントローラ320及び/又は音声アプリケーション310はコンピューティングデバイスのリスニングモードを無効にする。リスニングモードを無効にするとき、コントローラ320及び/又は音声アプリケーション310はオーディオ入力コンポーネント340を無効にし、オーディオ入力コンポーネント340をミュートし、及び/又はユーザからの一切のオーディオ入力を拒否することができる。ユーザの画像が認識されたユーザの画像に合致する場合、ユーザは認証に成功し、コントローラ320及び/又は音声アプリケーション310は、ユーザが所定の時間量にわたってコンピューティングデバイス又は出力コンポーネントを見続けているか否かを判断することに進む。
ユーザが所定の時間量にわたってコンピューティングデバイス及び/又は出力コンポーネントを見ていると判断される場合、コントローラ320及び/又は入力アプリケーション310は、ユーザがコンピューティングデバイスとの対話を望んでいると判断し、リスニングモードの起動に進む。別の実施形態において、コントローラ320及び/又は音声アプリケーション310は、ユーザがコンピューティングデバイス及び/又は出力コンポーネントを見続けているとき、ユーザからの連続した注視又は表情の変化を更に検出することができる。コントローラ320及び/又は音声アプリケーション310は、連続した注視又は表情の変化を検出することによって、ユーザがコンピューティングデバイスと対話する意図を更に確信することができる。
次に、コントローラ320及び/又は音声アプリケーション310は、コンピューティングデバイスのリスニングモードを起動することができる。リスニングモードを起動するとき、コントローラ320及び/又は音声アプリケーション310はオーディオ入力コンポーネント340を有効にし、オーディオ入力コンポーネント340をミュート解除して、ユーザからオーディオ入力を受信することができる。1つの実施形態において、リスニングモードを起動するとき、コントローラ320及び/又は音声アプリケーションはユーザの識別情報に関連付けられた発話プロファイルをロードする。本出願において、発話プロファイルは、コントローラ320及び/又は音声アプリケーション310がユーザからのオーディオ入力の検出及び認識を改善するのに用いる、ユーザの音声又は発話パターンの情報を含む。情報は、ユーザの音声のピッチ、ユーザが発話する速度、ユーザの発話の告知(annunciation)、及び/又はユーザの音声若しくは発話パターンの任意の追加情報を含むことができる。
1つの実施形態において、コントローラ320及び/又は音声アプリケーション310はまた、センサ330に、オーディオ入力コンポーネント340に対するユーザの物理的接近を検出するように命令する。上記で述べたように、ユーザの物理的接近は、オーディオ入力コンポーネント340からのユーザの位置又は距離に対応する。ユーザの位置及び距離に基づいて、コントローラ320及び/又は音声アプリケーション310は、オーディオ入力コンポーネント340を較正して、ユーザからのオーディオ入力を検出する精度を改善することができる。オーディオ入力コンポーネント340の較正は、オーディオ入力コンポーネント340に、ユーザの位置からのオーディオ入力を受信するように指示することを含むことができる。別の実施形態において、オーディオ入力コンポーネント340の較正は、ユーザの位置及び/又は距離に基づいて、雑音フィルタリングアルゴリズム又は雑音除去アルゴリズムを適用することを含むことができる。
ユーザからのオーディオ入力を検出することに応じて、コントローラ320及び/又は音声アプリケーション310は、ユーザからのオーディオ入力に関連付けられたコンピューティングデバイスのコマンド、命令、入力、及び/又はクエリを特定する。1つの実施形態において、オーディオ入力コンポーネント340によってオーディオ入力が検出されるとき、センサ330はユーザの口のビューも捕捉することができる。ユーザの口のビューを捕捉することによって、オーディオ入力に対応するコンピューティングデバイスのコマンド、命令、及び/又はクエリを特定する精度を改善することができる。ユーザの口のビューをオーディオ入力コンポーネント340のプロンプトとして用いて、ユーザからのオーディオ入力の受信を開始することもできる。
図4は、一例による、オーディオ入力を検出する方法を示すフローチャートである。最初に、400において、画像捕捉コンポーネント等におけるセンサが、コンピューティングデバイスを見ているユーザを検出することができる。ユーザがコンピューティングデバイスを見ている場合、410において、コントローラ及び/又は音声アプリケーションは、視覚インジケータ、オーディオスピーカ、及び/又は触覚モータ等の出力コンポーネントに、視覚キュー、オーディオキュー及び/又は触覚フィードバックキューを出力するように命令することができる。このキューは、コンピューティングデバイスがユーザからのオーディオ入力を受信するリスニングモードを起動する準備ができていることをユーザに通知するのに用いることができる。キューが出力されると、420において、コントローラ及び/又は音声アプリケーションは、ユーザが所定の時間量にわたって出力コンポーネントを見続けているか否かを判断することができる。430において、ユーザが所定の時間量にわたって出力コンポーネントを見続けている場合、コントローラ及び/又は音声アプリケーションは、ユーザが音声コマンド及び/又はクエリを入力することを望んでいると判断し、オーディオ入力コンポーネントがユーザからオーディオ入力を受信するためにコンピューティングデバイスのリスニングモードが起動される。その後、この方法は完了する。他の実施形態において、図4の方法は、図4に示すステップに加えて及び/又はそれらの代わりに、更なるステップを含む。
図5は、一例による、オーディオ入力を検出する方法を示すフローチャートである。500において、画像捕捉コンポーネント等のセンサを用いてユーザのビューを捕捉することができ、コントローラ及び/又は音声アプリケーションは、顔検出技術及び/又は注視検出技術を用いて、ユーザがコンピューティングデバイスを見ているか否かを判断することができる。510において、コントローラ及び/又は音声アプリケーションは、ユーザの顔がコンピューティングデバイスの方を向いているか否か及び/又はユーザの注視がコンピューティングデバイスを見ているか否かを判断することによって、ユーザがコンピューティングデバイスを見ているか否かを検出することができる。ユーザがコンピューティングデバイスを見ていない場合、コントローラ及び/又は音声アプリケーションは、500においてコンピューティングデバイスを見ているユーザを検出することを継続する。
ユーザがコンピューティングデバイスを見ていると判断される場合、520において、出力コンポーネントを用いて、視覚キュー、オーディオキュー及び/又は触覚フィードバックキューを出力し、コンピューティングデバイスがリスニングモードを起動する準備ができていることをユーザに通知することができる。キューが出力されると、530において、コントローラ及び/又は音声アプリケーションは、ユーザが所定の時間量にわたって出力コンポーネントを見続けているか否かを判断する。ユーザが所定の時間量にわたって出力コンポーネントを見ていない場合、コントローラ及び/又は音声アプリケーションは、500においてコンピューティングデバイスを見ているユーザを検出することを継続する。
1つの実施形態において、ユーザが所定の時間量にわたって出力コンポーネントを見ていると判断される場合、540において、コントローラ及び/又は音声アプリケーションは、片眉上げ、ウィンク及び/又は笑顔等の表情の変化がユーザにおいて検出されたか否かを判断することができる。表情の変化が検出されない場合、コントローラ及び/又は音声アプリケーションは、530において、ユーザが所定の時間量にわたって出力コンポーネントを見ているか否かを判断することを継続する。表情の変化が検出される場合、550において、顔認識技術を用いてユーザを認証することができる。ユーザの認証に失敗する場合、リスニングモードは起動されず、コントローラ及び/又は音声アプリケーションは、500において別のユーザがコンピューティングデバイスを見ているか否かを検出することを継続する。
ユーザの認証に成功した場合、560において、コントローラ及び/又は音声アプリケーションは、ユーザの識別情報に関連付けられた発話プロファイルをロードする。発話プロファイルを用いて、ユーザからのオーディオ入力の検出及び認識を改善する。次に、570において、コントローラ及び/又は音声アプリケーションは、ユーザからオーディオ入力を受信する、マイク等のオーディオ入力コンポーネントを有効にすることによって、コンピューティングデバイスのリスニングモードを起動することができる。1つの実施形態において、センサ及び/又はオーディオ入力コンポーネントは、580において、ユーザの物理的接近を特定し、このユーザの物理的接近に基づいたオーディオ入力コンポーネントの較正に進むこともできる。別の実施形態において、リスニングモードが起動されると、コントローラ及び/又は音声アプリケーションは、コンピューティングデバイスにおいて、タッチ入力、キーボード入力、マウス入力及び/又はコンピューティングデバイスの他の形式の入力等の、他の形式の入力を無効にすることもできる。その後、本方法は完了する。他の実施形態において、図5の方法は、図5に示すステップに加えて及び/又はそれらの代わりに、更なるステップを含む。

Claims (15)

  1. コンピューティングデバイスであって、
    前記コンピューティングデバイスを見ているユーザを検出するセンサと、
    前記ユーザが前記コンピューティングデバイスを見ていることが検出された場合にキューを出力する出力コンポーネントであって、前記キューは、前記コンピューティングデバイスが前記ユーザからのオーディオ入力を受信するリスニングモードを起動する準備ができていることを前記ユーザに通知するものである、出力コンポーネントと、
    前記出力コンポーネントによって前記キューが出力されている間に所定の時間量にわたって前記ユーザが前記コンピューティングデバイスを見続けていることを前記センサが検出した後、前記リスニングモードを起動し、オーディオ入力コンポーネントを用いて前記ユーザからのオーディオ入力を受信するコントローラと
    を含む、コンピューティングデバイス。
  2. 前記キューは視覚信号、オーディオ信号、触覚フィードバックのうちの少なくとも1つを含む、請求項1に記載のコンピューティングデバイス。
  3. 前記コントローラは、前記コンピューティングデバイスを見ている前記ユーザを検出すると、前記ユーザからの連続した注視又は前記ユーザの表情の変化を検出する、請求項1又は請求項2に記載のコンピューティングデバイス。
  4. 前記センサは、前記コンピューティングデバイスの前記オーディオ入力コンポーネントに対する前記ユーザの物理的近接を検出し、前記コントローラは、前記ユーザの前記物理的近接に基づいて前記オーディオ入力コンポーネントを較正する、請求項1〜3の何れか一項に記載のコンピューティングデバイス。
  5. 前記出力コンポーネントは、限られた視野を有する指向性視覚インジケータであり、前記キューは、前記ユーザの位置に基づいて前記ユーザに出力される、請求項1〜4の何れか一項に記載のコンピューティングデバイス。
  6. 前記コントローラは、前記リスニングモードが起動されている間、前記オーディオ入力以外の形式の入力を無効にする、請求項1〜5の何れか一項に記載のコンピューティングデバイス。
  7. オーディオ入力を受信する方法であって、
    コンピューティングデバイスを見ているユーザをセンサを用いて検出することと、
    前記ユーザが前記コンピューティングデバイスを見ている場合、出力コンポーネントを用いてキューを出力することであって、前記キューは、前記コンピューティングデバイスが前記ユーザからのオーディオ入力を受信する前記コンピューティングデバイスのリスニングモードを起動する準備ができていることを前記ユーザに通知するものであることと、
    前記キューが出力されている間に所定の時間量にわたって前記ユーザが前記出力コンポーネントを見ているか否かを判断することと、
    前記キューが出力されている間に前記所定の時間量にわたって前記ユーザが前記出力コンポーネントを見ていると判断された後、前記コンピューティングデバイスの前記リスニングモードを起動し、前記ユーザからのオーディオ入力を受信することと
    を含む方法。
  8. 前記ユーザが前記出力コンポーネントを見ている場合、顔認識技術を用いて前記ユーザを認証することを更に含み、前記ユーザが認証に失敗した場合、前記コンピューティングデバイスの前記リスニングモードは、有効にされない、請求項7に記載の方法。
  9. 前記リスニングモードを起動する前に、前記ユーザの識別情報と関連付けられた発話プロファイルをロードすることを更に含む、請求項7又は請求項8に記載の方法。
  10. 前記センサを用いて前記コンピューティングデバイスのオーディオ入力コンポーネントに対する前記ユーザの物理的接近を特定することと、前記ユーザの前記物理的接近に基づいて前記オーディオ入力コンポーネントを較正することとを更に含む、請求項7〜9の何れか一項に記載の方法。
  11. 前記リスニングモードが起動されている間、前記オーディオ入力とは異なる他の形式の入力を無効にすることを更に含む、請求項7〜9の何れか一項に記載の方法。
  12. 命令を含む不揮発性コンピュータ可読媒体であって、前記命令は、実行されたときに、コントローラに、
    コンピューティングデバイスを見ているユーザをセンサを用いて検出することと、
    前記ユーザが前記コンピューティングデバイスを見ている場合、出力コンポーネントを用いてキューを出力することであって、前記キューは、前記コンピューティングデバイスが前記ユーザからのオーディオ入力を受信する前記コンピューティングデバイスのリスニングモードを起動する準備ができていることを前記ユーザに通知するものであることと、
    前記キューが出力されている間に所定の時間量にわたって前記ユーザが前記出力コンポーネントを見続けているか否かを検出することと、
    前記キューが出力されている間に前記所定の時間量にわたって前記ユーザが前記出力コンポーネントを見ていることが検出された後、前記コンピューティングデバイスの前記リスニングモードを起動し、前記ユーザからのオーディオ入力を受信することと
    を行わせる、不揮発性コンピュータ可読媒体。
  13. 実行されたときに、前記コントローラに、前記リスニングモードが起動されている間、前記オーディオ入力とは異なる他の形式の入力を無効にさせる命令を更に含む、請求項12に記載の不揮発性コンピュータ可読媒体。
  14. 前記センサは、前記ユーザの口のビューを更に捕捉し、前記ビューは、前記ユーザからの前記オーディオ入力の受信を開始するための、前記コンピューティングデバイスのオーディオ入力コンポーネントに対するプロンプトとして使用される、請求項12又は請求項13に記載の不揮発性コンピュータ可読媒体。
  15. 前記出力コンポーネントは、限られた視野を有する指向性視覚インジケータであり、前記キューは、前記ユーザの位置に基づいて前記ユーザに出力される、請求項12〜14の何れか一項に記載の不揮発性コンピュータ可読媒体。
JP2015501654A 2012-04-27 2012-04-27 ユーザからのオーディオ入力 Active JP6001758B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2012/035538 WO2013162603A1 (en) 2012-04-27 2012-04-27 Audio input from user

Publications (2)

Publication Number Publication Date
JP2015514254A JP2015514254A (ja) 2015-05-18
JP6001758B2 true JP6001758B2 (ja) 2016-10-05

Family

ID=49483700

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015501654A Active JP6001758B2 (ja) 2012-04-27 2012-04-27 ユーザからのオーディオ入力

Country Status (7)

Country Link
US (1) US9626150B2 (ja)
EP (1) EP2842014A4 (ja)
JP (1) JP6001758B2 (ja)
CN (1) CN104094192B (ja)
BR (1) BR112014018604B1 (ja)
TW (1) TWI490778B (ja)
WO (1) WO2013162603A1 (ja)

Families Citing this family (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US20160282515A1 (en) * 2013-10-21 2016-09-29 Mitsui Chemicals, Inc. Polymerizable composition for optical material and optical material
TWI514258B (zh) * 2014-02-17 2015-12-21 Hooloop Corp 語音管理方法及系統,及其電腦程式產品
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP6555858B2 (ja) * 2014-08-01 2019-08-07 シャープ株式会社 機器、音声出力方法、音声出力プログラム、ネットワークシステム、サーバ、および通信機器
KR102337682B1 (ko) * 2014-10-01 2021-12-09 삼성전자주식회사 디스플레이 장치 및 그의 제어 방법
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
KR102390853B1 (ko) * 2015-03-26 2022-04-27 삼성전자주식회사 컨텐츠 제공 방법 및 이를 수행하는 전자 장치
FR3034215B1 (fr) * 2015-03-27 2018-06-15 Valeo Comfort And Driving Assistance Procede de commande, dispositif de commande, systeme et vehicule automobile comprenant un tel dispositif de commande
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
TWI564791B (zh) * 2015-05-19 2017-01-01 卡訊電子股份有限公司 播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
JP6516585B2 (ja) * 2015-06-24 2019-05-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御装置、その方法及びプログラム
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
EP3394852B1 (en) * 2016-03-14 2022-09-21 Apple Inc. Identification of voice inputs providing credentials
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10103699B2 (en) * 2016-09-30 2018-10-16 Lenovo (Singapore) Pte. Ltd. Automatically adjusting a volume of a speaker of a device based on an amplitude of voice input to the device
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10366691B2 (en) * 2017-07-11 2019-07-30 Samsung Electronics Co., Ltd. System and method for voice command context
US20190050195A1 (en) * 2017-08-14 2019-02-14 Lenovo (Singapore) Pte. Ltd. Output provision based on gaze detection
US11295735B1 (en) * 2017-12-13 2022-04-05 Amazon Technologies, Inc. Customizing voice-control for developer devices
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11614794B2 (en) 2018-05-04 2023-03-28 Google Llc Adapting automated assistant based on detected mouth movement and/or gaze
EP3743794B1 (en) * 2018-05-04 2022-11-09 Google LLC Hot-word free adaptation of automated assistant function(s)
JP7277569B2 (ja) 2018-05-04 2023-05-19 グーグル エルエルシー 検出されたジェスチャおよび凝視に基づく自動化アシスタントの機能の呼び出し
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
CN108854052A (zh) * 2018-06-22 2018-11-23 福州市马尾区朱雀网络信息技术有限公司 一种游戏声音实时反馈方法和系统
US11979511B2 (en) 2018-09-07 2024-05-07 Sony Group Corporation Terminal device, terminal device control method, and memory medium
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11151993B2 (en) 2018-12-28 2021-10-19 Baidu Usa Llc Activating voice commands of a smart display device based on a vision-based mechanism
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11271762B2 (en) * 2019-05-10 2022-03-08 Citrix Systems, Inc. Systems and methods for virtual meetings
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110602556A (zh) * 2019-09-20 2019-12-20 深圳创维-Rgb电子有限公司 播放方法、云端服务器及存储介质
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11955137B2 (en) * 2021-03-11 2024-04-09 Apple Inc. Continuous dialog with a digital assistant
TWI832575B (zh) * 2022-11-23 2024-02-11 酷碼科技股份有限公司 振動裝置及其運作方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6118888A (en) * 1997-02-28 2000-09-12 Kabushiki Kaisha Toshiba Multi-modal interface apparatus and method
JP2004192653A (ja) 1997-02-28 2004-07-08 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JPH1124694A (ja) 1997-07-04 1999-01-29 Sanyo Electric Co Ltd 命令認識装置
JP2001070293A (ja) * 1999-09-06 2001-03-21 Toshiba Corp X線診断装置
JP2001134256A (ja) 1999-11-05 2001-05-18 Sony Corp ディスプレイ装置の利用者検出回路
JP2002041084A (ja) * 2000-07-26 2002-02-08 Victor Co Of Japan Ltd 対話処理システム
JP2003044089A (ja) 2001-07-26 2003-02-14 Matsushita Electric Works Ltd 音声認識装置及び音声認識方法
GB2388209C (en) * 2001-12-20 2005-08-23 Canon Kk Control apparatus
US7762665B2 (en) 2003-03-21 2010-07-27 Queen's University At Kingston Method and apparatus for communication between humans and devices
US7522065B2 (en) * 2004-10-15 2009-04-21 Microsoft Corporation Method and apparatus for proximity sensing in a portable electronic device
US20060192775A1 (en) 2005-02-25 2006-08-31 Microsoft Corporation Using detected visual cues to change computer system operating states
US7438414B2 (en) * 2005-07-28 2008-10-21 Outland Research, Llc Gaze discriminating electronic control apparatus, system, method and computer program product
JP4992218B2 (ja) 2005-09-29 2012-08-08 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7429108B2 (en) 2005-11-05 2008-09-30 Outland Research, Llc Gaze-responsive interface to enhance on-screen user reading tasks
TW200720991A (en) * 2005-11-22 2007-06-01 Delta Electronics Inc Voice control methods
US9213404B2 (en) 2006-02-01 2015-12-15 Tobii Technology Ab Generation of graphical feedback in a computer system
WO2009111884A1 (en) * 2008-03-12 2009-09-17 E-Lane Systems Inc. Speech understanding method and system
JP5286371B2 (ja) 2009-02-05 2013-09-11 パナソニック株式会社 情報表示装置及び情報表示方法
TWI384383B (zh) * 2009-03-02 2013-02-01 Univ Nat Central 視線察覺裝置及其方法
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US8416715B2 (en) 2009-06-15 2013-04-09 Microsoft Corporation Interest determination for auditory enhancement
CN101674363A (zh) 2009-09-23 2010-03-17 中兴通讯股份有限公司 移动设备及通话方法
US20110205148A1 (en) 2010-02-24 2011-08-25 Corriveau Philip J Facial Tracking Electronic Reader
US20110310001A1 (en) 2010-06-16 2011-12-22 Visteon Global Technologies, Inc Display reconfiguration based on face/eye tracking
US9274744B2 (en) 2010-09-10 2016-03-01 Amazon Technologies, Inc. Relative position-inclusive device interfaces
US9202105B1 (en) * 2012-01-13 2015-12-01 Amazon Technologies, Inc. Image analysis for user authentication

Also Published As

Publication number Publication date
BR112014018604B1 (pt) 2022-02-01
US9626150B2 (en) 2017-04-18
TWI490778B (zh) 2015-07-01
TW201403458A (zh) 2014-01-16
CN104094192B (zh) 2017-09-29
BR112014018604A8 (pt) 2021-03-09
JP2015514254A (ja) 2015-05-18
US20150033130A1 (en) 2015-01-29
EP2842014A4 (en) 2015-12-02
WO2013162603A1 (en) 2013-10-31
EP2842014A1 (en) 2015-03-04
CN104094192A (zh) 2014-10-08

Similar Documents

Publication Publication Date Title
JP6001758B2 (ja) ユーザからのオーディオ入力
TWI644307B (zh) 用於操作一虛擬助理之方法,電腦可讀儲存媒體,及系統
US11762494B2 (en) Systems and methods for identifying users of devices and customizing devices to users
US9430696B2 (en) Continuous enrollment for face verification
US20190237076A1 (en) Augmentation of key phrase user recognition
KR101726945B1 (ko) 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감
US11699442B2 (en) Methods and systems for speech detection
JP5837646B2 (ja) 通信システムにおける音声レベルを変化させるための制御システムおよび制御方法
US9883023B2 (en) Privacy mode detection and response over voice activated interface
US20160019886A1 (en) Method and apparatus for recognizing whisper
TW201606760A (zh) 從音頻訊號的即時情緒辨識
KR20140034088A (ko) 제스쳐-및 표현-기반 인증
CN104363205B (zh) 应用登录方法和装置
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
US10902001B1 (en) Contact presence aggregator
US20170180807A1 (en) Method and electronic device for amplifying video image
TWI457788B (zh) 互動式語音指令建構系統與方法
US11869510B1 (en) Authentication of intended speech as part of an enrollment process
JP2018205470A (ja) 対話装置、対話システム、対話方法及び対話プログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20150219

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151210

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160628

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20160707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160901

R150 Certificate of patent or registration of utility model

Ref document number: 6001758

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250