JP2018512619A - 発話の方向に基づく電子デバイスの制御 - Google Patents

発話の方向に基づく電子デバイスの制御 Download PDF

Info

Publication number
JP2018512619A
JP2018512619A JP2017549296A JP2017549296A JP2018512619A JP 2018512619 A JP2018512619 A JP 2018512619A JP 2017549296 A JP2017549296 A JP 2017549296A JP 2017549296 A JP2017549296 A JP 2017549296A JP 2018512619 A JP2018512619 A JP 2018512619A
Authority
JP
Japan
Prior art keywords
utterance
electronic device
frequency range
determining
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2017549296A
Other languages
English (en)
Other versions
JP2018512619A5 (ja
Inventor
サンラック・ユン
テス・キム
ダク・フン・キム
キュウン・ファン
Original Assignee
クアルコム,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by クアルコム,インコーポレイテッド filed Critical クアルコム,インコーポレイテッド
Publication of JP2018512619A publication Critical patent/JP2018512619A/ja
Publication of JP2018512619A5 publication Critical patent/JP2018512619A5/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Navigation (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

ユーザによって話された発話に応答して電子デバイスを制御するための方法が開示される。方法は、音センサによって入力音を受信するステップを含んでもよい。方法はまた、入力音中にユーザによって話された発話を検出し、入力音中の発話の検出に応答して、発話の第1の周波数範囲の第1の特性および第2の周波数範囲の第2の特性を決定し、第1および第2の特性に基づいて、ユーザによって話された発話の発信方向が電子デバイスに向けたものであるかどうかを決定してもよい。

Description

優先権の主張
本出願は、その内容全体が参照により組み込まれる、「CONTROLLING ELECTRONIC DEVICE BASED ON DIRECTION OF SPEECH」という名称の2015年3月27日に出願された米国出願第14/671,858号の優先権を主張する。
本開示は、一般に、電子デバイスを制御することに関し、より詳細には、音声コマンドに応答して電子デバイスを制御することに関する。
最近では、スマートフォン、タブレットコンピュータ、スマートTVなどの電子デバイスの使用が普及してきた。これらのデバイスは、しばしば、ワイヤレスまたはワイヤードネットワークを介して音声および/またはデータ通信機能を提供する。加えて、そのようなデバイスは、音処理、画像またはビデオ処理、ナビゲーション、音楽ファイルまたはマルチメディアファイルの再生など、ユーザの利便性を向上させる様々な機能を提供する場合がある。
そのような機能の中に、従来の電子デバイスはしばしば、発話認識(speech recognition)機能を備えている。そのような電子デバイスは、ユーザからの音声コマンドの受信および認識に応答して機能を実行する場合がある。たとえば、発話認識機能を備えた電子デバイスは、ユーザからの音声コマンドに応答してアプリケーションを起動する、オーディオファイルを再生する、または写真を撮る場合がある。
電子デバイスの普及により、ユーザはしばしば、互いに近くに位置している、発話認識機能を備えた複数の電子デバイスにアクセスできる。たとえば、ユーザは、ユーザのスマートフォン、タブレットコンピュータ、およびスマートTVがあるリビングルームにいる場合がある。そのような場合において、ユーザが、意図したターゲットとしてスマートフォンに向かって音声コマンドを話す場合、タブレットコンピュータおよびスマートTV、ならびにスマートフォンは、音声コマンドを受信し、これに応答することがある。したがって、そのような電子デバイスは、音声コマンドに応答することに関して、それらが音声コマンドの意図したターゲットであるかどうかを正確に決定することができないことがある。
本開示は、ユーザによって話された発話に応答して電子デバイスを制御するための方法および装置を提供する。
本開示の一態様によれば、ユーザによって話された発話に応答して電子デバイスを制御するための方法が開示される。方法は、音センサによって入力音を受信するステップを含んでもよい。方法はまた、入力音中にユーザによって話された発話を検出し、入力音中の発話の検出に応答して、発話の第1の周波数範囲の第1の特性および第2の周波数範囲の第2の特性を決定し、第1および第2の特性に基づいて、ユーザによって話された発話の発信方向(direction of departure)が電子デバイスに向けたものであるかどうかを決定してもよい。本開示はまた、この方法に関係するデバイスについて述べる。
本開示の別の態様によれば、電子デバイスが、音センサと、発話検出器と、周波数分析ユニットと、発話方向決定ユニットとを含んでもよい。音センサは、入力音を受信するように構成されてもよい。さらに、発話検出器は、入力音中にユーザによって話された発話を検出するように構成されてもよい。加えて、周波数分析ユニットは、入力音中の発話の検出に応答して、発話の第1の周波数範囲の第1の特性および第2の周波数範囲の第2の特性を決定するように構成されてもよく、発話方向決定ユニットは、第1および第2の特性に基づいて、ユーザによって話された発話の発信方向が電子デバイスに向けたものであるかどうかを決定するように構成されてもよい。
本開示の実施形態は、以下の詳細な説明を参照しながら、添付の図面とともに読むことで理解されよう。
本開示の一実施形態による、ユーザによって話された発話を検出し、発話の発信方向に基づいて機能を実行するように構成された電子デバイスを示す図である。 本開示の一実施形態による、ユーザによって話され、電子デバイスの音センサによって受信される音声コマンドの発信方向を示す図である。 本開示の一実施形態による、発信方向のユーザによって話され、電子デバイスの各々で1つまたは複数の音センサによって受信される音声コマンドを示す図である。 本開示の一実施形態による、発話の発信方向がそれ自体に向けたものであるかどうかを決定し、発話中の音声コマンドに関連する機能を実行するように構成された電子デバイスのブロック図である。 本開示の一実施形態による、ユーザによって話された発話に応答して電子デバイスを制御するための例示的な方法のフローチャートである。 本開示の一実施形態による、ユーザから受信される発話の発信方向(DOD)がそれ自体に向けたものであるかどうかを決定するための、電子デバイスにおいて実行される例示的な方法のフローチャートである。 本開示の一実施形態による、他の電子デバイスと接続してユーザによって話された発話に応答して電子デバイスを制御するための例示的な方法のフローチャートである。 本開示の一実施形態による、周波数の関数として、指定された時間における受信した入力音のエネルギー値をプロットすることによって電子デバイスによって生成される場合がある例示的なグラフである。 本開示の一実施形態による、ユーザによって話された発話の意図したターゲットを決定するために、通信ネットワークを介してサーバ920と通信するように構成された複数の電子デバイスを示す図である。 本開示の一実施形態による、サーバと接続してユーザによって話された発話に応答して電子デバイスを制御するための例示的な方法のフローチャートである。 ユーザによって話された発話に応答して電子デバイスを制御するための本開示の方法および装置がいくつかの実施形態により実装される場合がある、電子デバイスのブロック図である。 いくつかの実施形態により実装される、前に説明したサーバのいずれか1つであってもよい、サーバシステムを示すブロック図である。
次に、添付の図面にその例を示している、様々な実施形態を詳細に参照する。以下の詳細な説明では、本主題の完全な理解をもたらすために多数の具体的な詳細を記載する。しかしながら、本主題はこれらの具体的な詳細なしに実施される場合があることは当業者には明らかであろう。他の事例では、様々な実施形態の態様を不必要に不明瞭にしないように、よく知られている方法、手順、システム、および構成要素については詳細に説明していない。
図1は、本開示の一実施形態による、ユーザ110によって話された発話を検出し、発話の発信方向に基づいて機能を実行するように構成された電子デバイス120〜150を示す。電子デバイス120〜150は、携帯電話、スマートフォン、ラップトップコンピュータ、ウェアラブルコンピュータ、タブレットコンピュータ、ゲームデバイス、マルチメディアプレーヤ、スマートTV、音声制御照明デバイスなどの、音取込みおよび処理能力を備えた任意の適切なデバイスであってもよい。図示の実施形態では、電子デバイス120〜150は、それぞれ、スマートフォン、タブレットコンピュータ、スマートTV、および音声制御照明デバイスであり、部屋100にあってもよい。電子デバイス120〜150は部屋100の中に示されているが、任意の数の電子デバイスが、部屋100または任意の他の適切な場所でユーザ110の近傍にあってもよい。
ユーザ110は、ターゲットデバイスの動作を制御するために、ターゲットデバイスとして電子デバイス120〜150の1つに向かう方向に音声コマンドを話してもよい。本明細書で使用する「電子デバイスに向かう発信方向」という語句、またはその任意の変形物は、音源(たとえば、ユーザ)と電子デバイスとの間の直線に沿った方向を指し得るし、指定された角度または範囲内で直線からそれる任意の方向を含み得る。図示の実施形態では、ユーザ110は、電子デバイス120を起動するために、または電子デバイス120に機能(たとえば、音声アシスタントアプリケーション122)を実行するよう命令するために、電子デバイス120に向かう方向に音声コマンド(たとえば、「HI ASSISTANT」)を話してもよい。本明細書で使用する「音声コマンド」という用語は、電子デバイス120〜150において機能またはアプリケーションを実行または起動するためのコマンドまたは命令を示す1つまたは複数の単語または音を含む、任意の発話または発声を指してもよい。
音声コマンドに応答して、電子デバイス120〜150は、ユーザ110からの音声コマンドの発信方向に基づいて、音声コマンドに関連する機能を実行、またはアプリケーションを実行してもよい。たとえば、電子デバイス120は、「HI ASSISTANT」という音声コマンドの発信方向がそれ自体に向けたものであると決定すると、音声アシスタントアプリケーション122を起動してもよい。ユーザからの発話の発信方向に基づいて、電子デバイスが、以下でより詳細に示すように、ユーザによって話された発話がそれ自体に向かう方向にあるかどうかを決定してもよい。
電子デバイス120〜150は、音センサ(たとえば、マイクロフォン)を介して入力音を、連続的、周期的、または間欠的に受信し、入力音中に発話を検出するように構成されてもよい。図示の実施形態では、ユーザ110は、電子デバイス120の音声アシスタントアプリケーション122を起動するために、電子デバイス120に向かって音声コマンド(たとえば、「HI ASSISTANT」)を話してもよい。音声コマンドを含むユーザの発話は、入力音として、電子デバイス120〜150によって受信されてもよい。ユーザの発話が入力音として受信されているとき、電子デバイス120〜150は入力音中に発話を検出してもよい。
入力音中に発話が検出されると、電子デバイス120〜150の各々は、ユーザ110からの発話の発信方向(すなわち、発話の話された方向)がそれ自体に向けたものであるかどうかを決定してもよい。本明細書で使用する「発話の発信方向がそれ自体に向けたものであるかどうかを決定すること」という語句、またはその任意の変形物は、発話の話された方向が電子デバイスに向けたものであるかどうかを決定することを指し得るし、肯定検証(positive test)(すなわち、発話の話された方向が電子デバイスに向けたものであるかどうかを決定すること)、または否定検証(negative test)(すなわち、発話の話された方向が電子デバイスに向けたものではないかどうかを決定すること)のいずれかを含み得る。電子デバイス120〜150の中で、電子デバイス120は、発話の発信方向がそれ自体に向けたものであると決定し、発話中の音声コマンド(たとえば、「HI ASSISTANT」)を認識することによって、音声アシスタントアプリケーション122を起動することに進んでもよい。他の電子デバイス130〜150の各々は、発話の発信方向がそれ自体に向けたものではないと決定してもよく、したがって音声コマンドは処理されない。
発話の発信方向がそれ自体に向けたものであるかどうかを決定するために、電子デバイス120〜150の各々は、ユーザ110から受信される発話の特性を分析してもよい。一実施形態において、電子デバイス120〜150の各々は、発話の第1の周波数範囲(たとえば、第1の周波数帯域)の第1の特性および第2の周波数範囲(たとえば、第2の周波数帯域)の第2の特性を決定し、第1および第2の特性に基づいて、発話の発信方向がそれ自体に向けたものであるかどうかを決定してもよい。たとえば、第1の周波数範囲は、第2の周波数範囲よりも高い場合があり、第1および第2の周波数範囲は、少なくとも1つの周波数を含む場合がある。
一実施形態によれば、第1および第2の特性は、ユーザ110から受信される発話において関連する周波数範囲を特徴付ける場合がある、エネルギー値、スペクトルモーメント(たとえば、平均、分散、歪度、および尖度)、スペクトル平坦度、スペクトル中心、波高率、スペクトル傾斜、スペクトル減衰、F0軌跡などの値またはパラメータであってもよい。たとえば、電子デバイス120〜150の各々は、第1の特性と第2の特性の比率を計算し、その比率に基づいて、発話の発信方向がそれ自体に向けたものであると決定してもよい。代替または追加として、電子デバイス120〜150は、第1および第2の特性に基づいてスペクトル平坦度値を決定し、そのスペクトル平坦度値に基づいて、発話の発信方向がそれ自体に向けたものであると決定してもよい。計算された比率またはスペクトル平坦度値は、発話の発信方向がそれ自体に向けたものである確率を示す可能性がある。
特定の実施形態では、電子デバイス120〜150の各々が、発話の、高周波数範囲のエネルギー値と低周波数範囲のエネルギー値の比率を計算し、比率がしきい値以上であるとき、発話の発信方向がそれ自体に向けたものであると決定してもよく、しきい値は、所定のしきい値であってもよい。代替または追加として、電子デバイス120〜150の各々が、次式に従って、発話の高周波数範囲のスペクトル平坦度値を決定してもよい。
Figure 2018512619
上式で、ELは、低周波数範囲のエネルギー値を表し、H1〜Hnは、高周波数範囲のn個の部分を表し(たとえば、n=3のとき、高周波数範囲は3個の異なる部分に分割されてもよい)、EH1〜EHnは、それぞれ高周波数範囲のn個の部分のエネルギー値を表す。この場合、電子デバイス120〜150の各々は、スペクトル平坦度値がしきい値以下であるとき、発話の発信方向がそれ自体に向けたものであると決定してもよく、しきい値は、所定のしきい値であってもよい。
低周波数の信号または音は、すべての方向に伝播する傾向があるが、高周波数の信号または音は、主として信号または音の発信方向の伝播により指向性があるので、電子デバイス120〜150の各々は、発話の発信方向がそれ自体に向けたものであるかどうかを決定するために、高周波数範囲のエネルギー値と低周波数範囲のエネルギー値の比率、または高周波数範囲のスペクトル平坦度値を使用してもよい。図示の実施形態では、電子デバイス120は、発話の話された方向がそれ自体に向けたものであると決定し、発話中の音声コマンド(たとえば、「HI ASSISTANT」)を認識するために発話に発話認識を実行してもよい。音声コマンドが認識されると、電子デバイス120は、音声コマンド(たとえば、「HI ASSISTANT」)に関連する音声アシスタントアプリケーション122を起動してもよい。
いくつかの実施形態では、電子デバイス120〜150は、ワイヤードまたはワイヤレスネットワーク(図示せず)を介して互いに通信するように構成されてもよい。この場合、電子デバイス120〜150の各々は、ユーザ110によって話された発話を検出し、発話の第1の特性(たとえば、エネルギー値)と第2の特性(たとえば、エネルギー値)の比率、または発話の高周波数範囲のスペクトル平坦度値を計算してもよい。計算された比率またはスペクトル平坦度値は、次いで他の電子デバイスに送られてもよい。電子デバイス120〜150の比率またはスペクトル平坦度値を比較すると、最も高い比率または最も低いスペクトル平坦度値を有する、電子デバイス120〜150のうちの1つは、それが発話の意図したターゲットデバイスであると決定してもよい。応答して、ターゲット電子デバイスは、発話中の音声コマンドを認識し、音声コマンドに関連する機能を実行することに進んでもよい。
図2は、本開示の一実施形態による、ユーザ110によって話され、電子デバイス120の音センサによって受信される、音声コマンド210および220それぞれの発信方向212および222を示す。ユーザ110は、異なる時間に異なる方向に音声コマンド210および220を話す場合があり、音声コマンド210および220は、電子デバイス120によって発話として検出されてもよい。図示のように、ユーザ110からの音声コマンド210の発信方向212は、電子デバイス120に向かっていてもよく、音声コマンド220の発信方向222は、電子デバイス120から離れた別の方向であってもよい。
電子デバイス120は、発話の発信方向が、電子デバイス120とユーザ110との間の直線から指定された角度または範囲内にあると決定されるとき、その方向はそれ自体に向けたものであると決定するように構成されてもよい。図示の実施形態では、指定された角度または範囲は、ユーザ110と電子デバイス120との間の基準線230からβ度であってもよい。発話の発信方向と基準線230との間の角度が、β度以下である場合、電子デバイス120は、発話の発信方向はそれ自体に向けたものであると決定してもよい。たとえば、電子デバイス120は、音声コマンド210を発話として検出し、発話の発信方向212と基準線230との間の角度θ1が、β度未満であると決定する場合がある。この場合、電子デバイス120は、発話の発信方向212がそれ自体に向けたものであると決定し、音声コマンド210に関連する機能を実行するために、発話中の音声コマンド210を認識してもよい。
一方、電子デバイス120は、音声コマンド220を発話として検出し、発話の発信方向222と基準線230との間の角度θ2が、β度よりも大きいと決定する場合がある。この場合、電子デバイス120は、発話の発信方向222がそれ自体に向けたものではないと決定してもよく、したがって音声コマンド220は処理されない。したがって、ユーザ110からの発話の発信方向(DOD)に基づいて、電子デバイス120は、ユーザ110が同じ場所で異なる方向に話すとき、発話が電子デバイスに向かう方向に話されるかどうかを決定してもよい。一実施形態では、電子デバイス120は、単一の音センサ(たとえば、マイクロフォン)または任意の数の音センサを使用することによって、発話の発信方向を決定してもよい。
本明細書で使用する、発話の発信方向は、ユーザによって話された発話の到来角を指す「到来方向(direction of arrival)」(DOA)とは異なる。到来方向(DOA)が使用されるとすると、電子デバイス120は、電子デバイス120における音声コマンド210の到来方向は、基準線230によって定義される方向であると決定することができる。同様に、電子デバイス120は、電子デバイス120における音声コマンド220の到来方向は、音声コマンド220が電子デバイス120から離れる方向に話されるときでも、基準線230によって定義される方向であると決定することができる。どちらの場合も、電子デバイス120における音声コマンド210および220の到来方向230は、一対の音センサ(たとえば、一対のマイクロフォン)の間の直線として定義することができる基準線240からα度離れている。到来方向230は、異なる方向で話される音声コマンド210および220に対して同じであると決定されるので、電子デバイス120は、音源が基準線240に対してどの方向に位置しているかを決定するために到来方向(DOA)を使用し、発話が電子デバイス120に向かう方向に話されるかどうかを決定するために発信方向を使用してもよい。図2では電子デバイス120を示しているが、電子デバイス130、140、または150など、任意の他の電子デバイスが、電子デバイス120と同様の方法で、ユーザ(たとえば、ユーザ110)からの発話がそれ自体に向かう方向に話されるかどうかを決定するように構成されてもよい。
図3は、本開示の一実施形態による、発信方向312にユーザ110によって話され、電子デバイス120および130の各々の1つまたは複数の音センサによって受信される音声コマンド310を示す。ユーザ110は、電子デバイス120および130の近くに位置して、電子デバイス120に向かって音声コマンド310を話してもよい。図示のように、ユーザ110と電子デバイス120との距離D1が、ユーザ110と電子デバイス130との距離D2よりも大きい場合がある。
一実施形態では、電子デバイス120および130の各々は、音声コマンド310を発話として検出し、発話の第1の周波数範囲の第1の特性(たとえば、高周波数帯域のエネルギー値)と第2の周波数範囲の第2の特性(たとえば、低周波数帯域のエネルギー値)の比率を計算してもよい。代替または追加として、電子デバイス120および130の各々は、発話の第1の周波数範囲の第1の特性(たとえば、高周波数帯域のエネルギー値)および第2の周波数範囲の第2の特性(たとえば、低周波数帯域のエネルギー値)に基づいて、発話の高周波数範囲のスペクトル平坦度値を決定してもよい。計算された比率またはスペクトル平坦度値に基づいて、電子デバイス120および130の各々は、音声コマンド310の発信方向312がそれ自体に向けたものであるかどうかを決定してもよい。電子デバイス120または130によって受信される発話の信号強度は、ユーザ110からの距離(たとえば、D1またはD2)に応じて変化する場合があるので、電子デバイス120または130は、発話の第1の特性と第2の特性の比率、または発話の高周波数範囲のスペクトル平坦度値を、ユーザ110からの距離とは無関係である正規化された値として使用してもよい。したがって、電子デバイス120または130によって計算される比率またはスペクトル平坦度値は、ユーザ110から受信される入力音の信号強度とは無関係であり得る。
図示の実施形態によれば、電子デバイス120および130の各々は、音声コマンド310を発話として検出し、音源(たとえば、ユーザ110)からの距離D1またはD2とは無関係に、発話の発信方向312が、それ自体に向けたものであるかどうかを決定してもよい。たとえば、電子デバイス120は、音声コマンド310を発話として検出し、発話の高周波数帯域と低周波数帯域のエネルギー値間の比率、または高周波数帯域のスペクトル平坦度値に基づいて、発話の発信方向312がそれ自体に向けたものであると決定してもよい。一実施形態では、電子デバイス120は、比率がしきい値以上であるとき、またはスペクトル平坦度値がしきい値以下であるとき、発話の発信方向312がそれ自体に向けたものであると決定してもよい。発話の発信方向312がそれ自体に向けたものであると決定すると、電子デバイス120は、発話中の音声コマンド310を認識し、音声コマンド310に関連する機能を実行してもよい。
一方、電子デバイス120よりもユーザ110の近くに位置している電子デバイス130は、音声コマンド310を発話として検出し、発話の高周波数帯域と低周波数帯域のエネルギー値間の比率、または高周波数帯域のスペクトル平坦度値に基づいて、発話の発信方向312がそれ自体に向けたものではないと決定してもよい。距離D1は距離D2よりも大きいので、電子デバイス130によって受信される発話の音強度は、電子デバイス120のそれよりも大きい可能性があるが、電子デバイス130は、比率またはスペクトル平坦度値に基づいて、発話の発信方向312はそれ自体に向けたものではないと決定してもよく、したがって、音声コマンド310は処理されない。
図4は、本開示の一実施形態による、発話の発信方向がそれ自体に向けたものであるかどうかを決定し、発話中の音声コマンドに関連する機能を実行するように構成された電子デバイス120のブロック図を示す。電子デバイス120は、音センサ420、プロセッサ430、I/Oユニット440、ストレージユニット450、および通信ユニット460を含んでもよい。図示のように、プロセッサ430は、発話検出器432、周波数分析ユニット434、発話方向決定ユニット436、および発話認識ユニット438を含んでもよい。プロセッサ430は、アプリケーションプロセッサ(AP)、中央処理ユニット(CPU)、デジタル信号プロセッサ(DSP)などの、電子デバイス120を管理し、操作するための任意の適切なプロセッサであってもよい。電子デバイス120は、携帯電話、スマートフォン、ラップトップコンピュータ、ウェアラブルコンピュータ、タブレットコンピュータ、ゲームデバイス、マルチメディアプレーヤ、スマートTV、音声制御照明デバイスなどの、音取込みおよび処理能力を備えた任意の適切なデバイスであってもよい。
音センサ420は、連続的、周期的、または間欠的に入力音410を受信し、受信された入力音410を発話検出器432に提供するように構成されてもよい。たとえば、音センサ420は、入力音410としてユーザからの音声コマンドを含む発話の少なくとも一部分を受信し、入力音410を発話検出器432に提供してもよい。音センサ420は、1つもしくは複数のマイクロフォン、または入力音410を受信する、取り込む、検知する、および/もしくは検出するために使用することができる任意の他のタイプの音センサを含んでもよい。加えて、音センサ420は、そのような機能を実行するための任意の適切なソフトウェアおよび/またはハードウェアを採用してもよい。
いくつかの実施形態では、音センサ420は、電力消費を減らすために、デューティサイクルに従って入力音410を周期的に受信するように構成されてもよい。たとえば、音センサ420は、10%のデューティサイクルで周期的に起動されてもよい。100msの期間とすれば、音センサ420は、したがって、10ms間は「アクティブ状態」で、次の90ms間は「アイドル状態」で動作するように構成されてもよい。
この場合、デューティサイクルのアクティブ部分の間に、入力音410の一部分が受信されるとき、音センサ420は、入力音410の一部分がしきい値音強度よりも大きいかどうかを決定してもよい。特定の実施形態では、しきい値音強度は、所定のしきい値音強度であってもよい。入力音410の一部分の強度が、所定のしきい値音強度よりも大きいと決定される場合、音センサ420は、プロセッサ430内の発話検出器432を起動し、入力音410の一部分を発話検出器432に提供してもよい。代替的に、受信された一部分がしきい値音強度を超えるかどうかを決定することなしに、音センサ420は、デューティサイクルのアクティブ状態の間に周期的に入力音410の一部分を受信し、受信された一部分を発話検出器432に提供するために、発話検出器432を自動的に起動してもよい。別の実施形態では、音センサ420は、入力音410を連続的に受信し、受信された入力音410を発話検出器432に提供するために、発話検出器432を起動してもよい。
プロセッサ430内の発話検出器432は、起動されると、音センサ420から入力音410の少なくとも一部分を受け取ってもよい。発話検出器432は、次いで、入力音410の少なくとも一部分から複数の音特徴を抽出し、ガウス混合モデル(GMM)ベースの分類器、ニューラルネットワーク、隠れマルコフモデル(HMM)、グラフィカルモデル、サポートベクターマシン(SVM)などの任意の適切な音分類方法を使用することによって、抽出された音特徴が、発話などの対象となる音を示すかどうかを決定してもよい。入力音410の少なくとも一部分が、対象となる音(たとえば、発話)であると決定される場合、発話検出器432は、音センサ420を介して入力音410の残りの部分を受け取ってもよい。加えて、発話検出器432は、周波数分析ユニット434を起動し、入力音410を周波数分析ユニット434に提供してもよい。
周波数分析ユニット434は、入力音410としてユーザから受信された発話の特性を分析するように構成されてもよい。一実施形態では、周波数分析ユニット434は、発話(すなわち、入力音410)の、第1の周波数範囲(たとえば、第1の周波数帯域)の第1の特性、および第2の周波数範囲(たとえば、第2の周波数帯域)の第2の特性を決定してもよい。たとえば、第1の周波数範囲は、第2の周波数範囲よりも高い場合があり、第1および第2の周波数範囲は、少なくとも1つの周波数を含む場合がある。
一実施形態によれば、第1および第2の特性は、ユーザから受信される発話において関連する周波数範囲を特徴付ける場合がある、エネルギー値、スペクトルモーメント(たとえば、平均、分散、歪度、および尖度)、スペクトル平坦度、スペクトル中心、波高率、スペクトル傾斜、スペクトル減衰、F0軌跡などの値またはパラメータであってもよい。特定の実施形態では、周波数分析ユニット434は、第1の特性と第2の特性の比率を計算してもよい。たとえば、周波数分析ユニット434は、入力音410を時間領域から周波数領域または時間-周波数領域に変換し、高周波数範囲(たとえば、10kHz〜15kHz)のエネルギー値と低周波数範囲(たとえば、0kHz〜5kHz)のエネルギー値の比率を計算してもよい。代替または追加として、周波数分析ユニット434は、上記の式1を使用して、発話の高周波数範囲のスペクトル平坦度値を計算してもよい。周波数分析ユニット434は、計算された比率またはスペクトル平坦度値を発話方向決定ユニット436に提供してもよい。比率またはスペクトル平坦度値は、ユーザの発話の発信方向が電子デバイス120に向けたものである確率を示す可能性がある。
比率またはスペクトル平坦度値を受け取ると、発話方向決定ユニット436は、比率またはスペクトル平坦度値に基づいて、発話の発信方向がそれ自体に向けたものであるかどうかを決定してもよい。一実施形態では、発話方向決定ユニット436は、比率がしきい値以上であるとき、またはスペクトル平坦度値がしきい値以下であるとき、発話の発信方向が電子デバイス120に向けたものであると決定してもよい。特定の実施形態では、しきい値は、所定のしきい値であってもよい。低周波数の信号または音は、すべての方向に伝播する傾向があるが、高周波数の信号または音は、主として信号または音の発信方向の伝播により指向性があるので、周波数分析ユニット434は、発話の発信方向が電子デバイスに向けたものであるかどうかを決定するために、高周波数範囲のエネルギー値と低周波数範囲のエネルギー値の比率、または高周波数範囲のスペクトル平坦度値を使用してもよい。
ユーザの発話の発信方向が電子デバイス120に向けたものであるとの決定に応答して、入力音410は、発話に発話認識を実行するために発話認識ユニット438に提供されてもよい。発話認識ユニット438は、次いで、発話(すなわち、入力音410)中の音声コマンドを認識してもよい。一実施形態では、発話認識ユニット438は、1人または複数のユーザの発話および/または音声コマンドを認識する際に使用するために、ストレージユニット450からの言語モデル、音響モデル、文法モデルなどにアクセスしてもよい。ストレージユニット450は、リモートストレージまたはローカルストレージであってもよく、RAM(ランダムアクセスメモリ)、ROM(読取り専用メモリ)、EEPROM(電気的消去可能プログラマブル読取り専用メモリ)、フラッシュメモリ、またはSSD(ソリッドステートドライブ)などの、任意の適切なストレージまたはメモリデバイスを使用して実装されてもよい。音声コマンドが認識されると、プロセッサ430は、音声コマンドに関連する機能を実行し、I/Oユニット440を介してユーザにその結果を示してもよい。図4では電子デバイス120を示しているが、電子デバイス130、140、または150など、任意の他の電子デバイスが、電子デバイス120と同様の方法で、ユーザからの発話がそれ自体に向かう方向に話されるかどうかを決定するように構成されてもよい。
いくつかの実施形態では、電子デバイス120は、通信ユニット460を介して外部デバイス(たとえば、図1の電子デバイス120〜150またはサーバ)と通信するように構成されてもよい。この場合、電子デバイス120は、通信ユニット460を介して外部デバイスに、計算された比率またはスペクトル平坦度値を送ってもよい。電子デバイス120は、通信ユニット460を介して、発話の話された方向の表示として外部デバイスから比率またはスペクトル平坦度値を受信してもよい。比率またはスペクトル平坦度値を比較すると、電子デバイス120が最も高い比率または最も低いスペクトル平坦度値を有する場合、発話方向決定ユニット436は、電子デバイス120が発話の意図したターゲットデバイスであると決定してもよい。電子デバイス120が最も高い比率または最も低いスペクトル平坦度値を有すると決定される場合、発話認識ユニット438は、発話(すなわち、入力音410)中の音声コマンドを認識して、音声コマンドに関連する機能を実行してもよい。
代替または追加として、電子デバイス120は、それが音声コマンドの意図したターゲットデバイスであることを示す、外部デバイス(たとえば、サーバ)からのメッセージを受信する場合がある。メッセージを受信すると、発話認識ユニット438は、発話(すなわち、入力音410)中の音声コマンドを認識してもよい。プロセッサ430は、次いで、認識された音声コマンドに関連する機能を実行してもよい。
図5は、本開示の一実施形態による、ユーザによって話された発話に応答して電子デバイスを制御するための例示的な方法500のフローチャートを示す。最初に、電子デバイス(たとえば、図1の電子デバイス120〜150の1つ)は、510において、音センサ(たとえば、マイクロフォン)を介して入力音として音声コマンドを含む発話を受信する場合がある。520において、電子デバイスは、受信された入力音中に発話が検出されるかどうかを決定してもよい。電子デバイスは、ガウス混合モデル(GMM)ベースの分類器、ニューラルネットワーク、隠れマルコフモデル(HMM)、グラフィカルモデル、サポートベクターマシン(SVM)などの任意の方法を使用することによって、発話を検出してもよい。発話が検出されない場合(すなわち、520におけるNO)、方法500は、もとの510に進み、音センサを介して別の入力音を受信してもよい。
受信された入力音中に発話が検出されるとき(すなわち、520におけるYES)、電子デバイスは、530において、発話の発信方向(DOD)を決定し、発話の発信方向(DOD)がそれ自体に向けたものであるかどうかを決定してもよい。電子デバイスが、発話の発信方向(DOD)がそれ自体に向けたものではないと決定する場合(すなわち、530におけるNO)、方法500は、もとの510に進み、音センサを介して別の入力音を受信してもよい。一方、電子デバイスが、発話の発信方向(DOD)がそれ自体に向けたものであると決定する場合(すなわち、530におけるYES)、電子デバイスは、540において、発話中の音声コマンドを認識してもよい。発話中の音声コマンドが認識されると、電子デバイスは、550において、音声コマンドに関連する機能を実行してもよい。発話の第1の周波数範囲の第1の特性と第2の周波数範囲の第2の特性の比率を決定する、本開示のいくつかの実施形態について、図6〜図10を参照しながら以下で説明する。上記で説明したように、そのような実施形態は、発話の第1の周波数範囲の第1の特性と第2の周波数範囲の第2の特性の比率を決定する代わりに、またはそれに加えて、発話の高周波数範囲のスペクトル平坦度値を決定してもよい。
図6は、本開示の一実施形態による、ユーザから受信される発話の発信方向(DOD)がそれ自体に向けたものであるかどうかを決定するための、電子デバイスにおいて実行される例示的な方法530のフローチャートを示す。最初に、電子デバイスは、発話の第1の周波数範囲の第1の特性および第2の周波数範囲の第2の特性を、それぞれ610および620において決定してもよい。たとえば、第1の周波数範囲は、第2の周波数範囲よりも高い場合があり、第1および第2の周波数範囲は、少なくとも1つの周波数を含む場合がある。一実施形態によれば、第1および第2の特性は、ユーザから受信される発話において関連する周波数範囲を特徴付ける場合がある、エネルギー値、スペクトルモーメント(たとえば、平均、分散、歪度、および尖度)、スペクトル平坦度、スペクトル中心、波高率、スペクトル傾斜、スペクトル減衰、F0軌跡などの値またはパラメータであってもよい。
630において、電子デバイスは、発話の第1の周波数範囲の第1の特性と第2の周波数範囲の第2の特性の比率を決定してもよい。たとえば、電子デバイスは、発話の高周波数範囲のエネルギー値と低周波数範囲のエネルギー値の比率を計算してもよい。比率を決定すると、電子デバイスは、640において、比率がしきい値以上であるかどうかを決定してもよく、しきい値は所定のしきい値であってもよい。一実施形態では、誤警報(false alarm)を減らし、検出の精度を向上させるための最適な値が、しきい値として決定され、設定されてもよい。
比率がしきい値以上であるとき(すなわち、640におけるYES)、電子デバイスは、発話の発信方向がそれ自体に向けたものであると決定してもよく、方法530は、図5において方法540に進んで、発話中の音声コマンドを認識してもよい。一方、比率がしきい値未満であるとき(すなわち、640におけるNO)、電子デバイスは、発話の発信方向がそれ自体に向けたものではないと決定してもよく、方法530は、図5において方法510に進んで、音センサを介して別の入力音を受信してもよい。
図7は、本開示の一実施形態による、他の電子デバイスと接続してユーザによって話された発話に応答して電子デバイスを制御するための例示的な方法700のフローチャートを示す。最初に、電子デバイス(たとえば、図1の電子デバイス120〜150の1つ)は、710において、音センサ(たとえば、マイクロフォン)を介して入力音として音声コマンドを含む発話を受信する場合がある。720において、電子デバイスは、受信された入力音中に発話が検出されるかどうかを決定してもよい。電子デバイスは、ガウス混合モデル(GMM)ベースの分類器、ニューラルネットワーク、隠れマルコフモデル(HMM)、グラフィカルモデル、サポートベクターマシン(SVM)などの任意の方法を使用することによって、発話を検出してもよい。発話が検出されない場合(すなわち、720におけるNO)、方法700は、もとの710に進んで、音センサを介して別の入力音を受信してもよい。
受信された入力音中に発話が検出されるとき(すなわち、720におけるYES)、電子デバイスは、730において、発話の発信方向(DOD)を決定してもよい。一実施形態では、電子デバイスは、発話の高周波数範囲のエネルギー値と低周波数範囲のエネルギー値の比率を計算してもよい。740において、電子デバイスは、次いで、740において発話の発信方向(DOD)がそれ自体に向けたものであるかどうかを決定してもよい。一実施形態では、電子デバイスは、発話の高周波数範囲のエネルギー値と低周波数範囲のエネルギー値の比率がしきい値以上であるとき、発話の発信方向はそれ自体に向けたものであると決定してもよく、しきい値は、所定の値であってもよい。電子デバイスが、発話の発信方向(DOD)がそれ自体に向けたものではないと決定する場合(すなわち、740におけるNO)、方法700は、もとの710に進んで、音センサを介して別の入力音を受信してもよい。
一方、電子デバイスが、発話の発信方向(DOD)がそれ自体に向けたものであると決定する場合(すなわち、740におけるYES)、電子デバイスは、750において、外部デバイスから発話の話された方向の少なくとも1つの表示を受信してもよい。一実施形態では、発話の話された方向の表示は、外部デバイスで受信される発話の高周波数範囲のエネルギー値と低周波数範囲のエネルギー値の比率であってもよい。760において、電子デバイスは、計算された比率、および他の外部デバイスから受信された少なくとも1つの表示に基づいて、それが発話の意図したターゲットであるかどうかを決定してもよい。たとえば、電子デバイスは、計算された比率を他のデバイスから受信された比率と比較し、計算された比率が最も高い値を有するとき、それが発話のターゲットであると決定してもよい。
電子デバイスが、それは発話の意図したターゲットではないと決定する場合(すなわち、760におけるNO)、方法700は、もとの710に進んで、音センサを介して別の入力音を受信してもよい。一方、電子デバイスが、それは発話の意図したターゲットであると決定する場合(すなわち、760におけるYES)、電子デバイスは、770において、発話中の音声コマンドを認識してもよい。発話中の音声コマンドが認識されると、電子デバイスは、780において、音声コマンドに関連する機能を実行してもよい。別の実施形態では、電子デバイスは、740のステップの実行を省略してもよい。この場合、電子デバイスは、730において発話の発信方向(DOD)を決定(たとえば、発話の高周波数範囲のエネルギー値と低周波数範囲のエネルギー値の比率を計算)した後に、750において外部デバイスから発話の話された方向の少なくとも1つの表示を受信することに直ちに移ってもよい。
図8は、本開示の一実施形態による、指定された時間における受信された入力音のエネルギー値を周波数の関数としてプロットすることによって電子デバイスによって生成される場合がある例示的なグラフ800を示す。グラフ800の水平軸は、0Hzから始まる周波数範囲を表してもよく、垂直軸は、入力音のエネルギー値の範囲を表してもよい。たとえば、指定された周波数における入力音の信号強度が、エネルギー値として表されてもよい。グラフ800中の周波数範囲は、各周波数範囲が2.5kHzの幅を有する複数の周波数範囲810〜880(たとえば、周波数帯域)に分割されてもよい。代替的に、複数の周波数範囲810〜880は、異なる幅を有してもよい。
一実施形態では、電子デバイスは、音センサを介して入力音として特定の時間に音声コマンドを含むユーザの発話を受信してもよい。周波数範囲に関連する受信された音の強度は、次いで、エネルギー値に変換されてもよい。エネルギー値は、周波数の関数としてグラフ800にプロットされてもよい。
複数の周波数範囲810〜880の中で、電子デバイスは、低周波数範囲810および高周波数範囲850を選んでもよい。グラフ800は、選択された低周波数範囲810および高周波数範囲850で図示されるが、低周波数範囲または高周波数範囲に任意の数の周波数範囲が選択されてもよい。低周波数範囲810および高周波数範囲850の各々のエネルギー値が、周波数範囲内のエネルギー値を積分することによって取得されてもよい。電子デバイスは、次いで、高周波数範囲850と低周波数範囲810それぞれのエネルギー値の比率を計算してもよい。比率は、異なる方向伝搬特性(directional propagation characteristics)を有する場合がある高周波数範囲850および低周波数範囲810それぞれのエネルギー値に基づいているので、比率は、ユーザの発話の発信方向が電子デバイスに向けたものである確率を示す可能性がある。
電子デバイスは、比率が、しきい値以上であるとき、ユーザの発話の発信方向がそれ自体に向けたものであると決定するように構成されてもよく、しきい値は、所定のしきい値であってもよい。一実施形態では、誤警報を減らし、検出の精度を向上させるための最適な値が、しきい値として決定され、設定されてもよい。たとえば、しきい値は、0.5として設定されてもよい。この場合、高周波数範囲850と低周波数範囲810それぞれのエネルギー値の比率は、グラフ800に示されるように、0.6であると決定されてもよい。比率はしきい値以上であるので、電子デバイスは、ユーザの発話の発信方向はそれ自体に向けたものであると決定してもよい。一方、比率がしきい値未満であると決定される場合、電子デバイスは、ユーザの発話の発信方向はそれ自体に向けたものではないと決定してもよい。
一実施形態では、電子デバイスは、音センサを介して入力音として指定された時間期間の間、音声コマンドを含むユーザの発話を受信してもよい。入力音は、フーリエ変換などの、任意の適切な変換または関数を使用することによって、時間領域から時間周波数領域に変換されてもよい。この場合、電子デバイスは、周波数および時間の関数として、受信された入力音に関連するエネルギー値をプロットする3次元グラフを生成してもよい。たとえば、3次元グラフは、時間軸に沿って任意の適切な数の2次元グラフ(たとえば、グラフ800)を含んでもよい。低周波数範囲のエネルギー値および高周波数範囲のエネルギー値は、指定された時間期間中の周波数範囲内のエネルギー値を積分することによって取得されてもよい。電子デバイスは次いで、高周波数範囲と低周波数範囲のエネルギー値の比率を計算し、グラフ800を参照しながら説明したものと同様の方法で、ユーザの発話の発信方向がそれ自体に向けたものであるかどうかを決定してもよい。
図9は、本開示の一実施形態による、ユーザ110によって話された発話の意図したターゲットを決定するために、通信ネットワーク910を介してサーバ920と通信するように構成された複数の電子デバイス120〜150を示す。図示の実施形態では、電子デバイス120〜150は、それぞれ、スマートフォン、タブレットコンピュータ、スマートTV、および音声制御照明デバイスであり、部屋900にあってもよい。電子デバイス120〜150は部屋900の中に示しているが、任意の数の電子デバイスが、部屋900または任意の他の適切な場所でユーザ110の近傍にあってもよい。
図示の実施形態では、ユーザ110は、電子デバイス130を起動するために、または電子デバイス120に機能を実行するよう命令するために、電子デバイス130に向かう方向に音声コマンドを話してもよい。この場合、電子デバイス120〜150の各々は、音声コマンドを入力音として受信し、入力音中に発話を検出してもよい。発話を検出すると、電子デバイス120〜150の各々は、発話の第1の周波数範囲の第1の特性(たとえば、高周波数範囲のエネルギー値)と第2の周波数範囲の第2の特性(たとえば、低周波数範囲のエネルギー値)の比率を計算してもよい。
計算された比率は次いで、通信ネットワーク910を介してサーバ920に送られてもよい。一実施形態では、通信ネットワーク910は、ワイヤードネットワークまたはワイヤレスネットワークであってもよい。比率を受信すると、サーバ920は、電子デバイス120〜150から受信された比率を比較し、最も高い比率を有する電子デバイスが音声コマンドの意図したターゲットデバイスであると決定してもよい。
加えて、サーバ920は、最も高い比率をしきい値と比較するように構成されてもよく、しきい値は、所定の値であってもよい。たとえば、しきい値は、誤警報を減らし、検出の精度を向上させるための最適な値として決定されてもよい。最も高い比率がしきい値以上であるとき、サーバ920は、最も高い比率を有する電子デバイスが音声コマンドの意図したターゲットデバイスであると決定してもよい。一方、最も高い比率がしきい値未満であるとき、サーバ920は、電子デバイスのどれも音声コマンドの意図したターゲットデバイスではないと決定してもよい。
図示の実施形態では、ユーザは電子デバイス130に向かう方向に音声コマンドを話したので、サーバ920は、電子デバイス130から受信される比率は、電子デバイス120〜150から受信される比率の中で最も高い比率であると決定することができる。応答して、サーバ920は、電子デバイス130に、それが音声コマンドの意図したターゲットデバイスであることを示すメッセージを送ってもよい。メッセージを受信すると、電子デバイス130は、音声コマンドを認識し、音声コマンドに関連する機能を実行することに進んでもよい。
図10は、本開示の一実施形態による、サーバと接続してユーザによって話された発話に応答して電子デバイスを制御するための例示的な方法1000のフローチャートを示す。最初に、電子デバイス(たとえば、図1の電子デバイス120〜150の1つ)は、1010において、音センサ(たとえば、マイクロフォン)を介して入力音として音声コマンドを含む発話を受信する場合がある。1020において、電子デバイスは、受信された入力音中に発話が検出されるかどうかを決定してもよい。電子デバイスは、ガウス混合モデル(GMM)ベースの分類器、ニューラルネットワーク、隠れマルコフモデル(HMM)、グラフィカルモデル、サポートベクターマシン(SVM)などの任意の方法を使用することによって、発話を検出してもよい。発話が検出されない場合(すなわち、1020におけるNO)、方法1000は、もとの1010に進んで、音センサを介して別の入力音を受信してもよい。
受信された入力音に発話が検出されると(すなわち、1020におけるYES)、電子デバイスは、1030において発話の第1の周波数範囲の第1の特性(たとえば、高周波数範囲のエネルギー値)と第2の周波数範囲の第2の特性(たとえば、低周波数範囲のエネルギー値)の比率を計算してもよい。計算された比率は、発話の発信方向がそれ自体に向けたものである確率を示す可能性がある。1040において、電子デバイスは、計算された比率をサーバに送ってもよい。
サーバに比率を送った後、電子デバイスは、1050において、それが音声コマンドの意図したターゲットデバイスであることを示すメッセージが、指定された時間期間内にサーバから受信されるかどうかを決定してもよい。電子デバイスが、指定された時間期間中にサーバから信号を受信しない場合、方法1000は、もとの1010に進んで、音センサを介して別の入力音を受信してもよい。一方、電子デバイスが、指定された期間内にサーバから信号を受信する場合、電子デバイスは、1060において、発話中の音声コマンドを認識してもよい。発話中の音声コマンドが認識されると、電子デバイスは、1070において、音声コマンドに関連する機能を実行してもよい。
図11は、ユーザによって話された発話に応答して電子デバイスを制御するための本開示の方法および装置がいくつかの実施形態により実装される場合がある、電子デバイス1100のブロック図を示す。電子デバイス1100は、携帯電話、スマートフォン、ウェアラブルコンピュータ、スマートウォッチ、スマートグラス、タブレットパーソナルコンピュータ、端末、ハンドセット、携帯情報端末(PDA)、ワイヤレスモデム、コードレス電話、タブレットなどであってよい。ワイヤレス通信システムは、CDMAシステム、GSM(登録商標)システム、W-CDMAシステム、LTEシステム、LTEアドバンストシステムなどであってよい。
電子デバイス1100は、受信経路および送信経路を介して双方向通信を行うことが可能であってもよい。受信経路では、基地局によって送信された信号が、アンテナ1112によって受信されてもよく、受信機(RCVR)1114に提供されてもよい。受信機1114は、受信された信号を調整およびデジタル化し、調整およびデジタル化されたデジタル信号を、さらなる処理のためにデジタル部に提供してもよい。送信経路では、送信機(TMTR)1116は、送信されるべきデータをデジタル部1120から受信し、データを処理および調整し、被変調信号を生成してもよく、被変調信号はアンテナ1112を介して基地局に送信される。受信機1114および送信機1116は、CDMA、GSM(登録商標)、W-CDMA、LTE、LTEアドバンストなどをサポートする場合があるトランシーバの一部であってよい。
デジタル部1120は、たとえば、モデムプロセッサ1122、縮小命令セットコンピュータ/デジタル信号プロセッサ(RISC/DSP)1124、コントローラ/プロセッサ1126、内部メモリ1128、汎用オーディオ/ビデオエンコーダ1132、汎用オーディオデコーダ1134、グラフィックス/ディスプレイプロセッサ1136、および外部バスインターフェース(EBI)1138などの、様々な処理ユニット、インターフェースユニット、およびメモリユニットを含んでもよい。モデムプロセッサ1122は、データ送信および受信のための処理、たとえば、符号化、変調、復調、および復号を実行してもよい。RISC/DSP1124は、電子デバイス1100のための一般的および専門的処理を実行することができる。コントローラ/プロセッサ1126は、デジタル部1120内の様々な処理ユニットおよびインターフェースユニットの動作を実行することができる。内部メモリ1128は、デジタル部1120内の様々なユニットのためのデータおよび/または命令を記憶することができる。
汎用オーディオ/ビデオエンコーダ1132は、オーディオ/ビデオソース1142、マイクロフォン1144、画像センサ1146などからの入力信号に対して、符号化を実行することができる。汎用オーディオデコーダ1134は、コード化オーディオデータに対して復号を実行することができ、出力信号をスピーカー/ヘッドセット1148に与えることができる。グラフィックス/ディスプレイプロセッサ1136は、ディスプレイユニット1150に提示され得るグラフィックス、ビデオ、画像、およびテキストに対して処理を実行することができる。EBI1138は、デジタル部1120とメインメモリ1152との間のデータの転送を容易にすることができる。
デジタル部1120は、1つまたは複数のプロセッサ、DSP、マイクロプロセッサ、RISCなどを用いて実装されてもよい。デジタル部1120はまた、1つまたは複数の特定用途向け集積回路(ASIC)および/または何らかの他のタイプの集積回路(IC)上に製作されてもよい。
図12は、いくつかの実施形態に従って実施される、前に説明したサーバのうちのいずれか1つであってもよいサーバシステム1200を示すブロック図である。サーバシステム1200は、1つまたは複数の処理ユニット(たとえば、CPU)1202と、1つまたは複数のネットワークまたは他の通信ネットワークインターフェースと、メモリ1212と、これらの構成要素を相互接続するための1つまたは複数の通信バス1214とを含む場合がある。サーバシステム1200はまた、ディスプレイデバイスおよびキーボードを有するユーザインターフェース(図示せず)を含む場合がある。
メモリ1212は、高速ランダムアクセスメモリ(たとえば、DRAM、SRAM、DDR RAMまたは他のランダムアクセスソリッドステートメモリデバイス)のような任意の適切なメモリであってよい。メモリ1212は、不揮発性メモリ(たとえば、1つもしくは複数の磁気ディスクストレージデバイス、光ディスクストレージデバイス、フラッシュメモリデバイス、もしくは他の不揮発性ソリッドステートストレージデバイス)を含んでよく、または代替的に不揮発性メモリであってよい。いくつかの実施形態では、メモリ1212は、CPU1202から遠隔に位置する、および/または複数のサイトの中に遠隔に位置する1つまたは複数のストレージデバイスを含む場合がある。
メモリ1212によって表される上記のメモリデバイスのうちのいずれも、前に説明したプロセス、動作、および方法のいずれかを実施および/または実行するための命令のセットに対応する、任意の数のモジュールまたはプログラムを記憶する場合がある。たとえば、メモリ1212は、様々な基本システムサービスを処理するための、およびハードウェア依存作業を実行するための手順を含む命令を記憶するように構成されたオペレーティングシステム1216を含む場合がある。メモリ1212のネットワーク通信モジュール1218は、インターネット、他のワイドエリアネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなどのような、1つまたは複数の通信ネットワークインターフェース1210(ワイヤードまたはワイヤレスの)および1つまたは複数の通信ネットワークを介して、サーバシステム1200を他のコンピュータに接続するために使用される場合がある。
メモリ1212はまた、言語モデル、音響モデル、文法モデルなどを含むように構成されたデータベース1220を含む場合がある。データベース内のモデルの各々は、1人または複数のユーザの発話および/またはコマンドを認識するために使用されてもよい。オペレーティングシステム1216は、ネットワーク通信モジュール1218を介してデータベース1220を更新してもよい。オペレーティングシステム1216はまた、ネットワーク通信モジュール1218を介して、電子デバイスが音声コマンドの意図したターゲットデバイスであることを示すメッセージを提供してもよい。
一般に、本明細書で説明する任意のデバイスは、ワイヤレス電話、携帯電話、ラップトップコンピュータ、ワイヤレスマルチメディアデバイス、ワイヤレス通信パーソナルコンピュータ(PC)カード、PDA、外部モデムまたは内部モデム、ワイヤレスチャネルを通じて通信するデバイスなどのような様々なタイプのデバイスを表す場合がある。デバイスは、アクセス端末(AT)、アクセスユニット、加入者ユニット、移動局、モバイルデバイス、モバイルユニット、モバイルフォン、モバイル、リモート局、リモート端末、リモートユニット、ユーザデバイス、ユーザ機器、ハンドヘルドデバイスなどのような様々な名前を有する場合がある。本明細書で説明するいずれのデバイスも、命令およびデータを記憶するためのメモリ、ならびにハードウェア、ソフトウェア、ファームウェア、またはそれらの組合せを有する場合がある。
本明細書で説明した技法は、様々な手段によって実現される場合がある。たとえば、これらの技法は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組合せで実装される場合がある。本明細書の開示に関連して説明する様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装される場合があることを当業者はさらに諒解されよう。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、およびステップについて、概してそれらの機能に関して上記で説明した。そのような機能がハードウェアとして実装されるか、ソフトウェアとして実装されるかは、特定の適用例および全体的なシステムに課される設計制約によって決まる。当業者は、説明した機能を特定の適用例ごとに様々な方式によって実装してもよいが、そのような実装の決定は、本開示の範囲からの逸脱を引き起こすものと解釈されるべきではない。
ハードウェア実装形態では、本技法を実行するために使用される処理ユニットは、1つまたは複数のASIC、DSP、デジタル信号処理デバイス(DSPD)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書で説明する機能を実行するように設計された他の電子ユニット、コンピュータ、またはそれらの組合せ内で実装される場合がある。
したがって、本明細書の開示に関連して説明する様々な例示的な論理ブロック、モジュール、および回路は、汎用プロセッサ、DSP、ASIC、FPGAもしくは他のプログラマブル論理デバイス、個別ゲートもしくはトランジスタ論理、個別ハードウェア構成要素、または本明細書で説明する機能を実行するように設計されたそれらの任意の組合せを用いて、実装または実行される場合がある。汎用プロセッサはマイクロプロセッサであってもよいが、代替として、プロセッサは、任意のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であってもよい。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、DSPとマイクロプロセッサの組合せ、複数のマイクロプロセッサ、DSPコアと連携した1つもしくは複数のマイクロプロセッサ、または任意の他のそのような構成として実現される場合もある。
ソフトウェアで実装される場合、機能は、コンピュータ可読媒体に記憶されてもよい。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む、コンピュータ記憶媒体と通信媒体の両方を含む。記憶媒体は、コンピュータがアクセスすることができるどんな利用可能な媒体であってもよい。限定ではなく例として、そのようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD-ROMもしくは他の光ディスクストレージ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、または命令もしくはデータ構造の形態の所望のプログラムコードを搬送もしくは記憶するために使用することができ、コンピュータがアクセスすることができる他のどんな媒体も含むことができる。ディスク(disk)およびディスク(disc)は、本明細書で使用するとき、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピーディスク(disk)、およびBlu-ray(登録商標)ディスク(disc)を含み、ディスク(disk)は通常、データを磁気的に再生し、ディスク(disc)は、レーザーを用いてデータを光学的に再生する。上記の組合せも、コンピュータ可読媒体の範囲に含まれるべきである。たとえば、コンピュータ可読記憶媒体は、プロセッサによって実行可能である命令を含む非一時的コンピュータ可読ストレージデバイスであってもよい。したがって、コンピュータ可読記憶媒体は信号ではないことがある。
本開示のこれまでの説明は、当業者が本開示を作製または使用することを可能にするために提供される。本開示の様々な修正は当業者に容易に明らかになり、本明細書で定義する一般原理は、本開示の範囲から逸脱することなく、他の変形形態に適用される。したがって、本開示は本明細書で説明する例に限定されるものではなく、本明細書で開示する原理および新規の特徴と一致する最も広い範囲を与えられるべきである。
本明細書で開示する主題の態様を1つまたは複数のスタンドアロンのコンピュータシステムという文脈において利用して、例示的な実装形態に言及するが、主題はそのように限定されず、むしろネットワークまたは分散コンピューティング環境のような任意のコンピューティング環境に関連して実装されてもよい。またさらに、本明細書で開示する主題の態様は、複数の処理チップもしくはデバイスの中で、または複数の処理チップもしくはデバイスにわたって実装されてよく、ストレージが複数のデバイスにわたって同様に割り当てられてよい。そのようなデバイスは、PC、ネットワークサーバ、およびハンドヘルドデバイスを含んでもよい。
構造的な特徴および/または方法論的な行為に特有の言葉で主題について説明してきたが、添付の特許請求の範囲で定義する主題は必ずしも上記で説明した特定の特徴または行為に限定されるとは限らないことを理解されたい。むしろ、上記で説明した特定の特徴および行為は、特許請求の範囲を実装する例示的な形態として開示される。
上記で特定されたモジュールまたはプログラム(すなわち、命令のセット)は、別個のソフトウェアプログラム、プロシージャまたはモジュールとして実装される必要はなく、したがって、様々な実施形態において、これらのモジュールの様々なサブセットが組み合わされてよく、または場合によっては再構成されてよいことが諒解されよう。さらに、メモリ1212は、上記で説明されていないさらなるモジュールおよびデータ構造を記憶してよい。
<本開示の態様>
以下に、本開示のいくつかの態様をさらに述べる。
本開示の一態様によれば、音センサによって入力音を受信するステップと、入力音中にユーザによって話された発話を検出するステップと、入力音中の発話の検出に応答して、発話の第1の周波数範囲の第1の特性および第2の周波数範囲の第2の特性を決定するステップと、第1および第2の特性に基づいて、ユーザによって話された発話の発信方向が電子デバイスに向けたものであるかどうかを決定するステップとを含む、ユーザによって話された発話に応答して電子デバイスを制御するための方法が提供される。
実施例1に記載の方法では、第1の周波数範囲は、第2の周波数範囲よりも高い。
実施例1または2に記載の方法では、第1および第2の周波数範囲は、少なくとも1つの周波数を含む。
実施例1から3のいずれか1つに記載の方法は、発話の発信方向が電子デバイスに向けたものであるとの決定に応答して、発話中の音声コマンドを認識するステップと、認識された音声コマンドに関連する機能を実行するステップとをさらに含む。
実施例1から4のいずれか1つに記載の方法では、発話の第1の周波数範囲の第1の特性および第2の周波数の第2の特性を決定するステップが、第1の周波数範囲の第1のエネルギー値を第1の特性として決定するステップと、第2の周波数範囲の第2のエネルギー値を第2の特性として決定するステップとを含む。
実施例1から5のいずれか1つに記載の方法では、発話の発信方向が電子デバイスに向けたものであるかどうかを決定するステップが、第1のエネルギー値と第2のエネルギー値の比率を決定するステップと、比率に基づいて、発話の発信方向が電子デバイスに向けたものであると決定するステップとを含む。
実施例1から6のいずれか1つに記載の方法では、比率は、入力音の信号強度とは無関係である。
実施例1から7のいずれか1つに記載の方法は、外部デバイスから発話の話された方向の表示を受信するステップをさらに含む。
実施例1から8のいずれか1つに記載の方法は、第1および第2の特性ならびに外部デバイスからの表示に基づいて、発話のターゲットが電子デバイスか、それとも外部デバイスかを決定するステップと、発話のターゲットが電子デバイスであるとの決定に応答して発話中の音声コマンドを認識するステップと、認識された音声コマンドに関連する機能を実行するステップとをさらに含む。
本開示の別の態様によれば、入力音を受信するように構成された音センサと、入力音中にユーザによって話された発話を検出するように構成された発話検出器と、入力音中の発話の検出に応答して、発話の第1の周波数範囲の第1の特性および第2の周波数範囲の第2の特性を決定するように構成された周波数分析ユニットと、第1および第2の特性に基づいて、ユーザによって話された発話の発信方向が電子デバイスに向けたものであるかどうかを決定するように構成された発話方向決定ユニットとを含む、電子デバイスが提供される。
実施例10に記載の電子デバイスでは、第1の周波数範囲は、第2の周波数範囲よりも高い。
実施例10または11に記載の電子デバイスでは、第1および第2の周波数範囲は、少なくとも1つの周波数を含む。
実施例10から12のいずれか1つに記載の電子デバイスは、発話の発信方向が電子デバイスに向けたものであるとの決定に応答して、発話中の音声コマンドを認識するように構成された発話認識ユニットをさらに含み、電子デバイスは、認識された音声コマンドに関連する機能を実行する。
実施例10から13のいずれか1つに記載の電子デバイスでは、周波数分析ユニットは、第1の周波数範囲の第1のエネルギー値を第1の特性として決定することと、第2の周波数範囲の第2のエネルギー値を第2の特性として決定することとを行うように構成される。
実施例10から14のいずれか1つに記載の電子デバイスでは、発話方向決定ユニットは、第1のエネルギー値と第2のエネルギー値の比率を決定することと、比率に基づいて、発話の発信方向が電子デバイスに向けたものであると決定することとを行うように構成される。
実施例10から15のいずれか1つに記載の電子デバイスでは、比率は、入力音の信号強度とは無関係である。
実施例10から16のいずれか1つに記載の電子デバイスは、外部デバイスから発話の話された方向の表示を受信するように構成された通信ユニットをさらに含む。
実施例10から17のいずれか1つに記載の電子デバイスでは、発話方向決定ユニットは、第1および第2の特性ならびに外部デバイスからの表示に基づいて、発話のターゲットが電子デバイスか、それとも外部デバイスかを決定するように構成され、電子デバイスは、発話のターゲットが電子デバイスであるとの決定に応答して発話中の音声コマンドを認識するように構成された発話認識ユニットをさらに備え、電子デバイスは、認識された音声コマンドに関連する機能を実行する。
本開示のさらに別の態様によれば、入力音を受信するための手段と、入力音中にユーザによって話された発話を検出するための手段と、入力音中の発話の検出に応答して、発話の第1の周波数範囲の第1の特性および第2の周波数範囲の第2の特性を決定するための手段と、第1および第2の特性に基づいて、ユーザによって話された発話の発信方向が電子デバイスに向けたものであるかどうかを決定するための手段とを含む、電子デバイスが提供される。
実施例19に記載の電子デバイスは、発話の発信方向が電子デバイスに向けたものであるとの決定に応答して、発話中の音声コマンドを認識するための手段と、認識された音声コマンドに関連する機能を実行するための手段とをさらに含む。
実施例19または20に記載の電子デバイスでは、発話の第1の周波数範囲の第1の特性および第2の周波数の第2の特性を決定するための手段は、第1の周波数範囲の第1のエネルギー値を第1の特性として決定することと、第2の周波数範囲の第2のエネルギー値を第2の特性として決定することとを行うように構成される。
実施例19から21のいずれか1つに記載の電子デバイスでは、ユーザによって話された発話の発信方向が電子デバイスに向けたものであるかどうかを決定するための手段は、第1のエネルギー値と第2のエネルギー値の比率を決定することと、比率に基づいて、発話の発信方向が電子デバイスに向けたものであると決定することとを行うように構成される。
実施例19から22のいずれか1つに記載の電子デバイスは、外部デバイスから発話の話された方向の表示を受信するための手段をさらに含む。
実施例19から23のいずれか1つに記載の電子デバイスでは、ユーザによって話された発話の発信方向が電子デバイスに向けたものであるかどうかを決定するための手段は、第1および第2の特性ならびに外部デバイスからの表示に基づいて、発話のターゲットが電子デバイスか、それとも外部デバイスかを決定するように構成され、電子デバイスは、発話のターゲットが電子デバイスであるとの決定に応答して発話中の音声コマンドを認識するための手段と、認識された音声コマンドに関連する機能を実行するための手段とをさらに備える。
本開示のさらに別の態様によれば、音センサによって入力音を受信する動作と、入力音中にユーザによって話された発話を検出する動作と、入力音中の発話の検出に応答して、発話の第1の周波数範囲の第1の特性および第2の周波数範囲の第2の特性を決定する動作と、第1および第2の特性に基づいて、ユーザによって話された発話の発信方向が電子デバイスに向けたものであるかどうかを決定する動作とを、電子デバイスの少なくとも1つのプロセッサに実行させる命令を含む非一時的コンピュータ可読記憶媒体が提供される。
実施例25に記載の非一時的コンピュータ可読記憶媒体は、発話の発信方向が電子デバイスに向けたものであるとの決定に応答して、発話中の音声コマンドを認識する動作と、認識された音声コマンドに関連する機能を実行する動作とを、電子デバイスの少なくとも1つのプロセッサに実行させる命令をさらに含む。
実施例25または26に記載の非一時的コンピュータ可読記憶媒体では、発話の第1の周波数範囲の第1の特性および第2の周波数の第2の特性を決定することが、第1の周波数範囲の第1のエネルギー値を第1の特性として決定することと、第2の周波数範囲の第2のエネルギー値を第2の特性として決定することとを含む。
実施例25から27のいずれか1つに記載の非一時的コンピュータ可読記憶媒体では、発話の発信方向が電子デバイスに向けたものであるかどうかを決定することが、第1のエネルギー値と第2のエネルギー値の比率を決定することと、比率に基づいて、発話の発信方向が電子デバイスに向けたものであると決定することとを含む。
実施例25から28のいずれか1つに記載の非一時的コンピュータ可読記憶媒体は、外部デバイスから発話の話された方向の表示を受信する動作を、電子デバイスの少なくとも1つのプロセッサに実行させる命令をさらに含む。
実施例25から29のいずれか1つに記載の非一時的コンピュータ可読記憶媒体は、第1および第2の特性ならびに外部デバイスからの表示に基づいて、発話のターゲットが電子デバイスか、それとも外部デバイスかを決定する動作と、発話のターゲットが電子デバイスであるとの決定に応答して発話中の音声コマンドを認識する動作と、認識された音声コマンドに関連する機能を実行する動作とを、電子デバイスの少なくとも1つのプロセッサに実行させる命令をさらに含む。
100 部屋
110 ユーザ
120 電子デバイス
122 音声アシスタントアプリケーション
130 電子デバイス
140 電子デバイス
150 電子デバイス
210 音声コマンド
212 発信方向
220 音声コマンド
222 発信方向
230 基準線
240 基準線
310 音声コマンド
312 発信方向
410 入力音
420 音センサ
430 プロセッサ
432 発話検出器
434 周波数分析ユニット
436 発話方向決定ユニット
438 発話認識ユニット
440 I/Oユニット
450 ストレージユニット
460 通信ユニット
900 部屋
910 ネットワーク
920 サーバ
1100 電子デバイス
1112 アンテナ
1114 受信機(RCVR)
1116 送信機(TMTR)
1120 デジタル部
1122 モデムプロセッサ
1124 縮小命令セットコンピュータ/デジタル信号プロセッサ(RISC/DSP)
1126 コントローラ/プロセッサ
1128 内部メモリ
1132 汎用オーディオ/ビデオエンコーダ
1134 汎用オーディオデコーダ
1136 グラフィックス/ディスプレイプロセッサ
1138 外部バスインターフェース(EBI)
1142 オーディオ/ビデオソース
1144 マイクロフォン
1146 画像センサ
1148 スピーカー/ヘッドセット
1150 ディスプレイユニット
1152 メインメモリ
1200 サーバシステム
1202 処理ユニット
1212 メモリ
1214 通信バス
1216 オペレーティングシステム
1218 ネットワーク通信モジュール
1220 データベース

Claims (30)

  1. ユーザによって話された発話に応答して電子デバイスを制御するための方法であって、
    音センサによって入力音を受信するステップと、
    前記入力音中に前記ユーザによって話された前記発話を検出するステップと、
    前記入力音中の前記発話の検出に応答して、前記発話の第1の周波数範囲の第1の特性および第2の周波数範囲の第2の特性を決定するステップと、
    前記第1および第2の特性に基づいて、前記ユーザによって話された前記発話の発信方向が前記電子デバイスに向けたものであるかどうかを決定するステップと
    を含む、方法。
  2. 前記第1の周波数範囲が前記第2の周波数範囲よりも高い、請求項1に記載の方法。
  3. 前記第1および第2の周波数範囲が、少なくとも1つの周波数を含む、請求項1に記載の方法。
  4. 前記発話の前記発信方向が前記電子デバイスに向けたものであるとの決定に応答して、前記発話中の音声コマンドを認識するステップと、
    前記認識された音声コマンドに関連する機能を実行するステップと
    をさらに含む、請求項1に記載の方法。
  5. 前記発話の第1の周波数範囲の第1の特性および第2の周波数範囲の第2の特性を決定するステップが、
    前記第1の周波数範囲の第1のエネルギー値を前記第1の特性として決定するステップと、
    前記第2の周波数範囲の第2のエネルギー値を前記第2の特性として決定するステップと
    を含む、請求項1に記載の方法。
  6. 前記発話の発信方向が前記電子デバイスに向けたものであるかどうかを決定するステップが、
    前記第1のエネルギー値と前記第2のエネルギー値の比率を決定するステップと、
    前記比率に基づいて、前記発話の前記発信方向が前記電子デバイスに向けたものであると決定するステップと
    を含む、請求項5に記載の方法。
  7. 前記比率が、前記入力音の信号強度とは無関係である、請求項6に記載の方法。
  8. 外部デバイスから前記発話の話された方向の表示を受信するステップ
    をさらに含む、請求項1に記載の方法。
  9. 前記第1および第2の特性ならびに前記外部デバイスからの前記表示に基づいて、前記発話のターゲットが前記電子デバイスであるか、それとも前記外部デバイスであるかを決定するステップと、
    前記発話の前記ターゲットが前記電子デバイスであるとの決定に応答して、前記発話中の音声コマンドを認識するステップと、
    前記認識された音声コマンドに関連する機能を実行するステップと
    をさらに含む、請求項8に記載の方法。
  10. 電子デバイスであって、
    入力音を受信するように構成された音センサと、
    前記入力音中にユーザによって話された発話を検出するように構成された発話検出器と、
    前記入力音中の前記発話の検出に応答して、前記発話の第1の周波数範囲の第1の特性および第2の周波数範囲の第2の特性を決定するように構成された周波数分析ユニットと、
    前記第1および第2の特性に基づいて、前記ユーザによって話された前記発話の発信方向が前記電子デバイスに向けたものであるかどうかを決定するように構成された発話方向決定ユニットと
    を備える、電子デバイス。
  11. 前記第1の周波数範囲が前記第2の周波数範囲よりも高い、請求項10に記載の電子デバイス。
  12. 前記第1および第2の周波数範囲が、少なくとも1つの周波数を含む、請求項10に記載の電子デバイス。
  13. 前記発話の前記発信方向が前記電子デバイスに向けたものであるとの決定に応答して、前記発話中の音声コマンドを認識するように構成された発話認識ユニット
    をさらに備え、
    前記電子デバイスが、前記認識された音声コマンドに関連する機能を実行する
    請求項10に記載の電子デバイス。
  14. 前記周波数分析ユニットが、
    前記第1の周波数範囲の第1のエネルギー値を前記第1の特性として決定することと、
    前記第2の周波数範囲の第2のエネルギー値を前記第2の特性として決定することと
    を行うように構成される、請求項10に記載の電子デバイス。
  15. 前記発話方向決定ユニットが、
    前記第1のエネルギー値と前記第2のエネルギー値の比率を決定することと、
    前記比率に基づいて、前記発話の前記発信方向が前記電子デバイスに向けたものであると決定することと
    を行うように構成される、請求項14に記載の電子デバイス。
  16. 前記比率が、前記入力音の信号強度とは無関係である、請求項15に記載の電子デバイス。
  17. 外部デバイスから前記発話の話された方向の表示を受信するように構成された通信ユニット
    をさらに備える、請求項10に記載の電子デバイス。
  18. 前記発話方向決定ユニットが、
    前記第1および第2の特性ならびに前記外部デバイスからの前記表示に基づいて、前記発話のターゲットが前記電子デバイスであるか、それとも前記外部デバイスであるかを決定する
    ように構成され、
    前記電子デバイスが、
    前記発話の前記ターゲットが前記電子デバイスであるとの決定に応答して、前記発話中の音声コマンドを認識するように構成された発話認識ユニット
    をさらに備え、
    前記電子デバイスが、前記認識された音声コマンドに関連する機能を実行する
    請求項17に記載の電子デバイス。
  19. 電子デバイスであって、
    入力音を受信するための手段と、
    前記入力音中にユーザによって話された発話を検出するための手段と、
    前記入力音中の前記発話の検出に応答して、前記発話の第1の周波数範囲の第1の特性および第2の周波数範囲の第2の特性を決定するための手段と、
    前記第1および第2の特性に基づいて、前記ユーザによって話された前記発話の発信方向が前記電子デバイスに向けたものであるかどうかを決定するための手段と
    を備える、電子デバイス。
  20. 前記発話の前記発信方向が前記電子デバイスに向けたものであるとの決定に応答して、前記発話中の音声コマンドを認識するための手段と、
    前記認識された音声コマンドに関連する機能を実行するための手段と
    をさらに備える、請求項19に記載の電子デバイス。
  21. 前記発話の第1の周波数範囲の第1の特性および第2の周波数範囲の第2の特性を決定するための前記手段が、
    前記第1の周波数範囲の第1のエネルギー値を前記第1の特性として決定することと、
    前記第2の周波数範囲の第2のエネルギー値を前記第2の特性として決定することと
    を行うように構成される、請求項19に記載の電子デバイス。
  22. 前記ユーザによって話された前記発話の発信方向が前記電子デバイスに向けたものであるかどうかを決定するための前記手段が、
    前記第1のエネルギー値と前記第2のエネルギー値の比率を決定することと、
    前記比率に基づいて、前記発話の前記発信方向が前記電子デバイスに向けたものであると決定することと
    を行うように構成される、請求項21に記載の電子デバイス。
  23. 外部デバイスから前記発話の話された方向の表示を受信するための手段
    をさらに備える、請求項19に記載の電子デバイス。
  24. 前記ユーザによって話された前記発話の発信方向が前記電子デバイスに向けたものであるかどうかを決定するための前記手段が、
    前記第1および第2の特性ならびに前記外部デバイスからの前記表示に基づいて、前記発話のターゲットが前記電子デバイスであるか、それとも前記外部デバイスであるかを決定するように構成され、
    前記電子デバイスが、
    前記発話の前記ターゲットが前記電子デバイスであるとの決定に応答して、前記発話中の音声コマンドを認識するための手段と、
    前記認識された音声コマンドに関連する機能を実行するための手段と
    をさらに備える、請求項23に記載の電子デバイス。
  25. 電子デバイスの少なくとも1つのプロセッサに、
    音センサによって入力音を受信する動作と、
    前記入力音中にユーザによって話された発話を検出する動作と、
    前記入力音中の前記発話の検出に応答して、前記発話の第1の周波数範囲の第1の特性および第2の周波数範囲の第2の特性を決定する動作と、
    前記第1および第2の特性に基づいて、前記ユーザによって話された前記発話の発信方向が前記電子デバイスに向けたものであるかどうかを決定する動作と
    を実行させる命令を含む、コンピュータ可読記憶媒体。
  26. 前記電子デバイスの前記少なくとも1つのプロセッサに、
    前記発話の前記発信方向が前記電子デバイスに向けたものであるとの決定に応答して、前記発話中の音声コマンドを認識する動作と、
    前記認識された音声コマンドに関連する機能を実行する動作と
    を実行させる命令をさらに含む、請求項25に記載のコンピュータ可読記憶媒体。
  27. 前記発話の第1の周波数範囲の第1の特性および第2の周波数範囲の第2の特性を決定することが、
    前記第1の周波数範囲の第1のエネルギー値を前記第1の特性として決定することと、
    前記第2の周波数範囲の第2のエネルギー値を前記第2の特性として決定することと
    を含む、請求項25に記載のコンピュータ可読記憶媒体。
  28. 前記発話の発信方向が前記電子デバイスに向けたものであるかどうかを決定することが、
    前記第1のエネルギー値と前記第2のエネルギー値の比率を決定することと、
    前記比率に基づいて、前記発話の前記発信方向が前記電子デバイスに向けたものであると決定することと
    を含む、請求項27に記載のコンピュータ可読記憶媒体。
  29. 前記電子デバイスの前記少なくとも1つのプロセッサに、
    外部デバイスから前記発話の話された方向の表示を受信する動作
    を実行させる命令をさらに含む、請求項25に記載のコンピュータ可読記憶媒体。
  30. 前記電子デバイスの前記少なくとも1つのプロセッサに、
    前記第1および第2の特性ならびに前記外部デバイスからの前記表示に基づいて、前記発話のターゲットが前記電子デバイスであるか、それとも前記外部デバイスであるかを決定する動作と、
    前記発話の前記ターゲットが前記電子デバイスであるとの決定に応答して、前記発話中の音声コマンドを認識する動作と、
    前記認識された音声コマンドに関連する機能を実行する動作と
    を実行させる命令をさらに含む、請求項29に記載のコンピュータ可読記憶媒体。
JP2017549296A 2015-03-27 2016-02-04 発話の方向に基づく電子デバイスの制御 Ceased JP2018512619A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/671,858 US9911416B2 (en) 2015-03-27 2015-03-27 Controlling electronic device based on direction of speech
US14/671,858 2015-03-27
PCT/US2016/016649 WO2016160123A1 (en) 2015-03-27 2016-02-04 Controlling electronic device based on direction of speech

Publications (2)

Publication Number Publication Date
JP2018512619A true JP2018512619A (ja) 2018-05-17
JP2018512619A5 JP2018512619A5 (ja) 2018-06-28

Family

ID=55404841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017549296A Ceased JP2018512619A (ja) 2015-03-27 2016-02-04 発話の方向に基づく電子デバイスの制御

Country Status (8)

Country Link
US (1) US9911416B2 (ja)
EP (1) EP3274988B1 (ja)
JP (1) JP2018512619A (ja)
KR (1) KR101981878B1 (ja)
CN (1) CN107408386B (ja)
ES (1) ES2754448T3 (ja)
HU (1) HUE047117T2 (ja)
WO (1) WO2016160123A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019204103A (ja) * 2018-08-31 2019-11-28 百度在線網絡技術(北京)有限公司 音声スマート機器のウェイクアップ方法、音声スマート機器のウェイクアップ装置、スマート機器及びコンピュータ読み取り可能な記憶媒体
JP2020003774A (ja) * 2018-06-29 2020-01-09 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声を処理する方法及び装置
KR20210116066A (ko) * 2020-03-17 2021-09-27 성균관대학교산학협력단 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치
US20220182756A1 (en) * 2020-12-07 2022-06-09 Gulfstream Aerospace Corporation Microphone array onboard aircraft to determine crew/passenger location and to steer a transducer beam pattern to that location

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106125048B (zh) * 2016-07-11 2019-05-24 浙江大华技术股份有限公司 一种声源定位方法及装置
EP2911149B1 (en) * 2014-02-19 2019-04-17 Nokia Technologies OY Determination of an operational directive based at least in part on a spatial audio property
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
WO2016208789A1 (ko) * 2015-06-26 2016-12-29 삼성전자 주식회사 소리를 판별하는 방법 및 이를 위한 장치
US11587559B2 (en) * 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
KR102427833B1 (ko) * 2015-11-30 2022-08-02 삼성전자주식회사 사용자 단말장치 및 디스플레이 방법
EP3414759B1 (en) * 2016-02-10 2020-07-01 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
US9911417B2 (en) * 2016-04-01 2018-03-06 Tai-An Lu Internet of things system with voice-controlled functions and method for processing information of the same
US10147423B2 (en) * 2016-09-29 2018-12-04 Intel IP Corporation Context-aware query recognition for electronic devices
US9642225B1 (en) * 2016-10-20 2017-05-02 Kai-kong Ng Voice-controlled lighting control system
KR101893768B1 (ko) * 2017-02-27 2018-09-04 주식회사 브이터치 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
US20220238134A1 (en) * 2017-02-27 2022-07-28 VTouch Co., Ltd. Method and system for providing voice recognition trigger and non-transitory computer-readable recording medium
US10403276B2 (en) 2017-03-17 2019-09-03 Microsoft Technology Licensing, Llc Voice enabled features based on proximity
KR102471493B1 (ko) * 2017-10-17 2022-11-29 삼성전자주식회사 전자 장치 및 음성 인식 방법
TWM562433U (zh) * 2018-01-05 2018-06-21 Thermaltake Technology Co Ltd 聲控輸入系統
US11150869B2 (en) 2018-02-14 2021-10-19 International Business Machines Corporation Voice command filtering
US11238856B2 (en) 2018-05-01 2022-02-01 International Business Machines Corporation Ignoring trigger words in streamed media content
US11200890B2 (en) 2018-05-01 2021-12-14 International Business Machines Corporation Distinguishing voice commands
US11609739B2 (en) * 2018-06-01 2023-03-21 Apple Inc. Providing audio information with a digital assistant
US11854566B2 (en) 2018-06-21 2023-12-26 Magic Leap, Inc. Wearable system speech processing
US11062703B2 (en) 2018-08-21 2021-07-13 Intel Corporation Automatic speech recognition with filler model processing
NO20181210A1 (en) * 2018-08-31 2020-03-02 Elliptic Laboratories As Voice assistant
CN109831709B (zh) * 2019-02-15 2020-10-09 杭州嘉楠耘智信息科技有限公司 音源定向方法及装置和计算机可读存储介质
WO2020180719A1 (en) 2019-03-01 2020-09-10 Magic Leap, Inc. Determining input for speech processing engine
KR102245953B1 (ko) * 2019-06-05 2021-04-28 엘지전자 주식회사 복수의 전자기기의 제어방법
CN110459213A (zh) * 2019-06-28 2019-11-15 浙江想能睡眠科技股份有限公司 基于语音控制的智能床垫及其控制方法
US11328740B2 (en) 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
US11355108B2 (en) 2019-08-20 2022-06-07 International Business Machines Corporation Distinguishing voice commands
US11205433B2 (en) * 2019-08-21 2021-12-21 Qualcomm Incorporated Method and apparatus for activating speech recognition
US11917384B2 (en) 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands
CN115086096A (zh) * 2021-03-15 2022-09-20 Oppo广东移动通信有限公司 响应控制语音的方法、装置、设备及存储介质
US20230035941A1 (en) * 2021-07-15 2023-02-02 Apple Inc. Speech interpretation based on environmental context

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6219645B1 (en) * 1999-12-02 2001-04-17 Lucent Technologies, Inc. Enhanced automatic speech recognition using multiple directional microphones
US7167544B1 (en) * 1999-11-25 2007-01-23 Siemens Aktiengesellschaft Telecommunication system with error messages corresponding to speech recognition errors
JP2012220959A (ja) * 2011-04-08 2012-11-12 Sony Computer Entertainment Inc 入力された発話の関連性を判定するための装置および方法
US20140244267A1 (en) * 2013-02-26 2014-08-28 Avaya Inc. Integration of user orientation into a voice command system

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10133126A1 (de) 2001-07-07 2003-01-16 Philips Corp Intellectual Pty Richtungssensitives Audioaufnahmesystem mit Anzeige von Aufnahmegebiet und/oder Störquelle
JP4157581B2 (ja) * 2004-12-03 2008-10-01 本田技研工業株式会社 音声認識装置
JP4873913B2 (ja) 2004-12-17 2012-02-08 学校法人早稲田大学 音源分離システムおよび音源分離方法、並びに音響信号取得装置
EP1699261B1 (en) * 2005-03-01 2011-05-25 Oticon A/S System and method for determining directionality of sound detected by a hearing aid
EP2237271B1 (en) 2009-03-31 2021-01-20 Cerence Operating Company Method for determining a signal component for reducing noise in an input signal
US8588441B2 (en) * 2010-01-29 2013-11-19 Phonak Ag Method for adaptively matching microphones of a hearing system as well as a hearing system
US9053697B2 (en) * 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
CN103069297A (zh) * 2011-01-18 2013-04-24 松下电器产业株式会社 车辆方向确定装置、车辆方向确定方法及其程序
US20130204629A1 (en) 2012-02-08 2013-08-08 Panasonic Corporation Voice input device and display device
US20130238326A1 (en) 2012-03-08 2013-09-12 Lg Electronics Inc. Apparatus and method for multiple device voice control
KR101946364B1 (ko) * 2012-05-01 2019-02-11 엘지전자 주식회사 적어도 하나의 마이크 센서를 갖는 모바일 디바이스 및 그 제어방법
US9251787B1 (en) * 2012-09-26 2016-02-02 Amazon Technologies, Inc. Altering audio to improve automatic speech recognition
WO2014087495A1 (ja) 2012-12-05 2014-06-12 株式会社日立製作所 音声対話ロボット、音声対話ロボットシステム
US9525938B2 (en) * 2013-02-06 2016-12-20 Apple Inc. User voice location estimation for adjusting portable device beamforming settings
US9384751B2 (en) 2013-05-06 2016-07-05 Honeywell International Inc. User authentication of voice controlled devices
EP2911149B1 (en) 2014-02-19 2019-04-17 Nokia Technologies OY Determination of an operational directive based at least in part on a spatial audio property
EP2928210A1 (en) * 2014-04-03 2015-10-07 Oticon A/s A binaural hearing assistance system comprising binaural noise reduction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7167544B1 (en) * 1999-11-25 2007-01-23 Siemens Aktiengesellschaft Telecommunication system with error messages corresponding to speech recognition errors
US6219645B1 (en) * 1999-12-02 2001-04-17 Lucent Technologies, Inc. Enhanced automatic speech recognition using multiple directional microphones
JP2012220959A (ja) * 2011-04-08 2012-11-12 Sony Computer Entertainment Inc 入力された発話の関連性を判定するための装置および方法
US20140244267A1 (en) * 2013-02-26 2014-08-28 Avaya Inc. Integration of user orientation into a voice command system

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020003774A (ja) * 2018-06-29 2020-01-09 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声を処理する方法及び装置
US11244686B2 (en) 2018-06-29 2022-02-08 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for processing speech
JP2019204103A (ja) * 2018-08-31 2019-11-28 百度在線網絡技術(北京)有限公司 音声スマート機器のウェイクアップ方法、音声スマート機器のウェイクアップ装置、スマート機器及びコンピュータ読み取り可能な記憶媒体
US11355107B2 (en) 2018-08-31 2022-06-07 Baidu Online Network Technology (Beijing) Co., Ltd. Voice smart device wake-up method, apparatus, device and storage medium
KR20210116066A (ko) * 2020-03-17 2021-09-27 성균관대학교산학협력단 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치
KR102329353B1 (ko) 2020-03-17 2021-11-22 성균관대학교산학협력단 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치
US20220182756A1 (en) * 2020-12-07 2022-06-09 Gulfstream Aerospace Corporation Microphone array onboard aircraft to determine crew/passenger location and to steer a transducer beam pattern to that location
US11778370B2 (en) * 2020-12-07 2023-10-03 Gulfstream Aerospace Corporation Microphone array onboard aircraft to determine crew/passenger location and to steer a transducer beam pattern to that location

Also Published As

Publication number Publication date
EP3274988B1 (en) 2019-08-07
CN107408386A (zh) 2017-11-28
US9911416B2 (en) 2018-03-06
US20160284350A1 (en) 2016-09-29
EP3274988A1 (en) 2018-01-31
KR20170131465A (ko) 2017-11-29
HUE047117T2 (hu) 2020-04-28
WO2016160123A1 (en) 2016-10-06
ES2754448T3 (es) 2020-04-17
KR101981878B1 (ko) 2019-05-23
CN107408386B (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
KR101981878B1 (ko) 스피치의 방향에 기초한 전자 디바이스의 제어
EP3134896B1 (en) Method and apparatus for activating application by speech input
US11756563B1 (en) Multi-path calculations for device energy levels
US20220093108A1 (en) Speaker identification
KR101752119B1 (ko) 다수의 디바이스에서의 핫워드 검출
US20150302856A1 (en) Method and apparatus for performing function by speech input
CN109791763B (zh) 多设备上的热词检测
CN110431623B (zh) 电子设备及其控制方法
US9343068B2 (en) Method and apparatus for controlling access to applications having different security levels
US9892729B2 (en) Method and apparatus for controlling voice activation
EP2994911B1 (en) Adaptive audio frame processing for keyword detection
US9837068B2 (en) Sound sample verification for generating sound detection model
US9867012B2 (en) Whispered speech detection
US20190147887A1 (en) Audio processing

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180418

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180418

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180418

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180703

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181221

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20190422