JP6514225B2 - 空間音響特性に少なくとも部分的に基づく動作指令の決定 - Google Patents

空間音響特性に少なくとも部分的に基づく動作指令の決定 Download PDF

Info

Publication number
JP6514225B2
JP6514225B2 JP2016553021A JP2016553021A JP6514225B2 JP 6514225 B2 JP6514225 B2 JP 6514225B2 JP 2016553021 A JP2016553021 A JP 2016553021A JP 2016553021 A JP2016553021 A JP 2016553021A JP 6514225 B2 JP6514225 B2 JP 6514225B2
Authority
JP
Japan
Prior art keywords
acoustic
spatial
command
information
acoustic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016553021A
Other languages
English (en)
Other versions
JP2017509917A (ja
Inventor
ビレルモ ミーッカ
ビレルモ ミーッカ
レフティニエミ アルト
レフティニエミ アルト
ラークソネン ラッセ
ラークソネン ラッセ
タンミ ミッコ
タンミ ミッコ
Original Assignee
ノキア テクノロジーズ オサケユイチア
ノキア テクノロジーズ オサケユイチア
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オサケユイチア, ノキア テクノロジーズ オサケユイチア filed Critical ノキア テクノロジーズ オサケユイチア
Publication of JP2017509917A publication Critical patent/JP2017509917A/ja
Application granted granted Critical
Publication of JP6514225B2 publication Critical patent/JP6514225B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本出願は概して、動作指令の決定に関する。
移動体通信装置などの電子装置は、その汎用性が益々高いものとなってきている。装置は、多くの機能を果たすことができ、ユーザーは、入力に基づいて装置を所望の通りに作動させるかまたはその挙動を変更させることになる入力を提供することができる。装置に付随するユーザー入力がこのユーザーにとって便利なものであることが望ましいことがありえる。同様に、ユーザーが所望する動作を、ユーザーからの入力に応答して装置が行なうように、この装置を設計することが望ましいこともある。このような状況下では、ユーザーが装置上での動作を単純かつ直感的に起動できるようにすることが望ましいことがありえる。
本発明の実施例のさまざまな態様がクレーム中で提示されている。
1つ以上の実施形態は、装置に含まれる複数のマイクロホンを介して音響情報を受信し、装置との関係において音響情報の少なくとも1つの空間音響特性を決定し、空間音響特性に少なくとも部分的に基づいて動作指令を決定し、かつ動作指令に適合する1つ以上の動作を実施するための装置、コンピュータ可読媒体、非一時的コンピュータ可読媒体、コンピュータプログラム製品および方法を提供することができる。
1つ以上の実施形態は、装置に含まれる複数のマイクロホンを介して音響情報を受信するための手段と、装置との関係において音響情報の少なくとも1つの空間音響特性を決定するための手段と、空間音響特性に少なくとも部分的に基づいて動作指令を決定するための手段と、動作指令に適合する1つ以上の動作を実施するための手段とを有する装置、コンピュータ可読媒体、コンピュータプログラム製品および非一時的コンピュータ可読媒体を提供することができる。
1つ以上の実施形態は、実行されたとき、装置に含まれる複数のマイクロホンを介した音響情報の受信と、装置との関係における音響情報の少なくとも1つの空間音響特性の決定と、空間音響特性に少なくとも部分的に基づく動作指令の決定と、動作指令に適合する1つ以上の動作の実施とを、装置に実施させるマシン可読命令を含む少なくとも1つのメモリーおよび少なくとも1つのプロセッサを含む装置を提供することができる。
少なくとも1つの例示的実施形態において、音響情報は音声情報である。
少なくとも1つの例示的実施形態において、音声情報は、発話の音響表現を含む音声情報である。
1つ以上の例示的実施形態は、音響情報が音声情報であることの決定をさらに実施する。
少なくとも1つの例示的実施形態において、複数のマイクロホンを介した音響情報の受信には、第1のマイクロホンを介した第1の音響情報の受信および第2のマイクロホンを介した第2の音響情報の受信が含まれ、こうして、音響情報は第1の音響情報と第2の音響情報の両方により標示されることになる。
少なくとも1つの例示的実施形態においては、空間音響特性の決定は、第1の音響情報および第2の音響情報の比較に少なくとも部分的に基づいている。
少なくとも1つの例示的実施形態において、比較には、第1の音響情報と第2の音響情報の間の信号時間差を識別することが含まれる。
少なくとも1つの例示的実施形態において、比較には、第1の音響情報と第2の音響情報の間の信号減衰差を識別することが含まれる。
少なくとも1つの例示的実施形態において、空間音響特性は、装置との関係における音響方向、または装置からの音響距離のうちの少なくとも1つである。
少なくとも1つの例示的実施形態において、音響方向は、装置と音響情報発信元の間の音響経路の方向である。
少なくとも1つの例示的実施形態において、音響距離は、装置と音響情報発信元の間の音響経路に沿った距離である。
少なくとも1つの例示的実施形態において、動作指令の決定には、空間音響特性が空間音響特性動作閾値の範囲内にあることの決定が含まれ、ここで動作指令の決定は、空間音響特性が空間音響特性動作閾値の範囲内にあることの決定に少なくとも部分的に基づいている。
少なくとも1つの例示的実施形態において、空間音響特性動作閾値は、空間音響特性の既定の範囲であり、既定の範囲内の空間音響特性が1つ以上の動作指令の決定を可能にするようになっている。
少なくとも1つの例示的実施形態において、空間音響特性動作閾値は、空間音響特性の既定の範囲であり、既定の範囲を超える空間音響特性が1つ以上の動作指令の決定を排除するようになっている。
少なくとも1つの例示的実施形態において、音響情報には、音声コマンド音響情報が含まれており、動作指令の決定には、音声コマンド音響情報に少なくとも部分的に基づいた音声コマンドの識別が含まれており、動作指令の決定は、音声コマンドに少なくとも部分的に基づいている。
少なくとも1つの例示的実施形態において、音声コマンド音響情報は、音声コマンドプロンプトを表す不在情報であり、音声コマンドの識別は、空間音響特性が空間音響特性動作閾値の範囲内にあることの決定に少なくとも部分的に基づいている。
1つ以上の例示的実施形態はさらに、複数のマイクロホンを介した異なる音響情報の受信と、装置との関係における異なる音響情報の少なくとも1つの異なる空間音響特性の決定と、空間音響特性が空間音響特性動作閾値を超えたことの決定と、空間音響特性が空間音響特性動作閾値を超えたことの決定に少なくとも部分的に基づいた、別の動作指令の決定の排除とを実施する。
少なくとも1つの例示的実施形態において、空間音響特性動作閾値は、装置の方に向けられている音響発信元に対応する既定の方向範囲である。
少なくとも1つの例示的実施形態において、空間音響特性動作閾値は、装置と近接する音響発信元に対応する既定の距離範囲である。
少なくとも1つの例示的実施形態において、空間音響特性動作閾値は、方向的音響特性動作閾値または距離的音響特性動作閾値のうちの少なくとも1つである。
少なくとも1つの例示的実施形態において、動作指令は、装置に対し、その指令に付随する特定の動作セットを実施するように命じる指令である。
少なくとも1つの例示的実施形態において、動作指令は、動作セットのうちの少なくとも1つの動作を識別する。
少なくとも1つの例示的実施形態において、音響情報には、音声コマンド音響情報が含まれており、動作指令の決定には、音声コマンド音響情報に少なくとも部分的に基づいた音声コマンドの識別が含まれており、動作指令の決定は音声コマンドに少なくとも部分的に基づいている。
1つ以上の例示的実施形態はさらに、複数のマイクロホンを介した、他の音声コマンド音響情報を含む異なる音響情報の受信と、装置との関係における異なる音響情報の少なくとも1つの異なる空間音響特性の決定(異なる空間音響特性は空間音響特性と異なるものである)と、他の音声コマンド音響情報に少なくとも部分的に基づく音声コマンドの識別と、異なる空間音響特性および音声コマンドに少なくとも部分的に基づく、異なる動作指令の決定と、異なる動作指令に適合した1つ以上の異なる動作の実施とを実施する。
1つ以上の例示的実施形態はさらに、複数の空間音響特性範囲と複数の動作指令候補間の相関関係の視覚的表現である空間音響動作インジケータの表示の誘発を実施する。
少なくとも1つの例示的実施形態において、複数の空間音響特性範囲には、空間音響特性が含まれ、複数の動作指令候補には、動作指令が含まれる。
少なくとも1つの例示的実施形態において、視覚的表現は、動作指令候補に付随するそれぞれの方向に対応して複数の動作指令候補が表現されるように、複数の方向を標示する。
少なくとも1つの例示的実施形態において、視覚的表現は、動作指令候補に付随するそれぞれの距離に対応して複数の動作指令候補が表現されるように、複数の距離を標示する。
少なくとも1つの例示的実施形態において、動作指令は、音響情報の処理とは無関係である動作を標示する。
少なくとも1つの例示的実施形態において、動作指令は、別個の装置に対する音響情報の伝送に付随する動作に対応する。
少なくとも1つの例示的実施形態において、動作指令は、別個の装置に対する音響情報の伝送の排除に付随する動作に対応する。
本発明の実施形態をより完全に理解するために、ここで、添付図面と関連付けて以下の説明を参照する。
例示的実施形態に係る装置を示すブロック図である。 少なくとも1つの例示的実施形態に係る装置に含まれるマイクロホンを例示するブロック図である。 少なくとも1つの例示的実施形態に係る装置に含まれるマイクロホンを例示するブロック図である。 少なくとも1つの例示的実施形態に係る空間音響特性を表わす状況を例示するダイヤグラムである。 少なくとも1つの例示的実施形態に係る空間音響特性を表わす状況を例示するダイヤグラムである。 少なくとも1つの例示的実施形態に係る空間音響特性を表わす状況を例示するダイヤグラムである。 少なくとも1つの例示的実施形態に係る空間音響特性を表わす状況を例示するダイヤグラムである。 少なくとも1つの例示的実施形態に係る空間音響特性と動作指令の間の相関関係を例示するダイヤグラムである。 少なくとも1つの例示的実施形態に係る空間音響特性と動作指令の間の相関関係を例示するダイヤグラムである。 少なくとも1つの例示的実施形態に係る空間音響特性と動作指令の間の相関関係を例示するダイヤグラムである。 少なくとも1つの例示的実施形態に係る空間音響特性に少なくとも部分的に基づく動作指令の決定に付随する活動を例示する流れ図である。 少なくとも1つの例示的実施形態に係る空間音響特性に少なくとも部分的に基づく動作指令の決定に付随する活動を例示する流れ図である。 少なくとも1つの例示的実施形態に係る空間音響特性に少なくとも部分的に基づく動作指令の決定に付随する活動を例示する流れ図である。 少なくとも1つの例示的実施形態に係る空間音響動作インジケータを例示するダイヤグラムである。 少なくとも1つの例示的実施形態に係る空間音響動作インジケータを例示するダイヤグラムである。
本発明の実施形態およびその潜在的利点は、図面の図1から8Bを参照することによって理解される。
以下では、実施形態全てではないものの一部の実施形態が示されている添付図面を参照しながら、一部実施形態についてより詳細に説明する。本発明のさまざまな実施形態を多くの異なる形態で実施することが可能であり、本明細書中で記載される実施形態に限定されるものとみなすべきではない。むしろ、これらの実施形態は、本開示が、適用可能な法的要件を満たすように提供されているものである。同じ参照番号は、全体を通して同じ要素を意味する。本明細書中に使用される「データ」、「コンテンツ」「情報」および類似の用語は、本発明の実施形態にしたがって伝送、受信および/または記憶され得るデータを意味するために互換的に使用され得る。したがって、いずれかのこのような用語の使用を、本発明の精神および範囲を限定するものとして捉るべきではない。
さらに、本明細書中で使用される「回路」なる用語は、
(a)ハードウェア専用回路実装(例えばアナログ回路および/またはデジタル回路内の実装)、
(b)本明細書に記載の1つ以上の機能を装置に実施させるために共働する1つ以上のコンピュータ可読メモリー上に記憶されたソフトウェアおよび/またはファームウェア命令を含む回路およびコンピュータプログラム製品の組合せ、および
(c)例えば、ソフトウェアおよびファームウェアが物理的に存在していない場合であっても動作のためにソフトウェアまたはファームウェアを必要とするマイクロプロセッサまたはマイクロプロセッサの一部分などの回路を意味する。「回路」のこの定義は、任意のクレームを含めた本明細書中のこの用語の全ての使用にあてはまる。さらなる一例として、本明細書中に使用されている「回路」なる用語は、同様に、1つ以上のプロセッサおよび/またはその一部分および随伴するソフトウェアおよび/またはファームウェアを含む実装をも含む。別の例として、本明細書中で使用される「回路」なる用語には同様に、例えば携帯電話用のベースバンド集積回路または応用プロセッサ集積回路、あるいはサーバー、セルラーネットワーク装置、他のネットワーク装置および/または他の計算用装置内の類似の集積回路も含まれる。
本明細書中で定義されている通り、物理媒体(例えば揮発性または非揮発性メモリーデバイス)を意味する「非一時的コンピュータ可読媒体」は、電磁信号を意味する「一時的コンピュータ可読媒体」と区別することができる。
図1は、少なくとも1つの例示的実施形態に係る電子装置10などの装置を示すブロック図である。しかしながら、例示され以下で説明されている電子装置が、本発明の実施形態の恩恵を享受できる電子装置を単に例示しているにすぎず、したがって、本発明の範囲を限定するものとして捉るべきものではないということを理解しなければならない。以下では電子装置10が例示され、一例として説明されているものの、他のタイプの電子装置も本発明の実施形態を容易に利用することができる。電子装置10は、形態情報端末(PDA)、ポケットベル、モバイルコンピュータ、デスクトップコンピュータ、テレビ、ゲーム用装置、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤー、カメラ、ビデオレコーダー、ウェアラブル装置、頭部装着型装置、シースルーディスプレー装置、携帯電話、全地球位置測定システム(GPS)装置、自動車、キオスク、電子テーブル、および/または他の任意のタイプの電子システムであり得る。その上、少なくとも1つの例示的実施形態の装置は、電子装置全体である必要はなく、他の例示的実施形態内の電子装置の構成要素または構成要素群であり得る。例えば、装置は集積回路、集積回路セットなどであり得る。
さらに、装置は、移動性を提供するというそれらの意図とは無関係に、本発明の実施形態を容易に利用することができる。この点に関して、本発明の実施形態を移動体利用分野と関連して説明することは可能であるにせよ、本発明の実施形態は、移動体通信業界内および移動体通信業界外の両方において、他のさまざまな利用分野に関連して利用可能であるということを理解すべきである。例えば、装置は、大画面テレビ、電子テーブル、キオスク、自動車などの搬送不能装置の少なくとも一部分であり得る。
少なくとも1つの例示的実施形態において、電子装置10は、プロセッサ11とメモリー12とを含む。プロセッサ11は任意のタイプのプロセッサ、コントローラ、組込コントローラ、プロセッサコアなどであり得る。少なくとも1つの例示的実施形態において、プロセッサ11は、装置に1つ以上のアクションを実施させるためにコンピュータプログラムを利用する。メモリー12は揮発性メモリー、例えばデータの一時的記憶用のキャッシュエリアを含む揮発性ランダムアクセスメモリー(RAM)および/または例えば、組込みメモリーおよび/または取外し可能メモリーであり得る非揮発性メモリーを含むことができる。非揮発性メモリーは、EEPROM、フラッシュメモリーなどを含むことができる。メモリー12は、一定数の情報およびデータのいずれでも記憶することができる。情報およびデータは、本明細書中に記載の機能などの電子装置10の1つ以上の機能を実装するため、電子装置10によって使用され得る。少なくとも1つの例示的実施形態において、メモリー12はコンピュータプログラムコードを含み、こうしてメモリーとコンピュータプログラムコードはプロセッサと共に機能して装置に本明細書中に記載された1つ以上のアクションを実施させるように構成されるようになっている。
電子装置10はさらに、通信デバイス15を含むことができる。少なくとも1つの例示的実施形態において、通信デバイス15は、送信機および/または受信機と作動的通信状態にある1本のアンテナ(または多数のアンテナ)、有線コネクタなどを含む。少なくとも1つの例示的実施形態において、プロセッサ11は、送信機に信号を提供し、かつ/または受信機から信号を受信する。信号は、通信インターフェース規格に準じたシグナリング情報、ユーザー発話、受信データ、ユーザー生成データなどを含むことができる。通信デバイス15は、1つ以上の無線インターフェース規格、通信プロトコル、変調タイプおよびアクセスタイプを用いて動作することができる。例としては、電子通信デバイス15は、第2世代(2G)無線通信プロトコルIS−136(時分割多重アクセス(TDMA))、世界移動体通信システム(GSM)、およびIS−95(符号分割多重アクセス(CDMA))、第3世代(3G)無線通信プロトコル、例えばユニバーサル移動体通信システム(UMTS)、CDMA2000、広帯域CDMA(WCDMA)および時分割−同期CDMA(TD−SCDMA)および/または、第4世代(4G)無線通信プロトコル、無線ネットワーキングプロトコル、例えば802.11、短距離無線プロトコル、例えばBluetoothなどにしたがって動作することができる。通信デバイス15は、イーサネット、デジタル加入者回線(DSL)、非同期転送モード(ATM)などのワイヤーラインプロトコルにしたがって動作することができる。
プロセッサ11は、音響、映像、通信、ナビゲーション、論理機能などを実装するため、ならびに例えば本明細書中に記載の機能の1つ以上を含む本発明の実施形態を実装するための、回路などの手段を含むことができる。例えば、プロセッサ11は、例えば本明細書中に記載の機能の1つ以上を含むさまざまな機能を実施するために、例えばデジタル信号プロセッサデバイス、マイクロプロセッサデバイス、さまざまなアナログ−デジタル変換器、デジタル−アナログ変換器、処理回路および他の支援回路などの手段を含むことができる。装置は、そのそれぞれのケーパビリティに応じて、これらのデバイスの間での電子装置10の制御および信号処理機能を実施することができる。こうして、プロセッサ11は、変調および伝送に先立ちメッセージおよびデータを符号化およびインターリーブするための機能性を含むことができる。プロセッサ11はさらに、内部ボコーダを含むことができ、かつ内部データモデムを含むことができる。さらに、プロセッサ11は、なかでも、例えば本明細書中に記載の機能の1つ以上を含む少なくとも1つの実施形態をプロセッサ11に実装させることのできる、メモリー内に記憶可能な1つ以上のソフトウェアプログラムを操作する機能性を含むことができる。例えば、プロセッサ11は、従来のインターネットブラウザなどのコネクティビティプログラムを操作することができる。コネクティビティプログラムは、電子装置10がインターネットコンテンツ、例えば位置情報コンテンツおよび/または他のウェブページコンテンツを、Transmission Control Protocol(TCP)、Internet Protocol(IP)、User Datagram Protocol(UDP)、Internet Message Access Protocol(IMAP)、Post Office Protocol(POP)、Simple Mail Transfer Protocol(SMTP)、Wireless Application Protocol(WAP)、Hypertext Transfer Protocol(HTTP)にしたがって伝送および受信できるようにすることができる。
電子装置10は、出力を提供しかつ/または入力を受信するためのユーザーインターフェースを含むことができる。電子装置10は、出力デバイス14を含むことができる。出力デバイス14は、音響出力デバイス、例えば、リンガー、イヤホン、スピーカーなどを含むことができる。出力デバイス14は、振動変換器、電子可変形表面、電子可変形構造などの触知性出力デバイスを含むことができる。出力デバイス14は、視覚的出力デバイス、例えばディスプレー、ライトなどを含むことができる。少なくとも1つの例示的実施形態において、装置は、情報の表示を誘発し、表示の誘発は、装置に含まれるディスプレー上に情報を表示するステップ、ディスプレーを含む別個の装置に対し情報を送信するステップなどを含むことができる。電子装置は、入力デバイス13を含むことができる。入力デバイス13は、光センサー、近接センサー、マイクロホン、タッチセンサー、力センサー、ボタン、キーパッド、運動センサー、磁場センサー、カメラなどを含むことができる。タッチセンサーおよびディスプレーは、タッチディスプレーとして特徴付けされ得る。タッチディスプレーを含む一実施形態において、このタッチディスプレーは、単一の接点、多数の接点などからの入力を受信するように構成され得る。このような実施形態において、タッチディスプレーおよび/またはプロセッサは、位置、運動、速度、接触面積などに少なくとも部分的に基づいて入力を決定することができる。少なくとも1つの例示的実施形態において、装置は入力の標示を受信する。装置は、センサー、ドライバ、別個の装置などからの標示を受信することができる。入力を表わす情報は、入力を表わす情報、入力の一態様を表わす情報、入力の発生を表わす情報を伝達する情報を含むことができる。
電子装置10は、抵抗性、容量性、赤外線、歪みゲージ、表面波、光学的撮像、分散信号技術、音響パルス認識または他の技術のいずれかによるタッチ認識を可能にし、次にタッチに付随する場所および他のパラメータを表わす信号を提供するように構成されているものを含めた、さまざまなタッチディスプレーのいずれかを含むことができる。付加的には、タッチディスプレーは、選択オブジェクト(例えば指、スタイラスペン、ペン、鉛筆または他のポインティングデバイス)とタッチディスプレーの間の実際の物理的接触として定義され得るタッチ事象の形での入力の標示を受信するように構成され得る。代替的には、タッチ事象は、たとえタッチディスプレーと物理的に接触していない場合でも、タッチディスプレーの近くに選択オブジェクトをもってくること、表示されたオブジェクトの上に乗せること、または既定の距離内にオブジェクトを接近させることとして定義づけされ得る。このようにして、タッチ入力は、実際の物理的接触が関与するタッチ事象および、物理的接触は関与しないもののタッチディスプレーにより他の形で検出される、例えばタッチディスプレーに対する選択オブジェクトの近接性の結果などのタッチ事象を含めた、タッチディスプレーにより検出される任意の入力を含むことができる。タッチディスプレーは、タッチ入力と関係あるタッチスクリーンに適用される力に関連する情報を受信することができる。例えばタッチスクリーンは、強い押圧のタッチ入力と軽い押圧のタッチ入力を区別することができる。少なくとも1つの例示的実施形態において、ディスプレーは2次元情報、3次元情報などを表示できる。
キーパッドを含む実施形態において、キーパッドは、電子装置10を操作するために数字(例えば0〜9)キー、記号キー(例えば#、*)、文字キーなどを含むことができる。例えば、キーパッドは、従来のQWERTYキーパッド配置を含むことができる。キーパッドは同様に、付随する機能を伴うさまざまなソフトキーも含むことができる。さらに、さらに代替的には、電子装置10は、ジョイスティックまたは他のユーザー入力インターフェースなどのインターフェースデバイスを含むことができる。
入力デバイス13は、媒体捕捉要素を含むことができる。媒体捕捉要素は、保存、表示または伝送を目的として画像、映像、および/または音響を捕捉するための任意の手段であり得る。例えば、媒体捕捉要素がカメラモジュールである少なくとも1つの例示的実施形態において、このカメラモジュールは、捕捉された画像からのデジタル画像ファイルを形成し得るデジタルカメラを含むことができる。したがって、カメラモジュールは、ハードウェア、例えばレンズまたは他の光学構成要素および/または、捕捉された画像からデジタル画像ファイルを新規作成するのに必要なソフトウェアを含むことができる。代替的には、カメラモジュールは、画像を検分するためのハードウェアのみを含むことができ、一方電子装置10のメモリーデバイスは、捕捉された画像からデジタル画像ファイルを新規作成するためのソフトウェアの形をしたプロセッサ11による実行のための命令を記憶している。少なくとも1つの例示的実施形態において、カメラモジュールはさらに、画像データを処理する上でプロセッサ11を補助するコプロセッサおよび画像データを圧縮および/または解凍するためのエンコーダおよび/またはデコーダなどの処理要素を含むことができる。エンコーダおよび/またはデコーダは、例えばJoint Photographic Expert Group(JPEG)標準書式などの標準書式にしたがって、符号化および/または復号することができる。
図2A〜2Bは、少なくとも1つの例示的実施形態に係る装置に含まれるマイクロホンを例示するダイヤグラムである。図2A〜2Bの実施例は単なる例にすぎず、クレームの範囲を限定するものではない。例えば、装置の構成は、変動でき、装置のサイズも、マイクロホンの数も、マイクロホンの位置も、マイクロホンの配向も変動し得る。
一部の状況下では、装置が複数のマイクロホンを含むことが望ましいことがありえる。例えば装置は、例えば音響情報の記録、音響情報の分析、音響情報の伝送などのさまざまなアクションを実施するために、1つ以上のマイクロホンを用いて音響情報を受信することができる。一部の状況下では、マイクロホンが装置の異なる位置に位置設定されることが望ましいことがありえる。例えば、装置の特定の部分に入射する音響情報と装置の異なる部分に入射する他の音響情報とを区別することが望ましいことがありえる。このようにして、装置を取り囲む環境の中に存在する音響は、装置に含まれる異なるマイクロホンによって、異なる形で知覚され得る。例えば、装置は異なるマイクロホンを横断して知覚された異なる音響情報に少なくとも部分的に基づいて音響情報を決定することができる。このようにして、装置は、特定の音響信号を決定するためにさまざまな音響情報インスタンスを評価することができる。このようにして、装置は、複数のマイクロホン音響情報に少なくとも部分的に基づいて音響情報を決定できる。
少なくとも1つの例示的実施形態において、装置は、発信元が含む複数のマイクロホンを介して音響情報を受信する。この複数のマイクロホンは、装置上のさまざまな位置に位置づけされ得る。こうして、さまざまなマイクロホンは、個別のマイクロホンに対応する位置において装置に入射する音響情報を表わすものである。
図2Aは、少なくとも1つの例示的実施形態に係る装置200に含まれるマイクロホンを例示するダイヤグラムである。図2Aの実施例は、装置200の前面を例示する。装置200が正面向きのマイクロホン201および202と下向きのマイクロホン203を含むことが分かる。図2Bは、少なくとも1つの例示的実施形態に係る装置200に含まれるマイクロホンを例示するダイヤグラムである。図2Bの実施例は、装置200の背面200を例示している。装置200が、後ろ向きのマイクロホン211および212を含んでいることが分かる。
一部の状況下では、1つ以上のマイクロホンを互いに同時に利用することが望ましい場合がある。例えば、複数のマイクロホンを介して受信した複数の音響情報に少なくとも部分的に基づいて特定の音響情報セットを決定することが望ましい場合がある。少なくとも1つの例示的実施形態において、音響情報の受信は、第1のマイクロホンを介した第1の音響情報の受信と、第2のマイクロホンを介した第2の音響情報の受信とを含む。このような実施例において、特定の音響情報セットを、第1の音響情報および第2の音響情報の両方によって標示することができる。例えば、装置200を取り囲む環境内に音が存在し、そのためマイクロホン201が第1の音響情報を受信し、マイクロホン203が第2の音響情報を受信するようになっている可能性がある。このような実施例では、第1の音響情報は、この音の表現を含み、第2の音響情報はこの音の異なる表現を含むことができる。このような実施例において、装置は、第1の音響情報と第2の音響情報に少なくとも部分的に基づいて、この音を表わす音響情報を決定することができる。このようにして、決定された音響情報、すなわち第1の音響情報、そして第2の音響情報は、たとえ決定された音響情報、第1の音響情報および第2の音響情報の各々が互いに異なるものであり得るにせよ、各々同じ音響コンテンツを表わす。
少なくとも1つの例示的実施形態において、音響情報のコンテンツは音響情報により伝達される情報を意味する。例えば、音響情報が発話を含む場合、音響情報のコンテンツは、この発話を表わす音声情報を含むことができる。別の実施例では、音響情報が音響キュー、例えば指ならし、拍手、旋律などを含む場合、音響情報のコンテンツは音響キューであり得る。
一部の状況下では、たとえ異なるマイクロホンに対応する異なる音響情報のコンテンツが同じコンテンツを表わすものであり得るにせよ、1つ以上のこのような異なる音響情報は、音響特性に関して変動し得る。例えば、音響コンテンツを表わす周波数スペクトル、音響コンテンツの減衰、音響コンテンツの受信時間などが変動し得る。例えば第1のマイクロホンを介して受信された第1の音響情報により標示された音響コンテンツは、第2のマイクロホンを介して受信された音響コンテンツを表わす第2の音響情報とは異なる可能性がある。このような実施例では、第1の音響情報と第2の音響情報は、周波数スペクトル、減衰、受信時間などにより異なっている可能性がある。例えば、第1の音響情報は、第2の音響情報からの時間偏差を示す音響コンテンツの一表現であり得る。このようにして、装置は、同じ音響コンテンツを表わす複数の音響情報を横断する差異の決定に少なくとも部分的に基づいて音響コンテンツを評価することができる。
図3A〜3Dは、少なくとも1つの例示的実施形態に係る空間音響特性を表わす状況を例示するダイヤグラムである。図3A〜3Dの実施例は、単なる例にすぎず、クレームの範囲を限定するものではない。例えば、装置の配向、音声発信元の数、音声発信元の配向などが変動し得る。
一部の状況下では、装置により受信された音響情報の1つ以上の空間音響特性を決定することが好ましい可能性がある。例えば、装置から異なる距離を有する音響発信元からの音響情報を、装置から異なる角度にある音響発信元からの音響情報などを区別することが望ましいことがありえる。
少なくとも1つの例示的実施形態において、装置は、装置との関係における音響情報の少なくとも1つの空間音響特性を決定する。装置は、装置上のさまざまな位置におけるさまざまなマイクロホンから受信した音響信号を表わしている音響情報を評価することを介して、装置との関係における空間特性を決定することができる。このようにして、空間特性は、装置と音響信号発信元の間の空間的関係を標示する装置からの方向、距離などであり得る。少なくとも1つの例示的実施形態において、音響発信元は、音響信号を発生させる物体、例えば人体、オブジェクト、音響変換器などである。
少なくとも1つの例示的実施形態において、この装置は、異なるマイクロホンにより受信される異なる音響情報の差異を評価することを介して、音響情報の空間特性を決定する。少なくとも1つの例示的実施形態において、この装置は、異なる音響情報の比較に少なくとも部分的に基づいて空間音響特性を決定する。例えば、装置が、第1のマイクロホンからの第1の音響情報および第2のマイクロホンからの第2の音響情報を受信する場合、この装置は、第1の音響情報と第2の音響情報の比較に少なくとも部分的に基づいて空間音響特性を決定し得る。
少なくとも1つの例示的実施形態において、空間特性は、音響距離、音響方向などである。少なくとも1つの例示的実施形態において、音響方向は、装置と音響情報発信元との間の音響経路の方向である。少なくとも1つの例示的実施形態において、音響距離は、装置と音響情報発信元との間の音響経路に沿った距離である。少なくとも1つの例示的実施形態において、音響経路は、音響信号がそれに沿って音響発信元からマイクロホンまで伝播する音響発信元とマイクロホンの間の線引きである。例えば、装置は、装置から特定の距離にある音響発信元、装置から特定の方向に位置する音響発信元などから音響信号が受信されたことを標示する音響情報の空間特性を決定することができる。少なくとも1つの例示的実施形態において、空間特性は、音響距離および音響方向の両方である。例えば、装置は、装置から特定の距離にありかつ装置から特定の方向に位置する音響発信元などから音響信号が受信されたことを標示する音響情報の空間特性を決定することができる。
少なくとも1つの例示的実施形態において、比較には、第1の音響情報と第2の音響情報間の信号時間差を識別するステップが含まれる。少なくとも1つの例示的実施形態において、信号時間差とは、特定の音響コンテンツが第1の音響情報および第2の音響情報内で表現されている時間の差を意味する。少なくとも1つの例示的実施形態において、比較には、第1の音響情報と第2の音響情報の間の信号減衰差を識別するステップが含まれる。少なくとも1つの例示的実施形態において、信号減衰差とは、特定の音響コンテンツが第1の音響情報および第2の音響情報内で表現されている音響強度を意味している。現在、音響情報の空間特性を決定する方法としては、マルチラテレーション、到着時間差(TDOA)、到着周波数差(FDOA)、三角測量、トリラテレーションなど数多くの方法が存在することを理解すべきである。さらに、将来音響情報の空間特性を決定する多くの方法が開発される確率も高い。したがって、空間特性の決定方法は、いかなる形であれ必ずしもクレームを限定するものではない。
図3Aは、少なくとも1つの例示的実施形態に係る空間音響特性を表わす状況を例示するダイヤグラムである。図3Aの例では、ユーザー302は、装置301に向かって発話している。このようにして、ユーザー302の口は、装置301により受信される音声情報などの音響情報の音響発信元である。ユーザー302の口は、装置301に対して10センチメートル未満と近接していることが分かる。図3Aの例において、装置301は、ユーザー302の音声を表わす音響情報を受信し、音響情報の空間特性を決定する。空間特性は、装置301からユーザー302までの距離、装置301からのユーザー302の方向などを標示することができる。例えば、装置は、ユーザー302が装置301の前方に向かって発話していること、装置301に近接して発話していることなどを決定することができる。
図3Bは、少なくとも1つの例示的実施形態に係る空間音響特性を表わす状況を例示するダイヤグラムである。図3Bの例では、ユーザー312は、装置311に向かって発話している。このようにして、ユーザー312の口は、装置311により受信される音声情報などの音響情報の音響発信元である。ユーザー312の口は、装置311に対しておよそ30センチメートルと近接していることが分かる。図3Bの例において、装置311は、ユーザー312の音声を表わす音響情報を受信し、音響情報の空間特性を決定する。空間特性は、装置311からユーザー312までの距離、装置311からのユーザー312の方向などを標示することができる。例えば、装置は、ユーザー312が装置311の前方に向かって発話していること、装置311の近くで発話していることなどを決定することができる。ユーザー312と装置311の間の距離は、ユーザー302と装置301の間の図3A中の距離よりも大きいことが分かる。少なくとも1つの例示的実施形態において、装置は、図3Aにより標示されている状況下よりも図3Bにより標示されている状況下で、より大きい音響距離を決定する。
図3Cは、少なくとも1つの例示的実施形態に係る空間音響特性を表わす状況を例示するダイヤグラムである。図3Cの例では人物322と人物323が互いに発話しており、一方、装置321は人物322と人物323から遠くおよそ2メートル程度離れたテーブル上にある。このようにして、人物322の口は、装置321により受信される音声情報などの音響情報の音響発信元である。同様にして、人物323の口は、装置321により受信される音声情報などの音響情報の音響発信元である。人物322の口は、装置321から離れており、人物323の口も装置321に対して遠隔にあることが分かる。図3Cの例において、装置321は、人物322の音声を表わす音響情報を受信し、音響情報の空間特性を決定する。空間特性は、装置321から人物322までの距離、装置321からの人物322の方向などを標示することができる。例えば、装置は、人物322が装置321の側に向かって発話していること、装置321から遠隔で発話していることなどを決定することができる。図3Cの例において、装置321は、人物323の声を表わす音響情報を受信し、音響情報の空間特性を決定する。空間特性は、装置321から人物323までの距離、装置321からの人物323の方向などを標示できる。例えば、装置は、人物323が、装置321の側面に向かって発話していること、装置321から遠隔で発話していることなどを決定することができる。人物322と装置321の間の距離が図3B中の人物312と装置311の間の距離よりも大きいことが分かる。人物323と装置321の間の距離が、図3B中の人物312と装置311の間の距離よりも大きいことが分かる。少なくとも1つの例示的実施形態において、装置は、図3Bにより標示されている状況下よりも図3Cにより標示されている状況下でより大きい音響距離を決定する。
図3Dは、少なくとも1つの例示的実施形態に係る空間音響特性を表わす状況を例示するダイヤグラムである。前述の通り、音響情報は音声情報であり得る。このような実施例において、装置は、音声情報が、装置の方に向けられた音響発信元、装置から離れる方に向けられた音響発信元などのいずれから受信されているかを決定することができる。例えば、装置に対面しているユーザーから受信した音声情報と、装置から離れる方向に面しているユーザーから受信した音声情報とを区別できることが望ましいことがありえる。
少なくとも1つの例示的実施形態において、装置は、音響発信元が装置の方に向けられているか、装置から離れる方に向けられているかなどのいずれであるかを標示する空間音響特性を決定する。人の声の特徴は、音響発信元およびマイクロホンの配向に基づいて変化し得る。音響発信元がマイクロホンから離れる方に向けられている場合、高い周波数は、音響発信元がマイクロホンの方に向けられている状況に比べて減衰させられているように見える可能性がある。少なくとも1つの例示的実施形態において、装置は、特定のユーザーに付随する音声情報履歴を記憶し、この音声情報履歴を受信した音声情報と比較して空間音響特性を決定する。装置は、ユーザーの声のショートクリップを連続的にまたは随時記録することによってユーザーに付随する音声情報履歴を生成することができる。これらのクリップの高周波数対低周波数の比率は、音声情報履歴内で表現され得る。このようにして、装置がユーザーから音声情報を受信した場合、音声情報の高低周波数比を記憶された比率と比較して、ユーザーが装置に向かって発話しているかまたは装置から離れる方に発話しているかを決定することができる。
図3Dの実施例において、ユーザー332は、装置331を手に保持しながら、一人物に対して発話している。このようにして、ユーザー332の口は、装置331により受信された音声情報などの音響情報の音響発信元である。ユーザー332の口は装置331から離れる方に向けられていることが分かる。図3Dの実施例では、装置331は、ユーザー332の声を表わす音響情報を受信し、音響情報の空間特性を決定する。空間特性は、ユーザー332の声が装置331から離れる方に向けられていることを標示する可能性がある。少なくとも1つの例示的実施形態において、装置は、ユーザーの声が、図3Dにより標示されている状況下に比べて図3Bにより標示されている状況下でより大きい音響規模で装置の方に向けられていることを決定する。
図4A〜4Cは、少なくとも1つの例示的実施形態に係る空間音響特性動作指令の間の相関関係を例示するダイヤグラムである。図4A〜4Cの実施例は、単なる例にすぎず、クレームの範囲を限定するものではない。例えば、相関関係が実装される方法、空間特性の数、動作指令の数などが変動し得る。
一部の状況下では、装置は、受信された音響情報に少なくとも部分的に基づき1つ以上の動作を実施することができる。例えば、装置は、音響信号、例えば声、拍手、指鳴らし、鍵鳴らし、うなり声、足の踏み鳴らし、犬のほえる声、車の扉/タイヤ/ブレーキ、冷蔵庫の扉開閉、などにより表現される特定の音響コンテンツを識別することができる。例えば、装置は、特定の音響情報の受信に応答して特定の機能性セットを起動させることができる。このようにして、音響情報は、装置に一組の動作を実施させるコマンドとして役立つことができる。
少なくとも1つの例示的実施形態において、装置は、少なくとも複数のマイクロホンから受信された音響情報に基づいて動作指令を決定する。少なくとも1つの例示的実施形態において、動作指令は、装置に対してこの指令に付随する特定の動作セットを実施するように命じる指令である。例えば、動作指令は、装置が利用すべき特定のメッセージ、機能呼出し、データ構造、クラス、メモリー場所などを標示することができる。例えば、動作指令は、アクションを実施する特定のコンピュータプログラムセットに装置を分岐させる指令であり得る。このようにして、動作指令は、特定の動作セットを装置に実施させる。少なくとも1つの例示的実施形態において、装置は、動作指令にしたがって、1つ以上の動作を実施する。少なくとも1つの例示的実施形態において、動作指令にしたがった動作の実施には、メモリーアドレス、機能名、データ構造名、クラス名、などにより動作指令が指定するコンピュータプログラム命令などの、動作指令に付随する1つ以上のコンピュータプログラム命令の実施が含まれる。例えば、動作指令は、装置に電話呼出しを開始させる動作を含む機能呼出しを識別する呼出し開始動作指令であり得る。このような実施例では、装置は、呼出し開始動作指令にしたがって電話呼出しを開始する動作を実施する。別の例においては、動作指令は、発話認識プログラム、記録プログラムなどの起動などの音響処理に付随する機能呼出しを識別する音響処理動作指令であり得る。
動作指令は、装置が実施するように構成されている1つ以上の機能を支配することができる。例えば、動作指令は、別個の装置に対する音響情報の伝送に付随する1つ以上の動作を標示できる。このような実施例において、動作指令は、別個の装置に対して(ミュート解除機能などの)特定の音響情報を伝送させ、(ミュート機能のような)特定の音響情報が別個の装置に対し伝送されることを排除し、音声認識を起動させるなどの動作に対応し得る。少なくとも1つの例示的実施形態において、動作指令は、音響情報の処理とは独立した動作を標示する。例えば動作指令は、プログラム始動動作、メッセージ送信動作、状態変更動作、ファイル開放動作などを標示することができる。
一部の状況において、空間音響特性に少なくとも部分的に基づいてユーザーアベイラビリティに影響を及ぼす動作を支配することが望ましいことがありえる。少なくとも1つの例示的実施形態において、装置は、空間音響情報に少なくとも部分的に基づいてユーザーアベイラビリティ状態の動作指令を決定する。ユーザーアベイラビリティ状態は、例えばソーシャルメディアサービス、インスタントメッセージングサービス、ワークトラッキングサービスなどについての存在情報、活動情報などのユーザーアベイラビリティの任意の標示であり得る。例えば、音声情報の発話者が装置の方に向いていることを標示する空間特性を有する音声情報を装置が受信した場合、装置は、ユーザーアベイラビリティを標示させるユーザーアベイラビリティ状態動作指令を決定することができる。同様にして、音声情報の発話者が装置から離れる方を向いていることを標示する空間特性を有する音声情報を装置が受信した場合、装置は、ユーザーアンアベイラビリティの標示を誘発するユーザーアンアベイラビリティ状態動作指令を決定できる。このようにして、装置は、ユーザーが装置に向かって発話している場合ユーザーが活動状態にあることを決定し、ユーザーが装置から離れる方向に発話している場合ユーザーは非活動状態にあることを決定できる、等々。別の実施例では、音声情報の発話者が装置から特定の距離以内にいることを標示する空間特性を有する音声情報を装置が受信した場合、装置は、ユーザーアベイラビリティの標示を誘発するユーザーアベイラブル状態動作指令を決定することができる。同様にして、音声情報の発話者が装置から特定の距離を超えたところにいることを標示する音声情報を装置が受信した場合、装置は、ユーザーアンアベイラビリティの標示を誘発するユーザーアンアベイラビリティ状態動作指令を決定することができる。このようにして、装置は、ユーザーが装置に近接して発話している場合ユーザーが活動状態にあることを決定でき、ユーザーが装置から遠隔で発話している場合にはユーザーが非活動状態にあることを決定できる、等々である。
一部の状況において、さらに離れたところから来ている音響情報は、フィルタリングされ別個の装置に対し例えば通話中などに送付されないことが望ましい場合がある。このようにして、背景雑音となり得る音響情報を伝送からフィルタリングすることができる。このようにして、このような遠位音響情報をミュートし、別個の装置に送信されないようにすることが可能である。
少なくとも1つの例示的実施形態において、装置は、空間音響情報に少なくとも部分的に基づいて、ミュート/ミュート解除動作指令を決定する。例えば、音響情報の発信元が装置から特定の距離内にいることを標示する空間特性を有する音響情報を装置が受信した場合、装置は、その音響情報のミューティングを回避すること、音響情報をミュート解除することなどを決定できる。同様にして、音響情報の発信元が装置から特定の距離を超えたところにあることを標示する音響情報を装置が受信した場合、装置は音響情報をミュートすることを決定できる。
少なくとも1つの例示的実施形態において、装置は、音響方向に少なくとも部分的に基づいて、セキュリティレベルを決定する。例えば、装置は、音響方向に少なくとも部分的に基づいて、個人情報の表示を無効にできる。例えばユーザーは、装置のディスプレー側にある音響方向から発話することができる。このような実施例において、装置は、音声方向が装置のディスプレー側からであることに少なくとも部分的に基づいて、個人情報の表示を無効にすることができる。
少なくとも1つの例示的実施形態において、装置は、音響方向に少なくとも部分的に基づいて、音響レンダリング設定値を調整する。例えば、装置は、音響方向に少なくとも部分的に基づいて、音量、サラウンド音、イコライゼーションなどを調整できる。例えば、装置は、発話が複数の音響方向から受信されていることの決定に少なくとも部分的に基づいて、音量を上げること、サラウンド音を有効化することなどができる。このようにして、装置は、音響レンダリング設定値を一群の人々にとってより適切なものとなるように自動調整できる。
少なくとも1つの例示的実施形態において、装置は、空間音響特性に少なくとも部分的に基づいて、動作指令を決定する。例えば、装置は、空間音響特性が特定の距離を標示すること、特定の方向を標示すること、装置の方に向けられていること、装置から離れる方に向けられていることなどに少なくとも部分的に基づいて、動作指令を決定できる。例えば、装置は、図3Aの状況により標示される音響空間特性に少なくとも部分的に基づいて動作指令を決定でき、図3Cの状況により標示される空間音響特性に少なくとも部分的に基づいて異なる動作指令を決定することができる。
動作指令の決定は、ルックアップテーブル、比較などのさまざまな方法で実施できるということを理解すべきである。例えば、装置は、動作指令に付随する空間音響特性の一範囲と1つ以上の空間音響特性とを相関することを介して動作指令を決定できる。このような実施例では、この空間音響特性範囲に対応する空間音響特性を有する音響情報を装置が受信した場合に、特定の動作指令を起動させることができる。少なくとも1つの例示的実施形態において、装置は、動作指令に付随する既定の音響空間特性と空間音響特性との間の相関関係に少なくとも部分的に基づいて、動作指令を決定する。既定の空間音響特性は、1つの具体的空間音響特性、空間音響特性範囲などを標示することができる。例えば、10センチメートルの音響距離を口述動作指令と関連付けることができる。別の実施例においては、10センチメートル未満の音響距離を口述動作指令と関連付けることができる。
図4Aは、少なくとも1つの例示的実施形態に係る空間音響特性と動作指令との間の相関関係を例示するダイヤグラムである。図4Aの実施例において、距離401は動作指令403に対応し、距離404は動作指令406に対応し、距離407は動作指令409に対応する。図4Aの実施例において、装置は、空間音響特性が距離401に対応する場合に動作指令403を決定し、空間音響特性が距離404に対応する場合、動作指令406を決定し、空間音響特性が距離407に対応する場合、動作指令409を決定する。
図4Bは、少なくとも1つの例示的実施形態に係る空間音響特性と動作指令との間の相関関係を例示するダイヤグラムである。図4Bの実施例において、方向411は動作指令413に対応し、方向414は動作指令416に対応し、方向417は動作指令419に対応する。図4Bの実施例において、装置は、空間音響特性が方向411に対応する場合に動作指令413を決定し、空間音響特性が方向414に対応する場合、動作指令416を決定し、空間音響特性が方向417に対応する場合、動作指令419を決定する。
一部の状況において、装置は、動作指令について空間音響特性によって標示される複数の特性に基づく。例えば、装置は、特定の音響距離、特定の音響方向、装置の方に向けられていることなどのうちの少なくとも2つを標示する音響特性に少なくとも部分的に基づいて動作指令を決定することができる。
図4Cは、少なくとも1つの例示的実施形態に係る空間音響特性と動作指令との間の相関関係を例示するダイヤグラムである。
図4Cの実施例において、方向422を有する距離421は動作指令423に対応し、方向424を有する距離421は動作指令425に対応し、方向422を有する距離426は動作指令427に対応する。図4Cの実施例では、装置が、距離および方向に少なくとも部分的に基づいて特定の動作指令を決定し、同じ距離および異なる方向に少なくとも部分的に基づいて異なる動作指令を決定できることが分かる。同様にして、図4Cでは、装置が距離および方向に少なくとも部分的に基づいて特定の動作指令を決定し、異なる距離および同じ方向に少なくとも部分的に基づいて異なる動作指令を決定できるということが分かる。図4Cの実施例において、装置は、空間音響特性が距離421および方向422に対応する場合に、動作指令423を決定し、空間音響特性が距離421および方向424に対応する場合に動作指令425を決定し、空間音響特性が距離426および方向422に対応する場合に動作指令427を決定する。
前述の通り、一部の状況において、音響情報は音声情報であり得る。少なくとも1つの例示的実施形態において、音声情報は、発話の音響表現を含む音響情報である。少なくとも1つの例示的実施形態において、装置は、音響情報が音声情報であることを決定する。例えば、装置は、音響情報が音声情報であることと整合する特性を音響情報が示すことを決定できる。音響情報が音声情報であることを決定できる方法は多く存在することを理解すべきである。同様にして、音響情報が音声情報であることを装置が決定するための多くの方法が将来開発される確率も高い。したがって、音響情報が音声情報であることを装置が決定する方法は、いかなる形であれクレームを必然的に限定するわけではない。
一部の状況下では、音声情報は、音声コマンドを含み得る。例えば、音声コマンドは、特定のインターフェースコマンドを起動させるコンテンツを有する発話であり得る。例えば、音声コマンドは、動作指令の起動に関連付けされるワードの言語による表現を含む。
少なくとも1つの例示的実施形態において、装置は、音声コマンド音響情報を含む音声情報を受信する。少なくとも1つの例示的実施形態において、音声コマンド音響情報は、音声コマンドの発声などの音声コマンドの表現を含む音響情報である。このような実施例において、装置は、音声コマンド情報に少なくとも部分的に基づいて音声コマンドを識別でき、音声コマンド音響情報に少なくとも部分的に基づいて動作指令を決定できる。例えば、装置は、特定発話者音声認識、発話者独立音声認識などを介して、音声コマンドを決定できる。装置が音声コマンドを識別できる方法は数多く存在するということを理解すべきである。同様にして、装置が音声コマンドを識別するための多くの方法が将来開発される確率も高い。したがって、装置が音声コマンドを識別する方法は、いかなる形であれクレームを必然的に限定するわけではない。少なくとも1つの例示的実施形態において、装置は、音声コマンドに少なくとも部分的に基づいて動作指令を決定する。例えば、装置は、呼出し応答音声コマンドを表現する音声情報を受信することができる。このような実施例において、装置は、呼出し応答音声コマンドに少なくとも部分的に基づいて、装置に着呼へ応答させる動作指令を決定することができる。
少なくとも1つの例示的実施形態において、装置は、空間音響特性および音声コマンドに少なくとも部分的に基づいて動作指令を決定する。例えば、装置は、音声コマンドを表現し特定の空間音響品質を有する音声情報を受信できる。このような実施例において、装置は、空間音響特性および音声コマンドの両方に少なくとも部分的に基づいて動作指令を決定できる。
一部の状況において、音声コマンドを表現する音声情報の空間音響特性に少なくとも部分的に基づいて、音声コマンドに関連付けされる動作指令を変動させることが望ましい場合がある。例えば、音響方向を介して異なるアプリケーション機能性を制御することが望まれる可能性がある。例えば、画像捕捉プログラムのための音声コマンドに関しては、装置は、近位音響距離を有する音声情報に、セルフタイマー捕捉機能の制御を限定することができる。このような実施例において、装置は、さらに遠い音響距離を有する音声情報を介して他の音声コマンドを起動できるようにすることができる。
一部の状況においては、空間音響特性に少なくとも部分的に基づいて、動作指令により支配されるべきプログラムを識別することが望ましい場合がある。例えば、音響情報が装置の方に向けられている場合、動作指令がアクティブプログラムを支配することが望ましく、音響情報が装置から離れる方向に向けられている場合には動作指令が異なるプログラムを支配することが望ましいことがありえる。このようにして、ユーザーが装置に向かって発話しているとき、音声コマンドをアクティブプログラムに移行させることができる。同様にして、ユーザーが装置から離れる方向に発話している場合、音声コマンドを異なるプログラムに移行させることができる。
図5は、少なくとも1つの例示的実施形態に係る空間音響特性に少なくとも部分的に基づく動作指令の決定に付随するアクティビティを例示する流れ図である。少なくとも1つの例示的実施形態において、図5のアクティビティに対応する動作セットが存在する。例えば図1の電子装置などの装置、またはその一部分は、この動作セットを利用できる。装置は、例えば図1のプロセッサ11などを含めた、このような動作を実施するための手段を含むことができる。一例示的実施形態においては、例えば図1のプロセッサ11などのプロセッサと共に機能して図5の動作セットを装置に実施させるように構成されたコンピュータコードを含む、例えば図1のメモリー12などのメモリーを有することによって、例えば図1の電子装置10などの装置が変換される。
ブロック502では、装置は、装置が含む複数のマイクロホンを介して音響情報を受信する。受信、音響情報およびマイクロホンは、図2A〜2Bに関して説明された通りである。
ブロック504で、装置は、装置との関係における音響情報の少なくとも1つの空間音響特性を決定する。決定および空間音響特性は、図3A〜3Dに関して説明されているものと類似している。
ブロック506において、装置は、空間音響特性に少なくとも部分的に基づいて動作指令を決定する。決定および動作指令は、図4A〜4Cに関して説明されているものと類似している。
ブロック508において、装置は、動作指令にしたがって1つ以上の動作を実施する。実施および動作は、図4A〜4Cに関して説明されているものと類似している。
図6は、少なくとも1つの例示的実施形態に係る空間音響特性に少なくとも部分的に基づく動作指令の決定に付随するアクティビティを例示する流れ図である。少なくとも1つの例示的実施形態において、図6のアクティビティに対応する動作セットが存在する。例えば図1の電子装置などの装置、またはその一部分は、この動作セットを利用できる。装置は、例えば図1のプロセッサ11などを含めた、このような動作を実施するための手段を含むことができる。一例示的実施形態においては、例えば図1のプロセッサ11などのプロセッサと共に機能して図6の動作セットを装置に実施させるように構成されたコンピュータコードを含む、例えば図1のメモリー12などのメモリーを有することによって、例えば図1の電子装置10などの装置が変換される。
一部の状況においては、空間音響情報が特定の範囲内にあるか否かを決定することが望ましい場合がある。例えば、空間音響特性が特定の範囲と異なっている場合には、音響情報に少なくとも部分的に基づいて、動作指令の決定を排除することが望ましいことがありえる。例えば、この特定の範囲は、装置が動作指令を決定する状況を限定することができる。
少なくとも1つの例示的実施形態において、動作指令の決定には、空間音響特性が空間音響特性動作閾値内にあることの決定が含まれる。このような実施例において、動作指令の決定は、空間音響特性が空間音響特性動作閾値内にあることの決定に少なくとも部分的に基づくことができる。少なくとも1つの例示的実施形態において、空間音響特性動作閾値は、空間音響特性の既定の範囲であり、この既定の範囲内にある空間音響特性が、1つ以上の動作指令の決定を可能にするようになっている。このようにして、空間音響特性動作閾値は、既定の範囲を超える空間音響特性が、1つ以上の動作指令の決定を排除することになるような空間音響特性の既定の範囲であり得る。例えば、この既定の範囲は、その範囲内であれば装置が動作指令を決定することになり、それを超えると装置が動作指令の決定を排除する、音響距離範囲であり得る。
少なくとも1つの例示的実施形態において、空間音響特性動作閾値は、方向の音響特性動作閾値である。少なくとも1つの例示的実施形態において、方向の音響特性動作閾値は既定の方向範囲である。このような方向範囲は、音響発信元が装置の方に向けられていること、音響発信元が装置から離れる方に向けられていること、装置から特定の方向範囲内にある音響発信元などに対応し得る。このような実施例において、音響発信元が装置から離れる方に向けられていることに対応する音響方向は、1つ以上の動作指令の決定の排除を誘発し得る。
少なくとも1つの例示的実施形態において、空間音響特性動作閾値は、距離の音響特性動作閾値である。少なくとも1つの例示的実施形態において、距離の音響特性動作閾値は、既定の距離範囲である。このような距離範囲は、音響発信元が装置に近接していることに対応し得る。少なくとも1つの例示的実施形態において、装置に対し近接しているとは、5センチメートル以内、10センチメートル以内、100センチメートル以内、1メートル以内などであり得る。少なくとも1つの例示的実施形態において、音響距離は、音響距離が近接性を標示する既定の距離範囲を超える場合、装置から遠隔にあるとみなされ得る。このような実施例では、音響発信元が装置から遠隔にあることに対応する音響距離が、1つ以上の動作指令の決定の排除を誘発し得る。例えば、装置が、着呼についてユーザーに通知した場合、ユーザーは、デバイスに近接して「ハロー」と発声することにより、着呼した電話に応答するための動作指令を起動させることができる。このような実施例において、装置は、装置に対するユーザーの近接性に少なくとも部分的に基づいて、音声コマンドとして「ハロー」を識別できる。別の実施例において、装置は、図3Aの実施例内で標示された通りの空間音響特性が口述動作指令のための空間音響特性動作閾値内にあることを決定できる。このような実施例において、装置は、ユーザーが空間音響特性動作閾値により識別された既定の距離範囲を超えた場合、口述プログラムの動作の実施を回避できる。
一部の状況において、音声コマンドの発声に先行して音声コマンドプロンプトを利用することが望ましいことがありえる。少なくとも1つの例示的実施形態において、音声コマンドプロンプトは、後続する音声情報を音声コマンドとして識別する音声情報である。例えば、装置は、音響情報が音声コマンドプロンプトを含むことを装置が認識した後音声コマンドを装置が識別するような形で、音声コマンドプロンプトを介して非コマンド音響情報を区別することができる。例えば、音声コマンドプロンプトは、「コンピュータ」であり得、こうして「コンピュータ、メッセージを送信」という発声により、装置は、音声コマンド発声として「コンピュータ」の音声コマンドプロンプトに後続する「メッセージ送信」を音声コマンド発声として認識することができるようになる。
一部の状況において、音声情報が音声コマンドとなるように意図されていることを装置に標示するユーザーの能力を維持することが望ましい場合がある。このようにして、空間音響特性は、発声が音声コマンドとなるというユーザーの意図を標示することができる。例えば、ユーザーは、音声コマンドを発声するときに図3A〜3Bに標示された通りに装置を保持することができる。このような実施例において、装置は、いつ音声コマンドを識別すべきかを決定するため、音声コマンドに基づいて動作指令を決定するためなどに、空間音響特性動作閾値を利用することができる。
少なくとも1つの例示的実施形態において、音響情報は、音声コマンド音響情報を含む。このような実施例において、装置は、空間音響特性が空間音響特性動作閾値内にあることの決定時点で、音声コマンドの識別を断定することができる。このような実施例において、ユーザーは、音声コマンドプロンプトの発声を強制されることを回避できる。このような実施例において、音声コマンド音響情報は、音声コマンドプロンプトを表わす不在情報であり得る。
例えば、ユーザーが別個に発話認識を開始させる必要なく容易にプログラムのフィーチャーを制御できることが望ましい場合がある。このような実施例において、装置は、ユーザーがデバイスに極めて近接し発話しているとき、これを認識できる。この場合、音声情報はプログラム機能性を制御するために使用することができる。
一部の状況において、空間音声特性が空間音声特性動作閾値内にあることを装置が決定した場合、装置は、コマンドを実行する前の音響「ビープ」、コマンドが認識されたことの視覚的標示などの音声入力のアベイラビリティの標示のアクチュエーションを誘発することができる。
一部の状況において、装置が空間音響特性に基づいて動作指令を決定する方法は、動作パラメータによる影響を受けるべきプログラムの1つ以上の側面に少なくとも部分的に基づくものである。例えば、画像捕捉プログラムを特定の深度で自助焦点合せすることができる。このような実施例において、装置は、特定の深度と異なる音響距離を標示する空間音響情報に付随する音声情報の識別を回避できる。このような実施例において、特定の深度にいる人物は、装置に対し音声コマンドを提供できる場合がある。
ブロック602では、装置は、図5のブロック502に関して説明されているものと類似の形で、装置が含む複数のマイクロホンを介して音響情報を受信する。ブロック604で、装置は、図5のブロック504に関して説明されているものと類似の形で、装置との関係における音響情報の少なくとも1つの空間音響特性を決定する。
ブロック606において、装置は、空間音響特性が、空間音響特性動作閾値内にあるか否かを決定する。空間音響特性が空間音響特性動作閾値内にあることを装置が決定した場合、流れはブロック608へと進む。空間音響特性が空間音響特性動作閾値内に入らないことを装置が決定した場合、流れはブロック612へと進む。
ブロック608において、装置は、図5のブロック506に関して説明されているものと類似の形で、空間音響特性に少なくとも部分的に基づいて、動作指令を決定する。このようにして、動作指令の決定は、空間音響特性が空間音響特性動作閾値内にあることの決定に少なくとも部分的に基づくものであり得る。
ブロック610では、装置は、図5のブロック508に関して説明されているものと類似の形で、動作指令にしたがって1つ以上の動作を実施する。このようにして、動作指令にしたがった1つ以上の動作の実施は、空間音響特性が空間音響特性動作閾値内にあることの決定に少なくとも部分的に基づくものであり得る。
ブロック612では、装置は、空間音響特性が空間音響特性動作閾値を超えていることの決定に少なくとも部分的に基づいて、別の動作指令の決定を排除する。このようにして、別の動作指令の決定の排除は、空間音響特性が空間音響特性動作閾値を超えていることの決定に少なくとも部分的に基づくものであり得る。
図7は、少なくとも1つの例示的実施形態に係る空間音響特性に少なくとも部分的に基づく動作指令の決定に付随するアクティビティを例示する流れ図である。少なくとも1つの例示的実施形態において、図7のアクティビティに対応する動作セットが存在する。例えば図1の電子装置などの装置、またはその一部分は、この動作セットを利用できる。装置は、例えば図1のプロセッサ11などを含めた、このようなプロセッサを実施するための手段を含むことができる。一例示的実施形態においては、例えば図1のプロセッサ11などのプロセッサと共に機能して図7の動作セットを装置に実施させるように構成されたコンピュータコードを含む、例えば図1のメモリー12などのメモリーを有することによって、例えば図1の電子装置10などの装置が変換される。
前述の通り、動作指令は、空間音響特性および音声コマンドの両方に基づくことが望ましいことがありえる。
ブロック702において、装置は、装置が含む複数のマイクロホンを介して、音声コマンド音響情報を含む音響情報を受信する。受信、音響情報、音声コマンド情報およびマイクロホンは、図2A〜2Bおよび図4A〜4Cに関して説明されているものと類似したものであり得る。
ブロック704では、装置は、図5のブロック504に関して説明されているものと類似の形で、装置との関係における音響情報の少なくとも1つの空間音響特性を決定する。
ブロック706では、装置は、音声コマンド音響情報に少なくとも部分的に基づいて音声コマンドを特定する。この識別は、図4A〜4Cに関して説明されているものと類似したものであり得る。
ブロック708では、装置は、空間音響特性および音声コマンドに少なくとも部分的に基づいて動作指令を決定する。決定および動作指令は、図4A〜4Cに関して説明されているものと類似のものであり得る。
ブロック710では、装置は、図5のブロック508に関して説明されているものと類似の形で、動作指令にしたがって1つ以上の動作を実施する。
このようにして、装置は、異なる空間音声特性に少なくとも部分的に基づいて異なる動作指令を決定できる。動作指令のこのような差異は、音声コマンドが同じである状況において決定され得る。例えば、装置は、装置が含む複数のマイクロホンを介して音響情報を受信し、装置との関係における音響情報の少なくとも1つの空間音響特性を決定し、空間音響特性に少なくとも部分的に基づいて動作指令を決定し、この動作指令にしたがって1つ以上の動作を実施することができる。このような実施例において、装置は、複数のマイクロホンを介して、他の音声コマンド音響情報を含む異なる音響情報を受信し、装置との関係における異なる音響情報の少なくとも1つの異なる空間音響特性を決定し(異なる空間音響特性は空間音響特性と異なるものである)、他の音声コマンド音響情報に少なくとも部分的に基づいて音声コマンドを識別し、異なる空間音響特性および音声コマンドに少なくとも部分的に基づいて異なる動作指令を決定し、この異なる動作指令にしたがって1つ以上の異なる動作を実施することができる。
図8A〜8Bは、少なくとも1つの例示的実施形態に係る空間音響動作インジケータを例示するダイヤグラムである。図8A〜8Bの実施例は、単なる例にすぎず、クレームの範囲を限定するものではない。例えば、装置の構成、装置のサイズ、マイクロホンの数、マイクロホンの位置、マイクロホンの配向などが変動し得る。
一部の状況においては、特定の方向または特定の距離からどのプログラムが制御可能であるかをユーザーが判断できることが望ましい場合がある。このような実施例においては、装置が空間音響動作インジケータの表示を誘発することが望ましい場合がある。少なくとも1つの例示的実施形態において、空間音響動作インジケータは、複数の空間音響特性範囲と複数の動作指令候補の間の相関関係の視覚的表現である。例えば、空間音響動作インジケータは、特定の動作指令に関連付けされているものとして、ディスプレーの一領域を視覚的に標示し得る。このような実施例において、動作指令は、動作指令候補として標示され得る。少なくとも1つの例示的実施形態において、動作指令候補は、動作インジケータに対応する空間音響特性に少なくとも部分的に基づいて決定することのできる、考えられる動作指令の視覚的標示である。
少なくとも1つの例示的実施形態において、視覚的表現は、複数の方向を標示する。このような実施例において、複数の動作指令候補は、それぞれの方向に対応して表現され得る。このようにして、動作指令候補に付随する方向は、動作指令候補によって標示される動作指令に付随する音響方向に対応し得る。
少なくとも1つの例示的実施形態において、視覚的表現は、複数の距離を標示する。このような実施例において、複数の動作指令候補は、それぞれの距離に対応して表現される。このようにして、動作指令候補に付随する距離は、動作指令候補によって標示される動作指令に付随する音響距離に対応し得る。
図8Aは、少なくとも1つの例示的実施形態に係る空間音響動作インジケータを例示するダイヤグラムである。図8Aの実施例において、空間音響動作インジケータ801は、動作指令候補802、803、804および805を標示する。動作指令候補802が、1つ以上のカメラプログラム動作指令に対応すること、動作指令候補803が1つ以上のブラウザプログラム動作指令に対応すること、動作指令候補804が1つ以上の音楽プログラム動作指令に対応すること、そして動作指令候補805が1つ以上の口述プログラム動作指令に対応することが分かる。装置の最上部との関係における動作指令候補802の配置は、音響方向810がカメラプログラム動作指令に対応することを標示していること、装置の左側との関係における動作指令候補803の配置は、音響方向811がブラウザプログラム動作指令に対応することを標示していること、装置の底部との関係における動作指令候補804の配置は、音響方向812が音楽プログラム動作指令に対応することを標示していること、そして装置の右側との関係における動作指令候補805の配置は、音響方向813が口述プログラム動作指令に対応することを標示していること、が分かる。
図8Bは、少なくとも1つの例示的実施形態に係る空間音響動作インジケータを例示するダイヤグラムである。
図8Bの実施例において、空間音響動作インジケータ821は、動作指令候補822、823および824を標示する。動作指令候補822が1つ以上の電話プログラム動作指令に対応すること、動作指令候補823が1つ以上のカメラプログラム動作指令に対応すること、そして動作指令候補824がカメラプログラム捕捉動作指令に対応すること、が分かる。装置の底部との関係における動作指令候補822の配置は、音響方向831が1つ以上の電話プログラム動作指令に対応することを標示していること、および装置の上部部分との関係における動作指令候補823の配置は、音響方向832および833が1つ以上のカメラプログラム動作指令に対応し得ることを標示していること、が分かる。このようにして、装置は、動作候補に付随する近接性を標示することができる。図8Bの実施例においては、動作インジケータ821の底部が装置の近位から起動され得る動作指令候補を識別すること、が分かる。図8Bの実施例において、音響方向831は、装置の近位である音声方向を標示する。このようにして、動作指令候補822は、音響方向831を介して起動され得る。同様にして、動作インジケータ821の最上部が装置から遠い距離から起動され得る動作指令候補を識別していることが分かる。図8Bの実施例において、音響距離832および音響方向833は、装置から遠い音声方向を標示している。このようにして、動作指令候補823は、音響方向832および/または音響方向833を介して起動され得る。
動作指令候補824が、動作指令候補の縁部に沿った特定の方向を標示することが分かる。このようにして、動作指令候補824と音響方向832の間の対応は、音響方向832がカメラプログラム捕捉動作指令に対応することを標示している。同様にして、動作指令候補823と音響方向832の間の対応の不在は、音響方向833が、カメラプログラム捕捉動作指令に対応できないことを標示している。このようにして、空間音響動作インジケータ821は、カメラプログラム捕捉動作指令が音響方向833から排除されることを標示している。しかしながら、少なくとも1つの他のカメラプログラム動作指令が、音響方向833から許容され得る。
本発明の実施形態は、ソフトウェア、ハードウェア、アプリケーション論理またはソフトウェア、ハードウェアおよびアプリケーション論理の組合せの形で実装され得る。ソフトウェア、アプリケーション論理および/またはハードウェアは、装置上に、別個の装置上にまたは複数の別個のデバイス上に存在し得る。所望される場合、ソフトウェア、アプリケーション論理および/またはハードウェアの一部が装置上に存在でき、ソフトウェア、アプリケーション論理および/またはハードウェアの一部が別個のデバイス上に存在でき、ソフトウェア、アプリケーション論理および/またはハードウェアの一部が複数の別個のデバイス上に存在できる。一例示的実施形態において、アプリケーション論理、ソフトウェアまたは命令セットは、さまざまな従来のコンピュータ可読媒体のいずれか1つの上に維持される。
所望される場合、本明細書中で論述されている異なる機能は、異なる順序でおよび/または互いに同時に実施され得る。例えば、図7のブロック704を図7のブロック706の後に実施することができる。さらに、所望される場合、上述の機能の1つ以上は任意であり得、あるいは組合せることもできる。例えば、図5のブロック502は任意であり、かつ/または図5のブロック504と組合せることもできる。
独立クレーム中には本発明のさまざまな態様が提示されているものの、本発明の他の態様には、クレーム中に明示的に提示されている組合せだけでなく、説明された実施形態および/または従属クレームからの特徴と独立クレームの特徴の他の組合せが含まれる。
本明細書中には同様に、以上では本発明の例示的実施形態が説明されているものの、これらの説明は、限定的な意味で考慮されるべきではない。むしろ、添付の図面中で規定されている通り、本発明の範囲から逸脱することなく行なうことのできる変更および修正が存在する。

Claims (13)

  1. 装置に備えられた複数のマイクロホンを介して音響情報を受信するステップと、
    前記装置との関係において前記音響情報の少なくとも1つの空間音響特性を決定するステップと、
    前記空間音響特性に少なくとも部分的に基づいて動作指令を決定するステップと、
    前記動作指令に適合する1つ以上の動作を実行するステップと、
    前記複数のマイクロホンを介して異なる音響情報を受信するステップと、
    前記装置との関係における前記異なる音響情報の少なくとも1つの異なる空間音響特性を決定するステップと、
    前記少なくとも1つの異なる空間音響特性が空間音響特性動作閾値を超えていることを決定するステップと、
    前記少なくとも1つの異なる空間音響特性が前記空間音響特性動作閾値を超えていることの決定に少なくとも部分的に基づいて、前記動作指令とは別の動作指令の決定を排除するステップと、
    を含む方法であって、
    前記動作指令の決定ステップは、前記空間音響特性が、空間音響特性動作閾値の範囲内にあるか否かの決定に少なくとも部分的に基づいており、
    前記空間音響特性動作閾値は、少なくとも音響発信源からの音響距離の閾値を含む、
    方法。
  2. 前記空間音響特性が、前記装置との関係における音響方向および前記装置からの音響距離のうちの少なくとも1つである、請求項1に記載の方法。
  3. 前記音響方向が、前記装置と前記音響情報の発信元との間の音響経路の方向である、請求項2に記載の方法。
  4. 前記音響距離が、前記装置と前記音響情報の発信元との間の音響経路に沿った距離である、請求項2または3に記載の方法。
  5. 前記音響情報は、音声コマンド音響情報を含み、
    前記動作指令を決定するステップは、前記音声コマンド音響情報に少なくとも部分的に基づいた音声コマンドの識別を含み、
    前記動作指令を決定するステップが、音声コマンドに少なくとも部分的に基づいている、
    請求項1に記載の方法。
  6. 前記複数のマイクロホンを介して、他の音声コマンド音響情報を含む異なる音響情報を受信するステップと、
    前記装置との関係における前記異なる音響情報の少なくとも1つの異なる空間音響特性を決定するステップであって、前記少なくとも1つの異なる空間音響特性が前記空間音響特性と異なるものである、ステップと、
    他の音声コマンド音響情報に少なくとも部分的に基づいて前記音声コマンドを識別するステップと、
    前記少なくとも1つの異なる空間音響特性および前記音声コマンドに少なくとも部分的に基づいて、前記動作指令とは異なる動作指令を決定するステップと、
    前記異なる動作指令に適合して1つ以上の異なる動作を実行するステップと、
    をさらに含む請求項5に記載の方法。
  7. 所定の範囲内の空間音響特性が1つ以上の動作指令の決定を可能にするように、前記空間音響特性動作閾値が空間音響特性の該所定の範囲である、請求項5または6に記載の方法。
  8. 所定の範囲を超える空間音響特性が1つ以上の動作指令の決定を排除するように、前記空間音響特性動作閾値が空間音響特性の該所定の範囲である、請求項5ないし7のいずれか1項に記載の方法。
  9. 前記音響情報は、音声コマンド音響情報を含み、
    前記動作指令を決定するステップは、前記音声コマンド音響情報に少なくとも部分的に基づいた音声コマンドの識別を含み、
    前記動作指令を決定するステップが音声コマンドに少なくとも部分的に基づいている、
    請求項5ないし8のいずれか1項に記載の方法。
  10. 複数の空間音響特性範囲と複数の動作指令候補との間の相関関係の視覚的表現である空間音響動作インジケータの表示をさせるステップをさらに含む請求項1ないし9のいずれか1項に記載の方法。
  11. 請求項1ないし10のいずれか1項に記載の方法を実行するための手段を備える装置。
  12. 前記方法を実行するための前記手段が少なくとも1つのプロセッサおよび少なくとも1つのメモリを備え、
    前記メモリは、実行されたとき、前記装置に請求項1ないし10のいずれか1項に記載の前記方法を実行させるマシン可読命令を備える、請求項11に記載の装置。
  13. 実行されたときに、請求項1ないし10のいずれか1項に記載の方法を実行する命令を含む、少なくとも1つのコンピュータ・プログラム。
JP2016553021A 2014-02-19 2015-02-12 空間音響特性に少なくとも部分的に基づく動作指令の決定 Active JP6514225B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14155674.6 2014-02-19
EP14155674.6A EP2911149B1 (en) 2014-02-19 2014-02-19 Determination of an operational directive based at least in part on a spatial audio property
PCT/FI2015/050086 WO2015124831A1 (en) 2014-02-19 2015-02-12 Determination of an operational directive based at least in part on a spatial audio property

Publications (2)

Publication Number Publication Date
JP2017509917A JP2017509917A (ja) 2017-04-06
JP6514225B2 true JP6514225B2 (ja) 2019-05-15

Family

ID=50151139

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016553021A Active JP6514225B2 (ja) 2014-02-19 2015-02-12 空間音響特性に少なくとも部分的に基づく動作指令の決定

Country Status (5)

Country Link
US (1) US10152967B2 (ja)
EP (1) EP2911149B1 (ja)
JP (1) JP6514225B2 (ja)
CN (1) CN106030700B (ja)
WO (1) WO2015124831A1 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10705701B2 (en) 2009-03-16 2020-07-07 Apple Inc. Device, method, and graphical user interface for moving a current position in content at a variable scrubbing rate
US10706096B2 (en) 2011-08-18 2020-07-07 Apple Inc. Management of local and remote media items
US9002322B2 (en) 2011-09-29 2015-04-07 Apple Inc. Authentication with secondary approver
WO2014143776A2 (en) 2013-03-15 2014-09-18 Bodhi Technology Ventures Llc Providing remote interactions with host device using a wireless device
EP2911149B1 (en) * 2014-02-19 2019-04-17 Nokia Technologies OY Determination of an operational directive based at least in part on a spatial audio property
JP6328797B2 (ja) 2014-05-30 2018-05-23 アップル インコーポレイテッド 1つのデバイスの使用から別のデバイスの使用への移行
US10339293B2 (en) 2014-08-15 2019-07-02 Apple Inc. Authenticated device used to unlock another device
CN110072131A (zh) 2014-09-02 2019-07-30 苹果公司 音乐用户界面
US10262655B2 (en) * 2014-11-03 2019-04-16 Microsoft Technology Licensing, Llc Augmentation of key phrase user recognition
US9911416B2 (en) * 2015-03-27 2018-03-06 Qualcomm Incorporated Controlling electronic device based on direction of speech
CN104902070A (zh) * 2015-04-13 2015-09-09 青岛海信移动通信技术股份有限公司 一种移动终端语音控制的方法及移动终端
JP2017144521A (ja) * 2016-02-18 2017-08-24 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
DK179186B1 (en) 2016-05-19 2018-01-15 Apple Inc REMOTE AUTHORIZATION TO CONTINUE WITH AN ACTION
DK201670622A1 (en) 2016-06-12 2018-02-12 Apple Inc User interfaces for transactions
US10733989B2 (en) * 2016-11-30 2020-08-04 Dsp Group Ltd. Proximity based voice activation
WO2018151717A1 (en) * 2017-02-15 2018-08-23 Hewlett-Packard Development Company, L.P. Microphone operations based on voice characteristics
US11431836B2 (en) 2017-05-02 2022-08-30 Apple Inc. Methods and interfaces for initiating media playback
US10992795B2 (en) 2017-05-16 2021-04-27 Apple Inc. Methods and interfaces for home media control
JP6298558B1 (ja) * 2017-05-11 2018-03-20 株式会社コロプラ 仮想空間を提供するための方法、および当該方法をコンピュータに実行させるためのプログラム、および当該プログラムを実行するための情報処理装置
US10928980B2 (en) 2017-05-12 2021-02-23 Apple Inc. User interfaces for playing and managing audio items
CN110874204A (zh) * 2017-05-16 2020-03-10 苹果公司 用于家庭媒体控制的方法和界面
AU2018223051B1 (en) * 2017-05-16 2018-11-08 Apple Inc. Methods and interfaces for home media control
US20220279063A1 (en) 2017-05-16 2022-09-01 Apple Inc. Methods and interfaces for home media control
CN111343060B (zh) 2017-05-16 2022-02-11 苹果公司 用于家庭媒体控制的方法和界面
US10403288B2 (en) 2017-10-17 2019-09-03 Google Llc Speaker diarization
JP2021139920A (ja) * 2018-05-31 2021-09-16 ソニーグループ株式会社 音声処理装置および音声処理方法
US11741951B2 (en) * 2019-02-22 2023-08-29 Lenovo (Singapore) Pte. Ltd. Context enabled voice commands
CA3131489A1 (en) 2019-02-27 2020-09-03 Louisiana-Pacific Corporation Fire-resistant manufactured-wood based siding
US10904029B2 (en) 2019-05-31 2021-01-26 Apple Inc. User interfaces for managing controllable external devices
US11620103B2 (en) 2019-05-31 2023-04-04 Apple Inc. User interfaces for audio media control
US11010121B2 (en) 2019-05-31 2021-05-18 Apple Inc. User interfaces for audio media control
DK201970533A1 (en) 2019-05-31 2021-02-15 Apple Inc Methods and user interfaces for sharing audio
CN111354360A (zh) * 2020-03-17 2020-06-30 北京百度网讯科技有限公司 语音交互处理方法、装置和电子设备
CN113450823B (zh) * 2020-03-24 2022-10-28 海信视像科技股份有限公司 基于音频的场景识别方法、装置、设备及存储介质
US11079913B1 (en) 2020-05-11 2021-08-03 Apple Inc. User interface for status indicators
US11392291B2 (en) 2020-09-25 2022-07-19 Apple Inc. Methods and interfaces for media control with dynamic feedback
US11847378B2 (en) 2021-06-06 2023-12-19 Apple Inc. User interfaces for audio routing
DK202100097U3 (da) * 2021-10-23 2023-01-26 Sens Vue Aps Elektronisk apparat, der omfatter et nærfelt stemmekontrol til detektions-, diagnose- og behandlingsudstyr

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI114422B (fi) * 1997-09-04 2004-10-15 Nokia Corp Lähteen puheaktiviteetin tunnistus
JP2002091491A (ja) * 2000-09-20 2002-03-27 Sanyo Electric Co Ltd 複数機器の音声制御システム
GB0030918D0 (en) * 2000-12-19 2001-01-31 Hewlett Packard Co Activation of voice-controlled apparatus
DE10133126A1 (de) * 2001-07-07 2003-01-16 Philips Corp Intellectual Pty Richtungssensitives Audioaufnahmesystem mit Anzeige von Aufnahmegebiet und/oder Störquelle
JP3715584B2 (ja) * 2002-03-28 2005-11-09 富士通株式会社 機器制御装置および機器制御方法
US7803050B2 (en) * 2002-07-27 2010-09-28 Sony Computer Entertainment Inc. Tracking device with sound emitter for use in obtaining information for controlling game program execution
GB2394589B (en) * 2002-10-25 2005-05-25 Motorola Inc Speech recognition device and method
JP3827317B2 (ja) * 2004-06-03 2006-09-27 任天堂株式会社 コマンド処理装置
US7747446B2 (en) * 2006-12-12 2010-06-29 Nuance Communications, Inc. Voice recognition interactive system with a confirmation capability
JP2009020423A (ja) * 2007-07-13 2009-01-29 Fujitsu Ten Ltd 音声認識装置および音声認識方法
JP5228407B2 (ja) * 2007-09-04 2013-07-03 ヤマハ株式会社 放収音装置
US9203533B2 (en) * 2008-07-24 2015-12-01 Line 6, Inc. System and method for real-time wireless transmission of digital audio at multiple radio frequencies
JP2010197727A (ja) * 2009-02-25 2010-09-09 Nec Corp 音声認識装置、ロボット、音声認識方法、プログラム及び記録媒体
JP5402089B2 (ja) 2009-03-02 2014-01-29 富士通株式会社 音響信号変換装置、方法、及びプログラム
JP5646146B2 (ja) * 2009-03-18 2014-12-24 株式会社東芝 音声入力装置、音声認識システム及び音声認識方法
US8744065B2 (en) * 2010-09-22 2014-06-03 Avaya Inc. Method and system for monitoring contact center transactions
KR101789619B1 (ko) * 2010-11-22 2017-10-25 엘지전자 주식회사 멀티미디어 장치에서 음성과 제스쳐를 이용한 제어 방법 및 그에 따른 멀티미디어 장치
US20120259638A1 (en) * 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech
CN103024629B (zh) * 2011-09-30 2017-04-12 斯凯普公司 处理信号
JP5333559B2 (ja) * 2011-10-07 2013-11-06 株式会社デンソー 車両用装置
US9285452B2 (en) 2011-11-17 2016-03-15 Nokia Technologies Oy Spatial visual effect creation and display such as for a screensaver
US10048933B2 (en) 2011-11-30 2018-08-14 Nokia Technologies Oy Apparatus and method for audio reactive UI information and display
WO2013079782A1 (en) 2011-11-30 2013-06-06 Nokia Corporation An audio driver user interface
KR102022318B1 (ko) * 2012-01-11 2019-09-18 삼성전자 주식회사 음성 인식을 사용하여 사용자 기능을 수행하는 방법 및 장치
EP2812785B1 (en) * 2012-02-07 2020-11-25 Nokia Technologies Oy Visual spatial audio
US20140309852A1 (en) * 2013-04-15 2014-10-16 Flextronics Ap, Llc Automatic vehicle diagnostic detection and communication
KR101946364B1 (ko) * 2012-05-01 2019-02-11 엘지전자 주식회사 적어도 하나의 마이크 센서를 갖는 모바일 디바이스 및 그 제어방법
WO2014024009A1 (en) 2012-08-10 2014-02-13 Nokia Corporation Spatial audio user interface apparatus
US9251787B1 (en) * 2012-09-26 2016-02-02 Amazon Technologies, Inc. Altering audio to improve automatic speech recognition
CN103077714B (zh) * 2013-01-29 2015-07-08 华为终端有限公司 信息的识别方法和装置
EP2911149B1 (en) * 2014-02-19 2019-04-17 Nokia Technologies OY Determination of an operational directive based at least in part on a spatial audio property
US9338761B2 (en) * 2014-02-26 2016-05-10 Empire Technology Development Llc Presence-based device mode modification
US9431021B1 (en) * 2014-03-27 2016-08-30 Amazon Technologies, Inc. Device grouping for audio based interactivity
US9769552B2 (en) * 2014-08-19 2017-09-19 Apple Inc. Method and apparatus for estimating talker distance
US9929817B2 (en) * 2014-11-19 2018-03-27 Oath Inc. System and method for 3D tracking for ad-hoc cross-device interaction
US9903938B2 (en) * 2015-02-03 2018-02-27 Nokia Technologies Oy Radio and audio localization
US9911416B2 (en) * 2015-03-27 2018-03-06 Qualcomm Incorporated Controlling electronic device based on direction of speech

Also Published As

Publication number Publication date
US20160351191A1 (en) 2016-12-01
WO2015124831A1 (en) 2015-08-27
CN106030700B (zh) 2019-12-06
CN106030700A (zh) 2016-10-12
US10152967B2 (en) 2018-12-11
JP2017509917A (ja) 2017-04-06
EP2911149A1 (en) 2015-08-26
EP2911149B1 (en) 2019-04-17

Similar Documents

Publication Publication Date Title
JP6514225B2 (ja) 空間音響特性に少なくとも部分的に基づく動作指令の決定
EP3192072B1 (en) Dynamic thresholds for always listening speech trigger
KR101956796B1 (ko) 음성-대-텍스트 변환의 햅틱 증대를 위한 시스템들 및 방법들
KR101726945B1 (ko) 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감
CN108538320B (zh) 录音控制方法和装置、可读存储介质、终端
US20160253552A1 (en) Generating actions based on a user's mood
US10353495B2 (en) Personalized operation of a mobile device using sensor signatures
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
CN111147444B (zh) 一种交互方法及电子设备
CN109212534B (zh) 移动终端的握持姿态检测方法、装置、设备及存储介质
EP2916241A1 (en) Causation of rendering of song audio information
EP3044942B1 (en) Determination of ambient sound processed audio information
US9167076B2 (en) Ring accessory
US20170322621A1 (en) Mobile phone, method for operating mobile phone, and recording medium
US9213407B2 (en) Ring accessory
WO2015104883A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2016157993A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP2018081147A (ja) コミュニケーション装置、サーバ、制御方法、および情報処理プログラム
CN111326175A (zh) 一种对话者的提示方法及穿戴设备
JP7293863B2 (ja) 音声処理装置、音声処理方法およびプログラム
KR20130095550A (ko) 리모컨, 화상 회의 중계 방법, 화상 회의 장치 및 방법
JPWO2017187674A1 (ja) 情報処理装置、情報処理システム、及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171128

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180307

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181218

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20190107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190411

R150 Certificate of patent or registration of utility model

Ref document number: 6514225

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250