JP2017509181A

JP2017509181A - ジェスチャ相互作用式の装着可能な空間オーディオシステム

Info

Publication number: JP2017509181A
Application number: JP2016543219A
Authority: JP
Inventors: ティムコールマン，; ステファンマルティ，; センソ，ダビデディ
Original assignee: ハーマンインターナショナルインダストリーズインコーポレイテッド
Priority date: 2014-01-03
Filing date: 2014-12-31
Publication date: 2017-03-30
Anticipated expiration: 2034-12-31
Also published as: EP3090321A1; CN104765444B; JP6494286B2; CN105874408A; CN105874408B; JP2015143987A; EP3090321A4; US10585486B2; US20150193197A1; JP6553052B2; US10126823B2; WO2015103439A1; US20160320847A1; CN104765444A; EP2891955B1; EP2891955A1

Abstract

本発明の一実施形態はジェスチャに基づいてオーディオパラメータを修正する技術を示す。本技術は、ユーザの手と関連するセンサデータを取得し、センサデータを分析して少なくとも１つの手の位置を決定することを含む。本技術はさらに、少なくとも１つの手の位置に基づいて手のジェスチャを検出し、手のジェスチャに対応して、オーディオストリームに関連する空間オーディオパラメータを修正して、修正されたオーディオストリームを生成することを含む。本技術はさらに、修正されたオーディオストリームをユーザに出力するために再生させることを含む。【選択図】図６

Description

関連出願の相互参照
本願は、２０１４年１月３日に出願された米国仮特許出願第６１／９２３，５６０号（代理人整理番号ＨＲＭＮ／００７８ＵＳＬ）及び２０１４年１月３日に出願された、米国特許仮出願第６１／９２３，５７１号（代理人整理番号ＨＲＭＮ／００８０ＵＳＬ）の利益を主張する。本関連出願の主題は、参考として本明細書に組み込まれている。

本発明の実施形態の分野
本発明の実施形態は、一般に、音響信号処理に関し、より具体的には、ジェスチャ相互作用式の装着可能な空間オーディオシステムに関する。

関連技術
スマートフォン、携帯型メディアプレーヤ及びパーソナルコンピュータのような電子装置の使用は、日常生活のすべての面において、ますます普及しつつある。このような装置により、ストリーミングやダウンロード可能な音楽、映画、ポッドキャスト、テレビ番組等のような、オーディオ及びビデオコンテンツにユーザがアクセスし易くなる。さらに、このような装置は、ユーザが幅広い範囲の通信サービスへのアクセスすることを可能にし、その多くは、ユーザがその他のユーザと相互作用できるオーディオ及び／またはビデオのインターフェースを提供する。

電子装置のユーザがしばしば直面する問題は、電子装置が、その装置のユーザに、同時に多数のオーディオイベントを再生するときに起こる。例えば、同一装置上で多数のソフトウェアアプリケーションを操作するユーザは（例えば、マルチタスキング）、あるソフトウェアアプリケーションによって生成されるオーディオコンテンツと別のソフトウェアアプリケーションによって生成されるオーディオコンテンツとを区別することが困難な可能性がある。したがって、場合によっては、ユーザはどのソフトウェアアプリケーションと関連する音かわからない可能性があり、及び／またはユーザは多数のオーディオイベントが同時に起こることによって気が散ってしまい、ユーザが特定のソフトウェアアプリケーションと効果的に相互作用する能力を妨げ得る。この後者の場合を取り込んだ共通のユースケースは、別のソフトウェアアプリケーション（例えば、メディアプレーヤ）を操作するために同一の電子装置を使用している間に、ユーザが１人以上の人と、電子装置上で実行される通信サービスを介して話す時である。ユーザは会話中に、別のソフトウェアアプリケーションに関連した別のオーディオイベントが生成され再生されると、会話に注意を払うのが困難になり得る。

前述で示すように、ユーザが、異なるオーディオイベントをより効果的に聴取することを可能にする技術は有用であるだろう。

本発明の一実施形態はジェスチャに基づいてオーディオパラメータを修正する方法を示す。本方法は、ユーザの手と関連するセンサデータを取得し、センサデータを分析して少なくとも１つの手の位置を決定することを含む。本方法はさらに、少なくとも１つの手の位置に基づいて手のジェスチャを検出し、手のジェスチャに対応して、オーディオストリームに関連した空間オーディオパラメータを修正して、修正されたオーディオストリームを生成することを含む。本方法はさらに、修正されたオーディオストリームをユーザに出力するために再生させることを含む。

さらなる実施形態は、とりわけ、上述の方法を実行するよう構成されたシステム及び非一時的なコンピュータ可読媒体を提供する。

有利には、この開示された技術はユーザが、オーディオイベントが音響空間内で再生される位置を修正することを可能にする。例えば、ユーザは直感的に、オーディオイベントと関連した仮想物体を把持し、仮想物体を仮想３次元音響空間内の所望の位置に再配置し得る。したがって、オーディオイベントは音響空間内に再配置されてよく、ユーザが、多数のオーディオイベントを同時により効果的に聴取及び／または相互作用することを可能にする。また、ユーザが仮想３次元音響空間内にオーディオイベントを再配置するのをさらに支援するために、ユーザの手がオーディオイベントと関連した仮想物体に隣接した時に、聴覚フィードバック及び／または触覚フィードバックが、ユーザに提供され得る。

上述の本発明の特徴である方法が詳細に理解できるように、上記に簡潔に要約された本発明のより詳細な説明を、実施形態の参考に挙げているが、そのいくつかは添付図面中に図示されている。しかしながら、添付図面は本発明の典型的な実施形態のみ図示していること、そのため本発明の範囲を限定するものと考えるべきではなく、本発明は、その他の等しく効果的な実施形態を認め得ることに注意すべきである。

様々な実施形態による、ユーザのジェスチャを認識し、オーディオストリームの空間オーディオパラメータを修正するためのオーディオシステムを示す。様々な実施形態による、図１のオーディオシステムとともに実行され、またはオーディオシステムに連結され得る計算装置のブロック図である。様々な実施形態による、ジェスチャを行うことにより図１のオーディオシステムと相互作用しているユーザを示す。様々な実施形態による、ジェスチャを行うことにより図１のオーディオシステムと相互作用しているユーザを示す。様々な実施形態による、ジェスチャを行うことにより図１のオーディオシステムと相互作用しているユーザを示す。様々な実施形態による、通信サービスによって生成されたオーディオイベントを再配置するために、図１のオーディオシステムと相互作用しているユーザを示す。様々な実施形態による、通信サービスによって生成されたオーディオイベントを再配置するために、図１のオーディオシステムと相互作用しているユーザを示す。様々な実施形態による、通信サービスによって生成されたオーディオイベントを再配置するために、図１のオーディオシステムと相互作用しているユーザを示す。様々な実施形態による、オーディオイベントを再配置するために、仮想物体と相互作用しているユーザを示す。様々な実施形態による、オーディオイベントを再配置するために、仮想物体と相互作用しているユーザを示す。様々な実施形態による、オーディオイベントを再配置するために、仮想物体と相互作用しているユーザを示す。様々な実施形態による、オーディオイベントを再配置するために、仮想物体と相互作用しているユーザを示す。様々な実施形態による、オーディオイベントを再配置するために、仮想物体と相互作用しているユーザを示す。様々な実施形態による、ジェスチャに基づいてオーディオパラメータを修正する方法の工程のフローチャートである。様々な実施形態による、仮想物体を再配置することにより、オーディオパラメータを修正する方法の工程のフローチャートである。

以下の説明においては、多数の具体的な詳細が、本発明の実施形態より十分な理解を提供するために示されている。しかしながら、本発明の実施形態はこれらの１つ以上の具体的詳細なくして実施され得ることが、当業者には明白である。

図１は、様々な実施形態による、ユーザのジェスチャを認識し、オーディオストリームの空間オーディオパラメータを修正するためのオーディオシステム１００を示す。オーディオシステム１００は、スピーカ１３０及び１つ以上のセンサ１４０を含み得るがこれらに限定されない。スピーカ１３０はオーディオシステム１００のユーザのために１つ以上のオーディオストリームを再生するよう構成されている。センサ（単数または複数）１４０は、ユーザによって実行されるジェスチャに関連するデータ並びに／またはオーディオシステム１００が、環境に対するユーザの位置及び／または向きを追跡することを可能にするデータを取得するよう構成されている。例えば、これらに限定されないが、センサ（単数または複数）１４０は、ユーザによって実行される１つ以上のジェスチャを検出するために、ユーザの手（単数または複数）及び／または腕（単数または複数）の画像を取得するよう構成され得る。いくつかの実施形態では、センサ（単数または複数）１４０は、カメラのような視覚センサを含む。さらに、いくつかの実施形態では、センサ（単数または複数）１４０は、飛行時間センサ、構造化光センサ等のような超音波センサ、レーダセンサ、レーザセンサ、熱型センサ及び／または深度センサを含む。

様々な実施形態では、センサ（単数または複数）１４０はユーザの素手によって実行される１つ以上のジェスチャを検出するよう構成されている。例えば、これらに限定されないが、センサ（単数または複数）１４０によって取得されるデータは、ユーザの指先、関節、手、手首、腕等の位置を決定するために分析され得る。１つ以上のこれらの位置は、次に、ユーザによって実行されるジェスチャを検出するために使用され得る。同様のまたはその他の実施形態においては、センサ（単数または複数）１４０は、ユーザに取り付けられた追加の装置の位置を追跡することによって、ユーザによって実行される１つ以上のジェスチャを検出するよう構成されている。例えば、これらに限定されないが、ユーザの腕（単数または複数）に連結された１つ以上の装置の位置は、ユーザによって実行されるジェスチャを検出するために追跡され得る。４つのセンサ１４０が図１に示されているが、オーディオシステム１００における任意の位置に配置された任意の数のセンサ１４０は、ユーザのジェスチャを検出するために使用され得る。いくつかの実施形態では、立体画像を取得されることを可能にするために、したがって、ユーザの指、手、腕等の深度がより正確に決定されるために、少なくとも２つのセンサ１４０がオーディオシステム１００に含まれる。その他の実施形態では、ジェスチャは、画像を取り込み、深度測定を取得し、位置の計算等をする単一センサを使用して検出される。さらに、様々な実施形態では、センサ（単数または複数）１４０は、眼鏡、腕時計、装着可能な装置、ユーザの体（例えば、ＴｈａｌｍｉｃＬａｂｓ（商標）による、腕に装着するＭｙｏ（商標））等の上のような、スピーカ１３０が配置される装置本体１０２以外の物体上に配置され得る。

スピーカ１３０は、オーディオシステム１００と一体化または連結された電子装置によって出力される多重チャンネルのオーディオストリーム等のオーディオストリームを再生するよう構成されている。例えば、これらに限定されないが、スピーカ１３０は、音響空間内の特定の位置でオーディオストリームに含まれた（例えば、音声、通知、音楽等の）オーディオイベントをレンダリングすることが可能な２つまたはそれ以上のスピーカを含み得る。いくつかの実施形態では、ユーザの耳に対して特定の位置でオーディオイベントをレンダリングするために、多数のスピーカはヘッドホン内に配布される。同様のまたはその他の実施形態においては、音響信号の処理技術は、２つまたはそれ以上のスピーカを使用して音響空間内の特定の位置でオーディオイベントを仮想でレンダリングするために使用され得る。

様々な実施形態では、オーディオシステム１００は、図１に示されたオーバーイヤーヘッドホンのような、１組のヘッドホンを含む。しかしながら、一般に、耳を覆うヘッドホン、耳載せヘッドホン及び耳の中に入れるヘッドホンを含む、任意のタイプの有線または無線のヘッドホンは、本明細書で記載された技術を実行するために使用され得る。その他の実施形態では、オーディオシステム１００は、補聴器のような補助医療装置、ブルートゥース（登録商標）のヘッドセットのような携帯型の通信装置を含む、ユーザのために音を再生することが可能な、任意の音響装置であり得る。

図２は、様々な実施形態による、図１のオーディオシステム１００とともに実行され、またはオーディオシステム１００に連結され得る計算装置のブロック図である。ここに示すように、計算装置２００は、処理装置２１０、入力／出力（Ｉ／Ｏ）装置２２０及び記憶装置２３０を含む。記憶装置２３０は、データベース２３４と相互作用するよう構成されたアプリケーション２３２を含む。

処理装置２１０は、中央処理装置（ＣＰＵ）、デジタル信号処理装置（ＤＳＰ）等を含み得る。様々な実施形態では、処理装置２１０は、ユーザのジェスチャを検出し、並びに／または周囲環境に対するユーザの位置及び／または向きを決定するために、センサ（単数または複数）１４０によって取得されたセンサデータを分析するよう構成されている。さらに処理装置２１０は、オーディオシステム１００によって再生されるオーディオストリームと関連した空間オーディオパラメータを修正するよう構成され得る。例えば、これらに限定されないが、処理装置２１０は、スピーカ１３０によって生成された音響空間中の特定の位置でのオーディオイベントをレンダリングするためのオーディオストリームに含まれた、１つ以上のオーディオイベントを処理するアプリケーション２３２を実行し得る。

様々な実施形態では、処理装置２１０は、ユーザによって実行された１つ以上のジェスチャを検出するために、センサ（単数または複数）１４０によって取得されたデータの分析を行う。次に、ジェスチャの検出に対応して、処理装置２１０は、オーディオシステム１００によって再生されたオーディオストリームの空間オーディオパラメータを修正する。例えば、これらに限定されないが、処理装置２１０は、音響空間内のオーディオイベントの認識された位置（単数または複数）を修正するために空間オーディオパラメータを修正し得る。いくつかの実施形態では、処理装置２１０は、バイノーラルキュー（例えば、両耳間時間差、両耳間強度差）、スペクトルキュー、ダイナミックレンジキュー、頭部伝達関数（例えば、音波がどのように聴取者の体と相互作用するかを記載する空間フィルタ）、反響等に基づいて、オーディオストリームの空間オーディオパラメータを修正する。例えば、これらに限定されないが、処理装置２１０は、オーディオイベントが再生される角度分解能を上げるために、ユーザの耳、外耳道及び／または頭部の形状に関連する１つ以上のパラメータに基づいてオーディオストリームを処理し得る。同様のまたはその他の実施形態においては、処理装置２１０は、どのスピーカ１３０がオーディオイベントを再生しているかを修正することによりオーディオストリームの空間オーディオパラメータを修正し、及び／またはオーディオイベントが１つ以上のスピーカ１３０によって再生されているレベル（単数または複数）を修正する。例えば、これらに限定されないが、処理装置２１０は、特定のスピーカ１３０がオーディオイベントを再生しているレベル（単数または複数）を上げる及び／または下げることによって、音響空間内のオーディオイベントの認識された位置（単数または複数）を修正し得る。いくつかの実施形態では、音響信号処理は、ＯｐｅｎＡＬのようなミドルウェアを介して処理装置２１０によって実行される。

Ｉ／Ｏ装置２２０は、入力装置、出力装置及び入力を受信し出力を提供することの両方が可能な装置を含み得る。例えば、これらに限定されないが、Ｉ／Ｏ装置２２０は、オーディオシステム１００に含まれたセンサ（単数または複数）１４０にデータを送信及び／または受信する、有線及び／または無線の通信装置を含み得る。さらに、Ｉ／Ｏ装置２２０は、（例えば、ローカルエリアネットワーク及び／またはインターネットのようなネットワークを介して）スピーカ１３０によって再生されるオーディオストリームを受信する、１つ以上の有線または無線通信装置を含み得る。

メモリ装置２３０は、メモリモジュールまたはメモリモジュールの収集を含み得る。メモリ装置２３０内のソフトウェアアプリケーション２３２は、計算装置２００の全体の機能を実行するために、及び、全体としてオーディオシステム１００の操作を調整するために、処理装置２１０によって実行され得る。データベース２３４は、デジタル信号処理アルゴリズム、オーディオストリーム、ジェスチャ認識データ等を格納し得る。

計算装置２００は、全体として、マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、システムオンアチップ（ＳｏＣ）、タブレット型コンピュータ、携帯電話、メディアプレーヤ等のような携帯型計算装置であり得る。一般に、計算装置２００は、オーディオシステム１００の全体の操作を調整するよう構成され得る。その他の実施形態では、計算装置２００は、オーディオシステム１００に連結され得るが、分離している。このような実施形態においては、オーディオシステム１００は、データ（例えば、オーディオストリーム）を計算装置２００から受信し、データ（例えば、センサデータ）を計算装置２００に送信する別の処理装置を含んでよく、スマートフォン、携帯型メディアプレーヤ、パーソナルコンピュータ等のような消費者用電子装置に含まれてよい。しかしながら、本明細書にて開示された実施形態は、オーディオシステム１００の機能性を実行するよう構成された、任意の技術的に可能なシステムを意図している。

図３Ａ〜図３Ｃは、様々な実施形態による、ジェスチャを行うことにより図１のオーディオシステム１００と相互作用しているユーザを示す。上記のように、オーディオシステム１００は、ユーザによって実行されるジェスチャを検出し、それに対して、オーディオシステム１００によって再生されるオーディオストリームの１つ以上のパラメータを修正する。例えば、これらに限定されないが、図３Ａにて示すように、ユーザは、オーディオシステム１００によって生成された音響空間中のオーディオイベントの認識された位置にユーザの手を移動することにより、ジェスチャを行ってオーディオストリームに含まれるオーディオイベントの空間オーディオパラメータを修正し得る。一旦、ユーザの手がオーディオイベントの認識された位置に近づくと、ユーザはジェスチャを行ってオーディオイベントと相互作用する。次に、図３Ｂにて示すように、ユーザは、音響空間内で手を右や左及び／または上下や前後（例えば、２次元のＸ、Ｙ面内または３次元のＸ、Ｙ、Ｚ空間内）に動かすなどにより、オーディオイベントを再配置し得る。手のジェスチャ及びオーディオイベントの新しい位置は、次にセンサ１４０を介して検出され、オーディオストリームの１つ以上のパラメータを修正するために処理装置２１０に送られる。

いくつかの実施形態では、ユーザは、手を、音響空間内のオーディオイベント（例えば、点音源）の認識された位置に関連する位置に動かし、オーディオイベントに対応する仮想物体を把持する把持ジェスチャを行う。次に、把持ジェスチャを行いつつ、ユーザはオーディオイベントを所望の位置に移動する。それに対して、処理装置２１０は、ユーザがオーディオイベントをユーザに対する所望の角度及び／または位置からレンダリングする際に認識するものとして、オーディオストリームに関連する１つ以上のパラメータ（例えば、空間オーディオパラメータ）を修正する。

例えば、これらに限定されないが、ユーザは１人以上の人の音声を捕捉して再配置してよく、図４Ａ〜図４Ｃにて示すように、様々な実施形態による、通信サービスによって生成されたオーディオイベントを再配置するために、図１のオーディオシステム１００と相互作用しているユーザを示す。図４Ａにて示すように、最初はユーザが話している人の音声は音響空間内の同一の位置からレンダリングされ得る。しかしながら、ユーザは、音声に関連する位置に手を移動し、それぞれの声に対応する仮想物体を把持するためにジェスチャを行い得る。ユーザは次に、図４Ｂ及び図４Ｃにて示すように、所望の位置にそれぞれの音声に関連するオーディオイベントを移動し得る。それに対して、処理装置２１０は、ユーザが新しい位置（例えば、多数の異なる点音源）に配置されるときに音声を認識するように、それぞれのオーディオイベントに関連する１つ以上のパラメータを修正する。したがって、オーディオシステム１００は、多数の人がユーザに対して異なる位置に配置された場合に、生の会話を正確にシミュレートし、ユーザが多数の音声をより容易に区別するのを可能にし得る。

一旦、ユーザの指、手、腕等（単数または複数）がオーディオイベント（例えば、オーディオイベントに関連する仮想物体）の現在位置に近づくと、オーディオシステム１００は、音声告知、振動、超音波、空気圧等のような聴覚フィードバック及び／または触覚フィードバックを１つ以上のフィードバック装置を介して生成し得る。聴覚フィードバック及び／または触覚フィードバックの生成をすることで、ユーザはより容易にオーディオイベントと相互作用し再配置することができる。同様のまたはその他の実施形態においては、オーディオシステム１００は、一旦、ジェスチャが開始されるとき、及び／または、ユーザが仮想物体を放すなど、ジェスチャが完了したとき、聴覚フィードバック及び／または触覚フィードバックをユーザに提供し得る。

処理装置２１０は、ユーザが様々な技術を使用してオーディオイベントを再配置しようとしているか否かを決定し得る。ある技術においては、処理装置２１０は、オーディオイベントに関連した第１の仮想物体の位置を追跡し、いつユーザの指、手及び／または腕に関連する第２の仮想物体が第１の仮想物体と相互作用（例えば、把持）しているかを、（例えば、センサ（単数または複数）１４０を介して）決定する。処理装置２１０は、次に物理モデルを使用して第１の仮想物体の新しい位置を第２の仮想物体との相互作用に基づいて決定し得る。例えば、これらに限定されないが、いくつかの実施形態では、処理装置２１０は、ユーザの手の位置を検出し、ユーザがいつオーディオイベントと関連する仮想物体を把持し、押圧し、牽引し、スワイプ等をしたかを決定する。処理装置２１０は、次に、物理モデルを使用して、（例えば、速度、距離並びに／または把持、押圧、牽引及び／またはスワイプの持続時間に基づいて）オーディオイベントの新しい位置を判断する。１つ以上のオーディオストリームのパラメータは、次に、ユーザが新しい位置に配置されるものとしてオーディオイベントを認識するよう修正され得る。

例えば、これらに限定されないが、ユーザはスワイプジェスチャを使用して図５Ａ〜図５Ｅに示されたオーディオイベントを再配置してよく、これらは、様々な実施形態による、オーディオイベントを再配置するために、仮想物体と相互作用しているユーザを示す。例えば、これらに限定されないが、図５Ａ及び図５Ｂにて示すように、ユーザはメディアプレーヤによって生成された周囲の音源（例えば、音楽）を聴取しながら、ユーザは、通信サービスから着信の通知を受信し得る。ユーザは、次に、図５Ｃ及び図５Ｄに示されているように、音響空間の左側へと、音楽に関連する仮想物体をスワイプすることを選択し得る。それに対して、処理装置２１０は、ユーザの手の位置を追跡し、必要に応じて物理モデルを使用して、速度、距離及び／またはスワイプジェスチャの持続時間に基づいた音楽に関連する仮想物体の新しい位置を決定する。いくつかの実施形態では、処理装置２１０は、センサ（単数または複数）１４０から受信されたデータを使用して、スワイプジェスチャがどこで開始され及び／またはどこで終わるかを決定する。処理装置２１０は、次に、ユーザが音響空間の左側から受信されたものとして音楽を認識するように、仮想物体の新しい位置に基づいて、周囲の音源の１つ以上のパラメータ（例えば、音バランス及び／または音方向）を修正する。したがって、図５Ｅにて示すように、音楽のような周囲の音源は音響空間の左側から流れ続ける一方、着信のような点音源は、音響空間の右側に配置され得る。したがって、音楽は実質的に着信を邪魔せず、ユーザは、多数のオーディオイベントを同時により効率的に、聴取及び／または相互作用することを可能にする。

別の技術においては、音響空間内の１つ以上のオーディオイベントの位置（単数または複数）は、ユーザが腕で個々のオーディオイベントを把持し、押圧し、牽引し、スワイプ等をする必要なく、片手の位置（例えば、静止したジェスチャ）に基づいて修正される。このような実施形態においては、手の位置に関連した１つ以上の指の向きは、オーディオシステム１００に音響空間内の１つ以上のオーディオイベントの位置（単数または複数）がどのように修正されるかを示し得る。例えば、これらに限定されないが、ユーザは、（例えば、ユーザの人差し指と中指を使用してＶ字を作ることによって）「Ｖ」の手の位置を使用して１つ以上のオーディオイベントを音響空間の側に移動（例えば、分割）させる。具体的な実施例では、ユーザが通信サービスを介して２人に話しかけているとき、オーディオシステム１００は、（例えば、「Ｖ」の手の位置に基づいて）、分割ジェスチャが検出されたことを検出し、それに対して、第１の人の声に関連する第１のオーディオイベントを音響空間の片側へと移動させ、第２の人の声に関連する第２のオーディオイベントを音響空間の反対側へと移動させる。さらに、分割ジェスチャは、他の種類のオーディオイベント（例えば、音楽、ポッドキャスト、通知等）を音響空間の側に移動するために使用され得る。同様のまたはその他の実施形態においては、ジェスチャは、音響空間内でオーディオイベントを均等に配布し、所定のパターンによって音響空間内にオーディオイベントを配布し、多数の位置からオーディオイベントを流し、及び／または１つ以上のオーディオイベントを消音するために使用され得る。

いくつかの実施形態では、処理装置２１０は、音響空間内にオーディオイベントを再配置する前に、１つ以上のアルゴリズムを使用して個々のオーディオイベントを識別する。例えば、これらに限定されないが、処理装置２１０は、アルゴリズムを使用して、通信サービスを介して受信された２つまたはそれ以上の音声を識別し得る。次に、一旦、それぞれの音声に関連する特徴（例えば、基準ピッチ、周波数スペクトル、ケイデンス、イントネーション等）が識別されると、それぞれの音声に関連する空間オーディオパラメータは、音響空間中の音声を再配置するために修正され得る。類似した技術は、その他の種類のオーディオイベント（例えば、音楽、通知等）を識別し及び音響空間内にオーディオイベントを再配置するために使用され得る。したがって、個々のオーディオイベントは、オーディオイベントは、処理装置２１０によって受信され処理される前に、単一のオーディオチャンネルに一体化されたときであっても、分離され、音響空間内に再配置される。

上記のように、いくつかの実施形態では、センサ（単数または複数）１４０は、環境内でのユーザの位置及び／または向きを追跡するよう構成されている。このような実施形態においては、ユーザの位置及び／または向きは、ユーザの環境に対応してオーディオイベントの位置を維持するために、オーディオシステム１００によって使用され得る。例えば、これらに限定されないが、ユーザが、最初に音響空間の片側上に配置されたオーディオイベントに頭を向けると、オーディオシステム１００は、環境に対してユーザの頭の向きの変化を追跡し、それに対応して、オーディオイベントがユーザの前に再配置されるように、オーディオイベントに関連した空間オーディオパラメータを修正し得る。したがって、オーディオイベントは、ユーザの環境に対する比較的静止角度位置及び／または距離で、ユーザに再生される。加えて、ユーザが周囲環境内で位置を変更すると、オーディオシステム１００は、ユーザがユーザの環境内のオブジェクトに向かって移動する（より大きく）または、物体から離れて移動するか（より静かに）に基づいて、特定のオーディオイベントの音の強さを修正し得る。

図６は、様々な実施形態による、ジェスチャに基づいてオーディオパラメータを修正する方法の工程のフローチャートである。この方法の工程は、図１から図５Ｅのシステムとともに記載されているが、当業者は、この方法の工程を実行するように構成された任意のシステムはいなかる順序でも、本発明の範囲内であると理解するであろう。

ここに示すように、方法６００は工程６１０で開始し、処理装置２１０は、センサ（単数または複数）１４０を介して、ユーザに関連したセンサデータ（例えば、ユーザの手、腕、指等）を取得する。工程６２０では、処理装置２１０はセンサデータを分析して、ユーザの手（単数または複数）、指（単数または複数）、腕（単数または複数）等の位置（単数または複数）及び／または向き（単数または複数）に基づいて１つ以上の手の位置を決定する。次に、工程６３０では、処理装置２１０は、ジェスチャ（例えば、分割ジェスチャ）が１つ以上の手の位置に基づいて実行されているか否かを決定する。ジェスチャがユーザによって実行されていない場合には、方法６００は次に、工程６１０に戻り、処理装置２１０はセンサデータを取得し続ける。

ジェスチャがユーザによって実行されている場合には、方法６００は次に、工程６４０に進み、処理装置２１０は、オーディオストリームに関連した１つ以上のパラメータを修正する。例えば、これらに限定されないが、ジェスチャが分割ジェスチャである場合には、処理装置２１０は次に、オーディオストリームに関連した１つ以上の空間オーディオパラメータを修正し、１つ以上のオーディオイベントを音響空間の側に移動させ得る。次に、工程６５０で、処理装置２１０は、修正されたオーディオストリームを、修正された空間オーディオパラメータに基づいたスピーカ１３０を介してユーザに再生させる。次に、方法６００は終了する。

図７は、様々な実施形態による、仮想物体を再配置することにより、オーディオパラメータを修正する方法の工程のフローチャートである。この方法の工程は、図１から図５Ｅのシステムとともに記載されているが、当業者は、この方法の工程を実行するように構成された任意のシステムはいなかる順序でも、本発明の範囲内であると理解するであろう。

ここに示すように、方法７００は工程７１０で開始し、処理装置２１０は、センサ（単数または複数）１４０を介して、ユーザに関連したセンサデータ（例えば、ユーザの手、腕、指等）を取得する。工程７２０では、処理装置２１０はセンサデータを分析して、ユーザの手（単数または複数）、指（単数または複数）、腕（単数または複数）等の位置（単数または複数）及び／または向き（単数または複数）に基づいて１つ以上の手の位置を決定する。工程７３０では、処理装置２１０は、オーディオイベントと関連した仮想物体が手の位置のうち１つ以上に隣接した配置されているか否かを決定する。仮想物体が手の位置に隣接して配置されていない場合には、次に、方法７００は工程７１０に戻り、処理装置２１０はセンサデータを取得し続ける。仮想物体が手の位置に隣接して配置されている場合には、次に、方法７００は工程７４０に進み、処理装置２１０は、ユーザが手の位置（単数または複数）に基づいてジェスチャ（例えば、把持ジェスチャ）を実行しているか否かを検出する。

ジェスチャがユーザによって実行されていない場合には、方法７００は次に、工程７１０に戻り、処理装置２１０はセンサデータを取得し続ける。ジェスチャがユーザによって実行されている場合には、次に、方法７００は工程７５０に進み、処理装置２１０はユーザと仮想物体との間の相互作用を決定する。例えば、これらに限定されないが、処理装置２１０はセンサデータを取得し続け、追加の手／腕／指等の位置を決定し、ユーザが仮想物体を移動している位置を決定する。

次に、工程７６０で、処理装置２１０は、ユーザと仮想物体との間の相互作用に基づいたオーディオストリームに関連する１つ以上のパラメータを修正する。例えば、これらに限定されないが、ユーザがオーディオイベントと関連した仮想物体を把持する場合には、処理装置２１０は、ユーザが、音響空間内で移動するオーディオイベントを聴取することが出来るように、オーディオイベントに関連した空間オーディオパラメータを動的に修正し得る。工程７７０では、処理装置２１０は、（例えば、仮想物体を解放することによって）ユーザがジェスチャを完了したか否かを決定する。ユーザがジェスチャを完了していない場合には、次に、方法７００は工程７５０に戻る。ユーザがジェスチャを完了した場合には、次に、処理装置２１０はオーディオイベントに関連したパラメータを修正するのを停止し、方法７００が終了する。

要するに、処理装置は、１つ以上のセンサを介してユーザが実行するジェスチャを検出する。ジェスチャに対応して、処理装置は、オーディオストリームに関連した１つ以上のパラメータを修正する。オーディオストリームは次に、修正されたパラメータに基づいて、ユーザにオーディオストリームを再生する。さらに、オーディオシステムは、ユーザと、物理モデルを介して１つ以上のオーディオイベントに関連する仮想物体との間の相互作用を決定し得る。オーディオストリームに関連する１つ以上のパラメータは、次に、相互作用に基づいて修正され得る。

本明細書で記載された技術の利点の少なくとも１つは、ユーザが、オーディオイベントが音響空間内で再生されている位置を修正できることである。例えば、ユーザは直感的に、オーディオイベントと関連した仮想物体を把持し、仮想物体を仮想３次元音響空間内の所望の位置に再配置し得る。したがって、オーディオイベントは音響空間内に再配置されてよく、ユーザが、多数のオーディオイベントを同時により効果的に聴取及び／または相互作用することを可能にする。また、ユーザが仮想３次元音響空間内にオーディオイベントを再配置するのをさらに支援するために、ユーザの手がオーディオイベントと関連した仮想物体に隣接した時に、聴覚フィードバック及び／または触覚フィードバックが、ユーザに提供され得る。

様々な実施形態についての説明は、実例の目的で提示されてきたが、網羅的であること、または開示される実施形態に限定されることを意図しない。多数の修正及び差異が、記載された実施形態の範囲及び趣旨から逸脱することなく、当業者には明白となろう。

本実施形態の態様は、システム、方法またはコンピュータプログラム製品として体現され得る。したがって、本開示の態様は、全体的にハードウェアの実施形態、全体的にソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコード等を含む）または本明細書においては、通常すべて、「回路」、「モジュール」または「システム」と称される、ソフトウェアとハードウェアの態様を組み合わせた実施形態の形を成し得る。さらに、本開示の態様は、そのなかに組み込まれたコンピュータ可読プログラムコードを有する、１つ以上のコンピュータ可読媒体（単数または複数）に組み込まれた、コンピュータプログラム製品の形を成し得る。

１つ以上のコンピュータ可読媒体（単数または複数）の任意の組み合わせが使用され得る。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であり得る。例えば、コンピュータ可読記憶媒体は、制限するのではないが、電子、磁気、光学、電磁、赤外線または半導体のシステム、器具、装置または前述の任意の好適な組み合わせであり得る。コンピュータ可読記憶媒体のより具体的な例（網羅的なリストではない）は以下のものを含むだろう。それらは、１つ以上のワイヤを有する電気的接続、携帯用コンピュータのディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、携帯用コンパクトディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、光学記憶装置、磁気記憶装置または前述の任意の好適な組み合わせである。本明細書の文脈において、コンピュータ可読記憶媒体は、命令実行システム、器具または装置によって、またはこれらに関連して使用するためのプログラムを含むか、または記憶する、任意の有形の媒体であり得る。

本開示の実施形態によると、本開示の態様については、方法、器具（システム）及びコンピュータプログラム製品のフローチャート図及び／またはブロック図に関する上述の通りである。フローチャート図及び／またはブロック図の各ブロックならびにフローチャート図及び／またはブロック図中のブロックの組み合わせは、コンピュータプログラム命令によって実行され得ると理解されるであろう。これらのコンピュータプログラム命令は、機械を製造するために汎用コンピュータ、専用コンピュータまたはその他のプログラムが可能なデータ処理装置の処理装置に提供されてよく、命令は、コンピュータの処理装置またはその他のプログラムが可能なデータ処理装置を介して実行され、フローチャート及び／またはブロック図またはブロックに特定された機能／行動の遂行を可能にする。このような処理装置は、汎用処理装置、専用処理装置、特定用途向け処理装置またはフィールド・プログラマブルプロセッサであるがこれらに限定されない。

本開示の様々な実施形態によると、図面中のフローチャート及びブロック図は、構造、機能性ならびにシステム、方法及びコンピュータプログラム製品の可能な実装の操作を示す。この点において、フローチャートまたはブロック図における各ブロックは、モジュール、セグメントまたはコードの一部を表し、特定の論理関数（単数または複数）を実行するための、１つ以上の実行可能な命令を含む。いくつかの代替的な実施形態においては、ブロックに記された機能は、図中に記された順が狂うことがあり得ることに注目すべきである。例えば、連続して示された２つのブロックは、実際には、ほぼ同時に実行され得る。または、関連する機能性によって、ブロックは時に逆の手順で実行され得る。ブロック図及び／またはフローチャート図の各ブロック、ブロック図及び／またはフローチャート図中のブロックの組合せは、特定の機能や行動または特定の目的のハードウェアとコンピュータ命令の組合せを実行する、特定の目的のハードウェアをベースにしたシステムによって実行され得ることに注目すべきである。

本発明は、特定の実施形態に関して上記に記載してきた。しかしながら、様々な修正や変更が、添付の特許請求の範囲に記述されているように、より広い精神と本発明の範囲から逸脱することなく成され得るということを、当業者は理解するであろう。例えば、これらに限定されないが、本明細書の記載の多くは、ユーザのジェスチャ及び／またはユーザの環境に関連したデータを取得し、処理し得る、特定の種類のセンサ及びアルゴリズムを意味するものの、当業者は、本明細書で記載されたシステム及び技術は他の種類のセンサ及びアルゴリズムに対して適用可能であることを理解するであろう。したがって、前述の明細書及び図面は、制限を意味するというよりも、むしろ例証として考慮されるべきである。

上記は、本開示の実施形態を対象とするが、他の、及び、さらなる本開示の実施形態は、本発明の実施形態の基本的な範囲から逸脱しないで考案され得る。本発明の実施形態の範囲は、以下の特許請求の範囲により定められる。

Claims

オーディオパラメータをジェスチャに基づいて修正する方法であって、
ユーザの手に関連したセンサデータを取得し、
前記センサデータを分析して少なくとも１つの手の位置を決定し、
前記少なくとも１つの手の位置に基づいて手のジェスチャを検出し、
前記手のジェスチャに対応して、オーディオストリームに関連した空間オーディオパラメータを修正して、修正されたオーディオストリームを生成し、
前記修正されたオーディオストリームを前記ユーザに出力するために再生させることを含む、方法。
前記空間オーディオパラメータの修正が、音響空間の第１の側に向かって前記オーディオストリームに含まれた第１のオーディオイベントを移動することと、前記音響空間の第２の側に向かって前記オーディオストリームに含まれた第２のオーディオイベントを移動することと、を含む、請求項１に記載の方法。
前記センサデータを分析することが、前記手のジェスチャが開始された第１の手の位置を決定し、前記手のジェスチャが完了された第２の手の位置を決定することを含む、請求項１に記載の方法。
前記空間オーディオパラメータを修正することが、前記第２の手の位置に関連する、音響空間の第２の位置に向かって前記第１の手の位置に関連する、前記音響空間の第１の位置から前記オーディオストリームに含まれたオーディオイベントを移動することを含む、請求項３に記載の方法。
前記手のジェスチャが把持ジェスチャを含む、請求項４に記載の方法。
前記空間オーディオパラメータを修正することが、物理モデルを介して、前記オーディオイベントに対応する第１の仮想物体と、前記ユーザの前記手に対応する第２の仮想物体との間の相互作用を決定することをさらに含む、請求項４に記載の方法。
前記センサデータが画像データと奥行きデータのうち少なくとも１つを含む、請求項１に記載の方法。
前記手のジェスチャを検出することが、前記少なくとも１つの手の位置と前記オーディオストリームに含まれたオーディオイベントに関連する仮想物体との間の交差を検出することを含む、請求項１に記載の方法。
前記少なくとも１つの手の位置と前記仮想物体との間の前記交差の検出に対応して、聴覚フィードバックと触覚フィードバックのうち少なくとも１つを生成させることをさらに含む、請求項８に記載の方法。
ジェスチャに基づいてオーディオパラメータを修正するシステムであって、
ユーザの手に関連したセンサデータを取得するよう構成された少なくとも１つのセンサと、
前記少なくとも１つのセンサに連結された処理装置であって、
少なくとも１つの手の位置を決定するために前記センサデータを分析し、
前記少なくとも１つの手の位置に基づいて手のジェスチャを検出し、
前記手のジェスチャに対応して、オーディオストリームに含まれた第１のオーディオイベントを音響空間の第１の位置から前記音響空間の第２の位置へと移動して修正されたオーディオストリームを生成するよう構成された処理装置と、
前記処理装置に連結され、前記修正されたオーディオストリームを再生するよう構成されたスピーカと、を備えるシステム。
前記音響空間の第１の側に対応する前記第２の位置と、前記処理装置が、さらに、前記手のジェスチャに対応して、前記オーディオストリームに含まれた第２のオーディオイベントを前記音響空間の第２の側へと移動するよう構成された、請求項１０に記載のシステム。
前記手のジェスチャが分割ジェスチャを含む、請求項１１に記載のシステム。
前記処理装置が前記センサデータを分析して、前記手のジェスチャが開始された第１の手の位置と、前記手のジェスチャが完了された第２の手の位置を決定するよう構成され、前記音響空間の前記第１の位置が前記第１の手の位置と関連し、前記音響空間の前記第２の位置が前記第２の手の位置と関連する、請求項１０に記載のシステム。
前記手のジェスチャが、押圧ジェスチャとスワイプジェスチャのうち少なくとも１つを含む、請求項１３に記載のシステム。
前記第１の手の位置と前記第２の手の位置との間の距離を決定することによって、前記処理装置が、前記第１の前記オーディオイベントを移動するよう構成された、請求項１３に記載のシステム。
前記少なくとも１つのセンサが第１のセンサと第２のセンサを備え、前記処理装置が、前記第２のセンサの第２の位置に対して前記第１のセンサの第１の位置を決定することにより、前記少なくとも１つの手の位置を決定するよう構成された、請求項１０に記載のシステム。
前記処理装置が、前記第１のオーディオイベントを、頭部伝達関数に基づいて、前記音響空間の前記第１の位置から前記音響空間の前記第２の位置へと移動するよう構成された、請求項１０に記載のシステム。
前記少なくとも１つの手の位置と前記第１のオーディオイベントに関連した仮想物体との間の交差の検出に対応して、触覚フィードバックを生成するよう構成されたフィードバック装置をさらに備える、請求項１０に記載のシステム。
前記処理装置が、前記少なくとも１つの手の位置と前記第１のオーディオイベントに関連した仮想物体との間の交差の検出に対応して、前記スピーカに聴覚フィードバックを生成させるようさらに構成された、請求項１０に記載のシステム。
処理装置によって実行されるときに、命令を含む非一時的なコンピュータ可読記憶媒体であって、
ユーザの手に関連したセンサデータを取得し、
前記センサデータを分析して第１の手の位置と第２の手の位置とを決定し、
前記第１の手の位置と前記第２の手の位置に基づいて手のジェスチャを検出し、
前記手のジェスチャに対応して、オーディオストリームに関連した空間オーディオパラメータを修正して、修正されたオーディオストリームを生成し、
前記修正されたオーディオストリームを前記ユーザに出力するために再生させる、工程を実行することにより、前記処理装置にジェスチャに基づいてオーディオパラメータを修正させる記憶媒体。