JP2017034350A

JP2017034350A - 音響装置及びその制御方法、コンピュータプログラム

Info

Publication number: JP2017034350A
Application number: JP2015149808A
Authority: JP
Inventors: 恭平北澤; Kyohei Kitazawa
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-07-29
Filing date: 2015-07-29
Publication date: 2017-02-09

Abstract

【課題】聴取者のジェスチャに応じて、聴取者が所望とする音響効果を得るための音響装置及びその制御方法を提供する。
【解決手段】高臨場感音響再生装置１００は、聴取者のジェスチャと関連付けされた複数の頭部伝達関数セットが記録された頭部伝達関数データベース１１０を備え、ジェスチャ検出部１２０は、所定の時間間隔で聴取者のジェスチャを検出し、ジェスチャ判別部１３０へ出力する。音声入力部１４０は、聴取者への出力対象である音声信号と音源位置情報が入力される。畳みこみ部１６０は、音声入力部１４０から入力された音声信号に対し、頭部伝達関数選択部１５０から入力された頭部伝達関数を畳み込む畳込処理を行い、畳みこみが行われた音声信号を再生部１７０へ出力する。
【選択図】図１

Description

本発明は音響装置及びその制御方法、コンピュータプログラムに関する。

近年、音の高臨場感化のためのアプローチとして、聴取者のジェスチャに応じて音響信号を変化させることが知られている。例えば、ヘッドフォンやイヤフォンなどを着用していても聴取者のジェスチャに応じて音響を変化させることで臨場感を得るための構成が知られている（非特許文献１）。非特許文献１の構成では、ヘッドフォンに設置された距離センサにより耳と手の距離を判定し、その距離に応じて音源のミキシングを変更している。耳と手の距離が遠い場合には全周の音をミキシングし、耳と手の距離が近い場合には前方の音だけをミキシングするという処理を行っている。

浜中雅俊、李昇姫、"サウンドスコープヘッドフォン"、日本バーチャルリアリティ学会論文誌Vol.12, No.3, 2007.

しかしながら、従来の立体音響技術では、聴取者が所望とする音響効果を、聴取者のジェスチャに応じて得られない恐れがある。例えば、聴取者が取得したい音情報を聴くために手を耳に添えるジェスチャ（以下、集音のジェスチャ）や、反対に音が聞こえないように手で耳を塞ぐジェスチャ（以下、遮音のジェスチャ）がある。これらのジェスチャは２つとも手を耳に近づけるというジェスチャであるが、聴取者の求める音響効果は大きく異なる。非特許文献１では手と耳の距離に応じて音源のミキシングを変更している。つまり上記２つのジェスチャに対して同じ処理がなされるため、聴取者の求める音響効果と出力される音響効果が一致しないという課題があった。

そこで、本発明は、聴取者のジェスチャに応じて、聴取者が所望とする音響効果を得るための技術を提供することを目的とする。

上記目的を達成するため、本発明による音響装置は以下の構成を備える。即ち、
聴取者の少なくとも一部の身体の姿勢を判別する判別手段と、
判別した前記姿勢に応じて、出力対象の音信号を処理する処理手段と、
を備える。

本発明によれば、聴取者のジェスチャに応じて、聴取者が所望とする音響効果を得ることができる。

高臨場感音響再生装置の機能構成を示すブロック図ジェスチャ検出部の詳細な構成を示す図ジェスチャ検出部の検出結果とジェスチャとの対応関係を示す図高臨場感音響再生装置のハードウェア構成を示すブロック図音響再生処理の処理手順を示すフロー図高臨場感音響再生装置の機能構成を示すブロック図高臨場感音響再生装置の機能構成を示すブロック図高臨場感音響再生装置の機能構成を示すブロック図

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

＜＜実施形態１＞＞
（高臨場感音響再生装置）
図１は、本発明の一実施形態（実施形態１）に係る高臨場感音響再生装置１００の機能構成を示すブロック図である。高臨場感音響再生装置１００は、頭部伝達関数データベース１１０、ジェスチャ検出部１２０、ジェスチャ判別部１３０、音声入力部１４０、頭部伝達関数選択部１５０、畳みこみ部１６０、及び、再生部１７０を備えている。

頭部伝達関数データベース１１０は、聴取者のジェスチャ（姿勢、体勢、ポーズ）と関連付けされた複数の頭部伝達関数セットが記録されたデータベースである。

頭部伝達関数とは、バイノーラル再生などの立体音響再生を行う際に用いる伝達関数である。バイノーラル再生とは、耳たぶ等で複雑に回折・反射して伝達する音波を記録した音声をヘッドフォンやイヤフォン等で聴取すると、あたかもその場に居合わせたかのような臨場感を再現することが可能な音声再生方式である。バイノーラル信号の生成手法としては、ヒトの頭部あるいは胸部から上を模擬した実物大の人形の耳部にマイクをとりつけたダミーヘッドマイクロフォンを用いて実際に録音するものある。頭部伝達関数は、Head-Related Transfer Function（ＨＲＴＦ）とも呼ぶ。音響信号に対して音源位置に対応した頭部伝達関数を畳みこむことにより、その音響信号の聴取したときに、あたかもその音源位置の方向から音が聞こえているようにすることができる。使用される頭部伝達関数は、ダミーヘッドマイクロフォンや実耳にマイクを付けて測定することができる。

しかしながら、頭部伝達関数を手や腕のないダミーヘッドマイクロフォンで測定されたものや、手を下した状態で測定されたものを使用すると、聴取者が音の聞こえに大きく影響するジェスチャを行っても対応する音響効果は得られない恐れがあった。本実施形態では、聴取者のジェスチャに応じて、聴取者の所望とする音響効果を得るための頭部伝達関数を用いる場合について説明する。

また、ここで、聴取者のジェスチャとは、聴取者の音の聞こえに影響しうる、聴取者が行う身振り、手振りをいう。例えば、聴取者が手を耳介に添えた状態である集音のジェスチャや、耳を手で塞いだ遮音のジェスチャ、さらに直立で何もしていない姿勢などはこれにあたる。また、これらのジェスチャと関連付けられた頭部伝達関数セットは、ダミーヘッドマイクロフォンに手を添えた集音の状態やダミーヘッドマイクロフォンの耳を手で塞いだ遮音の状態で測定を行った頭部伝達関数セットを指す。すなわち、頭部伝達関数データベース１１０には、聴取者のジェスチャ毎に、そのジェスチャがとられた状態で測定された頭部伝達関数が記録されている。なお、直立の姿勢と関連付けられる頭部伝達関数セットは通常の頭部伝達関数セットを用いることができる。ここで、ある特定の姿勢（ないしジェスチャ）で測定された、聴取者から見た音源の方向を示す複数角度の頭部伝達関数のセット（集合）を頭部伝達関数セットと呼ぶこととする。このように、頭部伝達関数データベース１１０には、ジェスチャ毎に、少なくとも一つの音源位置の方向にそれぞれ対応する頭部伝達関数が記憶されている。

ジェスチャ検出部１２０は、所定の時間間隔で聴取者のジェスチャを検出し、ジェスチャ判別部１３０へ出力する。ジェスチャ検出部１２０は、例えば、聴取者の手と耳との位置関係により所定のジェスチャを検出する。また、ジェスチャ検出部１２０は、例えば、聴取者の少なくとも一部の身体（例えば、手）の姿勢を検出する。例えば、図２（ａ）に示すようにジェスチャ検出部１２０は、後述する再生部１７０の側部（聴取者の耳近傍）に設置された２つの接触式センサ１２０−１と１２０−２により構成することができる。図２（ａ）の例では、１つ目のセンサ（１２０−１）は耳穴の延長線上に設置され、２つ目のセンサは耳介後方付近に設置される。これらのセンサ１２０−１、１２０−２は、センサに対する接触の有無を検出する接触式センサであり、図２（ａ）のように、聴取者の耳の一定距離内に設置される。ジェスチャ検出部１２０は２つのセンサの検出結果をジェスチャ判別部１３０へ出力する。

ジェスチャ判別部１３０は、ジェスチャ検出の結果に基づいて聴取者のジェスチャを判別し、頭部伝達関数選択部１５０へ出力する。図２（ａ）のように、接触式センサにより聴取者のジェスチャを検出する場合は、接触式センサが接触を検出した位置に応じて聴取者のジェスチャを判別する。例えば、ジェスチャ判別部１３０は、図３の表に示すように、センサ１２０−１が接触を検出した場合には遮音のジェスチャであると判別する。さらにセンサ１２０−１が非検出でセンサ１２０−２が検出の場合、集音のジェスチャであると判別し、２つのセンサが非検出の場合には直立の姿勢であると判別する。ジェスチャ判別部１３０は、このようにして判別したジェスチャの判別結果を頭部伝達関数選択部１５０へ出力する。

音声入力部１４０では、聴取者への出力対象である音響信号（音声信号）と音源位置情報が入力される。例えば、音響信号に音源位置を示す情報がメタ情報として付加されたファイルが読み込まれる。入力された音響信号は畳みこみ部１６０へ、音源位置情報は頭部伝達関数選択部１５０へ出力される。

頭部伝達関数選択部１５０は、ジェスチャ判別部１３０から入力された行動判別の結果と音声入力部１４０から入力された音源位置情報とに基づき、頭部伝達関数データベース１１０から畳みこむ頭部伝達関数を選択して取得し、畳みこみ部１６０へ出力する。頭部伝達関数選択部１５０では入力されたジェスチャ判別の結果に基づいて一組の頭部伝達関数セットを選択する。例えばジェスチャ判別の結果が遮音のジェスチャである場合、遮音のジェスチャと関連付けられた頭部伝達関数セットを選択する。遮音のジェスチャと関連付けられた頭部伝達関数セットは、例えば、ダミーヘッドマイクロフォンの耳を手で塞いだ状態で測定された頭部伝達関数である。頭部伝達関数選択部１５０は、さらに頭部伝達関数セットから畳みこみに使用する音源位置に対応する頭部伝達関数を決定する。

畳みこみ部１６０は、音声入力部１４０から入力された音響信号に対し、頭部伝達関数選択部１５０から入力された頭部伝達関数を畳み込む畳込処理を行う。そして、畳みこみが行われた音響信号を再生部１７０へ出力する。

出力部としての再生部１７０は、畳みこみ部１６０から入力された音響信号を音声として再生する。再生部１７０は、例えばヘッドフォンあるいはイヤフォンなどの聴取者の耳に直接装着するタイプの再生装置（スピーカ）である。再生装置は、音信号を出力する。

図４は、高臨場感音響再生装置１００のハードウェア構成例を模式的に示すブロック図である。高臨場感音響再生装置１００は、例えば、パーソナルコンピュータ（ＰＣ）や組込みシステム、タブレット端末、スマートフォン等により実現される。

図４において、ＣＰＵ９９０は中央演算処理装置であり、オペレーティングシステム（ＯＳ）やアプリケーションプログラム等に基づいて他の構成要素と協働し、高臨場感音響再生装置１００全体の動作を制御する。ＲＯＭ９９１は読出し専用メモリであり、基本Ｉ／Ｏプログラム等のコンピュータプログラム、基本処理に使用するデータ等を記憶する。ＲＡＭ９９２は書込み可能メモリであり、ＣＰＵ９９０のワークエリア等として機能する。

外部記憶ドライブ９９３は記録媒体へのアクセスを実現し、メディア（記録媒体）９９４に記憶されたコンピュータプログラム等を本システムにロードすることができる。メディア９９４には、例えば、ＣＤ−ＲＯＭ、ＤＶＤ、ブルーレイディスク、ＵＳＢメモリ、フラッシュメモリ等が含まれる。ストレージ９９５は大容量メモリとして機能する装置であり、本実施形態ではＳＳＤ（ソリッドステートドライブ）を用いている。ストレージ９９５には、ＯＳ、アプリケーションプログラムや、頭部伝達関数セット等のデータが格納される。ストレージ９９５はハードディスク装置等の他の装置により実現することもできる。

操作部９９６はユーザからの指示やコマンドの入力を受け付ける装置であり、キーボードやポインティングデバイス、タッチパネル等がこれに相当する。ディスプレイ９９７は、操作部９９６から入力されたコマンドや、それに対する高臨場感音響再生装置１００の応答出力等を表示したりする表示装置である。インターフェイス（Ｉ／Ｆ）９９８は外部装置とのデータのやり取りを中継する装置である。システムバス９９９は、高臨場感音響再生装置１００内のデータの流れを司るデータバスである。

なお、以上の各装置と同等の機能を実現するソフトウェアにより、ハードウェア装置の代替として構成することもできる。

（音響再生処理）
図５は、高臨場感音響再生装置１００がジェスチャに基づき頭部伝達関数を選択し、音響信号に対して畳みこみを行って、再生する一連の処理の処理手順を示すフローチャートである。図５の各ステップの処理は、ＣＰＵ９９０の制御に基づいて行われる。

再生が開始されると、ジェスチャ検出部１２０において、聴取者のジェスチャを検出する（Ｓ１１１）。検出されたジェスチャの情報はジェスチャ判別部１３０へ出力される。

続いて、ジェスチャ判別部１３０において、入力された聴取者のジェスチャの情報を基にジェスチャを判別する（Ｓ１１２）。判別の結果は頭部伝達関数選択部１５０へ出力される。

続いて、頭部伝達関数選択部１５０において、ジェスチャ判別部１３０で判別されたジェスチャに基づいて、音源に畳みこむ頭部伝達関数を選択する（Ｓ１１３）。選択された頭部伝達関数は畳みこみ部１６０へ出力される。

続いて、畳みこみ部１６０において、音声入力部１４０から入力された音響信号に対して、Ｓ１１３で選択された頭部伝達関数の畳みこみを行う（Ｓ１１４）。畳みこみの行われた音響信号は再生部１７０へ出力される。

そして、音響再生の終了を判定し（Ｓ１２０）、終了の場合（Ｓ２００でＹＥＳ）は再生を終了し、終了でない場合（Ｓ１２０でＮＯ）はＳ１１１に戻る。このようにして、Ｓ１１１からＳ１１４は再生が終了するまで繰り返し行われる。

上記のように、本実施形態の構成では、聴取者のジェスチャを判別し、当該ジェスチャに対応する頭部伝達関数を選択して音響信号に対して畳みこみを行い、再生する。このため、聴取者のジェスチャに応じた臨場感の高い音響効果を再現することが可能である。

なお、本実施形態では、頭部伝達関数データベース１１０は、姿勢に対応した複数の頭部伝達関数のセットを用いて説明したが、全ての頭部伝達関数セットが同じ角度分の頭部伝達関数を持つ必要はない。例えば、手を耳に添えた集音のジェスチャに対応する頭部伝達関数セットは、直立の姿勢の頭部伝達関数と比較すると真上方向の頭部伝達関数に対する影響は少なく、水平面方向の頭部伝達関数に対する影響が大きい。したがって、集音のジェスチャの頭部伝達関数セットは水平面方向だけ備えるようにしてもよい。その場合、集音のジェスチャを検出した場合でも音源方向が頭部の上方や下方にある場合、直立の姿勢の頭部伝達関数を選択するようにするとよい。また、片耳に手を添える集音のジェスチャの場合、手を添えた側の方向に対応する頭部伝達関数は大きく変化するが、反対側の頭部伝達関数にはほとんど影響しない。このため、例えば、片耳の集音のジェスチャに対応する頭部伝達関数セットは手を添えた側だけ記録するようにしてもよい。同様に姿勢ごとに影響の強い周波数は限られるため、頭部伝達関数データベース１１０には、このようなジェスチャに関連付けられた一部の周波数についての頭部伝達関数のみ記録するようにしてもよい。

また、本実施形態においてジェスチャ検出部１２０は接触式センサを用いたが、手と耳の位置関係や顔と手の向きが分かればよく、センサ（１２０−１、１２０−２）は距離センサなどでもよし、両方のセンサが組み合わさっていてもよい。

また、本実施形態ではわかりやすさのため、ジェスチャ検出部１２０を、遮音のジェスチャ検出用のセンサ１２０−１と集音のジェスチャ検出用のセンサ１２０−２との２つの別のデバイスで構成した例を説明した。しかし、例えば図２（ｂ）に示すようにヘッドフォンの外側全体がタッチパネルのようになっていてもよい。この場合、ジェスチャ判別部１３０は、聴取者がタッチした位置やタッチした領域などからジェスチャを判別するようにしてもよい。この場合、再生部１７０はヘッドフォンやイヤフォンであるため装着時に位置ずれや角度ずれ（傾き）がある可能性がある。そのため、ジェスチャ検出部１２０は再生部１７０の装着時のずれを検出し、ジェスチャ検出の結果を補正するようにしてもよい。

本実施形態ではジェスチャに応じて頭部伝達関数セットを選択した。つまり左右の耳に対する頭部伝達関数セットは同じものを選択していた。しかし、頭部伝達関数選択部１５０は、片耳ごと個別に異なる姿勢の頭部伝達関数を選択してもよい。例えば、頭部伝達関数データベースには直立の姿勢の頭部伝達関数セットと両耳集音のジェスチャの頭部伝達関数セットを備えるようにする。ジェスチャ判別部１３０が左耳のみ集音のジェスチャであると判別した場合、左耳には両耳の集音のジェスチャに対応する頭部伝達関数セットの左耳の頭部伝達関数を適用し、右耳には直立の姿勢の頭部伝達関数セットの頭部伝達関数を適用するようにしてもよい。そうすることで頭部伝達関数データベース１１０は保持するデータ数を減らすことができる。

また、本実施形態ではジェスチャに応じた頭部伝達関数セットを選択し、選択した頭部伝達関数セットを用いて出力対象の音信号を処理した。しかしながら、頭部伝達関数を用いなくとも、出力対象の音信号をジェスチャに応じて処理するようにしてもよい。例えば、ジェスチャに応じて、出力対象の音信号をミキシングするようにしてもよい。

また、上述の実施形態において、ジェスチャ判別部１３０の判別結果を所定期間維持するようにしてよい。このように構成することで、聴講者がジェスチャの位置が無い場合に、ジェスチャ検出部１２０において手がセンサに触れたり離れたりを偶発的に繰り返してしまっても、頭部伝達関数が頻繁に切り替わることが低減される。

また、ジェスチャ検出部１２０の判別結果の切り替わりを抑制するために、以下のように優先順位を用いてもよい。例えば、遮音、集音、直立のジェスチャが考えられる場合、遮音の優先順位を最も高く設定し、直立の優先順位を最も低く設定したとする。この場合、遮音のジェスチャとその他のジェスチャとの切り替わりの場合、遮音のジェスチャとし、集音のジェスチャと直立の切り替わりの場合、集音のジェスチャとすることができる。また、頻繁に切り替わるジェスチャについて頭部伝達関数選択部１５０は両方のジェスチャに対応する頭部伝達関数を選択し、両者を所定の重みで混合するようにしてもよい。

本実施形態ではわかりやすさのため、聴取者のジェスチャとして、集音、遮音、直立の聴取者の音の聞こえに関わるジェスチャを判別する例を説明したが、とりうるジェスチャの種類はこれに限られない。例えば、集音のジェスチャでも手と耳の開き角や相対的な位置関係によって効果は変わる。そこで、頭部伝達関数データベース１１０は、詳細なジェスチャに対応する頭部伝達関数セットを備え、ジェスチャ検出部１２０は、詳細に手と耳の位置関係と向きを検出するようにしてもよい。さらに本実施形態では、ジェスチャ検出部１２０は、手と耳との位置関係によってジェスチャを判別したが、ジェスチャ判別の基となる身体部分は手と耳に限られない。例えば、手以外でも体と顔の向きが異なる場合の頭部伝達関数や腕で頭を抱えた場合の頭部伝達関数等の音響的に効果のあるジェスチャを区別して判別するようにしてもよい。

また、本実施形態では、聴取者のジェスチャに対し頭部伝達関数の切り替えのみによって音響効果を付加する場合を説明した。しかし、図６に示すように音響処理部１８０をさらに備え、ジェスチャ判別の結果に応じて音響信号に対して音響処理を施した後、選択した頭部伝達関数を畳みこむようにしてもよい。例えば、ジェスチャ判別部１３０において聴取者の右手側の集音のジェスチャを検出した場合、音響処理部１８０において集音の対象方向である右手前方の音源の音量を上げる。他にも右手前方以外の音量を下げたり、それらを組み合わせるようにしてもよい。ここでは、片手（右手）の集音のジェスチャに対する例をあげたが、両手の集音のジェスチャや遮音のジェスチャ等についても音源ごとに音響処理を行うようにしてもよい。この処理により、より効果的に聴取者のジェスチャに対して音響効果を付加することができる。

また、本実施形態では、音声入力部１４０は、音響信号に音源位置が付加されたファイルを読み込む例を説明したが、音響信号と音源位置情報は別々に入力できるようになっていてもよい。例えば、音響信号に対する音源位置を聴取者あるいは第三者が編集するユーザインターフェースを備え、音源位置情報はそこから入力されるようにしてもよい。

また、本実施形態のフローの説明において簡単のため、Ｓ１１１からＳ１１４を一連の流れとして反復を行った。しかし、それぞれのステップは異なる時間間隔で反復を行ってもよい。例えば、ジェスチャ検出Ｓ１１１とジェスチャ判別Ｓ１１２は所定の時間間隔ＴＡで反復を行い、頭部伝達関数選択Ｓ１１３と畳みこみＳ１１４はＴＡよりも短い所定の時間間隔ＴＢで反復を行うようになっていてもよい。つまり、ジェスチャ判別の結果は所定の時間間隔ＴＡで更新され、頭部伝達関数選択部１５０では最新のジェスチャ判別結果を用いて頭部伝達関数の選択を行うようになっていてもよい。

以上説明した処理制御を行うことで、聴取者のジェスチャに応じて最適な頭部伝達関数を選択することができるため高い臨場感を感じることができる。

＜＜実施形態２＞＞
実施形態１では、接触式センサを用いてジェスチャ検出を行う構成について説明した。本実施形態においては、撮像装置を用いてジェスチャ検出およびヘッドトラッキングを行う例について説明する。ヘッドトラッキングとは、聴取者の頭部の向きを追跡し、聴取者の向きに応じて畳みこむ頭部伝達関数を変更する手法である。ヘッドトラッキングにより、音像が聴取者の頭部運動に付随せず空間に固定されるようにすることができる。この手法を適用することでさらに臨場感を高めることができる。

（高臨場感音響再生装置）
図７は、本発明の実施形態２に係る高臨場感音響再生装置１００の構成を示すブロック図である。高臨場感音響再生装置１００は、頭部伝達関数データベース１１０、ジェスチャ検出部１２０、ジェスチャ判別部１３０、音声入力部１４０、頭部伝達関数選択部１５０、畳みこみ部１６０、再生部１７０、および、ジェスチャデータベース１９０を備える。なお、音声入力部１４０および畳みこみ部１６０、再生部１７０は実施形態１とほぼ同一であるため説明を省略し、実施形態１と異なる点を中心に説明する。

本実施形態では、所定のポーズや姿勢をとった聴取者を撮像し、撮像画像を解析して聴取者のジェスチャを検出する。ジェスチャデータベース１９０は、聴取者のジェスチャと関連付けされた画像認識のための特徴量が記録されたデータベースである。頭部伝達関数データベース１１０は、ジェスチャデータベース１９０に記録されたジェスチャに対応する頭部伝達関数セットを備える。

ジェスチャ検出部１２０は撮像装置からなり、聴取者を所定の時間間隔で撮像し、撮像した画像をジェスチャ判別部１３０へ出力する。本実施形態では、ジェスチャ検出部１２０は聴取者の向きと手と耳の位置関係および角度、手の形などの状態を検出するため右手用と左手用の２台の撮像装置から構成される場合の例を説明する。

ジェスチャ判別部１３０は、入力された画像を解析することではじめに聴取者の向きを検出する。続いて特徴量を抽出し、ジェスチャデータベースに記録された特徴量と比較することで聴取者のジェスチャを判別する。判別した聴取者の向きとジェスチャの結果は、頭部伝達関数選択部１５０へ出力される。このようにして、ジェスチャ判別部１３０は、ジェスチャデータベース１９０を参照して、ジェスチャ検出部１２０において取得された撮像画像の特徴量に対応するジェスチャを判別する。

頭部伝達関数選択部１５０は、実施形態１と同様に、ジェスチャ判別部１３０からのジェスチャ判別結果に応じて、頭部伝達関数データベース１１０から頭部伝達関数セットを１つ選択する。続いてジェスチャ判別部１３０から入力された聴取者の向きおよび音声入力部１４０から入力された音源位置に基づいて、頭部伝達関数セットの中から頭部伝達関数を選択する。処理のフローは実施形態１（図５）と同様のため、省略する。

本実施形態では、ジェスチャデータベース１９０はあらかじめ用意されたものを用いたが、撮像画像から抽出された特徴量とジェスチャとの対応を事後的に学習可能な機能を備えたジェスチャデータベース１９０を用いてもよい。例えば、高臨場感音響再生装置１００は学習モードを備え、学習モードでは再生部１７０から聴取者にジェスチャの指示が再生される。続いてジェスチャ検出部１２０は聴取者のジェスチャを撮像し、ジェスチャ判別部１３０は撮像された画像から特徴量を抽出する。続いて抽出した特徴量と指示されたジェスチャとが関連付けられてジェスチャデータベース１９０に蓄積される。

また、学習は再生中に行われるようになっていてもよい。例えばジェスチャ検出部１２０が検出したジェスチャをジェスチャ判別部１３０が判別できなかった場合、直後に判別されたジェスチャと判別できなかったジェスチャを関連付けるように学習するようになっていてもよい。つまり、ジェスチャ判別ができなかった次の反復においてジェスチャ判別が集音のジェスチャと判別した場合、ジェスチャ判別ができなかったジェスチャは集音のジェスチャの可能性が高いと判断し、関連付けを行うようにしてもよい。このようにジェスチャデータベース１９０を学習することで聴取者のジェスチャの検出精度が向上し、より正確なジェスチャ判別が行えるようになるため違和感が低減し高臨場感につながる。

本実施形態では、ジェスチャ検出部１２０を２台の撮像装置により構成した例を説明したが、撮像装置は１台であっても２台より多くてもよい。例えば、聴取者を真上から撮像するあるいは、聴取者の周囲にミラーを配置することで１台の撮像装置で聴取者のポーズに関する複数次元の情報を取得して、ジェスチャを検出するようになっていてもよい。

本実施形態では、ジェスチャ検出部１２０を撮像装置のみから構成した例を説明したが、実施形態１の接触式センサ等と組み合わせて用いてもよい。また、本実施形態では言及しなかったが、画像認識による手の形や角度、聴取者の耳との位置関係などの正確な検出のために手やヘッドフォン、あるいは頭部などに認識用のマーカなどを装着するようにしてもよい。このように、複数の異なるセンサを用いることで、複雑なジェスチャを詳細に判別し、聴取者の状況により適合する頭部伝達関数セットを選択することで、臨場感を高めることができる。

また、高臨場感音響再生装置１００は、図８に示すように、さらに撮像対象の聴取者を認識する聴取者認識部２００を備え、個人ごとにジェスチャの特徴量を学習し、ジェスチャを判別するようにしてもよい。この場合は、ジェスチャデータベース１９０は、聴取者ごとに、撮像画像の特徴量とジェスチャとを関連付けて記憶し、ジェスチャ判別部１３０は、聴取者認識部２００が認識した聴取者と特徴量とに対応するジェスチャを判別する。個人ごとの微妙なジェスチャの違いを判別できるようにすることで、より違和感のない頭部伝達関数の切り替えを実現することができる。ここで聴取者認識部２００は、例えば指紋認証や静脈認証などでもよいし、ジェスチャ検出部１２０で撮像した聴取者の画像に対して顔認証を行うことによって聴取者を判別してもよい。

また、何らかの事情により聴取者が手を使えない場合が考えられる。そのような場合、事前に手の代わりとなるものを学習しておくことで手以外のものを使って集音や遮音等の頭部伝達関数を選択できるようにしてもよい。
例えば、ゲーム操作中ではコントローラを手に持っているため、肩や腕を耳に近づけたり、コントローラを近づけたことに応じて入力音声の聞こえが良くなるように頭部伝達関数を選択するようにしてもよい。さらに、補聴器に対応する物体を耳に近づけたことに応じて、入力音声の聞こえがよくなるような頭部伝達関数を選択するようにしてもよい。

また、本実施形態では、聴取者の頭部の向き検出をジェスチャ検出部１２０で撮像した画像から行う例を説明したが、図８に示すように、再生部１７０に頭部動き検出部２１０を設けて、聴取者の頭部の動きを検出するようになっていてもよい。このような頭部動き検出部２１０は、例えば、加速度センサー、電子コンパス、傾きセンサ、ＧＰＳ（Global Positioning System）等のセンサにより構成することができる。この場合、頭部動き検出部２１０は、センサで検出した値を用いて聴取者の頭部の回転、傾き、移動などの動きを検出する。例えば、音源と頭部の向きに応じて頭部伝達関数を選択するようにしてもよい。例えば、音源から顔をそむけた場合音が聞こえにくくなるような頭部伝達関数を選択し、耳を音源の方向に向けた場合その音源が聞き取りやすくなるような頭部伝達関数を選択するようにしてもよい。

また、高臨場感音響再生装置１００の周囲の音がうるさい場合、集音の姿勢をとっても聞き取りづらい状況が考えられる。そこで、再生部１７０はさらにノイズキャンセリング機能を備え、ジェスチャ判別部１３０が集音の姿勢をとったと判断した場合にノイズキャンセリング機能を有効にするようにしてもよい。

以上説明した処理制御を行うことで、聴取者のジェスチャに応じて最適な頭部伝達関数を選択することができるため、高い臨場感を感じることができる。

＜＜その他の実施形態＞＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

高臨場感音響再生装置：１００、頭部伝達関数データベース：１１０、ジェスチャ検出部：１２０、ジェスチャ判別部：１３０、頭部伝達関数選択部：１５０、畳みこみ部：１６０、再生部：１７０

Claims

聴取者の少なくとも一部の身体の姿勢を判別する判別手段と、
判別した前記姿勢に応じて、出力対象の音信号を処理する処理手段と、
を備えることを特徴とする音響装置。
前記判別手段は、前記姿勢として前記聴取者のジェスチャを判別し、
ジェスチャに対応する頭部伝達関数を取得する取得手段をさらに備え、
前記処理手段は、取得した前記頭部伝達関数を出力対象の音信号に畳み込む
ことを特徴とする請求項１に記載の音響装置。
前記処理手段により処理された音信号を出力部に出力させる出力手段を更に備えることを特徴とする請求項１または２に記載の音響装置。
前記判別手段は、聴取者の音の聞こえに関わる姿勢を判別することを特徴とする請求項１から３のいずれか１項に記載の音響装置。
前記取得手段は、ジェスチャと頭部伝達関数とを関連付けて記憶するデータベースから、前記判別したジェスチャに対応する頭部伝達関数を取得することを特徴とすることを特徴とする請求項２に記載の音響装置。
前記データベースには、ジェスチャに関連付けられた周波数に対応する頭部伝達関数が記憶されることを特徴とすることを特徴とする請求項５に記載の音響装置。
前記データベースには、ジェスチャ毎に、少なくとも一つの音源位置の方向にそれぞれ対応する頭部伝達関数が記憶され、
前記出力対象の音声信号には音源位置に関する情報が付加されており、
前記取得手段は、前記判別したジェスチャと、前記出力対象の音声信号に付加された情報が示す音源位置の方向とに対応する頭部伝達関数を取得する
ことを特徴とする請求項５又は６に記載の音響装置。
聴取者が所定の姿勢をとったことを検出する検出手段を更に備え、
前記判別手段は、前記検出手段が姿勢を検出したことに応じて、前記聴取者がとった姿勢を判別する
ことを特徴とする請求項１から７のいずれか１項に記載の音響装置。
前記検出手段は、聴取者の手と耳との相対的な位置関係を検出することを特徴とする請求項８に記載の音響装置。
前記検出手段は、聴取者を撮像して撮像画像を取得し、
前記判別手段は、前記撮像画像を解析して、前記聴取者の姿勢を判別する
ことを特徴とする請求項８に記載の音響装置。
撮像画像の特徴量と、姿勢とを関連付けて記憶するジェスチャデータベースをさらに備え、
前記判別手段は、前記ジェスチャデータベースを参照して、前記検出手段において取得された撮像画像の特徴量に対応するジェスチャを判別する
ことを特徴とする請求項１０に記載の音響装置。
撮像対象の聴取者を認識する認識手段をさらに備え、
前記ジェスチャデータベースは、聴取者ごとに、前記特徴量と姿勢とを関連付けて記憶し、
前記判別手段は、前記認識手段が認識した聴取者と前記特徴量とに対応する姿勢を判別する
ことを特徴とする請求項１１に記載の音響装置。
前記検出手段は、聴取者の耳の一定距離内に設置された接触式センサにより聴取者の接触を検出し、
前記判別手段は、前記接触式センサが接触を検出した位置に応じて聴取者の姿勢を判別する
ことを特徴とする請求項８に記載の音響装置。
前記判別手段が判別した前記姿勢に応じて、前記出力対象の音声信号に対して音響処理を施す処理手段を更に備えることを特徴とする請求項１から１３のいずれか１項に記載の音響装置。
前記取得手段は、前記判別手段による判別の結果に基づいて、左右の耳に対応する頭部伝達関数を個別に選択することを特徴とする請求項２に記載の音響装置。
前記判別手段が判別する姿勢には、集音と、遮音と、直立との少なくともいずれかが含まれることを特徴とする請求項１から１５のいずれか１項に記載の音響装置。
音響装置の制御方法であって、
判別手段が、聴取者の少なくとも一部の身体の姿勢を判別する判別工程と、
処理手段が、判別した前記姿勢に応じて、出力対象の音信号を処理する処理工程と、
を備えることを特徴とする音響装置の制御方法。
コンピュータを請求項１から１６のいずれか１項に記載の音響装置が備える各手段として機能させるためのコンピュータプログラム。