JP2017034350A - 音響装置及びその制御方法、コンピュータプログラム - Google Patents
音響装置及びその制御方法、コンピュータプログラム Download PDFInfo
- Publication number
- JP2017034350A JP2017034350A JP2015149808A JP2015149808A JP2017034350A JP 2017034350 A JP2017034350 A JP 2017034350A JP 2015149808 A JP2015149808 A JP 2015149808A JP 2015149808 A JP2015149808 A JP 2015149808A JP 2017034350 A JP2017034350 A JP 2017034350A
- Authority
- JP
- Japan
- Prior art keywords
- gesture
- listener
- head
- transfer function
- related transfer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Stereophonic System (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】聴取者のジェスチャに応じて、聴取者が所望とする音響効果を得るための音響装置及びその制御方法を提供する。
【解決手段】高臨場感音響再生装置100は、聴取者のジェスチャと関連付けされた複数の頭部伝達関数セットが記録された頭部伝達関数データベース110を備え、ジェスチャ検出部120は、所定の時間間隔で聴取者のジェスチャを検出し、ジェスチャ判別部130へ出力する。音声入力部140は、聴取者への出力対象である音声信号と音源位置情報が入力される。畳みこみ部160は、音声入力部140から入力された音声信号に対し、頭部伝達関数選択部150から入力された頭部伝達関数を畳み込む畳込処理を行い、畳みこみが行われた音声信号を再生部170へ出力する。
【選択図】図1
【解決手段】高臨場感音響再生装置100は、聴取者のジェスチャと関連付けされた複数の頭部伝達関数セットが記録された頭部伝達関数データベース110を備え、ジェスチャ検出部120は、所定の時間間隔で聴取者のジェスチャを検出し、ジェスチャ判別部130へ出力する。音声入力部140は、聴取者への出力対象である音声信号と音源位置情報が入力される。畳みこみ部160は、音声入力部140から入力された音声信号に対し、頭部伝達関数選択部150から入力された頭部伝達関数を畳み込む畳込処理を行い、畳みこみが行われた音声信号を再生部170へ出力する。
【選択図】図1
Description
本発明は音響装置及びその制御方法、コンピュータプログラムに関する。
近年、音の高臨場感化のためのアプローチとして、聴取者のジェスチャに応じて音響信号を変化させることが知られている。例えば、ヘッドフォンやイヤフォンなどを着用していても聴取者のジェスチャに応じて音響を変化させることで臨場感を得るための構成が知られている(非特許文献1)。非特許文献1の構成では、ヘッドフォンに設置された距離センサにより耳と手の距離を判定し、その距離に応じて音源のミキシングを変更している。耳と手の距離が遠い場合には全周の音をミキシングし、耳と手の距離が近い場合には前方の音だけをミキシングするという処理を行っている。
浜中雅俊、李昇姫、"サウンドスコープヘッドフォン"、日本バーチャルリアリティ学会論文誌Vol.12, No.3, 2007.
しかしながら、従来の立体音響技術では、聴取者が所望とする音響効果を、聴取者のジェスチャに応じて得られない恐れがある。例えば、聴取者が取得したい音情報を聴くために手を耳に添えるジェスチャ(以下、集音のジェスチャ)や、反対に音が聞こえないように手で耳を塞ぐジェスチャ(以下、遮音のジェスチャ)がある。これらのジェスチャは2つとも手を耳に近づけるというジェスチャであるが、聴取者の求める音響効果は大きく異なる。非特許文献1では手と耳の距離に応じて音源のミキシングを変更している。つまり上記2つのジェスチャに対して同じ処理がなされるため、聴取者の求める音響効果と出力される音響効果が一致しないという課題があった。
そこで、本発明は、聴取者のジェスチャに応じて、聴取者が所望とする音響効果を得るための技術を提供することを目的とする。
上記目的を達成するため、本発明による音響装置は以下の構成を備える。即ち、
聴取者の少なくとも一部の身体の姿勢を判別する判別手段と、
判別した前記姿勢に応じて、出力対象の音信号を処理する処理手段と、
を備える。
聴取者の少なくとも一部の身体の姿勢を判別する判別手段と、
判別した前記姿勢に応じて、出力対象の音信号を処理する処理手段と、
を備える。
本発明によれば、聴取者のジェスチャに応じて、聴取者が所望とする音響効果を得ることができる。
以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。
<<実施形態1>>
(高臨場感音響再生装置)
図1は、本発明の一実施形態(実施形態1)に係る高臨場感音響再生装置100の機能構成を示すブロック図である。高臨場感音響再生装置100は、頭部伝達関数データベース110、ジェスチャ検出部120、ジェスチャ判別部130、音声入力部140、頭部伝達関数選択部150、畳みこみ部160、及び、再生部170を備えている。
(高臨場感音響再生装置)
図1は、本発明の一実施形態(実施形態1)に係る高臨場感音響再生装置100の機能構成を示すブロック図である。高臨場感音響再生装置100は、頭部伝達関数データベース110、ジェスチャ検出部120、ジェスチャ判別部130、音声入力部140、頭部伝達関数選択部150、畳みこみ部160、及び、再生部170を備えている。
頭部伝達関数データベース110は、聴取者のジェスチャ(姿勢、体勢、ポーズ)と関連付けされた複数の頭部伝達関数セットが記録されたデータベースである。
頭部伝達関数とは、バイノーラル再生などの立体音響再生を行う際に用いる伝達関数である。バイノーラル再生とは、耳たぶ等で複雑に回折・反射して伝達する音波を記録した音声をヘッドフォンやイヤフォン等で聴取すると、あたかもその場に居合わせたかのような臨場感を再現することが可能な音声再生方式である。バイノーラル信号の生成手法としては、ヒトの頭部あるいは胸部から上を模擬した実物大の人形の耳部にマイクをとりつけたダミーヘッドマイクロフォンを用いて実際に録音するものある。頭部伝達関数は、Head-Related Transfer Function(HRTF)とも呼ぶ。音響信号に対して音源位置に対応した頭部伝達関数を畳みこむことにより、その音響信号の聴取したときに、あたかもその音源位置の方向から音が聞こえているようにすることができる。使用される頭部伝達関数は、ダミーヘッドマイクロフォンや実耳にマイクを付けて測定することができる。
しかしながら、頭部伝達関数を手や腕のないダミーヘッドマイクロフォンで測定されたものや、手を下した状態で測定されたものを使用すると、聴取者が音の聞こえに大きく影響するジェスチャを行っても対応する音響効果は得られない恐れがあった。本実施形態では、聴取者のジェスチャに応じて、聴取者の所望とする音響効果を得るための頭部伝達関数を用いる場合について説明する。
また、ここで、聴取者のジェスチャとは、聴取者の音の聞こえに影響しうる、聴取者が行う身振り、手振りをいう。例えば、聴取者が手を耳介に添えた状態である集音のジェスチャや、耳を手で塞いだ遮音のジェスチャ、さらに直立で何もしていない姿勢などはこれにあたる。また、これらのジェスチャと関連付けられた頭部伝達関数セットは、ダミーヘッドマイクロフォンに手を添えた集音の状態やダミーヘッドマイクロフォンの耳を手で塞いだ遮音の状態で測定を行った頭部伝達関数セットを指す。すなわち、頭部伝達関数データベース110には、聴取者のジェスチャ毎に、そのジェスチャがとられた状態で測定された頭部伝達関数が記録されている。なお、直立の姿勢と関連付けられる頭部伝達関数セットは通常の頭部伝達関数セットを用いることができる。ここで、ある特定の姿勢(ないしジェスチャ)で測定された、聴取者から見た音源の方向を示す複数角度の頭部伝達関数のセット(集合)を頭部伝達関数セットと呼ぶこととする。このように、頭部伝達関数データベース110には、ジェスチャ毎に、少なくとも一つの音源位置の方向にそれぞれ対応する頭部伝達関数が記憶されている。
ジェスチャ検出部120は、所定の時間間隔で聴取者のジェスチャを検出し、ジェスチャ判別部130へ出力する。ジェスチャ検出部120は、例えば、聴取者の手と耳との位置関係により所定のジェスチャを検出する。また、ジェスチャ検出部120は、例えば、聴取者の少なくとも一部の身体(例えば、手)の姿勢を検出する。例えば、図2(a)に示すようにジェスチャ検出部120は、後述する再生部170の側部(聴取者の耳近傍)に設置された2つの接触式センサ120−1と120−2により構成することができる。図2(a)の例では、1つ目のセンサ(120−1)は耳穴の延長線上に設置され、2つ目のセンサは耳介後方付近に設置される。これらのセンサ120−1、120−2は、センサに対する接触の有無を検出する接触式センサであり、図2(a)のように、聴取者の耳の一定距離内に設置される。ジェスチャ検出部120は2つのセンサの検出結果をジェスチャ判別部130へ出力する。
ジェスチャ判別部130は、ジェスチャ検出の結果に基づいて聴取者のジェスチャを判別し、頭部伝達関数選択部150へ出力する。図2(a)のように、接触式センサにより聴取者のジェスチャを検出する場合は、接触式センサが接触を検出した位置に応じて聴取者のジェスチャを判別する。例えば、ジェスチャ判別部130は、図3の表に示すように、センサ120−1が接触を検出した場合には遮音のジェスチャであると判別する。さらにセンサ120−1が非検出でセンサ120−2が検出の場合、集音のジェスチャであると判別し、2つのセンサが非検出の場合には直立の姿勢であると判別する。ジェスチャ判別部130は、このようにして判別したジェスチャの判別結果を頭部伝達関数選択部150へ出力する。
音声入力部140では、聴取者への出力対象である音響信号(音声信号)と音源位置情報が入力される。例えば、音響信号に音源位置を示す情報がメタ情報として付加されたファイルが読み込まれる。入力された音響信号は畳みこみ部160へ、音源位置情報は頭部伝達関数選択部150へ出力される。
頭部伝達関数選択部150は、ジェスチャ判別部130から入力された行動判別の結果と音声入力部140から入力された音源位置情報とに基づき、頭部伝達関数データベース110から畳みこむ頭部伝達関数を選択して取得し、畳みこみ部160へ出力する。頭部伝達関数選択部150では入力されたジェスチャ判別の結果に基づいて一組の頭部伝達関数セットを選択する。例えばジェスチャ判別の結果が遮音のジェスチャである場合、遮音のジェスチャと関連付けられた頭部伝達関数セットを選択する。遮音のジェスチャと関連付けられた頭部伝達関数セットは、例えば、ダミーヘッドマイクロフォンの耳を手で塞いだ状態で測定された頭部伝達関数である。頭部伝達関数選択部150は、さらに頭部伝達関数セットから畳みこみに使用する音源位置に対応する頭部伝達関数を決定する。
畳みこみ部160は、音声入力部140から入力された音響信号に対し、頭部伝達関数選択部150から入力された頭部伝達関数を畳み込む畳込処理を行う。そして、畳みこみが行われた音響信号を再生部170へ出力する。
出力部としての再生部170は、畳みこみ部160から入力された音響信号を音声として再生する。再生部170は、例えばヘッドフォンあるいはイヤフォンなどの聴取者の耳に直接装着するタイプの再生装置(スピーカ)である。再生装置は、音信号を出力する。
図4は、高臨場感音響再生装置100のハードウェア構成例を模式的に示すブロック図である。高臨場感音響再生装置100は、例えば、パーソナルコンピュータ(PC)や組込みシステム、タブレット端末、スマートフォン等により実現される。
図4において、CPU990は中央演算処理装置であり、オペレーティングシステム(OS)やアプリケーションプログラム等に基づいて他の構成要素と協働し、高臨場感音響再生装置100全体の動作を制御する。ROM991は読出し専用メモリであり、基本I/Oプログラム等のコンピュータプログラム、基本処理に使用するデータ等を記憶する。RAM992は書込み可能メモリであり、CPU990のワークエリア等として機能する。
外部記憶ドライブ993は記録媒体へのアクセスを実現し、メディア(記録媒体)994に記憶されたコンピュータプログラム等を本システムにロードすることができる。メディア994には、例えば、CD−ROM、DVD、ブルーレイディスク、USBメモリ、フラッシュメモリ等が含まれる。ストレージ995は大容量メモリとして機能する装置であり、本実施形態ではSSD(ソリッドステートドライブ)を用いている。ストレージ995には、OS、アプリケーションプログラムや、頭部伝達関数セット等のデータが格納される。ストレージ995はハードディスク装置等の他の装置により実現することもできる。
操作部996はユーザからの指示やコマンドの入力を受け付ける装置であり、キーボードやポインティングデバイス、タッチパネル等がこれに相当する。ディスプレイ997は、操作部996から入力されたコマンドや、それに対する高臨場感音響再生装置100の応答出力等を表示したりする表示装置である。インターフェイス(I/F)998は外部装置とのデータのやり取りを中継する装置である。システムバス999は、高臨場感音響再生装置100内のデータの流れを司るデータバスである。
なお、以上の各装置と同等の機能を実現するソフトウェアにより、ハードウェア装置の代替として構成することもできる。
(音響再生処理)
図5は、高臨場感音響再生装置100がジェスチャに基づき頭部伝達関数を選択し、音響信号に対して畳みこみを行って、再生する一連の処理の処理手順を示すフローチャートである。図5の各ステップの処理は、CPU990の制御に基づいて行われる。
図5は、高臨場感音響再生装置100がジェスチャに基づき頭部伝達関数を選択し、音響信号に対して畳みこみを行って、再生する一連の処理の処理手順を示すフローチャートである。図5の各ステップの処理は、CPU990の制御に基づいて行われる。
再生が開始されると、ジェスチャ検出部120において、聴取者のジェスチャを検出する(S111)。検出されたジェスチャの情報はジェスチャ判別部130へ出力される。
続いて、ジェスチャ判別部130において、入力された聴取者のジェスチャの情報を基にジェスチャを判別する(S112)。判別の結果は頭部伝達関数選択部150へ出力される。
続いて、頭部伝達関数選択部150において、ジェスチャ判別部130で判別されたジェスチャに基づいて、音源に畳みこむ頭部伝達関数を選択する(S113)。選択された頭部伝達関数は畳みこみ部160へ出力される。
続いて、畳みこみ部160において、音声入力部140から入力された音響信号に対して、S113で選択された頭部伝達関数の畳みこみを行う(S114)。畳みこみの行われた音響信号は再生部170へ出力される。
そして、音響再生の終了を判定し(S120)、終了の場合(S200でYES)は再生を終了し、終了でない場合(S120でNO)はS111に戻る。このようにして、S111からS114は再生が終了するまで繰り返し行われる。
上記のように、本実施形態の構成では、聴取者のジェスチャを判別し、当該ジェスチャに対応する頭部伝達関数を選択して音響信号に対して畳みこみを行い、再生する。このため、聴取者のジェスチャに応じた臨場感の高い音響効果を再現することが可能である。
なお、本実施形態では、頭部伝達関数データベース110は、姿勢に対応した複数の頭部伝達関数のセットを用いて説明したが、全ての頭部伝達関数セットが同じ角度分の頭部伝達関数を持つ必要はない。例えば、手を耳に添えた集音のジェスチャに対応する頭部伝達関数セットは、直立の姿勢の頭部伝達関数と比較すると真上方向の頭部伝達関数に対する影響は少なく、水平面方向の頭部伝達関数に対する影響が大きい。したがって、集音のジェスチャの頭部伝達関数セットは水平面方向だけ備えるようにしてもよい。その場合、集音のジェスチャを検出した場合でも音源方向が頭部の上方や下方にある場合、直立の姿勢の頭部伝達関数を選択するようにするとよい。また、片耳に手を添える集音のジェスチャの場合、手を添えた側の方向に対応する頭部伝達関数は大きく変化するが、反対側の頭部伝達関数にはほとんど影響しない。このため、例えば、片耳の集音のジェスチャに対応する頭部伝達関数セットは手を添えた側だけ記録するようにしてもよい。同様に姿勢ごとに影響の強い周波数は限られるため、頭部伝達関数データベース110には、このようなジェスチャに関連付けられた一部の周波数についての頭部伝達関数のみ記録するようにしてもよい。
また、本実施形態においてジェスチャ検出部120は接触式センサを用いたが、手と耳の位置関係や顔と手の向きが分かればよく、センサ(120−1、120−2)は距離センサなどでもよし、両方のセンサが組み合わさっていてもよい。
また、本実施形態ではわかりやすさのため、ジェスチャ検出部120を、遮音のジェスチャ検出用のセンサ120−1と集音のジェスチャ検出用のセンサ120−2との2つの別のデバイスで構成した例を説明した。しかし、例えば図2(b)に示すようにヘッドフォンの外側全体がタッチパネルのようになっていてもよい。この場合、ジェスチャ判別部130は、聴取者がタッチした位置やタッチした領域などからジェスチャを判別するようにしてもよい。この場合、再生部170はヘッドフォンやイヤフォンであるため装着時に位置ずれや角度ずれ(傾き)がある可能性がある。そのため、ジェスチャ検出部120は再生部170の装着時のずれを検出し、ジェスチャ検出の結果を補正するようにしてもよい。
本実施形態ではジェスチャに応じて頭部伝達関数セットを選択した。つまり左右の耳に対する頭部伝達関数セットは同じものを選択していた。しかし、頭部伝達関数選択部150は、片耳ごと個別に異なる姿勢の頭部伝達関数を選択してもよい。例えば、頭部伝達関数データベースには直立の姿勢の頭部伝達関数セットと両耳集音のジェスチャの頭部伝達関数セットを備えるようにする。ジェスチャ判別部130が左耳のみ集音のジェスチャであると判別した場合、左耳には両耳の集音のジェスチャに対応する頭部伝達関数セットの左耳の頭部伝達関数を適用し、右耳には直立の姿勢の頭部伝達関数セットの頭部伝達関数を適用するようにしてもよい。そうすることで頭部伝達関数データベース110は保持するデータ数を減らすことができる。
また、本実施形態ではジェスチャに応じた頭部伝達関数セットを選択し、選択した頭部伝達関数セットを用いて出力対象の音信号を処理した。しかしながら、頭部伝達関数を用いなくとも、出力対象の音信号をジェスチャに応じて処理するようにしてもよい。例えば、ジェスチャに応じて、出力対象の音信号をミキシングするようにしてもよい。
また、上述の実施形態において、ジェスチャ判別部130の判別結果を所定期間維持するようにしてよい。このように構成することで、聴講者がジェスチャの位置が無い場合に、ジェスチャ検出部120において手がセンサに触れたり離れたりを偶発的に繰り返してしまっても、頭部伝達関数が頻繁に切り替わることが低減される。
また、ジェスチャ検出部120の判別結果の切り替わりを抑制するために、以下のように優先順位を用いてもよい。例えば、遮音、集音、直立のジェスチャが考えられる場合、遮音の優先順位を最も高く設定し、直立の優先順位を最も低く設定したとする。この場合、遮音のジェスチャとその他のジェスチャとの切り替わりの場合、遮音のジェスチャとし、集音のジェスチャと直立の切り替わりの場合、集音のジェスチャとすることができる。また、頻繁に切り替わるジェスチャについて頭部伝達関数選択部150は両方のジェスチャに対応する頭部伝達関数を選択し、両者を所定の重みで混合するようにしてもよい。
本実施形態ではわかりやすさのため、聴取者のジェスチャとして、集音、遮音、直立の聴取者の音の聞こえに関わるジェスチャを判別する例を説明したが、とりうるジェスチャの種類はこれに限られない。例えば、集音のジェスチャでも手と耳の開き角や相対的な位置関係によって効果は変わる。そこで、頭部伝達関数データベース110は、詳細なジェスチャに対応する頭部伝達関数セットを備え、ジェスチャ検出部120は、詳細に手と耳の位置関係と向きを検出するようにしてもよい。さらに本実施形態では、ジェスチャ検出部120は、手と耳との位置関係によってジェスチャを判別したが、ジェスチャ判別の基となる身体部分は手と耳に限られない。例えば、手以外でも体と顔の向きが異なる場合の頭部伝達関数や腕で頭を抱えた場合の頭部伝達関数等の音響的に効果のあるジェスチャを区別して判別するようにしてもよい。
また、本実施形態では、聴取者のジェスチャに対し頭部伝達関数の切り替えのみによって音響効果を付加する場合を説明した。しかし、図6に示すように音響処理部180をさらに備え、ジェスチャ判別の結果に応じて音響信号に対して音響処理を施した後、選択した頭部伝達関数を畳みこむようにしてもよい。例えば、ジェスチャ判別部130において聴取者の右手側の集音のジェスチャを検出した場合、音響処理部180において集音の対象方向である右手前方の音源の音量を上げる。他にも右手前方以外の音量を下げたり、それらを組み合わせるようにしてもよい。ここでは、片手(右手)の集音のジェスチャに対する例をあげたが、両手の集音のジェスチャや遮音のジェスチャ等についても音源ごとに音響処理を行うようにしてもよい。この処理により、より効果的に聴取者のジェスチャに対して音響効果を付加することができる。
また、本実施形態では、音声入力部140は、音響信号に音源位置が付加されたファイルを読み込む例を説明したが、音響信号と音源位置情報は別々に入力できるようになっていてもよい。例えば、音響信号に対する音源位置を聴取者あるいは第三者が編集するユーザインターフェースを備え、音源位置情報はそこから入力されるようにしてもよい。
また、本実施形態のフローの説明において簡単のため、S111からS114を一連の流れとして反復を行った。しかし、それぞれのステップは異なる時間間隔で反復を行ってもよい。例えば、ジェスチャ検出S111とジェスチャ判別S112は所定の時間間隔TAで反復を行い、頭部伝達関数選択S113と畳みこみS114はTAよりも短い所定の時間間隔TBで反復を行うようになっていてもよい。つまり、ジェスチャ判別の結果は所定の時間間隔TAで更新され、頭部伝達関数選択部150では最新のジェスチャ判別結果を用いて頭部伝達関数の選択を行うようになっていてもよい。
以上説明した処理制御を行うことで、聴取者のジェスチャに応じて最適な頭部伝達関数を選択することができるため高い臨場感を感じることができる。
<<実施形態2>>
実施形態1では、接触式センサを用いてジェスチャ検出を行う構成について説明した。本実施形態においては、撮像装置を用いてジェスチャ検出およびヘッドトラッキングを行う例について説明する。ヘッドトラッキングとは、聴取者の頭部の向きを追跡し、聴取者の向きに応じて畳みこむ頭部伝達関数を変更する手法である。ヘッドトラッキングにより、音像が聴取者の頭部運動に付随せず空間に固定されるようにすることができる。この手法を適用することでさらに臨場感を高めることができる。
実施形態1では、接触式センサを用いてジェスチャ検出を行う構成について説明した。本実施形態においては、撮像装置を用いてジェスチャ検出およびヘッドトラッキングを行う例について説明する。ヘッドトラッキングとは、聴取者の頭部の向きを追跡し、聴取者の向きに応じて畳みこむ頭部伝達関数を変更する手法である。ヘッドトラッキングにより、音像が聴取者の頭部運動に付随せず空間に固定されるようにすることができる。この手法を適用することでさらに臨場感を高めることができる。
(高臨場感音響再生装置)
図7は、本発明の実施形態2に係る高臨場感音響再生装置100の構成を示すブロック図である。高臨場感音響再生装置100は、頭部伝達関数データベース110、ジェスチャ検出部120、ジェスチャ判別部130、音声入力部140、頭部伝達関数選択部150、畳みこみ部160、再生部170、および、ジェスチャデータベース190を備える。なお、音声入力部140および畳みこみ部160、再生部170は実施形態1とほぼ同一であるため説明を省略し、実施形態1と異なる点を中心に説明する。
図7は、本発明の実施形態2に係る高臨場感音響再生装置100の構成を示すブロック図である。高臨場感音響再生装置100は、頭部伝達関数データベース110、ジェスチャ検出部120、ジェスチャ判別部130、音声入力部140、頭部伝達関数選択部150、畳みこみ部160、再生部170、および、ジェスチャデータベース190を備える。なお、音声入力部140および畳みこみ部160、再生部170は実施形態1とほぼ同一であるため説明を省略し、実施形態1と異なる点を中心に説明する。
本実施形態では、所定のポーズや姿勢をとった聴取者を撮像し、撮像画像を解析して聴取者のジェスチャを検出する。ジェスチャデータベース190は、聴取者のジェスチャと関連付けされた画像認識のための特徴量が記録されたデータベースである。頭部伝達関数データベース110は、ジェスチャデータベース190に記録されたジェスチャに対応する頭部伝達関数セットを備える。
ジェスチャ検出部120は撮像装置からなり、聴取者を所定の時間間隔で撮像し、撮像した画像をジェスチャ判別部130へ出力する。本実施形態では、ジェスチャ検出部120は聴取者の向きと手と耳の位置関係および角度、手の形などの状態を検出するため右手用と左手用の2台の撮像装置から構成される場合の例を説明する。
ジェスチャ判別部130は、入力された画像を解析することではじめに聴取者の向きを検出する。続いて特徴量を抽出し、ジェスチャデータベースに記録された特徴量と比較することで聴取者のジェスチャを判別する。判別した聴取者の向きとジェスチャの結果は、頭部伝達関数選択部150へ出力される。このようにして、ジェスチャ判別部130は、ジェスチャデータベース190を参照して、ジェスチャ検出部120において取得された撮像画像の特徴量に対応するジェスチャを判別する。
頭部伝達関数選択部150は、実施形態1と同様に、ジェスチャ判別部130からのジェスチャ判別結果に応じて、頭部伝達関数データベース110から頭部伝達関数セットを1つ選択する。続いてジェスチャ判別部130から入力された聴取者の向きおよび音声入力部140から入力された音源位置に基づいて、頭部伝達関数セットの中から頭部伝達関数を選択する。処理のフローは実施形態1(図5)と同様のため、省略する。
本実施形態では、ジェスチャデータベース190はあらかじめ用意されたものを用いたが、撮像画像から抽出された特徴量とジェスチャとの対応を事後的に学習可能な機能を備えたジェスチャデータベース190を用いてもよい。例えば、高臨場感音響再生装置100は学習モードを備え、学習モードでは再生部170から聴取者にジェスチャの指示が再生される。続いてジェスチャ検出部120は聴取者のジェスチャを撮像し、ジェスチャ判別部130は撮像された画像から特徴量を抽出する。続いて抽出した特徴量と指示されたジェスチャとが関連付けられてジェスチャデータベース190に蓄積される。
また、学習は再生中に行われるようになっていてもよい。例えばジェスチャ検出部120が検出したジェスチャをジェスチャ判別部130が判別できなかった場合、直後に判別されたジェスチャと判別できなかったジェスチャを関連付けるように学習するようになっていてもよい。つまり、ジェスチャ判別ができなかった次の反復においてジェスチャ判別が集音のジェスチャと判別した場合、ジェスチャ判別ができなかったジェスチャは集音のジェスチャの可能性が高いと判断し、関連付けを行うようにしてもよい。このようにジェスチャデータベース190を学習することで聴取者のジェスチャの検出精度が向上し、より正確なジェスチャ判別が行えるようになるため違和感が低減し高臨場感につながる。
本実施形態では、ジェスチャ検出部120を2台の撮像装置により構成した例を説明したが、撮像装置は1台であっても2台より多くてもよい。例えば、聴取者を真上から撮像するあるいは、聴取者の周囲にミラーを配置することで1台の撮像装置で聴取者のポーズに関する複数次元の情報を取得して、ジェスチャを検出するようになっていてもよい。
本実施形態では、ジェスチャ検出部120を撮像装置のみから構成した例を説明したが、実施形態1の接触式センサ等と組み合わせて用いてもよい。また、本実施形態では言及しなかったが、画像認識による手の形や角度、聴取者の耳との位置関係などの正確な検出のために手やヘッドフォン、あるいは頭部などに認識用のマーカなどを装着するようにしてもよい。このように、複数の異なるセンサを用いることで、複雑なジェスチャを詳細に判別し、聴取者の状況により適合する頭部伝達関数セットを選択することで、臨場感を高めることができる。
また、高臨場感音響再生装置100は、図8に示すように、さらに撮像対象の聴取者を認識する聴取者認識部200を備え、個人ごとにジェスチャの特徴量を学習し、ジェスチャを判別するようにしてもよい。この場合は、ジェスチャデータベース190は、聴取者ごとに、撮像画像の特徴量とジェスチャとを関連付けて記憶し、ジェスチャ判別部130は、聴取者認識部200が認識した聴取者と特徴量とに対応するジェスチャを判別する。個人ごとの微妙なジェスチャの違いを判別できるようにすることで、より違和感のない頭部伝達関数の切り替えを実現することができる。ここで聴取者認識部200は、例えば指紋認証や静脈認証などでもよいし、ジェスチャ検出部120で撮像した聴取者の画像に対して顔認証を行うことによって聴取者を判別してもよい。
また、何らかの事情により聴取者が手を使えない場合が考えられる。そのような場合、事前に手の代わりとなるものを学習しておくことで手以外のものを使って集音や遮音等の頭部伝達関数を選択できるようにしてもよい。
例えば、ゲーム操作中ではコントローラを手に持っているため、肩や腕を耳に近づけたり、コントローラを近づけたことに応じて入力音声の聞こえが良くなるように頭部伝達関数を選択するようにしてもよい。さらに、補聴器に対応する物体を耳に近づけたことに応じて、入力音声の聞こえがよくなるような頭部伝達関数を選択するようにしてもよい。
例えば、ゲーム操作中ではコントローラを手に持っているため、肩や腕を耳に近づけたり、コントローラを近づけたことに応じて入力音声の聞こえが良くなるように頭部伝達関数を選択するようにしてもよい。さらに、補聴器に対応する物体を耳に近づけたことに応じて、入力音声の聞こえがよくなるような頭部伝達関数を選択するようにしてもよい。
また、本実施形態では、聴取者の頭部の向き検出をジェスチャ検出部120で撮像した画像から行う例を説明したが、図8に示すように、再生部170に頭部動き検出部210を設けて、聴取者の頭部の動きを検出するようになっていてもよい。このような頭部動き検出部210は、例えば、加速度センサー、電子コンパス、傾きセンサ、GPS(Global Positioning System)等のセンサにより構成することができる。この場合、頭部動き検出部210は、センサで検出した値を用いて聴取者の頭部の回転、傾き、移動などの動きを検出する。例えば、音源と頭部の向きに応じて頭部伝達関数を選択するようにしてもよい。例えば、音源から顔をそむけた場合音が聞こえにくくなるような頭部伝達関数を選択し、耳を音源の方向に向けた場合その音源が聞き取りやすくなるような頭部伝達関数を選択するようにしてもよい。
また、高臨場感音響再生装置100の周囲の音がうるさい場合、集音の姿勢をとっても聞き取りづらい状況が考えられる。そこで、再生部170はさらにノイズキャンセリング機能を備え、ジェスチャ判別部130が集音の姿勢をとったと判断した場合にノイズキャンセリング機能を有効にするようにしてもよい。
以上説明した処理制御を行うことで、聴取者のジェスチャに応じて最適な頭部伝達関数を選択することができるため、高い臨場感を感じることができる。
<<その他の実施形態>>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
高臨場感音響再生装置:100、頭部伝達関数データベース:110、ジェスチャ検出部:120、ジェスチャ判別部:130、頭部伝達関数選択部:150、畳みこみ部:160、再生部:170
Claims (18)
- 聴取者の少なくとも一部の身体の姿勢を判別する判別手段と、
判別した前記姿勢に応じて、出力対象の音信号を処理する処理手段と、
を備えることを特徴とする音響装置。 - 前記判別手段は、前記姿勢として前記聴取者のジェスチャを判別し、
ジェスチャに対応する頭部伝達関数を取得する取得手段をさらに備え、
前記処理手段は、取得した前記頭部伝達関数を出力対象の音信号に畳み込む
ことを特徴とする請求項1に記載の音響装置。 - 前記処理手段により処理された音信号を出力部に出力させる出力手段を更に備えることを特徴とする請求項1または2に記載の音響装置。
- 前記判別手段は、聴取者の音の聞こえに関わる姿勢を判別することを特徴とする請求項1から3のいずれか1項に記載の音響装置。
- 前記取得手段は、ジェスチャと頭部伝達関数とを関連付けて記憶するデータベースから、前記判別したジェスチャに対応する頭部伝達関数を取得することを特徴とすることを特徴とする請求項2に記載の音響装置。
- 前記データベースには、ジェスチャに関連付けられた周波数に対応する頭部伝達関数が記憶されることを特徴とすることを特徴とする請求項5に記載の音響装置。
- 前記データベースには、ジェスチャ毎に、少なくとも一つの音源位置の方向にそれぞれ対応する頭部伝達関数が記憶され、
前記出力対象の音声信号には音源位置に関する情報が付加されており、
前記取得手段は、前記判別したジェスチャと、前記出力対象の音声信号に付加された情報が示す音源位置の方向とに対応する頭部伝達関数を取得する
ことを特徴とする請求項5又は6に記載の音響装置。 - 聴取者が所定の姿勢をとったことを検出する検出手段を更に備え、
前記判別手段は、前記検出手段が姿勢を検出したことに応じて、前記聴取者がとった姿勢を判別する
ことを特徴とする請求項1から7のいずれか1項に記載の音響装置。 - 前記検出手段は、聴取者の手と耳との相対的な位置関係を検出することを特徴とする請求項8に記載の音響装置。
- 前記検出手段は、聴取者を撮像して撮像画像を取得し、
前記判別手段は、前記撮像画像を解析して、前記聴取者の姿勢を判別する
ことを特徴とする請求項8に記載の音響装置。 - 撮像画像の特徴量と、姿勢とを関連付けて記憶するジェスチャデータベースをさらに備え、
前記判別手段は、前記ジェスチャデータベースを参照して、前記検出手段において取得された撮像画像の特徴量に対応するジェスチャを判別する
ことを特徴とする請求項10に記載の音響装置。 - 撮像対象の聴取者を認識する認識手段をさらに備え、
前記ジェスチャデータベースは、聴取者ごとに、前記特徴量と姿勢とを関連付けて記憶し、
前記判別手段は、前記認識手段が認識した聴取者と前記特徴量とに対応する姿勢を判別する
ことを特徴とする請求項11に記載の音響装置。 - 前記検出手段は、聴取者の耳の一定距離内に設置された接触式センサにより聴取者の接触を検出し、
前記判別手段は、前記接触式センサが接触を検出した位置に応じて聴取者の姿勢を判別する
ことを特徴とする請求項8に記載の音響装置。 - 前記判別手段が判別した前記姿勢に応じて、前記出力対象の音声信号に対して音響処理を施す処理手段を更に備えることを特徴とする請求項1から13のいずれか1項に記載の音響装置。
- 前記取得手段は、前記判別手段による判別の結果に基づいて、左右の耳に対応する頭部伝達関数を個別に選択することを特徴とする請求項2に記載の音響装置。
- 前記判別手段が判別する姿勢には、集音と、遮音と、直立との少なくともいずれかが含まれることを特徴とする請求項1から15のいずれか1項に記載の音響装置。
- 音響装置の制御方法であって、
判別手段が、聴取者の少なくとも一部の身体の姿勢を判別する判別工程と、
処理手段が、判別した前記姿勢に応じて、出力対象の音信号を処理する処理工程と、
を備えることを特徴とする音響装置の制御方法。 - コンピュータを請求項1から16のいずれか1項に記載の音響装置が備える各手段として機能させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015149808A JP2017034350A (ja) | 2015-07-29 | 2015-07-29 | 音響装置及びその制御方法、コンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015149808A JP2017034350A (ja) | 2015-07-29 | 2015-07-29 | 音響装置及びその制御方法、コンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017034350A true JP2017034350A (ja) | 2017-02-09 |
Family
ID=57988946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015149808A Pending JP2017034350A (ja) | 2015-07-29 | 2015-07-29 | 音響装置及びその制御方法、コンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017034350A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536278A (zh) * | 2017-03-03 | 2018-09-14 | 财团法人资讯工业策进会 | 辨识系统及辨识方法 |
WO2020153027A1 (ja) * | 2019-01-24 | 2020-07-30 | ソニー株式会社 | オーディオシステム、オーディオ再生装置、サーバー装置、オーディオ再生方法及びオーディオ再生プログラム |
CN112218224A (zh) * | 2020-09-18 | 2021-01-12 | 海菲曼(天津)科技有限公司 | 一种基于头戴式扬声器系统的hrtf测量方法及其测量设备 |
-
2015
- 2015-07-29 JP JP2015149808A patent/JP2017034350A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536278A (zh) * | 2017-03-03 | 2018-09-14 | 财团法人资讯工业策进会 | 辨识系统及辨识方法 |
CN108536278B (zh) * | 2017-03-03 | 2021-03-19 | 财团法人资讯工业策进会 | 辨识系统及辨识方法 |
WO2020153027A1 (ja) * | 2019-01-24 | 2020-07-30 | ソニー株式会社 | オーディオシステム、オーディオ再生装置、サーバー装置、オーディオ再生方法及びオーディオ再生プログラム |
CN113302950A (zh) * | 2019-01-24 | 2021-08-24 | 索尼集团公司 | 音频系统、音频重放设备、服务器设备、音频重放方法和音频重放程序 |
US11937069B2 (en) | 2019-01-24 | 2024-03-19 | Sony Corporation | Audio system, audio reproduction apparatus, server apparatus, audio reproduction method, and audio reproduction program |
CN112218224A (zh) * | 2020-09-18 | 2021-01-12 | 海菲曼(天津)科技有限公司 | 一种基于头戴式扬声器系统的hrtf测量方法及其测量设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3521900B2 (ja) | バーチャルスピーカアンプ | |
JP6553052B2 (ja) | ジェスチャ相互作用式の装着可能な空間オーディオシステム | |
JP6446068B2 (ja) | ルーム最適化された伝達関数の決定および使用 | |
US20140369506A1 (en) | Method, an apparatus and a computer program for modification of a composite audio signal | |
TW201939973A (zh) | 用於以頭部追蹤產生客製化空間音訊的方法 | |
JP5704013B2 (ja) | ユーザ認証方法、ユーザ認証装置、およびプログラム | |
US10798518B2 (en) | Apparatus and associated methods | |
CN108111952B (zh) | 一种录音方法、装置、终端及计算机可读存储介质 | |
CN112005559B (zh) | 改进环绕声的定位的方法 | |
US20140241702A1 (en) | Dynamic audio perspective change during video playback | |
CN108156575A (zh) | 音频信号的处理方法、装置及终端 | |
US20190037308A1 (en) | Recording Method, Recording Play Method, Apparatuses, and Terminals | |
JP2022116221A (ja) | 空間オーディオに関する方法、装置およびコンピュータプログラム | |
JP2020108143A (ja) | 複数の音響ストリームの空間的再位置決め | |
JP2017034350A (ja) | 音響装置及びその制御方法、コンピュータプログラム | |
US20220225049A1 (en) | An apparatus and associated methods for capture of spatial audio | |
CN106302974B (zh) | 一种信息处理的方法及电子设备 | |
WO2022062531A1 (zh) | 一种多通道音频信号获取方法、装置及系统 | |
JP2016067817A (ja) | シミュレーションゲームシステム、情報処理方法及びプログラム | |
JP6456171B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2018152834A (ja) | 仮想聴覚環境において音声信号出力を制御する方法及び装置 | |
CN106658339B (zh) | 一种音频信号处理方法及装置、系统 | |
JP2021100209A (ja) | 録音再生装置 | |
CN114598985B (zh) | 音频处理方法及装置 | |
CN115586492A (zh) | 一种ar眼镜及其声源虚拟重定位方法和装置 |