JP2018074437A - 信号処理装置、信号処理システム、信号処理方法およびプログラム - Google Patents

信号処理装置、信号処理システム、信号処理方法およびプログラム Download PDF

Info

Publication number
JP2018074437A
JP2018074437A JP2016213524A JP2016213524A JP2018074437A JP 2018074437 A JP2018074437 A JP 2018074437A JP 2016213524 A JP2016213524 A JP 2016213524A JP 2016213524 A JP2016213524 A JP 2016213524A JP 2018074437 A JP2018074437 A JP 2018074437A
Authority
JP
Japan
Prior art keywords
sound collection
signal processing
sound
directivity
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016213524A
Other languages
English (en)
Inventor
典朗 多和田
Noriaki Tawada
典朗 多和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2016213524A priority Critical patent/JP2018074437A/ja
Priority to US15/729,416 priority patent/US10547961B2/en
Publication of JP2018074437A publication Critical patent/JP2018074437A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】 オブジェクトの位置に応じて収音対象エリアを収音を行う分割エリアに分割する。
【解決手段】 信号処理装置に、収音対象エリア内の音源となり得る複数のオブジェクトの位置を検出する検出手段と、前記検出手段により検出された前記オブジェクトの位置に応じて、前記収音対象エリアを収音を行う複数の分割エリアに分割する分割手段と、前記分割手段により分割された前記分割エリアのそれぞれについて、収音部の指向性を制御して収音範囲を設定する制御手段と、を備える。
【選択図】 図4

Description

本発明は、収音対象エリアで収音された音声を信号処理する信号処理装置、信号処理システム、信号処理方法およびプログラムに関する。
収音対象エリア内に複数存在する音源となるオブジェクトのそれぞれの音を取得する技術が公知である。特許文献1は、複数のマイクロフォンを備えたマイクアレイの収音範囲内に存在する発音体の数および配置の情報を取得し、発音体に向ける収音指向性の向きと鋭さを設定することにより、複数の発音体による同時の発音を収音する技術を開示する。
特開2011−71702号公報
上記特許文献1の技術では、取得した発音体の配置の情報に基づいて収音指向性の向きを設定し、また取得した発音体の数の情報に基づいて収音指向性の鋭さを設定している。しかしながら、特許文献1では、発音体の数や配置の情報を取得するカメラとマイクとがほぼ同一位置になることを前提としており、このカメラを基準として発音体の数やそれぞれの発音体の配置の情報を取得している。このため、収音対象エリア内に存在する複数の発音体の位置によっては、適切な収音を行うことができない場合がある。
例えば、マイクアレイで収音エリアの上方から収音を行うような場合では、発音体の数および配置の情報に基づいた収音指向性の設定だけでは、必ずしも複数の発音体を明瞭に区別した適切な収音を行うことができない。
本発明は上記課題を解決するために成されたものであり、オブジェクトの位置に関わらず、複数のオブジェクトのそれぞれについて適切に音声を取得することができる信号処理装置、信号処理システム、信号処理方法およびプログラムを提供することを目的とする。
上記課題を解決するため、本発明に係る信号処理装置のある態様によれば、収音対象エリア内の音源となり得る複数のオブジェクトの位置を検出する検出手段と、前記検出手段により検出された前記オブジェクトの位置に応じて、前記収音対象エリアを収音を行う複数のエリアに分割する分割手段と、前記分割手段により分割された前記分割エリアのそれぞれについて、収音部の指向性を制御して収音範囲を設定する制御手段と、を備える信号処理装置が提供される。
以上の構成を有する本発明によれば、オブジェクトの位置に関わらず、複数のオブジェクトのそれぞれについて適切に音声を取得することができる。
本発明の実施形態1に係る信号処理システムのブロック図。 収音対象領域を示す図。 本実施形態のハードウェアの構成例を示す図。 本実施形態における信号処理の詳細を示すフローチャート。 仮想聴取位置の入力画面を示す図である。 本実施形態におけるエリア分割の説明図。 本実施形態における収音範囲の説明図。 エリア分割の概略図。 実施形態2に係る信号処理システムにおけるエリア分割の概略図。 実施形態3に係る信号処理システムにおけるエリア分割の概略図。
以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。なお、以下に説明する実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。
<実施形態1>
本発明の実施形態1に係る信号処理システムでは、収音対象エリア内の音源となり得る複数のオブジェクトの位置を検出し、検出したオブジェクトの位置に応じて収音対象エリアを収音を行う複数の分割エリアに分割する。そして、この信号処理システムではさらに、分割エリアごとに収音部の指向性を形成して、それぞれの分割エリアに含まれるオブジェクトの音声を取得する。
(信号処理システムの構成)
図1は、本発明の実施形態1に係る信号処理システム1の構成を示すブロック図である。信号処理システム1は、システム全体の制御を行う制御装置10と、収音対象エリアに配置された収音部3およびV個の撮像部4〜4を備えている。制御装置10と収音部3および各撮像部4〜4とは、ネットワーク2で接続されている。
収音部3は、例えばM個のマイク素子を備えたMチャンネルマイクアレイで構成され、収音に係る増幅やAD変換を行うインターフェース(I/F)を備え、収音している音響信号をネットワーク2を介して制御装置10に供給する。なお、収音部3の数は、1つに限られず、複数の収音部3を設けるようにしてもよい。
撮像部4〜4は、カメラで構成され、撮像に係るI/Fを備え、撮像している映像信号をネットワーク2を介して制御装置10に供給する。収音部3は、撮像部4〜4の少なくとも一つと位置および姿勢関係が明らかなように配置されているものとする。
収音部3は、収音対象エリアの音を収音する。ここで、収音対象エリアとは、収音部3によって収音を行う対象となる領域のことである。本実施形態では、例えば図2に示すように、競技場(スタジアム)のグラウンドエリアを収音対象エリア30とする。ここで図2は、収音対象エリア30であるグラウンドエリアを真上から見た場合の、二次元的な表示となっている。なお、図2中の符号5〜516は、収音対象エリア30内の音源となり得るオブジェクト、例えばサッカーの試合であれば、ボール、プレイヤー、審判等の位置を示している。
制御装置10は、各種データを記憶しておく記憶部11、信号解析処理部12、幾何処理部13、エリア分割処理部14、表示部15、表示処理部16、操作検出部17、再生部18を備えている。
制御装置10は、収音部3から供給された音響信号と、撮像部4〜4から供給された映像信号とを記憶部11に遂次記録する。
また、記憶部11には、指向性形成のフィルタ係数、各方向の音源とマイクアレイの各マイク素子間の伝達関数、指向性の指向方向や鋭さを様々に指定した場合の収音範囲、頭部伝達関数等のデータも格納されている。
信号解析処理部12は、音響信号や映像信号の解析処理を行う。例えば、収音部(マイクアレイ)3が収音している音響信号に対し、指向性形成のフィルタ係数を選択して掛け合わせることで、収音部3の指向性を形成する。
幾何処理部13は、収音部3の位置および姿勢や指向性の形状に係る処理等を行う。エリア分割処理部14は、収音対象エリアのエリア分割に係る処理を行う。表示部15は、典型的にはディスプレイであり、本実施形態では例えばタッチパネルで構成されるものとする。表示処理部16は、収音対象エリアのエリア分割に係る表示等を生成し、表示部15に表示する。操作検出部17は、タッチパネルで構成される表示部15へのユーザ操作入力を検出する。再生部18は、本実施形態ではヘッドホンで構成され、再生に係るDA変換や増幅を行うI/Fを備え、生成された再生信号をヘッドホンから再生させる。
(ハードウェア構成)
図1の制御装置10の各機能ブロックはプログラムとして、後述するROM22等の記憶部に記憶され、CPU21によって実行される。なお、図1に示す機能ブロックの少なくとも一部をハードウェアにより実現してもよい。ハードウェアにより実現する場合、例えば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからFPGA上に自動的に専用回路を生成すればよい。FPGAとは、Field Programmable Gate Arrayの略である。また、FPGAと同様にしてGate Array回路を形成し、ハードウェアとして実現するようにしてもよい。また、ASIC(Application Specific Integrated Circuit)により実現するようにしてもよい。
図3は、制御装置10のハードウェア構成の一例を示している。制御装置10は、CPU21、ROM22、RAM23、外部メモリ24、入力部25、出力部26を有する。
CPU21は、入力された信号やプログラムに従って、各種の演算や制御装置10を構成する各部分の制御を行う。具体的には、CPU21は、収音対象エリアの音を収音する収音部の指向性の制御、表示部15に表示させる表示画像の生成等を行う。前述した図1の機能ブロックは、CPU21によって実行される機能を図示したものである。
RAM23は、一時的なデータを記憶し、CPU21の作業用に使われる。ROM22は、図1に示した各機能部を実行するためのプログラムや、各種の設定情報を記憶する。外部メモリ24は、例えば、着脱可能なメモリカードであり、PC(パーソナルコンピュータ)などに装着してデータを読み出すことが可能である。
また、RAM23あるいは外部メモリ24の所定の領域は記憶部11として使われる。
入力部25は、収音部3から供給された音響信号をRAM23あるいは外部メモリ24の記憶部11として使われる領域に格納する。また、入力部25は、各撮像部4〜4から供給された映像信号をRAM23あるいは外部メモリ24の記憶部11として使われる領域に格納する。出力部26は、CPU21が生成した表示画像を表示部15に表示させる。
(信号処理詳細)
以下、本実施形態の信号処理について、図4のフローチャートに沿って説明する。
S1では、幾何処理部13と信号解析処理部12が連携して、各撮像部4〜4の位置および姿勢を算出する。さらに、幾何処理部13と信号解析処理部12が連携して、撮像部4〜4の何れかと位置および姿勢の関係が明らかである収音部3の位置および姿勢を算出する。ここで、位置および姿勢はグローバル座標系で記述するものとする。例えば、収音対象エリア30の中心にグローバル座標系の原点を取り、収音対象エリア30の各辺と平行になるようにx軸およびy軸を設定し、それらの軸と垂直に鉛直上方向にz軸を設定する。これにより収音対象エリア30は、z=0でx座標およびy座標の範囲が限定された、収音対象エリア平面として記述される。
各撮像部4〜4の位置および姿勢は、カメラキャリブレーションと呼ばれる公知の手法により、例えば収音対象エリアに広く配置したキャリブレーション用のマーカを複数の撮像部4〜4で撮像し、得られた複数の映像信号を用いて算出することができる。そして、各撮像部4〜4の位置および姿勢が分かれば、少なくとも何れかの撮像部と位置および姿勢関係が明らかである収音部3の位置および姿勢が算出できる。
なお、収音部3の位置および姿勢を算出する方法は、映像信号から算出する方法に限らず、収音部3がGPS(Global Positioning System)受信機や姿勢センサを備えることで、収音部の位置および姿勢を取得するようにしてもよい。また、例えば、特開2014−175996号公報に開示されているように、収音対象エリア30にキャリブレーション用の音源を配置し、A個の収音部3〜3を用いて収音した音響信号から、各収音部3〜3の位置および姿勢を算出するようにしてもよい。
また、キャリブレーション用のマーカ、音源、GPS等を収音対象エリアの四隅にも配置しておくことで、このS1において、グローバル座標系における収音対象エリア30の四隅の位置を取得することができる。これにより、収音対象エリア30は、z=0でx座標およびy座標の範囲が限定された、収音対象エリア平面として記述される。
次に、S2では、操作検出部17が、ユーザからの操作入力を検出することで、後のステップで各分割エリアの音を再生するために必要な、現在の時間ブロック(所定の時間長を有する)における仮想聴取位置および姿勢(方向)を取得する。
具体的には、図5に示すように、表示処理部16は、表示部15の表示画面に、収音対象エリア30を示す画像と、仮想聴取位置311を示す画像を表示させる。図5において、頭部を模式的に表す円311の中心が仮想聴取位置を、鼻を模式的に表す二等辺三角形312の頂点が仮想聴取方向を表している。ここでは、分かり易さのため矢印313も付加しており、矢印の始点が仮想聴取位置、矢印の方向が仮想聴取方向に対応する。
操作検出部17は、ユーザが円311をドラッグ等して移動させたり、二等辺三角形312をドラッグ等して回転させたりする操作入力を検出すると、当該操作入力に応じて現時間ブロックの仮想聴取位置および姿勢を入力する。表示処理部16は、操作検出部17が入力した仮想聴取位置および姿勢に応じて、図5のような画像を生成して表示部15に表示させる。
S3では、信号解析処理部12が、各撮像部4〜4で撮像している現時間ブロックの映像信号を取得し、映像認識を適用することで音源になり得るオブジェクトを検出する。例えば、公知の機械学習や人検出の技術を適用することで、選手やボールといった音を発し得るオブジェクトを検出する。
そして、幾何処理部13が、検出された各オブジェクトの位置を算出する。なお、算出する各オブジェクトの位置は、例えばオブジェクトの代表位置(例えばオブジェクト検出枠の中心)とする。なお、例えば収音対象エリア30であるグラウンドエリアの平面のz座標がz=0であるとの仮定等も用いて、オブジェクトの代表位置をグローバル座標系における収音対象エリア上の位置(x、y)に対応付けるようにしてもよい。
なお、グローバル座標系におけるオブジェクトの位置を取得する方法は、映像信号から取得する方法に限られず、例えば選手やボールにGPSを装着することで、グローバル座標系におけるオブジェクトの位置を取得するようにしてもよい。
以上により、例えば図2に示すように、各オブジェクト5〜516の位置が算出される。
S4では、エリア分割処理部14が、S3で算出された収音対象エリア上のオブジェクトの位置を母点として、収音対象エリアのボロノイ分割を行う。これにより、例えば図6に示すように、収音対象エリア30が、ボロノイ境界で区切られた複数の分割エリア(ボロノイ領域)に分割される。図6において、黒丸がオブジェクトの位置(ボロノイ分割の母点)を表しており、各分割エリアにひとつのオブジェクトが含まれている。時間ブロックごとにS3および本ステップの処理を行う(あるいは時間ブロックごとにS3からS10の処理を繰り返す)ことで、オブジェクトの動きに応じて収音対象エリア30を動的にエリア分割して収音を行うことができる。
S5では、信号解析処理部12が、収音部(Mチャンネルマイクアレイ)3で収音している現時間ブロックのMチャンネルの音響信号を取得し、チャンネルごとにフーリエ変換することで周波数領域のデータ(フーリエ係数)であるz(f)を得る。ここで、fは周波数のインデックス、z(f)はM個の要素を持つベクトルである。
S6〜S8は周波数ごとの処理であり、周波数ループの中で繰り返し実行する。さらに、S6〜S8はS4で決定した分割エリア(ボロノイ領域)ごとの処理であり、分割エリアループの中で繰り返し実行する。
S6では、信号解析処理部12が、現在の分割エリアループで対象としている分割エリアの音を適切に取得するための指向性のフィルタ係数w(f)を取得する。ここで、d(=1〜D)は分割エリアのインデックス、Dは分割エリアの総数である。指向性形成のフィルタ係数w(f)は、記憶部11があらかじめ保持しているものとする。フィルタ係数(ベクトル)は周波数領域のデータ(フーリエ係数)であり、M個の要素で構成される。
本実施形態において、分割エリアの音を適切に取得するとは、指向性による収音対象エリア30上の収音範囲を分割エリアに適合させ、分割エリアに含まれるオブジェクトの音を適切に取得することを意味するものとする。
(収音範囲の算出処理)
はじめに、指向性による収音範囲の算出について説明する。すなわち、信号解析処理部12が、指向性のビームパターンを算出し、幾何処理部13が、このビームパターンによる収音範囲を算出する。
より詳細には、まず、指向性形成のフィルタ係数に、記憶部11が保持している、各方向の音源とマイクアレイの各マイク素子間の伝達関数であるアレイ・マニフォールド・ベクトルを掛け合わせることで、指向性のビームパターンを算出する。ここで、ビームパターンの指向方向からの減衰量が、所定値(例えば3dB)となる方向で形成する曲面を考える。そして、これを指向性曲面と呼ぶことにし、指向性曲面内の音が取得され、指向性曲面外の音が抑制されると考える。
S1で算出した収音部3の姿勢および位置を用いて、上記指向性曲面を回転および並進させることで、グローバル座標系における指向性曲面が得られる。そこで、グローバル座標系で表現した指向性曲面について、S1で記述された収音対象エリア平面による断面を算出し、これを収音範囲として、収音範囲内の音が取得され、収音範囲外の音が抑制されると考える。また、収音範囲の面積も同時に算出するものとする。収音部3が収音対象エリアを上方から収音し、指向性の指向方向が収音対象エリアに対して仰角を有するとすると、例えば図6のオブジェクト5に対応する収音範囲31を形成する。なお、このような立体図形の断面を求める処理には、公知の3D CAD(3 Dimension Computer−Aided Design)等の技術を適用することができる。
さらに、幾何処理部13と信号解析処理部12が連携して、収音対象エリア上の収音範囲を分割エリアに適合させ、分割エリアに含まれるオブジェクトの音を適切に取得できるような指向性を決定する。
ここで、もし、S4のような収音対象エリアのエリア分割を考えず、オブジェクト(母点)の方向を指向方向として適当な鋭さの指向性を向けるだけだと、図6の収音範囲31〜32のように複数の収音範囲に重複が生じる。このため、ひとつの収音範囲に複数のオブジェクトが含まれる可能性があり、そのような場合は各オブジェクトの音をそれぞれ分離して取得することができない。すなわち、例えば選手一人一人の声を分離して取得したり、別々の音源として再生したりすることができない。
このため、本実施形態では、以下の手法を用いて、収音対象エリア上の収音範囲を分割エリアに適合させることができる。以下、順に説明する。
、第1の方法では、収音範囲が対象としている分割エリア内のオブジェクト(母点)を含み、かつ、収音範囲が分割エリアの境界(ボロノイ境界)を越えずに分割エリアに内接する条件で、収音範囲の面積を所定値より大きくするよう指向性を決定する。
図7の331〜332は、第1の方法で決定した指向性による収音範囲の例である。このように、収音範囲が各分割エリアに収まるよう指向性を制御すれば、複数の収音範囲に重複を生じないため、各オブジェクトの音をそれぞれ分離して取得することができる。収音範囲の面積を所定値より大きく、言い換えれば指向性をできる限り緩くしたのは、一般に指向性が緩い方が指向性形成のフィルタ長が短くて済み、指向性形成の処理量削減が期待できるためである。
なお、指向性を鋭くする、すなわち収音範囲を狭くすることには限界があるが、指向性を緩くする、すなわち収音範囲を広くすることは一般に可能である。第1の方法において、指向性の指向方向はオブジェクトの方向から幾らかは外れるが、オブジェクトは収音範囲に含まれているためオブジェクトの音を取得することができる。
第1の方法による指向性は、指向方向を対象としている分割エリア内で振りつつ、指向性の鋭さを例えば最も鋭いものから徐々に緩めて、収音範囲を逐次確認して行くことで決定することができる。
なお、一般に指向性形成のフィルタ係数は、収音部3のマイクアレイ座標系で球面座標表現(半径r、方位角θ、仰角φ)した指向方向(θ、φ)と対応付けられている。このため前処理として、幾何処理部13が、S1で算出した収音部3の位置および姿勢を用いて、グローバル座標系で記述した指向位置(指向方向と収音対象エリア平面の交点)をマイクアレイ座標系に座標変換する。幾何処理部13は、座標変換した指向位置を、さらに直交座標表現(x、y、z)から球面座標表現(r、θ、φ)に変換する。
なお、指向性の指向方向や鋭さを様々に指定した場合の収音範囲は、あらかじめ算出して結果を記憶部11に保持しておいてもよい。
なお、収音範囲を分割エリアに内接させることができない場合は、分割エリアからはみ出る収音範囲の面積を所定値より小さくするように、指向性の指向方向や鋭さを制御するようにしてもよい。
また、第2の方法では、指向方向をオブジェクト(母点)の方向に固定し、かつ収音範囲が分割エリアの境界を越えずに分割エリアに内接する条件で、収音範囲の面積を所定値より大きくするよう指向性を決定する。
図7において、333が第1の方法で決定した指向性による収音範囲の例、334が第2の方法で決定した指向性による収音範囲の例である。第2の方法では、オブジェクトの方向を指向方向とするため、指向性のメインローブでオブジェクトを捉えることができる。また、指向方向を固定した状態で収音範囲の面積を所定値より大きくするため、第1の方法ほどではないが指向性形成の処理量削減が期待できる。
第2の方法による指向性は、指向方向をオブジェクトの方向に固定した状態で、指向性の鋭さを例えば最も鋭いものから徐々に緩めて、収音範囲を逐次確認して行くことで決定することができる。
また第3の方法では、指向性の鋭さは既定(任意)とする(例えば最も鋭くしてもよい)。そして、収音範囲が分割エリアに収まらなかった場合に、収音範囲が分割エリアの境界を越えずに分割エリアに内接するよう、指向方向をオブジェクトの方向から補正した指向性を決定する。このとき、指向方向の補正量が最小となるように指向性を決定してもよい。図7の335は、第3の方法で決定した指向性による収音範囲の例である。
第3の方法による指向性は、指向性の鋭さを固定した状態で、指向方向をオブジェクト(母点)の方向から(分割エリアからはみ出る収音範囲の面積が小さくなる方向に)徐々に動かして、収音範囲を逐次確認して行くことで決定することができる。
なお、上記の方法例(第1から第3の方法)では何れも収音範囲を分割エリアに内接させており、収音範囲を分割エリアに適合させた例である。すなわち、収音範囲を分割エリアに少なくとも部分的に内接するよう、収音部の指向性を制御した例である。
信号解析処理部12は、以上のような方法で決定した指向性形成のフィルタ係数w(f)を記憶部11から取得する。
S7では、信号解析処理部12が、S5で取得した現時間ブロックのMチャンネル音響信号のフーリエ係数z(f)に、S6で取得した指向性形成のフィルタ係数w(f)を適用する。これにより、現在の分割エリアループに対応する分割エリア音Y(f)を式(1)のように生成する。ここで、Y(f)は周波数領域のデータ(フーリエ係数)である。各分割エリア音は、対応するオブジェクトの音(オブジェクト音)を含んでいる。
なお、幾何処理部13がオブジェクトと収音部3との間の距離Sを算出し、信号解析処理部12がY(f)にSを掛けることで、オブジェクトごとに異なる音の距離減衰を補償するようにしてもよい。また、信号解析処理部12が、基準距離(例えばS[d=1〜D]の最大値とする)とSとの距離差に対応する位相成分をY(f)に掛けることで、オブジェクトごとの音の距離遅延差を吸収するようにしてもよい。
S8では、幾何処理部が、グローバル座標系で記述されたオブジェクト(母点)の位置を、S2で取得した仮想聴取位置および姿勢で規定される頭部座標系に座標変換し、さらに直交座標表現から球面座標表現に変換する。これは、本ステップで使用する頭部伝達関数(HRTF:Head−Related Transfer Function)が、一般に頭部座標系で球面座標表現した方向と対応付けられているためである。図8において、黒四角形314が簡易的な表示として仮想聴取位置を表しており、仮想聴取位置と各オブジェクトを結ぶ線が頭部座標系におけるオブジェクトの方向に対応する。
さらに、信号解析処理部12は、S7で取得した分割エリア音のフーリエ係数Y(f)に、オブジェクトの方向(θ、φ)に対応する左右耳のHRTF[H(f,θ,φ)、H(f,θ,φ)]を適用する。そして、信号解析処理部12は、式(2)のように、左右それぞれのヘッドホン再生信号X(f)、X(f)に、HRTFを適用したフーリエ係数を加算して行く。ここで、X(f)、X(f)は周波数領域のデータ(フーリエ係数)である。なお、HRTFは記憶部11があらかじめ保持しているものを取得して用いればよい。
なお、幾何処理部13がオブジェクトと仮想聴取位置との間の距離Tを算出し、信号解析処理部12がY(f)をTで割っておくことで、仮想聴取位置に対する分割エリア音(オブジェクト音)ごとの距離減衰を表現してもよい。また、信号解析処理部12が、Tに対応する位相成分をY(f)に掛けておくことで、仮想聴取位置に対する分割エリア音(オブジェクト音)ごとの距離遅延差を表現するようにしてもよい。すなわち、各分割エリアに対応するオブジェクトと仮想聴取位置との間の距離に応じて、各分割エリアごとの音響信号のレベルおよび遅延の少なくとも何れか1つを補正する。
分割エリアループの中で本ステップの処理を行うことで、各分割エリア音(オブジェクト音)を再生する仮想スピーカをユーザの周囲に順次配置して行くような効果が得られるため、収音対象エリアにいるかのような音場を再現することができる。
S9では、信号解析処理部12が、S8で生成したヘッドホン再生信号のフーリエ係数X(f)、X(f)をそれぞれ逆フーリエ変換することで、時間波形である現時間ブロックのヘッドホン再生信号x(t)、x(t)を取得する。これに例えば窓関数を掛けて、前時間ブロックまでのヘッドホン再生信号にオーバーラップ加算していき、得られるヘッドホン再生信号を記憶部11へ逐次記録する。
以上の処理を繰り返すことにより、分割エリアごとの音響信号の音像が生成される。
S10では、再生部18が、S9で取得したヘッドホン再生信号x(t)、x(t)にDA変換および増幅を施し、ヘッドホンから再生する。
以上説明したように、本実施形態によれば、オブジェクトの位置に応じて収音対象エリアを分割エリアに分割し、分割エリアごとに収音部の指向性を形成して、それぞれの分割エリアに含まれるオブジェクトの音声を取得する。これにより、オブジェクトの位置に関わらず、複数のオブジェクトのそれぞれについて適切に音声を取得することができる
なお、S1における処理は、あらかじめ処理して結果を記憶部11に保持しておいてもよい。また、本実施形態において記憶部11が保持しているとした各種データは、不図示のデータ入出力部を介して外部から入力するようにしてもよい。
<実施形態2>
実施形態1では、図4のS3で検出したオブジェクトの音はそれぞれ分離して取得していた。しかし、図8に示すように、仮想聴取位置314(頭部座標系)から見た複数のオブジェクト(図8の例ではオブジェクト5、5)の方向が近接している場合、それらのオブジェクト音に対してS8で略同方向のHRTFが適用されることになる。このような場合、仮想聴取位置から見て近接した方向にある、複数のオブジェクトの音をそれぞれ分離して取得する意味は薄く、ひとつの指向性(収音範囲)でまとめて取得してもよいと考えられる。
そこで、図4のS4において、エリア分割処理部14が、仮想聴取位置から見た方向間隔(最も近い方向と成す角)が閾値以下となるオブジェクトを検出し、それらのオブジェクトに対応する分割エリアを統合するようにしてもよい。すなわち、仮想聴取位置に対する方向間隔が閾値以下となる複数のオブジェクトに対応する複数の分割エリアを統合する。図9は例であり、図8において方向が近接しているオブジェクト5、5に対応する分割エリア6、6について、図9では分割エリア350に統合している。これにより、ひとつの指向性(収音範囲361)でオブジェクト5、5の音をまとめて取得している。
なお、オブジェクト5、5の間の距離と、オブジェクト511、512の間の距離は同程度であるが、仮想聴取位置314から見たオブジェクトの間の方向間隔は異なる。このため、この信号処理システム1では、方向間隔が閾値より大きいオブジェクト511、512の音はそれぞれ別々に、方向間隔が閾値より小さいオブジェクト5、5の音はまとめて取得している。すなわち、複数のオブジェクトの音をそれぞれ別々に取得するのか、もしくはまとめて取得するのかを、仮想聴取位置からの方向間隔に応じて制御していることになる。
<実施形態3>
また、図4のS4において、仮想聴取位置から見た方向間隔が閾値以下となるオブジェクト(母点)について、エリア分割処理部14が、それらの母点を例えば重心位置に統合してから収音対象エリアのボロノイ分割を行うようにしてもよい。すなわち、仮想聴取位置に対する方向間隔が閾値以下となる複数のオブジェクトの位置を統合する。図10は例であり、図8において方向が近接している母点5、5について、図10では母点340に統合しており、ひとつの指向性(収音範囲362)でオブジェクト5、5の音をまとめて取得している。
なお、図9の収音範囲361や図10の収音範囲362は、図4のS6において、第1の方法で決定した指向性によるものであるが、音をまとめて取得する複数のオブジェクト全てを収音範囲に含む、という条件が付加されている。なお、もちろん例えば第2の方法で指向性を決定してもよく、その場合は指向方向を例えば図10の統合された母点340に固定すればよい。
<変形例>
なお、音源に対する人の方向知覚の分解能が正面や後方で高く、側方では低いことを考慮して、エリア分割処理部14が、仮想聴取方向313に対する方向に応じて上記方向間隔の閾値を変えるようにしてもよい。すなわち、仮想聴取方向の付近や反対方向では閾値を小さくして、方向が近接している複数のオブジェクトの音もそれぞれ別々に取得(再生)する。また、仮想聴取方向に対して側方では閾値を大きくして、方向が近接している複数のオブジェクトの音をまとめて取得(再生)する。
また、分割エリアの数Dが多いほど信号生成および再生の処理量は増えるため、Dの値によってはリアルタイム処理が間に合わなくなる可能性がある。一方、上記方向間隔の閾値が大きいほど、分割エリアや母点が統合されやすいため分割エリアの数Dは少なくなる。
そこで、エリア分割処理部14が、信号処理システム1の許容処理量に応じて分割エリアの上限数Dmaxを設定し、D≦Dmaxとなるよう閾値を制御するようにしてもよい。これにより、処理量に制限がある場合に音の空間的な分解能を落としてリアルタイム性を担保することができる。
また、一般に周波数が低いほど形成可能な指向性は緩くなり、収音範囲の面積が大きくなるため分割エリアに適合しなくなる可能性がある。一方、上記方向間隔の閾値が大きいほど分割エリアの数Dは少なくなるため、分割エリアの面積は大きくなる傾向がある。
そこで、S4の処理を周波数ループの中で行い、高域より低域で閾値を大きくして分割エリアの面積を大きくするようにしてもよい。これにより、周波数に応じてエリア分割を制御することになるため、各周波数で収音範囲を分割エリアに適合させることができる。なお、分割エリアの数も周波数に依存するD(f)となるため、例えばS8では仮想スピーカの数も周波数ごとに制御することになる。
また、各オブジェクトの方向間隔は仮想聴取位置に依存するが、各オブジェクトの音がなるべく別々の方向から聞こえるように、例えば方向間隔の最小値を所定値より大きくするよう仮想聴取位置を定めるようにしてもよい。
また、仮想聴取位置から見た方向間隔ではなく、仮想聴取位置に依存しない単純なオブジェクト(母点)間距離に基づいて、クラスタリング等により距離が近い母点を統合するようにしてもよい。すなわち、エリア分割処理部14が、オブジェクトの間の距離に基づいて複数のオブジェクトの位置を統合する。
また、表示処理部16が、図7から図10のような表示を生成して、表示部15に表示させるようにしてもよい。すなわち、分割エリアの状態と収音範囲の少なくとも何れか1つを表示する。そして、操作検出部17が検出する表示部15へのユーザ操作入力に応じて、エリア分割処理部14がエリア分割を制御したり、幾何処理部13と信号解析処理部12が連携して指向性を制御したりするようにしてもよい。
例えば、ユーザが、図8において分割エリア6、6の境界353の画像を横切る矢印371のようにドラッグすると、操作検出部17がこの操作を検出し、境界353を共有している分割エリア6、6を図9の分割エリア350のように統合してもよい。あるいは、ユーザが図8の複数の分割エリア6、6の画像を順にタッチして選択すると、操作検出部17がこの操作を検出し、表示処理部16がメニューボタン372を表示させる。さらに、ユーザがこのメニューボタン372をタッチすることで、エリア分割処理部14が、選択された分割エリア6、6を図9の分割エリア350のように統合するようにしてもよい。すなわち、分割エリアの状態と収音範囲の少なくとも何れか1つを調整する。
さらに、図4のS6において、指向性の指向方向や鋭さを制御するようにしてもよい。具体的には、ユーザが、例えば図7の収音範囲の境界334を双方向矢印373のようにドラッグしこの操作を操作検出部17を介して検出したエリア分割処理部14が収音範囲を変更する。これにより、例えば第2の方法による収音範囲334と第1の方法による収音範囲333の中間的な収音範囲となるように、エリア分割処理部14が指向性の指向方向や鋭さを制御するようにしてもよい。
なお、再生部18をスピーカで構成するようにしてもよい。そして、信号解析処理部12が、各分割エリア音(オブジェクト音)の音像を各オブジェクトの方向に生成するために、公知のパンニング処理等によりスピーカ再生信号を生成するようにしてもよい。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
1…信号処理システム、3…収音部、4〜4…撮像部、10…制御装置、11…記憶部、12…信号解析処理部、13…幾何処理部、14…エリア分割処理部、15…表示部、16…表示処理部、17…操作検出部、18…再生部

Claims (31)

  1. 収音対象エリア内の音源となり得る複数のオブジェクトの位置を検出する検出手段と、
    前記検出手段により検出された前記オブジェクトの位置に応じて、前記収音対象エリアを複数の分割エリアに分割する分割手段と、
    前記分割手段より分割された前記分割エリアのそれぞれについて、収音部の指向性を制御して収音範囲を設定する制御手段と、
    を備える信号処理装置。
  2. 前記制御手段は、前記収音範囲が前記分割エリアに少なくとも部分的に内接するよう、前記収音部の前記指向性を制御する、ことを特徴とする請求項1に記載の信号処理装置。
  3. 前記分割手段は、前記オブジェクトの位置を母点とするボロノイ分割を用いることを特徴とする請求項1または2に記載の信号処理装置。
  4. 前記分割手段は、前記オブジェクトの間の距離に基づいて複数の前記オブジェクトの位置を統合することを特徴とする請求項1から3のいずれか1項に記載の信号処理装置。
  5. 前記分割手段は、仮想聴取位置に対する方向間隔が閾値以下となる複数の前記オブジェクトの位置を統合することを特徴とする請求項1から3のいずれか1項に記載の信号処理装置。
  6. 前記分割手段は、仮想聴取位置に対する方向間隔が閾値以下となる複数の前記オブジェクトに対応する複数の前記分割エリアを統合することを特徴とする請求項1から3のいずれか1項に記載の信号処理装置。
  7. 前記分割手段は、前記方向間隔の最小値を所定値より大きくするよう前記仮想聴取位置を決定することを特徴とする請求項5または6に記載の信号処理装置。
  8. 前記分割手段は、仮想聴取方向に対する前記オブジェクトの方向に応じて前記閾値を制御することを特徴とする請求項5から7のいずれか1項に記載の信号処理装置。
  9. 前記分割手段は、当該信号処理装置の許容処理量に応じて前記分割エリアの上限数を設定することを特徴とする請求項1から8のいずれか1項に記載の信号処理装置。
  10. 前記分割手段は、前記収音部が収音する音響信号の周波数ごとに前記上限数を設定することを特徴とする請求項9に記載の信号処理装置。
  11. 前記分割手段は、前記周波数の高域より低域で前記上限数を少なくすることを特徴とする請求項10に記載の信号処理装置。
  12. 前記収音部は、複数のマイク素子で構成されるマイクアレイからなり、
    前記制御手段は、前記分割エリアのそれぞれについて、前記マイクアレイの指向性を制御して前記収音範囲を設定することを特徴とする請求項1から11のいずれか1項に記載の信号処理装置。
  13. 前記制御手段は、前記収音範囲が前記分割エリアに適合するよう、前記分割エリアごとに前記指向性の指向方向と鋭さの少なくとも何れか1つを制御することを特徴とする請求項1から12のいずれか1項に記載の信号処理装置。
  14. 前記収音範囲は、前記指向性の前記収音対象エリアの平面による断面であることを特徴とする請求項1から13のいずれか1項に記載の信号処理装置。
  15. 前記指向性による減衰量が所定値となる方向を、前記収音範囲の境界に対応させることを特徴とする請求項1から14のいずれか1項に記載の信号処理装置。
  16. 前記制御手段は、前記収音範囲が前記分割エリア内の前記オブジェクトを含み、かつ前記収音範囲が前記分割エリアの境界を越えずに前記分割エリア内に収まるよう、前記指向性を制御することを特徴とする請求項1から15のいずれか1項に記載の信号処理装置。
  17. 前記制御手段は、前記指向方向を前記オブジェクトの方向に固定し、かつ前記収音範囲が前記分割エリアの境界を越えずに前記分割エリア内に収まるよう、前記指向性を制御することを特徴とする請求項1から15のいずれか1項に記載の信号処理装置。
  18. 前記制御手段は、前記収音範囲の面積を所定値より大きくすることを特徴とする請求項1から17のいずれか1項に記載の信号処理装置。
  19. 前記制御手段は、前記収音範囲が前記分割エリアに収まらなかった場合に、前記収音範囲が前記分割エリアの境界を越えずに前記分割エリア内に収まるよう、前記指向方向を制御することを特徴とする請求項1から15のいずれか1項に記載の信号処理装置。
  20. 前記制御手段は、前記分割エリアからはみ出る前記収音範囲の面積を所定値より小さくすることを特徴とする請求項1から15のいずれか1項に記載の信号処理装置。
  21. 前記分割エリアごとの収音部の指向性により、前記マイクアレイで収音した音響信号から前記分割エリアごとの音響信号を取得する取得手段をさらに備えることを特徴とする請求項12から20のいずれか1項に記載の信号処理装置。
  22. 前記取得手段は、各分割エリアに対応する前記オブジェクトと前記マイクアレイとの間の距離に応じて、各分割エリアごとの音響信号のレベルおよび遅延の少なくとも何れか1つを補正することを特徴とする請求項21に記載の信号処理装置。
  23. 前記分割エリアごとの音響信号の音像を生成する生成手段をさらに備えることを特徴とする請求項1から22のいずれか1項に記載の信号処理装置。
  24. 前記生成手段は、前記分割エリアごとの音響信号に前記オブジェクトの方向に対応する頭部伝達関数を適用して前記音像を生成することを特徴とする請求項23に記載の信号処理装置。
  25. 前記生成手段は、前記分割エリアごとの音響信号にパンニング処理を適用することを特徴とする請求項23に記載の信号処理装置。
  26. 前記生成手段は、前記各分割エリアに対応する前記オブジェクトと仮想聴取位置との間の距離に応じて、各分割エリアごとの音響信号のレベルおよび遅延の少なくとも何れか1つを補正することを特徴とする請求項23から25のいずれか1項に記載の信号処理装置。
  27. 前記分割エリアの状態と前記収音範囲の少なくとも何れか1つを表示する表示手段をさらに備えることを特徴とする請求項1から26のいずれか1項に記載の信号処理装置。
  28. 前記分割エリアの状態と前記収音範囲の少なくとも何れか1つを調整する調整手段をさらに備えることを特徴とする請求項1から26のいずれか1項に記載の信号処理装置。
  29. 請求項1から28のいずれか1項に記載の信号処理装置と、
    前記分割エリアごとに収音を行う収音部と、
    を備えることを特徴とする信号処理システム。
  30. 収音対象エリア内の音源となり得る複数のオブジェクトの位置を検出するステップと、
    前記検出された前記オブジェクトの位置に応じて前記収音対象エリアを収音を行う複数の分割エリアに分割するステップと、
    前記分割された前記分割エリアのそれぞれについて、収音部の指向性を制御して収音範囲を設定するステップと、
    を備える信号処理方法。
  31. コンピュータを、請求項1から28のいずれか1項に記載された信号処理装置の各手段として機能させるためのプログラム。
JP2016213524A 2016-10-25 2016-10-31 信号処理装置、信号処理システム、信号処理方法およびプログラム Pending JP2018074437A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016213524A JP2018074437A (ja) 2016-10-31 2016-10-31 信号処理装置、信号処理システム、信号処理方法およびプログラム
US15/729,416 US10547961B2 (en) 2016-10-25 2017-10-10 Signal processing apparatus, signal processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016213524A JP2018074437A (ja) 2016-10-31 2016-10-31 信号処理装置、信号処理システム、信号処理方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2018074437A true JP2018074437A (ja) 2018-05-10

Family

ID=62114410

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016213524A Pending JP2018074437A (ja) 2016-10-25 2016-10-31 信号処理装置、信号処理システム、信号処理方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2018074437A (ja)

Similar Documents

Publication Publication Date Title
KR101724514B1 (ko) 사운드 신호 처리 방법 및 장치
US10397722B2 (en) Distributed audio capture and mixing
JP6687032B2 (ja) 耳形状解析方法、頭部伝達関数生成方法、耳形状解析装置および頭部伝達関数生成装置
US20190364378A1 (en) Calibrating listening devices
US20240048932A1 (en) Personalized hrtfs via optical capture
JP4926916B2 (ja) 情報処理装置、情報処理方法、およびコンピュータプログラム
JPWO2005025270A1 (ja) 音像制御装置の設計ツールおよび音像制御装置
JP6613078B2 (ja) 信号処理装置及びその制御方法
JP6758956B2 (ja) 制御装置、制御方法およびプログラム
CN109314832A (zh) 音频信号处理方法和设备
US8965004B2 (en) Method for acquiring audio signals, and audio acquisition system thereof
US20180115852A1 (en) Signal processing apparatus, signal processing method, and storage medium
JP2018064215A (ja) 信号処理装置、信号処理方法、およびプログラム
JP4866301B2 (ja) 頭部伝達関数補間装置
JP2018074437A (ja) 信号処理装置、信号処理システム、信号処理方法およびプログラム
JP7321736B2 (ja) 情報処理装置、情報処理方法、及びプログラム
EP3661233A1 (en) Wearable beamforming speaker array
WO2019174442A1 (zh) 拾音设备、声音输出方法、装置、存储介质及电子装置
JP2016163181A (ja) 信号処理装置及び信号処理方法
JP5346187B2 (ja) 頭部音響伝達関数補間装置、そのプログラムおよび方法
JP2019054340A (ja) 信号処理装置およびその制御方法
WO2023054047A1 (ja) 情報処理装置、情報処理方法、及びプログラム
Sakamoto et al. Improvement of accuracy of three-dimensional sound space synthesized by real-time SENZI, a sound space information acquisition system using spherical array with numerous microphones
JP2024056580A (ja) 情報処理装置及びその制御方法及びプログラム
US9794685B2 (en) Video audio recording system, video audio recording device, and video audio recording method