JP5345748B1 - 物体配置推定装置 - Google Patents

物体配置推定装置 Download PDF

Info

Publication number
JP5345748B1
JP5345748B1 JP2013526019A JP2013526019A JP5345748B1 JP 5345748 B1 JP5345748 B1 JP 5345748B1 JP 2013526019 A JP2013526019 A JP 2013526019A JP 2013526019 A JP2013526019 A JP 2013526019A JP 5345748 B1 JP5345748 B1 JP 5345748B1
Authority
JP
Japan
Prior art keywords
arrangement
estimation
objects
unit
microphones
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013526019A
Other languages
English (en)
Other versions
JPWO2014020921A1 (ja
Inventor
史郎 伊勢
佳世 松岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
National Institute of Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Agency
National Institute of Japan Science and Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Agency, National Institute of Japan Science and Technology Agency filed Critical Japan Science and Technology Agency
Priority to JP2013526019A priority Critical patent/JP5345748B1/ja
Priority claimed from PCT/JP2013/052066 external-priority patent/WO2014020921A1/ja
Application granted granted Critical
Publication of JP5345748B1 publication Critical patent/JP5345748B1/ja
Publication of JPWO2014020921A1 publication Critical patent/JPWO2014020921A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/30Determining absolute distances from a plurality of spaced points of known location
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

M個(Mは、2以上の整数)の対象物の実空間における配置を推定する物体配置推定装置であって、M個の対象物それぞれについて、実空間内のN個(Nは、3以上の整数)の参照点それぞれに対する近さを表すN個の尺度における対象物についての測度を成分に含む特徴ベクトルを生成する特徴ベクトル生成部と、M個の対象物に含まれるあらゆる2個の対象物の組み合わせについて、当該2個の対象物の特徴ベクトル間のノルムを求め、求めたノルムを要素とするM行M列の非類似度行列を導出する非類似度行列導出部と、非類似度行列に基づいてM個の対象物の実空間における配置を推定し、配置推定結果として出力する推定部と、を有する物体配置推定装置。

Description

本発明は、物体の配置を推定する物体配置推定装置に関し、特に、複数の物体の配置を推定する物体配置推定装置に関する。
近年、多チャンネルの音場収音系および再生系を用い、臨場感に溢れた音場を提示するシステムが注目を集めている。そのようなシステムとして、2chのステレオ・システム、バイノーラル・システム、5.1chサラウンド・システムといった比較的チャンネル数の少ないシステムから、22.2マルチチャンネル音響システム、アンビソニックスの原理を発展させた技術を用いた121chマイクロフォンアレイ/157chスピーカアレイシステムといった、かなり多くのチャンネルを使用するシステムまで、様々なシステムが既に提案されている。
そのようなシステムを用いて音場を収音する場合、収音の現場においては、数十個にも及ぶマイクロフォンの配置や、マイクロフォンと録音機器との間のケーブル接続をチェックする必要がある。また、同様に、そのようなシステムを用いて音場を再生する場合、再生の現場においても、数十個にも及ぶスピーカの配置や、スピーカと再生機器との間のケーブル接続をチェックする必要がある。
そのため、多数のマイクロフォン(または、多数のスピーカ)の配置やケーブル接続を簡便にチェックすることができる装置が求められている。
特許文献1(米国特許出願公開第2010/0195444号明細書)は、複数のスピーカの配置を推定する方法を開示する。特許文献1の方法では、先ず、配置推定対象である複数のスピーカについて、あらゆるスピーカ対の距離を測定し、測定結果にもとづき、各要素がスピーカ対間の実空間での距離で構成された距離行列を導出する。そして、特許文献1の方法は、次に、そのようにして導出された距離行列に対し多次元尺度法を適用することにより複数のスピーカの実空間での配置を求めている。
米国特許出願公開第2010/0195444号明細書
ヴィカス・C・ライカー(Vikas C. Raykar)、イゴール・コジンツェフ(Igor Kozintsev)、ライナー・リーンハート(Rainer Lienhart)、ポジション・キャリブレーション・オブ・マイクロフォンズ・アンド・ラウドスピーカーズ・イン・ディストリビューテッド・コンピューティング・プラットフォームズ(Position Calibration of Microphones and Loudspeakers in Distributed Computing Platforms)、IEEE Transactions On Speech And Audio Processing、p.1−12 スタンレー・T・バーチフィールド(Stanley T. Birchfield)、アマルナグ・サブラメニア(Amarnag Subramanya)、マイクロフォン・アレイ・ポジション・キャリブレーション・バイ・ベーシスポイント・クラシカル・マルチディメンジョナル・スケーリング(Microphone Array Position Calibration by Basis-Point Classical Multidimensional Scaling)、IEEE Transactions On Speech And Audio Processing、2005年9月、13巻、5号、p.1025−1034 アレサンドロ・レドンディ(Alessandro Redondi)、マルコ・タグリアサッチ(Marco Tagliasacchi)、ファビオ・アントナッチ(Fabio Antonacci)、アウグスト・サルティ(Augusto Sarti)、ジェオメトリック・キャリブレーション・オブ・ディストリビューテッド・マイクロフォン・アレイ(Geometric calibration of distributed microphone arrays)、MMSP '09, October 5-7, Rio de Janeiro, Brazil、IEEE、2009年 小林和則(Kazunori KOBAYASHI)、古家賢一(Ken'ichi FURUYA)、片岡章俊(Akitoshi KATAOKA)、位置が未知である複数のマイクロホンを用いたブラインド音源位置推定(A Blind Source Localization by Using Freely Positioned Microphones)、Institute of Electronics, Information, and Communication Engineers、電子情報通信学会論文誌A、2003年6月、J86−A巻、6号、p.619−627
しかしながら、従来技術では、あらゆる配置推定対象物の対(たとえば、特許文献1における複数のスピーカのあらゆるペア)について実空間における距離を測定し、測定結果にもとづいて、各要素が実空間におけるスピーカ対間の距離である距離行列を導出する。そして、そのようにして導出された距離行列を、配置推定対象物の(非)類似度行列とみなして多次元尺度法を適用し、複数のスピーカの実空間での配置を求めている。そのため、配置推定対象物の数が増大するにつれ測定すべき距離の数が膨大な数となり、簡便に配置推定を行うことが困難である。また、測定誤差に起因した推定誤差が生じる可能性も配置推定対象物の数の増大とともに高まる。さらにまた、非特許文献1が取り扱うケースのように配置推定対象物間の距離を正確に測定することが困難な場合もあって、従来の方法では、簡便かつ精度よく対象物の配置を推定することが困難であった。
本発明の各実施形態は、上記の問題点を鑑みてなされるものであり、従来よりも簡便にかつ精度よく、複数の物体の実空間における配置を推定することができる装置を提供することを目的とするものである。
本発明の第1の態様は、M個(Mは、2以上の整数)の対象物の実空間における配置を推定する物体配置推定装置であって、M個の対象物それぞれについて、実空間内のN個(Nは、3以上の整数)の参照点それぞれに対する近さを表すN個の尺度における対象物についての測度を成分に含む特徴ベクトルを生成する特徴ベクトル生成部と、M個の対象物に含まれるあらゆる2個の対象物の組み合わせについて、当該2個の対象物の特徴ベクトル間のノルムを求め、求めたノルムを要素とするM行M列の非類似度行列を導出する非類似度行列導出部と、非類似度行列に基づいてM個の対象物の実空間における配置を推定し、配置推定結果として出力する推定部と、を有する物体配置推定装置である。
本発明の第2の態様は、対象物の実空間における配置を推定する物体配置推定装置において、M個(Mは、2以上の整数)の対象物の実空間における配置を推定する物体配置推定方法であって、M個の対象物それぞれについて、実空間内のN個(Nは、3以上の整数)の参照点それぞれに対する近さを表すN個の尺度における対象物についての測度を成分に含む特徴ベクトルを生成する特徴ベクトル生成ステップと、M個の対象物に含まれるあらゆる2個の対象物の組み合わせについて、当該2個の対象物の特徴ベクトル間のノルムを求め、求めたノルムを要素とするM行M列の非類似度行列を導出する非類似度行列導出ステップと、非類似度行列に基づいてM個の対象物の実空間における配置を推定し、配置推定結果として出力する推定ステップと、を有する物体配置推定方法である。
本発明の第3の態様は、コンピュータを、M個(Mは、2以上の整数)の対象物の実空間における配置を推定する物体配置推定装置として機能させるための物体配置推定プログラムであって、コンピュータを、M個の対象物それぞれについて、実空間内のN個(Nは、3以上の整数)の参照点それぞれに対する近さを表すN個の尺度における対象物についての測度を成分に含む特徴ベクトルを生成する特徴ベクトル生成部、M個の対象物に含まれるあらゆる2個の対象物の組み合わせについて、当該2個の対象物の特徴ベクトル間のノルムを求め、求めたノルムを要素とするM行M列の非類似度行列を導出する非類似度行列導出部、および、非類似度行列に基づいてM個の対象物の実空間における配置を推定し、配置推定結果として出力する推定部、として機能させるための物体配置推定プログラムである。
本発明の各実施形態による物体配置推定装置は、M個の対象物それぞれについて、実空間内のN個(Nは、3以上の整数)の参照点それぞれに対する近さを表すN個の尺度における対象物についての測度を成分に含む特徴ベクトルを生成し、あらゆる2個の対象物の組み合わせについて、当該2個の対象物の特徴ベクトル間のノルムを求め、求めたノルムを要素とするM行M列の非類似度行列を導出し、非類似度行列に基づいてM個の対象物の実空間における配置を推定し、配置推定結果として出力する。そうすることによって、本発明の各実施形態による物体配置推定装置は、従来よりも簡便にかつ精度よく、複数の物体の実空間における配置を推定することができる。
第1実施形態による物体配置推定装置のハードウェア構成を示すブロック図 第1実施形態による物体配置推定装置の構成を示すブロック図 マイクロフォン配置推定に用いる諸量の関係を示す模式図 物体配置推定装置がする処理の流れを示すフローチャート i番スピーカから発せられる時間引き延ばしパルス信号(TSP信号)を、複数マイクロフォンで収音した際の、各マイクロフォンにおける収音時刻の違いを示す図 第1実施形態によるマイクロフォン配置推定実験およびスピーカ配置推定実験の実験環境を示す図 第1実施形態によるマイクロフォン配置推定実験の実験結果を示す図 第1実施形態によるマイクロフォン配置推定実験の実験結果を示す図 第1実施形態によるマイクロフォン配置推定実験の実験結果を示す図 第1実施形態によるマイクロフォン配置推定における、用いたスピーカ数と推定結果精度との関係を示す図 スピーカ配置推定に用いる諸量の関係を示す模式図 第1実施形態によるスピーカ配置推定実験の実験結果を示す図 第1実施形態によるスピーカ配置推定実験の実験結果を示す図 第1実施形態によるスピーカ配置推定実験の実験結果を示す図 第2実施形態による物体配置推定装置のハードウェア構成を示すブロック図 第2実施形態による物体配置推定装置の構成を示すブロック図 第2実施形態によるマイクロフォン配置推定実験の実験環境を示す図 第2実施形態によるマイクロフォン配置推定実験の実験結果を示す図 第2実施形態によるマイクロフォン配置推定実験の実験結果を示す図 第2実施形態によるマイクロフォン配置推定実験の実験結果を示す図 第2実施形態によるマイクロフォン配置推定における、スピーカ発音回数と推定結果精度との関係を示す図 物体配置推定装置変形例1のハードウェア構成を示すブロック図 物体配置推定装置変形例1の構成を示すブロック図 室内に配置されたマイクロフォン群と、人々との関係を示す模式図 物体配置推定装置変形例1がする処理の流れを示すフローチャート 人の声が含まれる音を複数のマイクで集音したときに各マイクロフォンから出力される、マイク出力信号の周波数振幅特性の例図 物体配置推定装置変形例2における、対象物配置点候補の分布の例図 物体配置推定装置変形例2における、対象物配置点候補の分布の例図 物体配置推定装置変形例2における、対象物配置点候補の分布の例図 物体配置推定装置変形例2における、対象物配置点候補の分布の例図 物体配置推定装置変形例2における、対象物配置点候補の分布の例図
以下、本発明の実施形態について、添付の図面を参照して詳細に説明する。
1.概要
本発明の実施形態は、M個(Mは、2以上の整数)の対象物の実空間における配置を推定する物体配置推定装置である。該物体配置推定装置は、
M個の対象物それぞれについて、実空間内のN個(Nは、3以上の整数)の参照点それぞれに対する近さを表すN個の尺度における対象物についての測度を成分に含む特徴ベクトルを生成する特徴ベクトル生成部と、
M個の対象物に含まれるあらゆる2個の対象物の組み合わせについて、当該2個の対象物の特徴ベクトル間のノルムを求め、求めたノルムを要素とするM行M列の非類似度行列を導出する非類似度行列導出部と、
非類似度行列に基づいてM個の対象物の実空間における配置を推定し、配置推定結果として出力する推定部と、を有することをその特徴の1つとする。
ここで、M個の対象物とは、たとえば、M個のマイクロフォンである(Mは、上述のとおり、2以上の整数であればよい。)。
その場合、M個のマイクロフォンの配置を推定するため、N個のスピーカが空間内に配置される(Nは、上述のとおり、3以上の整数であればよい)。N個のスピーカが配置された位置が、それぞれ、上述の参照点に相当する。
物体配置推定装置は、(たとえば、マイクロフォンのインパルス応答を測定するために時間引き延ばしパルス信号(TSP信号)をスピーカに出力することにより、)スピーカから所定の音響波を出力させ、各マイクロフォンにおいてスピーカから発せられた音響波が初めて到達した時刻、たとえば、マイクロフォンからの出力において、音響波に対応する波形(たとえば、インパルス応答波形)が最初に現れた時刻(音響波到達時刻)、を特定する。つまり、この場合においては、N個の参照点それぞれに対する近さを表すN個の尺度とは、各スピーカからの音響波の到達の時刻を特定する際に用いた時間座標軸であり、対象物についての測度とは、各マイクロフォンにおける音響波到達時刻である。
そして、当該特定された音響波到達時刻に基づき、特徴ベクトル生成部が、各マイクロフォン(対象物)について、N箇所の参照点から音響波が到達した時刻を成分とするN次元のベクトル(特徴ベクトル)を生成する。ここでは各参照点において発せられた音響波がマイクロフォンに到達した時刻を、当該マイクロフォンと各参照点との実空間における近さを表す尺度(上述した時間座標軸)における測度とみなし、特徴ベクトル生成部が、各マイクロフォンについて、参照点の個数Nと同じ次元数を有するN次元の特徴ベクトルを生成する。つまり、特徴ベクトルとは、マイクロフォンの実空間における位置の特徴を、マイクロフォンとN個の参照点(スピーカ)との実空間での近さを表すN個の尺度(時間座標軸)上の測度(音響波到達時刻)で表現したもののベクトル表現である。
あるいは、物体配置推定装置は、特徴ベクトルを生成するために、人の声が含まれる周囲環境音をM個のマイクロフォンを用いて集音し、各マイクロフォンから出力される出力信号の周波数振幅特性を算出してもよい。この方法によれば、上述のようにしてN個の参照点に配置されたスピーカから所定の音響波を出力させる必要がない。人の声が含まれる周囲環境音の周波数振幅特性には、集音環境に遍在する雑音(室内における残響音や、屋外における雑踏の音など)の成分に重畳されるかたちで人の声のフォルマントが現れる。周波数振幅特性の形状はマイクロフォンの位置が発声者から離れるにつれ、雑音の影響が大きくなって元のフォルマントの周波数振幅特性の形状から遠ざかる。したがって、各マイクロフォンの出力信号の周波数振幅特性の形状を比較することで、複数マイクロフォンの発声者に対する相対的な近さを知ることができる。例えば2つのマイクロフォンの出力信号の周波数振幅特性の差の周波数軸上での積分値を、該発声者に対する近さを規定する尺度上での当該2つのマイクロフォンの測度の差(該発声者についての非類似度)とすることができる。なぜなら、2つのマイクロフォンの位置が異なろうとも、各出力信号の周波数振幅特性に現れる雑音由来の振幅成分は殆ど差がない。したがって、周波数振幅特性の差をとることで雑音由来の振幅成分をキャンセルすることができる。よって、周波数振幅特性の差は、発声者に対する近さの差異に関する情報を含んでいる。なお、当然のことながら、物体配置推定装置は、このようにして求めた任意の2つのマイクロフォンの周波数振幅特性の差から、該発声者に対する近さを規定する尺度上での各マイクロフォンの測度(特徴ベクトルの該発声者に関する成分)を求めることも可能である。
あるいは、例えば、発声者とマイクロフォンとの間の距離が2倍になると、周波数振幅特性に表れるフォルマントの振幅は、およそ6デシベル低減することが知られている。この関係に基づき、物体配置推定装置の特徴ベクトル生成部は、各マイクロフォンの出力信号の周波数振幅特性中から発声者のフォルマント成分を特定し、特定されたフォルマントの振幅の大きさを尺度として、各マイクロフォンについての発声者の位置(参照点に相当する)に対する近さの測度を導出し、特徴ベクトルの成分を決定してもよい。上述したように、参照点の数は、3点以上必要である。したがって、物体配置推定装置は、相異なるN(Nは、3以上)箇所以上の位置において発声者が発した声を、M個のマイクロフォンを用いて集音し、N次元の特徴ベクトルを生成する。
そして、非類似度行列導出部が、M個のマイクロフォンのあらゆるペアについて、特徴ベクトル間のノルムを求め、求めたノルムを要素とする、M行M列の行列(非類似度行列)を導出する。
そして、最後に、推定部が、非類似度行列に基づいてM個のマイクロフォンの実空間における配置を推定し、配置推定結果として出力する。推定部は、たとえば、非類似度行列に対し多次元尺度法(MDS: MultiDimensional Scaling)を適用してM個のマイクロフォンの布置を求め、求めた布置からM個のマイクロフォンの実空間における配置を推定し出力する。
あるいは、物体配置推定装置の推定部は、非類似度行列に対しMDS法を適用してM個のマイクロフォンの布置を求める代わりに、数値的に、全探索または局所探索の手法で布置の近似解を求め、求めた布置近似解からM個のマイクロフォンの実空間における配置を推定し出力してもよい。この場合、推定部は、M個のマイクロフォンの布置の近似解候補について、各要素がマイクロフォン間の距離である距離行列を導出し、導出された距離行列と非類似度行列とを比較することにより、近似解候補の適合度を評価し、評価を行った近似解候補のうちで最も高い適合度を示した近似解候補を布置近似解とすればよい。
本発明の実施形態による物体配置推定装置においては、M個の対象物の配置推定をするうえで、上述のN個の参照点の位置は任意のN点でよく、かつ、当該参照点の実空間における位置に関する情報(たとえば、参照点の実空間における座標値)も不要である。したがって、本発明の実施形態による物体配置推定装置は、配置推定の対象物のペアの間の距離を測定することなしに、M個の対象物の配置を推定することができる。そのため、極めて簡便にM個の対象物の配置を推定することが可能となっている。さらに、本発明の実施形態による物体配置推定では、対象物の実空間における位置の特徴を、先ず、参照点の個数N(たとえば、スピーカの数)に等しいN次元のベクトル量(特徴ベクトル)として規定し、そのようにして生成されたN次元の特徴ベクトルより対象物の実空間における位置の(非)類似度を導出する。そのため、本発明の実施形態による物体配置推定では、参照点の個数(N)の増大に従って、M個の対象物の配置推定精度が向上される。
なお、本発明の実施形態による物体配置推定装置においては、M個の配置推定対象物に相当するM個のマイクロフォンについてN次元の特徴ベクトルを生成するためにN個の参照点に相当する位置においてスピーカから所定の音響波を出力させる必要があるが、このことは、必ずしも、N個のスピーカユニットを準備する必要があることを意味しない。本発明の実施形態による物体配置推定装置においては、N個よりも少ないスピーカユニット(たとえば、1個のスピーカユニット)を用いて、N箇所の位置において、所定の音響波を出力させてもよい。
また、マイクロフォンに代えて、M個の対象物を、たとえば、M個のスピーカとすることもできる(Mは、上述のとおり、2以上の整数であればよい。)。この場合には、N個のマイクロフォンを配置し、各マイクロフォンが配置された位置を上述の参照点とみなして各スピーカについて特徴ベクトルを生成し、M個の特徴ベクトルからM個のスピーカについての実空間内位置の非類似度行列を導出し、非類似度行列からスピーカの実空間における配置を推定すればよい。
以下の本発明の実施形態による物体配置推定装置に関する説明により、当業者であれば、対象物の実空間における配置を推定する物体配置推定装置において、M個(Mは、2以上の整数)の対象物の実空間における配置を推定する方法についてもよく知ることができる。
また、以下の説明により、当業者であれば、コンピュータをM個(Mは、2以上の整数)の対象物の実空間における配置を推定する物体配置推定装置として機能させるためのコンピュータ・プログラムの構成についてもよく知ることができる。
2.第1実施形態
2−1.構成
図1は、第1実施形態による物体配置推定装置の構成を示すブロック図である。第1実施形態による物体配置推定装置は、プログラムを実行することにより所定のデータ処理を行うことができる中央処理装置(CPU)11と、プログラムを記憶するリード・オンリー・メモリー(ROM)12と、各種データを記憶するランダム・アクセス・メモリ(RAM)13と、補助記憶装置であるハード・ディスク・ドライブ(HDD)21と、出力装置であるディスプレイ31、入力装置であるキーボード32およびマウス33と、時間を計測する計時部41と、外部の音響機器(スピーカやマイクロフォン)との入出力インタフェースである、オーディオ出力部51およびオーディオ入力部52を備えたオーディオインタフェース部50と、を有する。オーディオインタフェース部50には、N個の外部スピーカ(SP,SP,・・・,SP)からなるスピーカアレイSPaと、M個の外部マイクロフォン(MC,MC,・・・,MC)からなるマイクロフォンアレイMCaと、が接続されている。
CPU11と、ROM12と、RAM13は、コンピュータ主要部10を構成する。
ディスプレイ31と、キーボード32と、マウス33は、ユーザインタフェース部30を構成する。なお、ユーザインタフェース部30は、タッチパネル機能付きディスプレイパネル等により構成されてもよい。
図2は、第1実施形態による物体配置推定装置100のコンピュータ主要部10が実現する機能ブロックが明示されたブロック図である。コンピュータ主要部10のCPU11は、ROM12に記憶された物体配置推定プログラムを読み出して実行することにより、制御部1、インパルス生成部(TSP生成部)2、応答検出部3、特徴ベクトル生成部4、非類似度行列導出部5、布置導出部(MDS部)6、および、配置推定結果出力部7として動作することができる。布置導出部(MDS部)6および配置推定結果出力部7は、推定部8を構成する。
なお、物体配置推定プログラムは、必ずしもROM12に格納される必要はない。物体配置推定プログラムは、HDD21(図1)に格納され、CPU11によって適宜読み出されて実行されてもよい。また、物体配置推定プログラムは、図示しないネットワークを介し、図示しない外部の記憶装置から適宜ダウンロードされ、CPU11によって実行されてもよい。あるいは、物体配置推定プログラムは、図示しないフレキシブル・ディスク、光ディスク、フラッシュメモリ等の可搬性記憶媒体に格納されてもよい。その場合、可搬性記憶媒体に格納されたプログラムは、CPU11によって同媒体から読み出されて実行されてよい。あるいは、実行に先立ち、一端、HDD21等にインストールされてもよい。
制御部1は、CPU11が物体配置推定プログラムを実行することにより実現される。制御部1は、物体配置推定にかかる動作の進捗状況を監視し、装置100全体を制御する。
インパルス生成部(TSP生成部)2は、CPU11が物体配置推定プログラムを実行することにより実現される。インパルス生成部(TSP生成部)2は、オーディオ出力部51に接続されたスピーカアレイSPaの1つまたは複数のスピーカに対し選択的に、所定の音響波を出力させるための信号を生成し出力する。当該信号は、たとえば、パルス形状の波形(時間引き延ばしパルス波形(TSP波形))を有する信号(TSP信号)である。
応答検出部3は、CPU11が物体配置推定プログラムを実行することにより実現される。応答検出部3は、オーディオ入力部52に接続されたマイクアレイMCaのM個のマイクロフォンからのM個の入力それぞれについて、上述の所定の音響波(たとえば、TSP信号に応じてスピーカから出力される音響TSP波)に対する応答波形を検出し(音響TSP波に対するインパルス応答波形を検出し)、計時部41を参照してM個のマイクロフォンそれぞれにおいて応答波形が検出された時刻(音響波到達時刻)を特定する。
特徴ベクトル生成部4は、CPU11が物体配置推定プログラムを実行することにより実現される。特徴ベクトル生成部4は、応答検出部3が特定した音響波到達時刻を入力し、M個のマイクロフォン(対象物)それぞれについて、N次元の特徴ベクトルを生成する。
非類似度行列導出部5は、CPU11が物体配置推定プログラムを実行することにより実現される。非類似度行列導出部5は、M個のマイクロフォンのうちのあらゆる2個の対象物(マイクロフォン)の組み合わせについて、当該2個のマイクロフォンの特徴ベクトル間のノルムを求める。そして、非類似度行列導出部5は、求めたノルムを要素とするM行M列の非類似度行列を導出する。
布置導出部(MDS部)6は、CPU11が物体配置推定プログラムを実行することにより実現される。布置導出部(MDS部)6は、非類似度行列に基づいてM個のマイクロフォンの実空間における布置を導出する。布置導出部(MDS部)6は、たとえば、非類似度行列に対し多次元尺度法(MDS:MultiDimensional Scaling)を適用することにより、M個のマイクロフォンの布置を導出する。
配置推定結果出力部7は、CPU11が物体配置推定プログラムを実行することにより実現される。配置推定結果出力部7は、布置導出部6が導出した布置に対し、拡大・縮小、回転等の線形変換操作を行い、M個のマイクロフォンの実空間における配置を推定し、配置推定結果として出力する。布置導出部(MDS部)6および配置推定結果出力部7は、本実施形態による物体配置推定装置の推定部8を構成する。
なお、制御部1、インパルス生成部(TSP生成部)2、応答検出部3、特徴ベクトル生成部4、非類似度行列導出部5、布置導出部(MDS部)6、配置推定結果出力部7の少なくともいずれか1つは、専用のハードウェア回路によって実現されてもよい。
2−2.マイクロフォン配置推定における動作
これより、図3、図4、図5を参照し、本実施形態による物体配置推定装置がするマイクロフォン配置推定について説明する。
図3は、配置推定の対象物としてのM個のマイクロフォン、参照点に相当する位置に配置されたN個のスピーカ、および、諸量の関係を示す模式図である。本図では、簡単のため、2個のマイクロフォン(MC、MC)と、4個のスピーカ(SP、SP、SP、SP)のみを示している。ここで、pijは、i番スピーカSPにおいて発せられた音響波(TSP波)が、j番マイク(MC)に到達した時刻(音響波到達時刻)を示す。dMC12は、1番マイクMCにおけるN個の音響波到達時刻pi1(i:1〜N)を成分とする1番マイクMCのN次元特徴ベクトルpMC1と、2番マイクMCにおけるN個の音響波到達時刻pi2(i:1〜N)を成分とする2番マイクMCのN次元特徴ベクトルpMC2との間のノルムを示す。ここでのノルムは、たとえば、ユークリッドノルムである。
図4は、物体配置推定装置がするマイクロフォン配置推定のための処理のフローチャートである。
物体配置推定装置の制御部1(CPU11)は、初期設定動作として、変数iを1に設定し、変数iをRAM13に格納する(S1)。
次に、インパルス生成部2(CPU11)は、RAM13に格納された、変数iの値、および、TSP波形を読み出し、オーディオ出力部51を介して接続されたi番スピーカSPに、TSP波形を有する音響波信号を出力する(S2)。これにより、i番スピーカSPからは、音響TSP波が出力される。
図5は、i番スピーカSPから発せられた音響波TSPが、各マイクロフォン(MC、MC、・・・、MC、・・・、MCM−1、MC)において収音される様子を示したチャートである。i番スピーカSPの横のタイムチャートは、i番スピーカSPから出力される音響TSP波を示し、各マイクロフォン(MC、MC、・・・、MC、・・・、MCM−1、MC)の横のタイムチャートは、それぞれから出力される信号を示している。
上述のステップS2において、i番スピーカSPに音響波信号が入力されると、同スピーカからは、所定の音響波TSPが空中へ出力される。該音響波は、音速で空中を伝播し、各マイクロフォン(MC、MC、・・・、MC、・・・、MCM−1、MC)において収音される。たとえば、1番マイクロフォンMCからの出力には、時間座標T上の時刻pi1近傍において、音響波に対する応答波形Ri1が現れる。また、j番マイクロフォンMCからの出力には、時刻pij近傍において、音響波に対する応答波形Rijが現れる。各マイクロフォン(MC、MC、・・・、MC、・・・、MCM−1、MC)からの出力は、RAM13に格納される。
図4に戻り、応答検出部3(CPU11)は、各マイクロフォン(MC、MC、・・・、MC、・・・、MCM−1、MC)の出力を、オーディオ入力部52を介して受け取り、または、RAM13から読み出し、各出力において応答波形のピークが現れた時刻を、マイクMC(j:1〜M)についての時間座標軸T上の音響波到達時刻pijとして特定する(S3)。なお、音響波到達時刻は、応答波形の他の特徴(立ち上がりのタイミングや、所定の音圧レベルを超えたタイミング等)に基づいて決定されてもよい。特定された音響波到達時刻は、RAM13に格納される。
次に、制御部1(CPU11)は、変数iの値がN以上であるか否かについて判断し、iの値がN未満であれば、ステップS5を介してステップS2へ処理を戻す。他方、iの値がN以上であれば、処理をステップS6に進める。
ステップS5においては、変数iの値を1だけ進め(i→i+1)、新たな変数iの値をRAM13に記憶する。従って、その次に実行されるステップS2においては、先のステップS2において音響波が発せられたスピーカの次の番号のスピーカSP(i+1)から音響TSP波が発せられ、各マイクロフォン(MC、MC、・・・、MC、・・・、MCM−1、MC)において収音され、応答波形として出力される。そして、ステップS3において応答検出部3が、当該スピーカから発せられた音響TSP波についての各マイクMC(j:1〜M)における音響波到達時刻pi+1,jを時間座標軸Ti+1を用いて特定する。ここで、i番スピーカSPからの音響波の到達時刻の特定に用いられた尺度である時間座標軸Tと、(i+1)番スピーカSPi+1からの音響波の到達時刻の特定に用いられた尺度である時間座標軸Ti+1とは、同一であってもよいし、互いに異なってもよい。
このようにして、物体配置推定装置は、ステップS2〜ステップS5の処理をN回繰り返すことによって、各スピーカ(SP、SP、・・・、SPN−1、SP)から発せられた音響波が、各マイクロフォン(MC、MC、・・・、MC、・・・、MCM−1、MC)に到達した時刻pij(i:1〜N、j:1〜M)を任意の時間座標軸上で特定する。ここで、注記すべきは、また、本発明の実施形態においては、応答検出部3は、各マイクロフォン(MC、MC、・・・、MC、・・・、MCM−1、MC)に音響波が到達した、任意の時間座標軸上での時刻を特定しさえすればよく、実際に音響波が各スピーカ(SP、SP、・・・、SPN−1、SP)から各マイクロフォン(MC、MC、・・・、MC、・・・、MCM−1、MC)に到達するのに要した時間幅を求める必要は無い点である。よって、本発明の実施形態による物体配置推定装置では、各スピーカ(SP、SP、・・・、SPN−1、SP)から音響波が発せられた時刻を特定する必要はない。したがって、本物体配置推定装置では、各スピーカ(SP、SP、・・・、SPN−1、SP)から音響波が発せられた時刻の特定にかかる誤差に起因して物体配置推定結果に誤差が生じることがない。
次に、特徴ベクトル生成部4(CPU11)は、応答検出部3が特定した音響波到達時刻(pij(i:1〜N、j:1〜M))を入力し、M個のマイクロフォンMC(j:1〜M)それぞれについて、N次元の特徴ベクトルpMCjを生成する(S6)。生成された特徴ベクトルpMCjは、RAM13に格納される。
N次元の特徴ベクトルpMCjは、j番マイクロフォンMCの実空間における位置の特徴を、N個のスピーカSP(i:1〜N)それぞれへの近さを表すN次元の尺度で表したものである。具体的には、特徴ベクトルpMCjは、
Figure 0005345748

である。つまり、i番スピーカSP(i:1〜N)に対する近さを表す尺度とは、ここでは、i番スピーカSPから各マイクロフォンMC(j:1〜M)へ音響波が到達した時刻を特定する際に応答検出部3が用いた時間座標軸T(図5)であり、各尺度におけるj番マイクMCについての測度とは、応答検出部3が音響波到達時刻の特定に用いた時間座標軸T上での音響波到達時刻pijである(図5)。
なお、N次元特徴ベクトルの構成に用いるN個の尺度は、時間座標軸でなくともよい。たとえば、尺度は、実空間の距離であってもよい。また、たとえば、尺度は、各マイクロフォンにおいて検出された応答波形のピークレベルでもよい。また、たとえば、尺度は、各マイクロフォンにおいて検出された応答波形の形状の特徴を表す量でもよい。また、たとえば、尺度は、各マイクロフォンにおいて検出された非直接音(残響成分)の特徴を表す量でもよい。
次に、非類似度行列導出部5(CPU11)は、特徴ベクトル生成部4が生成し、RAM13に格納されたM個のマイクロフォンについてのN次元の特徴ベクトルpMCjにもとづいて、非類似度行列Dを生成する(S7)。生成された非類似度行列Dは、RAM13に格納される。
非類似度行列Dは、配置推定の対象物であるM個のマイクロフォンMC(j:1〜M)のあらゆる2個の組み合わせ(たとえば、マイクMCとマイクMC)についてその特徴ベクトル(pMCkとpMCl)のノルムdMCklを要素とするM行M列の行列である。
つまり、各要素dMCklは、
Figure 0005345748
である。よって、非類似度行列
Figure 0005345748
は、N次元の特徴ベクトルPMCj(j:1〜M)にもとづいて2つのマイクロフォンの実空間における位置の非類似度を定めたときに得られる、M個のマイクロフォンの実空間における位置の非類似度を示す行列である。
次に、布置導出部(MDS部)6(CPU11)は、非類似度行列Dに対し多次元尺度法(MDS:MultiDimensional Scaling)を適用することにより、M個のマイクロフォンの布置を導出する。導出された布置は、RAM13に格納される。
布置導出部(MDS部)6は、先ず、dMCkl を要素とするM×M行列D(2)
Figure 0005345748
を求める。
次に、布置導出部(MDS部)6は、クロネッカーのデルタδklを用いて以下、
Figure 0005345748
のように表されるhklを要素とするM×Mの中心化行列H
Figure 0005345748
を用いて、次式で表されるM×M行列Bを求める。
Figure 0005345748
そして、最後に、布置導出部(MDS部)6は、次の、Bについての固有値問題
Figure 0005345748
を解いて、M個のマイクロフォンの第r次元の軸に関する布置
Figure 0005345748
を求め、このうち、第r次元の軸(r=1,2,3)に関するベクトルx(r:1,2,3)に関する布置を用いて、M行3列の布置行列X
Figure 0005345748
を導出する。これにより、M個のマイクロフォンMC(j:1〜M)の実空間(三次元空間)における布置が得られる。
布置導出部(MDS部)6が導出した布置行列Xは、実際のM個のマイクロフォンの配置に対し、線形変換(拡大・縮小、回転、反転(鏡像化)等)が加わったものになっていることがある。そこで、配置推定結果出力部7は、布置導出部(MDS部)6が導出した布置行列XをRAM13から読み出してこれに適当な線形変換を行い、実際のM個のマイクロフォンの配置を決定する。決定された配置は、RAM13に格納される。
M個のマイクロフォンの実空間における配置の座標について、その分散が分かっている場合、配置推定結果出力部7は、布置行列Xの各座標軸についての布置行列Xの布置の分散を求め、布置行列Xの3つの座標軸のいずれかの布置の分散が、上述の分かっている分散と一致するように布置行列の3つの座標軸の値を拡大・縮小させる。
あるいは、M個のマイクロフォンの実空間における配置に関し、たとえば、ある座標軸について、もっとも遠い位置にある2つのマイクロフォンの距離が分かっている場合には、配置推定結果出力部7は、布置行列Xのある座標軸についての布置の値が最も隔たっている2つのマイクロフォンの布置を、上述の分かっている距離と一致するように布置行列の3つの座標軸の値を拡大・縮小させる。
このように、配置推定結果出力部7は、配置推定対象物の実空間における位置について分かっている情報(たとえば、M個の対象物の任意の3つの実空間における位置に関する情報)にもとづいて、布置行列Xに対して線形変換を行い、配置推定対象物の実空間における配置を推定し出力することができる。なお、布置行列Xの示す布置と、実空間における座標とが鏡像の関係にあることがある。その場合、配置推定結果出力部7は、布置行列Xのいずれか1つの座標軸について値の正負を反転させて、布置行列Xの布置を実空間における座標と一致させればよい。
2−3.マイクロフォン配置推定実験の結果
以下、本実施形態による物体配置推定装置による複数のマイクロフォンの配置推定実験の結果を示す。
本実験は、図6に示すように、80チャンネルのマイクロフォンアレイMCaを、96チャンネルのスピーカアレイ(SPa1、SPa2、SPa3、SPa4)が配置された音場再生環境に配置して行った。マイクロフォンアレイMCaは、C80フラーレンの構造を有する直径約46センチメートルのフレーム構造における結節点に、それぞれ1個の無指向性マイクロフォン(DPA 4060−BM)を配置してなる。96チャンネルスピーカシステムにより構成される音場再生環境は、直方体のエンクロージャに組み込まれたスピーカ(フォステクス FE103En)を、正九角形の水平断面をもつ室の壁に90個、天井に6個取り付けてなる。
このような実験環境において、本実施形態による物体配置推定装置を用いた80個のマイクロフォンの配置推定の実験を行った。なお、本実験では、音響波の出力および検出にかかる条件を、TSP長8192[pnt]、TSP応答長32768[pnt]、サンプリング周波数48000[Hz]、量子化ビットレート16[bit]とした。
図7A、図7B、図7Cに実験の結果を示す。それぞれは、順に、結果を、真上、真正面、真横(真正面から水平方向に90度回転した方向)から見た図である。各図においては、実際のマイクロフォンの位置が、×印で示され、配置推定結果が、○印で示される。
また、各マイクロフォンについて、実際の位置と推定結果の位置とのずれを求め、その平均値を誤差評価値[mm]として求めた。本実験では、誤差評価値は、4.8746[mm]であった。本実験結果より、本実施形態による物体配置推定装置は、マイクロフォンの配置や、ケーブル接続の正否を判定するうえで十分な精度で推定結果を出力できることがわかった。
2−4.マイクロフォン配置推定におけるスピーカ数と推定誤差との関係
以下、本実施形態による物体配置推定の方法において用いるスピーカの数(インパルス応答波形(TSP波形))を出力させる位置の数と、物体配置推定の結果の精度との関係について説明する。
スピーカの数と、物体配置推定の精度との関係を調べるため、スピーカ数を変えて複数回の実験を行った。図8は、その結果を、横軸をスピーカの数、縦軸を各推定結果に関する上述の誤差評価値としてプロットしたグラフである。図8より、本実施形態においては、物体配置推定に用いるスピーカの数(上述の参照点の数)を増大させることにより、物体配置推定の精度は、単調に向上することがわかった。特に、スピーカ数が10を超えるまでは、物体配置推定の精度は、著しく向上することがわかる。このことから、本実施形態による物体配置推定では、スピーカの数(上述の参照点の数)を10個程度以上とすることで、良好な精度で配置推定結果を得られることがわかった。
2−5.スピーカ配置推定における動作
既に述べたように、本実施の形態による物体配置推定装置は、N個の参照点に相当する位置に配されたN個のマイクロフォンを用いて、M個のスピーカの配置を推定することも可能である。以下では、図9、図10A、図10B、図10Cを参照し、スピーカの配置推定の原理と、その実験結果について示す。
図9は、配置推定の対象物としてのM個のスピーカ、参照点に相当する位置に配置されたN個のマイクロフォン、および、諸量の関係を示す模式図である。本図では、簡単のため、2個のマイクロフォン(MC、MC)と、4個のスピーカ(SP、SP、SP、SP)のみを示している。ここで、pijは、i番スピーカSPにおいて発せられた音響波(TSP波)が、j番マイク(MC)に到達した時刻(音響波到達時刻)を示す。dSP12は、1番スピーカSPから発せられた音響波がN個のマイクロフォンMC(j:1〜N)それぞれに到達した時刻(音響波到達時刻)p1j(j:1〜N)を成分とする1番スピーカSPのN次元特徴ベクトルpSP1と、2番スピーカSPから発せられた音響波がN個のマイクロフォンMC(j:1〜N)それぞれに到達した時刻(音響波到達時刻)p2j(j:1〜N)を成分とする2番スピーカSPのN次元特徴ベクトルpSP2との間のノルムを示す。同様に、dSP23、および、dSP34はそれぞれ、2番スピーカSPのN次元特徴ベクトルpSP2と、3番スピーカSPのN次元特徴ベクトルpSP3との間のノルム、および、3番スピーカSPのN次元特徴ベクトルpSP3と、4番スピーカSPのN次元特徴ベクトルpSP4との間のノルムを示す。
スピーカ配置推定においては、特徴ベクトル生成部4は、配置推定対象物であるM個のスピーカSP(i:1〜M)について、マイクロフォンMC(j:1〜N)が配置された位置を上述の参照点とみなして各スピーカSP(i:1〜M)について特徴ベクトルpSPi(i:1〜M)を生成し、M個の特徴ベクトルからM個のスピーカについての実空間内位置の非類似度行列を導出し、非類似度行列からスピーカの実空間における配置を推定する。
よってこの場合、N次元の特徴ベクトルpSPiは、i番スピーカSPの実空間における位置の特徴を、N個のマイクMC(i:1〜N)それぞれへの近さを表すN次元の尺度で表したものである。具体的には、特徴ベクトルpSPiは、
Figure 0005345748
である。
次に、非類似度行列導出部5は、M個のスピーカのうちのあらゆる2個の対象物の組み合わせについて、当該2個のスピーカの特徴ベクトル間のノルムを求める。そして、非類似度行列導出部5は、求めたノルムを要素とするM行M列の非類似度行列を導出する。
具体的には、非類似度行列導出部5(CPU11)は、N次元の特徴ベクトルpSPiにもとづいて、非類似度行列Dを生成する。
したがって、非類似度行列Dの各要素dMCklは、
Figure 0005345748
となる。よって、非類似度行列
Figure 0005345748
は、N次元の特徴ベクトルPSPi(i:1〜M)にもとづいて2つのスピーカの実空間における位置の非類似度を定めたときに得られる、M個のスピーカの実空間における位置の非類似度を示す行列である。
そして、布置導出部(MDS部)6(CPU11)が、非類似度行列Dに対し多次元尺度法(MDS:MultiDimensional Scaling)を適用することにより、M個のスピーカの布置を導出する。
さらに、配置推定結果出力部7が、布置導出部(MDS部)6が導出した布置行列Xに適当な線形変換を行い、実際のM個のスピーカの配置を決定する。
2−6.スピーカ配置推定実験の結果
以下、本実施形態による物体配置推定装置による複数のスピーカの配置推定実験の結果を示す。なお、実験環境は、先のマイクロフォン配置推定実験と同じであるため説明を省略する。
図10A、図10B、図10Cに実験の結果を示す。それぞれは、順に、結果を、真上、真正面、真横(真正面から水平方向に90度回転した方向)から見た図である。各図においては、実際のスピーカの位置が、×印で示され、配置推定結果が、○印で示される。
また、各スピーカについて、実際の位置と推定結果の位置とのずれを求め、その平均値を誤差評価値[mm]として求めた。本実験では、誤差評価値は、23.5486[mm]であった。この値は、同一実験環境で行ったマイクロフォン配置推定実験での誤差評価値4.8746[mm]と比較すると、誤差が大きくなっている。しかしながら、スピーカユニットの大きさ(たとえば、ダイヤフラムの大きさ)や、スピーカユニットの配置間隔、スピーカアレイの大きさ等を考慮すれば、本実験結果より、スピーカ配置推定は、スピーカの配置や、ケーブル接続の正否を判定するうえで十分な精度を有するといえる。
3.第2実施形態
3−1.構成
本発明の第2実施形態は、第1実施形態との比較において可搬性が向上され、様々な収音現場においてマイクロフォンアレイの配置やケーブル接続を簡便かつ正確にチェックすることができる、物体配置推定装置である。
図11および図12は、第2実施形態による物体配置推定装置の構成を示すブロック図である。第2実施形態による物体配置推定装置は、第1実施形態による物体配置推定装置と同等の構成を有するが、オーディオ出力部251を備えたオーディオインタフェース部250に、1個の外部スピーカSP(SP)が接続される点において、第1実施形態による物体配置推定装置と異なる。ここで、スピーカSPは、たとえば、可搬性に優れた小型のスピーカ(たとえば、オーディオテクニカ AT−SPG50)である。
3−2.マイクロフォン配置推定の動作
本実施形態では、1個のスピーカSPを用いて所定の音響波を出力させ、音響波を出力させた後でスピーカSPを移動させることにより、複数の位置において所定の音響波を出力させ、各音響波について、M個のマイクロフォンMC(j:1〜M)それぞれにおける応答波形を検出し、音響波到達時刻を測定する。このようにして、本実施形態においては、N個の位置においてスピーカSPから音響波を出力させることにより、第1実施形態と同様に、各マイクロフォンMC(j:1〜M)についてN個の参照点に対する近さを表す尺度を用いたN次元の特徴ベクトルを生成する。ただし、本実施形態におけるスピーカの数は、1個に限定されず、複数個でもよい。
本実施形態による物体配置推定装置は、1個のスピーカSPからの所定の音響波の到達時刻を各マイクロフォンMC(j:1〜M)において計測し、都合、N個の位置からの所定の音響波の到達時刻を各マイクロフォンMC(j:1〜M)において計測する。ここでのN個の位置が、上述の参照点に相当する。そして、特徴ベクトル生成部4は、第1実施形態と同様にして、各マイクロフォンMC(j:1〜M)について特徴ベクトルpMCj(j:1〜M)を生成する。
非類似度行列導出部5は、第1実施形態と同様にして、生成された特徴ベクトルpMCj(j:1〜M)から非類似度行列Dを導出し、推定部8(布置導出部6および配置推定結果出力部7)が、非類似度行列Dから、M個のマイクロフォンの実空間における配置を推定し、出力する。
このように、第2実施形態による物体配置推定装置は、第1実施形態による物体配置推定装置に比較して、大規模なスピーカアレイSPaを用いない点で、可搬性に優れ、また、様々な収音現場において、マイクロフォンの配置推定を行うことができる点で有利である。
3−3.マイクロフォン配置推定実験の結果
以下、本実施形態による物体配置推定装置による複数のマイクロフォンの配置推定実験の結果を示す。
本実験は、図13に示すように、80チャンネルのマイクロフォンアレイMCaを、東京カテドラル聖マリア大聖堂の祭壇下付近に配置し、(図示しない)スピーカSP(オーディオテクニカ AT−SPG50)を手で持って様々な位置に移動させながら音響波を出力させて行った。なお、本実験では、音響波の出力および検出にかかる条件を、TSP長8192[pnt]、TSP応答長105600[pnt]、サンプリング周波数48000[Hz]、量子化ビットレート16[bit]とした。
図14A、図14B、図14Cに実験の結果を示す。それぞれは、順に、結果を、真上、真正面、真横(真正面から水平方向に90度回転した方向)から見た図である。各図においては、実際のマイクロフォンの位置が、×印で示され、配置推定結果が、○印で示される。
また、各マイクロフォンについて、実際の位置と推定結果の位置とのずれを求め、その平均値を誤差評価値[mm]として求めた。本実験では、誤差評価値は、複数回の実験の平均値として、13.5148[mm]であった。本実験結果より、本実施形態による物体配置推定装置も、マイクロフォンの配置や、ケーブル接続の正否を判定するうえで十分な精度で推定結果を出力できることがわかった。
3−4.マイクロフォン配置推定におけるスピーカ発音回数と推定誤差との関係
以下、本実施形態による物体配置推定の方法における、音響波(インパルス応答波形(TSP波形))の出力回数(即ち、音響波を出力させる位置(上述の参照点)の数)と、物体配置推定の結果の精度との関係について説明する。
スピーカから音響波を出力させた回数と、物体配置推定の精度との関係を調べるため、出力回数を変えて複数回の実験を行った。なお、音響波を出力させる位置は、出力毎に異なる。つまり、スピーカからの出力回数は、上述の参照点の個数と対応する。図15は、その結果を、横軸を音響波出力回数、縦軸を各推定結果に関する上述の誤差評価値としてプロットしたグラフである。図15より、本実施形態においても、物体配置推定に用いる音響波を出力させる回数(上述の参照点の数)を増大させることにより、物体配置推定の精度は、単調に向上することがわかった。特に、スピーカ数が10を超えるまでは、物体配置推定の精度は、著しく向上することがわかる。このことから、実際にコンテンツを作成する際の収音現場においても、本実施形態による物体配置推定によれば、音響波出力回数(即ち、上述の参照点の数)を10個程度以上とすることで、良好な精度で配置推定結果を得られることがわかった。
4.物体配置推定装置の変形例
以下に、実施の形態1および2にかかる物体配置推定装置の変形例について説明する。変形例1は、特徴ベクトルの生成手法の別例に関する。変形例2は、非類似度行列から対象物の布置を推定する手法の別例に関する。変形例1および変形例2は、実施の形態1および2の両方の物体配置推定装置に、個別におよび同時に適用可能な変形である。
4−1.変形例1(特徴ベクトル生成手法別例)
ここで、特徴ベクトルの生成手法の別例について説明する。これまでに述べた実施形態においては、特徴ベクトルは、参照点に位置するスピーカから発せられた音響波がマイクロフォンに到達した時刻(音響波到達時刻)にもとづいて、生成される。これに対し、本手法では、特徴ベクトルは、マイクロフォンから出力される出力信号の周波数振幅特性に基づいて決定される。
図16は、物体配置推定装置変形例の構成を示すブロック図である。なお、図1等に示された構成要素と同じ構成要素については、同じ参照数字を付し、説明を省略する。
物体配置推定装置変形例は、図1に示した物体配置推定装置から、計時部41と、オーディオ出力部51とを省略した構成を有する。本装置には、外部スピーカ(SP1,SP2,・・・,SPN)からなるスピーカアレイSPaは接続されなくてよい。
図17は、物体配置推定装置300のコンピュータ主要部10が実現する機能ブロックが明示されたブロック図である。コンピュータ主要部10のCPU11は、ROM12に記憶された物体配置推定プログラムを読み出して実行することにより、制御部1、周波数振幅特性算出部303、特徴ベクトル生成部304、非類似度行列導出部5、布置導出部(MDS部)6、および、配置推定結果出力部7として動作することができる。布置導出部(MDS部)6および配置推定結果出力部7は、推定部8を構成する。なお、制御部1、非類似度行列導出部5、布置導出部(MDS部)6、および、推定部8の動作は、実施の形態1および2において説明したものと同じでよいため、ここではその説明を省略する。
周波数振幅特性算出部303は、CPU11が物体配置推定プログラムを実行することにより実現される。周波数振幅特性算出部303は、マイクアレイMCaに含まれるマイクロフォン(MC〜MC)それぞれの出力信号について、周波数振幅特性を算出する。
特徴ベクトル生成部304は、CPU11が物体配置推定プログラムを実行することにより実現される。特徴ベクトル生成部304は、周波数振幅特性算出部303が算出した周波数振幅特性を入力し、M個のマイクロフォン(対象物)それぞれについて、N次元の特徴ベクトルを生成することができる。なお、以下では、特徴ベクトル生成部304が、周波数振幅特性にもとづいて、M個のマイクロフォン(対象物)のあらゆる2個のマイクロフォンの特徴ベクトルの対応する成分間の差(式(1)における特徴ベクトルの成分の差pi,j−pi,k、k:k≠j、iは1〜Nの任意の整数。)を求める場合について詳細に説明するが、当業者であれば、特徴ベクトル生成部304が各マイクロフォンの特徴ベクトルそのものを決定する手法も、以下の説明から理解することができる。
なお、制御部1、周波数振幅特性算出部303、特徴ベクトル生成部304、非類似度行列導出部5、布置導出部(MDS部)6、配置推定結果出力部7の少なくともいずれか1つは、専用のハードウェア回路によって実現されてもよい。
図18は、3人の人hmn1〜hmn3が室内で会議を行っている様子を示す模式図である。室内には、M個のマイクロフォン(MC〜MC)が配置されている。M個のマイクロフォン(MC〜MC)は、図示しないオーディオインタフェース部350を介し図示しない物体配置推定装置300と接続されている(図17を参照。)。
図19は、物体配置推定装置300がするマイクロフォン配置推定のための処理のフローチャートである。
物体配置推定装置300の周波数振幅特性算出部303は、オーディオインタフェース部350を介し、M個のマイクロフォン(MC〜MC)の出力信号を入力する。これら出力信号は、室内の周囲環境音についての各マイクロフォンの応答信号である。周波数振幅特性算出部303は、各出力信号について周囲環境音に人の声が含まれる部分(例えば、図18の発声者hmn1の声「Hi!」が含まれる部分)を抽出し、M個のマイクロフォン(MC〜MC)の抽出された出力信号(時間領域)それぞれを周波数領域に変換し、出力信号(周波数領域)からその周波数振幅特性を算出する(ステップS101)。各マイクロフォン(MC〜MC)の出力信号の周波数振幅特性に関する情報は、周波数振幅特性算出部303から特徴ベクトル生成部304へ送られる。
特徴ベクトル生成部304は、周波数振幅特性算出部303から送られた周波数振幅特性に関する情報に基づき、あらゆる2つのマイクロフォン(MC,MC)の組み合わせについて、出力信号の周波数振幅特性間の差を計算する(ステップS102)。
そのようにして得た2つの周波数振幅特性の差を周波数軸上で積分して得た積分値にもとづいて、特徴ベクトル生成部304は、発声者(参照点)に対する2つのマイクロフォンの位置の非類似度、すなわち参照点に対する近さを規定する尺度上での当該2つのマイクロフォンの測度の差(式(1)におけるpi,j−pi,k、k:k≠j、iは1〜Nの任意の整数。)を求める。
図20は、各マイクロフォン(MC〜MC)の出力信号の周波数振幅特性を示す模式図である。図20(a)は、図18に示すような室内で、人hmn1が発声した声を含む周囲環境音についてのマイクロフォンMCからの出力信号の周波数振幅特性である。同様、図20(b)および図20(c)はそれぞれ、同一の声を含む同一の周囲環境音についてのマイクロフォンMCおよびMCからの出力信号の周波数振幅特性である。各周波数振幅特性には、集音環境に遍在する雑音(室内における残響音や、屋外における雑踏の音など)の成分BGに重畳されるかたちで人hmn1が発した声のフォルマントが現れる。ここでは、第1フォルマントF1の中心周波数をf1とし、第2フォルマント以降の各フォルマントの中心周波数をそれぞれ、f2、f3、f4として示している。
図20の各図からも判るように、雑音成分BGは、各出力信号においてほぼ同一のプロファイルを示している一方、人の声のフォルマント成分は、マイクロフォンが人から離れるにつれ、本来のフォルマントの周波数振幅特性の形状から遠ざかる。特徴ベクトル生成部304は、2つのマイクロフォンの出力信号の周波数振幅特性の形状の差から、当該2つのマイクロフォンについて、発声者(参照点)に対する近さの差を求めることができる。
特徴ベクトル生成部304は、2つのマイクロフォン(MC,MC、k:k≠j)の出力信号の周波数振幅特性の差を周波数軸上で積分する(ステップS103)。ここで得られる積分値が、マイクロフォンMCとマイクロフォンMCの参照点(発声者)に対する近さの差、すなわち2つのマイクロフォン(MC,MC)の特徴ベクトルにおける、当該参照点に関する成分の差(式(1)におけるpi,j−pi,k、k:k≠j、iは1〜Nの任意の整数。)である。
なお、当然のことながら、特徴ベクトル生成部304は、このようにして求めた2つのマイクロフォンの特徴ベクトルにおける、当該発声者(参照点)に関する成分の差から、各特徴ベクトルの成分そのものを求めることもできる。
以上のようにして、特徴ベクトル生成部304は、ステップS103において、マイクロフォン(MC〜MC)のあらゆる2つのマイクロフォンについて、各参照点に関する2つのマイクロフォンの位置の非類似度(特徴ベクトルの対応する成分間の差)を求める。
そして、ステップS104において、非類似度行列導出部5が、特徴ベクトル生成部304が求めたあらゆる2つの特徴ベクトルの対応する成分間の差にもとづいて、非類似度行列D(式(3))を導出する。
なお、特徴ベクトル生成部304は、ステップS103で求めた積分値から、各マイクロフォンの特徴ベクトルを求め、類似度行列導出部5に出力してもよい。その場合、非類似度行列導出部5は、ステップS104において先の実施形態におけるステップS7と同じようにして非類似度行列を導出すればよい。
ステップS105、および、ステップS106の処理は、先の実施形態において説明したもの(図4のステップS8、および、ステップS9)と同じであるため、ここではその説明を省略する。
なお、先の実施形態と同様、参照点の数は、3点以上必要である。したがって、物体配置推定装置は、相異なるN(Nは、3以上)箇所の位置において発声者が発した声を、M個のマイクロフォンを用いて集音し、各マイクロフォンにおいて集音され出力された出力信号を用いて非類似度行列Dを導出する(ステップS104)。N(Nは、3以上)箇所の位置において発声する人は、同一人物でなくともよい。
なお、特徴ベクトル生成部304は、周波数振幅特性算出部303から送られた周波数振幅特性に関する情報に基づき、次のようにして特徴ベクトルを生成してもよい。先ず、特徴ベクトル生成部304は、各マイクロフォン(MC〜MC)の出力信号について、発声者のフォルマントを特定し、特定されたフォルマント(例えば、第1フォルマントF1)の振幅をしてもよい。そして、特徴ベクトル生成部304は、各マイクロフォン(MC〜MC)の出力信号の周波数振幅特性に現れた特定のフォルマント(例えば、中心周波数f1を有する第1フォルマントF1)のピークの振幅それぞれについて、任意の一つのマイクロフォン(例えば、MC)の出力信号の周波数振幅特性に現れた当該特定のフォルマントのピークの振幅(図20(a)に示した振幅A1f1)との比(単位は例えばデシベル)から、参照点(人hmn1)に対する近さを表す尺度における各マイクロフォン(MC〜MC)についての測度を決定してもよい。
例えば、マイクロフォンMCの出力信号の周波数振幅特性中の第1フォルマントF1のピークの振幅AMf1と、任意の1つのマイクロフォンとしてのマイクロフォンMCの出力信号の周波数振幅特性中の第1フォルマントF1のピークの振幅A1f1との比が−6デシベルであれば、参照点としての人hmn1に対する近さを表す尺度におけるマイクロフォンMCについての測度を、例えば、1とし、参照点(人hmn1)に対する近さを表す尺度におけるマイクロフォンMCについての測度を2とすればよい。
以上のように、特徴ベクトル生成部304は、周波数振幅特性の特定の周波数成分にもとづいて各マイクロフォン(MC〜MC)の特徴ベクトルを決定することもできる。
以上、本変形例においては、物体配置推定装置300は、特定の音響波を出力する必要がない。また、本変形例は、豊かな残響音が得られる音響特性を有する室内や、雑踏の中での物体配置推定に特に好適である。
また、本変形例においても、先の実施形態において、ラウドスピーカの配置を推定したように、複数の人物の位置関係を推定することが可能である。つまり、本変形例においても、声を発した人物の配置を配置推定対象として推定することが可能である。
4−2.変形例2(対象物布置推定手法別例)
ここでは、非類似度行列に基づく対象物布置推定手法の別例について説明する。これまでに述べた実施形態では、布置導出部6を備える推定部8(図2等)が、対象物の布置を、非類似度行列に対しMDS法を適用することにより、推定する。しかしながら、対象物の布置は、MDS法以外の方法によっても推定可能である。
布置導出部6(図2等)は、例えば、いわゆる、組み合わせ最適化問題を全探索手法で数値的に解くことにより、布置(の近似解)を求めてよい。つまり、布置導出部6(図2等)は、複数の可能な対象物(例えば、M個のマイクロフォン)の布置(布置近似解候補)のすべてについて、その布置近似解としての適合度を類似度行列に基づいて評価し、最も高い評価となった布置近似解候補を、布置推定結果として出力してもよい。
あるいは、布置導出部6(図2等)は、例えば、いわゆる、遺伝的アルゴリズム(Genetic Algorithm)といったアルゴリズムを用いて、組み合わせ最適化問題を局所探索手法で数値的に解くことにより、布置(の近似解)を求めてもよい。つまり、布置導出部6(図2等)は、複数の可能な対象物(例えば、M個のマイクロフォン)の布置(布置近似解候補)のいくつかについて、その布置近似解としての適合度を類似度行列に基づいて評価し、それら評価した布置近似解候補のうちで最も高い評価となった布置近似解候補を、布置推定結果として出力してもよい。
上述の実施形態と同様、本変形例においても、対象物の配置を推定するにあたり配置推定対象物の位置および参照点の位置に関する情報は必須ではない。しかしながら、本変形例のように全探索または局所探索の手法を用いて対象物の配置を推定する場合には、配置推定対象物や参照点が存在しうる位置についての条件を予め設定し、設定された条件に従って可能な対象物の布置(布置近似解候補)の数を低減させることにより、布置導出部6による類似度行列に基づく布置近似解の導出を高速化できる。
以下では、全探索的または局所探索的な手法を用いて数値的に布置近似解を非類似度行列に基づいて求める場合に有効な手法について説明する。
配置推定対象物について、近接する2つの配置推定対象物間の最小間隔を設定することにより、対象物が存在しうる位置を離散化することができる。当該最小間隔dminを配置推定対象物が存在しうる位置についての条件とすることで、可能な布置近似解候補の数が低減され、布置近似解の導出が高速化可能である。さらに、任意の1つの参照点と、それに最も近い対象物までの距離、および、当該参照点から最も遠い対象物までの距離に関する情報を用いて対象物が存在しうる空間的範囲を限定することで、布置近似解候補の数を劇的に減らすことができる。
上述の実施形態1および2においては、参照点に位置するスピーカから発せられた音響波が各マイクロフォンに到達した時刻(音響波到達時刻)を特定し、特徴ベクトルを生成する。本変形例においては、さらに、参照点に位置するスピーカから音響波が発せられた時刻を特定し、そうすることによって、音響波が各マイクロフォンに到達するのに要した時間(音響波伝播時間)を求めてもよい。
ある参照点にあるスピーカから各対象物(マイクロフォン)への音響波伝播時間のうちで最も短い音響波伝播時間を記録したマイクロフォンが、当該参照点に最も近いマイクロフォンであり、最も長い音響波伝播時間を記録したマイクロフォンが、当該参照点に最も遠いマイクロフォンである。ここで、最も短い音響波伝播時間と音速との積を最小距離Rmin、最も長い音響波伝播時間と音速との積を最長距離Rmaxとすれば、全ての配置対象物(マイクロフォン)が存在しうる位置は、当該参照点からRmin以上、かつ、Rmax以下の距離の範囲に限定される。
図21は、配置推定対象物が存在しうる位置についての条件として、対象物間最小間隔dmin、ある参照点からの最小距離Rmin、最長距離Rmaxを与えた場合の対象物位置候補点CD(図中のx印)を示す図である。対象物位置候補点CDは、ある参照点(図中のスピーカ)を中心とする半径Rminの球sph1の外側かつ同参照点を中心とする半径Rmaxの球sph2の内側に、最小間隔dminをおいて分布する。この場合、布置導出部6(図2等)は、これらの対象物位置候補点CDのうちから対象物の個数(M個)の候補点を選んで構成される布置近似解候補それぞれについて非類似度行列に基づいて布置近似解としての適合度を評価し、よい評価が得られた布置近似解候補を布置近似解としてよい。全探索の手法を用いる場合、全ての可能な布置近似解候補についてその適合度を評価すればよい。局所探索の手法を用いる場合、周知のアルゴリズム(遺伝的アルゴリズム等)に従って評価すべき布置近似解候補を選択すればよい。
適合度の評価は、以下のようにして行えばよい。先ず、評価対象の布置近似解候補について、対象物間の距離を計算により求め、計算結果にもとづいて、各要素が対象物間の距離で構成される距離行列を導出する。次に、そのようにして算出された距離行列と、非類似度行列との相似度を評価することにより、適合度を評価することができる。つまり、非類似度行列と距離行列との関係が、比例関係に近い距離行列をより高く評価することにより、布置近似解候補の適合度を評価することができる。
配置推定対象物が存在しうる位置についての条件として、さらに、対象物の配置形態に関する条件を追加することができる。図22は、対象物であるマイクロフォンは直線形状のマイクロフォンアレイを構成する、という条件を追加した場合の対象物位置候補点CD(図中のx印)を示す図である。この場合、対象物位置候補点CDは、候補点CDnearにおいて球sph1に接する直線L上にのみ分布する。また、候補点CDnearおよび球sph2の球面上の候補点CDfarには、それぞれ、音響波伝播時間が最も短かったマイクロフォン、音響波伝播時間が最も長かったマイクロフォンが位置する可能性が極めて高い。そこで、そのようなマイクロフォン配置を有する布置近似解候補を選択し、局所探索を行うことで、布置近似解の導出を高速化することが可能である。また、特徴ベクトルの当該参照点に対する近さの尺度について、候補点CDnearのマイクロフォンの測度と類似する測度を有する別のマイクロフォンを、候補点CDnearの近傍の候補点に配置した布置近似解候補を選択し、局所探索を行うことで、布置近似解の導出をさらに高速化することが可能である。このことは、候補点CDfar近傍の候補点についても同様にあてはまる。
図23は、対象物であるマイクロフォンは平面形状のマイクロフォンアレイを構成する、という条件を追加した場合の対象物位置候補点CD(図中のx印)を示す図である。この場合、対象物位置候補点CDは、候補点CDnearにおいて球sph1に接する円C上にのみ分布する。また、候補点CDnearおよび球sph2の球面上の候補点CDfarには、それぞれ、音響波伝播時間が最も短かったマイクロフォン、音響波伝播時間が最も長かったマイクロフォンが位置する可能性が極めて高い。そこで、そのようなマイクロフォン配置を有する布置近似解候補を選択し、局所探索を行うことで、布置近似解の導出を高速化することが可能である。
図24は、対象物であるマイクロフォンは正方形形状のマイクロフォンアレイを構成する、という条件を追加した場合の対象物位置候補点CD(図中のx印)を示す図である。この場合、対象物位置候補点CDは、候補点CDnearにおいて球sph1に接する円Cに内接する正方形SQ上にのみ分布する。また、候補点CDnearおよび球sph2の球面上の候補点CDfarには、それぞれ、音響波伝播時間が最も短かったマイクロフォン、音響波伝播時間が最も長かったマイクロフォンが位置する可能性が極めて高い。そこで、そのようなマイクロフォン配置を有する布置近似解候補を選択し、局所探索を行うことで、布置近似解の導出を高速化することが可能である。
図25は、対象物であるマイクロフォンは球面形状のマイクロフォンアレイを構成する、という条件を追加した場合の対象物位置候補点CD(図中のx印)を示す図である。この場合、対象物位置候補点CDは、候補点CDnearにおいて球sph1と外接しかつ、候補点CDfarにおいて球sph2と内接する球sph3の面上にのみ分布する。また、候補点CDnearおよび候補点CDfarには、それぞれ、音響波伝播時間が最も短かったマイクロフォン、音響波伝播時間が最も長かったマイクロフォンが位置する可能性が極めて高い。そこで、そのようなマイクロフォン配置を有する布置近似解候補を選択し、局所探索を行うことで、布置近似解の導出を高速化することが可能である。
5.まとめ
本発明の実施形態による物体配置推定装置は、配置推定対象物間の距離を測定することなしに、対象物の配置を推定することができる。本発明の実施形態による物体配置推定装置は、配置推定対象物間の距離を利用する代わりに、対象物の位置とは独立して任意に選択可能なN個の参照点(N:3以上の整数)と、各対象物との実空間における隔たりに関する測度を求め、求めた測度に基づいて、各対象物の実空間での位置の特徴を表すN次元の特徴ベクトルを生成し、特徴ベクトルから非類似度行列を導出し、非類似度行列から実空間(3次元)における対象物の布置を導出している。したがって、本発明の実施形態では、配置推定対象物間の距離を計測する必要がないため、様々な状況において簡便かつ正確に対象物の配置を推定することが可能である。また、本発明の実施形態では、対象物の位置とは独立して任意に選択可能なN個の参照点(N:3以上の整数)の数を増大させることにより、各対象物の実空間における位置の特徴を示す特徴ベクトルの次元数を増加させることが可能となっており、当該次元数の増加に伴い、配置推定の精度を向上させることが可能になっている。
本発明の実施形態は、たとえば、複数チャンネルの収音系におけるマイクロフォンの配置およびケーブル接続を簡便かつ正確に確認するための装置として有用である。
本発明の実施形態は、たとえば、複数チャンネルの音場再生系におけるスピーカの配置およびケーブル接続を簡便かつ正確に確認するための装置として有用である。
本発明の実施形態は、ノートPCに内蔵のマイクロフォンおよびスピーカを用いて、複数のノートPCの配置を推定することも可能である。
本発明の実施形態は、音声認識用のマイクロフォンアレイの各マイクロフォンの配置およびケーブル接続を簡便かつ正確に確認するための装置として利用することも可能である。
なお、上述の実施形態においては、対象物の実空間での位置の特徴を表す特徴ベクトルの成分は、所与の参照点から音響波が到達した時刻として生成される。つまり、実施形態においては、特徴ベクトルの各成分は、時間の次元を有する量である。しかしながら、特徴ベクトルは、時間と異なる様々な次元を有する観測量を用いて構成することができる。たとえば、特徴ベクトルは、マイクロフォンにおいて検出された応答波形の残響成分の形状を反映した量に基づいて構成することが可能である。つまり、特徴ベクトルは、応答波形における直接音と非直接音との相対的な関係性を表す量に基づいて構成することができる。よって、この場合、非類似度行列は、2つのマイクロフォンそれぞれにおいて検出された応答波形の(非)類似性を表すデータを要素として構成される。この場合、物体配置推定装置は、非類似度行列に各要素について相互相関性を求め、求めた相互相関性に基づいて、配置推定対象物の実空間における配置を推定してもよい。
また、物体配置推定装置は、人の声が含まれる周囲環境音をM個のマイクロフォンを用いて集音し、各マイクロフォンから出力される出力信号の周波数振幅特性にもとづいて、特徴ベクトルを生成してもよい。複数のマイクロフォンの出力信号の周波数振幅特性の形状を比較することで、(例えば、周波数振幅特性の差を周波数軸上で積分することで、)複数マイクロフォンの発声者に対する相対的な近さの差を定量化することができる。あるいは、例えば、各マイクロフォンから出力される出力信号の周波数振幅特性の特定の周波数成分(人の声のフォルマントが現れる周波数)の振幅の比にもとづいて、特徴ベクトルの成分を決定してよい。つまり、物体配置推定装置は、出力信号の周波数振幅特性から抽出された人の声のフォルマントの振幅に基づいて、当該出力信号を出力したマイクロフォンと声を発した人との近さを、M個のマイクロフォン間で相対評価することにより、特徴ベクトルの成分を求めることができる。このような特徴ベクトル生成方法は、残響特性が豊かな室内や、雑踏の中での配置推定に好都合である。また、M個のマイクロフォンが、室内の比較的広範囲にわたって配置されるような場合にも好都合である。
また、本発明の実施形態による物体配置推定装置は、音響波に代えて、光、電磁波、といった波動を利用して、物体配置を推定してもよい。その場合、物体配置推定装置は、たとえば、発光素子アレイおよび受光素子アレイ、または、2組のアンテナアレイを備え、発光素子アレイ(または、1組のアンテナアレイ)からの波動を、受光素子アレイ(または、もう1組のアンテナアレイ)において検出することにより、発光素子アレイ(または、受光素子アレイ、もしくは、1組のアンテナアレイ)の配置を推定することができる。
また、本発明の実施形態による物体配置推定装置は、音響波に代えて、物体の表面を伝搬する表面波を利用して、物体配置を推定してもよい。その場合、物体配置推定装置は、たとえば、電気的エネルギを振動エネルギに変換するトランスデューサアレイを2組備え、一方のトランスデューサアレイからの表面波を、他方のトランスデューサにおいて検出することにより、1組のトランスデューサアレイの配置を推定することができる。
本発明は、たとえば、収音現場において複数のマイクロフォンの配置やケーブル接続を確認することに利用することができる。
また、物体配置推定装置の推定部は、非類似度行列に対しMDS法を適用する代わりに、数値的に、全探索または局所探索の手法で布置の近似解を求め、求めた布置近似解からM個のマイクロフォンの実空間における配置を推定し出力してもよい。
1 ・・・ 制御部
2 ・・・ インパルス生成部(TSP生成部)
3 ・・・ 応答検出部
4 ・・・ 特徴ベクトル生成部
5 ・・・ 非類似度行列導出部
6 ・・・ 布置導出部(MDS部)
7 ・・・ 配置推定結果出力部
8 ・・・ 推定部
10 ・・・ コンピュータ主要部
11 ・・・ CPU
12 ・・・ ROM
13 ・・・ RAM
21 ・・・ HDD
30 ・・・ ユーザインタフェース部
31 ・・・ ディスプレイ
32 ・・・ キーボード
33 ・・・ マウス
41 ・・・ 計時部
50 ・・・ オーディオインタフェース部
51 ・・・ オーディオ出力部
52 ・・・ オーディオ入力部
250 ・・・ オーディオインタフェース部
251 ・・・ オーディオ出力部
303 ・・・ 周波数振幅特性算出部
304 ・・・ 特徴ベクトル生成部(変形例)
350 ・・・ オーディオインタフェース部
MCa・・・ マイクロフォンアレイ
MCj・・・ j番マイク
SPa・・・ スピーカアレイ
SPi・・・ i番スピーカ

Claims (15)

  1. M個(Mは、2以上の整数)の対象物の実空間における配置を推定する物体配置推定装置であって、
    前記M個の対象物それぞれについて、実空間内のN個(Nは、3以上の整数)の参照点それぞれに対する近さを表すN個の尺度における前記対象物についての測度を成分に含む特徴ベクトルを生成する特徴ベクトル生成部と、
    前記M個の対象物に含まれるあらゆる2個の対象物の組み合わせについて、当該2個の対象物の前記特徴ベクトル間のノルムを求め、求めたノルムを要素とするM行M列の非類似度行列を導出する非類似度行列導出部と、
    前記非類似度行列に基づいて前記M個の対象物の実空間における配置を推定し、配置推定結果として出力する推定部と、
    を有する物体配置推定装置。
  2. さらに、時間を計測する計時部と、
    前記参照点に配置される外部のスピーカに信号を出力可能なオーディオ出力部、および、前記M個の対象物としてのM個の外部のマイクロフォンから信号を入力可能なオーディオ入力部を備えたオーディオインタフェース部と、
    前記オーディオ出力部に接続された前記スピーカに所定の音響波を出力させる音響波信号を生成可能な信号生成部と、
    前記オーディオ入力部に接続された前記M個のマイクロフォンからの信号を入力し、前記計時部を参照して前記M個のマイクロフォンそれぞれにおいて前記音響波が到達した時刻を特定する応答検出部と、を有し、
    前記特徴ベクトル生成部は、前記M個のマイクロフォンそれぞれについて、前記N個の参照点において前記スピーカから出力された前記音響波に当該マイクロフォンが応答した時刻を、前記N個の尺度である時間座標軸における当該マイクロフォンについての測度として前記特徴ベクトルを生成し、
    前記非類似度行列導出部は、前記M個のマイクロフォンに含まれるあらゆる2個のマイクロフォンの組み合わせについて、当該2個のマイクロフォンの特徴ベクトル間のノルムを求め、求めたノルムを要素とする前記非類似度行列を導出する、請求項1に記載の物体配置推定装置。
  3. 前記信号生成部は、波形形状がパルス形状を有する音響波を前記スピーカに出力させる音響波信号を生成する、請求項2に記載の物体配置推定装置。
  4. さらに、前記M個の対象物としてのM個の外部のマイクロフォンから信号を入力可能なオーディオ入力部を備えたオーディオインタフェース部と、
    前記オーディオ入力部に接続された前記M個のマイクロフォンからの信号を入力し、前記M個のマイクロフォンからの信号それぞれについて周波数振幅特性を算出する周波数振幅特性算出部と、を有し、
    前記特徴ベクトル生成部は、前記M個のマイクロフォンからの信号それぞれの前記周波数振幅特性に含まれる前記N個の参照点において発せられた声のフォルマント成分にもとづいて前記特徴ベクトルを決定し、
    前記非類似度行列導出部は、前記M個のマイクロフォンに含まれるあらゆる2個のマイクロフォンの組み合わせについて、当該2個のマイクロフォンの特徴ベクトル間のノルムを求め、求めたノルムを要素とする前記非類似度行列を導出する、請求項1に記載の物体配置推定装置。
  5. 前記推定部は、前記非類似度行列に多次元尺度法を適用して前記M個のマイクロフォンの実空間における配置を推定し、配置推定結果として出力する、請求項2ないし4のいずれか1つに記載の物体配置推定装置。
  6. 前記Nは、10以上の整数である、請求項1ないし5のいずれか1つに記載の物体配置推定装置。
  7. 前記推定部は、複数の前記M個の対象物のとりうる布置の候補について前記非類似度行列を用いて前記候補の布置としての適合度を評価し、前記評価の結果に基づいて前記M個の対象物の布置の近似解を数値的に求めることにより、前記M個の対象物の実空間における配置を推定する、請求項1に記載の物体配置推定装置。
  8. 前記推定部は、局所探索手法を用いて前記M個の対象物の布置の近似解を数値的に求めることにより、前記M個の対象物の実空間における配置を推定する、請求項7に記載の物体配置推定装置。
  9. 前記局所探索手法は、遺伝的アルゴリズムである、請求項8に記載の物体配置推定装置。
  10. さらに、時間を計測する計時部と、
    前記M個の対象物としてのM個の外部のスピーカに信号を出力可能なオーディオ出力部、および、前記参照点に配置されるN個の外部のマイクロフォンから信号を入力可能なオーディオ入力部を備えたオーディオインタフェース部と、
    前記オーディオ出力部に接続された前記M個のスピーカに所定の音響波を出力させる音響波信号を生成可能な信号生成部と、
    前記オーディオ入力部に接続された前記N個のマイクロフォンからの信号を入力し、前記計時部を参照して前記N個のマイクロフォンにおいて前記音響波が到達した時刻を特定する応答検出部と、を有し、
    前記特徴ベクトル生成部は、前記M個のスピーカそれぞれについて、前記スピーカから出力された前記音響波に前記N個の参照点に配された前記N個のマイクロフォンそれぞれが応答した時刻を、前記N個の尺度である時間座標軸における当該スピーカについての測度として前記特徴ベクトルを生成し、
    前記非類似度行列導出部は、前記M個のスピーカに含まれるあらゆる2個のスピーカの組み合わせについて、当該2個のスピーカの特徴ベクトル間のノルムを求め、求めたノルムを要素とする前記非類似度行列を導出する、請求項1に記載の物体配置推定装置。
  11. 前記推定部は、前記非類似度行列に多次元尺度法を適用して前記M個のスピーカの実空間における配置を推定し、配置推定結果として出力する、請求項10に記載の物体配置推定装置。
  12. さらに、前記参照点に配置されるN個の外部のマイクロフォンから信号を入力可能なオーディオ入力部を備えたオーディオインタフェース部と、
    前記オーディオ入力部に接続された前記N個のマイクロフォンからの信号を入力し、前記N個のマイクロフォンからの信号それぞれについて周波数振幅特性を算出する周波数振幅特性算出部と、を有し、
    前記特徴ベクトル生成部は、前記N個のマイクロフォンからの信号それぞれの前記周波数振幅特性に含まれる前記M個の対象物であるM人の人の声のフォルマント成分にもとづいて前記特徴ベクトルを決定し、
    前記非類似度行列導出部は、前記M人の人のあらゆる2人の組み合わせについて、当該2人についての特徴ベクトル間のノルムを求め、求めたノルムを要素とする前記非類似度行列を導出する、請求項1に記載の物体配置推定装置。
  13. 前記推定部は、前記非類似度行列に多次元尺度法を適用して前記M人の人の実空間における配置を推定し、配置推定結果として出力する、請求項12に記載の物体配置推定装置。
  14. 対象物の実空間における配置を推定する物体配置推定装置において、M個(Mは、2以上の整数)の対象物の実空間における配置を推定する物体配置推定方法であって、
    前記M個の対象物それぞれについて、実空間内のN個(Nは、3以上の整数)の参照点それぞれに対する近さを表すN個の尺度における前記対象物についての測度を成分に含む特徴ベクトルを生成する特徴ベクトル生成ステップと、
    前記M個の対象物に含まれるあらゆる2個の対象物の組み合わせについて、当該2個の対象物の前記特徴ベクトル間のノルムを求め、求めたノルムを要素とするM行M列の非類似度行列を導出する非類似度行列導出ステップと、
    前記非類似度行列に基づいて前記M個の対象物の実空間における配置を推定し、配置推定結果として出力する推定ステップと、
    を有する物体配置推定方法。
  15. コンピュータを、M個(Mは、2以上の整数)の対象物の実空間における配置を推定する物体配置推定装置として機能させるための物体配置推定プログラムであって、
    前記コンピュータを、
    前記M個の対象物それぞれについて、実空間内のN個(Nは、3以上の整数)の参照点それぞれに対する近さを表すN個の尺度における前記対象物についての測度を成分に含む特徴ベクトルを生成する特徴ベクトル生成部、
    前記M個の対象物に含まれるあらゆる2個の対象物の組み合わせについて、当該2個の対象物の前記特徴ベクトル間のノルムを求め、求めたノルムを要素とするM行M列の非類似度行列を導出する非類似度行列導出部、および、
    前記非類似度行列に基づいて前記M個の対象物の実空間における配置を推定し、配置推定結果として出力する推定部、として機能させるための物体配置推定プログラム。
JP2013526019A 2012-07-31 2013-01-30 物体配置推定装置 Active JP5345748B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013526019A JP5345748B1 (ja) 2012-07-31 2013-01-30 物体配置推定装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2012169602 2012-07-31
JP2012169602 2012-07-31
JP2013526019A JP5345748B1 (ja) 2012-07-31 2013-01-30 物体配置推定装置
PCT/JP2013/052066 WO2014020921A1 (ja) 2012-07-31 2013-01-30 物体配置推定装置

Publications (2)

Publication Number Publication Date
JP5345748B1 true JP5345748B1 (ja) 2013-11-20
JPWO2014020921A1 JPWO2014020921A1 (ja) 2016-07-21

Family

ID=49764867

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013526019A Active JP5345748B1 (ja) 2012-07-31 2013-01-30 物体配置推定装置

Country Status (3)

Country Link
EP (1) EP2809085B1 (ja)
JP (1) JP5345748B1 (ja)
DK (1) DK2809085T3 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7000926B2 (ja) * 2018-03-08 2022-01-19 ヤマハ株式会社 スピーカの接続状態判定システム、音響装置及びスピーカの接続状態判定方法
CN110049424B (zh) * 2019-05-16 2021-02-02 苏州静声泰科技有限公司 一种基于检测gil故障声的麦克风阵列无线校准方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0870305A (ja) * 1994-05-24 1996-03-12 Toshiba Corp 通信機器
JP2006300861A (ja) * 2005-04-25 2006-11-02 Nippon Telegr & Teleph Corp <Ntt> 相対位置算出装置および相対位置算出方法およびそのプログラム並びに記録媒体
JP2008064568A (ja) * 2006-09-06 2008-03-21 Osaka Univ 音取得位置特定方法、音取得位置特定システム、特定装置及びコンピュータプログラム
WO2009010832A1 (en) * 2007-07-18 2009-01-22 Bang & Olufsen A/S Loudspeaker position estimation

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5515853A (en) * 1995-03-28 1996-05-14 Sonometrics Corporation Three-dimensional digital ultrasound tracking system
US6690618B2 (en) * 2001-04-03 2004-02-10 Canesta, Inc. Method and apparatus for approximating a source position of a sound-causing event for determining an input used in operating an electronic device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0870305A (ja) * 1994-05-24 1996-03-12 Toshiba Corp 通信機器
JP2006300861A (ja) * 2005-04-25 2006-11-02 Nippon Telegr & Teleph Corp <Ntt> 相対位置算出装置および相対位置算出方法およびそのプログラム並びに記録媒体
JP2008064568A (ja) * 2006-09-06 2008-03-21 Osaka Univ 音取得位置特定方法、音取得位置特定システム、特定装置及びコンピュータプログラム
WO2009010832A1 (en) * 2007-07-18 2009-01-22 Bang & Olufsen A/S Loudspeaker position estimation

Also Published As

Publication number Publication date
JPWO2014020921A1 (ja) 2016-07-21
EP2809085A1 (en) 2014-12-03
DK2809085T3 (da) 2022-06-13
EP2809085B1 (en) 2022-04-06
EP2809085A4 (en) 2015-12-09

Similar Documents

Publication Publication Date Title
CN109839612B (zh) 基于时频掩蔽和深度神经网络的声源方向估计方法及装置
Omologo et al. Use of the crosspower-spectrum phase in acoustic event location
JP6335985B2 (ja) マルチセンサ音源定位
Brutti et al. Oriented global coherence field for the estimation of the head orientation in smart rooms equipped with distributed microphone arrays.
CN103797821A (zh) 使用直接声的到达时间差确定
JP5123595B2 (ja) 近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法
JP2014098568A (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
Salvati et al. Incident signal power comparison for localization of concurrent multiple acoustic sources
WO2014020921A1 (ja) 物体配置推定装置
Dang et al. A feature-based data association method for multiple acoustic source localization in a distributed microphone array
JP5345748B1 (ja) 物体配置推定装置
KR20090128221A (ko) 음원 위치 추정 방법 및 그 방법에 따른 시스템
Peled et al. Objective performance analysis of spherical microphone arrays for speech enhancement in rooms
KR101354960B1 (ko) 영역 개념을 이용한 음파 입사 방향 추정 방법
Saarelma et al. Audibility of dispersion error in room acoustic finite-difference time-domain simulation in the presence of a single early reflection
JP6650245B2 (ja) インパルス応答生成装置及びプログラム
Farmani et al. TDOA-based self-calibration of dual-microphone arrays
Cirillo et al. Sound mapping in reverberant rooms by a robust direct method
Pasha et al. Forming ad-hoc microphone arrays through clustering of acoustic room impulse responses
Esaki et al. Estimating sound source depth using a small-size array
Betlehem et al. Sound field of a directional source in a reverberant room
JP2020043456A (ja) 音響処理装置、音響処理方法およびプログラム
Srivastava Realism in virtually supervised learning for acoustic room characterization and sound source localization
Delikaris-Manias et al. Auralization of Source Radiation Pattern Synthesized with Laser Spark Room Responses
JP6388551B2 (ja) 複数領域音場再現システムおよび方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130806

R150 Certificate of patent or registration of utility model

Ref document number: 5345748

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250