JP6859235B2 - 音響処理装置、音響処理方法及びプログラム - Google Patents

音響処理装置、音響処理方法及びプログラム Download PDF

Info

Publication number
JP6859235B2
JP6859235B2 JP2017172452A JP2017172452A JP6859235B2 JP 6859235 B2 JP6859235 B2 JP 6859235B2 JP 2017172452 A JP2017172452 A JP 2017172452A JP 2017172452 A JP2017172452 A JP 2017172452A JP 6859235 B2 JP6859235 B2 JP 6859235B2
Authority
JP
Japan
Prior art keywords
sound source
estimated
sound
probability
source position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017172452A
Other languages
English (en)
Other versions
JP2019049414A (ja
Inventor
一博 中臺
一博 中臺
ダニエル ガブリエル
ダニエル ガブリエル
諒介 小島
諒介 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2017172452A priority Critical patent/JP6859235B2/ja
Priority to US16/120,751 priority patent/US10356520B2/en
Publication of JP2019049414A publication Critical patent/JP2019049414A/ja
Application granted granted Critical
Publication of JP6859235B2 publication Critical patent/JP6859235B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音響処理装置、音響処理方法及びプログラムに関する。
環境理解において音環境の情報を取得することは重要である。従来から、音環境における種々の音源や雑音から特定の音源を検出するために、音源定位、音源分離、音源同定などの要素技術が提案されている。特定の音源は、例えば、鳥の鳴き声や人の発話など、ユーザである受聴者にとって有用な音である。音源定位とは、音源の方向や位置を推定することを意味する。推定された音源の方向や位置は、音源分離や音源同定の手掛かりとなる。
音源定位に関して、特許文献1には、複数のマイクロホンアレイを用いて音源位置を特定する音源追跡システムが開示されている。特許文献1に記載の音源追跡システムは、移動体に搭載されている第1マイクロホンアレイからの出力と、第1マイクロホンアレイの姿勢とに基づいて音源の位置又は方位を測定し、固定して配置されている第2マイクロホンアレイからの出力に基づいて音源の位置と速度を測定し、それぞれの測定結果を統合する。
特許第5170440号公報
しかしながら、各マイクロホンアレイで収音される音には、種々のノイズ、環境音が混入する。目的とする音源以外に、ノイズ、環境音など他の音源の方向が推定されるため、マイクロホンアレイごとに収音された複数の音源の方向が、マイクロホンアレイ間で正確に統合されるとは限らない。
本発明は上記の点に鑑みてなされたものであり、より正確に音源位置を推定することができる音響処理装置、音響処理方法及びプログラムを提供する。
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、位置が異なるM(Mは、3以上の整数)個の収音部のそれぞれから取得した複数チャネルの音響信号に基づいて音源の方向である定位音源方向を定める音源定位部と、3個の前記収音部の組のうち2個の前記収音部の対ごとに当該収音部のそれぞれから前記定位音源方向への直線の交点を定め、それぞれ定めた交点の重心を音源の位置の推定値である推定音源位置の初期値として定め、前記収音部の対ごとに当該収音部のそれぞれから前記推定音源位置への方向である推定音源方向への直線の交点を定め、前記交点の分布を複数のクラスタに分類し、前記推定音源位置が前記音源に対応するクラスタに分類される確率である推定確率がより高くなるように、前記推定音源位置と前記クラスタを一定にして当該推定確率が従う確率モデルモデルパラメータを更新する処理と、前記推定確率がより高くなるように、前記モデルパラメータを一定にして前記推定音源位置と前記クラスタを更新する処理と、を行う音源位置推定部と、を備える音響処理装置である。
(2)本発明の他の態様は、(1)の音響処理装置であって、前記推定確率は、前記定位音源方向が定められるとき前記推定音源方向が得られる確率である第1確率と、前記交点が定められるとき前記推定音源位置が得られる確率である第2確率と、前記交点が分類されるクラスタの出現確率である第3確率と、をそれぞれ因子とする積である。
(3)本発明の他の態様は、(2)の音響処理装置であって、前記第1確率は、前記定位音源方向を基準とするフォン・ミーゼス分布に従い、前記第2確率は、前記交点の位置を基準とする多次元ガウス関数に従い、前記音源位置推定部は、前記推定確率がより高くなるように、前記フォン・ミーゼス分布の形状パラメータと、前記多次元ガウス関数の平均ならびに分散と、を更新する。
(4)本発明の他の態様は、(1)から(3)のいずれかの音響処理装置であって、前記複数チャネルの音響信号から音源ごとの音源別信号に分離する音源分離部と、前記音源別信号のスペクトルを算出する周波数分析部と、前記スペクトルを複数の第2クラスタに分類し、前記第2クラスタのそれぞれに分類される各スペクトルに係る音源が同一であるか否かを判定し、同一と判定した音源の前記推定音源位置を、同一でないと判定した音源の前記推定音源位置よりも優先して選択する音源特定部と、を備える。
(5)本発明の他の態様は、(4)の音響処理装置であって、前記音源特定部は、前記第2クラスタのそれぞれに分類されるスペクトルに係る音源の前記推定音源位置の分散に基づいて当該第2クラスタの安定性を評価し、前記安定性が高い第2クラスタほど当該第2クラスタにスペクトルが分類される音源の前記推定音源位置を優先して選択する。
(6)本発明の他の態様は、音響処理装置における音響処理方法であって、前記音響処理装置が、位置が異なるM(Mは、3以上の整数)個の収音部のそれぞれから取得した複数チャネルの音響信号に基づいて音源の方向である定位音源方向を定める音源定位過程と、3個の前記収音部の組のうち2個の前記収音部の対ごとに当該収音部のそれぞれから前記定位音源方向への直線の交点を定め、それぞれ定めた交点の重心を音源の位置の推定値である推定音源位置の初期値として定め、前記収音部の対ごとに当該収音部のそれぞれから前記推定音源位置への方向である推定音源方向への直線の交点を定め、前記交点の分布を複数のクラスタに分類し、前記推定音源位置が前記音源に対応するクラスタに分類される確率である推定確率がより高くなるように、前記推定音源位置と前記クラスタを一定にして当該推定確率が従う確率モデルモデルパラメータを更新する処理と、前記推定確率がより高くなるように、前記モデルパラメータを一定にして前記推定音源位置と前記クラスタを更新する処理と、を行う音源位置推定過程と、を有する音響処理方法である。
(7)本発明の他の態様は、位置が異なるM(Mは、3以上の整数)個の収音部のそれぞれから取得した複数チャネルの音響信号に基づいて音源の方向である定位音源方向を定める音源定位手順と、3個の前記収音部の組のうち2個の前記収音部の対ごとに当該収音部のそれぞれから前記定位音源方向への直線の交点を定め、それぞれ定めた交点の重心を音源の位置の推定値である推定音源位置の初期値として定め、前記収音部の対ごとに当該収音部のそれぞれから前記推定音源位置への方向である推定音源方向への直線の交点を定め、前記交点の分布を複数のクラスタに分類し、前記推定音源位置が前記音源に対応するクラスタに分類される確率である推定確率がより高くなるように、前記推定音源位置と前記クラスタを一定にして当該推定確率が従う確率モデルモデルパラメータを更新する処理と、前記推定確率がより高くなるように、前記モデルパラメータを一定にして前記推定音源位置と前記クラスタを更新する処理と、を行う音源位置推定手順と、を実行させるためのプログラムである。
上述した(1)、(6)、(7)の構成によれば、それぞれ異なる収音部からの定位音源方向により定まる交点が分類されるクラスタの範囲内に、対応する音源の推定音源位置が分類される可能性が高くなるように推定音源位置が調整される。クラスタの範囲内に音源が存在する可能性が高くなるので、調整される推定音源位置がより正確な音源位置として得られる。また、推定音源位置の初期値を、音源が存在する可能性が高い3個の交点をそれぞれ頂点とする三角形の領域内に設定することができる。そのため、調整による推定音源位置の変化が収束するまでの計算負荷が低減する。
一般に、定位音源方向、推定音源位置及び交点は相互に依存するが、(2)の音源位置推定部は、第1確率、第2確率及び第3確率をそれぞれ独立な推定確率の因子として推定音源位置を定めることができる。そのため、(2)の構成によれば、推定音源位置の調整に係る計算負荷が低減する。
上述した(3)の構成によれば、第1確率の推定音源方向の関数、第2確率の推定音源位置の関数が、それぞれ形状パラメータ、平均ならびに分散といった少数のパラメータで表される。そのため、推定音源位置の調整に係る計算負荷がさらに低減する。
上述した(4)の構成によれば、スペクトルに基づいて同一と判定されなかった音源の定位音源方向の交点に基づいて推定された推定音源位置が棄却される可能性が高くなる。そのため、互いに異なる音源の推定音源方向の交点に基づいて推定音源位置が虚像として誤って選択される可能性を低くすることができる。
上述した(5)の構成によれば、推定音源位置が定常的な音源のスペクトルが分類される第2クラスタに対応する音源の推定音源位置が選択される可能性が高くなる。即ち、推定音源位置が選択される第2クラスタには、偶発的に互いに異なる音源の推定音源方向の交点に基づいて推定される推定音源位置が含まれる可能性が低くなる。そのため、互いに異なる音源の推定音源方向の交点に基づいて推定音源位置が虚像として誤って選択される可能性をさらに低くすることができる。
本発明の実施形態に係る音響処理システムの構成を示すブロック図である。 マイクロホンアレイの配置と推定される音源方向の一例を示す図である。 各マイクロホンアレイから推定される音源方向の組に基づく交点の一例を示す図である。 本実施形態に係る初期値設定処理の一例を示すフローチャートである。 音源方向の組に基づく交点から定められる推定音源位置の初期値の一例を示す図である。 本実施形態に係る確率モデルの概念図である。 本実施形態に係る音源方向探索の説明図である。 本実施形態に係る音源位置更新処理の一例を示すフローチャートである。 虚像の検出例を示す図である。 本実施形態に係る周波数分析処理の一例を示すフローチャートである。 本実施形態に係るスコア算出処理の一例を示すフローチャートである。 本実施形態に係る音源選択処理の一例を示すフローチャートである。 本実施形態に係る音響処理の一例を示すフローチャートである。 処理対象のデータ区間の例を示す図である。
以下、図面を参照しながら本発明の実施形態について説明する。
図1は、本実施形態に係る音響処理システムS1の構成を示すブロック図である。
音響処理システムS1は、音響処理装置1と、M個の収音部20と、を含んで構成される。図1において、収音部20−1、20−2、…、20−Mは、個々の収音部20を示す。
音響処理装置1は、M個の収音部20のそれぞれから取得した複数チャネルの音響信号について音源定位を行い、各音源の音源方向である定位音源方向を推定する。音響処理装置1は、M個の収音部20のうち2個の収音部20の組ごとに、それぞれの収音部の位置から各音源の推定音源方向への直線の交点を定める。推定音源方向は、それぞれの収音部20から推定される音源の方向を意味する。推定される音源の位置を推定音源位置と呼ぶ。音響処理装置1は、定めた交点の分布についてクラスタリングを行い複数のクラスタに分類する。音響処理装置1は、推定音源位置が、その音源に対応するクラスタに分類される確率である推定確率が高くなるように推定音源位置を更新する。音響処理装置1の構成例については、後述する。
M個の収音部20は、それぞれ異なる位置に配置される。個々の収音部20は、それぞれ自部に到来した音を収音し、収音した音からQ(Qは、2以上の整数)チャネルの音響信号を生成する。個々の収音部20は、例えば、所定の領域内にそれぞれ異なる位置に配置されたQ個のマイクロホン(電気音響変換素子)を含んで構成されるマイクロホンアレイである。個々の収音部20について、各マイクロホンが配置される領域の形状は任意である。領域の形状は、四角形、円形、球形、楕円形、など、いずれであってもよい。個々の収音部20は、取得したQチャネルの音響信号を音響処理装置1に出力する。個々の収音部20は、Qチャネルの音響信号を無線又は有線で送信するための入出力インタフェースを備えてもよい。個々の収音部20は一定の空間を占めるが、特に断らない限り、収音部20の位置とは、その空間を代表する一点(例えば、重心)の位置を意味する。
なお、収音部20をマイクロホンアレイmと呼ぶことがある。また、個々のマイクロホンアレイmを、マイクロホンアレイm等と、インデックスk等を付して区別することがある。
(音響処理装置)
次に、音響処理装置1の構成例について説明する。
音響処理装置1は、入力部10、初期処理部12、音源位置推定部14、音源特定部16及び出力部18を含んで構成される。
入力部10は、各マイクロホンアレイmから入力されるQチャネルの音響信号を初期処理部12に出力する。入力部10は、例えば、入出力インタフェースを含んで構成される。
入力部10には、マイクロホンアレイmは別個の機器、例えば、録音機などの記憶媒体、コンテンツ編集装置、電子計算機などの機器を備え、これらのいずれかの機器から各マイクロホンアレイmが取得したQチャネルの音響信号が入力されてもよい。その場合には、音響処理システムS1においてマイクロホンアレイmが省略されてもよい。
初期処理部12(Initial Processing Unit)は、音源定位部120、音源分離部122及び周波数分析部124を含んで構成される。
音源定位部120は、入力部10から入力され、各マイクロホンアレイmから取得されたQチャネルの音響信号に基づいて音源定位を行って、各音源の方向を予め定めた長さのフレーム(例えば、100ms)ごとに推定する。音源定位部120は、音源定位において、例えば、MUSIC(Multiple Signal Classification;多重信号分類)法を用いて方向ごとのパワーを示す空間スペクトルを算出する。音源定位部120は、空間スペクトルに基づいて音源ごとの音源方向を定める。音源定位部120は、マイクロホンアレイmごとに定めた各音源の音源方向を示す音源方向情報と、そのマイクロホンアレイmが取得したQチャネルの音響信号を対応付けて音源分離部122に出力する。MUSIC法については、後述する。
この段階において定められる音源数は、フレームごとに異なりうる。定められる音源数は、0個、1個、複数個のいずれにもなりうる。なお、以下の説明では、音源定位によって定めた音源方向を定位音源方向と呼ぶことがある。また、マイクロホンアレイmが取得した音響信号に基づいて定められた音源ごとの定位音源方向を定位音源方向dmkと呼ぶことがある。音源定位部120が検出可能とする音源数の最大値である検出可能音源数を単に音源数Dと呼ぶことがある。D個の音源のうち、マイクロホンアレイmから取得された音響信号に基づいて特定される1個の音源を音源δと呼ぶことがある。
音源分離部122には、音源定位部120からマイクロホンアレイmごとの音源方向情報とQチャネルの音響信号が入力される。音源分離部122は、各マイクロホンアレイmについて、Qチャネルの音響信号を音源方向情報が示す定位音源方向に基づいて音源ごとの成分を示す音源別音響信号に分離する。音源分離部122は、音源別音響信号に分離する際、例えば、GHDSS(Geometric−constrained High−order Decorrelation−based Source Separation)法を用いる。音源分離部122は、各マイクロホンアレイmについて、分離した音源ごとの音源別音響信号とその音源の定位音源方向を示す音源方向情報を対応付けて周波数分析部124と音源位置推定部14に出力する。GHDSS法については、後述する。
周波数分析部124には、各マイクロホンアレイmについて音源ごとの音源別音響信号と音源方向情報が対応付けて入力される。周波数分析部124は、個々のマイクロホンアレイmに係る音響信号から分離された各音源の音源別音響信号を所定の時間長(例えば、128点)のフレームごとに周波数分析を行ってスペクトル[Fm,1]、[Fm,2]〜[Fm,sm]を算出する。[…]は、ベクトル、行列など複数の値からなるセットを示す。sは、マイクロホンアレイmが取得した音響信号から音源定位ひいては音源分離により推定された音源の音源数を示す。ここで、スペクトル[Fm,1]、[Fm,2]〜[Fm,sm]は、それぞれ行ベクトルである。周波数分析において、周波数分析部124は、例えば、各音源別音響信号に128点のハミング窓を作用して得られる信号に短時間フーリエ変換(STFT:Short Term Fourier Transform)を行う。周波数分析部124は、時間的に隣接するフレームを重複させ、分析対象の区間をなすフレームを逐次にシフトさせる。周波数分析の単位であるフレームの要素数が128点である場合、個々のスペクトルの要素数は65点となる。隣接するフレームが重複する区間内の要素数は、例えば、32点である。
周波数分析部124は、音源ごとのスペクトルを行間で統合して式(1)に示すマイクロホンアレイmごとのスペクトル行列[F](mは、1からMまでの間の整数)を構成する。周波数分析部124は、構成したスペクトル行列[F]、[F]、〜[F]を、さらに行間で統合して式(2)に示すスペクトル行列[F]を構成する。周波数分析部124は、構成したスペクトル行列[F]と、各音源の定位音源方向を示す音源方向情報とを対応付けて音源特定部16に出力する。
Figure 0006859235
Figure 0006859235
音源位置推定部14は、初期値設定部140と、音源位置更新部142と、を含んで構成される。
初期値設定部140は、音源分離部122から入力されるマイクロホンアレイmごとの音源方向情報に基づいて三角分割法(triangulation)を用いて音源の候補として推定される位置である推定音源位置の初期値を定める。三角分割法は、M個のうち3個のマイクロホンアレイの組から定められ、ある音源の候補に係る3個の交点(intersection)の重心を、その音源の推定音源位置の初期値として定める手法である。以下の説明では、音源の候補を音源候補と呼ぶ。交点は、3個のマイクロホンアレイmのうち2個のマイクロホンアレイmの組ごとに、各マイクロホンアレイmの位置を通り、そのマイクロホンアレイmが取得された音響信号に基づいて推定された定位音源方向への直線が交わる点である。初期値設定部140は、音源候補ごとの推定音源位置の初期値を示す初期推定音源位置情報を音源位置更新部142に出力する。初期値設定処理の例については、後述する。
音源位置更新部142は、各2個のマイクロホンアレイmの組ごとに、それぞれのマイクロホンアレイmから、そのマイクロホンアレイmに基づく定位音源方向に係る音源候補の推定音源方向への直線の交点を定める。推定音源方向とは、推定音源位置への方向を意味する。音源位置更新部142は、定めた交点の空間分布についてクラスタリングを行い複数のクラスタ(群)に分類する。音源位置更新部142は、音源候補ごとの推定音源位置がそれぞれの音源候補に対応するクラスタに分類される確率である推定確率が高くなるように、その推定音源位置を更新する。
音源位置更新部142は、音源候補ごとの推定音源位置の初期値として、初期値設定部140から入力される初期推定音源位置情報が示す推定音源位置の初期値を用いる。音源位置更新部142は、推定音源位置もしくは推定音源方向の更新量が所定の更新量の閾値未満となったとき、推定音源位置もしくは推定音源方向の変化が収束したと判定し、推定音源位置の更新を停止する。音源位置更新部142は、音源候補ごとの推定音源位置を示す推定音源位置情報を音源特定部16に出力する。更新量が所定の更新量の閾値以上であるとき、音源位置更新部142は、音源候補ごとの推定音源位置を更新する処理を継続する。推定音源位置の更新処理の例については、後述する。
音源特定部16は、分散算出部160と、スコア算出部162と、音源選択部164と、を含んで構成される。
分散算出部160には、周波数分析部124からスペクトル行列[F]と音源方向情報が入力され、音源位置推定部14から推定音源位置情報が入力される。
分散算出部160は、次に説明する処理を所定の回数繰り返す。繰り返し回数Rは、予め分散算出部160に設定しておく。
分散算出部160は、スペクトル行列[F]が示す収音部20ごとの各音源のスペクトルについてクラスタリングを行い、複数のクラスタ(群)に分類する。分散算出部160が実行するクラスタリングは、音源位置更新部142が実行するクラスタリングと独立である。分散算出部160は、クラスタリングの手法として、例えば、k−平均法(k−means clustering)を用いる。k−平均法では、クラスタリングの対象とする複数のデータのそれぞれをランダムにk個のクラスタに割り当てる。分散算出部160は、各繰り返し回数rにおいてスペクトルごとの初期値として、割り当てられるクラスタを変更する。以下の説明では、分散算出部160が分類したクラスタを第2クラスタと呼ぶ。分散算出部160は、第2クラスタのそれぞれに属する複数のスペクトルの類似度を示す指標値を算出する。分散算出部160は、算出した指標値が所定の類似度を示す指標値よりも高いか否かにより、各スペクトルに係る音源候補が同一であるか否かを判定する。
音源候補が同一と判定した第2クラスタに対応する音源候補について、分散算出部160は、その推定音源位置情報が示すその音源候補の推定音源位置の分散を算出する。後述するように、この段階では、第2クラスタの個数よりも、音源位置更新部142が音源位置を更新する音源候補の個数の方が多くなる可能性があるためである。分散算出部160は、例えば、第2クラスタについて現在の繰り返し回数rにおいて算出した分散が、前回の繰り返し回数r−1において算出した分散より大きいとき、スコアを0とする。分散算出部160は、その第2クラスタについて現在の繰り返し回数rにおいて算出した分散が、前回の繰り返し回数r−1において算出した分散と等しいか、より小さいとき、スコアをεとする。εは、例えば、所定の正の実数である。分散の増加の頻度が多いほど、第2クラスタに分類される推定音源位置が繰り返し回数により異なる、つまり、第2クラスタとしての安定性が低くなる。言い換えれば、設定されるスコアは、第2クラスタの安定性を示す。音源選択部164において、スコアが高い第2クラスタほど対応する音源候補の推定音源位置が優先して選択される。
他方、音源候補が同一ではないと判定した第2クラスタについて、分散算出部160は、対応する音源候補がないと判定し、その推定音源位置の分散が有効ではないと判定し、スコアをδとする。δは、例えば、0より小さい負の実数である。これにより、音源選択部164において、音源候補が同一と判定した音源候補に係る推定音源位置が、同一と判定しなかった音源候補よりも優先して選択される。
分散算出部160は、第2クラスタごとの各繰り返し回数のスコアと推定音源位置を示すスコア算出情報をスコア算出部162に出力する。
スコア算出部162は、分散算出部160から入力されるスコア算出情報に基づいて第2クラスタに対応する音源候補ごとの最終スコアを算出する。ここで、スコア算出部162は、第2クラスタごとに有効な分散を定めた回数である有効を計数し、各回のスコアの合計値を算出する。スコアの合計値は、各回で分散が増加する回数である有効回数が多いほど大きくなる。即ち、第2クラスタの安定性が高いほど、スコアの合計値が大きくなる。なお、この段階では、1個の推定音源位置が複数の第2クラスタにまたがる場合がある。そこで、スコア算出部162は、推定音源位置ごとのスコアの合計値の総和を、計数した有効回数の総和で除算してその推定音源位置に対応する音源候補の最終スコアを算出する。スコア算出部162は、算出した音源候補の最終スコアと推定音源位置を示す最終スコア情報を音源選択部164に出力する。
音源選択部164は、スコア算出部162から入力される最終スコア情報が示す音源候補の最終スコアが、所定の最終スコアの閾値θ以上となる音源候補を音源として選択する。音源選択部164は、最終スコアが、閾値θ未満となる音源候補を棄却する。音源選択部164は、選択した音源について、音源ごとの推定音源位置を示す出力音源位置情報を出力部18に出力する。
出力部18は、音源選択部164から入力される出力音源位置情報を、音響処理装置1の外部に出力する。出力部18は、例えば、入出力インタフェースを含んで構成される。出力部18と入力部10とは、共通のハードウェアで構成されてもよい。出力部18は、出力音源位置情報を表示する表示部(例えば、ディスプレイ)を備えてもよい。音響処理装置1は、出力部18とともに、又は出力部18に代えて、出力音源位置情報を記憶する記憶媒体を含んで構成されてもよい。
(MUSIC法)
次に、音源定位の一手法であるMUSIC法について説明する。
MUSIC法は、以下に説明する空間スペクトルのパワーPext(ψ)が極大であって、所定のレベルよりも高い方向ψを定位音源方向として定める手法である。音源定位部120が備える記憶部には、予め所定の間隔(例えば、5°)で分布した方向ψごとの伝達関数を記憶させておく。本実施形態では、次に説明する処理をマイクロホンアレイmごとに実行する。
音源定位部120は、音源から各チャネルq(qは、1以上Q以下の整数)に対応するマイクロホンまでの伝達関数D[q](ω)を要素とする伝達関数ベクトル[D(ψ)]を方向ψごとに生成する。
音源定位部120は、各チャネルqの音響信号ξを所定の要素数からなるフレームごとに周波数領域に変換することによって変換係数ξ(ω)を算出する。音源定位部120は、算出した変換係数を要素として含む入力ベクトル[ξ(ω)]から式(3)に示す入力相関行列[Rξξ]を算出する。
Figure 0006859235
式(3)において、E[…]は、…の期待値を示す。[…]は、…が行列又はベクトルであることを示す。[…]は、行列又はベクトルの共役転置(conjugate transpose)を示す。
音源定位部120は、入力相関行列[Rξξ]の固有値δ及び固有ベクトル[ε]を算出する。入力相関行列[Rξξ]、固有値δ、及び固有ベクトル[ξ]は、式(4)に示す関係を有する。
Figure 0006859235
式(4)において、pは、1以上Q以下の整数である。インデックスpの順序は、固有値δの降順である。
音源定位部120は、伝達関数ベクトル[D(ψ)]と算出した固有ベクトル[ε]に基づいて、式(5)に示す周波数別空間スペクトルのパワーPsp(ψ)を算出する。
Figure 0006859235
式(5)において、Dは、検出可能とする音源の最大個数(例えば、2)であって、Qよりも小さい予め定めた自然数である。
音源定位部120は、S/N比が予め定めた閾値(例えば、20dB)よりも大きい周波数帯域における空間スペクトルPsp(ψ)の総和を全帯域の空間スペクトルのパワーPext(ψ)として算出する。
なお、音源定位部120は、MUSIC法に代えて、その他の手法を用いて定位音源方向を算出してもよい。例えば、重み付き遅延和ビームフォーミング(WDS−BF:Weighted Delay and Sum Beam Forming)法が利用可能である。WDS−BF法は、式(6)に示すように各チャネルqの全帯域の音響信号ξ(t)の遅延和の二乗値を空間スペクトルのパワーPext(ψ)として算出し、空間スペクトルのパワーPext(ψ)が極大となる定位音源方向ψを探索する手法である。
Figure 0006859235
式(6)において[D(ψ)]の各要素が示す伝達関数は、音源から各チャネルq(qは、1以上Q以下の整数)に対応するマイクロホンまでの位相の遅延による寄与を示す。[ξ(t)]は、時刻tの時点における各チャネルqの音響信号ξ(t)の信号値を要素とするベクトルである。
(GHDSS法)
次に、音源分離の一手法であるGHDSS法について説明する。
GHDSS法は、2つのコスト関数(cost function)として、分離尖鋭度(Separation Sharpness)JSS([V(ω)])と幾何制約度(Geometric Constraint)JGC([V(ω)])が、それぞれ減少するように分離行列[V(ω)]を適応的に算出する方法である。本実施形態では、各マイクロホンアレイmが取得した音響信号のそれぞれから音源別音響信号を分離する。
分離行列[V(ω)]は、音源定位部120から入力されたQチャネルの音響信号[ξ(ω)]に乗じることによって、検出される最大D個の音源それぞれの音源別音響信号(推定値ベクトル)[u’(ω)]を算出するために用いられる行列である。ここで、[…]は、行列又はベクトルの転置を示す。
分離尖鋭度JSS([V(ω)])、幾何制約度JGC([V(ω)])は、それぞれ、式(7)、(8)のように表される。
Figure 0006859235
Figure 0006859235
式(7)、(8)において、||…||は、行列…のフロベニウスノルム(Frobenius norm)である。フロベニウスノルムとは、行列を構成する各要素値の二乗和(スカラー値)である。φ([u’(ω)])は、音源別音響信号[u’(ω)]の非線形関数、例えば、双曲線正接関数(hyperbolic tangent function)である。diag[…]は、行列…の対角成分の総和を示す。従って、分離尖鋭度JSS([V(ω)])は、音源別音響信号(推定値)のスペクトルのチャネル間非対角成分の大きさ、つまり、ある1つの音源が他の音源として誤って分離される度合いを表す指標値である。また、式(8)において、[I]は、単位行列を示す。従って、幾何制約度JGC([V(ω)])とは、音源別音響信号(推定値)のスペクトルと音源別音響信号(音源)のスペクトルとの誤差の度合いを表す指標値である。
(初期値の設定)
次に、初期値の設定の例について説明する。各2個のマイクロホンアレイmに基づいて定められる交点は、理想的には各音源の音源位置と等しくなるはずである。図2は、互いに異なる位置に設置されたマイクロホンアレイMA、MA、MAのそれぞれが取得した音響信号に基づいて音源Sの定位音源方向が推定される場合を例にする。この例では、マイクロホンアレイMA、MA、MAの位置を通り、それぞれのマイクロホンアレイが取得した音響信号に基づいて推定された定位音源方向への直線が定められる。これらの3本の直線は、音源Sの位置において一点に交わる。
しかしながら、音源Sの定位音源方向には誤差が含まれる。現実的には、図3に示すように1つの音源に係る交点P、P、Pの位置が互いに異なる。交点Pは、マイクロホンアレイMA、MAの位置を通り、それぞれのマイクロホンアレイMA、MAが取得した音響信号から推定された音源Sの定位音源方向の直線の交点である。交点Pは、マイクロホンアレイMA、MAの位置を通り、それぞれのマイクロホンアレイMA、MAが取得した音響信号から推定された音源Sの定位音源方向の直線の交点である。交点Pは、マイクロホンアレイMA、MAの位置を通り、それぞれのマイクロホンアレイMA、MAが取得した音響信号から推定された音源Sの定位音源方向の直線の交点である。同一の音源Sについて、各マイクロホンアレイが取得した音響信号から推定される定位音源方向の誤差がランダムであれば、真の音源位置は、交点P、P、Pのそれぞれを頂点とする三角形の内部の領域にあることが期待される。そこで、初期値設定部140は、交点P、P、P間の重心を、音源Sの候補である音源候補の推定音源位置の初期値xとして定める。
但し、音源定位部120が各マイクロホンアレイmから取得した音響信号から推定する音源方向の数は、1個には限らず、複数になることがある。そのため、交点P、P、Pは、互いに同一の音源Sの方向に基づいて定められるとは限らない。そこで、初期値設定部140は、3個の交点P、P、Pのうち、各2個の交点間の距離L12、L23、L13が、いずれも予め定めた距離の閾値θ未満であるか、少なくとも交点間の距離のいずれかが、その閾値θ以上となる距離が存在するか否かを判定する。いずれも閾値θ未満と判定するとき、初期値設定部140は、それらの交点P、P、Pの重心を音源候補nの音源位置の初期値xとして採用する。初期値設定部140は、少なくとも交点間の距離のいずれかが、その閾値θ以上となる場合、交点P、P、Pの重心を音源位置の初期値xとして定めずに、棄却する。
ここで、音源位置推定部14には、M個のマイクロホンアレイMA,MA,…,MAのそれぞれの位置uMA1,uMA2,…,uMAMを、予め設定させておく。個々のマイクロホンアレイmの位置uMA1,uMA2,…,uMAMを要素とする位置ベクトル[u]は、式(9)で表わされる。
Figure 0006859235
式(9)において、マイクロホンアレイmの位置uMAm(mは、1からMの間の整数)は、x座標uMAxm、y座標uMAymを要素値とする2次元の座標[uMAxm,uMAym]である。
上述したように、音源定位部120は、各マイクロホンアレイMAが取得したQチャネルの音響信号から、それぞれ最大D個の定位音源方向d’(1),d’(2),…,d’(D)をフレームごとに定める。定位音源方向d’(1),d’(2),…,d’(D)を要素とするベクトル[d’]は、式(10)で表わされる。
Figure 0006859235
次に、本実施形態に係る初期値設定処理の一例について説明する。
図4は、本実施形態に係る初期値設定処理の一例を示すフローチャートである。
(ステップS162)初期値設定部140は、三角分割法においてM個のマイクホンアレイから互いに異なる3個のマイクロホンアレイm、m、mの組(triplet)を選択する。その後、ステップS164の処理に進む。
(ステップS164)初期値設定部140は、選択した3個の組のマイクロホンアレイm、m、mのそれぞれについて、それぞれのマイクロホンアレイが取得した音響信号に基づいて推定された最大D個の音源から各1個の音源δ、δ、δの定位音源方向d’m1(δ)、d’m2(δ)、d’m3(δ)を選択する。選択された3個の定位音源方向d’m1(δ)、d’m2(δ)、d’m3(δ)を要素とする方向ベクトル[d”]は、式(11)で表される。なお、δ、δ、δは、それぞれ1からDの間の整数である。
Figure 0006859235
初期値設定部140は、3個のマイクロホンアレイのうち各2つのマイクロホンアレイの組(対;pair)について、それぞれのマイクロホンアレイを通り、それぞれのマイクロホンアレイが取得した音響信号から推定された定位音源方向の直線の交点P、P、Pの座標を算出する。なお、以下の説明では、2つの組のマイクロホンアレイのそれぞれを通り、それぞれのマイクロホンアレイが取得した音響信号から推定された定位音源方向の直線の交点を、「マイクロホンアレイ、定位音源方向間の交点」と呼ぶことがある。式(12)に示すように、交点Pは、マイクロホンアレイm、mの位置と、定位音源方向d’m1(δ)、d’m2(δ)により定まる。交点Pは、マイクロホンアレイm、mの位置と、定位音源方向d’m2(δ)、d’m3(δ)により定まる。交点Pは、マイクロホンアレイm、mの位置と、定位音源方向d’m1(δ)、d’m3(δ)により定まる。その後、ステップS166の処理に進む。
Figure 0006859235
(ステップS166)初期値設定部140は、互いに異なる交点P、P間の距離L12、交点P、P間の距離L23、交点P、P間の距離L13をそれぞれ算出する。
算出した距離L12、L23、L13がいずれも閾値θ以下となる場合、初期値設定部140は、3個の交点の組み合わせを、音源候補nに係る組み合わせとして選択する。その場合、初期値設定部140は、式(13)に示すように、交点P、P、Pの重心を音源候補nの音源推定位置の初期値xとして定める。
他方、距離L12、L23、L13の少なくともいずれか1つが閾値θより大きいとなる場合、初期値設定部140は、これらの交点の組み合わせを棄却し、初期値xを定めない。式(13)において、φは空集合を示す。その後、図4に示す処理を終了する。
Figure 0006859235
初期値設定部140は、マイクロホンアレイm、m、mごとに推定される定位音源方向の組み合わせd’m1(δ)、d’m2(δ)、d’m3(δ)ごとに、ステップS162〜S166の処理を実行する。これにより、音源候補として不適切な交点の組み合わせが棄却され、音源候補nごとに音源推定位置の初期値xが定められる。なお、以下の説明では音源候補数を、Nで表す。
また、初期値設定部140は、M個のマイクロホンアレイのうち、3個のマイクロホンアレイの組ごとに、ステップS162〜S166の処理を実行してもよい。これにより、音源の候補nの検出漏れを少なくすることができる。
図5は、4個のマイクロホンアレイMA〜MAのうち、3個のマイクロホンアレイMA〜MAをマイクロホンアレイm〜mとして選択し、それぞれ推定された定位音源方向d’m1、d’m2、d’m3の組み合わせから推定音源位置の初期値xを定める場合を示す。交点Pの方向は、それぞれマイクロホンアレイm、mの位置を基準とする定位音源方向d’m1、d’m2と同一の方向となる。交点Pの方向は、それぞれマイクロホンアレイm、mの位置を基準とする音源方向d’m2、d’m3と同一の方向となる。交点Pの方向は、それぞれマイクロホンアレイm、mの位置を基準とする定位音源方向d’m1、d’m3と同一の方向となる。定められた初期値xの方向は、それぞれマイクロホンアレイm、m、mの位置を基準とする方向d”m1、d”m2、d”m3となる。よって、音源定位により推定される定位音源方向d’m1、d’m2、d’m3が、それぞれ推定音源方向d”m1、d”m2、d”m3に修正される。
(推定音源位置の更新処理)
次に、推定音源位置の更新処理について説明する。音源定位により推定される音源方向は誤差を含むため、音源方向間の交点から推定される候補音源ごとの推定音源位置も誤差を含む。これらの誤差がランダムであれば、推定音源位置ならびに交点は、各音源の真の音源位置の周囲に分布することが期待される。そこで、本実施形態に係る音源位置更新部142は、各2個のマイクロホンアレイ、推定音源方向間の交点についてクラスタリングを行い、これらの交点の分布を複数のクラスタに分類する。ここで、推定音源方向とは、推定音源位置の方向を意味する。クラスタリングの手法として、音源位置更新部142は、例えば、k−平均法を用いる。音源位置更新部142は、音源候補ごとの推定音源位置がそれぞれの音源候補に対応するクラスタに分類される可能性の度合いである推定確率が高くなるように、その推定音源位置を更新する。
(確率モデル)
推定音源位置を算出する際、音源位置更新部142は、三角分割法に基づく確率モデルを用いる。この確率モデルでは、音源候補ごとの推定音源位置がそれぞれの音源候補に対応するクラスタに分類される推定確率が、第1確率と、第2確率と、第3確率と、をそれぞれ因子とする積で表されるように分解されるように近似できるものと仮定する。第1確率は、音源定位により定位音源方向が定められるとき、その音源に対応する音源候補の推定音源位置の方向である推定音源方向が得られる確率である。第2確率は、2つのマイクロホンアレイそれぞれの位置からその推定音源方向への直線の交点が定められるとき、その推定音源位置が得られる確率である。第3確率は、その交点の分類されるクラスタへの出現確率である。
より具体的には、第1確率は、それぞれ定位音源方向d’mj、d’mkを基準とするフォン・ミーゼス分布(von−Mises distribution)に従うものと仮定する。つまり、第1確率は、音源定位により各マイクロホンアレイm、mが取得される音響信号から推定される定位音源方向d’mj、d’mkに、確率分布がフォン・ミーゼス分布となる誤差が含まれるとの仮定に基づく。理想的には、図6に示す例では、誤差がなければ、定位音源方向d’mj、d’mkとして真の音源方向dmj、dmkが得られる。
第2確率は、マイクロホンアレイm、m、推定音源方向dmj、dmk間の交点sj,kの位置を基準とする多次元ガウス関数に従うものと仮定する。つまり、第2確率は、各マイクロホンアレイm、mのそれぞれを通り、それぞれの方向が推定音源方向dmj、dmkとなる直線の交点sj,kとなる推定音源位置に、確率分布が多次元ガウス分布となる誤差としてガウス雑音が含まれているとの仮定に基づく。理想的には、交点sj,kの座標が多次元ガウス関数の平均値μcj,kとなる。
従って、音源位置更新部142は、音源定位により得られた定位音源方向d’mj、d’mkに基づいて、音源候補の推定音源方向を与える交点sj,kの座標が、交点sj,kの分布を近似する多次元ガウス関数の平均値μcj,kに極力近づくように推定音源方向dmj、dmkを推定する。
第3確率は、マイクロホンアレイm、mのそれぞれを通り、それぞれの方向が推定音源方向dmj、dmkとなる直線の交点sj,kが分類されるクラスタcj,kの出現確率を示す。つまり、第3確率は、その交点sj,kに相当する推定音源位置のクラスタcj,kへの出現確率を示す。
各クラスタと音源を対応付けるため、音源位置更新部142は、音源候補ごとの推定音源位置xの初期値について、初期クラスタリング(initial clustering)を行ってクラスタの個数Cを定める。
初期クラスタリングでは、音源位置更新部142は、式(14)に示すように、音源候補ごとの推定音源位置xについて所定のユークリッド距離の閾値φをパラメータとしてそれぞれ用いて階層クラスタリング(hierarchical clustering)を行って複数のクラスタに分類する。階層クラスタリングとは、1個の対象データだけを含む複数のクラスタを初期状態として生成し、それぞれ異なる対応データを含む2つのクラスタ間のユークリッド距離を算出し、算出したユークリッド距離が最も小さいクラスタ同士を逐次に併合して、新たなクラスタを形成する手法である。クラスタを併合する処理は、ユークリッド距離が閾値φに達するまで繰り返す。閾値φとして、例えば、音源位置の推定誤差よりも大きい値を予め設定しておけばよい。従って、閾値φより距離が小さい複数の音源候補同士が1つのクラスタに集約され、それぞれのクラスタが音源に対応付けられる。そして、クラスタリングにより得られるクラスタの数Cが音源数として推定される。
Figure 0006859235
式(14)において、hierarchyとは、階層クラスタリングを示す。cは、クラスタリングに得られる各クラスタのインデックスcを示す。max(…)は、…の最大値を示す。
次に、確率モデルの適用例について説明する。上述したように、各マイクロホンアレイmについて、定位音源方向d’miが定められるとき推定音源方向dmiが得られる第1確率(d’mi,dmi;βmi)は、式(15)に示すフォン・ミーゼス分布に従うものと仮定する。
Figure 0006859235
フォン・ミーゼス分布は、最大値、最小値を、それぞれ1、0とする連続関数であり、定位音源方向d’miと推定音源方向dmiが等しいときに最大値1をとり、定位音源方向d’miと推定音源方向dmiのなす角が大きいほど関数値が小さくなる。式(15)において、音源方向d’mi、推定音源方向dmiは、それぞれ大きさが1に正規化された単位ベクトルで示されている。βmiは、関数値の広がりを示す形状パラメータを示す。形状パラメータβmiが大きいほど、第1の確率は正規分布に近似し、形状パラメータβmiが小さいほど、第2の確率は一様分布に近似する。I(βmi)は、第0次の第一種変形ベッセル関数を示す。フォン・ミーゼス分布は、音源方向のように角度に加わったノイズの分布をモデル化するうえで好適である。確率モデルでは、形状パラメータβmiをモデルパラメータの1つとする。
音響処理システムS1全体として、定位音源方向[d’]のもとで推定音源方向[d]が得られる確率p([d’]|[d])は、式(16)に示すようにマイクロホンアレイm間での第1確率f(d’mi,dmi;βmi)の総乗と仮定する。
Figure 0006859235
ここで、定位音源方向[d’]、推定音源方向[d]は、それぞれ定位音源方向d’mi、推定音源方向dmiを要素として含むベクトルである。
また、確率モデルでは、マイクロホンアレイm、m、推定音源方向dmj、dmk間の交点sj,kが得られるとき、その交点sj,kが分類されるクラスタcj,kに対応する推定音源位置が得られる第2確率p(sj,k|cj,k)が、式(17)に示す多変量ガウス分布N(sj,k;μcj,k,Σcj,k)に従うことを仮定する。μcj,k、Σcj,kは、それぞれ多変量ガウス分布の平均、分散を示す。この平均は、推定音源位置、推定音源位置の分布の大きさや偏りを示す。交点sj,kは、上述したように、マイクロホンアレイm、mそれぞれの位置u、uと、推定音源方向dmj、dmkとから定まる関数である。以下の説明では、交点の位置を、g(dmj、dmk)と示すことがある。確率モデルでは、平均μcj,k、分散Σcj,kをモデルパラメータの一部とする。
Figure 0006859235
音響処理システムS1全体として、各2つのマイクロホンアレイ、推定音源方向[d]間の交点の分布が得られるとき、それぞれの候補音源に対応するクラスタ[c]が得られる確率p([d]|[c])は、式(18)に示すように交点間での第2確率p(sj,k|cj,k)の総乗に近似されるものと仮定する。[c]は、クラスタcj,kを要素として含むベクトルである。
Figure 0006859235
また、確率モデルでは、第3確率として、2つのマイクロホンアレイm、m、推定音源方向dmj、dmk間の交点sj,kが分類されるクラスタcj,kの出現確率p(cj,k)をモデルパラメータの1つとする。このパラメータをπcj,kと表すことがある。
(音源位置の更新)
次に、上述した確率モデルを用いた音源位置の更新処理について説明する。
音源位置更新部142は、音源定位により定位音源方向[d’]が得られるとき、音源候補ごとの推定音源位置[d]がそれぞれの音源候補に対応するクラスタ[c]に分類される推定確率p([c],[d],[d’])が高くなるように、推定音源位置[d]を再帰的に更新する。音源位置更新部142は、各2つのマイクロホンアレイ、推定音源方向間の交点の分布についてクラスタリングを行ってクラスタ[c]に分類する。
推定音源位置[d]を更新するため、音源位置更新部142は、ビタビ学習法(Viterbi Training)を応用した手法を用いる。
音源位置更新部142は、式(19)に示すように、モデルパラメータ[μ],[Σ],[β]を一定として、推定確率p([c],[d],[d’];[μ],[Σ],[β])を最大化する推定音源位置[d]、クラスタ[c]を算出する処理と、式(20)に示すように、算出した推定音源位置[d]、クラスタ[c]を一定として、推定確率p([c],[d],[d’];[μ],[Σ],[β])を最大化するモデルパラメータ[π]、[μ]、[Σ]、[β]を算出する処理と、を逐次に繰り返す。…は、最大化したパラメータ…を示す。ここで、最大化とは、巨視的に増加させること、もしくはそのための処理を意味し、その処理により一時的もしくは局所的に減少する場合もありうる。
Figure 0006859235
Figure 0006859235
式(19)の右辺は、式(16)〜(18)を代入して、式(21)に示すように変形される。
Figure 0006859235
式(21)に示すように、推定確率p([c],[d],[d’])は、上述の第1確率と、第2確率と、第3確率と、をそれぞれ因子とする積で表される。但し、式(21)において値がゼロ以下となる因子を、乗算対象としない。
式(21)の右辺は、式(22)、(23)に示すようにクラスタcj,kの関数と音源方向[d]の関数に分解される。従って、クラスタcj,kと推定音源方向[d]は、個々に更新可能となる。
Figure 0006859235
Figure 0006859235
音源位置更新部142は、式(22)の右辺の値をより大きくするように全ての交点g(d mj,d mk)をクラスタc j,kを要素とするクラスタ[c]に分類する。
音源位置更新部142は、クラスタc j,kを定める際、階層クラスタリングを行う。階層クラスタリングは、各2つのクラスタ間の距離を算出し、最も距離が小さい2つのクラスタを併合して新たなクラスタを生成する処理を逐次に繰り返す手法である。このとき、音源位置更新部142は、2つのクラスタ間の距離として、一方のクラスタに分類される交点g(d mj,d mk)と他方のクラスタcj’,k’の中心である平均μcj’,k’との間の距離のうち最も小さい距離を用いる。
一般に、推定音源方向[d]は、他の変数との依存性が高いため解析的に最適値を算出することは困難である。そこで、式(23)の右辺を式(24)に示すように近似的に推定音源方向dmiの関数に分解する。音源位置更新部142は、式(24)の右辺第3〜5行に示す値をコスト関数としてより大きくするように個々の推定音源方向dmiを更新する。
Figure 0006859235
推定音源方向dmiを更新する際、音源位置更新部142は、次に説明する制約条件(c1)、(c2)のもとで、最急降下法(gradient descent method)を用いて推定音源方向d miを探索する。
(c1)音源定位により推定された定位音源方向[d’]のそれぞれが、それぞれ対応する真の音源方向[d]に近似している。
(c2)推定音源位置に相当する平均μcj,kが、直前に更新された推定音源方向d mj、d mk、d miに基づく3つの交点P、P、Pを頂点とする三角形の領域内にある。但し、マイクロホンアレイmは、マイクロホンアレイm、mとは別個のマイクロホンアレイである。
例えば、推定音源方向dm3を更新する際、図7に示すように、音源位置更新部142は、マイクロホンアレイmから交点Pの方向を起点dmin(m3)とし、マイクロホンアレイmから交点Pの方向を終点dmax(m3)とする方向の範囲内で、上述のコスト関数が最も大きくなる推定音源方向dm3を推定音源方向d m3として定める。他の音源方向dm1、dm2等を更新する際も、音源位置更新部142は、同様の制約条件を課してコスト関数が最も大きくなる推定音源方向dm1、dm2を探索する。即ち、音源位置更新部142は、マイクロホンアレイmから交点Pの方向を起点dmin(m1)とし、交点Pの方向を終点dmax(m1)とする方向の範囲内で、コスト関数が最も大きくなる推定音源方向d m1を探索する。音源位置更新部142は、マイクロホンアレイmから交点Pの方向を起点dmin(m2)とし、交点Pの方向を終点dmax(m2)とする方向の範囲内で、コスト関数が最も大きくなる推定音源方向d m2を探索する。従って、推定音源方向の探索領域が、直前に更新された推定音源方向d m1等に基づいて定めた探索領域内に制限されるので、計算量が低減することができる。また、コスト関数の非線形性による解の不安定性が回避される。
なお、式(20)の右辺は、式(16)〜(18)を代入して、式(25)に示すように変形される。音源位置更新部142は、式(25)の右辺の値を大きくするように、モデルパラメータのセット[π]、[μ]、[Σ]、[β]を更新する。
Figure 0006859235
音源位置更新部142は、式(25)の右辺の値をより大きくするため、式(26)に示す関係を用いて、定位音源方向[d’]、更新された推定音源方向[d]及び更新されたクラスタ[c]に基づいて、各クラスタcのモデルパラメータπ 、μ 、Σ と各マイクロホンアレイmのモデルパラメータβ を算出することができる。
Figure 0006859235
式(26)において、モデルパラメータπ は、音源候補数Nに対する、推定音源位置がクラスタcに属する音源候補数Nの割合、即ち、推定音源が分類されるクラスタcへの出現確率を示す。モデルパラメータμ は、クラスタcに属する交点sj,k(=g(d mj, mk))の座標の平均値、即ち、クラスタcの中心を示す。モデルパラメータμ は、クラスタcに属する交点sj,kの座標の分散を示す。モデルパラメータβ は、マイクロホンアレイiについての定位音源方向d’miと推定音源方向d miとの内積の平均値を示す。
次に、本実施形態に係る音源位置更新処理の一例について説明する。
図8は、本実施形態に係る音源位置更新処理の一例を示すフローチャートである。
(ステップS182)音源位置更新部142は、更新処理に係る各種の初期値を設定する。音源位置更新部142は、初期値設定部140から入力された初期推定音源位置情報が示す音源候補ごとの推定音源位置の初期値を設定する。また、音源位置更新部142は、推定音源位置の初期値[d]、クラスタの初期値[c]、出現確率の初期値π 、平均の初期値μ 、分散の初期値Σ 、形状パラメータの初期値β 、を、それぞれ式(27)に示すように設定する。推定音源方向の初期値[d]として、定位音源方向[d’]が設定される。クラスタの初期値cj,kとして、音源推定位置の初期値xが属するクラスタcが設定される。出現確率の初期値π として、クラスタ数Cの逆数が設定される。平均の初期値μ として、クラスタcに属する音源推定位置の初期値xの平均値が設定される。分散の初期値Σ として、単位行列が設定される。形状パラメータの初期値β として、1が設定される。その後、ステップS184の処理に進む。
Figure 0006859235
(ステップS184)音源位置更新部142は、上述の制約条件のもとで、式(24)の右辺に示すコスト関数が大きくなるように推定音源方向d miを更新する。その後、ステップS186の処理に進む。
(ステップS186)音源位置更新部142は、式(26)に示す関係を用いて各クラスタcの出現確率π 、平均μ 、分散Σ と各マイクロホンアレイmの形状パラメータβ を算出する。その後、ステップS188の処理に進む。
(ステップS188)音源位置更新部142は、更新した推定音源方向d mj、d mkから交点g(d mj,d mk)を定める。音源位置更新部142は、式(22)の右辺に示すコスト関数の値が大きくなるように、交点(d mj,d mk)の分布についてクラスタリングを行って複数のクラスタcj,kに分類する。その後、ステップS190の処理に進む。
(ステップS190)音源位置更新部142は、音源方向d miと推定音源位置x とする平均μcj,kのいずれか又は両方の更新量を算出し、算出した更新量が所定の更新量よりも小さいか否かにより、収束したか否かを判定する。更新量は、例えば、更新前後の音源方向d miの差分のマイクロホンアレイ間m間の二乗和、平均μcj,kの更新前後の差分のクラスタc間の二乗和の一方又はそれらの重み付き和のいずれであってもよい。収束したと判定する場合(ステップS190 YES)、ステップS192の処理に進む。収束していないと判定する場合(ステップS190 NO)、ステップS184の処理に戻る。
(ステップS192)音源位置更新部142は、更新された推定音源位置x 最確(most probable)音源位置として定める。音源位置更新部142は、音源候補ごとの推定音源位置を示す推定音源位置情報を音源特定部16に出力する。音源位置更新部142は、更新された推定音源方向[d]を最確音源方向として定め、音源候補ごとの推定音源方向を示す推定音源位置情報を音源特定部16に出力してもよい。また、音源位置更新部142は、音源候補ごとの音源識別情報をさらに推定音源位置情報に含めて出力してもよい。音源識別情報には、各音源候補の推定音源位置の初期値に係る3個のマイクロホンアレイを示すインデックスの少なくともいずれか1つと、マイクロホンアレイごとの音源定位により推定された音源を示すインデックスの少なくともいずれか1つが含まれればよい。その後、図8に示す処理を終了する。
(音源特定部の処理)
次に、本実施形態に係る音源特定部16の処理について説明する。音源位置更新部142は、3個のマイクロホンアレイのうち、各2つのマイクロホンアレイにより取得された音源方向の3つの交点に基づいて、推定音源位置を定めていた。しかしながら、各マイクロホンアレイから取得されて音響信号により独立に音源方向が推定されうる。そのため、音源位置更新部142は、2個のマイクロホンアレイのそれぞれについて、互いに異なる音源の音源方向同士で交点を定めてしまうことがある。その交点は、音源が実在している位置とは異なる位置に生じるため、いわゆるゴースト(虚像)として検出されることがある。例えば、図9に示す例では、マイクロホンアレイMA、MA、MAにより、それぞれ音源S、S、Sの方向に音源方向が推定される。その場合、マイクロホンアレイMA、MAによる交点Pは、いずれも音源Sの方向に基づいて定められるため、音源Sの位置に近似する。しかしながら、マイクロホンアレイMA、MAによる交点Pは、それぞれ音源S、Sの方向に基づいて定められるため、音源S、Sのいずれの位置からも離れた位置となる。
そこで、音源特定部16は、マイクロホンアレイごとの各音源の音源別信号のスペクトルを複数の第2のクラスタに分類し、前記第2のクラスタのそれぞれに属する各スペクトルに係る音源が同一であるか否かを判定する。音源特定部16は、同一と判定した音源の前記推定音源位置を、同一でないと判定した音源よりも優先して選択する。これにより、虚像の検出により音源位置が誤って推定されることが防止される。
(周波数分析)
周波数分析部124は、音源ごとに分離された音源別音響信号について周波数分析を行う。図10は、本実施形態に係る周波数分析処理の一例を示すフローチャートである。
(ステップS202)周波数分析部124は、各マイクロホンアレイmで取得された音響信号から分離された各音源の音源別音響信号をフレームごとに短時間フーリエ変換を行ってスペクトル[Fm,1]、[Fm,2]〜[Fm,sm]を算出する。その後、ステップS204の処理に進む。
(ステップS204)周波数分析部124は、音源ごとに算出した周波数スペクトルをマイクロホンアレイmごとに行間で統合して、スペクトル行列[F]を構成する。周波数分析部124は、マイクロホンアレイmごとのスペクトル行列[F]を行間で統合してスペクトル行列[F]を構成する。周波数分析部124は、構成したスペクトル行列[F]と音源方向情報とを対応付けて音源特定部16に出力する。その後、図10に示す処理を終了する。
(スコア算出)
音源特定部16の分散算出部160とスコア算出部162は、次に例示するスコア算出処理を行う。
図11は、本実施形態に係るスコア算出処理の一例を示すフローチャートである。
(ステップS222)分散算出部160は、周波数分析部124から入力されるスペクトル行列[F]が示すマイクロホンアレイmならびに音源の組ごとのスペクトルについてk−平均法を用いてクラスタリングを行い、複数の第2クラスタに分類する。クラスタ数Kは、予め分散算出部160に設定しておく。但し、分散算出部160は、スペクトルごとのクラスタの初期値を、繰り返し回数rごとに変更する。クラスタ数Kは、音源候補数Nと等しくしてもよい。分散算出部160は、スペクトルごとに分類される第2クラスタのインデックスci,x*nを要素として含むクラスタ行列[c]を構成する。クラスタ行列[c]の各列、各行は、それぞれマイクロホンアレイi、音源x に対応付けられる。マイクロホンアレイの数Mが3である場合、クラスタ行列[c]は、式(28)に示すように、N行3列の行列となる。
Figure 0006859235
分散算出部160は、音源位置更新部142から入力される推定音源位置情報が示す音源候補ごとの音源識別情報に基づいて、各音源候補に対応する第2クラスタを特定する。分散算出部160は、例えば、クラスタ行列において音源識別情報が示すマイクロホンアレイの列と音源列のうち、クラスタ行列に含まれるマイクロホンアレイの列と音源の行に配置された、インデックスが示す第2クラスタを特定することができる。
分散算出部160は、第2クラスタに対応する音源候補ごとの推定音源位置の分散Vx*nを算出する。その後、ステップS224の処理に進む。
(ステップS224)分散算出部160は、第2クラスタcx*nのそれぞれについて、
分類された複数のスペクトルに係る音源が互いに同一の音源であるか否かを判定する。分散算出部160は、例えば、複数のスペクトルのうち、各2つのスペクトル間の類似度を示す指標が示す類似度が、いずれも所定の類似度よりも高いとき、同一の音源であると判定する。分散算出部160は、少なくとも1組のスペクトル間の類似度を示す指標が所定の類似度以下となるとき、同一の音源ではないと判定する。類似度の指標として、例えば、内積、ユークリッド距離、などを用いることができる。内積は、その値が大きいほど類似度が高いことを示す。ユークリッド距離は、その値が小さいほど類似度が低いことを示す。なお、分散算出部160は、複数のスペクトルの類似度の指標として、それらの分散を算出してもよい。分散算出部160は、分散が所定の分散の閾値よりも小さいとき、同一の音源であると判定し、分散がその閾値以上であるとき、同一の音源ではないと判定してもよい。同一の音源であると判定する場合(ステップS224 YES)、ステップS226の処理に進む。同一の音源ではないと判定する場合(ステップS224 NO)、ステップS228の処理に進む。
(ステップS226)分散算出部160は、現在の繰り返し回数rにおいて第2クラスタcx*nについて算出した分散Vx*n(r)が、前回の繰り返し回数r−1に算出した分散Vx*n(r−1)以下になったか否かを判定する。分散Vx*n(r−1)以下になったと判定する場合(ステップS226 YES)、ステップS232の処理に進む。分散Vx*n(r−1)より大きいと判定する場合(ステップS226 NO)、ステップS230の処理に進む。
(ステップS228)分散算出部160は、現在の繰り返し回数rの第2クラスタcx*nの分散Vx*n(r)をNaNと設定し、スコアen,rをδとする。NaNは、分散が無効であることを示す記号(not a number)である。δは、0よりも小さい所定の実数である。その後、ステップS234の処理に進む。
(ステップS230)分散算出部160は、現在の繰り返し回数rの第2クラスタcx*nのスコアen,rを0とする。その後、ステップS234の処理に進む。
(ステップS232)分散算出部160は、現在の繰り返し回数rの第2クラスタcx*nのスコアen,rをεとする。その後、ステップS234の処理に進む。
(ステップS234)分散算出部160は、現在の繰り返し回数rが所定の繰り返し回数Rに達したか否かを判定する。達していないと判定するとき(ステップS234 NO)、ステップS236の処理に進む。達したと判定するとき(ステップS234 YES)、分散算出部160は、第2クラスタごとの各回のスコアと推定音源位置を示すスコア算出情報をスコア算出部162に出力し、ステップS238の処理に進む。
(ステップS236)分散算出部160は、現在の繰り返し回数rを、1増加させる。その後、ステップS222の処理に戻る。
(ステップS238)スコア算出部162は、式(29)に示すように分散算出部160から入力されるスコア算出情報に基づいて、第2クラスタcx*nごとにスコアen,rの合計値eを算出する。スコア算出部162は、座標値xが相互に所定の範囲内にある推定音源位置xにそれぞれ対応する第2クラスタiの合計値eの総和e’を算出する。これは、相互に座標値が等しいもしくは所定の範囲内にある推定音源位置に対応する第2クラスタを、1個の第2クラスタとして統合するためである。相互に座標値が等しいもしくは所定の範囲内にある推定音源位置に対応する第2クラスタが生じるのは、一般に各1個の音源からの発音期間の方が周波数分析に係るフレーム長よりも長いうえ、周波数特性が変動するためである。
Figure 0006859235
スコア算出部162は、式(30)に示すように分散算出部160から入力されるスコア算出情報に基づいて、第2クラスタcx*nごとに有効な分散が算出された回数を存在度数aとして計数する。スコア算出部162は、有効な分散が算出されていないか否かを、分散Vx*n(r)にNaNが設定されたか否かにより判定することができる。式(30)の第1行の右辺のan,rは、NaNが設定された繰り返し回数rについて0、NaNが設定されていない繰り返し回数rについて1となる。
スコア算出部162は、座標値xが相互に所定の範囲内にある推定音源位置xにそれぞれ対応する第2クラスタiの存在度数aの総和a’を算出する。その後、ステップS240の処理に進む。
Figure 0006859235
(ステップS240)スコア算出部162は、式(31)に示すように、統合した第2クラスタnのそれぞれについてスコアの総和e’を存在度数の総和a’で除算して最終スコアe を算出する。統合した第2クラスタnは、個々の音源候補に対応する。スコア算出部162は、算出した音源候補ごとの最終スコアと推定音源位置を示す最終スコア情報を音源選択部164に出力する。その後、図11に示す処理を終了する。
Figure 0006859235
上述の例では、ステップS228、S230、S232においてスコアen,rをそれぞれδ、0、εとする場合を例にしたが、これには限られない。ステップS228、S230、S232において定められるスコアen,rの値の大小関係は、その昇順であればよい。
(音源選択)
音源選択部164は、次に例示する音源選択処理を行う。
図12は、本実施形態に係る音源選択処理の一例を示すフローチャートである。
(ステップS242)音源選択部164は、スコア算出部162から入力された最終スコア情報が示す音源候補の最終スコアe が所定の最終スコアの閾値θ以上であるか否かを判定する。閾値θ以上と判定する場合(ステップS242 YES)、ステップS244の処理に進む。閾値θ未満と判定する場合(ステップS242 NO)、ステップS246の処理に進む。
(ステップS244)音源選択部164は、最終スコアe が正常値(Inlier)と判定し、その音源候補を音源として選択する。音源選択部164は、選択した音源に対応する推定音源位置を示す出力音源位置情報を音響処理装置1の外部に出力部18を介して出力する。
(ステップS246)音源選択部164は、最終スコアe が異常値(Outlier)と判定し、対応する音源候補を音源として選択せずに棄却する。その後、図12に示す処理を終了する。
(音響処理)
音響処理装置1は、全体として次に例示する音響処理を行う。
図13は、本実施形態に係る音響処理の一例を示すフローチャートである。
(ステップS12)音源定位部120は、入力部10から入力され、各マイクロホンアレイから取得された複数チャネルの音響信号に基づいて各音源の定位音源方向を予め定めた長さのフレームごとに推定する(音源定位)。音源定位部120は、音源定位において、例えば、MUSIC法を用いる。その後、ステップS14の処理に進む。
(ステップS14)音源分離部122は、音源ごとの定位音源方向に基づいて、各マイクロホンアレイから取得された音響信号を音源ごとの音源別音響信号に分離する。音源分離部122は、音源分離部において、例えば、GHDSS法を用いる。その後、ステップS16の処理に進む。
(ステップS16)初期値設定部140は、三角分割法により、3個のマイクロホンアレイのうち、各2個のマイクロホンアレイの組ごとに推定された定位音源方向に基づいて交点を定める。初期値設定部140は、定めた交点を音源候補の推定音源位置の初期値として定める。その後、ステップS18の処理に進む。
(ステップS18)音源位置更新部142は、各2個のマイクロホンアレイの組ごとに推定音源方向に基づいて定められる交点の分布を複数のクラスタに分類する。音源位置更新部142は、音源候補ごとの推定音源位置が、それぞれの音源候補に対応するクラスタに属する確率が高くなるように推定音源位置を更新する。ここで、音源位置更新部142は、上述の音源位置更新処理を行う。その後、ステップS20の処理に進む。
(ステップS20)周波数分析部124は、各マイクロホンアレイについて音源ごとに分離した音源別音響信号について周波数分析を行い、スペクトルを算出する。その後、ステップS22の処理に進む。
(ステップS22)分散算出部160は、算出したスペクトルを複数の第2クラスタに分類し、分類した第2クラスタに属するスペクトルに係る音源が相互に同一であるか否かを判定する。分散算出部160は、第2クラスタに属するスペクトルに係る音源候補ごとの推定音源位置の分散を算出する。スコア算出部162は、同一と判定された音源に係る第2クラスタを、同一でないと判定した音源に係る第2クラスタよりも大きくなるように第2クラスタごとの最終スコアを定める。スコア算出部162は、クラスタの安定性として、繰り返しごとの推定音源位置の分散の増加が稀な第2クラスタほど大きくなるように最終スコアを定める。ここで、分散算出部160とスコア算出部162は、上述のスコア算出処理を行う。その後、ステップS24の処理に進む。
(ステップS24)音源選択部164は、最終スコアが、所定の最終スコアの閾値以上となる第2クラスタに対応する音源候補を音源として選択し、最終スコアの閾値未満となる第2クラスタに対応する音源候補を棄却する。音源選択部164は、選択した音源に係る推定音源位置を出力する。その後、図13に示す処理を終了する。
(フレームデータ解析)
音響処理システムS1は、記憶部(図示せず)を備え、図13に示す音響処理を行う前に、各マイクロホンアレイが収音した音響信号を記憶しておいてもよい。記憶部は、音響処理装置1の一部として構成されてもよいし、音響処理装置1とは別個の外部機器に設置されてもよい。音響処理装置1は、記憶部から読み出した音響信号を用いて図13に示す音響処理を行ってもよい(バッチ処理)。
上述の図13の音響処理のうち、音源位置更新処理(ステップS18)、スコア算出処理(ステップS22)は、複数のフレームの音響信号に基づく各種のデータを要するうえ、処理時間が長い。オンライン処理において、あるフレームについて図13の処理を完了した後で、次のフレームの処理を開始すると、出力が間欠的となるため現実的ではない。
そこで、オンライン処理において、初期処理部12によるステップS12、S14、S20の処理が、音源位置推定部14と音源特定部16によるステップS16、S18、S22、S24の処理と並列に行われてもよい。但し、ステップS12〜S14、S20の処理において、現時点tまでの第1区間内の音響信号もしくは音響信号から導出された各種のデータを処理対象とする。ステップS12、S14、S20の処理において、現時点tまでの第1区間内の音響信号もしくは音響信号から導出された各種のデータを処理対象とする。ステップS16、S18、S22、S24の処理において、第1区間よりも過去の第2区間内の音響信号もしくは各種のデータを処理対象とする。
図14は、処理対象のデータ区間の例を示す図である。
図14において、左右方向は時刻を示す。右上のtは、現時点を示す。wは、個々のフレームw、w、…のフレーム長を示す。音響処理装置1の入力部10には、フレームごとに最新の音響信号が入力され、音響処理装置1の記憶部(図示せず)は、期間がn・wの音響信号と導出されるデータを記憶する。そして、記憶部は、フレームごとに最も過去の音響信号とデータを棄却する。nは、記憶される全データのフレーム数を示す。初期処理部12は、全データのうち最新の第1区間内のデータを用いて、ステップS12〜S14、S20の処理を行う。第1区間の長さが、初期処理長n・wに相当する。nは、予め定めた初期処理長のフレーム数を示す。音源位置推定部14と音源特定部16は、全データのうち第1区間の終期よりも後の第2区間のデータを用いて、ステップS16、S18、S22、S24の処理を行う。第2区間の長さが、バッチ長n・wに相当する。nは、予め定めたバッチ長のフレーム数を示す。第1区間、第2区間には、フレームごとに、それぞれ最新のフレームの音響信号、第n+1フレームの音響信号と導出されるデータが加入される。他方、第1区間、第2区間には、フレームごとに第nフレームの音響信号とその音響信号から導出されるデータと、第nフレームの音響信号と導出されるデータが棄却される。このように、初期処理部12と、音源位置推定部14ならびに音源特定部16は、それぞれ第1区間内のデータと、第2区間内のデータとを使い分けることで、出力がフレーム間で継続するように図13に示す音響処理がオンラインで実行可能となる。
以上に説明したように、本実施形態に係る音響処理装置1は、位置が異なるM個の収音部20のそれぞれから取得した複数チャネルの音響信号に基づいて音源の方向である定位音源方向を定める音源定位部120を備える。また、音響処理装置1は、2個の収音部20の組ごとに当該収音部20のそれぞれから音源の推定音源位置への方向である推定音源方向への直線の交点を定める音源位置推定部14を備える。音源位置推定部14は、交点の分布を複数のクラスタに分類し、推定音源位置がその音源に対応するクラスタに分類される確率である推定確率が高くなるように推定音源位置を更新する。
この構成により、それぞれ異なる収音部20からの定位音源方向により定まる交点が分類されるクラスタの範囲内に、対応する音源の推定音源位置が分類される可能性が高くなるように推定音源位置が調整される。クラスタの範囲内には音源が存在する可能性が高くなるため、調整される推定音源位置がより正確な音源位置として得られる。
また、推定確率は、定位音源方向が定められるとき推定音源方向が得られる確率である第1確率と、交点が定められるとき推定音源位置が得られる確率である第2確率と、交点が分類されるクラスタの出現確率である第3確率と、をそれぞれ因子とする積である。
一般に、定位音源方向、推定音源位置及び交点は相互に依存するが、音源位置推定部14は、第1確率、第2確率及び第3確率をそれぞれ独立な推定確率の因子として推定音源位置を定めることができる。そのため、推定音源位置の調整に係る計算負荷が低減する。
また、第1確率は、定位音源方向を基準とするフォン・ミーゼス分布に従い、第2確率は、交点の位置を基準とする多次元ガウス関数に従う。音源位置推定部14は、推定確率が高くなるように、フォン・ミーゼス分布の形状パラメータと、多次元ガウス関数の平均ならびに分散と、を更新する。
この構成により、第1確率の推定音源方向の関数、第2確率の推定音源位置の関数が、それぞれ形状パラメータ、平均ならびに分散といった少数のパラメータで表される。そのため、推定音源位置の調整に係る計算負荷がさらに低減する。
また、音源位置推定部14は、収音部20の3個から定められる3個の交点の重心を推定音源位置の初期値として定める。
この構成により、推定音源位置の初期値を、音源が存在する可能性が高い3個の交点をそれぞれ頂点とする三角形の領域内に設定することができる。そのため、調整による推定音源位置の変化が収束するまでの計算負荷が低減する。
また、音響処理装置1は、複数チャネルの音響信号から音源ごとの音源別信号に分離する音源分離部122と、音源別信号のスペクトルを算出する周波数分析部124を備える。音響処理装置1は、算出したスペクトルを複数の第2クラスタに分類し、第2クラスタのそれぞれに分類される各スペクトルに係る音源が同一であるか否かを判定し、同一と判定した音源の推定音源位置を、同一でないと判定した音源よりも優先して選択する音源特定部16を備える。
この構成により、スペクトルに基づいて同一と判定されなかった音源の定位音源方向の交点に基づいて推定された推定音源位置が棄却される可能性が高くなる。そのため、互いに異なる音源の推定音源方向の交点に基づいて推定音源位置が虚像(ゴースト)として誤って選択される可能性を低くすることができる。
音源特定部16は、第2クラスタのそれぞれに分類されるスペクトルに係る音源の推定音源位置の分散に基づいて当該第2クラスタの安定性を評価し、安定性が高い第2クラスタほど当該第2クラスタにスペクトルが分類される音源の推定音源位置を優先して選択する。
この構成により、推定音源位置が定常的な音源のスペクトルが分類される第2クラスタに対応する音源の推定音源位置が選択される可能性が高くなる。即ち、推定音源位置が選択される第2クラスタには、偶発的に互いに異なる音源の推定音源方向の交点に基づいて推定される推定音源位置が含まれる可能性が低くなる。そのため、互いに異なる音源の推定音源方向の交点に基づいて推定音源位置が虚像として誤って選択される可能性をさらに低くすることができる。
以上、図面を参照してこの発明の実施形態について説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、分散算出部160は、図11の処理のうちステップS222、S224の処理を行い、ステップS226〜S240の処理を行わなくてもよい。その場合には、スコア算出部162が省略されてもよい。その場合、音源選択部164は、第2クラスタに分類されるスペクトルに係る音源が互いに同一と判定された第2クラスタに対応する候補音源を音源として選択し、同一と判定されない第2クラスタに対応する候補音源を棄却してもよい。音源選択部164は、選択した音源に対応する推定音源位置を示す出力音源位置情報を音響処理装置1の外部に出力する。
また、音響処理装置1において、周波数分析部124と音源特定部16が省略されてもよい。その場合、音源位置更新部142は、音源候補ごとの推定音源位置を示す推定音源位置情報を出力部18に出力する。
音響処理装置1は、収音部20−1〜20−Mと一体化した単一の装置として構成されてもよい。
収音部20の数Mは、3個に限られず4個以上であってもよい。また、収音部20ごとに収音可能とする音響信号のチャネル数が異なってもよいし、それぞれの音響信号から推定可能な音源数が異なってもよい。
第1確率が従う確率分布は、フォン・ミーゼス分布に限られず、ロジスティック関数の導関数など、1次元空間内のある基準値に対する最大値を与える1次元の確率分布であればよい。
第2確率が従う確率分布は、多次元ガウス関数に限られず、多次元ロジスティック関数の一次導関数など、多次元空間内のある基準値に対する最大値を与える多次元の確率分布であればよい。
なお、上述した実施形態及び変形例における音響処理装置1の一部、例えば、音源定位部120、音源分離部122、周波数分析部124、初期値設定部140、音源位置更新部142、分散算出部160、スコア算出部162及び音源選択部164をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音響処理装置1に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態及び変形例における音響処理装置1の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音響処理装置1の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
S1…音響処理システム、1…音響処理装置、10…入力部、12…初期処理部、14…音源位置推定部、16…音源特定部、18…出力部、120…音源定位部、122…音源分離部、124…周波数分析部、140…初期値設定部、142…音源位置更新部、160…分散算出部、162…スコア算出部、164…音源選択部

Claims (7)

  1. 位置が異なるM(Mは、3以上の整数)個の収音部のそれぞれから取得した複数チャネルの音響信号に基づいて音源の方向である定位音源方向を定める音源定位部と、
    3個の前記収音部の組のうち2個の前記収音部の対ごとに当該収音部のそれぞれから前記定位音源方向への直線の交点を定め、それぞれ定めた交点の重心を音源の位置の推定値である推定音源位置の初期値として定め、
    前記収音部の対ごとに当該収音部のそれぞれから前記推定音源位置への方向である推定音源方向への直線の交点を定め、前記交点の分布を複数のクラスタに分類し、
    前記推定音源位置が前記音源に対応するクラスタに分類される確率である推定確率がより高くなるように、前記推定音源位置と前記クラスタを一定にして当該推定確率が従う確率モデルモデルパラメータを更新する処理と、
    前記推定確率がより高くなるように、前記モデルパラメータを一定にして前記推定音源位置と前記クラスタを更新する処理と、を行う音源位置推定部と、
    を備える音響処理装置。
  2. 前記推定確率は、前記定位音源方向が定められるとき前記推定音源方向が得られる確率である第1確率と、前記交点が定められるとき前記推定音源位置が得られる確率である第2確率と、前記交点が分類されるクラスタの出現確率である第3確率と、をそれぞれ因子とする積である
    請求項1に記載の音響処理装置。
  3. 前記第1確率は、前記定位音源方向を基準とするフォン・ミーゼス分布に従い、前記第2確率は、前記交点の位置を基準とする多次元ガウス関数に従い、
    前記音源位置推定部は、
    前記推定確率がより高くなるように、前記フォン・ミーゼス分布の形状パラメータと、前記多次元ガウス関数の平均ならびに分散と、を更新する
    請求項2に記載の音響処理装置。
  4. 前記複数チャネルの音響信号から音源ごとの音源別信号に分離する音源分離部と、
    前記音源別信号のスペクトルを算出する周波数分析部と、
    前記スペクトルを複数の第2クラスタに分類し、前記第2クラスタのそれぞれに分類される各スペクトルに係る音源が同一であるか否かを判定し、
    同一と判定した音源の前記推定音源位置を、同一でないと判定した音源の前記推定音源位置よりも優先して選択する音源特定部と、
    を備える請求項1から請求項3のいずれか一項に記載の音響処理装置。
  5. 前記音源特定部は、
    前記第2クラスタのそれぞれに分類されるスペクトルに係る音源の前記推定音源位置の分散に基づいて当該第2クラスタの安定性を評価し、
    前記安定性が高い第2クラスタほど当該第2クラスタにスペクトルが分類される音源の前記推定音源位置を優先して選択する
    請求項4に記載の音響処理装置。
  6. 音響処理装置における音響処理方法であって、
    前記音響処理装置が、
    位置が異なるM(Mは、3以上の整数)個の収音部のそれぞれから取得した複数チャネルの音響信号に基づいて音源の方向である定位音源方向を定める音源定位過程と、
    3個の前記収音部の組のうち2個の前記収音部の対ごとに当該収音部のそれぞれから前記定位音源方向への直線の交点を定め、それぞれ定めた交点の重心を音源の位置の推定値である推定音源位置の初期値として定め、
    前記収音部の対ごとに当該収音部のそれぞれから前記推定音源位置への方向である推定音源方向への直線の交点を定め、前記交点の分布を複数のクラスタに分類し、
    前記推定音源位置が前記音源に対応するクラスタに分類される確率である推定確率がより高くなるように、前記推定音源位置と前記クラスタを一定にして当該推定確率が従う確率モデルモデルパラメータを更新する処理と、
    前記推定確率がより高くなるように、前記モデルパラメータを一定にして前記推定音源位置と前記クラスタを更新する処理と、を行う音源位置推定過程と、
    を有する音響処理方法。
  7. 位置が異なるM(Mは、3以上の整数)個の収音部のそれぞれから取得した複数チャネルの音響信号に基づいて音源の方向である定位音源方向を定める音源定位手順と、
    3個の前記収音部の組のうち2個の前記収音部の対ごとに当該収音部のそれぞれから前記定位音源方向への直線の交点を定め、それぞれ定めた交点の重心を音源の位置の推定値である推定音源位置の初期値として定め、
    前記収音部の対ごとに当該収音部のそれぞれから前記推定音源位置への方向である推定音源方向への直線の交点を定め、前記交点の分布を複数のクラスタに分類し、
    前記推定音源位置が前記音源に対応するクラスタに分類される確率である推定確率がより高くなるように、前記推定音源位置と前記クラスタを一定にして当該推定確率が従う確率モデルモデルパラメータを更新する処理と、
    前記推定確率がより高くなるように、前記モデルパラメータを一定にして前記推定音源位置と前記クラスタを更新する処理と、を行う音源位置推定手順と、
    を実行させるためのプログラム。
JP2017172452A 2017-09-07 2017-09-07 音響処理装置、音響処理方法及びプログラム Active JP6859235B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017172452A JP6859235B2 (ja) 2017-09-07 2017-09-07 音響処理装置、音響処理方法及びプログラム
US16/120,751 US10356520B2 (en) 2017-09-07 2018-09-04 Acoustic processing device, acoustic processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017172452A JP6859235B2 (ja) 2017-09-07 2017-09-07 音響処理装置、音響処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019049414A JP2019049414A (ja) 2019-03-28
JP6859235B2 true JP6859235B2 (ja) 2021-04-14

Family

ID=65518425

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017172452A Active JP6859235B2 (ja) 2017-09-07 2017-09-07 音響処理装置、音響処理方法及びプログラム

Country Status (2)

Country Link
US (1) US10356520B2 (ja)
JP (1) JP6859235B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020194717A1 (ja) * 2019-03-28 2020-10-01 日本電気株式会社 音響認識装置、音響認識方法、及び、プログラムが格納された非一時的なコンピュータ可読媒体
CN110111808B (zh) * 2019-04-30 2021-06-15 华为技术有限公司 音频信号处理方法及相关产品
CN110673125B (zh) * 2019-09-04 2020-12-25 珠海格力电器股份有限公司 一种基于毫米波雷达的声源定位方法、装置、设备以及存储介质
CN111106866B (zh) * 2019-12-13 2021-09-21 南京理工大学 基于海森矩阵预估计的星载ais/ads-b碰撞信号分离方法
CN113009414B (zh) * 2019-12-20 2024-03-19 中移(成都)信息通信科技有限公司 信号源位置确定方法、装置、电子设备及计算机存储介质
CN112946578B (zh) * 2021-02-02 2023-04-21 上海头趣科技有限公司 双耳定位方法
CN113138363A (zh) * 2021-04-22 2021-07-20 苏州臻迪智能科技有限公司 一种声源定位方法、装置、存储介质和电子设备
JPWO2023286119A1 (ja) * 2021-07-12 2023-01-19

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5829534B2 (ja) 1974-12-17 1983-06-23 松下電器産業株式会社 フカクドウソウチ
JP4767247B2 (ja) * 2005-02-25 2011-09-07 パイオニア株式会社 音分離装置、音分離方法、音分離プログラムおよびコンピュータに読み取り可能な記録媒体
US7372773B2 (en) * 2005-04-08 2008-05-13 Honeywell International, Inc. Method and system of providing clustered networks of bearing-measuring sensors
US8155331B2 (en) 2006-05-10 2012-04-10 Honda Motor Co., Ltd. Sound source tracking system, method and robot
US20110317522A1 (en) * 2010-06-28 2011-12-29 Microsoft Corporation Sound source localization based on reflections and room estimation
JP5412470B2 (ja) * 2011-05-27 2014-02-12 株式会社半導体理工学研究センター 位置測定システム
US9989626B2 (en) * 2013-04-12 2018-06-05 Hitachi, Ltd. Mobile robot and sound source position estimation system
JP6059072B2 (ja) * 2013-04-24 2017-01-11 日本電信電話株式会社 モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム
US9429432B2 (en) * 2013-06-06 2016-08-30 Duke University Systems and methods for defining a geographic position of an object or event based on a geographic position of a computing device and a user gesture
US20170009228A1 (en) * 2014-01-13 2017-01-12 Imperial Innovations Limited Biological materials and therapeutic uses thereof
US10370840B2 (en) * 2014-07-11 2019-08-06 The Drain Company, Llc Drain and drain leveling mechanism
JP6467736B2 (ja) * 2014-09-01 2019-02-13 株式会社国際電気通信基礎技術研究所 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
US9972315B2 (en) * 2015-01-14 2018-05-15 Honda Motor Co., Ltd. Speech processing device, speech processing method, and speech processing system
JP6606784B2 (ja) * 2015-09-29 2019-11-20 本田技研工業株式会社 音声処理装置および音声処理方法

Also Published As

Publication number Publication date
US10356520B2 (en) 2019-07-16
JP2019049414A (ja) 2019-03-28
US20190075393A1 (en) 2019-03-07

Similar Documents

Publication Publication Date Title
JP6859235B2 (ja) 音響処理装置、音響処理方法及びプログラム
JP7001566B2 (ja) 音響処理装置、音響処理方法、およびプログラム
JP3949150B2 (ja) 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
EP2123116B1 (en) Multi-sensor sound source localization
US9971012B2 (en) Sound direction estimation device, sound direction estimation method, and sound direction estimation program
US10390130B2 (en) Sound processing apparatus and sound processing method
JP2017044916A (ja) 音源同定装置および音源同定方法
US20140072142A1 (en) Sound direction estimation device, sound processing system, sound direction estimation method, and sound direction estimation program
Guo et al. Localising speech, footsteps and other sounds using resource-constrained devices
JP7235534B2 (ja) マイクロホンアレイ位置推定装置、マイクロホンアレイ位置推定方法、およびプログラム
US11081126B2 (en) Processing of sound data for separating sound sources in a multichannel signal
US11120819B2 (en) Voice extraction device, voice extraction method, and non-transitory computer readable storage medium
JP2019066339A (ja) 音による診断装置、診断方法、および診断システム
US10674261B2 (en) Transfer function generation apparatus, transfer function generation method, and program
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
US11322169B2 (en) Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program
JP5705190B2 (ja) 音響信号強調装置、音響信号強調方法、およびプログラム
JP5414160B2 (ja) 感性評価装置及び方法
JP7024615B2 (ja) 音響信号分離装置、学習装置、それらの方法、およびプログラム
JP6974279B2 (ja) 音響処理装置、音響処理方法およびプログラム
Yen et al. Noise power spectral density scaled SNR response estimation with restricted range search for sound source localisation using unmanned aerial vehicles
Joya et al. Design of Room-Layout Estimator Using Smart Speaker
JP2016065764A (ja) 推定システムおよび推定方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201215

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210209

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210316

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210325

R150 Certificate of patent or registration of utility model

Ref document number: 6859235

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150