JP2008064733A - 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム - Google Patents

音源方向推定装置、音源方向推定方法、及びコンピュータプログラム Download PDF

Info

Publication number
JP2008064733A
JP2008064733A JP2007033911A JP2007033911A JP2008064733A JP 2008064733 A JP2008064733 A JP 2008064733A JP 2007033911 A JP2007033911 A JP 2007033911A JP 2007033911 A JP2007033911 A JP 2007033911A JP 2008064733 A JP2008064733 A JP 2008064733A
Authority
JP
Japan
Prior art keywords
signal
calculated
frequency
calculating
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007033911A
Other languages
English (en)
Other versions
JP5070873B2 (ja
Inventor
Shoji Hayakawa
昭二 早川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007033911A priority Critical patent/JP5070873B2/ja
Priority to EP07112565.2A priority patent/EP1887831B1/en
Priority to US11/878,038 priority patent/US7970609B2/en
Priority to CN2007101382380A priority patent/CN101122636B/zh
Priority to KR1020070077162A priority patent/KR100883712B1/ko
Publication of JP2008064733A publication Critical patent/JP2008064733A/ja
Application granted granted Critical
Publication of JP5070873B2 publication Critical patent/JP5070873B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

【課題】マイクロホンからの音入力中に周囲雑音が存在する場合であっても、音源の存在方向を高精度で推定することができる。
【解決手段】複数方向に存在する音源からの音響信号が複数チャンネルの入力として受け付けられ(S301)、周波数軸上の信号に変換される(S303)。変換された周波数軸上の信号の位相成分が同一周波数ごとに算出され、複数チャンネル間の位相差分が算出される(S304)。一方、変換された周波数軸上の信号の振幅成分が算出され(S305)、算出された振幅成分から雑音成分が推定される(306)。振幅成分及び雑音成分に基づいて周波数ごとのSN比が算出され(S307)、SN比が所定値よりも大きい周波数が選択される(S308)。選択された周波数の位相差分に基づいて到達距離の差分が算出され(S310)、目的とする音源が存在すると推定される方向が算出される(S311)。
【選択図】図3

Description

本発明は、複数のマイクロホンを用い、周囲雑音が存在する場合であっても、音源からの音入力の到来方向を高精度で推定することができる音源方向推定装置、音源方向推定方法、及びコンピュータプログラムに関する。
昨今のコンピュータ技術の進展により、大量の演算処理を必要とする音響信号処理であっても実用的な処理速度で実行できるようになってきた。このような事情から、複数のマイクロホンを用いたマルチチャンネルの音響処理機能の実用化が期待されている。その一例が、音響信号の到来方向を推定する音源方向推定処理である。音源方向推定処理は、複数のマイクロホンを設置しておき、目的とする音源からの音響信号が2つのマイクロホンに到達した際の遅延時間を求め、マイクロホン間の到達距離の差及びマイクロホンの設置間隔に基づいて、音源からの音響信号の到来方向を推定する処理である。
従来の音源方向推定処理は、例えば2つのマイクロホンから入力された信号間の相互相関を算出し、相互相関が最大になる時間での2つの信号間の遅延時間を算出する。算出された遅延時間に、常温の空気中での音の伝播速度である約340m/s(温度に応じて変化する)を乗算することにより到達距離差が求められるので、マイクロホンの設置間隔から三角法に従って音響信号の到来方向が算出される。
また、特許文献1に開示されているように、2つのマイクロホンから入力された音響信号の周波数ごとの位相差スペクトルを算出し、周波数ベースに直線近似した場合の位相差スペクトルの傾きに基づいて、音源からの音響信号の到来方向を算出することも可能である。
特開2003−337164号公報
上述した従来の音源方向推定方法では、雑音が重畳した場合には相互相関が最大になる時間を特定すること自体が困難である。このことは、音源からの音響信号の到来方向を正しく特定することが困難になるという問題点を招来する。また、特許文献1に開示されている方法であっても、位相差スペクトルを算出する際に、雑音が重畳している場合には位相差スペクトルが激しく変動するので、位相差スペクトルの傾きを正確に求めることができないという問題点があった。
本発明は、以上のような事情に鑑みてなされたものであり、マイクロホンの周辺に周囲雑音が存在する場合であっても、目的とする音源からの音響信号の到来方向を高精度で推定することができる音源方向推定装置、音源方向推定方法、及びコンピュータプログラムを提供することを目的とする。
上記目的を達成するために第1発明に係る音源方向推定装置は、複数方向に存在する音源からの音響信号を複数チャンネルの入力として受け付け、チャンネルごとの時間軸上の信号に変換する音響信号受付手段と、該音響信号受付手段により変換された時間軸上の各信号を周波数軸上の信号にチャンネルごとに変換する信号変換手段と、該信号変換手段により変換された周波数軸上の各チャンネルの信号の位相成分を同一周波数ごとに算出する位相成分算出手段と、該位相成分算出手段により同一周波数ごとに算出された各チャンネルの信号の位相成分を用いて、複数チャンネル間の位相差分を算出する位相差分算出手段と、該位相差分算出手段により算出された位相差分に基づいて、目的とする音源からの音響信号の到達距離の差分を算出する到達距離差分算出手段と、該到達距離差分算出手段により算出された到達距離の差分に基づいて、目的とする音源が存在する方向を推定する音源方向推定手段とを備えた音源方向推定装置において、前記信号変換手段により変換された周波数軸上の信号の振幅成分を算出する振幅成分算出手段と、該振幅成分算出手段により算出された振幅成分から雑音成分を推定する雑音成分推定手段と、前記振幅成分算出手段により算出された振幅成分及び前記雑音成分推定手段により推定された雑音成分に基づいて周波数ごとの信号対雑音比を算出する信号対雑音比算出手段と、該信号対雑音比算出手段により算出された信号対雑音比が所定値よりも大きい周波数を抽出する周波数抽出手段とを備え、前記到達距離差分算出手段は、前記周波数抽出手段により抽出された周波数の位相差分に基づいて前記到達距離の差分を算出するようにしてあることを特徴とする。
また、第2発明に係る音源方向推定装置は、第1発明において、前記周波数抽出手段は、前記信号対雑音比算出手段により算出された信号対雑音比が所定値よりも大きい周波数を、算出された信号対雑音比の降順に所定数選択して抽出するようにしてあることを特徴とする。
また、第3発明に係る音源方向推定装置は、複数方向に存在する音源からの音響信号を複数チャンネルの入力として受け付け、チャンネルごとの時間軸上のサンプリング信号に変換する音響信号受付手段と、該音響信号受付手段により変換された時間軸上の各サンプリング信号を周波数軸上の信号にチャンネルごとに変換する信号変換手段と、該信号変換手段により変換された周波数軸上の各チャンネルの信号の位相成分を同一周波数ごとに算出する位相成分算出手段と、該位相成分算出手段により同一周波数ごとに算出された各チャンネルの信号の位相成分を用いて、複数チャンネル間の位相差分を算出する位相差分算出手段と、該位相差分算出手段により算出された位相差分に基づいて、目的とする音源からの音響信号の到達距離の差分を算出する到達距離差分算出手段と、該到達距離差分算出手段により算出された到達距離の差分に基づいて、目的とする音源が存在する方向を推定する音源方向推定手段とを備えた音源方向推定装置において、前記信号変換手段により所定のサンプリング時点で変換された周波数軸上の信号の振幅成分を算出する振幅成分算出手段と、該振幅成分算出手段により算出された振幅成分から雑音成分を推定する雑音成分推定手段と、前記振幅成分算出手段により算出された振幅成分及び前記雑音成分推定手段により推定された雑音成分に基づいて周波数ごとの信号対雑音比を算出する信号対雑音比算出手段と、該信号対雑音比算出手段により算出された信号対雑音比及び過去のサンプリング時点での位相差分の算出結果に基づいて、サンプリング時点での位相差分の算出結果を補正する補正手段とを備え、前記到達距離差分算出手段は、前記補正手段による補正後の位相差分に基づいて前記到達距離の差分を算出するようにしてあることを特徴とする。
また、第4発明に係る音源方向推定装置は、第1乃至第3発明のいずれか一つにおいて、前記音響信号受付手段により受け付けられた音響信号入力の内の音声を示す区間である音声区間を特定する音声区間特定手段を更に備え、前記信号変換手段は、前記音声区間特定手段により特定された音声区間の信号のみを周波数軸上の信号に変換するようにしてあることを特徴とする。
また、第5発明に係る音源方向推定方法は、複数方向に存在する音源からの音響信号を複数チャンネルの入力として受け付け、チャンネルごとの時間軸上の信号に変換するステップと、時間軸上の各チャンネルの信号を周波数軸上の信号に変換するステップと、変換された周波数軸上の各チャンネルの信号の位相成分を同一周波数ごとに算出するステップと、同一周波数ごとに算出された各チャンネルの信号の位相成分を用いて、複数チャンネル間の位相差分を算出するステップと、算出された位相差分に基づいて、目的とする音源からの音響信号の到達距離の差分を算出するステップと、算出された到達距離の差分に基づいて、目的とする音源が存在する方向を推定するステップとを含む音源方向推定方法において、変換された周波数軸上の信号の振幅成分を算出するステップと、算出された振幅成分から雑音成分を推定するステップと、算出された振幅成分及び推定された雑音成分に基づいて周波数ごとの信号対雑音比を算出するステップと、信号対雑音比が所定値よりも大きい周波数を抽出するステップとを含み、前記到達距離の差分を算出するステップは、抽出された周波数の位相差分に基づいて前記到達距離の差分を算出することを特徴とする。
また、第6発明に係る音源方向推定方法は、複数方向に存在する音源からの音響信号を複数チャンネルの入力として受け付け、チャンネルごとの時間軸上のサンプリング信号に変換するステップと、時間軸上の各サンプリング信号を周波数軸上の信号にチャンネルごとに変換するステップと、変換された周波数軸上の各チャンネルの信号の位相成分を同一周波数ごとに算出するステップと、同一周波数ごとに算出された各チャンネルの信号の位相成分を用いて、複数チャンネル間の位相差分を算出するステップと、算出された位相差分に基づいて、目的とする音源からの音響信号の到達距離の差分を算出するステップと、算出された到達距離の差分に基づいて、目的とする音源が存在する方向を推定するステップとを含む音源方向推定方法において、所定のサンプリング時点で変換された周波数軸上の信号の振幅成分を算出するステップと、算出された振幅成分から雑音成分を推定するステップと、算出された振幅成分及び推定された雑音成分に基づいて周波数ごとの信号対雑音比を算出するステップと、算出された信号対雑音比及び過去のサンプリング時点での位相差分の算出結果に基づいて、サンプリング時点での位相差分の算出結果を補正するステップとを含み、前記到達距離の差分を算出するステップは、補正後の位相差分に基づいて前記到達距離の差分を算出することを特徴とする。
また、第7発明に係るコンピュータプログラムは、コンピュータで実行することが可能であり、前記コンピュータを、複数方向に存在する音源からの音響信号を複数チャンネルの入力として受け付け、チャンネルごとの時間軸上の信号に変換する音響信号受付手段、時間軸上の各チャンネルの信号を周波数軸上の信号に変換する信号変換手段、変換された周波数軸上の各チャンネルの信号の位相成分を同一周波数ごとに算出する位相成分算出手段、同一周波数ごとに算出された各チャンネルの信号の位相成分を用いて、複数チャンネル間の位相差分を算出する位相差分算出手段、算出された位相差分に基づいて、目的とする音源からの音響信号の到達距離の差分を算出する到達距離差分算出手段、及び算出された到達距離の差分に基づいて、目的とする音源が存在する方向を推定する音源方向推定手段として機能させるコンピュータプログラムにおいて、前記コンピュータを、変換された周波数軸上の信号の振幅成分を算出する振幅成分算出手段、算出された振幅成分から雑音成分を推定する雑音成分推定手段、算出された振幅成分及び推定された雑音成分に基づいて周波数ごとの信号対雑音比を算出する信号対雑音比算出手段、及び算出された信号対雑音比が所定値よりも大きい周波数を抽出する周波数抽出手段として機能させ、前記到達距離差分算出手段としての機能は、前記周波数抽出手段としての機能により抽出された周波数の位相差分に基づいて前記到達距離の差分を算出するようにしてあることを特徴とする。
また、第8発明に係るコンピュータプログラムは、コンピュータで実行することが可能であり、前記コンピュータを、複数方向に存在する音源からの音響信号を複数チャンネルの入力として受け付け、チャンネルごとの時間軸上の信号に変換する音響信号受付手段、時間軸上の各サンプリング信号を周波数軸上の信号にチャンネルごとに変換する信号変換手段、変換された周波数軸上の各チャンネルの信号の位相成分を同一周波数ごとに算出する位相成分算出手段、同一周波数ごとに算出された各チャンネルの信号の位相成分を用いて、複数チャンネル間の位相差分を算出する位相差分算出手段、算出された位相差分に基づいて、目的とする音源からの音響信号の到達距離の差分を算出する到達距離差分算出手段、及び算出された到達距離の差分に基づいて、目的とする音源が存在する方向を推定する音源方向推定手段として機能させるコンピュータプログラムにおいて、前記コンピュータを、所定のサンプリング時点で変換された周波数軸上の信号の振幅成分を算出する振幅成分算出手段、算出された振幅成分から雑音成分を推定する雑音成分推定手段、算出された振幅成分及び推定された雑音成分に基づいて周波数ごとの信号対雑音比を算出する信号対雑音比算出手段、及び算出された信号対雑音比及び過去のサンプリング時点での位相差分の算出結果に基づいて、サンプリング時点での位相差分の算出結果を補正する補正手段として機能させ、前記到達距離差分算出手段としての機能は、前記補正手段としての機能による補正後の位相差分に基づいて前記到達距離の差分を算出するようにしてあることを特徴とする。
第1発明、第5発明、及び第7発明では、複数方向に存在する音源からの音響信号が複数チャンネルの入力として受け付けられ、チャンネルごとの時間軸上の信号に変換される。更に、時間軸上の各チャンネルの信号が周波数軸上の信号に変換され、変換された周波数軸上の各チャンネルの信号の位相成分が用いられることにより、複数チャンネル間の位相差分が周波数ごとに算出される。算出された位相差分(以下、位相差スペクトルともいう)に基づいて、目的とする音源からの音入力の到達距離の差分が算出され、算出された到達距離の差分に基づいて、音源が存在する方向が推定される。一方、変換された周波数軸上の信号の振幅成分が算出され、算出された振幅成分から背景雑音成分が推定される。算出された振幅成分及び推定された背景雑音成分に基づいて周波数ごとの信号対雑音比が算出される。そして、信号対雑音比が所定値よりも大きい周波数が抽出され、抽出された周波数の位相差分に基づいて到達距離の差分が算出される。この結果、入力された音響信号の振幅成分、いわゆる振幅スペクトルと、推定された背景雑音成分、いわゆる背景雑音スペクトルとに基づいて周波数ごとの信号対雑音比(SN比:Signal-to-Noise ratio)とが求められるので、信号対雑音比が大きい周波数での位相差分のみが用いられることにより、より正確な到達距離の差分を求めることができる。従って、精度の高い到達距離の差分に基づいて音響信号の入射角、即ち音源が存在する方向を高精度で推定することが可能になる。
第2発明では、信号対雑音比が所定値よりも大きい周波数が信号対雑音比の降順に所定数選択されて抽出される。この結果、雑音成分の影響度合が小さい周波数がサンプリングされて到達距離の差分が算出されるので、到達距離の差分の算出結果が大きくばらつくことがない。従って、より高精度で音響信号の入射角、即ち目的とする音源が存在する方向を推定することが可能になる。
第3発明、第6発明、及び第8発明では、複数方向に存在する音源からの音響信号が複数チャンネルの入力として受け付けられ、チャンネルごとの時間軸上のサンプリング信号に変換され、時間軸上の各サンプリング信号が周波数軸上の信号にチャンネルごとに変換される。変換された周波数軸上の各チャンネルの信号の位相成分が用いられることにより、複数チャンネル間の位相差分が周波数ごとに算出される。算出された位相差分に基づいて、目的とする音源からの音入力の到達距離の差分が算出され、算出された到達距離の差分に基づいて、目的とする音源が存在する方向が推定される。所定のサンプリング時点で変換された周波数軸上の信号の振幅成分が算出され、算出された振幅成分から背景雑音成分が推定される。算出された振幅成分及び推定された背景雑音成分に基づいて周波数ごとの信号対雑音比が算出される。そして、算出された信号対雑音比と過去のサンプリング時点での位相差分の算出結果とに基づいて、サンプリング時点での位相差分の算出結果が補正され、補正後の位相差分に基づいて到達距離の差分が算出される。この結果、過去のサンプリング時点での信号対雑音比が大きい周波数での位相差分の情報を反映させた位相差スペクトルを得ることができる。このため、背景雑音の状態、目的とする音源から発せられる音響信号の内容の変化等によって位相差分が大きくばらつくことがない。従って、より精度が高く安定した到達距離の差分に基づいて音響信号の入射角、即ち目的とする音源が存在する方向を高精度で推定することが可能になる。
第4発明では、受け付けられた音響信号の内の音声を示す区間である音声区間が特定され、特定された音声区間の信号のみが周波数軸上の信号に変換される。この結果、音声を発する音源が存在する方向を高精度で推定することが可能になる。
第1発明、第5発明、及び第7発明によれば、入力された音響信号の振幅成分、いわゆる振幅スペクトルと、推定された背景雑音スペクトルとに基づいて周波数ごとの信号対雑音比(SN比)が求められ、信号対雑音比が大きい周波数での位相差分(位相差スペクトル)のみを用いることにより、より正確な到達距離の差分を求めることができる。従って、精度の高い到達距離の差分に基づいて音響信号の入射角、即ち音源が存在する方向を高精度で推定することが可能になる。
第2発明によれば、雑音成分の影響の度合が小さい周波数を優先的に選択することにより到達距離の差分が算出されるので、到達距離の差分の算出結果が大きくばらつくことがない。従って、より高精度で音響信号の入射角、即ち目的とする音源が存在する方向を高精度で推定することが可能になる。
第3発明、第6発明、及び第8発明によれば、到達距離の差分を求めるために位相差分(位相差スペクトル)を算出する場合に、過去のサンプリング時点で算出された位相差分に基づき、新たに算出された位相差分を順次補正することができる。補正された位相差スペクトルには、過去のサンプリング時点での信号対雑音比が大きい周波数での位相差分の情報も反映されているので、背景雑音の状態、目的とする音源から発せられる音響信号の内容の変化等によって位相差分が大きくばらつくことがない。従って、より精度が高く安定した到達距離の差分に基づいて音響信号の入射角、即ち目的とする音源が存在する方向を高精度で推定することが可能になる。
第4発明によれば、音声を発する音源、例えば人間が存在する方向を高精度で推定することが可能になる。
以下、本発明をその実施の形態を示す図面に基づいて詳述する。本実施の形態では、処理対象の音響信号が主として人間が発する音声である場合について説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係る音源方向推定装置1を具現化する汎用コンピュータの構成を示すブロック図である。
本発明の実施の形態1に係る音源方向推定装置1として動作する汎用コンピュータは、少なくともCPU、DSP等の演算処理部11、ROM12、RAM13、外部のコンピュータとの間でデータ通信可能な通信インタフェース部14、音声入力を受け付ける複数の音声入力部15,15,…、音声を出力する音声出力部16を備えている。音声出力部16は通信網2を介してデータ通信可能な通信端末装置3,3,…の音声入力部31から入力された音声を出力する。なお、通信端末装置3,3,…の音声出力部32からは雑音を抑制した音声が出力される。
演算処理部11は内部バス17を介して音源方向推定装置1の上述したようなハードウェア各部と接続されている。演算処理部11は、上述したハードウェア各部を制御すると共に、ROM12に記憶されている処理プログラム、例えば周波数軸上の信号の振幅成分を算出するプログラム、算出された振幅成分から雑音成分を推定するプログラム、算出された振幅成分及び推定された雑音成分に基づいて周波数ごとの信号対雑音比(Signal-to-Noise ratio:SN比) を算出するプログラム、SN比が所定値よりも大きい周波数を抽出するプログラム、抽出された周波数の位相差分(以下、位相差スペクトルという)に基づいて到達距離の差分を算出するプログラム、到達距離の差分に基づいて音源の方向を推定するプログラム、等に従って種々のソフトウェア的機能を実行する。
ROM12は、フラッシュメモリ等で構成されており、汎用コンピュータを音源方向推定装置1として機能させるために必要な上述したような処理プログラム及び処理プログラムが参照する数値情報を記憶している。RAM13は、SRAM等で構成されており、プログラムの実行時に発生する一時的なデータを記憶する。通信インタフェース部14は、外部のコンピュータからの上述したプログラムのダウンロード、通信網2を介して通信端末装置3,3,…への出力信号の送信、及び入力された音響信号の受信等を行なう。
音声入力部15,15,…は、具体的には、それぞれ音声を受け付けるマイクロホンであり、音源の方向を特定するために複数のマイクロホン、増幅器、及びA/D変換器等で構成されている。音声出力部16はスピーカ等の出力装置である。なお、説明の便宜上、図1には音声入力部15及び音声出力部16が音源方向推定装置1に内蔵されているように図示されている。しかし、実際には音声入力部15及び音声出力部16がインタフェースを介して汎用コンピュータに接続されることによって音源方向推定装置1が構成されている。
図2は本発明の実施の形態1に係る音源方向推定装置1の演算処理部11が前述したような処理プログラムを実行することにより実現される機能を示すブロック図である。なお、図2に示されている例では、二つの音声入力部15、15がいずれも一本のマイクロホンである場合について説明する。
図2に示すように、本発明の実施の形態1に係る音源方向推定装置1は、処理プログラムが実行された場合に実現される機能ブロックとして、少なくとも音声受付部(音響信号受付手段)201、信号変換部(信号変換手段)202、位相差スペクトル算出部(位相差分算出手段)203、振幅スペクトル算出部(振幅成分算出手段)204、背景雑音推定部(雑音成分推定手段)205、SN比算出部(信号対雑音比算出手段)206、位相差スペクトル選択部(周波数抽出手段)207、到達距離差算出部(到達距離差分算出手段)208、及び音源方向推定部(音源方向推定手段)209を備えている。
音声受付部201は音源である人間が発する音声を2本のマイクロホンから音声入力としてそれぞれ受け付ける。本実施の形態では、入力1及び入力2がそれぞれマイクロホンである音声入力部15、15を介して受け付けられる。
信号変換部202は、入力された音声について、時間軸上の信号を周波数軸上の信号、即ちスペクトルIN1(f) 、IN2(f) に変換する。ここでfは周波数(radian)を示している。信号変換部202では、例えばフーリエ変換のような時間−周波数変換処理が実行される。本実施の形態1では、フーリエ変換のような時間−周波数変換処理により、入力された音声がスペクトルIN1(f) 、IN2(f) に変換される。
位相差スペクトル算出部203は、周波数変換されたスペクトルIN1(f) 、IN2(f) に基づいて位相スペクトルを算出し、算出された位相スペクトル間の位相差分である位相差スペクトルDIFF_PHASE(f) を周波数ごとに算出する。また、スペクトルIN1(f) 、IN2(f) それぞれの位相スペクトルを求めるのではなく、IN1(f) /IN2(f) の位相成分を求めることにより位相差スペクトルDIFF_PHASE(f) を求めてもよい。ここで、振幅スペクトル算出部204は、いずれか一方、例えば図2に示す例では入力1の入力信号スペクトルIN1(f) の振幅成分である振幅スペクトル|IN1(f) |を算出する。いずれの振幅スペクトルを算出するかは特に限定されるものではない。振幅スペクトル|IN1(f) |と|IN2(f) |とを算出し、大きい方の値を選択してもよい。
なお、実施の形態1では、フーリエ変換されたスペクトルにおける周波数ごとに振幅スペクトル|IN1(f) |を算出する構成を採っている。しかし、実施の形態1では、帯域分割を行ない、特定の中心周波数と間隔とで分割された分割帯域内で振幅スペクトル|IN1(f) |の代表値を求める構成を採ってもよい。その場合の代表値は、分割帯域内における振幅スペクトル|IN1(f) |の平均値であってもよいし、最大値であってもよい。なお、帯域分割された後の振幅スペクトルの代表値は|IN1(n)|になる。ここで、nは分割した帯域のインデックスを示している。
背景雑音推定部205は、振幅スペクトル|IN1(f) |に基づいて背景雑音スペクトル|NOISE1(f) |を推定する。背景雑音スペクトル|NOISE1(f) |の推定方法は特に限定されるものではない。音声認識での音声区間検出処理、又は携帯電話機等で用いられているノイズキャンセラ処理で行なわれる背景雑音推定処理等のような既に公知である方法を利用することが可能である。換言すれば、背景雑音のスペクトルを推定する方法であればどのような方法でも利用可能である。なお、上述したように、振幅スペクトルが帯域分割されている場合には、分割帯域ごとに背景雑音スペクトル|NOISE1(n)|を推定すればよい。ここで、nは分割された帯域のインデックスを示している。
SN比算出部206は、振幅スペクトル算出部204で算出された振幅スペクトル|IN1(f) |と、背景雑音推定部205で推定された背景雑音スペクトル|NOISE1(f) |との比率を算出することにより、SN比SNR(f) を算出する。SN比SNR(f) は下記式(1)により算出される。なお、振幅スペクトルが帯域分割されている場合には、分割帯域ごとにSNR(n)を算出すればよい。ここで、nは分割された帯域のインデックスを示している。
SNR(f) = 20.0 × log10(|IN1(f) |/|NOISE1(f) |) …(1)
位相差スペクトル選択部207は、所定値よりも大きいSN比がSN比算出部206で算出された周波数又は周波数帯域を抽出し、抽出された周波数に対応する位相差スペクトル又は抽出された周波数帯域内の位相差スペクトルを選択する。
到達距離差算出部208は、選択された位相差スペクトルと周波数fとの関係を直線近似した関数を求める。この関数に基づいて到達距離差算出部208は、音源と両音声入力部15、15それぞれとの間の距離の差、即ち音声が両音声入力部15、15にそれぞれ到達するまでの距離差Dを算出する。
音源方向推定部209は、到達距離差算出部208が算出した距離差Dと、両音声入力部15、15の設置間隔Lとを用いて音声入力の入射角θ、即ち音源である人間が存在すると推定される方向を示す角度θを算出する。
以下、本発明の実施の形態1に係る音源方向推定装置1の演算処理部11が実行する処理手順について説明する。図3は、本発明の実施の形態1に係る音源方向推定装置1の演算処理部11が実行する処理手順を示すフローチャートである。
音源方向推定装置1の演算処理部11はまず、音声入力部15、15から音響信号(アナログ信号)を受け付ける(ステップS301)。演算処理部11は、受け付けた音響信号をA/D変換した後、得られたサンプル信号を所定の時間単位でフレーム化する(ステップS302)。この際、安定したスペクトルを求めるために、フレーム化されたサンプル信号に対してハミング窓(hamming window)、ハニング窓(hanning window)等の時間窓が乗じられる。フレーム化の単位は、サンプリング周波数、アプリケーションの種類等により決定される。例えば、10ms〜20msずつオーバーラップさせつつ20ms〜40ms単位でフレーム化が行なわれ、フレームごとに以下の処理が実行される。
演算処理部11は、フレーム単位で時間軸上の信号を周波数軸上の信号、即ちスペクトルIN1(f) 、IN2(f) に変換する(ステップS303)。ここでfは周波数(radian)を示している。演算処理部11は、例えばフーリエ変換のような時間−周波数変換処理を実行する。本実施の形態1では、演算処理部11は、フーリエ変換のような時間−周波数変換処理により、フレーム単位の時間軸上の信号をスペクトルIN1(f) 、IN2(f) に変換する。
次に、演算処理部11は、周波数変換されたスペクトルIN1(f) 、IN2(f) の実部及び虚部を用いて位相スペクトルを算出し、算出された位相スペクトル間の位相差分である位相差スペクトルDIFF_PHASE(f) を周波数ごとに算出する(ステップS304)。
一方、演算処理部11は、入力1の入力信号スペクトルIN1(f) の振幅成分である振幅スペクトル|IN1(f) |を算出する(ステップS305)。
但し、入力1の入力信号スペクトルIN1(f) について振幅スペクトルを算出することに限定される必要はない。他にたとえば、入力2の入力信号スペクトルIN2(f) について振幅スペクトルを算出してもよいし、両入力1、2の振幅スペクトルの平均値又は最大値等を振幅スペクトルの代表値として算出してもよい。ここではフーリエ変換されたスペクトルにおける周波数ごとに振幅スペクトル|IN1(f) |を算出する構成を採っているが、帯域分割を行ない、特定の中心周波数と間隔とで分割された分割帯域内で振幅スペクトル|IN1(f) |の代表値を算出する構成を採ってもよい。なお、代表値は、分割帯域内における振幅スペクトル|IN1(f) |の平均値であってもよいし、最大値であってもよい。また、振幅スペクトルを算出する構成に限定される必要はなく、例えばパワースペクトルを算出する構成でもよい。この場合のSN比SNR(f) は下記式(2)により算出される。
SNR(f) =10.0× log10(|IN1(f) |2 /|NOISE1(f) |2 ) …(2)
演算処理部11は、算出された振幅スペクトル|IN1(f) |に基づいて雑音区間を推定し、推定された雑音区間の振幅スペクトル|IN1(f) |に基づいて背景雑音スペクトル|NOISE1(f) |を推定する(ステップS306)。
但し、雑音区間の推定方法は特に限定される必要はない。背景雑音スペクトル|NOISE1(f) |を推定する方法については、たとえば他に、音声認識での音声区間検出処理、または携帯電話機等で用いられているノイズキャンセラ処理で行なわれる背景雑音推定処理等のような既に公知である方法を利用することが可能である。換言すれば、背景雑音のスペクトルを推定する方法であればどのような方法でも利用可能である。例えば、全帯域でのパワー情報を用いて背景雑音レベルを推定し、推定された背景雑音レベルに基づいて音声/雑音を判定するための閾値を求めることにより音声/雑音判定を行なうことが可能である。この結果、雑音と判定された場合は、そのときの振幅スペクトル|IN1(f) |を用いて背景雑音スペクトル|NOISE1(f) |を補正することにより、背景雑音スペクトル|NOISE1(f) |を推定することが一般的である。
演算処理部11は、式(1)(パワースペクトルの場合は式(2))に従って周波数又は周波数帯域ごとのSN比SNR(f) を算出する(ステップS307)。演算処理部11は、算出されたSN比が所定値よりも大きい周波数又は周波数帯域を選択する(ステップS308)。所定値の定め方に応じて、選択される周波数又は周波数帯域を変動させることができる。例えば、隣接する周波数又は周波数帯域間でSN比の比較を行ない、SN比がより大きい周波数又は周波数帯域を順次RAM13に記憶させつつ選択していくことにより、SN比が最大である周波数又は周波数帯域を選択することができる。また、SN比が大きい順に上位N(Nは自然数)個を選択してもよい。
演算処理部11は、一又は複数の選択された周波数又は周波数帯域に対応する位相差スペクトルDIFF_PHASE(f) に基づいて、位相差スペクトルDIFF_PHASE(f) と周波数fとの関係を直線近似する(ステップS309)。この結果、SN比が大きい周波数又は周波数帯域での位相差スペクトルDIFF_PHASE(f) の信頼度が高いことを利用することができる。これにより、位相差スペクトルDIFF_PHASE(f) と周波数fとの比例関係の推定精度を高めることができる。
図4は、SN比が所定値よりも大きい周波数又は周波数帯域を選択した場合の位相差スペクトルの補正方法を示す模式図である。
図4(a)は、周波数又は周波数帯域に対応する位相差スペクトルDIFF_PHASE(f) を示している。通常は背景雑音が重畳されているので、一定の関係を見出すことは困難な状態になっている。
図4(b)は、周波数又は周波数帯域内にあるSN比SNR(f) を示している。具体的には、図4(b)において二重丸で示す部分が、SN比が所定値よりも大きい周波数又は周波数帯域を示している。従って、図4(b)に示すようなSN比が所定値よりも大きい周波数又は周波数帯域を選択することにより、選択された周波数又は周波数帯域に対応する位相差スペクトルDIFF_PHASE(f) は図4(a)において二重丸で示す部分になる。図4(a)に示すように選択された位相差スペクトルDIFF_PHASE(f) を直線近似することにより、位相差スペクトルDIFF_PHASE(f) と周波数fとの間には、図4(c)に示すような比例関係が存在することがわかる。
そこで、演算処理部11は、ナイキスト周波数Fと、ナイキスト周波数Fにおける直線近似された位相差スペクトルDIFF_PHASE(π)の値、即ち図4(c)におけるRと、音速cとを用いて、下記式(3)に従って音源からの音入力の到達距離の差分Dを算出する(ステップS310)。なお、ナイキスト周波数はサンプリング周波数の半分の値であり、図4ではπである。具体的には、サンプリング周波数が8kHzである場合にはナイキスト周波数は4kHzになる。
なお、図4(c)には、選択された位相差スペクトルDIFF_PHASE(f) を原点を通る直線で近似した近似直線が示されている。しかし、音声入力部15,15,…としてのマイクロホンそれぞれの特性が相違する場合には位相差スペクトルに全帯域にわたってバイアスがかかる可能性がある。そのような場合には、近似直線の周波数0に対応する値、即ち近似直線の切片の値を考慮してナイキスト周波数における位相差の値Rを補正することにより近似直線を求めることも可能である。
D=(R×c)/(F×2π) …(3)
演算処理部11は、算出された到達距離の差分Dを用いて、音入力の入射角θ、即ち音源が存在すると推定される方向を示す角度θを算出する(ステップS311)。図5は、音源が存在すると推定される方向を示す角度θを算出する方法の原理を示す模式図である。
図5に示すように、2つの音声入力部15、15は間隔Lだけ離間して設置されている。この場合、音源からの音入力の到達距離の差分Dと、2つの音声入力部15、15間の間隔Lとの間には、「sinθ=(D/L)」の関係がある。従って、音源が存在すると推定される方向を示す角度θは下記式(4)により求めることができる。
θ=sin-1(D/L) …(4)
なお、SN比が大きい順にN個の周波数又は周波数帯域が選択された場合にも、上述した通り、上位N個の位相差スペクトルを用いて直線近似する。この他、ナイキスト周波数Fでの直線近似された位相差スペクトルDIFF_PHASE(F) の値Rは用いずに、選択された周波数fにおける位相差スペクトルr(=DIFF_PHASE(f))の値を用いて、式(3)のF及びRをそれぞれf及びrに置換し、選択された周波数ごとに到達距離の差分Dを算出し、算出された差分Dの平均値を用いて音源が存在すると推定される方向を示す角度θを算出することも可能である。勿論、このような方法に限定される必要はない。例えば、SN比に応じた重み付けを行なって到達距離の差分Dの代表値を算出することにより、音源が存在すると推定される方向を示す角度θを算出してもよい。
また、音声を発する人間が存在する方向を推定する場合には、音入力が人間が発した音声を示す音声区間であるか否かを判断し、音声区間であると判断された場合にのみ上述した処理を実行することにより、音源が存在すると推定される方向を示す角度θを算出してもよい。
更に、SN比が所定値よりも大きいと判断された場合であっても、アプリケーションの使用状態、使用条件等に鑑みて、想定されていない位相差である場合には、対応する周波数又は周波数帯域を選択対象から除外することが好ましい。例えば携帯電話機のように正面方向から発話することが想定されている機器に本実施の形態1に係る音源方向推定装置1を適用する場合、正面を0度として音源が存在すると推定される方向θが、θ<―90度又は90度<θであると算出された場合には想定外であると判断される。
また、SN比が所定値よりも大きいと判断された場合であっても、アプリケーションの使用状態、使用条件等に鑑みて、目的とする音源の方向を推定するためには好ましくない周波数又は周波数帯域を選択対象から除外することが好ましい。例えば目的とする音源が人間の発する音声である場合には、100Hz以下の周波数には音声信号が存在しない。従って、100Hz以下は選択対象から除外することができる。
以上のように、本実施の形態1に係る音源方向推定装置1は、入力された音響信号の振幅成分、いわゆる振幅スペクトルと、推定された背景雑音スペクトルとに基づいて周波数又は周波数帯域ごとのSN比を求め、SN比が大きい周波数での位相差分(位相差スペクトル)を用いることにより、より正確な到達距離の差分Dを求めることができる。従って、精度の高い到達距離の差分Dに基づいて音響信号の入射角、即ち目的とする音源(本実施の形態1では人間)が存在すると推定される方向を示す角度θを高精度で算出することが可能になる。
(実施の形態2)
以下、本発明の実施の形態2に係る音源方向推定装置1を、図面を参照しながら詳細に説明する。本発明の実施の形態2に係る音源方向推定装置1として動作する汎用コンピュータの構成は、実施の形態1と同様の構成であるので、図1に示すブロック図を参照することとして詳細な説明を省略する。本実施の形態2は、フレーム単位での位相差スペクトルの算出結果を記憶しておき、記憶してある前回の位相差スペクトル及び算出対象フレームでのSN比に基づいて、算出対象フレームでの位相差スペクトルを随時補正する構成を採っている点で実施の形態1と相違する。
図6は、本発明の実施の形態2に係る音源方向推定装置1の演算処理部11が処理プログラムを実行することにより実現される機能を示すブロック図である。なお、図6に示されている例では、実施の形態1と同様に、音声入力部15、15を2本のマイクロホンで構成した場合について説明する。
図6に示すように、本発明の実施の形態2に係る音源方向推定装置1は、処理プログラムが実行された場合に実現される機能ブロックとして、少なくとも音声受付部(音響信号受付部) 201、信号変換部(信号変換手段)202、位相差スペクトル算出部(位相差分算出手段)203、振幅スペクトル算出部(振幅成分算出手段)204、背景雑音推定部(雑音成分推定手段)205、SN比算出部(信号対雑音比算出手段)206、位相差スペクトル補正部(補正手段)210、到達距離差算出部(到達距離差分算出手段)208、及び音源方向推定部(音源方向推定手段)209を備えている。
音声受付部201は音源である人間が発する音声入力を2本のマイクロホンから受け付ける。本実施の形態では、入力1及び入力2がそれぞれマイクロホンである音声入力部15、15を介して受け付けられる。
信号変換部202は、入力された音声について、時間軸上の信号を周波数軸上の信号、即ちスペクトルIN1(f) 、IN2(f) に変換する。ここでfは周波数(radian)を示している。信号変換部202では、例えばフーリエ変換のような時間−周波数変換処理が実行される。本実施の形態2では、フーリエ変換のような時間−周波数変換処理により、入力された音声がスペクトルIN1(f) 、IN2(f) に変換される。
なお、音声入力部15、15で受け付けた音声は、A/D変換された後、得られたサンプル信号が所定の時間単位でフレーム化される。この際、安定したスペクトルを求めるために、フレーム化されたサンプル信号に対してハミング窓(hamming window)、ハニング窓(hanning window)等の時間窓が乗じられる。フレーム化の単位は、サンプリング周波数、アプリケーションの種類等により決定される。例えば、10ms〜20msずつオーバーラップさせつつ20ms〜40ms単位でフレーム化が行なわれ、フレームごとに以下の処理が実行される。
位相差スペクトル算出部203は、周波数変換されたスペクトルIN1(f) 、IN2(f) に基づいてフレーム単位で位相スペクトルを算出し、算出された位相スペクトル間の位相差分である位相差スペクトルDIFF_PHASE(f) をフレーム単位で算出する。ここで、振幅スペクトル算出部204は、いずれか一方、例えば図6に示す例では入力1の入力信号スペクトルIN1(f) の振幅成分である振幅スペクトル|IN1(f) |を算出する。いずれの振幅スペクトルを算出するかは特に限定されるものではない。振幅スペクトル|IN1(f) |と|IN2(f) |とを算出し、両者の平均値を選択してもよいし、大きい方の値を選択してもよい。
背景雑音推定部205は、振幅スペクトル|IN1(f) |に基づいて背景雑音スペクトル|NOISE1(f) |を推定する。背景雑音スペクトル|NOISE1(f) |の推定方法は特に限定されるものではない。音声認識での音声区間検出処理、又は携帯電話機等で用いられているノイズキャンセラ処理で行なわれる背景雑音推定処理等のような既に公知である方法を利用することが可能である。換言すれば、背景雑音のスペクトルを推定する方法であればどのような方法でも利用可能である。
SN比算出部206は、振幅スペクトル算出部204で算出された振幅スペクトル|IN1(f) |と、背景雑音推定部205で推定された背景雑音スペクトル|NOISE1(f) |との比率を算出することにより、SN比SNR(f) を算出する。SN比SNR(f) は前述した式(1)により算出される。
位相差スペクトル補正部210は、SN比算出部206で算出されたSN比と位相差スペクトル補正部210で補正された後にRAM13に記憶されている前回のサンプリング時点で算出された位相差スペクトルDIFF_PHASEt-1(f)とに基づいて、次のサンプリング時点、即ち現在のサンプリング時点で算出された位相差スペクトルDIFF_PHASEt (f) を補正する。現在のサンプリング時点では、SN比及び位相差スペクトルDIFF_PHASEt (f) が前回までと同様にして算出された後、SN比に応じて設定されている補正係数α(0≦α≦1)を使用して下記式(5)に従って、現在のサンプリング時点でのフレームの位相差スペクトルDIFF_PHASEt (f) が算出される。
なお、補正係数αについては詳細は後述するが、たとえば、SN比に応じた値が処理プログラムが参照する数値情報として各プログラムと共にROM12に記憶されている。
DIFF_PHASEt (f) =α×DIFF_PHASEt (f)
+(1−α)×DIFF_PHASEt-1(f) …(5)
到達距離差算出部208は、補正された位相差スペクトルと周波数fとの関係を直線近似した関数を求める。この関数に基づいて、到達距離差算出部208は、音源と両音声入力部15、15それぞれとの間の距離の差、即ち音声が両音声入力部15、15にそれぞれ到達するまでの距離差Dを算出する。
音源方向推定部209は、距離差Dと、両音声入力部15、15の設置間隔Lとを用いて、音入力の入射角θ、即ち音源である人間が存在すると推定される方向を示す角度θを算出する。
以下、本発明の実施の形態2に係る音源方向推定装置1の演算処理部11が実行する処理手順について説明する。図7及び図8は、本発明の実施の形態2に係る音源方向推定装置1の演算処理部11が実行する処理手順を示すフローチャートである。
音源方向推定装置1の演算処理部11はまず、音声入力部15、15から音響信号(アナログ信号)を受け付ける(ステップS701)。演算処理部11は、受け付けた音響信号をA/D変換した後、得られたサンプル信号を所定の時間単位でフレーム化する(ステップS702)。この際、安定したスペクトルを求めるために、フレーム化されたサンプル信号に対してハミング窓(hamming window)、ハニング窓(hanning window)等の時間窓が乗じられる。フレーム化の単位は、サンプリング周波数、アプリケーションの種類等により決定される。例えば、10ms〜20msずつオーバーラップさせつつ20ms〜40ms単位でフレーム化が行なわれ、フレームごとに以下の処理が実行される。
演算処理部11は、フレーム単位で時間軸上の信号を周波数軸上の信号、即ちスペクトルIN1(f) 、IN2(f) に変換する(ステップS703)。ここでfは周波数(radian)又はサンプリングの際の一定の幅を有する周波数帯域を示している。演算処理部11は、例えばフーリエ変換のような時間−周波数変換処理を実行する。本実施の形態2では、演算処理部11は、フーリエ変換のような時間−周波数変換処理により、フレーム単位の時間軸上の信号をスペクトルIN1(f) 、IN2(f) に変換する。
次に、演算処理部11は、周波数変換されたスペクトルIN1(f) 、IN2(f) の実部及び虚部を用いて位相スペクトルを算出し、算出された位相スペクトル間の位相差分である位相差スペクトルDIFF_PHASEt (f) を周波数又は周波数帯域ごとに算出する(ステップS704)。
一方、演算処理部11は、入力1の入力信号スペクトルIN1(f) の振幅成分である振幅スペクトル|IN1(f) |を算出する(ステップS705)。
但し、入力1の入力信号スペクトルIN1(f) について振幅スペクトルを算出することに限定される必要はない。他にたとえば、入力2の入力信号スペクトルIN2(f) について振幅スペクトルを算出してもよいし、両入力1、2の振幅スペクトルの平均値又は最大値等を振幅スペクトルの代表値として算出してもよい。また、振幅スペクトルを算出する構成に限定される必要はなく、例えばパワースペクトルを算出する構成でもよい。
演算処理部11は、算出された振幅スペクトル|IN1(f) |に基づいて雑音区間を推定し、推定された雑音区間の振幅スペクトル|IN1(f) |に基づいて背景雑音スペクトル|NOISE1(f) |を推定する(ステップS706)。
但し、雑音区間の推定方法は特に限定される必要はない。背景雑音スペクトル|NOISE1(f) |を推定する方法については、たとえば他に、全帯域でのパワー情報を用いて背景雑音レベルを推定し、推定された背景雑音レベルに基づいて音声/雑音を判定するための閾値を求めることにより音声/雑音判定を行なうことが可能である。この結果、雑音と判定された場合は、そのときの振幅スペクトル|IN1(f) |を用いて背景雑音スペクトル|NOISE1(f) |を補正することにより、背景雑音スペクトル|NOISE1(f) |を推定する等のような、背景雑音スペクトルを推定する方法であればどのような方法を利用してもよい。
演算処理部11は、前述の式(1)に従って周波数又は周波数帯域ごとのSN比SNR(f) を算出する(ステップS707)。次に、演算処理部11は、RAM13に前回のサンプリング時点での位相差スペクトルDIFF_PHASEt-1(f)が記憶されているか否かを判断する(ステップS708)。
演算処理部11は、前回のサンプリング時点での位相差スペクトルDIFF_PHASEt-1(f)が記憶されていると判断した場合(ステップS708:YES)、算出されたサンプリング時点(現在のサンプリング時点)でのSN比に応じた補正係数αをROM12から読み出す(ステップS710)。なお、SN比と補正係数αとの関係を表わす関数をプログラムに組み込んでおき、計算により補正係数αを求めてもよい。
図9は、SN比に応じた補正係数αの一例を示すグラフである。図9に示す例では、SN比が0(ゼロ)である場合に補正係数αが0(ゼロ)に設定されている。このことは、算出されたSN比が0(ゼロ)である場合は、前述した式(5)から理解されるように、算出された位相差スペクトルDIFF_PHASEt (f) は用いずに、前回の位相差スペクトルDIFF_PHASEt-1(f)を現在の位相差スペクトルとして用いることにより後続の処理が行なわれることを意味している。以下、SN比が大きくなるに従って補正係数αは単調増加するように設定されている。SN比が20dB以上の領域では、補正係数αは1よりも小さい最大値αmax に固定されている。ここで、補正係数αの最大値αmax を1よりも小さい値に設定している理由は、SN比が高い雑音が突発的に発生した場合に、位相差スペクトルDIFF_PHASEt (f) の値がその雑音の位相差スペクトルに100%置換されることを防ぐためである。
演算処理部11は、SN比に応じてROM12から読み出された補正係数αを用いて、前述した式(5)に従って位相差スペクトルDIFF_PHASEt (f) を補正する(ステップS711)。この後、演算処理部11は、RAM13に記憶されている前回のサンプリング時点での補正後の位相差スペクトルDIFF_PHASEt-1(f)を、現在のサンプリング時点での補正後の位相差スペクトルDIFF_PHASEt (f) に更新して記憶する(ステップS712)。
演算処理部11は、前回のサンプリング時点での位相差スペクトルDIFF_PHASEt-1(f)が記憶されていないと判断した場合(ステップS708:NO)、現在のサンプリング時点での位相差スペクトルDIFF_PHASEt (f) を用いるか否かを判断する(ステップS717)。現在のサンプリング時点での位相差スペクトルDIFF_PHASEt (f) を用いるか否かの判断基準としては、帯域全体のSN比、音声/雑音判定の結果等のような、目的とする音源から音響信号が発せられている(人間が発声している)か否かの判断基準が用いられる。
一方、演算処理部11は、現在のサンプリング時点での位相差スペクトルDIFF_PHASEt (f) を用いない、即ち音源から音響信号が発せられている可能性が低いと判断した場合(ステップS717:NO)、予め定められている位相差スペクトルの初期値を現在のサンプリング時点での位相差スペクトルとする(ステップS718)。この場合、位相差スペクトルの初期値は例えば全周波数にわたって0(ゼロ)に設定される。しかし、このステップS718での設定はこれに限定される必要はない。
次に、演算処理部11は、位相差スペクトルの初期値を現在のサンプリング時点での位相差スペクトルとしてRAM13に記憶し(ステップS719)、処理をステップS713へ進める。
演算処理部11は、現在のサンプリング時点での位相差スペクトルDIFF_PHASEt (f) を用いる、即ち音源から音響信号が発せられている可能性が高いと判断した場合(ステップS717:YES)、現在のサンプリング時点での位相差スペクトルDIFF_PHASEt (f) をRAM13に記憶し(ステップS720)、処理をステップS713へ進める。
次に演算処理部11は、ステップS712、S719,S720のいずれかで記憶された位相差スペクトルDIFF_PHASE(f) に基づいて、位相差スペクトルDIFF_PHASE(f) と周波数fとの関係を直線近似する(ステップS713)。この結果、補正後の位相差スペクトルに基づいて直線近似した場合には、現在のサンプリング時点のみならず、過去のサンプリング時点においてSN比が大きかった(即ち、信頼度が高かった)周波数又は周波数帯域での位相差分の情報を反映している位相差スペクトルDIFF_PHASE(f) を利用することができる。これにより、位相差スペクトルDIFF_PHASE(f) と周波数fとの比例関係の推定精度を高めることができる。
演算処理部11は、ナイキスト周波数Fでの直線近似された位相差スペクトルDIFF_PHASE(F) の値Rを用いて、前述した式(3)に従って、音源からの音響信号の到達距離の差分Dを算出する(ステップS714)。但し、ナイキスト周波数Fでの直線近似された位相差スペクトルDIFF_PHASE(F) の値Rを用いずに、任意の周波数fにおける位相差スペクトルr(=DIFF_PHASE(f))の値を用いたとしても、式(3)のF及びRをf及びrにそれぞれ置換することにより、到達距離の差分Dを求めることができる。そして演算処理部11は、算出された到達距離の差分Dを用いて、音響信号の入射角θ、即ち音源(人間)が存在すると推定される方向を示す角度θを算出する(ステップS715)。
また、音声を発する人間が存在する方向を推定する場合には、音入力が人間が発した音声を示す音声区間であるか否かを判断し、音声区間であると判断された場合にのみ上述した処理を実行することにより、音源が存在すると推定される方向を示す角度θを算出してもよい。
更に、SN比が所定値よりも大きいと判断された場合であっても、アプリケーションの使用状態、使用条件等に鑑みて、想定されていない位相差である場合には、対応する周波数又は周波数帯域を現在のサンプリング時点での位相差スペクトルの補正対象から除外することが好ましい。例えば携帯電話機のように正面方向から発話することが想定されている機器に本実施の形態2に係る音源方向推定装置1を適用する場合、正面を0度として音源が存在すると推定される方向θが、θ<―90度又は90度<θであると算出された場合には想定外であると判断される。この場合、現在のサンプリング時点での位相差スペクトルを用いずに前回までに算出された位相差スペクトルが用いられる。
更に、SN比が所定値よりも大きいと判断された場合であっても、アプリケーションの使用状態、使用条件等に鑑みて、目的とする音源の方向を推定するためには好ましくない周波数又は周波数帯域を選択対象から除外することが好ましい。例えば目的とする音源が人間の発する音声である場合には、100Hz以下の周波数には音声信号が存在しない。従って、100Hz以下は補正対象から除外することができる。
以上のように本実施の形態2に係る音源方向推定装置1は、SN比が大きい周波数又は周波数帯域での位相差スペクトルを算出する場合に、前回のサンプリング時点で算出された位相差スペクトルよりもサンプリング時点(現在のサンプリング時点)での位相差スペクトルの方に重みをおいて補正し、SN比が小さい場合には前回の位相差スペクトルの方に重みをおいて補正する。このようにすることにより、新たに算出された位相差スペクトルを順次補正することができる。補正された位相差スペクトルには、過去のサンプリング時点でのSN比が大きい周波数での位相差分の情報も反映されている。従って、背景雑音の状態、目的とする音源から発せられる音響信号の内容の変化等に影響されて位相差スペクトルが大きくばらつくことがない。従って、より精度の高い安定した到達距離の差分Dに基づいて音響信号の入射角、即ち目的とする音源が存在すると推定される方向を示す角度θを高精度で算出することが可能になる。なお、目的とする音源が存在すると推定される方向を示す角度θの算出方法は上述した到達距離の差分Dを用いた方法に限定されるものではなく、同様の精度で推定可能な方法であれば様々なバリエーションが存在することは言うまでもない。
以上の実施の形態1及び2に関し、更に以下の付記を開示する。
(付記1)
複数方向に存在する音源からの音響信号を複数チャンネルの入力として受け付け、チャンネルごとの時間軸上の信号に変換する音響信号受付手段と、該音響信号受付手段により変換された時間軸上の各信号を周波数軸上の信号にチャンネルごとに変換する信号変換手段と、該信号変換手段により変換された周波数軸上の各チャンネルの信号の位相成分を同一周波数ごとに算出する位相成分算出手段と、該位相成分算出手段により同一周波数ごとに算出された各チャンネルの信号の位相成分を用いて、複数チャンネル間の位相差分を算出する位相差分算出手段と、該位相差分算出手段により算出された位相差分に基づいて、目的とする音源からの音響信号の到達距離の差分を算出する到達距離差分算出手段と、該到達距離差分算出手段により算出された到達距離の差分に基づいて、目的とする音源が存在する方向を推定する音源方向推定手段とを備えた音源方向推定装置において、
前記信号変換手段により変換された周波数軸上の信号の振幅成分を算出する振幅成分算出手段と、
該振幅成分算出手段により算出された振幅成分から雑音成分を推定する雑音成分推定手段と、
前記振幅成分算出手段により算出された振幅成分及び前記雑音成分推定手段により推定された雑音成分に基づいて周波数ごとの信号対雑音比を算出する信号対雑音比算出手段と、
該信号対雑音比算出手段により算出された信号対雑音比が所定値よりも大きい周波数を抽出する周波数抽出手段と
を備え、
前記到達距離差分算出手段は、前記周波数抽出手段により抽出された周波数の位相差分に基づいて前記到達距離の差分を算出するようにしてあることを特徴とする音源方向推定装置。
(付記2)
前記周波数抽出手段は、前記信号対雑音比算出手段により算出された信号対雑音比が所定値よりも大きい周波数を算出された信号対雑音比の降順に所定数選択して抽出するようにしてあることを特徴とする付記1に記載の音源方向推定装置。
(付記3)
複数方向に存在する音源からの音響信号を複数チャンネルの入力として受け付け、チャンネルごとの時間軸上のサンプリング信号に変換する音響信号受付手段と、該音響信号受付手段により変換された時間軸上の各サンプリング信号を周波数軸上の信号にチャンネルごとに変換する信号変換手段と、該信号変換手段により変換された周波数軸上の各チャンネルの信号の位相成分を同一周波数ごとに算出する位相成分算出手段と、該位相成分算出手段により同一周波数ごとに算出された各チャンネルの信号の位相成分を用いて、複数チャンネル間の位相差分を算出する位相差分算出手段と、該位相差分算出手段により算出された位相差分に基づいて、目的とする音源からの音響信号の到達距離の差分を算出する到達距離差分算出手段と、該到達距離差分算出手段により算出された到達距離の差分に基づいて、目的とする音源が存在する方向を推定する音源方向推定手段とを備えた音源方向推定装置において、
前記信号変換手段により所定のサンプリング時点で変換された周波数軸上の信号の振幅成分を算出する振幅成分算出手段と、
該振幅成分算出手段により算出された振幅成分から雑音成分を推定する雑音成分推定手段と、
前記振幅成分算出手段により算出された振幅成分及び前記雑音成分推定手段により推定された雑音成分に基づいて周波数ごとの信号対雑音比を算出する信号対雑音比算出手段と、
該信号対雑音比算出手段により算出された信号対雑音比及び過去のサンプリング時点での位相差分の算出結果に基づいて、サンプリング時点での位相差分の算出結果を補正する補正手段と
を備え、
前記到達距離差分算出手段は、前記補正手段による補正後の位相差分に基づいて前記到達距離の差分を算出するようにしてあることを特徴とする音源方向推定装置。
(付記4)
前記音響信号受付手段により受け付けられた音響信号入力の内の音声を示す区間である音声区間を特定する音声区間特定手段を更に備え、
前記信号変換手段は、前記音声区間特定手段により特定された音声区間の信号のみを周波数軸上の信号に変換するようにしてあることを特徴とする付記1乃至3のいずれか一項に記載の音源方向推定装置。
(付記5)
複数方向に存在する音源からの音響信号を複数チャンネルの入力として受け付け、チャンネルごとの時間軸上の信号に変換するステップと、時間軸上の各チャンネルの信号を周波数軸上の信号に変換するステップと、変換された周波数軸上の各チャンネルの信号の位相成分を同一周波数ごとに算出するステップと、同一周波数ごとに算出された各チャンネルの信号の位相成分を用いて、複数チャンネル間の位相差分を算出するステップと、算出された位相差分に基づいて、目的とする音源からの音響信号の到達距離の差分を算出するステップと、算出された到達距離の差分に基づいて、目的とする音源が存在する方向を推定するステップとを含む音源方向推定方法において、
変換された周波数軸上の信号の振幅成分を算出するステップと、
算出された振幅成分から雑音成分を推定するステップと、
算出された振幅成分及び推定された雑音成分に基づいて周波数ごとの信号対雑音比を算出するステップと、
信号対雑音比が所定値よりも大きい周波数を抽出するステップと
を含み、
前記到達距離の差分を算出するステップは、抽出された周波数の位相差分に基づいて前記到達距離の差分を算出することを特徴とする音源方向推定方法。
(付記6)
前記周波数を抽出するステップは、信号対雑音比が所定値よりも大きい周波数を算出された信号対雑音比の降順に所定数選択して抽出することを特徴とする付記5に記載の音源方向推定方法。
(付記7)
複数方向に存在する音源からの音響信号を複数チャンネルの入力として受け付け、チャンネルごとの時間軸上のサンプリング信号に変換するステップと、時間軸上の各サンプリング信号を周波数軸上の信号にチャンネルごとに変換するステップと、変換された周波数軸上の各チャンネルの信号の位相成分を同一周波数ごとに算出するステップと、同一周波数ごとに算出された各チャンネルの信号の位相成分を用いて、複数チャンネル間の位相差分を算出するステップと、算出された位相差分に基づいて、目的とする音源からの音響信号の到達距離の差分を算出するステップと、算出された到達距離の差分に基づいて、目的とする音源が存在する方向を推定するステップとを含む音源方向推定方法において、
所定のサンプリング時点で変換された周波数軸上の信号の振幅成分を算出するステップと、
算出された振幅成分から雑音成分を推定するステップと、
算出された振幅成分及び推定された雑音成分に基づいて周波数ごとの信号対雑音比を算出するステップと、
算出された信号対雑音比及び過去のサンプリング時点での位相差分の算出結果に基づいて、サンプリング時点での位相差分の算出結果を補正するステップと
を含み、
前記到達距離の差分を算出するステップは、補正後の位相差分に基づいて前記到達距離の差分を算出することを特徴とする音源方向推定方法。
(付記8)
受け付けた音響信号入力の内の音声を示す区間である音声区間を特定するステップを更に含み、
前記周波数軸上の信号に変換するステップは、前記音声区間を特定するステップにおいて特定された音声区間の信号のみを周波数軸上の信号に変換することを特徴とする付記5乃至7のいずれか一項に記載の音源方向推定方法。
(付記9)
コンピュータで実行することが可能であり、前記コンピュータを、複数方向に存在する音源からの音響信号を複数チャンネルの入力として受け付け、チャンネルごとの時間軸上の信号に変換する音響信号受付手段、時間軸上の各チャンネルの信号を周波数軸上の信号に変換する信号変換手段、変換された周波数軸上の各チャンネルの信号の位相成分を同一周波数ごとに算出する位相成分算出手段、同一周波数ごとに算出された各チャンネルの信号の位相成分を用いて、複数チャンネル間の位相差分を算出する位相差分算出手段、算出された位相差分に基づいて、目的とする音源からの音響信号の到達距離の差分を算出する到達距離差分算出手段、及び算出された到達距離の差分に基づいて、目的とする音源が存在する方向を推定する音源方向推定手段として機能させるコンピュータプログラムにおいて、
前記コンピュータを、
変換された周波数軸上の信号の振幅成分を算出する振幅成分算出手段、
算出された振幅成分から雑音成分を推定する雑音成分推定手段、
算出された振幅成分及び推定された雑音成分に基づいて周波数ごとの信号対雑音比を算出する信号対雑音比算出手段、及び
算出された信号対雑音比が所定値よりも大きい周波数を抽出する周波数抽出手段
として機能させ、
前記到達距離差分算出手段としての機能は、前記周波数抽出手段としての機能により抽出された周波数の位相差分に基づいて前記到達距離の差分を算出するようにしてあることを特徴とするコンピュータプログラム。
(付記10)
前記周波数抽出手段としての機能は、信号対雑音比が所定値よりも大きい周波数を算出された信号対雑音比の降順に所定数選択して抽出するようにしてあることを特徴とする付記9に記載のコンピュータプログラム。
(付記11)
コンピュータで実行することが可能であり、前記コンピュータを、複数方向に存在する音源からの音響信号を複数チャンネルの入力として受け付け、チャンネルごとの時間軸上の信号に変換する音響信号受付手段、時間軸上の各サンプリング信号を周波数軸上の信号にチャンネルごとに変換する信号変換手段、変換された周波数軸上の各チャンネルの信号の位相成分を同一周波数ごとに算出する位相成分算出手段、同一周波数ごとに算出された各チャンネルの信号の位相成分を用いて、複数チャンネル間の位相差分を算出する位相差分算出手段、算出された位相差分に基づいて、目的とする音源からの音響信号の到達距離の差分を算出する到達距離差分算出手段、及び算出された到達距離の差分に基づいて、目的とする音源が存在する方向を推定する音源方向推定手段として機能させるコンピュータプログラムにおいて、
前記コンピュータを、
所定のサンプリング時点で変換された周波数軸上の信号の振幅成分を算出する振幅成分算出手段、
算出された振幅成分から雑音成分を推定する雑音成分推定手段、
算出された振幅成分及び推定された雑音成分に基づいて周波数ごとの信号対雑音比を算出する信号対雑音比算出手段、及び
算出された信号対雑音比及び過去のサンプリング時点での位相差分の算出結果に基づいて、サンプリング時点での位相差分の算出結果を補正する補正手段
として機能させ、
前記到達距離差分算出手段としての機能は、前記補正手段としての機能による補正後の位相差分に基づいて前記到達距離の差分を算出するようにしてあることを特徴とするコンピュータプログラム。
(付記12)
前記コンピュータを、前記受け付けた音響信号入力の内の音声を示す区間である音声区間を特定する音声区間特定手段として機能させ、
前記信号変換手段としての機能は、前記音声区間特定手段としての機能により特定された音声区間の信号のみを周波数軸上の信号に変換するようにしてあることを特徴とする付記9乃至11のいずれか一項に記載のコンピュータプログラム。
本発明の実施の形態1に係る音源方向推定装置を具現化する汎用コンピュータの構成を示すブロック図である。 本発明の実施の形態1に係る音源方向推定装置の演算処理部が処理プログラムを実行することにより実現される機能を示すブロック図である。 本発明の実施の形態1に係る音源方向推定装置の演算処理部の処理手順を示すフローチャートである。 SN比が所定値よりも大きい周波数又は周波数帯域を選択した場合の、位相差スペクトルの補正方法を示す模式図である。 音源が存在すると推定される方向を示す角度を算出する方法の原理を示す模式図である。 本発明の実施の形態2に係る音源方向推定装置の演算処理部が処理プログラムを実行することにより実現される機能を示すブロック図である。 本発明の実施の形態2に係る音源方向推定装置の演算処理部の処理手順を示すフローチャートである。 本発明の実施の形態2に係る音源方向推定装置の演算処理部の処理手順を示すフローチャートである。 SN比に応じた補正係数の一例を示すグラフである。
符号の説明
1 音源方向推定装置
11 演算処理部
12 ROM
13 RAM
14 通信インタフェース部
15 音声入力部
16 音声出力部
17 内部バス
201 音声受付部
202 信号変換部
203 位相差スペクトル算出部
204 振幅スペクトル算出部
205 背景雑音推定部
206 SN比算出部
207 位相差スペクトル選択部
208 到達距離差算出部
209 音源方向推定部
210 位相差スペクトル補正部

Claims (8)

  1. 複数方向に存在する音源からの音響信号を複数チャンネルの入力として受け付け、チャンネルごとの時間軸上の信号に変換する音響信号受付手段と、該音響信号受付手段により変換された時間軸上の各信号を周波数軸上の信号にチャンネルごとに変換する信号変換手段と、該信号変換手段により変換された周波数軸上の各チャンネルの信号の位相成分を同一周波数ごとに算出する位相成分算出手段と、該位相成分算出手段により同一周波数ごとに算出された各チャンネルの信号の位相成分を用いて、複数チャンネル間の位相差分を算出する位相差分算出手段と、該位相差分算出手段により算出された位相差分に基づいて、目的とする音源からの音響信号の到達距離の差分を算出する到達距離差分算出手段と、該到達距離差分算出手段により算出された到達距離の差分に基づいて、目的とする音源が存在する方向を推定する音源方向推定手段とを備えた音源方向推定装置において、
    前記信号変換手段により変換された周波数軸上の信号の振幅成分を算出する振幅成分算出手段と、
    該振幅成分算出手段により算出された振幅成分から雑音成分を推定する雑音成分推定手段と、
    前記振幅成分算出手段により算出された振幅成分及び前記雑音成分推定手段により推定された雑音成分に基づいて周波数ごとの信号対雑音比を算出する信号対雑音比算出手段と、
    該信号対雑音比算出手段により算出された信号対雑音比が所定値よりも大きい周波数を抽出する周波数抽出手段と
    を備え、
    前記到達距離差分算出手段は、前記周波数抽出手段により抽出された周波数の位相差分に基づいて前記到達距離の差分を算出するようにしてあることを特徴とする音源方向推定装置。
  2. 前記周波数抽出手段は、前記信号対雑音比算出手段により算出された信号対雑音比が所定値よりも大きい周波数を、算出された信号対雑音比の降順に所定数選択して抽出するようにしてあることを特徴とする請求項1に記載の音源方向推定装置。
  3. 複数方向に存在する音源からの音響信号を複数チャンネルの入力として受け付け、チャンネルごとの時間軸上のサンプリング信号に変換する音響信号受付手段と、該音響信号受付手段により変換された時間軸上の各サンプリング信号を周波数軸上の信号にチャンネルごとに変換する信号変換手段と、該信号変換手段により変換された周波数軸上の各チャンネルの信号の位相成分を同一周波数ごとに算出する位相成分算出手段と、該位相成分算出手段により同一周波数ごとに算出された各チャンネルの信号の位相成分を用いて、複数チャンネル間の位相差分を算出する位相差分算出手段と、該位相差分算出手段により算出された位相差分に基づいて、目的とする音源からの音響信号の到達距離の差分を算出する到達距離差分算出手段と、該到達距離差分算出手段により算出された到達距離の差分に基づいて、目的とする音源が存在する方向を推定する音源方向推定手段とを備えた音源方向推定装置において、
    前記信号変換手段により所定のサンプリング時点で変換された周波数軸上の信号の振幅成分を算出する振幅成分算出手段と、
    該振幅成分算出手段により算出された振幅成分から雑音成分を推定する雑音成分推定手段と、
    前記振幅成分算出手段により算出された振幅成分及び前記雑音成分推定手段により推定された雑音成分に基づいて周波数ごとの信号対雑音比を算出する信号対雑音比算出手段と、
    該信号対雑音比算出手段により算出された信号対雑音比及び過去のサンプリング時点での位相差分の算出結果に基づいて、サンプリング時点での位相差分の算出結果を補正する補正手段と
    を備え、
    前記到達距離差分算出手段は、前記補正手段による補正後の位相差分に基づいて前記到達距離の差分を算出するようにしてあることを特徴とする音源方向推定装置。
  4. 前記音響信号受付手段により受け付けられた音響信号入力の内の音声を示す区間である音声区間を特定する音声区間特定手段を更に備え、
    前記信号変換手段は、前記音声区間特定手段により特定された音声区間の信号のみを周波数軸上の信号に変換するようにしてあることを特徴とする請求項1乃至3のいずれか一項に記載の音源方向推定装置。
  5. 複数方向に存在する音源からの音響信号を複数チャンネルの入力として受け付け、チャンネルごとの時間軸上の信号に変換するステップと、時間軸上の各チャンネルの信号を周波数軸上の信号に変換するステップと、変換された周波数軸上の各チャンネルの信号の位相成分を同一周波数ごとに算出するステップと、同一周波数ごとに算出された各チャンネルの信号の位相成分を用いて、複数チャンネル間の位相差分を算出するステップと、算出された位相差分に基づいて、目的とする音源からの音響信号の到達距離の差分を算出するステップと、算出された到達距離の差分に基づいて、目的とする音源が存在する方向を推定するステップとを含む音源方向推定方法において、
    変換された周波数軸上の信号の振幅成分を算出するステップと、
    算出された振幅成分から雑音成分を推定するステップと、
    算出された振幅成分及び推定された雑音成分に基づいて周波数ごとの信号対雑音比を算出するステップと、
    信号対雑音比が所定値よりも大きい周波数を抽出するステップと
    を含み、
    前記到達距離の差分を算出するステップは、抽出された周波数の位相差分に基づいて前記到達距離の差分を算出することを特徴とする音源方向推定方法。
  6. 複数方向に存在する音源からの音響信号を複数チャンネルの入力として受け付け、チャンネルごとの時間軸上のサンプリング信号に変換するステップと、時間軸上の各サンプリング信号を周波数軸上の信号にチャンネルごとに変換するステップと、変換された周波数軸上の各チャンネルの信号の位相成分を同一周波数ごとに算出するステップと、同一周波数ごとに算出された各チャンネルの信号の位相成分を用いて、複数チャンネル間の位相差分を算出するステップと、算出された位相差分に基づいて、目的とする音源からの音響信号の到達距離の差分を算出するステップと、算出された到達距離の差分に基づいて、目的とする音源が存在する方向を推定するステップとを含む音源方向推定方法において、
    所定のサンプリング時点で変換された周波数軸上の信号の振幅成分を算出するステップと、
    算出された振幅成分から雑音成分を推定するステップと、
    算出された振幅成分及び推定された雑音成分に基づいて周波数ごとの信号対雑音比を算出するステップと、
    算出された信号対雑音比及び過去のサンプリング時点での位相差分の算出結果に基づいて、サンプリング時点での位相差分の算出結果を補正するステップと
    を含み、
    前記到達距離の差分を算出するステップは、補正後の位相差分に基づいて前記到達距離の差分を算出することを特徴とする音源方向推定方法。
  7. コンピュータで実行することが可能であり、前記コンピュータを、複数方向に存在する音源からの音響信号を複数チャンネルの入力として受け付け、チャンネルごとの時間軸上の信号に変換する音響信号受付手段、時間軸上の各チャンネルの信号を周波数軸上の信号に変換する信号変換手段、変換された周波数軸上の各チャンネルの信号の位相成分を同一周波数ごとに算出する位相成分算出手段、同一周波数ごとに算出された各チャンネルの信号の位相成分を用いて、複数チャンネル間の位相差分を算出する位相差分算出手段、算出された位相差分に基づいて、目的とする音源からの音響信号の到達距離の差分を算出する到達距離差分算出手段、及び算出された到達距離の差分に基づいて、目的とする音源が存在する方向を推定する音源方向推定手段として機能させるコンピュータプログラムにおいて、
    前記コンピュータを、
    変換された周波数軸上の信号の振幅成分を算出する振幅成分算出手段、
    算出された振幅成分から雑音成分を推定する雑音成分推定手段、
    算出された振幅成分及び推定された雑音成分に基づいて周波数ごとの信号対雑音比を算出する信号対雑音比算出手段、及び
    算出された信号対雑音比が所定値よりも大きい周波数を抽出する周波数抽出手段
    として機能させ、
    前記到達距離差分算出手段としての機能は、前記周波数抽出手段としての機能により抽出された周波数の位相差分に基づいて前記到達距離の差分を算出するようにしてあることを特徴とするコンピュータプログラム。
  8. コンピュータで実行することが可能であり、前記コンピュータを、複数方向に存在する音源からの音響信号を複数チャンネルの入力として受け付け、チャンネルごとの時間軸上の信号に変換する音響信号受付手段、時間軸上の各サンプリング信号を周波数軸上の信号にチャンネルごとに変換する信号変換手段、変換された周波数軸上の各チャンネルの信号の位相成分を同一周波数ごとに算出する位相成分算出手段、同一周波数ごとに算出された各チャンネルの信号の位相成分を用いて、複数チャンネル間の位相差分を算出する位相差分算出手段、算出された位相差分に基づいて、目的とする音源からの音響信号の到達距離の差分を算出する到達距離差分算出手段、及び算出された到達距離の差分に基づいて、目的とする音源が存在する方向を推定する音源方向推定手段として機能させるコンピュータプログラムにおいて、
    前記コンピュータを、
    所定のサンプリング時点で変換された周波数軸上の信号の振幅成分を算出する振幅成分算出手段、
    算出された振幅成分から雑音成分を推定する雑音成分推定手段、
    算出された振幅成分及び推定された雑音成分に基づいて周波数ごとの信号対雑音比を算出する信号対雑音比算出手段、及び
    算出された信号対雑音比及び過去のサンプリング時点での位相差分の算出結果に基づいて、サンプリング時点での位相差分の算出結果を補正する補正手段
    として機能させ、
    前記到達距離差分算出手段としての機能は、前記補正手段としての機能による補正後の位相差分に基づいて前記到達距離の差分を算出するようにしてあることを特徴とするコンピュータプログラム。
JP2007033911A 2006-08-09 2007-02-14 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム Expired - Fee Related JP5070873B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2007033911A JP5070873B2 (ja) 2006-08-09 2007-02-14 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム
EP07112565.2A EP1887831B1 (en) 2006-08-09 2007-07-16 Method, apparatus and program for estimating the direction of a sound source
US11/878,038 US7970609B2 (en) 2006-08-09 2007-07-20 Method of estimating sound arrival direction, sound arrival direction estimating apparatus, and computer program product
CN2007101382380A CN101122636B (zh) 2006-08-09 2007-07-31 声音到达方向的估测方法以及声音到达方向的估测设备
KR1020070077162A KR100883712B1 (ko) 2006-08-09 2007-07-31 음원 방향 추정 방법, 및 음원 방향 추정 장치

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006217293 2006-08-09
JP2006217293 2006-08-09
JP2007033911A JP5070873B2 (ja) 2006-08-09 2007-02-14 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2008064733A true JP2008064733A (ja) 2008-03-21
JP5070873B2 JP5070873B2 (ja) 2012-11-14

Family

ID=38669580

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007033911A Expired - Fee Related JP5070873B2 (ja) 2006-08-09 2007-02-14 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US7970609B2 (ja)
EP (1) EP1887831B1 (ja)
JP (1) JP5070873B2 (ja)
KR (1) KR100883712B1 (ja)
CN (1) CN101122636B (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009288215A (ja) * 2008-06-02 2009-12-10 Toshiba Corp 音響処理装置及びその方法
WO2010098546A2 (ko) * 2009-02-27 2010-09-02 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
JP2010252331A (ja) * 2009-04-16 2010-11-04 Advantest Corp 検出装置、算出装置、測定装置、検出方法、算出方法、伝送システム、プログラム、および、記録媒体
KR101002028B1 (ko) 2008-09-04 2010-12-16 고려대학교 산학협력단 마이크로폰 및 시공간 정보를 이용한 음원 구간 탐지 시스템, 그 방법 및 이를 기록한 기록매체
JP2014035235A (ja) * 2012-08-08 2014-02-24 Hitachi Ltd パルス検出装置
KR101537653B1 (ko) * 2013-12-31 2015-07-17 서울대학교산학협력단 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템
US10706870B2 (en) 2017-10-23 2020-07-07 Fujitsu Limited Sound processing method, apparatus for sound processing, and non-transitory computer-readable storage medium

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5386806B2 (ja) * 2007-08-17 2014-01-15 富士通株式会社 情報処理方法、情報処理装置、および、情報処理プログラム
JP2009151705A (ja) * 2007-12-21 2009-07-09 Toshiba Corp 情報処理装置およびその制御方法
KR101519104B1 (ko) * 2008-10-30 2015-05-11 삼성전자 주식회사 목적음 검출 장치 및 방법
KR100911870B1 (ko) * 2009-02-11 2009-08-11 김성완 음원 추적 장치 및 그 방법
JP5375400B2 (ja) * 2009-07-22 2013-12-25 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
FR2948484B1 (fr) * 2009-07-23 2011-07-29 Parrot Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
KR101581885B1 (ko) * 2009-08-26 2016-01-04 삼성전자주식회사 복소 스펙트럼 잡음 제거 장치 및 방법
JP5672770B2 (ja) 2010-05-19 2015-02-18 富士通株式会社 マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム
US9111526B2 (en) 2010-10-25 2015-08-18 Qualcomm Incorporated Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
US8818800B2 (en) 2011-07-29 2014-08-26 2236008 Ontario Inc. Off-axis audio suppressions in an automobile cabin
EP2551849A1 (en) * 2011-07-29 2013-01-30 QNX Software Systems Limited Off-axis audio suppression in an automobile cabin
US8750528B2 (en) * 2011-08-16 2014-06-10 Fortemedia, Inc. Audio apparatus and audio controller thereof
US9031259B2 (en) * 2011-09-15 2015-05-12 JVC Kenwood Corporation Noise reduction apparatus, audio input apparatus, wireless communication apparatus, and noise reduction method
JP5810903B2 (ja) * 2011-12-27 2015-11-11 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
US10107887B2 (en) 2012-04-13 2018-10-23 Qualcomm Incorporated Systems and methods for displaying a user interface
WO2014047025A1 (en) * 2012-09-19 2014-03-27 Analog Devices, Inc. Source separation using a circular model
US9549271B2 (en) 2012-12-28 2017-01-17 Korea Institute Of Science And Technology Device and method for tracking sound source location by removing wind noise
US9288577B2 (en) * 2013-07-29 2016-03-15 Lenovo (Singapore) Pte. Ltd. Preserving phase shift in spatial filtering
KR101631611B1 (ko) * 2014-05-30 2016-06-20 한국표준과학연구원 시간 지연 추정 장치 및 그것의 시간 지연 추정 방법
CN110895930B (zh) * 2015-05-25 2022-01-28 展讯通信(上海)有限公司 语音识别方法及装置
CN106405501B (zh) * 2015-07-29 2019-05-17 中国科学院声学研究所 一种基于相位差回归的单声源定位方法
US9788109B2 (en) 2015-09-09 2017-10-10 Microsoft Technology Licensing, Llc Microphone placement for sound source direction estimation
CN105866741A (zh) * 2016-06-23 2016-08-17 合肥联宝信息技术有限公司 基于声源定位的家居控制装置及方法
EP4239992A3 (en) * 2017-03-10 2023-10-18 Bonx Inc. Communication system and mobile communication terminal
JP6686977B2 (ja) * 2017-06-23 2020-04-22 カシオ計算機株式会社 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
US11189303B2 (en) * 2017-09-25 2021-11-30 Cirrus Logic, Inc. Persistent interference detection
KR102452952B1 (ko) * 2017-12-06 2022-10-12 삼성전자주식회사 방향성 음향 센서 및 이를 포함하는 전자 장치
US10524051B2 (en) * 2018-03-29 2019-12-31 Panasonic Corporation Sound source direction estimation device, sound source direction estimation method, and recording medium therefor
CN108562871A (zh) * 2018-04-27 2018-09-21 国网陕西省电力公司电力科学研究院 基于矢量传声器阵列的低频噪声源高精度定位方法
CN108713323B (zh) * 2018-05-30 2019-11-15 歌尔股份有限公司 估计到达方向的方法和装置
CN111163411B (zh) * 2018-11-08 2022-11-18 达发科技股份有限公司 减少干扰音影响的方法及声音播放装置
CN110109048B (zh) * 2019-05-23 2020-11-06 北京航空航天大学 一种基于相位差的入侵信号来波方向角度范围估计方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08266747A (ja) * 1995-03-31 1996-10-15 Matsushita Electric Ind Co Ltd 音声認識装置、反応装置、反応選択装置及びこれらを用いた反応玩具
JP2000035474A (ja) * 1998-07-17 2000-02-02 Fujitsu Ltd 音源位置検出装置
JP2004012151A (ja) * 2002-06-03 2004-01-15 Matsushita Electric Ind Co Ltd 音源方向推定装置
WO2006046293A1 (ja) * 2004-10-28 2006-05-04 Fujitsu Limited 雑音抑圧装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4333170A (en) * 1977-11-21 1982-06-01 Northrop Corporation Acoustical detection and tracking system
JPH05307399A (ja) * 1992-05-01 1993-11-19 Sony Corp 音声分析方式
JP4163294B2 (ja) * 1998-07-31 2008-10-08 株式会社東芝 雑音抑圧処理装置および雑音抑圧処理方法
US6363345B1 (en) * 1999-02-18 2002-03-26 Andrea Electronics Corporation System, method and apparatus for cancelling noise
JP2001318694A (ja) * 2000-05-10 2001-11-16 Toshiba Corp 信号処理装置、信号処理方法および記録媒体
CN1440628A (zh) * 2000-05-10 2003-09-03 伊利诺伊大学评议会 干扰抑制技术
US7206421B1 (en) * 2000-07-14 2007-04-17 Gn Resound North America Corporation Hearing system beamformer
US7171008B2 (en) * 2002-02-05 2007-01-30 Mh Acoustics, Llc Reducing noise in audio systems
JP2003337164A (ja) 2002-03-13 2003-11-28 Univ Nihon 音到来方向検出方法及びその装置、音による空間監視方法及びその装置、並びに、音による複数物体位置検出方法及びその装置
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
JP4521549B2 (ja) 2003-04-25 2010-08-11 財団法人くまもとテクノ産業財団 上下、左右方向の複数の音源の分離方法、そのためのシステム
JP3862685B2 (ja) 2003-08-29 2006-12-27 株式会社国際電気通信基礎技術研究所 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム
KR100612616B1 (ko) * 2004-05-19 2006-08-17 한국과학기술원 영교차점을 이용한 신호대잡음비 추정방법 및 음원 방향탐지방법
JP4896449B2 (ja) * 2005-06-29 2012-03-14 株式会社東芝 音響信号処理方法、装置及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08266747A (ja) * 1995-03-31 1996-10-15 Matsushita Electric Ind Co Ltd 音声認識装置、反応装置、反応選択装置及びこれらを用いた反応玩具
JP2000035474A (ja) * 1998-07-17 2000-02-02 Fujitsu Ltd 音源位置検出装置
JP2004012151A (ja) * 2002-06-03 2004-01-15 Matsushita Electric Ind Co Ltd 音源方向推定装置
WO2006046293A1 (ja) * 2004-10-28 2006-05-04 Fujitsu Limited 雑音抑圧装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009288215A (ja) * 2008-06-02 2009-12-10 Toshiba Corp 音響処理装置及びその方法
KR101002028B1 (ko) 2008-09-04 2010-12-16 고려대학교 산학협력단 마이크로폰 및 시공간 정보를 이용한 음원 구간 탐지 시스템, 그 방법 및 이를 기록한 기록매체
WO2010098546A2 (ko) * 2009-02-27 2010-09-02 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
WO2010098546A3 (ko) * 2009-02-27 2010-10-21 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
US9431029B2 (en) 2009-02-27 2016-08-30 Korea University Industrial & Academic Collaboration Foundation Method for detecting voice section from time-space by using audio and video information and apparatus thereof
JP2010252331A (ja) * 2009-04-16 2010-11-04 Advantest Corp 検出装置、算出装置、測定装置、検出方法、算出方法、伝送システム、プログラム、および、記録媒体
JP2014035235A (ja) * 2012-08-08 2014-02-24 Hitachi Ltd パルス検出装置
KR101537653B1 (ko) * 2013-12-31 2015-07-17 서울대학교산학협력단 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템
US10706870B2 (en) 2017-10-23 2020-07-07 Fujitsu Limited Sound processing method, apparatus for sound processing, and non-transitory computer-readable storage medium

Also Published As

Publication number Publication date
CN101122636A (zh) 2008-02-13
KR20080013734A (ko) 2008-02-13
EP1887831A3 (en) 2011-12-21
JP5070873B2 (ja) 2012-11-14
US7970609B2 (en) 2011-06-28
KR100883712B1 (ko) 2009-02-12
EP1887831A2 (en) 2008-02-13
US20080040101A1 (en) 2008-02-14
EP1887831B1 (en) 2013-05-29
CN101122636B (zh) 2010-12-15

Similar Documents

Publication Publication Date Title
JP5070873B2 (ja) 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム
US10602267B2 (en) Sound signal processing apparatus and method for enhancing a sound signal
JP5874344B2 (ja) 音声判定装置、音声判定方法、および音声判定プログラム
US8271292B2 (en) Signal bandwidth expanding apparatus
JP4520732B2 (ja) 雑音低減装置、および低減方法
JP5127754B2 (ja) 信号処理装置
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
EP3163902A1 (en) Information-processing device, information processing method, and program
JP4836720B2 (ja) ノイズサプレス装置
US20170229137A1 (en) Audio processing apparatus, audio processing method, and program
JP2007318528A (ja) 指向性集音装置、指向性集音方法、及びコンピュータプログラム
JP2014085673A (ja) 電子装置の音量をインテリジェントに制御する方法及び実装機器
US20100111290A1 (en) Call Voice Processing Apparatus, Call Voice Processing Method and Program
JP2015019124A (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
US8793128B2 (en) Speech signal processing system, speech signal processing method and speech signal processing method program using noise environment and volume of an input speech signal at a time point
JP2008309955A (ja) ノイズサプレス装置
JP6840302B2 (ja) 情報処理装置、プログラム及び情報処理方法
JPWO2010061505A1 (ja) 発話音声検出装置
JP6711205B2 (ja) 音響信号処理装置、プログラム及び方法
US9875755B2 (en) Voice enhancement device and voice enhancement method
US11922933B2 (en) Voice processing device and voice processing method
JP2005157086A (ja) 音声認識装置
JP6631127B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声処理装置
US20210174820A1 (en) Signal processing apparatus, voice speech communication terminal, signal processing method, and signal processing program
JP6102144B2 (ja) 音響信号処理装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111031

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120406

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120724

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120806

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150831

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees