JP2014056181A - 音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラム - Google Patents

音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラム Download PDF

Info

Publication number
JP2014056181A
JP2014056181A JP2012201874A JP2012201874A JP2014056181A JP 2014056181 A JP2014056181 A JP 2014056181A JP 2012201874 A JP2012201874 A JP 2012201874A JP 2012201874 A JP2012201874 A JP 2012201874A JP 2014056181 A JP2014056181 A JP 2014056181A
Authority
JP
Japan
Prior art keywords
correlation matrix
sound source
unit
sound
source direction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012201874A
Other languages
English (en)
Other versions
JP5952692B2 (ja
Inventor
Kazuhiro Nakadai
一博 中臺
Keisuke Nakamura
圭佑 中村
Keita Okuya
啓太 奥谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2012201874A priority Critical patent/JP5952692B2/ja
Priority to US14/023,600 priority patent/US9247343B2/en
Publication of JP2014056181A publication Critical patent/JP2014056181A/ja
Application granted granted Critical
Publication of JP5952692B2 publication Critical patent/JP5952692B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/02Systems using the reflection of electromagnetic waves other than radio waves
    • G01S17/06Systems determining position data of a target
    • G01S17/08Systems determining position data of a target for measuring distance only
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/86Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

【課題】目的音の方向をより精度よく推定することができる音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラムを提供する。
【解決手段】第1相関行列算出部は入力された複数の音響信号の相関行列を算出し、第2相関行列算出部は複数の音響信号に基づく雑音信号の相関行列を算出し、音源定位部は第1相関行列算出部が算出した相関行列と、第2相関行列算出部が算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて、複数のチャネルの音響信号に係る音源の方向を推定する。
【選択図】図2

Description

本発明は、音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラムに関する。
従来から、複数の音響信号から音源の方向を推定する音源方向推定技術が提案されている。音源方向推定技術は、周囲の環境に係る情報を取得する手段の一つである。推定した音源方向は、例えば、ロボットが動作を判定する際の条件として利用される。これにより、危険な場所等での作業支援や遠隔操作等への応用が試みられている。
収録される音響信号には、人間が発した音声、音楽等の目的音に、空調装置等の機器等の動作音や風切音等の雑音が重畳されている。この雑音は、目的音の音源方向の推定精度を低下させる原因になる。そこで、音源方向推定において雑音による影響を低減することが提案されている。
例えば、特許文献1には、入力された音響信号の相関行列を算出し、算出された相関行列と雑音の相関行列を用いて固有ベクトルを求め、求めた固有ベクトルを用いて音源方向を推定する音源方向推定装置が記載されている。
また、特許文献2には、入力された音響信号の音響特徴量に基づき音源の種類を同定し、同定した種類の音響信号の相関行列を求め、求めた固有ベクトルを用いて音源方向を推定する音源方向推定装置が記載されている。特許文献1や特許文献2に記載の音源方向推定装置では、いずれも雑音の相関行列や音源の種類毎の音響特徴量を予め取得しておく必要がある。
特開2010−281816号公報 特開2012−042465号公報
しかしながら、実環境では雑音のレベルや周波数特性等が時々刻々と変動する。つまり、特許文献1や特許文献2に記載の音源方向推定装置では、予め取得した限られた個数の雑音の相関行列や音源の種類毎の音響特徴量を用いただけでは、雑音の影響を排除することができないことがある。そのため、実環境では目的音の方向を精度よく推定することが困難だった。
本発明は上記の点に鑑みてなされたものであり、目的音の方向をより精度よく推定する。
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、入力された複数の音響信号の相関行列を算出する第1相関行列算出部と、前記複数の音響信号に基づく雑音信号の相関行列を算出する第2相関行列算出部と、前記第1相関行列算出部が算出した相関行列と、前記第2相関行列算出部が算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて前記複数のチャネルの音響信号に係る音源の方向を推定する音源定位部と、を備えることを特徴とする音源方向推定装置である。
(2)本発明のその他の態様は、上述の音源方向推定装置であって、前記第2相関行列算出部における前記雑音信号は、前記複数の音響信号を遅延させた信号であって、前記遅延に係る遅延時間は、前記第1相関行列算出部が相関行列の算出に用いる前記複数の音響信号の時間よりも長いことを特徴とする。
(3)本発明のその他の態様は、上述の音源方向推定装置であって、前記第2相関行列算出部が相関行列の算出に用いる前記雑音信号の時間は、前記第1相関行列算出部が相関行列の算出に用いる前記複数のチャネルの音響信号の時間よりも長いことを特徴とする。
(4)本発明のその他の態様は、上述の音源方向推定装置であって、前記入力された複数の音響信号から、予め定めた種類の目的音を含む目的音信号と前記目的音とは異なる成分である雑音成分を示す雑音信号を生成する雑音推定部を備え、前記第1相関行列算出部は、前記入力された複数の音響信号として前記雑音推定部が生成した目的音信号を用いて相関行列を算出し、前記第2相関行列算出部は、前記雑音信号として前記雑音推定部が生成した雑音信号を用いて相関行列を算出することを特徴とする。
(5)本発明のその他の態様は、上述の音源方向推定装置であって、前記第1相関行列算出部が算出した相関行列に、前記第2相関行列算出部が算出した相関行列の逆行列を乗算した行列について一般化固有値展開を行って固有ベクトルを算出する固有ベクトル算出部を備え、前記音源定位部は、音源の方向毎の伝達関数ベクトルのノルムを、前記固有ベクトル算出部が算出した固有ベクトルのうち予め定めた個数の固有ベクトルのそれぞれと当該伝達関数ベクトルとの内積の和で除算して算出することを特徴とする。
(6)本発明のその他の態様は、上述の音源方向推定装置であって、前記音源定位部は、前記空間スペクトルの周波数間の平均値である平均化空間スペクトルが極大値をとる方向を前記複数のチャネルの音響信号に係る音源の方向と推定することを特徴とする。
(7)本発明のその他の態様は、複数のチャネルの音響信号を収録する収音部、前記収音部の位置を推定する位置推定部、及び前記収音部が収録した複数のチャネルの音響信号に係る音源の方向を推定する音源方向推定部と、を備える音響処理システムであって、前記音源方向推定部は、入力された複数の音響信号の相関行列を算出する第1相関行列算出部と、前記複数の音響信号に基づく雑音信号の相関行列を算出する第2相関行列算出部と、前記第1相関行列算出部が算出した相関行列と、前記第2相関行列算出部が算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて前記複数のチャネルの音響信号に係る音源の方向を推定する音源定位部と、を備えることを特徴とする音響処理システムである。
(8)本発明のその他の態様は、音源方向推定装置における音源方向推定方法であって、前記音源方向推定装置は、入力された複数の音響信号の相関行列を算出する第1相関行列算出過程と、前記複数の音響信号に基づく雑音信号の相関行列を算出する第2相関行列算出過程と、前記第1相関行列算出過程で算出した相関行列と、前記第2相関行列算出過程で算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて前記複数のチャネルの音響信号に係る音源の方向を推定する音源定位過程と、を有することを特徴とする音源方向推定方法である。
(9)本発明のその他の態様は、音源方向推定装置のコンピュータに、入力された複数の音響信号の相関行列を算出する第1相関行列算出手順、前記複数の音響信号に基づく雑音信号の相関行列を算出する第2相関行列算出手順、前記第1相関行列算出手順で算出した相関行列と、前記第2相関行列算出手順で算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて前記複数のチャネルの音響信号に係る音源の方向を推定する音源定位手順、を実行させるための音源方向推定プログラムである。
本発明の態様(1)、(7)、(8)及び(9)によれば、入力された音響信号に係る相関行列と、逐次に得られた雑音信号の相関行列に基づいて算出した空間スペクトルを用いるので、目的音の方向をより精度よく推定することができる。
本発明の態様(2)によれば、第1相関行列算出部が相関行列を算出する音響信号の時間帯(区間)と第2相関行列算出部が相関行列を算出する雑音信号の時間帯(区間)が異なる。そのため、第1相関行列算出部が算出する相関行列と第2相関行列算出部が算出する相関行列との独立性が確保される。そのため、より確実に目的音の方向を推定することができる。
本発明の態様(3)によれば、雑音信号よりも特性の変化が著しい目的音に追従できるため、目的音の方向の変化により適応できる。
本発明の態様(4)によれば、第1相関行列算出部は目的音信号に基づいて相関行列を算出し、第2相関行列算出部は目的音以外の成分である雑音成分を示す雑音信号に基づいて相関行列を算出するため、相関行列を算出するための各信号の区間の自由度が向上する。
そのため、処理に係る遅延をより低減することができる。
本発明の態様(5)によれば、第1相関行列算出部が算出した相関行列に、前記第2相関行列算出部が算出した相関行列の逆行列を乗算して得られた行列は、入力された音響信号に係る相関行列から雑音成分による寄与が除去された行列である。この行列について算出された固有ベクトルに基づいて算出した空間スペクトルも、雑音成分の影響が除去されるため、目的音である音源の方向を精度よく推定することができる。
本発明の態様(6)によれば、空間スペクトルが周波数間で平均化されるため、全周波数を代表する音源の方向を推定することができる。
本発明の第1の実施形態に係る音響処理システムの構成を示す概略図である。 本実施形態に係る音源方向推定部の構成を示す概略図である。 本実施形態に係る窓長及び遅延時間の一例を示す概念図である。 本実施形態に係る収音部の構成例を示す概念図である。 収音部、距離検出部と音源との位置関係を示す概念図である。 本実施形態に係る音源方向推定処理を示すフローチャートである。 本発明の第2の実施形態に係る音源方向推定部23の構成を示す概略図 である。 本実施形態に係る音源方向推定処理を示すフローチャートである。 収音部が備えるマイクロホンが収録した音響信号の一例を示す図である。 平均化空間スペクトルの一例を示す図である。 平均化空間スペクトルのその他の例を示す図である。 平均化空間スペクトルの更に他の例を示す図である。 正規化空間スペクトルのヒストグラムの例を示す図である。 正規化度数の標準偏差を示す表である。 定位精度及び定位正解率の一例を示す表である。 差分値の例を示す図である。
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音響処理システム1の構成を示す概略図である。
音響処理システム1は、収音部11、音響信号受信部12、音源方向推定部13、距離検出部14、距離情報受信部15、位置推定部16、座標変換部17、及び音源方向出力部18を含んで構成される。音響信号受信部12と距離情報受信部15は、一体化して構成されていてもよいし、それぞれ別個に構成されていてもよい。
収音部11は、複数(M個、Mは1よりも大きい整数)のチャネルの音響信号を収録し、収録したMチャネルの音響信号を音響信号受信部12に送信する。収音部11は、M個の受音部を備える。収音部11は、収録したMチャネルの音響信号をチャネル間で同期して送信することができれば、無線で送信してもよいし、有線で送信してもよい。収音部11は、位置が固定されていてもよいし、車両、航空機、ロボット等の移動体に設置され、移動が可能であってもよい。収音部11の構成の一例については後述する。
音響信号受信部12は、収音部11からMチャネルの音響信号を受信し、受信したMチャネルの音響信号を音源方向推定部13に出力する。
音源方向推定部13は、音響信号受信部12から入力されたMチャネルの音響信号に基づいて音源の方向を推定し、推定した音源の方向を示す音源方向情報を座標変換部17に出力する。ここで、音源方向推定部13は、入力されたMチャネルの音響信号の相関行列R(ω,f)と、このMチャネルの音響信号に基づく雑音信号の雑音相関行列K(ω,f)をそれぞれ周波数ω、フレーム時刻f毎に算出する。音源方向推定部13は、算出した相関行列R(ω,f)と雑音相関行列K(ω,f)に基づいて空間スペクトルP(ω,f)を算出し、算出した空間スペクトルP(ω,f)を用いて音源の方向ψを推定する。
本実施形態では、音源方向推定部13は、収音部11等、その他の構成部とは独立した音源方向推定装置として構成されていてもよいし、その他の構成部の全部又は一部と一体化した音源方向推定装置として構成されていてもよい。音源方向推定部13の構成については、後述する。
距離検出部14は、当該距離検出部14から収音部11における少なくとも3点の各点までの距離(奥行、depth)を検出し、検出した各点までの距離を示す距離情報を距離情報受信部15に送信する。距離検出部14は、例えば、赤外線センサを備える。その場合、距離検出部14は、距離の検出に用いる検出用信号として赤外線を放射し、収音部11の各点が反射した反射波をそれぞれ受信する。距離検出部14は、放射した検出用信号とそれぞれ受信した反射波との間の遅延又は位相差を検知する。距離検出部14は、それぞれ検知した遅延もしくは位相差と光速に基づいて収音部11の各点までの距離を算出する。
距離検出部14は、収音部11までの距離を検出することができれば、赤外線センサの代わりに、レーザ距離計(レーザレンジファインダ、LRF:Laser Range Finder)等、他の検出手段を備えてもよい。
なお、距離検出部14の位置は、固定されていてもよい。距離検出部14は、距離情報を距離情報受信部15に送信することができれば、無線で送信してもよいし、有線で送信してもよい。
距離情報受信部15は、距離検出部14から距離情報を受信する。距離情報受信部15は、音響信号受信部12における音響信号の受信と同期して距離情報を受信してもよい。距離情報受信部15は、例えば、音響信号受信部12と一体化して構成された入力インタフェース部であってもよい。また、距離情報受信部15は、距離情報の受信と音響信号の受信するためにROS(Robot Operating System)プロトコルを用いてもよい。ROSとは、ロボットを構成するハードウェア資源を管理・制御する基本ソフトウェアの1つである。
距離情報受信部15は、距離検出部14から受信した距離情報を位置推定部16に出力する。
位置推定部16は、距離情報受信部15から入力された距離情報が示す収音部11の各点までの距離に基づいて、収音部11の位置を推定する。ここで、位置推定部16は、収音部11の各点の配置に係る配置情報が予め設定されている。配置情報は、例えば、収音部11における1点を基準とする座標であって、収音部11が備える複数の反射体(後述)のそれぞれの座標を示す情報である。位置推定部16は、当該位置推定部16から収音部11の各点までの距離と配置情報に基づいて、距離検出部14の位置を基準とした収音部11の各点の位置を算出する。位置推定部16は、算出した各点の位置のうち、選択したいずれか1点の位置、又は各点の位置の平均値を収音部11の位置(代表位置)として算出する。また、位置推定部16は、算出した収音部11の各点の位置と代表位置に基づいて、収音部11の向きを算出する。収音部11の向きとは、収音部11における予め定めた2点間を結ぶ線分の方向である。例えば、収音部11の各点のうち2点間を結ぶ線分の方向であってもよい。位置推定部16は、算出した収音部11の位置と向きを示す位置情報を座標変換部17に出力する。
座標変換部17は、音源方向推定部13から入力された音源方向情報が示す各音源の音源方向を、位置推定部16から入力された位置情報に基づいて距離検出部14の位置を基準とした座標系で示される方向に変換する。入力された音源方向情報は、収音部11を基準とする座標系(相対座標)で示されるためである。座標変換の例については図5を参照して後述する。座標変換部17は、変換した各音源の方向を示す音源方向情報を音源方向出力部18に出力する。
なお、座標変換部17は、操作入力等、外部から受け付けた設定情報に基づいて音源の方向を変換するか否かを切り替えることができるようにしてもよい。距離検出部14の位置が基準となるように音源の方向を変換しない場合には、座標変換部17は、音源方向推定部13から入力された音源方向情報をそのまま音源方向出力部18に出力する。
音源方向出力部18は、座標変換部17から入力された音源方向情報を出力する。音源方向出力部18は、入力された音源方向情報を記憶媒体に記憶するメモリアクセス部であってもよいし、他の機器に出力する出力インタフェース部であってもよい。また、音源方向出力部18は、入力された音源方向情報が示す各音源の方向を利用者が視認できるように表示する表示部であってもよい。音源方向出力部18は、音源方向推定部13が推定した各音源の音源信号の波形又はスペクトログラムと、その音源の方向とを対応付けて表示してもよい。
なお、距離検出部14の位置が基準となるように音源の方向を変換しない場合には、音響処理システム1は、距離検出部14、距離情報受信部15、位置推定部16、及び座標変換部17を省略してもよい。その場合、音源方向出力部18には、音源方向推定部13から音源方向情報が入力される。
(音源方向推定部の構成)
次に、本実施形態に係る音源方向推定部13の構成について説明する。
図2は、本実施形態に係る音源方向推定部13の構成を示す概略図である。
音源方向推定部13は、周波数分析部131、第1相関行列算出部132、第2相関行列算出部133、固有ベクトル算出部134、空間スペクトル算出部135、音源定位部136、及び音源分離部137を含んで構成される。
周波数分析部131には、音響信号受信部12からMチャネルの音響信号が入力される。周波数分析部131は、各チャネルの音響信号についてフレーム毎に離散フーリエ変換(DFT:Discrete Fourier Transform)を行って、周波数領域の入力信号を生成する。フレームとは、予め定めた長さ(フレーム長)の時間間隔、又はその時間間隔に含まれる信号を指す。フレーム長は、例えば、10msである。上述のフレーム時刻は、個々のフレームを代表する時刻(例えば、開始時刻)である。周波数分析部131は、フレーム毎に生成した各チャネルの入力信号を第1相関行列算出部132及び第2相関行列算出部133に出力する。
第1相関行列算出部132は、周波数分析部131から入力された入力信号を用いて、周波数ω、フレーム時刻f毎に相関行列R(ω,f)を算出する。相関行列R(ω,f)は、チャネルk(kは、1からMのうちいずれかの整数)の入力信号とチャネルl(lは、1からMのうちいずれかの整数)の入力信号とのチャネル間相関を、第k行第l列の要素値として有する行列である。これにより、相関行列R(ω,τ)は、M行M列の正方行列になる。
第1相関行列算出部132は、例えば、式(1)を用いて相関行列R(ω,f)を算出する。
式(1)において、fは現在のフレーム時刻を示し、Tは相関行列R(ω,τ)を算出する際に用いる区間の長さ(フレーム数)である。この区間の長さを窓長と呼ぶ。τは、フレーム時刻(現在のフレーム時刻には限らない)を示す。X(ω,τ)は、各チャネルの周波数領域の入力信号を要素とするM列の入力信号ベクトルを示す。*は、ベクトル又は行列の複素共役転置演算子である。即ち、式(1)は、チャネルkの入力信号値とチャネルlの入力信号値の複素共役との積について現在のフレーム時刻fまでの窓長Tの区間にわたって平均した値を、チャネル間相関として算出することを示す。
第1相関行列算出部132は、算出した相関行列R(ω,f)を固有ベクトル算出部134に出力する。
第2相関行列算出部133は、周波数分析部131から入力された入力信号に基づく雑音信号を用いて、周波数ω、フレーム時刻f毎に雑音相関行列K(ω,f)を算出する。雑音相関行列K(ω,f)は、チャネルkの雑音信号とチャネルlの雑音信号とのチャネル間相関を、第k行第l列の要素値として有する行列である。雑音信号は、現在の入力信号に係る雑音成分を示す信号である。第2相関行列算出部133は、例えば、入力信号を遅延時間fだけ遅延させた信号を雑音信号として用いる。これにより、雑音相関行列K(ω,f)は、M行M列の正方行列になる。
第2相関行列算出部133は、例えば、式(2)を用いて雑音相関行列K(ω,f)を算出する。
式(2)において、Tは雑音相関行列K(ω,τ)を算出する際に用いる窓長である。
即ち、式(2)は、チャネルkの入力信号値とチャネルlの入力信号値の複素共役との積についてフレーム時刻f−f−Tからf−fまでの窓長Tの区間にわたって平均した値を、チャネルkとチャネルlとの間のチャネル間相関として算出することを示す。
この例において、遅延時間fだけ単に遅延させた信号を雑音信号として推定したのは、入力信号の周波数特性は常に変動しているため、現在の入力信号における目的音の成分と過去の入力信号とが異なる傾向があるからである。ここで、遅延時間fが大きいほど相関行列R(ω,τ)と独立した雑音相関行列K(ω,f)が得られる。これに対して、遅延時間fが小さいほど相関行列R(ω,τ)を算出した時点における雑音の状況が雑音相関行列K(ω,f)に反映される。但し、この例では遅延時間fはゼロよりも大きい値である。遅延時間fがゼロになると、相関行列R(ω,τ)と雑音相関行列K(ω,f)が一致してしまい、目的音の方向を推定できなくなるためである。
窓長Tについては、窓長Tが大きいほど雑音相関行列K(ω,τ)の時間変動が緩和されるため処理結果が安定する反面、窓長Tが小さいほど入力信号の周波数特性の時間変動により追従できるようになる。このように、遅延時間fと窓長Tには、それぞれトレードオフの関係がある。第2相関行列算出部133には、遅延時間fと窓長Tとして、それぞれ適切な値を予め設定しておく。遅延時間fと窓長Tの例については後述する。
ここで、遅延時間fを、相関行列R(ω,f)に係る窓長Tよりも大きい値に定めておいてもよい。これにより、相関行列R(ω,f)を算出する区間と雑音相関行列K(ω,f)を算出する区間との重なりを回避できる。特に、雑音の周波数特性の変動が少ない定常雑音下においては、雑音に係る雑音相関行列K(ω,f)と目的音に係る相関行列R(ω,f)との独立性を確保することができる。つまり、雑音による音源方向の推定精度の劣化を低減することができる。
さらに、雑音相関行列K(ω,f)に係る窓長Tを、相関行列R(ω,f)に係る窓長Tよりも大きい値に定めておいてもよい。特に、定常雑音(stationary noise)のもとでは、雑音相関行列K(ω,f)の時間変動が乏しいため、窓長Tを長くすることが許容される。これに対し、入力信号の時間変動は、目的音の成分の時間変動が主であるため、相関行列R(ω,f)の算出において、この時間変動に追従するために窓長Tを短くすることが好ましい。
第2相関行列算出部133は、算出した雑音相関行列K(ω,f)を固有ベクトル算出部134に出力する。
固有ベクトル算出部134は、第1相関行列算出部132から入力された相関行列R(ω,f)と、第2相関行列算出部133から入力された雑音相関行列K(ω,f)とを用いて周波数ω、フレーム時刻f毎に固有ベクトルを算出する。ここで、固有ベクトル算出部134は、相関行列R(ω,f)に雑音相関行列K(ω,f)の逆行列K(ω,f)−1を左側から乗算した行列K(ω,f)−1R(ω,f)について一般化固有値展開(GEVD:Generalized Eigenvalue Decompotion)を行う。GEVDによって、固有ベクトル算出部134は、式(3)の関係を満たす正則行列E(ω,f)と固有値行列Λ(ω,f)を算出する。
式(3)において、固有値行列Λ(ω,f)は、M個の固有値λ,…,λを対角要素として有する行列である。固有値λ,…,λの順序1,…,Mは、その大きさの降順である。正則行列E(ω,f)は、固有ベクトルe,…,eを、固有値λ,…,λが大きい順に列方向に並べて構成される行列である。固有ベクトルe,…,eは、固有値λ,…,λにそれぞれ対応する固有ベクトルである。具体的には、固有ベクトル算出部134は、固有値λ,…,λとの間で式(4)の関係を満足するように、固有ベクトルe,…,eを算出する。
式(4)において、mは、1からMのいずれかの整数である。
これにより、相関行列R(ω,f)について、雑音相関行列K(ω,f)で白色化される。つまり、雑音の影響が除去されたうえで固有ベクトルe,…,eが算出される。固有ベクトルe,…,eは、それぞれ、その絶対値が1に正規化されていてもよい。
固有ベクトル算出部134は、算出したM個の固有ベクトルe,…,eを空間スペクトル算出部135に出力する。
空間スペクトル算出部135には、固有ベクトル算出部134からM個の固有ベクトルe,…,eが入力される。空間スペクトル算出部135は、周波数ω、音源方向ψ毎に伝達関数ベクトルG(ω,ψ)が予め記憶された記憶部(図示せず)を備えている。伝達関数ベクトルG(ω,ψ)は、音源方向ψから収音部11の各マイクロホン(チャネル)までの伝達関数を要素値として含むM列のベクトルである。伝達関数ベクトルG(ω,ψ)は、ステアリングベクトル(steering vector)とも呼ばれる。
空間スペクトル算出部135は、予め定めた探索範囲に含まれる音源方向ψの伝達関数ベクトルG(ω,ψ)を記憶部から読み出す。探索範囲とは音源方向ψの候補として探索する範囲である。
空間スペクトル算出部135は、各フレームfについて、周波数ω、音源方向ψ毎に、M個の固有ベクトルe,…,eと読み出した伝達関数ベクトルG(ω,ψ)に基づいて空間スペクトルP(ω,ψ,f)を算出する。空間スペクトル算出部135は、空間スペクトルP(ω,ψ,f)を算出する際に、例えば、式(5)を用いる。
式(5)において、|…|は、絶対値を示す。Lは、目的音源数である。目的音源数とは、目的音として、その音源方向を検知する音源数の最大値である。Lは、0よりも大きく、Mよりも小さい予め設定された整数である。即ち、空間スペクトルP(ω,ψ,f)は、伝達関数ベクトルG(ω,ψ)のノルムを、伝達関数ベクトルG(ω,ψ)とM−L個の固有ベクトルeL+1,…,eのそれぞれとの内積の総和で除算して算出される。理想的には、M−L個の固有ベクトルeL+1,…,eの方向は、最大L個の音源の方向ψに係る伝達関数ベクトルG(ω,ψ)と直交する。そのため、音源方向ψに係る空間スペクトルP(ω,ψ,f)は、他の方向よりも大きい値をとる。
空間スペクトル算出部135は、算出した空間スペクトルP(ω,ψ,f)を予め定めた周波数帯域内で平均して、各フレームf、音源方向ψについて、平均化空間スペクトル<P(ψ,f)>を算出する。空間スペクトル算出部135は、<P(ψ,f)>を算出する際、例えば、式(6)を用いる。
式(6)において、ωは、上述の周波数帯域における周波数の上限(上限周波数)に係るインデックスを示し、ωは、その周波数帯域における周波数の下限(下限周波数)に係るインデックスを示す。上限周波数は、例えば、3.5kHzであり、下限周波数は、例えば、0.5kHzである。式(6)の右辺の分母ω−ω+1は、加算(Σ)の対象となる空間スペクトルP(ω,ψ,f)の個数を示す。この分母に1が加算されるのは、各周波数ωは離散化されており、その周波数帯域の両端である上限周波数に係る空間スペクトルP(ω,ψ,f)と下限周波数に係る空間スペクトルP(ω,ψ,f)がともに、加算の対象となるからである。
空間スペクトル算出部135は、算出した平均化空間スペクトル<P(ψ,f)>を音源定位部136に出力する。
音源定位部136は、空間スペクトル算出部135から入力された平均化空間スペクトル<P(ψ,f)>に基づいて、各フレームfについて音源方向ψを定める。ここで、音源定位部136は、平均化空間スペクトル<P(ψ,f)>が予め定めた閾値よりも大きくなる音源方向ψであって、平均化空間スペクトル<P(ψ,f)>が極大値をとる音源方向ψを、最大L個選択する。極大値が、L個よりも多く検知された場合には、音源定位部136は、検知された音源方向ψの中から、L個の音源方向ψを選択する。ここで、音源定位部136は、平均化空間スペクトル<P(ψ,f)>が最も大きくなる音源方向ψからL番目に大きくなる音源方向ψまで選択する。
音源定位部136は、選択した各音源の音源方向ψを示す音源方向情報を座標変換部17及び音源分離部137に出力する。
音源分離部137は、入力された音源方向情報に基づいて、音響信号受信部12から入力されたMチャネルの音響信号から音源毎の音響信号を分離する。ここで、音源分離部137は、例えば、収音部11において各チャネルに対応したマイクロホンの配置に基づいて音源方向情報が示す音源毎の音源方向ψへの指向性が最も高くなる空間フィルタ係数をチャネル毎に算出する。音源分離部137は、算出した空間フィルタ係数をMチャネルの音響信号にそれぞれ畳み込み演算を行って、その音源の音響信号を生成する。なお、音源分離部137は、音源方向と各チャネルのマイクロホンの配置に基づいて、その音源の音響信号を生成することができる方法であれば、上述の方法に限られない。
音源分離部137は、生成した音響信号を外部に出力する。なお、音源方向出力部18に出力してもよい。
なお、上述した構成によって音源方向ψを算出する処理を、以下の説明では、iGEVD(incremental Generalized Eigenvalue Decomposition based、逐次一般化固有値展開)−MUSIC(Multiple Signal Classification、多重信号分類)法と呼ぶことがある。また、上述した構成において雑音相関行列K(ω,f)の代わりに、予め定めた一定値をとる雑音相関行列K、単位行列Iを用いる処理を、それぞれGEVD−MUSIC法、SEVD(Standard Eigenvalue Decomposition based、標準固有値展開)−MUSIC法と呼ぶことがある。
(窓長T、T、遅延時間fの関係)
次に、窓長T、T、及び遅延時間fの関係について説明する。
図3は、本実施形態に係る窓長及び遅延時間の一例を示す概念図である。
図3において横軸は時刻を示す。線分301は、相関行列R(ω,f)に係る窓長Tを示す線分である。線分301の起点が示すフレーム時刻はf−Tであって、終点が示すフレーム時刻はfである。つまり、線分301は、この起点と終点の間の区間に係るNチャネルの音響信号に基づいて相関行列R(ω,f)が算出されることを示す。
線分302は、雑音相関行列K(ω,f)に係る窓長Tを示す線分である。線分302の起点の時刻はf−f−Tであって、終点の時刻はf−fである。つまり、線分302は、この起点と終点の間の区間に係るNチャネルの音響信号に基づいて相関行列R(ω,f)が算出されることを示す。
また、図3は、現フレーム時刻fからの遅延時間fを窓長Tよりも長くすることで、相関行列R(ω,f)を算出する区間(f−Tとfの間)と、雑音相関行列K(ω,f)を算出する区間(f−f−Tとf−fの間)との重なりが回避されることを示す。これにより、相関行列R(ω,f)と雑音相関行列K(ω,f)との独立性を確保することができる。
また、図3に示す例では、窓長Tが窓長Tよりも長い。雑音の周波数特性の変動が、音声等の目的音よりも緩やかな場合には、そのように窓長を定めることによって、安定した雑音相関行列K(ω,f)を算出することができ、より時間変動への追従性の高い相関行列R(ω,f)を定めることができる。
(収音部の構成例)
次に、収音部11の構成例について説明する。
図4は、本実施形態に係る収音部11の構成例を示す概念図である。
収音部11は、移動体111、8個のマイクロホン112−1〜112−8、及び信号処理部113、及び3個の反射体(マーカ)114−1〜114−3を含んで構成される。
移動体111は、例えば、4個の回転翼を備えたクアドロコプタ(quadrocopter)である。クアドロコプタは、クアッドロータ(quadrotor)とも呼ばれる。
移動体111は、4個の輪状の支持部111−1〜111−4を備え、支持部111−1〜111−4は、同一の水平面上にそれぞれの中心点が正方形の頂点に配置されている。支持部111−1〜111−4のそれぞれには、その中心に回転軸を有する回転翼(図示せず)を備える。移動体111は、この回転翼が回転することによって飛行する。
マイクロホン112−1〜112−8は、音波をつまり大気の圧力の変動を電圧値に音響信号として変換する受音部である。マイクロホン112−1〜112−8は、それぞれ変換した音響信号を信号処理部113に出力する。
マイクロホン112−1〜112−8は、それぞれ移動体111の中心部から一定の距離に配置されている。また、支持部111−1〜111−4には、マイクロホン112−1〜112−8のうち、それぞれ2個ずつを、互いに対面する位置に設置されている。これにより、8個のマイクロホン112−1〜112−8の位置が、移動体111において分散して配置される。
信号処理部113は、マイクロホン112−1〜112−8から、それぞれ入力されたアナログの音響信号をディジタル音響信号にA/D(Analog−to−Digital)変換する。これにより、8チャネルのディジタル音響信号が取得される。
信号処理部113は、例えば、変換したディジタル音響信号を、基底周波数の信号から無線周波数の信号にアップコンバートして電波として音響信号受信部12に送信する。
音響信号受信部12では、受信した電波を無線周波数の信号から基底周波数の信号にダウンコンバートして、8チャネルのディジタル音響信号が復元される。
反射体114−1〜114−3は、それぞれ距離検出部14が放射した赤外線を反射する。反射体114−1〜114−3は、例えば、赤外線プリズムである。
反射体114−1は、支持部111−1と111−2との間であって、移動体111の外縁に設置される。反射体114−2は、支持部111−1と111−4との間であって、移動体111の外縁に設置される。反射体114−3は、支持部111−3と111−4との間であって、移動体111の外縁に設置される。これにより、反射体114−1〜114−3には、支持部111−1〜111−4に妨げられずに距離検出部14が放射した赤外線が入射される。
(座標変換の一例)
次に、座標変換部17が行う座標変換の一例について説明する。
以下の説明は、簡単のため2次元座標系に基づくが、本実施形態では、座標変換部17は3次元座標系に基づいて座標変換を行ってもよい。
図5は、収音部11、距離検出部14と音源sとの位置関係を示す概念図である。
図5において、X方向は距離検出部14を基準として紙面に対して右側を示し、Y方向はX方向に垂直であって水平面に平行な方向を示す。
座標変換部17は、距離検出部14を基準とした収音部11の方向θに基づいて、収音部11を基準とした音源sの方向ψを、距離検出部14を基準とした音源sの方向ψ’に変換する。
図5において、線分303は、距離検出部14を基準とした座標系(世界座標系)において基準となる方向(例えば、θ=0)を示す。線分304は、収音部11を基準とした座標系(音響座標系)において基準となる方向(例えば、ψ=0)を示す。
座標変換部17は、音源方向情報が音源方向推定部13から入力される他、収音部11を基準とした各音源までの距離を示す音源距離情報が音源方向推定部13から入力される。ここで、音源方向推定部13は、収音部11における各マイクロホンの配置を示すマイクロホン配置情報と算出した音源方向に基づいて、その音源までの距離を算出する。音源方向推定部13は、音源方向情報の他、算出した距離を示す音源距離情報を座標変換部17に出力する。
座標変換部17は、入力された音源方向情報と音源距離情報に基づいて、収音部11を基準とした音源sの座標(x,y)を算出する。ここで、xはX方向の座標値、yはY方向の座標値である。即ち、座標変換部17は、音源方向推定部13から入力された音源方向情報が示す音源方向と音源距離情報が示す音源距離を位置推定部16の座標系に変換する。
座標変換部17は、位置推定部16から入力された位置情報が示す収音部11の座標(x11,y11)と算出した音源sの座標(x,y)を加算して、距離検出部14を基準とした音源sの座標(x+x11,y+y11)を算出する。収音部11の座標(x11,y11)は、位置推定部16の位置を基準とした座標であって、位置推定部16の座標系で表された座標値である。座標変換部17は、算出した距離検出部14を基準とした音源sの座標を極座標に変換して、基準となる方向(線分303)からの角度を、距離検出部14を基準とした音源sの方向ψ’として算出する。座標変換部17は、算出した方向ψ’を音源方向出力部18に出力する。
(音源方向推定処理)
次に、本実施形態に係る音源方向推定処理について説明する。
図6は、本実施形態に係る音源方向推定処理を示すフローチャートである。
(ステップS101)周波数分析部131には、音響信号受信部12からMチャネルの音響信号が入力される。その後、ステップS102に進む。
(ステップS102)周波数分析部131は、各チャネルの音響信号についてフレーム毎に離散フーリエ変換(周波数分析)を行って、周波数領域の入力信号を生成する。周波数分析部131は、フレーム毎に生成した各チャネルの入力信号を第1相関行列算出部132及び第2相関行列算出部133に出力する。
その後、ステップS103に進む。
(ステップS103)第1相関行列算出部132は、周波数分析部131から入力された入力信号に基づき、例えば式(1)を用いて、周波数ω、フレーム時刻f毎に相関行列R(ω,f)(第1相関行列)を算出する。第1相関行列算出部132は、算出した相関行列R(ω,f)を固有ベクトル算出部134に出力する。その後、ステップS104に進む。
(ステップS104)第2相関行列算出部133は、周波数分析部131から入力された入力信号に基づく雑音信号を生成する。第2相関行列算出部133は、例えば式(2)を用いて、周波数ω、フレーム時刻f毎に雑音相関行列K(ω,f)(第2相関行列)を算出する。第2相関行列算出部133は、算出した雑音相関行列K(ω,f)を固有ベクトル算出部134に出力する。その後、ステップS105に進む。
(ステップS105)固有ベクトル算出部134には、第1相関行列算出部132から入力された相関行列R(ω,f)を第2相関行列算出部133から入力された雑音相関行列K(ω,f)を用いて周波数ω、フレーム時刻f毎にM個の固有ベクトルを算出する。
固有ベクトル算出部134は、M個の固有ベクトルを算出する際、例えば、式(3)又は(4)を用いる。その後、ステップS106に進む。
(ステップS106)空間スペクトル算出部135は、各フレームfについて、周波数ω、音源方向ψ毎に、M個の固有ベクトルe,…,eと記憶部から読み出した伝達関数ベクトルG(ω,ψ)に基づいて空間スペクトルP(ω,ψ,f)を算出する。空間スペクトル算出部135は、空間スペクトルP(ω,ψ,f)を算出する際、例えば、式(5)を用いる。空間スペクトル算出部135は、算出した空間スペクトルP(ω,ψ,f)を予め定めた周波数帯域内で平均して、各フレームf、音源方向ψについて、例えば、式(6)を用いて平均化空間スペクトル<P(ψ,f)>を算出する。
空間スペクトル算出部135は、算出した平均化空間スペクトル<P(ψ,f)>を音源定位部136に出力する。その後、ステップS107に進む。
(ステップS107)音源定位部136は、空間スペクトル算出部135から入力された平均化空間スペクトル<P(ψ,f)>が予め定めた閾値よりも大きく、平均化空間スペクトル<P(ψ,f)>が極大値をとる音源方向ψを選択(音源定位)する。音源定位部136は、選択した各音源の音源方向ψを示す音源方向情報を座標変換部17及び音源分離部137に出力する。その後、ステップS108に進む。
(ステップS108)音源分離部137は、入力された音源方向情報に基づいて、音響信号受信部12から入力されたMチャネルの音響信号から音源毎の音響信号を分離する。
音源分離部137は、生成した音響信号を外部に出力する。その後、処理を終了する。
以上に説明したように、本実施形態では、入力された複数のチャネルの音響信号の相関行列を算出し、複数のチャネルの音響信号に基づく雑音信号の相関行列を算出する。そして、本実施形態では、入力された音響信号に基づく相関行列と、雑音信号の相関行列に基づいて算出した空間スペクトルを用いて、入力された複数のチャネルの音響信号に係る音源の方向を推定する。
これにより、雑音信号の特性が既知でなくとも、目的音の方向をより精度よく推定することができる。
(第2の実施形態)
次に、図面を参照しながら本発明の第2の実施形態について説明する。第1の実施形態と同一の構成、処理については同一の符号を付して、上述の説明を援用する。
本実施形態に係る音響処理システム2(図示せず)は、音響処理システム1(図1参照)において、音源方向推定部13の代わりに音源方向推定部23を含んで構成される。
図7は、本実施形態に係る音源方向推定部23の構成を示す概略図である。
音源方向推定部23は、音源方向推定部13(図2参照)が備える構成に、さらに雑音推定部231を含んで構成される。
雑音推定部231は、周波数分析部131から入力された入力信号について、予め定めた種類の目的音を含む目的音信号を推定し、推定した目的音信号を第1相関行列算出部132に出力する。目的音とは、利用者が受聴の目的とする音、例えば、人間の音声、音楽等である。雑音推定部231は、入力信号のうち目的音成分以外の成分、雑音成分を示す雑音信号を推定し、推定した雑音信号を第2相関行列算出部133に出力する。
予め定めた目的音が人間の音声である場合、雑音推定部231は、例えば、(1)音声区間検出による目的音信号の推定、(2)定常雑音推定、のいずれか又は両方を行うようにしてもよい。
<(1)音声区間検出による目的音信号の推定>
雑音推定部231は、周波数分析部131から入力された入力信号について音声区間検出(Voice Activity Detection;VAD)を行う。これにより、入力信号が音声を主に含むか否かが判別される。雑音推定部231は、入力信号について時間領域で音声区間検出を有音区間毎に行う。有音区間は、入力信号の振幅の立ち上がり(onset)から立ち下り(decay)に挟まれる区間である。立ち上がりとは、無音区間の後、入力信号のパワーが予め定めたパワーよりも大きくなる部分である。立ち下がりとは、無音区間の前に、入力信号のパワーが予め定めたパワーよりも小さくなる部分である。そして、雑音推定部231は、例えば、フレーム毎のパワー値が、その直前において予め定めたパワー閾値よりも小さく、現在においてそのパワー閾値を上回る場合に、立ち上がりと判定する。これに対して、雑音推定部231は、パワー値が、その直前において予め定めたパワー閾値よりも大きく、現在においてそのパワー閾値よりも小さい場合に、立ち下がりと判定する。
雑音推定部231は、フレーム毎の零交差数(number of zero crossings)が、予め定めた数を越えたとき、音声区間であると判定する。零交差数とは、入力信号の時間領域における振幅値が零を跨ぐ回数、即ち、負値から正値、又は正値から負値に変化する回数である。雑音推定部231は、零交差数が、予め定めた数を下回る場合、非音声区間であると判定する。
雑音推定部231は、音声区間に係る入力信号を目的音信号として第1相関行列算出部132に出力し、非音声区間に係る入力信号を第2相関行列算出部133に出力する。よって、第1相関行列算出部132では、雑音推定部231から入力された音声区間に係る入力信号に基づいて相関行列R(ω,f)が算出される。第2相関行列算出部133では、雑音推定部231から入力された非音声区間に係る入力信号である雑音信号に基づいて雑音相関行列K(ω,f)が算出される。従って、窓長T、T(図3参照)を、それぞれ発話時において音声区間と非音声区間が交替する周期、例えば0.3秒よりも大きくすれば、相関行列R(ω,f)又は雑音相関行列K(ω,f)のうち、少なくとも一方が零行列とならない。そのため、固有ベクトル算出部134において、ゼロ除算又はゼロベクトルの算出が回避されるので音源方向推定部23としての動作が安定する。
<(2)定常雑音推定>
雑音推定部231は、周波数分析部131から入力された入力信号に基づいて、例えば、HRLE(Histogram−based Recursive Level Estimation)法を用いて定常雑音のパワーを算出する。HRLE法では、雑音推定部231は、周波数毎に対数領域におけるパワーのヒストグラム(頻度分布)を算出し、その累積分布に基づく累積頻度が予め定めた閾値(例えば、50%)に対応するパワーを定常雑音のパワーとして算出する。雑音推定部231は、HRLE法に限らず、他の方法、例えばMCRA(Minima−Controlled Recursive Average)法を用いて算出した定常雑音のパワーを算出してもよい。
その後、雑音推定部231は、算出した定常雑音のパワーを雑音信号として第2相関行列算出部133に出力する。雑音推定部231は、入力信号に係るパワーから定常雑音のパワーを減じて、目的音信号を算出する。雑音推定部231は、算出した目的音信号を第1相関行列算出部132に出力する。第1相関行列算出部132は、雑音推定部231から入力された目的音信号に基づいて相関行列R(ω,f)を算出する。第2相関行列算出部133は、雑音推定部231から入力された雑音信号に基づいて雑音相関行列K(ω,f)を算出される。従って、窓長T、T(図3参照)の大きさに関わらず、相関行列R(ω,f)には雑音相関行列K(ω,f)とは独立な成分が含まれる。また、遅延時間f(図3参照)が、ゼロであることが許容される。そのため、窓長T、Tや遅延時間fによる処理遅延を低減することができる。
これらの例において、固有ベクトル算出部134、空間スペクトル算出部135、及び音源定位部136は、音声区間に属するフレームfについて、それぞれM個の固有ベクトルの算出、平均化空間スペクトル<P(ψ,f)>、音源方向ψの選択を行ってもよい。処理対象に非音声区間に属するフレームfが含まれないため、目的音として有意な音源方向ψを推定することができる。
なお、上述では、予め定めた目的音が人間の音声である場合を例にとって説明したが、本実施形態ではこれには限られない。雑音推定部231は、目的音又は雑音を逐次に判別もしくはこれらの成分を推定する処理を実行できれば、他の方法でも適用することができる。
(音源方向推定処理)
次に、本実施形態に係る音源方向推定処理について説明する。
図8は、本実施形態に係る音源方向推定処理を示すフローチャートである。
本実施形態に係る音源方向推定処理は、図6に示す音源方向推定処理にステップS201が加わった処理である。本実施形態に係る音源方向推定処理では、ステップS102が終了した後に、ステップS201を実行する。
(ステップS201)雑音推定部231は、周波数分析部131から入力された入力信号について、入力信号のうち雑音成分が主である雑音信号を推定する。雑音推定部231は、推定した雑音信号を第2相関行列算出部133に出力する。入力信号のうち目的音成分が主である目的音信号を第1相関行列算出部132に出力する。その後、ステップS103に進む。
以上、説明したように本実施形態では、雑音推定部231は、入力信号に基づいて雑音成分が主である雑音信号を推定する。第1相関行列算出部132が算出する相関行列には第2相関行列算出部133が算出する雑音相関行列と独立な成分が含まれる。そのため、本実施形態によれば、第1相関行列算出部132が相関行列を算出する際の窓長、第2相関行列算出部133が雑音相関行列を算出する際の窓長や遅延時間を小さくすることで、処理遅延を低減することができる。
(動作例)
次に、音響処理システム1(図1参照)の動作例について説明する。
図9は、収音部11が備えるマイクロホン112−1が収録した音響信号の一例を示す図である。
図9において、横軸は時刻を示し、縦軸は周波数を示す。図9において、濃淡は音響信号のレベルの大きさを示す。明るく表示された部分ほど音響信号のレベルが高いことを示し、暗く表示された部分ほど音響信号のレベルが低いことを示す。
収音部11を構成する移動体111(図4参照)の動作に伴い、移動体111が生ずる騒音の周波数特性は動的に変化する。最初の3秒間(時刻0秒―3秒)において移動体111が離陸し回転翼の回転速度が上昇する。これに対応して、騒音のピーク周波数が高くなる。例えば、時刻が0秒のとき、ピーク周波数は約1kHzであり、時刻が3秒のとき、ピーク周波数は約5kHzである。その後、収音部11が空中を浮遊すると、騒音の周波数特性が安定する。例えば、時刻が5秒であるとき、ピーク周波数は約4kHz前後である。
ここで、第1の実施形態に係る音響処理システム1(本実施形態)と従来技術(SEVD−MUSIC、GEVD−MUSIC)の動作例を比較する。
これらの3つの方式それぞれについて、次の項目(1)〜(3)について動作結果を示す。(1)音源方向毎の平均化空間スペクトル<P(ψ,f)>、(2)平均化空間スペクトル<P(ψ,f)>のヒストグラム、(3)音源方向を推定できた頻度に基づく指標値。
動作結果を比較するために、2名の話者にそれぞれ音源として発話させた。2名の話者の位置は、収音部11から、それぞれ1.5m離れた円周上の位置である。
また、収音部11の位置について、(A)屋内において固定(屋内・固定)、(B)屋内において飛行(屋内・飛行)、(C)屋外において固定(屋外・固定)、のそれぞれの動作条件で動作させた。ここで、「固定」とは、空中を浮遊しながら位置を変化させないこと(ホバリング、空中停止、hovering)を指す。「飛行」とは、空中を浮遊しながら位置を変化させること(移動、moving)を指す。
以下では、特に断らない限り窓長T、T、遅延時間fを、それぞれ50フレーム、100フレーム、25フレームとし、1フレームを10msとした
次に、平均化空間スペクトル<P(ψ,f)>の例について説明する。図10〜12は、平均化空間スペクトル<P(ψ,f)>を各動作条件(屋内・固定、屋内・飛行、屋外・固定)について示す図である。
図10(a)〜(d)、図11(a)〜(d)、図12(a)〜(d)のそれぞれにおいて、横軸は時刻を示し、縦軸は音源方向を示す。図10(a)、図11(a)、図12(a)において、それぞれ分布している時刻方向にのびる実線及び破線は、現実の音源方向、つまり収音部11を基準とした2名の話者の方向を示す。
図10(b)〜(d)、図11(b)〜(d)、図12(b)〜(d)のそれぞれに分布し、時刻方向にのびる線分は、推定された音源方向を示す。図10(b)−(d)、図11(b)〜(d)、図12(b)〜(d)に、それぞれSEVD−MUSIC、GEVD−MUSIC、本実施形態において算出された平均化空間スペクトル<P(ψ,f)>を濃淡で示す。いずれも、明るい部分ほど値が大きいことを示し、暗い部分ほど値が小さいことを示す。
図10は、平均化空間スペクトル<P(ψ,f)>の一例(屋内・固定)を示す図である。
図10(a)は、一方の話者の方向が約3秒毎に45°ずつ変化し、他方の話者の方向が、0°のまま変化しないことを示す。図10(a)と(c)もしくは(d)を比較すると、話者の方向と推定された音源方向は、ほぼ一致する。このことから、図10は、本実施形態やGEVD−MUSICでは概ね2名の話者の方向を推定できることを示す。他方、図10(a)と(b)を比較すると、話者の方向と推定された音源方向が異なる。即ち、図10は、SEVD−MUSICでは、2名の話者の方向がほとんど推定できなかったことを示す。
図11は、平均化空間スペクトル<P(ψ,f)>の他の例(屋内・飛行)を示す図である。
図11(a)と(c)もしくは(d)を比較すると、図10に示す例ほどではないが話者の方向と推定された音源方向は類似している。これは、本実施形態又はGEVD−MUSICでは音源方向を推定できるが、騒音の周波数特性が動的に変化するために音源方向の推定精度が低下していることを示す。但し、図11(c)は、(d)よりも音源方向が160°付近に誤って推定する傾向がある点で、音源方向の推定精度が低下していることを示す。つまり、本実施形態は、GEVD−MUSICよりも騒音の周波数特性の動的変化に追従できることを示す。なお、図11(a)と(b)を比較すると、話者の方向と推定された音源方向が異なっている。即ち、図11は、SEVD−MUSICでは音源方向が推定できなかったことを示す。
図12は、平均化空間スペクトル<P(ψ,f)>の更に他の例(屋外・固定)を示す図である。
図12(a)は、一方の話者の方向が約3秒毎に45°ずつ変化し、他方の話者の方向が、0°のまま変化しないことを示す。但し、一方の話者の方向が変化する方向は、図10(a)に示す例とは、逆方向である。
図12(a)と(d)を比較すると、図10、11に示す例ほどではないが話者の方向と推定された音源方向は類似している。これは、本実施形態では音源方向を推定できるが、騒音のレベルが屋内よりも高いために音源方向の推定精度が低下していることを示す。図12における動作条件では、図10における動作条件よりも騒音レベルが10〜15dB高い。また、図12(a)と(b)もしくは(c)を比較すると、話者の方向と推定された音源方向が異なる。つまり、図12は、GEVD−MUSICやSEVD−MUSICでは音源方向が推定できなかったことを示す。
これらの結果から、本実施形態では、従来技術よりも騒音の周波数特性の著しい場合や騒音レベルが高い場合でも、音源方向を推定できるようになったことを示す。
次に、正規化空間スペクトルのヒストグラムについて説明する。
図13は、正規化空間スペクトルのヒストグラムの例を示す図である。
正規化空間スペクトルとは、平均化空間スペクトル<P(ψ,f)>を正規化した値である。図13(a)〜(c)は、それぞれSEVD−MUSIC、GEVD−MUSIC、本実施形態の例を示す。図13(a)〜(c)において、横軸は正規化空間スペクトル、縦軸は正規化度数を示す。正規化度数とは、正規化空間スペクトル毎の頻度(度数)を示す。横軸の正規化空間スペクトルは、最大値が1.0となるように正規化されている。縦軸の正規化度数は、正規化空間スペクトルがゼロから最大値までの累積頻度が1.0となるように正規化された頻度である。
正規化度数の分布の幅は、推定された方向以外の方向に音源として検知された雑音を抑圧できたことを示す指標である。この指標は、音源方向の推定精度を示す指標である。正規化度数の分布が狭いほど雑音を効果的に抑圧でき、正規化度数の分布が広いほど雑音を効果的に抑圧できないことを示す。
図13は、(c)、(b)、(c)の順に正規化度数の分布が狭いことを示す。このことは、本実施形態、GEVD−MUSIC、SEVD−MUSICの順に雑音を効果的に抑圧できること、言い換えれば高い精度で音源方向を推定できたことを示す。
図14は、正規化度数の標準偏差を示す表である。
図14は、推定方式がSEVD−MUSIC、GEVD−MUSIC、本実施形態について正規化度数の標準偏差がそれぞれ、0.14、0.12、0.058であることを示す。このことも、本実施形態、GEVD−MUSIC、SEVD−MUSICの順に雑音を効果的に抑圧できることを示す。
次に、音源方向を推定できた頻度に基づく指標値について説明する。
指標値として、定位精度(LAR:Localization Accuracy Rate)と定位正解率(LCR:Localization Correct Rate)を用いる。LAR、LCRは、それぞれ次の式を用いて求めることができる。
LAR=(N−S−D−I)/N, LCR=(N−S−D)/N,
ここで、N、S、D、Iは、それぞれ総発話数、音源方向の推定を誤った発話の数、検出できなかった発話の数、余分に検出された発話数を示す。LARは、最大値は1であるが、負の値になりうる。LARでは、余分に検出された発話数も考慮されるためである。これに対し、LCRは、最大値は1であり、最小値が0である。LCRは、総発話数のうちの正解数の割合を示すためである。ここでは、音源方向の推定を誤ったとは、推定された音源方向と現実の音源方向との誤差が5°を越える場合をいう。
図15は、定位精度及び定位正解率の一例を示す表である。
図15において、各行は動作条件(屋内・固定、屋内・飛行、屋外・固定)を示し、各列は推定方式と、定位精度ならびに定位正解率指標値の組を示す。
動作条件に関わらずLAR、LCRともに、本実施形態、GEVD−MUSIC、SEVD−MUSICの順で高い値をとる。動作条件が屋外・固定である場合でも、LARは14%と低下するがLCRは71%と、低下の度合いが少ない。つまり、本実施形態では、屋外の騒音レベルが高いことが、余分に発話が検出される原因となる可能性があるが、現実になされた発話において音源方向が誤って推定される可能性が比較的少ないことを示す。つまり、本実施形態が災害時における捜索のように、漏れなく音源の位置を推定する用途に適していることを示す。
次に、窓長と遅延時間による平均化空間スペクトル<P(ψ,f)>の差分値(以下、単に「差分値」と呼ぶ)の一例について説明する。差分値は、各動作条件について2名の発話者による発話があった区間(発話エリア)における平均化空間スペクトル<P(ψ,f)>の平均値から、発話がなかった区間(非発話エリア)における平均化空間スペクトル<P(ψ,f)>の平均値の差分値である。つまり、差分値は、目的音としての発話エリアと、雑音としての非発話エリアとが区別できる度合いを示す指標値である。差分値も方向推定精度を示す指標値である。
図16は、差分値の例を示す図である。
図16(a)〜(c)は、動作条件がそれぞれ屋内・固定、屋内・飛行、屋外・固定の場合における差分値を示す。図16(a)〜(c)は、それぞれ2つの底辺が窓長T、遅延時間fを示し、縦軸が差分値を示す3次元プロットである。但し、いずれの動作条件でも窓長Tは50フレームである。図16(a)〜(c)それぞれにおいて、☆(星印)は差分値が最大となる窓長T及び遅延時間fを示す点である。
図16は、差分値の最大値は、屋内・固定、屋外・固定、屋内・飛行の順に大きいが、差分値の分布は、その順になだらかである。即ち、図16は、屋内・固定、屋外・固定、屋内・飛行の順で方向推定精度が確保され、窓長T及び遅延時間fの変化に対する影響が少ないことを裏付ける。屋内・飛行では、雑音の周波数特性が常に変動しているため、差分値の最大値を与える窓長Tや遅延時間fが他の動作条件よりも小さい。図16に示す例では、差分値の最大値を与える窓長Tと遅延時間fの組は、T=130フレーム、f=160フレーム(屋内・固定)、T=90フレーム、f=140フレーム(屋内・飛行)、T=130フレーム、f=160フレーム(屋外・固定)である。いずれも、T>Tであり、かつ、f>Tである。
上述した実施形態では、空間スペクトル算出部135がGEVDを用いて算出した固有ベクトルに基づいて空間スペクトルを算出する場合を例にとって説明したが、本実施形態では行列分解によって得られる基底ベクトルであれば、これには限られない。例えば、空間スペクトル算出部135は、この固有ベクトルの代わりに一般化特異値分解(GSVD:Generalized Singular Value Decomposition)を用いて算出した特異ベクトルに基づいて空間スペクトルを算出してもよい。その場合には、音源方向推定部13、23は、固有ベクトル算出部134の代わりに特異ベクトル算出部(図示せず)を備える。特異ベクトル算出部は、上述の行列K(ω,f)−1R(ω,f)についてGSVDを行ってM個の特異ベクトルε,…,εを算出し、算出した特異ベクトルε,…,εを空間スペクトル算出部135に出力する。空間スペクトル算出部135では、例えば、式(5)において固有ベクトルe,…,eの代わりに特異ベクトル算出部から入力された特異ベクトルε,…,εを用いて空間スペクトルP(ω,ψ,f)を算出する。なお、GSVDでは、特異値毎に右特異ベクトルと左特異ベクトルが算出される。空間スペクトルP(ω,ψ,f)の算出においては、右特異ベクトルと左特異ベクトルのいずれを用いてもよい。
なお、上述した実施形態における音源方向推定部(音源方向推定装置)13、23の一部、例えば、周波数分析部131、第1相関行列算出部132、第2相関行列算出部133、固有ベクトル算出部134、空間スペクトル算出部135、音源定位部136、及び音源分離部137をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、音源方向推定部13、23に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態における音源方向推定部13,23の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現しても良い。音源方向推定部13、23の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
1、2…音響処理システム、11…収音部、
111…移動体、112(112−1〜112−8)…マイクロホン、
113…信号処理部、114(114−1〜114−3)…反射体、
12…音響信号受信部、13、23…音源方向推定部、
131…周波数分析部、132…第1相関行列算出部、133…第2相関行列算出部、
134…固有ベクトル算出部、135…空間スペクトル算出部、136…音源定位部、
137…音源分離部、231…雑音推定部、
14…距離検出部、15…距離情報受信部、16…位置推定部、17…座標変換部、
18…音源方向出力部

Claims (9)

  1. 入力された複数の音響信号の相関行列を算出する第1相関行列算出部と、
    前記複数の音響信号に基づく雑音信号の相関行列を算出する第2相関行列算出部と、
    前記第1相関行列算出部が算出した相関行列と、前記第2相関行列算出部が算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて前記複数のチャネルの音響信号に係る音源の方向を推定する音源定位部と、
    を備えることを特徴とする音源方向推定装置。
  2. 前記第2相関行列算出部における前記雑音信号は、前記複数の音響信号を遅延させた信号であって、前記遅延に係る遅延時間は、前記第1相関行列算出部が相関行列の算出に用いる前記複数の音響信号の時間よりも長いことを特徴とする請求項1に記載の音源方向推定装置。
  3. 前記第2相関行列算出部が相関行列の算出に用いる前記雑音信号の時間は、前記第1相関行列算出部が相関行列の算出に用いる前記複数のチャネルの音響信号の時間よりも長いことを特徴とする請求項1に記載の音源方向推定装置。
  4. 前記入力された複数の音響信号から、予め定めた種類の目的音を含む目的音信号と前記目的音とは異なる成分である雑音成分を示す雑音信号を生成する雑音推定部を備え、
    前記第1相関行列算出部は、前記入力された複数の音響信号として前記雑音推定部が生成した目的音信号を用いて相関行列を算出し、
    前記第2相関行列算出部は、前記雑音信号として前記雑音推定部が生成した雑音信号を用いて相関行列を算出する
    ことを特徴とする請求項1に記載の音源方向推定装置。
  5. 前記第1相関行列算出部が算出した相関行列に、前記第2相関行列算出部が算出した相関行列の逆行列を乗算した行列について一般化固有値展開を行って固有ベクトルを算出する固有ベクトル算出部を備え、
    前記音源定位部は、音源の方向毎の伝達関数ベクトルのノルムを、前記固有ベクトル算出部が算出した固有ベクトルのうち予め定めた個数の固有ベクトルのそれぞれと当該伝達関数ベクトルとの内積の和で除算して算出する
    ことを特徴とする請求項1から4のいずれかに記載の音源方向推定装置。
  6. 前記音源定位部は、前記空間スペクトルの周波数間の平均値である平均化空間スペクトルが極大値をとる方向を前記複数のチャネルの音響信号に係る音源の方向と推定することを特徴とする請求項1から5のいずれかに記載の音源方向推定装置。
  7. 複数のチャネルの音響信号を収録する収音部、前記収音部の位置を推定する位置推定部、及び前記収音部が収録した複数のチャネルの音響信号に係る音源の方向を推定する音源方向推定部と、を備える音響処理システムであって、
    前記音源方向推定部は、
    入力された複数の音響信号の相関行列を算出する第1相関行列算出部と、
    前記複数の音響信号に基づく雑音信号の相関行列を算出する第2相関行列算出部と、
    前記第1相関行列算出部が算出した相関行列と、前記第2相関行列算出部が算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて前記複数のチャネルの音響信号に係る音源の方向を推定する音源定位部と、
    を備えることを特徴とする音響処理システム。
  8. 音源方向推定装置における音源方向推定方法であって、
    前記音源方向推定装置は、
    入力された複数の音響信号の相関行列を算出する第1相関行列算出過程と、
    前記複数の音響信号に基づく雑音信号の相関行列を算出する第2相関行列算出過程と、
    前記第1相関行列算出過程で算出した相関行列と、前記第2相関行列算出過程で算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて前記複数のチャネルの音響信号に係る音源の方向を推定する音源定位過程と、
    を有することを特徴とする音源方向推定方法。
  9. 音源方向推定装置のコンピュータに、
    入力された複数の音響信号の相関行列を算出する第1相関行列算出手順、
    前記複数の音響信号に基づく雑音信号の相関行列を算出する第2相関行列算出手順、
    前記第1相関行列算出手順で算出した相関行列と、前記第2相関行列算出手順で算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて前記複数のチャネルの音響信号に係る音源の方向を推定する音源定位手順、
    を実行させるための音源方向推定プログラム。
JP2012201874A 2012-09-13 2012-09-13 音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラム Active JP5952692B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012201874A JP5952692B2 (ja) 2012-09-13 2012-09-13 音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラム
US14/023,600 US9247343B2 (en) 2012-09-13 2013-09-11 Sound direction estimation device, sound processing system, sound direction estimation method, and sound direction estimation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012201874A JP5952692B2 (ja) 2012-09-13 2012-09-13 音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラム

Publications (2)

Publication Number Publication Date
JP2014056181A true JP2014056181A (ja) 2014-03-27
JP5952692B2 JP5952692B2 (ja) 2016-07-13

Family

ID=50233298

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012201874A Active JP5952692B2 (ja) 2012-09-13 2012-09-13 音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラム

Country Status (2)

Country Link
US (1) US9247343B2 (ja)
JP (1) JP5952692B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016163071A (ja) * 2015-02-26 2016-09-05 富士通株式会社 電子機器及び制御プログラム
JP2017044916A (ja) * 2015-08-27 2017-03-02 本田技研工業株式会社 音源同定装置および音源同定方法
JP2017151076A (ja) * 2016-02-25 2017-08-31 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音源探査装置、音源探査方法およびそのプログラム
US9812153B2 (en) 2015-08-31 2017-11-07 Fujitsu Limited Image and audio reproduction device and method
US9820043B2 (en) 2016-02-25 2017-11-14 Panasonic Intellectual Property Corporation Of America Sound source detection apparatus, method for detecting sound source, and program
WO2018037643A1 (ja) * 2016-08-23 2018-03-01 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
EP3370232A1 (en) 2017-03-03 2018-09-05 Panasonic Intellectual Property Corporation of America Sound source probing apparatus, sound source probing method, and storage medium storing program therefor
JP2018141922A (ja) * 2017-02-28 2018-09-13 日本電信電話株式会社 ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム
JP2021036297A (ja) * 2019-08-30 2021-03-04 株式会社東芝 信号処理装置、信号処理方法、及びプログラム
US11594238B2 (en) 2019-03-15 2023-02-28 Honda Motor Co., Ltd. Acoustic signal processing device, acoustic signal processing method, and program for determining a steering coefficient which depends on angle between sound source and microphone

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2519315B (en) * 2013-10-16 2020-12-16 Canon Kk Method and apparatus for identifying actual signal sources among a plurality of signal sources with artefacts detection
JP6311197B2 (ja) * 2014-02-13 2018-04-18 本田技研工業株式会社 音響処理装置、及び音響処理方法
JP6221158B2 (ja) * 2014-08-27 2017-11-01 本田技研工業株式会社 自律行動ロボット、及び自律行動ロボットの制御方法
HK1221372A2 (zh) * 2016-03-29 2017-05-26 萬維數碼有限公司 種獲得空間音頻定向向量的方法、裝置及設備
TWI639154B (zh) * 2017-06-28 2018-10-21 驊訊電子企業股份有限公司 具有噪音消除的語音裝置及雙麥克風語音系統
WO2019197002A1 (en) * 2018-04-13 2019-10-17 Aalborg Universitet Generating sound zones using variable span filters
CN113453980B (zh) * 2019-05-15 2024-03-29 松下知识产权经营株式会社 信息处理方法、无人飞行体以及无人飞行体控制系统
TWI714303B (zh) * 2019-10-09 2020-12-21 宇智網通股份有限公司 聲源定位方法及聲音系統
CN111968671B (zh) * 2020-08-24 2024-03-01 中国电子科技集团公司第三研究所 基于多维特征空间的低空声目标综合识别方法及装置
CN116312602B (zh) * 2022-12-07 2023-10-03 之江实验室 基于干扰噪声空间谱矩阵的语音信号波束成形方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008250516A (ja) * 2007-03-29 2008-10-16 Honda Motor Co Ltd 射影変換収束演算処理方法
JP2009037032A (ja) * 2007-08-02 2009-02-19 Nippon Telegr & Teleph Corp <Ntt> 信号抽出装置、その方法、およびそのプログラム
JP2010281816A (ja) * 2009-06-04 2010-12-16 Honda Motor Co Ltd 音源方向推定装置及び音源方向推定方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5702685B2 (ja) * 2010-08-17 2015-04-15 本田技研工業株式会社 音源方向推定装置及び音源方向推定方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008250516A (ja) * 2007-03-29 2008-10-16 Honda Motor Co Ltd 射影変換収束演算処理方法
JP2009037032A (ja) * 2007-08-02 2009-02-19 Nippon Telegr & Teleph Corp <Ntt> 信号抽出装置、その方法、およびそのプログラム
JP2010281816A (ja) * 2009-06-04 2010-12-16 Honda Motor Co Ltd 音源方向推定装置及び音源方向推定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015044621; 浅野 太: 'ロボットにおける音響技術' 日本音響学会誌 第63巻 第1号 第63巻 第1号, 20061225, 41-46, 社団法人日本音響学会 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016163071A (ja) * 2015-02-26 2016-09-05 富士通株式会社 電子機器及び制御プログラム
JP2017044916A (ja) * 2015-08-27 2017-03-02 本田技研工業株式会社 音源同定装置および音源同定方法
US9812153B2 (en) 2015-08-31 2017-11-07 Fujitsu Limited Image and audio reproduction device and method
JP2017151076A (ja) * 2016-02-25 2017-08-31 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音源探査装置、音源探査方法およびそのプログラム
EP3232219A1 (en) 2016-02-25 2017-10-18 Panasonic Intellectual Property Corporation of America Sound source detection apparatus, method for detecting sound source, and program
US9820043B2 (en) 2016-02-25 2017-11-14 Panasonic Intellectual Property Corporation Of America Sound source detection apparatus, method for detecting sound source, and program
WO2018037643A1 (ja) * 2016-08-23 2018-03-01 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JPWO2018037643A1 (ja) * 2016-08-23 2019-06-20 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US11346917B2 (en) 2016-08-23 2022-05-31 Sony Corporation Information processing apparatus and information processing method
JP2018141922A (ja) * 2017-02-28 2018-09-13 日本電信電話株式会社 ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム
EP3370232A1 (en) 2017-03-03 2018-09-05 Panasonic Intellectual Property Corporation of America Sound source probing apparatus, sound source probing method, and storage medium storing program therefor
US10264350B2 (en) 2017-03-03 2019-04-16 Panasonic Intellectual Property Corporation Of America Sound source probing apparatus, sound source probing method, and storage medium storing program therefor
US11594238B2 (en) 2019-03-15 2023-02-28 Honda Motor Co., Ltd. Acoustic signal processing device, acoustic signal processing method, and program for determining a steering coefficient which depends on angle between sound source and microphone
JP2021036297A (ja) * 2019-08-30 2021-03-04 株式会社東芝 信号処理装置、信号処理方法、及びプログラム

Also Published As

Publication number Publication date
US20140072142A1 (en) 2014-03-13
US9247343B2 (en) 2016-01-26
JP5952692B2 (ja) 2016-07-13

Similar Documents

Publication Publication Date Title
JP5952692B2 (ja) 音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラム
JP7158806B2 (ja) オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム
US10979805B2 (en) Microphone array auto-directive adaptive wideband beamforming using orientation information from MEMS sensors
CN107976651B (zh) 一种基于麦克风阵列的声源定位方法及装置
EP3347894B1 (en) Arbitration between voice-enabled devices
JP5070873B2 (ja) 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム
RU2642353C2 (ru) Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи
EP2748817B1 (en) Processing signals
JP4248445B2 (ja) マイクロホンアレイ方法及びシステム、並びにこれを用いた音声認識方法及び装置
JP5595112B2 (ja) ロボット
Ishi et al. Evaluation of a MUSIC-based real-time sound localization of multiple sound sources in real noisy environments
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
EP2748816B1 (en) Processing audio signals
EP2932731B1 (en) Spatial interference suppression using dual- microphone arrays
CN113113034A (zh) 用于平面麦克风阵列的多源跟踪和语音活动检测
US10957338B2 (en) 360-degree multi-source location detection, tracking and enhancement
JP2004289762A (ja) 音声信号処理方法と装置及びプログラム
JP2019503107A (ja) 音響信号を向上させるための音響信号処理装置および方法
JP7194897B2 (ja) 信号処理装置及び信号処理方法
Wang et al. {MAVL}: Multiresolution analysis of voice localization
JP2014098568A (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
JP2018169473A (ja) 音声処理装置、音声処理方法及びプログラム
KR101733231B1 (ko) 음원의 3차원 위치 파악 방법 및 그 장치와, 음원의 3차원 위치를 이용한 음질 개선 방법 및 그 장치
JP5660362B2 (ja) 音源定位装置及びコンピュータプログラム
JPWO2018037643A1 (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160610

R150 Certificate of patent or registration of utility model

Ref document number: 5952692

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150