JP2012039275A - 反射音情報推定装置、反射音情報推定方法、プログラム - Google Patents

反射音情報推定装置、反射音情報推定方法、プログラム Download PDF

Info

Publication number
JP2012039275A
JP2012039275A JP2010176016A JP2010176016A JP2012039275A JP 2012039275 A JP2012039275 A JP 2012039275A JP 2010176016 A JP2010176016 A JP 2010176016A JP 2010176016 A JP2010176016 A JP 2010176016A JP 2012039275 A JP2012039275 A JP 2012039275A
Authority
JP
Japan
Prior art keywords
template
reflected sound
signal
power
residual signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010176016A
Other languages
English (en)
Other versions
JP5172909B2 (ja
Inventor
Kenta Niwa
健太 丹羽
Hirosuke Hioka
裕輔 日岡
Sumitaka Sakauchi
澄宇 阪内
Kenichi Furuya
賢一 古家
Yoichi Haneda
陽一 羽田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010176016A priority Critical patent/JP5172909B2/ja
Publication of JP2012039275A publication Critical patent/JP2012039275A/ja
Application granted granted Critical
Publication of JP5172909B2 publication Critical patent/JP5172909B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

【課題】収音信号から反射音情報を推定する技術を提供する。
【解決手段】p番目(1≦p≦P)の位置とM個のマイクロホンの各位置との間の周波数ごとの伝達特性を表すテンプレート(TP)の集合であるテンプレート情報を予め用意しておく。観測信号とテンプレート情報とを用いて、p番目のTPにp番目の複素振幅を乗じたp番目の反射音を観測信号から減じて得られる残差信号のパワーが最小になるようにp番目の複素振幅を決定し、決定されたp番目の複素振幅をp番目のTPに乗じたp番目の反射音を観測信号から減じて得られる残差信号のパワーを各pについて求め、これらのうち最小のパワーを与えたTPを決定し、決定されたTPに対応する位置により定まる方向Dの近傍で、伝達特性関数に複素振幅を乗じたものを上記観測信号から減じて得られる残差信号Eのパワーが最小になるように当該方向Dを補正することにより反射音の到来方向を推定する。
【選択図】図4

Description

本発明は、音声信号をマイクロホンで収音して得られる収音信号から反射音に関する情報(到来振幅、到来方向)を推定する技術に関する。
電話や音声会議といった音声情報をやりとりするシステムを一般に音声通信システムと呼ぶ。音声通信システムにおいて、反射音に関する情報(到来振幅、到来方向など)を得ることは非常に重要なことである。会議室のような残響環境下において、マイクロホンを通して収音される収音信号の中には発話者のような音源から直接到来する直接音だけではなく、床、壁や天井に反射して到来する反射音が混在する。したがって、このような残響環境下で或る話者の発言を収録すると、直接音から遅延して反射音が混入するため、聞き取りづらくなってしまう。収音信号から各反射音の到来情報を推定して、反射音を除去することができれば、聞き取りやすい音声に回復することができる。ここで、反射音情報を推定する従来研究として、非特許文献1が挙げられる。
非特許文献1に開示される技術を実現する機能構成を図1に示す。この技術における処理手順は次のとおりである。
1.インパルス音源100から放射された音源信号を4chのマイクロホン110−1,110−2,110−3,110−4を用いて収音する。AD変換部120は、収音されたアナログ信号をデジタル信号x(t)=[x1(t),x2(t),x3(t),x4(t)]Tへ変換する。ここで、[・]Tは転置を表す。tは離散時間のインデックスを表す。4本のマイクロホンは正四面体の頂点に配置されていることとする。
2.インパルス応答算出部130は、デジタル信号x(t)=[x1(t),x2(t),x3(t),x4(t)]Tを入力とし、各マイクロホンのインパルス応答h(t)=[h1(t),h2(t),h3(t),h4(t)]Tを算出する。インパルス応答の算出方法には、TSP法やM系列法等があり、いかなる方法を用いてインパルス応答を算出してもよい。
3.仮想音源算出部140は、4chのインパルス応答h(t)=[h1(t),h2(t),h3(t),h4(t)]Tを入力とし、仮想音源情報v=[v 1,…,v D]Tを出力する。Dは仮想音源の数を表す。仮想音源とは、各反射音の到来振幅、到来方向、到来時間を表現するために仮想的に存在するとされる音源である。図2を参照して、仮想音源について説明する。図2には、右側の壁で反射した音源信号をマイクロホンで受音する経路が書かれている。右側の壁で反射して到来する音源信号(反射音)は、「仮想音源」と書かれた位置から直接到来する信号と等価である(ただし、壁での反射による減衰や距離減衰の影響は受ける)。
この従来技術の詳細について説明する。インパルス応答を近接した4つの受音点(マイクロホンの位置)で測定すると反射音の到来時刻にわずかな差が生じる。インパルス応答の短い区間の相互相関を利用して、各マイクロホンにおける反射音の対応付けを行うことで、図3のように、n番目の反射波に関するそれぞれの受音点での到来時刻t1n,t2n,t3n,t4n(1≦n≦D)が求まる。正四面体マイクロホンアレーの辺の長さをd、音速をcとすると、各仮想音源情報vn =[Xn,Yn,Zn,Sn]Tが求まる。ここで、Xn,Yn,Znはn番目の仮想音源の位置を表し(式(1)−(3)参照)、これは各反射音の到来方向と到来時間に対応する情報を持つ。また、Snはn番目の仮想音源の強さを表し、4chのインパルスで対応付けされたn番目の反射音の振幅の平均で求まる。
山崎芳男ら、「近接する4点のインパルス応答により求めたホールの空間情報」、日本音響学会講演論文集、1981年5年、pp.759-760.
従来技術によると、仮想音源情報と呼んでいた反射音の「到来振幅」、「到来方向」、「到来時刻」を推定するためには、インパルス応答をあらかじめ用意することが必要であった。しかし、インパルス応答を用意するためには特殊な信号を用いて観測する必要があるため、あらゆる位置でのインパルス応答が事前に用意されているという条件は現実的ではない。
そこで本発明は、特殊な信号を用いることなく、収音信号から反射音情報(反射音の「到来方向」や「到来振幅」)を推定する技術を提供することを目的とする。
Pを2以上の予め定められた整数、pを1以上P以下の各整数として、p番目の位置とM個のマイクロホンが配置される各位置との間の周波数ごとの伝達特性を表すテンプレートの集合であるテンプレート情報を予め用意しておく。音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(観測信号)とテンプレート情報とを用いて、(1)p番目のテンプレートにp番目の複素振幅を乗じて表されるp番目の反射音を観測信号から減じて得られる残差信号のパワーが最小になるようにp番目の複素振幅を決定し、決定されたp番目の複素振幅をp番目のテンプレートに乗じて表されるp番目の反射音を上記観測信号から減じて得られる残差信号のパワーを各pについて求め、これらのうち最小のパワーを与えたテンプレートを決定し、(2)決定されたテンプレートに対応する位置により定まる方向Dの近傍で、空間中の任意の位置と各マイクロホンとの間の周波数ごとの伝達特性を模擬した関数(伝達特性関数)に複素振幅を乗じたものを観測信号から減じて得られる残差信号Eのパワーが最小になるように当該方向Dを補正することにより反射音の到来方向を推定する。
Pを2以上の予め定められた整数、pを1以上P以下の各整数として、p番目の位置とM個のマイクロホンが配置される各位置との間の周波数ごとの伝達特性を表すテンプレートの集合であるテンプレート情報を予め用意しておく。音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(観測信号)とテンプレート情報とを用いて、(1)p番目のテンプレートにp番目の複素振幅を乗じて表されるp番目の反射音を観測信号から減じて得られる残差信号のパワーが最小になるようにp番目の複素振幅を決定し、決定されたp番目の複素振幅をp番目のテンプレートに乗じて表されるp番目の反射音を上記観測信号から減じて得られる残差信号のパワーを各pについて求め、これらのうち最小のパワーを与えたテンプレートを決定し、(2)決定されたテンプレートに対応する位置により定まる方向Dの近傍で、空間中の任意の位置と各マイクロホンとの間の周波数ごとの伝達特性を模擬した関数(伝達特性関数)に複素振幅を乗じたものを観測信号から減じて得られる残差信号Eのパワーが最小になるように当該方向Dを補正することにより反射音の到来方向を推定するとともに、当該到来方向に対応する伝達特性関数に乗じられた複素振幅を反射音の到来振幅として推定する。
Pを2以上の予め定められた整数、pを1≦p≦Pを満たす整数として、p番目の位置とM個のマイクロホンが配置される各位置との間の周波数ごとの伝達特性を表すテンプレートの集合であるテンプレート情報を予め用意しておく。音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(観測信号)とテンプレート情報とを用いて、Qを1以上の予め定められた整数、qを1以上Q以下の各整数として、各qについて、(1)p番目のテンプレートにp番目の複素振幅を乗じて表されるp番目の反射音をq番目の最小の残差信号(ただし、1番目の最小の残差信号は観測信号とする)から減じて得られる残差信号のパワーが最小になるようにp番目の複素振幅を決定し、決定されたp番目の複素振幅をp番目のテンプレートに乗じて表されるp番目の反射音をq番目の最小の残差信号から減じて得られるq+1番目の残差信号のパワーを各pについて求め、これらのうち最小のパワーを与えたテンプレートを決定し、(2)決定されたテンプレートに対応する位置により定まる方向Dの近傍で、空間中の任意の位置と各マイクロホンとの間の周波数ごとの伝達特性を模擬した関数(伝達特性関数)に複素振幅を乗じたものをq番目の最小の残差信号から減じて得られる残差信号Eのパワーが最小になるように当該方向Dを補正することにより反射音の到来方向を推定する。
Pを2以上の予め定められた整数、pを1≦p≦Pを満たす整数として、p番目の位置とM個のマイクロホンが配置される各位置との間の周波数ごとの伝達特性を表すテンプレートの集合であるテンプレート情報を予め用意しておく。音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(観測信号)とテンプレート情報とを用いて、Qを1以上の予め定められた整数、qを1以上Q以下の各整数として、各qについて、(1)p番目のテンプレートにp番目の複素振幅を乗じて表されるp番目の反射音をq番目の最小の残差信号(ただし、1番目の最小の残差信号は観測信号とする)から減じて得られる残差信号のパワーが最小になるようにp番目の複素振幅を決定し、決定されたp番目の複素振幅をp番目のテンプレートに乗じて表されるp番目の反射音をq番目の最小の残差信号から減じて得られるq+1番目の残差信号のパワーを各pについて求め、これらのうち最小のパワーを与えたテンプレートを決定し、(2)決定されたテンプレートに対応する位置により定まる方向Dの近傍で、空間中の任意の位置と各マイクロホンとの間の周波数ごとの伝達特性を模擬した関数(伝達特性関数)に複素振幅を乗じたものをq番目の最小の残差信号から減じて得られる残差信号Eのパワーが最小になるように当該方向Dを補正することにより反射音の到来方向を推定するとともに、当該到来方向に対応する伝達特性関数に乗じられた複素振幅を反射音の到来振幅として推定する。
残差信号のパワーは、全ての周波数に亘って加算して得られたパワーであるとしてもよい。このとき、到来方向は、全ての周波数に亘って加算して得られた残差信号Eのパワーが最小になるように当該方向Dを補正することにより推定される。
また、周波数をω、周波数ωの集合をΩ、iを虚数単位、cを音速、p番目の位置[xp,yp,zp]とm番目(1≦m≦M)のマイクロホンが配置される位置[um,vm,wm]との間の伝達特性をSpm(ω)、ただし
として、テンプレートSp(ω)={Sp1(ω),…,SpM(ω)}(ω∈Ω)の集合であるテンプレート情報{S1(ω),…,SP(ω)}(ω∈Ω)を生成するテンプレート生成処理を含んでもよい。
例えば、伝達特性関数は、空間中の任意の位置[x,y,z]とM個のマイクロホンが配置される各位置[um,vm,wm]との間の周波数ごとの各伝達特性Rm(ω)(1≦m≦M)によって表され、当該伝達特性Rm(ω)は、周波数をω、iを虚数単位、cを音速として、
で表される。
本発明に拠ると、空間(あるいは平面)位置とM個のマイクロホンが配置される各位置との間の周波数ごとの伝達特性を表すテンプレートの集合であるテンプレート情報を予め作成しておき、テンプレート情報に基づいて観測信号を一つまたは複数の反射音に分解することから、インパルス応答を求めるために音源信号に特殊な信号を用いることなく、収音信号から反射音情報を推定することが可能である。反射音情報が得られると、従来の音声情報処理技術では実現できなかった音源向きの推定や、音声強調(遠方音の収音や距離別の収音)といった用途に応用できる。
従来技術における反射音情報推定技術の機能構成を示す図。 仮想音源を説明するための図。 従来技術における反射音の対応付けを説明するための図。 第1実施形態に係る反射音情報推定装置の機能構成を示す図。 第1実施形態に係る反射音情報推定方法の処理手順を示す図。 2次元マイクロホンアレーの構成例を示す図。 p番目の点[xp,yp,zp]とm番目の受音点[um,vm,wm]との間の伝達特性を説明するための図。 図6に示すマイクロホンアレーを用いて観測した或る平面での音圧分布が例えば直接音と反射音1と反射音2との重畳で得られていることを説明するための図。 本発明の原理を説明するための図。 第2実施形態に係る反射音情報推定方法の処理手順を示す図。 (a)理想的には、推定到来方向に関する情報だけが抽出されるべきことを説明するための図。(b)実際には、推定到来方向以外の方向に関する情報も混在してしまうことを説明するための図。 残差信号のパワーを全周波数に亘って総括することにより、推定到来方向以外の方向の影響を減らすことを説明するための図。 実用レベルの2次元マトリクスマイクロホンアレーを用いた場合における音圧分布とその分解を示す図。
《第1実施形態》
本発明は、発話信号のような音源から放射された音声信号(音源信号)を複数のマイクロホンで構成されるマイクロホンアレーで収音した信号(収音信号)から反射音の「到来方向」ないし、「到来振幅」と「到来方向」を推定する。第1実施形態の機能構成および処理フローを図4と図5に示す。
音源200から放射された音源信号をMchのマイクロホン210−1,…,210−Mを用いて収音する(ステップS1)。Mは、4より大きい値が望ましい。AD変換部220が、収音されたアナログ信号をデジタル信号xx(t)=[xx1(t),…,xxM(t)]Tへ変換する(ステップS2)。ここで、[・]Tは転置を表す。tは離散時間のインデックスを表す。
M本のマイクロホンの並べ方は、2次元または3次元的に等間隔で配置することが望ましい。これは、反射音の到来方向とテンプレート(後で説明するが、反射音の伝達特性を模擬したものである)の対応を一意に定めるためである。なお、原理的に、1次元的にマイクロホンを配置しても、あるいは等間隔に配置しなくても、本発明を実施できるが、反射音の伝達特性と反射音の到来方向が一対一の関係とならないため、2次元または3次元的に等間隔で配置することが望ましい。2次元平面上に等間隔にマイクロホンを並べた場合の一例を図6に示す。マイクロホン間隔dは、空間サンプリング定理を満たすように設定されていることが望ましい。空間サンプリング定理を満たす場合、マイクロホン間隔dは、式(4)を満たす数値となる。cは音速であり、fは解析対象とする周波数である。例えば、4kHzの周波数を解析する場合、マイクロホン間隔を4cm程度に設定するのがよい。
フレーム分割部230は、AD変換部200が出力したデジタル信号xx(t)=[xx1(t),…,xxM(t)]Tを入力とし、チャネルごとに複数サンプルから成るデジタル信号の組(フレーム)に分割された信号x(k)=[x1(k),…,xM(k)]Tを出力する(ステップS3)。kはフレーム番号を表すインデックスである。フレーム分割は、各チャネルのデジタル信号xxi(t)(1≦i≦M)ごとにW点分をバッファリングして出力する処理である。Wはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
周波数領域変換部240は、各フレームのデジタル信号x(k)を入力として、周波数領域の信号X(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに変換して出力する(ステップS4)。この信号X(ω,k)を観測信号と呼ぶことにする。ここで、ωは離散周波数のインデックスを指し(周波数fと角周波数ωとの間にはω=2πfの関係があるから、周波数のインデックスωをこの角周波数ωと同一視してもかまわない。以下、ωに関して「周波数のインデックス」を単に「周波数」ともいう)、kはフレームのインデックスを指す。周波数領域に変換する方法の一つに、離散フーリエ変換があるが、周波数領域に変換するのであれば、他の方法を用いてもよい。周波数領域の観測信号X(ω,k)は、各周波数ω、フレームkごとに出力される。
テンプレート生成部250は、P個のテンプレートSp (ω)の集合(ただし、計算の都合、ベクトル表記している)であるテンプレート情報S(ω)=[S1 (ω),…,SP (ω)](ω∈Ω;Ωは周波数のインデックスωの集合)を周波数ωごとに生成する(ステップSp)。この処理は通常、ステップS1−S4の各処理に先立ち実施される。Pはテンプレートの総数を表し、予め2以上の整数値に設定されている。テンプレート総数Pは多ければ多いほど高精度な反射音情報の推定に繋がるが、計算量が多くなるので、例えばP=1000くらいに設定するのが良い。この処理は、マイクロホンで信号を観測する以前にあらかじめ行う処理である。また、マイクロホンの位置(例えばマイクロホンの間隔d)を変更したり、テンプレート総数Pを変更したりしない限り、通常、テンプレートを毎回作り直す必要はない。ここで言う“テンプレート”とは、反射音の到来方向に対応する伝達特性(音響伝播特性)を模擬したものである。p番目(1≦p≦P)のテンプレートSp (ω)=[Sp1(ω),…,SpM(ω)]T(ω∈Ω)は、予め定められたp番目の点[xp,yp,zp]とM個の受音点(ここで受音点はマイクロホンが配置される位置であり、m番目(1≦m≦M)の受音点を[um,vm,wm]とする)の間の周波数ごとの伝達特性を表す(図7を参照)。p番目のテンプレートSp (ω)の各要素Spm(ω)の算出式の一例を式(5)に示す。記号iは虚数単位を表す。
p番目のテンプレートSp (ω)には方向情報θp (ω)が対応付けられている。方向情報θp (ω)は、p番目の点[xp,yp,zp]および受音点[um,vm,wm]の位置座標の基準となる3次元直交座標系の原点からp番目の点[xp,yp,zp]を見た方向であり、例えば(当該3次元直交座標系の原点と共通の原点を持つ)球座標系における二つの偏角(極角θp,polと方位角θp,azi)として表される。つまり、θp (ω)=[θp,pol(ω),θp,azi(ω)]である。なお、p番目のテンプレートSp (ω)にp番目の点[xp,yp,zp]が関連付けられていれば方向情報θp (ω)は位置[xp,yp,zp]から計算可能であるから、p番目のテンプレートSp (ω)に方向情報θp (ω)が対応付けられていることは必須要件ではない。なお、3次元直交座標系と球座標系とは相互に転換可能であるから(座標変換)、式(5)の右辺は位置[x,y,z]でなく方向情報θp (ω)=[θp,pol(ω),θp,azi(ω)]を用いて、例えば式(5a)のように表すこともできる。ここで、dはマイクロホン間隔であり、マイクロホンアレーをΦ行Ξ列(Φ×Ξ=M)の2次元マイクロホンアレーとし、m番目のマイクロホンの位置をφ行ξ列(1≦φ≦Φ,1≦ξ≦Ξ)にあるとする。
また、第1実施形態のようにテンプレートが方向に対応している場合、P個の点[xp,yp,zp](1≦p≦P)の位置は互いに方向の異なる位置であることが好ましく、例えば各点[xp,yp,zp]が原点から十分に離れた等距離にあるとして、上記原点を中心とする球面上の異なるP個の点とすればよい。各点[xp,yp,zp]を原点から十分に離れた位置とする理由は、音源ないし仮想音源から放射された信号は球面的に伝達するが音源ないし仮想音源から十分に離れた位置(原点)での局所領域では直接音ないし反射音を平面波として模擬できるからである。ただし、テンプレート情報が同じ方向の位置に対応するテンプレートを含むことを排除する趣旨ではない。なお、マイクロホンアレーは上記座標系の原点の近傍(局所領域)に配置されているとする。
テンプレート記憶部260は、テンプレート生成部250が出力したテンプレート情報S(ω)を記憶し、解析時に反射音情報推定部270にテンプレート情報S(ω)を提供する役割を果たす。
反射音情報推定部270は、周波数領域の観測信号X(ω,k)とテンプレート情報S(ω)を入力として、Q個の反射音情報成分rsq (ω,k)の集合(ただし、計算の都合、ベクトル表記している)である反射音情報rs(ω,k)=[rs1 (ω,k),…,rsQ (ω,k)]Tを各フレームkについて周波数ωごとに出力する(ステップS5)。ここで、Qは推定される反射音の総数を表し、予め1以上の整数値に設定されている。q番目(1≦q≦Q)の反射音情報成分rsq (ω,k)は、rsq (ω,k)=[rsAq(ω,k),rsBq(ω,k)]の2要素から成り、rsAq(ω,k)はq番目の反射音の到来振幅であり、rsBq(ω,k)はq番目の反射音の到来方向である。
反射音情報を推定する原理について説明する。図6に示すような2次元マイクロホンアレーを用いて観測した或る平面での音圧分布の一例を図8の左端の濃淡図として示す。濃淡図として示された音圧分布の見方について、黒い部分は音圧が小さく、白い部分は音圧が大きいことを示す。観測した音圧分布には直接音の音圧分布だけではなく、反射音の音圧分布も混入している。直接音や反射音が十分に遠方より到来する場合において、2次元平面上でのそれぞれの音圧分布は、図8の右側の3つの濃淡図のように縞模様となる。縞模様の「濃淡」が直接音ないし反射音の到来振幅、「回転・周期」が直接音ないし反射音の到来方向にそれぞれ対応する。図8の例では、到来振幅や到来方向が異なる直接音、反射音1、反射音2の各音圧分布の重畳で観測信号の音圧分布が構成されることを示している。周波数領域で考えると、直接音や各反射音は到来方向に応じて周波数の変化する複素正弦波で表され、観測信号は直接音と各反射音に対応する複数の複素正弦波が重畳したものとして表される。ところで、本発明で解決する問題は、観測信号のみを用いて、反射音の到来振幅および/または到来方向を推定することである。この課題解決は、図8の左端に描かれた音圧分布から図8の右側の3つの濃淡図の直接音や各反射音に対応する縞模様の「濃淡」や「回転・周期」を推定することに対応する。
図9を参照して、反射音情報rs(ω,k)を推定する手法の概略について説明する。ある2次元平面で観測した観測信号に含まれているパワーの最も強い反射音0(q=1に相当し、最も強いパワーを持つことから、通常、この反射音0は「直接音」として理解される)を推定し、観測信号から当該反射音0を減算して残差信号E2を得る。次に当該残差信号E2に含まれているパワーの最も強い反射音1(q=2に相当する)を推定し、当該残差信号E2から当該反射音1を減算して新たな残差信号E3を得る。次に、当該残差信号E3に含まれているパワーの最も強い反射音2(q=Q=3に相当する)を推定する。ここでは、Q=3の場合を説明したが、一般的に、q番目の残差信号Eq(ただし1番目の残差信号は観測信号とする)に含まれているパワーの最も強いq番目の反射音q-1(ただし反射音0は直接音である)を減算する操作をq=Qまで逐次実行することでQ個の反射音情報成分(rs1 (ω,k),…,rsQ (ω,k))を得る。1番目の反射音情報成分rs1 (ω,k)は反射音0(直接音)に対応し、2番目の反射音情報成分rs2 (ω,k)は反射音1に対応し、3番目の反射音情報成分rs3 (ω,k)は反射音2に対応し、・・・、Q番目の反射音情報成分rsQ (ω,k)は反射音Q-1に対応する。Qは、計算パワーや反射音情報を用いるアプリケーションにも依存するが、30くらいに設定するのが良い。
なお、図8および図9の音圧分布はそれぞれ高解像度の濃淡図として示されているが、このような高解像度の濃淡図として音圧分布を示すためには極めて多くのマイクロホンを必要とし、実用的ではない。他方、実用レベルの2次元マトリクスマイクロホンアレーとして例えば100個のマイクロホンを10×10の2次元マトリクスマイクロホンアレーとして用いた場合でさえ、粗い(低解像度)濃淡図(図13参照)として示される音圧分布しか得られない。そこで、実用の観点から、低解像度の音圧分布しか得られないような状況の下で、精度良く反射音の到来振幅や到来方向を推定することが求められる。本発明では、空間分解能の向上のために任意の位置から到来する平面波を具体的に表現することとし(定式化)、パワーが大きな反射音の影響を受けてパワーの小さいな反射音を推定できなくなることを防止するために、既に推定された反射音を観測信号から除去して次の反射音を推定する(分解)。定式化についてはテンプレート情報として説明したとおりであり、分解については反射音情報rs(ω,k)の推定手法の概略で説明したとおりである。
上で述べた反射音情報rs(ω,k)を推定する手法について詳細を述べる。説明に先立ち、記号の定義を行う。q番目の残差信号をEq (ω,k)=[Eq1(ω,k),…,EqM(ω,k)]T、q番目の反射音(q=1の場合は直接音を表す)をAq(ω,k)Rq (ω,θq (ω,k))とする。反射音を構成するRq (ω,θq (ω,k))=[R1(ω,θq (ω,k)),…,RM(ω,θq (ω,k))]Tは、空間中の任意の位置[x,y,z]と各マイクロホンとの間の周波数ごとの伝達特性を模擬した関数(以下、伝達特性関数という)であり、各マイクロホンに対する伝達特性を模擬した関数であれば何でもよい。このような伝達特性関数を反射音の構成要素とする理由は、反射音の推定されるべき到来方向に最も近いと考えられる方向に対応するテンプレートを決定して、そのテンプレートに対応する方向Dの近傍で当該方向Dを補正することにより、反射音の到来方向の推定精度を向上させるためである(この詳細は反射音Aq(ω,k)Rq (ω,θq (ω,k))の最適化として後述する)。通常、伝達特性関数を構成する各伝達特性Rm(ω,θq (ω,k))とテンプレートの各要素Spm(ω)の算出式とは同じである。この場合、方向情報θq (ω,k)で表される方向に在る位置[x,y,z]とm番目の受音点[um,vm,wm]との間の周波数ごとの伝達特性Rm(ω,θq (ω,k))は式(6)で表される。なお、方向情報θq (ω,k)で表される方向に在る位置[x,y,z]は、例えば、上記座標系原点から十分に離れた球面上の位置とすればよい。位置[x,y,z]を原点から十分に離れた位置とする理由は既述のとおりであり、詳しくは位置[x,y,z]はマイクロホンアレーが配置されている局所領域にて音源ないし仮想音源からの直接音ないし反射音を平面波として模擬できる距離にある空間中の任意の位置であることが好ましい。なお、3次元直交座標系と球座標系とは相互に転換可能であるから(座標変換)、式(6)の右辺は位置[x,y,z]でなく方向情報θq (ω,k)=[θq,pol(ω,k),θq,azi(ω,k)]を用いて、例えば式(6a)のように表すこともできる。ここで、dはマイクロホン間隔であり、マイクロホンアレーをΦ行Ξ列(Φ×Ξ=M)の2次元マイクロホンアレーとし、m番目のマイクロホンの位置をφ行ξ列(1≦φ≦Φ,1≦ξ≦Ξ)にあるとする。
反射音を構成するAq(ω,k)は、音源200自身が持つ位相や壁での反射、距離による減衰といったテンプレートRq (ω,θq (ω,k))と反射音との相違を表し、到来振幅に相当する。qの昇順に残差信号から反射音を減算する上述の方法を式で表すと式(7)のようになる。ただし、1≦q≦Qであり、E1 (ω,k)=X(ω,k)である。
次に、反射音Aq(ω,k)Rq (ω,θq (ω,k))を最適化する方法について説明する。
q番目の最適化された反射音Aq(ω,k)Rq (ω,θq (ω,k))は、式(7)で表されるq+1番目の残差信号Eq+1 (ω,k)のパワー(Eq+1 (ω,k))HEq+1 (ω,k)を最小とする基準に従って決定される。具体的には、伝達特性関数Rq (ω,θq (ω,k))が方向情報θq (ω,k)で決定されることに注意すると、q番目の反射音Aq(ω,k)Rq (ω,θq (ω,k))を表現するパラメータAq(ω,k),θq (ω,k)の最適値Aq,opt(ω,k),θq,opt (ω,k)は式(8)によって得られる。なお、記号Hは共役転置を表す。
このとき、q番目の反射音情報成分rsq (ω,k)=[rsAq(ω,k),rsBq(ω,k)]は式(9)、式(10)で与えられる。
式(8)の具体的な計算方法は種々考えられるが、ここではその一例を示す。下記に説明する最適化方法はqの昇順に各qに対して適用される。
§1 方向情報の初期値設定
最初に、方向情報θq (ω,k)の初期値θini,q (ω,k)をテンプレート情報S(ω)を用いて決定する。このために、推定されるべき到来方向に最も近いと考えられる方向に対応するテンプレートを決定し、この決定されたテンプレートに対応する方向情報を方向情報θq (ω,k)の初期値θini,q (ω,k)とすればよい。
そこで、テンプレート情報の中から上述のようなテンプレートを決定するために、便宜上、反射音をAq(ω,k,g(ω,q))Sg(ω,q) (ω)と表すことにする。ここで、g(ω,q)は、テンプレート情報の中でq番目の反射音を最も精度良く表現できるテンプレートのインデックスを表す。反射音を構成する係数Aq(ω,k,g(ω,q))は、音源200自身が持つ位相や壁での反射、距離による減衰などによるテンプレートSg(ω,q) (ω)と反射音との相違を表す。この場合、q+1番目の残差信号Eq+1 (ω,k)は式(11)のように表される。ただしE1 (ω,k)=X(ω,k)である。
反射音Aq(ω,k,g(ω,q))Sg(ω,q) (ω)は、式(11)に基づくq+1番目の残差信号Eq+1 (ω,k)のパワー(Eq+1 (ω,k))HEq+1 (ω,k)を最小とする基準に従って推定される。推定方法は様々あるが、そのうちの一つの方法について述べる。反射音は、Aq(ω,k,g(ω,q))とSg(ω,q) (ω)の2つの要素で構成されるので、2つの要素に対して最適化することが必要となる。後述の<処理1>と<処理2>はqの昇順に各qについて行われる。
<処理1>
記号Λはインデックスpの全体の集合{1,…,p,…,P}から後述する式(13)により決定されたインデックスの集合を除いた集合である。つまり、Λ={1,…,p,…,P}-{g(ω,1),…,g(ω,q-1)}とする。ただし、初めて<処理1>を行うときはΛ={1,…,p,…,P}である。
p番目のテンプレートSp (ω)が残差信号Eq+1 (ω,k)のパワー(Eq+1 (ω,k))HEq+1 (ω,k)を最小化するための最適なテンプレートであると仮定した場合の係数Aq(ω,k,p)は、最小二乗法に基づき、式(12)により求められる。なお、この段階では、式(9)左辺のqは意味を持たないことに留意されたい。
<処理2>
集合Λの要素の個数(濃度)を|Λ|とすると、式(12)に基づき得られた|Λ|個の係数Aq(ω,k,p)(p∈Λ)を用いて、テンプレートSg(ω,q) (ω)のインデックスを表すg(ω,q)は、残差信号Eq+1 (ω,k)のパワー(Eq+1 (ω,k))HEq+1 (ω,k)を最小とするインデックスとして式(13)により得られる。
従って、方向情報θq (ω,k)の初期値θini,q (ω,k)は、式(13)により得られるg(ω,q)をインデックスに持つテンプレートSg(ω,q) (ω)に対応する方向情報θg(ω,q) (ω)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)]として与えられる。すなわち、θini,q (ω,k)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)]である。初期値θini,q (ω,k)はフレームインデックスkに依存しないことに留意されたい。
§2 反射音の最適化
次に、方向情報θq (ω,k)の初期値θini,q (ω,k)を起点として、式(7)で表されるq+1番目の残差信号Eq+1 (ω,k)のパワー(Eq+1 (ω,k))HEq+1 (ω,k)を最小とするように、反射音Aq(ω,k)Rq (ω,θq (ω,k))を最適化する。反射音は、係数Aq(ω,k)とRq (ω,θq (ω,k))の2つの要素で構成されるので、2つの要素に対して最適化することが必要となる。この最適化方法は様々あるが、そのうちの一つの方法(勾配法)について述べる。例示する方法では、方向情報θq (ω,k)の補正と係数Aq(ω,k)の補正が交互に所定回数(δ回)反復して行われることにより反射音Aq(ω,k)Rq (ω,θq (ω,k))が最適化される。δは例えば50程度の値とされるが1でもよい。
§2.1 方向情報の補正
方向情報θq (ω,k)=[θq,pol(ω,k),θq,azi(ω,k)]の補正は、式(14)による更新によって行われる。初めて§2.1の処理を行う場合、式(14)右辺の方向情報θq (ω,k)は§1の処理で得られた初期値θini,q (ω,k)であり、§2.1の処理が初めてではない場合、式(14)右辺の方向情報θq (ω,k)は直前の§2.1の処理で得られた方向情報とする。また、初めて§2.1の処理を行う場合、パワー(Eq+1 (ω,k))HEq+1 (ω,k)の計算に用いられる係数Aq(ω,k)は式(12)で得られたAq(ω,k,p)とし、§2.1の処理が初めてではない場合、パワー(Eq+1 (ω,k))HEq+1 (ω,k)の計算に用いられる係数Aq(ω,k)は直前の§2.2の処理(後述する)で得られた係数Aq(ω,k)とする。ステップ幅α1およびα2は小さい正の定数であり、収束速度などを考慮して決定されるが、例えばそれぞれ0.1程度の値とされる。
§2.2 係数の補正
係数Aq(ω,k)の補正は、最小二乗法に基づき、式(15)に従って新たな係数Aq(ω,k)を求めることにより行われる。式(15)で用いるRq (ω,θq (ω,k))は§2.1の処理で得られた方向情報θq (ω,k)と式(6)から得られる。
δ回の反復処理が終了した時点で得られている係数Aq(ω,k)と方向情報θq (ω,k)がAq,opt(ω,k)とθq,opt (ω,k)であり、q番目の反射音情報成分rsq (ω,k)となる。すなわち、q番目の反射音情報成分rsq (ω,k)=[rsAq(ω,k),rsBq(ω,k)]は式(16)、式(17)で与えられる。
以上の過程により、Q個の反射音情報成分rsq (ω,k)=[rsAq(ω,k),rsBq(ω,k)](q=1,…,Q)が求められる。なお、δ=1に設定されている場合、係数の補正を行わないことにより、反射音情報として到来方向のみを求めることができる。
《第2実施形態》
第1実施形態ではテンプレート情報S(ω)を用いて反射音情報rs(ω,k)を求めたが、P個のテンプレートSp (ω)の集合であるテンプレート情報S(ω)を事前に求めておくことは必ずしも必須ではない。テンプレート情報S(ω)を事前に求めておかない実施形態を第2実施形態として説明する。
第2実施形態では、第1実施形態におけるステップS1−S4の各処理が実施されるが、第1実施形態におけるステップSpの処理が不要であり、さらに第1実施形態のステップS5の処理に替えてステップS5aの処理が行われる(図10参照)。そこで、第1実施形態と同じ事項については重複説明を省略し、第1実施形態と異なる事項について説明する。
第2実施形態におけるステップS5aの処理を説明する。第2実施形態におけるステップS5aの処理では、「§1 方向情報の初期値設定」が第1実施形態と異なる。方向情報θq (ω,k)の初期値θini,q (ω,k)を、例えばビームフォーマ法などの到来方位推定方法によって定める。ビームフォーマ法は、指向性ビームを空間走査し、得られた電力スペクトルから電力が大きくなる方向を探索する方法である。ここでは、ビームフォーマ法によりP個の到来方向が推定できたとする。
実際には、ビームフォーマ法によって得られる電力スペクトルは到来方向に対して急峻でないことがあり、このような場合、例えば、予め定めたスペクトル強度以上のスペクトル強度を示す電力スペクトルに対応する方向の範囲にて予め定めた間隔で到来方向を定めればよい。具体例として、極角5°、方位角10°から20°の範囲で予め定めたスペクトル強度以上のスペクトル強度を示す電力スペクトルが得られたとすると、予め定めた間隔2°ごとに到来方向を定めるとして、(極角5°,方位角10°),(極角5°,方位角12°),(極角5°,方位角14°),(極角5°,方位角16°),(極角5°,方位角18°),(極角5°,方位角20°)を到来方向とすればよい。
また、電力スペクトルが或る方向にて急峻なピークを示したとしても、単純に当該方向を到来方向の一つとして定めるのではなく、当該方向の所定の範囲で到来方向を定めてもよい。具体例として、極角30°、方位角50°で急峻なピークを示す電力スペクトルが得られたとすると、所定の範囲(極角±4°,方位角±4°,間隔2°)で到来方向を定めるとして、(極角26°,方位角46°),(極角28°,方位角46°),(極角30°,方位角46°),(極角32°,方位角46°),(極角34°,方位角46°),(極角26°,方位角48°),(極角28°,方位角48°),(極角30°,方位角48°),(極角32°,方位角48°),(極角34°,方位角48°),(極角26°,方位角50°),(極角28°,方位角50°),(極角30°,方位角50°),(極角32°,方位角50°),(極角34°,方位角50°),(極角26°,方位角52°),(極角28°,方位角52°),(極角30°,方位角52°),(極角32°,方位角52°),(極角34°,方位角52°),(極角26°,方位角54°),(極角28°,方位角54°),(極角30°,方位角54°),(極角32°,方位角54°),(極角34°,方位角54°)を到来方向とすればよい。なお、第1実施形態ではPは固定値であったが、第2実施形態ではPはビームフォーマ法などの到来方位推定方法による推定成果に依存する値であることに留意されたい。
ビームフォーマ法によって得られたP個の到来方向についてテンプレートを生成する。テンプレートの各要素の算出式は例えば式(6)である。このP個のテンプレート(テンプレート情報S(ω))を用いて第1実施形態で説明した「§1 方向情報の初期値設定」を行えばよい。初期値設定以降の処理は第1実施形態で説明したとおりである。
<変形例>
上述の第1実施形態では周波数ごとに観測信号X(ω,k)を用いて反射音情報rs(ω,k)を推定したが、周波数ごとに反射音情報を推定すると、一意に推定されるべき仮想音源の方向(推定到来方向)以外の方向に関する情報も含んでしまうことがあり、この結果、反射音情報に誤差が生じることがありうる。例えば、図11(a)に示すように推定到来方向に関する情報だけを抽出できることが望ましいが、実際には図11(b)に示すように推定到来方向以外の方向に関する情報が混在してしまうことがありえる。
そこで変形例では、全周波数に亘り一括してパワーを算出することで、反射音情報の推定誤差を小さくする。つまり、図12に示すように、残差信号のパワーを全周波数に亘り統括することによって、推定到来方向以外の方向の影響を極力減らすことができる。一般的に推定到来方向以外の方向では各周波数でのパワーにバラつきが生じるので、残差信号のパワーを全周波数に亘り統括することにより、推定到来方向のパワーに比してそれ以外の方向のパワーの相対的な影響を低減することができる。なお、図12では、縦軸のパワーは相対値を示しているので各グラフのスケールが同じであるわけではないことに留意されたい。
この変形例での処理は次のとおりである。解析する周波数帯域に含まれる周波数のインデックスωの集合をΩとする。例えば、音声信号を扱うのであれば、1.0〜3.0kHz帯域に対応するインデックスの集合をΩとすればよい。そして、テンプレートSg(ω,q) (ω)のインデックスg(ω,q)を式(13)の替わりに式(18)によって求める。また、方向情報θq (ω,k)=[θq,pol(ω,k),θq,azi(ω,k)]の補正は、式(14)の替わりに式(19)による更新によって行われる。
<応用例>
反射音情報は人間が生活する上で、非常に重要な音声情報である。例えば、視覚障害者は、タッピングによって発した音源信号が壁や天井等で反射して耳で観測することにより、環境を把握している。また、日常会話でも、適度な反射が生じる部屋で会話することと、反射音が比較的少ない環境で会話することでは会話のしやすさに相違が生じる。以下、本発明により推定された反射音情報を用いたサービス例について述べる。
1つ目は、会議システムに本発明を組み込んだ例である。指向性音源の向きに応じて反射音の振幅は変化するので、反射音情報が分かると、どの方向に音源が向いているのかを推定することができる。会議システムに音源向きの推定装置を組み込めば、誰に向かって発言したのかを提示することに応用できる。
2つ目は、自由な位置で映像や音声を鑑賞できるシステムである。遠方にある音は直接到来する音源のパワーが小さいので収音することが困難である。反射音情報が分かると、直接音だけでなく、反射音も強調収音できるので、遠方の音を強調することが可能となる。また、音声処理の分野では、方向別に音源の強調収音は可能であるが、距離別に音声を強調収音することは非常に難しいとされている。反射音情報が分かると、距離に対応する物理的な特徴量が得られるので、距離別に収音することが可能となる。遠方の音を収音したり、方向別、距離別に収音することができれば、視聴者の選択した位置に対応した音場を擬似的に生成することが可能となる。
音声通信システムにおいて、反射音情報を推定することは、直接音だけでは得られなかった音場の情報を得ることにつながる。反射音情報が分かれば、これまでの音声強調技術ではできなかったような遠方音の収音や距離別の収音に結びついたり、従来の収音技術では推定できなかった音場の情報(例えば音源の向き)を推定できる。こういった音場の情報の推定は、これまでの技術では実現できなかった音声処理装置の開発に繋がる。反射音情報の推定に関する従来技術は、インパルス応答を求めるために特殊な信号を観測する必要があったが、本発明は音声信号のような一般的な観測信号で反射音情報を得られるという利点を持つ。
<反射音情報推定装置のハードウェア構成例>
上述の実施形態に関わる反射音情報推定装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、反射音情報推定装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
反射音情報推定装置の外部記憶装置には、反射音情報を推定するためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
反射音情報推定装置の記憶部には、アナログ信号に対してAD変換を行うためのプログラム、フレーム分割処理を行うためのプログラム、フレームごとのデジタル信号を周波数領域の観測信号に変換するためのプログラム、テンプレート情報を生成するためのプログラム、周波数領域の観測信号とテンプレート情報を用いて反射音情報を推定するためのプログラムが記憶されている。
反射音情報推定装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(AD変換部、フレーム分割部、周波数領域変換部、テンプレート生成部、反射音情報推定部)を実現することで反射音情報の推定が実現される。
<補記>
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記実施形態において説明したハードウェアエンティティ(反射音情報推定装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (15)

  1. Pを2以上の予め定められた整数、pを1以上P以下の各整数として、p番目の位置とM個のマイクロホンが配置される各位置との間の周波数ごとの伝達特性を表すテンプレートの集合であるテンプレート情報を記憶する記憶部と、
    音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(以下、観測信号という)と上記テンプレート情報とを入力とし、(1)p番目のテンプレートにp番目の複素振幅を乗じて表されるp番目の反射音を上記観測信号から減じて得られる残差信号のパワーが最小になるようにp番目の複素振幅を決定し、決定されたp番目の複素振幅をp番目のテンプレートに乗じて表されるp番目の反射音を上記観測信号から減じて得られる残差信号のパワーを各pについて求め、これらのうち最小のパワーを与えたテンプレートを決定し、
    (2)決定されたテンプレートに対応する上記位置により定まる方向Dの近傍で、空間中の任意の位置と各上記マイクロホンとの間の周波数ごとの伝達特性を模擬した関数(以下、伝達特性関数という)に複素振幅を乗じたものを上記観測信号から減じて得られる残差信号Eのパワーが最小になるように当該方向Dを補正することにより反射音の到来方向を推定する反射音情報推定部と
    を含む反射音情報推定装置。
  2. Pを2以上の予め定められた整数、pを1以上P以下の各整数として、p番目の位置とM個のマイクロホンが配置される各位置との間の周波数ごとの伝達特性を表すテンプレートの集合であるテンプレート情報を記憶する記憶部と、
    音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(以下、観測信号という)と上記テンプレート情報とを入力とし、(1)p番目のテンプレートにp番目の複素振幅を乗じて表されるp番目の反射音を上記観測信号から減じて得られる残差信号のパワーが最小になるようにp番目の複素振幅を決定し、決定されたp番目の複素振幅をp番目のテンプレートに乗じて表されるp番目の反射音を上記観測信号から減じて得られる残差信号のパワーを各pについて求め、これらのうち最小のパワーを与えたテンプレートを決定し、
    (2)決定されたテンプレートに対応する上記位置により定まる方向Dの近傍で、空間中の任意の位置と各上記マイクロホンとの間の周波数ごとの伝達特性を模擬した関数(以下、伝達特性関数という)に複素振幅を乗じたものを上記観測信号から減じて得られる残差信号Eのパワーが最小になるように当該方向Dを補正することにより反射音の到来方向を推定するとともに、当該到来方向に対応する上記伝達特性関数に乗じられた上記複素振幅を反射音の到来振幅として推定する反射音情報推定部と
    を含む反射音情報推定装置。
  3. Pを2以上の予め定められた整数、pを1≦p≦Pを満たす整数として、p番目の位置とM個のマイクロホンが配置される各位置との間の周波数ごとの伝達特性を表すテンプレートの集合であるテンプレート情報を記憶する記憶部と、
    音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(以下、観測信号という)と上記テンプレート情報とを入力とし、Qを1以上の予め定められた整数、qを1以上Q以下の各整数として、各qについて、(1)p番目のテンプレートにp番目の複素振幅を乗じて表されるp番目の反射音をq番目の最小の残差信号(ただし、1番目の最小の残差信号は上記観測信号とする)から減じて得られる残差信号のパワーが最小になるようにp番目の複素振幅を決定し、決定されたp番目の複素振幅をp番目のテンプレートに乗じて表されるp番目の反射音をq番目の最小の残差信号から減じて得られるq+1番目の残差信号のパワーを各pについて求め、これらのうち最小のパワーを与えたテンプレートを決定し、
    (2)決定されたテンプレートに対応する上記位置により定まる方向Dの近傍で、空間中の任意の位置と各上記マイクロホンとの間の周波数ごとの伝達特性を模擬した関数(以下、伝達特性関数という)に複素振幅を乗じたものをq番目の最小の残差信号から減じて得られる残差信号Eのパワーが最小になるように当該方向Dを補正することにより反射音の到来方向を推定する反射音情報推定部と
    を含む反射音情報推定装置。
  4. Pを2以上の予め定められた整数、pを1≦p≦Pを満たす整数として、p番目の位置とM個のマイクロホンが配置される各位置との間の周波数ごとの伝達特性を表すテンプレートの集合であるテンプレート情報を記憶する記憶部と、
    音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(以下、観測信号という)と上記テンプレート情報とを入力とし、Qを1以上の予め定められた整数、qを1以上Q以下の各整数として、各qについて、(1)p番目のテンプレートにp番目の複素振幅を乗じて表されるp番目の反射音をq番目の最小の残差信号(ただし、1番目の最小の残差信号は上記観測信号とする)から減じて得られる残差信号のパワーが最小になるようにp番目の複素振幅を決定し、決定されたp番目の複素振幅をp番目のテンプレートに乗じて表されるp番目の反射音をq番目の最小の残差信号から減じて得られるq+1番目の残差信号のパワーを各pについて求め、これらのうち最小のパワーを与えたテンプレートを決定し、
    (2)決定されたテンプレートに対応する上記位置により定まる方向Dの近傍で、空間中の任意の位置と各上記マイクロホンとの間の周波数ごとの伝達特性を模擬した関数(以下、伝達特性関数という)に複素振幅を乗じたものをq番目の最小の残差信号から減じて得られる残差信号Eのパワーが最小になるように当該方向Dを補正することにより反射音の到来方向を推定するとともに、当該到来方向に対応する上記伝達特性関数に乗じられた上記複素振幅を反射音の到来振幅として推定する反射音情報推定部と
    を含む反射音情報推定装置。
  5. 請求項1から請求項4のいずれかに記載の反射音情報推定装置において、
    上記残差信号のパワーはそれぞれ、全ての上記周波数に亘って加算して得られたパワーであり、
    上記到来方向は、全ての上記周波数に亘って加算して得られた上記残差信号Eのパワーが最小になるように当該方向Dを補正することにより推定される
    ことを特徴とする反射音情報推定装置。
  6. 請求項1から請求項5のいずれかに記載の反射音情報推定装置において、
    周波数をω、周波数ωの集合をΩ、iを虚数単位、cを音速、p番目の位置[xp,yp,zp]とm番目(1≦m≦M)のマイクロホンが配置される位置[um,vm,wm]との間の伝達特性をSpm(ω)、ただし
    として、上記テンプレートSp(ω)={Sp1(ω),…,SpM(ω)}(ω∈Ω)の集合である上記テンプレート情報{S1(ω),…,SP(ω)}(ω∈Ω)を生成するテンプレート生成部を
    さらに含むことを特徴とする反射音情報推定装置。
  7. 請求項1から請求項6のいずれかに記載の反射音情報推定装置において、
    上記伝達特性関数は、空間中の任意の位置[x,y,z]とM個のマイクロホンが配置される各位置[um,vm,wm]との間の周波数ごとの各伝達特性Rm(ω)(1≦m≦M)によって表され、当該伝達特性Rm(ω)は、周波数をω、iを虚数単位、cを音速として、
    で表されることを特徴とする反射音情報推定装置。
  8. Pを2以上の予め定められた整数、pを1以上P以下の各整数として、記憶部には、p番目の位置とM個のマイクロホンが配置される各位置との間の周波数ごとの伝達特性を表すテンプレートの集合であるテンプレート情報が記憶されているとし、
    音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(以下、観測信号という)と上記テンプレート情報とを用い、(1)p番目のテンプレートにp番目の複素振幅を乗じて表されるp番目の反射音を上記観測信号から減じて得られる残差信号のパワーが最小になるようにp番目の複素振幅を決定し、決定されたp番目の複素振幅をp番目のテンプレートに乗じて表されるp番目の反射音を上記観測信号から減じて得られる残差信号のパワーを各pについて求め、これらのうち最小のパワーを与えたテンプレートを決定し、
    (2)決定されたテンプレートに対応する上記位置により定まる方向Dの近傍で、空間中の任意の位置と各上記マイクロホンとの間の周波数ごとの伝達特性を模擬した関数(以下、伝達特性関数という)に複素振幅を乗じたものを上記観測信号から減じて得られる残差信号Eのパワーが最小になるように当該方向Dを補正することにより反射音の到来方向を推定する反射音情報推定過程
    を有する反射音情報推定方法。
  9. Pを2以上の予め定められた整数、pを1以上P以下の各整数として、記憶部には、p番目の位置とM個のマイクロホンが配置される各位置との間の周波数ごとの伝達特性を表すテンプレートの集合であるテンプレート情報が記憶されているとし、
    音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(以下、観測信号という)と上記テンプレート情報とを用い、(1)p番目のテンプレートにp番目の複素振幅を乗じて表されるp番目の反射音を上記観測信号から減じて得られる残差信号のパワーが最小になるようにp番目の複素振幅を決定し、決定されたp番目の複素振幅をp番目のテンプレートに乗じて表されるp番目の反射音を上記観測信号から減じて得られる残差信号のパワーを各pについて求め、これらのうち最小のパワーを与えたテンプレートを決定し、
    (2)決定されたテンプレートに対応する上記位置により定まる方向Dの近傍で、空間中の任意の位置と各上記マイクロホンとの間の周波数ごとの伝達特性を模擬した関数(以下、伝達特性関数という)に複素振幅を乗じたものを上記観測信号から減じて得られる残差信号Eのパワーが最小になるように当該方向Dを補正することにより反射音の到来方向を推定するとともに、当該到来方向に対応する上記伝達特性関数に乗じられた上記複素振幅を反射音の到来振幅として推定する反射音情報推定過程
    を有する反射音情報推定方法。
  10. Pを2以上の予め定められた整数、pを1≦p≦Pを満たす整数として、記憶部には、p番目の位置とM個のマイクロホンが配置される各位置との間の周波数ごとの伝達特性を表すテンプレートの集合であるテンプレート情報が記憶されているとし、
    音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(以下、観測信号という)と上記テンプレート情報とを用い、Qを2以上の予め定められた整数、qを1以上Q以下の各整数として、各qについて、(1)p番目のテンプレートにp番目の複素振幅を乗じて表されるp番目の反射音をq番目の最小の残差信号(ただし、1番目の最小の残差信号は上記観測信号とする)から減じて得られる残差信号のパワーが最小になるようにp番目の複素振幅を決定し、決定されたp番目の複素振幅をp番目のテンプレートに乗じて表されるp番目の反射音をq番目の最小の残差信号から減じて得られるq+1番目の残差信号のパワーを各pについて求め、これらのうち最小のパワーを与えたテンプレートを決定し、
    (2)決定されたテンプレートに対応する上記位置により定まる方向Dの近傍で、空間中の任意の位置と各上記マイクロホンとの間の周波数ごとの伝達特性を模擬した関数(以下、伝達特性関数という)に複素振幅を乗じたものをq番目の最小の残差信号から減じて得られる残差信号Eのパワーが最小になるように当該方向Dを補正することにより反射音の到来方向を推定する反射音情報推定過程
    を有する反射音情報推定方法。
  11. Pを2以上の予め定められた整数、pを1≦p≦Pを満たす整数として、記憶部には、p番目の位置とM個のマイクロホンが配置される各位置との間の周波数ごとの伝達特性を表すテンプレートの集合であるテンプレート情報が記憶されているとし、
    音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(以下、観測信号という)と上記テンプレート情報とを用い、Qを2以上の予め定められた整数、qを1以上Q以下の各整数として、各qについて、(1)p番目のテンプレートにp番目の複素振幅を乗じて表されるp番目の反射音をq番目の最小の残差信号(ただし、1番目の最小の残差信号は上記観測信号とする)から減じて得られる残差信号のパワーが最小になるようにp番目の複素振幅を決定し、決定されたp番目の複素振幅をp番目のテンプレートに乗じて表されるp番目の反射音をq番目の最小の残差信号から減じて得られるq+1番目の残差信号のパワーを各pについて求め、これらのうち最小のパワーを与えたテンプレートを決定し、
    (2)決定されたテンプレートに対応する上記位置により定まる方向Dの近傍で、空間中の任意の位置と各上記マイクロホンとの間の周波数ごとの伝達特性を模擬した関数(以下、伝達特性関数という)に複素振幅を乗じたものをq番目の最小の残差信号から減じて得られる残差信号Eのパワーが最小になるように当該方向Dを補正することにより反射音の到来方向を推定するとともに、当該到来方向に対応する上記伝達特性関数に乗じられた上記複素振幅を反射音の到来振幅として推定する反射音情報推定過程
    を有する反射音情報推定方法。
  12. 請求項8から請求項11のいずれかに記載の反射音情報推定方法において、
    上記残差信号のパワーはそれぞれ、全ての上記周波数に亘って加算して得られたパワーであり、
    上記到来方向は、全ての上記周波数に亘って加算して得られた上記残差信号Eのパワーが最小になるように当該方向Dを補正することにより推定される
    ことを特徴とする反射音情報推定方法。
  13. 請求項8から請求項12のいずれかに記載の反射音情報推定方法において、
    周波数をω、周波数ωの集合をΩ、iを虚数単位、cを音速、p番目の位置[xp,yp,zp]とm番目(1≦m≦M)のマイクロホンが配置される位置[um,vm,wm]との間の伝達特性をSpm(ω)、ただし
    として、上記テンプレートSp(ω)={Sp1(ω),…,SpM(ω)}(ω∈Ω)の集合である上記テンプレート情報{S1(ω),…,SP(ω)}(ω∈Ω)を生成するテンプレート生成過程を
    さらに有することを特徴とする反射音情報推定方法。
  14. 請求項8から請求項13のいずれかに記載の反射音情報推定方法において、
    上記伝達特性関数は、空間中の任意の位置[x,y,z]とM個のマイクロホンが配置される各位置[um,vm,wm]との間の周波数ごとの各伝達特性Rm(ω)(1≦m≦M)によって表され、当該伝達特性Rm(ω)は、周波数をω、iを虚数単位、cを音速として、
    で表されることを特徴とする反射音情報推定方法。
  15. コンピュータに、請求項8から請求項14のいずれかに記載の反射音情報推定方法の処理を実行させるためのプログラム。
JP2010176016A 2010-08-05 2010-08-05 反射音情報推定装置、反射音情報推定方法、プログラム Active JP5172909B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010176016A JP5172909B2 (ja) 2010-08-05 2010-08-05 反射音情報推定装置、反射音情報推定方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010176016A JP5172909B2 (ja) 2010-08-05 2010-08-05 反射音情報推定装置、反射音情報推定方法、プログラム

Publications (2)

Publication Number Publication Date
JP2012039275A true JP2012039275A (ja) 2012-02-23
JP5172909B2 JP5172909B2 (ja) 2013-03-27

Family

ID=45850799

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010176016A Active JP5172909B2 (ja) 2010-08-05 2010-08-05 反射音情報推定装置、反射音情報推定方法、プログラム

Country Status (1)

Country Link
JP (1) JP5172909B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105794226A (zh) * 2013-12-05 2016-07-20 微软技术许可有限责任公司 用于声学回声消除的房间脉冲响应估计
WO2020250797A1 (ja) * 2019-06-14 2020-12-17 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728492A (ja) * 1993-07-09 1995-01-31 Sony Corp 音源信号推定装置
JPH0921863A (ja) * 1995-07-05 1997-01-21 Haruo Hamada 信号源探査方法及び装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728492A (ja) * 1993-07-09 1995-01-31 Sony Corp 音源信号推定装置
JPH0921863A (ja) * 1995-07-05 1997-01-21 Haruo Hamada 信号源探査方法及び装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105794226A (zh) * 2013-12-05 2016-07-20 微软技术许可有限责任公司 用于声学回声消除的房间脉冲响应估计
KR20160095008A (ko) * 2013-12-05 2016-08-10 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 음향 에코 제거를 위한 룸 임펄스 응답을 추정하는 방법
KR102223695B1 (ko) 2013-12-05 2021-03-04 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 음향 에코 제거를 위한 룸 임펄스 응답을 추정하는 방법
WO2020250797A1 (ja) * 2019-06-14 2020-12-17 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
JP5172909B2 (ja) 2013-03-27

Similar Documents

Publication Publication Date Title
JP6458738B2 (ja) 音場再現装置および方法、並びにプログラム
RU2570359C2 (ru) Прием звука посредством выделения геометрической информации из оценок направления его поступления
US8988970B2 (en) Method and system for dereverberation of signals propagating in reverberative environments
TWI389579B (zh) Acoustic camera
US9560439B2 (en) Methods, systems, and computer readable media for source and listener directivity for interactive wave-based sound propagation
Landschoot et al. Model-based Bayesian direction of arrival analysis for sound sources using a spherical microphone array
CN106165444B (zh) 声场再现设备、方法和程序
CN106255027B (zh) 一种非线性音频系统的音质可听化评估方法及系统
Bilbao et al. Incorporating source directivity in wave-based virtual acoustics: Time-domain models and fitting to measured data
JP2012129873A (ja) 指定領域からの伝播音の再生方法とその装置
US11830471B1 (en) Surface augmented ray-based acoustic modeling
JP5543106B2 (ja) 空間オーディオ信号再生装置及び空間オーディオ信号再生方法
JP5172909B2 (ja) 反射音情報推定装置、反射音情報推定方法、プログラム
JP5660665B2 (ja) 反射音情報推定装置、反射音情報推定方法、プログラム
JP5285665B2 (ja) 反射音情報推定装置、反射音情報推定方法、プログラム
Torres et al. Room acoustics analysis using circular arrays: An experimental study based on sound field plane-wave decomposition
JP2018077139A (ja) 音場推定装置、音場推定方法、プログラム
JP5216056B2 (ja) 反射音情報推定装置、反射音情報推定方法、プログラム
Wu et al. A method to measure hearing aid directivity index and polar pattern in small and reverberant enclosures
Maestre et al. State-space modeling of sound source directivity: An experimental study of the violin and the clarinet
JP6294805B2 (ja) 収音装置
Feistel et al. Modeling of loudspeaker systems using high-resolution data
JP5826712B2 (ja) マルチチャネルエコー消去装置、マルチチャネルエコー消去方法、およびプログラム
Pollow et al. Including directivity patterns in room acoustical measurements
Fan et al. Practical implementation and analysis of spatial soundfield capture by higher order microphones

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121226

R150 Certificate of patent or registration of utility model

Ref document number: 5172909

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350