JP4894638B2 - 音響入力装置 - Google Patents

音響入力装置 Download PDF

Info

Publication number
JP4894638B2
JP4894638B2 JP2007149570A JP2007149570A JP4894638B2 JP 4894638 B2 JP4894638 B2 JP 4894638B2 JP 2007149570 A JP2007149570 A JP 2007149570A JP 2007149570 A JP2007149570 A JP 2007149570A JP 4894638 B2 JP4894638 B2 JP 4894638B2
Authority
JP
Japan
Prior art keywords
sound
sound pressure
differential value
target speaker
dead point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007149570A
Other languages
English (en)
Other versions
JP2008304555A (ja
Inventor
実 福島
香菜 川東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Electric Works Co Ltd
Original Assignee
Panasonic Corp
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Works Ltd filed Critical Panasonic Corp
Priority to JP2007149570A priority Critical patent/JP4894638B2/ja
Publication of JP2008304555A publication Critical patent/JP2008304555A/ja
Application granted granted Critical
Publication of JP4894638B2 publication Critical patent/JP4894638B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音源から発せられる音を入力する音響入力装置に関するものである。
周囲騒音や残響の存在する環境下で特定の音源から発せられる音、例えば、人の発する音声(話者音声)のみを入力する音響入力装置が従来より種々提供されている。例えば、特許文献1に記載されている従来例は、2つのマイクロホンと、各マイクロホンで集音した音響信号毎に周波数分析して2つのチャンネル別の周波数成分を得るとともに、各チャネルの周波数成分について適応ビームフォーマ処理を行うことにより、目的音(話者音声)の方向以外の感度を低くして周囲雑音等が抑圧された音響信号を取得し、同様に周囲雑音等の方向以外の感度を低くして目的音が抑圧された音響信号を取得し、適応ビームフォーマ処理で用いられるフィルタ係数から目的音方向と周囲雑音方向を推定して逐次修正し、さらに、スペクトル・サブトラクション処理によって前者の音響信号と後者の音響信号から周囲雑音成分を除去することによって目的音(話者音声)のみを入力するものである。
特開2000−47699号公報
しかしながら、上記従来例においては、例えばマイクロホンからみて話者と雑音源が同じ方向に存在する場合には目的音と目的音以外の雑音とを分離することができないという問題がある。
本発明は上記事情に鑑みて為されたものであり、その目的は、所望の音源から発せられる音のみを入力することができる音響入力装置を提供することにある。
請求項1の発明は、上記目的を達成するために、音圧の同相成分、当該音圧の時間微分値、当該音圧を二次元直交座標系の各軸方向に微分した空間微分値をそれぞれ検出する集音センサ手段と、集音センサ手段で検出される音圧の同相成分、時間微分値、空間微分値を要素とするベクトルを定義し、音圧の同相成分、時間微分値、空間微分値に対する荷重を要素とする係数ベクトルと前記ベクトルとの荷重和を演算した後、この演算結果に対して低域通過フィルタ処理を行うことにより集音感度が最小となる死点を、集音センサ手段から見た方向及び距離が予め設定されている目的話者の位置に形成する死点形成手段と、集音センサ手段で検出される音圧と死点形成手段から出力される音圧を用いて前記目的話者から発せられる音声の音圧のみを抽出する目的話者音声抽出手段とを備えたことを特徴とする。
請求項1の発明によれば、死点形成手段から出力される音圧には死点に存在する音源から発せられる音以外の音、すなわち、雑音の音圧のみが含まれ、一方、集音センサ手段で検出される音圧には死点に存在する音源から発せられる音の音圧と雑音の音圧の双方が含まれており、目的話者音声抽出手段によって死点に存在する音源から発せられる音の音圧のみを抽出するので、雑音が死点の方向から到来する場合においても死点に存在する音源から発せられる音のみを入力することができる。
請求項2の発明は、請求項1の発明において、目的話者音声抽出手段は、スペクトル・サブトラクション法によって前記目的話者から発せられる音の音圧を抽出することを特徴とする。
請求項3の発明は、請求項1の発明において、目的話者音声抽出手段は、独立成分分析によって前記目的話者から発せられる音の音圧を抽出することを特徴とする。
請求項4の発明は、請求項3の発明において、目的話者音声抽出手段は、独立成分分析を行う前に主成分分析を行うことを特徴とする。
請求項5の発明は、請求項1〜4の何れか1項の発明において、集音センサ手段は、前記二次元直交座標系の各軸と直交する向きに複数が配置されたマイクロホンを具備することを特徴とする。
請求項6の発明は、請求項1〜4の何れか1項の発明において、集音センサ手段は、振動板が中央の1点で支持された2軸直交型のジンバル構造を有するマイクロホンを具備することを特徴とする。
請求項7の発明は、請求項1〜6の何れか1項の発明において、前記目的話者の位置予め設定されている位置から別の位置へ変更する音源位置変更手段を備え、音源位置変更手段は、集音センサ手段で検出される音圧の瞬時パワーを死点形成手段から出力される音圧の瞬時パワーで除した値が所定のしきい値以上となるときに集音センサ手段で検出される音圧、時間微分値、空間微分値に基づいて推定される位置に前記目的話者の位置を変更することを特徴とする。
請求項7の発明によれば、音源の位置が変動した場合でも音源位置変更手段によって音源位置が変更されるために音源位置と死点がずれることがなく、その結果、音源が移動する場合においても当該音源から発せられる音のみを入力することができる。
本発明によれば、雑音が死点の方向から到来する場合においても死点に存在する音源から発せられる音のみを入力することができる。
以下、図面を参照して本発明の実施形態を詳細に説明する。尚、実施形態の説明において参照する文献については、参考文献1,参考文献2,…のように表記し、それぞれの参考文献1,2,…の一覧を末尾に掲載する。
(実施形態1)
本実施形態の音響入力装置は、図1に示すように音圧、当該音圧の時間微分値、当該音圧を二次元直交座標系の各軸方向に微分した空間微分値をそれぞれ検出する集音センサ手段1と、集音センサ手段1で検出される音圧、時間微分値、空間微分値に対して所定の係数ベクトルとの荷重和及び低域通過フィルタ処理を行うことにより集音感度が最小となる死点を予め設定した目的話者の位置に形成する死点形成手段2と、集音センサ手段1で検出される音圧と死点形成手段2から出力される音圧を用いて前記死点に存在する音源(話者)から発せられる音の音圧のみを抽出する目的話者音声抽出手段3とを備えている。
集音センサ手段1は、図1に示すように三次元直交座標系のx軸並びにy軸と直交する向き(z軸の正の向き)に複数(図示例では4本)が配置された無指向性のマイクロホン10A,10B,10C,10Dと、マイクロホン10A〜10Dの出力信号fA(t),fB(t),fC(t),fD(t)に対して時空間勾配測定処理を行う時空間勾配測定処理部11とを具備する。時空間勾配測定処理部11では、各マイクロホン10A〜10Dの出力信号fA(t),fB(t),fC(t),fD(t)から音圧の同相成分M(t)、時間微分値(時間勾配成分)Mt(t)、x軸方向空間微分値(x軸方向空間勾配成分)Mx(t)、y軸方向空間微分値(y軸方向空間勾配成分)My(t)をそれぞれ下式より求める。
M(t)=fA(t)+fB(t)+fC(t)+fD(t)
t(t)=dfA(t)/dt+dfB(t)/dt+dfC(t)/dt+dfD(t)/dt
x(t)=fA(t)+fB(t)−fC(t)−fD(t)
y(t)=fA(t)−fB(t)+fC(t)−fD(t)
死点形成手段2は、集音センサ手段1から出力される同相成分M(t)、時間微分値Mt(t)、x軸方向空間微分値Mx(t)、y軸方向空間微分値My(t)を用いて、時空間勾配法を応用することで死点を形成するものである。ここで、死点形成手段2による死点形成処理を説明するに当たって、初めに時空間勾配法について詳しく説明する。
時空間勾配法とは、そもそも動画像中の見かけの速度場であるオプティカルフローを決定する手法の一つとして提案されたものである(参考文献1参照)。動画像中の濃淡パターンの特徴を表す画像関数f(x,y,t)が、運動に際し不変に保たれるとの仮定(f(x,y,t)=f(x+δx,y+δy,t+δt))より、ある点(x,y)におけるオプティカルフローの速度と、動画像の濃淡分布の空間勾配および時間勾配を関係付ける式をもとにした解析手法である。以下、この手法について詳しく解説する。
時刻t+δtにおいて、座標(x+δx,y+δy)での濃淡パターンf(x+δx,y+δy,t+δt)を(x,y,t)のまわりでテーラー展開すると、
f(x+δx,y+δy,t+δt)=f(x,y,t)+fxδx+fyδy+ftδt+O(δx+δy+δt) …(1)
となる。ここで、O(δx+δy+δt)はδx,δy,δtの2次以上の項であるが、微小量であるために以降では無視する。この時、時刻tにおいて座標(x,y)にある濃淡パターンが、δt時刻経過した後に座標(x+δx,y+δy)にその濃度値分布を一定に保ったまま移動した時、その対応付けから次式が成り立つ。
f(x,y,t)=f(x+δx,y+δy,t+δt)
=f(x,y,t)+fxδx+fyδy+ftδt …(2)
xδx+fyδy+ftδt=0 …(3)
式(3)の両辺をδtで割ると、
xδx/δt+fyδy/δt+ft=0 …(4)
を得る。ここで、δtが無限小であると仮定して、δt→0とすると次式を得る。
xdx/dt+fydy/dt+ft=0 …(5)
オプティカルフロー速度v=(u,v)=(dx/dt,dy/dt)を用いると、式(5)は、
ufx+vfy+ft=0 …(6)
となり、式(6)は動画像の濃淡値の時間、空間に関する勾配とオプティカルフロー速度vとを関係付ける式である。
次に、「ある着目点の近傍領域Γにおいて速度場はほぼ一定であると近似できる」という仮定を行う。この時、領域Γ内のいたるところで式(6)が成立しなければならない。そこで、式(6)の左辺の2乗積分(下記の式(7))を用いて評価し、最小自乗法によって速度場を求める。
式(7)をu,vに関して微分し、0とおくと、
uSxx+vSxy+Sxt=0,uSxy+vSyy+Syt=0 …(8)
が得られる。式(8)を解くと速度ベクトル(u,v)は
u=(SytSxy-SxtSyy)/(SxxSyy-S2 xy),v=(SxtSxy-SytSxx)/(SxxSyy-S2 xy) …(10)
のように求められる。
次に、上述の動画像中のオプティカルフロー速度を求める時空間勾配法を応用して、音源が空間中に作る音場のある1点における音圧とその時空間勾配の間に成り立つ線形関係に基づいて、音源位置を定位する手法について説明する(参考文献2参照)。
図2に示すように観測点を原点とする三次元直交座標系を取り、その前方(z>0)に互いに無相関な点音源が複数個あるとする。音速をc、i番目の音源の座標を(xi,yi,zi)、音源と観測点との距離をRi=(x2 i+y2 i+z2 i)1/2、音源音をgi(t)、各音源が観測点に形成する音場をfi(t)とすると、観測点に形成される合成音場fはこれらからの球面波の和として、
と表される。これを偏微分することにより、観測点での音場のx,y微分、時間微分は下記の式(12),(13),(14)で表される。
ここで、
ξi x=xi/R2 ii y=yi/R2 i …(15)
は強度勾配と呼ばれ、
τi x=xi/cRii y=yi/cRi …(16)
はx,y方向時間勾配と呼ばれる。
次に簡単のため、1音源の場合の音源定位手法について述べる。1音源の場合、式(12),(13)は
fx=-ξxf-τxft,fy=-ξyf-τyft …(17)
となり、式(1)と同様に最小自乗法を適用してτxyxyを求める。短時間の時間窓Γにおいて評価関数を
J=∫Γ{(fxxf+τxft)2+(fyyf+τyft)2}dt …(18)
とする。式(18)をτxyxyに関して偏微分し、0とおくと下式が得られる。
∂J/∂τx=∫Γ2(fxxf+τxft)・ftdt=0,∂J/∂τy=∫Γ2(fyyf+τyft)・ftdt=0 …(19)
∂J/∂ξx=∫Γ2(fxxf+τxft)・ftdt=0,∂J/∂ξy=∫Γ2(fyyf+τyft)・ftdt=0 …(20)
ここで、観測窓Γから推定される共分散行列を
とおくと、式(19),(20)は
SxtxStxStt=0,SytyStyStt=0 …(22)
SxxS+τxSt=0,SyyS+τySt=0 …(23)
と書き直される。式(22),(23)を解くことにより、τxyxyが次式のように求められる。
τx=(SxSt-SSxt)/(SStt-S2 t),τy=(SySt-SSyt)/(SStt-S2 t) …(24)
ξx=(SxtSt-SxStt)/(SStt-S2 t),ξy=(SytSt-SyStt)/(SStt-S2 t) …(25)
音源の方位角(x/R,y/R)=(cτx,cτy)については式(21),(24)から求められる。音源までの距離Rについては、式(15),(16)から最小自乗法を適用することにより求められる。評価関数を
とし、これを1/Rで偏微分して0とおくと
となる。これを解くと
R=c(τ2 x2 y)/(τxξxyξy) …(28)
のように音源までの距離が求められる。
次に、音場の時空間勾配を利用して、指向性制御を行う手法について解説する(参考文献3〜5参照)。今、1音源の場合を仮定すると、観測点における音圧信号f(t)のx,y方向の空間勾配は式(12),(13)より
となる。この式を音源から観測点に向かうベクトルr=(x,y,z)を用いて書き直すと
となる。次にf(t),ft(t),∇f(t)が観測される時、これらの荷重和は
と表される。ただし、u,utは実数定数、w=(wx,wy,0)は観測点を原点とし、任意の方向を向いている単位ベクトルである。式(30)を式(31)に代入すると、
となる。よって時空間勾配の荷重和は、f(t),ft(t)に対してそれぞれ異なる指向特性H(r),Ht(r)をもつフィルタの和として表される。H(r)=αのとき、式(33)は
と変形できる。ここで、2つのベクトルa,bの成す角をθとすると以下の公式が成り立つ。
式(38)の公式を用いると式(36)は次式のように書き換えられる。
ここで、|w|=1より、
という球の方程式で表される。u+α=0の場合には、式(35)は
r・w=0 …(42)
となる。また、Ht(r)=αの時には式(34)は
となるので、ベクトルrとwの成す角をθ(r)とすると|w|=1より
となる。よって、式(43)は
となる。
式(41)、(42)、(45)より、H(r),Ht(r)について次のような性質を得る。
1)2つの指向特性H(r),Ht(r)はwを軸とする回転対称体をもつ
2)H(r)=0の時、rの分布は直径1/u(u≠0)の球面または平面(u=0)を成す
3)Ht(r)=0の時、rの分布は頂角2cut(ut≠0)の円錐面または平面(ut=0)を成す
4)H(r)=0とHt(r)=0の時のrの分布の交わりは円または平面を成す
式(32)を周波数領域に変換すると、
を得る。よって音源rからs(t)への周波数応答T(r,w)は、
T(r,w)=H(r)+jωHt(r) …(47)
となり、H(r),Ht(r)が実数であればT(r,w)=0となる場合には
H(r)=0,Ht(r)=0 …(48)
となる。故に、式(47)からS(ω)=0となる零点分布は、周波数ωに依存せず、音源位置rのみに依存することが分かる。したがって、観測点における音圧の時間勾配とx,y方向の空間勾配が得られる時に、零感度領域(死点)を形成するには、ある瞬間においてf,ft,fx,fyの荷重和を取り、補償フィルタ処理(低域通過フィルタ処理)を施すだけでよい。
而して、本実施形態における死点形成手段2においては、集音センサ手段1から出力される同相成分M(t)、時間微分値Mt(t)、x軸方向空間微分値Mx(t)、y軸方向空間微分値My(t)をそれぞれ上述のf,ft,fx,fyに置き換え、これらの値を要素とするベクトルM=(M(t) Mt(t) Mx(t) My(t))Tを定義し、これらに対する荷重を要素とする係数ベクトルW=(W Wtxy)Tとの荷重和を演算した後、低域通過フィルタ処理を施すことによって、予め決められた任意位置に死点を形成する。具体的には、上述の指向特性H(r),Ht(r)をそれぞれH1(ri),H2(ri)と置き換えて下記のように定義し(但し、riは音源iの位置ベクトル、nix,niyはそれぞれri/|ri|のx成分とy成分である。)、
さらに、図1において(p+jωq)-1で表した低域通過フィルタ20のフィルタ係数p=WHH1(ri),q=WHH2(ri)が何れもゼロとなるような係数ベクトルWを選択することで音源iの位置riに、周波数に依存しない死点が形成できる。そして、死点形成手段2の出力O(t)には死点に存在する音源から発せられる音の音圧が含まれない、言い換えると、死点に居る話者の音声を除く周囲騒音や残響音(以下、雑音という。)のみが含まれていることになる。
目的話者音声抽出手段3は、集音センサ手段1から出力される音圧(目的音<死点に存在する話者の音声>と雑音を含む音圧)M(t)と、死点形成手段2から出力される雑音成分O(t)とから、従来周知のスペクトル・サブトラクション法によって目的音S(t)を抽出する処理を行う(参考文献6参照)。まず、目的話者音声抽出手段3では同相成分M(t)及び雑音成分O(t)をフレーム分割部30にて単位時間(フレーム時間)毎に分割し、分割された音圧M(t,k)及び雑音成分O(t,k)を高速フーリエ変換部31で時間領域から周波数領域に変換する(但し、kはフレーム番号を示す)。そして、雑音成分O(f,k)の平均振幅μ(=E{|O(f,k|})を雑音平均振幅算出部32で算出し、振幅算出部33で算出した音圧M(f,k)の振幅値|M(f,k)|から雑音成分O(f,k)の平均振幅μを減算するとともに、減算した値(|M(f,k)|−μ)に、位相算出部34で算出した音圧M(f,k)の位相(=exp{j∠M(f,k)})を乗算することで雑音が含まれていない出力S(f,k)=(|M(f,k)|−μ)・exp{j∠M(f,k)}を取り出し、この出力S(f,k)を高速フーリエ逆変換して周波数領域から時間領域に戻すことで雑音が含まれない目的音S(t)のみを得ることができる。
このように本実施形態の音響入力装置によれば、死点形成手段2から出力される音圧(同相成分)O(f,k)には死点に存在する音源から発せられる音以外の音、すなわち、雑音の音圧のみが含まれ、一方、集音センサ手段1で検出される音圧(同相成分)M(f,k)には死点に存在する音源から発せられる音の音圧と雑音の音圧の双方が含まれており、目的話者音声抽出手段3によって死点に存在する音源から発せられる音の音圧S(f,k)のみを抽出するので、雑音が死点の方向から到来する場合においても死点に存在する音源から発せられる音のみを入力することができる。図3は目的音と雑音を含む音圧M(f)、目的音を含まない雑音のみの音圧O(f)、目的話者音声抽出手段3で抽出される目的音の音圧S(f)の周波数特性の一例を示しており、音圧S(f)に含まれる雑音成分が十分に抑圧されていることが判る。
ここで、本実施形態の音響入力装置をインターホン装置(ドアホン子器)に搭載すれば、周囲騒音の大きい環境下においても話者(来訪者)の音声のみを抽出して通話することができる。
ところで、本実施形態における集音センサ手段1では4本のマイクロホン10A〜10Dをxy平面上に配置しているが、図4に示すように平面視円形の振動板13が中央の1点(中心)で支持された2軸直交型のジンバル構造を有するマイクロホン12をマイクロホン10A〜10Dの代わりに用いても構わない。振動板13は全体が薄い円盤状であって、その中央部分における同心円上に二重の溝14,15が形成され、内側の溝14を仕切る一対のビーム14a,14aと、外側の溝15を仕切る一対のビーム15a,15aとを有し、支持棒16に支持された点(中心)を支点として各ビーム14a,15aのねじれによってx軸及びy軸の回りに回転可能となっている(参考文献7,8参照)。したがって、振動板13上に4つの観測点A,B,C,Dを設定し、各観測点における変位量をマイクロホン10A〜10Dの出力に置き換えれば、同相成分M(t)、時間微分値Mt(t)、x軸方向空間微分値Mx(t)、y軸方向空間微分値My(t)を検出することが可能である。
(実施形態2)
本実施形態は、目的話者音声抽出手段3における抽出処理としてスペクトル・サブトラクション法の代わりに独立成分分析の手法を利用する点に特徴があり、その他の構成並びに動作は実施形態1と共通であるから、共通の構成要素には同一の符号を付して図示並びに説明を省略する。
独立成分分析(ICA:Independent Component Analysis)の目的は、複数の観測される変数を統計的に独立な変数の線形結合として表現することであり、観測変数から計算で求められる独立な変数が独立成分である。例えば、観測変数ベクトルをXとし、この観測変数ベクトルXが未知の独立変数ベクトルSの線形結合で与えられると仮定すると、未知の混合行列をAとして、X=ASの関係が成立する。そして、独立成分分析とは、独立成分及び混合行列に関する知識を一切利用せずに観測データのみから分離行列Wを用いてY=WXで求められる復元データベクトルYの各成分が独立となるような分離行列Wを求める手法であり、理想的には分離行列Wが混合行列Aの逆行列(W=A-1)となればよい。ここで、観測データが二次元の場合の独立成分分析のモデルを図5に示す。
ここで、目的音と雑音を含む音圧M(f,k)と、死点形成手段2より出力される雑音の音圧O(f,k)を成分に持つ観測行列をX(f,k)=[M(f,k) O(f,k)]Tとし、目的音の音圧S(f,k)と騒音源の音圧N(f,k)を成分に持つ行列をS(f,k)=[S(f,k) N(f,k)]Tとし、空間伝達行列をAとすると、
と表される。そして、目的話者音声抽出手段3においては、S(f,k)=Wi+1(f,k)X(f,k)を満足する分離行列Wを適応的に同定することで目的音と雑音を含む音圧O(f,k)から目的音S(f,k)のみを分離して抽出する。この分離行列Wi+1(f)は、
と表される(参考文献7参照)。ここで、diagは対角行列を示し、Φ(Y)はφ(y)=(1+exp(-y))-1で表されるシグモイド関数、若しくはφ(y)=3/4y11+25/4y9+14/4y7+47/4y5+29/4y3などの多項式で近似される非線形ベクトル関数である。例えば、上記式をシグモイド関数によって近似した場合、
となる。
ところで、観測変数の数が独立変数の数よりも多いならば、観測変数は線形従属であり、分離行列は低次元化を行う行列となる。また、変数が互いに独立であれば、それらは無相関であるため、分離行列は変数を無相関化する行列でもある。無相関化とそれに伴う低次元化を同時に行う統計的手法に主成分分析(PCA:Principal Component Analysis)があり、独立成分分析の前処理として主成分分析が利用されることがある。
そこで本実施形態においても、雑音として反射や残響がある場合に、観測行列X(f,k)を低次元化するために独立成分分析の前処理として主成分分析を行うようにしてもよい。なお、変数が互いに独立であれば無相関でもあるため、主成分分析によって無相関化と低次元化を同時に行うことができる。
例えば、音源の数がrである場合に、m次元の観測行列X(f,k)の特異値分解は下記のようになる。
また、各音源スペクトルS1,S2,…,Srとしたとき、
ここで、
という変換を考えると、その分散は
となる。分散行列が対角行列となることから、変換後の変数は互いに無相関となる。また、m次元の観測行列Xをr次元に圧縮することができ、後段の独立成分分析における処理量を低減することが可能となる。
(実施形態3)
実施形態1,2では目的音の音源(例えば、話者)の位置が既知であることを前提として、当該位置に死点を形成することで音源から発せられる目的音のみを集音している。しかしながら、ドアホン子器のように目的音の音源(来訪者)の位置が一意に定まらない場合も多い。一方、雑音(周囲騒音並びに残響音)が非常に少ない環境下においては、既に説明した時空間勾配法による音源定位の技術を用いて音源の位置を推定することができ、音源の位置が一意に定まらない場合においても、音源の位置を推定して当該位置に死点を形成することで音源から発せられる目的音のみを入力することが可能である。
そのために本実施形態では、集音センサ手段1で検出される同相成分M(t)の瞬時パワーPM(t)を死点形成手段2から出力される同相成分O(t)の瞬時パワーPO(t)で除した値(=PM(t)/PO(t))が所定のしきい値δ以上となるときに集音センサ手段1で検出される音圧(同相成分M)、時間微分値Mt、空間微分値Mx,Myに基づいて推定される位置に前記音源位置を変更する音源位置変更手段を備えている。この音源位置変更手段は死点形成手段2とほぼ共通の処理を行うものであるから死点形成手段2で兼用することも可能である。そして、上述の条件が満たされるときに死点形成手段2で音源位置を推定し、推定された音源位置がそのときの死点の位置と異なっていれば、推定された音源位置に死点を変更するのである。
このように本実施形態によれば、音源の位置が変動した場合でも音源位置変更手段によって音源位置が変更されるために音源位置と死点がずれることがなく、その結果、音源が移動する場合においても当該音源から発せられる音のみを入力することができる。
<参考文献一覧>
参考文献1:安藤 繁 「画像の時空間微分算法を用いた速度ベクトル分布計測システム」 計測自動制御学会論文集 22-12,1330/1336(1986)
参考文献2:安藤 繁・篠田 裕之・小川 勝也・光山 訓 「時空間勾配法に基づく3次元音源定位センサシステム」 計測自動制御学会論文集 第29巻第5号,p520~528,1993
参考文献3:N. Ono, T. Arita, Y. Senjo, and S. Ando, “Directivity steering principle for biomimicry silicon microphone”, Proc. Int. Conf. Solid State Sensors, Actuators, and Microsystems (Transducers '05), pp. 792-795, 2005.
参考文献4:小野, 安藤, “音場の計測と指向性制御, 第22回センシングフォーラム資料, pp. 305-310, 2005.
参考文献5:小野, 有田, 千條, 安藤, “時空間勾配計測に基づく指向性制御と音源分離の理論, 日本音響学会2005年春季研究発表会講演論文集, 2-6-13, pp. 607-608, 2005.
参考文献6:S.F.Boll "Suppression of Acoustic Noise in Speech. using Spectral Subtraction" IEEE Trans.on.Acoustics,Speech and Signal Processing Vol.ASSP-27,No.2,pp.113-1,1979
参考文献7:小野 順貴,斎藤 章人,安藤 繁「ヤドリバエを模倣した超小型音源定位センサの理論と実験(第2報)」,第19回センシングフォーラム,pp.379-382,2002
参考文献8:小野 順貴,斎藤 章人,安藤 繁「ヤドリバエを模倣した微分検出型音源定位センサの理論と実験」,聴覚研究会資料,pp.187-192,2002
本発明の実施形態1を示すブロック図である。 同上における時空間勾配法を説明するための説明図である。 同上の説明図である。 同上におけるジンバル構造型のマイクロホンを示し、(a)は振動板の平面図、(b)は断面図である。 本発明の実施形態2における目的話者音声抽出手段の説明図である。
符号の説明
1 集音センサ手段
2 死点形成手段
3 目的話者音声抽出手段

Claims (7)

  1. 音圧の同相成分、当該音圧の時間微分値、当該音圧を二次元直交座標系の各軸方向に微分した空間微分値をそれぞれ検出する集音センサ手段と、集音センサ手段で検出される音圧の同相成分、時間微分値、空間微分値を要素とするベクトルを定義し、音圧の同相成分、時間微分値、空間微分値に対する荷重を要素とする係数ベクトルと前記ベクトルとの荷重和を演算した後、この演算結果に対して低域通過フィルタ処理を行うことにより集音感度が最小となる死点を、集音センサ手段から見た方向及び距離が予め設定されている目的話者の位置に形成する死点形成手段と、集音センサ手段で検出される音圧と死点形成手段から出力される音圧を用いて前記目的話者から発せられる音声の音圧のみを抽出する目的話者音声抽出手段とを備えたことを特徴とする音響入力装置。
  2. 目的話者音声抽出手段は、スペクトル・サブトラクション法によって前記目的話者から発せられる音の音圧を抽出することを特徴とする請求項1記載の音響入力装置。
  3. 目的話者音声抽出手段は、独立成分分析によって前記目的話者から発せられる音の音圧を抽出することを特徴とする請求項1記載の音響入力装置。
  4. 目的話者音声抽出手段は、独立成分分析を行う前に主成分分析を行うことを特徴とする請求項3記載の音響入力装置。
  5. 集音センサ手段は、前記二次元直交座標系の各軸と直交する向きに複数が配置されたマイクロホンを具備することを特徴とする請求項1〜4の何れか1項に記載の音響入力装置。
  6. 集音センサ手段は、振動板が中央の1点で支持された2軸直交型のジンバル構造を有するマイクロホンを具備することを特徴とする請求項1〜4の何れか1項に記載の音響入力装置。
  7. 前記目的話者の位置予め設定されている位置から別の位置へ変更する音源位置変更手段を備え、音源位置変更手段は、集音センサ手段で検出される音圧の瞬時パワーを死点形成手段から出力される音圧の瞬時パワーで除した値が所定のしきい値以上となるときに集音センサ手段で検出される音圧、時間微分値、空間微分値に基づいて推定される位置に前記目的話者の位置を変更することを特徴とする請求項1〜6の何れか1項に記載の音響入力装置。
JP2007149570A 2007-06-05 2007-06-05 音響入力装置 Expired - Fee Related JP4894638B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007149570A JP4894638B2 (ja) 2007-06-05 2007-06-05 音響入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007149570A JP4894638B2 (ja) 2007-06-05 2007-06-05 音響入力装置

Publications (2)

Publication Number Publication Date
JP2008304555A JP2008304555A (ja) 2008-12-18
JP4894638B2 true JP4894638B2 (ja) 2012-03-14

Family

ID=40233363

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007149570A Expired - Fee Related JP4894638B2 (ja) 2007-06-05 2007-06-05 音響入力装置

Country Status (1)

Country Link
JP (1) JP4894638B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5060438B2 (ja) * 2008-09-10 2012-10-31 パナソニック株式会社 収音装置
JP5593547B2 (ja) * 2010-02-26 2014-09-24 日産自動車株式会社 波動源位置演算方法及び波動源位置演算装置
CN105989852A (zh) * 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271191A (ja) * 2002-03-15 2003-09-25 Toshiba Corp 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム
JP2006058395A (ja) * 2004-08-17 2006-03-02 Spectra:Kk 音響信号入出力装置
WO2006131959A1 (ja) * 2005-06-06 2006-12-14 Saga University 信号分離装置

Also Published As

Publication number Publication date
JP2008304555A (ja) 2008-12-18

Similar Documents

Publication Publication Date Title
Furukawa et al. Noise correlation matrix estimation for improving sound source localization by multirotor UAV
US8155331B2 (en) Sound source tracking system, method and robot
KR100754385B1 (ko) 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법
KR101413229B1 (ko) 방향 추정 장치 및 방법
Schauerte et al. Multimodal saliency-based attention for object-based scene analysis
Dagamseh et al. Imaging dipole flow sources using an artificial lateral-line system made of biomimetic hair flow sensors
Jiang et al. Real-time vibration source tracking using high-speed vision
EP3227704B1 (en) Method for tracking a target acoustic source
CN113692750A (zh) 使用声音场景分析和波束形成的声传递函数个性化
JP2014137226A (ja) 移動体、音響源マップ作成システムおよび音響源マップ作成方法
Gala et al. Realtime active sound source localization for unmanned ground robots using a self-rotational bi-microphone array
CN113539288A (zh) 一种语音信号去噪方法及装置
JP2023508063A (ja) オーディオ信号処理方法、装置、機器及びコンピュータプログラム
CN112824925A (zh) 使用两个麦克风进行轻型全360度音频源位置检测
JP4894638B2 (ja) 音響入力装置
GB2604227A (en) Sensing via signal to signal translation
Pan et al. Cognitive acoustic analytics service for Internet of Things
Hosseini et al. Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function
Murase et al. Multiple moving speaker tracking by microphone array on mobile robot.
CN114690121A (zh) 动态时空波束形成
Boztas Sound source localization for auditory perception of a humanoid robot using deep neural networks
JP2009100372A (ja) 通話装置
JP5060438B2 (ja) 収音装置
Brian Auditory occupancy grids with a mobile robot
WO2020031594A1 (ja) 音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100217

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111129

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111212

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150106

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees