JP4894638B2

JP4894638B2 - 音響入力装置

Info

Publication number: JP4894638B2
Application number: JP2007149570A
Authority: JP
Inventors: 実福島; 香菜川東
Original assignee: Panasonic Corp; Matsushita Electric Works Ltd
Current assignee: Panasonic Corp; Panasonic Electric Works Co Ltd
Priority date: 2007-06-05
Filing date: 2007-06-05
Publication date: 2012-03-14
Anticipated expiration: 2027-06-05
Also published as: JP2008304555A

Description

本発明は、音源から発せられる音を入力する音響入力装置に関するものである。

周囲騒音や残響の存在する環境下で特定の音源から発せられる音、例えば、人の発する音声（話者音声）のみを入力する音響入力装置が従来より種々提供されている。例えば、特許文献１に記載されている従来例は、２つのマイクロホンと、各マイクロホンで集音した音響信号毎に周波数分析して２つのチャンネル別の周波数成分を得るとともに、各チャネルの周波数成分について適応ビームフォーマ処理を行うことにより、目的音（話者音声）の方向以外の感度を低くして周囲雑音等が抑圧された音響信号を取得し、同様に周囲雑音等の方向以外の感度を低くして目的音が抑圧された音響信号を取得し、適応ビームフォーマ処理で用いられるフィルタ係数から目的音方向と周囲雑音方向を推定して逐次修正し、さらに、スペクトル・サブトラクション処理によって前者の音響信号と後者の音響信号から周囲雑音成分を除去することによって目的音（話者音声）のみを入力するものである。
特開２０００−４７６９９号公報

しかしながら、上記従来例においては、例えばマイクロホンからみて話者と雑音源が同じ方向に存在する場合には目的音と目的音以外の雑音とを分離することができないという問題がある。

本発明は上記事情に鑑みて為されたものであり、その目的は、所望の音源から発せられる音のみを入力することができる音響入力装置を提供することにある。

請求項１の発明は、上記目的を達成するために、音圧の同相成分、当該音圧の時間微分値、当該音圧を二次元直交座標系の各軸方向に微分した空間微分値をそれぞれ検出する集音センサ手段と、集音センサ手段で検出される音圧の同相成分、時間微分値、空間微分値を要素とするベクトルを定義し、音圧の同相成分、時間微分値、空間微分値に対する荷重を要素とする係数ベクトルと前記ベクトルとの荷重和を演算した後、この演算結果に対して低域通過フィルタ処理を行うことにより集音感度が最小となる死点を、集音センサ手段から見た方向及び距離が予め設定されている目的話者の位置に形成する死点形成手段と、集音センサ手段で検出される音圧と死点形成手段から出力される音圧を用いて前記目的話者から発せられる音声の音圧のみを抽出する目的話者音声抽出手段とを備えたことを特徴とする。

請求項１の発明によれば、死点形成手段から出力される音圧には死点に存在する音源から発せられる音以外の音、すなわち、雑音の音圧のみが含まれ、一方、集音センサ手段で検出される音圧には死点に存在する音源から発せられる音の音圧と雑音の音圧の双方が含まれており、目的話者音声抽出手段によって死点に存在する音源から発せられる音の音圧のみを抽出するので、雑音が死点の方向から到来する場合においても死点に存在する音源から発せられる音のみを入力することができる。

請求項２の発明は、請求項１の発明において、目的話者音声抽出手段は、スペクトル・サブトラクション法によって前記目的話者から発せられる音の音圧を抽出することを特徴とする。

請求項３の発明は、請求項１の発明において、目的話者音声抽出手段は、独立成分分析によって前記目的話者から発せられる音の音圧を抽出することを特徴とする。

請求項４の発明は、請求項３の発明において、目的話者音声抽出手段は、独立成分分析を行う前に主成分分析を行うことを特徴とする。

請求項５の発明は、請求項１〜４の何れか１項の発明において、集音センサ手段は、前記二次元直交座標系の各軸と直交する向きに複数が配置されたマイクロホンを具備することを特徴とする。

請求項６の発明は、請求項１〜４の何れか１項の発明において、集音センサ手段は、振動板が中央の１点で支持された２軸直交型のジンバル構造を有するマイクロホンを具備することを特徴とする。

請求項７の発明は、請求項１〜６の何れか１項の発明において、前記目的話者の位置を予め設定されている位置から別の位置へ変更する音源位置変更手段を備え、音源位置変更手段は、集音センサ手段で検出される音圧の瞬時パワーを死点形成手段から出力される音圧の瞬時パワーで除した値が所定のしきい値以上となるときに集音センサ手段で検出される音圧、時間微分値、空間微分値に基づいて推定される位置に前記目的話者の位置を変更することを特徴とする。

請求項７の発明によれば、音源の位置が変動した場合でも音源位置変更手段によって音源位置が変更されるために音源位置と死点がずれることがなく、その結果、音源が移動する場合においても当該音源から発せられる音のみを入力することができる。

本発明によれば、雑音が死点の方向から到来する場合においても死点に存在する音源から発せられる音のみを入力することができる。

以下、図面を参照して本発明の実施形態を詳細に説明する。尚、実施形態の説明において参照する文献については、参考文献１，参考文献２，…のように表記し、それぞれの参考文献１，２，…の一覧を末尾に掲載する。

（実施形態１）
本実施形態の音響入力装置は、図１に示すように音圧、当該音圧の時間微分値、当該音圧を二次元直交座標系の各軸方向に微分した空間微分値をそれぞれ検出する集音センサ手段１と、集音センサ手段１で検出される音圧、時間微分値、空間微分値に対して所定の係数ベクトルとの荷重和及び低域通過フィルタ処理を行うことにより集音感度が最小となる死点を予め設定した目的話者の位置に形成する死点形成手段２と、集音センサ手段１で検出される音圧と死点形成手段２から出力される音圧を用いて前記死点に存在する音源（話者）から発せられる音の音圧のみを抽出する目的話者音声抽出手段３とを備えている。

集音センサ手段１は、図１に示すように三次元直交座標系のｘ軸並びにｙ軸と直交する向き（ｚ軸の正の向き）に複数（図示例では４本）が配置された無指向性のマイクロホン１０Ａ，１０Ｂ，１０Ｃ，１０Ｄと、マイクロホン１０Ａ〜１０Ｄの出力信号ｆ_A(t)，ｆ_B(t)，ｆ_C(t)，ｆ_D(t)に対して時空間勾配測定処理を行う時空間勾配測定処理部１１とを具備する。時空間勾配測定処理部１１では、各マイクロホン１０Ａ〜１０Ｄの出力信号ｆ_A(t)，ｆ_B(t)，ｆ_C(t)，ｆ_D(t)から音圧の同相成分Ｍ(t)、時間微分値（時間勾配成分）Ｍ_t(t)、ｘ軸方向空間微分値（ｘ軸方向空間勾配成分）Ｍ_x(t)、ｙ軸方向空間微分値（ｙ軸方向空間勾配成分）Ｍ_y(t)をそれぞれ下式より求める。

Ｍ(t)=ｆ_A(t)+ｆ_B(t)+ｆ_C(t)+ｆ_D(t)
Ｍ_t(t)=dｆ_A(t)/dt+dｆ_B(t)/dt+dｆ_C(t)/dt+dｆ_D(t)/dt
Ｍ_x(t)=ｆ_A(t)+ｆ_B(t)−ｆ_C(t)−ｆ_D(t)
Ｍ_y(t)=ｆ_A(t)−ｆ_B(t)+ｆ_C(t)−ｆ_D(t)
死点形成手段２は、集音センサ手段１から出力される同相成分Ｍ(t)、時間微分値Ｍ_t(t)、ｘ軸方向空間微分値Ｍ_x(t)、ｙ軸方向空間微分値Ｍ_y(t)を用いて、時空間勾配法を応用することで死点を形成するものである。ここで、死点形成手段２による死点形成処理を説明するに当たって、初めに時空間勾配法について詳しく説明する。

時空間勾配法とは、そもそも動画像中の見かけの速度場であるオプティカルフローを決定する手法の一つとして提案されたものである（参考文献１参照）。動画像中の濃淡パターンの特徴を表す画像関数ｆ(x,y,t)が、運動に際し不変に保たれるとの仮定（ｆ(x,y,t)=ｆ(x+δx,y+δy,t+δt)）より、ある点(x,y)におけるオプティカルフローの速度と、動画像の濃淡分布の空間勾配および時間勾配を関係付ける式をもとにした解析手法である。以下、この手法について詳しく解説する。

時刻t+δtにおいて、座標(x+δx,y+δy)での濃淡パターンｆ(x+δx,y+δy,t+δt)を(x,y,t)のまわりでテーラー展開すると、
ｆ(x+δx,y+δy,t+δt)=ｆ(x,y,t)+ｆ_xδx+ｆ_yδy+ｆ_tδt+Ｏ(δx+δy+δt） …（１）
となる。ここで、Ｏ(δx+δy+δt）はδx,δy,δtの２次以上の項であるが、微小量であるために以降では無視する。この時、時刻ｔにおいて座標(x,y)にある濃淡パターンが、δt時刻経過した後に座標(x+δx,y+δy)にその濃度値分布を一定に保ったまま移動した時、その対応付けから次式が成り立つ。

ｆ(x,y,t)=ｆ(x+δx,y+δy,t+δt)
=ｆ(x,y,t)+ｆ_xδx+ｆ_yδy+ｆ_tδt …（２）
ｆ_xδx+ｆ_yδy+ｆ_tδt=０ …（３）
式（３）の両辺をδtで割ると、
ｆ_xδx/δt+ｆ_yδy/δt+ｆ_t=０ …（４）
を得る。ここで、δtが無限小であると仮定して、δt→０とすると次式を得る。

ｆ_xdx/dt+ｆ_ydy/dt+ｆ_t=０ …（５）
オプティカルフロー速度v=(u，v)=(dx/dt，dy/dt)を用いると、式（５）は、
uｆ_x+vｆ_y+ｆ_t=０ …（６）
となり、式（６）は動画像の濃淡値の時間、空間に関する勾配とオプティカルフロー速度vとを関係付ける式である。

次に、「ある着目点の近傍領域Γにおいて速度場はほぼ一定であると近似できる」という仮定を行う。この時、領域Γ内のいたるところで式（６）が成立しなければならない。そこで、式（６）の左辺の２乗積分（下記の式（７））を用いて評価し、最小自乗法によって速度場を求める。

式（７）をu，vに関して微分し、０とおくと、
uS_xx+vS_xy+S_xt=0，uS_xy+vS_yy+S_yt=0 …（８）

が得られる。式（８）を解くと速度ベクトル(u，v)は
u=(S_ytS_xy-S_xtS_yy)/(S_xxS_yy-S² _xy)，v=(S_xtS_xy-S_ytS_xx)/(S_xxS_yy-S² _xy) …（１０）
のように求められる。

次に、上述の動画像中のオプティカルフロー速度を求める時空間勾配法を応用して、音源が空間中に作る音場のある１点における音圧とその時空間勾配の間に成り立つ線形関係に基づいて、音源位置を定位する手法について説明する（参考文献２参照）。

図２に示すように観測点を原点とする三次元直交座標系を取り、その前方（z>0）に互いに無相関な点音源が複数個あるとする。音速をc、i番目の音源の座標を(x_i,y_i,z_i)、音源と観測点との距離をR_i=(x² _i+y² _i+z² _i)^1/2、音源音をgⁱ(t)、各音源が観測点に形成する音場をfⁱ(t)とすると、観測点に形成される合成音場ｆはこれらからの球面波の和として、

と表される。これを偏微分することにより、観測点での音場のx,y微分、時間微分は下記の式(12),(13),(14)で表される。

ここで、
ξⁱ _x=x_i/R² _i,ξⁱ _y=y_i/R² _i …(15)
は強度勾配と呼ばれ、
τⁱ _x=x_i/cR_i,τⁱ _y=y_i/cR_i …(16)
はx,y方向時間勾配と呼ばれる。

次に簡単のため、１音源の場合の音源定位手法について述べる。１音源の場合、式(１２)，（１３）は
f_x=-ξ_xf-τ_xf_t，f_y=-ξ_yf-τ_yf_t …(17)
となり、式（１）と同様に最小自乗法を適用してτ_x,τ_y,ξ_x,ξ_yを求める。短時間の時間窓Γにおいて評価関数を
J=∫_Γ｛(f_x+ξ_xf+τ_xf_t)²+(f_y+ξ_yf+τ_yf_t)²｝dt …(18)
とする。式(18)をτ_x,τ_y,ξ_x,ξ_yに関して偏微分し、０とおくと下式が得られる。

∂J/∂τ_x=∫_Γ2(f_x+ξ_xf+τ_xf_t)・f_tdt=0，∂J/∂τ_y=∫_Γ2(f_y+ξ_yf+τ_yf_t)・f_tdt=0 …(19)
∂J/∂ξ_x=∫_Γ2(f_x+ξ_xf+τ_xf_t)・f_tdt=0，∂J/∂ξ_y=∫_Γ2(f_y+ξ_yf+τ_yf_t)・f_tdt=0 …(20)
ここで、観測窓Γから推定される共分散行列を

とおくと、式(19)，(20)は
S_xt+ξ_xS_t+τ_xS_tt=0,S_yt+ξ_yS_t+τ_yS_tt=0 …(22)
S_x+ξ_xS+τ_xS_t=0,S_y+ξ_yS+τ_yS_t=0 …(23)
と書き直される。式(22)，(23)を解くことにより、τ_x,τ_y,ξ_x,ξ_yが次式のように求められる。

τ_x=(S_xS_t-SS_xt)/(SS_tt-S² _t)，τ_y=(S_yS_t-SS_yt)/(SS_tt-S² _t) …（24）
ξ_x=(S_xtS_t-S_xS_tt)/(SS_tt-S² _t)，ξ_y=(S_ytS_t-S_yS_tt)/(SS_tt-S² _t) …（25）
音源の方位角(x/R,y/R)=(cτ_x,cτ_y)については式(21),(24)から求められる。音源までの距離Ｒについては、式(15)，(16)から最小自乗法を適用することにより求められる。評価関数を

とし、これを1/Rで偏微分して0とおくと

となる。これを解くと
R=c(τ² _x+τ² _y)/(τ_xξ_x+τ_yξ_y) …(28)
のように音源までの距離が求められる。

次に、音場の時空間勾配を利用して、指向性制御を行う手法について解説する(参考文献３〜５参照)。今、１音源の場合を仮定すると、観測点における音圧信号ｆ(t)のx,y方向の空間勾配は式(12)，(13)より

となる。この式を音源から観測点に向かうベクトルｒ=(x,y,z)を用いて書き直すと

となる。次にｆ(t),ｆ_t(t),∇ｆ(t)が観測される時、これらの荷重和は

と表される。ただし、u,u_tは実数定数、w=(w_x,w_y,0)は観測点を原点とし、任意の方向を向いている単位ベクトルである。式(30)を式(31)に代入すると、

となる。よって時空間勾配の荷重和は、ｆ(t),ｆ_t(t)に対してそれぞれ異なる指向特性Ｈ(ｒ)，Ｈ_t(ｒ)をもつフィルタの和として表される。Ｈ(ｒ)=αのとき、式(33)は

と変形できる。ここで、２つのベクトルａ，ｂの成す角をθとすると以下の公式が成り立つ。

式(38)の公式を用いると式(36)は次式のように書き換えられる。

ここで、｜w｜=１より、

という球の方程式で表される。u+α=0の場合には、式(35)は
ｒ・w=０ …(42)
となる。また、Ｈ_t(r)=αの時には式(34)は

となるので、ベクトルｒとｗの成す角をθ(r)とすると｜w｜=１より

となる。よって、式(43)は

となる。

式(41)、(42)、(45)より、Ｈ(r)，Ｈ_t(r)について次のような性質を得る。
１）２つの指向特性Ｈ(r)，Ｈ_t(r)はｗを軸とする回転対称体をもつ
２）Ｈ(r)=０の時、ｒの分布は直径1/u(u≠0)の球面または平面(u=0)を成す
３）Ｈ_t(r)=０の時、ｒの分布は頂角2cu_t(u_t≠0）の円錐面または平面(u_t=0)を成す
４）Ｈ(r)=０とＨ_t(r)=０の時のｒの分布の交わりは円または平面を成す
式(32)を周波数領域に変換すると、

を得る。よって音源ｒからs(t)への周波数応答Ｔ(r,w)は、
Ｔ(r,w)=H(r)+jωH_t(r) …(47)
となり、Ｈ(r)，Ｈ_t(r)が実数であればＴ(r,w)=0となる場合には
Ｈ(r)=0，Ｈ_t(r)=0 …(48)
となる。故に、式(47)からＳ(ω)=0となる零点分布は、周波数ωに依存せず、音源位置ｒのみに依存することが分かる。したがって、観測点における音圧の時間勾配とx,y方向の空間勾配が得られる時に、零感度領域（死点）を形成するには、ある瞬間においてｆ，ｆ_t，ｆ_x，ｆ_yの荷重和を取り、補償フィルタ処理（低域通過フィルタ処理）を施すだけでよい。

而して、本実施形態における死点形成手段２においては、集音センサ手段１から出力される同相成分Ｍ(t)、時間微分値Ｍ_t(t)、ｘ軸方向空間微分値Ｍ_x(t)、ｙ軸方向空間微分値Ｍ_y(t)をそれぞれ上述のｆ，ｆ_t，ｆ_x，ｆ_yに置き換え、これらの値を要素とするベクトルＭ＝(Ｍ(t) Ｍ_t(t) Ｍ_x(t) Ｍ_y(t))^Tを定義し、これらに対する荷重を要素とする係数ベクトルＷ＝(ＷＷ_t Ｗ_x Ｗ_y)^Tとの荷重和を演算した後、低域通過フィルタ処理を施すことによって、予め決められた任意位置に死点を形成する。具体的には、上述の指向特性Ｈ(r)，Ｈ_t(r)をそれぞれＨ₁(r_i)，Ｈ₂(r_i)と置き換えて下記のように定義し（但し、ｒ_iは音源ｉの位置ベクトル、ｎ_ix，ｎ_iyはそれぞれｒ_i/|ｒ_i|のｘ成分とy成分である。）、

さらに、図１において(p+jωq)^-1で表した低域通過フィルタ２０のフィルタ係数p=W^HH₁(r_i)，q=W^HH₂(r_i)が何れもゼロとなるような係数ベクトルＷを選択することで音源ｉの位置ｒ_iに、周波数に依存しない死点が形成できる。そして、死点形成手段２の出力Ｏ(t)には死点に存在する音源から発せられる音の音圧が含まれない、言い換えると、死点に居る話者の音声を除く周囲騒音や残響音（以下、雑音という。）のみが含まれていることになる。

目的話者音声抽出手段３は、集音センサ手段１から出力される音圧（目的音＜死点に存在する話者の音声＞と雑音を含む音圧）Ｍ(t)と、死点形成手段２から出力される雑音成分Ｏ(t)とから、従来周知のスペクトル・サブトラクション法によって目的音Ｓ(t)を抽出する処理を行う（参考文献６参照）。まず、目的話者音声抽出手段３では同相成分Ｍ(t)及び雑音成分Ｏ(t)をフレーム分割部３０にて単位時間（フレーム時間）毎に分割し、分割された音圧Ｍ(t,k)及び雑音成分Ｏ(t,k)を高速フーリエ変換部３１で時間領域から周波数領域に変換する（但し、ｋはフレーム番号を示す）。そして、雑音成分Ｏ(f,k)の平均振幅μ(=E{|O(f,k|})を雑音平均振幅算出部３２で算出し、振幅算出部３３で算出した音圧Ｍ(f,k)の振幅値｜Ｍ(f,k)｜から雑音成分Ｏ(f,k)の平均振幅μを減算するとともに、減算した値（｜Ｍ(f,k)｜−μ）に、位相算出部３４で算出した音圧Ｍ(f,k)の位相（=exp{j∠M(f,k)}）を乗算することで雑音が含まれていない出力Ｓ(f,k)=(|M(f,k)|−μ)・exp{j∠M(f,k)}を取り出し、この出力Ｓ(f,k)を高速フーリエ逆変換して周波数領域から時間領域に戻すことで雑音が含まれない目的音Ｓ(t)のみを得ることができる。

このように本実施形態の音響入力装置によれば、死点形成手段２から出力される音圧（同相成分）Ｏ(f,k)には死点に存在する音源から発せられる音以外の音、すなわち、雑音の音圧のみが含まれ、一方、集音センサ手段１で検出される音圧（同相成分）Ｍ(f,k)には死点に存在する音源から発せられる音の音圧と雑音の音圧の双方が含まれており、目的話者音声抽出手段３によって死点に存在する音源から発せられる音の音圧Ｓ(f,k)のみを抽出するので、雑音が死点の方向から到来する場合においても死点に存在する音源から発せられる音のみを入力することができる。図３は目的音と雑音を含む音圧Ｍ(f)、目的音を含まない雑音のみの音圧Ｏ(f)、目的話者音声抽出手段３で抽出される目的音の音圧Ｓ(f)の周波数特性の一例を示しており、音圧Ｓ(f)に含まれる雑音成分が十分に抑圧されていることが判る。

ここで、本実施形態の音響入力装置をインターホン装置（ドアホン子器）に搭載すれば、周囲騒音の大きい環境下においても話者（来訪者）の音声のみを抽出して通話することができる。

ところで、本実施形態における集音センサ手段１では４本のマイクロホン１０Ａ〜１０Ｄをｘｙ平面上に配置しているが、図４に示すように平面視円形の振動板１３が中央の１点（中心）で支持された２軸直交型のジンバル構造を有するマイクロホン１２をマイクロホン１０Ａ〜１０Ｄの代わりに用いても構わない。振動板１３は全体が薄い円盤状であって、その中央部分における同心円上に二重の溝１４，１５が形成され、内側の溝１４を仕切る一対のビーム１４ａ，１４ａと、外側の溝１５を仕切る一対のビーム１５ａ，１５ａとを有し、支持棒１６に支持された点（中心）を支点として各ビーム１４ａ，１５ａのねじれによってｘ軸及びｙ軸の回りに回転可能となっている（参考文献７，８参照）。したがって、振動板１３上に４つの観測点Ａ，Ｂ，Ｃ，Ｄを設定し、各観測点における変位量をマイクロホン１０Ａ〜１０Ｄの出力に置き換えれば、同相成分Ｍ(t)、時間微分値Ｍ_t(t)、ｘ軸方向空間微分値Ｍ_x(t)、ｙ軸方向空間微分値Ｍ_y(t)を検出することが可能である。

（実施形態２）
本実施形態は、目的話者音声抽出手段３における抽出処理としてスペクトル・サブトラクション法の代わりに独立成分分析の手法を利用する点に特徴があり、その他の構成並びに動作は実施形態１と共通であるから、共通の構成要素には同一の符号を付して図示並びに説明を省略する。

独立成分分析(ICA:Independent Component Analysis)の目的は、複数の観測される変数を統計的に独立な変数の線形結合として表現することであり、観測変数から計算で求められる独立な変数が独立成分である。例えば、観測変数ベクトルをＸとし、この観測変数ベクトルＸが未知の独立変数ベクトルＳの線形結合で与えられると仮定すると、未知の混合行列をＡとして、Ｘ＝ＡＳの関係が成立する。そして、独立成分分析とは、独立成分及び混合行列に関する知識を一切利用せずに観測データのみから分離行列Ｗを用いてＹ＝ＷＸで求められる復元データベクトルＹの各成分が独立となるような分離行列Ｗを求める手法であり、理想的には分離行列Ｗが混合行列Ａの逆行列（Ｗ＝Ａ^-1）となればよい。ここで、観測データが二次元の場合の独立成分分析のモデルを図５に示す。

ここで、目的音と雑音を含む音圧Ｍ(f,k)と、死点形成手段２より出力される雑音の音圧Ｏ(f,k)を成分に持つ観測行列をＸ(f,k)=[Ｍ(f,k) Ｏ(f,k)]^Tとし、目的音の音圧Ｓ(f,k)と騒音源の音圧Ｎ(f,k)を成分に持つ行列をＳ(f,k)=[Ｓ(f,k) Ｎ(f,k)]^Tとし、空間伝達行列をＡとすると、

と表される。そして、目的話者音声抽出手段３においては、Ｓ(f,k)＝Ｗ_i+1(f,k)Ｘ(f,k)を満足する分離行列Ｗを適応的に同定することで目的音と雑音を含む音圧Ｏ(f,k)から目的音Ｓ(f,k)のみを分離して抽出する。この分離行列Ｗ_i+1(f)は、

と表される（参考文献７参照）。ここで、diagは対角行列を示し、Φ(Y)はφ(y)=(1+exp(-y))^-1で表されるシグモイド関数、若しくはφ(y)=3/4y¹¹+25/4y⁹+14/4y⁷+47/4y⁵+29/4y³などの多項式で近似される非線形ベクトル関数である。例えば、上記式をシグモイド関数によって近似した場合、

となる。

ところで、観測変数の数が独立変数の数よりも多いならば、観測変数は線形従属であり、分離行列は低次元化を行う行列となる。また、変数が互いに独立であれば、それらは無相関であるため、分離行列は変数を無相関化する行列でもある。無相関化とそれに伴う低次元化を同時に行う統計的手法に主成分分析(PCA:Principal Component Analysis)があり、独立成分分析の前処理として主成分分析が利用されることがある。

そこで本実施形態においても、雑音として反射や残響がある場合に、観測行列Ｘ(f,k)を低次元化するために独立成分分析の前処理として主成分分析を行うようにしてもよい。なお、変数が互いに独立であれば無相関でもあるため、主成分分析によって無相関化と低次元化を同時に行うことができる。

例えば、音源の数がｒである場合に、ｍ次元の観測行列Ｘ(f,k)の特異値分解は下記のようになる。

また、各音源スペクトルS₁,S₂,…,S_rとしたとき、

ここで、

という変換を考えると、その分散は

となる。分散行列が対角行列となることから、変換後の変数は互いに無相関となる。また、ｍ次元の観測行列Ｘをｒ次元に圧縮することができ、後段の独立成分分析における処理量を低減することが可能となる。

（実施形態３）
実施形態１，２では目的音の音源（例えば、話者）の位置が既知であることを前提として、当該位置に死点を形成することで音源から発せられる目的音のみを集音している。しかしながら、ドアホン子器のように目的音の音源（来訪者）の位置が一意に定まらない場合も多い。一方、雑音（周囲騒音並びに残響音）が非常に少ない環境下においては、既に説明した時空間勾配法による音源定位の技術を用いて音源の位置を推定することができ、音源の位置が一意に定まらない場合においても、音源の位置を推定して当該位置に死点を形成することで音源から発せられる目的音のみを入力することが可能である。

そのために本実施形態では、集音センサ手段１で検出される同相成分Ｍ(t)の瞬時パワーＰ_M(t)を死点形成手段２から出力される同相成分Ｏ(t)の瞬時パワーＰ_O(t)で除した値（＝Ｐ_M(t)／Ｐ_O(t)）が所定のしきい値δ以上となるときに集音センサ手段１で検出される音圧（同相成分Ｍ）、時間微分値Ｍ_t、空間微分値Ｍ_x,Ｍ_yに基づいて推定される位置に前記音源位置を変更する音源位置変更手段を備えている。この音源位置変更手段は死点形成手段２とほぼ共通の処理を行うものであるから死点形成手段２で兼用することも可能である。そして、上述の条件が満たされるときに死点形成手段２で音源位置を推定し、推定された音源位置がそのときの死点の位置と異なっていれば、推定された音源位置に死点を変更するのである。

このように本実施形態によれば、音源の位置が変動した場合でも音源位置変更手段によって音源位置が変更されるために音源位置と死点がずれることがなく、その結果、音源が移動する場合においても当該音源から発せられる音のみを入力することができる。
＜参考文献一覧＞
参考文献１：安藤繁「画像の時空間微分算法を用いた速度ベクトル分布計測システム」計測自動制御学会論文集 22-12，1330/1336(1986)
参考文献２：安藤繁・篠田裕之・小川勝也・光山訓「時空間勾配法に基づく３次元音源定位センサシステム」計測自動制御学会論文集第２９巻第５号，p520~528，1993
参考文献３：N. Ono, T. Arita, Y. Senjo, and S. Ando, “Directivity steering principle for biomimicry silicon microphone”, Proc. Int. Conf. Solid State Sensors, Actuators, and Microsystems (Transducers '05), pp. 792-795, 2005.
参考文献４：小野, 安藤, “音場の計測と指向性制御, 第22回センシングフォーラム資料, pp. 305-310, 2005.
参考文献５：小野, 有田, 千條, 安藤, “時空間勾配計測に基づく指向性制御と音源分離の理論, 日本音響学会2005年春季研究発表会講演論文集, 2-6-13, pp. 607-608, 2005.
参考文献６：S.F.Boll "Suppression of Acoustic Noise in Speech. using Spectral Subtraction" IEEE Trans.on.Acoustics,Speech and Signal Processing Vol.ASSP-27,No.2,pp.113-1,1979
参考文献７：小野順貴,斎藤章人,安藤繁「ヤドリバエを模倣した超小型音源定位センサの理論と実験（第２報）」,第１９回センシングフォーラム,pp.379-382,2002
参考文献８：小野順貴,斎藤章人,安藤繁「ヤドリバエを模倣した微分検出型音源定位センサの理論と実験」,聴覚研究会資料,pp.187-192,2002

本発明の実施形態１を示すブロック図である。同上における時空間勾配法を説明するための説明図である。同上の説明図である。同上におけるジンバル構造型のマイクロホンを示し、（ａ）は振動板の平面図、（ｂ）は断面図である。本発明の実施形態２における目的話者音声抽出手段の説明図である。

符号の説明

１集音センサ手段
２死点形成手段
３目的話者音声抽出手段

Claims

音圧の同相成分、当該音圧の時間微分値、当該音圧を二次元直交座標系の各軸方向に微分した空間微分値をそれぞれ検出する集音センサ手段と、集音センサ手段で検出される音圧の同相成分、時間微分値、空間微分値を要素とするベクトルを定義し、音圧の同相成分、時間微分値、空間微分値に対する荷重を要素とする係数ベクトルと前記ベクトルとの荷重和を演算した後、この演算結果に対して低域通過フィルタ処理を行うことにより集音感度が最小となる死点を、集音センサ手段から見た方向及び距離が予め設定されている目的話者の位置に形成する死点形成手段と、集音センサ手段で検出される音圧と死点形成手段から出力される音圧を用いて前記目的話者から発せられる音声の音圧のみを抽出する目的話者音声抽出手段とを備えたことを特徴とする音響入力装置。
目的話者音声抽出手段は、スペクトル・サブトラクション法によって前記目的話者から発せられる音の音圧を抽出することを特徴とする請求項１記載の音響入力装置。
目的話者音声抽出手段は、独立成分分析によって前記目的話者から発せられる音の音圧を抽出することを特徴とする請求項１記載の音響入力装置。
目的話者音声抽出手段は、独立成分分析を行う前に主成分分析を行うことを特徴とする請求項３記載の音響入力装置。
集音センサ手段は、前記二次元直交座標系の各軸と直交する向きに複数が配置されたマイクロホンを具備することを特徴とする請求項１〜４の何れか１項に記載の音響入力装置。
集音センサ手段は、振動板が中央の１点で支持された２軸直交型のジンバル構造を有するマイクロホンを具備することを特徴とする請求項１〜４の何れか１項に記載の音響入力装置。
前記目的話者の位置を予め設定されている位置から別の位置へ変更する音源位置変更手段を備え、音源位置変更手段は、集音センサ手段で検出される音圧の瞬時パワーを死点形成手段から出力される音圧の瞬時パワーで除した値が所定のしきい値以上となるときに集音センサ手段で検出される音圧、時間微分値、空間微分値に基づいて推定される位置に前記目的話者の位置を変更することを特徴とする請求項１〜６の何れか１項に記載の音響入力装置。