JP5815489B2

JP5815489B2 - 音源別音声強調装置、方法、プログラム

Info

Publication number: JP5815489B2
Application number: JP2012187776A
Authority: JP
Inventors: 健太丹羽; 古家　賢一; 賢一古家; 羽田　陽一; 陽一羽田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-08-28
Filing date: 2012-08-28
Publication date: 2015-11-17
Anticipated expiration: 2032-08-28
Also published as: JP2014045440A

Description

本発明は、音源別に音声を強調可能な技術（音源別音声強調技術）に関し、より詳しくは、伝達特性の測定等の事前調整がなくても音源別に音声を強調できる技術に関する。

マイクロホンアレーを用いた従来の音声強調技術を２つ例示する。

[従来法１]SN比最大化法を用いた音声強調技術
伝達特性の測定等の事前調整なしで、つまりブラインドで、マイクロホンアレーを用いて音声強調を実現する方法として非特許文献１を挙げることができる。

この技術の手順を概説する。
（１）収音信号から、各音源に対応する空間相関行列を生成する。
Ｍ個のマイクロホンで受音したアナログ信号の周波数領域表現をＸ^→(f,k)＝[Ｘ₁(f,k),…,Ｘ_M(f,k)]^Tとする。f, k, Tは、それぞれ周波数のインデックス、フレーム時間のインデックス、転置の演算子を表している。例えば、多人数が参加する会議などでは、或る時刻には特定話者のみが話していることが多い。これを音声の時間スパース性と呼ぶ。音源位置推定法（例えばGCC-PHAT）で推定した結果を基に、各音源（各発話者）が単独で音声を発している時間帯を推定する。なお、GCC-PHATについては、非特許文献２を参照されたい。ここで、ｉ番目の音源が単独で音声を発している時間フレームのインデックス群をτ_i(k)と表すとする。τ_i(k)に含まれるフレーム時間での収音信号の共分散行列を計算して、ｉ番目の音源に対応する空間相関行列をＲ_i(f)とする。E{・}, Hはそれぞれ期待値、共役転置の演算子を表している。

（２）SN比最大化法を用いてビームフォーミングのフィルタを設計する。
ｉ番目の音源に対応する空間相関行列Ｒ_i(f)とそれ以外の音源（雑音源）に対応する空間相関行列Ｒ_N(f)を用意する。音場にＩ個の音源が存在する場合、Ｒ_N(f)は、例えば式（２）のように計算することができる。

そして、ｉ番目の音源についてSN比最大化ビームフォーミングフィルタＷ^→ _i(f)を構成する。フィルタＷ^→ _i(f)は、ｉ番目の音源の信号と雑音源の信号のパワー比SNR（式（３））を最大化するビームフォーマとして設計される。

式（３）をＷ^→ _i(f)で微分しこれを０とおくと式（４）が得られる。

最大SN比λ(f)は、式（４）で与えられた一般化固有値問題における最大固有値に対応し、最大固有値に対応する固有ベクトルがフィルタＷ^→ _i(f)＝[Ｗ_i,1(f),…,Ｗ_i,M(f)]^Tとなる。なお、上記非特許文献１では、フィルタＷ^→ _i(f)の周波数特性を補正することも提示されている。

（３）音声強調された信号を出力する。
上記（２）の処理で得られたフィルタＷ^→ _i(f)を収音信号に乗じることでｉ番目の音源で発せられた音声を強調し、雑音源で発せられた音声や雑音等をできるだけ抑圧した周波数領域信号Ｙ_i(f,k)を出力する（式（５））。

つまり、単一の音源から音声が発せられている音声区間を分類して空間相関行列を生成できれば、ブラインドでSN比を最大とするビームフォーミングを実現できる。

[従来法２]拡散センシングによる狭指向性制御技術
伝達特性の測定等の事前調整が必要であるが、マイクロホンアレーの狭指向性能を最大限に高めて音声強調を実現する方法として非特許文献３を挙げることができる。

この技術を概説する。
拡散センシングは、マイクロホンアレーの狭指向性を最大限に高めるための収音信号の音響的な性質は何なのかを追求した技術である。この技術は、マイクロホンアレーの周りに存在する音声反射体（音声反射体は自然に存在する物でも人工的に設置された物でもよい）からの反射音を積極的に収音することを特徴としている。この技術によると、反射体によって音場の伝達特性が変化し収音信号間の相関性が小さくなることでフィルタ設計方式とは独立に目的音源以外の音源から発せられた音声や雑音のパワーを広帯域に亘って最小化できる。Ｍ個のマイクロホンで受音した反射体からの反射音を含む収音信号の周波数領域表現をＸ^→(f,k)＝[Ｘ₁(f,k),…,Ｘ_M(f,k)]^Tとする。f, k, Tは、それぞれ周波数のインデックス、フレーム時間のインデックス、転置の演算子を表している。

拡散センシングでは、強調対象のｉ番目の音源とＭ個のマイクロホンとの間の反射特性を含む伝達特性a^→ _i(f)＝[Ａ_i,1(f),…,Ａ_i,M(f)]^Tを考慮したフィルタＷ^→ _i(f)＝[Ｗ_i,1(f),…,Ｗ_i,M(f)]^Tを設計する必要がある。“伝達特性を考慮する”とは、具体的には事前に測定した伝達特性やシミュレーションを用いて算出した伝達特性を用いて、フィルタを設計することである。ただし、フィルタの設計法は任意の方式で構わない。ここでは、遅延和法を用いた場合と最小分散法を用いた場合のフィルタ計算法を例示する。なお、式（６）、式（７）において伝達特性a^→ _i(f)は既知であるか予め設定されていることに留意されたい。

得られたフィルタＷ^→ _i(f)を収音信号に乗じることでｉ番目の音源で発せられた音声を強調し、雑音源で発せられた音声や雑音等をできるだけ抑圧した周波数領域信号Ｙ_i(f,k)を出力する（式（８））。

つまり、伝達特性の測定等の事前調整は必要であるが、反射によって拡散状態に近い信号を意図的に受音すれば、狭指向性を最大限に高めるためのビームフォーミングを実現できる。この時、原理的には、フィルタの設計方式として任意の方式を利用できる。

荒木章子、澤田宏、牧野昭二、"話者分類とSN比最大化ビームフォーマに基づく会議音声強調"、日本音響学会講演論文集(2007年3月), pp.571-572 C. H. Knapp and G. C. Carter, "The generalized correlation method for estimation of time delay," IEEE Trans. ASSP, vol. 24, no. 4, pp. 320-327, 1976. K.Niwa, S.Sakauchi, K.Furuya, M.Okamoto, and Y.Haneda, "Diffused sensing for sharp directivity microphone array, ICASSP2012 (AASP-P2.9), pp. 225-228, 2012

[従来法１]によると、必ずしも広帯域に亘ってSN比を最大化できない。なぜなら、音源やマイクロホンの配置関係に依存して収音信号間の相関性が高い帯域が存在してしまうからである。

[従来法１]に対して[従来法２]は、広帯域に亘って雑音のパワーを最小化してSN比を最大化できるが、伝達特性の測定等の事前調整が必要である。

よって、本発明は、伝達特性の測定等の事前調整がなくても音源別に音声を強調できる音源別音声強調技術を提供することを目的とする。

本発明は、複数のマイクロホンで収音して得られる収音信号がそれぞれ周波数領域に変換されたフレーム単位の周波数領域信号が音声区間であるか否かを判定する音声区間判定処理と、音声区間と判定されたフレームを音源ごとにクラスタリングする音声区間クラスタリング処理と、音声区間クラスタリング処理によって所望の音源（対象音源）にクラスタリングされたフレームのインデックスの集合をＳとして、集合Ｓに属するインデックスを持つフレームの周波数領域信号を用いて対象音源に対応する空間相関行列Ｒ_Tを、或いは、集合Ｓに属さないインデックスを持つフレームの周波数領域信号を用いて対象音源以外の音源に対応する空間相関行列Ｒ_Nを、求めて、当該空間相関行列Ｒ_Tおよび／または当該空間相関行列Ｒ_Nを用いて、対象音源について、周波数ごとのフィルタを求めるフィルタ生成処理と、フィルタ生成処理によって求められたフィルタを、周波数ごとに周波数領域信号に適用して出力信号を得るフィルタ適用処理とを行う。

あるいは、複数のマイクロホンで収音して得られる収音信号がそれぞれ周波数領域に変換されたフレーム単位の周波数領域信号が音声区間であるか否かを判定する音声区間判定処理と、音源数が未知である場合に、既存のクラスタのセントロイドから所定の閾値以上離れたフレームが入力された時に、当該フレームに対応する音源をセントロイドとして新たなクラスタを生成することによって音源数を増大させ、音声区間と判定されたフレームを音源ごとにクラスタリングするとともに、当該音源数を出力する音声区間クラスタリング処理と、音声区間クラスタリング処理によって所望の音源（対象音源）にクラスタリングされたフレームのインデックスの集合をＳとして、集合Ｓに属するインデックスを持つフレームの周波数領域信号を用いて対象音源に対応する空間相関行列Ｒ_Tを、或いは、集合Ｓに属さないインデックスを持つフレームの周波数領域信号を用いて対象音源以外の音源に対応する空間相関行列Ｒ_Nを、求めて、当該空間相関行列Ｒ_Tおよび／または当該空間相関行列Ｒ_Nを用いて、対象音源について、周波数ごとのフィルタを求めるフィルタ生成処理と、フィルタ生成処理によって求められたフィルタを、周波数ごとに周波数領域信号に適用して出力信号を得るフィルタ適用処理とを行う。

本発明に拠ると、所望の音源にクラスタリングされたフレームから空間相関行列Ｒ_Tを、および／または、当該音源以外の音源にクラスタイリングされたフレームから空間相関行列Ｒ_Nを求めて、対象音源に関するフィルタを生成するので、伝達特性の測定等の事前調整を必要としない。

実施形態に係る音源別音声強調装置の機能構成を示す図。実施形態に係る音源別音声強調方法の処理手順を示す図。

本発明では、拡散センシング技術の枠組みにおいてブラインド音源分離技術のアプローチを利用してフィルタＷ^→ _i(f)を生成する。これまで、様々なブラインド音源分離技術が提案されているが、リアルタイムでの動作性や高い分離性能が示されているSN比最大化法をフィルタ設計に適用する例を説明することにする。

《実施形態》
本発明の実施形態の機能構成および処理フローを図と図に示す。この実施形態の音源別音声強調装置１は、周波数領域変換部１１０、音声区間判定部１２０、音声区間クラスタリング部１３０、フィルタ生成部１４０、フィルタ適用部１５０、時間領域変換部１６０、記憶部１９０を含む。

[ステップＳ１]
拡散センシング技術に則って、マイクロホンアレーを構成するＭ個のマイクロホン１００−１，…，１００−Ｍを用いて収音する。Ｍは２以上の整数である。収音されるアナログ信号（収音信号）には各音源からの直接音だけでなく反射体で反射した反射音も含まれる。反射音は、例えば、マイクロホンアレーの近傍に反射体を置くことによって意図的に生成することができる。

Ｍ個のマイクロホンの並べ方に制限は無い。ただし、２次元または３次元的にＭ個のマイクロホンを配置することによって、音声強調する方向の不確定性がなくなるという利点がある。つまり、Ｍ個のマイクロホンを水平方向に直線状に並べたときに例えば正面方向から到来する音声と真上から到来する音声との区別ができなくなるという問題を、マイクロホンを平面的ないし立体的に並べることで防ぐことができる。また、収音方向として設定できる方向を広くとるためには、各マイクロホンの指向性は、収音方向に或る程度の音圧で音声を収音可能な指向性を持っていたほうがよい。したがって、無指向性マイクロホンや単一指向性マイクロホンといった指向性が比較的緩やかなマイクロホンが好適である。

Ｍ個のマイクロホンで構成されるマイクロホンアレーに対して一つ以上の反射音を与えることが望まれるので、一つ以上の反射体が存在することが好ましい。このような観点からすると、音声強調の対象位置に音源が在るとして、当該音源とマイクロホンアレーと一つ以上の反射体との位置関係は、当該音源からの音が少なくとも一つの反射体で反射してマイクロホンアレーに届くように、各反射体が配置されていることが好ましい。各反射体の形状は、２次元形状（例えば平板）または３次元形状（例えばパラボラ形状）である。また、各反射体の大きさはマイクロホンアレーと同等かそれ以上（１〜２倍程度）の大きさを持つことが好ましい。反射音を効果的に活用するためには、各反射体の反射率は少なくとも０よりも大きく、さらに言えば、マイクロホンアレーに届いた反射音の振幅が直接音の振幅の例えば0.2倍以上であることが望ましく、例えば各反射体は剛性を有する固体とされる。反射体は移動可能な物体（例えば反射板）であっても移動不能な物体（床や壁や天井）であってもよい。単純な例として、マイクロホンアレーに各反射体が固定されている構成が挙げられる。

[ステップＳ２]
周波数領域変換部１１０が、Ｍ個のマイクロホン１００−１，…，１００−Ｍで収音されたアナログ信号（収音信号）を周波数領域の信号X^→(f,k)＝[X₁(f,k),…,X_M(f,k)]^Tに変換して出力する。f, k, Tは、それぞれ離散周波数のインデックス、フレーム番号のインデックス、転置の演算子を表している。

具体的には、図示しないＡＤ変換部が、Ｍ個のマイクロホン１００−１，…，１００−Ｍで収音されたアナログ信号（収音信号）をディジタル信号x^→(t)＝[x₁(t),…,x_M(t)]^Tへ変換する。ｔは離散時間のインデックスを表す。そして、図示しないフレーム生成部が、ＡＤ変換部が出力したディジタル信号x^→(t)＝[x₁(t),…,x_M(t)]^Tを入力とし、チャネルごとにＮサンプルをバッファしてフレーム単位のディジタル信号x^→(k)＝[x^→ ₁(k),…,x^→ _M(k)]^Tを出力する。x^→ _m(k)=[x_m((k-1)N+1),…,x_m(kN)]（1≦m≦M）である。そして、周波数領域変換部１１０は、各フレームのディジタル信号x^→(k)を周波数領域の信号X^→(f,k)＝[X₁(f,k),…,X_M(f,k)]^Tに変換して出力する。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X^→(f,k)は、各周波数f、フレームkごとに出力され、記憶部１９０にバッファされる。なお、１処理単位に含まれる総フレーム数をＫとする。

[ステップＳ３]
音声区間判定部１２０が、フレームインデックスｋのフレームについて周波数領域信号X^→(f,k)が、(a)無音や定常雑音区間なのか(b)音声区間なのかを判定する。無音や定常雑音区間の信号のパワーは通常小さいので、閾値を用いて判定することができる。例えば、周波数領域信号のパワーや大きさを用いるのであれば、式（９）のように周波数領域信号の大きさ‖X^→(f,k)‖が閾値δ₁(f)より大であれば音声区間と判定できる（周波数領域信号の大きさあるいはパワーが閾値δ₁(f)以上であれば音声区間と判定するようにしてもよい）。

また、周波数平均化された周波数領域信号のパワーや大きさを用いる場合には、式（９）のように周波数毎に閾値を用意する必要がなくなる。周波数平均化された周波数領域信号のパワーや大きさを用いるのであれば、式（１０）のように、周波数平均化された周波数領域信号の大きさ‖X^→(f,k)‖が閾値δ₂より大であれば音声区間と判定できる（周波数平均化された周波数領域信号の大きさあるいはパワーが閾値δ₂以上であれば音声区間と判定するようにしてもよい）。ここで、Fは解析する周波数帯域のインデックスの集合を表わしている。

あるいは、式（１１）で表されるフレームインデックスｋの空間相関行列Ｒ(f,k)のノルム（行列式）‖Ｒ(f,k)‖を用いてもよい。例えば、式（１２）のように、空間相関行列Ｒ(f,k)のノルム‖Ｒ(f,k)‖が閾値δ₃より大であれば音声区間と判定できる（空間相関行列Ｒ(f,k)のノルム‖Ｒ(f,k)‖が閾値δ₂以上であれば音声区間と判定するようにしてもよい）。ここで、Fは解析する周波数帯域のインデックスの集合を表わしている。

[ステップＳ４]
音声区間クラスタリング部１３０が、ステップＳ３の処理で音声区間と判定されたフレームの音声がどの音源から発せられた音声であるか、つまり、音声区間と判定されたフレームを音源ごとにクラスタリングする。

音源数Ｉが既知である場合には、音源５０−１，…，５０−Ｉごとに空間相関行列Ｒ_i(f)（i=1,…,I）を用意する。例えば、音源ごとに個別に、ｉ番目の音源から発せられた数秒間程度の音声をＭ個のマイクロホンで観測し、その共分散行列を計算することでｉ番目の音源に対応する空間相関行列Ｒ_i(f)（i=1,…,I）を生成することができる。そして、音声区間と判定されたフレームインデックスｋのフレームがどの音源に分類されるのかを式（１３）で決定する。C(k)はフレームインデックスｋのフレームが分類された音源のインデックスを表す。Fは解析する周波数帯域のインデックスの集合を表わしている。

式（１３）は、周波数領域信号とｉ番目の音源に対応する空間相関行列との相関値のパワーを計算したものである。換言すれば、式（１３）は、ステップＳ１の処理で得られた実際の周波数領域信号とｉ番目の音源から発せられてマイクロホンアレーで収音されたときの周波数領域信号との相関値のパワーを計算したものである。なお、音量による影響をなくすために、周波数毎に空間相関行列のノルムは正規化されていたほうがよい。

また、音源数Ｉが未知である場合には、例えば上記非特許文献１に記載されているように、オンラインクラスタリングによって各音源の区間を判定することが可能であるので、音源ごとに空間相関行列Ｒ_i(f)（i=1,…,I）を用意する必要はない。オンラインクラスタリングは、クラスタリングを初期クラスタ数から始め、既存のクラスタのセントロイドからある閾値以上離れたデータが観測された時に、そのデータをセントロイドとして新たなクラスタを生成する手法である（参考文献：R. O. Duda, et al., Pattern Classification, 2nd ed., Wiley, 2000.）。具体的には、音源数Ｉが未知の場合、これまでにＩ^個のクラスタ（音源）に分類されているとして、フレームインデックスｋのフレームが新たに出現した音源に対応する可能性がある。この場合、閾値を設けて当該フレームをクラスタリングすることが可能である。まず、周波数領域信号とＩ^個の各空間相関行列との相関値のパワーD(k)を計算する（式（１４）参照）。ここでも、音量による影響をなくすために、空間相関行列のノルムは正規化されていたほうがよい。

拡散音場で得られた周波数領域信号X(f,k)は、従来技術と比較して、方向(位置)毎の分離性が非常に高い。そのため、式（１３）、式（１４）のように、空間相関加行列Ｒ_i(f)と周波数領域信号X(f,k)との相関値のパワーを計算することで、フレームインデックスｋのフレームの音声がどの音源から発せられたのかを判別することができる。

次に、閾値をδ₄として、D(k)が閾値より大であれば（D(k)>δ₄）、フレームインデックスｋのフレームがこれまで分類したＩ^個の音源のいずれかにクラスタリングされるフレームであると判定する。また、D(k)が閾値以下であれば（D(k)≦δ₄）、新たな音源が出現したと判定し、音源数Ｉ^を更新すると共に、その音源に対応する空間相関行列を生成する。

上述の従来法１では、収音信号から音源方向を推定し、その結果を基にフレームがどのクラスタ（音源）に属するのかを判定していたが、実施形態では、ｉ番目の音源に対応する空間相関行列と周波数領域信号との相関性を用いて判定している。その理由は２つある。１つ目は、収音信号に含まれるランダムな反射音を厳密にモデル化することが困難であるために、そもそも事前情報無しには音源方向を推定できないことが挙げられる。２つ目は、反射音を積極的に受音するので従来法１に比べて音源間の分離性が高く、ｉ番目の音源に対応する空間相関行列と周波数領域信号との相関性を比較するだけでも、精度よくクラスタリングできることが期待されるためである。

なお、音声区間クラスタリング部１３０は、オンラインクラスタリングによって求まるクラスタ数を音源数として出力してもよい。

[ステップＳ５]
フィルタ生成部１４０が、SN比最大化法に則って、所望のｉ番目の音源（これは例えば音源指定情報の入力によって特定される）についてSN比最大化ビームフォーミングフィルタＷ^→ _i(f)（ｆ∈Ｆ）を生成する。処理単位に含まれるＫ個のフレームのうち、C(k)=iとなったフレームインデックスｋの集合をＳ_i(k)とする。このとき、ｉ番目の音源に対応する空間相関行列Ｒ_i(f)とそれ以外の音源（雑音源）に対応する空間相関行列Ｒ_N(f)は、記憶部１９０から取得したＫ個のフレームの周波数領域信号X^→(f,k)を用いて、例えば式（１５）、式（１６）に基づいて計算することができる。

そして、ｉ番目の音源に対応するSN比最大化ビームフォーミングフィルタＷ^→ _i(f)は、ｉ番目の音源の信号と雑音源の信号のパワー比SNR（上記式（３））を最大化するビームフォーマとして生成される。既述のように、上記式（３）をＷ^→ _i(f)で微分しこれを０とおくと上記式（４）が得られる。最大SN比λ(f)は、上記式（４）で与えられた一般化固有値問題における最大固有値に対応し、最大固有値に対応する固有ベクトルがフィルタＷ^→ _i(f)＝[Ｗ_i,1(f),…,Ｗ_i,M(f)]^T（ｆ∈Ｆ）となる。なお、上記非特許文献１で開示されているように、実施形態においてもフィルタＷ^→ _i(f)の周波数特性を補正してもよい。

[ステップＳ６]
フィルタ適用部１５０は、フレームｋごとに、各周波数ｆ∈Ｆについて、周波数領域信号X^→(f,k)＝[X₁(f,k),…,X_M(f,k)]^Tに、ステップＳ５の処理で得られたフィルタＷ^→ _i(f)を適用して、ｉ番目の音源で発せられた音声を強調し雑音源で発せられた音声や雑音等をできるだけ抑圧した出力信号Ｙ_i(f,k)を出力する（式（１７）参照）。

[ステップＳ７]
時間領域変換部１６０は、第ｋフレームの各周波数ｆ∈Ｆの出力信号Ｙ_i(f,k)を時間領域に変換して第ｋフレームのフレーム単位時間領域信号y_i(k)を得て、さらに、得られたフレーム単位時間領域信号y_i(k)をフレーム番号のインデックスの順番に連結してｉ番目の音源からの音声が強調された時間領域信号y_i(t)を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップＳ２の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。

＜注意事項＞
拡散センシング技術によると、フィルタの設計コンセプト自体に影響を与えないので、SN比最大化法以外の手法によってフィルタW^→(f)を設計することができる。
上述のSN比最大化法以外の手法として、<１>最小分散無歪応答法によるフィルタ設計法、<２>パワーインバージョン(Power Inversion)に基づくフィルタ設計法、<３>一つ以上の抑圧点（雑音のゲインが抑圧される位置）を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法、<４>遅延合成（Delay-and-Sum Beam Forming）法によるフィルタ設計法、<５>最尤法によるフィルタ設計法、<６>AMNOR（Adaptive Microphone-array for noise reduction）法によるフィルタ設計法を例示できる（参考文献Ａ-Ｃ参照）。これらの方法による場合、ｉ番目の音源に対応する空間相関行列Ｒ_i(f)とそれ以外の音源（雑音源）に対応する空間相関行列Ｒ_N(f)の両方を求めるのではなく、いずれか一方を求めれば足りる場合がある。また、空間相関行列Ｒ_i(f)と空間相関行列Ｒ_N(f)の算出式も式（１５）、式（１６）に限定されるものではない。
（参考文献Ａ）菊間信良著、「アダプティブアンテナ技術」、第１版、株式会社オーム社、２００３年、pp.35-90
（参考文献Ｂ）浅野太著、「日本音響学会編音響テクノシリーズ16 音のアレイ信号処理-音源の定位・追跡と分離-」、初版、株式会社コロナ社、pp.88-89, 259-261
（参考文献Ｃ）金田豊著、「適応形雑音抑圧マイクロホンアレー（AMNOR）の指向特性」、日本音響学会誌44巻1号（1988）、pp.23-30

＜音源別音声強調装置のハードウェア構成例＞
上述の実施形態に関わる音源別音声強調装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ＣＰＵ（Central Processing Unit）〔キャッシュメモリなどを備えていてもよい。〕、メモリであるＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、音源別音声強調装置に、ＣＤ−ＲＯＭなどの記憶媒体を読み書きできる装置（ドライブ）などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

音源別音声強調装置の外部記憶装置には、所望音源の音声を強調するためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。

音源別音声強調装置の記憶部には、各フレームについて周波数領域信号が音声区間であるか否かを判定するためのプログラムと、音声区間と判定されたフレームを音源ごとにクラスタリングするためのプログラムと、所望の音源にクラスタリングされたフレームのインデックスの集合をＳとして、集合Ｓに属するインデックスを持つフレームの周波数領域信号を用いて所望の音源に対応する空間相関行列Ｒ_Tを、或いは、集合Ｓに属さないインデックスを持つフレームの周波数領域信号を用いて所望の音源以外の音源に対応する空間相関行列Ｒ_Nを、求めて、当該空間相関行列Ｒ_Tおよび／または当該空間相関行列Ｒ_Nを用いて、所望の音源について、周波数ごとのフィルタを求めるためのプログラムと、求められたフィルタを、周波数ごとに周波数領域信号に適用して出力信号を得るためのプログラムが記憶されている。

音源別音声強調装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてＲＡＭに読み込まれて、ＣＰＵで解釈実行・処理される。この結果、ＣＰＵが所定の機能（周波数領域変換部、音声区間判定部、音声区間クラスタリング部、フィルタ生成部、フィルタ適用部、時間領域変換部）を実現することで音源別音声強調が実現される。

＜補記＞
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記実施形態において説明したハードウェアエンティティ（音源別音声強調装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

複数のマイクロホンで収音して得られる収音信号がそれぞれ周波数領域に変換されたフレーム単位の周波数領域信号が音声区間であるか否かを判定する音声区間判定部と、
音声区間と判定された上記フレームの上記周波数領域信号を各音源に対応する空間相関行列との相関値のパワーを算出することで音源ごとにクラスタリングする音声区間クラスタリング部と、
上記音声区間クラスタリング部によって所望の音源（以下、対象音源という）にクラスタリングされた上記フレームのインデックスの集合をＳとして、当該集合Ｓに属するインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源に対応する空間相関行列Ｒ_Tを、或いは、当該集合Ｓに属さないインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源以外の音源に対応する空間相関行列Ｒ_Nを、求めて、当該空間相関行列Ｒ_Tおよび／または当該空間相関行列Ｒ_Nを用いて、当該対象音源について、周波数ごとのフィルタを求めるフィルタ生成部と、
上記フィルタ生成部によって求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して出力信号を得るフィルタ適用部と
を含む音源別音声強調装置。
複数のマイクロホンで収音して得られる収音信号がそれぞれ周波数領域に変換されたフレーム単位の周波数領域信号が音声区間であるか否かを判定する音声区間判定部と、
音源数が未知である場合に、既存のクラスタのセントロイドから所定の閾値以上離れたフレームが入力された時に、当該フレームに対応する音源をセントロイドとして新たなクラスタを生成することによって音源数を増大させ、音声区間と判定された上記フレームの上記周波数領域信号を各音源に対応する空間相関行列との相関値のパワーを算出することで音源ごとにクラスタリングするとともに、当該音源数を出力する音声区間クラスタリング部と、
上記音声区間クラスタリング部によって所望の音源（以下、対象音源という）にクラスタリングされた上記フレームのインデックスの集合をＳとして、当該集合Ｓに属するインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源に対応する空間相関行列Ｒ_Tを、或いは、当該集合Ｓに属さないインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源以外の音源に対応する空間相関行列Ｒ_Nを、求めて、当該空間相関行列Ｒ_Tおよび／または当該空間相関行列Ｒ_Nを用いて、当該対象音源について、周波数ごとのフィルタを求めるフィルタ生成部と、
上記フィルタ生成部によって求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して出力信号を得るフィルタ適用部と
を含む音源別音声強調装置。
複数のマイクロホンで収音して得られる収音信号がそれぞれ周波数領域に変換されたフレーム単位の周波数領域信号が音声区間であるか否かを判定する音声区間判定ステップと、
音声区間と判定された上記フレームの上記周波数領域信号を各音源に対応する空間相関行列との相関値のパワーを算出することで音源ごとにクラスタリングする音声区間クラスタリングステップと、
上記音声区間クラスタリングステップにて所望の音源（以下、対象音源という）にクラスタリングされた上記フレームのインデックスの集合をＳとして、当該集合Ｓに属するインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源に対応する空間相関行列Ｒ_Tを、或いは、当該集合Ｓに属さないインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源以外の音源に対応する空間相関行列Ｒ_Nを、求めて、当該空間相関行列Ｒ_Tおよび／または当該空間相関行列Ｒ_Nを用いて、当該対象音源について、周波数ごとのフィルタを求めるフィルタ生成ステップと、
上記フィルタ生成ステップにて求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して出力信号を得るフィルタ適用ステップと
を有する音源別音声強調方法。
複数のマイクロホンで収音して得られる収音信号がそれぞれ周波数領域に変換されたフレーム単位の周波数領域信号が音声区間であるか否かを判定する音声区間判定ステップと、
音源数が未知である場合に、既存のクラスタのセントロイドから所定の閾値以上離れたフレームが入力された時に、当該フレームに対応する音源をセントロイドとして新たなクラスタを生成することによって音源数を増大させ、音声区間と判定された上記フレームの上記周波数領域信号を各音源に対応する空間相関行列との相関値のパワーを算出することで音源ごとにクラスタリングするとともに、当該音源数を出力する音声区間クラスタリングステップと、
上記音声区間クラスタリングステップにて所望の音源（以下、対象音源という）にクラスタリングされた上記フレームのインデックスの集合をＳとして、当該集合Ｓに属するインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源に対応する空間相関行列Ｒ_Tを、或いは、当該集合Ｓに属さないインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源以外の音源に対応する空間相関行列Ｒ_Nを、求めて、当該空間相関行列Ｒ_Tおよび／または当該空間相関行列Ｒ_Nを用いて、当該対象音源について、周波数ごとのフィルタを求めるフィルタ生成ステップと、
上記フィルタ生成ステップにて求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して出力信号を得るフィルタ適用ステップと
を有する音源別音声強調方法。
コンピュータを、請求項１または請求項２に記載の音源別音声強調装置として機能させるためのプログラム。