JP6285855B2

JP6285855B2 - フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム

Info

Publication number: JP6285855B2
Application number: JP2014261937A
Authority: JP
Inventors: 達也加古; 小林　和則; 和則小林; 仲大室
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-12-25
Filing date: 2014-12-25
Publication date: 2018-02-28
Anticipated expiration: 2034-12-25
Also published as: JP2016122111A

Description

本発明は、複数のマイクロホンでそれぞれ収音される複数の音響信号を用いて、音源が発する音を強調、又は／および、抑圧するためのフィルタ係数を算出するフィルタ係数算出装置、算出したフィルタ係数を用いる音声再生装置、フィルタ係数算出方法及びプログラムに関する。

発話者ごとの信号区間分類を行う従来の技術に、音の到来方向から発話者をクラスタリングし、各発話者の発話区間を分類する手法がある（非特許文献１参照）。音源の位置やマイク間の相対位置が未知の条件下で、マイクロホンアレーなどの複数のマイクを利用した音声強調手法として、ICA（独立成分分析）に基づく音源分離手法や、SN比最大化ビームフォーマなどの手法がある。ICAはマイクで収音した音響信号の統計的独立性を利用して音源を分離する手法であり、混合音から雑音を分離することで目的音を強調することができる。またSN比最大化ビームフォーマは、音源とマイクの間の伝達関数の性質が未知の状態で、目的音とその他の雑音のパワー比が最大になるフィルタを設計する手法である（非特許文献２参照）。

荒木章子、藤本雅清、石塚健太郎、澤田宏、牧野昭二、"音声区間検出と方向情報を用いた会議音声話者識別システムとその評価"、日本音響学会春季全国大会, 2008年, 1-10-1 , p. 1-4. 小笠原基、石塚健太郎、荒木章子、藤本雅清、中谷智広、大塚和弘、"SN比最大化ビームフォーマを用いたオンライン会議音声強調"、日本音響学会春季全国大会, 2009年, 2-9-17, p.695-698.

従来手法のマイクロホンアレーを利用した音源方向に基いて音響信号区間を分類する手法では、複数のマイクで録音するサンプリング周波数が同期されている必要と、マイクの相対位置関係が既知である必要がある。そのためサンプリング周波数が非同期で、かつ自由に配置されたマイクでは録音した音響信号に対しては従来のマイクロホンアレー処理を行い、音源方向に基いて信号区間を分類することが出来ない。

本発明では、自由に配置したスマートフォン、固定電話、ボイスレコーダなどの録音機能をもつ複数の端末で録音した音響信号から、それぞれの録音機能のサンプリング周波数が非同期であったり、マイクロホン感度が異なっていたりしたとしても動作するフィルタ係数算出装置を提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、フィルタ係数算出装置は、複数のマイクロホンでそれぞれ収音される複数の音響信号を用いて、音源が発する音を強調、又は／および、抑圧するためのフィルタ係数を算出する。フィルタ係数算出装置は、音声区間における、複数のマイクロホンの音響信号をマイク感度について正規化した値であるマイク感度正規化済音響信号に対応する値を要素とし、音声区間における音響信号の出現傾向を示す第一出現傾向ベクトルに対してクラスタリングを行い、音源に対応する１つ以上のクラスタに分類するベクトル分類部と、強調、又は／および、抑圧したい音源に対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号に応じて、強調、又は／および、抑圧のためのフィルタ係数を算出するフィルタ係数算出部とを含む。

上記の課題を解決するために、本発明の他の態様によれば、フィルタ係数算出方法は、複数のマイクロホンでそれぞれ収音される複数の音響信号を用いて、音源が発する音を強調、又は／および、抑圧するためのフィルタ係数を算出する。フィルタ係数算出方法は、ベクトル分類部が、音声区間における、複数のマイクロホンの音響信号をマイク感度について正規化した値であるマイク感度正規化済音響信号に対応する値を要素とし、音声区間における音響信号の出現傾向を示す第一出現傾向ベクトルに対してクラスタリングを行い、音源に対応する１つ以上のクラスタに分類するベクトル分類ステップと、フィルタ係数算出部が、強調、又は／および、抑圧したい音源に対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号に応じて、強調、又は／および、抑圧のためのフィルタ係数を算出するフィルタ係数算出ステップとを含む。

本発明によれば、自由に配置したマイクロホンを搭載した複数の端末で録音した音響信号から、それぞれの録音機能のサンプリング周波数が非同期であったり、マイクロホン感度が異なっていたりしたとしても動作するフィルタ係数算出装置を提供することができる。

第一実施形態に係る音声強調装置の機能ブロック図。第一実施形態に係る音声強調装置の処理フローの例を示す図。スマートフォンなどの音響信号を観測している端末の配置例を示す図。スマートフォンなどの音響信号を観測している端末の配置例を示す図。第二実施形態に係る音声強調装置の機能ブロック図。実施例の結果を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^-」「~」「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
従来のマイクロホンアレー処理では、全てのマイクロホンで観測する音響信号のサンプリング周波数の同期がとれている必要があった。本実施形態では、サンプリングが非同期の音響信号では利用するのが困難な時間差の情報を用いず、各音源から各端末までに音が伝搬する間の音の減衰量を感度行列によって擬似的に表現し、推定した感度行列を用いて特定音源を強調するフィルタを設計した点がポイントである。

＜第一実施形態に係る音声強調装置１００＞
図１は第一実施形態に係る音声強調装置１００の機能ブロック図を、図２はその処理フローを示す。

音声強調装置１００は、受信部１１０と、VAD判定部１２０と、マイク感度補正推定算出部１３０と、マイク感度正規化部１４０と、ベクトル分類部１５０と、感度行列推定部１６０と、フィルタ係数算出部１７０と、フィルタ処理部１８０とを含む。

音声強調装置１００は、M個のマイクロホンmでそれぞれ収音されるM個の音響信号x₁,…,x_m,…,x_Mを入力とし、これらの値を用いて、ある音源rが発する音を強調するための再生信号y_rを出力する、または、図示しないスピーカで再生する。m=1,2,…,Mである。

例えば、M個のマイクロホンは、N台の録音装置（以下、単に「端末」ともいう）に搭載され、各端末は音源に対して、任意の位置に設置されるものとし、複数のマイクロホンのマイクロホン感度並びにM個の音響信号x₁,…,x_m,…,x_Mの録音開始時間及びサンプリング周波数は必ずしも一致しないものとする。M及びNはそれぞれ2以上の整数の何れかであり、M≧Nである。

前述の通り、本実施形態では、自由に配置されたスマートフォン、固定電話、ボイスレコーダなどの端末を複数利用して、音源からの音響信号をデジタルで録音する。端末は、例えばワイヤレスマイクロホンと録音機のように収音機器と録音機能とが筐体上分離していても良い。なお、それぞれの端末の録音機能では、サンプリング周波数、マイク感度がそれぞれ異なっても良いものとする。また、どの端末においても録音開始した日時と、サンプリング周波数が正確に記録されていることとする。録音した音をネットワークのパケットや近距離無線通信等を介して受信部１１０へ伝送する。

なお、スマートフォンなどの音響信号を観測している端末は、自由に配置されるが、分散して配置されるものとする（図３参照）。図３の×印のNo.1〜5は端末の位置を示す。

＜受信部１１０＞
受信部１１０は、スマートフォン、固定電話、ボイスレコーダなどN台の端末に搭載されたM個のマイクロホンで録音したM個の音響信号x₁,…,x_m,…,x_Mを受信する（Ｓ１１０）。

音響信号の受信の方法は、例えばネットワークや近距離無線通信等を利用して受け取る。録音した音響信号には、端末ごとに録音を開始した録音開始時刻、サンプリング周波数が含まれる。録音した複数の音響信号は、録音開始時刻、サンプリング周波数に基づき、時刻同期を取って多チャネルの信号として扱い、各チャネルごとにx₁(n),…,x_m(n),…,x_M(n)と表記する。ここで、mは各マイクロホン（チャネル）を区別する番号を示し、nはサンプリングされた時刻情報を表す。以降の説明では時刻情報nは全てのマイクロホン（チャネル）mで一致しているものとして考える。各チャネルごとの音響信号x₁(n),…,x_m(n),…,x_M(n)をVAD判定部１２０に渡す。

一般的に、異なる端末で録音した音響信号間のサンプリング周波数は異なる。例えば、ある端末で8kHzで録音され、他の端末では16kHzで録音される。また、例えば、ある端末及び他の端末で16kHzで録音される場合であっても、実際には各端末の備えるアナログ−デジタル変換部の個体差によりサンプリング周波数に誤差(例えば、0.01%以内の誤差)が生じる（なお、一つの端末に複数のマイクロホンが搭載されている場合には、同じアナログ−デジタル変換部でアナログーデジタル変換を行うため、その一つの端末に搭載されている複数のマイクロホンの間ではこのような誤差は生じないのが一般的である）。時間差を用いてフィルタ係数を算出する場合には、このような微小な誤差であっても、フィルタ係数の性能を大幅に劣化させてしまう。そのため、従来、フィルタ係数を算出する際に、異なる端末で録音した音響信号を用いることはあまり想定されていなかった。そこで、本実施形態では、異なる端末で録音した音響信号を用いるために時間差を利用せずにフィルタ係数を算出する。時間差を利用しないため、本実施形態では、各チャネル毎の音響信号x₁(n),…,x_m(n),…,x_M(n)の得られた時刻は厳密に一致する必要はない。例えば、あるサンプリング周波数を基準として、そのサンプリング時刻nと最も近いサンプル値を各端末の音響信号x_m(n)とする。基準となるサンプリング時刻nとある端末でのサンプリング時刻とがあまりにも大きく異なる場合には、信号の補間処理（例えば線形補間）やサンプルを間引く処理を行えばよい。例えば、最も低いサンプリング周波数を基準として、他の音響信号のサンプル値を間引く。

＜VAD判定部１２０＞
VAD判定部１２０は、受信部１１０から音響信号x₁(n),…,x_m(n),…,x_M(n)を受け取り、この値からVAD(Voice Activity Detection)を判定する（Ｓ１２０）。まず、VAD判定部１２０は、時間領域の音響信号x₁(n),…,x_m(n),…,x_M(n)を周波数領域の音響信号X₁(ω,τ),…,X_m(ω,τ),…,X_M(ω,τ)に変換する。例えば、FFT( Fast Fourier Transform：高速フーリエ変換)等により、周波数領域の信号に変換する。ωは周波数を表し、τは時刻情報nに基づいて設定した短時間フレーム分析のための時間フレームを示す。音声か非音声かの分類にはVAD手法を用いる。例えば、参考文献１を利用する。
[参考文献１]Jongseo Sohn, Nam Soo Kim, Wonyong Sung. "A Statistic Model-Based Voice Activity Detection", IEEE SIGNAL PROCESSING LETTERS, 1999, VOL.6, NO.1.
各チャネルｍごとにフレームτに分割した音響信号X_m(ω,τ)に対して、区間分類を示すラベルを付与する。周波数領域に変換したM個の音響信号X₁(ω,τ),…,X_m(ω,τ),…,X_M(ω,τ)のうち非音声区間であることを示す雑音ラベルがun個（un>0）以上のマイクロホンで付与されたフレームτ_Nqの集合を非音声区間集合Φ_N={τ_N1,…τ_Nq,…,τ_NQ}とする。q=1,2,…,Qである。非音声区間集合Φ_Nをマイク感度補正推定算出部１３０及びフィルタ係数算出部１７０に渡す。また、M個の音響信号X₁(ω,τ),…,X_m(ω,τ),…,X_M(ω,τ)のうち音声区間であることを示す音声ラベルがuv個（uv>0）以上のマイクロホンで付与されたフレームτ_Spの集合を音声区間集合Φ_S={τ_S1,…,τ_Sp,…τ_SP}とする。p=1,2,…,Pである。音声区間集合Φ_Sをベクトル分類部１５０に渡す。また、周波数領域の音響信号X₁(ω,τ),…,X_m(ω,τ),…,X_M(ω,τ)をマイク感度補正推定算出部１３０及びマイク感度正規化部１４０に渡す。このようにして、フレーム毎に音声区間か非音声区間かを判定する。

＜マイク感度補正推定算出部１３０＞
マイク感度補正推定算出部１３０は、VAD判定部１２０から周波数領域の音響信号X₁(ω,τ),…,X_m(ω,τ),…,X_M(ω,τ)と非音声区間集合Φ_Nを受け取り、これらの値を用いて、マイク感度補正推定値Gを算出する（Ｓ１３０）。あるフレームτ_Nqにおいて、あるマイクロホンmに対応する音響信号X_m(ω,τ)に対して用いるマイク感度補正推定値G_m(τ_Nq)は、一つ前の非音声区間のフレームτ_N(q-1)で求めたマイク感度補正推定値G_m(τ_N(q-1))を次式により更新することで求める。

ここでαは更新の係数を表し、0<α≦1をとる。Ωは周波数の要素数（周波数ビンの総数）を表す。G_mはm番目のマイクロホン（チャネル）のマイク感度補正推定値である。また、τ_Nqはτ_N1からτ_NQのうちのq番目の要素を示す。例えばαの値は0.3を与え、Ωは1024点を与える。例えば、初回実行時（q=1）のみ、α=1とし、マイク感度補正推定値G_m(τ_N1)を次式により求めてもよい。

上記の式は音響信号が雑音であるときのフレームτ_Nqのときの、周波数領域に変換した音響信号X_m(ω,τ)の全帯域のマイク感度特性（フレームτ_Nqのときのマイクロホンが録音した音響信号の実効値に相当）と、直前のフレームにおけるマイク感度補正推定値とに基づいて、マイク感度補正推定値を更新する式である。求めたマイク感度補正推定値G(τ_Nq)={G₁(τ_Nq),…,G_m(τ_Nq),…,G_M(τ_Nq)}をマイク感度正規化部１４０に渡す。

＜マイク感度正規化部１４０＞
マイク感度正規化部１４０は、VAD判定部１２０から周波数領域の音響信号X₁(ω,τ),…,X_m(ω,τ),…,X_M(ω,τ)を受け取り、マイク感度補正推定算出部１３０からマイク感度補正推定値G(τ_Nq)を受け取り、これらの値からマイクロホンmに対応する音響信号X_m(ω,τ)を次式により正規化する（Ｓ１４０）。

マイク感度正規化部１４０は、算出したマイク感度正規化済音響信号X~_m(ω,τ)をベクトル分類部１５０に渡す。マイク感度正規化済音響信号X~_m(ω,τ)は、非音声区間の音響信号に基づいてマイク感度が正規化された周波数領域の音響信号ともいえる。ここで分母のG_m(τ)は、正規化すべき音響信号X_m(ω,τ)のフレームτに先立つ非音声区間のフレームτ_Nqで観測されたマイク感度補正推定値である。

M個の音響信号x₁,…,x_m,…,x_Mは、N台の端末に搭載されたM個のマイクロホンで録音したものを用いるため、マイクロホンごとにマイク感度が異なる場合がある。マイク感度が異なる場合、同じ音圧を与えても信号出力値には違いが生じる（マイク感度のよいマイクロホンの信号出力値のほうが大きくなる）。そこで、本実施形態では、非音声区間において求めたマイク感度補正推定値を用いて、音響信号のマイク感度を正規化する。

＜ベクトル分類部１５０＞
ベクトル分類部１５０は、マイク感度正規化部１４０からマイク感度正規化済音響信号X~_m(ω,τ)を受け取り、VAD判定部１２０から音声区間集合Φ_Sを受け取り、これらの値を用いて、音声区間におけるマイク感度正規化済音響信号に対応する値(V_m(τ_Sp)/||v^-(τ_Sp)||)を要素とし、音声区間における音響信号の出現傾向を示す第一出現傾向ベクトルv~(τ_Sp)に対してクラスタリングを行い、音源に対応する１つ以上のクラスタに分類する（Ｓ１５０）。

スマートフォンなどの音響信号を観測している端末は分散して配置されているため（図３参照）、音源に最も近い端末に搭載されたマイクロホンが他の端末に搭載されたマイクロホンの音響信号に比べて大きなパワーで音響信号を観測する。このことから、マイクロホン（チャネル）間の相対的な音響パワーをフレームかつ類似する音響パワーごとに分類することで音源（もしくは発話者）ごとに分類することができる。例えば、図３のスピーカＳ１で音を再生すると、No.5のマイクロホンの音響パワーは他のマイクロホンの音響パワーと比べ大きな値となる。一方、スピーカＳ２で音を再生すると、No.3のマイクロホンの音響パワーは他のマイクロホンの音響パワーと比べ大きな値となる。このような性質を利用し、音響信号（音響信号の音響パワー）の大きさ（出現傾向）をクラスタリングすることで音源に対応するクラスタに分類することができる。なお、このような性質を利用するために、想定されうる全ての音源に対して、音響信号の出現傾向が異なるように、マイクロホンを配置することが望ましい。例えば、図４のようにマイクロホンを配置すると、スピーカＳ１で音を再生したときとＳ２で音を再生したときとで、音響信号の出現傾向がほぼ同じになるため、同一クラスタに分類される恐れがあり、音声強調性能が劣化する可能性がある。

ベクトル分類部１５０は、マイク感度正規化済音響信号X~_m(ω,τ)と音声区間集合Φ_Sとを用いて、フレーム毎に各チャネルの音響信号実効値V_mをまとめたベクトルv^-を以下の式で生成する。

ここで、上付き添え字Tは転置を、τ_Spは音声区間集合Φ_Sに含まれるフレームを示す。式(4)において音響信号実効値V_m(τ_Sp)の算出元であるX~_m(ω,τ_Sp)は、音声区間におけるマイク感度正規化済音響信号である。さらに、ベクトルv^-を次式により正規化し、第一出現傾向ベクトルv~(τ_Sp)を求める。

また式(5)の通り、第一出現傾向ベクトルv~(τ_Sp)は式(3)に示す全チャネルの音響信号実効値V_m(τ_Sp)のノルムで全チャネルの音響信号実効値V_m(τ_Sp)のそれぞれを正規化したベクトルである。第一出現傾向ベクトルv~(τ_Sp)をフレームτ_Spかつ類似するベクトルごとに分類することでフレームごとの音源を分類する。例えば、ベクトルの分類には、教師なし学習のオンラインクラスタリングを用いる。一例として、leader-followerクラスタリングを用いて分類する（参考文献２参照）。
[参考文献２] Richard O. Duda, E. Hart, David G. Stork Peter. "Pattern Classification", Wiley-Interscience,2000 , p.559-563.

フレームτごとの分類結果を示す変数をR(τ)とする。τ=0におけるRの初期値はR(0)=1とする。各クラスタrの重心c^- _r(τ_Sp)は以下の式で計算する。

ここで、Ψ_r(τ_Sp)={τ_r|R(τ_r)=r}_{τ_r∈τ_Sp}となる集合であり(ただし、下付き添え字におけるa_bはa_bを表し、τ_r、τ_Spはそれぞれτ_r、τ_Spを表す)、音声区間集合Φ_Sに含まれるフレームτ_s1からτ_SPまでの間にR(τ_r)=rとなるフレームτ_rを集めたフレームの集合である。また|Ψ_r(τ_Sp)|は集合Ψ_r(τ_Sp)の要素数（音声区間集合Φ_Sに含まれるフレームのうち、あるクラスタrに分類されたフレームの総数）を表す。コサイン類似度は以下の式を用いる。

ここで、v~(τ_Sp)および生成済のクラスタrについて、次式によりD_r(τ_Sp)の最小値D_min(D₁(τ_Sp),D₂(τ_Sp),…,D_k(τ_Sp)の中の最小値)を求め、D_minが閾値η未満となった場合には、R(τ_Sp)←rとする。つまり、フレームτ_Spを既存のクラスタrに分類する。

ここで、kはフレームτ_Spまでに生成した総クラスタ数を表す。kの初期値は1とする。もし、D_minが閾値η以上となったら総クラスタ数kを1つ増やす。つまりk←k+1とする。そして、R(τ_Sp)←kとする。つまり、フレームτ_Spを新たなクラスタrに分類する。

以下、τ_SpがΦ_Sに含まれる最後のτ_SPになるまで、ベクトル分類状況に応じてクラスタ数kを増やしならが繰り返す。ηは１以下の数字で例えば0.2とする。求めたクラスタ分類結果Ψ_r(τ_Sp)を感度行列推定部１６０に渡す。クラスタ分類結果Ψ_r(τ_Sp)は音声区間集合Φ_Sに含まれるフレームτ_Spがクラスタrに含まれることを表す。Φ_Sに含まれる全てのフレームτ_Spについてクラスタ分類結果Ψ_r(τ_Sp)を求め、出力する。なお、クラスタ分類結果Ψ_r(τ_Sp)は音声区間集合Φ_Sに含まれるフレームのうち、あるクラスタrに分類されたフレームの集合を表す。

の平均値

を要素とする感度行列A(ω)を推定する（Ｓ１６０）。

まず、感度行列推定部１６０は、マイク感度正規化済音響信号X~_m(ω,τ)からそのパワー|X~_m(ω,τ)|²を求める。パワー|X~_m(ω,τ)|²とクラスタ分類結果Ψ_r(τ_Sp)とから感度行列A(ω)の要素C_m,r(ω)を式(9)により求める。言い換えると、P^- _X(ω,τ)はマイクロホン（チャネル）m毎に感度を正規化した周波数領域の音響信号のパワー|X~_m(ω,τ)|²のベクトルである。式(9)によって各チャネルの音響信号の出現傾向が類似するものをまとめたクラスタ分類結果Ψ_r(τ_Sp)から、クラスタｒ毎およびマイクロホン（チャネル）m毎に、当該クラスタrに属するマイクロホン（チャネル）全体の周波数領域の音響信号のパワーで正規化した各マイクロホン（チャネル）の周波数領域の音響信号のパワーの平均値を感度行列の要素として得ることができる。Cを用いて感度行列A(ω)は以下の式で表す。

感度行列推定部１６０は、求めた感度行列A(ω)をフィルタ係数算出部１７０に渡す。

＜フィルタ係数算出部１７０＞
フィルタ係数算出部１７０は、感度行列推定部１６０から感度行列A(ω)を受け取り、VAD判定部１２０から非音声区間集合Φ_Nを受け取り、マイク感度正規化部１４０からマイク感度正規化済音響信号X~_m(ω,τ)を受け取る。これらの値を用いて、強調したい音源rに対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号X~_m(ω,τ)(ただし、τ∈Φ_N)に応じて、強調のためのフィルタ係数を算出する（Ｓ１７０）。

なお、本実施形態では、音源ベクトルの要素として、感度行列の、強調したい音源に対応するクラスタに対応する要素を用いる。

まず、フィルタ係数算出部１７０は、非音声区間集合Φ_Nとマイク感度正規化済音響信号X~_m(ω,τ)とを用いて、次式により、非音声区間の相互相関行列の期待値R_N(ω,τ)を求める。

ここで、x^-(ω,τ)はマイクロホン（チャネル）毎に感度を正規化した周波数領域の音響信号の実効値のベクトルであり、E[]は期待値の計算を示す。なお、期待値R_N(ω,τ)は新たな非音声区間集合Φ_Nが観測される毎に更新される。

フィルタの設計には以下の方法を用いた。

本実施形態では、感度行列Aを用いてフィルタを設計する。フィルタの算出は最小分散法に基づく。クラスタrを強調するフィルタの設計は以下の式を用いる。

ここで、上付き添え字Hはエルミート転置を、a_rは感度行列Aのある音源rに対応するクラスタrに対応するベクトル(音源ベクトル)を表す。つまり、a_r(ω)=[C_1,r(ω),…,C_M,r(ω)]^Tとなるベクトルである。w_r(ω,τ)の分母は正規化項に対応し、R_N ^-(ω,τ)は雑音を最小化する係数の行列である。

フィルタ係数算出部１７０は、求めたフィルタ係数w_r(ω,τ)をフィルタ処理部１８０に渡す。なお、フィルタ係数w_r(ω,τ)は全てのクラスタr=1,2,…,kに対して求めてもよいし、強調する音が決まっている場合には、対応するクラスタのフィルタ係数のみを求めてもよい。

＜フィルタ処理部１８０＞
フィルタ処理部１８０は、フィルタ係数算出部１７０からフィルタ係数w_r(ω,τ)を受け取り、マイク感度正規化部１４０からマイク感度正規化済音響信号X~_m(ω,τ)を受け取る。フィルタ処理部１８０は、M個の音響信号（より詳しく言うとマイク感度正規化済音響信号X~_m(ω,τ)）に対して、フィルタ係数w_r(ω,τ)を用いてフィルタ処理を行い（Ｓ１８０）、ある音源rが発する音を強調するための再生信号y_r(n)を求め、出力する。

例えば、次式により、フィルタ処理を行う。

さらに、フィルタ処理部１８０は、振幅スペクトル領域でフィルタ処理した再生信号|Y_r(ω,τ)|に位相を付与する。位相は音響信号のうち強調対象の音源rを最も良いSN比で観測したマイクロホン（チャネル）ｌ(エル)の音響信号の位相を与える。

lは以下の式で決定する

位相を付与したY_r^(ω,τ)を時間領域に変換し、時間領域の再生信号y_r(n)を得る。例えば、時間領域への変換には、VAD判定部１２０における周波数領域変換に対応する方法（例えばIFFT）を用いればよい。その際、例えば、オーバーラップアド法を用いてもよい。

＜効果＞
このような構成により、自由に配置したマイクロホンを搭載した複数の端末で録音した音響信号から、それぞれの録音機能のサンプリング周波数が非同期であったり、マイクロホン感度が異なっていたりしたとしても所望の音源から発せられる音を強調するフィルタ係数を算出することができる。スマートフォンなどのマイクロホンを搭載し音を集音することが出来る汎用端末を用いて、各端末のA/D変換器のクロックの同期や、マイクロホンの配置、音源の数などを事前に設定する必要なく、手軽に各音源の音を強調することができるようになる。また、リアルタイムでフィルタ係数を計算できるため、端末や音源が移動したり、消えたり、新たに現れたりしても対応することができる。

＜変形例＞
本実施形態では、音声強調装置として機能させているが、フィルタ処理部１８０を別装置として設け、フィルタ係数算出装置として機能させてもよい。また、音声区間情報、非音声区間情報、マイク感度正規化済音響信号を別装置で求め、本装置の入力としてもよい。その場合には、VAD判定部１２０、マイク感度補正推定算出部１３０、マイク感度正規化部１４０を別装置として設けてもよい。

受信部１１０で受信する音響信号の一部または全部をアナログ音響信号としてもよい。

本実施形態では、各部が直接データを送受信するものとして記載したが、図示しない記憶部を介してデータを送受信してもよい。

本実施形態では、所望の音源を強調するためのフィルタ係数を算出する方法について説明したが、本発明を所望の音源を抑圧するためのフィルタ係数の算出する方法に適用することもできる。

＜抑圧に用いる例＞
音源rを抑圧し、同時に音源uを強調する例を記載する。音源rを抑圧するためには、式(11)に代えて次式により、音源rを含む強調音源u以外の雑音成分を含めた相互相関行列の期待値R_Nを作成する。

クラスタuを強調するフィルタの設計は、式(12)に代えて、以下の式を用いる。

ここで、上付き添え字Hはエルミート転置を、a_uは感度行列Aのある音源uに対応するクラスタuに対応するベクトル(音源ベクトル)を表す。つまり、a_u(ω)=[C_1,u(ω),…,C_M,u(ω)]^Tとなるベクトルである。w_u(ω,τ)の分母は正規化項に対応し、R_N ^-1(ω,τ)は雑音を最小化する係数の行列であり、音源uを強調し、音源rを抑圧することができる。なお、ある音源rが発する音を強調、及び／又は、抑圧するための再生信号y_rを生成する、または、図示しないスピーカで再生する装置を音声再生装置ともいう。

＜第二実施形態＞
第一実施形態と異なる部分を中心に説明する。

第一実施形態では、各音源から各端末までに音が伝搬する間の音の減衰量を感度行列によって擬似的に表現しているが、本実施形態では減衰量を強調対象の音源rの音声区間の相関行列の固有値ベクトルを用いて擬似的に表現する。

図５は第二実施形態に係る音声強調装置２００の機能ブロック図を、図２はその処理フローを示す。

音声強調装置２００は、受信部１１０と、VAD判定部１２０と、マイク感度補正推定算出部１３０と、マイク感度正規化部１４０と、ベクトル分類部１５０と、フィルタ係数算出部２７０と、フィルタ処理部１８０とを含む。感度行列推定部１６０を含まない点（図２においてＳ１６０は行わない）と、フィルタ係数算出部における処理が第一実施形態とは異なる。

＜フィルタ係数算出部２７０＞
フィルタ係数算出部２７０は、VAD判定部１２０から非音声区間集合Φ_Nを受け取り、マイク感度正規化部１４０からマイク感度正規化済音響信号X~_m(ω,τ)を受け取り、ベクトル分類部１５０からクラスタ分類結果Ψ_r(τ_Sp)を受け取る。これらの値を用いて、強調したい音源rに対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号に応じて、強調のためのフィルタ係数を算出する（Ｓ２７０）。

まず、フィルタ係数算出部２７０は、フィルタ係数算出部１７０と同様の方法により、非音声区間の相互相関行列の期待値R_N(ω,τ)を求める。

さらに、強調したい音源に対応するクラスタrに対応する周波数毎の音声区間における音響信号の出現傾向を示す第二出現傾向ベクトルx^-(ω,τ)の相互相関行列の期待値R_r(ω,τ)から、音響信号の固有空間の最大固有値に対応した固有ベクトルz^- _r(ω,τ)を抽出し、固有ベクトルz^- _r(ω,τ)を音源ベクトルとし、フィルタ係数を算出する。

例えば、マイク感度正規化済音響信号X~_m(ω,τ)とクラスタ分類結果Ψ_r(τ_Sp)とを用いて次式により、相互相関行列の期待値R_r(ω,τ)を求める。

次に、フィルタ係数算出部２７０は、相互相関行列の期待値R_r(ω,τ)を固有値分解し、クラスタrに含まれる音声区間の固有空間の最大固有値に対応した固有ベクトルz^- _r(ω)を抽出する。この固有値ベクトルz^- _r(ω)を用いて、次式によりフィルタ係数を求める。

＜効果＞
このような構成とすることで、第一実施形態と同様の効果を得ることができる。

＜変形例＞
第一実施形態の変形例と同様に、所望の音源を抑圧するためのフィルタ係数の算出する方法に適用することもできる。

＜抑圧に用いる例＞
音源rを抑圧する例を記載する。音源rを抑圧するためには、式(21)に代えて次式により、音源rと雑音成分を用いて非音声区間の相互相関行列の期待値R_Nを作成する。

また強調する任意の音源uの信号が含まれる相互相関行列の期待値R_uは以下で求める。

もしくは、音源r以外の全ての音声信号を強調する相互相関行列の期待値R_uを以下で求める。

相互相関行列の期待値R_u(ω,τ)を固有値分解し、クラスタuに含まれる音声区間の固有空間の最大固有値に対応した固有ベクトルz^- _u(ω)を抽出する。この固有値ベクトルz^- _u(ω)を用いて、次式によりフィルタ係数を求める。

＜実施例＞
スマートフォンの台数を５台用いて、直線配置ではない配置で2個の音源S1およびS2から発信された音を録音した。スマートフォンとスピーカの配置は図３に示す。録音した信号に対して第一実施形態、第二実施形態の処理を実施した。処理のパラメータを以下に示す。

フィルタ係数算出部１７０、２７０の手法で音源１（S1）を強調し、音源２（S2）を抑圧するフィルタを作成した。音源1（S1）と音源２（S2）のパワー比で性能を確認した結果を図６に示す。

図６は、何れの処理も行わずに音声強調を行う前の各端末の音響信号のうち最もS/Nのよい音響信号を選んだ結果、参考文献３のSN最大化基準を用いた結果、第一実施形態の感度行列を用いたフィルタ算出方法を用いた結果、第二実施形態に係る固有値分解を用いたフィルタ算出方法を用いた結果を示す。処理前に比べて第一実施形態では13[dB]性能が改善し、第二実施形態では16[dB]改善している。
[参考文献３]加古達也、小林和則、大室仲、 “非同期分散マイクアレーのための振幅スペクトルビームフォーマの提案”、日本音響学会春季全国大会, 2013年, 1-P-5, p.829-830.

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

複数のマイクロホンでそれぞれ収音される複数の音響信号を用いて、音源が発する音を強調、又は／及び、抑圧するためのフィルタ係数を算出するフィルタ係数算出装置であって、
音声区間における、複数のマイクロホンの音響信号をマイク感度について正規化した値であるマイク感度正規化済音響信号に対応する値を要素とし、音声区間における音響信号の出現傾向を示す第一出現傾向ベクトルに対してクラスタリングを行い、音源に対応する１つ以上のクラスタに分類するベクトル分類部と、
強調、又は／及び、抑圧したい音源に対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号に応じて、強調、又は／および、抑圧のためのフィルタ係数を算出するフィルタ係数算出部と、
クラスタおよびマイクロホン毎の、当該クラスタに属するマイクロホンの音響信号のパワーを全ての音響信号のパワーで正規化した値の平均値を要素とする感度行列を推定する感度行列推定部とを含み、
前記フィルタ係数算出部は、前記感度行列の、強調、又は／および、抑圧したい音源に対応するクラスタに対応する要素を前記音源ベクトルの要素とし、フィルタ係数を算出する、
フィルタ係数算出装置。
複数のマイクロホンでそれぞれ収音される複数の音響信号を用いて、音源が発する音を強調、又は／及び、抑圧するためのフィルタ係数を算出するフィルタ係数算出装置であって、
音声区間における、複数のマイクロホンの音響信号をマイク感度について正規化した値であるマイク感度正規化済音響信号に対応する値を要素とし、音声区間における音響信号の出現傾向を示す第一出現傾向ベクトルに対してクラスタリングを行い、音源に対応する１つ以上のクラスタに分類するベクトル分類部と、
強調、又は／及び、抑圧したい音源に対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号に応じて、強調、又は／および、抑圧のためのフィルタ係数を算出するフィルタ係数算出部とを含み、
前記フィルタ係数算出部は、強調、又は／および、抑圧したい音源に対応するクラスタに対応する周波数毎の音声区間における音響信号の出現傾向を示す第二出現傾向ベクトルの相互相関行列の期待値から、音響信号の固有空間の最大固有値に対応した固有ベクトルを抽出し、当該固有ベクトルを前記音源ベクトルとし、フィルタ係数を算出する、
フィルタ係数算出装置。
請求項１または請求項２に記載のフィルタ係数算出装置で算出したフィルタ係数を用いる音声再生装置であって、
前記フィルタ係数を用いて、複数の前記音響信号に対してフィルタ処理を行うフィルタ処理部を含む、
音声再生装置。
複数のマイクロホンでそれぞれ収音される複数の音響信号を用いて、音源が発する音を強調、又は／および、抑圧するためのフィルタ係数を算出するフィルタ係数算出方法であって、
ベクトル分類部が、音声区間における、複数のマイクロホンの音響信号をマイク感度について正規化した値であるマイク感度正規化済音響信号に対応する値を要素とし、音声区間における音響信号の出現傾向を示す第一出現傾向ベクトルに対してクラスタリングを行い、音源に対応する１つ以上のクラスタに分類するベクトル分類ステップと、
フィルタ係数算出部が、強調、又は／および、抑圧したい音源に対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号に応じて、強調、又は／および、抑圧のためのフィルタ係数を算出するフィルタ係数算出ステップと、
感度行列推定部が、クラスタおよびマイクロホン毎の、当該クラスタに属するマイクロホンの音響信号のパワーを全ての音響信号のパワーで正規化した値の平均値を要素とする感度行列を推定する感度行列推定ステップとを含み、
前記フィルタ係数算出ステップにおいて、前記感度行列の、強調、又は／および、抑圧したい音源に対応するクラスタに対応する要素を前記音源ベクトルの要素とし、フィルタ係数を算出する、
フィルタ係数算出方法。
複数のマイクロホンでそれぞれ収音される複数の音響信号を用いて、音源が発する音を強調、又は／および、抑圧するためのフィルタ係数を算出するフィルタ係数算出方法であって、
ベクトル分類部が、音声区間における、複数のマイクロホンの音響信号をマイク感度について正規化した値であるマイク感度正規化済音響信号に対応する値を要素とし、音声区間における音響信号の出現傾向を示す第一出現傾向ベクトルに対してクラスタリングを行い、音源に対応する１つ以上のクラスタに分類するベクトル分類ステップと、
フィルタ係数算出部が、強調、又は／および、抑圧したい音源に対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号に応じて、強調、又は／および、抑圧のためのフィルタ係数を算出するフィルタ係数算出ステップとを含み、
前記フィルタ係数算出ステップにおいて、強調、又は／および、抑圧したい音源に対応するクラスタに対応する周波数毎の音声区間における音響信号の出現傾向を示す第二出現傾向ベクトルの相互相関行列の期待値から、音響信号の固有空間の最大固有値に対応した固有ベクトルを抽出し、当該固有ベクトルを前記音源ベクトルとし、フィルタ係数を算出する、
フィルタ係数算出方法。
請求項１もしくは請求項２のフィルタ係数算出装置、または、請求項３の音声再生装置としてコンピュータを機能させるためのプログラム。