JP5815489B2 - 音源別音声強調装置、方法、プログラム - Google Patents

音源別音声強調装置、方法、プログラム Download PDF

Info

Publication number
JP5815489B2
JP5815489B2 JP2012187776A JP2012187776A JP5815489B2 JP 5815489 B2 JP5815489 B2 JP 5815489B2 JP 2012187776 A JP2012187776 A JP 2012187776A JP 2012187776 A JP2012187776 A JP 2012187776A JP 5815489 B2 JP5815489 B2 JP 5815489B2
Authority
JP
Japan
Prior art keywords
sound source
frequency domain
sound
correlation matrix
spatial correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012187776A
Other languages
English (en)
Other versions
JP2014045440A (ja
Inventor
健太 丹羽
健太 丹羽
古家 賢一
賢一 古家
羽田 陽一
陽一 羽田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012187776A priority Critical patent/JP5815489B2/ja
Publication of JP2014045440A publication Critical patent/JP2014045440A/ja
Application granted granted Critical
Publication of JP5815489B2 publication Critical patent/JP5815489B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音源別に音声を強調可能な技術(音源別音声強調技術)に関し、より詳しくは、伝達特性の測定等の事前調整がなくても音源別に音声を強調できる技術に関する。
マイクロホンアレーを用いた従来の音声強調技術を2つ例示する。
[従来法1]SN比最大化法を用いた音声強調技術
伝達特性の測定等の事前調整なしで、つまりブラインドで、マイクロホンアレーを用いて音声強調を実現する方法として非特許文献1を挙げることができる。
この技術の手順を概説する。
(1)収音信号から、各音源に対応する空間相関行列を生成する。
M個のマイクロホンで受音したアナログ信号の周波数領域表現をX(f,k)=[X1(f,k),…,XM(f,k)]Tとする。f, k, Tは、それぞれ周波数のインデックス、フレーム時間のインデックス、転置の演算子を表している。例えば、多人数が参加する会議などでは、或る時刻には特定話者のみが話していることが多い。これを音声の時間スパース性と呼ぶ。音源位置推定法(例えばGCC-PHAT)で推定した結果を基に、各音源(各発話者)が単独で音声を発している時間帯を推定する。なお、GCC-PHATについては、非特許文献2を参照されたい。ここで、i番目の音源が単独で音声を発している時間フレームのインデックス群をτi(k)と表すとする。τi(k)に含まれるフレーム時間での収音信号の共分散行列を計算して、i番目の音源に対応する空間相関行列をRi(f)とする。E{・}, Hはそれぞれ期待値、共役転置の演算子を表している。
Figure 0005815489
(2)SN比最大化法を用いてビームフォーミングのフィルタを設計する。
i番目の音源に対応する空間相関行列Ri(f)とそれ以外の音源(雑音源)に対応する空間相関行列RN(f)を用意する。音場にI個の音源が存在する場合、RN(f)は、例えば式(2)のように計算することができる。
Figure 0005815489
そして、i番目の音源についてSN比最大化ビームフォーミングフィルタW i(f)を構成する。フィルタW i(f)は、i番目の音源の信号と雑音源の信号のパワー比SNR(式(3))を最大化するビームフォーマとして設計される。
Figure 0005815489
式(3)をW i(f)で微分しこれを0とおくと式(4)が得られる。
Figure 0005815489
最大SN比λ(f)は、式(4)で与えられた一般化固有値問題における最大固有値に対応し、最大固有値に対応する固有ベクトルがフィルタW i(f)=[Wi,1(f),…,Wi,M(f)]Tとなる。なお、上記非特許文献1では、フィルタW i(f)の周波数特性を補正することも提示されている。
(3)音声強調された信号を出力する。
上記(2)の処理で得られたフィルタW i(f)を収音信号に乗じることでi番目の音源で発せられた音声を強調し、雑音源で発せられた音声や雑音等をできるだけ抑圧した周波数領域信号Yi(f,k)を出力する(式(5))。
Figure 0005815489
つまり、単一の音源から音声が発せられている音声区間を分類して空間相関行列を生成できれば、ブラインドでSN比を最大とするビームフォーミングを実現できる。
[従来法2]拡散センシングによる狭指向性制御技術
伝達特性の測定等の事前調整が必要であるが、マイクロホンアレーの狭指向性能を最大限に高めて音声強調を実現する方法として非特許文献3を挙げることができる。
この技術を概説する。
拡散センシングは、マイクロホンアレーの狭指向性を最大限に高めるための収音信号の音響的な性質は何なのかを追求した技術である。この技術は、マイクロホンアレーの周りに存在する音声反射体(音声反射体は自然に存在する物でも人工的に設置された物でもよい)からの反射音を積極的に収音することを特徴としている。この技術によると、反射体によって音場の伝達特性が変化し収音信号間の相関性が小さくなることでフィルタ設計方式とは独立に目的音源以外の音源から発せられた音声や雑音のパワーを広帯域に亘って最小化できる。M個のマイクロホンで受音した反射体からの反射音を含む収音信号の周波数領域表現をX(f,k)=[X1(f,k),…,XM(f,k)]Tとする。f, k, Tは、それぞれ周波数のインデックス、フレーム時間のインデックス、転置の演算子を表している。
拡散センシングでは、強調対象のi番目の音源とM個のマイクロホンとの間の反射特性を含む伝達特性a i(f)=[Ai,1(f),…,Ai,M(f)]Tを考慮したフィルタW i(f)=[Wi,1(f),…,Wi,M(f)]Tを設計する必要がある。“伝達特性を考慮する”とは、具体的には事前に測定した伝達特性やシミュレーションを用いて算出した伝達特性を用いて、フィルタを設計することである。ただし、フィルタの設計法は任意の方式で構わない。ここでは、遅延和法を用いた場合と最小分散法を用いた場合のフィルタ計算法を例示する。なお、式(6)、式(7)において伝達特性a i(f)は既知であるか予め設定されていることに留意されたい。
Figure 0005815489
得られたフィルタW i(f)を収音信号に乗じることでi番目の音源で発せられた音声を強調し、雑音源で発せられた音声や雑音等をできるだけ抑圧した周波数領域信号Yi(f,k)を出力する(式(8))。
Figure 0005815489
つまり、伝達特性の測定等の事前調整は必要であるが、反射によって拡散状態に近い信号を意図的に受音すれば、狭指向性を最大限に高めるためのビームフォーミングを実現できる。この時、原理的には、フィルタの設計方式として任意の方式を利用できる。
荒木章子、澤田宏、牧野昭二、"話者分類とSN比最大化ビームフォーマに基づく会議音声強調"、日本音響学会講演論文集(2007年3月), pp.571-572 C. H. Knapp and G. C. Carter, "The generalized correlation method for estimation of time delay," IEEE Trans. ASSP, vol. 24, no. 4, pp. 320-327, 1976. K.Niwa, S.Sakauchi, K.Furuya, M.Okamoto, and Y.Haneda, "Diffused sensing for sharp directivity microphone array, ICASSP2012 (AASP-P2.9), pp. 225-228, 2012
[従来法1]によると、必ずしも広帯域に亘ってSN比を最大化できない。なぜなら、音源やマイクロホンの配置関係に依存して収音信号間の相関性が高い帯域が存在してしまうからである。
[従来法1]に対して[従来法2]は、広帯域に亘って雑音のパワーを最小化してSN比を最大化できるが、伝達特性の測定等の事前調整が必要である。
よって、本発明は、伝達特性の測定等の事前調整がなくても音源別に音声を強調できる音源別音声強調技術を提供することを目的とする。
本発明は、複数のマイクロホンで収音して得られる収音信号がそれぞれ周波数領域に変換されたフレーム単位の周波数領域信号が音声区間であるか否かを判定する音声区間判定処理と、音声区間と判定されたフレームを音源ごとにクラスタリングする音声区間クラスタリング処理と、音声区間クラスタリング処理によって所望の音源(対象音源)にクラスタリングされたフレームのインデックスの集合をSとして、集合Sに属するインデックスを持つフレームの周波数領域信号を用いて対象音源に対応する空間相関行列RTを、或いは、集合Sに属さないインデックスを持つフレームの周波数領域信号を用いて対象音源以外の音源に対応する空間相関行列RNを、求めて、当該空間相関行列RTおよび/または当該空間相関行列RNを用いて、対象音源について、周波数ごとのフィルタを求めるフィルタ生成処理と、フィルタ生成処理によって求められたフィルタを、周波数ごとに周波数領域信号に適用して出力信号を得るフィルタ適用処理とを行う。
あるいは、複数のマイクロホンで収音して得られる収音信号がそれぞれ周波数領域に変換されたフレーム単位の周波数領域信号が音声区間であるか否かを判定する音声区間判定処理と、音源数が未知である場合に、既存のクラスタのセントロイドから所定の閾値以上離れたフレームが入力された時に、当該フレームに対応する音源をセントロイドとして新たなクラスタを生成することによって音源数を増大させ、音声区間と判定されたフレームを音源ごとにクラスタリングするとともに、当該音源数を出力する音声区間クラスタリング処理と、音声区間クラスタリング処理によって所望の音源(対象音源)にクラスタリングされたフレームのインデックスの集合をSとして、集合Sに属するインデックスを持つフレームの周波数領域信号を用いて対象音源に対応する空間相関行列RTを、或いは、集合Sに属さないインデックスを持つフレームの周波数領域信号を用いて対象音源以外の音源に対応する空間相関行列RNを、求めて、当該空間相関行列RTおよび/または当該空間相関行列RNを用いて、対象音源について、周波数ごとのフィルタを求めるフィルタ生成処理と、フィルタ生成処理によって求められたフィルタを、周波数ごとに周波数領域信号に適用して出力信号を得るフィルタ適用処理とを行う。
本発明に拠ると、所望の音源にクラスタリングされたフレームから空間相関行列RTを、および/または、当該音源以外の音源にクラスタイリングされたフレームから空間相関行列RNを求めて、対象音源に関するフィルタを生成するので、伝達特性の測定等の事前調整を必要としない。
実施形態に係る音源別音声強調装置の機能構成を示す図。 実施形態に係る音源別音声強調方法の処理手順を示す図。
本発明では、拡散センシング技術の枠組みにおいてブラインド音源分離技術のアプローチを利用してフィルタW i(f)を生成する。これまで、様々なブラインド音源分離技術が提案されているが、リアルタイムでの動作性や高い分離性能が示されているSN比最大化法をフィルタ設計に適用する例を説明することにする。
《実施形態》
本発明の実施形態の機能構成および処理フローを図と図に示す。この実施形態の音源別音声強調装置1は、周波数領域変換部110、音声区間判定部120、音声区間クラスタリング部130、フィルタ生成部140、フィルタ適用部150、時間領域変換部160、記憶部190を含む。
[ステップS1]
拡散センシング技術に則って、マイクロホンアレーを構成するM個のマイクロホン100−1,…,100−Mを用いて収音する。Mは2以上の整数である。収音されるアナログ信号(収音信号)には各音源からの直接音だけでなく反射体で反射した反射音も含まれる。反射音は、例えば、マイクロホンアレーの近傍に反射体を置くことによって意図的に生成することができる。
M個のマイクロホンの並べ方に制限は無い。ただし、2次元または3次元的にM個のマイクロホンを配置することによって、音声強調する方向の不確定性がなくなるという利点がある。つまり、M個のマイクロホンを水平方向に直線状に並べたときに例えば正面方向から到来する音声と真上から到来する音声との区別ができなくなるという問題を、マイクロホンを平面的ないし立体的に並べることで防ぐことができる。また、収音方向として設定できる方向を広くとるためには、各マイクロホンの指向性は、収音方向に或る程度の音圧で音声を収音可能な指向性を持っていたほうがよい。したがって、無指向性マイクロホンや単一指向性マイクロホンといった指向性が比較的緩やかなマイクロホンが好適である。
M個のマイクロホンで構成されるマイクロホンアレーに対して一つ以上の反射音を与えることが望まれるので、一つ以上の反射体が存在することが好ましい。このような観点からすると、音声強調の対象位置に音源が在るとして、当該音源とマイクロホンアレーと一つ以上の反射体との位置関係は、当該音源からの音が少なくとも一つの反射体で反射してマイクロホンアレーに届くように、各反射体が配置されていることが好ましい。各反射体の形状は、2次元形状(例えば平板)または3次元形状(例えばパラボラ形状)である。また、各反射体の大きさはマイクロホンアレーと同等かそれ以上(1〜2倍程度)の大きさを持つことが好ましい。反射音を効果的に活用するためには、各反射体の反射率は少なくとも0よりも大きく、さらに言えば、マイクロホンアレーに届いた反射音の振幅が直接音の振幅の例えば0.2倍以上であることが望ましく、例えば各反射体は剛性を有する固体とされる。反射体は移動可能な物体(例えば反射板)であっても移動不能な物体(床や壁や天井)であってもよい。単純な例として、マイクロホンアレーに各反射体が固定されている構成が挙げられる。
[ステップS2]
周波数領域変換部110が、M個のマイクロホン100−1,…,100−Mで収音されたアナログ信号(収音信号)を周波数領域の信号X(f,k)=[X1(f,k),…,XM(f,k)]Tに変換して出力する。f, k, Tは、それぞれ離散周波数のインデックス、フレーム番号のインデックス、転置の演算子を表している。
具体的には、図示しないAD変換部が、M個のマイクロホン100−1,…,100−Mで収音されたアナログ信号(収音信号)をディジタル信号x(t)=[x1(t),…,xM(t)]Tへ変換する。tは離散時間のインデックスを表す。そして、図示しないフレーム生成部が、AD変換部が出力したディジタル信号x(t)=[x1(t),…,xM(t)]Tを入力とし、チャネルごとにNサンプルをバッファしてフレーム単位のディジタル信号x(k)=[x 1(k),…,x M(k)]Tを出力する。x m(k)=[xm((k-1)N+1),…,xm(kN)](1≦m≦M)である。そして、周波数領域変換部110は、各フレームのディジタル信号x(k)を周波数領域の信号X(f,k)=[X1(f,k),…,XM(f,k)]Tに変換して出力する。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X(f,k)は、各周波数f、フレームkごとに出力され、記憶部190にバッファされる。なお、1処理単位に含まれる総フレーム数をKとする。
[ステップS3]
音声区間判定部120が、フレームインデックスkのフレームについて周波数領域信号X(f,k)が、(a)無音や定常雑音区間なのか(b)音声区間なのかを判定する。無音や定常雑音区間の信号のパワーは通常小さいので、閾値を用いて判定することができる。例えば、周波数領域信号のパワーや大きさを用いるのであれば、式(9)のように周波数領域信号の大きさ‖X(f,k)‖が閾値δ1(f)より大であれば音声区間と判定できる(周波数領域信号の大きさあるいはパワーが閾値δ1(f)以上であれば音声区間と判定するようにしてもよい)。
Figure 0005815489
また、周波数平均化された周波数領域信号のパワーや大きさを用いる場合には、式(9)のように周波数毎に閾値を用意する必要がなくなる。周波数平均化された周波数領域信号のパワーや大きさを用いるのであれば、式(10)のように、周波数平均化された周波数領域信号の大きさ‖X(f,k)‖が閾値δ2より大であれば音声区間と判定できる(周波数平均化された周波数領域信号の大きさあるいはパワーが閾値δ2以上であれば音声区間と判定するようにしてもよい)。ここで、Fは解析する周波数帯域のインデックスの集合を表わしている。
Figure 0005815489
あるいは、式(11)で表されるフレームインデックスkの空間相関行列R(f,k)のノルム(行列式)‖R(f,k)‖を用いてもよい。例えば、式(12)のように、空間相関行列R(f,k)のノルム‖R(f,k)‖が閾値δ3より大であれば音声区間と判定できる(空間相関行列R(f,k)のノルム‖R(f,k)‖が閾値δ2以上であれば音声区間と判定するようにしてもよい)。ここで、Fは解析する周波数帯域のインデックスの集合を表わしている。
Figure 0005815489
[ステップS4]
音声区間クラスタリング部130が、ステップS3の処理で音声区間と判定されたフレームの音声がどの音源から発せられた音声であるか、つまり、音声区間と判定されたフレームを音源ごとにクラスタリングする。
音源数Iが既知である場合には、音源50−1,…,50−Iごとに空間相関行列Ri(f)(i=1,…,I)を用意する。例えば、音源ごとに個別に、i番目の音源から発せられた数秒間程度の音声をM個のマイクロホンで観測し、その共分散行列を計算することでi番目の音源に対応する空間相関行列Ri(f)(i=1,…,I)を生成することができる。そして、音声区間と判定されたフレームインデックスkのフレームがどの音源に分類されるのかを式(13)で決定する。C(k)はフレームインデックスkのフレームが分類された音源のインデックスを表す。Fは解析する周波数帯域のインデックスの集合を表わしている。
Figure 0005815489
式(13)は、周波数領域信号とi番目の音源に対応する空間相関行列との相関値のパワーを計算したものである。換言すれば、式(13)は、ステップS1の処理で得られた実際の周波数領域信号とi番目の音源から発せられてマイクロホンアレーで収音されたときの周波数領域信号との相関値のパワーを計算したものである。なお、音量による影響をなくすために、周波数毎に空間相関行列のノルムは正規化されていたほうがよい。
また、音源数Iが未知である場合には、例えば上記非特許文献1に記載されているように、オンラインクラスタリングによって各音源の区間を判定することが可能であるので、音源ごとに空間相関行列Ri(f)(i=1,…,I)を用意する必要はない。オンラインクラスタリングは、クラスタリングを初期クラスタ数から始め、既存のクラスタのセントロイドからある閾値以上離れたデータが観測された時に、そのデータをセントロイドとして新たなクラスタを生成する手法である(参考文献:R. O. Duda, et al., Pattern Classification, 2nd ed., Wiley, 2000.)。具体的には、音源数Iが未知の場合、これまでにI^個のクラスタ(音源)に分類されているとして、フレームインデックスkのフレームが新たに出現した音源に対応する可能性がある。この場合、閾値を設けて当該フレームをクラスタリングすることが可能である。まず、周波数領域信号とI^個の各空間相関行列との相関値のパワーD(k)を計算する(式(14)参照)。ここでも、音量による影響をなくすために、空間相関行列のノルムは正規化されていたほうがよい。
Figure 0005815489
拡散音場で得られた周波数領域信号X(f,k)は、従来技術と比較して、方向(位置)毎の分離性が非常に高い。そのため、式(13)、式(14)のように、空間相関加行列Ri(f)と周波数領域信号X(f,k)との相関値のパワーを計算することで、フレームインデックスkのフレームの音声がどの音源から発せられたのかを判別することができる。
次に、閾値をδ4として、D(k)が閾値より大であれば(D(k)>δ4)、フレームインデックスkのフレームがこれまで分類したI^個の音源のいずれかにクラスタリングされるフレームであると判定する。また、D(k)が閾値以下であれば(D(k)≦δ4)、新たな音源が出現したと判定し、音源数I^を更新すると共に、その音源に対応する空間相関行列を生成する。
上述の従来法1では、収音信号から音源方向を推定し、その結果を基にフレームがどのクラスタ(音源)に属するのかを判定していたが、実施形態では、i番目の音源に対応する空間相関行列と周波数領域信号との相関性を用いて判定している。その理由は2つある。1つ目は、収音信号に含まれるランダムな反射音を厳密にモデル化することが困難であるために、そもそも事前情報無しには音源方向を推定できないことが挙げられる。2つ目は、反射音を積極的に受音するので従来法1に比べて音源間の分離性が高く、i番目の音源に対応する空間相関行列と周波数領域信号との相関性を比較するだけでも、精度よくクラスタリングできることが期待されるためである。
なお、音声区間クラスタリング部130は、オンラインクラスタリングによって求まるクラスタ数を音源数として出力してもよい。
[ステップS5]
フィルタ生成部140が、SN比最大化法に則って、所望のi番目の音源(これは例えば音源指定情報の入力によって特定される)についてSN比最大化ビームフォーミングフィルタW i(f)(f∈F)を生成する。処理単位に含まれるK個のフレームのうち、C(k)=iとなったフレームインデックスkの集合をSi(k)とする。このとき、i番目の音源に対応する空間相関行列Ri(f)とそれ以外の音源(雑音源)に対応する空間相関行列RN(f)は、記憶部190から取得したK個のフレームの周波数領域信号X(f,k)を用いて、例えば式(15)、式(16)に基づいて計算することができる。
Figure 0005815489
そして、i番目の音源に対応するSN比最大化ビームフォーミングフィルタW i(f)は、i番目の音源の信号と雑音源の信号のパワー比SNR(上記式(3))を最大化するビームフォーマとして生成される。既述のように、上記式(3)をW i(f)で微分しこれを0とおくと上記式(4)が得られる。最大SN比λ(f)は、上記式(4)で与えられた一般化固有値問題における最大固有値に対応し、最大固有値に対応する固有ベクトルがフィルタW i(f)=[Wi,1(f),…,Wi,M(f)]T(f∈F)となる。なお、上記非特許文献1で開示されているように、実施形態においてもフィルタW i(f)の周波数特性を補正してもよい。
[ステップS6]
フィルタ適用部150は、フレームkごとに、各周波数f∈Fについて、周波数領域信号X(f,k)=[X1(f,k),…,XM(f,k)]Tに、ステップS5の処理で得られたフィルタW i(f)を適用して、i番目の音源で発せられた音声を強調し雑音源で発せられた音声や雑音等をできるだけ抑圧した出力信号Yi(f,k)を出力する(式(17)参照)。
Figure 0005815489
[ステップS7]
時間領域変換部160は、第kフレームの各周波数f∈Fの出力信号Yi(f,k)を時間領域に変換して第kフレームのフレーム単位時間領域信号yi(k)を得て、さらに、得られたフレーム単位時間領域信号yi(k)をフレーム番号のインデックスの順番に連結してi番目の音源からの音声が強調された時間領域信号yi(t)を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS2の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
<注意事項>
拡散センシング技術によると、フィルタの設計コンセプト自体に影響を与えないので、SN比最大化法以外の手法によってフィルタW(f)を設計することができる。
上述のSN比最大化法以外の手法として、<1>最小分散無歪応答法によるフィルタ設計法、<2>パワーインバージョン(Power Inversion)に基づくフィルタ設計法、<3>一つ以上の抑圧点(雑音のゲインが抑圧される位置)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法、<4>遅延合成(Delay-and-Sum Beam Forming)法によるフィルタ設計法、<5>最尤法によるフィルタ設計法、<6>AMNOR(Adaptive Microphone-array for noise reduction)法によるフィルタ設計法を例示できる(参考文献A-C参照)。これらの方法による場合、i番目の音源に対応する空間相関行列Ri(f)とそれ以外の音源(雑音源)に対応する空間相関行列RN(f)の両方を求めるのではなく、いずれか一方を求めれば足りる場合がある。また、空間相関行列Ri(f)と空間相関行列RN(f)の算出式も式(15)、式(16)に限定されるものではない。
(参考文献A)菊間信良著、「アダプティブアンテナ技術」、第1版、株式会社オーム社、2003年、pp.35-90
(参考文献B)浅野太著、「日本音響学会編 音響テクノシリーズ16 音のアレイ信号処理-音源の定位・追跡と分離-」、初版、株式会社コロナ社、pp.88-89, 259-261
(参考文献C)金田豊著、「適応形雑音抑圧マイクロホンアレー(AMNOR)の指向特性」、日本音響学会誌44巻1号(1988)、pp.23-30
<音源別音声強調装置のハードウェア構成例>
上述の実施形態に関わる音源別音声強調装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、音源別音声強調装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
音源別音声強調装置の外部記憶装置には、所望音源の音声を強調するためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
音源別音声強調装置の記憶部には、各フレームについて周波数領域信号が音声区間であるか否かを判定するためのプログラムと、音声区間と判定されたフレームを音源ごとにクラスタリングするためのプログラムと、所望の音源にクラスタリングされたフレームのインデックスの集合をSとして、集合Sに属するインデックスを持つフレームの周波数領域信号を用いて所望の音源に対応する空間相関行列RTを、或いは、集合Sに属さないインデックスを持つフレームの周波数領域信号を用いて所望の音源以外の音源に対応する空間相関行列RNを、求めて、当該空間相関行列RTおよび/または当該空間相関行列RNを用いて、所望の音源について、周波数ごとのフィルタを求めるためのプログラムと、求められたフィルタを、周波数ごとに周波数領域信号に適用して出力信号を得るためのプログラムが記憶されている。
音源別音声強調装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(周波数領域変換部、音声区間判定部、音声区間クラスタリング部、フィルタ生成部、フィルタ適用部、時間領域変換部)を実現することで音源別音声強調が実現される。
<補記>
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記実施形態において説明したハードウェアエンティティ(音源別音声強調装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1. 複数のマイクロホンで収音して得られる収音信号がそれぞれ周波数領域に変換されたフレーム単位の周波数領域信号が音声区間であるか否かを判定する音声区間判定部と、
    音声区間と判定された上記フレームの上記周波数領域信号各音源に対応する空間相関行列との相関値のパワーを算出することで音源ごとにクラスタリングする音声区間クラスタリング部と、
    上記音声区間クラスタリング部によって所望の音源(以下、対象音源という)にクラスタリングされた上記フレームのインデックスの集合をSとして、当該集合Sに属するインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源に対応する空間相関行列RTを、或いは、当該集合Sに属さないインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源以外の音源に対応する空間相関行列RNを、求めて、当該空間相関行列RTおよび/または当該空間相関行列RNを用いて、当該対象音源について、周波数ごとのフィルタを求めるフィルタ生成部と、
    上記フィルタ生成部によって求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して出力信号を得るフィルタ適用部と
    を含む音源別音声強調装置。
  2. 複数のマイクロホンで収音して得られる収音信号がそれぞれ周波数領域に変換されたフレーム単位の周波数領域信号が音声区間であるか否かを判定する音声区間判定部と、
    音源数が未知である場合に、既存のクラスタのセントロイドから所定の閾値以上離れたフレームが入力された時に、当該フレームに対応する音源をセントロイドとして新たなクラスタを生成することによって音源数を増大させ、音声区間と判定された上記フレームの上記周波数領域信号各音源に対応する空間相関行列との相関値のパワーを算出することで音源ごとにクラスタリングするとともに、当該音源数を出力する音声区間クラスタリング部と、
    上記音声区間クラスタリング部によって所望の音源(以下、対象音源という)にクラスタリングされた上記フレームのインデックスの集合をSとして、当該集合Sに属するインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源に対応する空間相関行列RTを、或いは、当該集合Sに属さないインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源以外の音源に対応する空間相関行列RNを、求めて、当該空間相関行列RTおよび/または当該空間相関行列RNを用いて、当該対象音源について、周波数ごとのフィルタを求めるフィルタ生成部と、
    上記フィルタ生成部によって求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して出力信号を得るフィルタ適用部と
    を含む音源別音声強調装置。
  3. 複数のマイクロホンで収音して得られる収音信号がそれぞれ周波数領域に変換されたフレーム単位の周波数領域信号が音声区間であるか否かを判定する音声区間判定ステップと、
    音声区間と判定された上記フレームの上記周波数領域信号各音源に対応する空間相関行列との相関値のパワーを算出することで音源ごとにクラスタリングする音声区間クラスタリングステップと、
    上記音声区間クラスタリングステップにて所望の音源(以下、対象音源という)にクラスタリングされた上記フレームのインデックスの集合をSとして、当該集合Sに属するインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源に対応する空間相関行列RTを、或いは、当該集合Sに属さないインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源以外の音源に対応する空間相関行列RNを、求めて、当該空間相関行列RTおよび/または当該空間相関行列RNを用いて、当該対象音源について、周波数ごとのフィルタを求めるフィルタ生成ステップと、
    上記フィルタ生成ステップにて求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して出力信号を得るフィルタ適用ステップと
    を有する音源別音声強調方法。
  4. 複数のマイクロホンで収音して得られる収音信号がそれぞれ周波数領域に変換されたフレーム単位の周波数領域信号が音声区間であるか否かを判定する音声区間判定ステップと、
    音源数が未知である場合に、既存のクラスタのセントロイドから所定の閾値以上離れたフレームが入力された時に、当該フレームに対応する音源をセントロイドとして新たなクラスタを生成することによって音源数を増大させ、音声区間と判定された上記フレームの上記周波数領域信号各音源に対応する空間相関行列との相関値のパワーを算出することで音源ごとにクラスタリングするとともに、当該音源数を出力する音声区間クラスタリングステップと、
    上記音声区間クラスタリングステップにて所望の音源(以下、対象音源という)にクラスタリングされた上記フレームのインデックスの集合をSとして、当該集合Sに属するインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源に対応する空間相関行列RTを、或いは、当該集合Sに属さないインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源以外の音源に対応する空間相関行列RNを、求めて、当該空間相関行列RTおよび/または当該空間相関行列RNを用いて、当該対象音源について、周波数ごとのフィルタを求めるフィルタ生成ステップと、
    上記フィルタ生成ステップにて求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して出力信号を得るフィルタ適用ステップと
    を有する音源別音声強調方法。
  5. コンピュータを、請求項1または請求項2に記載の音源別音声強調装置として機能させるためのプログラム。
JP2012187776A 2012-08-28 2012-08-28 音源別音声強調装置、方法、プログラム Expired - Fee Related JP5815489B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012187776A JP5815489B2 (ja) 2012-08-28 2012-08-28 音源別音声強調装置、方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012187776A JP5815489B2 (ja) 2012-08-28 2012-08-28 音源別音声強調装置、方法、プログラム

Publications (2)

Publication Number Publication Date
JP2014045440A JP2014045440A (ja) 2014-03-13
JP5815489B2 true JP5815489B2 (ja) 2015-11-17

Family

ID=50396398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012187776A Expired - Fee Related JP5815489B2 (ja) 2012-08-28 2012-08-28 音源別音声強調装置、方法、プログラム

Country Status (1)

Country Link
JP (1) JP5815489B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6755843B2 (ja) * 2017-09-14 2020-09-16 株式会社東芝 音響処理装置、音声認識装置、音響処理方法、音声認識方法、音響処理プログラム及び音声認識プログラム
JP6961545B2 (ja) * 2018-07-02 2021-11-05 株式会社東芝 音信号処理装置、音信号処理方法、およびプログラム
US11510000B2 (en) 2018-08-08 2022-11-22 Nippon Telegraph And Telephone Corporation Sound collection apparatus

Also Published As

Publication number Publication date
JP2014045440A (ja) 2014-03-13

Similar Documents

Publication Publication Date Title
JP5486694B2 (ja) 音声強調方法、装置、プログラム、記録媒体
JP6335985B2 (ja) マルチセンサ音源定位
CN103931211B (zh) 处理刚性球上的球面麦克风阵列的信号的方法及装置
JP6594222B2 (ja) 音源情報推定装置、音源情報推定方法、およびプログラム
JP2017503388A5 (ja)
WO2010109708A1 (ja) 受音信号処理装置、方法およびプログラム
KR100856246B1 (ko) 실제 잡음 환경의 특성을 반영한 빔포밍 장치 및 방법
JP6329296B2 (ja) 収音装置
CN105981404A (zh) 使用麦克风阵列的混响声的提取
CN103339961A (zh) 用于通过声波三角测量进行空间性选择声音获取的装置及方法
JP4891801B2 (ja) 多信号強調装置、方法、プログラム及びその記録媒体
JP2008158035A (ja) 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP5738218B2 (ja) 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム
JP5815489B2 (ja) 音源別音声強調装置、方法、プログラム
US9151662B2 (en) Method for visualizing sound source energy distribution in echoic environment
JP6117142B2 (ja) 変換装置
JP5143802B2 (ja) 雑音除去装置、遠近判定装置と、各装置の方法と、装置プログラム
JP5698166B2 (ja) 音源距離推定装置、直間比推定装置、雑音除去装置、それらの方法、及びプログラム
JP5337189B2 (ja) フィルタ設計における反射物の配置決定方法、装置、プログラム
JP5486567B2 (ja) 狭指向音声再生処理方法、装置、プログラム
JP6063890B2 (ja) 変換装置
JP5826465B2 (ja) 瞬時直間比推定装置、雑音除去装置、遠近判定装置、音源距離測定装置と、各装置の方法と、装置プログラム
JP5486568B2 (ja) 音声スポット再生処理方法、装置、プログラム
JP2010181467A (ja) 複数信号強調装置とその方法と、プログラム
WO2021124537A1 (ja) 情報処理装置、算出方法、及び算出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140813

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150915

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150924

R150 Certificate of patent or registration of utility model

Ref document number: 5815489

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees