JP6167062B2 - 分類装置、分類方法、およびプログラム - Google Patents

分類装置、分類方法、およびプログラム Download PDF

Info

Publication number
JP6167062B2
JP6167062B2 JP2014080383A JP2014080383A JP6167062B2 JP 6167062 B2 JP6167062 B2 JP 6167062B2 JP 2014080383 A JP2014080383 A JP 2014080383A JP 2014080383 A JP2014080383 A JP 2014080383A JP 6167062 B2 JP6167062 B2 JP 6167062B2
Authority
JP
Japan
Prior art keywords
matrix
unit
signal
channels
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014080383A
Other languages
English (en)
Other versions
JP2015200823A (ja
Inventor
達也 加古
達也 加古
小林 和則
和則 小林
仲 大室
仲 大室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014080383A priority Critical patent/JP6167062B2/ja
Publication of JP2015200823A publication Critical patent/JP2015200823A/ja
Application granted granted Critical
Publication of JP6167062B2 publication Critical patent/JP6167062B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、観測された信号をそれぞれに対応する信号源に分類する信号源分類技術に関する。
複数の端末装置で得られた非同期な録音信号を利用して発話者分類を行う場合、位相差による時間変動やマイクロホンの感度の違いから、位相差や音圧差を利用した発話者分類を行うことは出来ない。そこで、非同期な録音信号であることの影響の小さい目的音と雑音のパワー比であるS/N比に着目して発話者分類を行う従来の技術(例えば、非特許文献1等参照)がある。S/N比に着目する技術では、時間領域で非同期な録音信号の相互相関を計算し、相関が最大となるポイントに波形をずらすことで各録音信号の時間波形の位相を合わせる。時間波形の位相を合わせた後、各端末装置で得られた録音信号に対応する目的音のパワーと雑音のパワーの比であるS/N比を計算する。各端末装置で得られた録音信号に対応するS/N比を要素とするベクトルを作成し、S/N比を要素とするベクトルの単位ベクトルを特徴ベクトルとする。この特徴ベクトルをk-meansやleader-followerクラスタリングなどのクラスタリング手法をつかって分類することで、非同期な録音信号でも動作する発話者分類を行うことができる。
加古達也,小林和則,大室仲,"非同期分散マイクアレーのための振幅スペクトルビームフォーマの提案,"日本音響学会2013 年春季研究発表会講演論文集,1−P−5,2013.3.
しかしながら、従来の各端末装置で得られた録音信号に対応するS/N比を要素とする単位ベクトルを特徴ベクトルとして利用する発話者分類技術では、S/N比が目的音源のパワーの時間的な変動によって特徴ベクトルが変動してしまい、発話者分類の分類誤りを引き起こしてしまう。このような問題は、S/N比を利用して発話者を分類する場合だけではなく、さらに一般的にS/N比を利用して信号源分類を行う場合に共通するものである。
本発明の課題は、源信号の大きさの時間的な変動の影響を受けにくい信号源分類技術を提供することである。
観測された複数チャネルの時系列信号に由来する、所定の時間区間のそれぞれの時点に対応する複数チャネルのサンプルからなる列を、列ベクトルのそれぞれとした第1行列を得、非負値の要素からなる第2行列に非負値の要素からなる第3行列を乗じると第1行列となる第2行列を得、第2行列の列ベクトルをクラスタリングする。
このような信号源分類は、源信号の大きさの時間的な変動の影響を受けにくい。
図1は実施形態の分類装置の構成を説明するためのブロック図である。 図2は正規化部の構成を説明するためのブロック図である。 図3は実施形態の分類方法を説明するためのフロー図である。 図4Aは減衰量ベクトルの各要素の時間波形を例示した図である。図4Bは減衰量ベクトルとあるクラスタの重心ベクトルとのコサイン類似度を例示した図である。 図5は実施形態の変形例の分類装置の構成を説明するためのブロック図である。
[概要]
まず、実施形態の概要を説明する。以下に説明する信号源分類では、行列生成部が、観測された複数チャネルの時系列信号に由来する、所定の時間区間のそれぞれの時点に対応する複数チャネルのサンプルからなる列を、列ベクトルのそれぞれとした第1行列を得る。第1行列の各行は各チャネルに対応し、第1行列の各列は各時点に対応する。「複数チャネルの時系列信号」は、1個または複数個の信号源から発せられた信号(源信号)が複数チャネルの観測装置(複数個の観測装置)で観測されることで得られた信号である。複数チャネルのそれぞれのチャネルは、複数個の観測装置のそれぞれの観測装置で観測された時系列信号に由来するサンプルを扱う処理系列である。時系列信号の例は、音響信号や超音波信号や生体信号などの物理信号である。「複数チャネルのサンプル」は、時間領域の値であってもよいし、周波数領域の値であってもよい。各チャネルのサンプルは、観測された各チャネルの時系列信号の大きさに対応する。例えば、観測されたチャネルの「時系列信号」の大きさが大きければ大きいほど、そのチャネルの「サンプル」の大きさも大きい。「αの大きさ」の例は、αのパワー、αの振幅、αの絶対値の単調増加関数値、αの絶対値の広義単調増加関数値などである。各チャネルのサンプルは例えば正値である。
次に行列分解部が、第1行列を非負値の要素からなる第2行列と第3行列とに分解して第2行列を得る。ただし、第2行列に第3行列を(右側から)乗じると第1行列となる。第2行列の列数は第3行列の行数と同じであり、第2行列の各行は各チャネルに対応し、第3行列の各列は各時点に対応する。このように得られる第2行列の要素は、時系列信号が観測されるまでの減衰特性(信号源から観測装置までの経路の減衰特性)に対応し、第3行例の要素は、時系列信号の源信号成分に対応する。
その後、ベクトル分類部が第2行列の列ベクトルをクラスタリングする。ここで、第2行列の列ベクトルは信号源から複数チャネルの観測装置までの経路の減衰特性に対応する。そのため、これらの列ベクトルをクラスタリングすることで信号源分類を行うことができる。また、減衰特性は信号源から複数チャネルの観測装置までの経路に依存し、源信号の大きさの時間的な変動の影響を受けにくい。そのため、このような信号源の分類は、源信号の大きさの時間的な変動の影響を受けにくい。
複数チャネルの観測装置の観測感度に違いがある場合には、その違いを正規化する処理が行われてもよい。すなわち、正規化部が、複数チャネルのそれぞれのチャネルの非目的信号区間の時系列信号に由来する非目的信号区間サンプルを用い、非目的信号区間サンプルと同一のチャネルの目的信号区間の時系列信号に由来する目的信号区間サンプルを正規化し、複数チャネルのそれぞれの正規化サンプルを得てもよい。この場合、行列生成部は、得られた正規化サンプルに由来する複数チャネルのサンプルからなる列を列ベクトルとした第1行列を得る。これにより、複数チャネルの観測装置の観測感度に違いがあったとしても、その影響が第2行列の列ベクトルに表れることを抑制できる。その結果、高い精度で信号源分類を行うことができる。なお、目的信号区間とは目的信号が支配的な時間区間を意味し、非目的信号区間とは目的信号区間以外の時間区間を意味する。目的信号とは、信号源分離の対象となる信号源から発せられた信号を意味する。目的信号の例は、音声信号や音楽信号などである。
この正規化は周波数領域で行われてもよいし、時間領域で行われてもよい。正規化が周波数領域で行われる場合、「非目的信号区間サンプル」「目的信号区間サンプル」「正規化サンプル」は周波数領域の値である。例えば、「非目的信号区間サンプル」は非目的信号区間の時系列信号に対応する周波数領域信号の大きさであり、「目的信号区間サンプル」は目的信号区間の時系列信号に対応する周波数領域信号の大きさである。また、複数チャネルのそれぞれの「正規化サンプル」は周波数領域の値となる。この場合、周波数ごとに定められた「重み」による、すべての周波数(例えば、予め定められた周波数範囲に属するすべての周波数)にわたる正規化サンプルの重み付け和を「複数チャネルのサンプル」のそれぞれとしてもよい。「重み」は例えば正値である。同一の周波数に対応する「重み」はすべてのチャネルの間で同一であってもよいし、そうでなくてもよい。しかしながら、同一の周波数に対応する「重み」がすべてのチャネルの間で同一であれば、精度の高い信号源分類が可能となる。また、「重み」は周波数ごとに異なっていてもよいし、そうでなくてもよい。例えば、所定の周波数範囲において周波数が低いほど「重み」の大きさを大きくするか、あるいは、周波数の単調非減少関数値(単調非増加関数値)を「重み」の大きさとすれば、その周波数範囲における低域の周波数の源信号の分類精度を向上させることができる。逆に所定の周波数範囲において周波数が高いほど「重み」の大きさを大きくするか、あるいは、周波数の広義単調増加関数値(単調非減少関数値)を「重み」の大きさとすれば、その周波数範囲における高域の周波数の源信号の分類精度を向上させることができる。あるいは、所定の周波数範囲に含まれるある範囲に対応する「重み」の大きさの平均を他の範囲に対応する「重み」の大きさの平均よりも大きくすれば、その範囲における源信号の分類精度を向上させることができる。一方、正規化が時間領域で行われる場合、「非目的信号区間サンプル」「目的信号区間サンプル」「正規化サンプル」は時間領域の値であり、例えば、「非目的信号区間サンプル」は非目的信号区間の時系列信号の大きさであり、「目的信号区間サンプル」は目的信号区間の時系列信号の大きさである。正規化が時間領域で行われる場合、複数チャネルのそれぞれの「正規化サンプル」は時間領域の値となる。
また、複数チャネルの観測装置のサンプリング周波数に違いがあったり、それぞれで観測される時系列信号が同期していなかったりする場合には、サンプリング周波数変換部が、複数チャネルの時系列信号に由来するデジタル信号のサンプリング周波数変換を行い、互いにサンプリング周波数が同一な複数チャネルの変換時系列信号を得、信号同期部が変換時系列信号を複数チャネル間で同期させ、複数チャネルの同期化時系列信号を得てもよい。この場合、行列生成部は、得られた複数チャネルの同期化時系列信号に由来する数チャネルのサンプルからなる列を列ベクトルとした第1行列を得る。これにより、複数チャネルの観測装置のサンプリング周波数に違いがあったり、それぞれで観測される時系列信号が同期していなかったりする場合にも、その影響が第2行列の列ベクトルに表れることを抑制できる。その結果、高い精度で信号源分類を行うことができる。
以下、図面を参照して本発明の実施形態を説明する。以下では、時系列信号が音響信号であり、信号源が話者やスピーカー等の音源である例を示す。ただし、これは本発明を限定するものではない。
[第1実施形態]
図1に例示するように、本形態の分類装置1は、サンプリング周波数変換部11、信号同期部12、フレーム分割部13、VAD判定部14、正規化部15、バッファ部16、行列生成部17、行列分解部18、およびベクトル分類部19を有する。図2に例示するように、本形態の正規化部15は、音声非音声選択部151、パワー算出部152、暗騒音パワー算出部153、記憶部154、および暗騒音正規化部155を有する。本形態の分類装置1は、例えばCPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)やRAM(random-access memory)等のメモリ等を備える汎用または専用のコンピュータに所定のプログラムが読み込まれて構成される特別な装置である。なお、CPUは電子回路(circuitry)の一種であるが、その他の電子回路によって分類装置1の一部が構成されてもよい。分類装置1に入力されたデータおよび処理されたデータは、図示していないメモリに格納され、必要に応じて処理部から読み出される。
分類装置1は、自由に配置されたK個(Kは2以上の整数)の観測装置20−1,・・・,20−Kに接続されている。観測装置20−1,・・・,20−Kの位置や互いの相対位置は、未知であってもよいし、既知であってもよい。ただし、観測装置20−1,・・・,20−Kの位置がすべて同一でないことが好ましく、より好ましくは観測装置20−1,・・・,20−Kの位置が互いにすべて相違することが望ましい。また各観測装置20−k(k=1,2,・・・,K)は、マイクロホン21−kおよびA/D変換器22−kを有する。観測装置20−1,・・・,20−Kは互いに独立に動作する。マイクロホン21−1,・・・,21−Kの感度は、互いに異なっていてもよいし、同一であってもよく、A/D変換器22−1,・・・,22−Kのサンプリング周波数は、互いに異なっていてもよいし、同一であってもよい。観測装置20−1,・・・,20−Kの具体例は、互いにサンプリング周波数およびマイクロホン感度が異なる、スマートフォン、固定電話、ボイスレコーダ、タブレット端末装置、セットトップボックスなどの録音機能をもつ端末装置である。例えば、2〜10台程度のスマートフォンを観測装置20−1,・・・,20−Kとして用いる。
各観測装置20−kのマイクロホン21−kは音響信号(時系列信号)を観測する。この音響信号は、未知または既知の音源から発せられ、空間を経由してマイクロホン21−kで観測された信号である。各マイクロホン21−kで観測された音響信号はA/D変換器22−kに入力される。各A/D変換器22−kはそれぞれのサンプリング周波数で当該音響信号をA/D変換し、複数個のサンプル点での入力デジタル音響信号x(i)(時系列信号に由来するデジタル信号)を得て出力する。ただし、iは時間領域のサンプル点を表す整数のインデックスである。すなわち、x(i)は、インデックスiで表されるサンプル点の入力デジタル音響信号を表す。
観測装置20−kで得られた入力デジタル音響信号x(i)に対応する処理を行う処理系列をチャネルkと呼ぶ。言い換えると、A/D変換器22−kで音響信号を変換して得られた入力デジタル音響信号x(i)に対応する処理を行う処理系列をチャネルkと呼ぶ。すなわち、チャネルkは入力デジタル音響信号x(i)および入力デジタル音響信号x(i)から得られる値を取り扱う。本形態ではK個のチャネルk=1,・・・,Kが存在する。
<サンプリング周波数変換部11>
複数個の観測装置20−1,・・・,20−Kで得られた複数個のチャネルk=1,・・・,Kの入力デジタル音響信号x(i)(複数チャネルの時系列信号に由来するデジタル信号)は、サンプリング周波数変換部11に入力される。異なるチャネルkの入力デジタル音響信号x(i)は、異なるA/D変換器22−kで得られたものであるため、サンプリング周波数が異なる場合がある。サンプリング周波数変換部11は、すべてのチャネルk=1,・・・,Kの入力デジタル音響信号x(i)のサンプリング周波数を任意の同一のサンプリング周波数に揃える。言い換えると、サンプリング周波数変換部11は、複数個のチャネルk=1,・・・,Kの入力デジタル音響信号x(i)をサンプリング周波数変換し、特定のサンプリング周波数の変換デジタル音響信号cx(i)を複数個のチャネルk=1,・・・,Kについて得る。「特定のサンプリング周波数」は、A/D変換器22−1,・・・,22−Kの何れか一つのサンプリング周波数であってもよいし、その他のサンプリング周波数であってもよい。「特定のサンプリング周波数」の一例は16kHzである。サンプリング周波数変換部11は、各A/D変換器22−kのサンプリング周波数の公称値に基づいてサンプリング周波数変換を行う。すなわち、サンプリング周波数変換部11は、各A/D変換器22−kのサンプリング周波数の公称値でサンプリングされた信号を、特定のサンプリング周波数でサンプリングされた信号に変換する。このようなサンプリング周波数変換は周知である。サンプリング周波数変換部11は、以上のように得た各チャネルkの変換デジタル音響信号cx(i)(互いにサンプリング周波数が同一な複数チャネルの変換時系列信号)を出力する(ステップS11)。
<信号同期部12>
信号同期部12は、チャネルk=1,・・・,Kの変換デジタル音響信号cx(i),・・・,cx(i)を入力として受け取る。信号同期部12は、変換デジタル音響信号cx(i),・・・,cx(i)をチャネルk=1,・・・,K間で同期させ、チャネルk=1,・・・,Kのデジタル音響信号sx(i),・・・,sx(i)(複数チャネルの同期化時系列信号)を得て出力する(ステップS12)。以下にこの詳細を説明する。
A/D変換器22−kには個体差がある。そのためA/D変換器22−kのサンプリング周波数の公称値がfであったとしても、A/D変換器22−kがサンプリング周波数f/αでA/D変換を行う場合もある。ただし、αはA/D変換器22−kの実際のサンプリング周波数とサンプリング周波数の公称値との間の周波数ずれを表す正のパラメータである。音響信号をサンプリング周波数fでA/D変換して得られる入力デジタル音響信号をx’(i)とおくと、同じ音響信号をサンプリング周波数f/αでA/D変換して得られる入力デジタル音響信号はx’(i×α)となる。ただし「×」は乗算演算子を表す。すなわち、サンプリング周波数の周波数ずれは、入力デジタル音響信号の時間領域でのタイミングずれとなって現れる。
サンプリング周波数変換部11は、各A/D変換器22−kのサンプリング周波数の公称値fに基づいてサンプリング周波数変換を行っている。すなわち、すべてのチャネルk=1,・・・,Kに共通の「特定のサンプリング周波数」をfとすると、サンプリング周波数変換部11は、各チャネルkのサンプリング周波数をf/f倍にするサンプリング周波数変換を行っている。そのため、各A/D変換器22−kの実際のサンプリング周波数がf/αであるとすると、各チャネルkの変換デジタル音響信号cx(i)のサンプリング周波数はf×αとなる。この個体差に基づく周波数ずれは、チャネルk=1,・・・,K間における、変換デジタル音響信号cx(i)の時間領域でのタイミングずれとなって現れる。
信号同期部12は、個体差に基づく変換デジタル音響信号cx(i)の時間領域でのタイミングずれを減らすために、時間領域の変換デジタル音響信号cx(i),・・・,cx(i)をチャネルk=1,・・・,K間で同期させる。例えば信号同期部12は、チャネル間の相互相関が最大になるように、変換デジタル音響信号cx(i),・・・,cx(i)を時間軸方向(サンプル点方向)に互いにずらし、同期後のデジタル音響信号sx(i),・・・,sx(i)を得る。
例えば信号同期部12は、各チャネルkの変換デジタル音響信号cx(i)から、単語の発話など十分特徴的な波形の変化を観測できる長さ(例えば3秒)のサンプル列cx(1),・・・,cx(I)をとりだす(ステップS121)。ただし、Iは正整数を表す。次に信号同期部12は、取り出したサンプル列のうち1つのチャネルk’∈{1,・・・,K}のサンプル列cxk’(1),・・・,cxk’(I)を基準サンプル列とする(ステップS122)。次に信号同期部12は、チャネルk’以外のチャネルk”∈{1,・・・,K}(k”≠k’)のサンプル列cxk”(1),・・・,cxk”(I)を時間軸にずらしたサンプル列cxk”(1+δk”),・・・,cxk”(I+δk”)と基準サンプル列cxk’(1),・・・,cxk’(I)との相互相関Σ{cxk”(n)×cxk’(n)}を最大にする遅延δk”を所定の探索範囲から探索し、sxk”(ik”)=cxk”(ik”+δk”)およびsxk’(ik’)=cxk’(ik’)とする(ステップS123)。さらに信号同期部12は、サンプル列cx(1),・・・,cx(I)を切り出す範囲をシフトさせ(例えば1秒の時間に対応するサンプル点だけシフトさせ)、ステップS121〜S123の処理を実行する処理を繰り返し、同期後のデジタル音響信号sx(i),・・・,sx(i)をすべてのサンプル点について得て出力する。
<フレーム分割部13>
フレーム分割部13は、同期後のデジタル音響信号sx(i),・・・,sx(i)を入力として受け取る。フレーム分割部13は、チャネルkごとにデジタル音響信号sx(i)を所定の時間区間であるフレームに分割する(ステップS13)。このフレーム分割処理では、フレーム切り出し区間長(フレーム長)L点と切り出し区間のずらし幅m点を任意に決めることができる。ただし、Lおよびmは正整数である。例えば、Lおよびmは2以上の整数であり、L≧mである。例えば、切り出し区間長を2048点、切り出し区間のずらし幅を256点とする。フレーム分割部13は、チャネルkごとに切り出し区間長のデジタル音響信号sx(i)を切り出して出力する。さらにフレーム分割部13は、決められた切り出し区間のずらし幅に従い切り出し区間をずらし、チャネルkごとに上記切り出し区間長のデジタル音響信号sx(i)を切り出して出力する処理を繰り返す。以上の処理により、各チャネルkについて各フレームのデジタル音響信号が出力される。以下では、チャネルkのτ番目のフレームτに属するデジタル音響信号をsx(ik,τ,0),・・・,sx(ik,τ,L−1)と表現する。
<VAD判定部14>
VAD判定部14は、各チャネルkの各フレームτに属するデジタル音響信号sx(ik,τ,0),・・・,sx(ik,τ,L−1)を入力として受け取る。VAD判定部14は、入力されたデジタル音響信号を用い、各チャネルkの各フレームτが音声区間(目的信号区間)であるか非音声区間(非目的信号区間)であるかを判定する(ステップS14)。VAD判定部14は、例えば参考文献1に記載されたような周知技術を用い、フレームτが音声区間であるか非音声区間であるかの判定を行う。
[参考文献1]Jongseo Sohn, Nam Soo Kim, Wonyong Sung, “A Statistic Model-Based Voice Activity Detection,” IEEE SIGNAL PROCESSING LETTERS, VOL.6, NO.1, 1999.
これらの判定に基づき、VAD判定部14は、各フレームτに対し、音声区間であるか非音声区間であるかの判定結果を表すラベルθτを付与する。例えば、「フレームτが音声区間であると判定されたチャネルの個数」が「フレームτが非音声区間であると判定されたチャネルの個数」以上である場合、VAD判定部14は、フレームτが音声区間であると判定し、音声区間であることを表すラベルθτをフレームτに対して付与する。一方、「フレームτが音声区間であると判定されたチャネルの個数」が「フレームτが非音声区間であると判定されたチャネルの個数」未満である場合、VAD判定部14は、フレームτが非音声区間であると判定し、非音声区間であることを表すラベルθτをフレームτに対して付与する。その他、チャネルk=1,・・・,Kのうち、デジタル音響信号sx(ik,τ,0),・・・,sx(ik,τ,L−1)の平均パワーや平均S/N比が最も大きなチャネルに対する判定結果を表すラベルθτをフレームτに付与してもよい。また、音声区間であることを表すラベルの例はθτ=1であり、非音声区間であることを表すラベルの例はθτ=0である。VAD判定部14は、各ラベルθτを出力する。
<正規化部15>
正規化部15は、観測装置20−1,・・・,20−Kのマイクロホン21−1,・・・,21−Kの感度を正規化する処理を行う。すなわち正規化部15は、複数チャネルk=1,・・・,Kのそれぞれのチャネルkについて、非音声区間であると判断されたフレームτ0のデジタル音響信号sx(ik,τ0,0),・・・,sx(ik,τ0,L−1)(非目的信号区間の時系列信号に由来する非目的信号区間サンプル)を用い、音声区間であると判断されたそのチャネルkのフレームτ1のデジタル音響信号sx(ik,τ1,0),・・・,sx(ik,τ1,L−1)(非目的信号区間サンプルと同一のチャネルkの目的信号区間の時系列信号に由来する目的信号区間サンプル)を正規化し、複数チャネルk=1,・・・,Kのそれぞれの正規化サンプルを得る(ステップS15)。本形態では周波数領域で正規化を行う。以下、図2を参照してこの詳細を例示する。
≪音声非音声選択部151≫
音声非音声選択部151は、チャネルk=1,・・・,Kの各フレームτに属するデジタル音響信号sx(ik,τ,0),・・・,sx(ik,τ,L−1)とラベルθτとを入力として受け取る。音声非音声選択部151は、ラベルθτを用いて各フレームτが音声区間であるか非音声区間であるかを判別する。例えば、上述の例の場合、音声非音声選択部151は、θτ=1であればフレームτが音声区間であると判別し(音声区間と判別されたフレームを「フレームτ1」と表記する)、θτ=0であればフレームτが非音声区間であると判別する(非音声区間と判別されたフレームを「フレームτ0」と表記する)。音声非音声選択部151は、音声区間であると判別したフレームτ1のチャネルk=1,・・・,Kのデジタル音響信号sx(ik,τ1,0),・・・,sx(ik,τ1,L−1)をパワー算出部152に送る。また、音声非音声選択部151は、非音声区間であると判別したフレームτ0のチャネルk=1,・・・,Kのデジタル音響信号sx(ik,τ0,0),・・・,sx(ik,τ0,L−1)を暗騒音パワー算出部153に送る。
≪パワー算出部152≫
パワー算出部152は、音声区間であると判別されたフレームτ1のチャネルk=1,・・・,Kのデジタル音響信号sx(ik,τ1,0),・・・,sx(ik,τ1,L−1)を入力として受け取る。パワー算出部152は、高速フーリエ変換(FFT:Fast Fourier Transform)等の公知の方法を用い、k=1,・・・,Kのデジタル音響信号sx(ik,τ1,0),・・・,sx(ik,τ1,L−1)から周波数領域のデジタル音響信号SX(f,τ1)を得る。ただし、f=fmin,・・・,fmaxは、所定の周波数範囲に属する各周波数に対応する周波数インデックスである。f,fmin,fmaxは整数であり、fmin≦f≦fmaxである。例えば、fmin=0かつfmax=L−1である。
また、パワー算出部152は、チャネルk=1,・・・,Kおよび周波数インデックスf=fmin,・・・,fmaxについて、周波数領域のデジタル音響信号SX(f,τ1)のパワーP(f,τ1)(周波数領域信号の大きさ、すなわち、目的信号区間サンプル)を以下のように得る。
(f,τ1)=|SX(f,τ1)|
ただし、|α|はαの絶対値を意味する。パワー算出部152は、パワーP(f,τ1)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)を暗騒音正規化部155に送る。
≪暗騒音パワー算出部153≫
暗騒音パワー算出部153は、非音声区間であると判別されたフレームτ0のデジタル音響信号sx(ik,τ0,0),・・・,sx(ik,τ0,L−1)(ただし、k=1,・・・,K)を入力として受け取る。暗騒音パワー算出部153は、高速フーリエ変換等の公知の方法を用い、デジタル音響信号sx(ik,τ0,0),・・・,sx(ik,τ0,L−1)から周波数領域のデジタル音響信号SX(f,τ0)を得る。次に、暗騒音パワー算出部153は、チャネルk=1,・・・,Kおよび周波数インデックスf=fmin,・・・,fmaxについて、周波数領域のデジタル音響信号SX(f,τ1)のパワーP(f,τ0)(周波数領域信号の大きさ、すなわち、非目的信号区間サンプル)を以下のように得る。
(f,τ0)=|SX(f,τ0)|
暗騒音パワー算出部153は、パワーP(f,τ0)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)を記憶部154に格納する。
また、暗騒音パワー算出部153は、これまでに非音声区間であると判別されたJ個のフレームτ0(0),・・・,τ0(J−1)でのパワーP(f,τ0(0)),・・・,P(f,τ0(J−1))(ただし、k=1,・・・,K、f=fmin,・・・,fmax)を記憶部154から抽出し、以下のように暗騒音平均パワーMP(f)を得る。
Figure 0006167062

ただし、Jは1以上の整数である。Jは2以上であることが望ましい。Jは定数(例えばJ=100)であってもよいし、これまでに非音声区間であると判別されたフレームの総数であってもよい。J個のフレームτ0(0),・・・,τ0(J−1)の選択方法に限定はないが、例えば、これまでに非音声区間であると判別されたフレームのうち、最も新しい互いに異なるJ個のフレーム(すなわち、互いに異なるJ個のフレームの組み合わせのうち、時間的に最も後のもの)をフレームτ0(0),・・・,τ0(J−1)とする。なお、Jが定数の場合、非音声区間であると判別された互いに異なるフレームがJ個存在しないこともある。このような場合には、フレームτ0(0),・・・,τ0(J−1)の少なくとも一部が互いに同一であってもよい。あるいは、Jが定数であり、これまでに非音声区間であると判別されたフレームの数がC個(ただし、1≦C<J)である場合には、これまでに非音声区間であると判別されたC個のフレームτ0(0),・・・,τ0(C−1)でのパワーP(f,τ0(0)),・・・,P(f,τ0(C−1))を用い、以下のように暗騒音平均パワーMP(f)を得てもよい。
Figure 0006167062
暗騒音パワー算出部153は、例えば、非音声区間であると判別されたフレームのデジタル音響信号が入力されるたび、あるいは、非音声区間であると判別されたフレームのデジタル音響信号が所定個入力されるたびに、暗騒音平均パワーMP(f)を計算し、計算した暗騒音平均パワーMP(f)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)を暗騒音正規化部155に送る。
≪暗騒音正規化部155≫
暗騒音正規化部155は、パワーP(f,τ1)および暗騒音平均パワーMP(f)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)を入力として受け取る。これらの暗騒音平均パワーMP(f)は、例えば、フレームτ1に対して最新のものである。暗騒音正規化部155は、暗騒音平均パワーMP(f)を用いてパワーP(f,τ1)を以下のように正規化し、正規化サンプルNP(f,τ1)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)を得て出力する。
Figure 0006167062
正規化部15は、正規化サンプルNP(f,τ1)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)をバッファ部16(図1)に送る。
<バッファ部16>
バッファ部16は、正規化サンプルNP(f,τ1)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)を入力として受け取る。バッファ部16は、新たに正規化サンプルNP(f,τ1)を受け取ると、すでにバッファリング(記憶)している正規化サンプルNP(f,τ’)を正規化サンプルNP(f,τ’−1)に更新し、新たに受け取った正規化サンプルNP(f,τ1)を新たな正規化サンプルNP(f,τ’)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)としてバッファリングする。なお、バッファ部16がバッファリングするフレーム数をTとする。ただし、Tは1以上の整数であり、2以上の整数であることが望ましい。例えば、T=100である。バッファ部16は、新たな正規化サンプルNP(f,τ’)を受け取るたびに、過去にバッファリングした古い正規化サンプルNP(f,τ’−T+1)(更新前)を破棄してもよいし、バッファリングしている正規化サンプルの個数がZ個(Z>T)を超えるまで保持し続けていてもよい。その後、バッファ部16は、T個のフレーム分の更新後の正規化サンプルNP(f,τ’),・・・,NP(f,τ’−T+1)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)を抽出し、これらを行列生成部17に送る。なお、バッファ部16がT個未満のY個のフレーム分の正規化サンプルしかバッファリングしていない場合、バッファ部16は、Y個のフレームτ’,・・・,τ’−Y+1について正規化サンプルNP(f,τ’),・・・,NP(f,τ’−Y+1)を送り、T−Y個のフレームτ’−Y,・・・,τ’−T+1について任意値を正規化サンプルNP(f,τ’−Y),・・・,NP(f,τ’−T+1)として送る。なお、任意値は定数(例えば0)であってもよいし、乱数であってもよいし、NP(f,τ’),・・・,NP(f,τ’−Y+1)の何れかであってもよい。あるいは、バッファ部16がT個以上のフレーム分の正規化サンプルをバッファリングするまで、正規化サンプルを出力しないことにしてもよい。
<行列生成部17>
行列生成部17は、正規化サンプルNP(f,τ’),・・・,NP(f,τ’−T+1)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)を入力として受け取る。行列生成部17は、周波数(周波数インデックスfに対応する周波数ビン)ごとに定められた重みw(f)による、すべての周波数(周波数インデックスfmin,・・・,fmaxにそれぞれ対応する周波数ビン)にわたる正規化サンプルNP(f,μ)(ただし、μ=τ’,・・・,τ’−T+1)の重み付け和をサンプルPVk(μ)として得る。例えば、行列生成部17は、以下のようにサンプルPVk(μ)を得る。
Figure 0006167062

ただし、k=1,・・・,K、μ=τ’,・・・,τ’−T+1である。重みw(f)は、周波数ごとの重み付けを制御するための係数である。同一の周波数(周波数インデックスf)に対応する重みw(f)は、複数チャネルk=1,・・・,Kの間で同一であってもよいし、そうでなくてもよい。ただし、同一の周波数(周波数インデックスf)に対応する重みw(f)が複数チャネルk=1,・・・,Kの間で同一(すなわち、w(f)=・・・=w(f))であることが望ましい。音源分離精度が向上するからである。また、低域の周波数の分類精度を向上させるためには、周波数が低いほど重みw(f)の大きさを大きくするか、あるいは、周波数の単調非減少関数値をw(f)の大きさとする。逆に、低域の周波数の分類精度を向上させるためには、周波数が高いほどw(f)の大きさを大きくするか、あるいは、周波数の広義単調増加関数値をw(f)の大きさとする。すべての周波数で同じ重みにする場合は、例えば、w(fmin)=・・・=w(fmax)=1とする。あるいは、何れかの周波数に対応する重みw(f’)を定数(例えば、w(f’)=1)とし、それ以外の周波数に対応する重みを0にしてもよい。例えば、何れかの周波数(周波数インデックスf’に対応する周波数)に対応する重みw(f’)を1とし、それ以外の周波数に対応する重みを0とする場合、行列生成部17は、式(1)を計算することなく、NP(f’,μ)をそのままPVk(μ)として用いてもよい。
このように得られたサンプルPV1(μ),・・・,PVK(μ)は、観測された複数チャネルk=1,・・・,Kの時系列信号に由来する、所定の時間区間のそれぞれの時点μに対応する複数チャネルk=1,・・・,Kのサンプルである。行列生成部17は、サンプルPV1(μ),・・・,PVK(μ)からなる列をμ列目(ただし、μ=τ’,・・・,τ’−T+1)の列ベクトルとしたK行T列の行列Pτ’(第1行列)を以下のように得る。
Figure 0006167062

行列生成部17は、行列P(τ’)を行列分解部18に送る(ステップS17)。
<行列分解部18>
行列分解部18は、行列P(τ’)を入力として受け取る。行列分解部18は、行列P(τ’)を、非負値の制約を付けた2つの行列W(τ’)およびH(τ’)(第2行列および第3行列)に分解する。
P(τ’)=W(τ’)H(τ’)
すなわち、行列W(τ’)(第2行列)および行列H(τ’)(第3行列)はそれぞれ非負値の要素からなり、行列W(τ’)に右側から行列H(τ’)を乗じると行列P(τ’)となる。行列W(τ’)はK行Q列の行列であり、行列H(τ’)はQ行T列の行列である。ただし、Qは正整数(例えば、Q≧2)である。このように得られる行列W(τ’)の要素は、それぞれ音源から発せられた源音(源信号)が観測装置20−kのマイクロホン21−kに到達するまでのパワーの減衰特性を表す。一方、行例H(τ’)の要素は、音源から発せられた源音のパワーを表す(ステップS18)。
このような行列P(τ’)の分解には、例えば非負値行列分解を用いることができる(例えば、参考文献2:Lee, Daniel D., and H. Sebastian Seung. "Learning the parts of objects by non-negative matrix factorization." Nature 401.6755 (1999): 788-791.)。この例の場合、行列分解部18は、まず、行列W(τ’)および行列H(τ’)の初期値としてランダムな値を要素とする2個の行列を設定する。また行列分解部18は、行列のサイズを指定する正整数(例えば、Q≧2)のパラメータQを設定する。Qは予め与えておいてもよいし、外部からの入力を許してもよい。例えばQ=2とする。行列W(τ’)は(チャネル数K)×(パラメータQ)の行列であり、行列H(τ’)は(パラメータQ)×(フレーム数T)の行列である。W(τ’)およびH(τ’)の更新式は最適化の評価関数によって様々あるが、例えばLee等の手法を用いた場合以下のようになる。
Figure 0006167062

ただし、行列αに対するαενは行列αのε行ν列目の要素を表し、行列βに対するβγλは行列βのγ行λ列目の要素を表す。また、「A←B」は得られたBを新たなAとすることを意味する。行列分解部18は、これらの更新式の計算を所定の終了条件を満たすまで繰り返す。終了条件の例は、(1)これらの更新式の計算が所定回数(例えば、20回)繰り返されたこと、(2)すべての要素について更新の前後でのW(τ’)ενの差およびH(τ’)γλの差が所定の範囲内になることなどである。行列分解部18は、得た行列W(τ’)をベクトル分類部19に送る。
<ベクトル分類部19>
ベクトル分類部19は、行列W(τ’)を入力として受け取る。ベクトル分類部19は、行列W(τ’)の各列q=1,・・・,Qの列ベクトルを減衰量ベクトルr(τ’)として取り出し、抽出した減衰量ベクトルr(τ’)のクラスタリングを行って、各減衰量ベクトルr(τ’)が属する分類(クラスタ)を決定する。各行列W(τ’)からはQ個の減衰量ベクトルr(τ’)を取り出すことができ、減衰量ベクトルr(τ’)の次元数はチャネル数に等しいKである。減衰量ベクトルr(τ’)は各音源からマイクロホン21−kまでの減衰特性を表しているため、音源が固定であれば、同じ音源に対応する減衰量ベクトルr(τ’)は同程度となる。そのため、減衰量ベクトルr(τ’)(q=1,・・・,Q)をクラスタリングすることで話者分類を行うことができる。また、源音のパワー成分の多くは行例H(τ’)に含まれ、減衰量ベクトルr(τ’)にはほとんど含まれない。そのため、このような話者分類は源音のパワーの時間的な変動の影響を受けにくい。
ベクトル分類部19は、フレームτ’,・・・,τ’−T’+1に対応する減衰量ベクトルr(τ’),・・・,r(τ’),・・・,r(τ’−T’+1),・・・,r(τ’−T’+1)を対象としたクラスタリングを行う。ただし、T’は正整数であり、例えば、T’≧2である。例えば、ベクトル分類部19は、複数個のフレームに対応する減衰量ベクトル(例えば、5秒間に対応する区間での減衰量ベクトル)が入力されるたびに、新たに入力された減衰量ベクトルをクラスタリングの対象に加えてクラスタリングを行ってもよいし、各フレームτ’の減衰量ベクトルr(τ’),・・・,r(τ’)が入力されるたびに、新たに入力された減衰量ベクトルをクラスタリングの対象に加えてクラスタリングを行ってもよい。あるいは、ベクトル分類部19は、新たに入力された複数個のフレームに対応する減衰量ベクトルのみを対象としてクラスタリングを行ってもよい。このようなクラスタリングにより、各音源に対応するクラスタが生成される。
クラスタリングの例は、教師なし学習であるオンラインクラスタリングなどであり、leader-followerクラスタリングなどの様々な周知の手法を用いることができる(参考文献3:Richard O. Duda, Peter E. Hart, David G. Stork, “Pattern Classication," Wiley - Interscience, 2000)。以下では、leader-followerクラスタリングを用いて減衰量ベクトルをクラスタリングする例を示す。距離関数には、例えばコサイン類似度を用いる。コサイン類似度による距離d(CL)は以下のように定義される。
Figure 0006167062

ただし、CL∈SETは各クラスタのラベルであり、SETはクラスタの集合である。rCLはクラスタCLに属する減衰量ベクトルの重心ベクトルである。d(CL)は、クラスタCLの重心ベクトルrCLと入力された減衰量ベクトルr(τ’)とのコサイン類似度を表す。初期のクラスタCLおよび重心ベクトルrCLが予め設定されていてもよいし、されていなくてもよい。初期のクラスタCLおよび重心ベクトルrCLが予め設定されていない場合には、例えば、最初に入力された減衰量ベクトルr(τ’)が最初のクラスタCLの重心ベクトルrCLとなる。ベクトル分類部19は、入力された減衰量ベクトルr(τ’)と各クラスタCL∈SETとの間の距離d(CL)を求める。ここで、すべてのクラスタCL∈SETからの距離d(CL)がある閾値THを上回る場合、ベクトル分類部19は、新たなクラスタCL’をクラスタの集合SETに追加し、当該減衰量ベクトルr(τ’)が新たなクラスタCL’に属するものとして、新たなクラスタCL’の重心ベクトルrCL’を当該減衰量ベクトルr(τ’)とする。一方、入力された減衰量ベクトルr(τ’)との距離d(CL)が閾値TH以下となるクラスタCL∈SETが存在する場合、ベクトル分類部19は、当該クラスタCLに当該減衰量ベクトルr(τ’)が属するものとして、当該クラスタCLの重心ベクトルrCLを以下のように更新する。
CL=(1−φ)×r(τ’)+φ×r(τ’)
ただし、φは0≦φ≦1の定数である。なお、距離d(CL)が閾値TH以下となるクラスタCLが複数個存在する場合、ベクトル分類部19は、例えば、最初に距離d(CL)が閾値TH以下であると判断されたクラスタCLに当該減衰量ベクトルr(τ’)が属するものとして、当該クラスタCLの重心ベクトルrCLを更新する。あるいは、ベクトル分類部19は、例えば、距離d(CL)が閾値TH以下であると判断されたクラスタCLのうちで最も距離d(CL)が小さいクラスタに当該減衰量ベクトルr(τ’)が属するものとして、当該クラスタCLの重心ベクトルrCLを更新してもよい。あるいは、クトル分類部19は、例えば、距離d(CL)が閾値TH以下であると判断されたすべてのクラスタCLに当該減衰量ベクトルr(τ’)が属するものとして、当該クラスタCLの重心ベクトルrCLを更新してもよい。以上によって得られた各クラスタCLは、音を発した各音源に対応する分類結果を表す。また、減衰量ベクトルr(τ’)がクラスタCLに属することは、フレームτ’において当該減衰量ベクトルr(τ’)が属するクラスタCLに対応する音源から音が発せられたことを示す。
また、オンライン的にクラスタ数を増やしていくleader-follower クラスタリングを用いることに代えて、クラスタ数を固定する手法を用いることもできる。この場合、例えば、分類装置1に接続されている観測装置20−1,・・・,20−Kの個数分(K個)のクラスタCL=1,・・・,Kを予め用意する。K個のクラスタCL=1,・・・,Kの重心ベクトルrCL=1,・・・,Kは、互いに直交するK次元のベクトルである。例えば、クラスタCLの重心ベクトルrCLは、CL番目の要素が1であって残りのK−1個の要素が0であるK次元ベクトルである。すなわち、例えば、r=(1,0,・・・,0),r=(0,1,0,・・・,0),・・・,r=(0,・・・,0,1)である。ベクトル分類部19は、式(2)に従い、入力された減衰量ベクトルr(τ’)と各クラスタCL=1,・・・,Kとの間の距離d(CL)を求め、距離d(CL)が最小となるクラスタCLに減衰量ベクトルr(τ’)が属すると判定する。減衰量ベクトルr(τ’)がクラスタCLに属することは、フレームτ’において当該減衰量ベクトルr(τ’)が属するクラスタCLに対応する音源から音が発せられたことを示す。
ベクトル分類部19は、各フレームτ’について、減衰量ベクトルr(τ’)が属するクラスタCLを表す情報(区間分類を表すラベル)を出力する(ステップS19)。
<実験結果>
本形態の実験結果を示す。実験では、K=5とし、観測装置21−1,・・・,21−5として5台程度のスマートフォンを用いた。直線配置ではない位置に配置された3個の音源から発せられた音をこれらのスマートフォンで録音した。録音された入力デジタル音響信号x(i),・・・,x(i)を分類装置1に入力し、上述の音源分離処理を行った。図4Aおよび図4Bに実験結果を示す。図4Aの横軸はフレーム番号μを表し、縦軸はサンプルPV1(μ),・・・,PVK(μ)を表す。図4Bの横軸はバッファ区間(100フレームからなる区間)番号を表し、縦軸は減衰量ベクトルとクラスタCL=1の重心ベクトルとのコサイン類似度の計算結果を示す。これらの図に示すように、音源1から音が発せられている区間ではコサイン類似度がほぼ0になり、音源2から音が発せられている区間ではコサイン類似度が0.15近傍に分布し、音源3から音が発せられている区間ではコサイン類似度が0.2近傍に分布する。これにより、クラスタリングによって適切に音源分離ができることが分かる。
[第1実施形態の変形例]
観測装置20−1,・・・,20−Kのマイクロホン21−1,・・・,21−Kの感度が同じ(揃っている)場合や、マイクロホン21−1,・・・,21−Kの感度がキャリブレーションされることでそれらの感度の相違が補正される場合、正規化部15での正規化処理は不要となる。以下にこの変形例を説明する。
図5に例示するように、この変形例の分類装置1’は、サンプリング周波数変換部11、信号同期部12、フレーム分割部13、VAD判定部14、パワー算出部15’、バッファ部16’、行列生成部17、行列分解部18、およびベクトル分類部19を有する。以下では、第1実施形態との相違点であるパワー算出部15’およびバッファ部16’のみを説明する。
<パワー算出部15’>
パワー算出部15’は、VAD判定部14から送られた、チャネルk=1,・・・,Kの各フレームτに属するデジタル音響信号sx(ik,τ,0),・・・,sx(ik,τ,L−1)とラベルθτとを入力として受け取る。パワー算出部15’は、ラベルθτを用いて各フレームτが音声区間であるか非音声区間であるかを判別する。パワー算出部15’は、高速フーリエ変換等の公知の方法を用い、音声区間であると判別したフレームτ1のチャネルk=1,・・・,Kのデジタル音響信号sx(ik,τ1,0),・・・,sx(ik,τ1,L−1)から周波数領域のデジタル音響信号SX(f,τ1)を得る。さらに、パワー算出部15’は、チャネルk=1,・・・,Kおよび周波数インデックスf=fmin,・・・,fmaxについて、これらの周波数領域のデジタル音響信号SX(f,τ1)のパワーP(f,τ1)=|SX(f,τ1)|を得る。パワーP(f,τ1)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)はバッファ部16’に送られる。
<バッファ部16’>
バッファ部16’は、パワーP(f,τ1)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)を「正規化サンプルNP(f,τ1)」として受け取る。その後のバッファ部16’の処理はバッファ部16と同じである。
その他の処理は第1実施形態と同じである。
[第2実施形態]
第1実施形態では正規化部15でデジタル音響信号を周波数領域の信号に変換し、周波数領域で正規化を行った。しかしながら、時間領域で正規化を行ってもよい。以下にこのような形態を説明する。
図1に例示するように、本形態の分類装置2は、サンプリング周波数変換部11、信号同期部12、フレーム分割部13、VAD判定部14、正規化部25、バッファ部26、行列生成部27、行列分解部18、およびベクトル分類部19を有する。図2に例示するように、本形態の正規化部25は、音声非音声選択部251、パワー算出部252、暗騒音パワー算出部253、記憶部254、および暗騒音正規化部255を有する。本形態の分類装置2は、例えば汎用または専用のコンピュータに所定のプログラムが読み込まれて構成される特別な装置である。以下では、第1実施形態との相違点である正規化部25、バッファ部26、および行列生成部27のみを説明する。
<正規化部25>
正規化部25は、観測装置20−1,・・・,20−Kのマイクロホン21−1,・・・,21−Kの感度を正規化する処理を行う。すなわち正規化部25は、複数チャネルk=1,・・・,Kのそれぞれのチャネルkについて、非音声区間であると判断されたフレームτ0のデジタル音響信号sx(ik,τ0,0),・・・,sx(ik,τ0,L−1)(非目的信号区間の時系列信号に由来する非目的信号区間サンプル)を用い、音声区間であると判断されたそのチャネルkのフレームτ1のデジタル音響信号sx(ik,τ1,0),・・・,sx(ik,τ1,L−1)(非目的信号区間サンプルと同一のチャネルkの目的信号区間の時系列信号に由来する目的信号区間サンプル)を正規化し、複数チャネルk=1,・・・,Kのそれぞれの正規化サンプルを得る。本形態では時間領域で正規化を行う。以下、図2を参照してこの詳細を例示する。
≪音声非音声選択部251≫
音声非音声選択部251は、チャネルk=1,・・・,Kの各フレームτに属するデジタル音響信号sx(ik,τ,0),・・・,sx(ik,τ,L−1)とラベルθτとを入力として受け取る。音声非音声選択部151は、ラベルθτを用いて各フレームτが音声区間であるか非音声区間であるかを判別する。音声非音声選択部251は、音声区間であると判別したフレームτ1のチャネルk=1,・・・,Kのデジタル音響信号sx(ik,τ1,0),・・・,sx(ik,τ1,L−1)をパワー算出部252に送る。また、音声非音声選択部251は、非音声区間であると判別したフレームτ0のチャネルk=1,・・・,Kのデジタル音響信号sx(ik,τ0,0),・・・,sx(ik,τ0,L−1)を暗騒音パワー算出部253に送る。
≪パワー算出部252≫
パワー算出部252は、音声区間であると判別されたフレームτ1のチャネルk=1,・・・,Kのデジタル音響信号sx(ik,τ1,0),・・・,sx(ik,τ1,L−1)を入力として受け取る。パワー算出部252は、デジタル音響信号sx(ik,τ1,0),・・・,sx(ik,τ1,L−1)に対応するパワーP(τ1)(時間領域信号の大きさ、すなわち、目的信号区間サンプル)を得る。例えば、パワー|sx(ik,τ1,0)|,・・・,|sx(ik,τ1,L−1)|の平均値をパワーP(τ1)としてもよいし、パワー|sx(ik,τ1,0)|,・・・,|sx(ik,τ1,L−1)|の加算値をパワーP(τ1)としてもよいし、これらに対して広義単調増加する値をパワーP(τ1)としてもよい。パワー算出部252は、パワーP(τ1)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)を暗騒音正規化部255に送る。
≪暗騒音パワー算出部253≫
暗騒音パワー算出部253は、非音声区間であると判別されたフレームτ0のデジタル音響信号sx(ik,τ0,0),・・・,sx(ik,τ0,L−1)(ただし、k=1,・・・,K)を入力として受け取る。暗騒音パワー算出部253は、デジタル音響信号sx(ik,τ0,0),・・・,sx(ik,τ0,L−1)に対応するパワーP(τ0)(時間領域信号の大きさ、すなわち、非目的信号区間サンプル)を得る。例えば、パワー|sx(ik,τ0,0)|,・・・,|sx(ik,τ0,L−1)|の平均値をパワーP(τ0)としてもよいし、パワー|sx(ik,τ0,0)|,・・・,|sx(ik,τ0,L−1)|の加算値をパワーP(τ0)としてもよいし、これらに対して広義単調増加する値をパワーP(τ0)としてもよい。暗騒音パワー算出部253は、パワーP(τ0)(ただし、k=1,・・・,K)を記憶部254に格納する。
また、暗騒音パワー算出部253は、これまでに非音声区間であると判別されたJ個のフレームτ0(0),・・・,τ0(J−1)でのパワーP(τ0(0)),・・・,P(τ0(J−1))(ただし、k=1,・・・,K)を記憶部254から抽出し、以下のように暗騒音平均パワーMPを得る。
Figure 0006167062

ただし、Jは1以上の整数である。Jは2以上であることが望ましい。Jは定数であってもよいし、これまでに非音声区間であると判別されたフレームの総数であってもよい。J個のフレームτ0(0),・・・,τ0(J−1)の選択方法に限定はないが、例えば、これまでに非音声区間であると判別されたフレームのうち、最も新しい互いに異なるJ個のフレーム(すなわち、互いに異なるJ個のフレームの組み合わせのうち、時間的に最も後のもの)をフレームτ0(0),・・・,τ0(J−1)とする。なお、Jが定数の場合、非音声区間であると判別された互いに異なるフレームがJ個存在しないこともある。このような場合には、フレームτ0(0),・・・,τ0(J−1)の少なくとも一部が互いに同一であってもよい。あるいは、Jが定数であり、これまでに非音声区間であると判別されたフレームの数がC個(ただし、1≦C<J)である場合には、これまでに非音声区間であると判別されたC個のフレームτ0(0),・・・,τ0(C−1)でのパワーP(τ0(0)),・・・,P(τ0(C−1))を用い、以下のように暗騒音平均パワーMPを得てもよい。
Figure 0006167062
暗騒音パワー算出部253は、例えば、非音声区間であると判別されたフレームのデジタル音響信号が入力されるたび、あるいは、非音声区間であると判別されたフレームのデジタル音響信号が所定個入力されるたびに、暗騒音平均パワーMPを計算し、計算した暗騒音平均パワーMP(ただし、k=1,・・・,K)を暗騒音正規化部255に送る。
≪暗騒音正規化部255≫
暗騒音正規化部255は、パワーP(τ1)およびフレームτ1に対して最新の暗騒音平均パワーMP(ただし、k=1,・・・,K)を入力として受け取る。暗騒音正規化部255は、暗騒音平均パワーMPを用いてパワーP(τ1)を以下のように正規化し、正規化サンプルNP(τ1)(ただし、k=1,・・・,K)を得て出力する(ステップS25)。
Figure 0006167062
正規化部25は、正規化サンプルNP(τ1)(ただし、k=1,・・・,K)をバッファ部26(図1)に送る。
<バッファ部26>
バッファ部26は、正規化サンプルNP(τ1)(ただし、k=1,・・・,K)を入力として受け取る。バッファ部26は、新たに正規化サンプルNP(τ1)を受け取ると、すでにバッファリング(記憶)している正規化サンプルNP(τ’)を正規化サンプルNP(τ’−1)に更新し、新たに受け取った正規化サンプルNP(τ1)を新たな正規化サンプルNP(τ’)(ただし、k=1,・・・,K)としてバッファリングする。なお、バッファ部26がバッファリングするフレーム数をTとする。ただし、Tは1以上の整数であり、2以上の整数であることが望ましい。例えば、T=100である。バッファ部26は、新たな正規化サンプルNP(τ’)を受け取るたびに、過去にバッファリングした古い正規化サンプルNP(τ’−T+1)(更新前)を破棄してもよいし、バッファリングしている正規化サンプルの個数がZ個(Z>T)を超えるまで保持し続けていてもよい。その後、バッファ部26は、T個のフレーム分の更新後の正規化サンプルNP(τ’),・・・,NP(τ’−T+1)(ただし、k=1,・・・,K)を抽出し、これらを行列生成部27に送る。なお、バッファ部26がT個未満のY個のフレーム分の正規化サンプルしかバッファリングしていない場合、バッファ部26は、Y個のフレームτ’,・・・,τ’−Y+1について正規化サンプルNP(τ’),・・・,NP(τ’−Y+1)を送り、T−Y個のフレームτ’−Y,・・・,τ’−T+1について任意値を正規化サンプルNP(τ’−Y),・・・,NP(τ’−T+1)として送る。なお、任意値は定数(例えば0)であってもよいし、乱数であってもよいし、NP(τ’),・・・,NP(τ’−Y+1)の何れかであってもよい。あるいは、バッファ部26がT個以上のフレーム分の正規化サンプルをバッファリングするまで、正規化サンプルを出力しないことにしてもよい。
<行列生成部27>
行列生成部27は、正規化サンプルNP(τ’),・・・,NP(τ’−T+1)をサンプルPVk(τ’),・・・,PVk(τ’−T+1)として受け取る(ただし、k=1,・・・,K)。言い換えると、行列生成部27は、サンプルPV1(μ),・・・,PVK(μ)(ただし、μ=τ’,・・・,τ’−T+1)を入力として受け取る。このように得られたサンプルPV1(μ),・・・,PVK(μ)は、観測された複数チャネルk=1,・・・,Kの時系列信号に由来する、所定の時間区間のそれぞれの時点μに対応する複数チャネルk=1,・・・,Kのサンプルである。行列生成部27は、サンプルPV1(μ),・・・,PVK(μ)からなる列をμ列目(ただし、μ=τ’,・・・,τ’−T+1)の列ベクトルとしたK行T列の行列Pτ’(第1行列)を以下のように得る。
Figure 0006167062

行列生成部27は、行列P(τ’)を行列分解部18に送る(ステップS27)。
その他の処理は第1実施形態と同じである。
[第2実施形態の変形例]
第2実施形態でも、観測装置20−1,・・・,20−Kのマイクロホン21−1,・・・,21−Kの感度が同じ(揃っている)場合や、マイクロホン21−1,・・・,21−Kの感度がキャリブレーションされることでそれらの感度の相違が補正される場合、正規化部25の処理のうちパワー算出部252での正規化処理は不要となる。以下にこの変形例を説明する。
図5に例示するように、この変形例の分類装置2’は、サンプリング周波数変換部11、信号同期部12、フレーム分割部13、VAD判定部14、パワー算出部25’、バッファ部26’、行列生成部17、行列分解部18、およびベクトル分類部19を有する。以下では、第1実施形態との相違点であるパワー算出部25’およびバッファ部26’のみを説明する。
<パワー算出部25’>
パワー算出部25’は、VAD判定部14から送られた、チャネルk=1,・・・,Kの各フレームτに属するデジタル音響信号sx(ik,τ,0),・・・,sx(ik,τ,L−1)とラベルθτとを入力として受け取る。パワー算出部25’は、ラベルθτを用いて各フレームτが音声区間であるか非音声区間であるかを判別する。パワー算出部25’は、パワー算出部252と同様に、音声区間であると判別したフレームτ1のチャネルk=1,・・・,Kのデジタル音響信号sx(ik,τ1,0),・・・,sx(ik,τ1,L−1)に対応するパワーP(τ1)(時間領域信号の大きさ、すなわち、目的信号区間サンプル)を得る。パワーP(τ1)(ただし、k=1,・・・,K)はバッファ部26’に送られる。
<バッファ部26’>
バッファ部26’は、パワーP(τ1)(ただし、k=1,・・・,K)を「正規化サンプルNP(τ1)」として受け取る。その後のバッファ部26’の処理はバッファ部26と同じである。
その他の処理は第2実施形態と同じである。
[特徴]
各実施形態およびその変形例では、自由に配置した複数個のスマートフォン、固定電話、ボイスレコーダ、タブレット端末装置、セットトップボックスなどの録音機能をもつ観測装置で得たデジタル音響信号から、音源の位置に基づいて、音響信号の区間分類を行うことができる。すなわち、音源から複数の観測装置までの間の減衰特性を行列分解によって抽出して分類のパラメータとして用いることで、音源の位置に基づいた音響信号の区間分類を行うことができる。音源の位置に基づいて音響信号の区間分類を行うため、源信号の大きさの時間的な変動の影響を受けにくい。このように得られた音響信号の区間分類結果から、目的とする音響信号区間の抽出が可能になる。また、区間分類結果を用いて目的音の区間とその他の音源の区間に分類ができるため、雑音を抑圧して目的音を強調するフィルタを設計するための情報として利用できる。
また、サンプリング周波数変換部11および信号同期部12により、複数の観測装置で得られたデジタル音響信号のサンプリング周波数や位相を揃えることができるため、任意の観測装置で得られたデジタル音響信号を用いて、精度の高い音源分類を行うことができる。
さらに、第1,2実施形態では、複数の観測装置で得られたデジタル音響信号のパワーを正規化するため、複数の観測装置のマイクロホンの感度が相違する場合であっても、高精度に区間分類を行うことができる。
[その他の変形例等]
なお、本発明は上述の実施の形態に限定されるものではない。例えば、各観測装置20−kのマイクロホン22−kの感度の正規化は、行列生成部での処理より前に行われれば、どの時点で行われてもよい。例えば、フレーム分割部、VAD判定部、および正規化部の処理が、サンプリング周波数変換部11の処理と信号同期化部12の処理との間に行われてもよいし、サンプリング周波数変換部11の処理の前に行われてもよい。例えば、レーム分割部、VAD判定部、および正規化部の処理が、分類装置ではなく、観測装置で行われてよい。
また、すべてのチャネルk=1,・・・,KのA/D変換器22−kのサンプリング周波数の公称値が互いに同一であるならば、サンプリング周波数変換部11の処理を行わなくてもよい。この場合には「入力デジタル音響信号」がそのまま「変換デジタル音響信号」として信号同期部12に入力されてもよい。このような場合にはサンプリング周波数変換部11を設けなくてもよい。さらに、すべてのチャネルk=1,・・・,KのA/D変換器22−kのサンプリング周波数の公称値が互いに同一であり、それらの個体差の影響も小さいのであれば、サンプリング周波数変換部11および信号同期部12の処理を行わなくてもよい。この場合には「入力デジタル音響信号」がそのまま「デジタル音響信号」としてフレーム分割部13に入力されてもよい。このような場合にはサンプリング周波数変換部11および信号同期部12を設けなくてもよい。
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。
1,1’,2,2’ 分類装置
20−k 観測装置

Claims (8)

  1. 観測された複数チャネルの時系列信号に由来する、所定の時間区間のそれぞれの時点に対応する前記複数チャネルのサンプルからなる列を、列ベクトルのそれぞれとした第1行列を得る行列生成部と、
    非負値の要素からなる第2行列に非負値の要素からなる第3行列を乗じると前記第1行列となる、前記第2行列を得る行列分解部と、
    前記第2行列の列ベクトルをクラスタリングするベクトル分類部と、
    を有する分類装置。
  2. 請求項1の分類装置であって、
    前記第2行列の要素は、前記時系列信号が観測されるまでの減衰特性に対応し、
    前記第3行例の要素は、前記時系列信号の源信号成分に対応する、分類装置。
  3. 請求項1または2の分類装置であって、
    前記複数チャネルのそれぞれのチャネルの非目的信号区間の時系列信号に由来する非目的信号区間サンプルを用い、前記非目的信号区間サンプルと同一のチャネルの目的信号区間の時系列信号に由来する目的信号区間サンプルを正規化し、前記複数チャネルのそれぞれの正規化サンプルを得る正規化部を有し、
    前記複数チャネルのサンプルのそれぞれは、前記正規化サンプルに由来するものである、分類装置。
  4. 請求項3の分類装置であって、
    前記複数チャネルのそれぞれの正規化サンプルは周波数領域の値であり、
    前記複数チャネルのサンプルのそれぞれは、周波数ごとに定められた重みによる、すべての周波数にわたる前記正規化サンプルの重み付け和である、分類装置。
  5. 請求項1から4の何れかの分類装置であって、
    前記複数チャネルの時系列信号に由来するデジタル信号のサンプリング周波数変換を行い、互いにサンプリング周波数が同一な前記複数チャネルの変換時系列信号を得るサンプリング周波数変換部と、
    前記変換時系列信号を前記複数チャネル間で同期させ、前記複数チャネルの同期化時系列信号を得る信号同期部と、を有し、
    前記複数チャネルのサンプルは、前記複数チャネルの同期化時系列信号に由来するものである、分類装置。
  6. 請求項1から5の何れかの分類装置であって、
    前記複数チャネルの時系列信号は、1個または複数個の信号源から発せられた信号が複数チャネルの観測装置で観測されることで得られた信号である、分類装置。
  7. 行列生成部で、観測された複数チャネルの時系列信号に由来する、所定の時間区間のそれぞれの時点に対応する前記複数チャネルのサンプルからなる列を、列ベクトルのそれぞれとした第1行列を得る行列生成ステップと、
    行列分解部で、非負値の要素からなる第2行列に非負値の要素からなる第3行列を乗じると前記第1行列となる、前記第2行列を得る行列分解ステップと、
    ベクトル分類部で、前記第2行列の列ベクトルをクラスタリングするベクトル分類ステップと、
    を有する分類方法。
  8. 請求項1から6の何れかの分類装置の各部としてコンピュータを機能させるためのプログラム。
JP2014080383A 2014-04-09 2014-04-09 分類装置、分類方法、およびプログラム Active JP6167062B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014080383A JP6167062B2 (ja) 2014-04-09 2014-04-09 分類装置、分類方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014080383A JP6167062B2 (ja) 2014-04-09 2014-04-09 分類装置、分類方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2015200823A JP2015200823A (ja) 2015-11-12
JP6167062B2 true JP6167062B2 (ja) 2017-07-19

Family

ID=54552106

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014080383A Active JP6167062B2 (ja) 2014-04-09 2014-04-09 分類装置、分類方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6167062B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113921033A (zh) * 2021-09-29 2022-01-11 四川新网银行股份有限公司 一种话务环境下单通道语音分离方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5611119B2 (ja) * 2011-05-19 2014-10-22 株式会社日立製作所 音響シミュレータ、音響コンサルティング装置及びそれらの処理方法
JP5784075B2 (ja) * 2012-11-05 2015-09-24 日本電信電話株式会社 信号区間分類装置、信号区間分類方法、およびプログラム

Also Published As

Publication number Publication date
JP2015200823A (ja) 2015-11-12

Similar Documents

Publication Publication Date Title
Nguyen et al. Robust source counting and DOA estimation using spatial pseudo-spectrum and convolutional neural network
JP6289936B2 (ja) 音源方向推定装置、音源方向推定方法およびプログラム
US10839309B2 (en) Data training in multi-sensor setups
JP6027087B2 (ja) スペクトル挙動の変換を実行する音響信号処理システム及び方法
Grais et al. Raw multi-channel audio source separation using multi-resolution convolutional auto-encoders
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
US10262678B2 (en) Signal processing system, signal processing method and storage medium
US9437208B2 (en) General sound decomposition models
Tan et al. Evaluation of a Sparse Representation-Based Classifier For Bird Phrase Classification Under Limited Data Conditions.
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP2019144467A (ja) マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
JP2019045576A (ja) 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム
JPWO2019171457A1 (ja) 音源分離装置、音源分離方法およびプログラム
JP5974901B2 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP6606784B2 (ja) 音声処理装置および音声処理方法
JP2009053349A (ja) 信号分離装置、信号分離方法、プログラム及び記録媒体
JP5705190B2 (ja) 音響信号強調装置、音響信号強調方法、およびプログラム
JP5784075B2 (ja) 信号区間分類装置、信号区間分類方法、およびプログラム
JP6167062B2 (ja) 分類装置、分類方法、およびプログラム
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
Tanweer et al. Analysis of combined use of nn and mfcc for speech recognition
US11322169B2 (en) Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program
JP6285855B2 (ja) フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム
Baranwal et al. A speech recognition technique using mfcc with dwt in isolated hindi words
JP6063843B2 (ja) 信号区間分類装置、信号区間分類方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160714

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170626

R150 Certificate of patent or registration of utility model

Ref document number: 6167062

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150