JP6167062B2 - 分類装置、分類方法、およびプログラム - Google Patents
分類装置、分類方法、およびプログラム Download PDFInfo
- Publication number
- JP6167062B2 JP6167062B2 JP2014080383A JP2014080383A JP6167062B2 JP 6167062 B2 JP6167062 B2 JP 6167062B2 JP 2014080383 A JP2014080383 A JP 2014080383A JP 2014080383 A JP2014080383 A JP 2014080383A JP 6167062 B2 JP6167062 B2 JP 6167062B2
- Authority
- JP
- Japan
- Prior art keywords
- matrix
- unit
- signal
- channels
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
まず、実施形態の概要を説明する。以下に説明する信号源分類では、行列生成部が、観測された複数チャネルの時系列信号に由来する、所定の時間区間のそれぞれの時点に対応する複数チャネルのサンプルからなる列を、列ベクトルのそれぞれとした第1行列を得る。第1行列の各行は各チャネルに対応し、第1行列の各列は各時点に対応する。「複数チャネルの時系列信号」は、1個または複数個の信号源から発せられた信号(源信号)が複数チャネルの観測装置(複数個の観測装置)で観測されることで得られた信号である。複数チャネルのそれぞれのチャネルは、複数個の観測装置のそれぞれの観測装置で観測された時系列信号に由来するサンプルを扱う処理系列である。時系列信号の例は、音響信号や超音波信号や生体信号などの物理信号である。「複数チャネルのサンプル」は、時間領域の値であってもよいし、周波数領域の値であってもよい。各チャネルのサンプルは、観測された各チャネルの時系列信号の大きさに対応する。例えば、観測されたチャネルの「時系列信号」の大きさが大きければ大きいほど、そのチャネルの「サンプル」の大きさも大きい。「αの大きさ」の例は、αのパワー、αの振幅、αの絶対値の単調増加関数値、αの絶対値の広義単調増加関数値などである。各チャネルのサンプルは例えば正値である。
[第1実施形態]
図1に例示するように、本形態の分類装置1は、サンプリング周波数変換部11、信号同期部12、フレーム分割部13、VAD判定部14、正規化部15、バッファ部16、行列生成部17、行列分解部18、およびベクトル分類部19を有する。図2に例示するように、本形態の正規化部15は、音声非音声選択部151、パワー算出部152、暗騒音パワー算出部153、記憶部154、および暗騒音正規化部155を有する。本形態の分類装置1は、例えばCPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)やRAM(random-access memory)等のメモリ等を備える汎用または専用のコンピュータに所定のプログラムが読み込まれて構成される特別な装置である。なお、CPUは電子回路(circuitry)の一種であるが、その他の電子回路によって分類装置1の一部が構成されてもよい。分類装置1に入力されたデータおよび処理されたデータは、図示していないメモリに格納され、必要に応じて処理部から読み出される。
複数個の観測装置20−1,・・・,20−Kで得られた複数個のチャネルk=1,・・・,Kの入力デジタル音響信号xk(ik)(複数チャネルの時系列信号に由来するデジタル信号)は、サンプリング周波数変換部11に入力される。異なるチャネルkの入力デジタル音響信号xk(ik)は、異なるA/D変換器22−kで得られたものであるため、サンプリング周波数が異なる場合がある。サンプリング周波数変換部11は、すべてのチャネルk=1,・・・,Kの入力デジタル音響信号xk(ik)のサンプリング周波数を任意の同一のサンプリング周波数に揃える。言い換えると、サンプリング周波数変換部11は、複数個のチャネルk=1,・・・,Kの入力デジタル音響信号xk(ik)をサンプリング周波数変換し、特定のサンプリング周波数の変換デジタル音響信号cxk(ik)を複数個のチャネルk=1,・・・,Kについて得る。「特定のサンプリング周波数」は、A/D変換器22−1,・・・,22−Kの何れか一つのサンプリング周波数であってもよいし、その他のサンプリング周波数であってもよい。「特定のサンプリング周波数」の一例は16kHzである。サンプリング周波数変換部11は、各A/D変換器22−kのサンプリング周波数の公称値に基づいてサンプリング周波数変換を行う。すなわち、サンプリング周波数変換部11は、各A/D変換器22−kのサンプリング周波数の公称値でサンプリングされた信号を、特定のサンプリング周波数でサンプリングされた信号に変換する。このようなサンプリング周波数変換は周知である。サンプリング周波数変換部11は、以上のように得た各チャネルkの変換デジタル音響信号cxk(ik)(互いにサンプリング周波数が同一な複数チャネルの変換時系列信号)を出力する(ステップS11)。
信号同期部12は、チャネルk=1,・・・,Kの変換デジタル音響信号cx1(i1),・・・,cxK(iK)を入力として受け取る。信号同期部12は、変換デジタル音響信号cx1(i1),・・・,cxK(iK)をチャネルk=1,・・・,K間で同期させ、チャネルk=1,・・・,Kのデジタル音響信号sx1(i1),・・・,sxK(iK)(複数チャネルの同期化時系列信号)を得て出力する(ステップS12)。以下にこの詳細を説明する。
フレーム分割部13は、同期後のデジタル音響信号sx1(i1),・・・,sxK(iK)を入力として受け取る。フレーム分割部13は、チャネルkごとにデジタル音響信号sxk(ik)を所定の時間区間であるフレームに分割する(ステップS13)。このフレーム分割処理では、フレーム切り出し区間長(フレーム長)L点と切り出し区間のずらし幅m点を任意に決めることができる。ただし、Lおよびmは正整数である。例えば、Lおよびmは2以上の整数であり、L≧mである。例えば、切り出し区間長を2048点、切り出し区間のずらし幅を256点とする。フレーム分割部13は、チャネルkごとに切り出し区間長のデジタル音響信号sxk(ik)を切り出して出力する。さらにフレーム分割部13は、決められた切り出し区間のずらし幅に従い切り出し区間をずらし、チャネルkごとに上記切り出し区間長のデジタル音響信号sxk(ik)を切り出して出力する処理を繰り返す。以上の処理により、各チャネルkについて各フレームのデジタル音響信号が出力される。以下では、チャネルkのτ番目のフレームτに属するデジタル音響信号をsxk(ik,τ,0),・・・,sxk(ik,τ,L−1)と表現する。
VAD判定部14は、各チャネルkの各フレームτに属するデジタル音響信号sxk(ik,τ,0),・・・,sxk(ik,τ,L−1)を入力として受け取る。VAD判定部14は、入力されたデジタル音響信号を用い、各チャネルkの各フレームτが音声区間(目的信号区間)であるか非音声区間(非目的信号区間)であるかを判定する(ステップS14)。VAD判定部14は、例えば参考文献1に記載されたような周知技術を用い、フレームτが音声区間であるか非音声区間であるかの判定を行う。
[参考文献1]Jongseo Sohn, Nam Soo Kim, Wonyong Sung, “A Statistic Model-Based Voice Activity Detection,” IEEE SIGNAL PROCESSING LETTERS, VOL.6, NO.1, 1999.
正規化部15は、観測装置20−1,・・・,20−Kのマイクロホン21−1,・・・,21−Kの感度を正規化する処理を行う。すなわち正規化部15は、複数チャネルk=1,・・・,Kのそれぞれのチャネルkについて、非音声区間であると判断されたフレームτ0のデジタル音響信号sxk(ik,τ0,0),・・・,sxk(ik,τ0,L−1)(非目的信号区間の時系列信号に由来する非目的信号区間サンプル)を用い、音声区間であると判断されたそのチャネルkのフレームτ1のデジタル音響信号sxk(ik,τ1,0),・・・,sxk(ik,τ1,L−1)(非目的信号区間サンプルと同一のチャネルkの目的信号区間の時系列信号に由来する目的信号区間サンプル)を正規化し、複数チャネルk=1,・・・,Kのそれぞれの正規化サンプルを得る(ステップS15)。本形態では周波数領域で正規化を行う。以下、図2を参照してこの詳細を例示する。
音声非音声選択部151は、チャネルk=1,・・・,Kの各フレームτに属するデジタル音響信号sxk(ik,τ,0),・・・,sxk(ik,τ,L−1)とラベルθτとを入力として受け取る。音声非音声選択部151は、ラベルθτを用いて各フレームτが音声区間であるか非音声区間であるかを判別する。例えば、上述の例の場合、音声非音声選択部151は、θτ=1であればフレームτが音声区間であると判別し(音声区間と判別されたフレームを「フレームτ1」と表記する)、θτ=0であればフレームτが非音声区間であると判別する(非音声区間と判別されたフレームを「フレームτ0」と表記する)。音声非音声選択部151は、音声区間であると判別したフレームτ1のチャネルk=1,・・・,Kのデジタル音響信号sxk(ik,τ1,0),・・・,sxk(ik,τ1,L−1)をパワー算出部152に送る。また、音声非音声選択部151は、非音声区間であると判別したフレームτ0のチャネルk=1,・・・,Kのデジタル音響信号sxk(ik,τ0,0),・・・,sxk(ik,τ0,L−1)を暗騒音パワー算出部153に送る。
パワー算出部152は、音声区間であると判別されたフレームτ1のチャネルk=1,・・・,Kのデジタル音響信号sxk(ik,τ1,0),・・・,sxk(ik,τ1,L−1)を入力として受け取る。パワー算出部152は、高速フーリエ変換(FFT:Fast Fourier Transform)等の公知の方法を用い、k=1,・・・,Kのデジタル音響信号sxk(ik,τ1,0),・・・,sxk(ik,τ1,L−1)から周波数領域のデジタル音響信号SXk(f,τ1)を得る。ただし、f=fmin,・・・,fmaxは、所定の周波数範囲に属する各周波数に対応する周波数インデックスである。f,fmin,fmaxは整数であり、fmin≦f≦fmaxである。例えば、fmin=0かつfmax=L−1である。
Pk(f,τ1)=|SXk(f,τ1)|2
ただし、|α|はαの絶対値を意味する。パワー算出部152は、パワーPk(f,τ1)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)を暗騒音正規化部155に送る。
暗騒音パワー算出部153は、非音声区間であると判別されたフレームτ0のデジタル音響信号sxk(ik,τ0,0),・・・,sxk(ik,τ0,L−1)(ただし、k=1,・・・,K)を入力として受け取る。暗騒音パワー算出部153は、高速フーリエ変換等の公知の方法を用い、デジタル音響信号sxk(ik,τ0,0),・・・,sxk(ik,τ0,L−1)から周波数領域のデジタル音響信号SXk(f,τ0)を得る。次に、暗騒音パワー算出部153は、チャネルk=1,・・・,Kおよび周波数インデックスf=fmin,・・・,fmaxについて、周波数領域のデジタル音響信号SXk(f,τ1)のパワーPk(f,τ0)(周波数領域信号の大きさ、すなわち、非目的信号区間サンプル)を以下のように得る。
Pk(f,τ0)=|SXk(f,τ0)|2
暗騒音パワー算出部153は、パワーPk(f,τ0)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)を記憶部154に格納する。
ただし、Jは1以上の整数である。Jは2以上であることが望ましい。Jは定数(例えばJ=100)であってもよいし、これまでに非音声区間であると判別されたフレームの総数であってもよい。J個のフレームτ0(0),・・・,τ0(J−1)の選択方法に限定はないが、例えば、これまでに非音声区間であると判別されたフレームのうち、最も新しい互いに異なるJ個のフレーム(すなわち、互いに異なるJ個のフレームの組み合わせのうち、時間的に最も後のもの)をフレームτ0(0),・・・,τ0(J−1)とする。なお、Jが定数の場合、非音声区間であると判別された互いに異なるフレームがJ個存在しないこともある。このような場合には、フレームτ0(0),・・・,τ0(J−1)の少なくとも一部が互いに同一であってもよい。あるいは、Jが定数であり、これまでに非音声区間であると判別されたフレームの数がC個(ただし、1≦C<J)である場合には、これまでに非音声区間であると判別されたC個のフレームτ0(0),・・・,τ0(C−1)でのパワーPk(f,τ0(0)),・・・,Pk(f,τ0(C−1))を用い、以下のように暗騒音平均パワーMPk(f)を得てもよい。
暗騒音正規化部155は、パワーPk(f,τ1)および暗騒音平均パワーMPk(f)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)を入力として受け取る。これらの暗騒音平均パワーMPk(f)は、例えば、フレームτ1に対して最新のものである。暗騒音正規化部155は、暗騒音平均パワーMPk(f)を用いてパワーPk(f,τ1)を以下のように正規化し、正規化サンプルNPk(f,τ1)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)を得て出力する。
バッファ部16は、正規化サンプルNPk(f,τ1)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)を入力として受け取る。バッファ部16は、新たに正規化サンプルNPk(f,τ1)を受け取ると、すでにバッファリング(記憶)している正規化サンプルNPk(f,τ’)を正規化サンプルNPk(f,τ’−1)に更新し、新たに受け取った正規化サンプルNPk(f,τ1)を新たな正規化サンプルNPk(f,τ’)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)としてバッファリングする。なお、バッファ部16がバッファリングするフレーム数をTとする。ただし、Tは1以上の整数であり、2以上の整数であることが望ましい。例えば、T=100である。バッファ部16は、新たな正規化サンプルNPk(f,τ’)を受け取るたびに、過去にバッファリングした古い正規化サンプルNPk(f,τ’−T+1)(更新前)を破棄してもよいし、バッファリングしている正規化サンプルの個数がZ個(Z>T)を超えるまで保持し続けていてもよい。その後、バッファ部16は、T個のフレーム分の更新後の正規化サンプルNPk(f,τ’),・・・,NPk(f,τ’−T+1)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)を抽出し、これらを行列生成部17に送る。なお、バッファ部16がT個未満のY個のフレーム分の正規化サンプルしかバッファリングしていない場合、バッファ部16は、Y個のフレームτ’,・・・,τ’−Y+1について正規化サンプルNPk(f,τ’),・・・,NPk(f,τ’−Y+1)を送り、T−Y個のフレームτ’−Y,・・・,τ’−T+1について任意値を正規化サンプルNPk(f,τ’−Y),・・・,NPk(f,τ’−T+1)として送る。なお、任意値は定数(例えば0)であってもよいし、乱数であってもよいし、NPk(f,τ’),・・・,NPk(f,τ’−Y+1)の何れかであってもよい。あるいは、バッファ部16がT個以上のフレーム分の正規化サンプルをバッファリングするまで、正規化サンプルを出力しないことにしてもよい。
行列生成部17は、正規化サンプルNPk(f,τ’),・・・,NPk(f,τ’−T+1)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)を入力として受け取る。行列生成部17は、周波数(周波数インデックスfに対応する周波数ビン)ごとに定められた重みwk(f)による、すべての周波数(周波数インデックスfmin,・・・,fmaxにそれぞれ対応する周波数ビン)にわたる正規化サンプルNPk(f,μ)(ただし、μ=τ’,・・・,τ’−T+1)の重み付け和をサンプルPVk(μ)として得る。例えば、行列生成部17は、以下のようにサンプルPVk(μ)を得る。
ただし、k=1,・・・,K、μ=τ’,・・・,τ’−T+1である。重みwk(f)は、周波数ごとの重み付けを制御するための係数である。同一の周波数(周波数インデックスf)に対応する重みwk(f)は、複数チャネルk=1,・・・,Kの間で同一であってもよいし、そうでなくてもよい。ただし、同一の周波数(周波数インデックスf)に対応する重みwk(f)が複数チャネルk=1,・・・,Kの間で同一(すなわち、w1(f)=・・・=wK(f))であることが望ましい。音源分離精度が向上するからである。また、低域の周波数の分類精度を向上させるためには、周波数が低いほど重みwk(f)の大きさを大きくするか、あるいは、周波数の単調非減少関数値をwk(f)の大きさとする。逆に、低域の周波数の分類精度を向上させるためには、周波数が高いほどwk(f)の大きさを大きくするか、あるいは、周波数の広義単調増加関数値をwk(f)の大きさとする。すべての周波数で同じ重みにする場合は、例えば、wk(fmin)=・・・=wk(fmax)=1とする。あるいは、何れかの周波数に対応する重みwk(f’)を定数(例えば、wk(f’)=1)とし、それ以外の周波数に対応する重みを0にしてもよい。例えば、何れかの周波数(周波数インデックスf’に対応する周波数)に対応する重みwk(f’)を1とし、それ以外の周波数に対応する重みを0とする場合、行列生成部17は、式(1)を計算することなく、NPk(f’,μ)をそのままPVk(μ)として用いてもよい。
行列生成部17は、行列P(τ’)を行列分解部18に送る(ステップS17)。
行列分解部18は、行列P(τ’)を入力として受け取る。行列分解部18は、行列P(τ’)を、非負値の制約を付けた2つの行列W(τ’)およびH(τ’)(第2行列および第3行列)に分解する。
P(τ’)=W(τ’)H(τ’)
すなわち、行列W(τ’)(第2行列)および行列H(τ’)(第3行列)はそれぞれ非負値の要素からなり、行列W(τ’)に右側から行列H(τ’)を乗じると行列P(τ’)となる。行列W(τ’)はK行Q列の行列であり、行列H(τ’)はQ行T列の行列である。ただし、Qは正整数(例えば、Q≧2)である。このように得られる行列W(τ’)の要素は、それぞれ音源から発せられた源音(源信号)が観測装置20−kのマイクロホン21−kに到達するまでのパワーの減衰特性を表す。一方、行例H(τ’)の要素は、音源から発せられた源音のパワーを表す(ステップS18)。
ただし、行列αに対するαενは行列αのε行ν列目の要素を表し、行列βに対するβγλは行列βのγ行λ列目の要素を表す。また、「A←B」は得られたBを新たなAとすることを意味する。行列分解部18は、これらの更新式の計算を所定の終了条件を満たすまで繰り返す。終了条件の例は、(1)これらの更新式の計算が所定回数(例えば、20回)繰り返されたこと、(2)すべての要素について更新の前後でのW(τ’)ενの差およびH(τ’)γλの差が所定の範囲内になることなどである。行列分解部18は、得た行列W(τ’)をベクトル分類部19に送る。
ベクトル分類部19は、行列W(τ’)を入力として受け取る。ベクトル分類部19は、行列W(τ’)の各列q=1,・・・,Qの列ベクトルを減衰量ベクトルrq(τ’)として取り出し、抽出した減衰量ベクトルrq(τ’)のクラスタリングを行って、各減衰量ベクトルrq(τ’)が属する分類(クラスタ)を決定する。各行列W(τ’)からはQ個の減衰量ベクトルrq(τ’)を取り出すことができ、減衰量ベクトルrq(τ’)の次元数はチャネル数に等しいKである。減衰量ベクトルrq(τ’)は各音源からマイクロホン21−kまでの減衰特性を表しているため、音源が固定であれば、同じ音源に対応する減衰量ベクトルrq(τ’)は同程度となる。そのため、減衰量ベクトルrq(τ’)(q=1,・・・,Q)をクラスタリングすることで話者分類を行うことができる。また、源音のパワー成分の多くは行例H(τ’)に含まれ、減衰量ベクトルrq(τ’)にはほとんど含まれない。そのため、このような話者分類は源音のパワーの時間的な変動の影響を受けにくい。
ただし、CL∈SETは各クラスタのラベルであり、SETはクラスタの集合である。rCLはクラスタCLに属する減衰量ベクトルの重心ベクトルである。d(CL)は、クラスタCLの重心ベクトルrCLと入力された減衰量ベクトルrq(τ’)とのコサイン類似度を表す。初期のクラスタCLおよび重心ベクトルrCLが予め設定されていてもよいし、されていなくてもよい。初期のクラスタCLおよび重心ベクトルrCLが予め設定されていない場合には、例えば、最初に入力された減衰量ベクトルrq(τ’)が最初のクラスタCLの重心ベクトルrCLとなる。ベクトル分類部19は、入力された減衰量ベクトルrq(τ’)と各クラスタCL∈SETとの間の距離d(CL)を求める。ここで、すべてのクラスタCL∈SETからの距離d(CL)がある閾値THを上回る場合、ベクトル分類部19は、新たなクラスタCL’をクラスタの集合SETに追加し、当該減衰量ベクトルrq(τ’)が新たなクラスタCL’に属するものとして、新たなクラスタCL’の重心ベクトルrCL’を当該減衰量ベクトルrq(τ’)とする。一方、入力された減衰量ベクトルrq(τ’)との距離d(CL)が閾値TH以下となるクラスタCL∈SETが存在する場合、ベクトル分類部19は、当該クラスタCLに当該減衰量ベクトルrq(τ’)が属するものとして、当該クラスタCLの重心ベクトルrCLを以下のように更新する。
rCL=(1−φ)×rq(τ’)+φ×rq(τ’)
ただし、φは0≦φ≦1の定数である。なお、距離d(CL)が閾値TH以下となるクラスタCLが複数個存在する場合、ベクトル分類部19は、例えば、最初に距離d(CL)が閾値TH以下であると判断されたクラスタCLに当該減衰量ベクトルrq(τ’)が属するものとして、当該クラスタCLの重心ベクトルrCLを更新する。あるいは、ベクトル分類部19は、例えば、距離d(CL)が閾値TH以下であると判断されたクラスタCLのうちで最も距離d(CL)が小さいクラスタに当該減衰量ベクトルrq(τ’)が属するものとして、当該クラスタCLの重心ベクトルrCLを更新してもよい。あるいは、クトル分類部19は、例えば、距離d(CL)が閾値TH以下であると判断されたすべてのクラスタCLに当該減衰量ベクトルrq(τ’)が属するものとして、当該クラスタCLの重心ベクトルrCLを更新してもよい。以上によって得られた各クラスタCLは、音を発した各音源に対応する分類結果を表す。また、減衰量ベクトルrq(τ’)がクラスタCLに属することは、フレームτ’において当該減衰量ベクトルrq(τ’)が属するクラスタCLに対応する音源から音が発せられたことを示す。
本形態の実験結果を示す。実験では、K=5とし、観測装置21−1,・・・,21−5として5台程度のスマートフォンを用いた。直線配置ではない位置に配置された3個の音源から発せられた音をこれらのスマートフォンで録音した。録音された入力デジタル音響信号x1(i1),・・・,x5(i5)を分類装置1に入力し、上述の音源分離処理を行った。図4Aおよび図4Bに実験結果を示す。図4Aの横軸はフレーム番号μを表し、縦軸はサンプルPV1(μ),・・・,PVK(μ)を表す。図4Bの横軸はバッファ区間(100フレームからなる区間)番号を表し、縦軸は減衰量ベクトルとクラスタCL=1の重心ベクトルとのコサイン類似度の計算結果を示す。これらの図に示すように、音源1から音が発せられている区間ではコサイン類似度がほぼ0になり、音源2から音が発せられている区間ではコサイン類似度が0.15近傍に分布し、音源3から音が発せられている区間ではコサイン類似度が0.2近傍に分布する。これにより、クラスタリングによって適切に音源分離ができることが分かる。
観測装置20−1,・・・,20−Kのマイクロホン21−1,・・・,21−Kの感度が同じ(揃っている)場合や、マイクロホン21−1,・・・,21−Kの感度がキャリブレーションされることでそれらの感度の相違が補正される場合、正規化部15での正規化処理は不要となる。以下にこの変形例を説明する。
パワー算出部15’は、VAD判定部14から送られた、チャネルk=1,・・・,Kの各フレームτに属するデジタル音響信号sxk(ik,τ,0),・・・,sxk(ik,τ,L−1)とラベルθτとを入力として受け取る。パワー算出部15’は、ラベルθτを用いて各フレームτが音声区間であるか非音声区間であるかを判別する。パワー算出部15’は、高速フーリエ変換等の公知の方法を用い、音声区間であると判別したフレームτ1のチャネルk=1,・・・,Kのデジタル音響信号sxk(ik,τ1,0),・・・,sxk(ik,τ1,L−1)から周波数領域のデジタル音響信号SXk(f,τ1)を得る。さらに、パワー算出部15’は、チャネルk=1,・・・,Kおよび周波数インデックスf=fmin,・・・,fmaxについて、これらの周波数領域のデジタル音響信号SXk(f,τ1)のパワーPk(f,τ1)=|SXk(f,τ1)|2を得る。パワーPk(f,τ1)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)はバッファ部16’に送られる。
バッファ部16’は、パワーPk(f,τ1)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)を「正規化サンプルNPk(f,τ1)」として受け取る。その後のバッファ部16’の処理はバッファ部16と同じである。
第1実施形態では正規化部15でデジタル音響信号を周波数領域の信号に変換し、周波数領域で正規化を行った。しかしながら、時間領域で正規化を行ってもよい。以下にこのような形態を説明する。
正規化部25は、観測装置20−1,・・・,20−Kのマイクロホン21−1,・・・,21−Kの感度を正規化する処理を行う。すなわち正規化部25は、複数チャネルk=1,・・・,Kのそれぞれのチャネルkについて、非音声区間であると判断されたフレームτ0のデジタル音響信号sxk(ik,τ0,0),・・・,sxk(ik,τ0,L−1)(非目的信号区間の時系列信号に由来する非目的信号区間サンプル)を用い、音声区間であると判断されたそのチャネルkのフレームτ1のデジタル音響信号sxk(ik,τ1,0),・・・,sxk(ik,τ1,L−1)(非目的信号区間サンプルと同一のチャネルkの目的信号区間の時系列信号に由来する目的信号区間サンプル)を正規化し、複数チャネルk=1,・・・,Kのそれぞれの正規化サンプルを得る。本形態では時間領域で正規化を行う。以下、図2を参照してこの詳細を例示する。
音声非音声選択部251は、チャネルk=1,・・・,Kの各フレームτに属するデジタル音響信号sxk(ik,τ,0),・・・,sxk(ik,τ,L−1)とラベルθτとを入力として受け取る。音声非音声選択部151は、ラベルθτを用いて各フレームτが音声区間であるか非音声区間であるかを判別する。音声非音声選択部251は、音声区間であると判別したフレームτ1のチャネルk=1,・・・,Kのデジタル音響信号sxk(ik,τ1,0),・・・,sxk(ik,τ1,L−1)をパワー算出部252に送る。また、音声非音声選択部251は、非音声区間であると判別したフレームτ0のチャネルk=1,・・・,Kのデジタル音響信号sxk(ik,τ0,0),・・・,sxk(ik,τ0,L−1)を暗騒音パワー算出部253に送る。
パワー算出部252は、音声区間であると判別されたフレームτ1のチャネルk=1,・・・,Kのデジタル音響信号sxk(ik,τ1,0),・・・,sxk(ik,τ1,L−1)を入力として受け取る。パワー算出部252は、デジタル音響信号sxk(ik,τ1,0),・・・,sxk(ik,τ1,L−1)に対応するパワーPk(τ1)(時間領域信号の大きさ、すなわち、目的信号区間サンプル)を得る。例えば、パワー|sxk(ik,τ1,0)|,・・・,|sxk(ik,τ1,L−1)|の平均値をパワーPk(τ1)としてもよいし、パワー|sxk(ik,τ1,0)|,・・・,|sxk(ik,τ1,L−1)|の加算値をパワーPk(τ1)としてもよいし、これらに対して広義単調増加する値をパワーPk(τ1)としてもよい。パワー算出部252は、パワーPk(τ1)(ただし、k=1,・・・,K、f=fmin,・・・,fmax)を暗騒音正規化部255に送る。
暗騒音パワー算出部253は、非音声区間であると判別されたフレームτ0のデジタル音響信号sxk(ik,τ0,0),・・・,sxk(ik,τ0,L−1)(ただし、k=1,・・・,K)を入力として受け取る。暗騒音パワー算出部253は、デジタル音響信号sxk(ik,τ0,0),・・・,sxk(ik,τ0,L−1)に対応するパワーPk(τ0)(時間領域信号の大きさ、すなわち、非目的信号区間サンプル)を得る。例えば、パワー|sxk(ik,τ0,0)|,・・・,|sxk(ik,τ0,L−1)|の平均値をパワーPk(τ0)としてもよいし、パワー|sxk(ik,τ0,0)|,・・・,|sxk(ik,τ0,L−1)|の加算値をパワーPk(τ0)としてもよいし、これらに対して広義単調増加する値をパワーPk(τ0)としてもよい。暗騒音パワー算出部253は、パワーPk(τ0)(ただし、k=1,・・・,K)を記憶部254に格納する。
ただし、Jは1以上の整数である。Jは2以上であることが望ましい。Jは定数であってもよいし、これまでに非音声区間であると判別されたフレームの総数であってもよい。J個のフレームτ0(0),・・・,τ0(J−1)の選択方法に限定はないが、例えば、これまでに非音声区間であると判別されたフレームのうち、最も新しい互いに異なるJ個のフレーム(すなわち、互いに異なるJ個のフレームの組み合わせのうち、時間的に最も後のもの)をフレームτ0(0),・・・,τ0(J−1)とする。なお、Jが定数の場合、非音声区間であると判別された互いに異なるフレームがJ個存在しないこともある。このような場合には、フレームτ0(0),・・・,τ0(J−1)の少なくとも一部が互いに同一であってもよい。あるいは、Jが定数であり、これまでに非音声区間であると判別されたフレームの数がC個(ただし、1≦C<J)である場合には、これまでに非音声区間であると判別されたC個のフレームτ0(0),・・・,τ0(C−1)でのパワーPk(τ0(0)),・・・,Pk(τ0(C−1))を用い、以下のように暗騒音平均パワーMPkを得てもよい。
暗騒音正規化部255は、パワーPk(τ1)およびフレームτ1に対して最新の暗騒音平均パワーMPk(ただし、k=1,・・・,K)を入力として受け取る。暗騒音正規化部255は、暗騒音平均パワーMPkを用いてパワーPk(τ1)を以下のように正規化し、正規化サンプルNPk(τ1)(ただし、k=1,・・・,K)を得て出力する(ステップS25)。
バッファ部26は、正規化サンプルNPk(τ1)(ただし、k=1,・・・,K)を入力として受け取る。バッファ部26は、新たに正規化サンプルNPk(τ1)を受け取ると、すでにバッファリング(記憶)している正規化サンプルNPk(τ’)を正規化サンプルNPk(τ’−1)に更新し、新たに受け取った正規化サンプルNPk(τ1)を新たな正規化サンプルNPk(τ’)(ただし、k=1,・・・,K)としてバッファリングする。なお、バッファ部26がバッファリングするフレーム数をTとする。ただし、Tは1以上の整数であり、2以上の整数であることが望ましい。例えば、T=100である。バッファ部26は、新たな正規化サンプルNPk(τ’)を受け取るたびに、過去にバッファリングした古い正規化サンプルNPk(τ’−T+1)(更新前)を破棄してもよいし、バッファリングしている正規化サンプルの個数がZ個(Z>T)を超えるまで保持し続けていてもよい。その後、バッファ部26は、T個のフレーム分の更新後の正規化サンプルNPk(τ’),・・・,NPk(τ’−T+1)(ただし、k=1,・・・,K)を抽出し、これらを行列生成部27に送る。なお、バッファ部26がT個未満のY個のフレーム分の正規化サンプルしかバッファリングしていない場合、バッファ部26は、Y個のフレームτ’,・・・,τ’−Y+1について正規化サンプルNPk(τ’),・・・,NPk(τ’−Y+1)を送り、T−Y個のフレームτ’−Y,・・・,τ’−T+1について任意値を正規化サンプルNPk(τ’−Y),・・・,NPk(τ’−T+1)として送る。なお、任意値は定数(例えば0)であってもよいし、乱数であってもよいし、NPk(τ’),・・・,NPk(τ’−Y+1)の何れかであってもよい。あるいは、バッファ部26がT個以上のフレーム分の正規化サンプルをバッファリングするまで、正規化サンプルを出力しないことにしてもよい。
行列生成部27は、正規化サンプルNPk(τ’),・・・,NPk(τ’−T+1)をサンプルPVk(τ’),・・・,PVk(τ’−T+1)として受け取る(ただし、k=1,・・・,K)。言い換えると、行列生成部27は、サンプルPV1(μ),・・・,PVK(μ)(ただし、μ=τ’,・・・,τ’−T+1)を入力として受け取る。このように得られたサンプルPV1(μ),・・・,PVK(μ)は、観測された複数チャネルk=1,・・・,Kの時系列信号に由来する、所定の時間区間のそれぞれの時点μに対応する複数チャネルk=1,・・・,Kのサンプルである。行列生成部27は、サンプルPV1(μ),・・・,PVK(μ)からなる列をμ列目(ただし、μ=τ’,・・・,τ’−T+1)の列ベクトルとしたK行T列の行列Pτ’(第1行列)を以下のように得る。
行列生成部27は、行列P(τ’)を行列分解部18に送る(ステップS27)。
第2実施形態でも、観測装置20−1,・・・,20−Kのマイクロホン21−1,・・・,21−Kの感度が同じ(揃っている)場合や、マイクロホン21−1,・・・,21−Kの感度がキャリブレーションされることでそれらの感度の相違が補正される場合、正規化部25の処理のうちパワー算出部252での正規化処理は不要となる。以下にこの変形例を説明する。
パワー算出部25’は、VAD判定部14から送られた、チャネルk=1,・・・,Kの各フレームτに属するデジタル音響信号sxk(ik,τ,0),・・・,sxk(ik,τ,L−1)とラベルθτとを入力として受け取る。パワー算出部25’は、ラベルθτを用いて各フレームτが音声区間であるか非音声区間であるかを判別する。パワー算出部25’は、パワー算出部252と同様に、音声区間であると判別したフレームτ1のチャネルk=1,・・・,Kのデジタル音響信号sxk(ik,τ1,0),・・・,sxk(ik,τ1,L−1)に対応するパワーPk(τ1)(時間領域信号の大きさ、すなわち、目的信号区間サンプル)を得る。パワーPk(τ1)(ただし、k=1,・・・,K)はバッファ部26’に送られる。
バッファ部26’は、パワーPk(τ1)(ただし、k=1,・・・,K)を「正規化サンプルNPk(τ1)」として受け取る。その後のバッファ部26’の処理はバッファ部26と同じである。
各実施形態およびその変形例では、自由に配置した複数個のスマートフォン、固定電話、ボイスレコーダ、タブレット端末装置、セットトップボックスなどの録音機能をもつ観測装置で得たデジタル音響信号から、音源の位置に基づいて、音響信号の区間分類を行うことができる。すなわち、音源から複数の観測装置までの間の減衰特性を行列分解によって抽出して分類のパラメータとして用いることで、音源の位置に基づいた音響信号の区間分類を行うことができる。音源の位置に基づいて音響信号の区間分類を行うため、源信号の大きさの時間的な変動の影響を受けにくい。このように得られた音響信号の区間分類結果から、目的とする音響信号区間の抽出が可能になる。また、区間分類結果を用いて目的音の区間とその他の音源の区間に分類ができるため、雑音を抑圧して目的音を強調するフィルタを設計するための情報として利用できる。
なお、本発明は上述の実施の形態に限定されるものではない。例えば、各観測装置20−kのマイクロホン22−kの感度の正規化は、行列生成部での処理より前に行われれば、どの時点で行われてもよい。例えば、フレーム分割部、VAD判定部、および正規化部の処理が、サンプリング周波数変換部11の処理と信号同期化部12の処理との間に行われてもよいし、サンプリング周波数変換部11の処理の前に行われてもよい。例えば、レーム分割部、VAD判定部、および正規化部の処理が、分類装置ではなく、観測装置で行われてよい。
20−k 観測装置
Claims (8)
- 観測された複数チャネルの時系列信号に由来する、所定の時間区間のそれぞれの時点に対応する前記複数チャネルのサンプルからなる列を、列ベクトルのそれぞれとした第1行列を得る行列生成部と、
非負値の要素からなる第2行列に非負値の要素からなる第3行列を乗じると前記第1行列となる、前記第2行列を得る行列分解部と、
前記第2行列の列ベクトルをクラスタリングするベクトル分類部と、
を有する分類装置。 - 請求項1の分類装置であって、
前記第2行列の要素は、前記時系列信号が観測されるまでの減衰特性に対応し、
前記第3行例の要素は、前記時系列信号の源信号成分に対応する、分類装置。 - 請求項1または2の分類装置であって、
前記複数チャネルのそれぞれのチャネルの非目的信号区間の時系列信号に由来する非目的信号区間サンプルを用い、前記非目的信号区間サンプルと同一のチャネルの目的信号区間の時系列信号に由来する目的信号区間サンプルを正規化し、前記複数チャネルのそれぞれの正規化サンプルを得る正規化部を有し、
前記複数チャネルのサンプルのそれぞれは、前記正規化サンプルに由来するものである、分類装置。 - 請求項3の分類装置であって、
前記複数チャネルのそれぞれの正規化サンプルは周波数領域の値であり、
前記複数チャネルのサンプルのそれぞれは、周波数ごとに定められた重みによる、すべての周波数にわたる前記正規化サンプルの重み付け和である、分類装置。 - 請求項1から4の何れかの分類装置であって、
前記複数チャネルの時系列信号に由来するデジタル信号のサンプリング周波数変換を行い、互いにサンプリング周波数が同一な前記複数チャネルの変換時系列信号を得るサンプリング周波数変換部と、
前記変換時系列信号を前記複数チャネル間で同期させ、前記複数チャネルの同期化時系列信号を得る信号同期部と、を有し、
前記複数チャネルのサンプルは、前記複数チャネルの同期化時系列信号に由来するものである、分類装置。 - 請求項1から5の何れかの分類装置であって、
前記複数チャネルの時系列信号は、1個または複数個の信号源から発せられた信号が複数チャネルの観測装置で観測されることで得られた信号である、分類装置。 - 行列生成部で、観測された複数チャネルの時系列信号に由来する、所定の時間区間のそれぞれの時点に対応する前記複数チャネルのサンプルからなる列を、列ベクトルのそれぞれとした第1行列を得る行列生成ステップと、
行列分解部で、非負値の要素からなる第2行列に非負値の要素からなる第3行列を乗じると前記第1行列となる、前記第2行列を得る行列分解ステップと、
ベクトル分類部で、前記第2行列の列ベクトルをクラスタリングするベクトル分類ステップと、
を有する分類方法。 - 請求項1から6の何れかの分類装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014080383A JP6167062B2 (ja) | 2014-04-09 | 2014-04-09 | 分類装置、分類方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014080383A JP6167062B2 (ja) | 2014-04-09 | 2014-04-09 | 分類装置、分類方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015200823A JP2015200823A (ja) | 2015-11-12 |
JP6167062B2 true JP6167062B2 (ja) | 2017-07-19 |
Family
ID=54552106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014080383A Active JP6167062B2 (ja) | 2014-04-09 | 2014-04-09 | 分類装置、分類方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6167062B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113921033A (zh) * | 2021-09-29 | 2022-01-11 | 四川新网银行股份有限公司 | 一种话务环境下单通道语音分离方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5611119B2 (ja) * | 2011-05-19 | 2014-10-22 | 株式会社日立製作所 | 音響シミュレータ、音響コンサルティング装置及びそれらの処理方法 |
JP5784075B2 (ja) * | 2012-11-05 | 2015-09-24 | 日本電信電話株式会社 | 信号区間分類装置、信号区間分類方法、およびプログラム |
-
2014
- 2014-04-09 JP JP2014080383A patent/JP6167062B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015200823A (ja) | 2015-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nguyen et al. | Robust source counting and DOA estimation using spatial pseudo-spectrum and convolutional neural network | |
JP6289936B2 (ja) | 音源方向推定装置、音源方向推定方法およびプログラム | |
US10839309B2 (en) | Data training in multi-sensor setups | |
JP6027087B2 (ja) | スペクトル挙動の変換を実行する音響信号処理システム及び方法 | |
Grais et al. | Raw multi-channel audio source separation using multi-resolution convolutional auto-encoders | |
JP6195548B2 (ja) | 信号解析装置、方法、及びプログラム | |
US10262678B2 (en) | Signal processing system, signal processing method and storage medium | |
US9437208B2 (en) | General sound decomposition models | |
Tan et al. | Evaluation of a Sparse Representation-Based Classifier For Bird Phrase Classification Under Limited Data Conditions. | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
JP2019144467A (ja) | マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム | |
JP2019045576A (ja) | 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム | |
JPWO2019171457A1 (ja) | 音源分離装置、音源分離方法およびプログラム | |
JP5974901B2 (ja) | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム | |
JP6606784B2 (ja) | 音声処理装置および音声処理方法 | |
JP2009053349A (ja) | 信号分離装置、信号分離方法、プログラム及び記録媒体 | |
JP5705190B2 (ja) | 音響信号強調装置、音響信号強調方法、およびプログラム | |
JP5784075B2 (ja) | 信号区間分類装置、信号区間分類方法、およびプログラム | |
JP6167062B2 (ja) | 分類装置、分類方法、およびプログラム | |
JP6724290B2 (ja) | 音響処理装置、音響処理方法、及び、プログラム | |
Tanweer et al. | Analysis of combined use of nn and mfcc for speech recognition | |
US11322169B2 (en) | Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program | |
JP6285855B2 (ja) | フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム | |
Baranwal et al. | A speech recognition technique using mfcc with dwt in isolated hindi words | |
JP6063843B2 (ja) | 信号区間分類装置、信号区間分類方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160714 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170620 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170626 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6167062 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |