JP5784075B2 - 信号区間分類装置、信号区間分類方法、およびプログラム - Google Patents

信号区間分類装置、信号区間分類方法、およびプログラム Download PDF

Info

Publication number
JP5784075B2
JP5784075B2 JP2013126668A JP2013126668A JP5784075B2 JP 5784075 B2 JP5784075 B2 JP 5784075B2 JP 2013126668 A JP2013126668 A JP 2013126668A JP 2013126668 A JP2013126668 A JP 2013126668A JP 5784075 B2 JP5784075 B2 JP 5784075B2
Authority
JP
Japan
Prior art keywords
signal
channels
digital acoustic
feature quantity
sample sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013126668A
Other languages
English (en)
Other versions
JP2014112190A (ja
Inventor
達也 加古
達也 加古
小林 和則
和則 小林
仲 大室
仲 大室
羽田 陽一
陽一 羽田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013126668A priority Critical patent/JP5784075B2/ja
Publication of JP2014112190A publication Critical patent/JP2014112190A/ja
Application granted granted Critical
Publication of JP5784075B2 publication Critical patent/JP5784075B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、複数個のチャネルのデジタル音響信号から音源位置に基づいた信号区間分類を行う技術に関する。
複数のマイクロホンを利用して信号区間を分類する手法には、マイクロホンアレーを使った技術がある。マイクロホンアレーとは、2個以上のマイクを利用して音を観測し、信号処理を施す技術である。このマイクロホンアレーを利用して複数のマイクロホンで観測された音の波形をフレームごとに分割し、各フレームにおける全てのマイクペアに関して音声の到来時間差を推定する。推定した全てのマイクペアにおける到来時間差の値から到来時間差のベクトルとする。到来時間差のベクトルから到来方向ベクトルを求め、到来方向ベクトルをクラスタリングすることで各話者の発話区間である信号区間を分類する(例えば、非特許文献1等参照)。
荒木章子,藤本雅清,石塚健太郎,澤田宏,牧野昭二,"音声区間検出と方向情報を用いた会議音声話者識別システムとその評価," 音講論(春),pp.1−2,2008.
従来手法のマイクロホンアレーを利用した音源方向に基づいて信号区間を分類する手法では、マイクロホンの相対位置関係が既知である必要がある。そのため自由に配置されたマイクロホンで観測して得られたデジタル音響信号に対しては、従来のマイクロホンアレー処理を行い、音源方向に基づいて信号区間を分類することが出来ない。
本発明の課題は、観測位置が未知な複数個のチャネルのデジタル音響信号から、音源位置に基づいた信号区間分類を行うことである。
本発明では、チャネルごとに音声区間のデジタル音響信号の大きさを非音声区間のデジタル音響信号の大きさで正規化して特徴量を得て、複数個のチャネルに対して得られた特徴量からなる特徴量列をクラスタリングし、当該特徴量列が属する信号区間分類を決定する。
本発明では、音声区間のデジタル音響信号の大きさを非音声区間のデジタル音響信号の大きさで正規化して得られる特徴量を用いるため、観測位置が未知な複数個のチャネルのデジタル音響信号から、音源位置に基づいた信号区間分類を行うことができる。
図1は実施形態の信号区間分類装置の構成を説明するためのブロック図である。 図2は実施形態の信号区間分類方法を説明するためのフロー図である。 図3Aは各チャネルのデジタル音響信号から算出したS/Nベクトルの成分ごとの時間変化を例示する図であり、図3Bは信号区間分類結果を例示する図である。 図4Aは各チャネルのデジタル音響信号から算出したS/Nベクトルの成分ごとの時間変化を例示する図であり、図4Bは信号区間分類結果を例示する図である。
以下、図面を参照して本発明の実施形態を説明する。
[第1実施形態]
図1に例示するように、本形態の信号区間分類装置10は、サンプリング周波数変換部11、信号同期部12、フレーム分割部13、VAD判定部14、S/Nベクトル生成部15(特徴量列取得部)、記憶部16、およびベクトル分類部17(分類部)を有する。本形態の信号区間分類装置10は、例えばCPU(central processing unit)やRAM(random-access memory)等を備える公知のコンピュータに所定のプログラムが読み込まれて構成される特別な装置である。信号区間分類装置10に入力されたデータおよび処理されたデータは、図示していないメモリに格納され、必要に応じて処理部から読み出される。
信号区間分類装置10は、自由に配置されたK個(Kは2以上の整数)の観測装置20−1,・・・,20−Kに接続されている。観測装置20−1,・・・,20−Kの位置や互いの相対位置は、未知であってもよいし、既知であってもよい。ただし、観測装置20−1,・・・,20−Kの位置がすべて同一でないことが好ましく、より好ましくは観測装置20−1,・・・,20−Kの位置が互いに相違することが望ましい。また各観測装置20−k(k=1,2,・・・,K)は、マイクロホン21−kおよびA/D変換器22−kを有する。観測装置20−1,・・・,20−Kは互いに独立に動作する。マイクロホン21−1,・・・,21−Kの感度は、互いに異なっていてもよいし、同一であってもよく、A/D変換器22−1,・・・,22−Kのサンプリング周波数は、互いに異なっていてもよいし、同一であってもよい。観測装置20−1,・・・,20−Kの具体例は、互いにサンプリング周波数およびマイクロホン感度が異なる、スマートフォン、固定電話、ボイスレコーダなどの録音機能をもつ端末装置である。
各観測装置20−kのマイクロホン21−kは音響信号を観測する。各マイクロホン21−kで観測された音響信号はA/D変換器22−kに入力される。各A/D変換器22−kはそれぞれのサンプリング周波数で当該音響信号をA/D変換し、複数個のサンプル点での入力デジタル音響信号x(i)を得て出力する。ただし、iは時間領域のサンプル点を表す整数のインデックスである。すなわち、x(i)は、インデックスiで表されるサンプル点の入力デジタル音響信号を表す。
観測装置20−kで得られた入力デジタル音響信号x(i)に対応する処理を行う処理系列をチャネルkと呼ぶ。言い換えると、A/D変換器22−kで音響信号を変換して得られた入力デジタル音響信号x(i)に対応する処理を行う処理系列をチャネルkと呼ぶ。すなわち、チャネルkは入力デジタル音響信号x(i)および入力デジタル音響信号x(i)から得られる値を取り扱う。本形態ではK個のチャネルk=1,・・・,Kが存在する。
<サンプリング周波数変換部11>
複数個の観測装置20−1,・・・,20−Kで得られた複数個のチャネルk=1,・・・,Kの入力デジタル音響信号x(i)は、サンプリング周波数変換部11に入力される。異なるチャネルkの入力デジタル音響信号x(i)は、異なるA/D変換器22−kで得られたものであるため、サンプリング周波数が異なる場合がある。サンプリング周波数変換部11は、すべてのチャネルk=1,・・・,Kの入力デジタル音響信号x(i)のサンプリング周波数を任意の同一のサンプリング周波数に揃える。言い換えると、サンプリング周波数変換部11は、複数個のチャネルk=1,・・・,Kの入力デジタル音響信号x(i)をサンプリング周波数変換し、特定のサンプリング周波数の変換デジタル音響信号cx(i)を複数個のチャネルk=1,・・・,Kについて得る。「特定のサンプリング周波数」は、A/D変換器22−1,・・・,22−Kの何れか一つのサンプリング周波数であってもよいし、その他のサンプリング周波数であってもよい。「特定のサンプリング周波数」の一例は16kHzである。サンプリング周波数変換部11は、各A/D変換器22−kのサンプリング周波数の公称値に基づいてサンプリング周波数変換を行う。すなわち、サンプリング周波数変換部11は、各A/D変換器22−kのサンプリング周波数の公称値でサンプリングされた信号を、特定のサンプリング周波数でサンプリングされた信号に変換する。このようなサンプリング周波数変換は周知である。サンプリング周波数変換部11は、以上のように得た各チャネルkの変換デジタル音響信号cx(i)を出力する(ステップS11)。
<信号同期部12>
信号同期部12は、チャネルk=1,・・・,Kの変換デジタル音響信号cx(i),・・・,cx(i)を入力として受け取る。信号同期部12は、変換デジタル音響信号cx(i),・・・,cx(i)をチャネルk=1,・・・,K間で同期させ、チャネルk=1,・・・,Kのデジタル音響信号sx(i),・・・,sx(i)を得て出力する(ステップS12)。以下にこの詳細を説明する。
A/D変換器22−kには個体差がある。そのためA/D変換器22−kのサンプリング周波数の公称値がfであったとしても、A/D変換器22−kがサンプリング周波数f/αでA/D変換を行う場合もある。ただし、αはA/D変換器22−kの実際のサンプリング周波数とサンプリング周波数の公称値との間の周波数ずれを表す正のパラメータである。音響信号をサンプリング周波数fでA/D変換して得られる入力デジタル音響信号をx’(i)とおくと、同じ音響信号をサンプリング周波数f/αでA/D変換して得られる入力デジタル音響信号はx’(i×α)となる。ただし「×」は乗算演算子を表す。すなわち、サンプリング周波数の周波数ずれは、入力デジタル音響信号の時間領域でのタイミングずれとなって現れる。
サンプリング周波数変換部11は、各A/D変換器22−kのサンプリング周波数の公称値fに基づいてサンプリング周波数変換を行っている。すなわち、すべてのチャネルk=1,・・・,Kに共通の「特定のサンプリング周波数」をfとすると、サンプリング周波数変換部11は、各チャネルkのサンプリング周波数をf/f倍にするサンプリング周波数変換を行っている。そのため、各A/D変換器22−kの実際のサンプリング周波数がf/αであるとすると、各チャネルkの変換デジタル音響信号cx(i)のサンプリング周波数はf×αとなる。この個体差に基づく周波数ずれは、チャネルk=1,・・・,K間における、変換デジタル音響信号cx(i)の時間領域でのタイミングずれとなって現れる。
信号同期部12は、個体差に基づく変換デジタル音響信号cx(i)の時間領域でのタイミングずれを減らすために、時間領域の変換デジタル音響信号cx(i),・・・,cx(i)をチャネルk=1,・・・,K間で同期させる。例えば信号同期部12は、チャネル間の相互相関が最大になるように、変換デジタル音響信号cx(i),・・・,cx(i)を時間軸方向(サンプル点方向)に互いにずらし、同期後のデジタル音響信号sx(i),・・・,sx(i)を得る。
例えば信号同期部12は、各チャネルkの変換デジタル音響信号cx(i)から、単語の発話など十分特徴的な波形の変化を観測できる長さ(例えば3秒)のサンプル列cx(1),・・・,cx(I)をとりだす(ステップS121)。ただし、Iは正整数を表す。次に信号同期部12は、取り出したサンプル列のうち1つのチャネルk’∈{1,・・・,K}のサンプル列cxk’(1),・・・,cxk’(I)を基準サンプル列とする(ステップS122)。次に信号同期部12は、チャネルk’以外のチャネルk”∈{1,・・・,K}(k”≠k’)のサンプル列cxk”(1),・・・,cxk”(I)を時間軸にずらしたサンプル列cxk”(1+τk”),・・・,cxk”(I+τk”)と基準サンプル列cxk’(1),・・・,cxk’(I)との相互相関Σ{cxk”(n)×cxk’(n)}を最大にする遅延τk”を所定の探索範囲から探索し、sxk”(ik”)=cxk”(ik”+τk”)およびsxk’(ik’)=cxk’(ik’)とする(ステップS123)。さらに信号同期部12は、サンプル列cx(1),・・・,cx(I)を切り出す範囲をシフトさせ(例えば1秒の時間に対応するサンプル点だけシフトさせ)、ステップS121〜S123の処理を実行する処理を繰り返し、同期後のデジタル音響信号sx(i),・・・,sx(i)をすべてのサンプル点について得て出力する。
<フレーム分割部13>
フレーム分割部13は、同期後のデジタル音響信号sx(i),・・・,sx(i)を入力として受け取る。フレーム分割部13は、チャネルkごとにデジタル音響信号sx(i)を所定の時間区間であるフレームに分割する(ステップS13)。このフレーム分割処理では、フレーム切り出し区間長(フレーム長)L点と切り出し区間のずらし幅m点を任意に決めることができる。ただし、Lおよびmは正整数である。例えば、切り出し区間長を2048点、切り出し区間のずらし幅を256点とする。フレーム分割部13は、チャネルkごとに切り出し区間長のデジタル音響信号sx(i)を切り出して出力する。さらにフレーム分割部13は、決められた切り出し区間のずらし幅に従い切り出し区間をずらし、チャネルkごとに上記切り出し区間長のデジタル音響信号sx(i)を切り出して出力する処理を繰り返す。以上の処理により、各チャネルkについて各フレームのデジタル音響信号が出力される。以下では、チャネルkのr番目のフレームrに属するデジタル音響信号をsx(ik,r,0),・・・,sx(ik,r,L−1)と表現する。
<VAD判定部14>
VAD判定部14は、各チャネルkの各フレームrに属するデジタル音響信号sx(ik,r,0),・・・,sx(ik,r,L−1)を入力として受け取る。VAD判定部14は、入力されたデジタル音響信号を用い、各チャネルkの各フレームrが音声区間であるか非音声区間であるかを判定する(ステップS14)。VAD判定部14は、例えば参考文献1に記載されたような周知技術を用い、フレームrが音声区間であるか非音声区間であるかの判定を行う。
[参考文献1]Jongseo Sohn, Nam Soo Kim, Wonyong Sung, “A Statistic Model-Based Voice Activity Detection,” IEEE SIGNAL PROCESSING LETTERS, VOL.6, NO.1, 1999.
これらの判定に基づき、VAD判定部14は、各フレームrに対し、音声区間であるか非音声区間であるかの判定結果を表すラベルθを付与する。例えば、「フレームrが音声区間であると判定されたチャネルの個数」が「フレームrが非音声区間であると判定されたチャネルの個数」以上である場合、VAD判定部14は、フレームrが音声区間であると判定し、音声区間であることを表すラベルθをフレームrに対して付与する。一方、「フレームrが音声区間であると判定されたチャネルの個数」が「フレームrが非音声区間であると判定されたチャネルの個数」未満である場合、VAD判定部14は、フレームrが非音声区間であると判定し、非音声区間であることを表すラベルθをフレームrに対して付与する。その他、チャネルk=1,・・・,Kのうち、デジタル音響信号sx(ik,r,0),・・・,sx(ik,r,L−1)の平均パワーや平均S/N比が最も大きなチャネルに対する判定結果を表すラベルθをフレームrに付与してもよい。また、音声区間であることを表すラベルの例はθ=1であり、非音声区間であることを表すラベルの例はθ=0である。VAD判定部14は、各ラベルθを出力する。
<S/Nベクトル生成部15>
S/Nベクトル生成部15は、各チャネルkの各フレームrのデジタル音響信号sx(ik,r,0),・・・,sx(ik,r,L−1)およびラベルθを入力として受け取る。S/Nベクトル生成部15は、チャネルkごとに音声区間のデジタル音響信号の大きさを非音声区間のデジタル音響信号の大きさで正規化した特徴量を得、チャネルk=1,・・・,Kに対して得られた特徴量を要素とするS/Nベクトル(特徴量列)を得て出力する(ステップS15)。「特徴量」の例は、非音声区間のデジタル音響信号の大きさに対する音声区間のデジタル音響信号の大きさの比を表す値である。「デジタル音響信号の大きさ」の例は、デジタル音響信号のパワーや絶対値、デジタル音響信号のパワーの平均値や絶対値の平均値、デジタル音響信号のパワーの合計値や絶対値の合計値、それらの正負反転値や関数値などである。「比を表す特徴量」の例は、「非音声区間のデジタル音響信号の大きさに対する音声区間のデジタル音響信号の大きさの比」そのもの、その逆数その他の関数値である。以下では、デジタル音響信号のパワーの平均値を「デジタル音響信号の大きさ」とし、「非音声区間のデジタル音響信号の大きさに対する音声区間のデジタル音響信号の大きさの比」そのものを「特徴量」とした例を示す。
S/Nベクトル生成部15は、以下の処理を実行する。
[ステップS151]
S/Nベクトル生成部15は、rを1に初期化する。
[ステップS152]
S/Nベクトル生成部15は、ラベルθが音声区間を表すか非音声区間を表すかを判定する。
[ステップS153]
ラベルθが非音声区間を表す場合、S/Nベクトル生成部15は、すべてのチャネルk=1,・・・,Kについて、フレームrに属するデジタル音響信号sx(ik,r,0),・・・,sx(ik,r,L−1)の平均パワーP(k,r)を計算し(式(1)参照)、平均パワーP(k,r)をk番目の要素とする平均パワーベクトルP(r)=(P(1,r),・・・,P(K,r))を記憶部16に格納する。
Figure 0005784075
[ステップS154]
ラベルθが音声区間を表す場合、S/Nベクトル生成部15は、記憶部16に格納されている非音声区間のフレームr’の平均パワーベクトルP(r’)=(P(1,r’),・・・,P(K,r’))を取り出す。このフレームr’は処理対象のフレームrに近いことが望ましい。例えば、S/Nベクトル生成部15は、フレームrに最も近い非音声区間のフレームr’の平均パワーベクトルP(r’)を取り出す。なお、記憶部16には平均パワーベクトルの初期値も格納されている。平均パワーベクトルの初期値の例は、K個の定数(例えば1)を要素とするベクトルなどである。非音声区間の平均パワーベクトルが得られていない場合、S/Nベクトル生成部15は、平均パワーベクトルの初期値を記憶部16から取り出し、それをP(r’)=(P(1,r’),・・・,P(K,r’))とする。
さらにS/Nベクトル生成部15は、すべてのチャネルk=1,・・・,Kについて、音声区間のフレームrに属するデジタル音響信号sx(ik,r,0),・・・,sx(ik,r,L−1)の平均パワーをP(k,r’)で除算し、正規化平均パワーP(k,r)を得る(式(2)参照)。
Figure 0005784075

(k,r’)で除算することで各チャネルkのデジタル音響信号の平均パワーを正規化し、各チャネルkのマイクロホン21−kの感度の違いによる影響を排除できる。S/Nベクトル生成部15は、得られた正規化平均パワーP(k,r)をk番目の要素とするS/NベクトルP(r)=(P(1,r),・・・,P(K,r))を出力する。すなわち、S/NベクトルP(r)は、音声区間のフレームrのみについて出力される。
[ステップS155]
未処理のデジタル音響信号が存在する場合、S/Nベクトル生成部15はrに1を加算した値を新たなrとし、処理がステップS152に進む。未処理のデジタル音響信号が存在しない場合、S/Nベクトル生成部15の処理を終える。
<記憶部16>
前述のように、記憶部16は、平均パワーベクトルの初期値、およびS/Nベクトル生成部15で得られた平均パワーベクトルP(r)を格納する。
<ベクトル分類部17>
ベクトル分類部17は、複数個のS/NベクトルP(r)(複数個のチャネルに対して得られた特徴量からなる特徴量列)を入力として受け取る。ベクトル分類部17は、入力された複数個のS/NベクトルP(r)をクラスタリングし、各S/NベクトルP(r)が属する信号区間分類(クラスタ)を決定する(ステップS17)。ベクトル分類部17は、複数個のS/NベクトルP(r)(例えば、5秒間に対応する区間でのS/NベクトルP(r))が入力されるたびに、新たに入力されたS/NベクトルP(r)をクラスタリング対象に追加してクラスタリングを実行してもよいし、1個のS/NベクトルP(r)が入力されるたびに、新たに入力されたS/NベクトルP(r)をクラスタリング対象に追加してクラスタリングを実行してもよい。クラスタリングの例は、教師なし学習であるオンラインクラスタリングなどであり、その一例はleader−followerクラスタリング(例えば、参考文献2参照)である。クラスタリングの指標となる距離にはコサイン類似度を用いることができる。コサイン類似度の距離関数は以下のように定義できる。
Figure 0005784075

ただし、CLは各クラスタのラベルであり、ラベルCLは非音声区間を表すラベルθ(例えば0)以外の値(例えば、1以上の整数)をとる。PCLはクラスタCLの重心ベクトルである。d(CL)はクラスタCLの重心ベクトルPCLと入力されたS/NベクトルP(r)との距離を表す。P(r)・PCLはP(r)とPCLの内積を表し、|P(r)||PCL|は、P(r)の大きさ|P(r)|とPCLの大きさ|PCL|との積を表す。大きさの例は、ユークリッドノルム等のノルムである。コサイン類似度を距離関数とするクラスタリングによって得られたラベルCLが、入力されたS/NベクトルP(r)が属する信号区間分類を表す。ベクトル分類部17は、入力されたS/NベクトルP(r)(すなわち、音声区間のフレームrに対応するS/NベクトルP(r))に対して得られたラベルCLをラベルθに代入してラベルθを更新する。これにより、音声区間のフレームrのラベルθはラベルCLの値となり、非音声区間のフレームrのラベルθは非音声区間を表す値となる。
[参考文献2]Richard O. Duda, Peter E. Hart, David G. Stork, “Pattern
Classication,” Wiley-Interscience, 2000.
ベクトル分類部17は各フレームrのラベルθを出力し、S/Nベクトル生成部15は各フレームrのS/NベクトルP(r)を出力する。
本実施例では、K=5とし、観測装置20−k(k=1,・・・,5)としてスマートフォン端末装置を用い、直線配置されていない3個の音源から発音された音を録音して観測信号を得、上記の信号区間分類装置10での信号区間分類を行った。クラスタリングにはleader−followerクラスタリングを用い、新たなクラスタリングを生成するための距離d(CL)の閾値を0.65とした。図3Aはこの場合の各チャネルk=1,・・・,5のデジタル音響信号sx(i)から算出したS/NベクトルP(r)の成分P(k,r)ごとの時間変化を示し、図3Bは信号区間分類結果(ラベルθ)を示す。
<第1実施形態の作用効果>
本形態では、音声区間のデジタル音響信号の大きさを非音声区間のデジタル音響信号の大きさで正規化して得られる複数個のS/Nベクトルをクラスタリングする。そのため、自由に配置されたマイクロホン感度が異なる複数個のスマートフォン端末装置、固定電話、ボイスレコーダなどの録音機能をもつ端末装置で録音されたデジタル音響信号から、音源位置に基づいた信号区間分類を行うことができる。区間分類結果を用いて目的音区間とその他の音源区間に分類ができるため、雑音を抑圧し目的音を強調するフィルタの設計のための情報として利用できる。
さらに本形態では、サンプリング周波数変換部11でサンプリング周波数変換を行ってチャネル間のサンプリング周波数のずれを補正し、信号同期部12でチャネル間での同期を行って観測装置20−kの個体差による影響を抑制した。そのため、各チャネルのA/D変換器22−kのサンプリング周波数の公称値が互いに異なっていたり、サンプリング周波数の個体差があったりしても、信号区間分類を精度よく決定することができる。
[第2実施形態]
第1実施形態では、ベクトル分類部17が行うS/NベクトルP(r)のクラスタリングの一例としてleader−followerクラスタリングを例示した。従来のleader−followerクラスタリングを用いる場合、ベクトル分類部17は、入力されたS/NベクトルP(r)と各クラスタ(信号区間分類)のクラスタCLの重心ベクトルPCLとの距離を計算する。ここで、S/NベクトルP(r)と重心ベクトルPCLとの最小距離が閾値を超えない場合、ベクトル分類部17は、入力されたS/NベクトルP(r)との距離が最小の(最も近い)重心ベクトルPCLを持つクラスタを当該S/NベクトルP(r)が属するクラスタとして決定し、このクラスタを表すラベルCLをラベルθに代入してラベルθを更新する。一方、入力されたS/NベクトルP(r)と重心ベクトルPCLとの最小距離が閾値を超える場合、ベクトル分類部17はこのS/NベクトルP(r)が属する新たなクラスタを生成し、このS/NベクトルP(r)をその新たなクラスタの重心ベクトルPCLとして記憶部16に記憶する。この新たなクラスタを表すラベルCLをラベルθに代入してラベルθを更新する。しかしながら、従来のleader−followerクラスタリングでは、適切な閾値は環境によって異なり、閾値が不適切である場合にはクラスタリング性能が大きく劣化してしまうという課題がある。このような課題は、leader−followerクラスタリングに限らず、クラスタリング対象の特徴ベクトルとクラスタの代表値との距離を評価し、距離が閾値を超える場合に新たなクラスタを生成するクラスタリング手法に共通する。
そこで本形態では、クラスタ数を動的に変更せず、クラスタ(信号区間分類)の総数を観測装置20−kの総数K(チャネルkの総数K)に対応する値Ωに固定する。総数Kに対応する値Ωの例は、総数K、総数Kに対して定まるK未満の正整数、または総数Kに対して定まるKよりも大きな正整数である。クラスタの総数を観測装置20−kの総数Kに対応する値とする理由は次の通りである。前述のように、S/NベクトルP(r)は、チャネルk(ただし、k=1,・・・,K)ごとに音声区間のデジタル音響信号の大きさを非音声区間のデジタル音響信号の大きさで正規化した値(例えば、非音声区間のデジタル音響信号のパワーに対する音声区間のデジタル音響信号のパワーの比)P(k,r)を要素とする列P(r)=(P(1,r),・・・,P(K,r))である。ここで、音源から発せられた音響信号の大きさ(パワー等)は空気中を伝搬する間に減衰し、その大きさは空気中を伝搬する距離が大きいほど小さくなる。そのため、P(k,r)の大きさは、観測装置20−kが音源に近いほど大きくなる傾向があり、各P(k,r)を要素とするS/NベクトルP(r)は、音響信号を発した音源に最も近い観測装置20−kに対応する値となる傾向がある。例えば、観測装置20−1,・・・,20−Kが互いに離れており、音源から発せられた音響信号が何れか1つの観測装置20−kのみで観測される環境では、P(k,r)のみが0以外の値(例えば1)であり、その他のP(k’,r)(k’=1,・・・,K、k’≠k)が0であるS/NベクトルP(r)となる。このような性質から、複数個のS/NベクトルP(r)をクラスタリングすることで、観測装置20−1,・・・,20−Kのそれぞれに対応する合計K個のクラスタが構成される傾向があるといえる。また、音源の個数がKより少ない場合にはK−γ個(ただしγは正整数)のクラスタが構成される傾向があり、音源の個数がKより多い場合にはK+γ個のクラスタが構成される傾向があるともいえる。以上より、クラスタの総数を観測装置20−kの総数K(すなわち、チャネルの総数K)に対応する値Ωとすることは妥当である。なお、総数Kそのものをクラスタの総数とするのか、総数Kに対して定まるK未満の正整数をクラスタの総数とするのか、総数Kに対して定まるKよりも大きな正整数をクラスタの総数とするのかは、環境に応じて事前に定めておく。いずれを選択すべきか判断できない場合には、例えば総数Kそのものをクラスタの総数とする。
また本形態では、上述のクラスタごとに基準ベクトルCPCL(基準特徴量列)が対応し、互いに異なるクラスタには互いに異なる基準ベクトルCPCLが対応する。基準ベクトルCPCLはK個の要素からなる。本形態の基準ベクトルCPCLはクラスタごとに予め定められたものであり、必ずしもクラスタに属するS/Nベクトルの重心ベクトルである必要はない。例えば、総数Kそのものをクラスタの総数とする場合には、互いに異なるクラスタに対応する基準ベクトルCPCLが互いに直交するように設定される。言い換えると、互いに異なるクラスタに対応する基準ベクトルCPCLの内積が0となるように、各クラスタの基準ベクトルCPCLが設定される。例えば、1個の要素のみが0以外の値(例えば1)であり、他のK−1個の要素がすべて0のK次元ベクトルを基準ベクトルCPCLとする。例えば、k番目の要素が1であり、他の要素が0のK次元ベクトルをCL=kに対応する重基準ベクトルCPCL=kとする。その一例はCPCL=1=[1,0,・・・,0]である(ただし、*は*の転置を表す)。
以下では、第1実施形態との相違点のみを説明し、第1実施形態と共通する部分およびステップについては、第1実施形態と同じ参照番号を用いて説明を省略する。
図1に例示するように、本形態の信号区間分類装置20は、サンプリング周波数変換部11、信号同期部12、フレーム分割部13、VAD判定部14、S/Nベクトル生成部15(特徴量列取得部)、記憶部26、およびベクトル分類部27(分類部)を有する。本形態の信号区間分類装置20は、例えば公知のコンピュータに所定のプログラムが読み込まれて構成される特別な装置である。信号区間分類装置20に入力されたデータおよび処理されたデータは、図示していないメモリに格納され、必要に応じて処理部から読み出される。
<記憶部26>
記憶部26は、第1実施形態で説明した平均パワーベクトルの初期値、およびS/Nベクトル生成部15で得られた平均パワーベクトルP(r)に加え、さらに各クラスタに対して予め定められた基準ベクトルCPCLが格納される。
<ベクトル分類部27>
ベクトル分類部27は、複数個のS/NベクトルP(r)(複数個のチャネルに対して得られた特徴量からなる特徴量列)を入力として受け取り、さらに予め定められたΩ個のクラスタにそれぞれ対応する基準ベクトルCPCLを記憶部26から抽出する。ベクトル分類部27は、入力されたS/NベクトルP(r)(特徴量列)との距離が最小の基準ベクトルCPCL(基準特徴量列)に対応するクラスタ(信号区間分類)を当該S/NベクトルP(r)が属するクラスタに決定し、決定されたクラスタを表すラベルCLをラベルθに代入してラベルθを更新する(ステップS27)。なお、S/NベクトルP(r)と基準ベクトルCPCLとの距離関数に何を用いるかについての限定はないが、例えば、コサイン類似度の距離関数を用いることができる。この場合のS/NベクトルP(r)と基準ベクトルCPCLとの距離関数d(CL)は、例えば以下のようになる。
Figure 0005784075

S/NベクトルP(r)は音声区間のフレームrに対応するため、音声区間のフレームrのラベルθはラベルCLの値となり、非音声区間のフレームrのラベルθは非音声区間を表す値となる。その他は第1実施形態と同じである。
本実施例では、K=5とし、観測装置20−k(k=1,・・・,5)としてスマートフォン端末装置を用い、分散して配置された2個の音源から発音された音を録音して観測信号を得、上記の信号区間分類装置20での信号区間分類を行った。図4Aはこの場合の各チャネルk=1,・・・,5のデジタル音響信号sx(i)から算出したS/NベクトルP(r)の成分P(k,r)ごとの時間変化を示し、図4Bは信号区間分類結果(ラベルθ)を示す。
<第2実施形態の作用効果>
本形態では、クラスタリングの処理に閾値を用いる必要がないため、閾値の設定によってクラスタリング性能が低下することがない。また、本形態のクラスタリング処理は処理コストが小さく、リアルタイム処理に適している。さらに、1個の要素のみが0以外の値(例えば1)であり、他のK−1個の要素がすべて0のK次元ベクトルを基準ベクトルCPCLとして用いることで、各音源をそれに最も近い観測装置20−kに対応する識別子で区別することができる。その他、本形態でも前述した第1実施形態と同じ作用効果を奏する。
<変形例等>
なお、本発明は上述の各実施形態に限定されるものではない。例えば、すべてのチャネルk=1,・・・,KのA/D変換器22−kのサンプリング周波数の公称値が互いに同一であるならば、サンプリング周波数変換部11の処理を行わなくてもよい。この場合には「入力デジタル音響信号」がそのまま「変換デジタル音響信号」として信号同期部12に入力されてもよい。このような場合にはサンプリング周波数変換部11を設けなくてもよい。
さらにすべてのチャネルk=1,・・・,KのA/D変換器22−kのサンプリング周波数の公称値が互いに同一であり、それらの個体差の影響も小さいのであれば、サンプリング周波数変換部11および信号同期部12の処理を行わなくてもよい。この場合には「入力デジタル音響信号」がそのまま「デジタル音響信号」としてフレーム分割部13に入力されてもよい。このような場合にはサンプリング周波数変換部11および信号同期部12を設けなくてもよい。
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。
10,20 信号区間分類装置
20−1〜K 観測装置

Claims (4)

  1. 複数個のチャネルの入力デジタル音響信号を入力とし、前記複数個のチャネルの入力デジタル音響信号をサンプリング周波数変換し、特定のサンプリング周波数の変換デジタル音響信号を得るサンプリング周波数変換部と、
    前記複数個の変換デジタル音響信号について各チャネルから一定時間長のサンプル列をそれぞれ取得し、1つのチャネルのサンプル列を基準サンプル列として、当該基準サンプル列としたチャネル以外のチャネルの非基準サンプル列に対して前記基準サンプル列との相互相関を最大にする遅延量をそれぞれ探索し、前記非基準サンプル列に対して当該遅延量を加えたサンプル列をそれぞれ生成することを前記一定時間長よりも短い時間間隔で前記サンプル列を取得する範囲をシフトさせながら定期的に繰り返すことによって、チャネル間で同期した変換デジタル音響信号を取得する信号同期部と、
    チャネルごとに音声区間の前記チャネル間で同期した変換デジタル音響信号の大きさを非音声区間の前記チャネル間で同期した変換デジタル音響信号の大きさで正規化した要素からなるS/Nベクトルである特徴量を得る特徴量列取得部と、
    前記複数個のチャネルに対して得られた前記特徴量からなる特徴量列をクラスタリングし、前記特徴量列が属する信号区間分類を決定する分類部と、
    を有し、
    前記信号区間分類の総数が前記チャネルの総数であり、
    前記信号区間分類ごとに基準特徴量列が対応し、
    互いに異なる前記信号区間分類に対応する前記基準特徴量列が互いに直交し、前記分類部は、前記特徴量列との距離が最小の前記基準特徴量列に対応する前記信号区間分類を当該特徴量列が属する前記信号区間分類とする、
    ことを特徴とする信号区間分類装置。
  2. 請求項1の信号区間分類装置であって、
    前記複数個のチャネルの入力デジタル音響信号のそれぞれは、録音機能を持つ複数個の装置のそれぞれで得られたものである、
    ことを特徴とする信号区間分類装置。
  3. 複数個のチャネルの入力デジタル音響信号を入力とし、前記複数個のチャネルの入力デジタル音響信号をサンプリング周波数変換し、特定のサンプリング周波数の変換デジタル音響信号を得るサンプリング周波数変換ステップと、
    前記複数個の変換デジタル音響信号について各チャネルから一定時間長のサンプル列をそれぞれ取得し、1つのチャネルのサンプル列を基準サンプル列として、当該基準サンプル列としたチャネル以外のチャネルの非基準サンプル列に対して前記基準サンプル列との相互相関を最大にする遅延量をそれぞれ探索し、前記非基準サンプル列に対して当該遅延量を加えたサンプル列をそれぞれ生成することを前記一定時間長よりも短い時間間隔で前記サンプル列を取得する範囲をシフトさせながら定期的に繰り返すことによって、チャネル間で同期した変換デジタル音響信号を取得する信号同期ステップと、
    チャネルごとに音声区間の前記チャネル間で同期した変換デジタル音響信号の大きさを非音声区間の前記チャネル間で同期した変換デジタル音響信号の大きさで正規化した特徴量を得る特徴量列取得ステップと、
    前記複数個のチャネルに対して得られた特徴量からなる特徴量列をクラスタリングし、前記特徴量列が属する信号区間分類を決定する分類ステップと、
    を有し、
    前記信号区間分類の総数が前記チャネルの総数であり、
    前記信号区間分類ごとに基準特徴量列が対応し、
    互いに異なる前記信号区間分類に対応する前記基準特徴量列が互いに直交し、前記分類ステップは、前記特徴量列との距離が最小の前記基準特徴量列に対応する前記信号区間分類を当該特徴量列が属する前記信号区間分類とするステップである
    ことを特徴とする信号区間分類方法。
  4. 請求項1または2の信号区間分類装置の各部としてコンピュータを機能させるためのプログラム。
JP2013126668A 2012-11-05 2013-06-17 信号区間分類装置、信号区間分類方法、およびプログラム Active JP5784075B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013126668A JP5784075B2 (ja) 2012-11-05 2013-06-17 信号区間分類装置、信号区間分類方法、およびプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012243617 2012-11-05
JP2012243617 2012-11-05
JP2013126668A JP5784075B2 (ja) 2012-11-05 2013-06-17 信号区間分類装置、信号区間分類方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2014112190A JP2014112190A (ja) 2014-06-19
JP5784075B2 true JP5784075B2 (ja) 2015-09-24

Family

ID=51169354

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013126668A Active JP5784075B2 (ja) 2012-11-05 2013-06-17 信号区間分類装置、信号区間分類方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5784075B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6063843B2 (ja) * 2013-08-28 2017-01-18 日本電信電話株式会社 信号区間分類装置、信号区間分類方法、およびプログラム
JP6167062B2 (ja) * 2014-04-09 2017-07-19 日本電信電話株式会社 分類装置、分類方法、およびプログラム
JP6724290B2 (ja) * 2015-03-31 2020-07-15 ソニー株式会社 音響処理装置、音響処理方法、及び、プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4746533B2 (ja) * 2006-12-21 2011-08-10 日本電信電話株式会社 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP4469882B2 (ja) * 2007-08-16 2010-06-02 株式会社東芝 音響信号処理方法及び装置
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム

Also Published As

Publication number Publication date
JP2014112190A (ja) 2014-06-19

Similar Documents

Publication Publication Date Title
US11657798B2 (en) Methods and apparatus to segment audio and determine audio segment similarities
JP6289936B2 (ja) 音源方向推定装置、音源方向推定方法およびプログラム
US9355649B2 (en) Sound alignment using timing information
WO2020024396A1 (zh) 音乐风格识别方法、装置、计算机设备及存储介质
JP5784075B2 (ja) 信号区間分類装置、信号区間分類方法、およびプログラム
JP6992873B2 (ja) 音源分離装置、音源分離方法およびプログラム
CN111868823A (zh) 一种声源分离方法、装置及设备
JP2010175431A (ja) 音源方向推定装置とその方法と、プログラム
Marxer et al. Low-latency instrument separation in polyphonic audio using timbre models
JP5705190B2 (ja) 音響信号強調装置、音響信号強調方法、およびプログラム
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP6244297B2 (ja) 音響スコア算出装置、その方法及びプログラム
WO2012105385A1 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
WO2012023268A1 (ja) 多マイクロホン話者分類装置、方法およびプログラム
JP6285855B2 (ja) フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム
Islam et al. Sound-adapter: Multi-source domain adaptation for acoustic classification through domain discovery
WO2020059084A1 (ja) 学習装置およびパターン認識装置
JP2005196020A (ja) 音声処理装置と方法並びにプログラム
JP6167062B2 (ja) 分類装置、分類方法、およびプログラム
JP6063843B2 (ja) 信号区間分類装置、信号区間分類方法、およびプログラム
JP6139430B2 (ja) 信号処理装置、方法及びプログラム
JP2019211685A (ja) 音響信号分離装置、学習装置、それらの方法、およびプログラム
Mishra et al. Bird Call Recognition using Acoustic based Feature Selection approach in Machine Learning
WO2020035999A1 (ja) 学習データ生成装置、学習データ生成方法、及びプログラム
CN116092521A (zh) 特征频点识别模型训练和音频指纹识别方法、设备及产品

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140508

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150602

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150714

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150721

R150 Certificate of patent (=grant) or registration of utility model

Ref document number: 5784075

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150