JP5605575B2

JP5605575B2 - 多チャンネル音響信号処理方法、そのシステム及びプログラム

Info

Publication number: JP5605575B2
Application number: JP2010550500A
Authority: JP
Inventors: 剛範辻川; 正江森; 祥史大西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-02-13
Filing date: 2010-02-08
Publication date: 2014-10-15
Anticipated expiration: 2030-02-08
Also published as: US9064499B2; US20120029916A1; WO2010092915A1; JPWO2010092915A1

Description

本発明は、多チャンネル音響信号処理方法、多チャンネル音響信号処理システム及びプログラムに関する。

関連する多チャンネル音響信号処理システムの一例が、特許文献１に記載されている。この装置は、任意に配置された複数のマイクロホンで観測した複数の話者の音声および雑音の混合音響信号から目的外音声、背景雑音を除去することにより目的音声を抽出できるシステムである。また、上記混合音響信号から目的音声を検出できるシステムでもある。

図３は、特許文献１に開示されている雑音除去システムの構成を示すブロック図である。その雑音除去システムにおける混合音響信号から目的音声を検出する箇所について構成および動作を概説する。複数のチャンネルの入力時系列信号を受けて分離する信号分離部１０１と、信号分離部１０１から出力される分離信号を受け強度比計算部１０６からの強度比に基づき雑音を推定する雑音推定部１０２と、信号分離部１０１から出力される分離信号と、雑音推定部１０２で推定された雑音成分と、強度比計算部１０６の出力を受けて雑音区間／音声区間を検出する雑音区間検出部１０３とを有する。

特開２００５−３０８７７１号公報（図１）

上記で説明した特許文献１に記載の雑音除去システムに含まれる、混合音響信号から目的音声を検出する箇所は、任意に配置された複数のマイクロホンで観測した複数の話者の音声および雑音の混合音響信号から目的音声を検出することを意図したものであるが、下記の問題点を有している。

その問題点は、信号分離部１が非効率的であるということである。

その理由は、複数のマイクロホンが任意に配置され、複数のマイクロホンからの信号（マイクロホン信号、図３では入力時系列信号）を用いて、例えば目的音声を検出することを想定すると、マイクロホン信号によっては、信号分離が必要な場合と、不要な場合とがあるためである。すなわち、信号分離部１の後段の処理によって、信号分離が必要な度合いが異なるということである。信号分離が不要なマイクロホン信号が多数となると、信号分離部１は不要な処理に莫大な計算量を費やすことになり、非効率的である。

そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、多チャンネルの入力信号を効率的に信号分離できる多チャンネル音響信号処理方法、そのシステム及びプログラムを提供することにある。

上記課題を解決する本発明は、多チャンネルの入力信号からチャンネル毎に特徴量を算出し、前記チャンネル毎の特徴量のチャンネル間の類似度を計算し、前記類似度が高い複数のチャンネルを選択し、選択した複数のチャンネルの入力信号を用いて信号を分離することを特徴とする多チャンネル音響信号処理方法である。

上記課題を解決する本発明は、多チャンネルの入力信号からチャンネル毎に特徴量を算出する特徴量算出部と、前記チャンネル毎の特徴量のチャンネル間の類似度を計算する類似度計算部と、前記類似度が高い複数のチャンネルを選択するチャンネル選択部と、選択した複数のチャンネルの入力信号を用いて信号を分離する信号分離部とを有することを特徴とする多チャンネル音響信号処理システムである。

上記課題を解決する本発明は、多チャンネルの入力信号からチャンネル毎に特徴量を算出する特徴量算出処理と、前記チャンネル毎の特徴量のチャンネル間の類似度を計算する類似度計算処理と、前記類似度が高い複数のチャンネルを選択するチャンネル選択処理と、選択した複数のチャンネルの入力信号を用いて信号を分離する信号分離処理とを情報処理装置に実行させることを特徴とするプログラムである。

本発明は、信号分離が不要なチャンネルを除くことができ、効率的に信号を分離するという、本発明の目的を達成することができる。

本発明を実施するための最良の形態の構成を示すブロック図である。本発明を実施するための最良の形態の動作を示す流れ図である。特許文献１の雑音除去システムの構成を示すブロック図である。

以下、図面を参照して本発明の実施の形態について詳細に説明する。

図１は、本発明の多チャンネル音響信号処理システムの構成例を示すブロック図である。

図１に例示する多チャンネル音響信号処理システムは、入力信号１〜Ｍをそれぞれ受けてチャンネル毎の特徴量を算出する特徴量算出部１−１〜１−Ｍと、特徴量を受けてチャンネル間の類似度を計算する類似度計算部２と、チャンネル間の類似度を受けて類似度の高いチャンネルを選択するチャンネル選択部３と、選択された類似度が高いチャンネルの入力信号を受けて信号を分離する信号分離部４−１〜４−Ｎとを有する。

図２は、本発明の実施の形態に係る多チャンネル音響信号処理システムにおける処理手順を示す流れ図である。

図１および図２を参照して、本実施の形態の多チャンネル音響信号処理システムの詳細について以下に説明する。

入力信号１〜Ｍをそれぞれx1(t)〜xM(t)とする。ただし、tはサンプル番号である。特徴量算出部１−１〜１−Ｍでは、入力信号１〜Ｍから、それぞれ特徴量１〜Ｍを算出する（ステップＳ１）。

F1(T) = [f11(T) f12(T) … f1L(T)] … (1-1)
F2(T) = [f21(T) f22(T) … f2L(T)] … (1-2)
.
.
.
FM(T) = [fM1(T) fM2(T) … fML(T)] … (1-M)
ただし、F1(T)〜FM(T)は入力信号１〜Ｍから算出した特徴量１〜Ｍである。Tは時間のインデックスであり、複数のサンプルtを1つの区間とし、その時間区間におけるインデックスとしてTを用いてもよい。

数式(1-1)〜(1-M)に示すように、特徴量F1(T)〜FM(T)は、それぞれL次元(Lは１以上の値)の特徴量の要素を持つベクトルとして構成される。特徴量の要素としては、例えば、時間波形（入力信号）、平均パワーなどの統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度（エントロピーを含む）、音素・音節認識結果、音声区間長のようなものが考えられる。

上記の通り、入力信号１〜Ｍから直接求める特徴量だけでなく、音響モデルというある基準に対するチャンネル毎の値を特徴量とすることも可能である。なお、上記の特徴量は一例であり、その他の特徴量でも良いことはもちろんである。

次に、類似度計算部２は、特徴量１〜Ｍを受けて、チャンネル間の類似度を計算する（ステップＳ２）。

類似度の計算方法は、特徴量の要素によって異なる。

相関値は、一般的に類似度を表す指標として適している。また、距離(差分)値は、小さいほど類似度が高いということを表す指標となる。また、特徴量が音素・音節認識結果の場合は、文字列の比較となり、その類似度の計算にはＤＰマッチングなどを利用することもある。

なお、上記の相関値、距離値などは一例であり、その他の指標で類似度を計算しても良いことはもちろんである。また、全チャンネルの全組み合わせの類似度を計算する必要はなく、Ｍチャンネルのうちのあるチャンネルを基準とし、そのチャンネルに対する類似度のみを計算してもよい。また、複数の時刻Tを１つの区間として、その時間区間における類似度を計算してもよい。また特徴量に音声区間長が含まれる場合は、音声区間が検出されないチャンネルに対しては、以後の処理を省略することも可能である。

チャンネル選択部３は、類似度計算部２からのチャンネル間の類似度を受けて、類似度が高いチャンネルを選択し、グルーピングする（ステップＳ３）。

選択方法としては、類似度を閾値と比較して、閾値より高い場合に、それらのチャンネルをグルーピングする、相対的に類似度が高い場合にグルーピングするなど、クラスタリングの手法を用いればよい。その際、複数のグループに選択されるチャンネルがあってもよい、また、どのグループにも選択されないチャンネルがあってもよい。

なお、類似度算出部２とチャンネル選択部３とは、異なる特徴量に対して、類似度を計算、チャンネルを選択、という処理を繰り返すことにより、選択するチャンネルを絞り込むように処理してもよい。

信号分離部４−１〜４−Ｎは、チャンネル選択部３で選択されたグループ毎に信号分離を行う（ステップＳ４）。

信号分離は、独立成分分析に基づく手法や、２乗誤差最小化に基づく手法などを用いればよい。各信号分離部の出力は類似度が低いことが期待されるが、異なる信号分離部の出力には類似度が高いものが含まれる可能性がある。その場合には、類似している出力を取捨選択してもよい。

本実施の形態は、全チャンネルで信号分離を行うのではなく、チャンネル間の類似度に基づいて、信号分離を行う単位を小規模にし、また信号分離不要なチャンネルは信号分離部に入力しない。そのため、全チャンネルで信号分離を行う場合に比べて、効率的に信号分離を行うことが可能となる。

以上の如く、本実施の形態は、チャンネル毎に算出された特徴量のチャンネル間の類似度を計算し、類似度が高いチャンネルに対して信号を分離する。このような構成を採用し、信号を分離することにより、信号分離が不要なチャンネルを除くことができるため、効率的に信号を分離するという、本発明の目的を達成することができる。

尚、上述した実施の形態において、特徴量算出部１−１〜１−Ｍと、類似度計算部２と、チャンネル選択部３と、信号分離部４−１〜４−Ｎとをハードウェアで構成したが、それらの全部又は一部をプログラムで動作する情報処理装置により構成することもできる。

また、上記の実施の形態の内容は、以下のようにも表現されうる。

［付記１］多チャンネルの入力信号からチャンネル毎に特徴量を算出し、
前記チャンネル毎の特徴量のチャンネル間の類似度を計算し、
前記類似度が高い複数のチャンネルを選択し、
選択した複数のチャンネルの入力信号を用いて信号を分離する
ことを特徴とする多チャンネル音響信号処理方法。

［付記２］前記チャンネル毎に算出する特徴量は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも１つを含むことを特徴とする付記１に記載の多チャンネル音響信号処理方法。

［付記３］前記類似度を表す指標として、相関値、距離値のうち少なくとも１つを含むことを特徴とする付記１又は付記２に記載の多チャンネル音響信号処理方法。

［付記４］前記チャンネル毎の類似度を計算して類似度が高い複数のチャンネルを選択することを、異なる特徴量を用いて複数回繰り返し、選択するチャンネルを絞ることを特徴とする付記１から付記３のいずれかに記載の多チャンネル音響信号処理方法。

［付記５］多チャンネルの入力信号からチャンネル毎に特徴量を算出する特徴量算出部と、
前記チャンネル毎の特徴量のチャンネル間の類似度を計算する類似度計算部と、
前記類似度が高い複数のチャンネルを選択するチャンネル選択部と、
選択した複数のチャンネルの入力信号を用いて信号を分離する信号分離部と
を有することを特徴とする多チャンネル音響信号処理システム。

［付記６］前記特徴量算出部は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも１つを、特徴量として算出することを特徴とする付記５に記載の多チャンネル音響信号処理システム。

［付記７］前記類似度計算部は、相関値、距離値のうち少なくとも１つを、前記類似度を表す指標として算出することを特徴とする付記５又は付記６に記載の多チャンネル音響信号処理システム。

［付記８］前記特徴量算出部は、異なる特徴量の種類でチャンネル毎の異なる特徴量を算出し、
前記類似度計算部は、異なる特徴量を用いて複数回チャンネルの選択を行い、選択するチャンネルを絞り込むことを特徴とする付記５から付記７のいずれかに記載の多チャンネル音響信号処理システム。

［付記９］多チャンネルの入力信号からチャンネル毎に特徴量を算出する特徴量算出処理と、
前記チャンネル毎の特徴量のチャンネル間の類似度を計算する類似度計算処理と、
前記類似度が高い複数のチャンネルを選択するチャンネル選択処理と、
選択した複数のチャンネルの入力信号を用いて信号を分離する信号分離処理と
を情報処理装置に実行させることを特徴とするプログラム。

［付記１０］前記特徴量算出処理は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも１つを、特徴量として算出することを特徴とする付記９に記載のプログラム。

［付記１１］前記類似度計算処理は、相関値、距離値のうち少なくとも１つを、前記類似度を表す指標として算出することを特徴とする付記９又は付記１０に記載のプログラム。

［付記１２］前記特徴量算出処理と前記類似度計算処理とを、異なる特徴量を用いて複数回繰り返し、
前記チャンネル選択処理は、選択するチャンネルを絞る
ことを特徴とする付記９から付記１１のいずれかに記載のプログラム。

以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。

本出願は、２００９年２月１３日に出願された日本出願特願２００９−０３１１１１号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明によれば、任意に配置された複数のマイクロホンで観測した複数の話者の音声および雑音の混合音響信号を分離する多チャンネル音響信号処理装置や、多チャンネル音響信号処理装置をコンピュータに実現するためのプログラムといった用途に適用できる。

１−１入力信号１から特徴量を算出する特徴量算出部
１−２入力信号２から特徴量を算出する特徴量算出部
１−Ｍ入力信号Ｍから特徴量を算出する特徴量算出部
２類似度計算部
３チャンネル選択部
４−１グループ１として選択されたチャンネルの信号を分離する信号分離部
４−ＮグループＮとして選択されたチャンネルの信号を分離する信号分離部

Claims

少なくとも一つのチャンネルに目的信号が含まれる多チャンネルの入力信号からチャンネル毎に特徴量を算出し、
前記チャンネル毎の特徴量のチャンネル間の類似度を計算し、
前記類似度が高い複数のチャンネルを選択し、
選択した複数のチャンネルの入力信号を用いて、前記選択した複数のチャンネルの入力信号に含まれる目的信号を分離する
ことを特徴とする多チャンネル音響信号処理方法。
前記チャンネル毎に算出する特徴量は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも１つを含むことを特徴とする請求項１に記載の多チャンネル音響信号処理方法。
前記類似度を表す指標として、相関値、距離値のうち少なくとも１つを含むことを特徴とする請求項１又は請求項２に記載の多チャンネル音響信号処理方法。
前記チャンネル毎の類似度を計算して類似度が高い複数のチャンネルを選択することを、異なる特徴量を用いて複数回繰り返し、選択するチャンネルを絞ることを特徴とする請求項１から請求項３のいずれかに記載の多チャンネル音響信号処理方法。
少なくとも一つのチャンネルに目的信号が含まれる多チャンネルの入力信号からチャンネル毎に特徴量を算出する特徴量算出部と、
前記チャンネル毎の特徴量のチャンネル間の類似度を計算する類似度計算部と、
前記類似度が高い複数のチャンネルを選択するチャンネル選択部と、
選択した複数のチャンネルの入力信号を用いて、前記選択した複数のチャンネルに含まれる目的信号を分離する信号分離部と
を有することを特徴とする多チャンネル音響信号処理システム。
前記特徴量算出部は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも１つを、特徴量として算出することを特徴とする請求項５に記載の多チャンネル音響信号処理システム。
前記類似度計算部は、相関値、距離値のうち少なくとも１つを、前記類似度を表す指標として算出することを特徴とする請求項５又は請求項６に記載の多チャンネル音響信号処理システム。
前記特徴量算出部は、異なる特徴量の種類でチャンネル毎の異なる特徴量を算出し、
前記類似度計算部は、異なる特徴量を用いて複数回チャンネルの選択を行い、選択するチャンネルを絞り込むことを特徴とする請求項５から請求項７のいずれかに記載の多チャンネル音響信号処理システム。
少なくとも一つのチャンネルに目的信号が含まれる多チャンネルの入力信号からチャンネル毎に特徴量を算出する特徴量算出処理と、
前記チャンネル毎の特徴量のチャンネル間の類似度を計算する類似度計算処理と、
前記類似度が高い複数のチャンネルを選択するチャンネル選択処理と、
選択した複数のチャンネルの入力信号を用いて、前記選択した複数のチャンネルの入力信号に含まれる目的信号を分離する信号分離処理と
を情報処理装置に実行させることを特徴とするプログラム。
前記特徴量算出処理は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも１つを、特徴量として算出することを特徴とする請求項９に記載のプログラム。
前記類似度計算処理は、相関値、距離値のうち少なくとも１つを、前記類似度を表す指標として算出することを特徴とする請求項９又は請求項１０に記載のプログラム。
前記特徴量算出処理と前記類似度計算処理とを、異なる特徴量を用いて複数回繰り返し、
前記チャンネル選択処理は、選択するチャンネルを絞る
ことを特徴とする請求項９から請求項１１のいずれかに記載のプログラム。