JP7126659B2

JP7126659B2 - 信号処理装置、信号処理方法及び信号処理プログラム

Info

Publication number: JP7126659B2
Application number: JP2019026899A
Authority: JP
Inventors: 章子荒木; 慶介木下; マークデルクロア; 順貴小野
Original assignee: Nippon Telegraph and Telephone Corp; Tokyo Metropolitan Public University Corp
Current assignee: Nippon Telegraph and Telephone Corp; Tokyo Metropolitan Public University Corp
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2022-08-29
Anticipated expiration: 2039-02-18
Also published as: JP2020134659A

Description

本発明は、信号処理装置、信号処理方法及び信号処理プログラムに関する。

音響信号分析の分野において、分散マイクロホンアレイ技術がある。分散マイクロホンアレイとは、例えば、ＩＣレコーダーやスマートホンなどの収録用端末を複数台利用し、マイクロホンアレイとして利用するものである。一般に、分散マイクロホンアレイでは、端末ごとに異なるＡ／Ｄ変換を実施するため、サンプリングの同期がとれていない信号が収録される。さらに、全端末においてサンプリング周波数をｆ_０ｋＨｚ（例えば１６ｋＨｚ）などと設定しても、実際のサンプリング周波数は、機器ごとにわずかに異なる。

特開２０１４－１７４３９３号公報

S. Miyabe, N. Ono and S. Makino, "BLIND COMPENSATION OF INTER-CHANNEL SAMPLING FREQUENCY MISMATCH WITH MAXIMUM LIKELIHOOD ESTIMATION IN STFT DOMAIN", in Proc. ICASSP2013, pp. 674-678, 2013.

ここで、サンプリング周波数がわずかに異なる複数の録音端末により収録された音響信号があるとする。ここでは、すべての端末が同期する２マイクを有するステレオ録音端末であるとして説明する。なお、全ての端末が複数マイクを所持していれば、３マイク以上の場合にも一般化できる。そして、音響信号のうち、サンプリング周波数の基準となる端末での収録信号を参照信号とし、サンプリング周波数のミスマッチ量を求めたい対象端末での収録信号を対象信号とする。

参照端末および対象端末は、それぞれステレオ信号とする。参照端末での収録信号（連続時間信号）である参照信号を、ｘ_１［ｔ］＝［ｘ_１Ｌ［ｔ］，ｘ_１Ｒ［ｔ］］^Ｔとする。対象端末での収録信号（連続時間信号）である対象信号を、ｘ_２［ｔ］＝［ｘ_２Ｌ［ｔ］，ｘ_２Ｒ［ｔ］］^Ｔとする。Ｌ，Ｒは、それぞれ左チャネル、右チャネルを表し、まとめてＢと表す。

なお、ここでは簡単のためＬＲ２マイクの録音端末を考えるが、３マイク以上の録音端末にも一般化できる。また、対象信号は、ｘ_２の１個だけでなく、Ｎ個あってもよい（ｘ_ｄ（ｄ＝２，・・・，Ｎ＋１））が、ここでは簡単のため対象信号の数が１の場合について述べる。

各端末のサンプリング周波数は時不変であると仮定すると、ｘ_１Ｂ（ｔ）及びｘ_２Ｂ（ｔ）（Ｂ＝ＬまたはＲ）の離散時間信号は、（１）式及び（２）式で示される。

Ｔは、録音開始時刻のずれを表すパラメータであり、εは、サンプリング周波数ミスマッチ量を表すパラメータである。また、以降の説明では、ｘ_１Ｂ（ｔ）を参照信号とし、ｘ_２Ｂ（ｔ）をミスマッチ量推定の対象信号とする。これらのパラメータのうち、録音開始時刻のずれＴについては、ｘ_１Ｂ（ｔ）とｘ_２Ｂ（ｔ）との相互相関のピーク値をとるＴを用いるなどの方法によって、比較的容易に求められる。このため、Ｔは、既に与えられているものとする。

そして、サンプリング周波数ミスマッチ量εを求めるための従来方法として、特許文献１に記載された方法や、非特許文献１に記載された方法がある。まず、従来方法では、ｘ_２Ｂ（ｔ）について、窓関数ｗ（ｉ）を用いて短い時間区間で切り出し、切り出した対象信号を、（３）式のように、フーリエ変換を実行して周波数領域に変換する。

ここで、Ｉは窓関数の長さである。ｆは、離散周波数インデックスである。ｎは、窓の中心にあたる時間サンプルである。ｊは、虚数単位√－１である。窓で切り出した時間区間を、以後フレームと呼ぶ。従来方法では、ｘ_１Ｂ（ｔ）とｘ_２Ｂ（ｔ）との時間差が、サンプリング周波数のミスマッチのみにより生じること、また、サンプリング周波数ミスマッチ量εは、フレーム内で一定であること、の２つを仮定し、サンプリング周波数ミスマッチを、短時間フーリエ変換（ＳＴＦＴ：Short Time Fourier Transform）領域での線形位相シフトで補償することを考える（（４）式参照）。

ここで、観測された音源は定常かつ位置移動がないと仮定すると、ＳＴＦＴを行った参照信号、および、εを用いてサンプリング周波数のミスマッチを補償した対象信号をまとめた観測信号ベクトルＹ（ｆ，ｎ；ε）は、各周波数で定常であると仮定できる。観測信号ベクトルＹ（ｆ，ｎ；ε）を、（５）式に示す。

正確なεで補償され定常性を回復した２端末の観測信号ベクトルＹ（ｆ，ｎ；ε）が、共分散行列Ｖ_Ｙ（ｆ）のゼロ平均多変量複素正規分布に従うと仮定すると、その対数尤度は、（６）式で与えられる。

ここで、Ｈは、複素共役転置である。Ｖ_Ｙ（ｆ）＝Σ_ｎＹ（ｆ，ｎ；ε）Ｙ^Ｈ（ｆ，ｎ；ε）／｜∀ｎ｜は、共分散行列の最尤推定量である。Ｄは、Ｙの次元（ここでは、Ｄ＝４)である。｜∀ｎ｜はフレーム数である。

サンプリング周波数ミスマッチ量εは、上記の対数尤度関数を最大にするように求める。この尤度最大化は、解析的に解けないが、黄金比探索で効率的に最尤のεを求めることができる（特許文献１及び非特許文献１参照）。

しかしながら、従来方法では、以下に述べる問題点があった。従来方法では、音源が移動しないと仮定して、ｘ_１Ｂ（ｔ）とｘ_２Ｂ（ｔ）との時間差がサンプリング周波数のミスマッチのみにより生じることを仮定していた。したがって、従来方法では、録音時間中に音源が移動すると、この仮定が崩れ、サンプリング周波数ミスマッチ量εを正確に推定することができなかった。

本発明は、上記に鑑みてなされたものであって、録音時間中に音源が移動する場合にも、機器間のサンプリング周波数のずれ量であるミスマッチ量を精度よく推定することができる信号処理装置、信号処理方法及び信号処理プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る信号処理装置は、サンプリング周波数が異なる複数の録音端末により収録された音響信号を処理する信号処理装置であって、基準となる参照端末において収録された参照信号と、サンプリング周波数のミスマッチ量の推定対象である対象端末において収録された１または複数の対象信号とを所定の時間間隔で切り出して周波数領域の信号に変換し、周波数領域変換後の参照信号及び対象信号を基に、収録した音源の空間的定常性が高い時間区間である空間的定常区間を推定する第１の推定部と、空間的定常区間における周波数領域変換後の参照信号及び対象信号を用いて、サンプリング周波数のミスマッチ量を推定する第２の推定部と、を有することを特徴とする。

また、本発明に係る信号処理装置は、サンプリング周波数が異なる複数の録音端末により収録された音響信号を処理する信号処理装置であって、基準となる参照端末において収録された参照信号、サンプリング周波数のミスマッチ量の推定である対象端末において収録された１または複数の対象信号、または、その他の録音端末において収録されたサブアレイ信号を所定の時間間隔で切り出して周波数領域の信号に変換し、周波数領域変換後の参照信号、対象信号またはサブアレイ信号を基に、収録した音源の空間的定常性が高い時間区間である空間的定常区間を推定する第１の推定部と、空間的定常区間における周波数領域変換後の参照信号及び対象信号を用いて、サンプリング周波数のミスマッチ量を推定する第２の推定部と、を有することを特徴とする。

本発明によれば、録音時間中に音源が移動する場合にも、機器間のサンプリング周波数のずれ量であるミスマッチ量を精度よく推定することができる。

図１は、実施の形態１に係る信号処理装置の機能を模式的に示す図である。図２は、図１に示す空間的定常区間推定部の機能を模式的に示す図である。図３は、図１に示すサンプリング周波数ミスマッチ量推定部の機能を模式的に示す図である。図４は、実施の形態１に係る信号処理の処理手順を示すフローチャートである。図５は、図４に示す空間的定常区間推定処理の処理手順を示すフローチャートである。図６は、実施の形態２に係る信号処理装置の機能を模式的に示す図である。図７は、図６に示す空間的定常区間推定部の機能を模式的に示す図である。図８は、実施の形態２に係る信号処理の処理手順を示すフローチャートである。図９は、評価実験における収録条件を示す図である。図１０は、シナリオ１の場合のクラスタリングの例を示す図である。図１１は、クラス１～５におけるサンプリング周波数ミスマッチ量推定の対数尤度関数Ｊ（ε）の形状を示す図である。図１２は、プログラムが実行されることにより、信号処理装置が実現されるコンピュータの一例を示す図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。また、以下、「“＾Ａ”を“Ａの直上に＾を付した記号”」と同等であるとする。

［実施の形態１］
実施の形態１について説明する。実施の形態１として、例えば、雑音除去、残響除去、音源分離などを行うマイクロホンアレイ用の音声強調装置の前段に設けられる、サンプリング周波数ミスマッチ量を推定する信号処理装置について説明する。

実際の録音では、音源は動き続けるわけではなく、止まっている時間区間があると期待できる。例えば、会議室では、話者が席間を移動する時間空間や話者がホワイトボードの前に移動する時間空間もあると考えられる一方、ある席やホワイトボードの前では話者が止まっている時間区間もあると考えられる。また、話者が話しながら移動することが多い場合でも、場所が固定されている雑音源（空調やプロジェクタなど）が存在する録音環境は多い。本実施の形態１では、そのような実用的に起こりうる空間的定常性を利用してサンプリング周波数ミスマッチ量を高精度に推定する。

具体的には、本実施の形態１による信号処理では、録音区間の中で、空間的な定常性が仮定できる時間区間を推定し、その時間区間のみを利用してサンプリング周波数ミスマッチ量を推定し、録音中に音源が動く場合でも高精度にサンプリング周波数ミスマッチ量を推定する。本実施の形態１では、この空間的な定常性が仮定できる空間的定常な時間区間を推定する方法を提供する。

［信号処理装置］
図１は、実施の形態１に係る信号処理装置の機能を模式的に示す図である。図１に示すように、実施の形態１に係る信号処理装置１０は、空間的定常区間推定部１１（第１の推定部）及びサンプリング周波数ミスマッチ量推定部１２（第２の推定部）を有する。信号処理装置１０は、参照信号及び対象信号の入力を受け付けて、サンプリング周波数ミスマッチ量εを出力する。

まず、信号処理装置１０の処理対象である信号は、サンプリング周波数がわずかに異なる複数の録音端末により収録された音響信号である。説明の簡易化のため、本実施の形態１では、複数の録音端末のうちすべての端末が同期する２マイクを有するステレオ録音端末であるとして説明するが、全ての端末が、複数マイクを有していれば３マイク以上の場合にも一般化できる。収録された音響信号のうち、サンプリング周波数の基準となる参照端末での収録信号を参照信号とし、サンプリング周波数ミスマッチ量を求めたい対象端末での収録信号を対象信号とする。参照信号および対象信号は、それぞれステレオ信号とする。また、対象信号は複数あってもよい。

空間的定常区間推定部１１は、参照信号及び対象信号の入力を受け付ける。そして、空間的定常区間推定部１１は、参照信号と対象信号とを所定の時間区間で切り出して周波数領域の信号に変換する。そして、空間的定常区間推定部１１は、周波数領域変換後の信号において、収録した音源の空間的定常性が高い時間区間である空間的定常区間Ｃ_＾ｋを推定する。ここで、音源の空間的定常性が高くなるにしたがって、音源が定常かつ位置移動がなくなるといえる。

サンプリング周波数ミスマッチ量推定部１２は、空間的定常区間Ｃ_＾ｋにおける、周波数領域変換後の参照信号と対象信号とを用いて、サンプリング周波数ミスマッチ量εを推定する。サンプリング周波数ミスマッチ量推定部１２は、推定したサンプリング周波数ミスマッチ量εを、例えば、マイクロホンアレイ用の音声強調装置に出力する。

［空間的定常区間推定部］
次に、空間的定常区間推定部１１について説明する。図２は、図１に示す空間的定常区間推定部１１の機能を模式的に示す図である。図２に示すように、空間的定常区間推定部１１は、時間周波数領域変換部１１１、クラスタリング部１１２及び最尤クラス選択部１１３（第３の推定部）を有する。

時間周波数領域変換部１１１は、入力された参照信号および対象信号を所定の短い時間区間で切り出して周波数領域の信号に変換する。対象信号は、１または複数である。時間周波数領域変換部１１１は、参照信号および対象信号をそれぞれ、例えば３２ｍｓごとに窓関数で切り出した後、切り出した信号をフーリエ変換などで周波数領域に変換する。切り出した１区間をフレームと呼ぶ。

クラスタリング部１１２は、切り出した時間フレームを、空間的特徴に基づいてクラスタリングする。

最尤クラス選択部１１３は、クラスタリング部１１２によってクラスタリングされたクラスのうち、一番定常なクラスの区間を、空間的定常区間Ｃ_＾ｋとして推定する。最尤クラス選択部１１３は、クラスタリングされたクラスのうち定常的な信号に対応するクラスを、尤度に基づいて推定し、推定したクラスの区間を空間的定常区間Ｃ_＾ｋとする。

次に、時間周波数領域変換部１１１、クラスタリング部１１２及び最尤クラス選択部１１３の処理の流れを説明する。まず、時間周波数領域変換部１１１は、参照信号と対象信号とを例えば、３２ｍｓごとに窓関数で切り出し、切り出した信号をフーリエ変換などで周波数領域に変換する。ｄ番目の端末の左チャネル・右チャネルの時間周波数（ｆ，ｎ）領域の観測信号Ｘ_ｄ（ｆ，ｎ）を（７）式のように表記する。

ｄ＝１が参照信号であり、ｄ＝２が対象信号である。なお、本実施の形態１では、左右２チャネルの信号について説明するが、３チャネル以上でも同様の議論ができる。さらに、対象信号の数は２個以上あってもよい。言い換えると、ｄ＝２，・・・，Ｎ＋１のＮ個の対象信号を用いてもよい。

続いて、クラスタリング部１１２は、各時間フレームを、空間的に定常なクラスにクラスタリングする。これによって、各クラスを形成する時間フレームは、例えば、音源（雑音源を含む）が移動していない時間区間、移動音源ではあるが同じ位置にいると仮定できる時間区間、などに属すると考えることができる。クラスタリングのための尤度関数を作るため、まず、各信号Ｘ_ｄ（ｆ，ｎ）がゼロ平均多変量複素正規分布に従うと仮定する。これに基づくと、ある時間フレームｎがクラスｋに属する対数尤度Ｌ_ｃ（ｎ；ｋ）は、（８）式となる。

（８）式は、（６）式と異なり、各端末内の共分散行列のみから成っており、他の端末とのサンプリング周波数ミスマッチには影響されない。

そして、クラスタリングのための目的関数は、（９）式のように与えられる。

（９）式において、Ｃ_ｋは、クラスｋに属する時間フレームの集合である。クラスタリング部１１２は、始めにＣ_ｋを初期化し、この目的関数を最大にするクラスタリング結果Ｃ_ｋおよびＶ_ｄｋを、（１０）式及び（１１）式に示す更新式を数回反復することにより求める。（１０）式は、共分散行列の更新式であり、（１１）式は、クラスの更新式である。

そして、反復計算が収束した場合、最尤クラス選択部１１３は、（１２－１）式に示すように、最も尤度の高いクラス＾ｋを求め、求めたクラス＾ｋを、最も空間的定常性の高いクラスとして選択する。または、最尤クラス選択部１１３は、（１２－２）式に示すように、各時間フレーム単位の尤度のうち最も尤度の高いクラス＾ｋを求め、求めたクラス＾ｋを、最も空間的定常性の高いクラスとして選択する。

空間的定常区間推定部１１は、最終的に、選択したクラス＾ｋの時間区間Ｃ_＾ｋを、空間的定常区間として出力する。

［サンプリング周波数ミスマッチ量推定部］
次に、サンプリング周波数ミスマッチ量推定部１２について説明する。図３は、図１に示すサンプリング周波数ミスマッチ量推定部１２の機能を模式的に示す図である。図３に示すように、時間周波数領域変換部１１１と同様の機能を有する時間周波数領域変換部１２１及び最尤ε推定部１２２を有する。最尤ε推定部１２２は、空間的定常区間Ｃ_＾ｋにおける、周波数領域変換後の参照信号と対象信号とを用いて、サンプリング周波数ミスマッチ量εを推定する。

次に、時間周波数領域変換部１２１及び最尤ε推定部１２２の処理の流れを説明する。まず、時間周波数領域変換部１２１は、ｘ_２Ｂ（ｔ）について、窓関数ｗ（ｉ）を用いて短い時間区間で切り出し、切り出した対象信号を、（１３）式のように、フーリエ変換を実行して周波数領域に変換する。なお、Ｉは窓関数の長さである。ｆは、離散周波数インデックスである。ｎは、窓の中心にあたる時間サンプルである。ｊは、虚数単位√－１である。

本実施の形態１では、空間的定常区間Ｃ_＾ｋにおいては空間的定常性が高いため、音源が移動しないと仮定することができる。このため、ｘ_１Ｂ（ｔ）とｘ_２Ｂ（ｔ）との時間差がサンプリング周波数のミスマッチのみにより生じること、また、サンプリング周波数ミスマッチ量εは、フレーム内で一定であること、の２つを仮定し、サンプリング周波数ミスマッチを、ＳＴＦＴ領域での線形位相シフトで補償する（（１４）式参照）。

空間的定常区間Ｃ_＾ｋにおいては、観測された音源は空間的定常性が高く、位置移動がないと仮定できるため、ＳＴＦＴを行った参照信号、および、εを用いてサンプリング周波数のミスマッチを補償した対象信号をまとめた観測信号ベクトルＹ（ｆ，ｎ；ε）は、各周波数で定常であると仮定できる。観測信号ベクトルＹ（ｆ，ｎ；ε）を、（１５）式に示す。

空間的定常区間Ｃ_＾ｋにおいて、正確なεで補償され定常性を回復した２端末の観測信号ベクトルＹ（ｆ，ｎ；ε）が、共分散行列Ｖ_Ｙ（ｆ）のゼロ平均多変量複素正規分布に従うと仮定すると、その対数尤度は、（１６）式で与えられる。

ここで、Ｈは、複素共役転置である。Ｖ_Ｙ（ｆ）＝Σ_ｎＹ（ｆ，ｎ；ε）Ｙ^Ｈ（ｆ，ｎ；ε）／｜∀ｎ｜は、共分散行列の最尤推定量である。Ｄは、Ｙの次元（ここでは、Ｄ＝４)である。｜∀ｎ｜はフレーム数である。すなわち、サンプリング周波数ミスマッチ量推定部１２は、最尤ε推定部１２２において、サンプリング周波数ミスマッチ量推定のための尤度関数である（１６）式を、空間的定常性が高いクラスの時間フレームｎ∈Ｃ_＾ｋのみで計算する。

最尤ε推定部１２２は、サンプリング周波数ミスマッチ量εを、（１６）式に示す対数尤度関数を最大にするように求める。この尤度最大化は、黄金比探索で効率的に最尤εを求めることができる。

［信号処理の処理手順］
次に、信号処理装置１０による信号処理の処理手順について説明する。図４は、実施の形態１に係る信号処理の処理手順を示すフローチャートである。

図４に示すように、信号処理装置１０では、参照信号、対象信号の入力を受け付けると（ステップＳ１）、空間的定常区間推定部１１が、空間的定常区間Ｃ_＾ｋを推定する空間的定常区間推定処理を実行する（ステップＳ２）。続いて、サンプリング周波数ミスマッチ量推定部１２は、空間的定常区間Ｃ_＾ｋにおける、周波数領域変換後の参照信号と対象信号とを用いて、（１６）式を基にサンプリング周波数ミスマッチ量εを推定するサンプリング周波数ミスマッチ量推定処理を実行する（ステップＳ３）。サンプリング周波数ミスマッチ量推定部１２は、推定したサンプリング周波数ミスマッチ量εを出力する（ステップＳ４）。

［空間的定常区間推定処理の処理手順］
次に、図４に示す空間的定常区間推定処理（ステップＳ２）について説明する。図５は、図４に示す空間的定常区間推定処理の処理手順を示すフローチャートである。

図５に示すように、時間周波数領域変換部１１１は、入力された参照信号および対象信号の短い時間区間での切り出しと、周波数領域の信号に変換するためのフーリエ変換を行なう（ステップＳ１１）。

そして、クラスタリング部１１２は、クラスタリングＣ_ｋの初期値を設定する（ステップＳ１２）。クラスタリング部１１２は、（１０）式を用いて、各クラスの共分散行列Ｖ_ｄｋを計算する（ステップＳ１３）。そして、クラスタリング部１１２は、（１１）式を用いて、クラスのＣ_ｋを更新する（ステップＳ１４）。

クラスタリング部１１２は、ステップＳ１３，１４を所定の回数繰り返したか、または、収束条件を満たすかを判定する（ステップＳ１５）。収束条件は、例えば、前回と今回の対数尤度Ｌ（（９）式参照）の差が所定の閾値以下になることである。クラスタリング部１１２は、ステップＳ１３，１４を所定の回数繰り返しておらず、収束条件を満たしていないと判定した場合（ステップＳ１５：Ｎｏ）、ステップＳ１３に戻り、ステップＳ１３，１４の演算処理を再度行う。

一方、クラスタリング部１１２が、ステップＳ１３，１４を所定の回数繰り返したと判定した場合、または、収束条件を満たすと判定した場合（ステップＳ１５：Ｙｅｓ）、最尤クラス選択部１３は、（１２）式に示すように、最も尤度の高いクラス＾ｋを求め、求めたクラス＾ｋを、最も空間的定常性の高いクラスとして選択する（ステップＳ１６）。最尤クラス選択部１３は、求めたクラス＾ｋを基に、空間的定常区間Ｃ_＾ｋを出力する（ステップＳ１７）。

［実施の形態１の効果］
このように、本実施の形態１に係る信号処理装置１０は、周波数領域変換後の参照信号及び対象信号を用いて、収録した音源の空間的定常性が高い時間区間である空間的定常区間Ｃ_＾ｋを推定する。そして、信号処理装置１０は、この空間的定常区間Ｃ_＾ｋにおける、周波数領域変換後の参照信号と対象信号とを用いて、サンプリング周波数ミスマッチ量εを推定する。すなわち、信号処理装置１０は、サンプリング周波数ミスマッチ量推定のための尤度関数である（１６）式を、空間的定常性が高いクラスの時間フレームｎ∈Ｃ_＾ｋのみで計算する。

したがって、信号処理装置１０は、移動音源が有る場合であっても、高い精度で、機器間のわずかなサンプリング周波数のずれ（ミスマッチ）であるサンプリング周波数ミスマッチ量εを推定することが可能となる。すなわち、本実施の形態１に係る信号処理装置１０は、録音中に音源が動く場合であっても、サンプリング周波数ミスマッチ量εの高精度での推定が可能である。このため、この推定結果を基に、サンプリング同期のない複数の録音端末による音響データの同期をとり、その同期のとれたデータに、同期のとれたマイクロホンアレイ用の音声強調技術を適用して、目的音声をクリアに抽出することが可能となる。

［実施の形態２］
次に、実施の形態２について説明する。図６は、実施の形態２に係る信号処理装置の機能を模式的に示す図である。図７は、図６に示す空間的定常区間推定部２１１の機能を模式的に示す図である。

実施の形態２に係る信号処理装置２１０は、図１に示す信号処理装置１０と比して、空間的定常区間推定部２１１の入力として、参照信号を収録した端末及び対象信号を収録した端末とは別の端末で収録したサブアレイ信号を用いる。このサブアレイ信号は、参照信号や対象信号を含んでもよいし、含まなくてもよい。

サブアレイ信号Ｘ´_ｄ（ｆ，ｎ）は、サンプリング周波数が同じ、或いは、互いにわずかに異なるＳ台（ｄ＝１，・・・，Ｓ）の録音端末を用いて収録したものである。Ｓ台の録音端末は、それぞれ２個以上の同期したマイクを有する。ここで、サブアレイ信号、参照信号、対象信号は、全て、ＳＴＦＴのフレーム分析でずれない程度にはゆるく同期がとれているものとする。

具体的には、空間的定常区間推定部２１１は、参照信号及び対象信号に基づく観測信号Ｘ_ｄ（ｆ，ｎ）に代えて、サブアレイ信号に基づくＸ´_ｄ（ｆ，ｎ）を用いて、空間的に定常な区間Ｃ_＾ｋを求めて出力する。具体的には、空間的定常区間推定部２１１では、時間周波数領域変換部２１１１が、各サブアレイ信号１～Ｓを、それぞれ窓関数で切り出し、切り出した信号をフーリエ変換などで周波数領域に変換する。クラスタリング部１１２は、実施の形態１と同様の処理を行って、各時間フレームを、空間的に定常なクラスにクラスタリングする。最尤クラス選択部１１３は、実施の形態１と同様の処理を行って、クラスタリングされたクラスのうち、最も尤度の高いクラス＾ｋを、空間的定常区間Ｃ_＾ｋとして出力する。

続いて、サンプリング周波数ミスマッチ量推定部１２には、空間的定常区間推定部２１１がサブアレイ信号を用いて求めた空間的定常区間Ｃ_＾ｋ、参照信号及び対象信号を入力として、実施の形態１と同様の処理を行って、サンプリング周波数ミスマッチ量εを推定し、出力する。なお、対象信号は複数あってもよい。

［信号処理の処理手順］
次に、信号処理装置２１０による信号処理の処理手順について説明する。図８は、実施の形態２に係る信号処理の処理手順を示すフローチャートである。

図８に示すように、信号処理装置２１０では、サブアレイ信号の入力を受け付けると（ステップＳ２１）、空間的定常区間推定部２１１が、ステップＳ２と同様の処理を行って、空間的定常区間Ｃ_＾ｋを推定する（ステップＳ２２）。続いて、サンプリング周波数ミスマッチ量推定部１２は、参照信号、対象信号及び空間的定常区間Ｃ_＾ｋの入力を受け付ける（ステップＳ２３）。サンプリング周波数ミスマッチ量推定部１２は、空間的定常区間Ｃ_＾ｋにおける参照信号と対象信号とを用い、ステップＳ３と同様の処理を行って、サンプリング周波数ミスマッチ量εを推定し（ステップＳ２４）、推定したサンプリング周波数ミスマッチ量εを出力する（ステップＳ２５）。

この実施の形態２に示すように、参照信号を収録した端末及び対象信号を収録した端末とは別の端末で収録したサブアレイ信号を用いて空間的定常区間Ｃ_＾ｋを推定することも可能である。

［実施例１］
実施の形態１，２における信号処理装置１０，２１０は、クラスタリングの特徴量として、共分散行列Ｖ_ｄｋ（ｆ）に代えて、他の量を用いてもよい。例えば、信号処理装置１０，２１０は、クラスタリングの特徴量として、各端末におけるＬチャネルとＲチャネルとのマイク間位相差φ（ｆ，ｎ）（（１７）式参照）、マイク間時間差τ（ｆ，ｎ）（（１８）式参照）、端末で推定した到来方向θ（ｆ，ｎ）（（１９）式参照）などを特徴量として、これを変量正規分布でモデル化してクラスタリングを行なってもよい。なお、（１８）式において、Ｆ_ｆは、周波数インデックスｆが示す周波数である。また、（１９）式において、ｍは、マイク間距離である。

また、各端末が３チャネル以上ある場合は、それぞれの特徴量を各チャネル間で求めた個数分並べたベクトルを、３チャネル以上ある場合の特徴量として用いればよい。

また、ノルム正規化した観測信号ベクトル＾Ｘ_ｄ（ｆ，ｎ）（（２０）式参照）などを特徴量として、ゼロ平均多変量複素正規分布でモデル化してクラスタリングを行なってもよい。

［実施例２］
実施の形態１，２では、（１１）式に示すように、データが１つのクラスに属する形で出力するハードクラスタリング法を用いたが、データが複数のクラスに属することを許すソフトクラスタリング法を用いることもできる。ソフトクラスタリング法を用いた場合、クラスタリング部１１２は、データが各クラスに属する度合いを出力する。

［実施例３］
サンプリング周波数ミスマッチ量推定部１２は、サンプリング周波数ミスマッチ量推定方法として他の方法を用いてもよい。たとえば、サンプリング周波数ミスマッチ量推定部１２は、Ｘ_１Ｂと＾Ｘ_２Ｂとの相関を最大にするεを求めてもよい（例えば、L.Wang and S. Doclo, “Correlation Maximization Based Sampling Rate Offset Estimation for Distributed Microphone Arrays”, IEEE Trans. Audio, Speech and Language Processing, vol. 24, no. 3, pp.571－582, March 2016.参照）。

また、サンプリング周波数ミスマッチ量推定部１２は、フレーム毎に、Ｘ_１Ｂと＾Ｘ_２Ｂとのコヒーレンス関数を求め、隣接フレームのコヒーレンス関数を複数フレームで平均し、その位相差を周波数方向にも平均をとってεを求めてもよい（例えば、S. Markovich-Golan, S. Gannot, and I. Cohen, “BLIND SAMPLING RATE OFFSET ESTIMATION AND COMPENSATION IN WIRELESS ACOUSTIC SENSOR NETWORKS WITH APPLICATION TO BEAMFORMING”, in Proc. of IWAENC2012, 2012.参照）。

また、サンプリング周波数ミスマッチ量推定部１２は、複数の隣接フレームのコヒーレンス関数の位相差から最小二乗法を用いてεを求めてもよい（例えば、M. H. Bahari, A. Bertrand, and M. Moonen, “Blind sampling rate offset estimation for wireless acoustic sensor networks through weighted least-squares coherence drift estimation”, IEEE Trans. Audio, Speech and Language Processing, vol. 25, no. 3, pp. 674－686, 2017.参照参照）。また、サンプリング周波数ミスマッチ量推定部１２は、任意のサンプリング周波数ミスマッチ量推定方法を用いてもよい。

［評価実験］
次に、実施の形態１を用いて評価実験を行った。図９は、評価実験における収録条件を示す図である。

図９に示すように、６台のＩＣレコーダーＡ１－１，Ａ１－２，Ａ２－１，Ａ２－２，Ｂ１－１，Ｂ１－２で移動音源を収録し、サンプリング周波数ミスマッチ量推定の実験を行なった。評価実験では、ＩＣレコーダーＡ１－１によって収録された音響信号を参照信号とし、ＩＣレコーダーＡ１－２，Ａ２－１，Ａ２－２，Ｂ１－１，Ｂ１－２によって収録された音響信号を対象信号とする。音源は、男性或いは女性の話者であり、以下の２つのシナリオで移動しながら音声を読み上げた。
シナリオ１：１方向に移動（ルートは４種類：Ａ→Ｂ，Ｂ→Ａ，Ｃ→Ｄ，Ｄ→Ｃ）
シナリオ２：ある直線上を２往復（ルートは４種類：Ａ→Ｂ→Ａ→Ｂ→Ａ，Ｂ→Ａ→Ｂ→Ａ→Ｂ，Ｃ→Ｄ→Ｃ→Ｄ→Ｃ，Ｄ→Ｃ→Ｄ→Ｃ→Ｄ）

そして、この評価実験では、各端末のサンプリング周波数を４４．１ｋＨｚに設定した。また、評価実験では、ＳＴＦＴのフレーム長は４０９６、フレームシフト長を２０４８とした。ここで、評価実験は、参照信号及び対象信号に基づいて空間的定常区間Ｃ_＾ｋを推定する実施の形態１に係る信号処理方法と、空間的定常区間Ｃ_＾ｋの推定を行わずにサンプリング周波数ミスマッチ量を求める従来方法とを用いている。

図１０は、シナリオ１の場合のクラスタリングの例を示す図である。ここではクラス数５としてクラスタリングを行なった。図１０の（１）は、クラスタリングの初期値を示す。図１０の（２）は、クラスタリング結果を示す。図１０の（３）は、対象信号のＬチャネルにおける観測波形を示す。図１１は。クラス１～５におけるサンプリング周波数ミスマッチ量推定の対数尤度関数Ｊ（ε）の形状を示す図である。

空間的定常区間推定部１１は、対数尤度Σ_{ｎ∈Ｃ＾ｋ}Ｌｃ（ｎ；ｋ）（ｋ＝１，・・・，５）の値として、それぞれ、-1.5e5，+1.9e4，-2.1e5，-1.4e5，+5.7e5を求め、このうち、最大尤度のクラス５を選択した。また、εの正解値-3.92（ppm）に対し、各クラスでのεの推定値は、それぞれ105.13，-2.98，17.23，-84.34，-3.90（ppm）であった。空間的定常区間推定部１１において、選択したクラス５で、正確なεを求めることができていることを評価できた。

次に、表１，２に、シナリオ１、シナリオ２の場合のεの推定結果を示す。

シナリオ１では、ルート４種類×話者２名の８通り、シナリオ２では、ルート２種類×話者２名の４通りの実験の、それぞれ平均値を求めた。表１，２において、ε_ｏｒａは正解の値を示し、ε_ｃｏｎｖは従来方法での推定値を示し、ε_ｐｒｏｐは実施の形態１に係る信号処理方法による推定値を示す。表１，２に示すように、従来方法では、シナリオ１、シナリオ２とも、正しいεの推定ができていないことが分かる。これに対し実施の形態１に係る信号処理方法では、シナリオ１、シナリオ２のいずれに対しても、正解値に近いεを推定できており、音源移動がある場合であっても高精度なサンプリング周波数ミスマッチ量の推定ができていることが分かる。

［システム構成等］
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
図１２は、プログラムが実行されることにより、信号処理装置１０，２１０が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、信号処理装置１０，２１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、信号処理装置１０，２１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

１０，２１０信号処理装置
１１，２１１空間的定常区間推定部
１２サンプリング周波数ミスマッチ量推定部
１１１，１２１，２１１１時間周波数領域変換部
１１２クラスタリング部
１１３最尤クラス選択部
１２２最尤ε推定部

Claims

サンプリング周波数が異なる複数の録音端末により収録された音響信号を処理する信号処理装置であって、
基準となる参照端末において収録された参照信号と、サンプリング周波数のミスマッチ量の推定対象である対象端末において収録された１または複数の対象信号とを所定の時間間隔で切り出して周波数領域の信号に変換し、周波数領域変換後の参照信号及び対象信号を基に、収録した音源の空間的定常性が高い時間区間である空間的定常区間を推定する第１の推定部と、
前記空間的定常区間における周波数領域変換後の参照信号及び対象信号を用いて、サンプリング周波数のミスマッチ量を推定する第２の推定部と、
を有することを特徴とする信号処理装置。
サンプリング周波数が異なる複数の録音端末により収録された音響信号を処理する信号処理装置であって、
基準となる参照端末において収録された参照信号、サンプリング周波数のミスマッチ量の推定対象である対象端末において収録された１または複数の対象信号、または、その他の録音端末において収録されたサブアレイ信号を所定の時間間隔で切り出して周波数領域の信号に変換し、周波数領域変換後の参照信号、対象信号またはサブアレイ信号を基に、収録した音源の空間的定常性が高い時間区間である空間的定常区間を推定する第１の推定部と、
前記空間的定常区間における周波数領域変換後の参照信号及び対象信号を用いて、サンプリング周波数のミスマッチ量を推定する第２の推定部と、
を有することを特徴とする信号処理装置。
前記第１の推定部は、所定の時間で切り出した各時間フレームを、空間的特徴量に基づいてクラスタリングするクラスタリング部を有することを特徴とする請求項１または２に記載の信号処理装置。
前記第１の推定部は、前記クラスタリング部によってクラスタリングされたクラスのうち定常的な信号に対応するクラスを、尤度に基づいて推定する第３の推定部をさらに有することを特徴とする請求項３に記載の信号処理装置。
サンプリング周波数が異なる複数の録音端末により収録された音響信号を処理する信号処理装置が実行する信号処理方法であって、
基準となる参照端末において収録された参照信号と、サンプリング周波数のミスマッチ量の推定対象である対象端末において収録された１または複数の対象信号とを所定の時間間隔で切り出して周波数領域の信号に変換し、周波数領域変換後の参照信号及び対象信号を基に、収録した音源の空間的定常性が高い時間区間である空間的定常区間を推定する第１の推定工程と、
前記空間的定常区間における周波数領域変換後の参照信号及び対象信号を用いて、サンプリング周波数のミスマッチ量を推定する第２の推定工程と、
を含んだことを特徴とする信号処理方法。
サンプリング周波数が異なる複数の録音端末により収録された音響信号を処理する信号処理装置が実行する信号処理装置であって、
基準となる参照端末において収録された参照信号、サンプリング周波数のミスマッチ量の推定対象である対象端末において収録された１または複数の対象信号、または、その他の録音端末において収録されたサブアレイ信号を所定の時間間隔で切り出して周波数領域の信号に変換し、周波数領域変換後の参照信号、対象信号またはサブアレイ信号を基に、収録した音源の空間的定常性が高い時間区間である空間的定常区間を推定する第１の推定工程と、
前記空間的定常区間における周波数領域変換後の参照信号及び対象信号を用いて、サンプリング周波数のミスマッチ量を推定する第２の推定工程と、
を含んだことを特徴とする信号処理方法。
コンピュータを、請求項１～４のいずれか一つに記載の信号処理装置として機能させるための信号処理プログラム。