JP6524463B2

JP6524463B2 - 自動ミキシング装置およびプログラム

Info

Publication number: JP6524463B2
Application number: JP2014266387A
Authority: JP
Inventors: 堀内　俊治; 俊治堀内
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2014-12-26
Filing date: 2014-12-26
Publication date: 2019-06-05
Anticipated expiration: 2034-12-26
Also published as: JP2016126136A

Description

本発明は、複数のマイクロホンで得られた音声信号から目的音の音声信号を抽出する技術に関する。

一般に、会議やグループインタビューでは、複数のマイクロホンが使用される。複数のマイクロホンを同時使用した場合、ハウリングマージンの低下、周囲雑音の増加、およびコムフィルタの発生を引き起こす。この問題を解決するため、ミキシングエンジニアを配置するか、あるいはその作業を代替する自動ミキシング装置が使用される。自動ミキシング装置は、一般に、複数のマイクロホンの信号経路を監視し、最も入力レベルが大きいマイクロホンが出力する受音信号を選択し、出力レベルを調整するものである。従って、声の小さい人を救うために、該当するマイクロホンのミキシングゲインを上げると、当然ながら、妨害音(周囲雑音)の増加を招くことになる。

一方、街頭、車内あるいは駅のプラットホームなどの雑音環境下では、ハンドセットやヘッドセットなどの口元に近接配置されたマイクロホンを用いても、目的音である所望の音声に妨害音である他の音声や周囲雑音が混入してしまうことがある。この問題を解決するため、これまでに様々な妨害音抑圧手法や音源分離手法が提案されている。これらの手法は、単一のマイクロホンを使用するものと複数のマイクロホンを使用するものとに大別できる。複数のマイクロホンを使用するものでは、単一のマイクロホンを使用するものと比較して、より高い妨害音抑圧性能を得ることができる。

複数のマイクロホンを使用する手法では、複数のマイクロホンを空間的に配置し、各マイクロホンが出力する受音信号に、各マイクロホンと音源との空間的な位置関係に依存した時間差や振幅差を反映させる。これにより、各マイクロホンが出力する受音信号の時間差や振幅差の統計情報を利用して、目的音のみを選択的に収音したり、あるいは目的音と妨害音とを分離したりすることができる。

また、複数のマイクロホンを使用する手法として、音声信号のスパース性を利用した時間周波数マスキングと呼ばれる手法も提案されている。音声信号のスパース性とは、音声信号のエネルギが一部の時間周波数領域に集中し、その他の時間周波数領域ではほぼ０であるような性質をいう。時間周波数マスキングに基づく手法では、目的音および妨害音の方向は未知でよく、目的音を抽出するために、複数のマイクロホンが出力する受音信号の各時間周波数成分の振幅差と時間差の一方または両方を算出する。そして、それらの差に基づいて各時間周波数成分を分類し、目的音と妨害音とを分離する。複数のマイクロホンが出力する受音信号の各時間周波数成分の振幅差および時間差の算出では、所定時間長ごとに周波数分析を行なう。

時間周波数マスキングに基づく手法のうち、特に、複数のマイクロホンが出力する受音信号の各時間周波数成分の振幅差を用いるものは、より強い信号はそれより弱い信号をマスクするという聴覚マスキング現象を、計算機上に模擬したものである。２つのマイクロホンを用いるとき、目的音に重畳された妨害音をマスクするマスクパターンは、２つのマイクロホンが出力する受音信号の各時間周波数成分の振幅差を比較することで生成され、主マイクロホンに近接している音源の高振幅の受音信号の時間周波数成分を選択的に抽出するために用いられる。

この処理は、時間周波数領域で行われ、２つのマイクロホンのうちの主マイクロホンが出力する受音信号が支配的な周波数成分はそのまま出力し、もう一方の副マイクロホンが出力する受音信号が支配的な周波数成分はマスク処理する。主マイクロホンに近接している音源の受音信号に対するマスク処理は、下記式（１）で定義される。

このマスク処理では、主・副マイクロホンが出力する受音信号にスパース性が成立し、それらの時間周波数成分間に振幅差があると仮定している。この技術については、非特許文献１−４に記載されている。

また、特許文献１では、主・副マイクロホンの受音信号間に、振幅差を生じさせ、マスクパターンを生成している。また、特許文献２では、主・副マイクロホンの受音信号間に、パワースペクトル差を生じさせ、マスクパターンを生成している。

特許第５１０７９５６号明細書特許第５１１３０９６号明細書

R.F.Lyon: "A computational model of binaural localization and separation, " In Proc. ICASSP, 1983. M. Bodden: "Modeling human sound-source localization and the cocktail-party-effect," Acta Acoustica, vol.1, pp.43--55, 1993. O. Yilmaz and S. Rickard: "Blind Separation of Speech Mixtures via Time-Frequency Masking," IEEE Transaction on Signal Processing, Vol. 52, No. 7, pp. 1830-1847, 2004. S. Rickard and O. Yilmaz: "On the Approximate W-disjoint Orthogonality of Speech," Proc. ICASSP, Vol. I, pp. 529-532, 2002.

しかしながら、一般に、人を音源とする受音信号ではスパース性は成立するが、例えば、妨害音(周囲雑音)の受音信号ではスパース性が成立しない。さらに、複数のマイクロホンが出力する受音信号において、目的音の受音信号間に振幅差があっても、妨害音の受音信号間には振幅差がない場合が多い。さらに、一般に、人を音源とする受音信号はその音圧がまちまちであるため、例えば、声の小さい人を救うために、該当するマイクロホンのミキシングゲインを上げると、当然ながら、妨害音(周囲雑音)の増加を招くことになる。

本発明は、このような事情に鑑みてなされたものであり、複数のマイクロホンが出力する受音信号にスパース性が成立せず、それらの時間周波数成分間に振幅差がない場合でも、妨害音抑圧や音源分離の性能が劣化しない自動ミキシング装置およびプログラムを提供することを目的とする。

（１）上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明の自動ミキシング装置は、複数のマイクロホンで得られた音声信号から目的音の音声信号を抽出する自動ミキシング装置であって、各マイクロホンのうちのいずれか一つである主マイクロホンおよび主マイクロホン以外の複数の副マイクロホンで得られた音声信号を、それぞれ時間周波数成分に変換する時間周波数変換部と、複数の副マイクロホンで得られた各音声信号に、それぞれゲインを付与するゲイン付与部と、主マイクロホンで得られた音声信号の時間周波数成分の振幅、およびゲインが付与された各音声信号の時間周波数成分の振幅を比較し、マスクパターンを生成するレベル差比較部と、主マイクロホンで得られた音声信号の時間周波数成分を、前記マスクパターンを用いてマスキングするマスキング処理部と、前記マスキングされた音声信号の時間周波数成分を合成する時間周波数合成部と、を備えることを特徴とする。

このように、各マイクロホンのうちのいずれか一つである主マイクロホンおよび主マイクロホン以外の複数の副マイクロホンで得られた音声信号を、それぞれ時間周波数成分に変換し、複数の副マイクロホンで得られた各音声信号に、それぞれゲインを付与し、主マイクロホンで得られた音声信号の時間周波数成分の振幅、およびゲインが付与された各音声信号の時間周波数成分の振幅を比較し、マスクパターンを生成し、主マイクロホンで得られた音声信号の時間周波数成分を、前記マスクパターンを用いてマスキングするので、マイクロホンが出力する受音信号の時間周波数成分間に振幅差を生じさせ、その後にマスクパターンを生成することが可能となる。これにより、マイクロホンが出力する受音信号にスパース性が成立せず、それらの時間周波数成分間に振幅差がない場合でも、音源分離や妨害音抑圧の性能が劣化することがなくなり、目的音を明確に得ることが可能となる。

（２）また、本発明の自動ミキシング装置において、前記ゲイン付与部は、各副マイクロホンで得られた妨害音としての音声信号の時間周波数成分間に振幅差を生じさせ、かつ、各副マイクロホンで得られた目的音としての音声信号の時間周波数成分の振幅と、各副マイクロホンで得られた妨害音としての音声信号の時間周波数成分の振幅との大小関係が逆転しないように、ゲインを設定することを特徴とする。

このように、各副マイクロホンで得られた妨害音としての音声信号の時間周波数成分間に振幅差を生じさせ、かつ、各副マイクロホンで得られた目的音としての音声信号の時間周波数成分の振幅と、各副マイクロホンで得られた妨害音としての音声信号の時間周波数成分の振幅との大小関係が逆転しないように、ゲインを設定するので、マイクロホンが出力する受音信号にスパース性が成立せず、それらの時間周波数成分間に振幅差がない場合でも、音源分離や妨害音抑圧の性能が劣化することがなくなり、目的音を明確に得ることが可能となる。

（３）また、本発明の自動ミキシング装置において、前記レベル差比較部は、主マイクロホンの時間周波数成分のレベルを｜Ｘ１（ｆ，ｔ）｜とし、ゲインＧ１ｎ（ｆ）が付与された複数の副マイクロホンの時間周波数成分のレベルを１／（Ｎ−１）・Σ｜Ｇ１ｎ（ｆ）・Ｘｎ（ｆ，ｔ）｜とし、次式に示すマスクパターンｍ１（ｆ，ｔ）を生成することを特徴とする。

この構成により、マイクロホンが出力する受音信号にスパース性が成立せず、それらの時間周波数成分間に振幅差がない場合でも、音源分離や妨害音抑圧の性能が劣化することがなくなり、目的音を明確に得ることが可能となる。

（４）また、本発明の自動ミキシング装置は、複数のマイクロホンで得られた音声信号から目的音の音声信号を抽出する自動ミキシング装置であって、各マイクロホンのうちのいずれか一つである主マイクロホンおよび主マイクロホン以外の複数の副マイクロホンで得られた音声信号を、それぞれ時間周波数成分に変換する時間周波数変換部と、主マイクロホンで得られた各音声信号に、ゲインを付与するゲイン付与部と、ゲインが付与された音声信号の時間周波数成分の振幅、および複数の副マイクロホンで得られた各音声信号の時間周波数成分の振幅を比較し、マスクパターンを生成するレベル差比較部と、ゲインが付与された音声信号の時間周波数成分を、前記マスクパターンを用いてマスキングするマスキング処理部と、前記マスキングされた音声信号からゲインを除去するゲイン除去部と、前記ゲインが除去された音声信号の時間周波数成分を合成する時間周波数合成部と、を備えることを特徴とする。

このように、各マイクロホンのうちのいずれか一つである主マイクロホンおよび主マイクロホン以外の複数の副マイクロホンで得られた音声信号を、それぞれ時間周波数成分に変換する時間周波数変換部と、主マイクロホンで得られた各音声信号に、ゲインを付与するゲイン付与部と、ゲインが付与された音声信号の時間周波数成分の振幅、および複数の副マイクロホンで得られた各音声信号の時間周波数成分の振幅を比較し、マスクパターンを生成するレベル差比較部と、ゲインが付与された音声信号の時間周波数成分を、前記マスクパターンを用いてマスキングするマスキング処理部と、前記マスキングされた音声信号からゲインを除去するので、マイクロホンが出力する受音信号の時間周波数成分間に振幅差を生じさせ、その後にマスクパターンを生成することが可能となる。これにより、マイクロホンが出力する受音信号にスパース性が成立せず、それらの時間周波数成分間に振幅差がない場合でも、音源分離や妨害音抑圧の性能が劣化することがなくなり、目的音を明確に得ることが可能となる。

（５）また、本発明のプログラムは、複数のマイクロホンで得られた音声信号から目的音の音声信号を抽出する自動ミキシング装置のプログラムであって、各マイクロホンのうちのいずれか一つである主マイクロホンおよび主マイクロホン以外の複数の副マイクロホンで得られた音声信号を、それぞれ時間周波数成分に変換する処理と、複数の副マイクロホンで得られた各音声信号に、それぞれゲインを付与する処理と、主マイクロホンで得られた音声信号の時間周波数成分の振幅、およびゲインが付与された各音声信号の時間周波数成分の振幅を比較し、マスクパターンを生成する処理と、主マイクロホンで得られた音声信号の時間周波数成分を、前記マスクパターンを用いてマスキングする処理と、前記マスキングされた音声信号の時間周波数成分を合成する処理と、の一連の処理を、コンピュータに実行させることを特徴とする。

本発明によれば、マイクロホンが出力する受音信号の時間周波数成分間に振幅差を生じさせ、その後にマスクパターンを生成することが可能となる。これにより、マイクロホンが出力する受音信号にスパース性が成立せず、それらの時間周波数成分間に振幅差がない場合でも、音源分離や妨害音抑圧の性能が劣化することがなくなり、目的音を明確に得ることが可能となる。

本発明に係る自動ミキシング装置の概略構成を示すブロック図である。マスクパターン生成の概念を示す図である。マスクパターン生成の概念を示す図である。本実施形態の変形例を示す図である。本実施形態の変形例を示す図である。

本発明者は、複数のマイクロホンで人の音声を集音する場合、人の音声信号ではスパース性が成立するが、妨害音（周囲雑音）の音声信号ではスパース性が成立せず、また、目的音の音声信号間には振幅差があっても、妨害音の音声信号間には振幅差が無いことに着目し、妨害音にゲインを付与してからマスクパターンを生成することによって、複数のマイクロホンで得られた音声信号にスパース性が成立せず、それらの時間周波数成分間に振幅差が無い場合であっても、妨害音の抑圧や音源分離の性能を維持することができることを見出し、本発明をするに至った。

すなわち、本発明の自動ミキシング装置は、複数のマイクロホンで得られた音声信号から目的音の音声信号を抽出する自動ミキシング装置であって、各マイクロホンのうちのいずれか一つである主マイクロホンおよび主マイクロホン以外の複数の副マイクロホンで得られた音声信号を、それぞれ時間周波数成分に変換する時間周波数変換部と、複数の副マイクロホンで得られた各音声信号に、それぞれゲインを付与するゲイン付与部と、主マイクロホンで得られた音声信号の時間周波数成分の振幅、およびゲインが付与された各音声信号の時間周波数成分の振幅を比較し、マスクパターンを生成するレベル差比較部と、主マイクロホンで得られた音声信号の時間周波数成分を、前記マスクパターンを用いてマスキングするマスキング処理部と、前記マスキングされた音声信号の時間周波数成分を合成する時間周波数合成部と、を備えることを特徴とする。

これにより、本発明者は、マイクロホンが出力する受音信号にスパース性が成立せず、それらの時間周波数成分間に振幅差がない場合でも、音源分離や妨害音抑圧の性能が劣化することを回避し、目的音を明確に得ることを可能とした。以下、本発明の実施形態について、図面を参照しながら具体的に説明する。

図１は、本発明に係る自動ミキシング装置の概略構成を示すブロック図である。マイクロホン１で受音した受音信号ｘ_１（ｔ）とその他のマイクロホンで受音した受音信号ｘ_ｎ（ｔ）（ｎ＝２，３，…，Ｎ）が、それぞれ独立した時間周波数分析部１０〜１０−ｎに入力され、時間周波数成分Ｘ_１（ｆ，ｔ）およびＸ_ｎ（ｆ，ｔ）に変換される。ゲイン付与部７０〜７０−ｎでは、マイクロホン１０とその他のマイクロホン１０−２〜１０−ｎの空間的な位置関係、周囲雑音の性質などから事前に算出された周波数ごとのゲインＧ_１ｎ（ｆ）が、その他のマイクロホンで受音された時間周波数成分Ｘ_ｎ（ｆ，ｔ）に付与される。

ここで、周波数ごとのゲインＧ_１ｎ（ｆ）は、具体的には、
（Ａ）マイクロホン１０に接近している音源からの音波信号が、マイクロホン１０とその他のマイクロホン１０−２〜１０−ｎで受音される際の振幅差
（Ｂ）低域では高く、高域では低いという一般的な周囲雑音の性質
を利用する。

上記の（Ｂ）は、様々な周囲雑音を測定し、それらの周波数特性から平均的な周囲雑音の周波数ごとの振幅を算出する。（Ａ）の振幅差と（Ｂ）の周波数ごとの振幅から、周波数ごとのゲインを算出する。マイクロホン１０に近接している音源からの音波が、マイクロホン１０とその他のマイクロホン１０−２〜１０−ｎで受音される際の振幅差は、より具体的には、点音源と仮定すれば、音源からの距離が２倍になると、約６ｄＢの減衰が生じる。

一方で、一般に、周囲雑音はほぼ同等程度である。このことを利用して、Ｇ_１ｎ（ｆ）は、マイクロホン１０からマイクロホン１０−ｎまでの距離に応じたゲインを乗じることで、相対的に周囲雑音成分が大きくなり、結果として、後段でマスキングが可能となる。レベル差比較部９０は、マイクロホン１０の時間周波数成分のレベル｜Ｘ_１（ｆ，ｔ）｜とゲインＧ_１ｎ（ｆ）が付与されたその他のマイクロホンの時間周波数成分のレベル“１／（Ｎ−１）・Σｎ｜Ｇ_１ｎ（ｆ）・Ｘ_ｎ（ｆ，ｔ）｜”が比較され、次式によりマイクロホン１０で受音した時間周波数成分のうち、図２Ａおよび図２Ｂに示すように、支配的な成分以外をマスクするマスクパターンｍ_１（ｆ，ｔ）を生成する。すなわち、レベル差比較部９０は、各時間周波数成分を比較し、（マイクロホン１０）＞その他の音声成分、（マイクロホン１０）≦その他の雑音成分を判断する。その結果、各々の成分をマスクするマスクパターンを生成する。

マスキング処理部３０では、レベル差比較部９０で生成されたマスクパターンｍ_１（ｆ，ｔ）を入力し、時間周波数分析部１０から入力された音声信号をマスキング処理する。時間周波数合成部５０では、マイクロホン１０で受音した時間周波数成分のうち、支配的な成分のみを合成に使用し、出力信号Ｙ_１（ｔ）を出力する。

本実施形態では、ゲイン付与部７０〜７０−ｎは、マイクロホン１０以外のマイクロホン１０−２〜１０−ｎのパスに設けているが、マイクロホン１０のパスにゲイン付与部を設けてゲインを低下させても同一の効果が得られる。また、全てのマイクロホンのパスにゲイン付与部を設けてそれぞれのゲインを調整すれば同一の効果が得られる。

図３は、マイクロホン１０のパスにゲイン付与部を設けた態様を示す図である。図３に示すように、マイクロホン１０のパスにゲイン付与部６０を設け、周波数ごとのゲインＧ_１ｎ（ｆ）を付与した場合は、マイクロホン１０で受音した受音信号が、周波数ごとのゲインＧ_１ｎ（ｆ）によって変形しているため、ゲイン除去部６１をマイクロホン１０のパスに設ける。

また、本実施形態では、マイクロホン１０で受音した音源信号のみを抽出するパスを示したが、図４に示すように、その他のマイクロホンで受音した音源信号にもマイクロホン１０と同様な回路構成を用いることで、マイクロホン１０とその他のマイクロホン１０−２〜１０−ｎで受音した音源信号をそれぞれ分離、抽出することができる。

なお、本発明は、自動ミキシング装置としてだけでなく、受音信号の処理手順で特定される自動ミキシング方法としても実現でき、さらにコンピュータに音源分離や妨害音抑圧の機能を実現させるためのプログラムとしても実現できる。また、自動ミキシング装置における各部は、ハードウエアでもソフトウエアでも実現することができる。

以上説明したように、本実施形態によれば、マイクロホンが出力する受音信号の時間周波数成分間に振幅差を生じさせ、その後にマスクパターンを生成することが可能となる。これにより、マイクロホンが出力する受音信号にスパース性が成立せず、それらの時間周波数成分間に振幅差がない場合でも、音源分離や妨害音抑圧の性能が劣化することがなくなり、目的音を明確に得ることが可能となる。

１０〜１０−ｎ時間周波数分析部
７０〜７０−ｎゲイン付与部
１〜ｎマイクロホン
３０マスキング処理部
５０時間周波数合成部
６０ゲイン付与部
６１ゲイン除去部
９０レベル差比較部

Claims

会議またはグループインタビュー用に配置された複数のマイクロホンで得られた音声信号から目的音の音声信号を抽出する自動ミキシング装置であって、
各マイクロホンのうちのいずれか一つである主マイクロホンおよび主マイクロホン以外の複数の副マイクロホンで得られた音声信号を、それぞれ時間周波数成分に変換する時間周波数変換部と、
複数の副マイクロホンで得られた各音声信号に、それぞれゲインを付与するゲイン付与部と、
主マイクロホンで得られた音声信号の時間周波数成分の振幅、およびゲインが付与された各音声信号の時間周波数成分の振幅を比較し、マスクパターンを生成するレベル差比較部と、
主マイクロホンで得られた音声信号の時間周波数成分を、前記マスクパターンを用いてマスキングするマスキング処理部と、
前記マスキングされた音声信号の時間周波数成分を合成する時間周波数合成部と、を備え、
前記レベル差比較部は、
主マイクロホンの時間周波数成分のレベルを｜Ｘ１（ｆ，ｔ）｜とし、
ゲインＧ１ｎ（ｆ）が付与された複数の副マイクロホンの時間周波数成分のレベルを
１／（Ｎ−１）・Σ｜Ｇ１ｎ（ｆ）・Ｘｎ（ｆ，ｔ）｜とし、次式に示すマスクパターンｍ１（ｆ，ｔ）を生成することを特徴とする自動ミキシング装置。
前記ゲイン付与部は、各副マイクロホンで得られた妨害音としての音声信号の時間周波数成分間に振幅差を生じさせ、かつ、各副マイクロホンで得られた目的音としての音声信号の時間周波数成分の振幅と、各副マイクロホンで得られた妨害音としての音声信号の時間周波数成分の振幅との大小関係が逆転しないように、ゲインを設定することを特徴とする請求項１記載の自動ミキシング装置。
会議またはグループインタビュー用に配置された複数のマイクロホンで得られた音声信号から目的音の音声信号を抽出する自動ミキシング装置のプログラムであって、
各マイクロホンのうちのいずれか一つである主マイクロホンおよび主マイクロホン以外の複数の副マイクロホンで得られた音声信号を、それぞれ時間周波数成分に変換する処理と、
複数の副マイクロホンで得られた各音声信号に、それぞれゲインを付与する処理と、
主マイクロホンで得られた音声信号の時間周波数成分の振幅、およびゲインが付与された各音声信号の時間周波数成分の振幅を比較し、マスクパターンを生成する処理と、
主マイクロホンで得られた音声信号の時間周波数成分を、前記マスクパターンを用いてマスキングする処理と、
前記マスキングされた音声信号の時間周波数成分を合成する処理と、の一連の処理を、コンピュータに実行させ、
前記マスクパターンを生成する処理では、
主マイクロホンの時間周波数成分のレベルを｜Ｘ１（ｆ，ｔ）｜とし、
ゲインＧ１ｎ（ｆ）が付与された複数の副マイクロホンの時間周波数成分のレベルを
１／（Ｎ−１）・Σ｜Ｇ１ｎ（ｆ）・Ｘｎ（ｆ，ｔ）｜とし、次式に示すマスクパターンｍ１（ｆ，ｔ）を生成することを特徴とするプログラム。