JP2008060725A

JP2008060725A - 音像定位強調再生方法、及びその装置とそのプログラムと、その記憶媒体

Info

Publication number: JP2008060725A
Application number: JP2006232598A
Authority: JP
Inventors: Mariko Aoki; 真理子青木; Kenichi Furuya; 賢一古家; Akitoshi Kataoka; 章俊片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-08-29
Filing date: 2006-08-29
Publication date: 2008-03-13
Anticipated expiration: 2026-08-29
Also published as: JP4495704B2

Abstract

【課題】２個のマイクロホンが音源に対して左右非対称の位置に置かれた場合でも正確な音の定位方向を提供できるようにした音像定位強調再生方法、及びその置の提供。
【解決手段】帯域別チャネル間パラメータ値差検出手段４から入力されるチャネル間パラメータ値差ΔLev（ω_ｉ）のヒストグラムを、ヒストグラム算出部３０で作成する。作成したヒストグラムの最大階級をヒストグラム最大階級算出部３１で算出する。ヒストグラム最大階級算出部３１で算出された最大階級は、ヒストグラム最大階級保存部３２に保存される。保存された複数個の最大階級の値から、音源位置偏り判定部３３が、その最大階級の値から違う位置にある音源として識別すべきかを判定する。識別すべきと判定された場合、閾値算出部３４が新たな閾値LevTh1とLevTh２を算出して音源信号判定手段６に出力する。
【選択図】図３

Description

この発明は、異なる位置に配置されている複数の発話音源をステレオ収音して再生する際に、聴取者の位置によらず全ての聴取者に音源の方向が認識できるように強調再生する音像定位強調再生方法、及びその装置、そのプログラムとそのプログラムを記憶する記憶媒体に関する。

従来、電話会議等の通信会議システムでステレオ収音された信号を、聴取者の座る位置によらずに全ての聴取者に良好な音の定位方向を与えるものとしては、非特許文献１に開示されている。この従来技術を図１２を参照して説明する。０.７ｍの等間隔を空けた３つの音源ＬsとＣｓとＲｓとが横一列に並び、中央の音源Ｃｓに正対して１.４ｍ離れてステレオマイクロホン１２０が配置されている。
ステレオマイクロホン１２０の信号Ｌと信号Ｒは、それぞれＦＦＴ１２１で周波数帯域信号Ｘ_Ｌ（ω_i）とＸ_R（ω_i）とに変換・分割される。これら両周波数帯域信号の同一帯域毎に、ステレオマイクロホン１２０の位置に起因して生ずる信号Ｌと信号Ｒの音のパラメータの値の差を、帯域別チャネル間パラメータ値差検出手段１２２で算出する。算出された音のパラメータ値差に基づき、判定手段１２３が周波数帯域信号の各帯域に、いずれの音源から入力された音が主に含まれるかを判定する。その判定情報に基づき各周波数帯域信号Ｘ_Ｌ（ω_i）とＸ_R（ω_i）に重み値を乗算して、各音源と対応付けされた周波数帯域信号Ｙ_Ｌ（ω_i）とＹ_Ｃ（ω_i）とＹ_Ｒ（ω_i）を生成する。

この判定の基準値は、ステレオマイクロホン１２０を音源に対して左右対称の位置に配置して、各音源を発音させた時のパラメータ値差の平均値と分散から設定されるもので、固定である。
音源と対応付けされた周波数帯域信号Ｙ_Ｌ（ω_i）とＹ_Ｃ（ω_i）とＹ_Ｒ（ω_i）は、それぞれＩＦＦＴ１２４で時間領域の信号に変換されて、音源の位置と対応付けられたそれぞれの拡声手段Ｓｐ．Ｌ、Ｓｐ．Ｃ、Ｓｐ．Ｒから再生される。したがって聴取者の位置によらず、全ての聴取者に音の方向を正しく知覚させることができる。
青木、古屋、片岡、クローストークキャンセラを用いたステレオ再生の受聴位置拡大、日本音響学会秋季研究発表会、１‐２‐１５、２００５．９

しかしながら従来の方法では、音源に対してステレオマイクロホンを左右対称の位置に配置する前提で、音源方向を判定して再生音の重み付けをするので、その前提が崩れると、音の方向が分からなくなる問題があった。
通信会議システムでは、マイクロホンは一般に会議机上に置かれるが、発話者に対してマイクロホンを左右対称の位置に正確に配置することは、机上に置かれる物との関係で難しい場合が多い。図１３に、７０ｃｍの間隔を空けて横一列に並んだ３人の発話者Ｌａ、Ｃｂ、Ｒｃに対して、発話者と５０ｃｍの間隔を空けて並行に配置される２個のマイクロホンＭｉｃ.ＬとＭＩＣ.Ｒが、一方の発話者Ｒc側に偏って配置された場合を示す。

上記した従来の方法ではマイクロホンＭｉｃ.ＬとＭＩＣ.Ｒとが音源に対して左右対称の位置に配置された前提で、両マイクロホンからの音のパラメータ値差に基づいて音源方向領域を判定している。しかし、７５ｃｍの間隔を空けたマイクロホンＭｉｃ.ＬとＭｉｃ.Ｒが、中央の発話者Ｃｂと正対する位置から、一方の発話者Ｌａ側に２５ｃｍ離れてマイクロホンＭｉｃ.Ｌが配置され、他方の発話者Ｒｃ側に５０ｃｍ離れてマイクロホンＭｉｃ.Ｒが配置されると、マイクロホンＭｉｃ.Ｌに入力される発話者Ｃｂの声のレベルが、マイクロホンＭｉｃ.Ｒに対して大きくなる。

その結果、本来であればパラメータ値差がLevTh１とLevTh2の範囲の値を示す一点鎖線の音源方向領域境界線Ｂ_ＬとＢ_Ｒとの間の音源方向領域Ｃｆからの音源と判定されるべき発話者Ｃｂの声が、左側の音源方向領域Ｌｆからの音とみなされてしまう。その誤判定の結果、発話者Ｃｂの収音された声は、音源方向領域Ｌｆに対応した拡声手段Ｓｐ.Ｌから強調されて再生されるので、中央の位置の聴取者も発話者Ｃｂが左側の音源方向領域Ｌｆの方向から発言しているように聞こえてしまう。以降、この音の方向感のことを音像定位感と称する。

この発明は、このような問題点に鑑みてなされたものであり、例えば図１３のようにマイクロホンが音源に対して左右非対称の位置に置かれたとしても、音のパラメータ値差から音源方向領域を判定するためのパラメータ値差の閾値LevTh１を変更して音源方向領域境界線Ｂ_Ｌを図１３に示す様に一点鎖線から実線に修正することで、正確な定位感を提供できるようにした音像定位強調再生方法、及び音像定位強調再生装置を提供することを目的とする。

この発明による音像定位強調再生装置には、複数の音源に対して、互いに離して配置された２個のマイクロホンで収音された２個の収音信号が入力される。
それら各収音信号を帯域分割手段により、各帯域の周波数帯域信号が主として一つの音源からの信号成分になる程度にそれぞれ複数の周波数帯域に分割する。
帯域分割手段で分割された２個の収音信号の同一帯域毎に、２個のマイクロホンの位置に起因して生ずる音のパラメータの値の差を帯域別チャネルパラメータ値差として帯域別チャネル間パラメータ値差検出手段により検出する。

閾値推定手段により、帯域別チャネル間パラメータ値差検出手段から入力された帯域別チャネル間パラメータ値差に基づき周波数帯域信号の各帯域がいずれの音源から入力された信号であるかを判定する閾値を生成する。
音源信号判定手段により、帯域別チャネル間パラメータ値差検出手段から入力された帯域別チャネル間パラメータ値差と、閾値推定手段から入力された閾値に基づき、周波数帯域信号の各帯域がいずれの音源から入力された音を主に含むかを判定してその音源方向領域を判定し、その判定情報を重み乗算手段に出力する。

重み乗算手段により、音源信号判定手段からの判定情報と、帯域分割手段からの２個の収音信号に基づく周波数帯域信号とから、判定情報に基づいて各帯域の周波数帯域信号に重み値を乗算し、音源方向領域を強調した出力用音源帯域信号を生成する。
音源信号合成手段により、重み乗算手段で重み付けされた出力用音源帯域信号が、判定音源方向領域ごとに時間波形に戻され、受聴者に音源方向領域を区別できる様に配置された拡声手段へ、音源信号として出力される。

この発明によれば、２個のマイクロホンが複数の音源に対して左右非対称の位置に配置され、一つの音源方向領域内に複数の音源が存在する状況になっても、それまでの音源方向領域を区別する閾値を、閾値推定手段が新たな帯域別チャネル間パラメータ値差に基づいて更新するので、音源方向領域を区別することができ、聴取者に音源の位置に対応した音像定位感を提供することが出来る。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

この発明の音像定位強調再生装置の実施例１の機能構成ブロックを図１に示す。この例では、音源を３個として説明する。マイクロホンＭ_ＬとＭ_Ｒとで収音された収音信号Ｘ_Ｌ（ｎ）とＸ_Ｒ（ｎ）（ｎは離散的時間）は、それぞれ帯域分割手段３のＬ帯域分割部３ａとＲ帯域分割部３ｂとで所定区間（フレームという）ごとに、例えば短時間高速フーリエ変換などで周波数分割されて周波数領域信号Ｘ_Ｌ（ω_ｉ），（ｉ＝１，…，Ｎ）とＸ_Ｒ（ω_ｉ），（ｉ＝１，…，Ｎ）とに変換される。更に、これら周波数領域信号Ｘ_Ｌ（ω_ｉ）、Ｘ_Ｒ（ω_ｉ）はそれぞれ予め決めた複数のＮ個の帯域に分割される。この分割された各帯域は、主として一つの音源からの音響信号成分のみが含まれるように細かく行われる。例えば、スペクトルごとに取り出せるように、帯域分割された各帯域の周波数帯域信号がＸ_Ｌ（ω_ｉ）、Ｘ_Ｒ（ω_ｉ）になるようにされる。周波数帯域信号Ｘ_Ｌ（ω_ｉ）とＸ_Ｒ（ω_ｉ）は、重み乗算手段７と帯域別チャネル間パラメータ値差検出手段４に出力される。

帯域別チャネル間パラメータ値差検出手段４は、周波数帯域信号Ｘ_Ｌ（ω_ｉ）とＸ_Ｒ（ω_ｉ）の同一帯域毎に、マイクロホンＭ_ＬとＭ_Ｒの位置に起因して生ずる音のパラメータの値の差を帯域別チャネル間パラメータ値差ΔＰａ（ω_ｉ），（ｉ＝１，…，Ｎ）として検出して、閾値推定手段５と音源信号判定手段６に出力する。詳しくは後述するが、帯域別チャネル間パラメータ値差にはレベル差若しくは位相差、又はその双方が用いられる。

図１では帯域別チャネル間パラメータ値差ΔＰａ（ω_ｉ）としてレベル差ΔLev（ω_ｉ），（ｉ＝１，…，Ｎ）を用いた場合を示し、このレベル差ΔLev（ω_ｉ），（ｉ＝１，…，Ｎ）が、帯域別チャネル間パラメータ値差検出手段４のレベル差部４ａで算出される。なお、チャネル間パラメータ値差を位相差とした場合は、帯域別チャネル間パラメータ値差検出手段４の位相差部４ｂで算出される。その場合でも、以降の説明における信号名はΔLev（ω_ｉ）を用いる。

閾値推定手段５は、帯域別チャネル間パラメータ値差から各帯域の周波数帯域信号Ｘ_Ｌ（ω_ｉ）とＸ_Ｒ（ω_ｉ）がいずれの音源から入力された信号であるかを判定する閾値LevTh１とLevTh２を生成し、音源信号判定手段６に出力する。
音源信号判定手段６は、各帯域別チャネル間パラメータ値差ΔLev（ω_ｉ）と閾値LevTh１及び閾値LevTh２とをそれぞれ比較して、各帯域ごとに周波数帯域信号Ｘ_Ｌ（ω_ｉ）とＸ_Ｒ（ω_ｉ）がいずれの音源から入力された音を主に含むかを判定してその音源方向領域を判定し、その判定情報Ｒｅｓ（ω_ｉ），（ｉ＝１，…，Ｎ）を重み乗算手段７に出力する。

重み乗算手段７は、帯域分割手段３から入力される周波数帯域信号Ｘ_Ｌ（ω_ｉ），（ｉ＝１，…，Ｎ）とＸ_Ｒ（ω_ｉ），（ｉ＝１，…，Ｎ）に対し、帯域毎に、判定情報Ｒｅｓ（ω_ｉ）に基づいて重み値を乗算して、その音源方向領域の周波数帯域信号を強調した出力用音源帯域信号として出力する。この例では、重み乗算手段７内におけるＬ出力用音源帯域信号生成部７ａで左側音源方向領域と判定された出力用音源帯域信号Ｙ_Ｌ（ω_ｉ），（ｉ＝１，…，Ｎ）を、Ｃ出力用音源帯域信号生成部７ｂで中央音源方向領域と判定された出力用音源帯域信号Ｙ_Ｃ（ω_ｉ），（ｉ＝１，…，Ｎ）を、Ｒ出力用音源帯域信号生成部７ｃで右側音源方向領域と判定された出力用音源帯域信号Ｙ_Ｒ（ω_ｉ），（ｉ＝１，…，Ｎ）を、それぞれ生成して音源信号合成手段８へ出力する。

音源信号合成手段８においては、Ｌ出力用音源帯域信号生成部７ａで左側音源方向領域として強調された出力用音源帯域信号Ｙ_Ｌ（ω_ｉ）を、Ｌ音源信号合成部８ａで時間波形に戻して拡声手段９ａに出力する。同様に出力音源帯域信号Ｙ_Ｃ（ω_ｉ）とＹ_Ｒ（ω_ｉ）を、それぞれＣ音源信号合成部８ｂとＲ音源信号合成部８ｃとで時間波形に戻して、拡声手段９ｂと、拡声手段９ｃとにそれぞれ出力する。受聴者が音源方向領域を区別できる様に拡声手段９ａ、９ｂ、９ｃが配置されている。なお、帯域分割手段３としては、各収音信号Ｘ_Ｌ（ｎ）、Ｘ_Ｒ（ｎ）をそれぞれのフィルタバンクにより周波数帯域信号Ｘ_Ｌ（ω_ｉ）、Ｘ_Ｒ（ω_ｉ）に変換・分割してもよい。

以上述べた構成にすることで、収音信号Ｘ_Ｌ（ｎ）とＸ_Ｒ（ｎ）をフレームごとに複数の周波数帯域信号に分割し、これら周波数帯域信号Ｘ_Ｌ（ω_ｉ）とＸ_Ｒ（ω_ｉ）に対し、帯域毎に、閾値推定手段５が生成した閾値LevTh1とLevTh２に基づいて重み値を乗算して音源方向を強調するので、音源に対するマイクロホンＭ_ＬとＭ_Ｒとが音源に対して左右対称の位置に配置されなくても、聴取者に正確な音像定位感を提供することが可能になる。つまり、音源に対するマイクロホンＭ_ＬとＭ_Ｒの配置の自由度を高めることができ、また複数の発話者がマイクロホンＭ_ＬとＭ_Ｒに対し偏って位置している場合でも、これら発話者の音声を分離して音像定位させることができる。

〔全体の動作フロー〕
図２に実施例１の音像定位強調再生装置の全体の動作フローを示して動作の流れを説明する。
音像定位強調再生装置が動作を開始すると、最初に音源方向領域Ｌｆと音源方向領域Ｃｆとを区別する閾値LevTh1と、音源方向領域Ｒｆと音源方向領域Ｃｆとを区別する閾値LevTh２と、に初期値が設定される。この初期値は、マイクロホンＭ_ＬとＭ_Ｒとが、例えば音源に対して左右対称で所定の距離離れた位置に配置された場合の閾値LevTh1とLevTh２である（ステップＳ２０）。
閾値LevTh1とLevTh２が設定された後に、帯域分割手段３は、マイクロホンＭ_ＬとＭ_Ｒの収音信号を周波数帯域の信号Ｘ_Ｌ（ω_ｉ）とＸ_Ｒ（ω_ｉ）に変換・分割する帯域分割処理を行う（ステップＳ２１）。

これら周波数帯域信号Ｘ_Ｌ（ω_ｉ）とＸ_Ｒ（ωｉ）の同一帯域毎に、マイクロホンＭ_ＬとＭ_Ｒの配置された位置に起因して生ずる帯域別チャネル間パラメータ値差ΔLev（ω_ｉ）を検出する。つまり帯域別チャネル間パラメータ値差検出処理を行う（ステップＳ２２）。
次に帯域別チャネル間パラメータ値差ΔLev（ω_ｉ）に基づいて閾値推定処理を行う（ステップＳ２３）。この実施例１では、閾値推定処理が逐次行われ、新たな閾値LevTh1，LevTh２が求まればその都度、閾値は更新される（ステップＳ２３ｂ）。閾値計算が終了するまでは、前の閾値LevTh1，LevTh２で動作する（ステップＳ２３ａ）。したがって、動作開始直後は、上記した初期値の閾値LevTh1，LevTh２で動作する。

次に音源信号判定手段６が、帯域別チャネル間パラメータ値差ΔLev（ω_ｉ）と閾値LevTh1及びLevTh２とをそれぞれ比較して、各帯域の周波数帯域信号Ｘ_Ｌ（ω_ｉ），Ｘ_Ｒ（ωｉ）がいずれの音源から入力された音を主に含むかを判定してその音源方向領域を示す判定情報Ｒｅｓ（ω_ｉ）を生成する。つまり音源信号判定処理を行う（ステップＳ２４）。

次に重み乗算手段７が、帯域毎に、判定情報Ｒｅｓ（ω_ｉ）に基づいて重み値を周波数帯域信号Ｘ_Ｌ（ω_ｉ），Ｘ_Ｒ（ωｉ）に乗算し、判定された音源方向領域の音源からの音が強調された出力用音源帯域信号を生成する。つまり音源生成処理を行う（ステップＳ２５）。なお、判別される音源方向領域の数と同数の拡声手段が配列され、受聴者が音源方向を区別できるようにされる。したがって、上記出力用音源帯域信号は、上記拡声手段の数だけ生成される。

次に音源信号合成手段８が、各音源方向領域と対応した出力音源帯域信号を時間波形に戻す、音源信号合成処理を行う（ステップＳ２６）。
以上述べた動作フローの中で、実施例１は、従来技術として示した非特許文献１に開示された技術に対して、閾値推定処理Ｓ２３が、閾値を更新する点が新しい。したがって、マイクロホンＭ_ＬとＭ_Ｒとが音源に対して左右非対称に配置されたとしても、そのマイクロホンの配置に合わせて閾値が更新されるので、聴取者に正確な定位感を提供することが出来る。

更に実施例１によれば、帯域分割処理（ステップＳ２１）〜音源信号合成処理（ステップＳ２６）は、逐次連続的に動作する。したがって、音源である発話者が隣接する音源方向領域に移動したとしても、また、発話者方向の偏りが時間的に変動しても、その状況における閾値を生成して更新し、その閾値に基づいて音源方向領域を区別するので、音源の配置に近い音像定位感を聴取者に提供することが可能である。
以降にこの発明の新しい部分に関する動作を更に詳しく説明する。

〔マイクロホンの配置と帯域別チャネル間パラメータ値差〕
図１を参照して音源とマイクロホンとの位置関係を説明する。
所定の間隔を空けて配置されたマイクロホンＭ_ＬとＭ_Ｒの前方に距離を置いて、それぞれ所定間隔を空けて横方向に３個の音源ＬｓとＣｓとＲｓが並んでいる。マイクロホンＭ_Ｌ側にある音源を音源Ｌｓとし、マイクロホンＭ_Ｌに収音される信号をｓＬ_Ｌ（ｎ）、マイクロホンＭ_Ｒに収音される信号をｓＬ_Ｒ（ｎ）とする。マイクロホンＭ_Ｒ側にある音源を音源Ｒｓとし、マイクロホンＭ_Ｌに収音される信号をｓＲ_Ｌ（ｎ）、マイクロホンＭ_Ｒに収音される信号をｓＲ_Ｒ（ｎ）とする。マイクロホンＭ_ＬとＭ_Ｒとの間にある音源を音源Ｃｓとし、マイクロホンＭ_Ｌに収音される信号をｓＣ_Ｌ（ｎ）、マイクロホンＭ_Ｒに収音される信号をｓＣ_Ｒ（ｎ）とする。

音源Ｌｓからの信号ｓＬ_Ｌ（ｎ）と信号ｓＬ_Ｒ（ｎ）を比較すると、信号ｓＬ_Ｌ（ｎ）の方が信号ｓＬ_Ｒ（ｎ）より振幅が大きく、かつ早い位相でマイクロホンＭ_ＬとＭ_Ｒに収音される。音源Ｒｓからの信号ｓＲ_Ｒ（ｎ）と信号をｓＲ_Ｌ（ｎ）を比較すると、信号ｓＲ_Ｒ（ｎ）の方が信号ｓＲ_Ｌ（ｎ）より振幅が大きく早い位相でマイクロホンＭ_ＲとＭ_Ｌに収音される。音源Ｃｓからの信号ｓＣ_Ｌ（ｎ）とｓＣ_Ｒ（ｎ）は、双方のマイクロホンＭ_Ｌ，Ｍ_Ｒに同振幅、同位相で収音される。
このような関係をもって収音される２個のマイクロホンＭ_ＬとＭ_Ｒからの収音信号Ｘ_Ｌ（ｎ）とＸ_Ｒ（ｎ）を、帯域分割手段３でそれぞれＮ個の帯域に分割する。

その各帯域について、帯域別チャネル間パラメータ値差検出手段４において式（１）で定義されるチャネル間パラメータ値差として、この例ではレベル差ΔLev（ω_ｉ）を算出する。

このΔLev（ω_ｉ）が取る値の範囲は、部屋の広さと音源とマイクロホン間の距離とから、あらかじめ予想することが出来る。例えば、通信会議システムを利用するような一般の会議室ならば−２０ｄＢから２０ｄＢの範囲の値になる。

このΔLev（ω_ｉ）の値から、その帯域（ω_ｉ）の音を発する音源が、マイクロホンＭ_Ｌ，Ｍ_Ｒに対しどの辺りに位置するかを判定することが出来る。その帯域（ω_ｉ）の音を発する音源がマイクロホンＭ_Ｌに近ければ、｜Ｘ_Ｌ（ω_ｉ）｜/｜Ｘ_Ｒ（ω_ｉ）｜なのでΔLev（ω_ｉ）の値は大きくなる（正の値を取る）。その帯域（ω_ｉ）の音を発する音源がマイクロホンＭ_Ｒに近ければ、ΔLev（ω_ｉ）の値は小さくなる（負の値を取る）。その帯域（ω_ｉ）の音を発する音源が両マイクロホンＭ_ＬとＭ_Ｒの間に位置していれば、ΔLev（ω_ｉ）は０に近い値を示す。
このΔLev（ω_ｉ）の大小関係を利用することで、閾値推定手段５が閾値を算出する。その閾値推定手段５の機能構成ブロック図を図３に示して更に詳しく動作を説明する。

〔閾値推定手段〕
閾値推定手段５は、まず始めにチャネル間パラメータ値差ΔLev（ω_ｉ）のヒストグラムを、ヒストグラム算出部３０で算出する。次に作成したヒストグラムの最大階級をヒストグラム最大階級算出部３１で生成する。
ヒストグラム最大階級算出部３１で算出された最大階級は、ヒストグラム最大階級保存部３２に保存される。保存された複数の最大階級の値から、音源位置偏り判定部３３が、音源がマイクロホンＭ_Ｌ，Ｍ_Ｒに対して偏っているか否かを判定する。音源が偏っていると判定された場合は、その偏りの判定に用いた最大階級の値を用いて閾値推定手段５が新たな閾値LevTh1又は及びLevTh２を算出して音源信号判定手段６に出力する。その新たな閾値LevTh1又は及び LevTh２を用いて、音源信号判定手段６が音源方向領域を区分けするので、音源位置に対応した音像定位感を提供することが可能になる。
閾値推定手段５の機能構成ブロックの各ブロックの動作を順に説明する。

〔ヒストグラム算出部〕
ヒストグラム算出部３０の動作フローを図４に示す。チャネル間パラメータ値差ΔLev（ω_ｉ）がチャネル間レベル値差ΔLev（ω_ｉ）の場合であり、このチャネル間レベル値差ΔLev（ω_ｉ）は、上記したように一般の会議室であれば、−２０ｄＢ〜２０ｄＢの範囲に分布するので、ヒストグラムの階級を例えば１ｄＢとしてΔLev（ω_ｉ）のヒストグラムを算出する。

フレームごとに単純に頻度を加算するだけでは、過去のフレームの情報が残ってしまい、瞬間瞬間の発話状態をヒストグラムに反映することができなくなる。そこで、フレーム毎に過去の頻度の値が一律に小さくなるように１以下の、例えば０.７をヒストグラムの各階級に乗算する処理を行う。その処理を図４のステップＳ４０〜Ｓ４３に示す。ステップＳ４２に示すｈmat0[ｈ]が、階級ｈのヒストグラムの頻度である。０.７を乗算する場合は、７フレーム処理すると、７フレーム前のチャネル間パラメータ値差ΔLev（ω_ｉ）の頻度を約１０分の１に減少させることになる。このように過去の発話状態に影響されることなくヒストグラムを算出することが可能となる。

次に−２０ｄＢ〜２０ｄＢに分布するチャネル間パラメータ値差ΔLev（ω_ｉ）のヒストグラムを算出する。ヒストグラムはチャネル間パラメータ値差ΔLev（ω_ｉ）の帯域毎に頻度を累積してもよいが、図４のフローチャートが複雑になって分かり難くなるので、ここでは、図３中に破線で示すレベル差帯域間平滑部３５でチャネル間パラメータ値差、この例ではチャネル間レベル値差ΔLev（ω_ｉ）を帯域間で平滑化し、その平滑化後のチャネル間レベル差ΔLev00を用いてヒストグラムを算出する場合を説明する。平滑化後のチャネル間レベル差ΔLev00を式（２）に示す。

その処理を図４のステップＳ４４〜Ｓ４８に示す。ｈはヒストグラムの階級を表す。０≦ｈ≦４０に対して、平滑化後のチャネル間レベル値差ΔLev00が−２０＋（ｈ−１）より大で、且つ−２０＋ｈ以下の値であるかが評価され（アウテップＳ４６）、その各評価ごとにステップＳ４７でヒストグラムの頻度の度数が＋１される。このようにしてヒストグラムが算出される。
全帯域間で平滑化したチャネル間レベル差ΔLev00でヒストグラムを算出する例を説明したが、このように全ての帯域のチャネル間パラメータ値差ΔLev（ω_ｉ）でヒストグラムを算出しても良いし、音声のパワーの大きな例えば１００Ｈｚ〜４ＫＨｚの範囲、あるいは代表的な複数の帯域について平滑化した値を用いても良い。平滑化することで、雑音等の影響を受け難くすることが出来る。

平滑化の方法としては、図３中に破線で示すレベル差フレーム間平滑部３６で、帯域間で平滑化したチャネル間レベル差ΔLev00を、更にフレーム間で平滑化しても良い。このフレーム間で平滑化したチャネル間レベル差ΔLev00を式（３）に示す。

式（３）はＰ個のフレーム間で平滑化するものである。このようにフレーム間で平滑化することで、更にヒストグラムを安定して算出することが可能である。これら平滑手段は、図３中に破線で示す様に両者を直列にして用いても良いし、レベル差帯域間平滑部３５だけを用いてもよい。

また逆に、音声のパワーが比較的に大きな例えば５００Ｈｚ〜１ＫＨｚの特定の帯域を平滑しないで、帯域を限定してヒストグラムを算出しても良い。その場合、安定性はやや劣るが、処理速度を速くする効果がある。
このように帯域別チャネル間パラメータ値差検出手段４が出力するチャネル間パラメータ値差ΔLev（ω_ｉ）は、種々の変更が可能である。
そのチャネル間パラメータ値差ΔLev（ω_ｉ）のヒストグラムがヒストグラム算出部３０で算出されると、次にヒストグラム最大階級算出部３１が動作する。

〔ヒストグラム最大階級算出部〕
ヒストグラム最大階級算出部３１は、ヒストグラム算出部３０で算出されたヒストグラムが最大値をとる階級ＳＳを算出する。ヒストグラム最大階級算出部３１の動作フローを図５に示す。
ステップＳ５０で変数ｈとＸＸを０に初期化する。ステップＳ５２で、ヒストグラムの階級０〜４０の頻度が順に読み出され、その都度、頻度hmat0[ｈ]は、変数ddata0に代入される。そして変数ddata0は、その都度、ヒストグラムの最大値であるＸＸと比較され、ddata0がＸＸより大きい場合にＸＸはddata0に書き換えられる（ステップＳ５４）。そして、この時のヒストグラムの階級を表すｈがＳＳに代入される（ステプＳ５５）。
この動作をｈが４０になるまで繰り返す（ステップＳ５１〜Ｓ５６）と、ヒストグラムの最大値をとる階級を表す変数ＳＳ＝ヒストグラムが最大値をとる階級ｈとなる。ヒストグラムの最大頻度の階級を表す変数ＳＳが確定すると、ヒストグラム最大階級保存部３２が動作する。ヒストグラム最大階級算出部３１は、フレーム毎に動作する。

〔ヒストグラム最大階級保存部〕
ヒストグラム最大階級保存部３２は、ヒストグラム最大階級を複数個保存する。保存する個数は、音源方向領域を区別する数と同じ、または、１〜２個多い位の値で良い。例えば、音源方向領域を３分割する場合には、保存する個数は３乃至５個程度でよい。

ヒストグラム最大階級保存部３２の動作フローを図６に示す。ＳＳはフレーム毎に書き換わる可能性があり、そのＳＳは時系列にＳmax１、Ｓmax２、Ｓmax３の順番でシフトして記憶される（ステップS６０、Ｓ６１、Ｓ６２）。そして、最初のＳＳとその次のＳＳがステップＳ６３で比較され、Ｓmax３とＳmax２が等しく無いとき、すなわち、異種の音源が存在することが確認されると、音源位置偏り判定部３３が動作する。帯域分割手段３において周波数分析された各帯域の出力信号は、主として一つの音響信号成分になる程度に細かく分割されているので、ＳＳが異なるということは異なる音源であることを意味する。

つまり、ヒストグラム最大階級算出部３１は、ヒストグラムの最大階級を出力するので一回に出力する階級は、一人の発話者（音源）に対するものである。しかし、他の発話者が発言すると、ヒストグラム最大階級算出部３１は異なる階級をヒストグラム最大階級保存部３２に出力する。２人の発話者が同時に発話する場合は、一般的に極短時間であり、ある程度の時間に渡って収音すれば各音源（発話者）Ｌｓ，Ｃｓ，Ｒｓに対応した１個のヒストグラムの階級を得ることになる。したがって、異なる２人が続けて発話すると時間的にずれて２個最大階級を得ることが出来る。
Ｓmax３＝Ｓmax２の場合は、１個の音源しか存在しないので、次のフレームの処理へ移行して（ステップＳ６３）、図４〜図６の動作を繰り返す。

〔音源位置偏り判定部〕
図７に音源位置偏り判定部３３と閾値算出部３４の動作フローを示す。Ｓmax３≠Ｓmax２ということは、音源が２個観測されたことを意味する。そしてそのＳmax３とＳmax２の値から、音源の位置を推定することが出来る。Ｓmax３及びＳmax２が例えば５ｄＢ以上２０ｄＢ未満の値のとき、その２個の音源はマイクロホン対して左側に偏っていることを示す。同様に、例えば−２０ｄＢ以上−５ｄＢ以下程度の値の時は、逆に右側に偏っていることを示す。Ｓmax３及びＳmax２が例えば−５ｄＢより大きく５ｄＢ未満程度の値のときは、２個の音源はマイクロホンに対して真ん中付近に位置していることを示す。
上記した説明では、Ｓmax１乃至Ｓmax３はヒストグラムの階級である０〜４０であるが、これはチャネル間パラメータ値差ΔLev（ω_ｉ）の−２１ｄＢ〜２０ｄＢに一対一に対応している。図７は、Ｓmax３とＳmax２がチャネル間パラメータ値差ΔLev（ω_ｉ）であるとして書かれている。

２個の音源がマイクロホンに対して左に偏っている場合は、ステップＳ７０でYesと判定され、さらにＳmax３とＳmax２が２ｄＢ以上離れた値であるかがステップＳ７１で判定される。この２ｄＢは、一般的な会議室において、マイクロホンと発話者の距離を５０ｃｍ〜１ｍとした場合に、横に並んだ発話者間の間隔の約６０ｃｍに相当する値である。したがって、Ｓmax３とＳmax２が２ｄＢ以上離れていればその間で音源方向領域を区切った方が良いので、音源方向領域をマイクロホンから見て左側の音源方向領域Ｌｆと中央の音源方向領域Ｃｆとの間を区別する閾値LevTh１を、Ｓmax３とＳmax２の間（LevTh１＝（Ｓmax３＋Ｓmax２）/２）の値に設定する（ステップＳ７２）。この場合は、音源方向領域Ｃｆと右側の音源方向領域Ｒｆとを区別する閾値LevTh２は、図２のステップＳ２０で設定された初期値のままにして、次のフレームの処理に移行する。

２個の音源がマイクロホンに対して右に偏っている場合は、ステップＳ７３でYesと判定され、左側と同様にＳmax３とＳmax２が２ｄＢ以上離れているか否かがステップＳ７４で判定され、２ｄＢ以上の差があれば音源方向領域Ｃｆと音源方向領域Ｒｆとを区分けする閾値LevTh２が、Ｓmax３とＳmax２の間（LevTh２＝（Ｓmax３＋Ｓmax２）/２）の値に設定される（ステップＳ７５）。この場合は、音源方向領域Ｃｆと左側の音源方向領域Ｌｆとを区分けする閾値LevTh１は、初期値のままにして、次のフレームの処理に移行する。

２個の音源がマイクロホンに対して中央付近に偏っている場合は、ステップＳ７６でYesと判定される。中央付近に２個の音源が偏っている場合には、それぞれを音源方向領域Ｌｆと音源方向領域Ｒｆに区別する必要から、上記した２ｄＢの倍の４ｄＢの差をＳmax３とＳmax２が持つかが、ステップＳ７７で評価される。Ｓmax３とＳmax２との差が４ｄＢ未満の時は、両閾値LevTh１，LevTh２は更新されない。

４ｄＢ以上の差がある場合は、ステップＳ７８でＳmax３とＳmax２の大小関係が評価される。Ｓmax３がＳmax２より大きければＳmax３の音源は、マイクロホンに対して左側に位置するので閾値LevTh１を例えばＳmax３より１小さな値（ｄmax１＝１）に設定する（ステップＳ７９）。そして閾値LevTh２を例えばＳmax２より１大きな値（ｄmin１＝１）に設定する（ステップＳ８０）。こうすることで、Ｓmax３の音源は音源方向領域Ｌｆに、Ｓmax２の音源は音源方向領域Ｒｆに区別される。
Ｓmax２がＳmax３より大きい場合は、Ｓmax２の音源がマイクロホンに対して左側に位置するので、閾値LevTh１，LevTh２は逆に操作される（ステップＳ８１、Ｓ８２）。この場合は、Ｓmax２の音源が音源方向領域Ｌｆに、Ｓmax３の音源が音源方向領域Ｒｆに区別される。

以上、音源が２個の場合で説明したが、次に音源が３個の場合について簡単に説明する。音源が３個の場合も２個の場合と考え方は同じである。
３個の音源がマイクロホンに対して左に偏っている場合は、Ｓmax３、Ｓmax２、Ｓmax１の中の最大値と最小値の間に、音源方向領域Ｃｆと音源方向領域Ｒｆとを区別する閾値LevTh１を式（４）に示すように設定する。
LevTh１＝（max(Ｓmax１，Ｓmax２，Ｓmax３)＋min(Ｓmax１，Ｓmax２，Ｓmax３)）/２
式（４）
この時、音源方向領域Ｃｆと音源方向領域Ｒｆを区別する閾値LevTh２は初期値のままとされる。

３個の音源がマイクロホンに対して右に偏っている場合は、今までの説明で明らかであるので説明は省略する。
３個の音源がマイクロホンに対して中央付近に偏っている場合は、Ｓmax３、Ｓmax２、Ｓmax１の中の最大値に当たるものが、マイクロホンに対して最も左側に位置する音源である。したがって、音源方向領域Ｃｆと音源方向領域Ｌｆを区別する閾値LevTh１を、式（５）に示す様にその最大値よりも例えば１小さな値に設定する。例えばdmax１＝１とする。

そして音源方向領域Ｃｆと音源方向領域Ｒｆを区別する閾値LevTh２を、式（６）に示す様にその最大値よりも例えば１大きな値に設定する。
LevTh１＝max(Ｓmax１，Ｓmax２，Ｓmax３)−dmax１式（５）
LevTh２＝min(Ｓmax１，Ｓmax２，Ｓmax３)＋dmax１式（６）
このようにすると、Ｓmax３〜Ｓmax１の中の最大値を示す音源は音源方向領域Ｌｆに、最小値を示す音源は音源方向領域Ｒｆに、中間の値を示す音源は音源方向領域Ｃｆにそれぞれ区別される。
以上述べたように閾値推定手段５が動作することで、逐次連続的に音源方向領域を区別する閾値LevTh１とLevTh２が更新される。

〔音源信号判定手段〕
音源信号判定手段６及び重み乗算手段７及び音源信号合成手段８の動作は、従来技術で説明した非特許文献１に開示された発明と同一であるので、説明は簡単に行う。
音源信号判定手段６の動作フローを図８に示す。音源信号判定手段６は、閾値推定手段５で逐次更新される閾値を用いて、帯域別チャネル間パラメータ値差検出手段４が出力する帯域（ω_ｉ）ごとのチャネル間パラメータ値差ΔLev（ω_ｉ）を評価し、各帯域がいずれの音源の信号を主に含むか判定する。

チャネル間パラメータ値差ΔLev（ω_ｉ）は、ループ８３でΔLev（ω_１）〜ΔLev（ω_N）まで掃引され、iが更新される度にΔLev（ω_ｉ）が閾値LevTh１より大きいかが判定され（ステップＳ８４）、大きければステップＳ８５でその帯域（ω_ｉ）は音源Ｌｓの音を主に含むと判定される（Ｒes（ω_ｉ）＝Ｌ、ステップＳ８５）。
ステップＳ８４でΔLev（ω_ｉ）が閾値LevTh１より小さいと判定されると、次にステップＳ８６で閾値LevTh２より小さいか判定され、小さい場合その帯域（ω_ｉ）は音源Ｒｓの音を主に含むと判定される（Ｒes（ω_ｉ）＝Ｒ、ステップＳ８７）。
ステップＳ８６でΔLev（ω_ｉ）が閾値LevTh２より小さく無いと判定された帯域は、音源Ｃｓの音を主に含むと判定される（Ｒes（ω_ｉ）＝Ｃ、ステップＳ８８）。
音源方向領域が判定された全帯域（ω_１）〜（ω_Ｎ）の判定結果Ｒes（ω_１）〜Ｒes（ω_Ｎ）は重み乗算手段７に出力される。

〔重み乗算手段〕
実施例１の場合、重み乗算手段７は、音源信号判定手段６の出力する帯域毎の判定結果に基づき、３個の拡声手段９ａ〜９ｃそれぞれに対する出力用音源帯域信号を生成する。
重み乗算手段７の動作フローを図９に示す。
収音信号Ｘ_Ｌ（ｎ）とＸ_Ｒ（ｎ）を、帯域分割手段３で周波数帯域信号に変換・分割したＸ_Ｌ（ω_ｉ），（ｉ＝１，…，Ｎ）とＸ_Ｒ（ω_ｉ），（ｉ＝１，…，Ｎ）の各帯域の信号に対して、音源信号判定手段６から同一帯域の判定結果Ｒes（ω_１）〜Ｒes（ω_Ｎ）を参照して出力用音源帯域信号を生成する。

重み付けは、Ｘ_Ｌ（ω_ｉ）とＸ_Ｒ（ω_ｉ）のどちらの方に高いＳＮで受音されているかに依存する。例えば、音源Ｌｓからの音は、マイクロホンＭ_Ｌに近いのでＸ_Ｌ（ω_i）の方のＳＮ比が高くなる。したがって、ステップＳ９０で音源方向領域がＲes（ω_i）＝Ｌと判定された帯域Ｘ_Ｌ（ω_i）は、そのまま、つまり重みとしては１とされ、聴取者から見て左側に配置される拡声手段９ａ用の出力音源帯域信号Ｙ_Ｌ（ω_i）＝Ｘ_Ｌ（ω_i）とされる（ステップＳ９１）。

聴取者から見て右側に配置される拡声手段９ｃ用の同帯域の出力音源帯域信号Ｙ_Ｒ（ω_i）は、音源Ｌｓからの音を主に含まないので、Ｘ_Ｌ（ω_i）に対する重みを０にしても良いが、そうすると出力音源帯域信号Ｙ_Ｒのその帯域の周波数成分が無くなるために歪が生じ易くなる。そこでＸ_Ｒ（ω_i）に対する重み値αを例えば０.１や０.３程度として出力音源帯域信号Ｙ_Ｒ（ω_i）を生成する（ステップS９２）。
聴取者から見て中央に配置される拡声手段９ｂ用の同帯域の出力音源帯域信号Ｙ_Ｃ（ω_i）は、マイクロホンＭ_ＬとＭ_Ｒに同じ大きさで受音されるため、Ｘ_Ｌ（ω_i）とＸ_Ｒ（ω_i）に重み値αの半分の値を乗算して出力音源帯域信号Ｙ_Ｃ（ω_i）を生成する（ステップS９３）。

ステップＳ９４で音源方向領域がＲes（ω_i）＝Ｃと判定された帯域の出力音源帯域信号Ｙ_Ｌ（ω_i）とＹ_Ｒ（ω_i）には、重み値αが乗算される（ステップＳ９５とＳ９７）。Ｙ_Ｃ（ω_i）については、マイクロホンＭ_ＬとＭ_Ｒにほぼ同じ大きさで受音されるためＸ_Ｌ（ω_i）とＸ_Ｒ（ω_i）を、２分の１した値を用いる（ステップＳ９６）。
音源方向領域がＲes（ω_i）＝Ｒと判定された帯域については、Ｒes（ω_i）＝Ｌと判定された場合と同じ考え方で、上記したＲes（ω_i）＝Ｌの場合のＹ_Ｌ（ω_i）とＹ_Ｒ（ω_i）の関係が逆転する。

以上のように重み付けされて、拡声手段９ａ用の出力音源帯域信号Ｙ_Ｌ（ω_i）がＬ出力用音源帯域信号生成部７ａで生成される。拡声手段９ｂ用の出力音源帯域信号Ｙ_Ｃ（ω_i）と、拡声手段９ｃ用の出力音源帯域信号Ｙ_Ｒ（ω_i）は、それぞれＣ出力用音源帯域信号生成部７ｂ、Ｒ出力用音源帯域信号生成部７ｃで生成される。生成された各拡声手段９ａ〜９ｃの出力用音源帯域信号は音源信号合成手段８に出力される。

〔音源信号合成手段〕
音源信号合成手段８は、各拡声手段９ａ〜９ｃ用に重み付けされた出力音源帯域信号を時間波形に変換して各拡声手段９ａ〜９ｃに出力する。Ｌ出力用音源帯域信号生成部７ａで重み付けされたＬ出力用音源帯域信号Ｙ_Ｌ（ω_i），（ｉ＝１，…，Ｎ）は、Ｌ音源信号合成部８ａで逆フーリエ変換により時間波形に戻され、聴取者の左側前方に配置される拡声手段９ａの駆動信号とされる。

Ｃ出力用音源帯域信号生成部７ｂで重み付けされたＣ出力用音源帯域信号Ｙ_Ｃ（ω_i），（ｉ＝１，…，Ｎ）は、Ｃ音源信号合成部８ｂで逆フーリエ変換により時間波形に戻され、聴取者の中央前方に配置される拡声手段９ｂの駆動信号とされる。
Ｒ出力用音源帯域信号生成部７ｃで重み付けされたＲ出力用音源帯域信号Ｙ_Ｒ（ω_i），（ｉ＝１，…，Ｎ）は、Ｒ音源信号合成部８ｃで逆フーリエ変換により時間波形に戻され、聴取者の左側前方に配置される拡声手段９ｃの駆動信号とされる。

以上述べたように閾値推定手段５が、複数の音源間で音源方向領域を区別する閾値に更新するので、２個のマイクロホンを複数の音源に対して左右非対称の位置に置かれたり、又は発話者が移動して隣接する音源方向領域に複数の音源が分布するような状態になっても、音源方向領域を区別することができるので、聴取者に発話者の位置に対応した音像定位感を提供することが出来る。

帯域別チャネル間パラメータ値差として、レベル差又は位相差のどちらでも良いことは既に述べたが、２個のマイクロホンの間隔が狭いとチャネル間パラメータ値差をレベル差で測定することが難しくなる。
例えば無指向性マイクを２本用い、２本のマイクの間隔を広げられない場合は、信号の差がレベル差に現れ難くなる。一方、マイクロホンの間隔が音の１波長を越えない周波数帯においては、位相の方が信号の差を求め易い。
そこで低い周波数帯域では位相差、高い帯域ではレベル差をチャネル間パラメータ値差として用いるこの発明の実施例２を図１０に示す。図１０は先に説明した実施例１の動作フローに対して、帯域別チャネル間パラメータ値差検出処理Ｓ２２が低い帯域では位相差で、高い帯域ではレベル差で行われる点だけが異なる。位相差とレベル差を切替える帯域は、マイクロホンＭ_ＬとＭ_Ｒの間隔に依存する。

音速を３４０ｍ/Ｓとすると周波数１ＫＨｚの音の波長は３４ｃｍである。マイクロホンＭ_ＬとＭ_Ｒの間隔を例えば３４ｃｍにすると、１ＫＨｚ以上の音は１波長以上含まれてしまうので、位相差は使い難くなる。そこで、２個のマイクロホンの間隔に相当する波長よりも、小さな波長の高い周波数帯はレベルでチャネル間パラメータ値差を算出し、それよりも大きな波長の低い周波数帯は位相でチャネル間パラメータ値差を算出する。
その切替えを、マイクロホンＭ_ＬとＭ_Ｒの間隔に相当する周波数の帯域を所定値に設定してステップＳ２２１で行うことで、低い周波数帯域は位相差検出（ステップＳ２２２）、高い周波数帯域はレベル差検出（ステップＳ２２３）でチャネル間パラメータ値差が算出される。
このように周波数帯域によって、チャネル間パラメータ値差の算出方法を切替えることによって、音源方向領域の検出精度を高めることが可能である。

〔評価実験〕
この発明の音像定位強調再生方法で、音源方向領域を適切に分割でき、良好な定位感が得られるかを調べるために主観評価実験を行った。

〔実験条件〕
残響時間が３００ｍｓの屋内に、３個の音源を横一列に互いに７０ｃｍ離して配置し、２個のバウンダリーマイクロホンを使用した。被験者は、３個の音源に対応する位置に配置された左右のスピーカを両端として、その間を５分割した箇所に貼られたラベルを目安に、音像が聞こえて来た位置をそのラベルを選択して回答した。音源は、１６bit３２ＫＨｚサンプリングで収録された男性話者２名、女性話者１名の音声（各５秒程度）をスピーカから再生して行い、繰り返し回数は４回とした。被験者は聴力の正常な男性４名、女性４名である。

「基準特性」を、従来方法で閾値LevTh１＝２ｄＢ、LevTh２＝−２ｄＢの固定とし、３個の音源の中央の音源に正対して５０ｃｍの距離離れて、音源と並行に左右対称の位置に２個のマイクロホンを配置した場合とした。
「従来方法」として、図１３に示したように右側の音源方向に２個のマイクロホンを１２．５ｃｍ並行に移動させ、かつ、閾値もLevTh１＝２ｄＢ、LevTh２＝−２ｄＢの固定にした場合とした。
「この発明」として、マイクロホンの位置を従来方法と同じ音源に対して左右非対称の位置とした状態で、閾値推定処理を行わせた場合とした。

〔実験結果〕
実験結果を図１１に示す。横軸は音源位置を示し、縦軸は被験者から見て右側を＋、左側を−として得られた回答を距離で示す。「基準特性」は、音源位置と受聴位置が一致している。「従来方法」は、中央の音源の音が左側のスピーカから大きく再生されるため、受聴者には中央の音源からの音が左側から発せられたように聞こえてしまう。この「従来方法」の実験では、中央の音源の位置が左側のマイクロホンに近いために、従来の閾値固定による音源方向強調処理によって、左側のスピーカから中央の音源の音が強調されて再生されるからである。

「この発明」では、マイクロホンの位置を左右非対称の位置に配置しても音源位置と受聴位置が一致している。図１１では「基本特性」の記号×と「この発明」の記号◆とが重なっている。これは、閾値推定手段が閾値を更新することにより「従来方法」で左側の音源方向領域と判定された中央の音源が、本来の中央の音源方向領域にあると判定されるからである。
このようにこの発明の音像定位強調再生方法は、有効であり、マイクロホンの配置が音源に対して左右対称の位置に配置されなくとも、良好な音像定位感を聴取者に提供することが出来る。

なお、実施例１では閾値推定手段５を逐次連続的に動作する例で説明したが、この発明はこの実施例に限定されない。音像定位強調再生装置の電源を入れた時や、マイクロホンの配置を変えた時に一度だけ閾値推定手段５を動作させるようにしても良い。
なお、帯域別チャネル間パラメータ値差としては、レベル差を例に説明を行ったが、周波数分析の結果で振幅と同時に得られる位相スペクトルからチャネル間位相差Δang（ω_ｉ）＝angＸ_Ｌ（ω_ｉ）−angＸ_Ｒ（ω_ｉ）を求め、これを帯域別チャネル間パラメータ値差としても良い。上記したようにマイクロホンの配置と音源配置との関係は位相差でも得られるので、帯域別チャネル間パラメータ値差検出手段４はレベル差の場合と同様の考え方で実現することが可能である。

以上の各実施例の他、この発明である各装置及び方法は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記各装置における処理機能をコンピュータによって実現する場合、音像定位強調再生装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記音像定位強調再生装置における処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記憶媒体に記憶しておくことができる。コンピュータで読み取り可能な記憶媒体としては、例えば、磁気記憶装置、光ディスク、光磁気記憶媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記憶装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記憶媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記憶したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記憶媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記憶媒体に記憶されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記憶媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、この形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

この発明の音像定位強調再生装置の実施例１の機能構成ブロックを示す図。実施例１の音像定位強調再生装置の全体の動作フロー図。閾値推定手段５の機能構成ブロックを示す図。ヒストグラム算出部３０の動作フロー図。ヒストグラム最大階級算出部３１の動作フロー図。ヒストグラム最大階級保存部３２の動作フロー図。音源位置偏り判定部３３と閾値算出部３４の動作フロー図。音源信号判定手段６の動作フロー図。重み乗算手段７の動作フロー図。この発明の音像定位強調再生装置の実施例２の動作フロー図。この発明の主観評価実験の結果を示す図。非特許文献１に開示された従来の収音装置を示す図。横一列に並んだ３人の発話者Ｌａ、Ｃｂ、Ｒｃに対して、２個のマイクロホンが左右非対称に配置された場合の例を示す図。

Claims

複数の音源からの音を収音して再生する装置であって、
互いに離して配置された２個のマイクロホンから上記音源に対する収音信号が入力され、それら各収音信号をそれぞれ複数の周波数帯域に分割し、各帯域の周波数帯域信号が主として一つの音源からの信号成分になる程度に分割する帯域分割手段と、
上記帯域分割手段から上記各複数の周波数帯域信号が入力され、それら両周波数帯域信号の同一帯域毎に、上記２個のマイクロホンの位置に起因して生ずる上記音のパラメータの値の差を帯域別チャネル間パラメータ値差として検出する帯域別チャネル間パラメータ値差検出手段と、
上記帯域別チャネル間パラメータ値差検出手段から入力された上記帯域別チャネル間パラメータ値差に基づき上記周波数帯域信号がいずれの上記音源から入力された信号であるかを判定する閾値を生成する閾値推定手段と、
上記帯域別チャネル間パラメータ値差検出手段から入力された上記帯域別チャネル間パラメータ値差と、上記閾値推定手段から入力された閾値に基づき、上記周波数帯域信号の各帯域がいずれの上記音源から入力された音を主に含むかを判定してその音源方向領域を判定し、その判定情報を出力する音源信号判定手段と、
上記判定情報及び上記各複数の周波数帯域信号が入力され、上記判定情報に基づき、それら周波数帯域信号に重み値を乗算して、上記判定された音源方向領域の音源からの音が強調された出力用音源帯域信号を生成する重み乗算手段と、
上記重み乗算手段で重み付けされた上記出力用音源帯域信号が入力され、出力用音源帯域信号を、判定された同一音源方向領域ごとに時間波形に戻して受聴者に上記音源方向領域を区別できる様に配置された拡声手段へ出力する音源信号合成手段と、
を具備することを特徴とする音像定位強調再生装置。
請求項１に記載の音像定位強調再生装置において、
上記閾値推定手段は、上記音源の中央と上記２個のマイクロホンの中央とが対向している状態において、互いに区別されるべき音源方向領域に属する音源が、隣接する一方の音源領域に含まれる状態を検出すると、それら音源の音源方向領域を区別するための閾値を推定するものであることを特徴とする音像定位強調再生装置。
請求項１又は２に記載の音像定位強調再生装置において、
上記閾値推定手段は、上記音源方向領域の一つの音源方向領域内に上記帯域別チャネル間パラメータ値差が所定値以上の音源が複数ある場合に、上記複数の音源間で音源方向領域を区別する閾値を生成し、上記閾値を逐次修正するものであることを特徴とする音像定位強調再生装置。
請求項１乃至３の何れかに記載の音像定位強調再生装置において、
上記閾値推定手段は、上記帯域別チャネル間パラメータ値差検出手段から入力される帯域別チャネル間パラメータ値差のヒストグラムを算出するヒストグラム算出部と、
上記ヒストグラムの最大値をとる階級を算出するヒストグラム最大階級算出部と、
上記ヒストグラム最大階級算出手段が算出する最大階級を複数個保存するヒストグラム最大階級保存部と、
上記ヒストグラム最大階級保存部に保存された複数の最大階級の値から、音源位置の偏りを判定する音源位置偏り判定部と、
上記音源位置偏り判定の判定結果と上記複数の最大階級とから上記２本のマイクロホンに対する左側音源方向領域と中央領域を決定するための閾値LevTh1と、上記２本のマイクロホンに対する右側音源方向領域と中央音源方向領域を決定するための閾値LevTh2を算出する閾値算出部と、
を具備することを特徴とする音像定位強調再生装置。
請求項４に記載の音像定位強調再生装置において、
上記音源信号偏り判定部は、上記帯域別チャネル間パラメータ値差検出手段から入力される同一帯域毎の帯域別チャネル間パラメータ値差と、上記閾値推定手段から入力される閾値LevTh1と閾値LevTh2とを比較して、帯域毎のチャネル間パラメータ値差が閾値LevTh1より大、小の一方であれば音源Ｌｓ、閾値LevTh2よりも大、小の他方であれば音源Ｒｓ、そのどちらでもなければ音源Ｃｓ、のそれぞれの音源の信号を主に含むと判定するものであることを特徴とする音像定位強調再生装置。
請求項１乃至５の何れかに記載の音像定位強調再生装置において、
上記重み乗算手段は、上記音源信号判定手段において判定された音源と対応付けされた上記周波数帯域信号に重み値１を乗算し、その判定された音源以外の音源と対応付けされた上記周波数帯域信号に重み値０.１乃至０.３を乗算するものであることを特徴とする音像定位強調再生装置。
請求項１乃至６の何れかに記載の音像定位強調再生装置において、
上記閾値推定手段は、上記帯域別チャネル間パラメータ値差を所定の帯域間で平滑化するレベル差帯域間平滑部を備え、上記平滑化された帯域別チャネル間パラメータ値差のヒストグラムを算出するものであることを特徴とする音像定位強調再生装置。
請求項１乃至７の何れかに記載の音像定位強調再生装置において、
上記閾値推定手段は、帯域別チャネル間パラメータ値差をフレーム間で平滑化するレベル差フレーム間平滑化部を備え、上記平滑化された帯域別チャネル間パラメータ値差のヒストグラムを算出するものであることを特徴とする音像定位強調再生装置。
請求項１乃至８の何れかに記載の音像定位強調再生装置において、
上記帯域別チャネル間パラメータ値差は、所定帯域以下の低い帯域では位相差であり、上記所定帯域より高い帯域ではレベル差であることを特徴とする音像定位強調再生装置。
複数の音源からの音を２本のマイクロホンで収音する収音過程と、
帯域分割手段が、上記収音過程で収音された各収音信号をそれぞれ複数の周波数帯域に分割する帯域分割過程と、
帯域別チャネル間パラメータ値差検出手段が、２本のマイクロホンの位置に起因して生ずる上記収音信号のパラメータの値の差を帯域別チャネル間パラメータ値差として検出する帯域別チャネル間パラメータ値差検出過程と、
閾値推定手段が、上記帯域別チャネル間パラメータ値差検出過程で検出された帯域別チャネル間パラメータ値差から上記周波数帯域信号の各帯域がいずれの上記音源から入力された信号であるかを判定する閾値を生成する閾値推定過程と、
音源信号判定手段が、上記帯域別チャネル間パラメータ値差検出過程で検出された上記帯域別チャネル間パラメータ値差と、上記閾値推定過程で生成された閾値に基づき、上記周波数帯域信号の各帯域がいずれの上記音源から入力された音を主に含むかを判定して判定情報を出力する音源信号判定過程と、
重み乗算手段が、上記音源信号判定過程で判定された判定情報に基づき、上記帯域分割過程で分割された各帯域信号に重み値を乗算することで、対応付けされた音源からの音が強調された出力用音源信号を生成する音源生成過程と、
音源信号合成手段が、上記出力用音源信号をそれぞれ時間波形に戻して出力信号とする音源信号合成過程と、
拡声手段が、入力された上記出力信号を再生する再生過程と、
を有する音像定位強調再生方法。
請求項１０に記載の音像定位強調再生方法において、
上記閾値推定過程は、上記閾値を逐次生成するものであることを特徴とする音像定位強調再生方法。
請求項１０又は１１に記載の音像定位強調再生方法において、
上記閾値推定過程は、ヒストグラム算出部が上記帯域別チャネル間パラメータ値差検出手段から入力される帯域別チャネル間パラメータ値差のヒストグラムを算出するヒストグラム算出過程と、
ヒストグラム最大階級保存部が、上記ヒストグラム算出過程で算出されたヒストグラムの最大値を算出するヒストグラム最大階級算出過程と、
ヒストグラム最大階級保存部が、上記ヒストグラム最大階級算出部が算出する最大階級を複数個保存するヒストグラム最大階級保存過程と、
閾値算出部が、上記ヒストグラム最大階級保存部に保存された複数の最大階級の値から、上記２本のマイクロホンに対する左側音源方向領域と中央音源方向領域を決定するための閾値LevTh1と、上記２本のマイクロホンに対する右側音源方向領域と中央音源方向領域を決定するための閾値LevTh2を算出する閾値算出過程と、
から成ることを特徴とする音像定位強調再生方法。
請求項１０乃至１２の何れかに記載の音像定位強調再生方法において、
上記閾値推定過程は、上記帯域別チャネル間パラメータ値差を所定の帯域間で平滑化し、上記平滑化された帯域別チャネル間パラメータ値差のヒストグラムを算出する過程を含むものであることを特徴とする音像定位強調再生方法。
請求項１０乃至１３の何れかに記載の音像定位強調再生方法において、
上記閾値推定過程は、上記帯域別チャネル間パラメータ値差をフレーム間で平滑し、上記フレーム間で平滑化された帯域別チャネル間パラメータ値差のヒストグラムを算出する過程を含むものであることを特徴とする音像定位強調再生方法。
請求項１０乃至１４の何れかに記載の音像定位強調再生方法において、
上記音源信号判定過程は、上記帯域別チャネル間パラメータ値差検出手段から入力される同一帯域毎の帯域別チャネル間パラメータ値差と、上記閾値推定手段から入力される閾値LevTh1と閾値LevTh2とを比較して、帯域毎のチャネル間パラメータ値差が閾値LevTh1より大、小の一方であれば音源Ｌｓ、閾値LevTh2よりも大、小の他方であれば音源Ｒｓ、そのどちらでもなければ音源Ｃｓ、のそれぞれの音源の信号を主に含むと判定する過程であることを特徴とする音像定位強調再生方法。
請求項１０乃至１５の何れかに記載の音像定位強調再生方法において、
上記重み乗算過程は、上記音源信号判定手段において判定された音源と対応付けされた上記周波数帯域信号に重み値１を乗算し、その判定された音源以外の音源と対応付けされた上記周波数帯域信号に重み値０.１乃至０.３を乗算する過程であることを特徴とする音像定位強調再生方法。
請求項１乃至９に記載した各装置としてコンピュータを機能させるための装置プログラム。
請求項１７に記載した何れかのプログラムを記憶したコンピュータで読み取り可能な記憶媒体。