JP4495704B2 - 音像定位強調再生方法、及びその装置とそのプログラムと、その記憶媒体 - Google Patents

音像定位強調再生方法、及びその装置とそのプログラムと、その記憶媒体 Download PDF

Info

Publication number
JP4495704B2
JP4495704B2 JP2006232598A JP2006232598A JP4495704B2 JP 4495704 B2 JP4495704 B2 JP 4495704B2 JP 2006232598 A JP2006232598 A JP 2006232598A JP 2006232598 A JP2006232598 A JP 2006232598A JP 4495704 B2 JP4495704 B2 JP 4495704B2
Authority
JP
Japan
Prior art keywords
sound source
band
sound
parameter value
source direction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006232598A
Other languages
English (en)
Other versions
JP2008060725A (ja
Inventor
真理子 青木
賢一 古家
章俊 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006232598A priority Critical patent/JP4495704B2/ja
Publication of JP2008060725A publication Critical patent/JP2008060725A/ja
Application granted granted Critical
Publication of JP4495704B2 publication Critical patent/JP4495704B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)

Description

この発明は、異なる位置に配置されている複数の発話音源をステレオ収音して再生する際に、聴取者の位置によらず全ての聴取者に音源の方向が認識できるように強調再生する音像定位強調再生方法、及びその装置、そのプログラムとそのプログラムを記憶する記憶媒体に関する。
従来、電話会議等の通信会議システムでステレオ収音された信号を、聴取者の座る位置によらずに全ての聴取者に良好な音の定位方向を与えるものとしては、非特許文献1に開示されている。この従来技術を図12を参照して説明する。0.7mの等間隔を空けた3つの音源LsとCsとRsとが横一列に並び、中央の音源Csに正対して1.4m離れてステレオマイクロホン120が配置されている。
ステレオマイクロホン120の信号Lと信号Rは、それぞれFFT121で周波数帯域信号X(ωi)とXR(ωi)とに変換・分割される。これら両周波数帯域信号の同一帯域毎に、ステレオマイクロホン120の位置に起因して生ずる信号Lと信号Rの音のパラメータの値の差を、帯域別チャネル間パラメータ値差検出手段122で算出する。算出された音のパラメータ値差に基づき、判定手段123が周波数帯域信号の各帯域に、いずれの音源から入力された音が主に含まれるかを判定する。その判定情報に基づき各周波数帯域信号X(ωi)とXR(ωi)に重み値を乗算して、各音源と対応付けされた周波数帯域信号Y(ωi)とY(ωi)とY(ωi)を生成する。
この判定の基準値は、ステレオマイクロホン120を音源に対して左右対称の位置に配置して、各音源を発音させた時のパラメータ値差の平均値と分散から設定されるもので、固定である。
音源と対応付けされた周波数帯域信号Y(ωi)とY(ωi)とY(ωi)は、それぞれIFFT124で時間領域の信号に変換されて、音源の位置と対応付けられたそれぞれの拡声手段Sp.L、Sp.C、Sp.Rから再生される。したがって聴取者の位置によらず、全ての聴取者に音の方向を正しく知覚させることができる。
青木、古屋、片岡、クローストークキャンセラを用いたステレオ再生の受聴位置拡大、日本音響学会秋季研究発表会、1‐2‐15、2005.9
しかしながら従来の方法では、音源に対してステレオマイクロホンを左右対称の位置に配置する前提で、音源方向を判定して再生音の重み付けをするので、その前提が崩れると、音の方向が分からなくなる問題があった。
通信会議システムでは、マイクロホンは一般に会議机上に置かれるが、発話者に対してマイクロホンを左右対称の位置に正確に配置することは、机上に置かれる物との関係で難しい場合が多い。図13に、70cmの間隔を空けて横一列に並んだ3人の発話者La、Cb、Rcに対して、発話者と50cmの間隔を空けて並行に配置される2個のマイクロホンMic.LとMIC.Rが、一方の発話者Rc側に偏って配置された場合を示す。
上記した従来の方法ではマイクロホンMic.LとMIC.Rとが音源に対して左右対称の位置に配置された前提で、両マイクロホンからの音のパラメータ値差に基づいて音源方向領域を判定している。しかし、75cmの間隔を空けたマイクロホンMic.LとMic.Rが、中央の発話者Cbと正対する位置から、一方の発話者La側に25cm離れてマイクロホンMic.Lが配置され、他方の発話者Rc側に50cm離れてマイクロホンMic.Rが配置されると、マイクロホンMic.Lに入力される発話者Cbの声のレベルが、マイクロホンMic.Rに対して大きくなる。
その結果、本来であればパラメータ値差がLevTh1とLevTh2の範囲の値を示す一点鎖線の音源方向領域境界線BとBとの間の音源方向領域Cfからの音源と判定されるべき発話者Cbの声が、左側の音源方向領域Lfからの音とみなされてしまう。その誤判定の結果、発話者Cbの収音された声は、音源方向領域Lfに対応した拡声手段Sp.Lから強調されて再生されるので、中央の位置の聴取者も発話者Cbが左側の音源方向領域Lfの方向から発言しているように聞こえてしまう。以降、この音の方向感のことを音像定位感と称する。
この発明は、このような問題点に鑑みてなされたものであり、例えば図13のようにマイクロホンが音源に対して左右非対称の位置に置かれたとしても、音のパラメータ値差から音源方向領域を判定するためのパラメータ値差の閾値LevTh1を変更して音源方向領域境界線Bを図13に示す様に一点鎖線から実線に修正することで、正確な定位感を提供できるようにした音像定位強調再生方法、及び音像定位強調再生装置を提供することを目的とする。
この発明による音像定位強調再生装置には、複数の音源に対して、互いに離して配置された2個のマイクロホンで収音された2個の収音信号が入力される。
それら各収音信号を帯域分割手段により、複数の周波数帯域に分割する。
帯域分割手段で分割された2個の収音信号の同一帯域毎に、2個のマイクロホンの位置に起因して生ずる音のパラメータの値の差を帯域別チャネルパラメータ値差として帯域別チャネル間パラメータ値差検出手段により検出する。
閾値推定手段により、帯域別チャネル間パラメータ値差検出手段から入力された帯域別チャネル間パラメータ値差に基づき周波数帯域信号が、既定の個数であり閾値により領域が決定される音源方向領域のうち、いずれの音源方向領域から入力された信号であるかを判定する閾値を生成する。
音源信号判定手段により、帯域別チャネル間パラメータ値差検出手段から入力された帯域別チャネル間パラメータ値差と、閾値推定手段から入力された閾値に基づき、周波数帯域信号の各帯域が、既定の個数であり閾値により領域が決定される音源方向領域のうち、いずれの音源方向領域から入力された音を主に含むかを判定してその音源方向領域を判定し、その判定情報を重み乗算手段に出力する。
重み乗算手段により、音源方向領域に対応するように配列された拡声手段に、判定情報に基づいて音源方向領域と判定された音源方向領域に対する重みが、全ての音源方向領域の出力信号のうちで最も大きくなる重みとされ、複数の周波数帯域信号にその重みを乗算した出力用音源帯域信号を生成する。
音源信号合成手段により、重み乗算手段で重み付けされた出力用音源帯域信号が、判定音源方向領域ごとに時間波形に戻され、受聴者に音源方向領域を区別できる様に配置された拡声手段へ、音源信号として出力される。
この発明によれば、2個のマイクロホンが複数の音源に対して左右非対称の位置に配置され、一つの音源方向領域内に複数の音源が存在する状況になっても、それまでの音源方向領域を区別する閾値を、閾値推定手段が新たな帯域別チャネル間パラメータ値差に基づいて更新するので、音源方向領域を区別することができ、聴取者に音源の位置に対応した音像定位感を提供することが出来る。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
この発明の音像定位強調再生装置の実施例1の機能構成ブロックを図1に示す。この例では、音源を3個として説明する。マイクロホンMとMとで収音された収音信号X(n)とX(n)(nは離散的時間)は、それぞれ帯域分割手段3のL帯域分割部3aとR帯域分割部3bとで所定区間(フレームという)ごとに、例えば短時間高速フーリエ変換などで周波数分割されて周波数領域信号X(ω),(i=1,…,N)とX(ω),(i=1,…,N)とに変換される。更に、これら周波数領域信号X(ω)、X(ω)はそれぞれ予め決めた複数のN個の帯域に分割される。この分割された各帯域は、主として一つの音源からの音響信号成分のみが含まれるように細かく行われる。例えば、スペクトルごとに取り出せるように、帯域分割された各帯域の周波数帯域信号がX(ω)、X(ω)になるようにされる。周波数帯域信号X(ω)とX(ω)は、重み乗算手段7と帯域別チャネル間パラメータ値差検出手段4に出力される。
帯域別チャネル間パラメータ値差検出手段4は、周波数帯域信号X(ω)とX(ω)の同一帯域毎に、マイクロホンMとMの位置に起因して生ずる音のパラメータの値の差を帯域別チャネル間パラメータ値差ΔPa(ω),(i=1,…,N)として検出して、閾値推定手段5と音源信号判定手段6に出力する。詳しくは後述するが、帯域別チャネル間パラメータ値差にはレベル差若しくは位相差、又はその双方が用いられる。
図1では帯域別チャネル間パラメータ値差ΔPa(ω)としてレベル差ΔLev(ω),(i=1,…,N)を用いた場合を示し、このレベル差ΔLev(ω),(i=1,…,N)が、帯域別チャネル間パラメータ値差検出手段4のレベル差部4aで算出される。なお、チャネル間パラメータ値差を位相差とした場合は、帯域別チャネル間パラメータ値差検出手段4の位相差部4bで算出される。その場合でも、以降の説明における信号名はΔLev(ω)を用いる。
閾値推定手段5は、帯域別チャネル間パラメータ値差から各帯域の周波数帯域信号X(ω)とX(ω)がいずれの音源から入力された信号であるかを判定する閾値LevTh1とLevTh2を生成し、音源信号判定手段6に出力する。
音源信号判定手段6は、各帯域別チャネル間パラメータ値差ΔLev(ω)と閾値LevTh1及び閾値LevTh2とをそれぞれ比較して、各帯域ごとに周波数帯域信号X(ω)とX(ω)がいずれの音源から入力された音を主に含むかを判定してその音源方向領域を判定し、その判定情報Res(ω),(i=1,…,N)を重み乗算手段7に出力する。
重み乗算手段7は、帯域分割手段3から入力される周波数帯域信号X(ω),(i=1,…,N)とX(ω),(i=1,…,N)に対し、帯域毎に、判定情報Res(ω)に基づいて重み値を乗算して、その音源方向領域の周波数帯域信号を強調した出力用音源帯域信号として出力する。この例では、重み乗算手段7内におけるL出力用音源帯域信号生成部7aで左側音源方向領域と判定された出力用音源帯域信号Y(ω),(i=1,…,N)を、C出力用音源帯域信号生成部7bで中央音源方向領域と判定された出力用音源帯域信号Y(ω),(i=1,…,N)を、R出力用音源帯域信号生成部7cで右側音源方向領域と判定された出力用音源帯域信号Y(ω),(i=1,…,N)を、それぞれ生成して音源信号合成手段8へ出力する。
音源信号合成手段8においては、L出力用音源帯域信号生成部7aで左側音源方向領域として強調された出力用音源帯域信号Y(ω)を、L音源信号合成部8aで時間波形に戻して拡声手段9aに出力する。同様に出力音源帯域信号Y(ω)とY(ω)を、それぞれC音源信号合成部8bとR音源信号合成部8cとで時間波形に戻して、拡声手段9bと、拡声手段9cとにそれぞれ出力する。受聴者が音源方向領域を区別できる様に拡声手段9a、9b、9cが配置されている。なお、帯域分割手段3としては、各収音信号X(n)、X(n)をそれぞれのフィルタバンクにより周波数帯域信号X(ω)、X(ω)に変換・分割してもよい。
以上述べた構成にすることで、収音信号X(n)とX(n)をフレームごとに複数の周波数帯域信号に分割し、これら周波数帯域信号X(ω)とX(ω)に対し、帯域毎に、閾値推定手段5が生成した閾値LevTh1とLevTh2に基づいて重み値を乗算して音源方向を強調するので、音源に対するマイクロホンMとMとが音源に対して左右対称の位置に配置されなくても、聴取者に正確な音像定位感を提供することが可能になる。つまり、音源に対するマイクロホンMとMの配置の自由度を高めることができ、また複数の発話者がマイクロホンMとMに対し偏って位置している場合でも、これら発話者の音声を分離して音像定位させることができる。
〔全体の動作フロー〕
図2に実施例1の音像定位強調再生装置の全体の動作フローを示して動作の流れを説明する。
音像定位強調再生装置が動作を開始すると、最初に音源方向領域Lfと音源方向領域Cfとを区別する閾値LevTh1と、音源方向領域Rfと音源方向領域Cfとを区別する閾値LevTh2と、に初期値が設定される。この初期値は、マイクロホンMとMとが、例えば音源に対して左右対称で所定の距離離れた位置に配置された場合の閾値LevTh1とLevTh2である(ステップS20)。
閾値LevTh1とLevTh2が設定された後に、帯域分割手段3は、マイクロホンMとMの収音信号を周波数帯域の信号X(ω)とX(ω)に変換・分割する帯域分割処理を行う(ステップS21)。
これら周波数帯域信号X(ω)とX(ωi)の同一帯域毎に、マイクロホンMとMの配置された位置に起因して生ずる帯域別チャネル間パラメータ値差ΔLev(ω)を検出する。つまり帯域別チャネル間パラメータ値差検出処理を行う(ステップS22)。
次に帯域別チャネル間パラメータ値差ΔLev(ω)に基づいて閾値推定処理を行う(ステップS23)。この実施例1では、閾値推定処理が逐次行われ、新たな閾値LevTh1,LevTh2が求まればその都度、閾値は更新される(ステップS23b)。閾値計算が終了するまでは、前の閾値LevTh1,LevTh2で動作する(ステップS23a)。したがって、動作開始直後は、上記した初期値の閾値LevTh1,LevTh2で動作する。
次に音源信号判定手段6が、帯域別チャネル間パラメータ値差ΔLev(ω)と閾値LevTh1及びLevTh2とをそれぞれ比較して、各帯域の周波数帯域信号X(ω),X(ωi)がいずれの音源から入力された音を主に含むかを判定してその音源方向領域を示す判定情報Res(ω)を生成する。つまり音源信号判定処理を行う(ステップS24)。
次に重み乗算手段7が、帯域毎に、判定情報Res(ω)に基づいて重み値を周波数帯域信号X(ω),X(ωi)に乗算し、判定された音源方向領域の音源からの音が強調された出力用音源帯域信号を生成する。つまり音源生成処理を行う(ステップS25)。なお、判別される音源方向領域の数と同数の拡声手段が配列され、受聴者が音源方向を区別できるようにされる。したがって、上記出力用音源帯域信号は、上記拡声手段の数だけ生成される。
次に音源信号合成手段8が、各音源方向領域と対応した出力音源帯域信号を時間波形に戻す、音源信号合成処理を行う(ステップS26)。
以上述べた動作フローの中で、実施例1は、従来技術として示した非特許文献1に開示された技術に対して、閾値推定処理S23が、閾値を更新する点が新しい。したがって、マイクロホンMとMとが音源に対して左右非対称に配置されたとしても、そのマイクロホンの配置に合わせて閾値が更新されるので、聴取者に正確な定位感を提供することが出来る。
更に実施例1によれば、帯域分割処理(ステップS21)〜音源信号合成処理(ステップS26)は、逐次連続的に動作する。したがって、音源である発話者が隣接する音源方向領域に移動したとしても、また、発話者方向の偏りが時間的に変動しても、その状況における閾値を生成して更新し、その閾値に基づいて音源方向領域を区別するので、音源の配置に近い音像定位感を聴取者に提供することが可能である。
以降にこの発明の新しい部分に関する動作を更に詳しく説明する。
〔マイクロホンの配置と帯域別チャネル間パラメータ値差〕
図1を参照して音源とマイクロホンとの位置関係を説明する。
所定の間隔を空けて配置されたマイクロホンMとMの前方に距離を置いて、それぞれ所定間隔を空けて横方向に3個の音源LsとCsとRsが並んでいる。マイクロホンM側にある音源を音源Lsとし、マイクロホンMに収音される信号をsL(n)、マイクロホンMに収音される信号をsL(n)とする。マイクロホンM側にある音源を音源Rsとし、マイクロホンMに収音される信号をsR(n)、マイクロホンMに収音される信号をsR(n)とする。マイクロホンMとMとの間にある音源を音源Csとし、マイクロホンMに収音される信号をsC(n)、マイクロホンMに収音される信号をsC(n)とする。
音源Lsからの信号sL(n)と信号sL(n)を比較すると、信号sL(n)の方が信号sL(n)より振幅が大きく、かつ早い位相でマイクロホンMとMに収音される。音源Rsからの信号sR(n)と信号をsR(n)を比較すると、信号sR(n)の方が信号sR(n)より振幅が大きく早い位相でマイクロホンMとMに収音される。音源Csからの信号sC(n)とsC(n)は、双方のマイクロホンM,Mに同振幅、同位相で収音される。
このような関係をもって収音される2個のマイクロホンMとMからの収音信号X(n)とX(n)を、帯域分割手段3でそれぞれN個の帯域に分割する。
その各帯域について、帯域別チャネル間パラメータ値差検出手段4において式(1)で定義されるチャネル間パラメータ値差として、この例ではレベル差ΔLev(ω)を算出する。
Figure 0004495704
このΔLev(ω)が取る値の範囲は、部屋の広さと音源とマイクロホン間の距離とから、あらかじめ予想することが出来る。例えば、通信会議システムを利用するような一般の会議室ならば−20dBから20dBの範囲の値になる。
このΔLev(ω)の値から、その帯域(ω)の音を発する音源が、マイクロホンM,Mに対しどの辺りに位置するかを判定することが出来る。その帯域(ω)の音を発する音源がマイクロホンMに近ければ、|X(ω)|/|X(ω)|なのでΔLev(ω)の値は大きくなる(正の値を取る)。その帯域(ω)の音を発する音源がマイクロホンMに近ければ、ΔLev(ω)の値は小さくなる(負の値を取る)。その帯域(ω)の音を発する音源が両マイクロホンMとMの間に位置していれば、ΔLev(ω)は0に近い値を示す。
このΔLev(ω)の大小関係を利用することで、閾値推定手段5が閾値を算出する。その閾値推定手段5の機能構成ブロック図を図3に示して更に詳しく動作を説明する。
〔閾値推定手段〕
閾値推定手段5は、まず始めにチャネル間パラメータ値差ΔLev(ω)のヒストグラムを、ヒストグラム算出部30で算出する。次に作成したヒストグラムの最大階級をヒストグラム最大階級算出部31で生成する。
ヒストグラム最大階級算出部31で算出された最大階級は、ヒストグラム最大階級保存部32に保存される。保存された複数の最大階級の値から、音源位置偏り判定部33が、音源がマイクロホンM,Mに対して偏っているか否かを判定する。音源が偏っていると判定された場合は、その偏りの判定に用いた最大階級の値を用いて閾値推定手段5が新たな閾値LevTh1又は及びLevTh2を算出して音源信号判定手段6に出力する。その新たな閾値LevTh1又は及び LevTh2を用いて、音源信号判定手段6が音源方向領域を区分けするので、音源位置に対応した音像定位感を提供することが可能になる。
閾値推定手段5の機能構成ブロックの各ブロックの動作を順に説明する。
〔ヒストグラム算出部〕
ヒストグラム算出部30の動作フローを図4に示す。チャネル間パラメータ値差ΔLev(ω)がチャネル間レベル値差ΔLev(ω)の場合であり、このチャネル間レベル値差ΔLev(ω)は、上記したように一般の会議室であれば、−20dB〜20dBの範囲に分布するので、ヒストグラムの階級を例えば1dBとしてΔLev(ω)のヒストグラムを算出する。
フレームごとに単純に頻度を加算するだけでは、過去のフレームの情報が残ってしまい、瞬間瞬間の発話状態をヒストグラムに反映することができなくなる。そこで、フレーム毎に過去の頻度の値が一律に小さくなるように1以下の、例えば0.7をヒストグラムの各階級に乗算する処理を行う。その処理を図4のステップS40〜S43に示す。ステップS42に示すhmat0[h]が、階級hのヒストグラムの頻度である。0.7を乗算する場合は、7フレーム処理すると、7フレーム前のチャネル間パラメータ値差ΔLev(ω)の頻度を約10分の1に減少させることになる。このように過去の発話状態に影響されることなくヒストグラムを算出することが可能となる。
次に−20dB〜20dBに分布するチャネル間パラメータ値差ΔLev(ω)のヒストグラムを算出する。ヒストグラムはチャネル間パラメータ値差ΔLev(ω)の帯域毎に頻度を累積してもよいが、図4のフローチャートが複雑になって分かり難くなるので、ここでは、図3中に破線で示すレベル差帯域間平滑部35でチャネル間パラメータ値差、この例ではチャネル間レベル値差ΔLev(ω)を帯域間で平滑化し、その平滑化後のチャネル間レベル差ΔLev00を用いてヒストグラムを算出する場合を説明する。平滑化後のチャネル間レベル差ΔLev00を式(2)に示す。
Figure 0004495704
その処理を図4のステップS44〜S48に示す。hはヒストグラムの階級を表す。0≦h≦40に対して、平滑化後のチャネル間レベル値差ΔLev00が−20+(h−1)より大で、且つ−20+h以下の値であるかが評価され(アウテップS46)、その各評価ごとにステップS47でヒストグラムの頻度の度数が+1される。このようにしてヒストグラムが算出される。
全帯域間で平滑化したチャネル間レベル差ΔLev00でヒストグラムを算出する例を説明したが、このように全ての帯域のチャネル間パラメータ値差ΔLev(ω)でヒストグラムを算出しても良いし、音声のパワーの大きな例えば100Hz〜4KHzの範囲、あるいは代表的な複数の帯域について平滑化した値を用いても良い。平滑化することで、雑音等の影響を受け難くすることが出来る。
平滑化の方法としては、図3中に破線で示すレベル差フレーム間平滑部36で、帯域間で平滑化したチャネル間レベル差ΔLev00を、更にフレーム間で平滑化しても良い。このフレーム間で平滑化したチャネル間レベル差ΔLev00を式(3)に示す。
Figure 0004495704
式(3)はP個のフレーム間で平滑化するものである。このようにフレーム間で平滑化することで、更にヒストグラムを安定して算出することが可能である。これら平滑手段は、図3中に破線で示す様に両者を直列にして用いても良いし、レベル差帯域間平滑部35だけを用いてもよい。
また逆に、音声のパワーが比較的に大きな例えば500Hz〜1KHzの特定の帯域を平滑しないで、帯域を限定してヒストグラムを算出しても良い。その場合、安定性はやや劣るが、処理速度を速くする効果がある。
このように帯域別チャネル間パラメータ値差検出手段4が出力するチャネル間パラメータ値差ΔLev(ω)は、種々の変更が可能である。
そのチャネル間パラメータ値差ΔLev(ω)のヒストグラムがヒストグラム算出部30で算出されると、次にヒストグラム最大階級算出部31が動作する。
〔ヒストグラム最大階級算出部〕
ヒストグラム最大階級算出部31は、ヒストグラム算出部30で算出されたヒストグラムが最大値をとる階級SSを算出する。ヒストグラム最大階級算出部31の動作フローを図5に示す。
ステップS50で変数hとXXを0に初期化する。ステップS52で、ヒストグラムの階級0〜40の頻度が順に読み出され、その都度、頻度hmat0[h]は、変数ddata0に代入される。そして変数ddata0は、その都度、ヒストグラムの最大値であるXXと比較され、ddata0がXXより大きい場合にXXはddata0に書き換えられる(ステップS54)。そして、この時のヒストグラムの階級を表すhがSSに代入される(ステプS55)。
この動作をhが40になるまで繰り返す(ステップS51〜S56)と、ヒストグラムの最大値をとる階級を表す変数SS=ヒストグラムが最大値をとる階級hとなる。ヒストグラムの最大頻度の階級を表す変数SSが確定すると、ヒストグラム最大階級保存部32が動作する。ヒストグラム最大階級算出部31は、フレーム毎に動作する。
〔ヒストグラム最大階級保存部〕
ヒストグラム最大階級保存部32は、ヒストグラム最大階級を複数個保存する。保存する個数は、音源方向領域を区別する数と同じ、または、1〜2個多い位の値で良い。例えば、音源方向領域を3分割する場合には、保存する個数は3乃至5個程度でよい。
ヒストグラム最大階級保存部32の動作フローを図6に示す。SSはフレーム毎に書き換わる可能性があり、そのSSは時系列にSmax1、Smax2、Smax3の順番でシフトして記憶される(ステップS60、S61、S62)。そして、最初のSSとその次のSSがステップS63で比較され、Smax3とSmax2が等しく無いとき、すなわち、異種の音源が存在することが確認されると、音源位置偏り判定部33が動作する。帯域分割手段3において周波数分析された各帯域の出力信号は、主として一つの音響信号成分になる程度に細かく分割されているので、SSが異なるということは異なる音源であることを意味する。
つまり、ヒストグラム最大階級算出部31は、ヒストグラムの最大階級を出力するので一回に出力する階級は、一人の発話者(音源)に対するものである。しかし、他の発話者が発言すると、ヒストグラム最大階級算出部31は異なる階級をヒストグラム最大階級保存部32に出力する。2人の発話者が同時に発話する場合は、一般的に極短時間であり、ある程度の時間に渡って収音すれば各音源(発話者)Ls,Cs,Rsに対応した1個のヒストグラムの階級を得ることになる。したがって、異なる2人が続けて発話すると時間的にずれて2個最大階級を得ることが出来る。
Smax3=Smax2の場合は、1個の音源しか存在しないので、次のフレームの処理へ移行して(ステップS63)、図4〜図6の動作を繰り返す。
〔音源位置偏り判定部〕
図7に音源位置偏り判定部33と閾値算出部34の動作フローを示す。Smax3≠Smax2ということは、音源が2個観測されたことを意味する。そしてそのSmax3とSmax2の値から、音源の位置を推定することが出来る。Smax3及びSmax2が例えば5dB以上20dB未満の値のとき、その2個の音源はマイクロホン対して左側に偏っていることを示す。同様に、例えば−20dB以上−5dB以下程度の値の時は、逆に右側に偏っていることを示す。Smax3及びSmax2が例えば−5dBより大きく5dB未満程度の値のときは、2個の音源はマイクロホンに対して真ん中付近に位置していることを示す。
上記した説明では、Smax1乃至Smax3はヒストグラムの階級である0〜40であるが、これはチャネル間パラメータ値差ΔLev(ω)の−21dB〜20dBに一対一に対応している。図7は、Smax3とSmax2がチャネル間パラメータ値差ΔLev(ω)であるとして書かれている。
2個の音源がマイクロホンに対して左に偏っている場合は、ステップS70でYesと判定され、さらにSmax3とSmax2が2dB以上離れた値であるかがステップS71で判定される。この2dBは、一般的な会議室において、マイクロホンと発話者の距離を50cm〜1mとした場合に、横に並んだ発話者間の間隔の約60cmに相当する値である。したがって、Smax3とSmax2が2dB以上離れていればその間で音源方向領域を区切った方が良いので、音源方向領域をマイクロホンから見て左側の音源方向領域Lfと中央の音源方向領域Cfとの間を区別する閾値LevTh1を、Smax3とSmax2の間(LevTh1=(Smax3+Smax2)/2)の値に設定する(ステップS72)。この場合は、音源方向領域Cfと右側の音源方向領域Rfとを区別する閾値LevTh2は、図2のステップS20で設定された初期値のままにして、次のフレームの処理に移行する。
2個の音源がマイクロホンに対して右に偏っている場合は、ステップS73でYesと判定され、左側と同様にSmax3とSmax2が2dB以上離れているか否かがステップS74で判定され、2dB以上の差があれば音源方向領域Cfと音源方向領域Rfとを区分けする閾値LevTh2が、Smax3とSmax2の間(LevTh2=(Smax3+Smax2)/2)の値に設定される(ステップS75)。この場合は、音源方向領域Cfと左側の音源方向領域Lfとを区分けする閾値LevTh1は、初期値のままにして、次のフレームの処理に移行する。
2個の音源がマイクロホンに対して中央付近に偏っている場合は、ステップS76でYesと判定される。中央付近に2個の音源が偏っている場合には、それぞれを音源方向領域Lfと音源方向領域Rfに区別する必要から、上記した2dBの倍の4dBの差をSmax3とSmax2が持つかが、ステップS77で評価される。Smax3とSmax2との差が4dB未満の時は、両閾値LevTh1,LevTh2は更新されない。
4dB以上の差がある場合は、ステップS78でSmax3とSmax2の大小関係が評価される。Smax3がSmax2より大きければSmax3の音源は、マイクロホンに対して左側に位置するので閾値LevTh1を例えばSmax3より1小さな値(dmax1=1)に設定する(ステップS79)。そして閾値LevTh2を例えばSmax2より1大きな値(dmin1=1)に設定する(ステップS80)。こうすることで、Smax3の音源は音源方向領域Lfに、Smax2の音源は音源方向領域Rfに区別される。
Smax2がSmax3より大きい場合は、Smax2の音源がマイクロホンに対して左側に位置するので、閾値LevTh1,LevTh2は逆に操作される(ステップS81、S82)。この場合は、Smax2の音源が音源方向領域Lfに、Smax3の音源が音源方向領域Rfに区別される。
以上、音源が2個の場合で説明したが、次に音源が3個の場合について簡単に説明する。音源が3個の場合も2個の場合と考え方は同じである。
3個の音源がマイクロホンに対して左に偏っている場合は、Smax3、Smax2、Smax1の中の最大値と最小値の間に、音源方向領域Cfと音源方向領域Rfとを区別する閾値LevTh1を式(4)に示すように設定する。
LevTh1=(max(Smax1,Smax2,Smax3)+min(Smax1,Smax2,Smax3))/2
式(4)
この時、音源方向領域Cfと音源方向領域Rfを区別する閾値LevTh2は初期値のままとされる。
3個の音源がマイクロホンに対して右に偏っている場合は、今までの説明で明らかであるので説明は省略する。
3個の音源がマイクロホンに対して中央付近に偏っている場合は、Smax3、Smax2、Smax1の中の最大値に当たるものが、マイクロホンに対して最も左側に位置する音源である。したがって、音源方向領域Cfと音源方向領域Lfを区別する閾値LevTh1を、式(5)に示す様にその最大値よりも例えば1小さな値に設定する。例えばdmax1=1とする。
そして音源方向領域Cfと音源方向領域Rfを区別する閾値LevTh2を、式(6)に示す様にその最大値よりも例えば1大きな値に設定する。
LevTh1=max(Smax1,Smax2,Smax3)−dmax1 式(5)
LevTh2=min(Smax1,Smax2,Smax3)+dmax1 式(6)
このようにすると、Smax3〜Smax1の中の最大値を示す音源は音源方向領域Lfに、最小値を示す音源は音源方向領域Rfに、中間の値を示す音源は音源方向領域Cfにそれぞれ区別される。
以上述べたように閾値推定手段5が動作することで、逐次連続的に音源方向領域を区別する閾値LevTh1とLevTh2が更新される。
〔音源信号判定手段〕
音源信号判定手段6及び重み乗算手段7及び音源信号合成手段8の動作は、従来技術で説明した非特許文献1に開示された発明と同一であるので、説明は簡単に行う。
音源信号判定手段6の動作フローを図8に示す。音源信号判定手段6は、閾値推定手段5で逐次更新される閾値を用いて、帯域別チャネル間パラメータ値差検出手段4が出力する帯域(ω)ごとのチャネル間パラメータ値差ΔLev(ω)を評価し、各帯域がいずれの音源の信号を主に含むか判定する。
チャネル間パラメータ値差ΔLev(ω)は、ループ83でΔLev(ω)〜ΔLev(ωN)まで掃引され、iが更新される度にΔLev(ω)が閾値LevTh1より大きいかが判定され(ステップS84)、大きければステップS85でその帯域(ω)は音源Lsの音を主に含むと判定される(Res(ω)=L、ステップS85)。
ステップS84でΔLev(ω)が閾値LevTh1より小さいと判定されると、次にステップS86で閾値LevTh2より小さいか判定され、小さい場合その帯域(ω)は音源Rsの音を主に含むと判定される(Res(ω)=R、ステップS87)。
ステップS86でΔLev(ω)が閾値LevThより小さく無いと判定された帯域は、音源Csの音を主に含むと判定される(Res(ω)=C、ステップS88)。
音源方向領域が判定された全帯域(ω)〜(ω)の判定結果Res(ω)〜Res(ω)は重み乗算手段7に出力される。
〔重み乗算手段〕
実施例1の場合、重み乗算手段7は、音源信号判定手段6の出力する帯域毎の判定結果に基づき、3個の拡声手段9a〜9cそれぞれに対する出力用音源帯域信号を生成する。
重み乗算手段7の動作フローを図9に示す。
収音信号X(n)とX(n)を、帯域分割手段3で周波数帯域信号に変換・分割したX(ω),(i=1,…,N)とX(ω),(i=1,…,N)の各帯域の信号に対して、音源信号判定手段6から同一帯域の判定結果Res(ω)〜Res(ω)を参照して出力用音源帯域信号を生成する。
重み付けは、X(ω)とX(ω)のどちらの方に高いSNで受音されているかに依存する。例えば、音源Lsからの音は、マイクロホンMに近いのでX(ωi)の方のSN比が高くなる。したがって、ステップS90で音源方向領域がRes(ωi)=Lと判定された帯域X(ωi)は、そのまま、つまり重みとしては1とされ、聴取者から見て左側に配置される拡声手段9a用の出力音源帯域信号Y(ωi)=X(ωi)とされる(ステップS91)。
聴取者から見て右側に配置される拡声手段9c用の同帯域の出力音源帯域信号Y(ωi)は、音源Lsからの音を主に含まないので、X(ωi)に対する重みを0にしても良いが、そうすると出力音源帯域信号Yのその帯域の周波数成分が無くなるために歪が生じ易くなる。そこでX(ωi)に対する重み値αを例えば0.1や0.3程度として出力音源帯域信号Y(ωi)を生成する(ステップS92)。
聴取者から見て中央に配置される拡声手段9b用の同帯域の出力音源帯域信号Y(ωi)は、マイクロホンMとMに同じ大きさで受音されるため、X(ωi)とX(ωi)に重み値αの半分の値を乗算して出力音源帯域信号Y(ωi)を生成する(ステップS93)。
ステップS94で音源方向領域がRes(ωi)=Cと判定された帯域の出力音源帯域信号Y(ωi)とY(ωi)には、重み値αが乗算される(ステップS95とS97)。Y(ωi)については、マイクロホンMとMにほぼ同じ大きさで受音されるためX(ωi)とX(ωi)を、2分の1した値を用いる(ステップS96)。
音源方向領域がRes(ωi)=Rと判定された帯域については、Res(ωi)=Lと判定された場合と同じ考え方で、上記したRes(ωi)=Lの場合のY(ωi)とY(ωi)の関係が逆転する。
以上のように重み付けされて、拡声手段9a用の出力音源帯域信号Y(ωi)がL出力用音源帯域信号生成部7aで生成される。拡声手段9b用の出力音源帯域信号Y(ωi)と、拡声手段9c用の出力音源帯域信号Y(ωi)は、それぞれC出力用音源帯域信号生成部7b、R出力用音源帯域信号生成部7cで生成される。生成された各拡声手段9a〜9cの出力用音源帯域信号は音源信号合成手段8に出力される。
〔音源信号合成手段〕
音源信号合成手段8は、各拡声手段9a〜9c用に重み付けされた出力音源帯域信号を時間波形に変換して各拡声手段9a〜9cに出力する。L出力用音源帯域信号生成部7aで重み付けされたL出力用音源帯域信号Y(ωi),(i=1,…,N)は、L音源信号合成部8aで逆フーリエ変換により時間波形に戻され、聴取者の左側前方に配置される拡声手段9aの駆動信号とされる。
C出力用音源帯域信号生成部7bで重み付けされたC出力用音源帯域信号Y(ωi),(i=1,…,N)は、C音源信号合成部8bで逆フーリエ変換により時間波形に戻され、聴取者の中央前方に配置される拡声手段9bの駆動信号とされる。
R出力用音源帯域信号生成部7cで重み付けされたR出力用音源帯域信号Y(ωi),(i=1,…,N)は、R音源信号合成部8cで逆フーリエ変換により時間波形に戻され、聴取者の左側前方に配置される拡声手段9cの駆動信号とされる。
以上述べたように閾値推定手段5が、複数の音源間で音源方向領域を区別する閾値に更新するので、2個のマイクロホンを複数の音源に対して左右非対称の位置に置かれたり、又は発話者が移動して隣接する音源方向領域に複数の音源が分布するような状態になっても、音源方向領域を区別することができるので、聴取者に発話者の位置に対応した音像定位感を提供することが出来る。
帯域別チャネル間パラメータ値差として、レベル差又は位相差のどちらでも良いことは既に述べたが、2個のマイクロホンの間隔が狭いとチャネル間パラメータ値差をレベル差で測定することが難しくなる。
例えば無指向性マイクを2本用い、2本のマイクの間隔を広げられない場合は、信号の差がレベル差に現れ難くなる。一方、マイクロホンの間隔が音の1波長を越えない周波数帯においては、位相の方が信号の差を求め易い。
そこで低い周波数帯域では位相差、高い帯域ではレベル差をチャネル間パラメータ値差として用いるこの発明の実施例2を図10に示す。図10は先に説明した実施例1の動作フローに対して、帯域別チャネル間パラメータ値差検出処理S22が低い帯域では位相差で、高い帯域ではレベル差で行われる点だけが異なる。位相差とレベル差を切替える帯域は、マイクロホンMとMの間隔に依存する。
音速を340m/Sとすると周波数1KHzの音の波長は34cmである。マイクロホンMとMの間隔を例えば34cmにすると、1KHz以上の音は1波長以上含まれてしまうので、位相差は使い難くなる。そこで、2個のマイクロホンの間隔に相当する波長よりも、小さな波長の高い周波数帯はレベルでチャネル間パラメータ値差を算出し、それよりも大きな波長の低い周波数帯は位相でチャネル間パラメータ値差を算出する。
その切替えを、マイクロホンMとMの間隔に相当する周波数の帯域を所定値に設定してステップS221で行うことで、低い周波数帯域は位相差検出(ステップS222)、高い周波数帯域はレベル差検出(ステップS223)でチャネル間パラメータ値差が算出される。
このように周波数帯域によって、チャネル間パラメータ値差の算出方法を切替えることによって、音源方向領域の検出精度を高めることが可能である。
〔評価実験〕
この発明の音像定位強調再生方法で、音源方向領域を適切に分割でき、良好な定位感が得られるかを調べるために主観評価実験を行った。
〔実験条件〕
残響時間が300msの屋内に、3個の音源を横一列に互いに70cm離して配置し、2個のバウンダリーマイクロホンを使用した。被験者は、3個の音源に対応する位置に配置された左右のスピーカを両端として、その間を5分割した箇所に貼られたラベルを目安に、音像が聞こえて来た位置をそのラベルを選択して回答した。音源は、16bit32KHzサンプリングで収録された男性話者2名、女性話者1名の音声(各5秒程度)をスピーカから再生して行い、繰り返し回数は4回とした。被験者は聴力の正常な男性4名、女性4名である。
「基準特性」を、従来方法で閾値LevTh1=2dB、LevTh2=−2dBの固定とし、3個の音源の中央の音源に正対して50cmの距離離れて、音源と並行に左右対称の位置に2個のマイクロホンを配置した場合とした。
「従来方法」として、図13に示したように右側の音源方向に2個のマイクロホンを12.5cm並行に移動させ、かつ、閾値もLevTh1=2dB、LevTh2=−2dBの固定にした場合とした。
「この発明」として、マイクロホンの位置を従来方法と同じ音源に対して左右非対称の位置とした状態で、閾値推定処理を行わせた場合とした。
〔実験結果〕
実験結果を図11に示す。横軸は音源位置を示し、縦軸は被験者から見て右側を+、左側を−として得られた回答を距離で示す。「基準特性」は、音源位置と受聴位置が一致している。「従来方法」は、中央の音源の音が左側のスピーカから大きく再生されるため、受聴者には中央の音源からの音が左側から発せられたように聞こえてしまう。この「従来方法」の実験では、中央の音源の位置が左側のマイクロホンに近いために、従来の閾値固定による音源方向強調処理によって、左側のスピーカから中央の音源の音が強調されて再生されるからである。
「この発明」では、マイクロホンの位置を左右非対称の位置に配置しても音源位置と受聴位置が一致している。図11では「基本特性」の記号×と「この発明」の記号◆とが重なっている。これは、閾値推定手段が閾値を更新することにより「従来方法」で左側の音源方向領域と判定された中央の音源が、本来の中央の音源方向領域にあると判定されるからである。
このようにこの発明の音像定位強調再生方法は、有効であり、マイクロホンの配置が音源に対して左右対称の位置に配置されなくとも、良好な音像定位感を聴取者に提供することが出来る。
なお、実施例1では閾値推定手段5を逐次連続的に動作する例で説明したが、この発明はこの実施例に限定されない。音像定位強調再生装置の電源を入れた時や、マイクロホンの配置を変えた時に一度だけ閾値推定手段5を動作させるようにしても良い。
なお、帯域別チャネル間パラメータ値差としては、レベル差を例に説明を行ったが、周波数分析の結果で振幅と同時に得られる位相スペクトルからチャネル間位相差Δang(ω)=angX(ω)−angX(ω)を求め、これを帯域別チャネル間パラメータ値差としても良い。上記したようにマイクロホンの配置と音源配置との関係は位相差でも得られるので、帯域別チャネル間パラメータ値差検出手段4はレベル差の場合と同様の考え方で実現することが可能である。
以上の各実施例の他、この発明である各装置及び方法は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記各装置における処理機能をコンピュータによって実現する場合、音像定位強調再生装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記音像定位強調再生装置における処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記憶媒体に記憶しておくことができる。コンピュータで読み取り可能な記憶媒体としては、例えば、磁気記憶装置、光ディスク、光磁気記憶媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記憶装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記憶媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記憶したDVD、CD−ROM等の可搬型記憶媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記憶媒体に記憶されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記憶媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、この形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
この発明の音像定位強調再生装置の実施例1の機能構成ブロックを示す図。 実施例1の音像定位強調再生装置の全体の動作フロー図。 閾値推定手段5の機能構成ブロックを示す図。 ヒストグラム算出部30の動作フロー図。 ヒストグラム最大階級算出部31の動作フロー図。 ヒストグラム最大階級保存部32の動作フロー図。 音源位置偏り判定部33と閾値算出部34の動作フロー図。 音源信号判定手段6の動作フロー図。 重み乗算手段7の動作フロー図。 この発明の音像定位強調再生装置の実施例2の動作フロー図。 この発明の主観評価実験の結果を示す図。 非特許文献1に開示された従来の収音装置を示す図。 横一列に並んだ3人の発話者La、Cb、Rcに対して、2個のマイクロホンが左右非対称に配置された場合の例を示す図。

Claims (18)

  1. 複数の音源からの音を収音して再生する装置であって、
    互いに離して配置された2個のマイクロホンから上記音源に対する収音信号が入力され、それら各収音信号をそれぞれ複数の周波数帯域に分割し、各帯域の周波数帯域信号する帯域分割手段と、
    上記帯域分割手段から上記各複数の周波数帯域信号が入力され、それら両周波数帯域信号の同一帯域毎に、上記2個のマイクロホンの位置に起因して生ずる音のパラメータの値の差を帯域別チャネル間パラメータ値差として検出する帯域別チャネル間パラメータ値差検出手段と、
    上記帯域別チャネル間パラメータ値差検出手段から入力された上記帯域別チャネル間パラメータ値差に基づき上記周波数帯域信号が、既定の個数であり閾値により領域が決定される音源方向領域のうち、いずれの上記音源方向領域から入力された信号であるかを判定する閾値を生成する閾値推定手段と、
    上記帯域別チャネル間パラメータ値差検出手段から入力された上記帯域別チャネル間パラメータ値差と、上記閾値推定手段から入力された上記閾値に基づき、上記周波数帯域信号の各帯域が、既定の個数であり閾値により領域が決定される音源方向領域のうち、いずれの上記音源方向領域から入力された音を主に含むかを判定してその音源方向領域を判定し、その判定情報を出力する音源信号判定手段と、
    上記判定情報及び上記各複数の周波数帯域信号が入力され、上記音源方向領域に対応するように配列された拡声手段に、上記判定情報に基づいて音源方向領域と判定された音源方向領域に対する重みが、全ての音源方向領域の出力信号のうちで最も大きくなる重みとされ、上記各複数の周波数帯域信号にその重みを乗算した出力用音源帯域信号を出力する重み乗算手段と、
    上記重み乗算手段で重み付けされた上記出力用音源帯域信号が入力され、上記出力用音源帯域信号を、同一音源方向領域ごとに時間波形に戻して上記拡声手段へ出力する音源信号合成手段と、
    を具備することを特徴とする音像定位強調再生装置。
  2. 請求項1に記載の音像定位強調再生装置において、
    上記閾値推定手段は、上記音源の中央と上記2個のマイクロホンの中央とが対向している状態において、互いに区別されるべき音源方向領域に属する音源が、隣接する一方の音源領域に含まれる状態を検出すると、それら音源の音源方向領域を区別するための閾値を推定するものであることを特徴とする音像定位強調再生装置。
  3. 請求項1又は2に記載の音像定位強調再生装置において、
    上記閾値推定手段は、上記音源方向領域の一つの音源方向領域内に上記帯域別チャネル間パラメータ値差が所定値以上の音源が複数ある場合に、上記複数の音源間で音源方向領域を区別する閾値を生成し、上記閾値を逐次修正するものであることを特徴とする音像定位強調再生装置。
  4. 請求項1乃至3の何れかに記載の音像定位強調再生装置において、
    上記閾値推定手段は、上記帯域別チャネル間パラメータ値差検出手段から入力される帯域別チャネル間パラメータ値差のヒストグラムを算出するヒストグラム算出部と、
    上記ヒストグラムの最大値をとる階級を算出するヒストグラム最大階級算出部と、
    上記ヒストグラム最大階級算出手段が算出する最大階級を複数個保存するヒストグラム最大階級保存部と、
    上記ヒストグラム最大階級保存部に保存された複数の最大階級の値から、音源位置の偏りを判定する音源位置偏り判定部と、
    上記音源位置偏り判定の判定結果と上記複数の最大階級とから上記2本のマイクロホンに対する左側音源方向領域と中央領域を決定するための閾値LevTh1と、上記2本のマイクロホンに対する右側音源方向領域と中央音源方向領域を決定するための閾値LevTh2を算出する閾値算出部と、
    を具備することを特徴とする音像定位強調再生装置。
  5. 請求項4に記載の音像定位強調再生装置において、
    上記音源信号偏り判定部は、上記帯域別チャネル間パラメータ値差検出手段から入力される同一帯域毎の帯域別チャネル間パラメータ値差と、上記閾値推定手段から入力される閾値LevTh1と閾値LevTh2とを比較して、帯域毎のチャネル間パラメータ値差が閾値LevTh1より大、小の一方であれば音源Ls、閾値LevTh2よりも大、小の他方であれば音源Rs、そのどちらでもなければ音源Cs、のそれぞれの音源の信号を主に含むと判定するものであることを特徴とする音像定位強調再生装置。
  6. 請求項1乃至5の何れかに記載の音像定位強調再生装置において、
    上記重み乗算手段は、上記音源信号判定手段において判定された音源と対応付けされた上記周波数帯域信号に重み値1を乗算し、その判定された音源以外の音源と対応付けされた上記周波数帯域信号に重み値0.1乃至0.3を乗算するものであることを特徴とする音像定位強調再生装置。
  7. 請求項1乃至6の何れかに記載の音像定位強調再生装置において、
    上記閾値推定手段は、上記帯域別チャネル間パラメータ値差を所定の帯域間で平滑化するレベル差帯域間平滑部を備え、上記平滑化された帯域別チャネル間パラメータ値差のヒストグラムを算出するものであることを特徴とする音像定位強調再生装置。
  8. 請求項1乃至7の何れかに記載の音像定位強調再生装置において、
    上記閾値推定手段は、帯域別チャネル間パラメータ値差をフレーム間で平滑化するレベル差フレーム間平滑化部を備え、上記平滑化された帯域別チャネル間パラメータ値差のヒストグラムを算出するものであることを特徴とする音像定位強調再生装置。
  9. 請求項1乃至8の何れかに記載の音像定位強調再生装置において、
    上記帯域別チャネル間パラメータ値差は、所定帯域以下の低い帯域では位相差であり、上記所定帯域より高い帯域ではレベル差であることを特徴とする音像定位強調再生装置。
  10. 複数の音源からの音を2本のマイクロホンで収音する収音過程と、
    帯域分割手段が、上記収音過程で収音された各収音信号をそれぞれ複数の周波数帯域信号に分割する帯域分割過程と、
    帯域別チャネル間パラメータ値差検出手段が、2本のマイクロホンの位置に起因して生ずる上記収音信号のパラメータの値の差を帯域別チャネル間パラメータ値差として検出する帯域別チャネル間パラメータ値差検出過程と、
    閾値推定手段が、上記帯域別チャネル間パラメータ値差検出過程で検出された帯域別チャネル間パラメータ値差に基づき上記周波数帯域信号が、既定の個数であり閾値により領域が決定される音源方向領域のうち、いずれの上記音源方向領域から入力された信号であるかを判定する閾値を生成する閾値推定過程と、
    音源信号判定手段が、上記帯域別チャネル間パラメータ値差検出過程で検出された上記帯域別チャネル間パラメータ値差と、上記閾値推定過程で生成された上記閾値に基づき、上記周波数帯域信号の各帯域が、既定の個数であり閾値により領域が決定される音源方向領域のうち、いずれの上記音源方向領域から入力された音を主に含むかを判定してその音源方向領域を判定し、その判定情報を出力する音源信号判定過程と、
    重み乗算手段が、上記判定情報及び上記複数の周波数帯域信号を入力とし、上記音源方向領域に対応するように配列された拡声手段に、上記判定情報に基づいて音源方向領域と判定された音源方向領域に対する重みが、全ての音源方向領域の出力信号のうちで最も大きくなる重みとされ、上記各複数の周波数帯域信号にその重みを乗算した出力用音源帯域信号を出力する音源生成過程と、
    音源信号合成手段が、上記出力用音源帯域信号を、同一音源方向領域ごとに時間波形に戻して上記拡声手段へ出力する音源信号合成過程と
    有する音像定位強調再生方法。
  11. 請求項10に記載の音像定位強調再生方法において、
    上記閾値推定過程は、上記閾値を逐次生成するものであることを特徴とする音像定位強調再生方法。
  12. 請求項10又は11に記載の音像定位強調再生方法において、
    上記閾値推定過程は、ヒストグラム算出部が上記帯域別チャネル間パラメータ値差検出手段から入力される帯域別チャネル間パラメータ値差のヒストグラムを算出するヒストグラム算出過程と、
    ヒストグラム最大階級保存部が、上記ヒストグラム算出過程で算出されたヒストグラムの最大値を算出するヒストグラム最大階級算出過程と、
    ヒストグラム最大階級保存部が、上記ヒストグラム最大階級算出部が算出する最大階級を複数個保存するヒストグラム最大階級保存過程と、
    閾値算出部が、上記ヒストグラム最大階級保存部に保存された複数の最大階級の値から、上記2本のマイクロホンに対する左側音源方向領域と中央音源方向領域を決定するための閾値LevTh1と、上記2本のマイクロホンに対する右側音源方向領域と中央音源方向領域を決定するための閾値LevTh2を算出する閾値算出過程と、
    から成ることを特徴とする音像定位強調再生方法。
  13. 請求項10乃至12の何れかに記載の音像定位強調再生方法において、
    上記閾値推定過程は、上記帯域別チャネル間パラメータ値差を所定の帯域間で平滑化し、上記平滑化された帯域別チャネル間パラメータ値差のヒストグラムを算出する過程を含むものであることを特徴とする音像定位強調再生方法。
  14. 請求項10乃至13の何れかに記載の音像定位強調再生方法において、
    上記閾値推定過程は、上記帯域別チャネル間パラメータ値差をフレーム間で平滑し、上記フレーム間で平滑化された帯域別チャネル間パラメータ値差のヒストグラムを算出する過程を含むものであることを特徴とする音像定位強調再生方法。
  15. 請求項10乃至14の何れかに記載の音像定位強調再生方法において、
    上記音源信号判定過程は、上記帯域別チャネル間パラメータ値差検出手段から入力される同一帯域毎の帯域別チャネル間パラメータ値差と、上記閾値推定手段から入力される閾値LevTh1と閾値LevTh2とを比較して、帯域毎のチャネル間パラメータ値差が閾値LevTh1より大、小の一方であれば音源Ls、閾値LevTh2よりも大、小の他方であれば音源Rs、そのどちらでもなければ音源Cs、のそれぞれの音源の信号を主に含むと判定する過程であることを特徴とする音像定位強調再生方法。
  16. 請求項10乃至15の何れかに記載の音像定位強調再生方法において、
    上記重み乗算過程は、上記音源信号判定手段において判定された音源と対応付けされた上記周波数帯域信号に重み値1を乗算し、その判定された音源以外の音源と対応付けされた上記周波数帯域信号に重み値0.1乃至0.3を乗算する過程であることを特徴とする音像定位強調再生方法。
  17. 請求項1乃至9に記載した各装置としてコンピュータを機能させるための装置プログラム。
  18. 請求項17に記載した何れかのプログラムを記憶したコンピュータで読み取り可能な記憶媒体。
JP2006232598A 2006-08-29 2006-08-29 音像定位強調再生方法、及びその装置とそのプログラムと、その記憶媒体 Active JP4495704B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006232598A JP4495704B2 (ja) 2006-08-29 2006-08-29 音像定位強調再生方法、及びその装置とそのプログラムと、その記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006232598A JP4495704B2 (ja) 2006-08-29 2006-08-29 音像定位強調再生方法、及びその装置とそのプログラムと、その記憶媒体

Publications (2)

Publication Number Publication Date
JP2008060725A JP2008060725A (ja) 2008-03-13
JP4495704B2 true JP4495704B2 (ja) 2010-07-07

Family

ID=39243007

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006232598A Active JP4495704B2 (ja) 2006-08-29 2006-08-29 音像定位強調再生方法、及びその装置とそのプログラムと、その記憶媒体

Country Status (1)

Country Link
JP (1) JP4495704B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6634976B2 (ja) * 2016-06-30 2020-01-22 株式会社リコー 情報処理装置、及びプログラム
CN116760499B (zh) * 2023-07-07 2023-12-01 恩平市天悦音响科技有限公司 一种基于大数据的调音台调音管理系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003169399A (ja) * 2001-11-30 2003-06-13 Advanced Telecommunication Research Institute International ステレオ音像制御装置および多対地間通話システムにおける対地側装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2645731B2 (ja) * 1988-08-24 1997-08-25 日本電信電話株式会社 音像定位再生方式
JP3355598B2 (ja) * 1996-09-18 2002-12-09 日本電信電話株式会社 音源分離方法、装置及び記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003169399A (ja) * 2001-11-30 2003-06-13 Advanced Telecommunication Research Institute International ステレオ音像制御装置および多対地間通話システムにおける対地側装置

Also Published As

Publication number Publication date
JP2008060725A (ja) 2008-03-13

Similar Documents

Publication Publication Date Title
JP5149968B2 (ja) スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
US8867759B2 (en) System and method for utilizing inter-microphone level differences for speech enhancement
US10204614B2 (en) Audio scene apparatus
JP3670562B2 (ja) ステレオ音響信号処理方法及び装置並びにステレオ音響信号処理プログラムを記録した記録媒体
CN100525101C (zh) 使用波束形成算法来记录信号的方法和设备
KR101989062B1 (ko) 오디오 신호를 향상시키기 위한 장치 및 방법 및 음향 향상 시스템
US20140294197A1 (en) Sound Discrimination Method and Apparatus
US9743215B2 (en) Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
JP4914319B2 (ja) コミュニケーション音声処理方法とその装置、及びそのプログラム
JP4495704B2 (ja) 音像定位強調再生方法、及びその装置とそのプログラムと、その記憶媒体
JP2000081900A (ja) 収音方法、その装置及びプログラム記録媒体
CN115567845A (zh) 一种信息处理方法及装置
JP6714424B2 (ja) 音響信号補償装置及びそのプログラム
Sanz-Robinson et al. Robust blind source separation in a reverberant room based on beamforming with a large-aperture microphone array
CN117153192B (zh) 音频增强方法、装置、电子设备和存储介质
US9972335B2 (en) Signal processing apparatus, signal processing method, and program for adding long or short reverberation to an input audio based on audio tone being moderate or ordinary
EP3613043A1 (en) Ambience generation for spatial audio mixing featuring use of original and extended signal
WO2023013019A1 (ja) 発話フィードバック装置、発話フィードバック方法、プログラム
RU2022105152A (ru) Управление акустической эхокомпенсацией для распределенных аудиоустройств
US9653065B2 (en) Audio processing device, method, and program
CN116208908A (zh) 录音文件播放方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090630

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090828

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100330

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100409

R150 Certificate of patent or registration of utility model

Ref document number: 4495704

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130416

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140416

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350