JP2006066988A - 収音方法、収音装置、収音プログラム、およびこれを記録した記録媒体 - Google Patents

収音方法、収音装置、収音プログラム、およびこれを記録した記録媒体 Download PDF

Info

Publication number
JP2006066988A
JP2006066988A JP2004244037A JP2004244037A JP2006066988A JP 2006066988 A JP2006066988 A JP 2006066988A JP 2004244037 A JP2004244037 A JP 2004244037A JP 2004244037 A JP2004244037 A JP 2004244037A JP 2006066988 A JP2006066988 A JP 2006066988A
Authority
JP
Japan
Prior art keywords
sound
range
covariance matrix
output
range number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004244037A
Other languages
English (en)
Other versions
JP4116600B2 (ja
Inventor
Kazunori Kobayashi
和則 小林
Yoichi Haneda
陽一 羽田
Kenichi Furuya
賢一 古家
Akitoshi Kataoka
章俊 片岡
Suehiro Shimauchi
末廣 島内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004244037A priority Critical patent/JP4116600B2/ja
Publication of JP2006066988A publication Critical patent/JP2006066988A/ja
Application granted granted Critical
Publication of JP4116600B2 publication Critical patent/JP4116600B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic Arrangements (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】音像定位を明確に行うことができる収音方法及び装置を提供する。
【解決手段】
N個の空間的範囲と、各空間的範囲に付した範囲番号とを記憶する空間的範囲及び範囲番号設定部と、各空間的範囲に対応するミキシング係数を記憶するミキシング係数設定部とを備え、音源位置を検出する音源位置検出部と、音源位置が空間的範囲に含まれる場合その範囲番号を出力する範囲番号検出部と、受音信号から共分散行列を計算する共分散行列計算部と、共分散行列を範囲番号毎に記憶する共分散行列記憶部と、共分散行列記憶部に記憶された共分散行列とミキシング係数からMチャネルのフィルタ係数を求めるフィルタ係数計算部と、受話信号をフィルタ係数計算処理で求めたフィルタ係数でフィルタリングするフィルタ部と、フィルタ処理された出力信号を加算して出力信号を得る加算器とを備える。
【選択図】 図1

Description

本発明は、TV会議システムや音声会議システム、電話会議システム、遠隔講義システムなどに適用することができる収音方法及び装置に関する。
従来技術の収音方法について説明する。
図10は非特許文献1で開示された従来技術の収音方法の構成図である。従来技術の収音方法は指向性マイクロホン901と901で構成され、その指向性の主軸は120°程度の開き角で配置されている。
指向性マイクロホン901と901で話者音声を収音すると、話者の位置によって指向性マイクロホン901に収音される音声と指向性マイクロホン901に収音される音声のレベルに差が生じる。このLチャネルの出力信号とRチャネル出力信号を伝送などし、2つのスピーカ902と902から再生することにより、音像の定位感のある再生が可能となる。
例えば、図10の話者CはLチャネルマイクロホンの主軸方向にいるので、収音された話者Cの音声レベルはLチャネルのほうが大きく、再生した時にLチャネル側のスピーカ902に音像が定位する。またLチャネルとRチャネルのマイクロホンの中間にいる話者Aの音声は、両マイクロホン901と901にほぼ同じレベルで収音されるので、Lチャネルのスピーカ902とRチャネルのスピーカ902の中間に音像が定位する。
このように、従来技術では音像の定位感のあるステレオ収音を行うことができる。
しかし、従来技術の収音方法では、以下に示す問題がある。
(問題1)図10の話者Aと話者Bのようにマイクロホン901と901から見た開き角が小さい場合、話者Aと話者Bのマイクロホン間のレベル差はほぼ同じとなり、音像の定位感が得られなくなる。
(問題2)音声の距離減衰の影響により、マイクロホンから距離が離れている話者の音声レベルが小さく聞き取りづらい。もし、マイクの感度を上昇させ距離の離れている話者に対して適性なレベルとしたとしても、マイクロホンに近い話者の音声が過大なレベルとなる。
(問題3)雑音や、スピーカから再生される受話信号がマイクロホンに収音され、聞き取りづらい音声となる。
複数人でテーブルを囲むTV会議システムや音声会議システムに従来技術を適用した場合、上記の問題が生じ、高品質な音声で音像の定位のある通信を行うことが難しい。
中島平太郎ら著、応用電気音響、コロナ社出版、日本音響学会編、pp.262−268、昭和54年
従来技術の収音方法では、マイクロホンから見た開き角が小さい位置に話者がいる場合に音像の定位感が得られないという問題があった。この問題が、本発明で解決しようとする課題である。
本発明の目的は、マイクロホンから見た開き角が小さい位置に話者がいる場合でもチャネル間のレベル差を大きくすることで音像の定位感のある収音を実現し、マイクロホンから距離が離れている話者の音声を適正レベルにすることで聞き取りやすい音量での通話を実現し、雑音を抑圧した高品質な送話音声を得ようとするものである。
上記課題を解決するために、本発明は、あらかじめ1つ以上の空間的範囲(以下では単に範囲と称す)と、各範囲に対応したミキシング係数をあらかじめ設定する。次に、複数マイクロホンの受音信号から共分散行列の計算と話者位置を検出し、設定した範囲内の何れに含まれるか判定する。検出位置が範囲内に含まれる場合は、計算された共分散行列を、判定された範囲の共分散行列として保存する。次に、保存してある全ての共分散行列とミキシング係数から、以下に示す(条件1)を満たす指向特性を形成するマイクロホン数と同数のフィルタ係数を出力チャネルごとに求める。ただし、出力チャネル数は範囲数と同数である。
(条件1)マイクロホンから見た開き角が小さい位置に話者がいる場合でも出力チャネル間のレベル差を大きくすること。
次に、求められたフィルタ係数でマイクロホン受音信号をそれぞれフィルタリングし、出力チャネルごとで加算し、出力信号を求める。これにより、マイクロホンから見た開き角が小さい位置に話者がいる場合でもチャネル間で大きなレベル差のある範囲数と同数の出力信号が得られ、音像の定位感のある収音が実現される。
上記課題を解決するために、本発明は、あらかじめ1つ以上の範囲と、出力チャネルごとに各範囲に対応したミキシング係数と、出力チャネルごとに収音範囲と抑圧範囲番号をあらかじめ設定する。ただし、出力チャネル数は1以上であり、範囲数と異なっていてもよい。次に、複数マイクロホンの受音信号から共分散行列の計算と話者位置を検出し、設定した範囲内の何れかに含まれるかを判定する。検出位置が範囲内に含まれる場合は、計算された共分散行列を、判定された範囲の共分散行列として保存する。次に、保存してある全ての共分散行列とミキシング係数と収音範囲及び抑圧範囲番号から、上記(条件1)を満たす指向特性を形成するマイクロホン数と同数のフィルタ係数を出力チャネルごとに求める。次に、求められたフィルタ係数でマイクロホン受音信号をそれぞれフィルタリングし、出力チャネルごとで加算し、出力信号を求める。
これにより、マイクロホンから見た開き角が小さい位置に話者がいる場合でもチャネル間で大きなレベル差のある任意チャネル数の出力信号が得られ、音像の定位感のある収音が実現される。
上記課題を解決するために、本発明は、上記の2つの手段に加え、さらに、出力信号のレベルを各々調整する手段を有する。上記共分散行列と上記ミキシング係数から推定される出力レベルに基づいて、以下の(条件2)を満たすゲインを出力チャネルごとに計算する。(条件2)マイクロホンから距離が離れている話者の音声を適切レベル(聞き取りやすいレベル)にすること。上記ゲインを出力信号のレベルを調整する手段に各々設定し、出力信号のレベルを調整することで、音像の定位感のある収音に加えて、聞き取りやすい音量での収音が実現する。
上記課題を解決するために、本発明は、上記のフィルタ係数計算部において範囲ごとのレベル差がないようなフィルタ計算式を用いることで、音像の定位感のある収音に加えて、収音範囲間でレベル差をなくし、全ての収音範囲から到来する音声を適正レベルで収音することを実現する。
上記課題を解決するために、本発明は、上記のフィルタ係数計算部において、さらに下記の(条件3)を満たすフィルタ計算式を用いる。(条件3)雑音を抑圧すること。これにより、音像の定位感のある収音と、聞き取りやすい音量での収音に加えて、雑音を抑圧した収音を実現する。
以上まとめると、本発明は、複数の収音手段と1つ以上の出力を有し、上記の3つの条件(条件1)マイクロホンから見た開き角が小さい位置に話者がいる場合でも出力チャネル間のレベル差を大きくすること、(条件2)マイクロホンから距離が離れている話者の音声を適切レベル(聞き取りやすいレベル)にすること、(条件3)雑音を抑圧すること、を1つ以上満たすフィルタ係数を求め、そのフィルタ係数でマイクロホン受音信号をそれぞれフィルタリングして、出力チャネルごとで加算することにより、(条件1)(条件2)(条件3)を1つ以上実現する出力信号を得ることができる。
本発明によれば、出力チャネル間のレベル差を大きくすることで音像の定位感のある収音を実現できる。さらに、本発明の実施例によれば音声を適正レベルにすることで聞き取りやすい音量での通話を実現でき、加えて、雑音を抑圧した高品質な送話音声を得ることができる。
本発明による収音方法及び収音装置は、主にコンピュータに本発明による収音プログラムをインストールし、コンピュータに収音プログラムを解読させて実行させることにより収音方法及び収音装置を実現する実施形態が最良の実施形態となる。
コンピュータは少なくとも以下の処理ステップを実行する。
1つ以上N個の範囲と、各範囲のそれぞれに付した範囲番号とを設定し、記憶する空間的な範囲及び範囲番号設定部と、前記各空間的範囲に応答するミキシング係数を設定し、記憶するミキシング係数設定部とを備え、
2つ以上M個の受音手段の各々で受音された受音信号から音源位置または音源方向を検出する音源位置検出処理と、検出された音源位置または音源方向が、設定された空間的範囲の何れかに含まれるかを検出し、検出された場合は検出された音源位置が含まれる範囲番号を出力する範囲番号検出処理と、M個の受音手段の各々で受音された受音信号から共分散行列を計算する共分散行列計算処理と、範囲番号検出処理で範囲番号が出力された時に共分散行列を範囲番号毎に記憶する共分散行列記憶処理と、範囲毎に、M個の受話信号のうち、対応する範囲から到来した信号に予め設定したミキシング係数を乗じてから加算した信号が出力信号となり、その他の音が抑圧されるように、共分散行列記憶処理で記憶された共分散行列とミキシング係数からMチャンネルそれぞれのフィルタ係数を求めるフィルタ係数計算処理と、N個の範囲毎に、M個の受話信号をそれぞれフィルタ係数計算処理で求めたフィルタ係数でフィルタリングするフィルタ処理と、N個の範囲毎に、M個のフィルタ処理された出力信号を加算して出力信号を得る加算処理とを実行する。
これらの処理を実行することにより、「音像の定位感のある収音を実現できる」とする本発明の作用効果が得られる。
図1は、本発明の第1の実施例である収音装置のブロック図である。
本実施例の収音装置は、マイクロホン101〜101と、範囲nフィルタ102n,1〜102n,M(n=1,...,N)と、範囲n加算器103(n=1,...,N)と、共分散行列計算部104と、話者位置検出部105と、範囲設定部106と、範囲番号検出部107と、共分散行列記憶部108と、範囲nフィルタ係数計算部109(n=1,...,N)と、範囲nミキシング係数設定部110(n=1,...,N)と、範囲の設定ミキシング係数の設定等を入力する入力手段106Aにより構成される。ただし、nは範囲番号を表わす記号であり、Nは範囲数であり、Mはマイクロホン数を表わす。
本実施例は、話者位置または方向を検出し、予め設定したN個の範囲の中に検出した話者位置が含まれるか判定し、含まれる場合は、その範囲の共分散行列として保存しておく。これらを用いて各範囲出力信号間で大きなレベル差を持つように各範囲のフィルタ係数を求める。これらのフィルタ係数で、それぞれマイクロホン受音信号をフィルタリングし加算し、各範囲に対応する出力信号を得る。これにより、各話者からの音声信号が出力信号間で大きなレベル差を持ち、良好な音像の定位が実現する。
図2は本発明において実現したい指向性を示した図である。図2に示すマイクロホンと話者の配置では、マイクロホンから見た開き角が小さい位置に複数の話者が存在する。このような場合、従来技術のステレオマイクロホンでは、ほとんど音像の定位感を得ることはできない。そこで、本発明では音像の定位感を強調する指向性を形成する。例えば、話者位置3に対しては、左チャネルのレベルを大きくし、右チャネルと正面チャネルのレベルを小さくして、大きなレベル差が付くようにする。このようにすれば、再生した時に左チャネルから大きな音が聞こえ、良好な音像定位感が得られる。このような指向性を形成するために、本発明は、複数の範囲を例えば図2に示すように3つ設定し、範囲1から発せられる音は右チャネル、範囲2から発せられる音は正面チャネル、範囲3から発せられる音は左チャネルに、それぞれ分離して出力されるように動作する。
以下に、本実施例の処理の詳細を述べる。
まず、話者位置検出部105は、マイクロホン101〜101で受音したマイクロホン受音信号から、話者の位置または方向を検出する。話者位置の検出方法は、例えば相互相関法による方法がある。話者方向推定は、話者位置検出方法に求められた位置を方向に置き換えることにより実現するか、遅延和法による方向検出などを用いる。
以下、相互相関法による話者位置推定方法について具体的に説明する。
ある位置から発せられた音波をM個のマイクロホンで受音した場合に、i番目マイクロホンとj番目マイクロホンで受音された信号より求められる受音信号間遅延時間差をτijとする。受音信号間遅延時間差は、信号間の相互相関を求め、その最大ピーク位置から求めることができる。次に、m番目の受音位置を(x,y,z)、推定音源位置を(x^,y^,z^)と表わす。これらの位置から求められる推定受音信号間遅延時間差τ^ijは、式(1)で表される。
Figure 2006066988
ただし、cは音速である。また、文中の( )^と数式中の( )の真上にある^は同一である。
次に、受音信号間遅延時間差τij、τ^ijに音速cを乗じ距離に換算したものを、それぞれ受音位置間距離差dij、d^ijとし、測定値dijと推定値d^ijの二乗平均誤差e(q)を求めれば、式(2)となる。
Figure 2006066988
ただし、q=(X^,Y^,Z^)である。
式(2)の二乗平均誤差e(q)を最小化する解を求めれば、受音信号間遅延時間差の測定値と推定値の誤差が最小となる推定音源位置を求めることができる。ただし、式(2)は非線形連立方程式となっており、解析的に解くことは困難であるので、逐次修正を用いた数値解析により求める。
式(2)を最小化する推定音源位置(X^,Y^,Z^)を求めるには、ある点における勾配を求め、誤差が小さくなる方向に、推定音源位置を修正していき、勾配が0となる点を求めればよいので、修正式は式(3)のようになる。
Figure 2006066988
ただし、αは修正のステップサイズ、q(u)は、u回修正後のqを表し、gradは勾配を表し、式(4)〜式(8)で表される。
Figure 2006066988
式(3)を、推定音源位置の修正量grade(q)|q=q(u)の全要素があらかじめ設定した閾値未満となるまで繰返し計算し、得られたq(u)を推定音源位置とする。
以上で、相互相関法による話者位置検出方法について述べた。
次に、遅延和法による話者方向推定方法について具体的に説明する。
ある方向から到来する音波をM個のマイクロホンで収音した場合、音波の到来方向θに応じてマイクロホン間で遅延が生じる。ここで、音波の到来方向がθである場合にi番目マイクロホンとj番目マイクロホン間の遅延差をτij(θ)と定義し、各マイクロホンで受音した信号をD−τ1j(θ)だけ遅延させれば、θの方向から到来した音波はマイクロホン間で同位相となる。ただしDはあらかじめ与えた定数である。この遅延させた信号を加算(遅延和)すれば、θの方向から到来した音波の信号成分は同位相で加算されるので大きなパワーとなる。一方、θの方向とは異なる方向から到来した音波の信号成分は様々な位相で加算されるので、θの方向から到来した音波の信号成分ほど大きなパワーとならない。したがって、マイクロホン受音信号に与えた遅延D−τ1j(θ)と、音波の到来方向が一致した時のみ遅延和の出力パワーが大きくなる。
遅延和法では、上記を利用した方法であり、あらかじめ複数の方向を設定し、それぞれ対応した遅延D−τ1j(θ)を与えて、遅延和の出力パワーを方向ごとにそれぞれ求める。これらパワーのうち最大値を持つ方向を、推定話者方向とする。
以上で、遅延和法による話者方向検出方法について述べた。
次に、範囲番号検出部107は、検出した話者位置または方向が、範囲設定部106に予め設定してあるN個の範囲内の何れかに含まれるかを検出する。範囲は、例えば図2に示すようにマイクロホンの正面、左、右に設定しておく。ただし、設定範囲には、重なり(複数の範囲に重複して属する位置が存在)や、隙間(どの範囲にも属さない位置が存在)があってもよく、さらに1つの範囲が2つに分離していても良い。
次に、共分散行列計算部104では、マイクロホン受音信号間の共分散を求め、それを行列にする。まず、マイクロホン受音信号の周波数領域変換信号をX(ω)〜X(ω)とする。周波数領域変換信号に変換する手段に関しては後に図9を用いて説明する。これらの信号の共分散行列RXX(ω)は、式(9)により算出される。
Figure 2006066988
ただし、*は共役を表わす。
次に、共分散行列記憶部108では、範囲番号検出部107の検出結果に基づき、共分散行列RXX(ω)を、検出範囲番号に対する共分散行列RSnSn(ω)として保存する。保存は、現在記憶されている共分散行列と新しい共分散行列を置き換えるか、現在記憶されている共分散行列と新しい共分散行列を平均することで行われる。ただし、初期状態の共分散行列記憶部108には、適当な初期値(例えば単位行列)を設定しておく。尚、共分散行列の実用例については参考文献1を参照。
範囲nミキシング係数設定部110(n=1,...,N)は、予め各範囲に対応したミキシング係数を設定する。ミキシング係数の設定方法については、下記の範囲nフィルタ係数算出部についての記述において説明する。
範囲nフィルタ係数計算部109(n=1,...,N)は、記憶された全ての共分散行列とミキシング係数から、各範囲から発せられた音を大きなレベル差で収音するためのフィルタ係数を計算する。すなわち、範囲nフィルタ係数は、範囲nで発せられた音を収音し、それ以外の範囲で発せられた音を抑圧するようなフィルタ係数計算式(13)に基づいて算出される。
以下、フィルタ係数計算式について説明する。
まず、各マイクロホンに接続された範囲nフィルタ102n,1〜102n,M(n=1,...,N)のフィルタ係数を周波数領域に変換したものを、Hn,1(ω)〜Hn,M(ω)(n=1,...,N)とする。次に、これらのフィルタ係数を式(10)により行列としたものをH(ω)(n=1,...,N)とする。また、i番目範囲内の音源が発音している期間のマイクロホン受音信号の周波数領域変換信号をXSi,1(ω)〜XSi,M(ω)とする。
Figure 2006066988
ここで、フィルタ係数行列Hn(ω)に要求される理想条件は、マイクロホン受音信号XSi,1(ω)〜XSi,M(ω)をフィルタ係数行列Hn(ω)でそれぞれフィルタリングし、フィルタリング後の信号を範囲n加算器103で加算し、範囲n出力信号を求めた時に、範囲nから到来した音のみが出力されており、それ以外の範囲から到来した音の成分は出力信号で0となっていることである。このような出力信号が全ての範囲n出力(n=1,...,N)で得られれば、出力信号間のレベル差は最大となり、これらの信号を再生した時に明確な音像定位が得られる。また、理想的な範囲n出力信号は、Mチャネルのマイクロホン受音信号を、所定のミキシング係数でミキシングした信号とする。このミキシング係数をM行1列のベクトルとしたものをミキシングベクトルG(ω)と表わす。
ミキシング係数は、予め範囲iミキシング係数設定部110iに設定された値であり、マイクロホン配置や範囲配置に応じて設定される。例えば図2に示す配置の場合、範囲1に対するミキシング係数は、G(ω)=(0.2,0.6,0.2,0.0,0.0)のように設定される。範囲1で発せられる音が大きく収音されるマイクロホンの係数を大きくした方が指向性形成に有利であるので、範囲1にマイクロホンの指向性の正面が向いている2番目マイクロホンの係数を大きな値に設定している。
次に、上述の理想条件(n番目範囲内の音源から発せられた音を範囲n出力のみから出力し、他の範囲から発せられた音は範囲n出力には出力しないという条件)を式で表せば、n番目範囲から発せられた音に対しては式(11)、それ以外の範囲(i≠nとなるi番目範囲)から発せられた音に対しては式(12)となる。
Figure 2006066988
i=1,...,Nの全てにおいて、式(11)、式(12)を満たすフィルタ係数H(ω)を求めれば、理想的な出力信号を得ることができる。しかし、式(11)、式(12)を完全に満たすフィルタ係数を求めることは、フィルタ長の制約やセンサ雑音の影響により困難であるので、本発明では最小自乗誤差となるようにフィルタ係数を求める。式(11)、式(12)を最小自乗誤差となるように解けば、式(13)となる。
Figure 2006066988
ただし、CSnとDSiは誤差の配分を決める定数であり、CSnが大きい程範囲n出力信号の音の劣化が少なくなり、DSiが大きい程範囲n出力信号における範囲i(i≠n)から発せられる音の抑圧量が増加する。これらの定数はトレードオフの関係にあり、その値は音質劣化と音像定位の両者バランスが取れるように実験的に予め設定される。
以上、フィルタ係数の算出式について説明した。
範囲nフィルタ係数H(ω)(n=1,...,N)は、式(13)を用いて全ての範囲(n=1,...,N)に対して求められ、範囲nフィルタ部102n,1〜102N,Mにそれぞれ設定される。
次に、範囲nフィルタ部102n,1〜102N,Mは、設定されたフィルタ係数H(ω)(n=1,...,N)でマイクロホン受音信号をそれぞれフィルタリングする。このフィルタリングは全ての範囲(n=1,...,N)について行われる。
範囲n加算器103は、範囲nフィルタ部102n,1〜102N,Mの出力信号を、範囲ごとに加算する。加算は全ての範囲(n=1,...,N)について行われる。
範囲n加算器103で加算された信号は、本実施例の出力信号(範囲n出力信号)となる。
以上示したように、本発明は、複数マイクロホンの受音信号から、話者位置を検出し、話者がどの範囲にいるか検出し、範囲ごとに共分散行列を保存する。次に、保存した共分散行列から各範囲に対応するフィルタ係数を求め、それらのフィルタ係数でマイクロホン受音信号を範囲ごとにフィルタリングする。これらの処理により、各範囲から発せられた音を分離した範囲数と同数の出力信号を得ることができ、良好な音像定位を実現することができる。
図3は、本発明の第2の実施例を示す収音装置のブロック図である。図3に示す実施例では図1に示した共分散行列計算部104と、話者位置検出部105と、範囲設定部106と、範囲番号検出部107と、共分散行列記憶部108を総称して音声データ記憶部100として示している。
本実施例の収音装置は、マイクロホン101〜101と、出力チャネルkフィルタ204k,1〜204k、M(k=1,...,K)と、出力チャネルk加算器205k(k=1,...,K)と、音声データ記憶部100と、kフィルタ係数計算部202k(k=1,...K)と、出力チャネルkミキシング係数設定部203k(k=1,...,K)と、出力チャネルk毎に設けた収音範囲番号・抑圧範囲番号設定部201k(k=1,...,K)により構成される。ただし、kは出力チャネル番号を表わす記号であり、Kは出力チャネル数である。
本発明の第2の実施例は、範囲数と出力信号数が異なる場合にも適用可能な方法であり、本発明の第1の実施例の出力をミキシングして任意のチャネル数を出力した場合と同等な出力信号を得ることができる。
本発明の第1の実施例では、範囲数と出力信号数が同数であり、各出力には対応する範囲から発せられた音が出力される。出力信号数を範囲数と異なる数とする場合には、例えば、図4に示すように、範囲を3つ設定し、本発明の第1の実施例を用いて3つの出力(右、正面、左)を得てから、それら出力を増幅器904、905及び加算器902、903を用いてミキシングして、2チャネルのステレオ信号を得ることを行う。この場合、少なくとも3チャネル分のフィルタリング処理、フィルタ算出処理が必要となる。
これに対し、本発明の第2の実施例は、上記の例において、2チャネル分のフィルタリング処理、フィルタ算出処理で同等の出力を得ることができ、演算量、メモリ量を削減することを目的とする。
第2の実施例では、N個の空間的範囲に対して、ミキシング係数設定部及びフィルタ係数計算部は出力チャネル数Kに対応させて設ける点と、各フィルタ係数計算部に収音範囲番号設定部及び抑圧範囲番号設定部を付加する構成が実施例1と異なる点である。
つまり、N個の空間的範囲と、各空間的範囲のそれぞれに付した範囲番号とを設定し、記憶する空間的範囲及び範囲番号設定部と、出力チャネル数Kに対応したミキシング係数を設定し記憶したK個のミキシング係数設定部と、K個の収音範囲番号及び抑圧範囲番号を設定し記憶した収音範囲及び抑圧範囲番号設定部とを備え、音源位置検出処理と、検出された音源位置に対応した範囲番号を特定する範囲番号検出処理と、受音信号から共分散行列を計算する共分散行列計算処理と、計算した共分散行列を範囲番号毎に記憶する共分散行列記憶処理と、M個の受音手段の各々で受音された信号のうち、設定された収音範囲番号に対応する空間的範囲から到来した音をミキシング係数を乗じてからミキシングした信号のみが出力信号となり、設定された抑圧範囲番号に対応する空間的範囲から到来する音を抑圧する条件で記憶された共分散行列とミキシング係数と収音範囲番号及び抑圧範囲番号とからMチャネルのフィルタ係数を各々出力チャネル毎に算出するフィルタ係数計算処理と、M個の受音手段で各々受音された受音信号をKチャネルのフィルタ係数で各々フィルタリングするフィルタ処理と、Kチャネルのフィルタ係数でフィルタリングされたMチャネルのフィルタリング出力をそれぞれ加算し、Kチャネルの出力信号を得る加算処理とを実行する。
以下に、本実施例の処理の詳細を述べる。
共分散行列計算部104と、話者位置検出部105と、範囲設定部106と、範囲番号検出部107と、共分散行列記憶部108に関しては、本発明の第一の実施例と同様であるのでここでは音声データ記憶部100として総称して表示する。
出力チャネルk収音範囲番号・抑圧範囲番号設定部201(k=1,...,K)は、上記範囲設定部106で設定された範囲のうち、出力チャネルkにおいて収音したい範囲と抑圧したい範囲の番号を予め設定する。例えば、図4に示す構成と同等の出力信号を得たい場合には、右出力に対して、収音範囲に範囲1と範囲2を設定し、抑圧範囲に範囲3を設定する。ただし、収音範囲と抑圧範囲には、同じ範囲を同時に設定できない。また、収音範囲と抑圧範囲のどちらにも含まれない範囲が存在しても良い。
出力チャネルkミキシング係数設定部203(k=1,...,K)は、本発明の実施例1と同様にミキシング係数を予め設定する。ただし、本実施例では、出力チャネルごとに収音範囲に対するミキシング係数が必要であるので、出力チャネルkで範囲nに対するミキシングベクトルをGk,n(ω)(k=1,...,K),(n=1,...,N)として設定する。
出力チャネルkフィルタ係数算出部202(k=1,...,K)は、音声データ記憶部100に記憶されている全ての共分散行列と、上記収音したい範囲と抑圧したい範囲の番号と、ミキシングベクトルをGk,n(ω)から、各範囲から発せられた音のうち、収音したい範囲の音を収音し、抑圧したい範囲の音を抑圧するためのフィルタ係数を式(16)により計算する。
以下、フィルタの計算式について説明する。
本発明の第1の実施例と同様に、各マイクロホンに接続された出力チャネルkフィルタ204k,1〜204k,M(k=1,...,K)のフィルタ係数を周波数領域に変換したものを、Hk,1(ω)〜Hk,M(ω)(k=1,...,K)とする。
次に、これらのフィルタ係数を式(10)により行列としたものをH(ω)(k=1,...,K)とする。また、i番目範囲内の音源が発音している期間のマイクロホン受音信号の周波数領域変換信号をXSi,1(ω)〜XSi,M(ω)とする。
ここで、出力チャネルkのフィルタ係数行列H(ω)に要求される理想条件は、出力チャネルk収音範囲番号・抑圧範囲番号設定部201(k=1,...,K)で設定されている収音範囲内から発せられた音は出力チャネルKに出力され、抑圧範囲内から発せられた音は出力チャネルKに出力されないことである。ここで、出力チャネルK収音範囲番号・抑圧範囲番号設定部201(k=1,...,K)に設定されている収音範囲番号をAk(p)(p=1,...,Pk)とし、抑圧範囲番号Bk(q)(q=1,...,Qk)とする。Pkは収音範囲数、Qkは抑圧範囲数である。また、出力チャネルkの範囲nに対するミキシングベクトルGk,n(ω)(k=1,...,K),(n=1,...,N)は、出力チャネルkミキシング係数設定部203k(k=1,...,K)に予め設定されている。
次に、上述の出力チャネルkに対する理想条件(収音範囲内Ak(p)(p=1,...,Pk)から発せられた音を出力チャネルkに出力し、抑圧範囲内Bk(q)(q=1,...,Qk)から発せられた音は出力チャネルkに出力しないという条件)を式で表せば、収音範囲に対しては式(14)、抑圧範囲に対しては式(15)となる。
Figure 2006066988
次に、本発明の実施例1と同様にして、式(14)、式(15)を最小自乗誤差でフィルタ係数H(ω)(k=1,...,K)を求めれば、式(16)となる。
Figure 2006066988
ただし、Ck,SAk(p)とDk,SBk(q)は誤差の配分を決める定数であり、Ck,SAk(p)が大きいほど出力チャネルkにおける収音範囲Ak(p)から発せられた音の劣化が少なくなり、Dk,SBk(q)が大きいほど出力チャネルkにおける収音範囲Ak(p)から発せられた音の抑圧量が増加する。これらの定数はトレードオフの関係にあり、その値は音質劣化と音像定位の両者バランスの取れる値に実験的にあらかじめ設定される。
以上、フィルタ係数の算出式について説明した。
出力チャネルkフィルタ係数H(ω)(k=1,...,K)は、式(16)を用いて全てのチャネル(k=1,...,K)に対して求められ、出力チャネルkフィルタ部204k,1〜204K,Mにそれぞれ設定される。
次に、出力チャネルkフィルタ部204k,1〜204K,Mは、設定されたフィルタ係数H(ω)(k=1,...,K)で、マイクロホン受音信号をそれぞれフィルタリングする。このフィルタリングは全ての出力チャネル(k=1,...,K)について行われる。
出力チャネルk加算器205は、出力チャネルkフィルタ部204k,1〜204K,Mの出力信号を、出力チャネルごとに加算する。加算は全ての出力チャネル(k=1,...,K)について行われる。
出力チャネルk加算器205で加算された信号は、本実施例の出力信号(チャネルk出力信号)となる。
以上のような処理を行うことにより、本発明の実施例1の範囲数と同数の出力信号をミキシングして、異なるチャネル数Kに変換したのと同等の出力信号が得られる。ただし、本実施例では、出力チャネル数Kの分だけフィルタリング処理を行えばよいので、本発明の実施例1と出力チャネルのミキシングを行った場合よりも演算量とメモリ量を少なくすることができる。
図5は、本発明の第3の実施例である収音装置のブロック図である。この図5においても、図1に示した共分散行列計算部104と、話者位置検出部105と、範囲設定部106と、範囲番号検出部107と、共分散行列記憶部108を総称して音声データ記憶部100として表示している。
本実施例の収音装置は、図1を用いて説明した本発明の第1の実施例に、範囲n音声レベル推定部301(n=1,...,N)と、範囲nゲイン計算部302(n=1,...,N)と、範囲n増幅器303(n=1,...,N)を追加した構成である。
本実施例は、本発明の第1の実施例の効果に加え、各出力信号を、それぞれ適正レベルとする効果を有する。これにより、出力信号を再生した時に聞き取りやすい音量とすることができる。
マイクロホン101〜101と、範囲nフィルタ102n,1〜102n,M(n=1,...,N)と、範囲n加算器103(n=1,...,N)と、音声データ記憶部100と、範囲nフィルタ係数計算部109(n=1,...,N)と、範囲nミキシング係数設定部110(n=1,...,N)は、本発明の実施例1と同様であるので説明を省略する。
範囲n音声レベル推定部301(n=1,...,N)は、共分散行列記憶部108に記憶されている共分散行列RSnSn(ω)と、ミキシング係数設定部110(n=1,...,N)に設定されているミキシングベクトルG(ω)から、式(17)を用いて範囲nから発音されている音のレベルLを推定する。
Figure 2006066988
ただし、( )は行列の共役転置を表し、Wは話者音声パワーを求める帯域の最大周波数を表わす。
次に、範囲nゲイン計算部302(n=1,...,N)は、範囲n音声レベルLを適正レベルLopt(聞き取りやすいレベルで、あらかじめ設定される)にするための範囲nに対するゲインαを算出する。ゲインαは、式(18)により求めることができる。
αn=Lopt/L (18)
算出された範囲nに対するゲインαは、範囲n増幅器303(n=1,...,N)に設定される。
次に、範囲n増幅器303(n=1,...,N)は、範囲n加算器103(n=1,...,N)の出力信号にそれぞれゲインαを乗じる。これにより、ゲインを乗じられた範囲n出力信号は、それぞれ適正レベル(聞き取りやすい音量)となる。
以上示したように、本実施例では、本発明の第1の実施例の効果(各範囲から発せられた音を分離した範囲数と同数の出力信号を得ることができ、良好な音像定位を実現)に加え、各出力信号が適正レベルとなり、再生時に聞き取りやすい音量とすることを実現する。
図6は、本発明の第4の実施例である収音装置のブロック図である。この図6に示す音声データ記憶部100の内部構成は図3、図5の場合と同じである。
本実施例の収音装置は、図3を用いて説明した本発明の第2の実施例に、出力チャネルK音声レベル推定部401(k=1,...,K)と、出力チャネルKゲイン計算部402(k=1,...,K)と、出力チャネルkゲイン403(k=1,...,K)を追加した構成である。
本実施例は、本発明の第2の実施例の効果に加え、各出力信号を、それぞれ適正レベルとする効果を有する。これにより、出力信号を再生したときに聞き取りやすい音量とすることができる。
マイクロホン101〜101と、出力チャネルkフィルタ204k,1〜204k,M(k=1,...,K)と、出力チャネルk加算器205(k=1,...,K)と、音声データ記憶部100と、出力チャネルkフィルタ係数計算部202(k=1,...,K)と、出力チャネルKミキシング係数設定部203(k=1,...,K)と、出力チャネルK収音範囲番号・抑圧範囲番号設定部201(k=1,...,K)は図3を用いて説明した本発明の第2の実施例と同様であるので説明を省略する。
出力チャネルk音声レベル推定部401(k=1,...,K)は、音声データ記憶部100に記憶されている共分散行列RSnSn(ω)と、出力チャネルKミキシング係数設定部203(k=1,...,K)に設定されているミキシングベクトルGk,n(ω)と、出力チャネルk収音範囲番号・抑圧範囲番号設定部201(k=1,...,K)に設定されている収音範囲番号をAk(p)(p=1,...,Pk)から、式(19)を用いて出力チャネルkの音声レベルLを推定する。
Figure 2006066988
次に、出力チャネルkゲイン計算部402(k=1,...,K)は、出力チャネルk音声レベルLを適正レベルLopt(聞き取りやすいレベルで、あらかじめ設定される)にするための出力チャネルkに対するゲインαを算出する。ゲインαは式(20)により求めることができる。
α=Lopt/L (20)
算出された出力チャネルkに対するゲインαは、出力チャネルk増幅器403(k=1,...,K)に設定される。
出力チャネルk増幅器403(k=1,...,K)は、出力チャネルk加算器205(k=1,...,K)の出力信号にそれぞれゲインαを乗じる。これによりゲインを乗じられたチャネルkの出力信号は、それぞれ適正レベル(聞き取りやすい音量)となる。
以上示したように、本実施例では、本発明の第2の実施例の効果に加え、各チャネルの出力信号が適正レベルとなり、再生時に聞き取りやすい音量とすることを実現する。
図7は、、本発明の第5の実施例である収音装置のブロック図である。
本実施例の収音装置は、図6を用いて説明した本発明の第4の実施例に、出力チャネルk範囲別ゲイン計算部501(k=1,...,K)を追加した構成である。
本発明の第4の実施例では、出力チャネルごとに、ゲインαを乗じることで、各出力チャネルを適正レベルとなるようにしている。この場合、出力チャネルごとに1つのゲインαでレベルの調整を行っているので、その出力チャネルの収音範囲でレベル差があると、その調整ができない。例えば、範囲1と範囲2を収音範囲とする出力チャネルにおいて、範囲1から到来する音声が適正レベルよりも12dB大きく、範囲2から到来する音声が適正レベルであった場合、本発明の第4の実施例ではゲインαが−6dBとなり、範囲1から到来する音声は適正レベルよりも6dB大きく、範囲2から到来する音声は適正レベルよりも6dB小さくなる。
これを解決するため、本実施例では範囲別のゲイン計算を行い、フィルタ係数計算部202〜202において、範囲別のレベル差がないようなフィルタを生成する。
マイクロホン101〜101と、出力チャネルkフィルタ204k,1〜204k、M(k=1,...,K)と、出力チャネルk加算器205(k=1,...,K)と、音声データ記憶部100と、出力チャネルkミキシング係数設定部203(k=1,...,K)と、出力チャネルk収音範囲番号・抑圧範囲番号設定部201(k=1,...,K)と、出力チャネルkゲイン計算部402(k=1,...,K)と、出力チャネルk増幅器403(k=1,...,K)は、本発明の第4の実施例と同様であるので説明を省略する。
出力チャネルk音声レベル推定部401(k=1,...,K)は、音声データ記憶部100に記憶されている共分散行列RSnSn(ω)と、出力チャネルkミキシング係数設定部203(k=1,...,K)に設定されているミキシングベクトルGk,n(ω)と、出力チャネルk収音範囲番号・抑圧範囲番号設定部201(k=1,...,K)に設定されている収音範囲番号をAk(p)(p=1,...,Pk)から、本発明の第4の実施例と同様に式(19)を用いて出力チャネルkの音声レベルLを推定する。本実施例では、加えて収音範囲毎の音声レベルLk,Ak(p)も推定する。この計算式は式(21)で表される。
Figure 2006066988
次に、出力チャネルk範囲別ゲイン計算部501(k=1,...,K)は、各収音範囲のレベルがすべて同じになるように、収音範囲毎のゲインβk,Ak(p)を計算する。その計算式は式(22)で表される。
βk,Ak(P)=L/Lk,Ak(P) (22)
次に、出力チャネルkフィルタ係数計算部202(k=1,...,K)は、式(14)と式(15)の条件に加え、各収音範囲に対してゲインβk,Ak(p)を与えるような条件でフィルタ係数を計算する。
以下、フィルタ係数計算式について説明する。
式(14)と式(15)にゲインβk,Ak(p)を与える条件を付加した式は、式(23)と式(24)となる。
Figure 2006066988
次に、本発明の実施例2と同様にして、式(23)、式(24)を最小自乗誤差でフィルタ係数H(ω)(k=1,...,K)を求めれば、式(25)となる。
Figure 2006066988
ただし、Ck,SAk(p)とDk,SBk(q)は誤差の配分を決める定数であり、本発明の第2の実施例と同様である。
フィルタ係数は式(25)により求められ、出力チャネルkフィルタ部204k,1〜204K,Mにそれぞれ設定される。
求められたフィルタ係数には、各収音範囲のレベルがすべて同じになるような収音範囲毎ゲインβk,Ak(p)が含まれているので、出力チャネルk加算器205(k=1,...,K)の出力信号は、各収音範囲から到来する音声が全て同じレベルとなった信号となる。これらの出力信号は、本発明の第4の実施例と同様に、ゲインαを乗じられ、それぞれ適正レベル(聞き取りやすい音量)となって出力される。
これら以外の部分に付いては、本発明の第4の実施例と同様であるので説明を省略する。
以上示したように、本実施例では、収音範囲毎ゲインβk,Ak(p)の計算を行い、フィルタ係数計算部202〜202において、範囲毎のレベル差がないようなフィルタを生成することにより、本発明の第4の実施例の効果に加え、収音範囲間でレベル差をなくし、全ての収音範囲から到来する音声を適正レベルで出力することが可能となる。
図8は、本発明の第6の実施例である収音装置のブロック図の一部である。
本実施例は、上述した本発明の第1〜5の実施例のうち、いずれか1つの実施例に、雑音区間検出部601を追加した構成である。
本実施例は、本発明の第1〜5の実施例の効果に加え、雑音抑圧を行うものである。
雑音区間検出部601は、マイクロホン101〜101で受音した信号から、雑音区間を検出する。例えば、それぞれのマイクロホン受音信号を加算した信号に対し、短時間平均パワー(0.1〜1s程度)と、長時間平均パワー(1s〜100s程度)を求め、短時間平均パワーと長時間平均パワーの比が雑音区間の閾値未満の場合に雑音区間と判定する。
雑音区間検出部601で雑音区間が検出された場合は、共分散行列計算部104で計算された共分散行列を雑音の共分散行列RNN(ω)として記憶する。
ここで、雑音を抑圧する条件は、マイクロホン受音信号の雑音成分XN,1(ω)〜XN,M(ω)が、出力信号において0となる式であるので、式(26)で表される。
(XN,1(ω)……XN,M(ω))H(ω)=0 (26)
本発明の第1〜5の実施例のフィルタ係数計算のために条件に式(26)の条件を加え、各実施例と同様にして、最小自乗誤差でフィルタ係数H(ω)(k=1,...,K)を求めると、本発明の実施例1と3実施例に対しては式(27)、本発明の実施例2と4に対しては式(28)、本発明の実施例5に対しては式(29)となる。
Figure 2006066988
ただし、DとDk,Nは、Ck,SAk(p)とDk,SBk(q)などと同様に誤差の配分を決める定数であり、DとDk,Nが大きいほど雑音抑圧量が増加する。また、これらD、Dk,N、Ck,SAk(p)、Dk,SBk(q)などの定数はトレードオフの関係にあり、音質劣化と音像定位と雑音抑圧のバランスの取れる値に設定される。
以上示したフィルタ係数計算式によりフィルタ係数を算出することにより、本発明の第1〜5の実施例の効果に加え雑音抑圧を行うことが可能となる。
本実施例の収音装置は、本発明の第1〜6の実施例の範囲nフィルタ係数計算部109n(n=1,...,N)または出力チャネルkフィルタ係数計算部202k(k=1,...,N)のいずれかに、白色化部を含む構成である。白色化部は、各共分散行列をフィルタ係数計算の前段階で白色化する。これにより、マイクロホンで受音された信号の周波数特性に関与しないフィルタ係数が求められ、安定した動作が可能となる。
白色化は、共分散行列RXX(ω)の対角成分のうち最もパワーの大きい要素で割り算をするか、共分散行列の対角成分の平均パワーで割り算をすることで行なう。
ここで、共分散行列RXX(ω)のα行β列の要素をRXXαβ(ω)とし、白色化後の共分散行列をRW,XX(ω)とする。次に白色化後の共分散行列RW,XX(ω)を式で表せば、共分散行列RXX(ω)の対角成分のうち最もパワーの大きい要素RXX,rr(ω)で割り算をした場合は式(30)となり、共分散行列の対角成分の平均パワーで割り算をした場合は式(31)となる。
Figure 2006066988
ただし、βは、あらかじめ設定される白色化の度合いを調整する係数であり、1となれば完全に白色化となり、0となれば白色化は行われなくなる。
次に、式(30)または式(31)により求められた白色化後の共分散行列を用い、フィルタ係数の計算式によりフィルタ係数を計算する。
この共分散行列の白色化により、音源の周波数特性に依存しないフィルタを求めることができる。これにより、音源の周波数特性が変化しても、フィルタ係数の変化がなく、本発明の処理による音色の変化を防ぐことができる。
これら以外の部分に関しては、本発明の第1〜6の実施例のいずれかの収音装置と同じであるので、説明を省略する。
以上説明した実施例1〜6では共分散行列計算部104、話者位置検出部105、フィルタ部等の各部で周波数領域変換信号X(ω)〜X(ω)を用いるものとして説明したが、各実施例ではマイクロホンで受音した受音信号を周波数領域変換信号に変換する手段について省略して説明したが、現実には図9に示すように、マイクロホン101〜101の各受音信号はFFT(高速フーリエ変換手段)150〜150で周波数領域変換信号に変換し、この周波数領域変換信号を各部供給する構成とされる。更に、各加算器103〜103の出力側には逆FFT160〜160が設けられ、時間領域信号に変換して出力される。
本発明による収音方法及び収音装置は主にコンピュータで実現することができる。コンピュータに本発明で提案する収音プログラムをインストールし、コンピュータに収音プログラムを実行させることにより本発明の収音方法及び収音装置が実現される。本発明による収音プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータが読み取り可能な例えば磁気ディスク、CD−ROMのような記録媒体に記録され、これらの記録媒体からコンピュータにインストールするか、或は通信回線を通じてインストールされる。インストールされた収音プログラムはコンピュータに備えられたCPUに解読されて実行される。
本発明による収音方法及び装置はTV会議システムや、音声会議システム、電話会議システム、遠隔講義システム等に活用される。
(参考文献1)
日本音響学会誌50巻7号(1994).pp540−548.音源方向推定法の室内残響下での性能評価、田中、金田、小島
本発明の第1の実施例である収音装置を示すブロック図。 図1に示した実施例の動作を説明するための図。 本発明の第2の実施例である収音装置を示すブロック図。 図3に示した実施例の動作を説明するための図。 本発明の第3の実施例である収音装置を示すブロック図。 本発明の第4の実施例である収音装置を示すブロック図。 本発明の第5の実施例である収音装置を示すブロック図。 本発明の第6の実施例である収音装置を示すブロック図。 本発明の各実施例1〜6で用いられるFFTと逆FFTの存在を説明するためのブロック図。 従来の収音方法を説明するための図。
符号の説明
101〜101 マイクロホン 100 音声データ記憶部
102n,1〜102n,M 範囲nフィルタ部 104 共分散行列計算部
103n 範囲n加算器 105 話者位置検出部
106 範囲設定部 402 出力チャネルkゲイン計算部
107 範囲番号検出部 403 出力チャネルk増幅器
108 共分散行列記憶部 501 出力チャネルk範囲別ゲイン計算部
109 範囲nフィルタ係数計算部 601 雑音区間検出部
110 範囲nミキシング係数設定部 701 左チャネルマイクロホン
201 出力チャネルk収音範囲番号・抑圧範囲番号設定部
202 出力チャネルkフィルタ係数計算部 701 右チャネルマイクロホン
203 出力チャネルkミキシング係数設定部 801 左チャネル指向性
204k,1〜204k,M 出力チャネルkフィルタ部 801 右チャネル指向性
205 出力チャネルk加算器 801 正面チャネル指向性
301 範囲n音声レベル推定部 802 本発明の処理部
302 範囲nゲイン計算部 901 本発明の第1の実施例の処理部
303 範囲n増幅器 902、903 加算器
401 出力チャネルk音声レベル推定部 904、905 増幅器

Claims (18)

  1. 1つ以上N個の空間的範囲と、各空間的範囲のそれぞれに付した範囲番号とを設定し、記憶する空間的な範囲及び範囲番号設定部と、前記各空間的範囲に対答するミキシング係数を設定し、記憶するミキシング係数設定部とを備え、
    2つ以上M個の受音手段の各々で受音された受音信号から音源位置または音源方向を検出する音源位置検出処理と、
    前記検出された音源位置または音源方向が、前記設定された空間的範囲の何れに含まれるかを検出し、検出された場合は前記検出された音源位置が含まれる前記範囲番号を出力する範囲番号検出処理と、
    前記M個の受音手段の各々で受音された受音信号から共分散行列を計算する共分散行列計算処理と、
    前記範囲番号検出処理で範囲番号が出力された時に前記共分散行列を範囲番号毎に記憶する共分散行列記憶処理と、
    前記空間的範囲毎に、前記M個の受話信号のうち、対応する範囲から到来した信号に前記予め設定したミキシング係数を乗じてから加算した信号が出力信号となり、その他の音が抑圧されるように、前記共分散行列記憶処理で記憶された共分散行列と前記ミキシング係数からMチャンネルそれぞれのフィルタ係数を求めるフィルタ係数計算処理と、
    N個の範囲毎に、M個の受話信号をそれぞれ前記フィルタ係数計算処理で求めたフィルタ係数でフィルタリングするフィルタ処理と、
    N個の範囲毎に、前記M個のフィルタ処理された出力信号を加算して出力信号を得る加算処理と、
    を含むことを特徴とする収音方法。
  2. 1つ以上N個の空間的範囲と、各空間的範囲のそれぞれに付した範囲番号とを設定し記憶する空間的範囲及び範囲番号設定部と、
    出力チャネル数Kに対応したミキシング係数を設定し、記憶したK個のミキシング係数設定部と、K個の収音範囲番号及びK個の抑圧範囲番号を設定し記憶する収音範囲番号及び抑圧範囲番号設定部とを備え、
    2つ以上M個の受音手段の各々で受音された受音信号から音源位置又は音源方向を検出する音源位置検出処理と、
    検出された音源位置または音源方向が、前記設定された空間的範囲の何れかに含まれるかを検出し、検出された場合は前記検出された音源位置が含まれる前記空間的範囲番号を出力する範囲番号検出処理と、
    M個の受音手段の各々で受音された受音信号から共分散行列を計算する共分散行列計算処理と、
    前記範囲番号検出処理で範囲番号が出力された時に前記共分散行列を前記範囲番号毎に記憶する共分散行列記憶処理と、
    M個の受音手段の各々で受音された信号のうち、前記設定された収音範囲番号に対応する範囲から到来した音を上記ミキシング係数を乗じてからミキシングした信号のみが出力信号となり、前記設定された抑圧範囲番号に対応する範囲から到来する音を抑圧する条件で前記記憶された共分散行列と前記ミキシング係数と前記収音範囲番号及び抑圧範囲番号とから、Kチャネルのフィルタ係数を各々算出するフィルタ係数計算処理と、
    M個の受音手段の各々で受音されたMチャネルの受音信号を前記Kチャネルのフィルタ係数で各々フィルタリングするフィルタ処理と、
    前記フィルタ処理されたMチャネルの出力信号をそれぞれ加算し、Kチャネルの出力信号を得る加算処理と、
    を含むことを特徴とする収音方法。
  3. 前記共分散行列記憶部に記憶された共分散行列と前記ミキシング係数設定部に設定されたミキシング係数に基づき、各空間的範囲の音声レベルを推定する音声レベル推定処理と、
    前記各空間的範囲の音声レベルと、予め設定した適正レベルに基づき、出力信号を適正レベルとするN個のゲインを算出するゲイン算出処理と、
    前記N個のゲインを前記Nチャネルの出力信号に各々乗じ、Nチャネルの出力信号とする出力処理と、
    とを含むことを特徴とする請求項1に記載の収音方法。
  4. 前記共分散行列記憶部に記憶された共分散行列と、前記ミキシング係数設定部に設定されたミキシング係数と、前記収音範囲番号及び、抑圧範囲番号設定部に設定された収音範囲番号及び抑圧範囲番号に基づき、各出力チャネルの音声レベルを推定する音声レベル推定処理と、
    前記出力チャネルの音声レベルと、予め設定した適正レベルに基づき、出力信号を適正レベルとするゲインを算出するゲイン算出処理と、
    前記ゲインを前記Kチャネルの出力信号に各々乗じ、Kチャネルの出力信号とする出力処理と、
    を含む特徴とする請求項2記載の収音方法。
  5. 前記共分散行列記憶部に記憶された共分散行列と、前記ミキシング係数設定部に設定されたミキシング係数と、前記収音範囲番号及び抑圧範囲番号設定部に設定された収音範囲番号及び抑圧範囲番号に基づき、各出力チャネルの音声レベルと収音範囲ごとの音声レベルを推定する音声レベル推定処理と、
    前記出力チャネルの音声レベルと、前記収音範囲ごとの音声レベルに基づき、各収音範囲から到来する音が同レベルとなるような収音範囲毎のゲインを算出する範囲別ゲイン算出処理とを含み、前記フィルタ係数算出処理は、M個の受音手段の各々で受音された信号のうち、前記対応する収音範囲番号及び抑圧範囲番号設定部に設定された収音範囲から到来する音を収音し、抑圧範囲から到来する音を抑圧し、収音範囲から到来する音が同レベルとなる条件で、前記記憶された共分散行列と前記ミキシング係数と前記収音範囲及び前記抑圧範囲と、前記収音範囲毎のゲインから、Mチャネルフィルタ係数を各々の出力チャネルについて算出することを特徴とする請求項2または請求項4の何れかに記載の収音方法。
  6. 前記M個の受音手段で受音した信号から雑音区間を検出する雑音区間検出処理を含み、
    前記共分散行列記憶処理は、前記範囲番号検出処理で範囲番号が出力された時前記共分散行列を範囲番号毎に記憶し、前記雑音区間検出段階で雑音区間が検出された時に雑音区間の共分散行列を記憶し、
    前記フィルタ係数算出処理は、雑音成分も抑圧する処理を含むことを特徴とする請求項1〜5の何れかに記載の収音方法。
  7. 前記フィルタ係数計算処理は白色化処理過程を有し、
    前記白色化処理は前記記憶された共分散行列のうち対角成分で最もパワーの大きい成分、または前記記憶された共分散行列の対角成分の加算値の周波数特性を平滑化するゲインを、前記記憶された共分散行列に乗算し、前記フィルタ係数計算段階は、前記白色化された共分散行列を用いて、フィルタ係数計算を行うことを特徴とする請求項1〜6の何れかに記載の収音方法。
  8. 1つ以上N個の空間的範囲と、各空間的範囲のそれぞれに付した範囲番号とを設定し、記憶する空間的な範囲及び範囲番号設定部と、前記各空間的範囲に対答するミキシング係数を設定し、記憶するミキシング係数設定部とを備え、
    2つ以上M個の受音手段の各々で受音された受音信号から音源位置または音源方向を検出する音源位置検出部と、
    前記検出された音源位置または音源方向が、前記設定された空間的範囲の何れに含まれるかを検出し、検出された場合は前記検出された音源位置が含まれる前記範囲番号を出力する範囲番号検出部と、
    前記M個の受音手段の各々で受音された受音信号から共分散行列を計算する共分散行列計算部と、
    前記範囲番号検出部で範囲番号が出力された時に前記共分散行列を範囲番号毎に記憶する共分散行列記憶部と、
    前記空間的範囲毎に、前記M個の受話信号のうち、対応する範囲から到来した信号に前記予め設定したミキシング係数を乗じてから加算した信号が出力信号となり、その他の音が抑圧されるように、前記共分散行列記憶部に記憶された共分散行列と前記ミキシング係数からMチャンネルそれぞれのフィルタ係数を求めるフィルタ係数計算部と、
    N個の空間的範囲毎に、M個の受話信号をそれぞれ前記フィルタ係数計算処理で求めたフィルタ係数でフィルタリングするフィルタ部と、
    N個の空間的範囲毎に、前記M個のフィルタ処理された出力信号を加算して出力信号を得る加算器と、
    を備えることを特徴とする収音装置。
  9. 1つ以上N個の空間的範囲と、各空間的範囲のそれぞれに付した範囲番号とを設定し記憶する空間的範囲及び範囲番号設定部と、
    出力チャネル数Kに対応したミキシング係数を設定し、記憶したK個のミキシング係数設定部と、K個の収音範囲番号及びK個の抑圧範囲番号を設定し記憶する収音範囲番号及び抑圧範囲番号設定部とを備え、
    2つ以上M個の受音手段の各々で受音された受音信号から音源位置又は音源方向を検出する音源位置検出部と、
    検出された音源位置または音源方向が、前記設定された空間的範囲の何れに含まれるかを検出し、検出された場合は前記検出された音源位置が含まれる前記空間的範囲番号を出力する範囲番号検出部と、
    M個の受音手段の各々で受音された受音信号から共分散行列を計算する共分散行列計算処理と、
    前記範囲番号検出部で範囲番号が出力された時に前記共分散行列を前記範囲番号毎に記憶する共分散行列記憶部と、
    M個の受音手段の各々で受音された信号のうち、前記設定された収音範囲番号に対応する範囲から到来した音を上記ミキシング係数を乗じてからミキシングした信号のみが出力信号となり、前記設定された抑圧範囲番号に対応する範囲から到来する音を抑圧する条件で前記記憶された共分散行列と前記ミキシング係数と前記収音範囲番号及び抑圧範囲番号とから、Kチャネルのフィルタ係数を各々算出するフィルタ係数計算部と、
    M個の受音手段の各々で受音されたMチャネルの受音信号を前記Kチャネルのフィルタ係数で各々フィルタリングするフィルタ部と、
    前記フィルタ部でフィルタリング処理されたMチャネルの出力信号をそれぞれ加算し、Kチャネルの出力信号を得る加算器と、
    を備えることを特徴とする収音装置。
  10. 前記共分散行列記憶部に記憶された共分散行列と前記ミキシング係数設定部に設定されたミキシング係数に基づき、各空間的範囲の音声レベルを推定するN個の音声レベル指定部と、
    前記各空間的範囲の音声レベルと、予め設定した適正レベルに基づき、出力信号を適正レベルとするゲインを算出するN個のゲイン算出手段と、
    前記算出したゲインを前記Nチャネルの出力信号に各々乗じ、Nチャネルの出力信号とする出力手段と、
    を備えることを特徴とする請求項8に記載の収音装置。
  11. 前記共分散行列記憶部に記憶された共分散行列と、前記ミキシング係数設定部に設定されたミキシング係数と、前記収音範囲番号及び抑圧範囲番号設定部に設定された収音範囲番号及び抑圧範囲番号に基づき、各出力チャネルの音声レベルを推定するK個の音声レベル推定部と、
    前記出力チャネルの音声レベルと、予め設定した適正レベルに基づき、出力信号を適正レベルとするゲインを算出するゲイン算出部と、
    前記ゲインを前記Kチャネルの出力信号に各々乗じ、Kチャネルの出力信号とする出力手段と、
    を備えることを特徴とする請求項9に記載の収音装置。
  12. 前記共分散行列記憶部に記憶された共分散行列と、前記ミキシング係数設定部に設定されたミキシング係数と、前記収音範囲番号及び抑圧範囲番号設定部に設定された収音範囲番号と、抑圧範囲番号に基づき、各出力チャネルの音声レベルと収音範囲毎の音声レベルを推定するK個の音声レベル推定部と、
    前記出力チャネルの音声レベルと、前記収音範囲毎の音声レベルに基づき、各収音範囲から到来する音が同レベルとなるような収音範囲毎のゲインを算出する、K個の範囲別ゲイン算出部とを備え、
    前記フィルタ係数算出部は、M個の受音手段の各々で受音された信号のうち、前記対応する収音範囲番号及び抑圧範囲番号設定部に設定された収音範囲から到来する音を収音し、抑圧範囲から到来する音を抑圧し、収音範囲から到来する音が同レベルとなる条件で、前記記憶された共分散行列と前記ミキシング係数と前記収音範囲と前記抑圧範囲と、前記収音範囲別ゲインから、Mチャネルフィルタ係数を各々の出力チャネルについて算出することを特徴とする請求項9または請求項11に記載の収音装置。
  13. 前記M個の受音手段で受音した信号から雑音区間を検出する雑音区間検出部を備え、
    共分散行列記憶部は、前記範囲番号検出部で範囲番号が出力されたとき前記共分散行列を範囲番号毎に記憶し、前記雑音区間検出部で雑音区間が検出された時に雑音区間の共分散行列を記憶し、
    前記フィルタ係数算出手段は、雑音成分も抑圧することを特徴とする請求項8乃至12の何れかに記載の収音装置。
  14. 前記フィルタ係数計算手段は白色化手段を有し、
    前記白色化手段は前記記憶された共分散行列のうち対角成分で最もパワーの大きい成分、または前記記憶された共分散行列の対角成分の加算値の周波数特性を平滑化するゲインを、前記記憶された共分散行列に乗算し、
    前記フィルタ係数計算手段は、前記白色化された共分散行列を用いて、フィルタ係数計算を行うことを特徴とする請求項8乃至13の何れかに記載の収音装置。
  15. 前記M個の受音手段の各々で受音された信号を時間領域信号から周波数領域信号に変換するFFT変換手段と、
    前記加算手段の出力信号を周波数領域信号から時間領域信号に変換する逆FFT変換手段と、
    を備えることを特徴とする請求項8乃至14の何れかに記載の収音装置。
  16. 前記範囲設定部は入力手段を有し、入力手段は入力に応じて前記空間的範囲を変化させることを特徴とする請求項請求項8乃至15の何れかに記載の収音装置。
  17. コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項1乃至7記載の収音方法の何れかを実行させる収音プログラム。
  18. コンピュータが読み取り可能な記録媒体で構成され、この記録媒体に請求項17記載の収音プログラムを記録した記録媒体。





















JP2004244037A 2004-08-24 2004-08-24 収音方法、収音装置、収音プログラム、およびこれを記録した記録媒体 Expired - Fee Related JP4116600B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004244037A JP4116600B2 (ja) 2004-08-24 2004-08-24 収音方法、収音装置、収音プログラム、およびこれを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004244037A JP4116600B2 (ja) 2004-08-24 2004-08-24 収音方法、収音装置、収音プログラム、およびこれを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2006066988A true JP2006066988A (ja) 2006-03-09
JP4116600B2 JP4116600B2 (ja) 2008-07-09

Family

ID=36113111

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004244037A Expired - Fee Related JP4116600B2 (ja) 2004-08-24 2004-08-24 収音方法、収音装置、収音プログラム、およびこれを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4116600B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007336232A (ja) * 2006-06-15 2007-12-27 Nippon Telegr & Teleph Corp <Ntt> 特定方向収音装置、特定方向収音プログラム、記録媒体
JP2009025490A (ja) * 2007-07-18 2009-02-05 Nippon Telegr & Teleph Corp <Ntt> 収音装置、収音方法、その方法を用いた収音プログラム、および記録媒体
JP2009044588A (ja) * 2007-08-10 2009-02-26 Nippon Telegr & Teleph Corp <Ntt> 特定方向収音装置、特定方向収音方法、特定方向収音プログラム、記録媒体
US8306823B2 (en) 2007-03-28 2012-11-06 Kabushiki Kaisha Toshiba Dialog detecting apparatus, dialog detecting method, and computer program product
JP5259622B2 (ja) * 2007-12-10 2013-08-07 パナソニック株式会社 収音装置、収音方法、収音プログラム、および集積回路
JP2014502439A (ja) * 2010-10-25 2014-01-30 クゥアルコム・インコーポレイテッド 方向性高感度記録制御のためのシステム、方法、装置、及びコンピュータ可読媒体
JP2015222847A (ja) * 2014-05-22 2015-12-10 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000004495A (ja) * 1998-06-16 2000-01-07 Oki Electric Ind Co Ltd 複数マイク自由配置による複数話者位置推定方法
JP2001309483A (ja) * 2000-04-19 2001-11-02 Nippon Telegr & Teleph Corp <Ntt> 収音方法および収音装置
JP2003087891A (ja) * 2001-09-12 2003-03-20 Nippon Telegr & Teleph Corp <Ntt> 収音装置、収音方法、収音プログラムおよび記録媒体
JP2004064697A (ja) * 2002-07-31 2004-02-26 Nippon Telegr & Teleph Corp <Ntt> 音源受音位置推定方法、装置、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000004495A (ja) * 1998-06-16 2000-01-07 Oki Electric Ind Co Ltd 複数マイク自由配置による複数話者位置推定方法
JP2001309483A (ja) * 2000-04-19 2001-11-02 Nippon Telegr & Teleph Corp <Ntt> 収音方法および収音装置
JP2003087891A (ja) * 2001-09-12 2003-03-20 Nippon Telegr & Teleph Corp <Ntt> 収音装置、収音方法、収音プログラムおよび記録媒体
JP2004064697A (ja) * 2002-07-31 2004-02-26 Nippon Telegr & Teleph Corp <Ntt> 音源受音位置推定方法、装置、およびプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007336232A (ja) * 2006-06-15 2007-12-27 Nippon Telegr & Teleph Corp <Ntt> 特定方向収音装置、特定方向収音プログラム、記録媒体
JP4724054B2 (ja) * 2006-06-15 2011-07-13 日本電信電話株式会社 特定方向収音装置、特定方向収音プログラム、記録媒体
US8306823B2 (en) 2007-03-28 2012-11-06 Kabushiki Kaisha Toshiba Dialog detecting apparatus, dialog detecting method, and computer program product
JP2009025490A (ja) * 2007-07-18 2009-02-05 Nippon Telegr & Teleph Corp <Ntt> 収音装置、収音方法、その方法を用いた収音プログラム、および記録媒体
JP2009044588A (ja) * 2007-08-10 2009-02-26 Nippon Telegr & Teleph Corp <Ntt> 特定方向収音装置、特定方向収音方法、特定方向収音プログラム、記録媒体
JP5259622B2 (ja) * 2007-12-10 2013-08-07 パナソニック株式会社 収音装置、収音方法、収音プログラム、および集積回路
JP2014502439A (ja) * 2010-10-25 2014-01-30 クゥアルコム・インコーポレイテッド 方向性高感度記録制御のためのシステム、方法、装置、及びコンピュータ可読媒体
US9031256B2 (en) 2010-10-25 2015-05-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
JP2015222847A (ja) * 2014-05-22 2015-12-10 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム

Also Published As

Publication number Publication date
JP4116600B2 (ja) 2008-07-09

Similar Documents

Publication Publication Date Title
US10382849B2 (en) Spatial audio processing apparatus
JP5654513B2 (ja) 音識別方法および装置
US9552840B2 (en) Three-dimensional sound capturing and reproducing with multi-microphones
JP4964943B2 (ja) オーディオ入力信号の反響コンテンツを抽出および変更するためのシステム
JP4104626B2 (ja) 収音方法及び収音装置
JP2009194682A (ja) 頭部伝達関数測定方法、頭部伝達関数畳み込み方法および頭部伝達関数畳み込み装置
US9743215B2 (en) Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
CN104604254A (zh) 声音处理装置、方法和程序
JP2001309483A (ja) 収音方法および収音装置
CN110111802B (zh) 基于卡尔曼滤波的自适应去混响方法
JP5738218B2 (ja) 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム
JP4116600B2 (ja) 収音方法、収音装置、収音プログラム、およびこれを記録した記録媒体
JP5762479B2 (ja) 音声スイッチ装置、音声スイッチ方法、及びそのプログラム
Masterson et al. Acoustic impulse response interpolation for multichannel systems using dynamic time warping
US20130253923A1 (en) Multichannel enhancement system for preserving spatial cues
JP3588576B2 (ja) 収音装置および収音方法
JP5143802B2 (ja) 雑音除去装置、遠近判定装置と、各装置の方法と、装置プログラム
JP5937451B2 (ja) エコー消去装置、エコー消去方法及びプログラム
JP4298466B2 (ja) 収音方法、装置、プログラム、および記録媒体
Kowalczyk Raking early reflection signals for late reverberation and noise reduction
WO2021212287A1 (zh) 音频信号处理方法、音频处理装置及录音设备
JP2002062900A (ja) 収音装置及び受信装置
JP4616736B2 (ja) 収音再生装置
JP6075783B2 (ja) エコー消去装置、エコー消去方法及びプログラム
CA2772322A1 (en) Multichannel enhancement system for preserving spatial cues

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060726

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080417

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120425

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130425

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140425

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees