JP6604331B2 - 音声処理装置および方法、並びにプログラム - Google Patents

音声処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP6604331B2
JP6604331B2 JP2016553046A JP2016553046A JP6604331B2 JP 6604331 B2 JP6604331 B2 JP 6604331B2 JP 2016553046 A JP2016553046 A JP 2016553046A JP 2016553046 A JP2016553046 A JP 2016553046A JP 6604331 B2 JP6604331 B2 JP 6604331B2
Authority
JP
Japan
Prior art keywords
spatial
frequency
sound
time
spatial filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016553046A
Other languages
English (en)
Other versions
JPWO2016056410A1 (ja
Inventor
祐基 光藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2016056410A1 publication Critical patent/JPWO2016056410A1/ja
Application granted granted Critical
Publication of JP6604331B2 publication Critical patent/JP6604331B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Stereophonic System (AREA)

Description

本技術は音声処理装置および方法、並びにプログラムに関し、特に、より低コストで音像の定位を改善することができるようにした音声処理装置および方法、並びにプログラムに関する。
従来、平面スピーカアレイや直線スピーカアレイを用いて音場を再現する波面合成技術が知られている。このような波面合成技術は、例えば図1に示すように次世代双方向通信などに利用することができる。
図1では、通話者W11がいる空間P11と、通話者W12がいる空間P12との間で次世代双方向通信が行われる。
具体的には、空間P11では、主に通話者W11が発した音声からなる音場Aが図中、縦方向に並べられた複数のマイクロフォンからなる直線マイクアレイMCA11により収音され、その結果得られた音源信号が空間P12へと伝送される。
この例では、図中の矢印は音源である通話者W11からの音声の伝搬方向を示しており、通話者W11の音声は直線マイクアレイMCA11から見て角度θの方向から到来し、収音される。以下では、この角度θ、つまり音源からの音声の伝搬方向と、マイクアレイを構成するマイクロフォンが並ぶ方向とのなす角度を到来角度θと称することとする。
空間P12では、空間P11から伝送されてきた音源信号から、音場Aを再現するためのスピーカ駆動信号が生成される。そして、空間P12内に図中、縦方向に並べられた複数のスピーカからなる直線スピーカアレイSPA11により、生成されたスピーカ駆動信号に基づいて音場Aが再現される。
この例では、図中の矢印は直線スピーカアレイSPA11から出力され、通話者W12へと伝搬される音声の伝搬方向を示している。この伝搬方向と直線スピーカアレイSPA11とのなす角度は、到来角度θと同じ角度となる。
なお、ここでは図示が省略されているが、空間P12にも直線マイクアレイが設けられており、この直線マイクアレイにより主に通話者W12が発した音声からなる音場Bが収音され、得られた音源信号が空間P11へと伝送される。また、空間P11では、空間P12から伝送されてきた音源信号からスピーカ駆動信号が生成され、得られたスピーカ駆動信号に基づいて図示せぬ直線スピーカアレイにより音場Bが再現される。
ところで、このようにマイクアレイやスピーカアレイを利用して音場を再現する場合、物理的に正確な音場再現を行うためにはスピーカおよびマイクロフォンを無限個数配置しなければならない。例えば、図1に示した例のようにスピーカやマイクロフォンを離散的に配置すると、空間エリアシングが生じてしまう。
空間エリアシングに侵されない最も高い空間周波数(以下、上限空間周波数と称する)klimは、スピーカアレイを構成するスピーカの間隔、またはマイクアレイを構成するマイクロフォンの間隔で計算される空間ナイキスト周波数のより低い方によって決定される。
すなわち、マイクロフォンの間隔をdmicとし、スピーカの間隔をdspkとすると、上限空間周波数klimは次式(1)により求まる。
Figure 0006604331
このようにして得られる上限空間周波数klimは音像の定位に影響を与え、一般的に値が高い方が好ましい。
また、音源信号の周波数(以下、時間周波数と称する)fと空間周波数kの関係は次式(2)に示す通りである。なお、式(2)において、cは音速を示している。
Figure 0006604331
したがって、特に工夫を行わない場合には、空間エリアシングに侵されない最も高い時間周波数(以下、上限時間周波数と称する)flimを、式(2)によって求めることが可能となる。上限時間周波数flimは音質に影響を与え、一般的には値が高い方が再現性が高い、つまりHiFi(High Fidelity)とされる。
ここで、空間エリアシングについて説明する。図2は、音源からの音声の平面波の到来角度の違いによる空間スペクトルを示したものであり、空間スペクトルは平面波の到来角度によってスペクトルピークの位置が変化することから角度スペクトルとも呼ばれている。なお、図2において、縦軸は時間周波数fを示しており、横軸は空間周波数kを示している。また、直線L11乃至直線L13は、それぞれスペクトルピークを示している。
図中、左側には、空間サンプリングされる前、すなわちマイクアレイにより収音される前の元の平面波の到来角度θ=0のときの角度スペクトルの様子が示されている。この例では、直線L11に示されるように、スペクトルピークは空間周波数kの正方向に現れる。
これに対して図中、右側には、離散配置されたマイクロフォンからなるマイクアレイにより到来角度θ=0の平面波が空間サンプリング、つまり収音されて得られた音源信号の角度スペクトルの様子が示されている。
この例では、直線L12は直線L11に対応し、本来現れるべきスペクトルピークを示している。また、直線L13は空間エリアシングにより出現したスペクトルピークを示しており、この例では時間周波数fが上限時間周波数flimより高く、かつ空間周波数kが負である領域に顕著に空間エリアシングが生じている。
空間エリアシングがなければ、本来、空間周波数kが負である領域にスペクトルピークが現れるのは平面波の到来角度θがπ/2≦θ≦πであるときのはずである。
したがって、図中、右側に示す例では、収音された平面波(音場)を再現すると、空間エリアシングにより生じたスペクトルピークの影響で、様々な異なる角度からの平面波信号が混在しているように音像定位してしまう。
そのため、収音により得られた音源信号から波面合成のスピーカ駆動信号を生成し、そのスピーカ駆動信号に基づいてスピーカアレイで平面波を再現しても、聴者に正しい平面波を感じさせることができない。なお、上述した次世代双方向通信の例等で通話者同士が近づいた場合には平面波ではなく球面波になるが、平面波の場合と同様のことがいえる。
以上のように、空間エリアシングが生じると音像を正確に定位させることができなくなってしまう。そこで、空間エリアシングの低減に関して、互いにスピーカ間隔が異なる高音用スピーカユニットと低音用スピーカユニットとの二種類のスピーカアレイを用いることで、空間エリアシングに侵されない上限時間周波数flimをより高くする技術が提案されている(例えば、特許文献1参照)。この技術によれば、より高い時間周波数を持つ信号の正確な再現が可能となる。
特許第4124182号公報
しかしながら、上述した技術では、音像の定位を改善することはできるが、上限時間周波数flimをより高くするために追加のスピーカアレイ、つまり二種類のスピーカアレイを用意しなければならず、コストがかかってしまう。音像の定位を改善するにあたっては、既存のスピーカアレイのスピーカ間隔を保ちつつ、上限時間周波数flimをより高くすることが望ましい。
本技術は、このような状況に鑑みてなされたものであり、より低コストで音像の定位を改善することができるようにするものである。
本技術の一側面の音声処理装置は、音源の方向を示す方位情報を取得する方位情報取得部と、前記方位情報に基づいて、空間フィルタの特性として中心周波数およびバンド幅を決定し、複数のマイクロフォンからなるマイクアレイにより前記音源からの音声を収音して得られた収音信号に対して、前記空間フィルタを適用する空間フィルタ適用部とを備える。
前記空間フィルタを、前記中心周波数および前記バンド幅により定まる空間周波数の帯域を透過周波数帯域として、前記収音信号の透過周波数帯域の成分を透過させるフィルタとすることができる。
前記空間フィルタを、前記中心周波数および前記バンド幅により定まる時間周波数の帯域を透過周波数帯域として、前記収音信号の透過周波数帯域の成分を透過させるフィルタとすることができる。
前記空間フィルタ適用部には、前記方位情報により示される前記音源の方向と、前記マイクアレイとのなす角度がπ/2に近くなるほど前記バンド幅が広くなるように前記空間フィルタの特性を決定させることができる。
前記マイクアレイを直線マイクアレイとすることができる。
本技術の一側面の音声処理方法またはプログラムは、音源の方向を示す方位情報を取得し、前記方位情報に基づいて、空間フィルタの特性として中心周波数およびバンド幅を決定し、複数のマイクロフォンからなるマイクアレイにより前記音源からの音声を収音して得られた収音信号に対して、前記空間フィルタを適用するステップを含む。
本技術の一側面においては、音源の方向を示す方位情報が取得され、前記方位情報に基づいて、空間フィルタの特性として中心周波数およびバンド幅が決定され、複数のマイクロフォンからなるマイクアレイにより前記音源からの音声を収音して得られた収音信号に対して、前記空間フィルタが適用される。
本技術の一側面によれば、より低コストで音像の定位を改善することができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
次世代双方向通信について説明する図である。 空間エリアシングについて説明する図である。 空間エリアシング制御器の構成例を示す図である。 空間バンドパスフィルタの特性について説明する図である。 空間バンドパスフィルタの特性について説明する図である。 音場再現処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈空間エリアシング制御器の構成例〉
本技術は、平面スピーカアレイや直線スピーカアレイを用いて音場を再現する場合に、波面合成を行うためのスピーカ駆動信号を生成する際、スピーカ駆動信号に適切な空間フィルタを適用することで、スピーカの離散配置によって生じる空間エリアシングを低減させるものである。
具体的には、本技術では、目的外方向に伝搬する波面を犠牲にして空間エリアシングを低減させることで上限時間周波数flimの上昇が実現される。
例えば、図1を参照して説明した次世代双方向通信のように通話者同士の位置関係が明らかな場合には、再現が優先される波面の伝搬方向とその他の目的外方向を特定することができる。そこで、特定された目的外方向の空間周波数を遮断することで、上限時間周波数flimを上昇させることができる。
次に、本技術を空間エリアシング制御器に適用した場合を例として、本技術を適用した具体的な実施の形態について説明する。
図3は、本技術を適用した空間エリアシング制御器の一実施の形態の構成例を示す図である。
空間エリアシング制御器11は、送信器21および受信器22を有している。この例では、例えば送信器21が音場を収音する収音空間に配置され、受信器22が収音空間で収音された音場を再現する再現空間に配置される。
送信器21は、音場を収音し、収音により得られた収音信号から空間周波数スペクトルを生成して受信器22に送信する。受信器22は、送信器21から送信されてきた空間周波数スペクトルを受信してスピーカ駆動信号を生成するとともに、得られたスピーカ駆動信号に基づいて音場を再現する。
送信器21は、マイクアレイ31、時間周波数分析部32、空間周波数分析部33、および通信部34を有している。また、受信器22は、方位情報取得部35、通信部36、駆動信号生成部37、空間フィルタ適用部38、空間周波数合成部39、時間周波数合成部40、およびスピーカアレイ41を有している。
マイクアレイ31は、例えば直線状に配置された複数のマイクロフォンからなる直線マイクアレイなどからなり、到来した音声の平面波を収音し、その結果各マイクロフォンで得られた収音信号を時間周波数分析部32に供給する。
時間周波数分析部32は、マイクアレイ31から供給された収音信号に対して時間周波数変換を行い、その結果得られた時間周波数スペクトルを空間周波数分析部33に供給する。空間周波数分析部33は、時間周波数分析部32から供給された時間周波数スペクトルに対して空間周波数変換を行い、その結果得られた空間周波数スペクトルを通信部34に供給する。
通信部34は空間周波数分析部33から供給された空間周波数スペクトルを、有線または無線により受信器22の通信部36に送信する。
また、受信器22の方位情報取得部35は、マイクアレイ31により収音された音声の音源である通話者の方位(方向)を示す話者方位情報を取得して空間フィルタ適用部38に供給する。
ここでは、収音される音場の音源が通話者である例について説明するが、音源は通話者に限らず、車等のオブジェクトや環境音の音源など、どのようなものであってもよい。また、話者方位情報は、音源である通話者からの音声を聴取する受話者に対する通話者の方向など、主たる音源と受話者の相対的な位置関係を示すものであればどのようなものであってもよいが、ここでは話者方位情報は、上述した到来角度θであるものとして説明を続ける。この場合、例えば図1に示した次世代双方向通信の例において、通話者W11が音源とされ、通話者W12が受話者とされるときには、通話者W11から通話者W12へと向かう音声の波面の伝搬方向を示す到来角度θが話者方位情報とされる。また、以下では、到来角度θを示す話者方位情報を話者方位情報θとも記すこととする。
通信部36は、通信部34から送信されてきた空間周波数スペクトルを受信して駆動信号生成部37に供給する。駆動信号生成部37は、通信部36から供給された空間周波数スペクトルに基づいて、収音された音場を再現するための空間領域のスピーカ駆動信号を生成し、空間フィルタ適用部38に供給する。
空間フィルタ適用部38は、駆動信号生成部37から供給されたスピーカ駆動信号に対して、方位情報取得部35から供給された話者方位情報により定まる特性の空間フィルタを用いたフィルタ処理を施し、その結果得られた空間フィルタスペクトルを空間周波数合成部39に供給する。
空間周波数合成部39は、空間フィルタ適用部38から供給された空間フィルタスペクトルの空間周波数合成を行い、その結果得られた時間周波数スペクトルを時間周波数合成部40に供給する。
時間周波数合成部40は、空間周波数合成部39から供給された時間周波数スペクトルの時間周波数合成を行い、その結果得られたスピーカ駆動信号をスピーカアレイ41に供給する。スピーカアレイ41は、例えば直線状に配置された複数のスピーカからなる直線スピーカアレイなどからなり、時間周波数合成部40から供給されたスピーカ駆動信号に基づいて音声を再生する。これにより、収音空間における音場が再現される。
ここで、空間エリアシング制御器11を構成する各部についてより詳細に説明する。
(時間周波数分析部)
時間周波数分析部32は、マイクアレイ31を構成する各マイクロフォンで得られた収音信号s(nmic,t)の時間周波数情報を分析する。
但し、収音信号s(nmic,t)においてnmicはマイクアレイ31を構成するマイクロフォンを示すマイクインデクスであり、マイクインデクスnmic=0,…,Nmic-1である。ここで、Nmicはマイクアレイ31を構成するマイクロフォンの数である。また、収音信号s(nmic,t)においてtは時間を示している。
時間周波数分析部32は、収音信号s(nmic,t)に対して固定サイズの時間フレーム分割を行って入力フレーム信号sfr(nmic,nfr,l)を得る。そして、時間周波数分析部32は、次式(3)に示す窓関数wT(nfr)を入力フレーム信号sfr(nmic,nfr,l)に乗算し、窓関数適用信号sw(nmic,nfr,l)を得る。すなわち、以下の式(4)の計算が行われて窓関数適用信号sw(nmic,nfr,l)が算出される。
Figure 0006604331
Figure 0006604331
ここで、式(3)および式(4)において、nfrは時間フレーム内のサンプルを示す時間インデクスを示しており、時間インデクスnfr=0,…,Nfr-1である。また、lは時間フレームインデクスを示しており、時間フレームインデクスl=0,…,L-1である。なお、Nfrはフレームサイズ(時間フレームのサンプル数)であり、Lは総フレーム数である。
また、フレームサイズNfrは、時間サンプリング周波数fs T[Hz]における一フレームの時間Tfr[s]相当のサンプル数Nfr(=R(fs T×Tfr)、但しR()は任意の丸め関数)である。この実施の形態では、例えば一フレームの時間Tfr=1.0[s]であり、丸め関数R()は四捨五入であるが、それ以外でも構わない。さらに、フレームのシフト量はフレームサイズNfrの50%としているが、それ以外でも構わない。
さらに、ここでは窓関数としてハニング窓の平方根を用いているが、ハミング窓やブラックマンハリス窓などのその他の窓を用いるようにしてもよい。
このようにして窓関数適用信号sw(nmic,nfr,l)が得られると、時間周波数分析部32は、以下の式(5)および式(6)を計算することで、窓関数適用信号sw(nmic,nfr,l)に対して時間周波数変換を行い、時間周波数スペクトルS(nmic,nT,l)を算出する。
Figure 0006604331
Figure 0006604331
すなわち、式(5)の計算によりゼロ詰め信号sw’(nmic,mT,l)が求められ、得られたゼロ詰め信号sw’(nmic,mT,l)に基づいて式(6)が計算され、時間周波数スペクトルS(nmic,nT,l)が算出される。
なお、式(5)および式(6)において、MTは時間周波数変換に用いるポイント数を示している。また、nTは時間周波数スペクトルインデクスを示している。ここで、nT=0,…,NT-1であり、NT=MT/2+1である。さらに、式(6)においてiは純虚数を示している。
また、この実施の形態では、STFT(Short Time Fourier Transform)(短時間フーリエ変換)による時間周波数変換を行っているが、DCT(Discrete Cosine Transform)(離散コサイン変換)やMDCT(Modified Discrete Cosine Transform)(修正離散コサイン変換)などの他の時間周波数変換を用いてもよい。
さらに、STFTのポイント数MTは、Nfr以上である、Nfrに最も近い2のべき乗の値としているが、それ以外のポイント数MTでも構わない。
時間周波数分析部32は、以上において説明した処理で得られた時間周波数スペクトルS(nmic,nT,l)を、空間周波数分析部33に供給する。
(空間周波数分析部)
続いて空間周波数分析部33は、時間周波数分析部32から供給された時間周波数スペクトルS(nmic,nT,l)に対して、次式(7)を計算することで空間周波数変換を行い、空間周波数スペクトルSSP(nS,nT,l)を算出する。
Figure 0006604331
なお、式(7)においてMSは空間周波数変換に用いるポイント数を示しており、mS=0,…,MS-1である。また、S’(mS,nT,l)は時間周波数スペクトルS(nmic,nT,l)に対してゼロ詰めを行うことにより得られるゼロ詰め時間周波数スペクトルを示しており、iは純虚数を示している。さらに、nSは空間周波数スペクトルインデクスを示している。
この実施の形態では、式(7)の計算によってIDFT(Inverse Discrete Fourier Transform)(逆離散フーリエ変換)による空間周波数変換が行われている。
また、必要であればIDFTのポイント数MSに合わせて適切にゼロ詰めを行ってもよい。この例では、0≦mS≦Nmic-1であるポイントmSについては、ゼロ詰め時間周波数スペクトルS’(mS,nT,l)=時間周波数スペクトルS(nmic,nT,l)とされ、Nmic≦mS≦MS-1であるポイントmSについては、ゼロ詰め時間周波数スペクトルS’(mS,nT,l)=0とされる。
以上において説明した処理により得られる空間周波数スペクトルSSP(nS,nT,l)は、時間フレームlに含まれている時間周波数nTの信号が空間上においてどのような波形となっているかを示している。空間周波数分析部33は、空間周波数スペクトルSSP(nS,nT,l)を通信部34に供給する。
(駆動信号生成部)
駆動信号生成部37には、通信部36および通信部34を介して、空間周波数分析部33から空間周波数スペクトルSSP(nS,nT,l)が供給される。
駆動信号生成部37は、空間周波数スペクトルSSP(nS,nT,l)に基づいて、以下の式(8)を計算し、スピーカアレイ41で音場(波面)を再現するための空間領域のスピーカ駆動信号DSP(mS,nT,l)を求める。すなわち、SDM(Spectral Division Method)により、空間周波数スペクトルであるスピーカ駆動信号DSP(mS,nT,l)が算出される。
Figure 0006604331
なお、式(8)においてyrefはSDMの基準距離を示しており、基準距離yrefは波面が正確に再現される位置である。この基準距離yrefはマイクアレイ31を構成するマイクロフォンが並ぶ方向と垂直な方向の距離となる。例えば、ここでは基準距離yref=1[m]とされているが、その他の値でもよい。
さらに、式(8)においてH0 (2)は第二種ハンケル関数を示しており、K0はベッセル関数を示している。また、式(8)においてiは純虚数を示しており、cは音速を示しており、ωは時間角周波数を示している。
さらに、式(8)においてkは空間周波数を示しており、mS、nT、lは、それぞれ空間周波数スペクトルインデクス、時間周波数スペクトルインデクス、時間フレームインデクスを示している。
なお、ここではSDMによりスピーカ駆動信号DSP(mS,nT,l)を算出する手法を例として説明したが、他の手法によりスピーカ駆動信号が算出されてもよい。また、SDMについては、特に「Jens Adrens, Sascha Spors, “Applying the Ambisonics Approach on Planar and Linear Arrays of Loudspeakers”, in 2nd International Symposium on Ambisonics and Spherical Acoustics」に詳細に記載されている。
駆動信号生成部37は、以上のようにして得られたスピーカ駆動信号DSP(mS,nT,l)を空間フィルタ適用部38に供給する。
(空間フィルタ適用部)
空間フィルタ適用部38は、駆動信号生成部37から供給されたスピーカ駆動信号DSP(mS,nT,l)と、方位情報取得部35から供給された話者方位情報θにより特性が決定される空間バンドパスフィルタBθ(mS,nT)とを用いて、空間フィルタスペクトルF(mS,nT,l)を求める。なお、ここでは空間バンドパスフィルタBθ(mS,nT)の形状が矩形状であるものとするが、空間バンドパスフィルタBθ(mS,nT)の形状は他のどのような形状であってもよい。
具体的には、空間フィルタ適用部38は話者方位情報θに基づいて、空間バンドパスフィルタBθ(mS,nT)の中心周波数kcenおよびバンド幅klenを決定することで、空間バンドパスフィルタBθ(mS,nT)の特性を決定する。すなわち、目的とする主たる音源からの音声の平面波の到来角度θに応じて、空間バンドパスフィルタBθ(mS,nT)の特性が決定される。
例えば、空間フィルタ適用部38は、以下の式(9)を計算することで中心周波数kcenを算出し、以下の式(10)を計算することでバンド幅klenを算出する。
Figure 0006604331
Figure 0006604331
なお、式(9)および式(10)において、θは話者方位情報、すなわち音源から出力され、受話者へと向かう平面波(音声)のマイクアレイ31への到来角度を示している。また、式(9)および式(10)において、klimはマイクアレイ31のマイクロフォン間隔と、スピーカアレイ41のスピーカ間隔とから定まる上限空間周波数を示している。
空間バンドパスフィルタBθ(mS,nT)は、中心周波数kcenを中心とするバンド幅klenの空間周波数帯域を透過周波数帯域(パスバンド)とし、それ以外の空間周波数帯域を遮断周波数帯域(ストップバンド)とするバンドパスフィルタである。
したがって、空間バンドパスフィルタBθ(mS,nT)の値は、空間周波数スペクトルインデクスmSにより示される空間周波数が透過周波数帯域内の周波数であれば1となり、空間周波数スペクトルインデクスmSにより示される空間周波数が遮断周波数帯域内の周波数であれば0となる。これにより、空間バンドパスフィルタBθ(mS,nT)は、透過周波数帯域の成分のみを透過させる空間フィルタとなる。
このようにして空間バンドパスフィルタが決定されると、空間フィルタ適用部38は、次式(11)に示すように空間バンドパスフィルタBθ(mS,nT)をスピーカ駆動信号DSP(mS,nT,l)に乗算し、空間フィルタスペクトルF(mS,nT,l)を得る。
Figure 0006604331
空間フィルタ適用部38は、式(11)の計算により得られた空間フィルタスペクトルF(mS,nT,l)を、空間周波数合成部39に供給する。
ここで、空間バンドパスフィルタBθ(mS,nT)について、さらに説明する。
式(9)により示される中心周波数kcenは、話者方位情報θ、つまり到来角度θがθ=0であるときにはklim/2となり、到来角度θがπ/2に近づくにしたがって小さくなり、到来角度θ=π/2のときには0となる。また、中心周波数kcenは、到来角度θがθ=π/2からθ=πに近づくにしたがって小さくなり、到来角度θ=πのときには-klim/2となる。
さらに式(10)により示されるバンド幅klenは、到来角度θがθ=0であるときにはklimとなり、到来角度θがπ/2に近づくにしたがって大きくなり、到来角度θ=π/2のときには2klimとなる。また、バンド幅klenは、到来角度θがθ=π/2からθ=πに近づくにしたがって小さくなり、到来角度θ=πのときにはklimとなる。
したがって、例えば到来角度θ=0であるときには、図4に示すように空間周波数kが0から上限空間周波数klimまでの間の帯域が透過周波数帯域となる。なお、図4において縦軸は時間周波数fを示しており、横軸は空間周波数kを示している。
到来角度θ=0である場合、矢印A11に示すようにマイクアレイ31で収音された平面波の空間スペクトル(角度スペクトル)では、直線L21に示されるスペクトルピークと、直線L22に示されるスペクトルピークとが観測される。
ここで、空間周波数kがk≧0である領域に現れている直線L21に示されるスペクトルピークは、本来現れるべきスペクトルピークである。これに対して、直線L22に示されるスペクトルピークは、空間エリアシングにより現れたものであり、空間周波数kが負である領域で空間エリアシングが顕著であることが分かる。
この例では、空間エリアシングに起因する、直線L22に示されるスペクトルピークのない時間周波数fの領域が非エリアシング帯域R11となっている。これに対して、非エリアシング帯域R11の上限の時間周波数、つまり上述した上限時間周波数flimより時間周波数が高い領域が、空間エリアシングに侵されたエリアシング帯域R12となっている。
また、到来角度θ=0である場合、空間バンドパスフィルタBθ(mS,nT)の特性は、上述した式(9)および式(10)から、折れ線L23に示される特性となる。
すなわち、矢印A12に示すように空間バンドパスフィルタBθ(mS,nT)は、中心周波数kcen=klim/2であり、バンド幅klen=klimであるバンドパスフィルタとなる。したがって、この例では空間周波数kが開始周波数sb=0から終了周波数eb=klimまでの間の成分がそのまま透過とされ、それ以外の遮断周波数帯域の成分は空間バンドパスフィルタBθ(mS,nT)により遮断(除去)される。
図4では、図中の斜線が施された領域が空間バンドパスフィルタBθ(mS,nT)により遮断される領域を示しており、この例では直線L22に示される空間エリアシングのスペクトルピークのうちの空間周波数kが負である領域の部分が除去されることになる。
その結果、空間エリアシングのスペクトルピークのない時間周波数fの領域である非エリアシング帯域R13は非エリアシング帯域R11よりも広くなり、その分だけ空間エリアシングに侵されたエリアシング帯域R14が狭くなる。換言すれば、空間バンドパスフィルタBθ(mS,nT)によるフィルタ処理によって、上限時間周波数flimをより高くすることができる。この例では、負の空間周波数成分を低減させることにより、空間エリアシングに侵されない上限時間周波数flimが二倍に引き上げられている。
このように空間バンドパスフィルタBθ(mS,nT)によるフィルタ処理を行なえば、上限時間周波数flimを上昇させることができるので、特に到来角度θ、つまり角度θで伝搬する平面波の音質を向上させることができる。また、空間エリアシングを低減させることができるので、本来ないはずの他の角度から伝搬してきた平面波が混在しているような音像の定位を改善することができる。つまり、より正確な音像定位を実現することができる。
同様に式(9)および式(10)から、例えば到来角度θ=π/2であるときには図5に示すように、空間周波数kが-klimから上限空間周波数klimまでの間の帯域が透過周波数帯域となる。なお、図5において縦軸は時間周波数fを示しており、横軸は空間周波数kを示している。
到来角度θ=π/2である場合、矢印A21に示すようにマイクアレイ31で収音された平面波の空間スペクトル(角度スペクトル)では、直線L31に示されるスペクトルピークが観測される。
ここで、空間周波数kがk=0である領域に現れている直線L31に示されるスペクトルピークは、本来現れるべきスペクトルピークである。また、到来角度θ=π/2である場合には空間エリアシングは生じないため、空間エリアシングに起因するスペクトルピークは出現しない。この例では、空間エリアシングは発生しないため、時間周波数fの全領域が非エリアシング帯域となっている。
このように到来角度θ=π/2である場合、空間バンドパスフィルタBθ(mS,nT)の特性は、上述した式(9)および式(10)から、折れ線L32に示される特性となる。
すなわち、矢印A22に示すように空間バンドパスフィルタBθ(mS,nT)は、中心周波数kcen=0であり、バンド幅klen=2klimであるバンドパスフィルタとなる。したがって、この例では空間周波数kが開始周波数sb=-klimから終了周波数eb=klimまでの間の成分がそのまま透過とされ、それ以外の遮断周波数帯域の成分は空間バンドパスフィルタBθ(mS,nT)により遮断される。
なお、図5では、図中の斜線が施された領域が空間バンドパスフィルタBθ(mS,nT)により遮断される領域を示している。この例では、開始周波数sbが-klimであり、終了周波数ebがklimであるため、特に正および負の空間周波数成分の低減は行われない。
以上のように空間バンドパスフィルタBθ(mS,nT)によるフィルタ処理を行なえば、上限時間周波数flimを上昇させ、特に目的とする到来角度θの方向に伝搬する平面波について音質を向上させるとともに、音像の定位を改善することができる。
但し、空間バンドパスフィルタBθ(mS,nT)により遮断周波数帯域の成分を除去すると、角度θとは異なる他の角度で伝搬する平面波の音質は、除去された成分に応じて劣化してしまう。そのため、その分だけ再現空間において良好な音質で音声を聴取できる領域の範囲が狭くなってしまう。
しかし、空間エリアシング制御器11では、到来角度θがπ/2に近くなるにしたがって、つまり空間エリアシングが少なくなるにしたがってバンド幅klenがより広くなり、良好な音質で音声を聴取できる領域が広くなるようになされているので、フィルタ処理により生じる影響を小さく抑えることができる。
なお、以上においては空間バンドパスフィルタBθ(mS,nT)の特性として、空間周波数について話者方位情報θに応じた透過周波数帯域を設定する例について説明したが、時間周波数についてのみ、話者方位情報θに応じた透過周波数帯域を設定するようにしてもよい。
また、空間バンドパスフィルタBθ(mS,nT)の特性として、空間周波数と時間周波数の両方について、それぞれ話者方位情報θに応じた透過周波数帯域を設定するようにしてもよい。そのような場合、空間周波数だけでなく、時間周波数についても話者方位情報θに応じた中心周波数およびバンド幅、つまり透過周波数帯域が決定される。そして、空間周波数スペクトルインデクスmSにより示される空間周波数が透過周波数帯域内の周波数であり、かつ時間周波数スペクトルインデクスnTにより示される時間周波数が透過周波数帯域内の周波数であるときに、空間バンドパスフィルタBθ(mS,nT)の値は1となる。つまり、空間バンドパスフィルタBθ(mS,nT)は、空間周波数の透過周波数帯域、かつ時間周波数の透過周波数帯域の成分のみを透過させる空間フィルタとなる。
(空間周波数合成部)
続いて、空間周波数合成部39について説明する。
空間周波数合成部39は、次式(12)を計算することで、空間フィルタ適用部38から供給された空間フィルタスペクトルF(mS,nT,l)の空間周波数合成、すなわち空間フィルタスペクトルF(mS,nT,l)に対する逆空間周波数変換を行い、時間周波数スペクトルD(nspk,nT,l)を算出する。式(12)では、逆空間周波数変換として、DFT(Discrete Fourier Transform)(離散フーリエ変換)が行われる。
Figure 0006604331
なお、式(12)において、nspkはスピーカアレイ41を構成するスピーカを特定するスピーカインデクスを示している。また、MSはDFTのポイント数を示しており、iは純虚数を示している。
空間周波数合成部39は、このようにして得られた時間周波数スペクトルD(nspk,nT,l)を時間周波数合成部40に供給する。
(時間周波数合成部)
時間周波数合成部40は、次式(13)の計算を行うことで、空間周波数合成部39から供給された時間周波数スペクトルD(nspk,nT,l)の時間周波数合成を行い、出力フレーム信号dfr(nspk,nfr,l)を得る。ここでは、時間周波数合成として、ISTFT(Inverse Short Time Fourier Transform)(短時間逆フーリエ変換)が用いられているが、時間周波数分析部32で行われる時間周波数変換(順変換)の逆変換に相当するものを用いればよい。
Figure 0006604331
なお、式(13)におけるD’(nspk,mT,l)は、次式(14)により得られるものである。
Figure 0006604331
式(13)においてiは純虚数を示しており、nfrは時間インデクスを示している。また、式(13)および式(14)において、MTはISTFTのポイント数を示しており、nspkはスピーカインデクスを示している。
さらに、時間周波数合成部40は、得られた出力フレーム信号dfr(nspk,nfr,l)に、窓関数wT(nfr)を乗算し、オーバーラップ加算を行うことでフレーム合成を行う。例えば、次式(15)の計算によりフレーム合成が行われて、出力信号d(nspk,t)が求められる。
Figure 0006604331
なお、ここでは、出力フレーム信号dfr(nspk,nfr,l)に乗算する窓関数wT(nfr)として、時間周波数分析部32で用いた窓関数と同じものを用いているが、ハミング窓などのその他の窓の場合は矩形窓で構わない。
また、式(15)において、dprev(nspk,nfr+lNfr)およびdcurr(nspk,nfr+lNfr)は、どちらも出力信号d(nspk,t)を示しているが、dprev(nspk,nfr+lNfr)は更新前の値を示し、dcurr(nspk,nfr+lNfr)は更新後の値を示している。
時間周波数合成部40は、このようにして得られた出力信号d(nspk,t)を、スピーカ駆動信号としてスピーカアレイ41に供給する。
〈音場再現処理の説明〉
次に、以上において説明した空間エリアシング制御器11により行われる処理の流れについて説明する。空間エリアシング制御器11は、収音空間における音声の平面波の収音が指示されると、その平面波の収音を行って音場を再現する音場再現処理を行う。
以下、図6のフローチャートを参照して空間エリアシング制御器11による音場再現処理について説明する。
ステップS11において、マイクアレイ31は収音空間において音声の平面波を収音し、その結果得られた収音信号s(nmic,t)を時間周波数分析部32に供給する。
ステップS12において、時間周波数分析部32はマイクアレイ31から供給された収音信号s(nmic,t)の時間周波数情報を分析する。
具体的には、時間周波数分析部32は収音信号s(nmic,t)に対して時間フレーム分割を行い、その結果得られた入力フレーム信号sfr(nmic,nfr,l)に窓関数wT(nfr)を乗算し、窓関数適用信号sw(nmic,nfr,l)を算出する。
また、時間周波数分析部32は、窓関数適用信号sw(nmic,nfr,l)に対して時間周波数変換を行い、その結果得られた時間周波数スペクトルS(nmic,nT,l)を空間周波数分析部33に供給する。すなわち、式(6)の計算が行われて時間周波数スペクトルS(nmic,nT,l)が算出される。
ステップS13において、空間周波数分析部33は、時間周波数分析部32から供給された時間周波数スペクトルS(nmic,nT,l)に対して空間周波数変換を行い、その結果得られた空間周波数スペクトルSSP(nS,nT,l)を通信部34に供給する。
具体的には、空間周波数分析部33は式(7)を計算することで、時間周波数スペクトルS(nmic,nT,l)を空間周波数スペクトルSSP(nS,nT,l)に変換する。
ステップS14において、通信部34は、空間周波数分析部33から供給された空間周波数スペクトルSSP(nS,nT,l)を、無線通信により再現空間に配置された受信器22に送信する。そして、ステップS15において、受信器22の通信部36は、無線通信により送信されてきた空間周波数スペクトルSSP(nS,nT,l)を受信し、駆動信号生成部37に供給する。
ステップS16において、方位情報取得部35は話者方位情報θを取得し、空間フィルタ適用部38に供給する。例えば話者方位情報θは、予め定められていてもよいし、送信器21等から取得されるようにしてもよい。
ステップS17において、駆動信号生成部37は、通信部36から供給された空間周波数スペクトルSSP(nS,nT,l)に基づいて空間領域のスピーカ駆動信号DSP(mS,nT,l)を算出し、空間フィルタ適用部38に供給する。例えば駆動信号生成部37は、式(8)を計算することで、空間領域のスピーカ駆動信号DSP(mS,nT,l)を算出する。
ステップS18において、空間フィルタ適用部38は、方位情報取得部35から供給された話者方位情報θに基づいて、空間バンドパスフィルタBθ(mS,nT)の特性を決定する。
例えば、空間フィルタ適用部38は、上述した式(9)および式(10)を計算して、空間バンドパスフィルタBθ(mS,nT)の中心周波数kcenおよびバンド幅klenを算出することで空間バンドパスフィルタBθ(mS,nT)の特性、つまり透過周波数帯域を決定する。
ステップS19において、空間フィルタ適用部38は、駆動信号生成部37から供給されたスピーカ駆動信号DSP(mS,nT,l)に対して、決定された特性の空間バンドパスフィルタBθ(mS,nT)を適用する。
すなわち、空間フィルタ適用部38は式(11)の計算を行うことで、スピーカ駆動信号DSP(mS,nT,l)に対して、空間バンドパスフィルタBθ(mS,nT)を用いたフィルタ処理を施し、空間フィルタスペクトルF(mS,nT,l)を得る。
空間フィルタ適用部38は、フィルタ処理により得られた空間フィルタスペクトルF(mS,nT,l)を、空間周波数合成部39に供給する。
ステップS20において、空間周波数合成部39は、空間フィルタ適用部38から供給された空間フィルタスペクトルF(mS,nT,l)に対して逆空間周波数変換を行い、その結果得られた時間周波数スペクトルD(nspk,nT,l)を時間周波数合成部40に供給する。例えば空間周波数合成部39は、式(12)を計算することで逆空間周波数変換を行う。
ステップS21において、時間周波数合成部40は、空間周波数合成部39から供給された時間周波数スペクトルD(nspk,nT,l)の時間周波数合成を行う。
具体的には、時間周波数合成部40は式(13)の計算を行って、時間周波数スペクトルD(nspk,nT,l)から出力フレーム信号dfr(nspk,nfr,l)を算出する。さらに時間周波数合成部40は、出力フレーム信号dfr(nspk,nfr,l)に窓関数wT(nfr)を乗算して式(15)の計算を行い、フレーム合成により出力信号d(nspk,t)を算出する。
時間周波数合成部40は、このようにして得られた出力信号d(nspk,t)を、スピーカ駆動信号としてスピーカアレイ41に供給する。
ステップS22において、スピーカアレイ41は、時間周波数合成部40から供給されたスピーカ駆動信号に基づいて音声を再生し、音場再現処理は終了する。このようにしてスピーカ駆動信号に基づいて音声が再生されると、再現空間において収音空間の音場が再現される。
以上のようにして空間エリアシング制御器11は、話者方位情報θに基づいて空間バンドパスフィルタBθ(mS,nT)の特性を決定するとともに、空間バンドパスフィルタBθ(mS,nT)をスピーカ駆動信号DSP(mS,nT,l)に適用し、空間エリアシングを低減させる。
このように話者方位情報θに応じた特性の空間バンドパスフィルタBθ(mS,nT)を用いて空間エリアシングを低減させることで上限時間周波数flimを上昇させ、音質を向上させるとともに音像の定位を改善することができる。しかも、空間エリアシング制御器11では、特別なスピーカアレイを用意する必要もなく、フィルタ処理という簡単な処理で空間エリアシングを低減させることができるので、より低コストで上限時間周波数を上昇させることができる。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図7は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
[1]
音源の方向を示す方位情報を取得する方位情報取得部と、
複数のマイクロフォンからなるマイクアレイにより前記音源からの音声を収音して得られた収音信号に対して、前記方位情報により定まる特性の空間フィルタを適用する空間フィルタ適用部と
を備える音声処理装置。
[2]
前記空間フィルタ適用部は、前記方位情報に基づいて、前記空間フィルタの特性として中心周波数およびバンド幅を決定する
[1]に記載の音声処理装置。
[3]
前記空間フィルタは、前記中心周波数および前記バンド幅により定まる空間周波数の帯域を透過周波数帯域として、前記収音信号の透過周波数帯域の成分を透過させるフィルタである
[2]に記載の音声処理装置。
[4]
前記空間フィルタは、前記中心周波数および前記バンド幅により定まる時間周波数の帯域を透過周波数帯域として、前記収音信号の透過周波数帯域の成分を透過させるフィルタである
[2]または[3]に記載の音声処理装置。
[5]
前記空間フィルタ適用部は、前記方位情報により示される前記音源の方向と、前記マイクアレイとのなす角度がπ/2に近くなるほど前記バンド幅が広くなるように前記空間フィルタの特性を決定する
[2]乃至[4]の何れか一項に記載の音声処理装置。
[6]
前記マイクアレイは直線マイクアレイである
[1]乃至[5]の何れか一項に記載の音声処理装置。
[7]
音源の方向を示す方位情報を取得し、
複数のマイクロフォンからなるマイクアレイにより前記音源からの音声を収音して得られた収音信号に対して、前記方位情報により定まる特性の空間フィルタを適用する
ステップを含む音声処理方法。
[8]
音源の方向を示す方位情報を取得し、
複数のマイクロフォンからなるマイクアレイにより前記音源からの音声を収音して得られた収音信号に対して、前記方位情報により定まる特性の空間フィルタを適用する
ステップを含む処理をコンピュータに実行させるプログラム。
11 空間エリアシング制御器, 31 マイクアレイ, 32 時間周波数分析部, 33 空間周波数分析部, 35 方位情報取得部, 37 駆動信号生成部, 38 空間フィルタ適用部, 39 空間周波数合成部, 40 時間周波数合成部, 41 スピーカアレイ

Claims (7)

  1. 音源の方向を示す方位情報を取得する方位情報取得部と、
    前記方位情報に基づいて、空間フィルタの特性として中心周波数およびバンド幅を決定し、複数のマイクロフォンからなるマイクアレイにより前記音源からの音声を収音して得られた収音信号に対して、前記空間フィルタを適用する空間フィルタ適用部と
    を備える音声処理装置。
  2. 前記空間フィルタは、前記中心周波数および前記バンド幅により定まる空間周波数の帯域を透過周波数帯域として、前記収音信号の透過周波数帯域の成分を透過させるフィルタである
    請求項1に記載の音声処理装置。
  3. 前記空間フィルタは、前記中心周波数および前記バンド幅により定まる時間周波数の帯域を透過周波数帯域として、前記収音信号の透過周波数帯域の成分を透過させるフィルタである
    請求項1または請求項2に記載の音声処理装置。
  4. 前記空間フィルタ適用部は、前記方位情報により示される前記音源の方向と、前記マイクアレイとのなす角度がπ/2に近くなるほど前記バンド幅が広くなるように前記空間フィルタの特性を決定する
    請求項1乃至請求項3の何れか一項に記載の音声処理装置。
  5. 前記マイクアレイは直線マイクアレイである
    請求項1乃至請求項4の何れか一項に記載の音声処理装置。
  6. 音源の方向を示す方位情報を取得し、
    前記方位情報に基づいて、空間フィルタの特性として中心周波数およびバンド幅を決定し、複数のマイクロフォンからなるマイクアレイにより前記音源からの音声を収音して得られた収音信号に対して、前記空間フィルタを適用する
    ステップを含む音声処理方法。
  7. 音源の方向を示す方位情報を取得し、
    前記方位情報に基づいて、空間フィルタの特性として中心周波数およびバンド幅を決定し、複数のマイクロフォンからなるマイクアレイにより前記音源からの音声を収音して得られた収音信号に対して、前記空間フィルタを適用する
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2016553046A 2014-10-10 2015-09-28 音声処理装置および方法、並びにプログラム Active JP6604331B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014208865 2014-10-10
JP2014208865 2014-10-10
PCT/JP2015/077242 WO2016056410A1 (ja) 2014-10-10 2015-09-28 音声処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JPWO2016056410A1 JPWO2016056410A1 (ja) 2017-07-20
JP6604331B2 true JP6604331B2 (ja) 2019-11-13

Family

ID=55653027

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016553046A Active JP6604331B2 (ja) 2014-10-10 2015-09-28 音声処理装置および方法、並びにプログラム

Country Status (5)

Country Link
US (1) US10602266B2 (ja)
EP (1) EP3206415B1 (ja)
JP (1) JP6604331B2 (ja)
CN (1) CN106797526B (ja)
WO (1) WO2016056410A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106165444B (zh) 2014-04-16 2019-09-17 索尼公司 声场再现设备、方法和程序
WO2017038543A1 (ja) 2015-09-03 2017-03-09 ソニー株式会社 音声処理装置および方法、並びにプログラム
EP3389285B1 (en) 2015-12-10 2021-05-05 Sony Corporation Speech processing device, method, and program
JP6881459B2 (ja) 2016-09-01 2021-06-02 ソニーグループ株式会社 情報処理装置、情報処理方法及び記録媒体
CN106604191A (zh) * 2016-12-20 2017-04-26 广州视源电子科技股份有限公司 一种扩音方法及扩音系统
US11565365B2 (en) * 2017-11-13 2023-01-31 Taiwan Semiconductor Manufacturing Co., Ltd. System and method for monitoring chemical mechanical polishing
JP6959134B2 (ja) * 2017-12-28 2021-11-02 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America エリア再生方法、エリア再生プログラム及びエリア再生システム
WO2020241050A1 (ja) * 2019-05-28 2020-12-03 ソニー株式会社 音声処理装置、音声処理方法およびプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59193380A (ja) * 1983-04-18 1984-11-01 Yokogawa Medical Syst Ltd 方位角適応型フエ−ズド・アレイ・ソ−ナ−
JP4124182B2 (ja) 2004-08-27 2008-07-23 ヤマハ株式会社 アレイスピーカ装置
JP2008048294A (ja) 2006-08-18 2008-02-28 Kanazawa Univ 指向性アレーマイクロホンおよび指向性アレースピーカ
US8238569B2 (en) * 2007-10-12 2012-08-07 Samsung Electronics Co., Ltd. Method, medium, and apparatus for extracting target sound from mixed sound
JP5299233B2 (ja) * 2009-11-20 2013-09-25 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
RU2570359C2 (ru) 2010-12-03 2015-12-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Прием звука посредством выделения геометрической информации из оценок направления его поступления
JP2012150237A (ja) * 2011-01-18 2012-08-09 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
JP2014014410A (ja) * 2012-07-06 2014-01-30 Sony Corp 記憶制御装置、記憶制御システムおよびプログラム
EP2738762A1 (en) * 2012-11-30 2014-06-04 Aalto-Korkeakoulusäätiö Method for spatial filtering of at least one first sound signal, computer readable storage medium and spatial filtering system based on cross-pattern coherence
EP2747451A1 (en) * 2012-12-21 2014-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
CN104010265A (zh) * 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
JP5741866B2 (ja) * 2013-03-05 2015-07-01 日本電信電話株式会社 音場収音再生装置、方法及びプログラム
JP5986966B2 (ja) * 2013-08-12 2016-09-06 日本電信電話株式会社 音場収音再生装置、方法及びプログラム

Also Published As

Publication number Publication date
CN106797526B (zh) 2019-07-12
EP3206415A4 (en) 2018-06-06
EP3206415A1 (en) 2017-08-16
WO2016056410A1 (ja) 2016-04-14
EP3206415B1 (en) 2019-09-04
CN106797526A (zh) 2017-05-31
JPWO2016056410A1 (ja) 2017-07-20
US10602266B2 (en) 2020-03-24
US20180279042A1 (en) 2018-09-27

Similar Documents

Publication Publication Date Title
JP6604331B2 (ja) 音声処理装置および方法、並びにプログラム
EP3320692B1 (en) Spatial audio processing apparatus
US11310617B2 (en) Sound field forming apparatus and method
US9361898B2 (en) Three-dimensional sound compression and over-the-air-transmission during a call
EP2777298B1 (en) Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating a spherical harmonics representation or an ambisonics representation of the sound field
EP3080806B1 (en) Extraction of reverberant sound using microphone arrays
WO2015196729A1 (zh) 一种麦克风阵列语音增强方法及装置
US20160066117A1 (en) Sound Signal Processing Method and Apparatus
EP3073766A1 (en) Sound field re-creation device, method, and program
EP3133833B1 (en) Sound field reproduction apparatus, method and program
JP6508539B2 (ja) 音場収音装置および方法、音場再生装置および方法、並びにプログラム
WO2017208822A1 (ja) 局所消音音場形成装置および方法、並びにプログラム
JP5734329B2 (ja) 音場収音再生装置、方法及びプログラム
CN110890100B (zh) 语音增强、多媒体数据采集、播放方法、装置及监控系统
US20130253923A1 (en) Multichannel enhancement system for preserving spatial cues
JP4116600B2 (ja) 収音方法、収音装置、収音プログラム、およびこれを記録した記録媒体
JP6323901B2 (ja) 収音装置および収音方法、並びにプログラム
JP2013150027A (ja) 音場収音再生装置、方法及びプログラム
WO2021212287A1 (zh) 音频信号处理方法、音频处理装置及录音设备
JP5734327B2 (ja) 音場収音再生装置、方法及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180921

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190828

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190930

R151 Written notification of patent or utility model registration

Ref document number: 6604331

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151