JP5486694B2 - 音声強調方法、装置、プログラム、記録媒体 - Google Patents
音声強調方法、装置、プログラム、記録媒体 Download PDFInfo
- Publication number
- JP5486694B2 JP5486694B2 JP2012549909A JP2012549909A JP5486694B2 JP 5486694 B2 JP5486694 B2 JP 5486694B2 JP 2012549909 A JP2012549909 A JP 2012549909A JP 2012549909 A JP2012549909 A JP 2012549909A JP 5486694 B2 JP5486694 B2 JP 5486694B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- filter
- speech enhancement
- frequency
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 272
- 238000012546 transfer Methods 0.000 claims description 129
- 239000011159 matrix material Substances 0.000 claims description 120
- 238000013461 design Methods 0.000 claims description 114
- 239000013598 vector Substances 0.000 claims description 79
- 238000012545 processing Methods 0.000 claims description 48
- 230000001629 suppression Effects 0.000 claims description 25
- 230000005540 biological transmission Effects 0.000 claims description 13
- 230000015556 catabolic process Effects 0.000 claims description 12
- 238000006731 degradation reaction Methods 0.000 claims description 12
- 238000005259 measurement Methods 0.000 claims description 9
- 230000005236 sound signal Effects 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 description 117
- 238000005516 engineering process Methods 0.000 description 49
- 230000004044 response Effects 0.000 description 32
- 238000010586 diagram Methods 0.000 description 30
- 238000006243 chemical reaction Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 24
- 238000004364 calculation method Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 17
- 230000007613 environmental effect Effects 0.000 description 11
- 238000005070 sampling Methods 0.000 description 9
- 230000006866 deterioration Effects 0.000 description 8
- 238000007476 Maximum Likelihood Methods 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 7
- 238000003491 array Methods 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 7
- 238000005284 basis set Methods 0.000 description 6
- 238000012938 design process Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 239000004576 sand Substances 0.000 description 6
- 230000017105 transposition Effects 0.000 description 6
- 239000006185 dispersion Substances 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 238000009434 installation Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 238000001308 synthesis method Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000005309 stochastic process Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000011426 transformation method Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000037081 physical activity Effects 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/03—Synergistic effects of band splitting and sub-band processing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Description
本発明は、所望の狭い範囲の音声を強調可能な技術(音声強調技術)に関する。
例えばマイクロホンを備えた動画撮影装置(ビデオカメラやカムコーダ)で被写体をズームイン撮影する場合を考えると、ズームイン撮影に連動して被写体近傍のみからの音声が強調されることが動画撮影にとって好ましい。このような、所望の方向(目的方向)を含む狭い範囲の音声を強調する技術(狭指向音声強調技術)は、従来から研究・開発されている。なお、マイクロホンの周囲の方向とマイクロホンの感度との関係は指向性と呼ばれ、或る方向への指向性が鋭いほど、当該方向を含む狭い範囲の音声を強調し、当該範囲以外の範囲の音声を抑圧することができる。ここでは、まず、狭指向音声強調技術に関する3つの従来技術を例示する。なお、この明細書では、「音声」は、人の発する声に限定されるものではなく、人や動物の声はもとより楽音や環境雑音など「音」一般を指す。
[1]物理特性を用いた狭指向音声強調技術
このカテゴリの代表的な例として、音響管マイクとパラボラマイクが挙げられる。まず、図1を参照して、音響管マイク900の原理について述べる。音響管マイク900は音の干渉を利用して、目的方向から到来した音声を強調するマイクロホンである。図1Aは、音響管マイク900によって、目的方向から到来した音声が強調されることを説明するための図である。音響管マイク900を構成する音響管901の開口部は目的方向に向けられる。そして、音響管901の開口部の正面(目的方向)から到来した音声は、そのまま音響管901の内部を直進するので、当該音声は低エネルギー損失で音響管マイク900を構成するマイクロホン902に到達する。他方、図1Bに示すように、目的方向以外から到来した音声は、音響管901の側面に刻まれた多数のスリット903を通じて音響管901に進入するが、これらスリット903を通じて進入した音声は互いに干渉する。このため、目的方向以外から到来した音声がマイクロホン902に到達するときの音圧レベルは弱まる。
次に、図2を参照して、パラボラマイク910の原理について述べる。パラボラマイク910は音の反射を利用して、目的方向から到来した音声を強調するマイクロホンである。図2Aは、パラボラマイク910によって、目的方向から到来した音声が強調されることを説明するための図である。パラボラマイク910を構成するパラボラ板(放物面)911の頂点と当該パラボラ板911の焦点とを結ぶ直線が目的方向と重なるように、パラボラ板911は目的方向に向けられる。そして、目的方向から到来した音声は、パラボラ板911で反射し焦点に集中する。従って、焦点に設置されたマイクロホン912は、たとえエネルギーが低い音声信号であってもこれを強調して収音することができる。他方、図2Bに示すように、目的方向以外から到来した音声のパラボラ板911での反射音は焦点に集中しない。従って、目的方向以外から到来した音声がマイクロホン912に到達するときの音圧レベルは弱まる。
[2]信号処理を用いた狭指向音声強調技術
このカテゴリの代表的な例として、フェーズドマイクロホンアレーが挙げられる(非特許文献1参照)。図3は、複数のマイクロホンで構成されたフェーズドマイクロホンアレーを用いて、目的方向の音声を強調し、目的方向以外の方向の音声を抑圧していることを説明するための図である。フェーズドマイクロホンアレーは、各マイクロホンで収音された信号に時間差や音圧レベル差の情報が含まれているフィルタを掛けて重畳する信号処理を行うことで、目的方向の音声を強調している。カテゴリ[1]で説明した音響管マイクやパラボラマイクとは異なり、フェーズドマイクロホンアレーは、信号処理によって音声強調を行うため、任意の方向の音声を強調することができる。
[3]反射音を選択収音することによる狭指向音声強調技術
このカテゴリの代表的な例として、マルチビームフォーミング法がある(非特許文献2参照)。マルチビームフォーミング法は、直接音や反射音という個々の音を寄せ集めることで、高SN比で目的方向の音声を収音することができる狭指向音声強調技術であり、音声分野よりも無線分野でよく研究されている。
以下、周波数領域でのマルチビームフォーミング法の処理内容を説明する。説明に先立ち、記号を定義する。周波数のインデックスをω、フレーム番号のインデックスをkとする。M個のマイクロホンで受音したアナログ信号の周波数領域表現をX→(ω,k)=[X1(ω,k),…,XM(ω,k)]T、方向θsにある強調したい音源からの直接音の到来方向をθs1、反射音の到来方向をθs2,…,θsRとする。Tは転置を表し、R−1は反射音の総数である。方向θsrの音声を強調するフィルタをW→(ω,θsr)とする。ここで、rは1≦r≦Rを満たす各整数である。
マルチビームフォーミング法では、直接音および反射音の到来方向や到来時間が既知であることが前提である。つまり、音の反射が明らかに予想できる壁、床、反射板といった物体の数がR−1に等しい。また、反射音数R−1は3あるいは4という比較的小さな値に設定されることが多い。これは、直接音と低次の反射音との間に高い相関性が認められることに基づく。マルチビームフォーミング法は、各々の音声を個別に強調して同期加算する方式なので、出力信号Y(ω,k,θs)は式(1)で与えられる。Hはエルミート転置を表す。
フィルタW→(ω,θsr)の設計法として遅延合成法を説明する。直接音や反射音が平面波到来すると仮定すると、フィルタW→(ω,θsr)は式(2)で与えられる。h→(ω,θsr)=[h1(ω,θsr),…,hM(ω,θsr)]Tは、方向θsrから到来する音声の伝搬ベクトルである。
線形マイクロホンアレー(M個のマイクロホンが直線状に並べられたマイクロホンアレー)に平面波が到来することを仮定すると、h→(ω,θsr)を構成する要素hm(ω,θsr)は式(3)で与えられる。mは1≦m≦Mを満たす各整数である。cは音速を、uは隣り合うマイクロホン間の距離を表す。jは虚数単位である。τ(θsr)は、方向θsrから到来する反射音の直接音に対する時間遅延を表す。
最後に、出力信号Y(ω,k,θs)を時間領域に変換することによって、目的方向θsにある音源の音声を強調した信号が得られる。
マルチビームフォーミング法による狭指向音声強調技術の機能構成を図4に示す。
ステップ1
AD変換部110は、M個のマイクロホン100−1,…,100−Mの出力であるアナログ信号をディジタル信号x→(t)=[x1(t),…,xM(t)]Tに変換する。ここでtは離散時間のインデックスを表す。
ステップ2
周波数領域変換部120は、各チャネルのディジタル信号を高速離散フーリエ変換などの手法で周波数領域信号に変換する。例えば、m番目(1≦m≦M)のマイクロホンについて、N点の信号xm((k−1)N+1),…,xm(kN)をバッファに貯める。Nは16KHzサンプリングの場合で512程度である。バッファに貯められたMチャネルのアナログ信号を高速離散フーリエ変換処理することによって、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tを得る。
ステップ3
各強調フィルタリング部130−r(1≦r≦R)は、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに対して方向θsrのフィルタW→H(ω,θsr)を適用し、方向θsrの音声が強調された信号Zr(ω,k)を出力する。つまり、各強調フィルタリング部130−r(1≦r≦R)は、式(4)で表される処理を行う。
ステップ4
加算部140は、信号Z1(ω,k),…,ZR(ω,k)を入力として、加算信号Y(ω,k)を出力する。加算処理は式(5)で表わされる。
ステップ5
時間領域変換部150は、加算信号Y(ω,k)を時間領域に変換して方向θsの音声が強調された時間領域信号y(t)を出力する。
このような狭指向音声強調技術において、例えば、ほぼ同じ方向にマイクロホンからの距離が異なる複数の音源がある場合に、各音源から発せられた音声を区別して強調することが望まれる場合がある。先の例を引用してマイクロホンを備えた動画撮影装置で或る被写体をズームイン撮影する場合を考えると、例えば、フォーカスされた当該被写体(「フォーカス音源」という)の後方であってマイクロホンの指向性の範囲内に別の音源(「後方音源」という)が存在すると、フォーカス音源からの音声と後方音源からの音声が混在したまま強調され、視聴者に違和感を与えてしまう。このように、所望の方向を含む狭い範囲の音声をマイクロホンからの距離に応じて強調可能な技術(音声スポット強調技術)が望まれる。ここでは、音声スポット強調技術に関する3つの従来技術を例示する。
(1)非特許文献3に開示される技術は、音波が球面波となる近接音場での遅延和アレーの最適設計法を開示しており、このアレーの設計の際に、音源位置における目的信号と不要音(暗騒音や残響など)とのSN比が最大となるようにしている。
(2)非特許文献4に開示される技術は、小規模の2個のマイクロホンアレーを必須の構成要素とし、大型のマイクロホンアレーを使用しなくても距離に応じたスポット収音を可能としている。
(3)非特許文献5に開示される技術は、1個のマイクロホンアレーであっても、音源との距離を識別し、特定の距離範囲にある音源からの音だけを強調若しくは抑圧することで雑音を除去する。この方式は、音源から直接到来する音のパワーと反射して到来する音のパワーが距離によって変化する性質を利用して、音源の距離に応じて音声の強調を可能としている。
[1]物理特性を用いた狭指向音声強調技術
このカテゴリの代表的な例として、音響管マイクとパラボラマイクが挙げられる。まず、図1を参照して、音響管マイク900の原理について述べる。音響管マイク900は音の干渉を利用して、目的方向から到来した音声を強調するマイクロホンである。図1Aは、音響管マイク900によって、目的方向から到来した音声が強調されることを説明するための図である。音響管マイク900を構成する音響管901の開口部は目的方向に向けられる。そして、音響管901の開口部の正面(目的方向)から到来した音声は、そのまま音響管901の内部を直進するので、当該音声は低エネルギー損失で音響管マイク900を構成するマイクロホン902に到達する。他方、図1Bに示すように、目的方向以外から到来した音声は、音響管901の側面に刻まれた多数のスリット903を通じて音響管901に進入するが、これらスリット903を通じて進入した音声は互いに干渉する。このため、目的方向以外から到来した音声がマイクロホン902に到達するときの音圧レベルは弱まる。
次に、図2を参照して、パラボラマイク910の原理について述べる。パラボラマイク910は音の反射を利用して、目的方向から到来した音声を強調するマイクロホンである。図2Aは、パラボラマイク910によって、目的方向から到来した音声が強調されることを説明するための図である。パラボラマイク910を構成するパラボラ板(放物面)911の頂点と当該パラボラ板911の焦点とを結ぶ直線が目的方向と重なるように、パラボラ板911は目的方向に向けられる。そして、目的方向から到来した音声は、パラボラ板911で反射し焦点に集中する。従って、焦点に設置されたマイクロホン912は、たとえエネルギーが低い音声信号であってもこれを強調して収音することができる。他方、図2Bに示すように、目的方向以外から到来した音声のパラボラ板911での反射音は焦点に集中しない。従って、目的方向以外から到来した音声がマイクロホン912に到達するときの音圧レベルは弱まる。
[2]信号処理を用いた狭指向音声強調技術
このカテゴリの代表的な例として、フェーズドマイクロホンアレーが挙げられる(非特許文献1参照)。図3は、複数のマイクロホンで構成されたフェーズドマイクロホンアレーを用いて、目的方向の音声を強調し、目的方向以外の方向の音声を抑圧していることを説明するための図である。フェーズドマイクロホンアレーは、各マイクロホンで収音された信号に時間差や音圧レベル差の情報が含まれているフィルタを掛けて重畳する信号処理を行うことで、目的方向の音声を強調している。カテゴリ[1]で説明した音響管マイクやパラボラマイクとは異なり、フェーズドマイクロホンアレーは、信号処理によって音声強調を行うため、任意の方向の音声を強調することができる。
[3]反射音を選択収音することによる狭指向音声強調技術
このカテゴリの代表的な例として、マルチビームフォーミング法がある(非特許文献2参照)。マルチビームフォーミング法は、直接音や反射音という個々の音を寄せ集めることで、高SN比で目的方向の音声を収音することができる狭指向音声強調技術であり、音声分野よりも無線分野でよく研究されている。
以下、周波数領域でのマルチビームフォーミング法の処理内容を説明する。説明に先立ち、記号を定義する。周波数のインデックスをω、フレーム番号のインデックスをkとする。M個のマイクロホンで受音したアナログ信号の周波数領域表現をX→(ω,k)=[X1(ω,k),…,XM(ω,k)]T、方向θsにある強調したい音源からの直接音の到来方向をθs1、反射音の到来方向をθs2,…,θsRとする。Tは転置を表し、R−1は反射音の総数である。方向θsrの音声を強調するフィルタをW→(ω,θsr)とする。ここで、rは1≦r≦Rを満たす各整数である。
マルチビームフォーミング法では、直接音および反射音の到来方向や到来時間が既知であることが前提である。つまり、音の反射が明らかに予想できる壁、床、反射板といった物体の数がR−1に等しい。また、反射音数R−1は3あるいは4という比較的小さな値に設定されることが多い。これは、直接音と低次の反射音との間に高い相関性が認められることに基づく。マルチビームフォーミング法は、各々の音声を個別に強調して同期加算する方式なので、出力信号Y(ω,k,θs)は式(1)で与えられる。Hはエルミート転置を表す。
フィルタW→(ω,θsr)の設計法として遅延合成法を説明する。直接音や反射音が平面波到来すると仮定すると、フィルタW→(ω,θsr)は式(2)で与えられる。h→(ω,θsr)=[h1(ω,θsr),…,hM(ω,θsr)]Tは、方向θsrから到来する音声の伝搬ベクトルである。
線形マイクロホンアレー(M個のマイクロホンが直線状に並べられたマイクロホンアレー)に平面波が到来することを仮定すると、h→(ω,θsr)を構成する要素hm(ω,θsr)は式(3)で与えられる。mは1≦m≦Mを満たす各整数である。cは音速を、uは隣り合うマイクロホン間の距離を表す。jは虚数単位である。τ(θsr)は、方向θsrから到来する反射音の直接音に対する時間遅延を表す。
最後に、出力信号Y(ω,k,θs)を時間領域に変換することによって、目的方向θsにある音源の音声を強調した信号が得られる。
マルチビームフォーミング法による狭指向音声強調技術の機能構成を図4に示す。
ステップ1
AD変換部110は、M個のマイクロホン100−1,…,100−Mの出力であるアナログ信号をディジタル信号x→(t)=[x1(t),…,xM(t)]Tに変換する。ここでtは離散時間のインデックスを表す。
ステップ2
周波数領域変換部120は、各チャネルのディジタル信号を高速離散フーリエ変換などの手法で周波数領域信号に変換する。例えば、m番目(1≦m≦M)のマイクロホンについて、N点の信号xm((k−1)N+1),…,xm(kN)をバッファに貯める。Nは16KHzサンプリングの場合で512程度である。バッファに貯められたMチャネルのアナログ信号を高速離散フーリエ変換処理することによって、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tを得る。
ステップ3
各強調フィルタリング部130−r(1≦r≦R)は、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに対して方向θsrのフィルタW→H(ω,θsr)を適用し、方向θsrの音声が強調された信号Zr(ω,k)を出力する。つまり、各強調フィルタリング部130−r(1≦r≦R)は、式(4)で表される処理を行う。
ステップ4
加算部140は、信号Z1(ω,k),…,ZR(ω,k)を入力として、加算信号Y(ω,k)を出力する。加算処理は式(5)で表わされる。
ステップ5
時間領域変換部150は、加算信号Y(ω,k)を時間領域に変換して方向θsの音声が強調された時間領域信号y(t)を出力する。
このような狭指向音声強調技術において、例えば、ほぼ同じ方向にマイクロホンからの距離が異なる複数の音源がある場合に、各音源から発せられた音声を区別して強調することが望まれる場合がある。先の例を引用してマイクロホンを備えた動画撮影装置で或る被写体をズームイン撮影する場合を考えると、例えば、フォーカスされた当該被写体(「フォーカス音源」という)の後方であってマイクロホンの指向性の範囲内に別の音源(「後方音源」という)が存在すると、フォーカス音源からの音声と後方音源からの音声が混在したまま強調され、視聴者に違和感を与えてしまう。このように、所望の方向を含む狭い範囲の音声をマイクロホンからの距離に応じて強調可能な技術(音声スポット強調技術)が望まれる。ここでは、音声スポット強調技術に関する3つの従来技術を例示する。
(1)非特許文献3に開示される技術は、音波が球面波となる近接音場での遅延和アレーの最適設計法を開示しており、このアレーの設計の際に、音源位置における目的信号と不要音(暗騒音や残響など)とのSN比が最大となるようにしている。
(2)非特許文献4に開示される技術は、小規模の2個のマイクロホンアレーを必須の構成要素とし、大型のマイクロホンアレーを使用しなくても距離に応じたスポット収音を可能としている。
(3)非特許文献5に開示される技術は、1個のマイクロホンアレーであっても、音源との距離を識別し、特定の距離範囲にある音源からの音だけを強調若しくは抑圧することで雑音を除去する。この方式は、音源から直接到来する音のパワーと反射して到来する音のパワーが距離によって変化する性質を利用して、音源の距離に応じて音声の強調を可能としている。
O.L.Frost,″An algorithm for linearly constrained adaptive array processing,″Proc.IEEE,vol.60,pp.926−935,1972.
J.L.Flanagan,A.C.Surendran,E.E.Jan,″Spatially selective sound capture for speech and audio processing,″Speech Communication,Volume 13,Issue 1−2,pp.207−222,October 1993.
野村博昭、金田豊、小島順治、"近接音場型マイクロホンアレー"、日本音響学会誌、Vol.53,No.2,pp.110−116,1997.
Yusuke Hioka,Kazunori Kobayashi,Kenichi Furuya and Akitoshi Kataoka,″Enhancement of Sound Sources Located within a Particular Area Using a Pair of Small Microphone Arrays,″IEICE Transactions on Fundamentals,Vol.E91−A,No.2,pp.561−574,August 2004.
日岡祐輔、丹羽健太、阪内澄宇、羽田陽一、"受音信号の直間比に基づく距離別収音の検討"、日本音響学会秋季研究発表会、pp.633−634,2009.
カテゴリ[1]で説明した狭指向音声強調技術によると、例えば音響管マイクとパラボラマイクの例から理解できるように、目的方向にマイクロホン自体を向けないと、目的方向から到来した音声を強調することができない。つまり、目的方向が変わりえる場合には、人の身体活動に拠らないのであれば、音響管マイクやパラボラマイクそのものの向きを変更するための駆動制御手段が必要になってしまう。また、パラボラマイクは、パラボラ板で反射した音声のエネルギーを焦点に集中できるので、高SN比収音の観点から優れていると言えるが、音響管マイクとパラボラマイクは共に、例えば見込み角5°〜10°程度の狭指向性(目的方向に対して±5°〜±10°程度の鋭い指向性)を実現することが困難である。
カテゴリ[2]で説明した狭指向音声強調技術によると、狭指向性を実現するためには、マイクロホン数を増やし、アレーサイズ(アレーの全長)を大きくすることが必要となる。フェーズドマイクロホンアレーを設置する空間の制約、コスト、リアルタイム処理を実行可能なマイクロホン数などの観点から、無制限にアレーサイズを大きくすることは現実的ではない。例えば、市場で入手可能なマイクロホンでリアルタイム処理が可能な信号の最大値は100程度であるところ、100本程度のマイクロホンを用いたフェーズドマイクロホンアレーで実現可能な指向性は目的方向に対して±30°程度であり、例えば±5°〜±10°程度の鋭い指向性で目的方向の音声を強調することは困難である。また、カテゴリ[2]の従来技術では、目的方向以外の方向の音声に埋もれないように目的方向の音声を高SN比で収音することが難しい。
カテゴリ[3]で説明した狭指向音声強調技術によると、目的方向以外の方向の音声に埋もれないように目的方向の音声を高SN比で収音することや上述の駆動制御手段を要することなく任意の方向の音声を強調することは可能であるが、狭指向性を実現することが難しい。特に、人の声は100Hz程度から2kHz程度の周波数成分を多く含んでいるが、カテゴリ[3]の従来技術によって、このような低周波帯域で目的方向に対して±5°〜±10°程度の鋭い指向性を実現することは困難である。
(1)で説明した音声スポット強調技術は、遅延和アレー方式であるため干渉源への対策が図られていない。(2)で説明した音声スポット強調技術によると、複数のマイクロホンアレーが必要なため装置規模の増大やコストの増大で不利益となりえる。マイクロホンアレーの大型化はその設置や運搬の制約となる。(3)で説明した音声スポット強調技術によると、環境変化によって残響の情報が変化するため、環境変化に頑健に対応し難い。
このような現状に鑑みて、第一に、本発明は、十分なSN比で収音し、マイクロホンの物理的な移動を要することなく任意の方向の音声に追従可能でもありながら、所望の方向に対して従来よりも鋭い指向性を有し、マイクロホンアレーからの距離に応じて音声を強調可能な音声強調技術(音声スポット強調技術)を提供することを目的とする。第二に、本発明は、十分なSN比で収音し、マイクロホンの物理的な移動を要することなく任意の方向の音声に追従可能でもありながら、所望の方向に対して従来よりも鋭い指向性を有する音声強調技術(狭指向音声強調技術)を提供することを目的とする。
カテゴリ[2]で説明した狭指向音声強調技術によると、狭指向性を実現するためには、マイクロホン数を増やし、アレーサイズ(アレーの全長)を大きくすることが必要となる。フェーズドマイクロホンアレーを設置する空間の制約、コスト、リアルタイム処理を実行可能なマイクロホン数などの観点から、無制限にアレーサイズを大きくすることは現実的ではない。例えば、市場で入手可能なマイクロホンでリアルタイム処理が可能な信号の最大値は100程度であるところ、100本程度のマイクロホンを用いたフェーズドマイクロホンアレーで実現可能な指向性は目的方向に対して±30°程度であり、例えば±5°〜±10°程度の鋭い指向性で目的方向の音声を強調することは困難である。また、カテゴリ[2]の従来技術では、目的方向以外の方向の音声に埋もれないように目的方向の音声を高SN比で収音することが難しい。
カテゴリ[3]で説明した狭指向音声強調技術によると、目的方向以外の方向の音声に埋もれないように目的方向の音声を高SN比で収音することや上述の駆動制御手段を要することなく任意の方向の音声を強調することは可能であるが、狭指向性を実現することが難しい。特に、人の声は100Hz程度から2kHz程度の周波数成分を多く含んでいるが、カテゴリ[3]の従来技術によって、このような低周波帯域で目的方向に対して±5°〜±10°程度の鋭い指向性を実現することは困難である。
(1)で説明した音声スポット強調技術は、遅延和アレー方式であるため干渉源への対策が図られていない。(2)で説明した音声スポット強調技術によると、複数のマイクロホンアレーが必要なため装置規模の増大やコストの増大で不利益となりえる。マイクロホンアレーの大型化はその設置や運搬の制約となる。(3)で説明した音声スポット強調技術によると、環境変化によって残響の情報が変化するため、環境変化に頑健に対応し難い。
このような現状に鑑みて、第一に、本発明は、十分なSN比で収音し、マイクロホンの物理的な移動を要することなく任意の方向の音声に追従可能でもありながら、所望の方向に対して従来よりも鋭い指向性を有し、マイクロホンアレーからの距離に応じて音声を強調可能な音声強調技術(音声スポット強調技術)を提供することを目的とする。第二に、本発明は、十分なSN比で収音し、マイクロホンの物理的な移動を要することなく任意の方向の音声に追従可能でもありながら、所望の方向に対して従来よりも鋭い指向性を有する音声強調技術(狭指向音声強調技術)を提供することを目的とする。
(音声スポット強調技術)
音源位置として想定される一つまたは複数の位置に含まれる各位置(ただし、各位置を識別するための方向をi、距離をgとする)からの音声の各マイクロホン(マイクロホン総数はM;M≧2)への伝達特性ai,gを用いて、音声強調の対象となる位置について、フィルタを求める[フィルタ設計処理]。各伝達特性ai,gは、方向iと距離gで定まる位置からの音声がM個のマイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してM個のマイクロホンに届く一つ以上の反射音の各伝達特性との和で表される。フィルタは、M個のマイクロホンで音声を収音して得られるM個の収音信号がそれぞれ周波数領域に変換された周波数領域信号に対して周波数ごとに適用されるものである。フィルタ設計処理で求められたフィルタを、周波数ごとに周波数領域信号に適用して出力信号を得る[フィルタ適用処理]。この出力信号が、音声強調の対象となる位置の音声が強調された周波数領域信号である。
各伝達特性ai,gは、具体例として、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正された一つ以上の反射音の各ステアリングベクトルとの和、あるいは、実環境下において実測で得られたものでもよい。
フィルタ設計処理では、音声強調の対象となる位置以外の位置からの音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる位置からの音声のSN比が最大となるように、周波数ごとにフィルタを求めてもよい。あるいは、M個のマイクロホンのうち一つのマイクロホンに対するフィルタ係数を一定値に固定した状態で音源位置として想定される一つまたは複数の位置以外の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。
あるいは、フィルタ設計処理では、(1)音声強調の対象となる位置の音声の全帯域通過、および(2)一つ以上の抑圧点の音声の全帯域抑制、の条件の下、音声強調の対象となる位置と各抑圧点以外の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる位置i=s,g=hの伝達特性as,hを正規化することによって、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる位置以外の各位置に対応する伝達特性ai,gによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる位置の音声の劣化量を所定量以下とする条件の下、音声強調の対象となる位置以外の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、音源位置として想定される一つまたは複数の位置に含まれる各位置に対応する伝達特性ai,gによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。
(狭指向音声強調技術)
音声の到来方向として想定される一つまたは複数の方向に含まれる各方向φの音声の各マイクロホン(マイクロホン総数はM;M≧2)への伝達特性aφを用いて、音声強調の対象となる方向についてフィルタを求める[フィルタ設計処理]。各伝達特性aφは、方向φの音声がM個のマイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してM個のマイクロホンに届く一つ以上の反射音の各伝達特性との和で表される。フィルタは、M個のマイクロホンで音声を収音して得られるM個の収音信号がそれぞれ周波数領域に変換された周波数領域信号に対して周波数ごとに適用されるものである。フィルタ設計処理で求められたフィルタを、周波数ごとに周波数領域信号に適用して出力信号を得る[フィルタ適用処理]。この出力信号が、音声強調の対象となる方向の音声が強調された周波数領域信号である。
各伝達特性aφは、具体例として、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正された一つ以上の反射音の各ステアリングベクトルとの和、あるいは、実環境下において実測で得られたものでもよい。
フィルタ設計処理では、音声強調の対象となる方向以外の方向の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる方向でのSN比が最大となるように、周波数ごとにフィルタを求めてもよい。あるいは、M個のマイクロホンのうち一つのマイクロホンに対するフィルタ係数を一定値に固定した状態で音声の到来方向として想定される一つまたは複数の方向の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。
あるいは、フィルタ設計処理では、(1)音声強調の対象となる方向の音声の全帯域通過、および(2)一つ以上の死角の音声の全帯域抑制、の条件の下、音声強調の対象となる方向と各死角とを除く方向の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる方向φ=sの伝達特性asを正規化することによって、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる方向以外の各方向に対応する伝達特性aφによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる方向の音声の劣化量を所定量以下とする条件の下、音声強調の対象となる方向以外の方向の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。
音源位置として想定される一つまたは複数の位置に含まれる各位置(ただし、各位置を識別するための方向をi、距離をgとする)からの音声の各マイクロホン(マイクロホン総数はM;M≧2)への伝達特性ai,gを用いて、音声強調の対象となる位置について、フィルタを求める[フィルタ設計処理]。各伝達特性ai,gは、方向iと距離gで定まる位置からの音声がM個のマイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してM個のマイクロホンに届く一つ以上の反射音の各伝達特性との和で表される。フィルタは、M個のマイクロホンで音声を収音して得られるM個の収音信号がそれぞれ周波数領域に変換された周波数領域信号に対して周波数ごとに適用されるものである。フィルタ設計処理で求められたフィルタを、周波数ごとに周波数領域信号に適用して出力信号を得る[フィルタ適用処理]。この出力信号が、音声強調の対象となる位置の音声が強調された周波数領域信号である。
各伝達特性ai,gは、具体例として、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正された一つ以上の反射音の各ステアリングベクトルとの和、あるいは、実環境下において実測で得られたものでもよい。
フィルタ設計処理では、音声強調の対象となる位置以外の位置からの音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる位置からの音声のSN比が最大となるように、周波数ごとにフィルタを求めてもよい。あるいは、M個のマイクロホンのうち一つのマイクロホンに対するフィルタ係数を一定値に固定した状態で音源位置として想定される一つまたは複数の位置以外の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。
あるいは、フィルタ設計処理では、(1)音声強調の対象となる位置の音声の全帯域通過、および(2)一つ以上の抑圧点の音声の全帯域抑制、の条件の下、音声強調の対象となる位置と各抑圧点以外の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる位置i=s,g=hの伝達特性as,hを正規化することによって、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる位置以外の各位置に対応する伝達特性ai,gによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる位置の音声の劣化量を所定量以下とする条件の下、音声強調の対象となる位置以外の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、音源位置として想定される一つまたは複数の位置に含まれる各位置に対応する伝達特性ai,gによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。
(狭指向音声強調技術)
音声の到来方向として想定される一つまたは複数の方向に含まれる各方向φの音声の各マイクロホン(マイクロホン総数はM;M≧2)への伝達特性aφを用いて、音声強調の対象となる方向についてフィルタを求める[フィルタ設計処理]。各伝達特性aφは、方向φの音声がM個のマイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してM個のマイクロホンに届く一つ以上の反射音の各伝達特性との和で表される。フィルタは、M個のマイクロホンで音声を収音して得られるM個の収音信号がそれぞれ周波数領域に変換された周波数領域信号に対して周波数ごとに適用されるものである。フィルタ設計処理で求められたフィルタを、周波数ごとに周波数領域信号に適用して出力信号を得る[フィルタ適用処理]。この出力信号が、音声強調の対象となる方向の音声が強調された周波数領域信号である。
各伝達特性aφは、具体例として、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正された一つ以上の反射音の各ステアリングベクトルとの和、あるいは、実環境下において実測で得られたものでもよい。
フィルタ設計処理では、音声強調の対象となる方向以外の方向の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる方向でのSN比が最大となるように、周波数ごとにフィルタを求めてもよい。あるいは、M個のマイクロホンのうち一つのマイクロホンに対するフィルタ係数を一定値に固定した状態で音声の到来方向として想定される一つまたは複数の方向の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。
あるいは、フィルタ設計処理では、(1)音声強調の対象となる方向の音声の全帯域通過、および(2)一つ以上の死角の音声の全帯域抑制、の条件の下、音声強調の対象となる方向と各死角とを除く方向の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる方向φ=sの伝達特性asを正規化することによって、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる方向以外の各方向に対応する伝達特性aφによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる方向の音声の劣化量を所定量以下とする条件の下、音声強調の対象となる方向以外の方向の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。
(音声スポット強調技術)
本発明の音声スポット強調技術に拠ると、所望の方向の直接音だけでなく反射音も利用しているため、当該方向について十分に大きいSN比で収音可能であるとともに、信号処理によって音声強調を行うことからマイクロホンの物理的な移動を要することなく任意の方向の音声に追従可能でもある。さらに、詳しくは後述の《音声スポット強調技術の原理》の項目で説明するが、各伝達特性ai,gを、方向iと距離gで定まる位置からの音声がM個のマイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してM個のマイクロホンに届く一つ以上の反射音の各伝達特性との和で表現することによって、一般的なフィルタ設計基準でフィルタを設計する際に、所望の方向の指向性の広狭を決定付けるコヒーレンスの抑圧の度合いを高くするようなフィルタを設計できる。つまり、所望の方向に対して従来よりも鋭い指向性を有することになる。さらに、詳しくは後述の《音声スポット強調技術の原理》の項目で説明するが、反射音を利用することによって、マイクロホンアレーから見てほぼ同じ方向だが距離が異なる位置からの音声について、異なる位置に対応する伝達特性間に有意な差分が生じることになる。この伝達特性間の差分をビームフォーミング法で抽出することによって所望の方向を含む狭い範囲の音声をマイクロホンアレーからの距離に応じて強調できる。
(狭指向音声強調技術)
本発明の狭指向音声強調技術に拠ると、所望の方向の直接音だけでなく反射音も利用しているため、当該方向について十分に大きいSN比で収音可能であるとともに、信号処理によって音声強調を行うことからマイクロホンの物理的な移動を要することなく任意の方向の音声に追従可能でもある。さらに、詳しくは後述の《狭指向音声強調技術の原理》の項目で説明するが、各伝達特性aφを、方向φの音声がM個のマイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してM個のマイクロホンに届く一つ以上の反射音の各伝達特性との和で表現することによって、一般的なフィルタ設計基準でフィルタを設計する際に、所望の方向の指向性の広狭を決定付けるコヒーレンスの抑圧の度合いを高くするようなフィルタを設計できる。つまり、所望の方向に対して従来よりも鋭い指向性を有することになる。
本発明の音声スポット強調技術に拠ると、所望の方向の直接音だけでなく反射音も利用しているため、当該方向について十分に大きいSN比で収音可能であるとともに、信号処理によって音声強調を行うことからマイクロホンの物理的な移動を要することなく任意の方向の音声に追従可能でもある。さらに、詳しくは後述の《音声スポット強調技術の原理》の項目で説明するが、各伝達特性ai,gを、方向iと距離gで定まる位置からの音声がM個のマイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してM個のマイクロホンに届く一つ以上の反射音の各伝達特性との和で表現することによって、一般的なフィルタ設計基準でフィルタを設計する際に、所望の方向の指向性の広狭を決定付けるコヒーレンスの抑圧の度合いを高くするようなフィルタを設計できる。つまり、所望の方向に対して従来よりも鋭い指向性を有することになる。さらに、詳しくは後述の《音声スポット強調技術の原理》の項目で説明するが、反射音を利用することによって、マイクロホンアレーから見てほぼ同じ方向だが距離が異なる位置からの音声について、異なる位置に対応する伝達特性間に有意な差分が生じることになる。この伝達特性間の差分をビームフォーミング法で抽出することによって所望の方向を含む狭い範囲の音声をマイクロホンアレーからの距離に応じて強調できる。
(狭指向音声強調技術)
本発明の狭指向音声強調技術に拠ると、所望の方向の直接音だけでなく反射音も利用しているため、当該方向について十分に大きいSN比で収音可能であるとともに、信号処理によって音声強調を行うことからマイクロホンの物理的な移動を要することなく任意の方向の音声に追従可能でもある。さらに、詳しくは後述の《狭指向音声強調技術の原理》の項目で説明するが、各伝達特性aφを、方向φの音声がM個のマイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してM個のマイクロホンに届く一つ以上の反射音の各伝達特性との和で表現することによって、一般的なフィルタ設計基準でフィルタを設計する際に、所望の方向の指向性の広狭を決定付けるコヒーレンスの抑圧の度合いを高くするようなフィルタを設計できる。つまり、所望の方向に対して従来よりも鋭い指向性を有することになる。
図1Aは、音響管マイクによって、目的方向から到来した音声が強調されることを説明するための図である。
図1Bは、音響管マイクによって、目的方向以外の方向から到来した音声が抑圧されることを説明するための図である。
図2Aは、パラボラマイクによって、目的方向から到来した音声が強調されることを説明するための図である。
図2Bは、パラボラマイクによって、目的方向以外の方向から到来した音声が抑圧されることを説明するための図である。
図3は、複数のマイクロホンで構成されたフェーズドマイクロホンアレーを用いて、目的方向の音声を強調し、目的方向以外の方向の音声を抑圧していることを説明するための図である。
図4は、従来技術の一例としてマルチビームフォーミング法による狭指向音声強調技術の機能構成を示す図である。
図5Aは、直接音だけを考慮した場合に狭指向性が十分に実現できないことを模式的に示す図である。
図5Bは、直接音と反射音を考慮した場合に狭指向性が十分に実現できることを模式的に示す図である。
図6は、従来技術による場合と本発明の原理による場合のコヒーレンスの方向依存性を示す図である。
図7は、狭指向音声強調装置(実施形態1)の機能構成を示す図である。
図8は、狭指向音声強調方法(実施形態1)の処理手順を示す図である。
図9は、第1の実施例の構成を示す図である。
図10は、狭指向音声強調装置(実施形態2)の機能構成を示す図である。
図11は、狭指向音声強調方法(実施形態2)の処理手順を示す図である。
図12は、第1の実施例に基づく実験結果を示す図である。
図13は、第1の実施例に基づく実験結果を示す図である。
図14は、第1の実施例にてフィルタW→(ω,θ)による指向性を示す図である。
図15は、第2の実施例の構成を示す図である。
図16は、実験例に基づく実験結果を示す図である。
図17は、実験例に基づく実験結果を示す図である。
図18Aは、二つの音源A,Bからマイクロホンアレーに直接音が届く様子を示す図である。
図18Bは、二つの音源A,Bからマイクロホンアレーに直接音が届く様子と、反射板によって二つの仮想音源A(ξ),B(ξ)からマイクロホンアレーに反射音が届く様子を示す図である。
図19は、音声スポット強調装置(実施形態1)の機能構成を示す図である。
図20は、音声スポット強調方法(実施形態1)の処理手順を示す図である。
図21は、音声スポット強調装置(実施形態2)の機能構成を示す図である。
図22は、音声スポット強調方法(実施形態2)の処理手順を示す図である。
図23Aは、反射板を設置しなかった場合の最小分散ビームフォーマの指向性(2次元領域)。
図23Bは、反射板を設置した場合の最小分散ビームフォーマの指向性(2次元領域)。
図24Aは、本発明の実施構成例を示す平面図である。
図24Bは、本発明の実施構成例を示す正面図である。
図24Cは、本発明の実施構成例を示す側面図である。
図25Aは、本発明の別の実施構成例を示す側面図である。
図25Bは、本発明の別の実施構成例を示す側面図である。
図26は、図25Bに示す実施構成例における使用形態を示す図である。
図27Aは、本発明の実施構成例を示す平面図である。
図27Bは、本発明の実施構成例を示す正面図である。
図27Cは、本発明の実施構成例を示す側面図である。
図28は、本発明の実施構成例を示す側面図である。
図1Bは、音響管マイクによって、目的方向以外の方向から到来した音声が抑圧されることを説明するための図である。
図2Aは、パラボラマイクによって、目的方向から到来した音声が強調されることを説明するための図である。
図2Bは、パラボラマイクによって、目的方向以外の方向から到来した音声が抑圧されることを説明するための図である。
図3は、複数のマイクロホンで構成されたフェーズドマイクロホンアレーを用いて、目的方向の音声を強調し、目的方向以外の方向の音声を抑圧していることを説明するための図である。
図4は、従来技術の一例としてマルチビームフォーミング法による狭指向音声強調技術の機能構成を示す図である。
図5Aは、直接音だけを考慮した場合に狭指向性が十分に実現できないことを模式的に示す図である。
図5Bは、直接音と反射音を考慮した場合に狭指向性が十分に実現できることを模式的に示す図である。
図6は、従来技術による場合と本発明の原理による場合のコヒーレンスの方向依存性を示す図である。
図7は、狭指向音声強調装置(実施形態1)の機能構成を示す図である。
図8は、狭指向音声強調方法(実施形態1)の処理手順を示す図である。
図9は、第1の実施例の構成を示す図である。
図10は、狭指向音声強調装置(実施形態2)の機能構成を示す図である。
図11は、狭指向音声強調方法(実施形態2)の処理手順を示す図である。
図12は、第1の実施例に基づく実験結果を示す図である。
図13は、第1の実施例に基づく実験結果を示す図である。
図14は、第1の実施例にてフィルタW→(ω,θ)による指向性を示す図である。
図15は、第2の実施例の構成を示す図である。
図16は、実験例に基づく実験結果を示す図である。
図17は、実験例に基づく実験結果を示す図である。
図18Aは、二つの音源A,Bからマイクロホンアレーに直接音が届く様子を示す図である。
図18Bは、二つの音源A,Bからマイクロホンアレーに直接音が届く様子と、反射板によって二つの仮想音源A(ξ),B(ξ)からマイクロホンアレーに反射音が届く様子を示す図である。
図19は、音声スポット強調装置(実施形態1)の機能構成を示す図である。
図20は、音声スポット強調方法(実施形態1)の処理手順を示す図である。
図21は、音声スポット強調装置(実施形態2)の機能構成を示す図である。
図22は、音声スポット強調方法(実施形態2)の処理手順を示す図である。
図23Aは、反射板を設置しなかった場合の最小分散ビームフォーマの指向性(2次元領域)。
図23Bは、反射板を設置した場合の最小分散ビームフォーマの指向性(2次元領域)。
図24Aは、本発明の実施構成例を示す平面図である。
図24Bは、本発明の実施構成例を示す正面図である。
図24Cは、本発明の実施構成例を示す側面図である。
図25Aは、本発明の別の実施構成例を示す側面図である。
図25Bは、本発明の別の実施構成例を示す側面図である。
図26は、図25Bに示す実施構成例における使用形態を示す図である。
図27Aは、本発明の実施構成例を示す平面図である。
図27Bは、本発明の実施構成例を示す正面図である。
図27Cは、本発明の実施構成例を示す側面図である。
図28は、本発明の実施構成例を示す側面図である。
まず、狭指向音声強調技術について説明し、次いで、音声スポット強調技術を説明する。
《狭指向音声強調技術の原理》
本発明の狭指向音声強調技術の原理について説明する。本発明の狭指向音声強調技術は、信号処理に基づいて任意の方向の音声に追従できるというマイクロホンアレー技術の本質と、反射音を積極的に利用することによって高SN比で収音することとを基本としつつ、鋭い指向性を可能とする信号処理技術を組み合わせたことを特徴の一つとしている。
説明に先立ち、改めて記号を定義する。離散周波数のインデックスをω(周波数fと角周波数ωとの間にはω=2πfの関係があるから、離散周波数のインデックスωをこの角周波数ωと同一視してもかまわない。ωに関して「離散周波数のインデックス」を単に「周波数」ともいう)、フレーム番号のインデックスをkとする。M個のマイクロホンで受音したアナログ信号の第kフレームの周波数領域表現をX→(ω,k)=[X1(ω,k),…,XM(ω,k)]T、マイクロホンアレーの中心から見て目的方向θsの音声の周波数領域信号X→(ω,k)を周波数ωで強調するフィルタをW→(ω,θs)とする。Mは2以上の整数とする。Tは転置を表す。このとき、目的方向θsの音声の周波数領域信号X→(ω,k)が周波数ωで強調された周波数領域信号(以下、出力信号と呼ぶ)Y(ω,k,θs)は式(6)で与えられる。Hはエルミート転置を表す。
「マイクロホンアレーの中心」は任意に定めることができるが、一般的にはM個のマイクロホンの配置の幾何学的中心が「マイクロホンアレーの中心」とされ、例えば線形マイクロホンアレーであれば両端のマイクロホンの中間点が「マイクロホンアレーの中心」とされ、例えばm×m(m2=M)の正方マトリックス状に配置された平面マイクロホンアレーであれば、四隅のマイクロホンの対角線が交わる位置が「マイクロホンアレーの中心」とされる。
フィルタW→(ω,θs)の設計法としては種々あるが、ここでは最小分散無歪応答法(MVDR method;minimum variance distortion response method)に拠る場合を説明する。最小分散無歪応答法では、フィルタW→(ω,θs)は、式(8)の拘束条件の下、空間相関行列Q(ω)を用いて目的方向θs以外の方向の音声(以下、「目的方向θs以外の方向の音声」を「雑音」とも呼ぶ)のパワーが周波数ωで最小となるように設計される(式(7)参照)。a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは、方向θsに音源が在ると仮定した場合の、当該音源とM本のマイクロホンとの間の周波数ωでの伝達特性である。換言すれば、a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは、マイクロホンアレーに含まれる各マイクロホンへの方向θsの音声の周波数ωでの伝達特性である。空間相関行列Q(ω)は、周波数領域信号X→(ω,k)の成分X1(ω,k),…,XM(ω,k)について周波数ωにおける相互相関関係を表す行列であり、E[Xi(ω,k)Xj *(ω,k)](1≦i≦M,1≦j≦M)を(i,j)成分に持つ。演算子E[・]は、統計的平均操作を表す演算子であり、記号*は複素共役を表す。空間相関行列Q(ω)は、観測に基づいて得られるX1(ω,k),…,XM(ω,k)の統計量を用いて表現することもできるが、伝達特性を用いて表現することもできる。以下、しばらくの間、空間相関行列Q(ω)が伝達特性を用いて表現される場合を説明する。
式(7)の最適解であるフィルタW→(ω,θs)は式(9)で与えられることが知られている(下記参考文献1)。
空間相関行列Q(ω)の逆行列が式(9)に含まれることから察せられるように、空間相関行列Q(ω)の構造は鋭い指向性を実現する上で重要であることがわかる。また、式(7)から、雑音のパワーは空間相関行列Q(ω)の構造に依存することもわかる。
雑音の到来方向のインデックスpが属する集合を{1,2,…,P−1}とする。目的方向θsのインデックスsは集合{1,2,…,P−1}に属さないとする。P−1個の雑音が任意の方向から到来すると仮定すると、空間相関行列Q(ω)は式(10a)で与えられる。多くの雑音が存在する中でも十分に機能するフィルタを作る観点から、Pはある程度大きい値であることが好ましく、M程度の整数であるとする。なお、ここでは本発明の狭指向音声強調技術の原理を分かり易く説明する観点から目的方向θsがあたかも特定の方向の如く説明しているが(それ故、目的方向θs以外の方向を「雑音」の方向としている)、後述の実施形態で明らかになるように、実際には、目的方向θsは音声強調の対象となりえる任意の方向であり、目的方向θsになりえる方向として一般的に複数の方向が想定される。このような観点からすると、目的方向θsと雑音の方向との区別は凡そ主観的なものであり、目的音か雑音かの区別なく音声の到来方向として想定される複数の方向としてP個の異なる方向を予め決めておき、P個の方向のうち選択された一つの方向が目的方向であり、それ以外の方向が雑音の方向であると理解することがより正確である。そこで、集合{1,2,…,P−1}と集合{s}との和集合をΦとすると、空間相関行列Q(ω)は、音声の到来方向として想定される複数の方向に含まれる各方向θφの音声の各マイクロホンへの伝達特性a→(ω,θφ)=[a1(ω,θφ),…,aM(ω,θφ)]T(φ∈Φ)によって表される空間相関行列であり、式(10b)で表される。なお、|Φ|=Pである。|Φ|は集合Φの要素数を表す。
ここで、目的方向θsの音声の伝達特性a→(ω,θs)と、方向p∈{1,2,…,P−1}の音声の伝達特性a→(ω,θp)=[a1(ω,θp),…,aM(ω,θp)]Tがお互いに直交すると仮定する。つまり、式(11)で表される条件を満たすP個の直交基底系が存在すると仮定する。記号⊥は直交性を表す。A→⊥B→である場合、ベクトルA→とベクトルB→の内積値はゼロである。ここではP≦Mを満たすとする。なお、式(11)で表される条件を緩和し、近似的に直交基底系と見なせるP個の基底系が存在すると仮定できるような場合には、PはM程度、あるいはM以上のある程度大きい値であることが好ましい。
このとき、空間相関行列Q(ω)は式(12)のように展開できる。式(12)は、直交性を満たすP個の伝達特性で構成された行列V(ω)=[a→(ω,θs),a→(ω,θ1),…,a→(ω,θP−1)]Tと単位行列Λ(ω)によって空間相関行列Q(ω)を分解できることを意味している。ρは空間相関行列Q(ω)による式(11)を満たす伝達特性a→(ω,θφ)の固有値であり実数である。
このとき、空間相関行列Q(ω)の逆行列は式(13)で与えられる。
式(13)を式(7)に代入すると、雑音のパワーが最小となることがわかる。雑音のパワーが最小となれば目的方向θsに対する指向性が実現する。よって、異なる方向の伝達特性の間に直交性が成り立っていることは、目的方向θsに対する指向性を実現する上で、重要な条件となる。
以下、従来技術において目的方向θsに対して鋭い指向性を実現することが困難な理由について考察する。
従来技術では、伝達特性が直接音のみで構成されると仮定してフィルタの設計を行っていた。現実には同じ音源から発せられた音声が壁や天井等で反射してマイクロホンに到達する反射音が存在するが、反射音は指向性を悪化させる要因と考えて反射音の存在を無視していたのである。方向θから到来する直接音のみのステアリングベクトルをh→ d(ω,θ)=[hd1(ω,θ),…,hdM(ω,θ)]Tとすると、従来では、伝達特性a→ conv(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tをa→ conv(ω,θ)=h→ d(ω,θ)としていた。なお、ステアリングベクトルは、マイクロホンアレーの中心から見て方向θの音波について、基準点に対する各マイクロホンの周波数ωでの位相応答特性を並べた複素ベクトルである。
線形マイクロホンアレーに音声が平面波として到来すると仮定すると、直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)は例えば式(14a)で与えられる。mは1≦m≦Mを満たす各整数である。cは音速を、uは隣り合うマイクロホン間の距離を表す。jは虚数単位である。基準点は線形マイクロホンアレーの全長の半分の位置(線形マイクロホンアレーの中心)である。方向θは線形マイクロホンアレーの中心から見て直接音の到来方向と線形マイクロホンアレーに含まれるマイクロホンの配列方向とがなす角度として定義した(図9参照)。なお、ステアリングベクトルの表し方は種々あり、例えば、基準点を線形マイクロホンアレーの一端にあるマイクロホンの位置とすれば、直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)は例えば式(14b)で与えられる。以下、直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)は式(14a)で与えられるとして説明する。
方向θの伝達特性と目的方向θsの伝達特性との内積値γconv(ω,θ)は式(15)で表される。なお、θ≠θsとする。
以後、γconv(ω,θ)をコヒーレンスと呼称する。コヒーレンスγconv(ω,θ)が0となる方向θは式(16)で与えられる。qは0を除く任意の整数である。また、0<θ<π/2であるから、qの範囲は周波数帯域ごとに制限されることになる。
式(16)にて、変更可能なパラメータはマイクロホンアレーのサイズに関わるパラメータ(Mとu)のみであるから、方向の差(角度差)|θ−θs|が小さい場合には、マイクロホンアレーのサイズに関わるパラメータを変更することなくコヒーレンスγconv(ω,θ)を小さくすることは困難である。この場合、雑音のパワーは十分に小さくならず、図5Aに模式的に示すように、目的方向θsに対して広いビーム幅を持った指向性となってしまう。
他方、本発明の狭指向音声強調技術は、このような考察に基づき、目的方向θsに対して鋭い指向性を持つためのフィルタ設計には、方向の差(角度差)|θ−θs|が小さい場合でもコヒーレンスを十分に小さくできるようにすることが重要であるとの知見に基づき、従来技術と異なり反射音を積極的に考慮することを特徴とする。
マイクロホンアレーの各マイクロホンには、音源からの直接音と、当該音源からの音が反射物300で反射した反射音との二種類の平面波が混入することになる。反射音の数をΞとする。Ξは1以上の予め定められた整数である。このとき、伝達特性a→(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tは、音声強調の対象となりえる方向の音声がマイクロホンアレーに直接届く直接音の伝達特性と当該音声が反射物で反射してマイクロホンアレーに届く一つ以上の反射音の各伝達特性との和、具体的には、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差をτξ(θ)とし、αξ(1<ξ≦Ξ)を反射による音の減衰を考慮するための係数とすると、式(17a)のように、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正されたΞ個の反射音のステアリングベクトルの和で表現できる。h→ rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tは方向θの直接音に対応する反射音のステアリングベクトルを表す。αξ(1≦ξ≦Ξ)は、通常、αξ≦1(1≦ξ≦Ξ)である。各反射音について、音源からマイクロホンに到達するまでの反射回数が1回であるならば、αξ(1≦ξ≦Ξ)は、ξ番目の反射音が反射した物体の音の反射率を表していると考えて差し支えない。
M個のマイクロホンで構成されるマイクロホンアレーに対して一つ以上の反射音を与えることが望まれるので、一つ以上の反射物が存在することが好ましい。このような観点からすると、目的方向に音源が在るとして、当該音源とマイクロホンアレーと一つ以上の反射物との位置関係は、当該音源からの音が少なくとも一つの反射物で反射してマイクロホンアレーに届くように、各反射物が配置されていることが好ましい。各反射物の形状は、2次元形状(例えば平板)または3次元形状(例えばパラボラ形状)である。また、各反射物の大きさはマイクロホンアレーと同等かそれ以上(1〜2倍程度)の大きさを持つことが好ましい。反射音を効果的に活用するためには、各反射物の反射率αξ(1≦ξ≦Ξ)は少なくとも0よりも大きく、さらに言えば、マイクロホンアレーに届いた反射音の振幅が直接音の振幅の例えば0.2倍以上であることが望ましく、例えば各反射物は剛性を有する固体とされる。反射物は移動可能な物体(例えば反射板)であっても移動不能な物体(床や壁や天井)であってもよい。なお、移動不能な物体を反射物として設定するとマイクロホンアレーの設置位置の変更などに伴って、反射音のステアリングベクトルの変更を要することとなり(後述する関数Ψ(θ)やΨξ(θ)を参照のこと)、ひいてはフィルタ計算のやり直し(再設定)が余儀なくされる。そこで、環境変化に対して頑健であるためには、各反射物はマイクロホンアレーの従物であることが好ましい(この場合、想定されるΞ個の反射音は各反射物によるものであると考えることになる)。ここで「マイクロホンアレーの従物」とは、「マイクロホンアレーに対する配置関係(幾何学的関係)を維持したままマイクロホンアレーの位置や向きなどの変更に従うことができる有体物」のことである。単純な例として、マイクロホンアレーに各反射物が固定されている構成が挙げられる。
以下、本発明の狭指向音声強調技術の利点を具体的に説明する観点から、Ξ=1とし、反射音の反射回数は1回であって、マイクロホンアレーの中心からLメートル離れた位置に一つの反射物が存在すると仮定する。反射物は厚みのある剛体とする。この場合、Ξ=1であるからこれを表す添え字を略することとして、式(17a)は式(17b)のように表すことができる。
反射音のステアリングベクトルh→ r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は、直接音のステアリングベクトルの表し方と同様に(式(14a)参照)、式(18a)で表される。関数Ψ(θ)は反射音の到来方向を出力する。なお、直接音のステアリングベクトルを式(14b)で表す場合には、反射音のステアリングベクトルh→ r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は式(18b)で表される。一般的に、ξ番目(1≦ξ≦Ξ)のステアリングベクトルh→ rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tのm番目の要素は、式(18c)や式(18d)で表される。関数Ψξ(θ)はξ番目(1≦ξ≦Ξ)の反射音の到来方向を出力する。
反射物の位置は適宜に設定可能であるから、反射音の到来方向は変更可能なパラメータとして扱うことができる。
平板状の反射物がマイクロホンアレーの近傍にある(距離Lがマイクロホンアレーのサイズに比して極端に大きくない)と仮定すると、コヒーレンスγ(ω,θ)は式(19)で表される。なお、θ≠θsとする。
式(19)から、式(15)の従来のコヒーレンスγconv(ω,θ)よりも式(19)のコヒーレンスγ(ω,θ)の方が小さくなる可能性があることがわかる。反射物の置き方によって変更できるパラメータ(Ψ(θ)やL)が式(19)の第2〜4項目の中に存在するので第1項目のh→ d H(ω,θ)h→ d(ω,θ)を除去できる可能性がある。
例えば、線形マイクロホンアレーに対して、マイクロホンの配列方向が反射板の法線となるように平板の反射板を配置すると、関数Ψ(θ)についてΨ(θ)=π−θが成立し、直接音と反射音との到来時間差τ(θ)について式(20)が成立するので、式(19)を構成する要素に式(21)(22)の各条件が生成される。記号*は複素共役を表す演算子である。
h→ d H(ω,θ)h→ r(ω,θ)の絶対値はh→ d H(ω,θ)h→ d(ω,θ)よりも十分に小さいので、式(19)の第2項、第3項を無視すると、コヒーレンスγ(ω,θ)は式(23)のように近似できる。
仮にh→ d H(ω,θ)h→ d(ω,θ)≠0であるとしても、近似コヒーレンスγ〜(ω,θ)は式(24)の極小解θを持つ。qは任意の正整数である。また、qの範囲は周波数帯域ごとに制限される。
つまり、式(16)で与えられる方向だけではなく、式(24)で与えられる方向でもコヒーレンスを抑圧できる。コヒーレンスを抑圧できれば、雑音のパワーをより小さくできるので、図5Bに模式的に示すように、鋭い指向性の実現が可能になる。
なお、図5Aと図5Bでは本発明の狭指向音声強調技術の原理に拠る場合と従来技術に拠る場合の指向性の違いを模式的に示したが、図6に、式(16)で与えられるθと式(24)で与えられるθの違いを具体的に示す。ω=2π×1000[rad/s],L=0.70[m],θs=π/4[rad]である。図6では両者の比較のために正規化されたコヒーレンスの方向依存性を示してあり、記号○で示された方向が式(16)で与えられるθであり、記号+で示された方向が式(24)で与えられるθである。図6から明らかなように、従来技術に拠るとθs=π/4[rad]に対してコヒーレンスがゼロとなるθは記号○で示された方向だけであるが、本発明の狭指向音声強調技術の原理に拠るとθs=π/4[rad]に対してコヒーレンスがゼロとなるθは記号+で示される多数の方向に存在し、特に、記号○で示された方向よりもθs=π/4[rad]にはるかに近い方向に記号+で示された方向が存在するため、従来技術に比べて鋭い指向性が実現されることが理解できる。
上述の説明から明らかなように、本発明の狭指向音声強調技術の要点は、伝達特性a→(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tを、例えば式(17a)のように、直接音のステアリングベクトルとΞ個の反射音のステアリングベクトルの和で表現していることにある。従って、フィルタの設計コンセプト自体に影響を与えないので、最小分散無歪応答法以外の手法によってフィルタW→(ω,θs)を設計することができる。
上述の最小分散無歪応答法以外の手法として、〈1〉SN比最大化規準によるフィルタ設計法、〈2〉パワーインバージョン(Power Inversion)に基づくフィルタ設計法、〈3〉一つ以上の死角(雑音のゲインが抑圧される方向)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法、〈4〉遅延合成(Delay−and−Sum Beam Forming)法によるフィルタ設計法、〈5〉最尤法によるフィルタ設計法、〈6〉AMNOR(Adaptive Microphone−array for noise reduction)法によるフィルタ設計法を説明する。〈1〉SN比最大化規準によるフィルタ設計法と〈2〉パワーインバージョンに基づくフィルタ設計法については下記参考文献2を参照のこと。〈3〉一つ以上の死角(雑音のゲインが抑圧される方向)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法については下記参考文献3を参照のこと。〈6〉AMNOR(Adaptive Microphone−array for noise reduction)法によるフィルタ設計法については下記参考文献4を参照のこと。
〈1〉SN比最大化規準によるフィルタ設計法
SN比最大化規準によるフィルタ設計法では、目的方向θsでのSN比(SNR)を最大化する規準でフィルタW→(ω,θs)を決定する。目的方向θsの音声の空間相関行列をRss(ω)、目的方向θs以外の方向の音声の空間相関行列をRnn(ω)とする。このとき、SNRは式(25)で表される。なお、Rss(ω)は式(26)、Rnn(ω)は式(27)で表される。伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(17a)で表される(正確には、式(17a)のθをθsとしたものである)。
式(25)のSNRを最大にするフィルタW→(ω,θs)は、フィルタW→(ω,θs)に関する勾配をゼロとすること、つまり式(28)によって求めることができる。
但し、
これにより、式(25)のSNRを最大にするフィルタW→(ω,θs)は式(29)で与えられる。
式(29)には目的方向θs以外の方向の音声の空間相関行列Rnn(ω)の逆行列が含まれているが、Rnn(ω)の逆行列を、目的方向θsの音声と目的方向θs以外の方向の音声を含む入力全体の空間相関行列Rxx(ω)の逆行列に置換してもよいことが知られている。なお、Rxx(ω)=Rss(ω)+Rnn(ω)=Q(ω)である(式(10a)、式(26)、式(27)参照)。つまり、式(25)のSNRを最大にするフィルタW→(ω,θs)を式(30)で求めてもよい。
〈2〉パワーインバージョンに基づくフィルタ設計法
パワーインバージョンに基づくフィルタ設計法では、一つのマイクロホンに対するフィルタ係数を一定値に固定した状態でビームフォーマの平均出力パワーを最小化する基準でフィルタW→(ω,θs)を決定する。ここでは、一例として、M個のマイクロホンのうち1番目のマイクロホンに対するフィルタ係数を固定するとして説明する。この設計法では、フィルタW→(ω,θs)は、式(32)の拘束条件の下、空間相関行列Rxx(ω)を用いて全方向(音声の到来方向として想定される全ての方向)の音声のパワーが最小となるように設計される(式(31)参照)。伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(17a)で表される(正確には、式(17a)のθをθsとしたものである)。なお、Rxx(ω)=Q(ω)である(式(10a)、式(26)、式(27)参照)。
但し、
式(31)の最適解であるフィルタW→(ω,θs)は式(33)で与えられることが知られている(下記参考文献2参照)。
〈3〉一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法
上述の最小分散無歪応答法では、式(8)で表されるように目的方向θsの音声の全帯域通過を拘束条件とし、式(7)で表されるビームフォーマの平均出力パワーが最小となる(つまり、目的方向以外の方向の音声である雑音のパワーが最小となる)フィルタを求める、という単一拘束条件の下の規準でフィルタW→(ω,θs)を設計した。この方法によると、全体的に雑音のパワーを抑圧することはできるが、特定の一つまたは複数の方向に強いパワーを持ったノイズ源が存在することが予め判明している場合には必ずしも好適な方法とは言えない。このような場合、ノイズ源が存在する既知の一つまたは複数の特定方向(つまり、死角)を強く抑圧するフィルタが要求される。このため、ここで説明するフィルタ設計法では、(1)目的方向θsの音声の全帯域通過、および(2)予め判明しているB個(Bは1以上の予め定められた整数)の死角θN1,θN2,…,θNBの音声の全帯域抑制、を拘束条件として、式(7)で表されるビームフォーマの平均出力パワーが最小となる(つまり、目的方向と各死角とを除く方向の音声のパワーが最小となる)フィルタを求める。既述のように、音声の到来方向のインデックスφが属する集合を{1,2,…,P}とすると、Nj∈{1,2,…,P}(ただし、j∈{1,2,…,B}),B≦P−1である。
このとき、a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]Tを、方向θiに音源が在ると仮定した場合の、当該音源とM本のマイクロホンとの間の周波数ωでの伝達特性、換言すれば、a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]Tは、マイクロホンアレーに含まれる各マイクロホンへの方向θiの音声の周波数ωでの伝達特性とすると、拘束条件は式(34)で表される。ただし、インデックスiについて、i∈{s,N1,N2,…,NB}であり、伝達特性a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]Tは式(17a)で表される(正確には、式(17a)のθをθiとしたものである)。fi(ω)は、方向θiに関する周波数ωでの通過特性を表す。
式(34)を行列形式で表現すると、例えば式(35)のように表すことができる。ただし、A→(ω,θs)=[a→(ω,θs),a→(ω,θN1),…,a→(ω,θNB)]である。
但し、
(1)目的方向θsの音声の全帯域通過、および(2)予め判明しているB個の死角θN1,θN2,…,θNBの音声の全帯域抑制、という拘束条件を考慮すると、理想的には、fs(ω)=1.0、fi(ω)=0.0(i∈{N1,N2,…,NB})とされるべきである。これは、目的方向θsの音声の全帯域完全通過と、予め判明しているB個の死角θN1,θN2,…,θNBの音声の全帯域完全阻止を表している。しかし、現実には全帯域完全通過や全帯域完全阻止という制御が難しい場合もある。このような場合には、fs(ω)の絶対値を1.0に近い値、fi(ω)(i∈{N1,N2,…,NB})の絶対値を0.0に近い値に設定すればよい。もちろん、fi(ω)とfj(ω)(i≠j、i,j∈{N1,N2,…,NB})は等しくても異なってもよい。
ここで説明したフィルタ設計法によると、拘束条件を表す式(35)の下での式(7)の最適解であるフィルタW→(ω,θs)は式(36)で与えられる(下記参考文献3参照)。
〈4〉遅延合成法によるフィルタ設計法
式(2)から明らかなように、直接音や反射音が平面波到来すると仮定すると、フィルタW→(ω,θs)は式(37)で与えられる。つまり、フィルタW→(ω,θs)は伝達特性a→(ω,θs)を正規化して得られる。伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(17a)で表される(正確には、式(17a)のθをθsとしたものである)。この設計法によると、フィルタ精度は必ずしも良好とは言えない場合があるが、計算量が少なくて済む。
〈5〉最尤法によるフィルタ設計法
上述の最小分散無歪応答法において、空間相関行列Q(ω)内に目的方向の音声の空間情報を含めないことによって、雑音を抑圧する自由度が向上し、雑音のパワーをよりいっそう抑圧できる。このため、ここで説明するフィルタ設計法では、空間相関行列Q(ω)を、式(10a)の右辺第二項、つまり、式(10c)で表す。フィルタW→(ω,θs)は式(9)や式(36)で与えられる。このとき、式(9)や式(36)に含まれるQ(ω)あるいは式(30)や式(33)に含まれるRxx(ω)=Q(ω)は、式(10c)で表される空間相関行列である。
〈6〉AMNOR法によるフィルタ設計法
AMNOR法は、目的方向の音声の劣化量Dとフィルタ出力信号に残留する雑音のパワーとのトレードオフ関係を踏まえて、目的方向の音声の劣化量Dを或る程度許容し(例えば劣化量Dを或る閾値D^以下に保つようにする)、[a]目的方向の仮想的な信号(以下、仮想目的信号という)に音源とマイクロホンとの間の伝達特性を作用させた信号と[b](例えば目的方向の音声が無い雑音環境でのM個のマイクロホンによる観測によって得られる)雑音との混合信号を入力としたときのフィルタ出力信号が最小2乗誤差の観点から仮想目的信号を最も良く再現する(つまり、フィルタ出力信号に含まれる雑音のパワーが最小となる)フィルタを求める方式である。AMNOR法によると、フィルタW→(ω,θs)は式(38)で与えられる(下記参考文献4参照)。なお、Rss(ω)は式(26)、Rnn(ω)は式(27)で表される。伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(17a)で表される(正確には、式(17a)のθをθsとしたものである)。
Psは、仮想目的信号のレベルを重み付けする係数であり、仮想目的信号レベルと呼称される。仮想目的信号レベルPsは、周波数に依存しない定数である。仮想目的信号レベルPsは、経験則に基づいて決められてもよく、あるいは、目的方向の音声の劣化量Dと閾値D^との差が任意に定められた誤差範囲内となるように決定されてもよい。後者の例を説明する。周波数ωにおいて、AMNOR法によるフィルタW→(ω,θs)の目的方向θsの音声の周波数応答F(ω)は、式(39)で表される。式(38)で与えられるフィルタW→(ω,θs)を用いたときの劣化量DをD(Ps)と表記すると、劣化量D(Ps)は式(40)で定義される。ω0は、対象となる周波数ωの上限(通常は、離散的な周波数ωに隣接する高域側周波数である)を表す。劣化量D(Ps)はPsの単調減少関数である。従って、D(Ps)の単調性によって、Psを変化させながら劣化量D(Ps)を求めることを繰り返すことで、劣化量D(Ps)と閾値D^との差が任意に定められた誤差範囲内となる仮想目的信号レベルPsを求めることができる。
<変形例>
上述の説明では、空間相関行列Q(ω)、Rss(ω)、Rnn(ω)を、伝達特性を用いて表現した。しかし、上述の周波数領域信号X→(ω,k)を用いて空間相関行列Q(ω)、Rss(ω)、Rnn(ω)を表現することもできる。以下、空間相関行列Q(ω)について説明するが、Rss(ω)、Rnn(ω)についても同様である(Q(ω)をRss(ω)あるいはRnn(ω)に読み替えればよい)。なお、空間相関行列Rss(ω)は目的方向の音声のみが存在する環境でのマイクロホンアレー(M個のマイクロホンを含む)による観測によって得られたアナログ信号の周波数領域表現によって得られ、空間相関行列Rnn(ω)は目的方向の音声が無い環境(つまり雑音環境)でのマイクロホンアレー(M個のマイクロホンを含む)による観測によって得られたアナログ信号の周波数領域表現によって得られる。
周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tを用いた空間相関行列Q(ω)は式(41)で表される。演算子E[・]は、統計的平均操作を表す演算子である。マイクロホンアレー(M個のマイクロホンを含む)で受音したアナログ信号の離散時系列を確率過程と見たとき、それがいわゆる広義の定常ないし2次定常である場合、演算子E[・]は算術平均値(期待値)演算となる。この場合、空間相関行列Q(ω)は、例えば、メモリ等に蓄積された現在および過去の計ζ個のフレームの周波数領域信号X→(ω,k−i)(i=0,1,…,ζ−1)を用いて式(42)で表される。i=0のとき、つまり第kフレームが現在のフレームである。なお、式(41)ないし式(42)による空間相関行列Q(ω)はフレーム毎に計算し直してもよいし、あるいは、定期ないし不定期の間隔で計算し直してもよいし、あるいは、後に説明する実施形態の実施の前に計算しておいてもよい(特に、フィルタ設計にRss(ω)あるいはRnn(ω)を用いる場合には、実施形態の実施の前に取得された周波数領域信号を用いて空間相関行列Q(ω)を事前に計算しておくことが好適である)。フレーム毎に空間相関行列Q(ω)を計算し直す場合、空間相関行列Q(ω)は現在と過去のフレームに依存するから、式(41a)や式(42a)のように明示的に空間相関行列をQ(ω,k)と表すことにする。
式(41a)や式(42a)で表される空間相関行列Q(ω,k)を用いるとフィルタW→(ω,θs)も現在と過去のフレームに依存するから、明示的にこれをW→(ω,θs,k)と表すことにする。このとき、上述の種々のフィルタ設計法で説明した式(9)、式(29)、式(30)、式(33)、式(36)、式(38)のいずれかで表されるフィルタW→(ω,θs)は、表記上、式(9m)、式(29m)、式(30m)、式(33m)、式(36m)、式(38m)に修正される。
《狭指向音声強調技術の実施形態1》
本発明の狭指向音声強調技術の実施形態1の機能構成および処理フローを図7と図8に示す。この実施形態1の音声強調装置(以下、狭指向音声強調装置という)1は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ設計部260、記憶部290を含む。
[ステップS1]
予め、フィルタ設計部260が音声強調の対象となりえる離散的な方向ごとに、周波数ごとのフィルタW→(ω,θi)を計算しておく。音声強調の対象となりえる離散的な方向の総数をI(Iは1以上の予め定められた整数であり、I≦Pを満たす)とすると、W→(ω,θ1),…,W→(ω,θi),…,W→(ω,θI)(1≦i≦I,ω∈Ω;iは整数、Ωは周波数ωの集合)を事前に計算しておくのである。
このためには、上述の<変形例>で説明した場合を除き、伝達特性a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]T(1≦i≦I,ω∈Ω)を求める必要があるが、これは、マイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(17a)によって具体的に計算できる(正確には、式(17a)のθをθiとしたものである)。なお、上述の〈3〉一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a→(ω,θi)(1≦i≦I,ω∈Ω)を求める際の方向のインデックスiは、少なくともB個の死角の方向のインデックスN1,N2,…,NBの全てを亘ることが望ましい。換言すれば、B個の死角の方向のインデックスN1,N2,…,NBは、1以上I以下のいずれかの異なる整数として設定される。
反射音の数Ξは1≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。一つの反射板をマイクロホンアレーの近傍に設置する場合には、伝達特性a→(ω,θi)は式(17b)によって具体的に計算できる(正確には、式(17b)のθをθiとしたものである)。
ステアリングベクトルの計算には、例えば式(14a)、式(14b)、式(18a)、式(18b)、式(18c)、式(18d)を用いることができる。なお、フィルタ設計に用いる伝達特性として、式(17a)や式(17b)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
そして、上述の<変形例>で説明した場合を除き、伝達特性a→(ω,θi)を用いて、例えば式(9)、式(29)、式(30)、式(33)、式(36)、式(37)、式(38)のいずれかによってW→(ω,θi)(1≦i≦I)を求める。なお、上述の〈5〉最尤法によるフィルタ設計法で説明した場合を除き、式(9)または式(30)または式(33)または式(36)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(10b)で計算できる。上述の〈5〉最尤法によるフィルタ設計法に拠って、式(9)または式(30)または式(33)または式(36)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(10c)で計算できる。式(29)を用いる場合には空間相関行列Rnn(ω)は式(27)で計算できる。I×|Ω|個のフィルタW→(ω,θi)(1≦i≦I,ω∈Ω)は記憶部290に記憶される。|Ω|は集合Ωの要素数を表す。
[ステップS2]
マイクロホンアレーを構成するM個のマイクロホン200−1,…,200−Mを用いて収音する。Mは2以上の整数である。
M個のマイクロホンの並べ方に制限は無い。ただし、2次元または3次元的にM個のマイクロホンを配置することによって、音声強調する方向の不確定性がなくなるという利点がある。つまり、M個のマイクロホンを水平方向に直線状に並べたときに例えば正面方向から到来する音声と真上から到来する音声との区別ができなくなるという問題を、マイクロホンを平面的ないし立体的に並べることで防ぐことができる。また、収音方向として設定できる方向を広くとるためには、各マイクロホンの指向性は、収音方向である目的方向θsになり得る方向にある程度の音圧で音声を収音可能な指向性を持っていたほうがよい。したがって、無指向性マイクロホンや単一指向性マイクロホンといった指向性が比較的緩やかなマイクロホンが好適である。
[ステップS3]
AD変換部210が、M個のマイクロホン200−1,…,200−Mで収音されたアナログ信号(収音信号)をディジタル信号x→(t)=[x1(t),…,xM(t)]Tへ変換する。tは離散時間のインデックスを表す。
[ステップS4]
フレーム生成部220は、AD変換部210が出力したディジタル信号x→(t)=[x1(t),…,xM(t)]Tを入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x→(k)=[x→ 1(k),…,x→ M(k)]Tを出力する。kはフレーム番号のインデックスである。x→ m(k)=[xm((k−1)N+1),…,xm(kN)](1≦m≦M)である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
[ステップS5]
周波数領域変換部230は、各フレームのディジタル信号x→(k)を周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X→(ω,k)は、各周波数ω、フレームkごとに出力される。
[ステップS6]
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに、強調したい目的方向θsに対応するフィルタW→(ω,θs)を適用して、出力信号Y(ω,k,θs)を出力する(式(43)参照)。目的方向θsのインデックスsは、s∈{1,…,I}であり、フィルタW→(ω,θs)は記憶部290に記憶されているので、例えば、ステップS6の処理の都度、フィルタ適用部240は、強調したい目的方向θsに対応するフィルタW→(ω,θs)を記憶部290から取得すればよい。目的方向θsのインデックスsが集合{1,…,I}に属さない場合、つまり、目的方向θsに対応するフィルタW→(ω,θs)がステップS1の処理で計算されていない場合、臨時に目的方向θsに対応するフィルタW→(ω,θs)をフィルタ設計部260に計算させてもよいし、あるいは目的方向θsに近い方向θs′に対応するフィルタW→(ω,θs′)を用いてよい。
[ステップS7]
時間領域変換部250は、第kフレームの各周波数ω∈Ωの出力信号Y(ω,k,θs)を時間領域に変換して第kフレームのフレーム単位時間領域信号y(k)を得て、さらに、得られたフレーム単位時間領域信号y(k)をフレーム番号のインデックスの順番に連結して目的方向θsの音声が強調された時間領域信号y(t)を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS5の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
ここでは、ステップS1の処理で予めフィルタW→(ω,θi)を計算しておく実施形態1を説明したが、狭指向音声強調装置1の計算処理能力などに応じて、目的方向θsが定まってからフィルタ設計部260が周波数ごとのフィルタW→(ω,θs)を計算する実施形態を採用することもできる。
《狭指向音声強調技術の実施形態2》
本発明の狭指向音声強調技術の実施形態2の機能構成および処理フローを図10と図11に示す。この実施形態2の狭指向音声強調装置2は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ計算部261、記憶部290を含む。
[ステップS11]
マイクロホンアレーを構成するM個のマイクロホン200−1,…,200−Mを用いて収音する。Mは2以上の整数である。M個のマイクロホンの並べ方等については実施形態1で説明したとおりである。
[ステップS12]
AD変換部210が、M個のマイクロホン200−1,…,200−Mで収音されたアナログ信号(収音信号)をディジタル信号x→(t)=[x1(t),…,xM(t)]Tへ変換する。tは離散時間のインデックスを表す。
[ステップS13]
フレーム生成部220は、AD変換部210が出力したディジタル信号x→(t)=[x1(t),…,xM(t)]Tを入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x→(k)=[x→ 1(k),…,x→ M(k)]Tを出力する。kはフレーム番号のインデックスである。x→ m(k)=[xm((k−1)N+1),…,xm(kN)](1≦m≦M)である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
[ステップS14]
周波数領域変換部230は、各フレームのディジタル信号x→(k)を周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X→(ω,k)は、各周波数ω、フレームkごとに出力される。
[ステップS15]
フィルタ計算部261が、現在の第kフレームで用いられる、目的方向θsに対応する周波数毎のフィルタW→(ω,θs,k)(ω∈Ω;Ωは周波数ωの集合)を計算する。
このためには、伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]T(ω∈Ω)を用意する必要があるが、これは、マイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(17a)によって具体的に計算できる(正確には、式(17a)のθをθsとしたものである)。なお、上述の〈3〉一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a→(ω,θNj)(1≦j≦B,ω∈Ω)も求める必要があるが、これらはマイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(17a)によって具体的に計算できる(正確には、式(17a)のθをθNjとしたものである)。
反射音の数Ξは1≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。一つの反射板をマイクロホンアレーの近傍に設置する場合には、伝達特性a→(ω,θs)は式(17b)によって具体的に計算できる(正確には、式(17b)のθをθsとしたものである)。この場合、同様に、伝達特性a→(ω,θNj)(1≦j≦B,ω∈Ω)は式(17b)によって具体的に計算できる(正確には、式(17b)のθをθNjとしたものである)。
ステアリングベクトルの計算には、例えば式(14a)、式(14b)、式(18a)、式(18b)、式(18c)、式(18d)を用いることができる。なお、フィルタ設計に用いる伝達特性として、式(17a)や式(17b)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
そして、フィルタ計算部261は、伝達特性a→(ω,θs)(ω∈Ω)や必要に応じて伝達特性a→(ω,θNj)(1≦j≦B,ω∈Ω)を用いて、フィルタW→(ω,θs,k)(ω∈Ω)を、式(9m)、式(29m)、式(30m)、式(33m)、式(36m)、式(38m)のいずれかに従って求める。なお、空間相関行列Q(ω)(あるいはRxx(ω))は例えば式(41a)や式(42a)で計算できる。空間相関行列Q(ω)の計算には、記憶部290に蓄積された現在および過去の計ζ個のフレームの周波数領域信号X→(ω,k−i)(i=0,1,…,ζ−1)が用いられる。
[ステップS16]
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに、強調したい目的方向θsに対応するフィルタW→(ω,θs,k)を適用して、出力信号Y(ω,k,θs)を出力する(式(44)参照)。
[ステップS17]
時間領域変換部250は、第kフレームの各周波数ω∈Ωの出力信号Y(ω,k,θs)を時間領域に変換して第kフレームのフレーム単位時間領域信号y(k)を得て、さらに、得られたフレーム単位時間領域信号y(k)をフレーム番号のインデックスの順番に連結して目的方向θsの音声が強調された時間領域信号y(t)を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS14の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
[狭指向音声強調技術の実験例]
本発明の狭指向音声強調技術の実施形態1(単一拘束条件の最小分散無歪応答法)による実験結果を説明する。図9に示すように、24本のマイクロホンを直線的に配置し、この線形マイクロホンアレーに含まれるマイクロホンの配列方向が反射板300の法線となるように反射板300を配置した。反射板300の形状に制限はないが、反射面が平面であって、1.0m×1.0mのサイズと適度な厚みと剛性を持つ平板の反射板を用いた。隣り合うマイクロホンの間隔を4cm、反射板300の反射率αを0.8とした。目的方向θsを45度に設定した。線形マイクロホンアレーに音声が平面波として到来すると仮定し、伝達特性を式(17b)(式(14a)、式(18a)を参照)で算出して、生成されるフィルタの指向性を検証した。比較対象として、2つの従来法(反射板無しの最小分散無歪応答法と反射板有りの遅延合成法)を用いた。
実験結果を図12、図13に示す。2つの従来法と比較して、どの周波数帯域でも本発明の狭指向音声強調技術の実施形態1の方が、目的方向に対して鋭い指向性を実現できていることが分かる。特に、低周波数帯域ほど本発明の狭指向音声強調技術の有用性が理解される。また、図14には、本発明の狭指向音声強調技術の実施形態1に従って生成したフィルタW→(ω,θ)による指向性を示した。図14から、直接音だけでなく、反射音も強調していることが分かる。
また、図15に示すように、線形マイクロホンアレーに含まれるマイクロホンの配列方向と反射板300の平面とのなす角が45度になるように反射板300を配置した場合についても上述の実験と同様の実験を行った。目的方向θsを22.5度に設定し、その他の実験条件は線形マイクロホンアレーに含まれるマイクロホンの配列方向が反射板300の法線となるように反射板300を配置した場合と同じとした。
実験結果を図16、図17に示す。2つの従来法と比較して、どの周波数帯域でも本発明の狭指向音声強調技術の実施形態1の方が、目的方向に対して鋭い指向性を実現できていることが分かる。特に、低周波数帯域ほど本発明の狭指向音声強調技術の有用性が理解される。
<応用例>
狭指向音声強調技術は、画像に譬えて表現すれば、不鮮明な惚けた画像から鮮明な画像を生成することに対応し、音場の情報をより詳細に得ることに役立つ。以下、本発明の狭指向音声強調技術が有用なサービス例について述べる。
第1の例として、映像と組み合わせたコンテンツ制作が挙げられる。本発明の狭指向音声強調技術の実施形態を利用すると、雑音(目的外音声等)が多い雑音環境でも遠方の目的音声をクリアに強調することができるので、例えば、フィールド外から撮影したサッカー選手がドリブルするズームイン映像に対応した音声付けを行うことができる。
第2の例として、TV会議システム(音声会議システムでもよい)への応用が挙げられる。狭い部屋で会議する場合には、従来技術でも、数本のマイクロホンを用いて発言者の音声を強調することがそれなりに可能であったが、広い会議室(例えばマイクロホンから5m以上離れた位置に話者が存在するような広い空間)では、クリアに遠方話者の音声を強調することが困難であり、このため、各発言者の前にマイクロホンを設置する必要があった。しかし、本発明の狭指向音声強調技術の実施形態を利用すると、遠方の音をクリアに強調することが可能であるため、各発言者の前にマイクロホンを設置することなく、広い会議室に対応したTV会議システムを構築することが可能となる。
《音声スポット強調技術の原理》
次に、本発明の音声スポット強調技術の原理について説明する。本発明の音声スポット強調技術は、信号処理に基づいて任意の方向の音声に追従できるというマイクロホンアレー技術の本質と、反射音を積極的に利用することによって高SN比で収音することとを基本としつつ、鋭い指向性を可能とする信号処理技術を組み合わせたことを特徴の一つとしている。特に、マイクロホンアレーから見た方向がほぼ同じで距離だけが異なる音源とマイクロホンアレーとの間の伝達特性はかなり類似していることに鑑みて、反射物を利用することによって、異なる音源とマイクロホンアレーとの間の伝達特性の差分を大きくすることが本発明の音声スポット強調技術の顕著な特徴の一つと言える。伝達特性の差分を信号処理によって抽出することによって、マイクロホンアレーからの距離に応じて音声を強調可能な音声スポット強調技術が実現する。
説明に先立ち、改めて記号を定義する。離散周波数のインデックスをω(周波数fと角周波数ωとの間にはω=2πfの関係があるから、離散周波数のインデックスωをこの角周波数ωと同一視してもかまわない。ωに関して「離散周波数のインデックス」を単に「周波数」ともいう)、フレーム番号のインデックスをkとする。M個のマイクロホンで受音したアナログ信号の第kフレームの周波数領域表現をX→(ω,k)=[X1(ω,k),…,XM(ω,k)]T、マイクロホンアレーの中心から見て方向θs且つマイクロホンアレーの中心から見て距離Dhだけ離れた位置に在ると想定される音源からの音声の周波数領域信号X→(ω,k)を周波数ωで強調するフィルタをW→(ω,θs,Dh)とする。Mは2以上の整数とする。Tは転置を表す。以下、しばらくの間、距離Dhを固定して考える。
「マイクロホンアレーの中心」は任意に定めることができるが、一般的にはM個のマイクロホンの配置の幾何学的中心が「マイクロホンアレーの中心」とされ、例えば線形マイクロホンアレーであれば両端のマイクロホンの中間点が「マイクロホンアレーの中心」とされ、例えばm×m(m2=M)の正方マトリックス状に配置された平面マイクロホンアレーであれば、四隅のマイクロホンの対角線が交わる位置が「マイクロホンアレーの中心」とされる。
また、「〜の位置に在ると想定される音源」と説明している理由は、実際に当該位置に音源が存在することが本発明の音声スポット強調技術では必須でないからである。つまり、詳しくは後の説明で明らかになるが、本発明の音声スポット強調技術は周波数表現の信号に対するフィルタ適用という信号処理を内実としており、離散的な距離Dhごとにフィルタを予め作成しておく実施形態が可能であるから、実際に音声スポット強調処理を行う段階でも当該位置に音源が実在することは要求されないのである。例えば、実際に音声スポット強調処理を行う段階で、マイクロホンアレーから見て方向θs、距離Dhの位置に実際に音源が実在する場合、当該位置に応じた適切なフィルタを選択することによって当該音源からの音声を強調できることになり、当該位置に音源が実在しない場合、仮に雑音すら存在しない完全無音を想定すると当該フィルタによって強調された音声は理想的に完全無音であることになるが、“当該位置からの音声”を強調したことに変わりはないのである。
このような下では、マイクロホンアレーの中心から見て(方向θs,距離Dh)の位置(以下、特に断りの無い限り「位置(θs,Dh)」と呼称する)に在ると想定される音源からの音声の周波数領域信号X→(ω,k)が周波数ωで強調された周波数領域信号(以下、出力信号と呼ぶ)Y(ω,k,θs,Dh)は式(106)で与えられる。Hはエルミート転置を表す。
フィルタW→(ω,θs,Dh)の設計法としては種々あるが、ここでは最小分散無歪応答法(MVDR method;minimum variance distortion response method)に拠る場合を説明する。最小分散無歪応答法では、フィルタW→(ω,θs,Dh)は、式(108)の拘束条件の下、空間相関行列Q(ω)を用いて方向θs以外の方向の音声(以下、「方向θs以外の方向の音声」を「雑音」とも呼ぶ)のパワーが周波数ωで最小となるように設計される(式(107)参照。ここでは距離Dhを固定して考えているので、空間相関行列Q(ω)をQ(ω,Dh)と明記していることに留意すること)。a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは、位置(θs,Dh)に音源が在ると仮定した場合の、当該音源とM本のマイクロホンとの間の周波数ωでの伝達特性である。換言すれば、a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは、マイクロホンアレーに含まれる各マイクロホンへの位置(θs,Dh)からの音声の周波数ωでの伝達特性である。空間相関行列Q(ω)は、周波数領域信号X→(ω,k)の成分X1(ω,k),…,XM(ω,k)について周波数ωにおける相互相関関係を表す行列であり、E[Xi(ω,k)Xj *(ω,k)](1≦i≦M,1≦j≦M)を(i,j)成分に持つ。演算子E[・]は、統計的平均操作を表す演算子であり、記号*は複素共役を表す。空間相関行列Q(ω)は、観測に基づいて得られるX1(ω,k),…,XM(ω,k)の統計量を用いて表現することもできるが、伝達特性を用いて表現することもできる。以下、しばらくの間、空間相関行列Q(ω)が伝達特性を用いて表現される場合を説明する。
式(107)の最適解であるフィルタW→(ω,θs,Dh)は式(109)で与えられることが知られている(下記参考文献1)。
空間相関行列Q(ω,Dh)の逆行列が式(109)に含まれることから察せられるように、空間相関行列Q(ω,Dh)の構造は鋭い指向性を実現する上で重要であることがわかる。また、式(107)から、雑音のパワーは空間相関行列Q(ω,Dh)の構造に依存することもわかる。
雑音の到来方向のインデックスpが属する集合を{1,2,…,P−1}とする。方向θsのインデックスsは集合{1,2,…,P−1}に属さないとする。P−1個の雑音が任意の方向から到来すると仮定すると、空間相関行列Q(ω,Dh)は式(110a)で与えられる。多くの雑音が存在する中でも十分に機能するフィルタを作る観点から、Pはある程度大きい値であることが好ましく、M程度の整数であるとする。なお、ここでは本発明の音声スポット強調技術の原理を分かり易く説明する観点から方向θsがあたかも特定の方向の如く説明しているが(それ故、方向θs以外の方向を「雑音」の方向としている)、後述の実施形態で明らかになるように、実際には、方向θsは音声強調の対象となりえる任意の位置に対応する方向であり、このため方向θsになりえる方向として一般的に複数の方向が想定される。このような観点からすると、方向θsと雑音の方向との区別は凡そ主観的なものであり、目的音か雑音かの区別なく音声の到来方向として想定される複数の方向としてP個の異なる方向を予め決めておき、P個の方向のうち選択された一つの方向が音声強調の対象の位置に対応する方向であり、それ以外の方向が雑音の方向であると理解することがより正確である。そこで、集合{1,2,…,P−1}と集合{s}との和集合をΦとすると、空間相関行列Q(ω,Dh)は、マイクロホンアレーの中心からの距離がDhであって音声の到来方向として想定される複数の方向に含まれる各方向θφに対応する各位置からの音声の各マイクロホンへの伝達特性a→(ω,θφ,Dh)=[a1(ω,θφ,Dh),…,aM(ω,θφ,Dh)]T(φ∈Φ)によって表される空間相関行列であり、式(110b)で表される。なお、|Φ|=Pである。|Φ|は集合Φの要素数を表す。
ここで、方向θsの音声の伝達特性a→(ω,θs,Dh)と、方向p∈{1,2,…,P−1}の音声の伝達特性a→(ω,θp,Dh)=[a1(ω,θp,Dh),…,aM(ω,θp,Dh)]Tがお互いに直交すると仮定する。つまり、式(111)で表される条件を満たすP個の直交基底系が存在すると仮定する。記号⊥は直交性を表す。A→⊥B→である場合、ベクトルA→とベクトルB→の内積値はゼロである。ここではP≦Mを満たすとする。なお、式(111)で表される条件を緩和し、近似的に直交基底系と見なせるP個の基底系が存在すると仮定できるような場合には、PはM程度、あるいはM以上のある程度大きい値であることが好ましい。
このとき、空間相関行列Q(ω,Dh)は式(112)のように展開できる。式(112)は、直交性を満たすP個の伝達特性で構成された行列V(ω,Dh)=[a→(ω,θs,Dh),a→(ω,θ1,Dh),…,a→(ω,θP−1,Dh)]Tと単位行列Λ(ω,Dh)によって空間相関行列Q(ω,Dh)を分解できることを意味している。ρは空間相関行列Q(ω,Dh)による式(111)を満たす伝達特性a→(ω,θφ,Dh)の固有値であり実数である。
このとき、空間相関行列Q(ω,Dh)の逆行列は式(113)で与えられる。
式(113)を式(107)に代入すると、雑音のパワーが最小となることがわかる。雑音のパワーが最小となれば方向θsに対する指向性が実現する。よって、異なる方向の伝達特性の間に直交性が成り立っていることは、方向θsに対する指向性を実現する上で、重要な条件となる。
以下、従来技術において方向θsに対して鋭い指向性を実現することが困難な理由について考察する。
従来技術では、伝達特性が直接音のみで構成されると仮定してフィルタの設計を行っていた。現実には同じ音源から発せられた音声が壁や天井等で反射してマイクロホンに到達する反射音が存在するが、反射音は指向性を悪化させる要因と考えて反射音の存在を無視していたのである。線形マイクロホンアレーに音声が平面波として到来すると仮定し、方向θから到来する直接音のみのステアリングベクトルをh→ d(ω,θ)=[hd1(ω,θ),…,hdM(ω,θ)]Tとすると、従来では、伝達特性a→ conv(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tをa→ conv(ω,θ)=h→ d(ω,θ)としていた(音波を平面波と考えるのでステアリングベクトルは距離Dに依存しない)。なお、ステアリングベクトルは、マイクロホンアレーの中心から見て方向θの音波について、基準点に対する各マイクロホンの周波数ωでの位相応答特性を並べた複素ベクトルである。
以下、しばらくの間、線形マイクロホンアレーに音声が平面波として到来すると仮定する。直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)が例えば式(114c)で与えられるとする。uは隣り合うマイクロホン間の距離を表す。jは虚数単位である。この場合、基準点は線形マイクロホンアレーの全長の半分の位置(線形マイクロホンアレーの中心)である。方向θは線形マイクロホンアレーの中心から見て直接音の到来方向と線形マイクロホンアレーに含まれるマイクロホンの配列方向とがなす角度として定義した(図9参照)。なお、ステアリングベクトルの表し方は種々あり、例えば、基準点を線形マイクロホンアレーの一端にあるマイクロホンの位置とすれば、直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)は例えば式(114d)で与えられる。以下、直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)は式(114c)で与えられるとして説明する。
方向θの伝達特性と方向θsの伝達特性との内積値γconv(ω,θ)は式(115)で表される。なお、θ≠θsとする。
以後、γconv(ω,θ)をコヒーレンスと呼称する。コヒーレンスγconv(ω,θ)が0となる方向θは式(116)で与えられる。qは0を除く任意の整数である。また、0<θ<π/2であるから、qの範囲は周波数帯域ごとに制限されることになる。
式(116)にて、変更可能なパラメータはマイクロホンアレーのサイズに関わるパラメータ(Mとu)のみであるから、方向の差(角度差)|θ−θs|が小さい場合には、マイクロホンアレーのサイズに関わるパラメータを変更することなくコヒーレンスγconv(ω,θ)を小さくすることは困難である。この場合、雑音のパワーは十分に小さくならず、図5Aに模式的に示すように、方向θsに対して広いビーム幅を持った指向性となってしまう。
他方、本発明の音声スポット強調技術は、このような考察に基づき、方向θsに対して鋭い指向性を持つためのフィルタ設計には、方向の差(角度差)|θ−θs|が小さい場合でもコヒーレンスを十分に小さくできるようにすることが重要であるとの知見に基づき、従来技術と異なり反射音を積極的に考慮することを特徴とする。
マイクロホンアレーの各マイクロホンには、音源からの直接音と、当該音源からの音が反射物300で反射した反射音との二種類の平面波が混入することになる。反射音の数をΞとする。Ξは1以上の予め定められた整数である。このとき、伝達特性a→(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tは、音声強調の対象となりえる方向の音声がマイクロホンアレーに直接届く直接音の伝達特性と当該音声が反射物で反射してマイクロホンアレーに届く一つ以上の反射音の各伝達特性との和、具体的には、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差をτξ(θ)とし、αξ(1≦ξ≦Ξ)を反射による音の減衰を考慮するための係数とすると、式(117a)のように、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正されたΞ個の反射音のステアリングベクトルの和で表現できる。h→ rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tは方向θの直接音に対応する反射音のステアリングベクトルを表す。αξ(1≦ξ≦Ξ)は、通常、αξ≦1(1≦ξ≦Ξ)である。各反射音について、音源からマイクロホンに到達するまでの反射回数が1回であるならば、αξ(1≦ξ≦Ξ)は、ξ番目の反射音が反射した物体の音の反射率を表していると考えて差し支えない。
M個のマイクロホンで構成されるマイクロホンアレーに対して一つ以上の反射音を与えることが望まれるので、一つ以上の反射物が存在することが好ましい。このような観点からすると、音声強調の対象位置に音源が在るとして、当該音源とマイクロホンアレーと一つ以上の反射物との位置関係は、当該音源からの音が少なくとも一つの反射物で反射してマイクロホンアレーに届くように、各反射物が配置されていることが好ましい。各反射物の形状は、2次元形状(例えば平板)または3次元形状(例えばパラボラ形状)である。また、各反射物の大きさはマイクロホンアレーと同等かそれ以上(1〜2倍程度)の大きさを持つことが好ましい。反射音を効果的に活用するためには、各反射物の反射率αξ(1≦ξ≦Ξ)は少なくとも0よりも大きく、さらに言えば、マイクロホンアレーに届いた反射音の振幅が直接音の振幅の例えば0.2倍以上であることが望ましく、例えば各反射物は剛性を有する固体とされる。反射物は移動可能な物体(例えば反射板)であっても移動不能な物体(床や壁や天井)であってもよい。なお、移動不能な物体を反射物として設定するとマイクロホンアレーの設置位置の変更などに伴って、反射音のステアリングベクトルの変更を要することとなり(後述する関数Ψ(θ)やΨξ(θ)を参照のこと)、ひいてはフィルタ計算のやり直し(再設定)が余儀なくされる。そこで、環境変化に対して頑健であるためには、各反射物はマイクロホンアレーの従物であることが好ましい(この場合、想定されるΞ個の反射音は各反射物によるものであると考えることになる)。ここで「マイクロホンアレーの従物」とは、「マイクロホンアレーに対する配置関係(幾何学的関係)を維持したままマイクロホンアレーの位置や向きなどの変更に従うことができる有体物」のことである。単純な例として、マイクロホンアレーに各反射物が固定されている構成が挙げられる。
以下、本発明の音声スポット強調技術の利点を具体的に説明する観点から、Ξ=1とし、反射音の反射回数は1回であって、マイクロホンアレーの中心からLメートル離れた位置に一つの反射物が存在すると仮定する。反射物は厚みのある剛体とする。この場合、Ξ=1であるからこれを表す添え字を略することとして、式(117a)は式(117b)のように表すことができる。
反射音のステアリングベクトルh→ r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は、直接音のステアリングベクトルの表し方と同様に(式(114c)参照)、式(118a)で表される。関数Ψ(θ)は反射音の到来方向を出力する。なお、直接音のステアリングベクトルを式(114d)で表す場合には、反射音のステアリングベクトルh→ r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は式(118b)で表される。また、Ξ≧2ならば、ξ番目(1≦ξ≦Ξ)のステアリングベクトルh→ rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tのm番目の要素は、式(118c)や式(118d)で表される。関数Ψξ(θ)はξ番目(1≦ξ≦Ξ)の反射音の到来方向を出力する。
反射物の位置は適宜に設定可能であるから、反射音の到来方向は変更可能なパラメータとして扱うことができる。
平板状の反射物がマイクロホンアレーの近傍にある(距離Lがマイクロホンアレーのサイズに比して極端に大きくない)と仮定すると、コヒーレンスγ(ω,θ)は式(119)で表される。なお、θ≠θsとする。
式(119)から、式(115)の従来のコヒーレンスγconv(ω,θ)よりも式(119)のコヒーレンスγ(ω,θ)の方が小さくなる可能性があることがわかる。反射物の置き方によって変更できるパラメータ(Ψ(θ)やL)が式(119)の第2〜4項目の中に存在するので第1項目のh→ d H(ω,θ)h→ d(ω,θ)を除去できる可能性がある。
例えば、線形マイクロホンアレーに対して、マイクロホンの配列方向が反射板の法線となるように平板の反射板を配置すると、関数Ψ(θ)についてΨ(θ)=π−θが成立し、直接音と反射音との到来時間差τ(θ)について式(120)が成立するので、式(119)を構成する要素に式(121)(122)の各条件が生成される。記号*は複素共役を表す演算子である。
h→ d H(ω,θ)h→ r(ω,θ)の絶対値はh→ d H(ω,θ)h→ d(ω,θ)よりも十分に小さいので、式(119)の第2項、第3項を無視すると、コヒーレンスγ(ω,θ)は式(123)のように近似できる。
仮にh→ d H(ω,θ)h→ d(ω,θ)≠0であるとしても、近似コヒーレンスγ〜(ω,θ)は式(124)の極小解θを持つ。qは任意の正整数である。また、qの範囲は周波数帯域ごとに制限される。
つまり、式(116)で与えられる方向だけではなく、式(124)で与えられる方向でもコヒーレンスを抑圧できる。コヒーレンスを抑圧できれば、雑音のパワーをより小さくできるので、図5Bに模式的に示すように、鋭い指向性の実現が可能になる。
なお、図5Aと図5Bでは本発明の狭指向音声強調技術の原理に拠る場合と従来技術に拠る場合の指向性の違いを模式的に示したが、図6に、式(116)で与えられるθと式(124)で与えられるθの違いを具体的に示す。ω=2π×1000[rad/s],L=0.70[m],θs=π/4[rad]である。図6では両者の比較のために正規化されたコヒーレンスの方向依存性を示してあり、記号○で示された方向が式(116)で与えられるθであり、記号+で示された方向が式(124)で与えられるθである。図6から明らかなように、従来技術に拠るとθs=π/4[rad]に対してコヒーレンスがゼロとなるθは記号○で示された方向だけであるが、本発明の狭指向音声強調技術の原理に拠るとθs=π/4[rad]に対してコヒーレンスがゼロとなるθは記号+で示される多数の方向に存在し、特に、記号○で示された方向よりもθs=π/4[rad]にはるかに近い方向に記号+で示された方向が存在するため、従来技術に比べて鋭い指向性が実現されることが理解できる。
これまで本発明の音声スポット強調技術の原理を分かりやすく説明する観点から音波が平面波として到来すると仮定してきたが、上述の説明から明らかなように、本発明の音声スポット強調技術の要点は、伝達特性a→(ω,θ,D)=[a1(ω,θ,D),…,aM(ω,θ,D)]Tを、例えば式(117a)のように、直接音のステアリングベクトルとΞ個の反射音のステアリングベクトルの和で表現することにある。従って、音波が平面波として到来する場合に限定されず球面波として到来する場合にも従来よりも狭指向性の音声強調が可能であることが理解される。
音波が球面波として到来する場合についての伝達特性a→(ω,θ,D)を説明する。マイクロホンアレーの各マイクロホンには、音源からの直接音と、当該音源からの音が反射物300で反射した反射音との二種類の球面波が混入することになる。反射音の数をΞとする。Ξは1以上の予め定められた整数である。このとき、伝達特性a→(ω,θ,D)=[a1(ω,θ,D),…,aM(ω,θ,D)]Tは、音声強調の対象となりえる位置(θs,D)からの音声がマイクロホンアレーに直接届く直接音の伝達特性と当該音声が反射物で反射してマイクロホンアレーに届く一つ以上の反射音の各伝達特性との和、具体的には、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差をτξ(θ,D)とし、αξ(1<ξ<Ξ)を反射による音の減衰を考慮するための係数とすると、式(125)のように、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正されたΞ個の反射音のステアリングベクトルの和で表現できる。h→ d(ω,θ,Dh)=[hd1(ω,θ,Dh),…,hdM(ω,θ,Dh)]Tは位置(θs,D)からの音声の直接音のステアリングベクトルを表す。h→ rξ(ω,θ,D)=[hr1ξ(ω,θ,D),…,hrMξ(ω,θ,D)]Tは位置(θs,D)からの音声の直接音に対応する反射音のステアリングベクトルを表す。ここで「ステアリングベクトル」という呼称について注意を加えておく。一般的に、「ステアリングベクトル」は「方向ベクトル」とも呼ばれるように「方向」に依存する複素ベクトルを表し、この観点から、位置(θs,D)に依存する複素ベクトルの呼称としては例えば「拡張されたステアリングベクトル」と呼ぶほうがより正確である。しかし、本明細書では、表現の簡略化のため、位置(θs,D)に依存する複素ベクトルの呼称としても単に「ステアリングベクトル」を用いることにする。αξ(1≦ξ≦Ξ)は、通常、αξ≦1(1≦ξ≦Ξ)である。各反射音について、音源からマイクロホンに到達するまでの反射回数が1回であるならば、αξ(1≦ξ≦Ξ)は、ξ番目の反射音が反射した物体の音の反射率を表していると考えて差し支えない。
式(125)において、直接音のステアリングベクトルh→ d(ω,θ,Dh)を構成するm番目の要素hdm(ω,θ,Dh)は例えば式(125a)で与えられる。mは1≦m≦Mを満たす各整数である。cは音速を表す。jは虚数単位である。適宜に設定した空間座標系において、v→ θ,D (d)は位置(θ,D)の位置ベクトルを、u→ mはm番目のマイクロホンの位置ベクトルを表す。記号‖・‖はノルムを表す。f(‖v→ θ,D (d)−u→ m‖)は音波の距離減衰を表す関数である。例えばf(‖v→ θ,D (d)−u→ m‖)=1/‖v→ θ,D (d)−u→ m‖であり、この場合、式(125a)は式(125b)で表される。
式(125)において、反射音のステアリングベクトルh→ rξ(ω,θ,D)=[hr1ξ(ω,θ,D),…,hrMξ(ω,θ,D)]Tのm番目の要素hrmξ(ω,θ,D)は、直接音のステアリングベクトルの表し方と同様に(式(125a)参照)、式(126a)で表される。mは1≦m≦Mを満たす各整数である。cは音速を表す。jは虚数単位である。上記空間座標系において、v→ θ,D (ξ)は位置(θ,D)がξ番目の反射物の反射面で鏡像対象に移された位置の位置ベクトルを、u→ mはm番目のマイクロホンの位置ベクトルを表す。記号‖・‖はノルムを表す。f(‖v→ θ,D (ξ)−u→ m‖)は音波の距離減衰を表す関数である。例えばf(‖v→ θ,D (ξ)−u→ m‖)=1/‖v→ θ,D (ξ)−u→ m‖であり、この場合、式(126a)は式(126b)で表される。
なお、ξ番目の到来時間差τξ(θ,D)と位置ベクトルv→ θ,D (ξ)は、位置(θ,D)とマイクロホンアレーとξ番目の反射物との位置関係が決まると、その位置関係に基づいて理論的に計算可能である。
本発明の音声スポット強調技術は従来技術と異なり反射音を積極的に考慮することから、狭指向性の音声スポット強調が可能でもある。以下、このことを二つの音源を例に挙げて説明する。図18Aに示すように、マイクロホンアレーから見て距離が異なるがほぼ同じ方向に在る二つの音源AとBそれぞれから発せられた音声について、両者の直接音のみから両者の音声をスポット強調することは難しい。この理由は、音源Aの位置(θ[A],D[A])に対応する直接音のステアリングベクトルh→ d(ω,θ[A],D[A])に現れる減衰関数の値f(‖v→ θ[A],D[A] (d)−u→ m‖)と音源Bの位置(θ[B],D[B])に対応する直接音のステアリングベクトルh→ d(ω,θ[B],D[B])に現れる減衰関数の値f(‖v→ θ[B],D[B] (d)−u→ m‖)との間には、θ[A]≒θ[B]、D[A]≠D[B]に注意すると、距離に応じた差異が認められるが、現実には、マイクロホンアレーが収音した音声の大きさ(音量)から音源信号の大きさ(音量)と減衰関数の値とを区別できないためである。つまり、従来技術の如くa→ conv(ω,θ,D)=h→ d(ω,θ,D)とするならば、直接音の伝達特性はほぼ同じ方向に在る音源の距離に関する識別力として十分でなく、式(109)、式(110a)、式(110b)を参照して分かるようにスポット強調可能なフィルタの設計が困難になるのである。
他方、本発明の音声スポット強調技術では積極的に反射音を考慮するところ、図18Bに示すように、ξ番目の反射音の仮想音源A(ξ),B(ξ)は、マイクロホンアレーの立場から恰も、音源A,Bの位置がξ番目の反射物300の反射面で鏡像対象に移された位置に存在することになる。これは、音源A,Bから発せられた音声がξ番目の反射物300で反射した反射音はそれぞれ、仮想音源A(ξ),B(ξ)から到来することと等価である。仮想音源A(ξ)からのξ番目の反射音と仮想音源B(ξ)からのξ番目の反射音との間では、各仮想音源A(ξ),B(ξ)の位置ベクトルv→ θ[A(ξ)],D[A(ξ)]とv→ θ[B(ξ)],D[B(ξ)] (ξ)、各到来時間差τξ(θ[A],D[A])とτξ(θ[B],D[B])について、大きな差異がある。従って、位置(θ[A],D[A])と位置(θ[B],D[B])に対応する伝達特性a→(ω,θ[A],D[A])とa→(ω,θ[B],D[B])は式(127a)と式(127b)で表され、式(127a)と式(127b)のそれぞれの第2項の存在によって、θ[A]≒θ[B]であっても、異なる位置に対応する伝達特性間には有意な差分が生じることになる。この伝達特性間の差分をビームフォーミング法で抽出することによって、想定される音源の位置に応じた音声のスポット強調が可能となるのである。
これまでは、狭指向性の実現を説明するために、距離Dhを固定して考えてきた。このため、空間相関行列Q(ω)を式(110a)や式(110b)で表した。しかし、距離Dδ(δ=1,2,…,G)ごとのMチャネルの伝達特性の相互相関も考慮することによって音場の情報量が増え、より精度の良いフィルタを与える空間相関行列を構成できる。この空間相関行列Q(ω)は式(110c)で表される。方向θφのインデックスφが属する集合をΦ(|Φ|=P)、距離Dδのインデックスδが属する集合をΔ(|Δ|=G)とする。
このとき、式(110c)で表される空間相関行列Q(ω)を用いると、最小分散無歪応答法によるフィルタW→(ω,θs,Dh)は式(109)に替えて式(109a)で表される。
ところで、既述のとおり、本発明の音声スポット強調技術の要点は、伝達特性a→(ω,θ,D)=[a1(ω,θ,D),…,aM(ω,θ,D)]Tを、直接音のステアリングベクトルとΞ個の反射音のステアリングベクトルの和で表現することにある。従って、フィルタの設計コンセプト自体に影響を与えないので、最小分散無歪応答法以外の手法によってフィルタW→(ω,θs,Dh)を設計することができる。
上述の最小分散無歪応答法以外の手法として、〈1〉SN比最大化規準によるフィルタ設計法、〈2〉パワーインバージョン(Power Inversion)に基づくフィルタ設計法、〈3〉一つ以上の抑圧点(雑音のゲインが抑圧される位置)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法、〈4〉遅延合成(Delay−and−Sum Beam Forming)法によるフィルタ設計法、〈5〉最尤法によるフィルタ設計法、〈6〉AMNOR(Adaptive Microphone−array for noise reduction)法によるフィルタ設計法を説明する。〈1〉SN比最大化規準によるフィルタ設計法と〈2〉パワーインバージョンに基づくフィルタ設計法については下記参考文献2を参照のこと。〈3〉一つ以上の抑圧点(雑音のゲインが抑圧される方向)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法については下記参考文献3を参照のこと。〈6〉AMNOR(Adaptive Microphone−array for noise reduction)法によるフィルタ設計法については下記参考文献4を参照のこと。
〈1〉SN比最大化規準によるフィルタ設計法
SN比最大化規準によるフィルタ設計法では、位置(θs,Dh)でのSN比(SNR)を最大化する規準でフィルタW→(ω,θs,Dh)を決定する。位置(θs,Dh)の音声の空間相関行列をRss(ω)、位置(θs,Dh)以外の位置の音声の空間相関行列をRnn(ω)とする。このとき、SNRは式(128)で表される。なお、Rss(ω)は式(129)、Rnn(ω)は式(130)で表される。伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは例えば式(125)で表される(正確には、式(125)のθをθs、DをDhとしたものである)。式(130)で、方向θφのインデックスφが属する集合をΦ(|Φ|=P)、距離Dδのインデックスδが属する集合をΔ(|Δ|=G)とする。
式(128)のSNRを最大にするフィルタW→(ω,θs,Dh)は、フィルタW→(ω,θs,Dh)に関する勾配をゼロとすること、つまり式(131)によって求めることができる。
但し、
これにより、式(128)のSNRを最大にするフィルタW→(ω,θs,Dh)は式(132)で与えられる。
式(132)には位置(θs,Dh)以外の位置の音声の空間相関行列Rnn(ω)の逆行列が含まれているが、Rnn(ω)の逆行列を、(1)位置(θs,Dh)の音声と(2)位置(θs,Dh)以外の位置の音声とを含む入力全体の空間相関行列Rxx(ω)の逆行列に置換してもよいことが知られている。なお、Rxx(ω)=Rss(ω)+Rnn(ω)である。つまり、式(128)のSNRを最大にするフィルタW→(ω,θs,Dh)を式(133)で求めてもよい。
〈2〉パワーインバージョンに基づくフィルタ設計法
パワーインバージョンに基づくフィルタ設計法では、一つのマイクロホンに対するフィルタ係数を一定値に固定した状態でビームフォーマの平均出力パワーを最小化する基準でフィルタW→(ω,θs,Dh)を決定する。ここでは、一例として、M個のマイクロホンのうち1番目のマイクロホンに対するフィルタ係数を固定するとして説明する。この設計法では、フィルタW→(ω,θs,Dh)は、式(135)の拘束条件の下、空間相関行列Rxx(ω)を用いて全位置(音源位置として想定される全ての位置)の音声のパワーが最小となるように設計される(式(134)参照)。伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは例えば式(125)で表される(正確には、式(125)のθをθs、DをDhとしたものである)。
但し、
式(134)の最適解であるフィルタW→(ω,θs,Dh)は式(136)で与えられることが知られている(下記参考文献2参照)。
〈3〉一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法
上述の最小分散無歪応答法では、式(108)で表されるように位置(θs,Dh)の音声の全帯域通過を拘束条件とし、式(107)で表されるビームフォーマの平均出力パワーが最小となる(つまり、位置(θs,Dh)以外の位置の音声である雑音のパワーが最小となる)フィルタを求める、という単一拘束条件の下の規準でフィルタW→(ω,θs,Dh)を設計した。この方法によると、全体的に雑音のパワーを抑圧することはできるが、特定の一つまたは複数の位置に強いパワーを持ったノイズ源が存在することが予め判明している場合には必ずしも好適な方法とは言えない。このような場合、ノイズ源が存在する既知の一つまたは複数の特定位置(つまり、抑圧点)を強く抑圧するフィルタが要求される。このため、ここで説明するフィルタ設計法では、(1)位置(θs,Dh)の音声の全帯域通過、および(2)予め判明しているB個(Bは1以上の予め定められた整数)の抑圧点(θN1,DG1),(θN2,DG2),…,(θNB,DGB)の音声の全帯域抑制、を拘束条件として、式(107)で表されるビームフォーマの平均出力パワーが最小となる(つまり、位置(θs,Dh)と各抑圧点とを除く位置の音声のパワーが最小となる)フィルタを求める。既述のように、音声の到来方向のインデックスφが属する集合を{1,2,…,P}とすると、Nj∈{1,2,…,P}(ただし、j∈{1,2,…,B}),B≦P−1である。また、音源までの距離のインデックスδが属する集合を{1,2,…,G}とすると、Gj∈{1,2,…,G}(ただし、j∈{1,2,…,B}),B≦G−1である。
このとき、a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]Tを、位置(θi,Dg)に音源が在ると仮定した場合の、当該音源とM本のマイクロホンとの間の周波数ωでの伝達特性、換言すれば、a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]Tは、マイクロホンアレーに含まれる各マイクロホンへの位置(θi,Dg)の音声の周波数ωでの伝達特性とすると、拘束条件は式(137)で表される。ただし、インデックスi,gについて、(i,g)∈{(s,h),(N1,G1),{N2,G2),…,(NB,GB)}であり、伝達特性a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]Tは式(125)で表される(正確には、式(125)のθをθi、DをDgとしたものである)。fi,g(ω)は、位置(θi,Dg)に関する周波数ωでの通過特性を表す。
式(137)を行列形式で表現すると、例えば式(138)のように表すことができる。ただし、A→(ω,θs,Dh)=[a→(ω,θs,Dh),a→(ω,θN1,DG1),…,a→(ω,θNB,DGB)]である。
但し、
(1)位置(θs,Dh)の音声の全帯域通過、および(2)予め判明しているB個の抑圧点(θN1,DG1),(θN2,DG2),…,(θNB,DGB)の音声の全帯域抑制、という拘束条件を考慮すると、理想的には、fs,h(ω)=1.0、fi,g(ω)=0.0((i,g)∈{(N1,G1),(N2,G2),…,(NB,GB)})とされるべきである。これは、位置(θs,Dh)の音声の全帯域完全通過と、予め判明しているB個の抑圧点(θN1,DG1),(θN2,DG2),…,(θNB,DGB)の音声の全帯域完全阻止を表している。しかし、現実には全帯域完全通過や全帯域完全阻止という制御が難しい場合もある。このような場合には、fs,h(ω)の絶対値を1.0に近い値、fi,g(ω)((i,g)∈{(N1,G1),(N2,G2),…,(NB,GB)})の絶対値を0.0に近い値に設定すればよい。もちろん、fi,g_i(ω)とfi,g_j(ω)(i≠j、i,j∈{N1,N2,…,NB})は等しくても異なってもよい。
ここで説明したフィルタ設計法によると、拘束条件を表す式(138)の下での式(107)の最適解であるフィルタW→(ω,θs,Dh)は式(139)で与えられる(下記参考文献3参照)。ただし、空間相関行列Q(ω)として式(110c)で表されるものを用いたが、式(110a)ないし式(110b)で表される空間相関行列を用いてもよい。
〈4〉遅延合成法によるフィルタ設計法
遅延合成法によると、直接音や反射音が平面波到来すると仮定すると、フィルタW→(ω,θs,Dh)は式(140)で与えられる。つまり、フィルタW→(ω,θs,Dh)は伝達特性a→(ω,θs,Dh)を正規化して得られる。伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは式(125)で表される(正確には、式(125)のθをθs、DをDhとしたものである)。この設計法によると、フィルタ精度は必ずしも良好とは言えない場合があるが、計算量が少なくて済む。
〈5〉最尤法によるフィルタ設計法
上述の最小分散無歪応答法において、空間相関行列Q(ω,Dh)内に目的方向の音声の空間情報を含めないことによって、雑音を抑圧する自由度が向上し、雑音のパワーをよりいっそう抑圧できる。この場合、ここで説明するフィルタ設計法では、空間相関行列Q(ω,Dh)を、式(110a)の右辺第二項、つまり、式(110d)で表す。フィルタW→(ω,θs,Dh)は式(109)や式(139)で与えられる。このとき、式(109)や式(139)に含まれる空間相関行列は、式(110d)で表される空間相関行列である。
あるいは、空間相関行列Q(ω)内に位置(θs,Dh)の音声の空間情報を含めないようにしてもよい。この場合、ここで説明するフィルタ設計法では、空間相関行列Q(ω)を、式(110e)で表す。フィルタW→(ω,θs,Dh)は式(109)や式(139)で与えられる。このとき、式(109)や式(139)に含まれる空間相関行列は、式(110e)で表される空間相関行列である。
〈6〉AMNOR法によるフィルタ設計法
AMNOR法は、目的方向の音声の劣化量Dとフィルタ出力信号に残留する雑音のパワーとのトレードオフ関係を踏まえて、目的方向の音声の劣化量Dを或る程度許容し(例えば劣化量Dを或る閾値D^以下に保つようにする)、[a]目的方向の仮想的な信号(以下、仮想信号という)に音源とマイクロホンとの間の伝達特性を作用させた信号と[b](例えば目的方向の音声が無い雑音環境でのM個のマイクロホンによる観測によって得られる)雑音との混合信号を入力としたときのフィルタ出力信号が最小2乗誤差の観点から仮想信号を最も良く再現する(つまり、フィルタ出力信号に含まれる雑音のパワーが最小となる)フィルタを求める方式である。
ここで説明するフィルタ設計法は、AMNOR法に距離の概念を導入したフィルタ設計法としてAMNOR法と同様に考えることができる。すなわち、位置(θs,Dh)の音声の劣化量Dとフィルタ出力信号に残留する雑音のパワーとのトレードオフ関係を踏まえて、位置(θs,Dh)の音声の劣化量Dを或る程度許容し(例えば劣化量Dを或る閾値D^以下に保つようにする)、[a]位置(θs,Dh)の仮想的な信号(以下、仮想目的信号という)に音源とマイクロホンとの間の伝達特性を作用させた信号と[b](例えば位置(θs,Dh)の音声が無い雑音環境でのM個のマイクロホンによる観測によって得られる)雑音との混合信号を入力としたときのフィルタ出力信号が最小2乗誤差の観点から仮想目的信号を最も良く再現する(つまり、フィルタ出力信号に含まれる雑音のパワーが最小となる)フィルタを求める。
ここで説明するフィルタ設計法によると、AMNOR法と同様に、フィルタW→(ω,θs,Dh)は式(141)で与えられる(下記参考文献4参照)。なお、Rss(ω)は式(126)、Rnn(ω)は式(127)で表される。伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは式(125)で表される(正確には、式(125)のθをθs、DをDhとしたものである)。
Psは、仮想目的信号のレベルを重み付けする係数であり、仮想目的信号レベルと呼称される。仮想目的信号レベルPsは、周波数に依存しない定数である。仮想目的信号レベルPsは、経験則に基づいて決められてもよく、あるいは、位置(θs,Dh)の音声の劣化量Dと閾値D^との差が任意に定められた誤差範囲内となるように決定されてもよい。後者の例を説明する。周波数ωにおいて、フィルタW→(ω,θs,Dh)の位置(θs,Dh)の音声の周波数応答F(ω)は、式(142)で表される。式(141)で与えられるフィルタW→(ω,θs,Dh)を用いたときの劣化量DをD(Ps)と表記すると、劣化量D(Ps)は式(143)で定義される。ω0は、対象となる周波数ωの上限(通常は、離散的な周波数ωに隣接する高域側周波数である)を表す。劣化量D(Ps)はPsの単調減少関数である。従って、D(Ps)の単調性によって、Psを変化させながら劣化量D(Ps)を求めることを繰り返すことで、劣化量D(Ps)と閾値D^との差が任意に定められた誤差範囲内となる仮想目的信号レベルPsを求めることができる。
<変形例>
上述の説明では、空間相関行列Q(ω)、Rss(ω)、Rnn(ω)を、伝達特性を用いて表現した。しかし、上述の周波数領域信号X→(ω,k)を用いて空間相関行列Q(ω)、Rss(ω)、Rnn(ω)を表現することもできる。以下、空間相関行列Q(ω)について説明するが、Rss(ω)、Rnn(ω)についても同様である(Q(ω)をRss(ω)あるいはRnn(ω)に読み替えればよい)。なお、空間相関行列Rss(ω)は位置(θs,Dh)の音声のみが存在する環境でのマイクロホンアレー(M個のマイクロホンを含む)による観測によって得られたアナログ信号の周波数領域表現によって得られ、空間相関行列Rnn(ω)は位置(θs,Dh)の音声が無い環境(つまり雑音環境)でのマイクロホンアレー(M個のマイクロホンを含む)による観測によって得られたアナログ信号の周波数領域表現によって得られる。
周波数領域信号X→(ω,k)=[X1[(ω,k),…,XM(ω,k)]Tを用いた空間相関行列Q(ω)は式(144)で表される。演算子E[・]は、統計的平均操作を表す演算子である。マイクロホンアレー(M個のマイクロホンを含む)で受音したアナログ信号の離散時系列を確率過程と見たとき、それがいわゆる広義の定常ないし2次定常である場合、演算子E[・]は算術平均値(期待値)演算となる。この場合、空間相関行列Q(ω)は、例えば、メモリ等に蓄積された現在および過去の計ζ個のフレームの周波数領域信号X→(ω,k−i)(i=0,1,…,ζ−1)を用いて式(145)で表される。i=0のとき、つまり第kフレームが現在のフレームである。なお、式(144)ないし式(145)による空間相関行列Q(ω)はフレーム毎に計算し直してもよいし、あるいは、定期ないし不定期の間隔で計算し直してもよいし、あるいは、後に説明する実施形態の実施の前に計算しておいてもよい(特に、フィルタ設計にRss(ω)あるいはRnn(ω)を用いる場合には、実施形態の実施の前に取得された周波数領域信号を用いて空間相関行列Q(ω)を事前に計算しておくことが好適である)。フレーム毎に空間相関行列Q(ω)を計算し直す場合、空間相関行列Q(ω)は現在と過去のフレームに依存するから、式(144a)や式(145a)のように明示的に空間相関行列をQ(ω,k)と表すことにする。
式(144a)や式(145a)で表される空間相関行列Q(ω,k)を用いるとフィルタW→(ω,θs,Dh)も現在と過去のフレームに依存するから、明示的にこれをW→(ω,θs,Dh,k)と表すことにする。このとき、上述の種々のフィルタ設計法で説明した式(109)、式(132)、式(133)、式(136)、式(139)、式(141)のいずれかで表されるフィルタW→(ω,θs,Dh)は、表記上、式(109m)、式(132m)、式(133m)、式(136m)、式(139m)、式(141m)に修正される。
《音声スポット強調技術の実施形態1》
本発明の音声スポット強調技術の実施形態1の機能構成および処理フローを図19と図20に示す。この実施形態1の音声スポット強調装置3は、AD変換部610、フレーム生成部620、周波数領域変換部630、フィルタ適用部640、時間領域変換部650、フィルタ設計部660、記憶部690を含む。
[ステップS21]
予め、フィルタ設計部660が音声強調の対象となりえる離散的な位置(θi,Dg)ごとに、周波数ごとのフィルタW→(ω,θi,Dg)を計算しておく。音声強調の対象となりえる離散的な方向の総数をI(Iは1以上の予め定められた整数であり、I≦Pを満たす)、離散的な距離の総数をG(Gは1以上の予め定められた整数である)とすると、W→(ω,θ1,D1),…,W→(ω,θi,D1),…,W→(ω,θI,D1),W→(ω,θ1,D2),…,W→(ω,θi,D2),…,W→(ω,θI,D2),…,W→(ω,θ1,Dg),…,W→(ω,θi,Dg),…,W→(ω,θI,Dg),…,W→(ω,θ1,DG),…,W→(ω,θi,DG),…,W→(ω,θI,DG)(1≦i≦I,1≦g≦G,ω∈Ω;iとgは整数、Ωは周波数ωの集合)を事前に計算しておくのである。
このためには、上述の<変形例>で説明した場合を除き、伝達特性a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]T(1≦i≦I,1≦g≦G,ω∈Ω)を求める必要があるが、これは、マイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(125)によって具体的に計算できる(正確には、式(125)のθをθi、DをDgとしたものである)。なお、上述の〈3〉一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a→(ω,θi,Dg)(1≦i≦I,1≦g≦G,ω∈Ω)を求める際の位置のインデックス(i,g)は、少なくともB個の抑圧点の方向のインデックス(N1,G1),(N2,G2),…,(NB,GB)の全てを亘ることが望ましい。換言すれば、B個のインデックスN1,N2,…,NBは、1以上I以下のいずれかの異なる整数として設定され、B個のインデックスG1,G2,…,GBは、1以上G以下のいずれかの異なる整数として設定される。
反射音の数Ξは1≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。
ステアリングベクトルの計算には、例えば式(125a)、式(125b)、式(126a)、式(126b)を用いることができる。なお、フィルタ設計に用いる伝達特性として、式(125)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
そして、上述の<変形例>で説明した場合を除き、伝達特性a→(ω,θi,Dg)を用いて、例えば式(109)、式(109a)、式(132)、式(133)、式(136)、式(139)、式(140)、式(141)のいずれかによってW→(ω,θi,Dg)(1≦i≦I,1≦g≦G)を求める。なお、上述の〈5〉最尤法によるフィルタ設計法で説明した場合を除き、式(109)または式(109a)または式(133)または式(136)または式(139)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(110b)で計算できる。上述の〈5〉最尤法によるフィルタ設計法に拠って、式(109)または式(109a)または式(133)または式(136)または式(139)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(110c)あるいは式(110d)で計算できる。式(132)を用いる場合には空間相関行列Rnn(ω)は式(130)で計算できる。I×G×|Ω|個のフィルタW→(ω,θi,Dg)(1≦i≦I,1≦g≦G,ω∈Ω)は記憶部690に記憶される。|Ω|は集合Ωの要素数を表す。
[ステップS22]
マイクロホンアレーを構成するM個のマイクロホン200−1,…,200−Mを用いて収音する。Mは2以上の整数である。
M個のマイクロホンの並べ方に制限は無い。ただし、2次元または3次元的にM個のマイクロホンを配置することによって、音声強調する方向の不確定性がなくなるという利点がある。つまり、M個のマイクロホンを水平方向に直線状に並べたときに例えば正面方向から到来する音声と真上から到来する音声との区別ができなくなるという問題を、マイクロホンを平面的ないし立体的に並べることで防ぐことができる。また、収音方向として設定できる方向を広くとるためには、各マイクロホンの指向性は、収音方向である目的方向θsになり得る方向にある程度の音圧で音声を収音可能な指向性を持っていたほうがよい。したがって、無指向性マイクロホンや単一指向性マイクロホンといった指向性が比較的緩やかなマイクロホンが好適である。
[ステップS23]
AD変換部610が、M個のマイクロホン200−1,…,200−Mで収音されたアナログ信号(収音信号)をディジタル信号x→(t)=[x1(t),…,xM(t)]Tへ変換する。tは離散時間のインデックスを表す。
[ステップS24]
フレーム生成部620は、AD変換部610が出力したディジタル信号x→(t)=[x1(t),…,xM(t)]Tを入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x→(k)=[x→ 1(k),…,x→ M(k)]Tを出力する。kはフレーム番号のインデックスである。x→ m(k)=[xm(k−1)N+1),…,xm(kN)](1≦m≦M)である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
[ステップS25]
周波数領域変換部630は、各フレームのディジタル信号x→(k)を周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X→(ω,k)は、各周波数ω、フレームkごとに出力される。
[ステップS26]
フィルタ適用部640は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに、強調したい位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)を適用して、出力信号Y(ω,k,θs,Dh)を出力する(式(146)参照)。位置(θs,Dh)のインデックスs,hは、s∈{1,…,I},h∈{1,…,G}であり、フィルタW→(ω,θs,Dh)は記憶部690に記憶されているので、例えば、ステップS26の処理の都度、フィルタ適用部640は、強調したい位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)を記憶部690から取得すればよい。方向θsのインデックスsが集合{1,…,I}に属さない場合あるいは距離Dhのインデックスhが集合{1,…,G}に属さない場合、つまり、位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)がステップS21の処理で計算されていない場合、臨時に位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)をフィルタ設計部660に計算させてもよいし、あるいは方向θsに近い方向θs′や距離Dhに近い距離Dh′に対応するフィルタW→(ω,θs′,Dh)やW→(ω,θs,Dh′)やW→(ω,θs′,Dh′)を用いてよい。
[ステップS27]
時間領域変換部650は、第kフレームの各周波数ω∈Ωの出力信号Y(ω,k,θs,Dh)を時間領域に変換して第kフレームのフレーム単位時間領域信号y(k)を得て、さらに、得られたフレーム単位時間領域信号y(k)をフレーム番号のインデックスの順番に連結して位置(θs,Dh)からの音声が強調された時間領域信号y(t)を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS25の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
ここでは、ステップS21の処理で予めフィルタW→(ω,θi,Dg)を計算しておく実施形態1を説明したが、音声スポット強調装置3の計算処理能力などに応じて、位置(θs,Dh)が定まってからフィルタ設計部660が周波数ごとのフィルタW→(ω,θs,Dh)を計算する実施形態を採用することもできる。
《音声スポット強調技術の実施形態2》
本発明の音声スポット強調技術の実施形態2の機能構成および処理フローを図21と図22に示す。この実施形態2の音声スポット強調装置4は、AD変換部610、フレーム生成部620、周波数領域変換部630、フィルタ適用部640、時間領域変換部650、フィルタ計算部661、記憶部690を含む。
[ステップS31]
マイクロホンアレーを構成するM個のマイクロホン200−1,…,200−Mを用いて収音する。Mは2以上の整数である。M個のマイクロホンの並べ方等については実施形態1で説明したとおりである。
[ステップS32]
AD変換部610が、M個のマイクロホン200−1,…,200−Mで収音されたアナログ信号(収音信号)をディジタル信号x→(t)=[x1(t),…,xM(t)]Tへ変換する。tは離散時間のインデックスを表す。
[ステップS33]
フレーム生成部620は、AD変換部610が出力したディジタル信号x→(t)=[x1(t),…,xM(t)]Tを入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x→(k)=[x→ 1(k),…,x→ M(k)]Tを出力する。kはフレーム番号のインデックスである。x→ m(k)=[xm((k−1)N+1),…,xm(kN)](1≦m≦M)である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
[ステップS34]
周波数領域変換部630は、各フレームのディジタル信号x→(k)を周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X→(ω,k)は、各周波数ω、フレームkごとに出力される。
[ステップS35]
フィルタ計算部661が、現在の第kフレームで用いられる、位置(θs,Dh)に対応する周波数毎のフィルタW→(ω,θs,Dh,k)(ω∈Ω;Ωは周波数ωの集合)を計算する。
このためには、伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]T(ω∈Ω)を用意する必要があるが、これは、マイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(125)によって具体的に計算できる(正確には、式(125)のθをθs、DをDhとしたものである)。なお、上述の〈3〉一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a→(ω,θNj,DGj)(1≦j≦B,ω∈Ω)も求める必要があるが、これらはマイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(125)によって具体的に計算できる(正確には、式(125)のθをθNj、DをDGjとしたものである)。
反射音の数Ξは1≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。
ステアリングベクトルの計算には、例えば式(125a)、式(125b)、式(126a)、式(126b)を用いることができる。なお、フィルタ設計に用いる伝達特性として、式(125)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
そして、フィルタ計算部661は、伝達特性a→(ω,θs,Dh)(ω∈Ω)や必要に応じて伝達特性a→(ω,θNj,DGj)(1≦j≦B,ω∈Ω)を用いて、フィルタW→(ω,θs,Dh,k)(ω∈Ω)を、式(109m)、式(132m)、式(133m)、式(136m)、式(139m)、式(141m)のいずれかに従って求める。なお、空間相関行列Q(ω)(あるいはRxx(ω))は例えば式(144a)や式(145a)で計算できる。空間相関行列Q(ω)の計算には、記憶部690に蓄積された現在および過去の計ζ個のフレームの周波数領域信号X→(ω,k−i)(i=0,1,…,ζ−1)が用いられる。
[ステップS36]
フィルタ適用部640は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに、強調したい目的方向θsに対応するフィルタW→(ω,θs,Dh,k)を適用して、出力信号Y(ω,k,θs,Dh)を出力する(式(147)参照)。
[ステップS37]
時間領域変換部650は、第kフレームの各周波数ω∈Ωの出力信号Y(ω,k,θs,Dh)を時間領域に変換して第kフレームのフレーム単位時間領域信号y(k)を得て、さらに、得られたフレーム単位時間領域信号y(k)をフレーム番号のインデックスの順番に連結して位置(θs,Dh)からの音声が強調された時間領域信号y(t)を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS34の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
なお、音声スポット強調技術に拠っても、方向θiに対応するフィルタW→(ω,θi)をΣg=1 GβgW→(ω,θi,Dg)によって求めることができる。βg[1≦g≦G]は重み係数であり、Σg=1 Gβg=1を満たすことが好ましく、さらに、0≦βg[1≦g≦G]であることが好ましい。なお、フィルタW→(ω,θi,Dg)は実環境下における実測で得られた伝達特性を用いて表されたフィルタであってもよい。
[音声スポット強調技術の実験例]
本発明の音声スポット強調技術の実施形態1(単一拘束条件の最小分散無歪応答法)による音声のスポット強調についての実験結果を説明する。実験環境は図9に示す環境と同じとした。図9に示すように、24本のマイクロホンを直線的に配置し、この線形マイクロホンアレーに含まれるマイクロホンの配列方向が反射板300の法線となるように反射板300を配置した。反射板300の形状に制限はないが、反射面が平面であって、1.0m×1.0mのサイズと適度な厚みと剛性を持つ平板の反射板を用いた。隣り合うマイクロホンの間隔を4cm、反射板300の反射率αを0.8とした。音源位置は方向θsを45度、距離Dhを1.13mに設定した。実験結果として、図23Aに反射板300を設置しなかった場合の最小分散ビームフォーマの指向性(2次元領域)、図23Bに反射板300を設置した場合の最小分散ビームフォーマの指向性(2次元領域)を示す。音圧[単位:dB]は濃淡表示されており、白い領域ほど高い音圧で収音できていることを表している。従って、理想的には、方向45度、距離1.13mの位置のみ白くなっており、他の領域が黒に近くなるほど、所望の音声のスポット強調が実現できているといえる。図23Aと図23Bに示す実験結果の比較から、反射板300を設置しなかった場合は所望の音声のスポット強調が十分にできておらず、反射板300を設置した場合は所望の音声のスポット強調ができていることがわかる。
<応用例>
音声スポット強調技術は、画像に譬えて表現すれば、不鮮明な惚けた画像から鮮明な画像を生成することに対応し、音場の情報をより詳細に得ることに役立つ。以下、本発明の音声スポット強調技術が有用なサービス例について述べる。
第1の例として、映像と組み合わせたコンテンツ制作が挙げられる。本発明の音声スポット強調技術の実施形態を利用すると、雑音(目的外音声等)が多い雑音環境でも遠方の目的音声をクリアに強調することができるので、例えば、フィールド外から撮影したサッカー選手がドリブルするズームイン映像に対応した特定エリアの音声付けを行うことができる。
第2の例として、TV会議システム(音声会議システムでもよい)への応用が挙げられる。狭い部屋で会議する場合には、従来技術でも、数本のマイクロホンを用いて発言者の音声を強調することがそれなりに可能であったが、広い会議室(例えばマイクロホンから5m以上離れた位置に話者が存在するような広い空間)では、クリアに遠方話者の音声を強調することが困難であり、このため、各発言者の前にマイクロホンを設置する必要があった。しかし、本発明の音声スポット強調技術の実施形態を利用すると、特定エリアの遠方の特定エリアの音をクリアに強調することが可能であるため、各発言者の前にマイクロホンを設置することなく、広い会議室に対応したTV会議システムを構築することが可能となる。また、特定エリアの音声を強調可能であるから、マイクロホンの設置位置に対する会議参加者の位置についての制限が緩和されることにもなる。
<音声強調技術の実施構成>
次に、本発明の音声強調技術の実施構成の例を図24〜図28を参照して説明する。これらの例ではマイクロホンアレーの構成は線形マイクロホンアレーとして図示されているが、線形マイクロホンアレーの構成に限定されない。
図24A,図24B,図24Cに示す実施構成例では、線形マイクロホンアレーを構成するM個のマイクロホン200−1,…,200−Mは矩形平板状の支持部材400に固定されており、この状態で各マイクロホンの収音孔は支持部材400の或る一つの平面(以下、開口面と呼ぶ)に配置されている(図示の例ではM=13)。なお、各マイクロホン200−1,…,200−Mに接続される配線は図示していない。そして、各マイクロホン200−1,…,200−Mの配列方向が矩形平板状の反射板300の法線となるように反射板300が支持部材400の端部に固定されている。支持部材400の開口面は、反射板300と90度をなす面である。図24A,図24B,図24Cに示す実施構成例では、反射板300の好ましいとされる性状は既述の反射物の性状と同じであり、支持部材400の性状については特に限定はなく各マイクロホン200−1,…,200−Mをしっかりと固定できる剛性を持っていれば十分である。
図25Aに示す実施構成例では、支持部材400の端部に軸部410が固定されており、反射板300は軸部410に回動自在に取り付けられている。この実施構成例によると、マイクロホンアレーに対する反射板300の幾何学的配置を変更することが可能である。
図25Bに示す実施構成例では、図24A,図24B,図24Cに示す実施構成例において、さらに二つの反射板310,320が追加されている。追加された二つの反射板310,320の性状は反射板300の性状と同じでも異なってもよい。また、反射板310の性状は反射板320の性状と同じでも異なってもよい。以下、反射板300を固定反射板300と呼称する。固定反射板300の端部(支持部材400に固定されている固定反射板300の端部とは反対側の端部)に軸部510が固定されており、反射板310は軸部510に回動自在に取り付けられている。また、支持部材400の端部(固定反射板300が固定されている支持部材400の端部とは反対側の端部)に軸部520が固定されており、反射板320は軸部520に回動自在に取り付けられている。以下、反射板310,320を可動反射板310,320と呼称する。図25Bに示す実施構成例によると、例えば固定反射板300の反射面と可動反射板310の反射面が一致するように可動反射板310の位置を設定すると、固定反射板300と可動反射板310の組み合わせを、固定反射板300よりも大きい反射面を持つ反射板として機能させることができる。また、図25Bに示す実施構成例によると、可動反射板310,320を適切な位置に設定することによって、例えば図26に示すように支持部材400、固定反射板300、可動反射板310,320で囲まれた空間内で何度も音声を反射させることができるので、反射音の数Ξを制御することができる。なお、図25Bに示す実施構成例の場合、支持部材400は反射物としての役割を果たすことになるので、既述の反射物の性状と同じ性状を持つことが好ましい。
図27A,図27B,図27Cに示す実施構成例は、反射板300にもマイクロホンアレー(図示の例では線形マイクロホンアレー)が設けられていることが図24A,図24B,図24Cに示す実施構成例と異なる。図27A,図27B,図27Cに示す実施構成例では、支持部材400に固定されたM個のマイクロホンの配列方向と反射板300に固定されたM’個のマイクロホンの配列方向が同一平面上にあるが、このような配置構成に限定されない(図示の例ではM’=13)。例えば、支持部材400に固定されたM個のマイクロホンの配列方向と直交するような配列方向を持つように反射板300にM’個のマイクロホンが固定されていてもよい。図27A,図27B,図27Cに示す実施構成例によると、支持部材400に設けられたマイクロホンアレーと反射板300(反射板300に設けられたマイクロホンアレーを使用せず、反射板300を反射物として使用する)との組み合わせで本発明の音声強調技術を実施したり、支持部材400(支持部材400に設けられたマイクロホンアレーを使用せず、支持部材400を反射物として使用する)と反射板300に設けられたマイクロホンアレーとの組み合わせで本発明の音声強調技術を実施したりすることができる。
また、図27A,図27B,図27Cに示す実施構成例の拡張実施構成例として、図25Bに示す実施構成例と同様に、図27A,図27B,図27Cに示す実施構成例においてさらに二つの反射板310,320を追加した構成としてもよい(図28参照)。また、図示していないが、可動反射板310,320の少なくとも一つにマイクロホンアレーを設けてもよい。可動反射板310に設けられるマイクロホンアレーを構成する各マイクロホンの収音孔は、例えば、支持部材400の開口面と対向可能な可動反射板310の平面(開口面)に配置される。可動反射板320に設けられるマイクロホンアレーを構成する各マイクロホンの収音孔は、例えば、支持部材400の開口面と同一平面を形成可能な可動反射板320の平面(開口面)に配置される。このような実施構成例であっても図25Bに示す実施構成例と同様の使用形態が可能である。また、この実施構成例によると、例えば支持部材400の開口面と可動反射板320の開口面が一致するように可動反射板320の位置を設定すると、支持部材400と可動反射板320の組み合わせを、支持部材400に設けられたマイクロホンアレーよりも大きいマイクロホンアレーとして機能させることができる。図28に示す実施構成例においても、可動反射板310,320の少なくとも一つにマイクロホンアレーを設けた実施構成例においても、図26に示す実施構成例と同様の使用形態が可能である。また、図28に示す実施構成例においても、可動反射板310,320の少なくとも一つにマイクロホンアレーを設けた実施構成例においても、例えば、可動反射板310,320を通常の反射物として用い、支持部材400に設けられたマイクロホンアレーと固定反射板300に設けられたマイクロホンアレーとを一体のマイクロホンアレーとして用いる使用形態も可能である。この場合、(M+M’)個のマイクロホンで構成されたマイクロホンアレーと二つの反射物を使用する実施構成例と等価となる。
可動反射板310にマイクロホンアレーを設ける場合、可動反射板310に設けられるマイクロホンアレーを構成する各マイクロホンの収音孔が、支持部材400の開口面と対向可能な可動反射板310の平面の反対側の平面(開口面)に配置されるように、可動反射板310にマイクロホンアレーを設けてもよい。また、可動反射板320にマイクロホンアレーを設ける場合、可動反射板320に設けられるマイクロホンアレーを構成する各マイクロホンの収音孔が、支持部材400の開口面と同一平面を形成可能な可動反射板320の平面の反対側の平面(開口面)に配置されるように、可動反射板320にマイクロホンアレーを設けてもよい。もちろん、可動反射板310,320の少なくとも一つについて、その両面に開口面とするように当該可動反射板にマイクロホンアレーを設けてもよい。
[A]マイクロホンアレーを可動反射板310,320の少なくとも一つに設けた場合であって、可動反射板310の開口面を支持部材400の開口面と対向可能な平面とした場合ないし可動反射板320の開口面を支持部材400の開口面と同一平面を形成可能な平面とした場合、図24A,図24B,図24Cに示す使用形態では、視線方向に対して可動反射板310および/または可動反射板320の開口面が見えないように可動反射板310および/または可動反射板320が配置されることによって視線方向の見かけ上のアレーサイズは小さくなるものの、可動反射板310および/または可動反射板320に設けられたマイクロホンアレーを利用することによって、アレーサイズを大きくした場合と同じ効果を得ることができる。
[B]マイクロホンアレーを可動反射板310,320の少なくとも一つに設けた場合であって、可動反射板310の開口面を支持部材400の開口面と対向可能な平面の反対側の平面とした場合ないし可動反射板320の開口面を支持部材400の開口面と同一平面を形成可能な平面の反対側の平面とした場合、図24A,図24B,図24Cに示す使用形態では、視線方向に対して見かけ上のアレーサイズを保ったまま、アレーサイズを大きくした場合と同じ効果を得ることができる。
可動反射板310,320の少なくとも一つについて、その両面に開口面とするように当該可動反射板にマイクロホンアレーを設けた場合には、[A]と[B]の双方の効果を得ることも可能である。
<参考文献>
(参考文献1)Simon Haykin著、鈴木博他訳、「適応フィルタ理論」、初版、株式会社科学技術出版、2001.pp.66−73,248−255
(参考文献2)菊間信良著、「アダプティブアンテナ技術」、第1版、株式会社オーム社、2003年、pp.35−90
(参考文献3)浅野太著、「日本音響学会編 音響テクノシリーズ16 音のアレイ信号処理−音源の定位・追跡と分離−」、初版、株式会社コロナ社、pp.88−89,259−261
(参考文献4)金田豊著、「適応形雑音抑圧マイクロホンアレー(AMNOR)の指向特性」、日本音響学会誌44巻1号(1988)、pp.23−30
<音声強調装置のハードウェア構成例>
上述の実施形態に関わる音声強調装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、音声強調装置に、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
音声強調装置の外部記憶装置には、狭い範囲の音声を強調するためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
音声強調装置の記憶部には、空間相関行列を用いて、周波数ごとにフィルタを求めるためのプログラムと、アナログ信号に対してAD変換を行うためのプログラム、フレーム生成処理を行うためのプログラム、フレームごとのディジタル信号を周波数領域の周波数領域信号に変換するためのプログラム、音声強調の対象となる方向または位置に対応するフィルタを周波数ごとに周波数領域信号に適用して出力信号を得るためのプログラムと、出力信号を時間領域信号に変換するためのプログラムが記憶されている。
音声強調装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(フィルタ設計部、AD変換部、フレーム生成部、周波数領域変換部、フィルタ適用部、時間領域変換部)を実現することで音声強調が実現される。
<補記>
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記実施形態において説明したハードウェアエンティティ(音声強調装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto−Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable−Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
《狭指向音声強調技術の原理》
本発明の狭指向音声強調技術の原理について説明する。本発明の狭指向音声強調技術は、信号処理に基づいて任意の方向の音声に追従できるというマイクロホンアレー技術の本質と、反射音を積極的に利用することによって高SN比で収音することとを基本としつつ、鋭い指向性を可能とする信号処理技術を組み合わせたことを特徴の一つとしている。
説明に先立ち、改めて記号を定義する。離散周波数のインデックスをω(周波数fと角周波数ωとの間にはω=2πfの関係があるから、離散周波数のインデックスωをこの角周波数ωと同一視してもかまわない。ωに関して「離散周波数のインデックス」を単に「周波数」ともいう)、フレーム番号のインデックスをkとする。M個のマイクロホンで受音したアナログ信号の第kフレームの周波数領域表現をX→(ω,k)=[X1(ω,k),…,XM(ω,k)]T、マイクロホンアレーの中心から見て目的方向θsの音声の周波数領域信号X→(ω,k)を周波数ωで強調するフィルタをW→(ω,θs)とする。Mは2以上の整数とする。Tは転置を表す。このとき、目的方向θsの音声の周波数領域信号X→(ω,k)が周波数ωで強調された周波数領域信号(以下、出力信号と呼ぶ)Y(ω,k,θs)は式(6)で与えられる。Hはエルミート転置を表す。
「マイクロホンアレーの中心」は任意に定めることができるが、一般的にはM個のマイクロホンの配置の幾何学的中心が「マイクロホンアレーの中心」とされ、例えば線形マイクロホンアレーであれば両端のマイクロホンの中間点が「マイクロホンアレーの中心」とされ、例えばm×m(m2=M)の正方マトリックス状に配置された平面マイクロホンアレーであれば、四隅のマイクロホンの対角線が交わる位置が「マイクロホンアレーの中心」とされる。
フィルタW→(ω,θs)の設計法としては種々あるが、ここでは最小分散無歪応答法(MVDR method;minimum variance distortion response method)に拠る場合を説明する。最小分散無歪応答法では、フィルタW→(ω,θs)は、式(8)の拘束条件の下、空間相関行列Q(ω)を用いて目的方向θs以外の方向の音声(以下、「目的方向θs以外の方向の音声」を「雑音」とも呼ぶ)のパワーが周波数ωで最小となるように設計される(式(7)参照)。a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは、方向θsに音源が在ると仮定した場合の、当該音源とM本のマイクロホンとの間の周波数ωでの伝達特性である。換言すれば、a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは、マイクロホンアレーに含まれる各マイクロホンへの方向θsの音声の周波数ωでの伝達特性である。空間相関行列Q(ω)は、周波数領域信号X→(ω,k)の成分X1(ω,k),…,XM(ω,k)について周波数ωにおける相互相関関係を表す行列であり、E[Xi(ω,k)Xj *(ω,k)](1≦i≦M,1≦j≦M)を(i,j)成分に持つ。演算子E[・]は、統計的平均操作を表す演算子であり、記号*は複素共役を表す。空間相関行列Q(ω)は、観測に基づいて得られるX1(ω,k),…,XM(ω,k)の統計量を用いて表現することもできるが、伝達特性を用いて表現することもできる。以下、しばらくの間、空間相関行列Q(ω)が伝達特性を用いて表現される場合を説明する。
式(7)の最適解であるフィルタW→(ω,θs)は式(9)で与えられることが知られている(下記参考文献1)。
空間相関行列Q(ω)の逆行列が式(9)に含まれることから察せられるように、空間相関行列Q(ω)の構造は鋭い指向性を実現する上で重要であることがわかる。また、式(7)から、雑音のパワーは空間相関行列Q(ω)の構造に依存することもわかる。
雑音の到来方向のインデックスpが属する集合を{1,2,…,P−1}とする。目的方向θsのインデックスsは集合{1,2,…,P−1}に属さないとする。P−1個の雑音が任意の方向から到来すると仮定すると、空間相関行列Q(ω)は式(10a)で与えられる。多くの雑音が存在する中でも十分に機能するフィルタを作る観点から、Pはある程度大きい値であることが好ましく、M程度の整数であるとする。なお、ここでは本発明の狭指向音声強調技術の原理を分かり易く説明する観点から目的方向θsがあたかも特定の方向の如く説明しているが(それ故、目的方向θs以外の方向を「雑音」の方向としている)、後述の実施形態で明らかになるように、実際には、目的方向θsは音声強調の対象となりえる任意の方向であり、目的方向θsになりえる方向として一般的に複数の方向が想定される。このような観点からすると、目的方向θsと雑音の方向との区別は凡そ主観的なものであり、目的音か雑音かの区別なく音声の到来方向として想定される複数の方向としてP個の異なる方向を予め決めておき、P個の方向のうち選択された一つの方向が目的方向であり、それ以外の方向が雑音の方向であると理解することがより正確である。そこで、集合{1,2,…,P−1}と集合{s}との和集合をΦとすると、空間相関行列Q(ω)は、音声の到来方向として想定される複数の方向に含まれる各方向θφの音声の各マイクロホンへの伝達特性a→(ω,θφ)=[a1(ω,θφ),…,aM(ω,θφ)]T(φ∈Φ)によって表される空間相関行列であり、式(10b)で表される。なお、|Φ|=Pである。|Φ|は集合Φの要素数を表す。
ここで、目的方向θsの音声の伝達特性a→(ω,θs)と、方向p∈{1,2,…,P−1}の音声の伝達特性a→(ω,θp)=[a1(ω,θp),…,aM(ω,θp)]Tがお互いに直交すると仮定する。つまり、式(11)で表される条件を満たすP個の直交基底系が存在すると仮定する。記号⊥は直交性を表す。A→⊥B→である場合、ベクトルA→とベクトルB→の内積値はゼロである。ここではP≦Mを満たすとする。なお、式(11)で表される条件を緩和し、近似的に直交基底系と見なせるP個の基底系が存在すると仮定できるような場合には、PはM程度、あるいはM以上のある程度大きい値であることが好ましい。
このとき、空間相関行列Q(ω)は式(12)のように展開できる。式(12)は、直交性を満たすP個の伝達特性で構成された行列V(ω)=[a→(ω,θs),a→(ω,θ1),…,a→(ω,θP−1)]Tと単位行列Λ(ω)によって空間相関行列Q(ω)を分解できることを意味している。ρは空間相関行列Q(ω)による式(11)を満たす伝達特性a→(ω,θφ)の固有値であり実数である。
このとき、空間相関行列Q(ω)の逆行列は式(13)で与えられる。
式(13)を式(7)に代入すると、雑音のパワーが最小となることがわかる。雑音のパワーが最小となれば目的方向θsに対する指向性が実現する。よって、異なる方向の伝達特性の間に直交性が成り立っていることは、目的方向θsに対する指向性を実現する上で、重要な条件となる。
以下、従来技術において目的方向θsに対して鋭い指向性を実現することが困難な理由について考察する。
従来技術では、伝達特性が直接音のみで構成されると仮定してフィルタの設計を行っていた。現実には同じ音源から発せられた音声が壁や天井等で反射してマイクロホンに到達する反射音が存在するが、反射音は指向性を悪化させる要因と考えて反射音の存在を無視していたのである。方向θから到来する直接音のみのステアリングベクトルをh→ d(ω,θ)=[hd1(ω,θ),…,hdM(ω,θ)]Tとすると、従来では、伝達特性a→ conv(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tをa→ conv(ω,θ)=h→ d(ω,θ)としていた。なお、ステアリングベクトルは、マイクロホンアレーの中心から見て方向θの音波について、基準点に対する各マイクロホンの周波数ωでの位相応答特性を並べた複素ベクトルである。
線形マイクロホンアレーに音声が平面波として到来すると仮定すると、直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)は例えば式(14a)で与えられる。mは1≦m≦Mを満たす各整数である。cは音速を、uは隣り合うマイクロホン間の距離を表す。jは虚数単位である。基準点は線形マイクロホンアレーの全長の半分の位置(線形マイクロホンアレーの中心)である。方向θは線形マイクロホンアレーの中心から見て直接音の到来方向と線形マイクロホンアレーに含まれるマイクロホンの配列方向とがなす角度として定義した(図9参照)。なお、ステアリングベクトルの表し方は種々あり、例えば、基準点を線形マイクロホンアレーの一端にあるマイクロホンの位置とすれば、直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)は例えば式(14b)で与えられる。以下、直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)は式(14a)で与えられるとして説明する。
方向θの伝達特性と目的方向θsの伝達特性との内積値γconv(ω,θ)は式(15)で表される。なお、θ≠θsとする。
以後、γconv(ω,θ)をコヒーレンスと呼称する。コヒーレンスγconv(ω,θ)が0となる方向θは式(16)で与えられる。qは0を除く任意の整数である。また、0<θ<π/2であるから、qの範囲は周波数帯域ごとに制限されることになる。
式(16)にて、変更可能なパラメータはマイクロホンアレーのサイズに関わるパラメータ(Mとu)のみであるから、方向の差(角度差)|θ−θs|が小さい場合には、マイクロホンアレーのサイズに関わるパラメータを変更することなくコヒーレンスγconv(ω,θ)を小さくすることは困難である。この場合、雑音のパワーは十分に小さくならず、図5Aに模式的に示すように、目的方向θsに対して広いビーム幅を持った指向性となってしまう。
他方、本発明の狭指向音声強調技術は、このような考察に基づき、目的方向θsに対して鋭い指向性を持つためのフィルタ設計には、方向の差(角度差)|θ−θs|が小さい場合でもコヒーレンスを十分に小さくできるようにすることが重要であるとの知見に基づき、従来技術と異なり反射音を積極的に考慮することを特徴とする。
マイクロホンアレーの各マイクロホンには、音源からの直接音と、当該音源からの音が反射物300で反射した反射音との二種類の平面波が混入することになる。反射音の数をΞとする。Ξは1以上の予め定められた整数である。このとき、伝達特性a→(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tは、音声強調の対象となりえる方向の音声がマイクロホンアレーに直接届く直接音の伝達特性と当該音声が反射物で反射してマイクロホンアレーに届く一つ以上の反射音の各伝達特性との和、具体的には、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差をτξ(θ)とし、αξ(1<ξ≦Ξ)を反射による音の減衰を考慮するための係数とすると、式(17a)のように、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正されたΞ個の反射音のステアリングベクトルの和で表現できる。h→ rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tは方向θの直接音に対応する反射音のステアリングベクトルを表す。αξ(1≦ξ≦Ξ)は、通常、αξ≦1(1≦ξ≦Ξ)である。各反射音について、音源からマイクロホンに到達するまでの反射回数が1回であるならば、αξ(1≦ξ≦Ξ)は、ξ番目の反射音が反射した物体の音の反射率を表していると考えて差し支えない。
M個のマイクロホンで構成されるマイクロホンアレーに対して一つ以上の反射音を与えることが望まれるので、一つ以上の反射物が存在することが好ましい。このような観点からすると、目的方向に音源が在るとして、当該音源とマイクロホンアレーと一つ以上の反射物との位置関係は、当該音源からの音が少なくとも一つの反射物で反射してマイクロホンアレーに届くように、各反射物が配置されていることが好ましい。各反射物の形状は、2次元形状(例えば平板)または3次元形状(例えばパラボラ形状)である。また、各反射物の大きさはマイクロホンアレーと同等かそれ以上(1〜2倍程度)の大きさを持つことが好ましい。反射音を効果的に活用するためには、各反射物の反射率αξ(1≦ξ≦Ξ)は少なくとも0よりも大きく、さらに言えば、マイクロホンアレーに届いた反射音の振幅が直接音の振幅の例えば0.2倍以上であることが望ましく、例えば各反射物は剛性を有する固体とされる。反射物は移動可能な物体(例えば反射板)であっても移動不能な物体(床や壁や天井)であってもよい。なお、移動不能な物体を反射物として設定するとマイクロホンアレーの設置位置の変更などに伴って、反射音のステアリングベクトルの変更を要することとなり(後述する関数Ψ(θ)やΨξ(θ)を参照のこと)、ひいてはフィルタ計算のやり直し(再設定)が余儀なくされる。そこで、環境変化に対して頑健であるためには、各反射物はマイクロホンアレーの従物であることが好ましい(この場合、想定されるΞ個の反射音は各反射物によるものであると考えることになる)。ここで「マイクロホンアレーの従物」とは、「マイクロホンアレーに対する配置関係(幾何学的関係)を維持したままマイクロホンアレーの位置や向きなどの変更に従うことができる有体物」のことである。単純な例として、マイクロホンアレーに各反射物が固定されている構成が挙げられる。
以下、本発明の狭指向音声強調技術の利点を具体的に説明する観点から、Ξ=1とし、反射音の反射回数は1回であって、マイクロホンアレーの中心からLメートル離れた位置に一つの反射物が存在すると仮定する。反射物は厚みのある剛体とする。この場合、Ξ=1であるからこれを表す添え字を略することとして、式(17a)は式(17b)のように表すことができる。
反射音のステアリングベクトルh→ r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は、直接音のステアリングベクトルの表し方と同様に(式(14a)参照)、式(18a)で表される。関数Ψ(θ)は反射音の到来方向を出力する。なお、直接音のステアリングベクトルを式(14b)で表す場合には、反射音のステアリングベクトルh→ r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は式(18b)で表される。一般的に、ξ番目(1≦ξ≦Ξ)のステアリングベクトルh→ rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tのm番目の要素は、式(18c)や式(18d)で表される。関数Ψξ(θ)はξ番目(1≦ξ≦Ξ)の反射音の到来方向を出力する。
反射物の位置は適宜に設定可能であるから、反射音の到来方向は変更可能なパラメータとして扱うことができる。
平板状の反射物がマイクロホンアレーの近傍にある(距離Lがマイクロホンアレーのサイズに比して極端に大きくない)と仮定すると、コヒーレンスγ(ω,θ)は式(19)で表される。なお、θ≠θsとする。
式(19)から、式(15)の従来のコヒーレンスγconv(ω,θ)よりも式(19)のコヒーレンスγ(ω,θ)の方が小さくなる可能性があることがわかる。反射物の置き方によって変更できるパラメータ(Ψ(θ)やL)が式(19)の第2〜4項目の中に存在するので第1項目のh→ d H(ω,θ)h→ d(ω,θ)を除去できる可能性がある。
例えば、線形マイクロホンアレーに対して、マイクロホンの配列方向が反射板の法線となるように平板の反射板を配置すると、関数Ψ(θ)についてΨ(θ)=π−θが成立し、直接音と反射音との到来時間差τ(θ)について式(20)が成立するので、式(19)を構成する要素に式(21)(22)の各条件が生成される。記号*は複素共役を表す演算子である。
h→ d H(ω,θ)h→ r(ω,θ)の絶対値はh→ d H(ω,θ)h→ d(ω,θ)よりも十分に小さいので、式(19)の第2項、第3項を無視すると、コヒーレンスγ(ω,θ)は式(23)のように近似できる。
仮にh→ d H(ω,θ)h→ d(ω,θ)≠0であるとしても、近似コヒーレンスγ〜(ω,θ)は式(24)の極小解θを持つ。qは任意の正整数である。また、qの範囲は周波数帯域ごとに制限される。
つまり、式(16)で与えられる方向だけではなく、式(24)で与えられる方向でもコヒーレンスを抑圧できる。コヒーレンスを抑圧できれば、雑音のパワーをより小さくできるので、図5Bに模式的に示すように、鋭い指向性の実現が可能になる。
なお、図5Aと図5Bでは本発明の狭指向音声強調技術の原理に拠る場合と従来技術に拠る場合の指向性の違いを模式的に示したが、図6に、式(16)で与えられるθと式(24)で与えられるθの違いを具体的に示す。ω=2π×1000[rad/s],L=0.70[m],θs=π/4[rad]である。図6では両者の比較のために正規化されたコヒーレンスの方向依存性を示してあり、記号○で示された方向が式(16)で与えられるθであり、記号+で示された方向が式(24)で与えられるθである。図6から明らかなように、従来技術に拠るとθs=π/4[rad]に対してコヒーレンスがゼロとなるθは記号○で示された方向だけであるが、本発明の狭指向音声強調技術の原理に拠るとθs=π/4[rad]に対してコヒーレンスがゼロとなるθは記号+で示される多数の方向に存在し、特に、記号○で示された方向よりもθs=π/4[rad]にはるかに近い方向に記号+で示された方向が存在するため、従来技術に比べて鋭い指向性が実現されることが理解できる。
上述の説明から明らかなように、本発明の狭指向音声強調技術の要点は、伝達特性a→(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tを、例えば式(17a)のように、直接音のステアリングベクトルとΞ個の反射音のステアリングベクトルの和で表現していることにある。従って、フィルタの設計コンセプト自体に影響を与えないので、最小分散無歪応答法以外の手法によってフィルタW→(ω,θs)を設計することができる。
上述の最小分散無歪応答法以外の手法として、〈1〉SN比最大化規準によるフィルタ設計法、〈2〉パワーインバージョン(Power Inversion)に基づくフィルタ設計法、〈3〉一つ以上の死角(雑音のゲインが抑圧される方向)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法、〈4〉遅延合成(Delay−and−Sum Beam Forming)法によるフィルタ設計法、〈5〉最尤法によるフィルタ設計法、〈6〉AMNOR(Adaptive Microphone−array for noise reduction)法によるフィルタ設計法を説明する。〈1〉SN比最大化規準によるフィルタ設計法と〈2〉パワーインバージョンに基づくフィルタ設計法については下記参考文献2を参照のこと。〈3〉一つ以上の死角(雑音のゲインが抑圧される方向)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法については下記参考文献3を参照のこと。〈6〉AMNOR(Adaptive Microphone−array for noise reduction)法によるフィルタ設計法については下記参考文献4を参照のこと。
〈1〉SN比最大化規準によるフィルタ設計法
SN比最大化規準によるフィルタ設計法では、目的方向θsでのSN比(SNR)を最大化する規準でフィルタW→(ω,θs)を決定する。目的方向θsの音声の空間相関行列をRss(ω)、目的方向θs以外の方向の音声の空間相関行列をRnn(ω)とする。このとき、SNRは式(25)で表される。なお、Rss(ω)は式(26)、Rnn(ω)は式(27)で表される。伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(17a)で表される(正確には、式(17a)のθをθsとしたものである)。
式(25)のSNRを最大にするフィルタW→(ω,θs)は、フィルタW→(ω,θs)に関する勾配をゼロとすること、つまり式(28)によって求めることができる。
但し、
これにより、式(25)のSNRを最大にするフィルタW→(ω,θs)は式(29)で与えられる。
式(29)には目的方向θs以外の方向の音声の空間相関行列Rnn(ω)の逆行列が含まれているが、Rnn(ω)の逆行列を、目的方向θsの音声と目的方向θs以外の方向の音声を含む入力全体の空間相関行列Rxx(ω)の逆行列に置換してもよいことが知られている。なお、Rxx(ω)=Rss(ω)+Rnn(ω)=Q(ω)である(式(10a)、式(26)、式(27)参照)。つまり、式(25)のSNRを最大にするフィルタW→(ω,θs)を式(30)で求めてもよい。
〈2〉パワーインバージョンに基づくフィルタ設計法
パワーインバージョンに基づくフィルタ設計法では、一つのマイクロホンに対するフィルタ係数を一定値に固定した状態でビームフォーマの平均出力パワーを最小化する基準でフィルタW→(ω,θs)を決定する。ここでは、一例として、M個のマイクロホンのうち1番目のマイクロホンに対するフィルタ係数を固定するとして説明する。この設計法では、フィルタW→(ω,θs)は、式(32)の拘束条件の下、空間相関行列Rxx(ω)を用いて全方向(音声の到来方向として想定される全ての方向)の音声のパワーが最小となるように設計される(式(31)参照)。伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(17a)で表される(正確には、式(17a)のθをθsとしたものである)。なお、Rxx(ω)=Q(ω)である(式(10a)、式(26)、式(27)参照)。
但し、
式(31)の最適解であるフィルタW→(ω,θs)は式(33)で与えられることが知られている(下記参考文献2参照)。
〈3〉一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法
上述の最小分散無歪応答法では、式(8)で表されるように目的方向θsの音声の全帯域通過を拘束条件とし、式(7)で表されるビームフォーマの平均出力パワーが最小となる(つまり、目的方向以外の方向の音声である雑音のパワーが最小となる)フィルタを求める、という単一拘束条件の下の規準でフィルタW→(ω,θs)を設計した。この方法によると、全体的に雑音のパワーを抑圧することはできるが、特定の一つまたは複数の方向に強いパワーを持ったノイズ源が存在することが予め判明している場合には必ずしも好適な方法とは言えない。このような場合、ノイズ源が存在する既知の一つまたは複数の特定方向(つまり、死角)を強く抑圧するフィルタが要求される。このため、ここで説明するフィルタ設計法では、(1)目的方向θsの音声の全帯域通過、および(2)予め判明しているB個(Bは1以上の予め定められた整数)の死角θN1,θN2,…,θNBの音声の全帯域抑制、を拘束条件として、式(7)で表されるビームフォーマの平均出力パワーが最小となる(つまり、目的方向と各死角とを除く方向の音声のパワーが最小となる)フィルタを求める。既述のように、音声の到来方向のインデックスφが属する集合を{1,2,…,P}とすると、Nj∈{1,2,…,P}(ただし、j∈{1,2,…,B}),B≦P−1である。
このとき、a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]Tを、方向θiに音源が在ると仮定した場合の、当該音源とM本のマイクロホンとの間の周波数ωでの伝達特性、換言すれば、a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]Tは、マイクロホンアレーに含まれる各マイクロホンへの方向θiの音声の周波数ωでの伝達特性とすると、拘束条件は式(34)で表される。ただし、インデックスiについて、i∈{s,N1,N2,…,NB}であり、伝達特性a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]Tは式(17a)で表される(正確には、式(17a)のθをθiとしたものである)。fi(ω)は、方向θiに関する周波数ωでの通過特性を表す。
式(34)を行列形式で表現すると、例えば式(35)のように表すことができる。ただし、A→(ω,θs)=[a→(ω,θs),a→(ω,θN1),…,a→(ω,θNB)]である。
但し、
(1)目的方向θsの音声の全帯域通過、および(2)予め判明しているB個の死角θN1,θN2,…,θNBの音声の全帯域抑制、という拘束条件を考慮すると、理想的には、fs(ω)=1.0、fi(ω)=0.0(i∈{N1,N2,…,NB})とされるべきである。これは、目的方向θsの音声の全帯域完全通過と、予め判明しているB個の死角θN1,θN2,…,θNBの音声の全帯域完全阻止を表している。しかし、現実には全帯域完全通過や全帯域完全阻止という制御が難しい場合もある。このような場合には、fs(ω)の絶対値を1.0に近い値、fi(ω)(i∈{N1,N2,…,NB})の絶対値を0.0に近い値に設定すればよい。もちろん、fi(ω)とfj(ω)(i≠j、i,j∈{N1,N2,…,NB})は等しくても異なってもよい。
ここで説明したフィルタ設計法によると、拘束条件を表す式(35)の下での式(7)の最適解であるフィルタW→(ω,θs)は式(36)で与えられる(下記参考文献3参照)。
〈4〉遅延合成法によるフィルタ設計法
式(2)から明らかなように、直接音や反射音が平面波到来すると仮定すると、フィルタW→(ω,θs)は式(37)で与えられる。つまり、フィルタW→(ω,θs)は伝達特性a→(ω,θs)を正規化して得られる。伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(17a)で表される(正確には、式(17a)のθをθsとしたものである)。この設計法によると、フィルタ精度は必ずしも良好とは言えない場合があるが、計算量が少なくて済む。
〈5〉最尤法によるフィルタ設計法
上述の最小分散無歪応答法において、空間相関行列Q(ω)内に目的方向の音声の空間情報を含めないことによって、雑音を抑圧する自由度が向上し、雑音のパワーをよりいっそう抑圧できる。このため、ここで説明するフィルタ設計法では、空間相関行列Q(ω)を、式(10a)の右辺第二項、つまり、式(10c)で表す。フィルタW→(ω,θs)は式(9)や式(36)で与えられる。このとき、式(9)や式(36)に含まれるQ(ω)あるいは式(30)や式(33)に含まれるRxx(ω)=Q(ω)は、式(10c)で表される空間相関行列である。
〈6〉AMNOR法によるフィルタ設計法
AMNOR法は、目的方向の音声の劣化量Dとフィルタ出力信号に残留する雑音のパワーとのトレードオフ関係を踏まえて、目的方向の音声の劣化量Dを或る程度許容し(例えば劣化量Dを或る閾値D^以下に保つようにする)、[a]目的方向の仮想的な信号(以下、仮想目的信号という)に音源とマイクロホンとの間の伝達特性を作用させた信号と[b](例えば目的方向の音声が無い雑音環境でのM個のマイクロホンによる観測によって得られる)雑音との混合信号を入力としたときのフィルタ出力信号が最小2乗誤差の観点から仮想目的信号を最も良く再現する(つまり、フィルタ出力信号に含まれる雑音のパワーが最小となる)フィルタを求める方式である。AMNOR法によると、フィルタW→(ω,θs)は式(38)で与えられる(下記参考文献4参照)。なお、Rss(ω)は式(26)、Rnn(ω)は式(27)で表される。伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(17a)で表される(正確には、式(17a)のθをθsとしたものである)。
Psは、仮想目的信号のレベルを重み付けする係数であり、仮想目的信号レベルと呼称される。仮想目的信号レベルPsは、周波数に依存しない定数である。仮想目的信号レベルPsは、経験則に基づいて決められてもよく、あるいは、目的方向の音声の劣化量Dと閾値D^との差が任意に定められた誤差範囲内となるように決定されてもよい。後者の例を説明する。周波数ωにおいて、AMNOR法によるフィルタW→(ω,θs)の目的方向θsの音声の周波数応答F(ω)は、式(39)で表される。式(38)で与えられるフィルタW→(ω,θs)を用いたときの劣化量DをD(Ps)と表記すると、劣化量D(Ps)は式(40)で定義される。ω0は、対象となる周波数ωの上限(通常は、離散的な周波数ωに隣接する高域側周波数である)を表す。劣化量D(Ps)はPsの単調減少関数である。従って、D(Ps)の単調性によって、Psを変化させながら劣化量D(Ps)を求めることを繰り返すことで、劣化量D(Ps)と閾値D^との差が任意に定められた誤差範囲内となる仮想目的信号レベルPsを求めることができる。
<変形例>
上述の説明では、空間相関行列Q(ω)、Rss(ω)、Rnn(ω)を、伝達特性を用いて表現した。しかし、上述の周波数領域信号X→(ω,k)を用いて空間相関行列Q(ω)、Rss(ω)、Rnn(ω)を表現することもできる。以下、空間相関行列Q(ω)について説明するが、Rss(ω)、Rnn(ω)についても同様である(Q(ω)をRss(ω)あるいはRnn(ω)に読み替えればよい)。なお、空間相関行列Rss(ω)は目的方向の音声のみが存在する環境でのマイクロホンアレー(M個のマイクロホンを含む)による観測によって得られたアナログ信号の周波数領域表現によって得られ、空間相関行列Rnn(ω)は目的方向の音声が無い環境(つまり雑音環境)でのマイクロホンアレー(M個のマイクロホンを含む)による観測によって得られたアナログ信号の周波数領域表現によって得られる。
周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tを用いた空間相関行列Q(ω)は式(41)で表される。演算子E[・]は、統計的平均操作を表す演算子である。マイクロホンアレー(M個のマイクロホンを含む)で受音したアナログ信号の離散時系列を確率過程と見たとき、それがいわゆる広義の定常ないし2次定常である場合、演算子E[・]は算術平均値(期待値)演算となる。この場合、空間相関行列Q(ω)は、例えば、メモリ等に蓄積された現在および過去の計ζ個のフレームの周波数領域信号X→(ω,k−i)(i=0,1,…,ζ−1)を用いて式(42)で表される。i=0のとき、つまり第kフレームが現在のフレームである。なお、式(41)ないし式(42)による空間相関行列Q(ω)はフレーム毎に計算し直してもよいし、あるいは、定期ないし不定期の間隔で計算し直してもよいし、あるいは、後に説明する実施形態の実施の前に計算しておいてもよい(特に、フィルタ設計にRss(ω)あるいはRnn(ω)を用いる場合には、実施形態の実施の前に取得された周波数領域信号を用いて空間相関行列Q(ω)を事前に計算しておくことが好適である)。フレーム毎に空間相関行列Q(ω)を計算し直す場合、空間相関行列Q(ω)は現在と過去のフレームに依存するから、式(41a)や式(42a)のように明示的に空間相関行列をQ(ω,k)と表すことにする。
式(41a)や式(42a)で表される空間相関行列Q(ω,k)を用いるとフィルタW→(ω,θs)も現在と過去のフレームに依存するから、明示的にこれをW→(ω,θs,k)と表すことにする。このとき、上述の種々のフィルタ設計法で説明した式(9)、式(29)、式(30)、式(33)、式(36)、式(38)のいずれかで表されるフィルタW→(ω,θs)は、表記上、式(9m)、式(29m)、式(30m)、式(33m)、式(36m)、式(38m)に修正される。
《狭指向音声強調技術の実施形態1》
本発明の狭指向音声強調技術の実施形態1の機能構成および処理フローを図7と図8に示す。この実施形態1の音声強調装置(以下、狭指向音声強調装置という)1は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ設計部260、記憶部290を含む。
[ステップS1]
予め、フィルタ設計部260が音声強調の対象となりえる離散的な方向ごとに、周波数ごとのフィルタW→(ω,θi)を計算しておく。音声強調の対象となりえる離散的な方向の総数をI(Iは1以上の予め定められた整数であり、I≦Pを満たす)とすると、W→(ω,θ1),…,W→(ω,θi),…,W→(ω,θI)(1≦i≦I,ω∈Ω;iは整数、Ωは周波数ωの集合)を事前に計算しておくのである。
このためには、上述の<変形例>で説明した場合を除き、伝達特性a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]T(1≦i≦I,ω∈Ω)を求める必要があるが、これは、マイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(17a)によって具体的に計算できる(正確には、式(17a)のθをθiとしたものである)。なお、上述の〈3〉一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a→(ω,θi)(1≦i≦I,ω∈Ω)を求める際の方向のインデックスiは、少なくともB個の死角の方向のインデックスN1,N2,…,NBの全てを亘ることが望ましい。換言すれば、B個の死角の方向のインデックスN1,N2,…,NBは、1以上I以下のいずれかの異なる整数として設定される。
反射音の数Ξは1≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。一つの反射板をマイクロホンアレーの近傍に設置する場合には、伝達特性a→(ω,θi)は式(17b)によって具体的に計算できる(正確には、式(17b)のθをθiとしたものである)。
ステアリングベクトルの計算には、例えば式(14a)、式(14b)、式(18a)、式(18b)、式(18c)、式(18d)を用いることができる。なお、フィルタ設計に用いる伝達特性として、式(17a)や式(17b)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
そして、上述の<変形例>で説明した場合を除き、伝達特性a→(ω,θi)を用いて、例えば式(9)、式(29)、式(30)、式(33)、式(36)、式(37)、式(38)のいずれかによってW→(ω,θi)(1≦i≦I)を求める。なお、上述の〈5〉最尤法によるフィルタ設計法で説明した場合を除き、式(9)または式(30)または式(33)または式(36)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(10b)で計算できる。上述の〈5〉最尤法によるフィルタ設計法に拠って、式(9)または式(30)または式(33)または式(36)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(10c)で計算できる。式(29)を用いる場合には空間相関行列Rnn(ω)は式(27)で計算できる。I×|Ω|個のフィルタW→(ω,θi)(1≦i≦I,ω∈Ω)は記憶部290に記憶される。|Ω|は集合Ωの要素数を表す。
[ステップS2]
マイクロホンアレーを構成するM個のマイクロホン200−1,…,200−Mを用いて収音する。Mは2以上の整数である。
M個のマイクロホンの並べ方に制限は無い。ただし、2次元または3次元的にM個のマイクロホンを配置することによって、音声強調する方向の不確定性がなくなるという利点がある。つまり、M個のマイクロホンを水平方向に直線状に並べたときに例えば正面方向から到来する音声と真上から到来する音声との区別ができなくなるという問題を、マイクロホンを平面的ないし立体的に並べることで防ぐことができる。また、収音方向として設定できる方向を広くとるためには、各マイクロホンの指向性は、収音方向である目的方向θsになり得る方向にある程度の音圧で音声を収音可能な指向性を持っていたほうがよい。したがって、無指向性マイクロホンや単一指向性マイクロホンといった指向性が比較的緩やかなマイクロホンが好適である。
[ステップS3]
AD変換部210が、M個のマイクロホン200−1,…,200−Mで収音されたアナログ信号(収音信号)をディジタル信号x→(t)=[x1(t),…,xM(t)]Tへ変換する。tは離散時間のインデックスを表す。
[ステップS4]
フレーム生成部220は、AD変換部210が出力したディジタル信号x→(t)=[x1(t),…,xM(t)]Tを入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x→(k)=[x→ 1(k),…,x→ M(k)]Tを出力する。kはフレーム番号のインデックスである。x→ m(k)=[xm((k−1)N+1),…,xm(kN)](1≦m≦M)である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
[ステップS5]
周波数領域変換部230は、各フレームのディジタル信号x→(k)を周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X→(ω,k)は、各周波数ω、フレームkごとに出力される。
[ステップS6]
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに、強調したい目的方向θsに対応するフィルタW→(ω,θs)を適用して、出力信号Y(ω,k,θs)を出力する(式(43)参照)。目的方向θsのインデックスsは、s∈{1,…,I}であり、フィルタW→(ω,θs)は記憶部290に記憶されているので、例えば、ステップS6の処理の都度、フィルタ適用部240は、強調したい目的方向θsに対応するフィルタW→(ω,θs)を記憶部290から取得すればよい。目的方向θsのインデックスsが集合{1,…,I}に属さない場合、つまり、目的方向θsに対応するフィルタW→(ω,θs)がステップS1の処理で計算されていない場合、臨時に目的方向θsに対応するフィルタW→(ω,θs)をフィルタ設計部260に計算させてもよいし、あるいは目的方向θsに近い方向θs′に対応するフィルタW→(ω,θs′)を用いてよい。
[ステップS7]
時間領域変換部250は、第kフレームの各周波数ω∈Ωの出力信号Y(ω,k,θs)を時間領域に変換して第kフレームのフレーム単位時間領域信号y(k)を得て、さらに、得られたフレーム単位時間領域信号y(k)をフレーム番号のインデックスの順番に連結して目的方向θsの音声が強調された時間領域信号y(t)を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS5の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
ここでは、ステップS1の処理で予めフィルタW→(ω,θi)を計算しておく実施形態1を説明したが、狭指向音声強調装置1の計算処理能力などに応じて、目的方向θsが定まってからフィルタ設計部260が周波数ごとのフィルタW→(ω,θs)を計算する実施形態を採用することもできる。
《狭指向音声強調技術の実施形態2》
本発明の狭指向音声強調技術の実施形態2の機能構成および処理フローを図10と図11に示す。この実施形態2の狭指向音声強調装置2は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ計算部261、記憶部290を含む。
[ステップS11]
マイクロホンアレーを構成するM個のマイクロホン200−1,…,200−Mを用いて収音する。Mは2以上の整数である。M個のマイクロホンの並べ方等については実施形態1で説明したとおりである。
[ステップS12]
AD変換部210が、M個のマイクロホン200−1,…,200−Mで収音されたアナログ信号(収音信号)をディジタル信号x→(t)=[x1(t),…,xM(t)]Tへ変換する。tは離散時間のインデックスを表す。
[ステップS13]
フレーム生成部220は、AD変換部210が出力したディジタル信号x→(t)=[x1(t),…,xM(t)]Tを入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x→(k)=[x→ 1(k),…,x→ M(k)]Tを出力する。kはフレーム番号のインデックスである。x→ m(k)=[xm((k−1)N+1),…,xm(kN)](1≦m≦M)である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
[ステップS14]
周波数領域変換部230は、各フレームのディジタル信号x→(k)を周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X→(ω,k)は、各周波数ω、フレームkごとに出力される。
[ステップS15]
フィルタ計算部261が、現在の第kフレームで用いられる、目的方向θsに対応する周波数毎のフィルタW→(ω,θs,k)(ω∈Ω;Ωは周波数ωの集合)を計算する。
このためには、伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]T(ω∈Ω)を用意する必要があるが、これは、マイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(17a)によって具体的に計算できる(正確には、式(17a)のθをθsとしたものである)。なお、上述の〈3〉一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a→(ω,θNj)(1≦j≦B,ω∈Ω)も求める必要があるが、これらはマイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(17a)によって具体的に計算できる(正確には、式(17a)のθをθNjとしたものである)。
反射音の数Ξは1≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。一つの反射板をマイクロホンアレーの近傍に設置する場合には、伝達特性a→(ω,θs)は式(17b)によって具体的に計算できる(正確には、式(17b)のθをθsとしたものである)。この場合、同様に、伝達特性a→(ω,θNj)(1≦j≦B,ω∈Ω)は式(17b)によって具体的に計算できる(正確には、式(17b)のθをθNjとしたものである)。
ステアリングベクトルの計算には、例えば式(14a)、式(14b)、式(18a)、式(18b)、式(18c)、式(18d)を用いることができる。なお、フィルタ設計に用いる伝達特性として、式(17a)や式(17b)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
そして、フィルタ計算部261は、伝達特性a→(ω,θs)(ω∈Ω)や必要に応じて伝達特性a→(ω,θNj)(1≦j≦B,ω∈Ω)を用いて、フィルタW→(ω,θs,k)(ω∈Ω)を、式(9m)、式(29m)、式(30m)、式(33m)、式(36m)、式(38m)のいずれかに従って求める。なお、空間相関行列Q(ω)(あるいはRxx(ω))は例えば式(41a)や式(42a)で計算できる。空間相関行列Q(ω)の計算には、記憶部290に蓄積された現在および過去の計ζ個のフレームの周波数領域信号X→(ω,k−i)(i=0,1,…,ζ−1)が用いられる。
[ステップS16]
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに、強調したい目的方向θsに対応するフィルタW→(ω,θs,k)を適用して、出力信号Y(ω,k,θs)を出力する(式(44)参照)。
[ステップS17]
時間領域変換部250は、第kフレームの各周波数ω∈Ωの出力信号Y(ω,k,θs)を時間領域に変換して第kフレームのフレーム単位時間領域信号y(k)を得て、さらに、得られたフレーム単位時間領域信号y(k)をフレーム番号のインデックスの順番に連結して目的方向θsの音声が強調された時間領域信号y(t)を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS14の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
[狭指向音声強調技術の実験例]
本発明の狭指向音声強調技術の実施形態1(単一拘束条件の最小分散無歪応答法)による実験結果を説明する。図9に示すように、24本のマイクロホンを直線的に配置し、この線形マイクロホンアレーに含まれるマイクロホンの配列方向が反射板300の法線となるように反射板300を配置した。反射板300の形状に制限はないが、反射面が平面であって、1.0m×1.0mのサイズと適度な厚みと剛性を持つ平板の反射板を用いた。隣り合うマイクロホンの間隔を4cm、反射板300の反射率αを0.8とした。目的方向θsを45度に設定した。線形マイクロホンアレーに音声が平面波として到来すると仮定し、伝達特性を式(17b)(式(14a)、式(18a)を参照)で算出して、生成されるフィルタの指向性を検証した。比較対象として、2つの従来法(反射板無しの最小分散無歪応答法と反射板有りの遅延合成法)を用いた。
実験結果を図12、図13に示す。2つの従来法と比較して、どの周波数帯域でも本発明の狭指向音声強調技術の実施形態1の方が、目的方向に対して鋭い指向性を実現できていることが分かる。特に、低周波数帯域ほど本発明の狭指向音声強調技術の有用性が理解される。また、図14には、本発明の狭指向音声強調技術の実施形態1に従って生成したフィルタW→(ω,θ)による指向性を示した。図14から、直接音だけでなく、反射音も強調していることが分かる。
また、図15に示すように、線形マイクロホンアレーに含まれるマイクロホンの配列方向と反射板300の平面とのなす角が45度になるように反射板300を配置した場合についても上述の実験と同様の実験を行った。目的方向θsを22.5度に設定し、その他の実験条件は線形マイクロホンアレーに含まれるマイクロホンの配列方向が反射板300の法線となるように反射板300を配置した場合と同じとした。
実験結果を図16、図17に示す。2つの従来法と比較して、どの周波数帯域でも本発明の狭指向音声強調技術の実施形態1の方が、目的方向に対して鋭い指向性を実現できていることが分かる。特に、低周波数帯域ほど本発明の狭指向音声強調技術の有用性が理解される。
<応用例>
狭指向音声強調技術は、画像に譬えて表現すれば、不鮮明な惚けた画像から鮮明な画像を生成することに対応し、音場の情報をより詳細に得ることに役立つ。以下、本発明の狭指向音声強調技術が有用なサービス例について述べる。
第1の例として、映像と組み合わせたコンテンツ制作が挙げられる。本発明の狭指向音声強調技術の実施形態を利用すると、雑音(目的外音声等)が多い雑音環境でも遠方の目的音声をクリアに強調することができるので、例えば、フィールド外から撮影したサッカー選手がドリブルするズームイン映像に対応した音声付けを行うことができる。
第2の例として、TV会議システム(音声会議システムでもよい)への応用が挙げられる。狭い部屋で会議する場合には、従来技術でも、数本のマイクロホンを用いて発言者の音声を強調することがそれなりに可能であったが、広い会議室(例えばマイクロホンから5m以上離れた位置に話者が存在するような広い空間)では、クリアに遠方話者の音声を強調することが困難であり、このため、各発言者の前にマイクロホンを設置する必要があった。しかし、本発明の狭指向音声強調技術の実施形態を利用すると、遠方の音をクリアに強調することが可能であるため、各発言者の前にマイクロホンを設置することなく、広い会議室に対応したTV会議システムを構築することが可能となる。
《音声スポット強調技術の原理》
次に、本発明の音声スポット強調技術の原理について説明する。本発明の音声スポット強調技術は、信号処理に基づいて任意の方向の音声に追従できるというマイクロホンアレー技術の本質と、反射音を積極的に利用することによって高SN比で収音することとを基本としつつ、鋭い指向性を可能とする信号処理技術を組み合わせたことを特徴の一つとしている。特に、マイクロホンアレーから見た方向がほぼ同じで距離だけが異なる音源とマイクロホンアレーとの間の伝達特性はかなり類似していることに鑑みて、反射物を利用することによって、異なる音源とマイクロホンアレーとの間の伝達特性の差分を大きくすることが本発明の音声スポット強調技術の顕著な特徴の一つと言える。伝達特性の差分を信号処理によって抽出することによって、マイクロホンアレーからの距離に応じて音声を強調可能な音声スポット強調技術が実現する。
説明に先立ち、改めて記号を定義する。離散周波数のインデックスをω(周波数fと角周波数ωとの間にはω=2πfの関係があるから、離散周波数のインデックスωをこの角周波数ωと同一視してもかまわない。ωに関して「離散周波数のインデックス」を単に「周波数」ともいう)、フレーム番号のインデックスをkとする。M個のマイクロホンで受音したアナログ信号の第kフレームの周波数領域表現をX→(ω,k)=[X1(ω,k),…,XM(ω,k)]T、マイクロホンアレーの中心から見て方向θs且つマイクロホンアレーの中心から見て距離Dhだけ離れた位置に在ると想定される音源からの音声の周波数領域信号X→(ω,k)を周波数ωで強調するフィルタをW→(ω,θs,Dh)とする。Mは2以上の整数とする。Tは転置を表す。以下、しばらくの間、距離Dhを固定して考える。
「マイクロホンアレーの中心」は任意に定めることができるが、一般的にはM個のマイクロホンの配置の幾何学的中心が「マイクロホンアレーの中心」とされ、例えば線形マイクロホンアレーであれば両端のマイクロホンの中間点が「マイクロホンアレーの中心」とされ、例えばm×m(m2=M)の正方マトリックス状に配置された平面マイクロホンアレーであれば、四隅のマイクロホンの対角線が交わる位置が「マイクロホンアレーの中心」とされる。
また、「〜の位置に在ると想定される音源」と説明している理由は、実際に当該位置に音源が存在することが本発明の音声スポット強調技術では必須でないからである。つまり、詳しくは後の説明で明らかになるが、本発明の音声スポット強調技術は周波数表現の信号に対するフィルタ適用という信号処理を内実としており、離散的な距離Dhごとにフィルタを予め作成しておく実施形態が可能であるから、実際に音声スポット強調処理を行う段階でも当該位置に音源が実在することは要求されないのである。例えば、実際に音声スポット強調処理を行う段階で、マイクロホンアレーから見て方向θs、距離Dhの位置に実際に音源が実在する場合、当該位置に応じた適切なフィルタを選択することによって当該音源からの音声を強調できることになり、当該位置に音源が実在しない場合、仮に雑音すら存在しない完全無音を想定すると当該フィルタによって強調された音声は理想的に完全無音であることになるが、“当該位置からの音声”を強調したことに変わりはないのである。
このような下では、マイクロホンアレーの中心から見て(方向θs,距離Dh)の位置(以下、特に断りの無い限り「位置(θs,Dh)」と呼称する)に在ると想定される音源からの音声の周波数領域信号X→(ω,k)が周波数ωで強調された周波数領域信号(以下、出力信号と呼ぶ)Y(ω,k,θs,Dh)は式(106)で与えられる。Hはエルミート転置を表す。
フィルタW→(ω,θs,Dh)の設計法としては種々あるが、ここでは最小分散無歪応答法(MVDR method;minimum variance distortion response method)に拠る場合を説明する。最小分散無歪応答法では、フィルタW→(ω,θs,Dh)は、式(108)の拘束条件の下、空間相関行列Q(ω)を用いて方向θs以外の方向の音声(以下、「方向θs以外の方向の音声」を「雑音」とも呼ぶ)のパワーが周波数ωで最小となるように設計される(式(107)参照。ここでは距離Dhを固定して考えているので、空間相関行列Q(ω)をQ(ω,Dh)と明記していることに留意すること)。a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは、位置(θs,Dh)に音源が在ると仮定した場合の、当該音源とM本のマイクロホンとの間の周波数ωでの伝達特性である。換言すれば、a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは、マイクロホンアレーに含まれる各マイクロホンへの位置(θs,Dh)からの音声の周波数ωでの伝達特性である。空間相関行列Q(ω)は、周波数領域信号X→(ω,k)の成分X1(ω,k),…,XM(ω,k)について周波数ωにおける相互相関関係を表す行列であり、E[Xi(ω,k)Xj *(ω,k)](1≦i≦M,1≦j≦M)を(i,j)成分に持つ。演算子E[・]は、統計的平均操作を表す演算子であり、記号*は複素共役を表す。空間相関行列Q(ω)は、観測に基づいて得られるX1(ω,k),…,XM(ω,k)の統計量を用いて表現することもできるが、伝達特性を用いて表現することもできる。以下、しばらくの間、空間相関行列Q(ω)が伝達特性を用いて表現される場合を説明する。
式(107)の最適解であるフィルタW→(ω,θs,Dh)は式(109)で与えられることが知られている(下記参考文献1)。
空間相関行列Q(ω,Dh)の逆行列が式(109)に含まれることから察せられるように、空間相関行列Q(ω,Dh)の構造は鋭い指向性を実現する上で重要であることがわかる。また、式(107)から、雑音のパワーは空間相関行列Q(ω,Dh)の構造に依存することもわかる。
雑音の到来方向のインデックスpが属する集合を{1,2,…,P−1}とする。方向θsのインデックスsは集合{1,2,…,P−1}に属さないとする。P−1個の雑音が任意の方向から到来すると仮定すると、空間相関行列Q(ω,Dh)は式(110a)で与えられる。多くの雑音が存在する中でも十分に機能するフィルタを作る観点から、Pはある程度大きい値であることが好ましく、M程度の整数であるとする。なお、ここでは本発明の音声スポット強調技術の原理を分かり易く説明する観点から方向θsがあたかも特定の方向の如く説明しているが(それ故、方向θs以外の方向を「雑音」の方向としている)、後述の実施形態で明らかになるように、実際には、方向θsは音声強調の対象となりえる任意の位置に対応する方向であり、このため方向θsになりえる方向として一般的に複数の方向が想定される。このような観点からすると、方向θsと雑音の方向との区別は凡そ主観的なものであり、目的音か雑音かの区別なく音声の到来方向として想定される複数の方向としてP個の異なる方向を予め決めておき、P個の方向のうち選択された一つの方向が音声強調の対象の位置に対応する方向であり、それ以外の方向が雑音の方向であると理解することがより正確である。そこで、集合{1,2,…,P−1}と集合{s}との和集合をΦとすると、空間相関行列Q(ω,Dh)は、マイクロホンアレーの中心からの距離がDhであって音声の到来方向として想定される複数の方向に含まれる各方向θφに対応する各位置からの音声の各マイクロホンへの伝達特性a→(ω,θφ,Dh)=[a1(ω,θφ,Dh),…,aM(ω,θφ,Dh)]T(φ∈Φ)によって表される空間相関行列であり、式(110b)で表される。なお、|Φ|=Pである。|Φ|は集合Φの要素数を表す。
ここで、方向θsの音声の伝達特性a→(ω,θs,Dh)と、方向p∈{1,2,…,P−1}の音声の伝達特性a→(ω,θp,Dh)=[a1(ω,θp,Dh),…,aM(ω,θp,Dh)]Tがお互いに直交すると仮定する。つまり、式(111)で表される条件を満たすP個の直交基底系が存在すると仮定する。記号⊥は直交性を表す。A→⊥B→である場合、ベクトルA→とベクトルB→の内積値はゼロである。ここではP≦Mを満たすとする。なお、式(111)で表される条件を緩和し、近似的に直交基底系と見なせるP個の基底系が存在すると仮定できるような場合には、PはM程度、あるいはM以上のある程度大きい値であることが好ましい。
このとき、空間相関行列Q(ω,Dh)は式(112)のように展開できる。式(112)は、直交性を満たすP個の伝達特性で構成された行列V(ω,Dh)=[a→(ω,θs,Dh),a→(ω,θ1,Dh),…,a→(ω,θP−1,Dh)]Tと単位行列Λ(ω,Dh)によって空間相関行列Q(ω,Dh)を分解できることを意味している。ρは空間相関行列Q(ω,Dh)による式(111)を満たす伝達特性a→(ω,θφ,Dh)の固有値であり実数である。
このとき、空間相関行列Q(ω,Dh)の逆行列は式(113)で与えられる。
式(113)を式(107)に代入すると、雑音のパワーが最小となることがわかる。雑音のパワーが最小となれば方向θsに対する指向性が実現する。よって、異なる方向の伝達特性の間に直交性が成り立っていることは、方向θsに対する指向性を実現する上で、重要な条件となる。
以下、従来技術において方向θsに対して鋭い指向性を実現することが困難な理由について考察する。
従来技術では、伝達特性が直接音のみで構成されると仮定してフィルタの設計を行っていた。現実には同じ音源から発せられた音声が壁や天井等で反射してマイクロホンに到達する反射音が存在するが、反射音は指向性を悪化させる要因と考えて反射音の存在を無視していたのである。線形マイクロホンアレーに音声が平面波として到来すると仮定し、方向θから到来する直接音のみのステアリングベクトルをh→ d(ω,θ)=[hd1(ω,θ),…,hdM(ω,θ)]Tとすると、従来では、伝達特性a→ conv(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tをa→ conv(ω,θ)=h→ d(ω,θ)としていた(音波を平面波と考えるのでステアリングベクトルは距離Dに依存しない)。なお、ステアリングベクトルは、マイクロホンアレーの中心から見て方向θの音波について、基準点に対する各マイクロホンの周波数ωでの位相応答特性を並べた複素ベクトルである。
以下、しばらくの間、線形マイクロホンアレーに音声が平面波として到来すると仮定する。直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)が例えば式(114c)で与えられるとする。uは隣り合うマイクロホン間の距離を表す。jは虚数単位である。この場合、基準点は線形マイクロホンアレーの全長の半分の位置(線形マイクロホンアレーの中心)である。方向θは線形マイクロホンアレーの中心から見て直接音の到来方向と線形マイクロホンアレーに含まれるマイクロホンの配列方向とがなす角度として定義した(図9参照)。なお、ステアリングベクトルの表し方は種々あり、例えば、基準点を線形マイクロホンアレーの一端にあるマイクロホンの位置とすれば、直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)は例えば式(114d)で与えられる。以下、直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)は式(114c)で与えられるとして説明する。
方向θの伝達特性と方向θsの伝達特性との内積値γconv(ω,θ)は式(115)で表される。なお、θ≠θsとする。
以後、γconv(ω,θ)をコヒーレンスと呼称する。コヒーレンスγconv(ω,θ)が0となる方向θは式(116)で与えられる。qは0を除く任意の整数である。また、0<θ<π/2であるから、qの範囲は周波数帯域ごとに制限されることになる。
式(116)にて、変更可能なパラメータはマイクロホンアレーのサイズに関わるパラメータ(Mとu)のみであるから、方向の差(角度差)|θ−θs|が小さい場合には、マイクロホンアレーのサイズに関わるパラメータを変更することなくコヒーレンスγconv(ω,θ)を小さくすることは困難である。この場合、雑音のパワーは十分に小さくならず、図5Aに模式的に示すように、方向θsに対して広いビーム幅を持った指向性となってしまう。
他方、本発明の音声スポット強調技術は、このような考察に基づき、方向θsに対して鋭い指向性を持つためのフィルタ設計には、方向の差(角度差)|θ−θs|が小さい場合でもコヒーレンスを十分に小さくできるようにすることが重要であるとの知見に基づき、従来技術と異なり反射音を積極的に考慮することを特徴とする。
マイクロホンアレーの各マイクロホンには、音源からの直接音と、当該音源からの音が反射物300で反射した反射音との二種類の平面波が混入することになる。反射音の数をΞとする。Ξは1以上の予め定められた整数である。このとき、伝達特性a→(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tは、音声強調の対象となりえる方向の音声がマイクロホンアレーに直接届く直接音の伝達特性と当該音声が反射物で反射してマイクロホンアレーに届く一つ以上の反射音の各伝達特性との和、具体的には、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差をτξ(θ)とし、αξ(1≦ξ≦Ξ)を反射による音の減衰を考慮するための係数とすると、式(117a)のように、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正されたΞ個の反射音のステアリングベクトルの和で表現できる。h→ rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tは方向θの直接音に対応する反射音のステアリングベクトルを表す。αξ(1≦ξ≦Ξ)は、通常、αξ≦1(1≦ξ≦Ξ)である。各反射音について、音源からマイクロホンに到達するまでの反射回数が1回であるならば、αξ(1≦ξ≦Ξ)は、ξ番目の反射音が反射した物体の音の反射率を表していると考えて差し支えない。
M個のマイクロホンで構成されるマイクロホンアレーに対して一つ以上の反射音を与えることが望まれるので、一つ以上の反射物が存在することが好ましい。このような観点からすると、音声強調の対象位置に音源が在るとして、当該音源とマイクロホンアレーと一つ以上の反射物との位置関係は、当該音源からの音が少なくとも一つの反射物で反射してマイクロホンアレーに届くように、各反射物が配置されていることが好ましい。各反射物の形状は、2次元形状(例えば平板)または3次元形状(例えばパラボラ形状)である。また、各反射物の大きさはマイクロホンアレーと同等かそれ以上(1〜2倍程度)の大きさを持つことが好ましい。反射音を効果的に活用するためには、各反射物の反射率αξ(1≦ξ≦Ξ)は少なくとも0よりも大きく、さらに言えば、マイクロホンアレーに届いた反射音の振幅が直接音の振幅の例えば0.2倍以上であることが望ましく、例えば各反射物は剛性を有する固体とされる。反射物は移動可能な物体(例えば反射板)であっても移動不能な物体(床や壁や天井)であってもよい。なお、移動不能な物体を反射物として設定するとマイクロホンアレーの設置位置の変更などに伴って、反射音のステアリングベクトルの変更を要することとなり(後述する関数Ψ(θ)やΨξ(θ)を参照のこと)、ひいてはフィルタ計算のやり直し(再設定)が余儀なくされる。そこで、環境変化に対して頑健であるためには、各反射物はマイクロホンアレーの従物であることが好ましい(この場合、想定されるΞ個の反射音は各反射物によるものであると考えることになる)。ここで「マイクロホンアレーの従物」とは、「マイクロホンアレーに対する配置関係(幾何学的関係)を維持したままマイクロホンアレーの位置や向きなどの変更に従うことができる有体物」のことである。単純な例として、マイクロホンアレーに各反射物が固定されている構成が挙げられる。
以下、本発明の音声スポット強調技術の利点を具体的に説明する観点から、Ξ=1とし、反射音の反射回数は1回であって、マイクロホンアレーの中心からLメートル離れた位置に一つの反射物が存在すると仮定する。反射物は厚みのある剛体とする。この場合、Ξ=1であるからこれを表す添え字を略することとして、式(117a)は式(117b)のように表すことができる。
反射音のステアリングベクトルh→ r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は、直接音のステアリングベクトルの表し方と同様に(式(114c)参照)、式(118a)で表される。関数Ψ(θ)は反射音の到来方向を出力する。なお、直接音のステアリングベクトルを式(114d)で表す場合には、反射音のステアリングベクトルh→ r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は式(118b)で表される。また、Ξ≧2ならば、ξ番目(1≦ξ≦Ξ)のステアリングベクトルh→ rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tのm番目の要素は、式(118c)や式(118d)で表される。関数Ψξ(θ)はξ番目(1≦ξ≦Ξ)の反射音の到来方向を出力する。
反射物の位置は適宜に設定可能であるから、反射音の到来方向は変更可能なパラメータとして扱うことができる。
平板状の反射物がマイクロホンアレーの近傍にある(距離Lがマイクロホンアレーのサイズに比して極端に大きくない)と仮定すると、コヒーレンスγ(ω,θ)は式(119)で表される。なお、θ≠θsとする。
式(119)から、式(115)の従来のコヒーレンスγconv(ω,θ)よりも式(119)のコヒーレンスγ(ω,θ)の方が小さくなる可能性があることがわかる。反射物の置き方によって変更できるパラメータ(Ψ(θ)やL)が式(119)の第2〜4項目の中に存在するので第1項目のh→ d H(ω,θ)h→ d(ω,θ)を除去できる可能性がある。
例えば、線形マイクロホンアレーに対して、マイクロホンの配列方向が反射板の法線となるように平板の反射板を配置すると、関数Ψ(θ)についてΨ(θ)=π−θが成立し、直接音と反射音との到来時間差τ(θ)について式(120)が成立するので、式(119)を構成する要素に式(121)(122)の各条件が生成される。記号*は複素共役を表す演算子である。
h→ d H(ω,θ)h→ r(ω,θ)の絶対値はh→ d H(ω,θ)h→ d(ω,θ)よりも十分に小さいので、式(119)の第2項、第3項を無視すると、コヒーレンスγ(ω,θ)は式(123)のように近似できる。
仮にh→ d H(ω,θ)h→ d(ω,θ)≠0であるとしても、近似コヒーレンスγ〜(ω,θ)は式(124)の極小解θを持つ。qは任意の正整数である。また、qの範囲は周波数帯域ごとに制限される。
つまり、式(116)で与えられる方向だけではなく、式(124)で与えられる方向でもコヒーレンスを抑圧できる。コヒーレンスを抑圧できれば、雑音のパワーをより小さくできるので、図5Bに模式的に示すように、鋭い指向性の実現が可能になる。
なお、図5Aと図5Bでは本発明の狭指向音声強調技術の原理に拠る場合と従来技術に拠る場合の指向性の違いを模式的に示したが、図6に、式(116)で与えられるθと式(124)で与えられるθの違いを具体的に示す。ω=2π×1000[rad/s],L=0.70[m],θs=π/4[rad]である。図6では両者の比較のために正規化されたコヒーレンスの方向依存性を示してあり、記号○で示された方向が式(116)で与えられるθであり、記号+で示された方向が式(124)で与えられるθである。図6から明らかなように、従来技術に拠るとθs=π/4[rad]に対してコヒーレンスがゼロとなるθは記号○で示された方向だけであるが、本発明の狭指向音声強調技術の原理に拠るとθs=π/4[rad]に対してコヒーレンスがゼロとなるθは記号+で示される多数の方向に存在し、特に、記号○で示された方向よりもθs=π/4[rad]にはるかに近い方向に記号+で示された方向が存在するため、従来技術に比べて鋭い指向性が実現されることが理解できる。
これまで本発明の音声スポット強調技術の原理を分かりやすく説明する観点から音波が平面波として到来すると仮定してきたが、上述の説明から明らかなように、本発明の音声スポット強調技術の要点は、伝達特性a→(ω,θ,D)=[a1(ω,θ,D),…,aM(ω,θ,D)]Tを、例えば式(117a)のように、直接音のステアリングベクトルとΞ個の反射音のステアリングベクトルの和で表現することにある。従って、音波が平面波として到来する場合に限定されず球面波として到来する場合にも従来よりも狭指向性の音声強調が可能であることが理解される。
音波が球面波として到来する場合についての伝達特性a→(ω,θ,D)を説明する。マイクロホンアレーの各マイクロホンには、音源からの直接音と、当該音源からの音が反射物300で反射した反射音との二種類の球面波が混入することになる。反射音の数をΞとする。Ξは1以上の予め定められた整数である。このとき、伝達特性a→(ω,θ,D)=[a1(ω,θ,D),…,aM(ω,θ,D)]Tは、音声強調の対象となりえる位置(θs,D)からの音声がマイクロホンアレーに直接届く直接音の伝達特性と当該音声が反射物で反射してマイクロホンアレーに届く一つ以上の反射音の各伝達特性との和、具体的には、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差をτξ(θ,D)とし、αξ(1<ξ<Ξ)を反射による音の減衰を考慮するための係数とすると、式(125)のように、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正されたΞ個の反射音のステアリングベクトルの和で表現できる。h→ d(ω,θ,Dh)=[hd1(ω,θ,Dh),…,hdM(ω,θ,Dh)]Tは位置(θs,D)からの音声の直接音のステアリングベクトルを表す。h→ rξ(ω,θ,D)=[hr1ξ(ω,θ,D),…,hrMξ(ω,θ,D)]Tは位置(θs,D)からの音声の直接音に対応する反射音のステアリングベクトルを表す。ここで「ステアリングベクトル」という呼称について注意を加えておく。一般的に、「ステアリングベクトル」は「方向ベクトル」とも呼ばれるように「方向」に依存する複素ベクトルを表し、この観点から、位置(θs,D)に依存する複素ベクトルの呼称としては例えば「拡張されたステアリングベクトル」と呼ぶほうがより正確である。しかし、本明細書では、表現の簡略化のため、位置(θs,D)に依存する複素ベクトルの呼称としても単に「ステアリングベクトル」を用いることにする。αξ(1≦ξ≦Ξ)は、通常、αξ≦1(1≦ξ≦Ξ)である。各反射音について、音源からマイクロホンに到達するまでの反射回数が1回であるならば、αξ(1≦ξ≦Ξ)は、ξ番目の反射音が反射した物体の音の反射率を表していると考えて差し支えない。
式(125)において、直接音のステアリングベクトルh→ d(ω,θ,Dh)を構成するm番目の要素hdm(ω,θ,Dh)は例えば式(125a)で与えられる。mは1≦m≦Mを満たす各整数である。cは音速を表す。jは虚数単位である。適宜に設定した空間座標系において、v→ θ,D (d)は位置(θ,D)の位置ベクトルを、u→ mはm番目のマイクロホンの位置ベクトルを表す。記号‖・‖はノルムを表す。f(‖v→ θ,D (d)−u→ m‖)は音波の距離減衰を表す関数である。例えばf(‖v→ θ,D (d)−u→ m‖)=1/‖v→ θ,D (d)−u→ m‖であり、この場合、式(125a)は式(125b)で表される。
式(125)において、反射音のステアリングベクトルh→ rξ(ω,θ,D)=[hr1ξ(ω,θ,D),…,hrMξ(ω,θ,D)]Tのm番目の要素hrmξ(ω,θ,D)は、直接音のステアリングベクトルの表し方と同様に(式(125a)参照)、式(126a)で表される。mは1≦m≦Mを満たす各整数である。cは音速を表す。jは虚数単位である。上記空間座標系において、v→ θ,D (ξ)は位置(θ,D)がξ番目の反射物の反射面で鏡像対象に移された位置の位置ベクトルを、u→ mはm番目のマイクロホンの位置ベクトルを表す。記号‖・‖はノルムを表す。f(‖v→ θ,D (ξ)−u→ m‖)は音波の距離減衰を表す関数である。例えばf(‖v→ θ,D (ξ)−u→ m‖)=1/‖v→ θ,D (ξ)−u→ m‖であり、この場合、式(126a)は式(126b)で表される。
なお、ξ番目の到来時間差τξ(θ,D)と位置ベクトルv→ θ,D (ξ)は、位置(θ,D)とマイクロホンアレーとξ番目の反射物との位置関係が決まると、その位置関係に基づいて理論的に計算可能である。
本発明の音声スポット強調技術は従来技術と異なり反射音を積極的に考慮することから、狭指向性の音声スポット強調が可能でもある。以下、このことを二つの音源を例に挙げて説明する。図18Aに示すように、マイクロホンアレーから見て距離が異なるがほぼ同じ方向に在る二つの音源AとBそれぞれから発せられた音声について、両者の直接音のみから両者の音声をスポット強調することは難しい。この理由は、音源Aの位置(θ[A],D[A])に対応する直接音のステアリングベクトルh→ d(ω,θ[A],D[A])に現れる減衰関数の値f(‖v→ θ[A],D[A] (d)−u→ m‖)と音源Bの位置(θ[B],D[B])に対応する直接音のステアリングベクトルh→ d(ω,θ[B],D[B])に現れる減衰関数の値f(‖v→ θ[B],D[B] (d)−u→ m‖)との間には、θ[A]≒θ[B]、D[A]≠D[B]に注意すると、距離に応じた差異が認められるが、現実には、マイクロホンアレーが収音した音声の大きさ(音量)から音源信号の大きさ(音量)と減衰関数の値とを区別できないためである。つまり、従来技術の如くa→ conv(ω,θ,D)=h→ d(ω,θ,D)とするならば、直接音の伝達特性はほぼ同じ方向に在る音源の距離に関する識別力として十分でなく、式(109)、式(110a)、式(110b)を参照して分かるようにスポット強調可能なフィルタの設計が困難になるのである。
他方、本発明の音声スポット強調技術では積極的に反射音を考慮するところ、図18Bに示すように、ξ番目の反射音の仮想音源A(ξ),B(ξ)は、マイクロホンアレーの立場から恰も、音源A,Bの位置がξ番目の反射物300の反射面で鏡像対象に移された位置に存在することになる。これは、音源A,Bから発せられた音声がξ番目の反射物300で反射した反射音はそれぞれ、仮想音源A(ξ),B(ξ)から到来することと等価である。仮想音源A(ξ)からのξ番目の反射音と仮想音源B(ξ)からのξ番目の反射音との間では、各仮想音源A(ξ),B(ξ)の位置ベクトルv→ θ[A(ξ)],D[A(ξ)]とv→ θ[B(ξ)],D[B(ξ)] (ξ)、各到来時間差τξ(θ[A],D[A])とτξ(θ[B],D[B])について、大きな差異がある。従って、位置(θ[A],D[A])と位置(θ[B],D[B])に対応する伝達特性a→(ω,θ[A],D[A])とa→(ω,θ[B],D[B])は式(127a)と式(127b)で表され、式(127a)と式(127b)のそれぞれの第2項の存在によって、θ[A]≒θ[B]であっても、異なる位置に対応する伝達特性間には有意な差分が生じることになる。この伝達特性間の差分をビームフォーミング法で抽出することによって、想定される音源の位置に応じた音声のスポット強調が可能となるのである。
これまでは、狭指向性の実現を説明するために、距離Dhを固定して考えてきた。このため、空間相関行列Q(ω)を式(110a)や式(110b)で表した。しかし、距離Dδ(δ=1,2,…,G)ごとのMチャネルの伝達特性の相互相関も考慮することによって音場の情報量が増え、より精度の良いフィルタを与える空間相関行列を構成できる。この空間相関行列Q(ω)は式(110c)で表される。方向θφのインデックスφが属する集合をΦ(|Φ|=P)、距離Dδのインデックスδが属する集合をΔ(|Δ|=G)とする。
このとき、式(110c)で表される空間相関行列Q(ω)を用いると、最小分散無歪応答法によるフィルタW→(ω,θs,Dh)は式(109)に替えて式(109a)で表される。
ところで、既述のとおり、本発明の音声スポット強調技術の要点は、伝達特性a→(ω,θ,D)=[a1(ω,θ,D),…,aM(ω,θ,D)]Tを、直接音のステアリングベクトルとΞ個の反射音のステアリングベクトルの和で表現することにある。従って、フィルタの設計コンセプト自体に影響を与えないので、最小分散無歪応答法以外の手法によってフィルタW→(ω,θs,Dh)を設計することができる。
上述の最小分散無歪応答法以外の手法として、〈1〉SN比最大化規準によるフィルタ設計法、〈2〉パワーインバージョン(Power Inversion)に基づくフィルタ設計法、〈3〉一つ以上の抑圧点(雑音のゲインが抑圧される位置)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法、〈4〉遅延合成(Delay−and−Sum Beam Forming)法によるフィルタ設計法、〈5〉最尤法によるフィルタ設計法、〈6〉AMNOR(Adaptive Microphone−array for noise reduction)法によるフィルタ設計法を説明する。〈1〉SN比最大化規準によるフィルタ設計法と〈2〉パワーインバージョンに基づくフィルタ設計法については下記参考文献2を参照のこと。〈3〉一つ以上の抑圧点(雑音のゲインが抑圧される方向)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法については下記参考文献3を参照のこと。〈6〉AMNOR(Adaptive Microphone−array for noise reduction)法によるフィルタ設計法については下記参考文献4を参照のこと。
〈1〉SN比最大化規準によるフィルタ設計法
SN比最大化規準によるフィルタ設計法では、位置(θs,Dh)でのSN比(SNR)を最大化する規準でフィルタW→(ω,θs,Dh)を決定する。位置(θs,Dh)の音声の空間相関行列をRss(ω)、位置(θs,Dh)以外の位置の音声の空間相関行列をRnn(ω)とする。このとき、SNRは式(128)で表される。なお、Rss(ω)は式(129)、Rnn(ω)は式(130)で表される。伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは例えば式(125)で表される(正確には、式(125)のθをθs、DをDhとしたものである)。式(130)で、方向θφのインデックスφが属する集合をΦ(|Φ|=P)、距離Dδのインデックスδが属する集合をΔ(|Δ|=G)とする。
式(128)のSNRを最大にするフィルタW→(ω,θs,Dh)は、フィルタW→(ω,θs,Dh)に関する勾配をゼロとすること、つまり式(131)によって求めることができる。
但し、
これにより、式(128)のSNRを最大にするフィルタW→(ω,θs,Dh)は式(132)で与えられる。
式(132)には位置(θs,Dh)以外の位置の音声の空間相関行列Rnn(ω)の逆行列が含まれているが、Rnn(ω)の逆行列を、(1)位置(θs,Dh)の音声と(2)位置(θs,Dh)以外の位置の音声とを含む入力全体の空間相関行列Rxx(ω)の逆行列に置換してもよいことが知られている。なお、Rxx(ω)=Rss(ω)+Rnn(ω)である。つまり、式(128)のSNRを最大にするフィルタW→(ω,θs,Dh)を式(133)で求めてもよい。
〈2〉パワーインバージョンに基づくフィルタ設計法
パワーインバージョンに基づくフィルタ設計法では、一つのマイクロホンに対するフィルタ係数を一定値に固定した状態でビームフォーマの平均出力パワーを最小化する基準でフィルタW→(ω,θs,Dh)を決定する。ここでは、一例として、M個のマイクロホンのうち1番目のマイクロホンに対するフィルタ係数を固定するとして説明する。この設計法では、フィルタW→(ω,θs,Dh)は、式(135)の拘束条件の下、空間相関行列Rxx(ω)を用いて全位置(音源位置として想定される全ての位置)の音声のパワーが最小となるように設計される(式(134)参照)。伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは例えば式(125)で表される(正確には、式(125)のθをθs、DをDhとしたものである)。
但し、
式(134)の最適解であるフィルタW→(ω,θs,Dh)は式(136)で与えられることが知られている(下記参考文献2参照)。
〈3〉一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法
上述の最小分散無歪応答法では、式(108)で表されるように位置(θs,Dh)の音声の全帯域通過を拘束条件とし、式(107)で表されるビームフォーマの平均出力パワーが最小となる(つまり、位置(θs,Dh)以外の位置の音声である雑音のパワーが最小となる)フィルタを求める、という単一拘束条件の下の規準でフィルタW→(ω,θs,Dh)を設計した。この方法によると、全体的に雑音のパワーを抑圧することはできるが、特定の一つまたは複数の位置に強いパワーを持ったノイズ源が存在することが予め判明している場合には必ずしも好適な方法とは言えない。このような場合、ノイズ源が存在する既知の一つまたは複数の特定位置(つまり、抑圧点)を強く抑圧するフィルタが要求される。このため、ここで説明するフィルタ設計法では、(1)位置(θs,Dh)の音声の全帯域通過、および(2)予め判明しているB個(Bは1以上の予め定められた整数)の抑圧点(θN1,DG1),(θN2,DG2),…,(θNB,DGB)の音声の全帯域抑制、を拘束条件として、式(107)で表されるビームフォーマの平均出力パワーが最小となる(つまり、位置(θs,Dh)と各抑圧点とを除く位置の音声のパワーが最小となる)フィルタを求める。既述のように、音声の到来方向のインデックスφが属する集合を{1,2,…,P}とすると、Nj∈{1,2,…,P}(ただし、j∈{1,2,…,B}),B≦P−1である。また、音源までの距離のインデックスδが属する集合を{1,2,…,G}とすると、Gj∈{1,2,…,G}(ただし、j∈{1,2,…,B}),B≦G−1である。
このとき、a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]Tを、位置(θi,Dg)に音源が在ると仮定した場合の、当該音源とM本のマイクロホンとの間の周波数ωでの伝達特性、換言すれば、a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]Tは、マイクロホンアレーに含まれる各マイクロホンへの位置(θi,Dg)の音声の周波数ωでの伝達特性とすると、拘束条件は式(137)で表される。ただし、インデックスi,gについて、(i,g)∈{(s,h),(N1,G1),{N2,G2),…,(NB,GB)}であり、伝達特性a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]Tは式(125)で表される(正確には、式(125)のθをθi、DをDgとしたものである)。fi,g(ω)は、位置(θi,Dg)に関する周波数ωでの通過特性を表す。
式(137)を行列形式で表現すると、例えば式(138)のように表すことができる。ただし、A→(ω,θs,Dh)=[a→(ω,θs,Dh),a→(ω,θN1,DG1),…,a→(ω,θNB,DGB)]である。
但し、
(1)位置(θs,Dh)の音声の全帯域通過、および(2)予め判明しているB個の抑圧点(θN1,DG1),(θN2,DG2),…,(θNB,DGB)の音声の全帯域抑制、という拘束条件を考慮すると、理想的には、fs,h(ω)=1.0、fi,g(ω)=0.0((i,g)∈{(N1,G1),(N2,G2),…,(NB,GB)})とされるべきである。これは、位置(θs,Dh)の音声の全帯域完全通過と、予め判明しているB個の抑圧点(θN1,DG1),(θN2,DG2),…,(θNB,DGB)の音声の全帯域完全阻止を表している。しかし、現実には全帯域完全通過や全帯域完全阻止という制御が難しい場合もある。このような場合には、fs,h(ω)の絶対値を1.0に近い値、fi,g(ω)((i,g)∈{(N1,G1),(N2,G2),…,(NB,GB)})の絶対値を0.0に近い値に設定すればよい。もちろん、fi,g_i(ω)とfi,g_j(ω)(i≠j、i,j∈{N1,N2,…,NB})は等しくても異なってもよい。
ここで説明したフィルタ設計法によると、拘束条件を表す式(138)の下での式(107)の最適解であるフィルタW→(ω,θs,Dh)は式(139)で与えられる(下記参考文献3参照)。ただし、空間相関行列Q(ω)として式(110c)で表されるものを用いたが、式(110a)ないし式(110b)で表される空間相関行列を用いてもよい。
〈4〉遅延合成法によるフィルタ設計法
遅延合成法によると、直接音や反射音が平面波到来すると仮定すると、フィルタW→(ω,θs,Dh)は式(140)で与えられる。つまり、フィルタW→(ω,θs,Dh)は伝達特性a→(ω,θs,Dh)を正規化して得られる。伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは式(125)で表される(正確には、式(125)のθをθs、DをDhとしたものである)。この設計法によると、フィルタ精度は必ずしも良好とは言えない場合があるが、計算量が少なくて済む。
〈5〉最尤法によるフィルタ設計法
上述の最小分散無歪応答法において、空間相関行列Q(ω,Dh)内に目的方向の音声の空間情報を含めないことによって、雑音を抑圧する自由度が向上し、雑音のパワーをよりいっそう抑圧できる。この場合、ここで説明するフィルタ設計法では、空間相関行列Q(ω,Dh)を、式(110a)の右辺第二項、つまり、式(110d)で表す。フィルタW→(ω,θs,Dh)は式(109)や式(139)で与えられる。このとき、式(109)や式(139)に含まれる空間相関行列は、式(110d)で表される空間相関行列である。
あるいは、空間相関行列Q(ω)内に位置(θs,Dh)の音声の空間情報を含めないようにしてもよい。この場合、ここで説明するフィルタ設計法では、空間相関行列Q(ω)を、式(110e)で表す。フィルタW→(ω,θs,Dh)は式(109)や式(139)で与えられる。このとき、式(109)や式(139)に含まれる空間相関行列は、式(110e)で表される空間相関行列である。
〈6〉AMNOR法によるフィルタ設計法
AMNOR法は、目的方向の音声の劣化量Dとフィルタ出力信号に残留する雑音のパワーとのトレードオフ関係を踏まえて、目的方向の音声の劣化量Dを或る程度許容し(例えば劣化量Dを或る閾値D^以下に保つようにする)、[a]目的方向の仮想的な信号(以下、仮想信号という)に音源とマイクロホンとの間の伝達特性を作用させた信号と[b](例えば目的方向の音声が無い雑音環境でのM個のマイクロホンによる観測によって得られる)雑音との混合信号を入力としたときのフィルタ出力信号が最小2乗誤差の観点から仮想信号を最も良く再現する(つまり、フィルタ出力信号に含まれる雑音のパワーが最小となる)フィルタを求める方式である。
ここで説明するフィルタ設計法は、AMNOR法に距離の概念を導入したフィルタ設計法としてAMNOR法と同様に考えることができる。すなわち、位置(θs,Dh)の音声の劣化量Dとフィルタ出力信号に残留する雑音のパワーとのトレードオフ関係を踏まえて、位置(θs,Dh)の音声の劣化量Dを或る程度許容し(例えば劣化量Dを或る閾値D^以下に保つようにする)、[a]位置(θs,Dh)の仮想的な信号(以下、仮想目的信号という)に音源とマイクロホンとの間の伝達特性を作用させた信号と[b](例えば位置(θs,Dh)の音声が無い雑音環境でのM個のマイクロホンによる観測によって得られる)雑音との混合信号を入力としたときのフィルタ出力信号が最小2乗誤差の観点から仮想目的信号を最も良く再現する(つまり、フィルタ出力信号に含まれる雑音のパワーが最小となる)フィルタを求める。
ここで説明するフィルタ設計法によると、AMNOR法と同様に、フィルタW→(ω,θs,Dh)は式(141)で与えられる(下記参考文献4参照)。なお、Rss(ω)は式(126)、Rnn(ω)は式(127)で表される。伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは式(125)で表される(正確には、式(125)のθをθs、DをDhとしたものである)。
Psは、仮想目的信号のレベルを重み付けする係数であり、仮想目的信号レベルと呼称される。仮想目的信号レベルPsは、周波数に依存しない定数である。仮想目的信号レベルPsは、経験則に基づいて決められてもよく、あるいは、位置(θs,Dh)の音声の劣化量Dと閾値D^との差が任意に定められた誤差範囲内となるように決定されてもよい。後者の例を説明する。周波数ωにおいて、フィルタW→(ω,θs,Dh)の位置(θs,Dh)の音声の周波数応答F(ω)は、式(142)で表される。式(141)で与えられるフィルタW→(ω,θs,Dh)を用いたときの劣化量DをD(Ps)と表記すると、劣化量D(Ps)は式(143)で定義される。ω0は、対象となる周波数ωの上限(通常は、離散的な周波数ωに隣接する高域側周波数である)を表す。劣化量D(Ps)はPsの単調減少関数である。従って、D(Ps)の単調性によって、Psを変化させながら劣化量D(Ps)を求めることを繰り返すことで、劣化量D(Ps)と閾値D^との差が任意に定められた誤差範囲内となる仮想目的信号レベルPsを求めることができる。
<変形例>
上述の説明では、空間相関行列Q(ω)、Rss(ω)、Rnn(ω)を、伝達特性を用いて表現した。しかし、上述の周波数領域信号X→(ω,k)を用いて空間相関行列Q(ω)、Rss(ω)、Rnn(ω)を表現することもできる。以下、空間相関行列Q(ω)について説明するが、Rss(ω)、Rnn(ω)についても同様である(Q(ω)をRss(ω)あるいはRnn(ω)に読み替えればよい)。なお、空間相関行列Rss(ω)は位置(θs,Dh)の音声のみが存在する環境でのマイクロホンアレー(M個のマイクロホンを含む)による観測によって得られたアナログ信号の周波数領域表現によって得られ、空間相関行列Rnn(ω)は位置(θs,Dh)の音声が無い環境(つまり雑音環境)でのマイクロホンアレー(M個のマイクロホンを含む)による観測によって得られたアナログ信号の周波数領域表現によって得られる。
周波数領域信号X→(ω,k)=[X1[(ω,k),…,XM(ω,k)]Tを用いた空間相関行列Q(ω)は式(144)で表される。演算子E[・]は、統計的平均操作を表す演算子である。マイクロホンアレー(M個のマイクロホンを含む)で受音したアナログ信号の離散時系列を確率過程と見たとき、それがいわゆる広義の定常ないし2次定常である場合、演算子E[・]は算術平均値(期待値)演算となる。この場合、空間相関行列Q(ω)は、例えば、メモリ等に蓄積された現在および過去の計ζ個のフレームの周波数領域信号X→(ω,k−i)(i=0,1,…,ζ−1)を用いて式(145)で表される。i=0のとき、つまり第kフレームが現在のフレームである。なお、式(144)ないし式(145)による空間相関行列Q(ω)はフレーム毎に計算し直してもよいし、あるいは、定期ないし不定期の間隔で計算し直してもよいし、あるいは、後に説明する実施形態の実施の前に計算しておいてもよい(特に、フィルタ設計にRss(ω)あるいはRnn(ω)を用いる場合には、実施形態の実施の前に取得された周波数領域信号を用いて空間相関行列Q(ω)を事前に計算しておくことが好適である)。フレーム毎に空間相関行列Q(ω)を計算し直す場合、空間相関行列Q(ω)は現在と過去のフレームに依存するから、式(144a)や式(145a)のように明示的に空間相関行列をQ(ω,k)と表すことにする。
式(144a)や式(145a)で表される空間相関行列Q(ω,k)を用いるとフィルタW→(ω,θs,Dh)も現在と過去のフレームに依存するから、明示的にこれをW→(ω,θs,Dh,k)と表すことにする。このとき、上述の種々のフィルタ設計法で説明した式(109)、式(132)、式(133)、式(136)、式(139)、式(141)のいずれかで表されるフィルタW→(ω,θs,Dh)は、表記上、式(109m)、式(132m)、式(133m)、式(136m)、式(139m)、式(141m)に修正される。
《音声スポット強調技術の実施形態1》
本発明の音声スポット強調技術の実施形態1の機能構成および処理フローを図19と図20に示す。この実施形態1の音声スポット強調装置3は、AD変換部610、フレーム生成部620、周波数領域変換部630、フィルタ適用部640、時間領域変換部650、フィルタ設計部660、記憶部690を含む。
[ステップS21]
予め、フィルタ設計部660が音声強調の対象となりえる離散的な位置(θi,Dg)ごとに、周波数ごとのフィルタW→(ω,θi,Dg)を計算しておく。音声強調の対象となりえる離散的な方向の総数をI(Iは1以上の予め定められた整数であり、I≦Pを満たす)、離散的な距離の総数をG(Gは1以上の予め定められた整数である)とすると、W→(ω,θ1,D1),…,W→(ω,θi,D1),…,W→(ω,θI,D1),W→(ω,θ1,D2),…,W→(ω,θi,D2),…,W→(ω,θI,D2),…,W→(ω,θ1,Dg),…,W→(ω,θi,Dg),…,W→(ω,θI,Dg),…,W→(ω,θ1,DG),…,W→(ω,θi,DG),…,W→(ω,θI,DG)(1≦i≦I,1≦g≦G,ω∈Ω;iとgは整数、Ωは周波数ωの集合)を事前に計算しておくのである。
このためには、上述の<変形例>で説明した場合を除き、伝達特性a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]T(1≦i≦I,1≦g≦G,ω∈Ω)を求める必要があるが、これは、マイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(125)によって具体的に計算できる(正確には、式(125)のθをθi、DをDgとしたものである)。なお、上述の〈3〉一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a→(ω,θi,Dg)(1≦i≦I,1≦g≦G,ω∈Ω)を求める際の位置のインデックス(i,g)は、少なくともB個の抑圧点の方向のインデックス(N1,G1),(N2,G2),…,(NB,GB)の全てを亘ることが望ましい。換言すれば、B個のインデックスN1,N2,…,NBは、1以上I以下のいずれかの異なる整数として設定され、B個のインデックスG1,G2,…,GBは、1以上G以下のいずれかの異なる整数として設定される。
反射音の数Ξは1≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。
ステアリングベクトルの計算には、例えば式(125a)、式(125b)、式(126a)、式(126b)を用いることができる。なお、フィルタ設計に用いる伝達特性として、式(125)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
そして、上述の<変形例>で説明した場合を除き、伝達特性a→(ω,θi,Dg)を用いて、例えば式(109)、式(109a)、式(132)、式(133)、式(136)、式(139)、式(140)、式(141)のいずれかによってW→(ω,θi,Dg)(1≦i≦I,1≦g≦G)を求める。なお、上述の〈5〉最尤法によるフィルタ設計法で説明した場合を除き、式(109)または式(109a)または式(133)または式(136)または式(139)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(110b)で計算できる。上述の〈5〉最尤法によるフィルタ設計法に拠って、式(109)または式(109a)または式(133)または式(136)または式(139)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(110c)あるいは式(110d)で計算できる。式(132)を用いる場合には空間相関行列Rnn(ω)は式(130)で計算できる。I×G×|Ω|個のフィルタW→(ω,θi,Dg)(1≦i≦I,1≦g≦G,ω∈Ω)は記憶部690に記憶される。|Ω|は集合Ωの要素数を表す。
[ステップS22]
マイクロホンアレーを構成するM個のマイクロホン200−1,…,200−Mを用いて収音する。Mは2以上の整数である。
M個のマイクロホンの並べ方に制限は無い。ただし、2次元または3次元的にM個のマイクロホンを配置することによって、音声強調する方向の不確定性がなくなるという利点がある。つまり、M個のマイクロホンを水平方向に直線状に並べたときに例えば正面方向から到来する音声と真上から到来する音声との区別ができなくなるという問題を、マイクロホンを平面的ないし立体的に並べることで防ぐことができる。また、収音方向として設定できる方向を広くとるためには、各マイクロホンの指向性は、収音方向である目的方向θsになり得る方向にある程度の音圧で音声を収音可能な指向性を持っていたほうがよい。したがって、無指向性マイクロホンや単一指向性マイクロホンといった指向性が比較的緩やかなマイクロホンが好適である。
[ステップS23]
AD変換部610が、M個のマイクロホン200−1,…,200−Mで収音されたアナログ信号(収音信号)をディジタル信号x→(t)=[x1(t),…,xM(t)]Tへ変換する。tは離散時間のインデックスを表す。
[ステップS24]
フレーム生成部620は、AD変換部610が出力したディジタル信号x→(t)=[x1(t),…,xM(t)]Tを入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x→(k)=[x→ 1(k),…,x→ M(k)]Tを出力する。kはフレーム番号のインデックスである。x→ m(k)=[xm(k−1)N+1),…,xm(kN)](1≦m≦M)である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
[ステップS25]
周波数領域変換部630は、各フレームのディジタル信号x→(k)を周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X→(ω,k)は、各周波数ω、フレームkごとに出力される。
[ステップS26]
フィルタ適用部640は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに、強調したい位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)を適用して、出力信号Y(ω,k,θs,Dh)を出力する(式(146)参照)。位置(θs,Dh)のインデックスs,hは、s∈{1,…,I},h∈{1,…,G}であり、フィルタW→(ω,θs,Dh)は記憶部690に記憶されているので、例えば、ステップS26の処理の都度、フィルタ適用部640は、強調したい位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)を記憶部690から取得すればよい。方向θsのインデックスsが集合{1,…,I}に属さない場合あるいは距離Dhのインデックスhが集合{1,…,G}に属さない場合、つまり、位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)がステップS21の処理で計算されていない場合、臨時に位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)をフィルタ設計部660に計算させてもよいし、あるいは方向θsに近い方向θs′や距離Dhに近い距離Dh′に対応するフィルタW→(ω,θs′,Dh)やW→(ω,θs,Dh′)やW→(ω,θs′,Dh′)を用いてよい。
[ステップS27]
時間領域変換部650は、第kフレームの各周波数ω∈Ωの出力信号Y(ω,k,θs,Dh)を時間領域に変換して第kフレームのフレーム単位時間領域信号y(k)を得て、さらに、得られたフレーム単位時間領域信号y(k)をフレーム番号のインデックスの順番に連結して位置(θs,Dh)からの音声が強調された時間領域信号y(t)を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS25の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
ここでは、ステップS21の処理で予めフィルタW→(ω,θi,Dg)を計算しておく実施形態1を説明したが、音声スポット強調装置3の計算処理能力などに応じて、位置(θs,Dh)が定まってからフィルタ設計部660が周波数ごとのフィルタW→(ω,θs,Dh)を計算する実施形態を採用することもできる。
《音声スポット強調技術の実施形態2》
本発明の音声スポット強調技術の実施形態2の機能構成および処理フローを図21と図22に示す。この実施形態2の音声スポット強調装置4は、AD変換部610、フレーム生成部620、周波数領域変換部630、フィルタ適用部640、時間領域変換部650、フィルタ計算部661、記憶部690を含む。
[ステップS31]
マイクロホンアレーを構成するM個のマイクロホン200−1,…,200−Mを用いて収音する。Mは2以上の整数である。M個のマイクロホンの並べ方等については実施形態1で説明したとおりである。
[ステップS32]
AD変換部610が、M個のマイクロホン200−1,…,200−Mで収音されたアナログ信号(収音信号)をディジタル信号x→(t)=[x1(t),…,xM(t)]Tへ変換する。tは離散時間のインデックスを表す。
[ステップS33]
フレーム生成部620は、AD変換部610が出力したディジタル信号x→(t)=[x1(t),…,xM(t)]Tを入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x→(k)=[x→ 1(k),…,x→ M(k)]Tを出力する。kはフレーム番号のインデックスである。x→ m(k)=[xm((k−1)N+1),…,xm(kN)](1≦m≦M)である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
[ステップS34]
周波数領域変換部630は、各フレームのディジタル信号x→(k)を周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X→(ω,k)は、各周波数ω、フレームkごとに出力される。
[ステップS35]
フィルタ計算部661が、現在の第kフレームで用いられる、位置(θs,Dh)に対応する周波数毎のフィルタW→(ω,θs,Dh,k)(ω∈Ω;Ωは周波数ωの集合)を計算する。
このためには、伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]T(ω∈Ω)を用意する必要があるが、これは、マイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(125)によって具体的に計算できる(正確には、式(125)のθをθs、DをDhとしたものである)。なお、上述の〈3〉一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a→(ω,θNj,DGj)(1≦j≦B,ω∈Ω)も求める必要があるが、これらはマイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(125)によって具体的に計算できる(正確には、式(125)のθをθNj、DをDGjとしたものである)。
反射音の数Ξは1≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。
ステアリングベクトルの計算には、例えば式(125a)、式(125b)、式(126a)、式(126b)を用いることができる。なお、フィルタ設計に用いる伝達特性として、式(125)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
そして、フィルタ計算部661は、伝達特性a→(ω,θs,Dh)(ω∈Ω)や必要に応じて伝達特性a→(ω,θNj,DGj)(1≦j≦B,ω∈Ω)を用いて、フィルタW→(ω,θs,Dh,k)(ω∈Ω)を、式(109m)、式(132m)、式(133m)、式(136m)、式(139m)、式(141m)のいずれかに従って求める。なお、空間相関行列Q(ω)(あるいはRxx(ω))は例えば式(144a)や式(145a)で計算できる。空間相関行列Q(ω)の計算には、記憶部690に蓄積された現在および過去の計ζ個のフレームの周波数領域信号X→(ω,k−i)(i=0,1,…,ζ−1)が用いられる。
[ステップS36]
フィルタ適用部640は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに、強調したい目的方向θsに対応するフィルタW→(ω,θs,Dh,k)を適用して、出力信号Y(ω,k,θs,Dh)を出力する(式(147)参照)。
[ステップS37]
時間領域変換部650は、第kフレームの各周波数ω∈Ωの出力信号Y(ω,k,θs,Dh)を時間領域に変換して第kフレームのフレーム単位時間領域信号y(k)を得て、さらに、得られたフレーム単位時間領域信号y(k)をフレーム番号のインデックスの順番に連結して位置(θs,Dh)からの音声が強調された時間領域信号y(t)を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS34の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
なお、音声スポット強調技術に拠っても、方向θiに対応するフィルタW→(ω,θi)をΣg=1 GβgW→(ω,θi,Dg)によって求めることができる。βg[1≦g≦G]は重み係数であり、Σg=1 Gβg=1を満たすことが好ましく、さらに、0≦βg[1≦g≦G]であることが好ましい。なお、フィルタW→(ω,θi,Dg)は実環境下における実測で得られた伝達特性を用いて表されたフィルタであってもよい。
[音声スポット強調技術の実験例]
本発明の音声スポット強調技術の実施形態1(単一拘束条件の最小分散無歪応答法)による音声のスポット強調についての実験結果を説明する。実験環境は図9に示す環境と同じとした。図9に示すように、24本のマイクロホンを直線的に配置し、この線形マイクロホンアレーに含まれるマイクロホンの配列方向が反射板300の法線となるように反射板300を配置した。反射板300の形状に制限はないが、反射面が平面であって、1.0m×1.0mのサイズと適度な厚みと剛性を持つ平板の反射板を用いた。隣り合うマイクロホンの間隔を4cm、反射板300の反射率αを0.8とした。音源位置は方向θsを45度、距離Dhを1.13mに設定した。実験結果として、図23Aに反射板300を設置しなかった場合の最小分散ビームフォーマの指向性(2次元領域)、図23Bに反射板300を設置した場合の最小分散ビームフォーマの指向性(2次元領域)を示す。音圧[単位:dB]は濃淡表示されており、白い領域ほど高い音圧で収音できていることを表している。従って、理想的には、方向45度、距離1.13mの位置のみ白くなっており、他の領域が黒に近くなるほど、所望の音声のスポット強調が実現できているといえる。図23Aと図23Bに示す実験結果の比較から、反射板300を設置しなかった場合は所望の音声のスポット強調が十分にできておらず、反射板300を設置した場合は所望の音声のスポット強調ができていることがわかる。
<応用例>
音声スポット強調技術は、画像に譬えて表現すれば、不鮮明な惚けた画像から鮮明な画像を生成することに対応し、音場の情報をより詳細に得ることに役立つ。以下、本発明の音声スポット強調技術が有用なサービス例について述べる。
第1の例として、映像と組み合わせたコンテンツ制作が挙げられる。本発明の音声スポット強調技術の実施形態を利用すると、雑音(目的外音声等)が多い雑音環境でも遠方の目的音声をクリアに強調することができるので、例えば、フィールド外から撮影したサッカー選手がドリブルするズームイン映像に対応した特定エリアの音声付けを行うことができる。
第2の例として、TV会議システム(音声会議システムでもよい)への応用が挙げられる。狭い部屋で会議する場合には、従来技術でも、数本のマイクロホンを用いて発言者の音声を強調することがそれなりに可能であったが、広い会議室(例えばマイクロホンから5m以上離れた位置に話者が存在するような広い空間)では、クリアに遠方話者の音声を強調することが困難であり、このため、各発言者の前にマイクロホンを設置する必要があった。しかし、本発明の音声スポット強調技術の実施形態を利用すると、特定エリアの遠方の特定エリアの音をクリアに強調することが可能であるため、各発言者の前にマイクロホンを設置することなく、広い会議室に対応したTV会議システムを構築することが可能となる。また、特定エリアの音声を強調可能であるから、マイクロホンの設置位置に対する会議参加者の位置についての制限が緩和されることにもなる。
<音声強調技術の実施構成>
次に、本発明の音声強調技術の実施構成の例を図24〜図28を参照して説明する。これらの例ではマイクロホンアレーの構成は線形マイクロホンアレーとして図示されているが、線形マイクロホンアレーの構成に限定されない。
図24A,図24B,図24Cに示す実施構成例では、線形マイクロホンアレーを構成するM個のマイクロホン200−1,…,200−Mは矩形平板状の支持部材400に固定されており、この状態で各マイクロホンの収音孔は支持部材400の或る一つの平面(以下、開口面と呼ぶ)に配置されている(図示の例ではM=13)。なお、各マイクロホン200−1,…,200−Mに接続される配線は図示していない。そして、各マイクロホン200−1,…,200−Mの配列方向が矩形平板状の反射板300の法線となるように反射板300が支持部材400の端部に固定されている。支持部材400の開口面は、反射板300と90度をなす面である。図24A,図24B,図24Cに示す実施構成例では、反射板300の好ましいとされる性状は既述の反射物の性状と同じであり、支持部材400の性状については特に限定はなく各マイクロホン200−1,…,200−Mをしっかりと固定できる剛性を持っていれば十分である。
図25Aに示す実施構成例では、支持部材400の端部に軸部410が固定されており、反射板300は軸部410に回動自在に取り付けられている。この実施構成例によると、マイクロホンアレーに対する反射板300の幾何学的配置を変更することが可能である。
図25Bに示す実施構成例では、図24A,図24B,図24Cに示す実施構成例において、さらに二つの反射板310,320が追加されている。追加された二つの反射板310,320の性状は反射板300の性状と同じでも異なってもよい。また、反射板310の性状は反射板320の性状と同じでも異なってもよい。以下、反射板300を固定反射板300と呼称する。固定反射板300の端部(支持部材400に固定されている固定反射板300の端部とは反対側の端部)に軸部510が固定されており、反射板310は軸部510に回動自在に取り付けられている。また、支持部材400の端部(固定反射板300が固定されている支持部材400の端部とは反対側の端部)に軸部520が固定されており、反射板320は軸部520に回動自在に取り付けられている。以下、反射板310,320を可動反射板310,320と呼称する。図25Bに示す実施構成例によると、例えば固定反射板300の反射面と可動反射板310の反射面が一致するように可動反射板310の位置を設定すると、固定反射板300と可動反射板310の組み合わせを、固定反射板300よりも大きい反射面を持つ反射板として機能させることができる。また、図25Bに示す実施構成例によると、可動反射板310,320を適切な位置に設定することによって、例えば図26に示すように支持部材400、固定反射板300、可動反射板310,320で囲まれた空間内で何度も音声を反射させることができるので、反射音の数Ξを制御することができる。なお、図25Bに示す実施構成例の場合、支持部材400は反射物としての役割を果たすことになるので、既述の反射物の性状と同じ性状を持つことが好ましい。
図27A,図27B,図27Cに示す実施構成例は、反射板300にもマイクロホンアレー(図示の例では線形マイクロホンアレー)が設けられていることが図24A,図24B,図24Cに示す実施構成例と異なる。図27A,図27B,図27Cに示す実施構成例では、支持部材400に固定されたM個のマイクロホンの配列方向と反射板300に固定されたM’個のマイクロホンの配列方向が同一平面上にあるが、このような配置構成に限定されない(図示の例ではM’=13)。例えば、支持部材400に固定されたM個のマイクロホンの配列方向と直交するような配列方向を持つように反射板300にM’個のマイクロホンが固定されていてもよい。図27A,図27B,図27Cに示す実施構成例によると、支持部材400に設けられたマイクロホンアレーと反射板300(反射板300に設けられたマイクロホンアレーを使用せず、反射板300を反射物として使用する)との組み合わせで本発明の音声強調技術を実施したり、支持部材400(支持部材400に設けられたマイクロホンアレーを使用せず、支持部材400を反射物として使用する)と反射板300に設けられたマイクロホンアレーとの組み合わせで本発明の音声強調技術を実施したりすることができる。
また、図27A,図27B,図27Cに示す実施構成例の拡張実施構成例として、図25Bに示す実施構成例と同様に、図27A,図27B,図27Cに示す実施構成例においてさらに二つの反射板310,320を追加した構成としてもよい(図28参照)。また、図示していないが、可動反射板310,320の少なくとも一つにマイクロホンアレーを設けてもよい。可動反射板310に設けられるマイクロホンアレーを構成する各マイクロホンの収音孔は、例えば、支持部材400の開口面と対向可能な可動反射板310の平面(開口面)に配置される。可動反射板320に設けられるマイクロホンアレーを構成する各マイクロホンの収音孔は、例えば、支持部材400の開口面と同一平面を形成可能な可動反射板320の平面(開口面)に配置される。このような実施構成例であっても図25Bに示す実施構成例と同様の使用形態が可能である。また、この実施構成例によると、例えば支持部材400の開口面と可動反射板320の開口面が一致するように可動反射板320の位置を設定すると、支持部材400と可動反射板320の組み合わせを、支持部材400に設けられたマイクロホンアレーよりも大きいマイクロホンアレーとして機能させることができる。図28に示す実施構成例においても、可動反射板310,320の少なくとも一つにマイクロホンアレーを設けた実施構成例においても、図26に示す実施構成例と同様の使用形態が可能である。また、図28に示す実施構成例においても、可動反射板310,320の少なくとも一つにマイクロホンアレーを設けた実施構成例においても、例えば、可動反射板310,320を通常の反射物として用い、支持部材400に設けられたマイクロホンアレーと固定反射板300に設けられたマイクロホンアレーとを一体のマイクロホンアレーとして用いる使用形態も可能である。この場合、(M+M’)個のマイクロホンで構成されたマイクロホンアレーと二つの反射物を使用する実施構成例と等価となる。
可動反射板310にマイクロホンアレーを設ける場合、可動反射板310に設けられるマイクロホンアレーを構成する各マイクロホンの収音孔が、支持部材400の開口面と対向可能な可動反射板310の平面の反対側の平面(開口面)に配置されるように、可動反射板310にマイクロホンアレーを設けてもよい。また、可動反射板320にマイクロホンアレーを設ける場合、可動反射板320に設けられるマイクロホンアレーを構成する各マイクロホンの収音孔が、支持部材400の開口面と同一平面を形成可能な可動反射板320の平面の反対側の平面(開口面)に配置されるように、可動反射板320にマイクロホンアレーを設けてもよい。もちろん、可動反射板310,320の少なくとも一つについて、その両面に開口面とするように当該可動反射板にマイクロホンアレーを設けてもよい。
[A]マイクロホンアレーを可動反射板310,320の少なくとも一つに設けた場合であって、可動反射板310の開口面を支持部材400の開口面と対向可能な平面とした場合ないし可動反射板320の開口面を支持部材400の開口面と同一平面を形成可能な平面とした場合、図24A,図24B,図24Cに示す使用形態では、視線方向に対して可動反射板310および/または可動反射板320の開口面が見えないように可動反射板310および/または可動反射板320が配置されることによって視線方向の見かけ上のアレーサイズは小さくなるものの、可動反射板310および/または可動反射板320に設けられたマイクロホンアレーを利用することによって、アレーサイズを大きくした場合と同じ効果を得ることができる。
[B]マイクロホンアレーを可動反射板310,320の少なくとも一つに設けた場合であって、可動反射板310の開口面を支持部材400の開口面と対向可能な平面の反対側の平面とした場合ないし可動反射板320の開口面を支持部材400の開口面と同一平面を形成可能な平面の反対側の平面とした場合、図24A,図24B,図24Cに示す使用形態では、視線方向に対して見かけ上のアレーサイズを保ったまま、アレーサイズを大きくした場合と同じ効果を得ることができる。
可動反射板310,320の少なくとも一つについて、その両面に開口面とするように当該可動反射板にマイクロホンアレーを設けた場合には、[A]と[B]の双方の効果を得ることも可能である。
<参考文献>
(参考文献1)Simon Haykin著、鈴木博他訳、「適応フィルタ理論」、初版、株式会社科学技術出版、2001.pp.66−73,248−255
(参考文献2)菊間信良著、「アダプティブアンテナ技術」、第1版、株式会社オーム社、2003年、pp.35−90
(参考文献3)浅野太著、「日本音響学会編 音響テクノシリーズ16 音のアレイ信号処理−音源の定位・追跡と分離−」、初版、株式会社コロナ社、pp.88−89,259−261
(参考文献4)金田豊著、「適応形雑音抑圧マイクロホンアレー(AMNOR)の指向特性」、日本音響学会誌44巻1号(1988)、pp.23−30
<音声強調装置のハードウェア構成例>
上述の実施形態に関わる音声強調装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、音声強調装置に、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
音声強調装置の外部記憶装置には、狭い範囲の音声を強調するためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
音声強調装置の記憶部には、空間相関行列を用いて、周波数ごとにフィルタを求めるためのプログラムと、アナログ信号に対してAD変換を行うためのプログラム、フレーム生成処理を行うためのプログラム、フレームごとのディジタル信号を周波数領域の周波数領域信号に変換するためのプログラム、音声強調の対象となる方向または位置に対応するフィルタを周波数ごとに周波数領域信号に適用して出力信号を得るためのプログラムと、出力信号を時間領域信号に変換するためのプログラムが記憶されている。
音声強調装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(フィルタ設計部、AD変換部、フレーム生成部、周波数領域変換部、フィルタ適用部、時間領域変換部)を実現することで音声強調が実現される。
<補記>
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記実施形態において説明したハードウェアエンティティ(音声強調装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto−Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable−Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (29)
- Mを2以上の整数として、M個のマイクロホンで音声を収音して得られるM個の収音信号がそれぞれ周波数領域に変換された周波数領域信号に、方向と距離で定まる所望の位置の音声を強調するフィルタを周波数ごとに適用して、当該位置の音声が強調された周波数領域の出力信号を得る音声強調方法であって、
音源位置として想定される一つまたは複数の位置に含まれる各位置(ただし、各位置を識別するための方向をi、距離をgとする)からの音声の各マイクロホンへの伝達特性ai,gを用いて、音声強調の対象となる位置について、上記周波数ごとの上記フィルタを求めるフィルタ設計ステップと、
上記フィルタ設計ステップで求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して上記出力信号を得るフィルタ適用ステップと
を有し、
各上記伝達特性ai,gは、上記方向iと上記距離gで定まる位置からの音声がM個の上記マイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してM個の上記マイクロホンに届く一つ以上の反射音の各伝達特性との和で表される
ことを特徴とする音声強調方法。 - 請求項1に記載の音声強調方法において、
各上記伝達特性ai,gは、上記直接音のステアリングベクトルと、反射による音の減衰および上記直接音に対する到来時間差が補正された一つ以上の上記反射音の各ステアリングベクトルとの和である
ことを特徴とする音声強調方法。 - 請求項1に記載の音声強調方法において、
各上記伝達特性ai,gは、実環境下において実測で得られたものである
ことを特徴とする音声強調方法。 - 請求項1から請求項3のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記位置以外の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項1から請求項3のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記位置でのSN比が最大となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項1から請求項3のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、M個の上記マイクロホンのうち一つのマイクロホンに対するフィルタ係数を一定値に固定した状態で音源位置として想定される上記一つまたは複数の位置以外の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項1から請求項3のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、(1)音声強調の対象となる上記位置の音声の全帯域通過、および(2)一つ以上の抑圧点の音声の全帯域抑制、の条件の下、音声強調の対象となる上記位置と各上記抑圧点以外の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項1から請求項3のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記位置i=s,g=hの伝達特性as,hを正規化することによって、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項1から請求項3のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記位置以外の各位置に対応する上記伝達特性ai,gによって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項1から請求項3のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記位置の音声の劣化量を所定量以下とする条件の下、音声強調の対象となる上記位置以外の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項1から請求項3のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項1から請求項3のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音源位置として想定される一つまたは複数の位置に含まれる各位置に対応する上記伝達特性ai,gによって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - Mを2以上の整数として、M個のマイクロホンで音声を収音して得られるM個の収音信号がそれぞれ周波数領域に変換された周波数領域信号に、方向と距離で定まる所望の位置の音声を強調するフィルタを周波数ごとに適用して、当該位置の音声が強調された周波数領域の出力信号を得る音声強調装置であって、
音源位置として想定される一つまたは複数の位置に含まれる各位置(ただし、各位置を識別するための方向をi、距離をgとする)からの音声の各マイクロホンへの伝達特性ai,gを用いて、音声強調の対象となる位置について、上記周波数ごとの上記フィルタを求めるフィルタ設計部と、
上記フィルタ設計部によって求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して上記出力信号を得るフィルタ適用部と
を含み、
各上記伝達特性ai,gは、上記方向iと上記距離gで定まる位置からの音声がM個の上記マイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してM個の上記マイクロホンに届く一つ以上の反射音の各伝達特性との和で表される
ことを特徴とする音声強調装置。 - 請求項13に記載の音声強調装置において、
M個の上記マイクロホンに対して各上記反射音を与える一つ以上の反射物をさらに含む
ことを特徴とする音声強調装置。 - Mを2以上の整数として、M個のマイクロホンで音声を収音して得られるM個の収音信号がそれぞれ周波数領域に変換された周波数領域信号に、所望の方向の音声を強調するフィルタを周波数ごとに適用して、当該方向の音声が強調された周波数領域の出力信号を得る音声強調方法であって、
音声の到来方向として想定される一つまたは複数の方向に含まれる各方向φの音声の各マイクロホンへの伝達特性aφを用いて、音声強調の対象となる方向について、上記周波数ごとの上記フィルタを求めるフィルタ設計ステップと、
上記フィルタ設計ステップで求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して上記出力信号を得るフィルタ適用ステップと
を有し、
各上記伝達特性aφは、上記方向φの音声がM個の上記マイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してM個の上記マイクロホンに届く一つ以上の反射音の各伝達特性との和で表される
ことを特徴とする音声強調方法。 - 請求項15に記載の音声強調方法において、
各上記伝達特性aφは、上記直接音のステアリングベクトルと、反射による音の減衰および上記直接音に対する到来時間差が補正された一つ以上の上記反射音の各ステアリングベクトルとの和である
ことを特徴とする音声強調方法。 - 請求項15に記載の音声強調方法において、
各上記伝達特性aφは、実環境下において実測で得られたものである
ことを特徴とする音声強調方法。 - 請求項15から請求項17のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記方向以外の方向の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項15から請求項17のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記方向でのSN比が最大となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項15から請求項17のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、M個の上記マイクロホンのうち一つのマイクロホンに対するフィルタ係数を一定値に固定した状態で音声の到来方向として想定される上記一つまたは複数の方向の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項15から請求項17のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、(1)音声強調の対象となる上記方向の音声の全帯域通過、および(2)一つ以上の死角の音声の全帯域抑制、の条件の下、音声強調の対象となる上記方向と各上記死角とを除く方向の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項15から請求項17のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記方向φ=sの伝達特性asを正規化することによって、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項15から請求項17のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記方向以外の各方向に対応する上記伝達特性aφによって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項15から請求項17のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記方向の音声の劣化量を所定量以下とする条件の下、音声強調の対象となる上記方向以外の方向の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項15から請求項17のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - Mを2以上の整数として、M個のマイクロホンで音声を収音して得られるM個の収音信号がそれぞれ周波数領域に変換された周波数領域信号に、所望の方向の音声を強調するフィルタを周波数ごとに適用して、当該方向の音声が強調された周波数領域の出力信号を得る音声強調装置であって、
音声の到来方向として想定される一つまたは複数の方向に含まれる各方向φの音声の各マイクロホンへの伝達特性aφを用いて、音声強調の対象となる方向について、上記周波数ごとの上記フィルタを求めるフィルタ設計部と、
上記フィルタ設計部によって求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して上記出力信号を得るフィルタ適用部と
を含み、
各上記伝達特性aφは、上記方向φの音声がM個の上記マイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してM個の上記マイクロホンに届く一つ以上の反射音の各伝達特性との和で表される
ことを特徴とする音声強調装置。 - 請求項26に記載の音声強調装置において、
M個の上記マイクロホンに対して各上記反射音を与える一つ以上の反射物をさらに含む
ことを特徴とする音声強調装置。 - コンピュータに、請求項1または請求項15に記載の音声強調方法の処理を実行させるためのプログラム。
- 請求項1または請求項15に記載の音声強調方法の各ステップをコンピュータに実行させるためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012549909A JP5486694B2 (ja) | 2010-12-21 | 2011-12-19 | 音声強調方法、装置、プログラム、記録媒体 |
Applications Claiming Priority (12)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010285175 | 2010-12-21 | ||
JP2010285175 | 2010-12-21 | ||
JP2010285181 | 2010-12-21 | ||
JP2010285181 | 2010-12-21 | ||
JP2011025784 | 2011-02-09 | ||
JP2011025784 | 2011-02-09 | ||
JP2011190768 | 2011-09-01 | ||
JP2011190768 | 2011-09-01 | ||
JP2011190807 | 2011-09-01 | ||
JP2011190807 | 2011-09-01 | ||
JP2012549909A JP5486694B2 (ja) | 2010-12-21 | 2011-12-19 | 音声強調方法、装置、プログラム、記録媒体 |
PCT/JP2011/079978 WO2012086834A1 (ja) | 2010-12-21 | 2011-12-19 | 音声強調方法、装置、プログラム、記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5486694B2 true JP5486694B2 (ja) | 2014-05-07 |
JPWO2012086834A1 JPWO2012086834A1 (ja) | 2015-02-23 |
Family
ID=46314097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012549909A Active JP5486694B2 (ja) | 2010-12-21 | 2011-12-19 | 音声強調方法、装置、プログラム、記録媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9191738B2 (ja) |
EP (1) | EP2642768B1 (ja) |
JP (1) | JP5486694B2 (ja) |
CN (1) | CN103282961B (ja) |
ES (1) | ES2670870T3 (ja) |
WO (1) | WO2012086834A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3627851A2 (en) | 2018-08-29 | 2020-03-25 | Panasonic Intellectual Property Corporation of America | Signal processing method and signal processing device |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9955277B1 (en) | 2012-09-26 | 2018-04-24 | Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) | Spatial sound characterization apparatuses, methods and systems |
US10175335B1 (en) | 2012-09-26 | 2019-01-08 | Foundation For Research And Technology-Hellas (Forth) | Direction of arrival (DOA) estimation apparatuses, methods, and systems |
US9549253B2 (en) * | 2012-09-26 | 2017-01-17 | Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) | Sound source localization and isolation apparatuses, methods and systems |
US10136239B1 (en) | 2012-09-26 | 2018-11-20 | Foundation For Research And Technology—Hellas (F.O.R.T.H.) | Capturing and reproducing spatial sound apparatuses, methods, and systems |
US10149048B1 (en) | 2012-09-26 | 2018-12-04 | Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) | Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems |
US20160210957A1 (en) | 2015-01-16 | 2016-07-21 | Foundation For Research And Technology - Hellas (Forth) | Foreground Signal Suppression Apparatuses, Methods, and Systems |
US9554203B1 (en) | 2012-09-26 | 2017-01-24 | Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) | Sound source characterization apparatuses, methods and systems |
JP5997007B2 (ja) * | 2012-10-31 | 2016-09-21 | 日本電信電話株式会社 | 音源位置推定装置 |
US10867597B2 (en) | 2013-09-02 | 2020-12-15 | Microsoft Technology Licensing, Llc | Assignment of semantic labels to a sequence of words using neural network architectures |
JP6125457B2 (ja) * | 2014-04-03 | 2017-05-10 | 日本電信電話株式会社 | 収音システム及び放音システム |
CN106233382B (zh) * | 2014-04-30 | 2019-09-20 | 华为技术有限公司 | 一种对若干个输入音频信号进行去混响的信号处理装置 |
JP6411780B2 (ja) * | 2014-06-09 | 2018-10-24 | ローム株式会社 | オーディオ信号処理回路、その方法、それを用いた電子機器 |
US10127901B2 (en) * | 2014-06-13 | 2018-11-13 | Microsoft Technology Licensing, Llc | Hyper-structure recurrent neural networks for text-to-speech |
TWI584657B (zh) * | 2014-08-20 | 2017-05-21 | 國立清華大學 | 一種立體聲場錄音以及重建的方法 |
CN106716526B (zh) * | 2014-09-05 | 2021-04-13 | 交互数字麦迪逊专利控股公司 | 用于增强声源的方法和装置 |
JP6294805B2 (ja) * | 2014-10-17 | 2018-03-14 | 日本電信電話株式会社 | 収音装置 |
JP6686895B2 (ja) * | 2014-11-11 | 2020-04-22 | ソニー株式会社 | 音声処理装置、音声処理方法、並びにプログラム |
EP3230976B1 (en) * | 2014-12-11 | 2021-02-24 | Uberchord UG (haftungsbeschränkt) | Method and installation for processing a sequence of signals for polyphonic note recognition |
US9525934B2 (en) * | 2014-12-31 | 2016-12-20 | Stmicroelectronics Asia Pacific Pte Ltd. | Steering vector estimation for minimum variance distortionless response (MVDR) beamforming circuits, systems, and methods |
TWI576834B (zh) * | 2015-03-02 | 2017-04-01 | 聯詠科技股份有限公司 | 聲頻訊號的雜訊偵測方法與裝置 |
WO2016178231A1 (en) * | 2015-05-06 | 2016-11-10 | Bakish Idan | Method and system for acoustic source enhancement using acoustic sensor array |
US9407989B1 (en) | 2015-06-30 | 2016-08-02 | Arthur Woodrow | Closed audio circuit |
JP6131989B2 (ja) * | 2015-07-07 | 2017-05-24 | 沖電気工業株式会社 | 収音装置、プログラム及び方法 |
JP2017102085A (ja) * | 2015-12-04 | 2017-06-08 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
TWI596950B (zh) * | 2016-02-03 | 2017-08-21 | 美律實業股份有限公司 | 指向性錄音模組 |
US9881619B2 (en) * | 2016-03-25 | 2018-01-30 | Qualcomm Incorporated | Audio processing for an acoustical environment |
JP6187626B1 (ja) * | 2016-03-29 | 2017-08-30 | 沖電気工業株式会社 | 収音装置及びプログラム |
US10074012B2 (en) | 2016-06-17 | 2018-09-11 | Dolby Laboratories Licensing Corporation | Sound and video object tracking |
US10097920B2 (en) * | 2017-01-13 | 2018-10-09 | Bose Corporation | Capturing wide-band audio using microphone arrays and passive directional acoustic elements |
CN107017003B (zh) * | 2017-06-02 | 2020-07-10 | 厦门大学 | 一种麦克风阵列远场语音增强装置 |
GB2565097B (en) | 2017-08-01 | 2022-02-23 | Xmos Ltd | Processing echoes received at a directional microphone unit |
KR102053109B1 (ko) * | 2018-02-06 | 2019-12-06 | 주식회사 위스타 | 마이크 어레이를 이용한 지향성 빔포밍 방법 및 장치 |
US11317200B2 (en) * | 2018-08-06 | 2022-04-26 | University Of Yamanashi | Sound source separation system, sound source position estimation system, sound source separation method, and sound source separation program |
EP3847645B1 (en) * | 2018-09-25 | 2022-04-13 | Huawei Technologies Co., Ltd. | Determining a room response of a desired source in a reverberant environment |
CN109599124B (zh) * | 2018-11-23 | 2023-01-10 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
CN110211601B (zh) * | 2019-05-21 | 2020-05-08 | 出门问问信息科技有限公司 | 一种空域滤波器参数矩阵的获取方法、装置及系统 |
CN110689900B (zh) * | 2019-09-29 | 2022-05-13 | 北京地平线机器人技术研发有限公司 | 信号增强方法和装置、计算机可读存储介质、电子设备 |
US11082763B2 (en) * | 2019-12-18 | 2021-08-03 | The United States Of America, As Represented By The Secretary Of The Navy | Handheld acoustic hailing and disruption systems and methods |
DE102020120426B3 (de) | 2020-08-03 | 2021-09-30 | Wincor Nixdorf International Gmbh | Selbstbedienung-Terminal und Verfahren |
CN112599126B (zh) * | 2020-12-03 | 2022-05-27 | 海信视像科技股份有限公司 | 一种智能设备的唤醒方法、智能设备及计算设备 |
EP4292087A1 (en) * | 2021-02-11 | 2023-12-20 | Nuance Communications, Inc. | First and second embedding of acoustic relative transfer functions |
CN113053376A (zh) * | 2021-03-17 | 2021-06-29 | 财团法人车辆研究测试中心 | 语音辨识装置 |
CN113709653B (zh) * | 2021-08-25 | 2022-10-18 | 歌尔科技有限公司 | 定向定位听音方法、听力装置及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5972295A (ja) * | 1982-10-18 | 1984-04-24 | Nippon Telegr & Teleph Corp <Ntt> | 多点受音装置 |
JPH0327698A (ja) * | 1989-03-10 | 1991-02-06 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号検出方法 |
JP2002062348A (ja) * | 2000-08-24 | 2002-02-28 | Sony Corp | 信号処理装置及び信号処理方法 |
JP2004279845A (ja) * | 2003-03-17 | 2004-10-07 | Univ Waseda | 信号分離方法およびその装置 |
JP2008311866A (ja) * | 2007-06-13 | 2008-12-25 | Toshiba Corp | 音響信号処理方法及び装置 |
JP2009036810A (ja) * | 2007-07-31 | 2009-02-19 | National Institute Of Information & Communication Technology | 近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4536887A (en) * | 1982-10-18 | 1985-08-20 | Nippon Telegraph & Telephone Public Corporation | Microphone-array apparatus and method for extracting desired signal |
CA2011775C (en) * | 1989-03-10 | 1995-06-27 | Yutaka Kaneda | Method of detecting acoustic signal |
US6473733B1 (en) * | 1999-12-01 | 2002-10-29 | Research In Motion Limited | Signal enhancement for voice coding |
US6577966B2 (en) * | 2000-06-21 | 2003-06-10 | Siemens Corporate Research, Inc. | Optimal ratio estimator for multisensor systems |
US6738481B2 (en) * | 2001-01-10 | 2004-05-18 | Ericsson Inc. | Noise reduction apparatus and method |
US7502479B2 (en) * | 2001-04-18 | 2009-03-10 | Phonak Ag | Method for analyzing an acoustical environment and a system to do so |
AU4628801A (en) * | 2001-04-18 | 2001-07-24 | Phonak Ag | A method for analyzing an acoustical environment and a system to do so |
CA2354808A1 (en) * | 2001-08-07 | 2003-02-07 | King Tam | Sub-band adaptive signal processing in an oversampled filterbank |
CA2354858A1 (en) * | 2001-08-08 | 2003-02-08 | Dspfactory Ltd. | Subband directional audio signal processing using an oversampled filterbank |
CN101238511B (zh) * | 2005-08-11 | 2011-09-07 | 旭化成株式会社 | 声源分离装置、音频识别装置、移动电话机、声源分离方法 |
CN1809105B (zh) * | 2006-01-13 | 2010-05-12 | 北京中星微电子有限公司 | 适用于小型移动通信设备的双麦克语音增强方法及系统 |
US8363846B1 (en) * | 2007-03-09 | 2013-01-29 | National Semiconductor Corporation | Frequency domain signal processor for close talking differential microphone array |
CN101192411B (zh) * | 2007-12-27 | 2010-06-02 | 北京中星微电子有限公司 | 大距离麦克风阵列噪声消除的方法和噪声消除系统 |
KR101475864B1 (ko) * | 2008-11-13 | 2014-12-23 | 삼성전자 주식회사 | 잡음 제거 장치 및 잡음 제거 방법 |
-
2011
- 2011-12-19 WO PCT/JP2011/079978 patent/WO2012086834A1/ja active Application Filing
- 2011-12-19 EP EP11852100.4A patent/EP2642768B1/en active Active
- 2011-12-19 JP JP2012549909A patent/JP5486694B2/ja active Active
- 2011-12-19 US US13/996,302 patent/US9191738B2/en active Active
- 2011-12-19 ES ES11852100.4T patent/ES2670870T3/es active Active
- 2011-12-19 CN CN201180061060.9A patent/CN103282961B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5972295A (ja) * | 1982-10-18 | 1984-04-24 | Nippon Telegr & Teleph Corp <Ntt> | 多点受音装置 |
JPH0327698A (ja) * | 1989-03-10 | 1991-02-06 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号検出方法 |
JP2002062348A (ja) * | 2000-08-24 | 2002-02-28 | Sony Corp | 信号処理装置及び信号処理方法 |
JP2004279845A (ja) * | 2003-03-17 | 2004-10-07 | Univ Waseda | 信号分離方法およびその装置 |
JP2008311866A (ja) * | 2007-06-13 | 2008-12-25 | Toshiba Corp | 音響信号処理方法及び装置 |
JP2009036810A (ja) * | 2007-07-31 | 2009-02-19 | National Institute Of Information & Communication Technology | 近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3627851A2 (en) | 2018-08-29 | 2020-03-25 | Panasonic Intellectual Property Corporation of America | Signal processing method and signal processing device |
US10708702B2 (en) | 2018-08-29 | 2020-07-07 | Panasonic Intellectual Property Corporation Of America | Signal processing method and signal processing device |
Also Published As
Publication number | Publication date |
---|---|
US9191738B2 (en) | 2015-11-17 |
JPWO2012086834A1 (ja) | 2015-02-23 |
EP2642768A1 (en) | 2013-09-25 |
US20130287225A1 (en) | 2013-10-31 |
CN103282961B (zh) | 2015-07-15 |
ES2670870T3 (es) | 2018-06-01 |
EP2642768B1 (en) | 2018-03-14 |
EP2642768A4 (en) | 2014-08-20 |
CN103282961A (zh) | 2013-09-04 |
WO2012086834A1 (ja) | 2012-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5486694B2 (ja) | 音声強調方法、装置、プログラム、記録媒体 | |
Teutsch et al. | Acoustic source detection and localization based on wavefield decomposition using circular microphone arrays | |
JP5395822B2 (ja) | ズームマイク装置 | |
RU2559520C2 (ru) | Устройство и способ для пространственно избирательного получения звука с помощью акустической триангуляции | |
JP6389259B2 (ja) | マイクロホンアレイを使用した残響音の抽出 | |
CN102440002A (zh) | 用于传感器阵列的优化模态波束成型器 | |
Poletti et al. | Sound reproduction systems using variable-directivity loudspeakers | |
Chang et al. | Experimental validation of sound field control with a circular double-layer array of loudspeakers | |
JP5738218B2 (ja) | 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム | |
JP6117142B2 (ja) | 変換装置 | |
JP5486567B2 (ja) | 狭指向音声再生処理方法、装置、プログラム | |
JP5815489B2 (ja) | 音源別音声強調装置、方法、プログラム | |
JP5337189B2 (ja) | フィルタ設計における反射物の配置決定方法、装置、プログラム | |
JP6182169B2 (ja) | 収音装置、その方法及びプログラム | |
Peled et al. | Objective performance analysis of spherical microphone arrays for speech enhancement in rooms | |
JP6691494B2 (ja) | 収音装置、及び収音方法 | |
Bountourakis et al. | Parametric spatial post-filtering utilising high-order circular harmonics with applications to underwater sound-field visualisation | |
JP2013135373A (ja) | ズームマイク装置 | |
JP5486568B2 (ja) | 音声スポット再生処理方法、装置、プログラム | |
JP6063890B2 (ja) | 変換装置 | |
JP6294805B2 (ja) | 収音装置 | |
CN115665606B (zh) | 基于四麦克风的收音方法和收音装置 | |
JP2016100735A (ja) | フィルタ生成装置、収音装置、フィルタ生成方法及びプログラム | |
JP6981559B2 (ja) | 収音装置 | |
JP6821836B2 (ja) | 収音装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5486694 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |