JP7375905B2 - フィルタ係数最適化装置、フィルタ係数最適化方法、プログラム - Google Patents
フィルタ係数最適化装置、フィルタ係数最適化方法、プログラム Download PDFInfo
- Publication number
- JP7375905B2 JP7375905B2 JP2022502756A JP2022502756A JP7375905B2 JP 7375905 B2 JP7375905 B2 JP 7375905B2 JP 2022502756 A JP2022502756 A JP 2022502756A JP 2022502756 A JP2022502756 A JP 2022502756A JP 7375905 B2 JP7375905 B2 JP 7375905B2
- Authority
- JP
- Japan
- Prior art keywords
- filter coefficient
- optimization
- frequency bin
- beamformer
- optimization device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005457 optimization Methods 0.000 title claims description 152
- 238000000034 method Methods 0.000 title claims description 32
- 230000006870 function Effects 0.000 claims description 68
- 230000004044 response Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000001939 inductive effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 16
- 238000013461 design Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 238000009499 grossing Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/18—Methods or devices for transmitting, conducting or directing sound
- G10K11/26—Sound-focusing or directing, e.g. scanning
- G10K11/34—Sound-focusing or directing, e.g. scanning using electrical steering of transducer arrays, e.g. beam steering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Otolaryngology (AREA)
- Operations Research (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Circuit For Audible Band Transducer (AREA)
- Filters That Use Time-Delay Elements (AREA)
Description
本発明は、目的音強調におけるフィルタ係数を最適化する技術に関する。
特定の方角から到来する音(以下、目的音という)のみを強調し、その他の方角から到来する音(以下、非目的音という)を抑圧する信号処理手法として、マイクロホンアレイを用いたビームフォーミングがよく知られている。この手法は、電話会議システム、自動車内のコミュニケーションシステム、スマートスピーカー等で実用化されている。
ビームフォーミングに関する従来手法の多くは、何らかの制約のもとでコスト関数の最適化問題を解くことで最適なフィルタを導出していた。例えば、非特許文献1に記載のMVDR(Minimum Variance Distortionless Response)ビームフォーマは、出力信号のパワーをコスト関数としてこれを目的音源方角に対する無歪制約条件のもと最小化することで得られる。
また、非特許文献1に記載の手法のような最小分散法によるビームフォーマ設計手法として、複数の方角に強調したい音源がある状況で、複数の音源方向に対する応答に関して制約を課しつつ非目的音を抑圧するものもこれまでに提案されている。その一つに、線形拘束付最小分散型(Linearly Constrained Minimum Variance, LCMV)ビームフォーマがある(非特許文献2参照)。LCMVビームフォーマは、複数の方角に対するビームフォーマの応答に等式制約を課すことで目的音を強調しつつ、出力信号の分散を最小化することで非目的音を抑圧する。以下、LCMVビームフォーマの設計手法について詳しく説明する。
まず、種々の定義とノーテーションを導入する。以下では、信号を短時間フーリエ変換(Short-Time Fourier Transform)を行った後の時間周波数領域の値として扱う。
時間フレームの添字をt=1, …, T、周波数ビンの添字をf=1, …, Fで表す。また、ベクトルvや行列Mの複素共役転置を、vHやMHのように上付きのHで表す。
LCMVビームフォーマの設計は、M個のマイク素子からなるマイクアレイの観測信号から、不要な音である非目的音を消去しつつ予め定めた複数の方角からの音である目的音を強調するような線形フィルタ(ビームフォーマ)を構成するというものである。時間フレームt、周波数ビンfにおけるマイクアレイのMチャンネルの観測信号をxf,t∈CM(f=1, …, F, t=1, …, T)とおく。ここで、音を発する信号源である音源が遠方にD個存在し、マイクアレイには事実上の平面波として到来しているという状況を仮定する。また、すべての音源とすべてのマイク素子が同一平面上にあることを仮定する。音源d (d=1, …, D)から放音されマイクアレイに時間フレームt、周波数ビンfに到来する信号をsd,f,t∈C(d=1, …, D, f=1, …, F, t=1, …, T)とおく。音源dの音は、方角θdから到来するものとする。ここで、方角θdは既知であると仮定する。
音源dからマイクアレイのM個のマイク素子への周波数ビンfでのアレイマニフォールドベクトル(以下、方角θdから到来する平面波の音波に対応する周波数ビンfでのアレイマニフォールドベクトルという)をaf,d∈CM(f=1, …, F, d=1, …, D)とおくと、観測信号をxf,tは、次式により表される。
ただし、nf,t(f=1, …, F, t=1, …, T)は観測の過程で加わる雑音やその他残響・非方向性雑音からなるノイズ成分を表す。なお、アレイマニフォールドベクトルaf,dはマイクアレイや系全体の物理的特性から、周波数ビンf毎に自動的に決まる量である。
以下、周波数ビンfでの線形フィルタをwf∈CM(f=1, …, F)と表し、これをビームフォーマのフィルタ係数と呼ぶ。このフィルタ係数が、ビームフォーマの動作を定める。
ビームフォーマの出力信号yf,t(f=1, …, F, t=1, …, T)は、次式により表される。
つまり、ビームフォーマの設計とは、式(2)を満たすフィルタ係数wf(f=1, …, F)をいかに設計するかということである。
ここで、フィルタ係数wfとアレイマニフォールドベクトルaf,dの内積wf
Haf,dはビームフォーマの方角θdに対する周波数ビンfでの応答特性を意味する。したがって、方角θdの音源(つまり、音源d)から到来する音を必ず一定のゲインで集音したいという状況では、次式の制約条件(無歪制約条件という)をフィルタ係数wfに対して課すという方法がしばしば用いられる。
(ただし、f=1, …, F)
この無歪制約条件を満たしつつ、不要な音源からの信号に対するゲインができるだけ小さくなるようにフィルタ係数wfを設定することで、音源dから到来する音の強調が達成できる。
この無歪制約条件を満たしつつ、不要な音源からの信号に対するゲインができるだけ小さくなるようにフィルタ係数wfを設定することで、音源dから到来する音の強調が達成できる。
なお、複数の音源から到来する音を同時に強調したい場合には、この無歪制約条件を複数個同時に課せばよい。
ビームフォーマには非目的音を抑圧することが要求されるため、目的音強調という制約のもと非目的音を最小化するように、フィルタ係数wfを設定することが求められる。このことを数学的に定式化するために、非目的音の分散を表すコスト関数を定義する。このコスト関数を最小化するようにフィルタ係数を設定することで、所望のビームフォーマが設計できると期待される。
非目的音の空間相関行列Rf(f=1, …, F)をRf:=Et[xf,txf,t
H]と定義すると、非目的音の分散を表すコスト関数LMV_f(wf)が周波数ビンf=1, …, Fごとに定義できる。具体的には、コスト関数LMV_f(wf)は次式のようになる。
式(3)の制約条件のもと、このコスト関数LMV_f(wf)の和を最小化するように、フィルタ係数wf(f=1, …, F)を設定することで、ビームフォーマを設計できる。このことを数式で表すと、次式の最適化問題となる。
なお、式(5)の最適化問題は、周波数ビンf=1, …, Fごとに別々の最適化問題に分離することができる。つまり、式(5)の最適化問題の代わりに、周波数ビンfについて、次式の最適化問題を解くようにしてもよい。
以上説明した式(5)または式(6)の最適化問題を解くことにより、LCMVビームフォーマを設計することができる。これが従来のLCMVビームフォーマの設計手法である。
J. Capon, "High-resolution frequency-wavenumber spectrum analysis", Proceedings of the IEEE, vol.57, no.8, pp.1408-1418, Aug. 1969.
浅野 太, "日本音響学会編 音響テクノロジーシリーズ16 音のアレイ信号処理 -音源の定位・追跡と分離-", コロナ社, pp.86-90, 2011.
従来のLCMVビームフォーマの設計手法では、式(5)の最適化問題を解く必要がある。
しかし、式(5)の最適化問題では、隣接周波数ビン間のフィルタ係数の関係性については考慮していない、具体的には隣接周波数ビン間の位相差を小さくすることについては考慮していないため、性質のよい、安定したビームフォーマを設計することができない。
そこで本発明では、隣接周波数ビン間のフィルタ係数の関係性を考慮することにより、性質のよい、安定したビームフォーマを設計することができるフィルタ係数最適化技術を提供することを目的とする。
本発明の一態様は、Dを1以上の整数とし、D個の音源(以下、音源1、…、音源Dとする)からの音(以下、目的音という)を強調するビームフォーマのフィルタ係数w={w1, …, wF}(ただし、wf(f=1, …, F、Fは1以上の整数)は周波数ビンfのフィルタ係数)の最適値w*を計算する最適化部を含むフィルタ係数最適化装置であって、Rf(f=1, …, F)を周波数ビンfに関する前記目的音以外の音の空間相関行列、LMV_f(wf)=wf
HRfwf(f=1, …, F)をフィルタ係数wfに関するコスト関数、θd(d=1, …, D)を音源dが存在する方角、af,d(f=1, …, F, d=1, …, D)を方角θdから到来する平面波の音波に対応する周波数ビンfでのアレイマニフォールドベクトル、L(w)を前記コスト関数LMV_f(wf)の和Σf=1
FLMV_f(wf)と所定の正則化項との和を用いて定義される、フィルタ係数wに関するコスト関数とし、前記最適化部は、所定の制約条件のもとでのフィルタ係数wに関する最適化問題minwL(w)に基づいて、前記最適値w*を計算するものであり、前記所定の正則化項は、方角θdに対する周波数ビンfでのビームフォーマの応答wf
Haf,d (f=1, …, F, d=1, …, D)に関する隣接周波数ビン間での位相の差分を用いて定義されるものである。
本発明の一態様は、Dを1以上の整数とし、D個の音源(以下、音源1、…、音源Dとする)からの音(以下、目的音という)を強調するビームフォーマのフィルタ係数w={w1, …, wF}(ただし、wf(f=1, …, F、Fは1以上の整数)は周波数ビンfのフィルタ係数)の最適値w*を計算する最適化部を含むフィルタ係数最適化装置であって、θd(d=1, …, D)を音源dが存在する方角、af,d(f=1, …, F, d=1, …, D)を方角θdから到来する平面波の音波に対応する周波数ビンfでのアレイマニフォールドベクトルとし、前記最適化部は、方角θdに対する周波数ビンfでのビームフォーマの応答wf
Haf,d(f=1, …, F, d=1, …, D)に関する隣接周波数ビン間での位相の差分が小さくなるように誘導することにより、前記最適値w*を計算する。
本発明によれば、隣接周波数ビン間のフィルタ係数の関係性を考慮してフィルタ係数を最適化することにより、性質のよい、安定したビームフォーマを設計することが可能となる。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
各実施形態の説明に先立って、この明細書における表記方法について説明する。
_(アンダースコア)は下付き添字を表す。例えば、xy_zはyzがxに対する上付き添字であり、xy_zはyzがxに対する下付き添字であることを表す。
また、ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。
<技術的背景>
性質のよい、安定したビームフォーマを設計するために、隣接周波数ビン間のフィルタ係数の関係性を考慮したコスト項(以下、正則化項という)を利用することが考えられる。この手法では、背景技術で説明したコスト関数ΣfLMV_f(wf)に正則化項を追加することで新たなコスト関数を導入し、この新たなコスト関数の最適化問題を解くことでフィルタ係数を決定する。隣接周波数ビン間のフィルタ係数の関係性としてフィルタ係数に関連する位相成分の周波数方向の一階差分・二階差分を用いることにすると、これらはそれぞれ位相遅延・群遅延に対応するので、これらに対応する正則化項を利用することで安定した遅延特性のフィルタが設計できると期待される。
性質のよい、安定したビームフォーマを設計するために、隣接周波数ビン間のフィルタ係数の関係性を考慮したコスト項(以下、正則化項という)を利用することが考えられる。この手法では、背景技術で説明したコスト関数ΣfLMV_f(wf)に正則化項を追加することで新たなコスト関数を導入し、この新たなコスト関数の最適化問題を解くことでフィルタ係数を決定する。隣接周波数ビン間のフィルタ係数の関係性としてフィルタ係数に関連する位相成分の周波数方向の一階差分・二階差分を用いることにすると、これらはそれぞれ位相遅延・群遅延に対応するので、これらに対応する正則化項を利用することで安定した遅延特性のフィルタが設計できると期待される。
なお、隣接周波数ビン間のフィルタ係数の関係性として、単純なフィルタ係数の差分を用いなかったのは、計算量が膨大になってしまう可能性があるためであり、この問題を回避するため、上記位相遅延・群遅延との対応を考慮し、本願発明ではフィルタ係数に関連する位相成分の差分に着目した。
《周波数方向平滑化による正則化項》
ここでは、周波数方向平滑化による正則化項として、フィルタ係数に関連する位相成分の差分を用いた正則化項を説明する。この正則化項は、ビームフォーマを構成するフィルタの群遅延や位相遅延を直接制御することを可能とする。
ここでは、周波数方向平滑化による正則化項として、フィルタ係数に関連する位相成分の差分を用いた正則化項を説明する。この正則化項は、ビームフォーマを構成するフィルタの群遅延や位相遅延を直接制御することを可能とする。
方角θdに対する周波数ビンfでのビームフォーマの応答は複素数wf
Haf,dで表される。このビームフォーマの応答wf
Haf,dの絶対値|wf
Haf,d|を振幅、偏角∠(wf
Haf,d)を位相と呼ぶ。以下、周波数方向平滑化による正則化項の例として2つの形式について示す。
(連続形式)
当該形式の正則化項の一例として、隣接周波数ビン間で位相の一階差分をとることにより定義される正則化項がある。この正則化項は次式で与えられる。
当該形式の正則化項の一例として、隣接周波数ビン間で位相の一階差分をとることにより定義される正則化項がある。この正則化項は次式で与えられる。
また、別の例として、隣接周波数ビン間で位相の二階差分をとることにより定義される正則化項がある。この正則化項は次式で与えられる。
ここで、式(7)、式(8)のη(ただし、ηは所定の正の数)は重みパラメータを表す。また、式(7)、式(8)に出現する|・|2πは次式で定義されるノルムである。
つまり、|x|2πは変数xの周期性を考慮した特殊なノルムである。
(離散形式)
当該形式の正則化項を定義するために、フィルタ係数wfとアレイマニフォールドベクトルaf,dに対して、ビームフォーマの応答wf Haf,dの位相に依存し離散的な値をとる変数cf,d(f=1, …, F, d=1, …, D)を導入する。具体的には、複素平面を、原点を中心にC個の中心角が等しい扇形に切り分けて、連続する番号1, …, Cを反時計回りで付番し、複素数wf Haf,dが位置する扇形の番号をcf,dとする。したがって、離散変数cf,dは1, …, Cのいずれかの値をとる。また、フィルタ係数wf、アレイマニフォールドベクトルaf,dと離散変数cf,dと間で、次式が成立する。
当該形式の正則化項を定義するために、フィルタ係数wfとアレイマニフォールドベクトルaf,dに対して、ビームフォーマの応答wf Haf,dの位相に依存し離散的な値をとる変数cf,d(f=1, …, F, d=1, …, D)を導入する。具体的には、複素平面を、原点を中心にC個の中心角が等しい扇形に切り分けて、連続する番号1, …, Cを反時計回りで付番し、複素数wf Haf,dが位置する扇形の番号をcf,dとする。したがって、離散変数cf,dは1, …, Cのいずれかの値をとる。また、フィルタ係数wf、アレイマニフォールドベクトルaf,dと離散変数cf,dと間で、次式が成立する。
式(10)を満たす離散変数cf,dを用いて、次式の正則化項を定義する。
ここで、式(11)のη(ただし、ηは所定の正の数)は重みパラメータを表す。また、式(11)に出現する|・|Cは次式で定義されるノルムである。
つまり、|x|Cは変数xの周期性を考慮した特殊なノルムである。
cf=(cf,1, …, cf,D)とおくと、式(11)の正則化項(以下、^Lη(c1,1, …, cF,D)とする)は以下のように表される。
以下、LCMVビームフォーマ設計に正則化項^Lη(c1,1, …, cF,D)を導入した例について説明する。D個の方角θ1, …, θDのうち、1個目の方角(すなわち、方角θ1)に特に重要な目的音が存在すると仮定し、方角θ1に対して無歪制約条件wf
Haf,1=1(f=1, …, F)を課すことにする。すると、解くべき最適化問題は以下のようになる。
この最適化問題は、離散変数cf(f=1, …, F)がとりうるすべての値に対してコスト関数Σf=1
FLMV_f(wf)+Σf=1
F-1^Lηf(cf, cf+1)を最小化するフィルタ係数wfの最適値を求めた後、その中でコスト関数Σf=1
FLMV_f(wf)+Σf=1
F-1^Lηf(cf, cf+1)の値が最小となるものを最適値とすることで解くことができるが、実はより効率的なアルゴリズムが存在する。このアルゴリズムを図1に示す。
離散変数cfの値を定めると、他の周波数ビンの値に依らず、離散変数cfの値だけに応じてフィルタ係数wfの最適値が決まるため、各周波数ビンfに対して前もってCD個ある離散変数cfがとりうるすべての値に対してフィルタ係数wfを求めておくことで、当該最適化問題は離散変数cfに関する最短経路問題に帰着される。したがって、当該最適化問題は、ダイクストラ(Dijkstra)法を適用することで高速に解くことができる。このことを利用したのが図1のアルゴリズムである。
式(15)の最適化問題では、1つの方角に対する無歪制約条件を用いたが、複数の方角に対する無歪制約条件を用いるようにしてもよい。しかし、複数の方角に対する無歪制約条件を用いるようにすると、制約が厳格になりすぎて、解が求まらないことがある。そこで、無歪制約条件を緩和することが考えられるが、この場合、非凸最適化問題になってしまうことがある。一般に、非凸最適化問題は解くのが困難である。そこで、以下では、非凸最適化問題を解く代わりに、当該問題と等価な凸最適化問題を解くことにより、フィルタ係数を最適化する手法について説明する。
まず、非凸最適化問題を、当該問題と等価な凸最適化問題に変形する方法及び変形により得られる凸最適化問題を解く方法について説明する。次に、制約条件を緩和することにより得られる非凸最適化問題へ適用した例を2つ説明する。
《非凸最適化問題と等価な凸最適化問題への変形及びその解法》
ここでは、非凸最適化問題を、当該問題と等価な凸最適化問題に変形する方法と、変形により得られる凸最適化問題を解く方法とについて説明する。以下、次式により定義される潜在変数~wに関する最適化問題を考える。
ここでは、非凸最適化問題を、当該問題と等価な凸最適化問題に変形する方法と、変形により得られる凸最適化問題を解く方法とについて説明する。以下、次式により定義される潜在変数~wに関する最適化問題を考える。
ここで、Lconvexは潜在変数~wに関する強凸関数、Ld(d=1, …, D、Dは1以上の整数)は潜在変数~wに関する関数である。つまり、関数Ld(d=1, …, D)は必ずしも凸である必要はない。
一般に、式(16)の最適化問題は、非凸な関数をコスト関数とする最適化問題、すなわち、非凸最適化問題となる。先述の通り、非凸最適化問題は困難な問題であるため、ある種の近似を導入してより解きやすい凸最適化問題に帰着させることを考える。そこで、ここでは関数Ld(~w) (d=1, …, D)を複数の凸関数から構成される区分的凸関数(piecewise convex function)で近似することを考える。
以下、区分的凸関数の定義について説明する。近似対象となる関数Ld(~w) (d=1, …, D)に対して、その定義域をC個の閉凸集合である領域Sd,1, …, Sd,Cに分割する。そして、領域Sd,1, …, Sd,Cの各々で定義される関数Λd,c(c=1, …, C)を導入する。この新たに導入する関数Λd,cは領域Sd,c上で凸関数であり、領域Sd,c上で関数Ldを近似する関数である。なお、関数Ldが領域Sd,c上で凸関数である場合は、領域Sd,c上でΛd,c=Ldとすればよい。これにより、関数Ld(~w)は、区分的凸関数Λd,c(c=1, …, C)により近似的に表すことができる。なお、一般に、Cの値(つまり、関数Ldの定義域を分割する数)を大きくするほど、よりよい精度の区分的凸関数で近似することができる。
しかし、当該近似を用いると、式(16)の最適化問題による最適化対象である潜在変数に加え、最適化問題の解である最適値がどの領域に属しているかを表す離散変数が新たに最適化対象として加わり、最適化すべき変数の数が増えてしまう。ただし、離散変数を固定すると、潜在変数に対しては最適化問題が(非凸最適化ではなく)凸最適化に帰着されるため、比較的容易に解くことができる。以下、具体的に説明する。近似を用いて定式化される最適化問題は、cd(d=1, …, D)を1, …, Cを値にとる離散変数として、次式により表される。
式(17)は次式と等価である。
式(18)に含まれるmin~w(Lconvex(~w)+Σd=1
DΛd,c_d(~w))は、潜在変数~wに関する凸最適化問題であり、比較的容易に解くことができる。以下、その手順について説明する。まず、離散変数(c1, …, cD)がとり得るすべての値に対して、凸最適化問題min~w(Lconvex(~w)+Σd=1
DΛd,c_d(~w))を解く。これにより、CD個の離散変数(c1, …, cD)がとり得るすべての値について凸最適化問題min~w(Lconvex(~w)+Σd=1
DΛd,c_d(~w))の解が求まる。そして、得られた凸最適化問題の解のうち、コスト関数Lconvex(~w)+Σd=1
DΛd,c_d(~w)の値が最小となるものを最適値とする。これにより、式(18)の最適化問題を解くことができる。この解法の手順を図示したものが図2である。
式(16)の非凸最適化問題は、これと等価な式(18)の凸最適化問題に変形でき、式(18)の凸最適化問題は、図2の潜在変数最適化アルゴリズムにより解くことができる。
《適用例》
ここでは、上記説明した、非凸最適化問題を凸最適化問題に変形したうえで最適値を求める汎用的な枠組みを、式(3)の制約条件を緩和することにより得られる非凸最適化問題へ適用した例について説明する。
ここでは、上記説明した、非凸最適化問題を凸最適化問題に変形したうえで最適値を求める汎用的な枠組みを、式(3)の制約条件を緩和することにより得られる非凸最適化問題へ適用した例について説明する。
先述の通り、非特許文献1の従来技術では、等式制約である式(3)を多数課すため、適切なフィルタ係数が得られないというおそれがあった。そこで、現実の状況に適した、より緩い制約条件を用いることを考える。具体的には、式(3)の制約条件の代わりに、ビームフォーマの応答の振幅にのみ制約を課す制約条件(つまり、位相に関する制約がない制約条件)を用いることを考える。例えば、次式を用いることができる。
また、別の例として、次式を用いることもできる。
式(19)の制約条件、式(20)の制約条件は、それぞれビームフォーマの応答の振幅が一定値(具体的には1)であるという制約、ビームフォーマの応答の振幅が一定値(具体的には1)以上であればよいという制約を表す。式(19)の制約条件、式(20)の制約条件は、いずれも数学的には非凸な制約として分類されるものである。
以下、式(20)を制約条件とする最適化問題について考える。式(20)の制約条件は、複素数wf
Haf,dの絶対値が1以上であるというものである。これは、幾何学的には、複素数wf
Haf,dが複素平面上で単位円上かその外側に位置しなければならないということを意味する。そこで、まず、複素平面を、原点を中心にC個の扇形に等分する。このC個の扇形が、先ほどのC個の領域に相当する。そして、各扇形の境界と内側において、元の制約である式(20)をC個の凸関数で近似する。
以下、具体的に説明する。周波数ビンf(f=1, …, F)、音源d(d=1, …, D)に対して離散変数cf,dを1, …, Cを値にとる変数とする。また、γf,d=wf
Haf,dとする。周波数ビンf(f=1, …, F)、音源d(d=1, …, D)に対して定義される凸関数Λ(f,d),c_f,d(γf,d)(cf,d=1, …, C)は、複素数γf,dの値を、複素平面上の中心角2π/Cで原点を中心とする扇形の内側かつ|γf,d|≧1を満たす範囲にあるように制限するものとして定義する。そして、C個の凸関数Λ(f,d),c_f,d(γf,d)(cf,d=1, …, C)を用いた区分的凸関数で式(20)を近似する。
例えば、関数Λ(f,d),c_f,dを次式で表される関数とすることができる。
ここで、R(z)は複素数zの実部を表す。
なお、Cの値を大きくすると、より精度よく近似できるようになるが、図2のアルゴリズムを用いて最適化問題を解く場合、離散変数のすべての組合せを調べる必要があるため、計算量が増大する。
以上より、式(20)を制約条件とするフィルタ係数最適化問題は次式の凸最適化問題に帰着する。
ここで、cf=(cf,1, …, cf,D)である。
この最適化問題は、図2の潜在変数最適化アルゴリズムを適用することで解くことができるものであり、そのアルゴリズムを図3に示す。つまり、図3は、図2の潜在変数最適化アルゴリズムに基づいて得られるフィルタ係数最適化アルゴリズムを示す。
《適用例2》
ここでは、制約条件|wf Haf,d|≧1(f=1, …, F, d=1, …, D)のもとでコスト関数Σf=1 FLMV_f(wf)+Σf=1 F-1^Lηf(cf, cf+1)を用いて定義されるフィルタ係数wの最適化問題を考える。この問題は、制約条件wf Haf,d=1(f=1, …, F, d=1, …, D)を制約条件|wf Haf,d|≧1(f=1, …, F, d=1, …, D)とすることにより得られる非凸最適化問題である。
ここでは、制約条件|wf Haf,d|≧1(f=1, …, F, d=1, …, D)のもとでコスト関数Σf=1 FLMV_f(wf)+Σf=1 F-1^Lηf(cf, cf+1)を用いて定義されるフィルタ係数wの最適化問題を考える。この問題は、制約条件wf Haf,d=1(f=1, …, F, d=1, …, D)を制約条件|wf Haf,d|≧1(f=1, …, F, d=1, …, D)とすることにより得られる非凸最適化問題である。
《周波数方向平滑化による正則化項》で定義した離散変数cf,dと《適用例》で定義した離散変数cf,dは、同じ意味であることに留意すると、上記非凸最適化問題は以下の凸最適化問題に帰着する。
式(23)の最適化問題も、式(15)の最適化問題と同様、ダイクストラ法を適用することで高速に解くことができる。そのアルゴリズムを図4に示す。
<第1実施形態>
フィルタ係数最適化装置100は、M個(ただし、Mは1以上の整数)のマイク素子からなるマイクアレイを用いて、D個(ただし、Dは1以上の整数)の音源(以下、音源1、…、音源Dとする)からの音(以下、目的音という)を観測した信号(観測信号)から、目的音を強調するビームフォーマのフィルタ係数w={w1, …, wF}(ただし、wf(f=1, …, F、Fは1以上の整数)は周波数ビンfのフィルタ係数)の最適値w*を計算する。観測信号はフィルタ係数の最適化に用いる入力データであるため、以下、観測信号のことを最適化用データということにする。
フィルタ係数最適化装置100は、M個(ただし、Mは1以上の整数)のマイク素子からなるマイクアレイを用いて、D個(ただし、Dは1以上の整数)の音源(以下、音源1、…、音源Dとする)からの音(以下、目的音という)を観測した信号(観測信号)から、目的音を強調するビームフォーマのフィルタ係数w={w1, …, wF}(ただし、wf(f=1, …, F、Fは1以上の整数)は周波数ビンfのフィルタ係数)の最適値w*を計算する。観測信号はフィルタ係数の最適化に用いる入力データであるため、以下、観測信号のことを最適化用データということにする。
以下、図5~図6を参照してフィルタ係数最適化装置100を説明する。図5は、フィルタ係数最適化装置100の構成を示すブロック図である。図6は、フィルタ係数最適化装置100の動作を示すフローチャートである。図5に示すようにフィルタ係数最適化装置100は、セットアップデータ計算部110と、最適化部120と、記録部190を含む。記録部190は、フィルタ係数最適化装置100の処理に必要な情報を適宜記録する構成部である。記録部190は、例えば、最適化対象となるフィルタ係数を記録する。
図6に従いフィルタ係数最適化装置100の動作について説明する。
S110において、セットアップデータ計算部110は、最適化用データを用いて、フィルタ係数wを最適化する際に用いるセットアップデータを計算する。フィルタ係数wを最適化するためにコスト関数を用いる場合、セットアップデータとして、例えば、観測信号に基づいて得られる、周波数ビンfに関する目的音以外の音の空間相関行列Rf(f=1, …, F)、音源dが存在する方角θd(d=1, …, D)から到来する平面波の音波に対応する周波数ビンfでのアレイマニフォールドベクトルaf,d(f=1, …, F, d=1, …, D)がある。
S120において、最適化部120は、S110で生成したセットアップデータを用いてフィルタ係数wの最適値w*を計算する。例えば、最適化部120は、所定の制約条件のもとでのフィルタ係数wに関する最適化問題minwL(w)に基づいて、最適値w*を計算することができる。ここで、LMV_f(wf)=wf
HRfwf(f=1, …, F)をフィルタ係数wfに関するコスト関数とし、関数L(w)は関数LMV_f(wf)の和Σf=1
FLMV_f(wf)と所定の正則化項との和を用いて定義される、フィルタ係数wに関するコスト関数である。また、所定の正則化項とは、方角θdに対する周波数ビンfでのビームフォーマの応答wf
Haf,d (f=1, …, F, d=1, …, D)に関する隣接周波数ビン間での位相の差分を用いて定義される正則化項のことである。
正則化項の例をいくつか挙げる。ここで、ηは所定の正の数であり、∠(wf
Haf,d) (f=1, …, F, d=1, …, D)は方角θdに対する周波数ビンfでのビームフォーマの応答wf
Haf,dの位相を表すものとする。
1つ目の例として、ηΣf=1
F-1Σd=1
D|∠(wf
Haf,d)-∠(wf+1
Haf+1,d)|2πがある。2つ目の例として、ηΣf=1
F-2Σd=1
D|∠(wf
Haf,d)-2∠(wf+1
Haf+1,d)+∠(wf+2
Haf+2,d)|2πがある。
そして、3つ目の例として、ηΣf=1
F-1Σd=1
D|cf,d-cf+1,d|Cがある。ここで、Cは1以上の整数であり、cf,d(f=1, …, F, d=1, …, D)は位相∠(wf
Haf,d)に対して∠(wf
Haf,d)∈[2π(cf,d-1)/C, 2πcf,d/C]が成立する1, …, Cのいずれかを値にとる離散変数である。
以下、正則化項として3つ目の例を用いる場合について説明する。この場合、制約条件の例として、次式により表現されるものがある。
(ただし、f=1, …, F)
また、制約条件の別の例として、次式により表現されるものがある。
また、制約条件の別の例として、次式により表現されるものがある。
(ただし、f=1, …, F, d=1, …, D)
以下、最適化部120が制約条件(*)のもとでコスト関数LMV_f(wf)の和Σf=1 FLMV_f(wf)と正則化項ηΣf=1 F-1Σd=1 D|cf,d-cf+1,d|Cとの和を用いて定義されるコスト関数の最適化問題を解く場合(場合1)と、最適化部120が制約条件(**)のもとでコスト関数LMV_f(wf)の和Σf=1 FLMV_f(wf)と正則化項ηΣf=1 F-1Σd=1 D|cf,d-cf+1,d|Cとの和を用いて定義されるコスト関数の最適化問題を解く場合(場合2)について説明する。
以下、最適化部120が制約条件(*)のもとでコスト関数LMV_f(wf)の和Σf=1 FLMV_f(wf)と正則化項ηΣf=1 F-1Σd=1 D|cf,d-cf+1,d|Cとの和を用いて定義されるコスト関数の最適化問題を解く場合(場合1)と、最適化部120が制約条件(**)のもとでコスト関数LMV_f(wf)の和Σf=1 FLMV_f(wf)と正則化項ηΣf=1 F-1Σd=1 D|cf,d-cf+1,d|Cとの和を用いて定義されるコスト関数の最適化問題を解く場合(場合2)について説明する。
(場合1)
以下、図7~図8を参照して、最適化部120について説明する。図7は、最適化部120の構成を示すブロック図である。図8は、最適化部120の動作を示すフローチャートである。図7に示すように最適化部120は、初期化部121、候補計算部122、最適値決定部123を含む。
以下、図7~図8を参照して、最適化部120について説明する。図7は、最適化部120の構成を示すブロック図である。図8は、最適化部120の動作を示すフローチャートである。図7に示すように最適化部120は、初期化部121、候補計算部122、最適値決定部123を含む。
図8に従い最適化部120の動作について説明する。ここで、cf=(cf,1, …, cf,D) (f=1, …, F)を離散変数cf,1, …, cf,Dにより定義される離散変数とする。
S121において、初期化部121は、次式により、α0[cf](f=1, …, F)を初期化する。
S122において、候補計算部122は、周波数ビンfごとに、離散変数cfがとり得るすべての値に対して、αf[cf]を計算し、変数coptの値をcopt=argmincαF[c]とする。
(ただし、^Lηf(cf, cf+1)=ηΣd=1
D|cf,d-cf+1,d|C)
S123において、最適値決定部123は、S122で計算した変数coptの値を入力とし、周波数ビンfに対して、Fから1まで降順に、次式によりフィルタ係数wfの最適値wf *と変数coptの値を計算し、w*={w1 *, …, wF *}により最適値w*を得る。
S123において、最適値決定部123は、S122で計算した変数coptの値を入力とし、周波数ビンfに対して、Fから1まで降順に、次式によりフィルタ係数wfの最適値wf *と変数coptの値を計算し、w*={w1 *, …, wF *}により最適値w*を得る。
(場合2)
この場合、最適化部120が、制約条件(**)のもとで最適化問題を解く代わりに、フィルタ係数w、離散変数c1, …, cFに関する最適化問題min{c_f,w_f}(Σf=1 FLMV_f(wf)+Σf=1 FΣd=1 DΛ(f,d),c_f,d(wf Haf,d)+ηΣf=1 F-1Σd=1 D|cf,d-cf+1,d|C)を解くことにより最適値w*を計算してもよい。ここで、cf=(cf,1, …, cf,D) (f=1, …, F)は離散変数cf,1, …, cf,Dにより定義される離散変数、Λ(f,d),c_f,d(f=1, …, F, d=1, …, D)は次式で定義される変数γf,dに関する関数(ただし、γf,d=wf Haf,d)である。
この場合、最適化部120が、制約条件(**)のもとで最適化問題を解く代わりに、フィルタ係数w、離散変数c1, …, cFに関する最適化問題min{c_f,w_f}(Σf=1 FLMV_f(wf)+Σf=1 FΣd=1 DΛ(f,d),c_f,d(wf Haf,d)+ηΣf=1 F-1Σd=1 D|cf,d-cf+1,d|C)を解くことにより最適値w*を計算してもよい。ここで、cf=(cf,1, …, cf,D) (f=1, …, F)は離散変数cf,1, …, cf,Dにより定義される離散変数、Λ(f,d),c_f,d(f=1, …, F, d=1, …, D)は次式で定義される変数γf,dに関する関数(ただし、γf,d=wf Haf,d)である。
以下、図7~図8を参照して、最適化部120について説明する。図7は、最適化部120の構成を示すブロック図である。図8は、最適化部120の動作を示すフローチャートである。図7に示すように最適化部120は、初期化部121、候補計算部122、最適値決定部123を含む。
図8に従い最適化部120の動作について説明する。
S121において、初期化部121は、次式により、α0[cf](f=1, …, F)を初期化する。
S122において、候補計算部122は、周波数ビンfごとに、離散変数cfがとり得るすべての値に対して、αf[cf]を計算し、変数coptの値をcopt=argmincαF[c]とする。
(ただし、^Lηf(cf, cf+1)=ηΣd=1
D|cf,d-cf+1,d|C)
S123において、最適値決定部123は、S122で計算した変数coptの値を入力とし、周波数ビンfに対して、Fから1まで降順に、次式によりフィルタ係数wfの最適値wf *と変数coptの値を計算し、w*={w1 *, …, wF *}により最適値w*を得る。
S123において、最適値決定部123は、S122で計算した変数coptの値を入力とし、周波数ビンfに対して、Fから1まで降順に、次式によりフィルタ係数wfの最適値wf *と変数coptの値を計算し、w*={w1 *, …, wF *}により最適値w*を得る。
以上まとめると、最適化部120は、方角θdに対する周波数ビンfでのビームフォーマの応答wf
Haf,d(f=1, …, F, d=1, …, D)に関する隣接周波数ビン間での位相の差分が小さくなるように誘導することにより、最適値w*を計算するものであるといえる。
本発明の実施形態によれば、隣接周波数ビン間のフィルタ係数の関係性を考慮してフィルタ係数を最適化することにより、性質のよい、安定したビームフォーマを設計することが可能となる。
<補記>
図9は、上述の各装置を実現するコンピュータの機能構成の一例を示す図である。上述の各装置における処理は、記録部2020に、コンピュータを上述の各装置として機能させるためのプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
図9は、上述の各装置を実現するコンピュータの機能構成の一例を示す図である。上述の各装置における処理は、記録部2020に、コンピュータを上述の各装置として機能させるためのプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成部)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。
Claims (12)
- Dを1以上の整数とし、
D個の音源(以下、音源1、…、音源Dとする)からの音(以下、目的音という)を強調するビームフォーマのフィルタ係数w={w1, …, wF}(ただし、wf(f=1, …, F、Fは1以上の整数)は周波数ビンfのフィルタ係数)の最適値w*を計算する最適化部を含むフィルタ係数最適化装置であって、
Rf(f=1, …, F)を周波数ビンfに関する前記目的音以外の音の空間相関行列、LMV_f(wf)=wf HRfwf(f=1, …, F)をフィルタ係数wfに関するコスト関数、θd(d=1, …, D)を音源dが存在する方角、af,d(f=1, …, F, d=1, …, D)を方角θdから到来する平面波の音波に対応する周波数ビンfでのアレイマニフォールドベクトル、L(w)を前記コスト関数LMV_f(wf)の和Σf=1 FLMV_f(wf)と所定の正則化項との和を用いて定義される、フィルタ係数wに関するコスト関数とし、
前記最適化部は、所定の制約条件のもとでのフィルタ係数wに関する最適化問題minwL(w)に基づいて、前記最適値w*を計算するものであり、
前記所定の正則化項は、方角θdに対する周波数ビンfでのビームフォーマの応答wf Haf,d (f=1, …, F, d=1, …, D)に関する隣接周波数ビン間での位相の差分を用いて定義されるものである
フィルタ係数最適化装置。 - 請求項1に記載のフィルタ係数最適化装置であって、
ηを所定の正の数、∠(wf Haf,d) (f=1, …, F, d=1, …, D)を方角θdに対する周波数ビンfでのビームフォーマの応答wf Haf,dの位相とし、
前記所定の正則化項は、ηΣf=1 F-1Σd=1 D|∠(wf Haf,d)-∠(wf+1 Haf+1,d)|2πまたはηΣf=1 F-2Σd=1 D|∠(wf Haf,d)-2∠(wf+1 Haf+1,d)+∠(wf+2 Haf+2,d)|2πである
ことを特徴とするフィルタ係数最適化装置。 - 請求項1に記載のフィルタ係数最適化装置であって、
ηを所定の正の数、Cを1以上の整数、∠(wf Haf,d) (f=1, …, F, d=1, …, D)を方角θdに対する周波数ビンfでのビームフォーマの応答wf Haf,dの位相、cf,d(f=1, …, F, d=1, …, D)を位相∠(wf Haf,d)に対して∠(wf Haf,d)∈[2π(cf,d-1)/C, 2πcf,d/C]が成立する1, …, Cのいずれかを値にとる離散変数とし、
前記所定の正則化項は、ηΣf=1 F-1Σd=1 D|cf,d-cf+1,d|Cである
ことを特徴とするフィルタ係数最適化装置。 - 請求項4に記載のフィルタ係数最適化装置であって、
cf=(cf,1, …, cf,D) (f=1, …, F)を離散変数cf,1, …, cf,Dにより定義される離散変数とし、
前記最適化部は、
周波数ビンfごとに、離散変数cfがとり得るすべての値に対して、次式によりαf[cf]を計算し、変数coptの値をcopt=argmincαF[c]とする候補計算部と、
(ただし、^Lηf(cf, cf+1)=ηΣd=1 D|cf,d-cf+1,d|C)
周波数ビンfに対して、Fから1まで降順に、次式によりフィルタ係数wfの最適値wf *と変数coptの値を計算し、w*={w1 *, …, wF *}により前記最適値w*を得る最適値決定部とを含む
ことを特徴とするフィルタ係数最適化装置。 - 請求項5に記載のフィルタ係数最適化装置であって、
cf=(cf,1, …, cf,D) (f=1, …, F)を離散変数cf,1, …, cf,Dにより定義される離散変数、Λ(f,d),c_f,d(f=1, …, F, d=1, …, D)を次式で定義される変数γf,dに関する関数(ただし、γf,d=wf Haf,d)とし、
前記最適化部は、前記最適化問題minwL(w)を解く代わりに、フィルタ係数w、離散変数c1, …, cFに関する最適化問題min{c_f,w_f}(Σf=1 FLMV_f(wf)+Σf=1 FΣd=1 DΛ(f,d),c_f,d(wf Haf,d)+ηΣf=1 F-1Σd=1 D|cf,d-cf+1,d|C)を解くことにより前記最適値w*を計算する
ことを特徴とするフィルタ係数最適化装置。 - Dを1以上の整数とし、
D個の音源(以下、音源1、…、音源Dとする)からの音(以下、目的音という)を強調するビームフォーマのフィルタ係数w={w1, …, wF}(ただし、wf(f=1, …, F、Fは1以上の整数)は周波数ビンfのフィルタ係数)の最適値w*を計算する最適化部を含むフィルタ係数最適化装置であって、
θd(d=1, …, D)を音源dが存在する方角、af,d(f=1, …, F, d=1, …, D)を方角θdから到来する平面波の音波に対応する周波数ビンfでのアレイマニフォールドベクトルとし、
前記最適化部は、方角θdに対する周波数ビンfでのビームフォーマの応答wf Haf,d(f=1, …, F, d=1, …, D)に関する隣接周波数ビン間での位相の差分が小さくなるように誘導することにより、前記最適値w*を計算する
フィルタ係数最適化装置。 - Dを1以上の整数とし、
フィルタ係数最適化装置が、D個の音源(以下、音源1、…、音源Dとする)からの音(以下、目的音という)を強調するビームフォーマのフィルタ係数w={w1, …, wF}(ただし、wf(f=1, …, F、Fは1以上の整数)は周波数ビンfのフィルタ係数)の最適値w*を計算する最適化ステップを含むフィルタ係数最適化方法であって、
Rf(f=1, …, F)を周波数ビンfに関する前記目的音以外の音の空間相関行列、LMV_f(wf)=wf HRfwf(f=1, …, F)をフィルタ係数wfに関するコスト関数、θd(d=1, …, D)を音源dが存在する方角、af,d(f=1, …, F, d=1, …, D)を方角θdから到来する平面波の音波に対応する周波数ビンfでのアレイマニフォールドベクトル、L(w)を前記コスト関数LMV_f(wf)の和Σf=1 FLMV_f(wf)と所定の正則化項との和を用いて定義される、フィルタ係数wに関するコスト関数とし、
前記最適化ステップは、所定の制約条件のもとでのフィルタ係数wに関する最適化問題minwL(w)に基づいて、前記最適値w*を計算するものであり、
前記所定の正則化項は、方角θdに対する周波数ビンfでのビームフォーマの応答wf Haf,d (f=1, …, F, d=1, …, D)に関する隣接周波数ビン間での位相の差分を用いて定義されるものである
フィルタ係数最適化方法。 - Dを1以上の整数とし、
フィルタ係数最適化装置が、D個の音源(以下、音源1、…、音源Dとする)からの音(以下、目的音という)を強調するビームフォーマのフィルタ係数w={w1, …, wF}(ただし、wf(f=1, …, F、Fは1以上の整数)は周波数ビンfのフィルタ係数)の最適値w*を計算する最適化ステップを含むフィルタ係数最適化方法であって、
θd(d=1, …, D)を音源dが存在する方角、af,d(f=1, …, F, d=1, …, D)を方角θdから到来する平面波の音波に対応する周波数ビンfでのアレイマニフォールドベクトルとし、
前記最適化ステップは、方角θdに対する周波数ビンfでのビームフォーマの応答wf Haf,d(f=1, …, F, d=1, …, D)に関する隣接周波数ビン間での位相の差分が小さくなるように誘導することにより、前記最適値w*を計算する
フィルタ係数最適化方法。 - 請求項1ないし9のいずれか1項に記載のフィルタ係数最適化装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/008233 WO2021171533A1 (ja) | 2020-02-28 | 2020-02-28 | フィルタ係数最適化装置、フィルタ係数最適化方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021171533A1 JPWO2021171533A1 (ja) | 2021-09-02 |
JP7375905B2 true JP7375905B2 (ja) | 2023-11-08 |
Family
ID=77491194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022502756A Active JP7375905B2 (ja) | 2020-02-28 | 2020-02-28 | フィルタ係数最適化装置、フィルタ係数最適化方法、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230088204A1 (ja) |
JP (1) | JP7375905B2 (ja) |
WO (1) | WO2021171533A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9456276B1 (en) | 2014-09-30 | 2016-09-27 | Amazon Technologies, Inc. | Parameter selection for audio beamforming |
US9668066B1 (en) | 2015-04-03 | 2017-05-30 | Cedar Audio Ltd. | Blind source separation systems |
JP2018107697A (ja) | 2016-12-27 | 2018-07-05 | キヤノン株式会社 | 信号処理装置、信号処理方法及びプログラム |
WO2019081035A1 (en) | 2017-10-26 | 2019-05-02 | Huawei Technologies Co., Ltd. | DEVICE AND METHOD FOR ESTIMATING SOUND ARRIVAL DIRECTION FROM A PLURALITY OF SOUND SOURCES |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11341952B2 (en) * | 2019-08-06 | 2022-05-24 | Insoundz, Ltd. | System and method for generating audio featuring spatial representations of sound sources |
JP7387565B2 (ja) * | 2020-09-16 | 2023-11-28 | 株式会社東芝 | 信号処理装置、学習済みニューラルネットワーク、信号処理方法及び信号処理プログラム |
-
2020
- 2020-02-28 WO PCT/JP2020/008233 patent/WO2021171533A1/ja active Application Filing
- 2020-02-28 JP JP2022502756A patent/JP7375905B2/ja active Active
- 2020-02-28 US US17/801,754 patent/US20230088204A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9456276B1 (en) | 2014-09-30 | 2016-09-27 | Amazon Technologies, Inc. | Parameter selection for audio beamforming |
US9668066B1 (en) | 2015-04-03 | 2017-05-30 | Cedar Audio Ltd. | Blind source separation systems |
JP2018107697A (ja) | 2016-12-27 | 2018-07-05 | キヤノン株式会社 | 信号処理装置、信号処理方法及びプログラム |
WO2019081035A1 (en) | 2017-10-26 | 2019-05-02 | Huawei Technologies Co., Ltd. | DEVICE AND METHOD FOR ESTIMATING SOUND ARRIVAL DIRECTION FROM A PLURALITY OF SOUND SOURCES |
Also Published As
Publication number | Publication date |
---|---|
WO2021171533A1 (ja) | 2021-09-02 |
JPWO2021171533A1 (ja) | 2021-09-02 |
US20230088204A1 (en) | 2023-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9966081B2 (en) | Method and apparatus for synthesizing separated sound source | |
JP2019078864A (ja) | 楽音強調装置、畳み込みオートエンコーダ学習装置、楽音強調方法、プログラム | |
JP6815956B2 (ja) | フィルタ係数算出装置、その方法、及びプログラム | |
Olivieri et al. | Theoretical and experimental comparative analysis of beamforming methods for loudspeaker arrays under given performance constraints | |
JP7375905B2 (ja) | フィルタ係数最適化装置、フィルタ係数最適化方法、プログラム | |
JP5986966B2 (ja) | 音場収音再生装置、方法及びプログラム | |
JP2018077139A (ja) | 音場推定装置、音場推定方法、プログラム | |
JP7375904B2 (ja) | フィルタ係数最適化装置、潜在変数最適化装置、フィルタ係数最適化方法、潜在変数最適化方法、プログラム | |
JP6087856B2 (ja) | 音場収音再生装置、システム、方法及びプログラム | |
JP7156064B2 (ja) | 潜在変数最適化装置、フィルタ係数最適化装置、潜在変数最適化方法、フィルタ係数最適化方法、プログラム | |
JP4630203B2 (ja) | 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体、並びに、信号到来方向推定装置、信号到来方向推定方法、信号到来方向推定プログラム及び記録媒体 | |
WO2021255925A1 (ja) | 目的音信号生成装置、目的音信号生成方法、プログラム | |
JP7444243B2 (ja) | 信号処理装置、信号処理方法、およびプログラム | |
US20220130406A1 (en) | Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program | |
JP5583181B2 (ja) | 縦続接続型伝達系パラメータ推定方法、縦続接続型伝達系パラメータ推定装置、プログラム | |
JP7173355B2 (ja) | Psd最適化装置、psd最適化方法、プログラム | |
JP7173356B2 (ja) | Psd最適化装置、psd最適化方法、プログラム | |
JP2020030373A (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
WO2024038522A1 (ja) | 信号処理装置、信号処理方法、プログラム | |
WO2022168230A1 (ja) | 残響除去装置、パラメータ推定装置、残響除去方法、パラメータ推定方法、プログラム | |
WO2021100094A1 (ja) | 音源信号推定装置、音源信号推定方法、プログラム | |
Tuna et al. | Data-driven local average room transfer function estimation for multi-point equalization | |
de Jong et al. | P3G-1 3D Time-Domain Modeling of Nonlinear Medical Ultrasound with an Iterative Green's Function Method | |
JP2018191255A (ja) | 収音装置、その方法、及びプログラム | |
WO2023002554A1 (ja) | 音響特性計算装置、音響特性計算方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220707 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230926 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231009 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7375905 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |