JP6559382B1 - 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム - Google Patents
音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム Download PDFInfo
- Publication number
- JP6559382B1 JP6559382B1 JP2019517124A JP2019517124A JP6559382B1 JP 6559382 B1 JP6559382 B1 JP 6559382B1 JP 2019517124 A JP2019517124 A JP 2019517124A JP 2019517124 A JP2019517124 A JP 2019517124A JP 6559382 B1 JP6559382 B1 JP 6559382B1
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- layer
- data
- output
- source direction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 51
- 238000013528 artificial neural network Methods 0.000 claims abstract description 56
- 238000006243 chemical reaction Methods 0.000 claims abstract description 47
- 238000003860 storage Methods 0.000 claims abstract description 27
- 230000005236 sound signal Effects 0.000 claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 29
- 230000008878 coupling Effects 0.000 claims description 19
- 238000010168 coupling process Methods 0.000 claims description 19
- 238000005859 coupling reaction Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 40
- 239000013598 vector Substances 0.000 description 24
- 230000014509 gene expression Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 11
- 238000005259 measurement Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 5
- 238000003491 array Methods 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Otolaryngology (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
Description
〔音源方向推定装置の構成〕
図1は、本発明の実施の形態1に係る音源方向推定装置100の構成を概略的に示す機能ブロック図である。音源方向推定装置100は、実施の形態1に係る音源方向推定方法を実施することができる装置である。図1に示されるように、音源方向推定装置100は、マイクロホンアレー10から音響信号D1を受信する受信部20と、音響信号D1を複数フレームの音響信号D2(「複数フレームの入力データ」とも言う。)に分割するフレーム分割部30と、事前の学習によって取得されたパラメータD3を用いて音源SSの方向を推定するための演算を行うニューラルネットワーク40とを備えている。ニューラルネットワーク40は、入力層50と、変換網60と、出力層70と、パラメータD3を記憶する記憶部80とを有している。記憶部80は、ニューラルネットワーク40の外部に備えられてもよい。音源方向推定装置100は、例えば、音源方向推定プログラムを実行するコンピュータである。
図4(A)及び(B)は、マイクロホンアレー10の構造を概略的に示す斜視図及び上面図である。図4(A)及び(B)に示されるように、マイクロホンアレー10は、回転楕円体形状(すなわち、卵形状)の筐体と、この筐体の外側に、円周方向に等間隔に並ぶように配置された8個のマイクロホン#1〜#8とを有している。ここで、マイクロホン#1〜#8は、第1のマイクロホン〜第8のマイクロホンを意味する。8個のマイクロホン#1〜#8は、例えば、MEMS(Micro Electro Mechanical Systems)マイクロホン、すなわち、半導体マイクロホンである。ただし、マイクロホンアレー10に備えられるマイクロホンの個数は、8個に限定されない。また、マイクロホンの配置は、図示の例に限定されない。
次に、学習データであるパラメータD3の取得について説明する。パラメータD3は、学習システムによって取得され、図1に示される音源方向推定装置100の記憶部80に事前に格納される。図5は、学習データの取得時に使用される学習システムの例を示す構成図である。図5の学習システムは、音を出力する学習用音源としてのスピーカ15と、スピーカ15に計測用の音響信号を供給する音源用コンピュータ16と、パラメータD3の調整の対象であるマイクロホンアレー10と、マイクロホンアレー10から見た音源であるスピーカ15の方向を変更する雲台11と、マイクロホンアレー10の集音によって生成された音響信号を記録する学習用コンピュータ12とを備えている。雲台11は、マイクロホンアレー10の方位角θと仰角φを調整可能な機構を備えている。
次に、図1に示されるニューラルネットワーク40の構成を説明する。図8は、実施の形態1におけるニューラルネットワーク40の構成を示す図である。図8に示されるように、ニューラルネットワーク40は、入力層50と、変換網60と、出力層70とを有している。変換網60は、第1の畳込層である「畳込層#1」すなわち畳込層61と、第2の畳込層である「畳込層#2」すなわち畳込層62と、第1の全結合層である「全結合層#1」すなわち全結合層63と、第2の全結合層である「全結合層#2」すなわち全結合層64と、平坦化層65と、識別層66とを有している。なお、図において、「*」は、フレームを識別するための整数である。
図9は、図8に示される入力層50の構成を示す図である。図9に示されるように、入力層50は、複数フレームの入力データ(図1におけるD2)を受理し、入力データの値を内部のユニット(すなわち、入力ユニット)にコピーする。複数フレームのデータ配列X[500,8]は、500サンプル/チャンネルで8チャンネルの音響信号である。つまり、入力層50は、入力データであるデータ配列X[500,8]を、500行8列の配列のデータとして保持する。入力層50は、入力層50の内部のユニットの値のコピーである、500行8列のデータ配列X[500,8]を出力データとして出力する。図9の例では、入力層50は、フレームの長さ(すなわち、複数フレームのデータ配列X[500,8]のサンプル数である500サンプル)に複数チャンネルの音響信号のチャンネル数(すなわち、8チャンネル)を掛けることによって得られた値(すなわち、4000)に等しい数の入力ユニットを有する。
図10は、図8に示される変換網60の「畳込層#1」すなわち畳込層61の構成を示す図である。「畳込層#1」は、入力層50から出力されたデータ配列X[500,8]を受理し、データ配列X[500,8]とカーネル係数WC1[100,8,31]との畳込演算を行い、この畳込演算の結果にバイアスbC1[100]を加算し、この加算の結果に半整流演算を適用して、半整流演算の結果であるデータ配列X[470,100]を出力する。カーネル係数は、記憶部80にパラメータとして記憶されているフィルタ係数である。「畳込層#1」の演算は、以下の式(1)及び(2)で示される。
図11は、図8に示される変換網60の「畳込層#2」すなわち畳込層62の構成を示す図である。「畳込層#2」は、「畳込層#1」から出力されたデータ配列X[470,100]を受理し、データ配列X[470,100]とカーネル係数WC2[50,100,31]との畳込演算を行い、この畳込演算の結果にバイアスbC2[50]を加算し、この加算の結果に半整流演算を適用して、半整流演算の結果であるデータ配列X[440,50]を出力する。「畳込層#2」の演算は、以下の式(4)及び(5)で示される。
図12は、図8に示される変換網60の「全結合層#1」すなわち全結合層63の構成を示す図である。「全結合層#1」は、「畳込層#2」から出力されたデータ配列X[440,50]に対し、重み係数WF1[50,256]を乗算し、この乗算の結果にバイアスbF1[256]を加算し、この加算の結果に半整流演算を適用して、半整流演算の結果であるデータ配列X[440,256]を出力する。「全結合層#1」の演算は、以下の式(6)で示される。
図13は、図8に示される変換網60の「全結合層#2」すなわち全結合層64の構成を示す図である。「全結合層#2」は、「全結合層#1」から出力されたデータ配列X[440,256]に対し、重み係数WF2[256,128]を乗算し、この乗算の結果にバイアスbF2[128]を加算し、この加算の結果に半整流演算を適用して、半整流演算の結果であるデータ配列X[440,128]を出力する。「全結合層#2」の演算は、以下の式(7)で示される。
図14は、図8に示される変換網60の平坦化層65の構成を示す図である。平坦化層65は、「全結合層#2」から出力されたデータ配列X[440,128]を受理し、受理されたデータ配列X[440,128]の次元数を1次元にする縮小を行い(すなわち、2次元のデータ配列を1次元のデータ配列であるベクトルに変換する平坦化を行い)、データ配列X[56320]を出力する。平坦化層65の演算は、以下の式(8)で示される。
図15は、図8に示される変換網60の識別層66の構成を示す図である。識別層66は、平坦化層65から出力されたデータ配列X[56320]を受理し、受理されたデータ配列X[56320]に重み係数Wout[56320,36]を乗算し、この乗算の結果にバイアスbout[36]を加算し、この加算の結果にソフトマックス演算を適用して、ソフトマックス演算の結果であるデータ配列X[36]を出力する。識別層66の演算は、以下の式(9)及び(10)で示される。
図16は、図8に示される出力層70の構成を示す図である。出力層70は、識別層66から出力されたデータ配列X[36]を保持する内部のユニット(すなわち、出力データの値を保持する出力ユニット)を持ち、出力層70の出力配列として識別結果のデータ配列Y[36]を出力する。
次に、ニューラルネットワーク40の学習について説明する。図17は、図8に示されるニューラルネットワーク40のパラメータの学習プロセスを示す図である。図17に示される処理は、CPU、メモリ、ストレージ、及びGPU(Graphics Processing Unit)ボードを搭載した学習用コンピュータ(例えば、図5に示される学習用コンピュータ12)で実行される。
ステップST1002において、学習用コンピュータは、入力データ系列と教師データ系列の系列順をランダムに並び替える。
ステップST1003において、学習用コンピュータは、並び替えられた入力データ系列と並び替えられた教師データ系列とからバッチデータを作成する。
ステップST1004において、学習用コンピュータは、バッチデータ内の入力データをニューラルネットワークの入力層に入力し順伝播させる。
ステップST1005において、学習用コンピュータは、ニューラルネットワークの出力層に得られる出力データ系列とバッチデータ内の教師データ系列との間のクロスエントロピー誤差を計算する。
ステップST1006において、学習用コンピュータは、上記クロスエントロピー誤差に出力ユニット間の制約を加えることで、損失を計算する。
ステップST1007において、学習用コンピュータは、上記損失が小さくなるようにパラメータを更新する。
ステップST1008において、学習用コンピュータは、学習データ全体にわたりパラメータの更新が終了したら、次のエポックに進む。
ステップST1009において、学習用コンピュータは、エポック毎に計算した上記損失の平均値がエポックに関して所定の回数、連続して減少しなくなったら、学習を終了する。
次に、学習データの作成について説明する。図19は、入力データ系列と教師データ系列の作成プロセスを示す図である。入力データ系列は、図6に示される信号データから作成される。まず、学習用コンピュータは、「方向#1」の音響信号(長さ30秒)の中から、時間区間が5秒から15秒の間の10秒間の区間のデータS1[160000,8]を抽出する。ここで、「160000」はサンプル数、「8」はチャンネル数を示す。
次に、パラメータを更新する単位であるバッチデータの作成について説明する。図20は、バッチデータの作成プロセスを示す図である。バッチデータは、互いに紐づけられた入力データ系列と教師データ系列とから作成される。まず、学習用コンピュータは、エポック毎に、入力データ系列と教師データ系列をシャフルする。ここで、シャフルは、入力データ系列におけるインデックスの並び順をランダムに並び替えること、教師データ系列におけるインデックスの並び順をランダムに並べ変えることを意味する。すなわち、学習用コンピュータは、入力データ系列X[11520,500,8]及び入力データ系列Y[11520,36]の第1次元の11520個のインデックスを並べ替えて、並べ替えられた後の11520個のインデックスに置き換える。以上の計算は、以下の式(12)から(14)で示される。
次に、図17に示される損失の計算において、クロスエントロピー誤差に加算される出力ユニット間の制約C[1]について説明する。図21は、出力ユニット間の制約を示す説明図である。学習用コンピュータは、ニューラルネットワークから出力される出力データ系列Y[*,36]の要素の自己相関行列に対して近接行列W proximity を掛ける計算を行い、この計算の結果の総和をとる計算を行い、この計算の結果である総和を出力ユニット間の制約C[1]として出力する。以上の処理は、以下の式(15)から(18)で示される。
次に、フレーム分割部30は、受信した複数チャンネルの音響信号を複数のフレームに分割し(ST2002)、分割によって得られた複数のフレームの音響信号をニューラルネットワーク40の入力層50に入力する(ST2003)。
次に、ニューラルネットワーク40は、入力層50に入力された複数のフレームの音響信号に対して、入力層50から変換網60を介して出力層70まで順伝播させる処理を行い、出力層70から音源方向の識別の結果を出力する(ST2004、ST2005)。
次に、表示部90は、出力層70において得られる識別の結果を受け取り、識別の結果を表示する。
〔入力ゲート層を設ける〕
図24は、実施の形態2に係る音源方向推定装置のニューラルネットワーク40aの構成を示す図である。図24において、図8に示される構成と同一又は対応する構成には、図8に示される符号と同じ符号が付されている。ニューラルネットワーク40aは、変換網60aの構成の点に関して、実施の形態1におけるニューラルネットワーク40と異なる。ニューラルネットワーク40aの構成以外に関して、実施の形態2は、実施の形態1と同じである。
〔複数の音源方向を推定〕
図25は、実施の形態3に係る音源方向推定装置のニューラルネットワーク40bの構成を示す図である。図25において、図8に示される構成と同一又は対応する構成には、図8に示される符号と同じ符号が付されている。ニューラルネットワーク40bは、変換網60bの構成の点に関して、実施の形態1におけるニューラルネットワーク40と異なる。ニューラルネットワーク40bの構成以外に関して、実施の形態3は、実施の形態1と同じである。
〔方位角θと仰角φの同時識別〕
次に、学習データの作成プロセスの他の例を説明する。図19では、教師データ系列は、方位角θとして「方向#1」〜「方向#36」の教師データから教師データ系列を作成した。これに対し、実施の形態4では、方位角θとして10度間隔の36種類の角度、仰角φとして15度間隔の6種類の角度の教師データから教師データ系列を作成している。学習データの作成プロセス以外に関して、実施の形態4は、実施の形態1と同じである。
〔取得した学習データから仰角φを無視したデータの生成〕
上記実施の形態4では、学習データは、方位角θと仰角φを指定されて取得され、音源方向の識別層は、方位角θと仰角φを識別する例を説明した。しかし、実際には、仰角φの識別は不要である場合が多い。実施の形態5では、学習データは、方位角θと仰角φを指定されて取得されるが、音源方向の識別層は、方位角θだけを識別する例を説明する。識別層の処理以外に関して、実施の形態5は、実施の形態4と同じである。
〔取得した学習データから利得を変えたデータの生成〕
実施の形態6では、音源から出力される音の大きさの変化に頑健(robust)な音源方向推定装置を説明する。実施の形態6は、パラメータD3の作成に使用される入力データ系列及び教師データ系列の元になる学習データとして、利得を用いて拡張された拡張学習データを用いる点が、実施の形態1から5と異なる。この点以外に関して、実施の形態6は、実施の形態1から5のいずれかと同じである。
〔取得した学習データから、雑音を重畳したデータの生成〕
実施の形態7では、音源から出力される音以外の背景雑音の影響に頑健な音源方向推定装置を説明する。実施の形態7は、パラメータD3の作成に使用される入力データ系列及び教師データ系列の元になる学習データとして、背景雑音の傾斜及び利得を用いて拡張された拡張学習データを用いる点が、実施の形態1から6と異なる。この点以外に関して、実施の形態7は、実施の形態1から6のいずれかと同じである。
〔取得した学習データから、フィルタを掛けたデータの生成〕
実施の形態8では、音源の周波数特性の変化に頑健な音源方向推定装置を説明する。実施の形態8は、パラメータD3の作成に使用される入力データ系列及び教師データ系列の元になる学習データとして、中心周波数と帯域幅の変化に応じて拡張された拡張学習データを用いる点が、実施の形態1から7と異なる。この点以外に関して、実施の形態8は、実施の形態1から7のいずれかと同じである。
〔取得した学習データから、チャンネル間の遅延時間をずらしたデータの生成〕
同一製品のマイクロホンアレーは、互いに同じ仕様で製造されている。しかし、同一製品のマイクロホンアレー間には、製造バラツキによる性能の違いがある。例えば、各マイクロホンの特性のバラツキ、各マイクロホンの取り付け位置のバラツキ、又はこれらの両方によって、音源から音波が放射された時点から音波を受音した各マイクロホンで受音信号が生成される時点までの時間にバラツキが生じ、音源方向の推定に影響を与える。実施の形態9では、製品毎のバラツキに頑健な音源方向推定装置を説明する。実施の形態9は、パラメータD3の作成に使用される入力データ系列及び教師データ系列の元になる学習データとして、製品毎のバラツキに応じて拡張された拡張学習データを用いる点が、実施の形態1から8と異なる。この点以外に関して、実施の形態9は、実施の形態1から8のいずれかと同じである。
〔生の複数チャンネルの信号を変換したデータからの音源方向の推定〕
複数のマイクロホンを有する電気機器(以下「マイクロホン製品」と言う。)の中には、これら複数のマイクロホンで生成された受音信号間で、加減算などの信号処理を行い、加工されたオーディオ信号を出力するものがある。実施の形態10では、元の受音信号が加工された信号を出力するマイクロホン製品から出力されたオーディオ信号から、このマイクロホン製品の内部の信号処理過程を知ることができない場合であっても、音源方向の推定を行うことのできる音源方向推定装置を提供する。つまり、実施の形態10では、マイクロホン製品における音響信号の加工処理部が処理内容のわからないブラックボックスであっても、音源方向の推定を可能にできる方法を提供する。
上記実施の形態1から10では、各種のハイパーパラメータを説明したが、ハイパーパラメータの値は、上記説明のものに限定されない。
Claims (19)
- 複数のマイクロホンから取得された複数チャンネルの音響信号を時間方向に複数のフレームに分割することによって、複数フレームの音響信号を作成するフレーム分割部と、
入力層、パラメータを記憶する記憶部、変換網及び出力層を有し、前記変換網は、前記入力層に入力された前記複数フレームの音響信号と学習データに基づいて作成された前記パラメータとに基づいて、音源の方向を推定する演算を行い、前記演算の結果を、前記出力層を介して出力するニューラルネットワークと、
を備え、
前記出力層は、複数の出力ユニットを有し、
前記パラメータは、前記複数のユニットのうちの2つの出力ユニットの間の出力の近接度が、前記2つの出力ユニットに対応付けられた音源の方向の間の近接度と符合する方向になるように更新する制約付きの学習によって得られた
ことを特徴とする音源方向推定装置。 - 前記入力層は、前記複数のフレームの各々の長さに対応するサンプル数に前記複数チャンネルの音響信号のチャンネル数を掛けることによって得られた値に等しい数の入力ユニットを有することを特徴とする請求項1に記載の音源方向推定装置。
- 前記入力層は、前記複数フレームの音響信号のそれぞれについて、前記複数のフレームの各々の長さに対応するサンプル数に前記複数チャンネルの音響信号のチャンネル数を掛けることによって得られた値に等しい数の入力ユニットを有することを特徴とする請求項1に記載の音源方向推定装置。
- 前記変換網は、前記入力層に入力された前記複数フレームの音響信号の各チャンネルの成分に対し、前記パラメータに含まれるフィルタ係数との畳込演算を行う第1の畳込層を含むことを特徴とする請求項1に記載の音源方向推定装置。
- 前記変換網は、前記第1の畳込層の後段に接続され、前記第1の畳込層から出力されるデータ配列に、前記パラメータに含まれるフィルタ係数との畳込演算を行う第2の畳込層を含むことを特徴とする請求項4に記載の音源方向推定装置。
- 前記出力層は、前記変換網によって推定され音源方向の数の最大数に等しい数の出力ユニットを有することを特徴とする請求項1から5のいずれか1項に記載の音源方向推定装置。
- 前記変換網は、1つ以上の全結合層をさらに含むことを特徴とする請求項4又は5に記載の音源方向推定装置。
- 複数のマイクロホンから取得された複数チャンネルの音響信号を時間方向に複数のフレームに分割することによって、複数フレームの音響信号を作成するフレーム分割部と、
入力層、パラメータを記憶する記憶部、変換網及び出力層を有し、前記変換網は、前記入力層に入力された前記複数フレームの音響信号と学習データに基づいて作成された前記パラメータとに基づいて、音源の方向を推定する演算を行い、前記演算の結果を、前記出力層を介して出力するニューラルネットワークと、
を備え、
前記変換網は、前記複数チャンネルの音響信号のフレーム毎の強度に応じて前記出力層に出力されるデータの値を制御するゲート層を含むことを特徴とする音源方向推定装置。 - 複数のマイクロホンから取得された複数チャンネルの音響信号を時間方向に複数のフレームに分割することによって、複数フレームの音響信号を作成するフレーム分割部と、
入力層、パラメータを記憶する記憶部、変換網及び出力層を有し、前記変換網は、前記入力層に入力された前記複数フレームの音響信号と学習データに基づいて作成された前記パラメータとに基づいて、音源の方向を推定する演算を行い、前記演算の結果を、前記出力層を介して出力するニューラルネットワークと、
を備え、
前記変換網は、推定される音源の数に等しい数の識別層と、前記識別層の出力を前記音源の出現確率に応じて制御するゲート層とを有することを特徴とする音源方向推定装置。 - 前記変換網は、前記1つ以上の全結合層の出力に、ソフトマックス演算を行い、前記ソフトマックス演算の結果を前記出力層に出力することを特徴とする請求項7に記載の音源方向推定装置。
- 前記音源の方向は、方位角、仰角、及び方位角と仰角との組合せのいずれかで示されることを特徴とする請求項1から10のいずれか1項に記載の音源方向推定装置。
- 前記パラメータは、学習用コンピュータが、前記複数のマイクロホンを備えたマイクロホンアレー又はマイクロホン製品の方位角と仰角の少なくとも一方を変えて取得した原本の学習データから作成したデータであることを特徴とする請求項1から11のいずれか1項に記載の音源方向推定装置。
- 前記パラメータは、前記学習用コンピュータが、前記原本の学習データにおける各要素に、予め用意された又は乱数に基づいて生成された利得を掛けて生成した拡張された学習データから作成したデータであることを特徴とする請求項12に記載の音源方向推定装置。
- 前記パラメータは、前記学習用コンピュータが、前記原本の学習データにおける各要素に、予め用意された又は乱数に基づいて生成された雑音を重畳して生成した拡張された学習データから作成したデータであることを特徴とする請求項12に記載の音源方向推定装置。
- 前記パラメータは、前記学習用コンピュータが、前記原本の学習データにおける各要素を、デジタルフィルタで予め用意された又は乱数に基づいて生成された中心周波数及び帯域幅を通過させて生成した拡張された学習データから作成したデータであることを特徴とする請求項12に記載の音源方向推定装置。
- 前記パラメータは、前記学習用コンピュータが、前記原本の学習データにおける各チャンネル毎に、予め用意された又は乱数に基づいて生成された遅延量だけ遅延させて生成した拡張された学習データから作成したデータであることを特徴とする請求項12に記載の音源方向推定装置。
- 前記パラメータは、前記学習用コンピュータが、前記マイクロホン製品が内部において取得する複数チャンネルの音響信号間の信号処理によって変換された複数チャンネルの加工信号から生成した学習データから作成したデータであることを特徴とする請求項12に記載の音源方向推定装置。
- 複数のマイクロホンから取得された複数チャンネルの音響信号を時間方向に複数のフレームに分割することによって、複数フレームの音響信号を作成するステップと、
入力層、パラメータを記憶する記憶部、変換網及び出力層を有するニューラルネットワークの前記変換網が、前記入力層に入力された前記複数フレームの音響信号と学習データに基づいて作成された前記パラメータとに基づいて、音源の方向を推定する演算を行い、前記演算の結果を、前記出力層を介して出力するステップと、
を有し、
前記出力層は、複数の出力ユニットを有し、
前記パラメータは、前記複数のユニットのうちの2つの出力ユニットの間の出力の近接度が、前記2つの出力ユニットに対応付けられた音源の方向の間の近接度と符合する方向になるように更新する制約付きの学習によって得られた
ことを特徴とする音源方向推定方法。 - 複数のマイクロホンから取得された複数チャンネルの音響信号を時間方向に複数のフレームに分割することによって、複数フレームの音響信号を作成する処理と、
入力層、パラメータを記憶する記憶部、変換網及び出力層を有するニューラルネットワークの前記変換網が、前記入力層に入力された前記複数フレームの音響信号と学習データに基づいて作成された前記パラメータとに基づいて、音源の方向を推定する演算を行い、前記演算の結果を、前記出力層を介して出力する処理であって、前記出力層は、複数の出力ユニットを有し、前記パラメータは、前記複数のユニットのうちの2つの出力ユニットの間の出力の近接度が、前記2つの出力ユニットに対応付けられた音源の方向の間の近接度と符合する方向になるように更新する制約付きの学習によって得られたパラメータである処理と、
をコンピュータに実行させることを特徴とする音源方向推定プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/047184 WO2020129231A1 (ja) | 2018-12-21 | 2018-12-21 | 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6559382B1 true JP6559382B1 (ja) | 2019-08-14 |
JPWO2020129231A1 JPWO2020129231A1 (ja) | 2021-02-15 |
Family
ID=67614855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019517124A Active JP6559382B1 (ja) | 2018-12-21 | 2018-12-21 | 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6559382B1 (ja) |
TW (1) | TW202025142A (ja) |
WO (1) | WO2020129231A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220011064A (ko) * | 2020-07-20 | 2022-01-27 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 음성 검출 방법 및 장치 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2607933A (en) * | 2021-06-17 | 2022-12-21 | Nokia Technologies Oy | Apparatus, methods and computer programs for training machine learning models |
TWI825481B (zh) * | 2021-09-17 | 2023-12-11 | 英業達股份有限公司 | 噪音源檢測系統及方法、內儲程式之電腦程式產品及內儲程式之電腦可讀取記錄媒體 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017044916A (ja) * | 2015-08-27 | 2017-03-02 | 本田技研工業株式会社 | 音源同定装置および音源同定方法 |
US20170353789A1 (en) * | 2016-06-01 | 2017-12-07 | Google Inc. | Sound source estimation using neural networks |
JP2018018350A (ja) * | 2016-07-28 | 2018-02-01 | 富士通株式会社 | 画像認識装置、画像認識プログラム、画像認識方法および認識装置 |
JP2018026040A (ja) * | 2016-08-12 | 2018-02-15 | キヤノン株式会社 | 情報処理装置および情報処理方法 |
JP6320649B1 (ja) * | 2017-03-31 | 2018-05-09 | 三菱電機株式会社 | 機械学習装置及び画像認識装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1060775A (en) * | 1977-03-18 | 1979-08-21 | Manfred A.A. Lupke | Apparatus for perforating tubing |
-
2018
- 2018-12-21 WO PCT/JP2018/047184 patent/WO2020129231A1/ja active Application Filing
- 2018-12-21 JP JP2019517124A patent/JP6559382B1/ja active Active
-
2019
- 2019-04-09 TW TW108112287A patent/TW202025142A/zh unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017044916A (ja) * | 2015-08-27 | 2017-03-02 | 本田技研工業株式会社 | 音源同定装置および音源同定方法 |
US20170353789A1 (en) * | 2016-06-01 | 2017-12-07 | Google Inc. | Sound source estimation using neural networks |
JP2018018350A (ja) * | 2016-07-28 | 2018-02-01 | 富士通株式会社 | 画像認識装置、画像認識プログラム、画像認識方法および認識装置 |
JP2018026040A (ja) * | 2016-08-12 | 2018-02-15 | キヤノン株式会社 | 情報処理装置および情報処理方法 |
JP6320649B1 (ja) * | 2017-03-31 | 2018-05-09 | 三菱電機株式会社 | 機械学習装置及び画像認識装置 |
Non-Patent Citations (2)
Title |
---|
武田 龍: "「方向依存活性化関数を用いたDeep Neural Networkに基づく識別的音源定位」", 情報処理学会研究報告 音声言語情報処理(SLP), vol. Vol.2016-SLP-112 No.13, JPN6019004986, 30 July 2016 (2016-07-30), JP, pages 1 - 6, ISSN: 0004020723 * |
澤田 夕暉: "「装着型多チャンネルマイクロホンによる音源方向推定について」", 2017年電子情報通信学会総合大会講演論文集 基礎・境界/NOLTA, JPN6019004984, 22 March 2017 (2017-03-22), pages 81, ISSN: 0004020722 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220011064A (ko) * | 2020-07-20 | 2022-01-27 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 음성 검출 방법 및 장치 |
KR102599978B1 (ko) * | 2020-07-20 | 2023-11-08 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 음성 검출 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2020129231A1 (ja) | 2021-02-15 |
TW202025142A (zh) | 2020-07-01 |
WO2020129231A1 (ja) | 2020-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110503128B (zh) | 使用卷积生成对抗网络进行波形合成的谱图 | |
US20210089967A1 (en) | Data training in multi-sensor setups | |
JP4810109B2 (ja) | 別個の信号の成分を分離する方法およびシステム | |
JP6559382B1 (ja) | 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム | |
JP6807029B2 (ja) | 音源分離装置および方法、並びにプログラム | |
JP6976804B2 (ja) | 音源分離方法および音源分離装置 | |
EP2731359B1 (en) | Audio processing device, method and program | |
JPWO2009110574A1 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
JP2011076068A (ja) | 複数の独立したプロセスによって作り出された信号のスペクトログラムの次元を削減するための方法およびシステム | |
WO2015159731A1 (ja) | 音場再現装置および方法、並びにプログラム | |
JP6591477B2 (ja) | 信号処理システム、信号処理方法及び信号処理プログラム | |
JP6371516B2 (ja) | 音響信号処理装置および方法 | |
US20190198036A1 (en) | Information processing apparatus, information processing method, and recording medium | |
EP3994690B1 (en) | Audio processing apparatus and method for denoising a multi-channel audio signal | |
JP2022135451A (ja) | 音響処理装置、音響処理方法およびプログラム | |
JP2011133780A (ja) | 信号分析装置、信号分析方法及び信号分析プログラム | |
CN109644304B (zh) | 混响环境的源分离 | |
EP3761665B1 (en) | Acoustic signal processing device, acoustic signal processing method, and acoustic signal processing program | |
JP4946330B2 (ja) | 信号分離装置及び方法 | |
WO2021172181A1 (ja) | 音響処理方法、推定モデルの訓練方法、音響処理システムおよびプログラム | |
JP2017152825A (ja) | 音響信号解析装置、音響信号解析方法、及びプログラム | |
JP2019074621A (ja) | 信号分離装置、信号分離方法及びプログラム | |
JP5520883B2 (ja) | 信号分解装置、方法、及びプログラム | |
JP4849404B2 (ja) | 信号処理装置、信号処理方法およびプログラム | |
KR101621718B1 (ko) | 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190328 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190328 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190328 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190423 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190604 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190618 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190716 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6559382 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |