JP7352291B2 - 音響装置 - Google Patents
音響装置 Download PDFInfo
- Publication number
- JP7352291B2 JP7352291B2 JP2020518358A JP2020518358A JP7352291B2 JP 7352291 B2 JP7352291 B2 JP 7352291B2 JP 2020518358 A JP2020518358 A JP 2020518358A JP 2020518358 A JP2020518358 A JP 2020518358A JP 7352291 B2 JP7352291 B2 JP 7352291B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- sound
- acoustic
- data
- acoustic filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1781—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
- G10K11/17821—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
- G10K11/17823—Reference signals, e.g. ambient acoustic environment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1785—Methods, e.g. algorithms; Devices
- G10K11/17853—Methods, e.g. algorithms; Devices of the filter
- G10K11/17854—Methods, e.g. algorithms; Devices of the filter the filter being an adaptive filter
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1787—General system configurations
- G10K11/17873—General system configurations using a reference signal without an error signal, e.g. pure feedforward
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K15/00—Acoustics not otherwise provided for
- G10K15/08—Arrangements for producing a reverberation or echo sound
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K2210/00—Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
- G10K2210/10—Applications
- G10K2210/128—Vehicles
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K2210/00—Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
- G10K2210/30—Means
- G10K2210/301—Computational
- G10K2210/3023—Estimation of noise, e.g. on error signals
- G10K2210/30231—Sources, e.g. identifying noisy processes or components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K2210/00—Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
- G10K2210/30—Means
- G10K2210/301—Computational
- G10K2210/3025—Determination of spectrum characteristics, e.g. FFT
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K2210/00—Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
- G10K2210/30—Means
- G10K2210/301—Computational
- G10K2210/3028—Filtering, e.g. Kalman filters or special analogue or digital filters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K2210/00—Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
- G10K2210/30—Means
- G10K2210/301—Computational
- G10K2210/3038—Neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Stereophonic System (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
しかしながら、このようなものでは、3D空間モデルを用いて音の反射を計算する必要がある。
特に、室内空間では、部屋の構造により各所で異なる反射特性が残響音として大きく影響する。このため、音線法等によって音場を可聴化 (auralization)しようとすると、2Dの画像から3Dモデルを詳細に復元(3D Reconstruction)する処理等が必要となる。したがって音場モデルの計算の情報量が増大して、膨大な演算を行わなければならなかった。
一方、熟練した建築音響の技術者、録音技師などの長年音響に携わる者は、部屋の構造を見て、音響特性を把握できるケースがある。
図1に示す音響装置100は、主にコンピュータで構成される演算部101に、撮像装置2と、集音装置3と、記憶装置4とを接続して構成されている。
このうち、演算部101は、パラメータ(特徴量)が不明な未知の画像(以下、未知の画像とも記す)の音場を立体的に再現するための空間音響フィルタ係数(以下、単に係数ともいう)を関連させるエンコーダとして機能する。
すなわち、演算部101は、予め一つのサンプル画像に対応する空間音響フィルタ係数に関する複数のパラメータを求める。そして、演算部101は、複数のサンプル画像に表された構造物のそれぞれの音場モデルを学習する。学習は、数十~数千のサンプル画像と、これらのそれぞれのサンプル画像に対応する空間音響フィルタ係数を用いて行われる。
そして、集音装置3には、既存のFIR(有限インパルス応答)、FFT(高速フーリエ変換)、またはIIR(無限インパルス応答)の何れかの方式若しくは他の方式で発生した音による構造物からの反響音を集音する。
ここで、撮像装置2から送られてくる画像のパラメータ推定を安定させるため、画角・構造判別を行ってもよい。
例えば、床が拡大された画像であった場合、これがコンサートホールの画像なのか、狭い部屋の床であるか判別が困難であり、学習画像にコンサートホールの床の拡大図があった場合、たとえ入力が狭い部屋の床であったとしても、誤ってコンサートホールのようなパラメータが推定されてしまう可能性がある。
あるいは、熟練の音響技術者がパラメータ推定について可能か否かを判別した大量の画像を用いてニューラルネットワークを学習させた判別器を用いて、画角・構造判別を行ってもよい。
なお、サンプル画像と関連付けることにより、予め集音された音響データを集音装置3に入力して収集するようにしてもよい。
すなわち、音響プログラムは、予め学習されたサンプル画像の音場モデルから、実際に撮像装置2で撮像されて、パラメータが不明な未知の画像について、構築された音場モデルに基づいて空間音響フィルタ係数を推定する。
そして、音響プログラムは、集音装置3から入力された音響データに、サンプル画像の構造物で演奏等されている状態に近似した音場モデルの残響データを掛け合わせて付加する。
本実施形態の音響装置100では、各サンプル画像に表される構造物の反響音がオクターブバンドとして200hzごとに10個の音域に区分されてサンプリングされる。
200hzごとにサンプリングされた空間音響フィルタ特性(初期値から60dB低下するまでの傾き)400a~400dは、サンプル画像a~dの構造物に対応して少しずつ相違していることがわかる。
そして、これらの相違点は、後述するディープラーニングによる学習と推定の際に、構造物によって特性が異なることに着目して、関連付けられる。たとえば、サンプル画像の特徴点として、材質が高い周波数は吸収し易い点や、残響に空間の奥行き寸法や、出入口や窓等の開口部の有無等が影響するといった点等が挙げられる。
次に、音響装置100のエンコーダ処理/デコーダ処理について、図2Bおよび図3に示すデコーダ処理のフローチャートに沿って説明する。
この音響装置100では、音場モデルの構築の処理が下記のように実行される。
図3に示すステップS1では、撮像装置2にて、サンプル画像が撮影される。
これと同時に、実際の構造物の反響音が集音装置3によって集音されて測定される。測定方法は、インパルスを時間的に引き延ばしてエネルギを大きくした時間引き延ばしパルス、すなわち、TSP(Time Stretched Pulse)を用いる。
ステップS3では、サンプル画像に対して、空間音響フィルタ係数(パラメータ)が演算部201にて推定される。空間音響フィルタ係数の生成は、既存のFIR(有限インパルス応答)、FFT(高速フーリエ変換)、またはIIR(無限インパルス応答)の何れかの方式で行われる(図1参照)。
ステップS5では、空間音響フィルタ処理が演算部201にて実行されて、音響フィルタが生成される。生成された音響フィルタは、対応するサンプル画像のデータとともに記憶装置4に蓄積されて、後述するディープラーニングによる学習に用いられる。
本実施形態では、予め一つのサンプル画像に対応する空間音響フィルタ係数に関する複数のパラメータが求められて、サンプル画像に表された構造物の音場モデルが学習されている。
このため、建築物の内部空間、たとえばコンサートホールや講堂等の内部の情報が、2Dの未知のサンプル画像のみであっても、簡易に対応する音場モデルを構築して再現できる。
しかしながら、特にこれに限らず、たとえば、予め他の場所で撮像されたサンプル画像のデータを音響装置100に入力してもよい。この場合、データ入力されたサンプル画像に対応して、空間音響フィルタ係数に関する複数のパラメータを求めて、サンプル画像に表された構造物の音場モデルを演算部101で構築する。
また、実際の構造物の反響音を測定しない場合は、記憶装置4に蓄積された他の構造物に対応させた音響フィルタを、後述するディープラーニングで学習させて、実際の構造物の反響音に近似する空間音響フィルタ係数からなる音場モデルを演算することができる。
図4は、音響システムの音響装置200の構成を説明するブロック図である。本実施形態では、図1に示す音響装置100と図4に示す音響装置200とを個別に構成している。しかしながら、特にこれに限らず、たとえば一つの演算部101または201によって、この音響システムの音響装置を構成して、一つの音響プログラムで音場モデルの学習による構築と、音場モデルを用いた音響の再生とを実行するようにしてもよい。
図4に示すように、音響装置200の音響フィルタ処理には、記憶装置6に記憶された音源データや再生音データが入力される。音響装置200は、演算部201に再生装置5が接続されている。
そして、音響装置200は、音響プログラムを実行することによりデコーダとして機能する。デコーダは、予め学習されたサンプル画像の音場モデルを用いて、パラメータが不
明な未知の画像に関する空間音響フィルタ係数を推定する。
再生装置5は、音響出力装置として機能する。音響出力装置は、主に構築された音場モデルに基づいて、入力した音響を入力された画像に対応させて、残響特性を掛合わせて付加された音響を出力する機能を有する。他の構成は、音響装置100と同一乃至均等であるので説明を省略する。
図5は、演算部201で実行される多数段に畳み込まれたディープラーニングの手法を用いた空間音響フィルタ係数の推定の様子を示す模式図である。
具体的には、音場モデルを構築するために図5に示すディープラーニング(図5中左から2番目)を用いる場合、4つの入力で4つの出力(パラメータ)が出力される状況では、乗算の重みをフィードバックにより変えている。
すなわち、学習の際、正解データとの差分(損失関数)が大きい場合、逆伝搬により後ろの重み係数のパラメータを更新する。この繰り返しにより、たとえば、奥行きが残響に与える影響が大きい場合、重み係数を増大させる。
また、天井の相違が少ないとする場合は、重み係数が0となると使われない枝が生じ、フィードバックによる精度を向上させる。
一方、後述する音響フィルタを推定する出力の場合では、4つの入力でそのまま、4つの出力(パラメータ)がベクトルの演算として出力される。
ニューラルネットワーク300は、ディープラーニングを行うため、判断とフィードバックとが繰り返されるように多数段に畳み込まれている。ニューラルネットワーク300では、図5中左側からの入力により右側に向けて出力される判断と、後段に戻るフードバックとが複数回、本実施形態では、四段繰り返されて、空間音響フィルタ特性がパラメータとして演算される。
また、ディープラーニングでは、未知の画像eが予め学習されているサンプル画像にない場合には、このサンプル画像と近似する空間音響フィルタ係数を関連する空間音響フィルタ係数として推定することができる。
このように、学習されたサンプル画像の空間音響フィルタ係数以外の異なる空間音響フィルタ係数が出力として得られることも、ディープラーニングの特徴の一つである。
そして、本実施形態の音響システムでは、未知の画像eとともに入力された音響は、この推定された空間音響フィルタ特性400eから得られる残響特性500e(図中右端)を掛け合わせて付加することにより、未知の画像eに対応する音響、ここでは、最も顕著に表れる残響特性を主として掛け合わされた音響が出力される。
次に、音響装置200のデコーダ処理について、図6に示すフローチャートに沿って説明する。図6は、クラウドを用いた場合のデコーダの応用フローチャートである。
音響装置200で処理を開始する。まず、ステップS10では、撮像装置2にて、未知の画像が撮影される。
ステップS13では、CG画像が実際の室内空間の画像に重畳される。ここでは、実際の室内空間の画像に、サンプル画像に対応して作成されたCG画像であるコンサートホール等の舞台側のCG画像が重畳される。このため、ユーザは、実際の室内空間である自宅の部屋に居ながら、コンサートホール等の舞台側の映像および音響を観賞できる。
また、後述する図7のCG画 のように、AR(Augmented Reality:拡張現実)ヘッドマウントディスプレイ105を用いて実際の室内空間の画像に重畳させてもよい。
このため、画像データおよび音響データの数量を増大させて、学習および推定の精度を向上させることができる。
このように構成された実施形態の音響装置200では、パラメータが不明な未知の画像であっても、画像データに対応する音響フィルタを容易に得られる。
しかも、音響フィルタは、演算部201のディープラーニングにより、未知の画像eが予め学習されているサンプル画像にない場合、学習されたサンプル画像のうち、もっとも未知の画像eに近いサンプル画像の空間音響フィルタ係数よりもさらに、未知の画像eの空間音響フィルタ係数として、ふさわしい空間音響フィルタ係数を、推定することができる。
このため、単なる学習したサンプル画像の数量を増大させることにより得られる一致度よりも高い一致度で未知の画像eの空間音響フィルタ係数を推定することができる。
図7は、クラウドサーバ104により構築される音場に基づいて映像データを、音響出力装置の一つとしてのARヘッドマウントディスプレイ105によって、現実空間に重畳させる様子を示している。
さらに、ARヘッドマウントディスプレイ105に撮像装置106を設ければ、ユーザPが見ている現実の空間とバイザーに投影される画像とを重畳させることが出来、画像で登場した演奏者の位置に対応した立体的な音響をヘッドホンから出力することもできる。
て、コンピュータ資源をサービスの形で提供する利用形態)のクラウドサーバ104に音響システムの一部または全部を委ねることができる。
この場合、インターネットを介してクラウドサーバ104に接続された複数の撮像装置2を含む多数の情報端末から、画像データおよび音響データを収集できる。
このため、構造物のサンプル画像に対応する音響データの数量を増大させることが可能となり、残響音等の学習および推定の時間を短縮して、未知の画像に対応させる空間音響フィルタ係数の精度を向上させることができる。
他の構成、および作用効果については、実施形態と同一乃至均等であるので説明を省略する。
図8は、本実施形態の音響システムを補聴器に応用する場合のブロック図である。
従来、補聴器は、音質を含む音の調整を人手で行っていたため、手間がかかるといった問題があった。
また、集音器の場合は、スマートフォンのアプリケーションなどを用いて使用者が音を調整できる。
しかしながら、外耳や外耳道(主に耳介とも記す)による回折や反射の影響で、強調しても無駄な周波数があり、使用者が個人で調整することは困難であった。
さらに、自然な音色再現には、相対的な周波数のバランスが重要である。たとえば一部の周波数のみを強調してしまうと不自然になってしまう、といった問題もあった。
たとえば、耳介の画像から、干渉する周波数(ノッチ周波数、つまり、想定される鼓膜位置で節となる周波数)、振幅(ゲイン)、および周波数の幅(バンド幅)を1つ以上推定する。
または、耳介の画像から、共鳴する周波数(ピーク周波数、つまり、想定される鼓膜位置で腹となる周波数)、振幅(ゲイン)、及び周波数の幅(バンド幅)を1つ以上推定する。
生成された係数FIR、FFT、またはIIRは、補聴器本体700に送られる。そして、補聴器本体700は、集音装置であるマイク800で拾われた音を、音響フィルタ処理する。
音量が調整された音響フィルタ処理後の音は、イヤホン等の再生処理部900により、聞き易い音となり再生される。
まず、ステップS20で処理が開始されると、ステップS20では、スマートフォン600などのカメラで耳介が撮影されて、耳介の画像が取得される。
ステップS21では、画像から耳の反射や回折の影響を推定する。すなわち、耳形状に影響する干渉周波数を阻止する。あるいは、自然な音色の再現の為の耳形状に影響する相対的な周波数フィルタが得られるフィルタ係数を推定して生成する。
そして、強調することにより効率的に聞き易さが変化する周波数帯域を透過し、聞き易さが変化しにくい非効率的な周波数帯を阻止するフィルタ係数を生成する。
ステップS22では、スマートフォン600から補聴器本体700に生成されたフィルタ係数を送信する。
音響フィルタ処理では、干渉または共鳴する周波数、振幅および周波数の幅の少なくとも何れかを用いて、所望の周波数帯域の音量を増減することができる。
ステップS23では、全体の音量が調整される。
そして、ステップS24では、マイク800で拾われた音にフィルタをかけて出力して、処理を終了する。
他の構成、および作用効果については、実施形態と同一乃至均等であるので説明を省略する。
図10は、本実施形態の音響システムを吹替えに応用する場合を説明するブロック図である。 一般に、映画、ドラマなどの映像コンテンツの言語の吹替えを行う場合、台詞を除いたコンテンツを輸入し、輸入国で吹替えている。
吹替えの際、吹替えられる言語のエフェクト処理は、現地のサウンドエンジニアによって行われる。
エフェクト処理の一つとして残響を付加する作業がある。この残響付加作業は、サウンドエンジニアの技量に左右される。また、作業工程も煩雑で膨大なものとなるといった問題があった。
また、演算部1101には、音響プログラムとして残響パラメータ推定を行うフィルタ係数生成部1102が設けられている。
まず、処理を開始すると、ステップS30は、映画の場面である記録装置からの画像が演算部1101に入力される。場面は、静止画であっても動画であってもよい。
ステップS31では、フィルタ係数生成部1102が映画の場面に合致するフィルタ係数の一つである空間音響フィルタ係数を生成する。
ステップS32では、演算部1101がサウンドミキシングツールに生成された残響係数を送信する。
ステップS33では、記録装置1103を用いて吹替え音声の録音が行われる。
ステップS34では、吹替え音声に空間音響フィルタ係数をかけてミキシングおよび音量調整された後、オーサリング装置1104を用いてオーサリングされたデータが記憶媒体に書込まれて、再生可能な形式となり処理が終了する。
このため、サウンドエンジニアの作業工程が減少し、労力を削減できる。
図12は、本実施形態の音響システムを残響処理に応用する場合を説明するブロック図である。
図12に示す音響システム1200は、マイク800で集音された音声を音声認識処理部1210で認識して、受け答えまたは、家電製品のスイッチ操作を行う音声認識機器である。
音声認識機器の音声認識率を向上させるため、残響処理は重要な課題の一つである。たとえば、複数のマイクで話者の方向を推定して、マイクの指向性を調整することで話者がいない方向の反射音や残響音を除去する方法がある。
しかしながら、この方法では、マイクの数量を多数用意しなければならず、効率的ではなかった。
この方法では、無音時や小音量の際には、残響を推定することが困難であり、マイクから大きな入力がなければ残響を推定することができない。
図13に示すフローチャートは、音響システムを残響処理に応用した場合の情報処理を示すものである。
まず、処理を開始すると、ステップS40で、撮像装置2(図12参照)を用いて部屋の画像を撮影する。
ステップS41では、演算部1201に送られた画像データから、部屋の残響パラメータを推定し、残響除去フィルタ係数を生成する。
ステップS42では、マイク800から話者の音声が入力される。
ステップS43では、マイク800で拾われた音声を演算部1201が残響除去フィルタをかけることによりフィルタ処理する。
ステップS44では、音声認識処理部1210が音声認識を行い、受け答えまたは、家電製品のスイッチ操作等を行い、処理を終了する。
図14~図16は、本実施形態の音響システムをノイズキャンセリングに応用するものを示している。
従来から、騒音をあるポイント(制御点)で逆位相となる信号を出力し、騒音を打消すアクティブノイズキャンセリングという信号処理方法が知られている。
このようなものでは、参照マイクで騒音を集音し、騒音が制御点に到達するまでにスピーカからの出力を逆位相となるように制御する。
しかしながら、この方法では、高い周波数ほど波長が短く、逆位相で打消すのが困難である。このため、電車内や飛行機内など利用される状況を想定して、打消すために必要とされる周波数帯域に制限して逆位相フィルタを実現している。
たとえば、空間的にノイズを打消すためには、騒音源の位置、周波数特性(帯域)、騒音源の振動パターンによる伝搬特性を加味する必要がある。ここで、伝搬特性としては、点音源の球面波、線音源や面音源などの平面波等により異なることが知られている。
つまり、一種類の騒音削減は可能でも、様々な騒音に対応しようとすると、騒音の入力から、このようなパターンを推定する必要がある。このため、即時性が重要とされるアクティブノイズキャンセリングでは、大きな遅延を起こし、所望の消音性能を発揮できない虞があった。
また、騒音源がない場合は、ノイズを打消すキャンセル信号を出力すべきではない。しかしながら、騒音源を音で認識させるには、実際に音が参照信号を伝播してマイク入力する必要があり、大きな遅延の原因となっていた。
このようなものでは、演算部1310に、複数個のマイク800と、複数個のスピーカ1320とが接続されている。
また、演算部1310は、ノイズ源を判定するノイズ判定部1310nと、ノイズ周波数特性のパラメータを推定/分類する周波数特性推定部1310aと、ノイズの伝搬パターンを推定/分類する伝搬パターン特性推定部1310bとを備える。そして、ノイズ周波数特性のパラメータと、ノイズの伝搬パターンとを用いて、フィルタ係数を複数、生成する。生成された複数のフィルタ係数は、複数のスピーカ1320からノイズキャンセル信号として出力される。
このため、騒音源の位置、周波数特性(帯域)、騒音源の振動パターンによる伝搬特性が加味されて、生成された複数のフィルタ係数となる。伝搬特性は、点音源の球面波、線音源や面音源などの平面波のうち、少なくとも何れか一つである。そして、フィルタ係数に基づいて、複数のスピーカ1320からノイズキャンセル信号が出力される。
他の構成は、図14と同様である。
まず、処理を開始すると、ステップS50では、複数の撮像装置2でノイズ源が撮影される。
ステップS51で、演算部1310(1410)」は、消すべきノイズ源か否かを判定する。ステップS51で、消すべきノイズ源であると判定された場合(ステップS51でyes)は、次のステップS52に進み、消すべきノイズ源ではないと判定された場合(ステップS51でno)は、ステップS50に戻り、複数の撮像装置2で撮影を続ける。
ステップS54では、複数のノイズ参照用のマイク800の入力にノイズキャンセリングをかけて、複数のスピーカ1320から出力し、処理を終了する。
このため、さらに、ノイズキャンセリングの精度を向上させることができる。
このため、演算量を増大させて、リアルタイム性をより向上させることができる。
また、騒音源がない場合は、ノイズキャンセリングを行う信号がスピーカ1320から出力されない。したがって無駄な演算処理がない。さらに、意図せぬ信号がスピーカ1320から出力されないため、キャンセリング波が周囲に悪影響を及ぼすリスクを減少させることができる。 他の構成、および作用効果については、実施形態と同一乃至均等であるので説明を省略する。
また、コンピュータの演算部101と独立させてクラウドサーバ104にニューラルネットワーク300を設けてもよい。さらに、ディープラーニングを行うニューラルネットワーク300についても、特に実施形態のような多数段に畳み込まれるものに限らない。
たとえば、サンプル画像と残響音のパラメータとを組み合せて、音場モデルの学習と推定が行えるものであれば、どのような人工知能やプログラムを用いてもよい。
さらに、音響装置100,200の演算部101,201に接続される撮像装置2、集音装置3、記憶装置4、および再生装置5についても、特に実施形態に限らず、特に画像データや音響データを接続により入力可能なデバイス等、どのような情報の入出力が行える装置が接続されていてもよい。
Pulse)に限らない。たとえば、他のインパルスを用いた測定方法や、M系列、ホワイトノイズ、ピンクノイズを用いる測定方法等、どのような音の反響音を測定する測定方法であってもよい。
3 集音装置
4 記憶装置
5 再生装置(音響出力装置)
100,200 音響装置
101,201 演算部
104 クラウドサーバ
300 ニューラルネットワーク
Claims (11)
- 音場に影響を与える構造物を撮像して画像データを形成する撮像装置と、前記構造物で発生した音を集音し、または、集音された音響データを収集する集音装置と、予め一つのサンプル画像に対応する空間音響フィルタ係数に関する複数のパラメータを求めて、前記サンプル画像に表された構造物の音場モデルを学習する音響プログラムを有する演算装置とを備え、
前記演算装置は、前記撮像装置で撮像されたサンプル画像または予め撮像されたサンプル画像について、前記集音装置で集音された音響データから、空間音響フィルタ係数を用いて音場モデルを構築し、
前記画像データは、動画の画像データであり、前記動画のフレームと、前記フレームにおける背景画像または現フレームと前フレームとの差分を用いて、前記空間音響フィルタ係数を推定することを特徴とする音響装置。 - 前記演算装置は、未知の画像について、予め学習されたサンプル画像の音場モデルを用いて空間音響フィルタ係数を推定し、前記空間音響フィルタ係数を用いて前記未知の画像の音場モデルを構築する、ことを特徴とする請求項1記載の音響装置。
- 前記未知の画像は、耳介または外耳道のうち少なくとも何れかの画像であり、前記演算装置は、前記画像から、空間音響フィルタ係数を推定することを特徴とする請求項2記載の音響装置。
- 音場に影響を与える構造物を撮像し、または、撮像された画像データを収集する撮像装置と、前記構造物で発生した音を集音しまたは集音された音響データを収集する集音装置と、前記撮像装置で撮像されたサンプル画像について、前記集音装置で集音された音響データから、空間音響フィルタ係数を用いて音場モデルを構築する演算装置と、を備え、
前記演算装置は、未知の画像について、予め学習されたサンプル画像の音場モデルを用いて空間音響フィルタ係数を推定し、
前記画像データは、動画の画像データであり、前記動画のフレームと、前記フレームにおける背景画像または現フレームと前フレームとの差分を用いて、前記空間音響フィルタ係数を推定することを特徴とする音響プログラムを用いる音響装置。 - 音場に影響を与える構造物を撮像し、または、撮像された画像データを収集する撮像装置と、前記撮像装置で撮像された画像データについて、空間音響フィルタ係数を用いて音場モデルを構築する演算装置と、を備え、
前記演算装置は、前記撮像装置で撮像された画像に、予め撮像された画像または予め撮像された画像を前記演算装置内で演算して作成された画像のうちいずれかを重畳させることを特徴とする音響装置。 - 音場に影響を与える構造物を撮像し、または、撮像された画像データを収集する撮像装置と、前記撮像装置で撮像された画像データについて、空間音響フィルタ係数を用いて音場モデルを構築する演算装置と、を備え、
前記画像データは、動画の画像データであり、前記動画のフレームと、前記フレームにおける背景画像または現フレームと前フレームとの差分を用いて、前記空間音響フィルタ係数を推定することを特徴とする、音響装置。 - 前記演算装置は、前記画像データおよび音響データが入力されると、該画像データに関連する前記空間音響フィルタ係数を推定して、該空間音響フィルタ係数から得られる残響特性を付加した音響を出力することを特徴とする請求項1~6のうち何れか一項に記載の音響装置。
- 前記音響データは、映像コンテンツの吹替え音声であることを特徴とする請求項7に記載の音響装置。
- 残響特性が付加された音響を出力する音響出力装置をさらに備えることを特徴とする請求項1~7のうち何れか一項に記載の音響装置。
- 音響プログラムをクラウド上に構築して、該クラウドに接続された複数の撮像装置から画像データおよび音響データを収集することを特徴とする請求項1~6のうち何れか一項に記載の音響装置。
- 多数段に畳み込まれるニューラルネットワークで構造物の音場モデルの学習と、空間音響フィルタ係数の推定とを行う音響プログラムを、クラウド上に構築し、該クラウドに接続された複数の撮像装置から画像データおよび音響データを収集することを特徴とする請求項1~6のうち何れか一項に記載の音響装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018092622 | 2018-05-11 | ||
JP2018092622 | 2018-05-11 | ||
PCT/JP2019/018746 WO2019216414A1 (ja) | 2018-05-11 | 2019-05-10 | 音響プログラム、音響装置、および音響システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019216414A1 JPWO2019216414A1 (ja) | 2021-05-27 |
JP7352291B2 true JP7352291B2 (ja) | 2023-09-28 |
Family
ID=68467438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020518358A Active JP7352291B2 (ja) | 2018-05-11 | 2019-05-10 | 音響装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11317233B2 (ja) |
EP (1) | EP3799035A4 (ja) |
JP (1) | JP7352291B2 (ja) |
WO (1) | WO2019216414A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022514325A (ja) * | 2018-12-21 | 2022-02-10 | ジーエヌ ヒアリング エー/エス | 聴覚デバイスにおけるソース分離及び関連する方法 |
JP7395446B2 (ja) | 2020-09-08 | 2023-12-11 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
CN117744196A (zh) * | 2020-10-13 | 2024-03-22 | 弗莱瑞尔公司 | 通过自动分析传感器数据生成物理结构和环境的测量结果 |
GB2603515A (en) * | 2021-02-05 | 2022-08-10 | Nokia Technologies Oy | Appartus, method and computer programs for enabling audio rendering |
JP2023037510A (ja) * | 2021-09-03 | 2023-03-15 | 株式会社Gatari | 情報処理システム、情報処理方法および情報処理プログラム |
US20230173387A1 (en) * | 2021-12-03 | 2023-06-08 | Sony Interactive Entertainment Inc. | Systems and methods for training a model to determine a type of environment surrounding a user |
CN116489572A (zh) * | 2022-01-14 | 2023-07-25 | 华为技术有限公司 | 一种电子设备控制方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015061277A (ja) | 2013-09-20 | 2015-03-30 | 日本放送協会 | 残響付加装置 |
JP2015060181A (ja) | 2013-09-20 | 2015-03-30 | 日本放送協会 | 残響付加装置 |
US20150373477A1 (en) | 2014-06-23 | 2015-12-24 | Glen A. Norris | Sound Localization for an Electronic Call |
US20170270406A1 (en) | 2016-03-18 | 2017-09-21 | Qualcomm Incorporated | Cloud-based processing using local device provided sensor data and labels |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6996244B1 (en) * | 1998-08-06 | 2006-02-07 | Vulcan Patents Llc | Estimation of head-related transfer functions for spatial sound representative |
FR2858403B1 (fr) * | 2003-07-31 | 2005-11-18 | Remy Henri Denis Bruno | Systeme et procede de determination d'une representation d'un champ acoustique |
JP3922275B2 (ja) | 2004-08-20 | 2007-05-30 | ヤマハ株式会社 | 音声再生装置及び音声再生装置の音声ビーム反射位置補正方法 |
JP5023713B2 (ja) | 2007-01-22 | 2012-09-12 | ヤマハ株式会社 | 音響発生装置 |
US9015612B2 (en) * | 2010-11-09 | 2015-04-21 | Sony Corporation | Virtual room form maker |
CN103491397B (zh) | 2013-09-25 | 2017-04-26 | 歌尔股份有限公司 | 一种实现自适应环绕声的方法和系统 |
JP6688991B2 (ja) | 2015-09-01 | 2020-04-28 | パナソニックIpマネジメント株式会社 | 信号処理方法およびスピーカシステム |
US9820047B2 (en) | 2015-09-01 | 2017-11-14 | Panasonic Intellectual Property Management Co., Ltd. | Signal processing method and speaker system |
CN108463848B (zh) * | 2016-03-23 | 2019-12-20 | 谷歌有限责任公司 | 用于多声道语音识别的自适应音频增强 |
JP6681237B2 (ja) | 2016-03-25 | 2020-04-15 | パイオニア株式会社 | 音響装置及び音響補正プログラム |
US10440497B2 (en) * | 2017-11-17 | 2019-10-08 | Intel Corporation | Multi-modal dereverbaration in far-field audio systems |
-
2019
- 2019-05-10 JP JP2020518358A patent/JP7352291B2/ja active Active
- 2019-05-10 WO PCT/JP2019/018746 patent/WO2019216414A1/ja unknown
- 2019-05-10 EP EP19800558.9A patent/EP3799035A4/en active Pending
- 2019-05-10 US US17/054,462 patent/US11317233B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015061277A (ja) | 2013-09-20 | 2015-03-30 | 日本放送協会 | 残響付加装置 |
JP2015060181A (ja) | 2013-09-20 | 2015-03-30 | 日本放送協会 | 残響付加装置 |
US20150373477A1 (en) | 2014-06-23 | 2015-12-24 | Glen A. Norris | Sound Localization for an Electronic Call |
US20170270406A1 (en) | 2016-03-18 | 2017-09-21 | Qualcomm Incorporated | Cloud-based processing using local device provided sensor data and labels |
Non-Patent Citations (1)
Title |
---|
DeepEarNet: Individualizing Spatial Audio with Photography, Ear Shape Modeling, and Neural Networks,2016 AES International Conference on Audio for Virtual and Augmented Reality,2016年,第1-9ページ,[2023年3月14日検索], <URL: https://www.aes.org/e-lib/browse.cfm?elib=18509> |
Also Published As
Publication number | Publication date |
---|---|
EP3799035A1 (en) | 2021-03-31 |
EP3799035A4 (en) | 2022-04-13 |
US11317233B2 (en) | 2022-04-26 |
WO2019216414A1 (ja) | 2019-11-14 |
JPWO2019216414A1 (ja) | 2021-05-27 |
US20210058731A1 (en) | 2021-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7352291B2 (ja) | 音響装置 | |
JP7367785B2 (ja) | 音声処理装置および方法、並びにプログラム | |
KR101547035B1 (ko) | 다중 마이크에 의한 3차원 사운드 포착 및 재생 | |
JP5533248B2 (ja) | 音声信号処理装置および音声信号処理方法 | |
RU2665280C2 (ru) | Система, устройство и способ для согласованного воспроизведения акустической сцены на основании информированной пространственной фильтрации | |
JP5637661B2 (ja) | 時変性の指向特性を有する音源を録音および再生する方法 | |
KR102507476B1 (ko) | 헤드셋을 통한 공간 오디오 렌더링을 위한 룸 특성 수정 시스템 및 방법 | |
JP4508295B2 (ja) | 収音及び再生システム | |
JP5611970B2 (ja) | オーディオ信号を変換するためのコンバータ及び方法 | |
KR20050083928A (ko) | 오디오 데이터를 처리하기 위한 방법 및 이에 따른 사운드수집 장치 | |
CN105165026A (zh) | 使用多个瞬时到达方向估计的知情空间滤波的滤波器及方法 | |
JP2012509632A5 (ja) | オーディオ信号を変換するためのコンバータ及び方法 | |
Lee et al. | A real-time audio system for adjusting the sweet spot to the listener's position | |
CN112956210A (zh) | 基于均衡滤波器的音频信号处理方法及装置 | |
Kurz et al. | Prediction of the listening area based on the energy vector | |
Omoto et al. | Hypotheses for constructing a precise, straightforward, robust and versatile sound field reproduction system | |
De Vries et al. | Auralization of room acoustics by wave field synthesis based on array measurements of impulse responses | |
JP6774912B2 (ja) | 音像生成装置 | |
Palenda et al. | Setup for choir recordings in virtual churches | |
WO2021212287A1 (zh) | 音频信号处理方法、音频处理装置及录音设备 | |
Lee | Position-dependent crosstalk cancellation using space partitioning | |
JP2024007669A (ja) | 音源及び受音体の位置情報を用いた音場再生プログラム、装置及び方法 | |
JP5698110B2 (ja) | マルチチャネルエコー消去方法、マルチチャネルエコー消去装置、およびプログラム | |
JP2023159690A (ja) | 信号処理装置、信号処理装置の制御方法、及びプログラム | |
KR101404411B1 (ko) | 공간 분할을 이용한 위치 의존형 누화 제거 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE Effective date: 20201014 Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201014 |
|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE Effective date: 20201014 Free format text: JAPANESE INTERMEDIATE CODE: A5211 Effective date: 20201014 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220322 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20230118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20230118 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20230207 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20230208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230322 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230509 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230815 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230908 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7352291 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |