JP2023054779A - 空間オーディオキャプチャ内の空間オーディオフィルタリング - Google Patents

空間オーディオキャプチャ内の空間オーディオフィルタリング Download PDF

Info

Publication number
JP2023054779A
JP2023054779A JP2022159369A JP2022159369A JP2023054779A JP 2023054779 A JP2023054779 A JP 2023054779A JP 2022159369 A JP2022159369 A JP 2022159369A JP 2022159369 A JP2022159369 A JP 2022159369A JP 2023054779 A JP2023054779 A JP 2023054779A
Authority
JP
Japan
Prior art keywords
parameter
gain
audio signals
attenuation
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022159369A
Other languages
English (en)
Inventor
ヘンリク マキネン トニ
Henrik Maekinen Toni
タピオ タンミ ミッコ
Tapio Tammi Mikko
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of JP2023054779A publication Critical patent/JP2023054779A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】リスナが体験する結果がより現実的になるような空間オーディオキャプチャを生成する装置及び方法提供する。【解決手段】空間アナライザは、複数マイクロフォンから複数オーディオ信号を取得し、取得した複数オーディオ信号を時間-周波数領域変換すると共に、ストリームオーディオ信号を生成する。空間アナライザはさらに、時間-周波数領域変換された複数オーディオ信号に基づいて、第1音源方向パラメータおよび第1音源エネルギー比パラメータと、第2音源方向パラメータおよび第2音源エネルギー比パラメータを決定し、これらのパラメータとストリームオーディオ信号を多重化してデータストリームを生成する。【選択図】図4

Description

本出願は、空間オーディオキャプチャ内の空間オーディオフィルタリングのための装置および方法に関する。
マイクロフォンアレイを用いた空間オーディオキャプチャは多くの場合、ビデオキャプチャと一緒に、モバイル装置およびカメラなどの多くの最新のデジタル装置において利用される。空間オーディオキャプチャは利用者にマイクロフォンアレイによってキャプチャされたオーディオシーンの体験を提供するために、ヘッドフォンまたはラウドスピーカを用いて再生され得る。
パラメトリック空間オーディオキャプチャ方法は多様なマイクロフォン構成および構成を用いた空間オーディオキャプチャを可能にし、したがって、携帯電話などの消費者デバイスにおいて使用され得る。パラメトリック空間オーディオキャプチャ方法は、複数マイクロフォンからの利用可能な情報を利用して、装置の周囲の空間オーディオフィールドを分析するための信号処理ソリューションに基づく。典型的には、これらの方法がマイクロフォンオーディオ信号を知覚的に分析して、周波数帯域内の関連情報を決定する。この情報は例えば、支配的な音源(または、音源またはオーディオ・オブジェクト)の方向、および、音源エネルギーと全体的な帯域エネルギーとの関係を含む。この決定された情報に基づいて、空間オーディオは例えば、ヘッドフォンまたはラウドスピーカを使用して再生することができる。したがって、最終的に、利用者またはリスナはキャプチャデバイスが記録しているオーディオシーンに存在するかのように、環境オーディオを体験することができる。
オーディオ分析および合成パフォーマンスが良好であればあるほど、利用者またはリスナが体験する結果はより現実的になる。
第1態様によれば、それぞれの複数マイクロフォンから複数オーディオ信号を取得するステップと、前記複数オーディオ信号の1つ以上の周波数帯域において、前記複数オーディオ信号の処理に基づいて、第1音源方向パラメータおよび第1音源エネルギーパラメータを決定するステップと、前記複数オーディオ信号の1つ以上の周波数帯域において、前記複数オーディオ信号の処理に基づいて、第2音源方向パラメータおよび第2音源エネルギーパラメータを決定するステップと、フィルタのための方向および/または範囲を定義する領域を取得するステップと、前記複数オーディオ信号に適用されるべき前記フィルタを生成するステップであって、フィルタ利得/減衰パラメータは、前記第1音源方向パラメータ、前記第1音源エネルギーパラメータ、前記第2音源方向パラメータ、および前記第2音源エネルギーパラメータに関する前記領域に基づいて生成される、ステップと、を実行するように構成された手段を備える装置が提供される。
複数オーディオ信号に適用されるフィルタを生成するように構成された手段であって、フィルタ利得/減衰パラメータは、第1音源方向パラメータ、第1音源エネルギーパラメータ、第2音源方向パラメータ、および第2音源エネルギーパラメータに関連する領域に基づいて生成され、第1音源方向パラメータは領域内または領域外にあることに基づいて第1帯域利得/減衰値を生成し、第2音源方向パラメータは領域内または領域外にあることに基づいて第2帯域利得/減衰値を生成し、第1帯域利得/減衰値と第2帯域利得/減衰値とを組み合わせて、合成帯域利得/減衰値を生成するように構成されることができる。
フィルタのための方向および/または範囲を定義する領域を取得するように構成された手段は、領域を定義する方向および範囲と、音源方向パラメータが領域内にあることに基づく帯域内利得/減衰係数と、音源方向パラメータが領域外にあることに基づく帯域外利得/減衰係数と、音源方向パラメータが領域内にあることに基づく帯域内利得/減衰係数とともに、領域を定義する方向および範囲と、音源方向パラメータがエッジゾーン領域内にあることに基づくエッジゾーン帯域利得/減衰係数とともに、音源方向パラメータが領域外にあることに基づく帯域外利得/減衰係数と、エッジゾーン領域を定義するさらなる範囲とのうちの少なくとも1つを取得するように構成され得る。
前記複数オーディオ信号に適用される前記フィルタを生成するように構成された手段であって、前記第1音源方向パラメータ、前記第1音源エネルギーパラメータ、前記第2音源方向パラメータ、および前記第2音源エネルギーパラメータに関連して前記領域に基づいてフィルタ利得/減衰パラメータが生成される、手段は、前記第1音源エネルギーパラメータの前記平均帯域値の時間平均に基づいて第1時間利得/減衰値を生成し、前記第1音源方向パラメータの前記回数が定義された時間期間にわたって前記領域内にあり、前記第2音源方向パラメータの前記平均帯域値の時間平均、および、前記第2の音源方向パラメータが前記領域内に存在する回数が定義された時間内に存在する回数に基づいて第2時間利得/減衰値を生成し、前記第1時間利得/減衰値と前記第2時間利得/減衰値との組合せに基づいて合成された時間的利得/減衰値を生成して、合成された時間的利得/減衰値を生成するように構成され得る。
複数オーディオ信号に適用されるフィルタを生成するように構成された手段であって、
フィルタ利得/減衰パラメータは、第1音源方向パラメータ、第1音源エネルギーパラメータ、第2音源方向パラメータ、および第2音源エネルギーパラメータに関連する領域に基づいて生成され、フレーム平均化された第1音源エネルギーパラメータとフレーム平均化された第2音源エネルギーパラメータとの組合せに基づいて合成フレーム平均値を生成するように構成され得る。フレーム平均値と、第1及び第2の音源方向パラメータがフレーム期間中にフィルタ領域内にある回数とに基づいてフレーム平滑化利得/減衰を生成することを実行するように構成された手段を備える装置が提供される。
複数オーディオ信号に適用されるフィルタを生成するように構成された手段であって、フィルタ利得/減衰パラメータは、第1音源方向パラメータ、第1音源エネルギーパラメータに関連する領域に基づいて生成される、手段は、第2音源方向パラメータ、および
第2音源エネルギーパラメータは、フレーム平滑化利得/減衰と、合成時間利得/減衰値と、合成帯域利得/減衰値との組合せに基づいて、フィルタ利得/減衰を生成するように構成され得る。
複数オーディオ信号の処理は、複数オーディオ信号に基づいて1つ以上の修正オーディオ信号を提供するように構成され得、複数オーディオ信号の1つ以上の周波数帯域において、複数オーディオ信号の処理に基づいて、第2音源方向パラメータおよび第2音源エネルギーパラメータを決定するように構成された手段は、複数オーディオ信号の1つ以上の周波数帯域において、修正オーディオ信号に基づいて、第2音源方向パラメータおよび第2音源エネルギーパラメータを決定するように構成できる。
複数オーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供するように構成された手段は、第1音源方向パラメータによって定義された第1音源の射影を用いて複数オーディオ信号を修正することに基づいて、修正された複数オーディオ信号を生成するようにさらに構成され得、複数オーディオ信号の1つ以上の周波数帯域において、少なくとも第2音源方向パラメータを、1つ以上の修正されたオーディオ信号の少なくとも一部に少なくとも部分的に基づいて、ように構成される前記手段は、複数オーディオ信号の1つ以上の周波数帯域において、修正された複数オーディオ信号を処理することによって、少なくとも第2音源方向パラメータを決定するように構成される。
フィルタの方向および/または範囲を規定する領域を取得するように構成された手段は、
ユーザ入力に基づいて領域を取得するように構成されてもよい。
第2態様によれば、装置のための方法であって、それぞれの複数マイクロフォンから複数オーディオ信号を取得するステップと、複数オーディオ信号の処理に基づいて、複数オーディオ信号の1つ以上の周波数帯域において、第1音源方向パラメータおよび第1音源エネルギーパラメータを決定するステップと、複数オーディオ信号の処理に基づいて、複数オーディオ信号の1つ以上の周波数帯域において、第2音源方向パラメータおよび第2音源エネルギーパラメータを決定するステップと、フィルタのための方向および/または範囲を定義する領域を取得するステップと、複数オーディオ信号に適用されるフィルタを生成するステップであって、フィルタ利得/減衰パラメータは、第1音源方向パラメータ、第1音源エネルギーパラメータ、第2音源方向パラメータ、および第2音源エネルギーパラメータに関する領域に基づいて生成される、ステップと、を含む方法が提供される。
複数オーディオ信号に適用されるフィルタを生成するステップであって、フィルタ利得/減衰パラメータが、第1音源方向パラメータ、第1音源エネルギーパラメータ、第2音源方向パラメータおよび第2音源エネルギーパラメータに関連する領域に基づいて生成される、ステップは、第1音源方向パラメータが領域内または領域外にあることに基づいて第1帯域利得/減衰値を生成するステップと、第2音源方向パラメータが領域内または領域外にあることに基づいて第2帯域利得/減衰値を生成するステップと、第1帯域利得/減衰値および第2帯域利得/減衰値を組み合わせて、合成された帯域利得/減衰値を生成するステップと、を含むことができる。
フィルタのための方向および/または範囲を定義する領域を取得するステップは、領域を定義する方向および範囲と、音源方向パラメータが領域内にあることに基づいて帯域内利得/減衰係数と、音源方向パラメータが領域外にあることに基づいて帯域外利得/減衰係数と、領域を定義する方向および範囲と、音源方向パラメータが領域内にあることに基づいて帯域内利得/減衰係数と、音源方向パラメータが領域内にあることに基づいた帯域内利得/減衰係数、および、音源方向パラメータが領域外にあることに基づいた帯域外利得/減衰係数が一緒に、領域を定義する方向と範囲と、音源方向パラメータがエッジゾーン領域内にあることに基づいて帯域外利得/減衰係数とが一緒に、エッジゾーン領域を定義するさらなる範囲とのうちの少なくとも1つを含むことができる。
複数オーディオ信号に適用されるフィルタを生成するステップであって、フィルタ利得/減衰パラメータが、第1音源方向パラメータ、第1音源方向パラメータ、第2音源方向パラメータ、および第2音源エネルギーパラメータに関連する領域に基づいて生成される、ステップは、第1音源エネルギーパラメータの平均帯域値の時間平均に基づいて第1時間的利得/減衰値を生成するステップと、第1音源エネルギーパラメータの平均帯域値の時間平均に基づいて第1音源方向パラメータを生成するステップと、第2音源方向パラメータの時間平均帯域値の時間平均および、前記第2の音源方向パラメータが前記領域内に存在する回数が定義された時間内に存在する回数に基づいて第2音源方向パラメータが定義された時間期間にわたって領域内にある回数を生成するステップと、時間的な利得/減衰の合成値を生成するために、第1時間的利得/減衰値と第2時間的利得/減衰値との組合せに基づいて合成時間的利得/減衰値を生成して合成時間的利得/減衰値を生成するステップと、を含むことができる。
複数オーディオ信号に適用されるフィルタを生成するステップは、第1音源方向パラメータ、第1音源エネルギーパラメータ、第2音源方向パラメータ、および第2音源エネルギーパラメータに関連する領域に基づいて生成されたフィルタ利得/減衰パラメータは、フレーム平均化された第1音源エネルギーパラメータとフレーム平均化された第2音源エネルギーパラメータとの組合せに基づいて、合成されたフレーム平均値を生成するステップと、フレーム期間にわたって、合成されたフレーム平均値と、第1および第2音源方向パラメータがフィルタ領域内にある回数と、に基づいて、フレーム平滑化利得/減衰を生成するステップとを含むことができる。
複数オーディオ信号に適用されるフィルタを生成するステップであって、フィルタ利得/減衰パラメータが、第1音源方向パラメータ、第1音源エネルギーパラメータ、第2音源方向パラメータ、および第2音源エネルギーパラメータに関連する領域に基づいて生成される、ステップは、フレーム平滑化利得/減衰と、合成時間利得/減衰値と、合成帯域利得/減衰値との組合せに基づいて、帯域に対するフィルタ利得/減衰を生成するステップを含むことができる。
複数オーディオ信号を処理するステップは、複数オーディオ信号に基づいて1つ以上の修正オーディオ信号を提供するステップを含むことができ、複数オーディオ信号の1つ以上の周波数帯域において、複数オーディオ信号の処理に基づいて、第2音源方向パラメータおよび第2音源エネルギーパラメータを決定するステップは、複数オーディオ信号の1つ以上の周波数帯域において、修正オーディオ信号に基づいて、第2音源方向パラメータおよび第2音源エネルギーパラメータを決定するステップを含むことができる。
複数オーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供するステップは、第1音源方向パラメータによって定義される第1音源の投影を用いて複数オーディオ信号を修正することに基づいて修正された複数オーディオ信号を生成するステップを含むことができる。複数オーディオ信号の1つ以上の周波数帯域において、少なくとも部分的に1つ以上の修正されたオーディオ信号に少なくとも部分的に基づいて少なくとも第2音源方向パラメータを決定するステップは、修正された複数オーディオ信号を処理することによって、複数オーディオ信号の1つ以上の周波数帯域において少なくとも第2音源方向パラメータを決定するステップを含む。
フィルタの方向および/または範囲を画定する領域を取得するステップは、ユーザ入力に基づいて領域を取得するステップを含むことができる。
第3態様によれば、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備える装置が提供され、少なくとも1つのメモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサを用いて、装置に、すくなくとも、それぞれの複数マイクロフォンから複数オーディオ信号を取得させ、複数オーディオ信号の1つ以上の周波数帯域において、複数オーディオ信号の処理に基づいて、第1音源方向パラメータおよび第1音源エネルギーパラメータを決定させ、複数オーディオ信号の処理に基づいて、第2音源方向パラメータおよび第2音源エネルギーパラメータを決定させ、フィルタのための方向および/または範囲を定義する領域を取得させ、複数オーディオ信号に適用されるフィルタを生成させ、ここで、フィルタ利得/減衰パラメータは、第1音源方向パラメータ第1音源エネルギーパラメータ、第2音源方向パラメータ、および、第2音源エネルギーパラメータに関する領域に基づいて、生成される。
複数オーディオ信号に適用されるフィルタを生成させる装置であって、フィルタ利得/減衰パラメータが、第1音源方向パラメータ、第1音源エネルギーパラメータ、第2音源方向パラメータ、および第2音源エネルギーパラメータに関連する領域に基づいて生成される、装置は、第1音源方向パラメータが領域内または領域外にあることに基づいて第1帯域利得/減衰値を生成させ、第2音源方向パラメータが領域内または領域外にあることに基づいて第2帯域利得/減衰値を生成させ、第1帯域利得/減衰値と第2帯域利得/減衰値とを組み合わせて、合成帯域利得/減衰値を生成させることができる。
フィルタの方向および/または範囲を定義する領域を取得させる装置は、音源方向パラメータが領域内にあることに基づく帯域内利得/減衰係数を有する、領域を定義する方向および範囲と、音源方向パラメータが領域外にあることに基づく帯域外利得/減衰係数と、音源の方向パラメータが領域内にあることに基づく帯域内利得/減衰係数を有する、領域を定義する方向および範囲と、音源方向パラメータが領域外にあることに基づく帯域外利得/減衰係数と、エッジゾーン領域内にある音源方向パラメータに基づくエッジゾーン帯域利得/減衰係数と、を有するエッジゾーン領域を定義する更なる範囲と、のうちの少なくとも1つを、取得することができる。
複数オーディオ信号に適用されるフィルタを生成することを引き起こされる装置であって、フィルタ利得/減衰パラメータが、第1音源方向パラメータ、第1音源エネルギーパラメータ、第2音源方向パラメータ、および、第2音源エネルギーパラメータに関連する領域に基づいて生成される、装置は、第1音源エネルギーパラメータの平均帯域値の時間平均に基づいて第1時間的利得/減衰値を生成するステップであって、前記第1の音源方向パラメータが前記領域内に存在する回数が、定義された時間内に存在する回数である、ステップと、第2音源エネルギーパラメータの平均帯域値の時間平均に基づいて第2時間的利得/減衰値を生成するステップであって、前記第2の音源方向パラメータが前記領域内に存在する回数が、定義された時間内に存在する回数である、ステップと、合成時間的利得/減衰値を生成するために、第1時間的利得/減衰値と第2時間的利得/減衰値との組合せに基づいて、合成時間的利得/減衰値を生成するステップと、を実行することができる。
複数オーディオ信号に適用されるフィルタを生成する装置であって、フィルタ利得/減衰パラメータが、第1音源方向パラメータ、第1音源エネルギーパラメータ、第2音源方向パラメータ、および第2音源エネルギーパラメータに関する領域に基づいて生成される、装置は、フレーム平均化された第1音源エネルギーパラメータとフレーム平均化された第2音源エネルギーパラメータとの組合せに基づいて、合成フレーム平均値を生成するステップと、合成フレーム平均値、および、フレーム期間にわたって、第1および第2音源方向パラメータがフィルタ領域内にある回数に基づいて、フレーム平滑化利得/減衰を生成するステップと、を実行することができる。
複数オーディオ信号に適用されるフィルタを生成する装置であって、フィルタ利得/減衰パラメータは、第1音源方向パラメータ、第1音源エネルギーパラメータ、第2音源方向パラメータ、および第2音源エネルギーパラメータに関する領域に基づいて生成される、装置は、フレーム平滑化利得/減衰、合成時間利得/減衰値、および合成帯域利得/減衰値の組合せに基づいて帯域のフィルタ利得/減衰を生成するステップを実行することができる。
複数オーディオ信号の処理は、複数オーディオ信号に基づいて1つ以上の修正オーディオ信号を提供するように構成されることができ、複数オーディオ信号の1つ以上の周波数帯域において、複数オーディオ信号の処理に基づいて第2音源方向パラメータおよび第2音源エネルギーパラメータを決定する装置は、複数オーディオ信号の1つ以上の周波数帯域において、修正オーディオ信号に基づいて第2音源方向パラメータおよび第2音源エネルギーパラメータを決定することができる。
複数オーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供することを引き起こされる装置はさらに、第1音源方向パラメータによって定義される第1音源の投影を用いて複数オーディオ信号を修正することに基づいて、修正された複数オーディオ信号を生成するステップを実行することができる。複数オーディオ信号のうちの1つ以上の周波数帯域において、少なくとも1つ以上の修正されたオーディオ信号に少なくとも部分的に基づいて、少なくとも第2音源方向パラメータを決定する装置は、修正された複数オーディオ信号を処理することによって、複数オーディオ信号のうちの1つ以上の周波数帯域において、少なくとも第2音源方向パラメータを決定する。
フィルタの方向および/または範囲を定義する領域を取得する装置は、ユーザ入力に基づいて領域を取得させることができる。
第4の態様によれば、それぞれの複数マイクロフォンから複数オーディオ信号を取得するための手段と、前記複数オーディオ信号の1つ以上の周波数帯域において、前記複数オーディオ信号の処理に基づいて、第1音源方向パラメータおよび第1音源エネルギーパラメータを決定するための手段と、前記複数オーディオ信号の処理に基づいて、前記複数オーディオ信号の1つ以上の周波数帯域において、第2音源方向パラメータおよび第2音源エネルギーパラメータを決定するための手段と、フィルタのための方向および/または範囲を定義する領域を取得するための手段と、前記複数オーディオ信号に適用されるべき前記フィルタを生成するための手段とを備える装置が提供される。ここで、フィルタ利得/減衰パラメータは、前記第1音源方向パラメータ、前記第1音源エネルギーパラメータ、
前記第2音源方向パラメータ、および前記第2音源エネルギーパラメータに関する前記領域に基づいて生成される。
第5の態様によれば、装置に、それぞれの複数マイクロフォンから複数オーディオ信号を取得するステップと、前記複数オーディオ信号の処理に基づいて、前記複数オーディオ信号の1つ以上の周波数帯域において、第1音源方向パラメータおよび第1音源エネルギーパラメータを決定するステップと、前記複数オーディオ信号の処理に基づいて、前記複数オーディオ信号の1つ以上の周波数帯域において、第2音源方向パラメータおよび第2音源エネルギーパラメータを決定するステップと、フィルタのための方向および/または範囲を定義する領域を取得するステップと、前記複数オーディオ信号に適用される前記フィルタを生成するステップと、を少なくとも実行させるための命令[またはプログラム命令を備えるコンピュータ可読媒体]を備えるコンピュータプログラムが提供される。ここで、
第1音源方向パラメータ、第1音源エネルギーパラメータ、第2音源方向パラメータ、および、第2音源エネルギーパラメータに関連する領域に基づいてフィルタのゲイン/減衰パラメータが生成される。
第6の態様によれば、装置に、それぞれの複数マイクロフォンから複数オーディオ信号を取得することと、複数オーディオ信号の処理に基づいて、複数オーディオ信号の1つ以上の周波数帯域において、第1音源方向パラメータおよび第1音源エネルギーパラメータを決定することと、複数オーディオ信号の処理に基づいて、複数オーディオ信号の1つ以上の周波数帯域において、第2音源方向パラメータおよび第2音源エネルギーパラメータを決定することと、フィルタのための方向および/または範囲を定義する領域を取得することと、複数オーディオ信号に適用されるフィルタを生成することと、を少なくとも実行させるためのプログラム命令を備える非一時的コンピュータ可読媒体が提供され、ここで、フィルタ利得/減衰パラメータは、第1音源方向パラメータ、第1音源エネルギーパラメータ、第2音源方向パラメータ、および第2音源エネルギーパラメータに関する領域に基づいて生成される。
第7の態様によれば、それぞれの複数マイクロフォンから複数オーディオ信号を取得するように構成された取得回路と、前記複数オーディオ信号の1つ以上の周波数帯域において、
前記複数オーディオ信号の処理に基づいて、第1音源方向パラメータおよび第1音源エネルギーパラメータを決定するように構成された決定回路と、前記複数オーディオ信号の処理に基づいて、前記複数オーディオ信号の1つ以上の周波数帯域において、第2音源方向パラメータおよび第2音源エネルギーパラメータを決定するように構成された決定回路と、フィルタのための方向および/または範囲を定義する領域を取得するように構成された取得回路と、前記複数オーディオ信号に適用されるべき前記フィルタを生成するように構成された生成回路とを備える、装置が提供される。ここで、フィルタ利得/減衰パラメータは、前記第1音源方向パラメータ、前記第1音源エネルギーパラメータ、前記第2音源方向パラメータ、および前記第2音源エネルギーパラメータに関する前記領域に基づいて生成される、
第8の態様によれば、装置に、それぞれの複数マイクロフォンから複数オーディオ信号を取得することと、複数オーディオ信号の処理に基づいて、複数オーディオ信号の1つ以上の周波数帯域において、第1音源方向パラメータおよび第1音源エネルギーパラメータを決定することと、複数オーディオ信号の処理に基づいて、第2音源方向パラメータおよび第2音源エネルギーパラメータを決定することと、フィルタのための方向および/または範囲を定義する領域を取得することと、複数オーディオ信号に適用されるフィルタを生成することと、を少なくとも実行させるためのプログラム命令を備えるコンピュータ可読媒体が提供される。ここで、フィルタ利得/減衰パラメータは、第1音源方向パラメータ、第1音源エネルギーパラメータ、第2音源方向パラメータ、および第2音源エネルギーパラメータに関する領域に基づいて生成される。
本願装置は、上述のような動作を実行するための手段を含む。
本願装置は、上述のような方法の動作を実行するように構成される。
本願コンピュータプログラムは、コンピュータに上述の方法を実行させるためのプログラム命令を含む。
媒体上に格納されたコンピュータプログラム製品は、装置に、本明細書で説明する方法を実行させることができる。
電子デバイスは、本明細書で説明されるような装置を備えることができる。
チップセットは、本明細書に記載の装置を備えることができる。
本出願の実施形態は、最新技術に関連する課題に対処することを目的とする。
本出願をより良く理解するために、ここで、例として添付の図面を参照する。
図1は、いくつかの実施形態による空間キャプチャおよび再生を実装するための例示的な装置を概略的に示す。 図2は、いくつかの実施形態による、図1に示される装置の動作のフロー図を示す。 図3は、いくつかの実施形態による、図1に示されるような例示的な空間アナライザを概略的に示す。 図4は、いくつかの実施形態による、図3に示される例示的な空間アナライザの動作の流れ図を示す。 図5は、音源が関心ゾーン内または外に位置する例示的な状況を示す。 図6は、空間フィルタの信号レベルのグラフ例を示す。 図7は、いくつかの実施形態による、2つの音源方向推定に基づいて、音源が関心ゾーン内にあることを決定する空間フィルタリング動作のフロー図を示す。 図8は、いくつかの実施形態による、2つの音源方向推定に基づく空間フィルタリングのフロー図を示す。 図9は、いくつかの実施形態による、図2に示されるような例示的空間シンセサイザを概略的に示す。 図10および図11は実施形態を実施するのに適した先の図に示されるような装置を備える装置の例示的なシステムを概略的に示す。 図10および図11は実施形態を実施するのに適した先の図に示されるような装置を備える装置の例示的なシステムを概略的に示す。 図12は、示される装置を実施するのに適した例示的なデバイスを概略的に示す。
以下の実施形態に関して本明細書でさらに詳細に説明する概念は、オーディオシーンのキャプチャに関する。例えば、以下の実施形態は、物/ソース関連オーディオ信号を決定するように構成されたキャプチャデバイス側内に実装することができる。例えば、いくつかの実施形態では、関心のあるセクタ/ゾーンに関する2つのソース方向推定値およびそれらの関連する直接周囲エネルギー比が、オブジェクト/ソース関連オーディオ信号を「フィルタリング」するためにフィルタ利得/減衰量を決定する際に使用され得る。この空間フィルタリングはオブジェクトオーディオ信号を生成するために、従来のビームフォーミングの代わりに(またはそれに加えて)使用され得る。以下の実施形態ではフィルタ利得パラメータについて説明するが、これらの同じアプローチを使用してフィルタ減衰パラメータを生成することができる。
さらに、以下の実施形態は、キャプチャされたオーディオが「ズーム」または「フォーカス」によって処理される再生デバイス内に実装することもできる。さらに、空間フィルタリングは、空間オーディオ信号合成動作の任意の部分として実施することができる。
以下の説明では、音源という用語が音場(またはオーディオシーン)内の(人工的または実際の)定義された要素を説明するために使用される。音源という用語はオーディオ・オブジェクトまたはオーディオ・ソースとして定義することもでき、これらの用語は、本明細書で説明する例の実装形態の理解に関して交換可能である。
本明細書の実施形態は、空間オーディオキャプチャ(SPAC)技術などのパラメトリックオーディオキャプチャ装置および方法に関する。時間-周波数タイルごとに、装置は支配的な音源の方向と、音源の直接および周囲成分の相対エネルギーとを推定するように構成され、これらは直接-全エネルギー比として表される。
以下の例は典型的なモバイルデバイス内に見られるような、困難なマイクロフォン構成または構成を有するデバイスに適しており、モバイルデバイスの寸法は、典型的には他の寸法に対して少なくとも1つの短い(または薄い)寸法を含む。本明細書に示される例では、
キャプチャされた空間オーディオ信号が、ヘッドホンリスニングのためのバイノーラルフォーマットオーディオ信号などの空間オーディオ信号を生成するために、またはラウドスピーカリスニングのためのマルチチャネル信号フォーマットオーディオ信号を生成するために、空間シンセサイザに適した入力である。
いくつかの実施形態では、これらの例が、IVAS互換オーディオ信号およびメタデータを生成することによって、イマーシブボイスアンドオーディオサービス(IVAS)標準コーデックのための空間キャプチャフロントエンドの一部として実装され得る。
オーディオシーン(空間オーディオ環境)は複合体であることができ、異なるスペクトル特性を有するいくつかの同時オーディオまたはサウンドソースを備えることができる。加えて、強いバックグラウンドノイズは、音源の方向を決定することを困難にし得る。これは(捕捉されたオーディオ信号によって表される)オーディオ技術分野をフィルタリングする際に問題を引き起こす可能性があり、これは、また、可聴音場からフィルタリングされる(または減衰される)はずのオーディオ技術分野内の音要素も、空間オーディオ分析の精度や信頼性が不十分なために、処理後の出力に漏れてしまうことを意味する。
さらに、同時音源、エコー、周囲音環境などの現実のオーディオ記録状況は、所望の音方向を良好なオーディオ品質で増幅および/または減衰することを困難にすることが多い。典型的には、空間オーディオキャプチャ方法では周波数帯域当たりの単一方向推定値のみが決定され、フィルタに渡される。したがって、同じ周波数帯域内に存在する2つの同時音方向に関連するオーディオ信号成分を区別し、したがって増幅/減衰することは、困難であるか、または事実上不可能であり得る。2つの同時オーディオソースのうちの少なくとも1つの方向が未知のままであるので、いわゆるオーディオズームまたはオーディオ集束アルゴリズムのためのさらなる問題が存在し得、その目的は指定された方向からのみ到着するオーディオ信号成分(音)を増幅し、他の方向を減衰させることである。「未知の」音源方向はズーム方向またはその付近に位置し得るが、適切なDOA推定なしに増幅することはできない。それに対応して、他の方向の効率的な減衰量は両方の音源のDOA推定値を必要とし、そうでない場合、アルゴリズムは、ズーム方向から遠い他の方向に位置する他の音源の単一のDOA推定値に基づいて、ズーム方向またはその付近の他の音源も偶然に減衰量させ得る。
本明細書で説明される実施形態は、各周波数帯域について改善された(複数の)2方向推定方法を実施することによって、ユーザによって要求されるように音源が増幅および/または減衰され得る方法を改善することを目的とする。推定方法は、フィルタリングのためのオーディオ環境および音源方向についての追加情報を提供する。言い換えれば、サブバンドごとに(複数の)2つの方向推定値およびそれらの直接周囲エネルギー比を提供し、より効率的な空間フィルタリングを可能にする。増大された効率は、(全ての)DOA推定値およびそれらのエネルギー比の両方に対応する計算されたフィルタリング利得を組み合わせることに基づく。これは、代わりに、知覚されるオーディオズーム効果を増大および強化し、オーディオズームが音源の数および位置に関してより複雑なサウンド環境において使用されることを可能にする。実施形態はさらに、フィルタリング利得/減衰量の改善された導出に起因して、知覚されるオーディオ品質を改善することを目的とする。改善は、現在時刻フレームのためのフィルタリング利得を形成するときに、少なくとも1つの前のフレームのDOA推定値(例えば、最後の40フレームからのDOA推定値)および(すべての)両方向のエネルギー比を考慮に入れることができることから生じる。
したがって、実施形態は、フィルタリングまたは減衰されるべきであった方向からの出力への「妨害」フィルタ漏れを防止することを目的とする。したがって、これは、知覚されるオーディオズーム効果を強化し、キャプチャ内にいくつかの音源が存在するときに、ユーザ体験を混乱させることを防止する。さらに、ターゲット(焦点)方向は、複雑な環境において他の音方向に対して効率的に増幅することができ、再度、ズーム効果体験を強化する。
したがって、本明細書で説明される実施形態は、複数マイクロフォンを用いたパラメトリック空間オーディオキャプチャに関する。さらに、少なくとも2つの方向およびエネルギー比パラメータが、複数マイクロフォンからのオーディオ信号に基づいて、時間周波数タイルごとに推定される。
これらの実施形態では、複数の音源方向検出精度の改善を達成するために、第2方向を推定するときに、第1推定された方向の効果が考慮される。これは、いくつかの実施形態では合成された空間オーディオの知覚品質の改善をもたらすことができる。
したがって、EP3791605に記載されているような同様の技術を使用することが可能であるが、本明細書に記載されているように実施することができる。
実際には、本明細書に記載の実施形態が、空間的により安定であり、(それらの正しい位置または実際の位置に関して)より正確であると知覚される音源の推定値を生成する。
図1に関して、本明細書に記載される実施形態を実施するのに適した装置の模式図が示される。
この例では、マイクロフォンアレイ101を備える装置が示される。マイクロフォンアレイ101は、オーディオ信号を捕捉するように構成された複数(2つ以上)のマイクロフォンを備える。マイクロフォンアレイ内のマイクロフォンは、任意の適切なマイクロフォンタイプ、配置、または配置であり得る。マイクロフォンアレイ101によって生成されたマイクロフォンオーディオ信号102は、空間アナライザ103に渡すことができる。
ホン装置はマイクロフォンオーディオ信号102を受信するか、そうでなければ取得するように構成された空間アナライザ103を備えることができ、各時間-周波数ブロックについて少なくとも2つの支配的な音またはオーディオソースを決定するために、マイクロフォンオーディオ信号を空間的に分析するように構成される。
空間アナライザは、いくつかの実施形態ではモバイルデバイスまたはコンピュータのCPUであり得る。空間アナライザ103は、分析された空間情報104のメタデータと同様にオーディオ信号を含むデータストリームを生成するように構成される。
使用事例に応じて、データストリームは、格納または圧縮され、別の場所に送信され得る。
装置はさらに、空間シンセサイザ105を備える。空間シンセサイザ105は、オーディオ信号およびメタデータを含むデータストリームを取得するように構成される。いくつかの実施形態では、空間シンセサイザ105が(本明細書で図1に示すように)空間アナライザ103と同じ装置内に実装されるが、いくつかの実施形態ではさらに、異なる装置またはデバイス内に実装することができる。
空間シンセサイザ105は、CPUまたは同様のプロセッサ内に実装することができる。空間シンセサイザ105は、データストリーム104からのオーディオ信号および関連するメタデータに基づいて出力オーディオ信号106を生成するように構成される。
さらに、使用事例に応じて、出力信号106は、任意の適切な出力フォーマットとすることができる。例えば、いくつかの実施形態では、出力フォーマットがバイノーラルヘッドホン信号(同様、出力オーディオ信号を提示する出力装置はヘッドホン/イヤホンまたは同様のものセットである)、またはマルチチャネルラウドスピーカオーディオ信号(同様、出力装置はスピーカのセットである)である。出力デバイス107(上述のように、例えば、ヘッドフォンまたはラウドスピーカであり得る)は、出力オーディオ信号106を受信し、リスナまたはユーザに出力を提示するように構成され得る。
図1に示される例示的な装置のこれらの動作は図2に示されるフロー図によって示され得る。したがって、例示的な装置の動作は以下のように要約される。
ステップ201によって、図2に示されるようなマイクロフォンオーディオ信号を取得する。
マイクロフォンオーディオ信号を空間的に分析して、ステップ203によって図2に示されるように、各時間-周波数タイルについて、第1および第2オーディオソースの方向およびエネルギー比を含む空間オーディオ信号およびメタデータを生成する。
空間合成を空間オーディオ信号に適用して、ステップ205によって図2に示されるような適切な出力オーディオ信号を生成する。
ステップ207によって、図2に示されるように、出力オーディオ信号を出力デバイスに出力する。
いくつかの実施形態では、空間分析がIVASコーデックに関連して使用することができる。この例では、空間分析出力がIVASエンコーダに直接供給することができるIVAS互換MASA(メタデータ支援空間オーディオ)フォーマットである。IVASエンコーダは、IVASデータストリームを生成する。受信端において、IVASデコーダは、所望の出力オーディオフォーマットを直接生成することができる。言い換えれば、そのような実施形態では、別個の空間合成ブロックは存在しない。
参照番号103によって図1に示される空間アナライザは、図3に関してさらに詳細に示される。
いくつかの実施形態では、空間アナライザ103がストリーム(搬送)オーディオ信号生成器307を備える。ストリームオーディオ信号生成器307はマイクロフォンオーディオ信号102を受信し、マルチプレクサ309に渡されるストリームオーディオ信号308を生成するように構成される。オーディオストリーム信号は、任意の適切な方法に基づいて入力マイクロフォンオーディオ信号から生成される。たとえば、いくつかの実施形態では、1つまたは2つのマイクロフォン信号がマイクロフォンオーディオ信号102から選択され得る。代替として、いくつかの実施形態では、マイクロフォンオーディオ信号102がストリームオーディオ信号308を生成するためにダウンサンプリングおよび/または圧縮され得る。
以下の例では、空間分析は周波数領域で実行されるが、いくつかの実施形態では分析がマイクロフォンオーディオ信号の時間領域サンプリングバージョンを使用して時間領域で実施することもできることが理解される。
いくつかの実施形態では、空間アナライザ103が時間周波数変換器301を備える。時間周波数変換器301はマイクロフォンオーディオ信号102を受信し、それらを周波数領域に変換するように構成される。いくつかの実施形態では、変換前に、時間領域マイクロフォンオーディオ信号はtが時間インデックスであり、iがマイクロフォンチャンネルインデックスである、s(t)として表すことができる。

周波数領域への変換は、STFT(Short-time Fourier transform)またはQMF(Quadrature mirror filter)などの任意の適切な時間-周波数変換によって実施することができる。結果として生じる時間-周波数領域マイクロフォン信号302は、S(b,n)として示される。iは、マイクロフォンチャネルインデックスであり、bは、周波数ビンインデックスであり、nは、時間フレームインデックスである。bの値は、0、..、B-1の範囲にあり、ここで、Bは、各時間インデックスnにおけるビンインデックスの数である。
周波数ビンはさらに、サブバンドk=0、..、K-1に結合することができる。各サブバンドは、1つ以上の周波数ビンからなる。各サブバンドkは、最低のビンbk,lowと、最高のビンbk,highとを有する。サブバンドの幅は典型的には人間の聴力の特性に基づいて選択され、例えば、等価矩形帯域幅(ERB)またはバークスケールを使用することができる。
いくつかの実施形態では、空間アナライザ103が第1方向アナライザ303を備える。第1方向アナライザ303は、時間-周波数領域マイクロフォンオーディオ信号302を受信し、(第1)第1方向314および(第1)第1比率316の時間-周波数区画ごとに第1音源の推定値を生成するように構成される。
第1方向アナライザ303は、(US9313599にさらに詳細に記載されているように)SPACのような任意の適切な方法に基づいて、第1方向についての推定値を生成するように構成される。
いくつかの実施形態では、例えば、時間的フレームインデックスの最も支配的な方向は、
サブバンドkの2つの(マイクロフォンオーディオ信号)チャネル間の相関を最大化する時間シフトτを探索することによって推定される。S(b,n)は、τサンプルによって、
Figure 2023054779000002
のようにシフトすることができる。次いで、2つのマイクロフォンチャネル間の相関を最大化する各サブバンドkについての遅延τを求める。
Figure 2023054779000003
上記の式において、「最適である」遅延は、マイクロフォン1と2との間で探索される。Reは結果の実部を示し、*は信号の複素共役である。遅延探索範囲パラメータDmaxは、マイクロフォン間の距離に基づいて定義される。言い換えれば、τの値は、マイクロフォン間の距離および音速を考慮して物理的に可能な範囲でのみ探索される。
次いで、第1方向の角度は、
Figure 2023054779000004
のように定義することができる
示されるように、角度の符号の不確実性が依然として存在する。上記では、マイクロフォン1とマイクロフォン2との間の方向分析を定義した。次いで、他のマイクロフォンペア間でも同様の手順を繰り返して、曖昧さを解消する(および/または別の軸を参照して方向を得る)ことができる。言い換えれば、他の分析ペアからの情報を利用して、
Figure 2023054779000005
における、符号の曖昧さを取り除くことができる。
例えば、マイクロフォンアレイが3つのマイクロフォンを含む場合、第1マイクロフォン、第2マイクロフォン、および第3マイクロフォンは、第1軸において距離だけ離間された第1対のマイクロフォン(第1マイクロフォンおよび第3マイクロフォン)と、第2軸において距離だけ離間された第2対のマイクロフォン(第1マイクロフォンおよび第2マイクロフォン)とがある構成で配置される(この例では第1軸は第2軸に対して垂直である)。さらに、この例では、3つのマイクロフォンが、第1および第2軸に垂直な(図が印刷される紙面に垂直である)ものとして定義される同じ第3軸上にあることができる。マイクロフォンの第2対の間の遅延の分析は、2つの代替的な角度、αおよび-αをもたらす。第2対のマイクロフォン間の遅延の分析を使用して、代替角度のうちのどれが正しいかを決定することができる。いくつかの実施形態では、この分析から必要とされる情報が、音が最初にマイクロフォン1または3に到着するかどうかである。音がマイクロフォン3に到達する場合、角度αは正しい。そうでない場合、-αが選択される。
さらに、いくつかのマイクロフォン対の間の推論に基づいて、第1空間アナライザは、正しい方向角度
Figure 2023054779000006
を決定または推定することができる。
限られたマイクロフォン構成または配置、例えば2つのマイクロフォンのみが存在するいくつかの実施形態では、方向の曖昧さを解決することができない。そのような実施形態では、空間アナライザがすべてのソースが常に装置の前にあることを定義するように構成される。この状況は3つ以上のマイクロフォンがある場合にも同じであるが、それらの位置は例えば裏分析を可能にしない。
本明細書では開示されていないが、垂直軸上のマイクロフォンの複数の対は仰角および方位角推定値を決定することができる。
第1方向アナライザ303はさらに、例えば、
Figure 2023054779000007
によって、それを正規化した後の相関値を使用して、角度に対応するエネルギー比を決定または推定することができる。
値は-1~1であり、典型的には、0~1にさらに制限される。
いくつかの実施形態では、第1方向アナライザ303が修正された時間周波数マイクロフォンオーディオ信号304を生成するように構成される。修正された時間周波数マイクロフォンオーディオ信号304は、第1音源成分がマイクロフォン信号から除去されるものである。
したがって、例えば、第1マイクロフォン対(マイクロフォン1および2)に関して。
サブバンドkについては最高の相関を提供する遅延が各サブバンドkについて、第2マイクロフォン信号はシフトされた第2マイクロフォン信号を得るためにシフトされたサンプルである。
音源成分の推定値は、これらの時間整合された信号の平均
Figure 2023054779000008
として決定することができる。
いくつかの実施形態では、音源成分を決定するための任意の他の適当な方法を使用することができる。
(例えば、上記の例の式において)音源成分の推定値を決定すると、これをマイクロフォンオーディオ信号から除去することができる。一方、同時音源は同相ではなく、そのため、同時音源は減衰される。これで、(シフトされた、およびシフトされていない)マイクロフォン信号
Figure 2023054779000009
から低減することができる。さらに、シフトされた修正されたマイクロフォンオーディオ信号は、シフトバックされて
Figure 2023054779000010
、サンプル
Figure 2023054779000011
を取得する
これらの修正された信号
Figure 2023054779000012
および
Figure 2023054779000013
は、次いで、第2方向アナライザ305に渡され得る。
いくつかの実施形態では、空間アナライザ103が第2方向アナライザ305を備える。第2方向アナライザ305は、時間周波数マイクロフォンオーディオ信号302、修正された時間周波数マイクロフォンオーディオ信号304、第1方向314、および第1比316を推定し、第2方向324および第2比326推定値を生成するように構成される。
第2方向パラメータ値の推定は第1方向推定と同じサブバンド構造を採用することができ、
第1方向推定について前述したのと同様の動作に従うことができる。
したがって、第2方向パラメータを推定することが可能である。そのような実施形態では、
修正された時間周波数マイクロフォンオーディオ信号304
Figure 2023054779000014
および
Figure 2023054779000015
が、時間周波数マイクロフォンオーディオ信号302ではなく、方向推定を決定するために使用される。
さらに、いくつかの実施形態ではエネルギー比は限定されるが、第1および第2比の合計は2つ以上になるべきではない。
いくつかの実施形態では、第2比は
Figure 2023054779000016
または
Figure 2023054779000017
ここで、関数minは、提供された選択肢のうちの小さい方を選択する。両方の代替オプションは、良好な品質比値を提供することが分かっている。
上記の例では、いくつかのマイクロフォン対があるので、修正された信号は各対、すなわち、
Figure 2023054779000018
について別々に計算されなければならず、すなわち、
マイクロフォン対マイクロフォン1および3、または対マイクロフォン1および2を考慮するとき、同じ信号ではないことに留意されたい。
第1方向推定値314、第1比推定値316、第2方向推定値324、第2比推定値326は、推定値とストリームオーディオ信号308とを組み合わせることからデータストリーム104を生成するように構成されたマルチプレクサ(mux)309に渡される。
図4に関して、図3に示される空間アナライザの例示的な動作を要約する流れ図が示される。
マイクロフォンオーディオ信号は、ステップ401によって図4で示すように得られる。
次いで、ステップ402によって、図4に示すように、マイクロフォンオーディオ信号からストリームオーディオ信号が生成される。
マイクロフォンオーディオ信号はさらに、ステップ403によって、図4に示されるように、時間-周波数領域変換され得る。
次いで、ステップ405によって、図4に示すように、第1方向および第1比パラメータ推定値を決定することができる。
次いで、ステップ407によって、図4に示すように、時間周波数領域マイクロフォンオーディオ信号を修正する(第1ソース成分を除去する)ことができる。
次いで、ステップ409によって、図4に示されるように、修正された時間周波数領域マイクロフォンオーディオ信号が、第2方向および第2比パラメータ推定値を決定するために分析される。
次いで、ステップ411によって、図4に示されるように、第1方向、第1比、第2方向、および第2比パラメータ推定値およびストリームオーディオ信号が多重化されて、データストリーム(MASAフォーマットデータストリームであり得る)が生成される。
以下の例では、いくつかの利得パラメータが決定または計算され、フィルタリング処理を調整するように設定される空間フィルタリング方法および装置が説明される。これらの利得は、帯域ごとの利得、履歴ベースの(時間的)利得、およびフレームベースの平滑化利得に分割され得る。
以下の例では、サブバンドごとの2つの推定された方向(DOA)が直接周囲(DA)比推定値を与えられ、これは基本的に、対応する方向推定値のうちのどれだけ大きい部分が「直接」信号部分と見なされ、どれだけが「周囲」信号部分と見なされるかを示す。これらの例では直接という用語が音源から直接到着する信号を指し、周囲は環境内に存在するエコーおよびバックグラウンドノイズを指す。各サブバンドbに対する信号の直接成分および周囲成分は範囲[0,1]を有することができ、
Figure 2023054779000019
のように定義される。
いくつかの実施形態では、方法が、2つの方向推定値のいずれかまたは両方が関心セクタの内側に位置しないかどうかを、サブバンドを通してチェックすることによって、空間フィルタリングゾーン(焦点の関心セクタまたはズームセクタとしても定義され得る)の方向および範囲を取得した後に開始する。以下の例では、空間フィルタリングが関心のあるセクタ内のオーディオ信号が関心のあるセクタの外側のオーディオ信号に対して増加される、ポジティブノッチフィルタリングである。しかしながら、いくつかの実施形態では、空間フィルタリングは負のノッチフィルタリングであり、関心のあるセクタ内のオーディオ信号は関心のあるセクタの外側のオーディオ信号と比較して減少する。2つの間の差異は、
セクタ利得がポジ型の空間切り欠きフィルタをもたらすセクタ外利得よりも大きいかどうか、または、セクタ利得が負の空間切り欠きフィルタをもたらすセクタ外利得よりも小さいかどうかであることが理解されよう。
これら3つの主要なシナリオの簡略化された図が、図5に関して示される。
この例では音はセクタ内で増幅され、セクタ外で減衰されるが、処理は方向推定のDA比によっても著しく影響される。
例えば、DA比推定値は、実際の方向推定値に対する重みとして考えることができる。以下の表中の数字は、フィルタ例利得G(b)を導出することに対するそれらの効果の基本原理を実証するための例にすぎない。最初の2つの列は2つのソースのいずれかが周囲のような音として推定される場合を示しており、これは、その方向推定がフィルタリングのためにそのように使用されるべきではないことを意味する。
Figure 2023054779000020
したがって、低いDA比値は対応する方向推定が実際の音源によって引き起こされない可能性があることを示すことができ、いくつかのケースではキャプチャ中に活性直接音源がないか、または1つの音源のみがある。いくつかの実施形態では、セクタエッジはまた、セクタエッジにおける急激な利得変化を回避するために、適用されたサブバンド利得が線形に平滑化される領域を有することができる。
したがって、図5に示されるように、第1シナリオ501があり、両方の音源がセクタ内にあり、その結果、各方向推定g1(b)に対応するフィルタリング利得が生じ、g2(b)が両方とも1より大きく、したがって、空間利得G(b)が1より大きい値を生じる。
第2シナリオ503が示されており、音源のうちの1つは一方向推定(第1g1(b))に対応するセクタフィルタリング利得内にあり、他方(第2g2(b))は1よりも大きく、したがって、空間利得G(b)は1に近似する値をもたらす。
さらに、第3シナリオ505が示されており、音源の両方がセクタの外側にあり、その結果、各方向推定g1(b)に対応するフィルタリング利得が得られ、g2(b)が1未満であり、したがって、空間利得G(b)が1未満の値になる。
いくつかの実施形態では、任意のエネルギー調整前の入力信号スペクトルX(b)のサブバンドbのエネルギーが以下のように推定することができる。
Figure 2023054779000021
ここで、
Figure 2023054779000022
は時間フレーム間のエネルギーレベルを平滑化するために、前の時間フレームエネルギーのどれだけ大きな部分が含まれるかを定義する。各サブバンドbにおけるエネルギーは最初のフレームの前に、
Figure 2023054779000023
に初期化することができる。
いくつかの実施形態では、帯域利得が帯域の方向推定d1およびd2に基づいて、サブバンドbごとに導出される。方向推定値は、フォーカスセクタの内側、フォーカスセクタの外側、またはセクタエッジの近くの領域(いわゆるエッジゾーン)に位置し得る。サブバンドbのための第1方向推定d1のための直接エネルギー成分は、以下のように修正することができる。
Figure 2023054779000024
ここで、inGainおよびoutGainは、調整可能であり、および/または、ユーザ定義パラメータであり、焦点セクタの内側および外側のソースの焦点効果強度を制御し、
Figure 2023054779000025
ここで、angleDiff1は第1方向推定d1とセクタエッジとの間の観測された角度差であり、一方、edgeWidthはエッジゾーンの幅、例えば、20度である。さらに、いくつかの実施形態では、サブバンドbのための第1方向推定のための周囲信号部分が以下のように変更され得る。
Figure 2023054779000026
その後、サブバンドbの総エネルギー調整が計算される。
Figure 2023054779000027
エネルギー調整後の帯域bについて、最初のフレームの前に0に初期化される目標エネルギーは、次のように定義することができる。
Figure 2023054779000028
その後、第1方向推定d1に対応するサブバンドbの実際のバンド利得値は、
Figure 2023054779000029
として計算される。
第2方向推定d2を考慮に入れるために、g2(b)利得値はg1(b)値と同様に計算され、その後、利得は全体的な帯域利得
Figure 2023054779000030
を得るために乗算される。
さらに、いくつかの実施形態では、時間にわたってフィルタリング利得を平滑化するために、時間フィルタリング利得が両方向推定d1およびd2のためのサブバンドごとに計算される。これにより、フィルタゲイン全体で不自然なポンプや切り欠きが発生するのを防ぐ。多くの場合、推定された音源DA比値はサブバンドにわたって変化し得、そのため、フィルタリング周波数範囲全体にわたってDA比を平均することは音環境が現在時刻フレームfにおいてどの程度周囲環境にあるかの良好な推定を提供する。比率平均値は以下のように、第1方向推定のために各フレームで計算される。
Figure 2023054779000031
ここで、blowはフィルタリングされるべき最も高い周波数サブバンドであり、bhighは、最も高い周波数サブバンドをhighする(low)。加えて、過去の比率平均値の追跡が好ましい数の過去のフレーム、すなわち、ユーザ定義および/または調整可能なパラメータであり得る履歴長さにわたって維持される。次いで、計算された平均比は、時間比平均を得るために履歴セグメントにわたってさらに平均化される。
Figure 2023054779000032
ここで、framesは履歴セグメント内のフレームの数であり、例えば、60である。第2方向推定d2について、時間的比率平均は、
Figure 2023054779000033
のようにさらにスケーリングされる。これは、元のDA比スケールよりも重みのフィルタリングに適している。各サブバンドbおよび両方向推定d1およびd2について、フォーカスセクタ内の過去の方向推定の量も、ブールフラグ(現在のフレームfにおけるサブバンドの方向推定がフォーカスセクタ内にあるか否かを示す)を使用して追跡される。
Figure 2023054779000034
履歴区分がそのようなフラグで満たされると、d1、N1T(b)のそれぞれのサブバンドbにおける「真の」フラグの個数が仮スケーリング変数
Figure 2023054779000035
を得るために使用され、ここで、tempGainは、典型的な数値[1.0、…、6.0]を有するチューナブルおよび/またはユーザ定義パラメータである。見て分かるように、スケーリング変数は「真」フラグが減少することにつれて減少し、逆もまた同様である。最後に、d1の時間的利得は、バイアスが0と1との間の定数であるとき
Figure 2023054779000036
として計算され、時間的利得を導出する際にDA比値に対してどれだけの重みが与えられるかを制御する。典型的には、値は~0.4~0.6に設定することができる。
過去のN1T(b)におけるそれぞれのサブバンドbにおけるセクタ内部の方向推定の個数は、
Figure 2023054779000037
のように、後の使用のためにいわゆるアッテネーション状態を提供するためにも使用することができる。
方向推定値d2に対する時間的利得はd1に対するものと同様に計算され、実際の時間的フィルタ利得は乗算
Figure 2023054779000038
によって得られる。
いくつかの実施形態では、単一の時間フレーム内のすべてのサブバンドにわたる方向推定が音環境内に存在する音源の数およびタイプに応じて著しく変化し得る。したがって、各フレームにおけるスペクトル包絡線内の突然のポンプおよび切り欠きを防止するために、スペクトルを平滑化するために、追加のフレーム平滑化利得が必要とされる。まず、d1とd2の比率手段の和を、
Figure 2023054779000039
のように算出することができる。次に、フレーム内の全方向推定値Nに対するセクタ内推定値Ninの比率を使用して、平滑化係数
Figure 2023054779000040
を計算する。これはフレームゲイン計算
Figure 2023054779000041
に適用される。ここで、smoothGainは一般的な値[1.0、...2.0]のチューニング可能なゲインパラメータである。値を大きくすると、より効率的なフィルタリング性能が得られるが、キャプチャに大きなバックグラウンドノイズが存在する場合は特に、不要なゲインレベルのポンピングが発生する可能性がある。
以前に導出された減衰状態は、各サブバンドに対する実際のフィルタ平滑化利得
Figure 2023054779000042
を計算するために使用される。ここで、
Figure 2023054779000043
は、調整可能な減衰利得である。d2に対する平滑化利得も同様に計算され、全体の平滑化利得は乗算によって得られる。
Figure 2023054779000044
帯域利得、時間利得、およびフレーム利得の全ての異なる利得タイプが計算されると、
実際の出力フィルタ利得は、
Figure 2023054779000045
のように、各サブバンドbについて決定または計算され得る。出力は圧縮され、次の処理チェーンで使用可能なヘッドルームに応じて制限される。
本明細書に記載の実施形態を実施する利点の例を図6に示す。具体的には、図6がサブバンド601ごとに単一方向推定のみを使用する既知の空間フィルタの出力信号レベルをdBで示し、いくつかの実施形態603による空間フィルタアプローチを示す。この例では、オーディオフォーカス方向が装置の正面に直接設定され、信号は最初に装置の正面で発話し、次いで、信号の中央で装置の背後に移動し、最後に装置の正面に再び戻るスピーカからなる。さらに、音楽は、キャプチャデバイスの左側に位置するスピーカから再生される。平均して、実施形態は、公知方法と比較して、前部からのオーディオを約2~3dB増幅することが分かる。
加えて、実施形態はまた、既知の空間フィルタリング方法と比較して、装置2~3dBの後方からのオーディオをより減衰させ、これは、実施形態が全体として平均4~6dBで全体的な焦点効果利得を増加させることを意味する。これは、ほとんどの場合において、知覚されるオーディオズーム体験を改善する、明確に可聴で有意な差である。方向推定d1およびd2が捕捉から推定され得る限り、空間フィルタは、推定d1のみを有する場合と比較して、常にその性能を改善することができる。
図7に関して、本明細書に記載される実施形態の動作の概要が示される。
第1動作はステップ701によって、図7に示すように、サブバンドbのd1およびd2の方向推定値を計算または決定することである。
次に、ステップ703によって、図7に示すように、第1チェックを実施して、d1がセクタ内にあるかどうかを判定することができる。
d1がセクタ内にある場合、ステップ705によって、図7に示すように、d2がセクタ内にあるかどうかを決定するためにさらなるチェックを行うことができる。
d1とd2の両方がセクタ内にある場合、サブバンドbは図707に示すように、d1とd2の両方の関連推定値のDA比に従って増幅される。
d1がセクタ内にない場合、ステップ709によって、図7に示すように、d2がセクタ内にあるかどうかを決定するためにさらなるチェックを行うことができる。
d1はセクタ内にあるが、d2はセクタ内にない、または、d1はセクタ内にないがd2はセクタ内にある場合、サブバンドbは、セクタ内推定のDA比に従って増幅され、ステップ711によって図7に示されるように、セクタ外推定のDA比に従ってサブバンドbを減衰させることができる。
d1とd2の両方がセクタの外側にある場合、サブバンドbは図713に示すように、d1とd2の両方の関連推定値のDA比に従って減衰される。図8に関して、いくつかの実施形態による利得の生成を示す流れ図が示される。
したがって、いくつかの実施形態では、帯域利得g(b)がステップ801によって、図8に示されるように、両方向
Figure 2023054779000046
について計算される。
次いで、いくつかの実施形態では、帯域利得がステップ803によって、図8に示されるように、合成帯域利得
Figure 2023054779000047
を生成するために、一緒に乗算される。
次に、ステップ805によって、図8に示されるように、時間的ゲインg1(b)、g2(b)が、サブバンド毎に生成される。
次いで、時間的利得はステップ807によって、図8に示されるように、結合された時間的利得
Figure 2023054779000048
を生成するために、一緒に乗算され得る。
次いで、フレーム平滑化ゲインg1(b)、g2(b)がサブバンドおよび方向ごとに、ステップ809によって図8に示されるように決定され得る。
次いで、フレーム平滑化利得はステップ811によって、図8に示されるような合成フレーム平滑化利得
Figure 2023054779000049
を生成するために、ともに乗算され得る。
次いで、ステップ813によって図8に示されるように、結合フレーム平滑化利得、結合時間利得、および結合帯域利得
Figure 2023054779000050
を乗算することによって、サブバンドbのための全体的なフィルタ利得を生成することができる。
図9に関して、図1に示されるような例示的な空間シンセサイザ105が示される。
空間シンセサイザ105は、いくつかの実施形態ではデマルチプレクサ1201を備える。デマルチプレクサ(Demux)1201はいくつかの実施形態ではデータストリーム104を受信し、データストリームをストリームオーディオ信号1208と、第1方向1214推定値、第1比1216推定値、第2方向1224推定値、および第2<比>{比率}1226推定値などの空間パラメータ推定値とに分離する。
次いで、これらは空間プロセッサ/シンセサイザ1203に渡される。
空間シンセサイザ105は空間プロセッサ/シンセサイザ1203を備え、推定値およびストリームオーディオ信号を受信し、出力オーディオ信号をレンダリングするように構成される。空間処理/合成は、EP3791605に記載されているような、任意の適切な2方向ベースの合成であり得る。
図10および図11は、実施形態のエンドツーエンド実装を示す。図10に関して、トランスポート/格納チャネル1105を介して通信するキャプチャデバイス1101および再生デバイス1111があることが示されている。
キャプチャデバイス1101は、上述のように構成され、フィルタリングされたオーディオ1109を送信するように構成される。加えて、フィルタ向き/範囲情報1107は、再生デバイス1111から受信することができる。
図11に関して、再生デバイス1111によって受信されるフィルタリングされていないオーディオ1119を送信するように構成されたキャプチャデバイス1101が示されている。再生デバイスは、本明細書で説明する実施形態で説明するように空間フィルタリングを適用するように構成された空間フィルタ1103を備える。
図12に関して、コンピュータ、エンコーダプロセッサ、デコーダプロセッサ、または本明細書に記載の機能ブロックのいずれかとして使用され得る例示的な電子デバイスが示される。デバイスは、任意の適切な電子デバイスまたは装置であってもよい。例えば、いくつかの実施形態では、デバイス1600がモバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオ再生装置などである。
いくつかの実施形態では、デバイス1600が少なくとも1つのプロセッサまたは中央処理装置1607を備える。プロセッサ1607は、本明細書で説明されるような方法などの様々なプログラムコードを実行するように構成され得る。
いくつかの実施形態では、装置1600がメモリ1611を備える。
いくつかの実施形態では、少なくとも1つのプロセッサ1607がメモリ1611に結合される。メモリ1611は、任意の適切な格納手段とすることができる。いくつかの実施形態では、メモリ1611がプロセッサ1607上で実施可能なプログラムコードを格納するためのプログラムコードセクションを備える。さらに、いくつかの実施形態では、メモリ1611がデータ、たとえば、本明細書で説明する実施形態に従って処理された、または処理されるべきデータを格納するための格納データセクションをさらに備えることができる。プログラムコードセクション内に格納された実施されたプログラムコードおよび格納されたデータセクション内に格納されたデータは、必要に応じて、メモリ-プロセッサ結合を介してプロセッサ1607によって取り出すことができる。
いくつかの実施形態では、装置1600がユーザインターフェース1605を備える。ユーザインターフェース1605は、いくつかの実施形態ではプロセッサ1607に結合され得る。いくつかの実施形態では、プロセッサ1607がユーザインターフェース1605の動作を制御し、ユーザインターフェース1605から入力を受信することができる。いくつかの実施形態では、ユーザインターフェース1605が、ユーザが例えばキーパッドを介して、デバイス1600にコマンドを入力することを可能にすることができる。いくつかの実施形態では、ユーザインターフェース1605が、ユーザが装置1600から情報を取得することを可能にすることができる。例えば、ユーザインターフェース1605は、装置1600からの情報をユーザに表示するように構成されたディスプレイを備えてもよい。ユーザインターフェース1605は、いくつかの実施形態では、情報が装置1600に入力されることを可能にすることと、装置1600のユーザに情報をさらに表示することとの両方が可能なタッチスクリーンまたはタッチインターフェースを備えることができる。
いくつかの実施形態では、装置1600が入力/出力ポート1609を備える。いくつかの実施形態では、入力/出力ポート1609がトランシーバを備える。そのような実施形態におけるトランシーバはプロセッサ1607に結合され、例えば、無線通信ネットワークを介して、他の装置または電子デバイスとの通信を可能にするように構成され得る。トランシーバまたは任意の好適なトランシーバまたは送信機および/または受信機手段は、いくつかの実施形態では有線または有線ード結合を介して他の電子デバイスまたは装置と通信するように構成され得る。
トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。例えば、いくつかの実施形態では、トランシーバが、適切なユニバーサルモバイルテレコミュニケーションシステム(UMTS)プロトコル、例えばIEEE802.Xなどのワイヤレスローカルエリアネットワーク(WLAN)プロトコル、Bluetooth(登録商標)などの適切な短距離無線周波数通信プロトコル、または赤外線データ通信経路(IRDA)を使用することができる。
トランシーバ入力/出力ポート1609はオーディオ信号、ビットストリームを送信/受信するように構成され得、いくつかの実施形態では適切なコードを実行するプロセッサ1607を使用することによって、上記で説明したような動作および方法を実行する。
一般に、本発明の様々な実施形態は、ハードウェアまたは専用回路、ソフトウェア、ロジック、またはそれらの任意の組合せで実装され得る。たとえば、いくつかの態様はハードウェアで実装され得るが、他の態様はコントローラ、マイクロプロセッサ、または他の計算装置によって実行され得るファームウェアまたはソフトウェアで実装され得るが、
本発明はそれらに限定されない。本発明の様々な態様はブロック図、フローチャートとして、または何らかの他の図表現を使用して図示および目的され得るが、本明細書で目的するこれらのブロック、装置、システム、技術または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路または論理、汎用ハードウェアもしくはコントローラ、または他の計算装置、あるいはそれらの何らかの組合せで実装され得ることが十分に理解される。
本発明の実施形態は、プロセッサエンティティ内などのモバイルデバイスのデータプロセッサによって、またはハードウェアによって、またはソフトウェアとハードウェアとの組合せによって実行可能なコンピュータソフトウェアによって実装され得る。さらに、この点に関して、図のような論理フローの任意のブロックは、プログラムステップ、または相互接続された論理回路、ブロックおよび機能、またはプログラムステップと論理回路、ブロックおよび機能の組合せを表し得ることに留意されたい。ソフトウェアは、メモリチップ、またはプロセッサ内に実装されたメモリブロック、磁気媒体、および光媒体などの物理媒体に格納され得る。
メモリはローカル技術環境に適した任意のタイプのものとすることができ、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光メモリデバイスおよびシステム、固定メモリおよび取り外し可能メモリなどの任意の適切なデータ格納技術を使用して実装することができる。データプロセッサは、ローカル技術環境に適した任意のタイプであってよく、非限定的な例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、ゲートレベル回路、およびマルチコアプロセッサアーキテクチャに基づくプロセッサのうちの1つ以上を含み得る。
本発明の実施形態は、集積回路モジュールなどの様々な部品において実施することができる。集積回路の設計は、大規模で高度に自動化された処理によるものである。論理レベル設計を、エッチングされて半導体基板上に形成される準備ができた半導体回路設計に変換するために、複雑で強力なソフトウェアツールが利用可能である。
Synopsys、Incof Mountain View、California and Cadence Design、of San Jose、Californiaによって提供されるプログラムなどのプログラムは、導体を自動的にルーティングし、十分に確立された設計規則および事前に格納された設計モジュールのライブラリを使用して半導体チップ上の構成要素を位置特定する。半導体回路の設計が完了すると、標準化された電子フォーマット(例えば、Opus、GDSIIなど)で得られた設計は、製造のために半導体製造設備または「ファブ」に送信され得る。
前述の説明は、例示的かつ非限定的な例として、本発明の例示的な実施形態の完全かつ有益な説明を提供してきた。しかしながら、添付の図面および付随の請求項を熟読する際に、前述の説明を考慮して、種々の修正および適合が、当業者に明白になるのであろう。しかしながら、本発明の教示の全てのそのような同様の修正は、添付の特許請求の範囲に定義される本発明の範囲内に依然として含まれる。

Claims (18)

  1. それぞれの複数マイクロフォンから複数オーディオ信号を得るステップと、
    前記複数オーディオ信号の1つ以上の周波数帯域において、前記複数オーディオ信号の処理に基づいて、第1音源方向パラメータおよび第1音源エネルギーパラメータを決定するステップと、
    前記複数オーディオ信号の前記1つ以上の周波数帯域において、前記複数オーディオ信号の処理に基づいて、第2音源方向パラメータおよび第2音源エネルギーパラメータを決定するステップと、
    フィルタのための方向および/または範囲を定義する領域を取得するステップと、
    前記複数オーディオ信号に適用される前記フィルタを生成するステップであって、フィルタ利得/減衰パラメータは、前記第1音源方向パラメータ、前記第1音源エネルギーパラメータ、前記第2音源方向パラメータ、および、前記第2音源エネルギーパラメータに関する前記領域に基づいて生成される、ステップと、
    を実行するように構成された手段を備える、装置。
  2. 前記複数オーディオ信号に適用されるフィルタを生成するように構成された前記手段であって、前記第1音源方向パラメータ、前記第1音源エネルギーパラメータ、前記第2音源方向パラメータ、および、前記第2音源エネルギーパラメータに関連する前記領域に基づいて、フィルタ利得/減衰パラメータを生成する、前記手段は、
    前記領域の内または前記領域の外にある前記第1音源方向パラメータに基づいて、第1帯域利得/減衰値を生成し、
    前記第2音源方向パラメータが前記領域の内または前記領域の外にあることに基づいて、第2帯域利得/減衰値を生成し、
    合成帯域利得/減衰値を生成するために前記第1帯域利得/減衰値と前記第2帯域利得/減衰値とを合成する
    ように構成される、請求項1に記載の装置。
  3. 前記フィルタのための前記方向および/または範囲を定義する前記領域を取得するように構成された前記手段は、
    前記音源の方向パラメータが前記領域の内にあることに基づく帯域内利得/減衰係数を有する前記領域を定義する方向および範囲と、前記領域の外にある前記音源方向パラメータに基づく帯域外利得/減衰係数と、前記領域内にある前記音源方向パラメータに基づく帯域内利得/減衰係数を有する前記領域を定義する方向および範囲、および、
    前記音源方向パラメータに基づく帯域外利得/減衰係数が、前記領域の外にあり、前記エッジゾーン領域内にある音源方向パラメータに基づくエッジゾーン利得/減衰係数と共に、エッジゾーン領域を定義するさらなる範囲、
    のうちの少なくとも1つを取得するように構成される、請求項2に記載の装置。
  4. 前記複数オーディオ信号に適用される前記フィルタを生成するように構成された前記手段であって、前記第1音源方向パラメータ、前記第1音源エネルギーパラメータ、前記第2音源方向パラメータ、および前記第2音源エネルギーパラメータに関して、前記領域に基づいて、フィルタ利得/減衰パラメータが生成される、前記手段は、
    前記第1音源エネルギーパラメータの平均帯域値の時間平均と、
    前記第1音源方向パラメータが規定された期間にわたって前記領域内にある回数と
    に基づいて、第1時間的利得/減衰値を生成し、
    前記第2音源エネルギーパラメータの前記平均帯域値の時間平均に基づいて第2時間的利得/減衰値、および、第2音源方向パラメータが定義された時間期間にわたって領域内にある回数を生成し、
    合成時間的利得/減衰値を生成するために、前記第1時間的利得/減衰値と前記第2時間的利得/減衰値との組合せに基づいて合成時間的利得/減衰値を生成する
    ように構成される、請求項1から3のいずれか1項に記載の装置。
  5. 前記複数オーディオ信号に適用される前記フィルタを生成するように構成された前記手段であって、
    前記第1音源方向パラメータ、前記第1音源エネルギーパラメータ、前記第2音源方向パラメータ、および、前記第2音源エネルギーパラメータに関する前記領域に基づいて、フィルタ利得/減衰パラメータを生成する、前記手段は、
    フレーム平均化された第1音源エネルギーパラメータと、フレーム平均化された第2音源エネルギーパラメータとの組合せに基づいて、合成されたフレーム平均化値を生成し、
    前記合成されたフレーム平均値、および、前記第1音源方向パラメータおよび前記第2音源方向パラメータが前記フレーム期間にわたって前記フィルタ領域内に存在する回数に基づいてフレーム平滑化利得/減衰量を生成する
    ように構成される、
    請求項1ないし4のいずれか1項に記載の装置。
  6. 前記複数オーディオ信号に適用される前記フィルタを生成するように構成された前記手段であって、フィルタ利得/減衰パラメータが、前記第1音源方向パラメータ、前記第1音源エネルギーパラメータ、前記第2音源方向パラメータ、および、前記第2音源エネルギーパラメータに関連する前記領域に基づいて生成される、前記手段が、
    前記フレーム平滑化利得/減衰、前記合成時間利得/減衰値、および、前記合成帯域利得/減衰値の組合せに基づいて、前記帯域のための前記フィルタ利得/減衰を生成するように構成される、
    請求項4および3にさらに従属する、請求項5に記載の装置。
  7. 前記複数オーディオ信号の前記処理は、前記複数オーディオ信号に基づいて1つ以上の修正オーディオ信号を提供するように構成され、前記複数オーディオ信号のうちの前記1つ以上の周波数帯域において、前記複数オーディオ信号の処理に基づいて、第2音源方向パラメータおよび第2音源エネルギーパラメータを決定するように構成された前記手段は、
    前記複数オーディオ信号の前記1つ以上の周波数帯域において、前記修正オーディオ信号に基づいて、第2音源方向パラメータおよび第2音源エネルギーパラメータを決定するように構成される、
    請求項1ないし6のいずれか1項に記載の装置。
  8. 前記複数オーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供するように構成された前記手段は、さらに、前記第1音源方向パラメータによって定義される第1音源の射影を用いて、前記複数オーディオ信号を修正することに基づいて、修正された複数オーディオ信号を生成するように構成され、
    前記複数オーディオ信号のうちの前記1つ以上の周波数帯域において、前記1つ以上の修正されたオーディオ信号の少なくとも一部に基づいて、少なくとも第2音源方向パラメータを決定するように構成された前記手段は、
    前記複数オーディオ信号のうちの前記1つ以上の周波数帯域において、前記修正された複数オーディオ信号を処理することによって、前記少なくとも第2音源方向パラメータを、決定するように構成される、
    請求項7に記載の装置。
  9. 前記フィルタの方向および/または範囲を規定する前記領域を取得するように構成された前記手段は、ユーザ入力に基づいて前記領域を取得するように構成される、請求項1ないし8のいずれか1項に記載の装置。
  10. 装置のための方法であって、該方法は、
    それぞれの複数マイクロフォンからの複数オーディオ信号を取得するステップと、
    前記複数オーディオ信号の1つ以上の周波数帯域において、前記複数オーディオ信号の処理に基づいて、第1音源方向パラメータおよび第1音源エネルギーパラメータを決定するステップと、
    前記複数オーディオ信号の前記1つ以上の周波数帯域において、前記複数オーディオ信号の処理に基づいて、第2音源方向パラメータおよび第2音源エネルギーパラメータを決定するステップと、
    フィルタのための方向および/または範囲を定義する領域を取得するステップと、
    前記複数オーディオ信号に適用される前記フィルタを生成するステップであって、フィルタ利得/減衰パラメータは、前記第1音源方向パラメータ、前記第1音源エネルギーパラメータ、前記第2音源方向パラメータ、および、前記第2音源エネルギーパラメータ
    に関する前記領域に基づいて生成される、ステップと、
    を含む、方法。
  11. 前記複数オーディオ信号に適用されるフィルタを生成するステップであって、フィルタ利得/減衰パラメータが、前記第1の音源方向パラメータ、前記第1の音源エネルギーパラメータ、前記第2の音源方向パラメータ、および、前記第2の音源エネルギーパラメータに関連する前記領域に基づいて生成される、ステップは、
    前記領域の内または前記領域の外にある前記第1音源方向パラメータに基づいて第1帯域利得/減衰値を生成するステップと、
    前記第2音源方向パラメータが前記領域の内または前記領域の外にあることに基づいて、第2帯域利得/減衰値を生成するステップと、
    合成帯域利得/減衰値を生成するために前記第1帯域利得/減衰値と前記第2帯域利得/減衰値とを合成するステップと、
    を含む、請求項10に記載の方法。
  12. 前記フィルタのための前記方向および/または範囲を規定する前記領域を取得するステップは、
    前記領域内にある前記音源方向パラメータに基づく帯域内利得/減衰係数と一緒に、前記領域を定義する方向と範囲、および、
    前記領域内にある前記音源方向パラメータに基づく帯域外利得/減衰係数、および、
    前記領域の内にある前記音源方向パラメータに基づく帯域内利得/減衰係数と一緒に、前記領域を定義する方向と範囲、前記領域の外にある前記音源方向パラメータに基づく帯域外利得/減衰係数、
    前記エッジゾーン領域の内にある、前記音源方向パラメータに基づくエッジゾーン利得/減衰係数と一緒に、エッジゾーン領域を定義するさらなる範囲、
    のうちの少なくとも1つを備える、請求項11に記載の方法。
  13. 前記複数オーディオ信号に適用される前記フィルタを生成するステップであって、フィルタ利得/減衰パラメータが、前記第1音源方向パラメータ、前記第1音源エネルギーパラメータ、前記第2音源方向パラメータ、および、前記第2音源エネルギーパラメータに関連する前記領域に基づいて生成される、ステップは、
    前記第1音源エネルギーパラメータの前記平均帯域値と、前記第1音源方向パラメータが、規定された期間にわたって前記領域の内にある回数との時間平均に基づいて第1時間的利得/減衰値を生成するステップと、
    前記第2音源エネルギーパラメータの前記平均帯域値の時間平均、および、前記第2の音源方向パラメータが前記定義された時間を超えて前記領域の内に存在する回数に基づいて第2時間的利得/減衰値を生成するステップと、
    合成時間的利得/減衰値を生成するための、前記第1時間的利得/減衰値と前記第2時間的利得/減衰値との組合せに基づいて、合成時間的利得/減衰値を生成するステップと、を含む、請求項10ないし12のいずれか1項に記載の方法。
  14. 前記複数オーディオ信号に適用される前記フィルタを生成するステップであって、フィルタ利得/減衰パラメータが、前記第1音源方向パラメータ、前記第1音源エネルギーパラメータ、前記第2音源方向パラメータ、および、該第2音源エネルギーパラメータに関連する前記領域に基づいて生成される、ステップは、
    フレーム平均化された第1音源エネルギーパラメータと、フレーム平均化された第2音源エネルギーパラメータとの組合せに基づいて、合成されたフレーム平均化値を生成するステップと、
    前記合成されたフレーム平均化値と、前記第1および第2音源方向パラメータがフレーム期間にわたって前記フィルタ領域の内にある回数とに基づいて、フレーム平滑化利得/減衰量を生成するステップと
    を含む、請求項10ないし13のいずれか1項に記載の方法。
  15. 請求項13および12に従属するとき、前記複数オーディオ信号に適用される前記フィルタを生成するステップであって、フィルタ利得/減衰パラメータが、前記第1音源方向パラメータ、前記第1音源エネルギーパラメータ、前記第2音源方向パラメータ、および、前記第2音源エネルギーパラメータに関する前記領域に基づいて生成される、ステップは、前記フレーム平滑化利得/減衰、前記合成時間利得/減衰値、および、前記合成帯域利得/減衰値の組合せに基づいて、前記帯域のための前記フィルタ利得/減衰を生成するステップを含む、請求項14に記載の方法。
  16. 前記複数オーディオ信号を処理するステップは、前記複数オーディオ信号に基づいて、1つ以上の修正されたオーディオ信号を提供するステップを含み、前記複数オーディオ信号の前記1つ以上の周波数帯域において、前記複数オーディオ信号の処理に基づいて、第2音源方向パラメータおよび第2音源エネルギーパラメータを決定するステップは、前記複数オーディオ信号の前記1つ以上の周波数帯域において、前記修正されたオーディオ信号に基づいて、第2音源方向パラメータおよび第2音源エネルギーパラメータを決定するステップを含む、請求項10から15のいずれか1項に記載の方法。
  17. 前記複数オーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供するステップは、前記第1音源方向パラメータによって定義される第1音源の投影を用いて前記複数オーディオ信号を修正することに基づいて、修正された複数オーディオ信号を生成するステップを含み、および、
    前記複数オーディオ信号の前記1つ以上の周波数帯域において、前記1つ以上の修正されたオーディオ信号の少なくとも一部に基づいて、少なくとも第2音源方向パラメータを決定するステップは、前記複数オーディオ信号の前記1つ以上の周波数帯域において、前記修正された複数オーディオ信号を処理することによって、前記少なくとも第2音源方向パラメータを決定するステップを含む、
    請求項16に記載の方法。
  18. 前記フィルタのための前記方向および/または範囲を定義する前記領域を取得するステップは、ユーザ入力に基づいて前記領域を取得するステップを含む、請求項10ないし17のいずれか1項に記載の方法。
JP2022159369A 2021-10-04 2022-10-03 空間オーディオキャプチャ内の空間オーディオフィルタリング Pending JP2023054779A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB2114187.4 2021-10-04
GB2114187.4A GB2611357A (en) 2021-10-04 2021-10-04 Spatial audio filtering within spatial audio capture

Publications (1)

Publication Number Publication Date
JP2023054779A true JP2023054779A (ja) 2023-04-14

Family

ID=78497738

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022159369A Pending JP2023054779A (ja) 2021-10-04 2022-10-03 空間オーディオキャプチャ内の空間オーディオフィルタリング

Country Status (5)

Country Link
US (1) US20230106162A1 (ja)
EP (1) EP4161105A1 (ja)
JP (1) JP2023054779A (ja)
CN (1) CN115942186A (ja)
GB (1) GB2611357A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114363770B (zh) * 2021-12-17 2024-03-26 北京小米移动软件有限公司 通透模式下的滤波方法、装置、耳机以及可读存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
EP3471442A1 (en) * 2011-12-21 2019-04-17 Nokia Technologies Oy An audio lens
EP2733965A1 (en) * 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals
GB2540175A (en) * 2015-07-08 2017-01-11 Nokia Technologies Oy Spatial audio processing apparatus
GB2559765A (en) * 2017-02-17 2018-08-22 Nokia Technologies Oy Two stage audio focus for spatial audio processing
GB201710085D0 (en) * 2017-06-23 2017-08-09 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
US20190324117A1 (en) * 2018-04-24 2019-10-24 Mediatek Inc. Content aware audio source localization
GB2573537A (en) * 2018-05-09 2019-11-13 Nokia Technologies Oy An apparatus, method and computer program for audio signal processing
US11595773B2 (en) * 2019-08-22 2023-02-28 Microsoft Technology Licensing, Llc Bidirectional propagation of sound
GB2590650A (en) * 2019-12-23 2021-07-07 Nokia Technologies Oy The merging of spatial audio parameters

Also Published As

Publication number Publication date
CN115942186A (zh) 2023-04-07
GB202114187D0 (en) 2021-11-17
US20230106162A1 (en) 2023-04-06
EP4161105A1 (en) 2023-04-05
GB2611357A (en) 2023-04-05

Similar Documents

Publication Publication Date Title
US10080094B2 (en) Audio processing apparatus
US10818300B2 (en) Spatial audio apparatus
US10924850B2 (en) Apparatus and method for audio processing based on directional ranges
US10382849B2 (en) Spatial audio processing apparatus
US7412380B1 (en) Ambience extraction and modification for enhancement and upmix of audio signals
US20150071446A1 (en) Audio Processing Method and Audio Processing Apparatus
US9743215B2 (en) Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
US20220303711A1 (en) Direction estimation enhancement for parametric spatial audio capture using broadband estimates
EP2484127B1 (en) Method, computer program and apparatus for processing audio signals
CN103428609A (zh) 用于去除噪声的设备和方法
CN112567765B (zh) 空间音频捕获、传输和再现
US9521502B2 (en) Method for determining a stereo signal
WO2019175472A1 (en) Temporal spatial audio parameter smoothing
JP2023054779A (ja) 空間オーディオキャプチャ内の空間オーディオフィルタリング
EP4161106A1 (en) Spatial audio capture
WO2022258876A1 (en) Parametric spatial audio rendering

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230201

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240305