JP2023054780A - 空間オーディオキャプチャ - Google Patents

空間オーディオキャプチャ Download PDF

Info

Publication number
JP2023054780A
JP2023054780A JP2022159375A JP2022159375A JP2023054780A JP 2023054780 A JP2023054780 A JP 2023054780A JP 2022159375 A JP2022159375 A JP 2022159375A JP 2022159375 A JP2022159375 A JP 2022159375A JP 2023054780 A JP2023054780 A JP 2023054780A
Authority
JP
Japan
Prior art keywords
audio signals
pair
determining
modified
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022159375A
Other languages
English (en)
Inventor
タピオ タンミ ミッコ
Tapio Tammi Mikko
ヘンリク マキネン トニ
Henrik Maekinen Toni
ライティネン ミッコ-ビッレ
Laitinen Mikko-Ville
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of JP2023054780A publication Critical patent/JP2023054780A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

【課題】本願発明の実施形態は、従来技術に関連する問題を解決することを目的とする。【解決手段】それぞれの2つ以上のマイクから2つ以上のオーディオ信号を取得することと、2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定することであって、2つ以上のオーディオ信号の処理は、2つ以上のオーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供するようさらに構成される、決定することと、2つ以上のオーディオ信号の1つ以上の周波数帯域において、1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源方向パラメータを決定することと、を行うように構成されている手段を備える、装置。【選択図】図6

Description

本願は、空間オーディオキャプチャのための装置および方法に関し、特に、空間オーディオキャプチャによってキャプチャされた音場内の2つ以上の特定されたソースの到来方向およびエネルギーに基づく比を決定するための装置および方法に関する。
マイクアレイを用いた空間オーディオキャプチャは、携帯端末やカメラ等の多くの最新のデジタル機器に利用されており、多くの場合、ビデオキャプチャと併用されている。空間オーディオは、ヘッドホンやラウドスピーカを用いて再生することによって、マイクアレイがキャプチャしたオーディオシーンをユーザに体験させることができる。
パラメトリック空間オーディオキャプチャ法は、多様なマイクの構成や配置で空間オーディオキャプチャを可能にするため、携帯端末等の民生機器に採用することができる。パラメトリック空間オーディオキャプチャ法は、複数のマイクから利用可能な情報を利用してデバイスの周囲の空間オーディオフィールドを解析するための信号処理ソリューションに基づいている。一般的に、これらの方法は、マイクのオーディオ信号を知覚的に解析し、周波数帯域の関連情報を決定する。この情報には、例えば、支配的な音源(または、オーディオ源や、オーディオオブジェクト)の方向や、全体の帯域エネルギーに対する音源エネルギーの関係等が含まれる。この決定された情報に基づいて、例えば、ヘッドホンやラウドスピーカを使用して、空間オーディオを再生することができる。最終的に、ユーザやリスナは、キャプチャデバイスが録音していたオーディオシーンに存在していたかのように、環境オーディオを体験することができる。
オーディオ解析および合成の性能が高ければ高いほど、ユーザやリスナが体験する結果はよりリアルになる。
本願発明の実施形態は、従来技術に関連する問題を解決することを目的とする。
第1態様によれば、それぞれの2つ以上のマイクから2つ以上のオーディオ信号を取得することと、2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定することであって、2つ以上のオーディオ信号の処理は、2つ以上のオーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供するようにさらに構成される、決定することと、2つ以上のオーディオ信号の1つ以上の周波数帯域において、1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源方向パラメータを決定することと、を行うように構成された手段を含む装置が提供される。
2つ以上のオーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供するように構成された手段は、さらに、第1音源方向パラメータによって定義される第1音源の投射を用いて2つ以上のオーディオ信号を修正することに基づいて、修正された2つ以上のオーディオ信号を生成することを含むように構成され、2つ以上のオーディオ信号の1つ以上の周波数帯域において、1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源方向パラメータを決定するように構成された手段は、修正された2つ以上のオーディオ信号を処理することにより、2つ以上のオーディオ信号の1つ以上の周波数帯域において、少なくとも第2音源方向パラメータを決定するように構成されてよい。
本手段は、2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源エネルギーパラメータを決定することと、1つ以上の修正されたオーディオ信号および第1音源エネルギーパラメータに少なくとも部分的に少なくとも基づいて、少なくとも第2音源エネルギーパラメータを決定することと、をさらに行うように構成されてよい。
第1および第2音源エネルギーパラメータは、直接対全エネルギー比であってもよく、1つ以上の修正されたオーディオ信号に少なくとも部分的に基づいて、少なくとも第2音源エネルギーパラメータを決定する手段は、1つ以上の修正されたオーディオ信号の解析に基づいて、中間的な第2音源エネルギーパラメータ直接対全エネルギー比を決定することと、第2音源エネルギーパラメータ直接対全エネルギー比を、中間的な第2音源エネルギーパラメータ直接対全エネルギー比、または、第1音源エネルギーパラメータ直接対全エネルギー比を1の値から減算した値のうち最小のものを選択すること、あるいは、中間的な第2音源エネルギーパラメータ直接対全エネルギー比と第1音源エネルギーパラメータ直接対全エネルギー比を1の値から減算した値とを乗じること、のいずれかに基づいて生成することと、を行うように構成される。
1つ以上の修正されたオーディオ信号および第1音源エネルギーパラメータに少なくとも部分的に少なくとも基づいて、少なくとも第2音源エネルギーパラメータを決定するように構成された手段は、第2音源エネルギーパラメータが、第1音源方向パラメータと第2音源方向パラメータとの差に対してスケーリングされるように、第1音源方向パラメータにさらに基づいて、少なくとも第2音源エネルギーパラメータを決定するようにさらに構成されてよい。
2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定するように構成された手段は、2つ以上のマイクの第1ペアを選択することと、2つ以上のマイクの選択されたペアから、それぞれのオーディオ信号の第1ペアを選択することと、2つ以上のマイクの選択されたペアからのそれぞれのオーディオ信号の第1ペア間の相関を最大化する遅延を決定することと、2つ以上のマイクの選択されたペアからのそれぞれのオーディオ信号の第1ペア間の相関を最大化する遅延に関連する方向のペアを決定することであって、第1音源方向パラメータは、決定した方向のペアから選択される、決定されることと、を行うように構成されてよい。
2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定するように構成された手段は、2つ以上のマイクの選択されたさらなるペアからのそれぞれのオーディオ信号のさらなるペア間のさらなる相関を最大化する、さらなる遅延の決定に基づいて、第1音源方向パラメータを決定した方向のペアから選択するように構成されてよい。
2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源エネルギーパラメータを決定するように構成された手段は、周波数帯域に対する第1ペアのそれぞれのオーディオ信号のエネルギーに対する最大化された相関を正規化することによって、第1音源方向パラメータに対応する第1音源エネルギー比を決定するように構成されてよい。
2つ以上のオーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供するように構成された手段は、決定された第1音源方向パラメータに基づいて、それぞれのオーディオ信号の第1ペアの間の遅延を決定することと、それぞれのオーディオ信号の第1ペアの1つへの決定された遅延の適用に基づいて、それぞれのオーディオ信号の第1ペアを整合させることと、それぞれのオーディオ信号の第1ペアのそれぞれから、共通成分を特定することと、それぞれのオーディオ信号の第1ペアのそれぞれから、共通成分を減算することと、1つ以上の修正されたオーディオ信号を生成するために、遅延を、それぞれのオーディオ信号の1つの減算した成分に復元することと、を行うよう構成されてよい。
2つ以上のオーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供するように構成された手段は、決定された第1音源方向パラメータに基づいて、それぞれのオーディオ信号の第1ペアの間の遅延を決定することと、決定された遅延をそれぞれのオーディオ信号の第1ペアのうちの1つに適用することに基づいて、それぞれのオーディオ信号の第1ペアを整合させることと、それぞれのオーディオ信号の第1ペアのそれぞれから、共通成分を特定することと、修正された共通成分をそれぞれのオーディオ信号の第1ペアのそれぞれから減算することであって、修正された共通成分は、マイクのペアに関連付けられ、マイクに関連付けられた利得値を乗じた共通成分である、減算することと、遅延を、それぞれのオーディオ信号のうちの1つの減算された利得乗算成分に復元して、修正された2つ以上のオーディオ信号を生成することと、を含むように構成されてよい。
2つ以上のオーディオ信号に基づいて、1つ以上の修正されたオーディオ信号を提供するように構成された手段は、決定された第1音源方向パラメータ、2つ以上のマイクの選択された第1ペアからのそれぞれのオーディオ信号に基づいて、それぞれのオーディオ信号の第1ペアの間の遅延を決定することと、決定された遅延をそれぞれのオーディオ信号の第1ペアのうちの1つに適用することに基づいて、それぞれのオーディオ信号の第1ペアを整合させることと、2つ以上のマイクのうちの選択された追加のペアから、それぞれのオーディオ信号の追加のペアを選択することと、決定された追加の音源方向パラメータに基づいて、それぞれのオーディオ信号の追加のペアの間の追加の遅延を決定することと、決定された追加の遅延をそれぞれのオーディオ信号の追加のペアのうちの1つに適用することに基づいて、それぞれのオーディオ信号の追加のペアを整合させることと、それぞれのオーディオ信号の第1および第2ペアから、共通成分を特定することと、共通成分または修正された共通成分をそれぞれのオーディオ信号の第1ペアのそれぞれから減算することであって、修正された共通成分は、マイクの第1ペアに関連付けられた、マイクに関連付けられた利得値を乗じた共通成分である、減算することと、それぞれのオーディオ信号のうちの1つの減算された利得乗算成分に遅延を復元し、修正された2つ以上のオーディオ信号を生成することと、を行うように構成されてよい。
2つ以上のマイクのそれぞれから2つ以上のオーディオ信号を取得するように構成された手段は、さらに、2つ以上のオーディオ信号を取得するために2つ以上のマイクの第1ペアを選択し、2つ以上のオーディオ信号の第2ペアを取得するために2つ以上のマイクの第2ペアを選択するように構成され、2つ以上のマイクの第2ペアは、第1音源方向パラメータに関して、オーディオシャドウに存在し、2つ以上のオーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供するように構成された手段が、2つ以上のオーディオ信号の1つ以上の周波数帯域において、1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源方向パラメータを決定するように構成された手段から、2つ以上のオーディオ信号の第2ペアを提供するように構成される。
1つ以上の周波数帯域は、閾値周波数より低くてよい。
第2態様によれば、装置のための方法が提供され、該方法は、2つ以上のマイクのそれぞれから2つ以上のオーディオ信号を取得することと、2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定することであって、2つ以上のオーディオ信号を処理することは、2つ以上のオーディオ信号に基づいて、1つ以上の修正されたオーディオ信号を提供するようにさらに構成される、決定することと、2つ以上のオーディオ信号の1つ以上の周波数帯域において、1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源方向パラメータを決定することと、を含む。
2つ以上のオーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供することは、さらに、第1音源方向パラメータによって定義される第1音源の投射で2つ以上のオーディオ信号を修正することに基づいて、修正された2つ以上のオーディオ信号を生成することと、2つ以上のオーディオ信号の1つ以上の周波数帯域において、1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源方向パラメータを決定することと、を含み、2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上の修正されたオーディオ信号を処理することによって、少なくとも第2音源方向パラメータを決定することを含んでよい。
本方法は、2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源エネルギーパラメータを決定することと、1つ以上の修正されたオーディオ信号および第1音源エネルギーパラメータに少なくとも部分的に少なくとも基づいて、少なくとも第2音源エネルギーパラメータを決定することと、をさらに含んでよい。
第1および第2音源エネルギーパラメータは、直接対全エネルギー比であってよく、1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源エネルギーパラメータを決定することは、1つ以上の修正されたオーディオ信号の解析に基づいて、中間的な第2音源エネルギーパラメータ直接対全エネルギー比を決定することと、中間的な第2音源エネルギーパラメータ直接対全エネルギー比、または、第1音源エネルギーパラメータ直接対全エネルギー比を1の値から減算した値のうち最小のものを選択すること、あるいは、中間的な第2音源エネルギーパラメータ直接対全エネルギー比と第1音源エネルギーパラメータ直接対全エネルギー比を1の値から減算した値とを乗算すること、のうちの1つに基づいて、第2音源エネルギーパラメータ直接対全エネルギー比を生成することと、のうちの1つに基づいて、第2音源エネルギーパラメータ直接対全エネルギー比を生成することと、を含んでよい。
1つ以上の修正されたオーディオ信号および第1音源エネルギーパラメータに少なくとも部分的に少なくとも基づいて、少なくとも第2音源エネルギーパラメータを決定することは、第2音源エネルギーパラメータが、第1音源方向パラメータと第2音源方向パラメータとの差に対してスケーリングされるように、さらに第1音源方向パラメータに基づいて、少なくとも第2音源エネルギーパラメータを決定することを含んでよい。
2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定することは、2つ以上のマイクの第1ペアを選択することと、2つ以上のマイクの選択されたペアから、それぞれのオーディオ信号の第1ペアを選択することと、2つ以上のマイクの選択されたペアからのそれぞれのオーディオ信号の第1ペア間の相関を最大化する遅延を決定することと、2つ以上のマイクの選択されたペアからのそれぞれのオーディオ信号の第1ペア間の相関を最大化する遅延に関連する方向のペアを決定することであって、第1音源方向パラメータが決定された方向のペアから選択される、決定することと、を含んでよい。
2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定することは、2つ以上のマイクの選択されたさらなるペアからのそれぞれのオーディオ信号のさらなるペア間のさらなる相関を最大化するさらなる遅延のさらなる決定に基づいて、決定された方向のペアから、第1音源方向パラメータを選択することを含んでよい。
2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源エネルギーパラメータを決定することは、周波数帯域に対するそれぞれのオーディオ信号の第1ペアのエネルギーに対する最大化された相関を正規化することによって、第1音源方向パラメータに対応する第1音源エネルギー比を決定することを含んでよい。
2つ以上のオーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供することは、決定された第1音源方向パラメータに基づいて、それぞれのオーディオ信号の第1ペアの間の遅延を決定することと、それぞれのオーディオ信号の第1ペアの1つへの決定された遅延の適用に基づいて、それぞれのオーディオ信号の第1ペアを整合させることと、それぞれのオーディオ信号の第1ペアのそれぞれから共通成分を特定することと、それぞれのオーディオ信号の第1ペアのそれぞれから共通成分を減算することと、それぞれのオーディオ信号の1つの減算した成分に遅延を復元して、1つ以上の修正されたオーディオ信号を生成することと、を含んでよい。
2つ以上のオーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供することは、決定された第1音源方向パラメータに基づいて、それぞれのオーディオ信号の第1ペアの間の遅延を決定することと、それぞれのオーディオ信号の第1ペアの1つへの決定された遅延の適用に基づいて、それぞれのオーディオ信号の第1ペアを整合させることと、それぞれのオーディオ信号の第1ペアのそれぞれから共通成分を特定することと、それぞれのオーディオ信号の第1ペアのそれぞれから、修正された共通成分を減算することであって、修正された共通成分は、マイクのペアに関連付けられたマイクに関連付けられた利得値を乗じた共通成分である、減算することと、それぞれのオーディオ信号の1つの減算された利得乗算成分に遅延を回復させて、修正された2つ以上のオーディオ信号を生成することと、を含んでよい。
2つ以上のオーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供することは、決定された第1音源方向パラメータに基づいて、それぞれのオーディオ信号の第1ペア間の遅延を決定することであって、それぞれのオーディオ信号は2つ以上のマイクのうちの選択された第1ペアからのものである、決定することと、それぞれのオーディオ信号の第1ペアの1つへの決定された遅延の適用に基づいて、それぞれのオーディオ信号の第1ペアを整合させることと、2つ以上のマイクのうちの選択された追加のペアから、それぞれのオーディオ信号の追加のペアを選択することと、決定された追加の音源方向パラメータに基づいて、それぞれのオーディオ信号の追加のペアの間の追加の遅延を決定することと、それぞれのオーディオ信号の追加のペアの1つへの決定された追加の遅延の適用に基づいて、それぞれのオーディオ信号の追加のペアを整合させることと、それぞれのオーディオ信号の第1および第2ペアのから、共通成分を特定することと、それぞれのオーディオ信号の第1ペアのそれぞれから、共通成分または修正された共通成分を減算することであって、修正された共通成分は、マイクの第1ペアに関連付けられたマイクに関連付けられた利得値を乗じた共通成分である、減算することと、それぞれのオーディオ信号に1つの減算した利得乗算成分に遅延を復元し、修正された2つ以上のオーディオ信号を生成することと、を含んでよい。
それぞれの2つ以上のマイクから2つ以上のオーディオ信号を取得することは、2つ以上のオーディオ信号を取得するために2つ以上のマイクの第1ペアを選択し、2つ以上のオーディオ信号の第2ペアを取得するために2つ以上のマイクの第2ペアを選択することを含み、2つ以上のマイクの第2ペアは、第1音源方向パラメータに対してオーディオシャドウに存在し、2つ以上のオーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供することは、2つ以上のオーディオ信号の1つ以上の周波数帯域において、1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源方向パラメータを決定することから、2つ以上のオーディオ信号の第2ペアを提供することを含む。
1つ以上の周波数帯域は、閾値周波数より低くてもよい。
第3態様によれば、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備える装置であって、少なくとも1つのメモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサによって、装置に少なくとも、それぞれの2つ以上のマイクから2つ以上のオーディオ信号を取得することと、2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定することであって、2つ以上のオーディオ信号の処理は、2つ以上のオーディオ信号に基づいて、1つ以上の修正されたオーディオ信号を提供するようにさらに構成される、決定することと、2つ以上のオーディオ信号の1つ以上の周波数帯域において、1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源方向パラメータを決定することと、を行わせるように構成される、装置が提供される。
2つ以上のオーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供するようにされた装置は、さらに、第1音源方向パラメータによって定義される第1音源の投射で2つ以上のオーディオ信号を修正することに基づいて修正された2つ以上のオーディオ信号を生成するようにされてよく、2つ以上のオーディオ信号の1つ以上の周波数帯域において、1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源方向パラメータを決定させられる装置は、修正された2つ以上のオーディオ信号の処理によって、2つ以上のオーディオ信号の1つ以上の周波数帯域において、少なくとも第2音源方向パラメータを決定させられてよい。
装置は、さらに、2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源エネルギーパラメータを決定することと、1つ以上の修正されたオーディオ信号および第1音源エネルギーパラメータに少なくとも部分的に少なくとも基づいて、少なくとも第2音源エネルギーパラメータを決定することと、を行うようにされてよい。
第1および第2音源エネルギーパラメータは、直接対全エネルギー比であってよく、1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源エネルギーパラメータを決定するようにされる装置は、1つ以上の修正されたオーディオ信号の解析に基づいて、中間的な第2音源エネルギーパラメータ直接対全エネルギー比を決定することと、中間的な第2音源エネルギーパラメータ直接対全エネルギー比、または、第1音源エネルギーパラメータ直接対全エネルギー比を1の値から減算した値のうち最小のものを選択すること、または、中間的な第2音源エネルギーパラメータ直接対全エネルギー比に、第1音源エネルギーパラメータ直接対全エネルギー比を1の値から減算した値を乗算すること、のいずれかに基づいて、第2音源エネルギーパラメータ直接対全エネルギー比を生成することと、を行うようにされてよい。
1つ以上の修正されたオーディオ信号および第1音源エネルギーパラメータに少なくとも部分的に少なくとも基づいて、少なくとも第2音源エネルギーパラメータを決定するようにされる装置は、第2音源エネルギーパラメータが、第1音源方向パラメータと第2音源方向パラメータとの差に対してスケーリングされるように、第1音源方向パラメータにさらに基づいて、少なくとも第2音源エネルギーパラメータを決定するようにされてよい。
2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定するようにされる装置は、2つ以上のマイクの第1ペアを選択することと、2つ以上のマイクの選択されたペアから、それぞれのオーディオ信号の第1ペアを選択することと、2つ以上のマイクの選択されたペアからのそれぞれのオーディオ信号の第1ペア間の相関を最大化する遅延を決定することと、2つ以上のマイクの選択されたペアからのそれぞれのオーディオ信号の第1ペア間の相関を最大化する遅延に関連する方向のペアを決定することであって、第1音源方向パラメータは、決定された方向のペアから選択される、決定することと、を行うようにされてよい。
2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定するようにされる装置は、2つ以上のマイクの選択されたさらなるペアからのそれぞれのオーディオ信号のさらなるペアの間のさらなる相関を最大化するさらなる遅延のさらなる決定に基づいて決定された方向のペアから第1音源方向パラメータを選択するようにされてよい。
2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源エネルギーパラメータを決定するようにされる装置は、周波数帯域に対するそれぞれのオーディオ信号の第1ペアのエネルギーに対する最大化された相関を正規化することによって、第1音源方向パラメータに対応する第1音源エネルギー比を決定するようにされてよい。
2つ以上のオーディオ信号に基づいて、1つ以上の修正されたオーディオ信号を提供するようにされた装置は、決定された第1音源方向パラメータに基づいて、それぞれのオーディオ信号の第1ペアの間の遅延を決定することと、それぞれのオーディオ信号の第1ペアの1つへの決定された遅延の適用に基づいて、それぞれのオーディオ信号の第1ペアを整合させることと、それぞれのオーディオ信号の第1ペアのそれぞれから共通成分を特定することと、それぞれのオーディオ信号の第1ペアのそれぞれから共通成分を減算することと、それぞれのオーディオ信号の1つの減算した成分に遅延を復元して、1つ以上の修正されたオーディオ信号を生成することと、を行うようにされてよい。
2つ以上のオーディオ信号に基づいて、1つ以上の修正されたオーディオ信号を提供するようにされた装置は、決定された第1音源方向パラメータに基づいて、それぞれのオーディオ信号の第1ペアの間の遅延を決定することと、それぞれのオーディオ信号の第1ペアのうちの1つへの決定された遅延の適用に基づいて、それぞれのオーディオ信号の第1ペアを整合させることと、それぞれのオーディオ信号の第1ペアのそれぞれから共通成分を特定することと、それぞれのオーディオ信号の第1ペアのそれぞれから、修正された共通成分を減算することであって、修正された共通成分は、マイクのペアに関連付けられたマイクに関連付けられた利得値を乗じた共通成分である、減算することと、それぞれのオーディオ信号の1つの減算された利得を乗じた成分に遅延を復元し、修正された2つ以上のオーディオ信号を生成することと、を行うようにされてよい。
2つ以上のオーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供するようにされた装置は、決定された第1音源方向パラメータに基づいて、それぞれのオーディオ信号の第1ペアの間の遅延を決定することであって、それぞれのオーディオ信号は、2つ以上のマイクの選択された第1ペアからのものである、決定することと、決定された遅延をそれぞれのオーディオ信号の第1ペアの1つに適用することに基づいて、それぞれのオーディオ信号の第1ペアを整合させることと、2つ以上のマイクの選択された追加のペアから、それぞれのオーディオ信号の追加のペアを選択することと、決定された追加の音源方向パラメータに基づいて、それぞれのオーディオ信号の追加のペアの間の追加の遅延を決定することと、決定された追加の遅延の、それぞれのオーディオ信号の追加のペアの1つへの適用に基づいて、それぞれのオーディオ信号の追加のペアを整合させることと、それぞれのオーディオ信号の第1および第2ペアから共通成分を特定することと、共通成分または修正された共通成分をそれぞれのオーディオ信号の第1ペアのそれぞれから減算することであって、修正された共通成分は、マイクの第1ペアに関連付けられたマイクに関連付けられた利得値を乗じた共通成分である、減算することと、遅延をそれぞれのオーディオ信号の1つの減算された利得乗算成分に復元して、修正された2つ以上のオーディオ信号を生成することと、を行うようにされてよい。
それぞれの2つ以上のマイクから2つ以上のオーディオ信号を取得するようにされた装置は、さらに、2つ以上のオーディオ信号を取得するために2つ以上のマイクの第1ペアを選択し、2つ以上のオーディオ信号の第2ペアを取得するために2つ以上のマイクの第2ペアを選択するようにされ、2つ以上のマイクの第2ペアは、第1音源方向パラメータに対してオーディオシャドウにあり、2つ以上のオーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供するようにされた装置は、2つ以上のオーディオ信号の1つ以上の周波数帯域において、1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源方向パラメータを決定するようにされた装置から、2つ以上のオーディオ信号の第2ペアを提供するようにされてよい。
1つ以上の周波数帯域は、閾値周波数より低くてもよい。
第4態様によれば、それぞれの2つ以上のマイクから2つ以上のオーディオ信号を取得する手段と、2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定する手段であって、2つ以上のオーディオ信号の処理は、2つ以上のオーディオ信号に基づいて、1つ以上の修正されたオーディオ信号を提供するようにさらに構成される、決定する手段と、2つ以上のオーディオ信号の1つ以上の周波数帯域において、1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源方向パラメータを決定する手段と、を備える装置が提供される。
第5態様によれば、装置に少なくとも、それぞれの2つ以上のマイクから2つ以上のオーディオ信号を取得することと、2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定することであって、2つ以上のオーディオ信号の処理は、2つ以上のオーディオ信号に基づいて、1つ以上の修正されたオーディオ信号を提供するようにさらに構成されている、決定することと、2つ以上のオーディオ信号の1つ以上の周波数帯域において、1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源方向パラメータを決定することと、を実行させるための命令[または、プログラム命令を含むコンピュータ可読媒体]を含むコンピュータプログラムが提供される。
第6態様によれば、装置に少なくとも、それぞれの2つ以上のマイクから2つ以上のオーディオ信号を取得することと、2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定することであって、2つ以上のオーディオ信号の処理は、2つ以上のオーディオ信号に基づいて、1つ以上の修正されたオーディオ信号を提供するようにさらに構成されている、決定することと、2つ以上のオーディオ信号の1つ以上の周波数帯域において、1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源方向パラメータを決定することと、を実行させるためのプログラム命令を含む非一時的コンピュータ可読媒体が提供される。
第7態様によれば、それぞれの2つ以上のマイクから2つ以上のオーディオ信号を取得するように構成された取得回路と、2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定するように構成された決定回路であって、2つ以上のオーディオ信号の処理は、2つ以上のオーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供するようにさらに構成される、決定回路と、2つ以上のオーディオ信号の1つ以上の周波数帯域において、1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源方向パラメータを決定する手段と、を備える装置が提供される。
第8態様によれば、装置に少なくとも、それぞれの2つ以上のマイクから2つ以上のオーディオ信号を取得することと、2つ以上のオーディオ信号の1つ以上の周波数帯域において、2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定することであって、2つ以上のオーディオ信号の処理は、2つ以上のオーディオ信号に基づいて、1つ以上の修正されたオーディオ信号を提供するようにさらに構成される、決定することと、2つ以上のオーディオ信号の1つ以上の周波数帯域において、1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源方向パラメータを決定することと、を実行させるためのプログラム命令を含むコンピュータ可読媒体が提供される。
上記の方法の動作を実行するための手段を含む装置。
上記に記載の方法の動作を実行するように構成された装置。
上記の方法をコンピュータに実行させるためのプログラム命令を含む、コンピュータプログラム。
媒体に格納されたコンピュータプログラム製品は、装置に本明細書に記載の方法を実行させることができる。
電子機器は、本明細書に記載されるような装置を含んでよい。
チップセットは、本明細書で説明するような装置で構成されてよい。
本願のより良い理解のために、次に、添付の図面を例として参照する。
図1は、同じ大きさの音源が2つある場合の音源方向推定例を示す図である。 図2は、いくつかの実施形態を実施するのに好適な装置例を概略的に示す。 図3は、いくつかの実施形態による図2に示された装置の動作のフロー図である。 図4は、いくつかの実施形態を実施するのに適したさらなる例示的な装置を模式的に示す図である。 図5は、いくつかの実施形態による図4に示された装置の動作のフロー図である。 図6は、いくつかの実施形態による図2または図4に示す例示的な空間アナライザを概略的に示す図である。 図7は、いくつかの実施形態による図6に示す例示的な空間アナライザの動作のフロー図である。 図8は、3つのマイクを使用して音源の到着方向が推定される例示的な状況を示す。 図9は、1つの周波数帯域について2方向からの同時ノイズ入力に対して推定された方向の一例を示す図である。 図10は、いくつかの実施形態による推定に基づく、等しい大きさの2つの音源が存在する場合の音源方向推定例を示す。 図11は、ランドスケープモードで動作する場合の例示的なデバイス内のマイクの配置または構成の一例を示す図である。 図12は、いくつかの実施形態による図2または図4に示されるような空間シンセサイザの例を概略的に示す図である。 図13は、いくつかの実施形態を実施するのに適した例示的な装置を概略的に示す。 図14は、図示の装置を実装するのに適した例示的な装置を概略的に示す。
以下の実施形態に関して、本明細書でさらに詳細に説明する概念は、オーディオシーンのキャプチャに関する。
以下の説明では、音源という用語は、音場(または、オーディオシーン)内の(人工の、または、現実の)定義された要素を説明するために使用される。また、音源という用語は、オーディオオブジェクトまたはオーディオ源として定義することができ、これらの用語は、本明細書に記載される実施例の理解に関して置換可能である。
本明細書の実施形態は、空間オーディオキャプチャ(SPAC)技術等のパラメトリックオーディオキャプチャ装置および方法に関する。時間周波数タイルごとに、装置は、支配的な音源の方向を推定するように構成され、音源の直接成分およびアンビエント成分の相対エネルギーは、直接対全エネルギー比として表される。
以下の例は、携帯端末の寸法が他の寸法に対して少なくとも1つの短い(または、薄い)寸法を含む典型的な携帯端末内で見られるような、チャレンジングなマイク配置または構成を有するデバイスに好適である。本明細書に示す例では、キャプチャされた空間オーディオ信号は、ヘッドホン聴取用のバイノーラルフォーマットのオーディオ信号、または、ラウドスピーカ聴取用のマルチチャンネル信号フォーマットのオーディオ信号等の空間オーディオ信号を生成するための空間シンセサイザの好適な入力である。
いくつかの実施形態では、これらの例は、IVAS互換のオーディオ信号およびメタデータを生成することによって、イマーシブボイスアンドオーディオサービシズ(IVAS)標準コーデックの空間キャプチャフロントエンドの一部として実装することができる
一般的な空間解析は、時間周波数タイルごとに、支配的な音源の方向および直接対全エネルギー比を推定することを含む。これらのパラメータは、原理的に類似した特徴に基づく人間の聴覚システムに動機づけられている。しかしながら、ある状況下では、このようなモデルでは最適な音質を得ることができないことが知られている。
一般に、複数の音源が同時に存在する場合、あるいは、音源が背景雑音でほとんど遮蔽されている場合には、パラメータの推定に問題が生じることがある。1つ目のケースでは、解析された支配的な音源の方向が実際の音源の方向とずれてしまったり、音源からの音の合計によっては、解析が音源の方向の平均値になってしまうことがある。2つ目のケースでは、音源の瞬間的なレベルや雰囲気によって、支配的な音源が見つかることもあれば、見つからないこともある。上記の両ケースにおいて、方向値のばらつきに加え、推定されるエネルギー比が不安定になることがある。
これらのような状況では,方向およびエネルギー比の解析によって,合成されたオーディオ信号に歪みが生じることがある。例えば、音源の方向が不安定になったり、不正確に聞こえたり、背景のオーディオが残響になったりすることがある。
例として、図1に示すように,キャプチャデバイスの周囲に30度および-20度の方位角に同じ大きさの2つの音源がある場合の主音源の方向推定例を示す。図1に示すように、時間の経過とともに、どちらかの音源が支配的であると判断され、空間シンセサイザにより、両方の音源が推定された方向に合成される。このとき、推定される方向は2つの値の間を連続的にジャンプするため、その結果は曖昧であり、ユーザやリスナは2つの音源がどの方向から発せられたものであるかを検出することは困難である。また、この推定された方向が連続的に変化するため、合成された音場は不安定かつ不自然な音となる。
利用可能な情報量が増加した場合、上記の問題を改善するための技術が提案されている。例えば、時間周波数タイルごとに最も支配的な2つの方向についてのパラメータを推定することが提案されている。例えば、現在策定中の3GPP(登録商標)IVAS規格では、同時に2つの方向をサポートすることが計画されている。
しかしながら、一般的な携帯端末のマイクを用いたパラメトリックオーディオコーディングでは、2つの支配的な音源の方向を推定する信頼性の高い方法はない。さらに、推定に信頼性が低い場合、実際には音源が存在しない方向に音源が合成されたり、音源位置がある位置から別の位置に連続的に移動したり、不安定になる可能性がある。すなわち、推定の信頼性が低い場合、複数の方向を推定するメリットがなく、空間シンセサイザで生成される空間オーディオ信号が品質低下する可能性がある。
したがって、要するに、本明細書に記載された実施形態は、2つ以上のマイクを用いたパラメトリック空間オーディオキャプチャに関連する。さらに少なくとも、2つ以上のマイクからのオーディオ信号に基づいて、すべての時間周波数タイルにおいて2つの方向およびエネルギー比パラメータが推定される。
これらの実施形態では、複数の音源方向の検出精度の改善を達成するために、第2方向を推定する際に、第1推定方向の影響が考慮される。これは、いくつかの実施形態において、合成された空間オーディオの知覚上の品質の改善をもたらし得る。
実際に、本明細書で説明する実施形態は、空間的により安定し、(正しい、または、実際の位置に関して)より正確であると認識される音源の推定値を生成する。
いくつかの実施形態では、第1方向およびエネルギー比は、任意の適切な推定方法を用いて推定される(推定することができる)。さらに、第2方向を推定する場合、第1方向の影響は、最初にマイク信号から除去される。いくつかの実施形態では、これは、最初に第1方向に基づく信号間の任意の遅延を除去し、次に両方の信号から共通成分を減算することによって実施することができる。最後に、元の遅延が復元される。次に、第2方向パラメータは、第1方向の推定と同様の方法を用いて推定することができる。
いくつかの実施形態では、低周波で2つの異なる方向を推定するために、異なるマイクのペアが使用される。これにより、デバイスの物理的形状に起因する音の自然なシャドーイングが強調され、デバイスの異なる側の音源を検出する可能性が向上する。
いくつかの実施形態では、第2方向のエネルギー比は、第1方向のエネルギー比の推定と同様の方法を用いて最初に解析される。さらにいくつかの実施形態では、第2エネルギー比は、第1方向のエネルギー比に基づいて、かつ、第1推定音源方向と第2推定音源方向との間の角度差に基づいて、さらに修正される。
図2に関して、本明細書に記載の実施形態を実施するのに適した装置の概略図である。
この例では、マイクアレイ201を含む装置が示されている。マイクアレイ201は、オーディオ信号をキャプチャするように構成された複数(2つ以上)のマイクで構成される。マイクアレイ内のマイクは、任意の適切なマイクタイプ、配置、または、構成とすることができる。マイクアレイ201によって生成されたマイクオーディオ信号202は、空間アナライザ203に渡すことができる。
本装置は、マイクオーディオ信号202を受信または他の方法で取得するように構成された空間アナライザ203を備えることができ、各時間周波数ブロックについて少なくとも2つの支配的な音またはオーディオ源を決定するために、マイクオーディオ信号を空間的に解析するように構成される。
空間アナライザは、いくつかの実施形態では、携帯端末またはコンピュータのCPUとすることができる。空間アナライザ203は、オーディオ信号だけでなく、解析された空間情報204のメタデータを含むデータストリームを生成するように構成される。
ユースケースに応じて、データストリームを保存したり、圧縮して別の場所に送信したりすることができる。
本装置は、さらに、空間シンセサイザ205を有する。空間シンセサイザ205は、オーディオ信号およびメタデータを含むデータストリームを取得するように構成される。いくつかの実施形態において空間シンセサイザ205は、(ここでは、図2に示すように)空間アナライザ203と同じ装置内に実装されるが、いくつかの実施形態では、さらに、異なる装置またはデバイス内に実装することができる。
空間シンセサイザ205は、CPUまたは同様のプロセッサ内に実装することができる。空間シンセサイザ205は、データストリーム204からのオーディオ信号および関連するメタデータに基づいて、出力オーディオ信号206を生成するように構成される。
さらにユースケースに応じて、出力信号206は、任意の適切な出力フォーマットとすることができる。例えば、いくつかの実施形態では、出力フォーマットは、バイノーラルヘッドホン信号(出力オーディオ信号を提示する出力装置がヘッドホン/イヤホン等のセットである)、または、マルチチャンネルラウドスピーカオーディオ信号(出力装置がラウドスピーカのセットである)である。出力装置207(上述のように、例えばヘッドホンまたはラウドスピーカであってよい)は、出力オーディオ信号206を受信して、出力をリスナまたはユーザに対して提示するように構成され得る。
図2に示した実施例装置のこれらの動作は、図3に示すフロー図によって示すことができる。従って、本実施例装置の動作をまとめると、以下のようになる。
図3に示すように、ステップ301により、マイクオーディオ信号を取得する。
図3に示すように、ステップ303によって、マイクオーディオ信号を空間的に解析し、時間周波数タイルごとに、第1および第2オーディオ源の方向およびエネルギー比を含む空間的オーディオ信号およびメタデータを生成する。
図3に示すように、ステップ305によって、空間オーディオ信号に空間合成を適用し、好適な出力オーディオ信号を生成する。
図3に示すように、ステップ307によって、出力オーディオ信号を出力装置に出力する。
ある実施形態では、空間解析はIVASコーデックと関連して使用することができる。この実施例では、空間解析出力はIVAS互換のMASA(metadata-assisted spatial audio)フォーマットであり、IVASエンコーダに直接供給することができる。IVASエンコーダはIVASデータストリームを生成する。受信側では、IVASデコーダが直接、所望の出力オーディオフォーマットを生成することができる。すなわち、このような実施形態では、個別の空間合成ブロックは存在しない。
これは、例えば、図4に示す装置と、図5のフロー図によって示される装置の操作について示される。
図4に示すこの例では、装置はマイクアレイ201も含む。空間アナライザ203に渡されるマイクオーディオ信号202を生成するように構成されている。
空間アナライザ203は、マイクオーディオ信号202を受信またはその他の方法で取得し、各時間周波数ブロックについて少なくとも2つの支配的な音源またはオーディオ源を決定するように構成される。空間アナライザ203によって生成されたデータストリーム、MASAフォーマットデータストリーム(オーディオ信号だけでなく、解析された空間情報のメタデータも含む)404は、次に、IVASエンコーダ405に渡すことができる。
本装置は、MASAフォーマットデータストリーム404を受け取り、破線416で示すように、送信または保存することができるIVASデータストリーム406を生成するように構成されたIVASエンコーダ405をさらに備えることができる。
本装置は、さらに、IVASデコーダ407(空間シンセサイザ)を有する。IVASデコーダ407は、IVASデータストリームをデコードし、さらに、適切な出力装置207への出力オーディオ信号206を生成するために、決定されたオーディオ信号を空間合成するように構成される。
出力装置207(上述したように、例えば、ヘッドホンまたはラウドスピーカとすることができる)は、出力オーディオ信号206を受信し、リスナまたはユーザに出力を提示するように構成することができる。
図4に示した実施例の装置の動作は、図5に示すフロー図によって示すことができる。従って、本実施例の装置の動作をまとめると、以下のようになる。
図5に示すように、ステップ301によって、マイクオーディオ信号を取得する。
図5に示すように、ステップ503によって、マイクオーディオ信号を空間的に解析し、MASAフォーマットの出力(空間オーディオ信号ならびに時間周波数タイルごとの第1および第2オーディオ源の方向およびエネルギー比を含むメタデータ)を生成する。
図5に示すように、ステップ505によって、生成データストリームをIVAS符号化する。
図5に示すように、ステップ507によって、符号化されたIVASデータストリームを復号し(そして、復号された空間オーディオ信号に空間合成を行い)、適切な出力オーディオ信号を生成する。
図5に示すように、ステップ307によって、出力オーディオ信号を出力装置に出力する。
いくつかの実施形態では、その代わりに、出力オーディオ信号がアンビソニック信号である。そのような実施形態では、すぐに入手可能な直接的な出力装置は存在しない可能性がある。
図2および図4に符号203で示した空間アナライザを、図5を参照してさらに詳細に示す。
いくつかの実施形態における空間アナライザ203は、ストリーム(トランスポート)オーディオ信号ジェネレータ607を有する。ストリームオーディオ信号ジェネレータ607は、マイクオーディオ信号202を受信し、マルチプレクサ609に渡されるストリームオーディオ信号(複数可)608を生成するように構成される。オーディオストリーム信号は、任意の好適な方法に基づいて、入力マイクオーディオ信号から生成される。例えば、いくつかの実施形態では、1つまたは2つのマイク信号が、マイクオーディオ信号202から選択され得る。あるいは、いくつかの実施形態では、マイクオーディオ信号202は、ストリームオーディオ信号608を生成するためにダウンサンプリングおよび/または圧縮され得る。
以下の例では、空間解析は周波数領域で実行されるが、いくつかの実施形態では、解析は、また、マイクオーディオ信号の時間領域サンプリングバージョンを使用して時間領域で実行できることが理解されよう。
いくつかの実施形態における空間アナライザ203は、時間周波数変換器601を有する。時間周波数変換器601は、マイクオーディオ信号202を受信し、周波数領域に変換するように構成される。いくつかの実施形態では、変換前において、時間領域のマイクオーディオ信号は、s(t)と表すことができ、tは時間インデックスであり、iはマイクチャネルインデックスである。周波数領域への変換は、STFT(短時間フーリエ変換)または(複素変調)QMF(直交ミラーフィルタバンク)等の任意の適切な時間周波数変換によって実施することができる。結果として得られる時間周波数領域のマイク信号602は、S(b,n)と表記され、iはマイクチャネルインデックス、bは周波数ビンインデックス、nは時間フレームインデックスである。bの値は、範囲0,・・・,B-1であり、Bは、時間インデックスn毎のビンインデックスの数である。
周波数ビンは、さらにサブバンドk=0,・・・,K-1と組み合わせることができる。各サブバンドは、1つ以上の周波数ビンから構成される。各サブバンドkは、最低ビンbk,lowと最高ビンbk,highを有する。サブバンドの幅は、通常、人間の聴覚特性に基づいて選択され、例えば、等価長方形帯域幅(ERB)またはBarkスケールが使用され得る。
いくつかの実施形態では、空間アナライザ203は、第1方向アナライザ603を含んでいる。第1方向アナライザ603は、時間周波数領域マイクオーディオ信号602を受信し、(ファースト)第1方向614および(ファースト)第1比率616の各時間周波数タイルについて第1音源の推定値を生成するように構成される。
第1方向アナライザ603は、SPAC等の任意の好適な方法に基づいて第1方向の推定値を生成するように構成される(US9313599において、さらに詳細に説明されている通りである)。
いくつかの実施形態において、例えば、時間フレームインデックスに対する最も支配的な方向は、サブバンドkについて2つの(マイクオーディオ信号)チャネル間の相関を最大化する時間シフトτを検索することによって推定される。S(b,n)は以下のようにτサンプルだけシフトされ得る。
Figure 2023054780000002
そして、2つのマイクチャネル間の相関を最大化する各サブバンドkの遅延τを求める。
Figure 2023054780000003
上式では、マイク1とマイク2の間で「最適」な遅延を探索する。Reは結果の実部、*は信号の複素共役を示す。遅延探索範囲パラメータDmaxは、マイク間距離に基づいて定義される。すなわち、マイク間距離と音速を考慮した物理的に可能な範囲でのみτの値を探索する。
このとき、第1方向の角度は次のように定義される。
Figure 2023054780000004
このように、角度の符号には、まだ不確かさが残っている。
上記で、マイク1とマイク2の間の方向解析が定義された。他のマイクペア間でも同様の手順を繰り返すことで、曖昧さを解消することができる(および/または他の軸を基準とした方向を求めることができる)。すなわち、
Figure 2023054780000005
の符号の曖昧さを解消するために、他の解析ペアからの情報を利用することができる。
例えば、図8は、マイクアレイが3つのマイク、第1マイク801、第2マイク803、および、第3マイク805を含み、第1軸上の距離だけ離れた第1ペア(第1マイク801および第3マイク803)、ならびに、第2軸(この例では第1軸は第2軸に垂直である)上の距離だけ離れた第2ペア(第1マイク801および第2マイク805)が存在するように配置されている例である。さらに、この例では、3つのマイクは、第1軸および第2軸に垂直なもの(および、図が印刷されている紙の平面に垂直なもの)として定義される同じ第3軸上に存在することが可能である。マイクの第1ペア801と803の間の遅延の解析は、2つの代替的な角度、α807と-α809をもたらす。次に、マイクの第2ペア801と805との間の遅延の解析は、代替角度のうちのいずれが正しいかを決定するために使用され得る。いくつかの実施形態では、この解析から必要とされる情報は、音がマイク801または805のどちらに最初に到着するかである。音がマイク805に到着した場合、角度αは正しい。そうでない場合は、-αが選択される。
さらに、複数のマイクペア間の推定に基づいて、第1空間アナライザは正しい方向角
Figure 2023054780000006
を決定または推定することができる。
限られたマイクの構成または配置、例えば、マイクが2つだけあるいくつかの実施形態では、方向の曖昧さを解決することができない。このような実施例では、空間アナライザは、全ての音源が常にデバイスの前方にあると定義するように構成される場合がある。この状況は、2つ以上のマイクがある場合でも同じであり、それらの位置によって、例えば、前後方向の解析ができない。
本明細書では開示しないが、垂直軸上にある複数のペアのマイクで仰角と方位を推定することができる。
第1方向アナライザ603は、さらに、例えば、以下のようにして正規化した後の相関値c(k,n)を用いて、角度θ(k,n)に対応するエネルギー比r(k,n)を決定または推定することが可能である。
Figure 2023054780000007
(k,n)の値は-1~1であり、通常は、さらに0~1の間に限定される。
いくつかの実施形態では、第1方向アナライザ603は、修正された時間周波数マイクオーディオ信号604を生成するように構成される。修正された時間周波数マイクオーディオ信号604は、第1音源成分がマイク信号から除去されたものである。
したがって、例えば、第1マイクペア(図8のマイクの構成例で示したマイク801、803)に関して、サブバンドkについて、最も高い相関を与える遅延は、τである。サブバンドk毎に、第2マイク信号をτサンプルだけシフトして、シフトされた第2マイク信号S2,τk(b,n)を得る。
これらの時間軸を揃えた信号の平均値として、音源成分の推定値を求めることができる。
Figure 2023054780000008
いくつかの実施形態では、音源成分を決定するための他の任意の適切な方法を使用することができる。
音源成分C(b,n)の推定値が(例えば、上記の数式例において)決まれば、これをマイクオーディオ信号から除去することができる。一方、他の同時音源は位相がずれているため、C(b,n)は減衰している。ここで、(シフトしたものと、しないものの)マイク信号からC(b,n)を減少させることができる。
Figure 2023054780000009
さらに、シフトされた修正されたマイクオーディオ信号
Figure 2023054780000010
は、τに戻る。
Figure 2023054780000011
これらの修正された信号
Figure 2023054780000012
は、次に、第2方向アナライザ605に渡すことができる。
いくつかの実施形態では、空間アナライザ203は、第2方向アナライザ605を含む。第2方向アナライザ605は、時間周波数マイクオーディオ信号602、修正された時間周波数マイクオーディオ信号604、第1方向614、および、第1比率616推定値を受信し、第2方向624および第2比率626推定値を生成するように構成される。
第2方向のパラメータ値の推定は、第1方向の推定と同じサブバンド構造を採用し、第1方向の推定について前述したのと同様の操作に従うことができる。
したがって、第2方向パラメータθ(k,n)およびr´(k,n)を推定することができる。このような実施形態では、方向推定を決定するために、時間周波数マイクオーディオ信号602S(b,n)およびS(b,n)ではなく、修正時間周波数マイクオーディオ信号
Figure 2023054780000013
が使用される。
さらに、いくつかの実施形態では、エネルギー比r´(k,n)は、第1および第2比の合計が1を超えてはならないため、制限される。
いくつかの実施形態では、第2比率は以下のように制限される。
Figure 2023054780000014
または、
Figure 2023054780000015
ここで,関数minは,与えられた選択肢のうち,より小さいものを選択する。どちらの代替案も良好な品質比の値を提供することがわかった。
上記の例では、複数のマイクペアがあるため、修正信号は各ペアで別々に計算する必要があり、すなわち、マイクペア801と805、または、ペア801と803を考慮すると、
Figure 2023054780000016
は同じ信号ではないことに注意されたい。
第1方向推定値614、第1比率推定値616、第2方向推定値624、第2比率推定値626は、推定値とストリームオーディオ信号608の組み合わせから、データストリーム204/404を生成するように構成されているマルチプレクサ(mux)609に渡される。
図7に関して、図6に示した空間アナライザの動作例をまとめたフロー図が示されている。
図7に示すように、ステップ701によって、マイクオーディオ信号が取得される。
そして、図7に示すように、ステップ702によって、マイクオーディオ信号からストリームオーディオ信号が生成される。
さらに、図7に示すように、ステップ703によって、マイクオーディオ信号を時間周波数領域変換することができる。
その後、図7に示すように、ステップ705によって、第1方向および第1比率のパラメータ推定値を決定することができる。
次に、図7に示すように、ステップ707によって、時間周波数領域のマイクオーディオ信号を(第1ソース成分を除去するために)修正することができる。
次に、図7に示すように、ステップ709によって、修正された時間周波数領域のマイクオーディオ信号は、第2方向および第2比率パラメータ推定値を決定するために解析される。
そして、図7に示すように、ステップ711によって、第1方向、第1比率、第2方向、第2比率のパラメータ推定値とストリームオーディオ信号を多重化して、データストリーム(MASAフォーマットのデータストリームでもよい)を生成する。
そこで、図9に示すように、1つのサブバンドの方向解析結果の一例を示す。入力は2方向から同時に到来する無相関のノイズ信号であり、第1方向から到来する信号が第2方向より1dB大きくなっている。多くの場合、より強い音源が第1方向として検出されるが、時には第2方向の音源が第1方向として検出されることもある。もし、1つの方向しか推定されなかった場合、方向推定値は2つの値の間をジャンプすることになり、これは潜在的に品質上の問題を引き起こす可能性がある。2方向解析の場合、両方の音源が第1または第2方向に含まれるため、合成される信号の品質は常に良好に保たれる。
例えば、図10は,図1と同じ状況での方向推定結果である(時間周波数タイルごとに1つだけ方向推定を行った)。比較として、同じ状況で2つの方向推定を行った方が、音源の位置が維持されていることがわかる。
いくつかの実施形態では、共通成分C(b,n)(第1ソース成分)を決定するために他の方法が採用されてよい。例えば、いくつかの実施形態では、主成分解析(PCA)または他の関連する方法を採用することができる。いくつかの実施形態では、共通成分を生成または減算する際に、異なるチャネルに対する個々の利得が適用される。したがって、例えば、いくつかの実施形態では、以下のようになる。
Figure 2023054780000017
および、
Figure 2023054780000018
このような実施形態では、例えば、マイクにおけるオーディオ信号のレベルが異なることを考慮しながら、マイク信号から共通成分を除去することができる。
さらに、上記の例では、共通成分(結合信号)C(b,n)は、2つのマイク信号を用いて生成されるが、いくつかの実施形態では、より多くのマイクを採用することができる。例えば、利用可能な3つのマイクがある場合、マイクのペア801と803、および、801と805の間の「最適な」遅延を推定することができる。これらをそれぞれτ(1,2)およびτ(1,3)と表記する。そのような実施形態では、結合信号は、以下のように求められる。
Figure 2023054780000019
上記と同様に、第2方向を解析する前に、3つのマイク信号すべてから合成信号を除去することができる。
上記の例では、2つの方向を推定するための方法は、一般に良好な結果を提供する。しかしながら、典型的な携帯端末のマイク構成におけるマイク位置は、推定値をさらに改善し、いくつかの例では、特に最低周波数における第2方向解析の信頼性を改善するために使用することが可能である。
例えば、図11は最近の携帯端末における典型的なマイクの構成位置を示している。この端末は、ディスプレイ1109およびカメラ筐体1107を有する。マイク1101と1105は、互いにかなり近くに配置されているのに対し、マイク1103は、さらに離れた位置に配置されている。端末の物理的な形状は、マイクによってキャプチャされるオーディオ信号に影響を与える。マイク1105は、端末のメインカメラ側にある。端末のディスプレイ側から到来する音は、マイク1105に到達するために端末のエッジを周回しなければならない。この長い経路のため、信号は減衰し、周波数によっては6~10dBも減衰する。一方、マイク1101は装置の端にあり、装置の左側から到来する音はマイクに直接届き、右側から到来する音はコーナーを1周する必要がある。このように、マイク1101と1105が近接していても、キャプチャする信号が全く異なる場合がある。
この2つのマイク信号の差は、方位解析に利用することができる。上に示した式を用いると、マイクペア1~2(マイク番号1101と1103)、3~2(マイク番号1105と1103)間のマイク間の最適遅延τ(1,2)およびτ(3,2)を推定することができ、それに応じた角度
Figure 2023054780000020
についても推定可能である。マイクペア間の距離が異なるため、角度を計算する際に考慮する必要がある。
特に、
Figure 2023054780000021
が明らかに異なる方向を指している場合、すなわち、異なる支配的な音源を見つけた場合は、これらの2つの方向を2方向推定として直接利用することが可能である。
Figure 2023054780000022
エネルギー比は、先に示したのと同様に計算することができ、r(k,n)の値は、r(k,n)の値に基づいて再び制限される必要がある。
Figure 2023054780000023
の値の符号の曖昧さは、上記と同様に解くことができ、換言すれば、マイクペア1~3は、方向性の曖昧さを解くために利用することができる。
これらの実施形態は、一般的なマイク構成で2方向の推定が最も困難な最低周波数帯域で特に有用であることを明らかにした。
上記の実施形態では、第2方向のエネルギー比r(k,n)が、第1エネルギー比r(k,n)の値に基づいて制限されることが議論されてきた。いくつかの実施形態では、第1および第2方向推定の間の角度差が、比率(複数可)を修正するために使用される。
したがって、いくつかの実施形態では、θ(k,n)およびθ(k,n)が同じ方向を向いている場合、第1方向のエネルギー比パラメータは既に十分な量のエネルギーを含み、与えられた第2方向にこれ以上エネルギーを割り当てる必要はない、すなわち、r(k,n)は、ゼロに設定することが可能である。反対に、θ(k,n)およびθ(k,n)が反対方向を向いている場合、比率r(k,n)の影響が最も大きく、r(k,n)の値を最大に維持する必要がある。
これは、β(k,n)がθ(k,n)とθ(k,n)との間の絶対的な角度差である、いくつかの実施形態で実施可能であり、
Figure 2023054780000024
であり、β(k,n)の値は-πとπの間で折り返される。
Figure 2023054780000025
そうすると、第2方向のエネルギー比に対する第1方向の総合的な効果は、次のように計算できる。
Figure 2023054780000026
または、
Figure 2023054780000027
ここで、r´(k,n)は、元の比率であり、r(k,n)は、修正された比率である。この例では、角度差は、r(k,n)のスケーリングに対して線形的な効果を有する。いくつかの実施形態では、例えば、正弦波重み付け等の他の重み付けオプションがある。
図12を参照して、図2および図4にそれぞれ示したような空間シンセサイザ205またはIVASデコーダ407の例を示す。
いくつかの実施形態における空間シンセサイザ205/IVASデコーダ407は、デマルチプレクサ1201を有する。いくつかの実施形態におけるデマルチプレクサ(Demux)1201は、データストリーム204/404を受信し、データストリームをストリームオーディオ信号1208と、第1方向1214推定値、第1比率1216推定値、第2方向1224推定値、および、第2比率1226推定値等の空間パラメータ推定値に分離させる。データストリームが(例えば、IVASエンコーダを使用して)符号化された、いくつかの実施形態では、データストリームはここで復号化され得る。
これらは、空間プロセッサ/シンセサイザ1203に渡される。
空間シンセサイザ205/IVASデコーダ407は、空間プロセッサ/シンセサイザ1203を含み、推定値およびストリームオーディオ信号を受信し、出力オーディオ信号をレンダリングするように構成される。空間プロセッシング/合成は、EP3791605に記載されているような、任意の適切な2方向ベースの合成とすることができる。
図13は、いくつかの実施形態による実施例を示す概略図である。この装置は、マイクアレイ201、空間アナライザ203、および、空間シンセサイザ205の構成要素を含むキャプチャ/再生装置1301である。さらに装置1301は、オーディオ信号およびメタデータ(データストリーム)204を格納するように構成されたストレージ(メモリ)1201を有する。
キャプチャ/再生装置1301は、いくつかの実施形態において、携帯端末とすることができる。
図14に関して、コンピュータ、エンコーダプロセッサ、デコーダプロセッサ、または、本明細書に記載の機能ブロックのいずれかとして使用され得る例示的な電子装置が示されている。装置は、任意の適切な電子機器または装置であってよい。例えば、いくつかの実施形態では、装置1600は、携帯端末、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオ再生装置等である。
いくつかの実施形態では、装置1600は、少なくとも1つのプロセッサ、または、中央処理装置1607を有する。プロセッサ1607は、本明細書に記載されるような方法等、様々なプログラムコードを実行するように構成され得る。
いくつかの実施形態では、デバイス1600は、メモリ1611を有する。いくつかの実施形態では、少なくとも1つのプロセッサ1607は、メモリ1611に接続される。メモリ1611は、任意の適切な記憶手段であり得る。いくつかの実施形態では、メモリ1611は、プロセッサ1607に実装可能なプログラムコードを格納するためのプログラムコード部を含む。さらに、いくつかの実施形態では、メモリ1611は、データ、例えば、本明細書に記載されるような実施形態に従って処理された、または、処理されるべきデータを格納するための格納データセクションをさらに備えることができる。プログラムコードセクション内に格納された実装されたプログラムコード、および、格納されたデータセクション内に格納されたデータは、メモリ-プロセッサ接続を介して、必要なときに、プロセッサ1607によって取り出すことができる。
いくつかの実施形態では、装置1600は、ユーザインタフェース1605を備える。ユーザインタフェース1605は、いくつかの実施形態において、プロセッサ1607に接続され得る。いくつかの実施形態において、プロセッサ1607は、ユーザインタフェース1605の動作を制御し、ユーザインタフェース1605から入力を受信することができる。いくつかの実施形態において、ユーザインタフェース1605は、ユーザが、例えば、キーパッドを介して、デバイス1600に命令を入力することを可能にすることができる。いくつかの実施形態において、ユーザインタフェース1605は、ユーザが装置1600から情報を取得することを可能にすることができる。例えば、ユーザインタフェース1605は、ユーザに対して装置1600からの情報を表示するように構成されたディスプレイを含んでよい。ユーザインタフェース1605は、いくつかの実施形態において、装置1600に情報を入力することを可能にし、さらに、装置1600のユーザに対して、情報を表示することの両方が可能なタッチスクリーンまたはタッチインタフェースを備え得る。
いくつかの実施形態において、装置1600は、入力/出力ポート1609を有する。いくつかの実施形態における入力/出力ポート1609は、トランシーバを有する。そのような実施形態におけるトランシーバは、プロセッサ1607に接続され、例えば、無線通信ネットワークを介して、他の装置または電子機器との通信を可能にするよう構成され得る。トランシーバ、または、任意の適切なトランシーバ、または、送信および/または受信手段は、いくつかの実施形態において、有線または無線接続を介して、他の電子機器または装置と通信するように構成され得る。
トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。例えば、いくつかの実施形態では、トランシーバは、適切なユニバーサル移動通信システム(UMTS)プロトコル、例えば、IEEE802.X等の無線ローカルエリアネットワーク(WLAN)プロトコル、Bluetooth(登録商標)等の適切な短距離無線周波数通信プロトコル、または、赤外線データ通信経路(IRDA)を使用することができる。
トランシーバ入力/出力ポート1609は、適切なコードを実行するプロセッサ1607を使用することによって、オーディオ信号、ビットストリームを送信/受信し、いくつかの実施形態において、上述のような動作および方法を実行するように構成され得る。
一般的に、本発明の様々な実施形態は、ハードウェアまたは特殊用途回路、ソフトウェア、ロジック、または、それらの任意の組み合わせにおいて実装されてよい。例えば、いくつかの態様は、ハードウェアで実装されてもよく、他の態様は、コントローラ、マイクロプロセッサ、または、他のコンピューティングデバイスによって実行されてもよいファームウェアまたはソフトウェアで実装されてもよいが、本発明はこれらには限定されない。本発明の様々な態様は、ブロック図、フローチャートとして、または、他の何らかの図形的表現を用いて図示および説明され得るが、本明細書に記載されるこれらのブロック、装置、システム、技術または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、特殊用途回路もしくはロジック、汎用ハードウェアもしくはコントローラもしくは他の計算装置、または、これらの何らかの組み合わせで実施されてよいことは十分に理解されよう。
本発明の実施形態は、プロセッサエンティティ等の携帯端末のデータプロセッサにより実行可能なコンピュータソフトウェアによって、または、ハードウェアによって、または、ソフトウェアとハードウェアの組み合わせによって、実装されてもよい。さらに、この点で、図のような論理フローの任意のブロックは、プログラムステップ、または、相互接続された論理回路、ブロックおよび機能、または、プログラムステップおよび論理回路、ブロックおよび機能の組み合わせを表すことができることに留意されたい。ソフトウェアは、メモリチップ、または、プロセッサ内に実装されたメモリブロック、磁気媒体、および、光媒体等の物理的媒体に格納されてもよい。
メモリは、ローカルな技術環境に適した任意のタイプであってよく、半導体ベースのメモリ装置、磁気メモリ装置およびシステム、光学メモリ装置およびシステム、固定メモリおよび取り外し可能メモリ等、任意の好適なデータ記憶技術を使用して実装することができる。データプロセッサは、ローカルな技術環境に適した任意のタイプであってよく、非限定的な例として、汎用コンピュータ、特殊用途コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、ゲートレベル回路およびマルチコアプロセッサアーキテクチャに基づくプロセッサの1つ以上を含んでもよい。
本発明の実施形態は、集積回路モジュール等の様々な部品において実施することができる。集積回路の設計は、概して高度に自動化されたプロセスである。論理レベル設計を、半導体基板上にエッチングして形成するのに適した半導体回路設計に変換するために、複雑で強力なソフトウェアツールが利用可能である。
カリフォルニア州マウンテンビューのシノプシス社や、カリフォルニア州サンノゼのケイデンスデザイン社等のプログラムは、確立された設計ルールと予め保存された設計モジュールのライブラリを使って、半導体チップ上の導体の配線や部品の配置を自動的に行う。半導体回路の設計が完了したら、設計結果を標準化された電子フォーマット(Opus、GDSII等)で半導体製造施設または「ファブ」に送信し、製造を委託することができる。
上述の説明は、例示的かつ非限定的な例によって、本発明の例示的な実施形態の完全かつ参考となる説明を提供した。しかしながら、添付の図面および添付の特許請求の範囲と併せて読むと、上述の説明を考慮して、様々な変更および適用が、関連する分野の当業者には明らかになるであろう。しかしながら、この発明の教示のすべてのそのような、および、類似の修正は、やはり添付の特許請求の範囲で定義される本発明の範囲に入るであろう。

Claims (20)

  1. それぞれの2つ以上のマイクから、2つ以上のオーディオ信号を取得することと、
    前記2つ以上のオーディオ信号の1つ以上の周波数帯域において、前記2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定することであって、前記2つ以上のオーディオ信号を処理することは、前記2つ以上のオーディオ信号に基づいて、1つ以上の修正されたオーディオ信号を提供するようにさらに構成される、決定することと、
    前記2つ以上のオーディオ信号の前記1つ以上の周波数帯域において、前記1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源方向パラメータを決定することと、
    を行うように構成された手段を含む装置。
  2. 前記2つ以上のオーディオ信号に基づいて、1つ以上の修正されたオーディオ信号を提供するように構成された前記手段が、さらに、
    前記第1音源方向パラメータによって定義される第1音源の投射で前記2つ以上のオーディオ信号を修正することに基づいて、修正された2つ以上のオーディオ信号を生成するように構成され、
    前記2つ以上のオーディオ信号の前記1つ以上の周波数帯域において、前記1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源方向パラメータを決定するように構成された手段は、前記2つ以上のオーディオ信号の前記1つ以上の周波数帯域において、前記修正された2つ以上のオーディオ信号を処理することによって、少なくとも前記第2音源方向パラメータを決定する、
    請求項1に記載の装置。
  3. 前記手段は、さらに
    前記2つ以上のオーディオ信号の1つ以上の周波数帯域において、前記2つ以上のオーディオ信号の前記処理に基づいて、第1音源エネルギーパラメータを決定することと、
    前記1つ以上の修正されたオーディオ信号および前記第1音源エネルギーパラメータに少なくとも部分的に少なくとも基づいて、少なくとも第2音源エネルギーパラメータを決定することと、
    を行うように構成される、請求項1または2に記載の装置。
  4. 前記第1および第2音源エネルギーパラメータは、直接対全エネルギー比であり、前記手段は、前記1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源エネルギーパラメータを決定するように構成され、
    前記1つ以上の修正されたオーディオ信号の解析に基づいて、中間的な第2音源エネルギーパラメータ直接対全エネルギー比を決定することと、
    前記中間的な第2音源エネルギーパラメータ直接対総エネルギー比、または、前記第1音源エネルギーパラメータ直接対総エネルギー比の値のうち最も小さいものを選択すること、および、前記中間的な第2音源エネルギー直接対総エネルギー比に、前記第1音源エネルギー直接対総エネルギー比の値を1から減算した値を乗算すること、のうちの1つに基づいて、前記第2音源エネルギーパラメータ直接対全エネルギー比を生成することと、
    を行うように構成される、請求項3に記載の装置。
  5. 前記1つ以上の修正されたオーディオ信号および前記第1音源エネルギーパラメータに少なくとも部分的に少なくとも基づいて、前記少なくとも第2音源エネルギーパラメータを決定するように構成された手段は、前記第1音源方向パラメータと第2音源方向パラメータとの前記差に対してスケーリングされるように、前記第1音源方向パラメータにさらに基づいて、前記第2音源エネルギーパラメータを決定するように構成される、請求項3記載の装置。
  6. 前記2つ以上のオーディオ信号の1つ以上の周波数帯域において、前記2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定するように構成された前記手段は、
    前記2つ以上のマイクの第1ペアを選択することと、
    前記2つ以上のマイクの前記選択されたペアからのそれぞれのオーディオ信号の第1ペアを選択することと、
    前記2つ以上のマイクのうちの前記選択されたペアから、それぞれのオーディオ信号の前記第1ペアの間の相関を最大化する遅延を決定することと、
    前記2つ以上のマイクの前記選択されたペアからのそれぞれのオーディオ信号の前記第1ペアの間の前記相関を最大化する前記遅延に関連する方向のペアを決定することであって、前記第1音源方向パラメータは、前記決定された方向のペアから選択される、決定することと、
    を行うように構成される、請求項1乃至5のいずれかに記載の装置。
  7. 前記2つ以上のオーディオ信号の1つ以上の周波数帯域において、前記2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定するように構成された前記手段は、前記2つ以上のマイクの選択されたさらなるペアからのそれぞれのオーディオ信号のさらなるペアの間のさらなる相関を最大化するさらなる遅延のさらなる決定に基づいて、前記決定された方向のペアから前記第1音源方向パラメータを選択するように構成されている、請求項6に記載の装置。
  8. 請求項3に従属する場合、前記2つ以上のオーディオ信号の1つ以上の周波数帯域において、前記2つ以上のオーディオ信号の前記処理に基づいて、前記第1音源エネルギーパラメータを決定するように構成された前記手段は、前記周波数帯域について前記第1ペアのそれぞれのオーディオ信号のエネルギーに対する最大化された相関を正規化することにより、前記第1音源方向パラメータに対応する前記第1音源エネルギー比を決定するように構成されている、請求項6または7に記載の装置。
  9. 前記2つ以上のオーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供するように構成された前記手段は、
    前記決定された第1音源方向パラメータに基づいて、それぞれのオーディオ信号の第1ペアの間の遅延を決定することと、
    前記決定された遅延をそれぞれのオーディオ信号の前記第1ペアのうちの1つに適用することに基づいて、それぞれのオーディオ信号の前記第1ペアを整合させることと、
    それぞれのオーディオ信号の前記第1ペアのそれぞれから共通成分を特定することと、
    それぞれのオーディオ信号の前記第1ペアのそれぞれから前記共通成分を減算することと、
    前記それぞれのオーディオ信号1つの前記減算された成分に対して前記遅延を復元し、1つまたは複数の修正されたオーディオ信号を生成することと、
    を行うように構成される、請求項1乃至8のいずれかに記載の装置。
  10. 前記2つ以上のオーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供するように構成された前記手段は、
    前記決定された第1音源方向パラメータに基づいて、それぞれのオーディオ信号の第1ペアの間の遅延を決定することと、
    前記決定された遅延をそれぞれのオーディオ信号の前記第1ペアのうちの1つに適用することに基づいて、それぞれのオーディオ信号の前記第1ペアを整合させることと、
    それぞれのオーディオ信号の前記第1ペアのそれぞれから共通成分を特定することと、
    修正された共通成分をそれぞれのオーディオ信号の前記第1ペアのそれぞれから減算することであって、前記修正された共通成分は、マイクの前記ペアに関連付けられたマイクに関連付けられた利得値を乗じた前記共通成分である、減算することと、
    前記それぞれのオーディオ信号の1つの前記減算された利得乗算成分に前記遅延を復元して、前記修正された2つ以上のオーディオ信号を生成することと、
    を行うように構成される、請求項1乃至8のいずれかに記載の装置。
  11. 前記2つ以上のオーディオ信号に基づいて、1つ以上の修正されたオーディオ信号を提供するように構成された前記手段は、
    前記決定された第1音源方向パラメータに基づいて、それぞれのオーディオ信号の第1ペア間の遅延を決定することであって、前記それぞれのオーディオ信号は、前記2つ以上のマイクの選択された第1ペアからのものである、決定することと、
    前記決定された遅延をそれぞれのオーディオ信号の前記第1ペアのうちの1つに適用することに基づいて、それぞれのオーディオ信号の前記第1ペアを整合させることと、
    前記2つ以上のマイクのうちの選択された追加のペアからそれぞれのオーディオ信号の追加のペアを選択することと、
    決定された追加の音源方向パラメータに基づいて、それぞれのオーディオ信号の前記追加のペアの間の追加の遅延を決定することと、
    前記決定された追加の遅延をそれぞれのオーディオ信号の前記追加のペアのうちの1つへの適用に基づいて、それぞれのオーディオ信号の前記追加のペアを整合させることと、
    それぞれのオーディオ信号の前記第1および第2ペアから共通成分を特定することと、
    前記共通成分または修正された共通成分をそれぞれのオーディオ信号の前記第1ペアのそれぞれから減算することであって、前記修正された共通成分は、マイクの前記第1ペアに関連付けられたマイクに関連付けられた利得値を乗じた共通成分である、減算することと、
    前記それぞれのオーディオ信号のうちの1つの前記減算された利得乗算成分に前記遅延を復元し、前記修正された2つ以上のオーディオ信号を生成することと、
    を行うように構成される、請求項1乃至8のいずれかに記載の装置。
  12. それぞれの2つ以上のマイクから2つ以上のオーディオ信号を取得するように構成された前記手段が、さらに、
    前記2つ以上のオーディオ信号を取得するために前記2つ以上のマイクの第1ペアを選択し、2つ以上のオーディオ信号の第2ペアを取得するために前記2つ以上のマイクの第2ペアを選択することを含み、前記2つ以上のマイクの前記第2ペアは、前記第1音源方向パラメータに対してオーディオシャドウにあり、前記2つ以上のオーディオ信号に基づいて1つ以上の修正されたオーディオ信号を提供するように構成された前記手段が、前記2つ以上のオーディオ信号の前記1つ以上の周波数帯域において、前記1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源方向パラメータを決定するように構成された前記手段から、2つ以上のオーディオ信号の前記第2ペアを提供するように構成される、請求項1から11のいずれかに記載の装置。
  13. 前記1つ以上の周波数帯域は、閾値周波数より低い、請求項12に記載の装置。
  14. 装置のための方法であって、
    それぞれの2つ以上のマイクから2つ以上のオーディオ信号を取得することと、
    前記2つ以上のオーディオ信号の1つ以上の周波数帯域において、前記2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定することであって、前記2つ以上のオーディオ信号の処理は、前記2つ以上のオーディオ信号に基づいて、1つ以上の修正されたオーディオ信号を提供するようにさらに構成される、決定することと、
    前記2つ以上のオーディオ信号の前記1つ以上の周波数帯域において、前記1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源方向パラメータを決定することと、
    を含む、方法。
  15. 前記2つ以上のオーディオ信号に基づいて、1つ以上の修正されたオーディオ信号を提供することは、さらに、
    前記第1音源方向パラメータによって定義される第1音源の投射で前記2つ以上のオーディオ信号を修正することに基づいて、修正された2つ以上のオーディオ信号を生成ことと、
    前記2つ以上のオーディオ信号の前記1つ以上の周波数帯域において、前記1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源方向パラメータを決定することであって、前記2つ以上のオーディオ信号の前記1つ以上の周波数帯域において、前記修正された2つ以上のオーディオ信号を処理することによって、前記少なくとも第2音源方向パラメータを決定することを含む、決定することと、
    を含む、請求項14に記載の方法。
  16. 前記2つ以上のオーディオ信号の1つ以上の周波数帯域において、前記2つ以上のオーディオ信号の前記処理に基づいて、第1音源エネルギーパラメータを決定することと、
    前記1つ以上の修正されたオーディオ信号および前記第1音源エネルギーパラメータに少なくとも部分的に少なくとも基づいて、少なくとも第2音源エネルギーパラメータを決定することと、
    をさらに含む、請求項14または15のいずれかに記載の方法。
  17. 前記第1および第2音源エネルギーパラメータは、直接対全エネルギー比であり、前記1つ以上の修正されたオーディオ信号に少なくとも部分的に少なくとも基づいて、少なくとも第2音源エネルギーパラメータを決定することは、
    前記1つ以上の修正されたオーディオ信号の解析に基づいて、中間的な第2音源エネルギーパラメータ直接対全体エネルギー比を決定することと、
    前記中間的な第2音源エネルギーパラメータ直接対全エネルギー比、または、前記第1音源エネルギーパラメータ直接対全エネルギー比の値から1を減じた値のうち、最も小さいものを選択すること、または、
    前記中間的な第2音源エネルギーパラメータ直接対全エネルギー比に、前記第1音源エネルギーパラメータ直接対全エネルギー比の値から1を減じた値を乗算すること、
    のうちの1つに基づいて、前記第2音源エネルギーパラメータ直接対全エネルギー比を生成することと、
    を含む、請求項16に記載の方法。
  18. 前記1つ以上の修正されたオーディオ信号および前記第1音源エネルギーパラメータに少なくとも部分的に少なくとも基づいて、前記少なくとも第2音源エネルギーパラメータを決定することは、第2音源エネルギーパラメータが、前記第1音源方向パラメータと第2音源方向パラメータとの前記差に対してスケーリングされるように、前記第1音源方向パラメータにさらに基づいて、前記少なくとも第2音源エネルギーパラメータを決定することを含む、請求項16に記載の方法。
  19. 前記2つ以上のオーディオ信号の1つ以上の周波数帯域において、前記2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定することは、
    前記2つ以上のマイクの第1ペアを選択することと、
    前記選択された2つ以上のマイクの前記選択されたペアから、それぞれのオーディオ信号の第1ペアを選択することと、
    前記2つ以上のマイクのうちの前記選択されたペアからのそれぞれのオーディオ信号の前記第1ペアの間の相関を最大化する遅延を決定することと、
    前記2つ以上のマイクの前記選択されたペアからのそれぞれのオーディオ信号の前記第1ペアの間の前記相関を最大化する前記遅延に関連する方向のペアを決定することであって、前記第1音源方向パラメータは、決定された方向の前記ペアから選択される、決定することと、
    を含む、請求項14乃至18のいずれか一項に記載の方法。
  20. 前記2つ以上のオーディオ信号の1つ以上の周波数帯域において、前記2つ以上のオーディオ信号の処理に基づいて、第1音源方向パラメータを決定することは、前記2つ以上のマイクの選択されたさらなるペアからのそれぞれのオーディオ信号のさらなるペアの間のさらなる相関を最大化するさらなる遅延のさらなる決定に基づいて、決定した方向の前記ペアから前記第1音源方向パラメータを選択することを含む、請求項19に記載の方法。
JP2022159375A 2021-10-04 2022-10-03 空間オーディオキャプチャ Pending JP2023054780A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB2114186.6 2021-10-04
GB2114186.6A GB2611356A (en) 2021-10-04 2021-10-04 Spatial audio capture

Publications (1)

Publication Number Publication Date
JP2023054780A true JP2023054780A (ja) 2023-04-14

Family

ID=78497737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022159375A Pending JP2023054780A (ja) 2021-10-04 2022-10-03 空間オーディオキャプチャ

Country Status (5)

Country Link
US (1) US20230104933A1 (ja)
EP (1) EP4161106A1 (ja)
JP (1) JP2023054780A (ja)
CN (1) CN115942168A (ja)
GB (1) GB2611356A (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
GB2573537A (en) 2018-05-09 2019-11-13 Nokia Technologies Oy An apparatus, method and computer program for audio signal processing
EP4032086A4 (en) * 2019-09-17 2023-05-10 Nokia Technologies Oy SPATIAL AUDIO PARAMETERS CODING AND ASSOCIATED DECODING
GB2590651A (en) * 2019-12-23 2021-07-07 Nokia Technologies Oy Combining of spatial audio parameters

Also Published As

Publication number Publication date
US20230104933A1 (en) 2023-04-06
GB202114186D0 (en) 2021-11-17
GB2611356A (en) 2023-04-05
CN115942168A (zh) 2023-04-07
EP4161106A1 (en) 2023-04-05

Similar Documents

Publication Publication Date Title
US20220174444A1 (en) Spatial Audio Signal Format Generation From a Microphone Array Using Adaptive Capture
CN108369811B (zh) 分布式音频捕获和混合
US11659349B2 (en) Audio distance estimation for spatial audio processing
US20240007814A1 (en) Determination Of Targeted Spatial Audio Parameters And Associated Spatial Audio Playback
CN110337819B (zh) 来自设备中具有不对称几何形状的多个麦克风的空间元数据的分析
US11950063B2 (en) Apparatus, method and computer program for audio signal processing
US20220303711A1 (en) Direction estimation enhancement for parametric spatial audio capture using broadband estimates
US11284211B2 (en) Determination of targeted spatial audio parameters and associated spatial audio playback
US20220141581A1 (en) Wind Noise Reduction in Parametric Audio
CN112219236A (zh) 空间音频参数和相关联的空间音频播放
US11350213B2 (en) Spatial audio capture
JP2023515968A (ja) 空間メタデータ補間によるオーディオレンダリング
JP2024023412A (ja) 音場関連のレンダリング
EP4161105A1 (en) Spatial audio filtering within spatial audio capture
JP2023054780A (ja) 空間オーディオキャプチャ
US20230362537A1 (en) Parametric Spatial Audio Rendering with Near-Field Effect

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230206

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240326