JP2019506058A - 没入型オーディオ再生のための信号合成 - Google Patents

没入型オーディオ再生のための信号合成 Download PDF

Info

Publication number
JP2019506058A
JP2019506058A JP2018535000A JP2018535000A JP2019506058A JP 2019506058 A JP2019506058 A JP 2019506058A JP 2018535000 A JP2018535000 A JP 2018535000A JP 2018535000 A JP2018535000 A JP 2018535000A JP 2019506058 A JP2019506058 A JP 2019506058A
Authority
JP
Japan
Prior art keywords
input
inputs
trajectory
sound source
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018535000A
Other languages
English (en)
Other versions
JP6820613B2 (ja
Inventor
モール、ヨアフ
コーン、ベンジャミン
エリン、アレックス
Original Assignee
3ディ スペイス サウンド ソリューションズ リミテッド
3ディ スペイス サウンド ソリューションズ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 3ディ スペイス サウンド ソリューションズ リミテッド, 3ディ スペイス サウンド ソリューションズ リミテッド filed Critical 3ディ スペイス サウンド ソリューションズ リミテッド
Publication of JP2019506058A publication Critical patent/JP2019506058A/ja
Application granted granted Critical
Publication of JP6820613B2 publication Critical patent/JP6820613B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

サウンドを合成する方法は、それぞれモノラルオーディオトラック(82)を有する1つまたはそれ以上の第1の入力(80)を受信するステップを有する。第1の入力に関連する、方位角座標および仰角座標を有するそれぞれの3次元(3D)音源位置を示す、1つまたは複数の第2の入力が受信される。それぞれの3次元音源位置の方位角座標および仰角座標に依存するフィルタ応答関数に基づいて、それぞれ左と右のフィルタ応答がそれぞれの第1の入力に割り当てられる。それぞれの左と右のフィルタ応答を第1の入力に適用することによって左と右のステレオ出力信号(94)が合成される。【選択図】図2

Description

本発明は、一般的にオーディオ信号の処理に関し、そして特にオーディオ出力の生成と再生のための方法、システムおよびソフトウェアに関するものである。
(関連出願の相互参照)
本出願は2016年1月19日出願の米国暫定出願第62/280,134(特許文献1)、2016年9月28日出願の米国暫定出願第62/400,699(特許文献2)、および2016年12月11日出願の米国暫定出願第62/432,578(特許文献3)の恩恵を主張し、それらはここに参照して取り入れられる。
近年、オーディオの記録および再生の進歩により、リスナーを取り囲む複数のスピーカからオーディオを再生する、没入感のある「サラウンドサウンド」の開発が促進された。例えば、家庭用のサラウンドサウンドシステムは、「5.1」および「7.1」として知られている構成を含み、そこでは5または7チャンネル(リスナーの前に3つのスピーカ、そして追加のスピーカがリスナーの側面、および場合によって背後または上方に配置される)にサブウーファが加わる。
一方、今日の多数のユーザは、ステレオヘッドホンを介して、通常、携帯型オーディオプレーヤーおよびスマートフォンを介して、音楽および他のオーディオコンテンツを聴いている。マルチチャンネルサラウンド録音は、5.1チャンネルまたは7.1チャンネルから2チャンネルにダウンミックスされているため、リスナーはサラウンド録音で提供できる没入感のあるオーディオ体験の多くを失う。
マルチチャネルオーディオをステレオにダウンミックスするための様々な技術が特許文献に記載されている。例えば、米国特許第5,742,689号(特許文献4)は、マルチチャネルオーディオ信号を処理する方法を記載し、そこでは部屋中に配置された複数の「ファントム」ラウドスピーカの感覚を、ヘッドホンを介して生成するように、それぞれのチャネルが部屋の特定の場所に配置されたラウドスピーカに対応している。頭部伝達関数(HRTF)は、リスナーに対するそれぞれの意図されたスピーカの仰角および方位角に従って選択される。各チャンネルは、左と右のチャンネルに結合されヘッドホンで再生されるときに、リスナーが「仮想」部屋全体に配置されたファントムスピーカによって実際に生成される音を感知するように、HRTFでフィルタリングされる。
他の例として、米国特許第6,421,446号(特許文献5)は、仰角を含む両耳合成を使用してヘッドホン上に3次元オーディオイメージングを生成する装置を記載している。ヘッドホンを介してオーディオ信号を聞く人が知覚するオーディオ信号の見かけ上の位置は、距離制御ブロックおよび位置制御ブロックによって方位角、仰角およびレンジ内で位置決めまたは移動することができる。位置決めまたは移動される入力オーディオ信号の数に応じて、いくつかの距離制御ブロックおよび位置制御ブロックを設けることができる。
米国暫定出願第62/280,134 米国暫定出願第62/400,699 米国暫定出願第62/432,578 米国特許第5,742,689号 米国特許第6,421,446号
以下に説明される本発明の実施形態は、オーディオ信号を合成するための改良された方法、システム、およびソフトウェアを提供する。
したがって、本発明の一実施形態によれば、それぞれモノラルオーディオトラックを有する1つまたはそれ以上の第1の入力を受信するステップを有する、サウンドを合成する方法が提供される。第1の入力に関連する、方位角座標および仰角座標を有するそれぞれの3次元(3D)音源位置を示す、1つまたは複数の第2の入力が受信される。それぞれの3次元音源位置の方位角座標および仰角座標に依存するフィルタ応答関数に基づいて、それぞれ左と右のフィルタ応答が第1の入力のそれぞれに割り当てられる。それぞれの左と右のフィルタ応答を第1の入力に適用することによって左と右のステレオ出力信号が合成される。
いくつかの実施形態では、1つ以上の第1の入力は複数の第1の入力を有し、そして左と右のステレオ出力信号を合成するステップは、第1の入力の各々にそれぞれの左と右のフィルタ応答を適用し、それぞれ左と右のステレオ成分を生成するステップと、左と右のステレオ成分を全ての第1の入力にわたって合計するステップと、を有する。開示された実施形態では、左と右のステレオ成分を合計するステップは、出力信号の再生時に、クリッピングを防止するために合計された成分にリミッタを適用するステップを有する。
追加的にまたは代替的に第2の入力のうちの少なくとも1つは、空間での3次元軌道を特定し、そして左と右のフィルタ応答を割り当てるステップは、3次元軌道に沿った複数の点のそれぞれにおいて、点の方位角座標および仰角座標に応じて軌道上で変化するフィルタ応答を特定するステップを有する。左と右のステレオ出力信号を合成するステップは、第2の入力の少なくとも1つに関連する第1の入力に対し、3次元軌道に沿った点に対して特定されたフィルタ応答を順次適用するステップを有する。
いくつかの実施形態では、1つ以上の第2の入力を受信するステップは:軌道の開始点および開始時間を受信するステップと;軌道の終了点および終了時間を受信するステップと;そして軌道が開始時間から終了時間の間に横断されるように、開始点と終了点との間の3次元軌道を自動的に計算するステップと、を有する。開示された実施形態では、3次元軌道を自動的に計算するステップは、方位座標及び仰角座標の原点を中心とする球面上の経路を計算するステップを有する。
いくつかの実施形態では、フィルタ応答関数は、仰角座標の関数として変化する、所与の周波数のノッチを含む。
さらに追加的にまたは代替的に1つ以上の第1の入力は第1の複数のオーディオ入力トラックを含み、左と右のステレオ出力信号を合成するステップは:第2の複数の合成入力を生成するため、第1の複数の入力オーディオトラックを空間的にアップサンプリングするステップと、ここで第2の複数の合成入力は、第1の入力に関連するそれぞれの3次元音源位置とは異なるそれぞれの座標を有する合成音源位置を有し;合成された3次元音源位置の方位角座標および仰角座標で計算されたフィルタ応答関数を使用して合成入力をフィルタリングするステップと;そしてそれぞれの左と右のフィルタ応答を用いて第1の入力をフィルタリングした後、フィルタリングされた合成入力をフィルタリングされた第1の入力と加算してステレオ出力信号を生成するステップ;を有する。
いくつかの実施形態では、第1の複数の入力オーディオトラックを空間的にアップサンプリングするステップは、入力オーディオトラックにウェーブレット変換を適用して入力オーディオトラックのそれぞれのスペクトログラムを生成するステップと、そして3次元音源位置にしたがってスペクトログラム間を補間して、合成された入力を生成するステップとを有する。1つの実施形態では、スペクトログラム間を補間するステップは、スペクトログラムにおける点間のオプティカルフロー関数を計算するステップを有する。
開示された実施形態では、左と右のステレオ出力信号を合成するステップは、第1の入力から低周波成分を抽出するステップを有し、それぞれの左および右のフィルタ応答を適用するステップは、低周波成分抽出後の第1の入力をフィルタリングするステップと、そしてその後フィルタリングされた第1の入力に抽出された低周波成分を加算するステップとを有する。
追加的にまたは代替的に、3次元音源位置は、第1の入力に関連するレンジ座標を有し、左と右のステレオ出力を合成するステップは、関連するレンジ座標に応じて第1の入力をさらに修正するステップを有する。
したがって、本発明の一実施形態によれば、サウンドを合成する装置であって:それぞれモノラルオーディオトラックを有する1つまたはそれ以上の第1の入力を受信し、そして第1の入力に関連する、方位角座標および仰角座標を有するそれぞれの3次元(3D)音源位置を示す、1つまたは複数の第2の入力を受信するように構成される、入力インタフェースと;を有する装置が提供される。プロセッサは、それぞれの3次元音源位置の方位角座標および仰角座標に依存するフィルタ応答関数に基づいて、それぞれ左と右のフィルタ応答をそれぞれ第1の入力の割り当て、そしてそれぞれの左と右のフィルタ応答を第1の入力に適用することによって左と右のステレオ出力信号を合成する、ように構成される。
1つの実施形態によれば、装置は、左と右のステレオ出力信号をそれぞれ再生するように構成される、左スピーカおよび右スピーカを有するオーディオ出力インタフェースを備える。
したがって、本発明の一実施形態によれば、コンピュータソフトウェアからなる製品であって、プログラム命令が格納される非一過性のコンピュータ可読媒体を有し、プログラム命令はコンピュータによって読み取られると、コンピュータに対し:それぞれモノラルオーディオトラックを有する1つまたはそれ以上の第1の入力を受信させ、そして第1の入力に関連する、方位角座標および仰角座標を有するそれぞれの3次元(3D)音源位置を示す、1つまたは複数の第2の入力を受信させる、製品がさらに提供される。その命令はコンピュータに対し:それぞれの3次元音源位置の方位角座標および仰角座標に依存するフィルタ応答関数に基づいて、それぞれ左と右のフィルタ応答をそれぞれの第1の入力に割り当てさせ、そしてそれぞれの左と右のフィルタ応答を第1の入力に適用することによって左と右のステレオ出力信号を合成させる。
本発明は、付属の図面を参照した実施形態の詳細説明から、より十分に理解されよう:
本発明の1実施形態による、オーディオ合成と再生のためのシステムの絵画的概略図である。 本発明の1実施形態による、図1のシステムにおけるユーザインタフェース画面の概略図である。 本発明の1実施形態による、マルチチャネルオーディオ入力をステレオ出力に変換する方法を概略示す、流れ図である。 本発明の1実施形態による、オーディオ出力を合成する方法を概略示すブロック図である。 本発明の1実施形態による、オーディオ信号をフィルタリングする方法を概略示す、流れ図である。
(概論)
当技術分野で知られているオーディオミキシングおよび編集ツールにより、ユーザは、複数の入力オーディオトラック(例えば、異なる楽器および/または音声から記録された)を左と右のステレオ出力信号に結合することができる。しかしながら、このようなツールは、一般に、左と右の出力間で入力を分割する際の柔軟性が限定的であり、リスナーが実際の環境から得るオーディオ没入感を再現することはできない。サラウンドサウンドをステレオに変換するための当該技術分野で知られている方法は、同様に元の録音の没入型オーディオ体験を維持することができない。
本明細書で説明される本発明の実施形態は、ステレオヘッドホンを介して完全な3次元(3D)オーディオ環境を現実的に再現することができるサウンドを合成するための方法、システム、およびソフトウェアを提供する。これらの実施形態は、空間オーディオキューに対する人間リスナーの応答を新規な方法で利用し、それは左と右の耳に聞こえる音量の差異だけでなく、方位角と仰角の両方の関数としての人間の聴覚系の周波数応答の差異を含む。特に、いくつかの実施形態は、音源の仰角座標の関数として変化する、所与の周波数でノッチを含む、フィルタ応答関数を使用する。
開示された実施形態では、プロセッサは、入力としての1つ以上のモノラルオーディオトラックと、各入力に関連付けられたそれぞれの3次元音源位置とを受け取る。システムのユーザは、距離だけでなく、例えば少なくとも各音源の方位角および仰角の座標に関して、これらの音源位置を任意に特定することができる。したがって、音楽トラック、ビデオサウンドトラック(映画またはゲームなど)および/または他の環境音の複数の音源は、水平面においてだけでなく、リスナーのヘッドレベルの上下の異なる仰角でも特定することができる。
オーディオトラック(1つまたは複数)をステレオ信号に変換するために、プロセッサは、それぞれの3次元音源位置の方位角および仰角座標に依存するフィルタ応答関数に基づいて、各入力にそれぞれの左および右フィルタ応答を割り当てる。プロセッサは、左と右のステレオ出力信号を合成するために、これらのフィルタ応答を対応する入力に適用する。異なる音源位置を有する複数の入力が一緒に混合される場合、プロセッサは、それぞれの入力に適切なそれぞれの左と右のフィルタ応答を適用して、それぞれの左と右のステレオ成分を生成する。左のステレオ成分は、次に、左のステレオ出力を生成するためにすべての入力にわたって合計され、右のステレオ成分も右のステレオ出力を生成するために合計される。出力信号の再生時にクリッピングを防止するために、合計された成分にリミッタを適用することができる。
本発明のいくつかの実施形態は、プロセッサが空間内の3次元軌道に沿った音源の動きをシミュレートすることを可能にし、ステレオ出力は、音源が再生中に実際に動いているという感覚をリスナーに与える。この目的のために、ユーザは、軌道の開始点および終了点ならびに対応する開始および終了時間を入力することができる。プロセッサは、開始点および終了点の方位角座標および仰角座標の原点を中心とする球の表面上の経路を計算することによって、この基準で3次元軌道を自動的に計算する。あるいは、ユーザは、実質的に任意の所望の幾何学的特性の軌道を生成するために、任意の点の列を入力することができる。
どのように軌道が導出されるかに関わらず、プロセッサは、3次元軌道に沿った複数の点で、点の方位角座標および仰角座標、場合によっては距離座標の関数として変化するフィルタ応答を計算する。次に、プロセッサは、特定の開始時間と終了時間との間の期間にわたって、音源が開始点と終了点との間の軌道に沿って移動したという錯覚を生成するために、これらのフィルタ応答を対応するオーディオ入力に順次適用する。この機能は、歌手やミュージシャンが劇場の周りを移動するライブパフォーマンスの感覚をシミュレートするため、またはコンピュータゲームやエンターテインメントアプリケーションの臨場感を高めるために使用できる。
リスナーのオーディオ体験の豊かさと信頼性を高めるには、実際にユーザが特定した音源以外に仮想音源を追加すると効果的である。この目的のために、プロセッサは、実際の入力に関連するそれぞれの3次元音源位置とは異なる独自の合成3次元音源位置を有する、追加の合成入力を生成するために、入力オーディオトラックを空間的にアップサンプリングする。アップサンプリングは、例えばウェーブレット変換を使用して入力を周波数領域に変換し、得られたスペクトログラムの間を補間して合成された入力を生成することによって行うことができる。プロセッサは、合成された音源位置の方位角および仰角座標に適したフィルタ応答関数を使用して合成入力をフィルタリングし、フィルタリングされた合成入力をフィルタリングされた実際の入力と合計してステレオ出力信号を生成する。
本発明の原理は、広範囲の用途のステレオ出力の生成に適用することができる。例えば、
・ユーザが指定した任意の音源位置を有する、1つまたは複数のモノラルトラックからステレオ出力の合成。
・サラウンド録音(5.1や7.1など)のステレオ出力への変換、ここで音源位置は、標準スピーカの位置に対応。
・ライブコンサートやその他のライブイベントからのリアルタイムステレオ生成、任意の音源位置に配置された複数のマイクからの同時入力、そしてステレオへのオンラインダウンミキシング。(この種のリアルタイムダウンミキシングを実行する装置は、例えば、イベントのサイトに駐車された放送バンに設置することができる)。
他の用途は、本明細書を読んだ後の当業者には明らかであろう。そのような用途はすべて本発明の範囲内にあると考えられる。
(システムの記述)
図1は、本発明の一実施形態による、オーディオ合成および再生のためのシステム20の絵画的概略図である。システム20は、複数のオーディオ入力を受信し、そのそれぞれは、それぞれのモノラルオーディオトラックおよび、オーディオ入力に関連づけられるべき、方位角座標および仰角座標を有するそれぞれの3次元(3D)音源位置を示す、対応する位置入力を有する。システムは、この例ではリスナー22が着用するステレオヘッドホン24で再生される左と右のステレオ出力信号を合成する。
入力は、典型的には、それぞれが異なる音源位置にあるミュージシャン26,28,30および32によって図1に表される、複数のモノラルオーディオトラックを含む。音源位置は、リスナー22の頭部の中央に位置する原点に対する座標でシステム20に入力される。リスナーの頭部を通過する水平面をXY平面とすると、音源の座標は、方位角(すなわち、XY平面上に投影される光源角)および平面の上または下の仰角の両方で特定可能である。いくつかのケースでは、レンジは以下の実施形態において明示的に考慮されないけれども、音源のそれぞれのレンジ(すなわち、原点からの距離)も特定可能である。
オーディオトラックおよびそれぞれの音源位置座標は、通常、システム20のユーザ(例えば、リスナー22またはサウンドエンジニアなどのプロのユーザ)によって入力される。ミュージシャン28および30の場合、彼らがそれぞれのパートを演奏する間に彼らの動きをシミュレートするために、ユーザによって入力される音源位置は時間とともに変化する。言い換えれば、入力されたオーディオトラックが静止したモノラルマイクによって記録され、例えば、録音中にミュージシャンが静止している場合でも、ユーザは、出力が1人または複数のミュージシャンが動いている状態をシミュレートするようにさせることができる。ユーザは、空間と時間において開始点と終了点を有する軌道の形で動きを入力することができる。得られたステレオ出力信号は、リスナー22にこれらのオーディオ音源の3次元の動きを知覚させる。
図示された例では、ステレオ信号は、スマートフォンのようなモバイル装置34によってヘッドホン24に出力され、それはストリーミングリンクによりネットワーク38を介してサーバ36から信号を受信する。あるいは、ステレオ信号を含むオーディオファイル出力信号は、モバイルデバイス34のメモリにダウンロードされて記憶されてもよく、または光ディスクなどの固定媒体に記録されてもよい。あるいは、ステレオ信号は、とりわけ、セットトップボックス、テレビ、カーラジオまたはカーエンターテイメントシステム、タブレット、またはラップトップコンピュータなどの他のデバイスから出力されてもよい。
以下の説明において、明瞭かつ具体化のため、サーバ36が左と右のステレオ出力信号を合成することを前提とする。しかしながら、代わりに、モバイルデバイス34上のアプリケーションソフトウェアが、本発明の実施形態に従って、関連する位置を有する入力トラックをステレオ出力に変換するステップのすべてまたは一部を実行してもよい。
サーバ36は、本明細書で記載される機能を実行するためにソフトウェアでプログラムされた、一般に汎用コンピュータプロセッサであるプロセッサ40を備える。このソフトウェアは、例えば、ネットワークを介して電子形式でプロセッサ40にダウンロードされてもよい。代替的または追加的に、ソフトウェアは、光学的、磁気的または電子的記憶媒体などの有形の非一過性コンピュータ可読媒体に格納されてもよい。さらに代替的にまたは追加的に、本明細書で記載されるプロセッサ40の機能の少なくとも一部は、プログラマブルデジタル信号プロセッサ(DSP)によって、または他のプログラム可能またはハードワイヤードロジックによって実行されてもよい。サーバ36は、さらに、メモリ42と、インタフェースを有し、インタフェースはネットワーク38へのネットワークインタフェース44およびユーザインタフェース46を含み、それらはいずれもオーディオ入力およびそれぞれの音源位置を受信するための入力インタフェースとして機能することができる。
上述したように、プロセッサ40は、ミュージシャン26,28,30,32,によって表される入力のそれぞれに、それぞれの3次元音源の方位角座標および仰角座標に依存するフィルタ応答関数に基づいて、それぞれ左と右のフィルタ応答を適用し、そしてそれにより左と右のステレオ成分を生成する。プロセッサ40は、左と右のステレオ出力を生成するために、これらの左と右のステレオ成分を全ての入力にわたって合計する。このプロセスの詳細を以下に説明する。
図2は、本発明の実施形態によるサーバ36(図1)のユーザインタフェース46によって提示されるユーザインタフェース画面の概略図である。この図は、ヘッドホン24へのステレオ出力の生成に使用される、オーディオ入力の位置および場合によっては軌道をユーザがどのように指定できるかを特に示している。
ユーザは、入力フィールド50にトラック識別子を入力することによって、各入力トラックを選択する。例えば、ユーザは、メモリ42に格納されたオーディオファイルをブラウズし、入力フィールド50にファイル名を入力することができる。それぞれの入力トラックに対して、ユーザは、スクリーン上のコントロール52および/または専用のユーザ入力装置(図示せず)を使用して、リスナーの頭部の中心における、方位角、仰角および原点に対する可能なレンジ(距離)での初期位置座標を選択する。選択された方位角および仰角は、表示領域56内で開始点54としてマーキングされ、それは頭部58に対する音源位置を表す。選択されたトラックの音源が静止している場合、この段階ではそれ以上の位置入力は不要である。
他方、(図1のミュージシャン28および30の動きをシミュレートする場合のように)移動する音源位置に対して、スクリーン46は、ユーザが空間内の3次元軌道70を特定することを可能にする。この目的のために、スクリーン上のコントロール52は、軌道の開始点54を示すように調整され、開始時間入力62は、軌道の開始時間を示すためにユーザによって選択される。同様に、ユーザは、終了時間入力64および終了位置入力66を使用して、軌道の終了時間および終了点68を入力する(通常、コントロール52のように、方位角、仰角、場合によってはレンジの制御を使用する)。必要に応じて、より複雑な軌道を生成するために、ユーザは、所望の経路のコースに沿った空間および時間の追加ポイントを入力することができる。
さらに別の選択肢として、サーバ36によって生成されるステレオ出力がサウンドトラックとしてビデオクリップに結合される場合、ユーザは、ビデオクリップ内の開始および終了フレームとして開始時間および終了時間を示すことができる。この使用の場合、ユーザは、追加的または代替的に、特定のビデオフレーム内の位置を指すことによって音源位置を示すことができる。
プロセッサ40は、上記のユーザ入力に基づいて、開始点54と終了点68との間の3次元軌道70を、開始時間から終了時間まで選択された速度で軌道が横断されるように自動的に計算する。図示の例では、軌道70は、方位角、仰角および距離の座標の原点を中心とする球の表面上の経路から構成される。あるいは、プロセッサ40は、ユーザの制御下で、完全に自動的にまたは対話的に、より複雑な軌道を計算することができる。
ユーザが所与のオーディオ入力トラックの軌道70を特定すると、プロセッサ40は、軌道に沿った点の方位角、仰角およびレンジ座標に基づいて軌道に亘って変化するフィルタ応答を、この軌道に割り当て、そして適用する。プロセッサ40は、これらのフィルタ応答をオーディオ入力に順次適用して、対応するステレオ成分が軌道に沿った現在の座標に従って経時的に変化するようにする。
図3は、本発明の一実施形態による、マルチチャネルオーディオ入力をステレオ出力に変換する方法を概略的に示すフローチャートである。この例では、サーバ36の機能が、5.1サラウンド入力80を2チャンネルステレオ出力92に変換する際に適用される。したがって、先の例とは対照的に、プロセッサ40は、5.1システムの中央(C)、左(L)、右(R)、左と右のサラウンド(LS、RS)スピーカの位置に相当する固定音源位置を有する5つのオーディオ入力トラック82を受信する。類似の技術を、7.1サラウンド入力をステレオに変換する場合に、また3次元空間内の任意の所望の分布の音源位置(標準またはその他)を有するマルチトラックオーディオ入力を変換する場合に適用することができる。
リスナーのオーディオ体験を豊かにするために、プロセッサ40は、入力トラック82をアップミックス(すなわち、アップサンプリング)して、リスナーを取り囲む3次元空間内の追加の音源位置に合成入力−「仮想スピーカ」を作成する。この実施形態におけるアップミキシングは、周波数領域において実行される。したがって、予備ステップとして、プロセッサ40は、例えば、入力オーディオトラックにウェーブレット変換を適用することによって、入力トラック82を対応するスペクトログラム84に変換する。スペクトログラム84は、時間の経過に対する周波数の2次元プロットとして表すことができる。
ウェーブレット変換は、ゼロ平均減衰有限関数(マザーウェーブレット)を使用して、各オーディオ信号を時間と周波数に限定される1組のウェーブレット係数に分解する。連続ウェーブレット変換は、マザーウェーブレットのスケーリングされた、シフトされたバージョンを乗算した信号の全時間にわたる合計である。このプロセスは、スケールおよび位置の関数であるウェーブレット係数を生成する。本実施形態で使用されるマザーウェーブレットは、以下のように定義されるガウス関数で変調されたサインカーブを含む複雑なモーレットウェーブレットである:
Figure 2019506058
あるいは他の種類のウェーブレットがこの目的のために使用できる。さらに代替的に、本発明の原理は、必要な変更を加えて、他の時間―および空間―領域変換を使用して、多重のオーディオチャネルを分解するのに適用することができる。
数学的表現では、連続ウェーブレット変換は次の式で示される:
Figure 2019506058
ここでχはデジタル化された時間のシリーズであり、時間ステップδtを有し、n=1,…Nであり、sはスケールであり、ψ(η)はスケーリンングされ、変換された(シフトされた)マザーウェーブレットである。ウェーブレットパワーは以下で定義される:
Figure 2019506058
マザーウェーブレットは時間ステップδtを持つ信号に対し、係数√(δt/s)により正規化され、ここでsはスケールである。加えて、ウェーブレット係数は信号の分散(σ)により正規化され、ホワイトノイズに対するパワーの相対値を生成する。
計算を容易にするため、連続ウェーブレット変換は次の式でも表される:
Figure 2019506058
ここでχ^は信号χのフーリエ変換であり;ψ^はマザーウェーブレットのフーリエ変換であり、*は複素共役を示し、sはスケールであり、k=0…N−1であり、そしてiは基本虚数単位√−1である。
プロセッサ40は、元の入力トラック82および合成入力88の両方を含む1組のオーバーサンプリングされたフレーム86を生成するために、入力80内のスピーカの3次元音源位置に従ってスペクトログラム84の間を補間する。このステップを実行するためプロセッサ40は、リスナーを取り囲む球面空間内のそれぞれの位置における周波数領域の仮想スピーカを表す中間スペクトログラムを計算する。この目的のために、本実施形態では、プロセッサ40は、隣接するスピーカの各ペアを「映画フレーム」として、スペクトログラム内のデータ点を「ピクセル」として扱い、そして空間および時間においてそれらの間に仮想的に位置するフレームを補間する。言い換えれば、周波数領域における元のオーディオチャネルのスペクトログラム84は画像として扱われ、ここで、xは時間であり、yは周波数であり、色強度はスペクトルパワーまたは振幅を示すために使用される。
フレームFとFの各ペアの間に、それぞれの時間tとtにおいて、プロセッサ40はフレームFを挿入し、それは時間tにおける補間されたスペクトログラムのマトリックスであり、(x,y)座標のピクセルを有し、次式で与えられる:
Figure 2019506058
いくつかの実施形態では、スペクトログラム内の高パワー要素の動きをも考慮する。
プロセッサ40はオプティカルフローに従ってこの「画像」を徐々に変形させる。 オプティカルフローフィールドVx,yは、各ピクセル(x,y)に対して、2つの要素[x,y]を有するベクトルを定義する。結果として得られる画像内の各ピクセル(x,y)について、プロセッサ40は、例えば以下に説明するアルゴリズムを使用して、フィールドVx,y内のフローベクトルを検索する。このピクセルは、ベクトルVx,yに沿って後方に位置する点から「来た」と考えられ、そして同じベクトルの前方に沿った点に「これから行く」と考えられる。Vx,yは、第1のフレームのピクセル(x,y)から第2のフレームの対応するピクセルまでのベクトルであるので、プロセッサ40は、この関係を使用して、後方座標[xb,]および前方座標[xf,]を見つけることが出来、これら座標は中間の‘画像)を補間に使用される:
Figure 2019506058
上述したフローベクトルVx,yを決定するために、プロセッサ40は、第1のフレームを(所定のサイズの、ここでは「s」で示される)正方形ブロックに分割し、そしてこれらのブロックは第2のフレームの同じサイズのブロックにマッチングされ、それらのブロックは最大距離d以内にある。このプロセスの疑似コードは次のとおり:
Figure 2019506058
Figure 2019506058
上述したように、すべての仮想スピーカ(合成入力88)についてスペクトログラムが計算されると、プロセッサ40は、ウェーブレット再構成を適用して、実際の入力トラック82と合成入力88の両方の時間領域表現90を再生する。例えば、デルタ関数に基づいて、以下のウェーブレット再構成を使用することができる:
Figure 2019506058
ここで、χは時間ステップδを伴う再構成された時系列であり;δjは周波数分解能であり;Cδはω=6のMorletウェーブレットの場合、0.776に等しい定数であり;ψ(0)はマザーウェーブレットから導出され、π−1/4と等価であり;Jはスケールの数であり;jはフィルタの限界を定義する指標であり、ここでj=j...jかつ0≦j<j≦J;sはjth番目のスケールであり;そしてRは複素ウェーブレットWの実数部分である。
時間領域表現90をステレオ出力92にダウンミックスするために、プロセッサ40は、実際のおよび合成された3次元音源位置のそれぞれの方位角座標および仰角座標で計算されたフィルタ応答関数を使用して、実際のおよび合成の入力をフィルタリングする。このプロセスは、フィルタの頭部伝達関数(HRTF)データベースを使用し、場合によっては、音源位置のそれぞれの仰角に対応するノッチフィルタも使用する。プロセッサ40は、χ(n)として示される各チャネル信号について、リスナーに対するその位置に適合する左と右のHRTFフィルタのペアで信号を畳み込む。この計算では、通常、離散時間畳み込みを使用する:
Figure 2019506058
ここで、χは、実際の又は仮想のスピーカを表す、上記ウェーブレット再構成の出力であるオーディオ信号であり、nはその信号の長さであり、Nは左HRTFフィルタhL及び右HRTFフィルタhRの長さである。これらの畳み込みの出力は、出力ステレオ信号の左および右の成分であり、それに応じてyLおよびyRとして示される。
例えば、50°の仰角および60°の方位角の仮想スピーカを仮定すると、オーディオは、これらの方向に関連する左のHRTFフィルタと、これらの方向に関連する右のHRTFフィルタと、場合によっては50°の仰角に対応するノッチフィルタで畳み込まれる。畳み込みによって左と右のステレオコンポーネントが作成され、リスナーは音の方向性を知覚することができる。プロセッサ40は時間領域表現90内の全てのスピーカについてこの計算を繰り返し、ここで各スピーカは(対応する音源位置に従って)異なるフィルタのペアで畳み込まれる。
さらに、いくつかの実施形態では、プロセッサ40は、3次元音源位置のそれぞれのレンジ(距離)に従ってオーディオ信号を変調する。例えば、プロセッサ40は、そのレンジに従って信号の音量を増幅または減衰させることができる。追加的または代替的に、プロセッサ40は、対応する音源位置の増加するレンジを有する1つまたは複数の信号に残響を加えることができる。
適切な左および右のフィルタ応答を使用してすべての(実際のおよび合成の)信号をフィルタリングした後、プロセッサ40は、フィルタリングされた結果を合計して、ステレオ出力92を生成し、それは畳込みによって生成されたすべてのyL成分の合計である左チャネル94と、すべてのyR成分の合計である右チャネル94から構成される。
図4は、本発明の一実施形態による、これらの左と右のオーディオ出力コンポーネントを合成する方法を概略的に示すブロック図である。この実施形態では、プロセッサ40は、リアルタイムですべての計算を実行することができ、したがって、サーバ36は、オンデマンドでモバイルデバイス34にステレオ出力をストリーミングすることができる。計算の負荷を低減するため、サーバ36は「仮想スピーカ」の追加を省略し(図3の実施形態で提供されるように)、そしてステレオ出力を生成する際に実際の入力トラックのみを使用することができる。あるいは、図4の方法は、後の再生のため、オフラインでステレオオーディオファイルを生成するために使用することができる。
一実施形態では、プロセッサ40は、所与のサイズ(例えば、それぞれの入力チャネルから65536バイト)のオーディオ入力チャンク100を受信して、動作させる。プロセッサは、チャンクをバッファ102に一時的に保存し、連続したチャンク間の境界における出力の不連続性を避けるために、各チャンクを以前のバッファされたチャンクと一緒に処理する。プロセッサ40は、各入力チャネルを、チャネルに関連する3次元音源位置に対応する適切な方向性キューを有する左と右のステレオ成分に変換するために、フィルタ104を各チャンク100に適用する。この目的のための適切なフィルタリングアルゴリズムが、図5を参照して以下に説明される。
次に、プロセッサ40は、左と右のステレオ出力を計算するために、各側(左と右)のフィルタリングされた信号のすべてを加算器106に供給する。再生時のクリッピングを回避するために、プロセッサ40は、例えば以下の式に従って、加算された信号にリミッタ108を適用することができる:
Figure 2019506058


ここで、χはリミッタへの入力信号、Yは出力である。出力チャンク110の結果として得られるストリームは、ステレオヘッドホン24で再生できる。
図5は、本発明の一実施形態による、フィルタ104の詳細を概略的に示すフローチャートである。同様のフィルタは、例えば、時間領域表現90のステレオ出力92(図3)へのダウンミキシング、及び仮想軌道に沿って移動する音源からの入力のフィルタリング(図2に示す)に使用できる。オーディオチャンク100がインターリーブされた形式の複数のチャネルを含む場合(一部のオーディオ規格では一般的である)、プロセッサ40は、チャネル分離ステップ112において入力チャネルを別々のストリームに分割することから始める。
本発明者らは、いくつかの信号フィルタが低周波オーディオ成分の歪みをもたらす一方、リスナーの指向性感覚は1000Hzを超える高周波数領域のキューに基づくことを見出した。したがって、プロセッサ40は、周波数分離ステップ114において、個々のチャネル(存在する場合、サブウーファチャネルを除く)から低周波数成分を抽出し、低周波数成分を別個の信号セットとしてバッファリングする。
一実施形態では、低周波信号の分離は、クロスオーバフィルタ、例えばカットオフ周波数100Hzおよびオーダ16を有するクロスオーバフィルタを使用して達成される。クロスオーバフィルタは、無限インパルス応答(IIR)バターワースフィルタで実装することができ、それは次の等式によってデジタル形式で表すことができる伝達関数Hを有する:
Figure 2019506058
ここで、zは複素変数であり、Lはフィルタの長さである。別の実施形態では、クロスオーバフィルタはチェビシェフフィルタとして実装される。
プロセッサ40は、全ての元の信号の、結果として生じる低周波成分を合計する。結果として得られる低周波信号(本明細書ではSub’と呼ぶ)は複製され、後に左と右のステレオチャネルの両方に組み込まれる。これらのステップは、入力の低周波成分の品質を維持するのに役立つ。
次に、プロセッサ40は、各成分が所望の方向から発出するという錯覚を生成するために、個々のチャネルのそれぞれの高周波成分を、それぞれのチャネル位置に対応するフィルタ応答でフィルタリングする。この目的のために、プロセッサ40は、方位角フィルタリングステップ116において、適切な左と右のHRTFフィルタを用いて各チャネルをフィルタリングして、水平面内の特定の方位角に信号を割り当て、そして仰角フィルタリングステップ118において、ノッチフィルタを用いて信号を特定の仰角に割り当てる。HRTFフィルタおよびノッチフィルタは、ここでは概念上および計算上の明瞭さのために別々に記載されているが、代替的に単一の計算操作で適用されてもよい。
ステップ116において、HRTFフィルタは以下の畳み込みを用いて適用することができる:
Figure 2019506058

ここで、y(n)は処理されたデータ、nは離散時間変数、χは処理されるオーディオサンプルのチャンク、hは適切なHRTFフィルタ(左または右)のインパルス応答を表す畳み込みのカーネルである。ステップ118で適用されるノッチフィルタは、有限インパルス応答(FIR)拘束最小二乗フィルタであってもよく、上記の式に示されるHRTFフィルタと類似して、同様に畳み込みによって適用されてもよい。多くの例示的なシナリオにおけるHRTFフィルタおよびノッチフィルタにおいて使用され得るフィルタ係数の詳細な表現は、上記の米国仮特許出願第62/400,699号(特許文献2)に示されている。
プロセッサ40は、全てのチャネルに同じ処理条件を適用する必要はないが、バイアスステップ120において、リスナーの聴覚経験を向上させるためにバイアスを特定のチャネルに適用することができる。例えば、本発明者らは、チャネルの3次元音源位置が水平面の下にあるように対応するノッチフィルタを調整することによって、特定のチャネルの仰角をバイアスすることがいくつかの場合には有益であることを発見した。別の例として、プロセッサ40は、サラウンドチャネルの音量を増加させ、それによりヘッドホン24から来るオーディオのサラウンド効果を増強するために、サラウンドサウンド入力から受信したサラウンドチャネル(SLおよびSR)および/またはリアチャネル(RLおよびRR)の利得をブーストすることができる。別の例として、上記で定義したようなSub’チャンネルは、高周波成分に対して減衰されるか、さもなければ制限され得る。本発明者らは、±5dBの範囲のバイアスが良好な結果をもたらすことを見出した。
フィルタおよび任意の所望のバイアスを適用した後、プロセッサ40は、フィルタ出力ステップ122において、左ステレオ成分のすべておよび右ステレオ成分のすべてをSub’成分とともに加算器106に渡す。その後ステレオ信号の生成とヘッドホン24への出力は上述のように継続する。
上述の実施形態は例として引用されたものであり、そして本発明は、上記に特に示され記載されたものに限定されないことが理解されよう。むしろ、本発明の範囲は、上述の様々な特徴の組み合わせおよびサブ組み合わせ、ならびに上記の記載を読んだ当業者に想起され得る、従来技術において開示されていない変化形および修正形の両方を含む。

Claims (37)

  1. サウンドを合成する方法であって:
    それぞれモノラルオーディオトラックを有する1つまたはそれ以上の第1の入力を受信するステップと;
    前記第1の入力に関連する、方位角座標および仰角座標を有するそれぞれの3次元(3D)音源位置を示す、1つまたは複数の第2の入力を受信するステップと、
    前記それぞれの3次元音源位置の前記方位角座標および前記仰角座標に依存するフィルタ応答関数に基づいて、それぞれの左および右のフィルタ応答を前記第1の入力のそれぞれに割り当てるステップと、そして
    前記それぞれ左および右のフィルタ応答を前記第1の入力に適用することによって左と右のステレオ出力信号を合成するステップと、
    を有することを特徴とするサウンドを合成する方法。
  2. 前記1つ以上の第1の入力は複数の第1の入力を有し、そして前記左と右のステレオ出力信号を合成するステップは、各々の前記第1の入力に前記それぞれ左と右のフィルタ応答を適用し、それぞれ左と右のステレオ成分を生成するステップと、前記左と右のステレオ成分を全ての第1の入力にわたって合計するステップと、を有することを特徴とする請求項1に記載の方法。
  3. 前記左と右のステレオ成分を合計するステップは、前記出力信号の再生時にクリッピングを防止するために、前記合計された成分にリミッタを適用するステップを有する、ことを特徴とする請求項2に記載の方法。
  4. 前記第2の入力のうちの少なくとも1つは、空間での3次元軌道を特定し、そして
    前記左と右のフィルタ応答を割り当てるステップは、前記3次元軌道に沿った複数の点のそれぞれにおいて、前記点の方位角座標および仰角座標に応じて前記軌道上で変化するフィルタ応答を特定するステップを有し、
    前記左と右のステレオ出力信号を合成するステップは、前記第2の入力の少なくとも1つに関連する前記第1の入力に対し、前記3次元軌道に沿った前記点に対して特定された前記フィルタ応答を順次適用するステップを有する、
    ことを特徴とする請求項1に記載の方法。
  5. 前記1つ以上の第2の入力を受信するステップは:
    前記軌道の開始点および開始時間を受信するステップと;
    前記軌道の終了点および終了時間を受信するステップと;そして
    前記軌道が前記開始時間から前記終了時間の間に横断されるように、前記開始点と前記終了点との間の前記3次元軌道を自動的に計算するステップと、
    を有することを特徴とする請求項4に記載の方法。
  6. 前記3次元軌道を自動的に計算するステップは、前記方位座標及び前記仰角座標の原点を中心とする球面上の経路を計算するステップを有する、ことを特徴とする請求項5に記載の方法。
  7. 前記フィルタ応答関数が、前記仰角座標の関数として変化する、所与の周波数のノッチを含むことを特徴とする、請求項1〜6のいずれかに記載の方法。
  8. 前記1つ以上の第1の入力は第1の複数のオーディオ入力トラックを含み、
    前記左と右のステレオ出力信号を合成するステップは:
    第2の複数の合成入力を生成するため、前記第1の複数の入力オーディオトラックを空間的にアップサンプリングするステップと、
    ここにおいて前記第2の複数の合成入力は、第1の入力に関連するそれぞれの3次元音源位置とは異なるそれぞれの座標を有する合成音源位置を有し;
    前記合成された3次元音源位置の方位角座標および仰角座標で計算されたフィルタ応答関数を使用して前記合成入力をフィルタリングするステップと;そして
    それぞれの前記左と右のフィルタ応答を用いて前記第1の入力をフィルタリングした後、フィルタリングされた前記合成入力をフィルタリングされた前記第1の入力と加算して前記ステレオ出力信号を生成するステップと;
    を有する、ことを特徴とする請求項1〜6のいずれかに記載の方法。
  9. 前記第1の複数の入力オーディオトラックを空間的にアップサンプリングするステップは、前記入力オーディオトラックにウェーブレット変換を適用して前記入力オーディオトラックのそれぞれのスペクトログラムを生成するステップと、そして前記3次元音源位置にしたがって前記スペクトログラム間を補間して、前記合成された入力を生成するステップとを有する、ことを特徴とする請求項8に記載の方法。
  10. 前記スペクトログラム間を補間するステップは、前記スペクトログラムにおける点の間のオプティカルフロー関数を計算するステップを有する、ことを特徴とする請求項9に記載の方法。
  11. 前記左と右のステレオ出力信号を合成するステップは、前記第1の入力から低周波成分を抽出するステップを有し、前記それぞれの左および右のフィルタ応答を適用するステップは、前記低周波成分抽出後の前記第1の入力をフィルタリングするステップと、そしてその後前記フィルタリングされた第1の入力に前記抽出された低周波成分を加算するステップとを有する、ことを特徴とする請求項1〜6のいずれかに記載の方法。
  12. 前記3次元音源位置は、前記第1の入力に関連するレンジ座標を有し、前記左と右のステレオ出力を合成するステップは、前記関連するレンジ座標に応じて前記第1の入力をさらに修正するステップを有する、ことを特徴とする請求項1〜6のいずれかに記載の方法。
  13. サウンドを合成する装置であって:
    それぞれモノラルオーディオトラックを有する1つまたはそれ以上の第1の入力を受信し、そして前記第1の入力に関連する、方位角座標および仰角座標を有するそれぞれの3次元(3D)音源位置を示す、1つまたは複数の第2の入力を受信するように構成される、入力インタフェースと;
    前記それぞれの3次元音源位置の前記方位角座標および前記仰角座標に依存するフィルタ応答関数に基づいて、それぞれ左と右のフィルタ応答をそれぞれの前記第1の入力に割り当て、そして前記それぞれの左および右のフィルタ応答を前記第1の入力に適用することによって左と右のステレオ出力信号を合成する、ように構成される、プロセッサと;
    を有することを特徴とするサウンドを合成する装置。
  14. 前記左と右のステレオ出力信号をそれぞれ再生するように構成される、左スピーカおよび右スピーカを有するオーディオ出力インタフェースを備える、ことを特徴とする請求項13に記載の装置。
  15. 前記1つまたはそれ以上の第1の入力は複数の第1の入力を有し、前記プロセッサは、それぞれの前記第1の入力に前記それぞれの左および右のフィルタ応答を適用して、それぞれの左および右ステレオ成分を生成し、そして前記第1の入力のすべてにわたって前記左と右のステレオ成分を合計する、ように構成される、ことを特徴とする請求項13に記載の装置。
  16. 前記プロセッサは、前記出力信号の再生時のクリッピングを防止するため、前記合計された成分にリミッタを適用するように構成される、ことを特徴とする請求項15に記載の装置。
  17. 前記第2の入力のうちの少なくとも1つは、空間内の3次元軌道を特定し、そして
    前記プロセッサは、前記3次元軌道に沿った複数の点のそれぞれにおいて、前記点の方位角座標および仰角座標に応じて前記軌道上で変化するフィルタ応答を特定し、そして少なくとも1つの前記第2の入力に関連する前記第1の入力に、前記3次元軌道に沿った前記点に対して特定された前記フィルタ応答を順次適用するように構成される、ことを特徴とする請求項13に記載の装置。
  18. 前記プロセッサは、前記軌道の開始点と開始時間と前記軌道の終了点と終了時間を受信し、そして前記開始点と前記終了点との間の前記3次元軌道を自動的に計算し、それにより前記軌道は開始時間から終了時間まで横断される、ことを特徴とする請求項17に記載の装置。
  19. 前記3次元軌道は、方位角座標および仰角座標の原点を中心とする球面上の経路を有する、ことを特徴とする請求項18に記載の装置。
  20. 前記フィルタ応答関数は、前記仰角座標の関数として変化する、所与の周波数におけるノッチを有する、ことを特徴とする請求項13〜19のいずれかに記載の装置。
  21. 前記1つまたはそれ以上の第1の入力は、第1の複数のオーディオ入力トラックを有し、そして前記プロセッサは、前記第1の入力に関連するそれぞれの3次元音源位置とは異なるそれぞれの座標を有する合成3次元音源位置を有する、第2の複数の合成入力を生成するため前記第1の複数の入力オーディオトラックを空間的にアップサンプリングし、前記合成された3次元音源の方位角座標および仰角座標で計算されたフィルタ応答関数を使用して前記合成入力をフィルタリングし、そしてフィルタリングされた前記合成入力をフィルタリングされた前記第1の入力と合計してステレオ出力信号を生成する、ように構成される、ことを特徴とする請求項13〜19のいずれかに記載の装置。
  22. 前記プロセッサは、前記入力オーディオトラックにウェーブレット変換を適用して前記入力オーディオトラックのそれぞれのスペクトログラムを生成し、そして前記3次元音源位置にしたがって前記スペクトログラム間を補間して前記合成入力を生成することにより、前記第1の複数の前記入力オーディオトラックを空間的にアップサンプリングするように構成される、ことを特徴とする請求項21に記載の装置。
  23. 前記プロセッサは、前記スペクトログラム内の点の間で計算されたオプティカルフロー関数を使用して前記スペクトログラム間を補間するように構成される、ことを特徴とする請求項22に記載の装置。
  24. 前記プロセッサは、前記第1の入力から低周波成分を抽出し、前記低周波成分の抽出後に前記第1の入力に前記それぞれの左と右のフィルタ応答を適用し、そしてその後前記抽出された低周波成分をフィルタリングされた前記第1の入力に加える、ように構成されることを特徴とする、請求項13〜19のいずれかに記載の装置。
  25. 前記3次元音源位置は、前記第1の入力に関連するレンジ座標を有し、前記プロセッサは、前記関連するレンジ座標に応答して前記第1の入力をさらに修正するように構成される、ことを特徴とする請求項13〜19のいずれかに記載の装置。
  26. コンピュータソフトウェアからなる製品であって、プログラム命令が格納される非一過性のコンピュータ可読媒体を有し、
    前記プログラム命令はコンピュータによって読み取られると、前記コンピュータに対し:それぞれモノラルオーディオトラックを有する1つまたはそれ以上の第1の入力を受信させ、そして前記第1の入力に関連する、方位角座標および仰角座標を有するそれぞれの3次元(3D)音源位置を示す、1つまたは複数の第2の入力を受信させ、
    ここにおいて前記命令は前記コンピュータに対し:前記それぞれの3次元音源位置の前記方位角座標および仰角座標に依存するフィルタ応答関数に基づいて、それぞれ左と右のフィルタ応答を前記第1の入力のそれぞれに割り当てさせ、そして前記それぞれの左と右のフィルタ応答を前記第1の入力に適用することによって左と右のステレオ出力信号を合成させる、
    ことを特徴とするコンピュータソフトウェアからなる製品。
  27. 前記1つまたはそれ以上の第1の入力は複数の第1の入力を有し、そして前記命令は前記コンピュータに対し、前記第1の入力のそれぞれに前記左と右のフィルタ応答を適用して、それぞれ左と右のステレオ成分を生成し、そして前記第1の入力の全てにわたって前記左と右のステレオ成分を合計するようにさせる、ことを特徴とする請求項26に記載の製品。
  28. 前記命令は前記コンピュータに対し、前記出力信号の再生時のクリッピングを防止するために、前記合計された成分にリミッタを適用するようにさせる、ことを特徴とする請求項27に記載の製品。
  29. 前記第2の入力のうちの少なくとも1つが空間における3次元軌道を特定し、そして前記命令は前記コンピュータに対し:
    前記3次元軌道に沿った複数の点のそれぞれにおいて、前記点の方位角座標および仰角座標に応じて前記軌道上で変化するフィルタ応答を特定し、そして
    前記第2の入力の少なくとも1つに関連する前記第1の入力に対し、前記3次元軌道に沿った前記点に対して特定された前記フィルタ応答を順次適用する、
    ようにさせる、ことを特徴とする請求項26に記載の製品。
  30. 前記命令は前記コンピュータに対し、前記軌道の開始点と開始時間、および前記軌道の終了点および終了時間を受信し、そして前記軌道の前記開始点と前記終了点との間の3次元軌道を自動的に計算し、それにより前記軌道が開始時間から終了時間まで横断される、ようにさせる、ことを特徴とする請求項29に記載の製品。
  31. 前記3次元軌道は、前記方位角座標および前記仰角座標の原点を中心とする球面上の経路を有する、ことを特徴とする請求項30に記載の製品。
  32. 前記フィルタ応答関数は、前記仰角座標の関数として変化する、所与の周波数におけるノッチを有する、ことを特徴とする請求項26〜31のいずれかに記載の製品。
  33. 前記1つ以上の第1の入力は第1の複数のオーディオ入力トラックを含み、そして前記命令は前記コンピュータに対し:
    第2の複数の合成入力を生成するため、前記第1の複数の入力オーディオトラックを空間的にアップサンプリングするステップと、ここにおいて前記第2の複数の合成入力は、第1の入力に関連するそれぞれの3次元音源位置とは異なる、それぞれの座標を有する合成された3次元音源位置を有し;
    前記合成された3次元音源位置の方位角座標および仰角座標で計算されたフィルタ応答関数を使用して前記合成入力をフィルタリングするステップと;そして
    それぞれの前記左と右のフィルタ応答を用いて前記第1の入力をフィルタリングした後、フィルタリングされた前記合成入力をフィルタリングされた前記第1の入力と加算して前記ステレオ出力信号を生成するステップと;
    を実行するようにさせる、ことを特徴とする請求項26〜31のいずれかに記載の製品。
  34. 前記命令は、前記コンピュータに対し、前記入力オーディオトラックにウェーブレット変換を適用して前記入力オーディオトラックのそれぞれのスペクトログラムを生成するステップと、そして前記3次元音源位置にしたがって前記スペクトログラム間を補間して、前記合成された入力を生成するステップとを実行することにより、前記第1の複数の入力オーディオトラックを空間的にアップサンプリングさせる、ことを特徴とする請求項33に記載の製品。
  35. 前記命令は、前記コンピュータに対し、前記スペクトログラム内の点の間で計算されたオプティカルフロー関数を使用して、前記スペクトログラム間で補間を行わせる、ことを特徴とする請求項34に記載の製品。
  36. 前記命令は、前記コンピュータに対し、前記第1の入力から低周波数成分を抽出するステップと、前記低周波数成分の抽出後に前記第1の入力に前記それぞれの左と右のフィルタ応答を適用するステップと、そしてその後前記抽出された低周波成分をフィルタリングされた前記第1の入力に加えるステップと、を実行させる、ことを特徴とする請求項26〜31のいずれかに記載の製品。
  37. 前記3次元音源位置は、前記第1の入力に関連するレンジ座標を有し、前記命令は、前記コンピュータに対し、前記関連するレンジ座標に応じて前記第1の入力をさらに修正させる、ことを特徴とする請求項26〜31のいずれかに記載の製品。
JP2018535000A 2016-01-19 2017-01-04 没入型オーディオ再生のための信号合成 Active JP6820613B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201662280134P 2016-01-19 2016-01-19
US62/280,134 2016-01-19
US201662400699P 2016-09-28 2016-09-28
US62/400,699 2016-09-28
US201662432578P 2016-12-11 2016-12-11
US62/432,578 2016-12-11
PCT/IB2017/050018 WO2017125821A1 (en) 2016-01-19 2017-01-04 Synthesis of signals for immersive audio playback

Publications (2)

Publication Number Publication Date
JP2019506058A true JP2019506058A (ja) 2019-02-28
JP6820613B2 JP6820613B2 (ja) 2021-01-27

Family

ID=59361718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018535000A Active JP6820613B2 (ja) 2016-01-19 2017-01-04 没入型オーディオ再生のための信号合成

Country Status (11)

Country Link
US (1) US10531216B2 (ja)
EP (1) EP3406088B1 (ja)
JP (1) JP6820613B2 (ja)
KR (1) KR102430769B1 (ja)
CN (1) CN108476367B (ja)
AU (1) AU2017210021B2 (ja)
CA (1) CA3008214C (ja)
DK (1) DK3406088T3 (ja)
ES (1) ES2916342T3 (ja)
SG (1) SG11201804892PA (ja)
WO (1) WO2017125821A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3713255A4 (en) * 2017-11-14 2021-01-20 Sony Corporation SIGNAL PROCESSING DEVICE AND METHOD AND PROGRAM
US20190182592A1 (en) * 2017-12-11 2019-06-13 Marvin William Caesar Method for adjusting audio for listener location and head orientation within a physical or virtual space
US10652686B2 (en) 2018-02-06 2020-05-12 Sony Interactive Entertainment Inc. Method of improving localization of surround sound
US10523171B2 (en) 2018-02-06 2019-12-31 Sony Interactive Entertainment Inc. Method for dynamic sound equalization
US10477338B1 (en) 2018-06-11 2019-11-12 Here Global B.V. Method, apparatus and computer program product for spatial auditory cues
WO2020014506A1 (en) * 2018-07-12 2020-01-16 Sony Interactive Entertainment Inc. Method for acoustically rendering the size of a sound source
WO2020016685A1 (en) 2018-07-18 2020-01-23 Sphereo Sound Ltd. Detection of audio panning and synthesis of 3d audio from limited-channel surround sound
US11304021B2 (en) 2018-11-29 2022-04-12 Sony Interactive Entertainment Inc. Deferred audio rendering
US10932083B2 (en) * 2019-04-18 2021-02-23 Facebook Technologies, Llc Individualization of head related transfer function templates for presentation of audio content
CN113747304B (zh) * 2021-08-25 2024-04-26 深圳市爱特康科技有限公司 一种新型的低音回放方法和装置
CN114339582B (zh) * 2021-11-30 2024-02-06 北京小米移动软件有限公司 双通道音频处理、方向感滤波器生成方法、装置以及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08107600A (ja) * 1994-10-04 1996-04-23 Yamaha Corp 音像定位装置
US6498857B1 (en) * 1998-06-20 2002-12-24 Central Research Laboratories Limited Method of synthesizing an audio signal
JP2007068022A (ja) * 2005-09-01 2007-03-15 Matsushita Electric Ind Co Ltd 音像定位装置
JP2009065452A (ja) * 2007-09-06 2009-03-26 Panasonic Corp 音像定位制御装置、音像定位制御方法、プログラム、および集積回路
US20120020483A1 (en) * 2010-07-23 2012-01-26 Deshpande Sachin G System and method for robust audio spatialization using frequency separation
JP2015530825A (ja) * 2012-08-31 2015-10-15 ドルビー ラボラトリーズ ライセンシング コーポレイション 種々の聴取環境におけるオブジェクトに基づくオーディオのレンダリング及び再生のためのシステム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371799A (en) * 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
US5742689A (en) * 1996-01-04 1998-04-21 Virtual Listening Systems, Inc. Method and device for processing a multichannel signal for use with a headphone
US6421446B1 (en) 1996-09-25 2002-07-16 Qsound Labs, Inc. Apparatus for creating 3D audio imaging over headphones using binaural synthesis including elevation
GB9726338D0 (en) * 1997-12-13 1998-02-11 Central Research Lab Ltd A method of processing an audio signal
US6175631B1 (en) * 1999-07-09 2001-01-16 Stephen A. Davis Method and apparatus for decorrelating audio signals
JP3915746B2 (ja) * 2003-07-01 2007-05-16 日産自動車株式会社 車両用外界認識装置
US20050273324A1 (en) * 2004-06-08 2005-12-08 Expamedia, Inc. System for providing audio data and providing method thereof
JP4449616B2 (ja) * 2004-07-21 2010-04-14 パナソニック株式会社 タッチパネル
US7774707B2 (en) 2004-12-01 2010-08-10 Creative Technology Ltd Method and apparatus for enabling a user to amend an audio file
KR100606734B1 (ko) * 2005-02-04 2006-08-01 엘지전자 주식회사 삼차원 입체음향 구현 방법 및 그 장치
CN1937854A (zh) * 2005-09-22 2007-03-28 三星电子株式会社 用于再现双声道虚拟声音的装置和方法
EP1989920B1 (en) * 2006-02-21 2010-01-20 Koninklijke Philips Electronics N.V. Audio encoding and decoding
KR101368859B1 (ko) * 2006-12-27 2014-02-27 삼성전자주식회사 개인 청각 특성을 고려한 2채널 입체 음향 재생 방법 및장치
KR101431253B1 (ko) * 2007-06-26 2014-08-21 코닌클리케 필립스 엔.브이. 바이노럴 오브젝트―지향 오디오 디코더
US9271102B2 (en) * 2012-08-16 2016-02-23 Turtle Beach Corporation Multi-dimensional parametric audio system and method
US8638959B1 (en) * 2012-10-08 2014-01-28 Loring C. Hall Reduced acoustic signature loudspeaker (RSL)
KR20230144652A (ko) * 2013-03-28 2023-10-16 돌비 레버러토리즈 라이쎈싱 코오포레이션 임의적 라우드스피커 배치들로의 겉보기 크기를 갖는 오디오 오브젝트들의 렌더링
CN105144751A (zh) * 2013-04-15 2015-12-09 英迪股份有限公司 用于产生虚拟对象的音频信号处理方法
US9197755B2 (en) 2013-08-30 2015-11-24 Gleim Conferencing, Llc Multidimensional virtual learning audio programming system and method
JP6184808B2 (ja) * 2013-09-05 2017-08-23 三菱重工業株式会社 中子型および中空構造体の製造方法
CN104581610B (zh) * 2013-10-24 2018-04-27 华为技术有限公司 一种虚拟立体声合成方法及装置
CN105814914B (zh) * 2013-12-12 2017-10-24 株式会社索思未来 音频再生装置以及游戏装置
JP6642989B2 (ja) * 2015-07-06 2020-02-12 キヤノン株式会社 制御装置、制御方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08107600A (ja) * 1994-10-04 1996-04-23 Yamaha Corp 音像定位装置
US6498857B1 (en) * 1998-06-20 2002-12-24 Central Research Laboratories Limited Method of synthesizing an audio signal
JP2007068022A (ja) * 2005-09-01 2007-03-15 Matsushita Electric Ind Co Ltd 音像定位装置
JP2009065452A (ja) * 2007-09-06 2009-03-26 Panasonic Corp 音像定位制御装置、音像定位制御方法、プログラム、および集積回路
US20120020483A1 (en) * 2010-07-23 2012-01-26 Deshpande Sachin G System and method for robust audio spatialization using frequency separation
JP2015530825A (ja) * 2012-08-31 2015-10-15 ドルビー ラボラトリーズ ライセンシング コーポレイション 種々の聴取環境におけるオブジェクトに基づくオーディオのレンダリング及び再生のためのシステム

Also Published As

Publication number Publication date
EP3406088A4 (en) 2019-08-07
KR102430769B1 (ko) 2022-08-09
AU2017210021B2 (en) 2019-07-11
EP3406088A1 (en) 2018-11-28
JP6820613B2 (ja) 2021-01-27
DK3406088T3 (da) 2022-04-25
US20190020963A1 (en) 2019-01-17
CA3008214A1 (en) 2017-07-27
SG11201804892PA (en) 2018-08-30
AU2017210021A1 (en) 2018-07-05
CA3008214C (en) 2022-05-17
ES2916342T3 (es) 2022-06-30
CN108476367B (zh) 2020-11-06
KR20180102596A (ko) 2018-09-17
WO2017125821A1 (en) 2017-07-27
CN108476367A (zh) 2018-08-31
US10531216B2 (en) 2020-01-07
EP3406088B1 (en) 2022-03-02

Similar Documents

Publication Publication Date Title
JP6820613B2 (ja) 没入型オーディオ再生のための信号合成
RU2736418C1 (ru) Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием многоточечного описания звукового поля
TWI517028B (zh) 音訊空間定位和環境模擬
EP3197182B1 (en) Method and device for generating and playing back audio signal
JP5897219B2 (ja) オブジェクト・ベースのオーディオの仮想レンダリング
CN102395098B (zh) 生成3d声音的方法和设备
CN113170271B (zh) 用于处理立体声信号的方法和装置
JP2012068666A (ja) 空間出力マルチチャネルオーディオ信号を決定する装置
JP2023517720A (ja) 残響のレンダリング
KR20220044973A (ko) 다중-층 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
KR100674814B1 (ko) 스피커 신호에서 성분의 이산값을 계산하는 장치 및 방법
US20190394596A1 (en) Transaural synthesis method for sound spatialization
Llorach et al. Towards realistic immersive audiovisual simulations for hearing research: Capture, virtual scenes and reproduction
US11924623B2 (en) Object-based audio spatializer
US11665498B2 (en) Object-based audio spatializer
Paterson et al. Producing 3-D audio
WO2022034805A1 (ja) 信号処理装置および方法、並びにオーディオ再生システム
KR102559015B1 (ko) 공연과 영상에 몰입감 향상을 위한 실감음향 처리 시스템
JP2023548570A (ja) オーディオシステムの高さチャネルアップミキシング
WO2022126271A1 (en) Stereo headphone psychoacoustic sound localization system and method for reconstructing stereo psychoacoustic sound signals using same

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190716

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20191125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20191126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201223

R150 Certificate of patent or registration of utility model

Ref document number: 6820613

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250