JP2016513410A - マルチチャネルオーディオデータのビデオ解析支援生成 - Google Patents
マルチチャネルオーディオデータのビデオ解析支援生成 Download PDFInfo
- Publication number
- JP2016513410A JP2016513410A JP2015558105A JP2015558105A JP2016513410A JP 2016513410 A JP2016513410 A JP 2016513410A JP 2015558105 A JP2015558105 A JP 2015558105A JP 2015558105 A JP2015558105 A JP 2015558105A JP 2016513410 A JP2016513410 A JP 2016513410A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- video
- objects
- data
- metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/87—Regeneration of colour television signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/802—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving processing of the sound signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Abstract
Description
以下に、本出願の当初の特許請求の範囲に記載された発明を付記する。
[C1] 1つまたは複数のオーディオオブジェクトを識別するために、デバイスによってキャプチャされたオーディオデータを解析することと、
1つまたは複数のビデオオブジェクトを識別するために、前記オーディオデータの前記キャプチャと同時に前記デバイスによってキャプチャされたビデオデータを解析することと、
前記1つまたは複数のオーディオオブジェクトのうちの少なくとも1つを前記1つまたは複数のビデオオブジェクトのうちの少なくとも1つと関連付けることと、
前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つとの前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記関連付けに基づいて、前記オーディオデータからマルチチャネルオーディオデータを生成することとを備える方法。
[C2] 前記オーディオデータを解析することが、前記1つまたは複数のオーディオオブジェクトと、前記1つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、前記オーディオデータの聴覚的シーン解析を行うことを備え、前記オーディオメタデータが、対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの1つまたは複数を備え、
前記ビデオデータを解析することが、前記1つまたは複数のビデオオブジェクトと、前記1つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、前記ビデオデータの視覚的シーン解析を行うことを備え、前記ビデオメタデータが、前記対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの1つまたは複数を備える、C1に記載の方法。
[C3] 前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つを前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つと関連付けることが、
前記オーディオオブジェクトのタイプとして前記1つまたは複数のオーディオオブジェクトの各々を分類することと、
前記ビデオオブジェクトのタイプとして前記1つまたは複数のビデオオブジェクトの各々を分類することと、
前記オーディオオブジェクトのうちの前記少なくとも1つの前記タイプが前記ビデオオブジェクトのうちの前記少なくとも1つと同じタイプであることを決定することと、
前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記タイプが前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つと同じタイプであることの前記決定に応答して、前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つを前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つと関連付けることとを備える、C2に記載の方法。
[C4] 前記マルチチャネルオーディオデータを生成することが、
前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記オーディオメタデータと、前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つと関連付けられている前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つの前記ビデオメタデータとの間の相関のレベルを決定することと、
前記決定された相関のレベルに基づいて、前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つが関連付けられている前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つに関する複合メタデータを生成することと、
前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つに関して生成された前記複合メタデータに基づいて、前記マルチチャネルオーディオデータの1つまたは複数の前景チャネル内に前記1つまたは複数のオーディオデータのうちの前記少なくとも1つをレンダリングすることとを備える、C2に記載の方法。
[C5] 前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つが、前記1つまたは複数のオーディオオブジェクトのうちの第1のものを備え、
前記方法が、さらに、前記1つまたは複数のオーディオオブジェクトのうちの第2のものが前記1つまたは複数のビデオオブジェクトのうちのいずれにも関連付けられていないことを決定することを備え、
前記マルチチャネルオーディオデータを生成することが、前記オーディオオブジェクトのうちの前記第2のものが前記マルチチャネルオーディオデータの1つまたは複数の背景チャネル内で発生するように、前記マルチチャネルオーディオデータを生成することを備える、C1に記載の方法。
[C6] 前記マルチチャネルオーディオデータを生成することが、前記オーディオオブジェクトのうちの前記第2のものが前記マルチチャネルオーディオデータの前記1つまたは複数の背景チャネル内で拡散したオーディオオブジェクトとして発生するように、前記マルチチャネルオーディオデータを生成することを備える、C1に記載の方法。
[C7] 前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つが、前記1つまたは複数のビデオオブジェクトのうちの第1のものを備え、
前記方法が、さらに、
前記ビデオオブジェクトのうちの前記1つまたは複数のうちの第2のものが前記1つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定することと、
前記ビデオオブジェクトのうちの前記1つまたは複数のうちの前記第2のものが前記1つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定することに応答して、前記1つまたは複数のビデオオブジェクトのうちの前記第2のものに関連付けられているであろう基準オーディオオブジェクトをオーディオライブラリから取得することと、
前記マルチチャネルオーディオデータの少なくとも一部を生成するために、前記1つまたは複数のビデオオブジェクトのうちの前記第2のものに基づいて前記基準オーディオオブジェクトをレンダリングすることとを備える、C1に記載の方法。
[C8] 前記オーディオデータを解析することが、前記1つまたは複数のオーディオオブジェクトと、前記1つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、前記オーディオデータの聴覚的シーン解析を行うことを備え、
前記ビデオデータを解析することが、前記1つまたは複数のビデオオブジェクトと、前記1つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、前記ビデオデータの視覚的シーン解析を行うことを備え、
前記オーディオメタデータが、前記ビデオメタデータを定義するために使用されるテキストフォーマットと共通のテキストフォーマットで定義される、C1に記載の方法。
[C9] 前記オーディオデータを解析することが、前記1つまたは複数のオーディオオブジェクトと、前記1つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、前記オーディオデータの聴覚的シーン解析を行うことを備え、
前記ビデオデータを解析することが、前記1つまたは複数のビデオオブジェクトと、前記1つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、前記ビデオデータの視覚的シーン解析を行うことを備え、
前記マルチチャネルオーディオデータを生成することが、
前記オーディオオブジェクトのうちの前記少なくとも1つに関して識別された前記オーディオメタデータと、前記ビデオオブジェクトのうちの前記関係付けられている1つに関して識別された前記ビデオメタデータとの間の相関のレベルを決定することと、
前記マルチチャネルオーディオデータを生成するとき、前記決定された相関のレベルに基づいて、拡散するオーディオオブジェクトとして前記オーディオオブジェクトのうちの前記少なくとも1つをレンダリングすることとを備える、C1に記載の方法。
[C10] 前記デバイスが、携帯電話を備える、C1に記載の方法。
[C11] オーディオオブジェクトを取得し、ビデオオブジェクトを取得すること、前記オーディオオブジェクトと前記ビデオオブジェクトとを関連付け、前記オーディオオブジェクトを、前記関連付けられているビデオオブジェクトと比較し、前記オーディオオブジェクトと、前記関連付けられているビデオオブジェクトとの間の前記比較に基づいて前記オーディオオブジェクトをレンダリングするように構成される1つまたは複数のプロセッサを備えるデバイス。
[C12] 前記オーディオオブジェクトが、オーディオメタデータを含む、C11に記載のデバイス。
[C13] 前記オーディオメタデータが、サイズと位置とを備える、C12に記載のデバイス。
[C14] 前記ビデオオブジェクトが、ビデオメタデータを含む、C11に記載のデバイス。
[C15] 前記ビデオメタデータが、サイズと位置とを備える、C14に記載のデバイス。
[C16] 前記1つまたは複数のプロセッサが、前記オーディオオブジェクトを前記関連付けられているビデオオブジェクトと比較するとき、サイズと位置とのうちの1つまたは複数を備える複合メタデータを少なくとも部分的に生成するようにさらに構成される、C11に記載のデバイス。
[C17] 前記オーディオオブジェクトが、位置メタデータを含み、
前記ビデオオブジェクトが、位置メタデータを含み、
前記複合メタデータを生成することが、
相関値を決定するために、前記オーディオオブジェクトの前記位置メタデータを前記ビデオオブジェクトの前記位置メタデータと比較することと、
前記相関値が信頼しきい値を超えているかどうかの決定に基づいて、前記複合メタデータの位置メタデータを生成することとを備える、C14に記載のデバイス。
[C18] オーディオ出力信号を生成するデバイスであって、前記デバイスが、
第1のオーディオオブジェクトのデータ構成要素と第1のビデオオブジェクトのデータ構成要素との第1の比較に基づいて、前記第1のビデオオブジェクトの相対物と関連付けられている前記第1のオーディオオブジェクトを識別するための手段と、
第2のオーディオオブジェクトのデータ構成要素と第2のビデオオブジェクトのデータ構成要素との第2の比較に基づいて、前記第2のビデオオブジェクトの相対物と関連付けられていない前記第2のオーディオオブジェクトを識別するための手段と、
第1のゾーン内に前記第1のオーディオオブジェクトをレンダリングするための手段と、
第2のゾーン内に前記第2のオーディオオブジェクトをレンダリングするための手段と、
前記第1のゾーン内の前記レンダリングされた第1のオーディオオブジェクトと、前記第2のゾーン内の前記レンダリングされた第2のオーディオオブジェクトとを組み合わせることに基づいて前記オーディオ出力信号を生成するための手段とを備える、デバイス。
[C19] 前記第1のオーディオオブジェクトの前記データ構成要素が、位置とサイズとのうちの1つを備える、C18に記載のデバイス。
[C20] 前記第1のビデオオブジェクトの前記データ構成要素が、位置とサイズとのうちの1つを備える、C18に記載のデバイス。
[C21] 前記第2のオーディオオブジェクトの前記データ構成要素が、位置とサイズとのうちの1つを備える、C18に記載のデバイス。
[C22] 前記第2のビデオオブジェクトの前記データ構成要素が、位置とサイズとのうちの1つを備える、C18に記載のデバイス。
[C23] 前記第1のゾーンおよび第2のゾーンが、オーディオ前景内の異なるゾーン、またはオーディオ背景内の異なるゾーンである、C18に記載のデバイス。
[C24] 前記第1のゾーンおよび第2のゾーンが、オーディオ前景内の同じゾーン、またはオーディオ背景内の同じゾーンである、C18に記載のデバイス。
[C25] 前記第1のゾーンが、オーディオ前景内にあり、前記第2のゾーンが、オーディオ背景内にある、C18に記載のデバイス。
[C26] 前記第1のゾーンが、オーディオ背景内にあり、前記第2のゾーンが、オーディオ前景内にある、C18に記載のデバイス。
[C27] 前記第1のオーディオオブジェクトの前記データ構成要素と、前記第2のオーディオオブジェクトの前記データ構成要素と、前記第1のビデオオブジェクトの前記データ構成要素と、前記第2のビデオオブジェクトの前記データ構成要素とが、各々、メタデータを備える、C18に記載の方法。
[C28] 前記第1の比較が信頼区間の外部にあるかどうかを決定するための手段と、
前記第1の比較が前記信頼区間の外部にあるかどうかの決定に基づいて、前記第1のオーディオオブジェクトの前記データ構成要素と前記第1のビデオオブジェクトの前記データ構成要素とを重み付けするための手段とをさらに備える、C18に記載のデバイス。
[C29] 前記重み付けするための手段が、前記第1のオーディオオブジェクトの前記データ構成要素と前記第1のビデオオブジェクトの前記データ構成要素とを平均化するための手段を備える、C28に記載のデバイス。
[C30] 前記第1の比較と前記第2の比較とのうちの1つまたは複数に基づいて異なるビット数を割り当てるための手段をさらに備える、C18に記載のデバイス。
[C31] 実行されたとき、デバイスの1つまたは複数のプロセッサに、
1つまたは複数のオーディオオブジェクトを識別するために、前記デバイスによってキャプチャされたオーディオデータを解析させ、
1つまたは複数のビデオオブジェクトを識別するために、前記オーディオデータの前記キャプチャと同時に前記デバイスによってキャプチャされたビデオデータを解析させ、
前記1つまたは複数のオーディオオブジェクトのうちの少なくとも1つを、前記1つまたは複数のビデオオブジェクトのうちの少なくとも1つと関連付けさせ、
前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つとの前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記関連付けに基づいて、前記オーディオデータからマルチチャネルオーディオデータを生成させる命令が記憶される非一時的コンピュータ可読記憶媒体。
Claims (31)
- 1つまたは複数のオーディオオブジェクトを識別するために、デバイスによってキャプチャされたオーディオデータを解析することと、
1つまたは複数のビデオオブジェクトを識別するために、前記オーディオデータの前記キャプチャと同時に前記デバイスによってキャプチャされたビデオデータを解析することと、
前記1つまたは複数のオーディオオブジェクトのうちの少なくとも1つを前記1つまたは複数のビデオオブジェクトのうちの少なくとも1つと関連付けることと、
前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つとの前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記関連付けに基づいて、前記オーディオデータからマルチチャネルオーディオデータを生成することとを備える方法。 - 前記オーディオデータを解析することが、前記1つまたは複数のオーディオオブジェクトと、前記1つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、前記オーディオデータの聴覚的シーン解析を行うことを備え、前記オーディオメタデータが、対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの1つまたは複数を備え、
前記ビデオデータを解析することが、前記1つまたは複数のビデオオブジェクトと、前記1つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、前記ビデオデータの視覚的シーン解析を行うことを備え、前記ビデオメタデータが、前記対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの1つまたは複数を備える、請求項1に記載の方法。 - 前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つを前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つと関連付けることが、
前記オーディオオブジェクトのタイプとして前記1つまたは複数のオーディオオブジェクトの各々を分類することと、
前記ビデオオブジェクトのタイプとして前記1つまたは複数のビデオオブジェクトの各々を分類することと、
前記オーディオオブジェクトのうちの前記少なくとも1つの前記タイプが前記ビデオオブジェクトのうちの前記少なくとも1つと同じタイプであることを決定することと、
前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記タイプが前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つと同じタイプであることの前記決定に応答して、前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つを前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つと関連付けることとを備える、請求項2に記載の方法。 - 前記マルチチャネルオーディオデータを生成することが、
前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記オーディオメタデータと、前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つと関連付けられている前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つの前記ビデオメタデータとの間の相関のレベルを決定することと、
前記決定された相関のレベルに基づいて、前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つが関連付けられている前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つに関する複合メタデータを生成することと、
前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つに関して生成された前記複合メタデータに基づいて、前記マルチチャネルオーディオデータの1つまたは複数の前景チャネル内に前記1つまたは複数のオーディオデータのうちの前記少なくとも1つをレンダリングすることとを備える、請求項2に記載の方法。 - 前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つが、前記1つまたは複数のオーディオオブジェクトのうちの第1のものを備え、
前記方法が、さらに、前記1つまたは複数のオーディオオブジェクトのうちの第2のものが前記1つまたは複数のビデオオブジェクトのうちのいずれにも関連付けられていないことを決定することを備え、
前記マルチチャネルオーディオデータを生成することが、前記オーディオオブジェクトのうちの前記第2のものが前記マルチチャネルオーディオデータの1つまたは複数の背景チャネル内で発生するように、前記マルチチャネルオーディオデータを生成することを備える、請求項1に記載の方法。 - 前記マルチチャネルオーディオデータを生成することが、前記オーディオオブジェクトのうちの前記第2のものが前記マルチチャネルオーディオデータの前記1つまたは複数の背景チャネル内で拡散したオーディオオブジェクトとして発生するように、前記マルチチャネルオーディオデータを生成することを備える、請求項1に記載の方法。
- 前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つが、前記1つまたは複数のビデオオブジェクトのうちの第1のものを備え、
前記方法が、さらに、
前記ビデオオブジェクトのうちの前記1つまたは複数のうちの第2のものが前記1つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定することと、
前記ビデオオブジェクトのうちの前記1つまたは複数のうちの前記第2のものが前記1つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定することに応答して、前記1つまたは複数のビデオオブジェクトのうちの前記第2のものに関連付けられているであろう基準オーディオオブジェクトをオーディオライブラリから取得することと、
前記マルチチャネルオーディオデータの少なくとも一部を生成するために、前記1つまたは複数のビデオオブジェクトのうちの前記第2のものに基づいて前記基準オーディオオブジェクトをレンダリングすることとを備える、請求項1に記載の方法。 - 前記オーディオデータを解析することが、前記1つまたは複数のオーディオオブジェクトと、前記1つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、前記オーディオデータの聴覚的シーン解析を行うことを備え、
前記ビデオデータを解析することが、前記1つまたは複数のビデオオブジェクトと、前記1つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、前記ビデオデータの視覚的シーン解析を行うことを備え、
前記オーディオメタデータが、前記ビデオメタデータを定義するために使用されるテキストフォーマットと共通のテキストフォーマットで定義される、請求項1に記載の方法。 - 前記オーディオデータを解析することが、前記1つまたは複数のオーディオオブジェクトと、前記1つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、前記オーディオデータの聴覚的シーン解析を行うことを備え、
前記ビデオデータを解析することが、前記1つまたは複数のビデオオブジェクトと、前記1つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、前記ビデオデータの視覚的シーン解析を行うことを備え、
前記マルチチャネルオーディオデータを生成することが、
前記オーディオオブジェクトのうちの前記少なくとも1つに関して識別された前記オーディオメタデータと、前記ビデオオブジェクトのうちの前記関係付けられている1つに関して識別された前記ビデオメタデータとの間の相関のレベルを決定することと、
前記マルチチャネルオーディオデータを生成するとき、前記決定された相関のレベルに基づいて、拡散するオーディオオブジェクトとして前記オーディオオブジェクトのうちの前記少なくとも1つをレンダリングすることとを備える、請求項1に記載の方法。 - 前記デバイスが、携帯電話を備える、請求項1に記載の方法。
- オーディオオブジェクトを取得し、ビデオオブジェクトを取得すること、前記オーディオオブジェクトと前記ビデオオブジェクトとを関連付け、前記オーディオオブジェクトを、前記関連付けられているビデオオブジェクトと比較し、前記オーディオオブジェクトと、前記関連付けられているビデオオブジェクトとの間の前記比較に基づいて前記オーディオオブジェクトをレンダリングするように構成される1つまたは複数のプロセッサを備えるデバイス。
- 前記オーディオオブジェクトが、オーディオメタデータを含む、請求項11に記載のデバイス。
- 前記オーディオメタデータが、サイズと位置とを備える、請求項12に記載のデバイス。
- 前記ビデオオブジェクトが、ビデオメタデータを含む、請求項11に記載のデバイス。
- 前記ビデオメタデータが、サイズと位置とを備える、請求項14に記載のデバイス。
- 前記1つまたは複数のプロセッサが、前記オーディオオブジェクトを前記関連付けられているビデオオブジェクトと比較するとき、サイズと位置とのうちの1つまたは複数を備える複合メタデータを少なくとも部分的に生成するようにさらに構成される、請求項11に記載のデバイス。
- 前記オーディオオブジェクトが、位置メタデータを含み、
前記ビデオオブジェクトが、位置メタデータを含み、
前記複合メタデータを生成することが、
相関値を決定するために、前記オーディオオブジェクトの前記位置メタデータを前記ビデオオブジェクトの前記位置メタデータと比較することと、
前記相関値が信頼しきい値を超えているかどうかの決定に基づいて、前記複合メタデータの位置メタデータを生成することとを備える、請求項14に記載のデバイス。 - オーディオ出力信号を生成するデバイスであって、前記デバイスが、
第1のオーディオオブジェクトのデータ構成要素と第1のビデオオブジェクトのデータ構成要素との第1の比較に基づいて、前記第1のビデオオブジェクトの相対物と関連付けられている前記第1のオーディオオブジェクトを識別するための手段と、
第2のオーディオオブジェクトのデータ構成要素と第2のビデオオブジェクトのデータ構成要素との第2の比較に基づいて、前記第2のビデオオブジェクトの相対物と関連付けられていない前記第2のオーディオオブジェクトを識別するための手段と、
第1のゾーン内に前記第1のオーディオオブジェクトをレンダリングするための手段と、
第2のゾーン内に前記第2のオーディオオブジェクトをレンダリングするための手段と、
前記第1のゾーン内の前記レンダリングされた第1のオーディオオブジェクトと、前記第2のゾーン内の前記レンダリングされた第2のオーディオオブジェクトとを組み合わせることに基づいて前記オーディオ出力信号を生成するための手段とを備える、デバイス。 - 前記第1のオーディオオブジェクトの前記データ構成要素が、位置とサイズとのうちの1つを備える、請求項18に記載のデバイス。
- 前記第1のビデオオブジェクトの前記データ構成要素が、位置とサイズとのうちの1つを備える、請求項18に記載のデバイス。
- 前記第2のオーディオオブジェクトの前記データ構成要素が、位置とサイズとのうちの1つを備える、請求項18に記載のデバイス。
- 前記第2のビデオオブジェクトの前記データ構成要素が、位置とサイズとのうちの1つを備える、請求項18に記載のデバイス。
- 前記第1のゾーンおよび第2のゾーンが、オーディオ前景内の異なるゾーン、またはオーディオ背景内の異なるゾーンである、請求項18に記載のデバイス。
- 前記第1のゾーンおよび第2のゾーンが、オーディオ前景内の同じゾーン、またはオーディオ背景内の同じゾーンである、請求項18に記載のデバイス。
- 前記第1のゾーンが、オーディオ前景内にあり、前記第2のゾーンが、オーディオ背景内にある、請求項18に記載のデバイス。
- 前記第1のゾーンが、オーディオ背景内にあり、前記第2のゾーンが、オーディオ前景内にある、請求項18に記載のデバイス。
- 前記第1のオーディオオブジェクトの前記データ構成要素と、前記第2のオーディオオブジェクトの前記データ構成要素と、前記第1のビデオオブジェクトの前記データ構成要素と、前記第2のビデオオブジェクトの前記データ構成要素とが、各々、メタデータを備える、請求項18に記載の方法。
- 前記第1の比較が信頼区間の外部にあるかどうかを決定するための手段と、
前記第1の比較が前記信頼区間の外部にあるかどうかの決定に基づいて、前記第1のオーディオオブジェクトの前記データ構成要素と前記第1のビデオオブジェクトの前記データ構成要素とを重み付けするための手段とをさらに備える、請求項18に記載のデバイス。 - 前記重み付けするための手段が、前記第1のオーディオオブジェクトの前記データ構成要素と前記第1のビデオオブジェクトの前記データ構成要素とを平均化するための手段を備える、請求項28に記載のデバイス。
- 前記第1の比較と前記第2の比較とのうちの1つまたは複数に基づいて異なるビット数を割り当てるための手段をさらに備える、請求項18に記載のデバイス。
- 実行されたとき、デバイスの1つまたは複数のプロセッサに、
1つまたは複数のオーディオオブジェクトを識別するために、前記デバイスによってキャプチャされたオーディオデータを解析させ、
1つまたは複数のビデオオブジェクトを識別するために、前記オーディオデータの前記キャプチャと同時に前記デバイスによってキャプチャされたビデオデータを解析させ、
前記1つまたは複数のオーディオオブジェクトのうちの少なくとも1つを、前記1つまたは複数のビデオオブジェクトのうちの少なくとも1つと関連付けさせ、
前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つとの前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記関連付けに基づいて、前記オーディオデータからマルチチャネルオーディオデータを生成させる命令が記憶される非一時的コンピュータ可読記憶媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361765556P | 2013-02-15 | 2013-02-15 | |
US61/765,556 | 2013-02-15 | ||
US13/831,018 | 2013-03-14 | ||
US13/831,018 US9338420B2 (en) | 2013-02-15 | 2013-03-14 | Video analysis assisted generation of multi-channel audio data |
PCT/US2014/016059 WO2014127019A1 (en) | 2013-02-15 | 2014-02-12 | Video analysis assisted generation of multi-channel audio data |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2016513410A true JP2016513410A (ja) | 2016-05-12 |
JP2016513410A5 JP2016513410A5 (ja) | 2016-08-12 |
JP6039111B2 JP6039111B2 (ja) | 2016-12-07 |
Family
ID=51351238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015558105A Expired - Fee Related JP6039111B2 (ja) | 2013-02-15 | 2014-02-12 | マルチチャネルオーディオデータのビデオ解析支援生成 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9338420B2 (ja) |
EP (1) | EP2956941A1 (ja) |
JP (1) | JP6039111B2 (ja) |
KR (1) | KR101761039B1 (ja) |
CN (1) | CN104995681B (ja) |
WO (1) | WO2014127019A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019504340A (ja) * | 2015-12-01 | 2019-02-14 | エーティーアイ・テクノロジーズ・ユーエルシーAti Technologies Ulc | ビデオ情報を用いたオーディオエンコーディング |
JP2020520576A (ja) * | 2017-05-02 | 2020-07-09 | ノキア テクノロジーズ オーユー | 空間オーディオの提示のための装置および関連する方法 |
JP7464730B2 (ja) | 2020-02-03 | 2024-04-09 | グーグル エルエルシー | ビデオ情報に基づく空間オーディオ拡張 |
Families Citing this family (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102804686B (zh) * | 2010-03-16 | 2016-08-24 | 三星电子株式会社 | 内容输出系统及其编解码器信息共享方法 |
US10326978B2 (en) | 2010-06-30 | 2019-06-18 | Warner Bros. Entertainment Inc. | Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning |
CN107396278B (zh) * | 2013-03-28 | 2019-04-12 | 杜比实验室特许公司 | 用于创作和渲染音频再现数据的非暂态介质和设备 |
US9854377B2 (en) | 2013-05-29 | 2017-12-26 | Qualcomm Incorporated | Interpolation for decomposed representations of a sound field |
US9466305B2 (en) * | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
KR101681529B1 (ko) | 2013-07-31 | 2016-12-01 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 공간적으로 분산된 또는 큰 오디오 오브젝트들의 프로세싱 |
US9137232B2 (en) * | 2014-01-14 | 2015-09-15 | Xerox Corporation | Method and system for controlling access to document data using augmented reality marker |
US9502045B2 (en) | 2014-01-30 | 2016-11-22 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US9620137B2 (en) | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
US20160179803A1 (en) * | 2014-12-22 | 2016-06-23 | Rovi Guides, Inc. | Augmenting metadata using commonly available visual elements associated with media content |
CN107409264B (zh) | 2015-01-16 | 2021-02-05 | 三星电子株式会社 | 基于图像信息处理声音的方法和对应设备 |
CN105989845B (zh) * | 2015-02-25 | 2020-12-08 | 杜比实验室特许公司 | 视频内容协助的音频对象提取 |
US9609383B1 (en) | 2015-03-23 | 2017-03-28 | Amazon Technologies, Inc. | Directional audio for virtual environments |
US10176644B2 (en) * | 2015-06-07 | 2019-01-08 | Apple Inc. | Automatic rendering of 3D sound |
TWI736542B (zh) * | 2015-08-06 | 2021-08-21 | 日商新力股份有限公司 | 資訊處理裝置、資料配訊伺服器及資訊處理方法、以及非暫時性電腦可讀取之記錄媒體 |
GB2545275A (en) * | 2015-12-11 | 2017-06-14 | Nokia Technologies Oy | Causing provision of virtual reality content |
KR20170106063A (ko) * | 2016-03-11 | 2017-09-20 | 가우디오디오랩 주식회사 | 오디오 신호 처리 방법 및 장치 |
US10979843B2 (en) * | 2016-04-08 | 2021-04-13 | Qualcomm Incorporated | Spatialized audio output based on predicted position data |
EP3465679A4 (en) * | 2016-05-25 | 2020-01-15 | Warner Bros. Entertainment Inc. | METHOD AND DEVICE FOR GENERATING PRESENTATIONS OF THE VIRTUAL OR EXTENDED REALITY WITH 3D AUDIO POSITIONING |
KR102465227B1 (ko) * | 2016-05-30 | 2022-11-10 | 소니그룹주식회사 | 영상 음향 처리 장치 및 방법, 및 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체 |
US10074012B2 (en) | 2016-06-17 | 2018-09-11 | Dolby Laboratories Licensing Corporation | Sound and video object tracking |
CN106162447A (zh) * | 2016-06-24 | 2016-11-23 | 维沃移动通信有限公司 | 一种音频播放的方法和终端 |
US10445936B1 (en) | 2016-08-01 | 2019-10-15 | Snap Inc. | Audio responsive augmented reality |
EP3324407A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
EP3324406A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
GB2557241A (en) * | 2016-12-01 | 2018-06-20 | Nokia Technologies Oy | Audio processing |
EP3343347A1 (en) | 2016-12-30 | 2018-07-04 | Nokia Technologies Oy | Audio processing |
EP3343483A1 (en) * | 2016-12-30 | 2018-07-04 | Spotify AB | System and method for providing a video with lyrics overlay for use in a social messaging environment |
EP3343957B1 (en) | 2016-12-30 | 2022-07-06 | Nokia Technologies Oy | Multimedia content |
US10659906B2 (en) | 2017-01-13 | 2020-05-19 | Qualcomm Incorporated | Audio parallax for virtual reality, augmented reality, and mixed reality |
CN108632551A (zh) * | 2017-03-16 | 2018-10-09 | 南昌黑鲨科技有限公司 | 基于深度学习的视频录摄方法、装置及终端 |
JP7143843B2 (ja) * | 2017-04-13 | 2022-09-29 | ソニーグループ株式会社 | 信号処理装置および方法、並びにプログラム |
WO2018198789A1 (ja) * | 2017-04-26 | 2018-11-01 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
US20180367935A1 (en) * | 2017-06-15 | 2018-12-20 | Htc Corporation | Audio signal processing method, audio positional system and non-transitory computer-readable medium |
US10178490B1 (en) * | 2017-06-30 | 2019-01-08 | Apple Inc. | Intelligent audio rendering for video recording |
US11164606B2 (en) * | 2017-06-30 | 2021-11-02 | Qualcomm Incorporated | Audio-driven viewport selection |
US10224074B2 (en) * | 2017-07-12 | 2019-03-05 | Karl Storz Imaging, Inc. | Apparatus and methods for improving video quality from a digital video signal including replicated image frames |
US11128977B2 (en) | 2017-09-29 | 2021-09-21 | Apple Inc. | Spatial audio downmixing |
CN111108760B (zh) * | 2017-09-29 | 2021-11-26 | 苹果公司 | 用于空间音频的文件格式 |
US10469968B2 (en) | 2017-10-12 | 2019-11-05 | Qualcomm Incorporated | Rendering for computer-mediated reality systems |
US10714144B2 (en) | 2017-11-06 | 2020-07-14 | International Business Machines Corporation | Corroborating video data with audio data from video content to create section tagging |
US11003676B2 (en) * | 2018-02-27 | 2021-05-11 | Sap Se | Software integration object linking data structures |
US11847773B1 (en) | 2018-04-27 | 2023-12-19 | Splunk Inc. | Geofence-based object identification in an extended reality environment |
EP3797529A1 (en) * | 2018-05-23 | 2021-03-31 | Koninklijke KPN N.V. | Adapting acoustic rendering to image-based object |
US11715302B2 (en) * | 2018-08-21 | 2023-08-01 | Streem, Llc | Automatic tagging of images using speech recognition |
US11012774B2 (en) | 2018-10-29 | 2021-05-18 | Apple Inc. | Spatially biased sound pickup for binaural video recording |
GB201818959D0 (en) | 2018-11-21 | 2019-01-09 | Nokia Technologies Oy | Ambience audio representation and associated rendering |
US11601772B2 (en) | 2018-11-26 | 2023-03-07 | Raytheon Bbn Technologies Corp. | Systems and methods for enhancing attitude awareness in ambiguous environments |
KR20200107757A (ko) * | 2019-03-08 | 2020-09-16 | 엘지전자 주식회사 | 음향 객체 추종을 위한 방법 및 이를 위한 장치 |
CN111757240B (zh) * | 2019-03-26 | 2021-08-20 | 瑞昱半导体股份有限公司 | 音频处理方法与音频处理系统 |
CN111757239B (zh) * | 2019-03-28 | 2021-11-19 | 瑞昱半导体股份有限公司 | 音频处理方法与音频处理系统 |
US11030479B2 (en) * | 2019-04-30 | 2021-06-08 | Sony Interactive Entertainment Inc. | Mapping visual tags to sound tags using text similarity |
KR102565131B1 (ko) | 2019-05-31 | 2023-08-08 | 디티에스, 인코포레이티드 | 포비에이티드 오디오 렌더링 |
CN110381336B (zh) * | 2019-07-24 | 2021-07-16 | 广州飞达音响股份有限公司 | 基于5.1声道的视频片段情感判定方法、装置和计算机设备 |
US11276419B2 (en) | 2019-07-30 | 2022-03-15 | International Business Machines Corporation | Synchronized sound generation from videos |
US11356796B2 (en) | 2019-11-22 | 2022-06-07 | Qualcomm Incorporated | Priority-based soundfield coding for virtual reality audio |
KR20210072388A (ko) | 2019-12-09 | 2021-06-17 | 삼성전자주식회사 | 오디오 출력 장치 및 오디오 출력 장치의 제어 방법 |
US11823698B2 (en) * | 2020-01-17 | 2023-11-21 | Audiotelligence Limited | Audio cropping |
US11755275B2 (en) * | 2020-06-29 | 2023-09-12 | Meta Platforms Technologies, Llc | Generating augmented reality experiences utilizing physical objects to represent analogous virtual objects |
CN111863002A (zh) * | 2020-07-06 | 2020-10-30 | Oppo广东移动通信有限公司 | 处理方法、处理装置、电子设备 |
CN111787464B (zh) * | 2020-07-31 | 2022-06-14 | Oppo广东移动通信有限公司 | 一种信息处理方法、装置、电子设备和存储介质 |
US11546692B1 (en) | 2020-08-19 | 2023-01-03 | Apple Inc. | Audio renderer based on audiovisual information |
US11521623B2 (en) | 2021-01-11 | 2022-12-06 | Bank Of America Corporation | System and method for single-speaker identification in a multi-speaker environment on a low-frequency audio recording |
CN113316078B (zh) * | 2021-07-30 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
WO2024059536A1 (en) * | 2022-09-13 | 2024-03-21 | Dolby Laboratories Licensing Corporation | Audio-visual analytic for object rendering in capture |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030053680A1 (en) * | 2001-09-17 | 2003-03-20 | Koninklijke Philips Electronics N.V. | Three-dimensional sound creation assisted by visual information |
WO2010070556A2 (en) * | 2008-12-16 | 2010-06-24 | Koninklijke Philips Electronics N.V. | Estimating a sound source location using particle filtering |
WO2010140254A1 (ja) * | 2009-06-05 | 2010-12-09 | パイオニア株式会社 | 映像音声出力装置及び音声定位方法 |
US20120019689A1 (en) * | 2010-07-26 | 2012-01-26 | Motorola, Inc. | Electronic apparatus for generating beamformed audio signals with steerable nulls |
US20120062700A1 (en) * | 2010-06-30 | 2012-03-15 | Darcy Antonellis | Method and Apparatus for Generating 3D Audio Positioning Using Dynamically Optimized Audio 3D Space Perception Cues |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9942673B2 (en) * | 2007-11-14 | 2018-04-10 | Sonova Ag | Method and arrangement for fitting a hearing system |
US20100098258A1 (en) | 2008-10-22 | 2010-04-22 | Karl Ola Thorn | System and method for generating multichannel audio with a portable electronic device |
CN102461208B (zh) * | 2009-06-19 | 2015-09-23 | 杜比实验室特许公司 | 用于可升级介质内核和引擎的用户特定特征 |
US8773589B2 (en) | 2009-07-24 | 2014-07-08 | Digimarc Corporation | Audio/video methods and systems |
US8963987B2 (en) * | 2010-05-27 | 2015-02-24 | Microsoft Corporation | Non-linguistic signal detection and feedback |
US8638951B2 (en) | 2010-07-15 | 2014-01-28 | Motorola Mobility Llc | Electronic apparatus for generating modified wideband audio signals based on two or more wideband microphone signals |
US9552840B2 (en) | 2010-10-25 | 2017-01-24 | Qualcomm Incorporated | Three-dimensional sound capturing and reproducing with multi-microphones |
US9031256B2 (en) | 2010-10-25 | 2015-05-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control |
US8855341B2 (en) * | 2010-10-25 | 2014-10-07 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for head tracking based on recorded sound signals |
WO2012063103A1 (en) | 2010-11-12 | 2012-05-18 | Nokia Corporation | An Audio Processing Apparatus |
FR2974097B1 (fr) | 2011-04-14 | 2013-04-19 | Michelin Soc Tech | Composition de caoutchouc comprenant un derive de la thiazoline |
US20130162752A1 (en) * | 2011-12-22 | 2013-06-27 | Advanced Micro Devices, Inc. | Audio and Video Teleconferencing Using Voiceprints and Face Prints |
-
2013
- 2013-03-14 US US13/831,018 patent/US9338420B2/en active Active
-
2014
- 2014-02-12 JP JP2015558105A patent/JP6039111B2/ja not_active Expired - Fee Related
- 2014-02-12 WO PCT/US2014/016059 patent/WO2014127019A1/en active Application Filing
- 2014-02-12 CN CN201480008260.1A patent/CN104995681B/zh not_active Expired - Fee Related
- 2014-02-12 KR KR1020157024128A patent/KR101761039B1/ko active IP Right Grant
- 2014-02-12 EP EP14708999.9A patent/EP2956941A1/en not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030053680A1 (en) * | 2001-09-17 | 2003-03-20 | Koninklijke Philips Electronics N.V. | Three-dimensional sound creation assisted by visual information |
WO2010070556A2 (en) * | 2008-12-16 | 2010-06-24 | Koninklijke Philips Electronics N.V. | Estimating a sound source location using particle filtering |
JP2012512413A (ja) * | 2008-12-16 | 2012-05-31 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | パーティクルフィルタリングを利用した音源位置の推定 |
WO2010140254A1 (ja) * | 2009-06-05 | 2010-12-09 | パイオニア株式会社 | 映像音声出力装置及び音声定位方法 |
US20120062700A1 (en) * | 2010-06-30 | 2012-03-15 | Darcy Antonellis | Method and Apparatus for Generating 3D Audio Positioning Using Dynamically Optimized Audio 3D Space Perception Cues |
US20120019689A1 (en) * | 2010-07-26 | 2012-01-26 | Motorola, Inc. | Electronic apparatus for generating beamformed audio signals with steerable nulls |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019504340A (ja) * | 2015-12-01 | 2019-02-14 | エーティーアイ・テクノロジーズ・ユーエルシーAti Technologies Ulc | ビデオ情報を用いたオーディオエンコーディング |
JP2020520576A (ja) * | 2017-05-02 | 2020-07-09 | ノキア テクノロジーズ オーユー | 空間オーディオの提示のための装置および関連する方法 |
JP7464730B2 (ja) | 2020-02-03 | 2024-04-09 | グーグル エルエルシー | ビデオ情報に基づく空間オーディオ拡張 |
Also Published As
Publication number | Publication date |
---|---|
EP2956941A1 (en) | 2015-12-23 |
KR20150117693A (ko) | 2015-10-20 |
US9338420B2 (en) | 2016-05-10 |
CN104995681A (zh) | 2015-10-21 |
KR101761039B1 (ko) | 2017-08-04 |
CN104995681B (zh) | 2017-10-31 |
US20140233917A1 (en) | 2014-08-21 |
WO2014127019A1 (en) | 2014-08-21 |
JP6039111B2 (ja) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6039111B2 (ja) | マルチチャネルオーディオデータのビデオ解析支援生成 | |
US11531518B2 (en) | System and method for differentially locating and modifying audio sources | |
CN109644314B (zh) | 渲染声音程序的方法、音频回放系统和制造制品 | |
US10165386B2 (en) | VR audio superzoom | |
KR102035477B1 (ko) | 카메라 선택에 기초한 오디오 처리 | |
CN104010265A (zh) | 音频空间渲染设备及方法 | |
US11567729B2 (en) | System and method for playing audio data on multiple devices | |
US10728689B2 (en) | Soundfield modeling for efficient encoding and/or retrieval | |
KR20210035725A (ko) | 혼합 오디오 신호를 저장하고 지향성 오디오를 재생하기 위한 방법 및 시스템 | |
US9832587B1 (en) | Assisted near-distance communication using binaural cues | |
CN113853529A (zh) | 用于空间音频捕获的装置和相关方法 | |
US11546692B1 (en) | Audio renderer based on audiovisual information | |
WO2023231787A1 (zh) | 音频处理方法和装置 | |
US20230074395A1 (en) | Audio processing method, apparatus, electronic device and storage medium | |
US10993064B2 (en) | Apparatus and associated methods for presentation of audio content | |
CN114631332A (zh) | 比特流中音频效果元数据的信令 | |
CN116320144B (zh) | 一种音频播放方法及电子设备、可读存储介质 | |
EP3588986A1 (en) | An apparatus and associated methods for presentation of audio | |
JP2024041721A (ja) | ビデオ電話会議 | |
CN117636928A (zh) | 一种拾音装置及相关音频增强方法 | |
CN117014785A (zh) | 一种音频播放方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160622 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160622 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20160622 |
|
TRDD | Decision of grant or rejection written | ||
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20160930 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161102 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6039111 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |