JP6039111B2 - マルチチャネルオーディオデータのビデオ解析支援生成 - Google Patents
マルチチャネルオーディオデータのビデオ解析支援生成 Download PDFInfo
- Publication number
- JP6039111B2 JP6039111B2 JP2015558105A JP2015558105A JP6039111B2 JP 6039111 B2 JP6039111 B2 JP 6039111B2 JP 2015558105 A JP2015558105 A JP 2015558105A JP 2015558105 A JP2015558105 A JP 2015558105A JP 6039111 B2 JP6039111 B2 JP 6039111B2
- Authority
- JP
- Japan
- Prior art keywords
- audio
- video
- objects
- data
- metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims description 99
- 238000009877 rendering Methods 0.000 claims description 136
- 238000000034 method Methods 0.000 claims description 105
- 230000000007 visual effect Effects 0.000 claims description 47
- 239000002131 composite material Substances 0.000 claims description 25
- 230000004044 response Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 8
- 238000009792 diffusion process Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 33
- 230000003190 augmentative effect Effects 0.000 description 25
- 230000008569 process Effects 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 239000010454 slate Substances 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 235000009508 confectionery Nutrition 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 229920002160 Celluloid Polymers 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 240000004050 Pentaglottis sempervirens Species 0.000 description 1
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000005674 electromagnetic induction Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003116 impacting effect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/87—Regeneration of colour television signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/802—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving processing of the sound signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
- Television Signal Processing For Recording (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Description
以下に、本出願の当初の特許請求の範囲に記載された発明を付記する。
[C1] 1つまたは複数のオーディオオブジェクトを識別するために、デバイスによってキャプチャされたオーディオデータを解析することと、
1つまたは複数のビデオオブジェクトを識別するために、前記オーディオデータの前記キャプチャと同時に前記デバイスによってキャプチャされたビデオデータを解析することと、
前記1つまたは複数のオーディオオブジェクトのうちの少なくとも1つを前記1つまたは複数のビデオオブジェクトのうちの少なくとも1つと関連付けることと、
前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つとの前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記関連付けに基づいて、前記オーディオデータからマルチチャネルオーディオデータを生成することとを備える方法。
[C2] 前記オーディオデータを解析することが、前記1つまたは複数のオーディオオブジェクトと、前記1つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、前記オーディオデータの聴覚的シーン解析を行うことを備え、前記オーディオメタデータが、対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの1つまたは複数を備え、
前記ビデオデータを解析することが、前記1つまたは複数のビデオオブジェクトと、前記1つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、前記ビデオデータの視覚的シーン解析を行うことを備え、前記ビデオメタデータが、前記対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの1つまたは複数を備える、C1に記載の方法。
[C3] 前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つを前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つと関連付けることが、
前記オーディオオブジェクトのタイプとして前記1つまたは複数のオーディオオブジェクトの各々を分類することと、
前記ビデオオブジェクトのタイプとして前記1つまたは複数のビデオオブジェクトの各々を分類することと、
前記オーディオオブジェクトのうちの前記少なくとも1つの前記タイプが前記ビデオオブジェクトのうちの前記少なくとも1つと同じタイプであることを決定することと、
前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記タイプが前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つと同じタイプであることの前記決定に応答して、前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つを前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つと関連付けることとを備える、C2に記載の方法。
[C4] 前記マルチチャネルオーディオデータを生成することが、
前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記オーディオメタデータと、前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つと関連付けられている前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つの前記ビデオメタデータとの間の相関のレベルを決定することと、
前記決定された相関のレベルに基づいて、前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つが関連付けられている前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つに関する複合メタデータを生成することと、
前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つに関して生成された前記複合メタデータに基づいて、前記マルチチャネルオーディオデータの1つまたは複数の前景チャネル内に前記1つまたは複数のオーディオデータのうちの前記少なくとも1つをレンダリングすることとを備える、C2に記載の方法。
[C5] 前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つが、前記1つまたは複数のオーディオオブジェクトのうちの第1のものを備え、
前記方法が、さらに、前記1つまたは複数のオーディオオブジェクトのうちの第2のものが前記1つまたは複数のビデオオブジェクトのうちのいずれにも関連付けられていないことを決定することを備え、
前記マルチチャネルオーディオデータを生成することが、前記オーディオオブジェクトのうちの前記第2のものが前記マルチチャネルオーディオデータの1つまたは複数の背景チャネル内で発生するように、前記マルチチャネルオーディオデータを生成することを備える、C1に記載の方法。
[C6] 前記マルチチャネルオーディオデータを生成することが、前記オーディオオブジェクトのうちの前記第2のものが前記マルチチャネルオーディオデータの前記1つまたは複数の背景チャネル内で拡散したオーディオオブジェクトとして発生するように、前記マルチチャネルオーディオデータを生成することを備える、C1に記載の方法。
[C7] 前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つが、前記1つまたは複数のビデオオブジェクトのうちの第1のものを備え、
前記方法が、さらに、
前記ビデオオブジェクトのうちの前記1つまたは複数のうちの第2のものが前記1つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定することと、
前記ビデオオブジェクトのうちの前記1つまたは複数のうちの前記第2のものが前記1つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定することに応答して、前記1つまたは複数のビデオオブジェクトのうちの前記第2のものに関連付けられているであろう基準オーディオオブジェクトをオーディオライブラリから取得することと、
前記マルチチャネルオーディオデータの少なくとも一部を生成するために、前記1つまたは複数のビデオオブジェクトのうちの前記第2のものに基づいて前記基準オーディオオブジェクトをレンダリングすることとを備える、C1に記載の方法。
[C8] 前記オーディオデータを解析することが、前記1つまたは複数のオーディオオブジェクトと、前記1つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、前記オーディオデータの聴覚的シーン解析を行うことを備え、
前記ビデオデータを解析することが、前記1つまたは複数のビデオオブジェクトと、前記1つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、前記ビデオデータの視覚的シーン解析を行うことを備え、
前記オーディオメタデータが、前記ビデオメタデータを定義するために使用されるテキストフォーマットと共通のテキストフォーマットで定義される、C1に記載の方法。
[C9] 前記オーディオデータを解析することが、前記1つまたは複数のオーディオオブジェクトと、前記1つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、前記オーディオデータの聴覚的シーン解析を行うことを備え、
前記ビデオデータを解析することが、前記1つまたは複数のビデオオブジェクトと、前記1つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、前記ビデオデータの視覚的シーン解析を行うことを備え、
前記マルチチャネルオーディオデータを生成することが、
前記オーディオオブジェクトのうちの前記少なくとも1つに関して識別された前記オーディオメタデータと、前記ビデオオブジェクトのうちの前記関係付けられている1つに関して識別された前記ビデオメタデータとの間の相関のレベルを決定することと、
前記マルチチャネルオーディオデータを生成するとき、前記決定された相関のレベルに基づいて、拡散するオーディオオブジェクトとして前記オーディオオブジェクトのうちの前記少なくとも1つをレンダリングすることとを備える、C1に記載の方法。
[C10] 前記デバイスが、携帯電話を備える、C1に記載の方法。
[C11] オーディオオブジェクトを取得し、ビデオオブジェクトを取得すること、前記オーディオオブジェクトと前記ビデオオブジェクトとを関連付け、前記オーディオオブジェクトを、前記関連付けられているビデオオブジェクトと比較し、前記オーディオオブジェクトと、前記関連付けられているビデオオブジェクトとの間の前記比較に基づいて前記オーディオオブジェクトをレンダリングするように構成される1つまたは複数のプロセッサを備えるデバイス。
[C12] 前記オーディオオブジェクトが、オーディオメタデータを含む、C11に記載のデバイス。
[C13] 前記オーディオメタデータが、サイズと位置とを備える、C12に記載のデバイス。
[C14] 前記ビデオオブジェクトが、ビデオメタデータを含む、C11に記載のデバイス。
[C15] 前記ビデオメタデータが、サイズと位置とを備える、C14に記載のデバイス。
[C16] 前記1つまたは複数のプロセッサが、前記オーディオオブジェクトを前記関連付けられているビデオオブジェクトと比較するとき、サイズと位置とのうちの1つまたは複数を備える複合メタデータを少なくとも部分的に生成するようにさらに構成される、C11に記載のデバイス。
[C17] 前記オーディオオブジェクトが、位置メタデータを含み、
前記ビデオオブジェクトが、位置メタデータを含み、
前記複合メタデータを生成することが、
相関値を決定するために、前記オーディオオブジェクトの前記位置メタデータを前記ビデオオブジェクトの前記位置メタデータと比較することと、
前記相関値が信頼しきい値を超えているかどうかの決定に基づいて、前記複合メタデータの位置メタデータを生成することとを備える、C14に記載のデバイス。
[C18] オーディオ出力信号を生成するデバイスであって、前記デバイスが、
第1のオーディオオブジェクトのデータ構成要素と第1のビデオオブジェクトのデータ構成要素との第1の比較に基づいて、前記第1のビデオオブジェクトの相対物と関連付けられている前記第1のオーディオオブジェクトを識別するための手段と、
第2のオーディオオブジェクトのデータ構成要素と第2のビデオオブジェクトのデータ構成要素との第2の比較に基づいて、前記第2のビデオオブジェクトの相対物と関連付けられていない前記第2のオーディオオブジェクトを識別するための手段と、
第1のゾーン内に前記第1のオーディオオブジェクトをレンダリングするための手段と、
第2のゾーン内に前記第2のオーディオオブジェクトをレンダリングするための手段と、
前記第1のゾーン内の前記レンダリングされた第1のオーディオオブジェクトと、前記第2のゾーン内の前記レンダリングされた第2のオーディオオブジェクトとを組み合わせることに基づいて前記オーディオ出力信号を生成するための手段とを備える、デバイス。
[C19] 前記第1のオーディオオブジェクトの前記データ構成要素が、位置とサイズとのうちの1つを備える、C18に記載のデバイス。
[C20] 前記第1のビデオオブジェクトの前記データ構成要素が、位置とサイズとのうちの1つを備える、C18に記載のデバイス。
[C21] 前記第2のオーディオオブジェクトの前記データ構成要素が、位置とサイズとのうちの1つを備える、C18に記載のデバイス。
[C22] 前記第2のビデオオブジェクトの前記データ構成要素が、位置とサイズとのうちの1つを備える、C18に記載のデバイス。
[C23] 前記第1のゾーンおよび第2のゾーンが、オーディオ前景内の異なるゾーン、またはオーディオ背景内の異なるゾーンである、C18に記載のデバイス。
[C24] 前記第1のゾーンおよび第2のゾーンが、オーディオ前景内の同じゾーン、またはオーディオ背景内の同じゾーンである、C18に記載のデバイス。
[C25] 前記第1のゾーンが、オーディオ前景内にあり、前記第2のゾーンが、オーディオ背景内にある、C18に記載のデバイス。
[C26] 前記第1のゾーンが、オーディオ背景内にあり、前記第2のゾーンが、オーディオ前景内にある、C18に記載のデバイス。
[C27] 前記第1のオーディオオブジェクトの前記データ構成要素と、前記第2のオーディオオブジェクトの前記データ構成要素と、前記第1のビデオオブジェクトの前記データ構成要素と、前記第2のビデオオブジェクトの前記データ構成要素とが、各々、メタデータを備える、C18に記載の方法。
[C28] 前記第1の比較が信頼区間の外部にあるかどうかを決定するための手段と、
前記第1の比較が前記信頼区間の外部にあるかどうかの決定に基づいて、前記第1のオーディオオブジェクトの前記データ構成要素と前記第1のビデオオブジェクトの前記データ構成要素とを重み付けするための手段とをさらに備える、C18に記載のデバイス。
[C29] 前記重み付けするための手段が、前記第1のオーディオオブジェクトの前記データ構成要素と前記第1のビデオオブジェクトの前記データ構成要素とを平均化するための手段を備える、C28に記載のデバイス。
[C30] 前記第1の比較と前記第2の比較とのうちの1つまたは複数に基づいて異なるビット数を割り当てるための手段をさらに備える、C18に記載のデバイス。
[C31] 実行されたとき、デバイスの1つまたは複数のプロセッサに、
1つまたは複数のオーディオオブジェクトを識別するために、前記デバイスによってキャプチャされたオーディオデータを解析させ、
1つまたは複数のビデオオブジェクトを識別するために、前記オーディオデータの前記キャプチャと同時に前記デバイスによってキャプチャされたビデオデータを解析させ、
前記1つまたは複数のオーディオオブジェクトのうちの少なくとも1つを、前記1つまたは複数のビデオオブジェクトのうちの少なくとも1つと関連付けさせ、
前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つとの前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記関連付けに基づいて、前記オーディオデータからマルチチャネルオーディオデータを生成させる命令が記憶される非一時的コンピュータ可読記憶媒体。
Claims (28)
- マルチチャネルオーディオデータを生成する方法であって、
デバイスによってキャプチャされたオーディオデータを解析することであって、ここにおいて、前記オーディオデータを解析することは、1つまたは複数のオーディオオブジェクトを識別し、前記1つまたは複数のオーディオオブジェクトを記述するオーディオメタデータを生成するために前記オーディオデータの聴覚的シーン解析を行うことを備える、解析することと、
前記オーディオデータの前記キャプチャと同時に前記デバイスによってキャプチャされたビデオデータを解析することであって、ここにおいて、前記ビデオデータを解析することは、1つまたは複数のビデオオブジェクトを識別し、前記1つまたは複数のビデオオブジェクトを記述するビデオメタデータを生成するために前記ビデオデータの視覚的シーン解析を行うことを備え、前記オーディオメタデータと前記ビデオメタデータとが共通のテキストフォーマットを使用する、解析することと、
前記1つまたは複数のオーディオオブジェクトのうちの少なくとも1つを前記1つまたは複数のビデオオブジェクトのうちの少なくとも1つと関連付けることと、
前記オーディオオブジェクトのうちの前記少なくとも1つをレンダリングするとき、前記オーディオオブジェクトのうちの前記少なくとも1つを記述する前記オーディオメタデータと前記ビデオオブジェクトのうちの前記関連付けられている1つを記述する前記ビデオメタデータとの間の相関のレベルに基づいて前記オーディオオブジェクトの前記少なくとも1つの拡散性を少なくとも部分的に調整することによって、前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つとの前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記関連付けに基づいて、前記オーディオデータから前記マルチチャネルオーディオデータを生成することと
を備える方法。 - 前記オーディオメタデータは、対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの1つまたは複数を備え、
前記ビデオメタデータは、前記対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの1つまたは複数を備える、請求項1に記載の方法。 - 前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つを前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つと関連付けることは、
前記1つまたは複数のオーディオオブジェクトの各々を、あるタイプのオーディオオブジェクトとして分類することと、
前記1つまたは複数のビデオオブジェクトの各々を、あるタイプのビデオオブジェクトとして分類することと、
前記オーディオオブジェクトのうちの前記少なくとも1つの前記タイプが前記ビデオオブジェクトのうちの前記少なくとも1つと同じタイプであることを決定することと、
前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記タイプが前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つと同じタイプであることの前記決定に応答して、前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つを前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つと関連付けることとを備える、請求項1に記載の方法。 - 前記マルチチャネルオーディオデータを生成することは、
前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記オーディオメタデータと前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つと関連付けられている前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つの前記ビデオメタデータとの間の前記相関のレベルを決定することと、
前記決定された相関のレベルに基づいて、前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つが関連付けられている前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つに関する複合メタデータを生成することと、
前記相関のレベルに基づいて、前記オーディオオブジェクトのうちの前記少なくとも1つの前記拡散性を調整することと、
前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つに関して生成された前記複合メタデータに基づいて、前記マルチチャネルオーディオデータの1つまたは複数の前景チャネル内に前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つをレンダリングすることとを備える、請求項1に記載の方法。 - 前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つは、前記1つまたは複数のオーディオオブジェクトのうちの第1のものを備え、
前記方法は、さらに、前記1つまたは複数のオーディオオブジェクトのうちの第2のものが前記1つまたは複数のビデオオブジェクトのうちのいずれにも関連付けられていないことを決定することを備え、
前記マルチチャネルオーディオデータを生成することは、前記オーディオオブジェクトのうちの前記第2のものが前記マルチチャネルオーディオデータの1つまたは複数の背景チャネル内で発生するように、前記マルチチャネルオーディオデータを生成することを備える、請求項1に記載の方法。 - 前記マルチチャネルオーディオデータを生成することは、前記オーディオオブジェクトのうちの前記第2のものが前記マルチチャネルオーディオデータの前記1つまたは複数の背景チャネル内で拡散したオーディオオブジェクトとして発生するように、前記マルチチャネルオーディオデータを生成することを備える、請求項5に記載の方法。
- 前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つは、前記1つまたは複数のビデオオブジェクトのうちの第1のものを備え、
前記方法は、さらに、
前記ビデオオブジェクトのうちの前記1つまたは複数のうちの第2のものが前記1つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定することと、
前記ビデオオブジェクトのうちの前記1つまたは複数のうちの前記第2のものが前記1つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定することに応答して、前記1つまたは複数のビデオオブジェクトのうちの前記第2のものに関連付けられているであろう基準オーディオオブジェクトをオーディオライブラリから取得することと、
前記マルチチャネルオーディオデータの少なくとも一部を生成するために、前記1つまたは複数のビデオオブジェクトのうちの前記第2のものに基づいて前記基準オーディオオブジェクトをレンダリングすることとを備える、請求項1に記載の方法。 - 前記オーディオメタデータは、前記ビデオメタデータを定義するために使用されるテキストフォーマットと共通のテキストフォーマットで定義される、請求項1に記載の方法。
- 前記マルチチャネルオーディオデータを生成することは、
前記オーディオオブジェクトのうちの前記少なくとも1つを記述する前記オーディオメタデータと前記ビデオオブジェクトのうちの前記関連付けられている1つを記述する前記ビデオメタデータとの間の百分率差の関数として前記相関のレベルを決定することと、
前記決定された相関のレベルが信頼区間の外側にあるとき、前記マルチチャネルオーディオデータの複数のチャネルにまたがって広がる、拡散するオーディオオブジェクトとして前記オーディオオブジェクトのうちの前記少なくとも1つをレンダリングすることとを備える、請求項1に記載の方法。 - 携帯電話上で行われる、請求項1に記載の方法。
- 実行されたとき、デバイスの1つまたは複数のプロセッサに、
前記デバイスによってキャプチャされたオーディオデータを解析することであって、ここにおいて、前記オーディオデータを解析することは、1つまたは複数のオーディオオブジェクトを識別し、前記1つまたは複数のオーディオオブジェクトを記述するオーディオメタデータを生成するために前記オーディオデータの聴覚的シーン解析を行うことを備える、解析することと、
前記オーディオデータの前記キャプチャと同時に前記デバイスによってキャプチャされたビデオデータを解析することであって、前記ビデオデータを解析することは、1つまたは複数のビデオオブジェクトを識別し、前記1つまたは複数のビデオオブジェクトを記述するビデオメタデータを生成するために前記ビデオデータの視覚的シーン解析を行うことを備え、前記オーディオメタデータと前記ビデオメタデータとが共通のテキストフォーマットを使用する、解析することと、
前記1つまたは複数のオーディオオブジェクトのうちの少なくとも1つを前記1つまたは複数のビデオオブジェクトのうちの少なくとも1つと関連付けることと、
前記オーディオオブジェクトのうちの前記少なくとも1つをレンダリングするとき、前記オーディオオブジェクトのうちの前記少なくとも1つを記述する前記オーディオメタデータと前記ビデオオブジェクトのうちの前記関連付けられている1つを記述する前記ビデオメタデータとの間の相関のレベルに基づいて前記オーディオオブジェクトの前記少なくとも1つの拡散性を少なくとも部分的に調整することによって、前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つとの前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記関連付けに基づいて、前記オーディオデータからマルチチャネルオーディオデータを生成することとをさせる命令が記憶された非一時的コンピュータ可読記憶媒体。 - マルチチャネルオーディオデータを生成するように構成されるデバイスであって、
オーディオデータを記憶するように構成されるメモリと、
前記オーディオデータを、オーディオオブジェクトを識別し、前記オーディオオブジェクトを記述するオーディオメタデータを生成するために前記オーディオデータの聴覚的シーン解析を少なくとも部分的に行うことにより、解析し、ビデオデータを、ビデオオブジェクトを識別し、前記ビデオオブジェクトを記述するビデオメタデータを生成するために前記ビデオデータの視覚的シーン解析を少なくとも部分的に行うことにより解析し、前記オーディオオブジェクトと前記ビデオオブジェクトとを関連付け、前記オーディオオブジェクトのうちの前記少なくとも1つをレンダリングするとき、前記オーディオオブジェクトを記述する前記オーディオメタデータと前記ビデオオブジェクトを記述する前記ビデオメタデータとの間の相関のレベルに基づいて前記オーディオオブジェクトの前記少なくとも1つの拡散性を少なくとも部分的に調整することによって、前記ビデオオブジェクトへの前記オーディオオブジェクトの前記関連付けに基づいて、前記オーディオデータから前記マルチチャネルオーディオデータを生成するように構成される1つまたは複数のプロセッサと
を備えるデバイス。 - 前記オーディオメタデータは、前記オーディオオブジェクトのサイズと前記オーディオオブジェクトの位置とを備える、請求項12に記載のデバイス。
- 前記ビデオメタデータは、前記ビデオオブジェクトのサイズと前記ビデオオブジェクトの位置とを備える、請求項12に記載のデバイス。
- 前記1つまたは複数のプロセッサは、サイズと位置とのうちの1つまたは複数を備える複合メタデータを少なくとも部分的に生成するように構成される、請求項12に記載のデバイス。
- 前記オーディオメタデータは位置メタデータを含み、
前記ビデオメタデータは位置メタデータを含み、
前記複合メタデータを生成することは、
前記相関のレベルを決定するために、前記オーディオメタデータの前記位置メタデータを前記ビデオメタデータの前記位置メタデータと比較することと、
前記相関のレベルが信頼しきい値を超えているかどうかの決定に基づいて、前記複合メタデータの位置メタデータを生成することとを備える、請求項15に記載のデバイス。 - 前記オーディオオブジェクトは、第1のオーディオオブジェクトを備え、ここにおいて、前記ビデオオブジェクトは、第1のビデオオブジェクトを備え、ここにおいて、前記1つまたは複数のプロセッサは、
前記第1のオーディオオブジェクトのデータ構成要素と前記第1のビデオオブジェクトのデータ構成要素との第1の比較に基づいて、前記第1のビデオオブジェクトの相対物と関連付けられている前記第1のオーディオオブジェクトを識別することと、
第2のオーディオオブジェクトのデータ構成要素と第2のビデオオブジェクトのデータ構成要素との第2の比較に基づいて、前記第2のビデオオブジェクトの相対物と関連付けられていない前記第2のオーディオオブジェクトを識別することとを行うように構成され、
ここにおいて、前記プロセッサは、さらに
第1のゾーン内に前記第1のオーディオオブジェクトをレンダリングすることと、
第2のゾーン内に前記第2のオーディオオブジェクトをレンダリングすることと、
前記第1のゾーン内の前記レンダリングされた第1のオーディオオブジェクトと、前記第2のゾーン内の前記レンダリングされた第2のオーディオオブジェクトとを組み合わせることに基づいて前記オーディオ出力信号を生成することとを行うように構成される、
請求項12に記載のデバイス。 - 前記第1のオーディオオブジェクトの前記データ構成要素は位置とサイズとのうちの1つを備える、請求項17に記載のデバイス。
- 前記第1のビデオオブジェクトの前記データ構成要素は位置とサイズとのうちの1つを備える、請求項17に記載のデバイス。
- 前記第2のオーディオオブジェクトの前記データ構成要素は位置とサイズとのうちの1つを備える、請求項17に記載のデバイス。
- 前記第2のビデオオブジェクトの前記データ構成要素は位置とサイズとのうちの1つを備える、請求項17に記載のデバイス。
- 前記第1のゾーンおよび第2のゾーンは、オーディオ前景内の異なるゾーン、またはオーディオ背景内の異なるゾーンである、請求項17に記載のデバイス。
- 前記第1のゾーンおよび第2のゾーンは、オーディオ前景内の同じゾーン、またはオーディオ背景内の同じゾーンである、請求項17に記載のデバイス。
- 前記第1のゾーンはオーディオ前景内にあり、前記第2のゾーンはオーディオ背景内にある、請求項17に記載のデバイス。
- 前記第1のゾーンはオーディオ背景内にあり、前記第2のゾーンはオーディオ前景内にある、請求項17に記載のデバイス。
- 前記1つまたは複数のプロセッサは、
前記第1の比較が信頼区間の外部にあるかどうかを決定することと、
前記第1の比較が前記信頼区間の外部にあるかどうかの前記決定に基づいて、前記第1のオーディオオブジェクトの前記データ構成要素と前記第1のビデオオブジェクトの前記データ構成要素とを重み付けすることとを行うようにさらに構成される、請求項17に記載のデバイス。 - 前記1つまたは複数のプロセッサは、前記第1のオーディオオブジェクトデータの前記データ構成要素と前記第1のビデオオブジェクトの前記データ構成要素とを平均化するように構成される、請求項26に記載のデバイス。
- 前記1つまたは複数のプロセッサは、前記第1の比較と前記第2の比較とのうちの1つまたは複数に基づいて異なるビット数を割り当てるようにさらに構成される、請求項17に記載のデバイス。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361765556P | 2013-02-15 | 2013-02-15 | |
US61/765,556 | 2013-02-15 | ||
US13/831,018 US9338420B2 (en) | 2013-02-15 | 2013-03-14 | Video analysis assisted generation of multi-channel audio data |
US13/831,018 | 2013-03-14 | ||
PCT/US2014/016059 WO2014127019A1 (en) | 2013-02-15 | 2014-02-12 | Video analysis assisted generation of multi-channel audio data |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2016513410A JP2016513410A (ja) | 2016-05-12 |
JP2016513410A5 JP2016513410A5 (ja) | 2016-08-12 |
JP6039111B2 true JP6039111B2 (ja) | 2016-12-07 |
Family
ID=51351238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015558105A Expired - Fee Related JP6039111B2 (ja) | 2013-02-15 | 2014-02-12 | マルチチャネルオーディオデータのビデオ解析支援生成 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9338420B2 (ja) |
EP (1) | EP2956941A1 (ja) |
JP (1) | JP6039111B2 (ja) |
KR (1) | KR101761039B1 (ja) |
CN (1) | CN104995681B (ja) |
WO (1) | WO2014127019A1 (ja) |
Families Citing this family (72)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2549680B1 (en) * | 2010-03-16 | 2019-05-01 | Samsung Electronics Co., Ltd | Content output system and codec information sharing method in same system |
US10326978B2 (en) | 2010-06-30 | 2019-06-18 | Warner Bros. Entertainment Inc. | Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning |
KR101619760B1 (ko) | 2013-03-28 | 2016-05-11 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 임의적 라우드스피커 배치들로의 겉보기 크기를 갖는 오디오 오브젝트들의 렌더링 |
US9883312B2 (en) | 2013-05-29 | 2018-01-30 | Qualcomm Incorporated | Transformed higher order ambisonics audio data |
US9466305B2 (en) * | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
EP3028273B1 (en) | 2013-07-31 | 2019-09-11 | Dolby Laboratories Licensing Corporation | Processing spatially diffuse or large audio objects |
US9137232B2 (en) * | 2014-01-14 | 2015-09-15 | Xerox Corporation | Method and system for controlling access to document data using augmented reality marker |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US9502045B2 (en) | 2014-01-30 | 2016-11-22 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
US9620137B2 (en) | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
US20160179803A1 (en) * | 2014-12-22 | 2016-06-23 | Rovi Guides, Inc. | Augmenting metadata using commonly available visual elements associated with media content |
WO2016114432A1 (ko) * | 2015-01-16 | 2016-07-21 | 삼성전자 주식회사 | 영상 정보에 기초하여 음향을 처리하는 방법, 및 그에 따른 디바이스 |
CN105989845B (zh) * | 2015-02-25 | 2020-12-08 | 杜比实验室特许公司 | 视频内容协助的音频对象提取 |
US9609383B1 (en) * | 2015-03-23 | 2017-03-28 | Amazon Technologies, Inc. | Directional audio for virtual environments |
US10176644B2 (en) * | 2015-06-07 | 2019-01-08 | Apple Inc. | Automatic rendering of 3D sound |
TWI736542B (zh) * | 2015-08-06 | 2021-08-21 | 日商新力股份有限公司 | 資訊處理裝置、資料配訊伺服器及資訊處理方法、以及非暫時性電腦可讀取之記錄媒體 |
US10762911B2 (en) * | 2015-12-01 | 2020-09-01 | Ati Technologies Ulc | Audio encoding using video information |
GB2545275A (en) * | 2015-12-11 | 2017-06-14 | Nokia Technologies Oy | Causing provision of virtual reality content |
KR20170106063A (ko) * | 2016-03-11 | 2017-09-20 | 가우디오디오랩 주식회사 | 오디오 신호 처리 방법 및 장치 |
US10979843B2 (en) * | 2016-04-08 | 2021-04-13 | Qualcomm Incorporated | Spatialized audio output based on predicted position data |
CN109564760A (zh) * | 2016-05-25 | 2019-04-02 | 华纳兄弟娱乐公司 | 通过3d音频定位来生成虚拟或增强现实呈现的方法和装置 |
CN117612539A (zh) * | 2016-05-30 | 2024-02-27 | 索尼公司 | 视频音频处理设备、视频音频处理方法和存储介质 |
US10074012B2 (en) | 2016-06-17 | 2018-09-11 | Dolby Laboratories Licensing Corporation | Sound and video object tracking |
CN106162447A (zh) * | 2016-06-24 | 2016-11-23 | 维沃移动通信有限公司 | 一种音频播放的方法和终端 |
US10445936B1 (en) * | 2016-08-01 | 2019-10-15 | Snap Inc. | Audio responsive augmented reality |
EP3324407A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
EP3324406A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
GB2557241A (en) * | 2016-12-01 | 2018-06-20 | Nokia Technologies Oy | Audio processing |
EP3343957B1 (en) | 2016-12-30 | 2022-07-06 | Nokia Technologies Oy | Multimedia content |
EP3343347A1 (en) * | 2016-12-30 | 2018-07-04 | Nokia Technologies Oy | Audio processing |
EP3343483A1 (en) | 2016-12-30 | 2018-07-04 | Spotify AB | System and method for providing a video with lyrics overlay for use in a social messaging environment |
US10659906B2 (en) | 2017-01-13 | 2020-05-19 | Qualcomm Incorporated | Audio parallax for virtual reality, augmented reality, and mixed reality |
CN108632551A (zh) * | 2017-03-16 | 2018-10-09 | 南昌黑鲨科技有限公司 | 基于深度学习的视频录摄方法、装置及终端 |
US10972859B2 (en) * | 2017-04-13 | 2021-04-06 | Sony Corporation | Signal processing apparatus and method as well as program |
WO2018198789A1 (ja) * | 2017-04-26 | 2018-11-01 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
EP3399398B1 (en) * | 2017-05-02 | 2022-04-13 | Nokia Technologies Oy | An apparatus and associated methods for presentation of spatial audio |
TWI687919B (zh) * | 2017-06-15 | 2020-03-11 | 宏達國際電子股份有限公司 | 音頻訊號處理方法、音頻定位系統以及非暫態電腦可讀取媒體 |
US10178490B1 (en) * | 2017-06-30 | 2019-01-08 | Apple Inc. | Intelligent audio rendering for video recording |
US11164606B2 (en) * | 2017-06-30 | 2021-11-02 | Qualcomm Incorporated | Audio-driven viewport selection |
US10224074B2 (en) * | 2017-07-12 | 2019-03-05 | Karl Storz Imaging, Inc. | Apparatus and methods for improving video quality from a digital video signal including replicated image frames |
WO2019067620A1 (en) | 2017-09-29 | 2019-04-04 | Zermatt Technologies Llc | SPEECH REDUCTION AUDIO MIXING |
CN111108760B (zh) * | 2017-09-29 | 2021-11-26 | 苹果公司 | 用于空间音频的文件格式 |
US10469968B2 (en) | 2017-10-12 | 2019-11-05 | Qualcomm Incorporated | Rendering for computer-mediated reality systems |
US10714144B2 (en) | 2017-11-06 | 2020-07-14 | International Business Machines Corporation | Corroborating video data with audio data from video content to create section tagging |
US11003676B2 (en) * | 2018-02-27 | 2021-05-11 | Sap Se | Software integration object linking data structures |
US11847773B1 (en) | 2018-04-27 | 2023-12-19 | Splunk Inc. | Geofence-based object identification in an extended reality environment |
EP3797529A1 (en) * | 2018-05-23 | 2021-03-31 | Koninklijke KPN N.V. | Adapting acoustic rendering to image-based object |
US11715302B2 (en) * | 2018-08-21 | 2023-08-01 | Streem, Llc | Automatic tagging of images using speech recognition |
US11012774B2 (en) | 2018-10-29 | 2021-05-18 | Apple Inc. | Spatially biased sound pickup for binaural video recording |
GB201818959D0 (en) * | 2018-11-21 | 2019-01-09 | Nokia Technologies Oy | Ambience audio representation and associated rendering |
US11115769B2 (en) | 2018-11-26 | 2021-09-07 | Raytheon Bbn Technologies Corp. | Systems and methods for providing a user with enhanced attitude awareness |
KR20200107758A (ko) | 2019-03-08 | 2020-09-16 | 엘지전자 주식회사 | 음향 객체 추종을 위한 방법 및 이를 위한 장치 |
CN111757240B (zh) * | 2019-03-26 | 2021-08-20 | 瑞昱半导体股份有限公司 | 音频处理方法与音频处理系统 |
CN111757239B (zh) * | 2019-03-28 | 2021-11-19 | 瑞昱半导体股份有限公司 | 音频处理方法与音频处理系统 |
US11030479B2 (en) * | 2019-04-30 | 2021-06-08 | Sony Interactive Entertainment Inc. | Mapping visual tags to sound tags using text similarity |
JP7285967B2 (ja) | 2019-05-31 | 2023-06-02 | ディーティーエス・インコーポレイテッド | フォービエイテッドオーディオレンダリング |
CN110381336B (zh) * | 2019-07-24 | 2021-07-16 | 广州飞达音响股份有限公司 | 基于5.1声道的视频片段情感判定方法、装置和计算机设备 |
US11276419B2 (en) | 2019-07-30 | 2022-03-15 | International Business Machines Corporation | Synchronized sound generation from videos |
US11356796B2 (en) | 2019-11-22 | 2022-06-07 | Qualcomm Incorporated | Priority-based soundfield coding for virtual reality audio |
KR20210072388A (ko) | 2019-12-09 | 2021-06-17 | 삼성전자주식회사 | 오디오 출력 장치 및 오디오 출력 장치의 제어 방법 |
US11823698B2 (en) * | 2020-01-17 | 2023-11-21 | Audiotelligence Limited | Audio cropping |
US11704087B2 (en) * | 2020-02-03 | 2023-07-18 | Google Llc | Video-informed spatial audio expansion |
US11755275B2 (en) * | 2020-06-29 | 2023-09-12 | Meta Platforms Technologies, Llc | Generating augmented reality experiences utilizing physical objects to represent analogous virtual objects |
CN111863002A (zh) * | 2020-07-06 | 2020-10-30 | Oppo广东移动通信有限公司 | 处理方法、处理装置、电子设备 |
CN111787464B (zh) * | 2020-07-31 | 2022-06-14 | Oppo广东移动通信有限公司 | 一种信息处理方法、装置、电子设备和存储介质 |
US11546692B1 (en) | 2020-08-19 | 2023-01-03 | Apple Inc. | Audio renderer based on audiovisual information |
US11521623B2 (en) | 2021-01-11 | 2022-12-06 | Bank Of America Corporation | System and method for single-speaker identification in a multi-speaker environment on a low-frequency audio recording |
CN113316078B (zh) * | 2021-07-30 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
WO2024059536A1 (en) * | 2022-09-13 | 2024-03-21 | Dolby Laboratories Licensing Corporation | Audio-visual analytic for object rendering in capture |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6829018B2 (en) * | 2001-09-17 | 2004-12-07 | Koninklijke Philips Electronics N.V. | Three-dimensional sound creation assisted by visual information |
EP2215858B2 (en) * | 2007-11-14 | 2020-07-22 | Sonova AG | Method and arrangement for fitting a hearing system |
US20100098258A1 (en) | 2008-10-22 | 2010-04-22 | Karl Ola Thorn | System and method for generating multichannel audio with a portable electronic device |
EP2380033B1 (en) * | 2008-12-16 | 2017-05-17 | Koninklijke Philips N.V. | Estimating a sound source location using particle filtering |
WO2010140254A1 (ja) | 2009-06-05 | 2010-12-09 | パイオニア株式会社 | 映像音声出力装置及び音声定位方法 |
US20120096353A1 (en) * | 2009-06-19 | 2012-04-19 | Dolby Laboratories Licensing Corporation | User-specific features for an upgradeable media kernel and engine |
CN102473172A (zh) | 2009-07-24 | 2012-05-23 | 数字标记公司 | 改进的音频/视频方法和系统 |
US8963987B2 (en) * | 2010-05-27 | 2015-02-24 | Microsoft Corporation | Non-linguistic signal detection and feedback |
US8755432B2 (en) * | 2010-06-30 | 2014-06-17 | Warner Bros. Entertainment Inc. | Method and apparatus for generating 3D audio positioning using dynamically optimized audio 3D space perception cues |
US8638951B2 (en) | 2010-07-15 | 2014-01-28 | Motorola Mobility Llc | Electronic apparatus for generating modified wideband audio signals based on two or more wideband microphone signals |
US8433076B2 (en) | 2010-07-26 | 2013-04-30 | Motorola Mobility Llc | Electronic apparatus for generating beamformed audio signals with steerable nulls |
US9031256B2 (en) | 2010-10-25 | 2015-05-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control |
US8855341B2 (en) * | 2010-10-25 | 2014-10-07 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for head tracking based on recorded sound signals |
US9552840B2 (en) | 2010-10-25 | 2017-01-24 | Qualcomm Incorporated | Three-dimensional sound capturing and reproducing with multi-microphones |
WO2012063103A1 (en) | 2010-11-12 | 2012-05-18 | Nokia Corporation | An Audio Processing Apparatus |
FR2974097B1 (fr) | 2011-04-14 | 2013-04-19 | Michelin Soc Tech | Composition de caoutchouc comprenant un derive de la thiazoline |
US20130162752A1 (en) * | 2011-12-22 | 2013-06-27 | Advanced Micro Devices, Inc. | Audio and Video Teleconferencing Using Voiceprints and Face Prints |
-
2013
- 2013-03-14 US US13/831,018 patent/US9338420B2/en not_active Expired - Fee Related
-
2014
- 2014-02-12 KR KR1020157024128A patent/KR101761039B1/ko active IP Right Grant
- 2014-02-12 EP EP14708999.9A patent/EP2956941A1/en not_active Withdrawn
- 2014-02-12 JP JP2015558105A patent/JP6039111B2/ja not_active Expired - Fee Related
- 2014-02-12 CN CN201480008260.1A patent/CN104995681B/zh not_active Expired - Fee Related
- 2014-02-12 WO PCT/US2014/016059 patent/WO2014127019A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
KR101761039B1 (ko) | 2017-08-04 |
CN104995681A (zh) | 2015-10-21 |
WO2014127019A1 (en) | 2014-08-21 |
JP2016513410A (ja) | 2016-05-12 |
KR20150117693A (ko) | 2015-10-20 |
CN104995681B (zh) | 2017-10-31 |
US20140233917A1 (en) | 2014-08-21 |
EP2956941A1 (en) | 2015-12-23 |
US9338420B2 (en) | 2016-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6039111B2 (ja) | マルチチャネルオーディオデータのビデオ解析支援生成 | |
US11531518B2 (en) | System and method for differentially locating and modifying audio sources | |
CN109644314B (zh) | 渲染声音程序的方法、音频回放系统和制造制品 | |
JP6336968B2 (ja) | 呼中における三次元サウンド圧縮及びオーバー・ザ・エア送信 | |
US20180338213A1 (en) | VR Audio Superzoom | |
US11567729B2 (en) | System and method for playing audio data on multiple devices | |
US20130106997A1 (en) | Apparatus and method for generating three-dimension data in portable terminal | |
US10728689B2 (en) | Soundfield modeling for efficient encoding and/or retrieval | |
US12010490B1 (en) | Audio renderer based on audiovisual information | |
US9832587B1 (en) | Assisted near-distance communication using binaural cues | |
US9756421B2 (en) | Audio refocusing methods and electronic devices utilizing the same | |
CN113853529A (zh) | 用于空间音频捕获的装置和相关方法 | |
WO2023231787A1 (zh) | 音频处理方法和装置 | |
US11483669B2 (en) | Spatial audio parameters | |
US11902754B2 (en) | Audio processing method, apparatus, electronic device and storage medium | |
CN114631332A (zh) | 比特流中音频效果元数据的信令 | |
US20240179488A1 (en) | Audio zooming | |
CN116320144B (zh) | 一种音频播放方法及电子设备、可读存储介质 | |
EP3588986A1 (en) | An apparatus and associated methods for presentation of audio | |
CN117636928A (zh) | 一种拾音装置及相关音频增强方法 | |
CN117014785A (zh) | 一种音频播放方法及相关装置 | |
CN115706895A (zh) | 使用多个换能器的沉浸式声音再现 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160622 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160622 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20160622 |
|
TRDD | Decision of grant or rejection written | ||
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20160930 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161102 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6039111 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |