JP7464730B2 - ビデオ情報に基づく空間オーディオ拡張 - Google Patents
ビデオ情報に基づく空間オーディオ拡張 Download PDFInfo
- Publication number
- JP7464730B2 JP7464730B2 JP2022547129A JP2022547129A JP7464730B2 JP 7464730 B2 JP7464730 B2 JP 7464730B2 JP 2022547129 A JP2022547129 A JP 2022547129A JP 2022547129 A JP2022547129 A JP 2022547129A JP 7464730 B2 JP7464730 B2 JP 7464730B2
- Authority
- JP
- Japan
- Prior art keywords
- audio
- auditory
- video frame
- auditory event
- audio segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 161
- 230000000007 visual effect Effects 0.000 claims description 132
- 239000013598 vector Substances 0.000 claims description 26
- 238000000926 separation method Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 description 14
- 238000013459 approach Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 208000023514 Barrett esophagus Diseases 0.000 description 4
- 206010011469 Crying Diseases 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 241000405217 Viola <butterfly> Species 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004091 panning Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 229910001369 Brass Inorganic materials 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000010951 brass Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013497 data interchange Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
- H04S5/005—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation of the pseudo five- or more-channel type, e.g. virtual surround
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Image Analysis (AREA)
Description
のモノラルダウンミックスを含む。したがって、たとえば、スマートフォンなどのハンドヘルドデバイスを使用してビデオに付随するオーディオをレコーディングする場合、通常、すべての聴覚空間情報が回復不能に失われる。また、モノラルレコーディングはすでに指向性音源と非指向性音源が混在しているため、オブジェクトベースの手法において使用することができない。
102 ビデオ
104 オーディオ
106 オーディオ分類装置
108 オブジェクト認識装置
110 マッチャ
112 オーディオ空間化装置
114 拡散フィールドシンセサイザ
200 技法
202 ビデオ
204 オーディオトラック
206 ビデオフレーム
208 オーディオ分類
210 オブジェクト分類
212 一致
214 空間情報
300 技法
400 技法
500 技法
600 ユーザインターフェース
602 オーディオセグメント
604 ラベル
606 音源
608 音源
610 音源
612 確実性指標
614 スペクトログラム
700 例
702 フレーム
704 リスト
706 境界ポリゴン
708 リスト
710 データ構造
712 境界ポリゴン
714 ラベル
716 境界ポリゴン
718 ラベル
800 技法
801 ビデオ
802 ビデオフレーム
804 視覚オブジェクト
806 オーディオセグメント
808 音源分離モジュール
810 聴覚オブジェクト
812 残留オーディオ信号
814 自動一致
816 手動一致
818 オーディオ残留
819 空間情報
820 オーディオ空間化装置
822 拡散フィールドシンセサイザ
824 オーディオ出力
900 技法
1000 技法
1100 技法
Claims (18)
- 空間情報をオーディオセグメントに割り当てるコンピュータ実装方法であって、
非空間化されており、第1のビデオフレームに関連付けられている、第1のオーディオセグメントを受信するステップと、
前記第1のビデオフレームにおいて視覚オブジェクトを識別するステップと、
前記第1のオーディオセグメントにおいて聴覚イベントを識別するステップと、
前記視覚オブジェクトのうちのある視覚オブジェクトと前記聴覚イベントのうちのある聴覚イベントとの間の一致を識別するステップと、
前記ある視覚オブジェクトの位置に基づいて、空間的位置を前記ある聴覚イベントに割り当てるステップと
を備える、方法であって、前記方法は、
第2のオーディオセグメントを受信するステップであって、前記第2のオーディオセグメントが前記ある聴覚イベントを含む、ステップと、
第2のビデオフレームを受信するステップであって、前記第2のビデオフレームが前記ある視覚オブジェクトを含まない、ステップと、
前記第1のビデオフレームの少なくともサブセットに少なくとも部分的に基づいて前記ある視覚オブジェクトの動きベクトルを決定するステップと、
前記動きベクトルに基づいて、周囲空間的位置を前記聴覚イベントのうちの前記ある聴覚イベントに割り当てるステップと
をさらに備える、方法。 - 空間情報をオーディオセグメントに割り当てるコンピュータ実装方法であって、
非空間化されており、第1のビデオフレームに関連付けられている、第1のオーディオセグメントを受信するステップと、
前記第1のビデオフレームにおいて視覚オブジェクトを識別するステップと、
前記第1のオーディオセグメントにおいて聴覚イベントを識別するステップと、
前記視覚オブジェクトのうちのある視覚オブジェクトと前記聴覚イベントのうちのある聴覚イベントとの間の一致を識別するステップと、
前記ある視覚オブジェクトの位置に基づいて、空間的位置を前記ある聴覚イベントに割り当てるステップと
を備える、方法であって、
第2のオーディオセグメントを受信するステップであって、前記第2のオーディオセグメントが前記ある聴覚イベントを含む、ステップと、
第2のビデオフレームを受信するステップであって、前記第2のビデオフレームが前記ある視覚オブジェクトを含まない、ステップと、
前記第1のビデオフレームと前記第2のビデオフレームとの間の時間差に基づいて、周囲空間的位置または拡散位置のうちの1つを前記ある聴覚イベントに割り当てるステップと
をさらに備える、方法。 - 一致しない聴覚イベントを識別するステップであって、前記一致しない聴覚イベントが、前記第1のビデオフレームにおいて識別された視覚オブジェクトと一致しない、ステップと、
前記一致しない聴覚イベントをユーザインターフェースにおいて提示するステップと
をさらに備える、請求項1または2に記載の方法。 - ユーザから、前記第1のビデオフレームにおいて識別された前記視覚オブジェクトのうちの別の視覚オブジェクトへの前記一致しない聴覚イベントの割当てを受信するステップをさらに備える、請求項3に記載の方法。
- ユーザから、前記一致しない聴覚イベントを拡散音として割り当てるための指示を受信するステップをさらに備える、請求項3に記載の方法。
- ユーザから、前記一致しない聴覚イベントを指向性音として割り当てるための指示、および前記一致しない聴覚イベントの空間方向を受信するステップをさらに備える、請求項3に記載の方法。
- 前記第1のビデオフレームが全天球ビデオのフレームである、または、
前記第1のオーディオセグメントがモノラルである、請求項1から6のいずれか一項に記載の方法。 - 前記第1のオーディオセグメントにおける前記聴覚イベントを識別するステップが、
前記第1のオーディオセグメントを複数のトラックに分解することによって前記第1のオーディオセグメントにおける前記聴覚イベントを識別するために、ブラインド音源分離を使用するステップであって、各トラックがそれぞれの聴覚イベントに対応する、ステップを備える、請求項1から7のいずれか一項に記載の方法。 - 前記第1のビデオフレームにおける前記視覚オブジェクトを識別するステップが、
前記第1のビデオフレームにおける前記視覚オブジェクトを識別するために、画像認識を使用するステップを備える、請求項1から8のいずれか一項に記載の方法。 - 前記聴覚イベントのうちの前記ある聴覚イベント、および前記ある聴覚イベントの前記空間的位置を備えるオーディオ出力を生成するステップをさらに備える、請求項1から9のいずれか一項に記載の方法。
- 第2のオーディオセグメントを受信するステップであって、前記第2のオーディオセグメントが前記ある聴覚イベントを含む、ステップと、
第2のビデオフレームを受信するステップであって、前記第2のビデオフレームが前記ある視覚オブジェクトを含まない、ステップと、
前記第1のビデオフレームと前記第2のビデオフレームとの間の時間差に基づいて、周囲空間的位置または拡散位置のうちの1つを前記ある聴覚イベントに割り当てるステップと
をさらに備える、請求項1または、請求項3から10のいずれか一項に記載の方法。 - 前記第1のビデオフレームにおける前記視覚オブジェクトを識別するステップが、それぞれの視覚ラベルを、前記第1のビデオフレームにおける視覚オブジェクトに割り当てるステップを備え、
前記第1のオーディオセグメントにおける前記聴覚イベントを識別するステップが、
前記第1のオーディオセグメントを複数のトラックに分割するステップと、
それぞれのオーディオラベルを複数のトラックに割り当てるステップと
を備え、
前記視覚オブジェクトのうちの前記ある視覚オブジェクトと前記聴覚イベントのうちの前記ある聴覚イベントとの間の前記一致を識別するステップが、前記それぞれのオーディオラベルのうちのいくつかを前記視覚ラベルのうちのいくつかに自動的に一致させるステップを備える、請求項1または2に記載の方法。 - 空間情報をオーディオセグメントに割り当てるための装置であって、
非空間化されており、第1のビデオフレームに関連付けられている、第1のオーディオセグメントを受信することと、
前記第1のビデオフレームにおいて視覚オブジェクトを識別することと、
前記第1のオーディオセグメントにおいて聴覚イベントを識別することと、
前記視覚オブジェクトのうちのある視覚オブジェクトと前記聴覚イベントのうちのある聴覚イベントとの間の一致を識別することに応答して、空間情報を前記ある聴覚イベントに割り当てることと、
前記一致を識別しないことに応答して、前記ある聴覚イベントを拡散音場に割り当てることと
を行うように構成されたプロセッサを備え、前記プロセッサは、
第2のオーディオセグメントを受信することであって、前記第2のオーディオセグメントが前記ある聴覚イベントを含む、ことと、
第2のビデオフレームを受信することであって、前記第2のビデオフレームが前記ある視覚オブジェクトを含まない、ことと、
前記第1のビデオフレームの少なくともサブセットに少なくとも部分的に基づいて前記ある視覚オブジェクトの動きベクトルを決定することと、
前記動きベクトルに基づいて、周囲空間的位置を前記聴覚イベントのうちの前記ある聴覚イベントに割り当てることと
をさらに行うように構成されている、装置。 - 前記空間情報を前記ある聴覚イベントに割り当てることが、
前記ある視覚オブジェクトの位置に基づいて、空間的位置を前記ある聴覚イベントに割り当てることを備える、請求項13に記載の装置。 - 前記空間的位置が、前記ある視覚オブジェクトの境界ポリゴンの中心に対応する、請求項14に記載の装置。
- 前記プロセッサが、
前記ある聴覚イベント、および前記ある聴覚イベントの前記空間的位置を含むオーディオファイルを生成するように構成される、請求項14または15に記載の装置。 - 前記プロセッサが、
前記ある聴覚イベントおよび前記ある聴覚イベントに関連する拡散音情報を含むオーディオファイルを生成するように構成される、請求項13に記載の装置。 - 請求項1から12のいずれか一項に記載の方法を実行するように構成されたプロセッサを備える、装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/779,921 US11704087B2 (en) | 2020-02-03 | 2020-02-03 | Video-informed spatial audio expansion |
US16/779,921 | 2020-02-03 | ||
PCT/US2020/055964 WO2021158268A1 (en) | 2020-02-03 | 2020-10-16 | Video-informed spatial audio expansion |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023514121A JP2023514121A (ja) | 2023-04-05 |
JP7464730B2 true JP7464730B2 (ja) | 2024-04-09 |
Family
ID=73198490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022547129A Active JP7464730B2 (ja) | 2020-02-03 | 2020-10-16 | ビデオ情報に基づく空間オーディオ拡張 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11704087B2 (ja) |
EP (1) | EP4055596A1 (ja) |
JP (1) | JP7464730B2 (ja) |
KR (1) | KR20220116502A (ja) |
CN (1) | CN114981889A (ja) |
WO (1) | WO2021158268A1 (ja) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030053680A1 (en) | 2001-09-17 | 2003-03-20 | Koninklijke Philips Electronics N.V. | Three-dimensional sound creation assisted by visual information |
JP2006123161A (ja) | 2004-09-30 | 2006-05-18 | Samsung Electronics Co Ltd | 位置把握、追跡および分離のためのオーディオビデオセンサー融合装置および融合方法 |
JP2007272733A (ja) | 2006-03-31 | 2007-10-18 | Sony Corp | 画像処理装置および方法、並びにプログラム |
JP2010117946A (ja) | 2008-11-13 | 2010-05-27 | Masafumi Hagiwara | オブジェクト追尾方法および画像処理装置 |
JP2011071683A (ja) | 2009-09-25 | 2011-04-07 | Nec Corp | 映像オブジェクト検出装置、映像オブジェクト検出方法及びプログラム |
US20140314391A1 (en) | 2013-03-18 | 2014-10-23 | Samsung Electronics Co., Ltd. | Method for displaying image combined with playing audio in an electronic device |
JP2015032001A (ja) | 2013-07-31 | 2015-02-16 | キヤノン株式会社 | 情報処理装置および情報処理手法、プログラム |
JP2016513410A (ja) | 2013-02-15 | 2016-05-12 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | マルチチャネルオーディオデータのビデオ解析支援生成 |
JP2016062071A5 (ja) | 2014-09-22 | 2017-10-19 | ||
JP2019050482A (ja) | 2017-09-08 | 2019-03-28 | オリンパス株式会社 | 情報取得機器、表示方法およびプログラム |
JP2019078864A (ja) | 2017-10-24 | 2019-05-23 | 日本電信電話株式会社 | 楽音強調装置、畳み込みオートエンコーダ学習装置、楽音強調方法、プログラム |
JP2019523902A (ja) | 2016-05-25 | 2019-08-29 | ワーナー ブラザーズ エンターテイメント インコーポレイテッド | 3d音声ポジショニングを用いて仮想現実又は拡張現実のプレゼンテーションを生成するための方法及び装置 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2414369B (en) * | 2004-05-21 | 2007-08-01 | Hewlett Packard Development Co | Processing audio data |
US8755432B2 (en) | 2010-06-30 | 2014-06-17 | Warner Bros. Entertainment Inc. | Method and apparatus for generating 3D audio positioning using dynamically optimized audio 3D space perception cues |
US8761412B2 (en) * | 2010-12-16 | 2014-06-24 | Sony Computer Entertainment Inc. | Microphone array steering with image-based source location |
WO2012094338A1 (en) * | 2011-01-04 | 2012-07-12 | Srs Labs, Inc. | Immersive audio rendering system |
US9888333B2 (en) * | 2013-11-11 | 2018-02-06 | Google Technology Holdings LLC | Three-dimensional audio rendering techniques |
US10492014B2 (en) * | 2014-01-09 | 2019-11-26 | Dolby Laboratories Licensing Corporation | Spatial error metrics of audio content |
US9282399B2 (en) * | 2014-02-26 | 2016-03-08 | Qualcomm Incorporated | Listen to people you recognize |
US9570113B2 (en) * | 2014-07-03 | 2017-02-14 | Gopro, Inc. | Automatic generation of video and directional audio from spherical content |
JP6392051B2 (ja) * | 2014-09-22 | 2018-09-19 | 株式会社東芝 | 電子機器、方法およびプログラム |
US9756421B2 (en) * | 2016-01-22 | 2017-09-05 | Mediatek Inc. | Audio refocusing methods and electronic devices utilizing the same |
US20170293461A1 (en) * | 2016-04-07 | 2017-10-12 | VideoStitch Inc. | Graphical placement of immersive audio sources |
CN109313904B (zh) * | 2016-05-30 | 2023-12-08 | 索尼公司 | 视频音频处理设备和方法以及存储介质 |
GB2562036A (en) * | 2017-04-24 | 2018-11-07 | Nokia Technologies Oy | Spatial audio processing |
EP3503592B1 (en) * | 2017-12-19 | 2020-09-16 | Nokia Technologies Oy | Methods, apparatuses and computer programs relating to spatial audio |
US10649638B2 (en) * | 2018-02-06 | 2020-05-12 | Adobe Inc. | Immersive media content navigation and editing techniques |
-
2020
- 2020-02-03 US US16/779,921 patent/US11704087B2/en active Active
- 2020-10-16 KR KR1020227024392A patent/KR20220116502A/ko not_active Application Discontinuation
- 2020-10-16 WO PCT/US2020/055964 patent/WO2021158268A1/en unknown
- 2020-10-16 EP EP20804076.6A patent/EP4055596A1/en not_active Withdrawn
- 2020-10-16 JP JP2022547129A patent/JP7464730B2/ja active Active
- 2020-10-16 CN CN202080091396.9A patent/CN114981889A/zh active Pending
-
2023
- 2023-06-01 US US18/327,134 patent/US20230305800A1/en active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030053680A1 (en) | 2001-09-17 | 2003-03-20 | Koninklijke Philips Electronics N.V. | Three-dimensional sound creation assisted by visual information |
JP2006123161A (ja) | 2004-09-30 | 2006-05-18 | Samsung Electronics Co Ltd | 位置把握、追跡および分離のためのオーディオビデオセンサー融合装置および融合方法 |
JP2007272733A (ja) | 2006-03-31 | 2007-10-18 | Sony Corp | 画像処理装置および方法、並びにプログラム |
JP2010117946A (ja) | 2008-11-13 | 2010-05-27 | Masafumi Hagiwara | オブジェクト追尾方法および画像処理装置 |
JP2011071683A (ja) | 2009-09-25 | 2011-04-07 | Nec Corp | 映像オブジェクト検出装置、映像オブジェクト検出方法及びプログラム |
JP2016513410A (ja) | 2013-02-15 | 2016-05-12 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | マルチチャネルオーディオデータのビデオ解析支援生成 |
US20140314391A1 (en) | 2013-03-18 | 2014-10-23 | Samsung Electronics Co., Ltd. | Method for displaying image combined with playing audio in an electronic device |
JP2015032001A (ja) | 2013-07-31 | 2015-02-16 | キヤノン株式会社 | 情報処理装置および情報処理手法、プログラム |
JP2016062071A5 (ja) | 2014-09-22 | 2017-10-19 | ||
JP2019523902A (ja) | 2016-05-25 | 2019-08-29 | ワーナー ブラザーズ エンターテイメント インコーポレイテッド | 3d音声ポジショニングを用いて仮想現実又は拡張現実のプレゼンテーションを生成するための方法及び装置 |
JP2019050482A (ja) | 2017-09-08 | 2019-03-28 | オリンパス株式会社 | 情報取得機器、表示方法およびプログラム |
JP2019078864A (ja) | 2017-10-24 | 2019-05-23 | 日本電信電話株式会社 | 楽音強調装置、畳み込みオートエンコーダ学習装置、楽音強調方法、プログラム |
Also Published As
Publication number | Publication date |
---|---|
KR20220116502A (ko) | 2022-08-23 |
EP4055596A1 (en) | 2022-09-14 |
US11704087B2 (en) | 2023-07-18 |
US20230305800A1 (en) | 2023-09-28 |
WO2021158268A1 (en) | 2021-08-12 |
CN114981889A (zh) | 2022-08-30 |
US20210240431A1 (en) | 2021-08-05 |
JP2023514121A (ja) | 2023-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | 2.5 d visual sound | |
Morgado et al. | Self-supervised generation of spatial audio for 360 video | |
US11887578B2 (en) | Automatic dubbing method and apparatus | |
Zhou et al. | Sep-stereo: Visually guided stereophonic audio generation by associating source separation | |
US12073850B2 (en) | Data driven audio enhancement | |
Yang et al. | Telling left from right: Learning spatial correspondence of sight and sound | |
CN112425157B (zh) | 信息处理装置和方法以及程序 | |
JP7116424B2 (ja) | 画像に応じて音オブジェクトを混合するプログラム、装置及び方法 | |
US11212637B2 (en) | Complementary virtual audio generation | |
JP2011071685A (ja) | 映像音響処理システム、映像音響処理方法及びプログラム | |
JP2013171089A (ja) | 音声補正装置、方法、及びプログラム | |
US10153002B2 (en) | Selection of an audio stream of a video for enhancement using images of the video | |
Wang et al. | Self-supervised learning of audio representations from audio-visual data using spatial alignment | |
JP7464730B2 (ja) | ビデオ情報に基づく空間オーディオ拡張 | |
CN112995530A (zh) | 视频的生成方法、装置及设备 | |
Sato et al. | Self-Supervised Learning for Audio-Visual Relationships of Videos with Stereo Sounds | |
JP2014195267A (ja) | 映像音響処理システム、映像音響処理方法及びプログラム | |
CN115567670B (zh) | 会议检视方法及装置 | |
US20230308823A1 (en) | Systems and Methods for Upmixing Audiovisual Data | |
Lv et al. | A TCN-based primary ambient extraction in generating ambisonics audio from Panorama Video | |
WO2024175623A1 (en) | Electronic device, method, and computer program | |
Dimoulas et al. | Spatial audio content management within the MPEG-7 standard of ambisonic localization and visualization descriptions | |
GB2601114A (en) | Audio processing system and method | |
CN117099159A (zh) | 信息处理装置、信息处理方法和程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220802 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220802 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230904 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240304 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240328 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7464730 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |