JP2016513410A5 - - Google Patents

Download PDF

Info

Publication number
JP2016513410A5
JP2016513410A5 JP2015558105A JP2015558105A JP2016513410A5 JP 2016513410 A5 JP2016513410 A5 JP 2016513410A5 JP 2015558105 A JP2015558105 A JP 2015558105A JP 2015558105 A JP2015558105 A JP 2015558105A JP 2016513410 A5 JP2016513410 A5 JP 2016513410A5
Authority
JP
Japan
Prior art keywords
audio
video
objects
data
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015558105A
Other languages
English (en)
Other versions
JP6039111B2 (ja
JP2016513410A (ja
Filing date
Publication date
Priority claimed from US13/831,018 external-priority patent/US9338420B2/en
Application filed filed Critical
Publication of JP2016513410A publication Critical patent/JP2016513410A/ja
Publication of JP2016513410A5 publication Critical patent/JP2016513410A5/ja
Application granted granted Critical
Publication of JP6039111B2 publication Critical patent/JP6039111B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (28)

  1. マルチチャネルオーディオデータを生成する方法であって、
    デバイスによってキャプチャされたオーディオデータを解析することであって、ここにおいて、前記オーディオデータを解析することは、1つまたは複数のオーディオオブジェクトを識別し、前記1つまたは複数のオーディオオブジェクトを記述するオーディオメタデータを生成するために前記オーディオデータの聴覚的シーン解析を行うことを備える、解析することと、
    前記オーディオデータの前記キャプチャと同時に前記デバイスによってキャプチャされたビデオデータを解析することであって、ここにおいて、前記ビデオデータを解析することは、1つまたは複数のビデオオブジェクトを識別し、前記1つまたは複数のビデオオブジェクトを記述するビデオメタデータを生成するために前記ビデオデータの視覚的シーン解析を行うことを備え、前記オーディオメタデータと前記ビデオメタデータとが共通のテキストフォーマットを使用する、解析することと、
    記1つまたは複数のオーディオオブジェクトのうちの少なくとも1つを前記1つまたは複数のビデオオブジェクトのうちの少なくとも1つと関連付けることと、
    前記オーディオオブジェクトのうちの前記少なくとも1つをレンダリングするとき、前記オーディオオブジェクトのうちの前記少なくとも1つを記述する前記オーディオメタデータと前記ビデオオブジェクトのうちの前記関連付けられている1つを記述する前記ビデオメタデータとの間の相関のレベルに基づいて前記オーディオオブジェクトの前記少なくとも1つの拡散性少なくとも部分的に調整することによって、前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つとの前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記関連付けに基づいて、前記オーディオデータから前記マルチチャネルオーディオデータを生成することと
    備える方法。
  2. 前記オーディオメタデータは、対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの1つまたは複数を備え、
    前記ビデオメタデータは、前記対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの1つまたは複数を備える、請求項1に記載の方法。
  3. 前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つを前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つと関連付けることは、
    記1つまたは複数のオーディオオブジェクトの各々を、あるタイプのオーディオオブジェクトとして分類することと、
    記1つまたは複数のビデオオブジェクトの各々を、あるタイプのビデオオブジェクトとして分類することと、
    前記オーディオオブジェクトのうちの前記少なくとも1つの前記タイプが前記ビデオオブジェクトのうちの前記少なくとも1つと同じタイプであることを決定することと、
    前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記タイプが前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つと同じタイプであることの前記決定に応答して、前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つを前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つと関連付けることとを備える、請求項に記載の方法。
  4. 前記マルチチャネルオーディオデータを生成することは、
    前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記オーディオメタデータと前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つと関連付けられている前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つの前記ビデオメタデータとの間の前記相関のレベルを決定することと、
    前記決定された相関のレベルに基づいて、前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つが関連付けられている前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つに関する複合メタデータを生成することと、
    前記相関のレベルに基づいて、前記オーディオオブジェクトのうちの前記少なくとも1つの前記拡散性を調整することと、
    前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つに関して生成された前記複合メタデータに基づいて、前記マルチチャネルオーディオデータの1つまたは複数の前景チャネル内に前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つをレンダリングすることとを備える、請求項に記載の方法。
  5. 前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つは、前記1つまたは複数のオーディオオブジェクトのうちの第1のものを備え、
    前記方法は、さらに、前記1つまたは複数のオーディオオブジェクトのうちの第2のものが前記1つまたは複数のビデオオブジェクトのうちのいずれにも関連付けられていないことを決定することを備え、
    前記マルチチャネルオーディオデータを生成することは、前記オーディオオブジェクトのうちの前記第2のものが前記マルチチャネルオーディオデータの1つまたは複数の背景チャネル内で発生するように、前記マルチチャネルオーディオデータを生成することを備える、請求項1に記載の方法。
  6. 前記マルチチャネルオーディオデータを生成することは、前記オーディオオブジェクトのうちの前記第2のものが前記マルチチャネルオーディオデータの前記1つまたは複数の背景チャネル内で拡散したオーディオオブジェクトとして発生するように、前記マルチチャネルオーディオデータを生成することを備える、請求項5に記載の方法。
  7. 前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つは、前記1つまたは複数のビデオオブジェクトのうちの第1のものを備え、
    前記方法は、さらに、
    前記ビデオオブジェクトのうちの前記1つまたは複数のうちの第2のものが前記1つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定することと、
    前記ビデオオブジェクトのうちの前記1つまたは複数のうちの前記第2のものが前記1つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定することに応答して、前記1つまたは複数のビデオオブジェクトのうちの前記第2のものに関連付けられているであろう基準オーディオオブジェクトをオーディオライブラリから取得することと、
    前記マルチチャネルオーディオデータの少なくとも一部を生成するために、前記1つまたは複数のビデオオブジェクトのうちの前記第2のものに基づいて前記基準オーディオオブジェクトをレンダリングすることとを備える、請求項1に記載の方法。
  8. 前記オーディオメタデータは、前記ビデオメタデータを定義するために使用されるテキストフォーマットと共通のテキストフォーマットで定義される、請求項1に記載の方法。
  9. 前記マルチチャネルオーディオデータを生成することは、
    前記オーディオオブジェクトのうちの前記少なくとも1つを記述する前記オーディオメタデータと前記ビデオオブジェクトのうちの前記関連付けられている1つを記述する前記ビデオメタデータとの間の百分率差の関数として前記相関のレベルを決定することと、
    記決定された相関のレベルが信頼区間の外側にあるとき、前記マルチチャネルオーディオデータの複数のチャネルにまたがって広がる、拡散するオーディオオブジェクトとして前記オーディオオブジェクトのうちの前記少なくとも1つをレンダリングすることとを備える、請求項1に記載の方法。
  10. 携帯電話上で行われる、請求項1に記載の方法。
  11. 実行されたとき、デバイスの1つまたは複数のプロセッサに、
    前記デバイスによってキャプチャされたオーディオデータを解析することであって、ここにおいて、前記オーディオデータを解析することは、1つまたは複数のオーディオオブジェクトを識別し、前記1つまたは複数のオーディオオブジェクトを記述するオーディオメタデータを生成するために前記オーディオデータの聴覚的シーン解析を行うことを備える、解析することと、
    前記オーディオデータの前記キャプチャと同時に前記デバイスによってキャプチャされたビデオデータを解析することであって、前記ビデオデータを解析することは、1つまたは複数のビデオオブジェクトを識別し、前記1つまたは複数のビデオオブジェクトを記述するビデオメタデータを生成するために前記ビデオデータの視覚的シーン解析を行うことを備え、前記オーディオメタデータと前記ビデオメタデータとが共通のテキストフォーマットを使用する、解析することと、
    前記1つまたは複数のオーディオオブジェクトのうちの少なくとも1つを前記1つまたは複数のビデオオブジェクトのうちの少なくとも1つと関連付けることと、
    前記オーディオオブジェクトのうちの前記少なくとも1つをレンダリングするとき、前記オーディオオブジェクトのうちの前記少なくとも1つを記述する前記オーディオメタデータと前記ビデオオブジェクトのうちの前記関連付けられている1つを記述する前記ビデオメタデータとの間の相関のレベルに基づいて前記オーディオオブジェクトの前記少なくとも1つの拡散性を少なくとも部分的に調整することによって、前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つとの前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記関連付けに基づいて、前記オーディオデータからマルチチャネルオーディオデータを生成することとをさせる命令が記憶された非一時的コンピュータ可読記憶媒体。
  12. マルチチャネルオーディオデータを生成するように構成されるデバイスであって、
    オーディオデータを記憶するように構成されるメモリと、
    前記オーディオデータを、オーディオオブジェクトを識別し、前記オーディオオブジェクトを記述するオーディオメタデータを生成するために前記オーディオデータの聴覚的シーン解析を少なくとも部分的に行うことにより、解析し、ビデオデータを、ビデオオブジェクトを識別し、前記ビデオオブジェクトを記述するビデオメタデータを生成するために前記ビデオデータの視覚的シーン解析を少なくとも部分的に行うことにより解析し、前記オーディオオブジェクトと前記ビデオオブジェクトとを関連付け、前記オーディオオブジェクトのうちの前記少なくとも1つをレンダリングするとき、前記オーディオオブジェクトを記述する前記オーディオメタデータと前記ビデオオブジェクトを記述する前記ビデオメタデータとの間の相関のレベルに基づいて前記オーディオオブジェクトの前記少なくとも1つの拡散性少なくとも部分的に調整することによって、前記ビデオオブジェクトの前記オーディオオブジェクトの前記関連付けに基づいて、前記オーディオデータから前記マルチチャネルオーディオデータを生成するように構成される1つまたは複数のプロセッサ
    を備えるデバイス。
  13. 前記オーディオメタデータは、前記オーディオオブジェクトのサイズと前記オーディオオブジェクトの位置とを備える、請求項12に記載のデバイス。
  14. 前記ビデオメタデータは、前記ビデオオブジェクトのサイズと前記ビデオオブジェクトの位置とを備える、請求項12に記載のデバイス。
  15. 前記1つまたは複数のプロセッサは、サイズと位置とのうちの1つまたは複数を備える複合メタデータを少なくとも部分的に生成するように構成される、請求項12に記載のデバイス。
  16. 前記オーディオメタデータは位置メタデータを含み、
    前記ビデオメタデータは位置メタデータを含み、
    前記複合メタデータを生成することは、
    前記相関のレベルを決定するために、前記オーディオメタデータの前記位置メタデータを前記ビデオメタデータの前記位置メタデータと比較することと、
    前記相関のレベルが信頼しきい値を超えているかどうかの決定に基づいて、前記複合メタデータの位置メタデータを生成することとを備える、請求項15に記載のデバイス。
  17. 前記オーディオオブジェクトは、第1のオーディオオブジェクトを備え、ここにおいて、前記ビデオオブジェクトは、第1のビデオオブジェクトを備え、ここにおいて、前記1つまたは複数のプロセッサは、
    前記第1のオーディオオブジェクトのデータ構成要素と前記第1のビデオオブジェクトのデータ構成要素との第1の比較に基づいて、前記第1のビデオオブジェクトの相対物と関連付けられている前記第1のオーディオオブジェクトを識別することと、
    第2のオーディオオブジェクトのデータ構成要素と第2のビデオオブジェクトのデータ構成要素との第2の比較に基づいて、前記第2のビデオオブジェクトの相対物と関連付けられていない前記第2のオーディオオブジェクトを識別することを行うように構成され
    ここにおいて、前記プロセッサは、さらに
    第1のゾーン内に前記第1のオーディオオブジェクトをレンダリングすることと、
    第2のゾーン内に前記第2のオーディオオブジェクトをレンダリングすることと、
    前記第1のゾーン内の前記レンダリングされた第1のオーディオオブジェクトと、前記第2のゾーン内の前記レンダリングされた第2のオーディオオブジェクトとを組み合わせることに基づいて前記オーディオ出力信号を生成することを行うように構成される、
    請求項12に記載のデバイス。
  18. 前記第1のオーディオオブジェクトの前記データ構成要素は位置とサイズとのうちの1つを備える、請求項17に記載のデバイス。
  19. 前記第1のビデオオブジェクトの前記データ構成要素は位置とサイズとのうちの1つを備える、請求項17に記載のデバイス。
  20. 前記第2のオーディオオブジェクトの前記データ構成要素は位置とサイズとのうちの1つを備える、請求項17に記載のデバイス。
  21. 前記第2のビデオオブジェクトの前記データ構成要素は位置とサイズとのうちの1つを備える、請求項17に記載のデバイス。
  22. 前記第1のゾーンおよび第2のゾーンは、オーディオ前景内の異なるゾーン、またはオーディオ背景内の異なるゾーンである、請求項17に記載のデバイス。
  23. 前記第1のゾーンおよび第2のゾーンは、オーディオ前景内の同じゾーン、またはオーディオ背景内の同じゾーンである、請求項17に記載のデバイス。
  24. 前記第1のゾーンはオーディオ前景内にあり、前記第2のゾーンはオーディオ背景内にある、請求項17に記載のデバイス。
  25. 前記第1のゾーンはオーディオ背景内にあり、前記第2のゾーンはオーディオ前景内にある、請求項17に記載のデバイス。
  26. 前記1つまたは複数のプロセッサは、
    前記第1の比較が信頼区間の外部にあるかどうかを決定することと、
    前記第1の比較が前記信頼区間の外部にあるかどうかの前記決定に基づいて、前記第1のオーディオオブジェクトの前記データ構成要素と前記第1のビデオオブジェクトの前記データ構成要素とを重み付けすることを行うようにさらに構成される、請求項17に記載のデバイス。
  27. 前記1つまたは複数のプロセッサは、前記第1のオーディオオブジェクトデータの前記データ構成要素と前記第1のビデオオブジェクトの前記データ構成要素とを平均化するように構成される、請求項26に記載のデバイス。
  28. 前記1つまたは複数のプロセッサは、前記第1の比較と前記第2の比較とのうちの1つまたは複数に基づいて異なるビット数を割り当てるようにさらに構成される、請求項17に記載のデバイス。
JP2015558105A 2013-02-15 2014-02-12 マルチチャネルオーディオデータのビデオ解析支援生成 Expired - Fee Related JP6039111B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361765556P 2013-02-15 2013-02-15
US61/765,556 2013-02-15
US13/831,018 2013-03-14
US13/831,018 US9338420B2 (en) 2013-02-15 2013-03-14 Video analysis assisted generation of multi-channel audio data
PCT/US2014/016059 WO2014127019A1 (en) 2013-02-15 2014-02-12 Video analysis assisted generation of multi-channel audio data

Publications (3)

Publication Number Publication Date
JP2016513410A JP2016513410A (ja) 2016-05-12
JP2016513410A5 true JP2016513410A5 (ja) 2016-08-12
JP6039111B2 JP6039111B2 (ja) 2016-12-07

Family

ID=51351238

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015558105A Expired - Fee Related JP6039111B2 (ja) 2013-02-15 2014-02-12 マルチチャネルオーディオデータのビデオ解析支援生成

Country Status (6)

Country Link
US (1) US9338420B2 (ja)
EP (1) EP2956941A1 (ja)
JP (1) JP6039111B2 (ja)
KR (1) KR101761039B1 (ja)
CN (1) CN104995681B (ja)
WO (1) WO2014127019A1 (ja)

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101771003B1 (ko) * 2010-03-16 2017-08-25 삼성전자주식회사 컨텐츠 출력 시스템 및 그 시스템에서 코덱 정보 공유 방법
US10326978B2 (en) 2010-06-30 2019-06-18 Warner Bros. Entertainment Inc. Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning
KR20230144652A (ko) * 2013-03-28 2023-10-16 돌비 레버러토리즈 라이쎈싱 코오포레이션 임의적 라우드스피커 배치들로의 겉보기 크기를 갖는 오디오 오브젝트들의 렌더링
US9466305B2 (en) * 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9854377B2 (en) 2013-05-29 2017-12-26 Qualcomm Incorporated Interpolation for decomposed representations of a sound field
KR102484214B1 (ko) 2013-07-31 2023-01-04 돌비 레버러토리즈 라이쎈싱 코오포레이션 공간적으로 분산된 또는 큰 오디오 오브젝트들의 프로세싱
US9137232B2 (en) * 2014-01-14 2015-09-15 Xerox Corporation Method and system for controlling access to document data using augmented reality marker
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US20160179803A1 (en) * 2014-12-22 2016-06-23 Rovi Guides, Inc. Augmenting metadata using commonly available visual elements associated with media content
US10187737B2 (en) 2015-01-16 2019-01-22 Samsung Electronics Co., Ltd. Method for processing sound on basis of image information, and corresponding device
CN105989845B (zh) * 2015-02-25 2020-12-08 杜比实验室特许公司 视频内容协助的音频对象提取
US9609383B1 (en) * 2015-03-23 2017-03-28 Amazon Technologies, Inc. Directional audio for virtual environments
US10176644B2 (en) * 2015-06-07 2019-01-08 Apple Inc. Automatic rendering of 3D sound
TWI736542B (zh) * 2015-08-06 2021-08-21 日商新力股份有限公司 資訊處理裝置、資料配訊伺服器及資訊處理方法、以及非暫時性電腦可讀取之記錄媒體
US10762911B2 (en) * 2015-12-01 2020-09-01 Ati Technologies Ulc Audio encoding using video information
GB2545275A (en) * 2015-12-11 2017-06-14 Nokia Technologies Oy Causing provision of virtual reality content
KR20170106063A (ko) * 2016-03-11 2017-09-20 가우디오디오랩 주식회사 오디오 신호 처리 방법 및 장치
US10979843B2 (en) * 2016-04-08 2021-04-13 Qualcomm Incorporated Spatialized audio output based on predicted position data
KR20190013900A (ko) * 2016-05-25 2019-02-11 워너 브로스. 엔터테인먼트 인크. 3d 오디오 포지셔닝을 이용하는 가상 또는 증강 현실 프레젠테이션을 생성하기 위한 방법 및 장치 (method and apparatus for generating virtual or augmented reality presentations with 3d audio positioning)
WO2017208820A1 (ja) * 2016-05-30 2017-12-07 ソニー株式会社 映像音響処理装置および方法、並びにプログラム
US10074012B2 (en) 2016-06-17 2018-09-11 Dolby Laboratories Licensing Corporation Sound and video object tracking
CN106162447A (zh) * 2016-06-24 2016-11-23 维沃移动通信有限公司 一种音频播放的方法和终端
US10445936B1 (en) 2016-08-01 2019-10-15 Snap Inc. Audio responsive augmented reality
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
GB2557241A (en) * 2016-12-01 2018-06-20 Nokia Technologies Oy Audio processing
EP3343483A1 (en) 2016-12-30 2018-07-04 Spotify AB System and method for providing a video with lyrics overlay for use in a social messaging environment
EP3343347A1 (en) * 2016-12-30 2018-07-04 Nokia Technologies Oy Audio processing
EP3343957B1 (en) * 2016-12-30 2022-07-06 Nokia Technologies Oy Multimedia content
US10659906B2 (en) * 2017-01-13 2020-05-19 Qualcomm Incorporated Audio parallax for virtual reality, augmented reality, and mixed reality
CN108632551A (zh) * 2017-03-16 2018-10-09 南昌黑鲨科技有限公司 基于深度学习的视频录摄方法、装置及终端
KR102490786B1 (ko) * 2017-04-13 2023-01-20 소니그룹주식회사 신호 처리 장치 및 방법, 그리고 프로그램
BR112019021904A2 (pt) * 2017-04-26 2020-05-26 Sony Corporation Dispositivo e método de processamento de sinal, e, programa.
EP3399398B1 (en) * 2017-05-02 2022-04-13 Nokia Technologies Oy An apparatus and associated methods for presentation of spatial audio
CN109151704B (zh) * 2017-06-15 2020-05-19 宏达国际电子股份有限公司 音讯处理方法、音频定位系统以及非暂态电脑可读取媒体
US11164606B2 (en) * 2017-06-30 2021-11-02 Qualcomm Incorporated Audio-driven viewport selection
US10178490B1 (en) * 2017-06-30 2019-01-08 Apple Inc. Intelligent audio rendering for video recording
US10224074B2 (en) * 2017-07-12 2019-03-05 Karl Storz Imaging, Inc. Apparatus and methods for improving video quality from a digital video signal including replicated image frames
US11128977B2 (en) 2017-09-29 2021-09-21 Apple Inc. Spatial audio downmixing
US11272308B2 (en) 2017-09-29 2022-03-08 Apple Inc. File format for spatial audio
US10469968B2 (en) 2017-10-12 2019-11-05 Qualcomm Incorporated Rendering for computer-mediated reality systems
US10714144B2 (en) 2017-11-06 2020-07-14 International Business Machines Corporation Corroborating video data with audio data from video content to create section tagging
US11003676B2 (en) * 2018-02-27 2021-05-11 Sap Se Software integration object linking data structures
US11847773B1 (en) 2018-04-27 2023-12-19 Splunk Inc. Geofence-based object identification in an extended reality environment
CN112205005B (zh) * 2018-05-23 2022-06-24 皇家Kpn公司 使声学渲染适应基于图像的对象
US11715302B2 (en) * 2018-08-21 2023-08-01 Streem, Llc Automatic tagging of images using speech recognition
US11012774B2 (en) 2018-10-29 2021-05-18 Apple Inc. Spatially biased sound pickup for binaural video recording
GB201818959D0 (en) 2018-11-21 2019-01-09 Nokia Technologies Oy Ambience audio representation and associated rendering
US11601772B2 (en) 2018-11-26 2023-03-07 Raytheon Bbn Technologies Corp. Systems and methods for enhancing attitude awareness in ambiguous environments
KR20200107758A (ko) * 2019-03-08 2020-09-16 엘지전자 주식회사 음향 객체 추종을 위한 방법 및 이를 위한 장치
CN111757240B (zh) * 2019-03-26 2021-08-20 瑞昱半导体股份有限公司 音频处理方法与音频处理系统
CN111757239B (zh) * 2019-03-28 2021-11-19 瑞昱半导体股份有限公司 音频处理方法与音频处理系统
US11030479B2 (en) * 2019-04-30 2021-06-08 Sony Interactive Entertainment Inc. Mapping visual tags to sound tags using text similarity
WO2020242506A1 (en) * 2019-05-31 2020-12-03 Dts, Inc. Foveated audio rendering
CN110381336B (zh) * 2019-07-24 2021-07-16 广州飞达音响股份有限公司 基于5.1声道的视频片段情感判定方法、装置和计算机设备
US11276419B2 (en) 2019-07-30 2022-03-15 International Business Machines Corporation Synchronized sound generation from videos
US11356796B2 (en) 2019-11-22 2022-06-07 Qualcomm Incorporated Priority-based soundfield coding for virtual reality audio
KR20210072388A (ko) 2019-12-09 2021-06-17 삼성전자주식회사 오디오 출력 장치 및 오디오 출력 장치의 제어 방법
US11823698B2 (en) * 2020-01-17 2023-11-21 Audiotelligence Limited Audio cropping
US11704087B2 (en) 2020-02-03 2023-07-18 Google Llc Video-informed spatial audio expansion
US11755275B2 (en) * 2020-06-29 2023-09-12 Meta Platforms Technologies, Llc Generating augmented reality experiences utilizing physical objects to represent analogous virtual objects
CN111863002A (zh) * 2020-07-06 2020-10-30 Oppo广东移动通信有限公司 处理方法、处理装置、电子设备
CN111787464B (zh) * 2020-07-31 2022-06-14 Oppo广东移动通信有限公司 一种信息处理方法、装置、电子设备和存储介质
US11546692B1 (en) 2020-08-19 2023-01-03 Apple Inc. Audio renderer based on audiovisual information
US11521623B2 (en) 2021-01-11 2022-12-06 Bank Of America Corporation System and method for single-speaker identification in a multi-speaker environment on a low-frequency audio recording
CN113316078B (zh) * 2021-07-30 2021-10-29 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备及存储介质
WO2024059536A1 (en) * 2022-09-13 2024-03-21 Dolby Laboratories Licensing Corporation Audio-visual analytic for object rendering in capture

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6829018B2 (en) * 2001-09-17 2004-12-07 Koninklijke Philips Electronics N.V. Three-dimensional sound creation assisted by visual information
WO2008025858A2 (en) * 2007-11-14 2008-03-06 Phonak Ag Method and arrangement for fitting a hearing system
US20100098258A1 (en) 2008-10-22 2010-04-22 Karl Ola Thorn System and method for generating multichannel audio with a portable electronic device
CN102257401B (zh) * 2008-12-16 2014-04-02 皇家飞利浦电子股份有限公司 使用粒子滤波估计声源地点
WO2010140254A1 (ja) 2009-06-05 2010-12-09 パイオニア株式会社 映像音声出力装置及び音声定位方法
US8984501B2 (en) * 2009-06-19 2015-03-17 Dolby Laboratories Licensing Corporation Hierarchy and processing order control of downloadable and upgradeable media processing applications
US8773589B2 (en) 2009-07-24 2014-07-08 Digimarc Corporation Audio/video methods and systems
US8963987B2 (en) * 2010-05-27 2015-02-24 Microsoft Corporation Non-linguistic signal detection and feedback
US8755432B2 (en) * 2010-06-30 2014-06-17 Warner Bros. Entertainment Inc. Method and apparatus for generating 3D audio positioning using dynamically optimized audio 3D space perception cues
US8638951B2 (en) 2010-07-15 2014-01-28 Motorola Mobility Llc Electronic apparatus for generating modified wideband audio signals based on two or more wideband microphone signals
US8433076B2 (en) 2010-07-26 2013-04-30 Motorola Mobility Llc Electronic apparatus for generating beamformed audio signals with steerable nulls
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
US8855341B2 (en) * 2010-10-25 2014-10-07 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for head tracking based on recorded sound signals
US9031256B2 (en) 2010-10-25 2015-05-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control
WO2012063103A1 (en) 2010-11-12 2012-05-18 Nokia Corporation An Audio Processing Apparatus
FR2974097B1 (fr) 2011-04-14 2013-04-19 Michelin Soc Tech Composition de caoutchouc comprenant un derive de la thiazoline
US20130162752A1 (en) * 2011-12-22 2013-06-27 Advanced Micro Devices, Inc. Audio and Video Teleconferencing Using Voiceprints and Face Prints

Similar Documents

Publication Publication Date Title
JP2016513410A5 (ja)
WO2017009851A3 (en) Coordinating communication and/or storage based on image analysis
MX2017012505A (es) Configuracion de diferentes sensibilidades de modelos de fondo mediante regiones definidas por el usuario y filtros de fondo.
JP2017505475A5 (ja)
WO2014155130A3 (en) Method, system and computer program for comparing images
WO2016106383A3 (en) First-person camera based visual context aware system
RU2017143920A (ru) Устройство, способ и программа аудиообработки
JP2016506669A5 (ja)
WO2016174524A3 (en) Data processing systems
MX2015011295A (es) Compartir fotos sugeridas.
JP2019504379A (ja) 煙検出装置、方法及び画像処理装置
JP2016536715A5 (ja)
WO2016050347A3 (en) Audio identification device, audio identification method and audio identification system
JP2015528613A5 (ja)
JP2015508205A5 (ja)
EP2890113A8 (en) Image processing utilizing reference images
JP2017144521A5 (ja)
JP2013161405A5 (ja) 被写体判定装置、被写体判定方法及びプログラム
US20200293179A1 (en) Prioritization for presentation of media based on sensor data collected by wearable sensor devices
EP2809062A3 (en) Image processor, image processing method and program, and recording medium
GB2571686A (en) System and method for analyzing and associating elements of a computer system by shared characteristics
US10659680B2 (en) Method of processing object in image and apparatus for same
PH12017501186A1 (en) Monitoring
JP2017117408A5 (ja)
JP2019091352A5 (ja)