JP2023533414A - 適応オーディオ配信およびレンダリング - Google Patents
適応オーディオ配信およびレンダリング Download PDFInfo
- Publication number
- JP2023533414A JP2023533414A JP2022566186A JP2022566186A JP2023533414A JP 2023533414 A JP2023533414 A JP 2023533414A JP 2022566186 A JP2022566186 A JP 2022566186A JP 2022566186 A JP2022566186 A JP 2022566186A JP 2023533414 A JP2023533414 A JP 2023533414A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- encoded
- encoded bitstream
- audio content
- receiving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009877 rendering Methods 0.000 title claims description 14
- 230000003044 adaptive effect Effects 0.000 title description 20
- 238000012545 processing Methods 0.000 claims abstract description 90
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000004044 response Effects 0.000 claims abstract description 6
- 230000005236 sound signal Effects 0.000 claims abstract description 6
- 230000005540 biological transmission Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 description 23
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 235000009508 confectionery Nutrition 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013403 standard screening design Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/11—Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/033—Headphones for stereophonic communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Stereophonic System (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
Description
本願は、2021年6月2日に出願された米国仮出願第63/196,066号「Adaptive Audio Delivery and Rendering」に対する優先権の利益を主張する、2022年5月31日に出願された米国特許出願第17/828,755号「ADAPTIVE AUDIO DELIVERY AND RENDERING」に対する優先権の利益を主張する。先の出願の開示は、その全体が参照により本明細書に援用される。
本開示は、オーディオ処理(audio processing)に概ね関連する実施形態を記載する。
Claims (21)
- クライアントデバイスでオーディオ処理する方法であって、
オーディオ入力中のオーディオコンテンツを符号化するためのオーディオ符号化構成を示す選択信号をサーバデバイスに送信することと、
前記選択信号の送信に応答して前記オーディオ符号化構成に従って符号化される前記オーディオコンテンツを含む符号化されたビットストリームを前記サーバデバイスから受信することと、
前記符号化されたビットストリームに基づいてオーディオ信号をレンダリングすることと、を含む、
方法。 - 前記選択信号を送信することは、
前記オーディオコンテンツを符号化するためのビットレートを示す前記選択信号を送信することを更に含む、
請求項1に記載の方法。 - 前記符号化されたビットストリームを受信することは、
前記ビットストリームに従って符号化される1つ以上のオーディオチャネルを含む前記符号化されたビットストリームを受信することを更に含む、
請求項2に記載の方法。 - 前記符号化されたビットストリームを受信することは、
前記ビットレートに従って符号化される1つ以上のオーディオオブジェクトを含む前記符号化されたビットストリームを受信することを更に含む、
請求項2に記載の方法。 - 前記符号化されたビットストリームを受信することは、
前記ビットレートに従って符号化されるオーディオ高次アンビソニックス(HOA)信号を含む前記符号化されたビットストリームを受信することを更に含む、
請求項2に記載の方法。 - 前記選択信号を送信することは、
前記オーディオ入力中の前記オーディオコンテンツの一部分に対応するカテゴリ化層を示す前記選択信号を送信することを更に含む、
請求項1に記載の方法。 - 前記符号化されたビットストリームを受信することは、
前記オーディオ入力の前記オーディオコンテンツ中のオーディオチャネルのサブセットに基づいて符号化される前記符号化されたビットストリームを受信することを更に含む、
請求項6に記載の方法。 - 前記符号化されたビットストリームを受信することは、
前記オーディオ入力の前記オーディオコンテンツ中のオーディオオブジェクトのサブセットに基づいて符号化される前記符号化されたビットストリームを受信することを更に含む、
請求項6に記載の方法。 - 前記符号化されたビットストリームを受信することは、
前記オーディオ入力の前記オーディオコンテンツ中の高次アンビソニックス(HOA)信号の減少された次数のセットに基づいて符号化される前記符号化されたビットストリームを受信することを更に含む、
請求項6に記載の方法。 - 前記選択信号を送信することは、
前記オーディオ符号化構成と関連付けられる識別子を送信することを更に含む、
請求項1に記載の方法。 - 前記クライアントデバイスのメディア処理能力、前記クライアントデバイスのネットワーク接続、および嗜好入力のうちの少なくとも1つに従って、前記選択信号を決定することを更に含む、
請求項1に記載の方法。 - 処理回路構成を含む、オーディオ処理のための装置であって、
前記処理回路構成は、
オーディオ入力中のオーディオコンテンツを符号化するためのオーディオ符号化構成を示す選択信号をサーバデバイスに送信し、
前記選択信号を送信することに応答して、前記オーディオ符号化構成に従って符号化される前記オーディオコンテンツを含む符号化されたビットストリームを、前記サーバデバイスから受信し、
前記符号化されたビットストリームに基づいてオーディオ信号をレンダリングする、
ように構成される、
装置。 - 前記処理回路構成は、
前記オーディオコンテンツを符号化するためのビットレートを示す前記選択信号を送信する
ように更に構成される、
請求項12に記載の装置。 - 前記処理回路構成は、
前記ビットレートに従って符号化される1つ以上のオーディオチャネルを含む前記符号化されたビットストリームを受信する
ように構成される、
請求項13に記載の装置。 - 前記処理回路構成は、
記ビットレートに従って符号化される1つ以上のオーディオオブジェクトを含む前記符号化されたビットストリームを受信する
ように構成される、
請求項13に記載の装置。 - 前記処理回路構成は、
前記ビットレートに従って符号化されるオーディオ高次アンビソニックス(HOA)信号を含む前記符号化されたビットストリームを受信する
ように構成される、
請求項13に記載の装置。 - 前記処理回路構成は、
前記オーディオ入力中の前記オーディオコンテンツの一部分に対応するカテゴリ化層を示す前記選択信号を送信する
ように構成される、
請求項12に記載の装置。 - 前記処理回路構成は、
前記オーディオ入力の前記オーディオコンテンツ中のオーディオチャネルのサブセットに基づいて符号化される前記符号化されたビットストリームを受信する
ように構成される、
請求項17に記載の装置。 - 前記処理回路構成は、
前記オーディオ入力の前記オーディオコンテンツ中のオーディオオブジェクトのサブセットに基づいて符号化される前記符号化されたビットストリームを受信する
ように構成される、
請求項17に記載の装置。 - 前記処理回路構成は、
前記オーディオ入力の前記オーディオコンテンツ中の高次アンビソニックス(HOA)信号の減少された次数のセットに基づいて符号化される前記符号化されたビットストリームを受信する
ように構成される、
請求項17に記載の装置。 - 命令を格納する非一時的なコンピュータ読取可能媒体コンピュータであって、前記命令は、コンピュータによって実行されるときに、前記コンピュータに請求項1-11に記載の方法を実行させる、非一時的なコンピュータ読取可能媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163196066P | 2021-06-02 | 2021-06-02 | |
US63/196,066 | 2021-06-02 | ||
US17/828,755 | 2022-05-31 | ||
US17/828,755 US20220391167A1 (en) | 2021-06-02 | 2022-05-31 | Adaptive audio delivery and rendering |
PCT/US2022/072731 WO2022256828A1 (en) | 2021-06-02 | 2022-06-02 | Adaptive audio delivery and rendering |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023533414A true JP2023533414A (ja) | 2023-08-03 |
JP7505029B2 JP7505029B2 (ja) | 2024-06-24 |
Family
ID=
Also Published As
Publication number | Publication date |
---|---|
EP4128221A1 (en) | 2023-02-08 |
CN115701777A (zh) | 2023-02-10 |
KR20230003552A (ko) | 2023-01-06 |
US20220391167A1 (en) | 2022-12-08 |
EP4128221A4 (en) | 2023-05-03 |
WO2022256828A1 (en) | 2022-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3123741B1 (en) | Apparatus and method for screen related audio object remapping | |
CN112673649B (zh) | 空间音频增强 | |
CN107925840A (zh) | 用于处理与视频图像相关联的音频信号的方法和装置 | |
CN114424587A (zh) | 控制音频数据的呈现 | |
CN114072792A (zh) | 用于音频渲染的基于密码的授权 | |
US11937070B2 (en) | Layered description of space of interest | |
JP7505029B2 (ja) | 適応オーディオ配信およびレンダリング | |
JP2024513445A (ja) | 動的dashピクチャ・イン・ピクチャ・ストリーミングのための方法及び装置 | |
JP2023533414A (ja) | 適応オーディオ配信およびレンダリング | |
US11956409B2 (en) | Immersive media interoperability | |
US11710491B2 (en) | Method and apparatus for space of interest of audio scene | |
US20220270626A1 (en) | Method and apparatus in audio processing | |
US20230057207A1 (en) | Immersive media compatibility | |
JP7399549B2 (ja) | リモート端末向けの遠隔会議およびテレプレゼンスにおいてオーディオミキシングゲインをシグナリングする手法 | |
US11595730B2 (en) | Signaling loudness adjustment for an audio scene | |
JP2023523847A (ja) | リモート端末のためのテレビ会議およびテレプレゼンスにおけるビューポート共有時の乗り物酔いを鎮静化するための方法、装置、およびコンピュータプログラム | |
GB2568726A (en) | Object prioritisation of virtual content | |
JP7447298B2 (ja) | 遠隔端末用の没入型テレビ会議及びテレプレゼンスのためのビットストリーム構造 | |
JP7419529B2 (ja) | 遠隔端末のための没入型テレカンファレンス及びテレプレゼンスのインタラクティブオーバーレイ処理 | |
US20240129537A1 (en) | Method and apparatus for signaling cmaf switching sets in isobmff |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221028 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240301 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240514 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240612 |