CN111492674A - 在3d音频解码器中处理单声道信号以传送双耳内容 - Google Patents
在3d音频解码器中处理单声道信号以传送双耳内容 Download PDFInfo
- Publication number
- CN111492674A CN111492674A CN201880081437.9A CN201880081437A CN111492674A CN 111492674 A CN111492674 A CN 111492674A CN 201880081437 A CN201880081437 A CN 201880081437A CN 111492674 A CN111492674 A CN 111492674A
- Authority
- CN
- China
- Prior art keywords
- signal
- rendering
- processing
- binaural
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 76
- 238000009877 rendering Methods 0.000 claims abstract description 107
- 238000002156 mixing Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000003672 processing method Methods 0.000 claims abstract description 12
- 239000004334 sorbic acid Substances 0.000 claims abstract description 7
- 239000004291 sulphur dioxide Substances 0.000 claims abstract description 6
- 239000004305 biphenyl Substances 0.000 claims abstract description 5
- WSFSSNUMVMOOMR-UHFFFAOYSA-N formaldehyde Substances O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 claims abstract description 4
- 238000001514 detection method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 210000005069 ears Anatomy 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 239000005711 Benzoic acid Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Abstract
本发明涉及一种用于在3D音频解码器中处理单声道信号的方法,该方法包括对旨在通过头戴式耳机以空间方式传送的经解码信号进行双耳化处理的步骤。该方法使得当在表示该单声道信号的数据流中检测(E200)到与呈现空间位置信息相关联的非双耳化处理指示时,将该经解码的单声道信号定向到(O‑E200)立体声呈现器,该立体声呈现器考虑该位置信息以构造两个呈现声道(E220),这两个呈现声道通过将这两个声道与从双耳化处理输出的双耳化信号相加的直接混合步骤(E230)被直接处理,以通过该头戴式耳机对其进行呈现(E240)。本发明还涉及一种实施该处理方法的解码器设备。
Description
技术领域
本发明涉及在3D音频解码系统(诸如满足MPEG-H 3D音频标准的编解码器)中处理音频信号。本发明更具体地涉及对旨在通过还接收双耳音频信号的头戴式耳机呈现的单声道信号的处理。
背景技术
术语“双耳”是指通过音频头戴式耳机或一对耳机以仍然具有空间效果的方式对音频信号的呈现。音频信号的双耳处理(以下称为双耳化或双耳化处理)在频域中使用HRTF(表示“头部相关传递函数”)滤波器,在时域中使用HRIR(表示“头部相关脉冲响应”)滤波器、BRIR(表示“双耳室内脉冲响应”)滤波器,这些滤波器可以再现声源与听者的耳朵之间的声学传递函数。这些滤波器用于模拟听觉位置线索,以使听者像在真实的收听情境中一样地定位声源。
右耳的信号是通过用右耳的传递函数(HRTF)对单声道信号进行滤波获得的,并且左耳的信号是通过用左耳的传递函数对同一单声道信号进行滤波获得的。
在NGA(下一代音频)编解码器中,解码器接收到的信号最初被解码,然后在通过音频头戴式耳机进行呈现之前经历如上所述的双耳化处理,这些NGA编解码器诸如:MPEG-H3D音频,其在参考ISO/IEC 23008-3、公布于2014年7月25日的文档“High efficiencycoding and media delivery in heterogenous environments-Part 3:3D audio[异构环境中的高效编码和媒体传送——第3部分:3D音频]”中进行了描述;或者甚至AC4,其在参考ETSI TS 103 190、公布于2014年4月的文档“Digital Audio Compression Standard[数字音频压缩标准]”中进行了描述。在此感兴趣的一点是:将通过音频头戴式耳机呈现的声音进行空间化(即,采用双耳化信号)的情况。
因此,上述编解码器不但为通过多个虚拟扬声器对通过头戴式耳机听到的双耳化信号进行呈现的可能性奠定了基础,而且为通过多个真实扬声器对空间化的声音进行呈现的可能性奠定了基础。
在某些情况下,用于跟踪听者的头部的函数(头部跟踪函数)与双耳化处理相关联,该函数也被称为动态呈现(与静态呈现相反)。这种类型的处理允许考虑听者的头部移动,以修改呈现给每只耳朵的声音,从而保持音频场景的呈现稳定。换句话说,无论听者是否移动其头部,他都会认为声源位于物理空间中的同一位置。
这在观看和收听360°视频内容时可能是重要的。
然而,不期望用这种类型的处理来处理某些内容。具体地,在某些情况下,当内容是专门为双耳呈现创建的时,例如,如果信号是使用人造头部直接记录的、或者已经用双耳化处理进行过处理,则这些信号必须直接通过头戴式耳机的耳机来进行呈现。这些信号不需要附加的双耳化处理。
同样地,内容生产者可能期望独立于音频场景来呈现音频信号,即,使音频信号被感知为与音频场景分离的声音,例如在画外音(voice-off)的情况下。
例如,这种类型的呈现可以允许在还呈现音频场景时提供解释。例如,内容生产者可能期望将声音呈现给单只耳朵,以便能够获得有意的“听筒”效果,即,使得声音仅被一只耳朵听到。还可能期望即使听者移动其头部,该声音也永远不会被另一只耳朵听到,在前一示例中就是这种情况。内容生产者还可能期望即使听者移动其头部,该声音也会在音频空间中相对于听者的耳朵的精确位置处(并且不是仅在单只耳朵内部)被呈现。
如果将这种单声道信号解码并输入到诸如MPEG-H 3D音频或AC4编解码器等呈现系统中,则该单声道信号将被双耳化。然后,声音将会被分配在两只耳朵之间(即使该声音在对侧的耳朵中将会更安静),并且如果听者要移动其头部,则他的耳朵将不会以相同的方式感知到该声音,因为头部跟踪处理(如果其被采用的话)将使得声源的位置保持与初始音频场景中相同:因此,两只耳朵中的每只耳朵中的声音的响度会根据头部的位置而变化。
在MPEG-H 3D音频标准的一项所提出的修订中,参考2015年10月的“ISO/IECJTC1/SC29/WG11 MPEG2015/M37265”的文稿提出了对不得通过双耳化改变的内容进行标识。
因此,“两耳分听”标识与不得进行双耳化处理的内容相关联。
然后,除了那些涉及“两耳分听”的元素之外,所有音频元素都将被双耳化。“两耳分听”意味着每只耳朵被馈送了不同的信号。
以相同的方式,在AC4标准中,数据比特指示信号已经被虚拟化。该比特允许禁用后处理。如此标识的内容是已经针对音频头戴式耳机进行了格式化的内容,即,双耳内容。这些内容包含两个声道。
这些方法没有解决音频场景的生产者不期望对其进行双耳化的单声道信号的情况。
这使得不能在所谓的“听筒”模式下独立于音频场景、在相对于听者的耳朵的精确位置处呈现单声道信号。使用现有技术的双声道技术,一种实现对单只耳朵的期望呈现的方式是创建2声道内容(该内容由这两个声道中的一个声道中的信号构成,并且另一个声道中静音)、或事实上创建考虑期望的空间位置的立体声内容,并在传输该内容之前将其标识为已经被空间化。
然而,在必须创建该立体声内容时,这种类型的处理会产生复杂性,并且需要附加的带宽来传输该立体声内容。
因此,需要提供一种解决方案,该解决方案允许传送将在相对于音频头戴式耳机的佩戴者的耳朵的精确位置处、独立于通过同一头戴式耳机呈现的音频场景来呈现的信号,同时优化所使用的编解码器所需的带宽。
发明内容
本发明旨在改善这种情况。
为此,提出了一种用于在3D音频解码器中处理音频单声道信号的方法,该方法包括对旨在通过音频头戴式耳机以空间方式呈现的经解码信号执行双耳化处理的步骤。该方法使得:
当在表示该单声道信号的数据流中检测到与呈现空间位置信息相关联的非双耳化处理指示时,将该经解码的单声道信号定向到立体声呈现器,该立体声呈现器考虑该位置信息以构造两个呈现声道,这两个呈现声道利用将这两个声道与从双耳化处理产生的双耳化信号相加的直接混合步骤被处理,以通过该音频头戴式耳机对这两个呈现声道进行呈现。
因此,可以指定单声道内容必须在相对于听者的耳朵的精确空间位置处呈现,并且不对其进行双耳化处理,使得该被呈现的信号可以具有“听筒”效果,即,即使在听者的头部移动的情况下,听者也可以以与立体声信号相同的方式、在其头部内部的相对于一只耳朵的限定位置处听到该被呈现的信号。
具体地,立体声信号的特征在于以下事实:每个音频源都存在于2个(左和右)输出声道中的每个声道中,但声道之间存在音量差(或ILD(表示“耳间声级差”)),有时还存时间差(或ITD(表示“耳间时间差”))。当在头戴式耳机上收听立体声信号时,源被感知为在听者头部内部、位于左耳与右耳之间取决于ILD和/或ITD的位置中。双耳信号与立体声信号的不同之处在于向源应用了再现从源到听者耳朵的声学路径的滤波器。当在头戴式耳机上收听双耳信号时,源被感知为在头部外部、定位在球体上的根据所使用的滤波器的位置中。
立体声信号和双耳信号相似之处在于他们都由2个(左和右)声道构成,而不同之处在于这2个声道的内容。
然后,将所呈现的单(单声道)信号叠加在形成3D音频场景的其他被呈现的信号上。
与需要对考虑空间位置的立体声信号进行编码、传输并且然后解码的方法相反,指示这种类型的内容所需的带宽被优化,因为除了非双耳化指示之外,仅对音频场景中的位置的指示进行编码就足以通知解码器要执行的处理。
下文中提及的各个具体实施例可以被单独地或彼此组合地添加到以上限定的处理方法的步骤中。
在一个特定实施例中,该呈现空间位置信息是指示该呈现音频头戴式耳机的单个声道的二进制数据。
该信息仅需要一个编码比特,这允许甚至进一步限制所需的带宽。
在该实施例中,在该直接混合步骤中,仅将与由该二进制数据指示的声道相对应的呈现声道与该双耳化信号的对应声道相加,另一呈现声道的值为空。
如此执行的相加易于实施,并且实现了将单信号叠加在所呈现的音频场景上的期望“听筒”效果。
在一个特定实施例中,该单声道信号是具有该呈现空间位置信息的、被定向到该立体声呈现器的声道类型的信号。
因此,该单声道信号不经历执行双耳化处理的步骤,并且不会像在现有技术方法中常规地处理声道类型的信号地那样被处理。该信号由不同于用于声道类型的信号的现有呈现器的立体声呈现器进行处理。该呈现器将单声道信号复制到2个声道上,但是将取决于呈现空间位置信息的因子应用于这两个声道。
此外,该立体声呈现器可以被集成到声道呈现器中,其中,处理会根据向输入到该呈现器中的信号应用的检测而有所不同,或者该立体声呈现器可以被集成到直接混合模块,该直接混合模块将由该立体声呈现器生成的声道与由执行该双耳化处理的模块生成的双耳化信号相加。
在与该声道类型的信号相关联的一个实施例中,该呈现空间位置信息是关于耳间声级差的ILD数据、或者更一般地是关于左声道与右声道之间的声级比的信息。
在另一实施例中,该单声道信号是与包括该非双耳化指示和该呈现位置信息的一组呈现参数相关联的对象类型的信号,该信号与该呈现空间位置信息一起被定向到该立体声呈现器。
在该其他实施例中,该呈现空间位置信息是例如关于方位角的数据。
该信息允许指定相对于音频头戴式耳机的佩戴者的耳朵的呈现位置,从而使得该声音被呈现为叠加在音频场景上。
因此,该单声道信号不经历执行双耳化处理的步骤,并且不会像在现有技术方法中常规地处理对象类型的信号地那样被处理。该信号由不同于用于对象类型的信号的现有呈现器的立体声呈现器进行处理。非双耳化处理指示和呈现位置信息被包括在与对象类型的信号相关联的呈现参数(元数据)中。此外,该呈现器可以被集成到对象呈现器中,或者被集成到直接混合模块中,该直接混合模块将由该立体声呈现器生成的声道与由执行该双耳化处理的模块生成的双耳化信号相加。
本发明还涉及一种用于处理音频单声道信号的设备,该设备包括用于对旨在通过音频头戴式耳机以空间方式呈现的经解码信号执行双耳化处理的模块。该设备为使得其包括:
-检测模块,该检测模块能够在表示该单声道信号的数据流中检测与呈现空间位置信息相关联的非双耳化处理指示;
-用于重定向的模块,该模块在该检测模块肯定检测的情况下能够将该经解码的单声道信号定向到立体声呈现器;
-立体声呈现器,该立体声呈现器能够考虑该位置信息以构造两个呈现声道;
-直接混合模块,该直接混合模块能够通过将这两个呈现声道与由用于执行双耳化处理的模块生成的双耳化信号相加来直接处理这两个呈现声道,以通过该音频头戴式耳机对这两个呈现声道进行呈现。
该设备具有与其所实施的上述方法相同的优点。
在一个特定实施例中,该立体声呈现器被集成到该直接混合模块中。
因此,仅在直接混合模块中构造呈现声道,然后仅将位置信息与单信号一起传输到直接混合模块。该信号可以是声道类型的或对象类型的。
在一个实施例中,该单声道信号是声道类型的信号,并且该立体声呈现器被集成到声道呈现器中,该声道呈现器还构造用于多声道信号的呈现声道。
在另一实施例中,该单声道信号是对象类型的信号,并且该立体声呈现器被集成到对象呈现器中,该对象呈现器还构造用于与多组呈现参数相关联的单声道信号的呈现声道。
本发明涉及一种包括诸如所描述的处理设备的音频解码器,并且涉及一种包含代码指令的计算机程序,当这些指令由处理器执行时,这些指令用于实施诸如所描述的处理方法的步骤。
最后,本发明涉及一种可选地可移除的处理器可读存储介质,该处理器可读存储介质可以或可以不被集成到处理设备中,并且存储有包含指令的计算机程序,这些指令用于执行诸如以上所描述的处理方法。
附图说明
通过参考附图阅读以下仅通过非限制性示例所给出的说明,本发明的其他特征和优点将变得更加清晰明显,在附图中:
-图1展示了诸如在现有技术中发现的MPEG-H 3D音频解码器;
-图2展示了根据本发明的一个实施例的处理方法的步骤;
-图3展示了根据本发明的第一实施例的包括处理设备的解码器;
-图4展示了根据本发明的第二实施例的包括处理设备的解码器;以及
-图5展示了根据本发明的一个实施例的处理设备的硬件表示。
具体实施方式
图1示意性地展示了诸如在以上参考的文档中指定的MPEG-H 3D音频标准中标准化的解码器。块101是核心解码模块,该核心解码模块对“声道”类型的多声道音频信号(Ch.)、“对象”类型的单声道音频信号(Obj.)(这些单声道音频信号与(元数据)空间化参数(Obj.MeDa.)相关联)、以及HOA(表示“高阶高保真立体声”)音频格式的音频信号进行解码。
声道类型的信号由声道呈现器102(在MPEG-H 3D音频标准中也称为“格式转换器”)进行解码和处理,以使该声道信号适应于音频呈现系统。声道呈现器知道呈现系统的特性,并且因此每个呈现声道(Rdr.Ch)传送一个信号,以馈入真实扬声器或虚拟扬声器(然后,该信号将被双耳化以通过头戴式耳机进行呈现)。
由混合模块110将这些呈现声道与由下文描述的对象呈现器103和HOA呈现器105生成的其他呈现声道混合。
对象类型的信号(Obj.)是与诸如允许单声道信号被定位在空间化的音频场景中的空间参数(方位角、仰角)、优先级参数或音频音量参数等元数据相关联的单声道信号。该对象信号和相关联的参数由解码模块101进行解码,并且由对象呈现器103进行处理,该对象呈现器知道呈现系统的特性,并使这些单声道信号适应于这些特性。通过混合模块110将如此创建的各个呈现声道(Rdr.Obj.)与由声道呈现器和HOA呈现器生成的其他呈现声道混合。
以相同的方式,对HOA(表示“高阶高保真立体声”)信号进行解码,并且将经解码的高保真立体声分量输入到HOA呈现器105,以使这些分量适应于音频呈现系统。
将由该HOA呈现器创建的呈现声道(Rdr.HOA)在110中与由其他呈现器102和103创建的呈现声道混合。
从混合模块110输出的信号可以由位于呈现室内的真实扬声器HP进行呈现。在这种情况下,从混合模块输出的信号可以直接馈入这些真实扬声器,一个声道对应一个扬声器。
在从混合模块输出的信号将由音频头戴式耳机CA进行呈现的情况下,则这些信号由用于执行双耳化处理的模块120使用诸如例如在关于MPEG-H3D音频标准引用的文档中描述的双耳化技术进行处理。
因此,旨在通过音频头戴式耳机进行呈现的所有信号都由用于执行双耳化处理的模块120进行处理。
图2展示了根据本发明的一个实施例的处理方法的步骤。
该方法涉及在3D音频解码器中处理单声道信号。步骤E200检测表示单声道信号的数据流(SMo)(例如,输入到音频解码器中的比特流)是否包括与呈现空间位置信息相关联的非双耳化指示。在否定的情况下(步骤E200中的“否”),必须对信号进行双耳化。该信号通过在步骤E210中执行双耳化处理来进行处理,然后在E240中由呈现音频头戴式耳机进行呈现。该双耳化信号可以如上所述地与在步骤E220中生成的其他立体声信号混合。
在表示单声道信号的数据流包括非双耳化指示(Di.)和呈现空间位置信息(Pos.)的情况下(步骤E200中的“是”),将经解码的单声道信号定向到立体声呈现器以在步骤E220中进行处理。
如在现有技术中一样,该非双耳化指示可以例如是赋予单声道信号的“两耳分听”标识或被理解为不用双耳化处理来处理信号的指令的另一标识。呈现空间位置信息可以例如是指示声音相对于左耳或右耳的呈现位置的方位角、或者甚至是左声道与右声道之间的声级差的指示(诸如允许将单声道信号的能量在左声道与右声道之间进行分配的ILD信息)、或者甚至是将使用与右耳或左耳相对应的单个呈现声道的指示。在后一种情况下,该信息是需要非常少带宽(1个单数据比特)的二进制信息。
在步骤E220中,考虑位置信息以针对音频头戴式耳机的两个耳机来构造两个呈现声道。如此构造的这两个呈现声道通过直接混合步骤E230直接进行处理,该混合步骤将这两个立体声声道与从双耳化处理E210产生的两个双耳化信号声道相加。
然后,将立体声呈现声道中的每一个与对应的双耳化信号相加。
在该直接混合步骤之后,在E240中通过音频头戴式耳机CA对在混合步骤E230中生成的这两个呈现声道进行呈现。
在呈现空间位置信息是指示呈现音频头戴式耳机的单个声道的二进制数据的实施例中,这意味着单声道信号必须仅通过该头戴式耳机的一个耳机进行呈现。因此,在步骤E220中由立体声呈现器构造的这两个呈现声道由包括单声道信号的一个声道构成,另一个声道为空,并且因此可能不存在。
因此,在直接混合步骤E230中,将单个声道与双耳化信号的对应声道相加(另一个声道为空)。因此,简化了该混合步骤。
因此,佩戴音频头戴式耳机的听者一方面听到从双耳化信号生成的空间音频场景(在动态呈现的情况下,即使听者移动其头部,由该听者听到的音频场景的物理布局也保持相同),并且另一方面听到位于其头部内部、在一只耳朵与其头部的中心之间的声音,该声音独立地叠加在音频场景上,即,如果听者移动其头部,则将在相对于一只耳朵的相同位置处听到该声音。
因此,该声音被感知为叠加在音频场景的其他双耳化的声音上,并且将例如在该音频场景中起到画外音的作用。
因此,实现了“听筒”效果。
图3展示了包括处理设备的解码器的第一实施例,该处理设备实施参考图2描述的处理方法。在该示例实施例中,由所实施的过程处理的单声道信号是声道类型的信号(Ch.)。
对象类型的信号(Obj.)和HOA类型的信号(HOA)由相应的块303、304和305以与参考图1描述的块103、104和105相同的方式进行处理。以相同的方式,混合块310执行诸如关于图1的块110所描述的混合。
接收声道类型的信号的块330处理包括与呈现位置空间信息(Pos.)相关联的非双耳化指示(Di.)的单声道信号,该单声道信号与不包含这些信息的另一信号、尤其是多声道信号不同。关于不包含这些信息的这些信号,由块302以与参考图1描述的块102相同的方式对这些信号进行处理。
对于包含与呈现空间位置信息相关联的非双耳化指示的单声道信号,块330充当路由器或交换机,并且将经解码的单声道信号(Mo.)定向到立体声呈现器331。此外,立体声呈现器从解码模块接收呈现空间位置信息(Pos.)。利用该信息,立体声呈现器构造与呈现音频头戴式耳机的左声道和右声道相对应的两个呈现声道(2Vo.),使得这些声道可以通过音频头戴式耳机CA进行呈现。
在一个示例实施例中,呈现空间位置信息是关于左声道与右声道之间的耳间声级差的信息。该信息允许定义必须应用到每个呈现声道以实现该呈现空间位置的因子。
这些因子可以如在参考MPEG-2AAC:ISO/IEC 13818-4:2004/DCOR 2的文档的章节7.2中的描述强度立体声的AAC中定义的。
在通过音频头戴式耳机进行呈现之前,这些呈现声道被添加到由双耳化模块320生成的双耳化信号的声道,该双耳化模块以与图1的块120相同的方式执行双耳化处理。
对这些声道进行相加的这个步骤由直接混合模块340执行,该直接混合模块将由立体声呈现器331生成的左声道与由双耳化处理模块320生成的双耳化信号的左声道相加,并且将由立体声呈现器331生成的右声道与由双耳化处理模块320产生的双耳化信号的右声道相加,然后通过头戴式耳机CA进行呈现。
因此,单声道信号不通过双耳化处理模块320:在直接与双耳化信号混合之前,该单声道信号直接被传输到立体声呈现器331。
因此,该信号也将不会经历头部跟踪处理。因此,被呈现的声音将处于相对于听者的一只耳朵的呈现位置处,并且即使听者移动其头部也将保持在该位置。
在该实施例中,立体声呈现器331可以被集成到声道呈现器302中。在这种情况下,当接收到呈现空间位置信息(Pos.)时,该声道呈现器既实施如参考图1所述的对常规声道类型的信号的适配,又实施如上所解释的由呈现器331对两个呈现声道的构造。然后,在通过音频头戴式耳机CA进行呈现之前,仅将这两个呈现声道重定向到直接混合模块340。
在一个变体实施例中,立体声呈现器331被集成到直接混合模块340中。在这种情况下,路由模块330将经解码的单声道信号(已经检测到其具有非双耳化指示和呈现空间位置信息)定向到直接混合模块340。此外,经解码的呈现空间位置信息(Pos.)也被传输到直接混合模块340。然后,由于该直接混合模块包括立体声呈现器,因此该直接混合模块在考虑呈现空间位置信息的情况下实施对两个呈现声道的构造,并且实施对这两个呈现声道与由双耳化处理模块320生成的双耳化信号的呈现声道的混合。
图4展示了包括处理设备的解码器的第二实施例,该处理设备实施参考图2描述的处理方法。在该示例实施例中,使用所实施的过程处理的单声道信号是对象类型的信号(Obj.)。
声道类型的信号(Ch.)和HOA类型的信号(HOA)由相应的块402和405以与参考图1描述的块102和105相同的方式处理。以相同的方式,混合块410执行诸如关于图1的块110所描述的混合。
接收对象类型的信号(Obj.)的块430处理已经检测到其具有与呈现位置空间信息(Pos.)相关联的非双耳化指示(Di.)的单声道信号,该单声道信号与未检测到其具有这些信息的另一单声道信号不同。
关于未检测到其具有这些信息的单声道信号,由块403以与参考图1描述的块103相同的方式使用由块404(该块以与图1的块104相同的方式对元数据进行解码)解码的参数对这些单声道信号进行处理。
对于已经检测到其具有与呈现空间位置信息相关联的非双耳化指示的对象类型的单声道信号,块430充当路由器或交换机,并且将经解码的单声道信号(Mo.)定向到立体声呈现器431。
由块404对非双耳化指示(Di.)和呈现空间位置信息(Pos.)进行解码,以解码与对象类型的信号相关联的元数据或参数。将非双耳化指示(Di.)传输到路由块430,并且将呈现空间位置信息传输到立体声呈现器431。
因此接收呈现空间位置信息(Pos.)的立体声呈现器构造与呈现音频头戴式耳机的左声道和右声道相对应的两个呈现声道,使得这些声道可以通过音频头戴式耳机CA进行呈现。
在一个示例实施例中,呈现空间位置信息是关于方位角的信息,该方位角限定期望的呈现位置与听者的头部的中心之间的角度。
该信息允许定义必须应用到每个呈现声道以实现该呈现空间位置的因子。
左声道和右声道的增益因子可以以Ville Pulkki在J.Audio Eng.Soc.[音频工程学会志],第45卷,第6号,1997年6月中的标题为“Virtual Sound Source PositioningUsing Vector Base Amplitude Panning[使用矢量基幅值相移的虚拟声源定位]”的文档中提出的方法进行计算。
例如,立体声呈现器的增益因子可以由下式给出:
g1=(cosO.sinH+sinO.cosH)/(2.cosH.sinH)
g2=(cosO.sinH-sinO.cosH)/(2.cosH.sinH)
其中,g1和g2对应于左声道和右声道的信号的因子,O是正面方向与对象之间的角度(称为方位角),并且H是正面方向与虚拟扬声器的位置之间的角度(对应于扬声器之间的半角),该角度例如被设置为45°。
在通过音频头戴式耳机进行呈现之前,这些呈现声道被添加到由双耳化模块420生成的双耳化信号的声道,该双耳化模块以与图1的块120相同的方式执行双耳化处理。
对这些声道进行相加的这个步骤由直接混合模块440执行,该直接混合模块将由立体声呈现器431生成的左声道与由双耳化处理模块420生成的双耳化信号的左声道相加,并且将由立体声呈现器431生成的右声道与由双耳化处理模块420产生的双耳化信号的右声道相加,然后通过头戴式耳机CA进行呈现。
因此,单声道信号不通过双耳化处理模块420:在直接与双耳化信号混合之前,该单声道信号直接被传输到立体声呈现器431。
因此,该信号也将不会经历头部跟踪处理。因此,被呈现的声音将处于相对于听者的一只耳朵的呈现位置处,并且即使听者移动其头部也将保持在该位置。
在该实施例中,立体声呈现器431可以被集成到对象呈现器403中。在这种情况下,当从参数解码模块404接收到呈现空间位置信息(Pos.)时,该对象呈现器既实施如参考图1所述的对常规对象类型的信号的适配,又实施如上所解释的由呈现器431对两个呈现声道的构造。然后,在通过音频头戴式耳机CA进行呈现之前,仅将这两个呈现声道(2Vo.)重定向到直接混合模块440。
在一个变体实施例中,立体声呈现器431被集成到直接混合模块440中。在这种情况下,路由模块430将经解码的单声道信号(Mo.)(已经检测到其具有非双耳化指示和呈现空间位置信息)定向到直接混合模块440。此外,经解码的呈现空间位置信息(Pos.)也由参数解码模块404传输到直接混合模块440。然后,由于该直接混合模块包括立体声呈现器,因此该直接混合模块在考虑呈现空间位置信息的情况下实施对两个呈现声道的构造,并且实施对这两个呈现声道与由双耳化处理模块420生成的双耳化信号的呈现声道的混合。
现在,图5展示了能够实施根据本发明的处理方法的处理设备的硬件实施例的示例。
设备DIS包括存储空间530(例如存储器MEM)和处理单元520,该处理单元包括处理器PROC并实施根据本发明的处理方法,该处理器由存储在存储器530中的计算机程序Pg控制。
计算机程序Pg包含代码指令,当这些指令由处理器PROC执行时,这些指令实施根据本发明的处理方法的步骤,并且特别地,当在表示该单声道信号的数据流中检测到与呈现空间位置信息相关联的非双耳化处理指示时,将该经解码的单声道信号定向到立体声呈现器的步骤,该立体声呈现器考虑该位置信息以构造两个呈现声道,这两个呈现声道利用将这两个声道与从双耳化处理产生的双耳化信号相加的直接混合步骤被直接处理,以通过该音频头戴式耳机对这两个呈现声道进行呈现。
通常,图2的描述适用于这种计算机程序的算法的这些步骤。
在初始化时,在程序Pg的代码指令由处理单元520的处理器PROC执行之前,这些代码指令被例如加载到RAM(未示出)中。程序指令可以存储在存储介质中,诸如闪速存储器、硬盘或任何其他非暂态存储介质。
设备DIS包括接收模块510,该接收模块能够接收尤其是表示单声道信号的数据流SMo。该设备包括检测模块540,该检测模块能够在该数据流中检测与呈现空间位置信息相关联的非双耳化处理指示。该设备包括用于在检测模块540肯定检测的情况下将经解码的单声道信号定向到立体声呈现器560的模块550,立体声呈现器560能够考虑位置信息以构造两个呈现声道。
设备DIS还包括直接混合模块570,该直接混合模块能够通过将这两个呈现声道与由双耳化处理模块生成的双耳化信号的两个声道相加来直接处理这两个呈现声道。将如此获得的呈现声道经由输出模块560传输到音频头戴式耳机CA,以进行呈现。
这些各个模块的实施例如参考图3或图4所描述的。
术语模块可以对应于软件部件或硬件部件或硬件部件和软件部件的组件,软件部件本身对应于一个或多个计算机程序或子例程或者更一般地对应于能够实施诸如针对讨论中的模块所描述的一个功能或一组功能的程序的任何元素。以相同的方式,硬件部件对应于能够实施针对讨论中的模块的一个功能或一组功能的硬件组件的任何元件(集成电路、芯片卡、存储器卡等)。
设备可以被集成到诸如图3或图4展示的音频解码器中,并且可以例如被集成到诸如机顶盒、或音频或视频内容读取器等多媒体设备中。他们还可以被集成到诸如蜂窝电话或通信网关等通信设备中。
Claims (14)
1.一种用于在3D音频解码器中处理音频单声道信号的方法,该方法包括对旨在通过音频头戴式耳机以空间方式呈现的经解码信号执行双耳化处理的步骤,其特征在于,
当在表示该单声道信号的数据流中检测(E200)到与呈现空间位置信息相关联的非双耳化处理指示时,将该经解码的单声道信号定向到(O-E200)立体声呈现器,该立体声呈现器考虑该位置信息以构造两个呈现声道(E220),这两个呈现声道利用将这两个声道与从双耳化处理产生的双耳化信号相加的直接混合步骤(E230)被直接处理,以通过该音频头戴式耳机对这两个呈现声道进行呈现(E240)。
2.如权利要求1所述的方法,其中,该呈现空间位置信息是指示该呈现音频头戴式耳机的单个声道的二进制数据。
3.如权利要求2所述的方法,其中,在该直接混合步骤中,仅将与由该二进制数据指示的声道相对应的呈现声道与该双耳化信号的对应声道相加,另一呈现声道的值为空。
4.如权利要求1所述的方法,其中,该单声道信号是具有该呈现空间位置信息的、被定向到该立体声呈现器的声道类型的信号。
5.如权利要求4所述的方法,其中,该呈现空间位置信息是关于耳间声级差(ILD)的数据。
6.如权利要求1所述的方法,其中,该单声道信号是与包括该非双耳化指示和该呈现位置信息的一组呈现参数相关联的对象类型的信号,该信号与该呈现位置信息一起被定向到该立体声呈现器。
7.如权利要求6所述的方法,其中,该呈现空间位置信息是关于方位角的数据。
8.一种用于处理音频单声道信号的设备,该设备包括用于对旨在通过音频头戴式耳机以空间方式呈现的经解码信号执行双耳化处理的模块,其特征在于,该设备包括:
-检测模块(330;430),该检测模块能够在表示该单声道信号的数据流中检测与呈现空间位置信息相关联的非双耳化处理指示;
-用于重定向的模块(330,430),该模块在该检测模块肯定检测的情况下能够将该经解码的单声道信号定向到立体声呈现器;
-立体声呈现器(331;431),该立体声呈现器能够考虑该位置信息以构造两个呈现声道;
-直接混合模块(340;440),该直接混合模块能够通过将这两个呈现声道与由用于执行双耳化处理的模块(320;420)生成的双耳化信号相加来直接处理这两个呈现声道,以通过该音频头戴式耳机对这两个呈现声道进行呈现。
9.如权利要求8所述的处理设备,其中,该立体声呈现器被集成到该直接混合模块中。
10.如权利要求8所述的设备,其中,该单声道信号是声道类型的信号,并且其中,该立体声呈现器被集成到声道呈现器中,该声道呈现器还构造用于多声道信号的呈现声道。
11.如权利要求8所述的设备,其中,该单声道信号是对象类型的信号,并且其中,该立体声呈现器被集成到对象呈现器中,该对象呈现器还构造用于与多组呈现参数相关联的单声道信号的呈现声道。
12.一种包括如权利要求8至11之一所述的处理设备的音频解码器。
13.一种包含代码指令的计算机程序,当这些指令由处理器执行时,这些指令用于实施如权利要求1至7之一所述的处理方法的步骤。
14.一种处理器可读存储介质,该处理器可读存储介质存储有包含指令的计算机程序,这些指令用于执行如权利要求1至7之一所述的处理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1762478 | 2017-12-19 | ||
FR1762478A FR3075443A1 (fr) | 2017-12-19 | 2017-12-19 | Traitement d'un signal monophonique dans un decodeur audio 3d restituant un contenu binaural |
PCT/FR2018/053161 WO2019122580A1 (fr) | 2017-12-19 | 2018-12-07 | Traitement d'un signal monophonique dans un décodeur audio 3d restituant un contenu binaural |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111492674A true CN111492674A (zh) | 2020-08-04 |
CN111492674B CN111492674B (zh) | 2022-03-15 |
Family
ID=62222744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880081437.9A Active CN111492674B (zh) | 2017-12-19 | 2018-12-07 | 在3d音频解码器中处理单声道信号以传送双耳内容 |
Country Status (8)
Country | Link |
---|---|
US (1) | US11176951B2 (zh) |
EP (2) | EP4135350A1 (zh) |
JP (2) | JP7279049B2 (zh) |
KR (1) | KR102555789B1 (zh) |
CN (1) | CN111492674B (zh) |
BR (1) | BR112020012071A2 (zh) |
FR (1) | FR3075443A1 (zh) |
WO (1) | WO2019122580A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4018686B1 (en) * | 2019-08-19 | 2024-07-10 | Dolby Laboratories Licensing Corporation | Steering of binauralization of audio |
TW202348047A (zh) * | 2022-03-31 | 2023-12-01 | 瑞典商都比國際公司 | 用於沉浸式3自由度/6自由度音訊呈現的方法和系統 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070213990A1 (en) * | 2006-03-07 | 2007-09-13 | Samsung Electronics Co., Ltd. | Binaural decoder to output spatial stereo sound and a decoding method thereof |
US20080056503A1 (en) * | 2004-10-14 | 2008-03-06 | Dolby Laboratories Licensing Corporation | Head Related Transfer Functions for Panned Stereo Audio Content |
CN102165798A (zh) * | 2008-09-25 | 2011-08-24 | 杜比实验室特许公司 | 用于单声道相容性和外放扬声器相容性的双耳滤波器 |
CN102414743A (zh) * | 2009-04-21 | 2012-04-11 | 皇家飞利浦电子股份有限公司 | 音频信号合成 |
US20120177204A1 (en) * | 2009-06-24 | 2012-07-12 | Oliver Hellmuth | Audio Signal Decoder, Method for Decoding an Audio Signal and Computer Program Using Cascaded Audio Object Processing Stages |
US20160266865A1 (en) * | 2013-10-31 | 2016-09-15 | Dolby Laboratories Licensing Corporation | Binaural rendering for headphones using metadata processing |
US20160300577A1 (en) * | 2015-04-08 | 2016-10-13 | Dolby International Ab | Rendering of Audio Content |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09327100A (ja) * | 1996-06-06 | 1997-12-16 | Matsushita Electric Ind Co Ltd | ヘッドホン再生装置 |
US20090299756A1 (en) * | 2004-03-01 | 2009-12-03 | Dolby Laboratories Licensing Corporation | Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners |
KR101431253B1 (ko) * | 2007-06-26 | 2014-08-21 | 코닌클리케 필립스 엔.브이. | 바이노럴 오브젝트―지향 오디오 디코더 |
ES2592416T3 (es) * | 2008-07-17 | 2016-11-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Esquema de codificación/decodificación de audio que tiene una derivación conmutable |
WO2010085083A2 (en) * | 2009-01-20 | 2010-07-29 | Lg Electronics Inc. | An apparatus for processing an audio signal and method thereof |
-
2017
- 2017-12-19 FR FR1762478A patent/FR3075443A1/fr active Pending
-
2018
- 2018-12-07 KR KR1020207018299A patent/KR102555789B1/ko active IP Right Grant
- 2018-12-07 JP JP2020533148A patent/JP7279049B2/ja active Active
- 2018-12-07 WO PCT/FR2018/053161 patent/WO2019122580A1/fr unknown
- 2018-12-07 EP EP22197901.6A patent/EP4135350A1/fr active Pending
- 2018-12-07 CN CN201880081437.9A patent/CN111492674B/zh active Active
- 2018-12-07 US US16/955,398 patent/US11176951B2/en active Active
- 2018-12-07 BR BR112020012071-5A patent/BR112020012071A2/pt unknown
- 2018-12-07 EP EP18833274.6A patent/EP3729832B1/fr active Active
-
2023
- 2023-05-09 JP JP2023077357A patent/JP2023099599A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080056503A1 (en) * | 2004-10-14 | 2008-03-06 | Dolby Laboratories Licensing Corporation | Head Related Transfer Functions for Panned Stereo Audio Content |
US20070213990A1 (en) * | 2006-03-07 | 2007-09-13 | Samsung Electronics Co., Ltd. | Binaural decoder to output spatial stereo sound and a decoding method thereof |
CN102165798A (zh) * | 2008-09-25 | 2011-08-24 | 杜比实验室特许公司 | 用于单声道相容性和外放扬声器相容性的双耳滤波器 |
CN102414743A (zh) * | 2009-04-21 | 2012-04-11 | 皇家飞利浦电子股份有限公司 | 音频信号合成 |
US20120177204A1 (en) * | 2009-06-24 | 2012-07-12 | Oliver Hellmuth | Audio Signal Decoder, Method for Decoding an Audio Signal and Computer Program Using Cascaded Audio Object Processing Stages |
US20160266865A1 (en) * | 2013-10-31 | 2016-09-15 | Dolby Laboratories Licensing Corporation | Binaural rendering for headphones using metadata processing |
US20160300577A1 (en) * | 2015-04-08 | 2016-10-13 | Dolby International Ab | Rendering of Audio Content |
Also Published As
Publication number | Publication date |
---|---|
EP3729832A1 (fr) | 2020-10-28 |
KR102555789B1 (ko) | 2023-07-13 |
US20210012782A1 (en) | 2021-01-14 |
KR20200100664A (ko) | 2020-08-26 |
JP2021508195A (ja) | 2021-02-25 |
EP3729832B1 (fr) | 2024-06-26 |
RU2020121890A (ru) | 2022-01-04 |
EP4135350A1 (fr) | 2023-02-15 |
JP2023099599A (ja) | 2023-07-13 |
FR3075443A1 (fr) | 2019-06-21 |
EP3729832C0 (fr) | 2024-06-26 |
CN111492674B (zh) | 2022-03-15 |
US11176951B2 (en) | 2021-11-16 |
WO2019122580A1 (fr) | 2019-06-27 |
JP7279049B2 (ja) | 2023-05-22 |
BR112020012071A2 (pt) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103650539B (zh) | 用于自适应音频信号产生、编码和呈现的系统和方法 | |
JP2019533404A (ja) | バイノーラルオーディオ信号処理方法及び装置 | |
EP3668125B1 (en) | Method and apparatus for rendering acoustic signal | |
CN105103571A (zh) | 用于生成和交互式地渲染基于对象的音频的方法和系统 | |
US12035127B2 (en) | Spatial audio capture, transmission and reproduction | |
JP2023099599A (ja) | バイノーラルコンテンツを配信する3d音声デコーダにおけるモノラル信号の処理 | |
EP3824464B1 (en) | Controlling audio focus for spatial audio processing | |
CN114600188A (zh) | 用于音频编码的装置和方法 | |
JP7371968B2 (ja) | メタデータを利用するオーディオ信号処理方法及び装置 | |
EP4085661A1 (en) | Audio representation and associated rendering | |
EP3803860A1 (en) | Spatial audio parameters | |
US8542839B2 (en) | Audio processing apparatus and method of mobile device | |
US12089028B2 (en) | Presentation of premixed content in 6 degree of freedom scenes | |
KR20190060464A (ko) | 오디오 신호 처리 방법 및 장치 | |
RU2779295C2 (ru) | Обработка монофонического сигнала в декодере 3d-аудио, предоставляющая бинауральный информационный материал | |
WO2020074770A1 (en) | Spatial audio augmentation and reproduction | |
Sugimoto | Specification of audio representations in audio-related standards―Three audio representations: channel-based, object-based, and scene-based― | |
Geier et al. | The Future of Audio Reproduction: Technology–Formats–Applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |